CN116152888A

CN116152888A - 一种基于超短视频样本快速生成虚拟人动态名片的方法

Info

Publication number: CN116152888A
Application number: CN202211691788.6A
Authority: CN
Inventors: 陈萍; 高培培; 王小玲; 王峰
Original assignee: Jiangsu Haobai Technology Co ltd
Current assignee: Jiangsu Haobai Technology Co ltd
Priority date: 2022-12-28
Filing date: 2022-12-28
Publication date: 2023-05-23

Abstract

本发明公开了一种基于超短视频样本快速生成虚拟人动态名片的方法，包括基于自我介绍文本进行自我介绍音频合成，得到语音流文件；从超短视频样本文件路径中读取人像视频素材流并进行处理，得到人脸视频单元文件；对人脸视频单元文件进行五官特征向量萃取，得到人脸面部五官特征向量；根据语音流文件、人脸视频单元文件和人脸面部五官特征向量生成嘴型与声音一致的完整自我介绍视频；将完整自我介绍视频按照名片模板进行调整，获得与名片模板同尺寸的自我介绍底版视频；对自我介绍底版视频采用名片模板进行遮盖，生成最终的虚拟人动态名片。本发明降低了虚拟人动态名片的成本与制作时间，使动态名片的制作过程趋向标准化和便捷化。

Description

一种基于超短视频样本快速生成虚拟人动态名片的方法

技术领域

本发明属于数字人视频应用技术领域，具体涉及一种基于超短视频样本快速生成虚拟人动态名片的方法。

背景技术

随着5G通信网络与视频通信技术的不断发展，社交网络、各类短视频平台所提供的服务更为智能，使得交流通信从扁平的文字向信息量更为丰富的视频过渡，视频作为一种通信媒介逐渐成为了交流通信的主流方式。与此同时，数字人合成与动作捕捉技术日益发展，虚拟主播、视频客服逐渐成为新的业界形态。在5G视频化的趋势中，比起静态名片，能传递更多信息的动态名片自然成为商务交流展示的新兴选择。

动态名片在公司logo、个人信息展示等功能上与纸质名片一致，但相比于纸质名片，动态名片中的身份照片可以替换成动态的自我展示视频。真人出演的动态名片的制作需要用户自主拍摄视频，对用户的表达能力、语言标准程度以及镜头展示能力有较高的要求，一段自我介绍视频往往需要多次录制，需要专业摄影团队进行拍摄，耗时许久才能完成。对于进行动态名片制作的商家而言，有限的人力和时间使得动态名片的制作不能像普通纸质名片一样轻松。

而采用数字虚拟人进行动态名片合成，又存在虚拟人生成成本过高，动作捕捉设施投入大制作耗时耗力的现状。一个与名片所属真人高度相似、表情动作自然，建模好看的数字虚拟人，在动作捕捉、视频渲染等各种阶段都需要消耗大量的训练数据与算力，如此合成的数字虚拟人具有较强的版权性，几乎无法进行复用，对于个人用户而言，投入巨额花费只为进行个人名片展示不切实际。

因此，如何削减简单数字虚拟人的生成成本，降低用户参与度，降低对用户自我展示水平的要求，使用户在提供简单静态高清照片或短视频静默样本的基础上，快速生成高清美观的动态名片，实现个人名片动态展示，成为一个亟待解决的问题。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足，提供一种基于超短视频样本快速生成虚拟人动态名片的方法，涉及超短视频样本下数字人快速合成与视频蒙版，一是对超短视频样本取任意单帧做人脸位置特征生成，获取嘴唇在面部表示中的特征向量；再通过预训练的唇形文本对应模型，改变嘴唇特征向量表示，根据输入的名片介绍文字和选定的发声人声音，逐帧生成嘴唇表现形象，基于小样本快速合成嘴型与文字对应的虚拟人介绍视频；二是基于设计好的写有个人信息的图片版名片模板，将生成好的人像视频嵌入到名片模板中，使人物动态视频恰好展示在名片模板的合适位置，形成动态名片效果。

为实现上述技术目的，本发明采取的技术方案为：

一种基于超短视频样本快速生成虚拟人动态名片的方法，包括：

步骤1：基于自我介绍文本进行自我介绍音频合成，得到语音流文件；

步骤2：从超短视频样本文件路径中读取人像视频素材流并进行处理，得到人脸视频单元文件；

步骤3：对人脸视频单元文件进行五官特征向量萃取，得到人脸面部五官特征向量；

步骤4：根据语音流文件、人脸视频单元文件和人脸面部五官特征向量生成嘴型与声音一致的完整自我介绍视频；

步骤5：将完整自我介绍视频按照名片模板进行调整，获得与名片模板同尺寸的自我介绍底版视频；

步骤6：对自我介绍底版视频采用名片模板进行遮盖，生成最终的虚拟人动态名片。

为优化上述技术方案，采取的具体措施还包括：

上述的步骤1根据用户提交的自我介绍文本，选择好发声人音色ID、输入声音音量、语速，调用TTS语音合成引擎接口，合成动态名片的自我介绍音频文件。

上述的步骤2从输入的超短视频样本文件路径中逐帧读取人像视频素材的流，读取结束后将获取的流信息做倒置处理，拼接到原本正向流文件末尾，形成先正放再倒放的视频流素材单元，合成视频文件后，保存到人脸视频单元文件路径下。

上述的步骤3读取步骤2中得到的人脸视频单元文件，截取其中一帧进行人脸检测，调用预训练的五官特征向量萃取模型，判断当前图片中是否检测到人脸五官，如果没有检测到，则提前终止虚拟人视频生成过程，如果检测到，则输出当前图片中检测到的人脸面部五官的关键特征点构成的向量特征。

上述的五官特征向量萃取模型为卷积神经网络模型。

上述的步骤4读取步骤1中生成的语音流文件，取出语音流文件中能表征语音信息的特征频谱，读取步骤2中生成的人脸视频单元文件全部帧，取用步骤3中生成的人脸面部五官特征向量，调用预训练的唇形文字特征拟合算法，获取嘴型与声音一致的完整自我介绍视频。

上述的唇形文字特征拟合算法为基于PaddleGan的算法，其逐帧对嘴型特征向量做文字适配，获取嘴型与声音一致的完整自我介绍视频。

上述的步骤5获取名片模板的长宽分辨率信息，创建写入视频的类，设置新视频的大小与名片模板长宽相同，通过ffmpeg将完整自我介绍视频调整到长宽分辨率均小于名片模板，逐帧读取调整后的自我介绍视频帧，读取后，对于每一帧，用copyMakeBorder方式加宽自我介绍视频帧，将其填充为与名片模板长宽完全一致的视频帧。

上述的步骤5通过上下左右加不同宽度边界的方式调整人像的位置，使得人像视频恰好位于原名片模板人像照片位置。

上述的步骤6逐帧读取底版视频，对于每一帧，用名片模板对其进行遮盖；

所述名片模板中，需要放置视频人像的部位在进行名片设计时已用名片中主体设计用不到的指定颜色占位；

在遮盖时，对于名片模板中指定颜色占位的区域，选择名片蒙版不可见，此时被遮盖的底部人像视频帧得以显露出来，处理结束的帧再重新合成嘴型变化但没有声音的视频，最后用ffmpeg将获取的嘴型变化但没有声音的视频与自我介绍语音音频进行合成，生成最终的虚拟人动态名片。

本发明具有以下有益效果：

本发明方法一是通过算法萃取出短视频样本帧中人脸五官的特征向量参数，再通过唇形与文字适配算法，根据输入的名片介绍文字和选定的发声人声音，改变萃取的唇形特征向量，逐帧合成嘴型与文字对应的图片人物自主说话的视频，解决了实际应用中自我介绍视频需要用户本人出演录制，对于表达能力与展示水平要求高的问题。同时，运用唇形适配算法，将全脸虚拟人建模问题转为简单的花费低的唇形迁移问题，解决了不用真人录制而用虚拟人建模时花费的不必要的建模费，降低了虚拟人动态名片的成本。基于预训练的人脸模型与唇形特征拟合算法可以基于超短视频样本在几分钟内生成高清的虚拟人视频，极大地降低了动态名片的制作时间，使动态名片的设计与纸质名片的设计时长趋于一致，为纸质名片向动态名片过渡提供了良好的推广基础。

本发明方法二是基于设计好的写有个人信息的图片版名片模板，将生成好的人像视频嵌入到名片模板中，使人物动态视频恰好展示在名片模板的合适位置，形成动态名片的效果。将设计动态名片转换为设计纸质名片与嵌入自我介绍视频，减少了对用户视频大小的依赖，使得各种尺寸的视频可以恰到好处的将人脸部位展现在动态名片预留框中，用户可以选择预设的纸质名片模板，使动态名片的制作过程趋向标准化和便捷化。

1.本发明启用视频帧倒置拼接的方式处理人像素材单元，实现人脸视频的平滑，使得生成的虚拟人视频更为自然；

2.本发明采用人脸五官特征向量提取与唇形文字特征拟合技术，实现基于超短视频样本的人脸特征捕捉与调整，实现快速高清且相似度高的虚拟人视频生成，成本低廉，生成速度快，解决了动作捕捉创建虚拟人的高花费和长周期，满足动态名片低成本批量制作的要求；

3.本发明将人像视频与名片模板制作分离开来，名片制作仍采用传统纸质名片设计，人像视频生成好后，采用名片蒙版的方式进行嵌合，提供了动态名片标准化模板制作的可能性；

4.本发明通过调用TTS接口自动合成自我介绍音频，降低了对用户的语言表达与普通话要求，减少了名片制作时间。

附图说明

图1为本发明方法的总体流程图；

图2为本发明中数字人嘴型向量调整视频生成过程流程图；

图3为本发明中名片模板人像视频嵌入过程流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明中的步骤虽然用标号进行了排列，但并不用于限定步骤的先后次序，除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础，否则步骤的相对次序是可以调整的。可以理解，本文中所使用的术语“和/或”涉及且涵盖相关联的所列项目中的一者或一者以上的任何和所有可能的组合。

如图1所示，假设需要基于静默人像超短视频样本与名片模板以及自我介绍文本快速生成人像嘴型与播报文字一致的动态名片。首先需要基于人像素材视频以及自我介绍文本合成的语音介绍文件对人像的唇形变化进行拟合，生成面部嘴唇变化与发音一致的高相似虚拟视频；其次需要将生成后的人像视频嵌入到名片模板中原本预留的人物照片展示的位置，形成身份信息、公司名称与logo等原名片内容不变，但名片中的照片开口进行自我介绍的名片动态效果。因此本发明方法的具体步骤主要包含两个部分，分别是数字人嘴型向量调整视频生成过程(如图2)和名片模板人像视频嵌入过程(如图3)。

(1)数字人嘴型向量调整视频生成过程

数字人嘴型向量调整视频生成过程主要是对人像的自我介绍音频进行合成，将人像的嘴型特征向量与自我介绍的声音进行拟合，具体步骤如下所示：

步骤1：基于自我介绍文本进行自我介绍音频合成，得到语音流文件：

根据用户提交的自我介绍文本，选择好发声人音色ID、输入声音音量、语速等参数，调用本模块提供的TTS语音合成引擎接口，合成动态名片的自我介绍音频文件，存放到与生成任务一一绑定，隶属于当前用户的指定的文件路径下(即与人像视频素材一起，嘴型特征向量拟合服务中)；

最终生成的人像播音视频是由短视频样本延长拼接而成，由于静默人像拍摄时，人物躯干会有微小的晃动，在进行拼接延长时将产生细小的不和谐感，为提升视频的平滑度，此处需对视频素材流做倒置拼接处理：

从输入的超短视频样本文件路径中读取视频文件的所有帧(即先逐帧读取人像视频素材的流)，读取结束后将获取的流信息做倒置处理，拼接到原本正向流文件末尾，形成先正放再倒放的视频流素材单元，合成视频文件后，保存到与该任务一一对应的人脸视频单元文件路径下；

步骤3：对人脸视频单元文件进行五官特征向量萃取，得到人脸面部五官特征向量：

读取步骤2中得到的人脸视频单元文件，截取其中(人像视频素材流中)一帧进行人脸检测，人脸识别的技术已经趋于成熟，在本方法中采用的是基于大样本人脸素材训练好了的封装完备的预训练算法工具，四层的卷积神经网络，调用预训练的五官特征向量萃取模型(卷积神经网络)接口，将会判断当前图片中是否检测到人脸五官，如果没有检测到，则提前终止虚拟人视频生成过程，如果检测到，则输出当前图片中检测到的人脸面部五官的关键特征点构成的向量特征，用于步骤4中进行唇型拟合；

即主要通过本步骤3获取人脸五官的关键特征点信息构成的向量特征，对于人像视频素材流的每一帧，均可以对相关向量特征进行适配提取，从而提取出需要拟合的嘴型的特征；

步骤4读取步骤1中生成的语音流文件，取出语音流文件中能表征语音信息的特征频谱，读取步骤2中生成的人脸视频单元文件全部帧，取用步骤3中生成的人脸面部五官特征向量，调用预训练的唇形文字特征拟合算法接口，即可获取嘴型与声音一致的完整自我介绍视频，将完整的自我介绍视频存入指定路径，用于在名片模板人像视频嵌入过程中与名片蒙版进行嵌合。

步骤4实现嘴型文字对应特征修改，具体采用的是基于PaddleGan的算法，同为预训练的封装完备的算法工具，将语音流文件的特征频谱流、人像短视频样本素材流，以及通过步骤3获取的面部五官位置特征向量信息，送入算法模型中，即可逐帧对嘴型特征向量做文字适配，获取嘴型与声音一致的完整自我介绍视频。

(2)名片模板人像视频嵌入过程

名片模板人像视频嵌入过程主要包含人像视频与名片模板大小适配、名片蒙版添加、视频语音合并等过程，具体步骤如下：

获取名片模板的长宽分辨率信息，如长3000，宽700，创建写入视频的类，设置新视频的大小与名片模板长宽相同，即为3000*700。读取数字人嘴型向量调整视频生成过程中生成的完整自我介绍视频，自我介绍视频一般比例为4:9，为后续进行边界填充与人脸捕捉框定位，需通过ffmpeg将自我介绍视频调整到长宽分辨率均小于名片模板，如，调整尺寸分辨率为350*600，以确保自我介绍视频能被名片模板长宽均覆盖住。逐帧读取调整后的自我介绍视频帧。读取后，对于每一帧，用copyMakeBorder方式加宽自我介绍视频帧，将其填充为与名片模板长宽完全一致的视频帧，可通过上下左右加不同宽度边界的方式调整人像的位置，使得人像视频恰好位于原名片模板人像照片位置。如，上、下、左、右填充为(50，50，1700，950)，处理后的帧变为3000*700，处理后的帧放入创建的视频类中，即可获得与名片模板同长宽的自我介绍底版视频，保存到指定的底版视频路径中。

逐帧读取步骤5中得到的底版视频，对于每一帧，用名片模板对其进行遮盖，名片模板中，需要放置视频人像的部位，在进行名片设计时，已用名片中主体设计用不到的指定颜色占位，如RGB通道(100，100，100)，在遮盖时，对于名片中RGB颜色为(100，100，100)的区域，选择名片蒙版不可见，此时被遮盖的底部人像视频帧得以显露出来。处理结束的帧再重新合成嘴型变化但没有声音的视频。最后，用ffmpeg将本步骤获取的视频与数字人嘴型向量调整视频生成过程中合成的自我介绍语音音频进行合成，生成最终的虚拟人动态名片。

步骤6中添加名片蒙版，名片设计时，在需要展示人像视频的位置用规定的颜色标记出整块圆形展示区域，可以看作为人像视频添加名片蒙版，对人像视频做帧处理，逐帧添加蒙版，对于规定的RGB分量的颜色，显示底版视频，其余部位均用名片遮盖住，处理结束的帧再重新合成视频。经过逐帧处理的视频会丢失音频信息，最后需要用ffmpeg将视频与过程一中合成的自我介绍语音音频进行合成，生成最终的虚拟人动态名片。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于超短视频样本快速生成虚拟人动态名片的方法，其特征在于，包括：

2.根据权利要求1所述的一种基于超短视频样本快速生成虚拟人动态名片的方法，其特征在于，所述步骤1根据用户提交的自我介绍文本，选择好发声人音色ID、输入声音音量、语速，调用TTS语音合成引擎接口，合成动态名片的自我介绍音频文件。

3.根据权利要求1所述的一种基于超短视频样本快速生成虚拟人动态名片的方法，其特征在于，所述步骤2从输入的超短视频样本文件路径中逐帧读取人像视频素材的流，读取结束后将获取的流信息做倒置处理，拼接到原本正向流文件末尾，形成先正放再倒放的视频流素材单元，合成视频文件后，保存到人脸视频单元文件路径下。

4.根据权利要求1所述的一种基于超短视频样本快速生成虚拟人动态名片的方法，其特征在于，所述步骤3读取步骤2中得到的人脸视频单元文件，截取其中一帧进行人脸检测，调用预训练的五官特征向量萃取模型，判断当前图片中是否检测到人脸五官，如果没有检测到，则提前终止虚拟人视频生成过程，如果检测到，则输出当前图片中检测到的人脸面部五官的关键特征点构成的向量特征。

5.根据权利要求4所述的一种基于超短视频样本快速生成虚拟人动态名片的方法，其特征在于，所述五官特征向量萃取模型为卷积神经网络模型。

6.根据权利要求1所述的一种基于超短视频样本快速生成虚拟人动态名片的方法，其特征在于，所述步骤4读取步骤1中生成的语音流文件，取出语音流文件中能表征语音信息的特征频谱，读取步骤2中生成的人脸视频单元文件全部帧，取用步骤3中生成的人脸面部五官特征向量，调用预训练的唇形文字特征拟合算法，获取嘴型与声音一致的完整自我介绍视频。

7.根据权利要求1所述的一种基于超短视频样本快速生成虚拟人动态名片的方法，其特征在于，所述唇形文字特征拟合算法为基于PaddleGan的算法，其逐帧对嘴型特征向量做文字适配，获取嘴型与声音一致的完整自我介绍视频。

8.根据权利要求1所述的一种基于超短视频样本快速生成虚拟人动态名片的方法，其特征在于，所述步骤5获取名片模板的长宽分辨率信息，创建写入视频的类，设置新视频的大小与名片模板长宽相同，通过ffmpeg将完整自我介绍视频调整到长宽分辨率均小于名片模板，逐帧读取调整后的自我介绍视频帧，读取后，对于每一帧，用copyMakeBorder方式加宽自我介绍视频帧，将其填充为与名片模板长宽完全一致的视频帧。

9.根据权利要求8所述的一种基于超短视频样本快速生成虚拟人动态名片的方法，其特征在于，所述步骤5通过上下左右加不同宽度边界的方式调整人像的位置，使得人像视频恰好位于原名片模板人像照片位置。

10.根据权利要求1所述的一种基于超短视频样本快速生成虚拟人动态名片的方法，其特征在于，所述步骤6逐帧读取底版视频，对于每一帧，用名片模板对其进行遮盖；