CN115511994A

CN115511994A - 一种快速将真人克隆为二维虚拟数字人的方法

Info

Publication number: CN115511994A
Application number: CN202211256426.4A
Authority: CN
Inventors: 肖永强; 郑义恒; 唐尉棉
Original assignee: Xiamen Biebeyun Co ltd
Current assignee: Xiamen Biebeyun Co ltd
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2022-12-23

Abstract

本发明涉及一种快速将真人克隆为二维虚拟数字人的方法，提供一种在二维虚拟数字人创建场景下快速克隆出真人高保真的方案，该场景是以录制二维真人视频为主要素材，实现新的音频驱动重组原嘴型序列的一种方法。包括：人体分割、人脸关键点提取、脸部嘴型替换、语音合成、音频对齐计算、轮廓相似度计算。在具体实施过程中，模块间协同工作，最终可以自动化创建二维数字人的流程。由于创建数字人需要以低成本有效方式进行，在真人素材采集上使用手机清晰简便录制尚可。另外，考虑到如何缓解嘴型替换后过渡差异性问题，也就是在保障嘴型重组之后的序列流畅与自然情况下，本发明引入原嘴型与替换嘴型之间的轮廓相似度计算作为约束性选择。

Description

一种快速将真人克隆为二维虚拟数字人的方法

技术领域

本发明涉及计算机软件技术领域，特别涉及一种快速将真人克隆为二维虚拟数字人的方法。

背景技术

在真人入镜视频文本讲解播报过程中往往需要真人提前熟悉所有台词，每个负责工作人员也需做大量准备工作来确保录制或直播的视频不出现错误。比如新闻直播，在要求表情肢体动作相对自然的情况下，对所有播报台词的准确性也要求极高。另外，一些短视频或课程系列的录制让真人入境也是比较繁重的工作，不能保证每一次录制都顺利，多数情况下需要反复录制多遍才能结束。如果对于同一个人只录制一部分视频素材，后续的视频的都能自动合成出来，那自然就减轻了真人入境的工作量，于是需要利用计算机技术为真人克隆出数字虚拟人。克隆的数字虚拟人的面部表情与肢体动作均来自提前录制好的一段视频，这样在确保人物高保真的情况下实施本发明中语音驱动嘴型序列重组技术。

发明内容

本发明的目的在于提供一种快速将真人克隆为二维虚拟数字人的方法，旨在降低后续真人入境的视频制作或输出成本，为虚拟数字人赋予自动化合成视频的能力。

为实现上述目的，本发明的技术方案是：一种快速将真人克隆为二维虚拟数字人的方法，包括：

S1、人体分割：

人体分割主要对原视频素材中的人分离出来，备用于二次加工美化虚拟数字人，虚拟数字人外形干净明亮清晰，一旦完成即可用于后续的虚拟数字人语音驱动唇形对齐重组工作。人体分割采用RVM循环神经网络来处理具有时间记忆的视频人体分割技术，该方法可以在任何视频上实时执行抠图，无需额外输入，在Nvidia GTX 1080 Ti GPU上实现了4K76FPS和HD 104FPS。

S2、人脸关键点提取：

人脸关键点检测是为了在重组唇形时进行对齐仿射变换，以致于将音频对齐的嘴型序列叠加到原虚拟数字人嘴部位置。采用insightface提取脸部111个关键点，实际仅需用25个点即可。

S3、脸部嘴型替换：

主要功能是新音频对齐嘴型的帧序列进行旋转、缩放和平移以适合原虚拟数字人视频时间点，之后调整图像中的色彩平衡以匹配原图像，并将图像中的特征融合到原图像之上。采用Switching Eds实现脸部嘴部特征替换。

S4、语音合成：

实现文本到语音tts转换，得到新的音频数据，用于驱动虚拟数字人嘴型序列重组。采用端到端的fasterspeech2训练目标声音音频。

S5、音频对齐计算：

预先设计将原虚拟数字人的音频按照汉语拼音声母表对齐，采用MontrealForced Aligner（MFA）可以自动化实现这一点，类似的，新音频也同样与汉语拼音表对齐，之后根据时间线即可对应到原虚拟数字人的嘴型。一个发音可重复采集多个嘴型结果，以此来完成嘴型序列的推荐。

S6、轮廓相似度计算：

考虑到需要尽可能减少原虚拟数字人嘴型序列与将要替换的嘴型序列的过渡差异性，使结果更加逼真，采用hausdorff最小化两者之间嘴型的轮廓相似度，用于缓解嘴型替换后过渡差异性问题。

本发明还提供了一种快速将真人克隆为二维虚拟数字人的系统，其特征在于，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如上述所述的方法步骤。

相较于现有技术，本发明具有以下有益效果：本发明能够快速克隆数字虚拟人，即只需要录制大约一分钟的真人视频素材，就可以快速克隆高保真二维虚拟数字人，降低数字人制作成本，并为数字虚拟人赋予基础的形象、表达、交互能力，能够直接应用并大大减少真人入境的工作量。利用人脸关键点定位实现仿射变换，并自动化语音驱动重组嘴型序列，具有高度还原逼真的人体动作视频序列输出。在无需真人入境的情况下进行快速合成视频文本播报，无论是否在实时环境下，一旦虚拟数字人的相关素材准备好即可准确无误的进行台词输出。对比真人入境，本发明大大减少人工录制比较繁重的工作。另外，因为数据源本身是采集某个特定真人视频，所以自然可以私有化定制IP虚拟数字人，打造另一个虚拟的自己。另外，虚拟数字人的肢体动作也可以根据需要不定时录制真人动作而增加，录制成本不仅低，而且还能丰富虚拟数字人的表现力。

附图说明

图1为本发明方法流程图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

如图1所示，一种快速将真人克隆为二维虚拟数字人的方法，包括：

S1、人体分割：

S2、人脸关键点提取：

S3、脸部嘴型替换：

S4、语音合成：

S5、音频对齐计算：

S6、轮廓相似度计算：

实施例：

一种快速将真人克隆为二维虚拟数字人的方法，步骤如下：

步骤1、原视频素材采集

视频采集主要包括人体动作、人脸3/4正脸左右范围内、以及清晰的录音。视频录制的时候背景应为纯色便于虚拟数字人外形的分割提取，人体动作不可遮挡人脸，确保录制的每一帧视频都有清晰的人脸。人脸表情自然微笑，表述内容为汉语拼音声母韵母表。视频录制长度大约一分钟即可，考虑到人体动作表情受到说话表述的影响，待采集视频素材也可以分段采集，将人体动作表情和说话表述分开录制，以确保不同部分的视频效果。因为视频素材采集本身是来源于真人，所以制作的数字虚拟人自然也就可以呈现出具有高保真真人的灵气感。如果用户不仔细看，无论是肢体动作还是面部表情状态，也都难以分辨是否真人。清晰的录音是唇形对齐的关键，这里需要被采集对象在念汉语声母韵母表时，嘴型尽量张开，吐字清晰。为了在后续自动化程序提供稳靠的音唇数据，一个音至少要被念5次以上，用于唇形序列推荐。

步骤2、汉语拼音与音频发音对齐

这一步主要实现计算原音频素材与新音频素材是如何按照时间线进行汉语拼音声母表韵母表对齐的。原音频素材是已经严格按照声母韵母表得到，只是每个音（这里用A表示）在整个时间线上所处的开始（A_start）和结束（A_end）位置是不确定的，利用MFA模型预测即可快速解决这个问题并得到不错的效果。调用已经训练好的MFA汉语拼音对齐模型，封装shell执行脚本命令到自动化Python中，返回得到TextGrid格式数据，之后对该数据进行解析。原音频包含所有的声母韵母音以及与之对应唇形视频开始（Lip_start）和结束（Lip_end）位置，这里让其形成一个字典集Set，便于后续新音频检索。类似的，通过语音合成的新音频以同样的方式执行MFA的shell脚本得到每个音的开始和结束，通过遍历每个音去匹配字典集Set，进而匹配到对应的唇形序列。原音频作为检索库，而新的音频作为匹配内容从字典集Set中匹配。匹配的过程也要考虑Set中推荐的发音长度尽可能与新音频发音长度相差最小Min_Dtime。以此类推，新音频的每个音都可以找到与之匹配的检索结果，并最终串起来实现与新音频发音对齐的重组音频序列。当然，新音频的每个发音之间可能会出现无音情况，即上一个A_startA_end对与下一个A_startA_end对之间时间线上不是绝对覆盖的，解决方式是直接将无音区用上一个A_startA_end对复用，因为发音结束后对应的嘴型往往还会继续保持持续一会儿。

步骤3、利用人脸特征关键点替换嘴型

首先使用insightface识别人脸关键点，关键点仅用25个，其中5个是对应左右眼、鼻子和两边嘴角，另外的20个关键点是嘴型部分；其次利用上述5个点对图像旋转、缩放和平移，再进行仿射变换，使第二张图像以适合第一张图像；最后调整第二张图像中的色彩平衡以匹配第一张图像，并将第二张图像中的嘴部特征融合到第一张图像之上。这里所述第一张图像（Image₁）可以理解为原视频人体分割后的每一帧（也是最终新的视频序列），而第二张图像（Image₂）可以理解为原视频人体分割后的某一帧。

步骤4、利用音频对齐时间信息自动化替换嘴型序列

在步骤2中已经确定新音频每个发音在原音频中的A_startA_end对位置，以此对应到Lip_startLip_end对，最后选择的Lip_startLip_end对额外做帧插值处理，使其时长能与新音频发音保持一样长，以此类推得到与新音频对齐的所有Lip_startLip_end对，并将此按照步骤3进行逐帧替换到原虚拟数字人的嘴型，最后合并音频完成新的视频序列输出。步骤2中的Min_Dtime仅用于推荐尽可能与新音频发音时长相差最小，但不是最终选择的一个，而是缩小推荐数量，比如原本某个发音数量是5，经过Min_Dtime之后数量变成3。这一步还需要考虑嘴型替换后过渡差异性问题，为了缓解该问题，本发明利用了hausdorff算法最小化两者之间嘴型的轮廓相似度，分别将推荐的每个Image₂与Image₁计算hausdorff，最小值即为最终的选择。如果新音频时长大于原音频长度时，将会继续重新复用循环原视频人体分割后的每一帧Image₁，直到长度与新音频一样才结束。

本发明只需要录制大约一分钟的真人视频素材，就可以快速克隆高保真二维虚拟数字人，降低数字人制作成本。同时为数字虚拟人赋予基础的形象、表达、交互能力，能够直接应用并大大减少真人入境的工作量。因为数据源本身是采集某个特定真人视频，所以自然可以私有化定制IP虚拟数字人，打造另一个虚拟的自己。另外，虚拟数字人的肢体动作也可以根据需要不定时录制真人动作而增加，录制成本不仅低，而且还能丰富虚拟数字人的表现力。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种快速将真人克隆为二维虚拟数字人的方法，其特征在于，包括：

S1、人体分割：

将原视频素材中的人分离出来，备用于二次加工美化虚拟数字人；

S2、人脸关键点提取：

基于人体分割，提取人体脸部关键点；

S3、脸部嘴型替换：

将新音频对齐嘴型的帧序列进行旋转、缩放和平移以适合原虚拟数字人视频时间点，之后调整图像中的色彩平衡以匹配原图像，并将图像中的特征融合到原图像之上；

S4、语音合成：

实现文本到语音tts转换，得到新的音频数据，用于驱动虚拟数字人嘴型序列重组；

S5、音频对齐计算：

预先设计将原虚拟数字人的音频按照汉语拼音声母表对齐，类似的，新音频也同样与汉语拼音表对齐，之后根据时间线即可对应到原虚拟数字人的嘴型；一个发音可重复采集多个嘴型结果，以此来完成嘴型序列的推荐；

S6、轮廓相似度计算：

最小化原虚拟数字人嘴型序列与将要替换的嘴型序列之间嘴型的轮廓相似度。

2.根据权利要求1所述的一种快速将真人克隆为二维虚拟数字人的方法，其特征在于，所述人体分割采用RVM循环神经网络来处理具有时间记忆的视频人体分割技术。

3.根据权利要求1所述的一种快速将真人克隆为二维虚拟数字人的方法，其特征在于，所述人脸关键点提取采用insightface提取脸部111个关键点。

4.根据权利要求1所述的一种快速将真人克隆为二维虚拟数字人的方法，其特征在于，所述脸部嘴型替换采用Switching Eds实现脸部嘴部特征替换。

5.根据权利要求1所述的一种快速将真人克隆为二维虚拟数字人的方法，其特征在于，所述语音合成采用端到端的fasterspeech2训练目标声音音频。

6.根据权利要求1所述的一种快速将真人克隆为二维虚拟数字人的方法，其特征在于，所述轮廓相似度计算采用hausdorff最小化原虚拟数字人嘴型序列与将要替换的嘴型序列之间嘴型的轮廓相似度。

7.根据权利要求1所述的一种快速将真人克隆为二维虚拟数字人的方法，其特征在于，原视频素材采集包括人体动作、人脸3/4正脸左右范围内、以及清晰的录音，视频录制时的背景应为纯色，人体动作不可遮挡人脸，人脸表情自然微笑，表述内容为汉语拼音声母韵母表，视频录制长度一分钟；考虑到人体动作表情受到说话表述的影响，待采集视频素材也可分段采集，即将人体动作表情和说话表述分开录制；被采集对象在念汉语声母韵母表时，嘴型尽量张开，吐字清晰。

8.根据权利要求1所述的一种快速将真人克隆为二维虚拟数字人的方法，其特征在于，所述音频对齐计算具体实现如下：

原视频素材中音频是严格按照声母韵母表得到，只是每个音A表示在整个时间线上所处的开始A_start和结束A_end位置是不确定的，调用已经训练好的MFA汉语拼音对齐模型，封装shell执行脚本命令到自动化Python中，返回得到TextGrid格式数据，之后对TextGrid格式数据进行解析；原视频素材中音频包含所有的声母韵母音以及与之对应唇形视频开始Lip_start和结束Lip_end位置，这里让其形成一个字典集Set；类似的，通过语音合成的新音频以同样的方式执行MFA的shell脚本得到每个音的开始和结束，通过遍历每个音去匹配字典集Set，进而匹配到对应的唇形序列；原视频素材中音频作为检索库，而新音频作为匹配内容从字典集Set中匹配；匹配的过程考虑字典集Set中推荐的发音长度尽可能与新音频发音长度相差最小Min_Dtime；以此类推，新音频的每个音都找到与之匹配的检索结果，并最终串起来实现与新音频发音对齐的重组音频序列；若新音频的每个发音之间出现无音情况，即上一个A_startA_end对与下一个A_startA_end对之间时间线上不是绝对覆盖的，则直接将无音区用上一个A_startA_end对复用。

9.根据权利要求8所述的一种快速将真人克隆为二维虚拟数字人的方法，其特征在于，所述轮廓相似度计算的具体实现方式如下：

在已经确定新音频每个发音在原音频中的A_startA_end对位置，以此对应到Lip_startLip_end对，最后选择的Lip_startLip_end对额外做帧插值处理，使其时长能与新音频发音保持一样长，以此类推得到与新音频对齐的所有Lip_startLip_end对，并将此按照步骤S3进行逐帧替换到原虚拟数字人的嘴型，最后合并音频完成新的视频序列输出；Min_Dtime仅用于推荐尽可能与新音频发音时长相差最小，但不是最终选择的一个，而是缩小推荐数量，考虑嘴型替换后过渡差异性问题，利用hausdorff算法最小化两者之间嘴型的轮廓相似度，分别将每个原视频人体分割后的每一帧Image₂与原视频人体分割后的每一帧Image₁计算hausdorff，最小值即为最终的选择；如果新音频时长大于原音频长度时，将会继续重新复用循环原视频人体分割后的每一帧Image₁，直到长度与新音频一样才结束。

10.一种快速将真人克隆为二维虚拟数字人的系统，其特征在于，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如权利要求1-9任一所述的方法步骤。