CN114419702B

CN114419702B - 数字人生成模型、模型的训练方法以及数字人生成方法

Info

Publication number: CN114419702B
Application number: CN202111670351.XA
Authority: CN
Inventors: 司马华鹏; 王培雨
Original assignee: Nanjing Silicon Intelligence Technology Co Ltd
Current assignee: Nanjing Silicon Intelligence Technology Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2023-12-01
Anticipated expiration: 2041-12-31
Also published as: CN114419702A

Abstract

本申请实施例提供了一种数字人生成模型、模型的训练方法以及数字人生成方法，数字人生成模型包括：数据采集模块、数据预处理模块、模型训练模块、预测处理模块。模型的训练方法包括：采集训练样本视频数据、对训练样本视频数据进行预处理、对所述音频数据进行特征提取、训练预设的第一神经网络模型、训练预设的第二神经网络模型，生成预测人脸图片、合成数字人视频。数字人生成方法包括：对视频数据进行人脸检测和裁剪，生成裁剪图片和遮住嘴部区域的人脸图片、将音频数据、人脸关键点数据和遮住嘴部区域的人脸图片输入至数字人生成模型中，生成数字人视频、将音频数据输入至数字人视频中，生成带有声音的二维数字人视频。

Description

数字人生成模型、模型的训练方法以及数字人生成方法

技术领域

本申请涉及机器学习技术领域，具体而言，涉及一种数字人生成模型、模型的训练方法以及数字人生成方法。

背景技术

随着短视频平台、直播带货、网上教育等技术的普及，录制视频慢慢成为人们社交和传递信息的手段。受限于录制环境、录制设备和视频剪辑技术，很多人很难做出高质量的视频，或者要投入更多的时间和精力才能完成。

当前二维数字人生成技术还停留在学术研究阶段，生成视频质量较差，距离实际产品使用还有较远的距离，主要问题有：

1)当前主要采用先合成视频帧，再用视频帧拼成的思路，如果不能考虑视频生成的时序信息，将会出现严重的抖动现象，难以在真实产品中使用。

2)大多数学术研究集中在面部和嘴型的生成问题，没有考虑生成的头像与身体整体的融合问题，但多数应用都需要全身的视频，而且，还需要给文本配上相应的动作，整体融合问题的不成熟阻碍了二维数字人生成技术的应用。

3)多数研究采用的训练视频，大都在网络上收集的，视频分辨率较低，人脸容易乱动，不同人的口音和口型都有差异，这些都会影响模型的训练效果，不能生成准确且高清的视频。

针对相关技术中，二维数字人生成过程中，视频制备效率低下、二维数字人生成头像与身体整体不融合的技术问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种数字人生成模型、模型的训练方法以及数字人生成方法，以至少解决相关技术中，二维数字人生成过程中，视频制备效率低下、二维数字人生成头像与身体整体不融合的技术问题。

在本申请的一个实施例中，提出了一种数字人生成模型，包括数据采集模块、数据预处理模块、模型训练模块、预测处理模块，其中：所述数据采集模块用于采集训练样本视频数据，所述训练样本视频数据包括视频数据以及与所述视频数据对应的音频数据；所述数据处理模块用于对所述训练样本视频数据进行预处理，所述预处理包括删除有干扰的所述音频数据、优化所述视频数据；所述模型训练模块用于对所述音频数据进行特征提取，获取对应的样本特征；将所述视频数据转换为原始图片，提取人脸关键点数据和遮住嘴部区域的人脸图片；通过所述样本特征训练预设的第一神经网络模型，获取训练后的音频特征；通过所述人脸关键点数据、所述遮住嘴部区域的人脸图片和所述训练后的音频特征，训练预设的第二神经网络模型，生成与所述音频特征对应的预测人脸图片；所述预测处理模块用于将生成的所述预测人脸图片缩放到原始图片大小嵌入原模板图片，通过融合技术将所述预测人脸图片与所述原模板图片融合，将融合后的所述预测人脸图片合成与所述音频数据对应的数字人视频。

在本申请的一个实施例中，还提出了一种数字人生成模型的训练方法，应用于上述模型中，所述数字人生成模型由第一神经网络模型和第二神经网络模型组成，对所述数字人生成模型进行训练，包括：采集训练样本视频数据，所述训练样本视频数据包括视频数据以及与所述视频数据对应的音频数据；对所述训练样本视频数据进行预处理，所述预处理包括删除有干扰的所述音频数据、优化所述视频数据；对所述音频数据进行特征提取，获取对应的样本特征；将所述视频数据转换为原始图片，提取人脸关键点数据和遮住嘴部区域的人脸图片；通过所述样本特征训练预设的第一神经网络模型，获取训练后的音频特征；通过所述人脸关键点数据、所述遮住嘴部区域的人脸图片和所述训练后的音频特征，训练预设的第二神经网络模型，生成与所述音频特征对应的预测人脸图片；将生成的所述预测人脸图片缩放到原始图片大小嵌入原模板图片，通过融合技术将所述预测人脸图片与所述原模板图片融合，将融合后的所述预测人脸图片合成与所述音频数据对应的数字人视频。

在本申请的一个实施例中，提取所述遮住嘴部区域的人脸图片的具体步骤为：通过人脸识别库识别所述原始图片，设定目标圆心和长短轴对所述原始图片绘制椭圆并将所述原始图片中的衣领区域切除、裁剪头部区域，获得裁剪图片；通过人脸识别库检测所述裁剪图片中的所述人脸关键点数据，将脸颊和下巴的所述人脸关键点连接绘制成一个封闭区域，将所述封闭区域填充为黑色，生成所述遮住嘴部区域的人脸图片。

在本申请的一个实施例中，通过所述样本特征训练预设的第一神经网络模型，获取音频特征，包括：将所述样本特征对应的音频数据输入到所述预设的第一神经网络模型；提取所述音频特征对应的Fbank音频特征；通过所述第一神经网络模型中的编码器和解码器对所述Fbank音频特征依次进行编码和解码，获取通过所述第一神经网络模型训练后的音频特征。

在本申请的一个实施例中，通过所述人脸关键点数据、所述遮住嘴部区域的人脸图片和所述训练后的音频特征训练预设的第二神经网络模型，包括：将所述训练后的音频特征输入所述第二神经网络中的音频编码网路，获取输出音频编码特征；将所述人脸关键点数据和所述遮住嘴部区域的人脸图片输入所述第二神经网络中的图像编码网络，获取所述图像编码特征；将所述输出音频编码特征与所述图像编码特征进行拼接，得到拼接特征；将所述拼接特征输入至所述第二神经网络模型中的解码网络，获得与输入的所述音频数据人脸口型对应的预测人脸图片。

在本申请的一个实施例中，所述第二神经网络模型采用生成式对抗网络技术，并且所述第二神经网络模型由生成器和判别器组成，通过所述生成器与所述判别器对所述第二神经网络模型的进行训练，包括：将提取的所述人脸关键点数据输入第一卷积网络，获得人脸关键点编码特征；将所述遮住嘴部区域的人脸图片输入第二卷积网络，获得所述图像编码特征；将通过所述第一神经网络模型训练后的音频特征，输入所述音频编码网络，获得与所述图像编码特征维度相同的所述输出音频编码特征；将所述人脸关键点编码特征、所述图像编码特征和所述输出音频编码特征拼接到一起，获得所述拼接特征；将所述拼接特征输入第三卷积网络，对所述拼接特征进行卷积与融合；抽取降低到目标维度的拼接特征，并对降低到目标维度的拼接特征进行解码；通过转置神经网络对所述降低到目标维度的拼接特征，进行升维操作还原人脸图片信息，输出所述预测人脸图片；通过所述判别器，判别所述预测人脸图片的真实程度。

在本申请的一个实施例中，所述第二神经网络模型中在所述生成器与所述判断器之后还通过设计损失函数进行训练，所述损失函数包括第一损失函数、第二损失函数和第三损失函数，具体包括：所述第一损失函数，通过直接比对真实人脸图片和所述预测人脸图片的绝对差值，评价所述预测人脸图片中数字人的口型准确度；所述第二损失函数，通过计算所述判别器的输出和标签的平方差，判别所述预测人脸图片中数字人的真实程度；所述第三损失函数，计算所述预测人脸图片和所述真实人脸图片输入所述第三损失函数对应的卷积神经网络后提取的特征差值。

在本申请的一个实施例中，还提出了一种数字人生成方法，包括：获取目标场景模板视频数据和所述视频数据对应的音频数据，对所述视频数据进行人脸检测和裁剪，生成裁剪图片和遮住嘴部区域的人脸图片；对所述裁剪图片进行处理，提取人脸关键点数据；将所述音频数据、所述人脸关键点数据和所述遮住嘴部区域的人脸图片输入至上述数字人生成模型中，生成与所述音频数据对应的数字人视频；将所述音频数据输入至所述数字人视频中，生成带有声音的目标二维数字人视频。

在本申请的一个实施例中，将所述音频数据、所述人脸关键点数据和所述遮住嘴部区域的人脸图片输入至上述数字人生成模型中，生成与所述音频数据对应的数字人视频，包括：将所述音频数据输入训练得到的数字人生成模型中的第一神经网络模型，获取音频特征；将所述音频特征、所述人脸关键点数据和所述遮住嘴部区域的人脸图片输入所述训练得到的数字人生成模型中的第二神经网络模型，生成与所述音频数据对应的数字人视频。

在本申请的一个实施例中，通过所述第二神经网络模型生成与所述音频数据对应的数字人视频之前，还通过融合技术，将训练使用的视频数据和模板视频数据的亮度色调融合，生成无色差人脸图片。

通过本申请实施例，本申请提供了一种数字人生成模型、模型的训练方法以及数字人生成方法。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的数字人生成模型的示意图；

图2为本申请提供的数字人生成模型的训练方法流程示意图；

图3为本申请提供的原始图片；

图4为本申请提供的人脸关键点数据图片；

图5为本申请提供的裁剪图片；

图6为本申请提供的遮住嘴部区域的人脸图片；

图7为本申请提供的第一神经网络模型的流程图；

图8为本申请提供的第二神经网络模型的流程图；

图9为本申请提供的数字人生成模型的卷积网络示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请公开了一种数字人生成模型，通过学习特定语音与特定口型的对应关系，根据特定的语音和模板，生成相应的视频。

参见图1，其中数字人生成模型由包括数据采集模块01、数据预处理模块02、模型训练模块03、预测处理模块04，其中：

所述数据采集模块01用于采集训练样本视频数据，所述训练样本视频数据包括视频数据以及与所述视频数据对应的音频数据；具体地，数据采集模块，采用高清录像设备在室内录制，有条件的使用绿幕和灯光，由录音模特读完特定的语料，正常语速录制视频长度约为5分钟，不要求很严格的隔音条件，但要尽量不出现很大的噪音。

所述数据处理模块02用于对所述训练样本视频数据进行预处理，所述预处理包括删除有干扰的所述音频数据、优化所述视频数据；具体地，数据预处理模块录制的数据进行训练之前还需要进行一些预处理操作，删除一些有干扰的音频数据，如长时间静音，出现多人声音或出现较大噪音等，之后根据视频录制效果还要用视频编辑软件进行进一步的处理，如进行一些视频的美颜操作，提高视频亮度等，这样能够降低模型的学习难度，同时也能保证生成的模型，能够合成效果更好的视频。

所述模型训练模块03用于对所述音频数据进行特征提取，获取对应的样本特征；将所述视频数据转换为原始图片，提取人脸关键点数据和遮住嘴部区域的人脸图片；通过所述样本特征训练预设的第一神经网络模型，获取训练后的音频特征；通过所述人脸关键点数据、所述遮住嘴部区域的人脸图片和所述训练后的音频特征，训练预设的第二神经网络模型，生成与所述音频特征对应的预测人脸图片；具体地，数字人生成模型分成两部分，第一先训练一个模型用于根据语音预测人脸的关键点数据，此模型采用一个encoder-decoder(编码器-解码器)结构。第二训练一个模型根据输入的人脸关键点数据和参照图片合成准确的图像数据。此处采用一个改进的GAN(生成式对抗网络)神经网络。

所述预测处理模块04用于将生成的所述预测人脸图片缩放到原始图片大小嵌入原模板图片，通过融合技术将所述预测人脸图片与所述原模板图片融合，将融合后的所述预测人脸图片合成与所述音频数据对应的数字人视频；具体地，准备需要的音频，采用tts合成或录制的手段，获取音频数据；根绝需求录制合适的视频模板，根据输入的音频数据参照输入模板视频合成口型准确表情自然的视频。

进一步地，本申请还公开了一种数字人生成模型的训练方法，应用于上述数字人生成模型中，如图2所示具体步骤包括：

S1，采集训练样本视频数据，所述训练样本视频数据包括视频数据以及与所述视频数据对应的音频数据；

示例性的，本申请中训练用样本数据为带有音频的视频数据，视频长度约为十分钟左右，视频模特按照要求阅读一段文字，阅读时需要面向镜头，样本视频的清晰程度会影响生成视频的清晰程度。

S2，对所述训练样本视频数据进行预处理，所述预处理包括删除有干扰的所述音频数据、优化所述视频数据；

示例性的，拍摄视频之后需要对视频进行一些清理工作，删除一些有问题的片段，比如脸部没有正视镜头或者张嘴却没有出声等。

S3，对所述音频数据进行特征提取，获取对应的样本特征；将所述视频数据转换为原始图片，提取人脸关键点数据和遮住嘴部区域的人脸图片；

示例性的，将录制的视频文件转换成图片，下文称为原始图片(即raw图片)，如下图3所示；使用人脸识别库(dlib)识别裁剪头部区域，下文称为裁剪图片(即crop图片)，如下图5所示；使用人脸识别库检测人脸关键点(landmark)数据，将人脸关键点画在图片上，如下图4所示；将嘴部区域进行遮挡住用于训练，下文称为遮住嘴部区域的人脸图片(即mask图片)，如下图6所示。

进一步地，提取所述遮住嘴部区域的人脸图片的具体步骤为：

通过人脸识别库识别所述原始图片，设定目标圆心和长短轴对所述原始图片绘制椭圆并将所述原始图片中的衣领区域切除、裁剪头部区域，获得裁剪图片；

通过人脸识别库检测所述裁剪图片中的所述人脸关键点数据；

将脸颊和下巴的所述人脸关键点连接绘制成一个封闭区域，将所述封闭区域填充为黑色，生成所述遮住嘴部区域的人脸图片。

示例性的，裁切人脸之后对人脸图片进行操作以获取crop图片，此处图片宽度记为x，图片长度记为y，以(x/2，y/2-175)为圆心，以(x/2+25，y)作为长短轴长度绘制椭圆，将衣领区域切除，这样做的目的为去除衣领的影响，只考虑人脸部信息，同时这样训练出来的模型能适应不同的衣服，增加模型的通用性。剪切出来crop图片之后，对crop图片进行操作获取mask图片，本申请提供的数字人生成模型学习根据语音信息生成面部和嘴形内容。在本实施例中，需要将嘴部区域遮住作为模型的输入，为了能更准确的遮住嘴部区域，根据dlib检测的人脸关键点数据绘制mask区域，将脸颊和下巴的landmark点进行连接绘绘制成一个封闭区域，然后将区域填充为黑色，完成mask图片的生成。

特别地，本实施例中采用mask图片而不直接使用crop图片，直接使用crop图片会输入口型图片，这个口型可能和模型要预测的语音不对应，就会增加模型学习难度。之所以在图片中间扣去嘴部区域，而不是直接遮掉图片的下半部分，是因为人脸图片合成之后需要融合到原图中，图片中间扣去嘴部区域就将融合问题留给了模型，由模型学习获得更好的融合效果。

S4，通过所述样本特征训练预设的第一神经网络模型，获取训练后的音频特征；

示例性的，在本申请中使用一万小时的数据训练预设的第一神经网络模型，即音频特征提取模型，该模型的简易流程图如图7所示。由于使用了大量数据进行训练，且该模型的训练目的为语音识别，因此该模型的encoder(编码器)提取的音频的特征具有很好的泛化性，能够去除噪音、音量、音色等的干扰。用于语音识别该模型关注语音包含的文本信息，而本申请的数字人生成模型用于生成口型图片，口型和文本信息具有一一对应的关系，因此使用该模型encoder网络提取音频特征，非常适合作为后续图片生成网络的输入。

进一步地，通过所述样本特征训练预设的第一神经网络模型，获取训练后的音频特征具体步骤包括：

将所述样本特征对应的音频数据输入到所述预设的第一神经网络模型；

提取所述音频特征对应的Fbank音频特征；

通过所述第一神经网络模型中的编码器和解码器对所述Fbank音频特征依次进行编码和解码，获取通过所述第一神经网络模型训练后的音频特征。

S5，通过所述人脸关键点数据、所述遮住嘴部区域的人脸图片和所述训练后的音频特征，训练预设的第二神经网络模型，生成与所述音频特征对应的预测人脸图片；

参见图8为第二神经网络模型的流程图。示例性的，通过人脸关键点数据、遮住嘴部区域的人脸图片和音频特征进行第二神经网络模型的训练，即将人脸关键点数据和遮住嘴部区域的人脸图片作为第二神经网络模型中的图片编码网络的输入，将第一神经网络模型，即音频特征提取模型提取的音频特征作为第二神经网络模型中的音频编码网络的输入，将该音频对应的真实人脸图片作为输出，以对第二神经网络模型进行训练，进而完成训练的第二神经网络模型，能够根据人脸关键点数据和音频特征生成对应的预测人脸图片。

需要说明的是，第二神经网络模型与上述完成训练后的第一神经网络模型共同构成了本申请完整的神经网络模型。完成训练后的第一神经网络模型在第二神经网络模型的训练过程中不再更新，仅作特征提取用。

具体地，第二神经网络模型的训练是为了生成语音对应的人脸图片，即完成训练后的第二神经网络模型用于生成人脸图片。具体地，完成训练后的第一神经网络模型可根据音频中的Fbank音频特征提取更有表征能力的特征，将提取的音频特征送入第二神经网络中的音频编码网络，将人脸关键点数据和遮住嘴部区域的人脸图片送入图像编码网络获取图像特征，之后将音频特征和像图特征拼接到一起送入解码网络，获得输入音频对应的口型图片；在样本量足够的情形下，完成训练的第二神经网络模型即可通过人脸关键点数据和音频预测人脸图片。

进一步地，通过所述人脸关键点数据、所述遮住嘴部区域的人脸图片和所述训练后的音频特征，训练预设的第二神经网络模型，生成与所述音频特征对应的预测人脸图片具体包括：

将所述训练后的音频特征输入所述第二神经网络中的音频编码网路，获取输出音频编码特征；

将所述人脸关键点数据和所述遮住嘴部区域的人脸图片输入所述第二神经网络中的图像编码网络，获取所述图像编码特征；

将所述输出音频编码特征与所述图像编码特征进行拼接，得到拼接特征；

将所述拼接特征输入至所述第二神经网络模型中的解码网络，获得与输入的所述音频数据人脸口型对应的预测人脸图片。

在本实施例中，所述第二神经网络模型采用生成式对抗网络技术，并且所述第二神经网络模型由生成器和判别器组成，通过所述生成器与所述判别器对所述第二神经网络模型的进行训练，包括：

将提取的所述人脸关键点数据输入第一卷积网络，获得人脸关键点编码特征；

将所述遮住嘴部区域的人脸图片输入第二卷积网络，获得所述图像编码特征；

将通过所述第一神经网络模型训练后的音频特征，输入所述音频编码网络，获得与所述图像编码特征维度相同的所述输出音频编码特征；

将所述人脸关键点编码特征、所述图像编码特征和所述输出音频编码特征拼接到一起，获得所述拼接特征；

将所述拼接特征输入第三卷积网络，对所述拼接特征进行卷积与融合；

抽取降低到目标维度的拼接特征，并对降低到目标维度的拼接特征进行解码；

通过转置神经网络对所述降低到目标维度的拼接特征，进行升维操作还原人脸图片信息，输出所述预测人脸图片；

通过所述判别器，判别所述预测人脸图片的真实程度。

具体地，参见图9，首先通过训练数据提取三维人脸关键点数据。需要注意的是，此处提取的人脸关键点数据，不包括嘴唇和牙齿信息，嘴唇和牙齿关键点信息会影响口型的生成，不仅导致生成的口型准确度较差，还会使得生成的口型抖动较大，这个也是当前数字人存在的主要问题。本申请使用人脸关键点数据只用来学习数字人的头部动作信息，而口型的生成由音频特征控制。具体地，本实施例中，音频特征使用大量数据训练的模型提取，具有很好的泛化性，同时一个音频特征包含20张图片对应的音频信息，在生成口型的时候，能够考虑到前后图片的影响，因此能够生成更稳定准确的口型。将提取的人脸关键点数据输入第一卷积网络E1(Conv卷积网络),获取人脸关键点编码特征。

将mask图片输入第二卷积网络E2(Conv2d卷积网络)获取图片编码特征，此处采用4层Conv2d卷积网络，将输入(3，512，512)维的图片降维到(512，32，32)维，获得图像编码特征。

将音频特征提取Fbank音频特征后，输入训练完成的第一神经网络模型，获得训练后的音频特征，此特征使用大量数据训练，能更好获得语音的语义信息，之后将所述音频特征输入音频编码网络，获取和图片特征相同维度的输出音频编码特征。之后将人脸关键点编码特征、图像编码特征、输出音频编码特征拼接到一起，本申请将各种特征分别进行编码后又分别进行解码，能够更好的提取不同的特征信息，同时也能将不同的特征拿出来单独进行调优，例如此处的音频特征，就是采用10000万小时数据，单独训练的第一神经网络模型，(即音频特征提取网络)，获取更好的音频特征。拼接特征之后输入由9层resnet block(残差网络块)组成的卷积网络，此处的resnet(残差网络)结构能用x_l+1＝x_l+f(x_l+w_l)公式简单表示，此处f一般为3层卷积网络，这种结构将输入和卷积输出叠加在一起作为输出，能够有效地缓解模型退化的问题，这样深度学习模型就能更深更复杂。此处的resnet卷积网络能将三种特征更好的融合在一起，更深的网络也能更好的拟合训练数据。

卷积之后所有抽取的特征降低到(1024，32，32)维度，接下来需要将这些特征进行解码，输出要预测的图片，在本实施例中采用一个转置神经网络，多特征进行升维操作，还原出图片信息。需要注意的是，上述所有网络用于提取特征生成图像，统称为生成器G。

第二神经网络模型中的生成器能进行图像生成之后，还需要一个判别器D，用来判断生成的图像的真实程度，此处，判别器D采用MultiscaleDiscriminator，这是一种多尺度的判别器，进一步地，判别器的3个尺度分别为：原图，原图的1/2，原图的1/4。不同尺度的判别器的优点在于越粗糙的尺度感受野越大，越容易判别全局一致性，而越精细的尺度感受野越小，越容易判别材质，纹理等细节信息。

进一步地，所述第二神经网络模型中在所述生成器与所述判断器之后还通过设计损失函数进行训练，所述损失函数包括第一损失函数、第二损失函数和第三损失函数，具体包括：

所述第一损失函数，通过直接比对真实人脸图片和所述预测人脸图片的绝对差值，评价所述预测人脸图片中数字人的口型准确度；

所述第二损失函数，通过计算所述判别器的输出和标签的平方差，判别所述预测人脸图片中数字人的真实程度；

所述第三损失函数，计算所述预测人脸图片和所述真实人脸图片输入所述第三损失函数对应的卷积神经网络后提取的特征差值。

在本实施例中，有了生成器G和判别器D之后，还需要设计损失函数才能进行训练，特别地，本申请中通过设计第一损失函数L₁、第二损失函数L_gan、第三损失函数L_vgg，三种损失函数，第一损失函数直接比对真实图片和生成图片的绝对差值，用于评价生成数字人的口型准确度；第二损失函数用来计算判别器D的输出和标签的平方差，还用于评价生成数字人的真实程度；第三损失函数则用于计算生成图片和真实图片输入vgg(深度卷积神经网络)网络后提取的特征差值，此处的vgg网络是一种经典的卷积神经网络，通过数据训练完成后的vgg网络能用来提取图片的特征。

S6，将生成的所述预测人脸图片缩放到原始图片大小嵌入原模板图片，通过融合技术将所述预测人脸图片与所述原模板图片融合，将融合后的所述预测人脸图片合成与所述音频数据对应的数字人视频。

示例性的，第二神经网络模型完成训练之后，需要将生成的预测人脸图片嵌回原来的模板，预测人脸图片可能和原模板存在一定的色差，产生一个融合问题。在本实施例中使用opencv计算机软件的pointPolygonTest函数计算一个图片所有像素点到融合区域的轮廓的距离矩阵权重(weight)，之后根据这个距离矩阵融合合成图片和模板图片：weight*src+(1-weight)*dst，其中src为合成的图片，dst为原始图片。这样就能生成没有色差的图片。

进一步地，本申请还公开了一种数字人生成方法，包括：

获取目标场景模板视频数据和所述视频数据对应的音频数据，对所述视频数据进行人脸检测和裁剪，生成裁剪图片和遮住嘴部区域的人脸图片；

对所述裁剪图片进行处理，提取人脸关键点数据；将所述音频数据、所述人脸关键点数据和所述遮住嘴部区域的人脸图片输入至上述的数字人生成模型中，生成与所述音频数据对应的数字人视频；

将所述音频数据输入至所述数字人视频中，生成带有声音的目标二维数字人视频。

具体地，将所述音频数据、所述人脸关键点数据和所述遮住嘴部区域的人脸图片输入至上述的数字人生成模型中，生成与所述音频数据对应的数字人视频，包括：

将所述音频数据输入训练得到的数字人生成模型中的第一神经网络模型，获取音频特征；

将所述音频特征、所述人脸关键点数据和所述遮住嘴部区域的人脸图片输入所述训练得到的数字人生成模型中的第二神经网络模型，生成与所述音频数据对应的数字人视频。

示例性的，模型训练完成之后，可以根据不同应用场景录制模板视频，对视频进行人脸检测和裁剪生成crop图片和mask图片用于后续视频生成。具体地，根据不同的应用场景，可以录制语音或者直接使用tts(语音合成)合成语音，之后就能使用语音和模板图片生成二维数字人视频。

获得音频之后，通过训练完成的第一神经网络模型，提取得到能够表示其语义的音频特征。然后对模板图片进行处理，提取人脸关键点数据，用于学习模特的头部动作；对图片进行裁切处理，遮挡住嘴部区域获得mask图片。之后将音频特征数据、人脸关键点数据和mask图片送入第二神经网络模型，生成与语音对应的二维数字人图片序列。

特别地，在本实施例中提供的模板视频能够重复利用，即录制视频进行预处理之后，只需要录制音频，就能合成与音频对应的二维数字人图片序列。

本申请提供的数字人生成模型中，第二神经网络模型在第一神经网络模型的基础之上工作，第二神经网络模型根据第一神经网络模型预测的音频特征信息进行图片生成，进一步地，第一神经网络模型使用大量音频数据进行训练，对于语义信息的表示具有通用性，之后将音频特征、人脸关键点数据和mask图片送入第二神经网络模型，第二神经网络模型使用音频特征信息预测口型，用人脸关键点数据预测头部动作，用mask图片预测模特的个性信息。

第二神经网络模型生成图片序列后，将生成的图片缩放到原图大小嵌入原模板图片，通过ffmpeg软件等工具将图片合成视频，同时能够添加音频生成带有音频信息的视频。

在本实施例中，通过所述第二神经网络模型生成与所述音频数据对应的数字人视频之前，还通过融合技术，将训练使用的视频数据和模板视频数据的亮度色调融合，生成无色差人脸图片。

需要说明的是，如果训练使用的视频和模板视频亮度色调不能保持完全一致，生成的图片区域和原图会存在一个色差，为了解决这个问题需要做一个融合操作。

训练完成的数字人生成模型能够支持不同的模板视频，模特能够根据需要做出相应的动作来适应不同的应用场景，也能支持不同人物录制的语音或者tts生成的语音。

本申请提供的二维数字人生成模型，使用预先构建的第一神经网络模型合成输入文本对应的语音，并使用预先构建的第二神经网络模型合成音频序列对应的图像序列；叠加生成的语音和视频序列，获得二维数字人视频数据。本申请能够合成口型准确动作自然的数字人视频，能广泛应用于新闻播报/客服/短视频等场景，大大提高了互动效果。具体实施例步骤如下。

本示例性实施例中，以二维数字人在短视频生成中的应用为例进行说明，主要用于根据语音生成短视频。二维数字人生成模型的模型训练模块中，第一神经网络模型与第二神经网络模型的训练过程如前述。

(1)根据应用场景录制相应的模板视频，录制语音数据或者直接只用tts技术生成语音。

(2)使用dlib对模板进行处理生成mask图片，并对音频数据进行特征提取，以得到输入音频特征。

(3)第一神经网络模型对音频特征进行检测，预测生成landmark关键点数据，将landmark关键点绘制在图片上生成landmark图片，用来作为第二神经网络模型的输入。

(4)将landmark图片和mask图片并送入第二神经网络模型，第二神经网络模型以此生成人脸数据。

(5)将生成的图片缩放到原始图像大小，嵌入到原始图片，之后将生成的图片序列合成视频。

(6)将输入音频添加到视频中生成带有声音的视频，完成二维数字人视频生成。

(7)模板图片只需要处理一次就能多次使用，后续只需要录制音频就能进行二维数字人视频的生成。

本申请提供的二维数字人生成模型能根据文本生成口型正确、动作自然的高清视频，以此，在新闻播报/客服/短视频等数字人需求领域，可高效的生成相应产品。

进一步需要说明的是，现有相关技术中先合成视频帧，再用视频帧拼成视频的实现方式生成数字人，这种情况下视频帧通常的长度为30至35ms，由于其时长过短，难以包含上下文信息，也无法包含时序信息，因此会出现严重的抖动现象。而本申请提供的数字人生成模型，基于landmark数据和mask图片预测人脸的方式，在实施过程中选取的一帧视频时长通常为0.7至0.8s，其长度较于现有技术有显著提升。基于本申请提供的时长的视频进行处理，一方面可包含足够的上下文信息，进而令携带时长信息成为现实，故而避免了视频生成的抖动问题。另一方面，上述时长的视频作为样本可实现模型的训练，通过模型的训练与学习，可显著提高视频生成的效率与精度，进而在保证生成的二维数字人不发生抖动的前提下，确保了整体生成工作的顺利进行。特别地，本申请提供的二维数字人生成模型解决了现有二维数字人生成技术中，生成的头像与身体整体的融合问题。

本说明书中通篇提及的“多个实施例”、“一些实施例”、“一个实施例”或“实施例”等，意味着结合该实施例描述的具体特征，部件或特性包括在至少一个实施例中，因此，本说明书通篇出现的短语“在多个实施例中”、“在一些实施例中”、“在至少另一个实施例中”或“在实施例中”等，并不一定都指相同的实施例。此外，在一个或多个实施例中，具体特征、部件或特性可以任何合适的方式进行组合。因此，在无限制的情形下，结合一个实施例示出或描述的具体特征、部件或特性可全部或部分地与一个或多个其他实施例的特征、部件或特性进行组合。这种修改和变型旨在包括早本申请的范围之内。

本申请提供的实施例之间的相似部分相互参见即可，以上提供的具体实施方式只是本申请总的构思下的几个示例，并不构成本申请保护范围的限定。对于本领域的技术人员而言，在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种数字人生成系统，其特征在于，包括数据采集模块、数据预处理模块、模型训练模块、预测处理模块，其中：

所述数据采集模块用于采集训练样本视频数据，所述训练样本视频数据包括视频数据以及与所述视频数据对应的音频数据；

所述数据处理模块用于对所述训练样本视频数据进行预处理，所述预处理包括删除有干扰的所述音频数据、优化所述视频数据；

所述模型训练模块用于对所述音频数据进行特征提取，获取对应的样本特征；

将所述视频数据转换为原始图片，提取人脸关键点数据和遮住嘴部区域的人脸图片；

通过所述样本特征训练预设的第一神经网络模型，获取训练后的音频特征；

将所述训练后的音频特征输入预设的第二神经网络中的音频编码网络，获取输出音频编码特征；

将所述人脸关键点数据和所述遮住嘴部区域的人脸图片输入所述第二神经网络中的图像编码网络，获取人脸关键点编码特征和图像编码特征；

将所述人脸关键点编码特征、所述图像编码特征与所述输出音频编码特征进行拼接，得到拼接特征；

将所述拼接特征输入至所述第二神经网络模型中的解码网络，获得与所述音频特征对应的预测人脸图片；所述预测处理模块用于将生成的所述预测人脸图片缩放到原始图片大小嵌入所述原始图片，通过融合技术将所述预测人脸图片与所述原始图片融合，将融合后的所述预测人脸图片合成与所述音频数据对应的数字人视频。

2.一种数字人生成模型的训练方法，应用于权利要求1所述的系统中，其特征在于，数字人生成模型由第一神经网络模型和第二神经网络模型组成，对所述数字人生成模型进行训练，包括：

采集训练样本视频数据，所述训练样本视频数据包括视频数据以及与所述视频数据对应的音频数据；

对所述训练样本视频数据进行预处理，所述预处理包括删除有干扰的所述音频数据、优化所述视频数据；

对所述音频数据进行特征提取，获取对应的样本特征；将所述视频数据转换为原始图片，提取人脸关键点数据和遮住嘴部区域的人脸图片；

将所述拼接特征输入至所述第二神经网络模型中的解码网络，获得与所述音频特征对应的预测人脸图片；

将生成的所述预测人脸图片缩放到原始图片大小嵌入所述原始图片，通过融合技术将所述预测人脸图片与所述原始图片融合，将融合后的所述预测人脸图片合成与所述音频数据对应的数字人视频。

3.根据权利要求2所述的方法，其特征在于，提取所述遮住嘴部区域的人脸图片的具体步骤为：

4.根据权利要求2所述的方法，其特征在于，通过所述样本特征训练预设的第一神经网络模型，获取音频特征，包括：

提取所述音频特征对应的Fbank音频特征；

5.根据权利要求2所述的方法，其特征在于，所述第二神经网络模型采用生成式对抗网络技术，并且所述第二神经网络模型由生成器和判别器组成，通过所述生成器与所述判别器对所述第二神经网络模型的进行训练，包括：

将提取的所述人脸关键点数据输入第一卷积网络，获得所述人脸关键点编码特征；

将通过所述第一神经网络模型训练后的音频特征，输入所述音频编码网络，获得与所述图像编码特征维度相同的输出音频编码特征；

通过所述判别器，判别所述预测人脸图片的真实程度。

6.根据权利要求5所述的方法，其特征在于，所述第二神经网络模型中在所述生成器与所述判别器之后还通过设计损失函数进行训练，所述损失函数包括第一损失函数、第二损失函数和第三损失函数，具体包括：

7.一种数字人生成方法，其特征在于，包括：

对所述裁剪图片进行处理，提取人脸关键点数据；将所述音频数据、所述人脸关键点数据和所述遮住嘴部区域的人脸图片输入至权利要求2所述的数字人生成模型中，生成与所述音频数据对应的数字人视频；

8.根据权利要求7所述的方法，其特征在于，将所述音频数据、所述人脸关键点数据和所述遮住嘴部区域的人脸图片输入至权利要求2所述的数字人生成模型中，生成与所述音频数据对应的数字人视频，包括：

9.根据权利要求7所述的方法，其特征在于，通过所述第二神经网络模型生成与所述音频数据对应的数字人视频之前，还通过融合技术，将训练使用的视频数据和模板视频数据的亮度色调融合，生成无色差人脸图片。