CN115116109B

CN115116109B - 虚拟人物说话视频的合成方法、装置、设备及存储介质

Info

Publication number: CN115116109B
Application number: CN202210449980.8A
Authority: CN
Inventors: 李佼; 戴磊; 刘玉宇; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2024-05-14
Anticipated expiration: 2042-04-27
Also published as: CN115116109A

Abstract

本发明涉及人工智能领域，公开了一种虚拟人物说话视频的合成方法、装置、设备及存储介质。所述方法包括：获取虚拟人物的人脸图像、人脸表情图像集、人脸姿态图像集以及说话语音数据，并基于人脸特征提取模型进行特征提取，得到人脸特征、表情特征集和人脸姿态特征集；基于语音转换模型转换说话语音数据，得到人脸运动特征序列；将人脸特征与人脸表情特征集以及人脸姿态特征集中的各特征进行拼接后，与人脸运动特征序列一起输入生成对抗网络模型，得到虚拟人物的人脸运动图像序列；根据说话语音数据和人脸运动图像序列，合成虚拟人物的说话视频。本发明生成同步控制虚拟人物在说话过程中的表情特征和面部姿态特征，提升了虚拟人物说话的真实性。

Description

虚拟人物说话视频的合成方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种虚拟人物说话视频的合成方法、装置、设备及存储介质。

背景技术

随着计算机技术的发展，人机交互已经比较常见，但多为单纯的语音交互，例如交互设备可以根据用户输入的文字或语音确定回复内容，并播放根据回复内容合成的虚拟声音。

现有人机交互场景中，通常从音频数据生成动态的对应说话口型的虚拟人或者真实人物的虚拟生成，其并没有同步控制相关人物的表情和头部姿态，导致所生成的虚拟说话人的真实性较弱。

发明内容

本发明的主要目的在于解决现有虚拟人物说话视频的合成方法没有同步控制相关人物的表情和头部姿态从而导致所生成的虚拟说话人的真实性较弱的问题。

本发明第一方面提供了一种虚拟人物说话视频的合成方法，包括：

获取目标虚拟人物预设的说话场景数据，其中，所述说话场景图像数据包括所述目标虚拟人物的人脸图像、人脸表情图像集、人脸姿态图像集以及说话语音数据；

基于预设的人脸特征提取模型，分别对所述人脸图像、所述人脸表情图像集以及所述人脸姿态图像集进行特征提取，得到所述目标虚拟人物的人脸特征、表情特征集和人脸姿态特征集；

基于预设的语音转换网络模型，对所述说话语音数据进行转换，得到所述说话语音数据对应的人脸运动特征序列，其中，其中，所述语音转换网络模型用于将语音特征转换为人脸特征；

将所述人脸特征分别与所述人脸表情特征集中的各人脸表情特征以及所述人脸姿态特征集中的各人脸姿态特征进行拼接，得到人脸组合特征集；

基于预设的生成对抗网络模型，对所述人脸运动特征序列与所述人脸组合特征集进行处理，得到所述目标虚拟人物的人脸运动图像序列；

根据所述说话语音数据和所述人脸运动图像序列，合成所述目标虚拟人物含面部说话表情和口型的说话视频。

可选的，在本发明第一方面的第一种实现方式中，所述基于预设的人脸特征提取模型，分别对所述人脸图像、所述人脸表情图像集以及所述人脸姿态图像集进行特征提取，得到所述目标虚拟人物的人脸特征、表情特征集和人脸姿态特征集之前，还包括：

从预设的人脸图像样本集中获取目标人脸图像对，其中，所述目标人脸图像对中包含两张不同人脸、不同表情以及不同人脸姿态的目标人脸图像；

初始化预设网络模型的网络参数；

基于所述预设网络模型，对所述目标人脸图像对进行特征提取，得到所述目标人脸图像对中各所述目标人脸图像的人脸特征、表情特征以及人脸姿态特征；

基于预设的损失函数，对所述人脸特征、所述表情特征以及所述人脸姿态特征进行计算，得到所述目标人脸图像对的全局损失值；

根据所述全局损失值，调整所述预设网络模型的网络参数，得到所述人脸特征提取模型。

可选的，在本发明第一方面的第二种实现方式中，所述预设网络模型中包括编码网络、解码网络以及人脸姿态判别网络，所述目标人脸图像对由第一目标人脸图像和第二目标人脸图像组成，所述基于所述预设网络模型，对所述目标人脸图像对进行特征提取，得到所述目标人脸图像对中各所述目标人脸图像的人脸特征、表情特征以及人脸姿态特征包括：

调用所述编码网络，对各所述目标人脸图像进行编码，得到各目标人脸图像的人脸特征、表情特征以及人脸姿态特征；

将所述第一目标人脸图像的人脸特征与所述第二目标人脸图像的表情特征以及人脸姿态特征进行拼接，将所述第二目标人脸图像的人脸特征与所述第一目标人脸图像的表情特征以及人脸姿态特征进行拼接，得到两个人脸交换组合特征；

从所述人脸图像样本集中分别获取与每个人脸交换组合特征中的人脸特征和表情特征均相同的关联人脸图像，得到关联人脸图像对，其中，所述关联人脸图像对中各人脸图像的人脸姿态特征相同；

调用所述解码网络，对所述关联人脸图像对进行解码，得到各所述目标人脸图像的人脸特征和表情特征，以及调用所述人脸姿态判别网络，对所述关联人脸图像对进行角度计算，得到各所述目标人脸图像的人脸姿态特征。

可选的，在本发明第一方面的第三种实现方式中，所述基于预设的损失函数，对所述人脸特征、所述表情特征以及所述人脸姿态特征进行计算，得到所述目标人脸图像对的全局损失值包括：

基于预设的L1损失函数，分别对所述人脸特征和所述表情特征进行计算，得到所述目标人脸图像对在人脸特征上的第一损失值以及在表情特征上的第二损失值；

基于预设的余弦损失函数，对所述人脸姿态特征进行计算，得到所述目标人脸图像在人脸姿态特征上的第三损失值；

根据所述第一损失值、所述第二损失值以及所述第三损失值，计算所述目标人脸图像对的全局损失值。

可选的，在本发明第一方面的第四种实现方式中，所述根据所述全局损失值，调整所述预设网络模型的网络参数，得到所述人脸特征提取模型包括：

将所述全局损失值由所述预设网络模型的输出层向隐藏层反向传播；

当所述全局损失值被传播至所述隐藏层时，根据所述全局损失值，并采用随机梯度下降算法对所述预设网络模型的网络参数进行迭代更新；

在模型收敛时，确定当前所述预设网络模型的网络参数为目标参数，得到所述人脸特征提取模型。

可选的，在本发明第一方面的第五种实现方式中，所述语音转换网络模型中包括语音特征提取网络和特征映射网络，所述基于预设的语音转换网络模型，对所述说话语音数据进行转换，得到所述说话语音数据对应的人脸运动特征序列包括：

调用所述语音特征提取网络，提取所述说话语音数据对应的梅尔倒谱系数；

调用所述特征映射网络，将所述说话语音数据对应的梅尔倒谱系数映射为说话过程中的人脸运动特征序列。

可选的，在本发明第一方面的第六种实现方式中，所述生成对抗网络模型中包括生成网络和判别网络，所述基于预设的生成对抗网络模型，对所述人脸运动特征序列与所述人脸组合特征集进行处理，得到所述目标虚拟人物的人脸运动图像序列包括：

获取一组随机噪声数据分布，并将所述人脸组合特征集中的各组合特征作为所述生成对抗网络模型的先验数据分布；

调用所述生成网络，处理所述随机噪声数据分布和所述先验数据分布，生成所述目标虚拟人物的人脸运动图像伪序列；

调用所述判别网络，计算所述人脸运动图像伪序列为所述人脸运动特征序列的概率值；

基于预设的损失函数，计算所述概率值的损失值；

根据所述概率值的损失值，调整所述生成网络的网络参数，直至所述生成网络收敛；

当所述生成网络收敛，输出当前生成网络所生成的人脸运动图像伪序列，得到所述目标虚拟人物的人脸运动图像序列。

本发明第二方面提供了一种虚拟人物说话视频的合成装置，包括：

数据获取模块，用于获取目标虚拟人物预设的说话场景数据，其中，所述说话场景图像数据包括所述目标虚拟人物的人脸图像、人脸表情图像集、人脸姿态图像集以及说话语音数据；

特征提取模块，用于基于预设的人脸特征提取模型，分别所述人脸图像、所述人脸表情图像集以及所述人脸姿态图像集进行特征提取，得到所述目标虚拟人物的人脸特征、表情特征集和人脸姿态特征集；

特征转换模块，用于基于预设的语音转换网络模型，对所述说话语音数据进行转换，得到所述说话语音数据对应的人脸运动特征序列，其中，所述语音转换网络模型用于将语音特征转换为人脸特征；

特征组合模块，用于将所述人脸特征分别与所述人脸表情特征集中的各人脸表情特征以及所述人脸姿态特征集中的各人脸姿态特征进行拼接，得到人脸组合特征集；

对抗生成模块，用于基于预设的生成对抗网络模型，对所述人脸运动特征序列与所述人脸组合特征集进行处理，得到所述目标虚拟人物的人脸运动图像序列；

视频合成模块，用于根据所述说话语音数据和所述人脸运动图像序列，合成所述目标虚拟人物含面部说话表情和口型的说话视频。

可选的，在本发明第二方面的第一种实现方式中，所述装置还包括用于构建所述人脸特征提取模型的模型构建模块，所述模型构建模块具体包括：

样本获取单元，用于从预设的人脸图像样本集中获取目标人脸图像对，其中，所述目标人脸图像对中包含两张不同人脸、不同表情以及不同人脸姿态的目标人脸图像；

初始化单元，用于初始化预设网络模型的网络参数；

特征提取单元，用于基于所述预设网络模型，对所述目标人脸图像对进行特征提取，得到所述目标人脸图像对中各所述目标人脸图像的人脸特征、表情特征以及人脸姿态特征；

损失计算单元，用于基于预设的损失函数，对所述人脸特征、所述表情特征以及所述人脸姿态特征进行计算，得到所述目标人脸图像对的全局损失值；

参数调整单元，用于根据所述全局损失值，调整所述预设网络模型的网络参数，得到所述人脸特征提取模型。

可选的，在本发明第二方面的第二种实现方式中，所述预设网络模型中包括编码网络、解码网络以及人脸姿态判别网络，所述目标人脸图像对由第一目标人脸图像和第二目标人脸图像组成，所述特征提取单元具体用于：

可选的，在本发明第二方面的第三种实现方式中，所述损失计算单元具体用于：

可选的，在本发明第二方面的第四种实现方式中，所述参数调整单元具体用于：

可选的，在本发明第二方面的第五种实现方式中，所述语音转换网络模型中包括语音特征提取网络和特征映射网络，所述特征转换模块具体包括：

语音特征提取单元，用于调用所述语音特征提取网络，提取所述说话语音数据对应的梅尔倒谱系数；

语音特征映射单元，用于调用所述特征映射网络，将所述说话语音数据对应的梅尔倒谱系数映射为说话过程中的人脸运动特征序列。

可选的，在本发明第二方面的第六种实现方式中，所述生成对抗网络模型中包括生成网络和判别网络，所述对抗生成模块具体包括：

样本数据单元，用于获取一组随机噪声数据分布，并将所述人脸组合特征集中的各组合特征作为所述生成对抗网络模型的先验数据分布；

网络生成单元，用于调用所述生成网络，处理所述随机噪声数据分布和所述先验数据分布，生成所述目标虚拟人物的人脸运动图像伪序列；

网络判别单元，用于调用所述判别网络，计算所述人脸运动图像伪序列为所述人脸运动特征序列的概率值；

损失计算单元，用于基于预设的损失函数，计算所述概率值的损失值；

参数调整单元，用于根据所述概率值的损失值，调整所述生成网络的网络参数，直至所述生成网络收敛；

序列输出单元，用于当所述生成网络收敛，输出当前生成网络所生成的人脸运动图像伪序列，得到所述目标虚拟人物的人脸运动图像序列。

本发明第三方面提供了一种虚拟人物说话视频的合成设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述虚拟人物说话视频的合成设备执行上述的虚拟人物说话视频的合成方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的虚拟人物说话视频的合成方法。

本发明提供的技术方案中，通过人脸特征提取模型分别提取虚拟人物的人脸特征、表情特征集合以及人脸姿态特征集合，并对三者进行组合，得到组合特征集合，通过语音转换网络模型将虚拟人物的语音特征转换为说话过程中的人脸运动特征序列，从而以组合特征集合作为先验参数，以人脸运动特征序列为真实样本，输入至风险对抗网络模型，基于该网络模型中的生成网络生成伪样本，从而将该伪样本与真实样本输入该网络模型中的判别器判断哪个为真实样本，进而根据判断结果不断调整生成网络参数，直至生成“以假乱真”的伪样本，最后将作为目标虚拟人物的人脸运动图像序列的伪样本与说话语音数据进行剪辑合成，生成说话视频，从而生成同步控制虚拟人物在说话过程中的表情特征和面部姿态特征，提升了虚拟人物说话的真实性。。

附图说明

图1为本发明实施例中虚拟人物说话视频的合成方法的第一个实施例示意图；

图2为本发明实施例中虚拟人物说话视频的合成方法的第二个实施例示意图；

图3为本发明实施例中虚拟人物说话视频的合成方法的第三个实施例示意图；

图4为本发明实施例中虚拟人物说话视频的合成装置的一个实施例示意图；

图5为本发明实施例中虚拟人物说话视频的合成装置的另一个实施例示意图；

图6为本发明实施例中虚拟人物说话视频的合成设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种虚拟人物说话视频的合成方法、装置、设备及存储介质，所合成的虚拟人物说话视频更加真实。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

本发明中的服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中虚拟人物说话视频的合成方法的一个实施例包括：

101、获取目标虚拟人物预设的说话场景数据，其中，该说话场景图像数据包括目标虚拟人物的人脸图像、人脸表情图像集、人脸姿态图像集以及说话语音数据；

可以理解的是，随着元宇宙的兴起，虚拟人物这类产品的需求越加旺盛，而这些虚拟人物本质是基于计算机视觉技术(Computer Vision，CV)所生成的音频图像，进一步对用户的语音文本进行自然语言处理(Natural Language Processing，NLP)从而输出相应的音频图像以实现人机交互，本申请为针对前者的现有技术所提出的改进方案。

可以理解的是，在准备生成虚拟人物的音频图像之前，由用户预先采集目标虚拟人物的说话场景数据并保存于数据库中，其主要包括图像数据、音频数据以及视频数据，数据来源可以为网络公开数据集，也可以为用户自主设计，本实施例对其不做限定。

人脸表情图像集中包含多张该目标虚拟人物不同表情的图像，人脸姿态图像集中包含多张该目标虚拟人物不同人脸姿态角度的图像。

可选的，服务器首先获取到一段用于控制人脸表情的视频vedio1以及一段用于控制人脸姿态角度的视频vedio2，进而分别对vedio1和vedio2进行视频解码；分别输出vedio1和vedio2的每一帧图像；基于vedio1的每一帧图像，构建该人脸表情图像集，以及基于vedio2的每一帧图像，构建人脸姿态图像集。

102、基于预设的人脸特征提取模型，分别对该人脸图像、该人脸表情图像集以及该人脸姿态图像集进行特征提取，得到目标虚拟人物的人脸特征、表情特征集和人脸姿态特征集；

可以理解的是，该人脸特征提取模型可以为经特征提取训练后的卷积神经网络模型(Convolutional Neural Networks，CNN)，例如LeNet、AlexNet、VGG等，本实施例对其不做限定。

可以理解的是，服务器将该人脸图像、该人脸表情图像集以及该人脸姿态图像集输入至该人脸特征提取模型中可以从学习图像的浅层特征，输出图像的深层特征，从而解耦出人脸特征、表情特征以及人脸姿态特征。在网络模型中，对于图像的处理，通常根据图像中各像素点的灰度值将其转换为对应的特征矩阵，进而对其进行卷积以提取人脸图像、人脸表情图像以及人脸姿态图像中的重要特征。

可选的，在对模型处理输入的图像之前，服务器还对该人脸图像、该人脸表情图像集以及人脸姿态图像集进行图像的预处理，例如几何变换、平滑、增强、复原、降噪等，从而保证所提取特征的可靠性，本实施例中对其不做限定。

103、基于预设的语音转换网络模型，对该说话语音数据进行转换，得到该说话语音数据对应的人脸运动特征序列；

应当理解的是，该语音转换网络模型基于姿态可控视听系统(Pose-ControllableAudio-Visual System，PC-AVS)，通过隐式地在潜空间(Latent Space)中定义一个12维的姿态编码以用于头部运动控制，从而生成该说话语音数据所对应的人脸运动特征。

具体的，该语音转换网络模型中包括语音特征提取网络和特征映射网络，服务器基于该语音特征提取网络，从而提取说话语音数据对应的梅尔倒谱系数(Mel-FrequencyCepstral Coefficients，MFCC)；进一步的，服务器调用该特征映射网络，将所提取的梅尔倒谱系数所在的说话内容空间(Speech Contant Space)映射至表示头部运动的姿态空间(Pose Space)，而这一隐空间的学习，主要依赖于音频和视频之间的对齐、同步信息(alignment)，而这两者之间的这种对齐与同步得益于该语音转换网络模型在训练时基于对比损失函数(contrastive loss)，该对比损失函数请参考公式一，对语音特征与人脸运动特征序列之间进行对齐约束，即对齐的人脸运动特征序列和语音特征为正样本，非对齐的则为负样本。

其中，d为语音特征与人脸运动特征序列之间的欧氏距离，y为语音特征与人脸运动特征序列是否匹配的标签，即y＝1代表两者相似或者匹配，y＝0则代表不匹配，margin为设定的阈值。

104、将该人脸特征分别与人脸表情特征集中的各人脸表情特征以及人脸姿态特征集中的各人脸姿态特征进行拼接，得到人脸组合特征集；

可以理解的是，服务器将一个人脸特征、一个人脸表情特征以及一个人脸姿态特征三者进行拼接即可得到某一时刻下该目标虚拟人物含有表情及人脸姿态的脸部图像，而人脸表情特征集和人脸姿态特征集中均包含多个特征，服务器可以对三者进行自由组合拼接，从而生成该目标虚拟人物高鲁棒性的人脸组合特征集，而该人脸组合特征集为进一步生成目标虚拟人物的人脸运动图像序列提供先验数据，从而减少了生成对抗感知路径长度(Perceptual path length)，提升生成目标虚拟人物的人脸运动图像序列的效率。

105、基于预设的生成对抗网络模型，对该人脸运动特征序列与该人脸组合特征集进行处理，得到目标虚拟人物的人脸运动图像序列；

可以理解的是，生成对抗网络模型(Generative Adversarial Networks，GAN)是一种隐式密度模型，包括一个生成网络(Generator Network)和一个判别网络(Discriminator Network)；其中，服务器将该人脸运动特征序列作为真实样本，将人脸组合特征集合输入Generator Network生成尽可能逼近真实样本的伪样本，DiscriminatorNetwork从真实样本和伪样本之间尽可能高准确度的判别出伪样本，通过对抗训练的方式来使得生成网络产生的样本服从真实数据分布，从而得到该目标虚拟人物的人脸运动图像序列。

本实施例中，该生成对抗网络模型可以为传统的GAN、styleGAN、styleGAN2等网络模型，本实施例对其不做限定。

106、根据该说话语音数据和该人脸运动图像序列，合成该目标虚拟人物含面部说话表情和口型的说话视频。

可以理解的是，该人脸运动图像序列可以视为一帧帧按照时间顺序排列的视频帧图像，对其进行视频编码则可以得到一段该目标虚拟人物的说话视频；同时，应当理解的是，该说话语音数据和该说话视频之间是对齐同步的，进而将该说话语音数据的音频轨道与说话视频的图像轨道进行叠加合成，从而得到该目标虚拟人物含面部说话表情和口型的说话视频。

本实施例中，通过生成同步控制虚拟人物在说话过程中的表情特征和面部姿态特征，提升了虚拟人物说话的真实性。

参阅图2，本发明实施例中虚拟人物说话视频的合成方法的第二个实施例包括：

201、获取目标虚拟人物预设的说话场景数据，其中，该说话场景图像数据包括目标虚拟人物的人脸图像、人脸表情图像集、人脸姿态图像集以及说话语音数据；

其中，步骤201与上述步骤101的执行步骤类似，具体此处不再赘述。

202、从预设的人脸图像样本集中获取目标人脸图像对，其中，该目标人脸图像对中包含两张不同人脸、不同表情以及不同人脸姿态的目标人脸图像；

可以理解的是，预设的人脸图像样本集可以为预先采集的样本集，也可以为网络上的公开图像数据集，本实施例对其不做限定。目标人脸图像对是当前用于对网络模型进行训练，包含两张目标人脸图像IMG_i,m,n和IMG_j,k,o，i和j分别代表两张不同的人脸(FaceIdentity)，m和k分别代表两种不同的人脸表情(Emotion)，n和o分别代表两种不同的人脸姿态(Face Pose)。

203、初始化预设网络模型的网络参数，并基于预设网络模型，对目标人脸图像对进行特征提取，得到目标人脸图像对中各目标人脸图像的人脸特征、表情特征以及人脸姿态特征；

可以理解的是，该预设网络模型可以为LeNet、AlexNet、VGG等，本实施例对其不做限定。服务器通过该网络模型对所输入的目标人脸图像对中的各目标人脸图像进行解耦，从而分别提取独立的人脸特征、表情特征以及人脸姿态特征。

具体的，该预设网络模型包括编码网络(Encoder)、解码网络(Decoder)以及人脸姿态判别网络(Discriminator)，该目标人脸图像对由第一目标人脸图像和第二目标人脸图像组成。

服务器调用该编码网络，对各目标人脸图像进行编码，以得到各目标人脸图像的人脸特征、表情特征以及人脸姿态特征；

将第一目标人脸图像的人脸特征与第二目标人脸图像的表情特征以及人脸姿态特征进行拼接，将第二目标人脸图像的人脸特征与第一目标人脸图像的表情特征以及人脸姿态特征进行拼接，得到两个人脸交换组合特征；

从人脸图像样本集中分别获取与每个人脸交换组合特征中的人脸特征和表情特征均相同的关联人脸图像，得到关联人脸图像对，其中，关联人脸图像对中各人脸图像的人脸姿态特征相同；

调用该解码网络，对关联人脸图像对进行解码，得到各目标人脸图像的人脸特征和表情特征，以及调用人脸姿态判别网络，对关联人脸图像对进行角度计算，从而得到各目标人脸图像的人脸姿态特征。

可选的，为提升模型的感受野(Receptive Field)范围，服务器还对所得到的各目标图像的人脸特征、表情特征以及人脸姿态特征进行池化处理，从而对局部区域特征进行缩小，本实施例中对池化处理的类型不做限定，可以为最大池化或平均池化等。

可选的，该网络模型还包括Dropout层网络，为防止模型过度拟合，服务器还调用该Dropout层网络对所得到的的人脸特征、表情特征以及人脸姿态特征按照指定的概率值进行随机丢失，从而保证该网络模型学习重要的特征。该随机丢失的概率值可根据实际需求进行调整，优选的，该概率值为0.5。

204、基于预设的损失函数，对人脸特征、表情特征以及人脸姿态特征进行计算，得到目标人脸图像对的全局损失值；

可以理解的是，损失函数用于计算当前特征提取的结果与实际值之间的偏差，该损失函数可以为联合该网络模型中所有网络的损失计算全局损失值，本实施例对其不做限定。

可选的，服务器基于预设的L1损失函数，对人脸特征和表情特征进行计算，得到目标人脸图像对在人脸特征上的第一损失值以及在表情特征上的第二损失值；

基于预设的余弦损失函数，对人脸姿态特征进行计算，得到目标人脸图像在人脸姿态特征上的第三损失值；

根据第一损失值、第二损失值以及第三损失值，计算目标人脸图像对的全局损失值。具体的，服务器可将三者直接相加以得到该全局损失值。

可选的，服务器还可以根据各损失值所对应的预设权重，从而将多尺度的网络损失值求和以得到该损失值。

205、根据该全局损失值，调整该预设网络模型的网络参数，得到人脸特征提取模型；

可以理解的是，当该全局损失值越小，则表示该网络模型的特征提取结果越准确。具体的，服务器将该全局损失值由预设网络模型的输出层向隐藏层反向传播；当该全局损失值被传播至隐藏层时，根据该全局损失值，并采用随机梯度下降算法对预设网络模型的网络参数进行迭代更新，从而更新各神经元的权重及偏置；在模型收敛时，确定当前网络参数为目标参数，得到人脸特征提取模型。

206、基于该人脸特征提取模型，分别对该人脸图像、该人脸表情图像集以及该人脸姿态图像集进行特征提取，得到目标虚拟人物的人脸特征、表情特征集和人脸姿态特征集；

207、基于预设的语音转换网络模型，对该说话语音数据进行转换，得到该说话语音数据对应的人脸运动特征序列；

208、将该人脸特征分别与人脸表情特征集中的各人脸表情特征以及人脸姿态特征集中的各人脸姿态特征进行拼接，得到人脸组合特征集；

209、基于预设的生成对抗网络模型，对该人脸运动特征序列与该人脸组合特征集进行处理，得到目标虚拟人物的人脸运动图像序列；

210、根据该说话语音数据和该人脸运动图像序列，合成该目标虚拟人物含面部说话表情和口型的说话视频。

其中，步骤206-210与上述步骤102-106的执行步骤类似，具体此处不再赘述。

本实施例中，详细描述了人脸特征提取模型的构建过程，通过模型训练和参数微调后构建准确的人脸特征提取模型，从而能够从样本中解耦出独立的人脸特征、表情特征以及人脸姿态特征。

参阅图3，本发明实施例中虚拟人物说话视频的合成方法的第三个实施例包括：

301、获取目标虚拟人物预设的说话场景数据，其中，该说话场景图像数据包括目标虚拟人物的人脸图像、人脸表情图像集、人脸姿态图像集以及说话语音数据；

302、基于预设的人脸特征提取模型，分别对该人脸图像、该人脸表情图像集以及该人脸姿态图像集进行特征提取，得到目标虚拟人物的人脸特征、表情特征集和人脸姿态特征集；

303、基于预设的语音转换网络模型，对该说话语音数据进行转换，得到该说话语音数据对应的人脸运动特征序列；

304、将该人脸特征分别与人脸表情特征集中的各人脸表情特征以及人脸姿态特征集中的各人脸姿态特征进行拼接，得到人脸组合特征集；

其中，步骤301-304与上述步骤101-104的执行步骤类似，具体此处不再赘述。

305、获取一组随机噪声数据分布，并将人脸组合特征集中的各组合特征作为生成对抗网络模型的先验数据分布；

可以理解的是，生成对抗网络模型是根据已知的数据分布生成目标数据分布的过程，该已知的数据分布即为该生成对抗网络的模型输入，该模型输入包括一组服从指定数据分布的随机噪声数据以及作为先验参数的人脸组合特征集，优选的，该随机噪声数据服从高斯分布，模型收敛速度将会得到提升。先验参数即对所生成的目标数据分布进行了约束，减少生对抗感知路径长度，从而提升目标虚拟人物的人脸运动图像序列的效率。

306、调用预设的生成对抗网络模型中的生成网络，处理该随机噪声数据分布和该先验数据分布，生成目标虚拟人物的人脸运动图像伪序列；

可以理解的是，服务器调用该Generator Network在该先验数据分布的约束下根据该随机噪声数据生成该目标虚拟人物的人脸运动图像序列。

307、调用预设的生成对抗网络模型中的判别网络，计算人脸运动图像伪序列为人脸运动特征序列的概率值；

可以理解的是，该判别网络为二分类网络，通过预设的匹配函数计算该人脸运动图像伪序列与真实样本(人脸运动特征序列)之间的匹配得分，进而将其收敛至[0，1]区间内，得到人脸运动图像伪序列为人脸运动特征序列的概率值。

308、基于预设的损失函数，计算该概率值的损失值，根据该概率值的损失值，调整生成网络的网络参数，直至生成网络收敛；

可以理解的是，该预设的损失函数请参考公式二，其中D表示判别网络，G表示生成网络。

对上述公式二进行拆分，得到优化判别网络D的部分损失函数，请参考公式二：

其中，在生成网络G的条件下优化判别网络D，D(G(Z))就是假样本(即人脸运动图像伪序列)；D(X)表示判断真实数据(即人脸运动图像序列)是否真实的概率，x表示的是真实数据，D(x)越大则判别越准确；G(Z)是生成的伪样本，D(G(z))越小则生成的人脸运动图像伪序列与人脸运动图像序列越相似。中的E指取期望值，辨别出x属于真实数据的对数损失函数，最大化这一项相当于令判别网络D在x服从于真实数据的概率密度时能准确地预测D(x)＝1；

类似的，表示判别网络D识别G(z)都为0，即G(z)没有欺骗判别网络D。

进一步的，对上述公式二进行拆分，得到优化生成网络G的部分损失函数，请参考公式四：

/>

最小化该函数，就是令D(G(z))最大，该值越大则表示该人脸运动图像伪序列越逼真，判别网络D无法识别，即生成网络G和判别网络D为一此消彼长的过程。

可选的，服务器基于Generator Network还合并一个特征匹配损失来提升GAN的损失函数。由于Generator Network必须在不同尺度下产生自然统计数据，因此这个损失函数使得该网络模型的训练更加稳定。具体的，服务器从判别网络的多隔层中提取特征，然后学习匹配真实和合成图像中的这些中间表示。应当理解的是，判别网络的特征匹配损失和感知损失(perceptual loss)相关，perceptual loss在超分辨率和风格迁移上的效果很突出，从而通过联合判别网络的特征匹配损失和perceptual loss来进一步提升模型的性能。

应当理解的是，在调整生成网络的网络参数时，需对判别网络的参数进行冻结，即判别网络的作用只是传递误差，而不是联合训练。

309、当该生成网络收敛，输出当前生成网络所生成的人脸运动图像伪序列，得到目标虚拟人物的人脸运动图像序列；

310、根据该说话语音数据和该人脸运动图像序列，合成该目标虚拟人物含面部说话表情和口型的说话视频。

其中，步骤310与上述步骤106的执行步骤类似，具体此处不再赘述。

本实施例中，详细描述了基于生成对抗网络生成人脸运动图像序列的过程，以组合特征集合作为先验参数，以人脸运动特征序列为真实样本，并与一组随机噪声数据输入至风险对抗网络模型，基于该网络模型中的生成网络生成伪样本，从而将该伪样本与真实样本输入该网络模型中的判别器判断哪个为真实样本，进而根据判断结果不断调整生成网络参数，直至生成“以假乱真”的伪样本，进而合成较强真实性的虚拟人物说话视频。

上面对本发明实施例中虚拟人物说话视频的合成方法进行了描述，下面对本发明实施例中虚拟人物说话视频的合成装置进行描述，请参阅图4，本发明实施例中虚拟人物说话视频的合成装置的一个实施例包括：

数据获取模块401，用于获取目标虚拟人物预设的说话场景数据，其中，所述说话场景图像数据包括所述目标虚拟人物的人脸图像、人脸表情图像集、人脸姿态图像集以及说话语音数据；

特征提取模块402，用于基于预设的人脸特征提取模型，分别所述人脸图像、所述人脸表情图像集以及所述人脸姿态图像集进行特征提取，得到所述目标虚拟人物的人脸特征、表情特征集和人脸姿态特征集；

特征转换模块403，用于基于预设的语音转换网络模型，对所述说话语音数据进行转换，得到所述说话语音数据对应的人脸运动特征序列；

特征组合模块404，用于将所述人脸特征分别与所述人脸表情特征集中的各人脸表情特征以及所述人脸姿态特征集中的各人脸姿态特征进行拼接，得到人脸组合特征集；

对抗生成模块405，用于基于预设的生成对抗网络模型，对所述人脸运动特征序列与所述人脸组合特征集进行处理，得到所述目标虚拟人物的人脸运动图像序列；

视频合成模块406，用于根据所述说话语音数据和所述人脸运动图像序列，合成所述目标虚拟人物含面部说话表情和口型的说话视频。

参阅图5，本发明实施例中虚拟人物说话视频的合成装置的另一个实施例包括：

数据获取模块501，用于获取目标虚拟人物预设的说话场景数据，其中，所述说话场景图像数据包括所述目标虚拟人物的人脸图像、人脸表情图像集、人脸姿态图像集以及说话语音数据；

模型构建模块502，用于构建所述人脸特征提取模型；

特征提取模块503，用于基于预设的人脸特征提取模型，分别所述人脸图像、所述人脸表情图像集以及所述人脸姿态图像集进行特征提取，得到所述目标虚拟人物的人脸特征、表情特征集和人脸姿态特征集；

特征转换模块504，用于基于预设的语音转换网络模型，对所述说话语音数据进行转换，得到所述说话语音数据对应的人脸运动特征序列；

特征组合模块505，用于将所述人脸特征分别与所述人脸表情特征集中的各人脸表情特征以及所述人脸姿态特征集中的各人脸姿态特征进行拼接，得到人脸组合特征集；

对抗生成模块506，用于基于预设的生成对抗网络模型，对所述人脸运动特征序列与所述人脸组合特征集进行处理，得到所述目标虚拟人物的人脸运动图像序列；

视频合成模块507，用于根据所述说话语音数据和所述人脸运动图像序列，合成所述目标虚拟人物含面部说话表情和口型的说话视频。

其中，所述模型构建模块502具体包括：

样本获取单元5021，用于从预设的人脸图像样本集中获取目标人脸图像对，其中，所述目标人脸图像对中包含两张不同人脸、不同表情以及不同人脸姿态的目标人脸图像；

初始化单元5022，用于初始化预设网络模型的网络参数；

特征提取单元5023，用于基于所述预设网络模型，对所述目标人脸图像对进行特征提取，得到所述目标人脸图像对中各所述目标人脸图像的人脸特征、表情特征以及人脸姿态特征；

损失计算单元5024，用于基于预设的损失函数，对所述人脸特征、所述表情特征以及所述人脸姿态特征进行计算，得到所述目标人脸图像对的全局损失值；

参数调整单元5025，用于根据所述全局损失值，调整所述预设网络模型的网络参数，得到所述人脸特征提取模型。

其中，所述预设网络模型中包括编码网络、解码网络以及人脸姿态判别网络，所述特征提取单元5023具体用于：

其中，所述损失计算单元5024具体用于：

其中，所述参数调整单元5025具体用于：

其中，所述语音转换网络模型中包括语音特征提取网络和特征映射网络，所述特征转换模块504具体包括：

语音特征提取单元5041，用于调用所述语音特征提取网络，提取所述说话语音数据对应的梅尔倒谱系数；

语音特征映射单元5042，用于调用所述特征映射网络，将所述说话语音数据对应的梅尔倒谱系数映射为说话过程中的人脸运动特征序列。

其中，所述生成对抗网络模型中包括生成网络和判别网络，对抗生成模块506具体包括：

样本数据单元5061，用于获取一组随机噪声数据分布，并将所述人脸组合特征集中的各组合特征作为所述生成对抗网络模型的先验数据分布；

网络生成单元5062，用于调用所述生成网络，处理所述随机噪声数据分布和所述先验数据分布，生成所述目标虚拟人物的人脸运动图像伪序列；

网络判别单元5063，用于调用所述判别网络，计算所述人脸运动图像伪序列为所述人脸运动特征序列的概率值；

损失计算单元5064，用于基于预设的损失函数，计算所述概率值的损失值；

参数调整单元5065，用于根据所述概率值的损失值，调整所述生成网络的网络参数，直至所述生成网络收敛；

序列输出单元5066，用于当所述生成网络收敛，输出当前生成网络所生成的人脸运动图像伪序列，得到所述目标虚拟人物的人脸运动图像序列。

本发明实施例中，模块化的设计让虚拟人物说话视频的合成装置各部位的硬件专注于某一功能的实现，最大化实现了硬件的性能，同时模块化的设计也降低了装置的模块之间的耦合性，更加方便维护。

上面图4和图5从模块化功能实体的角度对本发明实施例中的虚拟人物说话视频的合成装置进行详细描述，下面从硬件处理的角度对本发明实施例中虚拟人物说话视频的合成设备进行详细描述。

图6是本发明实施例提供的一种虚拟人物说话视频的合成设备的结构示意图，该虚拟人物说话视频的合成设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)610(例如，一个或一个以上处理器)和存储器620，一个或一个以上存储应用程序633或数据632的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对虚拟人物说话视频的合成设备600中的一系列指令操作。更进一步地，处理器610可以设置为与存储介质630通信，在虚拟人物说话视频的合成设备600上执行存储介质630中的一系列指令操作。

虚拟人物说话视频的合成设备600还可以包括一个或一个以上电源640，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口660，和/或，一个或一个以上操作系统631，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图6示出的虚拟人物说话视频的合成设备结构并不构成对虚拟人物说话视频的合成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种虚拟人物说话视频的合成设备，所述虚拟人物说话视频的合成设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述虚拟人物说话视频的合成方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述虚拟人物说话视频的合成方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种虚拟人物说话视频的合成方法，其特征在于，所述虚拟人物说话视频的合成方法包括：

获取目标虚拟人物预设的说话场景数据，其中，所述说话场景数据包括所述目标虚拟人物的人脸图像、人脸表情图像集、人脸姿态图像集以及说话语音数据；

基于预设的人脸特征提取模型，分别对所述人脸图像、所述人脸表情图像集以及所述人脸姿态图像集进行特征提取，得到所述目标虚拟人物的人脸特征、人脸表情特征集和人脸姿态特征集；

基于预设的语音转换网络模型，对所述说话语音数据进行转换，得到所述说话语音数据对应的人脸运动特征序列，其中，所述语音转换网络模型用于将语音特征转换为人脸特征；

2.根据权利要求1所述的虚拟人物说话视频的合成方法，其特征在于，所述基于预设的人脸特征提取模型，分别对所述人脸图像、所述人脸表情图像集以及所述人脸姿态图像集进行特征提取，得到所述目标虚拟人物的人脸特征、表情特征集和人脸姿态特征集之前，还包括：

初始化预设网络模型的网络参数；

3.根据权利要求2所述的虚拟人物说话视频的合成方法，其特征在于，所述预设网络模型中包括编码网络、解码网络以及人脸姿态判别网络，所述目标人脸图像对由第一目标人脸图像和第二目标人脸图像组成，所述基于所述预设网络模型，对所述目标人脸图像对进行特征提取，得到所述目标人脸图像对中各所述目标人脸图像的人脸特征、表情特征以及人脸姿态特征包括：

4.根据权利要求2所述的虚拟人物说话视频的合成方法，其特征在于，所述基于预设的损失函数，对所述人脸特征、所述表情特征以及所述人脸姿态特征进行计算，得到所述目标人脸图像对的全局损失值包括：

5.根据权利要求2所述的虚拟人物说话视频的合成方法，其特征在于，所述根据所述全局损失值，调整所述预设网络模型的网络参数，得到所述人脸特征提取模型包括：

6.根据权利要求1所述的虚拟人物说话视频的合成方法，其特征在于，所述语音转换网络模型中包括语音特征提取网络和特征映射网络，所述基于预设的语音转换网络模型，对所述说话语音数据进行转换，得到所述说话语音数据对应的人脸运动特征序列包括：

7.根据权利要求1-6中任意一项所述的虚拟人物说话视频的合成方法，其特征在于，所述生成对抗网络模型中包括生成网络和判别网络，所述基于预设的生成对抗网络模型，对所述人脸运动特征序列与所述人脸组合特征集进行处理，得到所述目标虚拟人物的人脸运动图像序列包括：

基于预设的损失函数，计算所述概率值的损失值；

8.一种虚拟人物说话视频的合成装置，其特征在于，所述虚拟人物说话视频的合成装置包括：

数据获取模块，用于获取目标虚拟人物预设的说话场景数据，其中，所述说话场景数据包括所述目标虚拟人物的人脸图像、人脸表情图像集、人脸姿态图像集以及说话语音数据；

特征提取模块，用于基于预设的人脸特征提取模型，分别对所述人脸图像、所述人脸表情图像集以及所述人脸姿态图像集进行特征提取，得到所述目标虚拟人物的人脸特征、人脸表情特征集和人脸姿态特征集；

9.一种虚拟人物说话视频的合成设备，其特征在于，所述虚拟人物说话视频的合成设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述虚拟人物说话视频的合成设备执行如权利要求1-7中任意一项所述的虚拟人物说话视频的合成方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任一项所述的虚拟人物说话视频的合成方法。