CN115376211A

CN115376211A - 唇形驱动方法、唇形驱动模型的训练方法、装置及设备

Info

Publication number: CN115376211A
Application number: CN202211306264.0A
Authority: CN
Inventors: 周航; 孙亚圣; 何栋梁; 刘经拓
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-10-25
Filing date: 2022-10-25
Publication date: 2022-11-22
Anticipated expiration: 2042-10-25
Also published as: CN115376211B

Abstract

本公开提供了一种唇形驱动方法、唇形驱动模型的训练方法、装置及设备，涉及计算机视觉、增强现实、虚拟现实等人工智能技术领域，可应用于元宇宙、虚拟数字人等场景。具体实现方案为：将样本训练数据输入所述唇形驱动网络，得到第一唇形图像数据和样本音频特征；将所述第一唇形图像数据、所述样本音频特征和所述样本脸部图像数据，输入所述唇形增强网络，得到第二唇形图像数据；将所述第二唇形图像数据和所述样本音频特征，输入所述唇音同步判别网络，得到判别结果；根据所述第二唇形图像数据和所述判别结果，确定训练损失；根据所述训练损失，对所述唇形驱动网络、所述唇形增强网络和所述唇音同步判别网络进行训练。

Description

唇形驱动方法、唇形驱动模型的训练方法、装置及设备

技术领域

本公开涉及人工智能技术领域，具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域，可应用于元宇宙、虚拟数字人等场景。

背景技术

语音驱动唇形是指在保持底板视频除唇部信息外其他信息不变的情况下，根据输入的音频信息，驱动视频中人物唇形的技术。现有技术多直接采用基于卷积神经网络的主干网络输出的结果，作为唇形和音频同步的唇形图像数据（即唇形补全图像）。这样较难将音频信息融合进分辨率较大的图像，只能生成图像质量较低的唇形图像数据。若增加主干网络的能力，以生成分辨率高的唇形图像数据，则导致所得到的唇形图像数据可能存在身份信息丢失或者唇形信息不准确，因此亟需改进。

发明内容

本公开提供了一种唇形驱动方法、唇形驱动模型的训练方法、装置及设备。

根据本公开的一方面，提供了一种唇形驱动模型的训练方法，其中，唇形驱动模型包括唇形驱动网络、唇形增强网络和唇音同步判别网络；该方法包括：

将样本训练数据输入所述唇形驱动网络，得到第一唇形图像数据和样本音频特征；其中，所述样本训练数据包括样本脸部图像数据和与所述样本脸部图像数据对齐的样本语音数据；

将所述第一唇形图像数据、所述样本音频特征和所述样本脸部图像数据，输入所述唇形增强网络，得到第二唇形图像数据；

将所述第二唇形图像数据和所述样本音频特征，输入所述唇音同步判别网络，得到判别结果；

根据所述第二唇形图像数据和所述判别结果，确定训练损失；

根据所述训练损失，对所述唇形驱动网络、所述唇形增强网络和所述唇音同步判别网络进行训练。

根据本公开的另一方面，提供了一种唇形驱动方法，该方法包括：

获取目标脸部图像数据和目标语音数据；

将所述目标脸部图像数据和所述目标语音数据，输入唇形驱动模型，得到在所述目标语音数据驱动下的目标唇形图像数据；其中，所述唇形驱动模型基于本公开任一实施例所述的唇形驱动模型的训练方法训练得到。

根据本公开的另一方面，提供了一种唇形驱动模型的训练装置，其中，唇形驱动模型包括唇形驱动网络、唇形增强网络和唇音同步判别网络；该装置包括：

第一唇形图像确定模块，用于将样本训练数据输入所述唇形驱动网络，得到第一唇形图像数据和样本音频特征；其中，所述样本训练数据包括样本脸部图像数据和与所述样本脸部图像数据对齐的样本语音数据；

第二唇形图像确定模块，用于将所述第一唇形图像数据、所述样本音频特征和所述样本脸部图像数据，输入所述唇形增强网络，得到第二唇形图像数据；

判别结果确定模块，用于将所述第二唇形图像数据和所述样本音频特征，输入所述唇音同步判别网络，得到判别结果；

训练损失确定模块，用于根据所述第二唇形图像数据和所述判别结果，确定训练损失；

网络训练模块，用于根据所述训练损失，对所述唇形驱动网络、所述唇形增强网络和所述唇音同步判别网络进行训练。

根据本公开的另一方面，提供了一种唇形驱动装置，包括：

目标数据获取模块，用于获取目标脸部图像数据和目标语音数据；

目标唇形图像确定模块，用于将所述目标脸部图像数据和所述目标语音数据，输入唇形驱动模型，得到在所述目标语音数据驱动下的目标唇形图像数据；其中，所述唇形驱动模型基于本公开任一实施例所述的唇形驱动模型的训练方法训练得到。

根据本公开的另一方面，提供了一种电子设备，该电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开任一实施例所述的唇形驱动模型的训练方法或唇形驱动方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行本公开任一实施例所述的唇形驱动模型的训练方法或唇形驱动方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据本公开任一实施例所述的唇形驱动模型的训练方法或唇形驱动方法。

根据本公开的技术，能够提高唇形驱动模型的唇形生成效果。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1A是根据本公开实施例提供的一种唇形驱动模型的训练方法的流程图；

图1B是根据本公开实施例提供的一种唇形驱动模型的训练过程示意图；

图2A是根据本公开实施例提供的另一种唇形驱动模型的训练方法的流程图；

图2B是根据本公开实施例提供的一种唇形增强网络的网络结构示意图；

图3是根据本公开实施例提供的又一种唇形驱动模型的训练方法的流程图；

图4是根据本公开实施例提供的一种唇形驱动方法的流程图；

图5是根据本公开实施例提供的一种唇形驱动模型的训练装置的结构示意图；

图6是根据本公开实施例提供的一种唇形驱动装置的结构示意图；

图7是用来实现本公开实施例的唇形驱动模型的训练方法或唇形驱动方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“目标”、“样本”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

此外，还需要说明的是，本发明的技术方案中，所涉及的脸部图像数据、语音数据等的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

图1A是根据本公开实施例提供的一种唇形驱动模型的训练方法的流程图。图1B是根据本公开实施例提供的一种唇形驱动模型的训练过程示意图本实施例适用于如何对唇形驱动模型进行训练的情况。该方法可以由唇形驱动模型的训练装置来执行，该装置可以采用软件和/或硬件的方式实现，并可集成于承载唇形驱动模型的训练功能的电子设备中，比如服务器中。

可选的，本实施例中唇形驱动模型可以包括唇形驱动网络、唇形增强网络和唇音同步判别网络。如图1A和图1B所示，本实施例的唇形驱动模型的训练方法可以包括：

S101，将样本训练数据输入唇形驱动网络，得到第一唇形图像数据和样本音频特征。

本实施例中，样本训练数据包括样本脸部图像数据和与样本脸部图像数据对齐的样本语音数据。其中，样本脸部图像数据是指包括对象脸部内容的图像数据，在对象为人物的情况下，样本脸部图像数据可以为人脸图像数据，进一步的，样本脸部图像数据还可以是去除唇部区域的人脸图像。样本脸部图像数据可以是多张图像，也可以是视频。样本语音数据是与样本脸部图像数据对齐的语音数据，若样本脸部图像数据是视频，则样本语音数据可以是视频中的音频数据；若样本脸部图像数据是图像，则样本语音数据可以是与图像对齐的音频数据。

唇形驱动网络可以是卷积神经网络，例如可以是任意已有的可进行唇形驱动的神经网络。

第一唇形图像数据是指经过唇形驱动网络学习得到的在样本语音数据驱动下的唇形图像数据。

样本音频特征是指样本语音数据经过唇形驱动网络学习后得到的音频特征，可以采用矩阵或向量形式表示。

具体的，可以将样本训练数据输入唇形驱动网络，经过唇形驱动网络处理，得到第一唇形图像数据和样本音频特征。

S102，将第一唇形图像数据、样本音频特征和样本脸部图像数据，输入唇形增强网络，得到第二唇形图像数据。

本实施例中，唇形增强网络是用于对第一唇形图像数据进行增强学习的网络；可选的，唇形增强网络可以是基于卷积神经网络的U形网络。

第二唇形图像数据是指经过唇形增强网络学习后的更高分辨率的唇形图像数据。

具体的，可以将第一唇形图像数据、样本音频特征和样本脸部图像数据，输入唇形增强网络，经过唇形增强网络学习，得到第二唇形图像数据。

S103，将第二唇形图像数据和样本音频特征，输入唇音同步判别网络，得到判别结果。

本实施例中，唇音同步判别网络用于对唇形与音频的同步性确定。判别结果是指经过唇音同步判别网络输出的唇形和音频的同步性判别结果。

具体的，可以将第二唇形图像数据和样本音频特征，输入唇音同步判别网络，经过网络处理，得到判别结果。

S104，根据第二唇形图像数据和判别结果，确定训练损失。

具体的，可以基于预设的损失函数，根据第二唇形图像数据和判别结果，确定训练损失。

S105，根据训练损失，对唇形驱动网络、唇形增强网络和唇音同步判别网络进行训练。

具体的，可以基于训练损失，对唇形驱动网络、唇形增强网络和唇音同步判别网络进行训练，直到训练损失稳定为设定范围，或者训练次数达到设定次数，停止训练。其中，设定范围和设定次数可以由本领域技术人员根据实际需求设定。

本公开实施例提供的技术方案，通过将样本训练数据输入唇形驱动网络，得到第一唇形图像数据和样本音频特征，接着将第一唇形图像数据、样本音频特征和样本脸部图像数据，输入唇形增强网络，得到第二唇形图像数据，之后将第二唇形图像数据和样本音频特征，输入唇音同步判别网络，得到判别结果，进而根据第二唇形图像数据和判别结果，确定训练损失，最后根据训练损失，对唇形驱动网络、唇形增强网络和唇音同步判别网络进行训练。上述技术方案，引入唇形增强网络，对唇形驱动网络的输出和输入进行再学习，在保证唇形与语音同步的前提下，还可以提升唇形驱动模型所得到唇形图像数据的图像质量。

在上述实施例的基础上，作为本公开的一种可选方式，还可以对至少两个初始脸部图像数据进行对齐；从经对齐的初始脸部图像中剔除唇部区域，得到样本脸部图像数据。

具体的，在初始脸部图像数据为人脸图像的情况下，可以基于人脸眼睛的中心点，对至少两个初始脸部图像数据进行对齐，之后从经对齐的初始脸部图像数据中剔除唇部区域，例如可以唇部所在初始脸部图像数据的区域直接剔除，以得到样本脸部图像数据。需要说明的是，样本脸部图像数据的尺寸信息为256*256。

可以理解的是，通过对至少两个初始脸部图像数据进行对齐，更便于唇部信息的抹除；同时从样本脸部图像数据中抹除唇部区域，可以有助于后续唇形驱动模型的学习。

图2A是根据本公开实施例提供的另一种唇形驱动模型的训练方法的流程图。图2B是根据本公开实施例提供的一种唇形增强网络的网络结构示意图。在上述实施例的基础上，本实施例中唇形增强网络可以包括编码子网络、注意力网络和解码子网络；进一步对“将第一唇形图像数据、样本音频特征和样本脸部图像数据，输入唇形增强网络，得到第二唇形图像数据”进一步优化，提供一种可选实施方案。如图2A和图2B所示，本实施例的唇形驱动模型的训练方法可以包括：

S201，将样本训练数据输入唇形驱动网络，得到第一唇形图像数据和样本音频特征。

其中，样本训练数据包括样本脸部图像数据和与样本脸部图像数据对齐的样本语音数据；

S202，采用编码子网络对第一唇形图像数据和样本脸部图像数据进行编码，得到样本编码特征。

本实施例中，编码子网络用于对第一唇形图像数据和样本脸部图像数据进行特征编码；可选的，编码子网络可以包括至少一个编码单元，每个编码单元包括至少一个卷积层、池化层和归一化层等。

样本编码特征是指编码子网络中编码单元输出的编码特征，可以采用矩阵或者向量形式表示。

具体的，可以将第一唇形图像数据和样本脸部图像数据输入编码子网络，经过编码子网络处理，得到样本编码特征。

S203，采用注意力网络对样本编码特征进行变换，得到经变换的样本编码特征。

本实施例中，注意力网络用于对样本编码特征进行特征转换。

具体的，可以将编码子网络中最后一个解码单元输出的样本编码特征，输入注意力网络，经过注意力网络进行特征变换，得到经变换的样本编码特征。

S204，采用解码子网络对样本编码特征、经变换的样本编码特征和样本音频特征进行解码，得到第二唇形图像数据。

本实施例中，解码子网络用于对编码子网络和注意力网络的输出进行解码；可选的，解码子网络可以包括至少一个解码单元，每个解码单元可以包括至少一个反卷积层。

具体的，可以将样本编码特征、经变换的样本编码特征和样本音频特征输入解码子网络，经过解码子网络进行解码，得到第二唇形图像数据。

S205，将第二唇形图像数据和样本音频特征，输入唇音同步判别网络，得到判别结果。

S206，根据第二唇形图像数据和判别结果，确定训练损失。

S207，根据训练损失，对唇形驱动网络、唇形增强网络和唇音同步判别网络进行训练。

本公开实施例的技术方案，通过将样本训练数据输入唇形驱动网络，得到第一唇形图像数据和样本音频特征，接着采用编码子网络对第一唇形图像数据和样本脸部图像数据进行编码，得到样本编码特征，采用注意力网络对样本编码特征进行变换，得到经变换的样本编码特征，并采用解码子网络对样本编码特征、经变换的样本编码特征和样本音频特征进行解码，得到第二唇形图像数据，之后将第二唇形图像数据和样本音频特征，输入唇音同步判别网络，得到判别结果，进而根据第二唇形图像数据和判别结果，确定训练损失，最后根据训练损失，对唇形驱动网络、唇形增强网络和唇音同步判别网络进行训练。上述技术方案，唇形增强网络中采用编解码子网络的方式来对第一唇形图像数据、样本脸部图像数据和样本音频特征进行再学习，可以进一步提高唇形驱动模型的学习能力，从而提升唇形驱动模型输出的唇形图像数据的图像质量。

在上述实施例的基础上，作为本公开的一种可选方式，解码单元包括第一反卷积层、特征拼接层、第二反卷积层和图像转换层；其中，第一反卷积层用于对输入特征进行解码；特征拼接层用于对第一反卷积层输出的第一解码特征和对应的编码单元输出的样本编码特征进行特征拼接；第二反卷积层用于对特征拼接层输出的拼接特征进行解码；图像转换层用于对第二反卷积层输出的第二解码特征进行图像转换。

相应的，采用解码子网络对样本编码特征、经变换的样本编码特征和样本音频特征进行解码，得到第二唇形图像数据还可以是，采用解码单元的第一反卷积层对输入特征和样本音频特征进行解码，得到第一解码特征；其中，输入特征包括经变换的样本编码特征或解码单元的上一解码单元输出的第二解码特征；采用解码单元的特征拼接层对第一解码特征和样本编码特征进行拼接，得到拼接特征；其中，样本编码特征为解码单元对应的编码子网络中编码单元输出；采用解码单元的第二反卷积层对拼接特征和样本音频特征进行解码，得到第二解码特征；采用解码单元的图像转换层对第二解码特征进行图像转换，得到中间唇形图像数据；若解码单元为解码子网络的末尾解码单元，则将中间唇形图像数据作为第二唇形图像数据。

其中，第一解码特征是指第一反卷积层输出的解码特征，可以采用矩阵或者向量的形式表示。拼接特征是指特征拼接层输出的特征，可以采用矩阵或者向量的形式表示。第二解码特征是指第二反卷积层输出的解码特征，可以采用矩阵或者向量的形式表示。

具体的，在解码单元为首个解码单元的情况下，输入特征为经变换的样本编码特征；将将变换的样本编码特征和样本音频特征，输入首个解码单元的第一反卷积层，得到首个解码单元的第一反卷积层输出的第一解码特征；将该第一解码特征和样本编码特征输入首个解码单元的特征拼接层，进行特征拼接，得到首个解码单元的特征拼接层输出的拼接特征；将该拼接特征和样本音频特征输入首个解码单元的第二反卷积层，进行解码，得到第二解码特征；将该第二解码特征输入首个解码单元的图像转换层，得到首个解码单元的图像转换层输出的中间唇形图像数据。

进而，将首个解码单元的第二反卷积层输出的第二解码特征，以及样本音频特征，输入首个解码单元的下一解码单元；相应的，下一解码单元的特征处理过程与首个解码单元中各层的特征处理过程类似，此处不再赘述，进而以得到首个解码单元的下一解码单元输出的第二解码特征和中间唇形图像数据。

需要说明的是，在解码单元为多个的情况下，每个解码单元对特征的处理方式与首个解码单元对特征的处理方式类似，此处不再赘述。

当解码单元为末尾解码单元的情况下，将该解码单元输出的中间唇形图像数据作为第二唇形图像数据。

可以理解的是，在解码单元解码过程中，对每个解码单元对应的编码单元输出的样本编码特征进行拼接，可以保留更多底层特征，有助于解码过程更加准确，从而可以确保最终解码子网络输出的第二唇形图像数据的图像质量。

一个具体的例子，如图2B所示，唇形增强网络包括：编码子网络中的3个编码单元，记为第一Encode，第二Encode和第三Encode ，一个注意力网络，记为Self Attention，解码子网络中的3个解码单元，记为第一Decode ，第二Decode 和第三Decode ；每个解码单元包括第一反卷积层（第一Deconv Block）、特征拼接层（Add Feature)、第二反卷积层（第二Deconv Block）和图像转换层（toRGB）。

将第一唇形图像数据和样本脸部图像数据输入编码子网络，即将第一唇形图像数据和样本脸部图像数据（记为Input）输入第一Encode，得到第一Encode输出的样本编码特征；将第一Encode输出的样本编码特征输入第二Encode，得到第二Encode输出的样本编码特征；将第二Encode输出的样本编码特征输入第三Encode，得到第三Encode输出的样本编码特征；将第三Encode输出的样本编码特征输入注意力网络Self Attention，得到经变换的样本编码特征。

进而，将经变换的样本编码特征、编码子网络输出的样本编码特征和样本音频特征输入解码子网络，即将经变换的样本编码特征、第三Encode输出的样本编码特征、以及样本音频特征（记为A）输入第一Decode ，得到第一Decode 输出的第二编码特征和中间唇形图像数据；将第一Decode 输出的第二编码特征和中间唇形图像数据、以及样本音频特征（记为A）和第二Encode输出的样本编码特征，输入第二Decode ，得到第二Decode 输出的第二编码特征和中间唇形图像数据；将第二Decode 输出的第二编码特征和中间唇形图像数据、以及样本音频特征（记为A）和第一Encode输出的样本编码特征，输入第三Decode ，得到第三Decode 输出的第二编码特征和中间唇形图像数据，将中间唇形图像数据作为第二唇形图像数据（记为Output）。

其中，以第二Decode 为例，具体阐述每个解码单元的特征处理过程：将第一Decode 输出的第二编码特征输入第二Decode 的第一反卷积层第一Deconv Block，同时采用样本音频特征（A）对第一反卷积层中的第一卷积核权重进行调整，将此操作记为Mod，以得到第一Deconv Block输出的第一解码特征；将第一解码特征和第二Encode输出的样本编码特征进行拼接，即Add Feature，得到拼接特征；将拼接特征输入第二Decode 的第二反卷积层第二Deconv Block，同时采用样本音频特征（A）对第二反卷积层中的第二卷积核权重进行调整，将此操作记为Mod，以得到第二Deconv Block输出的第二解码特征；将该第二解码特征和第一Decode 输出的中间唇形图像数据，输入图像转换层（ToRGB），得到图像转换层输出的中间唇形图像特征。

在上述实施例的基础上，作为本公开的一种可选方式，采用解码单元的第一反卷积层对输入特征和样本音频特征进行解码，得到第一解码特征还可以是，根据样本音频特征对第一反卷积层的第一卷积核权重进行调整，得到经调整的第一卷积核权重；通过第一反卷积层，采用经调整的第一卷积核权重对输入特征进行处理，得到第一解码特征；

具体的，将样本音频特征通过线性层处理，再将处理后的样本音频特征与第一反卷积层的第一卷积核权重进行相乘，并对乘积结果进行归一化，以得到经调整的第一卷积核权重，进而通过第一反卷积层，采用经调整的第一卷积核权重对输入特征进行处理，得到第一解码特征。

在上述实施例的基础上，作为本公开的一种可选方式，采用解码单元的第二反卷积层对拼接特征和样本音频特征进行解码，得到第二解码特征还可以是，根据样本音频特征对第二反卷积层的第二卷积核权重进行调整，得到经调整的第二卷积核权重；通过第二反卷积层，采用经调整的第二卷积核权重对拼接特征进行处理，得到第二解码特征。

具体的，将样本音频特征通过线性层处理，再将处理后的样本音频特征与第二反卷积层的第二卷积核权重进行相乘，并对乘积结果进行归一化，以得到经调整的第二卷积核权重，进而通过第二反卷积层，采用经调整的第二卷积核权重对拼接特征进行处理，得到第二解码特征。

可以理解的是，传统的将音频特征与其他特征进行拼接的方式，这种方式自由度比较小，并且音频信息注入位置比较受限，本公开中将音频特征与解码单元中的每一反卷积层中的卷积核权重相乘，即将音频信息注入每一反卷积层，扩宽了音频信息的注入位置，从而为唇形驱动模型的学习能力奠定了基础。

图3是根据本公开实施例提供的又一种唇形驱动模型的训练方法的流程图。本实施例在上述实施例的基础上，对“根据第二唇形图像数据和判别结果，确定训练损失”进一步优化，提供一种可选实施方案。如图3所示，本实施例的唇形驱动模型的训练方法可以包括：

S301，将样本训练数据输入唇形驱动网络，得到第一唇形图像数据和样本音频特征。

S302，将第一唇形图像数据、样本音频特征和样本脸部图像数据，输入唇形增强网络，得到第二唇形图像数据。

S303，将第二唇形图像数据和样本音频特征，输入唇音同步判别网络，得到判别结果。

S304，根据第二唇形图像数据和唇形监督数据，确定第一损失。

本实施例中，唇形监督数据是指与样本语音数据同步的唇形图像数据。

具体的，可以基于预设的损失函数，根据第二唇形图像数据和唇形监督数据，确定第一损失。

S305，根据判别结果，确定第二损失。

具体的，可以基于唇音同步判别网络中的损失函数，根据判别结果，确定第二损失。

S306，根据第一损失和第二损失，确定训练损失。

具体的，可以基于一定的规则，根据第一损失和第二损失，确定训练损失。例如，可以将第一损失和第二损失进行加和，将加和后的结果作为训练损失。又如，可以对第一损失和第二损失求均值，将所得到均值作为训练损失。

S307，根据训练损失，对唇形驱动网络、唇形增强网络和唇音同步判别网络进行训练。

本公开实施例的技术方案，通过将样本训练数据输入唇形驱动网络，得到第一唇形图像数据和样本音频特征，接着将第一唇形图像数据、样本音频特征和样本脸部图像数据，输入唇形增强网络，得到第二唇形图像数据，之后将第二唇形图像数据和样本音频特征，输入唇音同步判别网络，得到判别结果，进而根据第二唇形图像数据和唇形监督数据，确定第一损失，并根据判别结果，确定第二损失，根据第一损失和第二损失，确定训练损失，最后根据训练损失，对唇形驱动网络、唇形增强网络和唇音同步判别网络进行训练。上述技术方案，通过第一损失和第二损失来确定训练损失，以对唇形驱动模型进行训练，可以提高模型训练效果。

在上述实施例的基础上，作为本公开的一种可选方式，唇形驱动模型还可以包括生成式对抗网络（Generative Adversarial Networks， GAN）即GAN网络和VGG网络。相应的，确定训练损失还可以是，分别将第二唇形图像数据输入GAN网络和VGG网络，得到第三唇形图像数据和第四唇形图像数据；根据第三唇形图像数据和唇形监督数据，确定第三损失；根据第四唇形图像数据和唇形监督数据，确定第四损失；根据第一损失、第二损失、第三损失和第四损失，确定训练损失。

其中，第三唇形图像数据是指GAN网络输出的唇形图像数据。第四唇形图像数据是指VGG网络输出的唇形图像数据。

具体的，可以分别将第二唇形图像数据输入GAN网络和VGG网络，得到第三唇形图像数据和第四唇形图像数据，之后基于GAN网络中的损失函数，根据第三唇形图像数据和唇形监督数据，确定第三损失，并基于VGG网络中的损失函数，根据第四唇形图像数据和唇形检索数据，确定第四损失，进而可以基于一定的规则，根据第一损失、第二损失、第三损失和第四损失，确定训练损失，例如可以将第一损失、第二损失、第三损失和第四损失进行加和，将加和后的结果作为训练损失；又如，可以对第一损失、第二损失、第三损失和第四损失求均值，将所得均值，作为训练损失。

可以理解的是，引入GAN网络所得的第三损失和VGG网络所得的第三损失，来确定训练损失，进一步增加了唇形驱动模型训练的准确度。

图4是根据本公开实施例提供的一种唇形驱动方法的流程图。本实施例适用于脸部图像在高分辨率前提下，如何准确得到唇形图像的情况。该方法可以由唇形驱动装置来执行，该装置可以采用软件和/或硬件的方式实现，并可集成于承载唇形驱动功能的电子设备中，比如服务器中。如图4所示，本实施例的唇形驱动方法可以包括：

S401，获取目标脸部图像数据和目标语音数据。

本实施例中，目标脸部图像数据是指任意对象脸部内容的图像数据，在对象为任务的情况下，目标脸部图像可以是人脸图像数据；可选的，目标脸部图像数据可以包括一张人脸图像，也可以包括多张人脸图像，本公开不作具体限定。需要说明的是，目标脸部图像数据的表现形式可以是视频，也可以是图像，本公开不作具体限定。

目标语音数据可以是任意的语音数据。

具体的，可以基于预设的数据获取方式，获取目标脸部图像数据和目标语音数据。例如，可以获取实时录制的一段视频，或者实时拍摄的一些图像作为目标脸部图像数据，也可以获取预先存储的一段视频或者图像作为目标脸部图像数据，还可以接收其他电子设备发送的一段视频或图像作为目标脸部图像数据，或是从网络中下载的一段视频或图像作为目标脸部图像数据。其中，获取的视频可以包括脸部图像。又如，可以实时录制一段语音作为目标语音数据，也可以获取预先存储的一段语音作为目标语音数据，还可以接收其他电子设备发送的一段语音作为目标语音数据，或者从网络上下载一段语音作为目标语音数据。

S402，将目标脸部图像数据和目标语音数据，输入唇形驱动模型，得到在目标语音数据驱动下的目标唇形图像数据。

本实施例中，唇形驱动模型基于本公开任一实施例所提供的唇形驱动模型的训练方法训练得到。

目标唇形图像数据是指与目标语音数据同步的唇部补全的图像数据。

具体的，可以将目标脸部图像数据和目标语音数据，输入唇形驱动模块，得到在目标语音数据驱动下的目标唇形图像数据。

本公开实施例的技术方案，通过获取目标脸部图像数据和目标语音数据，之后将目标脸部图像数据和目标语音数据，输入唇形驱动模型，得到在目标语音数据驱动下的目标唇形图像数据。上述技术方案，通过唇形驱动模型来确定在目标语音数据驱动下的目标唇形图像数据，在保证语音与唇形同步的情况下，可以生成高分辨率的唇形图像，提升了生成的唇形图像数据的图像质量。

图5是根据本公开实施例提供的一种唇形驱动模型的训练装置的结构示意图。本实施例适用于如何对唇形驱动模型进行训练的情况。该装置可以采用软件和/或硬件的方式实现，并可集成于承载唇形驱动模型的训练功能的电子设备中，比如服务器中。

可选的，本实施例中唇形驱动模型可以包括唇形驱动网络、唇形增强网络和唇音同步判别网络。如图5所示，本实施例的唇形驱动模型的训练装置500可以包括：

第一唇形图像确定模块501，用于将样本训练数据输入唇形驱动网络，得到第一唇形图像数据和样本音频特征；其中，样本训练数据包括样本脸部图像数据和与样本脸部图像数据对齐的样本语音数据；

第二唇形图像确定模块502，用于将第一唇形图像数据、样本音频特征和样本脸部图像数据，输入唇形增强网络，得到第二唇形图像数据；

判别结果确定模块503，用于将第二唇形图像数据和样本音频特征，输入唇音同步判别网络，得到判别结果；

训练损失确定模块504，用于根据第二唇形图像数据和判别结果，确定训练损失；

网络训练模块505，用于根据训练损失，对唇形驱动网络、唇形增强网络和唇音同步判别网络进行训练。

进一步地，唇形增强网络包括编码子网络、注意力网络和解码子网络；第二唇形图像确定模块502，包括：

样本编码特征确定单元，用于采用编码子网络对第一唇形图像数据和样本脸部图像数据进行编码，得到样本编码特征；

样本编码特征变换单元，用于采用注意力网络对样本编码特征进行变换，得到经变换的样本编码特征；

第二唇形图像驱动单元，用于采用解码子网络对样本编码特征、经变换的样本编码特征和样本音频特征进行解码，得到第二唇形图像数据。

进一步地，编码子网络包括至少一个编码单元；解码子网络包括至少一个解码单元；解码单元包括第一反卷积层、特征拼接层、第二反卷积层和图像转换层；第二唇形图像确定单元，包括：

第一解码特征确定子单元，用于采用解码单元的第一反卷积层对输入特征和样本音频特征进行解码，得到第一解码特征；其中，输入特征包括经变换的样本编码特征或解码单元的上一解码单元输出的第二解码特征；

拼接特征确定子单元，用于采用解码单元的特征拼接层对第一解码特征和样本编码特征进行拼接，得到拼接特征；其中，样本编码特征为解码单元对应的编码子网络中编码单元输出；

第二解码特征确定子单元，用于采用解码单元的第二反卷积层对拼接特征和样本音频特征进行解码，得到第二解码特征；

中间唇形图像确定子单元，用于采用解码单元的图像转换层对第二解码特征进行图像转换，得到中间唇形图像数据；

第二唇形图像确定子单元，用于若解码单元为解码子网络的末尾解码单元，则将中间唇形图像数据作为第二唇形图像数据。

进一步地，第一解码特征确定子单元具体用于：

根据样本音频特征对第一反卷积层的第一卷积核权重进行调整，得到经调整的第一卷积核权重；

通过第一反卷积层，采用经调整的第一卷积核权重对输入特征进行处理，得到第一解码特征；

第二解码特征确定子单元具体用于：

根据样本音频特征对第二反卷积层的第二卷积核权重进行调整，得到经调整的第二卷积核权重；

通过第二反卷积层，采用经调整的第二卷积核权重对拼接特征进行处理，得到第二解码特征。

进一步地，训练损失确定模块504具体用于：

根据第二唇形图像数据和唇形监督数据，确定第一损失；

根据判别结果，确定第二损失；

根据第一损失和第二损失，确定训练损失。

进一步地，唇形驱动模型还包括GAN网络和VGG网络；训练损失确定模块504还具体用于：

分别将第二唇形图像数据输入GAN网络和VGG网络，得到第三唇形图像数据和第四唇形图像数据；

根据第三唇形图像数据和唇形监督数据，确定第三损失；

根据第四唇形图像数据和唇形监督数据，确定第四损失；

根据第一损失、第二损失、第三损失和第四损失，确定训练损失。

进一步地，该装置还包括：

对齐模块，用于对至少两个初始脸部图像数据进行对齐；

样本脸部图像确定模块，用于从经对齐的初始脸部图像中剔除唇部区域，得到样本脸部图像数据。

图6是根据本公开实施例提供的一种唇形驱动装置的结构示意图。本实施例适用于脸部图像在高分辨率前提下，如何准确得到唇形图像的情况。该装置可以采用软件和/或硬件的方式实现，并可集成于承载唇形驱动功能的电子设备中，比如服务器中。如图6所示，本实施例的唇形驱动装置600可以包括：

目标数据获取模块601，用于获取目标脸部图像数据和目标语音数据；

目标唇形图像确定模块602，用于将目标脸部图像数据和目标语音数据，输入唇形驱动模型，得到在目标语音数据驱动下的目标唇形图像数据；其中，唇形驱动模型基于本公开任一实施例所提供的唇形驱动模型的训练方法训练得到。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7是用来实现本公开实施例的唇形驱动模型的训练方法或唇形驱动方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，电子设备700包括计算单元701，其可以根据存储在只读存储器（ROM）702中的计算机程序或者从存储单元708加载到随机访问存储器（RAM）703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储电子设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出（I/O）接口705也连接至总线704。

电子设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如唇形驱动模型的训练方法或唇形驱动方法。例如，在一些实施例中，唇形驱动模型的训练方法或唇形驱动方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到电子设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的唇形驱动模型的训练方法或唇形驱动方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行唇形驱动模型的训练方法或唇形驱动方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、复杂可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

人工智能是研究使计算机来模拟人的某些思维过程和智能行为（如学习、推理、思考、规划等）的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。

云计算（cloud computing），指的是通过网络接入弹性可扩展的共享物理或虚拟资源池，资源可以包括服务器、操作系统、网络、软件、应用和存储设备等，并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术，可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种唇形驱动模型的训练方法，其中，唇形驱动模型包括唇形驱动网络、唇形增强网络和唇音同步判别网络；所述方法包括：

2.根据权利要求1所述的方法，其中，所述唇形增强网络包括编码子网络、注意力网络和解码子网络；所述将所述第一唇形图像数据、所述样本音频特征和所述样本脸部图像数据，输入所述唇形增强网络，得到第二唇形图像数据，包括：

采用所述编码子网络对所述第一唇形图像数据和所述样本脸部图像数据进行编码，得到样本编码特征；

采用所述注意力网络对所述样本编码特征进行变换，得到经变换的样本编码特征；

采用所述解码子网络对所述样本编码特征、经变换的样本编码特征和所述样本音频特征进行解码，得到第二唇形图像数据。

3.根据权利要求2所述的方法，其中，所述编码子网络包括至少一个编码单元；所述解码子网络包括至少一个解码单元；所述解码单元包括第一反卷积层、特征拼接层、第二反卷积层和图像转换层；所述采用所述解码子网络对所述样本编码特征、经变换的样本编码特征和所述样本音频特征进行解码，得到第二唇形图像数据，包括：

采用所述解码单元的第一反卷积层对输入特征和所述样本音频特征进行解码，得到第一解码特征；其中，所述输入特征包括经变换的样本编码特征或所述解码单元的上一解码单元输出的第二解码特征；

采用所述解码单元的特征拼接层对所述第一解码特征和所述样本编码特征进行拼接，得到拼接特征；其中，所述样本编码特征为所述解码单元对应的编码子网络中编码单元输出；

采用所述解码单元的第二反卷积层对所述拼接特征和所述样本音频特征进行解码，得到第二解码特征；

采用所述解码单元的图像转换层对所述第二解码特征进行图像转换，得到中间唇形图像数据；

若所述解码单元为所述解码子网络的末尾解码单元，则将所述中间唇形图像数据作为第二唇形图像数据。

4.根据权利要求3所述的方法，其中，所述采用所述解码单元的第一反卷积层对输入特征和所述样本音频特征进行解码，得到第一解码特征，包括：

根据所述样本音频特征对第一反卷积层的第一卷积核权重进行调整，得到经调整的第一卷积核权重；

通过第一反卷积层，采用经调整的第一卷积核权重对所述输入特征进行处理，得到所述第一解码特征；

采用所述解码单元的第二反卷积层对所述拼接特征和所述样本音频特征进行解码，得到第二解码特征，包括：

根据所述样本音频特征对第二反卷积层的第二卷积核权重进行调整，得到经调整的第二卷积核权重；

通过第二反卷积层，采用经调整的第二卷积核权重对所述拼接特征进行处理，得到所述第二解码特征。

5.根据权利要求1所述的方法，其中，所述根据所述第二唇形图像数据和所述判别结果，确定训练损失，包括：

根据所述第二唇形图像数据和唇形监督数据，确定第一损失；

根据所述判别结果，确定第二损失；

根据所述第一损失和所述第二损失，确定训练损失。

6.根据权利要求5所述的方法，所述唇形驱动模型还包括生成式对抗GAN网络和VGG网络；所述方法还包括：

分别将所述第二唇形图像数据输入所述GAN网络和所述VGG网络，得到第三唇形图像数据和第四唇形图像数据；

根据所述第三唇形图像数据和唇形监督数据，确定第三损失；

根据所述第四唇形图像数据和唇形监督数据，确定第四损失；

根据所述第一损失、所述第二损失、所述第三损失和所述第四损失，确定训练损失。

7.根据权利要求1所述的方法，还包括：

对至少两个初始脸部图像数据进行对齐；

从经对齐的初始脸部图像中剔除唇部区域，得到所述样本脸部图像数据。

8.一种唇形驱动方法，包括：

获取目标脸部图像数据和目标语音数据；

将所述目标脸部图像数据和所述目标语音数据，输入唇形驱动模型，得到在所述目标语音数据驱动下的目标唇形图像数据；其中，所述唇形驱动模型基于权利要求1-7中任一项所述的唇形驱动模型的训练方法训练得到。

9.一种唇形驱动模型的训练装置，其中，唇形驱动模型包括唇形驱动网络、唇形增强网络和唇音同步判别网络；所述装置包括：

10.根据权利要求9所述的装置，其中，所述唇形增强网络包括编码子网络、注意力网络和解码子网络；所述第二唇形图像确定模块，包括：

样本编码特征确定单元，用于采用所述编码子网络对所述第一唇形图像数据和所述样本脸部图像数据进行编码，得到样本编码特征；

样本编码特征变换单元，用于采用所述注意力网络对所述样本编码特征进行变换，得到经变换的样本编码特征；

第二唇形图像驱动单元，用于采用所述解码子网络对所述样本编码特征、经变换的样本编码特征和所述样本音频特征进行解码，得到第二唇形图像数据。

11.根据权利要求10所述的装置，其中，所述编码子网络包括至少一个编码单元；所述解码子网络包括至少一个解码单元；所述解码单元包括第一反卷积层、特征拼接层、第二反卷积层和图像转换层；所述第二唇形图像确定单元，包括：

第一解码特征确定子单元，用于采用所述解码单元的第一反卷积层对输入特征和所述样本音频特征进行解码，得到第一解码特征；其中，所述输入特征包括经变换的样本编码特征或所述解码单元的上一解码单元输出的第二解码特征；

拼接特征确定子单元，用于采用所述解码单元的特征拼接层对所述第一解码特征和所述样本编码特征进行拼接，得到拼接特征；其中，所述样本编码特征为所述解码单元对应的编码子网络中编码单元输出；

第二解码特征确定子单元，用于采用所述解码单元的第二反卷积层对所述拼接特征和所述样本音频特征进行解码，得到第二解码特征；

中间唇形图像确定子单元，用于采用所述解码单元的图像转换层对所述第二解码特征进行图像转换，得到中间唇形图像数据；

第二唇形图像确定子单元，用于若所述解码单元为所述解码子网络的末尾解码单元，则将所述中间唇形图像数据作为第二唇形图像数据。

12.根据权利要求11所述的装置，其中，所述第一解码特征确定子单元具体用于：

所述第二解码特征确定子单元具体用于：

13.根据权利要求9所述的装置，其中，所述训练损失确定模块具体用于：

根据所述判别结果，确定第二损失；

根据所述第一损失和所述第二损失，确定训练损失。

14.根据权利要求13所述的装置，所述唇形驱动模型还包括GAN网络和VGG网络；所述训练损失确定模块还具体用于：

15.根据权利要求9所述的装置，还包括：

对齐模块，用于对至少两个初始脸部图像数据进行对齐；

样本脸部图像确定模块，用于从经对齐的初始脸部图像中剔除唇部区域，得到所述样本脸部图像数据。

16.一种唇形驱动装置，包括：

目标唇形图像确定模块，用于将所述目标脸部图像数据和所述目标语音数据，输入唇形驱动模型，得到在所述目标语音数据驱动下的目标唇形图像数据；其中，所述唇形驱动模型基于权利要求1-7中任一项所述的唇形驱动模型的训练方法训练得到。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的唇形驱动模型的训练方法，或权利要求8所述的唇形驱动方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-7中任一项所述的唇形驱动模型的训练方法，或权利要求8所述的唇形驱动方法。