CN116778041B

CN116778041B - 基于多模态的人脸图像生成方法、模型的训练方法及设备

Info

Publication number: CN116778041B
Application number: CN202311061410.2A
Authority: CN
Inventors: 杜宗财; 赵亚飞; 范锡睿; 陈毅; 王志强
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-08-22
Filing date: 2023-08-22
Publication date: 2023-12-12
Anticipated expiration: 2043-08-22
Also published as: CN116778041A

Abstract

本公开提供了一种基于多模态的人脸图像生成方法、模型的训练方法及设备，涉及人工智能领域，尤其涉及图像领域。具体实现方案为：获取待处理的数据集合和预设的人脸图像；其中，所述待处理的数据集合包括至少两种模态数据；所述模态数据为以下的任意一种：文本数据、音频数据、口型图像；所述文本数据所表征的文字内容、所述音频数据所表征的音频内容、以及所述口型图像所表征的口型三者相对应；所述预设的人脸图像为不具有口型的人脸图像；确定所述模态数据对应的口型特征；其中，口型特征用于表示口型在人脸图像上的大小信息和形状信息；根据模态数据对应的口型特征，对预设的人脸图像进行处理，生成具有口型的人脸图像。

Description

基于多模态的人脸图像生成方法、模型的训练方法及设备

技术领域

本公开涉及人工智能领域中的图像领域，尤其涉及一种基于多模态的人脸图像生成方法、模型的训练方法及设备。

背景技术

数字人的人脸图像的生成是元宇宙和智能客服等场景中的一项重要技术。数字人与用户进行交流时，可以在发出语音的同时，生成与语音匹配的具有口型的人脸图像。

若在人脸图像上不能跟随语音做出准确的口型变化，则会影响用户的使用体验。因此，如何提高人脸图像的生成精度，成为亟待解决的问题。

发明内容

本公开提供了一种基于多模态的人脸图像生成方法、模型的训练方法及设备。

根据本公开的第一方面，提供了一种基于多模态的人脸图像生成方法，包括：

获取待处理的数据集合和预设的人脸图像；其中，所述待处理的数据集合包括至少两种模态数据；所述模态数据为以下的任意一种：文本数据、音频数据、口型图像；所述文本数据所表征的文字内容、所述音频数据所表征的音频内容、以及所述口型图像所表征的口型三者相对应；所述预设的人脸图像为不具有口型的人脸图像；

确定所述模态数据对应的口型特征；其中，所述口型特征用于表示口型在人脸图像上的大小信息和形状信息；

根据所述模态数据对应的口型特征，对所述预设的人脸图像进行处理，生成具有口型的人脸图像。

根据本公开的第二方面，提供了一种基于多模态的人脸图像生成模型的训练方法，包括：

获取待训练的数据集合和预设的训练图像；其中，所述待训练的数据集合包括至少两种模态数据；所述模态数据为以下的任意一种：文本数据、音频数据、口型图像；所述文本数据所表征的文字内容、所述音频数据所表征的音频内容、以及所述口型图像所表征的口型三者相对应；所述预设的训练图像为不具有口型的人脸图像；

将所述模态数据输入至初始模型中进行训练，得到所述模态数据对应的口型特征；其中，所述口型特征用于表示口型在人脸图像上的大小信息和形状信息；

根据所述模态数据对应的口型特征，对所述预设的训练图像进行处理，以生成训练完成的人脸图像生成模型；

其中，所述人脸图像生成模型用于基于如本公开第一方面所述的待处理的数据集合和预设的人脸图像，生成具有口型的人脸图像。

根据本公开的第三方面，提供了一种基于多模态的人脸图像生成装置，包括：

数据获取单元，用于获取待处理的数据集合和预设的人脸图像；其中，所述待处理的数据集合包括至少两种模态数据；所述模态数据为以下的任意一种：文本数据、音频数据、口型图像；所述文本数据所表征的文字内容、所述音频数据所表征的音频内容、以及所述口型图像所表征的口型三者相对应；所述预设的人脸图像为不具有口型的人脸图像；

特征确定单元，用于确定所述模态数据对应的口型特征；其中，所述口型特征用于表示口型在人脸图像上的大小信息和形状信息；

图像生成单元，用于根据所述模态数据对应的口型特征，对所述预设的人脸图像进行处理，生成具有口型的人脸图像。

根据本公开的第四方面，提供了一种基于多模态的人脸图像生成模型的训练装置，包括：

集合获取单元，用于获取待训练的数据集合和预设的训练图像；其中，所述待训练的数据集合包括至少两种模态数据；所述模态数据为以下的任意一种：文本数据、音频数据、口型图像；所述文本数据所表征的文字内容、所述音频数据所表征的音频内容、以及所述口型图像所表征的口型三者相对应；所述预设的训练图像为不具有口型的人脸图像；

模型训练单元，用于将所述模态数据输入至初始模型中进行训练，得到所述模态数据对应的口型特征；其中，所述口型特征用于表示口型在人脸图像上的大小信息和形状信息；

模型生成单元，用于根据所述模态数据对应的口型特征，对所述预设的训练图像进行处理，以生成训练完成的人脸图像生成模型；

其中，所述人脸图像生成模型用于基于如本公开第三方面所述的待处理的数据集合和预设的人脸图像，生成具有口型的人脸图像。

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开第一方面和第二方面所述的方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本公开第一方面和第二方面所述的方法。

根据本公开的第七方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本公开第一方面和第二方面所述方法的步骤。

根据本公开的技术，提高了具有口型的人脸图像的生成精度。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开实施例提供的一种基于多模态的人脸图像生成方法的流程示意图；

图2是本公开实施例提供的口型图像的示意图；

图3是本公开实施例提供的一种基于多模态的人脸图像生成方法的流程示意图；

图4是本公开实施例提供的一种基于多模态的人脸图像生成方法的流程示意图；

图5是本公开实施例提供的人脸图像生成方法的流程示意图；

图6是本公开实施例提供的一种基于多模态的人脸图像生成模型的训练方法的流程示意图；

图7是本公开实施例提供的一种基于多模态的人脸图像生成模型的训练方法的流程示意图；

图8是本公开实施例提供的一种基于多模态的人脸图像生成装置的结构框图；

图9是本公开实施例提供的一种基于多模态的人脸图像生成装置的结构框图；

图10是本公开实施例提供的一种基于多模态的人脸图像生成模型的训练装置的结构框图；

图11是用来实现本公开实施例的基于多模态的人脸图像生成方法和模型的训练方法的电子设备的框图；

图12是用来实现本公开实施例的基于多模态的人脸图像生成方法和模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

数字人面部生成是元宇宙和智能客服等场景中一项重要技术，数字人面部生成的核心是生成连续自然的数字人口型，使数字人在与用户交互时，可以跟随发出的语音，进行人脸图像上口型的变化，提升用户的交互体验。

可以基于对比学习损失函数，使来源于同一帧的文本、音频和图像的隐向量距离尽可能近，来源于不同帧的文本、音频和图像的隐向量距离尽可能远，由此得到表征力更强的共性口型特征。然而，对比学习损失函数的缺点是容易忽略数据中的差异化信息，例如，忽略音频中包含的音调、情感等信息，忽略图像中包含的说话风格等信息。口型应当随着这些信息的改变而改变，强制让它们和文本的隐向量相同会导致只能生成单一风格的口型。

以音频数据和文本数据对比学习为例，有两帧音频都对应着“啊”字，即对应相同的文本特征T，但是第一帧音频的音调较高情绪饱满，对应的音频特征记为A1，另一帧音频的音调较低情绪低沉，对应的音频特征记为A2。对比学习损失函数会使A1和T相近，以及使A2和T相近，优化的结果导致A1和A2相近，意味着音调这个属性基本不会影响人脸图像上的口型特征，人脸图像的生成精度较低。一个“智能”的、符合真人观感的数字人说话时口型应当伴随着情感、音调等特征的改变而改变，单一固定的风格容易带来虚假、枯燥的视觉体验。

本公开提供一种基于多模态的人脸图像生成方法、模型的训练方法及设备，应用于人工智能领域中的图像领域，以提高具有口型的人脸图像的生成精度。

需要说明的是，本实施例中的模型并不是针对某一特定用户，并不能反映出某一特定用户的个人信息。需要说明的是，本实施例中的数据来自于公开数据集。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

为使读者更深刻地理解本公开的实现原理，现结合以下图1-图12所示的实施例进行进一步细化。

图1为根据本公开实施例提供的一种基于多模态的人脸图像生成方法的流程示意图，该方法可以由一种基于多模态的人脸图像生成装置执行。如图1所示，该方法包括以下步骤：

S101、获取待处理的数据集合和预设的人脸图像；其中，待处理的数据集合包括至少两种模态数据；模态数据为以下的任意一种：文本数据、音频数据、口型图像；文本数据所表征的文字内容、音频数据所表征的音频内容、以及口型图像所表征的口型三者相对应；预设的人脸图像为不具有口型的人脸图像。

示例性地，获取待处理的数据集合，待处理的数据集合中的数据是生成人脸图像的依据，即，根据待处理的数据集合中的数据，生成人脸图像，使人脸图像中的口型与待处理的数据集合中的数据相匹配。待处理的数据集合中可以包括多种模态数据，模态可以用于表示数据类型，多模态数据是指不同数据类型的数据。模态数据可以是以下的任意一种：文本数据、音频数据、口型图像，即，待处理的数据集合中可以包括文本数据和音频数据，或包括文本数据和口型图像，或包括音频数据和口型图像，或包括文本数据、音频数据和口型图像。文本数据可以用于表征文字内容，音频数据可以用于表征音频内容，口型图像可以用于表征口型。口型图像是指只含有口型的图像，没有人脸上的其他部分。图2为口型图像的示意图，图2中的口型为发出“啊”时所对应的口型。文本数据所表征的文字内容、音频数据所表征的音频内容、以及口型图像所表征的口型三者相对应。例如，文本数据为“啊”字，音频数据为发出“啊”的语音，口型图像为发出“啊”字的口型形状。

预先设置一张人脸图像，获取预设的人脸图像。预设的人脸图像可以是数字人的完整人脸，例如，可以设计数字人的脸型、眼睛、鼻子和嘴巴等，生成一张预设的人脸图像。预设的人脸图像是不具有口型的人脸图像，数字人可以在预设的人脸图像的基础上做出口型的变化。例如，在预设的人脸图像中，数字人的嘴巴为闭嘴的状态，数字人的嘴巴口型可以随着语音的发出而进行变化。本实施例中，可以预设2D或3D的人脸图像。

S102、确定模态数据对应的口型特征；其中，口型特征用于表示口型在人脸图像上的大小信息和形状信息。

示例性地，从待处理的数据集合中获取各个模态数据，确定每一种模态数据对应的口型特征。口型特征可以用于表示口型在人脸图像上的大小信息和形状信息等，例如，根据模态数据可以确定嘴巴在人脸图像上张开的幅度。

可以预先构建神经网络模型，用于提取口型特征。对于不同数据类型的模态数据，可以对应有不同的神经网络模型。神经网络模型中可以包括卷积层、池化层和全连接层等，例如，可以采用多层全连接层，每层全连接层后面接一个激活函数，全连接层可以用于非线性映射，提取特征。不同模态数据所经过的全连接层的层数可以相同或不同，不同层的全连接层后接的激活函数也可以相同或不同。本实施例中，在通过全连接层对模态数据进行特征提取时，每种模态数据可以经过三层全连接层。

待处理的数据集合中的模态数据所表征的内容相互对应，但各自的口型特征可以存在不同。例如，模态数据为文本数据和音频数据，文本数据为“啊”字，在确定“啊”字的口型特征时，只能得到口型大致形状的特征；音频数据为发出“啊”的语音，在确定“啊”语音的口型特征时，可以提取音频数据中的音调和情感等特征信息，来丰富口型特征的形状细节。

可以分别独立地确定各模态数据的口型特征，也可以根据一种模态数据的口型特征，确定另一种模态数据的口型特征。例如，可以先确定出文本数据的口型特征。再根据文本数据的口型特征和音频数据，确定音频数据的口型特征。再根据音频数据的口型特征和口型图像，确定口型图像的口型特征，实现不同模态数据的口型特征相结合。

S103、根据模态数据对应的口型特征，对预设的人脸图像进行处理，生成具有口型的人脸图像。

示例性地，在得到各模态数据的口型特征后，可以根据各个模态数据的口型特征，对预设的人脸图像进行处理，改变预设的人脸图像上的口型，得到具有口型的人脸图像。

可以结合不同模态数据的口型特征，例如，预先设置不同模态数据的权重，对模态数据的口型特征进行权值计算，得到结合后的口型特征。根据结合后的口型特征，对预设的人脸图像进行处理，得到具有口型的人脸图像。例如，文本数据的口型特征表示人脸图像上的口型为张嘴的状态，音频数据的口型特征表示口型的张开弧度，则可以根据口型的张开弧度，生成一张具有张嘴的口型的人脸图像。

本实施例中，可以预先构建并训练与一个人脸图像生成模型，人脸图像生成模型可以神经网络模型。将待处理的数据集和预设的人脸图像输入到人脸图像生成模型中进行处理，人脸图像生成模型基于待处理的数据集合和预设的人脸图像，生成具有口型的人脸图像。人脸图像模型的处理过程可以是，先确定模态数据对应的口型特征，再根据模态数据对应的口型特征，对预设的人脸图像进行处理，生成具有口型的人脸图像。

本实施例中，根据模态数据对应的口型特征，对预设的人脸图像进行处理，生成具有口型的人脸图像，包括：对预设的人脸图像进行编码处理，得到人脸向量数据；对模态数据对应的口型特征进行特征提取处理，得到模态数据对应的目标特征；其中，目标特征用于表示模态数据对应的口型特征中的局部特征；将人脸向量数据与至少两种模态数据对应的目标特征，进行残差连接处理，得到第一图像特征数据；对第一图像特征数据进行解码，得到具有口型的人脸图像。

具体的，预先设置一个图像编码器，通过使用图像编码器对预设的人脸图像进行编码，得到预设的人脸图像对应的向量数据，作为人脸向量数据。可以预设人脸向量数据的维度，例如，可以得到C维的人脸向量数据。预设的维度可以与口型特征的维度一致，例如，在生成口型特征时，可以将各个模态数据对应的口型特征转换为统一的C维，并生成C维的人脸向量数据。

对每一种模态数据对应的口型特征分别进行特征提取处理，得到每一种模态数据对应的目标特征。目标特征可以用于表示模态数据对应的口型特征中的局部特征，例如，可以采用多层的全连接层，从口型特征中提取出目标特征，即得到每个模态数据所对应的C维的目标特征。将人脸向量数据与多种模态数据对应的目标特征，进行残差连接处理，将处理得到的结果确定为第一图像特征数据。最终得到的人脸图像中只有口型区域发生了变化，人脸图像上的其它信息与预设的人脸图像保持一致。将图像编码器输出的人脸向量数据通过残差连接的方法与目标特征相加，保证非口型部分不会发生改变。结合多个目标特征，确定人脸图像上所要显示的口型，例如，可以预先设置不同模态数据对应的权重，根据权重对多个目标特征进行结合。将结合后的目标特征与人脸向量数据进行残差连接处理，得到第一图像特征数据。预先设置一个图像解码器，通过使用图像解码器，对第一图像特征数据进行解码，得到具有口型的人脸图像。

这样设置的有益效果在于，对于不同的模态数据，分别生成各自的目标特征，从而结合不同的模态数据的目标特征，生成具有口型的人脸图像。实现了多模态结合，利用不同模态数据的特征丰富了人脸图像的生成效果，避免了对比学习损失函数导致的口型风格单一的问题，提高人脸图像的生成精度，提升用户体验。

本公开实施例提供了一种基于多模态的人脸图像生成方法，获取多种模态数据，确定每一种模态数据对应的口型特征。对模态数据的口型特征进行结合，在预设的人脸图像的基础上，生成具有口型的人脸图像，使所生成的人脸图像与模态数据相匹配。通过结合多模态数据的口型特征，充分发挥不同模态数据对口型的影响，提高人脸图像的生成精度，进而提升用户与数字人的交互体验。

图3为本公开实施例提供的一种基于多模态的人脸图像生成方法的流程示意图，该实施例是在上述实施例基础上的可选实施例。

本实施例中，确定模态数据对应的口型特征，可细化为：确定模态数据对应的数据特征；其中，数据特征为文本特征、或者音频特征、或者口型图像特征；根据模态数据对应的数据特征，确定模态数据对应的口型特征。

如图3所示，该方法包括以下步骤：

S301、获取待处理的数据集合和预设的人脸图像；其中，待处理的数据集合包括至少两种模态数据；模态数据为以下的任意一种：文本数据、音频数据、口型图像；文本数据所表征的文字内容、音频数据所表征的音频内容、以及口型图像所表征的口型三者相对应；预设的人脸图像为不具有口型的人脸图像。

示例性地，本步骤可以参见上述步骤S101，不再赘述。

S302、确定模态数据对应的数据特征；其中，数据特征为文本特征、或者音频特征、或者口型图像特征。

示例性地，对于不同的模态数据，确定各自的数据特征，数据特征为文本特征、或者音频特征、或者口型图像特征。文本数据的数据特征为文本特征，音频数据的数据特征为音频特征，口型图像的数据特征为口型图像特征。各模态数据的数据特征之间不存在影响，分别进行确定。例如，对于文本数据，可以确定文本的语义特征，作为文本特征；对于音频数据，可以确定音频的语义特征和音调特征等，作为音频特征；对于口型图像，可以确定口型图像中的口型形状等，作为口型图像特征。

本实施例中，确定模态数据对应的数据特征，包括：根据预设的特征提取模型，对模态数据进行特征提取处理，得到模态数据对应的数据特征。

具体的，预先设置特征提取模型，特征提取模型可以是神经网络模型，特征提取模型用于从模态数据中提取出数据特征。本实施例中，对特征提取模型的网络结构不做具体限定。将模态数据输入到特征提取模型中进行特征提取处理，得到该模态数据对应的数据特征。

对于不同的模态数据，可以对应有不同的特征提取模型。根据各自的特征提取模型，确定每一种模态数据所对应的数据特征。可以预设数据特征的维度，例如，可以输出C维的数据特征。本实施例中，数据特征、口型特征和人脸向量数据的维度一致。

这样设置的有益效果在于，可以根据预设的特征提取模型，自动提取各模态数据对应的数据特征，便于后续的多模态结合，有利于提高人脸图像的生成效率和精度。

本实施例中，模态数据为文本数据；根据预设的特征提取模型，对模态数据进行特征提取处理，得到模态数据对应的数据特征，包括：根据预设的特征提取模型中的文本编码器，对文本数据进行编码处理，得到文本数据的文本向量；根据预设的特征提取模型中的全连接层，对文本向量进行特征提取处理，得到文本数据对应的文本特征。

具体的，特征提取模型中可以包括编码器和网络层，网络层可以包括全连接层。对于文本数据，编码器可以是文本编码器。采用文本编码器，对文本数据进行编码处理，得到文本数据的文本向量。可以预设向量维度，生成预设维度的文本向量。例如，可以生成C维的文本向量。

通过全连接层可以对文本向量进行特征提取，例如，特征提取模型中可以包括单层的全连接层，全连接层后接一个激活函数。将提取后的特征，确定为文本数据对应的文本特征。本实施例中，对提取文本特征的特征提取模型不做具体限定，例如，可以采用CLIP（Contrastive Language-Image Pre-Training，对比语言-图像预训练）模型，进行文本数据的编码和特征提取。

这样设置的有益效果在于，采用预设的模型对文本数据进行针对性处理，有效提高文本特征的提取精度和效率。

本实施例中，模态数据为音频数据；根据预设的特征提取模型，对模态数据进行特征提取处理，得到模态数据对应的数据特征，包括：根据预设的特征提取模型中的音频编码器，对音频数据进行编码处理，得到音频数据的音频向量；根据预设的特征提取模型中的全连接层，对音频向量进行特征提取处理，得到音频数据对应的音频特征。

具体的，对于音频数据，编码器可以是音频编码器。采用音频编码器，对音频数据进行编码处理，得到音频数据的音频向量。可以预设向量维度，生成预设维度的音频向量。例如，可以生成C维的音频向量。

通过全连接层可以对音频向量进行特征提取，例如，特征提取模型中可以包括单层的全连接层，全连接层后接一个激活函数。将提取后得到的特征，确定为音频数据对应的音频特征。本实施例中，对提取音频特征的特征提取模型不做具体限定，例如，可以采用wav2vec2.0（语音识别预训练）模型，进行音频数据的编码和特征提取。

这样设置的有益效果在于，采用预设的模型对音频数据进行针对性处理，有效提高音频特征的提取精度和效率。

本实施例中，模态数据为口型图像；根据预设的特征提取模型，对模态数据进行特征提取处理，得到模态数据对应的数据特征，包括：根据预设的特征提取模型中的图像编码器，对口型图像进行编码处理，得到口型图像的口型图像向量；根据预设的特征提取模型中的全连接层，对口型图像向量进行特征提取处理，得到口型图像对应的口型图像特征。

具体的，对于口型图像，编码器可以是图像编码器。采用图像编码器，对口型图像进行编码处理，得到口型图像的口型图像向量。可以预设向量维度，生成预设维度的文本向量。例如，可以生成C维的口型图像向量。

通过全连接层可以对口型图像向量进行特征提取，例如，特征提取模型中可以包括单层的全连接层，全连接层后接一个激活函数。将提取后的特征，确定为口型图像对应的口型图像特征。本实施例中，对提取口型图像特征的特征提取模型不做具体限定，例如，可以采用ResNet（Residual Network，残差网络）模型，进行口型图像的编码和特征提取。

这样设置的有益效果在于，采用预设的模型对口型图像进行针对性处理，有效提高口型图像特征的提取精度和效率。

S303、根据模态数据对应的数据特征，确定模态数据对应的口型特征。

示例性地，每种模态数据对应有多个数据特征，例如，对于音频数据，数据特征可以包括语义、情绪、音调等特征。有些特征与口型无关，因此，需要从数据特征中确定出与口型相关的口型特征。例如，可以对数据特征进行特征提取，确定模态数据对应的口型特征。本实施例中，口型特征的维度与数据特征的维度一致。通过先确定数据特征，再确定口型特征，可以避免模态数据中的口型特征遗漏，提高口型特征的确定精度，有利于根据数据特征进行口型特征的多模态结合，提高人脸图像的生成精度。

本实施例中，根据模态数据对应的数据特征，确定模态数据对应的口型特征，包括：对模态数据对应的数据特征进行调制处理，得到模态数据对应的特征调制结果；其中，特征调制结果用于表示模态数据对应的数据特征；根据预设数量的全连接层，对模态数据对应的特征调制结果进行特征提取处理，得到模态数据对应的口型特征。

具体的，对于每种模态数据，确定各模态数据所对应的口型特征。在确定口型特征时，可以先对模态数据对应的数据特征进行调制处理。调制处理可以是将数据特征进行转换，调制处理的结果为特征调制结果。每种模态数据都对应有自己的特征调制结果，特征调制结果可以用于表示模态数据对应的数据特征。

预先设置全连接层，本实施例中，可以设置多层的全连接层，例如，可以设置三层全连接层，每层全连接层后接一个预设的激活函数。全连接层可以用于非线性映射，提取特征。根据预设数量的全连接层，对每一模态数据对应的特征调制结果进行特征提取处理，得到模态数据对应的口型特征。例如，对于文本数据，确定文本数据的文本特征，将文本特征进行调制处理，得到文本数据对应的特征调制结果，将文本数据对应的特征调制结果接入多层全连接层，得到文本数据对应的口型特征；对于音频数据，确定音频数据的音频特征，将音频特征进行调制处理，得到音频数据对应的特征调制结果，将音频数据对应的特征调制结果接入多层全连接层，得到音频数据对应的口型特征；对于口型图像，确定口型图像的口型图像特征，将口型图像特征进行调制处理，得到口型图像对应的特征调制结果，将口型图像对应的特征调制结果接入多层全连接层，得到口型图像对应的口型特征。

这样设置的有益效果在于，对于每一种模态数据，确定口型特征可以分为两步，第一步进行调制，第二步进行全连接层的特征提取。实现不同模态数据的口型特征的确定，从而依据不同的口型特征确定最终的人脸图像。实现了基于多模态的人脸图像生成，提高人脸图像的生成精度。

本实施例中，若模态数据为待处理的数据集合中的第一种模态数据；对模态数据对应的数据特征进行调制处理，得到模态数据对应的特征调制结果，包括：根据预设的向量数据，基于预设的调制公式，对第一种模态数据对应的数据特征进行调制处理，得到第一种模态数据对应的特征调制结果；其中，预设的向量数据为预设维度的向量。

具体的，可以分别获取各模态数据所对应的口型特征，也可以先确定一种模态数据的口型特征，再依据该模态数据的口型特征，确定另一种模型数据的口型特征，实现对各模态数据进行渐进式处理。

将不同的模态数据分别确定为第一种模态数据、第二种模态数据和第三种模态数据，例如，第一种模态数据为文本数据，第二种模态数据为音频数据，第三种模态数据为口型图像。若待处理的数据集合中包括两种模态数据，则确定待处理的数据集合中包括第一种模态数据和第二种模态数据；若待处理的数据集合中包括三种模态数据，则确定待处理的数据集合中包括第一种模态数据、第二种模态数据和第三种模态数据。在确定各模态数据的口型特征时，从第一种模态数据开始，按照顺序进行渐进式的调制和特征提取。第一种模态数据可以是文本数据，由于文本的音素信息和字准率最相关，通过文本可以大致知道口型的形状，因此，先用文本数据调制粗粒度的口型特征。第二种模态数据可以是音频数据，音频数据的音高、情感会影响口型，比如，在说同一个字时，伤心情绪下嘴角会下拉，开心情绪下嘴角会上扬，因此，可以用音频数据丰富口型特征。第三种模态数据可以是口型图像，口型图像中包含了个人的说话风格,比如男生说话时嘴型会大一些，女生说话时嘴型会相对小一些，因此，可以用口型图像细化口型特征。即，可以按照文本数据、音频数据、口型图像的顺序进行渐进式处理。本实施例中，对各模态数据的处理顺序不做具体限定。

若待处理的数据集合中只有文本数据和口型图像，则第一种模态数据可以是文本数据，第二种模态数据可以是口型图像，没有第三种模态数据；若待处理的数据集合中只有音频数据和口型图像，则第一种模态数据可以是音频数据，第二种模态数据可以是口型图像，没有第三种模态数据。

预先设置一个向量数据，并预设调制公式，调制公式用于对数据特征进行调制处理。根据预设的向量数据，基于预设的调制公式，对第一种模态数据对应的数据特征进行计算，计算结果为第一种模态数据对应的特征调制结果。预设的向量数据可以是预设维度的向量，预设的向量数据的维度与数据特征的维度相同，例如，可以是C维向量。本实施例中，预设的向量数据可以是对C维全0向量进行多层全连接层的映射所得到的向量数据。即，可以预先将C维全0向量输入到多层全连接层中，输出得到的数据即为预设的向量数据。

这样设置的有益效果在于，对于有多模态数据，可以依次进行处理，先处理第一种模态数据，便于后续在调制第二种模态数据的数据特征时，结合第一种模态数据的口型特征，实现多模态渐进式调制，提高人脸图像的生成精度。

在得到第一种模态数据对应的特征调制结果后，可以根据预设数量的全连接层，对第一种模态数据对应的特征调制结果进行特征提取处理，得到第一种模态数据对应的口型特征。

本实施例中，若模态数据为待处理的数据集合中的第二种模态数据；对模态数据对应的数据特征进行调制处理，得到模态数据对应的特征调制结果，包括：根据第一种模态数据对应的口型特征，基于预设的调制公式，对第二种模态数据对应的数据特征进行调制处理，得到第二种模态数据对应的特征调制结果。

具体的，在得到第一种模态数据的口型特征后，根据预设的调制公式，对第一种模态数据对应的口型特征和第二种模态数据对应的数据特征进行计算，计算结果为第二种模态数据对应的特征调制结果。预设的向量数据只用于第一种模态数据的数据特征的调制过程，在对第二种模态数据和第三种模态数据的数据特征进行调制时，依次采用各自的上一种模态数据的口型特征进行调制。

这样设置的有益效果在于，通过第一种模态数据的口型特征，对第二种模态数据进行调制，实现对口型特征进行细粒度的确定，丰富口型的生成效果，提高人脸图像的生成精度。

在得到第二种模态数据对应的特征调制结果后，可以根据预设数量的全连接层，对第二种模态数据对应的特征调制结果进行特征提取处理，得到第二种模态数据对应的口型特征。

本实施例中，若模态数据为待处理的数据集合中的第三种模态数据；对模态数据对应的数据特征进行调制处理，得到模态数据对应的特征调制结果，包括：根据第二种模态数据对应的口型特征，基于预设的调制公式，对第三种模态数据对应的数据特征进行调制处理，得到第三种模态数据对应的特征调制结果。

具体的，若待处理的数据集合中存在三种模态数据，则在得到第二种模态数据的口型特征后，可以根据预设的调制公式，对第二种模态数据对应的口型特征和第三种模态数据对应的数据特征进行计算，计算结果为第三种模态数据对应的特征调制结果。预设的向量数据只用于第一种模态数据的数据特征的调制过程，在对第二种模态数据和第三种模态数据的数据特征进行调制时，依次采用各自的上一种模态数据的口型特征进行调制。

这样设置的有益效果在于，通过第二种模态数据的口型特征，对第三种模态数据进行调制，实现多模态渐进调制，对口型特征进行更细粒度的确定，丰富口型的生成效果，提高人脸图像的生成精度。

在得到第三种模态数据对应的特征调制结果后，可以根据预设数量的全连接层，对第三种模态数据对应的特征调制结果进行特征提取处理，得到第三种模态数据对应的口型特征。即，得到每一种模态数据对应的口型特征，且均为C维向量。

本实施例中，预设的调制公式为；

其中，为特征调制结果；若S为第一种模态数据对应的数据特征，则F为预设的向量数据；若S为第二种模态数据对应的数据特征，则F为第一种模态数据对应的口型特征；若S为第三种模态数据对应的数据特征，则F为第二种模态数据对应的口型特征。

具体的，Gram表示格拉姆矩阵，RowSoftmax代表对维度为C×C的矩阵的每一行做softmax（指数归一化函数）。S为调制信号，F为待调信号，调制信号为模态数据对应的数据特征，待调信号为预设的向量数据或模态数据对应的口型特征。不同的模态数据，所对应的待调信号不同。对于第一种模态数据，待调信号为预设的向量数据；对于第二种模态数据，待调信号为第一种模态数据对应的口型特征；对于第三种模态数据，待调信号为第二种模态数据对应的口型特征。

这样设置的有益效果在于，采用调制的方式增强口型特征，而不是基于对比学习损失函数，避免了对比学习损失函数导致的口型风格单一的问题，提高口型丰富度，进而提高人脸图像的生成效率和精度。

S304、根据模态数据对应的口型特征，对预设的人脸图像进行处理，生成具有口型的人脸图像。

示例性地，本步骤可以参见上述步骤S101，不再赘述。

图4为本公开实施例提供的一种基于多模态的人脸图像生成方法的流程示意图，该实施例是在上述实施例基础上的可选实施例。

本实施例中，根据模态数据对应的口型特征，对预设的人脸图像进行处理，生成具有口型的人脸图像，可细化为：对预设的人脸图像进行编码处理，得到人脸向量数据；基于模态数据对应的口型特征进行多模态的特征提取处理，得到多模态特征；其中，多模态特征表征至少两种模态数据对应的口型特征中的局部特征；将人脸向量数据与多模态特征，进行残差连接处理，得到第二图像特征数据；对第二图像特征数据进行解码，得到具有口型的人脸图像。

如图4所示，该方法包括以下步骤：

S401、获取待处理的数据集合和预设的人脸图像；其中，待处理的数据集合包括至少两种模态数据；模态数据为以下的任意一种：文本数据、音频数据、口型图像；文本数据所表征的文字内容、音频数据所表征的音频内容、以及口型图像所表征的口型三者相对应；预设的人脸图像为不具有口型的人脸图像。

示例性地，本步骤可以参见上述步骤S101，不再赘述。

S402、确定模态数据对应的口型特征；其中，口型特征用于表示口型在人脸图像上的大小信息和形状信息。

示例性地，本步骤可以参见上述步骤S102，不再赘述。

S403、对预设的人脸图像进行编码处理，得到人脸向量数据。

示例性地，预先设置一个图像编码器，通过使用图像编码器对预设的人脸图像进行编码，得到预设的人脸图像对应的向量数据，作为人脸向量数据。可以预设人脸向量数据的维度，例如，可以得到C维的人脸向量数据。预设的维度可以与口型特征的维度一致。

S404、基于模态数据对应的口型特征进行多模态的特征提取处理，得到多模态特征；其中，多模态特征表征至少两种模态数据对应的口型特征中的局部特征。

示例性地，结合多种模态数据对应的口型特征，进行多模态的特征提取处理，将多种模态数据对应的口型特征融合为多模态特征。多模态特征可以用于表示多种模态数据对应的口型特征中的局部特征，例如，可以分别从各个模态数据对应的口型特征中提取局部特征，将各模态数据对应的局部特征融合为多模态特征。

本实施例中，基于模态数据对应的口型特征进行多模态的特征提取处理，得到多模态特征，包括：根据人脸向量数据，基于预设的调制公式，对待处理的数据集合中的第一种模态数据对应的口型特征进行调制处理，得到第一种模态数据对应的口型调制结果；其中，口型调制结果用于表示模态数据对应的口型特征；根据预设数量的全连接层，对第一种模态数据对应的口型调制结果进行特征提取处理，得到第一种模态数据对应的待聚合特征；根据第一种模态数据对应的待聚合特征，基于预设的调制公式，对待处理的数据集合中的第二种模态数据对应的口型特征进行调制处理，得到第二种模态数据对应的口型调制结果；根据预设数量的全连接层，对第二种模态数据对应的口型调制结果进行特征提取处理，得到多模态特征。

具体的，预先设置调制公式，对口型特征进行调制的调制公式，与对数据特征进行调制的调制公式可以相同。先对第一种模态数据对应的口型特征进行调制处理。采用预设的调制公式，对人脸向量数据和待处理的数据集合中的第一种模态数据对应的口型特征进行计算，计算结果为第一种模态数据对应的口型调制结果。口型调制结果可以用于表示模态数据对应的口型特征。

预先设置一定数量的全连接层，例如，可以设置三层全连接层。在得到第一种模态数据对应的口型调制结果后，将第一种模态数据对应的口型调制结果，输入至预设数量的全连接层中进行特征提取，输出得到的特征为第一种模态数据对应的待聚合特征。

在得到第一种模态数据对应的待聚合特征后，采用渐进式调制的方式，对其他的模态数据对应的口型特征进行调制。可以依据第一种模态数据对应的待聚合特征，确定第二种模态数据对应的待聚合特征。采用预设的调制公式，对第一种模态数据对应的待聚合特征和第二种模态数据对应的口型特征进行计算，输出的结果为第二种模态数据对应的口型调制结果。再将第二种模态数据对应的口型调制结果输入至预设数量的全连接层中进行特征提取处理，得到最终的多模态特征。

这样设置的有益效果在于，通过对不同模态数据的口型特征进行融合，可以丰富人脸图像中口型的细节。并采用由粗粒度到细粒度的结合，进一步提高人脸图像上口型的确定精度。

本实施例中，根据预设数量的全连接层，对第二种模态数据对应的口型调制结果进行特征提取处理，得到多模态特征，包括：根据预设数量的全连接层，对第二种模态数据对应的口型调制结果进行特征提取处理，得到第二种模态数据对应的待聚合特征；根据第二种模态数据对应的待聚合特征，基于预设的调制公式，对待处理的数据集合中的第三种模态数据对应的口型特征进行调制处理，得到第三种模态数据对应的口型调制结果，为多模态特征。

具体的，若待处理的数据集合中包括三种模态数据，则将第二种模态数据对应的口型调制结果，输入至预设数量的全连接层中进行特征提取处理，得到第二种模态数据对应的待聚合特征。根据第二种模态数据对应的待聚合特征，对第三种模态数据对应的口型特征进行调制。采用预设的调制公式，对第二种模态数据对应的待聚合特征和第三种模态数据对应的口型特征进行计算，计算结果为第三种模态数据对应的口型调制结果。

可以不需要将第三种模态数据对应的口型调制结果输入到预设数量的全连接层中，直接将第三种模态数据对应的口型调制结果确定为最终的多模态特征。

这样设置的有益效果在于，通过对不同模态数据的口型特征进行渐进式的融合，可以丰富人脸图像中口型的细节。并采用由粗粒度到细粒度的结合，进一步提高人脸图像上口型的确定精度。

S405、将人脸向量数据与多模态特征，进行残差连接处理，得到第二图像特征数据。

示例性地，在得到多模态特征后，将人脸向量数据与多模态特征，进行残差连接处理，将处理得到的结果确定为第二图像特征数据。最终得到的人脸图像中只有口型区域发生了变化，人脸图像上的其它信息与预设的人脸图像保持一致。将图像编码器输出的人脸向量数据通过残差连接的方法与多模态特征相加，保证非口型部分不会发生改变。

S406、对第二图像特征数据进行解码，得到具有口型的人脸图像。

示例性地，预先设置一个图像解码器，通过使用图像解码器，对第二图像特征数据进行解码，得到具有口型的人脸图像。

通过对口型特征进行渐进式调制，最终得到一个多模态特征，将人脸向量数据与该多模态特征进行融合，而不需要将人脸向量数据与多个目标特征融合，既充分发挥了不同模态数据中口型特征的影响，又减少了计算量，提高人脸图像的生成效率。

图5为人脸图像生成方法的流程示意图。图5中对三种模态数据进行处理，第一种模态数据为文本数据，第二种模态数据为音频数据，第三种模态数据为口型图像。分别对三种模态数据进行数据特征的提取，图5中采用文本编码器对文本数据进行编码，再经过单层全连接层进行特征提取，得到文本特征；采用音频编码器对音频数据进行编码，再经过单层全连接层进行特征提取，得到音频特征；采用图像编码器对口型图像进行编码，再经过单层全连接层进行特征提取，得到口型图像特征。文本特征、音频特征和口型图像特征均为C维向量。

将一个C维全0向量输入至多层全连接层，得到预设的向量数据。调制模块中设置有预设的调制公式，用于进行调制处理。将预设的向量数据和文本特征输入至调制模块，得到文本数据对应的特征调制结果。将文本数据对应的特征调制结果输入至多层全连接层，得到文本数据对应的口型特征。文本数据对应的口型特征既是下一个调制模块的输入，也是右侧第一个调制模块的输入。将文本数据对应的口型特征和音频特征输入调制模块中，得到音频数据的特征调制结果。将音频特征的特征调制结果输入至多层全连接层，得到音频数据对应的口型特征。音频数据对应的口型特征既是下一个调制模块的输入，也是右侧第二个调制模块的输入。将音频数据对应的口型特征和口型图像特征输入至调制模块，得到口型图像对应的特征调制结果。将口型图像对应的特征调制结果输入至多层全连接层，得到口型图像的口型特征。口型图像的口型特征是右侧第三个调制模块的输入。

将预设的人脸图像数据输入至图5中右侧的图像编码器，得到人脸向量数据。将人脸向量数据和文本数据对应的口型特征输入至调制模块，得到文本数据对应的口型调制结果。将文本数据对应的口型调制结果输入至多层全连接层中，得到文本数据对应的待聚合特征。将文本数据对应的待聚合特征和音频数据对应的口型特征输入至调制模块，得到音频数据对应的口型调制结果。将音频数据对应的口型调制结果输入至多层全连接层，得到音频数据对应的待聚合特征。将音频数据对应的待聚合特征和口型图像对应的口型特征输入至调制模块，得到多模态特征。将多模态特征和右侧图像编码器输出的人脸向量数据输入至图像解码器，得到具有口型的人脸图像。

图6为根据本公开实施例提供的一种基于多模态的人脸图像生成模型的训练方法的流程示意图，该方法可以由一种基于多模态的人脸图像生成模型的训练装置执行。如图6所示，该方法包括以下步骤：

S601、获取待训练的数据集合和预设的训练图像；其中，待训练的数据集合包括至少两种模态数据；模态数据为以下的任意一种：文本数据、音频数据、口型图像；文本数据所表征的文字内容、音频数据所表征的音频内容、以及口型图像所表征的口型三者相对应；预设的训练图像为不具有口型的人脸图像。

示例性地，获取待训练的数据集合，待训练的数据集合用于对人脸图像模型的初始模型进行训练。待训练的数据集合中可以包括至少两种模态数据，模态数据为以下的任意一种：文本数据、音频数据、口型图像。即，待训练的数据集合中可以包括文本数据和音频数据，或包括文本数据和口型图像，或包括音频数据和口型图像，或包括文本数据、音频数据和口型图像。文本数据可以用于表征文字内容，音频数据可以用于表征音频内容，口型图像可以用于表征口型。口型图像是指只含有口型的图像，没有人脸上的其他部分。

预先设置一张训练图像，获取预设的训练图像。预设的训练图像可以是数字人的完整人脸，例如，可以设计数字人的脸型、眼睛、鼻子和嘴巴等，生成一张预设的训练图像。预设的训练图像是不具有口型的图像，数字人可以在预设的训练图像的基础上做出口型的变化。预设的训练图像和预设的人脸图像可以相同，也可以不同。

S602、将模态数据输入至初始模型中进行训练，得到模态数据对应的口型特征；其中，口型特征用于表示口型在人脸图像上的大小信息和形状信息。

示例性地，从待训练的数据集合中获取各个模态数据，确定每一种模态数据对应的口型特征。口型特征可以用于表示口型在人脸图像上的大小信息和形状信息，例如，根据模态数据可以确定嘴巴在人脸图像上张开的幅度。

可以预先构建神经网络模型，用于提取口型特征。对于不同数据类型的模态数据，可以对应有不同的神经网络模型来得到对应的口型特征。神经网络模型中可以包括卷积层、池化层和全连接层等，例如，可以采用多层全连接层，每层全连接层后面接一个激活函数，全连接层可以用于非线性映射，提取特征。不同模态数据所经过的全连接层的层数可以相同或不同，不同层的全连接层后接的激活函数也可以相同或不同。本实施例中，在通过全连接层对模态数据进行特征提取时，每种模态数据可以经过三层全连接层。

待训练的数据集合中的模态数据所表征的内容相互对应，但各自的口型特征可以不同。例如，模态数据为文本数据和音频数据，文本数据为“啊”字，在确定“啊”字的口型特征时，只能得到口型大致形状的特征；音频数据发出“啊”的语音，在确定“啊”语音的口型特征时，可以提取音频数据中的音调和情感等特征信息，来丰富口型特征的形状细节。

可以分别独立地确定各模态数据的口型特征，也可以根据一种模态数据的口型特征，确定另一种模态数据的口型特征。例如，可以先确定出文本数据的口型特征。再根据文本数据的口型特征和音频数据，确定音频数据的口型特征。再根据音频数据的口型特征和口型图像，确定口型图像的口型特征，实现不同模态数据的特征结合。

在对人脸图像生成模型进行训练时，可以将模态数据输入至初始模型中进行训练，由初始模型得到模态数据对应的口型特征。

S603、根据模态数据对应的口型特征，对预设的训练图像进行处理，以生成训练完成的人脸图像生成模型；其中，人脸图像生成模型用于基于上述实施例中的待处理的数据集合和预设的人脸图像，生成具有口型的人脸图像。

示例性地，初始模型得到模态数据的口型特征后，可以根据模态数据对应的口型特征，对预设的训练图像进行处理，经过不断的迭代，最终生成训练完成的人脸图像生成模型。

本实施例中，根据模态数据对应的口型特征，对预设的训练图像进行处理，以生成训练完成的人脸图像生成模型，包括：对预设的训练图像进行编码处理，得到训练向量数据；对模态数据对应的口型特征进行特征提取处理，得到模态数据对应的目标特征；其中，目标特征用于表示模态数据对应的口型特征中的局部特征；将训练向量数据与至少两种所述模态数据对应的目标特征，进行残差连接处理，得到第三图像特征数据；对第三图像特征数据进行解码，得到具有口型的人脸图像；获取待训练的人脸图像，若具有口型的人脸图像与待训练的人脸图像一致，则确定得到训练完成的人脸图像生成模型；其中，待训练的人脸图像具有与模态数据对应的口型。

具体的，预先设置一个图像编码器，通过使用图像编码器对预设的训练图像进行编码，得到预设的训练图像对应的向量数据，作为训练向量数据。可以预设训练向量数据的维度，例如，可以得到C维的训练向量数据。预设的维度可以与口型特征的维度一致，例如，在生成口型特征时，可以将各个模态数据对应的口型特征转换为统一的C维，并生成C维的训练向量数据。

对每一种模态数据对应的口型特征分别进行特征提取处理，得到每一种模态数据对应的目标特征。目标特征可以用于表示模态数据对应的口型特征中的局部特征，例如，可以采用多层的全连接层，从口型特征中提取出目标特征，即得到每个模态数据对应的C维的目标特征。将训练向量数据与多种模态数据对应的目标特征，进行残差连接处理，将处理得到的结果确定为第三图像特征数据。最终得到的人脸图像中只有口型区域发生了变化，人脸图像上的其它信息与预设的训练图像保持一致。将图像编码器输出的训练向量数据通过残差连接的方法与目标特征相加，保证非口型部分不会发生改变。结合多个目标特征，确定人脸图像上所要显示的口型，例如，可以预先设置不同模态数据对应的权重，根据权重对多个目标特征进行结合。将结合后的目标特征与训练向量数据进行残差连接处理，得到第三图像特征数据。预先设置一个图像解码器，通过使用图像解码器，对第三图像特征数据进行解码，得到具有口型的人脸图像。

获取待训练的人脸图像，待训练的人脸图像是根据待训练的数据集合所得到的人脸图像，即，待训练的人脸图像具有与模态数据对应的口型。将待训练的人脸图像与具有口型的人脸图像进行比较，若具有口型的人脸图像与待训练的人脸图像一致，则确定得到训练完成的人脸图像生成模型。也可以预设一个相似度阈值，确定待训练的人脸图像与具有口型的人脸图像之间的相似度，若相似度大于预设的相似度阈值，则确定模型训练完成；若相似度不大于相似度阈值，则确定需要继续进行模型训练。

这样设置的有益效果在于，对于不同的模态数据，分别生成各自的目标特征，从而结合不同的模态数据的目标特征，生成具有口型的人脸图像，实现了多模态结合，利用不同模态数据的特征丰富人脸图像的生成效果，避免了对比学习损失导致的口型风格单一的问题，提高模型的训练精度。

本实施例中，根据模态数据对应的口型特征，对预设的训练图像进行处理，以生成训练完成的人脸图像生成模型，包括：对预设的训练图像进行编码处理，得到训练向量数据；基于模态数据对应的口型特征进行多模态的特征提取处理，得到多模态特征；其中，多模态特征表征至少两种模态数据对应的口型特征中的局部特征；将训练向量数据与多模态特征，进行残差连接处理，得到第四图像特征数据；对第四图像特征数据进行解码，得到具有口型的人脸图像；获取待训练的人脸图像，若具有口型的人脸图像与待训练的人脸图像一致，则确定得到训练完成的人脸图像生成模型。

具体的，预先设置一个图像编码器，通过使用图像编码器对预设的训练图像进行编码，得到训练向量数据。结合多种模态数据对应的口型特征，进行多模态的特征提取处理，将多种模态数据对应的口型特征融合为一个多模态特征。多模态特征可以用于表示多种模态数据对应的口型特征中的局部特征，例如，可以分别从各个模态数据对应的口型特征中提取局部特征，将各模态数据对应的局部特征融合为多模态特征。

在得到多模态特征后，将训练向量数据与多模态特征，进行残差连接处理，将处理得到的结果确定为第四图像特征数据。最终得到的人脸图像中只有口型区域发生了变化，人脸图像上的其它信息与预设的训练图像保持一致。将图像编码器输出的训练向量数据通过残差连接的方法与多模态特征相加，保证非口型部分不会发生改变。预先设置一个图像解码器，通过使用图像解码器，对第四图像特征数据进行解码，得到具有口型的人脸图像。

这样设置的有益效果在于，通过对口型特征进行渐进式调制，最终得到一个多模态特征，将训练向量数据与该多模态特征进行融合，而不需要将训练向量数据与多个目标特征融合，既充分发挥了不同模态数据中口型特征的影响，又减少了计算量，提高人脸图像的生成效率，并提高模型的训练效率和训练精度。

本实施例中，基于模态数据对应的口型特征进行多模态的特征提取处理，得到多模态特征，包括：根据训练向量数据，基于初始模型中的预设的调制公式，对待训练的数据集合中的第一种模态数据对应的口型特征进行调制处理，得到第一种模态数据对应的口型调制结果；其中，口型调制结果用于表示模态数据对应的口型特征；根据初始模型中的预设数量的全连接层，对第一种模态数据对应的口型调制结果进行特征提取处理，得到第一种模态数据对应的待聚合特征；根据第一种模态数据对应的待聚合特征，基于初始模型中的预设的调制公式，对待训练的数据集合中的第二种模态数据对应的口型特征进行调制处理，得到第二种模态数据对应的口型调制结果；根据初始模型中的预设数量的全连接层，对第二种模态数据对应的口型调制结果进行特征提取处理，得到多模态特征。

具体的，初始模型中设置有调制公式。先对第一种模态数据对应的口型特征进行调制处理。采用预设的调制公式，对训练向量数据和待训练的数据集合中的第一种模态数据对应的口型特征进行计算，计算结果为第一种模态数据对应的口型调制结果。口型调制结果可以用于表示模态数据对应的口型特征。

初始模型中还预先设置一定数量的全连接层，例如，可以设置三层全连接层。在得到第一种模态数据对应的口型调制结果后，将第一种模态数据对应的口型调制结果，输入至预设数量的全连接层中进行特征提取，输出得到的特征为第一种模态数据对应的待聚合特征。

这样设置的有益效果在于，通过对不同模态数据的口型特征进行融合，可以丰富人脸图像中口型的细节。并采用由粗粒度到细粒度的渐进调制，提高人脸图像生成模型的训练精度。

本实施例中，根据初始模型中的预设数量的全连接层，对第二种模态数据对应的口型调制结果进行特征提取处理，得到多模态特征，包括：根据初始模型中的预设数量的全连接层，对第二种模态数据对应的口型调制结果进行特征提取处理，得到第二种模态数据对应的待聚合特征；根据第二种模态数据对应的待聚合特征，基于初始模型中的预设的调制公式，对待训练的数据集合中的第三种模态数据对应的口型特征进行调制处理，得到第三种模态数据对应的口型调制结果，为多模态特征。

具体的，若待训练的数据集合中包括三种模态数据，则将第二种模态数据对应的口型调制结果，输入至预设数量的全连接层中进行特征提取处理，得到第二种模态数据对应的待聚合特征。根据第二种模态数据对应的待聚合特征，对第三种模态数据对应的口型特征进行调制。采用预设的调制公式，对第二种模态数据对应的待聚合特征和第三种模态数据对应的口型特征进行计算，计算结果为第三种模态数据对应的口型调制结果。

这样设置的有益效果在于，通过对不同模态数据的口型特征进行渐进式的融合，可以丰富人脸图像中口型的细节。并采用由粗粒度到细粒度的调制，进一步提高人脸图像生成模型的训练精度。

本公开实施例获取多种数据类型的模态数据，通过初始模型，确定每一种模态数据对应的口型特征。在训练初始模型时，对多种模态数据进行口型特征的融合，使模型能够输出风格丰富的人脸图像。通过结合多模态数据的口型特征，充分发挥不同模态数据对口型的影响，提高人脸图像生成模型的训练精度，进而提升用户与数字人的交互体验。

图7为本公开实施例提供的一种基于多模态的人脸图像生成模型的训练方法的流程示意图，该实施例是在上述实施例基础上的可选实施例。

本实施例中，将模态数据输入至初始模型中进行训练，得到模态数据对应的口型特征，可细化为：确定模态数据对应的数据特征；其中，数据特征为文本特征、或者音频特征、或者口型图像特征；将模态数据对应的数据特征输入至初始模型中进行训练，确定模态数据对应的口型特征。

如图7所示，该方法包括以下步骤：

S701、获取待训练的数据集合和预设的训练图像；其中，待训练的数据集合包括至少两种模态数据；模态数据为以下的任意一种：文本数据、音频数据、口型图像；文本数据所表征的文字内容、音频数据所表征的音频内容、以及口型图像所表征的口型三者相对应；预设的训练图像为不具有口型的人脸图像。

示例性地，本步骤可以参见上述步骤S601，不再赘述。

S702、确定模态数据对应的数据特征；其中，数据特征为文本特征、或者音频特征、或者口型图像特征。

示例性地，对于不同的模态数据，确定各自的数据特征，数据特征为文本特征、或者音频特征、或者口型图像特征。文本数据的数据特征为文本特征，音频数据的数据特征为音频特征，口型图像的数据特征为口型图像特征。各模态数据的数据特征之间不存在影响，可以分别进行确定。例如，对于文本数据，可以确定文本的语义特征，作为文本特征；对于音频数据，可以确定音频的语义特征和音调特征等，作为音频特征；对于口型图像，可以确定口型图像中的口型形状等，作为口型图像特征。

具体的，预先设置特征提取模型，特征提取模型可以是神经网络模型，特征提取模型用于从模态数据中提取出数据特征。本实施例中，对特征提取模型的网络结构不做具体限定。将模态数据输入到特征提取模型中进行特征提取处理，得到模态数据对应的数据特征。

对于不同的模态数据，可以对应不同的特征提取模型。根据各自的特征提取模型，确定每一种模态数据所对应的数据特征。可以预设数据特征的维度，例如，可以输出C维的数据特征。

这样设置的有益效果在于，可以根据预设的特征提取模型，自动提取各模态数据对应的数据特征，便于后续的多模态结合，有利于提高人脸图像生成模型的训练效率和精度。

具体的，特征提取模型中可以包括编码器和网络层，网络层可以包括全连接层。对于文本数据，编码器可以是文本编码器。采用文本编码器，对文本数据进行编码处理，得到文本数据的文本向量。可以预设向量维度，生成预设维度的文本向量。

通过全连接层可以对文本向量进行特征提取，例如，特征提取模型中可以包括单层的全连接层，全连接层后接一个激活函数。将提取后的特征，确定为文本数据对应的文本特征。本实施例中，对提取文本特征的特征提取模型不做具体限定，例如，可以采用CLIP模型，进行文本数据的编码和特征提取。

具体的，对于音频数据，编码器可以是音频编码器。采用音频编码器，对音频数据进行编码处理，得到音频数据的音频向量。可以预设向量维度，生成预设维度的音频向量。

通过全连接层可以对音频向量进行特征提取，例如，特征提取模型中可以包括单层的全连接层，全连接层后接一个激活函数。将提取后的特征，确定为音频数据对应的音频特征。本实施例中，对提取音频特征的特征提取模型不做具体限定，例如，可以采用wav2vec2.0模型，进行音频数据的编码和特征提取。

具体的，对于口型图像，编码器可以是图像编码器。采用图像编码器，对口型图像进行编码处理，得到口型图像的口型图像向量。可以预设向量维度，生成预设维度的文本向量。

通过全连接层可以对口型图像向量进行特征提取，例如，特征提取模型中可以包括单层的全连接层，全连接层后接一个激活函数。将提取后的特征，确定为口型图像对应的口型图像特征。本实施例中，对提取口型图像特征的特征提取模型不做具体限定，例如，可以采用ResNet模型，进行口型图像的编码和特征提取。

S703、将模态数据对应的数据特征输入至初始模型中进行训练，确定模态数据对应的口型特征。

示例性地，将每一模态数据对应的数据特征，输入至初始模型中进行训练，通过初始模型可以得到每一模态数据对应的口型特征。实现利用不同的模态数据进行模型训练，有利于模型依据不同的模态数据生成人脸图像，提高模型的训练精度，进而提高人脸图像的生成精度。

本实施例中，将模态数据对应的数据特征输入至初始模型中进行训练，确定模态数据对应的口型特征，包括：对模态数据对应的数据特征进行调制处理，得到模态数据对应的特征调制结果；其中，特征调制结果用于表示模态数据对应的数据特征；根据初始模型中的预设数量的全连接层，对模态数据对应的特征调制结果进行特征提取处理，得到模态数据对应的口型特征。

具体的，初始模型在确定口型特征时，可以先对模态数据对应的数据特征进行调制处理。调制处理可以是将特征进行转换，对数据特征进行调制处理的结果为特征调制结果，每种模态数据都对应有自己的特征调制结果。

初始模型中预先设置全连接层，本实施例中，可以设置多层的全连接层，例如，可以设置三层全连接层，每层全连接层后接一个预设的激活函数。全连接层可以用于非线性映射，提取特征。根据预设数量的全连接层，对每一模态数据对应的特征调制结果进行特征提取处理，得到模态数据对应的口型特征。例如，对于文本数据，确定文本数据的文本特征，对文本特征进行调制处理，得到文本数据对应的特征调制结果，将文本数据对应的特征调制结果接入多层全连接层，得到文本数据对应的口型特征；对于音频数据，确定音频数据的音频特征，对音频特征进行调制处理，得到音频数据对应的特征调制结果，将音频数据对应的特征调制结果接入多层全连接层，得到音频数据对应的口型特征；对于口型图像，确定口型图像的口型图像特征，对口型图像特征进行调制处理，得到口型图像对应的特征调制结果，将口型图像对应的特征调制结果接入多层全连接层，得到口型图像对应的口型特征。

这样设置的有益效果在于，初始模型对于每一种模态数据，确定口型特征可以分为两步，第一步进行调制，第二步进行全连接层的特征提取。实现不同模态数据的口型特征的确定，提高人脸图像模型的训练精度。以调制的方式增强口型特征，而不是基于对比学习损失，避免了对比学习损失导致的口型风格单一的问题。

本实施例中，若模态数据为待训练的数据集合中的第一种模态数据；对模态数据对应的数据特征进行调制处理，得到模态数据对应的特征调制结果，包括：确定第一种模态数据的训练概率；其中，训练概率用于表示采用模态数据对人脸图像生成模型进行训练的概率；若第一种模态数据的训练概率大于预设的概率阈值，则根据预设的向量数据，基于初始模型中的预设的调制公式，对第一种模态数据对应的数据特征进行调制处理，得到第一种模态数据对应的特征调制结果；其中，预设的向量数据为预设维度的向量；若第一种模态数据的训练概率小于或等于预设的概率阈值，则确定预设的向量数据，为第一种模态数据对应的特征调制结果。

具体的，为各模态数据分配一个训练概率，训练概率可以用于表示采用模态数据对人脸图像生成模型进行训练的概率，即，可以根据训练概率，确定是否采用模态数据对人脸图像生成模型进行训练。可以随机生成各个模态数据的训练概率。

在对第一种模态数据的数据特征进行调制时，将预设的概率阈值与第一种模态数据的训练概率进行比较。若确定第一种模态数据的训练概率大于预设的概率阈值，则可以根据预设的向量数据，基于初始模型中的预设的调制公式，对第一种模态数据对应的数据特征进行调制处理，得到第一种模态数据对应的特征调制结果。若确定第一种模态数据的训练概率小于或等于预设的概率阈值，则不采用调制公式对第一种模态数据的数据特征进行计算，直接将预设的向量数据，确定为第一种模态数据对应的特征调制结果。

预先设置一个向量数据，在确定第一种模态数据的训练概率大于概率阈值时，根据预设的向量数据，基于初始模型中预设的调制公式，对第一种模态数据对应的数据特征进行计算，计算结果为第一种模态数据对应的特征调制结果。预设的向量数据可以是预设维度的向量，预设的向量数据的维度与数据特征的维度相同。本实施例中，预设的向量数据可以是对C维全0向量进行多层全连接层的映射所得到的向量数据。即，可以预先将C维全0向量输入到多层全连接层中，输出得到的数据即为预设的向量数据。

这样设置的有益效果在于，通过设置训练概率，可以对初始模型进行随机调制训练，使得模型在应用时可以用单模态或者组合模态进行驱动。通过随机调制训练，可以使模型学会在只有某个或有某些模态数据作为输入时，都能预测正确的人脸图像，提高人脸图像模型的应用范围。

在得到第一种模态数据对应的特征调制结果后，可以根据初始模型中预设数量的全连接层，对第一种模态数据对应的特征调制结果进行特征提取处理，得到第一种模态数据对应的口型特征。

本实施例中，若模态数据为待训练的数据集合中的第二种模态数据；对模态数据对应的数据特征进行调制处理，得到模态数据对应的特征调制结果，包括：确定第二种模态数据的训练概率；若第二种模态数据的训练概率大于预设的概率阈值，则根据第一种模态数据对应的口型特征，基于初始模型中的预设的调制公式，对第二种模态数据对应的数据特征进行调制处理，得到第二种模态数据对应的特征调制结果；若第二种模态数据的训练概率小于或等于预设的概率阈值，则确定第一种模态数据对应的口型特征，为第二种模态数据对应的特征调制结果。

具体的，在对第二种模态数据的数据特征进行调制时，将预设的概率阈值与第二种模态数据的训练概率进行比较。若确定第二种模态数据的训练概率大于预设的概率阈值，则可以根据第一种模态数据对应的口型特征，基于初始模型中的预设的调制公式，对第二种模态数据对应的数据特征进行调制处理，得到第二种模态数据对应的特征调制结果。若确定第二种模态数据的训练概率小于或等于预设的概率阈值，则不采用调制公式对第二种模态数据的数据特征进行计算，直接确定第一种模态数据对应的口型特征，为第二种模态数据对应的特征调制结果。

在确定第二种模态数据的训练概率大于预设的概率阈值时，根据初始模型中预设的调制公式，对第一种模态数据对应的口型特征和第二种模态数据对应的数据特征进行计算，计算结果为第二种模态数据对应的特征调制结果。预设的向量数据只用于第一种模态数据的数据特征的调制过程，在对第二种模态数据和第三种模态数据的数据特征进行调制时，依次采用各自的上一种模态数据的口型特征进行调制。

这样设置的有益效果在于，通过设置训练概率，可以对初始模型进行随机调制训练，使得模型在应用时可以用单模态或者组合模态进行驱动。通过随机调制训练，可以使模型学会在只有某个或有某些模态数据作为输入时，能预测正确的人脸图像，提高人脸图像模型的应用范围。

在得到第二种模态数据对应的特征调制结果后，可以根据初始模型中预设数量的全连接层，对第二种模态数据对应的特征调制结果进行特征提取处理，得到第二种模态数据对应的口型特征。

本实施例中，若模态数据为待训练的数据集合中的第三种模态数据；对模态数据对应的数据特征进行调制处理，得到模态数据对应的特征调制结果，包括：确定第三种模态数据的训练概率；若第三种模态数据的训练概率大于预设的概率阈值，则根据第二种模态数据对应的口型特征，基于初始模型中的预设的调制公式，对第三种模态数据对应的数据特征进行调制处理，得到第三种模态数据对应的特征调制结果；若第三种模态数据的训练概率小于或等于预设的概率阈值，则确定第二种模态数据对应的口型特征，为第三种模态数据对应的特征调制结果。

具体的，在对第三种模态数据的数据特征进行调制时，将预设的概率阈值与第三种模态数据的训练概率进行比较。若确定第三种模态数据的训练概率大于预设的概率阈值，则可以根据第三种模态数据对应的口型特征，基于初始模型中的预设的调制公式，对第三种模态数据对应的数据特征进行调制处理，得到第三种模态数据对应的特征调制结果。若确定第三种模态数据的训练概率小于或等于预设的概率阈值，则不采用调制公式对第三种模态数据的数据特征进行计算，直接确定第二种模态数据对应的口型特征，为第三种模态数据对应的特征调制结果。

在确定第三种模态数据的训练概率大于预设的概率阈值时，根据初始模型中预设的调制公式，对第二种模态数据对应的口型特征和第三种模态数据对应的数据特征进行计算，计算结果为第三种模态数据对应的特征调制结果。

这样设置的有益效果在于，通过设置训练概率，可以对初始模型进行随机调制训练，使得模型在应用时可以用单模态或者组合模态进行驱动。通过随机调制训练，可以使模型学会在只有某个或有某些模态数据作为输入时，预测正确的人脸图像，提高人脸图像模型的应用范围。

在得到第三种模态数据对应的特征调制结果后，可以根据初始模型中预设数量的全连接层，对第三种模态数据对应的特征调制结果进行特征提取处理，得到第三种模态数据对应的口型特征。

本实施例中，确定第三种模态数据的训练概率，包括：若第一种模态数据的训练概率和第二种模态数据的训练概率均小于或等于预设的概率阈值，则确定第三种模态数据的训练概率大于预设的概率阈值。

具体的，依次确定第一种模态数据的训练概率、第二种模态数据的训练概率和第三种模态数据的训练概率。其中，第一种模态数据的训练概率、第二种模态数据的训练概率是在预设范围内随机确定，例如，预设范围为0至1之间。预设的概率阈值为p，p大于0且小于1。在得到第一种模态数据的训练概率和第二种模态数据的训练概率后，判断第一种模态数据的训练概率和第二种模态数据的训练概率是否均小于p，若否，则继续在预设范围内随机确定第三种模态数据的训练概率。

若确定第一种模态数据的训练概率和第二种模态数据的训练概率均小于p，则在p至1之间随机确定一个数值，作为第三种模态数据的训练概率。即，使第三种模态数据的训练概率大于预设的概率阈值。

这样设置的有益效果在于，确保至少有一个模态数据的训练概率大于预设的概率阈值，实现人脸图像生成模型的有效训练，提高人脸图像生成模型的训练效率。

本实施例中，预设的调制公式为；

这样设置的有益效果在于，采用调制的方式进行训练，而不是基于对比学习损失，避免了对比学习损失导致的口型风格单一的问题，提高口型丰富度，进而提高人脸图像模型的训练精度。

S704、根据模态数据对应的口型特征，对预设的训练图像进行处理，以生成训练完成的人脸图像生成模型。

示例性地，本步骤可以参见上述步骤S603，不再赘述。

图8为本公开实施例提供的一种基于多模态的人脸图像生成装置的结构框图。为了便于说明，仅示出了与本公开实施例相关的部分。参照图8，基于多模态的人脸图像生成装置800包括：数据获取单元801、特征确定单元802和图像生成单元803。

数据获取单元801，用于获取待处理的数据集合和预设的人脸图像；其中，所述待处理的数据集合包括至少两种模态数据；所述模态数据为以下的任意一种：文本数据、音频数据、口型图像；所述文本数据所表征的文字内容、所述音频数据所表征的音频内容、以及所述口型图像所表征的口型三者相对应；所述预设的人脸图像为不具有口型的人脸图像；

特征确定单元802，用于确定所述模态数据对应的口型特征；其中，所述口型特征用于表示口型在人脸图像上的大小信息和形状信息；

图像生成单元803，用于根据所述模态数据对应的口型特征，对所述预设的人脸图像进行处理，生成具有口型的人脸图像。

图9为本公开实施例提供的一种基于多模态的人脸图像生成装置的结构框图，如图9所示，基于多模态的人脸图像生成装置900包括数据获取单元901、特征确定单元902和图像生成单元903，其中，特征确定单元902包括第一确定模块9021和第二确定模块9022。

第一确定模块9021，用于确定所述模态数据对应的数据特征；其中，所述数据特征为文本特征、或者音频特征、或者口型图像特征；

第二确定模块9022，用于根据所述模态数据对应的数据特征，确定所述模态数据对应的口型特征。

一个示例中，第一确定模块9021，包括：

特征提取子模块，用于根据预设的特征提取模型，对所述模态数据进行特征提取处理，得到所述模态数据对应的数据特征。

一个示例中，模态数据为文本数据；所述特征提取子模块，具体用于：

根据所述预设的特征提取模型中的文本编码器，对所述文本数据进行编码处理，得到所述文本数据的文本向量；

根据所述预设的特征提取模型中的全连接层，对所述文本向量进行特征提取处理，得到所述文本数据对应的文本特征。

一个示例中，模态数据为音频数据；所述特征提取子模块，具体用于：

根据所述预设的特征提取模型中的音频编码器，对所述音频数据进行编码处理，得到所述音频数据的音频向量；

根据所述预设的特征提取模型中的全连接层，对所述音频向量进行特征提取处理，得到所述音频数据对应的音频特征。

一个示例中，模态数据为口型图像；所述特征提取子模块，具体用于：

根据所述预设的特征提取模型中的图像编码器，对所述口型图像进行编码处理，得到所述口型图像的口型图像向量；

根据所述预设的特征提取模型中的全连接层，对所述口型图像向量进行特征提取处理，得到所述口型图像对应的口型图像特征。

一个示例中，第二确定模块9022，包括：

调制子模块，用于对所述模态数据对应的数据特征进行调制处理，得到所述模态数据对应的特征调制结果；其中，所述特征调制结果用于表示模态数据对应的数据特征；

全连接子模块，用于根据预设数量的全连接层，对所述模态数据对应的特征调制结果进行特征提取处理，得到所述模态数据对应的口型特征。

一个示例中，若所述模态数据为所述待处理的数据集合中的第一种模态数据；所述调制子模块，具体用于：

根据预设的向量数据，基于预设的调制公式，对所述第一种模态数据对应的数据特征进行调制处理，得到所述第一种模态数据对应的特征调制结果；其中，所述预设的向量数据为预设维度的向量。

一个示例中，若所述模态数据为所述待处理的数据集合中的第二种模态数据；所述调制子模块，具体用于：

根据所述第一种模态数据对应的口型特征，基于预设的调制公式，对所述第二种模态数据对应的数据特征进行调制处理，得到所述第二种模态数据对应的特征调制结果。

一个示例中，若所述模态数据为所述待处理的数据集合中的第三种模态数据；所述调制子模块，具体用于：

根据所述第二种模态数据对应的口型特征，基于预设的调制公式，对所述第三种模态数据对应的数据特征进行调制处理，得到所述第三种模态数据对应的特征调制结果。

一个示例中，预设的调制公式为；

其中，为特征调制结果；若S为所述第一种模态数据对应的数据特征，则F为所述预设的向量数据；若S为所述第二种模态数据对应的数据特征，则F为所述第一种模态数据对应的口型特征；若S为所述第三种模态数据对应的数据特征，则F为所述第二种模态数据对应的口型特征。

一个示例中，图像生成单元903，包括：

第一编码模块，用于对所述预设的人脸图像进行编码处理，得到人脸向量数据；

目标确定模块，用于对所述模态数据对应的口型特征进行特征提取处理，得到所述模态数据对应的目标特征；其中，所述目标特征用于表示模态数据对应的口型特征中的局部特征；

第一残差模块，用于将所述人脸向量数据与至少两种所述模态数据对应的目标特征，进行残差连接处理，得到第一图像特征数据；

第一解码模块，用于对所述第一图像特征数据进行解码，得到所述具有口型的人脸图像。

一个示例中，图像生成单元903，包括：

第二编码模块，用于对所述预设的人脸图像进行编码处理，得到人脸向量数据；

多模态特征确定模块，用于基于所述模态数据对应的口型特征进行多模态的特征提取处理，得到多模态特征；其中，所述多模态特征表征至少两种模态数据对应的口型特征中的局部特征；

第二残差模块，用于将所述人脸向量数据与所述多模态特征，进行残差连接处理，得到第二图像特征数据；

第二解码模块，用于对所述第二图像特征数据进行解码，得到所述具有口型的人脸图像。

一个示例中，多模态特征确定模块，包括：

口型调制子模块，用于根据所述人脸向量数据，基于预设的调制公式，对所述待处理的数据集合中的第一种模态数据对应的口型特征进行调制处理，得到所述第一种模态数据对应的口型调制结果；其中，所述口型调制结果用于表示模态数据对应的口型特征；

结果处理子模块，用于根据预设数量的全连接层，对所述第一种模态数据对应的口型调制结果进行特征提取处理，得到所述第一种模态数据对应的待聚合特征；

特征调制子模块，用于根据所述第一种模态数据对应的待聚合特征，基于预设的调制公式，对所述待处理的数据集合中的第二种模态数据对应的口型特征进行调制处理，得到所述第二种模态数据对应的口型调制结果；

调制结果处理子模块，用于根据预设数量的全连接层，对所述第二种模态数据对应的口型调制结果进行特征提取处理，得到所述多模态特征。

一个示例中，调制结果处理子模块，具体用于：

根据预设数量的全连接层，对所述第二种模态数据对应的口型调制结果进行特征提取处理，得到所述第二种模态数据对应的待聚合特征；

根据所述第二种模态数据对应的待聚合特征，基于预设的调制公式，对所述待处理的数据集合中的第三种模态数据对应的口型特征进行调制处理，得到所述第三种模态数据对应的口型调制结果，为所述多模态特征。

图10为本公开实施例提供的一种基于多模态的人脸图像生成模型的训练装置的结构框图。为了便于说明，仅示出了与本公开实施例相关的部分。参照图10，基于多模态的人脸图像生成模型的训练装置1000包括：集合获取单元1001、模型训练单元1002和模型生成单元1003。

集合获取单元1001，用于获取待训练的数据集合和预设的训练图像；其中，所述待训练的数据集合包括至少两种模态数据；所述模态数据为以下的任意一种：文本数据、音频数据、口型图像；所述文本数据所表征的文字内容、所述音频数据所表征的音频内容、以及所述口型图像所表征的口型三者相对应；所述预设的训练图像为不具有口型的人脸图像；

模型训练单元1002，用于将所述模态数据输入至初始模型中进行训练，得到所述模态数据对应的口型特征；其中，所述口型特征用于表示口型在人脸图像上的大小信息和形状信息；

模型生成单元1003，用于根据所述模态数据对应的口型特征，对所述预设的训练图像进行处理，以生成训练完成的人脸图像生成模型；

其中，所述人脸图像生成模型用于基于如上述实施例所述的待处理的数据集合和预设的人脸图像，生成具有口型的人脸图像。

一个示例中，模型训练单元1002，包括：

数据特征确定模块，用于确定所述模态数据对应的数据特征；其中，所述数据特征为文本特征、或者音频特征、或者口型图像特征；

口型特征确定模块，用于将所述模态数据对应的数据特征输入至初始模型中进行训练，确定所述模态数据对应的口型特征。

一个示例中，数据特征确定模块，包括：

模态提取子模块，用于根据预设的特征提取模型，对所述模态数据进行特征提取处理，得到所述模态数据对应的数据特征。

一个示例中，模态提取子模块，具体用于：

一个示例中，口型特征确定模块，包括：

调制处理子模块，用于对所述模态数据对应的数据特征进行调制处理，得到所述模态数据对应的特征调制结果；其中，所述特征调制结果用于表示模态数据对应的数据特征；

特征获得子模块，用于根据所述初始模型中的预设数量的全连接层，对所述模态数据对应的特征调制结果进行特征提取处理，得到所述模态数据对应的口型特征。

一个示例中，若所述模态数据为所述待训练的数据集合中的第一种模态数据；所述调制处理子模块，包括：

第一概率确定从模块，用于确定所述第一种模态数据的训练概率；其中，所述训练概率用于表示采用模态数据对人脸图像生成模型进行训练的概率；

第一计算从模块，用于若所述第一种模态数据的训练概率大于预设的概率阈值，则根据预设的向量数据，基于所述初始模型中的预设的调制公式，对所述第一种模态数据对应的数据特征进行调制处理，得到所述第一种模态数据对应的特征调制结果；其中，所述预设的向量数据为预设维度的向量；

第一确定从模块，用于若所述第一种模态数据的训练概率小于或等于预设的概率阈值，则确定预设的向量数据，为所述第一种模态数据对应的特征调制结果。

一个示例中，若所述模态数据为所述待训练的数据集合中的第二种模态数据；所述调制处理子模块，包括：

第二概率确定从模块，用于确定所述第二种模态数据的训练概率；

第二计算从模块，用于若所述第二种模态数据的训练概率大于预设的概率阈值，则根据所述第一种模态数据对应的口型特征，基于所述初始模型中的预设的调制公式，对所述第二种模态数据对应的数据特征进行调制处理，得到所述第二种模态数据对应的特征调制结果；

第二确定从模块，用于若所述第二种模态数据的训练概率小于或等于预设的概率阈值，则确定所述第一种模态数据对应的口型特征，为所述第二种模态数据对应的特征调制结果。

一个示例中，若所述模态数据为所述待训练的数据集合中的第三种模态数据；所述调制处理子模块，包括：

第三概率确定从模块，用于确定所述第三种模态数据的训练概率；

第三计算从模块，用于若所述第三种模态数据的训练概率大于预设的概率阈值，则根据所述第二种模态数据对应的口型特征，基于所述初始模型中的预设的调制公式，对所述第三种模态数据对应的数据特征进行调制处理，得到所述第三种模态数据对应的特征调制结果；

第三确定从模块，用于若所述第三种模态数据的训练概率小于或等于预设的概率阈值，则确定所述第二种模态数据对应的口型特征，为所述第三种模态数据对应的特征调制结果。

一个示例中，第三概率确定从模块，具体用于：

若所述第一种模态数据的训练概率和所述第二种模态数据的训练概率均小于或等于预设的概率阈值，则确定所述第三种模态数据的训练概率大于预设的概率阈值。

一个示例中，预设的调制公式为；

一个示例中，模型生成单元1003，包括：

第三编码模块，用于对所述预设的训练图像进行编码处理，得到训练向量数据；

目标特征确定模块，用于对所述模态数据对应的口型特征进行特征提取处理，得到所述模态数据对应的目标特征；其中，所述目标特征用于表示模态数据对应的口型特征中的局部特征；

第三残差模块，用于将所述训练向量数据与至少两种所述模态数据对应的目标特征，进行残差连接处理，得到第三图像特征数据；

第三解码模块，用于对所述第三图像特征数据进行解码，得到所述具有口型的人脸图像；

第一训练完成模块，用于获取待训练的人脸图像，若所述具有口型的人脸图像与所述待训练的人脸图像一致，则确定得到训练完成的人脸图像生成模型；其中，所述待训练的人脸图像具有与所述模态数据对应的口型。

一个示例中，模型生成单元1003，包括：

第四编码模块，用于对所述预设的训练图像进行编码处理，得到训练向量数据；

多模态提取模块，用于基于所述模态数据对应的口型特征进行多模态的特征提取处理，得到多模态特征；其中，所述多模态特征表征至少两种模态数据对应的口型特征中的局部特征；

第四残差模块，用于将所述训练向量数据与所述多模态特征，进行残差连接处理，得到第四图像特征数据；

第四解码模块，用于对所述第四图像特征数据进行解码，得到所述具有口型的人脸图像；

第二训练完成模块，用于获取待训练的人脸图像，若所述具有口型的人脸图像与所述待训练的人脸图像一致，则确定得到训练完成的人脸图像生成模型。

一个示例中，多模态提取模块，包括：

第一处理子模块，用于根据所述训练向量数据，基于所述初始模型中的预设的调制公式，对所述待训练的数据集合中的第一种模态数据对应的口型特征进行调制处理，得到所述第一种模态数据对应的口型调制结果；其中，所述口型调制结果用于表示模态数据对应的口型特征；

第二处理子模块，用于根据所述初始模型中的预设数量的全连接层，对所述第一种模态数据对应的口型调制结果进行特征提取处理，得到所述第一种模态数据对应的待聚合特征；

第三处理子模块，用于根据所述第一种模态数据对应的待聚合特征，基于所述初始模型中的预设的调制公式，对所述待训练的数据集合中的第二种模态数据对应的口型特征进行调制处理，得到所述第二种模态数据对应的口型调制结果；

第四处理子模块，用于根据所述初始模型中的预设数量的全连接层，对所述第二种模态数据对应的口型调制结果进行特征提取处理，得到所述多模态特征。

一个示例中，第四处理子模块，具体用于：

根据所述初始模型中的预设数量的全连接层，对所述第二种模态数据对应的口型调制结果进行特征提取处理，得到所述第二种模态数据对应的待聚合特征；

根据所述第二种模态数据对应的待聚合特征，基于所述初始模型中的预设的调制公式，对所述待训练的数据集合中的第三种模态数据对应的口型特征进行调制处理，得到所述第三种模态数据对应的口型调制结果，为所述多模态特征。

图11为本公开实施例提供的一种电子设备的结构框图，如图11所示，电子设备1100包括：至少一个处理器1102；以及与所述至少一个处理器1102通信连接的存储器1101；其中，存储器存储有可被所述至少一个处理器1102执行的指令，所述指令被所述至少一个处理器1102执行，以使所述至少一个处理器1102能够执行本公开的基于多模态的人脸图像生成方法和模型的训练方法。

电子设备1100还包括接收器1103和发送器1104。接收器1103用于接收其他设备发送的指令和数据，发送器1104用于向外部设备发送指令和数据。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，本公开还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。

图12示出了可以用来实施本公开的实施例的示例电子设备1200的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图12所示，设备1200包括计算单元1201，其可以根据存储在只读存储器（ROM）1202中的计算机程序或者从存储单元1208加载到随机访问存储器（RAM）1203中的计算机程序，来执行各种适当的动作和处理。在RAM 1203中，还可存储设备1200操作所需的各种程序和数据。计算单元1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出（I/O）接口1205也连接至总线1204。

设备1200中的多个部件连接至I/O接口1205，包括：输入单元1206，例如键盘、鼠标等；输出单元1207，例如各种类型的显示器、扬声器等；存储单元1208，例如磁盘、光盘等；以及通信单元1209，例如网卡、调制解调器、无线通信收发机等。通信单元1209允许设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如基于多模态的人脸图像生成方法和模型的训练方法。例如，在一些实施例中，基于多模态的人脸图像生成方法和模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1208。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1202和/或通信单元1209而被载入和/或安装到设备1200上。当计算机程序加载到RAM 1203并由计算单元1201执行时，可以执行上文描述的基于多模态的人脸图像生成方法和模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1201可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行基于多模态的人脸图像生成方法和模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、复杂可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务（"Virtual Private Server"，或简称 "VPS"）中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种基于多模态的人脸图像生成方法，包括：

获取待处理的数据集合和预设的人脸图像；其中，所述待处理的数据集合包括三种模态数据；所述模态数据为以下的任意一种：文本数据、音频数据、口型图像；所述文本数据所表征的文字内容、所述音频数据所表征的音频内容、以及所述口型图像所表征的口型三者相对应；所述预设的人脸图像为不具有口型的人脸图像；

根据所述模态数据对应的口型特征，对所述预设的人脸图像进行处理，生成具有口型的人脸图像；

其中，所述确定所述模态数据对应的口型特征，包括：

确定所述模态数据对应的数据特征；其中，所述数据特征包括文本特征、音频特征和口型图像特征；

对所述模态数据对应的数据特征进行调制处理，得到所述模态数据对应的特征调制结果；其中，所述特征调制结果用于表示模态数据对应的数据特征；

根据预设数量的全连接层，对所述模态数据对应的特征调制结果进行特征提取处理，得到所述模态数据对应的口型特征；

其中，对于三种模态数据，按照预设顺序进行渐进式的调制和特征提取处理；

所述对于三种模态数据，按照预设顺序机型渐进式的调试和特征提取处理，包括：

对第一种模态数据对应的数据特征进行调制处理，得到所述第一种模态数据对应的特征调制结果；

根据所述第一种模态数据对应的口型特征，对第二种模态数据对应的数据特征进行调制处理，得到所述第二种模态数据对应的特征调制结果；

根据所述第二种模态数据对应的口型特征，对第三种模态数据对应的数据特征进行调制处理，得到所述第三种模态数据对应的特征调制结果。

2.根据权利要求1所述的方法，其中，所述确定所述模态数据对应的数据特征，包括：

根据预设的特征提取模型，对所述模态数据进行特征提取处理，得到所述模态数据对应的数据特征。

3.根据权利要求2所述的方法，所述模态数据为文本数据；所述根据预设的特征提取模型，对所述模态数据进行特征提取处理，得到所述模态数据对应的数据特征，包括：

4.根据权利要求2所述的方法，所述模态数据为音频数据；所述根据预设的特征提取模型，对所述模态数据进行特征提取处理，得到所述模态数据对应的数据特征，包括：

5.根据权利要求2所述的方法，所述模态数据为口型图像；所述根据预设的特征提取模型，对所述模态数据进行特征提取处理，得到所述模态数据对应的数据特征，包括：

6.根据权利要求1所述的方法，所述对第一种模态数据对应的数据特征进行调制处理，得到所述第一种模态数据对应的特征调制结果，包括：

7.根据权利要求6所述的方法，所述根据所述第一种模态数据对应的口型特征，对第二种模态数据对应的数据特征进行调制处理，得到所述第二种模态数据对应的特征调制结果，包括：

8.根据权利要求7所述的方法，所述根据所述第二种模态数据对应的口型特征，对第三种模态数据对应的数据特征进行调制处理，得到所述第三种模态数据对应的特征调制结果，包括：

9.根据权利要求8所述的方法，所述预设的调制公式为；

10.根据权利要求1-9中任一项所述的方法，所述根据所述模态数据对应的口型特征，对所述预设的人脸图像进行处理，生成具有口型的人脸图像，包括：

对所述预设的人脸图像进行编码处理，得到人脸向量数据；

对所述模态数据对应的口型特征进行特征提取处理，得到所述模态数据对应的目标特征；其中，所述目标特征用于表示模态数据对应的口型特征中的局部特征；

将所述人脸向量数据与至少两种所述模态数据对应的目标特征，进行残差连接处理，得到第一图像特征数据；

对所述第一图像特征数据进行解码，得到所述具有口型的人脸图像。

11.根据权利要求1-9中任一项所述的方法，所述根据所述模态数据对应的口型特征，对所述预设的人脸图像进行处理，生成具有口型的人脸图像，包括：

对所述预设的人脸图像进行编码处理，得到人脸向量数据；

基于所述模态数据对应的口型特征进行多模态的特征提取处理，得到多模态特征；其中，所述多模态特征表征至少两种模态数据对应的口型特征中的局部特征；

将所述人脸向量数据与所述多模态特征，进行残差连接处理，得到第二图像特征数据；

对所述第二图像特征数据进行解码，得到所述具有口型的人脸图像。

12.根据权利要求11所述的方法，所述基于所述模态数据对应的口型特征进行多模态的特征提取处理，得到多模态特征，包括：

根据所述人脸向量数据，基于预设的调制公式，对所述待处理的数据集合中的第一种模态数据对应的口型特征进行调制处理，得到所述第一种模态数据对应的口型调制结果；其中，所述口型调制结果用于表示模态数据对应的口型特征；

根据预设数量的全连接层，对所述第一种模态数据对应的口型调制结果进行特征提取处理，得到所述第一种模态数据对应的待聚合特征；

根据所述第一种模态数据对应的待聚合特征，基于预设的调制公式，对所述待处理的数据集合中的第二种模态数据对应的口型特征进行调制处理，得到所述第二种模态数据对应的口型调制结果；

根据预设数量的全连接层，对所述第二种模态数据对应的口型调制结果进行特征提取处理，得到所述多模态特征。

13.根据权利要求12所述的方法，所述根据预设数量的全连接层，对所述第二种模态数据对应的口型调制结果进行特征提取处理，得到所述多模态特征，包括：

14.一种基于多模态的人脸图像生成模型的训练方法，包括：

获取待训练的数据集合和预设的训练图像；其中，所述待训练的数据集合包括三种模态数据；所述模态数据为以下的任意一种：文本数据、音频数据、口型图像；所述文本数据所表征的文字内容、所述音频数据所表征的音频内容、以及所述口型图像所表征的口型三者相对应；所述预设的训练图像为不具有口型的人脸图像；

其中，所述人脸图像生成模型用于基于如权利要求1-13中任一项所述的待处理的数据集合和预设的人脸图像，生成具有口型的人脸图像；

所述将所述模态数据输入至初始模型中进行训练，得到所述模态数据对应的口型特征，包括：

根据所述初始模型中的预设数量的全连接层，对所述模态数据对应的特征调制结果进行特征提取处理，得到所述模态数据对应的口型特征；

15.根据权利要求14所述的方法，其中，所述确定所述模态数据对应的数据特征，包括：

16.根据权利要求15所述的方法，所述模态数据为文本数据；所述根据预设的特征提取模型，对所述模态数据进行特征提取处理，得到所述模态数据对应的数据特征，包括：

17.根据权利要求16所述的方法，所述模态数据为音频数据；所述根据预设的特征提取模型，对所述模态数据进行特征提取处理，得到所述模态数据对应的数据特征，包括：

18.根据权利要求16所述的方法，所述模态数据为口型图像；所述根据预设的特征提取模型，对所述模态数据进行特征提取处理，得到所述模态数据对应的数据特征，包括：

19.根据权利要求14所述的方法，所述对第一种模态数据对应的数据特征进行调制处理，得到所述第一种模态数据对应的特征调制结果，包括：

确定所述第一种模态数据的训练概率；其中，所述训练概率用于表示采用模态数据对人脸图像生成模型进行训练的概率；

若所述第一种模态数据的训练概率大于预设的概率阈值，则根据预设的向量数据，基于所述初始模型中的预设的调制公式，对所述第一种模态数据对应的数据特征进行调制处理，得到所述第一种模态数据对应的特征调制结果；其中，所述预设的向量数据为预设维度的向量；

若所述第一种模态数据的训练概率小于或等于预设的概率阈值，则确定预设的向量数据，为所述第一种模态数据对应的特征调制结果。

20.根据权利要求19所述的方法，所述根据所述第一种模态数据对应的口型特征，对第二种模态数据对应的数据特征进行调制处理，得到所述第二种模态数据对应的特征调制结果，包括：

确定所述第二种模态数据的训练概率；

若所述第二种模态数据的训练概率大于预设的概率阈值，则根据所述第一种模态数据对应的口型特征，基于所述初始模型中的预设的调制公式，对所述第二种模态数据对应的数据特征进行调制处理，得到所述第二种模态数据对应的特征调制结果；

若所述第二种模态数据的训练概率小于或等于预设的概率阈值，则确定所述第一种模态数据对应的口型特征，为所述第二种模态数据对应的特征调制结果。

21.根据权利要求20所述的方法，所述根据所述第二种模态数据对应的口型特征，对第三种模态数据对应的数据特征进行调制处理，得到所述第三种模态数据对应的特征调制结果，包括：

确定所述第三种模态数据的训练概率；

若所述第三种模态数据的训练概率大于预设的概率阈值，则根据所述第二种模态数据对应的口型特征，基于所述初始模型中的预设的调制公式，对所述第三种模态数据对应的数据特征进行调制处理，得到所述第三种模态数据对应的特征调制结果；

若所述第三种模态数据的训练概率小于或等于预设的概率阈值，则确定所述第二种模态数据对应的口型特征，为所述第三种模态数据对应的特征调制结果。

22.根据权利要求21所述的方法，所述确定所述第三种模态数据的训练概率，包括：

23.根据权利要求21所述的方法，所述预设的调制公式为；

24.根据权利要求14-23中任一项所述的方法，所述根据所述模态数据对应的口型特征，对所述预设的训练图像进行处理，以生成训练完成的人脸图像生成模型，包括：

对所述预设的训练图像进行编码处理，得到训练向量数据；

将所述训练向量数据与至少两种所述模态数据对应的目标特征，进行残差连接处理，得到第三图像特征数据；

对所述第三图像特征数据进行解码，得到所述具有口型的人脸图像；

获取待训练的人脸图像，若所述具有口型的人脸图像与所述待训练的人脸图像一致，则确定得到训练完成的人脸图像生成模型；其中，所述待训练的人脸图像具有与所述模态数据对应的口型。

25.根据权利要求14-23中任一项所述的方法，所述根据所述模态数据对应的口型特征，对所述预设的训练图像进行处理，以生成训练完成的人脸图像生成模型，包括：

对所述预设的训练图像进行编码处理，得到训练向量数据；

将所述训练向量数据与所述多模态特征，进行残差连接处理，得到第四图像特征数据；

对所述第四图像特征数据进行解码，得到所述具有口型的人脸图像；

获取待训练的人脸图像，若所述具有口型的人脸图像与所述待训练的人脸图像一致，则确定得到训练完成的人脸图像生成模型。

26.根据权利要求25所述的方法，所述基于所述模态数据对应的口型特征进行多模态的特征提取处理，得到多模态特征，包括：

根据所述训练向量数据，基于所述初始模型中的预设的调制公式，对所述待训练的数据集合中的第一种模态数据对应的口型特征进行调制处理，得到所述第一种模态数据对应的口型调制结果；其中，所述口型调制结果用于表示模态数据对应的口型特征；

根据所述初始模型中的预设数量的全连接层，对所述第一种模态数据对应的口型调制结果进行特征提取处理，得到所述第一种模态数据对应的待聚合特征；

根据所述第一种模态数据对应的待聚合特征，基于所述初始模型中的预设的调制公式，对所述待训练的数据集合中的第二种模态数据对应的口型特征进行调制处理，得到所述第二种模态数据对应的口型调制结果；

根据所述初始模型中的预设数量的全连接层，对所述第二种模态数据对应的口型调制结果进行特征提取处理，得到所述多模态特征。

27.根据权利要求26所述的方法，所述根据所述初始模型中的预设数量的全连接层，对所述第二种模态数据对应的口型调制结果进行特征提取处理，得到所述多模态特征，包括：

28.一种基于多模态的人脸图像生成装置，包括：

数据获取单元，用于获取待处理的数据集合和预设的人脸图像；其中，所述待处理的数据集合包括三种模态数据；所述模态数据为以下的任意一种：文本数据、音频数据、口型图像；所述文本数据所表征的文字内容、所述音频数据所表征的音频内容、以及所述口型图像所表征的口型三者相对应；所述预设的人脸图像为不具有口型的人脸图像；

图像生成单元，用于根据所述模态数据对应的口型特征，对所述预设的人脸图像进行处理，生成具有口型的人脸图像；

所述特征确定单元，具体用于确定所述模态数据对应的数据特征；其中，所述数据特征为文本特征、音频特征和口型图像特征；对所述模态数据对应的数据特征进行调制处理，得到所述模态数据对应的特征调制结果；其中，所述特征调制结果用于表示模态数据对应的数据特征；根据预设数量的全连接层，对所述模态数据对应的特征调制结果进行特征提取处理，得到所述模态数据对应的口型特征；其中，对于至少两种模态数据，按照预设顺序进行渐进式的调制和特征提取处理；

所述特征确定单元，具体用于对第一种模态数据对应的数据特征进行调制处理，得到所述第一种模态数据对应的特征调制结果；根据所述第一种模态数据对应的口型特征，对第二种模态数据对应的数据特征进行调制处理，得到所述第二种模态数据对应的特征调制结果；根据所述第二种模态数据对应的口型特征，对第三种模态数据对应的数据特征进行调制处理，得到所述第三种模态数据对应的特征调制结果。

29.一种基于多模态的人脸图像生成模型的训练装置，包括：

集合获取单元，用于获取待训练的数据集合和预设的训练图像；其中，所述待训练的数据集合包括三种模态数据；所述模态数据为以下的任意一种：文本数据、音频数据、口型图像；所述文本数据所表征的文字内容、所述音频数据所表征的音频内容、以及所述口型图像所表征的口型三者相对应；所述预设的训练图像为不具有口型的人脸图像；

其中，所述人脸图像生成模型用于基于如权利要求28所述的待处理的数据集合和预设的人脸图像，生成具有口型的人脸图像；

所述模型训练单元，具体用于确定所述模态数据对应的数据特征；其中，所述数据特征包括文本特征、音频特征和口型图像特征；对所述模态数据对应的数据特征进行调制处理，得到所述模态数据对应的特征调制结果；其中，所述特征调制结果用于表示模态数据对应的数据特征；根据所述初始模型中的预设数量的全连接层，对所述模态数据对应的特征调制结果进行特征提取处理，得到所述模态数据对应的口型特征；其中，对于三种模态数据，按照预设顺序进行渐进式的调制和特征提取处理；

所述模型训练单元，具体用于对第一种模态数据对应的数据特征进行调制处理，得到所述第一种模态数据对应的特征调制结果；根据所述第一种模态数据对应的口型特征，对第二种模态数据对应的数据特征进行调制处理，得到所述第二种模态数据对应的特征调制结果；根据所述第二种模态数据对应的口型特征，对第三种模态数据对应的数据特征进行调制处理，得到所述第三种模态数据对应的特征调制结果。

30. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-13或权利要求14-27中任一项所述的方法。

31.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-13或权利要求14-27中任一项所述的方法。