CN117218224B

CN117218224B - 人脸情绪图像生成方法及装置、可读存储介质、终端

Info

Publication number: CN117218224B
Application number: CN202311057116.4A
Authority: CN
Inventors: 王晓梅; 沈旭立; 虞钉钉; 曹培
Original assignee: Huayuan Computing Technology Shanghai Co ltd
Current assignee: Huayuan Computing Technology Shanghai Co ltd
Priority date: 2023-08-21
Filing date: 2023-08-21
Publication date: 2024-09-03
Anticipated expiration: 2043-08-21
Also published as: CN117218224A

Abstract

一种人脸情绪图像生成方法及装置、可读存储介质、终端，所述方法包括：对目标情绪文本以及输入音频分别进行编码，以得到情绪特征向量和语音特征向量序列；将情绪特征向量分别与每个语音特征向量进行融合，得到融合特征向量序列；将融合特征向量序列输入预训练的表情预测模型，以得到第一人脸表情向量序列；基于第一人脸表情向量序列和第二人脸表情向量序列进行渲染，以得到渲染人脸图像序列，所述第二人脸表情向量序列是根据与所述语音特征向量序列时序对齐的原始人脸图像序列确定的；将渲染人脸图像序列和所述情绪特征向量输入预训练的图像映射模型，以生成人脸情绪图像序列。上述方案有助于获得情绪状态更加自然且符合预期的人脸情绪图像。

Description

人脸情绪图像生成方法及装置、可读存储介质、终端

技术领域

本发明涉及人脸情绪图像生成技术领域，具体地涉及一种人脸情绪图像生成方法及装置、可读存储介质、终端。

背景技术

随着深度学习技术的快速发展，音频驱动人脸情绪图像(或视频)生成任务近几年也取得了巨大的进步。

现有技术中，对于带有情绪的人脸情绪视频生成任务，所采用的方法通常为：通过采集说话者在不同情绪状态，例如，开心(happy)、悲伤(sad)、惊讶(surprise)、生气(angry)等说话过程的视频数据作为训练数据对预设模型进行训练。在这种训练数据的设定下，训练出的模型能够合成训练数据中出现的情绪。

然而，上述方法一方面受限于需要采集大量带情绪的训练数据，成本较高；另一方面在采集不同情绪的视频数据时，为体现情绪的差异性和丰富性，会选取一些非自然或相对极端的情绪状态，从而易导致生成的人脸情绪视频表现出的情绪状态不够自然，甚至可能过于极端，影响用户体验。

发明内容

本发明实施例解决的技术问题是如何使得生成的人脸情绪图像表现的情绪状态更加自然且符合预期。

为解决上述技术问题，本发明实施例提供一种人脸情绪图像生成方法，包括以下步骤：对目标情绪文本以及输入音频分别进行编码，以得到情绪特征向量和语音特征向量序列；将所述情绪特征向量分别与所述语音特征向量序列中的每个语音特征向量进行融合，得到融合特征向量序列；将所述融合特征向量序列输入预训练的表情预测模型，以得到第一人脸表情向量序列；基于所述第一人脸表情向量序列和第二人脸表情向量序列进行渲染，以得到渲染人脸图像序列，其中，所述第二人脸表情向量序列是根据与所述语音特征向量序列时序对齐的原始人脸图像序列确定的；将所述渲染人脸图像序列和所述情绪特征向量输入预训练的图像映射模型，以生成人脸情绪图像序列。

可选的，将所述情绪特征向量分别与所述语音特征向量序列中的每个语音特征向量进行融合，得到融合特征向量序列，包括：保持所述语音特征向量的时序先后顺序不变，将所述情绪特征向量分别与每个语音特征向量进行拼接，以得到多个拼接向量；基于各个拼接向量，确定所述融合特征向量序列。

可选的，基于各个拼接向量，确定所述融合特征向量序列，包括：对各个拼接向量分别进行线性映射，并将线性映射结果作为所述融合特征向量序列。

可选的，将所述情绪特征向量分别与每个语音特征向量进行拼接，包括：对于每个语音特征向量，将所述情绪特征向量整体地插入至所述语音特征向量的最后一个编码之后的位置。

可选的，在将所述融合特征向量序列输入预训练的表情预测模型之前，所述方法还包括：对样本情绪文本和样本音频分别进行编码，以得到样本情绪特征向量和样本语音特征向量序列，然后将所述样本情绪特征向量分别与每个样本语音特征向量进行融合，得到融合样本特征向量序列；采用融合样本特征向量序列，以及其中的每个融合样本特征向量对应的人脸表情向量标签，构建训练数据集；采用目标损失函数，将所述训练数据集输入待优化模型进行迭代训练，以得到所述预训练的表情预测模型和所述预训练的图像映射模型，所述待优化模型包含表情预测模型和图像映射模型；

其中，在每轮迭代训练中，将所述训练数据集输入所述表情预测模型，以得到当前轮第一人脸表情样本向量序列，然后基于所述第一人脸表情样本向量序列以及第二人脸表情样本向量序列进行渲染，得到渲染样本人脸图像序列，再将所述渲染样本人脸图像序列和所述样本情绪特征向量输入所述图像映射模型，以生成当前轮的样本人脸情绪图像序列；其中，所述第二人脸表情样本向量序列是根据与所述样本语音特征向量序列时序对齐的原始样本人脸图像序列确定的。

可选的，所述目标损失函数是对像素差异约束损失函数、表情差异约束损失函数以及情绪类型约束损失函数进行加权求和得到的；在迭代训练的过程中，所述像素差异约束损失函数用于迭代优化所述图像映射模型的参数，所述表情差异约束损失函数用于迭代优化所述表情预测模型的参数，所述情绪类型约束损失函数用于迭代优化所述表情预测模型和所述图像映射模型的参数。

可选的，满足以下一项或多项：

所述像素差异约束损失函数采用下述表达式表示：

其中，L_v表示所述像素差异约束损失函数，R_i表示原始样本人脸图像的第i个像素，表示所述图像映射模型生成的样本人脸情绪图像的第i个像素，I表示像素总数，表示对所述原始样本人脸图像提取的图像特征中的第j个元素，表示对所述图像映射模型生成的样本人脸情绪图像提取的图像特征中的第j个元素，J表示图像特征中的元素总数，||x||表示求x的范数，N表示生成的样本人脸情绪图像序列中的图像总数；

所述表情差异约束损失函数采用下述表达式表示：

其中，L_p表示所述表情差异约束损失函数，p_i表示原始样本人脸图像的标注表情向量的第i个元素，即，所述人脸表情向量标签的第i个元素，表示所述表情预测模型输出的第一人脸表情样本向量的第i个元素，N_p表示所述第一人脸表情样本向量中的元素总数，N表示所述表情预测模型预测的第一人脸表情样本向量序列中的向量总数，即生成的样本人脸情绪图像序列中的图像总数；

所述情绪类型约束损失函数采用下述表达式表示：

其中，L_e表示所述情绪类型约束损失函数，y表示原始样本人脸图像的真实情绪对应的概率，表示对生成的样本人脸情绪图像进行情绪类型识别得到的情绪类型概率分布，N表示生成的样本人脸情绪图像序列中的图像总数。

可选的，所述目标情绪文本所属的情绪类型与所述输入音频所属的情绪类型一致。

可选的，与所述语音特征向量序列时序对齐的原始人脸图像序列是对与所述输入音频属于同一说话者的视频进行采样得到的；所述原始人脸图像序列中的各帧人脸图像与语音特征向量序列各个语音特征向量一一对应。

可选的，所述第二人脸表情向量序列中的每个第二人脸表情向量选自以下一项或多项：人脸个性向量、人脸纹理向量、人脸旋转向量、人脸尺度缩放向量。

本发明实施例还提供一种人脸情绪图像生成装置，包括：编码模块，用于对目标情绪文本以及输入音频分别进行编码，以得到情绪特征向量和语音特征向量序列；向量融合模块，用于将所述情绪特征向量分别与所述语音特征向量序列中的每个语音特征向量进行融合，得到融合特征向量序列；表情系数预测模块，用于将所述融合特征向量序列输入预训练的表情预测模型，以得到第一人脸表情向量序列；渲染模块，用于基于所述第一人脸表情向量序列和第二人脸表情向量序列进行渲染，以得到渲染人脸图像序列，其中，所述第二人脸表情向量序列是根据与所述语音特征向量序列时序对齐的原始人脸图像序列确定的；人脸情绪图像生成模块，用于将所述渲染人脸图像序列和所述情绪特征向量输入预训练的图像映射模型，以生成人脸情绪图像序列。

本发明实施例还提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上述人脸情绪图像生成方法的步骤。

本发明实施例还提供一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述人脸情绪图像生成方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

现有技术中，依赖于采集大量带情绪视频构建训练数据，成本较高且易导致生成的人脸情绪视频表现出的情绪状态可控性不强，表现出不自然甚至极端的情绪状态。相较于此，本实施方案引入目标情绪文本，一方面，由于目标情绪文本相较于大量视频训练数据更易获得，且数据占据空间明显减少，成本更低；另一方面，力图通过目标情绪文本影响包含情绪信息的第一人脸表情向量(或称为表情系数)，进而影响和约束最终生成的人脸情绪图像序列所体现出的情绪或表情状态，既可以实现情绪状态的可编辑性，又可使得生成的人脸情绪图像序列体现出的情绪状态相对自然。

进一步，所述目标情绪文本的约束作用在两大核心过程均有体现，一是基于预训练的表情预测模型预测得到第一人脸表情向量序列的过程，输入的融合特征向量序列包含了目标情绪文本的情绪特征；另一是基于图像映射模型生成人脸情绪图像序列的过程，将基于目标情绪文本获得的情绪特征向量作为模型输入数据之一。由此，通过目标情绪文本的双重约束，有助于使得生成的人脸情绪图像序列的情绪状态更加自然且符合预期，避免出现极端情绪状态。

进一步，基于各个拼接向量，确定所述融合特征向量序列，包括：对各个拼接向量分别进行线性映射，并将线性映射结果作为所述融合特征向量序列。在本发明实施例中，采用向量拼接方式进行向量融合的基础上，进一步对拼接向量进行线性映射，从而可以实现向量间的深度融合，有助于后续获得更加符合目标情绪文本与输入音频包含的情绪特征的第一人脸表情向量(也可称为第一表情系数)序列，进而使得生成人脸情绪图像序列表现的情绪状态符合预期。

进一步，在本发明实施例中，对包含表情预测模型和图像映射模型的待优化模型进行迭代训练的过程中，采用的目标损失函数是对像素差异约束损失函数、表情差异约束损失函数以及情绪类型约束损失函数进行加权求和得到的；其中，所述像素差异约束损失函数用于迭代优化所述图像映射模型的参数，所述表情差异约束损失函数用于迭代优化所述表情预测模型的参数，所述情绪类型约束损失函数用于迭代优化所述表情预测模型和所述图像映射模型的参数。相较于采用单一损失函数，本实施方案通过综合采用多项具有不同约束功能的损失函数，且分别用于优化不同的模型参数，有助于改进训练效果。进一步，可以结合实际需要适当设置各项损失函数的权重值，提高训练的针对性和精细化程度，得到更加优化的模型，从而获得更加符合预期的人脸情绪图像。

附图说明

图1是本发明实施例中一种人脸情绪图像生成方法的流程图；

图2是本发明实施例中另一种人脸情绪图像生成方法的部分流程图；

图3是本发明实施例中一种待优化模型的结构及其训练过程示意图；

图4是本发明实施例中一种人脸情绪图像生成装置的结构示意图。

具体实施方式

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细说明。

参照图1，图1是本发明实施例中一种人脸情绪图像生成方法的流程图。所述方法可以包括步骤S11至步骤S14：

步骤S11：对目标情绪文本以及输入音频分别进行编码，以得到情绪特征向量和语音特征向量序列；

步骤S12：将所述情绪特征向量分别与所述语音特征向量序列中的每个语音特征向量进行融合，得到融合特征向量序列；

步骤S13：将所述融合特征向量序列输入预训练的表情预测模型，以得到第一人脸表情向量序列；

步骤S14：基于所述第一人脸表情向量序列和第二人脸表情向量序列进行渲染，以得到渲染人脸图像序列，其中，所述第二人脸表情向量序列是根据与所述语音特征向量序列时序对齐的原始人脸图像序列确定的；

步骤S15：将所述渲染人脸图像序列和所述情绪特征向量输入预训练的图像映射模型，以生成人脸情绪图像序列。

在步骤S11的具体实施中，所述目标情形文本可以采用预设情绪文本模板表示。例如，采用“a{}talking face”的模版形式，其中“{}”填充上设定的情绪标签，包括但不限于happy,angry,sad,surprise等描述情绪的单词或词组，以得到所述目标情绪文本。

其中，所述情绪标签用于指示情绪类型。具体地，情绪标签“happy”指示的情绪类型为高兴，“angry”指示的情绪类型为“生气”或“愤怒”，“sad”指示的情绪类型为“伤心”，“surprise”指示的情绪类型为“惊讶”。通常而言，单个所述目标情绪文本中包含的情绪标签通常仅指示单种情绪类型，也即，单个所述目标情绪文本属于单种情绪类型。

具体地，所述情绪类型可以用于表示情绪的多种类型，例如可以划分较为细致，在此基础上每种情绪类型可以具有一一对应的情绪标签；或者，所述情绪类型也可以用于表示情绪的基本类型，如可以包括喜、怒、哀、惧，在此基础上每种情绪类型可以具有多个对应的情绪标签。

在具体实施中，所述目标情绪文本中包含的情绪标签可以根据实际场景需要而设定。例如，用户可以根据个人需求或期待而设定适当的情绪标签。由此，可以在所述目标情绪文本的指引或约束下，获得符合用户期望的情绪/表情状态的人脸情绪视频。

进一步地，所述目标情绪文本所属的情绪类型与所述输入音频所属的情绪类型一致。

例如，所述目标情绪文本所属的情绪类型为“开心”，则所述输入音频所属的情绪类型也为“开心”。在具体实施中，可以将所述输入音频输入预训练的情绪预测模型，以得到对应的情绪标签，作为所述目标情绪文本中的情绪标签。由此，可以使得生成的人脸情绪图像与输入语音中包含的说话者的真实情绪一致，进而获得具有共情能力的人脸情绪视频。

在具体实施中，可以将所述目标情绪文本输入预训练的文本编码器中进行编码，得到维度为1×d_t的情绪特征向量(或称为文本编码向量)。其中，d_t表示所述情绪特征向量的长度或者所述情绪特征向量中包含的编码数量。

其中，所述文本编码器可以采用约束性语言-图像预训练(ConstrastiveLanguage-Image Pre-training，简称CLIP)编码器，或者，也可以采用基于转换结构的双向表示(Bidirectional Encoder Representation from Transformers，简称BERT)编码器或者全局向量(Global Vectors，简称Glove)编码器。相应地，所述情绪文本模板也可以采用其他适当形式。

所述输入音频可以是用户或者待测说话者在说话过程中录制的音频。可以将所述输入音频输入预训练的音频编码模型中进行编码，得到维度为N×d_a的语音特征向量序列，其中，N表示所述语音特征向量序列中的语音特征的总帧数，d_a表示所述语音特征向量序列中每帧语音特征的长度或每帧语音特征包含的编码数量。所述音频编码模型例如可以是第二代快速语音(FastSpeech2)模型。所述语音特征向量序列中的各帧语音特征具有时序先后顺序。

在步骤S12的具体实施中，将所述情绪特征向量分别与所述语音特征向量序列中的每个语音特征向量进行融合，得到融合特征向量序列。

进一步地，所述步骤S12具体可以包括：保持所述语音特征向量的时序先后顺序不变，将所述情绪特征向量分别与每个语音特征向量进行拼接，以得到多个拼接向量；基于各个拼接向量，确定所述融合特征向量序列。

更进一步地，基于各个拼接向量，确定所述融合特征向量序列，包括：对各个拼接向量分别进行线性映射，并将线性映射结果作为所述融合特征向量序列。

在本发明实施例中，在采用向量拼接方式进行向量融合的基础上，对拼接向量进行线性映射，从而可以实现向量间的深度融合，有助于后续获得更加符合目标情绪文本与输入音频包含的情绪特征的第一人脸表情向量(也可称为第一表情系数)序列，进而使得生成人脸情绪图像序列表现的情绪状态符合预期。

更进一步地，将所述情绪特征向量分别与每个语音特征向量进行拼接，包括：对于每个语音特征向量，将所述情绪特征向量整体地插入至所述语音特征向量的最后一个编码之后的位置。

在本发明实施例中，在拼接过程中保持所述语音特征向量的时序先后顺序不变，可以保留所述语音特征向量包含的原始情绪特征信息。进一步地，本实施方案整体式插入至所述语音特征向量的最后一个编码之后的位置，相较于采用分散式和随机插入方式，可以避免情绪特征向量和语音特征向量中的原有情绪特征信息被改变，使得后续获得的第一人脸表情向量序列包含的情绪特征与目标情绪文本、输入音频包含的情绪特征一致，进而使得生成的人脸情绪图像序列所表现的情绪状态符合预期。

在步骤S13的具体实施中，将所述融合特征向量序列输入预训练的表情预测模型，以得到第一人脸表情向量序列。

具体地，所述预训练的表情预测模型可以是对现有的表情系数预测模型进行训练得到的。所述表情预测模型可以包括编码器和解码器。所述编码器的主要作用是对输入数据进行编码，例如，可以对b×w×d_a维的输入数据经过多层卷积网络进行升维处理，其中b表示每批次送入的帧数，w表示截取的窗口长度；所述解码器的主要作用是通过多层卷机网络对输入数据进行降维处理，然后将输出结果送入至全连接层，以得到所述第一人脸表情向量序列。

其中，所述第一人脸表情向量序列包含多个具有时序先后顺序的第一人脸表情系数，由于第一人脸表情系数的形式通常为向量形式，因此也可称为第一人脸表情向量。

在步骤S14的具体实施中，基于所述第一人脸表情向量序列和第二人脸表情向量序列进行渲染，以得到渲染人脸图像序列，其中，所述第二人脸表情向量序列是根据与所述语音特征向量序列时序对齐的原始人脸图像序列确定的。

具体地，所述第二人脸表情向量序列中的每个第二人脸表情向量可以采用下述方式获得：将所述原始人脸图像序列的各帧人脸图像输入三维可变性人脸模型(3DMorphable Face Model，简称3DMM)，以得到各帧人脸图像对应的第二人脸表情向量(也可称为第二人脸表情系数)。

非限制性地，所述第二人脸表情向量可以选自以下一项或多项：人脸个性向量、人脸纹理向量、人脸旋转向量、人脸尺度缩放向量。

其中，所述人脸个性向量和所述人脸纹理向量也可分别称为人脸个性系数和人脸纹理系数，用于描述人脸的外观特征，具体地，前者主要表征人脸的个性特征，后者主要用于表征人脸的纹理特征。

所述人脸旋转向量、人脸尺度缩放向量也可分别称为人脸旋转系数和人脸尺度缩放系数，用于描述人脸的几何结构，具体地，前者主要表征人脸的旋转程度，后者主要用于表征人脸的缩小或放大程度。

进一步地，与所述语音特征向量序列时序对齐的原始人脸图像序列是对与所述输入音频属于同一说话者的视频进行采样得到的；所述原始人脸图像序列中的各帧人脸图像与语音特征向量序列各个语音特征向量一一对应。

作为一个非限制性实施例，包含n帧人脸图像的原始人脸图像序列P可以表示为{P(t₁),P(t₂),P(t₃),……P(t_n)}，包含n帧语音特征的语音特征向量序列D可以表示为{d(t₁),d(t₂),d(t₃),……d(t_n)}，其中，P(t₁)～P(t_n)表示第1帧～第n帧人脸图像，d(t₁)～d(t_n)表示第1帧～第n帧语音特征。P(t₁)～P(t_n)与d(t₁)～d(t_n)一一对应，且对应的人脸图像与语音特征之间时序对齐。

在本发明实施例中，在进行人脸图像渲染过程中，不仅采用基于所融合特征向量序列预测得到的第一表情向量序列，还结合了基于同一说话者的视频进行采样得到原始人脸图像序列所确定的第二表情向量序列。由于所述第一表情向量序列中融合了所述目标情绪文本的情绪特征，以及说话者说话过程中录制的输入音频包含的情绪特征，所述第二表情向量序列则包含了同一说话者说话过程中录制的视频中包含的情绪特征。因此，可以使得渲染得到的渲染人脸图像序列既能准确表现出所述目标情绪文本指示的情绪状态，又可与说话者(或用户)在说话过程中的真实情绪状态一致。

需要指出的是，与所述语音特征向量序列时序对齐的原始人脸图像序列也可以采用其他适当方式获得，例如，可以采用若干帧标准人脸图像形成的标准人脸图像系列，所述标准人脸图像可以指能够反映大多数人脸的普遍或平均特征的人脸图像。此外，所述原始人脸图像序列中的人脸图像与所述语音特征向量序列中时序对齐的语音特征向量之间的对应关系可以结合实际应用场景需要而变化，例如，可以是一对多或多对一关系。

在步骤S15的具体实施中，将所述渲染人脸图像序列和所述情绪特征向量输入预训练的图像映射模型，以生成人脸情绪图像序列。

具体而言，可以将所述渲染人脸图像序列中的各帧渲染人脸图像(也可称为蒙皮图像)输入包含多层卷积网络的第一网络层中进行升维处理，然后将升维处理结果输入包含多层卷积网络的第二网络层进行降维处理，以生成多帧渲染人脸图像对应的多帧人脸情绪图像，作为所述人脸情绪图像序列。

在具体实施中，在进行降维处理与升维处理过程中，引入基于目标情绪文本获得的所述情绪特征向量来指导生成带有情绪的人脸图像。可以将情绪特征向量分别与每层卷积层输出进行融合，然后输入下一层卷积层。具体地，可以采用AdaIn融合方式，其中AdaIn的基本原理可以用公式表示：

其中，f_m表示求平均运算函数，f_δ表示求方差运算函数，f_β和f_α一般表示为两个不同的全连接网络，x表示每层卷积层的输出向量，y表示所述情绪特征向量，AdaIn(x,y)表示情绪特征向量与每层卷积层的输出向量的融合结果。

参照图2，图2是本发明实施例中另一种人脸情绪图像生成方法的部分流程图，所述另一种人脸情绪图像生成方法可以包括图1所示实施例示出的步骤S11至步骤S15，还可以包括步骤S21至步骤S23。其中，步骤S21至步骤S23可以在步骤S13之前执行。

在步骤S21中，对样本情绪文本和样本音频分别进行编码，以得到样本情绪特征向量和样本语音特征向量序列，然后将所述样本情绪特征向量分别与每个样本语音特征向量进行融合，得到融合样本特征向量序列。

关于所述步骤S21中对对样本情绪文本和样本音频分别进行编码、以及进行向量融合的方案，参见图1所示实施例中步骤S11至步骤S12的相关描述内容执行，此处不再赘述。

在步骤S22中，采用融合样本特征向量序列，以及其中的每个融合样本特征向量对应的人脸表情向量标签，构建训练数据集。

其中，每个融合样本特征向量对应的人脸表情向量标签，可以是所述融合样本特征向量时序对齐的原始样本人脸图像的人脸表情向量标签(即，标注表情向量，也可称为人脸表情系数标签)。

在步骤S23中，采用目标损失函数，将所述训练数据集输入待优化模型进行迭代训练，以得到所述预训练的表情预测模型和所述预训练的图像映射模型，所述待优化模型包含表情预测模型和图像映射模型。

参照图3，图3是本发明实施例中一种待优化模型的结构及其训练过程示意图。所示待优化模型30包含表情预测模型31和图像映射模型32。

其中，在每轮迭代训练中，将所述训练数据集输入所述待优化模型30的表情预测模型31，以得到当前轮第一人脸表情样本向量序列，然后基于所述第一人脸表情样本向量序列以及第二人脸表情样本向量序列进行渲染，得到渲染样本人脸图像序列，再将所述渲染样本人脸图像序列和所述样本情绪特征向量输入所述待优化模型30的图像映射模型32，以生成当前轮的样本人脸情绪图像序列。

其中，所述第二人脸表情样本向量序列是根据与所述样本语音特征向量序列时序对齐的样本人脸图像序列确定的。

进一步地，所述目标损失函数是对像素差异约束损失函数、表情差异约束损失函数以及情绪类型约束损失函数进行加权求和得到的；在迭代训练的过程中，所述像素差异约束损失函数用于迭代优化所述图像映射模型32的参数，所述表情差异约束损失函数用于迭代优化所述表情预测模型31的参数，所述情绪类型约束损失函数用于迭代优化所述表情预测模型31和所述图像映射模型32的参数。

具体地，所述像素差异约束损失函数可以采用下述表达式表示：

其中，L_v表示所述像素差异约束损失函数，R_i表示原始样本人脸图像的第i个像素，表示所述图像映射模型生成的样本人脸情绪图像的第i个像素，I表示像素总数，表示对所述原始样本人脸图像提取的图像特征中的第j个元素，表示对所述图像映射模型生成的样本人脸情绪图像提取的图像特征中的第j个元素，J表示图像特征中的元素总数，||x||表示求x的范数，N表示生成的样本人脸情绪图像序列中的图像总数；其中，所述图像特征可以是采用预训练的特征提取网络(例如，VGG-19)提取得到的。

在本发明实施例中，所述像素差异函数不仅包含原始样本人脸图像和模型生成的样本人脸情绪图像之间的像素差异，还包含两者之间的图像特征差异，如此，相较于仅引入像素差异，本实施方案通过引入双重差异，有助于进一步提升训练效果，并有助于在后续推理阶段获得与实际人脸图像更加相近的人脸情绪图像。

所述表情差异约束损失函数可以采用下述表达式表示：

所述情绪类型约束损失函数采用下述表达式表示：

上述各项损失函数在模型训练过程中，具有各自的约束功能。具体而言，所述像素差异约束损失函数主要用于约束所述图像映射模型生成的样本人脸情绪图像与原始样本人脸图像的像素差异，所述表情差异约束损失函数主要用于约束所述表情预测模型生成的表情系数(即，所述第一人脸表情样本向量)与所述原始样本人脸图像的表情系数(即，所述人脸表情向量标签)的差异，所述情绪类型约束损失函数用于约束整个待优化模型生成的样本人脸情绪图像的情绪类型与目标情绪类型之间的差异。

其中，所述原始样本人脸图像是与模型生成的样本人脸情绪图像在时序上一一对齐。在具体实施中，所述原始样本人脸图像可以是对与所述样本音频属于同一说话者的视频进行采样得到的。

其中，所述目标情绪类型可以是与生成的样本人脸情绪图像时序对齐的原始样本人脸图像的情绪类型，所述目标情绪类型的概率值可以设置为1。所述样本人脸情绪图像的情绪类型，可以是采用预训练的情绪识别模型进行识别得到的。具体地，所述情绪识别模型可以输出所述样本人脸情绪图像的情绪类型概率分布，所述情绪类型概率分布包含所述样本人脸情绪图像属于各种情绪类型的概率值。其中，所述情绪类型概率分布中每种情绪类型的概率值可以属于区间(0,1)之间，各个情绪类型的概率值之和等于1。

在本发明实施例中，对包含表情预测模型31和图像映射模型32的待优化模型30进行迭代训练的过程中，采用的目标损失函数是对上述三项损失函数进行加权求和得到的。相较于采用单一损失函数进行模型训练，本实施方案通过综合采用多种损失函数，并可以结合实际需要适当设置各项损失函数的权重值，且分别用于优化不同的模型参数。由此，可以提高训练的针对性和精细化程度，得到更加优化的预训练的表情预测模型和预训练的图像映射模型。

参照图4，图4是本发明实施例中一种人脸情绪图像生成装置的结构示意图。所述人脸情绪图像生成装置可以包括：

编码模块41，用于对目标情绪文本以及输入音频分别进行编码，以得到情绪特征向量和语音特征向量序列；

向量融合模块42，用于将所述情绪特征向量分别与所述语音特征向量序列中的每个语音特征向量进行融合，得到融合特征向量序列；

表情系数预测模块43，用于将所述融合特征向量序列输入预训练的表情预测模型，以得到第一人脸表情向量序列；

渲染模块44，用于基于所述第一人脸表情向量序列和第二人脸表情向量序列进行渲染，以得到渲染人脸图像序列，其中，所述第二人脸表情向量序列是根据与所述语音特征向量序列时序对齐的原始人脸图像序列确定的；

人脸情绪图像生成模块45，用于将所述渲染人脸图像序列和所述情绪特征向量输入预训练的图像映射模型，以生成人脸情绪图像序列。

关于该人脸情绪图像生成装置的原理、具体实现和有益效果请参照前文及图1至图3示出的关于人脸情绪图像生成方法的相关描述，此处不再赘述。

本发明实施例还提供了一种可读存储介质，例如为计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上述图1至图2示出的人脸情绪图像生成方法的步骤。所述计算机可读存储介质可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器，还可以包括光盘、机械硬盘、固态硬盘等。

具体地，在本发明实施例中，所述处理器可以为中央处理单元(centralprocessing unit，简称CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，简称DSP)、专用集成电路(application specificintegrated circuit，简称ASIC)、现成可编程门阵列(field programmable gate array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，简称ROM)、可编程只读存储器(programmable ROM，简称PROM)、可擦除可编程只读存储器(erasable PROM，简称EPROM)、电可擦除可编程只读存储器(electricallyEPROM，简称EEPROM)或闪存。易失性存储器可以是随机存取存储器(random accessmemory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器(random access memory，简称RAM)可用，例如静态随机存取存储器(staticRAM，简称SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronousDRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(doubledata rate SDRAM，简称DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，简称ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，简称SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，简称DR RAM)。

本发明实施例还提供了一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述图1至图3示出的人脸情绪图像生成方法的步骤。所述终端可以包括但不限于手机、计算机、平板电脑等终端设备，还可以为服务器、云平台等。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，表示前后关联对象是一种“或”的关系。

本申请实施例中出现的“多个”是指两个或两个以上。

本申请实施例中出现的第一、第二等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本申请实施例中对设备个数的特别限定，不能构成对本申请实施例的任何限制。

需要指出的是，本实施例中各个步骤的序号并不代表对各个步骤的执行顺序的限定。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种人脸情绪图像生成方法，其特征在于，包括：

对目标情绪文本以及输入音频分别进行编码，以得到情绪特征向量和语音特征向量序列；

将所述情绪特征向量分别与所述语音特征向量序列中的每个语音特征向量进行融合，得到融合特征向量序列；

将所述融合特征向量序列输入预训练的表情预测模型，以得到第一人脸表情向量序列；

基于所述第一人脸表情向量序列和第二人脸表情向量序列进行渲染，以得到渲染人脸图像序列，其中，所述第二人脸表情向量序列是根据与所述语音特征向量序列时序对齐的原始人脸图像序列确定的；

将所述渲染人脸图像序列和所述情绪特征向量输入预训练的图像映射模型，以生成人脸情绪图像序列；

在将所述融合特征向量序列输入预训练的表情预测模型之前，所述方法还包括：

对样本情绪文本和样本音频分别进行编码，以得到样本情绪特征向量和样本语音特征向量序列，然后将所述样本情绪特征向量分别与每个样本语音特征向量进行融合，得到融合样本特征向量序列；

采用融合样本特征向量序列，以及其中的每个融合样本特征向量对应的人脸表情向量标签，构建训练数据集；

采用目标损失函数，将所述训练数据集输入待优化模型进行迭代训练，以得到所述预训练的表情预测模型和所述预训练的图像映射模型，所述待优化模型包含表情预测模型和图像映射模型；

其中，在每轮迭代训练中，将所述训练数据集输入所述表情预测模型，以得到当前轮第一人脸表情样本向量序列，然后基于所述第一人脸表情样本向量序列以及第二人脸表情样本向量序列进行渲染，得到渲染样本人脸图像序列，再将所述渲染样本人脸图像序列和所述样本情绪特征向量输入所述图像映射模型，以生成当前轮的样本人脸情绪图像序列；

其中，所述第二人脸表情样本向量序列是根据与所述样本语音特征向量序列时序对齐的原始样本人脸图像序列确定的。

2.根据权利要求1所述的方法，其特征在于，将所述情绪特征向量分别与所述语音特征向量序列中的每个语音特征向量进行融合，得到融合特征向量序列，包括：

保持所述语音特征向量的时序先后顺序不变，将所述情绪特征向量分别与每个语音特征向量进行拼接，以得到多个拼接向量；

基于各个拼接向量，确定所述融合特征向量序列。

3.根据权利要求2所述的方法，其特征在于，基于各个拼接向量，确定所述融合特征向量序列，包括：

对各个拼接向量分别进行线性映射，并将线性映射结果作为所述融合特征向量序列。

4.根据权利要求2或3所述的方法，其特征在于，将所述情绪特征向量分别与每个语音特征向量进行拼接，包括：

对于每个语音特征向量，将所述情绪特征向量整体地插入至所述语音特征向量的最后一个编码之后的位置。

5.根据权利要求1所述的方法，其特征在于，所述目标损失函数是对像素差异约束损失函数、表情差异约束损失函数以及情绪类型约束损失函数进行加权求和得到的；

在迭代训练的过程中，所述像素差异约束损失函数用于迭代优化所述图像映射模型的参数，所述表情差异约束损失函数用于迭代优化所述表情预测模型的参数，所述情绪类型约束损失函数用于迭代优化所述表情预测模型和所述图像映射模型的参数。

6.根据权利要求5所述的方法，其特征在于，满足以下一项或多项：

所述像素差异约束损失函数采用下述表达式表示：

其中，L_v表示所述像素差异约束损失函数，R_i表示原始样本人脸图像的第i个像素，表示所述图像映射模型生成的样本人脸情绪图像的第i个像素，I表示像素总数，表示对所述原始样本人脸图像提取的图像特征中的第j个元素，表示对所述图像映射模型生成的样本人脸情绪图像提取的图像特征中的第j个元素，J表示图像特征中的元素总数，‖x||表示求x的范数，N表示生成的样本人脸情绪图像序列中的图像总数；

所述表情差异约束损失函数采用下述表达式表示：

所述情绪类型约束损失函数采用下述表达式表示：

7.根据权利要求1所述的方法，其特征在于，所述目标情绪文本所属的情绪类型与所述输入音频所属的情绪类型一致。

8.根据权利要求1所述的方法，其特征在于，与所述语音特征向量序列时序对齐的原始人脸图像序列是对与所述输入音频属于同一说话者的视频进行采样得到的；

所述人脸图像序列中的各帧人脸图像与语音特征向量序列各个语音特征向量一一对应。

9.根据权利要求1或8所述的方法，其特征在于，所述第二人脸表情向量序列中的每个第二人脸表情向量选自以下一项或多项：

人脸个性向量、人脸纹理向量、人脸旋转向量、人脸尺度缩放向量。

10.一种人脸情绪图像生成装置，其特征在于，包括：

编码模块，用于对目标情绪文本以及输入音频分别进行编码，以得到情绪特征向量和语音特征向量序列；

向量融合模块，用于将所述情绪特征向量分别与所述语音特征向量序列中的每个语音特征向量进行融合，得到融合特征向量序列；

表情系数预测模块，用于将所述融合特征向量序列输入预训练的表情预测模型，以得到第一人脸表情向量序列；

渲染模块，用于基于所述第一人脸表情向量序列和第二人脸表情向量序列进行渲染，以得到渲染人脸图像序列，其中，所述第二人脸表情向量序列是根据与所述语音特征向量序列时序对齐的原始人脸图像序列确定的；

人脸情绪图像生成模块，用于将所述渲染人脸图像序列和所述情绪特征向量输入预训练的图像映射模型，以生成人脸情绪图像序列；

在将所述融合特征向量序列输入预训练的表情预测模型之前，所述人脸情绪图像生成装置还执行：

11.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1至9任一项所述人脸情绪图像生成方法的步骤。

12.一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行权利要求1至9任一项所述人脸情绪图像生成方法的步骤。