CN116403144A

CN116403144A - 基于音频特征分离情感并驱动人脸动画合成方法及系统

Info

Publication number: CN116403144A
Application number: CN202310401054.8A
Authority: CN
Inventors: 蔡敏捷; 任新
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2023-04-14
Filing date: 2023-04-14
Publication date: 2023-07-07

Abstract

本发明涉及一种基于音频特征分离情感并驱动人脸动画合成方法及系统，包括步骤：S1、给定需动画合成的一段语音音频和一段动态的参考面部图像；S2、从语音音频结合参考面部图像提取音频特征，从参考面部图像中提取面部标志点；S3、从提取的音频特征中进行内容信息、身份信息和情感信息的分离；S4、通过神经网络结合音频特征的内容信息、身份信息、情感信息和面部标志点获得预测图像的标志点坐标；S5、根据预测图像的标志点坐标构造标志点图；S6、将标志点图与参考面部图像中的图像叠加，利用生成网络生成脸部图像。本发明根据讲话内容、情感部分和身分特征对参考面部图像的脸部表情进行控制，更细粒度地合成人脸动画视频。

Description

基于音频特征分离情感并驱动人脸动画合成方法及系统

技术领域

本发明涉及图像处理以及图像合成的技术领域，特别是涉及一种基于音频特征分离情感并驱动人脸动画合成方法及系统。

背景技术

音频驱动的人脸动画合成问题是计算机视觉领域的一个热门问题，这个问题可以被描述为，给定一副人脸参考图像和一段人的谈话音频，来生成这段音频所对应参考图像中人脸在谈话时的动画。

近年来，出现多种音频驱动的人脸动画合成的方法，这些方法主要利用神经网络对音频中的特征进行提取，然后将音频特征转换为某种中间表示，再将中间表示与参考图像以某种方式进行叠加，通过生成网络生成音频所对应的视频，生成的视频在真实性和准确性上取得了较好的提升。然而，在实际的谈话过程中，由于情感的影响，尽管谈论的内容本身相同，但音频中的音调等特征并不完全相同，因此，如何从谈话音频中将音频的情感部分进行分离，并根据分离的情感部分对生成视频的脸部表情进行控制，来合成更加真实准确的人脸动画视频是业内亟待解决的问题。

发明内容

为解决上述技术问题中的至少之一，本发明提出一种基于音频特征分离情感并驱动人脸动画合成方法。

本发明的目的通过以下技术方案实现：

本发明提供了一种基于音频特征分离情感并驱动人脸动画合成方法，包括如下步骤：

S1、给定需动画合成的一段语音音频和一段动态的参考面部图像；

S2、从语音音频中提取音频特征，从参考面部图像中提取面部标志点；

S3、从提取的音频特征结合参考面部图像进行内容信息、身份信息和情感信息的分离；

S4、通过神经网络结合音频特征的内容信息、身份信息、情感信息和面部标志点获得预测图像的标志点坐标；

S5、根据预测图像的标志点坐标构造标志点图；

S6、将标志点图与参考面部图像中的图像叠加，利用生成网络生成合成后的脸部图像。

作为进一步的改进，所述步骤S2中，从语音音频中提取音频特征，首先对语音音频进行预处理，并对预处理后的语音音频进行提取后获得音频特征的音频帧数以及每帧音频特征的维度。

作为进一步的改进，所述步骤S2中，从参考面部图像中提取面部标志点，包括如下步骤：

S21、从参考面部图像中提取所有三维面部标志点坐标；

S22、对所有三维面部标志点坐标计算坐标平均值；

S23、采用迭代最近点算法将每个三维面部标志点坐标与坐标平均值对齐；

S24、通过正交投影将三维面部标志点投影到图像空间上。

作为进一步的改进，所述步骤S3中，从提取的音频特征结合参考面部图像进行内容信息、身份信息和情感信息的分离，包括如下步骤：

S31、使用神经网络对音频特征进行编码；

S32、使用长短期记忆网络捕获音频特征的时序信息获得包含内容特征嵌入的内容信息；

S33、使用两个神经网络分别将音频特征转换为情感特征嵌入和身份特征嵌入；

S34、通过对比学习的方式结合参考面部图像训练长短期记忆网络和神经网络，以分离出包含情感特征嵌入的情感信息和包含身份特征嵌入的身份信息；

S35、将包含情感特征嵌入的情感信息和包含身份特征嵌入的身份信息输入自注意力编码器获得包含风格特征嵌入的风格信息。

作为进一步的改进，所述步骤S34中，通过对比学习的方式结合参考面部图像分离出包含情感特征嵌入的情感信息和包含身份特征嵌入的身份信息，包括如下步骤：

S341、从参考面部图像中分别选取第一视频片段和第二视频片段，再选取一段与参考面部图像中同一讲话者的视频片段作为第三视频片段；

S342、将三个视频片段在对比学习模型中进行对比学习，根据第一视频片段的情感特征嵌入和第二视频片段的情感特征嵌入分离出包含情感特征嵌入的情感信息；

S343、由表情预测网络预测三个视频片段中表情的softmax概率；

S344、根据第一视频片段的身份特征嵌入和第三视频片段的身份特征嵌入分离出包含身份特征嵌入的身份信息。

作为进一步的改进，所述步骤S342中，对比学习的情感损失公式如下：

其中，

表示情感损失函数，λ_r，s是预测的第一视频片段和第二视频片段表情的softmax概率之间的余弦相似度，d_r，s表示第一个视频片段的情感特征嵌入和第二个视频片段的情感特征嵌入之间平均绝对误差，λ_r，p预测的第一视频片段和第三视频片段表情的softmax概率之间的余弦相似度，d_r，p是第一个视频片段的情感特征嵌入和第三个视频片段的情感特征嵌入之间平均绝对误差。

作为进一步的改进，所述步骤S343中，根据第一视频片段的身份特征嵌入和第三视频片段的身份特征嵌入分离出包含身份特征嵌入的身份信息，对比学习的身份损失公式如下：

其中，

表示身份损失函数，/>

表示第一视频片段的身份特征嵌入，/>

表示第三视频片段的身份特征嵌入。

作为进一步的改进，所述步骤S4中，通过神经网络结合音频特征的内容信息、身份信息、情感信息和面部标志点获得预测图像的标志点坐标，具体包括如下步骤：

S41、将包含内容特征嵌入的内容信息输入神经网络获得内容标志点坐标偏移量；

S42、将包含情感特征嵌入的情感信息和包含风格特征嵌入的风格信息输入神经网络获得风格标志点坐标偏移量；

S43、将内容标志点坐标偏移量、风格标志点坐标偏移量与参考面部图像中提取的面部标志点相加，得到预测图像的标志点坐标。

作为进一步的改进，所述步骤S6中，利用生成网络生成合成的脸部图像后，对比合成脸部图像和真实脸部图像之间像素值的差异，图像损失函数如下：

其中，

表示图像损失函数，Is表示真实脸部图像，It表示合成脸部图像。

本发明提供的基于音频特征分离情感并驱动人脸动画合成方法，包括步骤：S 1、给定需动画合成的一段语音音频和一段动态的参考面部图像；S2、从语音音频中提取音频特征，从参考面部图像中提取面部标志点；S3、从提取的音频特征结合参考面部图像进行内容信息、身份信息和情感信息的分离；S4、通过神经网络结合音频特征的内容信息、身份信息、情感信息和面部标志点获得预测图像的标志点坐标；S5、根据预测图像的标志点坐标构造标志点图；S6、将标志点图与参考面部图像中的图像叠加，利用生成网络生成合成后的脸部图像。本发明显式地将语音音频中音频特征的讲话内容、情感部分、讲话者的身分特点进行分离，根据分离的情感部分特征显式地对参考面部图像的脸部表情进行控制，更细粒度地合成真实准确的人脸动画视频。

本发明还提供一种人脸动画合成系统，包括上述所述的基于音频特征分离情感并驱动人脸动画合成方法的任一项改进，由于采用了上述技术内容，其应当具有相同或相应的技术效果，因此不再进行赘述。

附图说明

图1为本发明的流程示意图；

图2为本发明的架构示意图；

图3A为本发明实施例第一个定性实验的示意图；

图3B为本发明实施例第二个定性实验的示意图。

具体实施方式

为了使本领域的技术人员更好地理解本发明的技术方案，下面结合附图和具体实施例对本发明作进一步详细的描述，需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

结合图1和图2所示，本发明实施例提供一种基于音频特征分离情感并驱动人脸动画合成方法，包括如下步骤：

S2、从语音音频中提取音频特征，首先对语音音频进行预处理，并对预处理后的语音音频进行提取后获得音频特征

其中，T为音频帧数，以20ms为间隔，步长为20ms进行音频帧划分，D为每帧音频特征的维度。

对语音音频进行预处理包括预加重、分帧和加窗等。预加重：因语音音频在经过声门激励和口鼻辐射影响时，其功率会有大幅度的衰减，而且语音音频的频谱中高频对应的能量较小、低频对应的能量较大，而未经处理的语音音频的高频部分更加难求，预加重的目的是为了提高高频部分，使得语音音频的频谱变得平坦，进而在整个频带内可以用相同的信噪比求得频谱，便于频谱分析，预加重可选但不限定采用一阶高通滤波器。分帧：语音信号一般情况都是非平稳的，分帧处理的目的是使得信号在帧内处于平稳状态便于后续处理，在分帧处理时，为了使得帧与帧之间过渡平滑，前一帧与后一帧之间会有重叠的部分。加窗：语音信号处理中可选但不仅限窗为矩形窗和汉明窗。

从参考面部图像中提取面部标志点，因参考面部图像中的头部姿势通常是动态的，为避免头部位姿的变化影响到面部标志点的位置。便于学习音频特征和面部标志点之间的稳定映射，通过将参考面部图像中的面部对齐成一致的头部姿势来消除头部姿势的影响，包括如下步骤：

S21、从参考面部图像中提取所有三维面部标志点坐标

S22、对所有三维面部标志点坐标计算坐标平均值；

S23、采用迭代最近点(Iterative Closest Point，ICP)算法将每个三维面部标志点坐标与坐标平均值对齐，采用迭代优化的思想以空间距离作为匹配点的选择依据，通过不断调整每个三维面部标志点坐标的位姿使得与坐标平均值之间距离累计最小；

S24、通过正交投影将三维面部标志点投影到图像空间上。

S3、从提取的音频特征结合参考面部图像进行内容信息、身份信息和情感信息的分离，包括如下步骤：

S31、使用神经网络(Multilayer Perceptron，MLP)对音频特征进行编码，MLP全连接神经网络是一种前向结构的神经网络，映射一组输入向量到一组输出向量。

S32、使用长短期记忆网络(Long Short-Term Memory，LSTM)捕获语音音频提取的音频特征时序信息并获得包含内容特征嵌入

的内容信息。特征嵌入是将数据转换为固定大小的特征表示，以便于处理和计算。LSTM长短期记忆网络属于神经网络的一种，是一种时间循环神经网络，用于处理和预测语音音频时间序列中间隔和延迟非常长的重要事件，内容特征嵌入涉及的公式如下：

E_content＝LSTM(MLP_c(F_a))

其中，E_content表示语音音频的内容特征嵌入，_MLP_c表示用于获得内容特征嵌入的内容编码器，F_a表示语音音频的音频特征。

S33、使用两个神经网络分别将音频特征转换为情感特征嵌入

和身份特征嵌入/>

情感特征嵌入和身份特征嵌入涉及的公式如下：

E_emotion＝MLP_e(F_a)

E_identity＝MLP_i(F_a)

其中，E_emotion表示语音音频的情感特征嵌入，E_identity表示语音音频的身份特征嵌入，MLP_e表示用于获得情感特征嵌入的风格编码器，MLP_i表示用于获得身份特征嵌入的风格编码器。

S34、通过对比学习的方式结合参考面部图像训练长短期记忆网络和神经网络，分离出包含情感特征嵌入的情感信息和包含身份特征嵌入的身份信息，包括如下步骤：

S341、从参考面部图像中分别选取第一视频片段V_r和第二视频片段V_s，再选取一段与参考面部图像中同一讲话者的视频片段作为第三视频片段V_p，第三视频片段V_p可选但不仅限从参考面部图像中选取，还可从同一讲话者的其它视频片段中选取，使用V_r和V_p分离身份特征嵌入；

S342、将三个视频片段在对比学习模型中进行对比学习，为了分离情感特征嵌入，我们使用V_r、V_s和V_p分离情感特征嵌入，并构造情感对比损失。假定同一视频的不同视频剪辑片段中的情绪状态比不同视频中的情绪状态更为相似，因此，V_r和V_s的情绪特征嵌入

和/>

相较于V_r和V_p的情绪特征嵌入/>

和/>

有更大的相似度，根据第一视频片段V_r的情感特征嵌入和第二视频片段V_s的情感特征嵌入分离出包含情感特征嵌入的情感信息。

S343、为了给情感对比损失添加合适的权重，由预训练的表情预测网络预测三个视频片段中表情的softmax概率，并记作e_r、e_s和e_p，Softmax函数作为神经网络的最后一层，接受来自上一层网络的输入值，然后将其转化为概率，情感损失函数如下：

其中，

S344、根据第一视频片段的身份特征嵌入和第三视频片段的身份特征嵌入分离出包含身份特征嵌入的身份信息，使第一视频片段V_r的身份特征嵌入和第三视频片段V_p的身份特征嵌入尽可能相同，涉及身份损失函数公式如下：

其中，

表示身份损失函数，/>

表示第一视频片段的身份特征嵌入，

表示第三视频片段的身份特征嵌入。

S35、将包含情感特征嵌入的情感信息和包含身份特征嵌入输入的身份信息输入自注意力编码器获得包含风格特征嵌入

的风格信息。因情感信息和身份信息具有较长的时间依赖性，自注意力编码器是为了捕获包含情感特征嵌入的情感信息和包含身份特征嵌入的身份信息两者内部的依赖关系。语音音频中涉及讲话者的瞬时情绪和讲话者本身身份的声音特征，这些特征影响到谈话风格，从而影响讲话者面部表情，因此使用风格编码器将谈话风格与语音音频分离，风格编码器包括用于情感特征嵌入的MLP_e、用于身份特征嵌入的MLP_i和用于风格特征嵌入的MLP_s。风格特征嵌入涉及的公式如下：

E_style＝Attn(E_emotion，E_identity)

其中，E_style表示语音音频的风格特征嵌入，Attn表示通过自注意力编码器获得风格特征嵌入的合并函数。

S4、使用脸部标志点作为语音音频到参考面部图像的中间表示，通过神经网络结合语音音频的内容信息、身份信息、情感信息和面部标志点获得预测图像的标志点坐标，具体包括如下步骤：

S41、将包含内容特征嵌入的内容信息输入神经网络获得内容标志点坐标偏移量

涉及公式如下：

D_content＝MLP_t(E_content)

其中，D_content表示内容标志点坐标偏移量，MLP_t表示用于获得内容标志点坐标偏移量的内容编码器。

S42、将包含情感特征嵌入的情感信息和包含风格特征嵌入的风格信息输入神经网络获得风格标志点坐标偏移量

涉及公式如下：

D_style＝MLP_s(Concat(E_content，E_style))

其中，D_style表示风格标志点坐标偏移量，MLP_s表示用于获得风格标志点坐标偏移量的风格编码器，Concat表示将E_content和E_style连接的函数。

S43、将内容标志点坐标偏移量、风格标志点坐标偏移量与参考面部图像中提取的面部标志点

相加，得到预测图像的标志点坐标/>

涉及公式如下：

L_p＝L₀+D_content+D_style

对于预测图像的标志点坐标预测，目标是令预测的标志点坐标尽可能地与参考面部图像中的脸部标志点坐标一致，为此，我们定义标志点损失函数

为标志点坐标的预测值L_predict(L_p)和真实值L_v之间的绝对误差，可形式化表示为：

S5、根据预测图像的标志点坐标通过图像到图像变换模型构造标志点图

图像到图像变换遍历标志点图并定位可行的输入语义点，使标志点图由预测图像的标志点之间按语义的连线构成。

S6、将标志点图与参考面部图像中的参考图像

叠加，利用生成网络(U-Net)生成合成后的脸部图像/>

对比合成后的脸部图像和真实脸部图像之间像素值的差异，并以此作为损失函数如下：

其中，

表示图像损失函数，I_s表示真实脸部图像，I_t表示合成脸部图像。

本发明实施例显式地将语音音频中音频特征的讲话内容、情感部分、讲话者的身分特点进行分离，根据分离的情感部分特征显式地对参考面部图像的脸部表情进行控制，更细粒度地合成真实准确的人脸动画视频。

本发明实施例还提供一种人脸动画合成系统，人脸动画合成系统包括上述基于音频特征分离情感并驱动人脸动画合成方法的任一项优选实施方式，以及优选实施方式在不冲突的情况下的组合，其应当具有基于音频特征分离情感并驱动人脸动画合成方法相同或相应的技术作用和有益效果，此处不再赘述。

本实施例的实验结果如下：

数据集：

为了评估本方法的有效性，基于以下公共数据集上进行实验。

人类语音的大规模视听数据集(VoxCeleb2)：该数据集包含来自不同种族、口音、职业和年龄的演讲者的演讲。视频从YouTube上下载并剪辑，视频包含6112位名人的100多万次演讲。视频中的人脸存在着姿势等方面的变化，并且环境中也存在着背景聊天、笑声和照明条件变化等噪声。

实现细节：

MLP和LSTM的网络架构如表1所示，在每个MLP的隐藏层之后使用激活函数(LeakyReLU)和批标准化(Batch Normal)。对于LSTM，我们使用0.2的丢弃法(dropout)防止神经网络过拟合。

表1

对模型进行训练：首先利用损失函数

训练内容编码器MLP_c，LSTM和MLP_t；然后利用损失函数/>

和/>

训练风格编码器MLP_e、MLP_i、自注意力编码器和MLP_s；最后利用损失函数/>

训练脸部图像生成部分。

使用开源的深度学习框架PyTorch来实现模型，在训练的过程中使用自适应矩估计(Adam)优化器，学习率设置为1e-5，整个模型在图形处理器Nvidia 3090GPU上训练近60个小时。

定量比较：

使用标志点距离(Landmark distance，LMD)和表情相似度(Emotion Similar，ES)作为评价指标，其中LMD为真实脸部图像和合成脸部图像的脸部68个标志点的欧氏距离，该指标用于评价合成脸部图像的脸部结构是否与真实脸部图像接近，ES为真实脸部图像的表情向量和合成脸部图像的表情向量的余弦相似度，其中表情向量通过预训练网络获取，该评价指标用于评价合成脸部图像的表情信息是否与真实脸部图像相似。如下表2所示，结果表明，在V_oxC_el_eb2数据集上，本发明采用的方法在LMD和ES两个指标上取得了最佳性能。另外，表中的消融实验表明，完整方案显著优于没有

的基线模型，证明了风格编码器对比学习的有效性。通过比较这两种基线，可以看出，尽管样式部分的使用提高了性能，但如果没有对比学习，其优势就无法得到充分利用。

表2

表2中，MakeItTalk是一个新的深度学习为基础的架构，能够识别面部标志、下巴、头部姿势、眉毛和鼻子，并且能够通过声音的刺激使嘴唇发生变化。姿态可控的视听系统(Pose-Controllable Audio-Visual System，PC-AVS)在特征学习和图像重建的框架下，实现了对人头pose的自由控制。

定性分析：

为了分析本发明实施例学习到的情感空间，进行了如下两个定性实验。

第一个定性实验：使用训练的模型来获得所有训练视频的情感特征嵌入。然后对这些情感特征嵌入进行主成分分析，并使用第一主成分对不同的情感特征嵌入进行采样。用相同的音频合成了三个视频，如图3A所示，其中第二行的视频片段和第三行的视频片段是通过沿第一主分量增加提取的情感特征嵌入值来合成的。三行视频片段的面部表情从庄严到激动的情感变化平稳，嘴唇动作逐渐夸张。

第二个定性实验：本发明实施例可视化了三个视频中上唇和下唇之间的距离曲线。如图3B所示，图中Frame Number表示框架编号，LIP distance表示基于特定任务的方法。不同的曲线显示出相似的变化趋势，同时不同视频之间的唇距差异很大，结果表明，本发明实施例可以在保持语音音频和面部表情一致性的同时学习音频多样化的谈话风格。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于音频特征分离情感并驱动人脸动画合成方法，其特征在于，包括如下步骤：

S5、根据预测图像的标志点坐标构造标志点图；

2.根据权利要求1所述的基于音频特征分离情感并驱动人脸动画合成方法，其特征在于，所述步骤S2中，从语音音频中提取音频特征，首先对语音音频进行预处理，并对预处理后的语音音频进行提取后获得音频特征的音频帧数以及每帧音频特征的维度。

3.根据权利要求1所述的基于音频特征分离情感并驱动人脸动画合成方法，其特征在于，所述步骤S2中，从参考面部图像中提取面部标志点，包括如下步骤：

S21、从参考面部图像中提取所有三维面部标志点坐标；

S22、对所有三维面部标志点坐标计算坐标平均值；

S24、通过正交投影将三维面部标志点投影到图像空间上。

4.根据权利要求1所述的基于音频特征分离情感并驱动人脸动画合成方法，其特征在于，所述步骤S3中，从提取的音频特征结合参考面部图像进行内容信息、身份信息和情感信息的分离，包括如下步骤：

S31、使用神经网络对音频特征进行编码；

5.根据权利要求4所述的基于音频特征分离情感并驱动人脸动画合成方法，其特征在于，所述步骤S34中，通过对比学习的方式结合参考面部图像分离出包含情感特征嵌入的情感信息和包含身份特征嵌入的身份信息，包括如下步骤：

6.根据权利要求5所述的基于音频特征分离情感并驱动人脸动画合成方法，其特征在于，所述步骤S342中，对比学习的情感损失公式如下：

其中，

7.根据权利要求6所述的基于音频特征分离情感并驱动人脸动画合成方法，其特征在于，所述步骤S343中，根据第一视频片段的身份特征嵌入和第三视频片段的身份特征嵌入分离出包含身份特征嵌入的身份信息，对比学习的身份损失公式如下：

其中，

表示身份损失函数，/>

表示第一视频片段的身份特征嵌入，

表示第三视频片段的身份特征嵌入。

8.根据权利要求7所述的基于音频特征分离情感并驱动人脸动画合成方法，其特征在于，所述步骤S4中，通过神经网络结合音频特征的内容信息、身份信息、情感信息和面部标志点获得预测图像的标志点坐标，具体包括如下步骤：

9.根据权利要求1所述的基于音频特征分离情感并驱动人脸动画合成方法，其特征在于，所述步骤S6中，利用生成网络生成合成的脸部图像后，对比合成脸部图像和真实脸部图像之间像素值的差异，图像损失函数如下：

其中，

10.一种人脸动画合成系统，其特征在于，包括如权利要求1至9中任一项所述的基于音频特征分离情感并驱动人脸动画合成方法。