CN113378806B

CN113378806B - 一种融合情感编码的音频驱动人脸动画生成方法及系统

Info

Publication number: CN113378806B
Application number: CN202110934743.6A
Authority: CN
Inventors: 李太豪; 刘逸颖; 郑书凯; 刘昱龙; 马诗洁; 阮玉平
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-08-16
Filing date: 2021-08-16
Publication date: 2021-12-14
Anticipated expiration: 2041-08-16
Also published as: CN113378806A

Abstract

本发明属于人工智能领域，涉及一种融合情感编码的音频驱动人脸动画生成方法及系统，该方法为：首先对采集的音频信号进行预处理，提取MFCC特征后输入语音识别模块，进一步提取音频特征，同时将MFCC特征输入语音情感识别模块，得到情感类别并进行one‑hot编码，然后将音频特征和情感的one‑hot编码向量进行连接，输入表情识别模块得到基于3DMM模型的表情系数，最后将表情系数与人脸模板输入人脸动画生成模块，得到带表情的3D人脸动画。本发明方法计算量小，训练稳定，流程简单，成本低廉，能够极大的降低电影制作周期和成本，且充分考虑了语音传达的情感状态，对在网络中输入了情感编码，使得生成的人脸动画更加生动形象，能够给用户带来更优质的体验。

Description

一种融合情感编码的音频驱动人脸动画生成方法及系统

技术领域

本发明属于人工智能领域，具体涉及一种融合情感编码的音频驱动人脸动画生成方法及系统。

背景技术

近年来，随着人工智能的不断发展，跨模态学习和建模技术在计算机视觉、计算机图形学和多媒体等跨学科研究中引起了越来越多的关注。视觉和听觉模式是人人或人机互动中的两个重要的感觉通道。音频和人脸动画之前存在着很强的关联性，即许多面部动作是直接由语言产生引起的。因此，理解言语和面部运动之间的相关性能够为分析人类行为提供额外的帮助。音频驱动人脸动画技术有着十分广泛的应用场景，如虚拟主播、角色扮演类游戏、三维动画制作等。

现有的音频驱动人脸动画生成方法大多未考虑说话者的情感状态，导致预测的人脸动画虽然能够实现较高质量的唇部区域运动，但是人脸表情趋于木讷、呆滞，降低了人机交互的可理解性和认知度。抑或有的方法需要联合视频来预测表情，这大大增加了算法的复杂度。

天津大学申请的专利“一种语音驱动的三维人脸动画生成方法及网络结构”，申请号：202010387250.0，通过该方法实现了一种与说话者无关的以3D几何图形为导向的语音驱动面部动画网络，并引入非线性几何图形表示法和来自不同视角的两个约束条件，使得生成的3D面部表情更加生动形象。然而该方法未考虑不同情绪下说话状态的人脸表情，这就使得生成的虚拟人的表情木讷、呆滞，从而降低了人机交互的可理解性和认知度。

上海交通大学的申请的专利“联合语气词特征的视音频驱动人脸动画实现方法及系统”，申请号：CN202011484986.6，该申请利用语气词增强训练网络学习识别语气词特征，学习语气词特征与面部表情AU参数在语境中的深层的映射关系，对语音输入信息进行语气词特征的提取，进行表情增强AU参数的预测。然而，一方面，语气词并不能完全反应说话人的真实情感状态，另一方面，如果语句中不包含语气词，则该方法无法判断情感状态。此外，该方法需同时从视频中提取AU参数并与音频预测的AU参数进行加权，因此算法的复杂度较高。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提出了一种融合情感编码的音频驱动人脸动画生成方法及系统，对输入语音准确预测对应唇形的同时，能够结合情感状态，得到包含丰富表情的人脸动画，其具体技术方案如下：

一种融合情感编码的音频驱动人脸动画生成方法，包括以下步骤：

步骤1，采集音频信号，对音频信号进行预处理，提取MFCC特征；

步骤2，将MFCC特征输入语音识别模块，进一步提取音频特征；

步骤3，将MFCC特征输入语音情感识别模块，得到情感类别，并进行one-hot编码；

步骤4，将步骤2得到的音频特征和步骤3得到的情感的one-hot编码向量进行连接，输入表情识别模块，得到基于3DMM模型的表情系数；

步骤5，将表情系数与人脸模板输入人脸动画生成模块，得到带表情的3D人脸动画。

进一步的，所述步骤1具体为：设置采样率为16000Hz, 滑窗大小为0.02s, 滑窗步长为0.02s，提取的MFCC特征的帧率为50fps。

进一步的，所述步骤2具体为：所述语音识别模块输入MFCC特征，输出为字符的非标准化概率，即对于n帧音频输入，该模块输出为一个大小为n×D的向量，D为字母表字符数加上空白标签的字符数。

进一步的，所述步骤3具体为：所述得到的情感类别包括：中性、生气、厌恶、恐惧、高兴、伤心、惊讶，进行one-hot编码具体表示为：中性-1000000，生气-0100000，厌恶-0010000，恐惧-0001000，高兴-0000100，伤心-0000010，惊讶-0000001，即语音情感识别模块的输出为大小是n×7的向量。

进一步的，所述将步骤2得到的音频特征和步骤3得到的情感的one-hot编码向量进行连接后，得到的向量长度为n× (D+7)。

进一步的，所述表情识别模块的网络由两层LSTM和两个全连接层构成，即包含依次串联连接的第一LSTM层、第二LSTM层、第一全连接层和第二全连接层。

进一步的，所述表情识别模块的训练数据包含不同情感状态下的相同句子的音频数据及对应的3D人脸模型数据，其中，所述的情感状态包含：中性、生气、厌恶、恐惧、高兴、伤心、惊讶，并采用one-hot进行编码；所述的3D人脸模型数据可由3D扫描设备采集并绑定到3DMM模型的拓扑网格上，所有的人脸模型具有相同的顶点数，并且顶点之间具有相同的拓扑关系；或采用基于3DMM的人脸三维重建方法，通过输入的二维图像生成3D模型；采集的3D人脸模型数据的帧率与语音提取的特征的帧率保持一致；

所述表情识别模块的在训练过程中使用的损失函数包含距离损失和时间连续性损失，其表达式为：

其中，

为距离损失，

为时间连续性损失，

为权重，计算了3D模型的真实顶点位置和预测位置之间的均方误差：

，

计算了3D模型的真实的前后帧之间的顶点位移与预测的前后帧之间顶点位移之间的均方误差：

，

式中，

为真实3D人脸模型的顶点集，

为预测3D人脸模型的顶点集，N为顶点数，t表示当前帧，t-1表示上一时刻帧。

进一步的，所述步骤5具体为：将表情系数作为权重，与3DMM模型的表情PCA的分量相乘后，与人脸模板进行相加，得到的带表情的3D人脸动画模型，具体表达式为：

其中，

为第t帧预测的人脸模型的顶点集，T为人脸模板的顶点集，n_ param为表情系数的数量，

为第t帧的第i个表情系数，

为3DMM模型的表情PCA的第i个特征向量。

一种融合情感编码的音频驱动人脸动画生成系统，包括以下模块：

1）音频采集模块，采集音频信号；

2）音频预处理模块，对输入的原始音频信号提取MFCC特征；

3）语音识别模块，用于进一步从MFCC特征中提取音频广义特征；

4）语音情感识别模块，用于对语音进行情感分类，并得到情感的one-hot编码；

5）表情识别模块，对语音识别模块和语音情感识别模块的输出进行连接作为输入，预测基于3DMM的表情系数；

6）人脸动画生成模块，输入表情系数和人脸模板，得到3D人脸动画；

7）动画显示模块，将3D人脸模型渲染为2D图像，并通过显示设备播放。

本发明的优点：

1.本发明提出的加入情感编码的音频驱动人脸动画方法，充分考虑了语音传达的情感状态，对在网络中输入了情感编码，使得生成的人脸动画更加生动形象，能够给用户带来更优质的体验。

2.本发明的表情识别模块输出是表情系数，根据表情系数来驱动3DMM模型的表情，相比于专利“一种语音驱动的三维人脸动画生成方法及网络结构”输出整个3D模型的顶点，本方法的参数量更少，训练更稳定。

3.本发明的方法只需输入语音即可预测生动的人脸表情，计算量小，运行速度快，相比于传统电影采用的人脸动作捕捉系统进行动画特效制作，流程更加简单，成本更加低廉，能够极大的降低电影制作周期和成本。

附图说明

图1为本发明的融合情感编码的音频驱动人脸动画生成方法的流程示意图；

图2为本发明的融合情感编码的音频驱动人脸动画生成系统的结构示意图；

图3为本发明的表情识别模块的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图，对本发明作进一步详细说明。

如图1所示，一种融合情感编码的音频驱动人脸动画生成方法，包括以下步骤：

步骤1：对音频信号进行预处理，计算MFCC特征；

本实施例中，设置采样率为16000Hz, 滑窗大小为0.02s, 滑窗步长为0.02s，因此提取的MFCC特征的帧率为50fps。

步骤2：将MFCC特征输入语音识别模块，进一步提取音频特征；

由于本发明的目标是针对任意音频进行表情估计，因此提取一个广义的音频特征，首先使用语音识别模块对该音频进行特征提取，所述语音识别模块在庞大的音频数据集上进行训练，并具备足够的泛化能力。

语音识别模块输出结果输出为字符的非标准化概率，即对于n帧音频输入，该模块网络输出为一个大小为n×D的向量，D为字母表字符数加上空白标签的字符数。

本实施例中，采用了DeepSpeech作为语音识别网络，并使用其提供的英文识别预训练网络模型作为语音识别模块，该模型在大型的语音识别数据集上训练，具有很好的泛化能力。模型的字母表长度为29，因此对于n帧输入，输出长度为n×29的向量。

可选地，如果目标为实现中文的音频驱动人脸动画，则可使用DeepSpeech的中文识别网络模型，其输出为UTF-8字节值的概率，因此对于n帧输入，输出长度为n×256的向量。

情感类别包含中性、生气、厌恶、恐惧、高兴、伤心、惊讶七类，并进行one-hot编码：中性-1000000，生气-0100000，厌恶-0010000，恐惧-0001000，高兴-0000100，伤心-0000010，惊讶-0000001。因此对于n帧输入，语音情感识别模块的输出为大小为n×7的向量。

本实施例中，语音情感识别模块采用论文“Emotion Recognition from Speech，Venkataramanan K etc，2019”提出的方法作为语音情感识别网络。可选地，也可采用其他方法或者自己搭建神经网络对语音情感进行分类识别。

步骤4，将步骤2得到的音频特征和步骤3得到的情感的one-hot编码向量结果进行连接，输入表情识别模块，得到基于3DMM表情系数；

具体的，将第2、3步骤输出的结果连接后得到的大小为 n×(D+7) 的向量，其中n为输入音频的帧数，并输入表情识别模块。

如图3所示为表情识别模块的网络结构，包含第一LSTM层，第二LSTM层，第一全连接层，第二全连接层，它们依次串联。

在本实施例中，根据DeepSpeech的英文识别模型的输出向量长度为29，表情类别为7，因此设置第一LSTM的输入向量纬度为36。此外设置第一LSTM隐藏层纬度、第二LSTM输入向量纬度、第二LSTM输入向量纬度为256，设置第一全连接层神经元数量为128，第二全连接层神经元数量为50。因此最后输出的表情系数长度为50维。

此外，为了训练表情识别模块的网络，需采集训练数据，训练数据包含若干演员分别在不同情感状态下说相同的句子的音频及对应的3D人脸模型，并满足以下要求：

（1）所述的情感状态包含：中性、生气、厌恶、恐惧、高兴、伤心、惊讶，并采用one-hot对其编码；

（2）所述的3D人脸数据可由3D扫描设备采集并绑定到3DMM模型的拓扑网格上，所有的人脸模型具有相同的顶点数，并且顶点之间具有相同的拓扑关系；或采用基于3DMM的人脸三维重建方法，通过输入的二维图像生成3D模型；采集的3D人脸数据的帧率与语音提取的特征的帧率保持一致，为50帧/秒。

（3）所述的句子需保证多样性，尽可能覆盖该语种的所有发音。

本实施例中，采集了12个演员，分别以性、生气、厌恶、恐惧、高兴、伤心、惊讶七中情感读100个3-5s长的具有，并录制视频和音频，并令帧率为50fps。对于视频的每一帧，我们采用论文“DECA: Detailed Expression Capture and Animation”提出的基于3DMM方法进行人脸三维重建，得到每一帧的3D模型，该3D模型的拓扑网格采用的是开源的3DMM模型——FLAM的网格。

可选地，还可采用高精度的三维面部动作捕捉系统如3DMD等设备直接采集3D人脸模型，并绑定到3DMM模型的拓扑网格上。可选地，开源的3DMM模型有FLAM、Basel FaceModel（BFM）、Surrey Face Model（SFM）、FaceWarehouse、Large Scale Facial Model(LSFM)等。这种方式相比于利用算法采集计算得到的3D模型精度更高。

本实施例将以上数据集以8：2：2的比例分为训练集、验证集以及测试集。训练过程中使用的损失函数包含距离损失和时间连续性损失，其表达式为：

，

其中，

为距离损失，

为时间连续性损失，

，

，

式中，

为真实3D人脸模型的顶点集，

在本实施例中，表情识别模块输出的表情系数为50个，将其作为权重，与3DMM模型的表情PCA的前50个分量相乘后，与人脸模板进行相加，得到带表情的3D人脸动画模型，可用表达式描述为：

其中，

为第t帧的第i个表情系数，

为3DMM模型的表情PCA的第i个特征向量。

如图2所示，一种融合情感编码的音频驱动人脸动画生成系统，包括以下模块：

1）音频采集模块，采集音频信号；

2）音频预处理模块，对输入的原始音频信号提取MFCC特征；

以上所述，仅为本发明的优选实施案例，并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明，对于熟悉本领域的人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等，均应包含在本发明的保护范围之内。

Claims

1.一种融合情感编码的音频驱动人脸动画生成方法，其特征在于，包括以下步骤：

所述表情识别模块的训练数据包含不同情感状态下的相同句子的音频数据及对应的3D人脸模型数据，其中，所述的情感状态包含：中性、生气、厌恶、恐惧、高兴、伤心、惊讶，并采用one-hot进行编码；所述的3D人脸模型数据可由3D扫描设备采集并绑定到3DMM模型的拓扑网格上，所有的人脸模型具有相同的顶点数，并且顶点之间具有相同的拓扑关系；或采用基于3DMM的人脸三维重建方法，通过输入的二维图像生成3D模型；采集的3D人脸模型数据的帧率与语音提取的特征的帧率保持一致；

其中，

为距离损失，

为时间连续性损失，

，

，

式中，

为真实3D人脸模型的顶点集，

为预测3D人脸模型的顶点集，N为顶点数，t表示当前帧，t-1表示上一时刻帧；

2.如权利要求1所述的一种融合情感编码的音频驱动人脸动画生成方法，其特征在于，所述步骤1具体为：设置采样率为16000Hz, 滑窗大小为0.02s, 滑窗步长为0.02s，提取的MFCC特征的帧率为50fps。

3.如权利要求1所述的一种融合情感编码的音频驱动人脸动画生成方法，其特征在于，所述步骤2具体为：所述语音识别模块输入MFCC特征，输出为字符的非标准化概率，即对于n帧音频输入，该模块输出为一个大小为n×D的向量，D为字母表字符数加上空白标签的字符数。

4.如权利要求3所述的一种融合情感编码的音频驱动人脸动画生成方法，其特征在于，所述步骤3具体为：所述得到的情感类别包括：中性、生气、厌恶、恐惧、高兴、伤心、惊讶，进行one-hot编码具体表示为：中性-1000000，生气-0100000，厌恶-0010000，恐惧-0001000，高兴-0000100，伤心-0000010，惊讶-0000001，即语音情感识别模块的输出为大小是n×7的向量。

5.如权利要求4所述的一种融合情感编码的音频驱动人脸动画生成方法，其特征在于，所述将步骤2得到的音频特征和步骤3得到的情感的one-hot编码向量进行连接后，得到的向量长度为n× (D+7)。

6.如权利要求1所述的一种融合情感编码的音频驱动人脸动画生成方法，其特征在于，所述表情识别模块由两层LSTM和两个全连接层构成，即包含依次串联连接的第一LSTM层、第二LSTM层、第一全连接层和第二全连接层。

7.如权利要求1所述的一种融合情感编码的音频驱动人脸动画生成方法，其特征在于，所述步骤5具体为：将表情系数作为权重，与3DMM模型的表情PCA的分量相乘后，与人脸模板进行相加，得到的带表情的3D人脸动画模型，具体表达式为：

其中，

为第t帧预测的人脸模型的顶点集，T为人脸模板的顶点集，n_param为表情系数的数量，

为第t帧的第i个表情系数，

为3DMM模型的表情PCA的第i个特征向量。

8.一种融合情感编码的音频驱动人脸动画生成系统，其特征在于，包括以下模块：

1）音频采集模块，采集音频信号；

2）音频预处理模块，对输入的原始音频信号提取MFCC特征；

5）表情识别模块，对语音识别模块和语音情感识别模块的输出进行连接作为输入，预测基于3DMM的表情系数；所述表情识别模块的训练数据包含不同情感状态下的相同句子的音频数据及对应的3D人脸模型数据，其中，所述的情感状态包含：中性、生气、厌恶、恐惧、高兴、伤心、惊讶，并采用one-hot进行编码；所述的3D人脸模型数据可由3D扫描设备采集并绑定到3DMM模型的拓扑网格上，所有的人脸模型具有相同的顶点数，并且顶点之间具有相同的拓扑关系；或采用基于3DMM的人脸三维重建方法，通过输入的二维图像生成3D模型；采集的3D人脸模型数据的帧率与语音提取的特征的帧率保持一致；

其中，

为距离损失，

为时间连续性损失，

，

，

式中，

为真实3D人脸模型的顶点集，

6）人脸动画生成模块，输入表情系数和人脸模板得到3D人脸动画；