CN113763519B

CN113763519B - 一种基于深度学习的语音驱动3d人物面部表情方法

Info

Publication number: CN113763519B
Application number: CN202111321780.6A
Authority: CN
Inventors: 赵锐; 候志迎; 李帆
Original assignee: Jiangsu Yuanli Digital Technology Co ltd
Current assignee: Jiangsu Yuanli Digital Technology Co ltd
Priority date: 2021-11-09
Filing date: 2021-11-09
Publication date: 2022-02-08
Anticipated expiration: 2041-11-09
Also published as: CN113763519A

Abstract

本发明提供一种基于深度学习的语音驱动3D人物面部表情方法，包括以下步骤：从制作好的动画中获取语音并提取语音特征以得到融合语音特征，将其与控制器参数对应起来构成训练数据；搭建深度学习网络模型，对语音特征从多个维度进行建模，得到抽象特征用于训练和回归预测，得到面部表情控制器参数；将融合语音特征输入上述模型中，通过实际输出与目标输出的均方误差，利用Adam优化器最小化误差，优化网络参数，得到最终模型；将语音特征经过处理后输入深度学习网络模型中，回归预测得到控制器参数，用输出的控制器参数驱动动画模型以生成面部表情动画，可以更快地得到更加稳定的动画出品，同时降低了人力和时间成本。

Description

一种基于深度学习的语音驱动3D人物面部表情方法

技术领域

本发明涉及动画制作技术领域，具体涉及一种基于深度学习的语音驱动3D人物面部表情方法。

背景技术

在现有的动画制作技术中，3D人物面部表情一般先由拍摄现场的面部捕捉技术捕捉到初步表情动画，再由制作人员制作，手动调整控制器参数值，最后得到最终面部表情动画。这个过程因为是人工参与的，所以需要耗费大量的时间和人力，而且由于制作人员的因素，最后的3D人物面部表情动画效果可能参差不齐。

申请号为CN202011413230.2的发明专利公开了一种基于深度学习框架的数字人面部表情动画自动迁移方法，使用神经网络学习不同模型之间动画控制器通道参数之间的映射关系，从而实现用已知模型动画去驱动另一模型动画的效果，但该技术依赖数字人表情模型输入的质量，需要作出多帧模型作为训练数据，前期准备则需要耗费时间和人力，同时对表情模型的要求也比较高。

发明内容

本发明的目的是提供一种基于深度学习的语音驱动3D人物面部表情方法，得到更加稳定的动画出品，同时降低了人力和时间成本。

本发明提供了如下的技术方案：

一种基于深度学习的语音驱动3D人物面部表情方法，包括以下步骤：

S1、从制作好的动画中获取每帧动画人物面部表情的控制参数及对应的语音，提取多种语音特征并进行拼接融合得到融合语音特征，将所述融合语音特征与控制器参数对应起来，共同构成训练数据；

S2、搭建深度学习网络模型，对所述语音特征从多个维度进行建模，得到抽象特征以用于训练和回归预测，得到面部表情控制器参数；

S3、模型训练，将步骤S1所述的融合语音特征输入至步骤S2所述的深度学习网络模型中获取实际输出，将语音特征对应的表情控制器参数作为网络的目标输出，获取实际输出与目标输出的均方误差，利用Adam优化器最小化误差，优化网络参数；

S4、根据步骤S3的步骤训练若干轮数，以得到最终模型；

S5、将一条语音特征经过特征提取和处理后输入所述深度学习网络模型中，回归预测得到一系列控制器参数，用输出的控制器参数驱动动画模型以生成面部表情动画。

优选的，步骤S2的所述深度学习网络模型包括

若干层CNN网络层，其每层均对融合语音特征在特征维度上进行卷积操作，以实现对特征的降维处理，得到抽象特征；

RNN层，其采用双向lstm网络，对所述CNN层提取出的特征做时间维度上的序列建模，得到特征向量；

全连接网络层，对所述特征向量进行回归预测，以得到面部表情控制器参数值。

优选的，步骤S3所述的均方误差的计算公式为：

MSELoss=

，

其中，Y为输入特征对应的控制器参数值，即目标输出；Z为输入特征输入所述深度学习网络模型中回归预测得到的控制参数，即实际输出；n为训练时样本大小；m为控制器参数维度，即最后的全连接网络层维度值。

优选的，所述CNN网络层为7层，所述RNN层为1层，所述全连接网络层为两层，所述全连接网络层包括一层隐藏层。

优选的，步骤S1所述的从制作好的动画中获取每帧动画人物面部表情的控制参数包括从制作好的maya动画中提取控制器参数。

优选的，步骤S1所述的语音特征包括fbank语音特征和mfcc语音特征，并通过deepspeech开源模型的中间特征和所述语音特征在特征维度上拼接融合，作为训练用的融合语音特征。

优选的，在进行模型训练时，采用前后q帧的语音特征用于当前帧的语音特征来训练数据，其中，q≥1。

优选的，步骤S5中，将模型预测得到的控制器参数值，通过maya或ue，使得每一组控制器参数对模型产生一次形变，连起来以得到3D人物面部表情动画。

本发明的有益效果是：

（1）本发明通过语音端推理得到对应的3D人物面部表情控制器，摆脱了人的因素，得到更加稳定的动画出品，同时降低了人力和时间成本；

（2）本发明将fbank特征和deepspeech深层特征拼接作为网络的输入，起到特征增强的作用，模型的泛化性能得到提升；

（3）本发明通过若干CNN层和RNN层对原始特征进行多个维度上的建模，并用最后的若干全连接层回归出控制器参数预测值，大大提高了模型预测的准确率，保证最后的3D人物面部表情动画效果的质量。

具体实施方式

实施例一

S1、从制作好的动画中获取每帧动画人物面部表情的控制参数及对应的语音，提取多种语音特征并进行拼接融合得到融合语音特征，将融合语音特征与控制器参数对应起来，共同构成训练数据；

S2、搭建深度学习网络模型，对语音特征从多个维度进行建模，得到抽象特征以用于训练和回归预测，得到面部表情控制器参数；

S3、模型训练，将步骤S1的融合语音特征输入至步骤S2的深度学习网络模型中获取实际输出，将语音特征对应的表情控制器参数作为网络的目标输出，获取实际输出与目标输出的均方误差，利用Adam优化器最小化误差，优化网络参数；

S4、根据步骤S3的步骤训练若干轮数，以得到最终模型；

S5、将一条语音特征经过特征提取和处理后输入深度学习网络模型中，回归预测得到一系列控制器参数，用输出的控制器参数驱动动画模型以生成面部表情动画。

本发明通过语音端推理得到对应的3D人物面部表情控制器，摆脱了人的因素，得到更加稳定的动画出品，同时降低了人力和时间成本。

实施例二

S1、从制作好的maya动画中获取每帧动画人物面部表情的控制参数及对应的语音，提取包括fbank语音特征和mfcc语音特征在内的多种语音特征，通过deepspeech开源模型的中间特征和语音特征在特征维度上拼接融合，将融合语音特征与控制器参数对应起来，共同构成训练数据，实验表明加入deepspeech特征后，模型的泛化性能得到提升；

S2、搭建深度学习网络模型，其架构包括：

RNN层，其采用双向lstm网络，对CNN层提取出的特征做时间维度上的序列建模，得到特征向量；

全连接网络层，全连接网络层包括一层隐藏层，对特征向量进行回归预测，以得到面部表情控制器参数值；

S3、模型训练，将步骤S1的融合语音特征输入至步骤S2的深度学习网络模型中获取实际输出，将语音特征对应的表情控制器参数作为网络的目标输出，获取实际输出与目标输出的均方误差，其计算公式为：

MSELoss=

，

其中，Y为输入特征对应的控制器参数值，即目标输出；Z为输入特征输入深度学习网络模型中回归预测得到的控制参数，即实际输出；n为训练时样本大小；m为控制器参数维度，即最后的全连接网络层维度值；

再利用Adam优化器最小化误差，优化网络参数；

S4、根据步骤S3的步骤训练若干轮数，以得到最终模型，具体的，在进行模型训练时，为了使最后结果更平滑，采用前后q帧的语音特征用于当前帧的语音特征来训练数据，其中，q≥1；

S5、将一条语音特征经过特征提取和处理后输入深度学习网络模型中，回归预测得到一系列控制器参数，将模型预测得到的控制器参数值，通过maya或ue，使得每一组控制器参数对模型产生一次形变，连起来以得到3D人物面部表情动画。

实施例三

一种基于深度学习的语音驱动3D人物面部表情方法如下：

第一步，从制作好的maya动画中获取每帧动画人物面部表情的控制参数及对应的语音，提取包括fbank语音特征和mfcc语音特征在内的多种语音特征，因为deepspeech分类层前的深层特征时间上的维度和这些特征维度相同，都是一秒50帧，本发明通过deepspeech开源模型的中间特征和语音特征在特征维度上拼接融合，将融合语音特征与控制器参数对应起来，共同构成训练数据，融合后的特征在特征维度上有109个值，实验表明加入deepspeech特征后，模型的泛化性能得到提升。

第二步，深度学习网络模型通过7层CNN层和一层RNN层对原始特征进行多个维度上的建模，并用最后的两层全连接层回归出控制器参数预测值。

CNN层每层在融合语音特征（特征大小为（1，20，109），20代表前后10帧的语音特征）的特征维度上进行卷积操作对特征进行降维，对109维的特征而言，第一层CNN将特征维度降维到55，并将卷积通道数上升为16，经过7层CNN后得到的特征维度为1，卷积通道数为256，经过CNN层后得到的特征大小为（256，20，1）。

RNN层对特征时序维度，即上述特征的20这个维度进行序列建模，这里所用的RNN为双向lstm，经过RNN层后得到的特征为512维的向量，这个向量不仅融合了特征维度上的特征信息，也在时序上对特征的重要性进行了建模。

全连接层对上述向量进行回归，包括一层隐藏层，维度为256，最后的全连接层维度为127，即回归预测得到控制器参数值。

深度学习网络模型也可根据特征维度，数据量或者其它因素对网络层数或者结构进行调整。

本模型对语音特征从多个维度进行建模，得到的抽象特征可以有效地用于训练和回归预测面部表情控制器参数。

第三步，将融合语音特征作为网络输入，将语音特征对应的表情控制器参数作为网络的目标输出，通过s2网络的实际输出和目标输出的均方误差（MSE），利用Adam优化器最小化误差，优化网络参数，训练若干轮数，即可得到最终的模型。

令输入特征为X，X是一个大小为（1，20，109）的向量，其对应的动画帧的控制器参数值为Y。

令上述深度学习网络模型为f，则经过f，我们可以得到模型回归预测得到的控制器参数Z。

MSELoss=

，n为训练时样本大小，m等于控制器参数维度127。

根据上述步骤训练若干轮数，以得到最终模型，具体的，在进行模型训练时，因为动画的帧数小于提取到语音特征的帧数，通过倍数值将语音特征和每帧动画对应起来，本发明得到的语音特征1s有50帧，则可以选择奇数或者偶数帧作为和动画对应的关键帧，同时为了使最后结果更平滑，采用前后q帧的语音特征用于当前帧的语音特征来训练数据，其中，q≥1。

第四步，将一条语音特征经过特征提取和处理后输入深度学习网络模型中，回归预测得到一系列控制器参数，将模型预测得到的控制器参数值，通过maya或ue，使得每一组控制器参数对模型产生一次形变，连起来以得到3D人物面部表情动画。

本发明通过语音端推理得到对应的3D人物面部表情控制器，摆脱了人的因素，得到更加稳定的动画出品，同时降低了人力和时间成本；

本发明将fbank特征和deepspeech深层特征拼接作为网络的输入，起到特征增强的作用，模型的泛化性能得到提升；

本发明通过若干CNN层和RNN层对原始特征进行多个维度上的建模，并用最后的若干全连接层回归出控制器参数预测值，大大提高了模型预测的准确率，保证最后的3D人物面部表情动画效果的质量。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的语音驱动3D人物面部表情方法，其特征在于，包括以下步骤：

S4、根据步骤S3的步骤训练若干轮数，以得到最终模型；

S5、将一条语音特征经过特征提取和处理后输入所述深度学习网络模型中，回归预测得到一系列控制器参数，用输出的控制器参数驱动动画模型以生成面部表情动画；

步骤S1所述的语音特征包括fbank语音特征和mfcc语音特征，并通过deepspeech开源模型的中间特征和所述语音特征在特征维度上拼接融合，作为训练用的融合语音特征；

步骤S2的所述深度学习网络模型包括

2.根据权利要求1所述的一种基于深度学习的语音驱动3D人物面部表情方法，其特征在于，步骤S3所述的均方误差的计算公式为：

，

3.根据权利要求1所述的一种基于深度学习的语音驱动3D人物面部表情方法，其特征在于，所述CNN网络层为7层，所述RNN层为1层，所述全连接网络层为两层，所述全连接网络层包括一层隐藏层。

4.根据权利要求1所述的一种基于深度学习的语音驱动3D人物面部表情方法，其特征在于，步骤S1所述的从制作好的动画中获取每帧动画人物面部表情的控制参数包括从制作好的maya动画中提取控制器参数。

5.根据权利要求1所述的一种基于深度学习的语音驱动3D人物面部表情方法，其特征在于，在进行模型训练时，采用前后q帧的语音特征用于当前帧的语音特征来训练数据，其中，q≥1。

6.根据权利要求1所述的一种基于深度学习的语音驱动3D人物面部表情方法，其特征在于，步骤S5中，将模型预测得到的控制器参数值，通过maya或ue，使得每一组控制器参数对模型产生一次形变，连起来以得到3D人物面部表情动画。