CN113160366A

CN113160366A - 一种3d人脸动画合成方法及系统

Info

Publication number: CN113160366A
Application number: CN202110302138.7A
Authority: CN
Inventors: 于灵云
Original assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Current assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2021-07-23

Abstract

本发明公开了一种3D人脸动画合成方法及系统，属于人工智能技术领域，包括：采集用户语音的音频特征和文本的韵律特征；将音频特征和韵律特征作为预先训练好的轨迹预测网络的输入，得到该用户对应的发音器官运动轨迹；利用用户的发音器官运动轨迹驱动3D头部网络模型实现唇音同步的3D人脸动画合成。本发明采用发音器官的运动轨迹作为3D人脸模型动画参数，通过运动轨迹驱动3D人脸模型实现唇音同步的人脸动画，大大减少了计算量。

Description

一种3D人脸动画合成方法及系统

技术领域

本发明涉及人工智能技术领域，特别涉及一种3D人脸动画合成方法及系统。

背景技术

与单独的语音相比，唇音同步的语音动画能够增强在噪音情况下语音的理解性，更好地吸引用户的注意力，从而更好地实现人机交互。然而，合成唇音同步的语音动画，关键的问题是实现语音特征到视觉特征的转换(audio-to-visual conversion)。对于传统视素的方法，需要为每一个音素建立相应的视素。合成动画时，直接将音素映射到视素，然后通过主观定义的平滑函数或是协同发音模型实现连续的动画合成。然而此方法需要对每个音素建立相应的视素，导致大量计算的耗费，同时对动画制作者的专业水平要求较高，影响其广泛应用。

为了减少模型的计算量，研究者探索基于数据驱动的人脸动画合成方法，即利用语音信息实现3D人脸模型人脸动画参数的映射，再由人脸动画参数控制人脸面部运动，从而实现动画的合成。然而人们对声音与唇部动作是否一致十分敏感，采用单模态信息并不能实现高精度的人脸动画参数的映射，影响动画的真实感。

发明内容

本发明的目的在于克服上述背景技术中的不足，以减少计算量并提高合成动画的真实感。

为实现以上目的，一方面，采用一种3D人脸动画合成方法，包括如下步骤：

采集用户语音的音频特征和文本的韵律特征；

将音频特征和韵律特征作为预先训练好的轨迹预测网络的输入，得到该用户对应的发音器官运动轨迹；

利用用户的发音器官运动轨迹驱动3D头部网络模型实现唇音同步的3D人脸动画合成。

进一步地，所述轨迹预测网络包括瓶颈网络和LTRCNN网络，所述瓶颈网络的输入数据为所述韵律特征、输出为用户的发音器官运动轨迹，所述LTRCNN网络的输入为所述音频特征、所述韵律特征以及从瓶颈网络的瓶颈层提取得到的瓶颈特征、输出为所述发音器官运动轨迹。

进一步地，所述LTRCNN网络包括跨模态编码器和轨迹预测解码器，跨模态编码器的输入为所述音频特征、所述韵律特征以及从瓶颈网络的瓶颈层提取得到的瓶颈特征、输出与轨迹预测解码器的输入连接，轨迹预测解码器的输出为所述发音器官运动轨迹。

进一步地，在所述采集用户语音的音频特征和文本的韵律特征之前，还包括：

采集被试用户的发音器官运动轨迹数据、与发音器官运动轨迹同步的语音信号以及语音信号对应的文本数据；

对语音信号和文本数据分别进行特征提取，得到语音信号的音频特征和文本数据对应的韵律特征，并将音频特征、韵律特征和发音器官运动轨迹数据构建成样本集合；

利用样本集合中的样本数据对所述轨迹预测网络进行训练，得到所述训练好的轨迹预测网络。

进一步地，所述采集被试用户的发音器官运动轨迹数据、与发音器官运动轨迹同步的语音信号以及语音信号对应的文本数据，包括：

利用电磁发音动作描迹仪(Electro-Magnetic Articulatory，EMA)设备采集所述被试用户的发音器官运动轨迹数据；

利用语音采集设备采集与所述被试用户的发音器官运动轨迹同步的语音信号；

利用语音识别技术对所述被试用户的语音信号进行文本合成，得到所述语音信号对应的文本数据。

进一步地，所述EMA设备的电磁换能器线圈放在所述被试用户的舌根的矢状面中线位置、舌中矢状面中线位置、舌尖矢状面中线位置、下颚矢状面中线位置、下唇矢状面中线位置以及上唇的矢状面中线位置。

进一步地，所述轨迹预测网络在欧氏距离损失的监督下完成训练，欧式距离损失函数为：

其中，

和

分别表示预测得到的发音器官运动x坐标和z坐标，x′和z′代表真实的发音器官运动x坐标和z坐标。

另一方面，采用一种3D人脸动画合成系统，包括数据采集模块、运动轨迹预测模块和动画合成模块，其中：

数据采集模块用于采集用户语音的音频特征和文本的韵律特征；

运动轨迹预测模块用于将音频特征和韵律特征作为预先训练好的轨迹预测网络的输入，得到该用户对应的发音器官运动轨迹；

动画合成模块用于利用用户的发音器官运动轨迹驱动3D头部网络模型实现唇音同步的3D人脸动画合成。

进一步地，所述轨迹预测网络包括瓶颈网络和LTRCNN网络，所述LTRCNN网络包括跨模态编码器和轨迹预测解码器，所述瓶颈网络的输入数据为所述韵律特征、输出为发音器官运动轨迹，跨模态编码器的输入为所述音频特征、所述韵律特征以及从瓶颈网络的瓶颈层提取得到的瓶颈特征、输出与轨迹预测解码器的输入连接，轨迹预测解码器的输出为所述发音器官运动轨迹。

进一步地，还包括网络训练模块，其用于对所述轨迹预测网络进行训练，得到训练好的轨迹预测网络，所述轨迹预测网络在欧氏距离损失的监督下完成训练，欧式距离损失函数为：

其中，

和

与现有技术相比，本发明存在以下技术效果：本发明采用发音器官的运动轨迹作为3D人脸模型动画参数，通过运动轨迹驱动3D人脸模型实现唇音同步的人脸动画，可以大大减少计算量，提高方法的实用性。

附图说明

下面结合附图，对本发明的具体实施方式进行详细描述：

图1是一种3D人脸动画合成方法的流程图；

图2是跨模态发音器官运动轨迹驱动的整体框架图；

图3是采集发音器官点的位置信息示意图；

图4是“a”音素对应的发音器官运动示意图；

图5是“b”音素对应的发音器官运动示意图；

图6是一种3D人脸动画合成系统的结构图。

具体实施方式

以下结合附图对本发明实施方式的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施方式，并不用于限制本发明实施方式。

在本发明实施方式中，在未作相反说明的情况下，使用的方位词如“上、下、顶、底”通常是针对附图所示的方向而言的或者是针对竖直、垂直或重力方向上而言的各部件相互位置关系描述用词。

另外，若本发明实施方式中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施方式之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

如图1所示，本实施例公开了一种3D人脸动画合成方法，包括如下步骤S1至S3：

S1、采集用户语音的音频特征和文本的韵律特征；

S2、将音频特征和韵律特征作为预先训练好的轨迹预测网络的输入，得到该用户对应的发音器官运动轨迹；

S3、利用用户的发音器官运动轨迹驱动3D头部网络模型实现唇音同步的3D人脸动画合成。

本实施例采用发音器官运动轨迹作为人脸动画参数，利用预测得到的发音器官运动轨迹实现3D人脸动画合成，大大减少了建模过程的计算量。

作为进一步优选的技术方案，如图2所示，所述轨迹预测网络包括瓶颈网络和LTRCNN网络，所述瓶颈网络的输入数据为所述韵律特征、输出为用户的发音器官运动轨迹，所述LTRCNN网络的输入为所述音频特征、所述韵律特征以及从瓶颈网络的瓶颈层提取得到的瓶颈特征、输出为所述发音器官运动轨迹。

作为进一步优选的技术方案，所述LTRCNN网络包括跨模态编码器和轨迹预测解码器，跨模态编码器的输入为所述音频特征、所述韵律特征以及从瓶颈网络的瓶颈层提取得到的瓶颈特征、输出与轨迹预测解码器的输入连接，轨迹预测解码器的输出为所述发音器官运动轨迹。

其中，瓶颈网络是一个具有狭窄瓶颈隐藏层的深度神经网络结构，其输入为韵律特征，输出为发音器官运动特征。从瓶颈网络的瓶颈层提取得到的瓶颈特征不仅可以视为韵律特征的紧凑表征，而且还可以学习到有用的发音器官运动信息。然后将瓶颈特征、音频特征和韵律特征相结合作为LTRCNN网络的输入以此来进行发音器官运动轨迹估计。在LTRCNN网络中，采用跨模态编码器挖掘文本、语音跨模态信息的互补性，提高特征的学习；然后采用基于GRU的轨迹预测解码器，建立跨模态信息与发音器官轨迹的相关性，提高预测精度，继而保证3D人脸动画的唇音同步。

本实施例通过深度挖掘跨模态信息的互补性，实现信息的深度融合，并建立跨模态信息与发音器官运动估计的相关性，提高轨迹预测精度。

作为进一步优选的技术方案，在上述步骤S1：在所述采集用户语音的音频特征和文本的韵律特征之前，还包括如下步骤：

需要说明的是，在训练阶段，采用WORLD声码器从语音中提取音频特征，采用Merlin工具从文本中提取包含上下文相关信息和位置信息的韵律特征，将韵律特征作为输入并将发音器官运动特征作为输出，对瓶颈网络进行训练，利用瓶颈网络的瓶颈层提取得到的瓶颈特征、音频特征和韵律特征相结合作为LTRCNN网络的输入以此来进行发音器官运动轨迹估计。

作为进一步优选的技术方案，所述采集被试用户的发音器官运动轨迹数据、与发音器官运动轨迹同步的语音信号以及语音信号对应的文本数据，包括如下步骤：

利用EMA设备采集所述被试用户的发音器官运动轨迹数据；

需要说明的是，1)如图3所示，对于发音器官运动轨迹数据，采用EMA设备采用采集，EMA是使用粘贴在声道发音器上的电磁换能器来记录音频信号和发音器官位置的精确测量值的技术，该设备可以检测出发音器官运动的细微变化，并具有很高的测量能力。在数据采集中，EMA的电磁换能器线圈放在舌根(TR)的矢状面中线位置，舌中(TB)的矢状面中线位置，舌尖(TT)的矢状面中线位置，下颚(LI)的矢状面中线位置，下唇(LL)的矢状面中线位置，上唇(UL)的矢状面中线位置，以记录关节运动的轨迹。每个电磁换能器都记录该点的三维数据：x轴(从前到后)，y轴(从左到右)，z轴(从下到上)。由于y轴的变化很小，因此可以忽略不计。仅使用x轴和z轴上的数据，因此每帧数据包含12维度特征(一共6个关键点)。

2)对于语音信号，采用专业的语音采集设备进行积累，获得与发音器官运动同步的语音信号。

3)对于文本信息，采用采集的语音信号，利用语音识别PyTorch-Kaldi技术实现文本合成。

通过上述数据采集可以获得文本、语音跨模态信息以及与之同步的发音器官运动轨迹数据。

作为进一步优选的技术方案，所述轨迹预测网络在欧氏距离损失的监督下完成训练，欧式距离损失函数为：

其中，

和

本实施例中利用训练好的网络模型预测得到相应的发音器官运动轨迹，由于预测轨迹的估计代表的就是3D头部网络模型中舌根，舌中，舌尖，下颚，下唇，上唇的数据，通过预测轨迹数据的变化，即可获得相应变化的3D头部网络模型，实现唇音同步的人脸3D动画合成，如图4至图5所示。

如图6所示，本实施例公开了一种3D人脸动画合成系统，包括数据采集模块10、运动轨迹预测模块20和动画合成模块30，其中：

数据采集模块10用于采集用户语音的音频特征和文本的韵律特征；

运动轨迹预测模块20用于将音频特征和韵律特征作为预先训练好的轨迹预测网络的输入，得到用户的发音器官运动轨迹；

动画合成模块30用于利用用户的发音器官运动轨迹驱动3D头部网络模型实现唇音同步的3D人脸动画合成。

作为进一步优选的技术方案，所述轨迹预测网络包括瓶颈网络和LTRCNN网络，所述LTRCNN网络包括跨模态编码器和轨迹预测解码器，所述瓶颈网络的输入数据为所述韵律特征、输出为发音器官运动轨迹，跨模态编码器的输入为所述音频特征、所述韵律特征以及从瓶颈网络的瓶颈层提取得到的瓶颈特征、输出与轨迹预测解码器的输入连接，轨迹预测解码器的输出为所述发音器官运动轨迹。

作为进一步优选的技术方案，还包括网络训练模块，其用于对所述轨迹预测网络进行训练，得到训练好的轨迹预测网络，所述轨迹预测网络在欧氏距离损失的监督下完成训练，欧式距离损失函数为：

其中，

和

作为进一步优选的技术方案，网络训练模块包括采集单元、特征提取单元和训练单元，其中：

采集单元用于采集被试用户的发音器官运动轨迹数据、与发音器官运动轨迹同步的语音信号以及语音信号对应的文本数据；

特征提取单元用于对语音信号和文本数据分别进行特征提取，得到语音信号的音频特征和文本数据对应的韵律特征，并将音频特征、韵律特征和发音器官运动轨迹数据构建成样本集合；

训练单元用于利用样本集合中的样本数据对所述轨迹预测网络进行训练，得到所述训练好的轨迹预测网络。

作为进一步优选的技术方案，所述采集单元具体用于：

利用EMA设备采集所述被试用户的发音器官运动轨迹数据；

作为进一步优选的技术方案，所述EMA设备的电磁换能器线圈放在所述被试用户的舌根、舌中、舌尖、下颚、下唇以及上唇的矢状面中线位置。

需要说明的是，本实施例提供的3D人脸动画合成方案可以用于娱乐行业，如电影制作，视频配音，游戏制作等；也可以用于语言教学，或是语言障碍者的医学辅助治疗等。

以上结合附图详细描述了本发明例的可选实施方式，但是，本发明实施方式并不限于上述实施方式中的具体细节，在本发明实施方式的技术构思范围内，可以对本发明实施方式的技术方案进行多种简单变型，这些简单变型均属于本发明实施方式的保护范围。

Claims

1.一种3D人脸动画合成方法，其特征在于，包括：

采集用户语音的音频特征和文本的韵律特征；

2.如权利要求1所述的3D人脸动画合成方法，其特征在于，所述轨迹预测网络包括瓶颈网络和LTRCNN网络，所述瓶颈网络的输入数据为所述韵律特征、输出为用户的发音器官运动轨迹，所述LTRCNN网络的输入为所述音频特征、所述韵律特征以及从瓶颈网络的瓶颈层提取得到的瓶颈特征、输出为所述发音器官运动轨迹。

3.如权利要求2所述的3D人脸动画合成方法，其特征在于，所述LTRCNN网络包括跨模态编码器和轨迹预测解码器，跨模态编码器的输入为所述音频特征、所述韵律特征以及从瓶颈网络的瓶颈层提取得到的瓶颈特征、输出与轨迹预测解码器的输入连接，轨迹预测解码器的输出为所述发音器官运动轨迹。

4.如权利要求1所述的3D人脸动画合成方法，其特征在于，在所述采集用户语音的音频特征和文本的韵律特征之前，还包括：

5.如权利要求4所述的3D人脸动画合成方法，其特征在于，所述采集被试用户的发音器官运动轨迹数据、与发音器官运动轨迹同步的语音信号以及语音信号对应的文本数据，包括：

利用EMA设备采集所述被试用户的发音器官运动轨迹数据；

6.如权利要求5所述的3D人脸动画合成方法，其特征在于，所述EMA设备的电磁换能器线圈放在所述被试用户的舌根的矢状面中线位置、舌中矢状面中线位置、舌尖矢状面中线位置、下颚矢状面中线位置、下唇矢状面中线位置以及上唇的矢状面中线位置。

7.如权利要求4所述的3D人脸动画合成方法，其特征在于，所述轨迹预测网络在欧氏距离损失的监督下完成训练，欧式距离损失函数为：

其中，

和

8.一种3D人脸动画合成系统，其特征在于，包括数据采集模块、运动轨迹预测模块和动画合成模块，其中：

9.如权利要求8所述的3D人脸动画合成系统，其特征在于，所述轨迹预测网络包括瓶颈网络和LTRCNN网络，所述LTRCNN网络包括跨模态编码器和轨迹预测解码器，所述瓶颈网络的输入数据为所述韵律特征、输出为发音器官运动轨迹，跨模态编码器的输入为所述音频特征、所述韵律特征以及从瓶颈网络的瓶颈层提取得到的瓶颈特征、输出与轨迹预测解码器的输入连接，轨迹预测解码器的输出为所述发音器官运动轨迹。

10.如权利要求8所述的3D人脸动画合成系统，其特征在于，还包括网络训练模块，其用于对所述轨迹预测网络进行训练，得到训练好的轨迹预测网络，所述轨迹预测网络在欧氏距离损失的监督下完成训练，欧式距离损失函数为：

其中，

和