CN109523616B

CN109523616B - 一种面部动画生成方法、装置、设备及可读存储介质

Info

Publication number: CN109523616B
Application number: CN201811474259.4A
Authority: CN
Inventors: 丁闯; 江源
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-12-04
Filing date: 2018-12-04
Publication date: 2023-05-30
Anticipated expiration: 2038-12-04
Also published as: CN109523616A

Abstract

本申请提供了一种面部动画生成方法、装置、设备及可读存储介质，其中，方法包括：获取目标音频数据；基于面部参数预测特征预测目标音频数据对应的面部动画参数，其中，面部参数预测特征从目标音频数据中提取，面部参数预测特征包括声学特征，以及，发音特征和/或语音瓶颈特征；根据目标音频数据对应的面部动画参数生成面部动画。由于面部参数预测特征除了包含声学特征外，还包含了能够表征协同发音的发音特征和/或能够表征语义信息的语音瓶颈特征，因此，基于这样的面部参数预测特征可预测出在协同发音和/或语义信息方面表达能力较好的面部动画参数，进而基于预测的面部动画参数可生成表现力较好的面部动画。

Description

一种面部动画生成方法、装置、设备及可读存储介质

技术领域

本申请涉及信号处理技术领域，更具体地说，涉及一种面部动画生成方法、装置、设备及可读存储介质。

背景技术

随着科技的高速发展，人们已经不满足于呆板、僵硬的人机交互方式，人性化的、友好的人机交互技术越来越被重视。听觉与视觉是人们最主要、最便捷的两种沟通交流方式。当人们相互沟通交流时，面部表情、唇部动作，甚至是头部与肢体的动作等都可以极大地增加语言的可懂度，从而提高沟通的效率。因此，听觉和视觉双模态信息融合的交互方式，不仅能够提高用户对语音的理解度，还能提供一种更为真实的交互体验。

面部动画生成技术是指通过文本或者语音信息驱动、实时生成面部动作及表情的技术。除了能够提供更友好的人机交互方式之外，该技术在感知研究、语言辅助学习等方面具有重要的研究意义和应用价值，同时，其在游戏和电影特效等娱乐化方面上可以辅助制作降低成本。鉴于面部动画生成技术的重要性，亟需提供一种效果较好的面部动画生成方案。

发明内容

有鉴于此，本申请提供了一种面部动画生成方法、装置、设备及可读存储介质，用以提供一种效果较好的面部动画生成方案，该方案如下：

一种面部动画生成方法，包括：

获取目标音频数据；

基于面部参数预测特征预测所述目标音频数据对应的面部动画参数，所述面部参数预测特征从所述目标音频数据中提取，所述面部参数预测特征包括声学特征，以及，发音特征和/或语音瓶颈特征；

根据所述目标音频数据对应的面部动画参数生成面部动画。

可选的，基于所述面部参数预测特征预测的面部动画参数包括：面部区域中至少一个子区域的面部动画参数；

其中，所述面部区域包括多个子区域，一子区域为所述面部区域中一面部属性所在的区域，所述面部区域的不同子区域的运动特点不同。

可选的，所述基于面部参数预测特征预测所述目标音频数据对应的面部动画参数，包括：

根据所述面部参数预测特征和预先建立的面部参数预测模型，预测所述目标音频数据对应的面部动画参数；

其中，所述面部参数预测模型利用从训练音视频数据中提取的面部参数预测特征和面部动画参数训练得到。

可选的，所述面部参数预测模型包括：参数生成模块和对抗判别模块；

所述参数生成模块，用于根据输入的面部参数预测特征预测面部动画参数；

所述对抗判别模块，用于在训练的过程中判别所述参数生成模块预测的面部动画参数与真实的面部动画参数是否一致。

可选的，所述面部参数预测模型的训练过程包括：

获取所述训练音视频数据；

从所述训练音视频数据中提取面部参数预测特征和面部动画参数；

将从所述训练音视频数据中提取的面部参数预测特征输入所述参数生成模块，获得所述参数生成模块输出的面部动画参数；

通过所述对抗判别模块判别所述参数生成模块输出的面部动画参数与从所述训练音视频数据中提取的面部动画参数是否一致；

根据所述对抗判别模块的判别结果更新所述参数生成模块的参数；

所述面部参数预测模型的训练目标为：所述参数生成模块根据从训练音视频数据中提取的面部参数预测特征预测的面部动画参数，与从同一训练音视频数据中提取的面部动画参数一致。

可选的，所述对抗判别模块包括至少一个对抗判别子模块；

一对抗判别子模块对应面部区域的一子区域，不同的对抗判别子模块对应面部区域的不同子区域；

面部区域的一子区域对应的对抗判别子模块，用于判别所述参数生成模块针对该子区域预测的面部动画参数与该子区域真实的面部动画参数是否一致。

其中，在对所述面部参数预测模型训练时，更新所述参数生成模块的参数所使用的损失函数由MSE准则的损失和各个对抗判别子模块的损失加权组成。

可选的，所述对抗判别模块包括：与所述面部区域中的眼睛区域对应的第一对抗判别子模块，和/或，与所述面部区域中的鼻子区域对应的第二对抗判别子模块，和/或，与所述面部区域中的嘴部区域对应的第三对抗判别子模块。

其中，通过所述对抗判别模块中的所述第一对抗判别子模块判别所述参数生成模块输出的面部动画参数与从所述训练音视频数据中提取的面部动画参数是否一致，包括：

通过所述第一对抗判别子模块，判别所述参数生成模块针对所述眼睛区域生成的面部动画参数与从所述从训练音视频数据中针对所述眼睛区域提取的面部动画参数是否一致。

其中，通过所述对抗判别模块中的所述第二对抗判别子模块判别所述参数生成模块输出的面部动画参数与从所述训练音视频数据中提取的面部动画参数是否一致，包括：

通过所述第二对抗判别子模块，判别所述参数生成模块针对所述鼻子区域生成的面部动画参数与从所述训练音视频数据中针对所述鼻子区域提取的面部动画参数是否一致。

其中，所述通过所述对抗判别模块中的所述第三对抗判别子模块判别所述参数生成模块输出的面部动画参数与从所述训练音视频数据中提取的面部动画参数是否一致，包括：

通过所述第三对抗判别子模块，判别所述参数生成模块针对所述嘴部区域生成的面部动画参数与从所述训练音视频数据中针对所述嘴部区域提取的面部动画参数是否一致。

其中，所述根据所述面部参数预测特征和预先建立的面部参数预测模型，预测所述目标音频数据对应的面部动画参数，包括：

将所述面部参数预测特征输入所述面部参数预测模型中的参数生成模块，获得所述参数生成模块输出的面部动画参数，作为所述目标音频数据对应的面部动画参数。

一种面部动画生成装置，包括：数据获取模块、参数预测模块和面部动画生成模块；

所述数据获取模块，用于获取目标音频数据；

所述参数预测模块，用于基于面部参数预测特征预测所述目标音频数据对应的面部动画参数，其中，所述面部参数预测特征从所述目标音频数据中提取，所述面部参数预测特征包括声学特征，以及，发音特征和/或语音瓶颈特征；

所述面部动画生成模块，用于根据所述目标音频数据对应的面部动画参数生成面部动画。

可选的，所述参数预测模块，具体用于根据所述面部参数预测特征和预先建立的面部参数预测模型，预测所述目标音频数据对应的面部动画参数；

所述面部动画生成装置还包括：模型训练模块；

所述模型训练模块，用于获取所述训练音视频数据；从所述训练音视频数据中提取面部参数预测特征和面部动画参数；将从所述训练音视频数据中提取的面部参数预测特征输入所述参数生成模块，获得所述参数生成模块输出的面部动画参数；通过所述对抗判别模块判别所述参数生成模块输出的面部动画参数与从所述训练音视频数据中提取的面部动画参数是否一致；根据所述对抗判别模块的判别结果更新所述参数生成模块的参数；

可选的，所述对抗判别模块包括至少一个对抗判别子模块；

其中，所述模型训练模块更新所述参数生成模块的参数时所使用的损失函数由MSE准则的损失和各个对抗判别子模块的损失加权组成。

可选的，所述对抗判别模块包括：与面部区域中的眼睛区域对应的第一对抗判别子模块，和/或，与面部区域中的鼻子区域对应的第二对抗判别子模块，和/或，与面部区域中的嘴部区域对应的第三对抗判别子模块。

其中，所述模型训练模块在通过所述对抗判别模块中的所述第一对抗判别子模块判别所述参数生成模块输出的面部动画参数与从所述训练音视频数据中提取的面部动画参数时，具体用于：

其中，所述模型训练模块在通过所述对抗判别模块中的所述第二对抗判别子模块判别所述参数生成模块输出的面部动画参数与从所述训练音视频数据中提取的面部动画参数是否一致时，具体用于：

其中，所述模型训练模块在通过所述对抗判别模块中的所述第三对抗判别子模块判别所述参数生成模块输出的面部动画参数与从所述训练音视频数据中提取的面部动画参数是否一致时，具体用于：

其中，所述参数预测模块，具体用于将所述面部参数预测特征输入所述面部参数预测模型中的参数生成模块，获得所述参数生成模块输出的面部动画参数，作为所述目标音频数据对应的面部动画参数。

一种面部动画生成设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现所述面部动画生成方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现所述面部动画生成方法的各个步骤。

从上述的技术方案可以看出，本申请提供的面部动画生成方法、装置、设备及可读存储介质，在获得目标音频数据后，可根据从目标音频数据中提取的面部参数预测特征预测目标音频数据对应的面部动画参数，进而根据预测出的面部动画参数生成面部动画。由于从目标音频数据中提取的面部参数预测特征除了包含声学特征外，还包含了能够表征协同发音的发音特征和/或能够表征语义信息的语音瓶颈特征，因此，基于这样的面部参数预测特征可预测出在协同发音和/或语义信息方面表达能力较好的面部动画参数，进而基于预测的面部动画参数可生成表现力较好的面部动画，即本申请提供的面部动画生成方法可生成效果较好的面部动画，用户体验较好。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为面部动画参数示意图；

图2为本申请实施例提供的面部动画生成方法的流程示意图；

图3为本申请实施例提供的面部参数预测模型的训练过程的流程示意图；

图4为本申请实施例提供的面部参数预测模型的拓扑结构的一示例的示意图；

图5为本申请实施例提供的面部动画生成装置的结构示意图；

图6为本申请实施例提供的面部动画生成设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了获得具有较好效果的面部动画生成方案，本案发明人进行了深入研究：

起初的思路是：首先从音视频数据中提取梅尔倒谱系数(Mel FrequencyCepstral Coefficients，MFCC)或者滤波器组参数(Filter Bank，Fbank)等常见声学特征以及面部动画参数(Facial Animation Parameter space，FAPs)，然后使用隐马尔可夫模型(Hidden Markov Model,HMM)或者深度神经网络模型(Deep Neural Networks，DNN)建立声学特征与面部动画参数的映射关系。在模型训练时，使用最大似然(maximumlikelihood，ML)准则或者均方误差(mean square error，MSE)准则优化模型，在对模型训练完成后，对于用户任意给定的一段音频数据结合训练好的映射模型对面部动画参数进行预测，根据预测得到的面部动画参数生成面部动画。需要说明的是，面部动画参数是ISOMPEG-4国际标准中对于面部和肢体动画的定义，由国际动画专家组提出，该参数主要描述虚拟说话人的表情、情感以及发音等信息，请参阅图1，示出了面部动画参数示意图。

发明人在研究的过程中发现，虽然上述思路能够实现面部动画的生成，但生成的面部动画比较呆板、不够生动，鉴于上述思路生成的面部动画效果不佳，发明人进行了深入分析，经分析发现，上述思路存在如下问题：

其一，驱动信息不足，上述思路只采用MFCC或者FBank特征，这些特征虽然可以有效预测面部动画参数，但是在协同发声、语义信息表达等方面表达能力不足；其二，参数预测精度不高，在HMM和DNN等预测方法中，由于使用ML准则或者MSE准则训练模型，且没有区分不同区域参数的特点，导致预测参数过平滑问题严重，生成动画表现力不足。

鉴于上述问题，发明人继续进行深入研究，最终提出了一种解决方案，完美解决了上述研发过程中的各个问题。接下来通过下述实施例对本申请提供的面部动画生成方法进行介绍。

请参阅图2，示出了本实施例提供的面部动画生成方法的流程示意图，该方法可以包括：

步骤S201：获取目标音频数据。

其中，目标音频数据可以为由音频采集设备采集的说话人的音频数据、还可以为采用语音合成技术合成的音频数据，当然，目标音频数据还可为通过其它途径获得的音频数据，本实施例对音频数据的获取方式或获取途径不进行具体限定。

步骤S202：基于面部参数预测特征预测所述目标音频数据对应的面部动画参数。

其中，所述面部参数预测特征从目标音频数据中提取，面部参数预测特征包括声学特征以及能够表征协同发音和/或语义信息的特征，其中，能够表征协同发音的特征可以为发音特征或其它特征，能够表征语义信息的特征可以为语音瓶颈特征或其它特征。

为了使得预测的面部动画参数既能在协同发音方面具有较好的表达能力，又能在语义信息具有较好的表达能力，本实施例中的面部参数预测特征优选为包括声学特征、发音特征和语音瓶颈特征，具体的，将从目标音频数据中提取的声学特征、发音特征和语音瓶颈特征拼接为一个向量作为目标音频数据对应的面部参数预测特征。

以下分别对声学特征、发音特征和语音瓶颈特征进行介绍。

声学特征可以但不限定为MFCC、Fbank等特征。需要说明的是，声学特征与面部运动的相关性较大，可以实时提取，可选的，可使用HTK等工具进行声学特征提取。

发音特征是指发音过程中口腔内肌肉的运动特征，其由肌肉的特征点位置描述。需要说明的是，发音特征与发音过程直接相关，可有效改善协同发音现象，从而使得生成的面部动画在协同发音时更自然。可选的，可利用发音特征预测模型预测目标音频数据的发音特征，具体地，发音特征的预测可使用常用的神经网络模型如卷积神经网络模型(Convolutional neural network,CNN)建立声学参数与发音特征的映射关系，在应用时，将从目标音频数据中提取的声学特征输入到发音特征预测模型，即可获得目标音频数据对应的发音特征。

语音瓶颈特征可采用常用的神经网络语音识别模型提取，由于靠近输出层的隐层输出具有说话人无关特性，包含的语音信息更加明确，因此，为了增强语义信息的表达，本实施例可选用神经网络语音识别模型中倒数第二层的输出作为语音瓶颈特征，进一步提高语义信息的表达能力。

优选地，基于面部参数预测特征预测的面部动画参数包括：面部区域中至少一个子区域的面部动画参数，其中，面部区域包括多个子区域，各个子区域的运动特点不同。

步骤S203：根据所述目标音频数据对应的面部动画参数生成面部动画。

需要说明的是，目标音频数据对应的面部动画参数包括多个面部参数坐标点，根据面部动画参数生成面部动画的过程即为激活各面部参数坐标点，从而实现以MPEG-4为标准的虚拟人说话系统的过程。其中，MPEG-4是一种常见标准，由于其具有特殊的编码能力和强大的交互能力，使得基于MPEG-4的动画实现语音驱动虚拟人口型动画合成，这些均属于现有技术，本实施例在此不作赘述。

本申请实施例提供的面部动画生成方法，在获得目标音频数据后，可根据从目标音频数据中提取的面部参数预测特征预测目标音频数据对应的面部动画参数，进而根据预测出的面部动画参数生成面部动画。由于从目标音频数据中提取的面部参数预测特征除了包含声学特征外，还包含了能够表征协同发音的发音特征和/或能够表征语义信息的语音瓶颈特征，因此，基于这样的面部参数预测特征可预测出在协同发音和/或语义信息方面表达能力较好的面部动画参数，进而基于预测的面部动画参数可生成表现力较好的面部动画，即本申请实施例提供的面部动画生成方法可生成效果较好的面部动画，用户体验较好。

在本申请的另一实施例中，对上述实施例中的“步骤S202：基于面部参数预测特征预测所述目标音频数据对应的面部动画参数”进行介绍。

基于面部参数预测特征预测目标音频数据对应的面部动画参数的过程可以包括：根据面部参数预测特征和预先建立的面部参数预测模型，预测目标音频数据对应的面部动画参数。

其中，面部参数预测模型利用从训练音视频数据中提取的面部参数预测特征和面部动画参数训练得到。

本实施例中的面部参数预测模型可以为生成对抗网络模型，该生成对抗网络模型包括：参数生成模块和对抗判别模块。

其中，参数生成模块主要由反卷积层级联而成，参数生成模块用于根据输入的面部预测特征预测面部动画参数，即，参数生成模块的输入为面部参数预测特征，输出为预测的面部动画参数；对抗判别模块主要由卷积层级联而成，其用于在训练的过程中判别参数生成模块预测的面部动画参数与真实的面部动画参数是否一致，即，对抗判别模块的输入为参数生成模块预测的面部动画参数和真实的面部动画参数，输出为用于指示参数生成模块预测的面部动画参数与真实的面部动画参数是否一致的判别结果。

以下对面部参数预测模型的训练过程进行介绍。

请参阅图3，示出了本实施例提供的面部参数预测模型的训练过程的流程示意图，可以包括：

步骤S301：获取训练音视频数据。

步骤S302：从训练音视频数据中提取面部参数预测特征和面部动画参数。

其中，从训练音视频数据中提取的面部参数预测特征可以包括声学特征，以及，能够表征协同发音信息的发音特征和/或能够表征语义信息的语音瓶颈特征。优选的，面部参数预测特征包括声学特征、发音特征和语音瓶颈特征。

其中，声学特征可以但不限定为MFCC、Fbank等特征，可选的，可使用HTK等工具进行声学特征提取。需要说明的是，面部参数预测模型的训练阶段与测试阶段，所提取的声学特征应一致，比如，训练阶段提取的为MFCC特征，那么测试阶段也应提取MFCC特征。与面部参数预测模型的测试阶段不同，由于训练音视频数据中包含了视频数据，因此，发音特征可直接从训练音视频数据中提取。语音瓶颈特征可采用常用的神经网络语音识别模型提取，选用神经网络语音识别模型中倒数第二层的输出作为语音瓶颈特征。

需要说明的是，在从训练音视频数据中提取面部动画参数之前，需要先对训练音视频数据中的视频图像帧进行头部姿态矫正，使得视频图像帧中的头部姿态均处于标准位置，以便于下一步面部参数预测特征的提取。对于每一矫正过后的视频图像帧，使用人脸标定工具，可直接获得面部动画参数。

在获取到声学特征、发音特征和语音瓶颈特征之后，可以通过调整采样率及句子帧数，使这三者与面部动画参数的采样率保持一致，然后再将这三者拼接成一个向量，将该向量作为面部参数预测特征。

步骤S303：将从训练音视频数据中提取的面部参数预测特征输入面部参数预测模型中的参数生成模块，获得参数生成模块输出的面部动画参数。

面部参数预测模型中的参数生成模块根据输入的面部参数预测特征预测面部动画参数并输出。

步骤S304：通过面部参数预测模型中的对抗判别模块判别参数生成模块输出的面部动画参数与从训练音视频数据中提取的面部动画参数是否一致。

需要说明的是，参数生成模块输出的面部动画参数为其根据输入的面部参数预测特征预测的面部动画参数，从训练音视频数据中提取的面部动画参数为真实的面部动画参数，对抗判别模块实质判别的是预测的面部动画参数与真实的面部动画参数是否一致。

在一种可能的实现方式中，对抗判别模块输出的判别结果可通过0和1表示，其中，1表示预测的面部动画参数与真实的面部动画参数一致，即，预测的面部动画参数即为真实的面部动画参数，0表示预测的面部动画参数与真实的面部动画参数不一致，即预测出的面部动画参数不为真实的面部动画参数。

步骤S305：根据对抗判别模块的判别结果更新参数生成模块的参数。

需要说明的是，面部参数预测模型的训练目标为：参数生成模块预测的面部动画参数与真实的面部动画参数一致，即参数生成模块根据从训练音视频数据中提取的面部参数预测特征预测的面部动画参数，与从同一训练音视频数据中提取的面部动画参数一致。

在进行模型训练时，在一种可能的实现方式中，可通过一对抗判别模块判别针对整个面部区域预测的面部动画参数与整个面部区域的真实动画参数的一致性，基于判别结果更新参数生成模块。考虑到面部区域中不同子区域的运动特点不同，比如眼睛区域的运动特点与嘴部区域的运动特点不同，针对整个面部区域进行训练，可能会导致预测的面部动画参数表现力不够强，继而导致生成的面部动画不够生动，有鉴于此，在一种优选的实现方式中，可针对面部的不同子区域设置不同的对抗判别子模块，一对抗判别子模块对应面部区域的一子区域，不同的对抗判别子模块对应面部区域的不同子区域，面部区域的一子区域为面部区域中一面部属性所在的区域，面部区域的不同子区域的运动特点不同，面部区域的一子区域对应的对抗判别子模块，用于判别参数生成模块针对该子区域预测的面部动画参数与该子区域真实的面部动画参数是否一致。

需要说明的是，在基于对抗判别模块的判别结果更新参数生成模块的参数时，其损失函数可由MSE准则的损失和各个对抗判别子模块的损失加权组成。

请参阅图4，示出了本实施例提供的面部参数预测模型的一拓扑结构的示例的示意图，该面部参数预测模型包括参数生成模块401和对抗判别模块402。其中，对抗判别模块包括与面部区域中的眼睛区域对应的第一对抗判别子模块4021，与面部区域中的鼻子区域对应的第二对抗判别子模块4022，以及，与面部区域中的嘴部区域对应的第三对抗判别子模块4023。

在模型训练的过程中，通过第一对抗判别子模块4021，判别参数生成模块401针对面部区域中的眼睛区域生成的面部动画参数(即预测的面部动画参数)与从训练音视频数据中针对面部区域中的眼睛区域提取的面部动画参数(即真实的面部动画参数)是否一致；通过第二对抗判别子模块4022，判别参数生成模块401针对面部区域中的鼻子区域生成的面部动画参数(即预测的面部动画参数)与从训练音视频数据中针对面部区域中的鼻子区域提取的面部动画参数(即真实的面部动画参数)是否一致；通过第三对抗判别子模块4023，判别参数生成模块401针对面部区域中的嘴部区域生成的面部动画参数(即预测的面部动画参数)与从训练音视频数据中针对面部区域中的嘴部区域提取的面部动画参数(即真实的面部动画参数)是否一致。需要说明的是，针对面部区域的一子区域生成的面部动画参数为该子区域的面部动画参数，比如，针对面部区域中的眼睛区域生成的面部动画参数为眼睛区域的面部动画参数，针对面部区域中的鼻子区域生成的面部动画参数为鼻子区域的面部动画参数，针对面部区域中的嘴部区域生成的面部动画参数为嘴部区域的面部动画参数。

面部区域中任一子区域对应的对抗判别子模块的输入为参数生成模块401针对该子区域生成的面部动画参数(即预测的面部动画参数)与从训练音视频数据中针对该子区域提取的面部动画参数(即真实的面部动画参数)，输出为用于指示参数生成模块401针对该子区域生成的面部动画参数(即预测的面部动画参数)与从训练音视频数据中针对该子区域提取的面部动画参数(即真实的面部动画参数)是否一致的判别结果。

其中，第一对抗判别子模块4021输出的判别结果可用0和1表示，第一对抗判别子模块4021输出0，表明参数生成模块401针对面部区域中的眼睛区域生成的面部动画参数与眼睛区域真实的面部动画参数不一致，第一对抗判别子模块4021输出1，表明参数生成模块401针对面部区域中的眼睛区域生成的面部动画参数与眼睛区域真实的面部动画参数一致。同样地，第二对抗判别子模块4021和第三对抗判别子模块4023输出的判别结果也可用0和1表示，第二对抗判别子模块4022输出0，表明参数生成模块401针对面部区域中的鼻子区域生成的面部动画参数与鼻子区域真实的面部动画参数不一致，第二对抗判别子模块4022输出1，表明参数生成模块401针对面部区域中的鼻子区域生成的面部动画参数与鼻子区域真实的面部动画参数一致；第三对抗判别子模块4023输出0，表明参数生成模块401针对面部区域中的嘴部区域生成的面部动画参数与嘴部区域真实的面部动画参数不一致，第三对抗判别子模块4023输出1，表明参数生成模块401针对面部区域中的嘴部区域生成的面部动画参数与嘴部区域真实的面部动画参数一致。

需要说明的是，在基于对抗判别模块的判别结果更新参数生成模块的参数时，其损失函数可由MSE准则的损失和各个对抗判别子模块的损失加权组成，具体的，损失函数L_G(*)的表达式为：

其中，L_MSE表示真实的面部动画参数与预测的面部动画参数之间的均方误差，L_adv-e、L_adv-n和L_adv-m依次分别表示对抗判别网络中眼睛区域的对抗损失、对抗判别网络中鼻子区域的对抗损失、对抗判别网络中嘴部区域的对抗损失，

依次分别表示对抗判别网络中眼睛区域的对抗损失的期望与MSE损失的期望的比值、对抗判别网络中鼻子区域的对抗损失的期望与MSE损失的期望的比值、对抗判别网络中嘴部区域的对抗损失的期望与MSE损失的期望的比值。

通过各个对抗判别子模块的损失加权和可以快速有效地训练出稳定的参数生成网络。本实施例根据参数生成网络输出的面部动画参数与提取的面部动画参数更新参数生成网络的参数，多次迭代，当对抗判别网络不能判别出参数生成网络输出的面部动画参数的真假，即参数生成网络输出的面部动画参数与从训练音视频数据中提取的面部动画参数一致时，面部参数预测模型的训练即可终止。

本申请实施例提供的面部动画生成方法，一方面将从目标音视频数据中提取的声学特征、发音特征、语音瓶颈特征组成面部参数预测特征，由于发音特征能够表征协同发音，语音瓶颈特征能够表征语义信息，因此，采用包含发音特征和语音瓶颈特征面部参数预测特征可预测出在协同发音和语义信息方面表达能力较好的面部动画参数，进而基于预测的面部动画参数可生成表现力较好的面部动画，另一方面，采用基于生成对抗网络模型的参数预测方案进行面部动画参数的预测，这种预测方案能够提高面部动画参数的预测精度，并且，针对面部区域中的不同属性区域，采用不同对抗判别网络进行判别，使得根据模型即面部参数预测模型预测的面部动画参数能够生成表现力较强的面部动画，即，本申请实施例提供的面部动画生成方法生成的面部动画比较生动，用户体验较好。

本申请实施例还提供了一种面部动画生成装置，下面对本申请实施例提供的面部动画生成装置进行描述，下文描述的面部动画生成装置与上文描述的面部动画生成方法可相互对应参照。

请参阅图5，示出了本申请实施例提供的一种面部动画生成装置的结构示意图，如图5所示，该装置可以包括：数据获取模块501、参数预测模块502和面部动画生成模块503。

数据获取模块501，用于获取目标音频数据。

参数预测模块502，用于基于面部参数预测特征预测所述目标音频数据对应的面部动画参数。

其中，所述面部参数预测特征从所述目标音频数据中提取，所述面部参数预测特征包括声学特征，以及，发音特征和/或语音瓶颈特征。

面部动画生成模块503，用于根据目标音频数据对应的面部动画参数生成面部动画。

本申请实施例提供的面部动画生成装置，在获得目标音频数据后，可根据从目标音频数据中提取的面部参数预测特征预测目标音频数据对应的面部动画参数，进而根据预测出的面部动画参数生成面部动画。由于从目标音频数据中提取的面部参数预测特征除了包含声学特征外，还包含了能够表征协同发音的发音特征和/或能够表征语义信息的语音瓶颈特征，因此，基于这样的面部参数预测特征可预测出在协同发音和/或语义信息方面表达能力较好的面部动画参数，进而基于预测的面部动画参数可生成表现力较好的面部动画，即本申请实施例提供的面部动画生成装置可生成效果较好的面部动画，用户体验较好。

在一种可能的实现方式中，上述实施例提供的面部动画生成装置中参数预测模块502基于所述面部参数预测特征预测的面部动画参数包括：面部区域中至少一个子区域的面部动画参数。其中，所述面部区域包括多个子区域，一子区域为所述面部区域中一面部属性所在的区域，所述面部区域的不同子区域的运动特点不同。

在一种可能的实现方式中，上述实施例提供的面部动画生成装置中，参数预测模块502，具体用于根据所述面部参数预测特征和预先建立的面部参数预测模型，预测所述目标音频数据对应的面部动画参数.

在一种可能的实现方式中，所述面部参数预测模型包括：参数生成模块和对抗判别模块。

所述参数生成模块，用于根据输入的面部参数预测特征预测面部动画参数。

上述实施例提供的面部动画生成装置中的参数预测模块502，具体用于将所述面部参数预测特征输入所述面部参数预测模型中的参数生成模块，获得所述参数生成模块输出的面部动画参数，作为所述目标音频数据对应的面部动画参数。

上述实施例提供的面部动画生成装置还包括：模型训练模块。

所述模型训练模块，用于获取所述训练音视频数据，并从所述训练音视频数据中提取面部参数预测特征和面部动画参数；将从所述训练音视频数据中提取的面部参数预测特征输入所述参数生成模块，获得所述参数生成模块输出的面部动画参数；通过所述对抗判别模块判别所述参数生成模块输出的面部动画参数与从所述训练音视频数据中提取的面部动画参数是否一致；根据所述对抗判别模块的判别结果更新所述参数生成模块的参数。

其中，所述面部参数预测模型的训练目标为：所述参数生成模块根据从训练音视频数据中提取的面部参数预测特征预测的面部动画参数，与从同一训练音视频数据中提取的面部动画参数一致。

优选的，面部参数预测模型中的对抗判别模块包括至少一个对抗判别子模块。

一对抗判别子模块对应面部区域的一子区域，不同的对抗判别子模块对应面部区域的不同子区域。面部区域的一子区域对应的对抗判别子模块，用于判别所述参数生成模块针对该子区域预测的面部动画参数与该子区域真实的面部动画参数是否一致。

当对抗判别模块包括至少一个对抗判别子模块时，所述模型训练模块更新所述参数生成模块的参数时所使用的损失函数由MSE准则的损失和各个对抗判别子模块的损失加权组成。

在一种可能的实现方式中，所述对抗判别模块包括：与面部区域中的眼睛区域对应的第一对抗判别子模块，和/或，与面部区域中的鼻子区域对应的第二对抗判别子模块，和/或，与面部区域中的嘴部区域对应的第三对抗判别子模块。

本申请实施例还提供了一种面部动画生成设备，请参阅图6，示出了该面部动画生成设备的结构示意图，该设备可以包括：至少一个处理器601，至少一个通信接口602，至少一个存储器603和至少一个通信总线604；

在本申请实施例中，处理器601、通信接口602、存储器603、通信总线604的数量为至少一个，且处理器601、通信接口602、存储器603通过通信总线604完成相互间的通信；

处理器601可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器603可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获取目标音频数据；

基于面部参数预测特征预测所述目标音频数据对应的面部动画参数，其中，所述面部参数预测特征从所述目标音频数据中提取，所述面部参数预测特征包括声学特征，以及，发音特征和/或语音瓶颈特征；

根据所述目标音频数据对应的面部动画参数生成面部动画。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

获取目标音频数据；

根据所述目标音频数据对应的面部动画参数生成面部动画。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种面部动画生成方法，其特征在于，包括：

获取目标音频数据；

根据所述目标音频数据对应的面部动画参数生成面部动画；

所述基于面部参数预测特征预测所述目标音频数据对应的面部动画参数，包括：

2.根据权利要求1所述的面部动画生成方法，其特征在于，基于所述面部参数预测特征预测的面部动画参数包括：面部区域中至少一个子区域的面部动画参数；

3.根据权利要求1所述的面部动画生成方法，其特征在于，所述面部参数预测模型包括：参数生成模块和对抗判别模块；

4.根据权利要求3所述的面部动画生成方法，其特征在于，所述面部参数预测模型的训练过程包括：

获取所述训练音视频数据；

5.根据权利要求4所述的面部动画生成方法，其特征在于，所述对抗判别模块包括至少一个对抗判别子模块；

6.根据权利要求5所述的面部动画生成方法，其特征在于，在对所述面部参数预测模型训练时，更新所述参数生成模块的参数所使用的损失函数由MSE准则的损失和各个对抗判别子模块的损失加权组成。

7.根据权利要求5所述的面部动画生成方法，其特征在于，所述对抗判别模块包括：与所述面部区域中的眼睛区域对应的第一对抗判别子模块，和/或，与所述面部区域中的鼻子区域对应的第二对抗判别子模块，和/或，与所述面部区域中的嘴部区域对应的第三对抗判别子模块。

8.根据权利要求7所述的面部动画生成方法，其特征在于，通过所述对抗判别模块中的所述第一对抗判别子模块判别所述参数生成模块输出的面部动画参数与从所述训练音视频数据中提取的面部动画参数是否一致，包括：

9.根据权利要求7所述的面部动画生成方法，其特征在于，通过所述对抗判别模块中的所述第二对抗判别子模块判别所述参数生成模块输出的面部动画参数与从所述训练音视频数据中提取的面部动画参数是否一致，包括：

10.根据权利要求7所述的面部动画生成方法，其特征在于，所述通过所述对抗判别模块中的所述第三对抗判别子模块判别所述参数生成模块输出的面部动画参数与从所述训练音视频数据中提取的面部动画参数是否一致，包括：

11.根据权利要求3或4所述的面部动画生成方法，其特征在于，所述根据所述面部参数预测特征和预先建立的面部参数预测模型，预测所述目标音频数据对应的面部动画参数，包括：

12.一种面部动画生成装置，其特征在于，包括：数据获取模块、参数预测模块和面部动画生成模块；

所述数据获取模块，用于获取目标音频数据；

所述面部动画生成模块，用于根据所述目标音频数据对应的面部动画参数生成面部动画；

13.根据权利要求12所述的面部动画生成装置，其特征在于，基于所述面部参数预测特征预测的面部动画参数包括：面部区域中至少一个子区域的面部动画参数；

14.根据权利要求12或13所述的面部动画生成装置，其特征在于，所述参数预测模块，具体用于根据所述面部参数预测特征和预先建立的面部参数预测模型，预测所述目标音频数据对应的面部动画参数；

15.根据权利要求14所述的面部动画生成装置，其特征在于，所述面部参数预测模型包括：参数生成模块和对抗判别模块；

16.根据权利要求15所述的面部动画生成装置，其特征在于，还包括：模型训练模块；

17.根据权利要求16所述的面部动画生成装置，其特征在于，所述对抗判别模块包括至少一个对抗判别子模块；

18.根据权利要求17所述的面部动画生成装置，其特征在于，所述模型训练模块更新所述参数生成模块的参数时所使用的损失函数由MSE准则的损失和各个对抗判别子模块的损失加权组成。

19.根据权利要求17所述的面部动画生成装置，其特征在于，所述对抗判别模块包括：与面部区域中的眼睛区域对应的第一对抗判别子模块，和/或，与面部区域中的鼻子区域对应的第二对抗判别子模块，和/或，与面部区域中的嘴部区域对应的第三对抗判别子模块。

20.根据权利要求19所述的面部动画生成装置，其特征在于，所述模型训练模块在通过所述对抗判别模块中的所述第一对抗判别子模块判别所述参数生成模块输出的面部动画参数与从所述训练音视频数据中提取的面部动画参数时，具体用于：

21.根据权利要求19所述的面部动画生成装置，其特征在于，所述模型训练模块在通过所述对抗判别模块中的所述第二对抗判别子模块判别所述参数生成模块输出的面部动画参数与从所述训练音视频数据中提取的面部动画参数是否一致时，具体用于：

22.根据权利要求19所述的面部动画生成装置，其特征在于，所述模型训练模块在通过所述对抗判别模块中的所述第三对抗判别子模块判别所述参数生成模块输出的面部动画参数与从所述训练音视频数据中提取的面部动画参数是否一致时，具体用于：

23.根据权利要求15或16所述的面部动画生成装置，其特征在于，所述参数预测模块，具体用于将所述面部参数预测特征输入所述面部参数预测模型中的参数生成模块，获得所述参数生成模块输出的面部动画参数，作为所述目标音频数据对应的面部动画参数。

24.一种面部动画生成设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～11中任一项所述的面部动画生成方法的各个步骤。

25.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～11中任一项所述的面部动画生成方法的各个步骤。