CN116342760B

CN116342760B - 三维面部动画合成方法、系统、电子设备及存储介质

Info

Publication number: CN116342760B
Application number: CN202310594047.4A
Authority: CN
Inventors: 李波; 魏啸林; 刘彬; 陈伟峰; 熊小环; 赵旭
Original assignee: Jiangxi Ruichuang Technology Co ltd; Nanchang Hangkong University; Lenovo New Vision Nanchang Artificial Intelligence Industrial Research Institute Co Ltd
Current assignee: Jiangxi Ruichuang Technology Co ltd; Nanchang Hangkong University; Lenovo New Vision Nanchang Artificial Intelligence Industrial Research Institute Co Ltd
Priority date: 2023-05-25
Filing date: 2023-05-25
Publication date: 2023-08-04
Anticipated expiration: 2043-05-25
Also published as: CN116342760A

Abstract

本发明提供了一种三维面部动画合成方法、系统、电子设备及存储介质；该方法包括将目标音频转换成相对应的局部特征及全局特征；基于面部网格顶点索引得到具有若干网格顶点的网格特征，并提取若干网格顶点之间的拓扑关系；根据混合特征将基于拓扑关系聚合得到每一网格顶点与目标音频对应的即时位移；将即时位移进行训练处理后和原始头部模板相加得到位移头部模块；通过学习目标音频的梅尔谱图特征与头部姿势之间的关系并限制头部姿势的误差，将限制误差后的头部姿势应用至位移头部模块，以合成三维姿态的面部动画。通过本申请，可避免语音驱动的三维人脸动画合成方法出现面部运动细节及头部姿势的缺失，确保人脸动画合成的真实性及高质量。

Description

三维面部动画合成方法、系统、电子设备及存储介质

技术领域

本发明属于计算机视觉的技术领域，具体地涉及一种三维面部动画合成方法、系统、电子设备及存储介质。

背景技术

语音驱动的三维人脸动画合成是以一段说话音频作为驱动信号来控制嘴型，生成和给定音频相配合的目标人脸视频。这种新兴技术具有广泛的应用场景，例如电影配音、视频会议、在线教育和虚拟替身等。尽管现有方法在基于语音驱动的三维面部动画问题上取得了一定进展，可以初步保持语音和面部动作的一致性，但如何保障在说话时的运动细节仍是主要难点。运动细节缺乏会导致一种平均且动作较小的结果，视觉效果难以令人满意。除此之外，现有的语音驱动的三维面部动画方法中都未考虑头部的姿势变化，这会导致整段动画比较僵硬。

目前已有的基于语音驱动的三维面部动画合成方法的关键思想是通过深度神经网络学习音频空间和三维面部运动空间之间的映射函数。然而，现有的大多数合成方法由于缺乏详细的面部表情细节和头部姿势，导致与实际人脸动画的合成结果不一致。究其原因是因为：一方面，大多数合成方法利用的是编码器-解码器结构网络来建立音频和面部空间之间的映射；但是这些编码器网络只关注音频或面部网格的全局特征，导致面部动画缺乏细节表达。另一方面，由于流行的数据集中没有与音频相对应的头部姿势属性，现有的大部分方法只能产生没有姿势差异的面部动画，无法达到姿势可控的动画效果。由此可知，虽然最近涌现了大量的相关研究，但是如何生成自然且逼真的语音驱动的人脸动画视频仍然具有相当大的挑战。

因此，如何解决现有语音驱动的三维人脸动画合成方法存在的面部运动细节以及头部姿势的缺失问题，以确保人脸动画合成的真实性以及高质量，一直是本领域技术人员亟待解决的研究课题。

发明内容

为了解决上述技术问题，本发明提供了一种三维面部动画合成方法、系统、电子设备及存储介质，可以避免语音驱动的三维人脸动画合成方法出现面部运动细节以及头部姿势的缺失，确保人脸动画合成的真实性以及高质量。

第一方面，该发明提供一种三维面部动画合成方法，包括：

将获取的目标音频转换成相对应的局部特征及全局特征；

基于获取的面部网格顶点索引得到具有若干网格顶点的网格特征，并提取所述若干网格顶点之间的拓扑关系；

根据所述局部特征、所述全局特征及所述网格特征得到混合特征，将基于所述拓扑关系聚合得到每一所述网格顶点与所述目标音频对应的即时位移；

将所述即时位移进行训练处理，并将训练处理后的所述即时位移和原始头部模板相加得到位移头部模块；

通过学习所述目标音频的梅尔谱图特征与头部姿势之间的关系并限制头部姿势的误差，将限制误差后的头部姿势应用至所述位移头部模块，以合成三维姿态的面部动画。

较佳地，所述将获取的目标音频转换成相对应的局部特征及全局特征的步骤具体包括：

采集待处理的目标音频；

采用DeepSpeech方法针对所述目标音频进行处理得到每一帧的音频特征；

通过卷积神经网络及多层感知机将所述目标音频转换成相对应的局部特征及全局特征。

较佳地，所述基于获取的面部网格顶点索引得到具有若干网格顶点的网格特征，并提取所述若干网格顶点之间的拓扑关系的步骤具体包括：

获取面部网格顶点索引；

将所述面部网格顶点索引通过傅里叶嵌入得到具有若干网格顶点的网格特征；

采用trimesh方法提取所述若干网格顶点之间的拓扑关系。

较佳地，所述根据所述局部特征、所述全局特征及所述网格特征得到混合特征，将基于所述拓扑关系聚合得到每一所述网格顶点与所述目标音频对应的即时位移的步骤具体包括：

将所述局部特征、所述全局特征及所述网格特征进行融合得到混合特征；

采用图神经网络针对所述混合特征进行注意力上的充分交流，以使所述混合特征通过所述拓扑关系先验层聚合；

输出每一所述网格顶点与所述目标音频对应的即时位移。

较佳地，所述将所述即时位移进行训练处理，并将训练处理后的所述即时位移和原始头部模板相加得到位移头部模块的步骤包括：

采用第一目标函数限制所述即时位移的误差；其中，所述第一目标函数为：

式中，表示在时刻i预测出的顶点位移，D_i表示在时刻i真实的顶点位移， ₁表示1范数；

采用第二目标函数针对限制误差处理后的相邻两帧即时位移进行平滑性约束；其中，所述第二目标函数为：

式中，表示在时刻i-1预测出的顶点位移，D_i-1表示在时刻i-1真实的顶点位移，/> ₁表示1范数；

将平滑性约束后的所述即时位移和原始头部模板相加得到位移头部模块。

较佳地，所述通过学习所述目标音频的梅尔谱图特征与头部姿势之间的关系并限制头部姿势的误差，将限制误差后的头部姿势应用至所述位移头部模块，以合成三维姿态的面部动画的步骤包括：

通过MakeItTalk及DECA生成与所述目标音频相对应的真实头部姿势；

将所述目标音频进行映射得到梅尔谱图特征；

采用循环神经网络学习所述梅尔谱图特征和所述真实头部姿势之间的关系得到预测头部姿势；

基于所述真实头部姿势及所述预测头部姿势并采用第三目标函数限制头部姿势误差；其中，所述第三目标函数为：

式中，表示i时刻的预测头部姿势，/>表示i时刻的真实头部姿势，/> ₂表示2范数。

将限制误差后的头部姿势应用至所述位移头部模块，以合成三维姿态的面部动画。

较佳地，所述通过MakeItTalk及DECA生成与所述目标音频相对应的真实头部姿势的步骤具体包括：

获取任一人物的正面头像图片及其对应的语音；

基于所述正面头像图片及所述语音采用MakeItTalk方法生成带有头部姿势运动的语音视频；

采用DECA方法针对所述语音视频中的头部进行重建，并提取每一时刻的头部姿势；

以所述头部姿势中的第一帧头部姿势为基准，计算其他帧的头部姿势与所述第一帧头部姿势的帧差得到帧差序列，将所述帧差序列作为所述目标音频相对应的真实头部姿势。

第二方面，该发明提供一种三维面部动画合成系统，包括：

转换模块，用于将获取的目标音频转换成相对应的局部特征及全局特征；

提取模块，用于基于获取的面部网格顶点索引得到具有若干网格顶点的网格特征，并提取所述若干网格顶点之间的拓扑关系；

聚合模块，用于根据所述局部特征、所述全局特征及所述网格特征得到混合特征，将基于所述拓扑关系聚合得到每一所述网格顶点与所述目标音频对应的即时位移；

训练模块，用于将所述即时位移进行训练处理，并将训练处理后的所述即时位移和原始头部模板相加得到位移头部模块；

合成模块，用于通过学习所述目标音频的梅尔谱图特征与头部姿势之间的关系并限制头部姿势的误差，将限制误差后的头部姿势应用至所述位移头部模块，以合成三维姿态的面部动画。

较佳地，所述转换模块包括：

采集单元，用于采集待处理的目标音频；

处置单元，用于采用DeepSpeech方法针对所述目标音频进行处理得到每一帧的音频特征；

转换单元，用于通过卷积神经网络及多层感知机将所述目标音频转换成相对应的局部特征及全局特征。

较佳地，所述提取模块包括：

获取单元，用于获取面部网格顶点索引；

嵌入单元，用于将所述面部网格顶点索引通过傅里叶嵌入得到具有若干网格顶点的网格特征；

提取单元，用于采用trimesh方法提取所述若干网格顶点之间的拓扑关系。

较佳地，所述聚合模块包括：

融合单元，用于将所述局部特征、所述全局特征及所述网格特征进行融合得到混合特征；

聚合单元，用于采用图神经网络针对所述混合特征进行注意力上的充分交流，以使所述混合特征通过所述拓扑关系先验层聚合；

输出单元，用于输出每一所述网格顶点与所述目标音频对应的即时位移。

较佳地，所述训练模块包括：

限制单元，用于采用第一目标函数限制所述即时位移的误差；其中，所述第一目标函数为：

约束单元，用于采用第二目标函数针对限制误差处理后的相邻两帧即时位移进行平滑性约束；其中，所述第二目标函数为：

叠加单元，用于将平滑性约束后的所述即时位移和原始头部模板相加得到位移头部模块。

较佳地，所述合成模块包括：

生成单元，用于通过MakeItTalk及DECA生成与所述目标音频相对应的真实头部姿势；

映射单元，用于将所述目标音频进行映射得到梅尔谱图特征；

学习单元，用于采用循环神经网络学习所述梅尔谱图特征和所述真实头部姿势之间的关系得到预测头部姿势；

限误单元，用于基于所述真实头部姿势及所述预测头部姿势并采用第三目标函数限制头部姿势误差；其中，所述第三目标函数为：

合成单元，用于将限制误差后的头部姿势应用至所述位移头部模块，以合成三维姿态的面部动画。

第三方面，本申请实施例提供了一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的三维面部动画合成方法。

第四方面，本申请实施例提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的三维面部动画合成方法。

相比于现有技术，本申请提供的一种三维面部动画合成方法、系统、电子设备及存储介质，具有以下有效效果：

1、通过两个神经网络来提取音频信号的全局及局部特征，其中局部特征对于面部运动细节的促进作用，同时全局特征可以更好地保持结果的稳定性，解决现有语音驱动的三维人脸动画合成方法缺乏面部运动细节的问题。

2、通过将局部和全局的音频特征与面部网格中每个顶点索引的傅里叶嵌入特征相结合，设计新颖的音频-顶点层次特征，并基于此可生成带有头部姿势运动的三维人脸动画，解决现有语音驱动的三维人脸动画合成方法中头部姿势变化缺失的问题。

3、本申请可确保面部动画的高质量，同时增加更真实的头部姿态变化，对比现有的方法，在数值比较和感知比较上都具有优异效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的三维面部动画合成方法的流程图；

图2为本发明实施例1提供的三维面部动画合成方法的实验结果图；

图3是本发明实施例2提供的与实施例1方法对应的三维面部动画合成系统结构框图；

图4是本发明实施例3提供的电子设备的硬件结构示意图。

附图标记说明：

10-转换模块、11-采集单元、12-处置单元、13-转换单元；

20-提取模块、21-获取单元、22-嵌入单元、23-提取单元；

30-聚合模块、31-融合单元、32-聚合单元、33-输出单元；

40-训练模块、41-限制单元、42-约束单元、43-叠加单元；

50-合成模块、51-生成单元、52-映射单元、53-学习单元、54-限误单元、55-合成单元；

60-总线、61-处理器、62-存储器、63-通信接口。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

实施例1

具体而言，图1所示为本实施例所提供的一种三维面部动画合成方法的流程示意图。

如图1所示，本实施例的三维面部动画合成方法包括以下步骤：

S101，将获取的目标音频转换成相对应的局部特征及全局特征。

具体地，将语音映射为局部特征和全局特征，具体采用两个不同的语音编码器，在时间维度上对语音进行操作。通过提取目标音频的音频信号的全局特征和局部特征，目的在于提高语音驱动的面部细节；其中全局特征意味着整体面部表情，而局部特征则是学习每个顶点的运动细节。

进一步地，本实施例的步骤S101的具体步骤包括：

S1011，采集待处理的目标音频。

具体地，本实施例要求的三维头部模型为FLAME模型，语音为英语、中文或者其他语言中的一种。需要说明的是，Flame模型是一个3D人脸的通用模型，诸如有一个特定人的3D人脸扫描序列，那么便可通过Flame模型拟合构建个性化的模型，然后通过改变表情参数、动作参数，从而生成一些新的表情、动作的3D数据。

S1012，采用DeepSpeech方法针对所述目标音频进行处理得到每一帧的音频特征。

具体地，DeepSpeech是一个采用PaddlePaddle平台的端到端自动语音识别（ASR）引擎的开源项目，所选用的DeepSpeech方法为初始版本，使用ADAM优化算法，固定学习率为0.0001，在GXT3090上运行大约需要15秒。

S1013，通过卷积神经网络及多层感知机将所述目标音频转换成相对应的局部特征及全局特征。

具体地，采用卷积神经网络（CNN）和多层感知机（MLP）作为音频编码器的核心结构，将音频特征A_t作为音频编码器的输入，用音频编码器得到音频的局部特征A_t ^I和全局特征A_t ^g。其中，局部特征可以独立地控制面部网格的每个顶点，而全局特征对于所有顶点的控制程度都是一致的，这种层次化的特征有助于面部运动的学习。

S102，基于获取的面部网格顶点索引得到具有若干网格顶点的网格特征，并提取所述若干网格顶点之间的拓扑关系。

具体地，首先将面部网格读入，所有的面部网格共享相同的拓扑关系，因此对面部网格顶点索引的嵌入会比对顶点坐标的嵌入更加有效。

进一步地，本实施例的步骤S102的具体步骤包括：

S1021，获取面部网格顶点索引。

具体地，通过几何体BufferGeometry的顶点索引属性BufferGeometry.index可以设置几何体顶点索引数据，基于此方法可以获取面部网格顶点索引。

S1022，将所述面部网格顶点索引通过傅里叶嵌入得到具有若干网格顶点的网格特征。

具体地，将输入的头部网格顶点索引I^N通过傅里叶嵌入得到一组网格特征M^N，其中为网格顶点数量。其中，近似周期性的方波（橙色），可采用6组正弦波（蓝色）合成，这是傅里叶的基础。傅里叶变换是一种信号分析方法，对信号的构成和特点进行深入的、定量的研究。把信号通过频谱的方式进行准确的、定量的描述。将原来难以处理的时域信号转换成易于分析的频域信号，即傅里叶变换的核心是从时域到频域的变换。本实施例中，通过将局部和全局的音频特征与面部网格中每个顶点索引的傅里叶嵌入特征相结合，设计一个新颖的音频-顶点层次特征。

S1023，采用trimesh方法提取所述若干网格顶点之间的拓扑关系。

具体地，充分利用人脸模型的拓扑结构，并通过trimesh方法提取若干网格顶点之间的拓扑关系。其中，Trimesh是纯Python(2.7-3.5+)库，用于加载和使用三角形网格；该库的目标是提供一个功能齐全、经过良好测试的Trimesh对象，允许简单的操作和分析，风格与Shapely库中的Polygon对象相同。

S103，根据所述局部特征、所述全局特征及所述网格特征得到混合特征，将基于所述拓扑关系聚合得到每一所述网格顶点与所述目标音频对应的即时位移。

具体地，充分利用人脸模型的拓扑结构，并采用一个图卷积神经网络来进一步融合顶点的层次特征，最后神经网络将预测与目标音频对应的每个顶点的位移。

进一步地，本实施例步骤S103的具体步骤包括：

S1031，将所述局部特征、所述全局特征及所述网格特征进行融合得到混合特征。

具体地，融合目标音频的局部特征A_t ^I和全局特征A_t ^g以及网格特征M^N，即把它们连接起来，得到一个混合特征F_t ^N。

S1032，采用图神经网络针对所述混合特征进行注意力上的充分交流，以使所述混合特征通过所述拓扑关系先验层聚合。

具体地，采用图神经网络（GNN）对混合特征F_t ^N进行注意力上的充分交流，使得语音空间到面部动作空间的跨越更加容易和准确。本实施例中，将F_t ^N和拓扑关系作为输入，这个顶点的混合特征F_t ^N通过图神经网络基于网格拓扑关系进行注意力上的充分交流，使得在网格拓扑关系先验层进行层聚合。

S1033，输出每一所述网格顶点与所述目标音频对应的即时位移。

具体地，将F_t ^N和拓扑关系作为输入，混合特征F_t ^N通过网格拓扑关系先验层层聚合，最终输出每个顶点在此时和语音对应的位移D_t ^N。

S104，将所述即时位移进行训练处理，并将训练处理后的所述即时位移和原始头部模板相加得到位移头部模块。

具体地，训练时所采用的损失函数不仅要考虑每一帧的准确性，而且要注意时间维度上的连续性。因为扫描数据的误差和缺失，需要对数据进行拟合平滑，得到较为完美的3D数据。

进一步地，本实施例的步骤S104的具体步骤包括：

S1041，采用第一目标函数限制所述即时位移的误差；其中，所述第一目标函数为：

式中，表示在时刻i预测出的顶点位移，D_i表示在时刻i真实的顶点位移， ₁表示1范数。

具体地，对于预测出的顶点位移误差进行限制，以保证语音和运动的一致性，简言之面部运动和音频的对应关系要准确。本实施例通过第一目标函数可以针对即时位移的误差进行限制，以确保面部运动与语音音频对应关系的准确度。

S1042，采用第二目标函数针对限制误差处理后的相邻两帧即时位移进行平滑性约束；其中，所述第二目标函数为：

式中，表示在时刻i-1预测出的顶点位移，D_i-1表示在时刻i-1真实的顶点位移，/> ₁表示1范数。

具体地，通过第二目标函数创建相邻两帧即时位移之间的平滑度约束，针对所得到的相邻两帧即时位移的数据进行拟合平滑处理，目的在于提高数据的完美度，以保持运动的连贯性。

S1043，将平滑性约束后的所述即时位移和原始头部模板相加得到位移头部模块。

具体地，基于前后两帧图片之间的运动变化应该较小的原则，通过对预测出的即时位移的误差限制以及相邻两帧即时位移之间的平滑度约束，可以改善图像的割裂感，提高视觉效果。

S105，通过学习所述目标音频的梅尔谱图特征与头部姿势之间的关系并限制头部姿势的误差，将限制误差后的头部姿势应用至所述位移头部模块，以合成三维姿态的面部动画。

具体地，为了合成具有姿态差异的逼真面部动画，在二维人脸技术的基础上建立新颖的姿态属性增强方法，然后基于自适应头部姿态预测网络来产生与输入音频相对应的逼真头部运动。

进一步地，本实施例的步骤S105的具体步骤包括：

S1051，通过MakeItTalk及DECA生成与所述目标音频相对应的真实头部姿势。

具体地，根据二维视频中各种头部姿势的海量训练数据，二维人脸动画的合成具有巨大的优势。虽然二维人脸动画不能像三维合成方法那样呈现出真实的面部图像，特别是在有明显遮挡的情况下，但二维方法可以利用二维视频中各种头部姿势的大量训练数据，产生多样化的头部姿势。本实施例中，由于现有数据集中不存在带有头部姿势的语音对齐的网格序列，采用MakeItTalk和DECA生成和语音音频对应的头部姿势作为真值。

其中，该步骤具体包括：

步骤一，获取任一人物的正面头像图片及其对应的语音；

步骤二，基于所述正面头像图片及所述语音采用MakeItTalk方法生成带有头部姿势运动的语音视频；

步骤三，采用DECA方法针对所述语音视频中的头部进行重建，并提取每一时刻的头部姿势；

步骤四，以所述头部姿势中的第一帧头部姿势为基准，计算其他帧的头部姿势与所述第一帧头部姿势的帧差得到帧差序列，将所述帧差序列作为所述目标音频相对应的真实头部姿势。

S1052，将所述目标音频进行映射得到梅尔谱图特征。

具体地，将音频映射为梅尔谱图（Melspectrogram）特征M_t。梅尔谱图更贴近于人耳感知频率而非音频文本内容，这更加符合人类说话时头部姿势的变化规律。

S1053，采用循环神经网络学习所述梅尔谱图特征和所述真实头部姿势之间的关系得到预测头部姿势。

具体地，在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题却无能无力。循环神经网络很好解决传统的神经网络模型的弊端。循环神经网路的具体表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。本实施例需要对现有数据集进行增强，在其中加入和语音对应的头部姿势，在考虑语音和头部姿势的对应时要保证变化的连贯，循环神经网络为最佳选择。

S1054，基于所述真实头部姿势及所述预测头部姿势并采用第三目标函数限制头部姿势误差；其中，所述第三目标函数为：

S1055，将限制误差后的头部姿势应用至所述位移头部模块，以合成三维姿态的面部动画。

具体地，将头部姿势应用到加上位移后的头部模板。此处头部姿势的表示形式为旋转向量，并且根据头部的不同位置应用相应的旋转系数；其中肩膀处的系数最小，脖子处次之，面部最大，这和现实生活中人们说话时的头部姿势相符。

综上所述，通过两个神经网络来提取目标音频的全局和局部特征，通过两个神经网络来提取音频信号的全局及局部特征，其中局部特征对于面部运动细节的促进作用，同时全局特征可以更好地保持结果的稳定性，解决现有语音驱动的三维人脸动画合成方法缺乏面部运动细节的问题。再通过将全局和局部的音频特征与面部网格中每个顶点索引的傅里叶嵌入特征相结合，设计层次化的音频-顶点注意力；并基于层次化的音频-顶点注意力可生成带有头部姿势运动的三维人脸动画，解决现有语音驱动的三维人脸动画合成方法中头部姿势变化缺失的问题。如图2所示，最左边第一个为原始模板人脸，右边最上面是音频的波形图，下面的一行即为本发明的动画结果，每个结果对应于音频的方框标注。其中虚线箭头为原始模板法线，实线箭头为此刻带有头部姿势的人脸法线。可以看出，通过上述步骤可以成功地生成带有头部姿势的语音驱动的三维人脸动画。

实施例2

本实施例提供了与实施例1所述方法相对应的系统的结构框图。图3是根据本申请实施例的三维面部动画合成系统的结构框图，如图3所示，该系统包括：

转换模块10，用于将获取的目标音频转换成相对应的局部特征及全局特征；

提取模块20，用于基于获取的面部网格顶点索引得到具有若干网格顶点的网格特征，并提取所述若干网格顶点之间的拓扑关系；

聚合模块30，用于根据所述局部特征、所述全局特征及所述网格特征得到混合特征，将基于所述拓扑关系聚合得到每一所述网格顶点与所述目标音频对应的即时位移；

训练模块40，用于将所述即时位移进行训练处理，并将训练处理后的所述即时位移和原始头部模板相加得到位移头部模块；

合成模块50，用于通过学习所述目标音频的梅尔谱图特征与头部姿势之间的关系并限制头部姿势的误差，将限制误差后的头部姿势应用至所述位移头部模块，以合成三维姿态的面部动画。

进一步地，所述转换模块10包括：

采集单元11，用于采集待处理的目标音频；

处置单元12，用于采用DeepSpeech方法针对所述目标音频进行处理得到每一帧的音频特征；

转换单元13，用于通过卷积神经网络及多层感知机将所述目标音频转换成相对应的局部特征及全局特征。

进一步地，所述提取模块20包括：

获取单元21，用于获取面部网格顶点索引；

嵌入单元22，用于将所述面部网格顶点索引通过傅里叶嵌入得到具有若干网格顶点的网格特征；

提取单元23，用于采用trimesh方法提取所述若干网格顶点之间的拓扑关系。

进一步地，所述聚合模块30包括：

融合单元31，用于将所述局部特征、所述全局特征及所述网格特征进行融合得到混合特征；

聚合单元32，用于采用图神经网络针对所述混合特征进行注意力上的充分交流，以使所述混合特征通过所述拓扑关系先验层聚合；

输出单元33，用于输出每一所述网格顶点与所述目标音频对应的即时位移。

进一步地，所述训练模块40包括：

限制单元41，用于采用第一目标函数限制所述即时位移的误差；其中，所述第一目标函数为：

约束单元42，用于采用第二目标函数针对限制误差处理后的相邻两帧即时位移进行平滑性约束；其中，所述第二目标函数为：

叠加单元43，用于将平滑性约束后的所述即时位移和原始头部模板相加得到位移头部模块。

进一步地，所述合成模块50包括：

生成单元51，用于通过MakeItTalk及DECA生成与所述目标音频相对应的真实头部姿势；

映射单元52，用于将所述目标音频进行映射得到梅尔谱图特征；

学习单元53，用于采用循环神经网络学习所述梅尔谱图特征和所述真实头部姿势之间的关系得到预测头部姿势；

限误单元54，用于基于所述真实头部姿势及所述预测头部姿势并采用第三目标函数限制头部姿势误差；其中，所述第三目标函数为：

合成单元55，用于将限制误差后的头部姿势应用至所述位移头部模块，以合成三维姿态的面部动画。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

实施例3

结合图1所描述的三维面部动画合成方法可以由电子设备来实现。图4为根据本实施例的电子设备的硬件结构示意图。

电子设备可以包括处理器61以及存储有计算机程序指令的存储器62。

具体地，上述处理器61可以包括中央处理器（CPU），或者特定集成电路（Application Specific Integrated Circuit，简称为ASIC），或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器62可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器62可包括硬盘驱动器（Hard Disk Drive，简称为HDD）、软盘驱动器、固态驱动器（SolidState Drive，简称为SSD）、闪存、光盘、磁光盘、磁带或通用串行总线（Universal SerialBus，简称为USB）驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器62可包括可移除或不可移除（或固定）的介质。在合适的情况下，存储器62可在数据处理装置的内部或外部。在特定实施例中，存储器62是非易失性（Non-Volatile）存储器。在特定实施例中，存储器62包括只读存储器（Read-Only Memory，简称为ROM）和随机存取存储器（RandomAccess Memory，简称为RAM）。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM（Programmable Read-Only Memory，简称为PROM）、可擦除PROM（Erasable ProgrammableRead-Only Memory，简称为EPROM）、电可擦除PROM（Electrically Erasable ProgrammableRead-Only Memory，简称为EEPROM）、电可改写ROM（Electrically Alterable Read-OnlyMemory，简称为EAROM）或闪存（FLASH）或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器（Static Random-Access Memory，简称为SRAM）或动态随机存取存储器（Dynamic Random Access Memory，简称为DRAM），其中，DRAM可以是快速页模式动态随机存取存储器（Fast Page Mode Dynamic Random Access Memory，简称为FPMDRAM）、扩展数据输出动态随机存取存储器（Extended Date Out Dynamic RandomAccess Memory，简称为EDODRAM）、同步动态随机存取内存（Synchronous Dynamic Random-Access Memory，简称SDRAM）等。

存储器62可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器61所执行的可能的计算机程序指令。

处理器61通过读取并执行存储器62中存储的计算机程序指令，以实现上述实施例1的三维面部动画合成方法。

在其中一些实施例中，电子设备还可包括通信接口63和总线60。其中，如图4所示，处理器61、存储器62、通信接口63通过总线60连接并完成相互间的通信。

通信接口63用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信接口63还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线60包括硬件、软件或两者，将设备的部件彼此耦接在一起。总线60包括但不限于以下至少之一：数据总线（Data Bus）、地址总线（Address Bus）、控制总线（ControlBus）、扩展总线（Expansion Bus）、局部总线（Local Bus）。举例来说而非限制，总线60可包括图形加速接口（Accelerated Graphics Port，简称为AGP）或其他图形总线、增强工业标准架构（Extended Industry Standard Architecture，简称为EISA）总线、前端总线（FrontSide Bus，简称为FSB）、超传输（Hyper Transport，简称为HT）互连、工业标准架构（Industry Standard Architecture，简称为ISA）总线、无线带宽（InfiniBand）互连、低引脚数（Low Pin Count，简称为LPC）总线、存储器总线、微信道架构（Micro ChannelArchitecture，简称为MCA）总线、外围组件互连（Peripheral Component Interconnect，简称为PCI）总线、PCI-Express（PCI-X）总线、串行高级技术附件（Serial AdvancedTechnology Attachment，简称为SATA）总线、视频电子标准协会局部（Video ElectronicsStandards Association Local Bus，简称为VLB）总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线60可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

该电子设备可以基于获取到三维面部动画合成系统，执行本申请实施例1的三维面部动画合成方法。

另外，结合上述实施例1的三维面部动画合成方法，本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例1的三维面部动画合成方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种三维面部动画合成方法，其特征在于，包括：

将获取的目标音频转换成相对应的局部特征及全局特征；

将所述即时位移进行训练处理，并将训练处理后的所述即时位移和原始头部模板相加得到位移头部模块；具体地，采用第一目标函数限制所述即时位移的误差；其中，所述第一目标函数为：

式中，表示在时刻i预测出的顶点位移，D_i表示在时刻i真实的顶点位移，/> ₁表示1范数；

式中，表示在时刻i-1预测出的顶点位移，D_i-1表示在时刻i-1真实的顶点位移， ₁表示1范数；

将平滑性约束后的所述即时位移和原始头部模板相加得到位移头部模块；

2.根据权利要求1所述的三维面部动画合成方法，其特征在于，所述将获取的目标音频转换成相对应的局部特征及全局特征的步骤具体包括：

采集待处理的目标音频；

3.根据权利要求1所述的三维面部动画合成方法，其特征在于，所述基于获取的面部网格顶点索引得到具有若干网格顶点的网格特征，并提取所述若干网格顶点之间的拓扑关系的步骤具体包括：

获取面部网格顶点索引；

采用trimesh方法提取所述若干网格顶点之间的拓扑关系。

4.根据权利要求1所述的三维面部动画合成方法，其特征在于，所述根据所述局部特征、所述全局特征及所述网格特征得到混合特征，将基于所述拓扑关系聚合得到每一所述网格顶点与所述目标音频对应的即时位移的步骤具体包括：

输出每一所述网格顶点与所述目标音频对应的即时位移。

5.根据权利要求1所述的三维面部动画合成方法，其特征在于，所述通过学习所述目标音频的梅尔谱图特征与头部姿势之间的关系并限制头部姿势的误差，将限制误差后的头部姿势应用至所述位移头部模块，以合成三维姿态的面部动画的步骤包括：

将所述目标音频进行映射得到梅尔谱图特征；

式中，表示i时刻的预测头部姿势，/>表示i时刻的真实头部姿势，/> ₂表示2范数；

6.根据权利要求5所述的三维面部动画合成方法，其特征在于，所述通过MakeItTalk及DECA生成与所述目标音频相对应的真实头部姿势的步骤具体包括：

获取任一人物的正面头像图片及其对应的语音；

7.一种三维面部动画合成系统，其特征在于，包括：

训练模块，用于将所述即时位移进行训练处理，并将训练处理后的所述即时位移和原始头部模板相加得到位移头部模块；具体地，所述训练模块包括：

叠加单元，用于将平滑性约束后的所述即时位移和原始头部模板相加得到位移头部模块；

8.一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1～6中任一项所述的三维面部动画合成方法。

9.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1～6中任一项所述的三维面部动画合成方法。