CN115937369A

CN115937369A - 一种表情动画生成方法、系统、电子设备及存储介质

Info

Publication number: CN115937369A
Application number: CN202211455438.XA
Authority: CN
Inventors: 刘逸颖; 李融; 李萌坚
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-11-21
Filing date: 2022-11-21
Publication date: 2023-04-07

Abstract

本发明涉及一种表情动画生成方法，包括：构建表情动画生成模型，表情动画生成模型包括文本特征编码器、语音特征编码器、表情解码器和线性层；构建训练数据集；使用训练数据集对表情动画生成模型进行训练；获取相对应的文本数据和语音数据，基于文本数据和语音数据获取文本特征和语音特征，将文本特征和语音特征输入训练好的表情动画生成模型，得到3D表情动画数据；将3D表情动画数据重定向到目标数字人脸上，在目标数字人脸上生成表情动画。与现有技术相比，本发明只需要使用语音数据和文本数据就可以完成整个人脸的表情动画生成，硬件成本和计算复杂度低，而且，通过将3D表情动画数据重定向到目标数字人脸，输出更为灵活。

Description

一种表情动画生成方法、系统、电子设备及存储介质

技术领域

本发明涉及表情生成技术领域，尤其是涉及一种多模态驱动的表情动画生成方法、系统、电子设备及存储介质。

背景技术

随着人工智能技术的发展以及“元宇宙”概念的提出，虚拟数字人的表情生成技术成为了热门研究课题，它在动画影视创作，游戏、虚拟现实以及人机交互中有着非常广泛的应用。根据输入的不同，可以将表情生成分为基于视频驱动的和基于语音/文本驱动的。其中视频驱动的表情动画生成技术发展较为成熟，而语音/文本驱动的人脸动画生成技术，虽然早在上世纪70年代就被提出，但直到随着近年人工智能的发展，才得到快速的发展。目前，如何生成更生动自然的人脸动画、非机械化的表情是重点研究目标。

常用的方案或是仅输入语音，或是仅输入文本。输入语音的方法可以分为两类，一类是将原始的语音特征作为输入，这种方式依赖大量的训练数据，并且得到的结果是个性化的，泛化能力较弱，需针对特定人训练特定的网络参数；另一类是使用一个经大规模语料训练的声学模型进行语音的预处理，这丢失了大量的语调、情感特征。输入文本的方法，一种一般的做法是构建文本和表情的一一映射表，从而得到对应人脸动画，这种方式生成的动画过于呆板，丢失了情感信息，另一种是使用语音合成技术生成语音后进行表情生成，这将面临和仅输入语音相同的问题。

现有技术中，为提高动画的真实性、生动性，有研究人员考虑多模态输入的方案，如申请号为CN202110718414.8的中国发明专利申请“基于多模态驱动的情感可控面部动画生成方法”和申请号为CN202210744504.9的中国发明专利申请“基于多模态驱动的情感可控面部动画生成方法”，通过输入额外的视频信息来提高生成面部动画的情绪表达，论文《Audio-and Gaze-driven Facial Animation of Codec Avatars》通过加入眼球跟踪信息来增加上半面部表情的感染力。但是这些方法都需要额外的视觉传感器，增加了硬件成本，且图像的处理需要耗费较大的计算资源。申请号为CN202110021844.4的中国发明专利申请“虚假人脸动画合成方法”中，通过语音信息中的多帧音频特征和文本信息中的多帧韵律特征以及编码器-解码器网络生成人脸草图，一方面，该申请使用了Merlin等语音合成框架提供的韵律特征，但是，语音才能够最直观的反应韵律特征，文本合成的韵律特征存在和原始语音表达不符的情况，反而有可能起到相反的作用，另一方面，其解码器只输出了下半面部的2D关键点运动，上半面部的特征需使用原始视频得到，计算复杂度高，且最终的输出只能对应于特定的输入视频。

因此，有必要提供一种硬件成本低、计算复杂度低且输出灵活的表情生成方案。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种表情动画生成方案。

本发明的目的可以通过以下技术方案来实现：

本发明实施例提供一种表情动画生成方法，包括：构建表情动画生成模型，所述表情动画生成模型包括文本特征编码器、语音特征编码器、表情解码器和线性层，所述表情动画生成模型的输入为文本特征和语音特征，所述表情动画生成模型的输出为3D表情动画数据；构建训练数据集；使用所述训练数据集对所述表情动画生成模型进行训练，得到训练好的表情动画生成模型；获取相对应的文本数据和语音数据，基于所述文本数据和语音数据获取文本特征和语音特征，将所述文本特征和语音特征输入所述训练好的表情动画生成模型，得到3D表情动画数据；将所述3D表情动画数据重定向到目标数字人脸上，在目标数字人脸上生成表情动画。

可选的，基于所述文本数据和语音数据获取文本特征和语音特征具体为：将所述文本数据与语音数据进行音素级的对齐，得到各个时段的语音对应的音素，将音素进行序列化后作为文本特征；提取语音数据的梅尔频率倒谱系数MFCC作为语音特征。

可选的，所述文本特征编码器的输入为文本特征，所述语音特征编码器的输入为语音特征和文本特征编码器的输出，所述表情解码器的输入包括表情解码器上一时刻的输出以及文本特征编码器输出与语音特征编码器输出的连接，所述线性层的输入为表情解码器的输出，所述线性层的输出为3D表情动画数据。

可选的，所述文本特征编码器包括第一嵌入层和多个堆叠的文本特征编码块；所述第一嵌入层的输入为文本特征，所述第一嵌入层的输出为添加了位置编码的文本特征向量；所述文本特征编码块包括多头注意力层和第一全连接层，所述多头注意力层的输入为添加了位置编码的文本特征向量，所述多头注意力层的输出进行残差连接以及归一化处理后送入第一全连接层，所述第一全连接层的输出进行残差连接以及归一化处理后得到文本输出向量，各个文本特征编码块的文本输出向量序列化后作为文本特征编码器的输出。

可选的，所述语音特征编码器包括第二嵌入层和多个堆叠的语音特征编码块；所述第二嵌入层的输入为语音特征，所述第二嵌入层的输出为添加了位置编码的语音特征向量；所述语音特征编码块包括第一交叉模态多头注意力层和第二全连接层，所述第一交叉模态多头注意力层的输入为添加了位置编码的语音特征向量以及文本特征编码器的输出，所述第一交叉模态多头注意力层的输出进行残差连接以及归一化处理后送入第二全连接层，所述第二全连接层的输出进行残差连接以及归一化处理后得到语音输出向量，各个语音特征编码块的语音输出向量序列化后作为语音特征编码器的输出。

可选的，所述表情解码器包括第三嵌入层和多个堆叠的解码块；所述第三嵌入层的输入为表情解码器上一时刻的输出，所述第三嵌入层的输出为第一特征向量；所述解码块包括线性偏差多头注意力层、第二交叉模态多头注意力层和第三全连接层，所述线性偏差多头注意力层的输入为第一特征向量，所述线性偏差多头注意力层的输出进行残差连接以及归一化处理后送入第二交叉模态多头注意力层，所述第二交叉模态多头注意力层的输入还包括文本特征编码器输出与语音特征编码器输出的连接，所述第二交叉模态多头注意力层的输出进行残差连接以及归一化处理后送入第三全连接层，所述第三全连接层的输出进行残差连接以及归一化处理后得到表情输出向量，各个解码块的表情输出向量序列化后作为表情解码器的输出。

可选的，使用所述训练数据集对所述表情动画生成模型进行训练时，以损失函数收敛为目标进行训练，所述损失函数为顶点距离损失、时间连续性损失和网格形变损失的加权求和值。

可选的，确定真实3D表情动画数据对应的真实人脸网格，确定预测3D表情动画数据对应的预测人脸网格，所述顶点距离损失的值为：真实人脸网格的顶点与预测人脸网格的顶点之间的均方误差。

可选的，确定真实3D表情动画数据对应的真实人脸网格，确定预测3D表情动画数据对应的预测人脸网格，所述时间连续性损失的值为：真实人脸网格相邻帧的顶点位移与预测人脸网格相邻帧的顶点位移之间的均方误差。

可选的，确定真实3D表情动画数据对应的真实人脸网格，确定预测3D表情动画数据对应的预测人脸网格，获取预设置的中性人脸网格，所述网格形变损失的值为：真实人脸网格相对于中性人脸网格的形变与预测人脸网格相对于中性人脸网格的形变之间的均方误差。

可选的，将所述3D表情动画数据重定向到目标数字人脸上包括：

确定3D表情动画数据所对应的预测表情，获取一组预设置的表情基，获取预设置的中性表情；

以最小化各个表情基的偏差值与预测表情的差距为目标，求解各个表情基的系数，所述偏差值为表情基的系数与表情基的修正值的乘积，所述修正值为表情基与中性表情之间的差距；

获取目标数字人脸的中性表情，将表情基及其系数结合所述目标数字人脸的中性表情，在目标数字人脸上生成表情动画。

可选的，获取相对应的文本数据和语音数据包括：获取时间上同步、内容上相同的文本数据和语音数据。

可选的，获取相对应的文本数据和语音数据包括：获取文本数据，使用文本转语音方法，将所述文本数据转化为语音数据。

可选的，获取相对应的文本数据和语音数据包括：获取语音数据，使用语音转文本方法，将所述语音数据转化为文本数据。

本发明实施例提供一种表情动画生成系统，包括：

模型构建模块，用于构建表情动画生成模型，所述表情动画生成模型包括文本特征编码器、语音特征编码器、表情解码器和线性层，所述表情动画生成模型的输入为文本特征和语音特征，所述表情动画生成模型的输出为3D表情动画数据；

训练数据集构建模块，用于构建训练数据集；

训练模块，用于使用所述训练数据集对所述表情动画生成模型进行训练，得到训练好的表情动画生成模型；

预测模块，用于获取相对应的文本数据和语音数据，基于所述文本数据和语音数据获取文本特征和语音特征，将所述文本特征和语音特征输入所述训练好的表情动画生成模型，得到3D表情动画数据；

重定向模块，用于将所述3D表情动画数据重定向到目标数字人脸上，在目标数字人脸上生成表情动画。

本发明实施例提供一种电子设备，包括存储器和一个或多个处理器，所述存储器中存储有计算机程序，所述一个或多个处理器用于执行所述存储器上所存储的计算机程序来实现上述表情动画生成方法。

本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现上述表情动画生成方法。

与现有技术相比，本发明具有以下有益效果：

本发明不需要使用额外的传感器，只需要使用语音数据和文本数据就可以完成整个人脸的表情动画生成，语音和文本的数据处理复杂度也远低于图像，而且，通过将3D表情动画数据重定向到目标数字人脸，可以使得输出更为灵活，满足多种表情动画生成需求，而不局限于对应特定视频。

附图说明

图1为表情动画生成方法的应用环境示意图；

图2为表情动画生成方法的流程图；

图3为实施例1中表情动画生成模型的整体结构示意图；

图4为实施例1中文本特征编码器的结构示意图；

图5为实施例1中语音特征编码器的结构示意图；

图6为实施例1中表情解码器的结构示意图；

图7为表情动画生成系统的示意图；

附图标记：100、终端，1、模型构建模块，2、训练数据集构建模块，3、训练模块，4、预测模块，5、重定向模块。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例，本发明的保护范围不限于下述的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本发明的描述中，需要理解的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本说明书提供了如实施例或流程示意图的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)，或者调整没有时序限制的步骤的执行顺序。

实施例1

根据背景技术的记载，本申请所要解决的技术问题是提供一种硬件成本低、计算复杂度低且输出灵活的表情动画生成方案。

为解决上述技术问题，在本发明实施例中，提供了一种表情动画生成方法的实施例，作为一种可选的实施方式，该表情动画生成方法可以但不限于应用于如图1所示的应用环境中，终端100中运行有表情动画编辑应用，在该应用中获取相对应的文本数据和音频数据，获取目标数字人脸，基于文本数据和音频数据和标签动画生成模型得到3D表情动画数据，3D表情动画数据本质是每个时段3D人脸的顶点位移，将3D表情动画数据重定向到目标数字人脸，从而在目标数字人脸上生成表情动画。

其中，表情动画生成模型包括文本特征编码器、语音特征编码器、表情解码器和线性层，表情动画生成模型的输入为文本特征和语音特征，表情动画生成模型的输出为3D表情动画数据。

不同于韵律特征，本发明使用的音素特征，直接和嘴型发音相关，能够最直观的反映原始表达。本发明将语音和文本两种模态的信息共同作为表情动画生成模型的输入，原始语音的特征保留了音色、音调、情感等信息，而文本中包含了非常确定性的发音信息，即音素，避免了表情动画生成模型从语音中提取发音信息所产生的不确定性，将语音和文本特征进行融合能够大大减少对训练数据量的依赖，同时能够产生更高精度和更生动的面部动画。

在本实施例中，终端可以包括但不限于以下至少之一：手机、平板电脑、笔记本电脑、台式PC机及其他用于生成表情动画的硬件设备。上述只是一种示例，本实施例对此不做任何限定。

在本实施例中，表情动画生成方法可以但不限于应用于需要编辑表情动画的应用，例如应用于游戏、直播中虚拟人物的表情动画生成，可以将虚拟人物的人脸作为目标数字人脸，获取游戏、直播场景下的语音和文本数据，从而完成虚拟人物的表情动画生成。上述仅是一种示例，本实施例中对此不做任何限定。

根据本实施例，提供了一种表情动画生成方法，如图2所示，包括：

S1、构建表情动画生成模型，表情动画生成模型包括文本特征编码器、语音特征编码器、表情解码器和线性层，表情动画生成模型的输入为文本特征和语音特征，表情动画生成模型的输出为3D表情动画数据；

如图3所示，表情动画生成模型中，包含两个输入和一个输出，输入Input1为文本特征

输入Input2为语音特征

输出Output为3D表情动画数据；文本特征编码器的输入为文本特征

语音特征编码器的输入为语音特征

和文本特征编码器的输出

表情解码器的输入包括h₀,h₁,…,h_t和

其中，h₀,h₁,…,h_t为文本特征编码器输出

与语音特征编码器输出

的连接，

为表情解码器上一时刻的输出；线性层的输入为表情解码器的输出

线性层的输出为3D表情动画数据，即每个时段3D人脸的顶点位移。

如图4所示，文本特征编码器包括第一嵌入层和多个堆叠的文本特征编码块；第一嵌入层是一个可学习的Embedding层，为了使网络具备捕获时序信息的能力，对经过Embedding层编码的特征中加入了位置编码，第一嵌入层的输入为文本特征，第一嵌入层的输出为添加了位置编码的文本特征向量；每个文本特征编码块包含两个子层，多头注意力层为一个多头注意力层，第一全连接层为一个全连接层(fully connected layers，FC)；多头注意力层的输出进行残差连接以及归一化处理后送入第一全连接层，第一全连接层的输出进行残差连接以及归一化处理后得到文本输出向量，各个文本特征编码块的文本输出向量序列化后作为文本特征编码器的输出。本实施例中，文本特征编码块的数量设置为Na＝3，Na表示文本特征编码块的个数，图中未完全示出；其他实施方式中，本领域技术人员可以根据经验、资源耗费量、表情动画生成效果的需要等调整文本特征编码块的个数，如4个、6个等。

如图5所示，语音特征编码器包括第二嵌入层和多个堆叠的语音特征编码块；第二嵌入层为一个可学习的Embedding层，为了使网络具备捕获时序信息的能力，对经过Embedding层编码的特征中加入了位置编码，第二嵌入层的输入为语音特征，第二嵌入层的输出为添加了位置编码的语音特征向量；每个语音特征编码块包含两个子层，第一交叉模态多头注意力层为一个交叉模态多头注意力层，第二全连接层为一个全连接层，第一交叉模态多头注意力层的输入为添加了位置编码的语音特征向量以及文本特征编码器的输出，第一交叉模态多头注意力层的输出进行残差连接以及归一化处理后送入第二全连接层，第二全连接层的输出进行残差连接以及归一化处理后得到语音输出向量，各个语音特征编码块的语音输出向量序列化后作为语音特征编码器的输出。本实施例中，语音特征编码块的数量设置为Nb＝6，Nb表示语音特征编码块的个数，图中未完全示出；其他实施方式中，本领域技术人员可以根据经验、资源耗费量、表情动画生成效果的需要等调整语音特征编码块的个数，如4个、7个等。

如图6所示，表情解码器包括第三嵌入层和多个堆叠的解码块；第三嵌入层为一个可学习的Embedding层，第三嵌入层的输入为表情解码器上一时刻的输出，第三嵌入层的输出为第一特征向量；解码块包含三个子层，线性偏差多头注意力层、第二交叉模态多头注意力层和第三全连接层；第二交叉模态多头注意力层为一个交叉模态多头注意力层，第三全连接层为一个全连接层。线性偏差多头注意力层的输入为第一特征向量，线性偏差多头注意力层的输出进行残差连接以及归一化处理后送入第二交叉模态多头注意力层，第二交叉模态多头注意力层的输入还包括文本特征编码器输出与语音特征编码器输出的连接，第二交叉模态多头注意力层的输出进行残差连接以及归一化处理后送入第三全连接层，第三全连接层的输出进行残差连接以及归一化处理后得到表情输出向量，各个解码块的表情输出向量序列化后作为表情解码器的输出。本实施例中，解码块的数量设置为Nc＝6，Nc表示解码块的个数，图中未完全示出；其他实施方式中，本领域技术人员可以根据经验、资源耗费量、表情动画生成效果的需要等调整解码块的个数，如3个、5个等。

其中，第三嵌入层的输入为表情解码器上一时刻的输出，线性偏差多头注意力层的输出进行残差连接以及归一化处理后送入第二交叉模态多头注意力层，第二交叉模态多头注意力层的输入还包括文本特征编码器输出与语音特征编码器输出的连接，因此，表情解码器既利用了文本特征编码器与语音特征编码器的输出，还结合了当前时刻之前的输出，最终生成的表情动画的连续性更好，更加生动。

上述文本特征编码器、语音特征编码器和表情解码器中使用的归一化处理为层归一化(Layer Normalization，LN)。

如图3所示，线性层为全连接结构，它将表情解码器输出的表情动作的潜在空间表达投影为3D人脸的顶点运动。

多头注意力机制(Multi Head Attention)是单头注意力机制的进化版，把每次attention运算分组(头)进行，能够从多个维度提炼特征信息。多头注意力层设计中，给定一个Query(查询)和一系列的Key-Value对一起映射出一个输出。文本特征编码器中包括多头注意力层，其Query向量，Key向量和Value向量均来自网络的上一层输出。

语音特征编码器和标签解码器中包括交叉模态多头注意力层，与多头注意力层相比，交叉模态多头注意力层的改进点在于其Query向量和Key向量并非网络的上一层输出。语音特征编码器中的第一交叉模态多头注意力层中，其Query向量和Key向量来自于文本特征编码器的输出，Value向量来自于网络的上一层输出。表情解码器中的第二交叉模态多头注意力层中，其Query向量和Key向量来自于文本特征编码器和文本特征编码器的输出，即文本特征编码器和语音特征编码器的输出连接后送入表情解码器的交叉模态多头注意力层，Value向量来自于网络的上一层输出。

线性偏差多头注意力层使用了论文《TRAIN SHORT,TEST LONG:ATTENTION WITHLINEAR BIASES ENABLES INPUT LENGTH EXTRAPOLATION》提出的ALiBi算法，它屏蔽了当前时段之后的信息，即将上一时刻的输出中当前时刻之后的信息屏蔽掉，并且给予与当前时段距离较近的特征更高的权重。

本发明对经过Embedding层编码的语音特征和文本特征中加入了位置编码，本实施例中使用了Sinusoidal位置编码，使得网络具备捕获时序信息的能力。

本发明中，一方面将文本编码器和语音编码器进行串联，能够引导语音模块的特征提取，忽略噪声的影响，使得网络具有更高的鲁棒性。另一方面，文本编码器的输出和语音编码器的输出又合并作为表情解码器的输入，原始语音的特征保留了音色、音调、情感等信息，文本中包含了非常确定性的发音信息，避免了网络从语音中提取发音信息所产生的不确定性，将语音和文本特征进行融合能够大大减少对训练数据量的依赖，同时能够产生更高精度和更生动的面部动画。

S2、构建训练数据集；

构建与表情动画生成模型相配合的训练数据集，其中，每个样本包括文本特征、语音特征和期望得到的3D人脸动画数据，3D人脸动画数据描述为每个时段3D人脸模型的顶点位移，可以理解的是，文本特征和语音特征应当是对齐的。

本实施例使用iphone手机采集10小时的训练数据，其中包含语音数据、文本数据和对应的人脸表情，将人脸表情转换为3D人脸动画数据，作为期望得到的3D人脸动画数据，使用的3D人脸网格包含1220个顶点和2304个面。

在其他实施方式中，也可以采集相对应的语音数据和文本数据，通过在线表情编辑软件生成一系列期望得到的表情，然后得到表情所对应的3D人脸动画数据。

首先使用语音文本对齐算法将采集的训练数据中的文本数据和语音数据在进行音素级的对齐，得到每个时段语音对应的音素。本实施例使用了开源语音-文本对齐系统(Montreal Forced Aligner，MFA)，进行文本语音的对齐。

然后提取音频特征和文本特征。本申请中语音数据的梅尔频率倒谱系数MFCC(Mel-Frequency Cepstral Coefficients，MFCC)作为语音特征；本实施例中，使用librosa进行MFCC特征地提取，并设置采样率为16000Hz,滑窗大小为0.02s,滑窗步长为0.02s，因此提取的MFCC特征的帧率为50fps，即每一帧包含了0.02s的语音信号。得到每个时段语音对应的音素后，将音素进行序列化后作为文本特征，即将音素表示为类别索引，使用类别索引来表示当前时段的音素的值。

S3、使用训练数据集对表情动画生成模型进行训练，得到训练好的表情动画生成模型；

将训练数据集按照6：2：2的比例分为训练集、验证集和测试集，对表情动画生成模型进行训练，训练过程中，以损失函数收敛为目标进行训练，损失函数为顶点距离损失、时间连续性损失和网格形变损失的加权求和值，如下：

Loss＝ω₁L_dist+ω₂L_time+ω₃L_deform

其中，Loss表示损失函数的函数值，L_dist表示顶点距离损失，L_time表示时间连续性损失，L_deform表示网格形变损失，ω₁、ω₂、ω₃分别表示顶点距离损失、时间连续性损失和网格形变损失的权重。

ω₁,ω₂,ω₃用于权衡损失函数的三个部分的比例，本实施例中，设置N＝1220，N表示3D人脸网格包含的顶点数，M＝2304，M表示3D人脸网格包含的面数，ω₁＝1，ω₂＝5，ω₂＝5，其他实施方式中，本领域技术人员可以根据经验和实际需要调整ω₁,ω₂,ω₃的取值，并重新设置N和M。

获取训练数据集中期望得到3D人脸动画数据，得到其对应的3D人脸模型/网格，称为真实人脸网格或真实人脸或真实人脸模型，获取表情动画生成模型输出的3D表情动画数据，得到其对应的3D人脸模型/网格，称为预测人脸网格或预测人脸或预测人脸模型；预设置一个中性表情的3D人脸模型/网格，称为中性人脸网格或中性人脸或中性人脸模型。

顶点距离损失的值为：真实人脸网格的顶点与预测人脸网格的顶点之间的均方误差，如下：

式中，L_dist表示顶点距离损失，p_i ^t为t时刻真实人脸第i个顶点的三维坐标，

为t时刻预测人脸第i个顶点的三维坐标N为人脸模型/网格的顶点数；

时间连续性损失的值为：真实人脸网格相邻帧的顶点位移与预测人脸网格相邻帧的顶点位移之间的均方误差，如下：

式中，L_time为时间连续性损失，计算真实人脸前后帧的顶点的位移和预测人脸前后帧的人脸顶点的位移之间的均方误差；

网格形变损失的值为：真实人脸网格相对于中性人脸网格的形变与预测人脸网格相对于中性人脸网格的形变之间的均方误差，如下：

式中，L_deform表示网格形变损失，

为t时刻真实人脸相对于中性人脸的形变，

为t时刻预测人脸相对于中性人脸的形变，M为3D人脸网格三角面片数，令p_j1,p_j2,p_j3和n_j分别为中性人脸的第j个面的三个顶点和法向量，

和

分别为t时刻真实人脸的第j个面的三个顶点和法向量，

和

分别为t时刻预测人脸的第j个面的三个顶点和法向量，则：

为了提高网络训练的稳定性，本实施例在训练数据集中期望得到3D人脸动画数据的顶点位移上计算50个PCA分量，并将其作为多模态驱动的表情动画生成模型的线性层的初始化权重参数。

当损失函数不再下降且在验证集上误差值稳定，停止训练，保存训练好的表情动画生成模型，在测试集上验证表情动画生成模型的精度，当误差低于设定阈值，完成表情动画生成模型的训练，否则，继续训练。

本发明提出的损失函数，不仅计算了真实顶点与预测顶点的误差，还构建的3D网格相邻顶点之间的形变误差，能够更好的模拟细微表情的面部肌肉变化，在训练过程中能够更快的收敛，并获得更高的精度。

S4、获取相对应的文本数据和语音数据，基于文本数据和语音数据获取文本特征和语音特征，将文本特征和语音特征输入训练好的表情动画生成模型，得到3D表情动画数据；

可以理解是的，文本数据和语音数据应当是相对应的，即时间同步、内容一致，获取相对应的文本数据和语音数据包括：获取时间上同步、内容上相同的文本数据和语音数据。

S5、将3D表情动画数据重定向到目标数字人脸上，在目标数字人脸上生成表情动画。

为了实现3D表情动画数据重定向到目标数字人脸上，本申请根据一组通用的表情基求解每个时段的表情系数，将表情系数应用到目标数字人脸上，实现数字人的表情驱动，包括以下步骤：

(1)确定表情动画生成模型预测得到的3D表情动画数据所对应的预测表情，获取一组预设置的表情基，获取预设置的中性表情；

(2)以最小化各个表情基的偏差值与预测表情的差距为目标，求解各个表情基的系数，偏差值为表情基的系数与表情基的修正值的乘积，修正值为表情基与中性表情之间的差距；

其中，通用的表情基，包含了FACS定义的面部动作运动单元。本实施例中，表情基使用了苹果ARkit的Blendshapes规范，共包含52个表情基，应用较为广泛，可以很好的与各种数字人兼容，每个表情基的语义如表1所示。当然，在其他实施方式中，也可以使用其他的规范，如nvidia的audio2face定义的Blendshapes和faceware的Blendshapes，还可以自定义一套Blendshapes。

表1ARkit混合形变列表

1.browDownLeft	19.eyeSquintLeft	36.mouthPressLeft
			2.browDownRight	20.eyeSquintRight	37.mouthPressRight
3.browInnerUp	21.eyeWideLeft	38.mouthPucker
			4.browOuterUpLeft	22.eyeWideRight	39.mouthRight
5.browOuterUpRight	23.jawForward	40.mouthRollLower
			6.cheekPuff	24.jawLeft	41.mouthRollUpper
7.cheekSquintLeft	25.jawOpen	42.mouthShrugLower
			8.cheekSquintRight	26.jawRight	43.mouthShrugUpper
9.eyeBlinkLeft	27.mouthClose	44.mouthSmileLeft
			10.eyeBlinkRight	28.mouthDimpleLeft	45.mouthSmileRight
11.eyeLookDownLeft	29.mouthDimpleRight	46.mouthStretchLeft
			12.eyeLookDownRight	30.mouthFrownLeft	47.mouthStretchRight
13.eyeLookInLeft	31.mouthFrownRight	48.mouthUpperUpLeft
			14.eyeLookInRight	32.mouthFunnel	49.mouthUpperUpRight
15.eyeLookOutLeft	33.mouthLeft	50.noseSneerLeft
			16.eyeLookOutRight	34.mouthLowerDownLeft	51.noseSneerRight
17.eyeLookUpLeft	35.mouthLowerDownRight	52.tongueOut
			18.eyeLookUpRight

通过最小化以下目标函数来计算表情系数：

式中，B₀为中性表情，B_i(i∈[1,2,…,n])为表情基，n为表情基的数量，w_i ^t∈[0,1为t时段第i个表情基的系数，

为t时段的预测表情；

(3)获取目标数字人脸的中性表情，将表情基及其系数结合目标数字人脸的中性表情，在目标数字人脸上生成表情动画。

将表情基应用的任意目标数字人脸上可表示为：

式中，T₀为目标数字人的中性表情，T_i(i∈[1,2,…,n])为目标数字人的表情基，F为目标数字人t时段的人脸表情，其中T_i和B_i语义对应，即T_i和B_i表达了相同的表情。

通过表情重定向，可以将3D表情动画数据应用到不同的人脸模型，适用性好，且表情自然生动。其他实施方式中，也可以使用其他方式将3D表情动画数据重定向到目标数字人脸，如使用机器学习算法、预设置人脸网格顶点对应的动画等。

本发明实施例还公开一种表情动画生成系统，如图7所示，包括：

模型构建模块1，用于构建表情动画生成模型，表情动画生成模型包括文本特征编码器、语音特征编码器、表情解码器和线性层，表情动画生成模型的输入为文本特征和语音特征，表情动画生成模型的输出为3D表情动画数据；

训练数据集构建模块2，用于构建训练数据集；

训练模块3，用于使用训练数据集对表情动画生成模型进行训练，得到训练好的表情动画生成模型；

预测模块4，用于获取相对应的文本数据和语音数据，基于文本数据和语音数据获取文本特征和语音特征，将文本特征和语音特征输入训练好的表情动画生成模型，得到3D表情动画数据；

重定向模块5，用于将3D表情动画数据重定向到目标数字人脸上，在目标数字人脸上生成表情动画。

其中，模型构建模块用于构建表情动画生成模型，它可以包括模型库、模型选择单元和参数调整单元，在模型库中存放多种神经网络模型，在构建表情动画生成模型时，通过模型选择单元从模型库中选择1个神经网络模型或组合多个神经网络模型得到初始的表情动画生成模型。模型构建模块还设有输入接口，也可以通过输入接口直接输入一个神经网络模型或神经网络模型组合得到初始的表情动画生成模型。在参数调整单元，可以手动调整初始的表情动画生成模型中的参数，如网络层数、初始权重、输入和输出层的节点数等，也可以设定好一些参数设置规则，如给定一个数据集，生成多个具有不同参数的表情动画生成模型，通过评估这些表情动画生成模型在给定的数据集上的性能来自动完成初始的参数设置。

训练数据集构建模块用于构建训练数据集。其输入为相对应的语音数据和文本数据，以及期望得到的3D表情动画数据，训练数据集构建模块包括训练数据获取单元、数据预处理单元、特征获取单元。训练数据获取单元包括输入接口，可以输入采集的训练数据，其中包含语音数据、文本数据和对应的人脸表情，在训练数据获取单元中将人脸表情转换为3D人脸动画数据，作为期望得到的3D人脸动画数据，使用的3D人脸网格包含1220个顶点和2304个面；训练数据获取单元也可以包括一些表情编辑的应用，直接获取相对应的语音数据和文本数据，通过在线表情编辑软件生成一系列期望得到的表情，然后得到表情所对应的3D人脸动画数据。数据预处理单元可以进行降噪、数据分割等操作；特征获取单元用于将语音数据和文本数据进行音素级对齐，并提取得到语音特征和文本特征。

训练模块用于使用训练数据集对表情动画生成模型进行训练，可以设置最大训练次数、训练终止条件等，还可以引入不同的性能评估指标，对每次训练后的表情动画生成模型进行评估，以判断表情动画生成模型是否满足要求。

预测模块包括输入接口，用于输入相对应的文本数据和语音数据，还包括特征获取单元，用于将语音数据和文本数据进行音素级对齐，并提取得到语音特征和文本特征，最后将语音特征和文本特征输入表情动画生成模型，得到表情动画生成模型输出的3D人脸动画数据；

重定向模块的输入为3D人脸动画数据和目标数字人脸，其中设置了多种通用的表情基，可以选择苹果ARkit的Blendshapes规范、nvidia的audio2face定义的Blendshapes、faceware的Blendshapes以及自定义的一套Blendshapes，进而将3D人脸动画数据结合表情基得到表情系数，再通过表情系数在目标数字人脸上生成表情动画。

本发明实施例还公开一种电子设备，包括存储器和一个或多个处理器(例如中央处理器(Central Processing Unit，CPU))，存储器中存储有计算机程序，一个或多个处理器用于执行存储器上所存储的计算机程序来实现上述表情动画生成方法。

本发明实施例还公开一种计算机可读存储介质，其上存储有计算机程序，计算机程序被执行时实现上述表情动画生成方法。

上述存储介质可以包括诸如非挥发性(non-volatile)存储器或者非瞬态(non-transitory)存储器等计算机可读存储介质。存储介质可以包括ROM、RAM、磁盘或光盘等。

实施例2

表情动画生成模型的网络结构可以进行适应性调整，如本实施例中，表情动画生成模块采用了Transformer结构，包含一个编码器，一个解码器和一个线性层，编码器又包含了语音特征编码器和文本特征编码器，表情动画生成模型的输入为文本特征和语音特征，表情动画生成模型的输出为3D表情动画数据；

其中，文本特征编码器和语音特征编码器的结构相似，均为实施例1中文本特征编码器的模型架构，区别在于文本特征编码块和语音特征编码块的数量是分别设置的，对文本特征编码器设置Na＝3，对语音特征编码器设置Nb＝6，文本特征编码器和语音特征编码器均使用多头注意力机制。

解码器的结构与实施例1中表情解码器的结构相同，使用了线性偏差多头注意力层和交叉模态多头注意力层，交叉模态多头注意力层中，Query向量和Key向量来自于文本特征编码器和文本特征编码器的输出，即文本特征编码器和语音特征编码器的输出连接后送入表情解码器的交叉模态多头注意力层，Value向量来自于网络的上一层输出。

在其他实施方式中，也可以根据需要使用TCN、GRU等网络设计表情动画生成模型的网络结构。

实施例3

本实施例中，对损失函数进行了调整，将损失函数定义为：1)真实人脸与预测人脸的均方误差；2)真实人脸前后帧的3D人脸顶点位移和预测人脸前后帧的3D人脸顶点位移之间的均方误差；1)和2)两部分的加权。

事实上，本实施例中的损失函数相当于实施例1中网格形变损失的权重ω₃取0时的损失函数。

在其他实施方式中，本领域人员也可以根据自身需要设计其他的损失函数，如最小化真实人脸网格的顶点与预测人脸网格的顶点之间的差值。

实施例4

在获取相对应的文本数据和语音数据时，若无法同时获得文本数据和语音数据，则需要扩充另一数据，如下：

若原始获取的数据只包含文本数据，则获取相对应的文本数据和语音数据包括：获取文本数据，可以通过TTS技术、安卓系统(Android)中的无障碍服务(AccessibilityService)类、基于机器学习模型的文本转语音方法等，将文本数据转化为语音数据。

若原始获取的数据只包含语音数据，则获取相对应的文本数据和语音数据包括：获取语音数据，可以通过STT技术、基于机器学习模型的语音转文本方法等，将语音数据转化为文本数据。

本发明只依赖文本数据和语音数据进行表情动画生成，而文本和语音之间的相互转换已是较为成熟的现有技术，所以本申请具有良好的扩展性，在仅有语音或仅有文本的情况下，可以通过语音转文本或者文本转语音得到对应的文本或语音，依然能够稳定的运行。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种表情动画生成方法，其特征在于，包括：构建表情动画生成模型，所述表情动画生成模型包括文本特征编码器、语音特征编码器、表情解码器和线性层，所述表情动画生成模型的输入为文本特征和语音特征，所述表情动画生成模型的输出为3D表情动画数据；构建训练数据集；使用所述训练数据集对所述表情动画生成模型进行训练，得到训练好的表情动画生成模型；获取相对应的文本数据和语音数据，基于所述文本数据和语音数据获取文本特征和语音特征，将所述文本特征和语音特征输入所述训练好的表情动画生成模型，得到3D表情动画数据；将所述3D表情动画数据重定向到目标数字人脸上，在目标数字人脸上生成表情动画。

2.根据权利要求1所述的一种表情动画生成方法，其特征在于，基于所述文本数据和语音数据获取文本特征和语音特征具体为：将所述文本数据与语音数据进行音素级的对齐，得到各个时段的语音对应的音素，将音素进行序列化后作为文本特征；提取语音数据的梅尔频率倒谱系数MFCC作为语音特征。

3.根据权利要求1所述的一种表情动画生成方法，其特征在于，所述文本特征编码器的输入为文本特征，所述语音特征编码器的输入为语音特征和文本特征编码器的输出，所述表情解码器的输入包括表情解码器上一时刻的输出以及文本特征编码器输出与语音特征编码器输出的连接，所述线性层的输入为表情解码器的输出，所述线性层的输出为3D表情动画数据。

4.根据权利要求3所述的一种表情动画生成方法，其特征在于，所述文本特征编码器包括第一嵌入层和多个堆叠的文本特征编码块；所述第一嵌入层的输入为文本特征，所述第一嵌入层的输出为添加了位置编码的文本特征向量；所述文本特征编码块包括多头注意力层和第一全连接层，所述多头注意力层的输入为添加了位置编码的文本特征向量，所述多头注意力层的输出进行残差连接以及归一化处理后送入第一全连接层，所述第一全连接层的输出进行残差连接以及归一化处理后得到文本输出向量，各个文本特征编码块的文本输出向量序列化后作为文本特征编码器的输出。

5.根据权利要求3所述的一种表情动画生成方法，其特征在于，所述语音特征编码器包括第二嵌入层和多个堆叠的语音特征编码块；所述第二嵌入层的输入为语音特征，所述第二嵌入层的输出为添加了位置编码的语音特征向量；所述语音特征编码块包括第一交叉模态多头注意力层和第二全连接层，所述第一交叉模态多头注意力层的输入为添加了位置编码的语音特征向量以及文本特征编码器的输出，所述第一交叉模态多头注意力层的输出进行残差连接以及归一化处理后送入第二全连接层，所述第二全连接层的输出进行残差连接以及归一化处理后得到语音输出向量，各个语音特征编码块的语音输出向量序列化后作为语音特征编码器的输出。

6.根据权利要求3所述的一种表情动画生成方法，其特征在于，所述表情解码器包括第三嵌入层和多个堆叠的解码块；所述第三嵌入层的输入为表情解码器上一时刻的输出，所述第三嵌入层的输出为第一特征向量；所述解码块包括线性偏差多头注意力层、第二交叉模态多头注意力层和第三全连接层，所述线性偏差多头注意力层的输入为第一特征向量，所述线性偏差多头注意力层的输出进行残差连接以及归一化处理后送入第二交叉模态多头注意力层，所述第二交叉模态多头注意力层的输入还包括文本特征编码器输出与语音特征编码器输出的连接，所述第二交叉模态多头注意力层的输出进行残差连接以及归一化处理后送入第三全连接层，所述第三全连接层的输出进行残差连接以及归一化处理后得到表情输出向量，各个解码块的表情输出向量序列化后作为表情解码器的输出。

7.根据权利要求1所述的一种表情动画生成方法，其特征在于，使用所述训练数据集对所述表情动画生成模型进行训练时，以损失函数收敛为目标进行训练，所述损失函数为顶点距离损失、时间连续性损失和网格形变损失的加权求和值。

8.根据权利要求7所述的一种表情动画生成方法，其特征在于，确定真实3D表情动画数据对应的真实人脸网格，确定预测3D表情动画数据对应的预测人脸网格，所述顶点距离损失的值为：真实人脸网格的顶点与预测人脸网格的顶点之间的均方误差。

9.根据权利要求7所述的一种表情动画生成方法，其特征在于，确定真实3D表情动画数据对应的真实人脸网格，确定预测3D表情动画数据对应的预测人脸网格，所述时间连续性损失的值为：真实人脸网格相邻帧的顶点位移与预测人脸网格相邻帧的顶点位移之间的均方误差。

10.根据权利要求7所述的一种表情动画生成方法，其特征在于，确定真实3D表情动画数据对应的真实人脸网格，确定预测3D表情动画数据对应的预测人脸网格，获取预设置的中性人脸网格，所述网格形变损失的值为：真实人脸网格相对于中性人脸网格的形变与预测人脸网格相对于中性人脸网格的形变之间的均方误差。

11.根据权利要求1所述的一种表情动画生成方法，其特征在于，将所述3D表情动画数据重定向到目标数字人脸上包括：确定3D表情动画数据所对应的预测表情，获取一组预设置的表情基，获取预设置的中性表情；以最小化各个表情基的偏差值与预测表情的差距为目标，求解各个表情基的系数，所述偏差值为表情基的系数与表情基的修正值的乘积，所述修正值为表情基与中性表情之间的差距；获取目标数字人脸的中性表情，将表情基及其系数结合所述目标数字人脸的中性表情，在目标数字人脸上生成表情动画。

12.根据权利要求1所述的一种表情动画生成方法，其特征在于，获取相对应的文本数据和语音数据包括：获取时间上同步、内容上相同的文本数据和语音数据。

13.根据权利要求1所述的一种表情动画生成方法，其特征在于，获取相对应的文本数据和语音数据包括：获取文本数据，使用文本转语音方法，将所述文本数据转化为语音数据。

14.根据权利要求1所述的一种表情动画生成方法，其特征在于，获取相对应的文本数据和语音数据包括：获取语音数据，使用语音转文本方法，将所述语音数据转化为文本数据。

15.一种表情动画生成系统，其特征在于，包括：

训练数据集构建模块，用于构建训练数据集；

16.一种电子设备，其特征在于，包括存储器和一个或多个处理器，所述存储器中存储有计算机程序，所述一个或多个处理器用于执行所述存储器上所存储的计算机程序来实现如权利要求1-14中任一项所述的表情动画生成方法。

17.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被执行时实现如权利要求1-14中任一项所述的表情动画生成方法。