CN116664731B

CN116664731B - 人脸动画生成方法及装置、计算机可读存储介质、终端

Info

Publication number: CN116664731B
Application number: CN202310753806.7A
Authority: CN
Inventors: 胡航海; 王晓梅; 沈旭立; 徐清; 戈维峰
Original assignee: Huayuan Computing Technology Shanghai Co ltd
Current assignee: Huayuan Computing Technology Shanghai Co ltd
Priority date: 2023-06-21
Filing date: 2023-06-21
Publication date: 2024-03-29
Anticipated expiration: 2043-06-21
Also published as: CN116664731A

Abstract

一种人脸动画生成方法及装置、计算机可读存储介质、终端，方法包括：对输入音频进行特征提取，得到语音特征序列；基于语音特征序列、参考人脸动画以及预训练模型，进行多轮迭代，得到多帧人脸生成动画，其中，在每轮迭代中，采用下述方式确定当前轮的人脸生成动画：基于之前各轮得到的人脸生成动画确定当前轮的人脸动画序列，并对当前轮的人脸动画序列、当前轮的初始化人脸动画以及参考人脸动画进行拼接；将当前轮的人脸动画拼接结果与当前轮的语音特征拼接结果输入预训练模型，得到预测噪声；采用预测噪声对当前轮的初始化人脸动画进行去噪处理，得到当前轮的人脸生成动画。上述方案有助于提高生成的人脸动画之间的表情状态的平滑性和连贯性。

Description

人脸动画生成方法及装置、计算机可读存储介质、终端

技术领域

本发明涉及人脸动画生成技术领域，尤其涉及一种人脸动画生成方法及装置、计算机可读存储介质、终端。

背景技术

人脸动画生成技术也称为从语音到人脸动画的映射技术，其通常是指从语音中预测表征视觉信息的三维人脸控制参数，通过寻找语音与三维人脸控制参数之间的复杂联系，建立非线性映射模型，获得与语音保持同步的三维人脸控制参数。

现有技术中，常用的人脸动画生成技术主要包括如下几种：

(1)构建从大量原始语音数据中学习帧级说话者特征的深度神经网络(DeepNeural Networks，DNN)模型。一方面，这种方法需要的模型参数较多、尺寸较大，进而导致模型训练时间较长；另一方面，在模型训练及推理过程中，仅考虑当前语音特征对生成的人脸动画的影响，而忽视了人脸动画中包含的情绪的时序性(所谓情绪的时序性是指时间点较近的各帧人脸动画中的人脸表情状态不会差别很大)；

(2)将卷积神经网络(Convolutional Neural Networks，CNN)直接应用于语音的语谱图，以端到端的方式学习语音情绪特征。该方法也未考虑人脸动画中包含的情绪的时序性，导致生成的人脸动画在前后帧之间的人脸表情状态差别较大。

发明内容

本发明实施例解决的技术问题是如何提高生成的各帧人脸动画之间的表情状态的平滑性和连贯性。

为解决上述技术问题，本发明实施例提供一种人脸动画生成方法，包括以下步骤：对输入音频进行特征提取，以得到语音特征序列；基于所述语音特征序列、参考人脸动画以及预训练模型，进行多轮迭代，以得到多帧人脸生成动画，其中，在每轮迭代中，采用下述方式确定当前轮的人脸生成动画：基于之前各轮得到的人脸生成动画确定当前轮的人脸动画序列，并对当前轮的人脸动画序列、当前轮的初始化人脸动画以及所述参考人脸动画进行拼接，得到当前轮的人脸动画拼接结果；将当前轮的人脸动画拼接结果与当前轮的语音特征拼接结果输入所述预训练模型，得到预测噪声；采用所述预测噪声对当前轮的初始化人脸动画进行去噪处理，得到当前轮的人脸生成动画，其中，当前轮的语音特征拼接结果是所述语音特征序列中与当前轮的人脸生成动画时序对齐的各帧语音特征的拼接结果。

可选的，基于之前各轮得到的人脸生成动画确定当前轮的人脸动画序列，包括：在当前轮迭代为首轮迭代时，采用第一预设帧数的所述参考人脸动画作为当前轮的人脸动画序列。

可选的，基于之前各轮得到的人脸生成动画确定当前轮的人脸动画序列，包括：确定之前各轮得到的人脸生成动画的总帧数；如果所述总帧数大于等于第一预设帧数，则从之前各轮得到的人脸生成动画中选取时序最近的所述第一预设帧数的人脸生成动画，以确定当前轮的人脸动画序列；如果所述总帧数小于所述第一预设帧数，则确定所述第一预设帧数与所述总帧数之差，记为目标帧数，并根据之前各轮得到的人脸生成动画以及所述目标帧数的参考人脸动画，确定当前轮的人脸动画序列。

可选的，所述从之前各轮得到的人脸生成动画中选取时序最近的所述第一预设帧数的人脸生成动画，以确定当前轮的人脸动画序列，包括：保持所选取的时序最近的所述第一预设帧数的人脸生成动画的时序先后顺序不变，以得到当前轮的人脸动画序列。

可选的，所述根据之前各轮得到的人脸生成动画以及所述目标帧数的参考人脸动画，确定当前轮的人脸动画序列，包括：设置所述目标帧数的参考人脸动画的时序位于首轮得到的人脸生成动画的时序之前，以及保持之前各轮得到的人脸生成动画的时序先后顺序不变，以得到当前轮的人脸动画序列。

可选的，对当前轮的人脸动画序列、当前轮的初始化人脸动画以及所述参考人脸动画进行拼接，得到当前轮的人脸动画拼接结果，包括：按照时序先后顺序，对当前轮的人脸动画序列中的各帧人脸动画进行拼接，以得到第一初步拼接结果；将所述参考人脸动画拼接至所述第一初步拼接结果的第一预设位置，得到第二初步拼接结果；将当前轮的初始化人脸动画拼接至所述第二初步拼接结果第第二预设位置，得到当前轮的人脸动画拼接结果。

可选的，满足以下一项或多项：满足以下一项或多项：所述第一预设位置为所述第一初步拼接结果的尾部位置；所述第二预设位置为所述参考人脸动画的尾部位置；所述拼接均为整体地拼接。

可选的，在每轮迭代中，所述初始化人脸动画是随机生成的人脸动画。

可选的，在进行多轮迭代之前，所述方法还包括：确定多帧样本人脸动画，对于每帧样本人脸动画，确定该帧样本人脸动画的标注噪声，以及采样时刻位于该帧样本人脸动画之前的第一预设帧数的历史样本人脸动画；对该帧样本人脸动画及其历史样本人脸动画、标注噪声以及所述参考人脸动画进行拼接，得到加噪人脸动画拼接结果，以及对与该帧样本人脸动画时序对齐的各帧样本语音特征进行拼接，得到样本语音特征拼接结果；采用所得到的多帧加噪人脸动画拼接结果和多帧样本语音特征拼接结果，构建训练数据集；基于预设的目标损失函数，将所述训练数据集输入初始化人脸动画生成模型进行训练，以得到所述预训练模型。

可选的，所述确定多帧样本人脸动画，包括：确定多个说话者在说话过程中的人脸动画文件；对每个说话者的人脸动画文件进行采样，以确定每个说话者各自对应的多帧人脸动画；分别从每个说话者各自对应的多帧人脸动画中，选取一帧或多帧人脸动画，以得到所述多帧样本人脸动画。

可选的，每帧样本人脸动画具有各自对应的子损失函数，所述目标损失函数是对所述多帧样本人脸动画的子损失函数进行加权运算得到的。

可选的，采用下述表达式，表示每帧样本人脸动画对应的子损失函数：

L_i＝‖n_i′-n_i‖²；

采用下述表达式，表示所述目标损失函数：

其中，L_i表示第i帧样本人脸动画对应的子损失函数，n_i ^′表示第i帧样本人脸动画输入所述初始化人脸动画生成模型后输出的预测噪声，n_i表示第i帧样本人脸动画的标注噪声，m表示样本人脸动画的总帧数，w_i表示第i帧样本人脸动画对应的子损失函数的权重。

可选的，所述初始化人脸动画生成模型包括多层Transformer层。

本发明实施例还提供一种人脸动画生成装置，包括：语音特征提取模块，用于对输入音频进行特征提取，以得到语音特征序列；迭代模块，用于基于所述语音特征序列、参考人脸动画以及预训练模型，进行多轮迭代，以得到多帧人脸生成动画，其中，在每轮迭代中，采用下述方式确定当前轮的人脸生成动画：基于之前各轮得到的人脸生成动画确定当前轮的人脸动画序列，并对当前轮的人脸动画序列、当前轮的初始化人脸动画以及所述参考人脸动画进行拼接，得到当前轮的人脸动画拼接结果；将当前轮的人脸动画拼接结果与当前轮的语音特征拼接结果输入所述预训练模型，得到预测噪声；采用所述预测噪声对当前轮的初始化人脸动画进行去噪处理，得到当前轮的人脸生成动画，其中，当前轮的语音特征拼接结果是所述语音特征序列中与当前轮的人脸生成动画时序对齐的各帧语音特征的拼接结果。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上述人脸动画生成方法的步骤。

本发明实施例还提供一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述人脸动画生成方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

现有技术中，通常仅考虑当前语音特征对生成的人脸动画的影响而忽视人脸动画中包含情绪的时序性，因此可能导致相关模型预测出的噪声数据不够准确，在去噪后得到人脸生成动画在前后帧之间的表情状态差别较大。相较而言，本发明实施例在每轮迭代中，所述预训练模型的输入数据中不仅包含当前轮的语音特征信息、当前轮的初始化人脸动画中的表情信息，还包含时序在前的多帧人脸生成动画中的表情信息(即，基于之前各轮得到的人脸生成动画确定的当前轮的人脸动画序列)。由此，采用本实施方案，有助于使得模型输出更加准确的预测噪声，实现在多轮迭代及去噪处理后获得的多帧人脸生成动画的表情状态之间更具平滑性以及连贯性，避免前后时序的人脸生成动画之间表情状态差异过大的问题。

进一步，对当前轮的人脸动画序列、当前轮的初始化人脸动画以及所述参考人脸动画进行拼接，得到当前轮的人脸动画拼接结果，包括：按照时序先后顺序，对当前轮的人脸动画序列中的各帧人脸动画进行拼接，以得到第一初步拼接结果；将所述参考人脸动画拼接至所述第一初步拼接结果的第一预设位置，得到第二初步拼接结果；将当前轮的初始化人脸动画拼接至所述第二初步拼接结果的第二预设位置，得到当前轮的人脸动画拼接结果。

在本发明实施例中，一方面，按照时序先后顺序拼接，可以保留原有时序顺序，避免时序打乱而影响后续的人脸生成动画的表情连贯性；另一方面，采用上述描述的拼接顺序，即“当前轮的人脸动画序列+参考人脸动画+当前轮的初始化人脸动画”，这种拼接顺序更加符合人脸动画的时序先后性，且可以和当前轮的语音特征拼接结果中的各帧语音特征的时序先后性尽可能一致。由此，有助于提高后续模型输出的预测噪声的准确性。

进一步，所述拼接均可以是整体地拼接。相较于将向量分割成多个子向量然后分散式或随机式插入，本实施方案采用整体式拼接方式，既可以减少拼接出错的概率，也有助于进一步保留向量中包含的原始信息。

进一步，在本发明实施例中，对模型训练过程中，通过对每帧样本人脸动画构建对应的子损失函数，并采用多个子损失函数的加权运算结果作为训练模型的目标损失函数，有助于提高模型训练的精细化程度。进一步，可以根据训练效果适当分配与调整权重值，尽可能得到更加优化的预训练模型。

附图说明

图1是本发明实施例中一种人脸动画生成方法的流程图；

图2是本发明实施例进行多轮迭代中确定每轮的人脸动画序列的流程图；

图3是本发明实施例中对初始化人脸动画生成模型进行训练以得到预训练模型的流程图；

图4是本发明实施例中一种人脸动画生成装置的结构示意图。

具体实施方式

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细说明。

参照图1，图1是本发明实施例中一种人脸动画生成方法的流程图。所述方法可以包括步骤S11至步骤S12：

步骤S11：对输入音频进行特征提取，以得到语音特征序列；

步骤S12：基于所述语音特征序列、参考人脸动画以及预训练模型，进行多轮迭代，以得到多帧人脸生成动画，其中，在每轮迭代中，采用下述方式确定当前轮的人脸生成动画：

基于之前各轮得到的人脸生成动画确定当前轮的人脸动画序列，并对当前轮的人脸动画序列、当前轮的初始化人脸动画以及所述参考人脸动画进行拼接，得到当前轮的人脸动画拼接结果；

将当前轮的人脸动画拼接结果与当前轮的语音特征拼接结果输入所述预训练模型，得到预测噪声；

采用所述预测噪声对当前轮的初始化人脸动画进行去噪处理，得到当前轮的人脸生成动画，其中，当前轮的语音特征拼接结果是所述语音特征序列中与当前轮的人脸生成动画时序对齐的各帧语音特征的拼接结果。

在步骤S11的具体实施中，可以采用语音特征提取器av2vec(例如，wav2vec2.0)或其他现有的适当语音特征提取算法或模型进行特征提取，以得到所述语音特征序列。所述语音特征序列中包含多帧语音特征数据，每帧语音特征数据具有各自所属的采样时刻。每帧语音特征数据的数学表现形式通常为向量形式，因此每帧语音特征数据也可称为语音特征向量。

由上，所述语音特征序列也可以是多帧具有时序先后顺序的语音特征向量形成的序列，其可以表示为A_T′＝{a₁,a₂,…,a_T′}，其中，A_T′表示所述语音特征序列，a₁～a_T′分别表示第1帧至第T′帧语音特征向量，T′为所述语音特征序列包含的语音特征向量的帧数，T′为正整数。T′的取值可以结合实际场景需要适当设置。

对于任意一个多维(例如，三维)人脸动画视频(或称为人脸动画文件)，假设其采样后得到N帧人脸动画，每帧人脸动画中可视为包含V个顶点的网格动画，即，每帧人脸动画可以看作是一个变形而拓扑结构固定的多维网格，因此也可称为人脸模型。每帧人脸的动画具有各自所属的采样时刻。在具体实施中，可以对每帧人脸动画进行向量转换，从而所述人脸动画视频可以转换为多帧具有时序先后顺序的人脸动画(向量)形成的序列，即人脸动画序列，其可以表示为V_N＝{v₁，v₂，...，v_N}，其中，V_N表示所述人脸动画序列，v₁～v_N表示分别第1帧人脸动画(向量)至第N帧人脸动画(向量)，N为正整数。N的取值可以结合实际场景需要适当设置。

可以理解的是，由于对所述输入音频进行特征提取过程中的语音特征采样率f_a，与对所述人脸动画视频进行采样过程中的人脸动画采样率(或称为帧率)f_v可能不一致(通常而言，f_a≥f_v)，为了对所述语音特征序列和所述人脸动画序列进行时序对齐处理，可以计算其中，/>为向上取整运算；然后调整所述语音特征采样率为k×f_v，从而将语音特征序列调整为A_kT′＝{a₁，a₂，...，a_kT′}。

具体地，可以采用线性插值方式，对原始语音特征序列A_T′进行线性插值，得到调整后的语音特征序列A_kT′。经过前述线性插值后，对于所述语音特征序列中的每帧语音特征，在所述人脸动画序列中具有对应的k帧与其时序对齐的人脸动画。

进一步地，在对所述输入音频进行特征提取，得到所述语音特征序列之后，还可以对所述语音特征序列中的各帧语音特征进行降维处理；和/或，在对各帧人脸动画进行向量转换，得到所述人脸动画序列，还可以对所述人脸动画序列中的各帧人脸动画向量进行降维处理。例如可以由数百维降维至数十维，从而可以降低后续运算复杂度，提高运算效率。

在实际应用中，对于任意一段人脸动画视频，可以具有对应的参考人脸动画(也可称为“自然姿势”或“参照姿势”)。

在一种具体实施方式中，所述参考人脸动画可以采用下述方式确定：确定该段人脸动画视频包含的各帧人脸动画的表情类型(或情绪类型，包括但不限于悲伤、快乐、生气、惊喜等)，然后确定包含人脸动画帧数最多的表情类型，并从该段人脸动画视频中属于该表情类型的各帧人脸动画中随机选取一帧作为所述参考人脸动画。

在另一种具体实施方式中，所述参考人脸动画可以采用下述方式确定：将所述输入音频输入预训练的表情预测模型，以确定该输入音频所属的表情类型(或情绪类型)，然后从多帧已确定表情类型的标准人脸动画中，选取一帧表情类型与该输入音频所属的表情类型一致的标准人脸动画，作为所述参考人脸动画。其中，所述标准人脸动画，可以是能够表征大部分人脸对象在自然情绪状态下对应的人脸动画。可以理解的是，如果输入音频较长，则其可能包含多种表情类型，此种情况下，表情预测模型预测的可以是所述输入音频中出现概率最大的表情类型。

在步骤S12的具体实施中，基于所述语音特征序列、参考人脸动画以及预训练模型，进行多轮迭代，以得到多帧人脸生成动画。

进一步地，在每轮迭代中，对当前轮的人脸动画序列、当前轮的初始化人脸动画以及所述参考人脸动画进行拼接，得到当前轮的人脸动画拼接结果，具体可以包括：按照时序先后顺序，对当前轮的人脸动画序列中的各帧人脸动画进行拼接，以得到第一初步拼接结果；将所述参考人脸动画拼接至所述第一初步拼接结果的第一预设位置，得到第二初步拼接结果；将当前轮的初始化人脸动画拼接至所述第二初步拼接结果的第二预设位置，得到当前轮的人脸动画拼接结果。

其中，在每轮迭代中，所述初始化人脸动画可以是随机生成的人脸动画，其可以用于指示带噪声的人脸动画。在具体实施中，可以采用随机生成的、包含多个编码的人脸动画的向量表示所述初始化人脸动画。或者，可以将所述参考人脸动画输入预训练的加噪模型，以获得所述初始化人脸动画。在后续输入预训练的模型之后，可以输出针对当前轮的初始化人脸动画的预测噪声，经过去噪处理后可以得到当前轮的人脸生成动画。

在具体实施中，如前所述，每一帧人脸动画均可以采用向量形式表示，每帧人脸动画的向量可以包含多个编码(或元素)。因此，各帧人脸动画的拼接，也可称为对各个向量进行拼接，具体可以指将一个向量插入另一个向量的指定位置。

非限制性地，所述按照时序先后顺序，对当前轮的人脸动画序列中的各帧人脸动画进行拼接，可以包括：按照各帧人脸动画的时序先后顺序，逐个将时序在后的人脸动画的向量拼接/插入至时序在前的人脸动画的向量的指定位置(例如，可以是时序在前的人脸动画的向量的最后一个编码之后的位置)。关于将所述参考人脸动画拼接至所述第一初步拼接结果的第一预设位置，以及将当前轮的初始化人脸动画拼接至所述第二初步拼接结果的第二预设位置的拼接方式，可以参照上述描述的拼接过程，此处不再赘述。

进一步地，所述第一预设位置和所述第二位置均可以指被拼接的向量尾部位置，也即，被拼接的向量的最后一个编码之后的位置。如此，相较于从向量的中间位置或其他编码位置插入，本实施方案在拼接过程中插入至向量的最后一个编码之后，可以保留被拼接的向量的编码顺序不变，使得向量中包含的信息不被破坏。

在本发明实施例中，采用上述描述的拼接顺序，即“当前轮的人脸动画序列+参考人脸动画+当前轮的初始化人脸动画”，这种拼接顺序更加符合人脸动画的时序先后性，且可以和当前轮的语音特征拼接结果中的各帧语音特征的时序先后性尽可能一致。由此，有助于提高后续模型输出的预测噪声的准确性。进一步，上述各个步骤中所述拼接均可以是整体地拼接。所述整体地拼接也可称为完整地拼接。如此，相较于将向量分割成多个子向量然后分散式或随机式插入，本实施方案采用整体式拼接方式，既可以减少拼接出错的概率，也有助于进一步保留向量中包含的原始信息。

需要指出的是，在具体实施中，关于拼接过程当前轮的人脸动画序列、当前轮的初始化人脸动画、所述参考人脸动画的先后顺序，还可结合实际场景需要对上述拼接顺序进行适当调整。

参照图2，图2是本发明实施例进行多轮迭代中确定每轮的人脸动画序列的流程图，具体包括步骤S21至步骤S24。

在步骤S21中，在首轮迭代中，采用第一预设帧数的所述参考人脸动画作为当前轮的人脸动画序列。

在步骤S22中，在第x轮迭代中，确定之前x-1轮得到的人脸生成动画的总帧数；如果所述总帧数大于等于第一预设帧数，则从之前各轮得到的人脸生成动画中选取时序最近的所述第一预设帧数的人脸生成动画，以确定当前轮的人脸动画序列；如果所述总帧数小于所述第一预设帧数，则确定所述第一预设帧数与所述总帧数之差，记为目标帧数，并根据之前各轮得到的人脸生成动画以及所述目标帧数的参考人脸动画，确定当前轮的人脸动画序列。

具体而言，在所述步骤S22中，根据之前x-1轮得到的人脸生成动画的总帧数与所述第一预设帧数的比较结果，选择采用方式一或方式二确定当前轮的人脸动画序列。

其中，所述第一预设帧数的具体取值可以根据实际应用场景需要进行适当设置。需要指出的是，所述第一预设帧数的数值不应过大，否则会增加运算开销，降低人脸动画生成的效率；所述第一预设帧数的数值不应过小，否则将导致利用的历史人脸生成动画信息太少，难以达到所要实现的人脸生成动画间的表情状态平滑性效果。非限制性地，所述第一预设帧数可以在区间[5,15]中选取适当数值。

(1)所述总帧数大于等于所述第一预设帧数，则采用方式一：从之前各轮得到的人脸生成动画中选取时序最近的所述第一预设帧数的人脸生成动画，以确定当前轮的人脸动画序列。

进一步地，上述方式一具体可以包括：保持所选取的时序最近的所述第一预设帧数的人脸生成动画的时序先后顺序不变，以得到当前轮的人脸动画序列。

作为一个非限制性实施例，当前轮为第7轮，所述第一预设帧数的取值为5，之前各轮得到的人脸生成动画的总帧数为6(大于所述第一预设帧数)：按照时序先后顺序，之前6轮得到的人脸生成动画分别记为M1，M2，M3，M4，M5，M6。此种情况下，需要从之前6轮得到的人脸生成动画中选取时序最近的5帧人脸生成动画，以及保持选取的5帧人脸生成动画M2，M3，M4，M5以及M6的时序不变，以得到当前轮的人脸动画序列，记为：{M2，M3，M4，M5，M6}。

在本发明实施例中，由于之前各轮得到的人脸生成动画中时序最近的人脸生成动画，对当前轮生成的人脸生成动画的情绪状态影响较大，通过选取时序最近的若干帧人脸生成动画，且保持时序先后顺序不变，有助于提高前后帧人脸生成动画中情绪状态的连贯性、平滑性。

(2)所述总帧数小于所述第一预设帧数，则采用方式二：确定所述第一预设帧数与所述总帧数之差，记为目标帧数，并根据之前各轮得到的人脸生成动画以及所述目标帧数的参考人脸动画，确定当前轮的人脸动画序列。

进一步地，上述方式二具体可以包括：设置所述目标帧数的参考人脸动画的时序位于首轮得到的人脸生成动画的时序之前，以及保持之前各轮得到的人脸生成动画的时序先后顺序不变，以得到当前轮的人脸动画序列。

作为另一个非限制性实施例，当前轮为第3轮，所述第一预设帧数的取值为5，之前各轮得到的人脸生成动画的总帧数为2(小于所述第一预设帧数，且与所述第预设帧数之差为5-2＝3，即，所述目标帧数为3)：按照时序先后顺序，之前2轮得到的人脸生成动画分别记为M1，M2。此种情况下，需要采用3帧参考人脸动画，分别记为m1，m2，m3，设置这3帧参考人脸的时序位于首轮得到的人脸生成动画M1的时序之前，以及保持之前2轮得到的人脸生成动画M1和M2的时序先后顺序不变，以得到当前轮的人脸动画序列，记为{m1，m2，m3，M1，M2}。

在本发明实施例中，在之前各轮得到的人脸生成动画的总帧数不足以形成当前轮待输入的人脸动画序列的情况下，采用一定数量的参考人脸动画进行填充/插入，且使得之前各轮得到的人脸生成动画的时序靠后，也即，时序上与当前轮生成的人脸生成动画的时序更靠近。一方面，由于参考人脸动画的表情状态比较自然，进而可以使得当前轮生成的人脸生成动画的表情状态比较自然，而避免出现过于僵硬、极端的表情。另一方面，可以实现之前各轮得到的人脸生成动画与当前轮生成的人脸生成动画之间表情状态连贯性更强，避免出现表情突变情况。

参照图3，图3是本发明实施例中对初始化人脸动画生成模型进行训练以得到预训练模型的流程图。训练的过程可以包括步骤S31至步骤S34。

在步骤S31中，确定多帧样本人脸动画，对于每帧样本人脸动画，确定该帧样本人脸动画的标注噪声，以及采样时刻位于该帧样本人脸动画之前的第一预设帧数的历史样本人脸动画。

其中，对于每帧样本人脸动画而言，其之前的历史样本人脸动画与该帧样本人脸动画属于同一人脸动画文件(例如，可以是对同一说话者说话过程中录制的视频文件)。

进一步地，所述步骤S31中确定多帧样本人脸动画，具体可以包括：确定多个说话者在说话过程中的人脸动画文件；对每个说话者的人脸动画文件进行采样，以确定每个说话者各自对应的多帧人脸动画；分别从每个说话者各自对应的多帧人脸动画中，选取一帧或多帧人脸动画，以得到所述多帧样本人脸动画。

在本发明实施例中，通过采用多个不同说话者说话过程中的人脸动画文件确定后续的训练数据集，相较于采用单一说话者的人脸动画文件，有助于增加训练数据集的丰富度，进而提高模型训练效果，提升训练得到的所述预训练模型的泛化能力。

在步骤S32中，对该帧样本人脸动画及其历史样本人脸动画、标注噪声以及所述参考人脸动画进行拼接，得到加噪人脸动画拼接结果，以及对与该帧样本人脸动画时序对齐的各帧样本语音特征进行拼接，得到样本语音特征拼接结果。

其中，对该帧样本人脸动画及其历史样本人脸动画、标注噪声以及所述参考人脸动画进行拼接，具体包括：按照时序先后顺序，各帧历史样本人脸动画进行拼接，得到第一初步样本拼接结果；将该帧样本人脸动画及其标注噪声的拼接结果拼接至所述第一初步样本拼接结果的第三预设位置，得到第二初步样本拼接结果；将所述参考人脸动画拼接至所述第二初步样本拼接结果的第四预设位置，得到所述加噪人脸动画拼接结果。

需要指出的是，该帧样本人脸动画及其标注噪声的拼接结果，对应于图1所示实施例的模型推理过程中的初始化人脸动画；各帧历史样本人脸动画对应于图1所示实施例的模型推理过程中的人脸动画序列。

在具体实施中，关于拼接的具体方式，以及所述第三预设位置和所述第四预设位置的具体位置设置，参照前文关于对当前轮的人脸动画序列、当前轮的初始化人脸动画以及所述参考人脸动画进行拼接的具体描述，此处不再赘述。

其中，与该帧样本人脸动画时序对齐的各帧样本语音特征，是采样自与该帧样本人脸动画属于同一说话者的音频文件(例如，对同一说话者说话过程中录制的音频文件)。关于时序对齐的相关过程与原理，参见图1所示实施例的步骤S11中关于采样得到语音特征序列与人脸动画序列、以及对两者进行时序对齐处理的相关描述，此处不再赘述。

在步骤S33中，采用所得到的多帧加噪人脸动画拼接结果和多帧样本语音特征拼接结果，构建训练数据集。

其中，所述多帧加噪人脸动画拼接结果和多帧样本语音特征拼接结果，基于说话者一一对应，也即，属于同一说话者的加噪人脸动画拼接结果与样本语音特征拼接结果作为一组训练数据。

在步骤S34中，基于预设的目标损失函数，将所述训练数据集输入初始化人脸动画生成模型进行训练，以得到所述预训练模型。

在具体实施中，所述初始化人脸动画生成模型包括多层转换(Transformer)层。在训练的过程中，可以采用Adam优化器或其他模型训练采用的常规优化器进行训练。

进一步地，每帧样本人脸动画具有各自对应的子损失函数，所述目标损失函数是对所述多帧样本人脸动画的子损失函数进行加权运算得到的。

其中，所述加权运算例如可以是加权求和或平均运算。

更进一步地，采用下述表达式，表示每帧样本人脸动画对应的子损失函数：

L_i＝‖n_i ^′-n_i‖²；

采用下述表达式，表示所述目标损失函数：

在本发明实施例中，通过对每帧样本人脸动画构建对应的子损失函数，并采用多个子损失函数的加权运算结果作为训练模型的目标损失函数，有助于提高模型训练的精细化程度。进一步，可以根据训练效果适当分配与调整权重值，尽可能得到更加优化的预训练模型。

图4是本发明实施例中一种人脸动画生成装置的结构示意图。所述人脸动画生成装置可以包括：

语音特征提取模块41，用于对输入音频进行特征提取，以得到语音特征序列；

迭代模块42，用于基于所述语音特征序列、参考人脸动画以及预训练模型，进行多轮迭代，以得到多帧人脸生成动画，其中，在每轮迭代中，采用下述方式确定当前轮的人脸生成动画：

关于该人脸动画生成装置的原理、具体实现和有益效果请参照前文及图1至图3示出的关于人脸动画生成方法的相关描述，此处不再赘述。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上述图1至图3示出的人脸动画生成方法的步骤。所述计算机可读存储介质可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器，还可以包括光盘、机械硬盘、固态硬盘等。

具体地，在本发明实施例中，所述处理器可以为中央处理单元(centralprocessing unit，简称CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，简称DSP)、专用集成电路(application specificintegrated circuit，简称ASIC)、现成可编程门阵列(field programmable gate array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，简称ROM)、可编程只读存储器(programmable ROM，简称PROM)、可擦除可编程只读存储器(erasable PROM，简称EPROM)、电可擦除可编程只读存储器(electricallyEPROM，简称EEPROM)或闪存。易失性存储器可以是随机存取存储器(random accessmemory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器(random access memory，简称RAM)可用，例如静态随机存取存储器(staticRAM，简称SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronousDRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，简称DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，简称ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，简称SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，简称DR RAM)。

本发明实施例还提供了一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述图1至图3示出的人脸动画生成方法的步骤。所述终端可以包括但不限于手机、计算机、平板电脑等终端设备，还可以为服务器、云平台等。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，表示前后关联对象是一种“或”的关系。

本申请实施例中出现的“多个”是指两个或两个以上。

本申请实施例中出现的第一、第二等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本申请实施例中对设备个数的特别限定，不能构成对本申请实施例的任何限制。

需要指出的是，本实施例中各个步骤的序号并不代表对各个步骤的执行顺序的限定。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种人脸动画生成方法，其特征在于，包括：

对输入音频进行特征提取，以得到语音特征序列；

基于所述语音特征序列、参考人脸动画以及预训练模型，进行多轮迭代，以得到多帧人脸生成动画，其中，在每轮迭代中，采用下述方式确定当前轮的人脸生成动画：

采用所述预测噪声对当前轮的初始化人脸动画进行去噪处理，得到当前轮的人脸生成动画，其中，当前轮的语音特征拼接结果是所述语音特征序列中与当前轮的人脸生成动画时序对齐的各帧语音特征的拼接结果；

其中，基于之前各轮得到的人脸生成动画确定当前轮的人脸动画序列，包括：

在第x轮迭代中，确定之前x-1轮得到的人脸生成动画的总帧数；如果所述总帧数大于等于第一预设帧数，则从之前各轮得到的人脸生成动画中选取时序最近的所述第一预设帧数的人脸生成动画，以确定当前轮的人脸动画序列；如果所述总帧数小于所述第一预设帧数，则确定所述第一预设帧数与所述总帧数之差，记为目标帧数，并根据之前各轮得到的人脸生成动画以及所述目标帧数的参考人脸动画，确定当前轮的人脸动画序列。

2.根据权利要求1所述的方法，其特征在于，基于之前各轮得到的人脸生成动画确定当前轮的人脸动画序列，包括：

在当前轮迭代为首轮迭代时，采用第一预设帧数的所述参考人脸动画作为当前轮的人脸动画序列。

3.根据权利要求1所述的方法，其特征在于，所述从之前各轮得到的人脸生成动画中选取时序最近的所述第一预设帧数的人脸生成动画，以确定当前轮的人脸动画序列，包括：

保持所选取的时序最近的所述第一预设帧数的人脸生成动画的时序先后顺序不变，以得到当前轮的人脸动画序列。

4.根据权利要求1所述的方法，其特征在于，所述根据之前各轮得到的人脸生成动画以及所述目标帧数的参考人脸动画，确定当前轮的人脸动画序列，包括：

设置所述目标帧数的参考人脸动画的时序位于首轮得到的人脸生成动画的时序之前，以及保持之前各轮得到的人脸生成动画的时序先后顺序不变，以得到当前轮的人脸动画序列。

5.根据权利要求1所述的方法，其特征在于，对当前轮的人脸动画序列、当前轮的初始化人脸动画以及所述参考人脸动画进行拼接，得到当前轮的人脸动画拼接结果，包括：

按照时序先后顺序，对当前轮的人脸动画序列中的各帧人脸动画进行拼接，以得到第一初步拼接结果；

将所述参考人脸动画拼接至所述第一初步拼接结果的第一预设位置，得到第二初步拼接结果；

将当前轮的初始化人脸动画拼接至所述第二初步拼接结果的第二预设位置，得到当前轮的人脸动画拼接结果。

6.根据权利要求5所述的方法，其特征在于，满足以下一项或多项：

所述第一预设位置为所述第一初步拼接结果的尾部位置；

所述第二预设位置为所述参考人脸动画的尾部位置；

所述拼接均为整体地拼接。

7.根据权利要求1任一项所述的方法，其特征在于，在每轮迭代中，所述初始化人脸动画是随机生成的人脸动画。

8.根据权利要求1所述的方法，其特征在于，在进行多轮迭代之前，所述方法还包括：

确定多帧样本人脸动画，对于每帧样本人脸动画，确定该帧样本人脸动画的标注噪声，以及采样时刻位于该帧样本人脸动画之前的第一预设帧数的历史样本人脸动画；

对该帧样本人脸动画及其历史样本人脸动画、标注噪声以及所述参考人脸动画进行拼接，得到加噪人脸动画拼接结果，以及对与该帧样本人脸动画时序对齐的各帧样本语音特征进行拼接，得到样本语音特征拼接结果；

采用所得到的多帧加噪人脸动画拼接结果和多帧样本语音特征拼接结果，构建训练数据集；

基于预设的目标损失函数，将所述训练数据集输入初始化人脸动画生成模型进行训练，以得到所述预训练模型。

9.根据权利要求8所述的方法，其特征在于，所述确定多帧样本人脸动画，包括：

确定多个说话者在说话过程中的人脸动画文件；

对每个说话者的人脸动画文件进行采样，以确定每个说话者各自对应的多帧人脸动画；

分别从每个说话者各自对应的多帧人脸动画中，选取一帧或多帧人脸动画，以得到所述多帧样本人脸动画。

10.根据权利要求8或9所述的方法，其特征在于，每帧样本人脸动画具有各自对应的子损失函数，所述目标损失函数是对所述多帧样本人脸动画的子损失函数进行加权运算得到的。

11.根据权利要求10所述的方法，其特征在于，

采用下述表达式，表示每帧样本人脸动画对应的子损失函数：

L_i＝‖n_i′-n_i‖²；

采用下述表达式，表示所述目标损失函数：

其中，L_i表示第i帧样本人脸动画对应的子损失函数，n_i′表示第i帧样本人脸动画输入所述初始化人脸动画生成模型后输出的预测噪声，n_i表示第i帧样本人脸动画的标注噪声，m表示样本人脸动画的总帧数，w_i表示第i帧样本人脸动画对应的子损失函数的权重。

12.根据权利要求8所述的方法，其特征在于，所述初始化人脸动画生成模型包括多层Transformer层。

13.一种人脸动画生成装置，其特征在于，包括：

语音特征提取模块，用于对输入音频进行特征提取，以得到语音特征序列；迭代模块，用于基于所述语音特征序列、参考人脸动画以及预训练模型，进行多轮迭代，以得到多帧人脸生成动画，其中，在每轮迭代中，采用下述方式确定当前轮的人脸生成动画：

其中，所述迭代模块还执行：

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1至12任一项所述人脸动画生成方法的步骤。

15.一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行权利要求1至12任一项所述人脸动画生成方法的步骤。