CN115761075A

CN115761075A - 脸部图像生成方法及其装置、设备、介质、产品

Info

Publication number: CN115761075A
Application number: CN202211458174.3A
Authority: CN
Inventors: 陶洪; 李玉乐; 项伟
Original assignee: Bigo Technology Pte Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2022-11-21
Filing date: 2022-11-21
Publication date: 2023-03-07

Abstract

本申请涉及一种脸部图像生成方法及其装置、设备、介质、产品，所述方法包括：获取数字人的脸部数据模板和音频片段的音频特征信息，音频特征信息包含所述音频片段在频域获得的音频特征，脸部数据模板包含数字人的脸部区域的网格顶点数据；采用表情生成模型中的特征提取网络分别提取脸部数据模板和音频特征信息相对应的语义特征信息后融合成多模态特征信息；采用表情生成模型中的特征解码网络根据所述语义特征信息生成所述音频片段相应的脸部数据帧；根据脸部数据帧的网格顶点数据渲染数字人的三维模型获得脸部图像。本申请能根据音频片段和脸部数据模板生成所述音频片段的脸部图像，使脸部图像的表情动作和嘴型动作与音频片段的声音相同步。

Description

脸部图像生成方法及其装置、设备、介质、产品

技术领域

本申请涉及数字人虚拟技术，尤其涉及一种脸部图像生成方法及其装置、设备、介质、产品。

背景技术

基于语音的唇形驱动在虚拟数字人、动画制作中应用非常广泛，是实现虚拟空间和现实空间次元壁的实时实感交流互动的关键技术之一。

语音驱动的唇形合成是指通过语音音频信号来驱动数字人唇形动作，使其生成对应语音音频信息的正确唇形，实现语音与唇形之间的同步。目前语音驱动的唇形合成方法包括三大类：第一类是传统的基于语言的模型方法；第二类是音频驱动的说话人头部合成；第三类是基于机器学习的3D人脸模型方法。

虽然目前的研究工作表明，各种传统模型可以被训练来创建特定说话者的脸部合成，但还没有通用的方法可以不局限于特定说话者来捕捉各种说话相对应的脸部表情风格，具体来说，传统技术的不足，表现为具体模型在表情、语种、语调、人脸特征等多个方面均存在泛化性差以及准确度低的问题。

发明内容

本申请的目的在于解决上述问题而提供一种脸部图像生成方法及其相应的装置、设备、非易失性可读存储介质，以及计算机程序产品。

根据本申请的一个方面，提供一种脸部图像生成方法，包括如下步骤：

获取数字人的脸部数据模板和有声音频的音频片段的音频特征信息，所述脸部数据模板包含所述数字人的脸部区域的网格顶点数据，所述音频特征信息包含所述音频片段在频域获得的音频特征；

采用表情生成模型中的特征提取网络，分别提取所述脸部数据模板和所述音频特征信息相对应的语义特征信息后，融合成多模态特征信息；

采用所述表情生成模型中的特征解码网络，根据所述多模态特征信息和所述脸部数据模板的语义特征信息生成与所述音频片段相同步的脸部数据帧，所述脸部数据帧包含根据所述脸部数据模板变换获得的网格顶点数据；

根据所述脸部数据帧的网格顶点数据渲染所述数字人的三维模型，获得与所述音频片段相同步的脸部图像。

根据本申请的另一方面，提供一种脸部图像生成装置，包括：

数据获取模块，设置为获取数字人的脸部数据模板和有声音频的音频片段的音频特征信息，所述脸部数据模板包含所述数字人的脸部区域的网格顶点数据，所述音频特征信息包含所述音频片段在频域获得的音频特征；

特征提取模块，设置为采用表情生成模型中的特征提取网络，分别提取所述脸部数据模板和所述音频特征信息相对应的语义特征信息后，融合成多模态特征信息；

特征解码模块，设置为采用所述表情生成模型中的特征解码网络，根据所述多模态特征信息和所述脸部数据模板的语义特征信息生成与所述音频片段相同步的脸部数据帧，所述脸部数据帧包含根据所述脸部数据模板变换获得的网格顶点数据；

图像渲染模块，设置为根据所述脸部数据帧的网格顶点数据渲染所述数字人的三维模型，获得与所述音频片段相同步的脸部图像。

根据本申请的另一方面，提供一种脸部图像生成设备，包括中央处理器和存储器，所述中央处理器设置为调用运行存储于所述存储器中的计算机程序以执行本申请所述的脸部图像生成方法的步骤。

根据本申请的另一方面，提供一种非易失性可读存储介质，其以计算机可读指令的形式存储有依据所述的脸部图像生成方法所实现的计算机程序，所述计算机程序被计算机调用运行时，执行该方法所包括的步骤。

根据本申请的另一方面，提供一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。

相对于现有技术，本申请获得多种技术优势，包括但不限于：

首先，本申请的表情生成模型在生成脸部图像的过程中，在其特征提取网络和特征解码网络之间，存在由特征提取网络向特征解码网络传递中间获得的语义特征信息的跨层连接链路，使得特征解码网络在生成相应的脸部数据帧的过程中，在特征提取网络综合数字人的脸部数据模板的语义特征信息和音频特征信息的语义特征信息而生成的多模态特征信息的基础上，可以参考所述数字人的脸部数据模板的语义特征信息对多模态特征信息进行逐层综合上采样解码，既利用了对应整个脸部的全局综合语义信息，又利用了对应脸部中各个细节的局部信息，从而可以全面且精细化地调节数字人的脸部区域的各个顶点的三维空间位置数据，更准确地生成与音频特征信息相对应的脸部数据帧，使最终所生成的脸部图像的表情更为细腻、准确，且自然流畅，表情动作和嘴型动作可与音频片段的声音保持同步。

其次，本申请提供表情生成模型，基于有声音频的音频片段的音频特征信息与数字人的脸部数据模板生成所述数字人对应所述有声音频各个音频片段的各个脸部数据帧，可以获得相应的各个脸部图像，构成脸部动画，一步到位实现端到端的表情和嘴型驱动效果，且能以单一模型兼容处理多个数字人的语音驱动业务，取得规模经济效应。

此外，本申请基于有声音频和数字人的脸部数据模板生成的脸部图像具有广泛的适应性，可以应用于诸如虚拟助手、虚拟导游、虚拟客户、虚拟主播等多种业务场景中。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请的示例性应用场景的网络架构示意图；

图2为本申请的表情生成模型的示例性网络架构的示意图；

图3为本申请的脸部图像生成方法的一种实施例的流程示意图；

图4为本申请的实施例中对音频特征信息和脸部数据模板进行特征表示的流程示意图；

图5为本申请的实施例中对多模态特征信息进行解码的流程示意图；

图6为本申请的实施例中在对应尺度注入相应尺度的语义特征信息以上采样提取卷积特征信息的流程示意图；

图7为本申请的实施例中对表情生成模型实施训练的流程示意图；

图8为本申请的实施例中一组训练样本的数据对应关系示意图；

图9为本申请的实施例中构造训练数据集的流程示意图；

图10为本申请的实施例中获取表情生成模型的输入数据的流程示意图；

图11为本申请的脸部图像生成装置的原理框图；

图12为本申请所采用的一种脸部图像生成设备的结构示意图。

具体实施方式

请参阅图1，本申请一种示例性的应用场景所采用的网络架构，包括终端设备80、媒体服务器81和应用服务器82。

所述应用服务器82可用于架设基于数字人的应用层服务，例如虚拟发音助手服务、虚拟导游服务、虚拟客户服务、虚拟主播服务等。

所述虚拟发音助手服务可以实现为向终端设备80上的用户提供特定文本的视频流，所述视频流可以包括一个根据所述特定文本发音而呈现的数字人脸部动画，还可以按需生成所述特定文本的机器合成语音，脸部动画中各个图像帧在数字人脸部表情动作和嘴型动作上与机器合成语音的声音保持同步，以便实现发音矫正教学。

所述虚拟导游服务可以实现为向终端设备80上的用户提供特定解说文本相对应的视频流，所述视频流通常包括数字人的脸部动画和所述特定文本的机器合成语音，同理，脸部动画中各个图像帧在数字人脸部表情动作和嘴型动作上与机器合成语音的声音保持同步，且通常还匹配为被解说内容相对应的图像信息。

所述虚拟客户服务主要应用于智能客服场景，同理根据客服机器人应答用户提问生成的答复文本，生成其相应的数字人脸部动画和机器合成语音，使脸部动画中各个图像帧在数字人脸部表情动作和嘴型动作上与机器合成语音的声音保持同步，形成视频流推送给用户的终端设备80，使用户产生与数字人面对面聊天的感知。

所述虚拟主播服务主要应用于网络直播场景，其可根据网络直播间中的主播用户所提交的发言音频数据，生成数字人脸部动画，使所述脸部动画中各个图像帧在数字人脸部表情动作和嘴型动作上与所述发言音频数据的声音保持同步，构成直播视频流，推送到网络直播间的各个观众用户的终端设备80处播放。

所述媒体服务器81，用于实现数字人脸部动画生成服务，其开放接口供所述应用服务器的应用层服务调用，部署有表情生成模型用于根据每个音频片段及数字人的脸部数据模板生成该音频片段相同步的脸部数据帧。数字人脸部动画生成服务接收调用后获得数字人特征标识和有声音频，根据数字人特征标识确定其相应的数字人的脸部数据模板，将有声音频切分为多个音频片段，再以每个音频片段与数字人的脸部数据模板一起输入所述表情生成模型，生成与该音频片段相同步的脸部图像。对应各个音频片段均生成其相应的脸部图像，将这些脸部图像按照时间顺序合成为脸部动画，以视频流的形式返回给所述的应用层服务。

所述脸部数据模板，本质上也是一种脸部数据帧。所述脸部数据帧包含描述数字人的三维模型的脸部区域中各个顶点的三维空间位置信息的网格顶点数据。所述网格顶点数据通过数字人相对应预设的脸部关键点也称顶点的运动矢量或者静态位置数据加以描述，具体的数据格式可适应所述表情生成模型的输出格式进行预先规范或者预先任意设定。例如，一种实施例中，所述网格顶点数据表示每个脸部图像时，可以对应预设的各个顶点提供其在三维图像空间坐标系三个数轴相对应的旋转值相对应的偏移量。另一实施例中，所述网格顶点数据表示每个脸部图像时，可以对应预设的各个顶点提供其在三维图像空间坐标系的位置坐标。可见，所述脸部数据帧的数据结构和数据表示形式可以灵活定义使用。

所述数字人的脸部区域中的顶点，主要分布在数字人的脸部区域的各个关键位置，通常这些顶点在三维图像空间坐标系的位移，可以驱动数字人的相应脸部细节产生相应的运动效果，通过多个时序上连续的脸部数据帧渐进地表示出同一组顶点的位置信息的变化数值，便可控制数字人的三维模型产生相应的表情变化，利用这些脸部数据帧对数字人的三维模型进行控制和图像渲染，便可以获得各个脸部数据帧相应的脸部图像，将这些脸部图像按照时序组织在一起，便构成所述数字人的脸部动画，便可在视觉上呈现相应顶点相对应的数字人表情细节变化的图像运动效果。

所述数字人的三维模型可以预先建模实现，以便按照所述脸部数据帧中的各个顶点的位置信息，调整各个顶点相对应的细节位置所处的位置和视角，以便后续可通过渲染生成相应的数字人脸部动画。此外，根据实际需要，在生成数字人的脸部图像时，还可为其添加相应的背景图像或者其他前景图像等，对此，本领域技术人员可灵活实施。

请参阅图2，本申请的示例性采用的一种表情生成模型的网络架构，包括特征提取网络和特征解码网络。所述特征提取网络包括音频编码器、表情编码器，以及特征融合网络。

所述音频编码器用于对输入其中的音频特征信息提取语义特征信息，以便提取出其中与脸部图像的嘴型相关的深层语义特征，获得音频语义特征信息，可基于具有序列化信息处理能力的网络架构实施，所述网络架构可以选择性地包含卷积神经网络(CNN：Convolutional Neural Network)、循环神经网络(RNN：RecurrentNeuralNetwork)、门控循环单元(GRU：Gated Recurrent Unit)、长短时记忆网络(LSTM，Long Short-Term Memory)等，通过采用一个或多个这样的基础神经网络模型搭建出适于以序列化的方式对音频特征信息进行特征表示而获得相应的音频语义特征信息的能力即可，例如DeepSpeech模型便是可适用于对音频特征信息提取音频语义特征信息的已知模型。

所述表情编码器也可基于循环神经网络、长短时记忆网络、残差网络等任意一个或多个基础神经网络模型构建。一个实施例中，所述表情编码器采用多个全连接层对输入其中的脸部数据帧进行多个特征尺度的特征变换后，获得各个特征尺度相对应的语义特征信息，然后将最小尺度的语义特征信息经长短时记忆网络提取其深层语义，获得所述脸部数据帧的表情语义特征信息。所述表情编码器获得的不同特征尺度的语义特征信息，由于具有丰富的浅层语义，因而可通过跨层连接的方式，传输给所述特征解码网络作为在各个尺度解码所需的参考信息。

所述特征融合网络用于将所述表情编码器获得的所述脸部数据帧的表情语义特征信息与所述音频编码器获得的所述音频特征信息的音频语义特征信息相融合，而形成多模态特征信息，以便输入所述特征解码器做进一步的处理。

所述特征解码器中，包括多个级联子网络，每个级联子网络均包含一个残差模块(ResNet：Residual Network)，各个级联子网络先后串接实现级联，其中首个级联子网络通过其残差模块接收所述多模态特征信息的输入，对其执行等尺度卷积操作，获得相应的卷积特征信息。后续的各个级联子网络，分别对应一个所述的尺度设置，其除包括用于对其前级输出的卷积特征信息继续上采样的残差模块外，在该残差模块之前，还先通过一个多层感知器提取出所述表情编码器在相应尺度获得的所述脸部数据帧的语义特征信息的感知特征信息，然后经过标准化层对所述感知特征信息进行标准化处理而获得标准化感知特征信息后，再提供给该残差模块作为对前级尺度的卷积特征信息进行上采样所需的参考信息，以便参考对应尺度的浅层语义而还原出相应尺度的卷积特征信息。从而，在前级残差模块获得的更低尺度的卷积特征信息的基础上进行上采样，获得当前相应尺度相对应的卷积特征信息，再传递给在后的级联子网络继续上采样，最后一个级联子网络的残差模块获得的卷积特征信息，便构成推理获得的脸部数据帧。

为使所述表情生成模型适于根据给定的数字人的脸部数据帧和给定的音频片段的音频特征信息生成在表情动作和嘴型动作上与所述音频片段的声音相同步的脸部数据帧，可以采用相应的训练数据集，预先将所述表情生成模型训练至收敛状态后投入线上推理使用。

在参考以上原理性说明的基础上，请参阅图3，根据本申请提供的一种脸部图像生成方法，在其一个实施例中，包括如下步骤：

步骤S1100、获取数字人的脸部数据模板和有声音频的音频片段的音频特征信息，所述脸部数据模板包含所述数字人的脸部区域的网格顶点数据，所述音频特征信息包含所述音频片段在频域获得的音频特征；

当需要为有声音频生成数字人的脸部动画时，可以所述有声音频中的标准化时长的音频片段为单位，获取所述音频片段的音频特征信息，同时，获取目标数字人的脸部数据模板，将两者构造为本申请的表情生成模型的输入数据。

所述音频片段的音频特征信息，可以是从该音频片段的频谱图中提取的音频特征构成的信息。一个实施例中，通过先对所述音频片段进行音频预处理，也即进行加窗和分帧操作，获得多个语音帧，对所述多个语音帧做短时傅里叶变换，将其从时域变换到频域，然后，在频域的语音帧应用梅尔滤波器获得梅尔频谱，再从梅尔频谱中提取出相应的音频特征，将所述多个语音帧的音频特征有序组织在一起，即构成所述音频片段的音频特征信息。

一种实施例中，对所述音频片段提取其相应的音频特征信息的操作网络，可以集成于所述特征提取网络中，以便实现标准化操作。

所述脸部数据模板，是一个数字人的三维模型相对应的脸部数据帧，所述脸部数据帧中，以所述数字人的三维模型中脸部区域的网格中各个顶点的三维空间位置信息为表现形成，构成所述数字人的脸部区域相对应的网格顶点数据。所述脸部数据模板中所包含的网格顶点数据，可以是基于所述数字人的三维模型的脸部区域在任意一个静止状态下相对应的数据，也即是一个静止的表情状态相对应的数据。

步骤S1200、采用表情生成模型中的特征提取网络，分别提取所述脸部数据模板和所述音频特征信息相对应的语义特征信息后，融合成多模态特征信息；

请继续参考图2，在前获得的数字人的脸部数据模板和所述音频片段的音频特征信息，分别被对应输入所述表情生成模型的特征提取网络中的表情编码器和音频编码器，然后，由所述表情编码器对所述脸部数据模板进行特征表示，通过多个全连接层转换出所述脸部数据模板在多个特征尺度下的语义特征信息，在不同特征尺度上保留所述脸部数据模板的浅层原始语义并在最小尺度的语义特征信息的基础上，进一步提取其深层语义特征，获得相应的表情语义特征信息，然后向所述特征解码网络前向传输所有这些语义特征信息，包括各个尺度相应的表示浅层原始语义的语义特征信息和基于最小尺度提取的表情语义特征信息；同时，所述表情编码器还由其音频编码器对所述音频特征信息进行特征表示，提取出所述音频特征信息的深层的语义特征信息，作为所述音频片段相对应的音频语义特征信息，最后，在所述表情生成模型的特征融合网络的作用下，将所述表情编码器最后输出的所述脸部数据模板的表情语义特征信息和所述音频编码器最后输出的所述音频特征信息的音频语义特征信息进行融合，获得多模态特征信息。所述多模态特征信息中，在所述脸部数据模板的深层语义特征也即表情语义特征信息的基础上，引入了所述音频片段的音频特征信息的深层语义特征也即音频语义特征信息，从而使脸部数据模板中原始的网格顶点数据的深层语义特征被所述音频特征信息的深层语义特征所调节，由此便可用于实现对所述网格顶点数据的解码变换。

步骤S1300、采用所述表情生成模型中的特征解码网络，根据所述多模态特征信息和所述脸部数据模板的语义特征信息生成与所述音频片段相同步的脸部数据帧，所述脸部数据帧包含根据所述脸部数据模板变换获得的网格顶点数据；

请继续参阅图2，所述特征提取网络中最后输出的多模态特征信息和各个中间特征尺度相对应的语义特征信息均被传递给所述特征解码网络做进一步解码处理。所述特征解码网络中，通过首个级联子网络中的残差模块，也即首个残差模块，以所述多模态特征信息为输入，对该多模态特征信息进行等尺度卷积操作，获得相应的卷积特征信息。

与首个级联子网络相串接的第二级联子网络，以及后续继续串接的第三级联子网络、第四级联子网络等后续级联子网络，级联子网络的总数视特征提取网络跨层连接传输过来的中间特征尺度的语义特征信息的总量而定，实际上也是适应特征提取网络中输出数据的数量而对应设置，其中每个后续级联子网络均基于相同的网络架构实现，从而按照相同的业务逻辑工作。

每个后续级联子网络，可接收两路输入，第一路是从其前级的级联子网络的残差模块中获得较低尺度相对应的卷积特征信息，第二路是通过跨层连接链路从特征提取网络中获得其对应尺度的所述脸部数据模板的语义特征信息。每个后续级联子网络以其第二路的语义特征信息为浅层原始语义的参考信息，对第一路输入的卷积特征信息执行上采样，从而准确还原出本级对应尺度的卷积特征信息。本级对应尺度高于前一级级联子网络的对应尺度，而低于后一级级联子网络的对应尺度。

每个后续级联子网络按照尺度由低到高，依次上采样后，最后一个级联子网络例如第四级联子网络所获得的卷积特征信息，便是尺度与所述脸部数据模板的原始尺度相对应的脸部数据帧。不难理解，所获得的脸部数据帧同理描述了所述数字人的脸部区域的网格顶点数据，这些网格顶点数据由于受所述音频片段的音频特征信息的深层语义特征所调节而在表情动作和嘴型动作上与所述音频片段的声音保持同步关系，实现了根据所述音频片段的音频特征信息，将所述脸部数据模板变换为附带了与所述音频片段的声音相同步的表情动作和嘴型动作的脸部数据帧。

步骤S1400、根据所述脸部数据帧的网格顶点数据渲染所述数字人的三维模型，获得与所述音频片段相同步的脸部图像。

在获得所述音频片段相对应的脸部数据帧之后，便可将该脸部数据帧应用于所述数字人的三维模型中，基于所述脸部数据帧对所述三维模型进行图像渲染，生成与所述脸部数据帧相对应的所述数字人的脸部图像。

一个实施例中，通过将同一有声音频切分为多个所述的音频片段，将每个音频片段联合所述数字人的所述脸部数据模板为所述表情生成模型的输入数据，便可通过所述表情生成模型生成相应的脸部图像，最后将这些脸部图像对照音频片段的顺序进行有序组合，转换为视频格式，便可生成相应的脸部动画，所述脸部动画可以流媒体格式存储或传输。

根据以上实施例可知，本申请获得多种技术优势，包括但不限于：

在本申请任意实施例的基础上，请参阅图4，采用表情生成模型中的特征提取网络，分别提取所述脸部数据模板和所述音频特征信息相对应的语义特征信息后，融合成多模态特征信息，包括：

步骤S1210、采用所述特征提取网络中的音频编码器，提取所述音频特征信息的语义特征信息，获得音频语义特征信息；

一种示例性的网络架构中，所述音频编码器采用Deepspeech构建，其先通过多个卷积层对所述音频片段的音频特征信息执行卷积操作后，获得中间特征信息，再通过多个门控循环单元构成的序列化特征表示网络，在所述中间特征信息的基础上提取深层语义，最终获得相应的音频语义特征信息。

步骤S1220、采用所述特征提取网络中的表情编码器，在多个预设尺度提取所述脸部数据模板相对应的语义特征信息，基于最小尺度的语义特征信息提取其深层语义作为表情语义特征信息；

在所述表情编码器中，示例而言，可以设置三个全连接层，每个全连接层实现较高尺度向较低尺度的特征变换。当所述脸部数据模板以其原始尺度被输入第一个全连接层后，第一个全连接层将其变换到更低的一个特征尺度，获得相应尺度的语义特征信息，然后再传输给第二个全连接层做下一尺度的变换，以此类推，便可通过多个全连接层分别获得多个相应尺度的语义特征信息。由于全连接层主要是在原始语义的基础上进行线性映射，因而，各个尺度的语义特征信息能够保留所述脸部数据模板的浅层原始语义，而不同尺度的语义特征信息之间，则可从全面到局部地突出所述脸部数据模板的不同粒度的语义特征，因而，具有丰富的原始语义参考价值。

当最后一个全连接层输出最小尺度相对应的语义特征信息后，所述表情编码器中末端设置的一个示例性的特征表示模型例如长适时记忆网络，进一步对该最小尺度的语义特征信息提取其深层语义，从而基于上下文关联获得相应的深层语义信息，可作为所述脸部数据模板的表情语义特征信息使用。

步骤S1230、采用所述特征提取网络中的特征融合网络，将所述音频语义特征信息与所述表情语义特征信息合成为多模态特征信息。

所述音频编码器和表情编码器所获得的音频语义特征信息和表情语义特征信息，在其处理过程中，均被归一化成对应尺度的数据，然后传递给所述特征提取网络中的特征融合网络。

所述特征融合网络基于所述音频语义特征信息和表情语义特征信息进行融合处理，具体可采用元素积、通道拼接等任意一种方式实现融合，使两者融合为同一多模态特征信息。不难理解，所述多模态特征信息是在脸部数据模板的深层语义的基础上，引入音频片段的深层语义作为调节因子，对将脸部数据模板变换成不同表情的脸部数据帧具有引导作用。

根据以上实施例可知，在表情编码器的作用下，通过分别处理音频片段的音频特征信息和脸部数据模板，相应获得音频语义特征信息和表情语义特征信息，再将两者融合成多模态特征信息，实现了特征的有效融合，使多模态特征信息以音频特征为参考，形成对所述脸部模板数据及其表情变换趋势进行特征表示的能力，而且，多模态特征信息中的表情语义特征信息来源于所述脸部数据模板的最小尺度的语义特征信息，其具有细节部位显著特征的表现能力，因而，所获得的多模态特征信息对于获得与所述音频片段在表情动作和嘴型动作的脸部数据帧来说，在特征表示方面更为精准。

在本申请任意实施例的基础上，请参阅图5，采用所述表情生成模型中的特征解码网络，根据所述多模态特征信息和所述脸部数据模板的语义特征信息生成与所述音频片段相同步的脸部数据帧，包括：

步骤S1310、采用所述特征解码网络中的首个残差模块，对所述多模态特征信息进行等尺度卷积操作，获得相应的卷积特征信息；

特征解码网络中设置的残差模块的数量，主要是适应特征提取网络中的输出数据的数量而定，例如，适应特征提取网络具有三个全连接层的输出和一路特征融合网络的输出共四路输出，则可相应设置四个残差模块。其中的首个残差模块，是对应特征融合网络所输出的多模态特征信息设置的，其将所述多模态特征信息做等尺度的特征提取操作，通过残差卷积操作获得相应的卷积特征信息。

步骤S1320、采用与各个所述尺度相应的与所述首个残差模块级联的多个残差模块，每个尺度的残差模块参考其对应尺度的所述脸部数据模板的语义特征信息，对其前级的残差模块输出的卷积特征信息进行上采样后获得相应尺度的卷积特征信息；

对于级联于首个残差模块的第二个残差模块，以及依次级联的第三个残差模块、第四个残差模块等，均属于其相应的级联子网络，均通过与其级联子网络内的其他部件相配合而工作。在首个残差模块之后的各个级联的残差模块，每个残差模块与特征提取网络所输出的一个尺度的语义特征信息相对应，用于接收相应尺度的所述脸部数据模板的语义特征信息，同时还接收其在前一级的残差模块所获得的较小尺度的卷积特征信息作为其输入数据，然后，利用所述较小尺度的卷积特征信息携带的深层语义进行上采样，在上采样的过程中，以对应尺度的所述语义特征信息所携带的浅层原始语义为参考信息，在所述较小尺度的卷积特征信息，获得本级对应尺度的卷积特征信息，然后再将其输出至下一级残差模块中做相同处理，以此类推，直到最后一个残差模块输出尺度与所述脸部数据模板相同的卷积特征信息。

步骤S1330、将最高尺度对应的残差模块获得的卷积特征信息作为所述脸部数据帧。

最后一个残差模块，也是最高尺度相对应的残差模块，由该残差模块所获得的卷积特征信息，便是与所述音频片段相对应的，在所述脸部数据模板的基础上做表情动作和嘴型动作变换获得的脸部数据帧。

根据以上实施例可知，在根据多模态特征信息进行解码的过程中，将特征提取网络获得的各个尺度相对应的语义特征信息作为参考信息，在解码过程中，在相应多个尺度上注入来源于脸部数据模板的与表情相关的原始语义信息，从而引导特征解码网络准确解码出脸部数据帧。多个尺度的表情注入操作，使脸部数据帧的生成由浅入深，由局部到全局，均能获得有效的参考信息，确保最终生成的脸部数据帧具有优质的效果，能够在表情特征是嘴型方面保持与相应的音频片段的声音同步。

在本申请任意实施例的基础上，请参阅图6，每个尺度的残差模块参考其对应尺度的所述脸部数据模板的语义特征信息，对其前级的残差模块输出的卷积特征信息进行上采样后获得相应尺度的卷积特征信息，包括：

步骤S1321、每个尺度的残差模块通过其相应尺度的多层感知器提取相应尺度获得的所述脸部数据模板的语义特征信息的感知特征信息；

如前所述，对应每个特征尺度，在所述特征解码网络中设置有一个相应的级联子网络，在每个级联子网络中，以残差模块为基础，还设置有用于处理对应尺度的所述脸部数据模板的相应尺度语义特征信息的多层感知器(MLP，Multilayer Perceptron)和标准化层。

当需要将所述特征提取网络在一个尺度获得的所述脸部数据模板的语义特征信息传递给相应尺度的残差模块时，所述语义特征信息先到达相应尺度的级联子网络的多层感知器，由所述多层感知器进行特征映射，基于该相应尺度的语义特征信息提取出其相对应的感知特征信息，该感知特征信息进一步进入标准化层做标准化处理。

步骤S1322、每个尺度的残差模块通过其相应尺度的标准化层对相应尺度获得的所述感知特征信息进行通道标准化预处理，获得相应的标准化感知特征信息；

在同一级联子网络中获得的感知特征信息，由后续的标准化层进行标准化处理。所述标准化层用于实现通道标准化(AdaIN)处理，其原理是利用前导的所述多元感知器生成其权重参数，在权重参数的作用下对相应尺度的感知特征信息实现标准化，公式示例如下：

其中z是多元感知器获得的感知特征信息，μ和σ是通道方向上的特征均值和方差，γ和β是相应尺度的语义特征信息经过MLP输出获得的参数，携带表情特征信息。

可见，采用通道标准化的方式对相应尺度的语义特征信息进行标准化处理，而不是采用简单特征拼接的方式，可以实现更精准的表情注入效果，获得标准化感知特征信息。

步骤S1323、每个尺度的残差模块以其相应尺度获得的标准化感知特征信息为参考信息，对其前级的残差模块输出的卷积特征信息进行上采样后获得相应尺度的卷积特征信息。

当每个级联子网络内的残差模块，需要执行上采样操作时，在获得所述标准化感知特征信息的基础上，可以该标准化感知特征信息作为上采样所需的参考信息，由于标准化感知特征信息已经实现了良好的表情特征表示，因而，所述残差模块在较小尺度的卷积特征信息的基础上进行上采样时，参考所述标准化感知特征信息进行原始语义还原时，能够获得更为准确的语义还原结果，而获得对应尺度的卷积特征信息。

根据以上实施例可知，在基于所述脸部数据模板的各个尺度的语义特征信息及所述多模态特征信息进行解码的过程中，在每个尺度做原始语义相对应的表情特征注入时，通过多元感知机与基于通道标准化的标准化层相配合，可以更有效地实现表情相对应的特征注入，使所获得的脸部数据帧更为准确有效。

在本申请任意实施例的基础上，请参阅图7，获取数字人的脸部数据模板和有声音频的音频片段的音频特征信息之前，包括：

步骤S2100、从训练数据集中调用任意两个时序关系不同步的音频片段的音频特征信息和数字人的脸部数据帧构成同一组两个训练样本，为每个训练样本关联任意时序的脸部数据帧作为其标签样本；

可以预备一个训练数据集，在其中提供音频特征信息集和相映射的脸部数据帧集，构成映射关系数据，来为本申请的表情生成模型的训练过程提供相应的训练样本和标签样本。在训练数据集中，可以包含多个这样的映射关系数据，生成这些映射关系数据的数字人、样本有声音频等可以不同，以便泛化特征。

同一所述脸部数据帧集中可以包括同一数字人的脸部动画相对应的各个脸部数据帧，该脸部数据帧集相对应的音频特征信息集，则是该数字人的脸部动画所呈现的表情动作和嘴型动作相对应的声音内容的音频数据被对应所述各个脸部数据帧分成多个音频片段后，针对每个音频片段进行音频预处理和音频特征提取而获得的各个音频特征信息，由此可知，训练数据集中，一个音频特征信息有其相同步的脸部数据帧，它们之间在时序关系上一一对应，具有时序关系上的同步对应关系，构成同步数据单元。具体来说，其中某个时序的音频特征信息相对应的音频片段的声音与该时序下的脸部数据帧所呈现的数字人脸部区域表情动作和嘴型动作之间是同步对应的。

在所述训练数据集具有相同步的音频特征信息和脸部数据帧的基础上，可以通过灵活结合音频特征信息和脸部数据帧来构造表情生成模型训练所需的训练样本和起训练监督作用的标签样本。

为了构造训练样本，示例而言，每次取任意两个时序上不同的所述同步数据单元，每个同步数据单元包含相同步的音频特征信息和脸部数据帧，然后，取其中的第一个时序的同步数据单元中的音频特征信息与第二个时序的同步数据单元中的脸部数据帧构成第一训练样本，取其中的第一个时序的同步数据单元中的脸部数据帧与第二个时序的同步数据单元中的音频特征信息构成第二训练样本，实现交叉构造样本，由此得到同一组的两个训练样本。进一步为这两个训练样本设置相应的标签样本。

一种实施例中，如图8所示，在为同一组的两个训练样本设置相应的标签样本时，可以采用两个同步数据单元中的任意一个脸部数据帧固定作为该两个训练样本的标签样本，后续可根据标签样本的脸部数据帧与训练样本中的脸部数据帧是否具有时序上的同步关系，来确定计算损失值时的不同强制约束方式。根据该实施例，不难理解，对于两个同步数据单元来说，可以搭配不同标签样本构造出四个训练样本和标签样本映射数据，四个映射数据可以每两个为一组，分成两组训练样本。为了实施后续的强制约束，在对根据两个同步数据单元获得的四个映射数据分组时，可以确定其中一个映射数据的音频特征信息是与标签样本中的脸部数据帧是时序同步的，这种情况下标签样本中的脸部数据帧的嘴部区域可以提供有效的监督信息；而另一个训练样本的音频特征信息则是与标签样本中的脸部数据帧是时序不同步的，这种情况下标签样本中的脸部数据帧的嘴部区域通常与音频特征信息相应的声音不对应，但嘴部区域之外的其他脸部区域仍可为脸部表情提供有效的监督信息。按照这样的原理构造出的每一组训练样本，均包括两个训练样本，其中一个训练样本可以用于训练嘴部动作的生成能力，另一训练样本可以用于训练除嘴部动作之外的脸部其他表情区域的表情动作的生成能力。

一种实施例中，对于同一组训练样本来说，可以在所述训练数据集中的同一映射关系数据中采样，以便确保所依赖的脸部数据帧与同一数字人相对应，更有助于科学合理地确定相应的损失值。

步骤S2200、将同组两个训练样本分别输入所述表情生成模型实施推理，预测出与每个训练样本中的音频特征信息相同步的预测脸部数据帧；

在对所述表情生成模型实施训练时，对于同一组的训练样本，可以相继输入表情生成模型中实施推理，由所述表情生成模型根据相应的训练样本，即所述训练样本中的音频特征信息和脸部数据帧，经特征表示、特征解码之后，获得相应的预测脸部数据帧。不难理解，对于同一组训练样本，可以获得两个预测脸部数据帧。

步骤S2300、计算同组训练样本中各个预测脸部数据帧相对于其相应的标签样本的单帧损失值，根据同组训练样本的各个单帧损失值汇总出单组损失值，将多组训练样本的单组损失值汇总为总损失值；

为了监督表情生成模型的训练，需要计算各个训练样本相对应的单帧损失值。单个预测脸部数据帧的单帧损失值，可以将预测脸部数据帧中的各个顶点与相应的训练样本中的各个相应顶点对应计算L2范式损失来汇总确定即可。

考虑到同一组两个训练样本中，其标签样本中的脸部数据帧对其中不同训练样本的脸部数据帧有不同脸部区域的监督作用，因而，一个实施例中，适应不同训练样本，按照如下方式确定单帧损失值：

当所述标签样本中的脸部数据帧与所述训练样本中的音频特征信息相同步时，仅基于数字人的嘴部区域的网格顶点数据计算所述预测脸部数据帧相对于所述标签样本的脸部数据帧的单帧损失值；

当所述标签样本中的脸部数据帧与所述训练样本中的脸部数据帧相同时，仅基于数字人的嘴部区域之外的其他表情区域的网格顶点数据计算所述预测脸部数据帧相对于所述标签样本的脸部数据帧的单帧损失值。

确定出同组训练样本中各个训练样本的预测脸部数据帧相对应的单帧损失值后，可将两个训练样本各自的单帧损失值进行加和，汇总出单组损失值。

在模型训练的过程中，通常采用批量训练的方式以提升效率，针对这种情况，将同一批次的多组训练样本相对应的单组损失值进一步求均值或者加和汇总为总损失值，以便用于决策是否继续迭代下一批次的训练。一个实施例中，每一批次训练也可以仅包含一组训练样本，对此，可按需确定。

步骤S2400、根据所述总损失值决策所述表情生成模型是否收敛，在未收敛时对所述表情生成模型实施梯度更新并迭代训练，直至所述表情生成模型达到收敛状态为止。

为了判决表情生成模型是否达到收敛状态以及是否需要继续迭代训练，可预设一个表征模型是否达到收敛状态相对应的目标阈值，当确定出一个批次相对应的总损失值后，将其与所述目标阈值相比较，当该总损失值达到所述目标阈值时，表明表情生成模型已经达到收敛状态，从而终止训练任务，否则，所述总损失值未达到所述目标阈值，表示表情生成模型未达到收敛状态，根据所述总损失值对表情生成模型实施梯度更新，通过反向传播修正其各个环节的权重参数，使其进一步逼近收敛，然后开始下一批次的训练，继续从所述训练数据集中调用新的训练样本实施迭代，直至表情生成模型达到收敛状态为止。

一种实施例中，可以对所述表情生成模型实施两个阶段训练，先在预训练阶段，采用第一语种发音相对应的训练样本将所述表情生成模型训练至收敛状态后，再采用中文汉语数据对训练数据集中的训练样本进行重采样实现数据增强，然后再以数据增强后的训练样本对所述表情生成模型实施微调训练至收敛。按照这样的方式处理，可以利用外文容易采集训练样本的优势，而又能快速制备出适应特定语种所需的微调模型。

根据以上实施例可知，通过采用不同时序相对应的音频特征信息和脸部数据帧交叉构造同一组训练样本，针对同一组训练样本中的两个训练样本采用相应的脸部数据帧作为标签样本，确定其中部分训练样本中的标签样本可以用来监督嘴部区域的生成，另部分训练样本中的标签样本可以用来监督嘴部区域之外其他脸部区域的生成，将对应同一标签样本这两种情况相应的损失值汇总用于确定总损失值，再根据总损失实施监督更新，从而实现自监督训练，无需依赖人工标签，可节省训练成本，此外，由于在计算损失值时对损失计算进行强制约束，实现嘴部区域与其他脸部区域彼此的损失值的计算相解耦，使模型权重更新过程更为精准高效，能提升模型的训练效率，使模型更快速收敛，由此获得的表情生成模型，在投入线上推理时，能够细腻而精准地控制嘴部动作的生成，获得准确的脸部数据帧，使根据这些脸部数据帧所获得的脸部图像更加细腻、准确和自然流畅。

在本申请任意实施例的基础上，请参阅图9，从训练数据集中调用训练样本和标签样本之前，包括：

步骤S3100、获取基础数据集，所述基础数据集包括样本有声音频和样本脸部动画，所述样本脸部动画以三维模型数据描述，且在表情动作和嘴型动作上保持与所述样本有声音频中的声音相同步；

可以利用开源数据作为基础数据集来制作本申请所需的训练数据集，以提高样本制作效率和降低成本。

所述的基础数据集中，包括样本有声音频和样本脸部动画，所述样本有声音频是自然人发言录制的音频数据，当然也可以是机器合成人声的音频数据；所述样本脸部动画是根据样本有声音频播放时的声音相对应的表情动作和嘴型动作预先制作的数字人脸部动画数据，其可以相应的数字人的三维模型数据的形式进行描述。对于每个样本脸部动画来说，其中的脸部图像的表情动作和嘴型动作，是与相应的样本有声音频中的声音相同步的，因而，是制作本申请的训练数据集的理想素材之一。当然，在其他实施例中，也可以人工录制所述的样本有声音频，并且人工制作相应的样本脸部动画，同理也可纳入所述基础数据集的范围。

步骤S3200、将所述样本脸部动画中的每个图像帧转换为数字人的脸部数据帧，构成脸部数据帧集，所述脸部数据帧包含所述数字人的脸部区域的网格顶点数据，用于描述所述数字人的脸部区域各个顶点的三维空间位置数据；

所述样本脸部动画中，包括有多个图像帧，这些图像帧是以一定的格式描述相应的数字人的三维模型数据的，为避免格式不兼容，适应本申请的数字人的网格顶点数据的格式规范，可对所述样本脸部动画中的各个图像帧进行数据转换，将每个图像帧转换为以本申请的数字人的网格顶点数据形式表示的脸部数据帧，使其中的各个顶点数据的表示形式与本申请的数字人的三维模型相适应。通过所述脸部数据帧的网格顶点数据，描述出转换后的数字人的脸部区域各个顶点的三维空间位置数据。按照这种方式，一个样本脸部动画便可获得一个脸部数据帧集，其中包含多个脸部数据帧。

步骤S3300、对应所述样本脸部动画的各个图像帧所占时段，将所述样本有声音频切分为多个音频片段，使各个图像帧与各个音频片段同步对应，对各个音频片段进行音频预处理，获得其频域的音频特征信息，构成音频特征信息集；

对于与样本脸部动画相对应的样本有声音频，可以根据所述样本脸部动画中各个图像帧所占的时段，对所述样本有声音频进行分段采样，将其切分为多个音频片段，从而，使每个图像帧都有一个时序关系相对应的音频片段，使样本脸部动画中的各个图像帧分别对应与样本有声音频中的各个音频片段相同步。

对于样本有声音频中的各个音频片段，可以按照本申请前文所述的音频预处理和特征提取方式，对其执行加窗、分帧、时频变换、滤波等操作后，获得各个音频片段的频域特征，构成相应的音频特征信息。按照这种方式，一个样本有声音频便可获得由其多个音频片段的音频特征信息所构成的音频特征信息集。

步骤S3400、将所述音频特征信息集与所述脸部数据帧集构造为映射关系数据，存储于所述训练数据集中。

最后，将每个样本有声音频相对应的音频特征信息集，与该样本有声音频相对应的样本脸部动画的脸部数据帧集，建立映射关系，构成映射关系数据，存储到本申请的训练数据集中，后续便可根据这些映射关系数据构造本申请的表情生成模型训练所需的训练样本和标签样本。

根据以上实施例可知，本申请的训练数据集可以采用样本有声音频和相应的样本脸部动画来制作，这些基础数据是便于获取的，通过应用技术手段对这些数据进行预处理，可以获得本申请训练所需的训练样本和标签样本，期间无需人工干预，且可自动化处理，非常经济高效。

在本申请任意实施例的基础上，请参阅图10，获取数字人的脸部数据模板和有声音频的音频片段的音频特征信息，包括：

步骤S1110、获取所述有声音频和数字人特征标识；

当需要利用本申请的表情生成模型生成脸部动画时，可以为其指定一个数字人，同时提供相应的有声音频作为输入数据。

所述输入数据，适应不同业务场景的不同，其来源可以多种多样，例如，所述有声音频可以是直播间的主播用户提交的实时录音数据，也可以是虚拟导游场景中，基于预设文本进行机器语音合成而获得的机器合成语音数据，还可以是其他形式提供的音频数据等。

步骤S1120、按照预设时长将所述有声音频切分为多个音频片段，对各个音频片段进行音频预处理，获得其频域的音频特征信息；

所述表情生成模型在处理音频数据时，通常是按照一定的时长标准来切分音频片段的，使得脸部数据帧所对应的时长与音频片段的时长之间建立起固定的对应关系，实现标准化，因而，可以按照标准化后确定的预设时长，来对所述有声音频进行切分，获得多个音频片段。然后按照前文所述的音频处理方式，对各个音频片段进行相应的处理，获得各个音频片段相对应的频域上的音频特征信息。

步骤S1130、根据所述数字人特征标识确定相应的数字人的所述脸部数据模板；

由于本申请的表情生成模型经过海量样本的训练之后，具有为不同数字人生成脸部数据帧的生成能力，因而，可以事先提供一个数字人的脸部数据模板库，建立其中的脸部数据模板与数字人特征标识之间的映射关系，在需要制作相应数字人的脸部动画时，相应提供所述数字人特征标识，然后根据该数字人特征标识调用相应的数字人的脸部数据模板。

步骤S1140、逐一调用所述有声音频的各个音频片段的音频特征信息，分别与所述数字人的脸部数据模板构造为所述表情生成模型的输入数据，以通过所述表情生成模型对应生成各个脸部图像，获得对应所述有声音频的脸部动画。

所述有声音频经过切分而包含有多个音频片段，而数字人的脸部数据模板本质上则是单个脸部数据帧，这种情况下，根据表情生成模型的业务处理逻辑，可将每个音频片段的音频特征信息与所述数字人的脸部数据帧构成所述表情生成模型的同一组输入数据，然后逐一调用这些输入数据提供给表情生成模型，以便生成相应的脸部数据帧，也即适应每组输入数据便迭代执行本申请的步骤S1100至步骤S1400的过程，每次迭代获得一个音频片段相应的脸部数据帧，相应又渲染出其脸部图像，最终获得多个脸部图像，由这些脸部图像按照时序对应关系合成在一起，便构成与所述有声音频相对应脸部动画。根据本申请的表情生成模型在训练阶段所习得的能力可知，按照这种方式生成的脸部动画，其表情动作和嘴型动作与所述有声音频的声音之间，具有精准地对应同步关系，整体画面自然流畅。

根据以上实施例可知，本申请的表情生成模型可以服务于数字人脸部动画的制作从而为各种下游应用层服务提供高效的基础服务。

请参阅图11，根据本申请的一个方面提供的一种脸部图像生成装置，一个实施例中，包括数据获取模块1100、特征提取模块1200、特征解码模块1300，以及图像渲染模块1400，其中：所述数据获取模块1100，设置为获取数字人的脸部数据模板和有声音频的音频片段的音频特征信息，所述脸部数据模板包含所述数字人的脸部区域的网格顶点数据，所述音频特征信息包含所述音频片段在频域获得的音频特征；所述特征提取模块1200，设置为采用表情生成模型中的特征提取网络，分别提取所述脸部数据模板和所述音频特征信息相对应的语义特征信息后，融合成多模态特征信息；所述特征解码模块1300，设置为采用所述表情生成模型中的特征解码网络，根据所述多模态特征信息和所述脸部数据模板的语义特征信息生成与所述音频片段相同步的脸部数据帧，所述脸部数据帧包含根据所述脸部数据模板变换获得的网格顶点数据；所述图像渲染模块1400，设置为根据所述脸部数据帧的网格顶点数据渲染所述数字人的三维模型，获得与所述音频片段相同步的脸部图像。

在本申请任意实施例的基础上，所述特征提取模块1200，包括：音频编码单元，设置为采用所述特征提取网络中的音频编码器，提取所述音频特征信息的语义特征信息，获得音频语义特征信息；图像编码单元，设置为采用所述特征提取网络中的表情编码器，在多个预设尺度提取所述脸部数据模板相对应的语义特征信息，基于最小尺度的语义特征信息提取其深层语义作为表情语义特征信息；特征融合单元，设置为采用所述特征提取网络中的特征融合网络，将所述音频语义特征信息与所述表情语义特征信息合成为多模态特征信息。

在本申请任意实施例的基础上，所述特征解码模块1300，包括：初级上采样单元，设置为采用所述特征解码网络中的首个残差模块，对所述多模态特征信息进行等尺度卷积操作，获得相应的卷积特征信息；多尺度上采样单元，设置为采用与各个所述尺度相应的与所述首个残差模块级联的多个残差模块，每个尺度的残差模块参考其对应尺度的所述脸部数据模板的语义特征信息，对其前级的残差模块输出的卷积特征信息进行上采样后获得相应尺度的卷积特征信息；数据帧输出单元，设置为将最高尺度对应的残差模块获得的卷积特征信息作为所述脸部数据帧。

在本申请任意实施例的基础上，所述多尺度上采样单元，包括：特征感知子单元，设置为每个尺度的残差模块通过其相应尺度的多层感知器提取相应尺度获得的所述脸部数据模板的语义特征信息的感知特征信息；标准化处理子单元，设置为每个尺度的残差模块通过其相应尺度的标准化层对相应尺度获得的所述感知特征信息进行通道标准化预处理，获得相应的标准化感知特征信息；上采样处理子单元，设置为每个尺度的残差模块以其相应尺度获得的标准化感知特征信息为参考信息，对其前级的残差模块输出的卷积特征信息进行上采样后获得相应尺度的卷积特征信息。

在本申请任意实施例的基础上，先于所述数据获取模块1100，包括：数据调用模块，设置为从训练数据集中调用任意两个时序关系不同步的音频片段的音频特征信息和数字人的脸部数据帧构成同一组两个训练样本，为每个训练样本关联任意时序的脸部数据帧作为其标签样本；训练预测模块，设置为将同组两个训练样本分别输入所述表情生成模型实施推理，预测出与每个训练样本中的音频特征信息相同步的预测脸部数据帧；损失确定模块，设置为计算同组训练样本中各个预测脸部数据帧相对于其相应的标签样本的单帧损失值，根据同组训练样本的各个单帧损失值汇总出单组损失值，将多组训练样本的单组损失值汇总为总损失值；迭代决策模块，设置为根据所述总损失值决策所述表情生成模型是否收敛，在未收敛时对所述表情生成模型实施梯度更新并迭代训练，直至所述表情生成模型达到收敛状态为止。

在本申请任意实施例的基础上，所述损失确定模块，还设置为：当所述标签样本中的脸部数据帧与所述训练样本中的音频特征信息相同步时，仅基于数字人的嘴部区域的网格顶点数据计算所述预测脸部数据帧相对于所述标签样本的脸部数据帧的单帧损失值；当所述标签样本中的脸部数据帧与所述训练样本中的脸部数据帧相同时，仅基于数字人的嘴部区域之外的其他表情区域的网格顶点数据计算所述预测脸部数据帧相对于所述标签样本的脸部数据帧的单帧损失值。

在本申请任意实施例的基础上，先于所述数据获取模块1100，包括：素材获取模块，设置为获取基础数据集，所述基础数据集包括样本有声音频和样本脸部动画，所述样本脸部动画以三维模型数据描述，且在表情动作和嘴型动作上保持与所述样本有声音频中的声音相同步；图像加工模块，设置为将所述样本脸部动画中的每个图像帧转换为数字人的脸部数据帧，构成脸部数据帧集，所述脸部数据帧包含所述数字人的脸部区域的网格顶点数据，用于描述所述数字人的脸部区域各个顶点的三维空间位置数据；音频加工模块，设置为对应所述样本脸部动画的各个图像帧所占时段，将所述样本有声音频切分为多个音频片段，使各个图像帧与各个音频片段同步对应，对各个音频片段进行音频预处理，获得其频域的音频特征信息，构成音频特征信息集；构造存储模块，设置为将所述音频特征信息集与所述脸部数据帧集构造为映射关系数据，存储于所述训练数据集中。

在本申请任意实施例的基础上，所述数据获取模块1100，包括：输入获取单元，设置为获取所述有声音频和数字人特征标识；音频分段单元，设置为按照预设时长将所述有声音频切分为多个音频片段，对各个音频片段进行音频预处理，获得其频域的音频特征信息；模板调用单元，设置为根据所述数字人特征标识确定相应的数字人的所述脸部数据模板；迭代预备单元，设置为逐一调用所述有声音频的各个音频片段的音频特征信息，分别与所述数字人的脸部数据模板构造为所述表情生成模型的输入数据，以通过所述表情生成模型对应生成各个脸部图像，获得对应所述有声音频的脸部动画。

本申请的另一实施例还提供一种脸部图像生成设备。如图12所示，脸部图像生成设备的内部结构示意图。该脸部图像生成设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中，该脸部图像生成设备的计算机可读的非易失性可读存储介质，存储有操作系统、数据库和计算机可读指令，数据库中可存储有信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种脸部图像生成方法。

该脸部图像生成设备的处理器用于提供计算和控制能力，支撑整个脸部图像生成设备的运行。该脸部图像生成设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行本申请的脸部图像生成方法。该脸部图像生成设备的网络接口用于与终端连接通信。

本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的脸部图像生成设备的限定，具体的脸部图像生成设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图11中的各个模块的具体功能，存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于实现用户终端或服务器之间的数据传输。本实施方式中的非易失性可读存储介质中存储有本申请的脸部图像生成装置中执行所有模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有模块的功能。

本申请还提供一种存储有计算机可读指令的非易失性可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行本申请任一实施例的脸部图像生成方法的步骤。

本申请还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。

本领域普通技术人员可以理解，实现本申请上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性可读存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等计算机可读存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

综上所述，本申请能够以端到端的方式，根据有声音频和数字人的脸部数据帧模板生成与所述有声音频的音频片段相对应的脸部图像，可用于构造脸部动画，所生成的脸部动画表情细腻流畅，表情动作和嘴型动作与音频片段的声音保持同步，适用于多种业务场景，具有经济潜力。

Claims

1.一种脸部图像生成方法，其特征在于，包括：

2.根据权利要求1所述的脸部图像生成方法，其特征在于，采用表情生成模型中的特征提取网络，分别提取所述脸部数据模板和所述音频特征信息相对应的语义特征信息后，融合成多模态特征信息，包括：

采用所述特征提取网络中的音频编码器，提取所述音频特征信息的语义特征信息，获得音频语义特征信息；

采用所述特征提取网络中的表情编码器，在多个预设尺度提取所述脸部数据模板相对应的语义特征信息，基于最小尺度的语义特征信息提取其深层语义作为表情语义特征信息；

采用所述特征提取网络中的特征融合网络，将所述音频语义特征信息与所述表情语义特征信息合成为多模态特征信息。

3.根据权利要求2所述的脸部图像生成方法，其特征在于，采用所述表情生成模型中的特征解码网络，根据所述多模态特征信息和所述脸部数据模板的语义特征信息生成与所述音频片段相同步的脸部数据帧，包括：

采用所述特征解码网络中的首个残差模块，对所述多模态特征信息进行等尺度卷积操作，获得相应的卷积特征信息；

采用与各个所述尺度相应的与所述首个残差模块级联的多个残差模块，每个尺度的残差模块参考其对应尺度的所述脸部数据模板的语义特征信息，对其前级的残差模块输出的卷积特征信息进行上采样后获得相应尺度的卷积特征信息；

将最高尺度对应的残差模块获得的卷积特征信息作为所述脸部数据帧。

4.根据权利要求3所述的脸部图像生成方法，其特征在于，每个尺度的残差模块参考其对应尺度的所述脸部数据模板的语义特征信息，对其前级的残差模块输出的卷积特征信息进行上采样后获得相应尺度的卷积特征信息，包括：

每个尺度的残差模块通过其相应尺度的多层感知器提取相应尺度获得的所述脸部数据模板的语义特征信息的感知特征信息；

每个尺度的残差模块通过其相应尺度的标准化层对相应尺度获得的所述感知特征信息进行通道标准化预处理，获得相应的标准化感知特征信息；

每个尺度的残差模块以其相应尺度获得的标准化感知特征信息为参考信息，对其前级的残差模块输出的卷积特征信息进行上采样后获得相应尺度的卷积特征信息。

5.据权利要求1至4中任意一项所述的脸部图像生成方法，其特征在于，获取数字人的脸部数据模板和有声音频的音频片段的音频特征信息之前，包括：

从训练数据集中调用任意两个时序关系不同步的音频片段的音频特征信息和数字人的脸部数据帧构成同一组两个训练样本，为每个训练样本关联任意时序的脸部数据帧作为其标签样本；

将同组两个训练样本分别输入所述表情生成模型实施推理，预测出与每个训练样本中的音频特征信息相同步的预测脸部数据帧；

计算同组训练样本中各个预测脸部数据帧相对于其相应的标签样本的单帧损失值，根据同组训练样本的各个单帧损失值汇总出单组损失值，将多组训练样本的单组损失值汇总为总损失值；

根据所述总损失值决策所述表情生成模型是否收敛，在未收敛时对所述表情生成模型实施梯度更新并迭代训练，直至所述表情生成模型达到收敛状态为止。

6.据权利要求5所述的脸部图像生成方法，其特征在于，计算同组训练样本中各个预测脸部数据帧相对于其相应的标签样本的单帧损失值，包括：

7.据权利要求5所述的脸部图像生成方法，其特征在于，从训练数据集中调用训练样本和标签样本之前，包括：

获取基础数据集，所述基础数据集包括样本有声音频和样本脸部动画，所述样本脸部动画以三维模型数据描述，且在表情动作和嘴型动作上保持与所述样本有声音频中的声音相同步；

将所述样本脸部动画中的每个图像帧转换为数字人的脸部数据帧，构成脸部数据帧集，所述脸部数据帧包含所述数字人的脸部区域的网格顶点数据，用于描述所述数字人的脸部区域各个顶点的三维空间位置数据；

对应所述样本脸部动画的各个图像帧所占时段，将所述样本有声音频切分为多个音频片段，使各个图像帧与各个音频片段同步对应，对各个音频片段进行音频预处理，获得其频域的音频特征信息，构成音频特征信息集；

将所述音频特征信息集与所述脸部数据帧集构造为映射关系数据，存储于所述训练数据集中。

8.据权利要求1至4中任意一项所述的脸部图像生成方法，其特征在于，获取数字人的脸部数据模板和有声音频的音频片段的音频特征信息，包括：

获取所述有声音频和数字人特征标识；

按照预设时长将所述有声音频切分为多个音频片段，对各个音频片段进行音频预处理，获得其频域的音频特征信息；

根据所述数字人特征标识确定相应的数字人的所述脸部数据模板；

逐一调用所述有声音频的各个音频片段的音频特征信息，分别与所述数字人的脸部数据模板构造为所述表情生成模型的输入数据，以通过所述表情生成模型对应生成各个脸部图像，获得对应所述有声音频的脸部动画。

9.一种脸部图像生成装置，其特征在于，包括：

10.一种脸部图像生成设备，包括中央处理器和存储器，其特征在于，所述中央处理器设置为调用运行存储于所述存储器中的计算机程序以执行如权利要求1至8中任意一项所述的方法的步骤。

11.一种非易失性可读存储介质，其特征在于，其以计算机可读指令的形式存储有计算机程序，所述计算机程序被计算机调用运行时，执行如权利要求1至8中任意一项所述的方法所包括的步骤。

12.一种计算机程序产品，其特征在于，包括计算机程序/指令，所述计算机程序/指令被处理器运行时，执行如权利要求1至8中任意一项所述的方法的步骤。