CN113987268A

CN113987268A - 数字人视频生成方法、装置、电子设备及存储介质

Info

Publication number: CN113987268A
Application number: CN202111168846.2A
Authority: CN
Inventors: 王鑫宇; 常向月; 刘炫鹏; 刘云峰
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2022-01-28

Abstract

本发明实施例提供了一种数字人视频生成方法、装置、电子设备及存储介质，所述方法包括：获取目标人物的音频，针对音频中任一音频帧，提取音频帧对应的音频特征，以及获取第一平均人脸3D网格；确定目标人物的样本视频，提取样本视频中目标样本图像的第一人脸姿态参数以及第一背景轮廓线；利用预设解码器，对音频特征、第一人脸姿态参数以及第一平均人脸3D网格进行处理，生成第一人脸3D网格；利用预设视频生成模型，对第一人脸3D网格以及第一背景轮廓线进行处理，生成数字人视频。基于目标人物的音频生成数字人视频，其中引入了第一平均人脸3D网格、目标样本图像的第一人脸姿态参数以及第一背景轮廓线，生成的数字人视频中数字人姿态自然、准确。

Description

数字人视频生成方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种数字人视频生成方法、装置、电子设备及存储介质。

背景技术

数字人视频的生成技术现在越来越成熟，如果数字人视频生成技术想应用在商业，实现实时交互，至少需要满足两点：生成效果好和推理速度快，其中，生产效果好事必要的前提，推理速度快是商业的需要。

目前，基于声音推理生成数字人视频的方案，其主要是通过声音推理模型，采用声音推理生成人脸关键点。但基于声音推理生成的人脸关键点存在角度问题，导致最终生成的数字人视频中数字人姿态不自然。

发明内容

为了解决上述基于声音推理生成的人脸关键点存在角度问题，导致最终生成的数字人视频中数字人姿态不自然的技术问题，本发明实施例提供了一种数字人视频生成方法、装置、电子设备及存储介质。

在本发明实施例的第一方面，首先提供了一种数字人视频生成方法，所述方法包括：

获取目标人物的音频，针对所述音频中任一音频帧，提取所述音频帧对应的音频特征，以及获取第一平均人脸3D网格；

确定所述目标人物的样本视频，提取所述样本视频中目标样本图像的第一人脸姿态参数以及第一背景轮廓线；

利用预设解码器，对所述音频特征、所述第一人脸姿态参数以及所述第一平均人脸3D网格进行处理，生成第一人脸3D网格；

利用预设视频生成模型，对所述第一人脸3D网格以及所述第一背景轮廓线进行处理，生成数字人视频。

在一个可选的实施方式中，所述获取第一平均人脸3D网格，包括：

将所述目标样本图像输入至预设3D模型，获取所述预设3D模型输出的第一3D人脸重建信息；

提取所述第一3D人脸重建信息中的第一人脸姿态参数和第一人脸表情参数；

确定所述第一人脸姿态参数和所述第一人脸表情参数为第一平均人脸3D网格；

或者，

获取第一平均人脸3D网格集，获取所述第一平均人脸3D网格集中的任一第一平均人脸3D网格。

在一个可选的实施方式中，所述提取所述样本视频中目标样本图像的第一人脸姿态参数，包括：

将所述样本视频中目标样本图像输入至预设姿态提取模型，获取所述预设姿态提取模型输出的第一人脸姿态参数；

其中，所述预设姿态提取模型包括预设神经网格模型与全连接层，所述预设神经网格模型连接于所述全连接层。

在一个可选的实施方式中，所述利用预设解码器，对所述音频特征、所述第一人脸姿态参数以及所述第一平均人脸3D网格进行处理，生成第一人脸3D网格，包括：

针对所述音频中任一音频帧，将所述音频帧对应的所述音频特征输入至预设神经网格模型；

获取所述预设神经网格模型输出的所述音频帧对应的第一声音隐藏变量；

将所述第一平均人脸3D网格输入至所述预设神经网格模型，获取所述预设神经网格模型输出的第一图像隐藏变量；

按照通道合成的方式将所述音频帧对应的第一声音隐藏变量、所述第一图像隐藏变量以及所述第一人脸姿态参数进行合成，得到第一合成变量；

将所述第一合成变量输入至预设解码器，获取所述预设解码器输出的所述音频帧对应的第一人脸3D网格。

在一个可选的实施方式中，所述将所述第一合成变量输入至预设解码器，获取所述预设解码器输出的所述音频帧对应的第一人脸3D网格，包括：

将所述第一人脸姿态参数输入至所述预设神经网格模型，获取所述预设神经网格模型输出的所述第一人脸姿态参数的第一嘴周围特征向量；

将所述第一合成变量、所述第一嘴周围特征向量输入至预设解码器，获取所述预设解码器输出的所述音频帧对应的第一人脸3D网格。

在一个可选的实施方式中，所述利用预设视频生成模型，对所述第一人脸3D网格以及所述第一背景轮廓线进行处理，生成数字人视频，包括：

按照所述通道合成的方式将所述音频帧对应的所述第一人脸3D网格与所述第一背景轮廓线进行合成，得到所述音频帧对应的第一合成图像；

将所述音频帧对应的所述第一合成图像输入至预设视频生成模型，获取所述预设视频生成模型输出的所述音频帧对应的数字人图像；

按照所述音频的时间序列，对各所述音频帧各自对应的所述数字人图像进行组合，生成数字人视频。

在一个可选的实施方式中，所述针对所述音频中任一音频帧，提取所述音频帧对应的音频特征，包括：

针对所述音频中任一音频帧，利用傅里叶变换提取Mel频率倒谱系数作为所述音频帧对应的音频特征；

或者，

针对所述音频中任一音频帧，利用预设语音识别模型提取所述音频帧对应的音频特征。

在一个可选的实施方式中，在执行所述方法之前，还包括：

获取目标人物的样本视频，其中，所述样本视频中样本图像与所述样本视频中样本音频的样本音频帧一一对应；

针对所述样本音频中任一所述样本音频帧，提取所述样本音频帧对应的样本音频特征，并获取第二平均人脸3D网格；以及，

提取与所述样本音频帧对应的所述样本图像中的第二人脸姿态参数以及第二背景轮廓线；

利用预设解码器，对所述样本音频特征、所述第二人脸姿态参数以及所述第二平均人脸3D网格进行处理，生成第二人脸3D网格；

利用预设视频生成模型，对所述第二人脸3D网格以及所述第二背景轮廓线进行处理，生成数字人样本视频。

在一个可选的实施方式中，所述获取第二平均人脸3D网格，包括：

将与所述样本音频帧对应的所述样本图像输入至预设3D模型，获取所述预设3D模型输出的第二3D人脸重建信息；

提取所述第二3D人脸重建信息中的第二人脸姿态参数和第二人脸表情参数；

确定所述第二人脸姿态参数和所述第二人脸表情参数为第二平均人脸3D网格；

或者，

获取第二平均人脸3D网格集，获取所述第二平均人脸3D网格集中的任一第二平均人脸3D网格。

在一个可选的实施方式中，所述提取与所述样本音频帧对应的所述样本图像中的第二人脸姿态参数，包括：

将与所述样本音频帧对应的所述样本图像输入至预设姿态提取模型，获取所述预设姿态提取模型输出的第二人脸姿态参数；

在一个可选的实施方式中，所述利用预设解码器，对所述样本音频特征、所述第二人脸姿态参数以及所述第二平均人脸3D网格进行处理，生成第二人脸3D网格，包括：

针对所述样本音频中任一所述样本音频帧，将所述样本音频帧对应的所述样本音频特征输入至预设神经网格模型；

获取所述预设神经网格模型输出的所述样本音频帧对应的第二声音隐藏变量；

将所述第二平均人脸3D网格输入至所述预设神经网格模型，获取所述预设神经网格模型输出的第二图像隐藏变量；

按照通道合成的方式将所述样本音频帧对应的所述第二声音隐藏变量、所述第二图像隐藏变量以及所述第二人脸姿态参数进行合成，得到第二合成变量；

将所述第二合成变量输入至预设解码器，获取所述预设解码器输出的所述样本音频帧对应的第二人脸3D网格。

在一个可选的实施方式中，所述将所述第二合成变量输入至预设解码器，获取所述预设解码器输出的所述样本音频帧对应的第二人脸3D网格，包括：

将所述第二人脸姿态参数输入至所述预设神经网格模型，获取所述预设神经网格模型输出的所述第二人脸姿态参数的第二嘴周围特征向量；

将所述第二合成变量、所述第二嘴周围特征向量输入至预设解码器，获取所述预设解码器输出的所述音频帧对应的第二人脸3D网格。

在一个可选的实施方式中，所述利用预设视频生成模型，对所述第二人脸3D网格以及所述第二背景轮廓线进行处理，生成数字人样本视频，包括：

按照所述通道合成的方式将所述样本音频帧对应的所述第二人脸3D网格与所述第二背景轮廓线进行合成，得到所述样本音频帧对应的第二合成图像；

将所述样本音频帧对应的所述第二合成图像输入至预设视频生成模型，获取所述预设视频生成模型输出的所述样本音频帧对应的数字人样本图像；

按照所述样本音频的时间序列，对各所述样本音频帧各自对应的所述数字人样本图像进行组合，生成数字人样本视频。

在一个可选的实施方式中，所述针对所述样本音频中任一所述样本音频帧，提取所述样本音频帧对应的样本音频特征，包括：

针对所述样本音频中任一所述样本音频帧，利用傅里叶变换提取Mel频率倒谱系数作为所述样本音频帧对应的样本音频特征；

或者，

针对所述样本音频中任一所述样本音频帧，利用预设语音识别模型提取所述样本音频帧对应的样本音频特征。

在本发明实施例的第二方面，提供了一种数字人视频生成装置，所述装置包括：

音频获取模块，用于获取目标人物的音频，针对所述音频中任一音频帧，提取所述音频帧对应的音频特征，以及获取第一平均人脸3D网格；

参数、轮廓线提取模块，用于确定所述目标人物的样本视频，提取所述样本视频中目标样本图像的第一人脸姿态参数以及第一背景轮廓线；

网格生成模块，用于利用预设解码器，对所述音频特征、所述第一人脸姿态参数以及所述第一平均人脸3D网格进行处理，生成第一人脸3D网格；

视频生成模块，用于利用预设视频生成模型，对所述第一人脸3D网格以及所述第一背景轮廓线进行处理，生成数字人视频。

在一个可选的实施方式中，所述音频获取模块具体用于：

或者，

在一个可选的实施方式中，所述参数、轮廓线提取模块具体用于：

在一个可选的实施方式中，所述网格生成模块具体包括：

音频帧输入子模块，用于针对所述音频中任一音频帧，将所述音频帧对应的所述音频特征输入至预设神经网格模型；

变量获取模块，用于获取所述预设神经网格模型输出的所述音频帧对应的第一声音隐藏变量；

网格输入子模块，用于将所述第一平均人脸3D网格输入至所述预设神经网格模型，获取所述预设神经网格模型输出的第一图像隐藏变量；

变量合成子模块，用于按照通道合成的方式将所述音频帧对应的第一声音隐藏变量、所述第一图像隐藏变量以及所述第一人脸姿态参数进行合成，得到第一合成变量；

网格生成子模块，用于将所述第一合成变量输入至预设解码器，获取所述预设解码器输出的所述音频帧对应的第一人脸3D网格。

在一个可选的实施方式中，所述网格生成子模块具体用于：

在一个可选的实施方式中，所述视频生成模块具体用于：

在一个可选的实施方式中，所述音频获取模块具体用于：

或者，

在一个可选的实施方式中，所述装置还包括：

样本视频获取模块，用于获取目标人物的样本视频，其中，所述样本视频中样本图像与所述样本视频中样本音频的样本音频帧一一对应；

音频特征提取模块，用于针对所述样本音频中任一所述样本音频帧，提取所述样本音频帧对应的样本音频特征；

网格获取模块，用于获取第二平均人脸3D网格；以及，

姿态参数提取模块，用于提取与所述样本音频帧对应的所述样本图像中的第二人脸姿态参数以及第二背景轮廓线；

3D网格生成模块，用于利用预设解码器，对所述样本音频特征、所述第二人脸姿态参数以及所述第二平均人脸3D网格进行处理，生成第二人脸3D网格；

样本视频生成模块，用于利用预设视频生成模型，对所述第二人脸3D网格以及所述第二背景轮廓线进行处理，生成数字人样本视频。

在一个可选的实施方式中，所述网格获取模块具体用于：

或者，

在一个可选的实施方式中，所述姿态参数提取模块具体用于：

在一个可选的实施方式中，所述3D网格生成模块具体包括：

音频特征输入子模块，用于针对所述样本音频中任一所述样本音频帧，将所述样本音频帧对应的所述样本音频特征输入至预设神经网格模型；

隐藏变量获取子模块，用于获取所述预设神经网格模型输出的所述样本音频帧对应的第二声音隐藏变量；

3D网格输入子模块，用于将所述第二平均人脸3D网格输入至所述预设神经网格模型，获取所述预设神经网格模型输出的第二图像隐藏变量；

隐藏变量合成子模块，用于按照通道合成的方式将所述样本音频帧对应的所述第二声音隐藏变量、所述第二图像隐藏变量以及所述第二人脸姿态参数进行合成，得到第二合成变量；

3D网格生成子模块，用于将所述第二合成变量输入至预设解码器，获取所述预设解码器输出的所述样本音频帧对应的第二人脸3D网格。

在一个可选的实施方式中，将所述第二人脸姿态参数输入至所述预设神经网格模型，获取所述预设神经网格模型输出的所述第二人脸姿态参数的第二嘴周围特征向量；

在一个可选的实施方式中，所述样本视频生成模块具体用于：

在一个可选的实施方式中，所述音频特征提取模块具体用于：

或者，

在本发明实施例的第三方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面中所述的数字人视频生成方法。

在本发明实施例的第四方面，还提供了一种存储介质，所述存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面中所述的数字人视频生成方法。

在本发明实施例的第五方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面中所述的数字人视频生成方法。

本发明实施例提供的技术方案，获取目标人物的音频，针对音频中任一音频帧，提取音频帧对应的音频特征，以及获取第一平均人脸3D网格，确定目标人物的样本视频，提取样本视频中目标样本图像的第一人脸姿态参数以及第一背景轮廓线，利用预设解码器，对音频特征、第一人脸姿态参数以及第一平均人脸3D网格进行处理，生成第一人脸3D网格，利用预设视频生成模型，对第一人脸3D网格以及第一背景轮廓线进行处理，生成数字人视频。如此基于目标人物的音频，生成相应的第一人脸3D网格，进而基于第一人脸3D网格，生成数字人视频，其中引入了第一平均人脸3D网格、目标样本图像的第一人脸姿态参数以及第一背景轮廓线，最终生成的数字人视频中数字人姿态自然、准确。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中示出的一种数字人视频生成方法的实施流程示意图；

图2为本发明实施例中示出的一种Image2Pose模型的结构示意图；

图3为本发明实施例中示出的一种(每帧音频帧对应的)第一人脸3D网格生成方法的实施流程示意图；

图4为本发明实施例中示出的另一种(每帧音频帧对应的)第一人脸3D网格生成方法的实施流程示意图；

图5为本发明实施例中示出的另一种数字人视频生成方法的实施流程示意图；

图6为本发明实施例中示出的一种模型训练方法的实施流程示意图；

图7为本发明实施例中示出的一种(每帧样本音频帧对应的)第二人脸3D网格生成方法的实施流程示意图；

图8为本发明实施例中示出的一种数字人视频生成装置的结构示意图；

图9为本发明实施例中示出的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，为本发明实施例提供的一种数字人视频生成方法的实施流程示意图，该方法应用于处理器，具体可以包括以下步骤：

S101，获取目标人物的音频，针对所述音频中任一音频帧，提取所述音频帧对应的音频特征，以及获取第一平均人脸3D网格。

在本发明实施例中，目标人物可以自行输入一段音频，该音频可以是WAV格式(WAV是一种无损的音频文件格式)，当然也可以是其他格式，对于帧率，可以为100，可以是50或者25，本发明实施例对此不作限定。

由此，在模型推理阶段，本发明实施例可以获取目标人物的音频，这里目标人物可以是当前任意的人物，即任意的用户，本发明实施例对此不作限定。例如，本发明实施例可以获取用户A的音频。

此外，在本发明实施例中，对于目标人物的音频，针对该目标人物的音频中任一音频帧，提取该音频帧对应的音频特征，以及相应的获取第一平均人脸3D网格。

例如，对于用户A的音频，假设存在10帧音频帧，则针对用户A的音频中任一音频帧，提取该音频帧对应的音频特征，以及相应的获取第一平均人脸3D网格。

其中，对于音频特征的提取，可以使用傅立叶变换，即针对该目标人物的音频中任一音频帧，利用傅里叶变换提取Mel频率倒谱系数(即MFCC)作为该音频帧对应的音频特征。

或者，

对于音频特征的提取，可以使用其他预设语音识别模型，例如Deepspeech/ASR/wav2Vector等模型，即针对该目标人物的音频中任一音频帧，利用预设语音识别模型提取该音频帧对应的音频特征。

对于第一平均人脸3D网格，目前市面上存在一些开源的第一平均人脸3D网格，由此可以组成第一平均人脸3D网格集，进而在对音频中任一音频帧进行处理的过程中，获取第一平均人脸3D网格集，获取第一平均人脸3D网格集中的任一第一平均人脸3D网格。

或者，

对于样本视频中目标样本图像(即target图像)，将目标样本图像输入至预设3D模型，这里预设3D模型可以是开源的3D模型(例如Deep3DFaceReconstruction/DECA/3DMM等3D人脸重建模型)，获取该预设3D模型输出的第一3D人脸重建信息，提取第一3D人脸重建信息中的第一人脸姿态参数和第一人脸表情参数，就可以当作平均人脸，即确定第一人脸姿态参数和第一人脸表情参数为第一平均人脸3D网格。

S102，确定所述目标人物的样本视频，提取所述样本视频中目标样本图像的第一人脸姿态参数以及第一背景轮廓线。

在本发明实施例中，在模型训练阶段，准备了目标人物的样本视频，用于参与模型训练，从而后续在模型推理阶段，可以使用目标人物的样本视频参与数字人视频的生成。

基于此，确定目标人物的样本视频，从目标人物的样本视频中任一选择一帧样本图像作为目标样本图像，提取样本视频中目标样本图像的第一人脸姿态参数以及第一背景轮廓线。

例如，确定用户A的样本视频，从用户A的样本视频中选择第一帧样本图像作为目标样本图像(即target图像)，提取样本视频中目标样本图像的第一人脸姿态参数(pose)以及第一背景轮廓线(即背景canny线图)。

需要说明的是，对于样本视频，包括多帧样本图像，可以任一选择一帧样本图像作为目标样本图像，例如选择样本视频中第一帧样本图像作为目标样本图像，后续处理每帧音频帧的过程中，均使用这个目标样本图像，即固定使用一个样本图像，本发明实施例对此不作限定，这样最终生成的数字人视频中数字人姿态固定，与样本视频中目标样本图像的头部姿态一样。

此外，为了保证姿态的连续性，可以从目标人物的样本视频中顺序(这里的顺序遵循音频中音频帧的处理顺序，例如处理第一帧音频帧，选择第一帧样本图像作为目标样本图像，处理第二帧音频帧，选择第一帧样本图像作为目标样本图像，以此遵循音频中音频帧的处理顺序)选择一帧样本图像作为目标样本图像，如此可以保证最终生成的数字人视频中数字人姿态的连续性，与样本视频中的头部姿态是一样的。

此外，对于第一人脸姿态参数的提取，可以使用预设姿态提取模型，即将样本视频中目标样本图像输入至预设姿态提取模型，获取预设姿态提取模型输出的第一人脸姿态参数。其中，可以基于样本视频中样本图像进行预设姿态提取模型的训练，以训练得到预设姿态提取模型。

例如，假设预设姿态提取模型为Image2Pose模型，将样本视频中目标样本图像(例如target图像)输入至Image2Pose模型，获取Image2Pose模型输出的第一人脸姿态参数，其中，Image2Pose模型包括预设神经网格模型(例如CNN)与全连接层，预设神经网格模型连接于全连接层，如图2所示。

需要说明的是，预设姿态提取模型包括预设神经网格模型与全连接层，预设神经网格模型连接于全连接层，其中，全连接层参数可以用于表征人脸姿态特征向量。此外，对于第一背景轮廓线的提取，可以参考市面上比较成熟的技术，且第一背景轮廓线指的是目标样本图像中背景(除人脸之外的区域)关键点对应的轮廓线。

S103，利用预设解码器，对所述音频特征、所述第一人脸姿态参数以及所述第一平均人脸3D网格进行处理，生成第一人脸3D网格。

在本发明实施例中，对于音频中任一音频帧提取的对应的音频特征、第一平均人脸3D网格以及目标样本图像的第一人脸姿态参数，利用预设解码器进行处理，可以生成相应的第一人脸3D网格。

在本发明实施例中，利用预设解码器对音频中任一音频帧提取的对应的音频特征、第一平均人脸3D网格以及目标样本图像的第一人脸姿态参数进行处理，舍弃了人脸3D模型，可以有效加快模型推理速度。

例如，对于用户A的音频中第一帧音频帧，利用预设解码器，对第一帧音频帧对应的音频特征、第一平均人脸3D网格以及目标样本图像的第一人脸姿态参数进行处理，生成相应的第一人脸3D网格；

对于用户A的音频中第二帧音频帧，利用预设解码器，对第二帧音频帧对应的音频特征、第一平均人脸3D网格以及目标样本图像的第一人脸姿态参数进行处理，生成相应的第一人脸3D网格；

对于用户A的音频中其他音频帧，与上述处理类似，如此均可以得到各自对应的第一人脸3D网格，即第一平均人脸3D网格以及目标样本图像的第一人脸姿态参数参与对每帧音频帧的处理，如下表1所示。

表1

其中，在本发明实施例中，在对每帧音频帧处理的过程中，如图3所示，具体可以通过以下方式得到每帧音频帧对应的第一人脸3D网格：

S301，针对所述音频中任一音频帧，将所述音频帧对应的所述音频特征输入至预设神经网格模型。

S302，获取所述预设神经网格模型输出的所述音频帧对应的第一声音隐藏变量。

在本发明实施例中，针对音频中任一音频帧，将该音频帧对应的音频特征输入至预设神经网格模型，获取预设神经网格模型输出的该音频帧对应的第一声音隐藏变量。

例如，以用户A的音频中第一帧音频帧为例，将第一帧音频帧对应的音频特征输入至CNN，经过CNN卷积后产生对应的第一声音隐藏变量W1，获取CNN输出的第一帧音频帧对应的第一声音隐藏变量W1。

需要说明的是，对于预设神经网格模型，例如可以是CNN，当然也可以是RNN，本发明实施例对此不作限定。

S303，将所述第一平均人脸3D网格输入至所述预设神经网格模型，获取所述预设神经网格模型输出的第一图像隐藏变量。

对于第一平均人脸3D网格，将该第一平均人脸3D网格输入至预设神经网格模型，获取预设神经网格模型输出的第一图像隐藏变量。

例如，将该第一平均人脸3D网格输入至CNN，经CNN卷积后产生对应的第一图像隐藏变量T1，获取CNN输出的第一图像隐藏变量T1。

S304，按照通道合成的方式将所述音频帧对应的第一声音隐藏变量、所述第一图像隐藏变量以及所述第一人脸姿态参数进行合成，得到第一合成变量。

在本发明实施例中，对于样本视频中目标样本图像的第一人脸姿态参数，可以认为是姿态隐藏变量(即姿态特征向量)。基于此，对于音频中任一音频帧对应的第一声音隐藏变量，按照通道合成的方式将该音频帧对应的第一声音隐藏变量、第一图像隐藏变量以及第一人脸姿态参数进行合成，得到该音频帧对应的第一合成变量。

例如，对于样本视频中目标样本图像的第一人脸姿态参数，可以认为是姿态隐藏变量I1，以用户A的音频中第一帧音频帧对应的第一声音隐藏变量W1为例，将第一帧音频帧对应的第一声音隐藏变量W1、第一图像隐藏变量T1以及姿态隐藏变量I1，按照通道合成，得到第一帧音频帧对应的第一合成变量(W1+T1+I1)。

需要说明的是，假设第一声音隐藏变量W1具有5个通道，而第一图像隐藏变量T1、姿态隐藏变量I1同样具有5个通道，则按照通道合成的方式，将第一声音隐藏变量W1、第一图像隐藏变量T1以及姿态隐藏变量I1进行合成变成15个通道，即W1+T1+I1。

S305，将所述第一合成变量输入至预设解码器，获取所述预设解码器输出的所述音频帧对应的第一人脸3D网格。

如此经过上述步骤，对于音频中任一音频帧，均可以得到各自对应的第一合成变量，从而对于音频中任一音频帧对应的第一合成变量，可以将该音频帧对应的第一合成变量输入至预设解码器，获取预设解码器输出的该音频帧对应的第一人脸3D网格。

例如，以用户A的音频中第一帧音频帧对应的第一合成变量(W1+T1+I1)为例，将该第一帧音频帧对应的第一合成变量(W1+T1+I1)输入至decoder进行处理，获取decoder最终输出的第一帧音频帧对应的第一人脸3D网格(携带角度)。

此外，为了使最终生成的数字人视频更加自然、准确，本发明实施例可以将样本视频中目标样本图像的第一人脸姿态参数输入至预设神经网格模型，获取预设神经网格模型输出的第一人脸姿态参数的第一嘴周围特征向量，将第一嘴周围特征向量输入至预设解码，此外，将第一合成变量经过几层CNN层，然后输入至预设解码器，同时解码器的部分层获得权重向量与经过CNN提取的头部姿态获得的向量(第一嘴周围特征向量)，经过通道相加，为了提升头部姿态在姿态向量的影响力，从而更加容易生成的人脸3D网格带有头部姿态信息，获取预设解码器输出的音频帧对应的第一人脸3D网格。

例如，以用户A的音频中第一帧音频帧对应的第一合成变量(W1+T1+I1)为例，将样本视频中目标样本图像(即target图片)的第一人脸姿态参数输入至CNN，获取CNN输出的第一人脸姿态参数的第一嘴周围特征向量，将第一嘴周围特征向量输入至decoder进行处理，此外，将第一合成变量经过几层CNN层(图4未示出)，然后输入至decoder进行处理，同时解码器的部分层获得权重向量与经过CNN提取的头部姿态获得的向量(第一嘴周围特征向量)，经过通道相加，为了提升头部姿态在姿态向量的影响力，从而更加容易生成的人脸3D网格带有头部姿态信息，获取decoder最终输出的第一帧音频帧对应的第一人脸3D网格(携带角度)，如图4所示。

需要说明的是，对于第一人脸3D网格，其中携带角度，这里的角度指的是抬头、仰头等头部姿态，本发明实施例对此不作限定。

S104，利用预设视频生成模型，对所述第一人脸3D网格以及所述第一背景轮廓线进行处理，生成数字人视频。

如此经过上述步骤，对于音频中任一音频帧，均存在各自对应的第一人脸3D网格，利用预设视频生成模型，对该音频帧对应的第一人脸3D网格以及第一背景轮廓线进行处理，生成数字人视频。

例如，如上述表1所示，对于用户A的音频中任一音频帧，均存在各自对应的第一人脸3D网格，利用GAN，对该音频帧对应的第一人脸3D网格以及第一背景轮廓线进行处理，生成数字人视频，如图5所示。

其中，对于音频中任一音频帧，按照通道合成的方式，将该音频帧对应的第一人脸3D网格与第一背景轮廓线进行合成，得到该音频帧对应的第一合成图像；

将该音频帧对应的第一合成图像输入至预设视频生成模型，获取预设视频生成模型输出的该音频帧对应的数字人图像，如此对于音频中任一音频帧，均存在各自对应的数字人图像；

对于音频中任一音频帧各自对应的数字人图像，按照音频的时间序列，对音频中任一音频帧各自对应的数字人图像进行组合，最终可以生成数字人视频。

例如，对于用户A的音频中第一帧音频帧，按照通道合成的方式，将第一帧音频帧对应的第一人脸3D网格与第一背景轮廓线进行合成，得到第一帧音频帧对应的第一合成图像；

将第一帧音频帧对应的第一合成图像输入至GAN，获取GAN输出的第一帧音频帧对应的数字人图像；对于用户A的音频中其他音频帧，与上述处理类型，如此均可以得到各音频帧各自对应的数字人图像；

对于用户A的音频中各音频帧各自对应的数字人图像，按照用户A的音频的时间序列，将用户A的音频中各音频帧各自对应的数字人图像进行组合，最终可以生成数字人视频。

需要说明的是，对于预设视频生成模型，在本发明实施例中具体可以是GAN，当然还可以是其他类型的预设视频生成模型，也可以是transformer或者VAE等网络，本发明实施例对此不作限定。

通过上述对本发明实施例提供的技术方案的描述，获取目标人物的音频，针对音频中任一音频帧，提取音频帧对应的音频特征，以及获取第一平均人脸3D网格，确定目标人物的样本视频，提取样本视频中目标样本图像的第一人脸姿态参数以及第一背景轮廓线，利用预设解码器，对音频特征、第一人脸姿态参数以及第一平均人脸3D网格进行处理，生成第一人脸3D网格，利用预设视频生成模型，对第一人脸3D网格以及第一背景轮廓线进行处理，生成数字人视频。

如此基于目标人物的音频，生成相应的第一人脸3D网格，进而基于第一人脸3D网格，生成数字人视频，其中引入了第一平均人脸3D网格、目标样本图像的第一人脸姿态参数以及第一背景轮廓线，最终生成的数字人视频中数字人姿态自然、准确。此外，舍弃了人脸3D重建模型，可以使模型推理速度加快。

此外，在执行如图1所示的数字人视频生成方法之前，本发明实施例还需要预先进行模型训练，如图6所示，为本发明实施例提供的一种模型训练的实施流程示意图，应用于处理器，具体可以包括以下步骤：

S601，获取目标人物的样本视频，其中，所述样本视频中样本图像与所述样本视频中样本音频的样本音频帧一一对应。

在模型训练阶段，可以准备目标人物的样本视频，其中，目标人物的样本视频包括多帧样本图像以及样本音频，即包括目标人物的多帧样本图像以及样本音频，这里样本图像与样本音频的样本音频帧一一对应。

基于此，获取目标人物的样本视频，参与模型的训练。例如，获取用户A的样本视频，参与模型的训练，其中，用户A的样本视频包括多帧样本图像以及样本音频，这里样本图像与样本音频的样本音频帧一一对应。

S602，针对所述样本音频中任一所述样本音频帧，提取所述样本音频帧对应的样本音频特征，并获取第二平均人脸3D网格。

在本发明实施例中，对于样本音频，包括多帧样本音频帧，针对样本音频中任一样本音频帧，提取该样本音频帧对应的样本音频特征，以及相应的获取第二平均人脸3D网格。

例如，对于样本音频，存在10帧样本音频帧，针对样本音频中任一样本音频帧，提取该样本音频帧对应的样本音频特征，以及相应的获取第二平均人脸3D网格。

其中，对于样本音频特征的提取，可以使用傅立叶变换，即针对该样本音频中任一样本音频帧，利用傅里叶变换提取Mel频率倒谱系数(即MFCC)作为该样本音频帧对应的样本音频特征。

或者，

对于样本音频特征的提取，可以使用其他预设语音识别模型，例如Deepspeech/ASR/wav2Vector等模型，即针对样本音频中任一样本音频帧，利用预设语音识别模型提取该样本音频帧对应的样本音频特征。

对于第二平均人脸3D网格，目前市面上存在一些开源的第二平均人脸3D网格，由此可以组成第二平均人脸3D网格集，进而在对样本音频中任一样本音频帧进行处理的过程中，获取第二平均人脸3D网格集，获取第二平均人脸3D网格集中的任一第二平均人脸3D网格。

或者，

在对样本音频中任一样本音频帧进行处理的过程中，对于样本视频中与该样本音频帧对应的样本图像，将该样本图像输入至预设3D模型，这里预设3D模型可以是开源的3D模型(例如Deep3DFaceReconstruction/DECA/3DMM等3D人脸重建模型)，获取该预设3D模型输出的第二3D人脸重建信息，提取第二3D人脸重建信息中的第二人脸姿态参数和第二人脸表情参数，就可以当作平均人脸，即确定第二人脸姿态参数和第二人脸表情参数为第二平均人脸3D网格。

S603，提取与所述样本音频帧对应的所述样本图像中的第二人脸姿态参数以及第二背景轮廓线。

在本发明实施例中，针对样本音频中任一样本音频帧，提取该样本音频帧对应的样本音频特征，并获取第二平均人脸3D网格，除此之外，提取与该样本音频帧对应的样本图像中的第二人脸姿态参数以及第二背景轮廓线。

例如，以样本音频中第一帧样本音频帧为例，提取第一帧样本音频帧对应的样本音频特征，并获取第二平均人脸3D网格，除此之外，提取与该第一帧样本音频帧对应的第一帧样本图像中的第二人脸姿态参数以及第二背景轮廓线。

需要说明的是，对于样本视频，包括多帧样本图像，在对样本音频中任一样本音频帧处理的过程中，提取与该样本音频帧对应的样本图像中的第二人脸姿态参数以及第二背景轮廓线，本发明实施例对此不作限定。

此外，对于第二人脸姿态参数的提取，可以使用预设姿态提取模型，即将与该样本音频帧对应的样本图像输入至预设姿态提取模型，获取预设姿态提取模型输出的第二人脸姿态参数。其中，可以基于样本视频中样本图像进行预设姿态提取模型的训练，以训练得到预设姿态提取模型。

例如，以样本音频中第一帧样本音频帧为例，假设预设姿态提取模型为Image2Pose模型，将与该第一帧样本音频帧对应的样本图像(即target图像)输入至Image2Pose模型，获取Image2Pose模型输出的第二人脸姿态参数，其中，Image2Pose模型如图2所示。

需要说明的是，在训练好预设姿态提取模型后，固定预设姿态提取模型的权重参数(即固定预设姿态提取模型的全连接层参数，该全连接层参数可以用于表征人脸姿态特征向量)。此外，对于第二背景轮廓线的提取，可以参考市面上比较成熟的技术，且第二背景轮廓线指的是与该样本音频帧对应的样本图像中背景(除人脸之外的区域)关键点对应的轮廓线。

S604，利用预设解码器，对所述样本音频特征、所述第二人脸姿态参数以及所述第二平均人脸3D网格进行处理，生成第二人脸3D网格。

在本发明实施例中，对于样本音频中任一样本音频帧对应的样本音频特征、第二人脸姿态参数以及第二平均人脸3D网格，利用预设解码器进行处理，可以生成相应的第二人脸3D网格。

例如，对于用户A的样本音频(即用户A的样本视频中包括的样本音频)中第一帧样本音频帧，利用预设解码器，对第一帧样本音频帧对应的样本音频特征、第二平均人脸3D网格以及第一帧样本音频帧对应的样本图像中的第二人脸姿态参数进行处理，生成相应的第二人脸3D网格；

对于用户A的样本音频(即用户A的样本视频中包括的样本音频)中第二帧样本音频帧，利用预设解码器，对第二帧样本音频帧对应的样本音频特征、第二平均人脸3D网格以及第二帧样本音频帧对应的样本图像中的第二人脸姿态参数进行处理，生成相应的第二人脸3D网格；

对于用户A的样本音频(即用户A的样本视频中包括的样本音频)中其他样本音频帧，与上述处理类似，如此均可以得到各自对应的第二人脸3D网格，即第二平均人脸3D网格以及第i帧样本音频帧对应的样本图像的第二人脸姿态参数，参与对第i帧样本音频帧的处理，如下表2所示。

表2

其中，在本发明实施例中，在对每帧样本音频帧处理的过程中，如图7所示，具体可以通过以下方式得到每帧样本音频帧对应的第二人脸3D网格：

S701，针对所述样本音频中任一所述样本音频帧，将所述样本音频帧对应的所述样本音频特征输入至预设神经网格模型。

S702，获取所述预设神经网格模型输出的所述样本音频帧对应的第二声音隐藏变量。

在本发明实施例中，针对样本音频中任一样本音频帧，将该样本音频帧对应的样本音频特征输入至预设神经网格模型，获取预设神经网格模型输出的该样本音频帧对应的第二声音隐藏变量。

例如，以用户A的样本音频(即用户A的样本视频中包括的样本音频)中第一帧样本音频帧为例，将第一帧样本音频帧对应的样本音频特征输入至CNN，经过CNN卷积后产生对应的第二声音隐藏变量W1，获取CNN输出的第一帧样本音频帧对应的第二声音隐藏变量W1。

需要说明的是，对于预设神经网格模型，例如可以是CNN，当然也可以是RNN等其它神经网格模型，本发明实施例对此不作限定。

S703，将所述第二平均人脸3D网格输入至所述预设神经网格模型，获取所述预设神经网格模型输出的第二图像隐藏变量。

对于第二平均人脸3D网格，将该第二平均人脸3D网格输入至预设神经网格模型，获取预设神经网格模型输出的第二图像隐藏变量。

例如，将该第二平均人脸3D网格输入至CNN，经CNN卷积后产生对应的第二图像隐藏变量T1，获取CNN输出的第二图像隐藏变量T1。

S704，按照通道合成的方式将所述样本音频帧对应的所述第二声音隐藏变量、所述第二图像隐藏变量以及所述第二人脸姿态参数进行合成，得到第二合成变量。

对于样本音频中任一样本音频帧对应的第二声音隐藏变量，按照通道合成的方式将该样本音频帧对应的第二声音隐藏变量、第二图像隐藏变量以及(与该样本音频帧对应的样本图像的)第二人脸姿态参数进行合成，得到该样本音频帧对应的第二合成变量。

例如，以用户A的样本音频(即用户A的样本视频中包括的样本音频)中第一帧样本音频帧对应的第二声音隐藏变量W1为例，将第一帧样本音频帧对应的第二声音隐藏变量W1、第二图像隐藏变量T1以及第一帧样本音频对应的样本图像的第二人脸姿态参数(可以认为是姿态隐藏变量I1)，按照通道合成，得到第一帧样本音频帧对应的第二合成变量(W1+T1+I1)。

需要说明的是，假设第二声音隐藏变量W1具有5个通道，而第二图像隐藏变量T1、第二人脸姿态参数(可以认为是姿态隐藏变量I1)同样具有5个通道，则按照通道合成的方式，将第二声音隐藏变量W1、第二图像隐藏变量T1以及第二人脸姿态参数(可以认为是姿态隐藏变量I1)进行合成变成15个通道，即W1+T1+I1。

S705，将所述第二合成变量输入至预设解码器，获取所述预设解码器输出的所述样本音频帧对应的第二人脸3D网格。

如此经过上述步骤，对于样本音频中任一样本音频帧，均可以得到各自对应的第二合成变量，从而对于样本音频中任一样本音频帧对应的第二合成变量，可以将该样本音频帧对应的第二合成变量输入至预设解码器，获取该预设解码器输出的该样本音频帧对应的第二人脸3D网格。

例如，以用户A的样本音频(即用户A的样本视频中包括的样本音频)中第一帧样本音频帧对应的第二合成变量(W1+T1+I1)为例，将该第一帧样本音频帧对应的第二合成变量(W1+T1+I1)输入至decoder进行处理，获取decoder最终输出的第一帧样本音频帧对应的第二人脸3D网格(携带角度)。

此外，本发明实施例可以将样本视频中与样本音频帧对应的样本图像的第二人脸姿态参数输入至预设神经网格模型，获取预设神经网格模型输出的第二人脸姿态参数的第二嘴周围特征向量，将第二嘴周围特征向量输入至预设解码器，此外，将第二合成变量经过几层CNN层，然后输入至预设解码器，同时解码器的部分层获得权重向量与经过CNN提取的头部姿态获得的向量(第二嘴周围特征向量)，经过通道相加，为了提升头部姿态在姿态向量的影响力，从而更加容易生成的人脸3D网格带有头部姿态信息，获取预设解码器输出的音频帧对应的第二人脸3D网格。

例如，以用户A的样本音频(即用户A的样本视频中包括的样本音频)中第一帧样本音频帧对应的第二合成变量(W1+T1+I1)为例，将第一帧样本音频帧对应的样本图像的第二人脸姿态参数输入至CNN，获取CNN输出的第二人脸姿态参数的第二嘴周围特征向量，将第二嘴周围特征向量输入至decoder进行处理，此外，将第二合成变量经过几层CNN，然后输入至decoder进行处理，同时解码器的部分层获得权重向量与经过CNN提取的头部姿态获得的向量(第二嘴周围特征向量)，经过通道相加，为了提升头部姿态在姿态向量的影响力，从而更加容易生成的人脸3D网格带有头部姿态信息，获取decoder最终输出的第一帧样本音频帧对应的第二人脸3D网格(携带角度)。

S605，利用预设视频生成模型，对所述第二人脸3D网格以及所述第二背景轮廓线进行处理，生成数字人样本视频。

如此经过上述步骤，对于样本音频中任一样本音频帧，均存在各自对应的第二人脸3D网格，利用预设视频生成模型，对该样本音频帧对应的第二人脸3D网格以及第二背景轮廓线进行处理，生成数字人样本视频。

例如，如上述表2所示，对于用户A的样本音频中任一样本音频帧，均存在各自对应的第二人脸3D网格，利用GAN，对该样本音频帧对应的第二人脸3D网格以及第二背景轮廓线进行处理，生成数字人样本视频。

其中，对于样本音频中任一样本音频帧，按照通道合成的方式，将该样本音频帧对应的第二人脸3D网格与第二背景轮廓线进行合成，得到该样本音频帧对应的第二合成图像；

将该样本音频帧对应的第二合成图像输入至预设视频生成模型，获取预设视频生成模型输出的该样本音频帧对应的数字人样本图像，如此对于各样本音频帧均存在各自对应的数字人样本图像；

对于各样本音频帧均存在各自对应的数字人样本图像，按照样本音频的时间序列，对各样本音频帧均存在各自对应的数字人样本图像进行组合，可以得到最终的数字人样本视频。

例如，对于用户A的样本音频(即用户A的样本视频中包括的样本音频)中第一帧样本音频帧，按照通道合成的方式，将该第一帧样本音频帧对应的第二人脸3D网格与第二背景轮廓线进行合成，得到第一帧样本音频帧对应的第二合成图像；

将第一帧样本音频帧对应的第二合成图像输入至GAN，获取GAN输出的第一帧样本音频帧对应的第二人脸3D网格；对于用户A的样本音频中(即用户A的样本视频中包括的样本音频)其他样本音频帧，与上述处理类似，如此均可以得到各样本音频帧各自对应的数字人样本图像；

对于用户A的样本音频(即用户A的样本视频中包括的样本音频)中各样本音频帧各自对应的数字人样本图像，按照用户A的样本音频的时间序列，将用户A的样本音频(即用户A的样本视频中包括的样本音频)中各样本音频帧各自对应的数字人样本图像进行组合，最终可以生成数字人样本视频。

需要说明的是，对于预设视频生成模型，在本发明实施例中具体可以是GAN，当然还可以是其他类型的预设视频生成模型，本发明实施例对此不作限定。

此外，可以重复执行上述步骤S601～S605，直至模型训练满足模型训练的终止条件，例如损失函数收敛，或者数字人样本视频与样本视频高度相似，本发明实施例对此不作限定。

与上述方法实施例相对应，本发明实施例还提供了一种数字人视频生成装置，如图8所示，该装置可以包括：音频获取模块810、参数、轮廓线提取模块820、网格生成模块830、视频生成模块840。

音频获取模块810，用于获取目标人物的音频，针对所述音频中任一音频帧，提取所述音频帧对应的音频特征，以及获取第一平均人脸3D网格；

参数、轮廓线提取模块820，用于确定所述目标人物的样本视频，提取所述样本视频中目标样本图像的第一人脸姿态参数以及第一背景轮廓线；

网格生成模块830，用于利用预设解码器，对所述音频特征、所述第一人脸姿态参数以及所述第一平均人脸3D网格进行处理，生成第一人脸3D网格；

视频生成模块840，用于利用预设视频生成模型，对所述第一人脸3D网格以及所述第一背景轮廓线进行处理，生成数字人视频。

本发明实施例还提供了一种电子设备，如图9所示，包括处理器91、通信接口92、存储器93和通信总线94，其中，处理器91，通信接口92，存储器93通过通信总线94完成相互间的通信，

存储器93，用于存放计算机程序；

处理器91，用于执行存储器93上所存放的程序时，实现如下步骤：

获取目标人物的音频，针对所述音频中任一音频帧，提取所述音频帧对应的音频特征，以及获取第一平均人脸3D网格；确定所述目标人物的样本视频，提取所述样本视频中目标样本图像的第一人脸姿态参数以及第一背景轮廓线；利用预设解码器，对所述音频特征、所述第一人脸姿态参数以及所述第一平均人脸3D网格进行处理，生成第一人脸3D网格；利用预设视频生成模型，对所述第一人脸3D网格以及所述第一背景轮廓线进行处理，生成数字人视频。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种存储介质，该存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的数字人视频生成方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的数字人视频生成方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在存储介质中，或者从一个存储介质向另一个存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种数字人视频生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取第一平均人脸3D网格，包括：

或者，

3.根据权利要求1所述的方法，其特征在于，所述提取所述样本视频中目标样本图像的第一人脸姿态参数，包括：

4.根据权利要求1所述的方法，其特征在于，所述利用预设解码器，对所述音频特征、所述第一人脸姿态参数以及所述第一平均人脸3D网格进行处理，生成第一人脸3D网格，包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述第一合成变量输入至预设解码器，获取所述预设解码器输出的所述音频帧对应的第一人脸3D网格，包括：

6.根据权利要求4或5所述的方法，其特征在于，所述利用预设视频生成模型，对所述第一人脸3D网格以及所述第一背景轮廓线进行处理，生成数字人视频，包括：

7.根据权利要求1所述的方法，其特征在于，所述针对所述音频中任一音频帧，提取所述音频帧对应的音频特征，包括：

或者，

8.根据权利要求1所述的方法，其特征在于，在执行所述方法之前，还包括：

9.根据权利要求8所述的方法，其特征在于，所述获取第二平均人脸3D网格，包括：

或者，

10.根据权利要求8所述的方法，其特征在于，所述提取与所述样本音频帧对应的所述样本图像中的第二人脸姿态参数，包括：

11.根据权利要求8所述的方法，其特征在于，所述利用预设解码器，对所述样本音频特征、所述第二人脸姿态参数以及所述第二平均人脸3D网格进行处理，生成第二人脸3D网格，包括：

12.根据权利要求11所述的方法，其特征在于，所述将所述第二合成变量输入至预设解码器，获取所述预设解码器输出的所述样本音频帧对应的第二人脸3D网格，包括：

13.根据权利要求11或12所述的方法，其特征在于，所述利用预设视频生成模型，对所述第二人脸3D网格以及所述第二背景轮廓线进行处理，生成数字人样本视频，包括：

14.根据权利要求8所述的方法，其特征在于，所述针对所述样本音频中任一所述样本音频帧，提取所述样本音频帧对应的样本音频特征，包括：

或者，

15.一种数字人视频生成装置，其特征在于，所述装置包括：

16.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1至14中任一项所述的方法步骤。

17.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至14中任一项所述的方法。