CN113747086A

CN113747086A - 数字人视频生成方法、装置、电子设备及存储介质

Info

Publication number: CN113747086A
Application number: CN202111165979.4A
Authority: CN
Inventors: 王鑫宇; 刘炫鹏
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2021-12-03

Abstract

本发明实施例提供了一种数字人视频生成方法、装置、电子设备及存储介质，所述方法包括：获取目标人物的音频，针对所述音频中任一音频帧，利用预设3D网格模型对所述音频帧进行处理，生成所述音频帧对应的第一人脸3D网格；利用预设视频生成模型，对所述音频帧对应的所述第一人脸3D网格进行处理，生成所述音频帧对应的数字人图像；按照所述音频的时间序列，对各所述音频帧各自对应的所述数字人图像进行组合，生成数字人视频。如此基于目标人物的音频，生成相应的人脸3D网格，进而基于人脸3D网格，生成最终的数字人视频，其中引入了全新的3D网格模型，最终生成的数字人视频中数字人姿态自然、准确。

Description

数字人视频生成方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种数字人视频生成方法、装置、电子设备及存储介质。

背景技术

数字人视频的生成技术现在越来越成熟，如果数字人视频生成技术想应用在商业，实现实时交互，至少需要满足两点：生成效果好和推理速度快，其中，生产效果好事必要的前提，推理速度快是商业的需要。

目前，基于声音推理生成数字人视频的方案，其主要是通过声音推理模型，采用声音推理生成人脸关键点。但基于声音推理生成的人脸关键点存在角度问题，导致最终生成的数字人视频中数字人姿态不自然。

发明内容

为了解决上述基于声音推理生成的人脸关键点存在角度问题，导致最终生成的数字人视频中数字人姿态不自然的技术问题，本发明实施例提供了一种数字人视频生成方法、装置、电子设备及存储介质。

在本发明实施例的第一方面，首先提供了一种数字人视频生成方法，所述方法包括：

获取目标人物的音频，针对所述音频中任一音频帧，利用预设3D网格模型对所述音频帧进行处理，生成所述音频帧对应的第一人脸3D网格；

利用预设视频生成模型，对所述音频帧对应的所述第一人脸3D网格进行处理，生成所述音频帧对应的数字人图像；

按照所述音频的时间序列，对各所述音频帧各自对应的所述数字人图像进行组合，生成数字人视频。

在一个可选的实施方式中，所述方法还包括：

确定所述目标人物的样本视频中目标样本图像，截取所述目标样本图像中除第一目标区域之外的第一其余区域；

所述利用预设视频生成模型，对所述音频帧对应的所述第一人脸3D网格进行处理，生成所述音频帧对应的数字人图像，包括：

截取所述音频帧对应的所述第一人脸3D网格中第一目标区域；

利用预设视频生成模型，对所述音频帧对应的所述第一人脸3D网格中第一目标区域及所述第一其余区域进行处理，生成所述音频帧对应的数字人图像。

在一个可选的实施方式中，所述截取所述目标样本图像中除第一目标区域之外的第一其余区域，包括：

截取所述目标样本图像中除第一嘴周围区域之外的第一其余区域；

所述截取所述音频帧对应的所述第一人脸3D网格中第一目标区域，包括：

截取所述音频帧对应的所述第一人脸3D网格中第一嘴周围区域；

所述利用预设视频生成模型，对所述音频帧对应的所述第一人脸3D网格中第一目标区域及所述第一其余区域进行处理，生成所述音频帧对应的数字人图像，包括：

利用预设视频生成模型，对所述音频帧对应的所述第一人脸3D网格中第一嘴周围区域以及所述第一其余区域进行处理，生成所述音频帧对应的数字人图像。

截取所述目标样本图像中除第一人脸区域之外的第一其余区域；

截取所述音频帧对应的所述第一人脸3D网格中第一人脸区域；

利用预设视频生成模型，对所述音频帧对应的所述第一人脸3D网格中第一人脸区域及所述第一其余区域进行处理，生成所述音频帧对应的数字人图像。

在一个可选的实施方式中，在执行所述方法之前，还包括：

获取样本音频，其中，所述样本音频包括目标人物的样本视频中样本音频；

针对所述样本音频中任一样本音频帧，利用预设3D网格模型对所述样本音频帧进行处理，生成所述样本音频帧对应的第二人脸3D网格；

利用预设视频生成模型，对所述样本音频帧对应的所述第二人脸3D网格进行处理，生成所述样本音频帧对应的数字人样本图像；

按照所述样本音频的时间序列，对各所述样本音频帧各自对应的所述数字人样本图像进行组合，生成数字人样本视频。

在一个可选的实施方式中，所述方法还包括：

确定所述样本视频中与所述样本音频帧对应的样本图像，截取所述样本图像中除第二目标区域之外的第二其余区域；

所述利用预设视频生成模型，对所述样本音频帧对应的所述第二人脸3D网格进行处理，生成所述样本音频帧对应的数字人样本图像，包括：

截取所述样本音频帧对应的所述第二人脸3D网格中第二目标区域；

利用预设视频生成模型，对所述样本音频帧对应的所述第二人脸3D网格中第二目标区域及所述第二其余区域进行处理，生成所述样本音频帧对应的数字人样本图像。

在一个可选的实施方式中，所述截取所述样本图像中除第二目标区域之外的第二其余区域，包括：

截取所述样本图像中除第二嘴周围区域之外的第二其余区域；

所述截取所述样本音频帧对应的所述第二人脸3D网格中第二目标区域，包括：

截取所述样本音频帧对应的所述第二人脸3D网格中第二嘴周围区域；

所述利用预设视频生成模型，对所述样本音频帧对应的所述第二人脸3D网格中第二目标区域及所述第二其余区域进行处理，生成所述样本音频帧对应的数字人样本图像，包括：

利用预设视频生成模型，对所述样本音频帧对应的所述第二人脸3D网格中第二嘴周围区域及所述第二其余区域进行处理，生成所述样本音频帧对应的数字人样本图像。

截取所述样本图像中除第二人脸区域之外的第二其余区域；

截取所述样本音频帧对应的所述第二人脸3D网格中第二人脸区域；

利用预设视频生成模型，对所述样本音频帧对应的所述第二人脸3D网格中第二人脸区域及所述第二其余区域进行处理，生成所述样本音频帧对应的数字人样本图像。

在一个可选的实施方式中，所述预设3D网格模型具体通过以下方式得到：

针对所述样本音频中任一所述样本音频帧，确定所述样本音频帧对应的第三人脸3D网格；

基于各所述样本音频帧，以及各所述样本音频帧各自对应的第三人脸3D网格，训练预设3D网格模型。

在一个可选的实施方式中，所述针对所述样本音频中任一所述样本音频帧，确定所述样本音频帧对应的第三人脸3D网格，包括：

针对所述样本音频中任一所述样本音频帧，将所述样本音频帧对应的所述样本视频中样本图像输入至预设第一人脸3D模型；

获取所述预设第一人脸3D模型输出的所述样本视频中样本图像对应的第四人脸3D网格；

将所述样本视频中样本图像对应的所述第四人脸3D网格输入至预设第二人脸3D模型；

获取所述预设第二人脸3D模型输出的所述样本视频中样本图像对应的第五人脸3D网格；

确定所述样本视频中样本图像对应的所述第五人脸3D网格为所述样本音频帧对应的第三人脸3D网格。

在一个可选的实施方式中，所述预设第一人脸3D模型具体通过以下方式得到：

获取目标人物的样本视频，基于所述样本视频中任一样本图像，训练预设第一人脸3D模型。

在一个可选的实施方式中，所述预设第二人脸3D模型具体通过以下方式得到：

获取目标人物的样本视频，针对所述样本视频中任一样本图像，将所述样本图像输入至预设第一人脸3D模型；

获取所述预设第一人脸3D模型输出的所述样本图像对应的第六人脸3D网格；

基于所述样本图像对应的所述第六人脸3D网格，训练预设第二人脸3D模型。

在本发明实施例的第二方面，提供了一种数字人视频生成装置，所述装置包括：

音频获取模块，用于获取目标人物的音频；

网格生成模块，用于针对所述音频中任一音频帧，利用预设3D网格模型对所述音频帧进行处理，生成所述音频帧对应的第一人脸3D网格；

图像生成模块，用于利用预设视频生成模型，对所述音频帧对应的所述第一人脸3D网格进行处理，生成所述音频帧对应的数字人图像；

视频生成模块，用于按照所述音频的时间序列，对各所述音频帧各自对应的所述数字人图像进行组合，生成数字人视频。

在一个可选的实施方式中，所述装置还包括：

图像确定模块，用于确定所述目标人物的样本视频中目标样本图像；

区域截取模块，用于截取所述目标样本图像中除第一目标区域之外的第一其余区域；

所述图像生成模块，包括：

区域截取子模块，用于截取所述音频帧对应的所述第一人脸3D网格中第一目标区域；

图像生成子模块，用于利用预设视频生成模型，对所述音频帧对应的所述第一人脸3D网格中第一目标区域及所述第一其余区域进行处理，生成所述音频帧对应的数字人图像。

在一个可选的实施方式中，所述区域截取模块具体用于：

所述区域截取子模块具体用于：

所述图像生成子模块具体用于：

在一个可选的实施方式中，所述区域截取模块具体用于：

所述区域截取子模块具体用于：

所述图像生成子模块具体用于：

在一个可选的实施方式中，所述装置还包括：

样本音频获取模块，用于获取样本音频，其中，所述样本音频包括目标人物的样本视频中样本音频；

样本音频帧处理模块，用于针对所述样本音频中任一样本音频帧，利用预设3D网格模型对所述样本音频帧进行处理，生成所述样本音频帧对应的第二人脸3D网格；

样本图像生成模块，用于利用预设视频生成模型，对所述样本音频帧对应的所述第二人脸3D网格进行处理，生成所述样本音频帧对应的数字人样本图像；

样本视频生成模块，用于按照所述样本音频的时间序列，对各所述样本音频帧各自对应的所述数字人样本图像进行组合，生成数字人样本视频。

在一个可选的实施方式中，所述装置还包括：

样本图像确定模块，用于确定所述样本视频中与所述样本音频帧对应的样本图像；

图像截取模块，用于截取所述样本图像中除第二目标区域之外的第二其余区域；

所述样本音频帧处理模块，包括：

网格截取子模块，用于截取所述样本音频帧对应的所述第二人脸3D网格中第二目标区域；

样本音频帧处理子模块，用于利用预设视频生成模型，对所述样本音频帧对应的所述第二人脸3D网格中第二目标区域及所述第二其余区域进行处理，生成所述样本音频帧对应的数字人样本图像。

在一个可选的实施方式中，所述图像截取模块具体用于：

所述网格截取子模块具体用于：

所述样本音频帧处理子模块具体用于：

在一个可选的实施方式中，所述图像截取模块具体用于：

截取所述样本图像中除第二人脸区域之外的第二其余区域；

所述网格截取子模块具体用于：

所述样本音频帧处理子模块具体用于：

在一个可选的实施方式中，所述装置还包括第一模型训练模块，所述第一模型训练模块包括：

第一音频获取子模块，用于获取样本音频，其中，所述样本音频包括目标人物的样本视频中样本音频；

第一音频帧处理子模块，用于针对所述样本音频中任一所述样本音频帧，确定所述样本音频帧对应的第三人脸3D网格；

第一模型训练子模块，用于基于各所述样本音频帧，以及各所述样本音频帧各自对应的第三人脸3D网格，训练预设3D网格模型。

在一个可选的实施方式中，所述第一音频帧处理子模块具体用于：

在一个可选的实施方式中，所述装置还包括：

第二模型训练模块，用于获取目标人物的样本视频，基于所述样本视频中任一样本图像，训练预设第一人脸3D模型。

在一个可选的实施方式中，所述装置还包括：

第三模型训练模块，用于获取目标人物的样本视频，针对所述样本视频中任一样本图像，将所述样本图像输入至预设第一人脸3D模型；

在本发明实施例的第三方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面中所述的数字人视频生成方法。

在本发明实施例的第四方面，还提供了一种存储介质，所述存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面中所述的数字人视频生成方法。

在本发明实施例的第五方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面中所述的数字人视频生成方法。

本发明实施例提供的技术方案，获取目标人物的音频，针对音频中任一音频帧，利用预设3D网格模型对音频帧进行处理，生成音频帧对应的第一人脸3D网格，利用预设视频生成模型，对音频帧对应的第一人脸3D网格进行处理，生成音频帧对应的数字人图像，按照音频的时间序列，对各音频帧各自对应的数字人图像进行组合，生成数字人视频。如此基于目标人物的音频，生成相应的人脸3D网格，进而基于人脸3D网格，生成最终的数字人视频，其中引入了全新的3D网格模型，最终生成的数字人视频中数字人姿态自然、准确。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中示出的一种数字人视频生成方法的实施流程示意图；

图2为本发明实施例中示出的另一种数字人视频生成方法的实施流程示意图；

图3为本发明实施例中示出的一种预设第一人脸3D模型训练方法的实施流程示意图；

图4为本发明实施例中示出的一种预设第二人脸3D模型训练方法的实施流程示意图；

图5为本发明实施例中示出的一种预设3D网格模型训练方法的实施流程示意图；

图6为本发明实施例中示出的一种确定每帧样本音频帧对应的第三人脸3D网格的实施流程示意图；

图7为本发明实施例中示出的一种预设视频生成模型训练方法的实施流程示意图；

图8为本发明实施例中示出的另一种预设视频生成模型训练方法的实施流程示意图；

图9为本发明实施例中示出的一种数字人视频生成装置的结构示意图；

图10为本发明实施例中示出的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，为本发明实施例提供的一种数字人视频生成方法的实施流程示意图，该方法应用于处理器，具体可以包括以下步骤：

S101，获取目标人物的音频，针对所述音频中任一音频帧，利用预设3D网格模型对所述音频帧进行处理，生成所述音频帧对应的第一人脸3D网格。

在本发明实施例中，目标人物可以自行输入一段音频，该音频可以是WAV格式(WAV是一种无损的音频文件格式)，当然也可以是其他格式，对于帧率，可以为100，可以是50或者25，本发明实施例对此不作限定。

由此，在模型推理阶段，本发明实施例可以获取目标人物的音频，这里目标人物可以是当前任意的人物，即任意的用户，本发明实施例对此不作限定。例如，本发明实施例可以获取用户A的音频。

或者，在模型推理阶段，本发明实施例可以获取目标人物的音频，这里目标人物可以是当前任意的虚拟形象，本发明实施例对此不作限定。例如，本发明实施例可以获取虚拟形象a的音频。

此外，在本发明实施例中，对于目标人物的音频，针对该目标人物的音频中任一音频帧，利用预设3D网格模型对该音频帧进行处理，生成该音频帧对应的第一人脸3D网格。

具体地，对于目标人物的音频，针对该目标人物的音频中任一音频帧，将该音频帧输入至预设3D网格模型，获取预设3D网格模型输出的该音频帧对应的第一人脸3D网格。

例如，对于用户A的音频，假设存在10帧音频帧，则针对用户A的音频中任一音频帧，将该音频帧输入至VOCA模型，获取VOCA模型输出的该音频帧对应的第一人脸3D网格，如下表1所示。

表1

需要说明的是，对于预设3D网格模型，例如可以是全新的VOCA模型，本发明实施例对此不作限定。其中，对于全新的VOCA模型的训练，后续详细赘述。

S102，利用预设视频生成模型，对所述音频帧对应的所述第一人脸3D网格进行处理，生成所述音频帧对应的数字人图像。

如此经过上述步骤，对于目标人物的音频中任一音频帧，均存在各自对应的第一人脸3D网格，利用预设视频生成模型，对该音频帧对应的第一人脸3D网格进行处理，生成该音频帧对应的数字人图像。

具体地，对于目标人物的音频中任一音频帧，将该音频帧对应的第一人脸3D网格输入至预设视频生成模型，获取预设视频生成模型输出的该音频帧对应的数字人图像。

例如，如上述表1所示，对于用户A的音频中任一音频帧，均存在各自对应的第一人脸3D网格，将该音频帧对应的第一人脸3D网格输入至GAN，获取GAN输出的该音频帧对应的数字人图像，如下表2所示。

用户A的音频中第i帧音频帧	数字人图像
		第一帧音频帧	数字人图像1
第二帧音频帧	数字人图像2
		……	……

表2

需要说明的是，对于预设视频生成模型，在本发明实施例中具体可以是GAN，当然还可以是其他类型的预设视频生成模型，本发明实施例对此不作限定。

S103，按照所述音频的时间序列，对各所述音频帧各自对应的所述数字人图像进行组合，生成数字人视频。

如此经过上述步骤，对于目标人物的音频中任一音频帧，均存在各自对应的数字人图像，对于该音频中任一音频帧各自对应的数字人图像，按照音频的时间序列，对音频中任一音频帧各自对应的数字人图像进行组合，最终可以生成数字人视频。

例如，如上述表2所示，对于用户A的音频中任一音频帧，均存在各自对应的数字人图像，对于用户A的音频中各音频帧各自对应的数字人图像，按照用户A的音频的时间序列，将用户A的音频中各音频帧各自对应的数字人图像进行组合，最终可以生成数字人视频。

通过上述对本发明实施例提供的技术方案的描述，获取目标人物的音频，针对音频中任一音频帧，利用预设3D网格模型对音频帧进行处理，生成音频帧对应的第一人脸3D网格，利用预设视频生成模型，对音频帧对应的第一人脸3D网格进行处理，生成音频帧对应的数字人图像，按照音频的时间序列，对各音频帧各自对应的数字人图像进行组合，生成数字人视频。

如此基于目标人物的音频，生成相应的人脸3D网格，进而基于人脸3D网格，生成最终的数字人视频，其中引入了全新的3D网格模型，最终生成的数字人视频中数字人姿态自然、准确。

如图2所示，为本发明实施例提供的另一种数字人视频生成方法的实施流程示意图，该方法应用于处理器，具体可以包括以下步骤：

S201，获取目标人物的音频，针对所述音频中任一音频帧，利用预设3D网格模型对所述音频帧进行处理，生成所述音频帧对应的第一人脸3D网格。

在本发明实施例中，本步骤与上述步骤S101类似，本发明实施例在此不再一一赘述。

S202，截取所述音频帧对应的所述第一人脸3D网格中第一目标区域。

如此经过上述步骤，对于目标人物的音频中任一音频帧，均存在各自对应的第一人脸3D网格，对于该音频帧对应的第一人脸3D网格，截取该第一人脸3D网格中第一目标区域。

例如，如上述表1所示，对于用户A的音频中任一音频帧，均存在各自对应的第一人脸3D网格，对于用户A的音频中任一音频帧，截取该音频帧对应的第一人脸3D网格中第一目标区域。

其中，对于第一目标区域，在本发明实施例中具体可以是第一嘴周围区域，即对于目标人物的音频中任一音频帧，截取该音频帧对应的第一人脸3D网格中第一嘴周围区域。

或者，

对于第一目标区域，在本发明实施例中具体可以第一人脸区域，即对于目标人物的音频中任一音频帧，截取该音频帧对应的第一人脸3D网格中第一人脸区域。

例如，如上述表1所示，对于用户A的音频中任一音频帧，均存在各自对应的第一人脸3D网格，对于用户A的音频中任一音频帧，截取该音频帧对应的第一人脸3D网格中第一嘴周围区域。

或者，

如上述表1所示，对于用户A的音频中任一音频帧，均存在各自对应的第一人脸3D网格，对于用户A的音频中任一音频帧，截取该音频帧对应的第一人脸3D网格中第一人脸区域。

需要说明的是，对于第一目标区域，除了可以是上述第一嘴周围区域或第一人脸区域之外，还可以是其他区域，例如第一头部区域，本发明实施例对此不作限定。

S203，确定所述目标人物的样本视频中目标样本图像，截取所述目标样本图像中除第一目标区域之外的第一其余区域。

在本发明实施例中，在模型训练阶段，准备了目标人物的样本视频，用于参与模型训练，从而后续在模型推理阶段，可以使用目标人物的样本视频参与数字人视频的生成。

基于此，确定目标人物的样本视频，确定目标人物的样本视频中目标样本图像，进而可以截取目标样本图像中除第一目标区域之外的第一其余区域。

例如，确定用户A的样本视频，从用户A的样本视频中选择第一帧样本图像作为目标样本图像(即target图像)，截取目标样本图像(即target图像)中除第一目标区域之外的第一其余区域。

需要说明的是，可以从目标人物的样本视频中任一选择一帧样本图像作为目标样本图像，或者可以从目标人物的样本视频中顺序(这里的顺序遵循音频中音频帧的处理顺序)选择一帧样本图像作为目标样本图像，本发明实施例对此不作限定。

其中，对于第一目标区域，在本发明实施例中具体可以是第一嘴周围区域，即对于目标人物的样本视频中目标样本图像，截取目标样本图像中除第一嘴周围区域之外的第一其余区域。

或者，

对于第一目标区域，在本发明实施例中具体可以第一人脸区域，即对于目标人物的样本视频中目标样本图像，截取目标样本图像中除第一人脸区域之外的第一其余区域。

例如，确定用户A的样本视频，从用户A的样本视频中选择第一帧样本图像作为目标样本图像(即target图像)，截取目标样本图像(即target图像)中除第一嘴周围区域之外的第一其余区域。

或者，

确定用户A的样本视频，从用户A的样本视频中选择第一帧样本图像作为目标样本图像(即target图像)，截取目标样本图像(即target图像)中除第一人脸区域之外的第一其余区域。

S204，利用预设视频生成模型，对所述音频帧对应的所述第一人脸3D网格中第一目标区域及所述第一其余区域进行处理，生成所述音频帧对应的数字人图像。

如此经过上述步骤，对于音频中任一音频帧对应的第一人脸3D网格，均截取了各自对应的第一目标区域，利用预设视频生成模型，对该音频帧对应的第一人脸3D网格中第一目标区域及目标样本图像中除第一目标区域之外的第一其余区域进行处理，生成该音频帧对应的数字人图像。

具体地，对于音频中任一音频帧对应的第一人脸3D网格，将该音频帧对应的第一人脸3D网格中第一目标区域，以及目标样本图像中除第一目标区域之外的第一其余区域输入至预设视频生成模型，获取预设视频生成模型输出的该音频帧对应的数字人图像。

例如，对于音频中第一帧音频帧对应的第一人脸3D网格，将第一帧音频帧对应的第一人脸3D网格中第一目标区域，以及目标样本图像(即target图像)中除第一目标区域之外的第一其余区域输入至GAN，获取GAN输出的第一帧音频帧对应的数字人图像；

对于音频中第二帧音频帧对应的第一人脸3D网格，将第二帧音频帧对应的第一人脸3D网格中第一目标区域，以及目标样本图像(即target图像)中除第一目标区域之外的第一其余区域输入至GAN，获取GAN输出的第二帧音频帧对应的数字人图像；

对于音频中其他音频帧，与上述处理类似，本发明实施例在此不再一一赘述，如此均可以得到各自对应的数字人图像，即目标样本图像中除第一目标区域之外的第一其余区域，均参与对每帧音频帧的处理，如下表3所示。

音频中第i帧音频帧		数字人图像
			第一帧音频帧	第一其余区域	数字人图像1
第二帧音频帧	第一其余区域	数字人图像2
			……	……	……

表3

需要说明的是，对于第一目标区域，具体可以是第一嘴周围区域，则对于音频中任一音频帧对应的第一人脸3D网格，将该音频帧对应的第一人脸3D网格中第一嘴周围区域，以及目标样本图像中除第一嘴周围区域之外的第一其余区域输入至预设视频生成模型，获取预设视频生成模型输出的该音频帧对应的数字人图像。

或者，

对于第一目标区域，具体可以是第一人脸区域，则对于音频中任一音频帧对应的第一人脸3D网格，将该音频帧对应的第一人脸3D网格中第一人脸区域，以及目标样本图像中除第一人脸区域之外的第一其余区域输入至预设视频生成模型，获取预设视频生成模型输出的该音频帧对应的数字人图像。

例如，以用户A的音频中第一帧音频帧对应的第一人脸3D网格为例，将第一帧音频帧对应的第一人脸3D网格中第一嘴周围区域，以及目标样本图像(即target图像)中除第一嘴周围区域之外的第一其余区域输入至GAN，获取GAN输出的第一帧音频帧对应的数字人图像。

或者，

以用户A的音频中第一帧音频帧对应的第一人脸3D网格为例，将第一帧音频帧对应的第一人脸3D网格中第一人脸区域，以及目标样本图像(即target图像)中除第一人脸区域之外的第一其余区域输入至GAN，获取GAN输出的第一帧音频帧对应的数字人图像。

S205，按照所述音频的时间序列，对各所述音频帧各自对应的所述数字人图像进行组合，生成数字人视频。

在本发明实施例中，本步骤与上述步骤S103类似，本发明实施例在此不再一一赘述。

通过上述对本发明实施例提供的技术方案的描述，获取目标人物的音频，针对音频中任一音频帧，利用预设3D网格模型对音频帧进行处理，生成音频帧对应的第一人脸3D网格，截取音频帧对应的第一人脸3D网格中第一目标区域，确定目标人物的样本视频中目标样本图像，截取目标样本图像中除第一目标区域之外的第一其余区域，利用预设视频生成模型，对音频帧对应的第一人脸3D网格中第一目标区域及第一其余区域进行处理，生成音频帧对应的数字人图像，按照音频的时间序列，对各音频帧各自对应的数字人图像进行组合，生成数字人视频。

如此基于目标人物的音频，生成相应的人脸3D网格，截取人脸3D网格中目标区域(例如嘴周围区域、人脸区域等)，截取目标样本图像中除目标区域之外的其余区域，输入至预设视频生成模型，生成最终的数字人视频，其中引入了全新的3D网格模型，最终生成的数字人视频中数字人姿态自然、准确。此外，截取人脸3D网格中目标区域(例如嘴周围区域、人脸区域等)，截取目标样本图像中除目标区域之外的其余区域，输入至预设视频生成模型，生成最终的数字人视频，可以进一步使数字人视频中数字人姿态自然、准确。

如图3所示，为本发明实施例提供的一种预设第一人脸3D模型训练方法的实施流程示意图，该方法应用于处理器，具体可以包括以下步骤：

S301，获取目标人物的样本视频。

在模型训练阶段，可以准备目标人物的样本视频，其中，目标人物的样本视频包括多帧样本图像以及样本音频，即包括目标人物的多帧样本图像以及样本音频，这里样本图像与样本音频的样本音频帧一一对应。

基于此，获取目标人物的样本视频，参与模型的训练。例如，获取用户A的样本视频，参与模型的训练，其中，用户A的样本视频包括多帧样本图像以及样本音频，这里样本图像与样本音频的样本音频帧一一对应。

S302，基于所述样本视频中任一样本图像，训练预设第一人脸3D模型。

对于目标人物的样本视频，基于该样本音频中任一样本图像，训练预设第一人脸3D模型。其中，对于预设第一人脸3D模型，可以将样本图像转变为该样本图像对应的人脸3D网格。

例如，对于用户A的样本视频，基于用户A的样本视频中任一样本图像，训练deep3DFaceReconstruction模型。其中，对于deep3DFaceReconstruction模型，可以将样本图像转变为该样本图像对应的人脸3D网格。

需要说明的是，对于预设第一人脸3D模型，在本发明实施例中可以是deep3DFaceReconstruction模型，当然还可以是其他类型的人脸3D模型，本发明实施例对此不作限定。

此外，对于预设第一人脸3D模型，在达到某种条件的情况下，停止训练，例如损失函数收敛、或者均方差小于某个阈值，本发明实施例对此不作限定。

在训练好预设第一人脸3D模型之后，基于预设第一人脸3D模型，如图4所示，为本发明实施例提供的一种预设第二人脸3D模型训练方法的实施流程示意图，该方法应用于处理器，具体可以包括以下步骤：

S401，获取目标人物的样本视频，针对所述样本视频中任一样本图像，将所述样本图像输入至预设第一人脸3D模型。

S402，获取所述预设第一人脸3D模型输出的所述样本图像对应的第六人脸3D网格。

此外，对于目标人物的样本视频，在本发明实施例中，针对该目标人物的样本视频任一样本图像，将该样本图像输入至预设第一人脸3D模型，获取预设第一人脸3D模型输出的该样本图像对应的第六人脸3D网格。

例如，对于用户A的样本视频，将用户A的样本视频中任一样本图像输入至deep3DFaceReconstruction模型，获取deep3DFaceReconstruction模型输出的该样本图像对应的第六人脸3D网格。

S403，基于所述样本图像对应的所述第六人脸3D网格，训练预设第二人脸3D模型。

如此经过上述步骤，对于目标人物的样本图像中任一样本图像，均存在各自对应的第六人脸3D网格，基于该样本图像对应的第六人脸3D网格，训练预设第二人脸3D模型。

例如，对于用户A的样本视频中任一样本图像，基于该样本图像对应的第六人脸3D网格，训练FLAME模型。这里主要是把基于Deep3DFaceReconstruction的参数转换为FLAME的参数格式，输入FLAME参数，就可以控制该样本图像对应的第六人脸3D网格，该样本图像对应的第六人脸3D网格人脸大小、人脸表情和姿态，跟该样本图像的一模一样，意味着后续可以使用FLAME模型获取基于FLAME参数驱动该目标人物的人脸3D网格。

需要说明的是，对于预设第二人脸3D模型，在本发明实施例中可以是FLAME模型，当然还可以是其他类型的人脸3D模型，本发明实施例对此不作限定。

此外，对于预设第二人脸3D模型，在达到某种条件的情况下，停止训练，例如损失函数收敛、或者均方差小于某个阈值，本发明实施例对此不作限定。

在训练好预设第一人脸3D模型、以及预设第二人脸3D模型之后，基于预设第一人脸3D模型以及预设第二人脸3D网格模型，如图5所示，为本发明实施例提供的一种预设3D网格模型(例如voca模型)训练方法的实施流程示意图，该方法应用于处理器，具体可以包括以下步骤：

S501，获取样本音频，其中，所述样本音频包括目标人物的样本视频中样本音频。

基于此，获取目标人物的样本音频，参与模型的训练，样本音频包括目标人物的样本视频中样本音频。例如，获取用户A的样本音频，参与模型的训练，其中，用户A的样本音频包括用户A的样本视频中样本音频。

S502，针对所述样本音频中任一所述样本音频帧，确定所述样本音频帧对应的第三人脸3D网格。

针对样本音频中任一样本音频帧，确定该样本音频帧对应的第三人脸3D网格。例如，对于用户A的样本视频中样本音频的任一样本音频帧，确定该样本音频帧对应的第三人脸3D网格。

其中，如图6所示，本发明实施例具体可以通过以下方式确定每帧样本音频帧对应的第三人脸3D网格：

S601，针对所述样本音频中任一所述样本音频帧，将所述样本音频帧对应的所述样本视频中样本图像输入至预设第一人脸3D模型。

S602，获取所述预设第一人脸3D模型输出的所述样本视频中样本图像对应的第四人脸3D网格。

S603，将所述样本视频中样本图像对应的所述第四人脸3D网格输入至预设第二人脸3D模型。

S604，获取所述预设第二人脸3D模型输出的所述样本视频中样本图像对应的第五人脸3D网格。

S605，确定所述样本视频中样本图像对应的所述第五人脸3D网格为所述样本音频帧对应的第三人脸3D网格。

在本发明实施例中，对于样本音频中任一样本音频帧，将该样本音频帧对应的样本视频中样本图像输入至预设第一人脸3D模型(也称为预设第一人脸3D重建模型)，获取预设第一人脸3D模型输出的该样本图像对应的第四人脸3D网格，将该样本图像对应的第四人脸3D网格输入至预设第二人脸3D模型，获取预设第二人脸3D模型输出的该样本图像输出的第五人脸3D网格，确定该样本图像对应的第五人脸3D网格为该样本音频帧对应的第三人脸3D网格。

例如，对于样本音频中第一帧样本音频帧，将该第一帧样本音频帧对应的样本视频中样本图像输入至Deep3DFaceReconstruction模型，获取Deep3DFaceReconstruction输出的该样本图像对应的第四人脸3D网格，将该样本图像对应的第四人脸3D网格输入至FLAME模型，获取FLAME模型输出的该样本图像对应的第五人脸3D网格，确定该样本图像对应的第五人脸3D网格为第一帧样本音频帧对应的第三人脸3D网格；

对于样本音频中第二帧样本音频帧，将该第二帧样本音频帧对应的样本视频中样本图像输入至Deep3DFaceReconstruction模型，获取Deep3DFaceReconstruction输出的该样本图像对应的第四人脸3D网格，将该样本图像对应的第四人脸3D网格输入至FLAME模型，获取FLAME模型输出的该样本图像对应的第五人脸3D网格，确定该样本图像对应的第五人脸3D网格为第二帧样本音频帧对应的第三人脸3D网格；

对于样本音频中其他样本音频帧，与上述处理类似，如此均可以得到各自对应的第三人脸3D网格。由此可知，在获取每帧样本音频帧对应的第三人脸3D网格过程中，均需要借助于每帧样本音频帧对应的样本视频中样本图像，从而可以得到样本音频中各样本音频帧各自对应的第三人脸3D网格。

S503，基于各所述样本音频帧，以及各所述样本音频帧各自对应的第三人脸3D网格，训练预设3D网格模型。

如此经过上述步骤，对于样本音频，可以得到样本音频中各样本音频帧各自对应的第三人脸3D网格，从而可以基于各样本音频帧，以及各样本音频帧各自对应的第三人脸3D网格，训练预设3D网格模型。

需要说明的是，这里每帧样本音频帧与每帧样本音频帧对应的第三人脸3D网格组成一个训练样本，第三人脸3D网格作为样本标签，即每帧样本音频帧作为输入，每帧样本音频帧对应的第三人脸3D网格作为输出，训练预设3D网格模型。

此外需要说明的是，对于预设3D网格模型，在本发明实施例中具体可以是全新的VOCA模型，当然还可以是其它类型的模型，本发明实施例对此不作限定。对于预设3D网格模型，在达到某种条件的情况下，停止训练，例如损失函数收敛、或者均方差小于某个阈值，本发明实施例对此不作限定。

在训练好预设3D网格模型之后，基于预设3D网格模型，如图7所示，为本发明实施例提供的一种预设视频生成模型(例如GAN模型)训练方法的实施流程示意图，该方法应用于处理器，具体可以包括以下步骤：

S701，获取样本音频，其中，所述样本音频包括目标人物的样本视频中样本音频。

基于此，获取样本音频，参与模型的训练，样本音频包括目标人物的样本视频中样本音频。例如，获取样本音频，参与模型的训练，其中，样本音频包括用户A的样本视频中样本音频。

S702，针对所述样本音频中任一样本音频帧，利用预设3D网格模型对所述样本音频帧进行处理，生成所述样本音频帧对应的第二人脸3D网格。

在本发明实施例中，对于样本音频，针对样本音频中任一样本音频帧，利用预设3D网格模型对样本音频帧进行处理，生成该样本音频帧对应的第二人脸3D网格。

具体地，对于样本音频，针对样本音频中任一样本音频帧，将该样本音频帧输入至预设3D网格模型，获取预设3D网格模型输出的该样本音频帧对应的第二人脸3D网格。

例如，对于样本音频，假设存在10帧样本音频帧，则针对样本音频中任一样本音频帧，将该样本音频帧输入至VOCA模型，获取VOCA模型输出的该样本音频帧对应的第二人脸3D网格，如下表4所示。

样本音频中第i帧样本音频帧	第二人脸3D网格
		第一帧样本音频帧	第二人脸3D网格1
第二帧样本音频帧	第二人脸3D网格2
		……	……

表4

S703，利用预设视频生成模型，对所述样本音频帧对应的所述第二人脸3D网格进行处理，生成所述样本音频帧对应的数字人样本图像。

如此经过上述步骤，对于样本音频中任一样本音频帧，均存在各自对应的第二人脸3D网格，利用预设视频生成模型，对该样本音频帧对应的第二人脸3D网格进行处理，生成该样本音频帧对应的数字人样本图像。

具体地，对于样本音频中任一样本音频帧，将该样本音频帧对应的第二人脸3D网格输入至预设视频生成模型，获取预设视频生成模型输出的该样本音频帧对应的数字人样本图像。

例如，如上述表4所示，对于样本音频中任一样本音频帧，均存在各自对应的第二人脸3D网格，将该样本音频帧对应的第二人脸3D网格输入至GAN，获取GAN输出的该样本音频帧对应的数字人样本图像，如下表5所示。

样本音频中第i帧样本音频帧	数字人样本图像
		第一帧样本音频帧	数字人样本图像1
第二帧样本音频帧	数字人样本图像2
		……	……

表5

S704，按照所述样本音频的时间序列，对各所述样本音频帧各自对应的所述数字人样本图像进行组合，生成数字人样本视频。

如此经过上述步骤，对于样本音频中任一样本音频帧，均存在各自对应的数字人样本图像，对于该样本音频中任一样本音频帧对应的数字人样本图像，按照样本音频的时间序列，对样本音频中任一样本音频帧对应的数字人样本图像进行组合，最终可以生成数字人样本视频，以此可以实现对预设视频生成模型的训练。

例如，如上述表5所示，对于样本音频中任一样本音频帧，均存在各自对应的数字人样本图像，对于样本音频中各样本音频帧各自对应的数字人样本图像，按照样本音频的时间序列，将样本音频中各样本音频帧各自对应的数字人样本图像进行组合，最终可以生成数字人样本视频。其中，可以重复执行上述步骤S701～S704，已完成对预设视频生成模型的训练。

其中，需要说明的是，对于预设视频生成模型，在本发明实施例中具体可以是GAN模型，相应的对于预设视频生成模型，在达到某种条件的情况下，停止训练，例如损失函数收敛、或者均方差小于某个阈值，本发明实施例对此不作限定。

基于预设3D网格模型，如图8所示，为本发明实施例提供的另一种预设视频生成模型(例如GAN模型)训练方法的实施流程示意图，该方法应用于处理器，具体可以包括以下步骤：

S801，获取样本音频，其中，所述样本音频包括目标人物的样本视频中样本音频。

在本发明实施例中，本步骤与上述步骤S701类似，本发明实施例对此不作限定。

S802，针对所述样本音频中任一样本音频帧，利用预设3D网格模型对所述样本音频帧进行处理，生成所述样本音频帧对应的第二人脸3D网格。

在本发明实施例中，本步骤与上述步骤S702类似，本发明实施例对此不作限定。

S803，截取所述样本音频帧对应的所述第二人脸3D网格中第二目标区域。

如此经过上述步骤，对于样本音频中任一样本音频帧，均存在各自对应的第二人脸3D网格，对于该样本音频帧对应的第二人脸3D网格，截取该第二人脸3D网格中第二目标区域。

其中，对于第二目标区域，在本发明实施例中具体可以是第二嘴周围区域，即对于样本音频中任一样本音频帧，截取该样本音频帧对应的第二人脸3D网格中第二嘴周围区域。

或者，

对于第二目标区域，在本发明实施例中具体可以是人脸区域，即对于样本音频中任一样本音频帧，截取该样本音频帧对应的第二人脸3D网格中第二人脸区域。

需要说明的是，对于第二目标区域，除了可以是第二嘴周围区域或第二人脸区域之外，还可以是其他区域，例如第二头部区域，本发明实施例对此不作限定。

S804，确定所述样本视频中与所述样本音频帧对应的样本图像，截取所述样本图像中除第二目标区域之外的第二其余区域。

在本发明实施例中，在模型训练阶段，准备了目标人物的样本视频，用于参与模型训练，从而后续在模型推理阶段，可以使用目标人物的样本视频参与预设视频生成模型(例如GAN模型)的训练。

基于此，确定目标人物的样本视频，确定目标人物的样本视频中与样本音频帧对应的样本图像，进而可以截取该样本图像中除第二目标区域之外的第二其余区域。

需要说明的是，在本发明实施例中，针对样本音频中任一样本音频帧，利用预设3D网格模型对该样本音频帧进行处理，生成该样本音频帧对应的第二人脸3D网格，截取该样本音频帧对应的第二人脸3D网格中第二目标区域，除此之外，确定目标人物的样本视频中与该样本音频帧对应的样本图像，进而可以截取该样本图像中除第二目标区域之外的第二其余区域。

例如，以样本音频中第一帧样本音频帧为例，利用VOCA模型对第一帧样本音频帧进行处理，生成第一帧样本音频帧对应的第二人脸3D网格，截取第一帧样本音频帧对应的第二人脸3D网格中第二目标区域，除此之外，确定目标人物的样本视频中与第一帧样本音频帧对应的样本图像，进而可以截取该样本图像中除第二目标区域之外的第二其余区域。

其中，对于第二目标区域，在本发明实施例中具体可以是第二嘴周围区域，即对于目标人物的样本视频中与该样本音频帧对应的样本图像，截取该样本图像中除第二嘴周围区域之外的第二其余区域。

或者，

对于第二目标区域，在本发明实施例中具体可以是人脸区域，即对于目标人物的样本视频中与该样本音频帧对应的样本图像，截取该样本图像中除第二人脸区域之外的第二其余区域。

例如，以样本音频中第一帧样本音频帧为例，利用VOCA模型对第一帧样本音频帧进行处理，生成第一帧样本音频帧对应的第二人脸3D网格，截取第一帧样本音频帧对应的第二人脸3D网格中第二嘴周围区域，除此之外，确定目标人物的样本视频中与第一帧样本音频帧对应的样本图像，进而可以截取该样本图像中除第二嘴周围区域之外的第二其余区域。

或者，

以样本音频中第一帧样本音频帧为例，利用VOCA模型对第一帧样本音频帧进行处理，生成第一帧样本音频帧对应的第二人脸3D网格，截取第一帧样本音频帧对应的第二人脸3D网格中第二人脸区域，除此之外，确定目标人物的样本视频中与第一帧样本音频帧对应的样本图像，进而可以截取该样本图像中除第二人脸区域之外的第二其余区域。

S805，利用预设视频生成模型，对所述样本音频帧对应的所述第二人脸3D网格中第二目标区域及所述第二其余区域进行处理，生成所述样本音频帧对应的数字人样本图像。

如此经过上述步骤，对于样本音频中任一样本音频帧对应的第二人脸3D网格，均截取了各自对应的第二目标区域，相应的各样本音频帧各自对应的样本图像中截取了除第二目标区域之外的第二其余区域，如此可以利用预设视频生成模型，对该样本音频帧对应的第二人脸3D网格中第二目标区域，及该样本音频帧对应的样本图像中除第二目标区域之外的第二其余区域进行处理，生成该样本音频帧对应的数字人样本图像。

具体地，对于样本音频中任一样本音频帧对应的第二人脸3D网格，将该样本音频帧对应的第二人脸3D网格中第二目标区域，以及该样本音频帧对应的样本图像中除第二目标区域之外的第二其余区域输入至预设视频生成模型，获取预设视频生成模型输出的该样本音频帧对应的数字人样本图像。

例如，对于样本音频中第一帧样本音频帧对应的第二人脸3D网格，将第一帧样本音频帧对应的第二人脸3D网格中第二目标区域，以及第一帧样本音频帧对应的样本视频样本图像中除第二目标区域之外的第二其余区域输入至GAN，获取GAN输出的第一帧样本音频帧对应的数字人样本图像；

对于样本音频中第二帧样本音频帧对应的第二人脸3D网格，将第二帧样本音频帧对应的第二人脸3D网格中第二目标区域，以及第二帧样本音频帧对应的样本视频样本图像中除第二目标区域之外的第二其余区域输入至GAN，获取GAN输出的第二帧样本音频帧对应的数字人样本图像；

对于样本音频中其它样本音频帧，与上述处理类似，本发明实施例在此不再一一赘述，如此均可以得到各自对应的数字人样本图像，即第i帧样本音频帧对应的样本图像中除第二目标区域之外的第二其余区域以及第i帧样本音频帧对应的第二人脸3D网格中第二目标区域，参与对第i帧样本音频帧的处理，如下表6所示。

表6

需要说明的是，对于第二目标区域，具体可以是第二嘴周围区域，则对于样本音频中任一样本音频帧对应的第二人脸3D网格，将该样本音频帧对应的第二人脸3D网格中第二嘴周围区域，以及该样本音频帧对应的样本图像中除第二嘴周围区域之外的第二其余区域输入至预设视频生成模型，获取预设视频生成模型输出的该样本音频帧对应的数字人样本图像。

或者，

对于第二目标区域，具体可以是第二人脸区域，则对于样本音频中任一样本音频帧对应的第二人脸3D网格，将该样本音频帧对应的第二人脸3D网格中第二人脸区域，以及该样本音频帧对应的样本图像中除第二人脸区域之外的第二其余区域输入至预设视频生成模型，获取预设视频生成模型输出的该样本音频帧对应的数字人样本图像。

例如，以样本音频中第一帧样本音频帧对应的第二人脸3D网格为例，将第一帧样本音频帧对应的第二人脸3D网格中第二嘴周围区域，以及第一帧样本音频帧对应的样本图像中除第二嘴周围区域之外的第二其余区域输入至GAN，获取GAN输出的第一帧样本音频帧对应的数字人样本图像。

或者，

以样本音频中第一帧样本音频帧对应的第二人脸3D网格为例，将第一帧样本音频帧对应的第二人脸3D网格中第二人脸区域，以及第一帧样本音频帧对应的样本图像中除第二人脸区域之外的第二其余区域输入至GAN，获取GAN输出的第一帧样本音频帧对应的数字人样本图像。

S806，按照所述样本音频的时间序列，对各所述样本音频帧各自对应的所述数字人样本图像进行组合，生成数字人样本视频。

在本发明实施例中，本步骤与上述步骤S704类似，本发明实施例在此不再一一赘述。

此外，可以重复执行上述步骤S801～S806，直至模型训练满足模型训练的终止条件，例如损失函数收敛，或者数字人样本视频与样本视频高度相似，本发明实施例对此不作限定。

与上述方法实施例相对应，本发明实施例还提供了一种数字人视频生成装置，如图9所示，该装置可以包括：音频获取模块910、网格生成模块920、图像生成模块930、视频生成模块940。

音频获取模块910，用于获取目标人物的音频；

网格生成模块920，用于针对所述音频中任一音频帧，利用预设3D网格模型对所述音频帧进行处理，生成所述音频帧对应的第一人脸3D网格；

图像生成模块930，用于利用预设视频生成模型，对所述音频帧对应的所述第一人脸3D网格进行处理，生成所述音频帧对应的数字人图像；

视频生成模块940，用于按照所述音频的时间序列，对各所述音频帧各自对应的所述数字人图像进行组合，生成数字人视频。

本发明实施例还提供了一种电子设备，如图10所示，包括处理器101、通信接口102、存储器103和通信总线104，其中，处理器101，通信接口102，存储器103通过通信总线104完成相互间的通信，

存储器103，用于存放计算机程序；

处理器101，用于执行存储器103上所存放的程序时，实现如下步骤：

获取目标人物的音频，针对所述音频中任一音频帧，利用预设3D网格模型对所述音频帧进行处理，生成所述音频帧对应的第一人脸3D网格；利用预设视频生成模型，对所述音频帧对应的所述第一人脸3D网格进行处理，生成所述音频帧对应的数字人图像；按照所述音频的时间序列，对各所述音频帧各自对应的所述数字人图像进行组合，生成数字人视频。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种存储介质，该存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的数字人视频生成方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的数字人视频生成方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在存储介质中，或者从一个存储介质向另一个存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种数字人视频生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述截取所述目标样本图像中除第一目标区域之外的第一其余区域，包括：

4.根据权利要求2所述的方法，其特征在于，所述截取所述目标样本图像中除第一目标区域之外的第一其余区域，包括：

5.根据权利要求1所述的方法，其特征在于，在执行所述方法之前，还包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述截取所述样本图像中除第二目标区域之外的第二其余区域，包括：

8.根据权利要求6所述的方法，其特征在于，所述截取所述样本图像中除第二目标区域之外的第二其余区域，包括：

截取所述样本图像中除第二人脸区域之外的第二其余区域；

9.根据权利要求1至8任一项所述的方法，其特征在于，所述预设3D网格模型具体通过以下方式得到：

10.根据权利要求9所述的方法，其特征在于，所述针对所述样本音频中任一所述样本音频帧，确定所述样本音频帧对应的第三人脸3D网格，包括：

11.根据权利要求10所述的方法，其特征在于，所述预设第一人脸3D模型具体通过以下方式得到：

12.根据权利要求10所述的方法，其特征在于，所述预设第二人脸3D模型具体通过以下方式得到：

13.一种数字人视频生成装置，其特征在于，所述装置包括：

音频获取模块，用于获取目标人物的音频；

14.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1至12中任一项所述的方法步骤。

15.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至12中任一项所述的方法。