CN113886644A

CN113886644A - 数字人视频生成方法、装置、电子设备和存储介质

Info

Publication number: CN113886644A
Application number: CN202111173209.4A
Authority: CN
Inventors: 王鑫宇; 刘炫鹏; 刘云峰
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2022-01-04

Abstract

本公开实施例公开了一种数字人视频生成方法、装置、电子设备和存储介质。上述方法包括：获取目标音频和目标人脸图像；针对上述目标音频中的音频帧，将该音频帧输入至预先训练的人脸关键点模型，得到与该音频帧相对应的人脸关键点；针对上述目标音频中的音频帧，基于与该音频帧相对应的人脸关键点，生成与该音频帧相对应的上述目标人脸图像的人脸素描图；针对上述目标音频中的音频帧，将与该音频帧相对应的上述目标人脸图像的人脸素描图输入至预先训练的图像生成模型，生成与该音频帧相对应的目标图像；基于所生成的目标图像，生成数字人视频。本公开实施例可以提高数字人生成效果。

Description

数字人视频生成方法、装置、电子设备和存储介质

技术领域

本公开涉及数字人视频生成技术领域，尤其是一种数字人视频生成方法、装置、电子设备和存储介质。

背景技术

数字人的生成技术日趋成熟。现有方案有基于pix2pix、pix2pixHD、video2videosynthesis的数字人生成方法。具体而言，目前出现了大量的数字人生成技术，例如基于pix2pix、pix2pixHD、Vid2Vid、few shot video2video、NERF、StyleGAN等数字人生成方法。

然而，现有这些方案中，若生成的人脸关键点不准确、生成素描图的效果比较差，则会导致最终生成的数字人图片的效果比较差。

发明内容

鉴于此，为解决如上部分或全部技术问题，本公开实施例提供一种数字人视频生成方法、装置、电子设备和存储介质。

第一方面，本公开实施例提供一种数字人视频生成方法，该方法包括：

获取目标音频和目标人脸图像；

针对上述目标音频中的音频帧，将该音频帧输入至预先训练的人脸关键点模型，得到与该音频帧相对应的人脸关键点，其中，上述人脸关键点模型用于表征音频帧与人脸关键点之间的对应关系；

针对上述目标音频中的音频帧，基于与该音频帧相对应的人脸关键点，生成与该音频帧相对应的上述目标人脸图像的人脸素描图；

针对上述目标音频中的音频帧，将与该音频帧相对应的上述目标人脸图像的人脸素描图输入至预先训练的图像生成模型，生成与该音频帧相对应的目标图像，其中，与该音频帧相对应的目标图像用于指示上述目标人脸图像指示的人员发出该音频帧指示的音频；

基于所生成的目标图像，生成数字人视频。

可选地，在本公开任一实施例的方法中，上述基于与该音频帧相对应的人脸关键点，生成与该音频帧相对应的上述目标人脸图像的人脸素描图，包括：

基于与该音频帧相对应的人脸关键点，生成上述目标人脸图像的人脸关键点；

基于所生成的人脸关键点和上述目标人脸图像的人脸轮廓线，生成与该音频帧相对应的上述目标人脸图像的人脸素描图。

可选地，在本公开任一实施例的方法中，上述将该音频帧输入至预先训练的人脸关键点模型，得到与该音频帧相对应的人脸关键点，包括：

将该音频帧输入至预先训练的人脸关键点模型，得到与该音频帧相对应的第一数量个人脸关键点；以及

上述基于与该音频帧相对应的人脸关键点，生成上述目标人脸图像的人脸关键点，包括：

基于与该音频帧相对应的第一数量个人脸关键点，生成上述目标人脸图像的第二数量个人脸关键点，其中，上述第二数量大于上述第一数量。

可选地，在本公开任一实施例的方法中，上述基于与该音频帧相对应的人脸关键点，生成上述目标人脸图像的人脸关键点，包括：

对与该音频帧相对应的人脸关键点进行反归一化处理，得到与该音频帧相对应的反归一化后关键点；

将与该音频帧相对应的反归一化后关键点，反投影到上述目标人脸图像，得到从上述目标人脸图像中提取的人脸关键点。

可选地，在本公开任一实施例的方法中，上述人脸关键点模型通过如下步骤训练得到：

获取视频数据；

从上述视频数据中提取音频帧和与音频帧相对应的人脸图像，将所提取的音频帧作为样本音频，将所提取的人脸图像作为样本人脸图像；

采用机器学习算法，将样本音频作为输入数据，将从与样本音频相对应的样本人脸图像中提取的人脸关键点作为期望输出数据，训练得到人脸关键点模型。

获取视频数据；

采用机器学习算法，将样本音频作为输入数据，将与样本人脸图像对应的连续帧样本人脸图像的人脸关键点的平均值作为期望输出数据，训练得到人脸关键点模型，其中，与样本人脸图像对应的连续帧样本人脸图像为上述视频数据中包括该样本人脸图像的预设数量帧连续的样本人脸图像。

可选地，在本公开任一实施例的方法中，上述图像生成模型通过如下步骤训练得到：

采用机器学习算法，将与样本音频相对应的人脸图像的人脸素描图作为生成式对抗网络中的生成器的输入数据，得到与样本音频相对应的、所述生成器生成的目标图像，如果所述判别器无法确定与样本音频相对应的、所述生成器生成的目标图像是否为与样本音频相对应的人脸图像的目标图像，则将当前的生成器作为图像生成模型。

可选地，在本公开任一实施例的方法中，样本人脸图像的人脸素描图基于上述人脸关键点模型生成的关键点和样本人脸图像的轮廓线生成。

提取该音频帧的音频特征；

将所提取的音频特征输入至预先训练的人脸关键点模型，得到与该音频帧相对应的人脸关键点。

可选地，在本公开任一实施例的方法中，上述提取该音频帧的音频特征，包括：

提取该音频帧的频率倒谱系数特征，作为该音频帧的音频特征；或者

将该音频帧输入至预先训练的特征提取模型，得到该音频帧的音频特征，其中，上述特征提取模型表征音频帧和音频帧的音频特征之间的对应关系。

第二方面，本公开实施例提供一种数字人视频生成装置，上述装置包括：

获取单元，被配置成获取目标音频和目标人脸图像；

输入单元，被配置成针对上述目标音频中的音频帧，将该音频帧输入至预先训练的人脸关键点模型，得到与该音频帧相对应的人脸关键点，其中，上述人脸关键点模型用于表征音频帧与人脸关键点之间的对应关系；

第一生成单元，被配置成针对上述目标音频中的音频帧，基于与该音频帧相对应的人脸关键点，生成与该音频帧相对应的上述目标人脸图像的人脸素描图；

第二生成单元，被配置成针对上述目标音频中的音频帧，将与该音频帧相对应的上述目标人脸图像的人脸素描图输入至预先训练的图像生成模型，生成与该音频帧相对应的目标图像，其中，与该音频帧相对应的目标图像用于指示上述目标人脸图像指示的人员发出该音频帧指示的音频；

第三生成单元，被配置成基于所生成的目标图像，生成数字人视频。

可选地，在本公开任一实施例的装置中，上述第一生成单元，进一步被配置成：

可选地，在本公开任一实施例的装置中，上述将该音频帧输入至预先训练的人脸关键点模型，得到与该音频帧相对应的人脸关键点，包括：

可选地，在本公开任一实施例的装置中，上述基于与该音频帧相对应的人脸关键点，生成上述目标人脸图像的人脸关键点，包括：

可选地，在本公开任一实施例的装置中，上述人脸关键点模型通过如下步骤训练得到：

获取视频数据；

可选地，在本公开任一实施例的装置中，上述图像生成模型通过如下步骤训练得到：

可选地，在本公开任一实施例的装置中，样本人脸图像的人脸素描图基于上述人脸关键点模型生成的关键点和样本人脸图像的轮廓线生成。

提取该音频帧的音频特征；

可选地，在本公开任一实施例的装置中，上述提取该音频帧的音频特征，包括：

第三方面，本公开实施例提供一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现本公开上述第一方面的数字人视频生成方法中任一实施例的方法。

第四方面，本公开实施例提供一种计算机可读介质，该计算机程序被处理器执行时，实现如上述第一方面的数字人视频生成方法中任一实施例的方法。

第五方面，本公开实施例提供一种计算机程序，该计算机程序包括计算机可读代码，当该计算机可读代码在设备上运行时，使得该设备中的处理器执行用于实现如上述第一方面的数字人视频生成方法中任一实施例的方法中各步骤的指令。

基于本公开上述实施例提供的数字人视频生成方法，通过获取目标音频和目标人脸图像，之后，针对上述目标音频中的音频帧，将该音频帧输入至预先训练的人脸关键点模型，得到与该音频帧相对应的人脸关键点，其中，上述人脸关键点模型用于表征音频帧与人脸关键点之间的对应关系，然后，针对上述目标音频中的音频帧，基于与该音频帧相对应的人脸关键点，生成与该音频帧相对应的上述目标人脸图像的人脸素描图，随后，针对上述目标音频中的音频帧，将与该音频帧相对应的上述目标人脸图像的人脸素描图输入至预先训练的图像生成模型，生成与该音频帧相对应的目标图像，其中，与该音频帧相对应的目标图像用于指示上述目标人脸图像指示的人员发出该音频帧指示的音频，最后，基于所生成的目标图像，生成数字人视频。由此，通过音频帧获得的人脸关键点，来生成目标人脸图像的人脸素描图，进而基于音频帧和人脸素描图生成数字人视频，可以提高数字人视频的生成效果。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显：

图1是本公开实施例提供的一种数字人视频生成方法或一种数字人视频生成装置的示例性系统架构图；

图2是本公开实施例提供的一种数字人视频生成方法的流程图；

图3是针对图2的实施例的一个应用场景的示意图；

图4A是本公开实施例提供的另一种数字人视频生成方法的流程图；

图4B是本公开实施例中涉及的人脸素描图的示意图；

图4C本公开实施例提供的又一种数字人视频生成方法的流程图；

图5是本公开实施例提供的一种数字人视频生成装置的结构示意图；

图6是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值并不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等对象，既不代表任何特定技术含义，也不表示它们之间的逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1是本公开实施例提供的一种数字人视频生成方法或一种数字人视频生成装置的示例性系统架构图。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送数据(例如目标音频和目标人脸图像)等。终端设备101、102、103上可以安装有各种客户端应用，例如音视频处理软件等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不作具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103发送的数据进行处理的后台服务器。作为示例，服务器105可以是云端服务器。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不作具体限定。

还需要说明的是，本公开的实施例所提供的数字人视频生成方法可以由服务器执行，也可以由终端设备执行，还可以由服务器和终端设备彼此配合执行。相应地，数字人视频生成装置包括的各个部分(例如各个单元、子单元、模块、子模块)可以全部设置于服务器中，也可以全部设置于终端设备中，还可以分别设置于服务器和终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。当数字人视频生成方法运行于其上的电子设备不需要与其他电子设备进行数据传输时，该系统架构可以仅包括数字人视频生成方法运行于其上的电子设备(例如服务器或终端设备)。

图2示出了本公开实施例提供的一种数字人视频生成方法的流程200。该数字人视频生成方法，包括以下步骤：

步骤201，获取目标音频和目标人脸图像。

在本实施例中，数字人视频生成方法的执行主体(例如图1所示的服务器或终端设备)可以从其他电子设备或者本地，获取目标音频和目标人脸图像。

其中，目标音频，可以是各种音频。目标音频可以用于后续步骤中生成的数字人视频发出该目标音频指示的声音。例如，目标音频是语音音频，也可以是对文字进行转化而经由机器生成的音频。

目标人脸图像，可以是任何人脸图像。作为示例，目标人脸图像，可以是拍摄得到的包含人脸的图像，也可以是从视频中提取的一帧人脸图像。

在一些情况下，目标音频和目标人脸图像之间可以不存在关联关系。例如，目标音频可以是第一人员发出的音频，目标人脸图像可以是第二人员的人脸图像，其中，第二人员可以是不同于第一人员的人员；或者，目标音频可以是第一人员在第一时刻发出的音频，目标人脸图像可以是该第一人员在第二时刻的人脸图像，其中，第二时刻可以是不同于第一时刻的任一时刻。

步骤202，针对上述目标音频中的音频帧，将该音频帧输入至预先训练的人脸关键点模型，得到与该音频帧相对应的人脸关键点。

在本实施例中，上述执行主体可以针对上述目标音频中的音频帧，将该音频帧输入至预先训练的人脸关键点模型，得到与该音频帧相对应的人脸关键点。其中，上述人脸关键点模型用于表征音频帧与人脸关键点之间的对应关系。

在本实施例的一些可选的实现的方式中，上述执行主体可以采用如下方式，来执行上述202，以便将该音频帧输入至预先训练的人脸关键点模型，得到与该音频帧相对应的人脸关键点：将该音频帧输入至预先训练的人脸关键点模型，得到与该音频帧相对应的第一数量个人脸关键点。

其中，第一数量，可以是预先确定的任意正整数，作为示例，该第一数量，可以是81、68等等。

在此基础上，上述执行主体可以采用如下方式，来基于与该音频帧相对应的人脸关键点，生成上述目标人脸图像的人脸关键点：基于与该音频帧相对应的第一数量个人脸关键点，生成上述目标人脸图像的第二数量个人脸关键点。其中，上述第二数量大于上述第一数量。

其中，第二数量，可以是预先确定的任意大于第一数量的正整数，作为示例，该第二数量可以是26。

在一些情况下，第二数量个人脸关键点，可以包括20个嘴巴关键点和6个下巴关键点。

可以理解，上述可选的实现方式，可以首先基于单帧音频帧得到数量较多个人脸关键点，然后基于所得到的较多人脸关键点，获得目标人脸图像的数量较少的人脸关键点，由此，可以提高所得到的与该音频帧相对应的人脸关键点的准确度，进而可以通过后续步骤提高数字人视频的生成效果和速度。

在本实施例的一些可选的实现的方式中，上述执行主体可以采用如下方式，来执行上述步骤202，以便将该音频帧输入至预先训练的人脸关键点模型，得到与该音频帧相对应的人脸关键点：

首先，提取该音频帧的音频特征。其中，该音频帧的音频特征可以包括但不限于：频率倒谱系数特征、音色特征、声调特征等等。

在上述可选的实现方式中的一些应用场景下，上述执行主体可以采用如下方式，提取该音频帧的音频特征：提取该音频帧的频率倒谱系数特征，作为该音频帧的音频特征。

在上述可选的实现方式中的一些应用场景下，上述执行主体也可以采用如下方式，提取该音频帧的音频特征：将该音频帧输入至预先训练的特征提取模型，得到该音频帧的音频特征。其中，上述特征提取模型表征音频帧和音频帧的音频特征之间的对应关系。

然后，将所提取的音频特征输入至预先训练的人脸关键点模型，得到与该音频帧相对应的人脸关键点。其中，人脸关键点模型，可以包括表征音频特征和音频帧相对应的人脸关键点的对应关系的子模型。

可以理解，上述可选的实现方式中，可以通过提取音频帧的音频特征，来得到与音频帧相对应的人脸关键点，由此，可以通过后续步骤进一步提高数字人视频的生成效果。

在本实施例的一些可选的实现的方式中，上述人脸关键点模型通过如下步骤训练得到：

首先，获取视频数据。

其中，该视频数据可以是任意包含语音和人脸图像的视频数据。在视频数据中，每一个视频帧包含音频帧和人脸图像，即每一个音频帧具有对应的一个人脸图像。如，在一秒内的视频数据内，若该一秒内的视频包含了5个帧，即包含了5个音频帧和5个人脸图像，音频帧与人脸图像一一对应。

之后，从上述视频数据中提取音频帧和与音频帧相对应的人脸图像，将所提取的音频帧作为样本音频，将所提取的人脸图像作为样本人脸图像。

最后，采用机器学习算法，将样本音频作为输入数据，将从与样本音频相对应的样本人脸图像中提取的人脸关键点(例如20个嘴巴关键点和6个下巴关键点)作为期望输出数据，训练得到人脸关键点模型。

这里，用于训练得到人脸关键点模型的初始模型可以包括LSTM(Long Short-TermMemory，长短期记忆网络)或者CNN(Convolutional Neural Networks，卷积神经网络)。

可以理解，上述可选的实现方式中，采用有监督的方式，基于音频帧，以及音频帧对应的人脸图像中提取的人脸关键点，来训练人脸关键点模型，可以提高人脸关键点模型预测人脸关键点的准确度，进而可以通过后续步骤进一步提高数字人视频的生成效果。

在本实施例的一些可选的实现的方式中，上述人脸关键点模型也可以通过如下步骤训练得到：

首先，获取视频数据。

最后，采用机器学习算法，将样本音频作为输入数据，将与样本人脸图像对应的连续帧样本人脸图像的人脸关键点的平均值作为期望输出数据，训练得到人脸关键点模型。其中，与样本人脸图像对应的连续帧样本人脸图像为上述视频数据中包括该样本人脸图像的预设数量帧连续的样本人脸图像。

这里，用于训练得到人脸关键点模型的初始模型可以包括LSTM或者CNN。

可以理解，上述可选的实现方式中的训练人脸关键点模型的方法，在预测人脸关键点时，可以兼顾生成效果和生成效率。

步骤203，针对上述目标音频中的音频帧，基于与该音频帧相对应的人脸关键点，生成与该音频帧相对应的上述目标人脸图像的人脸素描图。

在本实施例中，上述执行主体可以针对上述目标音频中的音频帧，基于与该音频帧相对应的人脸关键点，生成与该音频帧相对应的上述目标人脸图像的人脸素描图。

在本实施例的一些可选的实现的方式中，上述执行主体可以采用如下方式，来执行上述步骤203，以便基于与该音频帧相对应的人脸关键点，生成与该音频帧相对应的上述目标人脸图像的人脸素描图：

步骤一，基于与该音频帧相对应的人脸关键点，生成上述目标人脸图像的人脸关键点。

步骤二，基于所生成的人脸关键点和上述目标人脸图像的人脸轮廓线，生成与该音频帧相对应的上述目标人脸图像的人脸素描图。

可选的，上述执行主体也可以采用如下方式，来执行上述步骤203，以便基于与该音频帧相对应的人脸关键点，生成与该音频帧相对应的上述目标人脸图像的人脸素描图：

将与该音频帧相对应的人脸关键点，输入至预先训练的人脸素描图生成模型，从而生成与该音频帧相对应的上述目标人脸图像的人脸素描图。

可以理解，上述可选的实现方式中，可以基于与该音频帧相对应的人脸关键点，生成上述目标人脸图像的人脸关键点，进而生成与该音频帧相对应的上述目标人脸图像的人脸素描图，这样可以提高生成人脸素描图的准确度，从而进一步提高数字人视频的生成效果。

在上述可选的实现方式中的一些应用场景下，上述执行主体可以采用如下方式，来执行上述步骤一，以便基于与该音频帧相对应的人脸关键点，生成上述目标人脸图像的人脸关键点：

首先，对与该音频帧相对应的人脸关键点进行反归一化处理，得到与该音频帧相对应的反归一化后关键点。

之后，将与该音频帧相对应的反归一化后关键点，反投影到上述目标人脸图像，得到从上述目标人脸图像中提取的人脸关键点。

可以理解，上述可选的实现方式中，通过反归一化处理和反投影，来得到目标人脸图像中提取的人脸关键点，从而进一步提高了生成人脸关键点的准确度，从而进一步提高后续过程中数字人视频的生成效果。

可选的，上述执行主体也可以采用如下方式，来执行上述步骤一，以便基于与该音频帧相对应的人脸关键点，生成上述目标人脸图像的人脸关键点：将与该音频帧相对应的人脸关键点，输入至预先训练的人脸关键点映射模型，生成上述目标人脸图像的人脸关键点。其中，人脸关键点映射模型可以表征音频帧相对应的人脸关键点，与目标人脸图像的人脸关键点之间的对应关系。作为示例，人脸关键点映射模型可以为采用机器学习算法训练得到的卷积神经网络，也可以是表征音频帧相对应的人脸关键点与目标人脸图像的人脸关键点之间的对应关系的函数表达式。

此外，上述执行主体可以采用如下方式，来执行上述步骤二，以便基于所生成的人脸关键点和上述目标人脸图像的人脸轮廓线，生成与该音频帧相对应的上述目标人脸图像的人脸素描图：

所生成的人脸关键点和上述目标人脸图像的人脸轮廓线，输入至预先训练的素描图生成模型，生成与该音频帧相对应的上述目标人脸图像的人脸素描图。其中，素描图生成模型可以表征所生成的人脸关键点、上述目标人脸图像的人脸轮廓线、该音频帧相对应的上述目标人脸图像的人脸素描图之间的对应关系。作为示例，素描图生成模型可以为采用机器学习算法训练得到的卷积神经网络。

在本实施例的一些可选的实现的方式中，样本人脸图像的人脸素描图基于上述人脸关键点模型生成的关键点和样本人脸图像的轮廓线生成。

可以理解，上述可选的实现方式中，可以基于上述人脸关键点模型生成的关键点和样本人脸图像的轮廓线，来生成样本人脸图像的人脸素描图。由此，提高了生成样本人脸图像的人脸素描图的准确度。

步骤204，针对上述目标音频中的音频帧，将与该音频帧相对应的上述目标人脸图像的人脸素描图输入至预先训练的图像生成模型，生成与该音频帧相对应的目标图像。

在本实施例中，上述执行主体可以针对上述目标音频中的音频帧，将与该音频帧相对应的上述目标人脸图像的人脸素描图输入至预先训练的图像生成模型，生成与该音频帧相对应的目标图像。

其中，与该音频帧相对应的目标图像用于指示上述目标人脸图像指示的人员发出该音频帧指示的音频。

在本实施例的一些可选的实现的方式中，上述图像生成模型通过如下步骤训练得到：

采用机器学习算法，将与样本音频相对应的人脸图像的人脸素描图作为生成式对抗网络中的生成器的输入数据，得到与样本音频相对应的、所述生成器生成的目标图像，如果上述判别器无法确定与样本音频相对应的、上述生成器生成的目标图像(也即预测的目标图像)是否为与样本音频相对应的人脸图像的目标图像(也即实际的目标图像)，则将当前的生成器作为图像生成模型。

可以理解，上述可选的实现方式中，基于生成式对抗网络来获得图像生成模型，这样可以通过提高生成器生成的目标图像，来提高数字人视频的生成效果。

此外，如果上述判别器能够确定与样本音频相对应的、上述生成器生成的目标图像是否为与样本音频相对应的人脸图像的目标图像(例如，判别器确定与样本音频相对应的、上述生成器生成的目标图像为与样本音频相对应的人脸图像的目标图像的概率大于50％)，则可以更新将当前的生成器的模型参数，以及基于模型参数更新后的生成式对抗网络，继续训练。

可选的，上述图像生成模型也可以通过如下步骤训练得到：

采用有监督的机器学习算法，将样本人脸图像的人脸素描图作为输入数据，将样本人脸图像作为期望输出数据，训练得到图像生成模型。

作为示例，上述用于训练得到图像生成模型的初始模型可以是卷积神经网络。

步骤205，基于所生成的目标图像，生成数字人视频。

在本实施例中，上述执行主体可以基于所生成的各个目标图像，生成数字人视频。

继续参见图3，图3是根据本实施例的数字人视频生成方法的应用场景的一个示意图。在图3中，服务器310(也即上述执行主体)首先获取目标音频301和目标人脸图像305。之后，针对上述目标音频301中的音频帧302，服务器310将该音频帧302输入至预先训练的人脸关键点模型303，得到与该音频帧302相对应的人脸关键点304。其中，上述人脸关键点模型303用于表征音频帧与人脸关键点之间的对应关系。然后，针对上述目标音频301中的音频帧302，服务器310基于与该音频帧302相对应的人脸关键点304，生成与该音频帧302相对应的上述目标人脸图像305的人脸素描图306。随后，针对上述目标音频301中的音频帧302，服务器310将与该音频帧302相对应的上述目标人脸图像305的人脸素描图306输入至预先训练的图像生成模型307，生成与该音频帧302相对应的目标图像308。其中，与该音频帧302相对应的目标图像308用于指示上述目标人脸图像305指示的人员发出该音频帧302指示的音频。最后，服务器310基于所生成的目标图像308，生成数字人视频309。

本公开的上述实施例提供的方法，通过获取目标音频和目标人脸图像，之后，针对上述目标音频中的音频帧，将该音频帧输入至预先训练的人脸关键点模型，得到与该音频帧相对应的人脸关键点，其中，上述人脸关键点模型用于表征音频帧与人脸关键点之间的对应关系，然后，针对上述目标音频中的音频帧，基于与该音频帧相对应的人脸关键点，生成与该音频帧相对应的上述目标人脸图像的人脸素描图，随后，针对上述目标音频中的音频帧，将与该音频帧相对应的上述目标人脸图像的人脸素描图输入至预先训练的图像生成模型，生成与该音频帧相对应的目标图像，其中，与该音频帧相对应的目标图像用于指示上述目标人脸图像指示的人员发出该音频帧指示的音频，最后，基于所生成的目标图像，生成数字人视频。由此，通过音频帧获得的人脸关键点，来生成目标人脸图像的人脸素描图，进而基于音频帧和人脸素描图生成数字人视频，可以提高数字人视频的生成效果。

进一步参考图4A，其示出了数字人视频生成方法的又一个实施例的流程400。该数字人视频生成方法的流程，包括以下步骤：

步骤401，获取目标音频和目标人脸图像。

步骤402，针对所述目标音频中的音频帧，将该音频帧输入至预先训练的人脸关键点模型，得到与该音频帧相对应的人脸关键点。其中，所述人脸关键点模型用于表征音频帧与人脸关键点之间的对应关系。

步骤403，针对所述目标音频中的音频帧，基于与该音频帧相对应的人脸关键点，生成所述目标人脸图像的人脸关键点。

步骤404，针对所述目标音频中的音频帧，基于所生成的人脸关键点和所述目标人脸图像的人脸轮廓线，生成与该音频帧相对应的所述目标人脸图像的人脸素描图。

步骤405，针对所述目标音频中的音频帧，将与该音频帧相对应的所述目标人脸图像的人脸素描图(例如图4B所示)输入至预先训练的图像生成模型，生成与该音频帧相对应的目标图像。其中，与该音频帧相对应的目标图像用于指示所述目标人脸图像指示的人员发出该音频帧指示的音频。

步骤406，基于所生成的目标图像，生成数字人视频。

作为示例，本实施例中数字人视频生成方法可以按照如下方式执行：

首先，介绍一下数据的格式：

本实施例中数字人视频生成方法中的人脸素描图的大小为512*512*1；目标人脸图像大小为512*512*3；人脸素描图和目标人脸图像合并一下大小为512*1024*3。

下面请参照图4C介绍具体方案的实现过程：

在获取用户音频(也即上述样本音频)后，从用户音频中提取音频特征；并基于该用户音频对应的视频图片帧(也即与样本音频相对应的样本人脸图像)提取68个关键点(也即第二数量个人脸关键点)，提取嘴的20个关键点，外加下巴的6个关键点，一共得到26个关键点(也即第一数量个人脸关键点)；随后利用用户声音和26个关键点，训练嘴巴和下巴关键点模型(也即关键点模型)。在推理应用阶段，利用嘴巴和下巴关键点模型推理生成嘴巴和下巴关键点(即推理26个关键点)，将推理生成嘴巴和下巴关键点，反贴(也即反投影)到原始图片(也即目标人脸图像)的关键点上，推理的26个人脸关键点替换原始68个关键点中嘴和下巴的关键点，生成脸部轮廓线图，并与载体背景(图2)的canny线结合，形成canny线图(也即人脸素描图，如)，输入到GAN生成模型(也即图像生成模型)中，得到GAN生成模型输出的数字人假图(也即目标图像)，从而可以基于GAN生成模型输出的多帧数字人假图输出对应的数字人视频(一个视频包含多帧图片)。

其中，声音推理模型，可以用于提取音频的音频特征，其输入的声音的格式可以为wav格式，帧率可以为100、50或者25。其中，wav是一种无损的音频文件格式。对于声音特征，可以为MFCC，或者为Deepspeech/ASR/wav2Vector等模型提取的特征。声音推理模型可以为LSMT、BERT(Bidirectional Encoder Representations from Transformers，基于转换器的双向编码表征模型)、Transfromer(转换器模型)、CNN(Convolutional NeuralNetworks，卷积神经网络)、RNN(Recurrent Neural Network，循环神经网络)等。

在训练阶段，可以通过如下步骤来执行：

首先，准备视频数据，视频数据包括音频(也即样本音频)和图片(也即样本音频对应的样本人脸图像)。

之后，按照帧率每秒钟25帧处理数据，音频提取特征，图片提取人脸关键点和对应的canny线；即针对每一个视频帧，从视频音频(样本音频)中提取音频特征，从视频图片(也即样本音频对应的样本人脸图像)中提取人脸关键点68个(也即第二数量个人脸关键点)，其中，音频提取特征的方法可以使用傅里叶变换提取MFCC/用deepspeech model提取音频特征/用其他算法(ASR model--声音识别)提取的音频特征。

然后，在提取人脸关键点(68个)后，对(68个)人脸关键点进行归一化，如以两个眼角的距离归一化人脸，提取嘴(20)和下巴(6)个的关键点，共26个人脸和下巴人脸关键点(也即第一数量个人脸关键点)。

随后，基于lstm或者cnn训练关键点，得到模型L(也即人脸关键点模型)；训练数据输入为上述音频或者音频特征，label为68个人脸关键点中的嘴和下巴的26个关键点；即利用视频音频(或者提取的提取音频特征)和26个人脸嘴巴和下巴关键点，对LSTM或者cnn进行模型训练，从而可以将训练得到的LSTM/CNN模型(即模型L)作为人脸关键点模型。当然也可以采用其他算法如CNN算法，训练人脸关键点模型。

当人脸关键点模型训练结束后，准备GAN(也即图像生成模型)的训练数据。GAN是基于pix2pixHD，或者styleGAN训练出的数字人生成器模型，该GAN模型的输入为人脸素描图，用于生成最终的数字人假图(也即目标图像)。具体的，在音频经过L模型推理得到的26个人脸嘴巴关键点数据后，可以通过2DMM反归一化，使得26个人脸嘴巴关键点经过反归一化，和其他人脸的关键点(除去推理的人脸关键点(26))合并(即推理26个人脸嘴巴关键点跟其他点对齐操作)，等到合并后的68个人脸关键点；然后可将到合并后的68个人脸关键点(相当与人脸轮廓线)和canny线(即载体背景的canny线，如衣服线和头发)合并，产生canny线图(即人脸素描图)，输入到GAN中，生成最终图片(也即目标图像)。

在推理阶段：

首先，基于声音(也即目标音频中的音频帧)，提取特征，将提取到的音频特征输入到L模型得到26个人脸嘴巴关键点；当然也可以不提取音频特征，直接将声音输入到L模型得到26个人脸嘴巴关键点。这里，具体怎么做，与模型训练阶段相对应，只是提取音频特征会更精准一些，去除声音帧的噪声，效果会好一些。

之后，26个人脸嘴巴关键点进行反归一化，跟当前图片(也即目标人脸图像)的其他人脸关键点合并，得到68个关键点，即将推理生成嘴巴关键点，反贴到原始图片(不含嘴巴关键点的初始图片)，得到反贴后的68个关键点。

然后，基于得到的68个关键点画在canny线上，从而得到得到1*512*512图片，输入GAN模型中，生成数字人的假图片(也即目标图像)；进而可以基于生成的多张数字人的假图片输出对应的数字人视频。

此外，可以利用一帧音频数据或多帧音频数据训练出一帧图片的嘴巴图片。具体的，在采用N帧音频数据训练一帧嘴巴图片(即26个人脸关键点)时，如在训练第t帧图片的人脸嘴巴关键点时，可以采用练第t帧、t-1，t-2……t-(N-1)帧对应的的音频数据，训练出第t帧图片的26个人脸嘴巴关键点，进而提高人脸嘴巴图片的生成效果，使得数字人图片的生成效果更好。N可以大于1，N越大，嘴巴的生成效果就越好。例如，可以采用音频当前帧和前4帧音频，生成当前帧的嘴巴关键点(即通过取5帧音频的26个关键点的平均值作为当前帧的26个关键点的值)，从而可以兼顾生成效果和生成效率。

在本实施例中，上述步骤401-步骤406的具体执行方式，可以参考上述图2对应的实施例的相关描述，在此不再赘述。此外，除上面所记载的内容外，本公开的实施例还可以包括与图2对应的实施例相同或类似的特征、效果，在此不再赘述。

本实施例中数字人视频生成方法可以基于声音生成canny线图(也即素描图)，并且，生成canny线图的各个步骤可控，能够补偿误差，确保canny线图的生成效率和效果，进而提升数字人的生成效果，例如，可以动态控制人脸的部分动作和表情，如眨眼，点头，嘴的张合等等。

进一步参考图5，作为对上述各图所示方法的实现，本公开提供了一种数字人视频生成装置的一个实施例，该装置实施例与以上所描述的方法实施例相对应，除下面所记载的特征外，该装置实施例还可以包括与以上所描述的方法实施例相同或相应的特征，以及产生与以上所描述的方法实施例相同或相应的效果。该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的数字人视频生成装置500。上述装置500包括：获取单元501、输入单元502、第一生成单元503、第二生成单元504和第三生成单元505。其中，获取单元501，被配置成获取目标音频和目标人脸图像；输入单元502，被配置成针对上述目标音频中的音频帧，将该音频帧输入至预先训练的人脸关键点模型，得到与该音频帧相对应的人脸关键点，其中，上述人脸关键点模型用于表征音频帧与人脸关键点之间的对应关系；第一生成单元503，被配置成针对上述目标音频中的音频帧，基于与该音频帧相对应的人脸关键点，生成与该音频帧相对应的上述目标人脸图像的人脸素描图；第二生成单元504，被配置成针对上述目标音频中的音频帧，将与该音频帧相对应的上述目标人脸图像的人脸素描图输入至预先训练的图像生成模型，生成与该音频帧相对应的目标图像，其中，与该音频帧相对应的目标图像用于指示上述目标人脸图像指示的人员发出该音频帧指示的音频；第三生成单元505，被配置成基于所生成的目标图像，生成数字人视频。

在本实施例中，数字人视频生成装置500的获取单元501可以获取目标音频和目标人脸图像。

在本实施例中，输入单元502可以针对上述目标音频中的音频帧，将该音频帧输入至预先训练的人脸关键点模型，得到与该音频帧相对应的人脸关键点，其中，上述人脸关键点模型用于表征音频帧与人脸关键点之间的对应关系。

在本实施例中，第一生成单元503可以针对上述目标音频中的音频帧，基于与该音频帧相对应的人脸关键点，生成与该音频帧相对应的上述目标人脸图像的人脸素描图

在本实施例中，第二生成单元504可以针对上述目标音频中的音频帧，将与该音频帧相对应的上述目标人脸图像的人脸素描图输入至预先训练的图像生成模型，生成与该音频帧相对应的目标图像，其中，与该音频帧相对应的目标图像用于指示上述目标人脸图像指示的人员发出该音频帧指示的音频。

在本实施例中，第三生成单元505可以基于所生成的目标图像，生成数字人视频。

在本实施例的一些可选的实现方式中，上述第一生成单元503，进一步被配置成：

在本实施例的一些可选的实现方式中，上述将该音频帧输入至预先训练的人脸关键点模型，得到与该音频帧相对应的人脸关键点，包括：

在本实施例的一些可选的实现方式中，上述基于与该音频帧相对应的人脸关键点，生成上述目标人脸图像的人脸关键点，包括：

在本实施例的一些可选的实现方式中，上述人脸关键点模型通过如下步骤训练得到：

获取视频数据；

在本实施例的一些可选的实现方式中，上述图像生成模型通过如下步骤训练得到：

采用机器学习算法，将样本人脸图像的人脸素描图作为输入数据，将样本人脸图像作为期望输出数据，训练得到图像生成模型。

在本实施例的一些可选的实现方式中，样本人脸图像的人脸素描图基于上述图像生成模型生成的关键点和样本人脸图像的轮廓线生成。

在本实施例的一些可选的实现方式中，上述第一生成单元，进一步被配置成：

提取该音频帧的音频特征；

在本实施例的一些可选的实现方式中，上述提取该音频帧的音频特征，包括：

本公开的上述实施例提供的装置500中，获取单元501可以获取目标音频和目标人脸图像，之后，输入单元502可以针对上述目标音频中的音频帧，将该音频帧输入至预先训练的人脸关键点模型，得到与该音频帧相对应的人脸关键点，其中，上述人脸关键点模型用于表征音频帧与人脸关键点之间的对应关系，然后，第一生成单元503可以针对上述目标音频中的音频帧，基于与该音频帧相对应的人脸关键点，生成与该音频帧相对应的上述目标人脸图像的人脸素描图，随后，第二生成单元504可以针对上述目标音频中的音频帧，将与该音频帧相对应的上述目标人脸图像的人脸素描图输入至预先训练的图像生成模型，生成与该音频帧相对应的目标图像，其中，与该音频帧相对应的目标图像用于指示上述目标人脸图像指示的人员发出该音频帧指示的音频，最后，第三生成单元505可以基于所生成的目标图像，生成数字人视频。由此，通过音频帧获得的人脸关键点，来生成目标人脸图像的人脸素描图，进而基于音频帧和人脸素描图生成数字人视频，可以提高数字人视频的生成效果。

图6为本公开实施例提供的一种电子设备的结构示意图，图6所示的电子设备600包括：至少一个处理器601、存储器602和至少一个网络接口604和其他用户接口603。电子设备600中的各个组件通过总线系统605耦合在一起。可理解，总线系统605用于实现这些组件之间的连接通信。总线系统605除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图6中将各种总线都标为总线系统605。

其中，用户接口603可以包括显示器、键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

可以理解，本公开实施例中的存储器602可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DRRAM)。本文描述的存储器602旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器602存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统6021和应用程序6022。

其中，操作系统6021，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序6022，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本公开实施例方法的程序可以包含在应用程序6022中。

在本公开实施例中，通过调用存储器602存储的程序或指令，具体的，可以是应用程序6022中存储的程序或指令，处理器601用于执行各方法实施例所提供的方法步骤，例如包括：获取目标音频和目标人脸图像；针对上述目标音频中的音频帧，将该音频帧输入至预先训练的人脸关键点模型，得到与该音频帧相对应的人脸关键点，其中，上述人脸关键点模型用于表征音频帧与人脸关键点之间的对应关系；针对上述目标音频中的音频帧，基于与该音频帧相对应的人脸关键点，生成与该音频帧相对应的上述目标人脸图像的人脸素描图；针对上述目标音频中的音频帧，将与该音频帧相对应的上述目标人脸图像的人脸素描图输入至预先训练的图像生成模型，生成与该音频帧相对应的目标图像，其中，与该音频帧相对应的目标图像用于指示上述目标人脸图像指示的人员发出该音频帧指示的音频；基于所生成的目标图像，生成数字人视频。

上述本公开实施例揭示的方法可以应用于处理器601中，或者由处理器601实现。处理器601可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器601中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器601可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器602，处理器601读取存储器602中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits，ASIC)、数字信号处理器(Digital Signal Processing，DSP)、数字信号处理设备(DSPDevice，DSPD)、可编程逻辑设备(Programmable LogicDevice，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本实施例提供的电子设备可以是如图6中所示的电子设备，可执行如图2中数字人视频生成方法的所有步骤，进而实现图2所示数字人视频生成方法的技术效果，具体请参照图2相关描述，为简洁描述，在此不作赘述。

本公开实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中，存储介质可以包括易失性存储器，例如随机存取存储器；存储器也可以包括非易失性存储器，例如只读存储器、快闪存储器、硬盘或固态硬盘；存储器还可以包括上述种类的存储器的组合。

当存储介质中一个或者多个程序可被一个或者多个处理器执行，以实现上述在电子设备侧执行的数字人视频生成方法。

所述处理器用于执行存储器中存储的通信程序，以实现以下在电子设备侧执行的数字人视频生成方法的步骤：获取目标音频和目标人脸图像；针对上述目标音频中的音频帧，将该音频帧输入至预先训练的人脸关键点模型，得到与该音频帧相对应的人脸关键点，其中，上述人脸关键点模型用于表征音频帧与人脸关键点之间的对应关系；针对上述目标音频中的音频帧，基于与该音频帧相对应的人脸关键点，生成与该音频帧相对应的上述目标人脸图像的人脸素描图；针对上述目标音频中的音频帧，将与该音频帧相对应的上述目标人脸图像的人脸素描图输入至预先训练的图像生成模型，生成与该音频帧相对应的目标图像，其中，与该音频帧相对应的目标图像用于指示上述目标人脸图像指示的人员发出该音频帧指示的音频；基于所生成的目标图像，生成数字人视频。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本公开的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本公开的具体实施方式而已，并不用于限定本公开的保护范围，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种数字人视频生成方法，其特征在于，所述方法包括：

获取目标音频和目标人脸图像；

针对所述目标音频中的音频帧，将该音频帧输入至预先训练的人脸关键点模型，得到与该音频帧相对应的人脸关键点，其中，所述人脸关键点模型用于表征音频帧与人脸关键点之间的对应关系；

针对所述目标音频中的音频帧，基于与该音频帧相对应的人脸关键点，生成与该音频帧相对应的所述目标人脸图像的人脸素描图；

针对所述目标音频中的音频帧，将与该音频帧相对应的所述目标人脸图像的人脸素描图输入至预先训练的图像生成模型，生成与该音频帧相对应的目标图像，其中，与该音频帧相对应的目标图像用于指示所述目标人脸图像指示的人员发出该音频帧指示的音频；

基于所生成的目标图像，生成数字人视频。

2.根据权利要求1所述的方法，其特征在于，所述基于与该音频帧相对应的人脸关键点，生成与该音频帧相对应的所述目标人脸图像的人脸素描图，包括：

基于与该音频帧相对应的人脸关键点，生成所述目标人脸图像的人脸关键点；

基于所生成的人脸关键点和所述目标人脸图像的人脸轮廓线，生成与该音频帧相对应的所述目标人脸图像的人脸素描图。

3.根据权利要求2所述的方法，其特征在于，所述将该音频帧输入至预先训练的人脸关键点模型，得到与该音频帧相对应的人脸关键点，包括：

所述基于与该音频帧相对应的人脸关键点，生成所述目标人脸图像的人脸关键点，包括：

基于与该音频帧相对应的第一数量个人脸关键点，生成所述目标人脸图像的第二数量个人脸关键点，其中，所述第二数量大于所述第一数量。

4.根据权利要求2所述的方法，其特征在于，所述基于与该音频帧相对应的人脸关键点，生成所述目标人脸图像的人脸关键点，包括：

将与该音频帧相对应的反归一化后关键点，反投影到所述目标人脸图像，得到从所述目标人脸图像中提取的人脸关键点。

5.根据权利要求1所述的方法，其特征在于，所述人脸关键点模型通过如下步骤训练得到：

获取视频数据；

从所述视频数据中提取音频帧和与音频帧相对应的人脸图像，将所提取的音频帧作为样本音频，将所提取的人脸图像作为样本人脸图像；

6.根据权利要求1所述的方法，其特征在于，所述人脸关键点模型通过如下步骤训练得到：

获取视频数据；

采用机器学习算法，将样本音频作为输入数据，将与样本人脸图像对应的连续帧样本人脸图像的人脸关键点的平均值作为期望输出数据，训练得到人脸关键点模型，其中，与样本人脸图像对应的连续帧样本人脸图像为所述视频数据中包括该样本人脸图像的预设数量帧连续的样本人脸图像。

7.根据权利要求5-6之一所述的方法，其特征在于，所述图像生成模型通过如下步骤训练得到：

8.根据权利要求6所述的方法，其特征在于，样本人脸图像的人脸素描图基于所述人脸关键点模型生成的关键点和样本人脸图像的轮廓线生成。

9.一种数字人视频生成装置，其特征在于，所述装置包括：

获取单元，被配置成获取目标音频和目标人脸图像；

输入单元，被配置成针对所述目标音频中的音频帧，将该音频帧输入至预先训练的人脸关键点模型，得到与该音频帧相对应的人脸关键点，其中，所述人脸关键点模型用于表征音频帧与人脸关键点之间的对应关系；

第一生成单元，被配置成针对所述目标音频中的音频帧，基于与该音频帧相对应的人脸关键点，生成与该音频帧相对应的所述目标人脸图像的人脸素描图；

第二生成单元，被配置成针对所述目标音频中的音频帧，将与该音频帧相对应的所述目标人脸图像的人脸素描图输入至预先训练的图像生成模型，生成与该音频帧相对应的目标图像，其中，与该音频帧相对应的目标图像用于指示所述目标人脸图像指示的人员发出该音频帧指示的音频；

10.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现上述权利要求1-8任一所述的方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现上述权利要求1-8任一所述的方法。