CN117593473A

CN117593473A - 动作图像与视频生成方法、设备与存储介质

Info

Publication number: CN117593473A
Application number: CN202410072102.8A
Authority: CN
Inventors: 孙泽锋; 楚东方; 陈志文; 吕承飞
Original assignee: Taobao China Software Co Ltd
Current assignee: Taobao China Software Co Ltd
Priority date: 2024-01-17
Filing date: 2024-01-17
Publication date: 2024-02-23
Anticipated expiration: 2044-01-17
Also published as: CN117593473B

Abstract

本申请实施例提供一种动作图像与视频生成方法、设备与存储介质。其中，提供一种2D虚拟数字人的动作图像生成方式或视频生成方式，对2D图像中用户的嘴部区域修复，实现准确匹配说话声音和嘴型的能力，能够更加简单地实现2D虚拟数字人自由说话功能，且最大限度地保留了真人特征，让2D虚拟数字人在视觉效果上和真人无异，让2D虚拟数字人更加真实，使得和真人几乎一模一样的2D虚拟数字人成为可能。该2D虚拟数字人能够代替真人进行长时间不间断的直播和短视频出境拍摄任务，大大降低直播和短视频拍摄制作的成本。

Description

动作图像与视频生成方法、设备与存储介质

技术领域

本申请涉及互联网技术领域，尤其涉及一种动作图像与视频生成方法、设备与存储介质。

背景技术

直播带货、短视频拍摄的用户的时间精力是有限的，无法做到长时间内不间断地直播或者随时随地在短视频中出镜说话。于是，出现了三维（3D）虚拟数字人，即通过对真人头部进行三维建模，并对面部表情变化进行参数化分解得到多个三维表情基；然后基于声音特征预测所有的表情基参数，基于这些参数对三维表情基进行融合，以驱动数字人的口唇动作，模拟真人说话。

基于3D虚拟数字人的方案，需要进行三维建模、表情基分解、渲染等操作，操作流程较为复杂，成本高，且驱动效果较为僵硬死板，缺少真实度。

发明内容

本申请的多个方面提供一种动作图像与视频生成方法、设备与存储介质，用以提高驱动数字人的口唇动作的真实度。

本申请实施例提供一种动作图像生成方法，包括：确定待修复图像、参考图像和音频信号，待修复图像和参考图像包含同一目标用户，且待修复图像中的嘴部区域为待修复区域；对待修复图像、参考图像和音频信号分别进行特征提取，以得到待修复图像、参考图像和音频信号各自的初始特征，待修复图像、参考图像和音频信号的初始特征分别反映待修复的嘴部区域的图像位置、样式和动作形态；对待修复图像、参考图像和音频信号的初始特征进行融合处理，以得到目标融合特征；根据目标融合特征对待修复图像中的嘴部区域进行修复，以得到嘴部动作与音频信号匹配的动作图像。

本申请实施例提供一种视频生成方法，获取初始视频片段和音频片段，初始视频片段包括多个视频帧，音频片段包含与多个视频帧对应的多个音频信号；从多个视频帧中，选择参考图像，并针对任一视频帧，将任一视频帧中的嘴部区域遮挡，以得到待修复图像；采用动作图像生成方法，对待修复图像中的嘴部区域进行修复，以得到任一视频帧对应的动作图像；将多个视频帧对应的动作图像进行拼接，得到输出音频片段的目标视频片段。

本申请实施例提供一种电子设备，包括：存储器和处理器；存储器，用于存储计算机程序；处理器耦合至存储器，用于执行计算机程序以用于执行动作图像方法或视频生成方法中的步骤。

本申请实施例提供存储有计算机程序的计算机存储介质，当计算机程序被处理器执行时，致使处理器能够实现动作图像方法或视频生成方法中的步骤。

在本申请实施例中，基于参考图像、音频信号以及待修复图像各自提供的特征，借助于图像修复技术对待修复图像中用户的嘴部区域修复，实现准确匹配说话声音和嘴型的驱动能力，能够更加简单地实现2D虚拟数字人自由说话功能，且最大限度地保留了真人特征，让2D虚拟数字人在视觉效果上和真人无异，让2D虚拟数字人更加真实，使得能够利用2D虚拟数字人代替真人进行长时间不间断的直播和短视频出境拍摄任务，大大降低直播和短视频拍摄制作的成本。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种动作图像生成方法的流程图；

图2a为示例性的生成对抗网络的结构示意图；

图2b为示例性的第一图像编码器的结构示意图；

图2c为示例性的第二图像编码器的结构示意图；

图2d为示例性的音频编码器的结构示意图；

图2e为示例性的第一特征融合模块的结构示意图；

图2f为示例性的第二特征融合模块的结构示意图；

图2g为示例性的解码器的结构示意图；

图2h为示例性的生成对抗网络的模型训练原理图；

图3为本申请实施例提供的一种视频生成方法的流程图；

图4为本申请实施例提供的示例性的应用场景图；

图5为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。另外，本申请涉及的各种模型（包括但不限于语言模型或大模型）是符合相关法律和标准规定的。

随着直播、短视频等新媒介的兴起，越来越多的用户投身到直播带货、短视频拍摄等行业中。但是，每个用户的时间精力是有限的，无法做到长时间内不间断地直播或者随时随地在短视频中出镜说话。于是，出现了三维（3D）虚拟数字人，即通过对真人头部进行三维建模，并对面部表情变化进行参数化分解得到多个三维表情基；然后基于声音特征预测所有的表情基参数，基于这些参数对三维表情基进行融合，以驱动数字人的口唇动作，模拟真人说话。

为此，本申请实施例提供一种动作图像与视频生成方法、设备与存储介质。其中，提供一种2D虚拟数字人的动作图像生成方式或视频生成方式，基于参考图像、音频信号以及待修复图像的特征，借助于图像修复技术对2D图像中用户的嘴部区域修复，实现准确匹配说话声音和嘴型的能力，能够更加简单地实现2D虚拟数字人自由说话功能，且最大限度地保留了真人特征，让2D虚拟数字人在视觉效果上和真人无异，让2D虚拟数字人更加真实，使得和真人几乎一模一样的2D虚拟数字人成为可能。该2D虚拟数字人能够代替真人进行长时间（例如24小时）不间断的直播和短视频出境拍摄任务，大大降低直播和短视频拍摄制作的成本。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本申请实施例提供的一种动作图像生成方法的流程图。参见图1，该方法可以包括以下步骤：

101、确定待修复图像、参考图像和音频信号，待修复图像和参考图像包含同一目标用户，且待修复图像中的嘴部区域为待修复区域。

在本实施例中，待修复图像中目标用户的嘴部区域为待修复区域。待修复图像中的目标用户需要进行嘴部动作修复，经过嘴部动作修复的待修复图像称作为动作图像，动作图像中的目标用户的嘴部动作与音频信号匹配，进而呈现为音频信号驱动目标用户的口唇动作的效果，模拟真人说话。

可选的，可以获取包含目标用户的图像（在此称作为原始图像），对原始图像进行关键点检测，基于关键点检测结果识别原始图像中的目标用户的嘴部区域，对原始图像中的目标用户的嘴部区域进行遮挡处理，得到待修复图像。

可选的，基于关键点检测结果识别原始图像中的目标用户的脸部区域，基于关键点检测结果中脸部区域的图像坐标从原始图像中裁剪出人脸图像，基于关键点检测结果中嘴巴区域的图像坐标对人脸图像中的目标用户的嘴部区域进行遮挡处理，得到待修复图像。

可选的，对原始图像或人脸图像中的目标用户的嘴部区域进行遮挡处理时，可以将原始图像中的目标用户的嘴部区域中各像素点的像素值设置为指定值，指定值例如为0或255，可灵活设置，对此不做限制。

在此说明，上述对嘴部区域进行遮挡是将嘴部区域作为待修复区域的一种实现方式，但并不限于这一种。可选的，可以将待修复图像中的嘴巴区域标记为待修复区域。实际应用中，可以基于关键点检测方式识别出待修复图像中的嘴巴区域的图像位置，将嘴巴区域的图像坐标限定的嘴巴区域标记为待修复区域，在模型训练或模型推理过程中，除了输入待修复图像之外，还可以输入用于将嘴部区域标记为待修复区域的标记信息，对模型来说，可以根据该标记信息确定待修复图像中的待修复区域，并将该待修复区域作失效处理。在本申请实施例中，并不限定标记信息的实现方式，例如该标记信息可以是嘴部区域的图像坐标。

在本实施例中，参考图像中的目标用户和待修复图像中的目标用户是相同的用户，参考图像中的目标用户的嘴部区域未被遮挡，相对来说，参考图像是完整的图像，待修复图像是嘴部区域残缺或被视为残缺的图像。另外，参考图像的数量不做限制，例如为5个、7个、10个等等。在本实施例中，参考图像可以提供目标用户的脸部区域的整体外观，进一步可以提供嘴部区域的样式，例如该目标用户的嘴部是大或小，嘴唇是薄或厚，嘴唇形状（如桃心型、花瓣唇、月牙唇）等。相对来说，待修复图像负责提供待修复的嘴唇区域的图像位置，以便于模型能够据此对待修复图像进行修复。

在本实施例中，利用音频信号参与待修复图像中嘴部区域嘴型的动作修复，用以实现2D虚拟数字人的口唇驱动能力，使得实现能够代替真人说话的2D虚拟数字人成为可能。在本实施例中，并不对该音频信号进行限定，该音频信号可以是目标用户的声音信号，也可以是其他用户的声音信号，其他用户不同于目标用户，或者该音频信号也可以是由计算机模拟得到的声音信号，对此不做限制，凡是能够对嘴部区域进行动作区域的音频信号均适用于本申请实施例。

进一步可选地，在一些应用场景中，若音频信号不是目标用户的声音信号，为了保证音频信号与目标用户的适配性，可以预先根据目标用户的声音特点，对该音频信号进行预处理，以使音频信号与目标用户的声音特点适配。例如，在直播场景中，可以预先用计算机模拟得到直播音频信号，然后利用主播的声音特点对该直播音频信号进行预处理，预处理后的音频信号在音色、音调等方面与主播相同或相似，达到高度模拟主播声音的效果，然后根据预处理后的直播音频信号对包含主播的待修复图像中的嘴部区域进行修复，以得到嘴部动作与该预处理后的直播音频信号适配的直播图像，达到更为真实的直播效果，保证用户观看直播的感受。

在一些应用场景中，可以针对单张图像进行口唇驱动，例如需要根据原始图像生成一张正在发出“XX”声音的图像，则可以获取该原始图像，并对该原始图像中的嘴部区域进行遮挡后作为待修复图像。在另一些应用场景中，可能需要对多张连续的图像持续进行口唇驱动，例如在视频直播或短视频场景中，可能需要利用音频信号对一段视频中的各帧图像进行口唇驱动。在视频直播或短视频场景中，在确定待修复图像和参考图像时，可以获取视频数据，视频数据包含多个视频帧，多个视频帧包含目标用户；针对任一视频帧进行嘴部区域的识别，并对识别到的嘴部区域进行遮挡，以得到待修复图像；从多个视频帧中选择指定数量的视频帧，作为参考图像。

具体而言，可以预先对不断说话的目标用户（例如直播场景中的主播或短视频中的用户）进行拍摄，得到视频数据。一方面对视频数据中的任一视频帧中的目标用户的嘴部区域进行遮挡处理，得到待修复图像；另一方面，从多个视频帧中选择指定数量的视频帧，作为参考图像，指定数量例如为5。其中，音频信号包含的音频帧数与视频数据包含的视频帧数具有对应关系，一个音频帧对应一个视频帧，将视频帧中嘴部区域的嘴部动作修复成与对应音频帧适配的嘴部动作，实现对2D虚拟数字人的口唇驱动。

102、对待修复图像、参考图像和音频信号分别进行特征提取，以得到待修复图像、参考图像和音频信号各自的初始特征。

在本实施例中，对特征提取的方式不做限制，可以采用任意的图像特征提取方式对待修复图像、参考图像分别进行特征提取，也可以采用任意的音频特征提取方式对音频信号进行特征提取。在本实施例中，待修复图像的初始特征至少反映待修复的嘴部区域的图像位置，参考图像的初始特征至少反映待修复的嘴部区域的样式；音频信号的初始特征至少反映待修复的嘴部区域的动作形态，嘴部区域的动作形态是指嘴部发出声音信号时因为动作引起嘴部的形状发生变化的信息。

进一步可选的，为了更加准确进行嘴部动作修复，可以利用训练好生成对抗网络（Generative Adversarial Network，GAN)）进行嘴部动作修复。生成对抗网络包括生成网络和判别网络，生成网络可以采用编码器-解码器结构。其中，生成网络中的编码器可以提高特征提取的准确度。

可选的，参见图2a，生成对抗网络中的生成网络包括第一图像编码器、第二图像编码器和音频特征编码器。第一图像编码器、第二图像编码器分别是可以进行图像特征提取的编码器，音频特征编码器是可以进行音频特征提取的编码器。

基于上述，对待修复图像、参考图像和音频信号分别进行特征提取，以得到待修复图像、参考图像和音频信号各自的初始特征的一种实现方式为：将待修复图像、参考图像和音频信号分别输入生成对抗网络中的第一图像编码器、第二图像编码器和音频特征编码器进行特征提取，以得到待修复图像、参考图像和音频信号各自的初始特征；其中，第一图像编码器、第二图像编码器和音频编码器属于生成对抗网络中的生成网络，且生成网络采用编码器-解码器结构。在使用第一图像编码器、第二图像编码器和音频特征编码器进行特征提取之前，会预先对生成对抗网络进行模型训练，在模型训练过程中，第一图像编码器被训练成用于从待修复图像中提取待修复的嘴部区域的位置等特征的编码器，第二图像编码器被训练成用于从参考图像中提取待修复的嘴部区域的样式等特征信息的编码器，音频特征编码器被训练成用于从音频信号中提取能够反映嘴部形态的特征信息的编码器，关于模型训练过程可参见后续实施例中的描述。

参见图2a，将待修复图像输入第一图像编码器，第一图像编码器对待修复图像进行特征提取，输出待修复图像的初始特征。在本实施例中，对第一图像编码器的网络结构不做限制。进一步可选的，为了提高特征提取的准确度，参见图2b，第一图像编码器可以包括多个具有特征提取功能的第一特征提取层。基于此，将待修复图像输入生成对抗网络中的第一图像编码器进行特征提取，以得到待修复图像的初始特征的实现方式为：将待修复图像输入第一图像编码器，在第一图像编码器中经过多个第一特征提取层进行特征提取，以得到待修复图像的初始特征。参见图2b，将待修复图像输入依次连接的多个第一特征提取层，第1个第一特征提取层的输入数据为待修复图像，上一个第一特征提取层的输出结果作为下一个第一特征提取层的输入数据，最后一个第一特征提取层输出待修复图像的初始特征。

在本实施例中，对第一特征提取层的网络结构不做限制。进一步可选的，参见图2b，为了提高特征提取的准确度，第一特征提取层包括依次连接的卷积层（Convolutionallayer）、批量规范化层（batch normalization，BN）和激活层（Activiation Layer）。卷积层主要起提取特征的作用，批量规范化层主要起加快模型收敛速度的作用，激活层利用激活函数对其输入数据进行激活处理，增强模型的表示能力。

进一步可选的，为了提高特征提取的准确度，多个第一特征提取层分别包括依次连接的卷积层、批量规范化层和激活层，且后面至少一个卷积层的步长大于前面至少一个卷积层的步长。卷积层的步长（Stride）是指卷积核在图像上移动的步长，卷积层的步长的大小直接影响卷积操作的结果和特征图的尺寸。值得注意的是，多个第一特征提取层中全部或部分的第一特征提取层可以包括依次连接的卷积层、批量规范化层和激活层。

在本实施例中，第一特征提取层的数量不做限制，例如，第一特征提取层为4个。第2个第一特征提取层中的卷积层的步长大于第1个第一特征提取层中的卷积层的步长，实现上采样；第3个第一特征提取层中的卷积层的步长大于第2个第一特征提取层中的卷积层的步长，实现上采样；第4个第一特征提取层中的卷积层的步长大于第3个第一特征提取层中的卷积层的步长，实现上采样；依次类推，后面第一特征提取层中的至少一个卷积层的步长大于前面第一特征提取层中的至少一个卷积层的步长。

参见图2a，将参考图像输入第二图像编码器，第二图像编码器对参考图像进行特征提取，输出参考图像的初始特征。在本实施例中，对第二图像编码器的网络结构不做限制。进一步可选的，为了提高特征提取的准确度，参见图2c，第二图像编码器可以包括多个具有特征提取功能的第二特征提取层。基于此，将参考图像输入生成对抗网络中的第二图像编码器进行特征提取，以得到参考图像的初始特征的一种实现方式为：将参考图像输入第二图像编码器，在第二图像编码器中经过多个第二特征提取层进行特征提取，以得到参考图像的特征信息。参见图2c，将参考图像输入依次连接的多个第二特征提取层，第1个第二特征提取层的输入数据为参考图像，上一个第二特征提取层的输出结果作为下一个第二特征提取层的输入数据，最后一个第二特征提取层输出参考图像的初始特征。

在本实施例中，对第二特征提取层的网络结构不做限制。进一步可选的，参见图2c，为了提高特征提取的准确度，第二特征提取层包括依次连接的卷积层、批量规范化层和激活层。

进一步可选的，为了提高特征提取的准确度，多个第二特征提取层分别包括依次连接的卷积层、批量规范化层和激活层，且后面至少一个卷积层的步长大于前面至少一个卷积层的步长。值得注意的是，多个第二特征提取层中全部或部分的第二特征提取层可以包括依次连接的卷积层、批量规范化层和激活层。

在本实施例中，第二特征提取层的数量不做限制，例如，第二特征提取层为3个。第2个第二特征提取层中的卷积层的步长大于第1个第二特征提取层中的卷积层的步长，实现上采样；第3个第二特征提取层中的卷积层的步长大于第2个第二特征提取层中的卷积层的步长，实现上采样；依次类推，后面第二特征提取层中的至少一个卷积层的步长大于前面第二特征提取层中的至少一个卷积层的步长。

实际应用中，第一图像编码器和第二图像编码器的网络结构可以相同，也可以不同。可选的，一种不同的情况，可以是两者包含的特征提取层的数量不同，每个特征提取层的结构相同。

参见图2a，将音频信号输入音频特征编码器进行特征提取，输出音频信号的初始特征。在本实施例中，对音频特征编码器的网络结构不做限制。音频特征编码器负责提取音频信号的特征表示（即音频的潜在表示），这些表示捕捉到了音频信号中的重要信号和结构信息。在本实施例中，音频信号的结构信息例如包括但不限于：声音波形特征、音节、音素、音调、语调、共振、共鸣峰、发音方式等。

其中，声音波形特征是指音频信号是随时间变化的声波的物理表示，包括振幅、频率（音调）和波形等特性。音节是基本的语音单位，各个音节的时长以及它们在语音中的排列节奏，这些与说话的速度和重音有关。音素是最小的语音单位，各个音素的时长以及它们在语音中的排列节奏，这些与说话的速度和重音有关；不同的音素是通过嘴唇、舌头、颚部等不同发音部位的运动以不同的发音方式（如爆破音、摩擦音）发音产生的。音调是区分词义的重要特征；语调则是指说话时声音的升降变化，这会影响句子的意义和情感表达；共振是指声音在声道中传播时特定频率的放大；共鸣峰（也称为共振峰或声道峰）是指在频谱中的特定频率强度较高的点，它们是由声道形状产生的，可以用来区分不同的音素。

进一步可选的，为了提高特征提取的准确度，参见图2d，音频特征编码器可以包括多个具有特征提取功能的第三特征提取层。基于此，将音频信号输入生成对抗网络中的音频编码器进行特征提取，以得到音频信号的初始特征的一种可选实现方式为：将音频信号的表征向量输入音频编码器，在音频编码器中经过多个第三特征提取层进行特征提取，以得到音频信号的初始特征。在此之前，可以将音频信号输入音频提取器进行向量化处理，得到音频信号的表征向量。其中，音频提取器可以是用于提取音频信号的表征向量的任意一种网络架构，例如包括但不限于wav2vec(音频向量化)模型。

参见图2d，音频信号输入音频提取器，音频提取器输出音频信号的表征向量；将音频信号的表征向量输入依次连接的第三特征提取层，第1个第三特征提取层的输入数据为音频信号的表征向量，上一个第三特征提取层的输出结果作为上一个第三特征提取层的输入数据，最后一个第三特征提取层输出音频信号的初始特征。

在本实施例中，对第三特征提取层的网络结构不做限制。进一步可选的，参见图2d，为了提高特征提取的准确度，多个第三特征提取层分别包括依次连接的第一特征提取子层和第二特征提取子层。值得注意的是，多个第三特征提取层中全部或部分的第三特征提取层可以包括依次连接的第一特征提取子层和第二特征提取子层。

在本实施例中，针对依次连接的多个第三特征提取层，第1个第三特征提取层的输入数据为音频信号的表征向量，上一个第三特征提取层的输出结果作为下一个第三特征提取层的输入数据，最后一个第三特征提取层输出音频信号的初始特征。

实际应用中，若第三特征提取层包括依次连接的第一特征提取子层和第二特征提取子层，作为一种示例，参见图2d，第三特征提取层的输出为其包含的第二特征提取子层的输出，也即第二特征提取子层的输出结果作为第三特征提取层的输出结果。作为另一种示例，参见图2d，第一特征提取子层的输出结果和第二特征提取子层的输出结果进行特征相加，得到第三特征提取层的输出结果，也即第三特征提取层的输出为其包含的第一特征提取子层与第二特征提取子层的输出之和。

进一步可选的，为了提高特征提取的准确度，前面至少一个第三特征提取层的输出为其包含的第一特征提取子层与第二特征提取子层的输出之和，后面至少一个第三特征提取层的输出为其包含的第二特征提取子层的输出。优先的，针对依次连接的多个第三特征提取层，多个第三特征提取层除最后一个第三特征提取层外的其他第三特征提取层的输出为其包含的第一特征提取子层与第二特征提取子层的输出之和。最后一个第三特征提取的输出结果为其包含的第二特征提取子层的输出结果。参见图2d，举例来说，依次连接3个第三特征提取层，第1个第三特征提取层、第2个第三特征提取层的输出为其包含的第一特征提取子层与第二特征提取子层的输出之和；第3个第三特征提取层的输出结果为其包含的第二特征提取子层的输出结果。

在本实施例中，对第一特征提取子层或第二特征提取子层的网络结构不做限制。进一步可选的，为了提高特征提取的准确度，第一特征提取子层或第二特征提取子层均包括依次连接的卷积层、批量规范化层和激活层。

进一步可选的，为了提高特征提取的准确度，后面至少一个第一特征提取子层中的卷积层的步长大于前面至少一个第一特征提取子层中的卷积层的步长。

在本实施例中，第三特征提取层的数量不做限制，例如，第三特征提取层为4个。第2个第三特征提取层中第一特征提取子层中的卷积层的步长大于第1个第三特征提取层中第一特征提取子层中的卷积层的步长，实现上采样；第3个第三特征提取层中第一特征提取子层中的卷积层的步长大于第2个第三特征提取层中第一特征提取子层中的卷积层的步长，实现上采样。依次类推，后面至少一个第一特征提取子层中的卷积层的步长大于前面至少一个第一特征提取子层中的卷积层的步长。

103、对待修复图像、参考图像和音频信号的初始特征进行融合处理，以得到目标融合特征。

在本实施例中，对待修复图像、参考图像和音频信号的初始特征进行融合处理得到的目标融合特征可以同时反映待修复的嘴部区域的位置、样式和嘴部形态，据此可以对待修复图像中的嘴部区域进行修复，得到嘴部动作与发出该音频信号适配的动作图像。在本实施例中，对融合处理方式不做限制。进一步可选的，为了提高融合效果，参见图2a，生成网络除了包括第一图像编码器、第二图像编码器和音频特征编码器，还可以包括第一特征融合模块和第二特征融合模块。基于此，对待修复图像、参考图像和音频信号的初始特征进行融合处理，以得到目标融合特征的可选实现方式为：将待修复图像和参考图像各自的初始特征输入生成网络中的第一特征融合模块进行图像特征融合，以得到图像融合特征；将图像融合特征、音频信号的初始特征和参考图像的初始特征输入生成网络中的第二特征融合模块进行音频特征和图像特征的融合，以得到目标融合特征。

在本实施例中，对第一特征融合模块的网络结构不做限制。进一步可选的，为了更好的融合效果，参见图2e，第一特征融合模块包括第一通道拼接子模块、多个第四特征提取层。基于此，将待修复图像和参考图像各自的初始特征输入生成网络中的第一特征融合模块进行图像特征融合，以得到图像融合特征的一种实现方式为：将待修复图像和参考图像各自的初始特征输入第一特征融合模块中的第一通道拼接子模块进行通道拼接，以得到第一拼接特征信息；将第一拼接特征信息经过第一特征融合模块中的多个第四特征提取层进行特征提取，以得到图像融合特征。

具体而言，第一通道拼接子模块是具有针对特征图（feature map）的通道拼接功能的网络模块。通道拼接功能将多个特征图在通道维度进行堆叠，以增加特征图的深度。假设特征图1记为[H，W，C1]，特征图2记为[H，W，C2]，特征图1和特征图2的特征图通道拼接结果为[H，W，C1+C2]，C1为特征图1的通道数，C2为特征图2的通道数，H为特征图的高度，W特征图的宽度。在本实施例中，待修复图像的初始特征和参考图像的初始特征呈现为特征图。

在本实施例中，对第四特征提取层的数量不做限制。参见图2e，将第一通道拼接子模块输出的第一拼接特征信息输入依次连接的多个第四特征提取层，第1个第四特征提取层的输入数据为第一拼接特征信息，上一个第四特征提取层的输出结果作为下一个第四特征提取层的输入数据，最后一个第四特征提取层输出图像融合特征。

在本实施例中，对第四特征提取层的网络结构不做限制。进一步可选的，参见图2e，为了提高特征提取的准确度，第四特征提取层包括依次连接的卷积层、批量规范化层和激活层。值得注意的是，多个第四特征提取层中全部或部分的第四特征提取层可以包括依次连接的卷积层、批量规范化层和激活层。

进一步可选的，为了提高特征提取的准确度，多个第四特征提取层分别包括依次连接的卷积层、批量规范化层和激活层，且多个卷积层包括具有不同步长的卷积层，且具有不同步长的卷积层交错出现。不同步长按需灵活设置，例如，不同步长分别第一步长和第二步长，第二步长小于第一步长，完成第一步长的下采样。例如，第一步长为1，第二步长为2等等。具体举例来说，第四特征提取层为4个，第1个第四特征提取层中的卷积层的步长为1，第2个第四特征提取层中的卷积层的步长为2，第3个第四特征提取层中的卷积层的步长为1，第4个第四特征提取层中的卷积层的步长为2。

卷积层的卷积核的Size（大小）感受野的大小，卷积核的步长度代表特征提取的精度，以卷积层的卷积核的Size（大小）为3为例，假如卷积层的步长为1，相邻步感受野之间就会有重复区域；卷积层的步长为2，那么相邻步感受野之间不会有重复区域，也不会有覆盖不到的地方。当卷积层的步长为1时，输出矩阵的大小会和输入矩阵的大小保持一致；而卷积层的步长为2时，由于跨步会导致输出矩阵的大小降低为输入矩阵的大小的一半。由此会产生一种类似“池化”的效果，利用这一特性可以代替池化层，完成某种程度上的特征降维同时减少计算量。本实施例具有不同步长的卷积层交错出现也能够完成某种程度上的特征降维同时减少计算量。

在本实施例中，对第二特征融合模块的网络结构不做限制。进一步可选的，为了更好的融合效果，参见图2f，第二特征融合模块包括第二通道拼接子模块、特征融合子模块、第一特征提取子模块。基于此，将图像融合特征、音频信号的初始特征和参考图像的初始特征输入生成网络中的第二特征融合模块进行音频特征和图像特征的融合，以得到目标融合特征的可选实现方式为：将图像融合特征和音频信号的初始特征输入第二特征融合模块中的第二通道拼接子模块进行通道拼接，以得到第二拼接特征信息；将第二拼接特征信息和参考图像的初始特征输入第二特征融合模块中的特征融合子模块，学习第二拼接特征信息中相对于参考图像的共享特征和相对于音频信号的特有特征并融合，以得到初始融合特征；将初始融合特征输入第二特征融合模块中的第一特征提取子模块进行特征提取，以得到目标融合特征。

在本实施例中，特征融合子模块可以是任意的具有特征融合的网络模块，进一步可选的，特征融合子模块是具有自适应特征融合功能的模块。特征融合子模块可以是深度融合网络，通过利用残差机制和门控机制进行任务到任务融合，自适应地学习共享知识和特定于任务的知识。

在本实施例中，特征融合子模块既能学习第二拼接特征信息中相对于参考图像的共享特征，又能学习第二拼接特征信息中相对于音频信号的特有特征，还能将学习到的共享特征和特有特征进行融合，得到初始融合特征。

实际应用中，可以直接将第二拼接特征信息和参考图像的初始特征输入第二特征融合模块中的特征融合子模块中。进一步可选的，为了更好地融合效果，参见图2f，第二特征融合模块还可以包括第二特征提取子模块。将第二拼接特征信息和参考图像的初始特征输入第二特征融合模块中的特征融合子模块，学习第二拼接特征信息中相对于参考图像的共享特征和相对于音频信号的特有特征并融合，以得到初始融合特征的可选实现方式为：将参考图像的初始特征输入第二特征融合模块中的第二特征提取子模块进行特征提取，以得到第一中间态特征；将第二拼接特征信息和第一中间态特征输入特征融合子模块，学习第二拼接特征信息中相对于参考图像的共享特征和相对于音频信号的特有特征并融合，以得到初始融合特征。

在本实施例中，对第二特征提取子模块的网络结构不做限制。进一步可选的，参见图2f，为了提高融合效果，第二特征提取子模块可以包括至少一个第六特征提取层。若第二特征提取子模块包括多个依次连接的第六特征提取层，上一个第六特征提取层的输出结果是下一个第六特征提取层的输出结果；优先的，若第二特征提取子模块包括多个依次连接的第六特征提取层，针对多个第六特征提取层中的任意第六特征提取层，将该第六特征提取层的上一个第六特征提取层的输出结果和该第六特征提取层的上两个第六特征提取层的输出结果进行相加，相加结果作为第六特征提取层的输入数据，也即第六特征提取层的输入为前两个第六特征提取层的输出之和。另外，针对第1个第六特征提取层，可以将输入第1个第六特征提取层的输入数据看做是第1个第六特征提取层的前两个第六特征提取层的输出之和；针对第2个第六特征提取层，可以将输入第1个第六特征提取层的输入数据和第1个第六特征提取层的输出结果看做是第2个第六特征提取层的前两个第六特征提取层的输出之和。

在本实施例中，将初始融合特征输入第二特征融合模块中的第一特征提取子模块进行特征提取，以得到目标融合特征。在本实施例中，对第二特征提取子模块的网络结构不做限制。进一步可选的，参见图2f，为了提高融合效果，第一特征提取子模块包括至少一个第五特征提取层。若第一特征提取子模块包括多个依次连接的第五特征提取层，上一个第五特征提取层的输出结果是下一个第五特征提取层的输出结果；优先的，若第一特征提取子模块包括多个依次连接的第五特征提取层，针对多个第五特征提取层中的任意第五特征提取层，将该第五特征提取层的上一个第五特征提取层的输出结果和该第五特征提取层的上两个第六特征提取层的输出结果进行相加，相加结果作为该第五特征提取层的输入数据，也即第五特征提取层的输入为前两个第五特征提取层的输出之和。另外，针对第1个第五特征提取层，可以将输入第1个第五特征提取层的输入数据看做是第1个第五特征提取层的前两个第五特征提取层的输出之和；针对第2个第五特征提取层，可以将输入第1个第五特征提取层的输入数据和第1个第五特征提取层的输出结果看做是第2个第五特征提取层的前两个第五特征提取层的输出之和。

在本实施例中，对第五特征提取层或第六特征提取层的网络结构不做限制。优先的，参见图2f，第五特征提取层或第六特征提取层分别包括依次连接的卷积层、批量规范化层和激活层。

104、根据目标融合特征对待修复图像中的嘴部区域进行修复，以得到嘴部动作与音频信号匹配的动作图像。

在本实施例中，对修复的方式不做限制，可以采用任意的具有修复方式功能的网络模型进行修复。进一步可选的，为了更加准确进行嘴部动作修复，利用生成对抗网络中生成网络中的解码器进行修复。参见图2a，生成对抗网络中的生成网络还包括解码器，则根据目标融合特征对待修复图像中的嘴部区域进行修复，以得到嘴部动作与音频信号匹配的动作图像的实现方式为：将目标融合特征和待修复图像的初始特征输入生成网络中的解码器，对待修复图像中的嘴部区域进行修复，以得到嘴部动作与音频信号匹配的动作图像。

在本实施例中，对解码器的网络结构不做限制。进一步可选的，为了更加准确进行嘴部动作修复，参见图2g，生成网络中的解码器包括第三通道拼接子模块、第三特征提取子模块和图像预测子模块。基于此，将目标融合特征和待修复图像的初始特征输入生成网络中的解码器，对待修复图像中的嘴部区域进行修复，以得到嘴部动作与音频信号匹配的动作图像的一种实现方式为：将目标融合特征和待修复图像的初始特征输入解码器中的第三通道拼接子模块进行通道拼接，以得到第三拼接特征信息；将第三拼接特征信息输入解码器中的第三特征提取子模块进行特征提取，以得到第二中间态特征；将第二中间态特征输入解码器中的图像预测子模块进行图像预测，以得到动作图像。

在本实施例中，对第三特征提取子模块的网络结构不做限制。进一步可选的，参见图2 g，为了更加准确进行嘴部动作修复，第三特征提取子模块可以包括至少一个第七特征提取层。若第三特征提取子模块包括多个依次连接的第七特征提取层，上一个第七特征提取层的输出结果是下一个第七特征提取层的输出结果；优先的，若第三特征提取子模块包括多个依次连接的第七特征提取层，针对多个第七特征提取层中的任意第七特征提取层，将该第七特征提取层的上一个第七特征提取层的输出结果和该第七特征提取层的上两个第七特征提取层的输出结果进行相加，相加结果作为第七特征提取层的输入数据，也即第七特征提取层的输入为前两个第七特征提取层的输出之和。另外，针对第1个第七特征提取层，可以将输入第1个第七特征提取层的输入数据看做是第1个第七特征提取层的前两个第七特征提取层的输出之和；针对第2个第七特征提取层，可以将输入第1个第七特征提取层的输入数据和第1个第七特征提取层的输出结果看做是第2个第七特征提取层的前两个第七特征提取层的输出之和。另外，在一些可选的实施例中，第三特征提取子模块中部分第七特征提取层的输出结果是其下一个第七特征提取层的输出结果，部分第七特征提取层的输入为前两个第七特征提取层的输出之和，对此不做限制。

在本实施例中，对第七特征提取层的网络结构不做限制。进一步可选的，参见图2g，第七特征提取层包括依次连接的卷积层、批量规范化层和激活层。值得注意的是，多个第七特征提取层中全部或部分的第七特征提取层可以包括依次连接的卷积层、批量规范化层和激活层。进一步可选的，全部或部分的第七特征提取层中的卷积层可以采用双线性插值方式实现上采样。

在本实施例中，对图像预测子模块的网络结构不做限制。进一步可选的，参见图2g，为了更加准确进行嘴部动作修复，图像预测子模块可以包括至少一个第八特征提取层。若图像预测子模块包括多个依次连接的第八特征提取层，上一个第八特征提取层的输出结果是下一个第八特征提取层的输出结果；优先的，若图像预测子模块包括多个依次连接的第八特征提取层，针对多个第八特征提取层中的任意第八特征提取层，将该第八特征提取层的上一个第八特征提取层的输出结果和该第八特征提取层的上两个第八特征提取层的输出结果进行相加，相加结果作为第八特征提取层的输入数据，也即第八特征提取层的输入为前两个第八特征提取层的输出之和。另外，针对第1个第八特征提取层，可以将输入第1个第八特征提取层的输入数据看做是第1个第八特征提取层的前两个第八特征提取层的输出之和；针对第2个第八特征提取层，可以将输入第1个第八特征提取层的输入数据和第1个第八特征提取层的输出结果看做是第2个第八特征提取层的前两个第八特征提取层的输出之和。另外，在一些可选的实施例中，图像预测子模块中部分第八特征提取层的输出结果是其下一个第八特征提取层的输出结果，部分第八特征提取层的输入为前两个第八特征提取层的输出之和，对此不做限制。

在本实施例中，对第八特征提取层的网络结构不做限制。进一步可选的，参见图2g，第八特征提取层包括依次连接的卷积层、批量规范化层和激活层。值得注意的是，多个第八特征提取层中全部或部分的第八特征提取层可以包括依次连接的卷积层、批量规范化层和激活层。进一步可选的，全部或部分的第八特征提取层中的卷积层可以采用双线性插值方式实现上采样。

本申请实施例提供的动作图像生成方法，首先，对包括用户的参考图像、需要修复嘴部区域的待修复图像和音频信号分别进行特征提取，接着对提取的特征融合处理，得到融合特征；最后，基于融合特征对待修复图像中用户的嘴部区域进行修复，以得到嘴部动作与音频信号匹配的动作图像。由此，提供一种2D虚拟数字人的动作图像生成方式，对2D图像中用户的嘴部区域修复，实现准确匹配说话声音和嘴型的能力，能够更加简单地实现2D虚拟数字人自由说话功能，且最大限度地保留了真人特征，让2D虚拟数字人在视觉效果上和真人无异，让2D虚拟数字人更加真实，使得和真人几乎一模一样的2D虚拟数字人成为可能。该2D虚拟数字人能够代替真人进行长时间（如24小时）不间断的直播和短视频出境拍摄任务，大大降低直播和短视频拍摄制作的成本。

在本实施例中，对生成对抗网络的训练方式不做限制。进一步可选的，为了提高生成对抗网络的性能，在训练生成对抗网络时，获取训练样本集，训练样本集包含待修复样本图像、样本参考图像（即原始样本图像）、标签图像以及样本音频信号，且待修复样本图像中的嘴部区域被作为待修复区域，可选地可以通过对嘴部区域进行遮挡处理，在本申请实施例中，以待修复图像中的嘴部区域被遮挡为例进行描述；根据训练样本集对初始生成对抗网络进行多阶段的模型训练，以得到生成对抗网络，生成对抗网络包括生成网络和判别网络；在任一阶段的模型训练中，计算生成网络的生成损失函数、判别网络的判别损失函数和生成网络输出的图像相对于标签图像的感知损失函数，并在生成损失函数、判别损失函数和感知损失函数满足预设条件时，结束该阶段的模型训练。

在本实施例中，准备原始样本图像，原本样本图像中包括用户。参见图2h，可以对原始样本图像中用户的嘴部区域进行遮挡，得到待修复样本图像。样本参考图像包括用户，样本参考图像的数量不做限制。样本音频信号包括用户的语音信号，标签图像中的用户的嘴部动作与样本音频信号匹配，呈现为样本音频信号驱动用户的口唇动作的效果，模拟真人说话。当然，也可以在原始样本图像中标记出嘴部区域，得到待修复样本图像，后续在模型训练过程中，将待修复样本图像以及将嘴部区域作为待修复区域的标记信息一并输入模型中，以便于在模型训练过程中能够将待修复样本图像中的嘴部区域识别为待修复区域。相应地，在后续模型推理过程中，可以将待修复图像以及将嘴部区域作为待修复区域的标记信息一并输入模型中，以便于在模型推理过程中能够将待修复图像中的嘴部区域识别为待修复区域。

在一次模型训练中，参见图2h，将待修复样本图像、样本参考图像以及样本音频信号输入生成网络，生成网络输出修复样本图像；将标签图像和修复样本图像输入判别网络，判别网络输出判别结果，判别结果表征修复样本图像属于标签图像的概率。

在本实施例中，生成损失函数表征原始样本图像和修复样本图像之间的差异信息，生成损失函数例如包括但不限于：负对数似然损失函数(Negative Log LikelihoodLoss，NLL Loss)、交叉熵损失函数、重构误差损失函数(Reconstruction Loss)等等。

在本实施例中，判别损失函数表征判别网络输出的判别结果和真实标签之间的差异信息，真实标签指示修复样本图像属于或不属于标签图像，真实标签例如为0，表征修复样本图像不属于标签图像；真实标签例如为1，表征修复样本图像属于标签图像。判别损失函数例如包括但不限于：负对数似然损失函数(Negative Log Likelihood Loss，NLLLoss)、交叉熵损失函数、最小二乘损失函数等等。

在本实施例中，感知损失函数表征标签图像和修复样本图像之间的差异信息，该差异信息可以反映图像之间的相似度。感知损失函数例如包括但不限于：负对数似然损失函数(Negative Log Likelihood Loss，NLL Loss)、交叉熵损失函数、最小二乘损失函数等等。

在本实施例中，预设条件按需灵活设置，对此不做限制。例如，对生成损失函数、判别损失函数和感知损失函数进行加权求和、求均值、累加等各种运算，得到总损失函数，若总损失函数小于或等于预设的损失值，认为满足预设条件，若总损失函数大于预设的损失值，认为不满足预设条件。又例如，生成损失函数、判别损失函数和感知损失函数分别小于或等于各自对应的预设的损失值，认为满足预设条件；若有一个损失函数大于对应的预设的损失值，认为不满足预设条件。又例如，生成损失函数、判别损失函数和感知损失函数分别小于或等于各自对应的预设的损失值，且总损失函数小于或等于预设的损失值认为满足预设条件；若有一个损失函数大于对应的预设的损失值，或总损失函数大于预设的损失值认为不满足预设条件。

进一步可选的，为了提高生成对抗网络的性能，根据训练样本集对初始生成对抗网络进行多阶段的模型训练，以得到生成对抗网络时，可以对训练样本集中的待修复样本图像、样本参考图像和标签图像进行分辨率下采样，以得到图像分辨率与当前训练阶段适配的训练样本；根据图像分辨率与当前训练阶段适配的训练样本对当前生成对抗网络进行多轮次模型训练，直至生成损失函数、判别损失函数和感知损失函数满足预设条件时，结束当前阶段的模型训练；其中，随着训练阶段的增加，图像分辨率逐渐增大。

在本实施例中，采用类似图像金字塔的机制控制各个训练阶段的图像分辨率。图像金字塔是一种将图像以多尺度形式组织的数据结构，常用于图像处理和计算机视觉任务。图像金字塔的每一层都是图像的一种分辨率，通常是从原始图像的高分辨率开始，逐步向下采样到更低的分辨率。另外，对生成对抗网络进行多阶段训练，也即整个训练过程分为多个训练阶段进行。图像金字塔和多阶段训练相结合，可以达到以下优势：

（1）提高尺度不变性：使用图像金字塔可以帮助网络更好地处理对象大小的变化，因为网络可以在多个尺度上学习特征。这在处理尺度变化明显的场景时尤为重要。

（2）提升计算效率：在图像金字塔的较低分辨率层次进行计算可以减少所需的计算资源，同时也可以快速捕捉大尺度结构信息。

（3）逐步精细化：在多阶段训练过程中，可以先使用较粗糙的特征进行粗略定位或分类，然后逐渐引入更精细的特征进行精细化处理，这有助于逐步提升网络性能。

（4）降低过拟合风险：多阶段训练可以逐步引入复杂性，从而有助于防止网络在训练初期过拟合复杂数据。

（5）灵活性和适应性：通过调整多阶段训练中的各个阶段，可以更灵活地适应不同的任务需求和数据特性。

（6）更好地学习层次化特征：图像金字塔可以让网络在不同层次上学习特征，并结合不同层次的信息，从而获得更为丰富和层次化的特征表达。

（7）逐步学习策略：在多阶段训练中，可以在初期阶段使用简单任务引导网络学习基础特征，然后逐步过渡到更复杂的任务。

（8）提高鲁棒性：通过在不同分辨率上训练网络，模型可以在某个尺度上的噪声或扰动下保持性能，提高其鲁棒性。

为了更好地理解本申请实施例的技术方案，下面介绍一具体生成对抗网络的训练过程。

训练步骤一：数据预处理模型准备

将wav2vec模型在中文语料数据集上进行微调。

训练步骤二：训练数据准备

（1）准备100段2-3分钟的不同人物正对镜头说话的视频。

（2）拍摄一段要制作虚拟数字人的真人正对镜头说话的视频，时长约20分钟。

（3）对总共101段视频进行抽帧、提取wav2vec音频特征、人脸关键点检测等操作。

具体而言，针对每段视频，从该视频中抽取若干各视频帧，并获取抽取的视频帧对应的音频信号，以及利用wav2vec模型提取音频信号的表征向量也即wav2vec音频特征，以及对抽取的视频帧进行人脸关键点检测。

（4）根据关键点的坐标，确定每个人物的人脸框以及人脸框的高宽比例R。

具体而言，人脸关键点检测结果包括视频帧中人物的各个关键点的坐标，通过关键点的坐标可以在视频帧中确定人物的人脸框，人脸框是指包围人物的脸部区域的检测框。人脸框的高宽比例R是指人脸框的宽度和高度之间的比例，可以按需灵活设置。

（5）基于人脸框对视频帧中的脸部区域进行裁剪，并对裁剪出的脸部图像进行分辨率调整，得到作为输入的参考图像。

具体而言，在裁剪时，根据视频帧中人脸框的宽度W和设定的高宽比例R，对视频帧中的脸部区域进行裁剪，裁剪出的脸部图像的宽度为W，高为W*R*1.1；将脸部图像的分辨率缩小到160 x 208，得到输入的参考图像。

（6）对参考图像进行嘴部区域的遮挡处理，得到作为输入的待修复图像。

具体而言，人脸关键点检测结果包括嘴巴区域的左上角顶点坐标和右下角顶点坐标，将左上角顶点坐标和右下角顶点坐标围住的方形区域中各像素点的像素值置为0，以完成嘴部区域的遮挡处理。

训练步骤三：启动训练

（1）第一阶段：将待修复图像和参考图像的分辨率缩小到40x52，训练200个epoch（轮次）；

（2）第二阶段：在第一阶段的模型的基础上继续训练，待修复图像和参考图像的分辨率为80x104，训练200个epoch；

（3）第三阶段：在第二阶段的模型的基础上继续训练，待修复图像和参考图像的分辨率为160x208，训练300个epoch。

在上述每个阶段中，训练对抗生成网络的过程可以理解为是对对抗生成网络中的第一图像编码器、第二图像编码器、音频编码器、第一特征融合模块、第二特征融合模块和解码器进行联合训练的过程。在该联合训练过程中，主要利用待修复样本图像对第一图像编码器进行训练，第一图像编码器主要用于提取待修复样本图像的特征，该特征至少反映待修复样本图像中待修复的嘴部区域的位置；主要利用样本参考图像对第二图像编码器进行训练，第二图像编码器主要用于提取样本参考图像的特征，该特征至少反映样本参考图像中嘴部区域的样式信息；主要利用样本音频信号对音频编码器进行训练，音频编码器主要用于提取样本音频信号的特征，该特征至少反映与样本音频信号适配的嘴部形态；三个编码器的输出经第一特征融合模块和第二特征融合模块进行特征融合，融合后的特征送入解码器进行修复样本图像；进而通过对修复样本图像进行生成损失函数、判别损失函数和感知损失函数的计算，不断对第一图像编码器、第二图像编码器、音频编码器、第一特征融合模块、第二特征融合模块和解码器的模型参数进行调整，不断促使第一图像编码器更加准确地从待修复样本图像中提取能够反映待修复区域位置的特征、第二图像编码器更加准确地从样本参考图像中提取能够反映待修复嘴部区域样式的特征，音频编码器更加准确地从本音频信号提取能够反映嘴部形态的特征，以及不断促使两个特征融合模块能够更加准确地进行特征融合，解码器能够更加准确地进行图像修复，最终得到满足训练要求的生成对抗网络，主要是指其中的生成网络。

下面介绍一具体生成对抗网络的测试或推理过程。

测试步骤一：输入数据准备

（1）从一个主播说话视频中抽取当前要驱动嘴型的头像图片，并通过关键点检测算法确定头像图片中的嘴部区域，并对嘴巴区域中各像素点的像素值设为0，以遮挡头像图片中的嘴部区域，得到待修复图像；

（2）获取待修复图像对应的声音信号；

（3）随机选择5帧头像图片作为参考图像。

测试步骤二：特征提取

分别将待修复图像、声音信号、5帧参考图像输入到生成对抗网络中，已由生成网络生成融合特征。

测试步骤三：解码器修复

将融合特征和待修复图像的初始特征输入生成网络的解码器中，通过解码器修补出和参考图像中嘴型相同且嘴型和当前输入声音准确匹配的头像图片。

测试步骤四：生成驱动视频

从一个主播说话视频中抽取连续的头像图片，每一帧头像图片都重复步骤一到三，再将这些修复后的头像图像拼接成新的驱动视频，创造出一个可以说任何话的2D虚拟数字人。2D虚拟数字人能够替代真人在直播带货和短视频中出镜，结合当前的文本理解问答技术，能够长时间不间断地进行商品讲解、新闻播报等任务，帮助降低直播和短视频拍摄的成本。

图3为本申请实施例提供的一种视频生成方法的流程图。参见图3，该方法可以包括以下步骤：

301、获取初始视频片段和音频片段，初始视频片段包括多个视频帧，音频片段包含与多个视频帧对应的多个音频信号。

302、从多个视频帧中，选择参考图像，并针对任一视频帧，将任一视频帧中的嘴部区域遮挡，以得到待修复图像；

303、采用动作图像生成方法对待修复图像中的嘴部区域进行修复，以得到任一视频帧对应的动作图像。

关于对待修复图像中的嘴部区域进行修复的方法可以参见前述实施例的相关介绍，在此不再赘述。

304、将多个视频帧对应的动作图像进行拼接，得到输出音频片段的目标视频片段。

本申请实施例提供的视频生成方法，针对视频片段中任意视频帧，可以对该视频帧的嘴部动作进行修复，在修复时，对包括用户的参考图像、需要修复嘴部区域的待修复图像和音频信号分别进行特征提取，接着对提取的特征融合处理，得到融合特征；基于融合特征对待修复图像中用户的嘴部区域进行修复，以得到嘴部动作与音频信号匹配的动作图像；最后，基于各个动作图像生成新的视频片段。由此，提供一种2D虚拟数字人的视频生成方式，对2D图像中用户的嘴部区域修复，实现准确匹配说话声音和嘴型的能力，能够更加简单地实现2D虚拟数字人自由说话功能，且最大限度地保留了真人特征，让2D虚拟数字人在视觉效果上和真人无异，让2D虚拟数字人更加真实，使得和真人几乎一模一样的2D虚拟数字人成为可能。该2D虚拟数字人能够代替真人进行24小时不间断的直播和短视频出境拍摄任务，大大降低直播和短视频拍摄制作的成本。

为了更好地理解本申请实施例的技术方案，下面结合图4介绍一场景实施例。

随着直播、短视频等新媒介的兴起，越来越多的人投身到直播带货、短视频拍摄等行业中。但是每个人的时间精力是有限的，无法做到24小时不间断地直播或者随时随地在短视频中出镜说话。以主播直播带货为例，参见图4中①所示，在主播说话时，利用摄像头对说话的主播进行视频采集，得到原始视频数据。参见图4中②所示，在主播介绍直播间时，采集主播介绍直播间是的语音信号。视频数据采集和语音信号采集可以同步，也可以异步，对此不做限制。针对同步的情况，可以单独利用语音采集器采集语音信号，还可以从视频数据中提取主播的语音信号，对此不做限制。另外，采集原始视频数据时，主播是否介绍直播间的内容不做限制，但是，作为驱动主播的嘴部动作的语音信号必须是主播介绍直播间时的语音信号。另外，原始视频数据和主播介绍直播间是的语音信号可以在直播前的任何时间准备好，在此不做限制。

参见图4中③所示，云端的直播平台基于生成对抗网络输出主播的2D虚拟数字人视频。也即基于生成对抗网络利用语音信号修复原始视频数据包括的视频帧中主播的嘴部动作，得到主播的2D虚拟数字人视频。参见图4中的④所示，直播平台将主播的2D虚拟数字人视频推送给观众端，观众端的直播间画面显示的是主播的2D虚拟数字人视频，播报的是主播真实的声音信号。对观众来说，观众难以察觉直播间中的是虚拟主播（也即主播的2D虚拟数字人），而以为是主播真人，主播真人和虚拟主播对观众来说真假难辨。2D虚拟数字人实现自由说话功能，且最大限度地保留了真人特征，让2D虚拟数字人在视觉效果上和真人无异。2D虚拟数字人能够替代真人在直播带货和短视频中出镜，可以24小时不间断地进行商品讲解、新闻播报等任务，帮助降低直播和短视频拍摄的成本。

值得注意的是，图2a、图2b、图2c、图2h中所示的包括脸部的图像可以是包括真人的脸部的图像，也可以是包括虚拟人物的脸部的图像，对此不做限制。

需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤101至步骤102的执行主体可以为设备A；又比如，步骤103和104的执行主体可以为设备A，步骤403的执行主体可以为设备B；等等。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如401、402等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

图5为本申请实施例提供的一种电子设备的结构示意图。如图5所示，该电子设备包括：存储器51和处理器52；

存储器51，用于存储计算机程序，并可被配置为存储其它各种数据以支持在计算平台上的操作。这些数据的示例包括用于在计算平台上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器51可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（Static Random-AccessMemory，SRAM），电可擦除可编程只读存储器（Electrically Erasable Programmable read only memory，EEPROM），可擦除可编程只读存储器（Erasable Programmable Read Only Memory，EPROM），可编程只读存储器（Programmable read-only memory，PROM），只读存储器（Read-Only Memory，ROM），磁存储器，快闪存储器，磁盘或光盘。

处理器52，与存储器51耦合，用于执行存储器51中的计算机程序，以用于：执行动作图像与视频生成方法中的步骤。

进一步可选的，如图5所示，该电子设备还包括：通信组件53、显示器54、电源组件55、音频组件56等其它组件。图5中仅示意性给出部分组件，并不意味着电子设备只包括图5所示组件。另外，图5中虚线框内的组件为可选组件，而非必选组件，具体可视电子设备的产品形态而定。本实施例的电子设备可以实现为台式电脑、笔记本电脑、智能手机或IOT（物联网，Internet of things）设备等终端设备，也可以是常规服务器、云服务器或服务器阵列等服务端设备。若本实施例的电子设备实现为台式电脑、笔记本电脑、智能手机等终端设备，可以包含图5中虚线框内的组件；若本实施例的电子设备实现为常规服务器、云服务器或服务器阵列等服务端设备，则可以不包含图5中虚线框内的组件。

关于处理器执行各动作的详细实施过程可参见前述方法实施例或设备实施例中的相关描述，在此不再赘述。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被执行时能够实现上述方法实施例中可由电子设备执行的各步骤。

上述存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（Static Random-Access Memory，SRAM），电可擦除可编程只读存储器（Electrically Erasable Programmable Read Only Memory，EEPROM），可擦除可编程只读存储器（Erasable Programmable Read Only Memory，EPROM），可编程只读存储器（Programmable Read-Only Memory，PROM），只读存储器（Read-Only Memory，ROM），磁存储器，快闪存储器，磁盘或光盘。

上述通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G/LTE、5G等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件还包括近场通信（Near Field Communication，NFC）模块，以促进短程通信。例如，在NFC模块可基于射频识别（Radio Frequency Identification，RFID）技术，红外数据协会（InfraredData Association，IrDA）技术，超宽带（Ultra Wide Band，UWB）技术，蓝牙（BlueTooth，BT）技术和其他技术来实现。

上述显示器包括屏幕，其屏幕可以包括液晶显示器（Liquid Crystal Display，LCD）和触摸面板（TouchPanel，TP）。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。

上述电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

上述音频组件，可被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风（Microphone，MIC），当音频组件所在设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质（包括但不限于磁盘存储器、只读光盘（Compact Disc Read-Only Memory，CD-ROM）、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器（Central ProcessingUnit，CPU）、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器（RandomAccess Memory，RAM）和/或非易失性内存等形式，如只读存储器（ROM）或闪存（flash RAM）。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存（Phase-change Random AccessMemory，PRAM）、静态随机存取存储器（SRAM）、动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）、其他类型的随机存取存储器（RAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、快闪记忆体或其他内存技术、只读光盘只读存储器（CD-ROM）、数字多功能光盘（Digital Video Disc，DVD）或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体（transitory media），如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种动作图像生成方法，其特征在于，包括：

确定待修复图像、参考图像和音频信号，所述待修复图像和所述参考图像包含同一目标用户，且所述待修复图像中的嘴部区域为待修复区域；

对所述待修复图像、参考图像和音频信号分别进行特征提取，以得到所述待修复图像、参考图像和音频信号各自的初始特征，所述待修复图像、参考图像和音频信号的初始特征分别反映待修复的嘴部区域的图像位置、样式和动作形态；

对所述待修复图像、参考图像和音频信号的初始特征进行融合处理，以得到目标融合特征；

根据所述目标融合特征对所述待修复图像中的嘴部区域进行修复，以得到嘴部动作与所述音频信号匹配的动作图像。

2.根据权利要求1所述的方法，其特征在于，对所述待修复图像、参考图像和音频信号分别进行特征提取，以得到所述待修复图像、参考图像和音频信号各自的初始特征，包括：

将所述待修复图像、参考图像和音频信号分别输入生成对抗网络中的第一图像编码器、第二图像编码器和音频特征编码器进行特征提取，以得到所述待修复图像、参考图像和音频信号各自的初始特征；

其中，所述第一图像编码器、第二图像编码器和音频编码器属于所述生成对抗网络中的生成网络，且所述生成网络采用编码器-解码器结构。

3.根据权利要求2所述的方法，其特征在于，将所述待修复图像输入生成对抗网络中的第一图像编码器进行特征提取，以得到所述待修复图像的初始特征，包括：

将所述待修复图像输入所述第一图像编码器，在所述第一图像编码器中经过多个第一特征提取层进行特征提取，以得到所述待修复图像的初始特征；

其中，所述多个第一特征提取层分别包括依次连接的卷积层、批量规范化层和激活层，且后面至少一个卷积层的步长大于前面至少一个卷积层的步长。

4.根据权利要求2所述的方法，其特征在于，将所述参考图像输入生成对抗网络中的第二图像编码器进行特征提取，以得到所述参考图像的初始特征，包括：

将所述参考图像输入所述第二图像编码器，在所述第二图像编码器中经过多个第二特征提取层进行特征提取，以得到所述参考图像的特征信息；

其中，所述多个第二特征提取层分别包括依次连接的卷积层、批量规范化层和激活层，且后面至少一个卷积层的步长大于前面至少一个卷积层的步长。

5.根据权利要求2所述的方法，其特征在于，还包括：将音频信号输入音频提取器进行向量化处理，得到所述音频信号的表征向量；

将所述音频信号输入生成对抗网络中的音频编码器进行特征提取，以得到所述音频信号的初始特征，包括：

将所述音频信号的表征向量输入所述音频编码器，在所述音频编码器中经过多个第三特征提取层进行特征提取，以得到所述音频信号的初始特征；

其中，所述多个第三特征提取层分别包括依次连接的第一特征提取子层和第二特征提取子层，且前面至少一个第三特征提取层的输出为其包含的第一特征提取子层与第二特征提取子层的输出之和，后面至少一个第三特征提取层的输出为其包含的第二特征提取子层的输出。

6.根据权利要求2所述的方法，其特征在于，对所述待修复图像、参考图像和音频信号的初始特征进行融合处理，以得到目标融合特征，包括：

将所述待修复图像和参考图像各自的初始特征输入所述生成网络中的第一特征融合模块进行图像特征融合，以得到图像融合特征；

将所述图像融合特征、所述音频信号的初始特征和所述参考图像的初始特征输入所述生成网络中的第二特征融合模块进行音频特征和图像特征的融合，以得到目标融合特征。

7.根据权利要求6所述的方法，其特征在于，将所述待修复图像和参考图像各自的初始特征输入所述生成网络中的第一特征融合模块进行图像特征融合，以得到图像融合特征，包括：

将所述待修复图像和参考图像各自的初始特征输入所述第一特征融合模块中的第一通道拼接子模块进行通道拼接，以得到第一拼接特征信息；

将所述第一拼接特征信息经过所述第一特征融合模块中的多个第四特征提取层进行特征提取，以得到所述图像融合特征；

其中，所述多个第四特征提取层分别包括依次连接的卷积层、批量规范化层和激活层，且多个卷积层包括具有不同步长的卷积层，且具有不同步长的卷积层交错出现。

8.根据权利要求6所述的方法，其特征在于，将所述图像融合特征、所述音频信号的初始特征和所述参考图像的初始特征输入所述生成网络中的第二特征融合模块进行音频特征和图像特征的融合，以得到目标融合特征，包括：

将所述图像融合特征和所述音频信号的初始特征输入所述第二特征融合模块中的第二通道拼接子模块进行通道拼接，以得到第二拼接特征信息；

将所述第二拼接特征信息和所述参考图像的初始特征输入所述第二特征融合模块中的特征融合子模块，学习所述第二拼接特征信息中相对于所述参考图像的共享特征和相对于所述音频信号的特有特征并融合，以得到初始融合特征；

将所述初始融合特征输入所述第二特征融合模块中的第一特征提取子模块进行特征提取，以得到所述目标融合特征。

9.根据权利要求8所述的方法，其特征在于，将所述第二拼接特征信息和所述参考图像的初始特征输入所述第二特征融合模块中的特征融合子模块，学习所述第二拼接特征信息中相对于所述参考图像的共享特征和相对于所述音频信号的特有特征并融合，以得到初始融合特征，包括：

将所述参考图像的初始特征输入所述第二特征融合模块中的第二特征提取子模块进行特征提取，以得到第一中间态特征；

将所述第二拼接特征信息和所述第一中间态特征输入所述特征融合子模块，学习所述第二拼接特征信息中相对于所述参考图像的共享特征和相对于所述音频信号的特有特征并融合，以得到初始融合特征。

10.根据权利要求9所述的方法，其特征在于，所述第一特征提取子模块分别包括至少一个第五特征提取层，所述第二特征提取子模块分别包括至少一个第六特征提取层；

其中，所述第五或第六特征提取层分别包括依次连接的卷积层、批量规范化层和激活层，且非首个第五或第六特征提取层的输入为前两个特征提取层的输出之和。

11.根据权利要求2-10任一项所述的方法，其特征在于，根据所述目标融合特征对所述待修复图像中的嘴部区域进行修复，以得到嘴部动作与所述音频信号匹配的动作图像，包括：

将所述目标融合特征和所述待修复图像的初始特征输入所述生成网络中的解码器，对所述待修复图像中的嘴部区域进行修复，以得到嘴部动作与所述音频信号匹配的动作图像。

12.根据权利要求11所述的方法，其特征在于，将所述目标融合特征和所述待修复图像的初始特征输入所述生成网络中的解码器，对所述待修复图像中的嘴部区域进行修复，以得到嘴部动作与所述音频信号匹配的动作图像，包括：

将所述目标融合特征和所述待修复图像的初始特征输入所述解码器中的第三通道拼接子模块进行通道拼接，以得到第三拼接特征信息；

将所述第三拼接特征信息输入所述解码器中的第三特征提取子模块进行特征提取，以得到第二中间态特征；

将所述第二中间态特征输入所述解码器中的图像预测子模块进行图像预测，以得到所述动作图像。

13.根据权利要求11所述的方法，其特征在于，还包括：

获取训练样本集，所述训练样本集包含待修复样本图像、样本参考图像、标签图像以及样本音频信号，且待修复样本图像中的嘴部区域为待修复区域；

根据所述训练样本集对初始生成对抗网络进行多阶段的模型训练，以得到所述生成对抗网络，所述生成对抗网络包括生成网络和判别网络；

在任一阶段的模型训练中，计算生成网络的生成损失函数、判别网络的判别损失函数和生成网络输出的图像相对于标签图像的感知损失函数，并在生成损失函数、判别损失函数和感知损失函数满足预设条件时，结束该阶段的模型训练。

14.根据权利要求13所述的方法，其特征在于，根据所述训练样本集对初始生成对抗网络进行多阶段的模型训练，以得到所述生成对抗网络，包括：

对所述训练样本集中的待修复样本图像、样本参考图像和标签图像进行分辨率下采样，以得到图像分辨率与当前训练阶段适配的训练样本；

根据图像分辨率与当前训练阶段适配的训练样本对当前生成对抗网络进行多轮次模型训练，直至生成损失函数、判别损失函数和感知损失函数满足预设条件时，结束当前阶段的模型训练；

其中，随着训练阶段的增加，图像分辨率逐渐增大。

15.一种视频生成方法，其特征在于，包括：

获取初始视频片段和音频片段，所述初始视频片段包括多个视频帧，所述音频片段包含与所述多个视频帧对应的多个音频信号；

从所述多个视频帧中，选择参考图像，并针对任一视频帧，将所述任一视频帧中的嘴部区域遮挡，以得到待修复图像；

采用权利要求1-14任一项所述的方法，对所述待修复图像中的嘴部区域进行修复，以得到所述任一视频帧对应的动作图像；

将所述多个视频帧对应的动作图像进行拼接，得到输出所述音频片段的目标视频片段。

16.一种电子设备，其特征在于，包括：存储器和处理器；所述存储器，用于存储计算机程序；所述处理器耦合至所述存储器，用于执行所述计算机程序以用于执行权利要求1-14以及权利要求15中任一项所述方法中的步骤。

17.一种存储有计算机程序的计算机存储介质，其特征在于，当所述计算机程序被处理器执行时，致使所述处理器能够实现权利要求1-14以及权利要求15中任一项所述方法中的步骤。