CN110677598B

CN110677598B - 视频生成方法、装置、电子设备和计算机存储介质

Info

Publication number: CN110677598B
Application number: CN201910883605.2A
Authority: CN
Inventors: 宋林森; 吴文岩; 钱晨; 赫然
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2022-04-12
Anticipated expiration: 2039-09-18
Also published as: WO2021052224A1; SG11202108498RA; KR20210140762A; JP2022526148A; US20210357625A1; CN110677598A

Abstract

本实施例公开了一种视频生成方法、装置、电子设备、计算机存储介质，该方法包括：从每帧人脸图像提取出人脸形状信息和头部姿势信息；根据每帧人脸图像对应的音频片段，得出人脸表情信息；根据人脸表情信息、人脸形状信息和头部姿势信息，得到每帧人脸图像的人脸关键点信息；根据人脸关键点信息，对预先获取的人脸图像进行补全处理，得到每帧生成图像；根据各帧生成图像，生成目标视频；在本公开实施例中，由于人脸关键点信息是考虑头部姿势信息的基础上得出的，因而，目标视频可以体现出头部姿势信息；而头部姿势信息是根据每帧人脸图像得出的，因此，本公开实施例可以使得目标视频符合关于头部姿势的实际需求。

Description

视频生成方法、装置、电子设备和计算机存储介质

技术领域

本公开涉及图像处理技术，尤其涉及一种视频生成方法、装置、电子设备和计算机存储介质。

背景技术

在相关技术中，说话人脸的生成是语音驱动人物以及视频生成任务中重要的研究方向；然而，相关的说话人脸生成方案并不能满足与头部姿势相关的实际需求。

发明内容

本公开实施例期望提供视频生成的技术方案。

本公开实施例提供了一种视频生成方法，所述方法包括：

获取多帧人脸图像和所述多帧人脸图像中每帧人脸图像对应的音频片段；

从所述每帧人脸图像提取出人脸形状信息和头部姿势信息；根据所述每帧人脸图像对应的音频片段，得出人脸表情信息；根据所述人脸表情信息、所述人脸形状信息和所述头部姿势信息，得到每帧人脸图像的人脸关键点信息；

根据所述每帧人脸图像的人脸关键点信息，对所述预先获取的人脸图像进行补全处理，得到每帧生成图像；

根据各帧生成图像，生成目标视频。

可选地，所述根据所述人脸表情信息、所述人脸形状信息和所述头部姿势信息，得到每帧人脸图像的人脸关键点信息，包括：

根据所述人脸表情信息和所述人脸形状信息，得出人脸点云数据；根据所述头部姿势信息，将所述人脸点云数据投影到二维图像，得到所述每帧人脸图像的人脸关键点信息。

可选地，所述根据所述每帧人脸图像对应的音频片段，得出人脸表情信息，包括：

提取所述音频片段的音频特征，消除所述音频特征的音色信息；根据消除所述音色信息后的音频特征，得出所述人脸表情信息。

可选地，所述消除所述音频特征的音色信息，包括：

通过对所述音频特征进行归一化处理，消除所述音频特征的音色信息。

可选地，所述根据各帧生成图像，生成目标视频，包括：

针对每帧生成图像，根据所述预先获取的人脸图像调整除人脸关键点外的其它区域图像，得到调整后的每帧生成图像；利用调整后的各帧生成图像组成目标视频。

可选地，所述方法还包括：对所述目标视频中的图像的说话相关部位的人脸关键点进行运动平滑处理，和/或，对所述目标视频中的图像进行消抖处理；其中，所述说话相关部位至少包括嘴部和下巴。

可选地，所述对所述目标视频中的图像的说话相关部位的人脸关键点进行运动平滑处理，包括：

在t大于或等于2，且在所述目标视频的第t帧图像的说话相关部位中心位置与所述目标视频的第t-1帧图像的说话相关部位中心位置的距离小于或等于设定距离阈值的情况下，根据所述目标视频的第t帧图像的说话相关部位的人脸关键点信息和所述目标视频的第t-1帧图像的说话相关部位的人脸关键点信息，得到所述目标视频的第t帧图像的说话相关部位的经运动平滑处理后的人脸关键点信息。

可选地，所述对所述目标视频中的图像进行消抖处理，包括：

在t大于或等于2的情况下，根据所述目标视频的第t-1帧图像至第t帧图像的光流、所述目标视频的经消抖处理后的第t-1帧图像、以及所述目标视频的第t帧图像和第t-1帧图像的说话相关部位中心位置的距离，对所述目标视频的第t帧图像进行消抖处理。

可选地，所述获取多帧人脸图像和所述多帧人脸图像中每帧人脸图像对应的音频片段，包括：

获取源视频数据，从所述源视频数据中分离出所述多帧人脸图像和包含语音的音频数据；确定每帧人脸图像对应的音频片段，所述每帧人脸图像对应的音频片段为所述音频数据的一部分。

可选地，所述从所述每帧人脸图像提取出人脸形状信息和头部姿势信息；根据所述每帧人脸图像对应的音频片段，得出人脸表情信息；根据所述人脸表情信息、所述人脸形状信息和所述头部姿势信息，得到每帧人脸图像的人脸关键点信息，包括：

将所述多帧人脸图像和所述每帧人脸图像对应的音频片段输入至预先训练的第一神经网络中；基于所述第一神经网络执行以下步骤：从所述每帧人脸图像提取出人脸形状信息和头部姿势信息；根据所述每帧人脸图像对应的音频片段，得出人脸表情信息；根据所述人脸表情信息、所述人脸形状信息和所述头部姿势信息，得到每帧人脸图像的人脸关键点信息。

可选地，所述第一神经网络采用以下步骤训练完成：

获取多帧人脸样本图像和每帧人脸样本图像对应的音频样本片段；

将所述每帧人脸样本图像和所述每帧人脸样本图像对应的音频样本片段输入至未经训练的第一神经网络中，得到每帧人脸样本图像的预测人脸表情信息和预测人脸关键点信息；

根据所述第一神经网络的损失，调整所述第一神经网络的网络参数；所述第一神经网络的损失包括表情损失和/或人脸关键点损失，所述表情损失用于表示所述预测人脸表情信息和人脸表情标记结果的差异，所述人脸关键点损失用于表示所述预测人脸关键点信息和人脸关键点标记结果的差异；

重复执行上述步骤，直至第一神经网络的损失满足第一预定条件，得到训练完成的第一神经网络。

可选地，所述根据所述每帧人脸图像的人脸关键点信息，对所述预先获取的人脸图像进行补全处理，得到每帧生成图像，包括：

将所述每帧人脸图像的人脸关键点信息和预先获取的人脸图像输入至预先训练的第二神经网络中；基于所述第二神经网络执行以下步骤：根据所述每帧人脸图像的人脸关键点信息，对所述预先获取的人脸图像进行补全处理，得到每帧生成图像。

可选地，所述第二神经网络采用以下步骤训练完成：

向预先获取不带遮挡部分的样本人脸图像添加掩膜，获取到带遮挡部分的人脸图像；将预先获取的样本人脸关键点信息和所述带遮挡部分的人脸图像输入至未经训练的第二神经网络中；基于所述第二神经网络执行以下步骤：根据所述样本人脸关键点信息，对所述预先获取的带遮挡部分的人脸图像进行遮挡部分的补全处理，得到生成图像；

对所述样本人脸图像进行鉴别，得到第一鉴别结果；对所述生成图像进行鉴别，得到第二鉴别结果；

根据所述第二神经网络的损失，调整所述第二神经网络的网络参数，所述第二神经网络的损失包括对抗损失，所述对抗损失是根据所述第一鉴别结果和所述第二鉴别结果得出的；

重复执行上述步骤，直至第二神经网络的损失满足第二预定条件，得到训练完成的第二神经网络。

可选地，所述第二神经网络的损失还包括以下至少一种损失：像素重建损失、感知损失、伪影损失、梯度惩罚损失；所述像素重建损失用于表征样本人脸图像和生成图像的差异，所述感知损失用于表征样本人脸图像和生成图像在不同尺度的差异之和；所述伪影损失用于表征生成图像的尖峰伪影，所述梯度惩罚损失用于限制第二神经网络的更新梯度。

本公开实施例还提供了一种视频生成装置，所述装置包括第一处理模块、第二处理模块、第三处理模块和生成模块；其中，

第一处理模块，用于获取多帧人脸图像和所述多帧人脸图像中每帧人脸图像对应的音频片段；

第二处理模块，用于从所述每帧人脸图像提取出人脸形状信息和头部姿势信息；根据所述每帧人脸图像对应的音频片段，得出人脸表情信息；根据所述人脸表情信息、所述人脸形状信息和所述头部姿势信息，得到每帧人脸图像的人脸关键点信息；根据所述每帧人脸图像的人脸关键点信息，对所述预先获取的人脸图像进行补全处理，得到每帧生成图像；

生成模块，用于根据各帧生成图像，生成目标视频。

可选地，所述第二处理模块，用于根据所述人脸表情信息和所述人脸形状信息，得出人脸点云数据；根据所述头部姿势信息，将所述人脸点云数据投影到二维图像，得到所述每帧人脸图像的人脸关键点信息。

可选地，所述第二处理模块，用于提取所述音频片段的音频特征，消除所述音频特征的音色信息；根据消除所述音色信息后的音频特征，得出所述人脸表情信息。

可选地，所述第二处理模块，用于通过对所述音频特征进行归一化处理，消除所述音频特征的音色信息。

可选地，所述生成模块，用于针对每帧生成图像，根据所述预先获取的人脸图像调整除人脸关键点外的其它区域图像，得到调整后的每帧生成图像；利用调整后的各帧生成图像组成目标视频。

可选地，所述装置还包括消抖模块，其中，

消抖模块，用于对所述目标视频中的图像的说话相关部位的人脸关键点进行运动平滑处理，和/或，对所述目标视频中的图像进行消抖处理；其中，所述说话相关部位至少包括嘴部和下巴。

可选地，所述消抖模块，用于在t大于或等于2，且在所述目标视频的第t帧图像的说话相关部位中心位置与所述目标视频的第t-1帧图像的说话相关部位中心位置的距离小于或等于设定距离阈值的情况下，根据所述目标视频的第t帧图像的说话相关部位的人脸关键点信息和所述目标视频的第t-1帧图像的说话相关部位的人脸关键点信息，得到所述目标视频的第t帧图像的说话相关部位的经运动平滑处理后的人脸关键点信息。

可选地，所述消抖模块，用于在t大于或等于2的情况下，根据所述目标视频的第t-1帧图像至第t帧图像的光流、所述目标视频的经消抖处理后的第t-1帧图像、以及所述目标视频的第t帧图像和第t-1帧图像的说话相关部位中心位置的距离，对所述目标视频的第t帧图像进行消抖处理。

可选地，所述第一处理模块，用于获取源视频数据，从所述源视频数据中分离出所述多帧人脸图像和包含语音的音频数据；确定每帧人脸图像对应的音频片段，所述每帧人脸图像对应的音频片段为所述音频数据的一部分。

可选地，所述第二处理模块，用于将所述多帧人脸图像和所述每帧人脸图像对应的音频片段输入至预先训练的第一神经网络中；基于所述第一神经网络执行以下步骤：从所述每帧人脸图像提取出人脸形状信息和头部姿势信息；根据所述每帧人脸图像对应的音频片段，得出人脸表情信息；根据所述人脸表情信息、所述人脸形状信息和所述头部姿势信息，得到每帧人脸图像的人脸关键点信息。

可选地，所述第一神经网络采用以下步骤训练完成：

可选地，所述第二处理模块，用于将所述每帧人脸图像的人脸关键点信息和预先获取的人脸图像输入至预先训练的第二神经网络中；基于所述第二神经网络执行以下步骤：根据所述每帧人脸图像的人脸关键点信息，对所述预先获取的人脸图像进行补全处理，得到每帧生成图像。

可选地，所述第二神经网络采用以下步骤训练完成：

本公开实施例还提出了一种电子设备，包括处理器和用于存储能够在处理器上运行的计算机程序的存储器；其中，

所述处理器用于运行所述计算机程序时，执行上述任意一种视频生成方法。

本公开实施例还提出了一种计算机存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任意一种视频生成方法。

本公开实施例提出的视频生成方法、装置、电子设备和计算机存储介质中，获取多帧人脸图像和所述多帧人脸图像中每帧人脸图像对应的音频片段；从所述每帧人脸图像提取出人脸形状信息和头部姿势信息；根据所述每帧人脸图像对应的音频片段，得出人脸表情信息；根据所述人脸表情信息、所述人脸形状信息和所述头部姿势信息，得到每帧人脸图像的人脸关键点信息；根据所述每帧人脸图像的人脸关键点信息，对所述预先获取的人脸图像进行补全处理，得到每帧生成图像；根据各帧生成图像，生成目标视频。如此，在本公开实施例中，由于人脸关键点信息是考虑头部姿势信息的基础上得出的，因而，根据人脸关键点信息生成的每帧生成图像可以体现出头部姿势信息，进而，目标视频可以体现出头部姿势信息；而头部姿势信息是根据每帧人脸图像得出的，每帧人脸图像可以根据与头部姿势相关的实际需求来获取，因此，本公开实施例可以根据符合关于头部姿势的实际需求的每帧人脸图像，生成相应的目标视频，使得生成目标视频符合关于头部姿势的实际需求。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1为本公开实施例的视频生成方法的流程图；

图2为本公开实施例的第一神经网络的架构的示意图；

图3为本公开实施例中得出每帧人脸图像的人脸关键点信息的实现过程的示意图；

图4为本公开实施例的第二神经网络的架构的示意图；

图5为本公开实施例的第一神经网络的训练方法的流程图；

图6为本公开实施例的第二神经网络的训练方法的流程图；

图7为本公开实施例的视频生成装置的组成结构示意图；

图8为本公开实施例的电子设备的结构示意图。

具体实施方式

以下结合附图及实施例，对本公开进行进一步详细说明。应当理解，此处所提供的实施例仅仅用以解释本公开，并不用于限定本公开。另外，以下所提供的实施例是用于实施本公开的部分实施例，而非提供实施本公开的全部实施例，在不冲突的情况下，本公开实施例记载的技术方案可以任意组合的方式实施。

需要说明的是，在本公开实施例中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的方法或者装置不仅包括所明确记载的要素，而且还包括没有明确列出的其他要素，或者是还包括为实施方法或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括该要素的方法或者装置中还存在另外的相关要素(例如方法中的步骤或者装置中的单元，例如的单元可以是部分电路、部分处理器、部分程序或软件等等)。

例如，本公开实施例提供的视频生成方法包含了一系列的步骤，但是本公开实施例提供的视频生成方法不限于所记载的步骤，同样地，本公开实施例提供的视频生成装置包括了一系列模块，但是本公开实施例提供的装置不限于包括所明确记载的模块，还可以包括为获取相关信息、或基于信息进行处理时所需要设置的模块。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

本公开实施例可以应用于终端和/或服务器组成的计算机系统中，并可以与众多其它通用或专用计算系统环境或配置一起操作。这里，终端可以是瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统，等等，服务器可以是服务器计算机系统小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

在本公开的一些实施例中，提出了一种视频生成方法，本公开实施例可以应用于人工智能、互联网、图片与视频识别等领域，示例性地，本公开实施例可以在人机交互、虚拟对话、虚拟客服等应用中实施。

图1为本公开实施例的视频生成方法的流程图，如图1所示，该流程可以包括：

步骤101：获取多帧人脸图像和所述多帧人脸图像中每帧人脸图像对应的音频片段。

在实际应用中，可以获取源视频数据，从源视频数据中分离出所述多帧人脸图像和包含语音的音频数据；确定每帧人脸图像对应的音频片段，每帧人脸图像对应的音频片段为所述音频数据的一部分。

这里，源视频数据的每帧图像包括人脸图像，源视频数据中音频数据包含说话者语音；本公开实施例中，并不对源视频数据的来源和格式进行限定。

本公开实施例中，每帧人脸图像对应的音频片段的时间段包含所述每帧人脸图像的时间点；在实际实施时，在源视频数据中分离出包含说话者语音的音频数据后，可以将包含语音的音频数据划分为多个音频片段，每个音频片段与一帧人脸图像相对应。

示例性地，可以从预先获取的源视频数据中分离出第1帧至第n帧人脸图像和包含语音的音频数据；将包含语音的音频数据划分为第1音频片段至第n音频片段，n为大于1的整数；在i依次取1至n的情况下，第i音频片段的时间段包含出现第i帧人脸图像的时间点。

步骤102：从每帧人脸图像提取出人脸形状信息和头部姿势信息；根据每帧人脸图像对应的音频片段，得出人脸表情信息；根据人脸表情信息、人脸形状信息和头部姿势信息，得到每帧人脸图像的人脸关键点信息。

在实际应用中，可以将多帧人脸图像和每帧人脸图像对应的音频片段输入至预先训练的第一神经网络中；基于第一神经网络执行以下步骤：从每帧人脸图像提取出人脸形状信息和头部姿势信息；根据每帧人脸图像对应的音频片段，得出人脸表情信息；根据人脸表情信息、人脸形状信息和头部姿势信息，得到每帧人脸图像的人脸关键点信息。

本公开实施例中，人脸形状信息可以表示人脸各个部位的形状和尺寸信息，例如，人脸形状信息可以表示嘴形、唇部厚度、眼睛大小等等；人脸形状信息与个人身份相关，可以理解地，与个人身份相关的人脸形状信息可以根据包含人脸的图像得出。在实际应用中，人脸形状信息可以是与人脸形状相关的参数。

头部姿势信息可以表示人脸朝向等信息，例如，头部姿势可以表示抬头、低头、人脸朝向左侧、人脸朝向右侧等；可以理解地，头部姿势信息可以根据包含人脸的图像得出。在实际应用中，头部姿势信息可以是与头部姿势相关的参数。

示例性地，人脸表情信息可以表示开心、悲伤、痛苦等表情，这里仅仅是对人脸表情信息进行了示例说明，本公开实施例中，人脸表情信息并不局限于上述记载的表情；人脸表情信息与面部动作相关，因而，在人说话的情况下，可以根据包含语音的音频信息，得到面部动作信息，进而得出人脸表情信息。在实际应用中，人脸表情信息可以是与人脸表情相关的参数。

对于从每帧人脸图像中提取出人脸形状信息和头部姿势信息的实现方式，示例性地，可以将每帧人脸图像输入至三维人脸形态学模型(3D Face Morphable Model，3DMM)，利用三维人脸形态学模型提取出每帧人脸图像的人脸形状信息和头部姿势信息。

对于根据每帧人脸图像对应的音频片段，得出人脸表情信息的实现方式，示例性地，可以提取上述音频片段的音频特征，然后，根据上述音频片段的音频特征，得出人脸表情信息。

本公开实施例中，并不对音频片段的音频特征种类进行限定，例如，音频片段的音频特征可以是梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)或其它频域特征。

下面通过图2对本公开实施例的第一神经网络的架构进行示例性说明，如图2所示，在第一神经网络的应用阶段，将源视频数据分离出多帧人脸图像和包含语音的音频数据，将包含语音的音频数据划分为多个音频片段，每个音频片段与一帧人脸图像相对应；针对每帧人脸图像，可以将每帧人脸图像输入至3DMM中，利用3DMM提取出每帧人脸图像的人脸形状信息和头部姿势信息；针对每帧人脸图像对应的音频片段，可以提取音频特征，然后将提取的音频特征通过音频归一化网络进行处理，以消除音频特征的音色信息；将消除音色信息后的音频特征通过映射网络进行处理后，得到人脸表情信息；图2中，将通过映射网络处理后得到的人脸表情信息记为人脸表情信息1；利用3DMM对人脸表情信息1、人脸形状信息和头部姿势信息进行处理，得到人脸关键点信息；图2中，将利用3DMM得到的人脸关键点信息记为人脸关键点信息1。

对于根据每帧人脸图像对应的音频片段，得出人脸表情信息的实现方式，示例性地，可以提取音频片段的音频特征，消除音频特征的音色信息；根据消除音色信息后的音频特征，得出人脸表情信息。

本公开实施例中，音色信息为与说话者身份相关的信息，而人脸表情与说话者身份无关，因而，在音频特征中消除与说话者身份相关的音色信息后，根据消除音色信息后的音频特征，可以更加准确地得出人脸表情信息。

对于消除所述音频特征的音色信息的实现方式，示例性地，可以对音频特征进行归一化处理，以消除所述音频特征的音色信息；在具体的示例中，可以基于特征空间的最大似然线性回归(feature-based Maximum Likelihood Linear Regression，fMLLR)方法，对音频特征进行归一化处理，以消除所述音频特征的音色信息。

本公开实施例中，基于fMLLR方法对音频特征进行归一化处理的过程可以用公式(1)进行说明。

其中，x表示进行归一化处理前的音频特征，x′表示经归一化处理后得到的消除音色信息的音频特征，W_i和b_i分别表示说话者的不同的特定归一化参数，W_i表示权重值，b_i表示偏置；

对于音频片段中的音频特征表示多个说话者语音的音频特征的情况，可以按照公式(2)，将

分解为若干子矩阵和单位矩阵的加权和。

其中，I表示单位矩阵，

表示第i个子矩阵，λ_i表示第i个子矩阵对应的权重系数，k表示说话者的个数，k可以是预先设置的参数。

在实际应用中，第一神经网络可以包括音频归一化网络，在音频归一化网络中，基于fMLLR方法，对音频特征进行归一化处理。

示例性地，音频归一化网络为浅层神经网络；在一个具体的示例中，参照图2，音频归一化网络可以至少包括长短期记忆(Long Short-Term Memory，LSTM)层和全连接(FullyConnected，FC)层，在将音频特征输入至LSTM层，经LSTM层和FC层依次处理后，可以得到偏置b_i、各个子矩阵和各个子矩阵对应的权重系数，进而可以根据公式(1)和(2)，可以得出经归一化处理后得到的消除音色信息的音频特征x′。

对于根据消除音色信息后的音频特征，得出人脸表情信息的实现方式，示例性地，参照图2，FC1和FC2表示两个FC层，LSTM表示一个多层的LSTM层，可以看出，针对消除音色信息后的音频特征，经FC1、多层的LSTM层和FC2依次处理后，可以得到人脸表情信息。

如图2所示，在第一神经网络的训练阶段，将样本视频数据分离出多帧人脸样本图像和包含语音的音频数据，将包含语音的音频数据划分为多个音频样本片段，每个音频样本片段与一帧人脸样本图像相对应；对于每帧人脸样本图像和每帧人脸样本图像对应的音频样本片段，执行第一神经网络的应用阶段的数据处理过程，可以得到预测人脸表情信息和预测人脸关键点信息，这里，可以将预测人脸表情信息记为人脸表情信息1，将预测人脸关键点信息记为人脸关键点信息1；同时，在第一神经网络的训练阶段，将每帧人脸样本图像输入至3DMM中，利用3DMM提取出每帧人脸样本图像的人脸表情信息，根据每帧人脸样本图像可以直接得到人脸关键点信息，图2中，将利用3DMM提取出的每帧人脸样本图像的人脸表情信息(即人脸表情标记结果)记为人脸表情信息2，根据每帧人脸样本图像直接得到的人脸关键点信息(即人脸关键点标记结果)记为人脸关键点信息2；在第一神经网络的训练阶段，可以根据人脸关键点信息1与人脸关键点信息2的差异，和/或，人脸表情信息1与人脸表情信息2的差异，计算第一神经网络的损失；根据第一神经网络的损失对第一神经网络进行训练，直至得到训练完成的第一神经网络。

对于根据人脸表情信息、人脸形状信息和头部姿势信息，得到每帧人脸图像的人脸关键点信息的实现方式，示例性地，可以根据人脸表情信息和人脸形状信息，得出人脸点云数据；根据头部姿势信息，将人脸点云数据投影到二维图像，得到每帧人脸图像的人脸关键点信息。

图3为本公开实施例中得出每帧人脸图像的人脸关键点信息的实现过程的示意图，图3中，人脸表情信息1、人脸表情信息2、人脸形状信息和头部姿势信息的含义与图2保持一致，可见，参照前述记载的内容，在第一神经网络的训练阶段和应用阶段，均需要获取人脸表情信息1、人脸形状信息和头部姿势信息；而人脸表情信息2仅需要在第一神经网络的训练阶段获取，无需在第一神经网络的应用阶段获取。

参照图3，在实际实施时，在将一帧人脸图像输入至3DMM后，可以利用3DMM提取出每帧人脸图像的人脸形状信息、头部姿态信息和人脸表情信息2，根据音频特征得出人脸表情信息1后，用人脸表情信息1替代人脸表情信息2，将人脸表情信息1和人脸形状信息输入至3DMM中，基于3DMM对人脸表情信息1和人脸形状信息进行处理，得到人脸点云数据；这里得到的人脸点云数据表示点云数据的集合，可选地，参照图3，人脸点云数据可以三维人脸网格(3D face mesh)的形式进行呈现。

本公开实施例中，将上述人脸表情信息1记为

将上述人脸表情信息2记为e，将上述头部姿势信息记为p，将上述人脸形状信息记为s，此时，得出每帧人脸图像的人脸关键点信息的过程可以通过公式(3)进行说明。

其中，

表示对人脸表情信息1和人脸形状信息进行处理并得到上述三维人脸网格的函数，M表示上述三维人脸网格；project(M,p)表示根据头部姿势信息，将三维人脸网格投影到二维图像的函数；

表示人脸图像的人脸关键点信息。

本公开实施例中，人脸关键点是对于图像中人脸五官与轮廓定位的标注,主要用来对人脸的关键位置，如脸廓、眉毛、眼睛、嘴唇进行定位。这里，每帧人脸图像的人脸关键点信息至少包括说话相关部位的人脸关键点信息，示例性地，说话相关部位可以至少包括嘴部和下巴。

可以看出，由于人脸关键点信息是考虑头部姿势信息的基础上得出的，因而，人脸关键点信息可以表征头部姿势信息，进而，后续根据人脸关键点信息得到的人脸图像可以体现出头部姿势信息。

进一步地，参照图3，还可以将每帧人脸图像的人脸关键点信息编码到热图中，这样可以利用热图表示每帧人脸图像的人脸关键点信息。

步骤103：根据每帧人脸图像的人脸关键点信息，对预先获取的人脸图像进行补全处理，得到每帧生成图像。

在实际应用中，可以将每帧人脸图像的人脸关键点信息和预先获取的人脸图像输入至预先训练的第二神经网络中；基于第二神经网络执行以下步骤：根据所述每帧人脸图像的人脸关键点信息，对预先获取的人脸图像进行补全处理，得到每帧生成图像。

在一个示例中，可以针对每帧人脸图像，预先获取不带遮挡部分的人脸图像，例如，对于从预先获取的源视频数据中分离出的第1帧至第n帧人脸图像，可以预先获取不带遮挡部分的第1帧人脸图像至第n帧人脸图像，在i依次取1至n的情况下，从预先获取的源视频数据中分离出的第i帧人脸图像与预先获取的不带遮挡部分的第i帧人脸图像对应；在具体实施时，可以根据每帧人脸图像的人脸关键点信息，对预先获取的不带遮挡的人脸图像进行人脸关键点部分的覆盖处理，得到每帧生成图像。

在另一个示例中，可以针对每帧人脸图像，预先获取带遮挡部分的人脸图像，例如，对于从预先获取的源视频数据中分离出的第1帧至第n帧人脸图像，可以预先获取带遮挡部分的第1帧人脸图像至第n帧人脸图像，在i依次取1至n的情况下，从预先获取的源视频数据中分离出的第i帧人脸图像与预先获取的带遮挡部分的第i帧人脸图像对应。带遮挡部分的人脸图像表示说话相关部位被遮挡的人脸图像。

本公开实施例中，对于将每帧人脸图像的人脸关键点信息和预先获取的带遮挡部分的人脸图像输入至预先训练的第二神经网络中的实现方式，示例性地，在从预先获取的源视频数据中分离出第1帧至第n帧人脸图像的情况下，令i依次取1至n，可以将第i帧人脸图像的人脸关键点信息和带遮挡部分的第i帧人脸图像输入至预先训练的第二神经网络中。

下面通过图4对本公开实施例的第二神经网络的架构进行示例性说明，如图4所示，在第二神经网络的应用阶段，可以预先获取至少一帧不带遮挡部分的待处理人脸图像，然后通过向每帧不带遮挡部分的待处理人脸图像添加掩膜，得到带遮挡部分的人脸图像；示例性地，待处理人脸图像可以是真实人脸图像、动画人脸图像或其他种类的人脸图像。

对于根据每帧人脸图像的人脸关键点信息，对所述预先获取的带遮挡部分的一帧人脸图像进行遮挡部分的补全处理的实现方式，示例性地，第二神经网络可以包括用于进行图像合成的补全网络(Inpainting Network)；在第二神经网络的应用阶段，可以将每帧人脸图像的人脸关键点信息和预先获取的带遮挡部分的人脸图像输入至补全网络中；在补全网络中，根据每帧人脸图像的人脸关键点信息，对所述预先获取的带遮挡部分的人脸图像进行遮挡部分的补全处理，得到每帧生成图像。

在实际应用中，参照图4，在将每帧人脸图像的人脸关键点信息编码到热图的情况下，可以将热图和和预先获取的带遮挡部分的人脸图像输入至补全网络中，利用补全网络根据热图对预先获取的带遮挡部分的人脸图像进行补全处理，得到生成图像；例如，补全网络可以是具有跳跃连接的神经网络。

本公开实施例中，利用补全网络进行图像补全处理的过程可以通过公式(4)进行说明。

其中，N表示预先获取的带遮挡部分的人脸图像，H为表示人脸关键点信息的热图，Ψ(N,H)表示对热图和预先获取的带遮挡部分的人脸图像进行补全处理的函数，

表示生成图像。

参照图4，在第二神经网络的训练阶段，可以获取不带遮挡部分的样本人脸图像；按照第二神经网络对待处理人脸图像的上述处理方式，针对样本人脸图像进行处理，得到对应的生成图像。

进一步地，参照图4，在第二神经网络的训练阶段，还需要将样本人脸图像和生成图像输入至鉴别器中，鉴别器用于确定样本人脸图像为真实图像的概率、以及用于确定生成图像为真实图像的概率；通过鉴别器的鉴别后，可以得到第一鉴别结果和第二鉴别结果，第一鉴别结果表示样本人脸图像为真实图像的概率，第二鉴别结果表示生成图像为真实图像的概率；然后，可以根据第二神经网络的损失，对第二神经网络进行训练，直至得到训练完成的第二神经网络。这里，第二神经网络的损失包括对抗损失，对抗损失是根据所述第一鉴别结果和所述第二鉴别结果得出的。

步骤104：根据各帧生成图像，生成目标视频。

对于步骤104的实现方式，在一个示例中，针对每帧生成图像，可以根据预先获取的人脸图像调整除人脸关键点外的其它区域图像，得到调整后的每帧生成图像；利用调整后的各帧生成图像组成目标视频；如此，本公开实施例中，可以使得调整后的每帧生成图像除人脸关键点外的其它区域图像与预先获取的待处理人脸图像更符合，调整后的每帧生成图像更加符合实际需求。

在实际应用中，可以在第二神经网络中执行以下步骤：针对每帧生成图像，根据所述预先获取的待处理人脸图像调整除人脸关键点外的其它区域图像，得到调整后的每帧生成图像。

示例性地，参照图4，在第二神经网络的应用阶段，可以采用拉普拉斯金字塔融合(Laplacian Pyramid Blending)对预先获取的不带遮挡部分的待处理人脸图像和生成图像进行图像融合，得到调整后的生成图像。

当然，在另一示例中，可以利用各帧生成图像直接组成目标视频，这样便于实现。

在实际应用中，步骤101至步骤104可以利用电子设备中的处理器实现，上述处理器可以为特定用途集成电路(Application Specific Integrated Circuit，ASIC)、数字信号处理器(Digital Signal Processor，DSP)、数字信号处理装置(Digital SignalProcessing Device，DSPD)、可编程逻辑装置(Programmable Logic Device，PLD)、FPGA、中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器中的至少一种。

可以看出，在本公开实施例中，由于人脸关键点信息是考虑头部姿势信息的基础上得出的，因而，根据人脸关键点信息得到的每帧生成图像可以体现出头部姿势信息，进而，目标视频可以体现出头部姿势信息；而头部姿势信息是根据每帧人脸图像得出的，每帧人脸图像可以根据与头部姿势相关的实际需求来获取，因此，本公开实施例可以根据符合关于头部姿势的实际需求的每帧人脸图像，生成相应的目标视频，使得生成目标视频符合关于头部姿势的实际需求。

进一步地，参照图4，在第二神经网络的应用阶段，还可以对目标视频执行以下至少一项操作：对目标视频中的图像的说话相关部位的人脸关键点进行运动平滑处理，和/或，对目标视频中的图像进行消抖处理；其中，所述说话相关部位至少包括嘴部和下巴。

可以理解的是，通过对目标视频中的图像的说话相关部位的人脸关键点进行运动平滑处理，可以减少目标视频中存在的说话相关部位的抖动，提升目标视频的展示效果；通过对目标视频中的图像进行消抖处理，可以目标视频中存在的图像闪烁，提升目标视频的展示效果。

对于对所述目标视频的图像的说话相关部位的人脸关键点进行运动平滑处理的实现方式，示例性地，可以在t大于或等于2，且在所述目标视频的第t帧图像的说话相关部位中心位置与所述目标视频的第t-1帧图像的说话相关部位中心位置的距离小于或等于设定距离阈值的情况下，根据所述目标视频的第t帧图像的说话相关部位的人脸关键点信息和所述目标视频的第t-1帧图像的说话相关部位的人脸关键点信息，得到所述目标视频的第t帧图像的说话相关部位的经运动平滑处理后的人脸关键点信息。

需要说明的是，在t大于或等于2，且在所述目标视频的第t帧图像的说话相关部位中心位置与所述目标视频的第t-1帧图像的说话相关部位中心位置的距离大于设定距离阈值的情况下，可以直接将所述目标视频的第t帧图像的说话相关部位的人脸关键点信息作为：目标视频的第t帧图像的说话相关部位的经运动平滑处理后的人脸关键点信息，也就是说，不对目标视频的第t帧图像的说话相关部位的人脸关键点信息进行运动平滑处理。

在一个具体的示例中，令l_t-1表示目标视频的第t-1帧图像的说话相关部位的人脸关键点信息，l_t表示目标视频的第t帧图像的说话相关部位的人脸关键点信息，d_th表示设定距离阈值，s表示设定的运动平滑处理的强度，l_t′表示目标视频的第t帧图像的说话相关部位的经运动平滑处理后的人脸关键点信息；c_t-1表示目标视频的第t-1帧图像的说话相关部位的中心位置，c_t表示目标视频的第t帧图像的说话相关部位的中心位置。

在||c_t-c_t-1||₂＞d_th的情况下，l_t′＝l_t。

在||c_t-c_t-1||₂≤d_th的情况下，l_t′＝αl_t-1+(1-α)l_t，其中，α＝exp(-s||c_t-c_t-1||₂)。

对于对目标视频的图像进行消抖处理的实现方式，示例性地，可以在t大于或等于2的情况下，根据目标视频的第t-1帧图像至第t帧图像的光流、目标视频的经消抖处理后的第t-1帧图像、以及目标视频的第t帧图像和第t-1帧图像的说话相关部位中心位置的距离，对所述目标视频的第t帧图像进行消抖处理。

在一个具体的示例中，对目标视频的第t帧图像进行消抖处理的过程可以用公式(5)进行说明。

其中，P_t表示目标视频的未经消抖处理的第t帧图像，O_t表示目标视频的经消抖处理的第t帧图像，O_t-1表示目标视频的经消抖处理的第t-1帧图像；F()表示傅里叶变换，f表示目标视频的视频帧率，d_t表示目标视频的第t帧图像和第t-1帧图像的说话相关部位中心位置的距离，warp(O_t-1)表示将从目标视频的第t-1帧图像至第t帧图像的光流作用于O_t-1后得出的图像。

本公开实施例的视频生成方法可以多种场景中，一种示例性的应用场景为：在终端上需要显示包含客服人员人脸图像的视频信息，每次接收输入信息或请求某种服务时，会要求播放客服人员的讲解视频；此时，可以根据本公开实施例的视频生成方法，对预先获取的多帧人脸图像和每帧人脸图像对应的音频片段进行处理，得到每帧人脸图像的人脸关键点信息；然后，可以根据每帧人脸图像的人脸关键点信息，对各帧客服人员人脸图像进行补全处理，得到每帧生成图像；进而在在后台合成客户人员说话的讲解视频。

需要说明的是，上述仅仅是对本公开实施例的应用场景进行了示例性说明，本公开实施例的应用场景并不局限于此。

图5为本公开实施例的第一神经网络的训练方法的流程图，如图5所示，该流程可以包括：

A1：获取多帧人脸样本图像和每帧人脸样本图像对应的音频样本片段。

在实际应用中，可以从样本视频数据中分离出多帧人脸样本图像和包含语音的音频样本数据；确定每帧人脸样本图像对应的音频样本片段，所述每帧人脸样本图像对应的音频样本片段为所述音频样本数据的一部分；

这里，样本视频数据的每帧图像包括人脸样本图像，样本视频数据中音频数据包含说话者语音；本公开实施例中，并不对样本视频数据的来源和格式进行限定。

本公开实施例中，从样本视频数据中分离出多帧人脸样本图像和包含语音的音频样本数据的实现方式，与从预先获取的源视频数据中分离出多帧人脸图像和包含语音的音频数据的实现方式相同，这里不再赘述。

A2：将每帧人脸样本图像和每帧人脸样本图像对应的音频样本片段输入至未经训练的第一神经网络中，得到每帧人脸样本图像的预测人脸表情信息和预测人脸关键点信息。

本公开实施例中，本步骤的实现方式已经在步骤102中作出说明，这里不再赘述。

A3：根据第一神经网络的损失，调整第一神经网络的网络参数。

这里，第一神经网络的损失包括表情损失和/或人脸关键点损失，表情损失用于表示预测人脸表情信息和人脸表情标记结果的差异，人脸关键点损失用于表示预测人脸关键点信息和人脸关键点标记结果的差异。

在实际实施时，可以从每帧人脸样本图像提取出人脸关键点标记结果，也可以将每帧人脸图像输入至3DMM中，将利用3DMM提取出的人脸表情信息作为人脸表情标记结果。

这里，表情损失和人脸关键点损失可以根据公式(6)计算得出。

其中，e表示人脸表情标记结果，

表示基于第一神经网络得到的预测人脸表情信息，L_exp表示表情损失，l表示人脸关键点标记结果，

表示基于第一神经网络得到的预测人脸关键点信息，L_ldmk表示人脸关键点损失，||·||₁表示取1范数。

参照图2，人脸关键点信息2表示人脸关键点标记结果，人脸表情信息2表示人脸表情标记结果，如此，根据人脸关键点信息1和人脸关键点信息2可以得出人脸关键点损失，根据人脸表情信息1和人脸表情信息2可以得出表情损失。

A4：判断网络参数调整后的第一神经网络的损失是否满足第一预定条件，如果不满足，则重复执行步骤A1至步骤A4；如果满足，则执行步骤A5。

可选地，第一预定条件可以是表情损失小于第一设定损失值、人脸关键点损失小于第二设定损失值、或表情损失与人脸关键点损失的加权和小于第三设定损失值。本公开实施例中，第一设定损失值、第二设定损失值和第三设定损失值均可以按照实际需求预先设置。

这里，表情损失与人脸关键点损失的加权和L₁可以通过公式(7)进行表示。

L₁＝α₁L_exp+α₂L_ldmk (7)

其中，α₁表示表情损失的权重系数，α₂表示人脸关键点损失的权重系数，α₁和α₂均可以根据实际需求进行经验性设置。

A5：将网络参数调整后的第一神经网络作为训练完成的第一神经网络。

在实际应用中，步骤A1至步骤A5可以利用电子设备中的处理器实现，上述处理器可以为ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。

可以看出，在第一神经网络的训练过程中，由于预测人脸关键点信息是考虑头部姿势信息的基础上得出的，而头部姿势信息是根据源视频数据中的人脸图像得出的，源视频数据可以根据关于头部姿势的实际需求得出，因此，可以使训练完成的第一神经网络能够更好地根据符合关于头部姿势的实际需求的源视频数据，生成相应的人脸关键点信息。

图6为本公开实施例的第二神经网络的训练方法的流程图，如图6所示，该流程可以包括：

B1：向预先获取不带遮挡部分的样本人脸图像添加掩膜，获取到带遮挡部分的人脸图像；将预先获取的样本人脸关键点信息和所述带遮挡部分的人脸图像输入至未经训练的第二神经网络中；基于所述第二神经网络执行以下步骤：根据所述样本人脸关键点信息，对所述预先获取的带遮挡部分的人脸图像进行遮挡部分的补全处理，得到生成图像；

本步骤的实现方式已经在步骤103中作出说明，这里不再赘述。

B2：对样本人脸图像进行鉴别，得到第一鉴别结果；对生成图像进行鉴别，得到第二鉴别结果。

B3：根据第二神经网络的损失，调整第二神经网络的网络参数。

这里，第二神经网络的损失包括对抗损失，对抗损失是根据所述第一鉴别结果和所述第二鉴别结果得出的。

这里，对抗损失可以根据公式(8)计算得出。

其中，L_adv表示对抗损失，

表示第二鉴别结果，F表示样本人脸图像，D(F)表示第一鉴别结果。

可选地，第二神经网络的损失还包括以下至少一种损失：像素重建损失、感知损失、伪影损失、梯度惩罚损失；其中，像素重建损失用于表征样本人脸图像和生成图像的差异，感知损失用于表征样本人脸图像和生成图像在不同尺度的差异之和；伪影损失用于表征生成图像的尖峰伪影，梯度惩罚损失用于限制第二神经网络的更新梯度。

本公开实施例中，像素重建损失可以根据公式(9)计算得出。

L_recon＝||Ψ(N,H)-F||₁ (9)

其中，L_recon表示像素重建损失，||·||₁表示取1范数。

在实际应用中，可以将样本人脸图像输入至用于提取不同尺度图像特征的神经网络中，以提取出样本人脸图像在不同尺度的特征；可以将生成图像输入至用于提取不同尺度图像特

征的神经网络中，以提取出生成图像在不同尺度的特征；这里，可以用

表示生成图像在第i个尺度的特征，用feat_i(F)表示样本人脸图像在第i个尺度的特征，感知损失可以表示为L_vgg。

在一个示例中，用于提取不同尺度图像特征的神经网络为VGG16网络，可以将样本人脸图像或生成图像输入至VGG16网络中，以提取出样本人脸图像或生成图像在第1个尺度至第4个尺度的特征，这里可以使用relu1_2层、relu2_2层、relu3_3层和relu3_4层得出的特征分别作为样本人脸图像或生成图像在第1个尺度至第4个尺度的特征。此时，感知损失可以根据公式(10)计算得出。

B4：判断网络参数调整后的第二神经网络的损失是否满足第二预定条件，如果不满足，则重复执行步骤B1至步骤B4；如果满足，则执行步骤B5。

可选地，第二预定条件可以是对抗损失小于第四设定损失值。本公开实施例中，第四设定损失值可以按照实际需求预先设置。

可选地，第二预定条件还可以是对抗损失与以下至少一种损失的加权和小于第五设定损失值：像素重建损失、感知损失、伪影损失、梯度惩罚损失；本公开实施例中，第五设定损失值可以按照实际需求预先设置。

在一个具体的示例中，对抗损失、像素重建损失、感知损失、伪影损失以及梯度惩罚损失的加权和L₂可以根据公式(11)进行说明。

L₂＝β₁L_recon+β₂L_adv+β₃L_vgg+β₄L_tv+β₅L_gp (11)

其中，L_tv表示伪影损失，L_gp表示梯度惩罚损失，β₁表示像素重建损失的权重系数，β₂表示对抗损失的权重系数，β₃表示感知损失的权重系数，β₄表示伪影损失的权重系数，β₅表示梯度惩罚损失的权重系数；β₁、β₂、β₃、β₄和β₅均可以根据实际需求进行经验性设置。

B5：将网络参数调整后的第二神经网络作为训练完成的第二神经网络。

在实际应用中，步骤B1至步骤B5可以利用电子设备中的处理器实现，上述处理器可以为ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。

可以看出，在第二神经网络的训练过程中，可以根据鉴别器的鉴别结果来对神经网络的参数进行调整，有利于得到逼真的生成图像，即，可以使训练完成的第二神经网络能够得到更加逼真的生成图像。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定

在前述实施例提出的视频生成方法的基础上，本公开实施例提出了一种视频生成装置。

图7为本公开实施例的视频生成装置的组成结构示意图，如图7所示，所述装置包括：第一处理模块701、第二处理模块702和生成模块703；其中，

第一处理模块701，用于获取多帧人脸图像和所述多帧人脸图像中每帧人脸图像对应的音频片段；

第二处理模块702，用于从所述每帧人脸图像提取出人脸形状信息和头部姿势信息；根据所述每帧人脸图像对应的音频片段，得出人脸表情信息；根据所述人脸表情信息、所述人脸形状信息和所述头部姿势信息，得到每帧人脸图像的人脸关键点信息；根据所述每帧人脸图像的人脸关键点信息，对所述预先获取的人脸图像进行补全处理，得到每帧生成图像；

生成模块703，用于根据各帧生成图像，生成目标视频。

可选地，所述第二处理模块702，用于根据所述人脸表情信息和所述人脸形状信息，得出人脸点云数据；根据所述头部姿势信息，将所述人脸点云数据投影到二维图像，得到所述每帧人脸图像的人脸关键点信息。

可选地，所述第二处理模块702，用于提取所述音频片段的音频特征，消除所述音频特征的音色信息；根据消除所述音色信息后的音频特征，得出所述人脸表情信息。

可选地，所述第二处理模块702，用于通过对所述音频特征进行归一化处理，消除所述音频特征的音色信息。

可选地，所述生成模块703，用于针对每帧生成图像，根据所述预先获取的对应一帧人脸图像调整除人脸关键点外的其它区域图像，得到调整后的每帧生成图像；利用调整后的各帧生成图像组成目标视频。

可选地，参照图7，所述装置还包括消抖模块704，其中，消抖模块704，用于对所述目标视频中的图像的说话相关部位的人脸关键点进行运动平滑处理，和/或，对所述目标视频中的图像进行消抖处理；其中，所述说话相关部位至少包括嘴部和下巴。

可选地，所述消抖模块704，用于在t大于或等于2，且在所述目标视频的第t帧图像的说话相关部位中心位置与所述目标视频的第t-1帧图像的说话相关部位中心位置的距离小于或等于设定距离阈值的情况下，根据所述目标视频的第t帧图像的说话相关部位的人脸关键点信息和所述目标视频的第t-1帧图像的说话相关部位的人脸关键点信息，得到所述目标视频的第t帧图像的说话相关部位的经运动平滑处理后的人脸关键点信息。

可选地，所述消抖模块704，用于在t大于或等于2的情况下，根据所述目标视频的第t-1帧图像至第t帧图像的光流、所述目标视频的经消抖处理后的第t-1帧图像、以及所述目标视频的第t帧图像和第t-1帧图像的说话相关部位中心位置的距离，对所述目标视频的第t帧图像进行消抖处理。

可选地，所述第一处理模块701，用于获取源视频数据，从所述源视频数据中分离出所述多帧人脸图像和包含语音的音频数据；确定每帧人脸图像对应的音频片段，所述每帧人脸图像对应的音频片段为所述音频数据的一部分。

可选地，所述第二处理模块702，用于将所述多帧人脸图像和所述每帧人脸图像对应的音频片段输入至预先训练的第一神经网络中；基于所述第一神经网络执行以下步骤：从所述每帧人脸图像提取出人脸形状信息和头部姿势信息；根据所述每帧人脸图像对应的音频片段，得出人脸表情信息；根据所述人脸表情信息、所述人脸形状信息和所述头部姿势信息，得到每帧人脸图像的人脸关键点信息。

可选地，所述第一神经网络采用以下步骤训练完成：

可选地，所述第二处理模块702，用于将所述每帧人脸图像的人脸关键点信息和预先获取的人脸图像输入至预先训练的第二神经网络中；基于所述第二神经网络执行以下步骤：根据所述每帧人脸图像的人脸关键点信息，对所述预先获取的人脸图像进行补全处理，得到每帧生成图像。

可选地，所述第二神经网络采用以下步骤训练完成：

在实际应用中，第一处理模块701、第二处理模块702、生成模块703和消抖模块704均可以利用电子设备中的处理器实现，上述处理器可以为ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。

另外，在本实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时，可以存储在一个计算机可读取存储介质中，基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或processor(处理器)执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

具体来讲，本实施例中的一种视频生成方法对应的计算机程序指令可以被存储在光盘，硬盘，U盘等存储介质上，当存储介质中的与一种视频生成方法对应的计算机程序指令被一电子设备读取或被执行时，实现前述实施例的任意一种视频生成方法。

基于前述实施例相同的技术构思，参见图8，其示出了本公开实施例提供的一种电子设备80，可以包括：存储器81和处理器82；其中，

所述存储器81，用于存储计算机程序和数据；

所述处理器82，用于执行所述存储器中存储的计算机程序，以实现前述实施例的任意一种视频生成方法。

在实际应用中，上述存储器81可以是易失性存储器(volatile memory)，例如RAM；或者非易失性存储器(non-volatile memory)，例如ROM，快闪存储器(flash memory)，硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)；或者上述种类的存储器的组合，并向处理器82提供指令和数据。

上述处理器82可以为ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。可以理解地，对于不同的设备，用于实现上述处理器功能的电子器件还可以为其它，本公开实施例不作具体限定。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述

本申请所提供的各方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的各产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的各方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种视频生成方法，其特征在于，所述方法包括：

根据所述每帧人脸图像的人脸关键点信息，对从所述多帧人脸图像中预先获取的人脸图像进行补全处理，得到每帧生成图像；其中，所述预先获取的人脸图像，包括预先获取的带遮挡部分的人脸图像；

根据各帧生成图像，生成目标视频。

2.根据权利要求1所述的视频生成方法，其特征在于，所述根据所述人脸表情信息、所述人脸形状信息和所述头部姿势信息，得到每帧人脸图像的人脸关键点信息，包括：

3.根据权利要求1或2所述的视频生成方法，其特征在于，所述根据所述每帧人脸图像对应的音频片段，得出人脸表情信息，包括：

4.根据权利要求3所述的视频生成方法，其特征在于，所述消除所述音频特征的音色信息，包括：

5.根据权利要求1或2所述的视频生成方法，其特征在于，所述根据各帧生成图像，生成目标视频，包括：

6.根据权利要求1或2所述的视频生成方法，其特征在于，所述方法还包括：对所述目标视频中的图像的说话相关部位的人脸关键点进行运动平滑处理，和/或，对所述目标视频中的图像进行消抖处理；其中，所述说话相关部位至少包括嘴部和下巴。

7.根据权利要求6所述的视频生成方法，其特征在于，所述对所述目标视频中的图像的说话相关部位的人脸关键点进行运动平滑处理，包括：

8.根据权利要求6所述的视频生成方法，其特征在于，所述对所述目标视频中的图像进行消抖处理，包括：

9.根据权利要求1或2所述的视频生成方法，其特征在于，所述获取多帧人脸图像和所述多帧人脸图像中每帧人脸图像对应的音频片段，包括：

10.根据权利要求1或2所述的视频生成方法，其特征在于，所述从所述每帧人脸图像提取出人脸形状信息和头部姿势信息；根据所述每帧人脸图像对应的音频片段，得出人脸表情信息；根据所述人脸表情信息、所述人脸形状信息和所述头部姿势信息，得到每帧人脸图像的人脸关键点信息，包括：

11.根据权利要求10所述的视频生成方法，其特征在于，所述第一神经网络采用以下步骤训练完成：

12.根据权利要求1或2所述的视频生成方法，其特征在于，所述根据所述每帧人脸图像的人脸关键点信息，对从所述多帧人脸图像中预先获取的人脸图像进行补全处理，得到每帧生成图像，包括：

13.根据权利要求12所述的视频生成方法，其特征在于，所述第二神经网络采用以下步骤训练完成：

14.根据权利要求13所述的视频生成方法，其特征在于，所述第二神经网络的损失还包括以下至少一种损失：像素重建损失、感知损失、伪影损失、梯度惩罚损失；所述像素重建损失用于表征样本人脸图像和生成图像的差异，所述感知损失用于表征样本人脸图像和生成图像在不同尺度的差异之和；所述伪影损失用于表征生成图像的尖峰伪影，所述梯度惩罚损失用于限制第二神经网络的更新梯度。

15.一种视频生成装置，其特征在于，所述装置包括第一处理模块、第二处理模块、第三处理模块和生成模块；其中，

第二处理模块，用于从所述每帧人脸图像提取出人脸形状信息和头部姿势信息；根据所述每帧人脸图像对应的音频片段，得出人脸表情信息；根据所述人脸表情信息、所述人脸形状信息和所述头部姿势信息，得到每帧人脸图像的人脸关键点信息；根据所述每帧人脸图像的人脸关键点信息，对从所述多帧人脸图像中预先获取的人脸图像进行补全处理，得到每帧生成图像；其中，所述预先获取的人脸图像，包括预先获取的带遮挡部分的人脸图像；

生成模块，用于根据各帧生成图像，生成目标视频。

16.根据权利要求15所述的视频生成装置，其特征在于，所述第二处理模块，用于根据所述人脸表情信息和所述人脸形状信息，得出人脸点云数据；根据所述头部姿势信息，将所述人脸点云数据投影到二维图像，得到所述每帧人脸图像的人脸关键点信息。

17.根据权利要求15或16所述的视频生成装置，其特征在于，所述第二处理模块，用于提取所述音频片段的音频特征，消除所述音频特征的音色信息；根据消除所述音色信息后的音频特征，得出所述人脸表情信息。

18.根据权利要求17所述的视频生成装置，其特征在于，所述第二处理模块，用于通过对所述音频特征进行归一化处理，消除所述音频特征的音色信息。

19.根据权利要求15或16所述的视频生成装置，其特征在于，所述生成模块，用于针对每帧生成图像，根据所述预先获取的人脸图像调整除人脸关键点外的其它区域图像，得到调整后的每帧生成图像；利用调整后的各帧生成图像组成目标视频。

20.根据权利要求15或16所述的视频生成装置，其特征在于，所述装置还包括消抖模块，其中，

21.根据权利要求20所述的视频生成装置，其特征在于，所述消抖模块，用于在t大于或等于2，且在所述目标视频的第t帧图像的说话相关部位中心位置与所述目标视频的第t-1帧图像的说话相关部位中心位置的距离小于或等于设定距离阈值的情况下，根据所述目标视频的第t帧图像的说话相关部位的人脸关键点信息和所述目标视频的第t-1帧图像的说话相关部位的人脸关键点信息，得到所述目标视频的第t帧图像的说话相关部位的经运动平滑处理后的人脸关键点信息。

22.根据权利要求20所述的视频生成装置，其特征在于，所述消抖模块，用于在t大于或等于2的情况下，根据所述目标视频的第t-1帧图像至第t帧图像的光流、所述目标视频的经消抖处理后的第t-1帧图像、以及所述目标视频的第t帧图像和第t-1帧图像的说话相关部位中心位置的距离，对所述目标视频的第t帧图像进行消抖处理。

23.根据权利要求15或16所述的视频生成装置，其特征在于，所述第一处理模块，用于获取源视频数据，从所述源视频数据中分离出所述多帧人脸图像和包含语音的音频数据；确定每帧人脸图像对应的音频片段，所述每帧人脸图像对应的音频片段为所述音频数据的一部分。

24.根据权利要求15或16所述的视频生成装置，其特征在于，所述第二处理模块，用于将所述多帧人脸图像和所述每帧人脸图像对应的音频片段输入至预先训练的第一神经网络中；基于所述第一神经网络执行以下步骤：从所述每帧人脸图像提取出人脸形状信息和头部姿势信息；根据所述每帧人脸图像对应的音频片段，得出人脸表情信息；根据所述人脸表情信息、所述人脸形状信息和所述头部姿势信息，得到每帧人脸图像的人脸关键点信息。

25.根据权利要求24所述的视频生成装置，其特征在于，所述第一神经网络采用以下步骤训练完成：

26.根据权利要求15或16所述的视频生成装置，其特征在于，所述第二处理模块，用于将所述每帧人脸图像的人脸关键点信息和预先获取的人脸图像输入至预先训练的第二神经网络中；基于所述第二神经网络执行以下步骤：根据所述每帧人脸图像的人脸关键点信息，对所述预先获取的人脸图像进行补全处理，得到每帧生成图像。

27.根据权利要求26所述的视频生成装置，其特征在于，所述第二神经网络采用以下步骤训练完成：

28.根据权利要求27所述的视频生成装置，其特征在于，所述第二神经网络的损失还包括以下至少一种损失：像素重建损失、感知损失、伪影损失、梯度惩罚损失；所述像素重建损失用于表征样本人脸图像和生成图像的差异，所述感知损失用于表征样本人脸图像和生成图像在不同尺度的差异之和；所述伪影损失用于表征生成图像的尖峰伪影，所述梯度惩罚损失用于限制第二神经网络的更新梯度。

29.一种电子设备，其特征在于，包括处理器和用于存储能够在处理器上运行的计算机程序的存储器；其中，

所述处理器用于运行所述计算机程序时，执行权利要求1至14任一项所述的视频生成方法。

30.一种计算机存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至14任一项所述的视频生成方法。