CN110349081B

CN110349081B - 图像的生成方法、装置、存储介质和电子设备

Info

Publication number: CN110349081B
Application number: CN201910523643.7A
Authority: CN
Inventors: 胡欢; 刘兆祥; 廉士国
Original assignee: Cloudminds Beijing Technologies Co Ltd
Current assignee: Cloudminds Beijing Technologies Co Ltd
Priority date: 2019-06-17
Filing date: 2019-06-17
Publication date: 2023-04-07
Anticipated expiration: 2039-06-17
Also published as: CN110349081A

Abstract

本公开涉及一种图像的生成方法、装置、存储介质和电子设备，涉及图像处理技术领域，该方法包括：提取源图像中包括的源人物的初始人脸特征向量和初始人体关键点，根据初始人脸特征向量和预设的人脸生成网络，获取目标人物的目标人脸特征点，根据训练视频，将初始人体关键点转换为目标人物的目标人体关键点，训练视频为包括目标人物的视频，根据目标人脸特征点、目标人体关键点和预设的人体生成网络，获取包括目标人物的目标图像，目标图像中目标人物的特征与源图像中源人物的特征相同。能够根据源人物的人脸特征和人体特征，生成目标图像，使得目标图像中的目标人物与源人物的表情、姿态和动作相同，从而实现人物的完整替换。

Description

图像的生成方法、装置、存储介质和电子设备

技术领域

本公开涉及图像处理技术领域，具体地，涉及一种图像的生成方法、装置、存储介质和电子设备。

背景技术

随着计算机视觉和图像处理技术的不断发展，终端上能够实现多种图像处理的功能，以满足用户的各种社交和娱乐需求，尤其是人脸重演(英文：Face Reenactment)功能，越来越受到用户的关注。现有技术中，终端通常采用直接贴图的方式来实现人脸重演，无法准确替换人物的表情，容易导致交换的效果失真，并且只能交换人脸，无法实现整个人物的交换。

发明内容

本公开的目的是提供一种图像的生成方法、装置、存储介质和电子设备，用以解决现有技术中很难实现人物完整替换的问题。

为了实现上述目的，根据本公开实施例的第一方面，提供一种图像的生成方法，该方法包括：

提取源图像中包括的源人物的初始人脸特征向量和初始人体关键点，所述源图像为包括所述源人物的源视频中的任一帧图像；

根据所述初始人脸特征向量和预设的人脸生成网络，获取目标人物的目标人脸特征点；

根据训练视频，将所述初始人体关键点转换为所述目标人物的目标人体关键点，所述训练视频为包括所述目标人物的视频；

根据所述目标人脸特征点、所述目标人体关键点和预设的人体生成网络，获取包括所述目标人物的目标图像，所述目标图像中所述目标人物的特征与所述源图像中所述源人物的特征相同。

可选地，在所述根据所述初始人脸特征向量和预设的人脸生成网络，获取目标人物的目标人脸特征点之前，所述方法还包括：

根据所述训练视频对第一生成式对抗网络GAN进行训练，以使所述第一GAN中的生成器能够生成包括所述目标人物的人脸特征点的图像，并将训练后的所述第一GAN中的生成器作为所述人脸生成网络；

在所述根据所述目标人脸特征点、所述目标人体关键点和预设的人体生成网络，获取包括所述目标人物的目标图像之前，所述方法还包括：

根据所述训练视频对第二GAN进行训练，以使所述第二GAN中的生成器能够生成包括所述目标人物的图像，并将训练后的所述第二GAN中的生成器作为所述人体生成网络。

可选地，所述根据训练视频，将所述初始人体关键点转换为所述目标人物的目标人体关键点，包括：

根据所述初始人体关键点对应的坐标，确定第一关键点与第二关键点的初始距离，所述第一关键点为所述初始人体关键点中的任一关键点，所述第二关键点为所述初始人体关键点中除所述第一关键点之外的任一关键点；

提取所述训练视频中每一帧训练图像包括的所述目标人物的训练人体关键点；

根据每一帧所述训练图像包括的所述训练人体关键点对应的坐标，确定每一帧所述训练图像中第三关键点与第四关键点的训练距离，所述第三关键点为所述第一关键点对应在所述训练人体关键点中的关键点，所述第四关键点为所述第二关键点对应在所述训练人体关键点中的关键点；

确定多帧所述训练图像的所述训练距离的最大距离和最小距离；

根据所述初始距离、最大距离和最小距离，对所述初始人体关键点进行归一化，以得到所述目标人体关键点。

可选地，所述根据所述初始人脸特征向量和预设的人脸生成网络，获取目标人物的目标人脸特征点，包括：

获取第一转换图像，所述第一转换图像与所述源图像的大小相同，且所述第一转换图像不包括任何图像信息；

将所述初始人脸特征向量映射到所述第一转换图像中；

将所述第一转换图像作为所述人脸生成网络的输入，以获取所述人脸生成网络输出的包括所述目标人脸特征点的第二转换图像。

可选地，所述根据所述目标人脸特征点、所述目标人体关键点和预设的人体生成网络，获取包括所述目标人物的目标图像，包括：

根据所述目标人脸特征点和所述目标人体关键点的位置关系，将所述目标人体关键点映射到所述第二转换图像中；

将所述第二转换图像作为所述人体生成网络的输入，以获取所述人体生成网络输出的所述目标图像。

可选地，所述将所述第二转换图像作为所述人体生成网络的输入，以获取所述人体生成网络输出的所述目标图像，包括：

将所述第二转换图像与历史目标图像组合为第三转换图像，所述历史目标图像为，所述源视频中在所述源图像之前的至少一帧图像对应的目标图像；

将所述第三转换图像作为所述人体生成网络的输入，以获取所述人体生成网络输出的第四转换图像；

从所述第四转换图像中删除所述历史目标图像，以获取所述目标图像。

根据本公开实施例的第二方面，提供一种图像的生成装置，所述装置包括：

提取模块，用于提取源图像中包括的源人物的初始人脸特征向量和初始人体关键点，所述源图像为包括所述源人物的源视频中的任一帧图像；

第一获取模块，用于根据所述初始人脸特征向量和预设的人脸生成网络，获取目标人物的目标人脸特征点；

转换模块，用于根据训练视频，将所述初始人体关键点转换为所述目标人物的目标人体关键点，所述训练视频为包括所述目标人物的视频；

第二获取模块，用于根据所述目标人脸特征点、所述目标人体关键点和预设的人体生成网络，获取包括所述目标人物的目标图像，所述目标图像中所述目标人物的特征与所述源图像中所述源人物的特征相同。

可选地，所述装置还包括：

第一训练模块，用于在所述根据所述初始人脸特征向量和预设的人脸生成网络，获取目标人物的目标人脸特征点之前，根据所述训练视频对第一生成式对抗网络GAN进行训练，以使所述第一GAN中的生成器能够生成包括所述目标人物的人脸特征点的图像，并将训练后的所述第一GAN中的生成器作为所述人脸生成网络；

第二训练模块，用于在所述根据所述目标人脸特征点、所述目标人体关键点和预设的人体生成网络，获取包括所述目标人物的目标图像之前，根据所述训练视频对第二GAN进行训练，以使所述第二GAN中的生成器能够生成包括所述目标人物的图像，并将训练后的所述第二GAN中的生成器作为所述人体生成网络。

可选地，所述转换模块包括：

确定子模块，用于根据所述初始人体关键点对应的坐标，确定第一关键点与第二关键点的初始距离，所述第一关键点为所述初始人体关键点中的任一关键点，所述第二关键点为所述初始人体关键点中除所述第一关键点之外的任一关键点；

提取子模块，用于提取所述训练视频中每一帧训练图像包括的所述目标人物的训练人体关键点；

所述确定子模块，还用于根据每一帧所述训练图像包括的所述训练人体关键点对应的坐标，确定每一帧所述训练图像中第三关键点与第四关键点的训练距离，所述第三关键点为所述第一关键点对应在所述训练人体关键点中的关键点，所述第四关键点为所述第二关键点对应在所述训练人体关键点中的关键点；

所述确定子模块，还用于确定多帧所述训练图像的所述训练距离的最大距离和最小距离；

归一化子模块，用于根据所述初始距离、最大距离和最小距离，对所述初始人体关键点进行归一化，以得到所述目标人体关键点。

可选地，所述第一获取模块包括：

第一获取子模块，用于获取第一转换图像，所述第一转换图像与所述源图像的大小相同，且所述第一转换图像不包括任何图像信息；

第一映射子模块，用于将所述初始人脸特征向量映射到所述第一转换图像中；

所述第一获取子模块，还用于将所述第一转换图像作为所述人脸生成网络的输入，以获取所述人脸生成网络输出的包括所述目标人脸特征点的第二转换图像。

可选地，所述第二获取模块包括：

第二映射子模块，用于根据所述目标人脸特征点和所述目标人体关键点的位置关系，将所述目标人体关键点映射到所述第二转换图像中；

第二获取子模块，用于将所述第二转换图像作为所述人体生成网络的输入，以获取所述人体生成网络输出的所述目标图像。

可选地，所述第二获取子模块用于：

根据本公开实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面提供的图像的生成方法的步骤。

根据本公开实施例的第四方面，提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现第一方面提供的图像的生成方法的步骤。

通过上述技术方案，本公开首先提取包括了源人物的源图像中的初始人脸特征向量和初始人体关键点，其中源图像是包括了源人物的源视频中任一帧图像，之后根据初始人脸特征向量和预设的人脸生成网络，得到目标人物的目标人脸特征点，再根据包括目标人物的训练视频，将初始人体关键点转换为目标人物的目标人体关键点，最后根据目标人脸特征点、目标人体关键点和预设的人体生成网络，获取包括目标人物的目标图像，其中，目标图像中目标人物的特征与源图像中源人物的特征相同。能够根据源图像中源人物的人脸特征和人体特征，生成目标图像，使得目标图像中的目标人物与源人物的表情、姿态和动作相同，从而实现人物的完整替换。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例示出的一种图像的生成方法的流程图；

图2是根据一示例性实施例示出的另一种图像的生成方法的流程图；

图3是图1所示实施例示出的一种步骤103的流程图；

图4是图1所示实施例示出的一种步骤102的流程图；

图5是图4所示实施例示出的一种步骤104的流程图；

图6是根据一示例性实施例示出的一种图像的生成装置的框图；

图7是根据一示例性实施例示出的另一种图像的生成装置的框图；

图8是图6所示实施例示出的一种转换模块203的框图；

图9是图6所示实施例示出的一种第一获取模块202的框图；

图10是图9所示实施例示出的一种第二获取模块204的框图；

图11是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在介绍本公开提供的图像的生成方法、装置、存储介质和电子设备之前，首先对本公开各个实施例所涉及应用场景进行介绍。该应用场景中可以是给定包含有源人物的源图像和指定的目标人物，生成包含有目标人物的目标图像，且目标图像中的目标人物与源人物的表情、姿态和动作能够保持一致。

图1是根据一示例性实施例示出的一种图像的生成方法的流程图，如图1所示，该方法包括以下步骤：

步骤101，提取源图像中包括的源人物的初始人脸特征向量和初始人体关键点，源图像为包括源人物的源视频中的任一帧图像。

举例来说，首先获取包括了源人物的源视频，源视频中包括多帧图像，在多帧图像中选择任一帧图像作为源图像。之后按照预设的人脸识别算法(例如：Openface模型)提取源图像中包括的源人物的初始人脸特征向量，按照预设的人体识别算法(例如：Openpose模型、DeeperCut模型、Convolutional Pose Machines模型等)提取源图像中包括的源人物的初始人体关键点。其中，初始人脸特征向量能够反映源人物的人脸动作单元(英文：Facialaction units)和人脸姿态(英文：Facial pose)，可以理解为一个多维向量(例如1*20维的向量)，其中每一维能够反映源人物的情绪强度、面部肌肉的强度(即人脸动作单元)、或者源人物的人脸在三个方向上的角度(即人脸姿态)。其中，人体关键点(英文：BodyKeypoints)可以是人体指定部位在源图像中的坐标，关键点例如可以包括：源人物的眼睛、耳朵、鼻子、嘴角、脖子、肩膀、胸口、腹部中心、跨部中心、膝关节、脚、手肘、手等人体部位。

步骤102，根据初始人脸特征向量和预设的人脸生成网络，获取目标人物的目标人脸特征点。

示例的，可以预先根据包括了目标人物的训练视频训练人脸生成网络，以使人脸生成网络能够生成目标人物的人脸特征点(英文：Facial Landmark，缩写：FL)，人脸特征点可以理解为能够描述人脸轮廓、特征的多个特征点，例如：眼角、瞳孔、嘴巴、鼻子等。其中，人脸生成网络例如可以是预设的GAN(英文：Generative Adversarial Networks，中文：生成式对抗网络)。之后将源人物对应的初始人脸特征向量作为预设的人脸生成网络的输入，以获取与初始人脸特征向量对应的目标人物的目标人脸特征点。人脸生成网络能够将初始人脸特征向量映射到目标人物上，以使目标人脸特征点表示的人脸反映出的情绪强度、面部肌肉的强度和人脸姿态，与源人物在源图像中表现出的相同。相比于现有技术中直接将源图像中包括的源人物的人脸特征点作为人脸生成网络的输入，将初始人脸特征向量作为人脸生成网络的输入的可靠性更高，不需要进行归一化，因此生成的目标人脸特征点更加准确。

步骤103，根据训练视频，将初始人体关键点转换为目标人物的目标人体关键点，训练视频为包括目标人物的视频。

进一步的，由于每个人的骨骼大小不同，因此要实现人物的完整替换，还需要确定源人物的骨骼与目标人物的骨骼之间的转换关系，以保证转换后目标人物的动作不失真。可以先利用预设的人体识别算法提取训练视频的每一帧训练图像包含的目标人物的人体关键点，以确定目标人物的骨骼。之后可以先确定源人物的骨骼与目标人物的骨骼的比例关系，再将初始人体关键点按照该比例关系进行转换，以得到目标人物的目标人体关键点。也可以先确定源人物的骨骼对应的坐标系与目标人物的骨骼的对应的坐标系之间的转换矩阵，再利于转换矩阵将初始人体关键点转换为目标人体关键点。目标人体关键点反映的目标人物的动作，与源人物在源图像中表现出的动作相同。

步骤104，根据目标人脸特征点、目标人体关键点和预设的人体生成网络，获取包括目标人物的目标图像，目标图像中目标人物的特征与源图像中源人物的特征相同。

示例的，可以预先根据训练视频训练人体生成网络，以使人体生成网络能够生成包含目标人物的图像，其中，人体生成网络例如可以是预设的GAN。之后将目标人脸特征点和目标人体关键点作为人体生成网络的输入，以获取包括目标人物的目标图像，目标图像中目标人物表现出的特征与源图像中源人物表现出的特征相同，从而实现人物的完整替换。其中特征可以包括：人脸的情绪强度、面部肌肉的强度、姿态和人体的动作，即表情、姿态和动作。

需要说明的是，本实施例中是以源视频中的一帧图像来举例说明将源人物替换为目标人物的过程，而本公开也可以用于视频中的人物替换。源视频包括了多帧图像，因此可以按照时间顺序依次将源视频中的每一帧图像作为源图像，重复执行步骤101至104，根据源视频中的每一帧图像生成对应的目标图像，再将生成的多帧目标图像按照时间顺序组合起来，既可以得到包括了目标人物的目标视频，目标视频中目标人物的特征与源视频中源人物的特征相同。

综上所述，本公开首先提取包括了源人物的源图像中的初始人脸特征向量和初始人体关键点，其中源图像是包括了源人物的源视频中任一帧图像，之后根据初始人脸特征向量和预设的人脸生成网络，得到目标人物的目标人脸特征点，再根据包括目标人物的训练视频，将初始人体关键点转换为目标人物的目标人体关键点，最后根据目标人脸特征点、目标人体关键点和预设的人体生成网络，获取包括目标人物的目标图像，其中，目标图像中目标人物的特征与源图像中源人物的特征相同。能够根据源图像中源人物的人脸特征和人体特征，生成目标图像，使得目标图像中的目标人物与源人物的表情、姿态和动作相同，从而实现人物的完整替换。

图2是根据一示例性实施例示出的另一种图像的生成方法的流程图，如图2所示，在步骤102之前，该方法还包括：

步骤105，根据训练视频对第一生成式对抗网络GAN进行训练，以使第一GAN中的生成器能够生成包括目标人物的人脸特征点的图像，并将训练后的第一GAN中的生成器作为人脸生成网络。

在步骤104之前，该方法还包括：

步骤106，根据训练视频对第二GAN进行训练，以使第二GAN中的生成器能够生成包括目标人物的图像，并将训练后的第二GAN中的生成器作为人体生成网络。

举例来说，可以通过训练第一GAN和第二GAN来确定人脸生成网络和人体生成网络。第一GAN和第二GAN中都包括生成器G(generator)和判别器D(Discriminator)。由于人物的表情是随机的、跳跃的，因此相应的人脸特征向量在时间上是离散的，不具有时序相关性，因此可以将训练视频中的每一帧图像包括的人脸特征向量依次作为第一GAN的输入，第一GAN的生成器用于模仿每一帧图像包括的人脸特征向量，生成新的人脸特征点。之后将新的人脸特征点与每一帧图像包括的人脸特征点输入第一GAN的判别器，以判断新的人脸特征点的真假。再根据判断结果调整第一GAN的生成器和判别器的参数(可以理解为关联度和权重)，直至第一GAN的损失函数最小，此时将第一GAN中的生成器作为人脸生成网络。第一GAN的损失函数可以为：L＝L_GAN(G,D)+L_L1(G(x),y)，其中，L_GAN(G,D)＝E_(x,y)[logD(x,y)]+E_x[log(1-D(x,G(x)))]为第一GAN的生成器和判别器的损失函数，L_L1(G(x),y)为第一GAN的L1重构损失，G(x)为新的人脸特征点，y为每一帧图像包括的人脸特征点，x为每一帧图像包括的人脸特征向量。

相对于人物的表情，人物的姿态和动作通常是连续的，具有时序相关性，为了保证人物动作的连贯性，因此可以先将训练视频中相邻的多帧图像拼接成多幅组合图像，例如：训练视频中包括100帧图像，以长度为4帧的滑动窗口，将第一帧至第四帧拼接为一幅组合图像，再将第二帧至第五帧拼接为一幅组合图像，依次类推，可以得到97幅组合图像。之后再将多幅组合图像中包括的关键点(包括人脸特征点和人体关键点)作为第二GAN的输入，第二GAN的生成器用于模仿每一幅组合图像，生成新的图像。之后将新的图像与每一幅组合图像先经过预设的卷积神经网络，例如：VGG(英文：Visual Geometry Group Network)网络，提取图像中的卷积特征，再输入第二GAN的判别器，以判断新的图像的真假。再根据判断结果调整第二GAN的生成器和判别器的参数，直至第二GAN的损失函数最小，此时将第二GAN中的生成器作为人体生成网络。第二GAN的损失函数可以为L＝L_ts(G,D)+L_VGG+L_L1，其中，L_L1为第二GAN的L1重构损失，L_VGG为感知损失，L_ts(G,D)＝E_(x,y)[logD(x,y)]+E_x[log(1-D(x,G(x)))]为第二GAN的生成器和判别器的损失函数，G(x)为新的图像，y为任一帧组合图像，x为任一帧组合图像中包括的关键点。

需要说明的是，本公开实施例中的每一步骤可以是通过终端来实现，也可以通过服务器来实现，例如，用户可以通过终端将源图像发送至服务器，由服务器对源图像中的每一帧图像执行步骤101至104获得目标图像，服务器再将目标图像发送给终端。其中，服务器例如可以是具有物理实体的服务器，也可以是云端服务器，终端例如可以是智能手机、平板电脑、智能电视、智能手表、PDA(Personal Digital Assistant，个人数字助理)、便携计算机等移动终端，也可以是台式计算机等固定终端。

图3是图1所示实施例示出的一种步骤103的流程图，如图3所示，步骤103可以通过以下方式来实现：

步骤1031，根据初始人体关键点对应的坐标，确定第一关键点与第二关键点的初始距离，第一关键点为初始人体关键点中的任一关键点，第二关键点为初始人体关键点中除第一关键点之外的任一关键点。

步骤1032，提取训练视频中每一帧训练图像包括的目标人物的训练人体关键点。

步骤1033，根据每一帧训练图像包括的训练人体关键点对应的坐标，确定每一帧训练图像中第三关键点与第四关键点的训练距离，第三关键点为第一关键点对应在训练人体关键点中的关键点，第四关键点为第二关键点对应在训练人体关键点中的关键点。

步骤1034，确定多帧训练图像的训练距离的最大距离和最小距离。

步骤1035，根据初始距离、最大距离和最小距离，对初始人体关键点进行归一化，以得到目标人体关键点。

在一种实现方式中，可以先在多个初始人体关键点中任意选择两个关键点P1和P2，并根据初始人体关键点在源图像上的坐标，确定P1和P2之间的初始距离D_source。之后提取训练视频中每一帧训练图像包括的目标人物的训练人体关键点，在每一帧训练图像中的多个训练人体关键点中确定P1和P2对应的两个关键点P1’和P2’，以及中P1’和P2’之间的多个距离D_target。再确定多个D_target中的最大距离D_target_max和最小距离D_target_min。最后将D_source归一化到D_target_max和D_target_min之间，并将初始人体关键点中的其他关键点按照相同的归一化处理，将初始人体关键点转换为目标人体关键点。

图4是图1所示实施例示出的一种步骤102的流程图，如图4所示，步骤102的实现方式可以包括：

步骤1021，获取第一转换图像，第一转换图像与源图像的大小相同，且第一转换图像不包括任何图像信息。

步骤1022，将初始人脸特征向量映射到第一转换图像中。

步骤1023，将第一转换图像作为人脸生成网络的输入，以获取人脸生成网络输出的包括目标人脸特征点的第二转换图像。

举个例子，可以预先设置一个与源图像大小尺寸相同的第一转换图像，其中不包括任何图像信息(可以理解为空图像)，将初始人脸特征向量映射到第一转换图像的中心，再将映射了初始人脸特征向量的第一转换图像作为人脸生成网络的输入，人脸生成网络输出的即为包括目标人脸特征点的第二转换图像。

图5是图4所示实施例示出的一种步骤104的流程图，步骤104可以包括：

步骤1041，根据目标人脸特征点和目标人体关键点的位置关系，将目标人体关键点映射到第二转换图像中。

步骤1042，将第二转换图像作为人体生成网络的输入，以获取人体生成网络输出的目标图像。

具体地，由于目标人体关键点是由初始人体关键点转换得到的，因此在将目标人脸特征点和目标人体关键点进行融合之前，需要先确定目标人脸特征点和目标人体关键点的位置关系。例如：先确定源图像中源人物的人脸特征点的位置，然后在源人物的多个人脸特征点中找到与初始人体关键点重合的位置P，然后可以根据步骤103中的转换步骤，将P转换为目标人体关键点中的P’，最后以P’为连接点，将目标人体关键点映射到第二转换图像中，可以理解为，将目标人脸特征点和目标人体关键点在第二转换图像中进行融合。最后将第二转换图像作为人体生成网络的输入，以获取人体生成网络输出的目标图像。

在一种实现场景中，步骤1042中获取目标图像的方式可以为：

步骤A)将第二转换图像与历史目标图像组合为第三转换图像，历史目标图像为，源视频中在源图像之前的至少一帧图像对应的目标图像。

步骤B)将第三转换图像作为人体生成网络的输入，以获取人体生成网络输出的第四转换图像。

步骤C)从第四转换图像中删除历史目标图像，以获取目标图像。

举例来说，由于人物的姿态和动作通常是连续的，因此源图像中的初始人体关键点与源视频中源图像之前的图像中包含的初始人体关键点具有时序相关性，为了保留相应的时序相关性，使目标人物的动作能够连贯自然，可以先将第二转换图像与历史目标图像组合为第三转换图像作为人体生成网络的输入。人体生成网络输出的第四转换图像，还包括了历史目标图像对应的图像内容，因此还需要从第四转换图像中删除历史目标图像，以得到目标图像。其中，历史目标图像为，源视频中在源图像之前的至少一帧图像在执行步骤101至104后获得的目标图像。例如，历史目标图像包括G_t-1、G_t-2和G_t-3，目标图像为G_t，第二转换图像为X_t，那么第三转换图像可以是从左至右依次将X_t、G_t-1、G_t-2和G_t-3拼接得到的图像。将第三转换图像作为人体生成网络的输入，得到第四转换图像，再将第四转换图像中，右侧三个目标图像大小的图像删除，得到G_t。历史目标图像的数量越多，相应的计算量也越大，得到的目标图像也越准确，可以根据终端或服务器的计算能力来设定历史目标图像的数量。

图6是根据一示例性实施例示出的一种图像的生成装置的框图，如图6所示，该装置200包括：

提取模块201，用于提取源图像中包括的源人物的初始人脸特征向量和初始人体关键点，源图像为包括源人物的源视频中的任一帧图像。

第一获取模块202，用于根据初始人脸特征向量和预设的人脸生成网络，获取目标人物的目标人脸特征点。

转换模块203，用于根据训练视频，将初始人体关键点转换为目标人物的目标人体关键点，训练视频为包括目标人物的视频。

第二获取模块204，用于根据目标人脸特征点、目标人体关键点和预设的人体生成网络，获取包括目标人物的目标图像，目标图像中目标人物的特征与源图像中源人物的特征相同。

图7是根据一示例性实施例示出的另一种图像的生成装置的框图，如图7所示，该装置还包括：

第一训练模块205，用于在根据初始人脸特征向量和预设的人脸生成网络，获取目标人物的目标人脸特征点之前，根据训练视频对第一生成式对抗网络GAN进行训练，以使第一GAN中的生成器能够生成包括目标人物的人脸特征点的图像，并将训练后的第一GAN中的生成器作为人脸生成网络。

第二训练模块206，用于在根据目标人脸特征点、目标人体关键点和预设的人体生成网络，获取包括目标人物的目标图像之前，根据训练视频对第二GAN进行训练，以使第二GAN中的生成器能够生成包括目标人物的图像，并将训练后的第二GAN中的生成器作为人体生成网络。

图8是图6所示实施例示出的一种转换模块203的框图，如图8所示，转换模块203包括：

确定子模块2031，用于根据初始人体关键点对应的坐标，确定第一关键点与第二关键点的初始距离，第一关键点为初始人体关键点中的任一关键点，第二关键点为初始人体关键点中除第一关键点之外的任一关键点。

提取子模块2032，用于提取训练视频中每一帧训练图像包括的目标人物的训练人体关键点。

确定子模块2031，还用于根据每一帧训练图像包括的训练人体关键点对应的坐标，确定每一帧训练图像中第三关键点与第四关键点的训练距离，第三关键点为第一关键点对应在训练人体关键点中的关键点，第四关键点为第二关键点对应在训练人体关键点中的关键点。

确定子模块2031，还用于确定多帧训练图像的训练距离的最大距离和最小距离。

归一化子模块2033，用于根据初始距离、最大距离和最小距离，对初始人体关键点进行归一化，以得到目标人体关键点。

图9是图6所示实施例示出的一种第一获取模块202的框图，如图9所示，第一获取模块202包括：

第一获取子模块2021，用于获取第一转换图像，第一转换图像与源图像的大小相同，且第一转换图像不包括任何图像信息。

第一映射子模块2022，用于将初始人脸特征向量映射到第一转换图像中。

第一获取子模块2021，还用于将第一转换图像作为人脸生成网络的输入，以获取人脸生成网络输出的包括目标人脸特征点的第二转换图像。

图10是图9所示实施例示出的一种第二获取模块204的框图，如图10所示，第二获取模块204包括：

第二映射子模块2041，用于根据目标人脸特征点和目标人体关键点的位置关系，将目标人体关键点映射到第二转换图像中。

第二获取子模块2042，用于将第二转换图像作为人体生成网络的输入，以获取人体生成网络输出的目标图像。

其中，第二获取子模块2042可以用于执行以下步骤：

步骤A)，将第二转换图像与历史目标图像组合为第三转换图像，历史目标图像为，源视频中在源图像之前的至少一帧图像对应的目标图像。

步骤B)，将第三转换图像作为人体生成网络的输入，以获取人体生成网络输出的第四转换图像。

步骤C)，从第四转换图像中删除历史目标图像，以获取目标图像。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图11是根据一示例性实施例示出的一种电子设备300的框图。如图11所示，该电子设备300可以包括：处理器301，存储器302。该电子设备300还可以包括多媒体组件303，输入/输出(I/O)接口304，以及通信组件305中的一者或多者。

其中，处理器301用于控制该电子设备300的整体操作，以完成上述的图像的生成方法中的全部或部分步骤。存储器302用于存储各种类型的数据以支持在该电子设备300的操作，这些数据例如可以包括用于在该电子设备300上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器302可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件303可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器302或通过通信组件305发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口304为处理器301和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件305用于该电子设备300与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件305可以包括：Wi-Fi模块，蓝牙模块，NFC模块。

在一示例性实施例中，电子设备300可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的图像的生成方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的图像的生成方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器302，上述程序指令可由电子设备300的处理器301执行以完成上述的图像的生成方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由所述可编程的装置执行时用于执行上述图像的生成方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种图像的生成方法，其特征在于，所述方法包括：

根据所述目标人脸特征点、所述目标人体关键点和预设的人体生成网络，获取包括所述目标人物的目标图像，所述目标图像中所述目标人物的特征与所述源图像中所述源人物的特征相同；

所述根据所述初始人脸特征向量和预设的人脸生成网络，获取目标人物的目标人脸特征点包括：

将所述初始人脸特征向量映射到所述第一转换图像中；

将所述第一转换图像作为所述人脸生成网络的输入，以获取所述人脸生成网络输出的包括所述目标人脸特征点的第二转换图像；

所述根据所述目标人脸特征点、所述目标人体关键点和预设的人体生成网络，获取包括所述目标人物的目标图像包括：

2.根据权利要求1所述的方法，其特征在于，在所述根据所述初始人脸特征向量和预设的人脸生成网络，获取目标人物的目标人脸特征点之前，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述根据训练视频，将所述初始人体关键点转换为所述目标人物的目标人体关键点，包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述第二转换图像作为所述人体生成网络的输入，以获取所述人体生成网络输出的所述目标图像，包括：

5.一种图像的生成装置，其特征在于，所述装置包括：

第二获取模块，用于根据所述目标人脸特征点、所述目标人体关键点和预设的人体生成网络，获取包括所述目标人物的目标图像，所述目标图像中所述目标人物的特征与所述源图像中所述源人物的特征相同；

所述第一获取模块包括：

所述第一获取子模块，还用于将所述第一转换图像作为所述人脸生成网络的输入，以获取所述人脸生成网络输出的包括所述目标人脸特征点的第二转换图像；

所述第二获取模块包括：

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

7.根据权利要求5或6所述的装置，其特征在于，所述转换模块包括：

8.根据权利要求5所述的装置，其特征在于，所述第二获取子模块用于：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。

10.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-4中任一项所述方法的步骤。