CN112509154B

CN112509154B - 图像生成模型的训练方法、图像生成方法及装置

Info

Publication number: CN112509154B
Application number: CN202011353479.9A
Authority: CN
Inventors: 邓红波
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2024-03-22
Anticipated expiration: 2040-11-26
Also published as: CN112509154A

Abstract

本公开关于一种图像生成模型的训练方法、图像生成方法及装置。该图像生成模型的训练方法包括：获取样本人脸图像；将样本人脸图像输入面部特征提取模型，得到样本人脸图像的第一面部特征信息；将第一面部特征信息和随机噪声输入神经网络模型，得到目标人脸图像；将目标人脸图像输入面部特征提取模型，得到目标人脸图像的第二面部特征信息；根据第二面部特征信息和第一面部特征信息，计算神经网络模型的损失值；根据损失值，训练神经网络模型，得到图像生成模型。采用本公开的方案，能够训练得到能够生成与待处理人脸图像相似度高的图像生成模型，进而利用该图像生成模型生成图像时，能够生成与待处理人脸图像相似度高的图像。

Description

图像生成模型的训练方法、图像生成方法及装置

技术领域

本公开涉及图像处理技术领域，尤其涉及一种图像生成模型的训练方法、图像生成方法及装置。

背景技术

随着人工智能(Artificial Intelligence，AI)技术的不断发展，利用AI换脸受到了人们的广泛关注。通过AI换脸，用户可以将图像或视频中的某个人的人脸更换为另外一个人的人脸。在AI换脸的过程中，需要生成另外一个人的人脸。然而，相关技术是将原始人脸图像输入到基于随机噪声训练得到的图像生成模型中，生成人脸图像，由于该图像生成模型仅是基于随机噪声训练得到的，而随机噪声又是随机生成的，这就使得利用该图像生成模型生成的人脸图像与原始人脸图像相似度较低。

发明内容

本公开提供一种图像生成模型的训练方法、图像生成方法及装置，以至少解决相关技术中生成的人脸图像与原始人脸图像相似度较低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种图像生成模型的训练方法，包括：

获取样本人脸图像；

将样本人脸图像输入面部特征提取模型，得到样本人脸图像的第一面部特征信息；

将第一面部特征信息和随机噪声输入神经网络模型，得到目标人脸图像；

将目标人脸图像输入面部特征提取模型，得到目标人脸图像的第二面部特征信息；

根据第二面部特征信息和第一面部特征信息，计算神经网络模型的损失值；

根据损失值，训练神经网络模型，得到图像生成模型。

作为第一方面的一些可实现方式，在将目标人脸图像输入面部特征提取模型，得到目标人脸图像的第二面部特征信息之前，图像生成模型的训练方法还包括：

当样本人脸图像的面部朝向和目标人脸图像的面部朝向不同时，调整目标人脸图像的方向，以使样本人脸图像的面部朝向和目标人脸图像的面部朝向相同；

将目标人脸图像输入面部特征提取模型，得到目标人脸图像的第二面部特征信息，包括：

将调整方向后的目标人脸图像输入面部特征提取模型，得到目标人脸图像的第二面部特征信息。

作为第一方面的一些可实现方式，在将样本人脸图像输入面部特征提取模型，得到样本人脸图像的第一面部特征信息之前，图像生成模型的训练方法还包括：

当样本人脸图像带有表情信息时，去除样本人脸图像的表情信息；

将样本人脸图像输入面部特征提取模型，得到样本人脸图像的第一面部特征信息，包括：

将去除表情信息的样本人脸图像输入面部特征提取模型，得到样本人脸图像的第一面部特征信息。

当目标人脸图像带有表情信息时，去除目标人脸图像的表情信息；

将去除表情信息的目标人脸图像输入面部特征提取模型，得到目标人脸图像的第二面部特征信息。

作为第一方面的一些可实现方式，去除样本人脸图像的表情信息，包括：

根据人脸三维形变统计模型(3D deformation statistical model，3DMM)系数，去除样本人脸图像的表情信息。

作为第一方面的一些可实现方式，去除目标人脸图像的表情信息，包括：

根据人脸3DMM系数，去除目标人脸图像的表情信息。

作为第一方面的一些可实现方式，根据第二面部特征信息和第一面部特征信息，计算神经网络模型的损失值，包括：

计算第二面部特征信息和第一面部特征信息之间的余弦距离；

将余弦距离作为神经网络模型的损失值。

作为第一方面的一些可实现方式，第一面部特征信息，包括：

五官的轮廓特征信息、五官的细节特征信息和面部的轮廓特征信息。

作为第一方面的一些可实现方式，将第一面部特征信息和随机噪声输入神经网络模型，得到目标人脸图像，包括：

针对神经网络模型包括的至少一个网络层中的每个网络层，当网络层对应的特征矩阵的尺寸小于第一预设尺寸时，将随机噪声、五官的轮廓特征信息、面部的轮廓特征信息和网络层的上一层网络层输出的特征信息输入网络层；

当网络层对应的特征矩阵的尺寸大于第二预设尺寸时，将随机噪声、五官的细节特征信息和网络层的上一层网络层输出的特征信息输入网络层；

当网络层对应的特征矩阵的尺寸介于第一预设尺寸和第二预设尺寸之间时，将随机噪声、五官的轮廓特征信息、面部的轮廓特征信息、五官的细节特征信息和网络层的上一层网络层输出的特征信息输入网络层；其中，

当网络层为神经网络模型的最后一层网络层时，最后一层网络层输出目标人脸图像。

作为第一方面的一些可实现方式，神经网络模型，包括：

基于样式(style)的生成式对抗网络(Generative Adversarial Networks，GAN)。

根据本公开实施例的第二方面，提供一种图像生成方法，包括：

获取待处理人脸图像；

将待处理人脸图像输入本公开实施例第一方面提供的图像生成模型的训练方法训练得到的图像生成模型，得到目标图像。

根据本公开实施例的第三方面，提供一种图像生成模型的训练装置，包括：

第一获取模块，被配置为获取样本人脸图像；

第一提取模块，被配置为将样本人脸图像输入面部特征提取模型，得到样本人脸图像的第一面部特征信息；

第一生成模块，被配置为将第一面部特征信息和随机噪声输入神经网络模型，得到目标人脸图像；

第二提取模块，被配置为将目标人脸图像输入面部特征提取模型，得到目标人脸图像的第二面部特征信息；

计算模块，被配置为根据第二面部特征信息和第一面部特征信息，计算神经网络模型的损失值；

训练模块，被配置为根据损失值，训练神经网络模型，得到图像生成模型。

作为第三方面的一些可实现方式，图像生成模型的训练装置还包括：

第一调整模块，被配置为当样本人脸图像的面部朝向和目标人脸图像的面部朝向不同时，调整目标人脸图像的方向，以使样本人脸图像的面部朝向和目标人脸图像的面部朝向相同；

第二提取模块，具体被配置为：

第一去除模块，被配置为当样本人脸图像带有表情信息时，去除样本人脸图像的表情信息；

第一提取模块，具体被配置为：

第二去除模块，被配置为当目标人脸图像带有表情信息时，去除目标人脸图像的表情信息；

第二提取模块，具体被配置为：

作为第三方面的一些可实现方式，第一去除模块，具体被配置为：

当样本人脸图像带有表情信息时，根据人脸3DMM系数，去除样本人脸图像的表情信息。

作为第三方面的一些可实现方式，第二去除模块，具体被配置为：

当目标人脸图像带有表情信息时，根据人脸3DMM系数，去除目标人脸图像的表情信息。

作为第三方面的一些可实现方式，计算模块，具体被配置为：

将余弦距离作为神经网络模型的损失值。

作为第三方面的一些可实现方式，第一面部特征信息，包括：

作为第三方面的一些可实现方式，第一生成模块，具体被配置为：

作为第三方面的一些可实现方式，神经网络模型，包括：

Style GAN。

根据本公开实施例的第四方面，提供一种图像生成装置，包括：

第二获取模块，被配置为获取待处理人脸图像；

第二生成模块，被配置为将待处理人脸图像输入本公开实施例第一方面提供的图像生成模型的训练方法训练得到的图像生成模型，得到目标图像。

根据本公开实施例的第五方面，提供一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行指令，以实现如第一方面所述的图像生成模型的训练生成方法或实现如第二方面所述的图像生成方法。

根据本公开实施例的第六方面，提供一种存储介质，当存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面所述的图像生成模型的训练生成方法或如第二方面所述的图像生成方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，当计算机程序产品中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面所述的图像生成模型的训练生成方法或如第二方面所述的图像生成方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

在本公开实施例中，基于面部特征信息计算神经网络模型的损失值，利用该损失值监督神经网络模型的训练，能够得到能够生成与待处理人脸图像相似度高的图像生成模型，进而利用该图像生成模型生成图像时，能够生成与待处理人脸图像相似度高的图像。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定；

图1是根据一示例性实施例示出的图像生成模型的训练方法的流程示意图；

图2是根据一示例性实施例示出的图像生成方法的流程示意图；

图3是根据一示例性实施例示出的图像生成模型的训练装置的结构示意图；

图4是根据一示例性实施例示出的图像生成装置的结构示意图；

图5是根据一示例性实施例示出的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

随着深度学习的发展，尤其是生成式模型在效果上突破，业界产生了各种生成式相关的任务和应用，其中，人脸的生成受到了学术界和工业界的广泛关注。目前，通过生成式模型能够生成人眼无法分辨真假的人脸图片，但是在生成人脸图片时，有一个难以克服的问题就是生成的人脸图片不可控。例如，用户欲将某一图片中的人脸替换为人眼无法分辨真假但具有与被替换人脸相似的面部特征的人脸时，仅能将该人脸替换为人眼无法分辨真假的人脸，而无法控制该人脸的面部特征。同样，用户欲将某一视频中的某个人脸替换为人眼无法分辨真假但具有与被替换人脸相似的面部特征的人脸时，仅能将该人脸替换为人眼无法分辨真假的人脸，而无法控制该人脸的面部特征。

为此，本公开提供了一种图像生成模型的训练方法、图像生成方法及装置，以至少解决相关技术中生成的人脸图像与原始人脸图像相似度低的问题。

下面结合附图，对本公开提供的图像生成模型的训练方法进行详细的说明。

图1是根据一示例性实施例示出的图像生成模型的训练方法的流程示意图。该图像生成模型的训练方法可以应用于电子设备，该电子设备可以为服务器，超级计算机或者工作站。如图1所示，该图像生成模型的训练方法包括：

S101：获取样本人脸图像；

S102：将样本人脸图像输入面部特征提取模型，得到样本人脸图像的第一面部特征信息；

S103：将第一面部特征信息和随机噪声输入神经网络模型，得到目标人脸图像；

S104：将目标人脸图像输入面部特征提取模型，得到目标人脸图像的第二面部特征信息；

S105：根据第二面部特征信息和第一面部特征信息，计算神经网络模型的损失值；

S106：根据损失值，训练神经网络模型，得到图像生成模型。

下面对本公开实施例的各个步骤进行说明。

在S101中，样本人脸图像为包含人脸的图像。样本人脸图像可以为利用图像采集设备采集到的图像，还可以为从网络上下载的图像，还可以为预先存储在电子设备本地的图像，还可以为接收到的其他用户传输的图像，当然还可以为视频中的帧图像。本公开实施例并不对样本人脸图像进行限定。

在S102中，面部特征提取模型可以为ArcFace模型，还可以为SphereFace模型，还可以为CosineFace模型，还可以为VGGFace模型等等。本公开实施例并不对面部特征提取模型进行限定，任何可用的面部特征提取模型均可以应用于本公开实施例中，比如，Openface模型、Face_recognition模型和Insightface模型。通过面部特征提取模型可以提取到样本人脸图像的面部特征。

在S103中，神经网络模型可以为基于样式的生成式对抗网络，即Style GAN。

在本公开实施例中，Style GAN可以自主地去学习第一面部特征信息，将这些面部特征信息作为生成图像的依据，从而使得目标人脸图像可以和样本人脸图像具有相似的面部特征。

在本公开实施例的一些可能实现中，S103可以包括：将第一面部特征信息和随机噪声对应的潜码(latent code)向量输入神经网络模型，得到目标人脸图像。

具体地，可以生成随机噪声；将该随机噪声进行分解随机，即可得到随机噪声对应的潜码向量。

在本公开实施例的一些可能实现中，可以调用MATLAB中的rand函数、randn函数或wgn函数生成随机噪声。

在本公开实施例的一些可能实现中，可以将随机噪声输入可解释的生成式对抗网络(InfoGAN)，InfoGAN将随机噪声进行分解得到两部分，一部分为不可压缩的噪声，一部分为可解释的隐变量。该可解释的隐变量即为随机噪声对应的潜码向量。

在本公开实施例的一些可能实现中，S105可以包括：计算第二面部特征信息和第一面部特征信息之间的余弦距离；将余弦距离作为神经网络模型的损失值。

第二面部特征信息和第一面部特征信息之间的余弦距离指1减去第二面部特征信息向量和第一面部特征信息向量之间的余弦相似度，第二面部特征信息向量和第一面部特征信息向量之间的余弦相似度是第二面部特征信息向量和第一面部特征信息向量之间的夹角的余弦值。第二面部特征信息向量为第二面部特征信息对应的向量，第一面部特征信息向量为第一面部特征信息对应的向量。

余弦距离越大，神经网络模型的损失值越大，生成的图像和输入的图像越不相似。基于此，可以根据神经网络模型的损失值，训练神经网络模型，得到图像生成模型。

在本公开实施例的一些可能实现中，可以预先设置一个较小的损失值阈值，当计算得到的损失值大于该损失值阈值时，则重新训练神经网络模型，直至计算得到的损失值小于该损失值阈值。利用此时得到的图像生成模型生成图像，能够使生成的图像和输入的图像非常相似，能够提高生成的图像和输入的图像的相似度。

通常情况下，目标人脸图像和样本人脸图像在面部朝向上存在较大差异，而面部特征与面部朝向是耦合的，即不解耦的。例如，一个人侧脸时候的面部特征和正脸时候的面部特征有较大差异，即不同面部朝向的对象的面部特征存在较大差异，面部朝向会影响神经网络模型的损失值，进而影响神经网络模型的训练。因此，为了减少面部朝向对神经网络模型训练的影响，在本公开实施例的一些可能实现中，在S104之前，本公开实施例提供的图像生成模型的训练方法还可以包括：当样本人脸图像的面部朝向和目标人脸图像的面部朝向不同时，调整目标人脸图像的方向，以使样本人脸图像的面部朝向和目标人脸图像的面部朝向相同。相应地，S104可以包括：将调整方向后的目标人脸图像输入面部特征提取模型，得到目标人脸图像的第二面部特征信息。

在本公开实施例的一些可能实现中，可以通过对目标人脸图像进行旋转，调整目标人脸图像的方向，使目标人脸图像的面部朝向和样本人脸图像的面部朝向相同。

在本公开实施例中，通过调整目标人脸图像的面部朝向，使得目标人脸图像的面部朝向和样本人脸图像的面部朝向相同，进而能够减少面部朝向对神经网络模型训练的影响，能够提高图像生成模型的准确度。

通常情况下，目标人脸图像和样本人脸图像在表情上存在较大差异，而面部特征与人脸表情是耦合的，即不解耦的。例如，一个人笑的时候的面部特征和哭的时候的面部特征有较大差异，即不同表情的人脸的面部特征存在较大差异，表情会影响神经网络模型的损失值，进而影响神经网络模型的训练。

在一些实施例中，目标人脸图像和样本人脸图像可能均带有表情，也可能仅有一者带有表情。当

在本公开实施例的一些可能实现中，当样本人脸图像带有表情信息，而目标人脸图像不带有表情信息时，在S102之前，本公开实施例提供的图像生成模型的训练方法还可以包括：去除样本人脸图像的表情信息。相应地，S102可以包括：将去除表情信息的样本人脸图像输入面部特征提取模型，得到样本人脸图像的第一面部特征信息。

在本公开实施例的一些可能实现中，当目标人脸图像带有表情信息，而目标人脸图像不带有表情信息时，在S104之前，本公开实施例提供的图像生成模型的训练方法还可以包括：去除目标人脸图像的表情信息。相应地，S104可以包括：将去除表情信息的目标人脸图像输入面部特征提取模型，得到目标人脸图像的第二面部特征信息。

在本公开实施例的一些可能实现中，当样本人脸图像和目标人脸图像均带有表情信息时，在S102之前，本公开实施例提供的图像生成模型的训练方法还可以包括：去除样本人脸图像的表情信息；在S104之前，本公开实施例提供的图像生成模型的训练方法还可以包括：去除目标人脸图像的表情信息。相应地，S102可以包括：将去除表情信息的样本人脸图像输入面部特征提取模型，得到样本人脸图像的第一面部特征信息。S104可以包括：将去除表情信息的目标人脸图像输入面部特征提取模型，得到目标人脸图像的第二面部特征信息。

在本公开实施例中，通过去除人脸图像的表情信息，能够减少表情信息对神经网络模型训练的影响，能够提高图像生成模型的准确度。

在本公开实施例的一些可能实现中，可以根据人脸3DMM系数，去除样本人脸图像和/或目标人脸图像的表情信息。

在本公开实施例的一些可能实现中，可以将3DMM的表情(expression，exp)系数设置为0，然后，将样本人脸图像或目标人脸图像输入该3DMM中，此时3DMM输出不带有表情的样本人脸图像或不带有表情的目标人脸图像。

在S102中，第一面部特征信息，可以包括：五官的轮廓特征信息、五官的细节特征信息和面部的轮廓特征信息。

在本公开实施例的一些可能实现中，S103可以包括：针对神经网络模型包括的至少一个网络层中的每个网络层，当网络层对应的特征矩阵的尺寸小于第一预设尺寸时，将随机噪声、五官的轮廓特征信息、面部的轮廓特征信息和网络层的上一层网络层输出的特征信息输入网络层；当网络层对应的特征矩阵的尺寸大于第二预设尺寸时，将随机噪声、五官的细节特征信息和网络层的上一层网络层输出的特征信息输入网络层；当网络层对应的特征矩阵的尺寸介于第一预设尺寸和第二预设尺寸之间时，将随机噪声、五官的轮廓特征信息、面部的轮廓特征信息、五官的细节特征信息和网络层的上一层网络层输出的特征信息输入网络层；其中，当网络层为神经网络模型的最后一层网络层时，最后一层网络层输出目标人脸图像。

示例性的，假设神经网络模型包括5层网络层，其中，第一层网络层对应的特征矩阵的尺寸为4*4，第二层网络层对应的特征矩阵的尺寸为8*8，第三层网络层对应的特征矩阵的尺寸为16*16，第四层网络层对应的特征矩阵的尺寸为32*32，第五层网络层对应的特征矩阵的尺寸为64*64，其中，第五层网络层为神经网络模型的最后一层网络层，该层的输出为图像。

假设，第一预设尺寸为10*10，第二预设尺寸为20*20。

第一层网络层对应的特征矩阵的尺寸小于第一预设尺寸，将随机噪声、五官的轮廓特征信息、面部的轮廓特征信息输入第一层网络层。

第二层网络层对应的特征矩阵的尺寸小于第一预设尺寸，将随机噪声、五官的轮廓特征信息、面部的轮廓特征信息以及第一层输出的特征信息输入第二层网络层。

第三层网络层对应的特征矩阵的尺寸介于第一预设尺寸和第二预设尺寸之间，将随机噪声、五官的细节特征信息和第二层输出的特征信息输入第三层网络层。

第四层网络层对应的特征矩阵的尺寸大于第二预设尺寸，将随机噪声、五官的细节特征信息和第三层输出的特征信息输入第四层网络层。

第五层网络层对应的特征矩阵的尺寸大于第二预设尺寸，将随机噪声、五官的细节特征信息和第四层输出的特征信息输入第五层网络层，此时第五层网络输出目标人脸图像。

需要说明的是，本公开实施例以包括5层网络层的神经网络模型为例进行说明，仅为本公开的一具体实例，并不构成对本公开的限定。

在本公开实施例中，在生成目标人脸图像的阶段，神经网络模型中对应不同尺寸的特征矩阵的网络层可以有选择的获取第一面部特征信息中包含的信息，比如，对应尺寸小的特征矩阵的网络层的只提取第一面部特征信息中的五官的轮廓特征信息和面部的轮廓特征信息，对应尺寸大的特征矩阵的网络层只提取第一面部特征信息中的五官的细节特征信息，从而能够加快目标人脸图像的生成，进而可以提高神经网络模型的训练效率。

图2是根据一示例性实施例示出的图像生成方法的流程示意图。该图像生成方法可以应用于电子设备，该电子设备可以为服务器，超级计算机或者工作站。如图2所示，该图像生成方法包括：

S201：获取待处理人脸图像；

S202：将待处理人脸图像输入本公开实施例提供的图像生成模型的训练方法训练得到的图像生成模型，得到目标图像。

在本公开实施例中，由于利用本公开实施例提供的图像生成模型的训练方法训练得到的图像生成模型是基于面部特征信息计算神经网络模型的损失值，利用该损失值监督神经网络模型的训练得到的，因此，将获取待处理人脸图像输入该图像生成模型后，得到的目标图像能够与待处理人脸图像具有较高的相似度。

需要说明的是，本公开实施例提供的图像生成模型的训练方法，执行主体可以为图像生成模型的训练装置，或者该图像生成模型的训练装置中的用于执行图像生成模型的训练方法的控制模块。本公开实施例中以图像生成模型的训练装置执行图像生成模型的训练方法为例，说明本公开实施例提供的图像生成模型的训练装置。

图3是根据一示例性实施例示出的图像生成模型的训练装置的结构示意图。该图像生成模型的训练装置300可以包括：

第一获取模块301，被配置为获取样本人脸图像；

第一提取模块302，被配置为将样本人脸图像输入面部特征提取模型，得到样本人脸图像的第一面部特征信息；

第一生成模块303，被配置为将第一面部特征信息和随机噪声输入神经网络模型，得到目标人脸图像；

第二提取模块304，被配置为将目标人脸图像输入面部特征提取模型，得到目标人脸图像的第二面部特征信息；

计算模块305，被配置为根据第二面部特征信息和第一面部特征信息，计算神经网络模型的损失值；

训练模块306，被配置为根据损失值，训练神经网络模型，得到图像生成模型。

在本公开实施例的一些可能实现中，图像生成模型的训练装置300还包括：

第二提取模块，具体被配置为：

第一提取模块，具体被配置为：

第二提取模块，具体被配置为：

在本公开实施例的一些可能实现中，第一去除模块，具体被配置为：

在本公开实施例的一些可能实现中，第二去除模块，具体被配置为：

在本公开实施例的一些可能实现中，计算模块305，具体被配置为：

将余弦距离作为神经网络模型的损失值。

在本公开实施例的一些可能实现中，第一面部特征信息，包括：

在本公开实施例的一些可能实现中，第一生成模块303，具体被配置为：

在本公开实施例的一些可能实现中，神经网络模型，包括：

Style GAN。

需要说明的是，本公开实施例提供的图像生成方法，执行主体可以为图像生成装置，或者该图像生成装置中的用于执行图像生成方法的控制模块。本公开实施例中以图像生成装置执行图像生成方法为例，说明本公开实施例提供的图像生成装置。

图4是根据一示例性实施例示出的图像生成装置的结构示意图。该图像生成装置400可以包括：

第二获取模块401，被配置为获取待处理人脸图像；

第二生成模块402，被配置为将待处理人脸图像输入本公开实施例提供的图像生成模型的训练方法训练得到的图像生成模型，得到目标图像。

图5是根据一示例性实施例示出的电子设备的框图。参照图5，电子设备500包括处理组件501，其进一步包括一个或多个处理器，以及由存储器502所代表的存储器资源，用于存储可由处理组件501的执行的指令，例如应用程序。存储器502中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件501被配置为执行指令，以执行上述任一实施例所述的图像生成模型的训练方法或上述实施例所述的图像生成方法。

该电子设备500还可以包括一个电源组件503被配置为执行电子设备500的电源管理，一个有线或无线网络接口504被配置为将电子设备500连接到网络，和一个输入输出(I/O)接口505。电子设备500可以操作基于存储在存储器502的操作系统，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

在本公开一些实施例中，还提供了一种存储介质，当该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述任一实施例所述的图像生成模型的训练方法或上述实施例所述的图像生成方法。

在本公开实施例的一些可选实施方式中，该存储介质可以是非临时性计算机可读存储介质，示例性的，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在本公开一些实施例中，还提供了一种计算机程序产品，当计算机程序产品中的指令由电子设备的处理器执行时，使得电子设备能够执行上述任一实施例所述的图像生成模型的训练方法或上述实施例所述的图像生成方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种图像生成模型的训练方法，其特征在于，包括：

获取样本人脸图像；

将所述样本人脸图像输入面部特征提取模型，得到所述样本人脸图像的第一面部特征信息；

将所述第一面部特征信息和随机噪声输入神经网络模型，得到目标人脸图像；

将所述目标人脸图像输入所述面部特征提取模型，得到所述目标人脸图像的第二面部特征信息；

根据所述第二面部特征信息和所述第一面部特征信息，计算所述神经网络模型的损失值；

根据所述损失值，训练所述神经网络模型，得到图像生成模型；

所述第一面部特征信息，包括：

五官的轮廓特征信息、五官的细节特征信息和面部的轮廓特征信息；

所述将所述第一面部特征信息和随机噪声输入神经网络模型，得到目标人脸图像，包括：

针对所述神经网络模型包括的至少一个网络层中的每个网络层，当所述网络层对应的特征矩阵的尺寸小于第一预设尺寸时，将所述随机噪声、所述五官的轮廓特征信息、所述面部的轮廓特征信息和所述网络层的上一层网络层输出的特征信息输入所述网络层；

当所述网络层对应的特征矩阵的尺寸大于第二预设尺寸时，将所述随机噪声、所述五官的细节特征信息和所述网络层的上一层网络层输出的特征信息输入所述网络层；

当所述网络层对应的特征矩阵的尺寸介于所述第一预设尺寸和所述第二预设尺寸之间时，将所述随机噪声、所述五官的轮廓特征信息、所述面部的轮廓特征信息、所述五官的细节特征信息和所述网络层的上一层网络层输出的特征信息输入所述网络层；其中，

当所述网络层为所述神经网络模型的最后一层网络层时，所述最后一层网络层输出所述目标人脸图像。

2.根据权利要求1所述的方法，其特征在于，在所述将所述目标人脸图像输入所述面部特征提取模型，得到所述目标人脸图像的第二面部特征信息之前，所述方法还包括：

当所述样本人脸图像的面部朝向和所述目标人脸图像的面部朝向不同时，调整所述目标人脸图像的方向，以使所述样本人脸图像的面部朝向和所述目标人脸图像的面部朝向相同；

所述将所述目标人脸图像输入所述面部特征提取模型，得到所述目标人脸图像的第二面部特征信息，包括：

将调整方向后的所述目标人脸图像输入所述面部特征提取模型，得到所述目标人脸图像的第二面部特征信息。

3.根据权利要求1所述的方法，其特征在于，在所述将所述样本人脸图像输入面部特征提取模型，得到所述样本人脸图像的第一面部特征信息之前，所述方法还包括：

当所述样本人脸图像带有表情信息时，去除所述样本人脸图像的表情信息；

所述将所述样本人脸图像输入面部特征提取模型，得到所述样本人脸图像的第一面部特征信息，包括：

将去除表情信息的所述样本人脸图像输入面部特征提取模型，得到所述样本人脸图像的第一面部特征信息。

4.根据权利要求1至3任一项所述的方法，其特征在于，在所述将所述目标人脸图像输入所述面部特征提取模型，得到所述目标人脸图像的第二面部特征信息之前，所述方法还包括：

当所述目标人脸图像带有表情信息时，去除所述目标人脸图像的表情信息；

将去除表情信息的所述目标人脸图像输入所述面部特征提取模型，得到所述目标人脸图像的第二面部特征信息。

5.根据权利要求4所述的方法，其特征在于，所述去除所述目标人脸图像的表情信息，包括：

根据人脸三维形变统计模型3DMM系数，去除所述目标人脸图像的表情信息。

6.根据权利要求3所述的方法，其特征在于，所述去除所述样本人脸图像的表情信息，包括：

根据人脸3DMM系数，去除所述样本人脸图像的表情信息。

7.根据权利要求1所述的方法，其特征在于，所述根据所述第二面部特征信息和所述第一面部特征信息，计算所述神经网络模型的损失值，包括：

计算所述第二面部特征信息和所述第一面部特征信息之间的余弦距离；

将所述余弦距离作为所述神经网络模型的损失值。

8.根据权利要求1所述的方法，其特征在于，所述神经网络模型，包括：

基于样式的生成式对抗网络。

9.一种图像生成方法，其特征在于，所述方法包括：

获取待处理人脸图像；

将所述待处理人脸图像输入利用权利要求1至8任一项所述的图像生成模型的训练方法训练得到的图像生成模型，得到目标图像。

10.一种图像生成模型的训练装置，其特征在于，所述装置包括：

第一获取模块，被配置为获取样本人脸图像；

第一提取模块，被配置为将所述样本人脸图像输入面部特征提取模型，得到所述样本人脸图像的第一面部特征信息；

第一生成模块，被配置为将所述第一面部特征信息和随机噪声输入神经网络模型，得到目标人脸图像；

第二提取模块，被配置为将所述目标人脸图像输入所述面部特征提取模型，得到所述目标人脸图像的第二面部特征信息；

计算模块，被配置为根据所述第二面部特征信息和所述第一面部特征信息，计算所述神经网络模型的损失值；

训练模块，被配置为根据所述损失值，训练所述神经网络模型，得到图像生成模型；

所述第一面部特征信息，包括：

所述第一生成模块，具体被配置为：

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

第一调整模块，被配置为当所述样本人脸图像的面部朝向和所述目标人脸图像的面部朝向不同时，调整所述目标人脸图像的方向，以使所述样本人脸图像的面部朝向和所述目标人脸图像的面部朝向相同；

所述第二提取模块，具体被配置为：

12.根据权利要求10所述的装置，其特征在于，所述装置还包括：

第一去除模块，被配置为当所述样本人脸图像带有表情信息时，去除所述样本人脸图像的表情信息；

所述第一提取模块，具体被配置为：

13.根据权利要求10至12任一项所述的装置，其特征在于，所述装置还包括：

第二去除模块，被配置为当所述目标人脸图像带有表情信息时，去除所述目标人脸图像的表情信息；

所述第二提取模块，具体被配置为：

14.根据权利要求13所述的装置，其特征在于，所述第二去除模块，具体被配置为：

当所述目标人脸图像带有表情信息时，根据人脸3DMM系数，去除所述目标人脸图像的表情信息。

15.根据权利要求12所述的装置，其特征在于，所述第一去除模块，具体被配置为：

当所述样本人脸图像带有表情信息时，根据人脸3DMM系数，去除所述样本人脸图像的表情信息。

16.根据权利要求10所述的装置，其特征在于，所述计算模块，具体被配置为：

将所述余弦距离作为所述神经网络模型的损失值。

17.根据权利要求10所述的装置，其特征在于，所述神经网络模型，包括：

基于样式的生成式对抗网络。

18.一种图像生成装置，其特征在于，所述装置包括：

第二获取模块，被配置为获取待处理人脸图像；

第二生成模块，被配置为将所述待处理人脸图像输入利用权利要求1至8任一项所述的图像生成模型的训练方法训练得到的图像生成模型，得到目标图像。

19.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至8中任一项所述的图像生成模型的训练方法或如权利要求9所述的图像生成方法。

20.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至8中任一项所述的图像生成模型的训练方法或如权利要求9所述的图像生成方法。