CN113642359A

CN113642359A - 人脸图像生成方法、装置、电子设备及存储介质

Info

Publication number: CN113642359A
Application number: CN202010346085.4A
Authority: CN
Inventors: 李强
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2021-11-12
Anticipated expiration: 2040-04-27
Also published as: CN113642359B

Abstract

本公开关于一种人脸图像生成方法、装置、电子设备及存储介质，属于图像处理技术领域。本公开通过将原始人脸图像和多种人脸语义信息输入图像生成模型，分别得到人脸图像特征和多个人脸语义特征，对人脸图像特征和多个人脸语义特征进行融合处理，得到人脸融合特征，基于人脸融合特征获取目标人脸图像。由于不同种类的人脸语义信息能够从不同角度反映出原始人脸图像的语义信息，使得目标人脸图像避免丢失掉原始人脸图像中多种重要的语义信息，能够大大提升人脸风格迁移过程的精准性，提升人脸风格迁移过程的性能。

Description

人脸图像生成方法、装置、电子设备及存储介质

技术领域

本公开涉及图像处理技术领域，特别涉及一种人脸图像生成方法、装置、电子设备及存储介质。

背景技术

随着图像处理技术的发展，可以通过机器学习技术来执行一些人脸风格迁移(Facial Style Transfer，FST)任务，人脸风格迁移是指将一张风格图像的风格(style)迁移到一张人脸图像中，使得迁移生成的图像中兼具人脸图像的图像内容以及风格图像的图像风格，图像风格是指图像的艺术风格，例如油画风格、素描风格、动漫风格等。

在相关技术中，在进行人脸风格迁移时，通常是采用图像风格迁移(Image StyleTransfer，IST)的技术手段应用到人脸图像中，以处理人脸风格迁移任务，然而由于人脸图像具有一定的结构特殊性，使用图像风格迁移的技术手段进行人脸风格迁移时，容易丢失掉一些人脸图像的结构信息，导致迁移生成的图像与标准的人脸图像之间存在较大偏差，从而导致人脸风格迁移的性能较差。

发明内容

本公开提供一种人脸图像生成方法、装置、电子设备及存储介质，能够增加人脸风格迁移过程的准确性，优化人脸风格迁移过程的性能。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种人脸图像生成方法，包括：

将原始人脸图像和所述原始人脸图像的多种人脸语义信息输入图像生成模型，通过所述图像生成模型分别得到所述原始人脸图像的人脸图像特征和所述多种人脸语义信息的多个人脸语义特征，其中，所述图像生成模型基于具有相同的图像内容但具有不同的图像风格的样本图像对训练得到，一个人脸语义特征用于表征一种人脸语义信息所具有的特征；

对所述人脸图像特征和所述多个人脸语义特征进行融合处理，得到所述原始人脸图像的人脸融合特征；

基于所述人脸融合特征，获取目标人脸图像，所述目标人脸图像与所述原始人脸图像具有相同的图像内容但具有不同的图像风格。

在一种可能实施方式中，所述对所述人脸图像特征和所述多个人脸语义特征进行融合处理，得到所述原始人脸图像的人脸融合特征包括下述至少一项：

对所述人脸图像特征和所述多个人脸语义特征进行拼接处理，得到所述人脸融合特征；

将所述人脸图像特征和所述多个人脸语义特征中对应位置的像素值相加，得到所述人脸融合特征；

将所述人脸图像特征和所述多个人脸语义特征中对应位置的像素值相乘，得到所述人脸融合特征。

在一种可能实施方式中，所述多种人脸语义信息包括人脸关键点信息、人脸语义分割信息或者人脸属性信息中至少两项。

在一种可能实施方式中，所述对所述人脸图像特征和所述多个人脸语义特征进行融合处理，得到所述原始人脸图像的人脸融合特征包括：

响应于所述多种人脸语义信息中包括人脸关键点信息或者人脸语义分割信息中至少一项，对于所述人脸关键点信息或者所述人脸语义分割信息中至少一项的人脸语义特征，将所述人脸语义特征与人脸注意力特征相乘，得到语义注意力特征，所述人脸注意力特征用于表示所述人脸关键点信息或者人脸语义分割信息中至少一项的注意力权重；

对所述人脸图像特征和所述语义注意力特征进行融合处理，得到所述人脸融合特征。

在一种可能实施方式中，所述对所述人脸图像特征和所述多个人脸语义特征进行融合处理，得到所述原始人脸图像的人脸融合特征之前，所述方法还包括：

响应于所述多种人脸语义信息中包括人脸属性信息，对所述人脸属性信息进行复制，基于复制得到的信息对所述人脸属性信息进行填充，得到所述人脸属性信息的人脸语义特征，所述人脸语义特征与所述人脸图像特征的高度和宽度相同。

在一种可能实施方式中，所述图像生成模型的训练过程包括：

基于样本图像集和根据所述样本图像集合成的伪造图像集，对初始判别模型进行迭代训练，得到图像判别模型，所述样本图像集包括至少一个样本图像对，一个样本图像对中包括一对具有不同图像风格且具有相同图像内容的真实人脸图像，所述图像判别模型用于判断输入的图像是样本图像集中的真实人脸图像还是伪造图像集中的伪造人脸图像，一个伪造人脸图像是指由计算机基于样本图像集中的一个真实人脸图像而合成的人脸图像；

基于所述样本图像集和所述图像判别模型，对初始生成模型进行迭代训练，得到所述图像生成模型。

在一种可能实施方式中，所述图像判别模型包括一对具有耦合关系的第一判别网络和第二判别网络，所述初始生成模型包括一对具有耦合关系的第一生成网络和第二生成网络；

其中，所述第一生成网络用于将第一风格的原始人脸图像转换为第二风格的目标人脸图像，所述第二生成网络用于将第二风格的原始人脸图像转换为第一风格的目标人脸图像，所述第一判别网络用于判别第一风格的原始人脸图像与第一风格的目标人脸图像之间的差异，所述第二判别网络用于判别第二风格的原始人脸图像与第二风格的目标人脸图像之间的差异。

在一种可能实施方式中，所述基于所述样本图像集和所述图像判别模型，对初始生成模型进行迭代训练，得到所述图像生成模型包括：

在任一次迭代过程中，将所述样本图像集中任一样本图像对中的第一真实人脸图像输入所述第一生成网络，输出第一伪造人脸图像，将所述第一伪造人脸图像输入所述第二生成网络，输出第一循环人脸图像；

将所述样本图像对中的第二真实人脸图像输入所述第二生成网络，输出第二伪造人脸图像，将所述第二伪造人脸图像输入所述第一生成网络，输出第二循环人脸图像；

基于所述第一真实人脸图像、所述第二真实人脸图像、所述第一伪造人脸图像、所述第二伪造人脸图像、所述第一循环人脸图像以及所述第二循环人脸图像，通过所述第一判别网络以及所述第二判别网络获取本次迭代过程的损失函数值；

响应于所述损失函数值不符合停止训练条件，继续训练；响应于所述损失函数值符合停止训练条件，将本次迭代过程采用的初始生成模型确定为所述图像生成模型。

根据本公开实施例的第二方面，提供一种人脸图像生成装置，包括：

输入单元，被配置为执行将原始人脸图像和所述原始人脸图像的多种人脸语义信息输入图像生成模型，通过所述图像生成模型分别得到所述原始人脸图像的人脸图像特征和所述多种人脸语义信息的多个人脸语义特征，其中，所述图像生成模型基于具有相同的图像内容但具有不同的图像风格的样本图像对训练得到，一个人脸语义特征用于表征一种人脸语义信息所具有的特征；

融合单元，被配置为执行对所述人脸图像特征和所述多个人脸语义特征进行融合处理，得到所述原始人脸图像的人脸融合特征；

获取单元，被配置为执行基于所述人脸融合特征，获取目标人脸图像，所述目标人脸图像与所述原始人脸图像具有相同的图像内容但具有不同的图像风格。

在一种可能实施方式中，所述融合单元被配置为执行下述至少一项：

在一种可能实施方式中，所述融合单元被配置为执行：

在一种可能实施方式中，所述装置还包括：

复制填充单元，被配置为执行响应于所述多种人脸语义信息中包括人脸属性信息，对所述人脸属性信息进行复制，基于复制得到的信息对所述人脸属性信息进行填充，得到所述人脸属性信息的人脸语义特征，所述人脸语义特征与所述人脸图像特征的高度和宽度相同。

在一种可能实施方式中，所述装置还包括：

训练单元，被配置为执行基于样本图像集和根据所述样本图像集合成的伪造图像集，对初始判别模型进行迭代训练，得到图像判别模型，所述样本图像集包括至少一个样本图像对，一个样本图像对中包括一对具有不同图像风格且具有相同图像内容的真实人脸图像，所述图像判别模型用于判断输入的图像是样本图像集中的真实人脸图像还是伪造图像集中的伪造人脸图像，一个伪造人脸图像是指由计算机基于样本图像集中的一个真实人脸图像而合成的人脸图像；

所述训练单元，还被配置为执行基于所述样本图像集和所述图像判别模型，对初始生成模型进行迭代训练，得到所述图像生成模型。

在一种可能实施方式中，所述训练单元被配置为执行：

根据本公开实施例的第三方面，提供一种电子设备，包括：

一个或多个处理器；

用于存储所述一个或多个处理器可执行指令的一个或多个存储器；

其中，所述一个或多个处理器被配置为执行上述第一方面以及第一方面的可能实施方式中任一项的人脸图像生成方法。

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的至少一条指令由电子设备的一个或多个处理器执行时，使得电子设备能够执行上述第一方面以及第一方面的可能实施方式中任一项的人脸图像生成方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括一条或多条指令，所述一条或多条指令可以由电子设备的一个或多个处理器执行，使得电子设备能够执行上述第一方面以及第一方面的可能实施方式中任一项的人脸图像生成方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过将原始人脸图像和多种人脸语义信息一起输入到图像生成模型中，能够在人脸图像生成过程中引入人脸语义信息，通过图像生成模型分别得到人脸图像特征和多个人脸语义特征，对人脸图像特征和多个人脸语义特征进行融合处理，得到人脸融合特征，由于人脸融合特征中包含了人脸语义特征的相关内容，因此相当于人脸语义信息引导了人脸风格迁移的过程，最后基于人脸融合特征获取目标人脸图像，正是由于通过人脸语义信息来引导人脸风格迁移，能够使得目标人脸图像中避免丢失掉原始人脸图像中一些重要的人脸语义特征，能够大大提升人脸风格迁移过程的精准性，提升人脸风格迁移过程的性能。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种人脸图像生成方法的实施环境示意图；

图2是根据一示例性实施例示出的一种人脸图像生成方法的流程图；

图3是根据一示例性实施例示出的一种人脸图像生成方法的流程图；

图4是本公开实施例提供的一种拓展人脸属性信息的原理性示意图；

图5是本公开实施例提供的一种特征融合过程的流程图；

图6是本公开实施例提供的一种图像生成模型的训练方法流程图；

图7是本公开实施例提供的一种图像生成模型的迭代训练过程的原理性示意图；

图8是根据一示例性实施例示出的一种人脸图像生成装置的逻辑结构框图；

图9示出了本公开一个示例性实施例提供的终端的结构框图；

图10是本公开实施例提供的一种服务器的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所涉及的用户信息可以为经用户授权或者经过各方充分授权的信息。

以下，对本公开实施例所涉及到的术语进行解释说明：

图像风格(Image Style)：用于表示图像的可视化风格，包括艺术风格、保真风格或者语义风格中至少一项，在可视化风格中可以包含纹理、边缘、色彩、饱和度或者光泽度等可视化信息。

具体而言，以利用CNN(Convolutional Neural Networks，卷积神经网络)模型执行图像风格迁移任务为例，在CNN模型中图像风格可以定义为不同特征通道之间的相关性，例如，假设第一通道提取的是图像的垂直纹理特征，第二通道提取的是图像的橙色背景特征，那么通过计算第一通道与第二通道之间的相关性，计算得到的相关性越大时，代表原始图像既包含垂直纹理也包含橙色背景的可能性越大，计算得到的相关性越小时，代表原始图像同时包含垂直纹理和橙色背景的可能性越小，因此不同特征通道之间的相关性大小能够反映出不同图像特征之间的相互关系，从而也相当于刻画出了图像的可视化风格。

图像风格迁移(Image Style Transfer，IST)：图像风格迁移研究的是图像之间的风格转换，其任务可以描述为：以原始图像的内容为基础，将参考图像的风格迁移到原始图像中，得到风格化图像。

在图像处理和计算机图形学领域中，图像风格迁移均是一种非常重要且富有挑战性的客体，根据实际处理的问题场景的不同，图像风格迁移可以划分为艺术风格迁移、保真风格迁移、语义风格迁移等子课题，图像风格迁移具有广阔的应用场景，可以应用到诸如图像编辑、图像合成、图像特征等场景中。

人脸风格迁移(Facial Style Transfer，FST)：人脸风格迁移研究的是人脸图像之间的风格转换，其任务可以描述为：以原始人脸图像的内容为基础，将参考人脸图像的风格迁移到原始人脸图像中，得到风格化人脸图像。换言之，人脸风格迁移是指专门针对人脸的图像风格迁移，人脸风格迁移也具有广阔的应用场景，例如，针对短视频平台而言，可以通过人脸风格迁移技术来提供一些独特的人脸特效，比如娃娃脸、年龄迁移、二次元迁移等。

生成对抗网络(Generative Adversarial Networks，GAN)：生成对抗网络是一种通过对抗学习来实现无监督学习的框架，可以应用于图像生成、特征学习等领域。

多语义引导(Multiple Semantic Guidance，MSG)：多语义引导是指利用多种语义信息来约束、规范图像风格迁移的训练过程和预测过程，其任务可以描述为：通过借助多种视觉语义信息或者先验知识，来提升图像风格迁移的性能和效果。

图1是根据一示例性实施例示出的一种人脸图像生成方法的实施环境示意图，参见图1，在该实施环境中可以包括终端101和服务器102，终端101和服务器102均为一种电子设备。

终端101可以是任一能够提供人脸图像生成服务的电子设备，在终端101上安装有用于生成人脸图像的应用程序，例如，该应用程序可以包括短视频应用、直播应用、修图应用、拍照应用或者社交应用中的至少一项，在该应用程序中可以嵌入图像生成模型的执行代码，使得当用户向应用程序输入原始人脸图像时，能够通过该图像生成模型，生成一张对原始人脸图像进行人脸风格迁移之后的目标人脸图像。

终端101和服务器102可以通过有线网络或无线网络相连。

服务器102可以用于训练图像生成模型，服务器102可以包括一台服务器、多台服务器、云计算平台或者虚拟化中心中的至少一种。可选地，服务器102可以承担主要计算工作，终端101可以承担次要计算工作；或者，服务器102承担次要计算工作，终端101承担主要计算工作；或者，终端101和服务器102两者之间采用分布式计算架构进行协同计算。

在一些实施例中，服务器102可以为上述应用程序提供后台计算服务，此时服务器102可以用于训练图像生成模型，将训练得到的图像生成模型以冷更新或者热更新的方式下发到终端101上，使得终端101能够独立执行人脸图像生成方法，能够减轻服务器102的计算负载，避免在人脸图像生成的过程中占用服务器102的处理资源。

在一些实施例中，服务器102不仅可以用于训练图像生成模型，而且还可以用于进行人脸风格迁移，此时，终端101需要在采集原始人脸图像之后，向服务器102发送携带该原始人脸图像的图像生成指令，服务器102响应于该图像生成指令，将原始人脸图像输入到训练得到的图像生成模型中，输出目标人脸图像，并将目标人脸图像发送到终端101，从而能够在终端101与服务器102的交互过程中完成人脸图像的生成操作，此时能够避免图像生成模型占用终端101的存储空间，有利于维护较高的终端系统性能。

在一些实施例中，还可以将图像生成模型的训练过程和应用过程均迁移到终端101上，此时能够避免与服务器102之间频繁的通信开销，有利于节约系统的带宽。

可选地，终端101可以泛指多个终端中的一个，终端101的设备类型包括但不限于：车载终端、电视机、智能手机、智能音箱、平板电脑、电子书阅读器、MP3(Moving PictureExperts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机或者台式计算机中的至少一种。以下实施例，以终端包括智能手机来进行举例说明。

本领域技术人员可以知晓，上述终端101的数量可以更多或更少。比如上述终端101可以仅为一个，或者上述终端101为几十个或几百个，或者更多数量。本公开实施例对终端101的数量和设备类型不加以限定。

在一个示例性场景中，以终端101上的应用程序为短视频应用为例进行说明，服务器102用于为短视频应用提供后台的云计算、云存储服务，服务器102对初始生成模型进行耦合迭代训练，可以得到图像生成模型，服务器102将训练得到的图像生成模型以热更新的方式下发到终端101，终端101在启动短视频应用时会自动加载携带图像生成模型的更新数据包，从而安装图像生成模型的程序代码，用户在通过短视频应用进行拍照时，短视频应用中可以显示拍照界面，在拍照界面中可以包括拍照选项以及人脸风格迁移的功能选项，用户在点击拍照选项进行拍照之后，终端101采集到原始人脸图像，用户可以通过点击上述功能选项，并滑动选择不同的风格，从而能够通过图像生成模型对原始人脸图像进行不同风格的迁移操作，得到迁移到对应风格的目标人脸图像，从而跳转至预览界面，在预览界面中展示目标人脸图像，以便用户选择心仪的目标人脸图像进行保存或者上传。可选地，上述风格迁移的过程也可以是在用户点击拍照选项之前，使得用户能够在拍照之前预览不同的风格迁移效果，最终在确定了心仪的风格之后再点击拍照选项，生成并展示目标人脸图像，例如可供迁移的风格可以采用人脸特效的形式提供，比如娃娃脸特效、年龄迁移特效、二次元风格特效等，本公开实施例不对可供迁移的风格类型进行具体限定。

图2是根据一示例性实施例示出的一种人脸图像生成方法的流程图，参见图2，该人脸图像生成方法应用于电子设备，该方法包括：

在步骤201中，将原始人脸图像和该原始人脸图像的多种人脸语义信息输入图像生成模型，通过该图像生成模型分别得到该原始人脸图像的人脸图像特征和该多种人脸语义信息的多个人脸语义特征，其中，该图像生成模型基于具有相同的图像内容但具有不同的图像风格的样本图像对训练得到，一个人脸语义特征用于表征一种人脸语义信息所具有的特征。

在步骤202中，对该人脸图像特征和该多个人脸语义特征进行融合处理，得到该原始人脸图像的人脸融合特征。

在步骤203中，基于该人脸融合特征，获取目标人脸图像，该目标人脸图像与该原始人脸图像具有相同的图像内容但具有不同的图像风格。

本公开实施例提供的方法，通过将原始人脸图像和多种人脸语义信息一起输入到图像生成模型中，能够在人脸图像生成过程中引入人脸语义信息，通过图像生成模型分别得到人脸图像特征和多个人脸语义特征，对人脸图像特征和多个人脸语义特征进行融合处理，得到人脸融合特征，由于人脸融合特征中包含了人脸语义特征的相关内容，因此相当于人脸语义信息引导了人脸风格迁移的过程，最后基于人脸融合特征获取目标人脸图像，正是由于通过人脸语义信息来引导人脸风格迁移，能够使得目标人脸图像中避免丢失掉原始人脸图像中一些重要的人脸语义特征，能够大大提升人脸风格迁移过程的精准性，提升人脸风格迁移过程的性能。

在一种可能实施方式中，对该人脸图像特征和该多个人脸语义特征进行融合处理，得到该原始人脸图像的人脸融合特征包括下述至少一项：

对该人脸图像特征和该多个人脸语义特征进行拼接处理，得到该人脸融合特征；

将该人脸图像特征和该多个人脸语义特征中对应位置的像素值相加，得到该人脸融合特征；

将该人脸图像特征和该多个人脸语义特征中对应位置的像素值相乘，得到该人脸融合特征。

在一种可能实施方式中，该多种人脸语义信息包括人脸关键点信息、人脸语义分割信息或者人脸属性信息中至少两项。

在一种可能实施方式中，对该人脸图像特征和该多个人脸语义特征进行融合处理，得到该原始人脸图像的人脸融合特征包括：

响应于该多种人脸语义信息中包括人脸关键点信息或者人脸语义分割信息中至少一项，对于该人脸关键点信息或者该人脸语义分割信息中至少一项的人脸语义特征，将该人脸语义特征与人脸注意力特征相乘，得到语义注意力特征，该人脸注意力特征用于表示该人脸关键点信息或者人脸语义分割信息中至少一项的注意力权重；

对该人脸图像特征和该语义注意力特征进行融合处理，得到该人脸融合特征。

在一种可能实施方式中，对该人脸图像特征和该多个人脸语义特征进行融合处理，得到该原始人脸图像的人脸融合特征之前，该方法还包括：

响应于该多种人脸语义信息中包括人脸属性信息，对该人脸属性信息进行复制，基于复制得到的信息对该人脸属性信息进行填充，得到该人脸属性信息的人脸语义特征，该人脸语义特征与该人脸图像特征的高度和宽度相同。

在一种可能实施方式中，该图像生成模型的训练过程包括：

基于样本图像集和根据该样本图像集合成的伪造图像集，对初始判别模型进行迭代训练，得到图像判别模型，该样本图像集包括至少一个样本图像对，一个样本图像对中包括一对具有不同图像风格且具有相同图像内容的真实人脸图像，该图像判别模型用于判断输入的图像是样本图像集中的真实人脸图像还是伪造图像集中的伪造人脸图像，一个伪造人脸图像是指由计算机基于样本图像集中的一个真实人脸图像而合成的人脸图像；

基于该样本图像集和该图像判别模型，对初始生成模型进行迭代训练，得到该图像生成模型。

在一种可能实施方式中，该图像判别模型包括一对具有耦合关系的第一判别网络和第二判别网络，该初始生成模型包括一对具有耦合关系的第一生成网络和第二生成网络；

其中，该第一生成网络用于将第一风格的原始人脸图像转换为第二风格的目标人脸图像，该第二生成网络用于将第二风格的原始人脸图像转换为第一风格的目标人脸图像，该第一判别网络用于判别第一风格的原始人脸图像与第一风格的目标人脸图像之间的差异，该第二判别网络用于判别第二风格的原始人脸图像与第二风格的目标人脸图像之间的差异。

在一种可能实施方式中，基于该样本图像集和该图像判别模型，对初始生成模型进行迭代训练，得到该图像生成模型包括：

在任一次迭代过程中，将该样本图像集中任一样本图像对中的第一真实人脸图像输入该第一生成网络，输出第一伪造人脸图像，将该第一伪造人脸图像输入该第二生成网络，输出第一循环人脸图像；

将该样本图像对中的第二真实人脸图像输入该第二生成网络，输出第二伪造人脸图像，将该第二伪造人脸图像输入该第一生成网络，输出第二循环人脸图像；

基于该第一真实人脸图像、该第二真实人脸图像、该第一伪造人脸图像、该第二伪造人脸图像、该第一循环人脸图像以及该第二循环人脸图像，通过该第一判别网络以及该第二判别网络获取本次迭代过程的损失函数值；

响应于该损失函数值不符合停止训练条件，继续训练；响应于该损失函数值符合停止训练条件，将本次迭代过程采用的初始生成模型确定为该图像生成模型。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图3是根据一示例性实施例示出的一种人脸图像生成方法的流程图，参见图3，该人脸图像生成方法应用于电子设备，下面以电子设备为终端为例进行说明。

在步骤301中，终端基于原始人脸图像，获取原始人脸图像的多种人脸语义信息。

该终端可以是任一能够提供人脸图像生成服务的电子设备，在终端上安装有用于生成人脸图像的应用程序，例如，该应用程序可以包括短视频应用、直播应用、修图应用、拍照应用或者社交应用中的至少一项。

可选地，该原始人脸图像可以是终端调用摄像头组件拍摄的人脸图像，比如，用户在应用程序中触发拍摄指令，操作系统响应于拍摄指令调用摄像头组件采集一张原始人脸图像，当然，该原始人脸图像也可以是终端从本地数据库中读取的人脸图像，还可以是终端从云端数据库中加载的人脸图像，本公开实施例不对原始人脸图像的来源进行具体限定。

可选地，该多种人脸语义信息可以包括人脸关键点信息、人脸语义分割信息或者人脸属性信息中至少两项，其中，人脸语义信息本质上可以划分为两种表征形式，一种是特征图形式，一种是特征向量形式，比如，人脸关键点信息以及人脸语义分割信息均是特征图形式的人脸语义信息，人脸关键点信息和人脸语义分割信息都是由像素点构成的多维矩阵(是一张图像)，因此可以人脸关键点信息俗称为“人脸关键点图”，人脸语义分割信息可以俗称为人脸的“语义分割图”，而人脸属性信息则是特征向量形式的人脸语义信息，人脸属性信息是由各个属性元素构成的多维向量(是一个向量)，因此，人脸属性信息可以俗称为“人脸属性向量”，下面以人脸关键点信息、人脸语义分割信息以及人脸属性信息为例，分别针对上述三类人脸语义信息的获取方式进行介绍：

一、人脸关键点信息

在获取人脸关键点信息的过程中，终端可以对原始人脸图像进行人脸关键点检测，得到该原始人脸图像的人脸关键点图，将该人脸关键点图确定为人脸关键点信息。可选地，该人脸关键点图中的人脸关键点的数量可以是任一大于0的数值，例如该人脸关键点的数量为5个、68个、128个等，本公开实施例不对人脸关键点的数量进行具体限定。

在一些实施例中，终端可以基于特征描述算法来进行人脸关键点检测，比如该特征描述算法可以是SIFT(Scale-Invariant Feature Transform，尺度不变特征变换)算法、SURF(Speeded Up Robust Features，加速稳健特征)算法、ORB(Oriented FAST AndRotated BRIEF，定向FAST算法和旋转BRIEF算法)算法等，本公开实施例不对特征描述算法的类型进行具体限定，从而能够简化人脸关键点检测过程的流程。

在一些实施例中，终端还可以通过深度学习模型来进行人脸关键点检测，具体地，终端可以将原始人脸图像输入深度学习模型，通过深度学习模型对该原始人脸图像进行非线性映射，得到该人脸关键点图，从而能够提升人脸关键点检测过程的准确性。

可选地，该深度学习模型可以包括DCNN(Deep Convolutional Neural Networks，深度卷积神经网络)模型、TCDCN(Tasks-Constrained Deep Convolutional Networks，多任务约束的深度卷积网络)、MTCNN(Multi-Task Cascaded Convolutional NeuralNetworks，多任务级联卷积神经网络)等，本公开实施例不对深度学习模型的类型进行具体限定。

二、人脸语义分割信息

语义分割能够将图像表示为物理上有意义的连通区域的集合，也即是根据目标与背景的先验知识，对图像中的目标和背景分别进行标记、定位，然后将目标从背景或者其他伪目标中分离处理，针对人脸图像而言，目标可以是人脸图像中的人脸区域，而背景则是人脸图像中的非人脸区域，在人脸区域中还可以详细划分为眼部、唇部、鼻子、面部等子区域，由于语义分割相当于对人脸图像进行了一次解析过程，因此人脸语义分割信息也可以俗称为“语义分割图”或者“人脸解析图”。

在获取原始人脸图像的人脸语义分割信息的过程中，终端可以对该原始人脸图像进行语义分割处理，得到该原始人脸图像的语义分割图，将该语义分割图确定为人脸语义分割信息。

在上述过程中，终端可以将原始人脸图像输入语义分割模型，通过该语义分割模型对原始人脸图像进行卷积处理，输出原始人脸图像的语义分割图，在语义分割图中，前景区域表示人脸区域，背景区域表示非人脸区域，并且，在前景区域中针对不同的子区域也分别进行分割处理，从而能够增加语义分割过程的准确性。

可选地，该语义分割模型可以是FCN(Fully Convolutional Networks，全卷积网络)、U-net(U形结构的卷积神经网络)、SegNet(语义分割网络)、LinkNet(连接网络)等，本公开实施例不对语义分割模型的类型进行具体限定。

三、人脸属性信息

可选地，人脸属性信息中可以包括至少一个属性元素，每个属性元素用于表示一种人脸属性，比如，该属性元素可以包括人物性别、人物是否微笑、人物是长发还是短发、人物是否闭眼等，本公开实施例不对属性元素的类型进行具体限定，可选地，每个属性元素都可以是一个二值化的属性，也即是仅包括0或1这两种取值，比如，当属性元素为人物性别时，若取值为0则代表人物为女性，若取值为1则代表人物为男性。

在获取人脸属性信息的过程中，终端可以对该原始人脸图像进行人脸属性特征提取，得到该原始人脸图像的人脸属性向量，将该人脸属性向量确定为人脸属性信息。

在一些实施例中，在提取人脸属性向量时，可以先获取至少一个属性元素的文本标签，对该至少一个属性元素的文本标签进行独热编码(one-hot)处理或者词嵌入(embedding)处理，得到人脸属性向量。

可选地，在进行词嵌入处理时可以采用词向量模型来执行嵌入操作，比如，根据文本标签的语种不同，该词向量模型可以是中文词向量模型，也可以是外文词向量模型，本公开实施例不对词向量模型的类型进行具体限定。

可选地，在获取至少一个属性元素的文本标签时，终端可以将原始人脸图像输入到至少一个二分类模型中，通过至少一个二分类模型对原始人脸图像进行至少一个二分类处理，将该至少一个二分类模型输出的至少一个预测标签确定为上述至少一个属性元素的文本标签。

在一些实施例中，当属性元素的数量大于或等于2时，终端还可以将原始人脸图像输入到一个多分类模型中，通过多分类模型对原始人脸图像进行多分类处理，将多分类模型输出的多个预测标签确定为多个属性元素的文本标签。

在上述过程中，独热编码处理能够将至少一个属性元素的文本标签编码成一个多维的特征向量，这个特征向量可以是一个二值化的向量，也即是每个属性元素的取值要么为0要么为1，能够减少后续人脸图像生成过程的计算量。

在上述过程中，词嵌入处理能够将至少一个属性元素的文本标签编码成嵌入空间内的一个嵌入向量，从而能够表达更加丰富的人脸属性信息，使得人脸属性向量具有更好地表达能力。

在上述过程中，仅以人脸关键点图、语义分割图以及人脸属性向量三者为例，对多种人脸语义信息的获取过程进行示例性说明，但不应构成对该多种人脸语义信息的内容的限定，该多种人脸语义信息可以包括上述三者中至少两项，也可以包括诸如边缘梯度特征图等语义信息，这里不做一一枚举。

在步骤302中，终端将原始人脸图像和该原始人脸图像的多种人脸语义信息输入图像生成模型，通过该图像生成模型分别对该原始人脸图像和该多种人脸语义信息进行编码，得到该原始人脸图像的人脸图像特征和该多种人脸语义信息的多个人脸语义特征。

其中，该图像生成模型基于具有相同的图像内容但具有不同的图像风格的样本图像对训练得到。

其中，一个人脸语义特征用于表征一种人脸语义信息所具有的特征。

在一些实施例中，图像生成模型可以是一个具有编解码结构的CNN模型，在图像生成模型中可以包括编码部分(encoder)和解码部分(decoder)，在编码部分中对原始人脸图像进行降采样处理，在解码部分对原始人脸图像进行上采样处理，在编码部分和解码部分中均可以包括至少一个卷积层。

可选地，编码部分和解码部分可以具有对称的结构，也即是说，编码部分的卷积层数量与解码部分的卷积层数量可以是相同的，从而能够保证输出的目标人脸图像与原始人脸图像具有相同的尺寸，当然，编码部分和解码部分也可以具有不对称的结构，此时可以对输出的目标人脸图像再次进行尺寸变换，同样能够保证与原始人脸图像具有相同的尺寸。

在一些实施例中，上述编码部分的各个卷积层之间可以选择性地嵌入至少一个池化层，每个池化层用于压缩上一个卷积层的输出图，可以认为通过该池化层对上一个卷积层的输出图进行降采样处理，有利于简化图像生成模型的计算复杂度。这里所说的“选择性嵌入”是指可以每隔一个卷积层嵌入一个池化层，也可以每隔多个卷积层嵌入一个池化层，当然，池化层可以嵌入在任一个卷积层之后，池化层的数量可以是大于或等于1且小于或等于编码部分的卷积层数量的任一数值，本公开实施例不对该池化层的数量和嵌入位置进行具体限定。

在一些实施例中，编码部分的各个卷积层之间还可以选择性地嵌入至少一个非线性层，每个非线性层用于对上一个卷积层的输出图进行非线性处理，该非线性层可以采用任一能够添加非线性因素的激活函数，例如该激活函数可以是sigmoid函数、tanh函数或者ReLU函数等，从而为图像生成模型引入非线性因素。这里所说的“选择性嵌入”与上述编码部分池化层的“选择性嵌入”类似，在此不做赘述。

在上述过程中，在通过图像生成模型分别对原始人脸图像和人脸语义信息进行编码的过程中，对于原始人脸图像而言，可以直接通过编码部分的至少一个卷积层对原始人脸图像进行卷积处理，得到原始人脸图像的人脸图像特征；对于人脸语义信息而言，如果人脸语义信息为人脸关键点信息或者人脸语义分割信息中至少一项，也可以通过编码部分的至少一个卷积层对人脸关键点信息或者人脸语义分割信息中至少一项进行卷积处理，得到原始人脸图像的至少一个人脸语义特征，而对于人脸属性信息而言，由于本身就是一个多维向量，那么终端可以不将人脸属性信息输入到编码部分中，而是对人脸属性信息直接进行维度拓展，将多维向量通过复制操作拓展成多通道的空间向量，使得空间向量的高度与人脸图像特征的高度相同，且空间向量的宽度与人脸图像特征的高度相同。

在一些实施例中，上述维度拓展的含义为：终端可以响应于该多种人脸语义信息中包括人脸属性信息，对该人脸属性信息进行复制，基于复制得到的信息对该人脸属性信息进行填充，得到该人脸属性信息的人脸语义特征，该人脸语义特征与该人脸图像特征的高度和宽度相同。换言之，相当于将人脸属性信息分别的宽度维度以及高度维度上进行拓展，从而将一个特征向量拓展为一张多通道的空间向量(也即一张特征图)。例如，假设人脸属性信息是一个80维的二值向量，每个属性元素取值均为0或1，而人脸图像特征是一个32×32×128维的特征图(feature map)，那么可以将80维的人脸属性信息通过复制以及填充操作，拓展成一个32×32×80维的空间向量，这个空间向量也即是一个人脸语义特征。

图4是本公开实施例提供的一种拓展人脸属性信息的原理性示意图，请参考图4，对于一张原始人脸图像400而言，提取其人脸属性信息401之后，在宽度方向和高度方向上进行复制操作，并基于复制得到的信息对该人脸属性信息401进行填充，直到填充所得的特征图的宽度和高度与人脸图像特征的宽度和高度相同，得到了人脸语义特征402。

在步骤303中，终端对该人脸图像特征和该多个人脸语义特征进行融合处理，得到该原始人脸图像的人脸融合特征。

在上述过程中，通过对人脸图像特征和人脸语义特征进行融合，从而在生成目标人脸图像的过程引入了人脸语义信息，由于人脸语义信息包括多种(比如人脸关键点信息、人脸语义分割信息或者人脸属性信息中至少两项)，那么这种多语义引导的机制能够保证在对原始人脸图像进行风格迁移的过程，避免丢失掉原始人脸图像中的一些重要的人脸语义信息，能够提升人脸风格迁移过程的精准性，达到更好的人脸风格迁移效果。

图5是本公开实施例提供的一种特征融合过程的流程图，请参考图5，在针对人脸图像特征和人脸语义特征进行融合的过程中，若多种人脸语义信息中包括人脸关键点信息或者人脸语义分割信息中至少一项，那么终端可以通过执行下述子步骤3031-3034来进行特征融合：

在步骤3031中，终端响应于多种人脸语义信息包括人脸关键点信息或者人脸语义分割信息中至少一项，对该人脸关键点信息或者人脸语义分割信息中至少一项所对应的至少一个人脸语义特征进行均值池化处理，得到至少一个语义池化特征。

对于人脸关键性信息或者人脸语义分割信息中至少一项，由于终端在获取其人脸语义特征时，通常是通过将人脸关键性信息或者人脸语义分割信息中至少一项输入到图像生成模型的编码部分中，那么编码部分最终输出的也是一个经过降采样和卷积处理之后的至少一个人脸语义特征(同样是特征图的形式)，此时可以将输出的至少一个人脸语义特征输入到一个均值池化(average pooling)层中，通过均值池化层对人脸语义特征进行均值池化处理，得到上述至少一个语义池化特征。

在上述均值池化层中，对任一人脸语义特征，终端可以通过一个池化窗口对人脸语义特征进行滑动扫描，对任一个扫描位置而言，将池化窗口内的平均像素值确定为语义池化特征中的一个像素值，重复执行滑动扫描的过程，从而能够得到语义池化特征。

在一些实施例中，除了均值池化之外，终端还可以对该至少一个人脸语义特征进行最大池化处理(max pooling)，也即是将至少一个人脸语义特征输入到一个最大池化层中，通过最大池化层对至少一个人脸语义特征进行最大池化处理，得到上述至少一个语义池化特征。

在上述最大池化层中，对任一人脸语义特征，终端也可以通过一个池化窗口对人脸语义特征进行滑动扫描，对任一个扫描位置而言，将池化窗口内的最大像素值确定为语义池化特征中的一个像素值，重复执行滑动扫描的过程，从而能够得到语义池化特征。

在均值池化的过程中，能够保留人脸语义特征中更多的背景信息，而在最大池化的过程中，能够保留人脸语义特征中更多的纹理信息，本公开实施例不对池化操作的类型进行具体限定。

在步骤3032中，终端对该至少一个语义池化特征进行指数归一化处理，得到至少一个人脸注意力特征。

其中，该人脸注意力特征用于表示该人脸关键点信息或者人脸语义分割信息中至少一项的注意力权重。

在上述过程中，终端可以将至少一个语义池化特征输入到一个指数归一化(softmax)层中，通过softmax层对至少一个语义池化特征进行softmax处理，能够得到至少一个人脸注意力特征，其中，一个人脸注意力特征用于表示一个人脸语义特征中各个特征通道的重要程度，对于注意力权重较大的特征通道而言，表明对应的特征具有较高的重要性，而对于注意力权重较小的特征通道而言，表示对应的特征具有较低的重要性，比如，在进行风格迁移的过程中，眼部特征比头发特征具有更高的重要性，也就是说更吸引人的注意力，那么在注意力权重矩阵中，眼部特征通道将具有比头发特征通道更大的注意力权重。

在上述步骤3031-3032中，给出的是针对每个特征通道计算一个注意力权重，这种方式称为通道注意力机制，能够减少引入注意力机制的计算量，在一些实施例中，终端也可以通过类似的均值池化处理方式，针对每个特征通道中的每个像素点都计算一个注意力权重，这种方式称为空间注意力机制，能够提升注意力机制的细化粒度，本公开实施例不对具体采用哪种注意力机制进行具体限定。

在步骤3033中，终端响应于该多种人脸语义信息中包括人脸关键点信息或者人脸语义分割信息中至少一项，对该人脸关键点信息或者人脸语义分割信息中至少一项的人脸语义特征，将该人脸语义特征与人脸注意力特征相乘，得到语义注意力特征。

在上述过程中，通过将人脸语义特征和人脸注意力特征相乘，相当于对人脸语义特征基于注意力机制进行了一次加权处理，在加权过程中，通过人脸注意力特征，弱化掉人脸语义特征中不重要的特征(也即是人们不关注的特征)，强化了人脸语义特征中重要的特征(也即是人们更关注的特征)。

针对不同的注意力机制，在对人脸语义特征与人脸注意力特征进行相乘时具有不同的含义，对于通道注意力机制而言，由于每个特征通道都对应于同一个注意力权重，那么只需要将每个特征通道中的所有像素点均与各个特征通道对应的注意力权重相乘，即可得到语义注意力特征；对于空间注意力机制而言，由于每个特征通道中每个像素点都对应于各自的注意力权重，那么可以将每个特征通道中各个像素点均与各自对应的注意力权重相乘，即可得到语义注意力特征。

在步骤3034中，终端对该人脸图像特征和该语义注意力特征进行融合处理，得到人脸融合特征。

在一些实施例中，终端将人脸图像特征和语义注意力特征进行融合的方式可以包括下述至少一项：对该人脸图像特征和该语义注意力特征进行拼接处理，得到该人脸融合特征；或者，将该人脸图像特征和该语义注意力特征中对应位置的像素值相加，得到该人脸融合特征；或者，将该人脸图像特征和该语义注意力特征中对应位置的像素值相乘，得到该人脸融合特征。

在上述过程中，拼接(concat)处理是指将人脸图像特征和语义注意特征直接在维度上相连，也即是说，假设人脸图像特征是128维，语义注意力特征是32维，那么进行拼接处理之后可以得到一个128+32＝160维的人脸融合特征。

在一些实施例中，终端还可以采用双线性汇合的方式来进行特征融合，本公开实施例不对特征融合的方式进行具体限定。

在上述子步骤3031-3034中，提供了在人脸语义信息包括人脸关键点信息或者人脸语义分割信息中至少一项的情况下，如何对人脸图像特征和人脸语义特征进行基于注意力机制的特征融合方式，而针对人脸语义信息包括人脸属性信息的情况，由于人脸属性信息本质上是一个特征向量，而特征向量本身就是一个二值化的多维向量了，在对特征向量进行维度扩展得到空间向量的过程中，由于采用的是复制及填充操作，那么得到的空间向量也是一个二值化的空间向量，将这个二值化的空间向量作为人脸语义特征之后，这个二值化的空间向量本身就相当于一个二值化的人脸注意力特征，因此针对特征向量形式的人脸语义信息，无需去获取人脸注意力特征，直接将二值化的空间向量与人脸图像特征进行融合即可，其融合方式仍然可以包括拼接处理、对应位置的像素值相加或者对应位置的像素值相乘中至少一项，这里不做赘述。

在一些实施例中，终端也可以不引入注意力机制，也即是在获取到多个人脸语义特征之后，直接对该人脸图像特征和该多个人脸语义特征进行融合处理，得到该人脸融合特征，从而能够简化人脸风格迁移的流程。具体地，其融合方式可以包括下述至少一项：对该人脸图像特征和该多个人脸语义特征进行拼接处理，得到该人脸融合特征；或者，将该人脸图像特征和该多个人脸语义特征中对应位置的像素值相加，得到该人脸融合特征；或者，将该人脸图像特征和该多个人脸语义特征中对应位置的像素值相乘，得到该人脸融合特征。

在一些实施例中，由于将人脸图像特征和人脸语义特征融合之后，所得到的人脸融合特征通常会具有很高的维度，这样会加重后续解码过程的负担，因此可以通过一个1×1的卷积层对人脸融合特征进行降维处理，基于降维处理后的人脸融合特征执行下述步骤304。

在步骤304中，终端通过该图像生成模型对该人脸融合特征进行解码，得到目标人脸图像，该目标人脸图像与该原始人脸图像具有相同的图像内容但具有不同的图像风格。

其中，该图像风格用于表示图像的可视化风格，包括艺术风格、保真风格或者语义风格中至少一项，在可视化风格中可以包含纹理、边缘、色彩、饱和度或者光泽度等可视化信息。

在上述过程中，终端可以将人脸融合特征输入图像生成模型的解码部分，通过解码部分的至少一个卷积层对人脸融合特征进行解码，输出目标人脸图像。

在一些实施例中，上述解码部分的各个卷积层之间可以选择性地嵌入至少一个上采样层，每个上采样层用于扩张上一个卷积层的输出图，可以认为通过该上采样层对上一个卷积层的输出图进行上采样处理，有利于将解码部分输出的目标人脸图像的尺寸还原至原始人脸图像原本的尺寸。这里所说的“选择性嵌入”是指可以每隔一个卷积层嵌入一个上采样层，也可以每隔多个卷积层嵌入一个上采样层，当然，上采样层可以嵌入在任一个卷积层之后，上采样层的数量可以是大于或等于1且小于或等于解码部分的卷积层数量的任一数值，本公开实施例不对该上采样层的数量和嵌入位置进行具体限定。

可选地，该上采样层中所进行的上采样处理可以是上池化(unpooling)、上采样(unsampling)或者反卷积(up-convolution，也称上卷积)中的至少一种，本公开实施例不对具体采用哪种方式以执行上采样处理进行限定。

在一些实施例中，解码部分的各个卷积层之间还可以选择性地嵌入至少一个非线性层，每个非线性层用于对上一个卷积层的输出图进行非线性处理，该非线性层可以采用任一能够添加非线性因素的激活函数，例如该激活函数可以是sigmoid函数、tanh函数或者ReLU函数等，从而为图像生成模型引入非线性因素。这里所说的“选择性嵌入”与上述解码部分上采样层的“选择性嵌入”类似，在此不做赘述。

在上一个实施例中，针对终端如何对原始人脸图像进行风格迁移，以得到目标人脸图像的过程进行了下面，通过引入了多种人脸语义信息，能够达到更加精准的人脸风格迁移效果，通过注意力机制有效地对不同种类的人脸语义信息进行了权重分配，能够保证多个人脸语义特征之间的有效配合，进一步提升人脸风格迁移的效果，在本公开实施例中，将对图像生成模型的训练过程进行详述。

图6是本公开实施例提供的一种图像生成模型的训练方法流程图，请参考图6，该方法可以应用于电子设备中，以电子设备为服务器为例进行说明，该图像生成模型的训练过程包括：

在步骤600中，服务器获取样本图像集，根据该样本图像集合成伪造图像集。

其中，该样本图像集包括至少一个样本图像对，一个样本图像对中包括一对具有不同图像风格且具有相同图像内容的真实人脸图像，为了方便描述，对任一样本图像对而言，该样本图像对包括第一真实人脸图像和第二真实人脸图像，第一真实人脸图像对应于第一风格，第二真实人脸图像对应于第二风格。

在上述过程中，服务器可以在本地数据库中读取样本图像集，或者，服务器还可以在云端数据库中下载样本图像集，本公开实施例不对样本图像集的获取方式进行具体限定。

在上述步骤600中，服务器获取样本图像集之后，根据该样本图像集合成一个伪造图像集，具体地，对样本图像集中任一真实人脸图像，服务器可以将该真实人脸图像都输入到一个图像变换网络中，通过图像变换网络对该图像进行一些平移、旋转、模糊、锐化、卷积等变换处理，生成一张与该真实人脸图像类似的伪造人脸图像，各个伪造人脸图像可以构成一个伪造图像集，用于训练初始判别模型。其中，该图像变换网络可以采用预训练的图像生成模型，或者其他的CNN模型、编解码模型等。

在步骤601中，服务器基于该样本图像集和根据该样本图像集合成的伪造图像集，对初始判别模型进行迭代训练，得到图像判别模型。

其中，该图像判别模型用于判断输入的图像是样本图像集中的真实人脸图像还是伪造图像集中的伪造人脸图像，一个伪造人脸图像是指由计算机基于样本图像集中的一个真实人脸图像而合成的人脸图像。

在上述过程中，在训练初始判别模型时，由于上述样本图像集中各个人脸图像均为真实人脸图像，因此可以认为是一个真样本集，在此基础上，根据样本图像集所合成的伪造图像集，则可以视为根据真样本集而构造的一个假样本集，真样本集内的一个真实人脸图像以及假样本集内的一个与其对应的伪造人脸图像，即可构成初始判别模型的一个训练样本。。

在一些实施例中，对任一次迭代过程而言，服务器可以将真实人脸图像和伪造人脸图像均输入到初始判别模型中，由初始判别模型预测输入图像是真实人脸图像还是伪造人脸图像，将预测结果和实际结果进行对比，获取本次迭代过程的损失函数值，若损失函数值大于第一目标阈值，对本次迭代过程的判别模型进行参数调整，基于调整参数后的判别模型执行下一次迭代过程，直到某次迭代时损失函数值小于或等于第一目标阈值，将此时的判别模型确定为上述图像判别模型。其中，该第一目标阈值可以是任一大于或等于0且小于或等于1的数值，本公开实施例不对第一目标阈值的取值进行具体限定。

在步骤602中，服务器基于该样本图像集和该图像判别模型，对初始生成模型进行迭代训练，得到图像生成模型。

在一些实施例中，该图像判别模型可以包括一对具有耦合关系的第一判别网络和第二判别网络，该图像生成模型包括一对具有耦合关系的第一生成网络和第二生成网络。

在上述步骤601中，服务器初始判别模型进行迭代训练的过程，可以认为是一个预先训练的过程，在对初始网络进行迭代训练的过程中，仍然会对图像判别模型的参数进行连动的调整，下面将以任一次迭代过程为例，对图像生成模型的迭代训练过程进行详述。

图7是本公开实施例提供的一种图像生成模型的迭代训练过程的原理性示意图，请参考图7，对于样本图像集中任一个样本图像对而言，包括第一真实人脸图像I_realA和第二真实人脸图像I_realB，第一真实人脸图像对应于第一风格，第二真实人脸图像对应于第二风格。在任一次迭代过程中，将第一风格的第一真实人脸图像I_realA及其多种人脸语义信息输入到第一生成网络中，第一生成网络输出第二风格的第一伪造人脸图像I_fakeB，将第二风格的第一伪造人脸图像I_fakeB及其多种人脸语义信息输入到第二生成网络中，第二生成网络输出第一风格的第一循环人脸图像I_cycleA，将第二风格的第二真实人脸图像I_realB及其多种人脸语义信息输入到第二生成网络中，第二生成网络输出第一风格的第二伪造人脸图像I_fakeA，将第一风格的第二伪造人脸图像I_fakeA及其多种人脸语义信息输入到第一生成网络中，第一生成网络输出第二风格的第二循环人脸图像I_cycleB。

需要说明的是，上述第一生成网络、第二生成网络进行人脸图像生成的过程与上述实施例的步骤301-304中人脸图像生成过程类似，这里不做赘述，也即是说，不管是第一生成网络还是第二生成网络，均需要利用多种人脸语义信息进行引导。

接下来，对本次迭代过程中损失函数值的获取方式进行介绍：

步骤一、服务器将第一风格的第一真实人脸图像I_realA和第一风格的第二伪造人脸图像I_fakeA输入到第一判别网络中，通过第一判别网络输出第一对抗损失

。

其中，第一对抗损失

用于表示第一风格的真实人脸图像与伪造人脸图像之间的误差。

假设用F表示第二生成网络，那么第二生成网络F的映射关系可以表示为F：Y→X，X是指第一风格的人脸图像，Y是指第二风格的人脸图像，用D_X表示第一判别网络，那么第一对抗损失

也可以写作

，能够用如下公式进行表示：

其中，x表示任一个第一真实人脸图像I_realA，D_X(x)表示经过第一判别网络对第一真实人脸图像I_realA进行判别所得的预测结果，y表示任一个第二真实人脸图像I_realB，F(y)表示经过第二生成网络对第二真实人脸图像I_realB进行风格迁移所得的第二伪造_人脸图像I_fakeA，D_X(F(y))表示经过第一判别网络对第二伪造人脸图像I_fakeA进行判别所得的预测结果，E[·]表示求数学期望，p_data(x)表示x所服从的统计分布，p_data(y)表示y所服从的统计分布。

步骤二、服务器将第二风格的第二真实人脸图像I_realB和第二风格的第一伪造人脸图像I_fakeB输入到第二判别网络中，通过第二判别网络输出第二对抗损失

。

其中，第二对抗损失

用于表示第二风格的真实人脸图像与伪造人脸图像之间的误差。

假设用G表示第一生成网络，那么第一生成网络G的映射关系可以表示为G：X→Y，X是指第一风格的人脸图像，Y是指第二风格的人脸图像，用D_Y表示第二判别网络，那么第二对抗损失

也可以写作

，能够用如下公式进行表示：

其中，x表示任一个第一真实人脸图像I_realA，G(x)表示经过第一生成网络对第一真实人脸图像I_realA进行风格迁移所得的第一伪造人脸图像I_fakeB，y表示任一个第二真实人脸图像I_realB，D_Y(y)表示经过第二判别网络对第二真实人脸图像I_realB进行判别所得的预测结果，D_Y(G(x))表示经过第二判别网络对第一伪造人脸图像I_fakeB进行判别所得的预测结果，E[·]表示求数学期望，p_data(x)表示x所服从的统计分布，p_data(y)表示y所服从的统计分布。

步骤三、服务器获取第一风格的第一真实人脸图像I_realA和第一风格的第一循环人脸图像I_cycleA之间的第一循环损失

。

其中，由于第一循环人脸图像I_cycleA是由第一伪造人脸图像I_fakeB通过第二生成网络还原处理的第一风格的人脸图像，因此第一循环损失

用于表示第一风格的真实人脸图像与循环人脸图像(还原后的人脸图像)之间的误差。

步骤四、服务器获取第二风格的第二真实人脸图像I_realB和第二风格的第二循环人脸图像I_cycleB之间的第二循环损失

。

其中，由于第二循环人脸图像I_cycleB是由第二伪造人脸图像I_fakeA通过第一生成网络还原处理的第二风格的人脸图像，因此第二循环损失

用于表示第二风格的真实人脸图像与循环人脸图像(还原后的人脸图像)之间的误差。

在上述步骤三和步骤四中，可以将第一循环损失

和第二循环损失

统称为循环损失

，其中，G表示第一生成网络，第一生成网络G的映射关系可以表示为G：X→Y，X是指第一风格的人脸图像，Y是指第二风格的人脸图像，F表示第二生成网络，第二生成网络F的映射关系可以表示为F：Y→X。在基础上，循环损失

可以表示为如下公式：

其中，x表示任一个第一真实人脸图像I_realA，G(x)表示经过第一生成网络对第一真实人脸图像I_realA进行风格迁移所得的第一伪造人脸图像I_fakeB，F(G(x))表示经过第二生成网络对第一伪造人脸图像I_fakeB进行风格迁移所得的第一循环人脸图像I_cycleA，那么上述公式中第一项则表示第一循环损失

，即为第一循环人脸图像I_cycleA与第一真实人脸图像I_realA之间的误差的绝对值，同理，y表示任一个第二真实人脸图像I_realB，F(y)表示经过第二生成网络对第二真实人脸图像I_realB进行风格迁移所得的第二伪造人脸图像I_fakeA，G(F(y))表示经过第一生成网络对第二伪造人脸图像I_fakeA进行风格迁移所得的第二循环人脸图像I_cycleB，那么上述公式中第二项则表示第二循环损失

，即为第二真实人脸图像I_realB与第二循环人脸图像I_cycleB之间误差的绝对值。其中，p_data(x)表示x所服从的统计分布，p_data(y)表示y所服从的统计分布。

上述第一对抗损失

、第二对抗损失

以及循环损失

三者可以构成整个模型的生成对抗损失

，也即是说：

步骤五、服务器将第一风格的第一真实人脸图像I_realA、第二风格的第二真实人脸图像I_realB以及第二风格的第一伪造人脸图像I_fakeB输入感知网络，通过感知网络输出感知损失

。

感知损失

可以包括内容损失

以及风格损失

这两部分，感知损失

可以表示为如下公式：

其中，L表示第一生成网络的卷积层数量，由于第一生成网络和第二生成网络是耦合的，因此L也等于第二生成网络的卷积层数量，L为大于或等于1的整数；i表示卷积层索引，也即是代表第i个卷积层，i为大于或等于1且小于或等于L的整数；α_i和β_i均表示平衡各个卷积层的权重，

表示第i个卷积层的内容损失，

表示第i个卷积层的风格损失，λ_s表示用于调节内容损失和风格损失的比例，可以认为是一个调节因子。

在上述公式中，

的具体形式为：

其中，N_i表示第i个卷积层中滤波器(卷积核)的个数，D_i表示第i个卷积层中每个滤波器对应的特征图的总像素数，O表示第一伪造人脸图像I_fakeB，I_c表示第一真实人脸图像I_realA，F_i(·)表示感知网络针对第i个卷积层的特征图所输出的特征图，j和k均表示像素的索引。

在上述公式中，

的具体形式为：

其中，N_i表示第i个卷积层中滤波器(卷积核)的个数，O表示第一伪造人脸图像I_fakeB，I_s表示第二真实人脸图像I_realB，G_i(·)表示感知网络针对第i个卷积层输出的特征图中各个特征计算内积所得的Gram矩阵，可选地，服务器可以通过VGG-16或者VGG-19等模型来计算Gram矩阵。

步骤六、服务器基于第一对抗损失

、第二对抗损失

、第一循环损失

、第二循环损失

以及感知损失

确定本次迭代过程的损失函数值。

在上述过程中，服务器可以将第一对抗损失

、第二对抗损失

、第一循环损失

、第二循环损失

以及感知损失

相加所得的数值确定为本次迭代过程的损失函数值，在一些实施例中，还可以为每一项损失设置一个权重，从而将各个损失项加权之后再相加所得的数值确定为本次迭代过程的损失函数值。

在上述步骤一至六中，相当于服务器基于第一真实人脸图像、第二真实人脸图像、第一伪造人脸图像、第二伪造人脸图像、第一循环人脸图像以及第二循环人脸图像，通过第一判别网络以及第二判别网络，获取了本次迭代过程的损失函数值。

在获取本次迭代过程的损失函数值之后，响应于该损失函数值不符合停止训练条件，继续训练，此时可以对本次迭代过程的生成模型(第一生成网络、第二生成网络)以及判别模型(第一判别网络、第二判别网络)进行参数调整，基于调整参数后的生成模型以及判别模型执行下一次迭代过程，直到某次迭代时，响应于损失函数值符合停止训练条件，将本次迭代过程采用的初始生成模型(包括第一生成网络或第二生成网络中至少一项)确定为上述图像生成模型。可选地，该停止训练条件可以是损失函数值小于或等于第二目标阈值，该第二目标阈值可以是任一大于或等于0且小于或等于1的数值，本公开实施例不对第二目标阈值的取值进行具体限定。可选地，该停止训练条件还可以是迭代次数到达目标次数。

本公开实施例提供的方法，通过对生成模型与判别模型进行迭代训练，在迭代训练的过程中，生成模型和判别模型分别之间达到对抗训练的效果，而生成模型和判别模型中分别包括一对耦合的网络，能够借助耦合网络达到更加精准的训练效果，使得最终训练得到的图像生成模型具有更加准确的风格迁移效果，从而在将图像生成模型投入到人脸风格迁移的过程中，能够提升人脸风格迁移的精准程度，提升人脸风格迁移的性能和效果。

图8是根据一示例性实施例示出的一种人脸图像生成装置的逻辑结构框图。参照图8，该装置包括输入单元801、融合单元802以及获取单元803。

输入单元801，被配置为执行将原始人脸图像和该原始人脸图像的多种人脸语义信息输入图像生成模型，通过该图像生成模型分别得到该原始人脸图像的人脸图像特征和该多种人脸语义信息的多个人脸语义特征，其中，该图像生成模型基于具有相同的图像内容但具有不同的图像风格的样本图像对训练得到，一个人脸语义特征用于表征一种人脸语义信息所具有的特征；

融合单元802，被配置为执行对该人脸图像特征和该多个人脸语义特征进行融合处理，得到该原始人脸图像的人脸融合特征；

获取单元803，被配置为执行基于该人脸融合特征，获取目标人脸图像，该目标人脸图像与该原始人脸图像具有相同的图像内容但具有不同的图像风格。

本公开实施例提供的装置，通过将原始人脸图像和多种人脸语义信息一起输入到图像生成模型中，能够在人脸图像生成过程中引入人脸语义信息，通过图像生成模型分别得到人脸图像特征和多个人脸语义特征，对人脸图像特征和多个人脸语义特征进行融合处理，得到人脸融合特征，由于人脸融合特征中包含了人脸语义特征的相关内容，因此相当于人脸语义信息引导了人脸风格迁移的过程，最后基于人脸融合特征获取目标人脸图像，正是由于通过人脸语义信息来引导人脸风格迁移，能够使得目标人脸图像中避免丢失掉原始人脸图像中一些重要的人脸语义特征，能够大大提升人脸风格迁移过程的精准性，提升人脸风格迁移过程的性能。

在一种可能实施方式中，该融合单元802被配置为执行下述至少一项：

在一种可能实施方式中，该融合单元802被配置为执行：

在一种可能实施方式中，基于图8的装置组成，该装置还包括：

复制填充单元，被配置为执行响应于该多种人脸语义信息中包括人脸属性信息，对该人脸属性信息进行复制，基于复制得到的信息对该人脸属性信息进行填充，得到该人脸属性信息的人脸语义特征，该人脸语义特征与该人脸图像特征的高度和宽度相同。

训练单元，被配置为执行基于样本图像集和根据该样本图像集合成的伪造图像集，对初始判别模型进行迭代训练，得到图像判别模型，该样本图像集包括至少一个样本图像对，一个样本图像对中包括一对具有不同图像风格且具有相同图像内容的真实人脸图像，该图像判别模型用于判断输入的图像是样本图像集中的真实人脸图像还是伪造图像集中的伪造人脸图像，一个伪造人脸图像是指由计算机基于样本图像集中的一个真实人脸图像而合成的人脸图像；

该训练单元，还被配置为执行基于该样本图像集和该图像判别模型，对初始生成模型进行迭代训练，得到该图像生成模型。

在一种可能实施方式中，该训练单元被配置为执行：

关于上述实施例中的人脸图像生成装置，其中各个单元执行操作的具体方式已经在有关该人脸图像生成方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图9示出了本公开一个示例性实施例提供的终端的结构框图，该终端也即是一种电子设备。该终端900可以是：智能手机、平板电脑、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端900还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端900包括有：处理器901和存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器901所执行以实现本公开中各个实施例提供的人脸图像生成方法。

在一些实施例中，终端900还可选包括有：外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地，外围设备包括：射频电路904、触摸显示屏905、摄像头组件906、音频电路907、定位组件908和电源909中的至少一种。

外围设备接口903可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中，处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上；在一些其他实施例中，处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路904用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路904包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路904还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本公开对此不加以限定。

显示屏905用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时，显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时，显示屏905还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏905可以为一个，设置终端900的前面板；在另一些实施例中，显示屏905可以为至少两个，分别设置在终端900的不同表面或呈折叠设计；在再一些实施例中，显示屏905可以是柔性显示屏，设置在终端900的弯曲表面上或折叠面上。甚至，显示屏905还可以设置成非矩形的不规则图形，也即异形屏。显示屏905可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件906用于采集图像或视频。可选地，摄像头组件906包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器901进行处理，或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路907还可以包括耳机插孔。

定位组件908用于定位终端900的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件908可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源909用于为终端900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于：加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。

加速度传感器911可以检测以终端900建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号，控制触摸显示屏905以横向视图或纵向视图进行用户界面的显示。加速度传感器911还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器912可以检测终端900的机体方向及转动角度，陀螺仪传感器912可以与加速度传感器911协同采集用户对终端900的3D动作。处理器901根据陀螺仪传感器912采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器913可以设置在终端900的侧边框和/或触摸显示屏905的下层。当压力传感器913设置在终端900的侧边框时，可以检测用户对终端900的握持信号，由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在触摸显示屏905的下层时，由处理器901根据用户对触摸显示屏905的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器914用于采集用户的指纹，由处理器901根据指纹传感器914采集到的指纹识别用户的身份，或者，由指纹传感器914根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器901授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器914可以被设置终端900的正面、背面或侧面。当终端900上设置有物理按键或厂商Logo时，指纹传感器914可以与物理按键或厂商Logo集成在一起。

光学传感器915用于采集环境光强度。在一个实施例中，处理器901可以根据光学传感器915采集的环境光强度，控制触摸显示屏905的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏905的显示亮度；当环境光强度较低时，调低触摸显示屏905的显示亮度。在另一个实施例中，处理器901还可以根据光学传感器915采集的环境光强度，动态调整摄像头组件906的拍摄参数。

接近传感器916，也称距离传感器，通常设置在终端900的前面板。接近传感器916用于采集用户与终端900的正面之间的距离。在一个实施例中，当接近传感器916检测到用户与终端900的正面之间的距离逐渐变小时，由处理器901控制触摸显示屏905从亮屏状态切换为息屏状态；当接近传感器916检测到用户与终端900的正面之间的距离逐渐变大时，由处理器901控制触摸显示屏905从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图9中示出的结构并不构成对终端900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图10是本公开实施例提供的一种服务器的结构示意图，该服务器也即是一种电子设备。服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)1001和一个或一个以上的存储器1002，其中，该存储器1002中存储有至少一条程序代码，该至少一条程序代码由该处理器1001加载并执行以实现上述各个实施例提供的人脸图像生成方法。当然，该服务器1000还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器1000还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种包括至少一条指令的存储介质，例如包括至少一条指令的存储器，上述至少一条指令可由电子设备中的处理器执行以完成上述实施例中人脸图像生成方法。可选地，上述存储介质可以是非临时性计算机可读存储介质，例如，该非临时性计算机可读存储介质可以包括ROM(Read-Only Memory，只读存储器)、RAM(Random-Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory，只读光盘)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，包括一条或多条指令，该一条或多条指令可以由电子设备的处理器执行，以完成上述各个实施例提供的人脸图像生成方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种人脸图像生成方法，其特征在于，包括：

2.根据权利要求1所述的人脸图像生成方法，其特征在于，所述对所述人脸图像特征和所述多个人脸语义特征进行融合处理，得到所述原始人脸图像的人脸融合特征包括下述至少一项：

3.根据权利要求1或2所述的人脸图像生成方法，其特征在于，所述多种人脸语义信息包括人脸关键点信息、人脸语义分割信息或者人脸属性信息中至少两项。

4.根据权利要求3所述的人脸图像生成方法，其特征在于，所述对所述人脸图像特征和所述多个人脸语义特征进行融合处理，得到所述原始人脸图像的人脸融合特征包括：

5.根据权利要求3所述的人脸图像生成方法，其特征在于，所述对所述人脸图像特征和所述多个人脸语义特征进行融合处理，得到所述原始人脸图像的人脸融合特征之前，所述方法还包括：

6.根据权利要求1所述的人脸图像生成方法，其特征在于，所述图像生成模型的训练过程包括：

7.根据权利要求6所述的人脸图像生成方法，其特征在于，所述图像判别模型包括一对具有耦合关系的第一判别网络和第二判别网络，所述初始生成模型包括一对具有耦合关系的第一生成网络和第二生成网络；

8.一种人脸图像生成装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

其中，所述一个或多个处理器被配置为执行所述指令，以实现如权利要求1至权利要求7中任一项所述的人脸图像生成方法。

10.一种存储介质，其特征在于，当所述存储介质中的至少一条指令由电子设备的一个或多个处理器执行时，使得所述电子设备能够执行如权利要求1至权利要求7中任一项所述的人脸图像生成方法。