CN114913057A

CN114913057A - 一种基于生成对抗学习的人脸妆容迁移方法

Info

Publication number: CN114913057A
Application number: CN202210535719.XA
Authority: CN
Inventors: 吴斯; 赖正源; 李君航; 宋全鹏
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2022-08-16

Abstract

本发明公开了一种基于生成对抗学习的人脸妆容迁移方法，包括：S1、准备三个不同的数据集；S2、将原始图像的风格转换成处理图像的风格；S3、使用预训练的人脸分割模型对图像中的人脸进行区域划分；S4、将上妆后的图像中的妆容迁移到未上妆的处理图像，完成人脸妆容迁移的任务。本发明使用易于收集的质量较低的人脸图像作为原始数据，结合图像增强模型(即神经网络)，训练一个用于人脸妆容迁移的模型(即神经网络)，以提升人脸妆容迁移的适用性。

Description

一种基于生成对抗学习的人脸妆容迁移方法

技术领域

本发明涉及人脸妆容迁移的技术领域，尤其是指一种基于生成对抗学习的人脸妆容迁移方法。

背景技术

人脸妆容迁移是图像风格迁移的一个分支，在美妆领域有广阔的应用前景。主要内容是将图像中人脸特定部位的妆容迁移到另一张图像的人脸上，以实现上妆效果的模拟。如今通过人工智能的方法实现人脸妆容迁移已经有许多成功的案例，特别是深度学习技术的兴起，进一步提高了人脸妆容迁移的准确性。

在数据量足够且成对的情况下，人脸妆容迁移的效果往往比较理想。然而，寻找数量足够的上妆前后成对的人脸图像是十分困难的，所以在有限的数据下训练一个准确高效、适用性广的人脸妆容迁移模型仍然是一个很大的挑战。由此，无监督人脸妆容迁移的问题被提出，无监督即数据集中未上妆及上妆的图像都不是成对的，而是随机提取未上妆以及上妆的图像进行训练，旨在提取某个部位妆容的潜在特征。在此之前的与无监督有关的方法，大部分都是直接使用指定的数据集进行训练，在此标准下评判模型效果。但是在本发明中，考虑了一个更有挑战的情况，就是在原始图像质量不佳时，使用神经网络对原始图像进行改善与增强，再进行人脸妆容迁移，这将增强人脸妆容迁移模型的适用性，使得该项技术能更好地应用于人民群众的日常生活之中。在日常生活的场景中，通过手机摄像头很容易就能够收集到大量的原始人脸图像，结合图像增强模型，能有效提高人脸妆容迁移模型的适用性。

发明内容

本发明的目的在于克服目前无监督人脸妆容迁移数据量不足的问题，并提高无监督人脸妆容迁移模型的适用性，提出了一种基于生成对抗学习的人脸妆容迁移方法，使用易于收集的质量较低的人脸图像作为原始数据，结合图像增强模型(即神经网络)，训练一个用于人脸妆容迁移的模型(即神经网络)，以提升人脸妆容迁移的适用性。

为实现上述目的，本发明所提供的技术方案为：一种基于生成对抗学习的人脸妆容迁移方法，包括以下步骤：

S1、准备三个不同的数据集；

第一个数据集是未上妆的原始图像集，该数据集中的图像采集自日常生活中非专业设备的拍摄图像，且未经后期图像处理；第二个数据集是未上妆的处理图像集，该数据集中的图像虽然也未上妆，但已经过处理，图像质量较第一个数据集高，对比度、分辨率指标都达到优良；第三个数据集是上妆后的图像集，该数据集中的图像质量较第二个数据集高，且图像中的人脸已经上妆；这里分别把未上妆的原始图像、未上妆的处理图像、上妆后的图像记为x_o、x_b、x_t；

S2、将原始图像的风格转换成处理图像的风格图像；

在保持原始图像人脸身份特征内容不变的情况下，将x_o的图像风格转换成x_b的图像风格，以改善图像质量，为此使用未上妆的原始图像集和未上妆的处理图像集训练一个用于风格转换的神经网络G₁，通过重构损失函数和生成对抗网络约束神经网络G₁的学习过程，学习完成后，该神经网络G₁能够利用原始图像x_o生成与处理图像x_b质量相当，但同时人脸特征保持不变的高质量人脸图像；

S3、使用预训练的人脸分割模型对图像中的人脸进行区域划分；

人脸分割模型划分出人脸的各个部位并给出对应部位的掩码mask，使用这些掩码和图像数据进行与操作，能够获取到单个部位的图像数据，利用人脸分割模型对处理图像x_b以及上妆后图像x_t进行处理，得到处理图像x_b的眼睛、鼻子、嘴唇部位的掩码

和上妆后图像x_t的眼睛、鼻子、嘴唇部位的掩码

S4、将上妆后的图像中的妆容迁移到未上妆的处理图像；

在步骤S2中得到高质量的人脸图像后，使用这些图像与上妆后的图像以及利用步骤S3提取到的各部位掩码

训练一个多模态无监督神经网络G₂，用于实现人脸妆容迁移。

进一步，在步骤S1中，第一个数据集是未上妆的原始图像集，该数据集中的图像采集自日常生活中非专业设备的拍摄图像，图像的主体内容是未经后期处理且不带妆容、自然状态下的人脸，图像背景简单并且背景所占比例小，由于拍摄场景、拍摄设备未作限制，该数据集的图像各项指标大概率是不佳的；第二个数据集是未上妆的处理图像集，图像的主体内容是不带妆容但具有良好辨识度的人脸，该数据集中的图像虽然未上妆，但图像的来源有所限制，并且已经过处理，图像质量较第一个数据集高，对比度、分辨率指标都达到优良；第三个数据集是上妆后的图像集，图像的主体内容是上妆后的人脸，并且人脸的妆容痕迹明显、易于辨认，图像质量较第二个数据集高。

进一步，在步骤S2中，对于第一个和第二个这两个不同的数据集，由于图像质量存在差异，在图像整体的风格上会有差别，而不同数据集中人脸图像的语义内容都是人脸特征，所以这里假设不同的数据集的风格是不同的，但内容是相同的；为此训练一个由数层卷积神经网络组成的用于图像风格转换的神经网络G₁，该神经网络G₁采用两个编码器E^S和E^C，上标S和C分别代表风格和人脸特征内容，编码器负责把人脸图像编码成风格编码和内容编码，内容编码代表人脸的身份特征，而风格编码代表图像的整体风格，包括色调、明暗程度和对比度；原始图像x_o的内容编码记为

风格编码记为

处理图像x_b的内容编码记为

风格编码记为

神经网络G₁还包含两个解码器G_o2b和G_b2o，以内容编码和风格编码为输入，输出转换过后的人脸图像；除此之外还有两个判别器D_o和D_b，用于辨别解码器生成的图像和数据集中的原图像，改善解码器的性能，提高生成图像的质量；其中，编码器和解码器首先要学会如何重构样本，所以定义了一个图像重构的损失函数L_rec：

L_rec＝||G_o2b(E^S(x_o),E^C(x_o))-x_o||+||G_b2o(E^S(x_b),E^C(x_b))-x_b||

对于每个随机选择的原始图像-处理图像的数据对，通过交换它们的风格编码来实现风格的转换；在此过程中，对于两个编码器来说，它们必须要能在样本上正确地估计风格编码和内容编码，需保证经过变换的过程，编码器产生的风格编码、内容编码不受改变，所以对应的损失函数如下：

式中，

是图像内容编码的重构损失函数，

是图像风格编码的重构损失函数；

为了让生成的图像尽量符合处理图像数据的分布，保证生成的样本在改变风格编码和内容编码后依然真实，使用了两个判别器D_o和D_b，旨在把风格转换后生成的样本和真实的样本区分开；在生成对抗学习中，为了与D_o和D_b对抗，G_o2b和G_b2o需要生成更接近真实的人脸图像，以匹配处理图像的分布，所以对抗训练中神经网络G₁的生成部分的损失函数L_GAN如下：

为了增强用于风格转换的神经网络G₁的可用性和抗噪能力，使用了一组编解码器G_rec、D_rec用于接收原始图像x_o，并将其编码，混入随机噪声数据，重新生成一张与原始图像一致的带噪图像x'_o；通过拉近原始图像x_o和带噪图像x'_o的分布，能够有效增强神经网络在处理质量不佳图形时的表现，故定义损失函数L_noise如下：

L_noise＝||D_rec(G_rec(x_o))-x_o||

总的训练目标L_Total为：

式中，λ_x、λ_c、λ_s、λ_n是损失函数的权重；最后，将所有原始图像都转换成具有处理图像的风格，但保持人脸特征内容不变的图像。

进一步，在步骤S3中，使用预训练的人脸分割模型为基于BiSeNet神经网络架构的人脸分割模型。

进一步，在步骤S4中，利用步骤S2中得到的处理图像x_b和上妆后图像x_t，同时利用步骤S3提取到的各部位掩码

进行逻辑与操作，提取到眼睛、鼻子、嘴唇部位的图像

利用以上编码数据作为多模态无监督神经网络G₂的输入对其进行训练，具体来说，G₂包含以下组成部分：编码器E_ps、编码器E_fi、解码器G_mf、以及判别器D_b和D_t；为了把上妆后图像x_t的妆容迁移到x_b，需要对上妆图像眼睛、鼻子、嘴唇部位的图像的内容

进行编码，为此采用一个编码器E_ps，该编码器E_ps的功能是编码妆容相关的信息得到风格码Z；为了实现风格码与x_b、x_t的解耦，采用多层感知器神经网络把风格码Z映射到另一分布空间，变换后记作风格码W_t，同理，处理图像x_b也能得到对应的无妆风格码W_b；为了将上妆后图像x_t的风格码W应用在处理图像x_b上，需要将处理图像x_b进行编码，为此采用一个编码器E_fi对图像进行编码，该编码器E_fi的功能是编码脸部的身份信息；最后，需要将风格码与脸部的身份信息混合，生成一张新的图像，实现脸部妆容的迁移，为此采用生成器G，该生成器G封装了以上两个编码器E_ps、E_fi和解码器G_mf，该解码器G_mf采用AdaIn的正则化方法把风格码融合到脸部的身份信息中，使得生成的图像兼具处理图像x_b的身份信息和上妆后图像x_t的妆容风格；除此之外还有两个判别器D_b和D_t，用于辨别解码器G_mf生成的图像和数据集中的原图像，改善解码器的性能，提高生成图像的质量；

编码器和解码器首先要学会如何生成更真实的图像、如何更准确地辨别图像的真伪，所以定义了两个对抗损失函数：

式中，

是生成器的对抗损失函数，

是判别器的对抗损失函数，L_GAN′是多模态无监督神经网络G₂的对抗损失函数；

为了保证编码器、解码器在编解码过程不改变图像原有的人脸身份特征，需要让上妆前图像和上妆后图像的人脸身份特征尽可能一致，使用VGG网络模型F_i提取图像的整体特征，定义全局感知损失函数

还需要保证编码器、解码器在编解码过程不改变图像中眼睛、鼻子、嘴唇部位的特征，这样才能让妆容成功迁移过去，而不是迁移了上妆后图像的整个部位，使用VGG网络模型F_i提取图像的特征，定义局部感知损失函数

由于使用的是非配对图像的无监督模式，需要让编码器、解码器学习到两个域之间存在的普遍差异，与特定的图像解耦，减少对训练集的依赖，所以定义循环损失函数L_cyc：

L_cyc＝||G(G(x_b,x_t),x_b)-x_b||+||G(G(x_t,x_b),x_t)-x_t||

为了让妆容迁移更加准确，使用直方图对处理图像x_b和上妆后图像x_t的眼睛、鼻子、嘴唇部位进行色彩分布的统计，编码器和解码器共同作用生成的上妆后图像应该与原本的上妆后图像在以上三个局部位置有相近的直方图分布，即色彩色调一致，使用模块HM来提取图像的直方图，定义损失函数L_m：

L_m＝||G(x_b,x_t)-HM(x_b,x_t)||+||G(x_t,x_b)-HM(x_t,x_b)||

总的训练目标L_Total′为：

式中，λ_GAN、λ_g、λ_l、λ_cyc、λ_m是损失函数的权重。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明结合多种神经网络，各个神经网络之间联合训练，最终提升了人脸妆容迁移的效果和适用性，并且具有良好的泛化性，可以对各种场景下拍摄的图像进行人脸妆容迁移。

2、本发明提出了一种用于风格转换的神经网络，用生成对抗网络技术实现图像增强的功能，提高人脸妆容迁移的适用性和抗噪能力，完成妆容迁移的全过程。同时，风格转换的神经网络能扩充用于妆容迁移训练的数据集，充分利用各种场景下拍摄的人脸图像。

3、本发明提出的妆容迁移方法在妆容迁移方面的表现优异，同时采用了多部位风格码分离的网络结构设计，实现了不同部位妆容的解耦，能够实现多种妆容的混合搭配，可以将来自不同图像的眼睛、鼻子、嘴唇部位的妆容迁移到同一张图像上面。

具体实施方式

下面结合实施例对本发明作进一步详细的描述，但本发明的实施方式不限于此。

本实施例提供了一种基于生成对抗学习的人脸妆容迁移方法，以上妆后图像的妆容迁移到未上妆的原始图像的实现为例，其中上妆后图像和未上妆的处理图像来自MT数据集，未上妆的原始图像由相关工作人员收集而来，包括以下步骤：

S1、图像数据部分采集自MT数据集，部分由工作人员收集，具体说明如下：

MT数据集由1109张未上妆的处理图像和2719张上妆后图像组成，另外还收集了3094张未上妆的原始图像。其中20％的图像用于测试，80％的图像用于训练。以上图像均是无标记的，采用无监督的方式训练。

未上妆的原始图像集中的图像采集自日常生活中非专业设备的拍摄图像，图像的主体内容是未经后期处理且不带妆容、自然状态下的人脸，图像背景较为简单并且背景所占比例不大，由于拍摄场景、拍摄设备未作限制，该数据集的图像各项指标如对比度、分辨率等较大概率是不佳的。未上妆的处理图像集，图像的主体内容是不带妆容但具有良好辨识度的人脸，该数据集中的图像虽然未上妆，但图像的来源有所限制，并且经过一定处理，图像质量较高，对比度、分辨率等指标都达到优良。上妆后的图像集，图像的主体内容是上妆后的人脸，并且人脸的妆容痕迹明显、易于辨认，图像质量也较高。分别把未上妆的原始图像、未上妆的处理图像、上妆后的图像记为x_o、x_b、x_t。

S2、需要将原始图像x_o的风格转换成处理图像x_b的风格，以改善图像质量。对于这两个不同的数据集，由于图像质量存在差异，在图像整体的风格上会有差别，而不同数据集中人脸图像的语义内容都是人脸特征，所以这里假设不同的数据集的风格是不同的，但内容是相同的。为此训练一个由数层卷积神经网络组成的用于图像风格转换的神经网络G₁，该神经网络G₁采用两个编码器E^S和E^C，上标S和C分别代表风格和人脸特征内容，编码器负责把人脸图像编码成风格编码和内容编码，内容编码代表人脸的身份特征，而风格编码代表图像的整体风格，包括色调、明暗程度和对比度；原始图像x_o的内容编码记为

风格编码记为

处理图像x_b的内容编码记为

风格编码记为

神经网络还包含两个解码器G_o2b和G_b2o，以内容编码和风格编码为输入，输出转换过后的人脸图像；除此之外还有两个判别器D_o和D_b，用于辨别解码器生成的图像和数据集中的原图像，改善解码器的性能，提高生成图像的质量；编码器和解码器首先要学会如何重构样本，所以定义了一个图像重构的损失函数L_rec：

L_rec＝||G_o2b(E^S(x_o),E^C(x_o))-x_o||+||G_b2o(E^S(x_b),E^C(x_b))-x_b||

对于每个随机选择的原始图像-处理图像的数据对，通过交换它们的风格编码来实现风格的转换。在此过程中，对于两个编码器来说，它们必须要能在样本上正确地估计风格编码和内容编码，需保证经过变换的过程，编码器产生的风格编码、内容编码不受改变。所以对应的损失函数如下：

式中，

是图像内容编码的重构损失函数，

是图像风格编码的重构损失函数。

为了让生成的图像尽量符合处理图像数据的分布，保证生成的样本在改变风格编码和内容编码后依然真实，使用了两个判别器D_o和D_b，旨在把风格转换后生成的样本和真实的样本区分开；在生成对抗学习中，为了让D_o与D_b对抗，G_o2b和G_b2o需要生成更接近真实的人脸图像，以匹配处理图像的分布，所以对抗训练中神经网络G₁的生成部分的损失函数L_GAN如下：

为了增强用于风格转换的神经网络G₁(以上各模块的总称)的可用性和抗噪能力，使用了一组编解码器G_rec、D_rec用于接收原始图像x_o，并将其编码，混入随机噪声数据，重新生成一张与原始图像几乎一致的带噪图像x'_o。通过拉近原始图像x_o和带噪图像x'_o的分布，可以有效增强神经网络在处理质量不佳图形时的表现，故定义损失函数L_noise如下：

L_noise＝||D_rec(G_rec(x_o))-x_o||

总的训练目标L_Total为：

式中，λ_x、λ_c、λ_s、λ_n是损失函数的权重。最后，将所有原始图像都转换成具有处理图像的风格，但保持人脸特征内容不变的图像。

S3、使用预训练的人脸分割模型对图像中的人脸进行区域划分。由于本发明的重点与关键是人脸妆容迁移模型，因此采用的是学界公认较为成熟的基于BiSeNet神经网络架构的人脸分割模型，该模型可以划分出人脸的各个部位并给出对应部位的掩码mask，使用这些掩码和图像数据进行与操作，可以获取到单个部位的图像数据。利用人脸分割模型对步骤S2中得到的处理图像x_b以及上妆后图像x_t进行处理，得到处理图像x_b的眼睛、鼻子、嘴唇部位的掩码

和上妆后图像x_t的眼睛、鼻子、嘴唇部位的掩码

S4、利用步骤S2中得到的处理图像x_b和上妆后图像x_t，同时利用步骤S3提取到的各部位掩码

进行逻辑与操作，分别提取出眼睛、鼻子、嘴唇部位的图像

利用以上编码数据作为多模态无监督神经网络G₂的输入对其进行训练，具体来说，G₂包含以下几个组成部分：编码器E_ps、编码器E_fi、解码器G_mf、以及判别器D_b和D_t，其具体作用和定义将在下文进行说明。为了把上妆后图像x_t的妆容迁移到x_b，需要对上妆图像眼睛、鼻子、嘴唇部位的图像

的内容进行编码，为此采用一个编码器E_ps，该编码器的功能是编码妆容相关的信息得到风格码Z，为了实现风格码与x_b、x_t的解耦，采用多层感知器神经网络把风格码Z映射到另一分布空间，变换后记作风格码W_t，同理，处理图像x_b也能得到对应的无妆风格码W_b。为了将上妆后图像x_t的风格码W应用在处理图像x_b上，需要将处理图像x_b进行编码，为此采用一个编码器E_fi对图像进行编码，该编码器的功能是编码脸部的身份信息。最后，需要将风格码与脸部的身份信息混合，生成一张新的图像，实现脸部妆容的迁移，为此采用生成器G，该生成器封装了以上两个编码器和解码器G_mf，G_mf解码器采用AdaIn的正则化方法把风格码融合到脸部的身份信息中，生成的图像能兼具处理图像x_b的身份信息和上妆后图像x_t的妆容风格。除此之外还有两个判别器D_b和D_t，用于辨别解码器生成的图像和数据集中的原图像，改善解码器的性能，提高生成图像的质量；

式中，

是生成器的对抗损失函数，

与上面的道理类似，还需要保证编码器、解码器在编解码过程不改变图像中眼睛、鼻子、嘴唇等部位的特征，这样才能让妆容成功迁移过去，而不是迁移了上妆后图像的整个部位，使用VGG网络模型F_i提取图像的特征，定义局部感知损失函数

L_cyc＝||G(G(x_b,x_t),x_b)-x_b||+||G(G(x_t,x_b),x_t)-x_t||

为了让妆容迁移更加准确，使用直方图对处理图像x_b和上妆后图像x_t的眼睛、鼻子、嘴唇部位进行色彩分布的统计，编码器和解码器共同作用生成的上妆后图像应该与原本的上妆后图像在以上三个局部位置有相近的直方图分布(即色彩色调一致)，使用模块HM来提取图像的直方图，定义损失函数L_m：

L_m＝||G(x_b,x_t)-HM(x_b,x_t)||+||G(x_t,x_b)-HM(x_t,x_b)||

总的训练目标L_Total′为：

式中，λ_GAN、λ_g、λ_l、λ_cyc、λ_m是损失函数的权重。

训练完成后，在MT数据集上评估了本发明方法，通过与其它模型产生图像的对比，本发明方法在暗部控制、局部妆容迁移、人脸错位情况下的迁移表现均优于基准方法，值得推广。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于生成对抗学习的人脸妆容迁移方法，其特征在于，包括以下步骤：

S1、准备三个不同的数据集；

S2、将原始图像的风格转换成处理图像的风格图像；

和上妆后图像x_t的眼睛、鼻子、嘴唇部位的掩码

S4、将上妆后的图像中的妆容迁移到未上妆的处理图像；

2.根据权利要求1所述的一种基于生成对抗学习的人脸妆容迁移方法，其特征在于：在步骤S1中，第一个数据集是未上妆的原始图像集，该数据集中的图像采集自日常生活中非专业设备的拍摄图像，图像的主体内容是未经后期处理且不带妆容、自然状态下的人脸，图像背景简单并且背景所占比例小，由于拍摄场景、拍摄设备未作限制，该数据集的图像各项指标大概率是不佳的；第二个数据集是未上妆的处理图像集，图像的主体内容是不带妆容但具有良好辨识度的人脸，该数据集中的图像虽然未上妆，但图像的来源有所限制，并且已经过处理，图像质量较第一个数据集高，对比度、分辨率指标都达到优良；第三个数据集是上妆后的图像集，图像的主体内容是上妆后的人脸，并且人脸的妆容痕迹明显、易于辨认，图像质量较第二个数据集高。

3.根据权利要求1所述的一种基于生成对抗学习的人脸妆容迁移方法，其特征在于：在步骤S2中，对于第一个和第二个这两个不同的数据集，由于图像质量存在差异，在图像整体的风格上会有差别，而不同数据集中人脸图像的语义内容都是人脸特征，所以这里假设不同的数据集的风格是不同的，但内容是相同的；为此训练一个由数层卷积神经网络组成的用于图像风格转换的神经网络G₁，该神经网络G₁采用两个编码器E^S和E^C，上标S和C分别代表风格和人脸特征内容，编码器负责把人脸图像编码成风格编码和内容编码，内容编码代表人脸的身份特征，而风格编码代表图像的整体风格，包括色调、明暗程度和对比度；原始图像x_o的内容编码记为