CN111275613A

CN111275613A - 一种引入注意力机制生成对抗网络人脸属性编辑方法

Info

Publication number: CN111275613A
Application number: CN202010124581.5A
Authority: CN
Inventors: 张海涛; 罗昊
Original assignee: Liaoning Technical University
Current assignee: Liaoning Technical University
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2020-06-12

Abstract

本发明公开了一种引入注意力机制生成对抗网络人脸属性编辑方法，包括：将差异向量与源图像作为输入；通过引入注意力机制的生成器生成含有目标属性的特征图；通过判别器对生成的图像进行判别。本发明在模型的生成器部分，引入了注意力机制，通过生成图片表明，在单一属性、多属性以及属性强度的控制上，本发明的方法能够提高图片的远端细节以及生成图像的生成属性与整体之间的协调性。与目前五种人脸属性编辑模型相比，在PSNR和SSIM指标上本发明结果都要优与这五种模型，证明了本发明的方法能够有效的降低噪音对生成图片的干扰，并且能够有效的降低图像的失真情况，无论在生成图像和指标数据上，本发明的方法都能够达到很好的效果。

Description

一种引入注意力机制生成对抗网络人脸属性编辑方法

技术领域

本发明属于人脸属性编辑的技术领域，尤其涉及一种引入注意力机制生成对抗网络人脸属性编辑方法。

背景技术

目前，人脸属性的应用十分广泛，例如在公安部门侦破案件时，可以根据犯罪嫌疑人的面部信息进行人脸编辑，进而确定犯罪嫌疑人的面部特征。在日常生活中，人脸属性也应用到了许多美图软件上，用户可以在图像中对人脸属性进行编辑，但是大多数的美图软件也只能够做到简单的对人脸属性进行编辑，例如：皮肤美白，眼睛的大小控制。随着现在人脸属性在日常生活中的应用越加广泛。人脸属性也逐渐成为近几年的热点话题之一。人脸属性是表现人脸特征信息的重要标志。人脸属性可以分为自身属性和外部属性。自身属性是指人自身的属性特征，除人为情况外，在短时间内不会产生或不产生较大改变。例如：性别、头发颜色以及肤色等。外部信息是指人为对其外表进行改变的信息，会对人脸属性造成一定的影响。例如：口罩、眼镜以及化妆等。人脸属性具有很强的稳定性以及差异性。同一个体的属性变化不会很大，但是不同个体的属性差异表现的十分明显。

人脸属性编辑是指在原有的人脸图片上对人脸的属性进行单个或多个属性的编辑，并其在保留原有人脸属性的基础上能够生成新的面孔。早期，一般利用人脸关键点来实现人脸属性的编辑(Zhu等，2013)。但是，使用这种方法生成的人脸往往会出现人脸扭曲和不对称的现象。图像到图像的翻译(Image-to-Image)的出现，提供了另一种人脸属性编辑的方法。Isoal等人(2017)提出pix2pix框架能够将数据图像转换成图像。接着Chen等人(2017)提出级联改进网络和Wang等人(2018)提出pix2pixHD，能够改善合成图像的视觉质量。这些网络都是属于解决多域图像到图像的转换问题。而人脸属性编辑的问题就是一个多域图像到图像的转换问题。针对每个特定的属性编辑，提出了几种模型方法(Chen等，2018；Li等，2016；Shen等，2017；Zhang等，2018)，但是实现不了任意的属性编辑。Perarnau等人(2016)提出IcGAN来实现对任意人脸属性进行编辑，IcGAN先将图像通过编码器进行潜在编码，然后根据目标属性对潜在编码进行解码。但是这样会极大的限制模型的重构能力。Lample等人(2017)提出FaderNET，在该模型中编码器采用对抗学习的方式将图像的显著信息与隐藏空间中的属性值直接分离，从而重构图像。接着，StarGAN(Choi等，2018)仅用一个生成器和判别器就实现了多个领域之间的图像生成和训练。AttGAN(He等，2019)将目标属性与encode输出结合，可以使属性在生成图片上体现的更加准确。STGAN(Liu等，2019)模型是一个建立在AtttGAN基础上的人脸属性编辑模型，通过差异向量和选择性传输单元的连接来实现人脸属性的编辑。

发明内容

基于以上现有技术的不足，本发明所解决的技术问题在于提供一种引入注意力机制生成对抗网络人脸属性编辑方法，能够有效降低噪声对生成图像的影响，提升了图像的远端细节与整体的协调性。

为了解决上述技术问题，本发明提供一种引入注意力机制生成对抗网络人脸属性编辑方法，包括以下步骤：

步骤1：将差异向量与源图像作为输入；

步骤2：通过引入注意力机制的生成器生成含有目标属性的特征图；

步骤3：通过判别器对生成的图像进行判别。

可选的，在步骤1中，将注意力机制引入到网络模型中，对生成器的结构做出改进，将目标属性向量与源属性向量之间的差异定义为差异向量，并将差异向量作为输入向量。

可选的，所述模型分为两个部分，分别为生成器G和判别器D，将注意力机制引入到模型中，对生成器G的结构做出改进，其中生成器G是由用于抽象潜在表示编码器G_enc和用于目标图像生成的解码器G_dec以及注意力模块所构成。

进一步的，所述判别器D包括两个分支D_adv和属性分类器D_cla，D_adv和D_cla具有类似的结构并且共享所有卷积层，D_adv是由五个卷积层和两个全连接层组成，用于区分一个图像是真图像还是假图像。

由上，本发明的引入注意力机制生成对抗网络人脸属性编辑方法在模型的生成器部分，引入了注意力机制，通过生成图片表明，在单一属性、多属性以及属性强度的控制上，本发明的方法能够提高图片的远端细节以及生成图像的生成属性与整体之间的协调性。与目前五种人脸属性编辑模型相比，在PSNR和SSIM指标上本发明结果都要优与这五种模型，证明了本发明的方法能够有效的降低噪音对生成图片的干扰，并且能够有效的降低图像的失真情况，无论在生成图像和指标数据上，本发明的方法都能够达到很好的效果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下结合优选实施例，并配合附图，详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例的附图作简单地介绍。

图1为本发明的引入注意力机制生成对抗网络人脸属性编辑方法的流程图；

图2为本发明与其他五种模型的对比图；

图3为本发明的单一属性强度控制图；

图4为本发明的多属性编辑对比图。

具体实施方式

下面结合附图详细说明本发明的具体实施方式，其作为本说明书的一部分，通过实施例来说明本发明的原理，本发明的其他方面、特征及其优点通过该详细说明将会变得一目了然。在所参照的附图中，不同的图中相同或相似的部件使用相同的附图标号来表示。

本发明针对目前模型远端细节与图片整体的相关性协调不足，噪声对生成图像的影响比较大这两个问题，提出一种引入注意力机制的生成对抗网络人脸属性编辑模型，将差异向量与源图像作为输入，而不是将目标向量与源图像进行输入，以减少输入的属性向量，使生成图片尽可能少的受无关向量影响。其次，通过引入注意力机制的生成器生成含有目标属性的特征图，注意力机制通过不断分配权重的方法来确定图像中重要的信息，进而构建生成图像。最后判别器对生成图像进行判别，当判别器对生成图像结果判定为真时，将其生成图像作为人脸属性编辑结果。实验选择CelebA数据集进行测试，与目前国内外五种人脸属性编辑模型对比，实验数据显示，在PSNR和SSIM指标上，本发明的方法结果为34.56和0.963，与上述五种模型中效果最好的模型提高了9.12％和1.58％。结论实验结果表明，本发明的方法能够有效降低噪声对生成图像的影响，提升了图像的远端细节与整体的协调性。本发明的方法能够延伸至人脸的40种属性，并且能够根据用户需要在单一属性、多个属性以及属性强度上进行编辑，本发明模型具有良好的灵活性和延展性。

本发明将模型分为两个部分，分别为生成器G和判别器D，将注意力机制引入到模型中，对生成器G的结构做出改进。其中生成器G是由用于抽象潜在表示编码器G_enc和用于目标图像生成的解码器G_dec以及注意力模块所构成。在之前的网络模型中，都是将目标属性向量和源图像X输入到生成器中。事实上，使用完整的目标属性向量是多余的，多余的属性会形成干扰，影响生成图片的质量。对于人脸任意属性的编辑，输入的不是完整的目标属性向量，而是考虑更改的属性，以保留源图像的更多信息。因此，将目标属性向量att_t与源属性向量att_s之间的差异定义为差异向量att_diff，并将差异向量作为输入向量。

att_diff＝att_t-att_s (2)

由于输入向量是需要更改的属性，因此将差异向量作为输入向量能够使模型更容易训练。并且能够在属性操作精度不变的情况下，提高图像的重建质量。

编码器G_enc是由五个卷积层构成，内核大小为4，步长为2，采用ReLU作为激活函数。在编码器与解码器之间加入选择性传输单元(STU)来选择地转换编码器特征，而不是直接将解码器与编码器连接在一起。可以自适应地选择和修改编码器特征以用于增强属性编辑功能。解码器G_dec包含了5个转置卷积层。

给定输入图像X，编码器特征f表示为：

f＝G_enc(X) (3)

将编码特征f与差异向量att_t，通过STU，传入解码器G_dec。因此，G_dec的编辑结果可以表示为：

在解码器之后，引入注意力机制。其中将解码器G_dec的输出

输入到自我注意力模块中。首先，将解码器G_dec的输出

重新定义为x。即传入自我注意力模块为x，x∈R^C×N转化为两个特征空间f，g来计算。其中：

f(x)＝w_fx (5)

g(x)＝w_gx (6)

w_f和w_g是学习的权重矩阵，通过一个1×1的卷积来实现。用α_j，i表示在合成的第j个区域时模型对第i个位置的影响程度。其中：

s_ij＝f(x_i)^Tg(x_i) (7)

将矩阵f(x_i)的转置矩阵与矩阵g(x_i)相乘，得到矩阵s_ij。再将s_ij经过softmax归一化，得到了一个特征图，即α_j，i。

然后，将隐藏层的图像特征x∈R^C×N，转化为另一个特征空间h。其中：

h(x_i)＝W_hx_i (9)

W_h表示的是也是学习的权重，通过1×1的卷积来实现。将h(x_i)与得到的特征图相乘，得到输出是o＝(o₁，o₂，......，o_j，......，o_N)∈R^C×N，其中：

最后，还需将注意力层的输出与比例参数相乘，并将输入的特征图添加回来。最终的输出y公式为：

y＝γo_i+x_i (11)

其中，比例参数γ初始化为0，然后逐渐的为其分配更多权重。这样，就可以先学习简单的任务，然后逐渐的增加任务的复杂性。

判别器D，包括两个分支D_adv和属性分类器D_cla。D_adv和D_cla具有类似的结构并且共享所有卷积层。其中，D_adv是由五个卷积层和两个全连接层组成，用于区分一个图像是真图像还是假图像。

当输入的源图像与要求的编辑属性结果相等时。表示目标属性与源属性完全相同，即差异向量为0时。重构损失函数：

其中，G(X，O)表示将输入图像X与差异向量0同时输入到生成器中。

当输入的源图像与目标属性不相同时，即差异向量不等于0时。遵循WGAN-GP来实现对抗损失函数的优化，对应着

其中，

表示在真实图像和生成图像中成对的进行采样。

在没有源属性的情况下，也可以使输出的结果具有所需要的目标属性。这里，使用判别器中的属性分类器D_cla，用

和

定义属性标签损失。

其中，

和

分别表示att_s，att_t和D_cla(X)，D_cla(y)中第i个属性值。

综合上述损失函数，其模型中生成器G和判别器D的损失函数可以表述为：

其中，λ₁，λ₂和λ₃是模型的权衡参数。参数选择为：λ₁＝1，λ₂＝10，λ₃＝100。

本发明的实验选择CelebA数据集，该数据集包括202599张人脸面部图像，每个图像对应的有40个二进制的属性标签(每个图像中不一定都包含这40个属性)。本发明的实验在40个属性中选取具有高分辨性及强烈视觉冲突的13个属性，包括“Bald”、“Bangs”、“Black Hair”、“Blond Hair”、“Brown Hair”、“Bushy Eyebrows”、“Eyeglasses”、“Male”、“Mouth Slightly Open”、“Mustache”、“No Hair”、“Pale Skin”、“Young”。将该数据集分成训练集，验证集和测试集。其中训练集用于对本发明的模型进行训练；验证集用于评估训练过程；测试集用于对本发明模型的性能进行评估。

表1 PSNR和SSIM指标各模型对比

PSNR和SSIM是衡量GAN网络生成图像质量的重要指标。本发明使用峰值信噪比(PSNR)和结构相似比(SSIM)两种指标进行对生成图像质量的判定。峰值信噪比(PSNR)是最广泛的评价图像质量的客观指标，它是通过像素点之间的误差来评价图像质量。结构相似比(SSIM)是通过亮度、对比度以及结构三方面来度量两张图像之间的相似性。本发明选取国内外的五种模型IcGAN、FaderGAN、AttGAN、StarGAN和STGAN与本发明模型进行对比。由表1可以看出，在PSNR指标中，本发明的方法与上述五种方法相比PSNR值更高，较比其中最好的STGAN(34.56)提高了9.12％。说明与之前的方法比，本发明生成的图片能够保持源图像中原有属性，并且能够降低噪声对生成图像的干扰。在SSIM指标中，本发明的方法为0.963，优于其他五种模型。说明与之前的模型相比，本发明的方法在生成图像上，具有更好的重构性，生成图像的失真程度更小，其图像更加自然。

由图2可以看出在单一属性编辑上，本发明的方法与其他五种人脸属性编辑模型在生成图像上的对比。通过对比可以看出，本发明生成图像更加注重属性与图像主体之间的协调关系。在保留更多源图像的信息情况下，生成了更加自然、更加协调的图像。IcGAN和FaderGAN模型，属性生成结果表现很差。IcGAN模型对源图像中的属性改变较大，细节处理也没有做到很好。而FaderGAN模型虽然也能够对人脸属性进行编辑，但是该模型对生成属性的把控很差，导致部分生成属性对图像主体部分造成了很大影响，或者需要生成的属性没有清晰的表达出来。而在AttGAN、StarGAN和STGAN模型中，虽然在IcGAN和FaderGAN模型中出现的问题都得到了解决，但是这三个模型并没有很好的协调属性与整体之间的关系，而且也没有做好源图像的细节保留问题。在图2中，使用‘胡子’和‘刘海’属性作为对比可以看出，AttGAN、StarGAN和STGAN模型生成图像中‘胡子’和‘刘海’属性在远端效果上的细节也没有处理好，生成属性遮挡了部分源图像属性，造成了源图像信息的部分缺失。并且在属性编辑时，会影响周边属性的轮廓或者导致周边属性产生色差。本发明的方法生成的图像，更加真实自然，在远端细节上也要比上述五种模型的效果要好，并且对源图像属性没有造成影响，不会造成源图像中属性缺失。

在属性强度控制实验上，本发明将属性强控制在-1到1之间。在属性选择上，由于‘Young’属性在强度控制上能够体现出大部分人脸属性，因此在属性强度控制上，本发明选择‘Young’属性。实验结果如图3所示，其中左侧第一列图片为输入图像，左侧第二列开始为不同属性强度下的生成图片。

从图3中生成图片可以看出，当属性强度逐渐增强时，‘Young’属性对源属性的影响越来越大。也就是说，随着‘Young’属性的不断增强，生成图像不断接近源图像中人物年轻时的样子，并且在生成图像中脸部的肤色更鲜艳皱纹明显减少，说明其生成图像能够将‘Young’属性特征很好的表达出来。

在多属性编辑上面由于IcGAN和FaderNET不能对人脸属性进行多属性编辑，所以在人脸多属性编辑上，将本发明的方法与AttGAN、StarGAN和STGAN做对比，结果如图4所示。

由对比图片可以看出，本发明的方法在多属性与单一属性编辑上的效果相似，其中本发明生成图像，更加真实自然，在远端细节上也要比AttGAN、StarGAN和STGAN模型的效果要好，并且对源图像属性没有造成影响，不会造成源图像中属性缺失。但是在多属性编辑上随着生成属性的增加，上述三种模型失真效果逐渐明显，并且对图像中源属性造成的影响也逐渐明显。本发明的方法中生成属性并不会随着编辑属性的增加而会受到影响的，与上述三种模型相比，保留了更多的源图像中的属性。

通过对单一属性、多属性和属性强度控制的实验结果进行分析，本发明在生成器中引入了注意力机制，通过不断的训练逐渐分配更多的权重，使模型能够自由的获取图像中的重要新信息，能够解决远端细节与整体图像之间的协调关系，从而使得生成器能够通过特征图的依赖关系进行建模，进一步提高了生成器的性能。在输入中并没有选择直接将目标属向量性进行输入，而是选择目标属性向量与源属性向量之间的差异向量作为输入。减少了无关向量对生成图像的干扰，对图像中的源属性有更好的保护，在多属性编辑中随着属性的不断增加，体现的更加明显。

本发明提出了一种引入注意力机制的人脸属性编辑模型，在模型的生成器部分，引入了注意力机制，通过生成图片表明，在单一属性、多属性以及属性强度的控制上，本发明的方法能够提高图片的远端细节以及生成图像的生成属性与整体之间的协调性。与目前五种人脸属性编辑模型相比，在PSNR和SSIM指标上本发明结果都要优与这五种模型，证明了本发明的方法能够有效的降低噪音对生成图片的干扰，并且能够有效的降低图像的失真情况，无论在生成图像和指标数据上，本发明的方法都能够达到很好的效果。

本发明提出引入注意力机制的人脸属性编辑模型，具有良好的灵活性及延伸性，对人脸属性编辑方向提供帮助。在实际应用方面，可以扩展人脸识别和人脸编辑的数据库；还可以广泛的应用在模拟画像、虚拟人物的面部搭建以及娱乐生活，例如人脸图像的美白、增减年龄等。

以上所述是本发明的优选实施方式而已，当然不能以此来限定本发明之权利范围，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和变动，这些改进和变动也视为本发明的保护范围。

Claims

1.一种引入注意力机制生成对抗网络人脸属性编辑方法，其特征在于，包括以下步骤：

步骤1：将差异向量与源图像作为输入；

步骤3：通过判别器对生成的图像进行判别。

2.如权利要求1所述的引入注意力机制生成对抗网络人脸属性编辑方法，其特征在于，在步骤1中，将注意力机制引入到网络模型中，对生成器的结构做出改进，将目标属性向量与源属性向量之间的差异定义为差异向量，并将差异向量作为输入向量。

3.如权利要求2所述的引入注意力机制生成对抗网络人脸属性编辑方法，其特征在于，模型分为两个部分，分别为生成器G和判别器D，将注意力机制引入到模型中，对生成器G的结构做出改进，其中生成器G是由用于抽象潜在表示编码器G_enc和用于目标图像生成的解码器G_dec以及注意力模块所构成。

4.如权利要求3所述的引入注意力机制生成对抗网络人脸属性编辑方法，其特征在于，所述判别器D包括两个分支D_adv和属性分类器D_cla，D_adv和D_cla具有类似的结构并且共享所有卷积层，D_adv是由五个卷积层和两个全连接层组成，用于区分一个图像是真图像还是假图像。