CN111860186B

CN111860186B - 一种基于多注意力机制的人脸属性编辑网络

Info

Publication number: CN111860186B
Application number: CN202010583325.2A
Authority: CN
Inventors: 张珂; 苏昱坤; 何颖宣
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2022-04-12
Anticipated expiration: 2040-06-23
Also published as: CN111860186A

Abstract

本申请提出了一种基于多注意力机制的人脸属性编辑网络。在生成器的跳跃连接中引入了加性注意力机制，并提出基于注意力机制的U型网络连接，用于筛选与属性无关的细节特征，使之与解码器特征互补。同时采用互补自注意力机制，帮助模型区分属性编辑区域和非属性编辑区域，以保证模型的属性编辑能力和细节保留能力。此外，互补自注意机制能增加生成图像中对长程依赖的建模能力，增加图像的几何约束。该人脸属性编辑网络能够平衡生成对抗网络的属性操控能力和细节保留能力，同时能对相干属性进行解耦，并且在感官质量、属性分类准确率和重建图像质量上有着巨大的提升。

Description

一种基于多注意力机制的人脸属性编辑网络

技术领域

本申请属于图像领域，尤其涉及一种基于多注意力机制的人脸属性编辑网络。

背景技术

随着互联网的快速发展，图像成为人们传递信息、获取信息的重要载体，图像数量迅速增长，如何对图像进行快速、有效的分析和处理显得越来越重要。在图像处理领域中，人脸图像包含了丰富的个人信息，例如情绪、年龄和身份信息等。面部属性的排列组合构成了每个人独特的人脸信息，面部属性在人的社会交往中起到了基础性作用，因此人脸图像的研究一直是机器学习领域的研究热点。人脸属性编辑技术成为了实现仿生代理、进行人机情感交互过程中不可或缺的重要工具。在人机交互、人脸重建、数据集扩增、智能摄影、市场营销等多个智能领域存在广阔的应用前景。

人脸属性编辑的目标即生成具有目标属性人脸的同时保留其与目标属性无关的面部细节。在现有技术中，人脸属性编辑模型的生成器(Generator)大都采用了编解码器结构(encoder-decoder)，对原图像信息进行压缩提取，并在属性向量的指导下对人脸图像进行编辑，从而实现人脸属性编辑。在先前的工作中，为了提取不同尺度的图像属性信息，需要用堆叠的卷积层对原图像进行多次空间合并或者下采样。残差结构的编/解码器，瓶颈层的引入增加了下采样次数，使特征潜空间高度压缩，导致了模糊的属性编辑结果和严重的内容缺失问题。图像经过编解码器结构的压缩后不可避免地会有细节损失，潜空间的特征向量只包含了图像的主要信息，而忽视了细节信息，而细节信息的保存是图像真实度和质量的保证。研究人员试图采用在编解码器中添加跳跃连接，以融合编码器潜空间特征，为解码器支路补充细节信息。然而生成器通过跳跃连接获得细节保留能力的同时需要付出降低属性操控能力的代价。如何平衡人脸属性编辑网络的细节保留能力和属性编辑能力仍然是亟待解决的问题。

申请内容

为了解决上述技术问题，为了解决申请人发现的上述技术问题，本申请提出了一种人脸属性编辑方法，记为(Multi-attention U-Net Generative Adversarial Network，MU-GAN)。主要是提出了一种基于多注意力机制的人脸属性编辑网络。本申请首先针对细节保留问题，在基于编解码器的生成对抗网络(Generative Adversarial Network，GAN)中采用对称的U型网络(U-Net)结构代替原有的非对称编解码器结构，保证编解码两端的潜空间信息容量对等，解决因为解码器通道数骤减而导致的潜空间信息丢失。而后在U-Net结构中，在原有的跳跃直连中加入加性注意力机制(Additive Attention Mechanism，AAM)构建基于注意力机制的U型网络连接(Attention U-Net Connection，AUC)模块，该模块对编码器特征进行选择性的传递，在获得各层级的细节信息同时防止信息冗余，进而平衡GAN的细节保留和人脸属性编辑能力。也就是说，在注意力机制的指导下选择性传递细节信息的同时又防止信息冗余带来的属性编辑能力下降的问题。

一种基于多注意力机制的人脸属性编辑网络，包括基于编解码器结构的生成器和共享权值的真伪/属性分类鉴别器，包括基于编解码器结构的生成器和共享权值的真伪/属性分类鉴别器，所述网络结构为：

在基于编解码器的生成对抗网络(Generative Adversarial Network，GAN)中采用对称的U型网络(U-Net)结构代替原有的非对称编解码器结构，保证编解码两端的潜空间信息容量对等，以解决因为解码器通道数骤减而导致的潜空间信息丢失；

在U-Net结构中，在原有的跳跃直连中加入加性注意力机制构建基于注意力机制的U型网络连接模块，该模块对编码器特征进行选择性的传递，在获得各层级的细节信息同时防止信息冗余，进而平衡GAN的细节保留和人脸属性编辑能力；

在编解码器的卷积层之间加入互补自注意力(Complementary Self Attention，CSA)层，CSA层是卷积层的补充，分别利用了自注意系数的掩膜β′_ji和反掩膜(1-β′_ji)，将属性编辑区域与非编辑区域进行分割，有助于分割属性相关/无关区域，以针对性地加强属性编辑能力和细节保留能力。

其中，所述在基于编解码器的生成对抗网络中采用对称的U型网络结构代替原有的非对称编解码器结构，保证编解码两端的潜空间信息容量对等，以解决因为解码器通道数骤减而导致的潜空间信息丢失；

在U-Net结构中，在原有的跳跃直连中加入加性注意力机制构建基于注意力机制的U型网络连接模块，该模块对编码器特征进行选择性的传递，在获得各层级的细节信息同时防止信息冗余，进而平衡GAN的细节保留和人脸属性编辑能力，在网络中的具体表示如下：

第l层的编/解码器特征e^l/d^l∈C×W×H，首先经过两个相互独立的线性转换w_q和w_k，被映射到两个线性空间q和

其中N＝W×H。此处用i代表向量中的第i个位置的元素，AUC中的线性转换可由以下公式表示：

接着将

和

做矩阵加法并经过ReLU函数，获得加性相似度系数

最后，经过另一个先行转换W_t和Sigmoid函数得到了注意力图α。

其中注意力系数α_i∈[0,1]代表了相应位置的图像特征的显著性，以选择性地传递细节信息，作为解码器特征的补充。让属性编辑和特征保留各取所需。

AUC模块的输出表示特征

如下：

最后将AUC模块的输出特征与解码器特征进行合并，选择性地增加模型的细节保留能力：

其中，所述在编解码器的卷积层之间加入互补自注意力层，CSA层是卷积层的补充，分别利用了自注意系数的掩膜β′_ji和反掩膜(1-β′_ji)，将属性编辑区域与非编辑区域进行分割，有助于分割属性相关/无关区域，以针对性地加强属性编辑能力和细节保留能力，在网络中的具体表示如下：

对两路特征进行矩阵相乘并经过softmax函数，注意力系数矩阵β'计算如下:

本申请中分别利用了自注意系数的掩膜β′_ji和反掩膜(1-β′_ji)，将属性编辑区域与非编辑区域进行分割，并对两路特征进行通道合并，此处的输出特征尺寸为

将属性编辑相关的信息与属性无关信息分离，且保存在不同通道，有利于后续解码过程中各取所需，以兼顾属性编辑能力和细节保留能力：

其中，

是两个独立的线性变换。

本申请具有的优点如下：

本申请所述的人脸属性编辑方法采用了基于注意力机制的U型网络连接(AUC)编解码器两端，代替了原有的跳跃连接，在注意力机制的指导下选择性传递细节信息的同时又防止信息冗余带来的属性编辑能力下降的问题。

本申请构建互补自注意力模块，将其引入传统的生成器全卷积编解码结构中。通过互补自注意力模块区分属性编辑/非编辑区域，并对其分别进行信息增强，以同时加强属性编辑和细节保留能力。

本申请受益于AAM和CSAM机制这两种注意力机制，即多注意力机制，模型拥有强大的属性解耦能力，能有效防止目标属性之间的相互干扰，仅改变需要被改变的人脸图像区域。

附图说明

图1是基于多注意力机制的人脸属性编辑网络的示意图；

图2是AUC结构示意图；

图3是CSA机制示意图；

图4是MU-GAN及其他当前主流方法的部分生成样例；

图5是MU-GAN及其他当前主流方法的属性分类准确率对比。

具体实施方式

正如背景技术部分所述，如何平衡人脸属性编辑网络的细节保留能力和属性编辑能力仍然是亟待解决的问题。

具体的，申请人发现，现有的基于编解码结构的全卷积生成对抗网络人脸属性编辑方法主要存在以下问题：

现有方法在编解码器之间加入了跳跃直连(skip-connection)，信息不经过筛选，直接连通编解码器两端。在编解码结构中加入跳跃直连在提高模型细节保留能力的同时也造成了信息冗余，降低了模型的属性操控能力。

除了上述技术问题，申请人还发现，现有的自注意(Self Attention，SA)机制仅增强注意力显著区域的特征向量，而抑制注意力不显著区域的特征。这样固然可以增强属性编辑能力，但却不利于背景细节的保留。而且，人脸属性标签中存在相关关系，如“性别”和“胡子”属性。现有方法难以对属性进行解耦，属性编辑经常会引起非目标属性改变。

针对上述基于编解码结构的全卷积生成对抗网络人脸属性编辑方法中存在的“在编解码结构中加入跳跃直连在提高模型细节保留能力的同时也造成了信息冗余，降低了模型的属性操控能力”这一技术问题，本申请提出了一种人脸属性编辑方法，具体提出了一种基于多注意力机制的人脸属性编辑网络，即Multi-attention U-Net GenerativeAdversarial Network，MU-GAN。如图1所示，本申请首先针对细节保留问题，在基于编解码器的生成对抗网络(Generative Adversarial Network，GAN)中采用对称的U型网络(U-Net)结构代替原有的非对称编解码器结构，保证编解码两端的潜空间信息容量对等，解决因为解码器通道数骤减而导致的潜空间信息丢失。而后在U-Net结构中，在原有的跳跃直连中加入加性注意力机制(Additive Attention Mechanism，AAM)构建基于注意力机制的U型网络连接(Attention U-Net Connection，AUC)模块，该模块对编码器特征进行选择性的传递，在获得各层级的细节信息同时防止信息冗余，进而平衡GAN的细节保留和人脸属性编辑能力。也就是说，在注意力机制的指导下选择性传递细节信息的同时又防止信息冗余带来的属性编辑能力下降的问题。可见，AUC模块用于筛选与属性无关的编码器细节特征，使之与解码器特征互补。

除了加性注意力机制，在编解码器的卷积层之间加入互补自注意力(Complementary Self Attention，CSA)层。也就说本本申请采用多注意力机制。CSA机制是卷积层的补充，有助于分割属性相关/无关区域，以针对性地加强属性编辑能力和细节保留能力。

此外，互补自注意力受益于自监督信号，有助于模型建模图像区域间长程、多层级的依赖关系。可以有效兼顾全局和局部特征，帮助GAN习得空间上的几何约束。可见，本申请采用多注意力机制训练人脸属性生成网络，让生成器生成的样本分布尽可能接近真实样本分布，其中，多注意力机制让模型拥有更强大的属性编辑、细节保留、结构约束和属性解耦能力。即本申请利用基于多注意力机制的人脸属性编辑网络对人脸图像进行属性编辑。

现有人脸属性编辑模型常采用基于编解码器的GAN，现将编码器记作G_enc，解码器记作G_dec。带有属性标签a的人脸图像x^a输入生成器中，此时编码器特征F_e可表示如下：

F_e＝G_enc(x^a) (1)

其中

表示输入人脸图像经过第i个编码器层的输出编码特征。同理可得解码器特征F_d：

F_d＝G_dec(F_e) (3)

F_d经过代表解码器特征，各层级的编码器输出特征f_e ⁱ经由解码器重建为人脸属性编辑图像。传统的方法，为了让生成结果有更丰富的细节信息，在编解码结构中加入了跳跃直连(skip-connection)。让对应层级的编/解码器相互连接，将编码器输出特征与解码器解码特征合并以解决编码过程导致的信息过度压缩。

以第i层为例，现有skip-connection结构如下：

公式中的[·,·]表示特征之间的合并操作。现有方法直接合并编/解码器特征，在简单地增强细节保留能力的同时，也造成了信息冗余。将编码器特征中有效信息与无效信息无差别地传递到解码器端，极大地制约了人脸属性编辑网络的属性编辑能力。

针对skip-connection无法选择性地传递编码器特征的问题，本申请提出了基于注意力机制的U型网络连接，记作AUC。其中AUC结构如图2所示，其具体结构介绍如下：

为了不失普遍性，取第l个编/解码层为例。第l层的编/解码器特征e^l/d^l∈C×W×H，首先经过两个相互独立的线性转换W_q和W_k，被映射到两个线性空间q和

接着将

和

做矩阵加法并经过ReLU函数，获得加性相似度系数

AUC模块的输出表示特征

如下：

注意，当特征向量经过转置卷积时，特征图长、宽分别变为原来的2倍；因为先前的“通道合并”，特征通道数在输入转置卷积层之前已经加倍，所以经过卷积层后，通道数应变为原来的1/4。

现有的方法尝试在卷积层后加入自注意(Self Attention，SA)层，以弥补卷积核感受野受限的问题，对图像施加几何约束。然而，现有的SA层仅增强注意力显著区域的特征向量，而抑制注意力不显著区域的特征。这样固然可以增强属性编辑能力，但却不利于背景细节的保留。在SA层中，取前层卷积网络提取的图像特征

作为模块的输入，即Q和K。x经历两个线性变换，对特征进行降维，映射到相互独立的特征空间

和

对两路特征进行矩阵相乘得到向量b_ij并经过softmax函数，注意力系数矩阵β计算如下：

最后将注意力系数矩阵β与和v(x)做逐像素乘积，得到输出特征：

其中，

在本申请中提出了一种互补自注意(Complementary Self Attention，CSA)层，利用自信息以同时增强属性编辑和细节保留能力。其中CSA结构如图3所示。与SA相似，本方法取前层卷积网络提取的图像特征

作为模块的输入，即Q和K。x'经历两个线性变换，降维并映射到相互独立的特征空间

和

对两路特征进行矩阵相乘得到向量b′_ij并经过softmax函数，注意力系数矩阵β'计算如下:

最后，不同的是，本申请中分别利用了自注意系数的掩膜β′_ji和反掩膜(1-β′_ji)，将属性编辑区域与非编辑区域进行分割，并对两路特征进行通道合并，此处的输出特征尺寸为

其中，

是两个独立的线性变换。

可见，本申请提出了一种基于多注意力机制的人脸属性编辑网络。受益于多注意力机制，模型有强大的细节保留、属性编辑、几何约束和属性解耦能力，采用该方法训练人脸属性编辑网络，合成的人脸图像有更高的属性准确度和更逼真的图像质量，且更好地保留了与属性无关的人脸细节。

所以使用基于多注意力机制的人脸属性编辑器能够提升人脸属性编辑的精度和图像质量。在多注意力机制的帮助下，各属性的特征潜空间相互独立，能有效消除目标属性之间的相互干扰，达到属性解耦的目的。

针对上述基于编解码结构的全卷积生成对抗网络人脸属性编辑方法中的存在的技术问题，本申请提出了一种人脸属性编辑方法，具体地该方法中提出了一种基于多注意力机制的人脸属性编辑网络。本申请所述的人脸属性编辑方法与现有技术中方法的区别在于：1.采用了基于注意力机制的U型网络连接(AUC)编解码器两端，代替了原有的跳跃连接，在注意力机制的指导下选择性传递细节信息的同时又防止信息冗余带来的属性编辑能力下降的问题。2.构建互补自注意力模块，将其引入传统的生成器全卷积编解码结构中。通过互补自注意力模块区分属性编辑/非编辑区域，并对其分别进行信息增强，以同时加强属性编辑和细节保留能力。3.受益于AAM和CSAM机制这两种注意力机制，即多注意力机制，模型拥有强大的属性解耦能力，能有效防止目标属性之间的相互干扰，仅改变需要被改变的人脸图像区域。

即本申请具有以下优点：

1.本申请在基于编解码器的生成对抗网络的基础上提出多注意力机制的概念设计了AUC跃层连接模块，该模块与跳跃直连模块相比，能有针对性地传递与原标签无关的细节信息。

2.本申请在全卷积生成器结构中引入CSA机制，增强了GAN对全局多层级长程依赖的建模能力，让生成的人脸属性编辑结果更符合几何约束。

3.本申请采用多注意力机制协同引导人脸属性编辑，使模型具有属性解耦能力。

4.本申请可以使用端到端(end-to-end)的方式训练，并在人脸数据集CelebA上取得优秀的结果。在人脸属性编辑任务上的定性和定量结果，显示了其优于基准模型的优势。

为了证明本申请提出人脸属性编辑方法的优点，下面进行实验分析：

定性实验：

将本申请和现有的AttGAN与STGAN进行比较，AttGAN与STGAN的结果均来自官方实现的模型，定性实验的结果如图4所示。总体来说，AttGAN生成的图像一定程度上存在伪影，模糊等问题，而本申请提出的模型的结果则更加真实，接近真实样本。人脸属性编辑要义的另一种解释是，仅改变需要改变的人脸属性。细节的保留分为两种，一种是视觉空间区域上的细节保留，主要体现形式是图像细节的细腻程度；一种是抽象语义上的属性解耦合，防止属性之间的相互影响，导致其他无关属性发生改变。

首先从图4中可以看出，本申请提出的方法较其他模型更优，主要体现在图像有更好的真实度，和细节保真度，对照组图像则显得更加平滑模糊。可能的原因是模型采用类U-Net结构，形成编解码器特征互补。

其次本申请提出的模型能有效地应对属性之间的干扰，对属性间的相关关系进行解耦。如图4所示，因为男性群体普遍为短发、而女性长发居多，性别属性变化时，对照组中常出现头发长度变化。然而在本申请提出的模型中很好地对属性进行了解耦合，排除了样本中其他属性对目标属性的干扰。

接着本申请提出的模型具有更强的结构约束性，能够更加清晰地区分属性相关的空间区域。现有技术的方法在属性操控能力上仍然有局限性，在对全局级别的属性(如黑、金黄、棕色发色，肤色)进行编辑时，在对照组的生成样本中，当背景与发色接近的时候，网络常常会将背景识别为头发，导致产生严重的伪影；或者当处理肤色属性时，提出的模型能更好地分割面部和背景，而不是只是简单地将图像中心部分涂白。

定量实验：

在人脸属性迁移任务中，生成图像质量主要表现在生成结果是否真实，原图像是否准确地从原域迁移到目标域。采用属性迁移准确率，图像真实度两项指标对属性迁移图像进行定量分析。属性迁移准确率指标通过多标签分类网络对生成图像进行属性分类。按照本申请提出模型同样的数据集划分方式，首先将CelebA数据集，分为训练集和测试集。使用一个改进的ResNet模型在训练集上训练，在训练集上达到94.79％的属性分类准确率，其中ResNet由三个卷积块组[3,4,6]构成，经由一个平均池化层后与13个独立的由两个线性层组成的分类器连接。AttGAN、STGAN和MU-GAN在CelebA数据集上的属性迁移准确率如图5所示，属性分类结果表明，除了性别属性外，提出的模型在其他属性分类准确率上超越了相关工作。如表1所示，平均准确率达到89.15％，相比AttGAN的83.91％和STGAN的84.89％有较大的提升。除了性别属性，其他属性分类准确率都要优于原模型，尤其是眼镜属性上相比其他模型有了较大的提升，这也侧面地说明了模型对空间约束能力更加出众，能更精准地区分出图像中与目标属性相关的区域。

表1.CelebA数据集上属性编辑结果的分类准确率

Method	AttGAN	STGAN	MU-GAN
				Average Accuracy	83.91	84.89	89.15

衡量图像真实度的评价指标是峰值信噪比和结构相似度(PSNR/SSIM)。利用原图像利用原标签a生成重建图像

并将其与原图像x^a进行比较，计算得出的PSNR/SSIM值如表2所示。结果表明提出的模型中的对称attention U-Net编解码结构有助于图像的细节保留，对比AttGAN有较大的提升。AUC结构能保留更多图像细节，生成更细腻、更高质量的重建图像。

表2.重建图像的PSNR/SSIM

本说明书中各个部分采用递进的方式描述，每个部分重点说明的都是与其他部分的不同之处，各个部分之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本申请中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本申请所示的实施例，而是要符合与本申请所公开的原理和新颖特点相一致的最宽的范围。