CN113780209B

CN113780209B - 一种基于注意力机制的人脸属性编辑方法

Info

Publication number: CN113780209B
Application number: CN202111085993.3A
Authority: CN
Inventors: 冯缘; 胡曜珺; 陈凯祥; 季碧芸; 刘盛; 沈守枫
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-09-16
Filing date: 2021-09-16
Publication date: 2024-02-02
Anticipated expiration: 2041-09-16
Also published as: CN113780209A

Abstract

本发明公开了一种基于注意力机制的人脸属性编辑方法，命名为DAGAN。该方法提出了一个基于注意力机制的传输单元，包括位置注意力模块和通道注意力模块；此外，该方法采用多尺度输入的方法，与编码器‑解码器相结合，同时提高了属性编辑能力和图像的生成质量。本发明所提出的对偶注意力机制的人脸属性编辑方法，极大地提升了编辑效率，在保证模型轻便的同时提高了属性编辑准确度。

Description

一种基于注意力机制的人脸属性编辑方法

技术领域

本发明涉及计算机视觉领域，具体涉及一种基于注意力机制的人脸属性编辑方法。

背景技术

人脸属性编辑的目的是用目标属性替换源面部图像的某些属性，如改变对象的发色、性别或表情。人脸属性编辑在人机交互和仿生智能中发挥着重要作用，在隐私保护、智能摄影甚至是娱乐等领域有着广泛的应用。

作为一项典型而又具有挑战性的生成任务，人脸属性编辑一直以来都被基于GAN的方法所主导，比如AttGAN,StarGAN，StarGAN v2和STGAN。这些方法GAN生成器中基本都使用编码器-解码器架构，并将源图像和目标属性(或要更改的属性)作为输入，以生成具有目标属性特征的新图像。AttGAN基于CelebA数据集，采用编码器和解码器架构，将属性表示为二值向量，AttGAN没有对人脸的潜在表示(即源人脸经过编码器后得到的隐藏向量)施加约束，而是对生成的人脸的属性分类进行约束，以确保所需属性的正确更改。同时，引入了重构学习来保留无需更改的属性的细节。AttGAN生成器中，编码和解码分别是由通过卷积的下采样和反卷积的上采样实现的，然而，下采样会不可逆地降低特征图的空间分辨率和细节，转置卷积不能完全恢复这些细节，容易导致细节模糊或丢失。AttGAN虽然使用跳接(skip connection)对该问题进行缓解，然而,产生的新的问题是：跳跃连接通常产生不可行甚至自相矛盾的融合输出(例如,目标是把某人的颜色从黑色改为棕色，最后生成的人脸头发两种颜色都会出现)。STGAN针对AttGAN存在的问题，引入了一个门控单元STU，通过STU，STGAN能有选择性地高效完成特征的多尺度融合，减轻AttGAN对图像下采样导致的特征图的空间分辨率降低和细节损失。但是，STU的缺点在于为整个模型引入了额外的大量参数，增加了模型负担，对于大规模部署应用极为不利。

发明内容

本发明的目的在于针对现有技术中对人脸属性的编辑效果差、模型参数多导致资源占用多的问题，提出一种基于注意力机制的人脸属性编辑方法。

本发明的目的是通过以下技术方案来实现的：

步骤一：建立由多层编码器和多层解码器组成的人脸属性编辑模型；

步骤二：将人脸图像采用多尺度输入方法输入多层编码器中进行卷积编码，输出每一层的特征向量；

步骤三：将编码器最后一层输出的特征向量与属性差值向量连接，并将连接结果输入到多层解码器中进行反卷积解码，所述解码器与编码器的层数为n；所述的属性差值向量是由目标属性向量和源属性向量作差得到的；

在所述多层解码器的相邻两层之间引入对偶注意力机制传输单元，所述的对偶注意力机制传输单元的输入为解码器第l层输出的特征向量与编码器第n-l层输出的特征向量，对偶注意力机制传输单元的输出作为解码器第l+1层的输入，解码器最后一层的输出作为编辑后的人脸图像表示；n为编码器和解码器的层数；

步骤三：模型训练过程：将编辑后的人脸图像表示送入判别器和属性分类器，利用多任务学习的方式对多层编码器、多层解码器以及对偶注意力机制传输单元进行训练，得到训练好的人脸属性编辑模型；

步骤四：采用步骤二至步骤三的方法，利用训练好的人脸属性编辑模型获得待编辑人脸图像的编辑结果，即最后一层编码器输出的编辑后的人脸图像表示；通过调整属性差值向量实现不同属性的编辑结果。

进一步的，所述多层编码器的各层输入中，第一层编码器的输入是原图像，将输入的图像经过卷积编码后作为该层编码器的输出；其他层编码器的输入为不同尺度的原图像与上一层编码器输出的特征向量，二者采用跨通道方式连接，所述的不同尺度的原图像是通过下采样得到。

进一步的，编码器和解码器均为5层结构。

进一步的，所述的对偶注意力机制传输单元包括一个位置注意力模块和一个通道注意力模块，两个模块的输入相同，两个模块的输出相加后的作为对偶注意力机制传输单元的最终输出结果。

本发明的有益效果是，极大地提升了编辑效率，在保证模型轻便的同时提高了属性编辑准确度。

附图说明

图1是基于对偶注意力机制的人脸属性编辑方法的整个网络结构示意图。

图2是对偶注意力机制的具体框架。

图3是本发明与AttGAN和STGAN的对比结果。

具体实施方式

下面根据附图详细说明本发明。

如图1所示，本发明提出的人脸属性编辑方法的整个网络结构包括多层编码器、多层解码器、判别器和属性分类器。本发明基于对偶注意力机制的人脸属性编辑方法，包括以下步骤：

步骤一：将待编辑人脸图像采用多尺度输入方法输入编码器，编码器使用卷积的方式对不同尺度的原图输入和上一层的编码层的输出进行编码并输入到下一层编码层(图1左侧)；

该步骤采用多尺度输入方法将图像数据输入模型。在编码器各层卷积的输入中，第一层的输入是原图像；其他层的输入为上一层的输出与不同尺度的原图，二者采用跨通道方式连接，其中不同尺度原图通过下采样得到。

步骤二：使用解码器对图像进行反卷积解码，在解码器的相邻两层之间加入对偶注意力机制传输单元；所述的对偶注意力机制传输单元利用两个不同的注意力机制，如图2所示，分别将相应编码层和前一解码层结果作为输入，计算得到两种注意力向量，相加后连同属性差值向量一起作为下一层解码层的输入信息。所述的属性差值向量是由目标属性向量和源属性向量作差得到的，每张图片的属性由一个0/1向量表示，向量的某个位置表示某个具体属性，若有该属性，在该位置的值为1，反之为0。图1中仅在解码器的第一层输入中加入了属性差值向量，作为本发明的优选方案，可以在解码器的每一层输入中均加入属性差值向量，实现更准确的解码。

如图1所示，对偶注意力机制传输单元的输入为解码器第l层输出的特征向量与编码器第n-l层输出的特征向量，对偶注意力机制传输单元的输出作为解码器第l+1层的输入，解码器最后一层的输出作为编辑后的人脸图像表示；n为编码器和解码器的层数。该步骤所述的对偶注意力机制传输单元由位置注意力模块和通道注意力模块两部分组成，具体通过以下子步骤来实现：

(1)位置注意力模块

这个模块与传统的视觉注意力机制模块类似。

假设通过编码第n-l层的特征图为通过解码第l层的特征图为为了方便说明，分别将/>和/>维度变为(W×H)×C。注意力机制中的key，query分别来自/>共有W×H个keys，querys，其中第i个(1≤i≤(W×H))key和query的计算公式为：

其中，1≤i≤(W×H)，*表示卷积，W_k、W_q表示1×1卷积核。

定义相似度计算公式为：

其中，W_t表示1×1卷积，ReLU(.)表示relu激活函数，Sigmoid(.)表示sigmoid激活函数。α_ij表示相似度矩阵α₁中的元素。

最后对编码器特征和相似度矩阵α₁进行矩阵乘积，得到位置注意力输出PA∈R^(W ^×H)×C:

(2)通道注意力模块

假设编码器第l层的特征图为解码器第l层的特征图为/>分别将/>和/>维度变为C×(W×H)，直接对两者进行矩阵乘法后再通过softmax层后得到相似度矩阵α₂∈R^C×C：

表示编码层的第j个通道对解码层的第i个通道的影响程度。然后，对α₂∈R^C×C和编码层特征/>做矩阵乘法，并乘以一个标量β，再加上编码层的特征/>得到通道注意力输出CA∈R^C×(W×H)：

其中解码层第i个通道对应的输出为：

最后，将CA和PA维度都变为W×H×C，相加后输入到下一解码层作为解码时的补充信息。

步骤三：解码器对编码器的输出进行解码，得到编辑后的人脸图像表示后，再经卷积层处理并作为两个判别器的输入，分别进行真假判别和属性类别判别，使用属性损失、重建损失、对抗性损失等进行多任务学习。各个损失如下：

.(1).重建损失

重建学习的目的是在编码器中完整的还原原图像属性之外的细节，当目标属性与源属性完全相同，要求编辑结果与原图像近似，因此，重建损失定义为：

其中，x^a表示真实图像，其属性向量为a；表示网络生成的属性向量同样为a的生成图像。这里采用L1范数‖.‖₁来保证重建图像的锐度。G_dec表示编码器，G_enc表示解码器，/>表示对所有x^a(取值于p_data)的重建损失取期望值，p_data表示x^a的概率分布。

(2).对抗损失

当目标属性与源属性不同时，这就是一个无监督的情况。因此，采用对抗损失使编辑结果逼真。将训练生成器G与判别器D对抗性损失定义为：

其中，采样于/>与x^a之间的线段，D(.)表示判别器的输出，b～p_attr表示目标属性取值于概率分布p_attr，/>表示网络生成的属性向量为b(与源属性向量a不同)的生成图像，λ用于平衡各项损失，/>表示x^a与/>所连线段上的某个点，/>表示对/>进行求导，/>为判别器损失，/>为生成器损失。

(3).属性损失

生成的图像应正确拥有属性b，即b为目标属性。因此，使用属性分类器C来约束生成的图像/>拥有所需的属性/>即/>公式如下:

其中，p_data和p_attr表示真实图像的分布和属性的分布，表示第i个属性的预测值，/>是所有属性的二元交叉熵损失的总和，b_i为目标属性中的第i个属性，n为属性的数量。

(4).分类器损失

属性损失中的分类器需要达到较高的分类准确率，因此需要通过输入图像的原始属性对分类器C进行训练，目标损失为：

其中，a_i表示x^a的属性向量a中的第i个属性值，C_i(x^a)表示x^a第i个属性的预测值。

为了展示本发明的效果，将本发明提出的模型(DAGAN)与现有的模型AttGAN、STGAN进行了比较，表1展示了准确率对比结果，表2展示了重建图像的对比结果，图3展示了显存大小对比结果。

表1编辑准确率对比

表2重建图PSNR/SSIM对比

表3显存大小对比

从表1可以看出，本发明的模型DAGAN明显高于传统的AttGAN模型，可以与最先进的STGAN模型相媲美，且本发明的模型DAGAN参数显著低于STGAN模型，与AttGAN模型参数量相当，在保证效果的同时减低了模型负担。从重建图像效果来看，本发明的模型最优。图3还展示了更加直观的效果数据，本发明的属性编辑效果更加自然。

以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.一种基于注意力机制的人脸属性编辑方法，其特征在于，包括以下步骤：

在所述多层解码器的相邻两层之间引入对偶注意力机制传输单元，所述的对偶注意力机制传输单元的输入为解码器第l层输出的特征向量与编码器第n-l层输出的特征向量，对偶注意力机制传输单元的输出作为解码器第l+1层的输入，解码器最后一层的输出作为编辑后的人脸图像表示；n为编码器和解码器的层数；所述的对偶注意力机制传输单元包括一个位置注意力模块和一个通道注意力模块，两个模块的输入相同，两个模块的输出相加后的作为对偶注意力机制传输单元的最终输出结果；所述的位置注意力模块的计算过程包括：

将编码器第n-l层的特征向量和解码器第l层的特征向量/>的维度变为W×H×C，其中W和H表示特征图的长和宽，C表示特征图的通道数量；

计算注意力机制中W×H个键值和查询值：

1≤i≤W×H

其中，k_i和q_i表示第i个键值和查询值，W_k和W_q表示1×1卷积核；

计算相似度矩阵α₁：

其中，W_t表示1×1卷积核，ReLU(.)表示ReLU激活函数，Sigmoid(.)表示sigmoid激活函数；α_ij是相似度矩阵α₁中的元素，表示编码层的第j个通道对解码层的第i个通道的影响程度；

计算位置注意力模块的输出：

其中，PA表示位置注意力输出；

2.根据权利要求1所述的一种基于注意力机制的人脸属性编辑方法，其特征在于，所述多层编码器的各层输入中，第一层编码器的输入是原图像，将输入的图像经过卷积编码后作为该层编码器的输出；其他层编码器的输入为不同尺度的原图像与上一层编码器输出的特征向量，二者采用跨通道方式连接，所述的不同尺度的原图像是通过下采样得到。

3.根据权利要求1或2所述的一种基于注意力机制的人脸属性编辑方法，其特征在于，编码器和解码器均为5层结构。

4.根据权利要求1所述的一种基于注意力机制的人脸属性编辑方法，其特征在于，所述通道注意力模块的计算过程包括：

将编码器第n-l层的特征向量和解码器第l层的特征向量/>的维度变为C×W×H，其中W和H表示特征图的长和宽，C表示特征图的通道数量；

计算相似度矩阵α₂：

其中，表示解码器第l层中第i通道的特征图，/>表示编码器第n-l层中第j通道的特征图；/>是相似度矩阵α₂中的元素，表示编码层的第j通道对解码层的第i通道的影响程度；

计算通道注意力模块的输出：

其中，β为标量，CA_i为解码层第i个通道的输出，将所有通道的输出表示为CA。

5.根据权利要求1所述的一种基于注意力机制的人脸属性编辑方法，其特征在于，所述的多任务学习的方式是采用多任务损失训练模型，所述的多任务损失包括重建损失、对抗损失、属性损失和分类器损失。

6.根据权利要求1所述的一种基于注意力机制的人脸属性编辑方法，其特征在于，在解码器的每一层输入中均加入属性差值向量。