CN115546461A

CN115546461A - 一种基于掩膜去噪和特征选择的人脸属性编辑方法

Info

Publication number: CN115546461A
Application number: CN202211331208.2A
Authority: CN
Inventors: 郭迎春; 郭飞; 郝小可; 于洋; 师硕; 朱叶; 阎刚; 吕华
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2022-10-28
Filing date: 2022-10-28
Publication date: 2022-12-30

Abstract

本发明为一种基于掩膜去噪和特征选择的人脸属性编辑方法，该方法针对人脸属性编辑，设计的掩膜去噪模块能够在生成注意力掩膜的时候只生成与要更改属性有关的掩膜，而去除掉一些包含人脸信息的背景掩膜，能够很好的完成属性编辑的任务并同时保留非编辑区域的一致性；设计的特征选择单元能够在特征层面上筛选图像的特征，保留因为网络深度而回丢失的与属性无关的特征，并在解码过程中根据二进制属性向量经由属性编码器丰富信息后的属性风格码进行特征的风格融合；采用的预训练篡改检测模型能够更好的检测生成图像是否经过篡改，提升了模型生成图像的伪真性。

Description

一种基于掩膜去噪和特征选择的人脸属性编辑方法

技术领域

本发明的技术方案涉及人脸图像属性编辑技术，具体的是基于掩膜去噪和特征选择的人脸属性编辑方法。

背景技术

人脸属性编辑技术是计算机图形学中的一个热门研究方向，目的是根据主观要求对人脸图像进行属性上的编辑，可编辑的属性包括：眼镜、刘海、胡子、嘴开合等。人脸属性编辑能够在电影特效、人机交互、寻找走失人口中发挥一定的作用。如何能够根据使用者的主观要求对人脸图像的一个或多个属性进行比较真实的编辑，并使得除了编辑区域之外其他区域不改变一直是一项比较艰巨的任务。

目前对人脸属性编辑方法的研究大多是基于生成对抗网络(GenerativeAdversarial Network，GAN)来设计和实现的，早期的GAN方法需要使用同一张人脸关于属性的成对图像进行训练，才能得到针对该单一属性进行编辑的模型。后来技术发展到不再需要成对图像就能够进行属性编辑的训练，但是一次训练只能够针对单一的属性。再后来，2019年Choi Y，Choi M，Kim M等人在《Proceedings of the IEEE conference oncomputer vision and pattern recognition》上发表的“Stargan:Unified generativeadversarial networks for multi-domain image-to-image translation”中，首次提出使用单一的模型进行多个属性的编辑，该论文将人脸属性使用二进制的one-hot向量进行表示，在训练过程中使用one-hot向量进行指导，实现了单一模型进行多属性编辑的效果，后续也有多项工作在此文章的思路上进一步研究。但是使用单一模型进行多属性的编辑时生成图像的质量不太好，并且也会导致生成图像具有属性捆绑的效果，例如将人脸图像进行老化时会将头发的颜色变白，因为老人通常都是白头发。CN114494529A公开了一种基于代价敏感学习的人脸属性编辑方法，该方法通过为数据集中不同类别的样本在深度学习模型进行训练时提供不同的权重来学习更好的解决数据集中样本不均衡导致对模型性能的影响，但这种方法需要预先计算数据集中不同人脸属性的分布概率，需要额外的计算资源。CN115082292A公开了一种基于全局属性编辑方向的人脸多属性编辑方法，该方法通过获取数据集属性关联图、属性语义嵌入集合和比例因子，构建一个输入为数据集属性关联图、属性语义嵌入集合和比例因子，输出为全局属性编辑方向的全局属性编辑网络，解决了在编辑多属性操作时需要进行多次单属性编辑的问题，该方法同样需要先计算出数据集中的属性关联图，对其他数据集中的人脸图像进行编辑还需要重新获取新数据集中相关信息，耗费较大的资源。

发明内容

本发明的目的是针对现有的单一模型进行人脸多属性编辑技术的不足而提出的一种基于掩膜去噪和特征选择的人脸属性编辑方法。

本发明在生成对抗网络的基础上，设计了掩膜去噪模块和特征选择单元。具体来说，本方法包含生成网络和判别网络，生成网络由编码器-解码器以及掩膜去噪模块构成，掩膜去噪模块在结构上与解码器类似，均使用到了特征选择单元，与解码器不同的是，掩膜去噪模块包含本发明设计的坐标空间注意力层，并且掩膜去噪模块学习的是进行人脸属性编辑后的面部特征复原人脸时所需的单通道注意力掩膜。掩膜去噪模块共输出两个掩膜，一个是进行人脸重构时需要用到的掩膜，另一个是进行人脸属性编辑时所需用到的掩膜。前者被称为重构掩膜，包含了大量的人脸轮廓和背景噪声信息，后者被成为编辑掩膜，除了包含人脸轮廓和背景噪声信息之外，还带有进行编辑后属性区域的位置信息。将编辑掩膜与重构掩膜融合即可得到关于进行编辑时属性区域的具体位置，称之为属性掩膜，去除掉了关于人脸轮廓和背景的噪声。通过使用原图和解码器生成出的图像与属性掩膜进行融合，就可得到只进行属性编辑并保留其他区域不变的人脸图像。特征选择单元包含属性无关特征提取器和目标风格融合器，属性无关特征提取器根据输入的二进制属性无关向量对编码器逐层特征进行属性无关特征的提取，提取之后的特征输入到目标风格融合器中，首先跟解码器或掩膜去噪模块中转置卷积层输出的特征进行通道上的拼接，将拼接后的特征再与输入的二进制属性相关向量进行风格融合。特征选择单元尽可能地保存属性无关区域的特征，防止这些特征的丢失，并将属性相关风格融合进转置卷积层输出特征中。

实现本发明目的具体的技术方案是：

一种基于掩膜去噪和特征选择的人脸属性编辑方法，是基于掩膜去噪模块和特征选择单元的人脸属性编辑方法，实现该方法主要包括以下内容：

首先需要对数据集进行选择和操作，对公开的人脸数据集进行网络训练前的预处理，通过将人脸居中裁剪，裁剪出像素为128*128的人脸图像；

构建一个掩膜去噪和特征选择的人脸属性编辑网络，网络包含两部分：生成器和判别器。生成器采用编码器-解码器结构，在此基础上添加掩膜去噪模块和特征选择单元。编码器包括5层卷积块，解码器包括4层转置选择块以及一层转置卷积块，掩膜去噪模块与解码器结构类似，包括4层转置选择块、一层坐标空间注意力层和一层转置卷积块；

掩膜去噪模块用于获取进行人脸编辑时的属性坐标位置掩膜图，掩膜去噪模块的输入为图像经过编码器后的特征，特征输入到掩膜去噪模块中经过4层转置选择块，将得到的特征输入到坐标空间注意力层中，用于对特征的维度、高度、宽度进行加权，加权与属性相关的空间位置信息，再将加权后的特征输入到最后一层转置卷积块中得到两个注意力掩膜，包含与属性相关的编辑掩膜和只进行图像重构与属性无关的重构掩膜，将得到的两个掩膜进行选择性融合，得到只保留下与属性相关的位置区域信息的属性掩膜，将属性掩膜再与解码器输出的图像以及原图进行融合得到最终的结果；

特征选择单元用于保留属性无关特征，并将属性相关信息与输入的特征进行融合。特征选择单元包括属性无关特征提取器和目标风格融合器，属性无关特征提取器包含属性无关编码器，目标风格融合器包含属性相关编码器。特征选择单元先将编码器中对应卷积块输出的特征输入到属性无关特征提取器中，并根据属性无关风格码进行属性无关特征的提取，将提取的属性无关特征与解码器或掩膜去噪模块中对应转置选择块中转置卷积层输出的特征进行通道拼接，并将拼接后的特征输入到目标风格融合器中与属性相关风格码进行融合，输出的是保留了属性无关信息并进行属性相关风格信息融合之后的特征。其中，属性无关风格码由属性无关编码器根据二进制属性无关向量进行编码得到，属性相关风格码由属性相关编码器根据输入的二进制属性相关向量进行编码得到，属性无关向量通过对属性相关向量进行取反得到。

判别器部分包含两个判别器，其中一个判别器采用预训练的图像篡改领域的模型，该模型由He Y，Yu N，Keuper M等人发表在《第30届国际人工智能联合会(IJCAI 2021)》的“Beyond the Spectrum:Detecting Deepfakes via Re-Synthesis”所提出，本发明使用原始生成对抗网络训练出的图像和真实数据集中的图像对该模型进行预训练，并选择效果较好的预训练模型作为本方法的额外判别器。另一个判别器由5层卷积模块和一个用于对抗损失，判断图像真实或虚假的对抗头和另一个用于对图像进行分类的分类头组成，对抗头和分类头均为全连接层。通过将人脸图像输入到这5层卷积模块之后得到的特征再分别输入到对抗头和分类头就能够得到对应的概率值；

所述的卷积块由卷积核大小为4×4，步长为2、填充为1的卷积层、BN批量归一化层、LeakyReLU激活函数构成；所述的转置选择块包括卷积核大小为4×4，步长为2、填充为1的转置卷积层和特征选择单元；所述的转置卷积块包括卷积核大小为4×4、步长为2、填充为1的转置卷积层以及BN批量归一化层和ReLU激活函数；所述的特征选择单元包括属性无关特征提取器和目标风格融合器，属性无关特征提取器包括一层转置卷积层、Adain自适应实例归一化层、ReLU激活层以及属性无关编码器，目标风格融合器包括通道拼接操作、Adain自适应实例归一化层、ReLU激活层和属性相关编码器；所述属性无关编码器和属性相关编码器均由三层全连接模块构成，全连接模块包括全连接层、PixelNorm归一化层以及LeakyReLU激活层。

基于掩膜去噪和特征选择的人脸属性编辑方法的具体步骤如下：

第一步，通过编码器网络逐层提取输入人脸图像数据的特征；

第1.1步，对输入的人脸图像数据进行居中裁剪，调整分辨率为128*128，归一化，张量化处理，获得经过预处理后的人脸图像数据，作为输入的原始图像Img_real；

第1.2步，将上述1.1步之后的人脸数据输入到编码器第一层卷积块中，单张人脸图像的大小为128*128*3，经过卷积核大小为4*4、步长为2、填充为1的卷积层，再经过BN批量归一化层和LeakyReLU激活函数，得到尺寸为64*64*64的特征图

第1.3步，将上一层卷积块的输出作为下一层卷积块的输入依次进行卷积操作，如下公式(1)所示；

式(1)中，

表示编码器第i层卷积块输出的特征，

表示第i-1层卷积块输出的特征，Conv表示将特征输入到卷积块中操作，具体操作为：先进行卷积核大小为4*4、步长为2、填充为1的卷积操作，再进行BN批量归一化操作，最后进行LeakyReLU激活操作；

第二步，使用特征选择单元对编码器不同层特征进行属性无关特征的提取，保留属性无关特征；

将不同层的编码器特征分别与属性无关向量输入到特征选择单元中的属性无关特征提取器中进行属性无关特征的提取，如下公式(2)所示；

式(2)中，V_dif代表人脸图像与属性无关的属性无关向量，

表示与解码器或掩膜去噪模块层数对应的第i层的属性无关特征信息，

表示与解码器或掩膜去噪模块第i层对应的编码器中的对应层的特征，Cfe表示属性无关特征提取器操作，具体操作方式如下公式(3)所示；

式(3)中，ConvT表示对输入的特征进行转置卷积操作，Adain表示对特征进行自适应实例归一化操作，ReLU表示对输入的特征进行ReLU激活函数激活，Emb_d表示使用属性无关编码器进行编码，属性无关编码器包含连续的三组FC全连接层映射、PixelNorm归一化以及LeakyReLU激活函数，属性无关向量输入到属性无关编码器依次进行运算得到属性无关风格码，如下公式(4)所示；

S_dif＝Emb_d(V_dif) (4)

式(4)中，S_dif表示经过属性无关编码器后得到的属性无关风格码；

第三步，使用解码器和特征选择单元对编码器最后一层的特征进行解码，得到初步进行人脸属性编辑的图像；

第3.1步，将编码器最后一层的输出特征输入到解码器第一层中的转置卷积层中，得到未进行特征选择的中间特征，如下公式(6)所示；

式(5)中，

为编码器最后一层输出特征经过解码器第一层中转置卷积层后得到的中间特征；

第3.2步，将3.1得到的特征

输入的属性相关向量V_con和步骤二中得到的对应解码器第一层的属性无关特征

输入到第一层中特征选择单元的目标风格融合器中，如下公式(6)所示；

式(6)中，

为解码器第一层的输出，Tsf为目标风格融合器，具体操作如下公式(7)所示；

式(7)中，Concat表示通道拼接操作，Emb_c表示使用属性相关编码器对属性相关向量进行编码，属性相关编码器包含连续的三组FC全连接层映射、PixelNorm归一化以及LeakyReLU激活函数，属性相关向量输入到属性相关编码器依次进行运算得到属性相关风格码，如下公式(8)所示；

S_con＝Emb_c(V_con) (8)

式(8)中，S_con表示属性相关向量经过属性相关编码器后得到的属性相关风格码；

第3.3步，将解码器上一层的输出作为下一层的输入直接进行运算，如下公式(9)所示；

式(9)中,

表示解码器第i层的输出，

表示第i-1层的输出，

表示对应第i层中的属性无关特征提取器的输出；Tsf为目标风格融合器；

第3.4步，将解码器第四层的输出输入到解码器第五层，依次输入到卷积核大小为4×4，步长为2、填充为1的转置卷积层、BN批量归一化层、ReLU激活函数层，得到解码器最后一层的输出

第3.5步，将第3.4步最终结果

经过卷积核大小为3×3，步长为1、填充为1的转置卷积层和Tanh激活函数层，得到初步合成人脸图像Img₁；

第四步，使用掩膜去噪模块和特征选择单元对编码器最后一层的特征进行解码，得到最终的属性掩膜；

第4.1步，依次将目标属性标签和原始属性标签与编码器最后一层特征输入到掩膜去噪模块中，进行公式(5)、(6)、(7)、(8)、(9)的运算，得到掩膜去噪模块第四层的特征输出，分别为目标属性向量作为输入的输出特征

和原始属性向量作为输入的输出特征

第4.2步，将第4.1步得到的特征

和

分别输入到坐标空间注意力层CorSpa中，如下公式(10)和公式(11)所示；

式(10)中，F_mt为

经过坐标空间注意力层后的结果；式(11)中，F_mo为

经过坐标空间注意力层后的结果；

第4.3步，将第4.2步得到的结果分别输入到掩膜去噪模块最后一层，依次经过卷积核大小为3×3，步长为1、填充为1的转置卷积层、BN批量归一化层和ReLU激活函数层，得到经过掩膜去噪模块的最终输出特征，以目标属性向量为输入的目标输出特征

和以原始属性向量为输入的原始输出特征

第4.4步，将第4.3步得到的目标输出特征和原始输出特征依次输入到卷积核大小为3×3，步长为1、填充为1的转置卷积层和Sigmoid层，得到最终的掩膜图像，分别为Mask_t和Mask_o，其中，Mask_t为以目标属性向量为输入的编辑掩膜，编辑掩膜中黑色区域包含需要进行编辑的属性区域以及带有身份和背景的噪声区域，Mask_o为以原始属性向量为输入的重构掩膜，重构掩膜中的黑色区域仅包含带有身份和背景的噪声区域；

第4.5步，将第4.4步得到的编辑掩膜Mask_t和重构掩膜Mask_o进行选择融合，选择融合如下公式(12)所示，去除掉与重构掩膜中带有身份和背景的噪声区域相同的黑色区域，突出编辑掩膜中特有的黑色属性区域；

Mask_f＝1+Mask_t-Mask_o (12)

式(12)中，Mask_f为经过掩膜去噪模块和选择融合之后得到的最终的属性掩膜；

第五步，将Mask_f、初步合成人脸图像Img₁以及输入的原始图像Img_real进行融合得到最终的图像，如下公式(13)所示；

Img_f＝Img_real*Mask_f+Img₁*(1-Mask_f) (13)

式(13)中，Img_f代表经过生成器后得到的最终合成人脸图像；

第五步，使用判别器进行图像的判别操作；

第5.1步，将图像数据(最终合成人脸图像)输入到预训练的由He Y，Yu N，KeuperM等人发表在《第30届国际人工智能联合会(IJCAI 2021)》的“Beyond the Spectrum:Detecting Deepfakes via Re-Synthesis”所提出的篡改检测模型中来判断图像经过篡改的概率，如下公式(14)所示；

Edit_P_fake＝D_edit(X) (14)

式(14)中，D_edit为预训练的篡改检测模型，X为输入图像数据，Edit_P_fake经过篡改检测模型之后检测到图像经过篡改的概率；

第5.2步，第二个判别器由5层卷积模块和一个用于对抗损失，判断图像真实或虚假的对抗头和另一个用于对图像进行分类的分类头组成，对抗头和分类头均为全连接层，将图像数据(真实人脸图像和最终合成人脸图像)输入到第二个判别器的第一层卷积模块中，依次经过卷积核大小为4×4、步长为2、填充为1的卷积层和IN实例归一化层以及LeakyReLU激活函数层，得到判别器第一层卷积层的输出

第5.3步，将第二个判别器上一层的输出直接作为下一层卷积层的输入，如下公式(15)所示；

式(15)中，

表示第二个判别器第i层卷积模块的输出，

表示第二个判别器第i*1层卷积模块的输出；

第5.4步，将

输入到第二个判别器的分类头中，得到图像关于每个属性的判别概率，如下公式(16)所示；

式(16)中，D_cls为图像经过第二个判别器得到的每个属性的概率值；Linear代表全连接层，进行全连接映射；

第5.5步，将

输入到第二个判别器的对抗头中，得到图像被判断为真实图像的概率，如下公式(17)所示；

式(17)中，D_adv为图像经过第二个判别器得到的被判断为真实图像的概率；

至此，上述步骤完成了基于掩膜去噪和特征选择的人脸属性编辑方法生成器和判别器网络结构的搭建，并可以通过输入的图像数据得到生成器最终的生成结果和判别器得到的判别结果。

基于掩膜去噪和特征选择的人脸属性编辑方法损失函数设置；

基于掩膜去噪和特征选择的人脸属性编辑方法生成器损失函数设置，如下公式(18)所示；

L_g＝λ₁*L_adv+λ₂*L_rec+λ₃*L_cls+λ₄*L_edit (18)

式(18)中，L_g为生成器的总损失函数，λ_i,i∈(1,2,3,4)为平衡各损失之间的超参数，L_adv为生成器的对抗损失，L_rec为生成器的重构损失，L_cls为生成器的分类损失，L_edit为生成器生成的图像经过篡改检测模型之后计算的篡改检测损失。

基于掩膜去噪和特征选择的人脸属性编辑方法生成器的对抗损失如下公式(19)所示；

L_adv＝-E[D_adv(G(img,lable_t))] (19)

式(19)中，E[·]为取均值操作，D_adv表示第二个判别器对抗头对图像进行真实性的判断，G表示生成器生成图像的过程，img为输入生成器的原始图像数据，lable_t为目标属性的属性标签；

基于掩膜去噪和特征选择的人脸属性编辑方法生成器的重构损失如下公式(20)所示；

L_rec＝E||img-G(img,lable_o)||₁ (20)

式(20)中，||·||₁为L₁范数，lable_o为输入图像所对应的原始属性标签；

基于掩膜去噪和特征选择的人脸属性编辑方法生成器的分类损失如下公式(21)所示；

L_cls＝CrossEntropy(lable_t,D_cls(G(img,lable_t))) (21)

式(21)中，D_cls为第二个判别器分类头对输入图像进行各属性的分类预测，CrossEntropy为交叉熵损失；

基于掩膜去噪和特征选择的人脸属性编辑方法生成器的篡改检测损失如下公式(22)所示；

L_edit＝CrossEntropy(1,D_edit(G(img,lable_t))) (22)

式(22)中，D_edit为引进的预训练的篡改检测判别器，对输入的图像进行经过篡改检测模型检测之后的概率与全1张量做交叉熵损失，得到最终的篡改检测损失；

第二个判别器损失函数设置，如下公式(23)所示；

L_d＝λ₅*L_adv+λ₆*L_cls (23)

式(23)中，λ₅和λ₆为判别器调整损失之间权重的超参数，L_d为判别器总损失，L_adv为第二个判别器的对抗损失，L_cls为第二个判别器的分类损失；

第二个判别器的对抗损失如下式(24)所示；

L_adv＝-E[D_adv(img)]+E[D_adv(G(img,lable_t))] (24)

第二个判别器的分类损失如下式(25)所示；

L_cls＝CrossEntropy(lable_o,D_cls(img)) (25)

经过上述操作，基于掩膜去噪和特征选择的人脸属性编辑方法的整体流程，包含模型的搭建以及训练和优化就已经完成，可以使用最终经过训练得到的模型进行人脸属性的编辑操作。

与现有方法相比，本发明所具有的优势特点及显著进步如下：

(1)本发明提出了一种人脸属性编辑的方法，具体是一种基于掩膜去噪和特征选择的人脸属性编辑方法。掩膜去噪模块生成了进行人脸图像重构时的掩膜和进行人脸属性编辑时的编辑掩膜，将两个掩膜进行选择性融合就能得到去除背景噪声并只包含需要进行编辑的区域属性掩膜，通过将此属性掩膜与原图和解码器生成的图像结合，能够得到精确编辑并保存非编辑属性区域不变的最终结果。

(2)本发明提出一种特征选择单元，从编码器不同层获取图像多尺度的信息，然后通过提取出的多尺度特征与属性无关风格码融合，提取与属性无关的特征信息，再与解码器或掩膜去噪模块对应层中转置卷积层输出的特征进行拼接后再与属性风格码融合进行特征的编辑，能够较为准确的保留与属性无关的特征，防止图像的特征在经过多层网络层之后出现丢失的现象，并精确编辑属性相关的特征。

(3)本发明将图像篡改检测领域的模型引入到判别器中，通过使用生成器网络生成的图像对图像篡改检测模型进行预训练，使其能够检测出图像是否经过篡改，再之后将其作为预训练判别器添加到网络中进行训练。通过该方式，提高了模型生成图像的真实性，使模型能够生成更加符合真实情况的图像。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明基于掩膜去噪和特征选择的人脸属性编辑方法的整体训练流程图。

图2是本发明基于掩膜去噪和特征选择的人脸属性编辑方法的生成器部分的流程图。

图3是本发明基于掩膜去噪和特征选择的人脸属性编辑方法的判别器部分的流程图。

图4是本发明基于掩膜去噪和特征选择的人脸属性编辑方法的特征选择单元的流程图。

图5是本发明基于掩膜去噪和特征选择的人脸属性编辑方法的属性相关编码器和属性无关编码器的流程图。

图6是本发明基于掩膜去噪和特征选择的人脸属性编辑方法的坐标空间注意力层流程图。

图7是本发明基于掩膜去噪和特征选择的人脸属性编辑方法的坐标空间注意力层中坐标注意力模块的流程图。

图8是本发明基于掩膜去噪和特征选择的人脸属性编辑方法的坐标空间注意力层中空间注意力模块的流程图。

图9是本发明基于掩膜去噪和特征选择的人脸属性编辑方法的生成效果图。

具体实施方式

本发明基于掩膜去噪和特征选择的人脸属性编辑方法，该方法包括以下内容：

首先对人脸公开的数据集进行预处理，获得输入的原始图像，每张人脸图像都对应一个二进制属性标签；

构建一个掩膜去噪和特征选择的人脸属性编辑网络，网络包含两部分：生成器和判别器；

生成器采用编码器-解码器结构，在此基础上添加掩膜去噪模块，编码器包括5层卷积块，解码器包括4层转置选择块以及一层转置卷积块，掩膜去噪模块包括4层转置选择块、一层坐标空间注意力层以及一层转置卷积块；

所述转置选择块包括转置卷积层和特征选择单元，所述的特征选择单元包括属性无关特征提取器和目标风格融合器，属性无关特征提取器包括转置卷积层、Adain自适应实例归一化层、ReLU激活层以及属性无关编码器，目标风格融合器包括通道拼接操作、Adain自适应实例归一化层、ReLU激活层和属性相关编码器；所述的属性无关编码器和属性相关编码器均由三层全连接模块构成，全连接模块包括全连接层、PixelNorm归一化层以及LeakyReLU激活层；

特征选择单元先将编码器中对应卷积块输出的特征输入到属性无关特征提取器中，并根据属性无关风格码进行属性无关特征的提取，将提取的属性无关特征与解码器或掩膜去噪模块中对应转置选择块中转置卷积层输出的特征进行通道拼接，并将拼接后的特征输入到目标风格融合器中与属性相关风格码进行融合，输出的是保留了属性无关信息并进行属性相关风格信息融合之后的特征；

所述属性无关风格码由属性无关向量输入属性无关编码器中获得，所述属性相关风格码由属性相关向量输入属性相关编码器得到，所述属性无关向量由对属性相关向量进行取反获得。

图1所示实施例表明，本发明基于掩膜去噪和特征选择的人脸属性编辑方法的整体训练流程如下：

输入图像，然后对输入的图像进行预处理，再通过生成器的编码器逐层提取图像的深层特征，叫做编码器特征，并将编码器特征输入到解码器和掩膜去噪模块中。解码器逐层进行解码并根据输入的目标属性向量使用特征选择单元筛选特征，最终生成初步编辑图像。掩膜去噪模块逐层进行解码并根据输入的属性向量是目标属性向量还是原始属性向量使用特征选择单元进行相应特征的筛选，根据输入目标属性向量生成编辑掩膜，根据输入原始属性向量生成重构掩膜，将编辑掩膜和重构掩膜进行融合生成属性掩膜。将生成的初步编辑图像同属性掩膜以及输入的原始图像进行融合生成最终的图像。将生成图像输入到判别器模块中，判别器对生成图像进行真伪判断和分类并输出结果，最后根据判别器的结果计算损失函数并通过反向传播优化整个训练网络。

图2所示实施例表明，本发明基于掩膜去噪和特征选择的人脸属性编辑方法的生成器的生成流程如下：

生成器包括编码器、解码器、掩膜去噪模块，编码器由5组卷积块组成，解码器由4层转置选择块和一层转置卷积块组成，掩膜去噪模块与解码器结构类似，由4层转置选择块、一层坐标空间注意力层以及一层转置卷积块组成，掩膜去噪模块与解码器的转置选择块进行权重共享。解码器最后一层的转置卷积块的输出为初步进行编辑的初步合成人脸，掩膜去噪模块中最后一个转置卷积块的输出根据输入属性向量类型不同分别为重构掩膜和编辑掩膜，将重构掩膜和编辑掩膜这两个掩膜融合之后获得属性掩膜。将初步合成人脸、属性掩膜以及输入人脸进行融合，生成最终的合成人脸图像。所述转置选择块包括转置卷积层和特征选择单元，二者顺次连接。所述的转置卷积块包括卷积核大小为4×4、步长为2、填充为1的转置卷积层以及BN批量归一化层和ReLU激活函数。

图3所示实施例表明，本发明基于掩膜去噪和特征选择的人脸属性编辑方法的判别器部分整体流程如下：

判别器部分包含两个判别器，其中一个判别器采用预训练的图像篡改领域的模型，该模型由He Y，Yu N，Keuper M等人发表在《第30届国际人工智能联合会(IJCAI 2021)》的“Beyond the Spectrum:Detecting Deepfakes via Re-Synthesis”所提出，本发明使用原始生成对抗网络训练出的图像和真实数据集中的图像对该模型进行预训练，并选择效果较好的预训练模型作为本方法的额外判别器。另一个判别器由5层卷积模块和一个用于对抗损失判断图像真实或虚假的对抗头和另一个用于对图像进行分类的分类头组成，对抗头和分类头均为全连接层。分类头用于图像属性分类，对抗头用于判断生成图像是真实图像还是虚假生成图像。

图4所示实施例表明，本发明基于掩膜去噪和特征选择的人脸属性编辑方法的特征选择单元整体流程如下：

特征选择单元包括属性无关特征提取器和目标风格融合器，二者依次连接，所述属性无关特征提取器包括一层转置卷积层、自适应实例归一化层、属性无关编码器，目标风格融合器包括属性相关编码器、自适应实例归一化层、通道拼接操作；所述特征选择单元的输入为编码器不同层特征和解码器或者掩膜去噪模块对应层转置选择块中的转置卷积层输出的特征。属性无关特征提取器的输入为编码器不同层特征和属性无关向量，目标风格融合器的输入为解码器或者掩膜去噪模块对应层转置选择块中的转置卷积层输出特征和属性相关向量。将输入的目标属性向量或原始属性向量设定为属性相关向量，对属性相关向量进行取反得到属性无关向量，属性无关向量输入属性无关编码器中获得属性无关风格码，根据属性无关风格码对经过一层转置卷积层处理的编码器特征进行自适应实例归一化以及ReLU激活函数激活，用于筛选属性无关特征，属性无关特征提取器的输出为自适应实例归一化后ReLU激活函数的输出；

然后，将属性无关特征提取器输出的特征和解码器或者掩膜去噪模块对应层转置选择块中的转置卷积层输出的特征输入到目标风格融合器中，在目标风格融合器中二者先进行通道上的拼接，再将拼接后的特征根据属性相关向量经过属性相关编码器得到的属性相关风格码进行自适应实例归一化和ReLU函数激活，输出保留下属性无关特征并更改属性相关特征的最终特征。

图5所示实施例表明，本发明基于掩膜去噪和特征选择的人脸属性编辑方法的属性相关编码器和属性无关编码器的整体流程如下：

属性相关编码器的输入为二进制one-hot形式的属性向量，输入向量首先经过FC全连接层，扩充二进制属性向量维度到32，再经过PixelNorm像素归一化和LeakyReLU激活函数，再经过一层全连接层将维度扩充到64，并经过PixelNorm像素归一化和LeakyReLU激活函数，最后经过一层全连接层将经过上述操作的结果维度扩充到128，并经过PixelNorm像素归一化和LeakyReLU激活函数最后输出为经过属性编码后的属性相关风格码；

属性无关编码器的输入为经过取反后的二进制one-hot形式属性向量，称为属性无关向量，流程同属性相关编码器相同，最终的输出为属性无关风格码。

图6所示实施例表明，本发明基于掩膜去噪和特征选择的人脸属性编辑方法的坐标空间注意力层的整体流程如下：

输入的特征首先经过坐标注意力模块，得到的特征再与输入的特征相乘后输入空间注意力模块，经过空间注意力模块的特征与输入空间注意力模块的特征相乘后得到最终的输出特征。

图7所示实施例表明，本发明基于掩膜去噪和特征选择的人脸属性编辑方法的坐标空间注意力层中的坐标注意力模块的整体流程如下：

输入的特征首先经过C×H×1的X方向上的平均池化、以及C×1×W的Y方向上的平均池化，将经过池化后的两个特征进行通道上的拼接，然后输入卷积核大小为1×1、步长为1、填充为0的卷积层，再输入归一化BN层和ReLU激活函数层，输出的特征进行通道上的分割，分割成C×H×1和C×1×W的两个特征，将两个不同尺寸的输出特征分别经过卷积层(Conv)和Sigmoid激活函数层后进行融合得到最后维度为C×H×W的输出特征。

图8所示实施例表明，本发明基于掩膜去噪和特征选择的人脸属性编辑方法的坐标空间注意力层中的空间注意力模块的整体流程如下：

输入的特征首先依次经过最大池化和平均池化操作，再经过一层卷积层(Conv)和Sigmoid激活函数层后输出最终特征。

实施例1

本实施例的基于掩膜去噪和特征选择的人脸属性编辑方法，具体步骤如下：

第1.1步，对输入的人脸图像数据进行居中裁剪，调整分辨率为128*128，归一化，张量化处理，获得经过预处理后的人脸图像数据；本实施例中数据集采用香港中文大学的开放数据CelebA，包含10,177个名人身份的202599张人脸图片，每张人脸都有标注40多种属性，本发明选择其中几种属性作为效果展示；

式(1)中，

表示编码器第i层卷积块输出的特征，

式(2)中，V_dif代表人脸图像与属性无关的属性无关向量，

S_dif＝Emb_d(V_dif) (4)

式(5)中，

第3.2步，将3.1得到的特征、输入的属性相关向量V_con和步骤二中得到的对应解码器第一层的属性无关特征

式(6)中，

S_con＝Emb_c(V_con) (8)

式(9)中,

表示解码器第i层的输出，

表示第i-1层的输出，

表示对应第i层中的属性无关特征提取器的输出；

第3.5步，将3.4最终结果

经过卷积核大小为3×3、步长为1、填充为1的转置卷积层和Tanh激活函数层，得到初步合成人脸图像，即初步生成图像Img₁；

和原始属性向量作为输入的输出特征

第4.2步，将4.1得到的特征

和

式(10)中，F_mt为

经过坐标空间注意力层后的结果；式(11)中，F_mo为

经过坐标空间注意力层后的结果；

第4.3步，将4.2得到的结果分别输入到掩膜去噪模块最后一层，依次经过卷积核大小为3×3，步长为1、填充为1的转置卷积层、BN批量归一化层和ReLU激活函数层，得到经过掩膜去噪模块的最终输出特征，以目标属性向量为输入的目标输出特征

和以原始属性向量为输入的原始输出特征

第4.4步，将4.3得到的目标输出特征和原始输出特征依次输入到卷积核大小为3×3，步长为1、填充为1的转置卷积层和Sigmoid层，得到最终的掩膜图像，分别为Mask_t和Mask_o，其中，Mask_t为以目标属性向量为输入的编辑掩膜，编辑掩膜中黑色区域包含需要进行编辑的属性区域以及带有身份和背景的噪声区域，Mask_o为以原始属性向量为输入的重构掩膜，重构掩膜中的黑色区域仅包含带有身份和背景的噪声区域；

第4.5步，将4.4得到的编辑掩膜Mask_t和重构掩膜Mask_o进行选择融合，选择融合如下公式(12)所示，去除掉与重构掩膜中带有身份和背景的噪声区域相同的黑色区域，突出编辑掩膜中特有的黑色属性区域；

Mask_f＝1+Mask_t-Mask_o (12)

式(12)中，Mask_f为经过掩膜去噪模块和掩膜融合模块之后得到的最终的属性掩膜；

第五步，将Mask_f、Img₁以及输入的原始图像Img_real进行融合得到最终的图像，如下公式(13)所示；

Img_f＝Img_real*Mask_f+Img₁*(1-Mask_f) (13)

式(13)中，Img_f代表经过生成器后得到的最终合成人脸图像；

第五步，使用判别器进行图像的判别操作；

第5.1步，将最终合成人脸图像输入到预训练的由He Y，Yu N，Keuper M等人发表在《第30届国际人工智能联合会(IJCAI 2021)》的“Beyond the Spectrum:DetectingDeepfakes via Re-Synthesis”所提出的模型中来判断图像的经过篡改的概率，如下公式(14)所示；

Edit_P_fake＝D_edit(X) (14)

第5.2步，将图像数据输入到第二个判别器的第一层卷积模块中，依次经过卷积核大小为4×4、步长为2、填充为1的卷积层和IN实例归一化层以及LeakyReLU激活函数层，得到第二个判别器第一层卷积层的输出

式(15)中，

表示第二个判别器第i层卷积模块的输出，

表示第二个判别器第i*1层卷积模块的输出；

第5.4步，将

式(16)中，D_cls为图像经过判别器得到的每个属性的概率值；Linear代表全连接层，进行全连接映射；

第5.5步，将

生成器损失函数设置，如下公式(18)所示；

L_g＝λ₁*L_adv+λ₂*L_rec+λ₃*L_cls+λ₄*L_edit (18)

生成器的对抗损失如下公式(19)所示；

L_adv＝-E[D_adv(G(img,lable_t))] (19)

式(19)中，E[·]为取均值操作，D_adv表示判别器对抗头对图像进行真实性的判断，G表示生成器生成图像的过程，img为输入生成器的原始图像数据，lable_t为目标属性的属性标签；

生成器的重构损失如下公式(20)所示；

L_rec＝E||img-G(img,Lable_o)||₁ (20)

生成器的分类损失如下公式(21)所示；

L_cls＝CrossEntropy(Lable_t,D_cls(G(img,lable_t))) (21)

式(21)中，D_cls为判别器分类头对输入图像进行各属性的分类预测，CrossEntropy为交叉熵损失；

生成器的篡改检测损失如下公式(22)所示；

L_edit＝CrossEntropy(1,D_edit(G(img,lable_t))) (22)

第二个判别器损失函数设置，如下公式(23)所示；

L_d＝λ₅*L_adv+λ₆*L_cls (23)

第二个判别器的对抗损失如下式(24)所示；

L_adv＝-E[D_adv(img)]+E[D_adv(G(img,lable_t))] (24)

第二个判别器的分类损失如下式(25)所示；

L_cls＝CrossEntropy(lable_o,D_cls(img)) (25)

图9展示本发明基于掩膜去噪和特征选择的人脸属性编辑方法的生成效果图，对输入的图像进行重构、添加刘海、戴上眼镜、嘴部开合、添加胡子、改变性别的操作，生成的图像都能够表明本发明可以对人脸图像的属性进行精确的编辑，并保证了除编辑区域以外的其他区域的不变性。

本发明针对人脸属性编辑，设计的掩膜去噪模块能够在生成注意力掩膜的时候只生成与要更改属性有关的掩膜，而去除掉一些包含人脸信息的背景掩膜，能够很好的完成属性编辑的任务并同时保留非编辑区域的一致性；设计的特征选择单元能够在特征层面上筛选图像的特征，保留因为网络深度而回丢失的与属性无关的特征，并在解码过程中根据二进制属性向量经由属性编码器丰富信息后的属性风格码进行特征的风格融合；采用的预训练篡改检测模型能够更好的检测生成图像是否经过篡改，提升了模型生成图像的伪真性。

本发明未述及之处适用于现有技术。

Claims

1.一种基于掩膜去噪和特征选择的人脸属性编辑方法，该方法包括以下内容：

首先对人脸公开的数据集进行预处理，获得输入的原始图像Img_real，每张人脸图像都对应一个二进制属性标签；

2.根据权利要求1所述的基于掩膜去噪和特征选择的人脸属性编辑方法，其特征在于，所述的卷积块由卷积核大小为4×4、步长为2、填充为1的卷积层、BN批量归一化层、LeakyReLU激活函数构成；

所述的转置选择块由卷积核大小为4×4、步长为2、填充为1的转置卷积层和特征选择单元组成；

所述的转置卷积块由卷积核大小为4×4、步长为2、填充为1的转置卷积层、BN批量归一化层、ReLU激活函数构成。

3.根据权利要求1所述的基于掩膜去噪和特征选择的人脸属性编辑方法，其特征在于，坐标空间注意力层包括坐标注意力模块和空间注意力模块，输入的特征首先经过坐标注意力模块，得到的特征再与输入的特征相乘后输入空间注意力模块，经过空间注意力模块的特征与输入空间注意力模块的特征相乘后得到最终的输出特征；

所述坐标注意力模块的整体流程是：输入的特征首先经过C×H×1的X方向上的平均池化、以及C×1×W的Y方向上的平均池化，将经过池化后的两个特征进行通道上的拼接，然后输入卷积核大小为1×1、步长为1、填充为0的卷积层，再输入归一化BN层和ReLU激活函数层，输出的特征进行通道上的分割，分割成C×H×1和C×1×W的两个特征，将两个不同尺寸的输出特征分别经过卷积层Conv和Sigmoid激活函数层后进行融合得到最后维度为C×H×W的输出特征；

所述空间注意力模块的整体流程是：输入的特征首先依次经过最大池化和平均池化操作，再经过一层卷积层(Conv)和Sigmoid激活函数层后输出最终特征。

4.根据权利要求1所述的基于掩膜去噪和特征选择的人脸属性编辑方法，其特征在于，所述的掩膜去噪模块用于获取进行人脸编辑时的属性坐标位置掩膜图，掩膜去噪模块的输入为图像经过编码器后的特征，特征输入到掩膜去噪模块中经过4层转置选择块，将得到的特征输入到坐标空间注意力层中，用于对特征的维度、高度、宽度进行加权，加权与属性相关的空间位置信息，再将加权后的特征输入到最后一层转置卷积块中，根据输入为目标属性标签还是原始属性标签分别得到两个注意力掩膜，包含与属性相关的编辑掩膜和只进行图像重构与属性无关的重构掩膜，将得到的两个掩膜进行选择性融合，得到只保留下与属性相关的位置区域信息的属性掩膜，将属性掩膜再与解码器输出的图像以及原图进行融合得到最终的结果。

5.根据权利要求4所述的基于掩膜去噪和特征选择的人脸属性编辑方法，其特征在于，所述选择融合的过程按照公式(12)进行：

去除掉与重构掩膜中带有身份和背景的噪声区域相同的黑色区域，突出编辑掩膜中特有的黑色属性区域；

Mask_f＝1+Mask_t-Mask_o (12)

式(12)中，Mask_f为经过掩膜去噪模块和选择融合之后得到的最终的属性掩膜；Mask_t为编辑掩膜，Mask_o为重构掩膜。

6.根据权利要求1所述的基于掩膜去噪和特征选择的人脸属性编辑方法，其特征在于，所述判别器包括两个判别器，第一个判别器为篡改检测模型，用来判断图像经过篡改的概率；第二个判别器由5层卷积模块和一个用于对抗损失判断图像真实或虚假的对抗头和另一个用于对图像进行分类的分类头组成，对抗头和分类头均为全连接层。

7.根据权利要求6所述的基于掩膜去噪和特征选择的人脸属性编辑方法，其特征在于，所述第二个判别器的卷积模块包括依次连接的卷积核大小为4×4、步长为2、填充为1的卷积层，IN实例归一化层以及LeakyReLU激活函数层。

8.一种基于掩膜去噪和特征选择的人脸属性编辑方法，该方法的具体步骤是：

第1.1步，对输入的人脸图像数据进行居中裁剪，调整分辨率为128*128，归一化、张量化处理，获得经过预处理后的人脸图像数据，作为输入的原始图像Img_real；

式(1)中，

表示编码器第i层卷积块输出的特征，

式(2)中，V_dif代表人脸图像与属性无关的属性无关向量，

S_dif＝Emb_d(V_dif) (4)

式(5)中，

第3.2步，将3.1得到的特征

式(6)中，

S_con＝Emb_c(V_con) (8)

式(9)中,

表示解码器第i层的输出，

表示第i-1层的输出，

第3.5步，将第3.4步最终结果

和原始属性向量作为输入的输出特征

第4.2步，将第4.1步得到的特征

和

式(10)中，F_mt为

经过坐标空间注意力层后的结果；式(11)中，F_mo为

经过坐标空间注意力层后的结果；

和以原始属性向量为输入的原始输出特征

Mask_f＝1+Mask_t-Mask_o (12)

Img_f＝Img_real*Mask_f+Img₁*(1-Mask_f) (13)

式(13)中，Img_f代表经过生成器后得到的最终合成人脸图像；

第五步，使用判别器进行图像的判别操作；

第5.1步，将最终合成人脸图像输入到预训练的篡改检测模型中来判断图像经过篡改的概率，如下公式(14)所示；

Edit_P_fake＝D_edit(X) (14)

第5.2步，第二个判别器由5层卷积模块和一个用于对抗损失判断图像真实或虚假的对抗头和另一个用于对图像进行分类的分类头组成，对抗头和分类头均为全连接层，将图像数据输入到第二个判别器的第一层卷积模块中，依次经过卷积核大小为4×4、步长为2、填充为1的卷积层和IN实例归一化层以及LeakyReLU激活函数层，得到第二个判别器第一层卷积层的输出