CN115439904A

CN115439904A - 一种基于知识引导的人脸属性编辑方法

Info

Publication number: CN115439904A
Application number: CN202211015164.2A
Authority: CN
Inventors: 张亮; 赵江伟; 陈志勇; 潘力立
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-08-23
Filing date: 2022-08-23
Publication date: 2022-12-06
Anticipated expiration: 2042-08-23
Also published as: CN115439904B

Abstract

该发明公开了一种基于知识引导的人脸属性编辑方法，属于计算机视觉领域。该方法首先选择使用生成对抗网络作为基本框架，融入了一种新颖的注意力机制，并从人脸属性标签库提取了人脸属性关系的知识，构建了基于知识的正则损失项来约束注意力机制的学习。引入人脸属性知识和注意力机制的目的是为了促使生成对抗网络的判别器学习属性之间的关系，能够综合相关属性的影响来更加准确的预测目标属性，从而更好的指导生成器编辑人脸属性。同时，通过引入人脸属性之间的关系约束生成器的学习，使得生成器在改变目标人脸属性时，考虑其他相关人脸属性的变化，以实现更加合理的编辑效果。

Description

一种基于知识引导的人脸属性编辑方法

技术领域

本发明属于计算机视觉领域，主要用来解决现实生活中人脸属性编辑的问题；主要应用于影视娱乐产业，人机交互以及机器视觉理解等方面。

背景技术

人脸属性编辑的目的是操作给定人脸上的单个或多个属性，在保留其他细节的同时生成具有所需属性的新人脸图像。目前，影视娱乐、人机交互、计算机视觉等领域，对图像的生成与属性编辑的需求越来越大。例如：在艺术创作中，艺术家将想法用文字描述，然后利用生成模型根据文本生成匹配的图像，从而得到参考；在元宇宙虚拟世界中，用户根据喜好控制参数生成人物头像，以实现个性化；在短视频平台中，用户使用平台提供的属性编辑功能来修改视频中人脸的头发颜色，眼睛大小等属性，以获得更有趣味性的使用体验。

人脸属性编辑作为一项典型但有挑战的生成任务，已经被基于生成对抗网络(GAN，Generative Adversarial Networks)的方法所主导。GAN由于具有计算量小，生成图像质量高，模型构造简单等优点，通常被引用到人脸属性编辑任务当中。StarGAN在GAN的基础上引入了编码器-解码器结构，以原始图像以及目标属性向量作为输入来控制GAN编辑图像，解决了多领域转换的问题，在人脸属性编辑任务上取得了突破性的进展。参考文献：He，Z.，Zuo，W.，Kan，M.，Shan，S.，&Chen，X.(2019).Attgan：Facial attribute editing byonly changing what you want.IEEE transactions on image processing，28(11)，5464-5478.但由于编码器-解码器结构存在下采样操作，会不可避免地损失一些图片信息，造成编辑后的图像模糊和丢失细节。在编码器-解码器结构的基础上，STGAN融入了选择性转移单元，以同时提高属性编辑能力和编辑图像的质量。参考文献：Liu，M.，Ding，Y.，Xia，M.，Liu，X.，Ding，E.，Zuo，W.，&Wen，S.(2019).STGAN：A unified selective transfernetwork for arbitrary image attribute editing.In Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition(pp.3673-3682).PA-GAN和CAFE-GAN分别在生成器和判别器上引入了空间注意力机制，以获得与人脸属性相关的局部区域，并在局部区域内进行属性编辑，提高了属性编辑准确性。参考文献：He，Z.，Kan，M.，Zhang，J.，&Shan，S.(2020).Pa-gan：Progressive attention generative adversarialnetwork for facial attribute editing.arXiv preprint arXiv：2007.05892.Kwak，J.G.，Han，D.K.，&Ko，H.(2020，August).Cafe-gan：Arbitrary face attribute editingwith complementary attention feature.In European Conference on ComputerVision(pp.524-540).Springer，Cham.

现存的人脸属性编辑方法假设属性之间是相互独立的，即在训练模型时，不同属性之间高度解耦。然而人脸属性是存在相关性的，当对某一目标属性进行编辑的时候，其他相关的属性的变化情况也会受到影响。现存的工作由于没有考虑属性之间的相关性，在编辑指定人脸属性时，无法正确处理其他相关的属性的变化情况，导致模型最终的编辑效果不好，属性编辑准确率低。

近年来，很多计算机视觉领域的任务，例如图像分类、图像描述、目标检测、语义分割等都存在一个趋势，即在利用视觉之外的信息，如文本和知识库等外部数据来帮助深度学习模型获得先验性的知识。参考文献：Gao，J.，Zhang，T.，&Xu，C.(2018，October).Watch，think and attend：End-to-end video classification via dynamic knowledgeevolution modeling.In Proceedings ofthe 26th ACM international conference onMultimedia(pp.690-699).但是目前学术界在属性编辑领域引入先验知识的探索十分有限，因此，本发明致力于在人脸编辑模型的基础上引入人脸属性知识，以引导模型学习人脸属性的相关性，提高人脸属性编辑的准确率。

发明内容

本发明是一种人脸属性编辑方法，以生成对抗网络为基础模型，融入了一种新颖的基于知识引导的注意力机制，该机制在人脸属性知识的约束下，综合多个相关属性对目标属性的影响，促进模型更加全面的编辑目标人脸属性，以提高属性编辑准确率。

该方法首先选择使用生成对抗网络作为人脸属性编辑的基础模型，对输入图片进行归一化并缩放裁剪至256*256*3的尺寸，以原始人脸图像和属性标签作为输入，生成256*256*3的尺寸的编辑人脸图像。该方法创新地通过注意力机制引入了人脸属性关系的知识，在生成对抗网络的训练阶段指导模型学习人脸属性之间的相关性，以让模型在编辑人脸属性时，综合考虑各个相关属性的影响，从而提高属性编辑的准确率。本发明从引入先验知识来指导模型编辑人脸属性的角度出发，主要做了三个方面的工作：1)在生成对抗网络的基础上，融入了注意力机制，为模型提供学习人脸属性关系的能力，并能够促进模型在编辑目标人脸属性时，综合各个人脸属性的影响；2)从人脸数据集中，提取人脸属性的先验知识，设计了一个基于知识的正则损失函数，通过约束注意力机制来指引模型学习人脸属性的相关性；3)在高分辨率、大规模数据集CelebA-HQ上进行实验，并和多个经典的人脸属性编辑方法进行对比，验证了提出的方法的属性编辑效果十分显著。通过上述工作，本发明充分利用了人脸属性的先验知识和生成对抗网络的优势，构建了一个人脸属性编辑效果优越的模型。

为了方便地描述本发明内容，首先对一些术语进行定义。

定义1：生成对抗网络。生成对抗网络包含两个不相同的神经网络，一个称为生成器G，另一个称为判别器D，这两个神经网络在训练过程中相互对抗，判别器的目的是区分真实数据分布p_r和生成数据分布p_g，而生成器的目的则是不让判别器将这两个分布区分开来，最终使得生成数据分布和真实数据分布一致：p_r＝p_g。

定义2：注意力机制。本发明使用的视觉注意力机制采用查询-键-值(Query-Key-Value)的模式，它从图像的最相关的区域中生成特征，已经被证明对图像分类、检测和描述任务是十分有效的。

定义3：批归一化层。这是一个深度神经网络训练的技巧，就是对每一批数据进行归一化，它不仅加快了模型的收敛速度，而且更重要的是在一定程度缓解了深层网络中“梯度弥散”的问题，从而使得训练深层网络模型更加容易和稳定。

定义4：实例归一化层。这是一个经常被用在风格迁移任务中的深度神经网络训练的技巧，就是对每一个图像样本的每一个通道单独进行归一化。加速模型收敛，并且保持每个图像样本之间的独立。

定义5：ReLU激活层。又称修正线性单元，是一种人工神经网络中常用的激活函数，通常指代以斜坡函数及其变种为代表的非线性函数，表达式为f(x)＝max(0，x)

定义6：Tanh激活层。用表达式Tanh(x)＝(e^x-e^-x)/(e^x+e^-x)定义。

定义7：Unet网络。Unet是著名的图像分割网络，包括三部分：编码器和解码器以及对称跳跃连接。其中编码器通过卷积和下采样来降低图像的尺寸，逐级提取浅层的图像特征；编码器则通过卷积和上采样来恢复图像的尺寸，并逐级提取深层的图像特征；跳跃连接则是把编码器提取的浅层图像特征与解码器中对称的深层图像特征进行连接。

定义8：选择性转移单元(Selective Transfer Units，STU)。STU是一种门控循环单元(Gate Recurrent Unit，GRU)的变体，由STGAN提出。门控循环单元是循环神经网络的一种，和LSTM(Long-Short Term Memory)一样，是为了解决长期记忆和反向传播中的梯度等问题而提出来的，但它较LSTM网络的结构更加简单，而且效果也很好。

定义9：Glove模型。Glove是一个全局对数双线性回归模型(global log bilinearregression model)，该模型用到了语料库的全局特征，即单词的共现频次矩阵，并且，其优化目标函数是对数线性的，并用回归的形式进行求解。它被广泛的用来从文本预料库中学习单词的向量嵌入。

定义10：属性编辑成功率。属性编辑成功率是用来衡量人脸属性编辑模型的属性修改能力。这里在CelebA-HQ数据集上训练了一个人脸属性分类器来判断生成的人脸的属性是否编辑成功。该属性分类器在CelebA-HQ数据集上进行训练，在CelebA-HQ测试集上，所有属性的平均预测准确率达到了93.8％。

因而本发明技术方案为一种基于知识引导的人脸属性编辑模型，该方法包括：

步骤1：对数据集进行预处理；

获取真实人脸图像，并将这些真实图像按照其中人脸显示的属性进行标注，对所有图片的像素值进行归一化，并对图片进行缩放裁剪；

步骤2：构建生成对抗网络的生成器网络；

生成器网络输入为原始图像和图像的属性编辑向量，输出为属性编辑后图像；生成器网络G由三个部分构成：编码器模块G_enc、解码器模块G_dec、滤波模块G_F，其中编码器模块G_enc的输入为原始图像，输出为图像特征，由5层卷积网络块依次连接而成；解码器模块G_dec的输入为图像特征和图像的过滤特征，输出为编辑后人脸图像，由5层转置卷积网络块依次连接而成，并且编码器和解码器之间采用了Unet网络中的对称跳跃连接；滤波模块G_F由STU结构组成，它的输入为图像特征，输出为图像的过滤特征，用于选择性过滤编码器和解码器之间的对称跳跃连接中传递的图像特征；生成器网络结构参见图1，卷积网络块参见图2，转置卷积网络块结构参见图3；

步骤3：构建生成对抗网络的判别器网络；

判别器网络输入为图片，该图片为生成器网络的输出，输出为一个标量和一个向量；判别器网络D分为三个模块：特征提取模块D_e、对抗损失模块D_adv和基于注意力机制的属性分类模块D_cls；特征提取模块D_e的输入为图片x，输出为图片特征张量f，特征提取模块D_e由5层卷积网络块依次连接而成；对抗损失模块D_adv的输入为特征提取模块D_e的输出，输出为标量，值越大表示图像越真实，对抗损失模块D_adv采用两层线性网络块构成；属性分类模块D_cls的输入为特征提取模块D_e的输出，输出为属性分类向量，属性分类模块D_cls由提取属性特征提取模块、基于知识引导的注意力模块和属性嵌入模块依次级联而成：

(1)属性特征提取模块：输入为图片的特征张量f，将其沿第2维度和第3维度分割为R个特征向量

(和公式中的fr中的r位置不一样，要修改成一样的，这里面的公式我点不开)，其刚好对应于图像x在空间平面上的R个区域的特征向量；定义第r个区域的对于第i个人脸属性的重要程度为：

其中，v_i为第i个人脸属性的语义向量，i＝1，...，M，M为编辑的人脸属性数量，W_α表示一个可学习的矩阵，用来度量属性语义向量和每个区域的特征向量的兼容性；在得到第i个属性关于R个区域的注意力权值

后，根据公式计算第i个属性的特征为：

(2)知识引导的注意力模块：输入为属性特征

为了能够综合相关的人脸属性的影响，首先计算各个人脸属性之间的贡献度，根据公式定义第j个属性对第i个属性的贡献度为：

其中，W_s表示一个可学习的矩阵，用来度量属性之间的贡献度，如果第j个属性与i个属性的相关性越高，那么第j个属性对于第i个属性影响更大，即贡献度越高；在得到M个属性对于第i个属性的贡献度权值

后，根据贡献度综合其他属性对第i个属性的影响，计算方式为：

(3)属性嵌入模块：输入为综合属性特征

输出为人脸属性的强度，定义计算第i个人脸属性强度的公式为：

其中，W_e表示一个可学习的矩阵，用来将综合属性特征映射到属性语义空间中，sigmoid(·)函数用来将属性强度映射到(0，1)中；判别器网络结构参见图4，属性嵌入模块参见图5。

步骤4：设计人脸属性编辑模型训练过程中的属性编辑操作；

采取小批量梯度下降算法对模型进行优化，分批次向模型输入数据集中的N个图像样本一属性标签对：(x，l)，属性标签l是一个长度为M二元向量，每一位的0或1分别表示对应属性的无或有。属性编辑向量构造方式如下：以图像样本x本身的属性标签作为它的原始标签l_s，并为每个图像样本x随机挑取其他图像样本的属性标签作为目标属性标签l_t，以保证属性编辑操作不会存在冲突，以Δl＝l_t-l_s作为图像x的属性编辑向量。当Δlⁱ＝1时，表示为图像x增加第i个属性；当Δlⁱ＝0时，表示不改变图像x的第i个属性；当Δlⁱ＝-1时，表示为图像x去掉第i个属性；

步骤5：设计基于知识的正则损失项

(1)从人脸数据库中提取人脸属性关系的知识：基于CelebA的标签库计算第i个人脸属性和第j人脸属性之间的相关度：

其中n_ij代表第i个属性和第j个属性在标签库中共同出现的次数，n_i和n_j分别代表第i个属性和第j个属性在标签库中出现的次数，N_d是标签库中标签的数量，softmax(·)函数用来将属性之间的相关度进行归一化；阻尼参数∈，用来防止计算过程中出现n_ij→0的情况；当两个人脸属性的共现频次越高，它们的相关度也会更大；

(2)利用提取到的知识约束模型计算属性之间的贡献度：如果第j个属性与第i个属性经的共现频次越高，即第i个属性与第j个属性之间的相关度越大，那么第j个属性对第i个属性的贡献度也应该越大，设计一个正则损失项

用来约束模型计算的属性之间的贡献度符合先验知识：

其中

为M个人脸属性对于第i个人脸属性的贡献度向量，

为M个人脸属性关于第i个人脸属性的相关度向量，sim<·，·>是一种向量相似性的度量方法，采用余弦相似度作为度量方法：

当优化正则损失

越来越小时，即

时，模型计算得到的属性贡献度会越来越符合人脸属性关系的知识；

步骤6：为生成对抗网络设计损失函数；

(1)在训练阶段，针对判别器网络设计损失函数，以引入先验知识的约束：设由编辑后的图像

p_g为生成器拟合的图像分布；设真实图像-属性标签对为(x，l)～p_data，p_data为真实图像数据集的分布；利用判别器的特征提取模块D_e来提取真实图像x的图像特征：f＝D_e(x)，将真实图像的特征f送到判别器的对抗损失模块D_adv中计算图像的真实度估计：D_adv(x)；按照上述过程，得到生成图像

的真实度估计：

这样构造生成对抗网络的判别器的对抗损失：

其中，

表示判别器的对抗损失模块对编辑图像

的输出值，输出值越大表明编辑图像越真实，

表示对该输出值的期望，D_adv(x)表示判别器的对抗损失模块对编辑图像的输出值，

表示对该输出值的期望。

即分布

为数据集分布p_r和生成图像分布p_g的线性混合，∈表示线性混合系数，

表示判别函数关于混合图像求梯度，

为梯度惩罚项，用来约束判别器模型的参数符合lipschitz连续条件，λ_gp为梯度惩罚系数；

将真实图像的特征f送到判别器的属性分类模块D_cls中，预测图像的属性分类，输出表示为[e₁，e₂，...，e_M]^T＝D_cls(x)；为判别器构造分类损失函数：

其中，D_cls(x)表示判别器的属性分类模块对原始图像x的属性预测向量，

表示对图像x的第i个属性的预测值e_i，要求与原始属性标签的第i个分量l_i越一致越好；同时结合步骤5中构造的基于知识的正则损失项

得到判别器的总损失函数为：

其中，

为判别器的知识约束损失，通过人脸知识来指导判别器中的注意力机制综合相关属性的影响。λ_cls为属性分类损失函数的权重，

为判别器的知识约束损失的权重。

(2)在训练阶段，针对生成器网络设计损失函数，以引入先验知识的约束：设从数据集中抽取的原始图像-属性标签对为(x_s，l_s)～p_data，同时按照步骤3的方法为每一张图片抽取目标属性标签l_t，构造属性编辑向量Δl＝l_t-l_s。首先利用生成器的编码器提取原始图像的特征f_s＝D_enc(x_s)，将原始图像特征f_s和属性编辑向量Δl进行拼接得到带有条件的图像特征f_t，将原始图像特征f_s和长度为M的0向量进行拼接得到不带条件的图像特征f_rec以用于图像重建；然后分别将f_t，f_rec送入滤波模块D_F中得到过滤特征f′_t，f′_rec，然后将图像特征和过滤特征送入解码器D_dec中，分别得到编辑人脸图像

和重建人脸图像

为了方便表示，这里简记为

然后按照步骤6-(1)中的过程得到编辑人脸

的真实度

然后构造生成器的对抗损失函数：

其中，

为生成器通过属性编辑向量Δl对原始图像x_s进行编辑后的图像，D(G(x_s，Δl))为判别器关于编辑图像

的真实度预测值，该值越高，表明编辑后图像越真实；

表示对编辑后图像

的真实度的数学期望；

按照步骤6中(1)的过程得到编辑人脸

的属性预测向量

然后构造生成器的属性编辑损失函数：

其中，II_[·]为指示函数，当Δl_i＝0时，

当Δl_i≠0时，

表示判别器的属性分类模块对编辑人脸

的属性预测向量，

表示对图像

的第i个属性的预测值，要求与目标属性标签的第i个分量

越一致越好；

同时，为了保证生成器G能够保留人脸的基本信息，要求重建人脸图像

和原始人脸图像x_s越一致越好，构造生成器的图像重建损失函数：

其中，||·||₁为矩阵1范数，当重建图像x_r＝G(x_s，0)与原始图像x_s的每个像素点的取值越一致的时候，||x_s-G(x_s，0)||₁越小；同时结合步骤5中构造的基于知识的正则损失项

得到生成器的总损失函数为：

其中，

为生成器的知识约束损失，用来约束生成网络在编辑目标人脸属性时，同时考虑对其他相关人脸属性的影响。λ_op为属性编辑损失的权重，λ_rec为图像重建损失的权重，

为生成器的知识约束损失的权重。

步骤7：将CelebA-HQ划分为训练集和测试集，在训练集上训练由步骤2和步骤3中定义的生成对抗神经网络，并利用步骤6构建的损失函数约束网络的训练，在更新生成器网络G时固定判别器网络D的参数，而更新判别器网络D时则固定生成器网络G的参数，每次迭代更新判别器5次然后更新生成器一次；

步骤8：采用训练完成的生成器网络G来对测试集中的人脸图像进行属性编辑，并用属性编辑成功率来衡量本发明提出的模型的属性编辑效果。测试结果参见表1。

本文的创新之处在于：

(1)本发明在生成对抗网络的基础上，融入了一种基于知识引导的注意力机制，它综合多个相关属性的影响，以达到更加全面的预测、编辑人脸属性。

(2)本发明创新地引入人脸属性的先验知识，建立了一个基于知识的正则损失函数，一方面用来约束判别器中注意力机制的学习，指导模型挖掘各个人脸属性之间的相关性，促进模型更加准确的预测人脸属性；另一方面用来约束生成器编辑属性时，考虑各个人脸属性之间的相关性，当目标属性出现变化时，其他相关属性也应该受到一定的影响，以实现更加合理的编辑人脸属性。

附图说明

图1为本发明方法的生成器网络结构图。

图2为本发明方法的卷积网络块结构图，(a)为生成器中的卷积网络块，(b)为判别器中的卷积网络模块。

图3为本发明方法的转置卷积网络结构图。

图4为本发明方法的判别器网络结构图。

图5为本发明方法的属性嵌入模块示意图。

具体实施方式

步骤1：对数据集进行预处理；

下载CelebA数据集(http：//mmlab.ie.cuhk.edu.hk/projects/CelebA.html)，CelebA数据集包含10177个名人身份的202599张人脸图片，每张图片都做好了40个二元属性标记，例如是否有眼镜、刘海、胡须等。然后利用开源项目(https：//github.com/willylulu/celeba-hq-modified)，在CelebA上生成30000张分辨率为256*256*3的人脸图像，即得到CelebA-HQ数据集。选择其中的28000张人脸图像和属性标签作为训练数据集，将另外2000张人脸图像和属性标签作为测试数据集，随机打乱训练顺序，最后将图片像素值归一化至范围[-1，1]。

步骤2：构建生成对抗网络的生成器网络；

生成器网络输入为原始图像和图像的属性编辑向量，输出为属性编辑后图像；生成器网络G主要由三个部分构成：编码器模块G_enc、解码器模块G_dec、滤波模块G_F。其中编码器模块G_enc的输入为原始图像，输出为图像特征，由5层卷积网络块依次连接而成；解码器模块G_dec的输入为图像特征和图像的过滤特征，输出为编辑后人脸图像，由5层转置卷积网络块依次连接而成，并且编码器和解码器之间采用了Unet网络中的对称跳跃连接；滤波模块G_F由STU结构组成，它的输入为图像特征，输出为图像的过滤特征，主要用于选择性过滤编码器和解码器之间的对称跳跃连接中传递的图像特征。生成器网络结构参见图1，卷积网络块参见图2，转置卷积网络块结构参见图3；

步骤3：构建生成对抗网络的判别器网络；

判别器网络输入为图片，输出为一个标量和一个向量；判别器网络D分为三个模块：特征提取模块D_e、对抗损失模块D_aav和基于注意力机制的属性分类模块D_cls；特征提取模块D_e的输入为图片

输出为图片的特征张量

特征提取模块D_e由5层卷积网络块依次连接而成；对抗损失模块D_adv的输入为特征提取模块D_e提取的特征，输出为标量，值越大表示图像越真实，对抗损失模块D_adv采用两层线性网络块构成；属性分类模块D_cls的输入为特征提取模块D_e的提取的特征，输出为属性分类向量，属性分类模块D_cls由提取属性特征提取模块、基于知识引导的注意力模块和属性嵌入模块依次级联而成：

(1)属性特征提取模块：它的输入为图片的特征张量f，将其沿第2维度和第3维度分割为R＝8×8＝64个特征向量

其刚好对应于图像x在空间平面上的R个区域的特征向量。定义第r个区域的对于第i个人脸属性的重要程度为：

其中

为第i个人脸属性的语义向量，M为编辑的人脸属性数量。采用Glove模型从维基百科语料库中提取人脸属性的语义向量，语义向量的提取方法不是本发明的重点，所以只在此简要提及。

表示一个可学习的矩阵，用来度量属性语义向量和每个区域的特征向量的兼容性。在得到第i个属性关于R个区域的注意力权值

后，根据公式计算第i个属性的特征为：

(2)知识引导的注意力模块：它的输入为属性特征

为了能够综合相关的人脸属性的影响，首先需要计算各个人脸属性之间的贡献度，根据公式定义第j个属性对第i个属性的贡献度为：

其中W_s表示一个可学习的矩阵，用来度量属性之间的贡献度，如果第j个属性与i个属性的相关性越高，那么第j个属性对于第i个属性影响更大，即贡献度越高。所以为了引导模型合理地计算属性之间的贡献度，基于人脸属性知识构建了一个正则损失项，用来约束属性之间的贡献度，使其符合先验知识，将在步骤5中详细介绍该项。在得到M个属性对于第i个属性的贡献度权值

(3)属性嵌入模块：它的输入为综合属性特征

输出为人脸属性的强度。定义计算第i个人脸属性强度的公式为：

其中

表示一个可学习的矩阵，用来将综合属性特征映射到属性语义空间中。sigmoid(·)函数用来将属性强度映射到(0，1)中。判别器网络结构参见图4，属性嵌入模块参见图5。

步骤4：设计人脸属性编辑模型训练过程中的属性编辑操作；

本发明采取小批量梯度下降算法对模型进行优化，分批次向模型输入数据集中的N个图像样本-属性标签对：(x，l)，属性标签l是一个长度为M二元向量，每一位的0或1分别表示对应属性的无或有。属性编辑向量构造方式如下：以图像样本x本身的属性标签作为它的原始标签l_s，并为每个图像样本x随机挑取其他图像样本的属性标签作为目标属性标签l_t，以保证属性编辑操作不会存在冲突，以Δl＝l_t-l_s作为图像x的属性编辑向量。当Δlⁱ＝1时，表示为图像x增加第i个属性；当Δlⁱ＝0时，表示不改变图像x的第i个属性；当Δlⁱ＝-1时，表示为图像x去掉第i个属性。

步骤5：设计基于知识的正则损失项

(1)从人脸数据库中提取人脸属性关系的知识：基于CelebA的标签库(其中包含有202599个人脸图像的属性标签，每个标签都描述了对应人脸的40个人脸属性的状态)，采用一种简单的方法来计算第i个人脸属性和第j人脸属性之间的相关度：

其中n_ij代表第i个属性和第j个属性在标签库中共同出现的次数，n_i和n_j分别代表第i个属性和第j个属性在标签库中出现的次数，Nd是标签库中标签的数量，softmax(·)函数用来将属性之间的相关度进行归一化。出于实际原因，还添加了一个阻尼参数∈，用来防止计算过程中出现n_ij→0的情况。当两个人脸属性的共现频次越高，它们的相关度也会更大。

(2)利用提取到的知识约束模型计算属性之间的贡献度：如果第j个属性与第i个属性经的共现频次越高，即第i个属性与第j个属性之间的相关度越大，那么第j个属性对第i个属性的贡献度也应该越大，所以设计一个正则损失项

用来约束模型计算的属性之间的贡献度符合先验知识：

其中

为M个人脸属性对于第i个人脸属性的贡献度向量，

为M个人脸属性关于第i个人脸属性的相关度向量，sim<·，·>是一种向量相似性的度量方法，本发明采用余弦相似度作为度量方法：

当优化正则损失

越来越小时，即

时，模型计算得到的属性贡献度会越来越符合人脸属性关系的知识。

步骤6：为生成对抗网络设计损失函数；

p_g为生成器拟合的图像分布。设真实图像一属性标签对为(x，l)～p_data，p_data为真实图像数据集的分布。利用判别器的特征提取模块D_e来提取真实图像x的图像特征：f＝D_e(x)，将真实图像的特征f送到判别器的对抗损失模块D_adv中计算图像的真实度估计：D_adv(x)。按照上述过程，得到生成图像

的真实度估计：

这样构造生成对抗网络的判别器的对抗损失：

其中，

表示判别器的对抗损失模块对编辑图像

的输出值，输出值越大表明编辑图像越真实，

表示对该输出值的期望。

即分布

表示判别函数关于混合图像求梯度，

为梯度惩罚项，用来约束判别器模型的参数符合lipschitz连续条件，λ_gp为梯度惩罚系数。

将真实图像的特征f送到判别器的属性分类模块D_cls中，预测图像的属性分类，输出表示为[e₁，e₂，...，e_M]^T＝D_cls(x)。为判别器构造分类损失函数：

其中，D_els(x)表示判别器的属性分类模块对原始图像x的属性预测向量，

表示对图像x的第i个属性的预测值e_i，要求与原始属性标签的第i个分量l_i越一致越好。同时结合步骤5中构造的基于知识的正则损失项

得到判别器的总损失函数为：

其中，

为判别器的知识约束损失的权重。

(2)在训练阶段，针对生成器网络设计损失函数，以引入先验知识的约束：设从数据集中抽取的原始图像-属性标签对为(x_s，l_s)～p_data，同时按照步骤3的方法为每一张图片抽取目标属性标签l_t，构造属性编辑向量Δl＝l_t-l_s。首先利用生成器的编码器提取原始图像的特征f_s＝D_enc(x_s)，将原始图像特征f_s和属性编辑向量Δl进行拼接得到带有条件的图像特征f_t，将原始图像特征f_s和0向量(长度为M)进行拼接得到不带条件的图像特征f_rec以用于图像重建。然后分别将f_t，f_rec送入滤波模块D_F中得到过滤特征f′_t，f′_rec，然后将图像特征和过滤特征送入解码器D_dec中，分别得到编辑人脸图像

和重建人脸图像

为了方便表示，这里简记为

然后按照步骤6-(1)中的过程得到编辑人脸

的真实度

然后构造生成器的对抗损失函数：

其中，

的真实度预测值，该值越高，表明编辑后图像越真实；

表示对编辑后图像

的真实度的数学期望。

按照步骤6-(1)中的过程得到编辑人脸

的属性预测向量

然后构造生成器的属性编辑损失函数：

其中，II_[·]为指示函数，当Δl_i＝0时，

当Δl_i≠0时，

表示判别器的属性分类模块对编辑人脸

的属性预测向量，

表示对图像

的第i个属性的预测值，要求与目标属性标签的第i个分量

越一致越好。

其中，||·||₁为矩阵1范数，当重建图像x_r＝G(x_s，0)与原始图像x_s的每个像素点的取值越一致的时候，||x_s-G(x_s，0)||₁越小。同时结合步骤5中构造的基于知识的正则损失项

得到生成器的总损失函数为：

其中，

为生成器的知识约束损失的权重。

步骤7：将CelebA-HQ的前28000个人脸样本划分为训练集，后2000个人脸样本划分为测试集，在训练集上训练由步骤2和步骤3中定义的生成对抗神经网络，并利用步骤6构建的损失函数约束网络的训练，在更新生成器网络G时固定判别器网络D的参数，而更新判别器网络D时则固定生成器网络G的参数，每次迭代更新判别器5次然后更新生成器一次；

步骤8：采用训练完成的生成器网络G来对测试集中的人脸图像进行属性编辑，并用属性编辑成功率来衡量本发明提出的模型的属性编辑效果。测试结果参见表1。本发明以STGAN，RelGAN，CAFE-GAN，CooGAN，SSCGAN这5种目前最主流的人脸编辑方法为参照，来展示本发明提出的基于知识引导的人脸属性编辑方法的优越性。从表1可见，本发明提出的人脸属性编辑方法超越了以上6种方法，取得了最高的人脸属性编辑成功率。

图片大小：256*256*3

编辑的人脸属性有：柳叶眉、黑色头发、金色头发、棕色头发、戴眼镜、灰色头发、浓妆、性别、张开嘴巴、上唇胡子、没有胡子、微笑、年轻。

人脸属性数量M：13

学习率：0.0002，在第50代后降为0.0001

训练批次大小N：32

迭代次数：100

判别器的属性分类损失函数权重λ_cls：1

判别器的梯度惩罚系数λ_gp：10

判别器的知识约束损失权重

生成器的属性操作损失函数权重λ_op：10

生成器的图像重建损失权重λ_rec：100

生成器的知识约束损失权重

表1为本发明方法的实验结果图。

Claims

1.一种基于知识引导的人脸属性编辑模型，该方法包括：

步骤1：对数据集进行预处理；

步骤2：构建生成对抗网络的生成器网络；

生成器网络输入为原始图像和图像的属性编辑向量，输出为属性编辑后图像；生成器网络G由三个部分构成：编码器模块G_enc、解码器模块G_dec、滤波模块G_F，其中编码器模块G_enc的输入为原始图像，输出为图像特征，由5层卷积网络块依次连接而成；解码器模块G_dec的输入为图像特征和图像的过滤特征，输出为编辑后人脸图像，由5层转置卷积网络块依次连接而成，并且编码器和解码器之间采用了Unet网络中的对称跳跃连接；滤波模块G_F由STU结构组成，它的输入为图像特征，输出为图像的过滤特征，用于选择性过滤编码器和解码器之间的对称跳跃连接中传递的图像特征；

步骤3：构建生成对抗网络的判别器网络；

其刚好对应于图像x在空间平面上的R个区域的特征向量；定义第r个区域的对于第i个人脸属性的重要程度为：

后，根据公式计算第i个属性的特征为：

(2)知识引导的注意力模块：输入为属性特征

(3)属性嵌入模块：输入为综合属性特征

其中，W_e表示一个可学习的矩阵，用来将综合属性特征映射到属性语义空间中，sigmoid(·)函数用来将属性强度映射到(0，1)中；

步骤4：设计人脸属性编辑模型训练过程中的属性编辑操作；

采取小批量梯度下降算法对模型进行优化，分批次向模型输入数据集中的N个图像样本-属性标签对：(x，l)，属性标签l是一个长度为M二元向量，每一位的0或1分别表示对应属性的无或有。属性编辑向量构造方式如下：以图像样本x本身的属性标签作为它的原始标签l_s，并为每个图像样本x随机挑取其他图像样本的属性标签作为目标属性标签l_t，以保证属性编辑操作不会存在冲突，以Δl＝l_t-l_s作为图像x的属性编辑向量。当Δlⁱ＝1时，表示为图像x增加第i个属性；当Δlⁱ＝0时，表示不改变图像x的第i个属性；当Δlⁱ＝-1时，表示为图像x去掉第i个属性；

步骤5：设计基于知识的正则损失项

用来约束模型计算的属性之间的贡献度符合先验知识：

其中s_i*＝[s_i1，s_i2，...，s_iM]为M个人脸属性对于第i个人脸属性的贡献度向量，r_i*＝[r_i1，r_i2，...，r_iM]为M个人脸属性关于第i个人脸属性的相关度向量，sim<·，·>是一种向量相似性的度量方法，采用余弦相似度作为度量方法：

当优化正则损失

越来越小时，即sim<s_i*，r_i*>→1时，模型计算得到的属性贡献度会越来越符合人脸属性关系的知识；

步骤6：为生成对抗网络设计损失函数；

的真实度估计：

这样构造生成对抗网络的判别器的对抗损失：

其中，

表示判别器的对抗损失模块对编辑图像

的输出值，输出值越大表明编辑图像越真实，

表示对该输出值的期望。

即分布

表示判别函数关于混合图像求梯度，

将真实图像的特征f送到判别器的属性分类模块D_cls中，预测图像的属性分类，输出表示为

为判别器构造分类损失函数：

得到判别器的总损失函数为：

其中，

为判别器的知识约束损失的权重。

(2)在训练阶段，针对生成器网络设计损失函数，以引入先验知识的约束：设从数据集中抽取的原始图像一属性标签对为(x_s，l_s)～p_data，同时按照步骤3的方法为每一张图片抽取目标属性标签l_t，构造属性编辑向量Δl＝l_t-l_s。首先利用生成器的编码器提取原始图像的特征f_s＝D_enc(x_s)，将原始图像特征f_s和属性编辑向量Δl进行拼接得到带有条件的图像特征f_t，将原始图像特征f_s和长度为M的0向量进行拼接得到不带条件的图像特征f_rec以用于图像重建；然后分别将f_t，f_rec送入滤波模块D_F中得到过滤特征f′_t，f′_rec，然后将图像特征和过滤特征送入解码器D_dec中，分别得到编辑人脸图像