CN115439904A - 一种基于知识引导的人脸属性编辑方法 - Google Patents

一种基于知识引导的人脸属性编辑方法 Download PDF

Info

Publication number
CN115439904A
CN115439904A CN202211015164.2A CN202211015164A CN115439904A CN 115439904 A CN115439904 A CN 115439904A CN 202211015164 A CN202211015164 A CN 202211015164A CN 115439904 A CN115439904 A CN 115439904A
Authority
CN
China
Prior art keywords
attribute
image
face
attributes
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211015164.2A
Other languages
English (en)
Other versions
CN115439904B (zh
Inventor
张亮
赵江伟
陈志勇
潘力立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202211015164.2A priority Critical patent/CN115439904B/zh
Publication of CN115439904A publication Critical patent/CN115439904A/zh
Application granted granted Critical
Publication of CN115439904B publication Critical patent/CN115439904B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

该发明公开了一种基于知识引导的人脸属性编辑方法,属于计算机视觉领域。该方法首先选择使用生成对抗网络作为基本框架,融入了一种新颖的注意力机制,并从人脸属性标签库提取了人脸属性关系的知识,构建了基于知识的正则损失项来约束注意力机制的学习。引入人脸属性知识和注意力机制的目的是为了促使生成对抗网络的判别器学习属性之间的关系,能够综合相关属性的影响来更加准确的预测目标属性,从而更好的指导生成器编辑人脸属性。同时,通过引入人脸属性之间的关系约束生成器的学习,使得生成器在改变目标人脸属性时,考虑其他相关人脸属性的变化,以实现更加合理的编辑效果。

Description

一种基于知识引导的人脸属性编辑方法
技术领域
本发明属于计算机视觉领域,主要用来解决现实生活中人脸属性编辑的问题;主要应用于影视娱乐产业,人机交互以及机器视觉理解等方面。
背景技术
人脸属性编辑的目的是操作给定人脸上的单个或多个属性,在保留其他细节的同时生成具有所需属性的新人脸图像。目前,影视娱乐、人机交互、计算机视觉等领域,对图像的生成与属性编辑的需求越来越大。例如:在艺术创作中,艺术家将想法用文字描述,然后利用生成模型根据文本生成匹配的图像,从而得到参考;在元宇宙虚拟世界中,用户根据喜好控制参数生成人物头像,以实现个性化;在短视频平台中,用户使用平台提供的属性编辑功能来修改视频中人脸的头发颜色,眼睛大小等属性,以获得更有趣味性的使用体验。
人脸属性编辑作为一项典型但有挑战的生成任务,已经被基于生成对抗网络(GAN,Generative Adversarial Networks)的方法所主导。GAN由于具有计算量小,生成图像质量高,模型构造简单等优点,通常被引用到人脸属性编辑任务当中。StarGAN在GAN的基础上引入了编码器-解码器结构,以原始图像以及目标属性向量作为输入来控制GAN编辑图像,解决了多领域转换的问题,在人脸属性编辑任务上取得了突破性的进展。参考文献:He,Z.,Zuo,W.,Kan,M.,Shan,S.,&Chen,X.(2019).Attgan:Facial attribute editing byonly changing what you want.IEEE transactions on image processing,28(11),5464-5478.但由于编码器-解码器结构存在下采样操作,会不可避免地损失一些图片信息,造成编辑后的图像模糊和丢失细节。在编码器-解码器结构的基础上,STGAN融入了选择性转移单元,以同时提高属性编辑能力和编辑图像的质量。参考文献:Liu,M.,Ding,Y.,Xia,M.,Liu,X.,Ding,E.,Zuo,W.,&Wen,S.(2019).STGAN:A unified selective transfernetwork for arbitrary image attribute editing.In Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition(pp.3673-3682).PA-GAN和CAFE-GAN分别在生成器和判别器上引入了空间注意力机制,以获得与人脸属性相关的局部区域,并在局部区域内进行属性编辑,提高了属性编辑准确性。参考文献:He,Z.,Kan,M.,Zhang,J.,&Shan,S.(2020).Pa-gan:Progressive attention generative adversarialnetwork for facial attribute editing.arXiv preprint arXiv:2007.05892.Kwak,J.G.,Han,D.K.,&Ko,H.(2020,August).Cafe-gan:Arbitrary face attribute editingwith complementary attention feature.In European Conference on ComputerVision(pp.524-540).Springer,Cham.
现存的人脸属性编辑方法假设属性之间是相互独立的,即在训练模型时,不同属性之间高度解耦。然而人脸属性是存在相关性的,当对某一目标属性进行编辑的时候,其他相关的属性的变化情况也会受到影响。现存的工作由于没有考虑属性之间的相关性,在编辑指定人脸属性时,无法正确处理其他相关的属性的变化情况,导致模型最终的编辑效果不好,属性编辑准确率低。
近年来,很多计算机视觉领域的任务,例如图像分类、图像描述、目标检测、语义分割等都存在一个趋势,即在利用视觉之外的信息,如文本和知识库等外部数据来帮助深度学习模型获得先验性的知识。参考文献:Gao,J.,Zhang,T.,&Xu,C.(2018,October).Watch,think and attend:End-to-end video classification via dynamic knowledgeevolution modeling.In Proceedings ofthe 26th ACM international conference onMultimedia(pp.690-699).但是目前学术界在属性编辑领域引入先验知识的探索十分有限,因此,本发明致力于在人脸编辑模型的基础上引入人脸属性知识,以引导模型学习人脸属性的相关性,提高人脸属性编辑的准确率。
发明内容
本发明是一种人脸属性编辑方法,以生成对抗网络为基础模型,融入了一种新颖的基于知识引导的注意力机制,该机制在人脸属性知识的约束下,综合多个相关属性对目标属性的影响,促进模型更加全面的编辑目标人脸属性,以提高属性编辑准确率。
该方法首先选择使用生成对抗网络作为人脸属性编辑的基础模型,对输入图片进行归一化并缩放裁剪至256*256*3的尺寸,以原始人脸图像和属性标签作为输入,生成256*256*3的尺寸的编辑人脸图像。该方法创新地通过注意力机制引入了人脸属性关系的知识,在生成对抗网络的训练阶段指导模型学习人脸属性之间的相关性,以让模型在编辑人脸属性时,综合考虑各个相关属性的影响,从而提高属性编辑的准确率。本发明从引入先验知识来指导模型编辑人脸属性的角度出发,主要做了三个方面的工作:1)在生成对抗网络的基础上,融入了注意力机制,为模型提供学习人脸属性关系的能力,并能够促进模型在编辑目标人脸属性时,综合各个人脸属性的影响;2)从人脸数据集中,提取人脸属性的先验知识,设计了一个基于知识的正则损失函数,通过约束注意力机制来指引模型学习人脸属性的相关性;3)在高分辨率、大规模数据集CelebA-HQ上进行实验,并和多个经典的人脸属性编辑方法进行对比,验证了提出的方法的属性编辑效果十分显著。通过上述工作,本发明充分利用了人脸属性的先验知识和生成对抗网络的优势,构建了一个人脸属性编辑效果优越的模型。
为了方便地描述本发明内容,首先对一些术语进行定义。
定义1:生成对抗网络。生成对抗网络包含两个不相同的神经网络,一个称为生成器G,另一个称为判别器D,这两个神经网络在训练过程中相互对抗,判别器的目的是区分真实数据分布pr和生成数据分布pg,而生成器的目的则是不让判别器将这两个分布区分开来,最终使得生成数据分布和真实数据分布一致:pr=pg
定义2:注意力机制。本发明使用的视觉注意力机制采用查询-键-值(Query-Key-Value)的模式,它从图像的最相关的区域中生成特征,已经被证明对图像分类、检测和描述任务是十分有效的。
定义3:批归一化层。这是一个深度神经网络训练的技巧,就是对每一批数据进行归一化,它不仅加快了模型的收敛速度,而且更重要的是在一定程度缓解了深层网络中“梯度弥散”的问题,从而使得训练深层网络模型更加容易和稳定。
定义4:实例归一化层。这是一个经常被用在风格迁移任务中的深度神经网络训练的技巧,就是对每一个图像样本的每一个通道单独进行归一化。加速模型收敛,并且保持每个图像样本之间的独立。
定义5:ReLU激活层。又称修正线性单元,是一种人工神经网络中常用的激活函数,通常指代以斜坡函数及其变种为代表的非线性函数,表达式为f(x)=max(0,x)
定义6:Tanh激活层。用表达式Tanh(x)=(ex-e-x)/(ex+e-x)定义。
定义7:Unet网络。Unet是著名的图像分割网络,包括三部分:编码器和解码器以及对称跳跃连接。其中编码器通过卷积和下采样来降低图像的尺寸,逐级提取浅层的图像特征;编码器则通过卷积和上采样来恢复图像的尺寸,并逐级提取深层的图像特征;跳跃连接则是把编码器提取的浅层图像特征与解码器中对称的深层图像特征进行连接。
定义8:选择性转移单元(Selective Transfer Units,STU)。STU是一种门控循环单元(Gate Recurrent Unit,GRU)的变体,由STGAN提出。门控循环单元是循环神经网络的一种,和LSTM(Long-Short Term Memory)一样,是为了解决长期记忆和反向传播中的梯度等问题而提出来的,但它较LSTM网络的结构更加简单,而且效果也很好。
定义9:Glove模型。Glove是一个全局对数双线性回归模型(global log bilinearregression model),该模型用到了语料库的全局特征,即单词的共现频次矩阵,并且,其优化目标函数是对数线性的,并用回归的形式进行求解。它被广泛的用来从文本预料库中学习单词的向量嵌入。
定义10:属性编辑成功率。属性编辑成功率是用来衡量人脸属性编辑模型的属性修改能力。这里在CelebA-HQ数据集上训练了一个人脸属性分类器来判断生成的人脸的属性是否编辑成功。该属性分类器在CelebA-HQ数据集上进行训练,在CelebA-HQ测试集上,所有属性的平均预测准确率达到了93.8%。
因而本发明技术方案为一种基于知识引导的人脸属性编辑模型,该方法包括:
步骤1:对数据集进行预处理;
获取真实人脸图像,并将这些真实图像按照其中人脸显示的属性进行标注,对所有图片的像素值进行归一化,并对图片进行缩放裁剪;
步骤2:构建生成对抗网络的生成器网络;
生成器网络输入为原始图像和图像的属性编辑向量,输出为属性编辑后图像;生成器网络G由三个部分构成:编码器模块Genc、解码器模块Gdec、滤波模块GF,其中编码器模块Genc的输入为原始图像,输出为图像特征,由5层卷积网络块依次连接而成;解码器模块Gdec的输入为图像特征和图像的过滤特征,输出为编辑后人脸图像,由5层转置卷积网络块依次连接而成,并且编码器和解码器之间采用了Unet网络中的对称跳跃连接;滤波模块GF由STU结构组成,它的输入为图像特征,输出为图像的过滤特征,用于选择性过滤编码器和解码器之间的对称跳跃连接中传递的图像特征;生成器网络结构参见图1,卷积网络块参见图2,转置卷积网络块结构参见图3;
步骤3:构建生成对抗网络的判别器网络;
判别器网络输入为图片,该图片为生成器网络的输出,输出为一个标量和一个向量;判别器网络D分为三个模块:特征提取模块De、对抗损失模块Dadv和基于注意力机制的属性分类模块Dcls;特征提取模块De的输入为图片x,输出为图片特征张量f,特征提取模块De由5层卷积网络块依次连接而成;对抗损失模块Dadv的输入为特征提取模块De的输出,输出为标量,值越大表示图像越真实,对抗损失模块Dadv采用两层线性网络块构成;属性分类模块Dcls的输入为特征提取模块De的输出,输出为属性分类向量,属性分类模块Dcls由提取属性特征提取模块、基于知识引导的注意力模块和属性嵌入模块依次级联而成:
(1)属性特征提取模块:输入为图片的特征张量f,将其沿第2维度和第3维度分割为R个特征向量
Figure BDA0003812247020000041
(和公式中的fr中的r位置不一样,要修改成一样的,这里面的公式我点不开),其刚好对应于图像x在空间平面上的R个区域的特征向量;定义第r个区域的对于第i个人脸属性的重要程度为:
Figure BDA0003812247020000051
其中,vi为第i个人脸属性的语义向量,i=1,...,M,M为编辑的人脸属性数量,Wα表示一个可学习的矩阵,用来度量属性语义向量和每个区域的特征向量的兼容性;在得到第i个属性关于R个区域的注意力权值
Figure BDA0003812247020000052
后,根据公式计算第i个属性的特征为:
Figure BDA0003812247020000053
(2)知识引导的注意力模块:输入为属性特征
Figure BDA0003812247020000054
为了能够综合相关的人脸属性的影响,首先计算各个人脸属性之间的贡献度,根据公式定义第j个属性对第i个属性的贡献度为:
Figure BDA0003812247020000055
其中,Ws表示一个可学习的矩阵,用来度量属性之间的贡献度,如果第j个属性与i个属性的相关性越高,那么第j个属性对于第i个属性影响更大,即贡献度越高;在得到M个属性对于第i个属性的贡献度权值
Figure BDA0003812247020000056
后,根据贡献度综合其他属性对第i个属性的影响,计算方式为:
Figure BDA0003812247020000057
(3)属性嵌入模块:输入为综合属性特征
Figure BDA0003812247020000058
输出为人脸属性的强度,定义计算第i个人脸属性强度的公式为:
Figure BDA0003812247020000059
其中,We表示一个可学习的矩阵,用来将综合属性特征映射到属性语义空间中,sigmoid(·)函数用来将属性强度映射到(0,1)中;判别器网络结构参见图4,属性嵌入模块参见图5。
步骤4:设计人脸属性编辑模型训练过程中的属性编辑操作;
采取小批量梯度下降算法对模型进行优化,分批次向模型输入数据集中的N个图像样本一属性标签对:(x,l),属性标签l是一个长度为M二元向量,每一位的0或1分别表示对应属性的无或有。属性编辑向量构造方式如下:以图像样本x本身的属性标签作为它的原始标签ls,并为每个图像样本x随机挑取其他图像样本的属性标签作为目标属性标签lt,以保证属性编辑操作不会存在冲突,以Δl=lt-ls作为图像x的属性编辑向量。当Δli=1时,表示为图像x增加第i个属性;当Δli=0时,表示不改变图像x的第i个属性;当Δli=-1时,表示为图像x去掉第i个属性;
步骤5:设计基于知识的正则损失项
(1)从人脸数据库中提取人脸属性关系的知识:基于CelebA的标签库计算第i个人脸属性和第j人脸属性之间的相关度:
Figure BDA0003812247020000061
其中nij代表第i个属性和第j个属性在标签库中共同出现的次数,ni和nj分别代表第i个属性和第j个属性在标签库中出现的次数,Nd是标签库中标签的数量,softmax(·)函数用来将属性之间的相关度进行归一化;阻尼参数∈,用来防止计算过程中出现nij→0的情况;当两个人脸属性的共现频次越高,它们的相关度也会更大;
(2)利用提取到的知识约束模型计算属性之间的贡献度:如果第j个属性与第i个属性经的共现频次越高,即第i个属性与第j个属性之间的相关度越大,那么第j个属性对第i个属性的贡献度也应该越大,设计一个正则损失项
Figure BDA0003812247020000062
用来约束模型计算的属性之间的贡献度符合先验知识:
Figure BDA0003812247020000063
其中
Figure BDA0003812247020000067
为M个人脸属性对于第i个人脸属性的贡献度向量,
Figure BDA0003812247020000066
为M个人脸属性关于第i个人脸属性的相关度向量,sim<·,·>是一种向量相似性的度量方法,采用余弦相似度作为度量方法:
Figure BDA0003812247020000064
当优化正则损失
Figure BDA0003812247020000065
越来越小时,即
Figure BDA0003812247020000068
时,模型计算得到的属性贡献度会越来越符合人脸属性关系的知识;
步骤6:为生成对抗网络设计损失函数;
(1)在训练阶段,针对判别器网络设计损失函数,以引入先验知识的约束:设由编辑后的图像
Figure BDA0003812247020000071
pg为生成器拟合的图像分布;设真实图像-属性标签对为(x,l)~pdata,pdata为真实图像数据集的分布;利用判别器的特征提取模块De来提取真实图像x的图像特征:f=De(x),将真实图像的特征f送到判别器的对抗损失模块Dadv中计算图像的真实度估计:Dadv(x);按照上述过程,得到生成图像
Figure BDA0003812247020000072
的真实度估计:
Figure BDA0003812247020000073
这样构造生成对抗网络的判别器的对抗损失:
Figure BDA0003812247020000074
其中,
Figure BDA0003812247020000075
表示判别器的对抗损失模块对编辑图像
Figure BDA0003812247020000076
的输出值,输出值越大表明编辑图像越真实,
Figure BDA0003812247020000077
表示对该输出值的期望,Dadv(x)表示判别器的对抗损失模块对编辑图像的输出值,
Figure BDA0003812247020000078
表示对该输出值的期望。
Figure BDA0003812247020000079
即分布
Figure BDA00038122470200000710
为数据集分布pr和生成图像分布pg的线性混合,∈表示线性混合系数,
Figure BDA00038122470200000711
表示判别函数关于混合图像求梯度,
Figure BDA00038122470200000712
为梯度惩罚项,用来约束判别器模型的参数符合lipschitz连续条件,λgp为梯度惩罚系数;
将真实图像的特征f送到判别器的属性分类模块Dcls中,预测图像的属性分类,输出表示为[e1,e2,...,eM]T=Dcls(x);为判别器构造分类损失函数:
Figure BDA00038122470200000713
其中,Dcls(x)表示判别器的属性分类模块对原始图像x的属性预测向量,
Figure BDA00038122470200000714
表示对图像x的第i个属性的预测值ei,要求与原始属性标签的第i个分量li越一致越好;同时结合步骤5中构造的基于知识的正则损失项
Figure BDA00038122470200000715
得到判别器的总损失函数为:
Figure BDA00038122470200000716
其中,
Figure BDA00038122470200000717
为判别器的知识约束损失,通过人脸知识来指导判别器中的注意力机制综合相关属性的影响。λcls为属性分类损失函数的权重,
Figure BDA00038122470200000718
为判别器的知识约束损失的权重。
(2)在训练阶段,针对生成器网络设计损失函数,以引入先验知识的约束:设从数据集中抽取的原始图像-属性标签对为(xs,ls)~pdata,同时按照步骤3的方法为每一张图片抽取目标属性标签lt,构造属性编辑向量Δl=lt-ls。首先利用生成器的编码器提取原始图像的特征fs=Denc(xs),将原始图像特征fs和属性编辑向量Δl进行拼接得到带有条件的图像特征ft,将原始图像特征fs和长度为M的0向量进行拼接得到不带条件的图像特征frec以用于图像重建;然后分别将ft,frec送入滤波模块DF中得到过滤特征f′t,f′rec,然后将图像特征和过滤特征送入解码器Ddec中,分别得到编辑人脸图像
Figure BDA0003812247020000081
和重建人脸图像
Figure BDA0003812247020000082
为了方便表示,这里简记为
Figure BDA0003812247020000083
然后按照步骤6-(1)中的过程得到编辑人脸
Figure BDA0003812247020000084
的真实度
Figure BDA0003812247020000085
然后构造生成器的对抗损失函数:
Figure BDA0003812247020000086
其中,
Figure BDA0003812247020000087
为生成器通过属性编辑向量Δl对原始图像xs进行编辑后的图像,D(G(xs,Δl))为判别器关于编辑图像
Figure BDA0003812247020000088
的真实度预测值,该值越高,表明编辑后图像越真实;
Figure BDA0003812247020000089
表示对编辑后图像
Figure BDA00038122470200000822
的真实度的数学期望;
按照步骤6中(1)的过程得到编辑人脸
Figure BDA00038122470200000810
的属性预测向量
Figure BDA00038122470200000811
然后构造生成器的属性编辑损失函数:
Figure BDA00038122470200000812
其中,II[·]为指示函数,当Δli=0时,
Figure BDA00038122470200000823
当Δli≠0时,
Figure BDA00038122470200000824
Figure BDA00038122470200000813
表示判别器的属性分类模块对编辑人脸
Figure BDA00038122470200000814
的属性预测向量,
Figure BDA00038122470200000815
表示对图像
Figure BDA00038122470200000816
的第i个属性的预测值,要求与目标属性标签的第i个分量
Figure BDA00038122470200000817
越一致越好;
同时,为了保证生成器G能够保留人脸的基本信息,要求重建人脸图像
Figure BDA00038122470200000818
和原始人脸图像xs越一致越好,构造生成器的图像重建损失函数:
Figure BDA00038122470200000819
其中,||·||1为矩阵1范数,当重建图像xr=G(xs,0)与原始图像xs的每个像素点的取值越一致的时候,||xs-G(xs,0)||1越小;同时结合步骤5中构造的基于知识的正则损失项
Figure BDA00038122470200000820
得到生成器的总损失函数为:
Figure BDA00038122470200000821
其中,
Figure BDA0003812247020000091
为生成器的知识约束损失,用来约束生成网络在编辑目标人脸属性时,同时考虑对其他相关人脸属性的影响。λop为属性编辑损失的权重,λrec为图像重建损失的权重,
Figure BDA0003812247020000092
为生成器的知识约束损失的权重。
步骤7:将CelebA-HQ划分为训练集和测试集,在训练集上训练由步骤2和步骤3中定义的生成对抗神经网络,并利用步骤6构建的损失函数约束网络的训练,在更新生成器网络G时固定判别器网络D的参数,而更新判别器网络D时则固定生成器网络G的参数,每次迭代更新判别器5次然后更新生成器一次;
步骤8:采用训练完成的生成器网络G来对测试集中的人脸图像进行属性编辑,并用属性编辑成功率来衡量本发明提出的模型的属性编辑效果。测试结果参见表1。
本文的创新之处在于:
(1)本发明在生成对抗网络的基础上,融入了一种基于知识引导的注意力机制,它综合多个相关属性的影响,以达到更加全面的预测、编辑人脸属性。
(2)本发明创新地引入人脸属性的先验知识,建立了一个基于知识的正则损失函数,一方面用来约束判别器中注意力机制的学习,指导模型挖掘各个人脸属性之间的相关性,促进模型更加准确的预测人脸属性;另一方面用来约束生成器编辑属性时,考虑各个人脸属性之间的相关性,当目标属性出现变化时,其他相关属性也应该受到一定的影响,以实现更加合理的编辑人脸属性。
附图说明
图1为本发明方法的生成器网络结构图。
图2为本发明方法的卷积网络块结构图,(a)为生成器中的卷积网络块,(b)为判别器中的卷积网络模块。
图3为本发明方法的转置卷积网络结构图。
图4为本发明方法的判别器网络结构图。
图5为本发明方法的属性嵌入模块示意图。
具体实施方式
步骤1:对数据集进行预处理;
下载CelebA数据集(http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html),CelebA数据集包含10177个名人身份的202599张人脸图片,每张图片都做好了40个二元属性标记,例如是否有眼镜、刘海、胡须等。然后利用开源项目(https://github.com/willylulu/celeba-hq-modified),在CelebA上生成30000张分辨率为256*256*3的人脸图像,即得到CelebA-HQ数据集。选择其中的28000张人脸图像和属性标签作为训练数据集,将另外2000张人脸图像和属性标签作为测试数据集,随机打乱训练顺序,最后将图片像素值归一化至范围[-1,1]。
步骤2:构建生成对抗网络的生成器网络;
生成器网络输入为原始图像和图像的属性编辑向量,输出为属性编辑后图像;生成器网络G主要由三个部分构成:编码器模块Genc、解码器模块Gdec、滤波模块GF。其中编码器模块Genc的输入为原始图像,输出为图像特征,由5层卷积网络块依次连接而成;解码器模块Gdec的输入为图像特征和图像的过滤特征,输出为编辑后人脸图像,由5层转置卷积网络块依次连接而成,并且编码器和解码器之间采用了Unet网络中的对称跳跃连接;滤波模块GF由STU结构组成,它的输入为图像特征,输出为图像的过滤特征,主要用于选择性过滤编码器和解码器之间的对称跳跃连接中传递的图像特征。生成器网络结构参见图1,卷积网络块参见图2,转置卷积网络块结构参见图3;
步骤3:构建生成对抗网络的判别器网络;
判别器网络输入为图片,输出为一个标量和一个向量;判别器网络D分为三个模块:特征提取模块De、对抗损失模块Daav和基于注意力机制的属性分类模块Dcls;特征提取模块De的输入为图片
Figure BDA0003812247020000101
输出为图片的特征张量
Figure BDA0003812247020000102
特征提取模块De由5层卷积网络块依次连接而成;对抗损失模块Dadv的输入为特征提取模块De提取的特征,输出为标量,值越大表示图像越真实,对抗损失模块Dadv采用两层线性网络块构成;属性分类模块Dcls的输入为特征提取模块De的提取的特征,输出为属性分类向量,属性分类模块Dcls由提取属性特征提取模块、基于知识引导的注意力模块和属性嵌入模块依次级联而成:
(1)属性特征提取模块:它的输入为图片的特征张量f,将其沿第2维度和第3维度分割为R=8×8=64个特征向量
Figure BDA0003812247020000103
其刚好对应于图像x在空间平面上的R个区域的特征向量。定义第r个区域的对于第i个人脸属性的重要程度为:
Figure BDA0003812247020000104
其中
Figure BDA0003812247020000105
为第i个人脸属性的语义向量,M为编辑的人脸属性数量。采用Glove模型从维基百科语料库中提取人脸属性的语义向量,语义向量的提取方法不是本发明的重点,所以只在此简要提及。
Figure BDA0003812247020000111
表示一个可学习的矩阵,用来度量属性语义向量和每个区域的特征向量的兼容性。在得到第i个属性关于R个区域的注意力权值
Figure BDA0003812247020000112
后,根据公式计算第i个属性的特征为:
Figure BDA0003812247020000113
(2)知识引导的注意力模块:它的输入为属性特征
Figure BDA0003812247020000114
为了能够综合相关的人脸属性的影响,首先需要计算各个人脸属性之间的贡献度,根据公式定义第j个属性对第i个属性的贡献度为:
Figure BDA0003812247020000115
其中Ws表示一个可学习的矩阵,用来度量属性之间的贡献度,如果第j个属性与i个属性的相关性越高,那么第j个属性对于第i个属性影响更大,即贡献度越高。所以为了引导模型合理地计算属性之间的贡献度,基于人脸属性知识构建了一个正则损失项,用来约束属性之间的贡献度,使其符合先验知识,将在步骤5中详细介绍该项。在得到M个属性对于第i个属性的贡献度权值
Figure BDA0003812247020000116
后,根据贡献度综合其他属性对第i个属性的影响,计算方式为:
Figure BDA0003812247020000117
(3)属性嵌入模块:它的输入为综合属性特征
Figure BDA0003812247020000118
输出为人脸属性的强度。定义计算第i个人脸属性强度的公式为:
Figure BDA0003812247020000119
其中
Figure BDA00038122470200001110
表示一个可学习的矩阵,用来将综合属性特征映射到属性语义空间中。sigmoid(·)函数用来将属性强度映射到(0,1)中。判别器网络结构参见图4,属性嵌入模块参见图5。
步骤4:设计人脸属性编辑模型训练过程中的属性编辑操作;
本发明采取小批量梯度下降算法对模型进行优化,分批次向模型输入数据集中的N个图像样本-属性标签对:(x,l),属性标签l是一个长度为M二元向量,每一位的0或1分别表示对应属性的无或有。属性编辑向量构造方式如下:以图像样本x本身的属性标签作为它的原始标签ls,并为每个图像样本x随机挑取其他图像样本的属性标签作为目标属性标签lt,以保证属性编辑操作不会存在冲突,以Δl=lt-ls作为图像x的属性编辑向量。当Δli=1时,表示为图像x增加第i个属性;当Δli=0时,表示不改变图像x的第i个属性;当Δli=-1时,表示为图像x去掉第i个属性。
步骤5:设计基于知识的正则损失项
(1)从人脸数据库中提取人脸属性关系的知识:基于CelebA的标签库(其中包含有202599个人脸图像的属性标签,每个标签都描述了对应人脸的40个人脸属性的状态),采用一种简单的方法来计算第i个人脸属性和第j人脸属性之间的相关度:
Figure BDA0003812247020000121
其中nij代表第i个属性和第j个属性在标签库中共同出现的次数,ni和nj分别代表第i个属性和第j个属性在标签库中出现的次数,Nd是标签库中标签的数量,softmax(·)函数用来将属性之间的相关度进行归一化。出于实际原因,还添加了一个阻尼参数∈,用来防止计算过程中出现nij→0的情况。当两个人脸属性的共现频次越高,它们的相关度也会更大。
(2)利用提取到的知识约束模型计算属性之间的贡献度:如果第j个属性与第i个属性经的共现频次越高,即第i个属性与第j个属性之间的相关度越大,那么第j个属性对第i个属性的贡献度也应该越大,所以设计一个正则损失项
Figure BDA0003812247020000122
用来约束模型计算的属性之间的贡献度符合先验知识:
Figure BDA0003812247020000123
其中
Figure BDA0003812247020000127
为M个人脸属性对于第i个人脸属性的贡献度向量,
Figure BDA0003812247020000126
为M个人脸属性关于第i个人脸属性的相关度向量,sim<·,·>是一种向量相似性的度量方法,本发明采用余弦相似度作为度量方法:
Figure BDA0003812247020000124
当优化正则损失
Figure BDA0003812247020000125
越来越小时,即
Figure BDA0003812247020000128
时,模型计算得到的属性贡献度会越来越符合人脸属性关系的知识。
步骤6:为生成对抗网络设计损失函数;
(1)在训练阶段,针对判别器网络设计损失函数,以引入先验知识的约束:设由编辑后的图像
Figure BDA0003812247020000131
pg为生成器拟合的图像分布。设真实图像一属性标签对为(x,l)~pdata,pdata为真实图像数据集的分布。利用判别器的特征提取模块De来提取真实图像x的图像特征:f=De(x),将真实图像的特征f送到判别器的对抗损失模块Dadv中计算图像的真实度估计:Dadv(x)。按照上述过程,得到生成图像
Figure BDA0003812247020000132
的真实度估计:
Figure BDA0003812247020000133
这样构造生成对抗网络的判别器的对抗损失:
Figure BDA0003812247020000134
其中,
Figure BDA0003812247020000135
表示判别器的对抗损失模块对编辑图像
Figure BDA0003812247020000136
的输出值,输出值越大表明编辑图像越真实,
Figure BDA0003812247020000137
表示对该输出值的期望,Dadv(x)表示判别器的对抗损失模块对编辑图像的输出值,
Figure BDA0003812247020000138
表示对该输出值的期望。
Figure BDA0003812247020000139
即分布
Figure BDA00038122470200001310
为数据集分布pr和生成图像分布pg的线性混合,∈表示线性混合系数,
Figure BDA00038122470200001311
表示判别函数关于混合图像求梯度,
Figure BDA00038122470200001312
为梯度惩罚项,用来约束判别器模型的参数符合lipschitz连续条件,λgp为梯度惩罚系数。
将真实图像的特征f送到判别器的属性分类模块Dcls中,预测图像的属性分类,输出表示为[e1,e2,...,eM]T=Dcls(x)。为判别器构造分类损失函数:
Figure BDA00038122470200001313
其中,Dels(x)表示判别器的属性分类模块对原始图像x的属性预测向量,
Figure BDA00038122470200001314
表示对图像x的第i个属性的预测值ei,要求与原始属性标签的第i个分量li越一致越好。同时结合步骤5中构造的基于知识的正则损失项
Figure BDA00038122470200001315
得到判别器的总损失函数为:
Figure BDA00038122470200001316
其中,
Figure BDA00038122470200001317
为判别器的知识约束损失,通过人脸知识来指导判别器中的注意力机制综合相关属性的影响。λcls为属性分类损失函数的权重,
Figure BDA00038122470200001318
为判别器的知识约束损失的权重。
(2)在训练阶段,针对生成器网络设计损失函数,以引入先验知识的约束:设从数据集中抽取的原始图像-属性标签对为(xs,ls)~pdata,同时按照步骤3的方法为每一张图片抽取目标属性标签lt,构造属性编辑向量Δl=lt-ls。首先利用生成器的编码器提取原始图像的特征fs=Denc(xs),将原始图像特征fs和属性编辑向量Δl进行拼接得到带有条件的图像特征ft,将原始图像特征fs和0向量(长度为M)进行拼接得到不带条件的图像特征frec以用于图像重建。然后分别将ft,frec送入滤波模块DF中得到过滤特征f′t,f′rec,然后将图像特征和过滤特征送入解码器Ddec中,分别得到编辑人脸图像
Figure BDA0003812247020000141
和重建人脸图像
Figure BDA0003812247020000142
为了方便表示,这里简记为
Figure BDA0003812247020000143
然后按照步骤6-(1)中的过程得到编辑人脸
Figure BDA0003812247020000144
的真实度
Figure BDA0003812247020000145
然后构造生成器的对抗损失函数:
Figure BDA0003812247020000146
其中,
Figure BDA0003812247020000147
为生成器通过属性编辑向量Δl对原始图像xs进行编辑后的图像,D(G(xs,Δl))为判别器关于编辑图像
Figure BDA0003812247020000148
的真实度预测值,该值越高,表明编辑后图像越真实;
Figure BDA0003812247020000149
表示对编辑后图像
Figure BDA00038122470200001410
的真实度的数学期望。
按照步骤6-(1)中的过程得到编辑人脸
Figure BDA00038122470200001411
的属性预测向量
Figure BDA00038122470200001412
然后构造生成器的属性编辑损失函数:
Figure BDA00038122470200001413
其中,II[·]为指示函数,当Δli=0时,
Figure BDA00038122470200001414
当Δli≠0时,
Figure BDA00038122470200001415
Figure BDA00038122470200001416
表示判别器的属性分类模块对编辑人脸
Figure BDA00038122470200001417
的属性预测向量,
Figure BDA00038122470200001418
表示对图像
Figure BDA00038122470200001419
的第i个属性的预测值,要求与目标属性标签的第i个分量
Figure BDA00038122470200001420
越一致越好。
同时,为了保证生成器G能够保留人脸的基本信息,要求重建人脸图像
Figure BDA00038122470200001421
和原始人脸图像xs越一致越好,构造生成器的图像重建损失函数:
Figure BDA00038122470200001422
其中,||·||1为矩阵1范数,当重建图像xr=G(xs,0)与原始图像xs的每个像素点的取值越一致的时候,||xs-G(xs,0)||1越小。同时结合步骤5中构造的基于知识的正则损失项
Figure BDA00038122470200001423
得到生成器的总损失函数为:
Figure BDA00038122470200001424
其中,
Figure BDA0003812247020000151
为生成器的知识约束损失,用来约束生成网络在编辑目标人脸属性时,同时考虑对其他相关人脸属性的影响。λop为属性编辑损失的权重,λrec为图像重建损失的权重,
Figure BDA0003812247020000152
为生成器的知识约束损失的权重。
步骤7:将CelebA-HQ的前28000个人脸样本划分为训练集,后2000个人脸样本划分为测试集,在训练集上训练由步骤2和步骤3中定义的生成对抗神经网络,并利用步骤6构建的损失函数约束网络的训练,在更新生成器网络G时固定判别器网络D的参数,而更新判别器网络D时则固定生成器网络G的参数,每次迭代更新判别器5次然后更新生成器一次;
步骤8:采用训练完成的生成器网络G来对测试集中的人脸图像进行属性编辑,并用属性编辑成功率来衡量本发明提出的模型的属性编辑效果。测试结果参见表1。本发明以STGAN,RelGAN,CAFE-GAN,CooGAN,SSCGAN这5种目前最主流的人脸编辑方法为参照,来展示本发明提出的基于知识引导的人脸属性编辑方法的优越性。从表1可见,本发明提出的人脸属性编辑方法超越了以上6种方法,取得了最高的人脸属性编辑成功率。
图片大小:256*256*3
编辑的人脸属性有:柳叶眉、黑色头发、金色头发、棕色头发、戴眼镜、灰色头发、浓妆、性别、张开嘴巴、上唇胡子、没有胡子、微笑、年轻。
人脸属性数量M:13
学习率:0.0002,在第50代后降为0.0001
训练批次大小N:32
迭代次数:100
判别器的属性分类损失函数权重λcls:1
判别器的梯度惩罚系数λgp:10
判别器的知识约束损失权重
Figure BDA0003812247020000153
生成器的属性操作损失函数权重λop:10
生成器的图像重建损失权重λrec:100
生成器的知识约束损失权重
Figure BDA0003812247020000154
表1为本发明方法的实验结果图。
Figure BDA0003812247020000161

Claims (1)

1.一种基于知识引导的人脸属性编辑模型,该方法包括:
步骤1:对数据集进行预处理;
获取真实人脸图像,并将这些真实图像按照其中人脸显示的属性进行标注,对所有图片的像素值进行归一化,并对图片进行缩放裁剪;
步骤2:构建生成对抗网络的生成器网络;
生成器网络输入为原始图像和图像的属性编辑向量,输出为属性编辑后图像;生成器网络G由三个部分构成:编码器模块Genc、解码器模块Gdec、滤波模块GF,其中编码器模块Genc的输入为原始图像,输出为图像特征,由5层卷积网络块依次连接而成;解码器模块Gdec的输入为图像特征和图像的过滤特征,输出为编辑后人脸图像,由5层转置卷积网络块依次连接而成,并且编码器和解码器之间采用了Unet网络中的对称跳跃连接;滤波模块GF由STU结构组成,它的输入为图像特征,输出为图像的过滤特征,用于选择性过滤编码器和解码器之间的对称跳跃连接中传递的图像特征;
步骤3:构建生成对抗网络的判别器网络;
判别器网络输入为图片,该图片为生成器网络的输出,输出为一个标量和一个向量;判别器网络D分为三个模块:特征提取模块De、对抗损失模块Dadv和基于注意力机制的属性分类模块Dcls;特征提取模块De的输入为图片x,输出为图片特征张量f,特征提取模块De由5层卷积网络块依次连接而成;对抗损失模块Dadv的输入为特征提取模块De的输出,输出为标量,值越大表示图像越真实,对抗损失模块Dadv采用两层线性网络块构成;属性分类模块Dcls的输入为特征提取模块De的输出,输出为属性分类向量,属性分类模块Dcls由提取属性特征提取模块、基于知识引导的注意力模块和属性嵌入模块依次级联而成:
(1)属性特征提取模块:输入为图片的特征张量f,将其沿第2维度和第3维度分割为R个特征向量
Figure FDA0003812247010000011
其刚好对应于图像x在空间平面上的R个区域的特征向量;定义第r个区域的对于第i个人脸属性的重要程度为:
Figure FDA0003812247010000012
其中,vi为第i个人脸属性的语义向量,i=1,...,M,M为编辑的人脸属性数量,Wα表示一个可学习的矩阵,用来度量属性语义向量和每个区域的特征向量的兼容性;在得到第i个属性关于R个区域的注意力权值
Figure FDA0003812247010000021
后,根据公式计算第i个属性的特征为:
Figure FDA0003812247010000022
(2)知识引导的注意力模块:输入为属性特征
Figure FDA0003812247010000023
为了能够综合相关的人脸属性的影响,首先计算各个人脸属性之间的贡献度,根据公式定义第j个属性对第i个属性的贡献度为:
Figure FDA0003812247010000024
其中,Ws表示一个可学习的矩阵,用来度量属性之间的贡献度,如果第j个属性与i个属性的相关性越高,那么第j个属性对于第i个属性影响更大,即贡献度越高;在得到M个属性对于第i个属性的贡献度权值
Figure FDA0003812247010000025
后,根据贡献度综合其他属性对第i个属性的影响,计算方式为:
Figure FDA0003812247010000026
(3)属性嵌入模块:输入为综合属性特征
Figure FDA0003812247010000027
输出为人脸属性的强度,定义计算第i个人脸属性强度的公式为:
Figure FDA0003812247010000028
其中,We表示一个可学习的矩阵,用来将综合属性特征映射到属性语义空间中,sigmoid(·)函数用来将属性强度映射到(0,1)中;
步骤4:设计人脸属性编辑模型训练过程中的属性编辑操作;
采取小批量梯度下降算法对模型进行优化,分批次向模型输入数据集中的N个图像样本-属性标签对:(x,l),属性标签l是一个长度为M二元向量,每一位的0或1分别表示对应属性的无或有。属性编辑向量构造方式如下:以图像样本x本身的属性标签作为它的原始标签ls,并为每个图像样本x随机挑取其他图像样本的属性标签作为目标属性标签lt,以保证属性编辑操作不会存在冲突,以Δl=lt-ls作为图像x的属性编辑向量。当Δli=1时,表示为图像x增加第i个属性;当Δli=0时,表示不改变图像x的第i个属性;当Δli=-1时,表示为图像x去掉第i个属性;
步骤5:设计基于知识的正则损失项
(1)从人脸数据库中提取人脸属性关系的知识:基于CelebA的标签库计算第i个人脸属性和第j人脸属性之间的相关度:
Figure FDA0003812247010000031
其中nij代表第i个属性和第j个属性在标签库中共同出现的次数,ni和nj分别代表第i个属性和第j个属性在标签库中出现的次数,Nd是标签库中标签的数量,softmax(·)函数用来将属性之间的相关度进行归一化;阻尼参数∈,用来防止计算过程中出现nij→0的情况;当两个人脸属性的共现频次越高,它们的相关度也会更大;
(2)利用提取到的知识约束模型计算属性之间的贡献度:如果第j个属性与第i个属性经的共现频次越高,即第i个属性与第j个属性之间的相关度越大,那么第j个属性对第i个属性的贡献度也应该越大,设计一个正则损失项
Figure FDA0003812247010000032
用来约束模型计算的属性之间的贡献度符合先验知识:
Figure FDA0003812247010000033
其中si*=[si1,si2,...,siM]为M个人脸属性对于第i个人脸属性的贡献度向量,ri*=[ri1,ri2,...,riM]为M个人脸属性关于第i个人脸属性的相关度向量,sim<·,·>是一种向量相似性的度量方法,采用余弦相似度作为度量方法:
Figure FDA0003812247010000034
当优化正则损失
Figure FDA0003812247010000035
越来越小时,即sim<si*,ri*>→1时,模型计算得到的属性贡献度会越来越符合人脸属性关系的知识;
步骤6:为生成对抗网络设计损失函数;
(1)在训练阶段,针对判别器网络设计损失函数,以引入先验知识的约束:设由编辑后的图像
Figure FDA0003812247010000036
pg为生成器拟合的图像分布;设真实图像-属性标签对为(x,l)~pdata,pdata为真实图像数据集的分布;利用判别器的特征提取模块De来提取真实图像x的图像特征:f=De(x),将真实图像的特征f送到判别器的对抗损失模块Dadv中计算图像的真实度估计:Dadv(x);按照上述过程,得到生成图像
Figure FDA0003812247010000041
的真实度估计:
Figure FDA0003812247010000042
这样构造生成对抗网络的判别器的对抗损失:
Figure FDA0003812247010000043
其中,
Figure FDA0003812247010000044
表示判别器的对抗损失模块对编辑图像
Figure FDA0003812247010000045
的输出值,输出值越大表明编辑图像越真实,
Figure FDA0003812247010000046
表示对该输出值的期望,Dadv(x)表示判别器的对抗损失模块对编辑图像的输出值,
Figure FDA0003812247010000047
表示对该输出值的期望。
Figure FDA0003812247010000048
即分布
Figure FDA00038122470100000418
为数据集分布pr和生成图像分布pg的线性混合,∈表示线性混合系数,
Figure FDA0003812247010000049
表示判别函数关于混合图像求梯度,
Figure FDA00038122470100000410
为梯度惩罚项,用来约束判别器模型的参数符合lipschitz连续条件,λgp为梯度惩罚系数;
将真实图像的特征f送到判别器的属性分类模块Dcls中,预测图像的属性分类,输出表示为
Figure FDA00038122470100000411
为判别器构造分类损失函数:
Figure FDA00038122470100000412
其中,Dcls(x)表示判别器的属性分类模块对原始图像x的属性预测向量,
Figure FDA00038122470100000413
表示对图像x的第i个属性的预测值ei,要求与原始属性标签的第i个分量li越一致越好;同时结合步骤5中构造的基于知识的正则损失项
Figure FDA00038122470100000414
得到判别器的总损失函数为:
Figure FDA00038122470100000415
其中,
Figure FDA00038122470100000416
为判别器的知识约束损失,通过人脸知识来指导判别器中的注意力机制综合相关属性的影响。λcls为属性分类损失函数的权重,
Figure FDA00038122470100000417
为判别器的知识约束损失的权重。
(2)在训练阶段,针对生成器网络设计损失函数,以引入先验知识的约束:设从数据集中抽取的原始图像一属性标签对为(xs,ls)~pdata,同时按照步骤3的方法为每一张图片抽取目标属性标签lt,构造属性编辑向量Δl=lt-ls。首先利用生成器的编码器提取原始图像的特征fs=Denc(xs),将原始图像特征fs和属性编辑向量Δl进行拼接得到带有条件的图像特征ft,将原始图像特征fs和长度为M的0向量进行拼接得到不带条件的图像特征frec以用于图像重建;然后分别将ft,frec送入滤波模块DF中得到过滤特征f′t,f′rec,然后将图像特征和过滤特征送入解码器Ddec中,分别得到编辑人脸图像
Figure FDA0003812247010000051
和重建人脸图像
Figure FDA0003812247010000052
为了方便表示,这里简记为
Figure FDA0003812247010000053
然后按照步骤6-(1)中的过程得到编辑人脸
Figure FDA0003812247010000054
的真实度
Figure FDA0003812247010000055
然后构造生成器的对抗损失函数:
Figure FDA0003812247010000056
其中,
Figure FDA0003812247010000057
为生成器通过属性编辑向量Δl对原始图像xs进行编辑后的图像,D(G(xs,Δl))为判别器关于编辑图像
Figure FDA0003812247010000058
的真实度预测值,该值越高,表明编辑后图像越真实;
Figure FDA0003812247010000059
表示对编辑后图像
Figure FDA00038122470100000510
的真实度的数学期望;
按照步骤6中(1)的过程得到编辑人脸
Figure FDA00038122470100000511
的属性预测向量
Figure FDA00038122470100000512
然后构造生成器的属性编辑损失函数:
Figure FDA00038122470100000513
其中,
Figure FDA00038122470100000514
为指示函数,当Δli=0时,
Figure FDA00038122470100000515
当Δli≠0时,
Figure FDA00038122470100000516
Figure FDA00038122470100000527
表示判别器的属性分类模块对编辑人脸
Figure FDA00038122470100000517
的属性预测向量,
Figure FDA00038122470100000518
表示对图像
Figure FDA00038122470100000519
的第i个属性的预测值,要求与目标属性标签的第i个分量
Figure FDA00038122470100000520
越一致越好;
同时,为了保证生成器G能够保留人脸的基本信息,要求重建人脸图像
Figure FDA00038122470100000521
和原始人脸图像xs越一致越好,构造生成器的图像重建损失函数:
Figure FDA00038122470100000522
其中,||·||1为矩阵1范数,当重建图像xr=G(xs,0)与原始图像xs的每个像素点的取值越一致的时候,||xs-G(xs,0)||1越小;同时结合步骤5中构造的基于知识的正则损失项
Figure FDA00038122470100000523
得到生成器的总损失函数为:
Figure FDA00038122470100000524
其中,
Figure FDA00038122470100000525
为生成器的知识约束损失,用来约束生成网络在编辑目标人脸属性时,同时考虑对其他相关人脸属性的影响。λop为属性编辑损失的权重,λrec为图像重建损失的权重,
Figure FDA00038122470100000526
为生成器的知识约束损失的权重。
步骤7:将CelebA-HQ划分为训练集和测试集,在训练集上训练由步骤2和步骤3中定义的生成对抗神经网络,并利用步骤6构建的损失函数约束网络的训练,在更新生成器网络G时固定判别器网络D的参数,而更新判别器网络D时则固定生成器网络G的参数,每次迭代更新判别器5次然后更新生成器一次;
步骤8:采用训练完成的生成器网络G来对测试集中的人脸图像进行属性编辑,并用属性编辑成功率来衡量本发明提出的模型的属性编辑效果。
CN202211015164.2A 2022-08-23 2022-08-23 一种基于知识引导的人脸属性编辑方法 Active CN115439904B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211015164.2A CN115439904B (zh) 2022-08-23 2022-08-23 一种基于知识引导的人脸属性编辑方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211015164.2A CN115439904B (zh) 2022-08-23 2022-08-23 一种基于知识引导的人脸属性编辑方法

Publications (2)

Publication Number Publication Date
CN115439904A true CN115439904A (zh) 2022-12-06
CN115439904B CN115439904B (zh) 2024-07-16

Family

ID=84243814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211015164.2A Active CN115439904B (zh) 2022-08-23 2022-08-23 一种基于知识引导的人脸属性编辑方法

Country Status (1)

Country Link
CN (1) CN115439904B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115983379A (zh) * 2023-03-20 2023-04-18 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) Mdata知识图谱的可达路径查询方法及其系统
CN118366206A (zh) * 2024-06-19 2024-07-19 苏州元脑智能科技有限公司 人脸识别方法、装置和人脸识别门禁系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190295302A1 (en) * 2018-03-22 2019-09-26 Northeastern University Segmentation Guided Image Generation With Adversarial Networks
WO2020029356A1 (zh) * 2018-08-08 2020-02-13 杰创智能科技股份有限公司 一种基于生成对抗网络的脸部变化预测方法
CN111932444A (zh) * 2020-07-16 2020-11-13 中国石油大学(华东) 基于生成对抗网络的人脸属性编辑方法及信息处理终端
CN114494529A (zh) * 2022-01-05 2022-05-13 电子科技大学长三角研究院(衢州) 一种基于代价敏感学习的人脸属性编辑方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190295302A1 (en) * 2018-03-22 2019-09-26 Northeastern University Segmentation Guided Image Generation With Adversarial Networks
WO2020029356A1 (zh) * 2018-08-08 2020-02-13 杰创智能科技股份有限公司 一种基于生成对抗网络的脸部变化预测方法
CN111932444A (zh) * 2020-07-16 2020-11-13 中国石油大学(华东) 基于生成对抗网络的人脸属性编辑方法及信息处理终端
CN114494529A (zh) * 2022-01-05 2022-05-13 电子科技大学长三角研究院(衢州) 一种基于代价敏感学习的人脸属性编辑方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HOU, XX 等: "GuidedStyle: Attribute knowledge guided style manipulation for semantic face editing", NEURAL NETWORKS, vol. 145, 31 January 2022 (2022-01-31), pages 209 - 220 *
陈志勇: "基于生成对抗网络的属性可控图像生成方法研究", 中国优秀硕士学位论文全文数据库 信息科技辑, 15 April 2024 (2024-04-15) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115983379A (zh) * 2023-03-20 2023-04-18 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) Mdata知识图谱的可达路径查询方法及其系统
CN115983379B (zh) * 2023-03-20 2023-10-10 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) Mdata知识图谱的可达路径查询方法及其系统
CN118366206A (zh) * 2024-06-19 2024-07-19 苏州元脑智能科技有限公司 人脸识别方法、装置和人脸识别门禁系统

Also Published As

Publication number Publication date
CN115439904B (zh) 2024-07-16

Similar Documents

Publication Publication Date Title
CN115439904A (zh) 一种基于知识引导的人脸属性编辑方法
US12105773B2 (en) Semantic relation preserving knowledge distillation for image-to-image translation
CN111127146A (zh) 基于卷积神经网络与降噪自编码器的信息推荐方法及系统
Lin et al. PS-mixer: A polar-vector and strength-vector mixer model for multimodal sentiment analysis
Berman et al. Multifactor sequential disentanglement via structured koopman autoencoders
US20220398697A1 (en) Score-based generative modeling in latent space
CN117557683A (zh) 一种新型的文本和语义分割图共同驱动的图像生成方法
CN110415261B (zh) 一种分区域训练的表情动画转换方法及系统
CN114494529A (zh) 一种基于代价敏感学习的人脸属性编辑方法
CN114240736A (zh) 基于VAE和cGAN的同时生成和编辑任意人脸属性的方法
CN117036862B (zh) 基于高斯混合变分自编码器的图像生成方法
Shuai et al. A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models
Chen et al. A unified framework for generative data augmentation: A comprehensive survey
Zheng et al. BLAN: Bi-directional ladder attentive network for facial attribute prediction
CN116721176A (zh) 一种基于clip监督的文本到人脸图像生成方法及装置
CN116311472A (zh) 基于多层次图卷积网络的微表情识别方法及装置
Baek et al. Editable generative adversarial networks: Generating and editing faces simultaneously
Kandwal et al. A Survey of Text-to-Image Diffusion Models in Generative AI
He Exploring style transfer algorithms in Animation: Enhancing visual
CN114140368A (zh) 一种基于生成式对抗网络的多模态医学图像合成方法
JPWO2022002943A5 (zh)
Pernuš et al. ChildNet: Structural Kinship Face Synthesis Model With Appearance Control Mechanisms
Meira et al. Generating Synthetic Faces for Data Augmentation with StyleGAN2-ADA.
Mahmud et al. Semantic Image Segmentation using CNN (Convolutional Neural Network) based Technique
Wang et al. An embedded method: Improve the relevance of text and face image with enhanced face attributes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant