CN115439904A - 一种基于知识引导的人脸属性编辑方法 - Google Patents
一种基于知识引导的人脸属性编辑方法 Download PDFInfo
- Publication number
- CN115439904A CN115439904A CN202211015164.2A CN202211015164A CN115439904A CN 115439904 A CN115439904 A CN 115439904A CN 202211015164 A CN202211015164 A CN 202211015164A CN 115439904 A CN115439904 A CN 115439904A
- Authority
- CN
- China
- Prior art keywords
- attribute
- image
- face
- attributes
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000007246 mechanism Effects 0.000 claims abstract description 18
- 230000000694 effects Effects 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 68
- 238000012549 training Methods 0.000 claims description 30
- 238000000605 extraction Methods 0.000 claims description 27
- 238000009826 distribution Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012821 model calculation Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 239000002131 composite material Substances 0.000 claims description 4
- 238000000691 measurement method Methods 0.000 claims description 4
- 241000287196 Asthenes Species 0.000 claims description 3
- 230000003042 antagnostic effect Effects 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000013016 damping Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 3
- 238000002156 mixing Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000035484 reaction time Effects 0.000 claims description 3
- 235000009508 confectionery Nutrition 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims description 2
- 230000008859 change Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 39
- 238000010586 diagram Methods 0.000 description 5
- 210000000887 face Anatomy 0.000 description 4
- 210000004209 hair Anatomy 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 241000124033 Salix Species 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000037308 hair color Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
该发明公开了一种基于知识引导的人脸属性编辑方法,属于计算机视觉领域。该方法首先选择使用生成对抗网络作为基本框架,融入了一种新颖的注意力机制,并从人脸属性标签库提取了人脸属性关系的知识,构建了基于知识的正则损失项来约束注意力机制的学习。引入人脸属性知识和注意力机制的目的是为了促使生成对抗网络的判别器学习属性之间的关系,能够综合相关属性的影响来更加准确的预测目标属性,从而更好的指导生成器编辑人脸属性。同时,通过引入人脸属性之间的关系约束生成器的学习,使得生成器在改变目标人脸属性时,考虑其他相关人脸属性的变化,以实现更加合理的编辑效果。
Description
技术领域
本发明属于计算机视觉领域,主要用来解决现实生活中人脸属性编辑的问题;主要应用于影视娱乐产业,人机交互以及机器视觉理解等方面。
背景技术
人脸属性编辑的目的是操作给定人脸上的单个或多个属性,在保留其他细节的同时生成具有所需属性的新人脸图像。目前,影视娱乐、人机交互、计算机视觉等领域,对图像的生成与属性编辑的需求越来越大。例如:在艺术创作中,艺术家将想法用文字描述,然后利用生成模型根据文本生成匹配的图像,从而得到参考;在元宇宙虚拟世界中,用户根据喜好控制参数生成人物头像,以实现个性化;在短视频平台中,用户使用平台提供的属性编辑功能来修改视频中人脸的头发颜色,眼睛大小等属性,以获得更有趣味性的使用体验。
人脸属性编辑作为一项典型但有挑战的生成任务,已经被基于生成对抗网络(GAN,Generative Adversarial Networks)的方法所主导。GAN由于具有计算量小,生成图像质量高,模型构造简单等优点,通常被引用到人脸属性编辑任务当中。StarGAN在GAN的基础上引入了编码器-解码器结构,以原始图像以及目标属性向量作为输入来控制GAN编辑图像,解决了多领域转换的问题,在人脸属性编辑任务上取得了突破性的进展。参考文献:He,Z.,Zuo,W.,Kan,M.,Shan,S.,&Chen,X.(2019).Attgan:Facial attribute editing byonly changing what you want.IEEE transactions on image processing,28(11),5464-5478.但由于编码器-解码器结构存在下采样操作,会不可避免地损失一些图片信息,造成编辑后的图像模糊和丢失细节。在编码器-解码器结构的基础上,STGAN融入了选择性转移单元,以同时提高属性编辑能力和编辑图像的质量。参考文献:Liu,M.,Ding,Y.,Xia,M.,Liu,X.,Ding,E.,Zuo,W.,&Wen,S.(2019).STGAN:A unified selective transfernetwork for arbitrary image attribute editing.In Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition(pp.3673-3682).PA-GAN和CAFE-GAN分别在生成器和判别器上引入了空间注意力机制,以获得与人脸属性相关的局部区域,并在局部区域内进行属性编辑,提高了属性编辑准确性。参考文献:He,Z.,Kan,M.,Zhang,J.,&Shan,S.(2020).Pa-gan:Progressive attention generative adversarialnetwork for facial attribute editing.arXiv preprint arXiv:2007.05892.Kwak,J.G.,Han,D.K.,&Ko,H.(2020,August).Cafe-gan:Arbitrary face attribute editingwith complementary attention feature.In European Conference on ComputerVision(pp.524-540).Springer,Cham.
现存的人脸属性编辑方法假设属性之间是相互独立的,即在训练模型时,不同属性之间高度解耦。然而人脸属性是存在相关性的,当对某一目标属性进行编辑的时候,其他相关的属性的变化情况也会受到影响。现存的工作由于没有考虑属性之间的相关性,在编辑指定人脸属性时,无法正确处理其他相关的属性的变化情况,导致模型最终的编辑效果不好,属性编辑准确率低。
近年来,很多计算机视觉领域的任务,例如图像分类、图像描述、目标检测、语义分割等都存在一个趋势,即在利用视觉之外的信息,如文本和知识库等外部数据来帮助深度学习模型获得先验性的知识。参考文献:Gao,J.,Zhang,T.,&Xu,C.(2018,October).Watch,think and attend:End-to-end video classification via dynamic knowledgeevolution modeling.In Proceedings ofthe 26th ACM international conference onMultimedia(pp.690-699).但是目前学术界在属性编辑领域引入先验知识的探索十分有限,因此,本发明致力于在人脸编辑模型的基础上引入人脸属性知识,以引导模型学习人脸属性的相关性,提高人脸属性编辑的准确率。
发明内容
本发明是一种人脸属性编辑方法,以生成对抗网络为基础模型,融入了一种新颖的基于知识引导的注意力机制,该机制在人脸属性知识的约束下,综合多个相关属性对目标属性的影响,促进模型更加全面的编辑目标人脸属性,以提高属性编辑准确率。
该方法首先选择使用生成对抗网络作为人脸属性编辑的基础模型,对输入图片进行归一化并缩放裁剪至256*256*3的尺寸,以原始人脸图像和属性标签作为输入,生成256*256*3的尺寸的编辑人脸图像。该方法创新地通过注意力机制引入了人脸属性关系的知识,在生成对抗网络的训练阶段指导模型学习人脸属性之间的相关性,以让模型在编辑人脸属性时,综合考虑各个相关属性的影响,从而提高属性编辑的准确率。本发明从引入先验知识来指导模型编辑人脸属性的角度出发,主要做了三个方面的工作:1)在生成对抗网络的基础上,融入了注意力机制,为模型提供学习人脸属性关系的能力,并能够促进模型在编辑目标人脸属性时,综合各个人脸属性的影响;2)从人脸数据集中,提取人脸属性的先验知识,设计了一个基于知识的正则损失函数,通过约束注意力机制来指引模型学习人脸属性的相关性;3)在高分辨率、大规模数据集CelebA-HQ上进行实验,并和多个经典的人脸属性编辑方法进行对比,验证了提出的方法的属性编辑效果十分显著。通过上述工作,本发明充分利用了人脸属性的先验知识和生成对抗网络的优势,构建了一个人脸属性编辑效果优越的模型。
为了方便地描述本发明内容,首先对一些术语进行定义。
定义1:生成对抗网络。生成对抗网络包含两个不相同的神经网络,一个称为生成器G,另一个称为判别器D,这两个神经网络在训练过程中相互对抗,判别器的目的是区分真实数据分布pr和生成数据分布pg,而生成器的目的则是不让判别器将这两个分布区分开来,最终使得生成数据分布和真实数据分布一致:pr=pg。
定义2:注意力机制。本发明使用的视觉注意力机制采用查询-键-值(Query-Key-Value)的模式,它从图像的最相关的区域中生成特征,已经被证明对图像分类、检测和描述任务是十分有效的。
定义3:批归一化层。这是一个深度神经网络训练的技巧,就是对每一批数据进行归一化,它不仅加快了模型的收敛速度,而且更重要的是在一定程度缓解了深层网络中“梯度弥散”的问题,从而使得训练深层网络模型更加容易和稳定。
定义4:实例归一化层。这是一个经常被用在风格迁移任务中的深度神经网络训练的技巧,就是对每一个图像样本的每一个通道单独进行归一化。加速模型收敛,并且保持每个图像样本之间的独立。
定义5:ReLU激活层。又称修正线性单元,是一种人工神经网络中常用的激活函数,通常指代以斜坡函数及其变种为代表的非线性函数,表达式为f(x)=max(0,x)
定义6:Tanh激活层。用表达式Tanh(x)=(ex-e-x)/(ex+e-x)定义。
定义7:Unet网络。Unet是著名的图像分割网络,包括三部分:编码器和解码器以及对称跳跃连接。其中编码器通过卷积和下采样来降低图像的尺寸,逐级提取浅层的图像特征;编码器则通过卷积和上采样来恢复图像的尺寸,并逐级提取深层的图像特征;跳跃连接则是把编码器提取的浅层图像特征与解码器中对称的深层图像特征进行连接。
定义8:选择性转移单元(Selective Transfer Units,STU)。STU是一种门控循环单元(Gate Recurrent Unit,GRU)的变体,由STGAN提出。门控循环单元是循环神经网络的一种,和LSTM(Long-Short Term Memory)一样,是为了解决长期记忆和反向传播中的梯度等问题而提出来的,但它较LSTM网络的结构更加简单,而且效果也很好。
定义9:Glove模型。Glove是一个全局对数双线性回归模型(global log bilinearregression model),该模型用到了语料库的全局特征,即单词的共现频次矩阵,并且,其优化目标函数是对数线性的,并用回归的形式进行求解。它被广泛的用来从文本预料库中学习单词的向量嵌入。
定义10:属性编辑成功率。属性编辑成功率是用来衡量人脸属性编辑模型的属性修改能力。这里在CelebA-HQ数据集上训练了一个人脸属性分类器来判断生成的人脸的属性是否编辑成功。该属性分类器在CelebA-HQ数据集上进行训练,在CelebA-HQ测试集上,所有属性的平均预测准确率达到了93.8%。
因而本发明技术方案为一种基于知识引导的人脸属性编辑模型,该方法包括:
步骤1:对数据集进行预处理;
获取真实人脸图像,并将这些真实图像按照其中人脸显示的属性进行标注,对所有图片的像素值进行归一化,并对图片进行缩放裁剪;
步骤2:构建生成对抗网络的生成器网络;
生成器网络输入为原始图像和图像的属性编辑向量,输出为属性编辑后图像;生成器网络G由三个部分构成:编码器模块Genc、解码器模块Gdec、滤波模块GF,其中编码器模块Genc的输入为原始图像,输出为图像特征,由5层卷积网络块依次连接而成;解码器模块Gdec的输入为图像特征和图像的过滤特征,输出为编辑后人脸图像,由5层转置卷积网络块依次连接而成,并且编码器和解码器之间采用了Unet网络中的对称跳跃连接;滤波模块GF由STU结构组成,它的输入为图像特征,输出为图像的过滤特征,用于选择性过滤编码器和解码器之间的对称跳跃连接中传递的图像特征;生成器网络结构参见图1,卷积网络块参见图2,转置卷积网络块结构参见图3;
步骤3:构建生成对抗网络的判别器网络;
判别器网络输入为图片,该图片为生成器网络的输出,输出为一个标量和一个向量;判别器网络D分为三个模块:特征提取模块De、对抗损失模块Dadv和基于注意力机制的属性分类模块Dcls;特征提取模块De的输入为图片x,输出为图片特征张量f,特征提取模块De由5层卷积网络块依次连接而成;对抗损失模块Dadv的输入为特征提取模块De的输出,输出为标量,值越大表示图像越真实,对抗损失模块Dadv采用两层线性网络块构成;属性分类模块Dcls的输入为特征提取模块De的输出,输出为属性分类向量,属性分类模块Dcls由提取属性特征提取模块、基于知识引导的注意力模块和属性嵌入模块依次级联而成:
(1)属性特征提取模块:输入为图片的特征张量f,将其沿第2维度和第3维度分割为R个特征向量(和公式中的fr中的r位置不一样,要修改成一样的,这里面的公式我点不开),其刚好对应于图像x在空间平面上的R个区域的特征向量;定义第r个区域的对于第i个人脸属性的重要程度为:
其中,vi为第i个人脸属性的语义向量,i=1,...,M,M为编辑的人脸属性数量,Wα表示一个可学习的矩阵,用来度量属性语义向量和每个区域的特征向量的兼容性;在得到第i个属性关于R个区域的注意力权值后,根据公式计算第i个属性的特征为:
其中,Ws表示一个可学习的矩阵,用来度量属性之间的贡献度,如果第j个属性与i个属性的相关性越高,那么第j个属性对于第i个属性影响更大,即贡献度越高;在得到M个属性对于第i个属性的贡献度权值后,根据贡献度综合其他属性对第i个属性的影响,计算方式为:
其中,We表示一个可学习的矩阵,用来将综合属性特征映射到属性语义空间中,sigmoid(·)函数用来将属性强度映射到(0,1)中;判别器网络结构参见图4,属性嵌入模块参见图5。
步骤4:设计人脸属性编辑模型训练过程中的属性编辑操作;
采取小批量梯度下降算法对模型进行优化,分批次向模型输入数据集中的N个图像样本一属性标签对:(x,l),属性标签l是一个长度为M二元向量,每一位的0或1分别表示对应属性的无或有。属性编辑向量构造方式如下:以图像样本x本身的属性标签作为它的原始标签ls,并为每个图像样本x随机挑取其他图像样本的属性标签作为目标属性标签lt,以保证属性编辑操作不会存在冲突,以Δl=lt-ls作为图像x的属性编辑向量。当Δli=1时,表示为图像x增加第i个属性;当Δli=0时,表示不改变图像x的第i个属性;当Δli=-1时,表示为图像x去掉第i个属性;
步骤5:设计基于知识的正则损失项
(1)从人脸数据库中提取人脸属性关系的知识:基于CelebA的标签库计算第i个人脸属性和第j人脸属性之间的相关度:
其中nij代表第i个属性和第j个属性在标签库中共同出现的次数,ni和nj分别代表第i个属性和第j个属性在标签库中出现的次数,Nd是标签库中标签的数量,softmax(·)函数用来将属性之间的相关度进行归一化;阻尼参数∈,用来防止计算过程中出现nij→0的情况;当两个人脸属性的共现频次越高,它们的相关度也会更大;
(2)利用提取到的知识约束模型计算属性之间的贡献度:如果第j个属性与第i个属性经的共现频次越高,即第i个属性与第j个属性之间的相关度越大,那么第j个属性对第i个属性的贡献度也应该越大,设计一个正则损失项用来约束模型计算的属性之间的贡献度符合先验知识:
其中为M个人脸属性对于第i个人脸属性的贡献度向量,为M个人脸属性关于第i个人脸属性的相关度向量,sim<·,·>是一种向量相似性的度量方法,采用余弦相似度作为度量方法:当优化正则损失越来越小时,即时,模型计算得到的属性贡献度会越来越符合人脸属性关系的知识;
步骤6:为生成对抗网络设计损失函数;
(1)在训练阶段,针对判别器网络设计损失函数,以引入先验知识的约束:设由编辑后的图像pg为生成器拟合的图像分布;设真实图像-属性标签对为(x,l)~pdata,pdata为真实图像数据集的分布;利用判别器的特征提取模块De来提取真实图像x的图像特征:f=De(x),将真实图像的特征f送到判别器的对抗损失模块Dadv中计算图像的真实度估计:Dadv(x);按照上述过程,得到生成图像的真实度估计:这样构造生成对抗网络的判别器的对抗损失:
其中,表示判别器的对抗损失模块对编辑图像的输出值,输出值越大表明编辑图像越真实,表示对该输出值的期望,Dadv(x)表示判别器的对抗损失模块对编辑图像的输出值,表示对该输出值的期望。即分布为数据集分布pr和生成图像分布pg的线性混合,∈表示线性混合系数,表示判别函数关于混合图像求梯度,为梯度惩罚项,用来约束判别器模型的参数符合lipschitz连续条件,λgp为梯度惩罚系数;
将真实图像的特征f送到判别器的属性分类模块Dcls中,预测图像的属性分类,输出表示为[e1,e2,...,eM]T=Dcls(x);为判别器构造分类损失函数:
其中,Dcls(x)表示判别器的属性分类模块对原始图像x的属性预测向量,表示对图像x的第i个属性的预测值ei,要求与原始属性标签的第i个分量li越一致越好;同时结合步骤5中构造的基于知识的正则损失项得到判别器的总损失函数为:
(2)在训练阶段,针对生成器网络设计损失函数,以引入先验知识的约束:设从数据集中抽取的原始图像-属性标签对为(xs,ls)~pdata,同时按照步骤3的方法为每一张图片抽取目标属性标签lt,构造属性编辑向量Δl=lt-ls。首先利用生成器的编码器提取原始图像的特征fs=Denc(xs),将原始图像特征fs和属性编辑向量Δl进行拼接得到带有条件的图像特征ft,将原始图像特征fs和长度为M的0向量进行拼接得到不带条件的图像特征frec以用于图像重建;然后分别将ft,frec送入滤波模块DF中得到过滤特征f′t,f′rec,然后将图像特征和过滤特征送入解码器Ddec中,分别得到编辑人脸图像和重建人脸图像为了方便表示,这里简记为然后按照步骤6-(1)中的过程得到编辑人脸的真实度然后构造生成器的对抗损失函数:
其中,||·||1为矩阵1范数,当重建图像xr=G(xs,0)与原始图像xs的每个像素点的取值越一致的时候,||xs-G(xs,0)||1越小;同时结合步骤5中构造的基于知识的正则损失项得到生成器的总损失函数为:
步骤7:将CelebA-HQ划分为训练集和测试集,在训练集上训练由步骤2和步骤3中定义的生成对抗神经网络,并利用步骤6构建的损失函数约束网络的训练,在更新生成器网络G时固定判别器网络D的参数,而更新判别器网络D时则固定生成器网络G的参数,每次迭代更新判别器5次然后更新生成器一次;
步骤8:采用训练完成的生成器网络G来对测试集中的人脸图像进行属性编辑,并用属性编辑成功率来衡量本发明提出的模型的属性编辑效果。测试结果参见表1。
本文的创新之处在于:
(1)本发明在生成对抗网络的基础上,融入了一种基于知识引导的注意力机制,它综合多个相关属性的影响,以达到更加全面的预测、编辑人脸属性。
(2)本发明创新地引入人脸属性的先验知识,建立了一个基于知识的正则损失函数,一方面用来约束判别器中注意力机制的学习,指导模型挖掘各个人脸属性之间的相关性,促进模型更加准确的预测人脸属性;另一方面用来约束生成器编辑属性时,考虑各个人脸属性之间的相关性,当目标属性出现变化时,其他相关属性也应该受到一定的影响,以实现更加合理的编辑人脸属性。
附图说明
图1为本发明方法的生成器网络结构图。
图2为本发明方法的卷积网络块结构图,(a)为生成器中的卷积网络块,(b)为判别器中的卷积网络模块。
图3为本发明方法的转置卷积网络结构图。
图4为本发明方法的判别器网络结构图。
图5为本发明方法的属性嵌入模块示意图。
具体实施方式
步骤1:对数据集进行预处理;
下载CelebA数据集(http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html),CelebA数据集包含10177个名人身份的202599张人脸图片,每张图片都做好了40个二元属性标记,例如是否有眼镜、刘海、胡须等。然后利用开源项目(https://github.com/willylulu/celeba-hq-modified),在CelebA上生成30000张分辨率为256*256*3的人脸图像,即得到CelebA-HQ数据集。选择其中的28000张人脸图像和属性标签作为训练数据集,将另外2000张人脸图像和属性标签作为测试数据集,随机打乱训练顺序,最后将图片像素值归一化至范围[-1,1]。
步骤2:构建生成对抗网络的生成器网络;
生成器网络输入为原始图像和图像的属性编辑向量,输出为属性编辑后图像;生成器网络G主要由三个部分构成:编码器模块Genc、解码器模块Gdec、滤波模块GF。其中编码器模块Genc的输入为原始图像,输出为图像特征,由5层卷积网络块依次连接而成;解码器模块Gdec的输入为图像特征和图像的过滤特征,输出为编辑后人脸图像,由5层转置卷积网络块依次连接而成,并且编码器和解码器之间采用了Unet网络中的对称跳跃连接;滤波模块GF由STU结构组成,它的输入为图像特征,输出为图像的过滤特征,主要用于选择性过滤编码器和解码器之间的对称跳跃连接中传递的图像特征。生成器网络结构参见图1,卷积网络块参见图2,转置卷积网络块结构参见图3;
步骤3:构建生成对抗网络的判别器网络;
判别器网络输入为图片,输出为一个标量和一个向量;判别器网络D分为三个模块:特征提取模块De、对抗损失模块Daav和基于注意力机制的属性分类模块Dcls;特征提取模块De的输入为图片输出为图片的特征张量特征提取模块De由5层卷积网络块依次连接而成;对抗损失模块Dadv的输入为特征提取模块De提取的特征,输出为标量,值越大表示图像越真实,对抗损失模块Dadv采用两层线性网络块构成;属性分类模块Dcls的输入为特征提取模块De的提取的特征,输出为属性分类向量,属性分类模块Dcls由提取属性特征提取模块、基于知识引导的注意力模块和属性嵌入模块依次级联而成:
(1)属性特征提取模块:它的输入为图片的特征张量f,将其沿第2维度和第3维度分割为R=8×8=64个特征向量其刚好对应于图像x在空间平面上的R个区域的特征向量。定义第r个区域的对于第i个人脸属性的重要程度为:
其中为第i个人脸属性的语义向量,M为编辑的人脸属性数量。采用Glove模型从维基百科语料库中提取人脸属性的语义向量,语义向量的提取方法不是本发明的重点,所以只在此简要提及。表示一个可学习的矩阵,用来度量属性语义向量和每个区域的特征向量的兼容性。在得到第i个属性关于R个区域的注意力权值后,根据公式计算第i个属性的特征为:
其中Ws表示一个可学习的矩阵,用来度量属性之间的贡献度,如果第j个属性与i个属性的相关性越高,那么第j个属性对于第i个属性影响更大,即贡献度越高。所以为了引导模型合理地计算属性之间的贡献度,基于人脸属性知识构建了一个正则损失项,用来约束属性之间的贡献度,使其符合先验知识,将在步骤5中详细介绍该项。在得到M个属性对于第i个属性的贡献度权值后,根据贡献度综合其他属性对第i个属性的影响,计算方式为:
步骤4:设计人脸属性编辑模型训练过程中的属性编辑操作;
本发明采取小批量梯度下降算法对模型进行优化,分批次向模型输入数据集中的N个图像样本-属性标签对:(x,l),属性标签l是一个长度为M二元向量,每一位的0或1分别表示对应属性的无或有。属性编辑向量构造方式如下:以图像样本x本身的属性标签作为它的原始标签ls,并为每个图像样本x随机挑取其他图像样本的属性标签作为目标属性标签lt,以保证属性编辑操作不会存在冲突,以Δl=lt-ls作为图像x的属性编辑向量。当Δli=1时,表示为图像x增加第i个属性;当Δli=0时,表示不改变图像x的第i个属性;当Δli=-1时,表示为图像x去掉第i个属性。
步骤5:设计基于知识的正则损失项
(1)从人脸数据库中提取人脸属性关系的知识:基于CelebA的标签库(其中包含有202599个人脸图像的属性标签,每个标签都描述了对应人脸的40个人脸属性的状态),采用一种简单的方法来计算第i个人脸属性和第j人脸属性之间的相关度:
其中nij代表第i个属性和第j个属性在标签库中共同出现的次数,ni和nj分别代表第i个属性和第j个属性在标签库中出现的次数,Nd是标签库中标签的数量,softmax(·)函数用来将属性之间的相关度进行归一化。出于实际原因,还添加了一个阻尼参数∈,用来防止计算过程中出现nij→0的情况。当两个人脸属性的共现频次越高,它们的相关度也会更大。
(2)利用提取到的知识约束模型计算属性之间的贡献度:如果第j个属性与第i个属性经的共现频次越高,即第i个属性与第j个属性之间的相关度越大,那么第j个属性对第i个属性的贡献度也应该越大,所以设计一个正则损失项用来约束模型计算的属性之间的贡献度符合先验知识:
其中为M个人脸属性对于第i个人脸属性的贡献度向量,为M个人脸属性关于第i个人脸属性的相关度向量,sim<·,·>是一种向量相似性的度量方法,本发明采用余弦相似度作为度量方法:当优化正则损失越来越小时,即时,模型计算得到的属性贡献度会越来越符合人脸属性关系的知识。
步骤6:为生成对抗网络设计损失函数;
(1)在训练阶段,针对判别器网络设计损失函数,以引入先验知识的约束:设由编辑后的图像pg为生成器拟合的图像分布。设真实图像一属性标签对为(x,l)~pdata,pdata为真实图像数据集的分布。利用判别器的特征提取模块De来提取真实图像x的图像特征:f=De(x),将真实图像的特征f送到判别器的对抗损失模块Dadv中计算图像的真实度估计:Dadv(x)。按照上述过程,得到生成图像的真实度估计:这样构造生成对抗网络的判别器的对抗损失:
其中,表示判别器的对抗损失模块对编辑图像的输出值,输出值越大表明编辑图像越真实,表示对该输出值的期望,Dadv(x)表示判别器的对抗损失模块对编辑图像的输出值,表示对该输出值的期望。即分布为数据集分布pr和生成图像分布pg的线性混合,∈表示线性混合系数,表示判别函数关于混合图像求梯度,为梯度惩罚项,用来约束判别器模型的参数符合lipschitz连续条件,λgp为梯度惩罚系数。
将真实图像的特征f送到判别器的属性分类模块Dcls中,预测图像的属性分类,输出表示为[e1,e2,...,eM]T=Dcls(x)。为判别器构造分类损失函数:
其中,Dels(x)表示判别器的属性分类模块对原始图像x的属性预测向量,表示对图像x的第i个属性的预测值ei,要求与原始属性标签的第i个分量li越一致越好。同时结合步骤5中构造的基于知识的正则损失项得到判别器的总损失函数为:
(2)在训练阶段,针对生成器网络设计损失函数,以引入先验知识的约束:设从数据集中抽取的原始图像-属性标签对为(xs,ls)~pdata,同时按照步骤3的方法为每一张图片抽取目标属性标签lt,构造属性编辑向量Δl=lt-ls。首先利用生成器的编码器提取原始图像的特征fs=Denc(xs),将原始图像特征fs和属性编辑向量Δl进行拼接得到带有条件的图像特征ft,将原始图像特征fs和0向量(长度为M)进行拼接得到不带条件的图像特征frec以用于图像重建。然后分别将ft,frec送入滤波模块DF中得到过滤特征f′t,f′rec,然后将图像特征和过滤特征送入解码器Ddec中,分别得到编辑人脸图像和重建人脸图像为了方便表示,这里简记为然后按照步骤6-(1)中的过程得到编辑人脸的真实度然后构造生成器的对抗损失函数:
其中,||·||1为矩阵1范数,当重建图像xr=G(xs,0)与原始图像xs的每个像素点的取值越一致的时候,||xs-G(xs,0)||1越小。同时结合步骤5中构造的基于知识的正则损失项得到生成器的总损失函数为:
步骤7:将CelebA-HQ的前28000个人脸样本划分为训练集,后2000个人脸样本划分为测试集,在训练集上训练由步骤2和步骤3中定义的生成对抗神经网络,并利用步骤6构建的损失函数约束网络的训练,在更新生成器网络G时固定判别器网络D的参数,而更新判别器网络D时则固定生成器网络G的参数,每次迭代更新判别器5次然后更新生成器一次;
步骤8:采用训练完成的生成器网络G来对测试集中的人脸图像进行属性编辑,并用属性编辑成功率来衡量本发明提出的模型的属性编辑效果。测试结果参见表1。本发明以STGAN,RelGAN,CAFE-GAN,CooGAN,SSCGAN这5种目前最主流的人脸编辑方法为参照,来展示本发明提出的基于知识引导的人脸属性编辑方法的优越性。从表1可见,本发明提出的人脸属性编辑方法超越了以上6种方法,取得了最高的人脸属性编辑成功率。
图片大小:256*256*3
编辑的人脸属性有:柳叶眉、黑色头发、金色头发、棕色头发、戴眼镜、灰色头发、浓妆、性别、张开嘴巴、上唇胡子、没有胡子、微笑、年轻。
人脸属性数量M:13
学习率:0.0002,在第50代后降为0.0001
训练批次大小N:32
迭代次数:100
判别器的属性分类损失函数权重λcls:1
判别器的梯度惩罚系数λgp:10
生成器的属性操作损失函数权重λop:10
生成器的图像重建损失权重λrec:100
表1为本发明方法的实验结果图。
Claims (1)
1.一种基于知识引导的人脸属性编辑模型,该方法包括:
步骤1:对数据集进行预处理;
获取真实人脸图像,并将这些真实图像按照其中人脸显示的属性进行标注,对所有图片的像素值进行归一化,并对图片进行缩放裁剪;
步骤2:构建生成对抗网络的生成器网络;
生成器网络输入为原始图像和图像的属性编辑向量,输出为属性编辑后图像;生成器网络G由三个部分构成:编码器模块Genc、解码器模块Gdec、滤波模块GF,其中编码器模块Genc的输入为原始图像,输出为图像特征,由5层卷积网络块依次连接而成;解码器模块Gdec的输入为图像特征和图像的过滤特征,输出为编辑后人脸图像,由5层转置卷积网络块依次连接而成,并且编码器和解码器之间采用了Unet网络中的对称跳跃连接;滤波模块GF由STU结构组成,它的输入为图像特征,输出为图像的过滤特征,用于选择性过滤编码器和解码器之间的对称跳跃连接中传递的图像特征;
步骤3:构建生成对抗网络的判别器网络;
判别器网络输入为图片,该图片为生成器网络的输出,输出为一个标量和一个向量;判别器网络D分为三个模块:特征提取模块De、对抗损失模块Dadv和基于注意力机制的属性分类模块Dcls;特征提取模块De的输入为图片x,输出为图片特征张量f,特征提取模块De由5层卷积网络块依次连接而成;对抗损失模块Dadv的输入为特征提取模块De的输出,输出为标量,值越大表示图像越真实,对抗损失模块Dadv采用两层线性网络块构成;属性分类模块Dcls的输入为特征提取模块De的输出,输出为属性分类向量,属性分类模块Dcls由提取属性特征提取模块、基于知识引导的注意力模块和属性嵌入模块依次级联而成:
其中,vi为第i个人脸属性的语义向量,i=1,...,M,M为编辑的人脸属性数量,Wα表示一个可学习的矩阵,用来度量属性语义向量和每个区域的特征向量的兼容性;在得到第i个属性关于R个区域的注意力权值后,根据公式计算第i个属性的特征为:
其中,Ws表示一个可学习的矩阵,用来度量属性之间的贡献度,如果第j个属性与i个属性的相关性越高,那么第j个属性对于第i个属性影响更大,即贡献度越高;在得到M个属性对于第i个属性的贡献度权值后,根据贡献度综合其他属性对第i个属性的影响,计算方式为:
其中,We表示一个可学习的矩阵,用来将综合属性特征映射到属性语义空间中,sigmoid(·)函数用来将属性强度映射到(0,1)中;
步骤4:设计人脸属性编辑模型训练过程中的属性编辑操作;
采取小批量梯度下降算法对模型进行优化,分批次向模型输入数据集中的N个图像样本-属性标签对:(x,l),属性标签l是一个长度为M二元向量,每一位的0或1分别表示对应属性的无或有。属性编辑向量构造方式如下:以图像样本x本身的属性标签作为它的原始标签ls,并为每个图像样本x随机挑取其他图像样本的属性标签作为目标属性标签lt,以保证属性编辑操作不会存在冲突,以Δl=lt-ls作为图像x的属性编辑向量。当Δli=1时,表示为图像x增加第i个属性;当Δli=0时,表示不改变图像x的第i个属性;当Δli=-1时,表示为图像x去掉第i个属性;
步骤5:设计基于知识的正则损失项
(1)从人脸数据库中提取人脸属性关系的知识:基于CelebA的标签库计算第i个人脸属性和第j人脸属性之间的相关度:
其中nij代表第i个属性和第j个属性在标签库中共同出现的次数,ni和nj分别代表第i个属性和第j个属性在标签库中出现的次数,Nd是标签库中标签的数量,softmax(·)函数用来将属性之间的相关度进行归一化;阻尼参数∈,用来防止计算过程中出现nij→0的情况;当两个人脸属性的共现频次越高,它们的相关度也会更大;
(2)利用提取到的知识约束模型计算属性之间的贡献度:如果第j个属性与第i个属性经的共现频次越高,即第i个属性与第j个属性之间的相关度越大,那么第j个属性对第i个属性的贡献度也应该越大,设计一个正则损失项用来约束模型计算的属性之间的贡献度符合先验知识:
其中si*=[si1,si2,...,siM]为M个人脸属性对于第i个人脸属性的贡献度向量,ri*=[ri1,ri2,...,riM]为M个人脸属性关于第i个人脸属性的相关度向量,sim<·,·>是一种向量相似性的度量方法,采用余弦相似度作为度量方法:当优化正则损失越来越小时,即sim<si*,ri*>→1时,模型计算得到的属性贡献度会越来越符合人脸属性关系的知识;
步骤6:为生成对抗网络设计损失函数;
(1)在训练阶段,针对判别器网络设计损失函数,以引入先验知识的约束:设由编辑后的图像pg为生成器拟合的图像分布;设真实图像-属性标签对为(x,l)~pdata,pdata为真实图像数据集的分布;利用判别器的特征提取模块De来提取真实图像x的图像特征:f=De(x),将真实图像的特征f送到判别器的对抗损失模块Dadv中计算图像的真实度估计:Dadv(x);按照上述过程,得到生成图像的真实度估计:这样构造生成对抗网络的判别器的对抗损失:
其中,表示判别器的对抗损失模块对编辑图像的输出值,输出值越大表明编辑图像越真实,表示对该输出值的期望,Dadv(x)表示判别器的对抗损失模块对编辑图像的输出值,表示对该输出值的期望。即分布为数据集分布pr和生成图像分布pg的线性混合,∈表示线性混合系数,表示判别函数关于混合图像求梯度,为梯度惩罚项,用来约束判别器模型的参数符合lipschitz连续条件,λgp为梯度惩罚系数;
其中,Dcls(x)表示判别器的属性分类模块对原始图像x的属性预测向量,表示对图像x的第i个属性的预测值ei,要求与原始属性标签的第i个分量li越一致越好;同时结合步骤5中构造的基于知识的正则损失项得到判别器的总损失函数为:
(2)在训练阶段,针对生成器网络设计损失函数,以引入先验知识的约束:设从数据集中抽取的原始图像一属性标签对为(xs,ls)~pdata,同时按照步骤3的方法为每一张图片抽取目标属性标签lt,构造属性编辑向量Δl=lt-ls。首先利用生成器的编码器提取原始图像的特征fs=Denc(xs),将原始图像特征fs和属性编辑向量Δl进行拼接得到带有条件的图像特征ft,将原始图像特征fs和长度为M的0向量进行拼接得到不带条件的图像特征frec以用于图像重建;然后分别将ft,frec送入滤波模块DF中得到过滤特征f′t,f′rec,然后将图像特征和过滤特征送入解码器Ddec中,分别得到编辑人脸图像和重建人脸图像为了方便表示,这里简记为然后按照步骤6-(1)中的过程得到编辑人脸的真实度然后构造生成器的对抗损失函数:
其中,||·||1为矩阵1范数,当重建图像xr=G(xs,0)与原始图像xs的每个像素点的取值越一致的时候,||xs-G(xs,0)||1越小;同时结合步骤5中构造的基于知识的正则损失项得到生成器的总损失函数为:
步骤7:将CelebA-HQ划分为训练集和测试集,在训练集上训练由步骤2和步骤3中定义的生成对抗神经网络,并利用步骤6构建的损失函数约束网络的训练,在更新生成器网络G时固定判别器网络D的参数,而更新判别器网络D时则固定生成器网络G的参数,每次迭代更新判别器5次然后更新生成器一次;
步骤8:采用训练完成的生成器网络G来对测试集中的人脸图像进行属性编辑,并用属性编辑成功率来衡量本发明提出的模型的属性编辑效果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211015164.2A CN115439904B (zh) | 2022-08-23 | 2022-08-23 | 一种基于知识引导的人脸属性编辑方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211015164.2A CN115439904B (zh) | 2022-08-23 | 2022-08-23 | 一种基于知识引导的人脸属性编辑方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115439904A true CN115439904A (zh) | 2022-12-06 |
CN115439904B CN115439904B (zh) | 2024-07-16 |
Family
ID=84243814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211015164.2A Active CN115439904B (zh) | 2022-08-23 | 2022-08-23 | 一种基于知识引导的人脸属性编辑方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115439904B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115983379A (zh) * | 2023-03-20 | 2023-04-18 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | Mdata知识图谱的可达路径查询方法及其系统 |
CN118366206A (zh) * | 2024-06-19 | 2024-07-19 | 苏州元脑智能科技有限公司 | 人脸识别方法、装置和人脸识别门禁系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190295302A1 (en) * | 2018-03-22 | 2019-09-26 | Northeastern University | Segmentation Guided Image Generation With Adversarial Networks |
WO2020029356A1 (zh) * | 2018-08-08 | 2020-02-13 | 杰创智能科技股份有限公司 | 一种基于生成对抗网络的脸部变化预测方法 |
CN111932444A (zh) * | 2020-07-16 | 2020-11-13 | 中国石油大学(华东) | 基于生成对抗网络的人脸属性编辑方法及信息处理终端 |
CN114494529A (zh) * | 2022-01-05 | 2022-05-13 | 电子科技大学长三角研究院(衢州) | 一种基于代价敏感学习的人脸属性编辑方法 |
-
2022
- 2022-08-23 CN CN202211015164.2A patent/CN115439904B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190295302A1 (en) * | 2018-03-22 | 2019-09-26 | Northeastern University | Segmentation Guided Image Generation With Adversarial Networks |
WO2020029356A1 (zh) * | 2018-08-08 | 2020-02-13 | 杰创智能科技股份有限公司 | 一种基于生成对抗网络的脸部变化预测方法 |
CN111932444A (zh) * | 2020-07-16 | 2020-11-13 | 中国石油大学(华东) | 基于生成对抗网络的人脸属性编辑方法及信息处理终端 |
CN114494529A (zh) * | 2022-01-05 | 2022-05-13 | 电子科技大学长三角研究院(衢州) | 一种基于代价敏感学习的人脸属性编辑方法 |
Non-Patent Citations (2)
Title |
---|
HOU, XX 等: "GuidedStyle: Attribute knowledge guided style manipulation for semantic face editing", NEURAL NETWORKS, vol. 145, 31 January 2022 (2022-01-31), pages 209 - 220 * |
陈志勇: "基于生成对抗网络的属性可控图像生成方法研究", 中国优秀硕士学位论文全文数据库 信息科技辑, 15 April 2024 (2024-04-15) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115983379A (zh) * | 2023-03-20 | 2023-04-18 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | Mdata知识图谱的可达路径查询方法及其系统 |
CN115983379B (zh) * | 2023-03-20 | 2023-10-10 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | Mdata知识图谱的可达路径查询方法及其系统 |
CN118366206A (zh) * | 2024-06-19 | 2024-07-19 | 苏州元脑智能科技有限公司 | 人脸识别方法、装置和人脸识别门禁系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115439904B (zh) | 2024-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115439904A (zh) | 一种基于知识引导的人脸属性编辑方法 | |
US12105773B2 (en) | Semantic relation preserving knowledge distillation for image-to-image translation | |
CN111127146A (zh) | 基于卷积神经网络与降噪自编码器的信息推荐方法及系统 | |
Lin et al. | PS-mixer: A polar-vector and strength-vector mixer model for multimodal sentiment analysis | |
Berman et al. | Multifactor sequential disentanglement via structured koopman autoencoders | |
US20220398697A1 (en) | Score-based generative modeling in latent space | |
CN117557683A (zh) | 一种新型的文本和语义分割图共同驱动的图像生成方法 | |
CN110415261B (zh) | 一种分区域训练的表情动画转换方法及系统 | |
CN114494529A (zh) | 一种基于代价敏感学习的人脸属性编辑方法 | |
CN114240736A (zh) | 基于VAE和cGAN的同时生成和编辑任意人脸属性的方法 | |
CN117036862B (zh) | 基于高斯混合变分自编码器的图像生成方法 | |
Shuai et al. | A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models | |
Chen et al. | A unified framework for generative data augmentation: A comprehensive survey | |
Zheng et al. | BLAN: Bi-directional ladder attentive network for facial attribute prediction | |
CN116721176A (zh) | 一种基于clip监督的文本到人脸图像生成方法及装置 | |
CN116311472A (zh) | 基于多层次图卷积网络的微表情识别方法及装置 | |
Baek et al. | Editable generative adversarial networks: Generating and editing faces simultaneously | |
Kandwal et al. | A Survey of Text-to-Image Diffusion Models in Generative AI | |
He | Exploring style transfer algorithms in Animation: Enhancing visual | |
CN114140368A (zh) | 一种基于生成式对抗网络的多模态医学图像合成方法 | |
JPWO2022002943A5 (zh) | ||
Pernuš et al. | ChildNet: Structural Kinship Face Synthesis Model With Appearance Control Mechanisms | |
Meira et al. | Generating Synthetic Faces for Data Augmentation with StyleGAN2-ADA. | |
Mahmud et al. | Semantic Image Segmentation using CNN (Convolutional Neural Network) based Technique | |
Wang et al. | An embedded method: Improve the relevance of text and face image with enhanced face attributes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |