CN112861805B - 一种基于内容特征和风格特征的人脸图像生成方法 - Google Patents

一种基于内容特征和风格特征的人脸图像生成方法 Download PDF

Info

Publication number
CN112861805B
CN112861805B CN202110286615.5A CN202110286615A CN112861805B CN 112861805 B CN112861805 B CN 112861805B CN 202110286615 A CN202110286615 A CN 202110286615A CN 112861805 B CN112861805 B CN 112861805B
Authority
CN
China
Prior art keywords
style
content
face image
loss function
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110286615.5A
Other languages
English (en)
Other versions
CN112861805A (zh
Inventor
杨猛
叶林彬
刘俊峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202110286615.5A priority Critical patent/CN112861805B/zh
Publication of CN112861805A publication Critical patent/CN112861805A/zh
Application granted granted Critical
Publication of CN112861805B publication Critical patent/CN112861805B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于内容特征和风格特征的人脸图像生成方法,包括以下步骤:S1:获取人脸图像数据集,并构建双路径生成式对抗网络模型;S2:从原始域人脸图像中提取原始域的内容特征和风格特征,从目标域人脸图像中提取目标域的内容特征和风格特征;S3:通过对内容特征和风格特征进行监督学习建立特征关联损失函数;S4:根据特征关联损失函数建立双路径生成式对抗网络模型的价值函数;S5:通过对抗学习得到价值函数的全局最优解,从而得到优化好的双路径生成式对抗网络模型进行人脸图像生成。本发明提供一种基于内容特征和风格特征的人脸图像生成方法,解决了现有的人脸图像生成技术无法保证生成的人脸图像保持输入人脸图像的身份的问题。

Description

一种基于内容特征和风格特征的人脸图像生成方法
技术领域
本发明涉及人脸图像生成技术领域,更具体的,涉及一种基于内容特征和风格特征的人脸图像生成方法。
背景技术
现有的生成式对抗网络(GAN)模型的生成器基本上都是基于编码器-解码器结构或者变种,如Pix2PixGAN、CycleGAN,DRGAN和TPGAN等等。基于编码器-解码器结构下的图像到图像的深度网络,编码器最终将输入的图像编码压缩到一个比原来图像的维数更小的特征上,由于这个过程伴随着图像大量的信息和细节的丢失,最终在特征上保留下来的信息往往是与最终生成图像最相关的信息;解码器将这个中间特征的信息进行解析和补充,最终生成基于输入图像某种信息相关的生成图片,这种信息(中间特征的语义)一般指是人脸相互区别的特征,如人脸身份信息。
目前图像风格迁移成功引入到人脸图像生成技术领域,并与GAN相结合十分出色地完成了人脸生成任务。人脸风格迁移认为人脸图像由图像内容信息(content)和图像风格信息(style)两部分信息组成。但是这两部分信息的界限没有严格的定义,按照不同的场景下有所区别,在人脸风格区别明显的场景下,图像内容信息可以定义人脸图像高层语义信息即人脸身份。但是现有的人脸图像生成技术生成人脸的风格单一,无法保证生成的人脸图像保持输入人脸图像的身份。
现有技术中,如2019-03-22公开的中国专利,一种基于生成对抗式网络的人脸表情识别方法,公开号为CN109508646A,识别方法精确度高,不易出错,能够在光线较差的环境下进行人脸图像精确识别,但是无法保证生成的人脸图像保持输入人脸图像的身份。
发明内容
本发明为克服现有的人脸图像生成技术无法保证生成的人脸图像保持输入人脸图像的身份的技术缺陷,提供一种基于内容特征和风格特征的人脸图像生成方法。
为解决上述技术问题,本发明的技术方案如下:
一种基于内容特征和风格特征的人脸图像生成方法,包括以下步骤:
S1:获取人脸图像数据集,并构建双路径生成式对抗网络模型,其中所述人脸图像数据集包括原始域人脸图像和目标域人脸图像;
S2:利用双路径生成式对抗网络模型从原始域人脸图像中提取原始域的内容特征和风格特征,从目标域人脸图像中提取目标域的内容特征和风格特征;
S3:通过对内容特征和风格特征进行监督学习建立特征关联损失函数;
S4:根据特征关联损失函数建立双路径生成式对抗网络模型的价值函数;
S5:通过对抗学习得到价值函数的全局最优解,从而得到优化好的双路径生成式对抗网络模型进行人脸图像生成。
优选的,所述双路径生成式对抗网络模型包括原始域编码器EX、目标域编码器EY、原始域生成器GX、目标域生成器GY、原始域鉴别器DX、目标域鉴别器DY和特征关联模型;
其中,
所述原始域编码器EX包括用于提取原始域X的内容特征的编码器/>和用于提取原始域X的风格特征/>的编码器/>
所述目标域编码器EY包括用于提取目标域Y的内容特征的编码器/>和用于提取目标域Y的风格特征/>的编码器/>
所述原始域生成器GX用于融合原始域X的内容特征和风格特征并生成原始域生成人脸图像,
所述目标域生成器GY用于融合目标域Y的内容特征和风格特征并生成目标域生成人脸图像,
所述原始域鉴别器DX用于鉴别原始域X生成人脸图像的真假,
所述目标域鉴别器DY用于鉴别目标域Y生成人脸图像的真假,
所述特征关联模型用于对内容特征和风格特征进行监督学习建立特征关联损失函数,并根据特征关联损失函数对内容特征进行预测得到相应的风格特征。
优选的,步骤S3中建立的特征关联损失函数为:
其中,RX(·)表示原始域的内容特征和风格特征的联系,RY(·)表示目标域的内容特征和风格特征的联系,||·||表示取L1范数操作,xi~pd(x)表示原始域人脸图像xi满足原始域X的真实数据分布pd(x),yj~pd(y)表示目标域人脸图像yj满足原始域Y的真实数据分布pd(y)。
优选的,当利用Lrcs(RX,EY,X,Y)损失对编码器进行优化时,将Lrcs(EY,EX,RX,RY,X,Y)修改为:
优选的,在建立双路径生成式对抗网络模型的价值函数之前,还包括建立图像自重建损失函数,所述图像自重建损失函数为:
其中,Z为随机风格特征。
优选的,在建立双路径生成式对抗网络模型的价值函数之前,还包括建立生成式对抗网络的对抗损失函数,所述生成式对抗网络的对抗损失函数包括生成器的对抗损失函数和鉴别器的对抗损失函数;其中,
生成器的对抗损失函数为:
鉴别器的对抗损失函数为:
其中,表示目标域相关的随机风格特征/>满足高斯数据分布pd(z),表示原始域相关的随机风格特征/>满足高斯数据分布pd(z)。
优选的,在建立双路径生成式对抗网络模型的价值函数之前,还包括建立人脸内容重建损失函数,所述人脸内容重建损失函数为:
优选的,在建立双路径生成式对抗网络模型的价值函数之前,还包括建立人脸风格重建损失函数,所述人脸风格重建损失函数为:
优选的,在建立双路径生成式对抗网络模型的价值函数之前,还包括建立内容和风格特征双循环重建损失函数,所述内容和风格特征双循环重建损失函数为:
其中,μ是正反循环重建损失的比例参数,表示原始域再编码得到的风格特征,表示目标域再编码得到的风格特征,/>表示原始域再编码得到的内容特征,/>表示目标域再编码得到的内容特征。
优选的,所述双路径生成式对抗网络模型的价值函数为:
其中,λ1,λ2,λ3,λ4,λ5,λ6是对相应项的权重超参数,RCSGAN表示双路径生成式对抗网络模型,LGAN(EX,EY,GX,GY,X,Y,Z)为生成式对抗网络的对抗损失函数,Lc(EX,EY,GX,GY,X,Y,Z)为人脸内容重建损失函数,Ls(EX,EY,GX,GY,X,Y,Z)为人脸风格重建损失函数,Limg(EX,EY,GX,GY,X,Y,Z)为图像自重建损失函数,Lrecon(EX,EY,GX,GY,X,Y,Z)为内容和风格特征双循环重建损失函数,Lrcs(EX,EY,GX,GY,X,Y,Z)为特征关联损失函数。
与现有技术相比,本发明技术方案的有益效果是:
本发明提供了一种基于内容特征和风格特征的人脸图像生成方法,根据内容特征和风格特征的联系建立特征关联损失函数,以人脸图像的内容特征不变作为沟通原始域和目标域关系的桥梁,从而让相互分离的内容特征和风格特征建立起既相互独立又相互联系的关系,实现生成的人脸图像保持输入人脸图像的身份。
附图说明
图1为本发明的技术方案实施步骤流程图;
图2为本发明中特征关联模型的训练示意图;
图3为本发明中特征关联模型的测试示意图;
图4为本发明中基于AR数据集的随机表情风格图像生成结果对比示意图;
图5为本发明中基于CASPEAL数据集的随机表情风格图像生成结果对比示意图;
图6为本发明中基于CASPEAL数据集的随机去遮挡风格图像生成结果示意图;
图7为本发明中基于CMUMPIE数据集的随机表情风格图像生成结果示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于内容特征和风格特征的人脸图像生成方法,包括以下步骤:
S1:获取人脸图像数据集,并构建双路径生成式对抗网络模型,其中所述人脸图像数据集包括原始域人脸图像和目标域人脸图像;在实际实施时,人脸图像数据集是非配对的,其中xi是来自原始域X的人脸图像,yj是来自目标域Y的人脸图像,xi和yj没有相关性;
S2:利用双路径生成式对抗网络模型从原始域人脸图像xi中提取原始域的内容特征和风格特征/>从目标域人脸图像yj中提取目标域的内容特征/>和风格特征/>
S3:通过对内容特征和风格特征进行监督学习建立特征关联损失函数;
在实际实施时,由于内容特征和风格特征间具有身份信息的联系,而且刚好是有标签数据的形式(风格特征为标签),因此可以便捷而高效地通过监督学习得到内容特征和风格特征的联系,从而建立特征关联损失函数;
S4:根据特征关联损失函数建立双路径生成式对抗网络模型的价值函数;
S5:通过对抗学习得到价值函数的全局最优解,从而得到优化好的双路径生成式对抗网络模型进行人脸图像生成。
实施例2
更具体的,所述双路径生成式对抗网络模型包括原始域编码器EX、目标域编码器EY、原始域生成器GX、目标域生成器GY、原始域鉴别器DX、目标域鉴别器DY和特征关联模型;
其中,
所述原始域编码器EX包括用于提取原始域X的内容特征的编码器/>和用于提取原始域X的风格特征/>的编码器/>
所述目标域编码器EY包括用于提取目标域Y的内容特征的编码器/>和用于提取目标域Y的风格特征/>的编码器/>
所述原始域生成器GX用于融合原始域X的内容特征和风格特征并生成原始域生成人脸图像,
所述目标域生成器GY用于融合目标域Y的内容特征和风格特征并生成目标域生成人脸图像,
所述原始域鉴别器DX用于鉴别原始域X生成人脸图像的真假,
所述目标域鉴别器DY用于鉴别目标域Y生成人脸图像的真假,
所述特征关联模型用于对内容特征和风格特征进行监督学习建立特征关联损失函数,并根据特征关联损失函数对内容特征进行预测得到相应的风格特征。
在具体实施过程中,双路径生成式对抗网络模型RCSGAN正方向的生成器目标是:将原始域中的提供内容信息的人脸图像xi和提供风格信息的特征转换生成包含风格特征/>和内容特征/>的新生成人脸图像yc=i,s=k,其中/>可以是通过目标域人脸图像yk提取得到或者直接采样在高斯分布的随机样本/>即/> 当要求生成的人脸图像保持输入人脸图像的身份时,即要求的风格特征/>与内容特征/>相一致,由于非配对的人脸图像数据集中未必存在与xi人脸身份相对应的yk图像,故RCSGAN通过特征关联模型将内容特征/>相对应的风格特征/>预测出来,然后通过编码生成保持人脸身份的图像yc=i,s=k
更具体的,如图2所示,步骤S3中建立的特征关联损失函数为:
其中,RX(·)表示原始域的内容特征和风格特征的联系,RY(·)表示目标域的内容特征和风格特征的联系,||·||表示取L1范数操作,xi~pd(x)表示原始域人脸图像xi满足原始域X的真实数据分布pd(x),yj~pd(y)表示目标域人脸图像yj满足原始域Y的真实数据分布pd(y)。
更具体的,当利用Lrcs(RX,EY,X,Y)损失对编码器进行优化时,将Lrcs(EY,EX,RX,RY,X,Y)修改为:
在具体实施过程中,特征关联损失函数帮助模型将相互分离的风格特征和内容特征,建立起即相互独立又相互联系的关系,从而达到保持生成人脸图像的身份。
如图3所示,在测试时,特征关联模型是RSCGAN为生成人脸图像保持人脸身份的关键所在。由于内容特征是两域共享的特征,因此原始域人脸内容特征等价于目标域某个相应的人脸内容特征,即/>此时,通过联系函数RY(·)可以直接推算出目标域人脸内容特征/>所配对人脸风格特征/>然后,通过以人脸内容特征/>和人脸风格特征/>作为目标域人脸图像生成器GY(·,·),生成最终保持原始域输入人脸图像xi的目标域生成人脸图像/>等价于/>同理,对于目标域人脸图像yj生成保持人脸身份的原始域人脸图像,则通过联系函数RX(·)将目标域人脸内容特征/>推算出原始域人脸风格特征而此时,最终通过生成器GX(·,·)将这两种特征融合生成保持人脸身份的原始域人脸图像/>等价于/>
更具体的,在建立双路径生成式对抗网络模型的价值函数之前,还包括建立图像自重建损失函数,所述图像自重建损失函数为:
其中,Z为随机风格特征。
在具体实施过程中,图像自重建损失函数使模型可以将人脸图像和其内含的风格特征和内容特征建立紧密的联系,对模型的(编码、生成)的过程起到规范作用。该损失项先对原始域X(目标域Y)的图像分别通过各自编码器,然后直接以得到的内容和风格特征作为编码器的输入,最终对重建生成图像与输入的人脸图像进行相似程度的衡量。
图像自重建过程依次分为人脸图像的编码过程和特征的解码生成过程,编码过程首先对原始域X(目标域Y)的图像xi(yj)分别通过人脸风格编码器和人脸内容编码器/>提取相应的内容特征/>和风格特征/>特征解码生成过程将得到的人脸内容和风格特征作为生成器GX(GY)的输入并重建生成人脸图像/>
更具体的,在建立双路径生成式对抗网络模型的价值函数之前,还包括建立生成式对抗网络的对抗损失函数,所述生成式对抗网络的对抗损失函数包括生成器的对抗损失函数和鉴别器的对抗损失函数;其中,
在人脸内容特征提取过程中,对于原始域X(目标域Y)的图像xi(yj),通过人脸内容编码器器提取到相应的人脸内容特征/>解码生成过程中,采用随机采样且满足标准正态分布的人脸风格特征/>然后,生成器GY(GX)将随机人脸风格特征和人脸内容特征/>组合生成中间态人脸图像/>生成图像的再编码过程是将生成的人脸图像再次通过人脸内容编码器/>和人脸风格编码器/>提取到相应的重建人脸内容特征和重建人脸风格特征。由此可得
生成器的对抗损失函数为:
鉴别器的对抗损失函数为:
其中,表示目标域相关的随机风格特征/>满足高斯数据分布pd(z),表示原始域相关的随机风格特征/>满足高斯数据分布pd(z)。
在具体实施过程中,生成式对抗网络的对抗损失函数包括生成器的对抗损失函数和鉴别器的对抗损失函数两部分,能够引导生成器和鉴别器通过相互竞争优化自身网络参数,最终使生成数据分布拟合真实数据分布。
更具体的,在建立双路径生成式对抗网络模型的价值函数之前,还包括建立人脸内容重建损失函数,由随机风格特征和内容特征的解码生成过程和生成图像的再编码过程可知,所述人脸内容重建损失函数为:
在具体实施过程中,人脸内容重建损失函数能够提高模型在生成、编码的过程中保持图像内容信息的能力,尤其是建立了原始域和目标域的内容特征不变性,对编码器的提取特征能力和生成器生成能力都会产生极大的引导作用。这是对内容特征和随机风格特征融合生成的生成图像,再次编码得到相应重建的内容特征,并对编码前后内容特征进行相似程度的衡量。该损失函数采用L1范式来提供稀疏性。
更具体的,在建立双路径生成式对抗网络模型的价值函数之前,还包括建立人脸风格重建损失函数,由随机风格特征和内容特征的解码生成过程和生成图像的再编码过程可知,所述人脸风格重建损失函数为:
在具体实施过程中,人脸风格重建损失函数与内容特征重建损失Lc的原理和作用相似,提高模型在(生成、编码)的过程中保持图像风格信息的能力,区别是提高模型学习生成不同风格特征的人脸图像,同样对编码器的提取特征能力和生成器生成能力产生极大的引导作用。人脸风格重建损失函数最终是对编码前后风格特征进行相似程度的衡量。该损失函数同样采用L1范式来提供稀疏性。
更具体的,在建立双路径生成式对抗网络模型的价值函数之前,还包括建立内容和风格特征双循环重建损失函数,在内容和风格特征双循环重建过程中,人脸内容特征和人脸风格特征都分别构建单独的重建图像,是人脸风格和内容重建损失的更强约束,增强了RCSGAN编码器独立提取人脸风格特征、内容特征的能力,并且增强生成器生成保持内容和风格信息一致性的能力,对于生成人脸图像再编码得到的人脸风格特征/>和人脸内容特征/> 通过分别与人脸内容特征/>和人脸风格特征/>相互组合生成重建图像/>和/>因此所述内容和风格特征双循环重建损失函数为:
其中,μ是正反循环重建损失的比例参数,表示原始域再编码得到的风格特征,表示目标域再编码得到的风格特征,/>表示原始域再编码得到的内容特征,/>表示目标域再编码得到的内容特征。
在具体实施过程中,内容和风格特征双循环重建损失函数能够促进模型在内容和风格两方面的信息保持能力,是模型提取特征、生成人脸图像能力的综合体现。损失项是对内容特征和随机风格特征融合生成的生成图像,再次编码得到相应的内容和风格,分别进行重建损失。该损失函数也是采用L1范式来提供稀疏性。
更具体的,所述双路径生成式对抗网络模型的价值函数为:
其中,λ1,λ2,λ3,λ4,λ5,λ6是对相应项的权重超参数,RCSGAN表示双路径生成式对抗网络模型,LGAN(EX,EY,GX,GY,X,Y,Z)为生成式对抗网络的对抗损失函数,Lc(EX,EY,GX,GY,X,Y,Z)为人脸内容重建损失函数,Ls(EX,EY,GX,GY,X,Y,Z)为人脸风格重建损失函数,Limg(EX,EY,GX,GY,X,Y,Z)为图像自重建损失函数,Lrecon(EX,EY,GX,GY,X,Y,Z)为内容和风格特征双循环重建损失函数,Lrcs(EX,EY,GX,GY,X,Y,Z)为特征关联损失函数。
在实施例3、实施例4、实施例5和实施例6中均采用如下数据集:
AR人脸数据库包含100个人(男性50,女性50)的2600张在光照、遮挡、表情环境和条件下的人脸,CAS-PEAL人脸数据库包含1040个人(男性595,女性445)在光照、遮挡、装饰、表情、姿态环境和条件下30900张图像。对于这两个人脸数据集,按8∶2比例随机分配为训练集和测试集。相关的输入主要有三种来源(原始域图像,目标域图像,随机风格特征),具体分配为:
(1)在随机表情风格图像生成实施例,将训练数据集和测试数据集分别分为有表情图像和无表情图像两部分数据集,并将无表情图像定义为模型的原始域图像集,有表情图像定义为目标域图像集。
(2)在随机去遮挡风格图像生成实施例,将数据集分为有遮挡和无遮挡两部分数据集,无遮挡图像定义为对比模型的原始域输入图像,有遮挡图像定义为对比模型的目标域输入图像。
(3)对于MUNIT和RCSGAN的原始域和目标域的随机风格,在训练和测试时都是从标准正态分布数据上随机采样。
为了更好地比较模型的性能,将输入图像统一裁剪为256*256大小,并统一规定所有模型输入256*256大小的生成图像。另外为了支持非配对数据集训练的环境,在模型的训练中每一次数据集的轮回时分别重新打乱目标域和原始域数据集的图像,因此原始域和目标域图像之间人物身份配对信息是无法通过在输入的图像对上直接获取。
实施例3
基于AR数据集的随机表情风格图像生成:
本实施例设置RSCGAN模型的价值函数的各项损失权重为λ1=1,λ2=1,λ3=1,λ4=10,λ5=5,λ6=2,内容和风格特征双循环重建损失函数的比例参数μ=0.1。对于对比的方法MUNIT和cd-GAN,为了对比的公平性,本实施例让内容重建、风格重建、图像自重建过程的损失权重保持相同,并统一循环训练到50000步之后,比较测试模型的生成效果和身份保持效果。如图4所示,对比MUNIT和cd-GAN,RCSGAN生成的人脸图像更贴近于真实图像。
另外MUNIT和cd-GAN由于人脸风格与人脸内容不匹配,而有可能改变了最终人脸的身份特征;并且在图像的清晰度上,RCSGAN和MUNIT相差很小,cd-GAN在不能够有效生成目标图像。cd-GAN更适合风格特征变化大的图像集,而相对于表情生成,局部的表情变化使cdGAN的风格编码器更难学习特征提取有效性,提取的风格特征更趋于噪声,导致整个模型出现错误的状态,而MUNIT和RCSGAN是通过随机采样的变量来代替风格特征参与训练,相当于将模型分为编码和生成两大过程进行训练,可以使生成器和编码器更高效地学习本身更相关的任务,分别有助于提高特征的提取能力和生成图像能力。
实施例4
基于CASPEAL数据集的随机表情风格图像生成:
本实施例设置RSCGAN模型的价值函数的各项损失权重为λ1=1,λ2=1,λ3=1,λ4=10,λ5=6,λ6=1,内容和风格特征双循环重建损失函数的比例参数μ=0.1。为了公平性,同样的对cd-GAN模型保持作者原来调整好的默认的设置,而MUNIT在内容重建、风格重建、图像自重建过程的损失权重保持与RCSGAN相同。同时为了验证自注意力模块的效果,本实施例将不添加自注意力模块的RCSGAN记为RCSGAN,CASPEAL人脸数据集随机风格生成结果如图5所示;RCSGAN通过特征关联模型使原本MUNIT合成错误的区域(如第3行第4列人物嘴巴)重新纠正为正常的笑脸(如第5行第4列人物嘴巴),由于CASPEAL数据集的不同人脸变化比AR人脸大,生成人脸的难度更高,因此,MUNIT会生成边界细节混乱的图像。而RCSGAN的内容和风格链接模块可以起到纠正这种错误的作用,但是生成图像也带来了稍微的模糊。另一方面,自注意力的模块可以很好地为模型提供更好的全局性特征,提升了生成器的生成能力。为了更好地表现,以上对比模型的性能,通过预训练好的Inception网络进行人脸分类任务,并最终计算出Inception得分用于衡量人脸生成图像的质量;同时,使用结构相似性(structural similarity index)来进一步衡量与目标图像的相似性以此用来衡量身份保持性。特别说明是,cd-GAN在本生成图像任务上,并没有有效地生成人脸,而是出现了模式崩溃问题,即任何不同输入图像生成器只产生一种输出结果(即相同的人脸图像),这可能是由于该模型的生成器和鉴别器间的对抗学习出现脱离,此时衡量该结果是没有意义的,因此这里不提供该模型生成图像的Inception得分(IS)和SSIM相似值。生成结果如下表:
CAS PEAL数据集的人脸表情生成实验Inception分数(IS)和结构相似性(SSIM)得分
实施例5
基于CASPEAL数据集的随机去遮挡风格图像生成:
为了进一步探究RCSGAN模型的泛化能力,本实施例在CASPEAL数据集的去遮挡子集中,完成随机去遮挡风格图像生成。本实施例沿用了实施例4的参数设置。由于cdGAN在该任务无法有效生成图像,因此本实施例结果不包含cd-GAN在内,去遮挡生成结果如图6所示。
RCSGAN在CAS PEAL数据集随机去遮挡风格图像生成实验取得了最好的效果,虽然是RCSGAN比MUNIT的结果稍微模糊(如第4行第2列RCSGAN生成的图像稍微比MUNIT模糊),但是却很好地弥补了生成结果中部分区域严重的生成痕迹(如第2行第3列与第4行的第5列生成图像相比),而相反,MUNIT因为随机采样的风格特征影响了人脸生成的表达能力,使图像受干扰变得更加严重。对于RCSGAN和没有自注意力模块的RCSGAN-相比,自主力模块使一些细节干扰得到更好地优化(如第1行的1列和第1行的4列在人脸的左眼角墨镜的残余有效地去除了)。通过IS和SSIM两项分数验证模型的生成能力和保持人脸身份能力,如下表:
CAS PEAL数据集的随机去遮挡风格图像生成实验Inception分数(IS)和结构相似性(SSIM)得分
结果表明,自注意力通过牺牲轻微图片的清晰,而获取了更高地保持人脸身份的能力,这由于自注意力虽然通过全局的特征和信息更好地生成图像,但是会损伤模型在细节或者边缘的表达能力,从而导致生成图像相比更加模糊,但是全局的信息同样使局部一些干扰得到去除,而身份保持能力变得更强大。
实施例6
基于CMUMPIE数据集的随机表情风格图像生成:
CMUMPIE人脸数据集包含了大量不同条件的图像,本实施例仅在正面人脸的表情变化数据子集上完成人脸随机风格生成。为了公平性,cd-GAN采用其原文提供的代码和超参数设置,这些设置都是经过调优好的,代表了模型本来的生成能力,并且本实施例在CMUMPIE人脸表情数据子集上重新训练和测试cd-GAN模型。MUNIT和RCSGAN保持对抗学习,内容重建、风格重建、图像自重建权重参数统一,具体设置为λ1=1,λ2=1,λ3=1,λ4=10,设置RCSGAN的λ5=3且μ=0.1,设置MUNIT的λ5=3,设置λ6=1。生成图像结果如图7所示。通过IS和SSIM两项分数验证模型的生成能力和保持人脸身份能力,如下表:
CMU MPIE数据集随机表情风格图像生成实验IS和SSIM得分
可以看出在非配对数据集完成人脸身份保持和逼真性的生成任务上,RCSGAN比现阶段的基于风格和内容生成人脸图像的生成式对抗网络更有优势。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (7)

1.一种基于内容特征和风格特征的人脸图像生成方法,其特征在于,包括以下步骤:
S1:获取人脸图像数据集,并构建双路径生成式对抗网络模型,其中所述人脸图像数据集包括原始域人脸图像和目标域人脸图像;所述双路径生成式对抗网络模型包括原始域编码器、目标域编码器/>、原始域生成器/>、目标域生成器/>、原始域鉴别器/>、目标域鉴别器/>和特征关联模型;
其中,
所述原始域编码器包括用于提取原始域/>的内容特征/>的编码器/>和用于提取原始域/>的风格特征/>的编码器/>
所述目标域编码器包括用于提取目标域/>的内容特征/>的编码器/>和用于提取目标域/>的风格特征/>的编码器/>
所述原始域生成器用于融合原始域/>的内容特征和风格特征并生成原始域生成人脸图像,
所述目标域生成器用于融合目标域/>的内容特征和风格特征并生成目标域生成人脸图像,
所述原始域鉴别器用于鉴别原始域/>生成人脸图像的真假,
所述目标域鉴别器用于鉴别目标域/>生成人脸图像的真假,
所述特征关联模型用于对内容特征和风格特征进行监督学习建立特征关联损失函数,并根据特征关联损失函数对内容特征进行预测得到相应的风格特征;
S2:利用双路径生成式对抗网络模型从原始域人脸图像中提取原始域的内容特征和风格特征,从目标域人脸图像中提取目标域的内容特征和风格特征;
S3:通过对内容特征和风格特征进行监督学习建立特征关联损失函数;
S4:根据特征关联损失函数建立双路径生成式对抗网络模型的价值函数;在建立双路径生成式对抗网络模型的价值函数之前,还包括建立内容和风格特征双循环重建损失函数,所述内容和风格特征双循环重建损失函数为:
其中,是正反循环重建损失的比例参数,/>表示原始域再编码得到的风格特征,/>表示目标域再编码得到的风格特征,/>表示原始域再编码得到的内容特征,/>表示目标域再编码得到的内容特征;
所述双路径生成式对抗网络模型的价值函数为:
其中,是对相应项的权重超参数,/>表示双路径生成式对抗网络模型,/>为生成式对抗网络的对抗损失函数,/>为人脸内容重建损失函数,/>为人脸风格重建损失函数,为图像自重建损失函数,/>为内容和风格特征双循环重建损失函数,/>为特征关联损失函数;
S5:通过对抗学习得到价值函数的全局最优解,从而得到优化好的双路径生成式对抗网络模型进行人脸图像生成。
2.根据权利要求1所述的一种基于内容特征和风格特征的人脸图像生成方法,其特征在于,步骤S3中建立的特征关联损失函数为:
其中,表示原始域的内容特征和风格特征的联系,/>表示目标域的内容特征和风格特征的联系,/>表示取/>范数操作,/>表示原始域人脸图像/>满足原始域/>的真实数据分布/>,/>表示目标域人脸图像/>满足原始域/>的真实数据分布
3.根据权利要求2所述的一种基于内容特征和风格特征的人脸图像生成方法,其特征在于,当利用损失对编码器进行优化时,将/>修改为:
4.根据权利要求1所述的一种基于内容特征和风格特征的人脸图像生成方法,其特征在于,在建立双路径生成式对抗网络模型的价值函数之前,还包括建立图像自重建损失函数,所述图像自重建损失函数为:
其中,为随机风格特征。
5.根据权利要求1所述的一种基于内容特征和风格特征的人脸图像生成方法,其特征在于,在建立双路径生成式对抗网络模型的价值函数之前,还包括建立生成式对抗网络的对抗损失函数,所述生成式对抗网络的对抗损失函数包括生成器的对抗损失函数和鉴别器的对抗损失函数;其中,
生成器的对抗损失函数为:
鉴别器的对抗损失函数为:
其中,表示目标域相关的随机风格特征/>满足高斯数据分布/>表示原始域相关的随机风格特征/>满足高斯数据分布/>
6.根据权利要求1所述的一种基于内容特征和风格特征的人脸图像生成方法,其特征在于,在建立双路径生成式对抗网络模型的价值函数之前,还包括建立人脸内容重建损失函数,所述人脸内容重建损失函数为:
7.根据权利要求1所述的一种基于内容特征和风格特征的人脸图像生成方法,其特征在于,在建立双路径生成式对抗网络模型的价值函数之前,还包括建立人脸风格重建损失函数,所述人脸风格重建损失函数为:
CN202110286615.5A 2021-03-17 2021-03-17 一种基于内容特征和风格特征的人脸图像生成方法 Active CN112861805B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110286615.5A CN112861805B (zh) 2021-03-17 2021-03-17 一种基于内容特征和风格特征的人脸图像生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110286615.5A CN112861805B (zh) 2021-03-17 2021-03-17 一种基于内容特征和风格特征的人脸图像生成方法

Publications (2)

Publication Number Publication Date
CN112861805A CN112861805A (zh) 2021-05-28
CN112861805B true CN112861805B (zh) 2023-07-18

Family

ID=75995036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110286615.5A Active CN112861805B (zh) 2021-03-17 2021-03-17 一种基于内容特征和风格特征的人脸图像生成方法

Country Status (1)

Country Link
CN (1) CN112861805B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255813B (zh) * 2021-06-02 2022-12-02 北京理工大学 一种基于特征融合的多风格图像生成方法
CN114004905B (zh) * 2021-10-25 2024-03-29 北京字节跳动网络技术有限公司 人物风格形象图的生成方法、装置、设备及存储介质
CN113822236A (zh) * 2021-11-22 2021-12-21 杭州云栖智慧视通科技有限公司 一种基于人体语义部件的上衣颜色替换方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846793A (zh) * 2018-05-25 2018-11-20 深圳市商汤科技有限公司 基于图像风格转换模型的图像处理方法和终端设备
CN109215007A (zh) * 2018-09-21 2019-01-15 维沃移动通信有限公司 一种图像生成方法及终端设备
CN109376769A (zh) * 2018-09-21 2019-02-22 广东技术师范学院 基于生成式对抗神经网络用于多任务分类的信息迁移方法
CN109635774A (zh) * 2018-12-21 2019-04-16 中山大学 一种基于生成对抗网络的人脸合成方法
CN109934767A (zh) * 2019-03-06 2019-06-25 中南大学 一种基于身份和表情特征转换的人脸表情转换方法
CN111243066A (zh) * 2020-01-09 2020-06-05 浙江大学 一种基于自监督学习与生成对抗机制的人脸表情迁移方法
CN111489405A (zh) * 2020-03-21 2020-08-04 复旦大学 基于条件增强生成对抗网络的人脸草图合成系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846793A (zh) * 2018-05-25 2018-11-20 深圳市商汤科技有限公司 基于图像风格转换模型的图像处理方法和终端设备
CN109215007A (zh) * 2018-09-21 2019-01-15 维沃移动通信有限公司 一种图像生成方法及终端设备
CN109376769A (zh) * 2018-09-21 2019-02-22 广东技术师范学院 基于生成式对抗神经网络用于多任务分类的信息迁移方法
CN109635774A (zh) * 2018-12-21 2019-04-16 中山大学 一种基于生成对抗网络的人脸合成方法
CN109934767A (zh) * 2019-03-06 2019-06-25 中南大学 一种基于身份和表情特征转换的人脸表情转换方法
CN111243066A (zh) * 2020-01-09 2020-06-05 浙江大学 一种基于自监督学习与生成对抗机制的人脸表情迁移方法
CN111489405A (zh) * 2020-03-21 2020-08-04 复旦大学 基于条件增强生成对抗网络的人脸草图合成系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Triple-translation GAN with multi-layer sparse representation for face image synthesis;Linbin Ye et.al;《Neurocomputing》;第1-15页 *

Also Published As

Publication number Publication date
CN112861805A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN112861805B (zh) 一种基于内容特征和风格特征的人脸图像生成方法
Zhang et al. Text-to-image diffusion models in generative ai: A survey
CN111932444B (zh) 基于生成对抗网络的人脸属性编辑方法及信息处理终端
Hong et al. Cogvideo: Large-scale pretraining for text-to-video generation via transformers
Seow et al. A comprehensive overview of Deepfake: Generation, detection, datasets, and opportunities
CN112734634B (zh) 换脸方法、装置、电子设备和存储介质
WO2023072067A1 (zh) 人脸属性编辑模型的训练以及人脸属性编辑方法
Li et al. Artifacts-disentangled adversarial learning for deepfake detection
Liu et al. A 3 GAN: an attribute-aware attentive generative adversarial network for face aging
CN115565238B (zh) 换脸模型的训练方法、装置、设备、存储介质和程序产品
WO2022166840A1 (zh) 人脸属性编辑模型的训练方法、人脸属性编辑方法及设备
WO2022252372A1 (zh) 一种图像处理方法、装置、设备及计算机可读存储介质
CN117522697A (zh) 一种人脸图像生成方法、系统及模型训练方法
Xu et al. CP3: Unifying point cloud completion by pretrain-prompt-predict paradigm
Chandran et al. Facial Animation with Disentangled Identity and Motion using Transformers
Jiang et al. Practical face swapping detection based on identity spatial constraints
Jiang et al. DeepFakes detection: the DeeperForensics dataset and challenge
Yan et al. DF40: Toward Next-Generation Deepfake Detection
Shirai et al. Privacy-preserving annotation of face images through attribute-preserving face synthesis
Lin et al. Diffcolor: Toward high fidelity text-guided image colorization with diffusion models
Yu et al. Make Your Actor Talk: Generalizable and High-Fidelity Lip Sync with Motion and Appearance Disentanglement
CN117423148A (zh) 面向低质量人脸图像的深度伪造检测方法、系统和设备
CN116895089A (zh) 一种基于生成对抗网络的人脸多元化补全方法及系统
Liu et al. A3GAN: An attribute-aware attentive generative adversarial network for face aging
CN116977509A (zh) 虚拟对象动作生成方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant