CN114913057A - 一种基于生成对抗学习的人脸妆容迁移方法 - Google Patents

一种基于生成对抗学习的人脸妆容迁移方法 Download PDF

Info

Publication number
CN114913057A
CN114913057A CN202210535719.XA CN202210535719A CN114913057A CN 114913057 A CN114913057 A CN 114913057A CN 202210535719 A CN202210535719 A CN 202210535719A CN 114913057 A CN114913057 A CN 114913057A
Authority
CN
China
Prior art keywords
image
makeup
face
style
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210535719.XA
Other languages
English (en)
Inventor
吴斯
赖正源
李君航
宋全鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202210535719.XA priority Critical patent/CN114913057A/zh
Publication of CN114913057A publication Critical patent/CN114913057A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration using histogram techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于生成对抗学习的人脸妆容迁移方法,包括:S1、准备三个不同的数据集;S2、将原始图像的风格转换成处理图像的风格;S3、使用预训练的人脸分割模型对图像中的人脸进行区域划分;S4、将上妆后的图像中的妆容迁移到未上妆的处理图像,完成人脸妆容迁移的任务。本发明使用易于收集的质量较低的人脸图像作为原始数据,结合图像增强模型(即神经网络),训练一个用于人脸妆容迁移的模型(即神经网络),以提升人脸妆容迁移的适用性。

Description

一种基于生成对抗学习的人脸妆容迁移方法
技术领域
本发明涉及人脸妆容迁移的技术领域,尤其是指一种基于生成对抗学习的人脸妆容迁移方法。
背景技术
人脸妆容迁移是图像风格迁移的一个分支,在美妆领域有广阔的应用前景。主要内容是将图像中人脸特定部位的妆容迁移到另一张图像的人脸上,以实现上妆效果的模拟。如今通过人工智能的方法实现人脸妆容迁移已经有许多成功的案例,特别是深度学习技术的兴起,进一步提高了人脸妆容迁移的准确性。
在数据量足够且成对的情况下,人脸妆容迁移的效果往往比较理想。然而,寻找数量足够的上妆前后成对的人脸图像是十分困难的,所以在有限的数据下训练一个准确高效、适用性广的人脸妆容迁移模型仍然是一个很大的挑战。由此,无监督人脸妆容迁移的问题被提出,无监督即数据集中未上妆及上妆的图像都不是成对的,而是随机提取未上妆以及上妆的图像进行训练,旨在提取某个部位妆容的潜在特征。在此之前的与无监督有关的方法,大部分都是直接使用指定的数据集进行训练,在此标准下评判模型效果。但是在本发明中,考虑了一个更有挑战的情况,就是在原始图像质量不佳时,使用神经网络对原始图像进行改善与增强,再进行人脸妆容迁移,这将增强人脸妆容迁移模型的适用性,使得该项技术能更好地应用于人民群众的日常生活之中。在日常生活的场景中,通过手机摄像头很容易就能够收集到大量的原始人脸图像,结合图像增强模型,能有效提高人脸妆容迁移模型的适用性。
发明内容
本发明的目的在于克服目前无监督人脸妆容迁移数据量不足的问题,并提高无监督人脸妆容迁移模型的适用性,提出了一种基于生成对抗学习的人脸妆容迁移方法,使用易于收集的质量较低的人脸图像作为原始数据,结合图像增强模型(即神经网络),训练一个用于人脸妆容迁移的模型(即神经网络),以提升人脸妆容迁移的适用性。
为实现上述目的,本发明所提供的技术方案为:一种基于生成对抗学习的人脸妆容迁移方法,包括以下步骤:
S1、准备三个不同的数据集;
第一个数据集是未上妆的原始图像集,该数据集中的图像采集自日常生活中非专业设备的拍摄图像,且未经后期图像处理;第二个数据集是未上妆的处理图像集,该数据集中的图像虽然也未上妆,但已经过处理,图像质量较第一个数据集高,对比度、分辨率指标都达到优良;第三个数据集是上妆后的图像集,该数据集中的图像质量较第二个数据集高,且图像中的人脸已经上妆;这里分别把未上妆的原始图像、未上妆的处理图像、上妆后的图像记为xo、xb、xt
S2、将原始图像的风格转换成处理图像的风格图像;
在保持原始图像人脸身份特征内容不变的情况下,将xo的图像风格转换成xb的图像风格,以改善图像质量,为此使用未上妆的原始图像集和未上妆的处理图像集训练一个用于风格转换的神经网络G1,通过重构损失函数和生成对抗网络约束神经网络G1的学习过程,学习完成后,该神经网络G1能够利用原始图像xo生成与处理图像xb质量相当,但同时人脸特征保持不变的高质量人脸图像;
S3、使用预训练的人脸分割模型对图像中的人脸进行区域划分;
人脸分割模型划分出人脸的各个部位并给出对应部位的掩码mask,使用这些掩码和图像数据进行与操作,能够获取到单个部位的图像数据,利用人脸分割模型对处理图像xb以及上妆后图像xt进行处理,得到处理图像xb的眼睛、鼻子、嘴唇部位的掩码
Figure BDA0003648104830000021
和上妆后图像xt的眼睛、鼻子、嘴唇部位的掩码
Figure BDA0003648104830000022
S4、将上妆后的图像中的妆容迁移到未上妆的处理图像;
在步骤S2中得到高质量的人脸图像后,使用这些图像与上妆后的图像以及利用步骤S3提取到的各部位掩码
Figure BDA0003648104830000031
训练一个多模态无监督神经网络G2,用于实现人脸妆容迁移。
进一步,在步骤S1中,第一个数据集是未上妆的原始图像集,该数据集中的图像采集自日常生活中非专业设备的拍摄图像,图像的主体内容是未经后期处理且不带妆容、自然状态下的人脸,图像背景简单并且背景所占比例小,由于拍摄场景、拍摄设备未作限制,该数据集的图像各项指标大概率是不佳的;第二个数据集是未上妆的处理图像集,图像的主体内容是不带妆容但具有良好辨识度的人脸,该数据集中的图像虽然未上妆,但图像的来源有所限制,并且已经过处理,图像质量较第一个数据集高,对比度、分辨率指标都达到优良;第三个数据集是上妆后的图像集,图像的主体内容是上妆后的人脸,并且人脸的妆容痕迹明显、易于辨认,图像质量较第二个数据集高。
进一步,在步骤S2中,对于第一个和第二个这两个不同的数据集,由于图像质量存在差异,在图像整体的风格上会有差别,而不同数据集中人脸图像的语义内容都是人脸特征,所以这里假设不同的数据集的风格是不同的,但内容是相同的;为此训练一个由数层卷积神经网络组成的用于图像风格转换的神经网络G1,该神经网络G1采用两个编码器ES和EC,上标S和C分别代表风格和人脸特征内容,编码器负责把人脸图像编码成风格编码和内容编码,内容编码代表人脸的身份特征,而风格编码代表图像的整体风格,包括色调、明暗程度和对比度;原始图像xo的内容编码记为
Figure BDA0003648104830000032
风格编码记为
Figure BDA0003648104830000033
处理图像xb的内容编码记为
Figure BDA0003648104830000034
风格编码记为
Figure BDA0003648104830000035
神经网络G1还包含两个解码器Go2b和Gb2o,以内容编码和风格编码为输入,输出转换过后的人脸图像;除此之外还有两个判别器Do和Db,用于辨别解码器生成的图像和数据集中的原图像,改善解码器的性能,提高生成图像的质量;其中,编码器和解码器首先要学会如何重构样本,所以定义了一个图像重构的损失函数Lrec
Lrec=||Go2b(ES(xo),EC(xo))-xo||+||Gb2o(ES(xb),EC(xb))-xb||
对于每个随机选择的原始图像-处理图像的数据对,通过交换它们的风格编码来实现风格的转换;在此过程中,对于两个编码器来说,它们必须要能在样本上正确地估计风格编码和内容编码,需保证经过变换的过程,编码器产生的风格编码、内容编码不受改变,所以对应的损失函数如下:
Figure BDA0003648104830000041
Figure BDA0003648104830000042
式中,
Figure BDA0003648104830000043
是图像内容编码的重构损失函数,
Figure BDA0003648104830000044
是图像风格编码的重构损失函数;
为了让生成的图像尽量符合处理图像数据的分布,保证生成的样本在改变风格编码和内容编码后依然真实,使用了两个判别器Do和Db,旨在把风格转换后生成的样本和真实的样本区分开;在生成对抗学习中,为了与Do和Db对抗,Go2b和Gb2o需要生成更接近真实的人脸图像,以匹配处理图像的分布,所以对抗训练中神经网络G1的生成部分的损失函数LGAN如下:
Figure BDA0003648104830000045
为了增强用于风格转换的神经网络G1的可用性和抗噪能力,使用了一组编解码器Grec、Drec用于接收原始图像xo,并将其编码,混入随机噪声数据,重新生成一张与原始图像一致的带噪图像x'o;通过拉近原始图像xo和带噪图像x'o的分布,能够有效增强神经网络在处理质量不佳图形时的表现,故定义损失函数Lnoise如下:
Lnoise=||Drec(Grec(xo))-xo||
总的训练目标LTotal为:
Figure BDA0003648104830000051
式中,λx、λc、λs、λn是损失函数的权重;最后,将所有原始图像都转换成具有处理图像的风格,但保持人脸特征内容不变的图像。
进一步,在步骤S3中,使用预训练的人脸分割模型为基于BiSeNet神经网络架构的人脸分割模型。
进一步,在步骤S4中,利用步骤S2中得到的处理图像xb和上妆后图像xt,同时利用步骤S3提取到的各部位掩码
Figure BDA0003648104830000052
进行逻辑与操作,提取到眼睛、鼻子、嘴唇部位的图像
Figure BDA0003648104830000053
利用以上编码数据作为多模态无监督神经网络G2的输入对其进行训练,具体来说,G2包含以下组成部分:编码器Eps、编码器Efi、解码器Gmf、以及判别器Db和Dt;为了把上妆后图像xt的妆容迁移到xb,需要对上妆图像眼睛、鼻子、嘴唇部位的图像的内容
Figure BDA0003648104830000054
进行编码,为此采用一个编码器Eps,该编码器Eps的功能是编码妆容相关的信息得到风格码Z;为了实现风格码与xb、xt的解耦,采用多层感知器神经网络把风格码Z映射到另一分布空间,变换后记作风格码Wt,同理,处理图像xb也能得到对应的无妆风格码Wb;为了将上妆后图像xt的风格码W应用在处理图像xb上,需要将处理图像xb进行编码,为此采用一个编码器Efi对图像进行编码,该编码器Efi的功能是编码脸部的身份信息;最后,需要将风格码与脸部的身份信息混合,生成一张新的图像,实现脸部妆容的迁移,为此采用生成器G,该生成器G封装了以上两个编码器Eps、Efi和解码器Gmf,该解码器Gmf采用AdaIn的正则化方法把风格码融合到脸部的身份信息中,使得生成的图像兼具处理图像xb的身份信息和上妆后图像xt的妆容风格;除此之外还有两个判别器Db和Dt,用于辨别解码器Gmf生成的图像和数据集中的原图像,改善解码器的性能,提高生成图像的质量;
编码器和解码器首先要学会如何生成更真实的图像、如何更准确地辨别图像的真伪,所以定义了两个对抗损失函数:
Figure BDA0003648104830000061
Figure BDA0003648104830000062
Figure BDA0003648104830000063
式中,
Figure BDA0003648104830000064
是生成器的对抗损失函数,
Figure BDA0003648104830000065
是判别器的对抗损失函数,LGAN′是多模态无监督神经网络G2的对抗损失函数;
为了保证编码器、解码器在编解码过程不改变图像原有的人脸身份特征,需要让上妆前图像和上妆后图像的人脸身份特征尽可能一致,使用VGG网络模型Fi提取图像的整体特征,定义全局感知损失函数
Figure BDA0003648104830000066
Figure BDA0003648104830000067
还需要保证编码器、解码器在编解码过程不改变图像中眼睛、鼻子、嘴唇部位的特征,这样才能让妆容成功迁移过去,而不是迁移了上妆后图像的整个部位,使用VGG网络模型Fi提取图像的特征,定义局部感知损失函数
Figure BDA0003648104830000068
Figure BDA0003648104830000069
由于使用的是非配对图像的无监督模式,需要让编码器、解码器学习到两个域之间存在的普遍差异,与特定的图像解耦,减少对训练集的依赖,所以定义循环损失函数Lcyc
Lcyc=||G(G(xb,xt),xb)-xb||+||G(G(xt,xb),xt)-xt||
为了让妆容迁移更加准确,使用直方图对处理图像xb和上妆后图像xt的眼睛、鼻子、嘴唇部位进行色彩分布的统计,编码器和解码器共同作用生成的上妆后图像应该与原本的上妆后图像在以上三个局部位置有相近的直方图分布,即色彩色调一致,使用模块HM来提取图像的直方图,定义损失函数Lm
Lm=||G(xb,xt)-HM(xb,xt)||+||G(xt,xb)-HM(xt,xb)||
总的训练目标LTotal′为:
Figure BDA0003648104830000071
式中,λGAN、λg、λl、λcyc、λm是损失函数的权重。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明结合多种神经网络,各个神经网络之间联合训练,最终提升了人脸妆容迁移的效果和适用性,并且具有良好的泛化性,可以对各种场景下拍摄的图像进行人脸妆容迁移。
2、本发明提出了一种用于风格转换的神经网络,用生成对抗网络技术实现图像增强的功能,提高人脸妆容迁移的适用性和抗噪能力,完成妆容迁移的全过程。同时,风格转换的神经网络能扩充用于妆容迁移训练的数据集,充分利用各种场景下拍摄的人脸图像。
3、本发明提出的妆容迁移方法在妆容迁移方面的表现优异,同时采用了多部位风格码分离的网络结构设计,实现了不同部位妆容的解耦,能够实现多种妆容的混合搭配,可以将来自不同图像的眼睛、鼻子、嘴唇部位的妆容迁移到同一张图像上面。
具体实施方式
下面结合实施例对本发明作进一步详细的描述,但本发明的实施方式不限于此。
本实施例提供了一种基于生成对抗学习的人脸妆容迁移方法,以上妆后图像的妆容迁移到未上妆的原始图像的实现为例,其中上妆后图像和未上妆的处理图像来自MT数据集,未上妆的原始图像由相关工作人员收集而来,包括以下步骤:
S1、图像数据部分采集自MT数据集,部分由工作人员收集,具体说明如下:
MT数据集由1109张未上妆的处理图像和2719张上妆后图像组成,另外还收集了3094张未上妆的原始图像。其中20%的图像用于测试,80%的图像用于训练。以上图像均是无标记的,采用无监督的方式训练。
未上妆的原始图像集中的图像采集自日常生活中非专业设备的拍摄图像,图像的主体内容是未经后期处理且不带妆容、自然状态下的人脸,图像背景较为简单并且背景所占比例不大,由于拍摄场景、拍摄设备未作限制,该数据集的图像各项指标如对比度、分辨率等较大概率是不佳的。未上妆的处理图像集,图像的主体内容是不带妆容但具有良好辨识度的人脸,该数据集中的图像虽然未上妆,但图像的来源有所限制,并且经过一定处理,图像质量较高,对比度、分辨率等指标都达到优良。上妆后的图像集,图像的主体内容是上妆后的人脸,并且人脸的妆容痕迹明显、易于辨认,图像质量也较高。分别把未上妆的原始图像、未上妆的处理图像、上妆后的图像记为xo、xb、xt
S2、需要将原始图像xo的风格转换成处理图像xb的风格,以改善图像质量。对于这两个不同的数据集,由于图像质量存在差异,在图像整体的风格上会有差别,而不同数据集中人脸图像的语义内容都是人脸特征,所以这里假设不同的数据集的风格是不同的,但内容是相同的。为此训练一个由数层卷积神经网络组成的用于图像风格转换的神经网络G1,该神经网络G1采用两个编码器ES和EC,上标S和C分别代表风格和人脸特征内容,编码器负责把人脸图像编码成风格编码和内容编码,内容编码代表人脸的身份特征,而风格编码代表图像的整体风格,包括色调、明暗程度和对比度;原始图像xo的内容编码记为
Figure BDA0003648104830000081
风格编码记为
Figure BDA0003648104830000082
处理图像xb的内容编码记为
Figure BDA0003648104830000083
风格编码记为
Figure BDA0003648104830000084
神经网络还包含两个解码器Go2b和Gb2o,以内容编码和风格编码为输入,输出转换过后的人脸图像;除此之外还有两个判别器Do和Db,用于辨别解码器生成的图像和数据集中的原图像,改善解码器的性能,提高生成图像的质量;编码器和解码器首先要学会如何重构样本,所以定义了一个图像重构的损失函数Lrec
Lrec=||Go2b(ES(xo),EC(xo))-xo||+||Gb2o(ES(xb),EC(xb))-xb||
对于每个随机选择的原始图像-处理图像的数据对,通过交换它们的风格编码来实现风格的转换。在此过程中,对于两个编码器来说,它们必须要能在样本上正确地估计风格编码和内容编码,需保证经过变换的过程,编码器产生的风格编码、内容编码不受改变。所以对应的损失函数如下:
Figure BDA0003648104830000091
Figure BDA0003648104830000092
式中,
Figure BDA0003648104830000093
是图像内容编码的重构损失函数,
Figure BDA0003648104830000094
是图像风格编码的重构损失函数。
为了让生成的图像尽量符合处理图像数据的分布,保证生成的样本在改变风格编码和内容编码后依然真实,使用了两个判别器Do和Db,旨在把风格转换后生成的样本和真实的样本区分开;在生成对抗学习中,为了让Do与Db对抗,Go2b和Gb2o需要生成更接近真实的人脸图像,以匹配处理图像的分布,所以对抗训练中神经网络G1的生成部分的损失函数LGAN如下:
Figure BDA0003648104830000095
为了增强用于风格转换的神经网络G1(以上各模块的总称)的可用性和抗噪能力,使用了一组编解码器Grec、Drec用于接收原始图像xo,并将其编码,混入随机噪声数据,重新生成一张与原始图像几乎一致的带噪图像x'o。通过拉近原始图像xo和带噪图像x'o的分布,可以有效增强神经网络在处理质量不佳图形时的表现,故定义损失函数Lnoise如下:
Lnoise=||Drec(Grec(xo))-xo||
总的训练目标LTotal为:
Figure BDA0003648104830000096
式中,λx、λc、λs、λn是损失函数的权重。最后,将所有原始图像都转换成具有处理图像的风格,但保持人脸特征内容不变的图像。
S3、使用预训练的人脸分割模型对图像中的人脸进行区域划分。由于本发明的重点与关键是人脸妆容迁移模型,因此采用的是学界公认较为成熟的基于BiSeNet神经网络架构的人脸分割模型,该模型可以划分出人脸的各个部位并给出对应部位的掩码mask,使用这些掩码和图像数据进行与操作,可以获取到单个部位的图像数据。利用人脸分割模型对步骤S2中得到的处理图像xb以及上妆后图像xt进行处理,得到处理图像xb的眼睛、鼻子、嘴唇部位的掩码
Figure BDA0003648104830000101
和上妆后图像xt的眼睛、鼻子、嘴唇部位的掩码
Figure BDA0003648104830000102
S4、利用步骤S2中得到的处理图像xb和上妆后图像xt,同时利用步骤S3提取到的各部位掩码
Figure BDA0003648104830000103
进行逻辑与操作,分别提取出眼睛、鼻子、嘴唇部位的图像
Figure BDA0003648104830000104
利用以上编码数据作为多模态无监督神经网络G2的输入对其进行训练,具体来说,G2包含以下几个组成部分:编码器Eps、编码器Efi、解码器Gmf、以及判别器Db和Dt,其具体作用和定义将在下文进行说明。为了把上妆后图像xt的妆容迁移到xb,需要对上妆图像眼睛、鼻子、嘴唇部位的图像
Figure BDA0003648104830000105
的内容进行编码,为此采用一个编码器Eps,该编码器的功能是编码妆容相关的信息得到风格码Z,为了实现风格码与xb、xt的解耦,采用多层感知器神经网络把风格码Z映射到另一分布空间,变换后记作风格码Wt,同理,处理图像xb也能得到对应的无妆风格码Wb。为了将上妆后图像xt的风格码W应用在处理图像xb上,需要将处理图像xb进行编码,为此采用一个编码器Efi对图像进行编码,该编码器的功能是编码脸部的身份信息。最后,需要将风格码与脸部的身份信息混合,生成一张新的图像,实现脸部妆容的迁移,为此采用生成器G,该生成器封装了以上两个编码器和解码器Gmf,Gmf解码器采用AdaIn的正则化方法把风格码融合到脸部的身份信息中,生成的图像能兼具处理图像xb的身份信息和上妆后图像xt的妆容风格。除此之外还有两个判别器Db和Dt,用于辨别解码器生成的图像和数据集中的原图像,改善解码器的性能,提高生成图像的质量;
编码器和解码器首先要学会如何生成更真实的图像、如何更准确地辨别图像的真伪,所以定义了两个对抗损失函数:
Figure BDA0003648104830000111
Figure BDA0003648104830000112
Figure BDA0003648104830000113
式中,
Figure BDA0003648104830000114
是生成器的对抗损失函数,
Figure BDA0003648104830000115
是判别器的对抗损失函数,LGAN′是多模态无监督神经网络G2的对抗损失函数;
为了保证编码器、解码器在编解码过程不改变图像原有的人脸身份特征,需要让上妆前图像和上妆后图像的人脸身份特征尽可能一致,使用VGG网络模型Fi提取图像的整体特征,定义全局感知损失函数
Figure BDA0003648104830000116
Figure BDA0003648104830000117
与上面的道理类似,还需要保证编码器、解码器在编解码过程不改变图像中眼睛、鼻子、嘴唇等部位的特征,这样才能让妆容成功迁移过去,而不是迁移了上妆后图像的整个部位,使用VGG网络模型Fi提取图像的特征,定义局部感知损失函数
Figure BDA0003648104830000118
Figure BDA0003648104830000119
由于使用的是非配对图像的无监督模式,需要让编码器、解码器学习到两个域之间存在的普遍差异,与特定的图像解耦,减少对训练集的依赖,所以定义循环损失函数Lcyc
Lcyc=||G(G(xb,xt),xb)-xb||+||G(G(xt,xb),xt)-xt||
为了让妆容迁移更加准确,使用直方图对处理图像xb和上妆后图像xt的眼睛、鼻子、嘴唇部位进行色彩分布的统计,编码器和解码器共同作用生成的上妆后图像应该与原本的上妆后图像在以上三个局部位置有相近的直方图分布(即色彩色调一致),使用模块HM来提取图像的直方图,定义损失函数Lm
Lm=||G(xb,xt)-HM(xb,xt)||+||G(xt,xb)-HM(xt,xb)||
总的训练目标LTotal′为:
Figure BDA0003648104830000121
式中,λGAN、λg、λl、λcyc、λm是损失函数的权重。
训练完成后,在MT数据集上评估了本发明方法,通过与其它模型产生图像的对比,本发明方法在暗部控制、局部妆容迁移、人脸错位情况下的迁移表现均优于基准方法,值得推广。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.一种基于生成对抗学习的人脸妆容迁移方法,其特征在于,包括以下步骤:
S1、准备三个不同的数据集;
第一个数据集是未上妆的原始图像集,该数据集中的图像采集自日常生活中非专业设备的拍摄图像,且未经后期图像处理;第二个数据集是未上妆的处理图像集,该数据集中的图像虽然也未上妆,但已经过处理,图像质量较第一个数据集高,对比度、分辨率指标都达到优良;第三个数据集是上妆后的图像集,该数据集中的图像质量较第二个数据集高,且图像中的人脸已经上妆;这里分别把未上妆的原始图像、未上妆的处理图像、上妆后的图像记为xo、xb、xt
S2、将原始图像的风格转换成处理图像的风格图像;
在保持原始图像人脸身份特征内容不变的情况下,将xo的图像风格转换成xb的图像风格,以改善图像质量,为此使用未上妆的原始图像集和未上妆的处理图像集训练一个用于风格转换的神经网络G1,通过重构损失函数和生成对抗网络约束神经网络G1的学习过程,学习完成后,该神经网络G1能够利用原始图像xo生成与处理图像xb质量相当,但同时人脸特征保持不变的高质量人脸图像;
S3、使用预训练的人脸分割模型对图像中的人脸进行区域划分;
人脸分割模型划分出人脸的各个部位并给出对应部位的掩码mask,使用这些掩码和图像数据进行与操作,能够获取到单个部位的图像数据,利用人脸分割模型对处理图像xb以及上妆后图像xt进行处理,得到处理图像xb的眼睛、鼻子、嘴唇部位的掩码
Figure FDA0003648104820000011
和上妆后图像xt的眼睛、鼻子、嘴唇部位的掩码
Figure FDA0003648104820000012
S4、将上妆后的图像中的妆容迁移到未上妆的处理图像;
在步骤S2中得到高质量的人脸图像后,使用这些图像与上妆后的图像以及利用步骤S3提取到的各部位掩码
Figure FDA0003648104820000013
训练一个多模态无监督神经网络G2,用于实现人脸妆容迁移。
2.根据权利要求1所述的一种基于生成对抗学习的人脸妆容迁移方法,其特征在于:在步骤S1中,第一个数据集是未上妆的原始图像集,该数据集中的图像采集自日常生活中非专业设备的拍摄图像,图像的主体内容是未经后期处理且不带妆容、自然状态下的人脸,图像背景简单并且背景所占比例小,由于拍摄场景、拍摄设备未作限制,该数据集的图像各项指标大概率是不佳的;第二个数据集是未上妆的处理图像集,图像的主体内容是不带妆容但具有良好辨识度的人脸,该数据集中的图像虽然未上妆,但图像的来源有所限制,并且已经过处理,图像质量较第一个数据集高,对比度、分辨率指标都达到优良;第三个数据集是上妆后的图像集,图像的主体内容是上妆后的人脸,并且人脸的妆容痕迹明显、易于辨认,图像质量较第二个数据集高。
3.根据权利要求1所述的一种基于生成对抗学习的人脸妆容迁移方法,其特征在于:在步骤S2中,对于第一个和第二个这两个不同的数据集,由于图像质量存在差异,在图像整体的风格上会有差别,而不同数据集中人脸图像的语义内容都是人脸特征,所以这里假设不同的数据集的风格是不同的,但内容是相同的;为此训练一个由数层卷积神经网络组成的用于图像风格转换的神经网络G1,该神经网络G1采用两个编码器ES和EC,上标S和C分别代表风格和人脸特征内容,编码器负责把人脸图像编码成风格编码和内容编码,内容编码代表人脸的身份特征,而风格编码代表图像的整体风格,包括色调、明暗程度和对比度;原始图像xo的内容编码记为
Figure FDA0003648104820000021
风格编码记为
Figure FDA0003648104820000022
处理图像xb的内容编码记为
Figure FDA0003648104820000023
风格编码记为
Figure FDA0003648104820000024
神经网络G1还包含两个解码器Go2b和Gb2o,以内容编码和风格编码为输入,输出转换过后的人脸图像;除此之外还有两个判别器Do和Db,用于辨别解码器生成的图像和数据集中的原图像,改善解码器的性能,提高生成图像的质量;其中,编码器和解码器首先要学会如何重构样本,所以定义了一个图像重构的损失函数Lrec
Lrec=||Go2b(ES(xo),EC(xo))-xo||+||Gb2o(ES(xb),EC(xb))-xb||
对于每个随机选择的原始图像-处理图像的数据对,通过交换它们的风格编码来实现风格的转换;在此过程中,对于两个编码器来说,它们必须要能在样本上正确地估计风格编码和内容编码,需保证经过变换的过程,编码器产生的风格编码、内容编码不受改变,所以对应的损失函数如下:
Figure FDA0003648104820000031
Figure FDA0003648104820000032
式中,
Figure FDA0003648104820000033
是图像内容编码的重构损失函数,
Figure FDA0003648104820000034
是图像风格编码的重构损失函数;
为了让生成的图像尽量符合处理图像数据的分布,保证生成的样本在改变风格编码和内容编码后依然真实,使用了两个判别器Do和Db,旨在把风格转换后生成的样本和真实的样本区分开;在生成对抗学习中,为了与Do和Db对抗,Go2b和Gb2o需要生成更接近真实的人脸图像,以匹配处理图像的分布,所以对抗训练中神经网络G1的生成部分的损失函数LGAN如下:
Figure FDA0003648104820000035
为了增强用于风格转换的神经网络G1的可用性和抗噪能力,使用了一组编解码器Grec、Drec用于接收原始图像xo,并将其编码,混入随机噪声数据,重新生成一张与原始图像一致的带噪图像x'o;通过拉近原始图像xo和带噪图像x'o的分布,能够有效增强神经网络在处理质量不佳图形时的表现,故定义损失函数Lnoise如下:
Lnoise=||Drec(Grec(xo))-xo||
总的训练目标LTotal为:
Figure FDA0003648104820000036
式中,λx、λc、λs、λn是损失函数的权重;最后,将所有原始图像都转换成具有处理图像的风格,但保持人脸特征内容不变的图像。
4.根据权利要求1所述的一种基于生成对抗学习的人脸妆容迁移方法,其特征在于:在步骤S3中,使用预训练的人脸分割模型为基于BiSeNet神经网络架构的人脸分割模型。
5.根据权利要求1所述的一种基于生成对抗学习的人脸妆容迁移方法,其特征在于:在步骤S4中,利用步骤S2中得到的处理图像xb和上妆后图像xt,同时利用步骤S3提取到的各部位掩码
Figure FDA0003648104820000041
进行逻辑与操作,提取到眼睛、鼻子、嘴唇部位的图像
Figure FDA0003648104820000042
利用以上编码数据作为多模态无监督神经网络G2的输入对其进行训练,具体来说,G2包含以下组成部分:编码器Eps、编码器Efi、解码器Gmf、以及判别器Db和Dt;为了把上妆后图像xt的妆容迁移到xb,需要对上妆图像眼睛、鼻子、嘴唇部位的图像的内容
Figure FDA0003648104820000043
进行编码,为此采用一个编码器Eps,该编码器Eps的功能是编码妆容相关的信息得到风格码Z;为了实现风格码与xb、xt的解耦,采用多层感知器神经网络把风格码Z映射到另一分布空间,变换后记作风格码Wt,同理,处理图像xb也能得到对应的无妆风格码Wb;为了将上妆后图像xt的风格码W应用在处理图像xb上,需要将处理图像xb进行编码,为此采用一个编码器Efi对图像进行编码,该编码器Efi的功能是编码脸部的身份信息;最后,需要将风格码与脸部的身份信息混合,生成一张新的图像,实现脸部妆容的迁移,为此采用生成器G,该生成器G封装了以上两个编码器Eps、Efi和解码器Gmf,该解码器Gmf采用AdaIn的正则化方法把风格码融合到脸部的身份信息中,使得生成的图像兼具处理图像xb的身份信息和上妆后图像xt的妆容风格;除此之外还有两个判别器Db和Dt,用于辨别解码器Gmf生成的图像和数据集中的原图像,改善解码器的性能,提高生成图像的质量;
编码器和解码器首先要学会如何生成更真实的图像、如何更准确地辨别图像的真伪,所以定义了两个对抗损失函数:
Figure FDA0003648104820000051
Figure FDA0003648104820000052
Figure FDA0003648104820000053
式中,
Figure FDA0003648104820000054
是生成器的对抗损失函数,
Figure FDA0003648104820000055
是判别器的对抗损失函数,LGAN′是多模态无监督神经网络G2的对抗损失函数;
为了保证编码器、解码器在编解码过程不改变图像原有的人脸身份特征,需要让上妆前图像和上妆后图像的人脸身份特征尽可能一致,使用VGG网络模型Fi提取图像的整体特征,定义全局感知损失函数
Figure FDA0003648104820000056
Figure FDA0003648104820000057
还需要保证编码器、解码器在编解码过程不改变图像中眼睛、鼻子、嘴唇部位的特征,这样才能让妆容成功迁移过去,而不是迁移了上妆后图像的整个部位,使用VGG网络模型Fi提取图像的特征,定义局部感知损失函数
Figure FDA0003648104820000058
Figure FDA0003648104820000059
由于使用的是非配对图像的无监督模式,需要让编码器、解码器学习到两个域之间存在的普遍差异,与特定的图像解耦,减少对训练集的依赖,所以定义循环损失函数Lcyc
Lcyc=||G(G(xb,xt),xb)-xb||+||G(G(xt,xb),xt)-xt||
为了让妆容迁移更加准确,使用直方图对处理图像xb和上妆后图像xt的眼睛、鼻子、嘴唇部位进行色彩分布的统计,编码器和解码器共同作用生成的上妆后图像应该与原本的上妆后图像在以上三个局部位置有相近的直方图分布,即色彩色调一致,使用模块HM来提取图像的直方图,定义损失函数Lm
Lm=||G(xb,xt)-HM(xb,xt)||+||G(xt,xb)-HM(xt,xb)||
总的训练目标LTotal′为:
Figure FDA0003648104820000061
式中,λGAN、λg、λl、λcyc、λm是损失函数的权重。
CN202210535719.XA 2022-05-17 2022-05-17 一种基于生成对抗学习的人脸妆容迁移方法 Pending CN114913057A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210535719.XA CN114913057A (zh) 2022-05-17 2022-05-17 一种基于生成对抗学习的人脸妆容迁移方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210535719.XA CN114913057A (zh) 2022-05-17 2022-05-17 一种基于生成对抗学习的人脸妆容迁移方法

Publications (1)

Publication Number Publication Date
CN114913057A true CN114913057A (zh) 2022-08-16

Family

ID=82767912

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210535719.XA Pending CN114913057A (zh) 2022-05-17 2022-05-17 一种基于生成对抗学习的人脸妆容迁移方法

Country Status (1)

Country Link
CN (1) CN114913057A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117036157A (zh) * 2023-10-09 2023-11-10 易方信息科技股份有限公司 可编辑的仿真数字人形象设计方法、系统、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111640057A (zh) * 2020-05-25 2020-09-08 武汉理工大学 基于隐藏变量解耦的人脸图像局部特征迁移网络及方法
CN112949605A (zh) * 2021-04-13 2021-06-11 杭州欣禾圣世科技有限公司 基于语义分割的人脸上妆方法和系统
CN113947520A (zh) * 2021-10-14 2022-01-18 湖南大学 一种基于生成对抗网络实现人脸妆容转换的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111640057A (zh) * 2020-05-25 2020-09-08 武汉理工大学 基于隐藏变量解耦的人脸图像局部特征迁移网络及方法
CN112949605A (zh) * 2021-04-13 2021-06-11 杭州欣禾圣世科技有限公司 基于语义分割的人脸上妆方法和系统
CN113947520A (zh) * 2021-10-14 2022-01-18 湖南大学 一种基于生成对抗网络实现人脸妆容转换的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117036157A (zh) * 2023-10-09 2023-11-10 易方信息科技股份有限公司 可编辑的仿真数字人形象设计方法、系统、设备及介质
CN117036157B (zh) * 2023-10-09 2024-02-20 易方信息科技股份有限公司 可编辑的仿真数字人形象设计方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
Jiang et al. Deeperforensics-1.0: A large-scale dataset for real-world face forgery detection
Liong et al. Shallow triple stream three-dimensional cnn (ststnet) for micro-expression recognition
CN111932444B (zh) 基于生成对抗网络的人脸属性编辑方法及信息处理终端
Pan et al. Deepfake detection through deep learning
Song et al. Temporal–spatial mapping for action recognition
CN109871777A (zh) 一种基于注意力机制的行为识别系统
CN109410135B (zh) 一种对抗学习型图像去雾、加雾方法
CN110689599A (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
Wu et al. Difnet: Boosting visual information flow for image captioning
CN111028203B (zh) 一种基于显著性的cnn盲图像质量评估方法
CN112967178A (zh) 一种图像转换方法、装置、设备及存储介质
CN115565238A (zh) 换脸模型的训练方法、装置、设备、存储介质和程序产品
CN112861805A (zh) 一种基于内容特征和风格特征的人脸图像生成方法
CN114913057A (zh) 一种基于生成对抗学习的人脸妆容迁移方法
CN109766918A (zh) 基于多层次上下文信息融合的显著性物体检测方法
WO2022160773A1 (zh) 基于虚拟样本的行人重识别方法
Jiang et al. DeepFakes detection: the DeeperForensics dataset and challenge
CN110992320A (zh) 一种基于双重交错的医学图像分割网络
CN115359550A (zh) 基于Transformer的步态情绪识别方法、装置、电子设备及存储介质
Zhao et al. Research on human behavior recognition in video based on 3DCCA
Khan et al. Face recognition via multi-level 3D-GAN colorization
CN116977455A (zh) 基于深度双向学习的人脸素描图像生成系统及方法
Chen et al. Simswap++: Towards faster and high-quality identity swapping
CN112884773A (zh) 基于背景变换下目标注意力一致性的目标分割模型
Zhou et al. Multitask deep neural network with knowledge-guided attention for blind image quality assessment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination