CN111489405B - 基于条件增强生成对抗网络的人脸草图合成系统 - Google Patents

基于条件增强生成对抗网络的人脸草图合成系统 Download PDF

Info

Publication number
CN111489405B
CN111489405B CN202010204393.3A CN202010204393A CN111489405B CN 111489405 B CN111489405 B CN 111489405B CN 202010204393 A CN202010204393 A CN 202010204393A CN 111489405 B CN111489405 B CN 111489405B
Authority
CN
China
Prior art keywords
sketch
face
network
loss
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010204393.3A
Other languages
English (en)
Other versions
CN111489405A (zh
Inventor
张玥杰
王燕飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202010204393.3A priority Critical patent/CN111489405B/zh
Publication of CN111489405A publication Critical patent/CN111489405A/zh
Application granted granted Critical
Publication of CN111489405B publication Critical patent/CN111489405B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)

Abstract

本发明属于跨媒体图像翻译技术领域,具体为基于条件增强生成对抗网络的人脸草图合成系统。本发明采用条件增强生成对抗网络,用于人脸草图合成,可提供更好的适应性;所述条件增强生成对抗网络由三个相互交互的子网络组成;所述三个子网络为用于基本人脸草图合成的跨模态转换网络、用于改进人脸草图合成的单模态优化网络、用于增强人脸草图风格的感知损失网络;条件增强生成对抗网络旨在从第一阶段子网和原始照片/图像中继承更多有关基本人脸草图的视觉信息,并探索更多有效的视觉内容,以解决在高分辨率人脸草图生成过程中丢失的细节视觉表达和图像草图之间的关联性问题。

Description

基于条件增强生成对抗网络的人脸草图合成系统
技术领域
本发明属于跨媒体图像翻译技术领域,具体涉及基于条件增强生成对抗网络(CE-GAN)的人脸草图合成系统。
背景技术
随着可收集到的人脸图像数据数量呈爆炸性增长,社会对寻找或识别与特定个体有关的人脸信息需求呈现出不断增长的趋势。对于执法机构,当警察试图侦察刑事案件或者逮捕犯罪嫌疑人时,他们通常希望借助犯罪嫌疑人的人脸特征、甚至人脸照片来快速锁定犯罪嫌疑人。然而,在现实世界中,通常很难直接获得犯罪嫌疑人的人脸照片。针对该问题,现有的解决方法是,在一些专业软件或专家的帮助下,根据目击者的有限描述信息生成此类“人脸照片”。通常称这些“人脸照片”为合成的人脸草图。人脸草图合成是一项重要技术,旨在从大规模人脸照片/图像集中自动合成人脸草图。人脸草图合成技术也可应用在计算机视觉领域中,以检测出在图像/视频中出现的人物个体,帮助完成个体身份检索和识别任务。此外,在艺术数字多媒体领域,人脸草图合成也变得越来越流行。例如,人脸草图合成技术可以帮助动画师更快地合成动画草图,从而减少其工作量。随着移动设备和社交网络的普及,人脸草图还被用作个人照片或肖像。因此,如何整合各种人脸信息源以实现准确的人脸草图合成一直是相关领域研究的热点。
与图像相比,手绘草图极其抽象,主要由简单线条组成,缺少纹理、颜色、及其它有效信息。这类特性使得草图和图像之间产生很大模态差异。尽管近年来学者们对人脸草图合成技术已开展广泛研究,用来增强草图与照片/图像之间的匹配度。但由于上述模态差异,人脸草图合成领域仍需开展更多的研究工作来寻求最佳解决方案。最近,部分学者提出一系列基于卷积神经网络(Convolutional Neural Network,CNN)的方法来解决此类图像到草图的翻译问题。这些方法可从照片/图像直接生成草图,同时保留其主要结构和内容。但这些方法也存在一个显著问题,即目标草图缺少风格特征。随着研究的广泛开展,生成对抗网络(Generative Adversarial Network,GAN)和变异自动编码器(VariationalAutoencoder,VAE)已显示出其强大的生成能力,并在类似的特定生成任务中展示出优异结果。特别是,一些最新研究将带条件图像生成任务视为图像到图像的翻译任务,并使用成对/不成对的数据,通过无监督/有监督等不同方法来完成生成任务。现有的研究工作已取得初步成果,这为人脸草图合成中图像到草图的翻译任务提供坚实的基础。但现有方法也存在一些问题,如产生的草图分辨率低、可能会丢失图像全局结构中的某些细节信息和局部纹理信息等。随着像素空间中维度的增加,很难训练出一个GAN来生成高分辨率的逼真图像/草图,因为GAN无法很好地适应高分辨率自然图像的分布。与具有大规模训练数据的自然图像合成不同,人脸草图合成由于难以获得大规模人脸草图训练数据而缺乏有效的监督信息。
为应对上述挑战,本发明提出一种具有条件增强GAN(CE-GAN)的高质量人脸草图合成系统,用来支持更加有效的人脸图像和草图之间的匹配和搜索工作。在给定小规模训练数据集作为监督信息的条件下,有效利用已有监督信息并增强模型对未知数据集的拟合能力非常重要。正如前面所讨论,如何整合与利用多个视觉信息源来进行人脸草图合成仍是一个具有挑战性的话题。由于模态差异,很难提供一种通用方法来评估草图和图像之间的相互关系。本发明所提出的条件增强GAN(CE-GAN)高质量人脸草图合成系统,有效采用从粗糙到精细的生成模式和样式增强设计,提高模型的拟合能力;通过构建最佳的图像到草图合成模式,为融合粗粒度和细粒度的视觉信息提供坚实基础。
发明内容
本发明针对现有人脸草图合成系统中合成结果质量较低、且可能会丢失图像全局结构中某些细节信息和局部纹理信息的问题,提供一种基于条件增强生成对抗网络(CE-GAN)的人脸草图合成系统。
本发明将人脸草图合成过程定义为由粗糙到精细的图像生成过程,所提出的条件增强生成对抗网络可从粗到细对人脸草图进行合成。首先,在第一阶段使用传统的生成对抗网络为原始人脸彩图生成基本人脸草图;然后,基于原始人脸彩图和在第一阶段生成的基本人脸草图,在第二阶段采用条件增强生成对抗网络来合成更为精细的人脸草图。此外,在第二阶段中,鉴别器采用三个子网,分别将基本人脸草图和原始人脸彩图作为不同的条件,向条件增强型生成器提供更加准确的监督信号。特别引入基于草图的感知损失网络,利用特征重建损失和风格重建损失来监督生成器,从而更加有助于合成逼真的人脸草图。
本发明提供的基于条件增强生成对抗网络的人脸草图合成系统,采用条件增强生成对抗网络(记为CE-GAN),该网络是一种多阶段优化增强网络,用于人脸草图合成,可提供更好的适应性;所述条件增强生成对抗网络由三个相互交互的子网络组成;所述三个子网络为用于基本人脸草图合成的跨模态转换网络(Cross-modal Transfer Network,简记为CTN)、用于改进人脸草图合成的单模态优化网络(Unimodal Refinement Network,简记为URN)、用于增强人脸草图风格的感知损失网络(Perceptual Loss Network,简记为PLN)。条件增强生成对抗网络旨在从第一阶段子网和原始照片/图像中继承更多有关基本人脸草图的视觉信息,并探索更多有效的视觉内容,有助于解决在高分辨率人脸草图生成过程中丢失的细节视觉表达和图像草图之间的关联性问题。其中:
(一)所述跨模态转换网络(CTN),用于图像到图像的翻译,生成基本人脸草图;该草图保留原始人脸彩图中的主要轮廓;CTN由生成器G0和鉴别器D0两个模块组成;G0用于将人脸彩图转换为人脸草图,D0用于区分真实人脸草图和G0中翻译的结果,帮助G0生成更逼真的人脸草图。
使用包含图像-草图对{(x,y)}的训练数据集来训练G0和D0,其中x是人脸彩图,y是目标人脸草图。本发明中的跨模态转换网络(CTN)使用生成对抗网络中常用的minimax游戏
Figure BDA0002420499680000031
来拟合给定输入人脸彩图条件下真实人脸草图的条件分布。目标函数
Figure BDA0002420499680000032
定义为如下公式(1):
Figure BDA0002420499680000033
其中,z是随机噪声向量。G,D分别是生成器和辨别器网络,pdata(*)代表数据的概率分布,*~pdata(*)代表数据*所对应的pdata(*)概率分布,E*代表概率分布*的期望;被用作所述生成器G0采用基于Pix2Pix模型的具有多层ResNet模块[1]的网络,鉴别器D0采用一个基于块的全卷积网络。生成器G0生成大小为256×256像素的基本人脸草图。将原始人脸彩图及其对应的基本人脸草图进行逐通道级联,作为鉴别器D0的输入。仅通过这一阶段生成,由G0生成的基本人脸草图可能会遇到一些问题,如外观模糊、缺少面部细节或草图风格。因此,需要通过一个再生过程,利用更多可用与有益的信息来减轻上述问题,以获得更好的结果。
(二)所述单模态优化网络(URN),用于改进跨模态转换网络(CTN)合成的基本人脸草图。作为CE-GAN的核心部分,URN包括一个条件增强生成器和一个多条件增强辨别器,分别用G1和D1表示。
(1)条件增强生成器G1,以基本人脸草图及与其相应的原始人脸彩图作为输入,生成具有更多局部细节的精细人脸草图。
传统生成对抗网络GAN中生成器的输入只是一幅图像,当输入图像的数量超过一幅时,将输入图像进行简单串联,然后再输入至生成器中,如图2(a)所示。这种简单的串联方法未将输入图像之间的相关性考虑在内。而本发明提出一个跨关系相关性模块,记为ARCM,用来反应输入图像之间的相关性。具体来说,G1不仅以人脸彩图及其对应的基本人脸草图作为输入,还考虑人脸彩图与其基本人脸草图之间的相关性,即在这两个输入之间建立跨关系相关性作为G1的额外输入,如图2(b)所示。
设x和y表示输入图像(即人脸彩图及其对应的人脸草图);
Figure BDA0002420499680000041
Figure BDA0002420499680000042
分别代表对输入图像x和y的卷积运算,其结果与跨关系相关性模块(ARCM)的结果经拼接后作为G1的输入。
本发明将ARCM引入GAN框架,使得生成器和鉴别器都能有效建立输入人脸彩图和与其对应的基本人脸草图之间的相关性。如图3所示。
本发明将前面的卷积层
Figure BDA0002420499680000043
Figure BDA0002420499680000044
输出的图像和草图特征分别定义为
Figure BDA0002420499680000045
Figure BDA0002420499680000046
C为特征的通道数,N为特征的宽高乘积。对于图像I,首先将x和y分别转换为两个特征空间f和k,其中f(x)=Wfx,k(y)=Wky。草图和图像之间的相关性可表示为如下公式(2):
Figure BDA0002420499680000047
其中,
Figure BDA0002420499680000048
表示ARCM模型在合成时第j个区域与第i个位置建立的相关性程度。ARCM的图像特征输出是相关性掩码和所映射的输入特征图之间的逐元素乘积。由此,将ARCM的图像特征结果定义为
Figure BDA0002420499680000051
Figure BDA0002420499680000052
定义为如下公式(3)所示:
Figure BDA0002420499680000053
其中,
Figure BDA0002420499680000054
是学习到的权重值。
受SAGAN[2]的启发,本发明将ARCM的图像特征图输出乘以一个比例参数,然后与输入特征图进行加和。因此,最终图像相关性特征可表示为如下公式(4):
xcorrelation=x+γ(x) (4)
其中,γ是可学习的比例参数,且在训练初始时设置为0。网络首先学习原始特征,然后在学习过程中逐渐增加相关性特征的权重。
与图像相似,对于人脸草图S,首先将x和y分别转换为两个不同的特征空间q和g,其中q(y)=Wqy,g(x)=Wgx,且图像与草图之间的相关性计算公式可表示为如下公式(5):
Figure BDA0002420499680000055
其中,
Figure BDA0002420499680000056
表示ARCM模型在合成时第j个区域与第i个位置建立的相关性程度。
ARCM的草图特征输出是相关性掩码和所映射的输入特征图之间的逐元素乘积。由此,将ARCM的草图特征结果定义为
Figure BDA0002420499680000057
Figure BDA0002420499680000058
为如下公式(6):
Figure BDA0002420499680000059
其中,
Figure BDA00024204996800000510
是学习到的权重值。
与图像相关性输出类似,将ARCM的草图特征图输出乘以一个比例参数,然后与输入特征图进行加和。因此,最终草图相关性特征可计算为如下公式(7):
yc°rrelation=y+δ(y) (7)
其中,δ是可学习的比例参数,在训练初始时设置为0。
在所有实验中,本发明使用卷积核大小为1×1的卷积来实现变换函数,并且将
Figure BDA00024204996800000511
作为超参数配置。
经过上述处理,得到图像和草图之间的相关性。相关性信息与原始草图和图像特征连接在一起,送入至下一层。
(2)多条件增强辨别器D1
为训练G1能够合成出精细的人脸草图,多条件增强辨别器D1应该经过精心设计以考虑到所有可能的信息,向G1提供更多有用的指导信号。当前可以用作D1的条件信息包括从G0生成的基本草图s0和原始人脸彩色图像x。因此,D1可使用三种信息为条件,即(x)、(s0)和(x,s0)。为利用这些条件信息,D1包括三个子网,每个子网分别将三个条件其中之一作为输入。在给定的这些条件下,所有三个子网都试图区分真实人脸草图y和G1生成的精细人脸草图s1。辨别器目标函数
Figure BDA0002420499680000061
可以定义为如下公式(11):
Figure BDA0002420499680000062
Figure BDA0002420499680000063
Figure BDA0002420499680000064
Figure BDA0002420499680000065
其中,α、β和λ分别代表三个辨别器的权重。
(3)条件增强GAN
本发明中的再生成方案整合了从生成器G0到G1的各种视觉信息源。后面的生成器从草图和图像的不同模态接收更多有价值的视觉信息,这样可获得展现出更多视觉细节的合成人脸草图。同时,以多个输入为条件的辨别器子网络可进一步区分更精细的生成结果,并指导生成器合成更令人满意的人脸草图。通过这三个子网,D1可向G1提供更多的监督信号(梯度),不仅提高合成人脸草图的质量,而且加快G1的训练过程。值得注意的是,生成器的缓慢收敛和辨别器的快速收敛将导致不稳定的训练过程,甚至造成无法收敛。本发明的单模态优化网络(URN)中多条件增强辨别器可在某种程度上缓解这一问题。
在上述条件下,三个子网络旨在区分真实人脸草图y和G1生成的精细人脸草图s1。因此,目标函数
Figure BDA0002420499680000066
可定义为如下公式(12):
Figure BDA0002420499680000067
其中,z是随机噪声向量。需要说明的是,D代表D1的三个子网,每个子网都可和G1进行极小极大(minimax)游戏。
(三)所述感知损失网络(PLN),用于增强人脸草图的风格特征。
尽管可通过由粗糙到精细的生成方法来减轻丢失人脸草图重要视觉细节的问题,但这种方法仍存在另一个问题,即与手绘人脸草图相比,合成人脸草图缺乏足够的草图风格特征。在实际中,发现公式(13)的L1距离,可比L2距离产生更高分辨率的结果。然而,这常常导致合成人脸草图中缺乏高频和语义内容,且不能实现较高的峰值信噪比(PeakSignal-to-Noise Ratio,PSNR)。PSNR太低会使草图纹理在感觉上太平滑,从而导致缺少目标模态的风格特征。因此,L1距离不是风格评估的最佳选择,L1距离在如下公式(13)中定义:
Figure BDA0002420499680000071
为增强G1合成的人脸草图带有的风格特征,本发明利用感知损失网络去训练生成器以获得更加逼真的人脸草图。作为条件增强生成对抗网络(CE-GAN)的另一个核心部分,感知损失网络涉及两个内容,即特征重建和风格重建。感知损失函数可看作是深度CNNφ,其中φ已针对图像或草图分类进行预训练,同时测量合成人脸草图和真实人脸草图之间的高频语义内容差异以及风格特征差;
(3.1)特征重建损失
除使合成人脸草图s1在像素级别的L1距离上接近于真实人脸草图y之外,也使其拥有和φ的输出特征表示相似的特征表示。φj(x*)表示第j层大小为Cj×Hj×Wj的输出特征图,其中x*可为s1或y。输出特征图φj(s1)和φj(y)之间欧几里德距离的平方可看作是第j层的特征重建损失,如公式(14)所示:
Figure BDA0002420499680000072
较低层的特征重建损失会迫使生成器在颜色、纹理和形状视觉上类似于目标人脸草图,从而有助于生成更加逼真的人脸草图。较高层的特征重建损失可保留高频内容和整体空间结构。利用这种特征重建损失函数,可在语义感知水平上,使得合成人脸草图s1与目标人脸草图y相似。
(3.2)风格重建损失
特征重建损失有助于减小合成人脸草图s1与目标草图y之间的视觉鸿沟。但手绘人脸草图通常由流线型线条组成,并具有特定的风格样式。为在优化生成器时将草图风格考虑在内,本发明引入风格重建损失来惩罚风格展现中s1和y之间的差异细节,如颜色、纹理、通用图案等。
与特征重建损失相似,来自φ的特征图用于计算合成人脸草图s1或目标草图y的风格表示。公式(15)展示在Gram矩阵
Figure BDA0002420499680000081
((即Cj×Cj矩阵)中c行和c′列处元素的计算,其中c,c′∈{1,…,Cj},h∈{1,…,Hj},w∈{1,…,Wj}。
Figure BDA0002420499680000082
其中,φj(x)解释为Hj×Wj网格,每个网格点具有Cj维特征。当将网格中的每个点视为单独样本时,
Figure BDA0002420499680000083
与特征的非中心协方差成正比,并给出哪些相关特征倾向于一起被激活的信息。s1的Gram矩阵Gj(s1)与y的Gram矩阵Gj(y)之差的平方Frobenius范数可看作是第j层的风格重建损失,定义为如下公式(16):
Figure BDA0002420499680000084
这里,针对s1和y提取来自VGG19网络五个不同层的特征图。如公式(17)所示,最终的风格重构损失
Figure BDA0002420499680000085
通过将每一层的单个损失相加而获得,其中λj是第j层的权重。如公式(18)所示,采用相似的方式获得最终特征重建损失
Figure BDA0002420499680000086
其中μj是第j层的权重。如公式(19)所示,将上述两个损失函数结合起来,形成VGG19损失网络的最终感知损失,其中λc和λs是两个平衡因子。
Figure BDA0002420499680000087
Figure BDA0002420499680000088
Figure BDA0002420499680000091
(3.3)与域相关的损失和与域无关的损失
由于VGG19损失网络已在ImageNet上进行预训练,因此其只能捕获彩色图像中对象的特征。若仅将VGG19感知损失用于人脸草图合成可能会丢失草图的许多关键特征。因此,本发明引入一个额外的损失网络Sketch-a-Net来考察草图的视觉细节。Sketch-a-Net是在从ImageNet数据集中提取的边缘图和TU-Berlin数据集上进行草图预训练分类。特别是,TU-Berlin包含真实且精心绘制的草图,基于此Sketch-a-Net可更好地捕获草图深度视觉特征。与VGG19一致,本发明提取来自Sketch-a-Net五个不同层的特征图。对于人脸草图合成,由于是在草图域中对Sketch-a-Net进行预训练,因此
Figure BDA0002420499680000092
是与域相关的损失。VGG19在图像域中进行预训练,
Figure BDA0002420499680000093
是与域无关的损失。与之前的只使用与域相关的损失图像合成方法不同,本发明将与域相关的损失和与域无关的损失集成在所提出的模型中。最终,新感知损失可定义为如下公式(20):
Figure BDA0002420499680000094
其中,λ和μ分别代表两个域损失的权重。
域相关的损失可保证合成草图的语义特征和风格特征的质量。鉴于缺少用于人脸草图合成的必要监督信息,本发明通过引入与域无关的损失来增添额外的监督信息,从而使模型更好地拟合高质量草图的分布。
(3.4)改进的对抗损失
公式(2)中的单模态优化网络(URN)损失,可通过添加L1损失和感知损失得到改进。本发明中的新损失函数不仅保证合成草图的质量,而且增强其语义和风格特征,并在训练中表现得更加稳定。公式(21)定义训练URN的完整目标函数,其中μ和λ是两个平衡因子。应该注意的是,L1损失和感知损失并不用于指导辨别器D的训练。
Figure BDA0002420499680000095
本发明将特定条件作为有益的监督信息引入网络训练过程,对条件增强生成器和条件增强鉴别器进行专门设计。与传统的生成器结构不同,条件增强生成器可继承不同的信息源,并在现有条件下利用附加信息生成更为真实的结果。条件增强鉴别器利用三个子网络将细化合成的人脸草图与真实人脸草图区分开。这种设计方法不仅加速生成过程,且提高生成质量。
增强人脸草图风格的感知损失网络,用于进一步增强生成信息的获取。该损失网络是由两个子网组成,即与域相关的网络和与域无关的网络。与传统基于图像的感知损失网络(仅关注合成结果与目标图像之间的特征重建误差)不同,本发明所构建的感知损失网络同时关注重建人脸草图语义和人脸草图风格的误差,有效减轻局部细节失真问题,并减缓缺乏针对目标人脸草图的风格特点所带来的负面效果。
本发明所提出的方法,目标集中在为草图和图像之间进行关联性建模,并学习跨越两个模态之间的转化过程。因此,对于给定的输入人脸彩图,可以返回合成的高质量人脸草图,且带有真实人脸草图的风格特点。本发明在公开数据源上的实验已取得非常积极的效果。
在本发明中,所提出的方法目标集中在为草图和图像之间进行相关性建模,并学习跨越两个模态之间的转化过程。因此,对于给定的输入人脸彩图,可返回合成的高质量人脸草图,并带有真实人脸草图的风格特点。本发明在公开数据源上的实验取得非常积极的效果。
附图说明
图1是本发明的框架图。
图2为传统生成对抗网络GAN中的生成器(a)与本发明的URN-GAN中生成器(b)之间的对比示意。
图3为跨关系相关性模块(ARCM)示意。其中,
Figure BDA0002420499680000101
表示矩阵乘法。
图4为用于增强风格的感知损失网络示意。其中,五个特征层用于计算特征重建损失和风格重建损失。
具体实施方式
下面详细介绍本发明的具体实现细节。
(一)基本草图生成(Stage-1)阶段
使用跨模态转换网络(CTN)生成基本草图,用户输入原始人脸彩图,用CTN网络中训练好的生成器G0生成基本人脸草图,这一阶段减缓草图和彩图之间的视觉模态差异;
(二)精细草图生成(Stage-2)阶段
使用单模态优化网络(URN)来细化增强基本人脸草图。这一阶段的输入包括Stage-1阶段生成的基本人脸草图和用户输入的原始人脸彩图。URN网络中训练好的生成器G1利用这两种输入信息,合成精细人脸草图。单URN可融合基本人脸草图和原始人脸彩图中的有用信息。同时,该阶段模型还采用一个感知损失网络来缩小合成草图和目标草图之间的风格差异。
在本发明的模型中,采用LSGAN来训练。公式(11)中的α、β和γ分别设置为0.01、0.01和1,而公式(21)中的μ和λ值全部设置为200。所有输入图像的大小均调整为256×256像素,并进行随机翻转来进行数据增强。本发明采用Adam作为模型训练的优化器。在整体训练过程开始之前,对模型中的所有生成器进行单独训练。采用与PS2-MAN中相同的数据划分方式,具体而言,在CUHK student数据集中,分别使用60、28和100个人脸草图对进行训练、验证和测试;在AR数据集中,分别使用80、20和23个人脸草图对进行训练、验证和测试;在CUFSF数据集中,分别使用600、297和297个人脸草图对进行训练、验证和测试。此外,CUFSF数据集中的所有图像都被裁剪为200×250像素的大小,并将图像中人物眼睛的中心对准在固定的位置。
本发明虽然以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。
参考文献
[1]P.Isola,J.-Y.Zhu,T.Zhou,and A.A.Efros,“Image-to-image translationwith conditional adversarial networks,”in Proceedings ofCVPR 2017,2017,pp.1125–1134.
[2]H.Zhang,I.Goodfellow,D.Metaxas,and A.Odena,“Self-attentiongenerative adversarial networks,”arXiv preprint arXiv:1805.08318,2018.。

Claims (4)

1.一种基于条件增强生成对抗网络的人脸草图合成系统,其特征在于,采用条件增强生成对抗网络,记为CE-GAN,该网络是一种多阶段优化增强网络,用于人脸草图合成;所述条件增强生成对抗网络由三个相互交互的子网络组成;所述三个子网络为用于基本人脸草图合成的跨模态转换网络CTN、用于改进人脸草图合成的单模态优化网络URN、用于增强人脸草图风格的感知损失网络PLN;其中:
(一)所述跨模态转换网络CTN,用于图像到图像的翻译,生成基本人脸草图;该草图保留原始人脸彩图中的主要轮廓;CTN由生成器G0和鉴别器D0两个模块组成;G0用于将人脸彩图转换为人脸草图,D0用于区分真实人脸草图和G0中翻译的结果,帮助G0生成更逼真的人脸草图;
(二)所述单模态优化网络URN,用于改进跨模态转换网络CTN合成的基本人脸草图;作为CE-GAN的核心部分,URN包括一个条件增强生成器和一个多条件增强辨别器,分别用G1和D1表示;
(1)条件增强生成器G1,以基本人脸草图及与其相应的原始人脸彩图作为输入,生成具有更多局部细节的精细人脸草图;
(2)多条件增强辨别器D1,能向G1提供更多有用的指导信号;所述D1使用三种信息为条件,即(x)、(s0)和(x,s0);s0为G0生成的基本草图,x为原始人脸彩色图像;为利用这些条件信息,D1包括三个子网,每个子网分别将三个条件其中之一作为输入;在给定的这些条件下,所有三个子网都用于区分真实人脸草图y和G1生成的精细人脸草图s1
(三)所述感知损失网络PLN,用于增强人脸草图的风格特征;
采用下式定义的感知损失作为风格评估的依据:
Figure FDA0003679844100000011
利用感知损失网络去训练生成器以获得更加逼真的人脸草图;感知损失网络包括两个内容,即特征重建和风格重建;感知损失函数看作是深度CNNφ,其中,φ已针对图像或草图分类进行预训练,同时测量合成人脸草图和真实人脸草图之间的高频语义内容差异以及风格特征差;其中:
Sketch-a-Net为额外的损失网络,
Figure FDA0003679844100000012
是与域相关的损失,
Figure FDA0003679844100000013
是与域无关的损失,λ和μ分别代表两个域损失的权重;
步骤(一)中,使用包含图像-草图对{(x,y)+的训练数据集来训练G0和D0,其中x是人脸彩图,y是目标人脸草图;所述跨模态转换网络CTN使用minimax游戏
Figure FDA0003679844100000014
来拟合给定输入人脸彩图条件下真实人脸草图的条件分布;目标函数
Figure FDA00036798441000000212
定义为如下公式(1):
Figure FDA0003679844100000021
其中,z是随机噪声向量,G,D分别是生成器和辨别器网络,pdata(*)代表数据的概率分布,*~pdata(*)代表数据*所对应的pdata(*)概率分布,E*代表概率分布*的期望;所述生成器G0采用基于Pix2Pix模型的具有多层ResNet模块的网络,鉴别器D0采用一个基于块的全卷积网络;生成器G0生成大小为256×256像素的基本人脸草图;将原始人脸彩图及其对应的基本人脸草图进行逐通道级联,作为鉴别器D0的输入;由G0生成基本人脸草图;
所述单模态优化网络URN中,引人一个跨关系相关性模块,记为ARCM,用来反应输入图像之间的相关性;具体来说,G1不仅以人脸彩图及其对应的基本人脸草图作为输入,还考虑人脸彩图与其基本人脸草图之间的相关性,即在这两个输入之间建立跨关系相关性作为G1的额外输入;
设x和y表示输入图像即人脸彩图及其对应的人脸草图;
Figure FDA00036798441000000213
Figure FDA00036798441000000214
分别代表对输入图像x和y的卷积运算,其结果与跨关系相关性模块(ARCM)的结果经拼接后作为G1的输入;
通过引入ARCM,使得生成器和鉴别器都能有效建立输入人脸彩图和与其对应的基本人脸草图之间的相关性;
将前面的卷积层
Figure FDA0003679844100000022
Figure FDA0003679844100000023
输出的图像和草图特征分别定义为
Figure FDA0003679844100000024
Figure FDA0003679844100000025
C为特征的通道数,N为特征的宽高乘积;对于图像I,首先将x和y分别转换为两个特征空间f和k,其中f(x)=Wfx,k(y)=Wky;草图和图像之间的相关性表示为如下公式(2):
Figure FDA0003679844100000026
其中,
Figure FDA0003679844100000027
表示ARCM模型在合成时第j个区域与第i个位置建立的相关性程度;ARCM的图像特征输出是相关性掩码和所映射的输入特征图之间的逐元素乘积;由此,将ARCM的图像特征结果定义为
Figure FDA0003679844100000028
Figure FDA0003679844100000029
定义为如下公式(3)所示:
Figure FDA00036798441000000210
其中,
Figure FDA00036798441000000211
是学习到的权重值;
将ARCM的图像特征图输出乘以一个比例参数,然后与输入特征图进行加和;最终图像相关性特征表示为如下公式(4):
xcorrelation=x+γ(x) (4)
其中,γ是可学习的比例参数,且在训练初始时设置为0;网络首先学习原始特征,然后在学习过程中逐渐增加相关性特征的权重;
与图像相似,对于人脸草图S,首先将x和y分别转换为两个不同的特征空间q和g,其中q(y)=Wqy,g(x)=Wgx,且图像与草图之间的相关性计算公式表示为如下公式(5):
Figure FDA0003679844100000031
其中,
Figure FDA0003679844100000032
表示ARCM模型在合成时第j个区域与第i个位置建立的相关性程度;
ARCM的草图特征输出是相关性掩码和所映射的输入特征图之间的逐元素乘积;由此,将ARCM的草图特征结果定义为
Figure FDA0003679844100000033
Figure FDA0003679844100000034
为如下公式(6):
Figure FDA0003679844100000035
其中,
Figure FDA0003679844100000036
是学习到的权重值;
与图像相关性输出类似,将ARCM的草图特征图输出乘以一个比例参数,然后与输入特征图进行加和;因此,最终草图相关性特征可计算为如下公式(7):
ycorrelation=y+δ(y) (7)
其中,δ是可学习的比例参数,在训练初始时设置为0;
经过上述处理,得到图像和草图之间的相关性;相关性信息与原始草图和图像特征连接在一起,送入至下一层。
2.根据权利要求1所述的基于条件增强生成对抗网络的人脸草图合成系统,其特征在于,步骤(二)中,辨别器目标函数
Figure FDA0003679844100000037
定义为如下公式(11):
Figure FDA0003679844100000038
Figure FDA0003679844100000039
Figure FDA00036798441000000310
Figure FDA00036798441000000311
其中,α、β和λ分别代表三个辨别器的权重;
在上述条件下,三个子网络旨在区分真实人脸草图y和G1生成的精细人脸草图s1;目标函数
Figure FDA00036798441000000312
定义为如下公式(12):
Figure FDA00036798441000000313
Figure FDA0003679844100000041
其中,z是随机噪声向量;其中D代表D1的三个子网,每个子网都和G1进行极小极大游戏。
3.根据权利要求2所述的基于条件增强生成对抗网络的人脸草图合成系统,其特征在于,步骤(三)中,所述增强人脸草图的风格特征的流程为;
(3.1)特征重建损失
除使合成人脸草图s1在像素级别的L1距离上接近于真实人脸草图y之外,也使其拥有和φ的输出特征表示相似的特征表示;φj(x*)表示第j层大小为Cj×Hj×Wj的输出特征图,其中x*为s1或y;输出特征图φj(s1)和φj(y)之间欧几里德距离的平方看作是第j层的特征重建损失,如公式(14)所示:
Figure FDA0003679844100000042
利用这种特征重建损失函数,在语义感知水平上,使得合成人脸草图s1与目标人脸草图y相似;
(3.2)风格重建损失
为在优化生成器时将草图风格考虑在内,引入风格重建损失来惩罚风格展现中s1和y之间的差异细节,包括颜色、纹理、通用图案等;
与特征重建损失相似,来自φ的特征图用于计算合成人脸草图s1或目标草图y的风格表示;公式(15)展示在Gram矩阵
Figure FDA0003679844100000043
中c行和c′列处元素的计算,Gram矩阵
Figure FDA0003679844100000044
即Cj×Cj矩阵,其中c,c′∈{1,…,Cj},h∈{1,…,Hj},w∈{1,…,Wj};
Figure FDA0003679844100000045
其中,φj(x)解释为Hj×Wj网格,每个网格点具有Cj维特征;当将网格中的每个点视为单独样本时,
Figure FDA0003679844100000046
与特征的非中心协方差成正比,并给出哪些相关特征倾向于一起被激活的信息;s1的Gram矩阵Gj(s1)与y的Gram矩阵Gj(y)之差的平方Frobenius范数看作是第j层的风格重建损失,定义为如下公式(16):
Figure FDA0003679844100000047
这里,针对s1和y提取来自VGG19网络五个不同层的特征图;如公式(17)所示,最终的风格重构损失
Figure FDA0003679844100000048
通过将每一层的单个损失相加而获得,其中λj是第j层的权重;如公式(18)所示,采用相似的方式获得最终特征重建损失
Figure FDA0003679844100000051
其中μj是第j层的权重;如公式(19)所示,将上述两个损失函数结合起来,形成VGG19损失网络的最终感知损失,其中λc和λs是两个平衡因子;
Figure FDA0003679844100000052
Figure FDA0003679844100000053
Figure FDA0003679844100000054
(3.3)与域相关的损失和与域无关的损失
引入一个损失网络Sketch-a-Net来考察草图的视觉细节;Sketch-a-Net是在从ImageNet数据集中提取的边缘图和TU-Berlin数据集上进行草图预训练分类;TU-Berlin包含真实且精心绘制的草图,基于此Sketch-a-Net可更好地捕获草图深度视觉特征;与VGG19一致,提取来自Sketch-a-Net五个不同层的特征图;对于人脸草图合成,由于是在草图域中对Sketch-a-Net进行预训练,因此
Figure FDA0003679844100000055
是与域相关的损失;VGG19在图像域中进行预训练,
Figure FDA0003679844100000056
是与域无关的损失;将与域相关的损失和与域无关的损失集成在所提出的模型中;最终,新感知损失定义为如下公式(20):
Figure FDA0003679844100000057
其中,λ和μ分别代表两个域损失的权重。
4.根据权利要求3所述的基于条件增强生成对抗网络的人脸草图合成系统,其特征在于,步骤(三)中,对于公式(2)中的单模态优化网络(URN)损失,通过添加L1损失和感知损失得到改进;新损失函数不仅保证合成草图的质量,而且增强其语义和风格特征,并在训练中表现得更加稳定;公式(21)定义训练URN的完整目标函数,其中μ和λ是两个平衡因子:
Figure FDA0003679844100000058
CN202010204393.3A 2020-03-21 2020-03-21 基于条件增强生成对抗网络的人脸草图合成系统 Active CN111489405B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010204393.3A CN111489405B (zh) 2020-03-21 2020-03-21 基于条件增强生成对抗网络的人脸草图合成系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010204393.3A CN111489405B (zh) 2020-03-21 2020-03-21 基于条件增强生成对抗网络的人脸草图合成系统

Publications (2)

Publication Number Publication Date
CN111489405A CN111489405A (zh) 2020-08-04
CN111489405B true CN111489405B (zh) 2022-09-16

Family

ID=71794400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010204393.3A Active CN111489405B (zh) 2020-03-21 2020-03-21 基于条件增强生成对抗网络的人脸草图合成系统

Country Status (1)

Country Link
CN (1) CN111489405B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861805B (zh) * 2021-03-17 2023-07-18 中山大学 一种基于内容特征和风格特征的人脸图像生成方法
CN113112572B (zh) * 2021-04-13 2022-09-06 复旦大学 基于隐空间搜索的手绘草图引导的图像编辑方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109584325A (zh) * 2018-10-30 2019-04-05 河北科技大学 一种基于u型周期一致对抗网络的动漫图像的双向色彩化方法
CN110111236A (zh) * 2019-04-19 2019-08-09 大连理工大学 基于渐进式对抗生成网络的多目标草图生成图像的方法
CN110147797A (zh) * 2019-04-12 2019-08-20 中国科学院软件研究所 一种基于生成式对抗网络的草图补全与识别方法和装置
CN110659727A (zh) * 2019-09-24 2020-01-07 中国科学技术大学 一种基于草图的图像生成方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109584325A (zh) * 2018-10-30 2019-04-05 河北科技大学 一种基于u型周期一致对抗网络的动漫图像的双向色彩化方法
CN110147797A (zh) * 2019-04-12 2019-08-20 中国科学院软件研究所 一种基于生成式对抗网络的草图补全与识别方法和装置
CN110111236A (zh) * 2019-04-19 2019-08-09 大连理工大学 基于渐进式对抗生成网络的多目标草图生成图像的方法
CN110659727A (zh) * 2019-09-24 2020-01-07 中国科学技术大学 一种基于草图的图像生成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Semantically Tied Paired Cycle Consistency for Zero-Shot Sketch-Based Image Retrieval;Anjan Dutta等;《IEEE》;20200109;论文正文 *
Towards sketch-based image retrieval with deep cross-modal correlation learning;zhang yuejie等;《IEEE》;20170831;论文正文 *
基于条件生成对抗网络的手绘图像检索;刘玉杰等;《计算机辅助设计与图形学学报》;20171231;论文正文 *

Also Published As

Publication number Publication date
CN111489405A (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
CN108537743B (zh) 一种基于生成对抗网络的面部图像增强方法
Hu et al. Learning supervised scoring ensemble for emotion recognition in the wild
Pan et al. Loss functions of generative adversarial networks (GANs): Opportunities and challenges
Li et al. Linestofacephoto: Face photo generation from lines with conditional self-attention generative adversarial networks
Lin et al. Exploring explicit domain supervision for latent space disentanglement in unpaired image-to-image translation
CN111242238B (zh) 一种rgb-d图像显著性目标获取的方法
CN107154023A (zh) 基于生成对抗网络和亚像素卷积的人脸超分辨率重建方法
CN111696028A (zh) 真实场景图像卡通化的处理方法、装置、计算机设备和存储介质
CN104268593A (zh) 一种小样本情况下多稀疏表示的人脸识别方法
Zhang et al. Random reconstructed unpaired image-to-image translation
Wang et al. Deeply supervised face completion with multi-context generative adversarial network
Baek et al. Generative adversarial ensemble learning for face forensics
CN111489405B (zh) 基于条件增强生成对抗网络的人脸草图合成系统
Chen et al. Engineering deep representations for modeling aesthetic perception
Liu et al. Overview of image inpainting and forensic technology
Liu et al. Modern architecture style transfer for ruin or old buildings
Wang et al. An interconnected feature pyramid networks for object detection
Yang et al. A multi-domain and multi-modal representation disentangler for cross-domain image manipulation and classification
Cong et al. Multi-Projection Fusion and Refinement Network for Salient Object Detection in 360$^{\circ} $ Omnidirectional Image
Qin et al. Virtual reality video image classification based on texture features
Zheng et al. Instance map based image synthesis with a denoising generative adversarial network
CN116664435A (zh) 一种基于多尺度人脸解析图融入的人脸复原方法
Watanabe et al. Generative adversarial network including referring image segmentation for text-guided image manipulation
Bende et al. VISMA: A Machine Learning Approach to Image Manipulation
Khan et al. Face recognition via multi-level 3D-GAN colorization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant