CN111489405A

CN111489405A - 基于条件增强生成对抗网络的人脸草图合成系统

Info

Publication number: CN111489405A
Application number: CN202010204393.3A
Authority: CN
Inventors: 张玥杰; 王燕飞
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2020-03-21
Filing date: 2020-03-21
Publication date: 2020-08-04
Anticipated expiration: 2040-03-21
Also published as: CN111489405B

Abstract

本发明属于跨媒体图像翻译技术领域，具体为基于条件增强生成对抗网络的人脸草图合成系统。本发明采用条件增强生成对抗网络，用于人脸草图合成，可提供更好的适应性；所述条件增强生成对抗网络由三个相互交互的子网络组成；所述三个子网络为用于基本人脸草图合成的跨模态转换网络、用于改进人脸草图合成的单模态优化网络、用于增强人脸草图风格的感知损失网络；条件增强生成对抗网络旨在从第一阶段子网和原始照片/图像中继承更多有关基本人脸草图的视觉信息，并探索更多有效的视觉内容，以解决在高分辨率人脸草图生成过程中丢失的细节视觉表达和图像草图之间的关联性问题。

Description

基于条件增强生成对抗网络的人脸草图合成系统

技术领域

本发明属于跨媒体图像翻译技术领域，具体涉及基于条件增强生成对抗网络(CE-GAN)的人脸草图合成系统。

背景技术

随着可收集到的人脸图像数据数量呈爆炸性增长，社会对寻找或识别与特定个体有关的人脸信息需求呈现出不断增长的趋势。对于执法机构，当警察试图侦察刑事案件或者逮捕犯罪嫌疑人时，他们通常希望借助犯罪嫌疑人的人脸特征、甚至人脸照片来快速锁定犯罪嫌疑人。然而，在现实世界中，通常很难直接获得犯罪嫌疑人的人脸照片。针对该问题，现有的解决方法是，在一些专业软件或专家的帮助下，根据目击者的有限描述信息生成此类“人脸照片”。通常称这些“人脸照片”为合成的人脸草图。人脸草图合成是一项重要技术，旨在从大规模人脸照片/图像集中自动合成人脸草图。人脸草图合成技术也可应用在计算机视觉领域中，以检测出在图像/视频中出现的人物个体，帮助完成个体身份检索和识别任务。此外，在艺术数字多媒体领域，人脸草图合成也变得越来越流行。例如，人脸草图合成技术可以帮助动画师更快地合成动画草图，从而减少其工作量。随着移动设备和社交网络的普及，人脸草图还被用作个人照片或肖像。因此，如何整合各种人脸信息源以实现准确的人脸草图合成一直是相关领域研究的热点。

与图像相比，手绘草图极其抽象，主要由简单线条组成，缺少纹理、颜色、及其它有效信息。这类特性使得草图和图像之间产生很大模态差异。尽管近年来学者们对人脸草图合成技术已开展广泛研究，用来增强草图与照片/图像之间的匹配度。但由于上述模态差异，人脸草图合成领域仍需开展更多的研究工作来寻求最佳解决方案。最近，部分学者提出一系列基于卷积神经网络(Convolutional Neural Network,CNN)的方法来解决此类图像到草图的翻译问题。这些方法可从照片/图像直接生成草图，同时保留其主要结构和内容。但这些方法也存在一个显著问题，即目标草图缺少风格特征。随着研究的广泛开展，生成对抗网络(Generative Adversarial Network,GAN)和变异自动编码器(VariationalAutoencoder,VAE)已显示出其强大的生成能力，并在类似的特定生成任务中展示出优异结果。特别是，一些最新研究将带条件图像生成任务视为图像到图像的翻译任务，并使用成对/不成对的数据，通过无监督/有监督等不同方法来完成生成任务。现有的研究工作已取得初步成果，这为人脸草图合成中图像到草图的翻译任务提供坚实的基础。但现有方法也存在一些问题，如产生的草图分辨率低、可能会丢失图像全局结构中的某些细节信息和局部纹理信息等。随着像素空间中维度的增加，很难训练出一个GAN来生成高分辨率的逼真图像/草图，因为GAN无法很好地适应高分辨率自然图像的分布。与具有大规模训练数据的自然图像合成不同，人脸草图合成由于难以获得大规模人脸草图训练数据而缺乏有效的监督信息。

为应对上述挑战，本发明提出一种具有条件增强GAN(CE-GAN)的高质量人脸草图合成系统，用来支持更加有效的人脸图像和草图之间的匹配和搜索工作。在给定小规模训练数据集作为监督信息的条件下，有效利用已有监督信息并增强模型对未知数据集的拟合能力非常重要。正如前面所讨论，如何整合与利用多个视觉信息源来进行人脸草图合成仍是一个具有挑战性的话题。由于模态差异，很难提供一种通用方法来评估草图和图像之间的相互关系。本发明所提出的条件增强GAN(CE-GAN)高质量人脸草图合成系统，有效采用从粗糙到精细的生成模式和样式增强设计，提高模型的拟合能力；通过构建最佳的图像到草图合成模式，为融合粗粒度和细粒度的视觉信息提供坚实基础。

发明内容

本发明针对现有人脸草图合成系统中合成结果质量较低、且可能会丢失图像全局结构中某些细节信息和局部纹理信息的问题，提供一种基于条件增强生成对抗网络(CE-GAN)的人脸草图合成系统。

本发明将人脸草图合成过程定义为由粗糙到精细的图像生成过程，所提出的条件增强生成对抗网络可从粗到细对人脸草图进行合成。首先，在第一阶段使用传统的生成对抗网络为原始人脸彩图生成基本人脸草图；然后，基于原始人脸彩图和在第一阶段生成的基本人脸草图，在第二阶段采用条件增强生成对抗网络来合成更为精细的人脸草图。此外，在第二阶段中，鉴别器采用三个子网，分别将基本人脸草图和原始人脸彩图作为不同的条件，向条件增强型生成器提供更加准确的监督信号。特别引入基于草图的感知损失网络，利用特征重建损失和风格重建损失来监督生成器，从而更加有助于合成逼真的人脸草图。

本发明提供的基于条件增强生成对抗网络的人脸草图合成系统，采用条件增强生成对抗网络(记为CE-GAN)，该网络是一种多阶段优化增强网络，用于人脸草图合成，可提供更好的适应性；所述条件增强生成对抗网络由三个相互交互的子网络组成；所述三个子网络为用于基本人脸草图合成的跨模态转换网络(Cross-modal Transfer Network,简记为CTN)、用于改进人脸草图合成的单模态优化网络(Unimodal Refinement Network,简记为URN)、用于增强人脸草图风格的感知损失网络(Perceptual Loss Network，简记为PLN)。条件增强生成对抗网络旨在从第一阶段子网和原始照片/图像中继承更多有关基本人脸草图的视觉信息，并探索更多有效的视觉内容，有助于解决在高分辨率人脸草图生成过程中丢失的细节视觉表达和图像草图之间的关联性问题。其中：

(一)所述跨模态转换网络(CTN)，用于图像到图像的翻译，生成基本人脸草图；该草图保留原始人脸彩图中的主要轮廓；CTN由生成器G₀和鉴别器D₀两个模块组成；G₀用于将人脸彩图转换为人脸草图，D₀用于区分真实人脸草图和G₀中翻译的结果，帮助G₀生成更逼真的人脸草图。

使用包含图像-草图对{(x,y)}的训练数据集来训练G₀和D₀，其中x是人脸彩图，y是目标人脸草图。本发明中的跨模态转换网络(CTN)使用生成对抗网络中常用的minimax游戏

来拟合给定输入人脸彩图条件下真实人脸草图的条件分布。目标函数

定义为如下公式(1)：

其中，z是随机噪声向量。G,D分别是生成器和辨别器网络，p_data(*)代表数据的概率分布，*～p_data(*)代表数据*所对应的p_data(*)概率分布，E_*代表概率分布*的期望；被用作所述生成器G₀采用基于Pix2Pix模型的具有多层ResNet模块[1]的网络，鉴别器D₀采用一个基于块的全卷积网络。生成器G₀生成大小为256×256像素的基本人脸草图。将原始人脸彩图及其对应的基本人脸草图进行逐通道级联，作为鉴别器D₀的输入。仅通过这一阶段生成，由G₀生成的基本人脸草图可能会遇到一些问题，如外观模糊、缺少面部细节或草图风格。因此，需要通过一个再生过程，利用更多可用与有益的信息来减轻上述问题，以获得更好的结果。

(二)所述单模态优化网络(URN)，用于改进跨模态转换网络(CTN)合成的基本人脸草图。作为CE-GAN的核心部分，URN包括一个条件增强生成器和一个多条件增强辨别器，分别用G₁和D₁表示。

(1)条件增强生成器G₁，以基本人脸草图及与其相应的原始人脸彩图作为输入，生成具有更多局部细节的精细人脸草图。

传统生成对抗网络GAN中生成器的输入只是一幅图像，当输入图像的数量超过一幅时，将输入图像进行简单串联，然后再输入至生成器中，如图2(a)所示。这种简单的串联方法未将输入图像之间的相关性考虑在内。而本发明提出一个跨关系相关性模块，记为ARCM，用来反应输入图像之间的相关性。具体来说，G₁不仅以人脸彩图及其对应的基本人脸草图作为输入，还考虑人脸彩图与其基本人脸草图之间的相关性，即在这两个输入之间建立跨关系相关性作为G₁的额外输入，如图2(b)所示。

设x和y表示输入图像(即人脸彩图及其对应的人脸草图)；

和

分别代表对输入图像x和y的卷积运算，其结果与跨关系相关性模块(ARCM)的结果经拼接后作为G₁的输入。

本发明将ARCM引入GAN框架，使得生成器和鉴别器都能有效建立输入人脸彩图和与其对应的基本人脸草图之间的相关性。如图3所示。

本发明将前面的卷积层

和

输出的图像和草图特征分别定义为

和

C为特征的通道数，N为特征的宽高乘积。对于图像I，首先将x和y分别转换为两个特征空间f和k，其中f(x)＝W_fx，k(y)＝W_ky。草图和图像之间的相关性可表示为如下公式(2)：

其中，

表示ARCM模型在合成时第j个区域与第i个位置建立的相关性程度。ARCM的图像特征输出是相关性掩码和所映射的输入特征图之间的逐元素乘积。由此，将ARCM的图像特征结果定义为

而

定义为如下公式(3)所示：

其中，

是学习到的权重值。

受SAGAN[2]的启发，本发明将ARCM的图像特征图输出乘以一个比例参数，然后与输入特征图进行加和。因此，最终图像相关性特征可表示为如下公式(4)：

x^correlation＝x+γ(x) (4)

其中，γ是可学习的比例参数，且在训练初始时设置为0。网络首先学习原始特征，然后在学习过程中逐渐增加相关性特征的权重。

与图像相似，对于人脸草图S，首先将x和y分别转换为两个不同的特征空间q和g，其中q(y)＝W_qy，g(x)＝W_gx，且图像与草图之间的相关性计算公式可表示为如下公式(5)：

其中，

表示ARCM模型在合成时第j个区域与第i个位置建立的相关性程度。

ARCM的草图特征输出是相关性掩码和所映射的输入特征图之间的逐元素乘积。由此，将ARCM的草图特征结果定义为

而

为如下公式(6)：

其中，

是学习到的权重值。

与图像相关性输出类似，将ARCM的草图特征图输出乘以一个比例参数，然后与输入特征图进行加和。因此，最终草图相关性特征可计算为如下公式(7)：

y^c°rrelation＝y+δ(y) (7)

其中，δ是可学习的比例参数，在训练初始时设置为0。

在所有实验中，本发明使用卷积核大小为1×1的卷积来实现变换函数，并且将

作为超参数配置。

经过上述处理，得到图像和草图之间的相关性。相关性信息与原始草图和图像特征连接在一起，送入至下一层。

(2)多条件增强辨别器D₁，

为训练G₁能够合成出精细的人脸草图，多条件增强辨别器D₁应该经过精心设计以考虑到所有可能的信息，向G₁提供更多有用的指导信号。当前可以用作D₁的条件信息包括从G₀生成的基本草图s₀和原始人脸彩色图像x。因此，D₁可使用三种信息为条件，即(x)、(s₀)和(x,s₀)。为利用这些条件信息，D₁包括三个子网，每个子网分别将三个条件其中之一作为输入。在给定的这些条件下，所有三个子网都试图区分真实人脸草图y和G₁生成的精细人脸草图s₁。辨别器目标函数

可以定义为如下公式(11)：

其中，α、β和λ分别代表三个辨别器的权重。

(3)条件增强GAN

本发明中的再生成方案整合了从生成器G₀到G₁的各种视觉信息源。后面的生成器从草图和图像的不同模态接收更多有价值的视觉信息，这样可获得展现出更多视觉细节的合成人脸草图。同时，以多个输入为条件的辨别器子网络可进一步区分更精细的生成结果，并指导生成器合成更令人满意的人脸草图。通过这三个子网，D₁可向G₁提供更多的监督信号(梯度)，不仅提高合成人脸草图的质量，而且加快G₁的训练过程。值得注意的是，生成器的缓慢收敛和辨别器的快速收敛将导致不稳定的训练过程，甚至造成无法收敛。本发明的单模态优化网络(URN)中多条件增强辨别器可在某种程度上缓解这一问题。

在上述条件下，三个子网络旨在区分真实人脸草图y和G₁生成的精细人脸草图s₁。因此，目标函数

可定义为如下公式(12)：

其中，z是随机噪声向量。需要说明的是，D代表D₁的三个子网，每个子网都可和G₁进行极小极大(minimax)游戏。

(三)所述感知损失网络(PLN)，用于增强人脸草图的风格特征。

尽管可通过由粗糙到精细的生成方法来减轻丢失人脸草图重要视觉细节的问题，但这种方法仍存在另一个问题，即与手绘人脸草图相比，合成人脸草图缺乏足够的草图风格特征。在实际中，发现公式(13)的L1距离,可比L2距离产生更高分辨率的结果。然而，这常常导致合成人脸草图中缺乏高频和语义内容，且不能实现较高的峰值信噪比(PeakSignal-to-Noise Ratio,PSNR)。PSNR太低会使草图纹理在感觉上太平滑，从而导致缺少目标模态的风格特征。因此，L1距离不是风格评估的最佳选择，L1距离在如下公式(13)中定义：

为增强G₁合成的人脸草图带有的风格特征，本发明利用感知损失网络去训练生成器以获得更加逼真的人脸草图。作为条件增强生成对抗网络(CE-GAN)的另一个核心部分，感知损失网络涉及两个内容，即特征重建和风格重建。感知损失函数可看作是深度CNNφ，其中φ已针对图像或草图分类进行预训练，同时测量合成人脸草图和真实人脸草图之间的高频语义内容差异以及风格特征差；

(3.1)特征重建损失

除使合成人脸草图s₁在像素级别的L1距离上接近于真实人脸草图y之外，也使其拥有和φ的输出特征表示相似的特征表示。φ_j(x^*)表示第j层大小为C_j×H_j×W_j的输出特征图，其中x^*可为s₁或y。输出特征图φ_j(s₁)和φ_j(y)之间欧几里德距离的平方可看作是第j层的特征重建损失，如公式(14)所示：

较低层的特征重建损失会迫使生成器在颜色、纹理和形状视觉上类似于目标人脸草图，从而有助于生成更加逼真的人脸草图。较高层的特征重建损失可保留高频内容和整体空间结构。利用这种特征重建损失函数，可在语义感知水平上，使得合成人脸草图s₁与目标人脸草图y相似。

(3.2)风格重建损失

特征重建损失有助于减小合成人脸草图s₁与目标草图y之间的视觉鸿沟。但手绘人脸草图通常由流线型线条组成，并具有特定的风格样式。为在优化生成器时将草图风格考虑在内，本发明引入风格重建损失来惩罚风格展现中s₁和y之间的差异细节，如颜色、纹理、通用图案等。

与特征重建损失相似，来自φ的特征图用于计算合成人脸草图s₁或目标草图y的风格表示。公式(15)展示在Gram矩阵

((即C_j×C_j矩阵)中c行和c′列处元素的计算，其中c,c′∈{1,…,C_j}，h∈{1,…,H_j}，w∈{1,…,W_j}。

其中，φ_j(x)解释为H_j×W_j网格，每个网格点具有C_j维特征。当将网格中的每个点视为单独样本时，

与特征的非中心协方差成正比，并给出哪些相关特征倾向于一起被激活的信息。s₁的Gram矩阵G_j(s₁)与y的Gram矩阵G_j(y)之差的平方Frobenius范数可看作是第j层的风格重建损失，定义为如下公式(16)：

这里，针对s₁和y提取来自VGG19网络五个不同层的特征图。如公式(17)所示，最终的风格重构损失

通过将每一层的单个损失相加而获得，其中λ_j是第j层的权重。如公式(18)所示，采用相似的方式获得最终特征重建损失

其中μ_j是第j层的权重。如公式(19)所示，将上述两个损失函数结合起来，形成VGG19损失网络的最终感知损失，其中λ_c和λ_s是两个平衡因子。

(3.3)与域相关的损失和与域无关的损失

由于VGG19损失网络已在ImageNet上进行预训练，因此其只能捕获彩色图像中对象的特征。若仅将VGG19感知损失用于人脸草图合成可能会丢失草图的许多关键特征。因此，本发明引入一个额外的损失网络Sketch-a-Net来考察草图的视觉细节。Sketch-a-Net是在从ImageNet数据集中提取的边缘图和TU-Berlin数据集上进行草图预训练分类。特别是，TU-Berlin包含真实且精心绘制的草图，基于此Sketch-a-Net可更好地捕获草图深度视觉特征。与VGG19一致，本发明提取来自Sketch-a-Net五个不同层的特征图。对于人脸草图合成，由于是在草图域中对Sketch-a-Net进行预训练，因此

是与域相关的损失。VGG19在图像域中进行预训练，

是与域无关的损失。与之前的只使用与域相关的损失图像合成方法不同，本发明将与域相关的损失和与域无关的损失集成在所提出的模型中。最终，新感知损失可定义为如下公式(20)：

其中，λ和μ分别代表两个域损失的权重。

域相关的损失可保证合成草图的语义特征和风格特征的质量。鉴于缺少用于人脸草图合成的必要监督信息，本发明通过引入与域无关的损失来增添额外的监督信息，从而使模型更好地拟合高质量草图的分布。

(3.4)改进的对抗损失

公式(2)中的单模态优化网络(URN)损失，可通过添加L1损失和感知损失得到改进。本发明中的新损失函数不仅保证合成草图的质量，而且增强其语义和风格特征，并在训练中表现得更加稳定。公式(21)定义训练URN的完整目标函数，其中μ和λ是两个平衡因子。应该注意的是，L1损失和感知损失并不用于指导辨别器D的训练。

本发明将特定条件作为有益的监督信息引入网络训练过程，对条件增强生成器和条件增强鉴别器进行专门设计。与传统的生成器结构不同，条件增强生成器可继承不同的信息源，并在现有条件下利用附加信息生成更为真实的结果。条件增强鉴别器利用三个子网络将细化合成的人脸草图与真实人脸草图区分开。这种设计方法不仅加速生成过程，且提高生成质量。

增强人脸草图风格的感知损失网络，用于进一步增强生成信息的获取。该损失网络是由两个子网组成，即与域相关的网络和与域无关的网络。与传统基于图像的感知损失网络(仅关注合成结果与目标图像之间的特征重建误差)不同，本发明所构建的感知损失网络同时关注重建人脸草图语义和人脸草图风格的误差，有效减轻局部细节失真问题，并减缓缺乏针对目标人脸草图的风格特点所带来的负面效果。

本发明所提出的方法，目标集中在为草图和图像之间进行关联性建模，并学习跨越两个模态之间的转化过程。因此，对于给定的输入人脸彩图，可以返回合成的高质量人脸草图，且带有真实人脸草图的风格特点。本发明在公开数据源上的实验已取得非常积极的效果。

在本发明中，所提出的方法目标集中在为草图和图像之间进行相关性建模，并学习跨越两个模态之间的转化过程。因此，对于给定的输入人脸彩图，可返回合成的高质量人脸草图，并带有真实人脸草图的风格特点。本发明在公开数据源上的实验取得非常积极的效果。

附图说明

图1是本发明的框架图。

图2为传统生成对抗网络GAN中的生成器(a)与本发明的URN-GAN中生成器(b)之间的对比示意。

图3为跨关系相关性模块(ARCM)示意。其中，

表示矩阵乘法。

图4为用于增强风格的感知损失网络示意。其中，五个特征层用于计算特征重建损失和风格重建损失。

具体实施方式

下面详细介绍本发明的具体实现细节。

(一)基本草图生成(Stage-1)阶段

使用跨模态转换网络(CTN)生成基本草图，用户输入原始人脸彩图，用CTN网络中训练好的生成器G₀生成基本人脸草图，这一阶段减缓草图和彩图之间的视觉模态差异；

(二)精细草图生成(Stage-2)阶段

使用单模态优化网络(URN)来细化增强基本人脸草图。这一阶段的输入包括Stage-1阶段生成的基本人脸草图和用户输入的原始人脸彩图。URN网络中训练好的生成器G₁利用这两种输入信息，合成精细人脸草图。单URN可融合基本人脸草图和原始人脸彩图中的有用信息。同时，该阶段模型还采用一个感知损失网络来缩小合成草图和目标草图之间的风格差异。

在本发明的模型中，采用LSGAN来训练。公式(11)中的α、β和γ分别设置为0.01、0.01和1，而公式(21)中的μ和λ值全部设置为200。所有输入图像的大小均调整为256×256像素，并进行随机翻转来进行数据增强。本发明采用Adam作为模型训练的优化器。在整体训练过程开始之前，对模型中的所有生成器进行单独训练。采用与PS2-MAN中相同的数据划分方式，具体而言，在CUHK student数据集中，分别使用60、28和100个人脸草图对进行训练、验证和测试；在AR数据集中，分别使用80、20和23个人脸草图对进行训练、验证和测试；在CUFSF数据集中，分别使用600、297和297个人脸草图对进行训练、验证和测试。此外，CUFSF数据集中的所有图像都被裁剪为200×250像素的大小，并将图像中人物眼睛的中心对准在固定的位置。

本发明虽然以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改，因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。

参考文献

[1]P.Isola,J.-Y.Zhu,T.Zhou,and A.A.Efros,“Image-to-image translationwith conditional adversarial networks,”in Proceedings ofCVPR 2017,2017,pp.1125–1134.

[2]H.Zhang,I.Goodfellow,D.Metaxas,and A.Odena,“Self-attentiongenerative adversarial networks,”arXiv preprint arXiv:1805.08318,2018.。

Claims

1.一种基于条件增强生成对抗网络的人脸草图合成系统，其特征在于，采用条件增强生成对抗网络，记为CE-GAN，该网络是一种多阶段优化增强网络，用于人脸草图合成，可提供更好的适应性；所述条件增强生成对抗网络由三个相互交互的子网络组成；所述三个子网络为用于基本人脸草图合成的跨模态转换网络CTN、用于改进人脸草图合成的单模态优化网络URN、用于增强人脸草图风格的感知损失网络PLN；条件增强生成对抗网络旨在从第一阶段子网和原始照片/图像中继承更多有关基本人脸草图的视觉信息，并探索更多有效的视觉内容，以解决在高分辨率人脸草图生成过程中丢失的细节视觉表达和图像草图之间的关联性问题；其中：

(一)所述跨模态转换网络CTN，用于图像到图像的翻译，生成基本人脸草图；该草图保留原始人脸彩图中的主要轮廓；CTN由生成器G₀和鉴别器D₀两个模块组成；G₀用于将人脸彩图转换为人脸草图，D₀用于区分真实人脸草图和G₀中翻译的结果，帮助G₀生成更逼真的人脸草图；

(二)所述单模态优化网络URN，用于改进跨模态转换网络CTN合成的基本人脸草图；作为CE-GAN的核心部分，URN包括一个条件增强生成器和一个多条件增强辨别器，分别用G₁和D₁表示；

(1)条件增强生成器G₁，以基本人脸草图及与其相应的原始人脸彩图作为输入，生成具有更多局部细节的精细人脸草图；

(2)多条件增强辨别器D₁，考虑到所有可能的信息而精心设计，能向G₁提供更多有用的指导信号；所述D₁使用三种信息为条件，即(x)、(s₀)和(x,s₀)；s₀为G₀生成的基本草图，x为原始人脸彩色图像；为利用这些条件信息，D₁包括三个子网，每个子网分别将三个条件其中之一作为输入；在给定的这些条件下，所有三个子网都用于区分真实人脸草图y和G₁生成的精细人脸草图s₁；

(三)所述感知损失网络PLN，用于增强人脸草图的风格特征；

采用下式定义的感知损失作为风格评估的依据：

利用感知损失网络去训练生成器以获得更加逼真的人脸草图；感知损失网络包括两个内容，即特征重建和风格重建；感知损失函数看作是深度CNNφ，其中，φ已针对图像或草图分类进行预训练，同时测量合成人脸草图和真实人脸草图之间的高频语义内容差异以及风格特征差；其中：

Sketch-a-Net为额外的损失网络，

是与域相关的损失，

是与域无关的损失，λ和μ分别代表两个域损失的权重。

2.根据权利要求1所述的基于条件增强生成对抗网络的人脸草图合成系统，其特征在于，步骤(一)中，使用包含图像-草图对{(x,y)}的训练数据集来训练G₀和D₀，其中x是人脸彩图，y是目标人脸草图；所述跨模态转换网络CTN使用minimax游戏

来拟合给定输入人脸彩图条件下真实人脸草图的条件分布；目标函数

定义为如下公式(1)：

其中，z是随机噪声向量，G,D分别是生成器和辨别器网络，p_data(*)代表数据的概率分布，*～p_data(*)代表数据*所对应的p_data(*)概率分布，E_*代表概率分布*的期望；所述生成器G₀采用基于Pix2Pix模型的具有多层ResNet模块的网络，鉴别器D₀采用一个基于块的全卷积网络；生成器G₀生成大小为256×256像素的基本人脸草图；将原始人脸彩图及其对应的基本人脸草图进行逐通道级联，作为鉴别器D₀的输入；由G₀生成基本人脸草图。

3.根据权利要求2所述的基于条件增强生成对抗网络的人脸草图合成系统，其特征在于，所述单模态优化网络(URN)中，引人一个跨关系相关性模块，记为ARCM，用来反应输入图像之间的相关性；具体来说，G₁不仅以人脸彩图及其对应的基本人脸草图作为输入，还考虑人脸彩图与其基本人脸草图之间的相关性，即在这两个输入之间建立跨关系相关性作为G₁的额外输入；

设x和y表示输入图像即人脸彩图及其对应的人脸草图；

和

分别代表对输入图像x和y的卷积运算，其结果与跨关系相关性模块(ARCM)的结果经拼接后作为G₁的输入；

通过引入ARCM，使得生成器和鉴别器都能有效建立输入人脸彩图和与其对应的基本人脸草图之间的相关性；

将前面的卷积层

和

输出的图像和草图特征分别定义为

和

C为特征的通道数，N为特征的宽高乘积；对于图像I，首先将x和y分别转换为两个特征空间f和k，其中f(x)＝W_fx，k(y)＝W_ky；草图和图像之间的相关性表示为如下公式(2)：

其中，

表示ARCM模型在合成时第j个区域与第i个位置建立的相关性程度；ARCM的图像特征输出是相关性掩码和所映射的输入特征图之间的逐元素乘积；由此，将ARCM的图像特征结果定义为

而

定义为如下公式(3)所示：

其中，

是学习到的权重值；

将ARCM的图像特征图输出乘以一个比例参数，然后与输入特征图进行加和；最终图像相关性特征表示为如下公式(4)：

x^correlation＝x+γ(x) (4)

其中，γ是可学习的比例参数，且在训练初始时设置为0；网络首先学习原始特征，然后在学习过程中逐渐增加相关性特征的权重；

与图像相似，对于人脸草图S，首先将x和y分别转换为两个不同的特征空间q和g，其中q(y)＝W_qy，g(x)＝W_gx，且图像与草图之间的相关性计算公式表示为如下公式(5)：

其中，

表示ARCM模型在合成时第j个区域与第i个位置建立的相关性程度；

ARCM的草图特征输出是相关性掩码和所映射的输入特征图之间的逐元素乘积；由此，将ARCM的草图特征结果定义为

而

为如下公式(6)：

其中，

是学习到的权重值；

与图像相关性输出类似，将ARCM的草图特征图输出乘以一个比例参数，然后与输入特征图进行加和；因此，最终草图相关性特征可计算为如下公式(7)：

y^correlation＝y+δ(y) (7)

其中，δ是可学习的比例参数，在训练初始时设置为0；

经过上述处理，得到图像和草图之间的相关性；相关性信息与原始草图和图像特征连接在一起，送入至下一层。

4.根据权利要求3所述的基于条件增强生成对抗网络的人脸草图合成系统，其特征在于，步骤(二)中，辨别器目标函数

定义为如下公式(11)：

其中，α、β和λ分别代表三个辨别器的权重；

在上述条件下，三个子网络旨在区分真实人脸草图y和G₁生成的精细人脸草图s₁；目标函数

定义为如下公式(12)：

其中，z是随机噪声向量；其中D代表D₁的三个子网，每个子网都和G₁进行极小极大游戏。

5.根据权利要求4所述的基于条件增强生成对抗网络的人脸草图合成系统，其特征在于，步骤(三)中，所述增强人脸草图的风格特征的流程为；

(3.1)特征重建损失

除使合成人脸草图s₁在像素级别的L1距离上接近于真实人脸草图y之外，也使其拥有和φ的输出特征表示相似的特征表示；φ_j(x^*)表示第j层大小为C_j×H_j×W_j的输出特征图，其中x^*为s₁或y；输出特征图φ_j(s₁)和φ_j(y)之间欧几里德距离的平方看作是第j层的特征重建损失，如公式(14)所示：

利用这种特征重建损失函数，在语义感知水平上，使得合成人脸草图s₁与目标人脸草图y相似；

(3.2)风格重建损失

为在优化生成器时将草图风格考虑在内，引入风格重建损失来惩罚风格展现中s₁和y之间的差异细节，包括颜色、纹理、通用图案等；

与特征重建损失相似，来自φ的特征图用于计算合成人脸草图s₁或目标草图y的风格表示；公式(15)展示在Gram矩阵

(即C_j×C_j矩阵)中c行和c′列处元素的计算，其中c,c′∈{1,…,C_j}，h∈{1,…,H_j}，w∈{1,…,W_j}；

其中，φ_j(x)解释为H_j×W_j网格，每个网格点具有C_j维特征；当将网格中的每个点视为单独样本时，

与特征的非中心协方差成正比，并给出哪些相关特征倾向于一起被激活的信息；s₁的Gram矩阵G_j(s₁)与y的Gram矩阵G_j(y)之差的平方Frobenius范数看作是第j层的风格重建损失，定义为如下公式(16)：

这里，针对s₁和y提取来自VGG19网络五个不同层的特征图；如公式(17)所示，最终的风格重构损失

通过将每一层的单个损失相加而获得，其中λ_j是第j层的权重；如公式(18)所示，采用相似的方式获得最终特征重建损失

其中μ_j是第j层的权重；如公式(19)所示，将上述两个损失函数结合起来，形成VGG19损失网络的最终感知损失，其中λ_c和λ_s是两个平衡因子；

(3.3)与域相关的损失和与域无关的损失

引入一个损失网络Sketch-a-Net来考察草图的视觉细节；Sketch-a-Net是在从ImageNet数据集中提取的边缘图和TU-Berlin数据集上进行草图预训练分类；TU-Berlin包含真实且精心绘制的草图，基于此Sketch-a-Net可更好地捕获草图深度视觉特征；与VGG19一致，提取来自Sketch-a-Net五个不同层的特征图；对于人脸草图合成，由于是在草图域中对Sketch-a-Net进行预训练，因此

是与域相关的损失；VGG19在图像域中进行预训练，

是与域无关的损失；将与域相关的损失和与域无关的损失集成在所提出的模型中；最终，新感知损失定义为如下公式(20)：

其中，λ和μ分别代表两个域损失的权重。

6.根据权利要求5所述的基于条件增强生成对抗网络的人脸草图合成系统，其特征在于，步骤(三)中，对于公式(2)中的单模态优化网络(URN)损失，通过添加L1损失和感知损失得到改进；新损失函数不仅保证合成草图的质量，而且增强其语义和风格特征，并在训练中表现得更加稳定；公式(21)定义训练URN的完整目标函数，其中μ和λ是两个平衡因子：