CN114359034B

CN114359034B - 一种基于手绘的人脸图片生成方法及系统

Info

Publication number: CN114359034B
Application number: CN202111598040.7A
Authority: CN
Inventors: 于茜; 于靖博
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2023-08-08
Anticipated expiration: 2041-12-24
Also published as: CN114359034A

Abstract

本发明公开了一种基于手绘的人脸图片生成方法及系统；该方法包括获取手绘人脸图像，以及手绘人脸图像对应的手绘质量置信度、属性向量和噪声向量；根据手绘质量置信度，对手绘人脸图像进行膨胀处理；根据手绘质量置信度，对膨胀处理后的手绘人脸图像进行卷积处理，获得包含手绘人脸图像信息的形状特征图；对属性向量和噪声向量进行映射处理，获得风格控制向量；对风格控制向量和形状特征图进行卷积处理，获得生成图像；通过该方法能够同时兼顾高质量手绘和低质量手绘，并生成高质量且多样性的图像。

Description

一种基于手绘的人脸图片生成方法及系统

技术领域

本发明属于计算机视觉图像生成技术领域，特别是一种基于手绘的人脸图片生成方法及系统。

背景技术

基于手绘的人脸图像生成主要为，给定一张手绘，要求模型捕捉手绘的局部和全局信息，将高维度的手绘图像映射到低维度的隐空间，再通过解码的方式，从低维度的隐向量(形状特征图)生成二维的彩色人脸图像。该任务即要求生成的图像既逼真，又需要生成的图像细节符合手绘的细节，同时还希望生成的图像具有较高的多样性。同时做到这几点需要既能够捕捉到输入手绘的细粒度细节，又需要模型能够对低质量的手绘鲁棒，是一个很具挑战的任务。

现存的大部分工作会首先使用一个编码器，将不做其它处理的手绘编码到低维度的隐空间，再通过解码器，将隐向量解码为人脸图像，同时，会有一个分辨器，来动态的判断的图片的质量。这些方法具有一定的局限：1)模型中间的隐向量表示会丢掉输入手绘的部分空间信息，使得生成的图像在局部细节上和手绘不符；2)当输入的手绘较为杂乱无章和低质量，模型的输出图像质量会变得很差，逼真度大打折扣；3)模型是固定的，一个输入的手绘只能生成一个图像，模型本身无法为生成结果增加多样性。

因此，如何生成高质量和高多样性图像，成为当前研究的关键问题。

发明内容

鉴于上述问题，本发明提供一种至少解决上述部分技术问题的一种基于手绘的人脸图片生成方法及系统，该方法能够同时兼顾高质量手绘和低质量手绘，并生成高质量且多样性的图像。

一方面，本发明实施例提供了一种基于手绘的人脸图片生成方法，包括：

S1、获取手绘人脸图像，以及所述手绘人脸图像对应的手绘质量置信度、属性向量和噪声向量；

S2、根据所述手绘质量置信度，对所述手绘人脸图像进行膨胀处理；

S3、根据所述手绘质量置信度，对膨胀处理后的手绘人脸图像进行卷积处理，获得包含手绘人脸图像信息的形状特征图；

S4、对所述属性向量和噪声向量进行映射处理，获得风格控制向量；对所述风格控制向量和所述S3中得到的形状特征图进行卷积处理，获得生成图像。

进一步地，还包括：

S5、对所述生成图像的类型和属性进行判断；所述属性包括头发颜色、性别和肤色；

S6、从所述生成图像中提取轮廓线；根据所述轮廓线和所述手绘人脸图像，计算多样性提升损失，作为所述生成图像在生成过程中的约束条件。

进一步地，所述S3具体包括：

S31、将所述手绘质量置信度映射为手绘置信度向量；

S32、基于所述手绘置信度向量，对所述膨胀处理后的手绘人脸图像进行卷积处理，并通过调制和解调制操作修改卷积层的权重，基于此获得包含手绘人脸图像信息的形状特征图。

进一步地，所述S4具体包括：

S41、对所述属性向量进行映射处理，并将映射处理后的属性向量与所述噪声向量进行串联，获得串联向量；

S42、对所述串联向量进行映射处理，获得风格控制向量；

S43、对所述S3中得到的形状特征图进行卷积处理，并由所述风格控制向量进行调制和解调制操作修改卷积层的权重，基于此获得生成图像。

第二方面，本发明实施例提供了一种基于手绘的人脸图片生成系统，包括：获取模块、手绘控制模块和属性控制模块；

所述获取模块，用于获取手绘人脸图像，以及所述手绘人脸图像对应的手绘质量置信度、属性向量和噪声向量；

所述手绘控制模块，用于根据所述手绘质量置信度，对所述手绘人脸图像进行膨胀处理；以及根据所述手绘质量置信度，对膨胀处理后的手绘人脸图像进行卷积处理，获得包含手绘人脸图像信息的形状特征图；

所述属性控制模块，用于对所述属性向量和噪声向量进行映射处理，获得风格控制向量；对所述形状特征图进行卷积处理，并由所述风格控制向量进行调制和解调制操作修改卷积层的权重，获得生成图像。

进一步地，还包括多样性提升模块；所述多样性提升模块包括鉴别器和多样性提升网络子模块；

所述鉴别器，用于对所述生成图像的类型和属性进行判断；所述属性包括头发颜色、性别和肤色；

所述多样性提升网络子模块，用于从所述生成图像中提取轮廓线；根据所述轮廓线和所述手绘人脸图像，计算多样性提升损失，作为所述生成图像在生成过程中的约束条件。

进一步地，所述手绘控制模块包括第一MLP网络子模块和编码器；

所述第一MLP网络子模块，用于将所述手绘质量置信度映射为手绘置信度向量；

所述编码器，用于基于所述手绘置信度向量，对所述膨胀处理后的手绘人脸图像进行卷积处理，并通过调制和解调制操作修改卷积层的权重，基于此获得包含手绘人脸图像信息的形状特征图。

进一步地，所述属性控制模块包括第二MLP网络子模块、第三MLP网络子模块和生成器；

所述第二MLP网络子模块，用于对所述属性向量进行映射处理，并将映射处理后的属性向量与所述噪声向量进行串联，获得串联向量；

所述第三MLP网络子模块，用于对所述串联向量进行映射处理，获得风格控制向量；

所述生成器，用于所述形状特征图进行卷积处理，并由所述风格控制向量进行调制和解调制操作修改卷积层的权重，基于此获得生成图像。

与现有技术相比，本发明记载的一种基于手绘的人脸图片生成方法及系统，具有如下有益效果：

1)能够在最大程度上保留手绘的细节信息，确保手绘的细节信息能够体现在生成图像上；

2)通过对属性向量进行控制，来弥补手绘的不足，从而有效判断出生成图像中的发色、性别和肤色等信息；

3)本发明在给定一张手绘人脸图像后，能够生成多张图像，即所生成的图像具有多样性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例提供的基于手绘的人脸图片生成方法流程图。

图2为本发明实施例提供的基于手绘的人脸图片生成系统示意图。

图3为本发明实施例提供的将手绘质量置信度注入编码器的方法示意图。

图4为本发明实施例提供的鉴别器结构图。

图5为本发明实施例提供的手绘控制和属性控制效果对比图。

图6为本发明实施例提供的噪声控制效果图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

参见图1所示，本发明实施例提供了一种基于手绘的人脸图片生成方法，具体包括如下步骤：

下面分别对上述各个步骤进行详细的说明。

在上述步骤S1中，属性向量a＝[a₁，a₂，…，a_C]表示希望控制的生成图像的属性，例如图像中头发的颜色、性别以及肤色等；C是控制的属性个数(a的每个维度控制一个属性)；本发明实施例中采用z∈Z来表示从正态分布采样的噪声向量。本发明实施例旨基于三方面来控制生成图像p’，即手绘人脸图像s、属性向量a和噪声向量z。

在上述步骤S2和S3中，由于现存的方法并不能够很好的保留输入手绘的细节，本发明实施例为减少手绘空间信息的损失，在编码器E和生成器G之间添加了跳跃连接，使得生成器G能够直接获得编码器E的前后各层的特征图。对于高质量的手绘，跳跃连接可以很好的保留手绘的空间信息，生成器G也能够按照给定的手绘的细节特征，生成高质量的图像。但是，当输入手绘的质量较差，如果编码器E仍然完全保留手绘的细节，则会使得生成器G生成的图像质量大打折扣。

为此，在本发明实施例中，对于获取的手绘人脸图像s，用户需提供对该手绘的置信度l(取值范围是[0,1])；即置信度l的值为0到1中间的任意实数，可以取到0和1，用户可以通过对手绘质量进行判断来输入对应的置信度l；例如如果用户认为其手绘质量很高，则置信度l为1，此时不做膨胀处理；如果用户认为其手绘质量较差，则置信度l为0；之后根据置信度l的大小，对输入手绘做类似图片膨胀的操作(实际是通过卷积实现的)。例如，当置信度l为0时，则本发明则会对手绘做最大程度的膨胀。手绘人脸图像s经过膨胀后，会根据置信度l的大小得到不同的结果，较大程度的膨胀会掩盖手绘更多的细节；如果手绘质量较低(有很多瑕疵)，则膨胀能够掩盖住这些瑕疵。之后，将手绘质量置信度映射为手绘置信度向量；基于手绘置信度向量，对膨胀处理后的手绘人脸图像s进行卷积处理，并通过调制和解调制操作修改卷积层的权重，从而获得包含手绘人脸图像信息的隐向量(形状特征图),即M(a,z)。该步骤可通过如图2中所示的手绘控制模块来完成；该手绘控制模块包括第一MLP网络子模块和编码器；置信度l通过第一MLP网络子模块映射为对应的手绘置信度向量，注入编码器E；基于此，编码器E可得知手绘人脸图像受到的膨胀的程度；之后编码器E对膨胀处理后的手绘人脸图像s进行卷积处理，并通过调制和解调制操作修改卷积层的权重，从而获得包含手绘人脸图像信息的形状特征图，即获得包含手绘人脸图像信息的中间特征图E(s)。

在上述步骤S4中，由于仅凭手绘人脸图像信息并不能够完全决定最终的生成图像，比如，仅通过手绘人脸图像并不能够决定最终生成图像中人脸的发色、肤色甚至是性别。故而，本发明实施例通过对图像属性进行控制来弥补手绘控制的不足。本发明实施例中选取了3个属性，即头发颜色、性别和肤色，具体为黑发和非黑发、男性和女性、皮肤白皙和皮肤不白皙；属性向量采用multi-hot向量形式，其维度与属性的个数一致，每一个维度对应一个属性，有该属性则置为1，反之为0，各属性之间是独立的。对属性向量进行映射处理，并将映射处理后的属性向量与噪声向量进行串联，获得串联向量；对串联向量进行映射处理，获得风格控制向量；对形状特征图进行卷积处理，并由风格控制向量进行调制和解调制操作修改卷积层的权重，基于此获得生成图像，即p’＝G(E(s)，M(a，z))。该步骤可通过由图2所示的属性控制模块来完成；该属性控制模块包括第二MLP网络子模块、第三MLP网络子模块和生成器；属性向量经过第二MLP网络子模块(即M₁)映射，和噪声向量z进行串联，然后经过第三MLP网络子模块(即M₂)映射，得到风格控制向量；最后通过将形状特征图输入生成器进行卷积处理，由风格控制向量进行调制(modulation)和解调制(demodulation)操作修改卷积层的权重，基于此获得生成图像。

在上述步骤S5中，对步骤S4所得到的生成图像进行判断；该步骤可通过如图2所示的多样性提升模块中的鉴别器D来完成，对于该鉴别器D，在将真实图像或上述步骤S4得到的生成图像输入至鉴别器D后，鉴别器可有效判断出该图像是属于生成图像还是真实图像，此外还可判断出图像中的头发颜色、性别和肤色。

在上述步骤S6中，从生成图像中提取轮廓线；根据轮廓线和手绘人脸图像，计算多样性提升损失，并以此来作为生成图像在生成过程中的约束条件；该步骤可通过如图2所示的多样性提升模块中的多样性提升网络子模块F来完成；即将生成图像输入至多样性提升网络子模块F中，多样性提升网络子模块F可自动地从生成图像中提取与手绘风格接近的线条图，用于和最初的步骤S1中的手绘人脸图像计算多样性提升损失，进而约束生成器生成的图片和最初的手绘人脸图像在形状和细节上保持一致。多样性提升网络子模块F的输出手绘并不包含颜色等信息，即该处的损失不会限制生成图像的多样性，仅约束生成图像的细节和形状与输入的手绘人脸图像相符合。

本发明实施例还提供了一种基于手绘的人脸图片生成系统，包括：获取模块、手绘控制模块和属性控制模块；其中获取模块用于获取手绘人脸图像，以及手绘人脸图像对应的手绘质量置信度、属性向量和噪声向量；手绘控制模块用于根据手绘质量置信度，对手绘人脸图像进行膨胀处理；以及根据手绘质量置信度，对膨胀处理后的手绘人脸图像进行卷积处理，获得包含手绘人脸图像信息的形状特征图；属性控制模块用于对属性向量和噪声向量进行映射处理，获得风格控制向量；对形状特征图进行卷积处理，并由风格控制向量进行调制和解调制操作修改卷积层的权重，获得生成图像。

手绘控制模块包括第一MLP网络子模块和编码器；其中第一MLP网络子模块用于将手绘质量置信度映射为手绘置信度向量；编码器用于基于手绘置信度向量，对膨胀处理后的手绘人脸图像进行卷积处理，并通过调制和解调制操作修改卷积层的权重，基于此获得包含手绘人脸图像信息的形状特征图。手绘质量置信度l注入编码器的具体情况可参见图3，手绘质量置信度l为0到1的浮点数，首先经过MLP映射为一定维度的向量，然后对卷积权重w做Modulation和Demodulation的计算，进而修改Conv3*3的权重，注入编码器E。

属性控制模块包括第二MLP网络子模块、第三MLP网络子模块和生成器；第二MLP网络子模块用于对属性向量进行映射处理，并将映射处理后的属性向量与噪声向量进行串联，获得串联向量；第三MLP网络子模块用于对串联向量进行映射处理，获得风格控制向量；生成器，接收形状特征图作为输入并进行卷积处理，由风格控制向量进行调制和解调制操作修改卷积层的权重，基于此获得生成图像。

该系统还包括多样性提升模块；多样性提升模块包括鉴别器和多样性提升网络子模块F；鉴别器D用于对生成图像的类型和属性进行判断，用于对生成图像进行评估，生成图像越接近真实图像，鉴别器区分出真假图像的概率就越低；属性包括头发颜色、性别和肤色，具体情况可参见图4；D由Resblock和4个线性分类器组成，Resblock为图4右侧的结构。线性分类器分别输出预测的图片真假，和男性或女性、黑发或非黑发、以及皮肤白皙或非皮肤白皙等属性。多样性提升网络子模块F用于从生成图像中提取轮廓线；根据轮廓线和手绘人脸图像，计算多样性提升损失，作为生成图像在生成过程中的约束条件。该多样性提升网络子模块F不仅能够对自身进行优化，还能够对编码器E和生成器G进行优化；当对自身进行优化时，需输入真实图像(即真图像)，目的是为了让多样性提升网络子模块F能够学会从图像中提取对应的手绘轮廓；当对编码器E和生成器G进行优化时，需输入生成图像(即假图像)，目的是使生成器G生成和手绘人脸图像细节和形状一致的图片。

本发明实施例所涉及到的损失函数包括以下几项：

(1)多样性提升损失，该损失用于优化编码器E，生成器G和多样性提升网络子模块F：

L_DE＝L_reg+L_LPIPS

L_reg(G，F)＝|s-F(p)|₁+|s-F(G(s，a，z))|₁

其中，L_DE表示对编码器E进行优化的多样性提升损失函数，包括两部分，分别是回归损失(L_reg)和感知损失(L_LPIPS)。L_reg表示对生成器G和多样性提升网络子模块F进行优化的回归损失；L_LPIPS表示对上述两部分进行优化的感知损失。

上述公式中，s表示真实的手绘；p表示真实的图像；G(s，a，z)表示生成器G生成的假图像；表示预训练的Alex网络，用于提取图片的特征(特征会被用于计算LPIPS损失)。

(2)对抗损失，该损失用于优化鉴别器D和生成器G：

maxL_D＝E_p[log(D(p))]+E_(s，a，z)[log(1-D(G(s，a，z)))]

min L_G＝-E_(s，a，z)[log(1-D(G(s，a，z)))]

其中，maxL_D表示对鉴别器D进行优化的对抗损失函数；minL_G表示对生成器G进行优化的对抗损失函数；

E*表示取平均，其它符号标记同上。

对抗损失属于步骤S5，鉴别器D对生成的图像做类型和属性类别的判别，其中的类型是指鉴别器D判断图片是真或假的图片。在训练过程中，生成器G和鉴别器D是相互对抗的，鉴别器D判断生成器G生成的图像为真或假，生成器G试图生成以假乱真的图片来混淆鉴别器D。

(3)属性分类损失和重建损失，这两个损失用于优化生成器G和鉴别器D：

L_clf(C)＝-E[logP(C(p)＝a_gt|p)]

L_rec(G，C)＝||C(G(s，a，z))-a||₂

上述损失归纳为：

L_G＝λ₁*minL_G+λ₂*L_DE(G，F)+λ₃*L_rec(G，C)

L_D＝λ₄*maxL_D+λ₅*L_clf(C)

P表示概率，C表示分类器(这里和D共享了部分权重)。属性分类损失和重建损失属于步骤S5，属性分类损失用于训练分类器C，属性重建损失用于训练编码器E和生成器G；在训练过程中，希望生成器G的输入属性能够控制生成的图像具有该属性，故而对生成器G的生成结果进行分类，其分类结果应当重建回生成器G的输入属性向量。

在本发明实施例中，设置λ₁＝λ₂＝λ₄＝1，λ₃＝λ₅＝5。

接下来对本发明实施例的数值结果进行说明。

1.数值结果

主要分为两部分，有关图片质量的数值结果对比和生成多样性的数值结果对比。

首先是数值结果，如表一所示，第一列为参与对比的方法名称，前三个为前人的模型，第二列和第三列的指标用来度量图片质量，第四列的指标用来度量模型生成结果的多样性，本发明实施例在FID指标上取得了最优，Similarity指标上Pix2pixHD模型取得了最佳，但是其方法牺牲了模型的多样性。多样性是指，给定一张手绘，模型能够返回的生成结果的多种可能性。本发明实施例的模型拥有最高的多样性(属性控制和噪声控制带来了较大的多样性)。

	FID	Similarity	Diversity
				Pix2pixHD	23.77	0.17	0.0
QG-S2P	45.66	0.27	2.61e-07
				pSp	43.61	0.22	0.49
FacePainter(Ours)	20.64	0.21	0.54

表1数值结果比较

2.手绘编辑结果

手绘编辑是指，给定一张手绘，生成其对应的人脸图像，在手绘上做细节的编辑，生成编辑后的图像。如图5所示，最左侧1列为原手绘和编辑后的手绘，手绘图像中虚线框内为手绘编辑的区域，第2到4列为被比较的前人的方法的生成结果，第5列为本模型的生成结果，本发明实施例中的模型在保证生成质量的同时，最大程度的保留了手绘的细节。

3.属性控制的结果

属性控制是指，给定一张手绘，通过改变输入的属性，从而改变生成图像对应的属性。如图6所示，第6到第7列，分别为改变了输入属性的结果。

4.噪声控制结果

噪声控制是指，给定一张手绘和属性，通过随机采样的噪声，可以是的生成的图像在满足手绘和属性控制的基础上，给出多样的变化。如图4所示，第1列右侧3张图像为固定噪声，手绘对应生成的人脸图像，第二列为随机采样噪声，手绘对应生成的人脸图像；可以发现，在手绘和属性控制不到的头发样式、脸部阴影等细节地方均有明显的改变，这带来了模型的生成多样性。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于手绘的人脸图片生成方法，其特征在于，包括：

S4、对所述属性向量和噪声向量进行映射处理，获得风格控制向量；对所述风格控制向量和所述S3中得到的形状特征图进行卷积处理，获得生成图像；

所述S3具体包括：

S31、将所述手绘质量置信度映射为手绘置信度向量；

S32、基于所述手绘置信度向量，对所述膨胀处理后的手绘人脸图像进行卷积处理，并通过调制和解调制操作修改卷积层的权重，基于此获得包含手绘人脸图像信息的形状特征图；

还包括：

S6、从所述生成图像中提取轮廓线；根据所述轮廓线和所述手绘人脸图像，计算多样性提升损失；将所述多样性提升损失作为新的生成图像在生成过程中的约束条件，使新的生成图片与对应的手绘人脸图像在形状和细节上保持一致；

所述S4具体包括：

S42、对所述串联向量进行映射处理，获得风格控制向量；

2.一种基于手绘的人脸图片生成系统，其特征在于，包括：获取模块、手绘控制模块和属性控制模块；

所述属性控制模块，用于对所述属性向量和噪声向量进行映射处理，获得风格控制向量；对所述形状特征图进行卷积处理，并由所述风格控制向量进行调制和解调制操作修改卷积层的权重，获得生成图像；

所述手绘控制模块包括第一MLP网络子模块和编码器；

所述编码器，用于基于所述手绘置信度向量，对所述膨胀处理后的手绘人脸图像进行卷积处理，并通过调制和解调制操作修改卷积层的权重，基于此获得包含手绘人脸图像信息的形状特征图；

还包括多样性提升模块；所述多样性提升模块包括鉴别器和多样性提升网络子模块；

所述多样性提升网络子模块，用于从所述生成图像中提取轮廓线；根据所述轮廓线和所述手绘人脸图像，计算多样性提升损失；将所述多样性提升损失作为新的生成图像在生成过程中的约束条件，使新的生成图片与对应的手绘人脸图像在形状和细节上保持一致；

所述属性控制模块包括第二MLP网络子模块、第三MLP网络子模块和生成器；

所述生成器，用于对所述形状特征图进行卷积处理，并由所述风格控制向量进行调制和解调制操作修改卷积层的权重，基于此获得生成图像。