CN110175567A

CN110175567A - 基于wgan-gp和u-net的素描—照片转化方法

Info

Publication number: CN110175567A
Application number: CN201910448411.XA
Authority: CN
Inventors: 王世刚; 闵佳媛; 韦健; 赵岩
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2019-08-27

Abstract

基于WGAN‑GP和U‑NET的素描‑照片转化方法属图像处理和异质图像转化领域，本发明首先获取人脸素描‑照片数据库FERET、CUHK、IIIT‑D，进行图片裁剪和调整图片大小，然后对数据进行数据增强，最后用WGAN‑GP和U‑NET生成测试集里素描对应的照片；本发明利用WGAN‑GP解决了梯度爆炸和梯度消失的问题，可较好地生成人脸照片；利用U‑NET作为生成器结构，利用U型结构较好地还原图片的细节；利用patch判别器，减少参数数量，有助于生成高质量图片；本发明可生成较真实的照片，细节完整，可很好地还原素描的真实样貌。

Description

基于WGAN-GP和U-NET的素描—照片转化方法

技术领域

本发明属图像处理和异质图像转化技术领域，具体涉及一种基于WGAN-GP和U-NET的素描—照片转化方法。

背景技术

公安部门备有每位公民照片组成的照片数据库，用来确定犯罪嫌疑人的身份，但实际中一般较难获取犯罪嫌疑人的照片，但却可以在目击证人和画像师的合作下，得到一幅犯罪嫌疑人的画像来进行后续的人脸识别。由于画像和人脸照片在纹理表达上的差异，直接利用传统的人脸识别方法，是很难取得满意的识别效果的。因此，将画像转化为照片可以有效缩小两者纹理上的差距，进而提高识别率。

针对这一问题，研究人员已经提出了素描—照片转化方法，大致可分为两种类型。第一种类型是基于online学习的data-driven的方法，通过输入照片以后，利用训练照片画像对来合成画像或者由画像合成照片。但由于data-driven方法需要在线学习，所以导致速度比较慢，但纹理比较丰富，更像画像。第二种类型是基于offline学习的model-driven的方法，则是通过机器学习学到model以后，不再需要训练样本，将输入通过映射函数得到生成的画像，这种方法的优点是训练过程虽然很慢，但是合成速度很快，细节比较好，不足是合成图像纹理不够丰富，风格更像画像，不太像照片。

关于data-driven方法主要包含两种方法，一部分是基于稀疏表示的；另外一部分是基于概率图模型的。model-driven主要包括线性model和非线性model，非线性模型包括CNN神经网络、GAN对抗神经网络、ResNet等主要基于深度学习的方法，基于深度学习的方法对样本数量有很高的要求，而在实际中，人脸素描—照片数据库造价高昂且不易获取，为该方法的发展添加了许多障碍。

由于以上算法的缺陷，在实际应用中很难取得理想的效果，故有必要进行改进。

发明内容

本发明的目的在于提供一种使生成的照片更加清晰真实的基于WGAN-GP和U-NET的素描--照片的转化方法。

本发明的一种基于WGAN-GP和U-NET的素描--照片转化方法，包括下列步骤：

1.1获取人脸素描--照片数据库：FERET、CUHK、IIIT-D；

1.2将素描--照片对进行裁剪，使其人脸的分布比例基本相等；

1.3使用“水平镜像”方法，对裁剪后的素描--照片对进行数据库增强，将数据库扩大到原数据库的二倍，并将素描--照片压缩至256*256；

1.4使用改进的WGAN网络，构建WGAN-GP对抗神经网络，网络的各项参数的确定包括下列步骤：

1.4.1由数据量和GPU确定epochs＝100,batch_size＝32,sample_interval＝50，通道数设为3；

1.4.2生成器每迭代一次，判别器迭代五次；

1.4.3构建生成器：使用U-NET网络，包括下列步骤：

1.4.3.1U-NET网络设计：“U-NET”网络结构即在“Encoder-decoder”编码器-解码器之间添加连接层，生成器使用的卷积核为4*4，之后跟2*2、步长为2的最大池化层；使用下采样的激活函数‘relu’、上采样激活函数‘tanh’,采用‘same’模式生成前后大小一致的图片，作为生成器的输出；

1.4.3.2损失函数：采用L1损失函数和WGAN-GP损失函数；

L1损失函数也被叫做最小化绝对误差(Least Absolute Error)；LAE就是真实的人脸照片的像素值y_i和生成器生成的“假”照片的像素值f(xi)之间像素差值D_L1的绝对值的和，其公式为：

其中：y_i为人脸照片的每一点的像素值，f(x_i)代表生成器生成图片的每一点的像素值，D_L1是平均绝对误差(MAE)；

WGAN-GP生成器损失函数的公式为：

其中：P_g为生成器产生的“假”照片分布；

综上，Loss函数的公式为：

其中：L_WGAN-GP(G,D)为生成器损失函数；为L1损失函数；根据实际需要调整α，β的比例即可，本发明取α：β＝1:100。

1.5判别器Discriminator主要是指一个判别网络，判别一张图片是“真”还是“假”。判别器的输入参数是生成器Generator生成的图片，输出D(x)代表x为真实图片的概率，如果为1，就代表100％是真实的图片，而输出为0，就代表不可能是真实的图片。如果输出的概率是0.5，则说明判别器无法判断生成的图片的真假，生成器图片质量达到最佳。构建判别器：使用patch判别器，包括下列步骤：

1.5.1patch判别器不是以原始判别器将整个图像当做输入，而是以每一小块的patch来进行，把生成器生成“假”照片划分为N*N个patch后，对每一块进行判别真假；当N＝1时，相当于逐像素，效率低；当N＝256时，相当于对一幅图像的操作，细节精确度下降；当取patch＝4，将图片分为4*4个patch，每一块大小70*70，用‘same’模式生成前后大小相等的图片。实验时每次使用70*70输入的全卷积神经网络，最后一层每个像素通过sigmoid函数激活，输出为真的概率值，再对所有图像块的判别结果取平均得到最终损失。WGAN-GP判别器的损失函数为:

即：WGAN Loss+gradient penalty梯度惩罚，其中，P_r为真实照片分布，P_g为生成器产生的“假”照片分布，x_r～P_r,x_g～P_g,为x_r和x_g的连线上的随机差值采样，为所满足的分布。λ为惩罚项因子，设为1。惩罚项中的常数1为Lipschitz常数K，为了使D的梯度的倒数小于等于K，同时又要保证学习速率不能太慢，本发明直接采用原始参数K＝1；

patch判别器以卷积方式划过整个图像，平均所有的响应来提供判别器最终的输出降低输入维度，减少参数数量，因此可以高效计算任意尺寸的图像，也有助于生成更高质量的图像，可生成高质量的结果。

本发明采用一种基于WGAN-GP对抗神经网络和U-NET网络结构的人脸素描-照片转化方法，在获取到人脸素描-照片数据库后，首先将素描-照片对进行裁剪，使其尽量分布相同；之后使用数据增强的方法来扩大数据集。由于对抗神经网络GAN可以较好的生成图片，因此本发明使用GAN网络的改进网络WGAN-GP,WGAN-GP通过增加梯度惩罚函数改进了WGAN网络的Lipschitz限制和Weight Clipping导致的参数集中化和调参上的梯度爆炸和梯度消失问题。生成器选择U-NET网络结构，通过对称的U型结构可以很好的生成照片细节；损失函数选择L1重构函数和WGAN-GP损失函数，既提高了生成照片的速率，又可以很好的生成照片细节。判别器选择了patchGAN结构，即patch判别器：patch判别器通过将生成的照片和真实照片映射为NxN的patch(矩阵)X，X_ij的值代表每个patch为真样本的概率，将X_ij求均值，即为判别器最终输出。通过此方法提高了精度和准确度。

本发明结合WGAN-GP和U-NET进行人脸素描—照片转化，与使用传统算法进行转化相比真实感更高，细节还原较好；比使用传统GAN网络的算法生成的照片更加清晰真实，没有素描感。本发明对公安部门根据素描确定人物身份有很好的启示作用。

附图说明

图1为发明名称的流程图

图2为U-NET网络的结构图

图3为patch判别器的流程图

图4为迭代20000次后生成的人脸照片

具体实施方式

下面结合附图进一步说明本发明的实施流程，基于WGAN-GP和U-NET的素描—照片转化方法，包括提前处理好素描-照片数据库，如图1所示，该方法包括以下步骤：

1.1获取人脸素描—照片数据库：FERET、CUHK、IIIT-D；

1.2将素描—照片对进行裁剪，使其人脸的分布比例基本相等；

1.3使用“水平镜像”方法对裁剪后的素描—照片对进行数据库增强，将数据库扩大至原数据库的二倍，并将素描—照片压缩至256*256；

1.4GAN的基本思想源自博弈论的二人零和博弈，由一个生成器Generator和一个判别器Discriminator构成，通过对抗学习的方式进行训练网络；使用改进的WGAN网络，构建WGAN-GP对抗神经网络，网络的各项参数的确定包括以下步骤：

1.4.2生成器每迭代一次，鉴别器迭代五次。

1.4.3用生成器G(Generator)生成“假”照片，该“假”照片的数据分布与真照片相似，即：

PG(z)≈P_data(x) (1)

构建生成器：使用U-NET网络结构，包括下列步骤：

1.4.3.1U-NET网络设计：“U-NET”网络结构即在“Encoder-decoder”编码器-解码器之间添加连接层，用于保留不同分辨率下像素级的细节信息，可以有效保留低维特征。U-NET网络取消了全连接层，可以很大程度上减少需要训练的参数，并得益于特殊的对称’U’型结构可以很好地保留图片中的所有信息。如图2所示，生成器使用的卷积核为4*4，之后跟2*2、步长为2的最大池化层(步长为2)。使用下采样的激活函数’relu’,上采样激活函数’tanh’,采用’same’模式生成前后大小一致的图片，共16层卷积层，作为生成器的输出；

1.4.3.2损失函数：采用L1损失函数和WGAN-GP损失函数；

L1损失函数也被叫做最小化绝对误差(Least Absolute Error)；LAE就是真实的人脸照片的像素值y_i和生成器生成的“假”照片的像素值f(xi)之间像素差值D_L1的绝对值的和；即：

WGAN-GP生成器损失函数为：

P_g为生成器产生的“假”照片分布；

综上，Loss函数为：

其中，L_WGAN-GP(G,D)为生成器损失函数，为L1损失函数。

根据实际需要调整α，β的比例即可，本发明取α：β＝1:100；

1.5判别器Discriminator主要是指一个判别网络，判别一张图片是“真”还是“假”。判别器的输入参数是生成器Generator生成的图片，输出D(x)代表x为真实图片的概率，如果为1，就代表100％是真实的图片，而输出为0，就代表不可能是真实的图片。如果输出的概率是0.5，则说明判别器无法判断生成的图片的真假，生成器图片质量达到最佳。如图3所示，判别器通过评判生成器生成图片的“真”“假”反馈给生成器，生成器从而更新。以下判别器的构建步骤：

1.5.1判别器结构的设计：本发明选择patchGAN结构来设计判别器，即patch判别器。Patch判别器不是以原始判别器将整个图像当做输入，而是以每一小块的patch来进行的。如图3所示，把生成器生成“假”照片划分为N*N个patch后，对于每一块进行判别真假。当N＝1的时候，相当于逐像素，效率较慢；当N＝128时，相当于一幅图像的操作，细节精确度下降。因此本发明取卷积核大小都为4×4，patch＝4，即将图片分为4*4个patch，每一块大小70*70。用’same’模式生成前后大小相等的图片。实验时每次使用70*70输入的全卷积神经网络，最后一层每个像素通过sigmoid函数激活，输出为真的概率值，再对所有图像块的判别结果取平均得到最终损失。WGAN-GP判别器的损失函数为:

即：WGAN Loss+gradient penalty梯度惩罚，其中，P_r为真实照片分布，P_g为生成器产生的“假”照片分布，x_r～P_r,x_g～P_g,为x_r和x_g的连线上的随机差值采样，为所满足的分布。λ为惩罚项因子，设为1。惩罚项中的常数1为Lipschitz常数K，为了使D的梯度的倒数小于等于K，同时又要保证学习速率不能太慢，本发明直接采用原始参数K＝1。

patch判别器的分块处理方法降低输入维度，减少参数数量，因此可以高效计算任意尺寸的图像，也有助于生成更高质量的图像。

如图4所示，经过两万次迭代，可以训练该网络生成质量较高的照片，细节清晰，头发质感逼真，眼睛可以清楚的区分出瞳孔和眼球，甚至墨镜和眼镜也可以较好的生成。

Claims

1.一种基于WGAN-GP和U-NET的素描--照片转化方法，其特征在于包括下列步骤：

1.1获取人脸素描--照片数据库：FERET、CUHK、IIIT-D；

1.4.2生成器每迭代一次，判别器迭代五次；

1.4.3构建生成器：使用U-NET网络，包括下列步骤：

1.4.3.1 U-NET网络设计：“U-NET”网络结构即在“Encoder-decoder”编码器-解码器之间添加连接层，生成器使用的卷积核为4*4，之后跟2*2、步长为2的最大池化层；使用下采样的激活函数‘relu’、上采样激活函数‘tanh’,采用‘same’模式生成前后大小一致的图片，作为生成器的输出；

1.4.3.2损失函数：采用L1损失函数和WGAN-GP损失函数；

WGAN-GP生成器损失函数的公式为：

其中：P_g为生成器产生的“假”照片分布；

综上，Loss函数的公式为：

其中：L_WGAN-GP(G,D)为生成器损失函数；为L1损失函数；根据实际需要调整α，β的比例；

1.5构建判别器：使用patch判别器，包括下列步骤：

1.5.1 Patch判别器不是以原始判别器将整个图像当做输入，而是以每一小块的patch来进行，把生成器生成“假”照片划分为N*N个patch后，对每一块进行判别真假；当N＝1时，相当于逐像素，效率低；当N＝256时，相当于对一幅图像的操作，细节精确度下降；当取patch＝4，将图片分为4*4个patch，每一块大小70*70，用‘same’模式生成前后大小相等的图片；由于分块判断，patch判别器以卷积方式划过整个图像，平均所有的响应来提供判别器最终的输出，能生成高质量的结果，WGAN-GP判别器的损失函数公式为：

其中：P_r为真实照片分布；P_g为生成器产生的“假”照片分布；x_r～P_r,x_g～P_g,为x_r和x_g的连线上的随机差值采样；为所满足的分布，即：WGAN Loss+gradient penalty梯度惩罚，其中λ为惩罚项因子，设为1。