CN112270300A

CN112270300A - 基于生成式对抗网络的人脸素描图像转换为rgb图像方法

Info

Publication number: CN112270300A
Application number: CN202011283698.4A
Authority: CN
Inventors: 赵辉煌; 张丰; 孙雅琪; 林睦纲
Original assignee: Hengyang Normal University
Current assignee: Hengyang Normal University
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2021-01-26

Abstract

本发明公开了一种基于生成式对抗网络的人脸素描图像转换为RGB图像的方法，该方法针对单幅人脸素描图像转换为RGB图像，首先对数据集进行预处理，其次建立生成式对抗网络模型，并利用预处理后的数据集对其生成模型和判别模型进行交替训练，然后通过优化损失函数，得到训练好的模型，再将测试集输入模型进行测试，输出生成的彩色人脸图像，利用结构相似性(即SSIM)方法与真实的彩色人脸图像进行计算，得到两张图像最终的相似度；本发明填补了生成式对抗网络在人脸图像运用上的空缺，同时网络的泛化能力和鲁棒性更强，少量的数据集也可以作为训练样本，节省了人工搜集图像的时间且能够提高了模型的性能和图像转换的精度。

Description

基于生成式对抗网络的人脸素描图像转换为RGB图像方法

技术领域

本发明涉及深度学习技术领域，具体为基于生成式对抗网络的人脸素描图像转换为RGB图像的方法。

背景技术

随机深度学习的迅速发展，计算机图形学和计算机视觉已经成为人工智能领域最重要的技术之一。基于生成式对抗网络的图像转换是计算机视觉领域的一个新的研究热点，它的基本原理是利用生成式对抗网络将一张输入图像转换为相对应的输出图像的过程。目的是在图像转换问题上，输入一张图像能够得到相应的输出图像。

Phillip等人在2017年的CVPR(国际计算机视觉与模式识别大会上)发表了文章“Image-to-Image Translation with Conditional Adversarial NetWorks”证实了生成式对抗网络(GAN)在图像转换方面的巨大优势：通过将场景的一个可能转换成另一个图像，一种通用的GAN模型能够对各种结构的图像进行转换。从那以后，从那以后，在学术研究和产业应用对生成式对抗网络图像转换产生了极大的兴趣，基于生成式对抗网络的图像转换已成为学术界和工业界的研究热点之一。包括清华大学，北京大学，Stanford大学和UCBerkeley大学等国内外世界知名大学、研究院(所)和实验室在内的团队，对图像转换进行了广泛且深入的研究。

现有的图像到图像的转换方法存在的问题主要有：图像到图像的转换具有很大的随意性，因此很多情况下，效果不理想，有时候还会产生一些错误，比如说眼睛处有重影，背景颜色缺失，清晰度不高等，转换效果不理想。

发明内容

本发明的目的在于提供基于边缘增强和生成式对抗网络的人脸素描图像转换为RGB图像的方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：基于生成式对抗网络的人脸素描图像转换为RGB图像方法,包括以下步骤：

步骤1，使用CelebFaces属性数据集(CelebA)作为真实的彩色人脸图像数据来源，并对图像数据进行预处理，得到训练集A；

步骤2，构建基于生成式对抗网络的人脸素描图像转换为RGB图像的模型，包括生成模型G和判别模型D；

步骤3，将训练集A输入到基于生成式对抗网络的人脸素描图像转换为RGB图像的模型中，并采用单独交替训练方法训练生成模型G与判别模型D，采用监督性学习方式对生成式对抗网络模型进行训练，得到训练输出集B；

步骤4，利用条件生成式对抗网络模型的损失函数、生成模型G损失函数、判别模型D损失函数计算生成式对抗网络模型的损失函数，得到基于生成式对抗网络的模型最终的损失函数；

步骤5，重复步骤1，得到测试集C；

步骤6，将测试集C输入训练好的基于生成式对抗网络的模型进行测试，得到测试输出集E；

步骤7，重复步骤3,4，将训练集A进行600次迭代，用于训练模型，在重复步骤6，将测试集C进行5次迭代，得到最终的测试输出集E；

优选的，所述步骤1中，对CelebFaces属性数据集(CelebA)中的图像进行预处理，首先利用基于深层神经网络的OpenFace人脸检测方法，截取数据集中每张图像的人脸部分，得到彩色人脸图像数据集，再利用OpenCV方法对彩色人脸图像数据集进行归一化，得到大小为256*256的目标数据集即真实的彩色人脸图像集Target，最后利用Pillow库把真实的彩色人脸图像集Target转化为素描图像，作为输入图像即人脸素描图像Input，与真实的彩色人脸图像集Target一一配对，并将Input和Target作为训练集A。

优选的，所述步骤2中，构建基于生成式对抗网络的人脸素描图像转换为RGB图像的模型，包括生成模型G和判别模型D。生成模型G使用U-Net架构，由编码器和解码器组成，编码器中的第i层与解码器中第n-i层之间连通，使得解码器中的通道数变为原来的2倍。其中编码器进行下采样操作，包括8个卷积层，第一层为卷积层，卷积核为4*4，步长为2，第二层至第八层均为卷积核为4*4、步长为2的Convolution-BatchNorm-ReLU层；解码器包括8个反卷积层,进行上采样操作，8个标准化层，使反卷积后的值处于[0,1]之间，8个拼接层，用于拼接图像第3维的特征通道，最后返回Tanh函数。判别模型使用PatchGAN架构，包含3个卷积核为4*4、步长为2的1个Convolution-LReLU层，3个Convolution-BatchNorm-Dropout-LReLU层和1个全连接层，其中Dropout的概率为0.5。

优选的，所述步骤3中，将训练集A输入到模型中，开始交替训练模型，将训练集A输入到模型中，开始交替训练模型，

(1)固定判别模型D，训练生成模型G，首先训练生成模型G即U-Net结构中的编码器和解码器：

①编码器训练

A₁.将1张3维256*256的人脸素描图像Input输入到编码器的第1层卷积层中，得到64维128*128像素大小的编码器卷积层输出特征图；

B₁.将编码器第1层卷积层的输出特征图输入到编码器的第2层卷积层中，依次进行非线性LReLU变换、卷积和批标准化，得到128个64*64像素大小的编码器卷积层输出特征图；

C₁.将编码器第2层卷积层的输出特征图输入到生成模型的第3层卷积层中，依次进行非线性LReLU变换、卷积和批标准化，得到256个32*32像素大小的编码器卷积层输出特征图；

D₁.将编码器第3层卷积层的输出特征图输入到生成模型的第4层卷积层中，依次进行非线性LReLU变换、卷积和批标准化，得到512个16*16像素大小的编码器卷积层输出特征图；

E₁.以此类推，将编码器的第4层卷积层输出的特征图输入到第5层，将第5层卷积层的输出特征图输入到第6层，将第层6卷积层的输出特征图输入到第7层，将第7层卷积层的输出特征图输入到第8层，依次进行非线性LReLU变换、卷积、下采样和批标准化操作，分别得到512个8*8像素大小的特征图、512个4*4像素大小的特征图、512个2*2像素大小的特征图、512个1*1像素大小的特征图；

②解码器训练

A₂.将512个1*1像素大小的特征图输入解码器的第1层反卷积层中，依次对其进行非线性的ReLU变换、反卷积、批标准化、Dropout操作以及第3通道的Concat操作，得到1024个2*2像素大小的解码器卷积层输出特征图；

B₂.将解码器第1层卷积层输出的特征图输入到解码器的第2层中，依次对其进行非线性的ReLU变换、反卷积、上采样、批标准化、Dropout操作以及第3通道的Concat操作，得到1024个4*4像素大小的解码器卷积层输出特征图；

C₂.将解码器第2层卷积层输出的特征图输入到解码器的第3层中，依次对其进行非线性的ReLU变换、反卷积、上采样、批标准化、Dropout操作以及第3通道的Concat操作，得到1024个8*8像素大小的解码器卷积层输出特征图；

D₂.将解码器第3层卷积层输出的特征图输入到解码器的第4层中，依次对其进行非线性的ReLU变换、反卷积、上采样、批标准化、Dropout操作以及第3通道的Concat操作，得到1024个16*16像素大小的解码器卷积层输出特征图；

E₂.以此类推，将解码器的第4层卷积层输出的特征图输入到第5层，将第5层卷积层的输出特征图输入到第6层，将第层6卷积层的输出特征图输入到第7层，将第7层卷积层的输出特征图输入到第8层，依次进行非线性ReLU变换、反卷积、批标准化以及第3通道的Concat操作，第5层到第7层分别得到512个32*32像素大小的特征图、256个64*64像素大小的特征图、128个128*128像素大小的特征图，第8层得到的是1张3维的256*256像素大小的特征图，最后返回Tanh函数。

(2)固定生成模型G，训练判别模型D：

A₃.将一张6维256*256像素大小的彩色人脸图像输入到判别模型D的第1层卷积层中，依次对其进行卷积和非线性LReLU变换操作，得到64个128*128像素大小的判别模型D第1层卷积层输出特征图；

B₃.将判别模型D第1层卷积层输出的特征图输入第2层卷积层中，依次对其进行卷积、批标准化和非线性LReLU变换操作，得到128个64*64像素大小的判别模型D第2层卷积层输出特征图；

C₃.将判别模型D第2层卷积层输出的特征图输入第3层卷积层中，依次对其进行卷积、批标准化和非线性LReLU变换操作，得到256个32*32像素大小的判别模型D第3层卷积层输出特征图；

D₃.将判别模型D第3层卷积层输出的特征图输入第4层全连接层中，依次对其进行卷积、批标准化和非线性LReLU变换操作，得到512个32*32像素大小的判别模型D第4层卷积层输出特征图；

E₃.将判别模型D第4层卷积层输出的特征图输入第5层全连接层中，对其进行Reshape操作，调整特征图的维度，输出3维的256*256的彩色人脸图像，最后返回Sigmoid函数。

优选的，所述步骤4中，交替训练生成模型G和判别模型D的损失函数，训练生成模型G使得目标函数最小化，而判别模型D使得目标函数最大化，即：

其中

表示训练判别模型D时，保证生成模型G部分保持不变，使得判别模型G可以准确地判别生成的彩色人脸图像Output，即使得1-D(x,G(x,z))的值接近于1，最大化E_x,y[logD(x,y)]的值。

表示训练生成模型G时保证判别模型D部分保持不变，使得生成的彩色人脸图像Output可以通过判别模型D的判断，即使得D(x,G(x,z))的值接近于1，并且最小化E_x,z[log(1-D(x,G(x,z)))]的值。

式中λ₁为权重系数，用来调节生成模型G的损失函数L_L1(G)的比重，从而得到更好地输出图像，L_L1(G)表示真实的彩色人脸图像Target与生成的彩色人脸图像Output之间的距离，定义为：

L_L1(G)＝E_x,y,z[||y-G(x,z)||₁],

其中y-G(x,z)表示真实的彩色人脸图像Target与生成的彩色人脸图像Output之间的差异。

与现有技术相比，本发明的有益效果是：

(1)本发明基于生成式对抗网络模型，实现了对人脸素描图像转换为RGB图像的方法，首次将人脸图像的转换运用在生成式对抗网络模型中，填补了生成式对抗网络在人脸图像运用上的空缺，同时网络的泛化能力和鲁棒性更强，少量的数据集也可以作为训练样本，节省了人工搜集图像的时间；

(2)本发明定义了一个新的损失函数，与传统的生成式对抗网络模型损失函数相比，在生成模型G中加入了边缘增强对生成图像的约束，能够生成与真实的彩色人脸图像更相似的图像，提高了模型的性能和图像转换的精度。

附图说明

图1是本发明的系统流程图；

图2是本发明的模型架构图；

图3是本发明实施例中的部分转换结果对比图；

其中a为原图，b为我们的方法输出的图像，c为Gatys方法输出的图像，d为CNNMRF方法输出的图像；

图4是本发明实施例中的部分转换结果对比图；

其中e为原图，f为我们的方法输出的图像，g为Gatys方法输出的图像，h为CNNMRF方法输出的图像。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清除、完整地描述，显然，说书的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术上人员在没有做出创造性劳动的前提下所获得的其他实施例，都属于本发明保护的范围。

请参阅图1-3，本发明提供一种技术方案：基于生成式对抗网络的人脸素描图像转换为RGB图像方法，包括以下步骤：

步骤5，重复步骤1，得到测试集C；

本发明中，步骤1中，对CelebFaces属性数据集(CelebA)中的图像进行预处理，首先利用基于深层神经网络的OpenFace人脸检测方法，截取数据集中每张图像的人脸部分，得到彩色人脸图像数据集，再利用OpenCV方法对彩色人脸图像数据集进行归一化，得到大小为256*256的目标数据集即真实的彩色人脸图像集Target，最后利用Pillow库把真实的彩色人脸图像集Target转化为素描图像，作为输入图像即人脸素描图像Input，与真实的彩色人脸图像集Target一一配对，并将Input和Target作为训练集A。

本发明中，步骤2中，构建基于生成式对抗网络的人脸素描图像转换为RGB图像的模型，包括生成模型G和判别模型D。生成模型G使用U-Net架构，由编码器和解码器组成，编码器中的第i层与解码器中第n-i层之间连通，使得解码器中的通道数变为原来的2倍。其中编码器进行下采样操作，包括8个卷积层，第一层为卷积层，卷积核为4*4，步长为2，第二层至第八层均为卷积核为4*4、步长为2的Convolution-BatchNorm-ReLU层；解码器包括8个反卷积层,进行上采样操作，8个标准化层，使反卷积后的值处于[0,1]之间，8个拼接层，用于拼接图像第3维的特征通道，最后返回Tanh函数。判别模型使用PatchGAN架构，包含3个卷积核为4*4、步长为2的1个Convolution-LReLU层，3个Convolution-BatchNorm-Dropout-LReLU层和1个全连接层，其中Dropout的概率为0.5。

本发明中，步骤3中，将训练集A输入到模型中，开始交替训练模型，将训练集A输入到模型中，开始交替训练模型，

①编码器训练

②解码器训练

(2)固定生成模型G，训练判别模型D：

本发明中，步骤3中，交替训练生成模型G和判别模型D的损失函数，训练生成模型G使得目标函数最小化，而判别模型D使得目标函数最大化，即：

其中

L_L1(G)＝E_x,y,z[||y-G(x,z)||₁],

下面结合仿真实验对本发明的效果做进一步描述。

1.仿真实验条件：

本发明仿真的硬件环境是：Intel(R)Core(TM)i5-5200U CPU@2.2GHz 2.2GHz，GPUNVIDIAGeForce GTX TITAN X，12GB内存；软件环境：Ubuntu 16.04，IPython2.7；Windows 10,MatlabR2014b。

2.仿真内容和结果：

本发明首先将CelebFaces属性数据集(CelebA)作为真实的彩色人脸图像数据来源，并对图像数据进行预处理，得到600张一一配对的真实的彩色人脸图像和素描人脸图像，作为训练集A,再构建生成式对抗网络模型，将训练集A输入到模型中，交替训练模型，首先固定判别模型，训练生成模型，其次固定生成模型，固定判别模型，设定batch_size为1，经过600次迭代，得到生成的600张彩色人脸图像。将测试集C输入到训练好的模型中，迭代5次之后，输出生成的200张彩色人脸图像，对其结构相似度即SSIM值进行了计算，表1统计了2张图像的相似度，并与Gatys方法和CNNMRF方法进行了比较。图3，图4分别是输出图像和真实图像。

从表1中可知，对比其他两种方法，我们的方法生成的彩色人脸图像与真实的彩色人脸图像的结构相似度是比较高的，证明基于生成式对抗网络的人脸素描图像转换为RGB图像方法是可行的。

本发明基于生成式对抗网络建立人脸素描图像转换为RGB图像的模型，然后输入训练集，交替训练其生成模型G和判别模型D，从而生成与真实的彩色人脸图像相似度高的彩色人脸图像，实现对人脸图像的转换。

综上所述，本发明通过对CelebFaces属性数据集(CelebA)中的图像进行预处理，得到训练集A，把训练集A输入到生成式对抗网络模型中，交替训练生成模型G和判别模型D，得到训练输集B，同时在训练过程中不断调整参数，从而使得生成的图像与真实的彩色人脸图像更加相似；本文定义了一个新的损失函数，与传统的图像转换损失函数相比，增加了边缘增强对生成图像的约束，提高了模型的性能和图像转换的精度。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种基于生成式对抗网络的人脸素描图像转化为RGB图像的方法，其特征在于，包括以下步骤：

步骤3，将训练集A输入到基于生成式对抗网络的人脸素描图像转换为RGB图像的模型中，并采用单独交替训练方法训练生成模型与判别模型，采用监督性学习方式对生成式对抗网络模型进行训练，得到训练输出集B；

步骤4，利用条件生成式对抗网络模型的损失函数、生成器G损失函数、判别器D损失函数计算生成式对抗网络模型的损失函数，得到基于生成式对抗网络的模型最终的损失函数；

步骤5，重复步骤1，得到测试集C；

步骤7，重复步骤3,4，将训练集A进行600次迭代，用于训练模型，再重复步骤6，将测试集C进行5次迭代，得到最终的测试输出集E。

2.根据权利要求1所述的一种基于生成式对抗网络的人脸素描图像转化为RGB图像的方法，其特征在于，所述步骤1中，使用CelebFaces属性数据集(CelebA)作为真实的彩色人脸图像数据，首先利用基于深层神经网络的OpenFace人脸检测方法，截取数据集中每张图像的人脸部分，得到彩色人脸图像数据集，再利用OpenCV方法对彩色人脸图像数据集进行归一化，得到大小为256*256的目标数据集即真实的彩色人脸图像集Target，最后利用Pillow库把真实的彩色人脸图像集Target转化为素描图像，作为输入图像即人脸素描图像Input，与真实的彩色人脸图像集Target一一配对，并将Input和Target作为训练集A。

3.根据权利要求1所述的一种基于生成式对抗网络的人脸素描图像转化为RGB图像的方法，其特征在于，所述步骤2中，构建边缘增强和生成式对抗网络模型中的生成模型使用U-Net架构，由编码器和解码器组成，编码器中的第i层与解码器中第n-i层之间连通，使得解码器中的通道数变为原来的2倍；其中编码器进行下采样操作，包括8个卷积层，第一层为卷积层，卷积核为4*4，步长为2，第二层至第八层均为卷积核为4*4、步长为2的Convolution-BatchNorm-ReLU层；解码器包括8个反卷积层，进行上采样操作，8个标准化层，使反卷积后的值处于[0,1]之间，8个拼接层，用于拼接图像第3维的特征通道，最后返回Tanh函数。

4.根据权利要求1所述的一种基于生成式对抗网络的人脸素描图像转化为RGB图像的方法，其特征在于，所述步骤2中，构建边缘增强和生成式对抗网络模型中的判别模型使用PatchGAN架构，包含3个卷积核为4*4、步长为2的1个Convolution-LReLU层，3个Convolution-BatchNorm-Dropout-LReLU层和1个全连接层，其中Dropout的概率为0.5。

5.根据权利要求1所述的一种基于生成式对抗网络的人脸素描图像转化为RGB图像的方法，其特征在于，所述步骤3中，将训练集A输入到模型中，开始交替训练模型：

(1)固定判别模型D，训练生成模型G，首先训练生成模型G的编码器和解码器：

①编码器训练

②解码器训练

E₂.以此类推，将解码器的第4层卷积层输出的特征图输入到第5层，将第5层卷积层的输出特征图输入到第6层，将第层6卷积层的输出特征图输入到第7层，将第7层卷积层的输出特征图输入到第8层，依次进行非线性ReLU变换、反卷积、批标准化以及第3通道的Concat操作，第5层到第7层分别得到512个32*32像素大小的特征图、256个64*64像素大小的特征图、128个128*128像素大小的特征图，第8层得到的是1张3维的256*256像素大小的特征图，最后返回Tanh函数；

(2)固定生成模型G，训练判别模型D：

A3.将一张6维256*256像素大小的彩色人脸图像输入到判别模型D的第1层卷积层中，依次对其进行卷积和非线性LReLU变换操作，得到64个128*128像素大小的判别模型D第1层卷积层输出特征图；

6.根据权利要求1所述的一种基于生成式对抗网络的人脸素描图像转化为RGB图像的方法，其特征在于，所述步骤4中，生成式对抗网络可以学习从随机噪声向量z到输出图像y，G的映射：G→z；而条件生成式对抗网络模型学习从观察到的图像x和随机噪声向量z到输出图像y，G的映射{x，z}→y；条件生成对抗网络模型的目标函数为：

L_cGAN(G,D)＝E_x,y[logD(x,y)]+E_x,z[log(1-D(x,G(x,z)))],

其中，L_cGAN(G,D)表示真实的彩色人脸图像Targrt与生成的彩色人脸图像Output之间的程度差异，E表示数学期望，logD(x,y)表示判别器对真实的彩色人脸图像Target判定为真实数据的概率，G(x,z)表示生成的彩色人脸图像Output，D(x,G(x,z))表示判别模型D对生成的彩色人脸图像Output的判别结果，log(1-D(x,G(x,z)))表示判别模型D将生成的彩色人脸图像Output判定为虚假图像的概率；

训练生成模型G使得目标函数最小化，而判别模型D使得目标函数最大化，即：

其中

表示训练判别模型D时保证生成模型G部分保持不变，使得判别模型G可以准确地判别生成的彩色人脸图像Output，即使得1-D(x,G(x,z))的值接近于1，最大化E_x,y[logD(x,y)]的值；

表示训练生成模型G时保证判别模型D部分保持不变，使得生成的彩色人脸图像Output可以通过判别模型D的判断，即使得D(x,G(x,z))的值接近于1，并且最小化E_x,z[log(1-D(x,G(x,z)))]的值；

L_L1(G)＝E_x,y,z[||y-G(x,z)||₁],

其中y-G(x,z)表示真实的彩色人脸图像Target与生成的彩色人脸图像Output之间的差异；

同时为了测试判别模型D的重要性，设计了一个无条件变量普通GAN，目的是只让判别模型D在不观察输入图像x的情况下判断图像是否为真，其损失函数为：

L_cGAN(G,D)＝E_y[logD(y)]+E_x,z[log(1-D(x,z))]

综合得到的目标函数为：

其中λ₁和λ₂均为权重系数，分别用于调节生成图像中各损失函数的参与强度，Edge_L1(G)为图像边缘增强的损失函数。

7.根据权利要求6所述的一种基于生成式对抗网络的人脸素描图像转化为RGB图像的方法，其特征在于，基于边缘增强和生成式对抗网络模型的Adam优化算法中，模型设计了与生成模型U-Net结构相同的编码器和解码器结构，用于保存训练生成模型U-Net过程中产生的中间结果。