CN113658285B

CN113658285B - 一种人脸照片到艺术素描的生成方法

Info

Publication number: CN113658285B
Application number: CN202110723166.6A
Authority: CN
Inventors: 余松森; 林泽生; 梁军; 舒纲旭
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2024-05-31
Anticipated expiration: 2041-06-28
Also published as: CN113658285A

Abstract

本发明公开了一种人脸照片到艺术素描的生成方法。所述方法包括以下步骤：训练VGG素描分类器模型，构建改进循环生成对抗网络；加载人脸图片‑素描数据集并进行数据预处理，得到增广的人脸图片‑素描数据集；将增广的人脸图片‑素描数据集的图像数据输入改进循环生成对抗网络中进行训练，用人脸掩码得到素描五官区域进行判别，使改进循环生成对抗网络的生成器加强人脸区域生成，得到训练好的改进循环生成对抗网络；将待转化的人脸照片输入到训练好的改进循环生成对抗网络中，获得转化后的艺术素描。本发明加入感知损失有助于生成干净的背景和更相似的高层语义，加入VGG特征则有助于模型的收敛，加入Mask区域判别器有助于生成更加逼真的人脸区域。

Description

一种人脸照片到艺术素描的生成方法

技术领域

本发明涉及人脸素描生成领域，具体涉及一种人脸照片到艺术素描的生成方法。

背景技术

目前，对于人脸素描生成的技术可以大致分成两种：数据驱动方法和模型驱动方法。数据驱动方法将人脸素描图片和光学照片的关系视为一一对应的，若两张图片中某个图像块是相似的，那么其对应的素描也是相似的。数据驱动算法主要有：

(1)子空间学习法：主要代表算法是局部线性嵌入(LLE)方法、主成分分析(PCA)方法，先对数据集的“照片-素描”进行分块，将待生成的图片也进行分块，经过近邻选择，计算权重等方法遍历出数据库中最相邻的图片，选中照片对应的素描进行拼接直至得到完整的素描。

(2)稀疏表示及其矩阵的方法：将人脸分解成为稀疏系数矩阵，利用稀疏系数矩阵降低了寻找匹配图像块的计算复杂度。

(3)贝叶斯推理法：使用隐马尔科夫(E-HMM)和马尔科夫随机场(MRF)学习相邻图片块之间的关系。

模型驱动的方法学习照片和素描两种图像数据的分布，构建它们之间的映射关系函数。将输入的光学照片通过映射函数转化成满足素描数据的分布的图片，模型驱动的方法主要是深度学习模型的方法，尤其是生成对抗网络(GANs)及其变体，在图像生成、风格转化等领域取得了重要的成就。

上述算法虽然能够实现人脸素描的生成，但也存在各自的不足之处，主要有：

(1)现有的数据驱动的方法以及GANs网络方法要求数据集“照片-素描”必须是配对的形式，在现实中难以大量获取。

(2)由于数据驱动的方法是选择最优块进行拼接，容易出现连接处不平滑的现象，此外，合成素描脸部细节处清晰度较低。

(3)数据驱动的方法在检索并计算数据库中最相邻的图像块时，需要耗费较大的算力资源。稀疏表示的方法降低了挑选目标块的计算复杂度，但缺乏局部限制容易造成人脸的信息缺失。

(4)模型驱动的方法在数据准备、模型选用和调参等过程中存在着较大的不确定，也存在收敛困难、易产生不同程度的模糊以及细节损失的问题。

(5)目前多数素描人脸合成的研究是简单的素描，艺术素描较简单素描有更加复杂的高层语义。单纯的模型驱动算法生成的素描图片在层次感、阴影线条等特征上面有局限。

若直接在人脸图片-素描数据集上面训练循环生成对抗(CycleGAN)网络(Unpaired Image-to-Image Translation using Cycle-Consistent AdversarialNetworks)，有以下几个不足：

1.需要数据集的规模比较大；

2.模型收敛困难，生成的图像在细节上面比较模糊；

3.由于素描图像的复杂性，单纯的循环生成对抗(CycleGAN)网络难以充分学习到其高级特征。

发明内容

为了解决现有技术的不足，本发明收集了一批高质量的人脸写生照片以及素描，基于深度学习的CycleGAN(循环生成对抗网络)模型进行了改进，提出了一种针对人脸写生图片到艺术性素描的自动生成方法，包括：将素描图片按照人物性别年龄划分成6类，使用该数据集训练VGG分类模型；加载人脸照片-素描数据集中的图片，进行数据预处理，随机将其中10％的图像数据灰度化；将训练的VGG模型的特征层网络加入到循环生成对抗网络的生成器中，训练过程中，将预处理后的图像输入到循环生成对抗网络中，生成对应的人脸图像；准备人脸mask掩码提取真实素描与生成素描的人脸五官区域，素描五官判别器判定真伪，使得素描生成器加强对人脸五官的生成；判别器对真实图片和生成图片进行判定，使用最小二乘损失函数代替交叉熵损失函数，改善了生成图片质量不高以及训练过程不稳定的问题，将真实图片和循环后生成的图片经过VGG模型得到高级卷积特征，引入感知损失函数，比较二者的相似性；本发明采用了对CycleGAN进行了VGG特征加入，采用了mask在素描生成时关注面部区域，改进了损失函数，使得生成的素描在色调、清晰度、线条上更加逼近于手工素描，且有更高的艺术价值。

本发明的目的至少通过如下技术方案之一实现。

一种人脸照片到艺术素描的生成方法，包括以下步骤：

S1、训练VGG素描分类器模型，将训练后的VGG素描分类器模型的特征层网络加入循环生成对抗(CycleGAN)网络的生成器网络中，构建改进循环生成对抗(CycleGAN)网络；

S2、加载人脸图片-素描数据集，并进行数据预处理，得到增广的人脸图片-素描数据集；

S3、将增广的人脸图片-素描数据集的图像数据输入改进循环生成对抗(CycleGAN)网络中进行训练，用人脸掩码得到素描五官区域进行判别，使改进循环生成对抗(CycleGAN)网络的生成器加强人脸区域生成，得到训练好的改进循环生成对抗(CycleGAN)网络；

S4、将待转化的人脸照片输入到训练好的改进循环生成对抗(CycleGAN)网络中，获得转化后的艺术素描。

进一步地，步骤S1中，所述VGG素描分类器模型采用VGG19。

进一步地，步骤S1中，获取素描数据集，按照素描数据集中写生对象的年龄和性别分成若干类，并且用素描数据集对VGG素描分类器模型进行参数训练，使VGG素描分类器模型的分类精度达到规定的阈值，使得VGG素描分类器模型对于素描的高级特征具有良好的提取能力。

进一步地，步骤S1中，将训练后的VGG素描分类器模型的特征层网络加入循环生成对抗(CycleGAN)网络的生成器网络中，构建改进循环生成对抗(CycleGAN)网络，包括素描生成器G、照片生成器F、照片判别器D_p、素描判别器D_s和Mask判别器D_mask；

素描生成器G和照片生成器F中均包括训练后的VGG素描分类器模型的特征层网络；

真实照片输入素描生成器G，经过VGG素描分类器模型后得到图片高层语义特征并加入到素描生成器G中，素描生成器G输出第一生成素描；第一生成素描输入照片生成器F，经过VGG素描分类器模型得到图片高层语义特征并加入到照片生成器F中，得到第一生成照片；第一生成素描和其Mask(掩码)做位运算得到第一生成素描的脸部区域，其中Mask由人脸关键点检测器得到；

真实素描输入照片生成器F，经过VGG素描分类器模型后得到图片高层语义特征并加入到照片生成器F中，照片生成器F输出第二生成照片；第二生成照片输入素描生成器G，经过VGG素描分类器模型得到图片高层语义特征并加入到素描生成器G中，得到第二生成素描；真实素描和其Mask(掩码)做位运算得到真实素描的人脸区域；

生成阶段：固定照片判别器D_p、素描判别器D_s和Mask判别器D_mask，将第一生成素描和第一生成素描的脸部区域输入素描判别器D_s中进行判别、第二生成照片输入照片判别器D_p中进行判别，得到普通损失；比较真实照片和第一生成照片、真实素描和第二生成素描之间的差异得到循环一致性损失；将真实照片、第一生成照片，真实素描、第二生成素描输入到VGG素描分类器模型中得到其高层特征，比较真实照片和第一生成照片、真实素描和第二生成素描之间的高层特征的差异得到感知损失；将损失求和后进行反向传播，更新生成器的参数；

判别阶段：固定素描生成器G和照片生成器F，将真实照片和第二生成照片输入照片判别器D_p中进行判别、真实素描和第一生成素描输入素描判别器D_s中进行判别、真实素描的脸部区域和第一生成素描的脸部区域输入Mask判别器D_mask中进行判别，得到损失函数后进行反向传播，更新判别器的参数。

生成器不断生成逼真的图片去欺骗判别器，判别器也不断提高对图片的判断能力。生成器和判别器不断博弈，直到判别器没有办法对生成器生成的图片判断真假时，说明生成器的效果比较良好。

进一步地，步骤S2中，在数据预处理时，为了让改进循环生成对抗(CycleGAN)网络学习到素描的灰度色彩，对人脸图片-素描数据集中随机10％的图片进行灰度化；并通过翻转、缩放、随机裁剪手段对人脸图片-素描数据集进行翻倍，增加数据量及其多态性，得到增广的人脸图片-素描数据集。

进一步地，步骤S2中，对于人脸图片-素描数据集，使用人脸关键点检测器检测并得到每一张人脸图片和素描图像的脸部轮廓区域掩码Mask。

进一步地，步骤S3中，在训练生成器的阶段，对于真实照片、第一生成照片、真实素描和第二生成素描，使用训练后的VGG素描分类器模型提取卷积特征后计算真实照片和第一生成照片之间，真实素描和第二生成素描之间的感知损失，促使真实照片和第一生成照片，真实素描和第二生成素描在语义上面更加相似。

进一步地，步骤S3中，在训练判别器的阶段，使用最小二乘损失代替原来的交叉熵损失函数，改善生成图片质量不高以及训练过程不稳定的问题；

利用人脸关键点检测器检测人脸图像的脸部区域轮廓并得到相关Mask(掩码)，将第一生成素描及其Mask、真实素描及其Mask做位运算得到了第一生成素描人脸区域和真实素描人脸区域，Mask判别器D_mask通过判别步骤中得到的第一生成素描的脸部区域和真实素描的脸部区域，加强素描生成器对面部区域的生成。

进一步地，素描生成器G和照片生成器F分别包括第一模块、第二模块、第三模块和第四模块：第一模块是3个卷积层，第二模块包括6个残差块，第三模块包括训练后的VGG素描分类器模型的特征层网络以及3个下采样层，第四模块包括2个反卷积层以及1个卷积层；

其中，第三模块的3个下采样层将图片经过VGG素描分类器模型的特征层网络后的特征变化到和第二模块的特征一样，将第二模块和第三模块的特征进行拼接后输入到第四模块中，最终输出目标域图片。

进一步地，照片判别器D_p、素描判别器D_s和Mask判别器D_mask均包括6层卷积层。

相比与现有技术，本发明的优点在于：

简单的灰度图处理并不能将图片变成具有素描画效果的图片。本发明对比该经典的传统算法具有转化迅速，素描的色调效果以及其他艺术效果明显。

对于原始CycleGAN模型，存在收敛困难、局部模糊、生成过程不确定性的问题，本发明则很好地解决了这个问题，生成图像更加清晰。此外，改进后的CycleGAN网络生成图像色调更加丰富。

改进后的CycleGAN网络生成的素描图片就整体感觉和艺术类素描的效果比较接近，背景的色调与真实的素描保持一致，加入感知损失有助于生成干净的背景和更相似的高层语义，加入VGG特征则有助于模型的收敛，加入Mask区域判别器有助于生成更加逼真的人脸区域。

附图说明

图1为本发明实施例中一种人脸照片到艺术素描的生成方法的流程图；

图2为本发明实施例中改进循环生成对抗(CycleGAN)网络的结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合附图并举实施例，对本发明的具体实施进行详细说明。

实施例：

一种人脸照片到艺术素描的生成方法，如图1所示，包括以下步骤：

本实施例中，所述VGG素描分类器模型采用VGG19。

本实施例中，获取素描数据集，按照素描数据集中写生对象的年龄和性别分成6类：男青年、女青年、男中年、女中年、男老年、女老年，并且用素描数据集对VGG素描分类器模型进行参数训练，使VGG素描分类器模型的分类精度达到规定的阈值，使得VGG素描分类器模型对于素描的高级特征具有良好的提取能力。

将训练后的VGG素描分类器模型的特征层网络加入循环生成对抗(CycleGAN)网络的生成器网络中，构建改进循环生成对抗(CycleGAN)网络，如图2所示，包括素描生成器G、照片生成器F、照片判别器D_p、素描判别器D_s和Mask判别器D_mask；

本实施例中，素描生成器G和照片生成器F分别包括第一模块、第二模块、第三模块和第四模块：第一模块是3个卷积层，第二模块包括6个残差块，第三模块包括训练后的VGG素描分类器模型的特征层网络以及3个下采样层，第四模块包括2个反卷积层以及1个卷积层；

本实施例中，照片判别器D_p、素描判别器D_s和Mask判别器D_mask均包括6层卷积层。

本实施例中，使用的素描数据集收集自素描名家作品，以及考场中高分的学生作品，一共3500多张。

在数据预处理时，为了让改进循环生成对抗(CycleGAN)网络学习到素描的灰度色彩，对人脸图片-素描数据集中随机10％的图片进行灰度化；并通过翻转、缩放、随机裁剪手段对人脸图片-素描数据集进行翻倍，增加数据量及其多态性，得到增广的人脸图片-素描数据集。

对于人脸图片-素描数据集，使用人脸关键点检测器检测并得到每一张人脸图片和素描图像的脸部轮廓区域掩码Mask。

在训练生成器的阶段，对于真实照片、第一生成照片、真实素描和第二生成素描，使用训练后的VGG素描分类器模型提取卷积特征后计算真实照片和第一生成照片之间，真实素描和第二生成素描之间的感知损失，促使真实照片和第一生成照片，真实素描和第二生成素描在语义上面更加相似。

在训练判别器的阶段，使用最小二乘损失代替原来的交叉熵损失函数，改善生成图片质量不高以及训练过程不稳定的问题；

Claims

1.一种人脸照片到艺术素描的生成方法，其特征在于，包括以下步骤：

S1、训练VGG素描分类器模型，将训练后的VGG素描分类器模型的特征层网络加入循环生成对抗网络的生成器网络中，构建改进循环生成对抗网络；将训练后的VGG素描分类器模型的特征层网络加入循环生成对抗网络的生成器网络中，构建改进循环生成对抗网络，包括素描生成器G、照片生成器F、照片判别器D_p、素描判别器D_s和Mask判别器D_mask；

真实照片输入素描生成器G，经过VGG素描分类器模型后得到图片高层语义特征并加入到素描生成器G中，素描生成器G输出第一生成素描；第一生成素描输入照片生成器F，经过VGG素描分类器模型得到图片高层语义特征并加入到照片生成器F中，得到第一生成照片；第一生成素描和其掩码Mask做位运算得到第一生成素描的脸部区域，其中Mask由人脸关键点检测器得到；

真实素描输入照片生成器F，经过VGG素描分类器模型后得到图片高层语义特征并加入到照片生成器F中，照片生成器F输出第二生成照片；第二生成照片输入素描生成器G，经过VGG素描分类器模型得到图片高层语义特征并加入到素描生成器G中，得到第二生成素描；真实素描和其掩码Mask做位运算得到真实素描的人脸区域；

判别阶段：固定素描生成器G和照片生成器F，将真实照片和第二生成照片输入照片判别器D_p中进行判别、真实素描和第一生成素描输入素描判别器D_s中进行判别、真实素描的脸部区域和第一生成素描的脸部区域输入Mask判别器D_mask中进行判别，得到损失函数后进行反向传播，更新判别器的参数；

S3、将增广的人脸图片-素描数据集的图像数据输入改进循环生成对抗网络中进行训练，用人脸掩码得到素描五官区域进行判别，使改进循环生成对抗网络的生成器加强人脸区域生成，得到训练好的改进循环生成对抗网络；

S4、将待转化的人脸照片输入到训练好的改进循环生成对抗网络中，获得转化后的艺术素描。

2.根据权利要求1所述的一种人脸照片到艺术素描的生成方法，其特征在于，步骤S1中，所述VGG素描分类器模型采用VGG19。

3.根据权利要求1所述的一种人脸照片到艺术素描的生成方法，其特征在于，步骤S1中，获取素描数据集，按照素描数据集中写生对象的年龄和性别分成若干类，并且用素描数据集对VGG素描分类器模型进行参数训练，使VGG素描分类器模型的分类精度达到规定的阈值。

4.根据权利要求1所述的一种人脸照片到艺术素描的生成方法，其特征在于，步骤S2中，在数据预处理时，为了让改进循环生成对抗网络学习到素描的灰度色彩，对人脸图片-素描数据集中随机10％的图片进行灰度化；并通过翻转、缩放、随机裁剪手段对人脸图片-素描数据集进行翻倍，增加数据量及其多态性，得到增广的人脸图片-素描数据集。

5.根据权利要求1所述的一种人脸照片到艺术素描的生成方法，其特征在于，步骤S2中，对于人脸图片-素描数据集，使用人脸关键点检测器检测并得到每一张人脸图片和素描图像的脸部轮廓区域掩码Mask。

6.根据权利要求1所述的一种人脸照片到艺术素描的生成方法，其特征在于，步骤S3中，在训练生成器的阶段，对于真实照片、第一生成照片、真实素描和第二生成素描，使用训练后的VGG素描分类器模型提取卷积特征后计算真实照片和第一生成照片之间，真实素描和第二生成素描之间的感知损失。

7.根据权利要求1所述的一种人脸照片到艺术素描的生成方法，其特征在于，步骤S3中，在训练判别器的阶段，使用最小二乘损失代替原来的交叉熵损失函数；

8.根据权利要求1所述的一种人脸照片到艺术素描的生成方法，其特征在于，素描生成器G和照片生成器F分别包括第一模块、第二模块、第三模块和第四模块：第一模块是3个卷积层，第二模块包括6个残差块，第三模块包括训练后的VGG素描分类器模型的特征层网络以及3个下采样层，第四模块包括2个反卷积层以及1个卷积层；

9.根据权利要求1所述的一种人脸照片到艺术素描的生成方法，其特征在于，照片判别器D_p、素描判别器D_s和Mask判别器D_mask均包括6层卷积层。