CN110175567A - 基于wgan-gp和u-net的素描—照片转化方法 - Google Patents

基于wgan-gp和u-net的素描—照片转化方法 Download PDF

Info

Publication number
CN110175567A
CN110175567A CN201910448411.XA CN201910448411A CN110175567A CN 110175567 A CN110175567 A CN 110175567A CN 201910448411 A CN201910448411 A CN 201910448411A CN 110175567 A CN110175567 A CN 110175567A
Authority
CN
China
Prior art keywords
photo
wgan
generator
picture
sketch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910448411.XA
Other languages
English (en)
Inventor
王世刚
闵佳媛
韦健
赵岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN201910448411.XA priority Critical patent/CN110175567A/zh
Publication of CN110175567A publication Critical patent/CN110175567A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

基于WGAN‑GP和U‑NET的素描‑照片转化方法属图像处理和异质图像转化领域,本发明首先获取人脸素描‑照片数据库FERET、CUHK、IIIT‑D,进行图片裁剪和调整图片大小,然后对数据进行数据增强,最后用WGAN‑GP和U‑NET生成测试集里素描对应的照片;本发明利用WGAN‑GP解决了梯度爆炸和梯度消失的问题,可较好地生成人脸照片;利用U‑NET作为生成器结构,利用U型结构较好地还原图片的细节;利用patch判别器,减少参数数量,有助于生成高质量图片;本发明可生成较真实的照片,细节完整,可很好地还原素描的真实样貌。

Description

基于WGAN-GP和U-NET的素描—照片转化方法
技术领域
本发明属图像处理和异质图像转化技术领域,具体涉及一种基于WGAN-GP和U-NET的素描—照片转化方法。
背景技术
公安部门备有每位公民照片组成的照片数据库,用来确定犯罪嫌疑人的身份,但实际中一般较难获取犯罪嫌疑人的照片,但却可以在目击证人和画像师的合作下,得到一幅犯罪嫌疑人的画像来进行后续的人脸识别。由于画像和人脸照片在纹理表达上的差异,直接利用传统的人脸识别方法,是很难取得满意的识别效果的。因此,将画像转化为照片可以有效缩小两者纹理上的差距,进而提高识别率。
针对这一问题,研究人员已经提出了素描—照片转化方法,大致可分为两种类型。第一种类型是基于online学习的data-driven的方法,通过输入照片以后,利用训练照片画像对来合成画像或者由画像合成照片。但由于data-driven方法需要在线学习,所以导致速度比较慢,但纹理比较丰富,更像画像。第二种类型是基于offline学习的model-driven的方法,则是通过机器学习学到model以后,不再需要训练样本,将输入通过映射函数得到生成的画像,这种方法的优点是训练过程虽然很慢,但是合成速度很快,细节比较好,不足是合成图像纹理不够丰富,风格更像画像,不太像照片。
关于data-driven方法主要包含两种方法,一部分是基于稀疏表示的;另外一部分是基于概率图模型的。model-driven主要包括线性model和非线性model,非线性模型包括CNN神经网络、GAN对抗神经网络、ResNet等主要基于深度学习的方法,基于深度学习的方法对样本数量有很高的要求,而在实际中,人脸素描—照片数据库造价高昂且不易获取,为该方法的发展添加了许多障碍。
由于以上算法的缺陷,在实际应用中很难取得理想的效果,故有必要进行改进。
发明内容
本发明的目的在于提供一种使生成的照片更加清晰真实的基于WGAN-GP和U-NET的素描--照片的转化方法。
本发明的一种基于WGAN-GP和U-NET的素描--照片转化方法,包括下列步骤:
1.1获取人脸素描--照片数据库:FERET、CUHK、IIIT-D;
1.2将素描--照片对进行裁剪,使其人脸的分布比例基本相等;
1.3使用“水平镜像”方法,对裁剪后的素描--照片对进行数据库增强,将数据库扩大到原数据库的二倍,并将素描--照片压缩至256*256;
1.4使用改进的WGAN网络,构建WGAN-GP对抗神经网络,网络的各项参数的确定包括下列步骤:
1.4.1由数据量和GPU确定epochs=100,batch_size=32,sample_interval=50,通道数设为3;
1.4.2生成器每迭代一次,判别器迭代五次;
1.4.3构建生成器:使用U-NET网络,包括下列步骤:
1.4.3.1U-NET网络设计:“U-NET”网络结构即在“Encoder-decoder”编码器-解码器之间添加连接层,生成器使用的卷积核为4*4,之后跟2*2、步长为2的最大池化层;使用下采样的激活函数‘relu’、上采样激活函数‘tanh’,采用‘same’模式生成前后大小一致的图片,作为生成器的输出;
1.4.3.2损失函数:采用L1损失函数和WGAN-GP损失函数;
L1损失函数也被叫做最小化绝对误差(Least Absolute Error);LAE就是真实的人脸照片的像素值yi和生成器生成的“假”照片的像素值f(xi)之间像素差值DL1的绝对值的和,其公式为:
其中:yi为人脸照片的每一点的像素值,f(xi)代表生成器生成图片的每一点的像素值,DL1是平均绝对误差(MAE);
WGAN-GP生成器损失函数的公式为:
其中:Pg为生成器产生的“假”照片分布;
综上,Loss函数的公式为:
其中:LWGAN-GP(G,D)为生成器损失函数;为L1损失函数;根据实际需要调整α,β的比例即可,本发明取α:β=1:100。
1.5判别器Discriminator主要是指一个判别网络,判别一张图片是“真”还是“假”。判别器的输入参数是生成器Generator生成的图片,输出D(x)代表x为真实图片的概率,如果为1,就代表100%是真实的图片,而输出为0,就代表不可能是真实的图片。如果输出的概率是0.5,则说明判别器无法判断生成的图片的真假,生成器图片质量达到最佳。构建判别器:使用patch判别器,包括下列步骤:
1.5.1patch判别器不是以原始判别器将整个图像当做输入,而是以每一小块的patch来进行,把生成器生成“假”照片划分为N*N个patch后,对每一块进行判别真假;当N=1时,相当于逐像素,效率低;当N=256时,相当于对一幅图像的操作,细节精确度下降;当取patch=4,将图片分为4*4个patch,每一块大小70*70,用‘same’模式生成前后大小相等的图片。实验时每次使用70*70输入的全卷积神经网络,最后一层每个像素通过sigmoid函数激活,输出为真的概率值,再对所有图像块的判别结果取平均得到最终损失。WGAN-GP判别器的损失函数为:
即:WGAN Loss+gradient penalty梯度惩罚,其中,Pr为真实照片分布,Pg为生成器产生的“假”照片分布,xr~Pr,xg~Pg,为xr和xg的连线上的随机差值采样,所满足的分布。λ为惩罚项因子,设为1。惩罚项中的常数1为Lipschitz常数K,为了使D的梯度的倒数小于等于K,同时又要保证学习速率不能太慢,本发明直接采用原始参数K=1;
patch判别器以卷积方式划过整个图像,平均所有的响应来提供判别器最终的输出降低输入维度,减少参数数量,因此可以高效计算任意尺寸的图像,也有助于生成更高质量的图像,可生成高质量的结果。
本发明采用一种基于WGAN-GP对抗神经网络和U-NET网络结构的人脸素描-照片转化方法,在获取到人脸素描-照片数据库后,首先将素描-照片对进行裁剪,使其尽量分布相同;之后使用数据增强的方法来扩大数据集。由于对抗神经网络GAN可以较好的生成图片,因此本发明使用GAN网络的改进网络WGAN-GP,WGAN-GP通过增加梯度惩罚函数改进了WGAN网络的Lipschitz限制和Weight Clipping导致的参数集中化和调参上的梯度爆炸和梯度消失问题。生成器选择U-NET网络结构,通过对称的U型结构可以很好的生成照片细节;损失函数选择L1重构函数和WGAN-GP损失函数,既提高了生成照片的速率,又可以很好的生成照片细节。判别器选择了patchGAN结构,即patch判别器:patch判别器通过将生成的照片和真实照片映射为NxN的patch(矩阵)X,Xij的值代表每个patch为真样本的概率,将Xij求均值,即为判别器最终输出。通过此方法提高了精度和准确度。
本发明结合WGAN-GP和U-NET进行人脸素描—照片转化,与使用传统算法进行转化相比真实感更高,细节还原较好;比使用传统GAN网络的算法生成的照片更加清晰真实,没有素描感。本发明对公安部门根据素描确定人物身份有很好的启示作用。
附图说明
图1为发明名称的流程图
图2为U-NET网络的结构图
图3为patch判别器的流程图
图4为迭代20000次后生成的人脸照片
具体实施方式
下面结合附图进一步说明本发明的实施流程,基于WGAN-GP和U-NET的素描—照片转化方法,包括提前处理好素描-照片数据库,如图1所示,该方法包括以下步骤:
1.1获取人脸素描—照片数据库:FERET、CUHK、IIIT-D;
1.2将素描—照片对进行裁剪,使其人脸的分布比例基本相等;
1.3使用“水平镜像”方法对裁剪后的素描—照片对进行数据库增强,将数据库扩大至原数据库的二倍,并将素描—照片压缩至256*256;
1.4GAN的基本思想源自博弈论的二人零和博弈,由一个生成器Generator和一个判别器Discriminator构成,通过对抗学习的方式进行训练网络;使用改进的WGAN网络,构建WGAN-GP对抗神经网络,网络的各项参数的确定包括以下步骤:
1.4.1由数据量和GPU确定epochs=100,batch_size=32,sample_interval=50,通道数设为3;
1.4.2生成器每迭代一次,鉴别器迭代五次。
1.4.3用生成器G(Generator)生成“假”照片,该“假”照片的数据分布与真照片相似,即:
PG(z)≈Pdata(x) (1)
构建生成器:使用U-NET网络结构,包括下列步骤:
1.4.3.1U-NET网络设计:“U-NET”网络结构即在“Encoder-decoder”编码器-解码器之间添加连接层,用于保留不同分辨率下像素级的细节信息,可以有效保留低维特征。U-NET网络取消了全连接层,可以很大程度上减少需要训练的参数,并得益于特殊的对称’U’型结构可以很好地保留图片中的所有信息。如图2所示,生成器使用的卷积核为4*4,之后跟2*2、步长为2的最大池化层(步长为2)。使用下采样的激活函数’relu’,上采样激活函数’tanh’,采用’same’模式生成前后大小一致的图片,共16层卷积层,作为生成器的输出;
1.4.3.2损失函数:采用L1损失函数和WGAN-GP损失函数;
L1损失函数也被叫做最小化绝对误差(Least Absolute Error);LAE就是真实的人脸照片的像素值yi和生成器生成的“假”照片的像素值f(xi)之间像素差值DL1的绝对值的和;即:
其中:yi为人脸照片的每一点的像素值,f(xi)代表生成器生成图片的每一点的像素值,DL1是平均绝对误差(MAE);
WGAN-GP生成器损失函数为:
Pg为生成器产生的“假”照片分布;
综上,Loss函数为:
其中,LWGAN-GP(G,D)为生成器损失函数,为L1损失函数。
根据实际需要调整α,β的比例即可,本发明取α:β=1:100;
1.5判别器Discriminator主要是指一个判别网络,判别一张图片是“真”还是“假”。判别器的输入参数是生成器Generator生成的图片,输出D(x)代表x为真实图片的概率,如果为1,就代表100%是真实的图片,而输出为0,就代表不可能是真实的图片。如果输出的概率是0.5,则说明判别器无法判断生成的图片的真假,生成器图片质量达到最佳。如图3所示,判别器通过评判生成器生成图片的“真”“假”反馈给生成器,生成器从而更新。以下判别器的构建步骤:
1.5.1判别器结构的设计:本发明选择patchGAN结构来设计判别器,即patch判别器。Patch判别器不是以原始判别器将整个图像当做输入,而是以每一小块的patch来进行的。如图3所示,把生成器生成“假”照片划分为N*N个patch后,对于每一块进行判别真假。当N=1的时候,相当于逐像素,效率较慢;当N=128时,相当于一幅图像的操作,细节精确度下降。因此本发明取卷积核大小都为4×4,patch=4,即将图片分为4*4个patch,每一块大小70*70。用’same’模式生成前后大小相等的图片。实验时每次使用70*70输入的全卷积神经网络,最后一层每个像素通过sigmoid函数激活,输出为真的概率值,再对所有图像块的判别结果取平均得到最终损失。WGAN-GP判别器的损失函数为:
即:WGAN Loss+gradient penalty梯度惩罚,其中,Pr为真实照片分布,Pg为生成器产生的“假”照片分布,xr~Pr,xg~Pg,为xr和xg的连线上的随机差值采样,所满足的分布。λ为惩罚项因子,设为1。惩罚项中的常数1为Lipschitz常数K,为了使D的梯度的倒数小于等于K,同时又要保证学习速率不能太慢,本发明直接采用原始参数K=1。
patch判别器的分块处理方法降低输入维度,减少参数数量,因此可以高效计算任意尺寸的图像,也有助于生成更高质量的图像。
如图4所示,经过两万次迭代,可以训练该网络生成质量较高的照片,细节清晰,头发质感逼真,眼睛可以清楚的区分出瞳孔和眼球,甚至墨镜和眼镜也可以较好的生成。

Claims (1)

1.一种基于WGAN-GP和U-NET的素描--照片转化方法,其特征在于包括下列步骤:
1.1获取人脸素描--照片数据库:FERET、CUHK、IIIT-D;
1.2将素描--照片对进行裁剪,使其人脸的分布比例基本相等;
1.3使用“水平镜像”方法,对裁剪后的素描--照片对进行数据库增强,将数据库扩大到原数据库的二倍,并将素描--照片压缩至256*256;
1.4使用改进的WGAN网络,构建WGAN-GP对抗神经网络,网络的各项参数的确定包括下列步骤:
1.4.1由数据量和GPU确定epochs=100,batch_size=32,sample_interval=50,通道数设为3;
1.4.2生成器每迭代一次,判别器迭代五次;
1.4.3构建生成器:使用U-NET网络,包括下列步骤:
1.4.3.1 U-NET网络设计:“U-NET”网络结构即在“Encoder-decoder”编码器-解码器之间添加连接层,生成器使用的卷积核为4*4,之后跟2*2、步长为2的最大池化层;使用下采样的激活函数‘relu’、上采样激活函数‘tanh’,采用‘same’模式生成前后大小一致的图片,作为生成器的输出;
1.4.3.2损失函数:采用L1损失函数和WGAN-GP损失函数;
L1损失函数也被叫做最小化绝对误差(Least Absolute Error);LAE就是真实的人脸照片的像素值yi和生成器生成的“假”照片的像素值f(xi)之间像素差值DL1的绝对值的和,其公式为:
其中:yi为人脸照片的每一点的像素值,f(xi)代表生成器生成图片的每一点的像素值,DL1是平均绝对误差(MAE);
WGAN-GP生成器损失函数的公式为:
其中:Pg为生成器产生的“假”照片分布;
综上,Loss函数的公式为:
其中:LWGAN-GP(G,D)为生成器损失函数;为L1损失函数;根据实际需要调整α,β的比例;
1.5构建判别器:使用patch判别器,包括下列步骤:
1.5.1 Patch判别器不是以原始判别器将整个图像当做输入,而是以每一小块的patch来进行,把生成器生成“假”照片划分为N*N个patch后,对每一块进行判别真假;当N=1时,相当于逐像素,效率低;当N=256时,相当于对一幅图像的操作,细节精确度下降;当取patch=4,将图片分为4*4个patch,每一块大小70*70,用‘same’模式生成前后大小相等的图片;由于分块判断,patch判别器以卷积方式划过整个图像,平均所有的响应来提供判别器最终的输出,能生成高质量的结果,WGAN-GP判别器的损失函数公式为:
其中:Pr为真实照片分布;Pg为生成器产生的“假”照片分布;xr~Pr,xg~Pg,为xr和xg的连线上的随机差值采样;所满足的分布,即:WGAN Loss+gradient penalty梯度惩罚,其中λ为惩罚项因子,设为1。
CN201910448411.XA 2019-05-28 2019-05-28 基于wgan-gp和u-net的素描—照片转化方法 Pending CN110175567A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910448411.XA CN110175567A (zh) 2019-05-28 2019-05-28 基于wgan-gp和u-net的素描—照片转化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910448411.XA CN110175567A (zh) 2019-05-28 2019-05-28 基于wgan-gp和u-net的素描—照片转化方法

Publications (1)

Publication Number Publication Date
CN110175567A true CN110175567A (zh) 2019-08-27

Family

ID=67696179

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910448411.XA Pending CN110175567A (zh) 2019-05-28 2019-05-28 基于wgan-gp和u-net的素描—照片转化方法

Country Status (1)

Country Link
CN (1) CN110175567A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112907692A (zh) * 2021-04-09 2021-06-04 吉林大学 一种基于sfrc-gan的从素描到人脸重建方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108550107A (zh) * 2018-04-27 2018-09-18 Oppo广东移动通信有限公司 一种图片处理方法、图片处理装置及移动终端
CN109064389A (zh) * 2018-08-01 2018-12-21 福州大学 一种手绘线条画生成现实感图像的深度学习方法
EP3444776A1 (en) * 2017-08-15 2019-02-20 Siemens Healthcare GmbH Topogram prediction from surface data in medical imaging
CN109785258A (zh) * 2019-01-10 2019-05-21 华南理工大学 一种基于多判别器生成对抗网络的人脸图像修复方法
CN109801230A (zh) * 2018-12-21 2019-05-24 河海大学 一种基于新编码器结构的图像修复方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3444776A1 (en) * 2017-08-15 2019-02-20 Siemens Healthcare GmbH Topogram prediction from surface data in medical imaging
US20190057521A1 (en) * 2017-08-15 2019-02-21 Siemens Healthcare Gmbh Topogram Prediction from Surface Data in Medical Imaging
CN108550107A (zh) * 2018-04-27 2018-09-18 Oppo广东移动通信有限公司 一种图片处理方法、图片处理装置及移动终端
CN109064389A (zh) * 2018-08-01 2018-12-21 福州大学 一种手绘线条画生成现实感图像的深度学习方法
CN109801230A (zh) * 2018-12-21 2019-05-24 河海大学 一种基于新编码器结构的图像修复方法
CN109785258A (zh) * 2019-01-10 2019-05-21 华南理工大学 一种基于多判别器生成对抗网络的人脸图像修复方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ISHAAN GULRAJANI等: "Improved training of wasserstein GANs", 《PROCEEDINGS OF THE 31ST INTERNATIONAL CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS》 *
RONNEBERGER O等: "U-net: Convolutional networks for biomedical image segmentation", 《INTERNATIONAL CONFERENCE ON MEDICAL IMAGE COMPUTING AND COMPUTER-ASSISTED INTERVENTION》 *
蔡雨婷等: "基于双层级联GAN的草图到真实感图像的异质转换", 《模式识别与人工智能》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112907692A (zh) * 2021-04-09 2021-06-04 吉林大学 一种基于sfrc-gan的从素描到人脸重建方法
CN112907692B (zh) * 2021-04-09 2023-04-14 吉林大学 一种基于sfrc-gan的从素描到人脸重建方法

Similar Documents

Publication Publication Date Title
CN109509152A (zh) 一种基于特征融合的生成对抗网络的图像超分辨率重建方法
CN110211045A (zh) 基于srgan网络的超分辨率人脸图像重建方法
CN110827213A (zh) 一种基于生成式对抗网络的超分辨率图像修复方法
CN111985405B (zh) 一种人脸年龄合成方法及系统
CN109255831A (zh) 基于多任务学习的单视图人脸三维重建及纹理生成的方法
CN110458844A (zh) 一种低光照场景的语义分割方法
CN107977629A (zh) 一种基于特征分离对抗网络的人脸图像衰老合成方法
Li et al. Age progression and regression with spatial attention modules
CN110378985A (zh) 一种基于gan的动漫绘画辅助创作方法
CN111080513A (zh) 一种基于注意力机制的人脸图像超分辨率方法
CN109685716A (zh) 一种基于高斯编码反馈的生成对抗网络的图像超分辨率重建方法
CN111798369A (zh) 一种基于循环条件生成对抗网络的人脸衰老图像合成方法
CN115546198A (zh) 一种基于循环生成对抗网络的近红外图像彩色化方法
CN111161137A (zh) 一种基于神经网络的多风格国画花生成方法
CN110852935A (zh) 一种人脸图像随年龄变化的图像处理方法
Zhu et al. Facial aging and rejuvenation by conditional multi-adversarial autoencoder with ordinal regression
CN111724458A (zh) 一种语音驱动的三维人脸动画生成方法及网络结构
CN115034959A (zh) 一种基于跨通道融合空间注意力机制的高清图像翻译方法
CN113724354A (zh) 基于参考图颜色风格的灰度图像着色方法
CN109345604A (zh) 图片处理方法、计算机设备和存储介质
CN110175567A (zh) 基于wgan-gp和u-net的素描—照片转化方法
Liu et al. Learning shape and texture progression for young child face aging
CN117291803A (zh) Pamgan轻量化面部超分辨率重建方法
CN114783039B (zh) 一种3d人体模型驱动的运动迁移方法
CN116402949A (zh) 一种基于mdcm-gan的从素描到人脸重建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190827