CN110175567A - 基于wgan-gp和u-net的素描—照片转化方法 - Google Patents
基于wgan-gp和u-net的素描—照片转化方法 Download PDFInfo
- Publication number
- CN110175567A CN110175567A CN201910448411.XA CN201910448411A CN110175567A CN 110175567 A CN110175567 A CN 110175567A CN 201910448411 A CN201910448411 A CN 201910448411A CN 110175567 A CN110175567 A CN 110175567A
- Authority
- CN
- China
- Prior art keywords
- photo
- wgan
- generator
- picture
- sketch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
基于WGAN‑GP和U‑NET的素描‑照片转化方法属图像处理和异质图像转化领域,本发明首先获取人脸素描‑照片数据库FERET、CUHK、IIIT‑D,进行图片裁剪和调整图片大小,然后对数据进行数据增强,最后用WGAN‑GP和U‑NET生成测试集里素描对应的照片;本发明利用WGAN‑GP解决了梯度爆炸和梯度消失的问题,可较好地生成人脸照片;利用U‑NET作为生成器结构,利用U型结构较好地还原图片的细节;利用patch判别器,减少参数数量,有助于生成高质量图片;本发明可生成较真实的照片,细节完整,可很好地还原素描的真实样貌。
Description
技术领域
本发明属图像处理和异质图像转化技术领域,具体涉及一种基于WGAN-GP和U-NET的素描—照片转化方法。
背景技术
公安部门备有每位公民照片组成的照片数据库,用来确定犯罪嫌疑人的身份,但实际中一般较难获取犯罪嫌疑人的照片,但却可以在目击证人和画像师的合作下,得到一幅犯罪嫌疑人的画像来进行后续的人脸识别。由于画像和人脸照片在纹理表达上的差异,直接利用传统的人脸识别方法,是很难取得满意的识别效果的。因此,将画像转化为照片可以有效缩小两者纹理上的差距,进而提高识别率。
针对这一问题,研究人员已经提出了素描—照片转化方法,大致可分为两种类型。第一种类型是基于online学习的data-driven的方法,通过输入照片以后,利用训练照片画像对来合成画像或者由画像合成照片。但由于data-driven方法需要在线学习,所以导致速度比较慢,但纹理比较丰富,更像画像。第二种类型是基于offline学习的model-driven的方法,则是通过机器学习学到model以后,不再需要训练样本,将输入通过映射函数得到生成的画像,这种方法的优点是训练过程虽然很慢,但是合成速度很快,细节比较好,不足是合成图像纹理不够丰富,风格更像画像,不太像照片。
关于data-driven方法主要包含两种方法,一部分是基于稀疏表示的;另外一部分是基于概率图模型的。model-driven主要包括线性model和非线性model,非线性模型包括CNN神经网络、GAN对抗神经网络、ResNet等主要基于深度学习的方法,基于深度学习的方法对样本数量有很高的要求,而在实际中,人脸素描—照片数据库造价高昂且不易获取,为该方法的发展添加了许多障碍。
由于以上算法的缺陷,在实际应用中很难取得理想的效果,故有必要进行改进。
发明内容
本发明的目的在于提供一种使生成的照片更加清晰真实的基于WGAN-GP和U-NET的素描--照片的转化方法。
本发明的一种基于WGAN-GP和U-NET的素描--照片转化方法,包括下列步骤:
1.1获取人脸素描--照片数据库:FERET、CUHK、IIIT-D;
1.2将素描--照片对进行裁剪,使其人脸的分布比例基本相等;
1.3使用“水平镜像”方法,对裁剪后的素描--照片对进行数据库增强,将数据库扩大到原数据库的二倍,并将素描--照片压缩至256*256;
1.4使用改进的WGAN网络,构建WGAN-GP对抗神经网络,网络的各项参数的确定包括下列步骤:
1.4.1由数据量和GPU确定epochs=100,batch_size=32,sample_interval=50,通道数设为3;
1.4.2生成器每迭代一次,判别器迭代五次;
1.4.3构建生成器:使用U-NET网络,包括下列步骤:
1.4.3.1U-NET网络设计:“U-NET”网络结构即在“Encoder-decoder”编码器-解码器之间添加连接层,生成器使用的卷积核为4*4,之后跟2*2、步长为2的最大池化层;使用下采样的激活函数‘relu’、上采样激活函数‘tanh’,采用‘same’模式生成前后大小一致的图片,作为生成器的输出;
1.4.3.2损失函数:采用L1损失函数和WGAN-GP损失函数;
L1损失函数也被叫做最小化绝对误差(Least Absolute Error);LAE就是真实的人脸照片的像素值yi和生成器生成的“假”照片的像素值f(xi)之间像素差值DL1的绝对值的和,其公式为:
其中:yi为人脸照片的每一点的像素值,f(xi)代表生成器生成图片的每一点的像素值,DL1是平均绝对误差(MAE);
WGAN-GP生成器损失函数的公式为:
其中:Pg为生成器产生的“假”照片分布;
综上,Loss函数的公式为:
其中:LWGAN-GP(G,D)为生成器损失函数;为L1损失函数;根据实际需要调整α,β的比例即可,本发明取α:β=1:100。
1.5判别器Discriminator主要是指一个判别网络,判别一张图片是“真”还是“假”。判别器的输入参数是生成器Generator生成的图片,输出D(x)代表x为真实图片的概率,如果为1,就代表100%是真实的图片,而输出为0,就代表不可能是真实的图片。如果输出的概率是0.5,则说明判别器无法判断生成的图片的真假,生成器图片质量达到最佳。构建判别器:使用patch判别器,包括下列步骤:
1.5.1patch判别器不是以原始判别器将整个图像当做输入,而是以每一小块的patch来进行,把生成器生成“假”照片划分为N*N个patch后,对每一块进行判别真假;当N=1时,相当于逐像素,效率低;当N=256时,相当于对一幅图像的操作,细节精确度下降;当取patch=4,将图片分为4*4个patch,每一块大小70*70,用‘same’模式生成前后大小相等的图片。实验时每次使用70*70输入的全卷积神经网络,最后一层每个像素通过sigmoid函数激活,输出为真的概率值,再对所有图像块的判别结果取平均得到最终损失。WGAN-GP判别器的损失函数为:
即:WGAN Loss+gradient penalty梯度惩罚,其中,Pr为真实照片分布,Pg为生成器产生的“假”照片分布,xr~Pr,xg~Pg,为xr和xg的连线上的随机差值采样,为所满足的分布。λ为惩罚项因子,设为1。惩罚项中的常数1为Lipschitz常数K,为了使D的梯度的倒数小于等于K,同时又要保证学习速率不能太慢,本发明直接采用原始参数K=1;
patch判别器以卷积方式划过整个图像,平均所有的响应来提供判别器最终的输出降低输入维度,减少参数数量,因此可以高效计算任意尺寸的图像,也有助于生成更高质量的图像,可生成高质量的结果。
本发明采用一种基于WGAN-GP对抗神经网络和U-NET网络结构的人脸素描-照片转化方法,在获取到人脸素描-照片数据库后,首先将素描-照片对进行裁剪,使其尽量分布相同;之后使用数据增强的方法来扩大数据集。由于对抗神经网络GAN可以较好的生成图片,因此本发明使用GAN网络的改进网络WGAN-GP,WGAN-GP通过增加梯度惩罚函数改进了WGAN网络的Lipschitz限制和Weight Clipping导致的参数集中化和调参上的梯度爆炸和梯度消失问题。生成器选择U-NET网络结构,通过对称的U型结构可以很好的生成照片细节;损失函数选择L1重构函数和WGAN-GP损失函数,既提高了生成照片的速率,又可以很好的生成照片细节。判别器选择了patchGAN结构,即patch判别器:patch判别器通过将生成的照片和真实照片映射为NxN的patch(矩阵)X,Xij的值代表每个patch为真样本的概率,将Xij求均值,即为判别器最终输出。通过此方法提高了精度和准确度。
本发明结合WGAN-GP和U-NET进行人脸素描—照片转化,与使用传统算法进行转化相比真实感更高,细节还原较好;比使用传统GAN网络的算法生成的照片更加清晰真实,没有素描感。本发明对公安部门根据素描确定人物身份有很好的启示作用。
附图说明
图1为发明名称的流程图
图2为U-NET网络的结构图
图3为patch判别器的流程图
图4为迭代20000次后生成的人脸照片
具体实施方式
下面结合附图进一步说明本发明的实施流程,基于WGAN-GP和U-NET的素描—照片转化方法,包括提前处理好素描-照片数据库,如图1所示,该方法包括以下步骤:
1.1获取人脸素描—照片数据库:FERET、CUHK、IIIT-D;
1.2将素描—照片对进行裁剪,使其人脸的分布比例基本相等;
1.3使用“水平镜像”方法对裁剪后的素描—照片对进行数据库增强,将数据库扩大至原数据库的二倍,并将素描—照片压缩至256*256;
1.4GAN的基本思想源自博弈论的二人零和博弈,由一个生成器Generator和一个判别器Discriminator构成,通过对抗学习的方式进行训练网络;使用改进的WGAN网络,构建WGAN-GP对抗神经网络,网络的各项参数的确定包括以下步骤:
1.4.1由数据量和GPU确定epochs=100,batch_size=32,sample_interval=50,通道数设为3;
1.4.2生成器每迭代一次,鉴别器迭代五次。
1.4.3用生成器G(Generator)生成“假”照片,该“假”照片的数据分布与真照片相似,即:
PG(z)≈Pdata(x) (1)
构建生成器:使用U-NET网络结构,包括下列步骤:
1.4.3.1U-NET网络设计:“U-NET”网络结构即在“Encoder-decoder”编码器-解码器之间添加连接层,用于保留不同分辨率下像素级的细节信息,可以有效保留低维特征。U-NET网络取消了全连接层,可以很大程度上减少需要训练的参数,并得益于特殊的对称’U’型结构可以很好地保留图片中的所有信息。如图2所示,生成器使用的卷积核为4*4,之后跟2*2、步长为2的最大池化层(步长为2)。使用下采样的激活函数’relu’,上采样激活函数’tanh’,采用’same’模式生成前后大小一致的图片,共16层卷积层,作为生成器的输出;
1.4.3.2损失函数:采用L1损失函数和WGAN-GP损失函数;
L1损失函数也被叫做最小化绝对误差(Least Absolute Error);LAE就是真实的人脸照片的像素值yi和生成器生成的“假”照片的像素值f(xi)之间像素差值DL1的绝对值的和;即:
其中:yi为人脸照片的每一点的像素值,f(xi)代表生成器生成图片的每一点的像素值,DL1是平均绝对误差(MAE);
WGAN-GP生成器损失函数为:
Pg为生成器产生的“假”照片分布;
综上,Loss函数为:
其中,LWGAN-GP(G,D)为生成器损失函数,为L1损失函数。
根据实际需要调整α,β的比例即可,本发明取α:β=1:100;
1.5判别器Discriminator主要是指一个判别网络,判别一张图片是“真”还是“假”。判别器的输入参数是生成器Generator生成的图片,输出D(x)代表x为真实图片的概率,如果为1,就代表100%是真实的图片,而输出为0,就代表不可能是真实的图片。如果输出的概率是0.5,则说明判别器无法判断生成的图片的真假,生成器图片质量达到最佳。如图3所示,判别器通过评判生成器生成图片的“真”“假”反馈给生成器,生成器从而更新。以下判别器的构建步骤:
1.5.1判别器结构的设计:本发明选择patchGAN结构来设计判别器,即patch判别器。Patch判别器不是以原始判别器将整个图像当做输入,而是以每一小块的patch来进行的。如图3所示,把生成器生成“假”照片划分为N*N个patch后,对于每一块进行判别真假。当N=1的时候,相当于逐像素,效率较慢;当N=128时,相当于一幅图像的操作,细节精确度下降。因此本发明取卷积核大小都为4×4,patch=4,即将图片分为4*4个patch,每一块大小70*70。用’same’模式生成前后大小相等的图片。实验时每次使用70*70输入的全卷积神经网络,最后一层每个像素通过sigmoid函数激活,输出为真的概率值,再对所有图像块的判别结果取平均得到最终损失。WGAN-GP判别器的损失函数为:
即:WGAN Loss+gradient penalty梯度惩罚,其中,Pr为真实照片分布,Pg为生成器产生的“假”照片分布,xr~Pr,xg~Pg,为xr和xg的连线上的随机差值采样,为所满足的分布。λ为惩罚项因子,设为1。惩罚项中的常数1为Lipschitz常数K,为了使D的梯度的倒数小于等于K,同时又要保证学习速率不能太慢,本发明直接采用原始参数K=1。
patch判别器的分块处理方法降低输入维度,减少参数数量,因此可以高效计算任意尺寸的图像,也有助于生成更高质量的图像。
如图4所示,经过两万次迭代,可以训练该网络生成质量较高的照片,细节清晰,头发质感逼真,眼睛可以清楚的区分出瞳孔和眼球,甚至墨镜和眼镜也可以较好的生成。
Claims (1)
1.一种基于WGAN-GP和U-NET的素描--照片转化方法,其特征在于包括下列步骤:
1.1获取人脸素描--照片数据库:FERET、CUHK、IIIT-D;
1.2将素描--照片对进行裁剪,使其人脸的分布比例基本相等;
1.3使用“水平镜像”方法,对裁剪后的素描--照片对进行数据库增强,将数据库扩大到原数据库的二倍,并将素描--照片压缩至256*256;
1.4使用改进的WGAN网络,构建WGAN-GP对抗神经网络,网络的各项参数的确定包括下列步骤:
1.4.1由数据量和GPU确定epochs=100,batch_size=32,sample_interval=50,通道数设为3;
1.4.2生成器每迭代一次,判别器迭代五次;
1.4.3构建生成器:使用U-NET网络,包括下列步骤:
1.4.3.1 U-NET网络设计:“U-NET”网络结构即在“Encoder-decoder”编码器-解码器之间添加连接层,生成器使用的卷积核为4*4,之后跟2*2、步长为2的最大池化层;使用下采样的激活函数‘relu’、上采样激活函数‘tanh’,采用‘same’模式生成前后大小一致的图片,作为生成器的输出;
1.4.3.2损失函数:采用L1损失函数和WGAN-GP损失函数;
L1损失函数也被叫做最小化绝对误差(Least Absolute Error);LAE就是真实的人脸照片的像素值yi和生成器生成的“假”照片的像素值f(xi)之间像素差值DL1的绝对值的和,其公式为:
其中:yi为人脸照片的每一点的像素值,f(xi)代表生成器生成图片的每一点的像素值,DL1是平均绝对误差(MAE);
WGAN-GP生成器损失函数的公式为:
其中:Pg为生成器产生的“假”照片分布;
综上,Loss函数的公式为:
其中:LWGAN-GP(G,D)为生成器损失函数;为L1损失函数;根据实际需要调整α,β的比例;
1.5构建判别器:使用patch判别器,包括下列步骤:
1.5.1 Patch判别器不是以原始判别器将整个图像当做输入,而是以每一小块的patch来进行,把生成器生成“假”照片划分为N*N个patch后,对每一块进行判别真假;当N=1时,相当于逐像素,效率低;当N=256时,相当于对一幅图像的操作,细节精确度下降;当取patch=4,将图片分为4*4个patch,每一块大小70*70,用‘same’模式生成前后大小相等的图片;由于分块判断,patch判别器以卷积方式划过整个图像,平均所有的响应来提供判别器最终的输出,能生成高质量的结果,WGAN-GP判别器的损失函数公式为:
其中:Pr为真实照片分布;Pg为生成器产生的“假”照片分布;xr~Pr,xg~Pg,为xr和xg的连线上的随机差值采样;为所满足的分布,即:WGAN Loss+gradient penalty梯度惩罚,其中λ为惩罚项因子,设为1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910448411.XA CN110175567A (zh) | 2019-05-28 | 2019-05-28 | 基于wgan-gp和u-net的素描—照片转化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910448411.XA CN110175567A (zh) | 2019-05-28 | 2019-05-28 | 基于wgan-gp和u-net的素描—照片转化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110175567A true CN110175567A (zh) | 2019-08-27 |
Family
ID=67696179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910448411.XA Pending CN110175567A (zh) | 2019-05-28 | 2019-05-28 | 基于wgan-gp和u-net的素描—照片转化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110175567A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112907692A (zh) * | 2021-04-09 | 2021-06-04 | 吉林大学 | 一种基于sfrc-gan的从素描到人脸重建方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108550107A (zh) * | 2018-04-27 | 2018-09-18 | Oppo广东移动通信有限公司 | 一种图片处理方法、图片处理装置及移动终端 |
CN109064389A (zh) * | 2018-08-01 | 2018-12-21 | 福州大学 | 一种手绘线条画生成现实感图像的深度学习方法 |
EP3444776A1 (en) * | 2017-08-15 | 2019-02-20 | Siemens Healthcare GmbH | Topogram prediction from surface data in medical imaging |
CN109785258A (zh) * | 2019-01-10 | 2019-05-21 | 华南理工大学 | 一种基于多判别器生成对抗网络的人脸图像修复方法 |
CN109801230A (zh) * | 2018-12-21 | 2019-05-24 | 河海大学 | 一种基于新编码器结构的图像修复方法 |
-
2019
- 2019-05-28 CN CN201910448411.XA patent/CN110175567A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3444776A1 (en) * | 2017-08-15 | 2019-02-20 | Siemens Healthcare GmbH | Topogram prediction from surface data in medical imaging |
US20190057521A1 (en) * | 2017-08-15 | 2019-02-21 | Siemens Healthcare Gmbh | Topogram Prediction from Surface Data in Medical Imaging |
CN108550107A (zh) * | 2018-04-27 | 2018-09-18 | Oppo广东移动通信有限公司 | 一种图片处理方法、图片处理装置及移动终端 |
CN109064389A (zh) * | 2018-08-01 | 2018-12-21 | 福州大学 | 一种手绘线条画生成现实感图像的深度学习方法 |
CN109801230A (zh) * | 2018-12-21 | 2019-05-24 | 河海大学 | 一种基于新编码器结构的图像修复方法 |
CN109785258A (zh) * | 2019-01-10 | 2019-05-21 | 华南理工大学 | 一种基于多判别器生成对抗网络的人脸图像修复方法 |
Non-Patent Citations (3)
Title |
---|
ISHAAN GULRAJANI等: "Improved training of wasserstein GANs", 《PROCEEDINGS OF THE 31ST INTERNATIONAL CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS》 * |
RONNEBERGER O等: "U-net: Convolutional networks for biomedical image segmentation", 《INTERNATIONAL CONFERENCE ON MEDICAL IMAGE COMPUTING AND COMPUTER-ASSISTED INTERVENTION》 * |
蔡雨婷等: "基于双层级联GAN的草图到真实感图像的异质转换", 《模式识别与人工智能》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112907692A (zh) * | 2021-04-09 | 2021-06-04 | 吉林大学 | 一种基于sfrc-gan的从素描到人脸重建方法 |
CN112907692B (zh) * | 2021-04-09 | 2023-04-14 | 吉林大学 | 一种基于sfrc-gan的从素描到人脸重建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109509152A (zh) | 一种基于特征融合的生成对抗网络的图像超分辨率重建方法 | |
CN110211045A (zh) | 基于srgan网络的超分辨率人脸图像重建方法 | |
CN110827213A (zh) | 一种基于生成式对抗网络的超分辨率图像修复方法 | |
CN111985405B (zh) | 一种人脸年龄合成方法及系统 | |
CN109255831A (zh) | 基于多任务学习的单视图人脸三维重建及纹理生成的方法 | |
CN110458844A (zh) | 一种低光照场景的语义分割方法 | |
CN107977629A (zh) | 一种基于特征分离对抗网络的人脸图像衰老合成方法 | |
Li et al. | Age progression and regression with spatial attention modules | |
CN110378985A (zh) | 一种基于gan的动漫绘画辅助创作方法 | |
CN111080513A (zh) | 一种基于注意力机制的人脸图像超分辨率方法 | |
CN109685716A (zh) | 一种基于高斯编码反馈的生成对抗网络的图像超分辨率重建方法 | |
CN111798369A (zh) | 一种基于循环条件生成对抗网络的人脸衰老图像合成方法 | |
CN115546198A (zh) | 一种基于循环生成对抗网络的近红外图像彩色化方法 | |
CN111161137A (zh) | 一种基于神经网络的多风格国画花生成方法 | |
CN110852935A (zh) | 一种人脸图像随年龄变化的图像处理方法 | |
Zhu et al. | Facial aging and rejuvenation by conditional multi-adversarial autoencoder with ordinal regression | |
CN111724458A (zh) | 一种语音驱动的三维人脸动画生成方法及网络结构 | |
CN115034959A (zh) | 一种基于跨通道融合空间注意力机制的高清图像翻译方法 | |
CN113724354A (zh) | 基于参考图颜色风格的灰度图像着色方法 | |
CN109345604A (zh) | 图片处理方法、计算机设备和存储介质 | |
CN110175567A (zh) | 基于wgan-gp和u-net的素描—照片转化方法 | |
Liu et al. | Learning shape and texture progression for young child face aging | |
CN117291803A (zh) | Pamgan轻量化面部超分辨率重建方法 | |
CN114783039B (zh) | 一种3d人体模型驱动的运动迁移方法 | |
CN116402949A (zh) | 一种基于mdcm-gan的从素描到人脸重建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190827 |