CN112270300A - 基于生成式对抗网络的人脸素描图像转换为rgb图像方法 - Google Patents

基于生成式对抗网络的人脸素描图像转换为rgb图像方法 Download PDF

Info

Publication number
CN112270300A
CN112270300A CN202011283698.4A CN202011283698A CN112270300A CN 112270300 A CN112270300 A CN 112270300A CN 202011283698 A CN202011283698 A CN 202011283698A CN 112270300 A CN112270300 A CN 112270300A
Authority
CN
China
Prior art keywords
model
layer
output
image
inputting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011283698.4A
Other languages
English (en)
Inventor
赵辉煌
张丰
孙雅琪
林睦纲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hengyang Normal University
Original Assignee
Hengyang Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hengyang Normal University filed Critical Hengyang Normal University
Priority to CN202011283698.4A priority Critical patent/CN112270300A/zh
Publication of CN112270300A publication Critical patent/CN112270300A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于生成式对抗网络的人脸素描图像转换为RGB图像的方法,该方法针对单幅人脸素描图像转换为RGB图像,首先对数据集进行预处理,其次建立生成式对抗网络模型,并利用预处理后的数据集对其生成模型和判别模型进行交替训练,然后通过优化损失函数,得到训练好的模型,再将测试集输入模型进行测试,输出生成的彩色人脸图像,利用结构相似性(即SSIM)方法与真实的彩色人脸图像进行计算,得到两张图像最终的相似度;本发明填补了生成式对抗网络在人脸图像运用上的空缺,同时网络的泛化能力和鲁棒性更强,少量的数据集也可以作为训练样本,节省了人工搜集图像的时间且能够提高了模型的性能和图像转换的精度。

Description

基于生成式对抗网络的人脸素描图像转换为RGB图像方法
技术领域
本发明涉及深度学习技术领域,具体为基于生成式对抗网络的人脸素描图像转换为RGB图像的方法。
背景技术
随机深度学习的迅速发展,计算机图形学和计算机视觉已经成为人工智能领域最重要的技术之一。基于生成式对抗网络的图像转换是计算机视觉领域的一个新的研究热点,它的基本原理是利用生成式对抗网络将一张输入图像转换为相对应的输出图像的过程。目的是在图像转换问题上,输入一张图像能够得到相应的输出图像。
Phillip等人在2017年的CVPR(国际计算机视觉与模式识别大会上)发表了文章“Image-to-Image Translation with Conditional Adversarial NetWorks”证实了生成式对抗网络(GAN)在图像转换方面的巨大优势:通过将场景的一个可能转换成另一个图像,一种通用的GAN模型能够对各种结构的图像进行转换。从那以后,从那以后,在学术研究和产业应用对生成式对抗网络图像转换产生了极大的兴趣,基于生成式对抗网络的图像转换已成为学术界和工业界的研究热点之一。包括清华大学,北京大学,Stanford大学和UCBerkeley大学等国内外世界知名大学、研究院(所)和实验室在内的团队,对图像转换进行了广泛且深入的研究。
现有的图像到图像的转换方法存在的问题主要有:图像到图像的转换具有很大的随意性,因此很多情况下,效果不理想,有时候还会产生一些错误,比如说眼睛处有重影,背景颜色缺失,清晰度不高等,转换效果不理想。
发明内容
本发明的目的在于提供基于边缘增强和生成式对抗网络的人脸素描图像转换为RGB图像的方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:基于生成式对抗网络的人脸素描图像转换为RGB图像方法,包括以下步骤:
步骤1,使用CelebFaces属性数据集(CelebA)作为真实的彩色人脸图像数据来源,并对图像数据进行预处理,得到训练集A;
步骤2,构建基于生成式对抗网络的人脸素描图像转换为RGB图像的模型,包括生成模型G和判别模型D;
步骤3,将训练集A输入到基于生成式对抗网络的人脸素描图像转换为RGB图像的模型中,并采用单独交替训练方法训练生成模型G与判别模型D,采用监督性学习方式对生成式对抗网络模型进行训练,得到训练输出集B;
步骤4,利用条件生成式对抗网络模型的损失函数、生成模型G损失函数、判别模型D损失函数计算生成式对抗网络模型的损失函数,得到基于生成式对抗网络的模型最终的损失函数;
步骤5,重复步骤1,得到测试集C;
步骤6,将测试集C输入训练好的基于生成式对抗网络的模型进行测试,得到测试输出集E;
步骤7,重复步骤3,4,将训练集A进行600次迭代,用于训练模型,在重复步骤6,将测试集C进行5次迭代,得到最终的测试输出集E;
优选的,所述步骤1中,对CelebFaces属性数据集(CelebA)中的图像进行预处理,首先利用基于深层神经网络的OpenFace人脸检测方法,截取数据集中每张图像的人脸部分,得到彩色人脸图像数据集,再利用OpenCV方法对彩色人脸图像数据集进行归一化,得到大小为256*256的目标数据集即真实的彩色人脸图像集Target,最后利用Pillow库把真实的彩色人脸图像集Target转化为素描图像,作为输入图像即人脸素描图像Input,与真实的彩色人脸图像集Target一一配对,并将Input和Target作为训练集A。
优选的,所述步骤2中,构建基于生成式对抗网络的人脸素描图像转换为RGB图像的模型,包括生成模型G和判别模型D。生成模型G使用U-Net架构,由编码器和解码器组成,编码器中的第i层与解码器中第n-i层之间连通,使得解码器中的通道数变为原来的2倍。其中编码器进行下采样操作,包括8个卷积层,第一层为卷积层,卷积核为4*4,步长为2,第二层至第八层均为卷积核为4*4、步长为2的Convolution-BatchNorm-ReLU层;解码器包括8个反卷积层,进行上采样操作,8个标准化层,使反卷积后的值处于[0,1]之间,8个拼接层,用于拼接图像第3维的特征通道,最后返回Tanh函数。判别模型使用PatchGAN架构,包含3个卷积核为4*4、步长为2的1个Convolution-LReLU层,3个Convolution-BatchNorm-Dropout-LReLU层和1个全连接层,其中Dropout的概率为0.5。
优选的,所述步骤3中,将训练集A输入到模型中,开始交替训练模型,将训练集A输入到模型中,开始交替训练模型,
(1)固定判别模型D,训练生成模型G,首先训练生成模型G即U-Net结构中的编码器和解码器:
①编码器训练
A1.将1张3维256*256的人脸素描图像Input输入到编码器的第1层卷积层中,得到64维128*128像素大小的编码器卷积层输出特征图;
B1.将编码器第1层卷积层的输出特征图输入到编码器的第2层卷积层中,依次进行非线性LReLU变换、卷积和批标准化,得到128个64*64像素大小的编码器卷积层输出特征图;
C1.将编码器第2层卷积层的输出特征图输入到生成模型的第3层卷积层中,依次进行非线性LReLU变换、卷积和批标准化,得到256个32*32像素大小的编码器卷积层输出特征图;
D1.将编码器第3层卷积层的输出特征图输入到生成模型的第4层卷积层中,依次进行非线性LReLU变换、卷积和批标准化,得到512个16*16像素大小的编码器卷积层输出特征图;
E1.以此类推,将编码器的第4层卷积层输出的特征图输入到第5层,将第5层卷积层的输出特征图输入到第6层,将第层6卷积层的输出特征图输入到第7层,将第7层卷积层的输出特征图输入到第8层,依次进行非线性LReLU变换、卷积、下采样和批标准化操作,分别得到512个8*8像素大小的特征图、512个4*4像素大小的特征图、512个2*2像素大小的特征图、512个1*1像素大小的特征图;
②解码器训练
A2.将512个1*1像素大小的特征图输入解码器的第1层反卷积层中,依次对其进行非线性的ReLU变换、反卷积、批标准化、Dropout操作以及第3通道的Concat操作,得到1024个2*2像素大小的解码器卷积层输出特征图;
B2.将解码器第1层卷积层输出的特征图输入到解码器的第2层中,依次对其进行非线性的ReLU变换、反卷积、上采样、批标准化、Dropout操作以及第3通道的Concat操作,得到1024个4*4像素大小的解码器卷积层输出特征图;
C2.将解码器第2层卷积层输出的特征图输入到解码器的第3层中,依次对其进行非线性的ReLU变换、反卷积、上采样、批标准化、Dropout操作以及第3通道的Concat操作,得到1024个8*8像素大小的解码器卷积层输出特征图;
D2.将解码器第3层卷积层输出的特征图输入到解码器的第4层中,依次对其进行非线性的ReLU变换、反卷积、上采样、批标准化、Dropout操作以及第3通道的Concat操作,得到1024个16*16像素大小的解码器卷积层输出特征图;
E2.以此类推,将解码器的第4层卷积层输出的特征图输入到第5层,将第5层卷积层的输出特征图输入到第6层,将第层6卷积层的输出特征图输入到第7层,将第7层卷积层的输出特征图输入到第8层,依次进行非线性ReLU变换、反卷积、批标准化以及第3通道的Concat操作,第5层到第7层分别得到512个32*32像素大小的特征图、256个64*64像素大小的特征图、128个128*128像素大小的特征图,第8层得到的是1张3维的256*256像素大小的特征图,最后返回Tanh函数。
(2)固定生成模型G,训练判别模型D:
A3.将一张6维256*256像素大小的彩色人脸图像输入到判别模型D的第1层卷积层中,依次对其进行卷积和非线性LReLU变换操作,得到64个128*128像素大小的判别模型D第1层卷积层输出特征图;
B3.将判别模型D第1层卷积层输出的特征图输入第2层卷积层中,依次对其进行卷积、批标准化和非线性LReLU变换操作,得到128个64*64像素大小的判别模型D第2层卷积层输出特征图;
C3.将判别模型D第2层卷积层输出的特征图输入第3层卷积层中,依次对其进行卷积、批标准化和非线性LReLU变换操作,得到256个32*32像素大小的判别模型D第3层卷积层输出特征图;
D3.将判别模型D第3层卷积层输出的特征图输入第4层全连接层中,依次对其进行卷积、批标准化和非线性LReLU变换操作,得到512个32*32像素大小的判别模型D第4层卷积层输出特征图;
E3.将判别模型D第4层卷积层输出的特征图输入第5层全连接层中,对其进行Reshape操作,调整特征图的维度,输出3维的256*256的彩色人脸图像,最后返回Sigmoid函数。
优选的,所述步骤4中,交替训练生成模型G和判别模型D的损失函数,训练生成模型G使得目标函数最小化,而判别模型D使得目标函数最大化,即:
Figure BDA0002781625490000071
其中
Figure BDA0002781625490000072
表示训练判别模型D时,保证生成模型G部分保持不变,使得判别模型G可以准确地判别生成的彩色人脸图像Output,即使得1-D(x,G(x,z))的值接近于1,最大化Ex,y[logD(x,y)]的值。
Figure BDA0002781625490000073
表示训练生成模型G时保证判别模型D部分保持不变,使得生成的彩色人脸图像Output可以通过判别模型D的判断,即使得D(x,G(x,z))的值接近于1,并且最小化Ex,z[log(1-D(x,G(x,z)))]的值。
式中λ1为权重系数,用来调节生成模型G的损失函数LL1(G)的比重,从而得到更好地输出图像,LL1(G)表示真实的彩色人脸图像Target与生成的彩色人脸图像Output之间的距离,定义为:
LL1(G)=Ex,y,z[||y-G(x,z)||1],
其中y-G(x,z)表示真实的彩色人脸图像Target与生成的彩色人脸图像Output之间的差异。
与现有技术相比,本发明的有益效果是:
(1)本发明基于生成式对抗网络模型,实现了对人脸素描图像转换为RGB图像的方法,首次将人脸图像的转换运用在生成式对抗网络模型中,填补了生成式对抗网络在人脸图像运用上的空缺,同时网络的泛化能力和鲁棒性更强,少量的数据集也可以作为训练样本,节省了人工搜集图像的时间;
(2)本发明定义了一个新的损失函数,与传统的生成式对抗网络模型损失函数相比,在生成模型G中加入了边缘增强对生成图像的约束,能够生成与真实的彩色人脸图像更相似的图像,提高了模型的性能和图像转换的精度。
附图说明
图1是本发明的系统流程图;
图2是本发明的模型架构图;
图3是本发明实施例中的部分转换结果对比图;
其中a为原图,b为我们的方法输出的图像,c为Gatys方法输出的图像,d为CNNMRF方法输出的图像;
图4是本发明实施例中的部分转换结果对比图;
其中e为原图,f为我们的方法输出的图像,g为Gatys方法输出的图像,h为CNNMRF方法输出的图像。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清除、完整地描述,显然,说书的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术上人员在没有做出创造性劳动的前提下所获得的其他实施例,都属于本发明保护的范围。
请参阅图1-3,本发明提供一种技术方案:基于生成式对抗网络的人脸素描图像转换为RGB图像方法,包括以下步骤:
步骤1,使用CelebFaces属性数据集(CelebA)作为真实的彩色人脸图像数据来源,并对图像数据进行预处理,得到训练集A;
步骤2,构建基于生成式对抗网络的人脸素描图像转换为RGB图像的模型,包括生成模型G和判别模型D;
步骤3,将训练集A输入到基于生成式对抗网络的人脸素描图像转换为RGB图像的模型中,并采用单独交替训练方法训练生成模型G与判别模型D,采用监督性学习方式对生成式对抗网络模型进行训练,得到训练输出集B;
步骤4,利用条件生成式对抗网络模型的损失函数、生成模型G损失函数、判别模型D损失函数计算生成式对抗网络模型的损失函数,得到基于生成式对抗网络的模型最终的损失函数;
步骤5,重复步骤1,得到测试集C;
步骤6,将测试集C输入训练好的基于生成式对抗网络的模型进行测试,得到测试输出集E;
步骤7,重复步骤3,4,将训练集A进行600次迭代,用于训练模型,在重复步骤6,将测试集C进行5次迭代,得到最终的测试输出集E;
本发明中,步骤1中,对CelebFaces属性数据集(CelebA)中的图像进行预处理,首先利用基于深层神经网络的OpenFace人脸检测方法,截取数据集中每张图像的人脸部分,得到彩色人脸图像数据集,再利用OpenCV方法对彩色人脸图像数据集进行归一化,得到大小为256*256的目标数据集即真实的彩色人脸图像集Target,最后利用Pillow库把真实的彩色人脸图像集Target转化为素描图像,作为输入图像即人脸素描图像Input,与真实的彩色人脸图像集Target一一配对,并将Input和Target作为训练集A。
本发明中,步骤2中,构建基于生成式对抗网络的人脸素描图像转换为RGB图像的模型,包括生成模型G和判别模型D。生成模型G使用U-Net架构,由编码器和解码器组成,编码器中的第i层与解码器中第n-i层之间连通,使得解码器中的通道数变为原来的2倍。其中编码器进行下采样操作,包括8个卷积层,第一层为卷积层,卷积核为4*4,步长为2,第二层至第八层均为卷积核为4*4、步长为2的Convolution-BatchNorm-ReLU层;解码器包括8个反卷积层,进行上采样操作,8个标准化层,使反卷积后的值处于[0,1]之间,8个拼接层,用于拼接图像第3维的特征通道,最后返回Tanh函数。判别模型使用PatchGAN架构,包含3个卷积核为4*4、步长为2的1个Convolution-LReLU层,3个Convolution-BatchNorm-Dropout-LReLU层和1个全连接层,其中Dropout的概率为0.5。
本发明中,步骤3中,将训练集A输入到模型中,开始交替训练模型,将训练集A输入到模型中,开始交替训练模型,
(1)固定判别模型D,训练生成模型G,首先训练生成模型G即U-Net结构中的编码器和解码器:
①编码器训练
A1.将1张3维256*256的人脸素描图像Input输入到编码器的第1层卷积层中,得到64维128*128像素大小的编码器卷积层输出特征图;
B1.将编码器第1层卷积层的输出特征图输入到编码器的第2层卷积层中,依次进行非线性LReLU变换、卷积和批标准化,得到128个64*64像素大小的编码器卷积层输出特征图;
C1.将编码器第2层卷积层的输出特征图输入到生成模型的第3层卷积层中,依次进行非线性LReLU变换、卷积和批标准化,得到256个32*32像素大小的编码器卷积层输出特征图;
D1.将编码器第3层卷积层的输出特征图输入到生成模型的第4层卷积层中,依次进行非线性LReLU变换、卷积和批标准化,得到512个16*16像素大小的编码器卷积层输出特征图;
E1.以此类推,将编码器的第4层卷积层输出的特征图输入到第5层,将第5层卷积层的输出特征图输入到第6层,将第层6卷积层的输出特征图输入到第7层,将第7层卷积层的输出特征图输入到第8层,依次进行非线性LReLU变换、卷积、下采样和批标准化操作,分别得到512个8*8像素大小的特征图、512个4*4像素大小的特征图、512个2*2像素大小的特征图、512个1*1像素大小的特征图;
②解码器训练
A2.将512个1*1像素大小的特征图输入解码器的第1层反卷积层中,依次对其进行非线性的ReLU变换、反卷积、批标准化、Dropout操作以及第3通道的Concat操作,得到1024个2*2像素大小的解码器卷积层输出特征图;
B2.将解码器第1层卷积层输出的特征图输入到解码器的第2层中,依次对其进行非线性的ReLU变换、反卷积、上采样、批标准化、Dropout操作以及第3通道的Concat操作,得到1024个4*4像素大小的解码器卷积层输出特征图;
C2.将解码器第2层卷积层输出的特征图输入到解码器的第3层中,依次对其进行非线性的ReLU变换、反卷积、上采样、批标准化、Dropout操作以及第3通道的Concat操作,得到1024个8*8像素大小的解码器卷积层输出特征图;
D2.将解码器第3层卷积层输出的特征图输入到解码器的第4层中,依次对其进行非线性的ReLU变换、反卷积、上采样、批标准化、Dropout操作以及第3通道的Concat操作,得到1024个16*16像素大小的解码器卷积层输出特征图;
E2.以此类推,将解码器的第4层卷积层输出的特征图输入到第5层,将第5层卷积层的输出特征图输入到第6层,将第层6卷积层的输出特征图输入到第7层,将第7层卷积层的输出特征图输入到第8层,依次进行非线性ReLU变换、反卷积、批标准化以及第3通道的Concat操作,第5层到第7层分别得到512个32*32像素大小的特征图、256个64*64像素大小的特征图、128个128*128像素大小的特征图,第8层得到的是1张3维的256*256像素大小的特征图,最后返回Tanh函数。
(2)固定生成模型G,训练判别模型D:
A3.将一张6维256*256像素大小的彩色人脸图像输入到判别模型D的第1层卷积层中,依次对其进行卷积和非线性LReLU变换操作,得到64个128*128像素大小的判别模型D第1层卷积层输出特征图;
B3.将判别模型D第1层卷积层输出的特征图输入第2层卷积层中,依次对其进行卷积、批标准化和非线性LReLU变换操作,得到128个64*64像素大小的判别模型D第2层卷积层输出特征图;
C3.将判别模型D第2层卷积层输出的特征图输入第3层卷积层中,依次对其进行卷积、批标准化和非线性LReLU变换操作,得到256个32*32像素大小的判别模型D第3层卷积层输出特征图;
D3.将判别模型D第3层卷积层输出的特征图输入第4层全连接层中,依次对其进行卷积、批标准化和非线性LReLU变换操作,得到512个32*32像素大小的判别模型D第4层卷积层输出特征图;
E3.将判别模型D第4层卷积层输出的特征图输入第5层全连接层中,对其进行Reshape操作,调整特征图的维度,输出3维的256*256的彩色人脸图像,最后返回Sigmoid函数。
本发明中,步骤3中,交替训练生成模型G和判别模型D的损失函数,训练生成模型G使得目标函数最小化,而判别模型D使得目标函数最大化,即:
Figure BDA0002781625490000131
其中
Figure BDA0002781625490000132
表示训练判别模型D时,保证生成模型G部分保持不变,使得判别模型G可以准确地判别生成的彩色人脸图像Output,即使得1-D(x,G(x,z))的值接近于1,最大化Ex,y[logD(x,y)]的值。
Figure BDA0002781625490000141
表示训练生成模型G时保证判别模型D部分保持不变,使得生成的彩色人脸图像Output可以通过判别模型D的判断,即使得D(x,G(x,z))的值接近于1,并且最小化Ex,z[log(1-D(x,G(x,z)))]的值。
式中λ1为权重系数,用来调节生成模型G的损失函数LL1(G)的比重,从而得到更好地输出图像,LL1(G)表示真实的彩色人脸图像Target与生成的彩色人脸图像Output之间的距离,定义为:
LL1(G)=Ex,y,z[||y-G(x,z)||1],
其中y-G(x,z)表示真实的彩色人脸图像Target与生成的彩色人脸图像Output之间的差异。
下面结合仿真实验对本发明的效果做进一步描述。
1.仿真实验条件:
本发明仿真的硬件环境是:Intel(R)Core(TM)i5-5200U CPU@2.2GHz 2.2GHz,GPUNVIDIAGeForce GTX TITAN X,12GB内存;软件环境:Ubuntu 16.04,IPython2.7;Windows 10,MatlabR2014b。
2.仿真内容和结果:
本发明首先将CelebFaces属性数据集(CelebA)作为真实的彩色人脸图像数据来源,并对图像数据进行预处理,得到600张一一配对的真实的彩色人脸图像和素描人脸图像,作为训练集A,再构建生成式对抗网络模型,将训练集A输入到模型中,交替训练模型,首先固定判别模型,训练生成模型,其次固定生成模型,固定判别模型,设定batch_size为1,经过600次迭代,得到生成的600张彩色人脸图像。将测试集C输入到训练好的模型中,迭代5次之后,输出生成的200张彩色人脸图像,对其结构相似度即SSIM值进行了计算,表1统计了2张图像的相似度,并与Gatys方法和CNNMRF方法进行了比较。图3,图4分别是输出图像和真实图像。
Figure BDA0002781625490000151
从表1中可知,对比其他两种方法,我们的方法生成的彩色人脸图像与真实的彩色人脸图像的结构相似度是比较高的,证明基于生成式对抗网络的人脸素描图像转换为RGB图像方法是可行的。
本发明基于生成式对抗网络建立人脸素描图像转换为RGB图像的模型,然后输入训练集,交替训练其生成模型G和判别模型D,从而生成与真实的彩色人脸图像相似度高的彩色人脸图像,实现对人脸图像的转换。
综上所述,本发明通过对CelebFaces属性数据集(CelebA)中的图像进行预处理,得到训练集A,把训练集A输入到生成式对抗网络模型中,交替训练生成模型G和判别模型D,得到训练输集B,同时在训练过程中不断调整参数,从而使得生成的图像与真实的彩色人脸图像更加相似;本文定义了一个新的损失函数,与传统的图像转换损失函数相比,增加了边缘增强对生成图像的约束,提高了模型的性能和图像转换的精度。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (7)

1.一种基于生成式对抗网络的人脸素描图像转化为RGB图像的方法,其特征在于,包括以下步骤:
步骤1,使用CelebFaces属性数据集(CelebA)作为真实的彩色人脸图像数据来源,并对图像数据进行预处理,得到训练集A;
步骤2,构建基于生成式对抗网络的人脸素描图像转换为RGB图像的模型,包括生成模型G和判别模型D;
步骤3,将训练集A输入到基于生成式对抗网络的人脸素描图像转换为RGB图像的模型中,并采用单独交替训练方法训练生成模型与判别模型,采用监督性学习方式对生成式对抗网络模型进行训练,得到训练输出集B;
步骤4,利用条件生成式对抗网络模型的损失函数、生成器G损失函数、判别器D损失函数计算生成式对抗网络模型的损失函数,得到基于生成式对抗网络的模型最终的损失函数;
步骤5,重复步骤1,得到测试集C;
步骤6,将测试集C输入训练好的基于生成式对抗网络的模型进行测试,得到测试输出集E;
步骤7,重复步骤3,4,将训练集A进行600次迭代,用于训练模型,再重复步骤6,将测试集C进行5次迭代,得到最终的测试输出集E。
2.根据权利要求1所述的一种基于生成式对抗网络的人脸素描图像转化为RGB图像的方法,其特征在于,所述步骤1中,使用CelebFaces属性数据集(CelebA)作为真实的彩色人脸图像数据,首先利用基于深层神经网络的OpenFace人脸检测方法,截取数据集中每张图像的人脸部分,得到彩色人脸图像数据集,再利用OpenCV方法对彩色人脸图像数据集进行归一化,得到大小为256*256的目标数据集即真实的彩色人脸图像集Target,最后利用Pillow库把真实的彩色人脸图像集Target转化为素描图像,作为输入图像即人脸素描图像Input,与真实的彩色人脸图像集Target一一配对,并将Input和Target作为训练集A。
3.根据权利要求1所述的一种基于生成式对抗网络的人脸素描图像转化为RGB图像的方法,其特征在于,所述步骤2中,构建边缘增强和生成式对抗网络模型中的生成模型使用U-Net架构,由编码器和解码器组成,编码器中的第i层与解码器中第n-i层之间连通,使得解码器中的通道数变为原来的2倍;其中编码器进行下采样操作,包括8个卷积层,第一层为卷积层,卷积核为4*4,步长为2,第二层至第八层均为卷积核为4*4、步长为2的Convolution-BatchNorm-ReLU层;解码器包括8个反卷积层,进行上采样操作,8个标准化层,使反卷积后的值处于[0,1]之间,8个拼接层,用于拼接图像第3维的特征通道,最后返回Tanh函数。
4.根据权利要求1所述的一种基于生成式对抗网络的人脸素描图像转化为RGB图像的方法,其特征在于,所述步骤2中,构建边缘增强和生成式对抗网络模型中的判别模型使用PatchGAN架构,包含3个卷积核为4*4、步长为2的1个Convolution-LReLU层,3个Convolution-BatchNorm-Dropout-LReLU层和1个全连接层,其中Dropout的概率为0.5。
5.根据权利要求1所述的一种基于生成式对抗网络的人脸素描图像转化为RGB图像的方法,其特征在于,所述步骤3中,将训练集A输入到模型中,开始交替训练模型:
(1)固定判别模型D,训练生成模型G,首先训练生成模型G的编码器和解码器:
①编码器训练
A1.将1张3维256*256的人脸素描图像Input输入到编码器的第1层卷积层中,得到64维128*128像素大小的编码器卷积层输出特征图;
B1.将编码器第1层卷积层的输出特征图输入到编码器的第2层卷积层中,依次进行非线性LReLU变换、卷积和批标准化,得到128个64*64像素大小的编码器卷积层输出特征图;
C1.将编码器第2层卷积层的输出特征图输入到生成模型的第3层卷积层中,依次进行非线性LReLU变换、卷积和批标准化,得到256个32*32像素大小的编码器卷积层输出特征图;
D1.将编码器第3层卷积层的输出特征图输入到生成模型的第4层卷积层中,依次进行非线性LReLU变换、卷积和批标准化,得到512个16*16像素大小的编码器卷积层输出特征图;
E1.以此类推,将编码器的第4层卷积层输出的特征图输入到第5层,将第5层卷积层的输出特征图输入到第6层,将第层6卷积层的输出特征图输入到第7层,将第7层卷积层的输出特征图输入到第8层,依次进行非线性LReLU变换、卷积、下采样和批标准化操作,分别得到512个8*8像素大小的特征图、512个4*4像素大小的特征图、512个2*2像素大小的特征图、512个1*1像素大小的特征图;
②解码器训练
A2.将512个1*1像素大小的特征图输入解码器的第1层反卷积层中,依次对其进行非线性的ReLU变换、反卷积、批标准化、Dropout操作以及第3通道的Concat操作,得到1024个2*2像素大小的解码器卷积层输出特征图;
B2.将解码器第1层卷积层输出的特征图输入到解码器的第2层中,依次对其进行非线性的ReLU变换、反卷积、上采样、批标准化、Dropout操作以及第3通道的Concat操作,得到1024个4*4像素大小的解码器卷积层输出特征图;
C2.将解码器第2层卷积层输出的特征图输入到解码器的第3层中,依次对其进行非线性的ReLU变换、反卷积、上采样、批标准化、Dropout操作以及第3通道的Concat操作,得到1024个8*8像素大小的解码器卷积层输出特征图;
D2.将解码器第3层卷积层输出的特征图输入到解码器的第4层中,依次对其进行非线性的ReLU变换、反卷积、上采样、批标准化、Dropout操作以及第3通道的Concat操作,得到1024个16*16像素大小的解码器卷积层输出特征图;
E2.以此类推,将解码器的第4层卷积层输出的特征图输入到第5层,将第5层卷积层的输出特征图输入到第6层,将第层6卷积层的输出特征图输入到第7层,将第7层卷积层的输出特征图输入到第8层,依次进行非线性ReLU变换、反卷积、批标准化以及第3通道的Concat操作,第5层到第7层分别得到512个32*32像素大小的特征图、256个64*64像素大小的特征图、128个128*128像素大小的特征图,第8层得到的是1张3维的256*256像素大小的特征图,最后返回Tanh函数;
(2)固定生成模型G,训练判别模型D:
A3.将一张6维256*256像素大小的彩色人脸图像输入到判别模型D的第1层卷积层中,依次对其进行卷积和非线性LReLU变换操作,得到64个128*128像素大小的判别模型D第1层卷积层输出特征图;
B3.将判别模型D第1层卷积层输出的特征图输入第2层卷积层中,依次对其进行卷积、批标准化和非线性LReLU变换操作,得到128个64*64像素大小的判别模型D第2层卷积层输出特征图;
C3.将判别模型D第2层卷积层输出的特征图输入第3层卷积层中,依次对其进行卷积、批标准化和非线性LReLU变换操作,得到256个32*32像素大小的判别模型D第3层卷积层输出特征图;
D3.将判别模型D第3层卷积层输出的特征图输入第4层全连接层中,依次对其进行卷积、批标准化和非线性LReLU变换操作,得到512个32*32像素大小的判别模型D第4层卷积层输出特征图;
E3.将判别模型D第4层卷积层输出的特征图输入第5层全连接层中,对其进行Reshape操作,调整特征图的维度,输出3维的256*256的彩色人脸图像,最后返回Sigmoid函数。
6.根据权利要求1所述的一种基于生成式对抗网络的人脸素描图像转化为RGB图像的方法,其特征在于,所述步骤4中,生成式对抗网络可以学习从随机噪声向量z到输出图像y,G的映射:G→z;而条件生成式对抗网络模型学习从观察到的图像x和随机噪声向量z到输出图像y,G的映射{x,z}→y;条件生成对抗网络模型的目标函数为:
LcGAN(G,D)=Ex,y[logD(x,y)]+Ex,z[log(1-D(x,G(x,z)))],
其中,LcGAN(G,D)表示真实的彩色人脸图像Targrt与生成的彩色人脸图像Output之间的程度差异,E表示数学期望,logD(x,y)表示判别器对真实的彩色人脸图像Target判定为真实数据的概率,G(x,z)表示生成的彩色人脸图像Output,D(x,G(x,z))表示判别模型D对生成的彩色人脸图像Output的判别结果,log(1-D(x,G(x,z)))表示判别模型D将生成的彩色人脸图像Output判定为虚假图像的概率;
训练生成模型G使得目标函数最小化,而判别模型D使得目标函数最大化,即:
Figure FDA0002781625480000061
其中
Figure FDA0002781625480000062
表示训练判别模型D时保证生成模型G部分保持不变,使得判别模型G可以准确地判别生成的彩色人脸图像Output,即使得1-D(x,G(x,z))的值接近于1,最大化Ex,y[logD(x,y)]的值;
Figure FDA0002781625480000063
表示训练生成模型G时保证判别模型D部分保持不变,使得生成的彩色人脸图像Output可以通过判别模型D的判断,即使得D(x,G(x,z))的值接近于1,并且最小化Ex,z[log(1-D(x,G(x,z)))]的值;
式中λ1为权重系数,用来调节生成模型G的损失函数LL1(G)的比重,从而得到更好地输出图像,LL1(G)表示真实的彩色人脸图像Target与生成的彩色人脸图像Output之间的距离,定义为:
LL1(G)=Ex,y,z[||y-G(x,z)||1],
其中y-G(x,z)表示真实的彩色人脸图像Target与生成的彩色人脸图像Output之间的差异;
同时为了测试判别模型D的重要性,设计了一个无条件变量普通GAN,目的是只让判别模型D在不观察输入图像x的情况下判断图像是否为真,其损失函数为:
LcGAN(G,D)=Ey[logD(y)]+Ex,z[log(1-D(x,z))]
综合得到的目标函数为:
Figure FDA0002781625480000071
其中λ1和λ2均为权重系数,分别用于调节生成图像中各损失函数的参与强度,EdgeL1(G)为图像边缘增强的损失函数。
7.根据权利要求6所述的一种基于生成式对抗网络的人脸素描图像转化为RGB图像的方法,其特征在于,基于边缘增强和生成式对抗网络模型的Adam优化算法中,模型设计了与生成模型U-Net结构相同的编码器和解码器结构,用于保存训练生成模型U-Net过程中产生的中间结果。
CN202011283698.4A 2020-11-17 2020-11-17 基于生成式对抗网络的人脸素描图像转换为rgb图像方法 Pending CN112270300A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011283698.4A CN112270300A (zh) 2020-11-17 2020-11-17 基于生成式对抗网络的人脸素描图像转换为rgb图像方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011283698.4A CN112270300A (zh) 2020-11-17 2020-11-17 基于生成式对抗网络的人脸素描图像转换为rgb图像方法

Publications (1)

Publication Number Publication Date
CN112270300A true CN112270300A (zh) 2021-01-26

Family

ID=74340108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011283698.4A Pending CN112270300A (zh) 2020-11-17 2020-11-17 基于生成式对抗网络的人脸素描图像转换为rgb图像方法

Country Status (1)

Country Link
CN (1) CN112270300A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112862712A (zh) * 2021-02-01 2021-05-28 广州方图科技有限公司 美颜处理方法、系统、存储介质和终端设备
CN112907692A (zh) * 2021-04-09 2021-06-04 吉林大学 一种基于sfrc-gan的从素描到人脸重建方法
CN112991278A (zh) * 2021-03-01 2021-06-18 华南理工大学 RGB空域特征与LoG时域特征结合的Deepfake视频检测方法及系统
WO2022257184A1 (zh) * 2021-06-09 2022-12-15 烟台艾睿光电科技有限公司 图像生成装置获取方法及图像生成装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111260655A (zh) * 2019-12-31 2020-06-09 深圳云天励飞技术有限公司 基于深度神经网络模型的图像生成方法与装置
CN111489287A (zh) * 2020-04-10 2020-08-04 腾讯科技(深圳)有限公司 图像转换方法、装置、计算机设备和存储介质
CN111524205A (zh) * 2020-04-23 2020-08-11 北京信息科技大学 基于循环生成对抗网络的图像着色处理方法及装置
CN111932444A (zh) * 2020-07-16 2020-11-13 中国石油大学(华东) 基于生成对抗网络的人脸属性编辑方法及信息处理终端

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111260655A (zh) * 2019-12-31 2020-06-09 深圳云天励飞技术有限公司 基于深度神经网络模型的图像生成方法与装置
CN111489287A (zh) * 2020-04-10 2020-08-04 腾讯科技(深圳)有限公司 图像转换方法、装置、计算机设备和存储介质
CN111524205A (zh) * 2020-04-23 2020-08-11 北京信息科技大学 基于循环生成对抗网络的图像着色处理方法及装置
CN111932444A (zh) * 2020-07-16 2020-11-13 中国石油大学(华东) 基于生成对抗网络的人脸属性编辑方法及信息处理终端

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YONGYI LU 等: "Image Generation from Sketch Constraint Using Contextual GAN", 《ECCV 2O18》 *
卢涛 等: "基于边缘增强生成对抗网络的人脸超分辨率重建", 《华中科技大学学报(自然科学版)》 *
李英 等: "基于生成对抗网络的多用途图像增强鲁棒算法", 《计算机应用与软件》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112862712A (zh) * 2021-02-01 2021-05-28 广州方图科技有限公司 美颜处理方法、系统、存储介质和终端设备
CN112991278A (zh) * 2021-03-01 2021-06-18 华南理工大学 RGB空域特征与LoG时域特征结合的Deepfake视频检测方法及系统
CN112907692A (zh) * 2021-04-09 2021-06-04 吉林大学 一种基于sfrc-gan的从素描到人脸重建方法
CN112907692B (zh) * 2021-04-09 2023-04-14 吉林大学 一种基于sfrc-gan的从素描到人脸重建方法
WO2022257184A1 (zh) * 2021-06-09 2022-12-15 烟台艾睿光电科技有限公司 图像生成装置获取方法及图像生成装置

Similar Documents

Publication Publication Date Title
CN112270300A (zh) 基于生成式对抗网络的人脸素描图像转换为rgb图像方法
CN108648197B (zh) 一种基于图像背景掩膜的目标候选区域提取方法
CN111798369B (zh) 一种基于循环条件生成对抗网络的人脸衰老图像合成方法
CN109948692B (zh) 基于多颜色空间卷积神经网络及随机森林的计算机生成图片检测方法
CN110728219A (zh) 基于多列多尺度图卷积神经网络的3d人脸生成方法
CN112818764B (zh) 一种基于特征重建模型的低分辨率图像人脸表情识别方法
CN110175248B (zh) 一种基于深度学习和哈希编码的人脸图像检索方法和装置
CN109242097B (zh) 无监督学习的视觉表示学习系统及方法
CN111476249A (zh) 多尺度大感受野卷积神经网络的构建方法
CN116645716B (zh) 基于局部特征和全局特征的表情识别方法
CN113723295A (zh) 一种基于图像域频域双流网络的人脸伪造检测方法
CN116309913B (zh) 一种基于生成对抗网络asg-gan文本描述生成图像方法
CN114581552A (zh) 一种基于生成对抗网络的灰度图像彩色化方法
CN114299305A (zh) 聚合密集和注意力多尺度特征的显著性目标检测算法
US20240054605A1 (en) Methods and systems for wavelet domain-based normalizing flow super-resolution image reconstruction
CN113724271B (zh) 一种用于复杂环境移动机器人场景理解的语义分割模型训练方法
CN115546338A (zh) 基于Transformer与生成对抗网络的图像着色方法
CN113673670A (zh) 基于改进的dcgan的输电线路图像增广方法及系统
CN114077895A (zh) 对抗性策略的变分自编码模型
CN113963390A (zh) 一种结合可变形卷积的基于生成对抗网络的残缺人脸图像修复方法
CN112434615A (zh) 一种基于Tensorflow深度学习框架的时序动作检测方法
Vankayalapati et al. Nonlinear feature extraction approaches with application to face recognition over large databases
Zhu et al. Application of Generative Adversarial Networks in Gesture Recognition
Li Expression Recognition of Classroom Children’s Game Video Based on Improved Convolutional Neural Network
CN117036893B (zh) 一种基于局部跨阶段和快速下采样的图像融合方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210126

RJ01 Rejection of invention patent application after publication