CN108537743B - 一种基于生成对抗网络的面部图像增强方法 - Google Patents

一种基于生成对抗网络的面部图像增强方法 Download PDF

Info

Publication number
CN108537743B
CN108537743B CN201810206149.3A CN201810206149A CN108537743B CN 108537743 B CN108537743 B CN 108537743B CN 201810206149 A CN201810206149 A CN 201810206149A CN 108537743 B CN108537743 B CN 108537743B
Authority
CN
China
Prior art keywords
network
image
loss
training
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810206149.3A
Other languages
English (en)
Other versions
CN108537743A (zh
Inventor
俞俊
孙可嘉
高飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201810206149.3A priority Critical patent/CN108537743B/zh
Publication of CN108537743A publication Critical patent/CN108537743A/zh
Application granted granted Critical
Publication of CN108537743B publication Critical patent/CN108537743B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • G06T5/73
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Abstract

本发明公开了一种基于生成对抗网络的面部图像增强方法.本发明包括以下步骤:1、使用3D稠密面部对齐方法对多种姿态的面部图像进行预处理;2、设计基于生成对抗网络的面部增强网络,两步生成对抗网络。3、针对任务需要设计Step‑I和Step‑II对应的目标函数4、使用MS‑1‑celeb预训练识别模型,并使用扩增数据预训练TS‑GAN模型;5、使用Multi‑PIE作为训练集,利用反向传播算法训练(4)中完成预训练的TS‑GAN模型参数,直至收敛。使用最终训练的TS‑GAN模型可以得到与输入图像对应的正脸图像,同时该图像保留原始光照、视觉程度真实,并且保留了原有的身份信息。

Description

一种基于生成对抗网络的面部图像增强方法
技术领域
本发明涉及一种针对面部图像增强(image enhancement,IE)的深度神经网络,尤其涉及对任意姿态的面部图像进行统一建模的方法,以及最终合成的面部图像在人脸识别领域的探究。
背景技术
随着社会的发展,我国的公共安全体系逐步建立并完善。尤其是在视频监控领域,公共场所的监控已经铺满了各个场景。无论是人头攒动的广场马路,还是拥挤繁忙的车站地铁,都有无数的监控部署在其中,为我们的生活提供着无形的保护。在保证对监控场景多维度的信息提取,采集视频资源的同时,为了能够更好的利用这庞杂的数据信息,对其进行合理的分析,并筛选出有意义的信息。一个又一个的应用领域被拓展开来,如人脸识别,车辆识别,行人检测,物体追踪等等。这些任务要面临海量的数据与复杂的场景所带来的速度与精度的多重考验,而深度学习算法由于其出色的性能,在近些年来脱颖而出,被广泛应用在不同的场景之中。
在纷繁众多的视觉领域中,人脸识别一直都是备受瞩目的研究方向之一。不仅得益于其长期的科研积累,还因为人脸识别有着广泛的应用空间。例如,警方可以通过获取的人脸图像从各类数据库中及时的检索到可疑人员的身份信息,从而加速整个办案过程;企业或者个人可以根据人脸识别的各类需求在必要位置安装人脸门禁系统等;车站与地铁,甚至机场都已经广泛应用了成熟的人脸识别技术作为人证对比的参照,大大降低了工作人员的工作强度和误识率,为我们的出行提供了安全保障。由此可见,人脸识别已经应用到了我们生活的各个角落,一套完善且性能优越的人脸识别系统可以在为我们的生活提供便利的同时,也会让罪犯无处可逃。
但从当下的技术层面上看来,人脸识别的应用也存在着诸多的问题。尤其在实际的视频监控场景中,采集的人脸图像往往存在各种姿态,而其中的多数极端姿态会对我们的识别算法性能造成极大地影响。鉴于这样的原因,为自然场景中的人脸识别系统提供可靠的面部图像,在整个任务中至关重要。
发明内容
本发明的目的是针对现有技术的不足,提供一种基于生成对抗网络的面部图像增强方法。
本发明解决其技术问题所采用的技术方案如下:
一种基于生成对抗网络的面部增强方法,包括如下步骤:
步骤(1)、数据预处理:
数据处理分两部分,第一部分对原始数据集进行扩增;第二部分对要用到的所有数据集进行统一处理;
对MS-1-celeb数据集进行预处理:利用3D morphable model将该数据集中的正脸面部图像转任意角度,得到二元组数据{IP,IF},形成MS-1-celeb扩增集;其中,IP为给定原始输入图像,IF为其相应同场景下的面部正视图;
对用到的所有图像进行预处理:使用3DDFA算法抽取图像的面部关键点;并根据得到的关键点对图像进行配准操作;
所有图像包括MS-1-celeb扩增集和Multi-PIE数据集;
步骤(2)、设计基于生成对抗网络进行面部增强的网络结构:
两步生成对抗网络的实现如下:
Step-I:将原始输入图像IP输入到一个Encoder-Decoder结构的网络中,合成一张效果较差的正脸图像;
Step-II:将Step-I的合成的正脸图像与原始输入图像IP进行通道拼接,输入到一个U型网络结构中继续进行正脸化操作,从而得到最终视觉效果非常好的增强面部图像;
步骤(3)、构建面部增强网络的损失函数:
针对两步生成对抗网络设计其各部分的损失函数;
在Step-I中,对Encoder部分的bottleneck层引入了Softmax损失函数,为面部图像的分类进行约束;对Decoder生成的面部图像引入重建损失和对抗损失,以求利用这两种约束得到一个视觉良好的面部图像;
在Step-II中,对U型网络输出的正脸图像引入了对抗损失、重建损失、对称损失、全变差损失和感知损失;通过先验知识结合出色的对抗网络得到视觉真实、身份信息良好的面部图像;
步骤(4)、预训练模型:
首先,训练三个人脸识别模型:Resnet-28、IRv1,以及IRv1在Multi-PIE上的微调模型IRv1_ft;Resnet-28用来初始化最终模型的Encoder部分,IRv1_ft用来对合成的正脸图像的身份信息提供监督信息;之后用通过Resnet-28和IRv1_ft这两个模型初始化TS-GAN,获取初始化模型;配合MS-1-celeb扩增数据集对整个初始化模型进行训练,直至模型在扩增集上收敛,完成整个预训练部分,获得收敛模型;
步骤(5)、模型训练使用Multi-PIE数据集自带的{IP,IF}二元组作为最终训练集;利用步骤(4)的收敛模型对网络初始化,结合步骤(3)中所述的损失函数,进而利用反向传播算法对步骤(2)中设计的两步生成对抗网络的参数进行训练,直至整个网络模型收敛。
步骤(2)中的TS-GAN,其具体如下:
首先,设置整个实验的目标函数;
从不同姿态的IP合成其对应的正脸视图IF,训练网络须构建数据对{IP,IF},其中IF为对应IP的目标视图,两者具有相同的数据维度;使用Gθ来学习变换参数θG
生成网络G由两部分组成,分别为
Figure BDA0001595929360000031
Figure BDA0001595929360000032
判别网络D根据参数分为
Figure BDA0001595929360000033
Figure BDA0001595929360000034
两部分;通过
Figure BDA0001595929360000035
学习到一个清晰的正面视图;然后通过
Figure BDA0001595929360000036
学习纹理的补全和其他优化;同在
Figure BDA0001595929360000037
部分引入了交叉熵损失函数Lidentity对Encoder部分进行更多的监督;为了获得良好的视觉效果和可靠的身份识别效果,为生成网络部分Gθ设计一个的加权损失函数Lsyn;在训练过程中我们通过成对的数据输入,有监督的训练TS-GAN;其Gθ部分的最终目标函数描述为:
Figure BDA0001595929360000041
其中α为交叉熵损失函数Lidentity的加权系数,y为网络中输入图像IP的身份信息,用one-hot向量表示;生成损失函数Lsyn的具体组成如下:
Figure BDA0001595929360000042
其中,
Figure BDA0001595929360000043
Figure BDA0001595929360000044
分别为Step-I网络输出的中间部分(bottleneck层)与目标视图的重建损失和合成图像的对抗损失;
Figure BDA0001595929360000045
Figure BDA0001595929360000046
分别为Step-II中,U型网络最终合成的人脸图像与目标视图之间的重建损失和最终合成图像的对抗损失;Lsym为合成图像自身的对称损失;Lid为最终合成图像与目标视图的身份损失;Ltv为最终合成图像的全变差损失;同时,每个损失部分有各自对应的加权系数λi,i=1,2,3…7,最终得到Step-II网络合成部分的损失函数Lsym
3.根据权利要求2所述的一种基于生成对抗网络的面部图像增强方法,其特征在于所述的损失函数如下:
对身份信息的Softmax损失函数表达式如下:
Figure BDA0001595929360000047
其中,x表示原始输入图像IP,i表示原始输入图像的正确身份,fi(x)表示隐层中对应正确分类的神经元激活量;
合成过程中的图像重建损失函数:
使用TS-GAN网络结构,对Step-I和Step-II的输出结合目标视图,用重建损失进行约束,其对应的表达式如下:
Figure BDA0001595929360000051
公式中的i∈{1,2},分别表示Step-I和Step-II;W,H表示原始输入图像的维度;j表示第j个样本;
对称损失函数公式如下:
Figure BDA0001595929360000052
其中,Is表示模型合成的正脸图像;
对抗损失函数公式表达如下所示:
Figure BDA0001595929360000053
身份保留感知损失函数:
在正脸图像合成的任务中,保持原始图像的身份信息是最核心的部分;虽然之前引入了重建损失,但是并不足以第一身份完全的保留;因此引入了感知损失来保持感知的相似性,从而使得模型的最后输出具有身份保留的能力;最终将IRv1_ft输出的特征作为身份依据,公式如下:
Figure BDA0001595929360000054
在公式中,
Figure BDA0001595929360000056
表示训练好的IRv1_ft;
全变差损失函数:
是对整张图像x方向和y方向的像素梯度的约束,公式表达如下:
Figure BDA0001595929360000055
其中,τ为全变差的平滑系数。
本发明有益效果如下:
针对这样的问题,本发明提出了一个可能的解决方案,基于生成对抗网络(Generative Adversarial Network,GAN)的面部图像增强(IE)方法,从而将自然场景中的面部图像合成身份信息保留的、真实的正脸面部图像。进而根据正脸面部图像作为识别的凭证进行之后的任务。GAN的使用旨在指导算法合成足够“真实”的图像。对于人脸识别系统,通过合成算法对输入的各个姿态人脸进行归一化的操作,以此来为识别算法提供身份合理并且便于识别的人脸图像。这样的操作可以为自然场景中存在的大角度识别问题,甚至是为警务平台中存在的身份证图像与自然场景图像匹配问题提供一个全新的、有效的解决思路。
附图说明
图1为本发明流程图;
图2为本发明人脸识别模型Resnet-28流程图;
图3为本发明二元组数据示意图;
图4为本发明最终展示图;
图5为本发明极端角度下的合成数据图;
图6为本发明不同场景下的测试图Ⅰ;
图7为本发明不同场景下的测试图Ⅱ;
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
如图1-7所示,一种基于生成对抗网络的面部图像增强方法,具体实现步骤如下:
给定图像IP和相应同场景下的面部正视图IF构成二元组,以{IP,IF}作为训练集。
步骤(1)、数据预处理
数据处理分两部分,第一部分对原始数据集进行扩增。第二部分对要用到的所有数据集进行统一处理。
对MS-1-celeb数据集进行预处理:利用3D morphable model(3DMM)将该数据集中的正脸面部图像转任意角度,得到上述的二元组数据,图3所示;
对用到的所有图像(MS-1-celeb扩增集和Multi-PIE数据集)预处理:使用3DDFA算法抽取图像的面部关键点。并根据得到的关键点对图像进行配准操作。
步骤(2)、基于生成对抗网络进行面部增强的网络结构设计
整体算法流程如图1所示,本文提出了一种新颖的利用生成对抗网络对面部图像进行面部增强的方法,两步生成对抗网络(Two Step Generative Adversarial Network,TS-GAN)。这个方法可以将输入的任意角度、任意光照的人脸图像,在保证身份信息和场景信息的同时做到正脸化操作。
在Step-I中,我们将原始侧脸图像IP输入到一个Encoder-Decoder结构的网络中,生成一张效果较差的正脸图像;
在Step-II中将Step-I的合成图像与原始的输入图像IP进行通道拼接,输入到一个U型网络结构中继续进行正脸化操作,从而得到最终视觉效果非常好的增强面部图像。
步骤(3)、面部增强网络的损失函数设计
通过步骤(2)的方法我们可以了解到整个网络的基本流程,在本步骤中,我们将针对TS-GAN设计其各部分的损失函数。
在Step-I中,本文对Encoder部分的bottleneck层引入了Softmax损失函数,为面部图像的分类进行约束。对Decoder生成的面部图像引入重建损失和对抗损失,以求利用这两种约束得到一个视觉良好的面部图像;
在Step-II中,本文对U型网络输出的合成图像引入了对抗损失、重建损失、对称损失、全变差损失和感知损失。希望通过先验知识结合出色的对抗网络得到视觉真实、身份信息良好的面部图像。
步骤(4)、预训练模型
为了使得网络的合成图像有更好的效果,我们需要预训练部分模型。首先训练三个人脸识别模型Resnet-28(如图2)和Inception-Resnet-V1(之后简称IRv1),以及IRv1在Multi-PIE上的微调模型IRv1_ft。前者用来初始化最终模型的Encoder部分,IRv1_ft用来对合成图像的身份信息提供监督信息。之后用这两个模型初始化TS-GAN配合MS-1-celeb扩增数据集对整个模型进行训练,直至模型在扩增集上收敛,完成整个预训练部分。
步骤(5)、模型训练
使用Multi-PIE数据集构成的{IP,IF}二元组作为最终训练集。利用步骤(4)的收敛模型对网络初始化,结合步骤(3)中所述的损失函数,计算生成图像与原图的身份信息和真实度等差异,进而利用反向传播算法(Back-Propagation,BP)对步骤(2)中设计的神经网络模型的参数进行训练,直至整个网络模型收敛。
步骤(1)所述的数据处理,具体如下:
我们利用现有的3D稠密面部对齐方法(3D Dense Face Alignment,3DDFA)方法计算数据集中的面部关键点坐标,在得到面部图像对应的五个关键点(双眼,嘴角和鼻尖)之后,根据双眼关键点与水平线的夹角将图像做使得面部图像以双眼连线为基准水平对齐。然后根据嘴巴中心点和眼睛中心的距离与37像素作比,得到图像的放缩比例,对面部图像进行放缩。最后以双眼中心点距离图像左、上边沿的距离为36像素,对图像进行裁剪。最终,得到训练所需要的110×110的彩色面部图像。这个操作在MS-1-celeb扩增数据集和Multi-PIE数据集上做全量的操作,最终得到400w的MS-1-celeb数据集、60w的MS-1-celeb扩增数据集和68w的Multi-PIE数据集。
步骤(2)所述的基生成对抗网络进行面部增强的网络结构设计,具体如下:
网络分Step-I和Step-II两部分,共包含两个生成器和两个判别器。其中,Step-I中的生成器为Encoder-Decoder结构;Step-II中的生成器为U型网络结构。两个判别器有着相同的网络结构。
在Step-I中,生成网络GED的Encoder部分,GE,使用Resnet的设计,其网络包含27层的卷积和1层的全连接,共计28层,输入为96×93×3的RGB三通道图像,输出为512维特征向量。Resnet的作用是从侧脸图像提取后续图像恢复所需要的人脸表征。网络中的Decoder部分,GD,将562维向量解卷积到profile的相同维度。562维特征向量中有512维的人脸表征和50维服从(0,1)分布的高斯噪声,0为均值1为方差。其网络中包含17个卷积层和1个全连接层;
在Step-II中,生成器由18层的U型网络,GU,构成。与之前不同的是其单个网络既包含了12层卷积层,也包含了6层反卷积层,并且输入图像为96×96×6,是两个图像stack在一起的结果,用以融合中间层输出的合成图像和原始profile图像的细节纹理信息。
最后,两个判别器使用相同的网络结构,即15层的卷积和1层全连接,用于对输入图像的真实性做判断(二分类)。感知损失计算使用Inception-Resnet-v1的微调模型对数据抽取的特征。
步骤(3)所述的面部增强网络的损失函数设计,具体如下:
我们通过一部分的先验知识,结合一些前辈的训练经验,设置了整个实验的目标函数。在实验中由于GAN需要分别训练,因此对于G网络和D网络,有着不同的目标函数。虽然我们的G网络由两部分组成,但是Gθ部分是要一起训练的。因此在后续将不单独给出Step-I和Step-II的目标函数。
我们的目标是从不同姿态的IP合成其对应的正脸视图IF,为了训练网络我们须要构建{IP,IF}这样的数据对,其中IF为对应IP的目标视图,两者具有相同的数据维度。为了更好的学习侧脸图像到正面视图的变化过程,我们使用Gθ来学习变换参数θG。同时,我们的生成网络G由两部分组成,分别为
Figure BDA0001595929360000091
Figure BDA0001595929360000092
判别网络D也可以根据参数分为
Figure BDA0001595929360000093
Figure BDA0001595929360000094
两部分。我们希望通过
Figure BDA0001595929360000095
学习到一个清晰的正面视图。然后通过
Figure BDA0001595929360000096
学习纹理的补全和其他优化。同在
Figure BDA0001595929360000097
部分引入了交叉熵损失函数Lidentity对Encoder部分进行更多的监督。为了获得良好的视觉效果和可靠的身份识别效果,我们为生成网络部分,Gθ,设计了一个复杂的加权损失函数Lsyn。于是,在训练过程中我们通过成对的数据输入,有监督的训练TS-GAN。其Gθ部分的最终目标函数可以描述为:
Figure BDA0001595929360000098
其中α为交叉熵损失函数Lidentity的加权系数,y为网络中输入图像IP的身份信息,用one-hot向量表示。生成损失函数Lsyn的具体组成如下:
Figure BDA0001595929360000101
其中,
Figure BDA0001595929360000102
Figure BDA0001595929360000103
分别为Step-I网络输出的中间部分(bottleneck层)与目标视图的重建损失和合成图像的对抗损失;
Figure BDA0001595929360000104
Figure BDA0001595929360000105
分别为Step-II中,U型网络最终合成的人脸图像与目标视图之间的重建损失和最终合成图像的对抗损失;Lsym为合成图像自身的对称损失;Lid为最终合成图像与目标视图的身份损失;Ltv为最终合成图像的全变差损失。同时,每个损失部分有各自对应的加权系数λi,i=1,2,3…7,最终得到Step-II网络合成部分的损失函数Lsym。接下来,我们将对生成网络损失函数部分进行详细的说明,并提供设计动机和具体的实验室设置。
对身份信息的Softmax损失:
由于我们要解决的是不同姿态面部身份信息的增强问题,需要模型编码部分对各种姿态的面部依然具有一定的编码能力。Softmax损失在本文中的表达式如下:
Figure BDA0001595929360000106
其中x表示输入的图像,在本文中代表输入的侧脸图像IP。则表示输入图像的正确身份,fi(x)表示隐层中对应正确分类的神经元激活量。
合成过程中的图像重建损失函数:
使用TS-GAN网络结构,我们在损失设计的时候使用了两个权重不一的重建损失,用以保证图像内容的一致性。具体而言就是对Step-I和Step-II的输出结合目标视图,用L1重建损失进行约束。这样的强损失虽然会导致合成图像更偏向于模糊,但是对于加速收敛和提高性能来说,它依然发挥不可替代的作用。其对应的表达式如下:
Figure BDA0001595929360000107
公式中的i∈{1,2},分别表示Step-I和Step-II。W,H表示输入图像的维度。
对称性损失:
对称,作为人脸固有的特征,本身可以作为一个先验知识。因此在合成图像中加入对称的约束是非常必要的,尤其是对于自我遮挡问题,它可以大大提高大姿态下的合成性能。我们对对称性损失的公式如下:
Figure BDA0001595929360000111
其中,Is表示模型的合成图像。
对抗损失:
对抗损失来自GAN网络的鉴别器部分。它可以有效的推动合成图像向真实图像靠近,并且可以有效的防止模糊。其公式表达如下所示:
Figure BDA0001595929360000112
身份保留损失:
在正脸图像合成的任务中,保持原始图像的身份信息是最核心的部分。虽然之前引入了L1重建损失,但是并不足以第一身份完全的保留。于是在这部分,我们引入了感知损失(perceptual loss)来保持感知的相似性,从而使得模型的最后输出具有身份保留的能力。最终我们取在训练集上fine-tuned的IRv1(IRv1_ft)输出的feature作为身份依据,公式如下:
Figure BDA0001595929360000113
在公式中,
Figure BDA0001595929360000115
表示训练好的人脸识别网络,本文中使用的是IRv1_ft。
全变差损失:
顾名思义,是对整张图像x方向和y方向的像素梯度的约束。由于全变分的计算可以提现出图像中噪声的情况,对全变分的约束则是为了整体图像的更加平滑和自然,其中τ为全变差的平滑系数,公式表达如下:
Figure BDA0001595929360000114
步骤(4)所述的预训练模型,具体如下:
预训练过程中,我们用步骤(1)中得到的全量MS-1-celeb数据集对Resnet和IRv1进行人脸识别任务的训练。即对400w数据做10w类的分类任务,损失函数使用SoftmaxWithLoss利用BP算法对两个网络的参数进行优化。IRv1_ft则是在IRv1的基础上再用Multi_PIE进行微调得到的网络模型,最终得到三个模型在标准测试机LFW(LabeledFaces in the Wild)上的测试精度如表1所示。
接下来,使用训练好的Resnet和IRv1_ft网络模型对TS-GAN的Encoder部分和身份保留损失中的特征提取网络进行初始化,网络的其他部分进行随机初始化。使用MS-1-celeb扩增数据集组成的二元组数据对网络进行训练,直至收敛,得到最终的预训练模型。
步骤(5)所述的训练模型,具体如下:
针对步骤(2)所给出的最终目标函数,在实际训练中,经过大量的实验,我们得到步骤(3)目标函数的合适参数选择,α取3e-3,λ1取到0.3,λ2取到1,λ3取3e-3,λ4取到5e-4,λ5取1e-3,λ63e-3,λ7取到1e-4。使用TensorFlow深度学习框架训练。最终在极端角度下的合成数据如图5所示。
同时我们做了更多场景下的测试,如图6,7所示。我们的合成模型表情具有很好的鲁棒性。最后展示图4的图像,可以看出我们的TS-GAN的设计比单层的GAN在这个问题中的表现效果要更好(第一行为输入图像,第二行为Step-I输出图像,第三行为最终TS-GAN输出图像)。

Claims (1)

1.一种基于生成对抗网络的面部图像增强方法,其特征在于包括如下步骤:
步骤(1)、数据预处理:
数据预处理分两部分,第一部分对原始数据集进行扩增;第二部分对要用到的所有数据集进行统一处理;
对MS-Celeb-1M数据集进行预处理:利用3D morphable model将该数据集中的正脸面部图像转任意角度,得到二元组数据{IP,IF},形成MS-Celeb-1M扩增集;其中,IP为给定原始输入图像,IF为其相应同场景下的面部正视图;
对用到的所有图像进行预处理:使用3DDFA算法抽取图像的面部关键点;并根据得到的关键点对图像进行配准操作;
所有图像包括MS-Celeb-1M扩增集和Multi-PIE数据集;
步骤(2)、设计基于生成对抗网络进行面部增强的网络结构:
两步生成对抗网络的实现如下:
Step-I:将原始输入图像IP输入到一个Encoder-Decoder结构的网络中,合成一张效果差的正脸图像;
Step-II:将Step-I的合成的正脸图像与原始输入图像IP进行通道拼接,输入到一个U型网络结构中继续进行正脸化操作,从而得到最终视觉效果非常好的增强面部图像;
步骤(3)、构建面部增强网络的损失函数:
针对两步生成对抗网络设计其各部分的损失函数;
在Step-I中,对Encoder部分的bottleneck层引入了Softmax损失函数,为面部图像的分类进行约束;对Decoder生成的面部图像引入重建损失和对抗损失,以求利用这两种约束得到一个视觉良好的面部图像;
在Step-II中,对U型网络输出的正脸图像引入了对抗损失、重建损失、对称损失、全变差损失和感知损失;通过先验知识结合出色的对抗网络得到视觉真实、身份信息良好的面部图像;
步骤(4)、预训练模型:
首先,训练三个人脸识别模型:Resnet-28、IRv1,以及IRv1在Multi-PIE上的微调模型IRv1_ft;Resnet-28用来初始化最终模型的Encoder部分,IRv1_ft用来对合成的正脸图像的身份信息提供监督信息;之后用通过Resnet-28和IRv1_ft这两个模型初始化TS-GAN,获取初始化模型;配合MS-1-celeb扩增数据集对整个初始化模型进行训练,直至模型在扩增集上收敛,完成整个预训练部分,获得收敛模型;
步骤(5)、模型训练使用Multi-PIE数据集自带的{IP,IF}二元组作为最终训练集;利用步骤(4)的收敛模型对网络初始化,结合步骤(3)中所述的损失函数,进而利用反向传播算法对步骤(2)中设计的两步生成对抗网络的参数进行训练,直至整个网络模型收敛;
步骤(2)中的TS-GAN,其具体如下:
首先,设置整个实验的目标函数;
从不同姿态的IP合成其对应的正脸视图IF,训练网络须构建数据对{IP,IF},其中IF为对应IP的目标视图,两者具有相同的数据维度;使用Gθ来学习变换参数θG
生成网络G由两部分组成,分别为
Figure FDA0003557025040000021
Figure FDA0003557025040000022
判别网络D根据参数分为
Figure FDA0003557025040000023
Figure FDA0003557025040000024
两部分;通过
Figure FDA0003557025040000025
学习到一个清晰的正面视图;然后通过
Figure FDA0003557025040000026
学习纹理的补全;同在
Figure FDA0003557025040000027
部分引入了交叉熵损失函数Lidentity对Encoder部分进行更多的监督;为了获得良好的视觉效果和可靠的身份识别效果,为生成网络部分Gθ设计一个的加权损失函数Lsyn;在训练过程中我们通过成对的数据输入,有监督的训练TS-GAN;其Gθ部分的最终目标函数描述为:
Figure FDA0003557025040000028
其中α为交叉熵损失函数Lidentity的加权系数,y为网络中输入图像IP的身份信息,用one-hot向量表示;生成损失函数Lsyn的具体组成如下:
Figure FDA0003557025040000031
其中,
Figure FDA0003557025040000032
Figure FDA0003557025040000033
分别为Step-I网络输出的中间部分bottleneck层与目标视图的重建损失和合成图像的对抗损失;
Figure FDA0003557025040000034
Figure FDA0003557025040000035
分别为Step-II中,U型网络最终合成的人脸图像与目标视图之间的重建损失和最终合成图像的对抗损失;Lsym为合成图像自身的对称损失;Lid为最终合成图像与目标视图的身份损失;Ltv为最终合成图像的全变差损失;同时,每个损失部分有各自对应的加权系数λi,i=1,2,3...7,最终得到Step-II网络合成部分的损失函数Lsyn
在于所述的损失函数如下:
对身份信息的Softmax损失函数表达式如下:
Figure FDA0003557025040000036
其中x表示原始输入图像IP,i表示原始输入图像的正确身份,fi(x)表示隐层中对应正确分类的神经元激活量;
合成过程中的图像重建损失函数:
使用TS-GAN网络结构,对Step-I和Step-II的输出结合目标视图,用重建损失进行约束,其对应的表达式如下:
Figure FDA0003557025040000037
公式中的i∈{1,2},分别表示Step-I和Step-II;W,H表示原始输入图像的维度;j表示第j个样本;
对称损失函数公式如下:
Figure FDA0003557025040000038
其中,Is表示模型合成的正脸图像;
对抗损失函数公式表达如下所示:
Figure FDA0003557025040000039
身份保留感知损失函数:
在正脸图像合成的任务中,保持原始图像的身份信息是最核心的部分;虽然之前引入了重建损失,但是并不足以第一身份完全的保留;因此引入了感知损失来保持感知的相似性,从而使得模型的最后输出具有身份保留的能力;最终将IRv1_ft输出的特征作为身份依据,公式如下:
Figure FDA0003557025040000041
在公式中,
Figure FDA0003557025040000042
表示训练好的IRv1_ft;
全变差损失函数:
是对整张图像x方向和y方向的像素梯度的约束,公式表达如下:
Figure FDA0003557025040000043
其中,τ为全变差的平滑系数。
CN201810206149.3A 2018-03-13 2018-03-13 一种基于生成对抗网络的面部图像增强方法 Active CN108537743B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810206149.3A CN108537743B (zh) 2018-03-13 2018-03-13 一种基于生成对抗网络的面部图像增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810206149.3A CN108537743B (zh) 2018-03-13 2018-03-13 一种基于生成对抗网络的面部图像增强方法

Publications (2)

Publication Number Publication Date
CN108537743A CN108537743A (zh) 2018-09-14
CN108537743B true CN108537743B (zh) 2022-05-20

Family

ID=63484597

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810206149.3A Active CN108537743B (zh) 2018-03-13 2018-03-13 一种基于生成对抗网络的面部图像增强方法

Country Status (1)

Country Link
CN (1) CN108537743B (zh)

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163235B (zh) * 2018-10-11 2023-07-11 腾讯科技(深圳)有限公司 图像增强模型的训练、图像增强方法、装置和存储介质
CN111046707A (zh) * 2018-10-15 2020-04-21 天津大学青岛海洋技术研究院 一种基于面部特征的任意姿态正脸还原网络
CN109493297B (zh) * 2018-11-01 2020-08-18 重庆中科云从科技有限公司 低质量人脸图像增强方法、系统、设备及存储介质
CN109523478B (zh) * 2018-11-09 2021-06-04 智慧眼科技股份有限公司 图像去网格方法、存储介质
CN109658347A (zh) * 2018-11-14 2019-04-19 天津大学 一种同时生成多种图片风格的数据增强方法
CN109859113B (zh) * 2018-12-25 2021-08-20 北京奇艺世纪科技有限公司 模型生成方法、图像增强方法、装置及计算机可读存储介质
CN109785258B (zh) * 2019-01-10 2022-12-16 华南理工大学 一种基于多判别器生成对抗网络的人脸图像修复方法
CN109829907A (zh) * 2019-01-31 2019-05-31 浙江工业大学 一种基于深度学习的金属轴表面缺陷识别方法
CN109815928B (zh) * 2019-01-31 2021-05-11 中国电子进出口有限公司 一种基于对抗学习的人脸图像合成方法和装置
CN111612699A (zh) * 2019-02-22 2020-09-01 北京京东尚科信息技术有限公司 图像处理方法、装置和计算机可读存储介质
CN109871902B (zh) * 2019-03-08 2022-12-13 哈尔滨工程大学 一种基于超分辨率对抗生成级联网络的sar小样本识别方法
CN110070935B (zh) * 2019-03-20 2021-04-30 中国科学院自动化研究所 基于对抗神经网络的医学图像合成方法、分类方法及装置
CN109978897B (zh) * 2019-04-09 2020-05-08 中国矿业大学 一种多尺度生成对抗网络的异源遥感图像配准方法及装置
CN110059804B (zh) * 2019-04-15 2021-10-08 北京迈格威科技有限公司 数据处理方法及装置
CN110110126B (zh) * 2019-04-29 2021-08-27 北京达佳互联信息技术有限公司 查询人物的面部图像的方法、装置和服务器
CN110097130B (zh) * 2019-05-07 2022-12-13 深圳市腾讯计算机系统有限公司 分类任务模型的训练方法、装置、设备及存储介质
CN110135583B (zh) * 2019-05-23 2020-08-21 北京地平线机器人技术研发有限公司 标注信息的生成方法、标注信息的生成装置和电子设备
CN110189272B (zh) * 2019-05-24 2022-11-01 北京百度网讯科技有限公司 用于处理图像的方法、装置、设备和存储介质
CN110197493B (zh) * 2019-05-24 2021-04-23 清华大学深圳研究生院 眼底图像血管分割方法
CN110188667B (zh) * 2019-05-28 2020-10-30 复旦大学 一种基于三方对抗生成网络的人脸摆正方法
CN110298331B (zh) * 2019-07-05 2021-04-06 中国计量大学 一种人证比对方法
CN110414432B (zh) * 2019-07-29 2023-05-16 腾讯科技(深圳)有限公司 对象识别模型的训练方法、对象识别方法及相应的装置
CN110414611A (zh) * 2019-07-31 2019-11-05 北京市商汤科技开发有限公司 图像分类方法及装置、特征提取网络训练方法及装置
CN110634101B (zh) * 2019-09-06 2023-01-31 温州大学 一种基于随机重构的无监督图像到图像的转换方法
CN110660128B (zh) * 2019-09-23 2023-08-11 云南电网有限责任公司电力科学研究院 一种基于生成对抗网络的三维语义场景重建方法
CN110717421A (zh) * 2019-09-25 2020-01-21 北京影谱科技股份有限公司 一种基于生成对抗网络的视频内容理解方法及装置
CN110706152B (zh) * 2019-09-25 2021-09-17 中山大学 基于生成对抗网络的人脸光照迁移方法
US11475608B2 (en) 2019-09-26 2022-10-18 Apple Inc. Face image generation with pose and expression control
CN110705328A (zh) * 2019-09-27 2020-01-17 江苏提米智能科技有限公司 一种基于二维码图像采集电力数据的方法
CN110751869B (zh) * 2019-10-12 2021-11-05 南京星耀智能科技有限公司 一种基于对抗鉴别式迁移法的拟态环境与战场态势策略转移技术
CN110751098B (zh) * 2019-10-22 2022-06-14 中山大学 一种基于光照、姿态生成对抗网络的人脸识别方法
CN110827335B (zh) * 2019-11-01 2020-10-16 北京推想科技有限公司 乳腺影像配准方法和装置
CN111008930B (zh) * 2019-11-20 2024-03-19 武汉纺织大学 一种织物图像超分辨率重建方法
CN111260620B (zh) * 2020-01-14 2023-08-18 三峡大学 图像异常检测方法、装置和电子设备
CN111275057B (zh) * 2020-02-13 2023-06-20 腾讯科技(深圳)有限公司 图像处理方法、装置及设备
US20230032472A1 (en) * 2020-03-17 2023-02-02 Shenzhen Insstitutes Of Advanced Technology Chinese Academy Of Sciences Method and apparatus for reconstructing medical image
CN111415311B (zh) * 2020-03-27 2023-03-14 北京航空航天大学杭州创新研究院 资源节约型图像质量增强模型
CN111539263B (zh) * 2020-04-02 2023-08-11 江南大学 一种基于聚合对抗网络的视频人脸识别方法
CN111861949B (zh) * 2020-04-21 2023-07-04 北京联合大学 一种基于生成对抗网络的多曝光图像融合方法及系统
CN113643392B (zh) * 2020-05-11 2023-12-26 北京达佳互联信息技术有限公司 面部生成模型训练方法、面部图像生成方法及装置
US11587548B2 (en) 2020-06-12 2023-02-21 Baidu Usa Llc Text-driven video synthesis with phonetic dictionary
WO2021248473A1 (en) * 2020-06-12 2021-12-16 Baidu.Com Times Technology (Beijing) Co., Ltd. Personalized speech-to-video with three-dimensional (3d) skeleton regularization and expressive body poses
CN111488865B (zh) * 2020-06-28 2020-10-27 腾讯科技(深圳)有限公司 图像优化方法、装置、计算机存储介质以及电子设备
CN112101087B (zh) * 2020-07-24 2024-02-02 西安电子科技大学 一种面部图像身份去识别方法、装置及电子设备
CN111915545B (zh) * 2020-08-06 2022-07-05 中北大学 一种多波段图像的自监督学习融合方法
CN111951168B (zh) * 2020-08-25 2023-04-07 Oppo(重庆)智能科技有限公司 图像处理方法、图像处理装置、存储介质与电子设备
CN112508862B (zh) * 2020-11-19 2022-03-25 电子科技大学 一种通过改进gan增强裂纹磁光图像的方法
CN112529806A (zh) * 2020-12-15 2021-03-19 哈尔滨工程大学 基于生成对抗网络信息最大化的sar图像数据增强方法
CN112613460A (zh) * 2020-12-30 2021-04-06 深圳威富优房客科技有限公司 人脸生成模型的建立方法和人脸生成方法
CN112699952B (zh) * 2021-01-06 2021-08-24 哈尔滨市科佳通用机电股份有限公司 基于深度学习的列车故障图像扩增方法及系统
CN112884326A (zh) * 2021-02-23 2021-06-01 无锡爱视智能科技有限责任公司 一种多模态分析的视频面试评估方法、装置和存储介质
CN113450313B (zh) * 2021-06-04 2022-03-15 电子科技大学 一种基于区域对比学习的图像显著性可视化方法
CN114783022B (zh) * 2022-04-08 2023-07-21 马上消费金融股份有限公司 一种信息处理方法、装置、计算机设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110058609A1 (en) * 2009-09-04 2011-03-10 Stmicroelectronics Pvt. Ltd. System and method for object based parametric video coding
CN106845471A (zh) * 2017-02-20 2017-06-13 深圳市唯特视科技有限公司 一种基于生成对抗网络的视觉显著性预测方法
CN107123151A (zh) * 2017-04-28 2017-09-01 深圳市唯特视科技有限公司 一种基于变分自动编码器和生成对抗网络的图像转化方法
CN107239766A (zh) * 2017-06-08 2017-10-10 深圳市唯特视科技有限公司 一种利用对抗网络和三维形态模型的大幅度人脸摆正方法
CN107292813A (zh) * 2017-05-17 2017-10-24 浙江大学 一种基于生成对抗网络的多姿态人脸生成方法
CN107392118A (zh) * 2017-07-04 2017-11-24 竹间智能科技(上海)有限公司 基于多任务对抗生成网络的强化人脸属性识别方法及系统
CN107437077A (zh) * 2017-08-04 2017-12-05 深圳市唯特视科技有限公司 一种基于生成对抗网络的旋转面部表示学习的方法
US20170372193A1 (en) * 2016-06-23 2017-12-28 Siemens Healthcare Gmbh Image Correction Using A Deep Generative Machine-Learning Model
CN107644006A (zh) * 2017-09-29 2018-01-30 北京大学 一种基于深度神经网络的手写体中文字库自动生成方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110058609A1 (en) * 2009-09-04 2011-03-10 Stmicroelectronics Pvt. Ltd. System and method for object based parametric video coding
US20170372193A1 (en) * 2016-06-23 2017-12-28 Siemens Healthcare Gmbh Image Correction Using A Deep Generative Machine-Learning Model
CN106845471A (zh) * 2017-02-20 2017-06-13 深圳市唯特视科技有限公司 一种基于生成对抗网络的视觉显著性预测方法
CN107123151A (zh) * 2017-04-28 2017-09-01 深圳市唯特视科技有限公司 一种基于变分自动编码器和生成对抗网络的图像转化方法
CN107292813A (zh) * 2017-05-17 2017-10-24 浙江大学 一种基于生成对抗网络的多姿态人脸生成方法
CN107239766A (zh) * 2017-06-08 2017-10-10 深圳市唯特视科技有限公司 一种利用对抗网络和三维形态模型的大幅度人脸摆正方法
CN107392118A (zh) * 2017-07-04 2017-11-24 竹间智能科技(上海)有限公司 基于多任务对抗生成网络的强化人脸属性识别方法及系统
CN107437077A (zh) * 2017-08-04 2017-12-05 深圳市唯特视科技有限公司 一种基于生成对抗网络的旋转面部表示学习的方法
CN107644006A (zh) * 2017-09-29 2018-01-30 北京大学 一种基于深度神经网络的手写体中文字库自动生成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Beyond Face Rotation: Global and Local Perception GAN for Photorealistic and Identity Preserving Frontal View Synthesis;Rui Huang等;《arXiv:1704.04086v2 [cs.CV]》;20170804;第1-11页 *
Face biometric quality assessment via light CNN;Jun Yu等;《Pattern Recognition Letters》;20170801;第25-32页 *
基于生成式对抗网络的人脸识别开发;张卫 等;《电子世界》;20171031;第164-165页 *

Also Published As

Publication number Publication date
CN108537743A (zh) 2018-09-14

Similar Documents

Publication Publication Date Title
CN108537743B (zh) 一种基于生成对抗网络的面部图像增强方法
CN109615582B (zh) 一种基于属性描述生成对抗网络的人脸图像超分辨率重建方法
CN109543606B (zh) 一种加入注意力机制的人脸识别方法
CN107463920A (zh) 一种消除局部遮挡物影响的人脸识别方法
CN110543846B (zh) 一种基于生成对抗网络的多姿态人脸图像正面化方法
CN104268593B (zh) 一种小样本情况下多稀疏表示的人脸识别方法
CN110728209A (zh) 一种姿态识别方法、装置、电子设备及存储介质
CN107085716A (zh) 基于多任务生成对抗网络的跨视角步态识别方法
CN109543548A (zh) 一种人脸识别方法、装置及存储介质
CN112418041B (zh) 一种基于人脸正面化的多姿态人脸识别方法
CN112818764B (zh) 一种基于特征重建模型的低分辨率图像人脸表情识别方法
WO2021139171A1 (zh) 人脸增强识别方法、装置、设备及存储介质
CN110390308B (zh) 一种基于时空对抗生成网络的视频行为识别方法
CN106650617A (zh) 一种基于概率潜在语义分析的行人异常识别方法
CN108537196B (zh) 基于运动历史点云生成的时空分布图的人体行为识别方法
CN106295501A (zh) 基于唇部运动的深度学习身份识别方法
CN112288627A (zh) 一种面向识别的低分辨率人脸图像超分辨率方法
CN108108760A (zh) 一种快速人脸识别方法
CN113378949A (zh) 一种基于胶囊网络和混合注意力的双重生成对抗学习方法
CN110188646B (zh) 基于梯度方向直方图与局部二值模式融合的人耳识别方法
Hongmeng et al. A detection method for deepfake hard compressed videos based on super-resolution reconstruction using CNN
CN114937298A (zh) 一种基于特征解耦的微表情识别方法
Chen et al. Defakehop++: An enhanced lightweight deepfake detector
CN111401116A (zh) 基于增强卷积和空时lstm网络的双模态情感识别方法
CN111539434B (zh) 基于相似度的红外弱小目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant