CN108537743A

CN108537743A - 一种基于生成对抗网络的面部图像增强方法

Info

Publication number: CN108537743A
Application number: CN201810206149.3A
Authority: CN
Inventors: 俞俊; 孙可嘉; 高飞
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2018-03-13
Filing date: 2018-03-13
Publication date: 2018-09-14
Anticipated expiration: 2038-03-13
Also published as: CN108537743B

Abstract

本发明公开了一种基于生成对抗网络的面部图像增强方法.本发明包括以下步骤：1、使用3D稠密面部对齐方法对多种姿态的面部图像进行预处理；2、设计基于生成对抗网络的面部增强网络，两步生成对抗网络。3、针对任务需要设计Step‑I和Step‑II对应的目标函数4、使用MS‑1‑celeb预训练识别模型，并使用扩增数据预训练TS‑GAN模型；5、使用Multi‑PIE作为训练集，利用反向传播算法训练(4)中完成预训练的TS‑GAN模型参数，直至收敛。使用最终训练的TS‑GAN模型可以得到与输入图像对应的正脸图像，同时该图像保留原始光照、视觉程度真实，并且保留了原有的身份信息。

Description

一种基于生成对抗网络的面部图像增强方法

技术领域

本发明涉及一种针对面部图像增强(image enhancement，IE)的深度神经网络，尤其涉及对任意姿态的面部图像进行统一建模的方法，以及最终合成的面部图像在人脸识别领域的探究。

背景技术

随着社会的发展，我国的公共安全体系逐步建立并完善。尤其是在视频监控领域，公共场所的监控已经铺满了各个场景。无论是人头攒动的广场马路，还是拥挤繁忙的车站地铁，都有无数的监控部署在其中，为我们的生活提供着无形的保护。在保证对监控场景多维度的信息提取，采集视频资源的同时，为了能够更好的利用这庞杂的数据信息，对其进行合理的分析，并筛选出有意义的信息。一个又一个的应用领域被拓展开来，如人脸识别，车辆识别，行人检测，物体追踪等等。这些任务要面临海量的数据与复杂的场景所带来的速度与精度的多重考验，而深度学习算法由于其出色的性能，在近些年来脱颖而出，被广泛应用在不同的场景之中。

在纷繁众多的视觉领域中，人脸识别一直都是备受瞩目的研究方向之一。不仅得益于其长期的科研积累，还因为人脸识别有着广泛的应用空间。例如，警方可以通过获取的人脸图像从各类数据库中及时的检索到可疑人员的身份信息，从而加速整个办案过程；企业或者个人可以根据人脸识别的各类需求在必要位置安装人脸门禁系统等；车站与地铁，甚至机场都已经广泛应用了成熟的人脸识别技术作为人证对比的参照，大大降低了工作人员的工作强度和误识率，为我们的出行提供了安全保障。由此可见，人脸识别已经应用到了我们生活的各个角落，一套完善且性能优越的人脸识别系统可以在为我们的生活提供便利的同时，也会让罪犯无处可逃。

但从当下的技术层面上看来，人脸识别的应用也存在着诸多的问题。尤其在实际的视频监控场景中，采集的人脸图像往往存在各种姿态，而其中的多数极端姿态会对我们的识别算法性能造成极大地影响。鉴于这样的原因，为自然场景中的人脸识别系统提供可靠的面部图像，在整个任务中至关重要。

发明内容

本发明的目的是针对现有技术的不足，提供一种基于生成对抗网络的面部图像增强方法。

本发明解决其技术问题所采用的技术方案如下：

一种基于生成对抗网络的面部增强方法，包括如下步骤：

步骤(1)、数据预处理：

数据处理分两部分，第一部分对原始数据集进行扩增；第二部分对要用到的所有数据集进行统一处理；

对MS-1-celeb数据集进行预处理：利用3D morphable model将该数据集中的正脸面部图像转任意角度，得到二元组数据{IP，IF}，形成MS-1-celeb扩增集；其中，IP为给定原始输入图像，IF为其相应同场景下的面部正视图；

对用到的所有图像进行预处理：使用3DDFA算法抽取图像的面部关键点；并根据得到的关键点对图像进行配准操作；

所有图像包括MS-1-celeb扩增集和Multi-PIE数据集；

步骤(2)、设计基于生成对抗网络进行面部增强的网络结构：

两步生成对抗网络的实现如下：

Step-I：将原始输入图像IP输入到一个Encoder-Decoder结构的网络中，合成一张效果较差的正脸图像；

Step-II：将Step-I的合成的正脸图像与原始输入图像IP进行通道拼接，输入到一个U型网络结构中继续进行正脸化操作，从而得到最终视觉效果非常好的增强面部图像；

步骤(3)、构建面部增强网络的损失函数：

针对两步生成对抗网络设计其各部分的损失函数；

在Step-I中，对Encoder部分的bottleneck层引入了Softmax损失函数，为面部图像的分类进行约束；对Decoder生成的面部图像引入重建损失和对抗损失，以求利用这两种约束得到一个视觉良好的面部图像；

在Step-II中，对U型网络输出的正脸图像引入了对抗损失、重建损失、对称损失、全变差损失和感知损失；通过先验知识结合出色的对抗网络得到视觉真实、身份信息良好的面部图像；

步骤(4)、预训练模型：

首先，训练三个人脸识别模型：Resnet-28、IRv1，以及IRv1在Multi-PIE上的微调模型IRv1_ft；Resnet-28用来初始化最终模型的Encoder部分，IRv1_ft用来对合成的正脸图像的身份信息提供监督信息；之后用通过Resnet-28和IRv1_ft这两个模型初始化TS-GAN，获取初始化模型；配合MS-1-celeb扩增数据集对整个初始化模型进行训练，直至模型在扩增集上收敛，完成整个预训练部分，获得收敛模型；

步骤(5)、模型训练使用Multi-PIE数据集自带的{IP，IF}二元组作为最终训练集；利用步骤(4)的收敛模型对网络初始化，结合步骤(3)中所述的损失函数，进而利用反向传播算法对步骤(2)中设计的两步生成对抗网络的参数进行训练，直至整个网络模型收敛。

步骤(2)中的TS-GAN,其具体如下：

首先，设置整个实验的目标函数；

从不同姿态的IP合成其对应的正脸视图IF，训练网络须构建数据对{IP，IF}，其中IF为对应IP的目标视图，两者具有相同的数据维度；使用G_θ来学习变换参数θ_G；

生成网络G由两部分组成，分别为和

判别网络D根据参数分为和两部分；通过学习到一个清晰的正面视图；然后通过学习纹理的补全和其他优化；同在部分引入了交叉熵损失函数L_identity对Encoder部分进行更多的监督；为了获得良好的视觉效果和可靠的身份识别效果，为生成网络部分G_θ设计一个的加权损失函数L_syn；在训练过程中我们通过成对的数据输入，有监督的训练TS-GAN；其G_θ部分的最终目标函数描述为：

其中α为交叉熵损失函数L_identity的加权系数，y为网络中输入图像IP的身份信息，用one-hot向量表示；生成损失函数L_syn的具体组成如下：

其中，和分别为Step-I网络输出的中间部分(bottleneck层)与目标视图的重建损失和合成图像的对抗损失；

与分别为Step-II中，U型网络最终合成的人脸图像与目标视图之间的重建损失和最终合成图像的对抗损失；L_sym为合成图像自身的对称损失；L_id为最终合成图像与目标视图的身份损失；L_tv为最终合成图像的全变差损失；同时，每个损失部分有各自对应的加权系数λ_i，i＝1,2,3…7，最终得到Step-II网络合成部分的损失函数L_sym。

3.根据权利要求2所述的一种基于生成对抗网络的面部图像增强方法，其特征在于所述的损失函数如下：

对身份信息的Softmax损失函数表达式如下：

其中，x表示原始输入图像IP，i表示原始输入图像的正确身份，f_i(x)表示隐层中对应正确分类的神经元激活量；

合成过程中的图像重建损失函数：

使用TS-GAN网络结构，对Step-I和Step-II的输出结合目标视图，用重建损失进行约束，其对应的表达式如下：

公式中的i∈{1，2}，分别表示Step-I和Step-II；W，H表示原始输入图像的维度；j表示第j个样本；

对称损失函数公式如下：

其中，I^s表示模型合成的正脸图像；

对抗损失函数公式表达如下所示：

身份保留感知损失函数：

在正脸图像合成的任务中，保持原始图像的身份信息是最核心的部分；虽然之前引入了重建损失，但是并不足以第一身份完全的保留；因此引入了感知损失来保持感知的相似性，从而使得模型的最后输出具有身份保留的能力；最终将IRv1_ft输出的特征作为身份依据，公式如下：

在公式中，表示训练好的IRv1_ft；

全变差损失函数：

是对整张图像x方向和y方向的像素梯度的约束，公式表达如下：

其中，τ为全变差的平滑系数。

本发明有益效果如下：

针对这样的问题，本发明提出了一个可能的解决方案，基于生成对抗网络(Generative Adversarial Network，GAN)的面部图像增强(IE)方法,从而将自然场景中的面部图像合成身份信息保留的、真实的正脸面部图像。进而根据正脸面部图像作为识别的凭证进行之后的任务。GAN的使用旨在指导算法合成足够“真实”的图像。对于人脸识别系统，通过合成算法对输入的各个姿态人脸进行归一化的操作，以此来为识别算法提供身份合理并且便于识别的人脸图像。这样的操作可以为自然场景中存在的大角度识别问题，甚至是为警务平台中存在的身份证图像与自然场景图像匹配问题提供一个全新的、有效的解决思路。

附图说明

图1为本发明流程图；

图2为本发明人脸识别模型Resnet-28流程图；

图3为本发明二元组数据示意图；

图4为本发明最终展示图；

图5为本发明极端角度下的合成数据图；

图6为本发明不同场景下的测试图Ⅰ；

图7为本发明不同场景下的测试图Ⅱ；

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

如图1-7所示，一种基于生成对抗网络的面部图像增强方法，具体实现步骤如下：

给定图像IP和相应同场景下的面部正视图IF构成二元组，以{I^P，I^F}作为训练集。

步骤(1)、数据预处理

数据处理分两部分，第一部分对原始数据集进行扩增。第二部分对要用到的所有数据集进行统一处理。

对MS-1-celeb数据集进行预处理：利用3D morphable model(3DMM)将该数据集中的正脸面部图像转任意角度，得到上述的二元组数据，图3所示；

对用到的所有图像(MS-1-celeb扩增集和Multi-PIE数据集)预处理：使用3DDFA算法抽取图像的面部关键点。并根据得到的关键点对图像进行配准操作。

步骤(2)、基于生成对抗网络进行面部增强的网络结构设计

整体算法流程如图1所示，本文提出了一种新颖的利用生成对抗网络对面部图像进行面部增强的方法，两步生成对抗网络(Two Step Generative Adversarial Network，TS-GAN)。这个方法可以将输入的任意角度、任意光照的人脸图像，在保证身份信息和场景信息的同时做到正脸化操作。

在Step-I中，我们将原始侧脸图像I^P输入到一个Encoder-Decoder结构的网络中，生成一张效果较差的正脸图像；

在Step-II中将Step-I的合成图像与原始的输入图像I^P进行通道拼接，输入到一个U型网络结构中继续进行正脸化操作，从而得到最终视觉效果非常好的增强面部图像。

步骤(3)、面部增强网络的损失函数设计

通过步骤(2)的方法我们可以了解到整个网络的基本流程，在本步骤中，我们将针对TS-GAN设计其各部分的损失函数。

在Step-I中，本文对Encoder部分的bottleneck层引入了Softmax损失函数，为面部图像的分类进行约束。对Decoder生成的面部图像引入重建损失和对抗损失，以求利用这两种约束得到一个视觉良好的面部图像；

在Step-II中，本文对U型网络输出的合成图像引入了对抗损失、重建损失、对称损失、全变差损失和感知损失。希望通过先验知识结合出色的对抗网络得到视觉真实、身份信息良好的面部图像。

步骤(4)、预训练模型

为了使得网络的合成图像有更好的效果，我们需要预训练部分模型。首先训练三个人脸识别模型Resnet-28(如图2)和Inception-Resnet-V1(之后简称IRv1)，以及IRv1在Multi-PIE上的微调模型IRv1_ft。前者用来初始化最终模型的Encoder部分，IRv1_ft用来对合成图像的身份信息提供监督信息。之后用这两个模型初始化TS-GAN配合MS-1-celeb扩增数据集对整个模型进行训练，直至模型在扩增集上收敛，完成整个预训练部分。

步骤(5)、模型训练

使用Multi-PIE数据集构成的{I^P，I^F}二元组作为最终训练集。利用步骤(4)的收敛模型对网络初始化，结合步骤(3)中所述的损失函数，计算生成图像与原图的身份信息和真实度等差异，进而利用反向传播算法(Back-Propagation，BP)对步骤(2)中设计的神经网络模型的参数进行训练，直至整个网络模型收敛。

步骤(1)所述的数据处理，具体如下：

我们利用现有的3D稠密面部对齐方法(3D Dense Face Alignment，3DDFA)方法计算数据集中的面部关键点坐标，在得到面部图像对应的五个关键点(双眼，嘴角和鼻尖)之后，根据双眼关键点与水平线的夹角将图像做使得面部图像以双眼连线为基准水平对齐。然后根据嘴巴中心点和眼睛中心的距离与37像素作比，得到图像的放缩比例，对面部图像进行放缩。最后以双眼中心点距离图像左、上边沿的距离为36像素，对图像进行裁剪。最终，得到训练所需要的110×110的彩色面部图像。这个操作在MS-1-celeb扩增数据集和Multi-PIE数据集上做全量的操作，最终得到400w的MS-1-celeb数据集、60w的MS-1-celeb扩增数据集和68w的Multi-PIE数据集。

步骤(2)所述的基生成对抗网络进行面部增强的网络结构设计，具体如下：

网络分Step-I和Step-II两部分，共包含两个生成器和两个判别器。其中，Step-I中的生成器为Encoder-Decoder结构；Step-II中的生成器为U型网络结构。两个判别器有着相同的网络结构。

在Step-I中，生成网络G_ED的Encoder部分，G_E，使用Resnet的设计，其网络包含27层的卷积和1层的全连接，共计28层，输入为96×93×3的RGB三通道图像，输出为512维特征向量。Resnet的作用是从侧脸图像提取后续图像恢复所需要的人脸表征。网络中的Decoder部分，G_D，将562维向量解卷积到profile的相同维度。562维特征向量中有512维的人脸表征和50维服从(0,1)分布的高斯噪声，0为均值1为方差。其网络中包含17个卷积层和1个全连接层；

在Step-II中，生成器由18层的U型网络,G_U,构成。与之前不同的是其单个网络既包含了12层卷积层，也包含了6层反卷积层，并且输入图像为96×96×6，是两个图像stack在一起的结果，用以融合中间层输出的合成图像和原始profile图像的细节纹理信息。

最后，两个判别器使用相同的网络结构，即15层的卷积和1层全连接，用于对输入图像的真实性做判断(二分类)。感知损失计算使用Inception-Resnet-v1的微调模型对数据抽取的特征。

步骤(3)所述的面部增强网络的损失函数设计，具体如下：

我们通过一部分的先验知识，结合一些前辈的训练经验，设置了整个实验的目标函数。在实验中由于GAN需要分别训练，因此对于G网络和D网络，有着不同的目标函数。虽然我们的G网络由两部分组成，但是G_θ部分是要一起训练的。因此在后续将不单独给出Step-I和Step-II的目标函数。

我们的目标是从不同姿态的I^P合成其对应的正脸视图I^F，为了训练网络我们须要构建{I^P，I^F}这样的数据对，其中I^F为对应I^P的目标视图，两者具有相同的数据维度。为了更好的学习侧脸图像到正面视图的变化过程，我们使用G_θ来学习变换参数θ_G。同时，我们的生成网络G由两部分组成，分别为和判别网络D也可以根据参数分为和两部分。我们希望通过学习到一个清晰的正面视图。然后通过学习纹理的补全和其他优化。同在部分引入了交叉熵损失函数L_identity对Encoder部分进行更多的监督。为了获得良好的视觉效果和可靠的身份识别效果，我们为生成网络部分，G_θ，设计了一个复杂的加权损失函数L_syn。于是，在训练过程中我们通过成对的数据输入，有监督的训练TS-GAN。其G_θ部分的最终目标函数可以描述为：

其中α为交叉熵损失函数L_identity的加权系数，y为网络中输入图像I^P的身份信息，用one-hot向量表示。生成损失函数L_syn的具体组成如下：

与分别为Step-II中，U型网络最终合成的人脸图像与目标视图之间的重建损失和最终合成图像的对抗损失；L_sym为合成图像自身的对称损失；L_id为最终合成图像与目标视图的身份损失；L_tv为最终合成图像的全变差损失。同时，每个损失部分有各自对应的加权系数λ_i，i＝1,2,3…7，最终得到Step-II网络合成部分的损失函数L_sym。接下来，我们将对生成网络损失函数部分进行详细的说明，并提供设计动机和具体的实验室设置。

对身份信息的Softmax损失：

由于我们要解决的是不同姿态面部身份信息的增强问题，需要模型编码部分对各种姿态的面部依然具有一定的编码能力。Softmax损失在本文中的表达式如下：

其中x表示输入的图像，在本文中代表输入的侧脸图像I^P。则表示输入图像的正确身份，f_i(x)表示隐层中对应正确分类的神经元激活量。

合成过程中的图像重建损失函数：

使用TS-GAN网络结构，我们在损失设计的时候使用了两个权重不一的重建损失，用以保证图像内容的一致性。具体而言就是对Step-I和Step-II的输出结合目标视图，用L1重建损失进行约束。这样的强损失虽然会导致合成图像更偏向于模糊，但是对于加速收敛和提高性能来说，它依然发挥不可替代的作用。其对应的表达式如下：

公式中的i∈{1，2}，分别表示Step-I和Step-II。W，H表示输入图像的维度。

对称性损失：

对称，作为人脸固有的特征，本身可以作为一个先验知识。因此在合成图像中加入对称的约束是非常必要的，尤其是对于自我遮挡问题，它可以大大提高大姿态下的合成性能。我们对对称性损失的公式如下：

其中，I^s表示模型的合成图像。

对抗损失：

对抗损失来自GAN网络的鉴别器部分。它可以有效的推动合成图像向真实图像靠近，并且可以有效的防止模糊。其公式表达如下所示：

身份保留损失：

在正脸图像合成的任务中，保持原始图像的身份信息是最核心的部分。虽然之前引入了L1重建损失，但是并不足以第一身份完全的保留。于是在这部分，我们引入了感知损失(perceptual loss)来保持感知的相似性，从而使得模型的最后输出具有身份保留的能力。最终我们取在训练集上fine-tuned的IRv1(IRv1_ft)输出的feature作为身份依据，公式如下：

在公式中，表示训练好的人脸识别网络，本文中使用的是IRv1_ft。

全变差损失：

顾名思义，是对整张图像x方向和y方向的像素梯度的约束。由于全变分的计算可以提现出图像中噪声的情况，对全变分的约束则是为了整体图像的更加平滑和自然，其中τ为全变差的平滑系数，公式表达如下：

步骤(4)所述的预训练模型，具体如下：

预训练过程中，我们用步骤(1)中得到的全量MS-1-celeb数据集对Resnet和IRv1进行人脸识别任务的训练。即对400w数据做10w类的分类任务,损失函数使用SoftmaxWithLoss利用BP算法对两个网络的参数进行优化。IRv1_ft则是在IRv1的基础上再用Multi_PIE进行微调得到的网络模型，最终得到三个模型在标准测试机LFW(LabeledFaces in the Wild)上的测试精度如表1所示。

接下来，使用训练好的Resnet和IRv1_ft网络模型对TS-GAN的Encoder部分和身份保留损失中的特征提取网络进行初始化，网络的其他部分进行随机初始化。使用MS-1-celeb扩增数据集组成的二元组数据对网络进行训练，直至收敛，得到最终的预训练模型。

步骤(5)所述的训练模型，具体如下：

针对步骤(2)所给出的最终目标函数，在实际训练中，经过大量的实验，我们得到步骤(3)目标函数的合适参数选择，α取3e-3，λ₁取到0.3，λ₂取到1，λ₃取3e-3，λ₄取到5e-4，λ₅取1e-3，λ₆3e-3，λ₇取到1e-4。使用TensorFlow深度学习框架训练。最终在极端角度下的合成数据如图5所示。

同时我们做了更多场景下的测试，如图6，7所示。我们的合成模型表情具有很好的鲁棒性。最后展示图4的图像，可以看出我们的TS-GAN的设计比单层的GAN在这个问题中的表现效果要更好(第一行为输入图像，第二行为Step-I输出图像，第三行为最终TS-GAN输出图像)。

Claims

1.一种基于生成对抗网络的面部图像增强方法，其特征在于包括如下步骤：

步骤(1)、数据预处理：

对MS-1-celeb数据集进行预处理：利用3D morphable model将该数据集中的正脸面部图像转任意角度，得到二元组数据{I^P，I^F}，形成MS-1-celeb扩增集；其中，I^P为给定原始输入图像，I^F为其相应同场景下的面部正视图；

所有图像包括MS-1-celeb扩增集和Multi-PIE数据集；

步骤(2)、设计基于生成对抗网络进行面部增强的网络结构：

两步生成对抗网络的实现如下：

Step-I：将原始输入图像I^P输入到一个Encoder-Decoder结构的网络中，合成一张效果较差的正脸图像；

Step-II：将Step-I的合成的正脸图像与原始输入图像I^P进行通道拼接，输入到一个U型网络结构中继续进行正脸化操作，从而得到最终视觉效果非常好的增强面部图像；

步骤(3)、构建面部增强网络的损失函数：

针对两步生成对抗网络设计其各部分的损失函数；

步骤(4)、预训练模型：

步骤(5)、模型训练使用Multi-PIE数据集自带的{I^P，I^F}二元组作为最终训练集；利用步骤(4)的收敛模型对网络初始化，结合步骤(3)中所述的损失函数，进而利用反向传播算法对步骤(2)中设计的两步生成对抗网络的参数进行训练，直至整个网络模型收敛。

2.根据权利要求1所述的一种基于生成对抗网络的面部图像增强方法，其特征在于步骤(2)中的TS-GAN,其具体如下：

首先，设置整个实验的目标函数；

从不同姿态的I^P合成其对应的正脸视图I^F，训练网络须构建数据对{I^P，I^F}，其中I^F为对应I^P的目标视图，两者具有相同的数据维度；使用G_θ来学习变换参数θ_G；

生成网络G由两部分组成，分别为和

判别网络D根据参数分为和两部分；通过学习到一个清晰的正面视图；然后通过学习纹理的补全和其他优化；同在部分引入了交叉熵损失函数L_identity对Encoder部分进行更多的监督；为了获得良好的视觉效果和可靠的身份识别效果，为生成网络部分G_θ设计一个的加权损失函数L_syn；在训练过程中我们通过成对的数据输入，有监督的训练TS-GAN；其G_∈部分的最终目标函数描述为：

其中α为交叉熵损失函数L_identity的加权系数，y为网络中输入图像I^P的身份信息，用one-hot向量表示；生成损失函数L_syn的具体组成如下：

与分别为Step-II中，U型网络最终合成的人脸图像与目标视图之间的重建损失和最终合成图像的对抗损失；L_sym为合成图像自身的对称损失；L_id为最终合成图像与目标视图的身份损失；L_tv为最终合成图像的全变差损失；同时，每个损失部分有各自对应的加权系数λ_i，i＝1，2，3，...7，最终得到Step-II网络合成部分的损失函数L_sym。

对身份信息的Softmax损失函数表达式如下：

其中x表示原始输入图像I^P，i表示原始输入图像的正确身份，f_i(x)表示隐层中对应正确分类的神经元激活量；

合成过程中的图像重建损失函数：

(4)

对称损失函数公式如下：

其中，I^s表示模型合成的正脸图像；

对抗损失函数公式表达如下所示：

身份保留感知损失函数：

在公式中，表示训练好的IRv1_ft；

全变差损失函数：

其中，τ为全变差的平滑系数。