CN111652827B

CN111652827B - 一种基于生成对抗网络的正面人脸合成方法及系统

Info

Publication number: CN111652827B
Application number: CN202010333288.XA
Authority: CN
Inventors: 陈振学; 周亚梅; 周新洁; 王梦雪; 朱凯
Original assignee: Shenzhen Research Institute Of Shandong University; Shandong University
Current assignee: Shenzhen Research Institute Of Shandong University; Shandong University
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2023-04-18
Anticipated expiration: 2040-04-24
Also published as: CN111652827A

Abstract

本公开提供了一种基于生成对抗网络的正面人脸合成方法及系统，从输入图像中检测并分割出人脸部分，进行人脸对齐，以获取待合成的人脸图像；根据人脸关键点估计其头部姿态，根据头部旋转自由度将人脸数据集划分为正面人脸集和非正面人脸集；利用人脸识别深度神经网络的预训练模型，提取输入人脸图像的身份特征进行监督网络的训练；根据输入的侧面人脸图像，基于生成对抗网络合成其相应的正面人脸图像。通过人脸对称性约束和身份特征约束使得合成的正面人脸更加自然且更好的保持其身份特征。

Description

一种基于生成对抗网络的正面人脸合成方法及系统

技术领域

本公开属于计算机视觉、模式识别与数字图像处理领域，具体涉及一种基于生成对抗网络的正面人脸合成方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

传统的人脸识别算法大都是基于人工设计的特征(如LBP、HOG、SIFT、Gabor 等)和机器学习算法(如PCA、线性判别算法、支持向量机算法等)。同时获取的人脸数据库不仅数量有限，而且人脸类型过于单一，所以早期人脸识别算法的在现实应用中的识别准确率不高。近年来随着计算机硬件技术和软件技术地迅猛发展，为解决人脸识别问题提供了新的思路和方法-基于卷积神经网络的深度学习方法。卷积神经网络是通过模拟人类大脑的学习方式，利用由基本的神经元组成的多层神经网络来学习目标特征。目前的神经网络大部分是以数据驱动的模型，为有效提高特征学习能力，不仅需要对网络的结构进行设计，更需要海量数据集进行训练学习。总而言之，深度学习网路方法是一种多层及深层的网络去学习特征，通过非线性模块将各层连接，随着层数的增加，具网络模型会学习到更高层更抽象的特征表示。

近年来随着深度学习快速发展，大大提升了人脸识别算法的精确度，但是在实际应用中仍然存在诸多问题。在非受控环境下尤其是监控视频中获取的人脸图像，大多存在分辨率低，面部遮挡，光照变化大，头部姿态各异等问题，这些缺陷为人脸识别的实际应用带来了难题。

目前针对人脸面部姿势变化的问题现有方法可以大体分为两类。第一类利用卷积神经网络来提取人脸姿势不变特征。第二类首先将任意姿势的面部图像恢复到正视面部，然后将恢复的面部图像用于人脸识别。对于第一类方法，深度学习方法通常会使用海量训练数据或设计各类损失函数来实现对特征空间的约束，例如，有DeepFace使用440万张面部图像用于训练；FaceNet使用2 亿张面部图像进行训练，并采用triple loss来确保对类内不变性；Cos Face、Arc Face等，它们通过通用的卷积神经网络进行特征提取，然后在最后的分类层上进行特征空间的约束来实现增大类间距离缩小类内距离。

对于第二类方法，大多以生成对抗网络为主体添加其他约束模块来实现偏转人脸正面化的工作，比如Towards Large-Pose Face Frontalization in the Wild (FF-GAN)提出了深度3D变形模型(3DMM)条件的人脸正面化生成对抗网络，他们通过深度卷积模块提取人脸3DMM系数，并将其与输入图像组合输入GAN 模块以生成正面人脸图像。Beyond facerotation:Global and local perception gan for photorealistic and identitypreserving fronta view synthesis(TP-GAN)提出了两路生成对抗性网络用于合成正面人脸，该模型的生成器具有两个路径：第一路径是局部路径，用特征点把左右眼，鼻子和嘴唇进行提取，主要对局部特征进行学习，第二路径将整个脸部送入CNN，学习轮廓等全局信息。上部这个双向CNN 网络用两个损失函数进行训练：全局路径解码后的交叉熵和对称损失函数。目前正面人脸合成的模型通常会结构较为复杂，模型参数较多，导致训练和验证都非常耗时，而且训练均需要成对的输入造成训练数据约束较多的问题。同时，合成的人脸图像往往不够自然，且用于识别网络效果不甚令人满意。

发明内容

本公开为了解决上述问题，提出了一种基于生成对抗网络的正面人脸合成方法及系统，本公开将生成对抗网络(GAN)与深度卷积模块结合起来，通过人脸对称性约束和身份特征约束使得合成的正面人脸更加自然且更好的保持其身份特征。

根据一些实施例，本公开采用如下技术方案：

第一方面，提供一种基于生成对抗网络的正面人脸合成方法，包括以下步骤：

从输入图像中检测并分割出人脸部分，进行人脸对齐，以获取待合成的人脸图像；

根据人脸关键点估计其头部姿态，根据头部旋转自由度将人脸数据集划分为正面人脸集和非正面人脸集；

利用人脸识别深度神经网络的预训练模型，提取输入人脸图像的身份特征进行监督网络的训练；

根据输入的侧面人脸图像，基于生成对抗网络合成其相应的正面人脸图像。

作为可选择的实施方式，还包括以下步骤：

根据人脸本身的对称性特点，在模型训练过程中提取生成人脸图像的对称性特征，以进行生成对抗网络的训练优化。

作为可选择的实施方式，对人脸对齐的过程包括对输出的图像进行人脸检测并且从图像中分割出人脸部分去除背景的影响；然后对人脸图像进行人脸对齐工作，即通过人脸关键点定位来旋转人脸图像实现人脸对齐。

作为可选择的实施方式，人脸关键点包括左眼角、右眼角、鼻尖、左嘴角、右嘴角和下颌。

作为可选择的实施方式，头部姿态的获取过程包括：将2D面部关键点与人脸3D模型建立联系，采用Opencv的solvePnP函数解出旋转向量，将旋转向量转换为欧拉角，得到三个欧拉角，以表示的人脸姿态信息。

作为可选择的实施方式，人脸识别深度神经网络的预训练模型的构建过程包括采用深度卷积网络在CelebA人脸数据集上训练人脸识别的模型，采用全连接层的输出特征图表示人脸图像的身份特征，并且通过L2函数表示身份特征的损失函数。

作为可选择的实施方式，对人脸图像对称性特征提取的过程包括对输出人脸图像进行像素级图像特征提取，通过计算水平翻转人脸图像的合成人脸与输入图像的合成人脸之间的半面人脸差异来获取人脸对称性特征损失函数。

第二方面，提供一种基于生成对抗网络的正面人脸合成系统，包括：

人脸图像预处理模块，被配置为处理输入图像，从图像中检测并分割出人脸部分，并且进行人脸对齐操作以获取待合成的人脸图像；

人脸图像头部姿态估计模块，被配置为根据人脸关键点估计其头部姿态，主要根据头部旋转自由度将人脸数据集划分为正面人脸集和非正面人脸集以供后续训练模型使用；

人脸图像身份特征提取模块，被配置为利用人脸识别深度神经网络的预训练模型来提取输入人脸图像的身份特征用于监督网络的训练；

正面人脸图像合成模块，被配置为根据输入的侧面人脸图像合成其相应的正面人脸图像。

作为可选择的实施方式，还包括人脸对称性特征提取模块，所述模块被配置为根据人脸本身的对称性特点，在模型训练过程中提取生成人脸图像的对称性特征，以约束模型优化。

作为可选择的实施方式，所述正面人脸图像合成模块包括：

生成器模块，被配置为以侧面人脸图像作为输入，其输出为合成的正面人脸图像；

判别器模块，被配置为以真实的正面人脸图像以及合成的图像为输入，在训练过程中对生成器进行监督优化以保证生成器合成的人脸图像是正面姿态的人脸图像。

作为可选择的实施方式，所述生成器模块包括一个上采样部分和一个下采样部分，分别用于提取输入图像的人脸特征和恢复人脸图像；

生成器采用skip-layer的连接方式，将上采样部分的卷积层输出与下采样部分相应的卷积层连接。

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的一种基于生成对抗网络的正面人脸合成方法。

一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的一种基于生成对抗网络的正面人脸合成方法。

与现有技术相比，本公开的有益效果为：

本公开利用生成对抗网络对输入图像进行特征提取并且重建正面人脸图像，并且利用预训练的人脸识别深度模型提取人脸图像的身份特征加速网络训练的拟合以及充分利用人脸图像的深度特征以保证合成的正面人脸图像身份不变性；此外，该公开还加入了人脸对称性特征提取模块，针对合成图像提取对称性特征以保证生成图像更加真实且更贴近正面视角，这一约束的加入也提高了网络训练，从而使得人脸合成模型更有效。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是本公开实施例提供的一种基于生成对抗网络的人脸合成方法流程图；

图2是本公开实施例提供的人脸合成网络框架图模型示意图；

图3是本公开实施例提供的生成对抗网络具体结构示意图；

图4是本公开实施例提供的人脸对称性损失函数模型示意图；

图5是CelebA数据集中本公开实施例提供的与其他方法相比的人脸合成预测结果图,其中(a)为输入人脸，(b),(c),(d)为其他方法，(e)为本公开方法；

图6是CFP数据集中本公开实施例提供的与其他方法相比的人脸合成预测结果图,其中(a)为输入人脸，(b),(c),(d)为其他方法，(e)为本公开方法；

图7是本公开实施例提供的CelebA数据库上的最终预测结果图；

图8是在存在遮挡，光照等因素影响下本公开实施例提供的人脸合成预测结果图；

图9是本公开实施例的生成网络具体网络实现结构；

图10是本公开实施例的判别网络具体网络实现结构。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在本公开中，术语如“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“侧”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系，只是为了便于叙述本公开各部件或元件结构关系而确定的关系词，并非特指本公开中任一部件或元件，不能理解为对本公开的限制。

本公开中，术语如“固接”、“相连”、“连接”等应做广义理解，表示可以是固定连接，也可以是一体地连接或可拆卸连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的相关科研或技术人员，可以根据具体情况确定上述术语在本公开中的具体含义，不能理解为对本公开的限制。

图1是本公开实施例提供的一种基于生成对抗网络的正面人脸合成方法流程图。

如图1所示，本实施例的方法，包括：

S101：预处理人脸数据集图像，得到人脸图像的头部姿态估计值，进而形成正面人脸数据集和非正面人脸数据集；所形成的标签包括正面人脸标签和身份标签。其具体实施过程如下：

具体地，在步骤S101中，人脸数据集中的图片均进行人脸检测操作，去除较为模糊、人脸图像较小以及无法检测到的人脸；然后将检测到人脸图像从图片中分割出来并调整人脸图像的大小，以便进行后续操作；再进行人脸对齐操作，即使人脸的眼睛处于水平位置。

对人脸头部姿态的估计必先进行人脸关键点定位，根据人脸5个关键点坐标以及投影映射关系，估算出三维头部姿态，主要根据yaw，pitch，roll三个方向的角度值以±5°为阈值进行划分出正面人脸数据集和侧面人脸数据集。

最后将正面人脸数据集和侧面人脸数据集按照7:3的比例随机分别分成训练集和测试集。

S102：生成对抗网络中的生成器结构设计以及网络训练的损失函数设计，其具体实施过程如下：

生成器的结构框架如图3所示。生成器G由两个主要部分组成：

1)下采样编码器，每个卷积层后跟一个残差块，并且全连接层的输出特征图进行maxout操作以提取图像有效特征。

2)上采样解码器，主要包含三个部分。第一部分是一个简单的反卷积结构，用于对特征fc2进行上采样。第二部分由堆叠的反卷积层组成，用于重建图像，每个反卷积层之后连接两个残差块。第三部分主要是一些用于恢复人脸图像的卷积层构成。

生成网络具体实现结构如图9所示。

生成器的编码器部分以任意姿态的人脸图像作为输入，并通过多个下采样卷积层对输入进行特征提取。为了有效地获得最具代表性的人脸特征图，生成器的下采样编码器部分的最后一层使用maxout连接方式的完全连接层。

然后将下采样编码器的输出特征图和随机噪声串联在一起作为上采样解码器部分的输入，而解码器部分的输出则是合成正面人脸图像。由于自我遮挡或姿势变化等因素丢失了部分人脸面部特征，因此在编码器部分加入了100维随机高斯噪声，目的是丰富合成人脸图像的信息。此外，受到u-net架构在图像到图像转换中令人印象深刻的结果的启发，生成器采用skip-layer的连接方式进行多尺度特征融合。

S103：判别器主要用于区别合成的正面人脸图像与真实的人脸图像，然后将判别结果反馈至生成器用于监督网络的训练收敛，如图10所示，其具体实施过程如下：

生成对抗网络通常包括两个网络：一个生成器网络利用给定的噪声数据来生成目标数据和一个鉴别器网络用于区分生成器输出数据和真实数据。鉴别器功能是正确区分合成的正面图像I_pred和真实的正面图像I^f。判别器的输入为生成器合成的人脸图像或真实的正面人脸，其输出为一维向量，0表示合成的人脸图像，1表示真实人脸图像。由于我们的目标是合成正面视角的人脸图像，故此使用真实的正面人脸图像作为判别器的目标数据集。

判别器的具体结构框架是由五个卷积层和一个线性层连接而成，其中每个卷积层都包含一个卷积操作，一个池化层和ReLU激活函数层。在具体实施过程中，判别器的实现要避免采用批量归一化操作，因为批量归一化操作是在同一批次的样本之间创建关联，对于有些输入输出都是图片的像素级别图片生成任务，比如图片风格转换，人脸合成等场景，使用批量归一化操作会因为在 Mini-Batch内多张无关的图片之间计算统计量，弱化了单张图片本身特有的一些细节信息，因而会带来负面影响。在本实例实施中采用layernormalization操作代替batch normalization实现归一化，加速网络的收敛。

在网络训练过程中期间，判别器将优化以下目标函数：

其中L_D代表判别器的目标函数，和κ分别是真实人脸图像集和合成的人脸图像集。

在训练过程中，生成器的目标是尽量生成真实的图片去欺骗判别网络；而判别网络的目标就是尽量把生成器生成的图片和真实的图片区分开。这样生成器和判别器就构成了一个动态的博弈过程。在最理想的状态下，生成器可以生成足以“以假乱真”的图片G(I^p,z)。因此整个训练过程中生成对抗网络的损失函数如下所示：

由于包含两部分博弈的网络，生成对抗网络通常很难训练，容易出现模型崩溃或不易收敛等情况。为了克服该问题在这项工作中，我们使用WGAN-gp生成模型。与其他方法不同的是WGAN-gp使用Wasserstein距离，并且引入了梯度惩罚，Wasserstein距离又叫Earth-Mover(EM)距离，是从生成样本和真实样本中随机取出一对样本，并计算该样本对差值的期望值，其中最小的那个期望值。 WGAN-gp中设置了一个额外的损失函数L_gp来限制判别器的梯度，公式如下所示：

其中表示随机采样的一对真假样本，还有一个0-1的随机数通过组合而成的混合图像。

将该损失函数公式与WGAN判别器的损失函数进行加权合并，就得到新的判别器目标函数为：

其中χ表示真实图像与生成器合成图像随机混合图像。λ表示梯度代价的权重。实验表明，加入梯度惩罚能够显著提高训练速度，解决了原始WGAN收敛缓慢的问题。

S104：人脸对称性特征提取模块，将输入的人脸图像进行水平翻转，然后送入生成器模块得到新的生成图像，并且计算由原始输入图像合成的图像和由翻转图像合成的新生成图像之间的像素级的差异来提取人脸对称性特征。其具体实施过程如下：

人脸通常在左右两半之间共享自相似性，基于对对称性特征的先验知识，我们在合成图像上明确施加了对称约束，可以有效缓解自遮挡问题和较大的姿势变化情况。如图2、4所示，使用两个合成图像在像素空间中计算对称性特征的损失如下公式所示：

其中是来自输入图像I^p的翻转的脸部图像，z是随机噪声。

由于L2损失函数(最小化平方误差损失函数)对异常点敏感，异常点会得到更大的损失值和梯度，网络参数会向减小异常点误差的方向更新，因此易造成训练的不稳定性和发散性。因此我们使用L1损失函数(最小化绝对误差损失函数)，对异常点有较好的适应性更鲁棒，同时也可以更好的方式保留图片的高频信息。L_sym损失函数有两个方面的贡献，一个是通过添加对称性特征约束使得生成器合成的人脸图像更加贴近正面视角，另一个是通过提供额外的反向传播梯度来消除部分由于姿态偏转导致的人脸信息缺失影响，从而加速网络模型融合的速度。

S105：身份特征提取模块，主要通过预训练的深度人脸识别模型的来提取人脸的身份特征，在本实例实施中选择网络分类层的输出作为身份损失函数并加入到生成对抗网络的训练优化中来约束模型训练。

在由侧面偏转图像合成正面视角人脸图像的过程中，如何最大限度的保留输入图像的身份信息至关重要。为了实现这一目的，我们引入了一个身份识别模块来提取输入图像的身份特征。在本实例实施中我们采用VggFace网络作为预训练的人脸识别模型，并采用交叉熵损失函数作为输入图像的身份损失函数，其具体公式如下所示：

其中N表示样本类别总数，y_j表示采用one-hot编码的待分类图像的真实标签，s_j表示softmax层的输出向量s的第j个值，表示的是这个样本属于第j个类别的概率。

本实例采用在大规模人脸数据集上预训练成功的Vggface模型在CelebA数据集进行预微调训练得到最终的人脸识别模型，因此，它可以捕获人脸图像最有效的特征以进行身份识别，所以完全可以利用该网络提取人脸图像的身份特征加入到正面人脸合成的网络训练中去。

在本实例实施中，如图5、图6所示，我们使用大小为64×64×3的彩色图像作为输入图像和人脸合成结果。我们的方法是基于CelebA数据库进行评估的，CelebA数据库是一个大型数据库，包含超过200K的名人图像。本公开的实施中采用Tensorflow来实现所有网络的构建及训练。我们设置了三个参数对网络不同功能部分实现控制，具体参数设置为λ_gan＝1.0，λ_id＝3.0，λ_sym＝2.5，公式如下所示：

如图5-图8所示，本实施例能够很好的实现人脸合成，且合成效果好。通过人脸对称性约束和身份特征约束使得合成的正面人脸更加自然且更好的保持其身份特征。

在本实施例中，还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如图1所示的基于生成对抗网络的正面人脸合成方法中的步骤。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种基于生成对抗网络的正面人脸合成方法，其特征是：包括以下步骤：

根据人脸关键点估计其头部姿态，头部姿态的获取过程包括，将2D面部关键点与人脸3D模型建立联系，求解出旋转向量，将旋转向量转换为欧拉角，得到三个欧拉角，根据头部旋转自由度将人脸数据集划分为正面人脸集和非正面人脸集；

根据输入的非正面人脸图像，基于生成对抗网络合成其相应的正面人脸图像。

2.如权利要求1所述的一种基于生成对抗网络的正面人脸合成方法，其特征是：还包括以下步骤：

3.如权利要求1所述的一种基于生成对抗网络的正面人脸合成方法，其特征是：对人脸对齐的过程包括对输出的图像进行人脸检测并且从图像中分割出人脸部分去除背景的影响；然后对人脸图像进行人脸对齐工作，即通过人脸关键点定位来旋转人脸图像实现人脸对齐。

4.如权利要求1所述的一种基于生成对抗网络的正面人脸合成方法，其特征是：人脸关键点包括左眼角、右眼角、鼻尖、左嘴角、右嘴角和下颌。

5.如权利要求1所述的一种基于生成对抗网络的正面人脸合成方法，其特征是：人脸识别深度神经网络的预训练模型的构建过程包括采用深度卷积网络在CelebA人脸数据集上训练人脸识别的模型，采用全连接层的输出特征图表示人脸图像的身份特征，并且通过L2函数表示身份特征的损失函数。

6.如权利要求1所述的一种基于生成对抗网络的正面人脸合成方法，其特征是：对人脸图像对称性特征提取的过程包括对输出人脸图像进行像素级图像特征提取，通过计算水平翻转人脸图像的合成人脸与输入图像的合成人脸之间的半面人脸差异来获取人脸对称性特征损失函数。

7.一种基于生成对抗网络的正面人脸合成系统，其特征是：包括：

人脸图像头部姿态估计模块，被配置为头部姿态的获取过程包括，将2D面部关键点与人脸3D模型建立联系，求解出旋转向量，将旋转向量转换为欧拉角，得到三个欧拉角，根据头部旋转自由度将人脸数据集划分为正面人脸集和非正面人脸集；

正面人脸图像合成模块，被配置为根据输入的非正面人脸图像合成其相应的正面人脸图像。

8.如权利要求7所述的一种基于生成对抗网络的正面人脸合成系统，其特征是：还包括人脸对称性特征提取模块，所述模块被配置为根据人脸本身的对称性特点，在模型训练过程中提取生成人脸图像的对称性特征，以约束模型优化。

9.如权利要求7所述的一种基于生成对抗网络的正面人脸合成系统，其特征是：所述正面人脸图像合成模块包括：

判别器模块，被配置为以真实的正面人脸图像以及合成的图像为输入，在训练过程中对生成器进行监督优化以保证生成器合成的人脸图像是正面姿态的人脸图像；

或，所述生成器模块包括一个上采样部分和一个下采样部分，分别用于提取输入图像的人脸特征和恢复人脸图像；

10.一种计算机可读存储介质，其特征是：其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行权利要求1-7中任一所述的一种基于生成对抗网络的正面人脸合成方法。