CN112418041A

CN112418041A - 一种基于人脸正面化的多姿态人脸识别方法

Info

Publication number: CN112418041A
Application number: CN202011279503.9A
Authority: CN
Inventors: 胡瑞敏; 杜慧敏; 王晓晨; 冯文滨
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2021-02-26
Anticipated expiration: 2040-11-16
Also published as: CN112418041B

Abstract

本发明公开了一种进行人脸正面化的多姿态人脸识别方法。针对实际应用中的人脸姿态变化问题，提出了一种将提取特征和合成正面人脸图像结合的新的人脸识别方法。本发明利用编码器和解码器构成的生成器提取特征并合成正面人脸图像；利用特征判别器和图像判别器判断特征域和图像真假；利用正脸编码器提取合成正脸图像的特征；最后将提取的两种特征合并训练分类器；通过设计的损失函数，交替训练基于生成对抗网络设计的网络，直到损失函数的值稳定收敛。本发明不仅可以将各种姿态的人脸图像校正为正脸图像，也直接提取特征进行人脸识别，有助于减少人脸姿态变换给人脸识别带来的不利影响，有利于人脸识别在非限制条件下的实际应用。

Description

一种基于人脸正面化的多姿态人脸识别方法

技术领域

本发明属于人脸识别技术领域，具体涉及一种基于人脸正面化的多姿态人脸识别方法。

背景技术

人脸识别技术具有便捷性、非接触性、非强制性等优点，是生物识别技术的领军者，并被广泛地应用于门禁安保、网络社交和金融等诸多领域。近年来，以深度学习为代表的人工智能技术为各个研究领域提供了强大的技术支持，基于深度神经网络的人脸识别系统的性能已经显著地超过了基于手工设计特征的人脸识别系统。因此，研究基于深度学习的人脸识别系统符合当前的研究趋势，具有良好的应用前景。

人脸识别系统的性能依赖于人脸的特征表达，而人脸表象的变化如姿态变化会直接影响到人脸的特征表达。在实际场景中，由于无法保证被检测人的高度配合，采集到的人脸图像往往具有不同的视角，大大增加了人脸识别的难度。

在理想的实验条件下，正面人脸识别技术获得了较高的识别精度。但是当人脸图像存在视角变化时，现有的人脸识别系统的性能会显著下降。针对人脸识别中的姿态问题，现有的处理方法通常可以分为两类。一种方法如文献[1,2]等是直接从非正面人脸图像中学习具有鲁棒性的特征，但由于数据集的人脸图像分布不平衡，人脸细节缺失严重等问题，在偏转角度较大时提取鲁棒性特征很困难。另一种方法如文献[3,4,5]等是人脸正面化，即利用非正面人脸图像合成同一身份的正面人脸图像，然后利用合成图像进行人脸识别。这种方法一般可以处理偏转较小角度的侧面人脸，但当偏转角度逐渐增大时，超过60°的侧脸合成正面人脸存在严重变形并且可能丢失身份特征，导致后续人脸识别准确率的下降。

相比于其他基于生成对抗网络的多姿态人脸识别方法，本发明利用生成对抗网络进行了人脸转正，采用了不同的网络结构和损失函数。即使输入了偏转角超过60°的人脸图像，本发明也能够合成逼真的人脸正面图像并且保留更多的人物身份信息，大幅度提高了后续人脸识别工作的效率

[1]Chen D,Cao X,Wen F,et al.Blessing of dimensionality:High-dimensional feature and its efficient compression for face verification[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2013:3025-3032.

[2]Schroff F,Kalenichenko D,Philbin J.Facenet:A unified embedding forface recognition and clustering[C]//Proceedings of the IEEE conference oncomputer vision and pattern recognition.2015:815-823.

[3]Zhu Z,Luo P,Wang X,et al.Multi-view perceptron:a deep model forlearning face identity and view representations[C]//Advances in NeuralInformation Processing Systems.2014:217-225.

[4]Yin X,Yu X,Sohn K,et al.Towards large-pose face frontalization inthe wild[C]//Proceedings of the IEEE international conference on computervision.2017:3990-3999.

[5]Hu Y,Wu X,Yu B,et al.Pose-guided photorealistic face rotation[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2018:8398-8406.

发明内容

针对现有技术存在的不足，本发明提供了一种基于生成对抗网络进行人脸正面化的多姿态人脸识别方法，通过深度学习技术解决由于面部偏转无法获取正面人脸的问题，所实现的系统应当在不同面部角度偏转的情况下实现正面人脸的合成，并保留原始身份；设计基于原始人脸图像和合成人脸图像的人脸识别分类器，实现大角度人脸偏转下的人脸识别。

本发明所采用的技术方案是：一种基于生成对抗网络的多姿态人脸识别方法，其具体实现包括以下步骤：

步骤1，收集各个姿态的人脸图像作为训练集，包括非正面人脸图像集

和非合成的正面人脸图像集

和

分别代表第i张非正面人脸图像和对应同一身份的非合成正面人脸图像。并且已知X_P和X_F对应的身份集为

和

显然这里Y_p和Y_F对应的身份相同；

步骤2，在训练阶段，把训练集中的非正面人脸图像X_P和正面人脸图像X_F分别输入到编码器ε，得到姿态不变的特征f_P和f_F；将特征f_P和f_F输入到解码器

得到合成的正面人脸图像X_F；将合成的正面人脸图像输入到正面人脸编码器

得到正面人脸特征g；

步骤3，将特征f_P和f_F输入特征空间的判别器D_f，判断输入的特征是来自非正面人脸图像X_P还是正面人脸图像X_F；将合成的正面人脸图像X_F和对应身份的真实正脸X_F输入到图像空间的判别器D_g，判断这些输入图像的是合成图像还是非合成图像。

步骤4，人脸识别网络将姿态不变特征f和正面人脸特征g作为输入，训练一个分类器C预测输入特征的身份。

步骤5，把步骤3的判别结果和步骤4的预测结果、合成的正面人脸图像X_F、非合成的正面人脸图像X_F带入到预先设计好的损失函数中，交替训练由编码器、解码器

正面人脸编码器

特征判别器D_f、图像判别器D_g和分类器C C构成的模型，直至训练完成。

步骤6，在测试阶段，把任意姿态的非正面人脸图像X_P输入到训练完成的模型，得到合成的正面人脸图像X_F，可以用以后续的人脸识别工作。或者将probe图像X_P输入到模型中，计算得到联合特征v＝[f,g]，然后通过全局平均池化得到联合特征向量u＝GAP(v)，通过基于欧几里得距离的近邻搜索得到最相近的gallery图像。

在步骤1中，提到所有的正面人脸图像和非正面人脸图像皆来自数据集Multi-PIE；该数据集的图像数目超过75万张，包含337人的在20张光照下15姿态6种表情的图像。使用去除俯仰姿态的中性表情图像。训练部分，使用200人的图像，分为正面人脸图像和非正面人脸图像，非正面人脸图像包含13种姿态20种光照，记作X_P；正面人脸图像包含正面姿态20种光照，记作X_F。测试部分为剩余的137人的图像，probe图像为包含13种姿态的20种光照的人脸图像，gallery图像为标准光照下的正面人脸图像。

在步骤2中，编码器ε从输入图像中提取一个身份特征表达f，然后将这个特征表达送入解码器

来合成正面人脸图像X_F，正脸编码器

用以提取合成的正面人脸图像的特征g。编码器ε网络结构与正面人脸编码器

的网络结构相同，都采用预训练过的ResNet50网络，输入人脸图像，经过Conv1-Res_2-Res_3-Res_4-Res_5提取特征f，f大小为h×w×d，ε和

不共享权重，解码器

由5个上采样层组成，在编码器和解码器之间利用了skipconnection，解码器每个上采样层concatenate到对应的编码器卷积得到的特征层，从而实现对每层特征图都有效使用。

编码器ε网络结构与正脸编码器

的网络结构相同，都采用预训练过的ResNet50网络。解码器

由5个上采样层组成，每个上采样层concatenate到对应的卷积得到的特征层，从而实现对每层特征图都有效使用，这将有助于图像重建的过程。

在步骤3中，特征判别器D_f是一个以卷积神经网络为基础的二分类器，判断输入的特征f是来自非正面人脸图像X_P还是正脸人脸图像X_F，用以鼓励编码器ε提取姿态不变的特征；图像判别器D_g是一个以ResNet18结构为基础的分类器，判断输入图像X_F和X_F是合成图像还是非合成图像，鼓励解码器合成更真实的图像。

在步骤4中，分类器的输入包括两种特征，姿态不变特征f和正面人脸特征g，分类器的输入为两者结合v＝[f,g]，大小为h×w×2d，分类器C的结构为全局平均池化+全连接层+softmax激活层，分类器C的输出为预测的特征的身份，分类器输出为分类器预测的人脸图像的身份，用以完成人脸识别任务。

在步骤5中，所述损失函数的目标是最小化合成的正面人脸图像X_F和非合成的正面人脸图像X_F之间的差异，从而使合成的正脸图像能够保留更多输入人脸图像的身份信息；步骤5中用到的损失函数除了同类型方法常用的像素损失函数、身份损失函数、对称损失函数和对抗损失函数，还包括了三元组损失函数；

首先是重建损失函数，它计算的是合成的正面人脸图像与的非合成的正面人脸图像ground-truth的损失，重建损失的公式定义如下：

其中，图像x_p对应的ground-truth图像为x_F，重建损失利用L1范数计算保证图像清晰度；

然后是对称损失，鉴于人脸具有对称的特点，合成的正脸图像X_F应该和它经过左右翻转后得到的图像尽可能接近，对称损失函数公式如下：

和

表示f_P和f_F经过合成的正脸图像，

和

代表合成的正脸图像经过左右翻转后得到的图像；

接着是对抗损失，对抗损失分为特征对抗损失

和图像对抗损失

特征对抗损失的目标是使非正面人脸图像提取的特征能够欺骗特征判别器，从而让特征更接近正面人脸图像的特征，以鼓励编码器ε提取出姿态不变的特征。特征对抗损失的公式如下：

其中，f_F＝ε(x_F)和f_P＝ε(x_P)分别代表正面人脸图像和非正面人脸图像编码得到的特征；

图像对抗损失的目标是使合成的正面人脸图像能够混淆图像判别器，从而让合成的图像更加接近真实图像，增强了合成图像的逼真程度，图像对抗损失的公式如下：

其中，x_F为非合成的正面人脸图像，

和

是合成的人脸图像；

解码器的目标不是简单地恢复输入的非正面人脸图像中丢失的细节，也要使恢复的正面人脸图像有助于后续的人脸识别任务，也就是说，恢复的正面人脸图像需要与原始的飞正面人脸图像具有相同的身份，具体实现方法是添加身份损失与三元组损失；

在步骤4中，分类器输入特征输出预测身份，身份损失计算分类预测和相应的ground true之间的softmax交叉熵损失，这里的身份损失不仅更新分类器，而且优化解码器；

这里三元组损失函数的目的是类内距离不断下降，类间距离不断提升，以提高人脸识别的判别力，公式定义为：

其中，已知X_P和X_F对应的身份为Y_p和Y_F，这里Y_p和Y_F对应的身份相同；d_pos和d_neg分别表示正图像对和负图像对之间的距离，所述正图像对具有相同身份，所述负图像对具有不同身份，上标P代表图像是侧脸图像，上标F代表图像是正脸图像，α代表常数；

总体的损失函数为：

其中，

分别代表身份损失、三元组损失、特征对抗损失、重建损失、图像对抗损失和对称损失，λ_id、λ_tri、

λ_rec、

和λ_sym代表控制对应损失重要性的权重。

本发明与现有技术相比，具有如下优点与有益效果：

(1)本发明采用基于生成对抗网络的网络模块能够通过输入的非正面人脸图像合成出对应身份的正脸图像，可直接用于人脸识别等后续任务

(2)本发明在输入的人脸图像偏转角超过60°的时候，也可以生成清晰逼真的正脸图像，并且不会产生形变。

(3)本发明合成的正脸图像能够保留输入人脸图片的身份信息，有助于减少人脸姿态变换给人脸识别带来的不利影响，为后续的人脸身份识别工作带来便利。

附图说明

图1是本发明方法的流程图。

图2是编码器的结构图。

图3是编码器与解码器的工作流程。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

如图1所示，本实施例所提供的基于生成对抗网络进行人脸正面化的多姿态人脸识别方法，包括以下步骤：

步骤1，所用数据集的图像来源于Multi-PIE人脸数据集，数据集中的图片数目超过75万，包含了337个人的20种光照和15种姿态6种表情下的图像；图片的光照由光照标号01到20从暗变亮，其中光照标号07为标准光照条件；实验选取偏转角90°以内的13种姿态，所有光照条件下的标准表情人脸图像作为数据集。将实验数据集所有非正面人脸图像标记为X_P，对每一张图像X_P，找到同一人的、偏转角度为0°的标准表情图像记为X_F。数据集在使用前利用MTCNN算法进行人脸检测和截取人脸等预处理。将实验数据前200人的图像划分为训练集，剩余137人的图像划分为测试集。对训练集所有图像进行归一化和resize处理。归一化是指把图像的所有像素的值除以255，使图像所有像素的取值范围为[0,1]，resize是指将所有图像的维度调整在256*256*3。同时对训练集中的图像进行随机剪切和随机左右翻转，来缓解模型过拟合的情况。

步骤2，在训练阶段，把多种姿态的人脸图像X_P和X_F分别输入到编码器ε得到特征f_P和f_F，这两个特征通过解码器

恢复为正面人脸图像。恢复的正面人脸图像通过正脸编码器

提取出正面人脸特征g。

其中，编码器ε和正脸编码器

均采用了在ImageNet数据集上预训练过的Resnet50网络结构，如图2所示，本方法使用的Resnet50网络结构为Conv1-Res_2-Res_3-Res_4-Res_5。要注意的是，这两个编码器虽然使用了同样的网络结构，但由于它们用于两个不同的任务，所以并不共享权重。

编码器ε是一个利用convolution layers进行逐级下采样的过程，解码器

则是一个利用upsamping layers进行逐级上采样的过程，基本模块为Upsample-ConvBlock1-ConvBlock2。ConvBlock1与ConvBlock2的结构皆为Conv+BatchNorm+ReLU，其中，卷积的卷积核为3×3，步长为1。

值得注意的是，在编码器和解码器之间利用了skip connection,采用类似U-Net的网络结构来增强网络的稳定性，这将有助于图像重建的过程，允许更有效的梯度传播。

步骤3，将特征f_P和f_F输入特征空间的判别器D_f，判断输入的特征是来自非正面人脸图像X_P还是正面人脸图像X_F。将合成的正面人脸图像X_F和对应身份的真实正脸X_F输入到图像空间的判别器D_g，判断这些输入图像的是合成图像还是非合成图像。

D_f是一个以卷积神经网络为基础的二分类器，有3个卷积层，核是4x 4，步幅是2，通道数量是64,128,1，除了最后一层每一个卷积层后面都有一个LeakyRelu。它的作用是判断输入的特征f来自正面人脸图像还X_F是侧面人脸图像X_P。判别网络的最终输出一个值，用来表示输入特征来源于正面人脸图像的可能性，这个值越大说明输入图像来源于正面人脸图像的可能性越大。

D_g是一个以ResNet18结构为基础的分类器，判断输入图像X_F和X_F的是合成图像还是非合成图像，输出的值越大说明输入图像来源于真实人脸图像X_F的可能性越大。

步骤4，人脸识别网络将姿态不变特征f和正面人脸特征g作为输入，训练一个分类器C完成人脸识别。(将姿态不变特征f和正面人脸特征g输入到分类器C训练一个人脸识别网络完成人脸识别)

特征f和g的大小为h×w×d，其中，h和w是特征的空间大小，d是通道数。f保留内容信息，而g则观察合成正面人脸图像的详细身份信息。输入分类器C的特征为特征f和g的结合v＝[f,g]，大小为h×w×2d，分类器C的结构为全局平均池化+全连接层+softmax激活层，预测输入特征的身份。

步骤5，把步骤3的判别结果和步骤4的识别结果、合成的正脸X_F、非合成的正脸X_F带入到预先设计好的损失函数中，交替训练由编码器ε、解码器

正面人脸编码器

特征判别器D_f、图像判别器D_g和分类器C构成的模型，直至训练完成。

步骤5中用到的损失函数除了同类型方法常用的重建损失函数、对称损失函数和对抗损失函数，还包括了三元组损失函数。

其中，图像x_P对应的ground-truth图像为x_F。重建损失利用L1范数计算保证图像清晰度。正面人脸图像和非正面人脸图像在训练过程中会打乱，因此没必要同时观察相同身份不同偏转角度的图像。

其中，f_F＝ε(x_F)和f_P＝ε(x_P)分别代表正面人脸图像和非正面人脸图像编码得到的特征，

和

表示f_P和f_F经过合成的正脸图像，

和

代表合成的正脸图像经过左右翻转后得到的图像。

接着是对抗损失，对抗损失分为特征对抗损失

和图像对抗损失

其中，f_F＝ε(x_F)和f_P＝ε(x_P)分别代表正面人脸图像和非正面人脸图像编码得到的特征。

图像对抗损失的目标是使合成的正面人脸图像能够混淆图像判别器，从而让合成的图像更加接近真实图像，增强了合成图像的逼真程度。图像对抗损失的公式如下：

其中，x_F为非合成的正面人脸图像，

和

是合成的人脸图像。

解码器的目标不是简单地恢复输入的非正面人脸图像中丢失的细节，也要使恢复的正面人脸图像有助于后续的人脸识别任务，也就是说，恢复的正面人脸图像需要与原始的飞正面人脸图像具有相同的身份。具体实现方法是添加身份损失与三元组损失。

在步骤4中，分类器输入特征输出预测身份，身份损失计算分类预测和相应的ground true之间的softmax交叉熵损失，这里的身份损失不仅更新分类器，而且优化解码器。这也是解码器恢复的正面人脸图像适用于人脸识别的原因。

引入三元组损失以提高人脸识别的判别力，公式定义为：

其中，d_pos和d_neg分别表示正图像对(相同身份)和负图像对(不同身份)之间的距离，上标P代表图像是侧脸图像，上标F代表图像是正脸图像，α代表margin，大小设置为2。

总体的损失函数为：

其中，

λ_rec、

和λ_sym代表控制对应损失重要性的权重。通过大量实验经验，各个损失函数的权重λ_id、λ_tri、

λ_rec、

和λ_sym分别被设置为0.003、0.003、0.001、1、0.001、0.3。

交替地训练网络各模块能够使其在对抗中互相优化提升。在初始阶段，提取的特征不具有判别性，生成的人脸图像模糊不清，判别器能够轻易判断输入特征和图像的来源，鼓励编码器提取更具鲁棒性的特征，解码器生成更加清晰的图像。在后续阶段，编码器提取的特征更接近正面人脸图像的特征，生成的图像比较清晰并且接近原始图像数据了，鼓励判别器对输入特征和图像做出更加精确的判断，提高判别器的判别能力。

步骤6，在测试阶段，有定性测试和定量测试两种方法验证模型的效果。

定性测试中，把任意姿态的非正面人脸图像X_P输入到训练完成的模型，得到一张合成的正面人脸图像X_P，而后通过直接观测合成的正脸图像的质量可以验证本发明的效果。

定量测试中，将probe图像X_P输入到模型中，计算得到联合特征v＝[f,g]，然后通过全局平均池化得到联合特征向量u＝GAP(v)，通过基于欧几里得距离的近邻搜索得到最相似的gallery图像，计算probe图像第一次成功搜索到正确gallery图像的概率，得到Rank-1，Rank-1越大，说明模型效果越好。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于人脸正面化的多姿态人脸识别方法，其特征在于，包括以下步骤：

和非合成的正面人脸图像集

和

分别代表第i张非正面人脸图像和对应同一身份的非合成正面人脸图像；

得到正面人脸特征g；

步骤3，将特征f_P和f_F输入特征空间的判别器D_f，判断输入的特征是来自非正面人脸图像X_P还是正面人脸图像X_F；将合成的正面人脸图像X_F和对应身份的真实正脸X_F输入到图像空间的判别器D_g，判断这些输入图像的是合成图像还是非合成图像；

步骤4，人脸识别网络将姿态不变特征f和正面人脸特征g作为输入，训练一个分类器C预测输入特征的身份；

正面人脸编码器

特征判别器D_f、图像判别器D_g和分类器C构成的模型，直至训练完成；

步骤6，在测试阶段，把任意姿态的非正面人脸图像X_P输入到训练完成的模型，得到一张合成的正面人脸图像X_F，用以后续的人脸识别工作；或者利用联合特征v＝[f,g]确定人脸识别结果。

2.根据权利要求1所述的一种基于人脸正面化的多姿态人脸识别方法，其特征在于：在步骤1中，所有人脸图像皆来自数据集Multi-PIE；该数据集的图像数目超过75万张，包含337人的在20张光照下15姿态6种表情的图像，非正面人脸图像为包含13种姿态20种光照的200人的图像，记作X_P；正面人脸图像为包含正面姿态20种光照的200人的图像，记作X_F。

3.根据权利要求1所述的一种基于人脸正面化的多姿态人脸识别方法，其特征在于：在步骤2中，编码器ε网络结构与正面人脸编码器

不共享权重，解码器

由5个上采样层组成，在编码器和解码器之间利用了skip connection，解码器每个上采样层concatenate到对应的编码器卷积得到的特征层，从而实现对每层特征图都有效使用。

4.根据权利要求1所述的一种基于人脸正面化的多姿态人脸识别方法，其特征在于：在步骤3中，所述判别器D_f是一个以卷积神经网络为基础的二分类器，判断输入的特征f是来自非正面人脸图像X_P还是正脸人脸图像X_F，图像判别器D_g是一个以ResNet18结构为基础的分类器，判断输入图像X_F和X_F是合成图像还是非合成图像。

5.根据权利要求1所述的一种基于人脸正面化的多姿态人脸识别方法，其特征在于：在步骤4中，输入分类器C的特征为特征f和g的结合v＝[f,g]，大小为h×w×2d，分类器C的结构为全局平均池化+全连接层+softmax激活层，分类器C的输出为预测的特征的身份。

6.根据权利要求1所述的一种基于人脸正面化的多姿态人脸识别方法，其特征在于：在步骤5中，所述损失函数的目标是最小化合成的正脸图像和非合成的正脸图像之间的差异，从而使合成的正脸图像能够保留更多输入人脸图像的身份信息；步骤5中用到的损失函数包括重建损失函数、对称损失函数和对抗损失函数，还包括了三元组损失函数；