CN107506717A

CN107506717A - 无约束场景中基于深度变换学习的人脸识别方法

Info

Publication number: CN107506717A
Application number: CN201710708153.5A
Authority: CN
Inventors: 唐晖
Original assignee: Nanjing Dongfang Network Science And Technology Co Ltd
Priority date: 2017-08-17
Filing date: 2017-08-17
Publication date: 2017-12-22
Anticipated expiration: 2037-08-17
Also published as: CN107506717B

Abstract

本发明公开了一种无约束场景中基于深度变换学习的人脸识别方法，其包括如下步骤：获取脸部图像并检测脸部关键点；使用脸部对齐对脸部图像进行变换，在对齐过程中，最小化检测到的关键点与预定义关键点之间的距离；对脸部姿态进行估计并对姿态估计结果进行分类；将多个样本脸部姿态分离为不同的类；进行姿态变换，将非正面面部特征变换为正面面部特征并计算姿态变换损失；利用深度变换学习方法更新网络参数直到满足阈值要求退出。本发明提出神经网络中的特征变换，将不同姿态的特征变换为共享的线性特征空间，通过计算姿态损失，学习姿态中心和姿态变换，得到了简单的类变化，能够加强特征变换学习，提高鲁棒性和可区分性深层功能。

Description

无约束场景中基于深度变换学习的人脸识别方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种无约束场景中基于深度变换学习的人脸识别方法。

背景技术

由于非侵入性的优态，人脸识别已经深入研究了数十年，并在很多方面得到应用，现在已经提出了许多方法来解决人脸识别问题。然而，人的姿态变化无法控制，在无约束的场景中，往往很难获取正面脸部图像，这是面部识别率低或脸部图像不能准确识别的主要原因之一。

在受限场景中，例如机场办理登机手续从ATM柜台取款(自动柜员机)，容易获得正面脸部图像。事实上，从无约束场景中检测到的脸部图像有很多与受限场景的差异，详细的差异包括：1.头部的自我遮挡。2.非线性的姿态和形状变化。3.不同类型干扰的混合变化。目前有很多方法来解决姿态变化的人脸识别问题，大多数这些方法可以分为三大类：多视角子空间学习，面部综合，姿态鲁棒特征提取。最近，典型特征提取方法是卷积神经网络(CNN)，它显示出快速而显着的进步。但是，基于CNN的识别方法很少考虑姿态变化的影响，这将会实际应用中的一个障碍。人脸识别的基本框架如图1所示，本发明可以看到，从输入图像中提取特征并输入到识别系统是关键的一步。

到目前为止，有许多面部识别的方法已经被提出。常见的方法是训练大型数据集或全体模型收敛大角度姿态，从而提取出来的特征可以学习一定程度的姿态不变性。CNN由于有更好的性能，所以经常被选为非线性机器学习与线性模型对比的基本方法。FaceNet提出了具有三元组的端到端学习系统并在上面训练了2.6亿个图像，这表明它是一个可以去学习的大型数据集。DeepID使用了大型MatConvNet的网络，每个MatConvNet网络训练不同路径的人脸，提取的深层特征往往是很明显的。但是，他们从来没有考虑过姿态的影响。马西提出了多个姿态感知模型(Pose Aware models-PAM)，并提出了不同姿态模型的融合姿态感知表示，PAM的表现在IJB-A数据集中比较显著。然而，PAM需要更多的计算资源和时间成本，这在实际应用中也非常短暂。

多视图子空间学习处理姿态通过将不同姿态的特征变换到一个共享子空间来试图缩小差距，通过将它们的特征投射到一个共同的姿态变换子空间。但是，这种方法是有限制的，因为大量的训练数据与所有的姿态在当前的面部数据库中不可用，所以，这种方法不一定比CNN的方法好。

另一种方法是面部合成，面部合成方法通过将姿态变化变换为相同的姿态来完成人脸识别，其将无约束面部识别变换成正面面部识别。典型的方法是基于3D面部模型旋变或渲染面部到脸部，或从轮廓面重建正面。DFR介绍了通过字典学习将面部旋变到正面姿态的想法，这证实了处理姿态变化的性能改进。 Akshay等通过基于3D姿态归一化渲染正面面部并改善。然而，3D脸部归一化只能在偏航轴处理±45，俯仰轴为±30。DeepFace也采用前端技术进行基于dlib 的人脸识别管理，DeepFace的前端被称为分段仿射波形，无法在github中用开源代码处理大的姿态变化。此外，常见的局限性通常包含模糊效应，失去面部纹理和固定姿态等。

此外，Ding等提出仅从较少遮挡的半边脸提取特征。然而，MTPFR仅在PIE， FERET，CMU-PIE数据库上得到验证，这些数据库非常老，结论不能令人信服。 DeepID2和DeepID2+显示了如何通过使用验证信号学习辨别特征，这证实了多任务学习的表现结果。丁等提出了姿态不变面部识别的综合调查，并描述和比较了四类方法的动机、策略、利弊、表现。Pal等提出了一个密集关键点的框架来提取有判断性和核化特征，而且能够处理人脸的非单位变换，然而，这种无监督方法的表现不如预期。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种无约束场景中基于深度变换学习的人脸识别方法。

为了实现本发明的上述目的，本发明提供了一种无约束场景中基于深度变换学习的人脸识别方法，其包括如下步骤：

S1,获取脸部图像并检测脸部关键点；

S2,使用脸部对齐对脸部图像进行变换，在对齐过程中，最小化检测到的关键点与预定义关键点之间的距离；

S3，对脸部姿态进行估计并对姿态估计结果进行分类；

S4，将样本分类成不同的类别；进行姿态变换，将非正面面部特征变换为正面面部特征并计算姿态变换损失；

S5,利用深度变换学习方法更新网络参数直到满足阈值要求退出。

本发明的无约束场景中基于深度变换学习的人脸识别方法提出神经网络中的特征变换，将不同姿态的特征变换为共享的线性特征空间。通过计算姿态损失，学习姿态中心和姿态变换。通过学习每个姿态的特征中心；最小化单姿态变化；学习不同姿态的变换，通过姿态损失，姿态变化得到了简单的类变化，能够加强特征变换学习，提高鲁棒性和可区分性深层功能。

在本发明的一种优选实施方式中，所述步骤S2中，对齐图像的方法为：

其中，D是检测到的人脸关键点，R是预先设定的真正的关键点(可以通过人工设定)，T是变换矩阵，θ是旋转角度，S是缩放因子，是平移变换值,T 代表旋转变换、缩放变换和平移变换三种变换综合而成，T的具体获得方式为：利用检测得到的人脸关键点与预先设定的关键点模型做相似变换，通过寻找最佳的变换矩阵，使得检测得到的人脸关键点通过旋转，缩放，平移后与预定义的人脸关键点在坐标上的差异尽可能小。通过相似变换，能够对齐矫正脸部图像的旋变(滚动)误差和缩放误差。

在本发明的另一种优选实施方式中，所述步骤S3中，对脸部姿态进行分类的方法为：

将偏航角θ_i以平均法分类为N_p类，

N_p表示姿态类别的数目，即预定义的超参数，S_p＝90/(N_p-1)是相邻角度类别之间的角度距离，j是姿态的类型，θ_i是待估计的偏航角，P(θ_i)是姿态分类结果,范围是从1到N_p。

忽略滚动和俯仰，保证准确快速地获得姿态类别。

在本发明的另一种优选实施方式中，所述步骤S4中，对多个样本脸部姿态分离为不同的类的方法为：

使用损失函数区分不同的类：

表示第i个样本的归一化的深度特征表示，相应的偏航角为θ_i，第i个样本的类别标签是y_i，W_j表示最后一个全连接层的第j列的权重，b是对应的偏置项。通过获得正确的标签，提取不同类的特征应，利用线性分类器分离不同的类，快速准确。

在本发明的另一种优选实施方式中，所述步骤S4中姿态变换方法为；

假设样本i，j来自同一个类，即为同一个人的图像，和分别表示偏航角θ_i和θ_j的归一化深度特征，ε表示噪音，通常是随机分布，每个类别都不同， P是一个共享的变换字典，A_t是一个对角矩阵，用于从U中选择投影向量，θ_i是非正面的偏航角，θ_j是正面的偏航角；

变换函数：

其中，P表示共享变换矩阵，是一个对角矩阵，用于根据姿态类别P(θ_j)从 P中选择投影向量，是样本i的归一化深度特征。对不同姿态独立的特征提取，将非正面姿态变换为正面姿态，是算法更简洁。

在本发明的另一种优选实施方式中，所述步骤S4中姿态变换损失的计算方法为：

把姿态损失L_p分成两个部分，姿态中心损失函数L_d和姿态变换损失函数L_c,

姿态中心的损失为：

N_p是从姿态类别C的数目，函数是约束i样本和j样本的姿态关系，表示项目i的归一化深度特征，相应的偏航角度为θ_i，P(θ_i)是得出的姿态分类函数，是学习得到的姿态中心，对应的姿态为C，对应的类别为 yi，这是在训练期间学习得到的，的更新方程的梯度为：

在姿态变换损失方面，主要提出的是尽量减少姿态变化并保持不同姿态中心之间的关系，姿态变换损失分为对称的两部分：

其中，L_c是姿态变换损失，L_cl和L_cr是姿态变换损失的对称部分,C是姿态类别，是具有姿态类别C和y_i类的姿态中心,i是训练批次的样本,m是训练批次的大小。能够训练大型数据。

在本发明的另一种优选实施方式中，采用联合监督姿态损失和softmax损失来训练网络：

其中，μ是一个标量(μ可以人工设定，优选设为0.005)，用于平衡损失函数。

本发明要实现姿态变换任务和分类任务，没有采用2个不同的网络模型，2 个独立的损失函数来监督。而是采用联合监督姿态损失和softmax损失，通过一个网络学习两个任务，同时对两个任务进行监督学习。实现了网络结构和参数的共享。降低了计算复杂度，同时共享表示层可以使得几个有共性的任务更好的结合相关性信息，任务特定层则可以单独建模任务特定的信息，实现共享信息和任务特定信息的统一。

在本发明的另一种优选实施方式中，所述步骤S5中深度变换学习方法的步骤为：

S511，令t＝1,

S512，进行前向传播；

S513，计算损失：

S514，反向传播：

S515，更新参数对于每个类y_i和每个姿态C：

S516，更新每个姿态C的参数U：

S517，更新参数W：

S518，更新参数θ_c：

S519，判断参数W，θ_c，U，是否满足阈值要求，若满足则结束，否则令t＝t+1，执行步骤S512。

本发明的深度变换学习是在一个统一的模型中提取姿态明显的特征，包括特征变换和联合监督的softmax损失和姿态损失，设计特征变换是为了学习不同姿态之间的变换，设计姿态损失是为了同时学习不同姿态的特征中心并保持姿态关系，保证获得正面脸部图像，提高人脸识别率、准确识别人脸图像。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是现有技术中人脸识别的基本框架图；

图2是本发明一种优选实施方式中基于多任务深度特征变换学习的人脸识别流程框图；

图3是本发明一种优选实施方式中多任务联合监督学习的三个任务；

图4是本发明一种优选实施方式中网络结构示意图；

图5是本发明一种优选实施方式中脸部姿态估计及姿态分类图；

图6是本发明一种优选实施方式中人脸数据集的姿态(偏航角)的分布堆叠图，其中(a)为LFW人脸数据集的姿态(偏航角)的分布堆叠图；(b)为Webface 人脸数据集的姿态(偏航角)的分布堆叠图；(c)为IJB-A人脸数据集的姿态(偏航角)的分布堆叠图；

图7是本发明一种优选实施方式中LFW人脸验证中使用的图像对示意图，其中，一列中的脸部图像是一对，前三列实体框中的对是同一个人，后三列虚线框中的对是不同的人；

图8是本发明一种优选实施方式中在LFW人脸数据集上错误的人脸验证图像对；

图9是本发明一种优选实施方式中IJB-A模板中人脸验证图像对示意图；

图10是本发明一种优选实施方式中IJB-A人脸鉴别示意图；

图11是本发明一种优选实施方式中本发明在IJB-A人脸数据集上人脸验证的ROC(接收者操作特性，Receiver Operating Characteristic)曲线；

图12是本发明一种优选实施方式中本发明在IJB-A人脸数据集上人脸鉴别的CMC累积匹配特性(Cumulative Match Characteristic)曲线。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，除非另有规定和限定，需要说明的是，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

本发明提供了一种无约束场景中基于深度变换学习的人脸识别方法，其特征在于，包括如下步骤：

S1,获取脸部图像并检测脸部关键点。假设获得人脸图像为I，估计得到n 个关键点，其中包括左眼和右眼的中心，鼻尖，左口和右口。

S2,使用脸部对齐对脸部图像进行变换，在对齐过程中，最小化检测到的关键点与预定义关键点之间的距离。

S3，对脸部姿态进行估计并对姿态估计结果进行分类。

通过深层神经网络进行面部识别的姿态鲁棒性特征提取中最常见框架包括对齐，特征提取，验证，这些方法直接从脸部图像中提取特征。然而，脸部图像中对应的损失随着姿态变化而大大增加，这将极大地干扰CNN模型学习的特征。当搜索假设较大时，训练数据尺寸小或缺少一些姿态时，由于信息增益较大，可以很容易地获得非线性形状变化的假设。因此，关键是学习人脸之间的共同差异，而不是姿态变化。因此，通过大数据集和非线性模型，应该忽略像姿态变化这样的局部最优假设，或者通过变换变换为正常姿态。然而，事实是大多数姿态的变化是有限的训练数据集和单个基于CNN的模型，它们只能适度调整姿态变化。为了解决这个问题，本发明提出了考虑姿态维度的姿态感知多视图聚合网络。相应的人脸识别训练流程如图2所示。

步骤包括对齐，姿态估计和分类，特征提取和验证。在本实施方式中，图2 中特征提取过程采用卷积神经网络特征提取方法。

对齐：为了处理一致的特征空间并减少姿态变化，所有的脸部图像应该在相同的坐标系中。因此，使用脸部对齐来进行变换。在对齐过程中，目标是最小化检测到的关键点与预定义关键点模板之间的距离。本发明使用相似度变换来对齐图像，如公式(1)所示：

在公式(1)和公式(2)中，D是检测到的人脸关键点，R是预先设定的真正的关键点，T是变换矩阵，θ是旋转角度，S是缩放因子，是平移变换值,T 代表旋转变换、缩放变换和平移变换三种变换综合而成，T的具体获得方式为：利用检测得到的人脸关键点与预先设定的关键点模型做相似变换，通过寻找最佳的变换矩阵，使得检测得到的人脸关键点通过旋转，缩放，平移后与预定义的人脸关键点在坐标上的差异尽可能小。

本发明的方法称为2D平面对齐。此外，还可以采用3D平面对齐，它使用 3D脸部模型和相机矩阵来渲染具有任何欧拉角(滚动，偏航，俯仰)的脸部图像，然而，渲染正面的3D平面对齐会使噪声成像，造成额外的噪声，并且无法解决大角度姿态变化，因此优选2D脸部对齐。

姿态估计和分类：姿态估计和姿态分类被考虑在内。

通过欧拉角(偏航，俯仰，滚动)对头部姿态类别进行分类，如图2所示。欧拉角度能够量化姿态变化，因此能够区分面部姿态并进行特征变换学习在大多数时候，角度在偏航轴上发生变化。在本发明中，使用偏航角来代表姿态角。滚动角忽略的原因是对齐过程和面部部分聚合过程将发生滚动的变化。俯仰角忽略的原因是大多数数据集都集中在偏航变化上，很少有较大的俯仰变化。因此，忽略滚动和俯仰，偏航角变化意味着姿态变化。

将偏航角θ_i以平均法分类为N_p类，如公式(3)所示。

N_p表示姿态类别的数目，即预定义的超参数，S_p＝90/(N_p-1)是相邻角度类别之间的角度距离，j是姿态的类型，θ_i是待估计的偏航角，P(θ_i)是姿态分类结果,范围是从1到N_p，δ由公式(9)确定。

偏航角θ_i表示的是人头左右水平移动的角度，是通过姿态估计得到。首先从人脸模型得到参考关键点，计算检测得到的人脸关键点与参考的人脸关键点之间的关系，得到基本的姿态估计结果。

S4，将样本分类成不同的类别；进行姿态变换，将非正面面部特征变换为正面面部特征并计算姿态变换损失。

本发明中，通过提出的多任务深度变换学习(DTL)，可以提取出有辨别性的和姿态稳健的特征。

普通的无约束力的识别步骤可以统一到下面的公式(4)。

在公式(4)中，V表示验证算法，通常是最近邻(NN)分类器，W^a和W^b参考多视图子空间学习算法，F对应着特征提取，S^a和S^b表示对齐算法，该方程式显示了人脸识别的程序和关系。

特征提取和多视图子空间学习在脸部识别的程序中发挥着非常重要的作用。本发明提出了在训练过程中将特征提取和多视图子空间学习相结合的方法，提高了辨识性和姿态-不变的特征。通过多任务学习，能够学习一种将特征变换学习与姿态鲁棒特征学习相结合的特征。证实了多任务在深度特征提取中的表现。

多任务学习的目标包括分类和姿态特征变化，可以合并为三个任务：1)区分不同的类别。2)最小化单姿态变化。3)保持不同姿态的关系，它们的细节任务如图3所示。

此外，DTL中提出了三个方面。首先，基于姿态变化与特定变换层的关系来学习变换。其次，从非正面姿态中学习的特征应该尽可能接近从正面姿态学到的特征。第三，变换必须必须从全局知识而不是单一类别学习，因为训练数据的数量可能受到限制。

使用Softmax损失函数，可以区分不同的类。Softmax损失函数如下：

表示第i个样本的归一化的深度特征表示，相应的偏航角为θ_i，第i个样本的类别标签是y_i，W_j表示最后一个全连接层的第j列的权重，W_j ^T是W_j的转置，b是对应的偏置项。要获得正确的标签，提取不同类的特征应该是在特征空间中的线性分离。最后一个完全连接层视作为线性分类器，它可以分离不同的类，m为训练集样本数目，n为分类类别数目。

然后，提出姿态变换和姿态损失来实现深度变换学习的剩余部分。

姿态变换：多视角子空间学习-基于方法把非线性流形分成离散组构成的空间和投影变换不同的学习构成潜在的子空间。本发明使用所有类共享的全局变换字典，根据脸部姿态的变化来学习变换。然后，非正面的特征是正面面部特征的变换。对于类y，非正面的特征公式如公式(6)所示：

假设样本i，j来自同一个类，即为同一个人的图像，和分别表示偏航角θ_i和θ_j的归一化深度特征，ε表示噪音，通常是随机分布，每个类别都不同， P是一个共享的变换字典，A_t是一个对角矩阵，用于从U中选择投影向量，那么，θ_i是非正面的偏航角，θ_j是正面的偏航角，公式(6)意味着非正面面部特征由噪声和变换后的正面面部特征组成。基于上述分析，本发明提出了变换函数：

其中P表示共享变换矩阵，是一个对角矩阵，用于根据姿态类别P(θ_j) 从P中选择投影向量，是样本i的归一化深度特征，样本的偏航角为θ_i，如图3所示。

姿态损失：基于孪生网络,本发明提出双通道损失函数学习变换和维持不同姿态的关系。如公式(8)所表述：

在公式(8)中，i和j是批次中样本的索引，m是学习批量的大小，是超参数，表示i的归一化深度特征，对应的偏航角度为θ_i，是约束i样本和j样本的姿态关系，函数δ的表达式如公式(9)所示，L_p是姿态损失函数。

Ls损失函数是来区分不同人的，学习样本与其类别(是谁)之间的关系。 Lp损失函数是学习单个类别(包含多个样本)的多个姿态之间的关系。

基本思想是学习基于双通道网络结构的变换，并使用欧式距离损失来学习变换，然而，双通道网络存在数量增加与复杂度O(N²)的问题，这使得本发明难以训练大型数据。为了解决这个问题，本发明把姿态损失L_p分成两个部分，姿态中心损失函数L_d和姿态变换损失函数L_c,如下公式(10)所示：

姿态中心损失的主要思想是将连续偏航角变换为离散类别，学习姿态特征中心而不是使用成对的输入数据。

然后，本发明放弃双通道网络结构并选择学习型策略，学习姿态特征中心而不是使用成对的输入数据，姿态中心的损失如公式(11)所示。

N_p是从姿态类别C的数目，函数δ的表达式如公式(9)所示，表示项目i的归一化深度特征，相应的偏航角度为θ_i，P(θ_i)是得出的姿态分类函数，在公式(3)中，是学习得到的姿态中心，对应的姿态为C，对应的类别为y_i，这是在训练期间学习得到的。具体示在图3B中，的更新方程式如公式(12) 所示，的梯度，如图3A所示。

在姿态变换损失方面，尽量减少姿态变化并保持不同姿态中心之间的关系。姿态变换损失分为对称的两部分，姿态变换损失在公式(13)中给出。

在公式(13)，公式(14)，公式(15)中，L_c是姿态变换损失，L_cl和L_cr是姿态变换损失的对称部分,C是姿态类别，是具有姿态类别C和y_i类的姿态中心,i是训练批次的样本,m是训练批次的大小。

本发明采用联合监督姿态损失和softmax损失来训练网络，如公式(16) 所示：

然后，SGD可以优化具有深度变换学习的CNN，μ是一个标量，用于平衡损失函数。具体深度变换学习算法为：

输入：输入对齐图像I(矢量化)与姿态类别C，学习率L_r和L_rc；要学习的参数W，θ_c，U，超参数μ，迭代数t。

输出：卷积层参数θ_c和变换矩阵U。

具体步骤为：

1)令t＝1。

2)进行前向传播，前向传播即是图4所展示的网络模型从左到右的过程。即从左边input导入图片，经过各级layer计算，直到右边loss输出。

3)计算损失：

4)反向传播：

5)更新参数对于每个类y_i和每个姿态C：

6)更新每个姿态C的参数U：

7)更新参数W：

8)更新参数θ_c：

9)判断参数W，θ_c，U，是否满足阈值要求，若满足则结束，否则令t＝t+1，执行步骤S512。

在本发明的一种优选实施方式中，实验的基本网络结构是Inception(开端) 和Resnet(残差网络)，5x5大小卷积层分为两个3x3大小的卷积层，因此，卷积层的卷积核大小为3×3，步长为1。池化层为最大池化且大小为2×2，步长为2，全连接层和特征变换层的输出大小为512，结构如图4所示。

预处理：如果检测失败，本发明只会丢弃图像。如果检测到另外一张脸，本发明选择区域中最大的一张脸，这意味着选择正面而不是背景面。RGB图像中的每个像素被归一化为[0,1]，以加快训练速度。

训练数据：本发明的模型训练了Web收集的数据集，包括FaceScrub，cad2000 和CASIA-Webface数据集。组合规则是基于类的名字，训练集的数量约为0.6M。

人脸检测和面部检测：训练集和测试集中的所有面部图像和对应的关键点通过新提出的级联CNN方法检测：MTCNN和dlib。

对齐：基于MTCNN检测到的基本5点(左眼，右眼，鼻子，左口，右口)，对齐能做相似变换，旋变和缩放图像都面临相同的坐标，改进的是本发明扩大面部框包含耳朵，避免因姿态变化引起的畸变。

头部姿态估计和分类：本发明选择基于图像的姿态分类，以提高与3D模型估计的简单性。首先，本发明使用3D面部变换模型和基于PNP的姿态估计来评估训练数据集的姿态。然后，本发明训练VGG网络来分类姿态类别。脸部姿态估计的例子并且姿态分类如图5所示。左图为输入图像，绿色框架中的姿态图像是分类的相同姿态结果，红色框架中的姿态图像是不同姿态的结果。

训练：本发明通过修改实现了基于Caffe的CNN模型，网络架构和细节如图4所示，姿态类别数达到3，超参数μ为0.005，学习率与全局学习率0.01 相同，姿态类别N_p的大小为3。

测试：深层特征是从第一个全连接层提取出来的。此外，旋转图像的深层特征也被提取并连接为面部表示。然后，PCA用于面部特征表示的降维。接下来，计算两个图像的余弦相似度作为分数。最后，最近邻和阈值用于验证和识别。

B.在LFW和IJB-A上的实验结果

本发明评估本发明采用的无约束人脸识别数据集的模型：LFW和IJB-A数据集，它们都是优秀的数据集，因为有很大的姿态变化，这与真正的无约束环境更相似，偏角分布如图6所示。如图所示，图上表示数据集IJB-A，CASIA-Webface， LFW的偏航角分布，本发明可以很容易地看到，IJB-A数据集拥有最大的偏航角分布。

LFW数据集：包含来自5749个不同身份的13.2k图像，具有不同的环境和有限的姿态，表情和照明的变化。根据无标签数据的标准协议，本发明评估了 6000个人脸对。例子如图7所示，一列中的脸部图像是一对，绿色实体框中的对是同一个人，红色虚线框中的对是不同的人。

将本发明的方法与许多以前的方法进行比较，结果如表1所示，本发明可以看到，实验结果证实了提出的方法的性能，此外，图8中也表示出了错误对的示例。

表1.本发明的方法与现有方法的处理结果比较表

在图8中，一列中的图像是一对中的两个部分。最后一列是来自不同的人，其余的来自同一个人。本发明可以看到，结果错误的主要原因是由于表情变化，白平衡，模糊变化。因此，可以通过其他方法来实现更好的表现，包括通过面部颜色空间归一化来消除白平衡和通过数据增加或更大的数据库规模来覆盖模糊图像。在本发明中，本发明没有做这个部分的工作，所以导致结果的一些性能的衰退。

IJB-A是全新的人脸识别数据集，具有全方位的姿态变化。IJB-A包含500 个具有25.8k图像的对象，其中包括20.4k的视频帧和5.4k的摄像机图像。它包含有关姿态，分辨率，表情和照明等极端条件的面孔，这使得它比LFW数据集更具挑战性。IJB-A包括两种类型的识别方法，鉴别(1：N)和验证(1：1)，验证和鉴别的例子如图9，图10所示。

在图9中，IJB-A验证中的姿态比较对比LFW数据集更为重要。绿色框架中的对是同一个人，红色框架中的对是不同的人。在图10中，调用第一列中的图像探测器，其余被称为模板。识别协议是在图库中搜索探测，识别率用于验证不同方法的性能。本发明按照协议进行实验，IJB-A数据集中的性能结果如表2所示。

表2.本发明的方法与现有方法的处理结果比较表

从表2的结果中，本发明将提出的方法与许多方法进行比较，包括GOTS，OpenBR，Wang et al，Chen et al and PAMs。本发明可以看到，实验结果证实了提出的方法的性能，相应的ROC和CMC如图11和图12所示。

在图11和图12中，本发明可以很容易地发现提出的方法的性能处于最高水平，提出的方法和PAM比其他方法更好，主要原因是提出的方法和PAM都是姿态感知模型，而其他的不是。然后，提出的方法与PAM相比的改进主要是姿态损失，这使得学习变换更具判别性和姿态稳健性。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种无约束场景中基于深度变换学习的人脸识别方法，其特征在于，包括如下步骤：

S1,获取脸部图像并检测脸部关键点；

S3，对脸部姿态进行估计并对姿态估计结果进行分类；

2.根据权利要求1所述的无约束场景中基于深度变换学习的人脸识别方法，其特征在于，所述步骤S2中，对齐图像的方法为：

<mrow> <mi>T</mi> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <mi>S</mi> <mi> </mi> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mi>&theta;</mi> </mrow> </mtd> <mtd> <mrow> <mo>-</mo> <mi>S</mi> <mi> </mi> <mi>s</mi> <mi>i</mi> <mi>n</mi> <mi>&theta;</mi> </mrow> </mtd> <mtd> <msub> <mi>t</mi> <mi>x</mi> </msub> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>S</mi> <mi> </mi> <mi>sin</mi> <mi>&theta;</mi> </mrow> </mtd> <mtd> <mrow> <mi>S</mi> <mi> </mi> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mi>&theta;</mi> </mrow> </mtd> <mtd> <msub> <mi>t</mi> <mi>y</mi> </msub> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mn>0</mn> </mtd> <mtd> <mn>1</mn> </mtd> </mtr> </mtable> </mfenced> </mrow>

其中，D是检测到的人脸关键点，R是预先设定的真正的关键点，T是变换矩阵，θ是旋转角度，S是缩放因子，是平移变换值,T代表旋转变换、缩放变换和平移变换三种变换综合而成，T的具体获得方式为：利用检测得到的人脸关键点与预先设定的关键点模型做相似变换，通过寻找最佳的变换矩阵，使得检测得到的人脸关键点通过旋转，缩放，平移后与预定义的人脸关键点在坐标上的差异尽可能小。

3.根据权利要求1所述的无约束场景中基于深度变换学习的人脸识别方法，其特征在于，所述步骤S3中，对脸部姿态进行分类的方法为：

将偏航角θ_i以平均法分类为N_p类，

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>&theta;</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>N</mi> <mi>p</mi> </msub> </munderover> <mi>j</mi> <mi>&delta;</mi> <mrow> <mo>(</mo> <msub> <mi>jS</mi> <mi>p</mi> </msub> <mo>-</mo> <mn>100</mn> <mo>&le;</mo> <msub> <mi>&theta;</mi> <mi>i</mi> </msub> <mo>&le;</mo> <mi>j</mi> <mo>*</mo> <msub> <mi>S</mi> <mi>p</mi> </msub> <mo>-</mo> <mn>80</mn> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

4.根据权利要求1所述的无约束场景中基于深度变换学习的人脸识别方法，其特征在于，所述步骤S4中，将样本分类成不同的类别的方法为：

使用损失函数区分不同的类：

表示第i个样本的归一化的深度特征表示，相应的偏航角为θ_i，第i个样本的类别标签是y_i，W_j表示最后一个全连接层的第j列的权重，b是对应的偏置项。

5.根据权利要求1所述的无约束场景中基于深度变换学习的人脸识别方法，其特征在于，所述步骤S4中姿态变换方法为；

<mrow> <mover> <msubsup> <mi>X</mi> <mi>i</mi> <msub> <mi>&theta;</mi> <mi>i</mi> </msub> </msubsup> <mo>&OverBar;</mo> </mover> <mo>=</mo> <mi>&epsiv;</mi> <mo>+</mo> <msub> <mi>A</mi> <mi>t</mi> </msub> <msubsup> <mi>PX</mi> <mi>j</mi> <msub> <mi>&theta;</mi> <mi>j</mi> </msub> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

假设样本i，j来自同一个类，即为同一个人的图像，和分别表示偏航角θ_i和θ_j的归一化深度特征，ε表示噪音，通常是随机分布，每个类别都不同，P是一个共享的变换字典，A_t是一个对角矩阵，用于从U中选择投影向量，θ_i是非正面的偏航角，θ_j是正面的偏航角；

变换函数：

<mrow> <msubsup> <mi>X</mi> <mi>i</mi> <msub> <mi>&theta;</mi> <mi>i</mi> </msub> </msubsup> <mo>=</mo> <msubsup> <mi>A</mi> <mi>t</mi> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>&theta;</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </msubsup> <msubsup> <mi>PX</mi> <mi>j</mi> <msub> <mi>&theta;</mi> <mi>j</mi> </msub> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

其中，P表示共享变换矩阵，是一个对角矩阵，用于根据姿态类别P(θ_j)从P中选择投影向量，是样本i的归一化深度特征。

6.根据权利要求1所述的无约束场景中基于深度变换学习的人脸识别方法，其特征在于，所述步骤S4中姿态变换损失的计算方法为：

姿态中心的损失为：

<mrow> <mi>&delta;</mi> <mrow> <mo>(</mo> <mi>c</mi> <mi>o</mi> <mi>n</mi> <mi>d</mi> <mi>i</mi> <mi>t</mi> <mi>i</mi> <mi>o</mi> <mi>n</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>1</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>c</mi> <mi>o</mi> <mi>n</mi> <mi>d</mi> <mi>i</mi> <mi>t</mi> <mi>i</mi> <mi>o</mi> <mi>n</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>e</mi> <mi>l</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>

N_p是从姿态类别C的数目，函数是约束i样本和j样本的姿态关系，表示项目i的归一化深度特征，相应的偏航角度为θ_i，P(θ_i)是得出的姿态分类函数，是学习得到的姿态中心，对应的姿态为C，对应的类别为y_i，这是在训练期间学习得到的，的更新方程的梯度为：

<mrow> <msubsup> <mi>&Delta;f</mi> <msub> <mi>y</mi> <mi>i</mi> </msub> <mi>C</mi> </msubsup> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <mi>&delta;</mi> <mrow> <mo>(</mo> <mi>P</mi> <mo>(</mo> <msub> <mi>&theta;</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>=</mo> <mi>C</mi> <mo>)</mo> </mrow> <mo>&lsqb;</mo> <msubsup> <mi>X</mi> <mi>j</mi> <msub> <mi>&theta;</mi> <mi>i</mi> </msub> </msubsup> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>-</mo> <msubsup> <mi>f</mi> <msub> <mi>y</mi> <mi>i</mi> </msub> <mi>C</mi> </msubsup> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow> <mrow> <mn>1</mn> <mo>+</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <mi>&delta;</mi> <mrow> <mo>(</mo> <mi>P</mi> <mo>(</mo> <msub> <mi>&theta;</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>=</mo> <mi>C</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>12</mn> <mo>)</mo> </mrow> </mrow>

其中，L_c是姿态变换损失，L_cl和L_cr是姿态变换损失的对称部分,C是姿态类别，是具有姿态类别C和y_i类的姿态中心,i是训练批次的样本,m是训练批次的大小。

7.根据权利要求6所述的无约束场景中基于深度变换学习的人脸识别方法，其特征在于，采用联合监督姿态损失和softmax损失来训练网络：

其中，μ是一个标量，用于平衡损失函数。

8.根据权利要求1所述的无约束场景中基于深度变换学习的人脸识别方法，其特征在于，所述步骤S5中深度变换学习方法的步骤为：