CN108256450A

CN108256450A - 一种基于深度学习的人脸识别和人脸验证的监督学习方法

Info

Publication number: CN108256450A
Application number: CN201810008115.3A
Authority: CN
Inventors: 聂为之; 李梦洁
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-01-04
Filing date: 2018-01-04
Publication date: 2018-07-06

Abstract

本发明公开了一种基于深度学习的人脸识别和人脸验证的监督学习方法，包括以下步骤：对卷积神经网络模型的全连接层输出特征使用柔性最大值损失函数增大类间距离，通过中心损失函数为每一类的深度特征学习一个中心，通过超参平衡两函数以此联合监督学习特征；计算卷积神经网络模型的后向传播，采用基于最小批量处理的随机梯度下降法对卷积神经网络模型进行优化，更新权重矩阵、以及每一类的深度特征中心；对深度特征进行主成分分析降维后计算两两特征之间的余弦距离来计算所得分数，所述分数用于最近邻和阈值比较中的目标匹配，对人脸进行识别和验证。本发明有效的提高神经网络学习特征的辨别能力，获得了具有鲁棒性的脸部特征识别和验证模型。

Description

一种基于深度学习的人脸识别和人脸验证的监督学习方法

技术领域

本发明涉及人脸识别领域，尤其涉及一种基于深度学习的人脸识别和人脸验证的监督学习方法。

背景技术

CNN(卷积神经网络)在机器视觉领域取得了很大的成功，显著巩固了分类问题领域，包括：物体分类、场景分类、以及动作分类等等。主要受益于大型的训练数据集和端到端的学习结构。CNN最常用于特征学习和标签预测，即将输入数据映射到深度学习特征(最后一层隐藏层的输出)来预测输入数据的标号。

最近，参考文献^[1]通过修改softmax(柔性最大值)损失函数的识别信号来监督CNN模型的学习过程，这使得深度学习特征包含了更丰富的识别信息。之后参考文献^[2]中通过“联合身份识别验证监督信号”获得了可判别能力更强的特征。参考文献^[3]通过增加一个全连接层以及在每个卷积层中添加损失函数来增强监督能力。参考文献^[4]证明了Triplet(三元组)损失函数的有效性。参考文献^[5]中的对比损失、以及参考文献^[4]中的三元组损失分别为图像对和图像三元组构造了损失函数。

然而，相比于图像样本数量，图像对或图像三元组的数量会翻倍增长，不可避免地导致收敛速度慢和不稳定。通过仔细选择图像对或三元组，可以解决部分问题。但会显著增加计算复杂度，训练过程变得不方便。

发明内容

本发明提供了一种基于深度学习的人脸识别和人脸验证的监督学习方法，本发明有效的提高神经网络学习特征的辨别能力，获得了具有鲁棒性的脸部特征识别和验证模型，详见下文描述：

一种基于深度学习的人脸识别和人脸验证的监督学习方法，所述方法包括以下步骤：

对卷积神经网络模型的全连接层输出特征使用柔性最大值损失函数增大类间距离，通过中心损失函数为每一类的深度特征学习一个中心，通过超参平衡两函数以此联合监督学习特征；

计算卷积神经网络模型的后向传播，采用基于最小批量处理的随机梯度下降法对卷积神经网络模型进行优化，更新权重矩阵、以及每一类的深度特征中心；

对深度特征进行主成分分析降维后计算两两特征之间的余弦距离来计算所得分数，所述分数用于最近邻和阈值比较中的目标匹配，对人脸进行识别和验证。

所述卷积神经网络模型具体为：

在卷积层和局部卷积层的特征提取器大小为3×3，步长为1，后面都接有非线性单元；

三个局部卷积层的权重分别在4×4、2×2和1×1大小的区域内共享；

最大池化区域为2×2，步长为2；

第四层池化层的输出和第三层局部卷积层的输出串联作为第一个全连接层的输入，全连接层的输出维度为512。

所述通过超参平衡两函数以此联合监督学习特征步骤具体为：

其中，L表示联合监督损失函数；L_S表示柔性最大值损失函数；L_C表示中心损失函数；λ表示标量；m和n分别表示最小批量处理和类的数量；x_i∈R^d表示第i个深度特征，属于第y_i类；表示深度特征的第y_i类的中心，并随着深度特征的改变而更新；W_j∈R^d表示最后一层全连接层权重矩阵W∈R^d×n的第j列；b_j表示最后一层全连接层偏差b的第j列；

表示W的第y_i列；表示b的第y_i列；T表示转置。

本发明提供的技术方案的有益效果是：

1、本发明提出了一个用于减少类内距离、帮助监督CNN学习的中心损失函数；在中心损失函数和softmax损失函数的联合监督下，本发明通过实验验证获得了高度可辨识特征、稳定的人脸识别以及人脸验证；

2、在CNN中所提出的损失函数是容易实现的，本方法的CNN模型是可训练的且模型较为简单，可以直接用SGD(随机梯度下降)进行优化；

3、本发明的实验数据集包括目前最大的人脸识别数据库MegaFace Challenge^[6]，并在小型训练集的协议下得到的结果超过大部分现有的结果，跻身业界领先水平；

4、本发明同样在LFW^[7]和YTF^[8]数据集下验证了可行性。

附图说明

图1为一种基于深度学习的人脸识别和人脸验证的监督学习方法的流程图；

图2为样例实验模型中，在softmax损失函数的监督下深度学习特征在训练集(a)和测试集(b)中的分布的示意图；

其中，样例实验模型分割训练集大小为50K(K＝10³)，测试集为10K；

图3为非样例实验采用的CNN模型结构示意图；

其中，C表示卷积层，P表示最大池化层，LC表示局部卷积层，FC表示全连接卷积层；

图4为在softmax和中心损失函数联合监督下的深度学习特征分布的示意图；

其中，不同灰度标记的点表示不同类的特征，不同的λ导致不同的深度特征分布(α＝0.5)，白色的点(c₀,c₁,…,c₉)表示MNIST^[9]数据集中10类的深度特征中心；

图5(a)为在LFW数据集中一些正确的脸部图片的示意图；

图5(b)为在LFW数据集中一些错误的脸部图片的示意图；

图5(c)为在YTF数据集中一些脸部视频的示意图；

其中，每幅图片中的白色框是用于测试的脸部。

图6为MegaFace数据集中的一些样例脸部图片的示意图；

MegaFace数据集包括probe和gallery数据集。左图为probe数据集，右图为gallery数据集，其中用虚线框圈出的人物图片与左图的人物相对应。

图7为不同方法的CMC曲线的示意图；

左图为测试集包括1M(M＝10³)个错误匹配对的不同方法的CMC曲线的示意图，右图为测试集包括10M个错误匹配对的不同方法的CMC曲线的示意图。

图8为不同方法下的ROC曲线的示意图；

左图为测试集包括1M个错误匹配对的不同方法的ROC曲线的示意图，右图为测试集包括10M个错误匹配对的不同方法的ROC曲线的示意图。

图9为在LFW数据集上的人脸识别精确度的示意图；

其中，左图为固定α＝0.5，取不同的λ值，右图为固定λ＝0.003，取不同的α值。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

为了更清楚的解释本方法，本方法首先在MNIST^[9]数据集上进行了一个样例解释实验，并对所得的深度学习特征用图直观的显示出来。

表1本方法采取的样例解释实验的CNN模型参数

本方法将LeNets^[10]网络更改为一个更深更广的网络，并且最后一层输出数量减少为2，这意味着深度特征只有2维，因此可以很容易的在二维平面上画出来实现可视化。表1中，本方法在样例解释实验中采取的CNN模型为LeNets++，在一些卷积层后接最大池化层。(5,32)_/1,2×2表示有两个卷积层级联，每个卷积层有32个特征提取器，大小为5×5，步长和填充(padding)分别为1和2。2_/2,0表示最大池化层的池化大小为2×2，步长和填充分别为2和0。在LeNets++中本方法使用参数化的修正线性单元作为非线性单元。全连接层的输出维度为2。

如图2中表现了样例解释实验中深度特征的二维分布，因为最后一个全连接层相当于线性分类器，可由决定边界区分不同类之间的深度特征。由图2本方法可以观察到：

1)softmax损失函数的监督下，深度学习特征在类与类之间是可分离的；

2)每一类特征之间分布较为分散，即类内特征仍有显著差异，所以现有的深度特征可判别能力并不强。因此，直接使用这些特征来识别是不合适的。

实施例1

为了解决由样例模型实验所揭露的问题，则需要找到能够减少深度特征类内距离以及增大类间距离的方法。研究表明：通过从不同的人中提取深度特征来增加类间变量，以及通过将同一个人提取的不同的特征聚类来减少类间距离，这对于人脸识别和验证是非常重要的^[11]。本方法设计了实验来解释所提出的联合监督学习中参数λ如何影响结果分布，如图4演示了不同的λ导致了不同的特征分布。如果λ取值适当，不同类别特征间间距增大，同一类别特征间间距减小，这使得深度特征的可判别能力显著增强。因此，联合监督有益于深度学习特征的可判别能力，这对于人脸识别人脸验证是很重要的。本发明实施例提出了基于深度学习的人脸识别和人脸验证的监督学习方法，参见图1，详见下文描述：

101：使用caffe^[12]库构建一个CNN网络模型；

102：对CNN网络模型的全连接层输出的特征使用softmax损失函数增大类间距离，同时使用中心损失函数为每一类的深度特征学习一个中心，并且减少深度特征和相应类的中心之间的距离，使用一个超参来平衡这两个函数来联合监督学习特征；

103：计算CNN模型的后向传播，直接用基于miniBatch的随机梯度下降法对CNN模型进行优化，更新权重矩阵，更新每一类的深度特征中心；

104：对所得特征进行PCA降维后计算特征两两之间的cosine距离来计算所得分数；

105：使用最近邻算法和阈值比较方法进行人脸识别和验证。

本发明实施例提出一个新的损失函数，即中心损失，有效的提高神经网络学习特征的辨别能力。特别的，本发明实施例对每一类的深度特征学习一个中心(与特征长度相同的向量)。在训练的过程中，同时地更新中心以及最小化类中心间的距离。在softmax损失函数和中心损失函数的联合监督下训练CNN，一个超参数用于平衡这两种监督信号。直观地说，就是将softmax损失函数强迫不同的类之间的深度特征保持分开。中心损失函数有效的促使同一类的深度特征接近他们的类中心。联合监督不仅使得类间差异放大，而且使得类内特征变化减少。因此深度学习功能的判别能力可以高度增强。

综上所述，本发明实施例通过上述步骤101-步骤105有效的提高神经网络学习特征的辨别能力，获得了具有鲁棒性的脸部特征识别和验证模型。

实施例2

下面结合具体的计算公式、实例对实施例1中的方案进行进一步地介绍，详见下文描述：

201：对大型数据集进行处理，保持数据集中的人物个数不变，减少训练数据集的图片数量至满足小型数据集的协议；

所有图片中的人脸和脸部的脸部关键特征点由算法^[13]检测。本方法使用了5个脸部关键特征点(两个眼睛，鼻子，嘴的两个边缘)来做相似度变换。对于训练集，如果检测失败则简单的丢弃这张图片，但如果是测试集，就使用所提供的关键特征点。

图片裁剪为112×96的RGB图片。根据图片预处理的惯例，RGB图片中的每一个像素(像素值为[0，255])减去127.5，然后再除以128来归一化。

对于训练集，本方法使用了网络收集的训练数据，包括CASIA-WebFace^[14]，CACD2000^[15]，Celebrity^[16]数据集。去掉了训练集中与测试集中相同的人物及图片后，训练集大小为0.7M左右，包括17189个不同的人物。包含数量小于0.5M张图片和20K个物体的训练数据集被定义为小型数据集，反之为大型数据集。在MegaFace测试集上的实验中，根据小型训练集的协议，训练集大小缩减至0.49M张，但保持人物个数不变，即还是包括17189个不同的人物。对于训练集和测试集中的图片，还使用了数据增强技术横向翻转，将横向翻转后的图片作为新的输入。

202：使用caffe库构建一个CNN网络模型；

在实施例1上，如图3的结构为应用于人脸识别的CNN结构，该CNN结构是在caffe库的基础上经过微调得到的。本方法所有实验都采用同样的CNN结构。

本方法采用了中心损失函数和softmax损失函数联合监督的方法。在卷积层和局部卷积层的特征提取器大小为3×3，步长为1，后面都接有PReLU^[17]非线性单元。

三个局部卷积层的权重分别在4×4，2×2和1×1大小的区域内共享。最大池化区域为2×2，步长为2。第四层池化层的输出和第三层局部卷积层的输出串联作为第一个全连接层的输入。全连接层的输出维度为512。

为了进行比较，本方法还分别训练了其他两种模型，包括：在softmax损失函数监督下的CNN模型(命名为“模型A”)，以及softmax损失函数和contrastive损失函数联合监督学习的CNN模型(命名为“模型B”)。本方法所提出的softmax损失函数和中心损失函数联合监督的CNN模型命名为“模型C”。

设置模型学习速率：对于模型A和模型C，初始学习速率为0.1，并在16K(K＝10³)，24K次迭代之后都除以10，在28K次迭代后模型训练结束，花费大概14个小时。由于模型B收敛速度较慢，所以初始速率设定为0.1，但分别在24K，36K次迭代后再除以10，减小学习速率，总共迭代了42K次，花费大概22小时。

203：对CNN网络模型的全连接层输出的特征使用softmax损失函数增大类间距离，同时使用中心损失函数为每一类的深度特征学习一个中心，并且减少深度特征和相应类的中心之间的距离，使用一个超参来平衡这两个函数来联合监督学习特征；

Softmax损失函数如下所示：

公式(1)中，x_i∈R^d表示第i个深度特征，属于第y_i类，d表示特征维度。W_j表示最后一层全连接层权重矩阵W的第j列，b表示偏差。分批量处理miniBatch和类的数量分别用m和n表示。本方法忽略偏差来简化计算。实际上，忽略偏差对性能没有任何影响。

本方法提出了中心损失函数用于巩固深度学习的可判别能力，最小化类内距离以及尽量使不同的类之间的特征保持分离，计算公式如下：

其中，表示深度特征的第y_i类，这个公式有效的刻画了类内的差异。理想情况下，应该随着深度特征的改变而更新，或者说在每一次迭代中，需要考虑整个训练集，并求取每一类特征的平均值，这对于实际操作是不可能的。因此上式不能直接使用，这也是中心损失函数至今为止都没有用到CNN中的原因。

为了解决这个问题，本方法做了以下两处更改。首先，基于miniBatch来更新中心，而不是基于整个训练集。每次迭代过程中，中心由相对应类的特征的平均值来更新，这种情况下，一些中心可能不会更新。其次，为避免由错误标记的样本产生的大量的扰动，本方法使用标量α来控制中心的学习速率。L_C对于x_i的偏导数和的更新公式计算如下：

其中，L_C表示中心损失函数，Δc_j表示为更新参数c_j所需的中间变量，c_j表示c_yi＝j，即表示深度特征的第y_i＝j类。

δ()为狄拉克函数，当括号内条件满足时δ＝1，反之＝0。α范围为[0，1]，本方法采用softmax损失函数和中心损失函数联合训练CNN，公式如下：

W_yi∈R^d表示W的第y_i列；b_yi表示b的第y_i列；T表示转置。

由中心损失函数监督学习的CNN可以使用基于miniBatch的随机梯度递减来优化。标量λ用于平衡两个损失函数。当λ取值为0时，传统的softmax可以看作联合监督训练的一个特例。

204：计算CNN模型的后向传播，直接用基于miniBatch的随机梯度下降法对CNN模型进行优化，更新权重矩阵，更新每一类的深度特征中心；

由中心损失函数监督学习的CNN可以使用基于miniBatch的随机梯度递减来优化。模型A，模型B以及模型C这三个模型同时在两个GPU上以每次256张图片输入模型中(即设定miniBatch的参数为256)进行训练。

使用随机梯度下降法首先要确定训练数据集合{x_i}，卷积层的初始化参数θ_C，参数矩阵W，损失函数层的中心初值{c_j|j＝1,2,…,n}，超参λ和α，以及学习速率μ^t(本方法中学习速率开始于0.1，在16K和24K迭代次数时都被除以10)；然后计算得到联合损失函数L后，以及计算后向传播错误公式为使用联合损失函数来更新参数W，公式为以及更新参数c_j，公式为还有更新参数θ_C，公式为重复上述步骤直到系统收敛，迭代完成。其中t表示迭代次数。

表2中总结了联合监督训练的具体步骤

205：对由以上步骤训练好的、更新后的CNN模型提取的深度特征进行PCA降维后计算两两特征之间的cosine距离来计算所得分数，所得分数用于最近邻算法和阈值比较方法中目标匹配，cosine距离越小的两个特征所代表的人物模型之间相似度越高；

本方法将第一个全连接层的输出作为深度学习的特征。本方法对每个图片和他的横向翻转提取特征，并且串联他们作为最后的输出。对两个特征进行PCA降维后，计算二者之间的cosine距离来计算分数，用于最近邻算法和阈值比较方法中目标匹配，cosine距离越小的两个特征所代表的模型之间相似度越高。

206：使用最近邻算法和阈值比较方法进行人脸识别和验证。

首先，本方法在LFW和YTF数据库上评价了所提出的简单模型对于人脸验证的实验效果。在LFW和YTF数据库上，CNN模型使用本方法所提出的联合监督模型C，训练集使用网络收集的训练数据，包括CASIA-WebFace，CACD2000，Celebrity数据集，并且去掉了训练集中与测试集中相同的人物及图片后，训练集大小为0.7M左右，包括17189个不同的人物。对于人脸验证来说，人脸识别算法即通过计算判断所给的图片对或视频对是不是属于同一个人物。

其次，本方法在MegaFace数据库上评价了所提出的简单模型对于人脸识别和人脸验证的实验效果。在MegaFace数据库上，CNN模型使用本方法所提出的联合监督模型C。这里，引入大型训练数据集和小型训练数据集两个协议的概念。包含数量小于0.5M张图片和20K个物体的训练数据集被定义为小型数据集。根据小型数据集的定义，在训练集使用网络收集的训练数据的基础上(包括CASIA-WebFace，CACD2000，Celebrity数据集，并且去掉了训练集中与测试集中相同的人物及图片后，训练集大小为0.7M左右，包括17189个不同的人物)，将训练数据集的图片数量减少至0.49M，但仍然保持数据集中的人物个数不变。另外，将训练集中和Facescrub数据集中重复的图片丢弃。本方法在MegaFace数据库上的实验仅用到了gallery数据集的三个中的一个来测试本方法所提出的模型。

对于人脸识别来说，人脸识别的目的就是将给出的probe数据集的某一张图片与gallery数据集中同一个人物下的所有图片进行匹配。因此需要计算probe数据集中每张人脸图片和gallery数据集中每张人脸图片之间的相似度。在gallery数据集中每个人物至少包含一张图片，gallery数据集所有人物涵盖了probe数据集中所有人物。

对于人脸验证来说，人脸识别算法即通过计算判断所给的图片对或视频对是不是属于同一个人物。本方法在实验过程中生成了probe数据集和gallery数据集的40亿个错误匹配对。

本方法中所采用的最近邻算法和阈值比较法是用于计算图片特征间相似度的。

综上所述，本发明实施例通过上述步骤201-步骤206有效的提高神经网络学习特征的辨别能力，获得了具有鲁棒性的脸部特征识别和验证模型。

实施例3

下面结合具体的实例对实施例1和2中的方案进行可行性验证，详见下文描述：

数据集：

LFW数据库是目前用得最多的人脸图像数据库，如图5(a)和5(b)所示。该数据库共13233幅图像，包括5749个不同的人物。1680人有两幅及以上的图像，4069人只有一幅图像。每张图片之间在姿势、表情、光照上都存在显著差异。图像为250×250大小的JPEG格式。绝大多数为彩色图，少数为灰度图。该数据库采集的是自然条件下人脸图片，目的是提高自然条件下人脸识别的精度。该数据集有6种评价标准：非监督(Unsupervised)；无额外数据的图片限制(Image-restricted with no outside data)；无额外数据的无限制条件(Unrestricted with no outside data)；无标记数据的图片限制(Image-restrictedwith label-free outside data)；无标记数据的无限制条件(Unrestricted with label-free outside data)；无限制条件标记数据(Unrestricted with labeled outsidedata)。

本实验使用YTF数据库包括1595个不同的人的3425个视频，如图5(c)所示。每个人平均为2.15个视频。视频长度在48帧到6070帧变之间，平均长度为181.3帧每视频。

MegaFace Challenge数据集是最近的一个脸部图像识别和人脸验证任务的测试基准，包括gallery集和probe集。如图6所示，左图为probe数据集，右图为gallery数据集，右图中用虚线框圈出的人物图片与左图的人物相对应。gallery集包含一百万张图片，包括690K个不同的人物。所有数据都是华盛顿大学从Flickr网站组织收集的。这是第一个在一百万规模级别的面部识别算法测试基准。probe集是两个分离的数据集：Facescrub和FGNet。Facescrub数据集是公开数据集，包括530个人的100K张照片(55742张男性照片和52076张女性的照片)。每个人物都提供足够的照片使得可能的偏差减小。FGNet数据集是带有年龄变化的脸部数据集，包括82个人的1002张图片，年龄在0到69岁间。

评价标准：

累计匹配特征曲线(Cumulative Match Characteristic，CMC)就是算一种top-k的击中概率，主要用于闭集测试。例如：有n个查询样本，n个查询样本依次和同一个测试样本算取n个距离，然后排序，看与该测试样本相同一类的查询样本是否位于前top-k，最后统计得到CMC曲线。

接收器操作特性曲线(Receiver Operating Characteristic，ROC)是反映真正类接受率(True Positive Rate)和假正类接受率(False Positive Rate)连续变量的综合指标，是用构图法揭示真正类接受率和假正类接受率的相互关系。其中，如果一个实例是正类并且也被预测成正类，即为真正类，如果实例是负类被预测成正类，称之为假正类。ROC曲线通过将连续变量设定出多个不同的临界值，从而计算出一系列真正类接受率和假正类接受率，再以真正类接受率为纵坐标、假正类接受率为横坐标绘制成曲线，曲线所包围面积越大，诊断准确性越高。

实验中将本方法与以下两种方法进行对比：

LBP^[15]和JointBayes^[18]。

基本深度模型：softmax监督下的模型A，softmax和对比损失(contrastive loss)模型B。

实验结果：

首先，本方法先对参数λ和α的实验。在模型C中，超参λ控制类内变化，α控制特征中心c的学习速率。这两个参数对于本方法的模型都是必要的。本方法在LFW数据集上做了两个人脸验证实验来研究这两个参数对实验结果的影响，如图9所示。在第一个实验中，如图9左图所示，固定α为0.5，λ在0到0.1之间变化，来学习不同的模型。由图9显然可见，简单的使用softmax损失函数(即当λ＝0时)效果并不好，导致了非常差的验证性能。因此，适当选择λ的值可以巩固深度学习特征的验证精确度。同时还可以观察到λ在一个很宽的范围内验证精确度都能保持稳定。在第二个实验中，本方法固定λ＝0.003，α在0.01和1之间变化，来学习不同的模型。同样，本方法模型的验证性能在一个很宽的范围内保持稳定。最后，在本方法所提出的模型C中，设定λ＝0.003，α为0.5。

然后，本方法在LFW和YTF数据库上评价了所提出的简单模型对于人脸验证的实验效果。在LFW和YTF数据库上，CNN模型使用本方法所提出的联合监督模型C，训练集使用网络收集的训练数据，包括CASIA-WebFace，CACD2000，Celebrity数据集，并且去掉了训练集中与测试集中相同的人物及图片后，训练集大小为0.7M左右，包括17189个不同的人物。

在LFW数据集上进行人脸验证的部分实验结果如图5(a)和5(b)所示，图5(a)为在LFW数据集中一些正确的脸部图片对验证的示意图，图5(b)为在LFW数据集中一些错误的脸部图片对验证的示意图。本实验采用了LFW数据集的六种评价标准之一的无限制条件标记数据标准。本方法在LFW数据集上测试了6000个脸部对，如图5(a)和5(b)所示。

在YTF数据集上仍然遵循LFW数据库的无限制条件标记数据的标准。图5(c)为在YTF数据集中一些脸部视频的示意图，其中，每幅图片中的白色框是用于测试的脸部。本方法在YTF数据集上测试了5000个视频对。

由表3的结果可以看出，首先模型C显著优于基本模型A，在LFW数据集上性能由97.37％提升到99.28％，在YTF数据集上性能由91.1％提升到94.9％。这表现了联合监督可以显著的增强深度学习特征的可辩别能力，证明中心损失函数的有效性。其次，相较于模型B，在LFW数据集上性能由99.10％提升到99.28％，在YTF数据集上性能由93.8％提升到94.9％。这表明中心损失函数比对比损失函数在CNN模型中更适用。

表3在LFW和YTF数据库上的性能

最后，本方法在MegaFace数据库上评价了所提出的简单模型对于人脸识别和人脸验证的实验效果。在MegaFace数据库上，CNN模型使用本方法所提出的联合监督模型C。这里，引入大型训练数据集和小型训练数据集两个协议的概念。包含数量小于0.5M张图片和20K个物体的训练数据集被定义为小型数据集。根据小型数据集的定义，在训练集使用网络收集的训练数据的基础上(包括CASIA-WebFace，CACD2000，Celebrity数据集，并且去掉了训练集中与测试集中相同的人物及图片后，训练集大小为0.7M左右，包括17189个不同的人物)，将训练数据集的图片数量减少至0.49M，但仍然保持数据集中的人物个数不变。另外，将训练集中和Facescrub数据集中重复的图片丢弃。本方法在MegaFace数据库上的实验仅用到了gallery数据集的三个中的一个来测试本方法所提出的模型。

由图7和图8可以看出手工特征和浅层模型表现非常差，当增加错误匹配对时精确度显著下降。图7左图为测试集包括1M(M＝10³)个错误匹配对的不同方法的CMC曲线的示意图，右图为测试集包括10M个错误匹配对的不同方法的CMC曲线的示意图。其他方法的结果沿用MegaFace团队的实验结果。图8左图为测试集包括1M个错误匹配对的不同方法的ROC曲线的示意图，右图为测试集包括10M个错误匹配对的不同方法的ROC曲线的示意图。其他方法的结果沿用MegaFace团队的实验结果。而深度学习方法尽管还有提升空间，但比传统方法表现更好。最终，联合监督方法所得结果最佳，明显超过模型A和模型B的结果。

只有在包含1M个错误匹配对的测试集上的人脸识别率排名第一的结果，以及在10^-6的较低的假正率上的人脸验证率才有意义。因此，本方法本还在MegaFace数据集上对包含1M个错误匹配对的测试集测试不同方法的人脸识别率，对包含1M(M＝10⁶)个错误匹配对的测试集，在假正类接受率为10^-6时，测试不同方法的人脸验证率。

表4在包含1M个错误匹配项的MegaFace数据集上，不同方法的识别率

表5在包含1M(M＝10⁶)个错误匹配项的MegaFace数据集上，假正类接受率为10^-6时不同方法的验证率。

由以上实验结果可以看出，首先，模型C在人脸识别和人脸验证方面显著优于模型A和模型B；其次，在小型数据集的评价标准上，所提出的模型C在人脸识别和人脸验证分别超过第二名5.97％，10.15％；另外，模型C甚至还超过了某些在大型训练集上训练的模型；最后一些在大型训练集上训练的模型，如Google和NTechLAB，结果优于模型C，但是，这些模型是在数据量非常大的大型训练集上训练得到的。

由本方法的实验证明，简单的使用他们中的任何一个都不会获得判别能力强的深度特征。本方法通过中心损失函数和softmax损失函数的联合监督，在较为简单的模型上，基于小型训练集的协议，使得人脸识别中的深度学习特征可判别能力显著增强。在几个业界标准大型脸部数据集上的实验结果充分证明了所提出方法的有效性。

参考文献：

[1]Taigman Y,Yang M,Ranzato M A,et al.Deepface:Closing the gap tohuman-level performance in face verification[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2014:1701-1708.

[2]Wen Y,Li Z,Qiao Y.Latent factor guided convolutional neuralnetworks for age-invariant

face recognition[C]//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition.2016:4893-4901.

[3]Sun Y,Wang X,Tang X.Deeply learned face representations aresparse,selective,and robust[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2015:2892-2900.

[4]Schroff F,Kalenichenko D,Philbin J.Facenet:A unified embedding forface recognition and clustering[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2015:815-823.

[5]Liu Z,Luo P,Wang X,et al.Deep learning face attributes in the wild[C]//Proceedings of the IEEE International Conference on ComputerVision.2015:3730-3738.

[6]Miller D,Brossard E,Seitz S,et al.Megaface:A million faces forrecognition at scale[J].arXiv preprint arXiv:1505.02108,2015.

[7]Huang G B,Ramesh M,Berg T,et al.Labeled faces in the wild:Adatabase for studying face recognition in unconstrained environments[R].Technical Report 07-49,University of Massachusetts,Amherst,2007.

[8]Wolf L,Hassner T,Maoz I.Face recognition in unconstrained videoswith matched background similarity[C]//Computer Vision and PatternRecognition (CVPR),2011 IEEE Conference on.IEEE,2011:529-534.

[9]LeCun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied todocument recognition[J].Proceedings ofthe IEEE,1998,86(11):2278-2324.

[10]LeCun Y,Bottou L,Bengio Y,et al.Gradient-based learning appliedto document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.

[11]Sun Y,Chen Y,Wang X,et al.Deep learning face representation byjoint identification-verification[C]//Advances in neural informationprocessing systems.2014:1988-1996.

[12]Yi D,Lei Z,Liao S,et al.Learning face representation from scratch[J].arXiv preprint arXiv:1411.7923,2014.

[13]Zhang K,Zhang Z,Li Z,et al.Joint Face Detection and AlignmentUsing Multitask Cascaded Convolutional Networks[J].IEEE Signal ProcessingLetters,2016,23(10):1499-1503.

[14]He K,Zhang X,Ren S,et al.Delving deep into rectifiers:Surpassinghuman-level performance on imagenet classification[C]//Proceedings of theIEEE international conference on computer vision.2015:1026-1034.

[15]Chen B C,Chen C S,Hsu W H.Face recognition and retrieval usingcross-age reference coding with cross-age celebrity dataset[J].IEEETransactions on Multimedia,2015,17(6):804-815.

[16]Liu Z,Luo P,Wang X,et al.Deep learning face attributes in thewild[C]//Proceedings of the IEEE International Conference on ComputerVision.2015:3730-3738.

[17]Jia Y,Shelhamer E,Donahue J,et al.Caffe:Convolutionalarchitecture for fast feature embedding[C]//Proceedings of the 22nd ACMinternational conference on Multimedia.ACM,2014:675-678.

[18]Chen D,Cao X,Wang L,et al.Bayesian face revisited:A jointformulation[C]//European Conference on Computer Vision.Springer BerlinHeidelberg,2012:566-579.

[19]Parkhi O M,Vedaldi A,Zisserman A.Deep Face Recognition[C]//BMVC.2015,1(3):6.

[20]Liu J,Deng Y,Bai T,et al.Targeting ultimate accuracy:Facerecognition via deep embedding[J].arXiv preprint arXiv:1506.07310,2015.

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的人脸识别和人脸验证的监督学习方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的一种基于深度学习的人脸识别和人脸验证的监督学习方法，其特征在于，所述卷积神经网络模型具体为：

最大池化区域为2×2，步长为2；

3.根据权利要求1所述的一种基于深度学习的人脸识别和人脸验证的监督学习方法，其特征在于，所述通过超参平衡两函数以此联合监督学习特征步骤具体为：

其中，L表示联合监督损失函数；L_S表示柔性最大值损失函数；L_C表示中心损失函数；λ表示标量；m和n分别表示最小批量处理和类的数量；x_i∈R^d表示第i个深度特征，属于第y_i类；表示深度特征的第y_i类的中心，并随着深度特征的改变而更新；W_j∈R^d表示最后一层全连接层权重矩阵W∈R^d×n的第j列；b_j表示最后一层全连接层偏差b的第j列；表示W的第y_i列；表示b的第y_i列；T表示转置。