CN111783698A

CN111783698A - 一种基于提高人脸识别模型训练稳定性的方法

Info

Publication number: CN111783698A
Application number: CN202010641524.4A
Authority: CN
Inventors: 周书田
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2020-10-16

Abstract

一种基于提高人脸识别模型训练稳定性的方法。随着卷积神经网路的快速的发展，深度学习在人脸识别领域进行了大量的应用。在最近的几年中，人脸识别准确快速提高，其主要归功于新颖损失函数的提出。在目前最大的人脸测试集MegaFace上，最顶尖的模型已经实现了98.35％的1:N查找性能，但是训练过程中收敛稳定性的问题始终没有妥善的被解决。针对此缺点，本专利通过对训练过程中人脸识别监督的损失函数ArcFace进行改进优化，使其logit曲线在余弦空间中呈线性，以便在训练中获得更加稳定的梯度收敛，并且加速了训练过程、提高了识别精度。

Description

一种基于提高人脸识别模型训练稳定性的方法

技术领域

本发明属于人脸识别模型训练技术领域，具体涉及一种基于提高人脸识别模型训练稳定性的方法。

背景技术

深度学习在人脸识别领域取得了巨大的成就，已经广泛的应用在了金融认证、门禁控制等领域，创造了巨大的经济与社会价值。然而在机器学习的过程中其难以估量的不确定性在深度学习发展的的长期发展中一直困扰着技术人员。在实验室里，我们可以放心的让算法在GPU上无休无止的跑下去，而仅仅追求模型的低误分率及高精度。而在工业界，除却误分率这种直观的表现以外，我们更在意一个模型的训练是否稳定。

人脸识别模型优化的本质为在一个特征空间中，令属于同一个人的图像特征尽可能聚拢，不属于同一个人的图像特征尽可能的发散，模型对于特征建模能力的强弱直接影响到了人脸识别模型的识别准确率。目前，人脸识别系统的进步需要建立在网络架构的不断革新和损失函数的设计之上。设计优良的损失函数，可以最大化的实现类内特征的聚合与类间特征的离散。同时，人脸识别模型依托于大规模的训练，训练图片数量经常高达数百万张，训练过程经常持续数周。但现有人脸识别训练模型常常会带来收敛过程当中的震荡，使训练的成本加大。

一般人脸识别是由以下部分组成：

1.找到一张图片中的所有人脸；

2.对于每一张脸来说，无论光线明暗或面朝别处，它依旧能够识别出是同一个人的脸；

3.能够在每一张脸上找出可用于与他人区分的独特之处；

4.将这张脸的特点与已知的所有人脸进行比较，以确定对应的人物。

由于计算机目前还不具备人类大脑认知时的高级泛化能力所以目前通常需要将多个机器学习算法连接到一起。来识别人脸。其第一步人脸检测是即在照片中判断找出人脸的位置。此处使用2005年发明的方向梯度直方图(Histogram of Oriented Gradients)的方法，简称HOG。

首先要将所选图像转换为黑白，并查看图片中的每一个像素和它们周围的其他像素。找出并比较当前像素与直接围绕它的像素的深度，然后用箭头来代表图像变暗的方向。对图片中的每一个像素重复这个过程直至每个像素都被一个箭头取代。这些箭头被称为梯度(gradients)，它们能显示出图像上从明亮到黑暗的流动过程。由于保存每个像素的梯度太过细节化，图像需要被分割成一些16 ×16像素的小方块。然后在每个小方块中计算出每个主方向上的梯度数量将用指向性最强那个方向的箭头来代替原来的那个小方块，如图1所示。然后将图2 所示的HOG图像与其他已知的HOG图案对比并找出其间最相似的部分，即人脸的部分。

其次需要解决脸部的不同姿势带来的问题。将图片中的脸部分离出来之后，对于电脑来说，面朝不同方向的同一张脸是不同的东西。为此，利用面部特征点估计(facelandmark estimation)算法找出68个人脸上普遍存在的特定点 (称为特征点，landmarks)——包括下巴的顶部、每只眼睛的外部轮廓、每条眉毛的内部轮廓等，并训练一个机器学习算法，让它能够在任何脸部找到这68 个特定的点，如图3所示。

然后进行脸部编码，其目的是去区分不同的人脸，也是人脸识别中最核心的问题。这个过程需要从每张人脸上提取一些基本的测量数值。然后用同样的方式测量未知的面孔，并找到最接近测量数值的那张已知的脸。事实证明，最准确的方法是让计算机自己找出它要收集的测量值，即训练一个深度卷积神经网络让它为脸部生成128个测量值。在将数量庞大图像重复训练数百万次之后，神经网络学习能够可靠地为每个人生成128个测量值。对于同一个人的任何十张不同的照片，它都应该给出大致相同的测量值。业内将每张脸的128个测量值称为一个嵌入(embedding)。

最后是从编码中找出数据库里与的测试图像的测量值最接近的那个人。这个过程可以通过训练一个分类器去从一个新的测试图像中获取测量结果，并找出最匹配的那个人。

发明内容

随着卷积神经网路的快速的发展，深度学习在人脸识别领域进行了大量的应用。在最近的几年中，人脸识别准确快速提高，其主要归功于新颖损失函数的提出。在目前最大的人脸测试集MegaFace上，最顶尖的模型已经实现了98.35％的 1:N查找性能，但是训练过程中收敛稳定性的问题始终没有妥善的被解决。针对此缺点，本专利通过对训练过程中人脸识别监督的损失函数ArcFace进行改进优化，使其logit曲线在余弦空间中呈线性，以便在训练中获得更加稳定的梯度收敛，并且加速了训练过程、提高了识别精度。

一种提高人脸识别模型训练稳定性的方法，首先通过骨干网络提取其特征向量，将其表示为x_i∈R^d，并且其属于类别y_i，对于类i的分类概率为:

结合交叉熵损失函数，损失函数变为

N代表了在训练集批样本当中训练图片样本的数量，W_*代表了全连接层的参数，T表示矩阵，b_*是偏执项，在绝大多数的条件下，偏置项为0，y_i代表正类，j代表负类；将参数和特征都进行归一化，经过归一化后的损失函数变为

其中， s代表缩放尺度(scale)，θ是样本特征和y_i(正类)或者j(负类)的夹角；间隔(margin)类的损失函数(loss)可以被统一表达为：

将logit曲线变更为一条直线，在不同的收敛过程与阶段，其对于夹角的梯度始终为定值，避免了梯度的跳变，其表达式为：

其中

其在区间内单调递减，并且梯度恒定，m、 m₁、m₂、m₃分别是添加的几个间隔(margin)。

优选的，使用MTCNN(Multi-task Cascaded Convolutional Networks)算法来检测人脸与关键点，随后人脸图像将会被仿射变换到112*112，随后我们将像素值归一化到[0,1]，并且在最后添加了随机翻转以进行数据增广。

优选的，对于骨干模型，采用ResNet-101的网络结构。

优选的，总共的训练步数为11万步，使用步进学习率与权重衰减，初始学习率被设置为0.1，并且每4万轮衰减0.1直到模型收敛，模型动量被设置为 0.9。

附图说明

为了进一步阐述本发明所描述的内容，下面结合附图对本发明的具体实施方式作进一步详细的说明。应当理解，这些附图仅作为典型示例，而不应看作是对本发明的范围的限定。

图1是通过像素的明暗体现出其深度；

图2是本发明中人脸照片的HOG表示形式；

图3是本发明中用于视频人脸识别的68个特征点；

图4是本发明中损失函数与其余损失函数的性能对比曲线图；

表1是本发明中不同损失函数在LFW上的性能比较结果；

表2是本发明中不同损失函数在YTF上的性能比较结果；

表3是本发明中不同损失函数在MegaFace上的性能比较结果；

表4是不同方法在不同训练迭代数量在LFW数据将上的性能。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

人脸识别问题可以被识别一个分类问题。解决传统分类问题的方法为使用交叉熵-softmax损失函数进行分类损失监督，后将损失进行反向传递，以更新识别网络参数。对于一张人脸照片，我们首先通过骨干网络提取其特征向量，将其表示为x_i∈R^d，并且其属于类别y_i，对于类i的分类概率为:

结合交叉熵损失函数，其变为

N代表了在训练集批样本当中训练图片样本的数量，wj代表了全连接层的参数。在绝大多数的条件下，偏置项为0。我们将参数和特征都进行归一化，经过归一化后的损失函数变为

经过归一化后，该表达式的几何学意义变得明确，并且分类层的矩阵乘法变成了特征向量相似度的计算。归一化后的softmax损失函数，可以使得训练的特征初步具有可分性，但是其特征的特异性，即最小化类内距离与最大化类间距离，并没有被显示的约束加强。根据上式，当损失函数被优化时，正样本的logit仅被要求比负样本的logit大，但是没有要求大很多，这使得在分类问题中，样本具备可分性。但是开集测试中，测试样本与训练样本在类别上并无交集，因此仅可分的特征限制了人脸识别模型的能力。近来，大量的损失函数被提出，他们出发点均为使得类内样本更加聚合，类间样本更加分散。Margin类的损失函数通过在正logit项上添加margin约束，即使得正logit大于负logit于一个阈值，保证了类内的聚类与类间的分散。Margin类的loss可以被统一表达为：

如图4所示，所有的Margin类损失函数本质上都是改变了logit曲线的形状。但是对于所有的损失函数，对于不同的角度值，其梯度变化剧烈，这带来的训练过程中收敛的困难。当夹角过小与过大时(分别处于训练的初始与结束阶段)，梯度缓慢，收敛缓慢，训练中途，梯度变大，造成训练中的参数更新不稳定。

为了实现稳定的训练过程与极具特异性的特征表达，我们将logit曲线变更为一条直线，在不同的收敛过程与阶段，其对于夹角的梯度始终为定值，避免了梯度的跳变，这带来了稳定的收敛。其表达式为：

其中

其在区间内单调递减，并且梯度恒定，拥有更好的可解释性。而对于ArcFace 和CosFace函数，其在区间内，并不单调递减，并且梯度变化剧烈，使得训练不稳定。大量的实验表明，我们设计的损失函数可以大幅的提高收敛过程的稳定性质，并带来识别性能的提高。

实验数据

近些年来，大量大规模数据集的出现极大的推进了人脸识别模型性能的上升，我们采用了学术界广泛使用的MS-Celeb-1M[Guo Y,Zhang L,Hu Y,et al.Ms- celeb-1m:Adataset and benchmark for large-scale face recognition[C]//Europeanconference on computer vision.Springer,Cham, 2016:87-102.]数据集作为我们的训练数据集，也是迄今为止开源的最大规模的人脸数据集。原始MS-Celeb-1M的数据的数据集被证明具有大量的数据噪声，因此与之前的工作相似，我们对MS-Celeb-1M数据进行了清理，清理后的数据集包含来自9万人的510万张照片。为了更直观的体现本发明设计的损失函数，测试过程中，我们选取了常见的LFW，MegaFace，YTF以及IJB-A数据集进行了测试比对。

数据预处理与骨干模型

人脸识别的第一步为人脸检测与裁剪，我们使用MTCNN来检测人脸与关键点，随后人脸图像将会被仿射变换到112*112，随后我们将像素值归一化到[0,1]，并且在最后添加了随机翻转以进行数据增广。

对于骨干模型，为了与之前的工作进行公平比较，我们采用了ResNet-101的网络结构，ResNet-101是经典的深度学习骨干模型，其良好的泛化性已经在众多的任务当中得到了验证。我们将特征嵌入层的维度设置为512，与之前的工作保持一致。

训练设置

我们在8块NVIDIA 1080TI GPUs进行了实验，总共的训练步数为11万步，我们使用了步进学习率与权重衰减，初始学习率被设置为0.1，并且每4万轮衰减0.1直到模型收敛，模型动量被设置为0.9。

实验结果

1、在LFW上的结果

作为人脸识别领域的黄金标准，LFW测试集被广泛使用。根据报告，人眼在该测试集上的性能为97.25％，它包含来自于5749人的13233张图片，所有的照片都在非受限场景下采集，包括极具变化的姿势与分辨率。

官方的测试流程包含了6000图像对，其中3000张为正样本对，3000张为负样本对。我们严格的参照了官方的10折交叉验证的测试流程。

如表1所示，我们的方法在LFW数据集上取得了有竞争力的结果，为99.63％。 LFW的性能已经在近些年趋于饱和，并且因为错标准的存在，LFW数据集上的理论上限为99.85％。因此，我们在更严苛的数据集YTF与MegaFace上进行了测试。

方法	LFW(％)
		DeepFace	97.35
FaceNet	99.65
		DeepID	98.70
SoftMax	99.47
		ArcFace	99.69
Ours	99.63

表1

2、在YTF上的结果

YTF数据集包含来自1,595个体的3,424个视频，平均每个人2.15个视频，是现在广泛采用的视频人脸识别数据集。视频的长度从48帧到6070帧不等，平均为181.3帧。视频人脸识别旨在测试模型在抖动模糊等极端场景下的建模能力。并且，在实际的验证场景中，更多的应用场景为视频数据。对于视频中的每个帧，我们都将其提取特征，并且使用平均池化来汇聚各个帧的信息。

在表2当中，我们报告了在YTF上识别的结果，可以看到，我们的损失函数实现了性能的提高，超过了目前最好的模型ArcFace，并且大幅度的领先了对帧之间汇聚进行精心设计的方法NAN，实验结果证明了我们我们损失函数的有效性。

方法	YTF(％)
		DeepFace	91.40
FaceNet	95.12
		DeepID	93.29
SoftMax	90.11
		ArcFace	98.01
Ours	98.21

表2

3、在MegaFace上的结果

MegaFace被认为是目前最具有挑战性的人脸测试集，它由两个现存的数据集Facescrub and FGNet作为查询集，并且从互联网上收集了百万级别的干扰集。这是第一个在百万级别进行极限人脸识别测试的数据集。

在表3当中，我们报告了模型在MegaFace上识别的性能，从表中可以看到，我们在MegaFace上也取得了具有竞争力的结果，达到了98.03％，因为MegaFace 人脸测试集被证明包含大量的测试噪声，因此我们采用了与之前工作ArcFace相同的数据清理策略。

方法	MegaFace(％)
		Tripplet	64.79
Center Loss	65.49
		FaceNet	70.49
SoftMax	54.85
		ArcFace	97.91
Ours	98.03

表3

4、模型收敛性的验证

过对损失函数logit曲线的改变，我们将损失函数变成了在余弦空间中变为了一条直线，从而提供了稳定的梯度，我们对训练过程当中进行了测试，如表4 所示，我们的模型收敛更快，在模型训练早期的性能大幅领先目前的方法。如表四所示，在训练的迭代为30k次时，我们的方法领先主流方法6％-13％，证明了我们的方法易于收敛。

表4。

Claims

1.一种提高人脸识别模型训练稳定性的方法，其特征在于：首先通过骨干网络提取其特征向量，将其表示为x_i∈R^d，并且其属于类别y_i，对于类i的分类概率为:

结合交叉熵损失函数，损失函数变为

N代表了在训练集批样本当中训练图片样本的数量，W_*代表了全连接层的参数，T表示矩阵，b_*是偏执项，y_i代表正类，j代表负类；将参数和特征都进行归一化，经过归一化后的损失函数变为

其中，s代表缩放尺度(scale)，θ是样本特征和y_i(正类)或者j(负类)的夹角；间隔(margin)类的损失函数(loss)可以被统一表达为：

其中

其在区间内单调递减，并且梯度恒定，m、m₁、m₂、m₃分别是添加的几个间隔(margin)。

2.根据权利要求1所述的一种提高人脸识别模型训练稳定性的方法，其特征在于：使用MTCNN(Multi-task Cascaded Convolutional Networks)算法来检测人脸与关键点，随后人脸图像将会被仿射变换到112*112，随后我们将像素值归一化到[0,1]，并且在最后添加了随机翻转以进行数据增广。

3.根据上述任一项权利要求所述的一种基于提高人脸识别模型训练稳定性的方法，其特征在于：对于骨干模型，采用ResNet-101的网络结构。

4.根据上述任一项权利要求所述的一种基于提高人脸识别模型训练稳定性的方法，其特征在于：总共的训练步数为11万步，使用步进学习率与权重衰减，初始学习率被设置为0.1，并且每4万轮衰减0.1直到模型收敛，模型动量被设置为0.9。