CN110879985B

CN110879985B - 一种抗噪声数据的人脸识别模型训练方法

Info

Publication number: CN110879985B
Application number: CN201911129505.7A
Authority: CN
Inventors: 龚勋; 周炀; 章哲敏
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2019-11-18
Filing date: 2019-11-18
Publication date: 2022-11-11
Anticipated expiration: 2039-11-18
Also published as: CN110879985A

Abstract

本发明公开了一种抗噪声数据的人脸识别模型训练方法，包括如下步骤：S1、构建人脸识别数据集，按照个体ID进行分类；S2、对步骤S1所获得的数据集进行预处理；S3、根据步骤S2的预处理结果，构建20层的ResNet网络结构提取特征，使用ArcFace损失函数训练人脸识别模型；S4、统计最近一定数量Batch中cosθ值的分布情况，以cosθ值为横坐标，同一个cosθ的数量为纵坐标，绘制曲线图P；S5、重复步骤S4，直到cosθ分布呈现两个高斯分布，分别计算两个高斯分布顶点横坐标α、β和交点横坐标λ；S6、根据α、β值的大小，判断模型拟合情况，动态调整损失函数。本发明能够自动过滤噪声数据扰，提高模型训练效果。

Description

一种抗噪声数据的人脸识别模型训练方法

技术领域

本发明涉及人脸识别技术领域，具体涉及一种抗噪声数据的人脸识别模型训练方法。

背景技术

人脸识别是指利用分析比较人脸视觉特征信息进行身份鉴别的计算机技术。在人脸识别的过程，主要包括人脸图像的匹配和识别过程，就是将提取到的待识别的人脸特征与已得到的存储在数据库中的人脸特征模板进行匹配，根据相似程度对人脸图像的身份信息进行判断。因此，能够提取到准确而丰富的人脸特征对于人脸识别的结果具有重要影响。

由于大部分应用场景下，人脸识别任务需要判断不在训练数据集内的人脸数据，这也就要求人脸识别的训练数据集包含尽可能多的人脸数据，来提高模型的鲁棒性。在通常情况下，人脸识别训练数据集的数量需要达到百万级才能具备较好的鲁棒性，通过设备去采集如此巨大的数据量显然是不现实的。

随着互联网技术的进步，我们可以通过网络平台自动收集人脸数据，这也是目前公开数据集的收集方案。但是这也会带来数据噪声问题，例如：1)收集到非人脸的数据。2)人的身份ID标注错误。3)标有ID的数据类型不包含在训练集内。显然这些噪声数据会对模型的训练造成极大的干扰。由于数据量巨大，噪声数据的清理一直一个非常棘手的问题。目前，除了手动清理外，没有一个有效的人脸识别数据集噪声清理方法。

发明内容

本发明的目的在于提供一种抗噪声数据的人脸识别模型训练方法，旨在解决人脸数据集中噪声数据对模型训练的干扰问题。

为达到上述目的，本发明是这样实现的：

一种抗噪声数据的人脸识别模型训练方法，包括如下步骤：

S1、构建人脸识别数据集，按照个体ID进行分类，即同一个人的多张人脸照片作为同一个类别ID；

S2、对步骤S1所获得的数据集进行预处理，包括：人脸检测，人脸对齐，人脸裁剪，图片归一化；

S3、根据步骤S2的预处理结果，构建20层的ResNet网络结构提取特征，使用ArcFace损失函数训练人脸识别模型；

ArcFace损失函数的表达式如下：

式中，l_CE表示训练的损失函数值，

表示归一化的x_i∈R^d与w_j∈R^d的乘积，也就是两个特征之间的余弦距离，x_j∈R^d表示一个Batch中第j个样本的输出特征，它的类别标签为y_i，w_i∈R^d表示输出层的权重的第i列，

表示标签对应权重与特征向量之间的余弦距离，M为一个Batch中样本数量，m、s为超参数，n表示训练集类别数；

S4、统计最近一定数量Batch中cosθ值的分布情况，以cosθ值为横坐标，同一个cosθ的数量为纵坐标，绘制曲线图P；

S5、重复步骤S4，直到cosθ分布呈现两个高斯分布，分别计算两个高斯分布顶点横坐标α、β和交点横坐标λ；

S6、根据α、β值的大小，判断模型拟合情况，动态调整损失函数；

若模型拟合程度欠缺，则重复步骤S4、S5；若模型初步拟合，则暂停训练，将Arcface损失函数中的超参数m修改为动态Margin来降低噪声数据对模型训练的干扰；直到模型完全拟合，结束训练。

进一步的，在步骤S2中，对收集到的数据集进行预处理的具体方式如下：使用MTCNN算法进行人脸检测，得到人脸左眼、右眼、鼻尖、左嘴角、右嘴角五个特征点；然后使用五个人脸特征点对图片进行仿射变换，将图片旋转一定角度，使两眼为水平方向；再将人脸裁剪到固定的大小，然后将人脸图片的每个点的像素值先减去127.5后除以128得到归一化的人脸像素值。

进一步的，在步骤S5中，对cosθ值的分布情况进行统计，对处理的具体过程如下：

以0.1为长度，从-1.00到1.00，以0.01为单位依次右移，若存在数γ在10次位移中内纵坐标皆为最大值，且该值大于0，则记录γ第一次出现的位置为α，表示噪声数据分布中心轴横坐标；第二次出现的位置为β，表示正常数据中心轴横坐标；若存在数γ在10次位移中内纵坐标皆为最小值且该值>0，则记录γ的值为交点λ，表示噪声数据与正常数据分布交点。

进一步的，在步骤S6中，动态设置Margin的方法如下：

以v＝(β-α)的值作为判断模型拟合程度的依据，当噪声数据与干净数据分布能够分离时即v>0.6根据每个样本情况修改Margin值，设定方法如下：

根据每个样本对应的cosθ值，按照公式(2)动态修改Margin。

相对于现有技术，本发明具有如下益效果：

1、本发明在不需要设置额外网络分支和任何先验知识的前提下，模型训练过程中能够自动判断样本属于噪声数据的概率。本发明步骤S5中通过cosθ值的分布情况，找到噪声数据与正常数据的分布区间，来估计样本属于噪声数据的概率。

2、本发明能够自动过滤噪声数据，本发明步骤S6中根据样本属于噪声数据的概率动态修改损失函数的Margin值，降低噪声数据的反向传播梯度，从而降低噪声数据对模型训练的干扰，提高模型训练效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种抗噪声数据的人脸识别模型训练方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明的实施例，提供一种抗噪声数据的人脸识别模型训练方法，包括如下步骤：

S1、构建人脸识别数据集，按照个体ID进行分类，即同一个人的多张人脸照片作为同一个类别ID。

S2、对步骤S1所获得的数据集进行预处理，包括：人脸检测，人脸对齐，人脸裁剪，图片归一化；具体方式如下：使用MTCNN算法进行人脸检测，得到人脸左眼、右眼、鼻尖、左嘴角、右嘴角五个特征点；然后使用五个人脸特征点对图片进行仿射变换，将图片旋转一定角度，使两眼为水平方向；再将人脸裁剪到固定的大小，然后将人脸图片的每个点的像素值先减去127.5后除以128得到归一化的人脸像素值。

ArcFace损失函数的表达式如下：

式中，l_CE表示训练的损失函数值，

表示标签对应权重与特征向量之间的余弦距离，M为一个Batch中样本数量，m、s为超参数，n表示训练集类别数。

S4、统计最近一定数量Batch中cosθ值的分布情况，以cosθ值为横坐标，同一个cosθ的数量为纵坐标，绘制曲线图P。

在本发明中，以0.1为长度，从-1.00到1.00，以0.01为单位依次右移，若存在数γ在10次位移中内纵坐标皆为最大值，且该值大于0，则记录γ第一次出现的位置为α，表示噪声数据分布中心轴横坐标；第二次出现的位置为β，表示正常数据中心轴横坐标；若存在数γ在10次位移中内纵坐标皆为最小值且该值>0，则记录γ的值为交点λ，表示噪声数据与正常数据分布交点。

S6、根据α、β值的大小，判断模型拟合情况；

若模型拟合程度欠缺，则重复步骤S4、S5；若模型初步拟合，则暂停训练，将Arcface损失函数中的超参数m修改为动态Margin来降低噪声数据对模型训练的干扰；直到模型完全拟合，结束训练，从而得到优化后的的人脸识别模型；

其中，动态设置Margin的方法如下：

根据每个样本对应的cosθ值，按照公式(2)动态修改Margin。

本发明提供的抗噪声数据的人脸识别模型训练方法，在不需要设置额外网络分支和任何先验知识的前提下，模型训练过程中能够自动判断样本属于噪声数据的概率。本发明步骤S5中通过cosθ值的分布情况，找到噪声数据与正常数据的分布区间，来估计样本属于噪声数据的概率。同时，本发明能够自动过滤噪声数据，本发明步骤S6中根据样本属于噪声数据的概率动态修改损失函数的Margin值，降低噪声数据的反向传播梯度，从而降低噪声数据对模型训练的干扰，提高模型训练效果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种抗噪声数据的人脸识别模型训练方法，其特征在于，包括如下步骤：

ArcFace损失函数的表达式如下：

式中，l_CE表示训练的损失函数值，

S6、根据α、β值的大小，判断模型拟合情况；

若模型拟合程度欠缺，则重复步骤S4、S5；若模型初步拟合，则暂停训练，将Arcface损失函数中的超参数m修改为动态Margin来降低噪声数据对模型训练的干扰；直到模型完全拟合，结束训练；

在步骤S5中，对cosθ值的分布情况进行统计，对处理的具体过程如下：

以0.1为长度，从-1.00到1.00，以0.01为单位依次右移，若存在数γ在10次位移中内纵坐标皆为最大值，且该值大于0，则记录γ第一次出现的位置为α，表示噪声数据分布中心轴横坐标；第二次出现的位置为β，表示正常数据中心轴横坐标；若存在数γ在10次位移中内纵坐标皆为最小值且该值>0，则记录γ的值为交点λ，表示噪声数据与正常数据分布交点；

在步骤S6中，动态设置Margin的方法如下：

根据每个样本对应的cosθ值，按照公式(2)动态修改Margin。

2.如权利要求1所述的一种抗噪声数据的人脸识别模型训练方法，其特征在于，在步骤S2中，对收集到的数据集进行预处理的具体方式如下：使用MTCNN算法进行人脸检测，得到人脸左眼、右眼、鼻尖、左嘴角、右嘴角五个特征点；然后使用五个人脸特征点对图片进行仿射变换，将图片旋转一定角度，使两眼为水平方向；再将人脸裁剪到固定的大小，然后将人脸图片的每个点的像素值先减去127.5后除以128得到归一化的人脸像素值。