CN112597979A

CN112597979A - 一种实时更新余弦夹角损失函数参数的人脸识别方法

Info

Publication number: CN112597979A
Application number: CN202110236301.4A
Authority: CN
Inventors: 黎晨阳; 陆易; 何鹏飞; 徐晓刚; 王军
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2021-04-02
Anticipated expiration: 2041-03-03
Also published as: CN112597979B

Abstract

本发明提出了一种实时更新余弦夹角损失函数参数的人脸识别方法，属于计算机视觉中的人脸识别领域。该方法包括：（1）收集人脸图像，并将人脸图像按个体分类，并对每个人脸图像进行数据标注；（2）对人脸图像进行图像预处理，得到人脸图像数据集；（3）初始化余弦夹角损失函数的的余弦值放大尺度和余弦夹角间隔；（4）将图像数据集送入卷积神经网络，实时计算更新余弦值放大尺度和余弦夹角间隔，直至完成对卷积神经网络的训练，（5）将需要进行比对判断的人脸图像输入训练好的卷积神经网络中，输出人脸特征向量，用于进行人脸识别匹配。本发明的人脸识别方法具有训练收敛速度快，识别准确率高的特点。

Description

一种实时更新余弦夹角损失函数参数的人脸识别方法

技术领域

本发明属于计算机视觉中的人脸识别领域，尤其涉及到一种基于自适应学习机制实时更新余弦夹角损失函数参数的人脸识别方法。

背景技术

随着计算机视觉技术的发展以及日渐增长的智能安防、电子商务等需求，人脸识别技术成为人工智能应用产品落地最为广泛的一个领域。使用深度学习方法的人脸识别技术核心在于通过卷积神经网络（CNN）抽象化出人脸图像的特征，用于计算人脸图像之间的相似度，进而实现人脸识别的功能。

在人脸识别的实际应用中，往往受到摄像头成像、光照、面部遮挡等因素的影响，造成识别能力下降，从而影响最终识别结果。特别在金融、安防等重要场景，错误的人脸识别结果可能造成不可估量的影响。因而如何训练出一个能精确提取人脸特征的卷积神经网络成为计算机视觉技术中心一个重要的研究课题。在卷积神经网络训练过程中，损失函数的选取对最终的特征提取能力有决定性的影响。为了提升人脸识别模型的判别性能，近年来一系列加入间隔抑制的余弦夹角损失函数，如A-Softmax，CosFace, ArcFace开始成为训练人脸识别模型的主流方法。这些余弦夹角损失函数的共同之处在于均使用了余弦角间隔和对余弦值尺度放大的方式进行模型训练，然而模型的余弦角间隔值和余弦值放大的尺度值需要在训练前预先确定。这两个参数对模型训练的最终结果有决定性的影响，过小的参数值会造成模型的判别能力变弱，而过大的参数值虽然有利于提升模型的最终能力，但在训练初期会导致模型难以收敛。目前主流的做法是在人脸识别模型的训练任务中针对不同的参数选取进行多组对比性实验，依据实验结果选取合适的参数取值。然而这种方式随机性大，而且随着训练数据的迭代变换，之前获取的最佳取值可能会不适用于新的数据与网络。在网络训练的过程中，训练早期模型性能较弱，需要较小的参数值来帮助模型快速收敛，而在训练后期模型性能逐渐增强，这时需要更大的参数值来加强模型的判别能力。

为了解决上述问题，如何设计一种随着网络训练进程自动更新参数的余弦夹角损失函数成为进一步提升人脸识别模型性能的一个重要方向。

发明内容

本发明的目的在于针对现有技术的不足，提出了一种实时更新余弦夹角损失函数参数的人脸识别方法，用于人脸识别模型的训练。摆脱了传统余弦夹角损失函数需要预先确定间隔值和尺度值的限制，该人脸识别方法适用于不同的人脸识别网络和数据集，并且能随着训练进程自适应地调节参数值，加速卷积神经网络的收敛，该方法的人脸识别能力更强。

本发明为实现上述目的，采用了以下技术方案：一种实时更新余弦夹角损失函数参数的人脸识别方法，包括以下步骤：

（1）收集人脸图像，并将人脸图像按个体进行分类，并按照分类的结果对每个人脸图像进行数据标注；

（2）将步骤（1）收集的人脸图像进行水平翻转、去噪、亮度增强和对比度增强处理后，得到人脸图像数据集，将所述人脸图像数据集分批；

（3）初始化余弦夹角损失函数的余弦值放大尺度和余弦夹角间隔，根据初始化的余弦值放大尺度和余弦夹角间隔，得到余弦夹角损失函数；

（4）将第一批人脸图像数据集输入卷积神经网络中进行人脸类别训练，根据所述卷积神经网络中Softmax层的输出的人脸图像的特征向量，计算每个人脸图像的特征向量与目标类别的特征向量的夹角，并获得夹角的中位数，同时更新余弦值放大尺度；随后计算每个人脸图像的特征向量与目标类别的特征向量和非目标类别的特征向量的余弦夹角指数值之和，并获得余弦夹角指数值之和的中位数，更新余弦夹角间隔；将更新的余弦值放大尺度和余弦夹角间隔分别与初始化的余弦值放大尺度和余弦夹角间隔进行比较，选取其中较大者作为更新的结果；

（5）分批将人脸图像数据集输入卷积神经网络中进行人脸类别训练，重复步骤（4），更新余弦值放大尺度和余弦夹角间隔，直至所述余弦夹角损失函数收敛，完成对卷积神经网络的训练；

（6）将需要进行比对判断的人脸图像输入训练好的卷积神经网络中，经卷积神经网络中Softmax层输出人脸图像的特征向量，求出与目标图像经过本网络提取出的特征向量的余弦夹角，所述余弦夹角的相似度超过阈值时，输出人脸识别匹配正确的结果。

进一步地，所述更新余弦值放大尺度的过程为：

其中，s为余弦值放大尺度，C为一批输入的人脸图像的类别数，

为夹角的中位数。

进一步地，所述更新余弦夹角间隔的过程为：

其中，m为余弦夹角间隔，

为余弦夹角指数值之和的中位数。

与现有技术相比，本发明的有益效果是：本发明的人脸识别方法中将余弦夹角损失函数的参数值与每一步训练输入的人脸图像直接联系，而与其他步训练所用的人脸图像无关，依据余弦值放大尺度s和余弦夹角间隔m实时更新余弦夹角损失函数，且该余弦夹角损失函数适用于各种人脸识别模型中。在卷积神经网络的训练中，

可以用来衡量卷积神经网络的收敛程度和性能，

越小表明卷积神经网络预测的类别与图像真实类别越接近。在训练初期，

的中位数

相对较大，余弦值放大尺度s和余弦夹角间隔m的值较小，有利于卷积神经网络的快速收敛；当训练到后期，

进一步缩小，而更新的余弦值放大尺度s和余弦夹角间隔m的值变大，强化余弦夹角损失函数

的监督信号，进而提升卷积神经网络人脸识别的判别性能。因此，本发明的人脸识别方法具有训练收敛速度快，识别准确率高的特点。

附图说明

图1为本发明实时更新余弦夹角损失函数参数的人脸识别方法的流程图。

具体实施方式

为使本发明的目的、技术方案更加清楚，下面结合附图对本发明作进一步说明。

如图1所示，本发明提供了一种实时更新余弦夹角损失函数参数的人脸识别方法流程图，所述人脸识别方法包括如下步骤：

（3）初始化余弦夹角损失函数的余弦值放大尺度s和余弦夹角间隔m，令

，

，所述余弦夹角损失函数

为：

其中， n为一批输入卷积神经网络的人脸图像的数量，i为n的索引，为目标类别的特征向量，j为非目标类别的特征向量，

为输入的第i张人脸图像的特征向量与

之间的夹角，

为输入的第i张人脸图像的特征向量与j之间的夹角，C为一批输入的人脸图像的类别数。

由于在模型训练起始阶段，模型权重为随机初始化的结果，因此尚未拥有人脸识别的能力，随着人脸图像不断输入训练才逐步提升人脸识别的能力，因此需要对训练所用的余弦值放大尺度s和余弦夹角间隔m进行初始化的操作，为模型训练提供一个较强的监督信号。本发明中余弦值放大尺度s和余弦夹角间隔m的初始化数值是以虚线夹角中位数为

，即45度作为标准。这样的初始化设定可以帮助模型在训练初期识别性能较弱的阶段进行快速收敛，且不至于因为初始设定夹角过小而难以收敛。

（4）将第一批人脸图像数据集输入卷积神经网络中进行人脸类别训练，根据所述卷积神经网络中Softmax层输出的人脸图像的特征向量，计算每个人脸图像的特征向量与

的夹角

，并获得

的中位数

，同时更新余弦值放大尺度

；随后计算每个人脸图像的特征向量与

与j的余弦夹角指数值之和

，并获得

的中位数

；根据

和

更新

，将更新的s和m的取值分别与初始化的s和m进行比较，选取其中较大者作为更新的结果。随着模型识别性能的增强，

是逐渐缩小的，而余弦值放大尺度s和余弦夹角间隔m的数值根据计算是随着

缩小而逐步增大。因此在更新余弦值放大尺度s和余弦夹角间隔m取值的时候，会与步骤（3）中初始化的s和m取值进行大小比较，当训练初始阶段，若本步计算的s和m取值小于步骤（3）初始化的取值时，仍然使用步骤（3）中初始化的值，以达到快速收敛的目的。随着训练进行，s和m的计算值超过初始化的阈值之后使用本步中计算的取值用于后续计算。这样的更新参数的方式即加速了模型的早期收敛，又帮助了模型在获得了一定识别能力以后能根据自身训练情况进一步提升性能。

（5）分批将人脸图像数据集输入卷积神经网络中进行人脸类别训练，重复步骤（4），更新余弦值放大尺度s和余弦夹角间隔m，用于余弦夹角损失函数

的计算，直至所述余弦夹角损失函数

收敛，完成对卷积神经网络的训练；

余弦值放大尺度s和余弦夹角间隔m的更新遵循最大化分类正确的样本的Softmax值以及使每步训练样本的

的中位值的分类概率等于0.5的规则得出的。其中最大化分类正确的样本的Softmax值可以让训练中已经正确分类的样本不再参与卷积神经网络的迭代，使得网络更关注样本中未分类正确的样本，从而提升分类性能。而每步训练样本的

的中位值的分类概率等于0.5则是为了使网络在训练所有阶段均保持学习的动能，在固定余弦值放大尺度s和余弦夹角间隔m的卷积神经网络训练中，训练前期，每步训练样本的

的中位值的分类概率趋近于0，使得卷积神经网络难以收敛，而随着训练进行到后期，每步训练样本的

的中位值的分类概率趋近于1，导致卷积神经网络学习进度停滞，通过采用固定分类概率等于0.5的策略有利于卷积神经网络在训练早期快速收敛，且在训练后期进一步提升性能。本发明的方法实现了在训练过程中依据本步训练数据在卷积神经网络中的输出实时更新余弦值放大尺度s和余弦夹角间隔m的功能，独立于其他步使用的数据，直接反应了卷积神经网络的实时性能。依据更新逻辑，s和m会通过训练进程逐渐增大，最终达到一个稳定值。

（6）将需要进行比对判断的人脸图像输入训练好的卷积神经网络中，经卷积神经网络中Softmax层输出人脸图像的特征向量，求出与目标图像经过本网络提取出的的特征向量的与余弦夹角，所述余弦夹角的相似度超过阈值时，输出人脸识别匹配正确的结果。所述阈值依据数据、场景以及误识率要求可以有多种取值，一般推荐取值范围为0.3-0.5之间以达到最佳识别效果。

表1为现有技术与本发明方法人脸识别准确率的比较，Id表示在一百万张干扰集照片下人脸认证Rank-1准确率，Ver表示在10^-6误识率下的正确率，本发明的人脸识别方法的Id达到80.02%，Ver达到94.18%，说明本发明增强了人脸识别模型的抗干扰能力，减少了误识别的情况发生，从而提升了人脸识别的准确率。

表1：现有技术与本发明方法人脸识别准确率的比较

Claims

1.一种实时更新余弦夹角损失函数参数的人脸识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述实时更新余弦夹角损失函数参数的人脸识别方法，其特征在于，所述更新余弦值放大尺度的过程为：

为夹角的中位数。

3.根据权利要求1所述实时更新余弦夹角损失函数参数的人脸识别方法，其特征在于，所述更新余弦夹角间隔的过程为：

其中，m为余弦夹角间隔，

为余弦夹角指数值之和的中位数。