CN113111781A

CN113111781A - 一种基于Sigmoid函数的分类层监督用于人脸识别的方法

Info

Publication number: CN113111781A
Application number: CN202110397616.7A
Authority: CN
Inventors: 李春国; 胡超; 杨绿溪
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2021-07-13

Abstract

本发明公开了一种基于Sigmoid函数的分类层监督用于人脸识别的方法，属于计算机视觉领域。本发明基于Sigmoid非线性函数和Softmax分类层监督两个方面提出了一种可用于训练人脸识别深度神经网络的损失函数。该方法适用于当前以深度神经网络为基础的人脸识别网络训练。在公开数据集上的实验表明，使用本发明作为损失函数训练得到的人脸识别网络具有较高的人脸识别准确率，在侧脸拍摄、强弱光照射等极端场景中也具有较强的人脸识别能力。

Description

一种基于Sigmoid函数的分类层监督用于人脸识别的方法

技术领域

本发明涉及计算机视觉领域，尤其是一种基于Sigmoid函数的分类层监督用于人脸识别的方法。

背景技术

自从21世纪以来，人脸识别技术就一直是计算机视觉领域的一个热点研究问题，在安防、民生、交通等领域应用广泛。在当下以深度神经网络为基础的人脸识别技术研究中，网络结构优化和损失函数优化是两个主要的研究方向。网络结构的优化主要着眼于人脸识别任务中特征提取网络如何能够提取到更有效的人脸特征，这些特征包括低级的轮廓、颜色等特征，也包括高级的富含有丰富语意信息的特征。网络结构的优化可以带来人脸识别准确率的提升，但是可能存在网络整体参数量和计算量变大的缺点。损失函数的优化主要着眼于人脸识别任务中训练人脸识别网络时的分类层监督，一般的分类层监督是指使用全连接层作为分类层时为网络引入的“代价”，典型的分类层监督是Softmax分类层监督，在深度神经网络发展的初期被广泛应用于各种图像分类任务，且具有不错的表现。损失函数的优化也可以带来人脸识别准确率的提升，并且由于分类层监督只存在于网络训练阶段，即使非常复杂的分类层监督在网络推理阶段也是没有任何代价的。

当前主流的人脸识别网络分类层监督一般以Softmax损失函数为基础。Softmax损失函数将分类层得到的每一个输出视为每一个类别的未归一化的对数概率，并且将线性分类器SVM中的折叶损失替换为交叉熵损失。从信息论的角度来看，Softmax损失函数最小化了预测概率分布和真实概率分布之间的交叉熵，其中真实概率分布是指所有概率密度都分布在正确的类别上。从概率论的角度来看，Softmax损失函数最小化了正确分类的负对数概率，本质上是最大似然估计。事实上，在深度神经网络中Softmax损失函数的正则化部分可以看作权重矩阵的高斯先验，网络在推理过程中进行了最大后验估计，这符合分类网络设计的初衷。因此，Softmax分类层监督用于图像分类等任务是合适的。

使用Softmax分类层监督训练得到的图像分类网络可以准确分类多达上千类的自然图像，但是却不能直接应用于人脸识别网络。Softmax损失函数只关注分类正确的类别，对分类错误的类别没有优化，因此使用Softmax损失函数训练得到的特征类内距离不够紧凑，类间距离不够远离。在人脸识别这一特殊场景中，由于不同人脸在不同环境下的特征向量可能非常接近，也可能差异较大，因此，人脸识别任务需要特征具有“类内距离紧凑，类间距离远离”这一特性。为了解决Softmax分类层监督无法直接应用于人脸识别网络这一问题，研究人员显式引入了一个基于度量学习的角度裕量，在网络训练优化的过程中人为压缩同一类别的特征向量之间的距离，扩大不同类别的特征向量之间的距离，使得训练得到的网络的输出端输出的特征具有“类内距离紧凑，类间距离远离”这一特性。

发明内容

发明目的：为解决上述在人脸识别过程中Softmax分类层监督存在的问题，本发明设计了一种基于Sigmoid函数的分类层监督，该损失函数具有较强的非线性表达能力，使用该损失函数训练得到的人脸识别网络具有较高的人脸识别准确率。

为达到上述目的，本发明提供了一种基于Sigmoid函数的分类层监督用于人脸识别的方法，包含以下步骤：

步骤1，以原始的Softmax损失函数作为分类层监督的基础。

原始的Softmax损失函数的一般形式为：

其中，N表示batchsize的大小，n表示总共的类别数目。

步骤2，在原始Softmax损失函数的基础上引入角度裕量，角度裕量直接作用于特征夹角，并归一化特征；

步骤3，为步骤2得到的损失函数引入Sigmoid非线性变换，得到耦合了Sigmoid非线性变换后的损失函数，即基于Sigmoid函数的分类层监督。

步骤4，根据步骤3得到的基于Sigmoid函数的分类层监督，在训练数据集上训练人脸识别网络，直到网络收敛，形成训练好的人脸识别网络。

步骤5，将训练好的人脸识别网络用于人脸识别。

进一步的，所述步骤2具体为，在原始Softmax损失函数的基础上引入第一角度裕量m₁，第一角度裕量m₁直接作用于特征夹角，并归一化特征；经过上述操作后的Softmax损失函数的一般形式为：

其中，第一角裕量m₁＝4。

在原始Softmax损失函数的基础上引入第一角度裕量，第一角度裕量直接作用于特征夹角，并归一化特征。归一化特征可以将光照因素建模到神经网络中，从而减小数据预处理部分的压力。第一角度裕量的引入可以使得不同物体之间的类内距离更加紧凑，类间距离更加远离

所述步骤3具体为，为步骤2得到的损失函数分别引入Sigmoid非线性变换,得到损失函数为：

进一步的，所述步骤2还可以是，在原始Softmax损失函数的基础上引入第二个角度裕量m₂，第二角度裕量m₂直接作用于特征夹角，并归一化特征和权重向量；经过上述操作后的Softmax损失函数的一般形式为：

归一化特征可以将光照因素建模到神经网络中，从而减小数据预处理部分的压力。归一化权重向量可以减小除特征本身外的因素对高维向量分类的影响。第二角度裕量的引入可以使得不同物体之间的类内距离更加紧凑，类间距离更加远离。

所述步骤3具体为，对步骤2得到的损失函数引入Sigmoid非线性变换后，得到的损失函数为：

进一步的，步骤3还包括，将已经引入了Sigmoid非线性变换后得到的损失函数loss_sig1和损失函数loss_sig2进行加权组合，得到所述基于Sigmoid函数的分类层监督。所述基于Sigmoid函数的分类层监督的一般形式为：

其中，λ为加权系数，m₁和m₂分别为第一角裕量和第二角裕量。

有益效果：本发明基于Sigmoid非线性函数和Softmax分类层监督两个方面提出了一种可用于训练人脸识别深度神经网络的损失函数，属于计算机视觉领域。该方法适用于当前以深度神经网络为基础的人脸识别网络训练。在公开数据集上的实验表明，使用本发明作为损失函数训练得到的人脸识别网络具有较高的人脸识别准确率，在侧脸拍摄、强弱光照射等极端场景中也具有较强的人脸识别能力。

附图说明

图1为引入第一角度裕量和第二角度裕量所得损失函数的决策边界示意图。

图2为本发明的决策边界示意图。

图3为测试准确率与裕量大小关系图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步详细描述：

本发明提出了一种基于Sigmoid函数的分类层监督，旨在为人脸识别网络训练过程中的损失函数引入更强的非线性表达能力，从而提高人脸识别网络的人脸识别准确率。

本发明的具体实施方式如下：

步骤1，以原始的Softmax损失函数作为本发明的基础。Softmax损失函数一般用于分类网络中，作为分类层的监督。使用Softmax损失函数训练得到的分类网络可以有效处理二分类和多分类等各种常见图像分类问题。因此，Softmax损失函数是当前各种不同类型的分类层监督的设计基础。原始的Softmax损失函数的一般形式为：

其中，N表示batchsize的大小，n表示总共的类别数目。以Softmax在二分类问题中的应用为例，决策边界上的样本点被分类器划分为两个类别的概率需要相等。为了表达简洁，以下将列向量的转置省略不写。对于某一样本x而言，它被Softmax分类器划分为类别1的概率为：

被划分为类别2的概率为：

上式W₁，W₂和b₁，b₂分别表示对应于不同类别的权重。决策边界将使得P₁＝P₂，因此可以得到二分类问题中Softmax的决策边界如下：

可以发现，Softmax损失函数的决策边界是线性的，使用其作为分类层监督缺少一定的非线性表达能力。

步骤2，在原始Softmax损失函数的基础上引入第一角度裕量和第二角度裕量。

步骤2.1，在原始Softmax损失函数的基础上引入第一角度裕量，第一角度裕量直接作用于特征夹角，并归一化特征。归一化特征可以将光照因素建模到神经网络中，从而减小数据预处理部分的压力。第一角度裕量的引入可以使得不同物体之间的类内距离更加紧凑，类间距离更加远离。经过上述操作后的Softmax损失函数的一般形式为：

步骤2.2，在原始Softmax损失函数的基础上引入第二角度裕量，第二角度裕量直接作用于特征夹角，并归一化特征和权重向量。归一化特征可以将光照因素建模到神经网络中，从而减小数据预处理部分的压力。归一化权重向量可以减小除特征本身外的因素对高维向量分类的影响。第二角度裕量的引入可以使得不同物体之间的类内距离更加紧凑，类间距离更加远离。经过上述操作后的Softmax损失函数的一般形式为：

步骤3，为步骤2得到的损失函数分别引入Sigmoid非线性变换。Sigmoid函数是一种典型的非线性函数，其一般形式为：

其一阶导数的一般形式为：

对步骤2得到的损失函数引入Sigmoid非线性变换后，得到的损失函数分别为：

可以发现，Sigmoid函数在实数域0处具有较大的一阶导数，在实数域正负无穷处导数为0。Sigmoid函数可以为以Softmax损失函数为基础的分类层监督引入更强的非线性表达能力。图1给出了步骤2所得到的损失函数的决策边界，可以发现引入第一角度裕量得到的损失函数在向量的夹角较小时的分辨能力较弱，引入第二角度裕量得到的损失函数也只是在向量夹角的余弦域具有线性区分能力。图2给出了Sigmoid非线性变换后的步骤2中的损失函数的决策边界，可以发现，Sigmoid非线性变换的引入增强了损失函数在向量夹角为0处的区分能力。

步骤4，将已经引入了Sigmoid非线性变换后的步骤3得到的损失函数进行加权组合，得到本发明的基于Sigmoid函数的分类层监督。所述基于Sigmoid函数的分类层监督最终的一般形式为：

其中，λ为加权系数，m₁和m₂为裕量，在本发明中取m₁＝4。

步骤5，根据步骤4得到的基于Sigmoid函数的分类层监督，在训练数据集上训练不同的人脸识别网络，直到网络收敛，形成训练好的人脸识别网络。使用MegaFace人脸识别数据集对以本发明为损失函数的人脸识别网络进行训练，并且在训练时关注损失函数的变化和不同训练轮数时训练集和验证集上的准确率，在网络刚达到收敛时停止训练，防止欠拟合和过拟合。

步骤6，将收敛的网络在测试数据集上进行测试。使用训练好的本发明在MegaFace、LFW、YTF、CFP、AgeDB人脸识别数据集上进行测试，测试流程需要符合上述人脸识别数据集的标准测试协议。

步骤7，将训练好的人脸识别网络用于人脸识别。

本实施例中还根据人脸识别准确率这一指标，分析比较本发明相较于其他人脸识别分类层监督的优势。图3给出了本发明中测试准确率和裕量之间的关系，可以发现，当第二裕量m₂为0.35时，使用本发明作为损失函数训练得到的人脸识别网络具有最高的人脸识别准确率。为了探究本发明与其他分类层监督的性能差异，使用ResNet50为特征提取网络，在MegaFace，LFW和YTF人脸识别数据集上测试使用本发明和其他不同分类层监督训练得到的人脸识别网络的人脸识别准确率，实验结果如表1所示，可以发现本发明在上述三种数据集上较其他的分类层监督有着最高的人脸识别准确率。为了探究本发明在侧脸拍摄、强弱光照射等极端场景下的性能，使用ResNet101作为特征提取网络，在CFP和AgeDB人脸识别数据集上测试使用本发明和其他不同分类层监督训练得到的人脸识别网络的人脸识别准确率，实验结果如表2所示，可以发现本发明在上述两种数据集上较其他的分类层监督有着最高的人脸识别准确率。

表1不同监督下人脸识别准确率(％)

表2不同监督下CFP和AgeDB数据集上人脸识别准确率(％)

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作任何其他形式的限制，而依据本发明的技术实质所作的任何修改或等同变化，仍属于本发明所要求保护的范围。

Claims

1.一种基于Sigmoid函数的分类层监督用于人脸识别的方法，其特征在于，包括如下步骤：

步骤1，以原始的Softmax损失函数作为分类层监督的基础；

原始的Softmax损失函数的一般形式为：

其中，N表示batchsize的大小，n表示总共的类别数目；

步骤3，为步骤2得到的损失函数引入Sigmoid非线性变换,得到基于Sigmoid函数的分类层监督；

步骤4，根据步骤3得到的基于Sigmoid函数的分类层监督，在训练数据集上训练人脸识别网络，直到网络收敛，形成训练好的人脸识别网络；

步骤5，将训练好的人脸识别网络用于人脸识别。

2.根据权利要求1所述一种基于Sigmoid函数的分类层监督用于人脸识别的方法，其特征在于，所述步骤2具体为，在原始Softmax损失函数的基础上引入第一角度裕量m₁，第一角度裕量m₁直接作用于特征夹角，并归一化特征；经过上述操作后的Softmax损失函数的一般形式为：

3.根据权利要求1或2所述一种基于Sigmoid函数的分类层监督用于人脸识别的方法，其特征在于，所述步骤2还可以是，在原始Softmax损失函数的基础上引入第二个角度裕量m₂，第二角度裕量m₂直接作用于特征夹角，并归一化特征和权重向量；经过上述操作后的Softmax损失函数的一般形式为：

4.根据权利要求3所述一种基于Sigmoid函数的分类层监督用于人脸识别的方法，其特征在于，步骤3还包括，将已经引入了Sigmoid非线性变换后得到的损失函数loss_sig1和损失函数loss_sig2进行加权组合，得到所述基于Sigmoid函数的分类层监督；所述基于Sigmoid函数的分类层监督的一般形式为：

5.根据权利要求2所述一种基于Sigmoid函数的分类层监督用于人脸识别的方法，其特征在于，第一角裕量m₁＝4。

6.根据权利要求3所述一种基于Sigmoid函数的分类层监督用于人脸识别的方法，其特征在于，第二角裕量m₂＝0.35。