CN111967392A

CN111967392A - 一种人脸识别神经网络训练方法、系统、设备及储存介质

Info

Publication number: CN111967392A
Application number: CN202010830795.4A
Authority: CN
Inventors: 杨英仪
Original assignee: Guangdong Electric Power Science Research Institute Energy Technology Co Ltd
Current assignee: Guangdong Electric Power Science Research Institute Energy Technology Co Ltd
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2020-11-20

Abstract

本发明公开了一种人脸识别神经网络训练方法、系统、设备及储存介质，方法包括以下步骤：获取人脸图像作为训练集与测试集，将人脸识别神经网络的损失函数与自适应附加损失函数相结合；将经过预处理的训练集输入到人脸识别神经网络中进行训练；将测试集输入到训练好的人脸识别神经网络中，验证训练好的人脸识别神经网络的识别准确率；本发明在对人脸识别神经网络进行训练时，将损失函数与自适应附加损失函数相结合得到最终损失函数，通过最终损失函数缩短了人脸图像进行分类时的类内距离，增加了分类时的类间距离，同时兼顾多样本类和少样本类的平衡，在样本分布不平衡时，能够保证人脸识别神经网络的泛化性能，提高人脸识别的准确率和可靠程度。

Description

一种人脸识别神经网络训练方法、系统、设备及储存介质

技术领域

本发明涉及图像识别领域，尤其涉及一种人脸识别神经网络训练方法、系统、设备及储存介质。

背景技术

人脸识别是近些年应用最为广泛的生物识别技术之一，在视频监控、身份确认、电子支付、刑侦案件等领域都有着越来越多的应用，随着应用场景越来越多，越来越复杂，人脸识别的速度和准确率显得越来越重要，不断提高人脸识别算法的速度和准确率是当前人工智能领域的研究热点之一。

目前人脸识别应用场景越来越复杂，数据越来越多，人们对人脸识别算法的准确率要求也越来越高。影响人脸识别效果的因素有很多，例如距离、表情、光照、遮挡，一个好的人脸识别算法应该能够应对各种场景，传统的图像识别算法已经无法满足，只有利用深度神经网络才能解决该问题。通常情况下，影响一个深度神经网络效果因素有三个——样本、网络结构、损失函数。由于样本和网络结构在该领域已经较为成熟，因此从损失函数角度进行优化就成为提高算法性能的一个重要方向。关于损失函数对网络的影响，最直观的就是通过计算损失反向传播来实现对模型参数的更新，不同的损失函数可以使模型更加侧重于学习到数据某一方面的特性，并在之后能够更好地提取到这一“独有”特征，因此损失函数对于网络优化有导向性作用。近年来优化损失函数对人脸识别的最终效果有很大帮助，从CenterLoss的提出，到SphereFace，ArcFace，更合适的损失函数能够对算法的最终效果有显著影响。

传统的损失函数Softmax主要考虑是否能够正确的分类，缺乏类内和类间距的约束，导致算法在人脸识别场景中效果并不理想。基于此，前人提出了多种优化方法，比较重要的有CenterLoss、SphereFace、ArcFace等。CenterLoss为每一个类别提供一个类别中心，并最小化各个样本与各自的类别中心之间的距离；SphereFace在Softmax基础上将权重归一化，并试图从角度上去区分不同类别；ArcFace用角度距离替换了余弦距离，强化了其对角度的影响，使得准确率有了更进一步的提升。这些损失函数主要都是基于增大不同类别之间的特征边界来增强识别能力的，它们有一个隐含的假设，即所有类的样本分布都相同。然而，现有数据中存在着严重的样本不平衡问题。对于那些样本丰富且类别内部差异较大的类，现有训练样本所在空间可以代表其所有样本的真实分布，但是对于那些样本很少的类，现有样本所在空间可能只是此类真实分布的一小部分。因此，当为所有类设置统一的margin时，少样本类的特征分布可能不会像大样本类那样紧凑，从而导致泛化性能不好，使得训练出来的人脸识别神经网络对人脸识别的准确率较低。

综上所述，现有技术中人脸识别神经网络时所采用的损失函数，只适用于所有类的样本分布都相同的情况，当样本分布不平衡时，训练出来的人脸识别神经网络存在着人脸识别的准确率较低的技术问题。

发明内容

本发明提供了一种人脸识别神经网络训练方法、系统、设备及储存介质，用于解决现有技术中人脸识别神经网络时所采用的损失函数，只适用于所有类的样本分布都相同的情况，当样本分布不平衡时，训练出来的人脸识别神经网络存在着人脸识别的准确率较低的技术问题。

本发明提供的一种人脸识别神经网络训练方法，包括以下步骤：

获取标注有人物身份的人脸图像，将获取到的人脸图像划分为训练集与测试集，对训练集进行预处理；

构建人脸识别神经网络，设置人脸识别神经网络的参数及其损失函数，将人脸识别神经网络的损失函数与自适应附加损失函数相结合，得到最终损失函数；

将经过预处理的训练集输入到包含有最终损失函数的人脸识别神经网络中进行训练，对人脸识别神经网络进行循环迭代训练使最终损失函数不断减小，直至达到预设的迭代次数或损失函数达到预设的期望值为止，得到训练好的人脸识别神经网络；

将测试集输入到训练好的人脸识别神经网络中，验证训练好的人脸识别神经网络的识别准确率；

其中，自适应附加损失函数的具体公式为：

其中，L_adaptive为自适应附加损失函数；i为训练集中人脸图像的序号，m为人脸识别神经网络的梯度下降批次尺寸，j为训练集中人脸图像的类别，n为训练集中人脸图像的类别数量，S为尺度因子，θ_j为训练集中人脸图像的特征向量与类别j的模板向量之间的夹角，θ_yi为训练集中人脸图像所属类别的模板向量与类别j的模板向量之间的夹角。

优选的，对训练集进行预处理的具体过程为：

对训练集进行过滤，删除训练集中含有噪音的人脸图像；

对经过过滤后的训练集中的每一张人脸图像进行人脸对齐操作。

优选的，对训练集进行过滤，删除含有噪音的人脸图像的具体过程为：

将训练集转换为高维特征空间，将训练集中的每一张人脸图像转换为高维特征空间中一个点；针对每一个人物身份，计算该人物身份所对应的人脸图像在高维特征空间中的平均中心点，计算该人物身份所对应的每一张人脸图像到平均中心点的距离，对距离进行标准化，将标准化后的距离大于1.5的人脸图像删除。

优选的，构建人脸识别神经网络，设置人脸识别神经网络的参数及其损失函数的具体过程为：

构建人脸识别神经网络，设置人脸识别神经网络的梯度下降批次尺寸、初始学习率、迭代次数、动量以及权重衰减；以CenterLoss、SphereFace、ArcFace中的任意一个作为人脸识别神经网络的损失函数。

优选的，基于LResNet100E-IR网络构建人脸识别神经网络。

优选的，将人脸识别神经网络的损失函数与自适应附加损失函数相结合，得到最终损失函数的具体过程为：

将人脸识别神经网络的损失函数与自适应附加损失函数相加，得到最终损失函数。

优选的，将测试集输入到训练好的人脸识别神经网络中，对训练好的人脸识别神经网络验证的具体过程为：

将测试集输入到训练好的人脸识别神经网络中，得到测试集中每一张人脸图像的人脸识别结果，判断人脸识别结果与图像上标注的人物身份是否一致。

一种人脸识别神经网络训练系统，包括图像获取模块、图像预处理模块、人脸识别神经网络模块、训练模块以及测试模块；

图像获取模块用于获取标注有人物身份的人脸图像，将获取到的人脸图像划分为训练集与测试集，对训练集进行预处理；

图像预处理模块用于构建人脸识别神经网络，设置人脸识别神经网络的参数及其损失函数，将人脸识别神经网络的损失函数与自适应附加损失函数相结合，得到最终损失函数；

训练模块用于将经过预处理的训练集输入到包含有最终损失函数的人脸识别神经网络中进行训练，对人脸识别神经网络进行循环迭代训练使最终损失函数不断减小，直至达到预设的迭代次数或损失函数达到预设的期望值为止，得到训练好的人脸识别神经网络；

测试模块用于将测试集输入到训练好的人脸识别神经网络中，验证训练好的人脸识别神经网络的识别准确率。

一种设备，包括处理器以及存储器；

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行上述的一种人脸识别神经网络训练方法

一种存储介质，所述存储介质中保存有与上述的一种人脸识别神经网络训练相对应的程序代码。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例通过构建人脸识别神经网络，在对人脸识别神经网络进行训练时，将人脸识别神经网络的损失函数与自适应附加损失函数相结合，得到最终损失函数，通过最终损失函数缩短了人脸图像进行分类时的类内距离，增加了分类时的类间距离，同时兼顾多样本类和少样本类的平衡，在样本分布不平衡时，能够保证人脸识别神经网络的泛化性能，进一步提高人脸识别的准确率和可靠程度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种人脸识别神经网络训练方法、系统、设备及储存介质的方法流程图。

图2为本发明实施例提供的一种人脸识别神经网络训练方法、系统、设备及储存介质的系统框架图。

图3为本发明实施例提供的一种人脸识别神经网络训练方法、系统、设备及储存介质的设备框架图。

具体实施方式

本发明实施例提供了一种人脸识别神经网络训练方法、系统、设备及储存介质，用于解决现有技术中人脸识别神经网络时所采用的损失函数，只适用于所有类的样本分布都相同的情况，当样本分布不平衡时，训练出来的人脸识别神经网络存在着人脸识别的准确率较低的技术问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1

请参阅图1，图1为本发明实施例提供的一种人脸识别神经网络训练方法、系统、设备及储存介质的方法流程图。

本发明实施例提供的一种人脸识别神经网络训练方法，包括以下步骤：

从网络中获取大量标注有人物身份的人脸图像，将获取到的人脸图像作为训练集，从获取到的人脸图像中随机选取1％作为测试集；将获取到的人脸图像划分为训练集和测试集以便于后续对人脸识别神经网络进行训练和测试；在获取到训练集之后，为了降低训练集中的噪音，需要对训练集进行预处理，从而获得高质量的训练数据；

构建人脸识别神经网络，在构建好人脸识别神经网络后，对人脸识别神经网络的参数以及损失函数进行设置，其中，从CenterLoss、SphereFace、ArcFace中的任意一个作为人脸识别神经网络的损失函数，将人脸识别神经网络的损失函数与自适应附加损失函数相结合，得到最终损失函数；

其中，自适应附加损失函数的具体公式为：

其中，L_adaptive为自适应附加损失函数；i为训练集中人脸图像的序号，m为人脸识别神经网络的梯度下降批次尺寸，j为训练集中人脸图像的类别，n为训练集中人脸图像的类别数量，S为尺度因子，θ_j为训练集中人脸图像的特征向量与类别j的模板向量之间的夹角，

为训练集中人脸图像所属类别的模板向量与类别j的模板向量之间的夹角。

需要进一步说明的是，当人脸图像分类时的类间距离变小的时候，分子项会自适应变大，导致损失函数变大，从而在对人脸识别神经网络训练的过程中，通过降低损失函数的值来增加人脸图像分类时的类间距离，并且由于该形式为正则化，可以附加于CenterLoss、SphereFace、ArcFace中的任意一种损失函数。

将经过预处理的训练集输入到包含有最终损失函数的人脸识别神经网络中进行训练，训练的包括正向传播和反向传播两个过程，通过反向传播过程更新人脸识别神经网络各神经元的权值参数，人脸识别神经网络的学习在权值参数的更新中完成；对人脸识别神经网络进行循环迭代训练使最终损失函数不断减小，直至达到预设的迭代次数或损失函数达到预设的期望值为止，得到训练好的人脸识别神经网络；

将测试集输入到训练好的人脸识别神经网络中，验证训练好的人脸识别神经网络的识别准确率。

实施例2

如图1所示，本发明实施例提供的一种人脸识别神经网络训练方法，包括以下步骤：

从网络中获取大量标注有人物身份的人脸图像，将获取到的人脸图像作为训练集；在本实施例中，以MS-Celeb-1M数据集为训练集，该数据集包含大约10万个身份的1000万张图像；从获取到的人脸图像中随机选取1％作为测试集；将获取到的人脸图像划分为训练集和测试集以便于后续对人脸识别神经网络进行训练和测试；在获取到训练集之后，为了降低训练集中的噪音，需要对训练集进行预处理，从而获得高质量的训练数据；

需要进一步说明的是，对训练集进行预处理的具体过程为：

对经过过滤后的训练集中的每一张人脸图像进行人脸对齐操作，具体过程如下；

从经过过滤后的训练集中的每一张人脸图像中提取出人脸的特征点，人脸的特征点一般为人脸轮廓以及人脸五官的位置，在提取出特征点后，对人脸图像进行对齐，将人脸图像中的人脸摆正，例如使得每张人脸图像中人脸的鼻子位于同一水平线上，从而消除不同姿势所带来的误差。

基于LResNet100E-IR网络构建人脸识别神经网络，在构建好人脸识别神经网络后，对人脸识别神经网络的参数以及损失函数进行设置，将人脸识别神经网络的梯度下降的批次尺寸设置为512，初始学习率设置为0.1，总迭代次数设置为300k，设定动量为0.9，权重衰减为5^-4。其中，批次尺寸即Batch Size，一次训练所选取的人脸图像数目。学习率：梯度下降法中一个超参，即梯度更新的步长，是神经网络中最重要的超参之一。动量：动量梯度下降法是对梯度下降法的改良版本，动量是动量梯度下降法中一个超参。权重衰减：即L2正则化，目的是为了在一定程度上缓解模型过拟合的问题。

从CenterLoss、SphereFace、ArcFace中的任意一个作为人脸识别神经网络的损失函数，将人脸识别神经网络的损失函数与自适应附加损失函数相加，得到最终损失函数；

其中，自适应附加损失函数的具体公式为：

例如，将ArcFace与自适应附加损失函数结合，引入超参数α，得到以下形式：

其中，L_ArcFace为ArcFace的损失函数，α为平衡两者之间关系的超参数，在本实施例中，α的取值为0.1或0.5。

需要进一步说明的是，当人脸图像分类时的类间距离变小的时候，分子项会自适应变大，导致损失函数变大，从而在对人脸识别神经网络训练的过程中，通过降低损失函数的值来增加人脸图像分类时的类间距离，并且由于该形式为正则化，能够附加于CenterLoss、SphereFace、ArcFace中的任意一种损失函数。

以MxNet为工具，将经过预处理的训练集输入到包含有最终损失函数的人脸识别神经网络中进行训练，学习率刚开始为0.1，在神经网络迭代至100k、150k以及200k次时分别取0.01、0.001以及0.0001，以逐渐缩小梯度更新的步长，使损失函数达到最低。

需要进一步说明的是，训练包括正向传播和反向传播两个过程，正向传播的过程如下：

将经过预处理的训练集中的每一张人脸图像输入到人脸识别神经网络后，人脸识别神经网络中的卷积层从人脸图像中提取出人脸图像的特征向量，全连接层根据人脸图像的特征向量计算训练集与预设的类别的模板之间的相似度，根据相似度对训练集中的每一张人脸图像进行分类并传输到输出层中进行输出，如果在输出层得不到期望的输出值，则取输出值与期望值的偏差作为目标函数(即构造的损失函数)，开始反向传播，逐层求出目标函数对各神经元权值的偏导数，构成目标函数对权值向量的梯量，作为修改权值的依据，人脸识别神经网络的学习在权值修改过程中完成，迭代次数达到预设值或者误差达到所期望值时，人脸识别神经网络学习结束，即训练完毕。

将测试集输入到训练好的人脸识别神经网络中，得到测试集中每一张人脸图像的人脸识别结果，判断人脸识别结果与图像上标注的人物身份是否一致，在本实施例中验证得到的结果如表1所示。

表1

实施例3

如图2所示，一种人脸识别神经网络训练系统，包括图像获取模块201、图像预处理模块202、人脸识别神经网络模块203、训练模块204以及测试模块205；

图像获取模块201用于获取标注有人物身份的人脸图像，将获取到的人脸图像划分为训练集与测试集，对训练集进行预处理；

图像预处理模块202用于构建人脸识别神经网络，设置人脸识别神经网络的参数及其损失函数，将人脸识别神经网络的损失函数与自适应附加损失函数相结合，得到最终损失函数；

训练模块203用于将经过预处理的训练集输入到包含有最终损失函数的人脸识别神经网络中进行训练，对人脸识别神经网络进行循环迭代训练使最终损失函数不断减小，直至达到预设的迭代次数或损失函数达到预设的期望值为止，得到训练好的人脸识别神经网络；

测试模块204用于将测试集输入到训练好的人脸识别神经网络中，验证训练好的人脸识别神经网络的识别准确率。

如图3所示，一种设备30，所述设备包括处理器300以及存储器301；

所述存储器301用于存储程序代码302，并将所述程序代码302传输给所述处理器；

所述处理器300用于根据所述程序代码302中的指令执行上述的一种人脸识别神经网络训练方法中的步骤。

示例性的，所述计算机程序302可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器301中，并由所述处理器300执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序302在所述终端设备30中的执行过程。

所述终端设备30可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器300、存储器301。本领域技术人员可以理解，图3仅仅是终端设备30的示例，并不构成对终端设备30的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器300可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-ProgrammaBle Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器301可以是所述终端设备30的内部存储单元，例如终端设备30的硬盘或内存。所述存储器301也可以是所述终端设备30的外部存储设备，例如所述终端设备30上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器301还可以既包括所述终端设备30的内部存储单元也包括外部存储设备。所述存储器301用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器301还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种人脸识别神经网络训练方法，其特征在于，包括以下步骤：

其中，自适应附加损失函数的具体公式为：

2.根据权利要求1所述的一种人脸识别神经网络训练方法，其特征在于，对训练集进行预处理的具体过程为：

对训练集进行过滤，删除训练集中含有噪音的人脸图像；

3.根据权利要求2所述的一种人脸识别神经网络训练方法，其特征在于，对训练集进行过滤，删除含有噪音的人脸图像的具体过程为：

4.根据权利要求1所述的一种人脸识别神经网络训练方法，其特征在于，构建人脸识别神经网络，设置人脸识别神经网络的参数及其损失函数的具体过程为：

5.根据权利要求4所述的一种人脸识别神经网络训练方法，其特征在于，基于LResNet100E-IR网络构建人脸识别神经网络。

6.根据权利要求1所述的一种人脸识别神经网络训练方法，其特征在于，将人脸识别神经网络的损失函数与自适应附加损失函数相结合，得到最终损失函数的具体过程为：

7.根据权利要求1所述的一种人脸识别神经网络训练方法，其特征在于，将测试集输入到训练好的人脸识别神经网络中，对训练好的人脸识别神经网络验证的具体过程为：

8.一种人脸识别神经网络训练系统，其特征在于，包括图像获取模块、图像预处理模块、人脸识别神经网络模块、训练模块以及测试模块；

9.一种设备，其特征在于，包括处理器以及存储器；

所述处理器用于根据所述程序代码中的指令执行权利要求1～7任一项所述的一种人脸识别神经网络训练方法。

10.一种存储介质，其特征在于，所述存储介质中保存有与权利要求1至7任意一项所述的一种人脸识别神经网络训练相对应的程序代码。