CN111401257B

CN111401257B - 一种基于余弦损失在非约束条件下的人脸识别方法

Info

Publication number: CN111401257B
Application number: CN202010188585.XA
Authority: CN
Inventors: 董恩增; 乔逸凡; 佟吉钢; 于航; 张达
Original assignee: Tianjin University of Technology
Current assignee: Tianjin University of Technology
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2022-10-04
Anticipated expiration: 2040-03-17
Also published as: CN111401257A

Abstract

本发明属于图像处理技术领域，具体涉及一种基于余弦损失非约束条件人脸识别方法。一种基于余弦损失非约束条件人脸识别方法，它包括以下步骤，S1、获取待识别图像，对待识别图像进行多尺度变换，得到图像金字塔；S2、将步骤S1得到的图像金字塔输入到MTCNN网络，MTCNN网络对图像进行处理后，得到面部特征点；S3、根据步骤S2的面部特征点，进行人脸校正；S4、利用步骤S3处理后的数据训练Inception‑ResnetV1卷积神经网络，采用余弦损失函数作为监督信号，进行分类器模型的训练，得到特征提取模型，利用该特征提取模型进行人脸数据的验证与识别。

Description

一种基于余弦损失在非约束条件下的人脸识别方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于余弦损失非约束条件人脸识别方法。

背景技术

人脸识别是身份认证的重要生物识别技术，已广泛应用于军事、金融、公共安全和日常生活等领域。尽管在人脸方面的研究已经长达五十年之久，但是仍会因为自然因素的影响，例如光照强度不同，人脸姿态表情的变化，面部的部分遮挡以及年龄等多种外在因素的影响。人脸识别技术主要是通过人脸的面部几何特征来进行身份的一种认证。就姿态问题，如头部在因为脸部的旋转导致面部特征信息的丢失，而当前的识别算法应用中，主要针对正面和准正面的人脸信息图像才可以进行较快的信息识别，当面部信息采如图像时出现了仰视或者俯视等侧脸比较严重的情况之下，识别的准确率会出现很大的下降。因而当前人类就针对这种不受约束情况下的识别进行。

随着深度学习展现了图像识别方面强大的学习能力后，基于这种深层卷积神经网络在人脸识别方面的效果取得了巨大的突破，研究重点由此转向深度学习的方法。随着特征通道变得越来越宽，网路层数变得更加深，LFW识别结果得到很大提升。在本申请中，提出了一个统一的人脸识别系统。通过一个深度卷积网络在每个图像上学习余弦距离下的人脸特征。该网络经过训练，使得特征空间的余弦距离直接对应人脸的相似度，即同一个人的人脸余弦距离小，不同人脸的余弦距离较大。基于人脸识别的识别难度方法一般分为一对一人脸验证和一对多的人脸识别，由于数据库对模型训练和测试至关重要，如LFW、IJBA/B/C、Megaface和MS-Celeb-1M等，这些数据主要针对四个方面进行比较与应用：训练网络、评估指标、识别场景及训练和测试Deep FR提供有用的参考。自2014年起，DeepFace采用多层CNN网络模型做训练，在LFW测试精度达到97.35％。2015年，FaceNet使用大型私有数据集来训练Inception的网络结构，并使用基于Triplet Loss损失算法的目标函数作监督，在LFW上获得了高达99.63％的测评结果，针对数据样本缺少以及数据匹配挖掘的问题，提出了一种基于余弦角度改进的损失函数(L-softmax)，随后在为专门针对移动设备上设计的网络模型，可以实现快速的下采样与识别，提出了如SqueezeNet，MobileNet，ShuffleNet和Xception等一些轻量级卷积网络模型。

发明内容

本发明针对现有技术对人脸识别精度不足之处进行了优化，提出一种基于余弦损失非约束条件人脸识别方法。通过对MTCNN算法进行了改进，本发明在网络模型训练效果和识别精度都有明显的提升，尤其在基于非控制条件下的人脸识别有着更好的泛化能力和更强的实用性。

为实现上述目的，本发明采用如下技术方案：

一种基于余弦损失非约束条件人脸识别方法，它包括以下步骤，

S1、获取待识别图像，对待识别图像进行多尺度变换，得到图像金字塔；

S2、将步骤S1得到的图像金字塔输入到MTCNN网络，MTCNN网络对图像进行处理后，得到面部特征点；

S3、根据步骤S2的面部特征点，进行人脸校正；

S4、利用步骤S3处理后的数据训练Inception-ResnetV1卷积神经网络，采用余弦损失函数作为监督信号，进行分类器模型的训练，得到特征提取模型，利用该特征提取模型进行人脸数据的验证与识别。

本技术方案进一步的优化，步骤S3中人脸校正如下，根据面部特征点，进行人脸倾斜的仿射变换，将人脸进行向右倾斜的公式如下：

面部图像向左边倾斜公式如下：

式中的x,y表示像素点的原先坐标位置，x',y'代表是矫正变换后的像素位置，θ₁为实际关键点与中心点的旋转角。

本技术方案进一步的优化，步骤S4的损失函数为

其中t作为超前参数，基于t＞1的条件下，数值越大，训练也越困难，其中k参数用于是否对错误分类的样本进行训练:

本技术方案进一步的优化，步骤S1中，对待识别图像采用OpenCV进行多尺度变换，得到图像金字塔。

本技术方案进一步的优化，步骤S3根据人脸关键点进行人脸校正。

本技术方案进一步的优化，所述步骤S4利用训练好的特征提取模型对需要识别的目标进行特征提取，再与数据库里的特征进行欧式距离的计算，根据阈值判断人脸目标的身份。

本技术方案进一步的优化，所述MTCNN网络包括P-Net，R-Net以及O-Net三个级联网络。

本技术方案更进一步的优化，所述P-Net网络对图像处理，获得脸部区域的窗口与边界Generate Bounding Box回归，对获得脸部区域窗口，经过框回归结果进行矫正，再利用非最大值抑制算法对重叠的窗口进行合并，P-Net网络用于检测候选回归框。

本技术方案更进一步的优化，所述P-Net网络的输出作为R-Net网络的输入，该网络会对框回归进行再次计算，去除掉非面部的框回归，再通过边框回归变量对结果进行检测，之后采用非最大值抑制进行框合并。

本技术方案更进一步的优化，所述R-Net网络的输出作为O-Net网络的输入，损失监督来进行检测，得到最终的人脸概率、中心点坐标及宽高和人脸关键点的定位。

人脸检测、关键点矫正与特征提取是人脸识别的关键技术。针对非控制条件下的人脸识别的高准确度的要求，本文提出基于MTCNN与余弦为目标函数的人脸识别的方法，采用联级网络作为人脸检测模型，利用预处理之后的数据作为输入，训练Inception-ResnetV1网络以及使用余弦损失目标函数作为训练实验法，结合公用数据集以及私有的亚洲人脸数据库。实验结果表明本算法对识别的准确率有很大的提升，尤其在基于非约束环境的识别精度有很大的提高。

附图说明

图1为人脸识别方法流程图；

图2为图像金字塔结构示意图；

图3为MTCNN训练流程图；

图4为人脸检测网络模型架构示意图；

图5为P-Net、R-Net、O-Net输出图；

图6为人脸校正对比图；

图7为Inception-ResNet-V1结构图；

图8为Inception-ResNet-A/B/C结构图；

图9为LFW验证集图；

图10为LFW测试集ROC曲线图。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

参阅图1所示，为人脸识别方法流程图。一种基于余弦损失非约束条件人脸识别方法，它包括以下步骤，

S1、获取待识别图像，对待识别图像进行多尺度变换，得到图像金字塔。

在无约束环境下，人脸的检测与识别对于不同的姿势，灯光和遮挡是非常有挑战性的。具体的实现方案主要是人脸的检测与矫正，以及人脸识别模型的训练，对于检测矫正模块，提出一个深度级联多任务的框架，于是设计一个多任务级联的卷积神经网络人脸检测深度学习的模型MTCNN，由粗糙到细致来逐步检测面部整体和特征点的坐标，这种轻量级的卷积网络框架可以实现实时的检测效果，对于输入图片，先进性图片多尺度的变换，构成图像金字塔。

参阅图2所示，为图像金字塔结构示意图。图像多尺度变换，首先先对参数进行初始化，创建金字塔的比例系数，在使用OpenCV对图像进行缩放，然后就可以对不同尺度的图像进行卷积操作，因为在原始图片中，目标的大小存在差异，对于较小的目标，可以通过大尺寸图像上检测，对于小目标的人脸，可以在缩小的图像上进行检测，于是做到在相同尺寸下对面部进行检测。

S2、将步骤S1得到的图像金字塔输入到MTCNN网络，MTCNN网络对图像进行处理后，得到面部特征点。

参阅图3所示，为MTCNN训练流程图。给检测模型主要有三个卷积神经网络，分为P-Net，R-Net以及O-Net三个级联网络，三个网络的任务都大致一样，都要依据训练图片的真实数据，进行候选框的计算以及边框回归的向量获取，再利用非极大值抑制来去除掉网络输出预测的候选框中高度重合的候选框，O-Net与前两个网络功能相似，但不同的是O-Net不仅会输出回归矿的分类和回归框位置的信息，还有包含人脸特征关键点向量的位置。

送入三个级联神经网络的数据只需要使用WIDER FACE数据集，此时不需要进行特征点的定位任务，因此当前的目标函数不需要加入关键点来进行训练，由于原始数据集不可直接使用于训练，只能在原始数据上进行候选框的选定。根据初始值，直接随机选择候选框，然后依据IOU值计算候选框所属类别，每个网络都是单独训练的，并且使用同样的损失函数，虽然都是单独训练，但是每一个网络的输入都是前一个网络的候选框的位置，再进行训练缩小候选框的数量。

参阅图4所示，为人脸检测网络模型架构示意图。根据P-Net网络的输入尺寸，将图片缩放到尺寸为12x12的尺寸，之后再按照预先设定好的缩放因子，将改变后的尺寸进行不断地缩放。利用缩放结果12x12x3的数据作为P-Net网络输入图像，经过三次卷积操作和一次池化操作后，原先的是数据变为1x1x32，再经过三次并列卷积操作后，得到人脸概率，中心点坐标及宽高和人脸关键点的定位。

R-Net网络利用上述的检测数据框作为输入图像，同样经过三次卷积操作和一次池化操作后，原先的是数据变为128维的向量数组，通过全连接，得到更为精确的人脸概率、中心点坐标及宽高和人脸关键点的定位。

O-Net网络利用上述的检测数据框作为输入图像，同样经过四次卷积操作和一次池化操作后，原先的是数据变为256维的向量数组，通过全连接，得到最终的人脸概率、中心点坐标及宽高和人脸关键点的定位。

参阅图5所示，为P-Net、R-Net、O-Net输出图。对于三个网络的输出既可用于人脸分类、边界框回归和关键点定位三个任务，其中用于人脸分类的损失函数如式(1)

上式即为人脸分类的交叉熵损失函数，其中p_i是人脸的概率值，

为背景的真是标签。

边框向量的回归计算，主要通过欧氏距离来计算两者之间的回归损失，对于每一个预测的候选框，都要计算和真实值之间的偏移量，如式(2)

其中

是通过网络预测值，

为实际的真事背景的坐标值。

为四维数组，分别带边左上角的x,y坐标值以及长宽值。

关键点定位于框回归一样，利用计算出的网络预测的坐标与真实的实际坐标进行欧式距离的计算，并缩小两者之间的距离，如式(3)

其中

是通过网络预测值，

为实际的真事背景的坐标值。

为十维数组，分别代表左眼、右眼、鼻尖、两个嘴角的x,y坐标值。由于每个卷积网络训练任务目标不同，所以训练数据集也不同，在计算损失函数时候也不同，如式(4)

其中N表示是训练样本的数量，α_j表示每种任务重要性的权值，

表示样本的真实标签值，

为总损失函数，其中P-Net，R-Net取α_det＝1,α_box＝0.5,α_landmark＝0.5，O-net取α_det＝1,α_box＝0.5,α_landmark＝1。

S3、根据步骤S2的面部特征点，进行人脸校正。相比于传统Facenet没有校正这一步，矫正后的面部数据，可以对提高特征提取模型的识别精度，尤其对倾斜的面部识别精度的提升。

由于MTCNN检测出五官关键点的检测点的精确位置，但并不会进行脸部的矫正，直接根据关键点的位置以及候选框的输出，进行一个人脸的倾斜的仿射变换，将人脸进行向右倾斜的公式如下：

面部图像向左边倾斜公式如下：

式中的x,y表示像素点的原先坐标位置，x',y'代表是矫正变换后的像素位置，θ₁为实际关键点与中心点的旋转角。变换效果如下，第一列代表了原始的图像，第二列是MTCNN网络输出结果，第三列是对网络输出结果进行旋转处理后仿射变换的结果。参阅图6所示，为人脸校正对比图。

图像的分类是基于深度卷积网络提取图片的特征，然后通过这些特征数值对图像进行分类。因此，将输出层的前一层的全连接层的输出结果作为对图像提取的特征向量，用这些向量直接计算深度卷积神经网络提取特征向量空间的相似度，以此来判断当前图片与数据库图片是否匹配，所以讲网络作为分类器来训练只是实现对当前图像提取特征的一种方法，在通过训练好的卷积网络提取特征向量，在余弦度量与softmax结合情况下对模型进行强监督训练。损失函数式(5)

人脸识别取得了长足的进步，其主要任务是如何改善特征识别能力。为此，已经提出了几种基于角度边界的softmax损失函数以增加不同类别之间的特征余量。然而，尽管已经特征分类上取得巨大的进步，但它们依旧存在问题，对于错误分类的样本并没有很好地处理，其次这种损失函数只是在加大真正类别的的特征余量，并没有意识到与不同类别之间的可区分性，而且不同类别之间的特征余量设置固定，无法很好地适应一些具体的样本分类，对此的解决办法，本申请对损失函数进行了相应的改进：

相比于原先的损失函数，改进后的损失函数加强对困难样本的学习，不仅加强类别之间的可区分性，也加大对错误分类样本的可区分性。

采用CASIA-WebFace、VGGFace2、MS1M-DeepGlin和Asian-DeepGlint等数据集。在经过检测裁剪后的图片都采用112×112的尺寸，RGB图像中的每个像素通过减去127.5然后除以128来进行数据的归一化处理。下表为训练集和测试集的。

表1训练集和测试集数据库

用于分类的特征提取卷积网络选取Inception-ResNet-V1，该网络的主要采用Residual Learning的思想应用于Inception网络中，也证明了残差模块确实对于Inception网络的训练速度有所提高。参阅图7所示，为Inception-ResNet-V1结构图。该图是Inception-ResNet-V1的主干网络，由于前面的几层Stem模块用于提取局部特征，以此不适用Inception模块来节省计算量，Reduction-A和Reduction-B模块进行进行模块的训练。

参阅图8所示，为Inception-ResNet-A/B/C结构图，其中的Inception-Resnet-A/B/C模块由Inception模块和Resnet模块结合，Inception模块的目的就是采用不同的尺寸的卷积核对图像进行卷积，有1×1,3×3,5×5不同卷积核对同一个特征通道进行卷积，为了降低使用3×3,5×5的卷积浪费计算资源，降低计算成本，在不丢失特征的前提下，通常会在之前使用1×1的卷积，来降低计算成本以及提高通道数，以Inception-ResNet-A为例，在3×3模块前，加入1×1的卷积进行特征的提取以及通道数的升维，最后进行1×1将维度升到256，这样的模块重复5次，假设输入是35×35×256，输出还是35×35×256，为了节省计算资源，也可以将N×N拆分成1×N和N×1模块进行计算卷积，以Inception-ResNet-B/C为例，将3×3拆成1×3和3×1进行卷积和7×7拆成1×7和7×1进行卷积，Inception-ResNet-B模块重复10次，Inception-ResNet-C模块重复5次。

参阅图9所示，为LFW验证集图，采用上述方法对LFW的数据集进行了验证。该数据库从中随机选择了6000对人脸组成了人脸辨识图片对，其中3000对属于同一个人2张人脸照片，3000对属于不同的人每人1张人脸照片。测试过程LFW给出一对照片，查看测试中的系统两张照片是不是同一个人，系统给出“是”或“否”的答案。通过6000对人脸测试结果的系统答案与真实答案的比值可以得到人脸识别准确率。

ROC曲线是一个二分类问题，待识别的目标只有正类(positive)和负类(negative)，将正类的实例判定为正类即真正类(True positive)，如果负类的实例被判定为正类，则命为假正类(False positive)，将负类的实例判定为负例即真负类(Truenegative)，将正类的实例判定为负类即假负类(False positive)。其中(True positiverate)

即为判定为正类实例是正类的占所有真正正类的比例，(Falsepositive rate)

即预测为正类实际为负类占所有负类的比例，一个有价值的分类器，需要在TPR高的时候FPR依旧很小，体现在ROC曲线上，在取相同的FPR值的时候，TPR要越大的越好，在从阈值设置为0开始，每次的阈值提升0.01，以余弦距离作为阈值的衡量标准，画出如下的ROC曲线图，参阅图10所示。

其中

代表着错判的比列，

表示正确接收的比例，下表为我们在设置在不同FAR值时，得出的在不同参数设置下，测试集上TAR的准确率，结果测试准确度如下表所示：

表2测试集评测数据

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括……”或“包含……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外，在本文中，“大于”、“小于”、“超过”等理解为不包括本数；“以上”、“以下”、“以内”等理解为包括本数。

尽管已经对上述各实施例进行了描述，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改，所以以上所述仅为本发明的实施例，并非因此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围之内。

Claims

1.一种基于余弦损失非约束条件人脸识别方法，其特征在于：它包括以下步骤，

S3、根据步骤S2的面部特征点，进行人脸校正；

S4、利用步骤S3处理后的数据训练Inception-ResnetV1卷积神经网络，采用余弦损失函数作为监督信号，进行分类器模型的训练，得到特征提取模型，利用该特征提取模型进行人脸数据的验证与识别；

所述步骤S4的损失函数为

2.如权利要求1所述的基于余弦损失非约束条件人脸识别方法，其特征在于：所述步骤S3中人脸校正如下，根据面部特征点，进行人脸倾斜的仿射变换，将人脸进行向右倾斜的公式如下：

面部图像向左边倾斜公式如下：

式中的x，y表示像素点的原先坐标位置，x′，y′代表是矫正变换后的像素位置，θ₁为实际关键点与中心点的旋转角。

3.如权利要求1所述的基于余弦损失非约束条件人脸识别方法，其特征在于：所述步骤S3根据人脸关键点进行人脸校正。

4.如权利要求1所述的基于余弦损失非约束条件人脸识别方法，其特征在于：所述步骤S1中，

对待识别图像采用OpenCV进行多尺度变换，得到图像金字塔。

5.如权利要求1所述的基于余弦损失非约束条件人脸识别方法，其特征在于：所述步骤S4利用训练好的特征提取模型对需要识别的目标进行特征提取，再与数据库里的特征进行欧式距离的计算，根据阈值判断人脸目标的身份。

6.如权利要求1所述的基于余弦损失非约束条件人脸识别方法，其特征在于：所述MTCNN网络包括P-Net，R-Net以及O-Net三个级联网络。

7.如权利要求6所述的基于余弦损失非约束条件人脸识别方法，其特征在于：所述P-Net网络对图像处理，获得脸部区域的窗口与边界Generate Bounding Box回归，对获得脸部区域窗口，经过框回归结果进行矫正，再利用非最大值抑制算法对重叠的窗口进行合并，P-Net网络用于检测候选回归框。

8.如权利要求7所述的基于余弦损失非约束条件人脸识别方法，其特征在于：所述P-Net网络的输出作为R-Net网络的输入，该网络会对框回归进行再次计算，去除掉非面部的框回归，再通过边框回归变量对结果进行检测，之后采用非最大值抑制进行框合并。

9.如权利要求8所述的基于余弦损失非约束条件人脸识别方法，其特征在于：所述R-Net网络的输出作为O-Net网络的输入，损失监督来进行检测，得到最终的人脸概率、中心点坐标及宽高和人脸关键点的定位。