CN110414431B

CN110414431B - 基于弹性上下文关系损失函数的人脸识别方法及系统

Info

Publication number: CN110414431B
Application number: CN201910689500.3A
Authority: CN
Inventors: 姚若光; 范志鸿; 古竞; 庞恺
Original assignee: Guangzhou Pixel Solutions Co ltd
Current assignee: Guangzhou Pixel Solutions Co ltd
Priority date: 2019-07-29
Filing date: 2019-07-29
Publication date: 2022-12-27
Anticipated expiration: 2039-07-29
Also published as: CN110414431A

Abstract

本发明涉及一种基于弹性上下文关系损失函数的人脸识别方法，其研究如何克服海量不平衡数据对人脸识别训练带来的影响，提出的方法可以有效地挖掘组合数据块，减少无用的冗余计算，加速整个训练过程，且设计的基于弹性上下文的目标函数无需为每个类引入额外的训练参数，减少了大规模训练中长尾类的影响，同时软间距可以提高人脸识别准确率。

Description

基于弹性上下文关系损失函数的人脸识别方法及系统

技术领域

本发明涉及数字图像处理领域，更具体地，涉及一种基于弹性上下文关系损失函数的人脸识别方法及系统。

背景技术

目前的人脸识别方法主要针对公开的训练数据集进行研究改进，这些数据库一般类别数有限，少则几千类，多则十几万类，并且每个类的样本数较多。然而实际场景中获取的人脸数据通常具有两个特点，一是类别数较多，实际场景下采集的数据往往存在多达几百万甚至几千万人，再则收集到的数据只有少部分人包含丰富多样的图像，大部分人只有几张甚至一张图像。比如监控场景下可以获得人的大量视频，但是图像之间相似度很高，而且实际可用的清晰数据很少，从而导致可用的样本很少。这些问题使得数据整体呈现明显的长尾效应。这给传统的分类目标损失函数(比如softmax loss)带来了极大的挑战。一是这种不平衡的样本分布给分类器学习尾部数据带来了挑战，使得分类器的权重不容易收敛；二是分类器的参数和训练样本的类别数成正比，海量的类别数使得分类函数的参数量急剧增加，既不利于优化学习，同时也需要占用更多的GPU显存资源，对硬件设备提出了更高的要求。虽然可以通过数据并行或者模型并行方式缓解显存问题，但是这些解决方案又同时带来了新的问题，比如多卡之间同步问题等。另外一种可行的替代方案是使用tripletloss，将分类问题转化为更为简单的度量学习问题。这种方法本质是将多类的人脸识别问题转变为判别是同一个人的样本对和不是同一个人的样本对的二分类问题，进而引导整个网络参数学习。虽然这种方式缓解了显存占用和参数过多的压力，但是在面对海量数据时，这种损失函数也有着他们自身的局限性。一是构造样本对的计算量，时间复杂度将达到样本总量的三次方。二是每次参数的更新只是基于若干对样本数据，缺乏全局信息，影响了最终的人脸识别性能。

发明内容

本发明提供的方法研究如何克服海量不平衡数据对人脸识别训练带来的影响，提出的方法可以有效地挖掘组合数据块，减少无用的冗余计算，加速整个训练过程，且设计的基于弹性上下文的目标函数无需为每个类引入额外的训练参数，减少了大规模训练中长尾类的影响，同时软间距可以提高人脸识别准确率。

为实现以上发明目的，采用的技术方案是：

基于弹性上下文关系损失函数的人脸识别方法，包括以下步骤：

S1.对于训练集中的图像，利用人脸检测算法检测图像中是否包含有人脸，若否则舍弃该图像，若是则执行步骤S2；

S2.对训练集中的图像中的人脸进行关键点定位，并基于关键点定位得到的关键点坐标对训练集中的图像进行操作得到预定大小的人脸图像；

S3.从训练集中随机选取一批人脸图像训练人脸识别模型；

S4.使用人脸识别模型提取训练集中人脸图像的特征描述子；

S5.根据获取的特征描述子计算得到训练集中人脸图像每个类的样本均值，作为这个类的代表样本；

S6.通过K-mean聚类算法，将人脸图像的代表样本聚类到多个聚类中心；

S7.从每个聚类中心选择S个类，并从S个类中平均挑选M个人脸图像样本组成一个数据块X，用均值来表示每个类的中心C＝{c₁，c₂，…，c_S}；每个数据块样本均来自同一个聚类中心的类；

S8.构建卷积神经网络单元，将数据块X送入卷积神经网络中，输出每个人脸图像样本的特征向量；

S9.将步骤S8提取的特征向量送入FCL损失函数中，FCL损失函数表示如下：

其中x_i表示人脸图像样本的特征向量，y_i为人脸图像样本的类别标签，c_j表示每个数据块中第j类的人脸图像样本的特征向量均值，p_ij表示人脸图像样本x_i属于类别j的概率，1(y_i＝＝j)表示一个二值函数，当y_i＝＝j成立时值为1，否则为0；

S10.增加间隔参数m来增强类内样本的相关性：

其中

表示样本x_i属于类别y_i的概率，p_ij表示样本x_i属于类别j的概率，c_k表示每个数据块中第k类的图像样本的特征向量均值；

S11.对于待处理的图像，将其进行步骤S1～S2处理后得到预定大小的人脸图像；

S12.将步骤S11得到的人脸图像输入到卷积神经网络中，得到相应的的特征向量；

S13.使用余弦距离函数计算得到图像特征向量之间的相似度，若计算得到的余弦距离大于设定的阈值，则判断为同一人，否则判断为不同人。

优选地，所述步骤S2对人脸进行25个关键点的定位，并基于左眼、右眼、鼻尖、左嘴角、右嘴角5个关键点坐标对训练集中的图像进行操作得到预定大小的人脸图像。

优选地，所述对训练集中的图像进行操作包括图像旋转、缩放、仿射变换。

优选地，所述人脸图像的预定大小为128像素*128像素。

优选地，所述步骤S3使用softmax损失函数训练人脸识别模型。

同时，本发明还提供了一种应用以上方法的系统，其具体的方案如下：

一种系统，包括预处理单元、数据块构造单元、深度卷积网络训练单元、特征提取及识别单元，所述系统运行时执行权利要求1～5任一项所述方法的操作，其中预处理单元执行步骤S1、S2的操作，数据块构造单元执行步骤S3～S7的操作，深度卷积网络训练单元执行步骤S8～S10的操作，特征提取及识别单元执行步骤S11～S13的操作。

与现有技术相比，本发明的有益效果是：

附图说明

图1为系统的结构示意图。

图2为预处理单元流程图。

图3为数据块构造单元流程图。

图4为深度卷积网络训练单元流程图。

图5为特征提取与识别单元流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

本发明基于基于弹性上下文关系损失函数的人脸识别系统的结构包含预处理单元、数据块构造单元、深度卷积网络训练单元、特征提取与识别单元。这四个单元的关系如图1所示。

如图2所示，本发明中预处理单元的主要步骤是：

步骤(1)：对于待处理的图像，利用人脸检测判断图像中是否包含人脸，若不包含人脸重新采集图像，否则进行步骤(2)，

步骤(2)：对包含的人脸图像进行关键点定位，得到脸部区域的25个关键点。

步骤(3)：利用左右眼、鼻尖、左右嘴角5个关键点坐标，通过图像旋转、缩放、仿射变换等操作对图像进行裁剪和归一化操作，得到预定大小(128*128)的对齐图像。

如图3所示，本发明中，数据块构造单元的主要步骤是：

步骤(1)：首先从训练集中随机选择一批训练样本使用softmax损失函数预训练一个人脸识别模型。

步骤(2)：使用预训练模型提取训练集中样本的特征描述子。

步骤(3)：根据步骤(2)获取的特征描述子计算得到训练集中每个类的样本均值，作为这个类的代表样本。

步骤(4)：通过K-mean聚类算法，将代表样本聚类到多个聚类中心。

步骤(5)：从每个聚类中心选择S个类，并从S个类中平均挑选M个样本组成一个数据块X,用均值来表示每个类的中心C＝{c₁，c₂，…，c_S}。每个数据块样本均来自同一个聚类中心的类。

如图4所示，本发明中，深度卷积网络单元的主要步骤是：

步骤(1)：卷积网络结构设计。构造24层残差网络，并根据输入图像的尺寸(128*128)设计网络中卷积核尺度以及全连接层的大小等参数。

步骤(2)：将数据构造单元构造的batch送入卷积神经网络中，输出每个图像样本的特征向量。

步骤(3)：弹性上下文关系损失函数设计。将步骤(2)中提取的特征向量送入本专利提出的Flexible Context Loss(FCL)损失函数。目标函数如下：

其中x_i表示图像的特征向量，y_i为图像的类别标签，c_j表示每个数据块中第j类的图像样本的特征向量均值，p_ij表示样本x_i属于类别j的概率，1(y_i＝＝j)表示一个二值函数，当y_i＝＝j成立时值为1，否则为0。其相对x_i的求导为：

Softmax损失函数相对x_i的求导为：

其中

表示softmax loss层的参数。参数规模和训练集的类别数成正比。通过公式(2)和(3)，可以发现FCL是类别数无关的无参数化损失函数，相比于传统的使用Softmax Loss的方法更适合用于大规模人脸识别训练。这是因为不同于Softmax Loss引入新的学习参数，FCL无参数化设计降低学习难度，避免了长尾数据对于学习W参数的影响。同时学习参数和训练集类别数无关。有利于在有限的GPU显存下展开大规模训练。

步骤(4)：软间距设计。本专利提出软间距设计方法进一步增强类内紧凑性，通过增加一个间隔参数m来进一步增强类内样本的相关性：

实际操作中可通过如下方式实现：

其中

表示样本x_i属于类别y_i的概率，p_ij表示样本x_i属于类别j的概率，c_k表示每个数据块中第k类的图像样本的特征向量均值。软间距增强了x_i和其对应的中心

之间的相似度，从而进一步增强了类内样本的紧凑性。可以有效地提升特征的判别能力。

如图1所示，经过上述训练过程步骤后，在测试过程中使用特征提取与识别模块进行身份识别。如图5所示，本发明中特征提取与识别单元的主要步骤是：

步骤(1)：将图像输入到预处理单元得到归一化后的人脸图像。

步骤(2)：将步骤(1)得到的人脸图像输入到训练好的卷积神经网络中，得到人脸对象的特征向量。

步骤(3)：使用余弦距离函数计算步骤(2)得到的图像特征之间的相似度，预先设定某个阈值，余弦距离大于阈值判断为同一个人，余弦距离小于阈值判断为不同人。

显然，本发明的上述实施仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.基于弹性上下文关系损失函数的人脸识别方法，其特征在于：包括以下步骤：

S3.从训练集中随机选取一批人脸图像训练人脸识别模型；

S4.使用人脸识别模型提取训练集中人脸图像的特征描述子；

S10.增加间隔参数m来增强类内样本的相关性：

其中

S12.将步骤S11得到的人脸图像输入到卷积神经网络中，得到相应的特征向量；

2.根据权利要求1所述的基于弹性上下文关系损失函数的人脸识别方法，其特征在于：所述步骤S2对人脸进行25个关键点的定位，并基于左眼、右眼、鼻尖、左嘴角、右嘴角5个关键点坐标对训练集中的图像进行操作得到预定大小的人脸图像。

3.根据权利要求2所述的基于弹性上下文关系损失函数的人脸识别方法，其特征在于：所述对训练集中的图像进行操作包括图像旋转、缩放、仿射变换。

4.根据权利要求2所述的基于弹性上下文关系损失函数的人脸识别方法，其特征在于：所述人脸图像的预定大小为128像素*128像素。

5.根据权利要求1所述的基于弹性上下文关系损失函数的人脸识别方法，其特征在于：所述步骤S3使用softmax损失函数训练人脸识别模型。

6.一种系统，其特征在于：包括预处理单元、数据块构造单元、深度卷积网络训练单元、特征提取及识别单元，所述系统运行时执行权利要求1～5任一项所述方法的操作，其中预处理单元执行步骤S1、S2的操作，数据块构造单元执行步骤S3～S7的操作，深度卷积网络训练单元执行步骤S8～S10的操作，特征提取及识别单元执行步骤S11～S13的操作。