CN110399826B

CN110399826B - 一种端到端人脸检测和识别方法

Info

Publication number: CN110399826B
Application number: CN201910663227.7A
Authority: CN
Inventors: 郭振华; 万小培; 苏英程
Original assignee: Shenzhen Graduate School Tsinghua University
Current assignee: Shenzhen Graduate School Tsinghua University
Priority date: 2019-07-22
Filing date: 2019-07-22
Publication date: 2021-06-15
Anticipated expiration: 2039-07-22
Also published as: CN110399826A

Abstract

本发明提供一种端到端人脸检测和识别方法，包括如下步骤：S1：对训练样本集的原始图片预处理生成训练数据；S2：搭建人脸检测网络；S3：训练所述人脸检测网络；S4：在所述人脸检测网络中添加人脸识别分支；S5：训练所述人脸识别分支。通过端到端的人脸检测和识别方法相对于非端到端的人脸检测和识别方法在识别精度影响比较小的情况下，通常速度能提高20％～30％左右，同时显存的消耗通常能降低为非端到端方法的40％～50％。

Description

一种端到端人脸检测和识别方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种端到端人脸检测和识别方法。

背景技术

人脸检测，即得到图片中所有人脸的具体位置，具体位置通常使用一个矩形框表示，矩形框内的物体即为人脸，矩形框外的部分为背景。人脸检测技术已经广泛应用到海关、车站、考勤、自动驾驶和疑犯追踪等领域。现有的人脸检测模型通常都是深度学习模型，典型的深度学习人脸检测模型包括S³FD、UnixBox、SSH和Face R-CNN等。

人脸识别，即给定一张人脸，通过人脸的特征判断这张人脸的身份。当前的人脸识别算法已经达到了很高的识别精度，LFW数据集上的6000对人脸验证已经达到99.83％的正确率，基本已经达到饱和。在百万量级的数据集MegaFace上进行的1:1000000的人脸识别，在未清洗干扰数据的情况下也能够获得Rank-1为83.57％的正确率。清洗干扰数据后，最优结果更是能达到98.36％的识别正确率。现有的人脸识别模型通常都是深度学习模型，典型的深度学习人脸识别模型包括DeepID、FaceNet、VGG-Face、Mobile Face Net等。

当前的人脸识别算法，基本都是将检测和识别过程拆分成两个或者多个步骤。首先是进行人脸检测，检测到人脸后裁剪出来，再进行人脸对齐或是裁剪不同位置的图像块等中间预处理环节，最后才输入到识别网络中提取特征。这种非端到端的做法虽然非常精细，能取得比较好的识别结果，但整个过程相对复杂，存储消耗和计算量也更大。

发明内容

本发明为了解决现有技术中非端到端的人脸识别和人脸检测方法过程复杂，存储消耗和计算量大的问题，提供一种端到端人脸检测和识别方法。

为了解决上述问题，本发明采用的技术方案如下所述：

一种端到端人脸检测和识别方法，包括如下步骤：S1：对训练样本集的原始图片预处理生成训练数据；S2：搭建人脸检测网络；S3：训练所述人脸检测网络；S4：在所述人脸检测网络中添加人脸识别分支；S5：训练所述人脸识别分支。

优选地，步骤S1包括：生成训练图片和生成训练标签；所述生成训练图片包括：S11：所述训练样本集的原始图片通过插值进行随机尺度缩放，得到缩放图片；S12：对所述缩放图片随机裁剪得到固定大小的图片；S13：对所述固定大小的图片随机水平翻转得到训练图片；所述生成训练标签包括：训练样本集的原始标签中的候选框上、下、左、右四个方向分别向内缩减；并忽略像素小于设置像素的人脸和人脸相互重叠部分。

优选地，所述人脸检测网络的骨干网络为PVANet，并在所述PVANet的FPN结构最后一层，即conv_2s_3x3之后添加了两个分支，分别生成：人脸前景、背景热图，即分类任务；每个标记的人脸位置对应的人脸框相对位置，即回归任务；对所述PVANet的所述conv_2s_3x3的特征用双端长短期记忆网络进行上下文信息增强，采用顺序长短期记忆网络和反序长短期记忆网络相叠加实现。

优选地，对所述分类任务和所述回归任务均采用渐进式的OHEM算法。

优选地，所述渐进式的OHEM算法为在训练过程开始时难样本占比为0.2，并随着所述训练的进行逐步增大至0.8，即：

其中，ratio表示难样本占比，iter表示当前迭代次数，iters表示总的迭代次数。

优选地，在所述回归任务中，计算损失时人脸面积小的区域乘以大的损失权重，人脸面积大的区域乘以小的损失权重，所述权重只与人脸面积相关，即：L＝L_cls+αS^-γL_IoU；其中，L表示损失函数总的值，L_cls表示人脸前景/背景分类的损失函数值，L_IoU表示所述人脸框相对位置回归时的损失函数值，α表示L_IoU的权重，γ表示调节因子，S表示人脸的面积。

优选地，所述人脸识别分支的网络结构从GoogleNet Inception V2网络中截取，所述人脸识别分支最后产生一个固定维度的人脸识别特征。

优选地，步骤S4包括：S41：获得人脸面积最大且像素值大于设定阈值的人脸作为候选框，若没有检测到人脸或者最大人脸面积小于所述设定阈值，则使用默认区域作为所述候选框，所述默认区域为所述训练数据中统计得到的人脸出现概率最大的区域。S42：使用ROIPooling在PVANet的conv2_3特征图谱上截取一个固定大小的特征块作为人脸识别分支的输入。

优选地，步骤S5包括：将所述人脸检测网络的参数全部固定后单独对所述人脸识别分支进行训练。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上任一所述方法的步骤。

本发明的有益效果为：提供一种端到端人脸检测和识别方法，通过端到端的人脸检测和识别方法相对于非端到端的人脸检测和识别方法在识别精度影响比较小的情况下，通常速度能提高20％～30％左右，同时显存的消耗通常能降低为非端到端方法的40％～50％。

附图说明

图1是本发明实施例中端到端人脸检测和识别方法示意图。

图2是本发明实施例中生成训练图片的方法示意图。

图3是本发明实施例中在人脸检测网络中添加人脸识别分支的方法示意图。

图4是本发明实施例中端到端的人脸检测和人脸识别过程示意图。

图5是本发明实施例中人脸检测网络的示意图。

图6是本发明实施例中Bi-LSTM实现方式示意图。

图7是本发明实施例中端到端人脸检测和识别方法和现有技术中的方法显存消耗对比示意图。

图8是本发明实施例中端到端人脸检测和识别方法和现有技术中的方法处理时间对比示意图。

具体实施方式

为了使本发明实施例所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要说明的是，当元件被称为“固定于”或“设置于”另一个元件，它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件，它可以是直接连接到另一个元件或间接连接至该另一个元件上。另外，连接即可以是用于固定作用也可以是用于电路连通作用。

需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明实施例和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多该特征。在本发明实施例的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

实施例1

如图1所示，本发明提供一种端到端人脸检测和识别方法，包括如下步骤：

S1：对训练样本集的原始图片预处理生成训练数据；

S2：搭建人脸检测网络；

S3：训练所述人脸检测网络；

S4：在所述人脸检测网络中添加人脸识别分支；

S5：训练所述人脸识别分支。

在本发明的一种实施例中，步骤S1包括：生成训练图片和生成训练标签；

如图2所示，所述生成训练图片包括：

S11：所述训练样本集的原始图片通过插值进行随机尺度缩放，得到缩放图片；

在本发明的一种实施例中，训练样本集是一个公开数据集，比如wider face的数据库。

S12：对所述缩放图片随机裁剪得到固定大小的图片；

固定大小是统一的640*640。

S13：对所述固定大小的图片随机水平翻转得到训练图片；

所述生成训练标签包括：训练样本集的原始标签中的候选框上、下、左、右四个方向分别向内缩减；并忽略像素小于设置像素的人脸和人脸相互重叠部分。

在本发明的一种实施例中，对于人脸检测部分，将标签中的候选框上、下、左、右四个方向各向内缩减20％，使得候选框内的人脸更加纯净；忽略长或宽小于10像素的小人脸；忽略人脸重叠部分；生成的训练标签是一张大小为训练图片四分之一的、缩减后的人脸框中每一个像素相对于数据集标签中人脸框上、下、左、右四个方向距离的图，从而降低人脸检测部分训练的难度；对于人脸识别部分，训练标签将记录每张图片中人脸所属的身份。

在本发明的一种实施例中，人脸检测网络的骨干网络为PVANet，这样做可以显著减少计算量，提高检测速度；在所述PVANet的FPN(Feature Pyramid Network)结构最后一层，即conv_2s_3x3之后添加了两个分支，分别生成：人脸前景、背景热图，即分类任务；每个标记的人脸位置对应的人脸框相对位置，即回归任务。

一般的模型对于有遮挡的人脸检测效果都不理想，而长短期记忆网络(LSTM)能有效提取特征的上下文信息，所以本发明对PVANet的conv_2s_3x3的特征用双端LSTM进行了上下文信息增强，这样可以有效解决模型对于有遮挡的人脸检测效果都不理想的问题。所使用的双端LSTM由一个顺序LSTM和一个反序LSTM相叠加实现。对于顺序LSTM的输入，本发明在conv_2s_3x3的特征图谱上每个位置所有通道的数据作为LSTM的一个输入序列，LSTM的输出为LSTM所有time stamp的输出；反序LSTM的输入需要先将conv_2s_3x3的特征图谱水平翻转，再通过上述方式输入序列，反序LSTM输出的特征需要经过水平翻转，再与顺序LSTM的输出结果进行级联，即Concat，得到双端LSTM最终的输出。

普通的OHEM算法虽然效果好，但是如果网络刚启动就全部用难样本训练可能会造成网络无法收敛，而且如果训练集存在的一些噪声也会干扰到网络的训练，因此对原始的OHEM做了修改，采用了一个渐进式的OHEM算法，即训练过程中并不是全用难样本进行训练，而是占有一定的比例，随着网络训练的进行，这个比例逐步增大。本发明对分类任务和回归任务均采用渐进式的OHEM算法，在训练过程开始时难样本占比为0.2，并随着所述训练的进行逐步增大至0.8，具体如公式1所示：

其中ratio表示难样本占比，iter表示当前迭代次数，iters表示总的迭代次数。

由于数据集中人脸的尺度变化非常大，且本发明所用的人脸检测算法没有用到anchor的机制，边框回归直接预测的是每个点到边框的上、下、左、右距离，无法将边框回归参数进行尺度上的归一化，所以对于小人脸的效果并不理想。故本发明提供了一种新的Focal Loss以应对这种问题，具体为：在回归任务中，计算损失时人脸面积小的区域将乘以较大的损失权重，人脸面积大的区域将乘以较小的损失权重，权重只与人脸面积相关。如公式2所示：

L＝L_cls+αS^-γL_IoU (2)

其中L表示损失函数总的值，L_cls表示人脸前景/背景分类的损失函数值，L_IoU表示人脸框相对位置回归时的损失函数值，α表示L_IoU的权重，γ表示调节因子，S表示人脸的面积。在一种具体的实施例中，α和γ是两个固定值，分别为4和0.5。

人脸识别分支的网络结构从GoogleNet Inception V2网络中截取，所述人脸识别分支最后产生一个固定维度的人脸识别特征。

在一种具体的实施例中，人脸识别分支的网络结构是截取GoogleNet InceptionV2网络inception(3a)之后的结构。人脸识别分支最后产生一个1024维的人脸识别特征。

如图3所示，步骤S4包括：

S41：获得人脸面积最大且像素值大于设定阈值的人脸作为候选框，若没有检测到人脸或者最大人脸面积小于所述设定阈值，则使用默认区域作为所述候选框，所述默认区域为所述训练数据中统计得到的人脸出现概率最大的区域。

S42：使用ROIPooling在PVANet的conv2_3特征图谱上截取一个固定大小的特征块作为人脸识别分支的输入。

首先通过人脸检测分支提取候选框Proposal，获得人脸面积最大且大于256像素的人脸作为Proposal，若没有检测到人脸或者最大人脸面积小于256像素，则使用默认区域作为Proposal，默认的区域根据提供训练数据的数据集的不同而不同，通过对整个数据集进行统计得到，即人脸出现概率最大的区域。提取完Proposal之后在PVANet的conv2_3特征图谱上使用ROIPooling截取一个28*28的特征块作为人脸识别分支的输入。

由于人脸检测网络已经训练完毕，直接加入人脸识别分支进行端到端的训练会影响人脸检测的效果，反而会使整体性能变差。所以将人脸检测分支及与人脸识别分支共享的PVANet的conv2_3之前的网络参数全部固定(整个人脸检测网络参数全部固定)，整个网络只训练人脸识别分支的参数。

本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

实施例2

如图4所示，本发明实现端到端的人脸检测和人脸识别过程示意图。对于一张输入图片，首先通过共享卷积层提取特征；然后通过人脸检测分支找到人脸的位置，如果有多张人脸，则选择面积最大的人脸，没有找到人脸则使用默认区域；找到人脸后，再通过找到的人脸在共享卷积层的最后一层通过RoI Pooling截取特征作为人脸识别分支的输入，从而得到一个1024维的人脸特征向量。若要识别两张人脸是否为同一人，只需将两张图片都进行上述操作分别得到两个人脸特征向量，再计算两个向量的余弦距离即可判别。

如图5所示，本发明的一个端到端的人脸检测和识别中所搭建的人脸检测网络的示意图，图中Bi-LSTM代表双端LSTM，Bi-LSTM左边的部分为PVANet的conv_2s_3x3之前的部分，Bi-LSTM之后接了两个分支，一个用于人脸前景和背景的分类，一个用于人脸框的回归。

如图6所示，上述的Bi-LSTM实现方式示意图。具体为：假设对于一张图，卷积神经网络所输出的特征图维度为(C，H，W)，其中H表示特征图的高度，W表示特征图的宽度，C表示特征图的通道数，使用LSTM来增强特征的上下文信息的过程包含以下六个部分：

A.将PVANet输出的特征图先通过卷积核为3*3的卷积层和ReLU激活函数进行预处理，然后通过转置变换为(H，W，C)的特征图谱；

B.特征扩展是将A得到的特征图谱变换为(H*W，C)的矩阵，再与一个(C,4*C)的权值矩阵相乘得到一个(H*W，4*C)特征矩阵；

C.将B中得到的特征矩阵拆分成长度为4*C的一组序列依次输入到LSTM中以增强上下文信息，得到维度为(H，W，C)的特征图谱，作为顺序LSTM的输出结果；

D.将A得到的特征图谱进行水平翻转，再依次执行A、B、C，得到另一个维度为(H，W，C)的特征图谱，最后将此特征图谱再一次水平翻转，得到反序LSTM的输出结果；

E.将顺序LSTM和反序LSTM的输出结果级联起来，得到一个(H，W，2*C)的特征图谱，再使用转置操作得到(2*C，H，W)的特征图谱，最后使用一个卷积核1*1的卷积层和ReLU激活函数得到(C，H，W)的特征图谱，即为LSTM部分最终的输出特征图。

本发明中所搭建的端到端的人脸检测和人脸识别网络如图5所示，具体为：

A.feature maps来自PVANet的conv2_3的输出结果，人脸检测分支(Detectionbranch)将生成Proposal，再通过ROI Pooling在feature maps上截取大小为28*28的特征输入到人脸识别分支中。

B.人脸识别分支(Recognition branch)的结构为截取GoogleNet Inception V2网络inception(3a)之后的结构，最后产生一个1024维的人脸识别特征。

C.人脸识别分支在训练时，人脸检测分支和两个分支共享的卷积层的参数固定不变，只训练人脸识别分支。

如图7和图8所示，本发明提出的端到端的人脸检测和识别方法相对于非端到端的人脸检测和识别方法在识别精度影响比较小的情况下，通常速度能提高20％～30％左右，同时显存的消耗通常能降低为非端到端方法的40％～50％。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种端到端人脸检测和识别方法，其特征在于，包括如下步骤：

S1：对训练样本集的原始图片预处理生成训练数据；

S2：搭建人脸检测网络；

S3：训练所述人脸检测网络；

S4：在所述人脸检测网络中添加人脸识别分支；所述人脸识别分支的网络结构从GoogleNet Inception V2网络中截取，所述人脸识别分支最后产生一个固定维度的人脸识别特征；包括：

S41：获得人脸面积最大且像素值大于设定阈值的人脸作为候选框，若没有检测到人脸或者最大人脸面积小于所述设定阈值，则使用默认区域作为所述候选框，所述默认区域为所述训练数据中统计得到的人脸出现概率最大的区域；

S42：使用ROIPooling在PVANet的conv2_3特征图谱上截取一个固定大小的特征块作为人脸识别分支的输入；S5：训练所述人脸识别分支。

2.如权利要求1所述的端到端人脸检测和识别方法，其特征在于，步骤S1包括：生成训练图片和生成训练标签；

所述生成训练图片包括：

S12：对所述缩放图片随机裁剪得到固定大小的图片；

S13：对所述固定大小的图片随机水平翻转得到训练图片；

所述生成训练标签包括：

训练样本集的原始标签中的候选框上、下、左、右四个方向分别向内缩减；并忽略像素小于设置像素的人脸和人脸相互重叠部分。

3.如权利要求1所述的端到端人脸检测和识别方法，其特征在于，所述人脸检测网络的骨干网络为PVANet，并在所述PVANet的FPN结构最后一层，即conv_2s_3x3之后添加了两个分支，分别生成：人脸前景、背景热图，即分类任务；每个标记的人脸位置对应的人脸框相对位置，即回归任务；所述两个分支分别是分类任务和回归任务；

对所述PVANet的所述conv_2s_3x3的特征用双端长短期记忆网络进行上下文信息增强，采用顺序长短期记忆网络和反序长短期记忆网络相叠加实现。

4.如权利要求3所述的端到端人脸检测和识别方法，其特征在于，对所述分类任务和所述回归任务均采用渐进式的OHEM算法。

5.如权利要求4所述的端到端人脸检测和识别方法，其特征在于，所述渐进式的OHEM算法为在训练过程开始时难样本占比为0.2，并随着所述训练的进行逐步增大至0.8，即：

6.如权利要求4所述的端到端人脸检测和识别方法，其特征在于，在所述回归任务中，计算损失时人脸面积小的区域乘以大的损失权重，人脸面积大的区域乘以小的损失权重，所述权重只与人脸面积相关，即：

L＝L_cls+αS^-γL_IoU

其中，L表示损失函数总的值，L_cls表示人脸前景/背景分类的损失函数值，L_IoU表示所述人脸框相对位置回归时的损失函数值，α表示L_IoU的权重，γ表示调节因子，S表示人脸的面积。

7.如权利要求1所述的端到端人脸检测和识别方法，其特征在于，步骤S5包括：

将所述人脸检测网络的参数全部固定后单独对所述人脸识别分支进行训练。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一所述方法的步骤。