CN109145854A

CN109145854A - 一种基于级联卷积神经网络结构的人脸检测方法

Info

Publication number: CN109145854A
Application number: CN201811015651.2A
Authority: CN
Inventors: 杨万扣; 李天煌; 周路宽; 孙长银
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2019-01-04

Abstract

本发明公开了一种基于级联卷积神经网络的人脸检测方法，涉及模式识别、机器学习、图像处理等技术领域，该方法分为三个阶段，第一个阶段：将低分辨率的候选窗口输入浅层卷积神经网络用于快速筛选大量背景窗口；第二个阶段：将通过第一阶段的候选窗口，调整成不同尺度的图像金字塔；第三个阶段：将图像金字塔中对应分辨率的图像分别输入网络的两个分支，用于最终人脸分类和边界框回归。训练过程中，针对困难样本在线训练，采用软‑非极大值抑制算法对数据集进行多尺度测试，在PASCAL FACE和FDDB两个公开数据集上与其他方法进行结果对比，验证了方法的有效性。

Description

一种基于级联卷积神经网络结构的人脸检测方法

技术领域

本发明一种基于级联卷积神经网络结构的人脸检测方法，涉及模式识别、机器学习、图像处理等技术领域。

背景技术

人脸检测技术最初起源于人脸识别，是计算机视觉领域中一个核心并且历史悠久的研究分支，是人脸相关应用里至关重要的第一步。在近几十年里，人脸检测已经引起了人们的高度重视，被认为是图像分析中成功的应用之一。面孔是复杂的、多维的、有意义的视觉刺激，开发一个面部识别的计算模型是困难的。计算机通过运用一定的搜索匹配方法在给定的图像中检测出是否包含人脸，并确定人脸所在的具体位置、大小、姿态的过程就是指人脸检测，同时其被认为是人脸相关研究应用的前提和基础，用它来辅助人们完成对生物特征的识别，将是一件具有重大研究价值和意义的事情。

人脸检测是许多后续人脸分析相关应用的关键步骤，例如人脸对齐、人脸识别、人脸跟踪等。人脸检测效果的优劣对后续相关应用的性能起着决定性作用，它也属于目标检测的一种特定情况。人脸检测的最终目的就是在给定任意图像中判断是否有人脸的存在，若存在人脸，需要定位其具体的位置，并用矩形框示意。虽然这对于人类而言似乎是一项毫不费力的工作，但是于计算机来说，则是十分艰巨而又繁杂的，它不同于人的大脑神经，可以通过视网膜上的成像条件反射的进行分析，立马得出我们想要的结果。计算机要在输入的图像中搜索到人脸的具体位置十分具有挑战性，由于每个人的相貌不同，人脸成像的角度(如1.1节所提到的pitch、yaw、roll三个维度)，相关的挑战还可以归因于姿态，尺度，面部表情，遮挡和照明条件的变化，这些都给计算机的检测带来了极大的困难。

随着环境应用的复杂化以及卷积神经网络的飞速发展，其在各种视觉任务中都有出色的表现，例如人脸识别，目标分类和物体检测。特别是文章训练了一个叫做AlexNet的八层神经网络，并且显示深度卷积神经网络在大规模图像分类任务中可以显著优于其他方法。对于目标检测任务，提出的R-CNN方法使用图像分割技术，选择性搜索^[51]，找到候选图像区域，并且使用AlexNet的版本对候选图像进行分类，调整PASCAL VOC数据集中的目标对象。目前，采用卷积神经网络结构进行人脸检测存在以下问题：一、现有的人脸检测算法大多采用滑动窗口的方法扫描图片，滑动窗口的数量过多容易导致计算量较大，从而影响检测速度；二、传统的卷积神经网络各网络层的权值均采用随机初始化的方式，容易造成网络收敛慢、训练时间长的问题。

针对上述两个问题，本文采用一种新的级联结构进行候选框筛选和特征提取，改进的结构中，通过将传统的CNN中的大卷积核变换成一个个小的卷积核，对每个级联阶段进行困难样本挖掘，联合训练，使用软-非极大值抑制法对图像进行多尺度检测，得到精度更高的模型，提高网络模型的泛化能力。

发明内容

本发明提出一种级联卷积神经网络，该方法首先将低分辨率的窗口(12*12)输入四层卷积神经网络(Proposal network，PN)快速排除大量非人脸窗口，然后训练分类阈值，将通过第一阶段的候选窗口，调整成不同尺度的图像金字塔。将图像金字塔中对应分辨率的图像分别输入网络的两个分支(Multi-scale network，MSN-24代表输入为24*24的分支，MSN-48同上)用于MSN-24窗口的卷积特征(概率分布)与MSN-48的融合，对不同的阶段进行困难样本挖掘，进行联合在线训练，采用软-非极大值抑制算法对数据集进行多尺度测试，最后完成人脸分类和边界框回归两个任务，实现人脸检测。

一种基于级联卷积神经网络的人脸检测方法，所述方法包括以下阶段：

第一阶段：先将低分辨率的窗口12*12输入四层卷积神经网络即Proposalnetwork，PN，快速排除大量非人脸窗口；

第二阶段：将通过第一阶段的候选窗口，调整成不同尺度的图像金字塔；将图像金字塔中对应分辨率的图像分别输入网络的两个分支用于MSN-24窗口的卷积特征(概率分布)与MSN-48的融合；

第三阶段：将图像金字塔中对应分辨率的图像分别输入网络的两个分支，用于最终人脸分类和边界框回归。

作为本发明的一种改进，所述第三阶段中，针对样本的损失值进行排序，将损失值较大的困难样本进行联合在线训练，采用软-非极大值抑制算法对数据集进行多尺度测试，最后完成人脸分类和边界框回归两个任务，实现人脸检测。

作为本发明的一种改进，第二阶段中，每个训练样本首先以间隔为5构建图像金字塔，最小的图片是原图的1/2⁵，通过在训练样本上以步长为8滑动提取候选窗口，正样本选择与ground-truth的重叠率大于0.8的候选窗口；而负样本选择与ground-truth的重叠率最大不超过0.5的候选窗口，用于网络模型的训练。

作为本发明的一种改进，所述第一阶段中，PN是一个四层卷积神经网络，主要用来生成候选窗和边框回归向量，首先将输入图片调整到12*12的尺寸，然后通过一个3*3的卷积核，步长大小为1，得到一个10*10的特征图，用2*2的池化模板最大值池化该特征图得到5*5大小的图片；然后依次再通过3*3的卷积核做两次卷积，最后通过边界框回归校正候选窗，然后使用非极大值抑制(NMS)合并重叠的候选框。

作为本发明的一种改进，MSN由两个分支MSN-24，MSN-48通过卷积特征融合而成，通过PN的候选窗口，将图像金字塔中对应分辨率的图像输入到该网络，通过一个3*3大小，步长为1的卷积核，得到22*22大小的特征图；然后运用3*3的池化模板，步长为2对窗口最大值池化，得到大小为11*11的卷积特征，再对改特征图进行相同卷积操作，得到4*4*46的卷积特征，最后进行两层卷积，得到一个1*1的96维卷积特征，我们可以它看成特征图上对应特征点的概率分布；分支MSN-48卷积步骤与上一层类似。通过训练分类阈值，将分类置信度高于阈值的MSN-24卷积层特征与MSN-48对应的特征融合，形成一个1*1*288大小的新卷积特征，通过全卷积训练，完成人脸分类和边界框回归。

作为本发明的一种改进，所述第三阶段中，在每次训练的循环(batch)中，计算候选区域损失函数大小，然后将这些候选区域按照损失值进行排序，挑选出损失大小前百分之七十的目标区域作为困难样本，忽略剩下百分之三十的简单样本。困难样本挖掘不仅可以增强深层次的网络对困难样本的判别能力，同时也减少了训练时间。

作为本发明的一种改进，所述第二阶段将通过第一阶段的候选窗口，调整成不同尺度的图像金字塔中的缩放因子为0.814。

因为卷积层中所有的卷积步长都小于卷积核的大小，这就意味着滑动窗口在滑动过程中产生的窗口之间相互影响，原本不存在人脸区域的地方可能因受到存在人脸的区域而误检。因此为了准确检测到不同大小的人脸，需要将输入的原始图片调整成不同尺度大小的图像金字塔，然后在不同层次金字塔之间对图像进行缩放，重新生成Heat-map，本发明中缩放因子为0.814时，检测效果最好，通过降低与检测框M有重叠的相邻检测框的检测分数，取代直接删除该窗口，对NMS算法有效改进。越是与M高度重叠的检测框，越有可能出现False positive结果，它们的分数衰减应该更严重，而非全部抑制

本方案主要通过两项任务来训练人脸检测器：人脸和非人脸的分类以及边界框回归。

(1)人脸分类：将学习目标表述为一个二分类问题。对于每个样本x_i，我们首先计算一个二维向量其中代表着样本x_i在第j个池化层的特征，代表第j个池化层的非线性转换函数，其公式如下(1)所示。

然后运用非线性激活函数计算样本x_i可能为人脸的概率其中代表着的第一个元素，一样，计算公式如下(2)所示。

利用交叉熵函数来计算损失，如下(3)：

其中p_i代表着由网络计算出的样本x_i可能为人脸的概率；符号

(2)边界框回归：最后的每个候选窗口，将预测边界框和ground truth做比较(例如边框的左上角坐标和长宽大小)。学习目标可以被归纳为回归问题，我们对每个样本x_i，将运用欧几里得距离计算损失，具体计算公式如下(4)所示

其中是网络计算得出的目标结果；是ground-truth的坐标(一共包含四个坐标：左上角的横纵坐标以及检测窗口的高度和宽度)，

(3)联合训练：级联的缺点是不太好直接联合训练，而这恰恰破坏了卷积神经网络可以端到端训练的性质，由于传统的级联训练往往是单步求解最优，得到的结果可能没有多步联合最优的效果好，所以本实验通过反向传播进行联合训练。针对本级联结构，整个框架学习目标函数可以由式(5)表示，针对背景图片我们只计算将另一个的损失设置为0。

其中N是训练样本的个数，α_j代表着任务的重要程度，本实验将在训练PN时使用参数α_det＝1，α_box＝0.5，在训练MSN时使用参数α_det＝0.5，α_box＝1，其中代表着样本类型。

相对于现有技术，本发明的有益效果如下：

1.本发明提供的基于级联卷积网络结构人脸检测方法，通过利用多分辨率的人脸特征信息，快速排除大量非人脸窗口的同时，在多种困难场景下准确定位人脸；

2.本发明提供的基于级联卷积网络结构人脸检测方法，与基于特征提取加分类器分类的人脸检测方法和传统的卷积网络人脸检测方法进行了对比，对输入图像的要求较低，在背景复杂的情况下有一定的抗干扰力，在保持一定的检测速度下，在公开数据集上进行了效果验证。

附图说明：

图1是算法总体结构框图；

图2是PN结构框图；

图3是MSN结构框图。

具体实施方式：

下面结合附图和实例对本发明进行详细的叙述。

在本发明中，将输入图片进行缩放得到不同的尺度，从而形成图像金字塔，具有尺度不变性。图像检测过程一共分为三个阶段，第一个阶段为提案网络(PN)，用低像素浅层卷积神经网络结构，快速排除大量候选背景窗口，如图2所示；第二阶段将通过第一阶段的候选窗口调整成不同大小的图像金字塔，对应输入到第三个阶段。第三阶段为多尺度结合网络(MSN)，将两个分支的多尺度卷积特征融合，增强对困难样本的判别能力，训练得到二维人脸概率分布向量和四维边界框回归向量，结构如图3所示。

PN是一个小型四层全卷积网络，主要用来生成候选窗(Region Proposal)和边框回归向量(Bounding Box Regression Vectors)。首先将输入图片调整(resize)到12*12的尺寸，然后通过一个3*3的卷积核，步长大小为1，得到一个10*10的特征图，用2*2的池化模板最大值池化该特征图得到5*5大小的图片。然后依次再通过3*3的卷积核做两次卷积，最后输出一个二维向量和一个四维向量。其中二维向量代表是否为人脸的概率大小，四维向量代表人脸边框(Bounding Box)的四个位置信息(分别是左上角的横纵坐标，矩形框的长和宽)。通过边界框回归校正候选窗，然后使用非极大值抑制(NMS)合并重叠的候选框。检测图像中人脸个数有限，其余的候选窗口均为背景图像，由此可知，训练过程中，正样本的数量极其有限，而负样本趋于无穷。为了避免检测器决策偏向负样本特征，不能所有负样本用于训练，需要保证正负样本比的平衡性，而本网络正好在检测的开始就快速筛选了大量背景窗口，适合被引入神经网络的一个或多个层次，和Faster R-CNN中的RPN一脉相承。

MSN由两个分支MSN-24，MSN-48通过卷积特征融合而成。通过PN的候选窗口，将图像金字塔中对应分辨率的图像输入到该网络，通过一个3*3大小，步长为1的卷积核，得到22*22大小的特征图；然后运用3*3的池化模板，步长为2对窗口最大值池化，得到大小为11*11的卷积特征，再对特征图进行相同卷积操作，得到4*4*46的卷积特征，最后进行两层卷积，得到一个1*1的96维卷积特征，我们可以它看成特征图上对应特征点的概率分布。分支MSN-48卷积步骤与上一层类似，由于输入图像像素较高，处理数据量大，在第三层卷积时，同时添加了一个池化层，与上一层进行同样的卷积操作，最终得到一个1*1*192维的卷积特征，本实验通过训练阈值，将分类置信度高于阈值的MSN-24卷积层特征与MSN-48对应的特征融合，形成一个1*1*288大小的新卷积特征，完成人脸分类和边界框回归。

本发明在训练过程中自适应的进行困难样本挖掘。实验训练了两个不同的网络模型进行对比(有和没有困难样本挖掘)。表1显示了两个测试集(PASCAL FACE、FDDB)上的实验结果，实验结果表明，困难样本在线训练有助于提高检测性能，平均可以带来1.5％的性能提高。

表1困难样本挖掘在不同数据集中的表现

对于每一张图，整个CNN只需要前向计算一次生成特征图即可，然后根据特征图的位置映射到原始输入图片上，实际上卷积网络也相当于实现了滑动窗口，滑动步长为卷积层步长的乘积。但是因为卷积层中所有的卷积步长都小于卷积核的大小，这就意味着滑动窗口在滑动过程中产生的窗口之间相互影响，原本不存在人脸区域的地方可能因受到存在人脸的区域而误检。因此为了准确检测到不同大小的人脸，就需要将原始图片缩放到不同尺寸，重新生成Heat-map，最后将不同大小的人脸候选框通过非极大值抑制法进行人脸候选框过滤，得到最终结果。为了找出最佳尺寸缩放系数，本实验通过改变缩放因子f，观察检测精度和召回率之间的关系。实验结果如表2所示，从结果中可以看出，不同的缩放程度，对实验结果都有一定的影响，其中当参数f＝0.814时，检测效果最好，而当缩放因子再逐渐增加(f＝0.917)，或者逐渐减小时(f＝0.782、0.607)，效果就开始有所下降。

表2尺寸大小对检测器精度和召回率的影响

f	Average Precision
		0.912	90.8％
0.814	93.9％
		0.782	92.7％
0.607	89.5％

本发明中PN产生大量候选区域窗口和MSN重新确定窗口的过程中，都要用到非极大值抑制进行后处理，通常将检测框按得分排序，然后保留得分最高的候选框，同时删除与该框重叠面积大于一定比例的其它框。在这种情况下，如果一个真实物体在重叠区域出现，则将导致对该物体的检测失败并降低了算法的平均检测率(Average Precision)。如果按照传统的NMS进行处理，首先选中得分最高的检测框，然后其他较低分数的检测框就可能会因为与之重叠面积过大而被删掉。其次，NMS的阈值也不太容易确定，如果设置偏小，其他框会因为和最高得分检测框重叠面积较大而被删掉，如果设置过高又容易增大误检。所以本发明采用软-非极大值抑制法(Soft-NMS)，不删除所有重叠大于阈值的框，而是降低其置信度，通过一个基于与重叠程度相关的函数降低相邻检测框的分数而非彻底剔除。虽然分数被降低，但相邻的检测框仍在物体检测的序列中。

本发明采用的Soft-NMS，通过降低与最高分检测框(M)有重叠的相邻检测框的检测分数，对NMS算法有效改进。越是与M高度重叠的检测框，越有可能出现错误正样本(Falsepositive)，它们的分数衰减应该更严重。因此，本发明运用两种改进的分数重置函数进行实验，一种是线性加权法，如公式6所示：

M为当前得分最高框，b_i为待处理框，b_i和M的IoU越大，b_i的得分S_i就下降的越厉害。当相邻检测框与M的重叠度超过重叠阈值Nt后，检测框的检测分数呈线性衰减。在这种情况下，与M相邻很近的检测框衰减程度很大，而远离M的检测框并不受影响。另一种是高斯加权法，如公式7所示：

Soft-NMS不仅和传统NMS一样具有重叠阈值参数N_t，高斯加权法中还有参数σ。本发明基于所提出的级联卷积神经网络针对两种非极大值抑制方法在Pascal Faces数据集上进行性能对比。我们在不同参数设置下比较了传统的NMS和两种Soft-NMS(G代表高斯加权，L代表线性加权)对检测效果的影响，将N_t分别设置为0.3，0.5，0.7，在Pascal Faces数据集上进行验证实验，并记录表现最好的参数σ大小。结果如下表1所示，可以看出，基于Soft-NMS的方法基本可以获得平均1％的性能提升，其中当N_t＝0.5，σ＝0.6时，取得最好效果，且该方法不增加额外的训练和计算负担。

表3三种NMS在不同阈值下PASCAL FACE上的表现

本发明将所提出的人脸检测算法在Pascal Faces和FDDB两个人脸数据集进行测试，并与一些经典流行算法进行了比较。下表4中展示了本算法在Pascal Faces数据集上的检测结果。其中对比的方法有本文所提出的算法Ours、Faceness、DDFD、HeadHunter、DPM的人脸检测结果。可以看出本文提出的方法相比Faceness、DDFD超过将近两个百分点，同时和两个商业系统(Picasa和Face++)的人脸检测结果比较也具有一定的优势。

表4 Pascal数据集结果

Method	Average Precision
		Ours	93.92％
Faceness	92.11％
		DDFD	91.79％
DPM	90.29*
		HeadHunter	89.63％

本方法在FDDB数据集上通过两种不同的评估方法得出的检测结果，及与一些其他流行方法的对比。对比的方法包含有Faceness、DDFD、Cascade CNN、DP2MFD、CCF、HeadHunter和第三章本文提出改进的ACF-DPF-Ours等。FDDB数据集离散分数的检测结果为93.4％；相比其他卷积神经网络(Faceness：90.3％、DDFD：84％、Cascade CNN：85.6％)的效果有一定的效果提升，而对于一些经典方法(DP2MFD：91.3％、Yanet：85.2％、ACF-DPF-Ours：85.41％)和将卷积特征和传统特征相结合的方法CCF：85.9％效果要显著提高；FDDB数据集连续分数的检测结果为69.5％，本方法连续的得分和其他较深的卷积神经网络相比没有较大优势，但对于经典的传统特征加分类器的方法效果显著提高。在连续得分中，效果仍不Jointcascade，经分析主要原因是Joint cascade在训练时不仅人脸框标注结果和额外的人脸关键点信息，训练模型大，时间更长。

需要说明的是上述实施例仅仅是本发明的较佳实施例，并没有用来限定本发明的保护范围，在上述基础上进行的等同替换或者替代均属于本发明的保护范围。

Claims

1.一种基于级联卷积神经网络的人脸检测方法，其特征在于，所述方法包括以下阶段：

第一阶段：先将低分辨率的窗口12*12输入四层卷积神经网络即Proposal network，PN，快速排除大量非人脸窗口；

2.根据权利要求1所述的基于级联卷积神经网络的人脸检测方法，其特征在于,所述第三阶段中，针对样本的损失值进行排序，将损失值较大的困难样本进行联合在线训练，采用软-非极大值抑制算法对数据集进行多尺度测试，最后完成人脸分类和边界框回归两个任务，实现人脸检测。

3.根据权利要求2所述的基于级联卷积神经网络的人脸检测方法，其特征在于，第二阶段中，每个训练样本首先以间隔为5构建图像金字塔，最小的图片是原图的1/2⁵，通过在训练样本上以步长为8滑动提取候选窗口，正样本选择与ground-truth的重叠率大于0.8的候选窗口；而负样本选择与ground-truth的重叠率最大不超过0.5的候选窗口，用于网络模型的训练。

4.根据权利要求2或3所述的基于级联卷积神经网络的人脸检测方法，其特征在于，所述第一阶段中，PN是一个四层卷积神经网络，主要用来生成候选窗和边框回归向量，首先将输入图片调整到12*12的尺寸，然后通过一个3*3的卷积核，步长大小为1，得到一个10*10的特征图，用2*2的池化模板最大值池化该特征图得到5*5大小的图片；然后依次再通过3*3的卷积核做两次卷积，最后通过边界框回归校正候选窗，然后使用非极大值抑制(NMS)合并重叠的候选框。

5.根据权利要求4所述的基于级联卷积神经网络的人脸检测方法，其特征在于，MSN由两个分支MSN-24，MSN-48通过卷积特征融合而成，通过PN的候选窗口，将图像金字塔中对应分辨率的图像输入到该网络，通过一个3*3大小，步长为1的卷积核，得到22*22大小的特征图；然后运用3*3的池化模板，步长为2对窗口最大值池化，得到大小为11*11的卷积特征，再对改特征图进行相同卷积操作，得到4*4*46的卷积特征，最后进行两层卷积，得到一个1*1的96维卷积特征。

6.根据权利要求5所述的基于级联卷积神经网络的人脸检测方法，其特征在于，所述第三阶段中，在每次训练的循环(batch)中，计算候选区域损失函数大小，然后将这些候选区域按照损失值进行排序，挑选出损失大小前百分之七十的目标区域作为困难样本，忽略剩下百分之三十的简单样本。

7.根据权利要求6所述的基于级联卷积神经网络的人脸检测方法，其特征在于，所述第二阶段将通过第一阶段的候选窗口，调整成不同尺度的图像金字塔中的缩放因子为0.814。