CN109886083A

CN109886083A - 一种基于深度学习的实时场景小脸检测方法

Info

Publication number: CN109886083A
Application number: CN201910003383.0A
Authority: CN
Inventors: 杭丽君; 丁明旭; 叶锋; 赵兴文; 宫恩来
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-01-03
Filing date: 2019-01-03
Publication date: 2019-06-14

Abstract

本发明提出了一种基于深度学习的实时场景小脸检测方法，本发明首先将包含更多小脸信息的更底层特征和涵盖丰富语义特征的顶层特征层融合起来进行级联检测，来提高模型的小脸检出能力。其次根据实时监测场景下的人脸尺度调整生成的预测框尺度和比例。最后本发明在预测阶段引入soft and hard nms算法筛选预测框，将softnms和传统nms算法融合，设立两个阈值将预测框按照IoU划分为不同段，对处于不同阈值范围内的预测框置信度分数采取不同的方式进行重打分，更精准地剔除不必要的预测框。本发明更容易整合在基于深度学习任务中的人脸检测架构中，适用于人流量较大场合。

Description

一种基于深度学习的实时场景小脸检测方法

技术领域

本发明涉及目标检测领域，具体涉及一种基于深度学习的实时场景小脸检测方法。

背景技术

近年来深度学习方案的引入使得分类、识别和目标检测技术不断的趋于完善，相应地，相关技术的成熟也将深度学习推向众多应用领域并且获得巨大的发展和实际的应用价值。在这众多领域之中人脸检测的研究如火如荼的开展，无论是日常生活中常用的各类摄像头或者是大型商场，客运站，展览馆等人流密集的公共场所的监控设施，往往需要清楚地辨识关键人物，这就需要采取人脸检测和识别的技术。但在这些场景下人员的集散往往是流动且无序的，同时目标众多，背景环境复杂，监控设备本身的噪音等等因素使得实时场景下的人脸检测，尤其是小脸检测面临着巨大的考验。恰恰在应用场景下良好的小脸检测性能是弥足重要的，这就要求投入应用的模型在满足实时检测的速度条件下又需要同时具备非常鲁棒的小脸检出性能。

在深度学习技术中，分类网络是目标检测等任务的基础，近年来最初的AlexNet架构的提出使得神经网络重新占据分类任务的主流地位。紧随其后的更深层次的VGG16/VGG19探索了在卷积神经网络架构中深层次的网络对整体架构带来的性能改进，以及同期的GoogleNet，提出了“inception”架构的概念，解决了深度和宽度的受限。再到后来的残差网络ResNet提出了新颖的resnet block架构，采用精巧的短连接克服网络深度所带来的梯度消失问题。直到2017年发表的DenseNet，提出采取密集连接的思想使得分类网络的精度和速度进一步提升，计算负担进一步减轻。在这个发展过程中分类网络的性能不断提升，以这些分类网络做基础的目标检测任务也因此不断的成熟。

采用这些优良性能的卷积神经网络作为特征提取基础网络的目标检测框架主要有两大类别，一种是基于提出区域候选框方案的两步网络，一种是不需要提出候选框的单次网络。第一类网络中非常著名的有R-CNN，Fast R-CNN，Faster R-CNN等。R-CNN的每一个候选框都需要运行一次CNN，这造成时间成本消耗巨大；Fast R-CNN对整张图只运行一次CNN提取特征，因此速度得到了较好的提升，Faster R-CNN，将卷积特征直接输入到RPN得到候选框的特征信息，进一步提高了速度与准确率。第二大类别方案较为著名的有You OnlyLook Once(YOLO)和Single Shot MultiBox Detector(SSD)。YOLO基于一个单独的end-to-end(端对端)网络，将物体检测问题定义为分类置信度和bounding box(坐标框)的回归问题，提高了检测的速度与精度；SSD相比Fast R-CNN系列，删除了bounding box proposal(提出区域候选框)这一步骤及后续的重采样步骤，因而速度更快，达到59frames persecond(FPS)，使得速度与进度进一步提高。

针对实时场景下的小脸检测，不但对模型检测精确度提出了要求，也对运行速度提出了要求。在基于深度学习的目标检测架构中，单步方案在速度和精度这两点取得了一个相当高的均衡比。因此采用该类结构中性能良好的经典SSD框架，它具有比较全面的优势：(1)首先它是一个单步架构，可以轻易的实现端对端训练，并且其具有良好的泛化能力，相比其他方案可以更加轻松的整合到其他网络里；(2)其次它采取多尺度融合级联的方案，从不同尺度的特征图产生不同尺度的预测，通过宽高比来明确分层预测，使得分类器可以得到不同尺度的特征信息；(3)最后它速度足够快，具备良好的实时性能。尽管SSD框架在当前的目标检测任务中具有完善均衡的性能，然而即使如此在面对实时场景下的人脸检测，尤其是小脸检测，存在干扰众多、挑战性极大的任务时，其性能仍然略显不足。通过实验对比，直接采取传统SSD配置进行人脸检测，显示出来的弊端较严重，主要问题包括小脸检出率低下，漏检误检情况严重。

发明内容

本发明针对现有技术的不足，提出了一种基于深度学习的实时场景小脸检测方法，以提高实际应用场景下的平均检测精度和达到良好的小脸检出能力。

本发明首先将包含更多小脸信息的更底层特征和涵盖丰富语义特征的顶层特征层融合起来进行级联检测，来提高模型的小脸检出能力。其次根据实时监测场景下的人脸尺度调整生成的预测框尺度和比例。最后本发明在预测阶段引入soft and hard nms算法筛选预测框，将softnms和传统nms算法融合，设立两个阈值将预测框按照IoU划分为不同段，对处于不同阈值范围内的预测框置信度分数采取不同的方式进行重打分，更精准地剔除不必要的预测框。

本发明的技术方案具体实现如下：

(一)将包含更多小脸信息的更底层特征和涵盖丰富语义特征的顶层特征融合起来进行级联检测，来提高模型的小脸检出能力，具体实现细节如下：

(a)深度学习分类网络的基础架构中，图片信息由最初的数据读入层进入网络，每一层几乎都经历与卷积相关的操作，在层层卷积之中，最初始的图片信息尺度不断变化。越靠近底层网络的特征图分辨率越大，感受野越小，相应地就包含越多的图片细节信息，这对于小目标检测尤为重要。经过层层卷积之后原图的细节信息不断被折叠，传递，完善，特征图分辨率降低，感受野变大，图片信息逐渐转变为更为丰富的语义特征，而这些特征有利于帮助网络理解图片，同时也使得网络掌握图片的全局信息。SSD提出融合不同尺度的特征层进行预测，这对于不同应用场景的泛化提供了可能。原作配置选择了六个不同的特征层进行融合，在这其中检测器所采用的最底层特征，也就是包含细节信息最丰富的特征来自conv4_3层，而该层经过层层卷积之后得到，此时特征图的一个像素相当于原图中8个像素，在不考虑其他的变化情况之下，conv4_3的特征图相对于将原图的感受野变为8*8＝64个像素，这就意味着原图片中小于64像素点的人脸信息在此时被网络所忽略。而在SSD中conv4_3已经是最终融合操作中选择的最底层特征层，也就是细节信息保留最多的特征层，由此可知整体网络架构必定遗漏了很多小脸的原始信息。目前两大类别的经典架构能检测出最小的人脸尺度大约在20×15个像素点左右，本发明的网络结构和算法的初衷是希望速度和精确度两个方面达到一个较高水平的均衡，拓展其对于小脸检测的性能。因此整体架构中的分类网络选择VGG16而不是VGG19作为特征提取的基础网络，遵循原作的处理去除VGG架构中的全连接层，将其最后的池化层改为卷积层，再外接3个卷积层用于特征提取。

(b)本发明用尽可能吸纳更底层的特征，同时也要包含足够丰富的语义特征供网络理解。基于此重新选择了来自conv3_3，conv4_3，fc7，conv6_2，conv7_2，conv8_2六个不同尺度作为检测器预测的特征提取层。此时当对conv3_3层进行卷积操作时，感受野的大小为4×4，相比conv4_3的8×8感受野，这种尺度的级别能够使得模型对于小脸预测作出较好的响应。而conv7_2,conv8_2已经经历了多次的卷积池化操作，原始图片在此时传递下来的信息已变为足够丰富的语义特征。这种融合策略下，特征层跨度较大，融合了几乎尽可能顶层和底层的特征，通过层次化的特征检测结构，可以覆盖各种尺度的人脸检测，充分利用了语义特征和底层特征，以及各种尺度的感受野信息，其检测能力得到了很好的优化。由后续的实验结果可知，本发明的融合策略较SSD原作而言，在不增加时间成本和计算负担的前提下，提高在视频以及实时场景下平均精度，并且在实时情景下对于小脸的检出性能有极大的优化，同时实时检测的速度也维持在较高水准。

(二)根据实时监测场景下的人脸尺度调整生成的预测框尺度和比例，设置生成预测框的长宽比例为1:1,1:1.3,1:1.5三种不同的比例。具体实现细节如下：

(a)SSD使用不同宽高比检测的单独预测器来预测框中的对象类别和偏移。在预测框的生成部分本发明沿用原作的方式，假设某一层大小为m×n×p通道的特征图，使用3×3的卷积核操作，若在特征图的每个位置预测K个box，那么对于每个box，预测输出包括一个是否是人脸的概率得分，以及相对于default bounding box的4个偏移值。这样特征图的每一个位置都需要(1+4)×k个预测器，在m×n的特征图上将产生(1+4)×k×m×n个预测输出。

(b)同时在实际检测场景下，例如监控设备/摄像头往往置在较高的位置，加之背景的复杂化，设备的噪音，人脸的信息在整个视频或者画面中所占的像素点非常的小，又加之视觉的直观效果，人脸在设备下偏向于1:1的人脸比例，再综合不同人脸的形状，本发明在1:1的基础上设置生成预测框的长宽比例为1:1,1:1.3,1:1.5三种不同的比例，相比原文的1:2,1:3等几种比例，选择更加适合人脸形状的比例框，既能提高预测框回归的准确性，同时减少不必要的预测框从而降低了时间成本。

(三)在预测阶段引入soft and hard nms算法筛选预测框，将softnms和传统nms算法融合，设立两个阈值将预测框按照IoU划分为不同段，对处于不同阈值范围内的预测框置信度分数采取不同的方式进行重打分，更精准地剔除不必要的预测框。具体实现细节如下：

(a)在预测阶段，网络为每个预测框中的每一个存在对象类别生成分数。SSD这种单步目标检测架构采取卷积网络对输入图片的每个像素点位置生成预测框坐标，并且经过分类器对预测框进行打分。而网络初步生成的预测框大部分都是冗余无意义的，因此要进行筛选，尽可能让每一个被检测目标周围只留下一个被认为是最贴近的框。传统nms就是解决该问题的有效办法，其大致步骤是，网络将预测框打分后按照置信度大小顺序排列，提取出置信度最大的框作为max score，然后遍历剩下集合中所有的框与max score计算IoU(一种重叠方式)，将IoU超过预设值的框删除掉，一轮筛选完成后继续选出此时剩下集合中的max score，继续重复以上步骤，直至筛选完毕。这种非最大抑制的方法有效的剔除了大量冗余的框，避免了网络在迭代中增加不必要的计算负担，并且提高了网络精度。但是传统nms的硬阈值筛选方式使得在很多实际情况下不能准确的进行抑制，如果阈值设置过小就会使得邻近的目标对应的框可能会被融合掉而只留下一个框，当阈值设置过大时，又会导致不该被保留的框没能被剔除，形成假阳性样本。因此Non Maximum Suppression(NMS)的性能在一定程度上被这种硬阈值筛选方式所限制。其后有作者提出softnms改进传统nms抑制方式，其大致做法在前期同nms一致，对所有预测框按照置信度分数大小排序，选择出maxscore，然后遍历剩余框集合计算IoU交并比，此时将IoU超过预设阈值的预测框，送入更加连续的高斯/线性函数进行重打分机制，而不是直接剔除，对于处于阈值之下的预测框同样送入以上函数，但采取更小的惩罚因数进行重打分，更新置信度分数。这样的“软阈值”的筛选方式根据框的IoU以及远近关系更新置信度分数而不是直接剔除掉，这使得筛选进行的更加柔和连续，较大程度的保留需要的保留的框，抑制掉不需要的框。然而同时该种抑制方式也存在弊端，因为筛选预测框的初衷是对于一个目标只保留一个最贴切的预测框，而IoU的大小在一定程度上可以理解为两个框的远近关系，如果IoU较大那么说明两个框重叠较多，距离更近一些，若是IoU较小，那么在大多数情况下说明两者重叠较小，距离远一些，然而若是IoU足够小，只有0.1或者0.2左右，而他们又对应着同一类别的较高置信度的分数，那么往往他们几乎不太可能是同一个目标所对应的框。因此在这种情况下就不应该再对该类框的置信度分数施以惩罚。

(b)本发明设置两个阈值min和max，将预测框按照传统非最大抑制的初步做法，计算出每个预测框与最大置信度框的交并比(IoU)，对于IoU在min之下的的预测框，本发明认为其是上述中不应再施以惩罚的情况，对其置信度分数予以保留，对于处于min和medium之间的预测框，采用softnms中引入的高斯函数重打分，并且施以较小的惩罚的因数获得更新后的置信度分数，而对于IoU处于medium之上的预测框，同样送入高斯函数进行重打分机制，并且施以较重的惩罚因数。其对应函数为：

其中M对应每一轮筛选中的最大置信度的框，bi对应每一轮剩下集合中的第i个预测框，其原始置信度是Si，然后计算剩余集合中预测框与M的IoU(M,bi)，判断该IoU值与max以及min的大小，进入不同区段进行不同的重打分进程。

这种softnms和nms融合算法，不但减少了低于min的预测框的不必要的重打分操作，而且还让抑制操作更加精准，符合实际情况，也因此提升了预测阶段的速度，同时又使得重打分机制更加弹性化，实现精确抑制。本发明的soft and hard nms算法的提出相比softnms nms而言不但提高了预测阶段的速度，加快了预测进程，并且获得了精确度的较显著提升，同时很容易整合在任何检测网络。

有益效果：本发明为小脸检测提出了具有应用价值的检测模型和算法，它更容易整合在基于深度学习任务中的人脸检测架构中，适用于人流量较大场合，如摄像头，安防设备以及监控设施等实时场景下的人脸检测以及识别。

附图说明

图1为最优架构结构图

图2为在FDDB数据集下使用VGG16的改进方案和SSD结构的RP曲线比较(VGG16的改进方案为虚线，SSD结构为实线)

图3为在WiderFace数据集下使用VGG16的改进方案和SSD结构的RP曲线比较(VGG16的改进方案为虚线，SSD结构为实线)

图4为在FDDB数据集下，使用VGG 16与VGG 19作为基础网络进行改进的RP曲线(VGG 16为虚线，VGG19为实线)

图5为在WiderFace数据集下，使用VGG 16与VGG 19作为基础网络进行改进的RP曲线(VGG 16为虚线，VGG 19为实线)

图6为在FDDB数据集下，使用VGG 16改进的基础结构分别与nms、softnms、softand hard nms算法结合的RP曲线

图7为在Wider Face数据集下，使用VGG 16改进的基础结构分别与nms、softnms、soft and hard nms算法结合的RP曲线

图8为在Wider Face数据集下，使用VGG 16改进的基础结构分别与nms、softnms、soft and hard nms算法结合的RP曲线(其中(a)(c)(e)为SSD原作效果图，(b)(d)(f)为本发明架构实验效果图)

图9(a)(b)(c)(d)为摄像头下的本发明提出的小脸检测方法所得到的检测效果图

具体实施方式

一种基于深度学习的实时场景小脸检测方法，该方法具体包括以下步骤：

步骤(1)、将数据集中的图像读入网络结构，对图像经过卷积层，池化层提取图像特征，形成特征层；

步骤11)、使用VGG16网络作为基础网络，修改网络层以及辅助结构为去除了VGG16基础网络架构中的全连接层，将最后的池化层改为卷积层，再外接三个卷积层用于特征提取；

步骤12)、基于上述网络框架，采用selective search方法生成候选框，对人脸图像候选框进行特征提取，得到特征层。

步骤(2)、从提取的特征层中，选取能使网络模型实现最高预测效果的特征层，进行特征层融合；

步骤21)、根据步骤1所述提取的人脸图像特征，每个添加的特征层或者VGG16原有的特征层，使一组卷积滤波器产生固定的预测集合，为保证融合的特征层能够吸纳更底层的特征，并且包含最丰富的语义特征供网络理解，选取六个不同尺度的特征提取层作为检测器的预测；所述六个不同尺度的特征层分别为conv3_3，conv4_3，fc7，conv6_2，conv7_2，conv8_2层。

步骤22)、针对选取的六个不同尺度的特征层，这些特征层的通道数为C，大小为M×N，使用3×3×C的卷积核进行卷积，输出相关类别的得分分数以及与默认检测框的坐标偏移量。所述坐标偏移量为默认边界框的坐标与输出特征图边界框之间的相对距离。

步骤(3)、对融合的特征层进行分类预测，最后使用改进后的非极大值抑制算法剔除冗余的检测框，保留精准的检测框作为预测输出；

步骤31)、对选取的融合特征层进行分类预测，判断是否存在对应物体，生成对应置信度S_i；

步骤32)、设置两个阈值最小min和最大max；

步骤33)：使用soft and hard nms算法筛选预测框

计算出每个预测框与最大置信度预测框的交并比IoU，对于交并比IoU在min之下的的预测框，不施以惩罚，对其置信度分数予以保留；对于处于min和max之间的预测框，在非极大值抑制算法中引入的高斯函数重打分，并且施以较小的惩罚的因数获得更新后的置信度分数，而对于IoU处于max之上的预测框，同样送入高斯函数进行重打分机制，并且施以较重的惩罚因数；其对应函数为：

步骤34)、计算剩余集合中预测框与M的IoU(M,bi)，判断该IoU值与max以及min的大小，进入不同区段进行不同的重打分进程；公式中M对应每一轮筛选中的最大置信度预测框，bi对应每一轮剩下集合中的第i个预测框，其原始置信度是Si，σ表示正态分布的标准偏差；

步骤35)、输出筛选过后的预测框。

如图1最优架构结构图，图4和图5分别为在FDDB数据集和在WinderFace数据集下使用VGG16与VGG19作为基础网络进行改进的RP曲线比较，经过对比，使用VGG16网络而不是vgg19网络作为基础网络，修改网络层以及辅助结构为去除了VGG16基础网络架构中的全连接层，将最后的池化层改为卷积层，再外接三个卷积层用于特征提取。基于上述网络框架，采用selective search方法对输入人脸图像生成候选框，对人脸图像候选框进行特征提取，得到特征层。根据每个添加的特征层或者VGG16原有的特征层，选取特定特征层进行融合,使一组卷积滤波器产生固定的预测集合，为保证融合的特征层能够吸纳更底层的特征，并且包含最丰富的语义特征供网络理解，选取六个不同尺度的特征提取层conv3_3，conv4_3，fc7，conv6_2，conv7_2，conv8_2层作为检测器的预测。针对选取的六个不同尺度的特征层，这些特征层的通道数为C，大小为M×N，使用3×3×C的卷积核进行卷积，输出相关类别的得分分数以及默认边界框的坐标与输出特征图边界框之间的相对距离。使用soft andhard nms算法筛选预测框，图6、图7和图8为VGG 16改进的基础结构分别与nms、softnms、soft and hard nms算法结合的RP曲线。其中图6在FDDB数据集上进行试验，图7和图8在Wider Face数据集下进行试验。运用soft and hard nm算法对选取的融合特征层进行分类预测，判断是否存在对应物体，生成对应置信度S_i。设置两个阈值最小min和最大max，计算出每个预测框与最大置信度预测框的交并比IoU，对于交并比IoU在min之下的的预测框，不施以惩罚，对其置信度分数予以保留；对于处于min和max之间的预测框，在非极大值抑制算法中引入的高斯函数重打分，并且施以较小的惩罚的因数获得更新后的置信度分数，而对于IoU处于max之上的预测框，同样送入高斯函数进行重打分机制，并且施以较重的惩罚因数。其对应函数为：

公式中M对应每一轮筛选中的最大置信度预测框，bi对应每一轮剩下集合中的第i个预测框，其原始置信度是Si，σ表示正态分布的标准偏差。计算剩余集合中预测框与M的IoU(M,bi)，判断该IoU值与max以及min的大小，进入不同区段进行不同的重打分进程，输出筛选过后的预测框。根据整个算法，图2和图3分别为在FDDB数据集合Winder face数据集下使用VGG16的改进方案和SSD结构的RP曲线比较。最终网络的检测效果如图9(a)(b)(c)(d)所示。

Claims

1.一种基于深度学习的实时场景小脸检测方法，其特征在于，该方法具体包括以下步骤：

步骤32)、设置两个阈值最小min和最大max；

步骤33)、使用soft and hard nms算法筛选预测框

步骤35)、输出筛选过后的预测框。

2.根据权利要求1所述的一种基于深度学习的实时场景小脸检测方法，其特征在于：步骤1)包括：

3.根据权利要求1所述的一种基于深度学习的实时场景小脸检测方法，其特征在于：步骤2)包括：

步骤21)、根据步骤1所述提取的人脸图像特征，每个添加的特征层或者VGG16原有的特征层，使一组卷积滤波器产生固定的预测集合，为保证融合的特征层能够吸纳更底层的特征，并且包含最丰富的语义特征供网络理解，选取六个不同尺度的特征提取层作为检测器的预测；

步骤22)、针对选取的六个不同尺度的特征层，这些特征层的通道数为C，大小为M×N，使用3×3×C的卷积核进行卷积，输出相关类别的得分分数以及与默认检测框的坐标偏移量。

4.根据权利要求3所述的一种基于深度学习的实时场景小脸检测方法，其特征在于：所述六个不同尺度的特征层分别为conv3_3，conv4_3，fc7，conv6_2，conv7_2，conv8_2层。

5.根据权利要求3所述的一种基于深度学习的实时场景小脸检测方法，其特征在于：所述坐标偏移量为默认边界框的坐标与输出特征图边界框之间的相对距离。