CN110321841A

CN110321841A - 一种人脸检测方法及系统

Info

Publication number: CN110321841A
Application number: CN201910595553.9A
Authority: CN
Inventors: 肖钧文
Original assignee: Chengdu Huina Intelligent Technology Co Ltd
Current assignee: Chengdu Huina Intelligent Technology Co Ltd
Priority date: 2019-07-03
Filing date: 2019-07-03
Publication date: 2019-10-11

Abstract

本发明涉及一种人脸检测方法及系统，该方法包括：获取待检测的原始图像；对原始图像进行肤色检测和前景检测，以提取所述原始图像中的疑似人脸区域，并为所述疑似人脸区域绘制目标框；限定目标框的尺寸，同时采用Sobel边缘检测算法，对所述目标框进行筛选，以滤除所述目标框中的非目标框；对筛选后的目标框依次进行R‑Net运算和O‑Net运算，得到包含真实人脸区域的目标框及每个所述目标框内用于指示人脸轮廓的五个特征点。本发明提供的技术方案，对传统MTCNN网络进行改进，结合肤色检测和前景检测的方法，对疑似人脸区域进行提取，在不减小原始图像的帧尺度的条件下大幅降低了运算量，平衡了检测精度和运算时间，降低了人脸检测设备的成本和提供了更高的通用性。

Description

一种人脸检测方法及系统

技术领域

本发明涉及图像处理技术领域，具体涉及一种人脸检测方法及系统。

背景技术

人脸检测目的就是在一张图中找到所有的人脸。现有技术中，人脸检测几种常用的方法：

1、早期的人脸检测方法是利用人工提取特征，训练分类器，进行人脸检测。例如opencv源码中自带的人脸检测器就是利用haar特征进行的人脸检测。这类方法的缺点就是在环境变化强烈的时候检测效果不理想，例如弱光条件，人脸不全。

2、从通用的目标检测算法中继承过来的人脸检测算法。例如利用faster-RCNN来检测人脸。效果不错，可以适应环境变化和人脸不全等问题，但是时间消耗很高。

3、鉴于以上两种方法的优劣势，就有人专门研究了人脸检测的算法，同时规避了以上两种的劣势，兼具时间和性能两个优势。级联结构的卷积神经网络，例如，cascadeCNN，MTCNN。MTCNN效果要比cascade CNN要好。

目前人脸检测任务主要是有两个方面的挑战：

1、召回率：复杂背景下的人脸的尺度变化和光照等外部因素变化导致的人脸分类困难(在CNN方法下解决此类问题一般都是通过加入此类样本进行训练解决问题)。

2、耗时：人脸多尺度位置定位导致的时间消耗。

MTCNN(Multi-task convolutional neural networks，多任务级联卷积神经网络)由三个部分组成，P-Net(proposal Net)，R-Net(refine Net)，O-Net(outputNet)。这三个部分是相互独立的三个网络结构，相互串联的关系。每个阶段的网络都是一个多任务网络，处理的任务有三个：人脸/非人脸的判断、人脸框回归、特征点定位。

P-Net(proposal Net)用来获取面部窗口和相应的候选框的回归向量，然后采用NMS(non-maximum suppression，非极大值抑制算法)对生成的面部候选框进行合并操作。

R-Net(refine Net)获取P-Net检测出来的人脸候选框，进行网络训练，进一步矫正人脸候选框的回归向量，并同样对候选框执行非极大值抑制。

O-Net(output Net)主要生成最终的人脸回归框和面部轮廓关键点。

MTCNN算法流程如下：

原始待检测图像经过resize，生成不同尺寸的图像构建图像金字塔作为网络的输入。

第一阶段，通过浅层的CNN(P-Net)快速生成候选窗口，该网络全部由卷积层实现，获取到候选人脸窗和人脸窗的回归向量，基于人脸窗的回归向量对人脸窗进行校正，然后对所有人脸窗进行NMS(非极大值抑制)，合并高度重叠的人脸窗。其具体过程就是通过图像金字塔生成的各种尺寸大小的图片，每一张图都进行一次前向传播，在每个图上得到的结果之后利用设置的阈值去掉一部分，剩下的根据缩放尺度还原到原图上的坐标，将所有的坐标信息汇总，然后NMS去除一部分冗余。

第二阶段，通过一个更复杂的CNN来处理第一阶段中被误认为人脸的“人脸窗”从而精细化人脸窗，第一阶段的输出作为第二阶段的输入，第一阶段最后产生了大量的bbox，将这些bbox根据缩放因子回推到原图上之后，将他们全部resize到24x24大小，作为第二阶段的输入。第二阶段经过网络之后同样产生大量的bbox，同样的根据阈值去掉一部分，再利用nms去掉一部分。

第三阶段，使用第二阶段中最后留下来的bbox，还原到原来的图片上之后，全部resize到48x48大小，然后输入到第三阶段，使用更为复杂的CNN进一步精细化结果并输出人脸上的5个特征点。

通过三阶的级联卷积神经网络对任务进行从粗到细的处理，并提出一种新的在线困难样本生成策略提升性能，最终输出人脸框位置和五个特征点位置。整个过程中会用到三次人脸窗回归和NMS，三个网络独立工作。

NMS(non-maximum suppression，非极大值抑制算法)

简单来说，输入一个图片，分类器会产生多个候选框，每个候选框会有一个得分，分数就是此框是人脸的概率。

例如一张图，一共产生了4个候选框，每个候选框都有一个得分。右下角的框得分最低，若NMS阈值为0.6，那么这个框直接被干掉，若有两个框，有一定重叠，要想去掉一个框那就得用上NMS了。一般有两种计算方式。IOU交/并，IOM交/max。如果比值大于阈值，那么直接干掉得分低的那个框。若某个框没有与其他框有交集，那么它不会被NMS干掉。

现有人脸检测方法的缺点在于：无法平衡检测的精度要求和低运算量的要求，精度比较高的检测方案运算量就很大；运算量小的检测方案精度就不够高。目前基于MTCNN的人脸检测是最轻量级且效果不错的人脸检测算法，但即使如此，在ARM3519上也只能达到1～2帧/秒，难以达到实时，而目前通过的改进方法一般为缩放图片、隔帧检测的基础上进行的，使得检测距离下降，目标丢失严重。

发明内容

有鉴于此，本发明的目的在于克服现有技术的不足，提供一种人脸检测方法及系统，在不减小原始帧尺度的条件下大幅降低运算量，平衡检测精度和运算时间。

为实现以上目的，本发明采用如下技术方案：

一种人脸检测方法，包括：

步骤S1、获取待检测的原始图像；

步骤S2、对所述原始图像进行肤色检测和前景检测，以提取所述原始图像中的疑似人脸区域，并为所述疑似人脸区域绘制目标框，若目标框太小则舍弃；

步骤S3、采用Sobel边缘检测算法，对所述目标框中的图片区域进行筛选，以滤除所述目标框中的非目标框；

步骤S4、对筛选后的目标框依次进行R-Net运算和O-Net运算，得到包含真实人脸区域的目标框及每个所述目标框内用于指示人脸轮廓的五个特征点。

优选地，所述方法还包括：

步骤S5、把步骤S4所述得到的目标框及五个特征点，按照视频帧的时间顺序逐帧输入跟踪模块，以使所述跟踪模块根据FAST角点检测算法，逐帧检测每个所述目标框内的角点，并计算角点强度，只保留上述五个特征点附近区域的强角点；

步骤S6、针对每一条已经存在的轨迹，利用轨迹滤波算法预测轨迹中的人脸在当前帧图像中可能出现的位置，或者对轨迹中的所述强角点利用光流跟踪算法预测轨迹中的人脸在当前帧图像中的位置；在预测的位置附近寻找当前帧的目标框，若能找到目标框，则将该目标框加入轨迹的尾端，作为轨迹的一部分。

优选地，所述步骤S4包括：

步骤S41、根据非极大值抑制算法，合并所述步骤S3输出的目标框；

步骤S42、根据所述步骤S42输出的目标框，从所述原始图像中截取人脸子图区域，并将所述人脸子图区域缩放到24*24像素大小；

步骤S43、对所述24*24像素大小的人脸子图区域进行R-Net运算；

步骤S44、根据非极大值抑制算法，合并所述步骤S43输出的目标框；

步骤S45、根据所述步骤S44输出的目标框，从所述原始图像中截取人脸子图区域，并将所述人脸子图区域缩放到48*48像素大小；

步骤S46、对所述48*48像素大小的人脸框进行O-Net运算；

步骤S47、根据非极大值抑制算法，合并所述步骤S46输出的目标框，得到包含真实人脸区域的目标框及每个所述目标框内用于指示人脸轮廓的五个特征点。

优选地，所述步骤S43包括：

输入所述24*24像素大小的人脸子图区域；

通过28个3*3*3的卷积核和3*3的max pooling后生成28个11*11的特征图；通过48个3*3*28的卷积核和3*3的max pooling后生成48个4*4的特征图；通过64个2*2*48的卷积核后，生成64个3*3的特征图；

将64个3*3的特征图转换为128大小的全连接层；将人脸分类问题转换为大小为2的全连接层，将人脸定位问题转换为大小为4的全连接层，将人脸轮廓的特征点转换为大小为10的全连接层。

优选地，所述步骤S46包括：

输入所述48*48像素大小的人脸框；

通过32个3*3*3的卷积核和3*3的max pooling后转换为32个23*23的特征图；通过64个3*3*32的卷积核和3*3的max pooling后转换为64个10*10的特征图；通过64个3*3*64的卷积核和3*3的max pooling后转换为64个4*4的特征图；通过128个2*2*64的卷积核转换为128个3*3的特征图；

通过全链接操作将所述128个3*3的特征图转换为256大小的全链接层，生成大小为2的人脸分类特征；大小为4的人脸定位的回归特征；大小为10的人脸轮廓的特征点的回归特征。

优选地，所述方法，还包括：

判断当前帧图像检测到的目标框的数量，若数量大于0，则进行轨迹跟踪，若数量为0，则进行轨迹预测，并将当前帧图像检测到的目标框与历史轨迹相匹配。

优选地，所述方法，还包括：

若进行轨迹预测，根据历史轨迹中的目标框的位置、速度信息，依次使用0.5HZ的低通滤波器进行速度滤波，使用一阶滞后滤波器进行位置预测，计算历史轨迹中的目标框在当前帧图像中的位置。

优选地，所述方法，还包括：

若进行轨迹跟踪，先利用所述强角点进行光流跟踪，得到历史轨迹中的目标框在当前帧图像中的位置。

历史轨迹中的目标框通过预测或跟踪得到其在当前帧图像中的位置，遍历每个历史轨迹的预测或跟踪的位置，判断当前帧输入的目标框和历史轨迹中的目标框在当前帧图像中的位置的距离distanceRatio是否小于目标框的宽乘以高，若是，则认为该条历史轨迹与当前目标框最匹配，并将当前目标框加入该历史轨迹中；

循环结束后，如果还有未加入历史轨迹的目标框，则认为是新的目标框出现了，创建新的跟踪轨迹；

通过时间戳判断是否有历史轨迹没有更新，如果有历史轨迹没有更新，则进行目标框位置预测，并且进行目标框丢失计数，如果计数大于设置的阈值7，就删除该历史轨迹；

判断跟踪输出的队列是否为空，不为空则向用户输出所述目标框内找到所有能够指示人脸轮廓的特征点。

优选地，所述方法，还包括：

对任一历史轨迹，计算输入目标框和历史轨迹中的目标框的交叠面积overlapRatio、目标框大小比例areaRatio、目标框的运动速度预测motionRatio、目标框的分数信息Score；

根据公式(1)计算tempRatioSum的值：

tempRatioSum＝DISTANCE*distanceRatio+AREA*areaRatio+MOTION*motionRatio+OVERLAP*overlapRatio+Score；(1)

其中，DISTANCE、OVERLAP、AREA、MOTION的值由用户预设；

对所有的历史轨迹进行遍历，取tempRatioSum最小值时所对应的历史轨迹，将该目标框加入该历史轨迹中。

另外，本发明还提出了一种人脸检测系统，包括：

获取模块，用于获取待检测的原始图像；

提取模块，用于对所述原始图像进行肤色检测和前景检测，以提取所述原始图像中的疑似人脸区域，并为所述疑似人脸区域绘制目标框，若目标框太小则舍弃；

检测模块，用于采用Sobel边缘检测算法，对所述目标框中的图片区域进行筛选，以滤除所述目标框中的非目标框；

运算模块，用于对筛选后的目标框依次进行R-Net运算和O-Net运算，得到包含真实人脸区域的目标框及每个所述目标框内用于指示人脸轮廓的五个特征点。

本发明采用以上技术方案，至少具备以下有益效果：

本发明对传统MTCNN网络进行改进，结合肤色检测和前景检测的方法，对疑似人脸区域进行提取，限定目标框的尺寸，同时对疑似目标框区域采用Sobel边缘检测滤除部分非目标框(此步骤了代替了现有技术中MTCNN网络的P-Net运算)，在不减小原始图像的帧尺度的条件下大幅降低了运算量，平衡了检测精度和运算时间，降低了人脸检测设备的成本和提供了更高的通用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种人脸检测方法的流程图；

图2为本发明另一实施例提供的一种人脸检测方法的流程图；

图3为本发明一实施例提供的一种人脸检测系统的示意框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

参见图1，本发明一实施例提供的一种人脸检测方法，包括：

步骤S1、获取待检测的原始图像；

需要说明的是，所述步骤S2中，若目标框太小则舍弃，是指若目标框小于预设尺寸，则舍弃。

需要说明的是，本发明提供的这种人脸检测方法，适用于在对人脸检测设备功耗和设备体积要求比较高，且需要实现较快的检测速度的人脸检测场景，例如IPC设备(Inter-Process Communication，进程间通信，IPC在监控系统中指的是网络摄像机，也就是前端监控设备，例如探头，有固定的MAC位址可设置IP地址，可通过互联网远程监控)、人脸考勤设备、人脸闸机、手机端人脸检测等等。

可以理解的是，本发明对传统MTCNN网络进行改进，结合肤色检测和前景检测的方法，对疑似人脸区域进行提取，限定目标框的尺寸，同时对疑似目标框区域采用Sobel边缘检测滤除部分非目标框(此步骤了代替了现有技术中MTCNN网络的P-Net运算)，在不减小原始图像的帧尺度的条件下大幅降低了运算量，平衡了检测精度和运算时间，降低了人脸检测设备的成本和提供了更高的通用性。

优选地，所述方法，还包括：

需要说明的是，所述步骤S6包括：

保留所述步骤S5检测出的五个特征点的附近区域内的强角点；

若五个特征点附近区域内没有合适的角点，则扩大区域(最大为人脸框的区域)，直到找到足够数量的角点用于光流跟踪；

对五个特征点附近区域内的角点强度大于阈值的角点进行轨迹跟踪。

优选地，所述步骤S4包括：

步骤S43、对所述24*24像素大小的人脸子图区域进行R-Net运算；

步骤S46、对所述48*48像素大小的人脸框进行O-Net运算；

优选地，所述步骤S43包括：

输入所述24*24像素大小的人脸子图区域；

优选地，所述步骤S46包括：

输入所述48*48像素大小的人脸框；

优选地，所述方法，还包括：

需要说明的是，具体实践中，将检测目标组成一个目标队列，输入跟踪模块，输入信息包括：检测帧的时间戳，目标总数，单个目标的坐标、宽高、分数信息。

判断输入目标个数，大于0则进行跟踪，为0时则进行预测。

优选地，所述方法，还包括：

根据公式(1)计算tempRatioSum的值：

其中，DISTANCE、OVERLAP、AREA、MOTION的值由用户预设；

优选地，预设DISTANCE＝1，OVERLAP＝150，AREA＝100，MOTION＝2。

参见图2，本发明另一实施例提供的一种人脸检测方法，包括：

步骤S101、获取待检测的原始图像；

步骤S102、对所述原始图像进行肤色检测和前景检测，以提取所述原始图像中的疑似人脸区域，并为所述疑似人脸区域绘制目标框，若目标框太小则舍弃；

步骤S103、采用Sobel边缘检测算法，对所述目标框中的图片区域进行筛选，以滤除所述目标框中的非目标框；

步骤S104、根据非极大值抑制算法，合并所述步骤S103输出的目标框；

步骤S105、根据所述步骤S104输出的目标框，从所述原始图像中截取人脸子图区域，并将所述人脸子图区域缩放到24*24像素大小；

步骤S106、对所述24*24像素大小的人脸子图区域进行R-Net运算；

步骤S107、根据非极大值抑制算法，合并所述步骤S106输出的目标框；

步骤S108、根据所述步骤S107输出的目标框，从所述原始图像中截取人脸子图区域，并将所述人脸子图区域缩放到48*48像素大小；

步骤S109、对所述48*48像素大小的人脸框进行O-Net运算；

步骤S110、根据非极大值抑制算法，合并所述步骤S109输出的目标框，得到包含真实人脸区域的目标框及每个所述目标框内用于指示人脸轮廓的五个特征点。

步骤S111、把步骤S110所述得到的目标框及五个特征点，按照视频帧的时间顺序逐帧输入跟踪模块，以使所述跟踪模块根据FAST角点检测算法，逐帧检测每个所述目标框内的角点，并计算角点强度，只保留上述五个特征点附近区域的强角点；

步骤S112、针对每一条已经存在的轨迹，利用轨迹滤波算法预测轨迹中的人脸在当前帧图像中可能出现的位置，或者对轨迹中的所述强角点利用光流跟踪算法预测轨迹中的人脸在当前帧图像中的位置；在预测的位置附近寻找当前帧的目标框，若能找到目标框，则将该目标框加入轨迹的尾端，作为轨迹的一部分；

步骤S113、判断当前帧图像检测到的目标框的数量，若数量大于0，则进行轨迹跟踪，若数量为0，则进行轨迹预测。

另外，参见图3，本发明还提出了一种人脸检测系统200，包括：

获取模块201，用于获取待检测的原始图像；

提取模块202，用于对所述原始图像进行肤色检测和前景检测，以提取所述原始图像中的疑似人脸区域，并为所述疑似人脸区域绘制目标框，若目标框太小则舍弃；

检测模块203，用于采用Sobel边缘检测算法，对所述目标框中的图片区域进行筛选，以滤除所述目标框中的非目标框；

运算模块204，用于对筛选后的目标框依次进行R-Net运算和O-Net运算，得到包含真实人脸区域的目标框及每个所述目标框内用于指示人脸轮廓的五个特征点。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上，除非另有明确的限定。

Claims

1.一种人脸检测方法，其特征在于，包括：

步骤S1、获取待检测的原始图像；

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1所述的方法，其特征在于，所述步骤S4包括：

步骤S42、根据所述步骤S41输出的目标框，从所述原始图像中截取人脸子图区域，并将所述人脸子图区域缩放到24*24像素大小；

步骤S43、对所述24*24像素大小的人脸子图区域进行R-Net运算；

步骤S46、对所述48*48像素大小的人脸框进行O-Net运算；

4.根据权利要求3所述的方法，其特征在于，所述步骤S43包括：

输入所述24*24像素大小的人脸子图区域；

5.根据权利要求3所述的方法，其特征在于，所述步骤S46包括：

输入所述48*48像素大小的人脸框；

6.根据权利要求2所述的方法，其特征在于，还包括：

7.根据权利要求6所述的方法，其特征在于，还包括：

若进行轨迹预测，根据历史轨迹中的目标框的位置、速度信息，依次使用0.5HZ的低通滤波器进行速度滤波，使用一阶滞后滤波器进行位置预测，计算历史轨迹中的目标框在当前帧图像中的位置；

8.根据权利要求7所述方法，其特征在于，还包括：

9.根据权利要求7所述的方法，其特征在于，还包括：

根据公式(1)计算tempRatioSum的值：

tempRatioSum＝DISTANCE*distanceRatio+AREA*areaRatio+MOTION*moti onRatio+OVERLAP*overlapRatio+Score；(1)

其中，DISTANCE、OVERLAP、AREA、MOTION的值由用户预设；

10.一种人脸检测系统，其特征在于，包括：

获取模块，用于获取待检测的原始图像；