CN110717424B

CN110717424B - 一种基于预处理机制的实时极小人脸检测方法

Info

Publication number: CN110717424B
Application number: CN201910918034.1A
Authority: CN
Inventors: 闵卫东; 杨子元; 李菁; 黄杰
Original assignee: Nanchang University
Current assignee: Nanchang University
Priority date: 2019-09-26
Filing date: 2019-09-26
Publication date: 2023-06-30
Anticipated expiration: 2039-09-26
Also published as: CN110717424A

Abstract

本发明主要涉及人工智能领域中目标检测问题。针对复杂环境下极小人脸问题，提出了一种级联式人脸检测方法，该方法主要由两个神经网络和一个预处理机制构成。首先通过使用第一个神经网络，即SSD先将行人置信框进行检测，然后将区域传入预处理机制，该机制通过置信框的长宽自动预测人脸的感兴趣区域，并将感兴趣区域进行图像金字塔处理，由于第二个网络的输入尺寸是固定的，因此该算法使得第二个人脸检测网络可以检测不同大小的人脸。本发明提出的方法能够准确有效地检测出许多复杂环境下的极小人脸，并可以潜在地使用和整合于公共安全检测和人脸识别等领域中。

Description

一种基于预处理机制的实时极小人脸检测方法

技术领域

本发明主要涉及人工智能领域中目标检测问题,具体涉及一种基于预处理机制的实时极小人脸检测方法。

背景技术

在图像检测中，小目标的检测长久以来都是一个具有挑战性的课题，极小人脸检测也是被广泛关注的研究热点。目前常用的检测方法有:传统图像处理方法、神经网络等。使用通用的人脸模板来检测人脸是传统方法的主要研究领域之一。这种方法一般是通过计算被检测区域与模板之间的相关系数来确定是否存在人脸，但是极小人脸的特征不同于大人脸的特征且微小人脸仅包含十分有限的可获取信息，这些方法无法获得令人满意的检测效果。而神经网络方法也被广泛运用，但是基于神经网络的检测算法往往被设计为一个单一的深层卷积神经网络结构。但当人脸尺寸较小时时，所提取到的特征会在浅层的卷积层小于1像素，这也意味着在深层特征中每个像素包含的无关信息往往比真正感兴趣区域的信息会多很多，因此这些神经网络的方法在目标较小的情况下无法达到令人满意的效果。然而，单一浅层卷积神经网络无法获得足够的目标特征信息，因此级联框架被广泛应用于人脸检测的任务中。级联框架可以完成由粗到细的检测任务。也就是说，这种方法可以有效地缓解浅卷积层的信息丢失问题。

发明内容

为了解决极小人脸检测问题，本发明提出了一种基于两个独立神经网络和预处理机制的级联式人脸检测框架，具体步骤如下:

一种基于预处理机制的实时极小人脸检测方法，包括以下步骤：

第一步，采用SSD作为行人检测器，将图片传入该SSD得到行人的置信框的坐标值；

第二步，根据行人检测器得到的置信框的坐标值，所述坐标值为感兴趣区域左上角坐标和右下角坐标，预估人脸所在的区域作为感兴趣区域，左上角坐标为(x₁,y₁)，右下角坐标为(x₂,y₂)，设置阈值T为0.9，通过θ＝(1-T)/2公式计算选择算子θ，感兴趣区域的高度H为H＝θ×(x₂-x₁)，则感兴趣区域的左上角坐标为(x₁+H,y₁)，右下角坐标为(x₂-H,y₁+(x₂-x₁)-2H)；

第三步，将感兴趣区域进行图像金字塔算法，尺寸阈值设置为12，缩放比例factor设置为0.7，同时计数变量count初始化为0，W，H分别是感兴趣区域的宽和高，minl是宽和高两个值中较小的值，如果minl小于12，则minl等于12，计算比例

minl＝minl*m；

第四步，当完成第三步，计算缩放倍数scales＝scales+m*factor^count，对感兴趣区域图像进行缩放，缩放倍数为scales，minl＝minl*factor，计数器count＝count+1，并重复该步，直到minl>12，所缩放的感兴趣区域的集合即为图像金字塔；

第五步，最后，将图像金字塔传入第二个神经网络，该网络是多任务的检测器，分别为人脸识别任务和置信框检测任务，人脸识别任务的损失函数为L_i＝-(y_i logp_i+(1-y_i)(1-logp_i))，其中p_i是计算出是某类的概率，y_i是网络所预测的种类,y_i仅能取0或1，0代表不是人脸，1代表是人脸，该网络的置信框检测任务的损失函数为

是网络所预测的坐标，b_i是真实置信框的坐标；使用四个值来表示一个置信框，分别为左上角坐标，置信框的宽度和长度，因此/>

和b_i均是四维向量；该网络的总损失函数是人脸识别任务损失函数和置信框检测任务损失函数的加权和，公式为Loss_i＝t₁×L_i+t₂×G_i，L_i和G_i分别是人脸分类和置信框回归损失函数；t₁和t₂是每一项任务的全职,t₁被设置为0.3而t₂被设置为0.7，该检测器卷积层步长全部为1，池化层步长全部为2。

本发明具有以下有益效果

(1)本发明采用感兴趣区域作为人脸检测的预处理，可以大大的减少误检率，极大程度提高精度并且提升在复杂环境下的检测效果。

(2)同时本发明的检测框架是两个网络的级联式，可以完成由粗到细的检测，该发明可以潜在的应用在公共安全，如当发现远距离有可疑目标可以迅速切换成长焦镜头进行对准。

附图说明

图1为本发明的整体框架示意图；

图2本发明在不同情况下的人脸检测结果：(a)身体有一部分被遮挡的人脸检测结果；(b)复杂背景且身体部位被遮挡的人脸检测结果；(c)在良好光照下人脸及身体都有一定程度遮挡的人脸检测结果；(d)在极弱光照下人脸检测结果；图3各个方法检测人脸的结果。

具体实施方式

实施例1

(1)首先将图像传入SSD，本发明使用SSD作为行人检测器检测行人的坐标值。

(2)根据行人检测器得到的坐标值(左上角坐标和右下角坐标)预估人脸所在的区域作为感兴趣区域，左上角坐标为(x₁,y₁)，右下角坐标为(x₂,y₂)，设置阈值T为0.9，通过θ＝(1-T)/2公式计算选择算子θ，感兴趣区域的高度H为H＝θ×(x₂-x₁)，则感兴趣区域的左上角坐标为(x₁+H,y₁)，右下角坐标为(x₂-H,y₁+(x₂-x₁)-2H)。

(3)将感兴趣区域进行图像金字塔算法，尺寸阈值设置为12，缩放比例factor设置为0.7，同时计数变量count初始化为0。W，H分别是感兴趣区域的宽和高，minl是宽和高两个值中较小的值，如果minl小于12，则minl等于12。计算比例

minl＝minl*m。

(4)当完成上一步，计算缩放倍数scales＝scales+m*factor^count，对感兴趣区域图像进行缩放，缩放倍数为scales，minl＝minl*factor，计数器count＝count+1。并重复该步，直到minl>12。所缩放的感兴趣区域的集合即为图像金字塔。

(5)最后将图像金字塔传入第二个神经网络，该网络是多任务的检测器，网络结构如图1的人脸检测器所示，所包含的任务分别为人脸识别任务和置信框检测任务。通过该网络将人脸区域进行准确的检测。

实施例2

采用Liu等人提出SSD进行目标检测，该方法采用特征分层提取，每一层都进行置信框检测和分类操作。

具体方法选自文献：Liu,W.；Anguelov,D.；Erhan,D.；Szegedy,C.；Reed,S.；Fu,C.Y.,et al.SSD:Single Shot MultiBox Detector.Presented at the EuropeanConference on Computer Vision,Amsterdam,Netherlands,October 8-October 16,2016,pp.21-37

实施例3

Hu等人提出HR,该网络结构对不同尺度的人脸使用不同的检测器，但是特征均是从相同的神经网络中进行提取的，另外该网络的输出是对全图进行了缩放操作。

具体方法选自文献：Hu,P.；Ramanan,D.Finding tiny faces.Presented at theIEEE Conference on Computer Vision and Pattern Recognition(CVPR),Honolulu,USA,2017,pp.1522-1530.

实施例4

VJ法是由Viola和Jones于2004年所提出的，该方法首先提取图像的Harr-like特征，将这些特征传入Adaboost分类器，进行人脸的检测。

具体方法选自文献：Viola,P.；Jones,M.J.Robust Real-Time FaceDetection.International Journal of Computer Vision,2004,volume 57(2),pp.137-154.

实施例5

Zhang等人提出了一个级联式的神经网络框架，该框架由三个子网络构成，完成由粗到细的检测，该框架是多任务的，分别为人脸分类、置信框检测、关键点提取三项任务。该网络框架的名称为MTCNN。

具体方法选自文献：Zhang,K.；Zhang,Z.；Li,Z.；Qiao,Y.Joint face detectionand alignment using multitask cascaded convolutional networks.IEEE SignalProcessing Letters,2016,volume 23(10),pp.1499-1503.

实施例6

Min等人提出MMSC方法，该方法首先使用梯度直方图检测图像中每个像素的特征，将这些特征传入支持向量机进行分类，以此检测到行人的置信框，以置信框的固定比例将人脸区域划出来，该方法的人脸检测是基于行人检测的，没有对人脸区域进行进一步的判断。

具体方法选自文献：Min,W.D.；Fan,M.D.；Li,J.；Han,Q.Real-time facerecognition based on face pre-identification detection and multi-scaleclassification.IET Computer Vision,2018,volume 13(2),pp.165-171.

由于小人脸数据集的缺失，本发明在自建数据集上进行了测试，该数据集包括1370张图片，2450张人脸，其中562张人脸的尺寸大于20×20，其余所有人脸均小于该尺寸，将上述实施例1-6进行对比得到相应的得到以下对比数据。

表1.不同方法MIoU的结果

表2.F1值在不同方法的测试结果

表3.不同方法的检测速度

从上表数据可以看出，本发明采用的检测方法与实例2-6其他检测方法相比，在复杂环境下，如光线不充足，遮挡严重等缺点。具有检测速度快、置信框著准确、检测精准等优势。

Claims

1.一种基于预处理机制的实时极小人脸检测方法，其特征在于，包括以下步骤：

minl＝minl*m；

第五步，最后，将图像金字塔传入第二个神经网络，该网络是多任务的检测器，分别为人脸识别任务和置信框检测任务，人脸识别任务的损失函数为L_i＝-(y_ilogp_i+(1-y_i)(1-logp_i))，其中p_i是计算出是某类的概率，y_i是网络所预测的种类,y_i仅能取0或1，0代表不是人脸，1代表是人脸，该网络的置信框检测任务的损失函数为