CN110046595A

CN110046595A - 一种基于级联式多尺度的密集人脸检测方法

Info

Publication number: CN110046595A
Application number: CN201910326673.9A
Authority: CN
Inventors: 柯逍; 李健平
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2019-07-23
Anticipated expiration: 2039-04-23
Also published as: CN110046595B

Abstract

本发明涉及一种基于级联式多尺度的密集人脸检测方法，分别训练多种尺度范围的检测器，每种物体检测器针对特定的尺度范围，然后将其级联起来，来优化现有的网络结构，这种策略可以搭载在任何人脸检测的深度模型中，具有良好的扩展性，而且对密集小人脸检测更加适用。可以应用于密集人群监测，教室人数统计等具体场景，有着很强的应用价值。

Description

一种基于级联式多尺度的密集人脸检测方法

技术领域

本发明涉及深度学习与计算机视觉领域，具体涉及一种基于级联式多尺度的密集小人脸检测方法。

背景技术

深度学习已经在图像分类和物体检测领域中展现了强大的生命力。在最近五年中，自从AlexNet被提出后，在ImageNet数据集的错误率，已经从15％降到2％，已经超于了人类的水平。另一方面，在物体检测领域，最好性能的检测器在COCO数据集也仅仅达到60％的mAp，为什么对于图像分类来说，物体检测相对较难呢？

这是由于物体检测不同于图像分类任务，图像分类的图片尺寸往往是固定的，对于卷积神经网络来说，单一尺度的图像尤其适合卷积核卷积不变的特性，由于训练好的深度模型的权重不变，当图像输入卷积神经网络，根据权重的大小，会产生对应的分类置信度。这是深度学习在图像分类领域中完美的尝试，并且超过了人类的水平，但是与分类任务不同的是，物体检测不光要给出计算出物体的类别，还要给出图像中物体的位置信息，这无疑增大了物体检测的难度，并且，在一张图像里，会存在不同尺度的物体，有些物体只占有很少的像素点，这就进一步增大物体检测的难度。由于物体检测存在着各种各样的困难，并且同一标签的物体尺度范围可能很大，这对卷积神经网络的尺度不变性是一个巨大的挑战，在尺度范围变化较大的数据集中，一个检测器必须适应各种不同尺度的物体。除了尺度范围变化较大的这一问题外，当图像中物体的密集程度过密时，会存在漏检的现象，所以这也是有待解决的问题之一。

发明内容

有鉴于此，本发明的目的在于提供一种基于级联式多尺度的密集人脸检测方法，可以提高探测器准确度，适用于任何目标检测框架。

为实现上述目的，本发明采用如下技术方案：

一种基于级联式多尺度的密集人脸检测方法，包括以下步骤：

步骤S1:采集人脸数据集，并进行预处理，得到预处理后的数据集；

步骤S2:根据预处理后的数据集训练全局检测器；

步骤S3:根据预处理后的数据集，构建局部人脸数据集.并根据得到的局部人脸数据集训练局部检测器；

步骤S5:将全局检测器与局部检测器级联；

步骤S6:将待测图像输入级联后的全局检测器及局部检测器，得到全局检测结果和局部检测结果，并采用非极大值抑制的方法将全局检测结果和局部检测结果结合，得到最终人脸检测结果。

进一步的，所述步骤S1具体为：

步骤S11:收集公开的人脸数据集，并获得相关的图像和标签，并且利用数据增强方式得到扩充的数据集；

步骤S12:采用pascal_voc数据集格式，利用收集到的人脸数据集标签，得到每张人脸图像的xml文件，并将这些xml文件按照pascal_voc格式，将得到的xml文件和图像文件组织在一起，得到预处理后的数据集。

进一步的，所述步骤S2具体为:

步骤S21:将预处理后的数据集，采用VGG16模型基础网络，并且将在Imagenet的预训练的权重加载在现有的VGG模型基础网络上，并在此基础上，训练全局检测器；

步骤S22:全局检测器包含必要的两个部分，特征提取部分和回归分类部分，其中回归分类部分包括分类器和回归器，特征提取部分的数学表达式如公式(1)所示：

其中a是图像，r_i＝(r_ix，r_iy，r_iw，r_ih)是对应的感兴趣区域坐标值，其中r_i是候选集r＝{r₁,r₂,r₃...r_i...r_n}的第i个感兴趣区域，r_ix,r_iy,r_iw,r_ih中的下标x,y,w,h分别是感兴趣区域的横坐标，纵坐标，区域的宽和区域的高，而特征提取的过程t是一系列的函数{t¹,t²,t³...t^n-1,tⁿ}复合得到的，其中上标的1到n代表卷积层的层号；

步骤S15：含训练分类器和回归器，回归器的任务是为每一个感兴趣区域r_i匹配一个真实框g_i，其中g_i是由真实区域集g＝{g₁,g₂,...g_i...g_n}中选出的，这样回归任务就是极小化定位风险函数

在RCNN中，L_loc是L₂损失函数，在Fast RCNN中，L_loc是平滑的L₁损失函数L_loc作用在距离向量Δ_i＝(δ_ix,δ_iy,δ_iw,δ_ih)，其中：

分类器的任务是通过拟合一个分类函数L_cls，这个分类函数的人脸是学习一个从图像区域到类别的分布函数，L_cls(t(a_i，r_i)，v_i)＝p(v＝k|r_i，a)，其中v_i是从人脸的类别标签候选集v＝{v₁,v₂,v₃…v_i…v_n}中，由网络预测的第i个标签值，k是具体的标签属性，r_i是图像区域，p是图像区域属于标签k的概率值，分类器的任务是极小化分类风险函数

其中L_cls是交叉熵损失函数。

进一步的，所述步骤S3具体为：

步骤S31:预处理后的的数据集人脸的尺度遵循正态分布(μ,σ)；

步骤S32:设定o_s＜μ-σ，o_/＞μ+σ，其中o_s和o_/分别表示大人脸和小人脸的尺度边界，则可以确定小人脸和大人脸的缩放因子f_s和f_l,

scale_average代表尺度平均值；

步骤S33:将小人脸所在的区域定义为信号，把其余人脸所在的区域和那些重叠率没有达到90％的小人脸所在的区域定义为噪音，用signal_small，noise_small，noise_otherlarge分别表示小人脸信号，来自于重叠率没达到90％的小人脸的噪声，来自于大人脸的噪声，由于小人脸和其余人脸的尺度比不一致，所以噪音贡献的权重也不一样，所以定义了权重系数w_s＝0.8和w_l＝0.2，得到小人脸裁剪尺寸：

其中W_s是ω_s的候选集，C是图像的数目；

同样的，在训练大人脸局部检测器的时候，将大人脸所在的区域定义为信号，把其余人脸所在的区域和那些重叠率没有达到90％的大人脸所在的区域定义为噪音，用signal_large,noise_large,noise_othersmall分别表示大人脸信号，来自于重叠率没有达到90％的大人脸噪声，来自于小人脸的噪声，由于大人脸和其余人脸的尺度不一致，所以噪音贡献的权重也不一样，所以定义了权重系数w_s＝0.8和w_l＝0.2，得到了大人脸的裁剪尺寸：

其中W_l是ω_l的候选集，C是图像的数目；

步骤S34：当检测小人脸的时候，对于每一张在原始数据集的图片，首先以全局检测器中检测到的符合小人脸定义的小人脸为中心，裁剪出来一张ω_S×ω_S的子图片，并且保留这张图片其余具有相似尺度的小人脸，然后将所有的子图像放大f_s倍，把这些图片收集起来用来训练其中的一个小人脸局部检测器D_s

步骤S35：当检测大人脸的时候，对于每一张在原始数据集的图片，首先以全局检测器中检测到的符合大人脸定义的大人脸为中心，裁剪出来一张的ω_l×ω_l子图片，并且保留这张图片其余具有相似尺度的大人脸，然后将所有的子图片缩小f_l倍，把这些图片收集起来，得到局部大人脸数据集，并根据得到的局部人脸数据集训练大人脸局部检测器。

进一步的，所述步骤S5具体为：

步骤S51：当检测到一张小人脸时，其中心坐标为将大人脸局部检测器的坐标变换成全局检测器的标准形式，其坐标变换公式如：

其中(x_s，y_s,w_s,h_s)是小人脸局部检测器坐标系坐标，(x′_s,y′_s,w′_s,h′_s)是全局检测器坐标系坐标；字母x,y,w,h分别表示横坐标，纵坐标，宽，高的四元组；

步骤S42：当检测到一张大人脸时，其中心坐标为将大人脸局部检测器的坐标变换成全局检测器的标准形式，其坐标变换公式如公式7：

其中(x_l，y_l，w_l，h_l)是大人脸局部检测器坐标系坐标，(x′_l，y′_l，w′_l，h′_l)是全局检测器坐标系坐标；

步骤S43：将转换后的两个局部检测器的结果和之前的全局检测器结果合并，然后进行非极大值抑制，当分数高的人脸和分数低的人脸IOU超过阈值z时，得分高的人脸会将得分低的人脸抑制，得到最终人脸检测结果。

本发明与现有技术相比具有以下有益效果：

1、本发明可以提高探测器准确度，适用于任何人脸检测框架，且可以添加级联的局部检测器，以便改进粗略的全局检测结果。

2、本发明训练不同的探测器以适应不同尺度的人脸，以柔和的方式，将不同尺度的人脸归一化到相同的大小，并将其输入到不同的局部探测器，以达到维持卷积的尺度不变性的目的。

3、本发明局部检测器和全局检测器的划分不同，局部检测器不影响原始全局检测器的检测性能。详细的局部检测结果用于细化初始检测，可以大大提高准确性。

附图说明

图1是本发明方法流程图；

图2是本发明一实施例中室内效果图；

图3是本发明一实施例中室外效果图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供一种基于级联式多尺度的密集人脸检测方法，包括以下步骤：

步骤S2:根据预处理后的数据集训练全局检测器；

步骤S5:将全局检测器与局部检测器级联；

在本实施例中，所述步骤S1具体为：

本实施例中，所述步骤S2具体为:

分类器的任务是通过拟合一个分类函数L_cls，这个分类函数的人脸是学习一个从图像区域到类别的分布函数，L_cls(t(a_i，r_i)，v_i)＝p(v＝k|r_i,a)，其中v_i是从人脸的类别标签候选集v＝{v₁,v₂,v₃…v_i…v_n}中，由网络预测的第i个标签值，k是具体的标签属性，r_i是图像区域，p是图像区域属于标签k的概率值，分类器的任务是极小化分类风险函数

其中L_cls是交叉熵损失函数。

在本实施例中，所述步骤S3具体为：首先检测人脸的尺度遵循正态分布(μ,σ)的，那么我们规定在一个标准差范围之外的尺度为小尺度和大尺度，但是实际情况下，可能会出现异常值，所以先对全局检测器的检测结果做数据清洗，我们采用箱型图来处理这种尺度过大或过小的异常值，箱型图提供了一个识别异常值的标准，即大于或小于箱型图设定的上下界的数值为异常值，首先定义上四分位和下四分位。上四分位设定为U。表示的是所有样本中只有的数值大于U，同理，下四分位设置为L，表示的是所有样本中只有的数值小于L，然后设置上四分位和下四分位的差值为IQR，即IQR＝U-R,那么上界为U+1.5IQR，下界为L-1.5IQR。

scale_average代表尺度平均值；

其中W_s是ω_s的候选集，C是图像的数目；

同样的，在训练大人脸局部检测器的时候，将大人脸所在的区域定义为信号，把其余人脸所在的区域和那些重叠率没有达到90％的大人脸所在的区域定义为噪音，用signal_large,noise_large,noise_othersmall分别表示大人脸信号，来自于重叠率没有达到90％的大人脸噪声，来自于小人脸的噪声，由于大人脸和其余人脸的尺度不一致，所以噪音贡献的权重也不一样，所以定义了权重系数w_s＝0.8和w_l＝0.2，得到大人脸的裁剪尺寸：

其中W_l是ω_l的候选集，C是图像的数目；

在本实施例中，所述步骤S5具体为：

其中(x_s，y_s，w_s，h_s)是小人脸局部检测器坐标系坐标，(x′_s，y′_s，w′_s,h′_s)是全局检测器坐标系坐标；字母x,y,w,h分别表示横坐标，纵坐标，宽，高的四元组；

其中(x_l，y_l，w_l，h_l)是大人脸局部检测器坐标系坐标，(x′_l，y′_l，w′_l,h′_l)是全局检测器坐标系坐标；

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于级联式多尺度的密集人脸检测方法，其特征在于，包括以下步骤：

步骤S2:根据预处理后的数据集训练全局检测器；

步骤S5:将全局检测器与局部检测器级联；

2.根据权利要求1所述的一种基于级联式多尺度的密集人脸检测方法，其特征在于：所述步骤S1具体为：

3.根据权利要求2所述的种基于级联式多尺度的密集人脸检测方法，其特征在于：所述步骤S2具体为:

其中a是图像，r_i＝(r_ix,r_iy,r_iw,r_ih)是对应的感兴趣区域坐标值，其中r_i是候选集r＝{r₁,r₂,r₃…r_i…r_n}的第i个感兴趣区域，r_ix,r_iy,r_iw,r_ih中的下标x,y,w,h分别是感兴趣区域的横坐标，纵坐标，区域的宽和区域的高，而特征提取的过程t是一系列的函数{t¹,t²,t³...t^n-1,tⁿ}复合得到的，其中上标的1到n代表卷积层的层号；

步骤S15：含训练分类器和回归器，回归器的任务是为每一个感兴趣区域r_i匹配一个真实框g_i，其中g_i是由真实区域集g＝{g₁,g₂,…g_i…g_n}中选出的，这样回归任务就是极小化定位风险函数

分类器的任务是通过拟合一个分类函数L_cls，这个分类函数的目标是学习一个从图像区域到类别的分布函数，L_cls(t(a_i,r_i),v_i)＝p(v＝k|r_i,a)，其中v_i是从人脸的类别标签候选集v＝{v₁,v₂,v₃…v_i…v_n}中，由网络预测的第i个标签值，k是具体的标签属性，r_i是图像区域，p是图像区域属于标签k的概率值，分类器的任务是极小化分类风险函数

其中L_cls是交叉熵损失函数。

4.根据权利要求1所述的种基于级联式多尺度的密集人脸检测方法，其特征在于：所述步骤S3具体为：

scale_average代表尺度平均值；

其中W_s是ω_s的候选集，C是图像的数目；

其中W_l是ω_l的候选集，C是图像的数目；

步骤S34：当检测小人脸的时候，对于每一张在原始数据集的图片，首先，以全局检测器中检测到的符合小人脸定义的小人脸为中心，裁剪出来一张ω_S×ω_S的子图片，并且保留这张图片其余具有相似尺度的小人脸，然后将所有的子图像放大f_s倍，把这些图片收集起来用来训练其中的一个小人脸局部检测器D_s

5.根据权利要求1所述的一种基于级联式多尺度的密集人脸检测方法，其特征在于：所述步骤S5具体为：

其中(x_s,y_s,w_s,h_s)是小人脸局部检测器坐标系坐标，(x'_s,y'_s,w'_s,h′_s)是全局检测器坐标系坐标；字母x,y,w,h分别表示横坐标，纵坐标，宽，高的四元组；

其中(x_l,y_l,w_l,h_l)是大人脸局部检测器坐标系坐标，(x′_l,y′_l,w′_l,h′_l)是全局检测器坐标系坐标；

步骤S43：将转换后的两个局部检测器的结果和之前的全局检测器结果合并，然后进行非极大值抑制，当分数高的目标和分数低的人脸IOU超过阈值z时，得分高的人脸会将得分低的人脸抑制，得到最终人脸检测结果。