CN107292274A

CN107292274A - 一种适用于视频中快速人脸检测的方法及系统

Info

Publication number: CN107292274A
Application number: CN201710508283.4A
Authority: CN
Inventors: 郭秋杉; 董远; 白洪亮
Original assignee: Beijing Faceall Co
Current assignee: Beijing Faceall Co
Priority date: 2017-06-28
Filing date: 2017-06-28
Publication date: 2017-10-24

Abstract

本发明公开了一种适用于视频中快速人脸检测的方法及装置，包括：对图片进行等步长扫描，对扫描框内的图片提取出全部的正则化像素差值的RPD特征；将全部的所述RPD特征通过决策树进行分类，并得到的候选框；去掉大面积重复的候选框，得到人脸检测的结果。本发明中的方法通过正则化像素差值特征，仅仅进行内存查表操作，无需大量计算，即可实现较高的检测率，同时检测速度较快；而且，采用的Soft NMS技术对遮挡问题有很好的鲁棒性，正则化像素差值特征对光线，表情，姿势，低分辨率，模糊都有很好的适应性。

Description

一种适用于视频中快速人脸检测的方法及系统

技术领域

本发明涉及人脸识别领域，特别涉及一种适用于视频中快速人脸检测的方法及系统。

背景技术

现如今的人脸检测技术主要有两类，第一类是基于卷积神经网络来实现的人脸检测，其检测率虽然较高，但是计算量大，速度难以达到实时检测。

第二类是基于Haar特征或其他指定特征的决策树模型，其提取特征的维度较高，速度较慢，有很多无用冗余的特征。对光线，表情，姿势变化敏感，对遮挡，模糊没有鲁棒性。

发明内容

本发明要解决的技术问题是，提供一种通过像素值特征，仅仅进行内存查表操作，无需大量计算，即可实现较高的检测率，同时检测速度较快的适用于视频中快速人脸检测的方法。

解决上述技术问题，本发明提供了一种适用于视频中快速人脸检测的方法，包括：

对图片进行等步长扫描，对扫描框内的图片提取出正则化像素差值特征RPD；

将全部的所述RPD通过决策树进行分类，并得到的候选框；

去掉大面积重复的候选框，得到人脸检测的结果。

进一步的，如前述的适用于视频中快速人脸检测的方法，所述正则化像素差值特征为：

其中，其中，x，y代表扫描框内两个特征点l₁、l₂的像素强度。

更进一步的，如前述的适用于视频中快速人脸检测的方法，所述将全部的所述RPD通过决策树进行分类，并得到的候选框，具体为：

将该棵决策树得到的分数与之前决策树得到的分数相加得到级连分数

采用soft cascade对得到级连分数S(i)用Tf函数进行判断是否得到结果，如下式所述；

若不存在下一棵决策树，则判断为人脸候选框，若还存在下一棵决策树，则继续计算级连分数S(i)；其中θ(i)为决策树i对应设置的阈值，用于筛选出低于所述阈值的候选框。

更进一步的，如前述的适用于视频中快速人脸检测的方法，所述决策树得到的分数中的分数具体为：

每棵决策树i，每个叶子节点有一个训练样本的加权平均值，所有叶子节点的加权平均值的平均值为决策树i的得分s(i)

更进一步的，如前述的适用于视频中快速人脸检测的方法，所述每棵决策树的层数为2层至8层。

更进一步的，如前述的适用于视频中快速人脸检测的方法，在所述去掉大面积重复的候选框之前还包括：对所有得到的候选框进行soft NMS来提取候选框的筛选。

本发明还提供一种适用于视频中快速人脸检测的装置，包括：

图片扫描单元：用于对图片进行等步长扫描，对扫描框内的图片提取出正则化像素差值的RPD特征；

特征分类单元：用于将全部的所述RPD特征通过决策树进行分类，并得到候选框；

人脸获取单元：用于去掉重复的候选框，得到人脸检测的结果。

本发明的有益效果：

本发明通过正则化像素差值特征，仅仅进行内存查表操作，无需大量计算，即可实现较高的检测率，同时检测速度较快；而且，采用的Soft NMS技术对遮挡问题有很好的鲁棒性，正则化像素差值特征对光线，表情，姿势，低分辨率，模糊都有很好的适应性。

附图说明

图1是本发明一种适用于视频中快速人脸检测的方法的步骤示意图；

图2是本发明一种适用于视频中快速人脸检测的方法的流程示意图；

图3是本发明实施例1中通过决策树筛选的流程示意图；

图4是本发明一种适用于视频中快速人脸检测的系统的模块示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

如图1及图2所示，本发明提供的一种适用于视频中快速人脸检测的方法，包括：

S1、对图片进行等步长扫描，对扫描框内的图片提取出正则化像素差值特征RPD；所述正则化像素差值特征为：

其中，其中，x，y代表扫描框内两个特征点l₁、l₂的像素强度。RPD特征由于是归一化的，所以对光照变化有一定的鲁棒性。由于RPD特征是在固定大小的扫描框内提取的，所以对模糊和低分辨率都有很好的鲁棒性。

S2、将全部的所述RPD通过决策树进行分类，并得到的候选框；所述每棵决策树的层数为2层至8层；每棵决策树i，每个叶子节点有一个训练样本的加权平均值，所有叶子节点的加权平均值的平均值为决策树i的得分s(i)；将该棵决策树得到的分数与之前决策树得到的分数相加得到级连分数每棵树都会尽可能把负样本筛出，然后将正样本保留下来。

其中θ(i)为决策树i对应设置的阈值，用于筛选出低于所述阈值的候选框。这样的级联方式照比直接对单颗树的得分设定阈值，来判断是否继续通过下一棵决策树更具有鲁棒性，会更少的产生假负例，使得检测率得到提高。同时，会得到较多重叠的候选框。这对于表情变化，姿势变化都有很好的鲁棒性。

S3、针对上述得到的所有的候选框进行soft NMS来提取候选框的筛选，去掉大面积重复的候选框，得到人脸检测的结果。

实施例1，首先会对图片进行等步长扫描，一般取横向步长为0.1倍图片长度，纵向步长取0.1倍图片宽度。扫描方框大小从20*20每次放大1.2倍，最大到600*600。然后将方框内的图片压缩到20*20的大小。提取出全部的正则化像素差值特征。正则化像素差值特征为

提取出全部特征后，一共有20*20＝400个特征。由于RPD特征是可以形成一个内存表的，索引为两个特征点l₁、l₂的像素值。这样只需要进行一次读内存即可提取特征。

决策树中的每个节点内，都存有一对像素点的位置，然后通过这两个像素点的像素值提取出一个RPD特征值RPD(I(l₁),I(l₂))，其中，I(l₁),I(l₂)为图片中l₁、l₂位置的像素强度，以该特征值在[θ₁,θ₂]区间内作为该节点的分类条件。其中θ₁，θ₂是两个学习出来的最优化的值。

对于决策树T(i)，最深有8层，在每个叶子节点有一个权值W(j)，就是该棵决策树得到的分数s(i)，每棵决策树T(i)可以有多个叶子节点，每个节点都有自己的分数，其中，分数s(i)就是训练决策树过程中，叶子节点中样本的平均加权值。当前得到的分数与之前得到的分数之和如图3所示，为一棵决策树，f1是通过节点内的特征点对提取出的特征值，θ₁₁，θ₁₂是节点1中两个学习出的阈值，同理θ₂₁，θ₂₂；θ₃₁，θ₃₂；θ₄₁，θ₄₂分别是节点2、3、4中学习出的阈值。

采用soft cascade对得到分数用Tf函数进行判断是是否能得到结果。

若还有下一棵决策树，则综合下一棵决策树得到级连分数S，判断S与θ大小，若S<θ则判断所述候选框为背景候选框，并结束；若S>θ则判断下一棵决策树，若没有，则判断为人脸候选框，并结束。

之后对所有得到的候选框进行soft NMS来提取候选框的筛选，去掉重复的候选框，优选的，通过下述代码执行即可完成筛选。

D为修正后的候选框，S为修正后的得分。

每棵决策树都设置一个阈值θ，筛出低于该阈值θ的候选框，最后可以得到人脸框D。

如图4所示，提供一种适用于视频中快速人脸检测的装置，包括：

图片扫描单元1：用于对图片进行等步长扫描，对扫描框内的图片提取出正则化像素差值的RPD特征；

特征分类单元2：用于将全部的所述RPD特征通过决策树进行分类，并得到候选框；

人脸获取单元3：用于去掉重复的候选框，得到人脸检测的结果。

所属领域的普通技术人员应当理解：以上，所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。与该发明方法或等同的技术原理都属保护范围之内。

Claims

1.一种适用于视频中快速人脸检测的方法，其特征在于，包括：

对图片进行等步长扫描，对扫描框内的图片提取出正则化像素差值的RPD特征；

将全部的所述RPD特征通过决策树进行分类，并得到候选框；

去掉重复的候选框，得到人脸检测的结果。

2.根据权利要求1所述的适用于视频中快速人脸检测的方法，其特征在于，所述正则化像素差值特征为：

其中，x，y代表扫描框内两个特征点l₁、l₂的像素强度。

3.根据权利要求1所述的适用于视频中快速人脸检测的方法，其特征在于，所述将全部的所述RPD特征通过决策树进行分类，并得到的候选框，具体为：

4.根据权利要求3所述的适用于视频中快速人脸检测的方法，其特征在于，所述决策树得到的分数中的分数具体为：

每棵决策树i，每个叶子节点有一个训练样本的加权平均值，所有叶子节点的加权平均值的平均值为决策树i的得分s(i)。

5.根据权利要求3所述的适用于视频中快速人脸检测的方法，其特征在于，所述每棵决策树的层数为2层至8层。

6.根据权利要求1所述的适用于视频中快速人脸检测的方法，其特征在于，在所述去掉大面积重复的候选框之前还包括：对所有得到的候选框进行soft NMS来提取候选框的筛选。

7.一种运用权利要求1～6任一项所述方法的适用于视频中快速人脸检测的装置，其特征在于，包括：

图片扫描单元：用于对图片进行等步长扫描，对扫描框内的图片提取出全部的正则化像素差值的RPD特征；