CN108491786A

CN108491786A - 一种基于分级网络和聚类合并的人脸检测方法

Info

Publication number: CN108491786A
Application number: CN201810227985.XA
Authority: CN
Inventors: 方承志; 徐婷婷
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2018-03-20
Filing date: 2018-03-20
Publication date: 2018-09-04
Anticipated expiration: 2038-03-20
Also published as: CN108491786B

Abstract

本发明揭示了一种基于分级网络和聚类合并的人脸检测方法，将卷积神经网络划分为两级网络，在第一级网络训练过程中，通过获得七级分辨率下原始输入图片的热图，根据七张热图上的局部最热区域获取七级分辨率下的初始候选人脸区域，减少了样本上人脸信息的遗失。在第二级网络训练过程中，在训练正样本中加入具体人脸五官区域，使卷积神经网络针对性地提取五官区域特征，并在网络的最后通过一个基于聚类和人脸五官特征的候选框合并策略获得包含人脸检测框的图片。该人脸检测方法克服了现有此类方法的网络复杂，计算量大的问题，且有效处理了图片中姿态变化或遮挡的人脸，提高了基于卷积神经网络的人脸检测精度。

Description

一种基于分级网络和聚类合并的人脸检测方法

技术领域

本发明涉及人脸识别领域，尤其涉及一种基于分级网络和聚类合并的人脸检测方法。

背景技术

人脸检测是各类人脸分析任务的基础，其检测精度直接影响后续任务的性能。但是在实际场景中，由于外界因素的干扰，如光照、遮挡以及人的表情和姿态变化，造成人脸检测一直以来是人脸分析任务中一个具有挑战性的问题。

用深度学习算法训练的卷积神经网络模型自提出以来，在计算机视觉领域的多个大规模识别任务上取得了令人瞩目的成绩，成为近年来研究的一个热点。在现有的基于卷积神经网络的人脸检测方法中，Bootstrapping Face Detection with Hard NegativeExamples采用训练较深的50层残差网络以达到提高检测精度的目的，方法虽然取得了很好的效果，但是将网络设计的过于复杂，计算量太大。Object Specific Deep LearningFeature and Its Application to Face Detection采用一个多分辨率滑动窗口处理图片中小的人脸，虽然取得了很好的检测效果，但是该方法将获取的多级分辨率图片的热图进行提前合并，会造成一定的人脸信息遗失，导致检测精度下降。另外，现有的基于卷积神经网络的人脸检测方法对于姿态变化以及遮挡的人脸鲁棒性仍然较低。

发明内容

鉴于此，本发明的目的旨在提出一种基于分级网络和聚类合并的人脸检测方法，能够处理图片中姿态变化、遮挡的人脸，同时提高对于检测一张大的图片中较小的人脸以及靠近边缘的人脸的鲁棒性，及基于卷积神经网络的人脸检测精度。

本发明解决上述问题所采用的技术方案为：一种基于分级网络和聚类合并的人脸检测方法，其特征在于包括如下基本步骤：

步骤一：将卷积神经网络划分成两级网络，第一级网络含三层卷积层，第二级网络含五层卷积层；

步骤二：将原始输入图片进行预处理，随后通过一个含七级分辨率的多分辨率滑动窗口生成一系列待检测子图片；

步骤三：通过采集训练样本预训练第一级网络，预训练完成后将第一级网络的全连接层转换成卷积层获得全卷积神经网络，将步骤二生成的待检测子图片输入至全卷积神经网络生成热图，根据热图上的局部最热区域的位置，获得初始候选人脸区域；

步骤四：通过采集训练样本训练第二级网络，将步骤三第一级网络获取的初始候选人脸区域输入至第二级网络，在第二级网络的最后通过一个基于聚类和人脸五官特征的候选框合并策略获得包含人脸检测框的图片。

进一步地，步骤二中对原始输入图片进行预处理为采用直方图均衡化的方法增强；所述多分辨率滑动窗口中七级分辨率为在原始输入图片分辨率大小的基础上将分辨率大小按比例0.15、0.25、0.5、1、2、4、6缩放七个等级，且指定滑动窗口的步幅为窗口大小的一半；生成一系列待检测子图片的过程中将多分辨率滑动窗口滑过的原始输入图片上对应位置区域的坐标保存，并映射到生成的待检测子图片中。

进一步地，步骤三中所述预训练第一级网络的过程：采集的训练正样本中包含了遮挡、不同角度、不同光照下的人脸样本，并对这些人脸样本进行随机平移、翻转、旋转处理来扩充数据集；采集的训练负样本随机截取自没有人脸的风景照片、物体照片；将随机平移、翻转和旋转过后的人脸样本与处理前人脸样本的相交面积与处理前人脸样本的面积的比值作为选取正负样本的阈值，其中比值大于0.7的作为正样本，比值小于0.2的作为负样本。

进一步地，步骤三中获得全卷积神经网络的方法为：通过改变第一级网络中全连接层的参数排列形式，将全连接层转换为卷积层。

进一步地，步骤三中获得初始候选人脸区域的过程：利用反卷积对最后一层卷积层的特征映射图进行上采样获得热图，并针对热图上的每个像素点利用分类函数softmax逐像素分类，获得每个像素点判为人脸的概率值；搜索同一级分辨率下子图片产生的热图，将这些热图上同一像素点位置处的最大概率值作为同一级分辨率下原始输入图片的合并热图上该像素点位置处的概率值Q_(i,j)，得其中n是同一级分辨率下子图片产生热图的数量，Q_(i,j)是同一级分辨率下原始输入图片的合并热图上点(i,j)处的概率值，是同一级分辨率下的子图片中第l个子图的热图上点(i,j)处的概率值；依次搜索其它同一级分辨率下子图片产生的热图，通过合并方法获得七级分辨率下原始输入图片的七张热图；接着设置64×64大小的滑动窗口分别扫描所述七张热图，指定滑动窗口的步幅为窗口大小的一半，分别计算七张热图上滑动窗口内的所有像素点处概率值的均值和方差，将均值大于0.7、方差值小于0.04的窗口区域判定为局部最热区域，保存局部最热区域的坐标，并获得原始输入图片七级分辨率下的初始候选人脸区域。

进一步地，步骤四中所述训练第二级网络的过程：正样本通过剪裁原始输入图片中人脸的五官区域，并随机多角度旋转处理生成，负样本由不含人脸的背景图片以及剪裁的手臂、耳朵部位组成，设置的正负样本比例为1:3。

进一步地，步骤四中在第二级网络的最后通过一个基于聚类和人脸五官特征的候选框合并策略前，还包括：

A、将步骤三中获得的原始输入图片七级分辨率下的初始候选人脸区域输入至第二级网络，通过分类函数softmax获得输出子图片上每个候选窗口的概率值，搜索不同级分辨率下拥有相同坐标位置的子图片，将这些子图片上的候选窗口按照概率值从高到低排序；

B、统计这些子图片上对应位置区域某一候选窗口出现的频率；

C、设置概率值最低为99.3％、出现的频率次数最低为3，将满足以上概率值和频率次数的候选窗口的坐标位置保存，并映射回原始输入图片中。

进一步地，步骤四中基于聚类和人脸五官特征的候选框合并策略，最后获得包含人脸检测框的图片，包括步骤：

D1：判断相邻的候选窗口是否为同一五官区域的候选窗口，将判断为同一五官区域的候选窗口进行合并，取合并后的窗口参数为各个窗口参数的平均值；

D2：根据D1产生的同一五官区域的候选窗口，计算这些同一五官区域的候选窗口的中心坐标，根据人脸五官特征计算相邻候选窗口中心坐标点的相对位置以及距离比值进行同一人脸窗口的合并，合并策略分为以下两种情况：

第一种合并策略：设置一组相邻的候选窗口的中心坐标点为a、b、c、d，其中存在三个中心坐标点a、b、d逼近正三角位置关系，且内部包含一个独立的中心坐标点c；距离比值满足取值范围-0.3～0.3，其中，ac、bc分别是指中心坐标点a、b至中心坐标点c的距离，ad、bd分别是指中心坐标点a、b至中心坐标点d的距离；将满足以上相对位置关系和距离比值的四个候选窗口判定为可能的同一人脸，根据人脸五官比例特征，将中心坐标点a、b、d构成的三角大小均匀扩大至1.5倍，构成三角a′b′d′，选取三角a′b′d′外的最小外接正方形窗口作为最终的人脸窗口；

第二种合并策略：若相邻的候选窗口的中心坐标点不满足第一种合并策略中的合并要求，则判定为含遮挡或者姿态变换的人脸；选取中心坐标点距离最近的两个重叠的候选窗口，计算两者的联合交叉比，将联合交叉比值大于0.3的两个重叠候选窗口判定为可能的同一人脸的五官区域，并且将判定为可能的同一人脸的五官区域的候选窗口进行合并；计算两个候选窗口中心坐标点的均值坐标点位置，以均值坐标点为圆心、均值坐标点至候选窗口中心坐标点的距离的1.5倍大小为半径，获取候选人脸的圆形区域，取圆形区域的最小外接正方形窗口作为最终的人脸窗口。

与现有技术相比，本发明具有突出的实质性特点和显著的进步性，其有益效果体现为：

(1)本发明采用两级卷积神经网络来检测人脸，由第一级网络初步筛选候选人脸区域，再由第二级网络做精细筛选，最终得到人脸图像。相比深度网络巨大的参数量，本方法大大简化了网络结构，节省计算量，加速人脸检测的时间。

(2)本发明在第一级网络训练过程中，采用一个含七级分辨率的多分辨率滑动窗口，针对检测一张大的图片中较小的人脸以及靠近边缘的人脸，具有很好的鲁棒性。另外，本发明通过获得七级分辨率下原始输入图片的热图，根据七张热图上的局部最热区域获取七级分辨率下的初始候选人脸区域，减少了样本上人脸信息的遗失。

(3)本发明在第二级网络训练过程中，在训练正样本中加入具体人脸五官区域，使卷积神经网络针对性地提取五官区域特征，对于含遮挡以及多姿态的人脸，避免了自然场景下人脸漏检的情况。

(4)本发明提出的基于聚类和人脸五官特征的候选框合并策略，采用密度聚类方法合并候选窗口，能够排除一定的误检候选窗口，并且根据人脸五官的相对位置关系和距离比值由精到细地合并候选人脸窗口，成功地实现了基于统计的人脸检测过程中由于尺度变换所导致的重复检测人脸窗口的合并工作，促进了后续人脸检测工作精度的提升。

附图说明

图1是本发明一种基于分级网络和聚类合并的人脸检测方法的流程示意图。

图2是本发明第一级卷积神经网络结构图。

图3是本发明第二级卷积神经网络结构图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，本实施例提供一种基于分级网络和聚类合并的人脸检测方法，流程可以分为以下几个概述性基本步骤：

步骤三：采集训练样本，预训练第一级网络，预训练完成后，将第一级网络的全连接层转换成卷积层获得全卷积神经网络，将步骤二生成的待检测子图片输入至全卷积神经网络生成热图，根据热图上的局部最热区域的位置，获得初始候选人脸区域；

步骤四：采集训练样本，训练第二级网络，将步骤三第一级网络获取的初始候选人脸区域输入至第二级网络，在第二级网络的最后通过一个基于聚类和人脸五官特征的候选框合并策略获得包含人脸检测框的图片。

为更清楚理解上述基本步骤，以下进一步展开细化描述。其中步骤二中所述的将原始输入图片进行预处理，随后通过一个含七级分辨率的多分辨率滑动窗口生成一系列待检测子图片，具体过程如下：将原始输入图片采用直方图均衡化方法增强，随后通过一个含七级分辨率的多分辨率滑动窗口，生成一系列待检测子图片。其中，七级分辨率具体是指在原始输入图片分辨率大小的基础上将分辨率大小缩放七个等级，七个缩放比例分别为0.15、0.25、0.5、1、2、4、6，且指定滑动窗口的步幅为其窗口大小的一半。并且将多分辨率滑动窗口滑过的原始输入图片上对应位置区域的坐标保存，并映射到生成的待检测子图片中。

步骤一中所述的第一级网络结构，如图2所示。步骤三所述的采集训练样本，训练第一级网络，具体过程如下：采集的训练正样本中包含了遮挡、不同角度、不同光照下的人脸样本，并对这些人脸样本进行了随机平移、翻转、旋转等处理来扩充数据集。采集的训练负样本随机截取自没有人脸的风景照片、物体照片等。另外，将随机平移、翻转和旋转过后的人脸样本与处理前人脸样本的相交面积与处理前人脸样本面积的比值作为选取正负样本的阈值，进一步扩充数据集，其中比值大于0.7的作为正样本，比值小于0.2的作为负样本。

步骤三中所述的将第一级网络的全连接层转换成卷积层获得全卷积神经网络，具体过程如下：通过改变第一级网络中全连接层的参数的排列形式，将全连接层转换为卷积层，获得全卷积神经网络。

在本发明实施例中，最后一个卷积层的输出即特征映射图大小为11*11*24，即有24个特征图，每个特征图的大小为11*11。连接此卷积层的为一个1*1*2048的全连接层，则可以设计一个卷积层，代替此全连接层，设计的卷积层参数为：

(1)共2048组滤波器；

(2)每组滤波器含有24个滤波核；

(3)每个滤波核的大小为11*11。

同样，可以设计一个卷积层代替第二个全连接层，设计的卷积层参数为：

(1)共2048组滤波器；

(2)每组滤波器含有2048个滤波核；

(3)每个滤波核的大小为1*1。

步骤三中所述的将步骤二生成的待检测子图片输入至所述的全卷积神经网络生成热图，根据热图上的局部最热区域的位置，获得初始候选人脸区域，具体过程如下：利用反卷积对最后一层卷积层的特征映射图(feature map)进行上采样获得热图。针对热图上的每个像素点利用分类函数softmax逐像素分类，获得每个像素点判为人脸的概率值。搜索同一级分辨率下的子图片产生的热图，将这些热图上同一像素点位置处的最大概率值作为同一级分辨率下原始输入图片的合并热图上该像素点位置处的概率值Q_(i,j)，即其中n是同一级分辨率下子图片产生热图的数量，Q_(i,j)是同一级分辨率下原始输入图片的合并热图上点(i,j)处的概率值，是同一级分辨率下的子图片中第l个子图的热图上点(i,j)处的概率值。依次搜索其它同一级分辨率下子图片产生的热图，通过此合并方法获得七级分辨率下原始输入图片的七张热图。接着，设置64×64大小的滑动窗口分别扫描这七张热图，指定滑动窗口的步幅大小为其窗口大小的一半，分别计算这七张热图上滑动窗口内的所有像素点处概率值的均值和方差。因为本发明中的第一级网络用作初步筛选候选人脸区域，所以这里将滑动窗口内所有像素点处概率值的均值范围适当放宽。经过多次实验分析，最终将均值大于0.7、方差值小于0.04的窗口区域判定为局部最热区域，即可能的人脸区域，根据这一特性，将这七张热图上局部最热区域的坐标位置保存，获得原始输入图片七级分辨率下的初始候选人脸区域。

步骤四中所述的第二级网络结构，如图3所示。步骤四中所述的采集训练样本，训练第二级网络，具体过程如下：正样本通过剪裁原始输入图片中人脸的眼睛、嘴巴、鼻子这些五官区域，并通过随机多角度旋转处理生成，负样本由不含人脸的背景图片，以及剪裁的手臂、耳朵部位组成，设置的正负样本比例为1：3。

步骤四中所述的在第二级网络的最后通过一个基于聚类和人脸五官特征的候选框合并策略前，还包括：

A、将步骤三中获得的原始输入图片七级分辨率下的初始候选人脸区域输入至第二级网络，通过分类函数softmax获得输出子图片上每个候选窗口的概率值，搜索由不同等级分辨率滑动窗口生成的拥有相同坐标位置的子图片，将这些子图片上的候选窗口按照概率值从高到低排序；

B、接着，统计这些子图片上对应位置区域某一候选窗口出现的频率；

步骤四中所述的基于聚类和人脸五官特征的候选框合并策略，具体包含以下两个步骤：

D1：判断相邻的候选窗口是否为同一五官区域的候选窗口，将判断为同一五官区域的候选窗口进行合并，取合并后的窗口参数为各个窗口参数的平均值。具体过程如下：同一检测目标产生的候选窗口的中心坐标不会相离太远，由分析可知，重叠的候选窗口的中心坐标通常是密集地集中在一定范围内，根据这一特征，可以将同一五官区域的候选窗口利用类似密度聚类的方法标记出来。将所有候选窗口的中心坐标设为一个数据集合D＝{(p₁,q₁),…,(p_m,q_m)}＝{r₁,…,r_m}，设定邻域参数(e,P)，定义一个核心对象(p_i,q_i)＝r_i∈D,其满足在以核心对象为中心、距离核心对象大小为e的e邻域范围内，最少包含P个样本数量。遍历数据集合D中每个候选窗口的概率值，按照概率值从高到底的顺序依次计算每个候选窗口的中心坐标的邻域参数，若在其e邻域范围内样本数量P≤3，则将该候选窗口的中心坐标标志为一个噪声样本，从数据集合D中排除；若在其e邻域范围内样本数量P＝5，则将该候选窗口的中心坐标标志为一个核心对象。若核心对象r₁存在以r₂为核心对象的e邻域内，则称这两个核心对象之间密度可达，并且在这些密度可达的核心对象的e邻域范围内所有样本之间密度相连，这些密度相连的样本集合组成一个类别。在这里，我们采用欧氏距离来计算e的大小。欧氏距离的具体计算公式为：其中，(p₁,q₁)为目标候选窗口中心坐标，(p₂,q₂)为核心对象的中心坐标。经分析，e的大小与候选窗口的大小(w,h)有关，w为候选窗口的宽度，h为候选窗口的高度，一般取候选窗口为正方形，所以可设为e＝kw。在实际工程应用中，候选窗口的大小w具有一定的随机性。经实验分析，通过适当调整k的值，可以部分甚至完全抵消随机参数w对于合并结果的影响。最终，取k的值为0.25，即取邻域参数为(0.25,5)。由满足密度可达关系的核心对象导出的其e邻域范围内最大密度相连的样本集合，即为我们最终聚类的同一五官区域的候选窗口类别。接着将判为同一五官区域的候选窗口进行合并，取合并后的窗口参数为各个窗口参数的平均值。

D2：根据D1产生的同一五官区域的候选窗口，计算这些同一五官区域的候选窗口的中心坐标，根据人脸五官特征，计算相邻候选窗口中心坐标点的相对位置以及距离比值进行同一人脸窗口的合并，具体合并策略分为以下两种情况，具体过程如下：

(1)第一种合并策略：

设置一组相邻的候选窗口的中心坐标点为a、b、c、d,其中，存在三个中心坐标点a、b、d成近似正三角位置关系，且内部包含一个独立的中心坐标点c。距离比值满足取值范围(-0.3,0.3)。其中，ac、bc分别是指中心坐标点a、b至中心坐标点c的距离差值，ad、bd分别是指中心坐标点a、b至中心坐标点d的距离差值。将满足以上相对位置关系和距离比值的四个候选窗口判定为可能的同一个人脸，根据人脸五官比例特征，将中心坐标点a、b、d构成的三角abd大小均匀扩大至1.5倍，构成三角a′b′d′，选取三角a′b′d′外的最小外接正方形窗口作为最终的人脸窗口；

(2)第二种合并策略：

若相邻的候选窗口的中心坐标点不满足第一种合并策略中的合并要求，则判定为可能的含遮挡或者姿态变换的人脸。选取中心坐标点距离最近的两个重叠的候选窗口，分别计算这两个重叠的候选窗口面积的交集面积与并集面积，并计算交集面积与并集面积的比值，即得到这两个重叠的候选窗口的联合交叉比(IoU)，将联合交叉比(IoU)值大于0.3的两个重叠候选窗口判定为可能的同一人脸的五官区域，并且将判定为可能的同一人脸的五官区域的候选窗口进行合并，计算两个候选窗口中心坐标点的均值坐标点位置，以均值坐标点为圆心，均值坐标点至候选窗口中心坐标点的距离的1.5倍大小为半径，获取候选人脸圆形区域，取圆形区域的最小外接正方形窗口作为最终的人脸窗口。

最后，获得包含人脸检测框的图片。

综上关于本发明技术方案概述和实施例的详细描述可见，该人脸检测方法克服了现有此类方法的网络复杂，计算量大的问题，且有效处理了图片中姿态变化或遮挡的人脸，提高了基于卷积神经网络的人脸检测精度。

以上详细描述了本发明的优选实施方式，但是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内进行修改或者等同变换，均应包含在本发明的保护范围之内。

Claims

1.一种基于分级网络和聚类合并的人脸检测方法，其特征在于，所述方法包括如下基本步骤：

2.根据权利要求1所述基于分级网络和聚类合并的人脸检测方法，其特征在于，步骤二中对原始输入图片进行预处理为采用直方图均衡化的方法增强；所述多分辨率滑动窗口中七级分辨率为在原始输入图片分辨率大小的基础上将分辨率大小按比例0.15、0.25、0.5、1、2、4、6缩放七个等级，且指定滑动窗口的步幅为窗口大小的一半；生成一系列待检测子图片的过程中将多分辨率滑动窗口滑过的原始输入图片上对应位置区域的坐标保存，并映射到生成的待检测子图片中。

3.根据权利要求1所述基于分级网络和聚类合并的人脸检测方法，其特征在于，步骤三中所述预训练第一级网络的过程：采集的训练正样本中包含了遮挡、不同角度、不同光照下的人脸样本，并对这些人脸样本进行随机平移、翻转、旋转处理来扩充数据集；采集的训练负样本随机截取自没有人脸的风景照片、物体照片；将随机平移、翻转和旋转过后的人脸样本与处理前人脸样本的相交面积与处理前人脸样本的面积的比值作为选取正负样本的阈值，其中比值大于0.7的作为正样本，比值小于0.2的作为负样本。

4.根据权利要求1所述基于分级网络和聚类合并的人脸检测方法，其特征在于，步骤三中获得全卷积神经网络的方法为：通过改变第一级网络中全连接层的参数排列形式，将全连接层转换为卷积层。

5.根据权利要求1所述基于分级网络和聚类合并的人脸检测方法，其特征在于，步骤三中获得初始候选人脸区域的过程：利用反卷积对最后一层卷积层的特征映射图进行上采样获得热图，并针对热图上的每个像素点利用分类函数softmax逐像素分类，获得每个像素点判为人脸的概率值；搜索同一级分辨率下子图片产生的热图，将这些热图上同一像素点位置处的最大概率值作为同一级分辨率下原始输入图片的合并热图上该像素点位置处的概率值Q_(i,j)，得其中n是同一级分辨率下子图片产生热图的数量，Q_(i,j)是同一级分辨率下原始输入图片的合并热图上点(i,j)处的概率值，是同一级分辨率下的子图片中第l个子图的热图上点(i,j)处的概率值；依次搜索其它同一级分辨率下子图片产生的热图，通过合并方法获得七级分辨率下原始输入图片的七张热图；接着设置64×64大小的滑动窗口分别扫描所述七张热图，指定滑动窗口的步幅为窗口大小的一半，分别计算七张热图上滑动窗口内的所有像素点处概率值的均值和方差，将均值大于0.7、方差值小于0.04的窗口区域判定为局部最热区域，保存局部最热区域的坐标，并获得原始输入图片七级分辨率下的初始候选人脸区域。

6.根据权利要求1所述基于分级网络和聚类合并的人脸检测方法，其特征在于，步骤四中所述训练第二级网络的过程：正样本通过剪裁原始输入图片中人脸的五官区域，并随机多角度旋转处理生成，负样本由不含人脸的背景图片以及剪裁的手臂、耳朵部位组成，设置的正负样本比例为1:3。

7.根据权利要求1所述基于分级网络和聚类合并的人脸检测方法，其特征在于，步骤四中在第二级网络的最后通过一个基于聚类和人脸五官特征的候选框合并策略前，还包括：

8.根据权利要求1所述基于分级网络和聚类合并的人脸检测方法，其特征在于，步骤四中基于聚类和人脸五官特征的候选框合并策略，最后获得包含人脸检测框的图片，包括步骤：