CN109446922A

CN109446922A - 一种实时鲁棒的人脸检测方法

Info

Publication number: CN109446922A
Application number: CN201811176062.2A
Authority: CN
Inventors: 纪庆革; 李启运
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-10-10
Filing date: 2018-10-10
Publication date: 2019-03-08
Anticipated expiration: 2038-10-10
Also published as: CN109446922B

Abstract

本发明涉及计算机视觉识别技术，具体为实时鲁棒的人脸检测方法，包括步骤：获取要进行人脸检测的目标图像并进行预处理；建立并训练检测模型，检测模型包括多个卷积模块、多个Inception模块、多个带残差的Inception模块及多个检测模块，Inception模块是具有两条支路的通道分离卷积模块，带残差的Inception模块是带残差连接的多支路通道分离卷积模块，检测模块用卷积运算最终输出位置信息和分类信息；将目标图像输入训练好的检测模型中，分别获取指定层级上的卷积结果；对获取的卷积结果进行分类和回归；根据回归和分类结果计算出人脸的位置。该方法构建了简单高效的卷积神经网络，减少了检测过程中冗余操作，在CPU上能达到实时效果。

Description

一种实时鲁棒的人脸检测方法

技术领域

本发明涉及计算机视觉识别技术，具体为一种实时鲁棒的人脸检测方法。

背景技术

人脸检测是计算机视觉中目标检测的一个子课题，属于特定类别的目标检测，是一个在机器视觉中被深入研究的经典问题，在安防监控、人证对比、人机交互、社交应用等领域有着重要的应用价值。人脸检测的目标是找到图像中人脸的位置。自从Viola和Jones于2001年提出使用Haar-like特征和级联AdaBoost分类器检测人脸以来，不断有新的特征(如LBP、Bow、HOG等)和新的检测器(如SVM、LatentSVM、DPM)被提出。其中DPM(DeformablePart Model)算法是一种基于组件的检测算法，对扭曲、多姿态、多角度的人脸有很好的检测效果。

目前，基于人工设计特征的检测算法，由于其特征表达能力有限，容易受外界环境变化的影响(如光照、遮挡、尺度变化等)，所以在复杂场景下检测性能难有提升。近年来，随着深度神经网络的出现以及不断改进，其强大的特征自动提取能力受到关注并被成功应用到图像识别领域。大批基于神经网络的人脸检测算法随之不断被提出，主要有以下三类：

(1)以MT-CNN为代表的Cascade CNN:该类方法级联若干小网络，从粗到精逐步筛选人脸的位置，其特点是速度较快，精度较低；

(2)以Face R-CNN为代表的two-stage方法：这类方法首先提取建议区域,再基于建议区域做二次修正，其特点是速度较慢，精度较高；

(3)以SSH为代表的one-stage方法：这类方法通过直接对预设在图像上的先验框做修正来获得检测结果，其特点是速度较快，精度较高。

Cascade CNN类的方法的检测速度受待检目标的数量影响较大，目标数量越多，需要筛选的区域就越多，检测速度就越慢；two-stage方法则因为提取的建议区域较多，检测速度一般较慢；one-stage方法中先验框的数量、尺寸、长宽比等超参数影响模型的训练和检测速度。

此外，现有人脸检测模型中骨干网络都是从一般的目标检测骨干网络迁移而来，其模型本身复杂度高且对人脸表观建模一般都包含冗余信息，检测过程需要借助计算能力强大的GPU等的支持，在一般移动端和CPU上还难以达到实时。

现有基于深度神经网络的人脸检测方法在CPU上检测速度慢主要是模型本身的高复杂度引起的；在one-stage的检测方法中，先验框的不合理设置也会影响检测精度和速度。针对这个问题，如何减少模型复杂度和如何针对人脸设置合理的先验框是本发明需要解决的技术问题。

发明内容

为了解决现有技术存在的问题，本发明提供一种实时鲁棒的人脸检测方法，采用通道分离的卷积方式进行卷积，结合inception模块和残差连接的思想，构建一个简单高效的卷积神经网络。该方法减少了检测过程中冗余操作，在CPU上能达到实时效果。

本发明采用以下技术方案来实现：一种实时鲁棒的人脸检测方法，包括以下步骤：

S1、获取要进行人脸检测的目标图像并进行预处理；

S2、建立并训练检测模型；

检测模型包括多个卷积模块、多个Inception模块、多个带残差的Inception模块及多个检测模块，第一卷积模块、第一Inception模块、第二Inception模块、第三Inception模块、第一带残差的Inception模块、第二卷积模块、第二带残差的Inception模块、第三卷积模块、第三带残差的Inception模块依次连接，第一带残差的Inception模块、第二带残差的Inception模块及第三带残差的Inception模块分别与第一检测模块、第二检测模块及第三检测模块连接，最终输出位置信息和分类信息；

S3、将目标图像输入训练好的检测模型中，分别获取指定层级上的卷积结果；

S4、对获取的卷积结果进行分类和回归；

S5、根据回归和分类结果计算出人脸的位置。

优选地，Inception模块是具有两条支路的通道分离卷积模块；每个Inception模块包括两条并联的支路，其中第一条支路是步长s＝2的瓶颈模块，第二条支路由一个步长s＝1的瓶颈模块和步长s＝2的瓶颈模块串联组成；两条支路的输出按照通道连接，组成整个Inception模块的输出。

其中，步长s＝2的瓶颈模块对输入依次进行带激活函数的卷积操作、通道分离卷积操作和线性卷积操作，其中，通道分离卷积的步长设为2；步长s＝1的瓶颈模块对输入依次进行带激活函数的卷积操作、通道分离卷积操作和线性卷积操作后，再与输入相加，得到最终瓶颈模块的输出。

优选地，带残差的Inception模块是带残差连接的多支路通道分离卷积模块；每个带残差的Inception模块具有四条支路，其中三条支路分别由不同数量的卷积串联形成，第四条支路直接与前三条支路的输出结果对应元素相加，作为整个带残差的Inception模块的最终输出。

在带残差的Inception模块中，三条带卷积的支路均首先进行1x1的卷积，调整通道数量，然后再分别串联上若干数量核卷积。三条带卷积的支路在进行1x1的卷积后，分别串联上0个、1个和2个卷积核，所串联的卷积核大小为3x3。

本发明与现有技术相比，具有如下优点和有益效果：

1、相较于基于人工设计特征的检测算法，本发明利用卷积神经网络自动提取图像特征，对环境变化有很好的鲁棒性，能适应不同场景下的检测要求，检测结果更加精准。

2、相较于深度学习的检测算法，本发明采用新颖的卷积方式，设计了更加轻量的检测模型，大大减少了模型的复杂度和检测的计算量，克服了一般深度神经网络模型在CPU上运行速度慢的弊端，本发明能在CPU上达到实时效果而检测结果只有轻微下降。

附图说明

图1是本发明的人脸检测流程图；

图2是所构建的检测模型的结构框图；

图3是检测模型中各主要模块的结构框图，其中(a)为卷积模块，(b)为Inception模块，(c)为瓶颈模块(步长＝2)，(d)为瓶颈模块(步长＝1)，(e)为带残差的Inception模块。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示，本发明包括以下步骤：

S1、获取要进行人脸检测的目标图像并进行预处理

获取要进行人脸检测的图像，对该图像进行预处理。预处理的过程首先是将图像进行白化处理：

G＝F-C

其中，G是白化后的图像，F是原始三通道的彩色图像，C是RGB彩色空间的一个向量，其中C：

再将白化后的图像缩放到检测网络要求的输入尺寸，即512x512x3，采用的缩放算法是双线性内插法。

S2、建立并训练检测模型

所建立的检测模型，即神经网络，如图2所示，其中输入(input)是尺寸为512x512x3的预处理后的图像。检测模型包括多个卷积模块、多个Inception模块、多个带残差的Inception模块及多个检测模块(detection module)。Inception模块是具有两条支路的通道分离卷积模块，带残差的Inception模块是带残差连接的多支路通道分离卷积模块，检测模块用卷积运算分别提取位置信息和分类信息，从而获得最终的检测结果(detections)。图2中3x3x32、3x3x128、3x3x256表示各卷积模块的卷积核大小为3x3，输出通道分别是32、128、256，c表示相应Inception模块的输出通道数，s表示卷积核的步长。

输出通道为32的第一卷积模块、输出通道为32的第一Inception模块、输出通道为64的第二Inception模块、输出通道为128的第三Inception模块、第一带残差的Inception模块、输出通道为128的第二卷积模块、第二带残差的Inception模块、输出通道为256的第三卷积模块与第三带残差的Inception模块依次连接，第一带残差的Inception模块、第二带残差的Inception模块及第三带残差的Inception模块分别与第一检测模块、第二检测模块及第三检测模块连接，最终输出位置信息和分类信息(也叫种类信息)。三个检测模块基于三个不同尺度的特征图，可以用来检测不同尺度的目标，从而能够对不同大小的人脸鲁棒。

图2中相关模块的详细结构如图3所示。参见图3中的(b)图，每个Inception模块由两条并联的支路构成，其中第一条支路是步长s＝2的瓶颈模块(bottleneck)，第二条支路由一个步长s＝1和步长s＝2的瓶颈模块串联组成；两条支路的输出按照通道连接，组成整个Inception模块的输出。两条支路中，由于瓶颈模块数量的不同，使得两条支路的感受野不同，最终整个Inception模块的输出是两条支路输出的合并，这样就丰富了在提取特征时候的感受野；同时，由于每条支路卷积时的步长最终都是2，这样可以在丰富感受野的同时使得输出的尺寸相较于输入减小一半，从而可以不必另外再设置下降尺寸的模块(如池化层)，简化了神经网络的结构。

不同步长的瓶颈模块的结构如图3中的(c)图和(d)图所示。参见图3中的(c)图，步长s＝2的瓶颈模块对输入依次进行带激活函数的卷积操作、通道分离卷积操作和线性卷积操作，其中，通道分离卷积的步长设为2。参见图3中的(d)图，步长s＝1的瓶颈模块对输入依次进行带激活函数的卷积操作、通道分离卷积操作(步长设为1)和线性卷积操作后，再与输入相加，得到最终瓶颈模块的输出。瓶颈模块的基本流程是先用1x1的卷积提升通道数量，再逐通道进行3x3卷积，最后用1x1的线性卷积降低通道数量。假设在一个标准的卷积操作中，输入是一个D_F×D_F×M大小的特征图F，其中D_F是特征图F的宽度和高度，M是通道数，卷积核大小为D_k×D_k×N,其中N是输出通道的数量。那么标准卷积的操作开销为：

D_k*D_k*M*N*D_F*D_F

而采用瓶颈模块中通道分离的卷积方式，其计算开销为：

D_k*D_k*M*D_F*D_F+M*N*D_F*D_F

两者的比值为：

可见，当使用3x3的卷积核时，通道分离的卷积方式能节约8至9倍的操作。

带残差的Inception模块的结构如图3中的(e)图所示，每个带残差的Inception模块具有四条支路，其中三条支路分别是由不同数量的卷积串联形成，第四条支路直接与前三条支路的输出结果对应元素相加，作为整个带残差的Inception模块的最终输出。三条带卷积的支路均首先进行1x1的卷积，将通道数量调整到32，然后再分别串联上若干数量(分别是0个、1个和2个)的小核卷积(大小为3x3)，小核卷积的串联能起到扩大感受野同时减少操作的效果，这样三条支路卷积的感受野各不相同，进一步丰富了特征的提取。而直接将输入与输出连接的支路即所谓的残差连接，残差连接能有效解决梯度消失问题，提升检测模型精度。

卷积模块所采用的激活函数是relu6，relu6是上界为6的线性整流单元；而带有线性(linear)标志的模块表示该模块中不含有激活函数。

可见，本发明所采用的Inception模块与现有技术中标准的inception模块不同之处在于，每一条支路都采用瓶颈模块而不是标准卷积进行特征提取，而且瓶颈模块在卷积运算时，采用的是通道分离的卷积方式。本发明采用这样的卷积方式进行特征提取，比标准卷积要节约8到9倍的操作。标准的inception模块由于具有多条支路而不能进行尺度缩放，只能丰富感受野；而本发明的检测网络中的Inception模块同时具有多支路和尺度缩放的特征，通过设定瓶颈模块的步长为2来进行尺度缩放，通过多支路的设置来丰富感受野。这样的设置能使得检测网络不必再设置其他更多的尺度缩放模块，减小了检测网络的深度，使检测网络保持简洁高效。

训练的整体过程是将训练图片输入神经网络(即检测模型)，获取检测结果后计算检测结果与真实值的差距，使用随机梯度下降和反向传播的方法调整神经网络参数，逐步缩小检测结果与真实值的差距。检测模型的训练，具体来说包括以下步骤：

a.首先将训练集中的图片调整到神经网络制定的尺寸，然后进行数据增强处理。数据增强处理包括水平翻转(horizontal flip)、随机裁剪加颜色扭曲(random crop&color distortion)、随机采集块域(Randomly sample a patch)等操作。

b.本发明采用的检测策略是one-stage方法，针对人脸目标框的特点来设置先验框。本步骤在检测模块对应的几个特征层上设置先验框(anchor)，采取一定的匹配方法使得先验框与训练集图片上人脸的真实标签(ground truth)相匹配，成功匹配的先验框设置为正样本，不能成功匹配的先验框则是负样本。先验框的具体设置如下表所示：

相关特征层(尺寸)	预设先验框大小	步长
			Incep_res 1(32x32)	32x32、48x48	16
Incep_res 2(16x16)	64x64、128x128	32
			Incep_res 3(8x8)	256x256、512x512	64

先验框与人脸的真实标签匹配的原则是：首先，对于训练集图片中每个真实标签ground truth，找到与其交并比(IOU)最大的先验框，该先验框与其匹配，称与真实标签ground truth匹配的先验框为正样本，反之，若一个先验框没有与任何真实标签groundtruth进行匹配，那么该先验框只能与背景匹配，就是负样本。其次，对于剩余的未匹配先验框，若某个真实标签ground truth的交并比IOU大于某个阈值(一般是设为0.5)，那么该先验框也与这个真实标签ground truth进行匹配。这意味着某个真实标签ground truth可能与多个先验框匹配，这是可以的。尽管一个真实标签ground truth可以与多个先验框匹配，但是真实标签ground truth相对先验框太少了，所以负样本相对正样本会很多。为了保证正负样本尽量平衡，本发明采用难样本挖掘技术(hard negative mining)对负样本进行抽样，抽样时按照置信度误差进行降序排列，选取误差较大的top-k作为训练的负样本，以保证正负样本比例接近1:3。

c.将损失函数定义为位置误差函数(localization loss)Lloc与分类误差函数(classification loss)Lconf的加权和，使用该损失函数训练本神经网络，定义如下：

式中，N是正确匹配到的先验框数量，分类误差函数Lconf是一个softmax loss函数，位置误差函数Lloc是smooth l1误差函数；c是样本的类别标签，l是目标框的预测值，g是目标框的真实值，x是指示函数，当时表示第i个先验框与第j个类别为p的真实标签(ground truth)匹配，权重系数α设置为1。具体的，位置误差函数Lloc的定义如下：

这里是目标框真实值g的编码形式。分类误差函数Lconf的定义如下：

S3、将目标图像输入训练好的检测模型中，分别获取指定层级上的卷积结果。

将输入图像(即目标图像)送入训练好的卷积神经网络中，经过一系列计算，卷积神经网络的各层会得到相应的特征值，分别获取感兴趣的层(即指定层级)上的特征值，在图2中即获取Incep_res 1、Incep_res 2以及Incep_res 3这三个模块的输出值。

S4、对获取的卷积结果进行分类和bbox回归。

对上一步获取的各层上的卷积结果进行分类和bbox回归。也即图2中的三个检测模块(detection module)中对带残差的Inception模块的输出值分别用3x3的卷积提取特征值，并将特征提取的结果汇总。

S5、最后根据回归和分类结果计算出人脸的位置。

根据上一步得到的分类和回归检测结果，对其中的分类结果做筛选，找到属于人脸类别的候选值，再根据对应的回归结果计算该人脸的位置，从而检测出整张图片中人脸的位置。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种实时鲁棒的人脸检测方法，其特征在于，包括以下步骤：

S1、获取要进行人脸检测的目标图像并进行预处理；

S2、建立并训练检测模型；

S4、对获取的卷积结果进行分类和回归；

S5、根据回归和分类结果计算出人脸的位置。

2.根据权利要求1所述的实时鲁棒的人脸检测方法，其特征在于，Inception模块是具有两条支路的通道分离卷积模块；每个Inception模块包括两条并联的支路，其中第一条支路是步长s＝2的瓶颈模块，第二条支路由一个步长s＝1的瓶颈模块和步长s＝2的瓶颈模块串联组成；两条支路的输出按照通道连接，组成整个Inception模块的输出。

3.根据权利要求2所述的实时鲁棒的人脸检测方法，其特征在于，步长s＝2的瓶颈模块对输入依次进行带激活函数的卷积操作、通道分离卷积操作和线性卷积操作，其中，通道分离卷积的步长设为2；步长s＝1的瓶颈模块对输入依次进行带激活函数的卷积操作、通道分离卷积操作和线性卷积操作后，再与输入相加，得到最终瓶颈模块的输出。

4.根据权利要求1所述的实时鲁棒的人脸检测方法，其特征在于，带残差的Inception模块是带残差连接的多支路通道分离卷积模块；每个带残差的Inception模块具有四条支路，其中三条支路分别由不同数量的卷积串联形成，第四条支路直接与前三条支路的输出结果对应元素相加，作为整个带残差的Inception模块的最终输出。

5.根据权利要求4所述的实时鲁棒的人脸检测方法，其特征在于，带残差的Inception模块中，三条带卷积的支路均首先进行1x1的卷积，调整通道数量，然后再分别串联上若干数量核卷积。

6.根据权利要求5所述的实时鲁棒的人脸检测方法，其特征在于，三条带卷积的支路在进行1x1的卷积后，分别串联上0个、1个和2个卷积核，所串联的卷积核大小为3x3。

7.根据权利要求1所述的实时鲁棒的人脸检测方法，其特征在于，所述第一卷积模块的输出通道为32，第二卷积模块的输出通道为128，第三卷积模块的输出通道为256；第一Inception模块的输出通道为32，第二Inception模块的输出通道为64，第三Inception模块的输出通道为128。

8.根据权利要求1所述的实时鲁棒的人脸检测方法，其特征在于，检测模型的训练过程为：将训练图片输入检测模型，获取检测结果后计算检测结果与真实值的差距，使用随机梯度下降和反向传播的方法调整检测模型的参数，逐步缩小检测结果与真实值的差距。

9.根据权利要求8所述的实时鲁棒的人脸检测方法，其特征在于，检测模型的训练过程包括如下步骤：

a.将训练集中的图片调整到神经网络制定的尺寸，然后进行数据增强处理；

b.在检测模块对应的几个特征层上设置先验框，使先验框与训练集图片上人脸的真实标签相匹配，成功匹配的先验框设置为正样本，不能成功匹配的先验框则是负样本；

c.将损失函数定义为位置误差函数与分类误差函数的加权和，使用该损失函数训练检测模型。