CN106485215A

CN106485215A - 基于深度卷积神经网络的人脸遮挡检测方法

Info

Publication number: CN106485215A
Application number: CN201610861396.8A
Authority: CN
Inventors: 张百灵; 夏翌彰; 钱荣强; 颜诗洋
Original assignee: Xian Jiaotong Liverpool University
Current assignee: Xian Jiaotong Liverpool University
Priority date: 2016-09-29
Filing date: 2016-09-29
Publication date: 2017-03-08
Anticipated expiration: 2036-09-29
Also published as: CN106485215B

Abstract

本发明公开了一种基于深度卷积神经网络的人脸遮挡检测方法，包括：对输入图像进行分块，得到目标预选区域；构建第一深度卷积神经网络，通过训练包括第一深度卷积网络和与其连接的第一多层感知器的第一深度卷积神经网络得到所需参数，提取目标预选区域的特征并进行分类；根据提取的特征，通过第二多层感知器预测人头位置；将分类类别是人头的可信度和预测得到的人头位置通过非极大值抑制过滤去除重叠的重复检测框；联合原图分割得到人头块，构建基于多任务学习策略的第二深度卷积神经网络，判断该人头块的左眼、右眼、鼻子和嘴巴是否被遮挡。该方法能准确检测遮挡的人脸，并且判断其具体的遮挡部位，主要用于自动取款机前摄像机视频的犯罪预警。

Description

基于深度卷积神经网络的人脸遮挡检测方法

技术领域

本发明涉及一种人脸遮挡检测方法，具体地涉及一种基于深度卷积神经网络的人脸遮挡检测方法。

背景技术

自从20世纪70年代自动取款机(Automatic Teller Machine(ATM))被广泛引入，其一直是犯罪分子的目标。例如，骗子使用各种手段获取用户的卡号和密码。实时自动报警系统是解决此问题的最直接技术。因为，监控摄像机几乎被安装在所有的自动取款机上。然而，视频需要人工二十四小时监管，但是人的疲劳和分心将不可避免。因此，政商们急需一种用于自动取款机的人脸遮挡检测方法。

面遮挡检测已经研究了数年，也提出了一些方法，其中许多旨在加强自动取款机的安全性。但是其特征表达方法不能满足自动取款机场景下的复杂的情况。直到深度学习被提出。大量研究者将其应用于各种机器视觉问题，比如检测，分类和分割。深度卷积神经网络模型(deep convolutional neural network)，作为深度学习最为成功的模型之一，其集特征提取与分类模型为一体，在有监督的机器学习任务上，具有良好的表现。

最近，目标检测最成功的方法是利用众所周知的滑动窗口(sliding window)模式.但是为了准确检测大小变化较大的目标时，此方法将导致后续分类器(classifier)计算量剧增。基于边缘的预选区域推荐器(EdgeBoxes)是一种主流的解决方法，其不仅计算快，推荐的区域少，而且几乎能确保所需目标一定在推荐结果中。

为了克服拟合深度学习模型时训练数据不足的问题，知识迁移(knowledgetransfer)技术的提出很好得缓解了此问题。

多任务学习(multi-task learning)策略共享任务间的信息，其不仅能分享任务间的信息，以达到同时提高每个任务的性能。

本发明因此而来。

发明内容

针对上述存在的缺陷，本发明的目的是提出了一种基于深度卷积神经网络的人脸遮挡检测方法。该方法能实现基于自动取款机视频场景下的人脸遮挡检测，并且提供具体的遮挡部位。同时，该方法载入通用的预训练模型减少了训练数据，使用基于边缘的预选区域推荐器降低了分类器在复杂场景下的计算复杂度，通过深度卷积神经网络提取了更具类别差异的特征，借用多任务学习策略共享多任务间的差异信息提高了每个任务的性能。

本发明的技术方案是：

一种基于深度卷积神经网络的人脸遮挡检测方法，包括以下步骤：

S01：对输入图像进行分块，得到目标预选区域；

S02：构建第一深度卷积神经网络，通过训练第一深度卷积神经网络得到所需参数，提取目标预选区域的特征并进行分类，所述第一深度卷积神经网络包括第一深度卷积网络和与其连接的第一多层感知器；

S03：根据步骤S02提取的特征，构建第二多层感知器，通过第二多层感知器预测人头位置；

S04：将分类类别是人头的可信度和预测得到的目标位置通过非极大值抑制过滤去除重叠的重复检测框；

S05：联合原图分割得到人头块，构建基于多任务学习策略的第二深度卷积神经网络，所述第二深度卷积神经网络包括第二深度卷积网络和四个并联的第三多层感知器，所述四个第三多层感知器分别用于判断该人头块的左眼、右眼、鼻子和嘴巴是否被遮挡。

优选的，所述步骤S01中通过基于边缘的预选区域推荐器对输入图像进行分块，通过计算滑窗窗口内边缘个数，打分并排序，过滤低分的候选框；所述基于边缘的预选区域推荐器的参数α为0.65，β为0.75，其中，α为区域推荐器扫框的密度，β为非最大值抑制的阈值。

优选的，所述步骤S02中训练第一深度卷积神经网络得到所需参数包括，第一深度卷积神经网络通过通用的数据库训练至收敛；然后载入人脸遮挡数据，继续训练至收敛；通过前传方法得到训练误差，通过反向传播方法更新各层的权重参数值。

优选的，所述第一深度卷积神经网络包括依次连接的卷积层、激活层、池化层、全连层、输出层和代价函数层；所述全连层为多层感知器中的一层；

所述卷积层表达式：

式中x和y分别为输入和输出，wⁱ为深度卷积网络的i位置的权重参数，b为卷积神经网络权重的偏置参数；

所述激活层表达式：

y＝f_ReLU(x)＝max(x,0) (2)

式中x和y分别为输入和输出；

所述池化层表达式：

式中，是第i个输出图像上，第m行第n列上的神经元，其由第i个输入图像上大小为s×s的区域池化而成；

所述全连层表达式：

式中，xⁱ是输入向量中的第i个神经元，y^j是一个输出向量中的第j个神经元，w是一个全连层中的权重参数，b是偏置参数；

所述输出层表达式：

式中，xⁱ是输入的第i个神经元，K是总类数，pⁱ是第i类的输出得分；

所述代价函数层表达式：

式中，Y_loss是代价值，Y^j和分别是实际输出和真实标签第j个神经元的值，k是输出神经元的总数。

优选的，根据链式法则逐步反向传播误差，更新各层的权重参数值；反向传播表达式如下：

式中为要加在原来权重上的权重变化值，α为学习速率，E为误差，意味着计算误差对权重w_ij的偏导数。

优选的，所述步骤S03包括，将人头的位置转换成一个连续值；训练一个包含四个输出的第二多层感知器直至收敛，分别预测人头最小外接框中心点坐标(x,y)和宽高(w,h)，变换表达式如下：

式中是回归器的目标值，其中*是x、y、w、h之一。

优选的，所述步骤S04中非极大值抑制的面积重叠比例阈值为0.3。

优选的，所述步骤S05包括：

构建第二深度卷积神经网络；

运用知识迁移策略，载入步骤S02中最终收敛的第一深度卷积神经网络的参数至第二深度卷积神经网络的相应层中；

将分割得到的人头块加载入此第二深度卷积神经网络中，训练至收敛；

一个多层感知器完成一个任务，每个任务间分享自身的同异，多任务学习方法表达式：

式中L_joint表示所有任务的代价总和值，α_i和L_i表示任务i的权重和代价值，N为任务的总数，为4。

与现有技术相比，本发明的优点是：

该方法能实现基于自动取款机视频场景下的人脸遮挡检测，能准确检测遮挡的人脸，并且判断其具体的遮挡部位，主要用于自动取款机前摄像机视频的犯罪预警。

该方法载入通用的预训练模型减少了训练数据，使用基于边缘的预选区域推荐器降低了分类器在复杂场景下的计算复杂度，通过深度卷积神经网络提取了更具类别差异的特征，借用多任务学习策略共享多任务间的差异信息提高了每个任务的性能。

附图说明

下面结合附图及实施例对本发明作进一步描述：

图1为本发明基于深度卷积神经网络的人脸遮挡检测方法的流程图；

图2为人脸遮挡检测数据库；

图3为深度卷积神经网络模型(网络1)的结构图；

图4为基于多任务学习和深度卷积神经网络(网络2)的结构图；

图5为基于边缘的目标区域推荐器在人脸遮挡检测数据库中三组α和β值的测试性能；

图6为基于边缘的目标区域推荐器在人脸遮挡检测数据库中K的测试召回率；

图7为人头检测结果示例图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1所示，本发明基于深度卷积神经网络的人脸遮挡检测方法，包括以下步骤：

步骤1基于边缘的预选区域推荐方法(EdgeBoxes)分块输入图像

对图2所示的输入图像采用基于边缘的预选区域推荐方法进行分块。其分块出来的区域几乎一定包含后续分类器需要的目标区域。基于边缘的预选区域推荐方法是一个不需要学习的方法，其结合滑窗，通过计算窗口内边缘个数进行打分排序来过滤掉低分的候选框。

步骤2基于深度卷积神经网络(depp convolutional neural networks)的特征提取和分类

深度卷积神经网络模型用于提取由步骤1推荐的区域的特征，同时，一个多层感知器紧连在卷积网络后。深度卷积网络和多层感知器连成一个整体，深度卷积神经网络抽取目标预选区域的特征，多层感知器依据以上所得特征区分预选区域是否为所需目标。但是此模型需要就所处理的不同问题学习出所需参数。

首先构建一个随机初始化的深度卷积网络和一个多层感知器命名为深度卷积网络1。为了缓解训练样本不足问题，根据知识迁移策略，这个随机初始的模型被一个通用的数据库训练至收敛。然后，载入人脸遮挡数据，继续训练此模型直至模型收敛。图3为深度卷积神经网络模型的结构图，其逐层依次连接。以下将以公式形式说明网络中的每层，其中包含卷积层、激活层、池化层、全连层、输出层和代价函数层。

1)卷积层表达式：

式中x和y分别为输入和输出。wⁱ为深度卷积网络的i位置的权重参数，b为卷积神经网络权重的偏置参数。

2)激活层表达式：

y＝f_ReLU(x)＝max(x,0) (2)

式中x和y分别为输入和输出。

3)池化层表达式：

式中，是第i个输出图像上，第m行第n列上的神经元，它是由第i个输入图像上大小为s×s的区域池化而成

4)全连层表达式：

式中，xⁱ是输入向量中的第i个神经元，y^j是一个输出向量中的第j个神经元，w是一个全连层中的权重参数，b是偏置参数；由公式可知，全连层位为步骤S02中提到的多层感知器中的一层。

5)输出层表达式：

6)代价函数层表达式：

式中，Y_loss是代价值。Y^j和分别是实际输出和真实标签第j个神经元的值，K是输出神经元的总个数。

图3描述了此过程步骤2，卷积层1(Convolution 1)到池化层(Maxpooling 3)用于抽取特征，全连层1(FC 1)到全连层4(FC 4)用于分类；其中4层全连层构成一个层数为4的多层感知器。

为了训练模型，不仅需要以上的前传方法(feed forward)得到训练误差，还需要反向传播方法(back propagation)更新各层的权重参数值。本发明根据链式法则(chainrule)，逐步反向传播误差，更新各层的权重参数值。反向传播表达式如下：

式中为要加在原来权重上的权重变化值，α为学习速率，E为误差。意味着计算误差对权重w_ij的偏导数。

步骤3目标位置预测(bounding box prediction)

目标位置预测利用步骤2中提取的特征，运用多层感知器预测目标位置。大多由基于边缘的区域推荐器分块的区域都很靠近目标最小外接框。此问题可以当做回归(regression)问题来解决,将目标的位置转换成一个连续值；训练一个包含四个输出的多层感知器，分别预测目标最小外接框中心点坐标(x,y)和宽高(w,h)。变换表达式如下：

式中是回归器(regressor)的目标值，其中*是x,y,w,h之一。

训练此回归器的方式与步骤2中的前传方法和反向传播方法相同，因此，训练方式的表达式请参照步骤2。

步骤4非极大值抑制(NMS)去除重叠和重复的检测结果

至此，基于边缘的区域推荐器分块的区域都被计算了一个目标置信度和位置。但是对于每一个目标，有许多重叠了的重复区域。非极大值抑制根据置信度由高到底排序，两两比较临近的区域重叠比例(Intersection over Union of area(IoU))，去除重叠比例大于阈值的重复检测结果。最后，为每个目标得到唯一的、精确的位置。

步骤5基于多任务学习和深度卷积神经网络的遮挡位置分类

依据步骤4得到的目标位置，联合原图，分割得到目标块。然后，先构建一个随机初始化的深度卷积网络和四个多层感知器，命名为深度卷积网络2，四个多层感知器分别用于判断此人的左眼，右眼，鼻子和嘴巴是否被遮挡。接下来，运用知识迁移策略，载入步骤2中最终收敛的深度卷积神经网络1的参数到深度卷积神经网络2的相应层中，具体层数为卷积层1至池化层3。下一步，将以上分割得到的目标块加载入此网络中，训练此网络直至收敛。图4为深度卷积神经网络的结构图，其逐层依次连接。整个网络包含卷积层、激活层、池化层、全连层、输出层和代价函数层，网络中每层的公式形式说明与步骤2相同，详细公式请参照步骤2。

如图4，输入的是整张人头照片，输出为四个并联的多层感知器，一个多层感知器完成一个任务，每个任务间将分享自身的同异，最终达到每个任务都得到提升的效果。每个多层感知器利用同一个深度卷积神经网络提取的特征，这就是本发明使用的多任务学习方法。以下是多任务学习方法表达式：

式中L_joint表示所有任务的代价总和值。α_i和L_i表示任务i的权重和代价值。N为任务的总个数，在本发明专利中为4。

此步骤中使用的深度卷积神经网络与步骤2中相同，训练过程请参照步骤2。步骤2和步骤5中使用相同的网络结构不仅避免了重新设计一个网络的重复工作，也便于运用知识迁移策略，将收敛了的深度卷积网络1的参数载入随机初始化的深度卷积网络2中。但是，步骤2和步骤5中的深度卷积网络结构可以不同。

实施例：

步骤1：目标预选区域分块：

首先将图4所示数据库中人上半身图片随机分成8:1:1的三份，分别用于训练，验证和测试。

对640X640大小图片的人上身图片进行基于边缘的预选框分块。

基于边缘的目标区域推荐器中两个重要的参数是α和β，α控制区域推荐器扫框(sliding window)的密度，β是其非最大值抑制的阈值。这两个数值决定了目标区域推荐器的性能。为了均衡计算时间复杂度和计算空间复杂度，本具体实施例中α和β分别为0.65和0.75。图5展示了基于边缘的目标区域推荐器在图2所示的数据库中三组α和β值的测试性能。纵轴为召回率(Recall)，召回率就是所有目标在推荐区域与手工标定的目标地点的重叠率大于阈值时有多少比例被推荐器分块出来了，理想的目标区域推荐器应该使得其为1，即所有目标的所在区域都被目标区域推荐器分块出来了。

基于边缘的目标区域推荐器为每个分块出来的区域计算一个可能是目标的值，从大到小排序所有块。然后选取前K个区域，送入后续处理。如图6所示，为了均衡计算的时间和空间复杂度，本发明中K被设置成500。

步骤2：深度卷积神经网络提取特征和分类：

首先构建一个深度卷积神经网络，命名为深度卷积网络1，网络的详细参数见表1。然后载入ILSCVR12(Imagenet Large Scale Visual Recognition 2012)训练之至模型收敛。

初始学习速率为0.01，若连续五次发生验证集错误率上升的情况，则把模型参数还原到五个循环之前，并把学习速度除以2，然后继续训练。梯度下降方法采用随机梯度下降法(stochastic gradient descent)，批大小为128。

随后，将步骤1中计算的数据继续训练，验证和测试网络。训练时设置的参数与上述一致。

表1：深度卷积神经网络1详细参数

步骤3：目标位置预测(bounding box prediction)

保存深度卷积网络1中第7层的输出和步骤1中的相应预选框的位置(x,y,w,h)，载入步骤2中确认是人头区域的特征，根据表达式7,8,9,10转换预选框位置，训练表2所示回归器直至收敛。

表2：回归器详细参数

步骤4非极大值抑制(NMS)去除重叠和重复的检测结果

将分类器确认是人头的分类可信度和回归得到的位置输入非极大值抑制，设置面积重叠比例(IoU)阈值为0.3，过滤重叠的重复检测框。

步骤1,2,3,4连在一起，从人上半身图像检测到人头图像。图7展示了部分检测结果。其中黑色框为人工标定的位置，灰色框为检测结果。

表3展示了本发明中的方法与知名的梯度直方图(HOG)结合支持向量机(SVM)的检测方法的性能比较，其表明了此方法是有效的。

表3：人头检测方法性能比较

步骤5基于多任务学习和深度卷积神经网络的遮挡位置分类

将以上步骤得到的人头图像随机分成8:1:1的三部分，分别用于训练，验证和测试后续步骤中的模型。

首先构建一个随机初始化的深度神经网络，命名为深度卷积网络2，详细参数见表4。然后，将步骤2中收敛了的深度卷积神经网络1的参数载入随机初始化的深度卷积神经网络2中，具体层数为卷积层1至池化层3。然后载入步骤5中准备好的人头图像训练深度卷积网络2直至模型收敛。

初始学习速率为0.01，若连续五次发生验证集错误率上升的情况，则把模型参数还原到五个循环之前，并把学习速度除以2，然后继续训练。梯度下降方法采用随机梯度下降法(stochastic gradient descent)，批大小为128。设置表达式11中的α为0.25，即每个任务对中的总代价的权重是相同的。

随后，将步骤5中计算的验证和测试数据用于验证和测试网络。

表4：深度卷积神经网络2详细参数

表5展示了本方法的检测结果，其充分说明了本方法的有效性。

	左眼	右眼	鼻子	嘴巴	总计
						准确率	98.15％	99.07％	98.15％	99.07％	94.55％

表5：基于多任务学习的深度卷积神经网络分类结果

表6比较了本发明中的方法与知名的基于海尔特征(Haar)的维奥拉-琼斯(Viola-Jones)人脸检测器的准确率，其进一步表明了本发明中方法的有效性。

表6：人脸遮挡分类方法性能比较。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于深度卷积神经网络的人脸遮挡检测方法，其特点在于，包括以下步骤：

S01：对输入图像进行分块，得到目标预选区域；

2.根据权利要求1所述的基于深度卷积神经网络的人脸遮挡检测方法，其特征在于，所述步骤S01中通过基于边缘的预选区域推荐器对输入图像进行分块，通过计算滑窗窗口内边缘个数，打分并排序，过滤低分的候选框；所述基于边缘的预选区域推荐器的参数α为0.65，β为0.75，其中，α为区域推荐器扫框的密度，β为非最大值抑制的阈值。

3.根据权利要求1所述的基于深度卷积神经网络的人脸遮挡检测方法，其特征在于，所述步骤S02中训练第一深度卷积神经网络得到所需参数，包括，第一深度卷积神经网络通过通用的数据库训练至收敛；然后载入人脸遮挡数据，继续训练至收敛；通过前传方法得到训练误差，通过反向传播方法更新各层的权重参数值。

4.根据权利要求3所述的基于深度卷积神经网络的人脸遮挡检测方法，其特征在于，所述第一深度卷积神经网络包括依次连接的卷积层、激活层、池化层、全连层、输出层和代价函数层；所述全连层为多层感知器中的一层；

所述卷积层表达式：

y = b + \underset{i}{Σ} w^{i} * x^{i} - - - (1)

所述激活层表达式：

y＝f_ReLU(x)＝max(x,0) (2)

式中x和y分别为输入和输出；

所述池化层表达式：

y_{m, n}^{i} = f_{m a x} (x^{i}) = \max_{0 \leq α, β < s} {x_{m \cdot s + α, n \cdot s + β}^{i}}

所述全连层表达式：

y^{j} = f (x^{i}) = b^{j} + \underset{i}{Σ} w^{i j} \cdot x^{i} - - - (3)

所述输出层表达式：

p^{i} = f (x^{i}) = \frac{\exp (x^{i})}{Σ_{i = 1}^{K} \exp (x^{i})} - - - (4)

所述代价函数层表达式：

Y_{l o s s} = - Σ_{j = 1}^{k} [Y_{G}^{j} l o g (Y^{j}) + (1 - Y_{G}^{j}) l o g (1 - Y^{j})] - - - (5)

5.根据权利要求3所述的基于深度卷积神经网络的人脸遮挡检测方法，其特征在于，根据链式法则逐步反向传播误差，更新各层的权重参数值；反向传播表达式如下：

&dtri; w_{i j} = - α * \frac{\partial E}{\partial w_{i j}} - - - (6)

6.根据权利要求1所述的基于深度卷积神经网络的人脸遮挡检测方法，其特征在于，所述步骤S03包括，将人头的位置转换成一个连续值；训练一个包含四个输出的第二多层感知器直至收敛，分别预测人头最小外接框中心点坐标(x,y)和宽高(w,h)，变换表达式如下：

\hat{x} = \frac{G_{x} - P_{x}}{P_{w}} - - - (7)

\hat{y} = \frac{G_{y} - P_{y}}{P_{h}} - - - (8)

\hat{w} = l o g (G_{w} / P_{w}) - - - (9)

\hat{h} = l o g (G_{h} / P_{h}) - - - (10)

式中是回归器的目标值，其中*是x、y、w、h之一。

7.根据权利要求1所述的基于深度卷积神经网络的人脸遮挡检测方法，其特征在于，所述步骤S04中非极大值抑制的面积重叠比例阈值为0.3。

8.根据权利要求1所述的基于深度卷积神经网络的人脸遮挡检测方法，其特征在于，所述步骤S05包括：

构建第二深度卷积神经网络；

L_{j o int} = Σ_{i = 1}^{N} α_{i} L_{i} - - - (11)