CN110647817A

CN110647817A - 基于MobileNet V3的实时人脸检测方法

Info

Publication number: CN110647817A
Application number: CN201910796856.7A
Authority: CN
Inventors: 孙俊; 马栋梁; 吴豪; 吴小俊; 方伟; 陈祺东; 李超; 游琪; 冒钟杰
Original assignee: Jiangnan University
Current assignee: Uni-Entropy Intelligent Technology (Wuxi) Co., Ltd.
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2020-01-03
Anticipated expiration: 2039-08-27
Also published as: CN110647817B

Abstract

基于MobileNet V3的实时人脸检测方法，属于人脸识别领域。本发明设计一种基于SSD架构的实时人脸检测器。同时这是MobileNet V3卷积神经网络首次应用于实时人脸检测任务。此外，还提出了一个轻量级的特征提高模块，增强MobileNet V3中浅层特征的表示能力，提高极小型人脸的检测精度。最后，为了提高极小型人脸的召回率，使用锚点密度策略，使得不同类型的锚点在图像上具有相同的密度。SSRFD在AFW数据集上能够实现99.43％mAP，同时仅有0.62M的参数；速度方面，采用1024x1024高分辨率图片在一块NVIDIA TITANX卡上进行测试，本方法能够达到34fps的帧速率。

Description

基于MobileNet V3的实时人脸检测方法

技术领域

本发明属于人脸识别领域，设计一种基于MobileNet V3卷积神经网络的实时人脸检测方法。

背景技术

作为计算机视觉中受到长期关注的任务，人脸检测具有广泛的应用，这其中包括人脸对齐、人脸识别、人脸验证和人脸追踪等。随着过去几十年科技的巨大进步，尤其是深度卷积神经网络的出现，人脸检测已经能够成功应用于我们日常生活中的各种场景。尽管人们已经对基于卷积神经网络的人脸检测算法进行了广泛的研究，但是对于移动设备上的人脸检测算法来说，实时性以及高性能尚未满足工业界实际要求，这仍待我们继续研究。

在深度学习时代，目标检测已经取得了长足的发展。Ren等人设计的RPN网络将Fast-RCNN整合为一个统一的端到端的学习框架。SSD引入多参考和多分辨率检测技术以提高单阶段检测器的检测精度。FPN通过对Faster-RCNN中的主干网络添加横向链接以增强网络的表示能力，使得这种方法的准确率显著提高。RetinaNet设计“focal loss”来重塑标准交叉熵损失函数，让模型在训练期间能够将更多的注意力集中在困难样本。RefineDet设计锚点细化模块和物体检测模块，使得目标检测器更加高效、准确。

人脸检测作为目标检测的一种特例，借助于目标检测的发展，在这基础之上也取得了长足的进步。目前，基于深度学习的人脸检测算法可以大致分为两类：第一种方法是采用目标检测算法中主流的两阶段算法Faster-RCNN中的RPN网络进行相应的特征提取并检测人脸。另外一种是基于SSD的单阶段人脸检测算法，能够直接预测边界框并产生类别置信度，具有结构简单、运行速度快的优点。Face-RCNN基于Faster-RCNN进行改进，采用硬负样本挖掘的方法，取得了一定的效果。Zhang等在SSD的基础之上设计一个CPU实时人脸检测器。SSH通过每个预测模块上面的较大的过滤器对上下文信息进行建模。PyramidBox将上下文锚点和低级特征金字塔网络与SSD相结合进行人脸检测。FAN基于RetinaNet设计锚点级注意力网络来增强遮挡人脸的检测效果。在本发明中，我们以SSD目标检测器为基础，设计基于单阶段人脸检测算法SSRFD使模型具有更高的推断效率的同时，实现更简单地系统部署的目的。

发明内容

本发明旨在提供一种实时人脸检测方法，解决现有的人脸检测算法只追求模型的高精度，而在嵌入式移动设备上计算能力受限，模型无法直接部署的技术问题。在本发明中，我们采用高精度、计算代价低、参数少的MobileNet V3作为检测模型的主干网络，并提出一个轻量级的特征提高模块，增强MobileNet V3中浅层特征的表示能力，提高极小人脸的检测精度。同时，为了提高极小人脸的召回率，我们使用锚点密度策略，使得不同类型的锚点在图像上具有相同的密度。

本发明的技术方案：

基于MobileNet V3的实时人脸检测方法，步骤如下：

步骤一、输入图片，并针对图片进行预处理操作；

步骤二、SSRFD检测器加载预训练网络参数，并根据预先设定好的锚点的尺寸以及长宽比例，生成默认的锚点；所述SSRFD检测器包括主干网络、轻量级特征提高模块、预测层和多任务损失层构成；所述MobileNet V3包括6个卷积层；

步骤三、将预处理好的图片放入预训练后的SSRFD检测器中进行预测，使用MobileNet V3中两个不同卷积层的特征与不同尺寸的锚点相结合的方法进行人脸预测；

步骤四、将SSRFD检测器得到的预测值l＝(l^cx，l^cy，l^w，l^h)进行解码操作，转化为边界框的真实位置b＝(b^cx，b^cy，b^w，b^h)：

b^cx＝l^cxd^wM+d^cx，b^cy＝d^hl^cy+d^cy

b^w＝d^wexp(l^w)，b^h＝d^hexp(lⁿ) (1)

其中，d＝(d^cx，d^cy，d^w，d^h)表示生成的锚点；

步骤五、采用阈值为0.3的非极大值抑制算法消除重叠检测框；

步骤六、得到最终的人脸检测框，包括人脸置信度、检测框左上角坐标以及右下角坐标信息。

步骤一中，所述的预处理操作包括调整图像大小、标准化。

所述的轻量级特征提高模块首先采用1x1卷积对特征进行规范化映射处理；然后，采用不同尺寸的卷积核并行化处理特征，其中每个分支具有相应的扩张率；将不同分支的特征拼接之后，进行逐点操作以及残差操作，使得最后得到特征更具有辨别性。

所述步骤三的具体过程为：

将预处理好的图片放入预训练后的SSRFD检测器中进行预测，将MobileNet V3主干网络中提取的第4个卷积层中的特征放入所设计的轻量级特征提高模块，以增强极小型人脸的判别能力，将轻量级特征提高模块的特征和MobileNet V3中第6个卷积层中的特征分别输入到各个预测层进行人脸分类和定位操作；

对于每个锚点，使用相对其坐标的4个偏移量以及N个用于分类的分数进行表示，N＝2；在SSRFD检测器训练时，针对于每个锚点，最小化式(2)中所示的多任务损失函数：

其中，L_cls为交叉熵损失函数用于锚点分类，p_i为锚点作为人脸的概率，如果锚点为正样本，则

否则为0；L_box采用smoth-L1损失函数用于人脸锚点定位，t_i＝{t_x,t_y,t_w,t_h}_i为预测框的坐标偏移量，

为正样本锚点的坐标偏移量；λ为两项损失函数的权重系数。

所述步骤三中，采用32到512像素的锚点来匹配相应的有效感受野的最小尺寸；轻量级特征提高模块的锚点尺度为32,64,128像素，第6个卷积层的锚点尺寸为256和512像素；该步骤包含锚点密度策略：在该人脸检测器中，将锚点尺寸设置为(32，64，128，256，512)5种不同像素，在生成锚点的过程中，当锚点的尺寸为32或64像素时，分别在其锚点位置偏移(0，0.25，0.5，0.75)个像素和(0，0.5)个像素，使其锚点的密度增加4倍或2倍；生成默认的锚点用d＝(d^cx,d^cy,d^w,d^h)表示。

本发明的有益效果：本发明在AFW、PASCAL、FDDB三个公共人脸检测数据集上验证检测算法的有效性。在AFW数据集上能够实现99.43％mAP，同时模型仅有0.62M的参数；速度方面，我们采用1024x1024高分辨率图片在一块NVIDIA TITANX卡上进行测试，SSRFD能够达到34fps的帧速率。实验结果表明，SSRFD人脸检测算法具有实时、高效、低功耗的特性。

附图说明

图1为人脸检测算法框架图。

图2为轻量级特征提高模块结构图。

图3为PASCAL Face数据集PR曲线。

图4为AFW数据集PR曲线。

图5为FDDB数据集ROC曲线。

具体实施方式

1.1SSRFD基本框架

MobileNet V3利用当前移动端计算机视觉设计的最优架构，在移动设备上对准确性和实时性进一步折衷，在目标分类、检测、分割任务上都取得了显著的效果。我们采用MobileNet V3作为SSRFD实时人脸检测器的主干网络。针对于人脸检测任务，MobileNet V3已经在目标检测任务中展现出较强的鲁棒性，但针对极小型人脸检测，性能会急剧下降。为提高人脸检测的鲁棒性，我们使用MobileNet V3中两个不同的特征层特征与不同尺寸的锚点相结合的方法进行人脸预测。具体来说，我们采用MobileNet V3的低层特征检测极小型人脸，高层特征检测其他尺寸的人脸。通过这种方式，卷积神经网络能够确保各种尺度的人脸被检测到。此外，我们采用32到512像素的锚点来匹配相应的有效感受野的最小尺寸。

SSRFD同时使用浅层特征和深层特征进行人脸检测。如图1所示，主要由主干网络、轻量级特征提高模块、预测层以及多任务损失层构成。其中，我们保留MobileNet V3中的卷积层1到卷积层6，并移除其余层作为我们人脸检测算法的主干网络。针对于卷积层4中的特征，我们专门设计轻量级特征提高模块以增强极小型人脸的判别能力。我们将由特征提高模块提取的特征以及卷积层6中的特征分别与p×3×3×q卷积层相结合(其中，p和q是输入和输出通道数，3×3是卷积核的大小)进行人脸预测。对于每个锚点，我们使用相对其坐标的4个偏移量以及N个用于分类的分数进行表示(其中N＝2)。在模型训练时，针对于每个锚点，我们最小化式2中所示的多任务损失函数：

为正样本锚点的坐标偏移量。λ为两项损失函数的权重系数。

1.2轻量级特征提高模块

SSD利用不同尺度的特征来检测不同尺寸的物体。通常情况下，基于深度学习的检测算法在浅层特征检测小物体，在深层特征中检测较大物体。由于在浅层特征中包含了较多的非语义信息(包括颜色、边缘信息等)，这往往会削弱检测器的性能。针对于这个问题，我们提出轻量级特征提高模块，增强原来低层特征的判别性，利用空洞卷积在保持相同参数量的基础之上生成更高分辨率的特征图。具体细节如图2所示，模块首先采用1x1卷积对特征进行规范化映射处理。然后，采用不同尺寸的卷积核并行化处理特征，其中每个分支具有相应的扩张率。我们将不同分支的特征拼接之后，进行逐点操作以及残差操作，使得最后得到特征更具有辨别性。

1.3锚点密度策略

在我们的工作中，轻量级特征提高模块的锚点尺度为32,64,128像素，卷积层6的锚点尺寸为256和512像素，在不同尺寸的锚点之间存在平铺密度不平衡问题。我们认为SSRFD中轻量级特征提高模块特征层的小锚点太稀疏，导致极小型人脸召回率较低。为了解决上述问题，FaceBoxes将32×32像素的锚点密度增加4倍，将64×64像素的锚点密度增加2倍，这可以帮助各种比例的人脸匹配几乎相同数量的锚点。SSRFD同样采用这种方式以准确的检测各个尺度的人脸。

2.1数据集及实验设置

SSRFD人脸检测算法在WIDER FACE训练集上进行训练，该训练集共包含12880张图片。同时，分别在PASCAL、AFW、FDDB三个人脸检测基准集上验证模型的鲁棒性。

在数据增强方面，模型采用颜色失真、随机裁剪、比例变换、水平翻转等方法增加数据以防止模型过拟合。主干网络使用ImageNet预训练参数进行初始化，其余层通过“xavier”方法进行初始化。算法采用Pytorch开源深度学习库实现。SSRFD采用动量为0.9，权重衰减因子为0.0005的SGD随机优化算法进行网络训练。在训练的前150轮，初始化学习率设置为10^-3，随后在之后的50轮和100轮各降低10倍。在训练期间，我们首先将每个人脸与最佳的Jaccard重叠锚点进行匹配，之后，将锚点匹配到具有高于0.35阈值的Jaccard重叠人脸。算法采用硬负样本挖掘的方式减少正负样本之间的不平衡问题。

2.2PASCAL Face数据集

PASCAL Face数据集拥有851张图片，其中包含1335个被标记的人脸。该数据集面部外观及姿势变化较大。图3展示了SSRFD与PASCAL Face上其他检测算法的结果比较。SSRFD以更大的输入尺寸实现98.35％的mAP，优于所有其他方法和工业界常用的人脸检测算法(例如SkyBiometry、Face++和Pica-sa等)，同时保持了实时性。

内存和速度分析：我们分别在FLOPS、参数量、速度和精度等方面与当前工业界最具鲁棒性的人脸检测算法FaceBoxes进行比较。为公平起见，我们在相同运行环境下使用Pytorch-1.0.1和CUDNN V10重新复现FaceBoxes算法。如表1所示，SSRFD实时人脸检测算法的参数量大约是FaceBoxes的一半，并且在精度上高FaceBoxes 2％。凭借更少的参数以及更优的性能，SSRFD非常适合部署在移动设备中。

表1内存与速度分析。图片输入大小为3X1024X1024

方法	FLOPS(G)	参数量(M)	速度(FPS)	准确率(mAP)
					FaceBoxes	0.96	1.01	20	96.33
Ours	0.89	0.62	34	98.35

对比实验：为了更好地理解SSRFD，我们研究了每个组件在其设计中的影响。如表2所示，采用MobileNet V3作为主干网络的SSD的原始框架实现了97.83％的mAP。通过添加轻量级特征提高模块，在模型参数，FLOPS和运行时间几乎没有增加的前提下，mAP可以提高到98.24％，这表明我们的特征提高模块在人脸检测任务中是有效的。此外，我们可以看到，在增加锚点密度之后，PASCAL Face上的mAP从97.83％增加到98.00％，验证了锚点密度策略的重要性。

表2模型对比实验结果

2.3AFW数据集

AFW数据集由205张图片中的473个标记人脸组成，图片来源于Flickr数据集。我们将SSRFD实时人脸检测算法与7种最先进的人脸检测算法和3种商用人脸检测器进行比较。从图4中可以看出，我们的模型性能达到99.43％mAP，超过FaceBoxes。AFW数据集性能评价结果如图4所示。

2.4FDDB数据集

FDDB数据集包含2845张图片中注释的5171个人脸目标，该数据集在面部观察角度和分辨率方面具有较大的变化。我们在FDDB数据集上评估我们的SSRFD算法，并将其与20种最先进的人脸检测算法进行比较。ROC曲线如图5所示。可以看出SSRFD在FDDB数据集上的ROC得分为96.6％，甚至超过了以ResNet-101为主干网络的两阶段目标检测算法Faster-RCNN。当然相对于较大的模型，SSRFD的结果略差，但其结果仍然比实时面部检测器FaceBoxes(95.3％对96.6％)略优。因此，我们的模型是一种更准确，更快速的人脸检测器。

在这项工作中，我们提出了实时人脸检测器(SSRFD)，它实现了实时速度并保持了高性能。本发明提出了一种新颖的轻量级特征提高模块，使MobileNet-v3中的浅层特征更具可辨识性和鲁棒性。此外，引入锚点密度策略以提高小人脸的召回率。最后，在基准集PASCAL Face，AFW和FDDB上进行了全面的实验，证明我们提出的SSRFD算法的优越性。

Claims

1.基于MobileNet V3的实时人脸检测方法，其特征在于，步骤如下：

步骤一、输入图片，并针对图片进行预处理操作；

步骤三、将预处理好的图片放入预训练后的SSRFD检测器中进行预测，使用MobileNetV3中两个不同卷积层的特征与不同尺寸的锚点相结合的方法进行人脸预测；

b^cx＝l^cxd^w+d^cx，b^cy＝d^hl^cy+d^cy

b^w＝d^wexp(l^w)，b^h＝d^hexp(l^h) (1)

其中，d＝(d^cx，d^cy，d^w，d^h)表示生成的锚点；

2.根据权利按要求1所述的基于MobileNet V3的实时人脸检测方法，其特征在于，步骤一中，所述的预处理操作包括调整图像大小、标准化。

3.根据权利按要求1或2所述的基于MobileNet V3的实时人脸检测方法，其特征在于，所述的轻量级特征提高模块首先采用1x1卷积对特征进行规范化映射处理；然后，采用不同尺寸的卷积核并行化处理特征，其中每个分支具有相应的扩张率；将不同分支的特征拼接之后，进行逐点操作以及残差操作，使得最后得到特征更具有辨别性。

4.根据权利按要求1或2所述的基于MobileNet V3的实时人脸检测方法，其特征在于，所述步骤三的具体过程为：

其中，L_cls为交叉熵损失函数用于锚点分类，p_i为锚点作为人脸的概率，如果锚点为正样本，则否则为0；L_box采用smoth-L1损失函数用于人脸锚点定位，t_i＝{t_x,t_y,t_w,t_h}_i为预测框的坐标偏移量，

5.根据权利按要求3所述的基于MobileNet V3的实时人脸检测方法，其特征在于，所述步骤三的具体过程为：

6.根据权利按要求1、2或5所述的基于MobileNet V3的实时人脸检测方法，其特征在于，所述步骤三中，采用32到512像素的锚点来匹配相应的有效感受野的最小尺寸；轻量级特征提高模块的锚点尺度为32,64,128像素，第6个卷积层的锚点尺寸为256和512像素；该步骤包含锚点密度策略：在该人脸检测器中，将锚点尺寸设置为(32，64，128，256，512)5种不同像素，在生成锚点的过程中，当锚点的尺寸为32或64像素时，分别在其锚点位置偏移(0，0.25，0.5，0.75)个像素和(0，0.5)个像素，使其锚点的密度增加4倍或2倍；生成默认的锚点用d＝(d^cx,d^cy,d^w,d^h)表示。

7.根据权利按要求3所述的基于MobileNet V3的实时人脸检测方法，其特征在于，所述步骤三中，采用32到512像素的锚点来匹配相应的有效感受野的最小尺寸；轻量级特征提高模块的锚点尺度为32,64,128像素，第6个卷积层的锚点尺寸为256和512像素；该步骤包含锚点密度策略：在该人脸检测器中，将锚点尺寸设置为(32，64，128，256，512)5种不同像素，在生成锚点的过程中，当锚点的尺寸为32或64像素时，分别在其锚点位置偏移(0，0.25，0.5，0.75)个像素和(0，0.5)个像素，使其锚点的密度增加4倍或2倍；生成默认的锚点用d＝(d^cx,d^cy,d^w,d^h)表示。

8.根据权利按要求4所述的基于MobileNet V3的实时人脸检测方法，其特征在于，所述步骤三中，采用32到512像素的锚点来匹配相应的有效感受野的最小尺寸；轻量级特征提高模块的锚点尺度为32,64,128像素，第6个卷积层的锚点尺寸为256和512像素；该步骤包含锚点密度策略：在该人脸检测器中，将锚点尺寸设置为(32，64，128，256，512)5种不同像素，在生成锚点的过程中，当锚点的尺寸为32或64像素时，分别在其锚点位置偏移(0，0.25，0.5，0.75)个像素和(0，0.5)个像素，使其锚点的密度增加4倍或2倍；生成默认的锚点用d＝(d^cx,d^cy,d^w,d^h)表示。