CN111553227A

CN111553227A - 基于任务指导的轻量级人脸检测方法

Info

Publication number: CN111553227A
Application number: CN202010318351.2A
Authority: CN
Inventors: 徐琴珍; 杨哲; 刘杨; 王路; 王驭扬; 杨绿溪
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2020-08-18

Abstract

本发明公开了一种基于任务指导的轻量级人脸检测方法，先将训练集进行数据增广，通过轻量级骨干网络在有限尺度空间内尽量保持原有特征，接着利用特征整合模块实现双分支架构且精简计算，再引入关联锚点辅助预测，以半监督方式生成人脸周边的头部、身体信息，最后应用任务指导型策略，对分类和回归分而治之，即构建选择性分类组专用于类别打分任务，构建选择性回归组专用于位置回归任务，将二者的损失加权求和，用以指导训练与学习过程直至收敛，进而实现对目标人脸的检测。本发明可达到工业级实时性标准，可被部署于边缘与终端设备上，对计算能力和内存大小的需求较低，且无需预训练网络，较适用于中、低检测难度的无约束场景。

Description

基于任务指导的轻量级人脸检测方法

技术领域

本发明属于图像处理技术领域，涉及一种基于任务指导的轻量级人脸检测方法。

背景技术

当计算机在工业生产、监管等方面逐渐普及，智能化设备内含的算法程序便成为了目前的研究重点。其中，目标检测因其广泛的应用场景是计算机视觉领域内当之无愧的最重要的分支，专注于从数字图像中检测出特定类(如人类、动物或汽车等)的可视化对象实例。人脸检测是目标检测领域里经典的二分类问题，即从图像中辨别出人脸、背景，并给出目标人脸所外接的矩形框的具体位置坐标。人脸检测利用机器去处理和分析海量图像、视频所包含的有效信息，在隐私保护、安防监控、社会管理等方面取得了突破性的进展，具体应用如3D人脸识别解锁手机、嫌犯追踪、刷脸验证和支付等。

随着深度学习的飞速发展，基于卷积神经网络的人脸检测方法以其强大的表征学习与非线性建模能力逐步取代了传统的人工模板匹配方法，通过自主习得面部特征，显著地提升了检测精度。目前多种人脸检测方法相继被提出，在公认的人脸检测基准上的精度均达到了领先水平，其模型大小基本都在百兆量级上，这些方法显然是想通过构建更加复杂的模型、引入更加全面的参数去提高准确率。

然而，当人脸检测被应用于边缘与终端设备上，如移动手机端或嵌入式结构，甚至摄像头内部时，这些设备受限于计算能力和内存大小，完全无法承载模型大小在百兆量级上的一些目前最先进的人脸检测方法。这些方法在公认的人脸检测基准上仅存在微小的性能数值差异，在实际应用中也很难被察觉，故而提高人脸检测在边缘与终端设备上的实时性尤为关键，这样才能在真正意义上实现工业级的落地标准。

实时性对网络模型的推理速度提出要求，意味着其模型结构、参数计算等方面务必精简，这在一定意义上也限制了特征提取的充分性，对检测精度的影响较大，因此在实际应用场景下，具备实时性的轻量级人脸检测方法仍然具有较大的准确率提升空间。而现有技术中尚无适用于边缘与终端设备，且能够在实时性和准确率中取得较好平衡的人脸检测方法。

发明内容

为解决上述问题，本发明提供了一种基于任务指导的轻量级人脸检测方法，着重在以下两方面进行改进和优化：一方面，在实时性与精确度之间权衡，通过轻量级骨干网络在有限尺度空间内尽量保留原有特征，并引入关联锚点，以半监督方式生成人脸周边的头部、身体信息，辅助目标人脸的检测；另一方面，利用特征整合模块实现双分支架构，防止高层语义对低层细节的破坏并精简计算，推理时应用任务指导型策略，对分类和回归分而治之，避免判别力不足的低层特征参与位置回归，缓解了不同层特征图之间的相互干扰，实现了算法模型的高效化。

为了达到上述目的，本发明提供如下技术方案：

基于任务指导的轻量级人脸检测方法，包括如下步骤：

步骤1，对WIDERFACE(目前最为权威的人脸检测基准)训练集进行数据增广；

步骤2，基于步骤1所得到的增广图片，以轻量级骨干网络提取基础特征，利用特征整合模块实现双分支架构，进而提取整合特征，并为用于预测的各分支、各层级特征图引入关联锚点，以半监督方式生成人脸周边的头部、身体信息；

步骤3，在训练参数初始化后，应用任务指导型策略，将分类和回归分而治之，对构建的选择性分类组和选择性回归组的损失进行加权求和，用以指导和监督模型的自主学习过程，待模型收敛后保存并进行检测。

进一步的，所述步骤1具体包括如下子步骤：

步骤1.1：对训练集中的图片进行水平翻转和随机裁剪，作为初步预处理，具体操作为：首先将输入图像扩展为原先尺寸的4倍，接着再对每一张图片进行镜像水平翻转，最后随机地裁剪出640×640的区域大小，即应用下式进行处理：

x_preprocess＝Crop(Flip(Extend(x_input)))

式中，x_input表示输入的训练集图片，Extend操作是采用填充均值的方式进行图片扩展，Flip操作表示随机地进行水平翻转，Crop为随机裁剪操作，x_preprocess则表示相应的初步预处理结果，其尺寸统一为640×640。

步骤1.2：采用色彩抖动、噪声扰动方式来模拟无约束场景下的干扰，再次对步骤1.1中得到的初步预处理结果x_preprocess进行不同程度地增强，进而得到综合处理后的增广图片x_process，如下式所示：

式中，Color操作表示色彩抖动方式，Noise(Gaussian)、Noise(Salt&pepper)操作分别表示为图片加高斯噪声、椒盐噪声。

进一步的，所述步骤2具体包括如下子步骤：

步骤2.1：通过轻量级骨干网络对增广的输入图片进行基础特征抽取，轻量级骨干网络采用若干Inception模块，Inception模块包括若干具有不同卷积核大小的卷积分支，激活函数选用串联整流线性单元，分别选取Inception1、Inception2、Inception3、Inception4、conv5_2、conv6_2作最后的预测，特征图尺寸分别为160×160、80×80、40×40、20×20、10×10、5×5；

步骤2.2：利用特征整合模块实现双分支架构，通过转置卷积对步骤2.1中的基本特征进行整合，具体如下式：

φ_i'＝φ_i·Ψ(φ_i+1；θ)+φ_i

式中，φ_i、φ_i+1分别表示当前的特征图和较高一层的特征图，Ψ则是应用在高层级特征图上的转置卷积操作，θ代表转置卷积操作的相关参数，φ_i'为整合后生成的新特征图，·为逐元素相乘；

步骤2.3：为上述步骤中所得到的各个分支、各个层级的用作预测的特征图引入关联锚点，以半监督方式生成目标人脸周围的头部、身体信息，假定相同比例、偏移量的不同人脸具有相似的周边环境特征，以某原始图像中的某目标人脸区域region_target为例，锚点选择第i层特征层的第j个锚点anchor_i,j，步长设为s_i，则第k个关联锚点的标签定义如下：

式中，s_aa ^k代表关联锚点的步长，其中k＝0,1,…,K；anchor_i.j·s_i表示锚点anchor_i.j在原始图像中对应的区域，anchor_i.j·s_i/s_aa ^k表示其对应的以步长s_aa ^k进行下采样的区域，iou表示计算该下采样区域anchor_i.j·s_i/s_aa ^k与真实的人脸区域region_target的交并比，threshold则是根据交并比判定样本属性的阈值。

进一步的，所述步骤3具体包括如下子步骤：

步骤3.1：对训练参数初始化；

步骤3.2：在预测时，应用任务指导型策略，对分类和回归分而治之，构建选择性分类组专门完成类别打分任务，构建选择性回归组专门完成位置回归任务，再将二者的损失加权求和，用以指导和监督模型的自主学习过程；

步骤3.3：当步骤3.2中所计算得到的加权损失不再上升，而稳定在一个较小值域时，则停止训练，存储模型，并进行检测；反之，则返回步骤3.1。

进一步的，所述步骤3.1中，优化器选用动量值为0.9的随机梯度下降方法；同时设置权重衰减值为10^-5。

进一步的，当迭代次数在设置的步进列表{40000,60000,80000}中时，学习率降为原先的0.1。

进一步的，所述步骤3.2中，任务指导型策略选取步骤2.1中的轻量级骨干网络所生成的Inception1、Inception2、Inception3、Inception4、conv5_2、conv6_2作最终的预测，对于选择性分类组而，原始的轻量级骨干网络中的Inception1、Inception2、Inception3首先根据预设的交并比阈值对大部分易区分的负样本进行过滤；对于选择性回归组，原始的轻量级骨干网络中的Inception4、conv5_2、conv6_2首先对锚点的位置进行粗略地调整。

进一步的，所述步骤3.2中，将二者的损失加权求和的过程包括如下步骤：

(1)基础的类别打分由softmax损失指导训练，其表达式为：

式中，x_k表示实际的类别标签，z_m表示softmax层的输入，f(z_m)表示softmax层所预测的输出，T是训练数据集上的类别数；

基础的位置回归由smooth L1损失指导训练，其表达式为：

式中，y⁽ⁱ⁾代表真实的位置标签，

代表CRFD模型预测的坐标标签信息，Ω表示先验框为正样本的区域集合；

(2)针对步骤2.3中所得到的关联锚点，定义第k个关联锚点的损失如下：

式中，k是关联锚点的编号，k＝0,1,2分别表示面部、头部、身体，i是锚点的编号，λ为分类与回归之间的平衡权重，N_k,cls表示用于类别打分的正锚点框数目，L_k,cls则表示人脸、背景这两个类别的softmax损失，p_k,i表示第i个锚点被预测为第k个目标的概率，

为其对应的真实类别标签，表示如下：

式中，s_aa为步长，N_k,reg表示用于位置回归的正锚点框数目，L_k,reg表示smooth L1损失，t_k,i是4维向量，表示第i个锚点被预测为第k个目标的边框坐标，

是与某一正样本相关联的真实定位标签，表示如下：

式中，

分别表示原始真实标签框的中心横坐标、中心纵坐标、总宽度和总高度，

则意味着只有在该锚点为正样本时，L_k,reg才被激活，以上这两项损失通过N_k,cls、N_k,reg进行归一化；

(3)针对任务指导型策略，对选择性分类组和选择性回归组的损失分别定义如下：

将选择性分类组(SCG，Selective Classification Group)的损失定义如下：

式中，k是关联锚点的编号，k＝0,1,2分别表示面部、头部、身体，i是锚点的索引，N_k,cls和N'_k,cls分别表示用于类别打分的初始的、过滤后的正锚点框数目，L_k,cls则表示人脸、背景这两个类别的softmax损失，p_k,i、q_k,i分别表示原先骨干网络及其经过特征整合模块后的第i个锚点被预测为第k个目标的概率，

为其对应的真实类别标签；

将选择性分类组(SRG，Selective Regression Group)的损失定义如下：

式中，k是关联锚点的编号，k＝0,1,2分别表示面部、头部、身体，i是锚点的索引，N_k,reg和N'_k,reg分别表示用于位置回归的初始的、过滤后的正锚点框数目，L_k,reg表示smoothL1损失，而

则意味着只有在该锚点为正样本时，L_k,reg函数才有效，t_k,i、x_k,i分别表示原先骨干网络及其经过特征整合模块后的第i个锚点被预测为第k个目标的边框坐标，

是与某一正样本相关联的真实定位标签；

(4)将选择性分类组和选择性回归组的损失进行加权求和，即得到总损失函数如下：

L＝αL_SCG+βL_SRG

式中，α和β是平衡这二者的超参数。

与现有技术相比，本发明具有如下优点和有益效果：

1.本发明弥补了现有方法对人脸检测的实时性和工业级落地标准的忽略，构建轻量级骨干网络，在有限尺度空间内尽量保留原有特征。在实时性与精确率之间权衡，引入关联锚点，以半监督方式生成面部周围的头部、身体标签，辅助目标人脸的检测，补救了现有方法对面部环境特征的非充分利用性。

2.本发明进一步减轻了不同层特征图之间的相互干扰，采用特征整合模块实现双分支架构，在防止高层语义破坏低层细节的同时也精简了计算，在推理时应用任务指导型策略，避免判别力不足的低层特征参与位置回归，将分类和回归分而治之，实现了算法模型的高效化，缓解了现有方法中不同层特征图之间的相互干扰对精度的不利影响，取得了良好的增益。

3.本发明可达到工业级实时性标准，可被部署于边缘与终端设备上，对计算能力和内存大小的需求较低，且不需要预训练网络，可以从零开始训练和检测。

4.本发明在面向无约束场景下具有尺度不一、模糊不清、光照强弱、姿势各异、面部遮挡以及化妆等这些属性的中、低检测难度的人脸时，也能保持较高的检测精确率，具有极高的实时性和综合性。

附图说明

图1为本发明基于任务指导的轻量级人脸检测方法的流程图。

图2为本发明基于任务指导的轻量级人脸检测方法的网络模型图。

图3为人脸图像处理增强方式示意图。

图4为Inception模块(一种以密集成分近似最优的局部稀疏结构)原理图。

图5为轻量级骨干网络的结构及相关参数设置。

图6为特征整合模块实现原理示意图。

图7为关联锚点示例图。

图8为任务指导型策略原理图。

图9为用训练好的模型对WIDER FACE测试集上的人脸样本进行检测的效果图。

图10为训练好的模型在WIDER FACE的Easy、Medium、Hard验证集上的检测精度。

图11为用训练好的模型对无约束的人脸进行检测的效果图。

附图中照片原图均为彩色图片，因专利提交要求，现修改为灰度形式。

具体实施方式

以下将结合具体实施例对本发明提供的技术方案进行详细说明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

以WIDER FACE(目前最为权威的人脸检测基准)数据集为例，结合附图对本发明方法具体实施步骤作进一步详细说明。本发明提供的基于任务指导的轻量级人脸检测方法，其流程如图1所示，包括以下步骤：

步骤1：对WIDERFACE训练集进行数据增广，主要包括以下两个方面：

步骤1.1：对WIDERFACE训练集中的图片进行水平翻转和随机裁剪，作为初步预处理，具体操作为：首先将输入图像扩展为原先尺寸的4倍，接着再对每一张图片进行镜像水平翻转，最后随机地裁剪出640×640的区域大小，即应用下式进行处理：

x_preprocess＝Crop(Flip(Extend(x_input)))

式中，x_input表示输入的训练集图片，Extend操作是采用填充均值的方式进行图片扩展，Flip操作表示随机地进行水平翻转，Crop为随机裁剪操作，x_preprocess则表示相应的初步预处理结果，其尺寸统一为640×640。数据增强操作的示例如图3所示，其中第一行是原始的任意尺寸的输入图像，第二行是将相应的图进行尺寸放缩至原先尺寸的4倍，第三、四行是经过翻转、裁剪后的部分样本的图片初步预处理增强结果。

步骤1.2：采用色彩抖动、噪声扰动方式来模拟无约束场景下的干扰。下面简要对这两种数据增强方式进行介绍：

色彩抖动：考虑到光照强弱、背景氛围、拍摄情况等不尽相同，根据任意生成的随机因子以分别调整输入图像的饱和度、亮度、对比度、锐度。

噪声扰动：主要涉及高斯白噪声、椒盐噪声的加入，其中，高斯噪声是指噪声幅度服从高斯分布，即某一个强度的噪声点个数最大，离这个强度越远的噪声点个数越少，是一种加性噪声；椒盐噪声则是一种脉冲噪声，可通过随机改变某一些像素点的值而在原始图像上产生黑白相间的亮暗点噪声，说得形象一些，就像把椒盐撒在图像上一样，是一种逻辑噪声。

综上，再次对步骤1.1中得到的初步预处理结果x_preprocess进行不同程度地增强，进而得到综合处理后的增广图片x_process，如下式所示：

式中，Color操作表示色彩抖动方式，Noise(Gaussian)、Noise(Salt&pepper)操作分别表示为图片加高斯噪声、椒盐噪声。数据增强操作的示例如图3所示，第五行是对第四行裁剪出的图片进行色彩抖动增强方式，第六、七行是对第四行裁剪出的图片分别增加不同程度的高斯噪声和椒盐噪声，以增强模型对于任意环境外因的检测稳定性。

步骤2：基于步骤1的增广图片，以轻量级骨干网络提取基础特征，利用特征整合模块实现双分支架构，进而提取整合特征，并为用于预测的各分支、各层级特征图引入关联锚点，以半监督方式生成人脸周边的头部、身体信息，主要包括以下几个步骤：

步骤2.1：通过轻量级骨干网络对增广的输入图片进行基础特征抽取，其中，采用Inception模块(一种以密集成分近似最优的局部稀疏结构)，其原理如图4所示，它是由多个具有不同卷积核大小的卷积分支所组成的，这些分支能够提供更加丰富、全面的感受野。激活函数选用串联整流线性单元，以减少输出的通道数。轻量级骨干网络的整体架构及其相关参数设置如图5所示，其中，分别选取Inception1、Inception2、Inception3、Inception4、conv5_2、conv6_2作最后的预测，其特征图尺寸分别为160×160、80×80、40×40、20×20、10×10、5×5。

步骤2.2：利用特征整合模块实现双分支架构，通过转置卷积对步骤2.1中的基本特征进行整合，在数学上可表示为：

φ_i'＝φ_i·Ψ(φ_i+1；θ)+φ_i

式中，φ_i、φ_i+1分别表示当前的特征图和较高一层的特征图，Ψ则是应用在高层级特征图上的转置卷积操作，θ代表转置卷积操作的相关参数。等式左边的φ_i'即为整合后生成的新特征图，它将不断更新当前的特征映射，并持续参与到后续与较低层级特征图的融合过程中，一直到最浅层。逐元素相乘(表示为·)可看作是结合了空间与通道的注意力以使得各层级特征图之间的信息交互最大化。

特征整合模块的实现原理如图6所示，其中，N、C、H、W分别表示批量大小、通道数量、输入高度、输入宽度，这里应用转置卷积可以将空间分辨率和通道的改变一步到位，且不存在冗余计算。

步骤2.3：为上述步骤中所得到的各个分支、各个层级的用作预测的特征图引入关联锚点，以半监督方式生成目标人脸周围的头部、身体信息。这里假定相同比例、偏移量的不同人脸具有相似的周边环境特征，以某原始图像中的某目标人脸区域region_target为例，锚点选择第i层特征层的第j个锚点anchor_i,j，步长设为s_i，则第k个关联锚点的标签定义如下：

式中，s_aa ^k代表关联锚点的步长，其中k＝0,1,…,K。anchor_i.j·s_i表示锚点anchor_i.j在原始图像中对应的区域，anchor_i.j·s_i/s_aa ^k表示其对应的以步长s_aa ^k进行下采样的区域，iou表示计算该下采样区域anchor_i.j·s_i/s_aa ^k与真实的人脸区域region_target的交并比(交叠率)，threshold则是根据交并比判定样本属性的阈值。在本发明中，设定关联锚点的步长s_aa为2，因为相邻的预测层的步长为2；同时设定K＝2，则label₀、label₁、label₂分别代表人脸面部、头部、身体的标签，即每一个目标人脸均会在3个连续的预测层中生成3个预测结果，依次为其面部、头部及身体；交并比阈值threshold设置为0.3，尽可能地引进更多的正样本。

这里基于步骤2.1中所搭建的轻量级骨干网络，以图7为例，具体说明关联锚点的实现。图中黄色框中的人脸尺寸为128，根据面部本身在Inception4上生成面部标签，根据目标人脸的头部在conv5_2上生成头部标签(尺寸约为256)，根据目标人脸的身体在conv6_2上生成身体标签(尺寸约为512)；类似地，图中绿色框中的人脸尺寸为16，也可以从关联锚点处得到监督特征，Inception1上的关联锚点是通过原始人脸标注的，Inception2上的关联锚点是通过相应的尺寸约为32的头部标注的，Inception3上的关联锚点是通过相应的尺寸约为64的身体标注的。

步骤3：在训练参数初始化后，应用任务指导型策略，将分类和回归分而治之，即对构建的选择性分类组和选择性回归组的损失进行加权求和，用以指导和监督模型的自主学习过程，待模型收敛后即可保存，并进行检测，主要包括以下几个步骤：

步骤3.1：对训练参数进行初始化，具体设置如下表1所示。

表1训练参数设置

其中，优化器选用动量值为0.9的随机梯度下降(SGD，Stochastic GradientDescent)方法；同时，为了防止过拟合，设置权重衰减值为10^-5。需要注意的是，考虑到网络学习过程的不断深入，对学习率有如下设置：随着迭代次数增加，当迭代次数在设置的步进列表{40000,60000,80000}中时，学习率降为原先的0.1，这样做可以防止网络参数在接近全局最优解时，由于学习率过大而导致错过最优值的意外情况发生。

这里无需预训练网络，可从零开始训练，网络的初始化权重可通过Xavier方法(一种常用的深度学习参数初始化方法)随机生成。

步骤3.2：在预测时，应用任务指导型策略，对分类和回归分而治之，即构建选择性分类组专用于类别打分任务，构建选择性回归组专用于位置回归任务。

任务指导型策略的原理图如图8所示，这里选取步骤2.1中的轻量级骨干网络所生成的Inception1、Inception2、Inception3、Inception4、conv5_2、conv6_2作最终的预测，其特征层名称后面加了“′”的则表示经过步骤2.2中的特征整合模块处理后的相对应的特征层。就选择性分类组而言，原始的轻量级骨干网络中的Inception1、Inception2、Inception3首先根据预设的交并比阈值对大部分易区分的负样本进行过滤，以此为Inception1′、Inception2′、Inception3′省去了不必要的搜索计算成本，在一定程度上降低了正、负样本分布不均衡所导致的误检率升高的风险；至于较高层级的特征映射，并无必要构建选择性分类组，主要是出于简化模型参数的考虑。就选择性回归组而言，原始的轻量级骨干网络中的Inception4、conv5_2、conv6_2首先对锚点的位置进行粗略地调整，以此为Inception4′、conv5_2′、conv6_2′提供更好的初始化，这是一种由粗到细的过程；仅作用于高层级是因为，低层级特征本身的鲁棒性就不强，表达力也明显不足，盲目地使其加入回归计算却会造成较多误判，从而使得检测精度不升反降。

在本发明中，将选择性分类组的损失和选择性回归组的损失加权求和，用以指导和监督模型的自主学习过程，将其详细阐述如下：

(1)基础的类别打分由softmax损失指导训练，其表达式为：

式中，x_k表示实际的类别标签，z_m表示softmax层的输入，f(z_m)表示softmax层所预测的输出，T是训练数据集上的类别数。

基础的位置回归由smooth L1损失指导训练，其表达式为：

式中，y⁽ⁱ⁾代表真实的位置标签，

代表CRFD模型预测的坐标标签信息，Ω表示先验框为正样本的区域集合。

式中，k是关联锚点的编号(k＝0,1,2分别表示面部、头部、身体)，i是锚点的编号，λ为分类与回归之间的平衡权重，N_k,cls表示用于类别打分的正锚点框数目，L_k,cls则表示人脸、背景这两个类别的softmax损失，p_k,i表示第i个锚点被预测为第k个目标(判断为面部、头部或身体)的概率，

为其对应的真实类别标签，表示如下：

式中，步长s_aa设为2，因为相邻预测层的步长也为2。举个例子，当k＝0时，真值标签即为真实的面部标签；当k≥1时，将根据下采样后的锚点与人脸真实值的匹配情况来判定相应的标签。此外，N_k,reg表示用于位置回归的正锚点框数目，L_k,reg表示smooth L1损失，t_k,i是4维向量，表示第i个锚点被预测为第k个目标的边框坐标，

是与某一正样本相关联的真实定位标签，表示如下：

式中，

分别表示原始真实标签框的中心横坐标、中心纵坐标、总宽度和总高度。

则意味着只有在该锚点为正样本时，L_k,reg才被激活。以上这两项损失通过N_k,cls、N_k,reg进行归一化。

式中，k是关联锚点的编号(k＝0,1,2分别表示面部、头部、身体)，i是锚点的索引，N_k,cls和N'_k,cls分别表示用于类别打分的初始的、过滤后的正锚点框数目，L_k,cls则表示人脸、背景这两个类别的softmax损失，p_k,i、q_k,i分别表示原先骨干网络及其经过特征整合模块后的第i个锚点被预测为第k个目标(判断为面部、头部或身体)的概率，

为其对应的真实类别标签。

将选择性分类组(SRG，Selective Regression Group)的损失定义如下：

式中，k是关联锚点的编号(k＝0,1,2分别表示面部、头部、身体)，i是锚点的索引，N_k,reg和N'_k,reg分别表示用于位置回归的初始的、过滤后的正锚点框数目，L_k,reg表示smoothL1损失，而

是与某一正样本相关联的真实定位标签。

(4)将选择性分类组和选择性回归组的损失进行加权求和，即可得到总损失函数如下：

L＝αL_SCG+βL_SRG

式中，α和β是平衡这二者的超参数，这里为α、β分别赋值为1、4，主要是考虑到选择性回归组中的正锚点框数目大约是选择性分类组中的4倍。

综上所述，本发明基于任务指导的轻量级人脸检测方法的整体网络结构如图2所示，选取轻量级骨干网络所生成的Inception1、Inception2、Inception3、Inception4、conv5_2、conv6_2作最终的预测，其特征层名称后面加了“′”的则表示经过特征整合模块处理后的相对应的特征层，图中红色的线表示在相应的特征层根据面部自身而生成的面部标签，绿色的线表示在对应特征层的下一层根据当前目标人脸的头部所生成的头部标签，蓝色的线则表示在再下一层特征层根据当前目标人脸的身体所生成的身体标签。

步骤3.3：当步骤3.2中所计算得到的加权损失不再上升，而稳定在一个较小值域(例如(0,1])时，则可停止训练；否则，返回步骤3.1。

步骤3.4：停止训练，保存模型，并进行检测。这里要说明的是，为避免引入额外的计算成本，在模型投入实际检测过程中时，仅使用整合后的分支输出作为参考。用训练好的模型对WIDER FACE测试集中涉及尺度不一、模糊不清、光照强弱、姿势各异、面部遮挡以及化妆这些属性的部分人脸样本进行检测，用矩形框标注人脸，如图9所示，尤其在中、低难度的无约束场景下达到了较高的检测精度。本发明在公开的WIDER FACE的Easy、Medium、Hard验证集上的精度分别达到89.9％、87.6％、50.7％，如图10所示，在轻量级网络的范畴内取得了良好的增益。本发明适用于无约束场景下的中、低难度的人脸检测场景，具有较高的泛化性和综合性，如图11所示，采用本发明方法对任意捕获的无约束人脸进行检测，仍具有较高的准确率。本发明在GPU(图形处理器)平台上的每秒可检测图片数高达146张，在只用CPU(中央处理器)的情况下，每秒也可以检测115幅图片，极大地满足了人脸检测任务中的实时性要求。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.基于任务指导的轻量级人脸检测方法，其特征在于，包括如下步骤：

步骤1，对WIDERFACE训练集进行数据增广；

2.根据权利要求1所述的基于任务指导的轻量级人脸检测方法，其特征在于，所述步骤1具体包括如下子步骤：

x_preprocess＝Crop(Flip(Extend(x_input)))

式中，x_input表示输入的训练集图片，Extend操作是采用填充均值的方式进行图片扩展，Flip操作表示随机地进行水平翻转，Crop为随机裁剪操作，x_preprocess则表示相应的初步预处理结果，其尺寸统一为640×640；

3.根据权利要求1所述的基于任务指导的轻量级人脸检测方法，其特征在于，所述步骤2具体包括如下子步骤：

φ_i'＝φ_i·Ψ(φ_i+1；θ)+φ_i

4.根据权利要求1所述的基于任务指导的轻量级人脸检测方法，其特征在于，所述步骤3具体包括如下子步骤：

步骤3.1：对训练参数初始化；

5.根据权利要求4所述的基于任务指导的轻量级人脸检测方法，其特征在于，所述步骤3.1中，优化器选用动量值为0.9的随机梯度下降方法；同时设置权重衰减值为10^-5。

6.根据权利要求5所述的基于任务指导的轻量级人脸检测方法，其特征在于，当迭代次数在设置的步进列表{40000,60000,80000}中时，学习率降为原先的0.1。

7.根据权利要求4所述的基于任务指导的轻量级人脸检测方法，其特征在于，所述步骤3.2中，任务指导型策略选取步骤2.1中的轻量级骨干网络所生成的Inception1、Inception2、Inception3、Inception4、conv5_2、conv6_2作最终的预测，对于选择性分类组而，原始的轻量级骨干网络中的Inception1、Inception2、Inception3首先根据预设的交并比阈值对大部分易区分的负样本进行过滤；对于选择性回归组，原始的轻量级骨干网络中的Inception4、conv5_2、conv6_2首先对锚点的位置进行粗略地调整。

8.根据权利要求4所述的基于任务指导的轻量级人脸检测方法，其特征在于，所述步骤3.2中，将二者的损失加权求和的过程包括如下步骤：

(1)基础的类别打分由softmax损失指导训练，其表达式为：