CN111027382B

CN111027382B - 一种基于注意力机制的轻量级人脸检测的方法及模型

Info

Publication number: CN111027382B
Application number: CN201911078168.3A
Authority: CN
Inventors: 陈靓影; 徐如意; 杨宗凯; 谭磊; 刘乐元
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2023-06-23
Anticipated expiration: 2039-11-06
Also published as: CN111027382A

Abstract

本发明公开了基于注意力机制的轻量级人脸检测的方法，步骤包括：对输入的图像构建图像金字塔并遍历金字塔输出人脸检测的矩形区域，将输出的矩形区域利用肤色像素加权提纯剔除非肤色区域，将所述提纯后的图像区域在保持中心点不变的情况下将其长宽扩大一倍，将扩增后的图像区域进行至少两次人脸的置信度判断以及调整人脸框参数以框住准确的人脸，最后输出人脸框调整后且置信度大于阈值的图像区域。本发明还公开了基于注意力机制的轻量级人脸检测的模型。本发明提出的基于注意力机制的轻量级人脸检测的方法，实现了人脸检测网络的轻量化，并在实现检测网络轻量化的基础上同时保证了人脸检测的精度。

Description

一种基于注意力机制的轻量级人脸检测的方法及模型

技术领域

本发明属于人脸检测技术领域，更具体地，涉及一种基于注意力机制的轻量级人脸检测的方法及模型。

背景技术

人脸检测是一个涉及模式识别、图像处理、人工智能等多学科的综合性课题。人脸检测，就是让计算机对给定的图像进行特征提取，从中筛选出人脸所在的区域。人脸检测是几乎所有与人脸有关视觉任务的前置步骤，包括表情分析，人脸识别，头部姿态估计，脸部跟踪等。

在现实生活中，如课堂，火车站等，人脸的检测由于遮挡、光照、角度等多方面原因造成了检测的困难。高精度的人脸检测方法很多基于复杂的网络或者繁杂的设计，难以满足快速实时检测的要求，而且需要运行在相当昂贵的计算设备上。相反，轻量快速的人脸检测方法拥有很好的拓展性，能够部署在移动设备上，但是精度远低于复杂方法，难以满足正常的应用需求。如何实现人脸检测网络的轻量化，快速化和高精度在领域内的已经有一定的研究，但是如何让轻量快速的网络达到复杂方法的人脸检测精度仍然是一个充满挑战的课题。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供一种基于注意力机制的轻量级人脸检测方法及模型，通过在现有的人脸检测步骤中加入肤色像素加权提纯剔除非肤色区域，通过肤色像素加权提纯剔除非肤色区域，能够更高效的筛选出人脸潜在区域；并在肤色像素加权筛选后先将图像区域在保持中心点不变的情况下将长宽扩大一倍，从而增加了人脸周围信息，能够有效克服小尺寸人脸检测信息不足的困难，极大提高小脸检测的性能即提高人脸检测的全面准确性。

为了实现上述目的，本发明提供一种基于注意力机制的轻量级人脸检测的方法，步骤包括：

S1对输入的图像构建图像金字塔并遍历金字塔输出人脸检测的矩形区域；

S2将输出的矩形区域利用肤色像素加权提纯剔除非肤色区域；

S3将所述提纯后的图像区域在保持中心点不变的情况下将其长宽扩大一倍；

S4将扩增后的图像区域进行图像的共享特征提取，针对共享特征提取后的图像区域进行人脸的置信度判断以及人脸框参数估计，将置信度大于阈值的人脸框根据预测的人脸框参数进行调整，以框住准确的人脸；

S5重复步骤S4至少一次，最后输出人脸框调整后且置信度大于阈值的图像区域。

进一步地，步骤S2中，包括提取特征、人脸的置信度判断和人脸框参数调整，还包括预测图像像素是人肤色像素的概率值，将概率值对提取特征后的图像进行加权后进行人脸的置信度判断。

进一步地，使用人工标注的肤色像素作为正样本，非肤色像素作为负样本，通过训练更新所述肤色像素概率预测计算中的参数。

进一步地，使用人工标注的人脸区域作为正样本，非人脸区域作为负样本，固定肤色像素概率预测计算中的参数，通过训练更新网络中的其他参数。

作为本发明的另一个方面，提供一种基于注意力机制的轻量级人脸检测模型，包括肤色敏感推荐网络、区域扩增模块、粗提纯网络和精细提纯网络；

所述肤色敏感推荐网络利用肤色像素加权提纯剔除非肤色区域；

所述区域扩增模块，用于将图像区域在保持中心点不变的情况下长宽扩大一倍；

所述粗提纯网络包括前端的第一共享特征提取段和后端的第一人脸分类分支和第一人脸框回归分支，用于图像特征提取、人脸的置信度判断和调整人脸框的参数；

所述精细提纯网络包括前端的第二共享特征提取段和后端的第二人脸分类分支和第二人脸框回归分支，用于进一步地图像特征提取、人脸的置信度判断和调整人脸框的参数。

进一步地，所述肤色敏感推荐网络包括对图像进行联合筛选的推荐主干网和肤色敏感注意力机制网，所述推荐主干网包括若干个卷积层和池化层。

进一步地，所述肤色敏感注意力机制支网的输入口与推荐主干网的第一个卷积层的输出口连接，其输出口再接入到推荐主干网中。

进一步地，所述第一共享特征提取段包括第一卷积层、第一池化层和第二卷积层；所述第二共享特征提取段包括第三卷积层、第二池化层、第四卷积层、第三池化层和第五卷积层。

进一步地，所述第一及第二人脸分类分支和人脸框回归分支的处理中均包括用于对上级卷积层的各特征通道产生权重与上级卷积层的各特征通道特征相乘求和作为输出的特征。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明基于注意力机制的轻量级人脸检测方法，通过在现有的人脸检测步骤中加入肤色像素加权提纯剔除非肤色区域，通过肤色像素加权提纯剔除非肤色区域，能够更高效的筛选出人脸潜在区域；并在肤色像素加权筛选后先将图像区域在保持中心点不变的情况下将长宽扩大一倍，从而增加了人脸周围信息，能够有效克服小尺寸人脸检测信息不足的困难，极大提高小脸检测的性能即提高人脸检测的全面准确性。

(2)本发明基于注意力机制的轻量级人脸检测模型，在一般的推荐网络中加入了像素级的肤色敏感推荐网络，通过肤色像素加权提纯剔除非肤色区域，从而显著减少了推荐区域数量极大的加快了检测的速度。

(3)本发明基于注意力机制的轻量级人脸检测模型，在肤色敏感推荐网络中设置了推荐主干网和肤色敏感注意力机制网的联合筛选，推荐主干网完成特征的提取和特性选择及信息过滤，肤色敏感注意力机制网对推荐主干网中提取的特征进行像素加权，增加肤色概率高的区域的权重，从而输出每一幅图像的像素是人肤色像素的概率值，特征提取和像素加权结合提高筛选的准确率，为后面筛选减少。

附图说明

图1是本发明实施例中基于注意力机制的轻量级人脸检测方法的流程示意图；

图2是本发明实施例中基于注意力机制的轻量级人脸检测方法中肤色敏感推荐网络的结构示意图；

图3是本发明实施例中基于注意力机制的轻量级人脸检测方法中粗提纯网络的结构示意图；

图4是本发明实施例中基于注意力机制的轻量级人脸检测方法中精提纯网络的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

图1是本发明的基于注意力机制的轻量级人脸检测方法的流程示意图。如图1所示，基于注意力机制的轻量级人脸检测方法的步骤包括：

S1输入图像

输入图像后，对输入的图像构建图像金字塔(图像金字塔是图像多尺度表达的一种，是一种以多分辨率来解释图像的有效但概念简单的结构。一幅图像的金字塔是一系列以金字塔形状排列的分辨率逐步降低，且来源于同一张原始图的图像集合。其通过梯次向下采样获得，直到达到某个终止条件才停止采样。我们将一层一层的图像比喻成金字塔，层级越高，则图像越小，分辨率越低)，遍历图像金字塔的所有区域。优选地，具体步骤如下：对输入的图像，采用0.79的缩放系数构建图像金字塔，直至长宽中有一边小于12为止，遍历图像金字塔，将遍历的所有大小为12×12矩形区域作为人脸检测的输入。

S2将合适的遍历区域输入肤色敏感推荐网络，剔除大量非肤色区域

通过步骤S1遍历图像金字塔后将所有的大小为12×12矩形区域输入到肤色敏感推荐网络中进行处理，并通过肤色敏感推荐网络剔除大量非肤色区域，完成第一次提纯。

其中，肤色敏感推荐网络包括推荐主干网和肤色敏感注意力机制网，如图2所示，推荐主干网优选为全卷积神经网络，包括若干个卷积层(Conv)和池化层(pool)，卷积层池化层可对提取到的特征信息进行降维，一方面，使特征图变小，简化网络计算复杂度并在一定程度上避免过拟合的出现；另一方面进行特征压缩，提取主要特征。

池化层的作用则体现在降采样：保留显著特征、降低特征维度，增大kernel的感受野，池化层也可以提供一些旋转不变性。

肤色敏感注意力机制支网的输入口与推荐主干网的第一个卷积层的输出口连接，肤色敏感注意力机制支网的输出口再接入到推荐主干网中。肤色敏感注意力机制支网包括卷积层和激励函数层，用于输出每一幅图像的像素是人肤色像素的概率值，以对推荐主干网的第一个卷积层所提取的特征进行像素级加权，使得肤色概率高的区域具有更高的权重。

肤色敏感推荐网络中的参数，采用两阶段训练得到。具体的训练过程如下：

训练的第一阶段：

使用人工标注的肤色像素作为正样本，非肤色像素作为负样本，采用前向反向算法来更新肤色敏感注意力机制支网中的参数。

具体地，网络中的参数通过最小化如下的交叉熵损失求解获得。

其中，

为交叉熵损失值，N是训练批块的大小，i表示是该批次的第几个样本，y_i是肤色像素的标注，其值为0或1，0表示非肤色像素，1表示肤色像素。p_i是网络预测的该样本是肤色像素的置信度。

训练第二阶段：

使用人工标注的人脸区域作为正样本，非人脸区域作为负样本，固定肤色敏感注意力机制支网中的参数，采用前向反向算法对主干网中的参数进行更新。具体地，网络中的参数更新通过最小化如下的多任务损失求解获得：

L＝L_d+0.5×L_r

其中，L是总的损失，L_d是人脸分类损失，L_r人脸框回归损失。对于这两个损失，具体的形式如下：

其中，L_d与像素损失所用的公式基本相同，采用交叉熵损失函数，g_i指的是人脸标注，其值为0或1，0表示非人脸区域，1表示人脸区域；o_i是网络预测的该样本是人脸区域的置信度。对于回归损失L_r，采用L2损失函数，此处

为人脸框的位置标注，包含四个值，分别为：人脸矩形框左上角的横、纵坐标以及矩形框的长和宽，b_i为人脸框的位置标注的预测值。

通过步骤S1遍历图像金字塔后将所有的大小为12×12矩形区域输入到肤色敏感推荐网络中进行处理，并通过肤色敏感推荐网络进行第一次提纯，剔除大量非肤色区域。具体的步骤为：

S21通过卷积层对步骤S1输入的图像数据进行特征提取；

S22肤色敏感注意力机制支网输出每一幅图像的像素是人肤色像素的概率值，并对推荐主干网的步骤S21所提取的特征进行像素级加权；

肤色敏感注意力机制支网输出每一幅图像的像素是人肤色像素的概率值的步骤包括：

S221对肤色敏感注意力机制支网进行第一阶段的训练，更新肤色敏感注意力机制支网中的模型的数字参数；优选地，使用人工标注的肤色像素作为正样本，非肤色像素作为负样本，采用前向反向算法的方式来进行第一阶段的训练；

S222对肤色敏感注意力机制支网进行第二阶段的训练，固定肤色敏感注意力机制支网中的参数对并主干网中的参数进行更新；

S23将经过肤色敏感注意力机制支网和推荐主干网处理后，置信度大于阈值的区域从图像金字塔映射回原图像中对应的区域，作为筛选后的结果输出；

优选地，置信度阈值取0.5，置信度大于0.5调整后的区域作为筛选结果输出。

S3将步骤S2中通过肤色敏感推荐网络筛选后的区域，进行区域扩增，以增加人脸周围信息；具体地：经过第一次提纯后的区域，在保持其中心点不变的情况下，将其长宽均扩大一倍，使得扩增后的区域包含更多人脸周围的信息，这些信息有利于小人脸的检测；

优选地，在区域扩增口的区域归一化到大小为24×24的区域，然后输入到下一步骤中。

S4将扩增的图像区域输入到粗提纯网络，进行第二次提纯

如图3所示，对应图中的卷积层(Conv)和池化层(pool)，Avgpool是池化函数中的一种,Sigmoid表示Sigmoid函数常被用作神经网络的激活函数，将变量映射到0,1之间；scale表示scale函数，是将一组数进行处理，默认情况下是将一组数的每个数都减去这组数的平均值后再除以这组数的均方根。

粗提纯网络包括前端的第一共享特征提取段和后端两个并行分支。第一前端共享特征提取段包括第一卷积层、第一池化层和第二卷积层，用于提取步骤S4输入的图像的共享特征；后端两个并行分支相互分离，分别为第一人脸分类分支和第一人脸框回归分支。

第一人脸分类分支用于判断输入的图像区域是否存在人脸，即做输入图像的区域是否是人脸的置信度判断，仅将第一人脸分类分支判断的置信度大于阈值的区域输出到下一处理步骤中；第一人脸框回归分支，用于回归估计包括有人脸的矩形框参数，包括矩形框的左上顶点坐标以及矩形框的长和宽，即具体地准确地框住人脸区域。具体的，第一人脸分类分支用于做是否将某个图像区域输入到下一处理步骤的判断，第一人脸框回归分支用于将经过调整后更为准确的人脸框区域输入到下一步骤。

优选地，置信度阈值取0.5，置信度大于0.5的区域输出到下一处理步骤。

优选地，第一人脸分类分支和第一人脸框回归分支均包括特征通道注意力模块，特征通道注意力模块用于对第二卷积层的各个特征通道产生权重，第二卷积层的各通道特征乘以对应的权重并求和，作为加权特征，该加权特征经过一个池化层和两个卷积层得到各自任务的输出结果，用于对第二卷积层输出的区域进行人脸分类中是否是人脸的加权判断以及用于对第二卷积层输出的区域人脸框的加权求和调整，即进一步提高是否是人脸的置信度的准确性和人脸框框定的精确性。

S5将经过第一次提纯的图像区域输入到精细提纯网络，进行第三次提纯

如图4所示，图中，FC(FC是全连接层，FC利用的是上一层所有输入来计算，抛弃了卷积层不同位置的权值共享)。

精细提纯网络包括前端的第二共享特征提取段和后端两个并行分支，第二前端共享特征提取段包括第三卷积层、第二池化层、第四卷积层、第三池化层和第五卷积层，第二前端共享特征提取段对步骤S4输入的人脸区域进行进一步地处理提取输入图像中的共享特征；后端的两个并行分支，分别为第二人脸分类分支和第二人脸框回归分支。

其中，第二人脸分类分支和第二人脸回归分支同样包括特征通道注意力模块，用于对第五卷积层的特征通道产生权重，第五卷积层的特征乘以对应的权重并求和，作为加权特征。优选地，第二人脸分类分支和第二人脸框回归分支与第一人脸分支和第一人脸框回归分支在特征通道之后的处理存在区别，第二人脸分类分支和第二人脸框回归分支经过一个池化层和全连接层后再输出。

第二人脸分类分支用于判断输入的图像区域是否存在人脸，即做输入图像的区域是否是人脸的置信度判断，仅将第二人脸分类分支判断的置信度大于0.5的区域输出到下一处理步骤中；第二人脸框回归分支，用于回归估计包括有人脸的矩形框参数，包括矩形框的左上顶点坐标以及矩形框的长和宽，即具体地准确地框住人脸区域。具体地，第二人脸分类分支用于做是否将某个图像输出，第二人脸框回归分支用于将经过调整后更为准确的人脸框区域输出。经过精细提纯后将判断是人脸的置信度大于0.5的区域输出，并通过人脸框回归分支实现更准确将人脸框住的人脸区域输出。

如图2、3和4所示，本发明还涉及一种依据上述人脸检测方法的基于注意力机制的轻量级人脸检测模型，包括肤色敏感推荐网络、区域扩增模块、粗提纯网络和精细提纯网络，肤色敏感推荐网络包括推荐主干网络和肤色敏感注意力机制网络，推荐主干网优选为全卷积神经网络，包括若干个卷积层(Conv)和池化层(pool)，肤色敏感注意力机制支网的输入口与推荐主干网的第一个卷积层的输出口连接，肤色敏感注意力机制支网的输出口再接入到推荐主干网中。肤色敏感注意力机制支网包括卷积层和激励函数层。

粗提纯网络包括第一前端共享特征提取段和后端两个并行分支。第一前端共享特征提取段包括第一卷积层、第一池化层和第二卷积层，用于提取输入的图像的共享特征；后端两个并行分支相互分离，分别为第一人脸分类分支和第一人脸框回归分支。第一人脸分类分支和第一人脸框回归分支均包括特征通道注意力模块，特征通道注意力模块后面连接有一个池化层和两个卷积层；

精细提纯网络包括第二前端共享特征提取段和后端两个并行分支，第二前端共享特征提取段包括第三卷积层、第二池化层、第四卷积层、第三池化层和第五卷积层，后端的两个并行分支，分别为第二人脸分类分支和第二人脸框回归分支；第二人脸分类分支和第二人脸回归分支同样包括特征通道注意力模块，特征通道注意力模块后面连接有个池化层和全连接层。

具体应用和实施效果

将WIDER FACE(MMlab发布的用于人脸检测的数据集)作为样本输入，检测本方案的人脸检测的准确性。该数据集包含32203张图片，涵盖了各种尺度、姿态、场景等变化的393703张人脸，所有图片尺寸不一，并被划分为四个子集，训练集，简单测试集，中等测试集，困难测试集。将WIDER FACE作为样本输入，具体实现如下：

肤色敏感区域推荐：首先需要根据场景设置一个最小检出尺度，并以此来确定图片的最大放大比例。接着采用合适的缩放系数构建图像金字塔，实现对不同尺度的人脸进行推荐，直至找到长宽中有一边小于感受野长宽设定值为止；遍历图像金字塔，将遍历的所有的矩形区域输入到肤色敏感推荐网络中(图像金字塔上的区域与原图的区域根据缩放参数之间存在一一对应的关系)，剔除大量非肤色区域，将置信度得分大于0.5的区域从图像金字塔映射回原图对应的区域，作为推荐网络的结果。

优选地，当设置最小检出尺度为8*8大小的人脸，对应第一层网络的感受野为12*12。图像的最大放大比例为1.5(12/8＝1.5)倍，以便检出8*8人脸的推荐区域。然后，采用0.79的缩放系数构建图像金字塔，实现对不同尺度的人脸进行推荐，直至长宽中有一边小于12为止，由于推荐网络为感受野为12*12的全卷积网络，因此，最终输出的结果可以对应图像金字塔中12*12大小的区域。

优选地，肤色敏感推荐网络各层参数按照表1-1进行设置：

表1-1

人脸区域扩增经过：第一次提纯后的区域，在保持其中心点不变的情况下，将其长宽均扩大一倍。

粗提纯网络：将区域扩增后的推荐框归一化到大小为24*24，然后输入到粗提纯网络中，将置信度大于0.5的区域挑选出来，将挑选出的区域从图像金字塔映射回原图对应的区域作为粗提纯网络的输出。

优选地，粗提纯网络的各层的参数按照表2-1进行设定

表2-1

精细提纯网络：将粗提纯网络输出的推荐区域归一化到大小为48*48，然后输入到精细提纯网络，其中精细提纯网络中各层的参数如下表所示，经精细提纯网络输出的置信度大于0.5的区域提取出来，将挑选出的区域从图像金字塔映射回原图对应的区域，输出最终的人脸区域。

优选地，粗提纯网络的各层的参数按照表3-1进行设定

表3-1

应用上述步骤得到的人脸检测网络，在WIDER FACE的简单测试集上均值平均精度为0.881，中等测试集上均值平均精度为0.872，困难测试集上均值平均精度为0.745，优于目前所有的轻量级模型检测出的人脸检测的精确度。同时，模型大小仅有3.86MB,远小于目前的高精度方法。从而实现了人脸检测网络的轻量化，并在实现检测网络轻量化的基础上同时保证了人脸检测的精度。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于注意力机制的轻量级人脸检测的方法，其特征在于，步骤包括：

S3将所述提纯后的图像区域在保持中心点不变的情况下将其长宽扩大一倍，通过肤色敏感推荐网络进行一次提纯，剔除大量非肤色区域，其中，包括提取特征、人脸的置信度判断和人脸框参数调整，还包括预测图像像素是人肤色像素的概率值，将概率值对提取特征后的图像进行加权后进行人脸的置信度判断；

2.根据权利要求1所述的一种基于注意力机制的轻量级人脸检测的方法，其特征在于，使用人工标注的肤色像素作为正样本，非肤色像素作为负样本，通过训练更新所述肤色像素概率预测计算中的参数。

3.根据权利要求2所述的一种基于注意力机制的轻量级人脸检测的方法，其特征在于，使用人工标注的人脸区域作为正样本，非人脸区域作为负样本，固定肤色像素概率预测计算中的参数，通过训练更新网络中的其他参数。

4.一种基于注意力机制的轻量级人脸检测模型，其特征在于，包括肤色敏感推荐网络、区域扩增模块、粗提纯网络和精细提纯网络；

所述肤色敏感推荐网络利用肤色像素加权提纯剔除非肤色区域，包括提取特征、人脸的置信度判断和人脸框参数调整，还包括预测图像像素是人肤色像素的概率值，将概率值对提取特征后的图像进行加权后进行人脸的置信度判断；

5.根据权利要求4所述的一种基于注意力机制的轻量级人脸检测模型，其特征在于，所述肤色敏感推荐网络包括对图像进行联合筛选的推荐主干网和肤色敏感注意力机制网，所述推荐主干网包括若干个卷积层和池化层。

6.根据权利要求5所述的一种基于注意力机制的轻量级人脸检测模型，其特征在于，所述肤色敏感注意力机制支网的输入口与推荐主干网的第一个卷积层的输出口连接，其输出口再接入到推荐主干网中。

7.根据权利要求4所述的一种基于注意力机制的轻量级人脸检测模型，其特征在于，所述第一共享特征提取段包括第一卷积层、第一池化层和第二卷积层；所述第二共享特征提取段包括第三卷积层、第二池化层、第四卷积层、第三池化层和第五卷积层。

8.根据权利要求4所述的一种基于注意力机制的轻量级人脸检测模型，其特征在于，所述第一及第二人脸分类分支和人脸框回归分支的处理中均包括用于对上级卷积层的各特征通道产生权重与上级卷积层的各特征通道特征相乘求和作为输出的特征。