CN113591795A

CN113591795A - 一种基于混合注意力特征金字塔结构的轻量化人脸检测方法和系统

Info

Publication number: CN113591795A
Application number: CN202110957384.6A
Authority: CN
Inventors: 李志丹; 田甜; 潘齐炜; 曾蕊; 程吉祥; 黄思维
Original assignee: Southwest Petroleum University
Current assignee: Southwest Petroleum University
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2021-11-02
Anticipated expiration: 2041-08-19
Also published as: CN113591795B

Abstract

本发明公开了一种基于混合注意力特征金字塔结构的轻量化人脸检测方法和系统，包括如下步骤：首先对小尺寸人脸训练集图像进行缩放处理及数据增强，得到待提取特征的图像；而后使用轻量化卷积神经网络提取图片特征；在多个特征尺度上对特征进行采样并融合不同尺度的特征；而后使用残差瓶颈层结构处理特征层并通过混合注意力金字塔结构得到最终的检测预测层；使用无锚检测方法和聚焦损失函数对预测层进行计算并回归出图像中所包含的人脸位置；设计并实现一种人脸检测系统，该系统使用本发明提出的算法进行快速人脸图片检测和视频检测。本发明对复杂场景中受遮挡、多尺度的密集人脸检测具有鲁棒性，测试结果和对应的人脸检测图片都证明了本发明方法的有效性。

Description

一种基于混合注意力特征金字塔结构的轻量化人脸检测方法和系统

技术领域

本发明涉及基于深度学习的人脸检测技术领域，特别涉及基于混合注意力特征金字塔结构的人脸检测方法及系统。

背景技术

人脸检测是指在输入图像中确定所有人脸的位置、大小和位姿的过程，是人脸信息处理中一项关键技术，已成为计算机视觉领域的研究热点。人脸检测作为目标检测的具体应用以及人脸识别的关键步骤之一，已成为视觉任务中独立的研究方向并受到了广泛的关注。如今，由于计算机计算能力的提升以及人脸检测数据集的完善，深度学习成为解决计算机视觉任务的主流方法并在人脸检测领域成效卓然。目前基于深度学习的人脸检测按检测阶段可分为一阶段法和二阶段法，按检测时是否设置锚框可分为基于锚框的检测和无锚检测。最近几年来，因一阶段无锚人脸检测表现优良而受到了越来越多的关注。

文献1(NAJIBI M,SAMANGOUEI P,CHELLAPPA R,et al.Ssh:single stageheadless face detector[C].In:IEEE International Conference on ComputerVision,2017:4885-4894.)是典型的一阶段人脸检测方法，该方法在不同特征图尺度下分别检测人脸，同时在网络中加入上下文信息模块，使网络能精确检测出大量尺寸不同的人脸并有较快的检测速度。文献2(DENG J,GUO J,VERVERAS E,et al.Retinaface:single-shot multi-level face localisation in the wild[C].In:the 2020IEEE/CVFConference on Computer Vision and Pattern Recognition,2020:5205-5211.)该方法是一种单阶段人脸检测方法，其分别使用深度卷积骨干网络和轻量化骨干网络构建检测模型，并增加五个人脸关键点来辅助检测以提升准确率。文献3(LAW H,DENG J.Cornernet:detecting objects as paired keypoints[J].International Journal of ComputerVision,2020.128(3):642-656.)是一种无锚目标检测方法，该算法不在预测环节对检测的目标预先设置锚框，而通过检测目标的左上角和右下角两个关键点来得到目标的预测框。

当前人脸检测任务往往需要处理数十个或百个人脸目标，这些目标都处于随机的真实场景且具有多尺度、高遮挡、密集性等特点，目前多数人脸检测方法均使用大型卷积神经网络提取图像特征，极大的提升了检测准确性，但也伴随着参数量大，训练复杂，检测速度慢等问题，难以用于实时性检测场景中。虽然已有一些使用轻量化网络的检测方法，但仅使用轻量化网络提升检测速度大大降低了检测精度，并且这些快速的人脸检测方法难以处理人脸尺度变化大，小尺寸人脸数量多的复杂场景。

发明内容

为克服现有轻量化人脸检测中小尺寸人脸带来的检测率低及图片中人脸尺度各异的问题，本发明提出一种基于混合注意力特征金字塔结构的人脸检测方法，该方法结合通道注意力机制和空间注意力机制来有效地融合多尺度的上下文信息，使检测器同时关注分布相对全局的大目标人脸和局部分布的小目标人脸，以应对人脸尺度极端变化的场景，同时具有较快的检测速度和较高的检测精度。

一种基于混合注意力特征金字塔结构的轻量化人脸检测方法，具体包括以下步骤：

S1、收集复杂场景中含有多个小尺寸人脸的图像，对图像中人脸进行标注，构成训练集，这里的标注包括用包围框对人脸位置进行标注以及标注图片中人脸数量；所述小尺寸人脸指一幅图像中超过50％以上的人脸尺寸小于25像素*25像素或者小于整幅图像的0.03*0.03；至于复杂场景，这是筛选训练集图像的常识，指筛选背景不同、受遮挡程度不同、图像中人脸尺寸大小不同等涵盖较多情形的图片。此处筛选的图片中人脸数量越多越好。

S2、对步骤S1中的训练集图像进行缩放处理及数据增强，得到预处理的人脸图像，具体包括如下步骤：

S21、统一所述训练集图像尺寸，即对所述训练集图像进行缩放处理使其高宽值与网络训练所设定的高宽值相等：在得到所述训练集图像后，确定所述训练集图像的宽高值是否为网络训练所设定的宽高值；当训练集图像的宽高值不是设定的宽高值时，将训练集图像的宽高值设置为网络训练的预设宽高值，并根据训练集图像比例对训练集图像进行处理，得到经缩放尺寸后的图像；

S22、对S21处理的图像进行数据增强得到待提取特征的图像；所述图像数据增强过程包括图像翻转、图像旋转、图像随机裁剪、图像光照变换和图像色彩变换。

S3、构建人脸检测卷积神经网络；所述人脸检测卷积神经网络使用轻量化骨干网络对步骤S2中预处理的人脸图像提取特征并对提取的特征进行处理并融合，包括如下步骤：首先使用采样函数对特征层进行尺度变换并在多个特征尺度上分别融合不同特征层的特征，然后依次使用残差结构、瓶颈层结构、混合注意力模块处理融合的特征，最后输出到预测层进行计算。

所述轻量化骨干网络采用MobileNetV3small网络结构；所述网络结构从前至后依次设置卷积层、批次归一化层、激活函数层和带挤压模块的可逆残差线性瓶颈层；所述带挤压模块的可逆残差线性瓶颈层从前至后包括卷积层、激活函数层、深度可分离卷积层、挤压模块和残差结构；所述网络结构的第一层使用步长为2、卷积核大小为3*3的卷积层对图片进行下采样，然后使用11个带挤压模块的可逆残差线性瓶颈层，并在其第1、2、4、9个瓶颈层中使用步长为2的卷积核进行图片下采样；所述网络结构在所有卷积操作后均使用激活函数层，并在最后一层使用卷积核大小为3*3、步长为2的卷积层进行最后一次下采样操作。

所述对轻量化骨干网络对提取的特征进行处理和融合，具体包括如下步骤：

首先使用采样函数对特征层进行尺度变换，对所述轻量化骨干网络提取的特征经过上采样和下采样后分别在不同尺度上进行融合；若骨干网络提取的特征尺度由小到大分别为f₁，f₂，f₃那么所得到的融合后的特征层F₁，F₂，F₃由小到大表示为：

F₁＝f₁+F_downsample×f₂+F_downsample×f₃

F₂＝F_upsample×f₁+f₂+F_downsample×f₃

F₃＝F_upsample×f₁+F_upsample×f₂+f₃

其中：F_upsample表示上采样函数，F_downsample表示下采样函数；

接着使用残差瓶颈层处理经尺度变换融合的特征层，所述残差瓶颈层结构包括1*1卷积层、批次归一化层、激活函数层、3*3卷积层和残差连接；其过程可表示为：

F_output＝F_1*1(F_3*3(F_1*1(F_input)))+F_input

其中：F_output表示输出特征，F_1*1表示使用1*1大小的卷积计算，F_3*3表示使用3*3大小的卷积计算，F_input表示输入特征，每个卷积计算后都使用批次归一化层和激活函数层；

最后将经过残差瓶颈层结构的特征层通过混合注意力模块两两融合后作为预测层进行输出；所述混合注意力模块由通道注意力子模块和空间注意力子模块并行组合而成；对于混合注意力模块的输入特征层Fin，混合注意力模块的输出特征Fout表示如下：

其中：δ表示使用sigmoid函数，F_c表示经过通道注意力子模块的特征，F_s表示经过空间注意力子模块的特征。F_c和F_s表达式如下：

F_c(X)＝Pwconv(δ(AvgPool(Pwconv(X))+MaxPool(Pwconv(X))))

F_s(X)＝Pwconv(δ(Conv_7*7((AvgPool(Pwconv(X))；MaxPool(Pwconv(X))))))

其中Pwconv(x)表示使用1*1逐点卷积，AvgPool(x)表示使用平均池化函数，MaxPool(x)表示使用最大池化函数，Conv_7*7表示使用卷积核大小为7*7的卷积。

S4、将步骤S2中的得到的预处理图像输入到步骤S3构建的人脸检测卷积神经网络结构中进行人脸检测神经网络训练；训练时使用无锚检测方法对输入预测层中的图像特征进行计算并将图像中的人脸用矩形框标注，得到带人脸矩形框的图像，损失函数使用聚焦损失函数，所述聚焦损失函数通过网络训练让预测值拟合出真实值，直到损失函数收敛；聚焦损失函数使用平衡因子作为损失函数附加的权重来调节正负样本的优化，使用可调聚焦参数调节简单样本和复杂样本的优化；通过对网络进行循环迭代训练使损失函数不断减小，直到完成设定的迭代次数E，当达到训练迭代次数E时，损失函数几乎不再减小即训练到拟合；

所述无锚检测方法的具体步骤如下：

B1、将步骤S3所述混合注意力模块输出的特征图像记为I∈R^W×H×3，W为图像的宽，H为图像的高；

B2、通过步骤S4中的卷积神经网络训练得到混合注意力模块输出的特征图片中人脸高斯核的热图：该过程中，预测值表示为

其中n表示图片下采样的倍数，当

时表示检测到人脸，当

时表示检测为背景；在网络训练阶段，首先对步骤S2中预处理后的人脸图片计算人脸包围框对应的中心点，图像中的人脸标注框表示为(x₁,y₁,x₂,y₂)，x₁、x₂、y₁、y₂分别表示人脸标注框横纵坐标的极值，则其中心点表示为

将这些中心点嵌入到高斯核函数中，得到带标注的人脸高斯核热图；

式中：Y_xy为标签真实值；

表示低分辨率特征图下的等效中心点；σ_c表示目标自适应标准差，其大小为高斯核半径的三分之一。

所述聚焦损失函数计算公式如下：

其中：Y_xy为标签真实值，

为预测值，α∈(0,1)为损失函数的附加权重，(1-p)^γ为调制因子，γ≥0为可调聚焦参数；

S5、设置优化策略和相关超参数训练人脸检测网络，迭代训练直至损失函数收敛，并保存网络训练权重参数；

S6、基于步骤S3构建的人脸检测卷积神经网络和步骤S5获得的网络训练权重参数构建基于混合注意力特征金字塔结构的人脸检测模型，并以该检测模型对待检测图片进行人脸检测，同时，检测模型将记录所有检测得到的人脸矩形框以确定检测到的人脸数量。

本发明还提供了一种基于混合注意力特征金字塔结构的人脸检测系统，包括以下模块：

人脸图像获取模块，配置为获取待检测人脸图像集；

人脸图像检测模型获取及参数获取模块，配置为以权利要求1所述基于混合注意力特征金字塔结构的人脸检测方法获得的人脸检测模型构建人脸图像检测器，并进行图像中的人脸检测；

人脸视频检测模型获取及参数获取模块，配置为以权利要求1所述基于混合注意力特征金字塔结构的人脸检测方法获得的人脸检测模型构建人脸视频检测器，并进行视频中的人脸检测；

人脸计数模块，对图像或视频检测中的人脸进行计数。

有益效果：

1、本发明提出一种基于混合注意力特征金字塔结构的人脸检测方法及系统。人脸图片训练集包含大量的小尺寸人脸并且人脸尺度变化大，本发明首先使用图像裁剪和数据增强处理人脸图片训练集，然后使用轻量化的骨干网络提取图片特征以加快检测网络训练速度及减小网络参数量。

2、本发明在使用轻量化骨干网络提取出人脸图片特征之后，在多尺度特征层上进行采样并融合不同尺度上的特征层，然后使用瓶颈层结构处理融合的特征层，接着通过混合注意力模块处理得到最终的预测层。预测方式采用无锚框的中心点预测以缩减计算流程并加快检测速度。

3、本发明设计并实现了一种人脸检测系统，该系统可以使用本发明所提的基于混合注意力特征金字塔结构的人脸检测方法进行人脸图像检测和视频检测。

附图说明

图1为本发明实施例使用的模型结构整体图；

图2为本发明实施例使用的混合注意力结构图；其中，图a1为混合注意力整体结构图，图b1为混合注意力结构的通道注意力子结构图，图b2为混合注意力结构的空间注意力子结构图；

图3为本发明实施例的流程示意图；

图4为本发明实施例设计的检测系统结构图；

图5为采用本发明方法和未采用本发明方法的检测效果对比图；其中，图a1～a4为使用本发明方法的检测效果图，图b1～b4为未采用本发明方法的检测效果图。

具体实施方式

为了对本发明的技术特征、目的和有益效果有更加清楚的理解，结合附图对本发明的一个实施例作进一步描述。实施例只用于对本发明进行进一步的说明，不能理解为对本发明保护范围的限制，本领域的技术人员根据本发明的内容做出的一些非本质的改进和调整也属于本发明保护的范围。

S1、收集复杂场景中含有多个小尺寸人脸的图像，对图像中人脸进行标注，构成训练集，这里的标注包括用包围框对人脸位置进行标注以及标注图片中小尺寸人脸数量；所述小尺寸人脸指一幅图像中超过50％以上的人脸尺寸小于25像素*25像素或者小于整幅图像的0.03*0.03；至于复杂场景，这是筛选训练集图像的常识，指筛选背景不同、受遮挡程度不同、图像中人脸尺寸大小不同等涵盖较多情形的图片。此处筛选的图片中人脸数量均大于等于20个。

S2、对步骤S1中的训练集图像进行缩放处理及数据增强，得到预处理的人脸图像。

作为本发明的一种具体实施方式，步骤S2具体包括如下步骤：

作为本发明的一种具体实施方式，步骤S3所述轻量化骨干网络采用MobileNetV3small网络结构；所述网络结构从前至后依次设置卷积层、批次归一化层、激活函数层和带挤压模块的可逆残差线性瓶颈层；所述带挤压模块的可逆残差线性瓶颈层从前至后包括卷积层、激活函数层、深度可分离卷积层、挤压模块和残差结构；所述网络结构的第一层使用步长为2、卷积核大小为3*3的卷积层对图片进行下采样，然后使用11个带挤压模块的可逆残差线性瓶颈层，并在其第1、2、4、9个瓶颈层中使用步长为2的卷积核进行图片下采样；所述网络结构在所有卷积操作后均使用激活函数层，并在最后一层使用卷积核大小为3*3、步长为2的卷积层进行最后一次下采样操作。

作为本发明的一种具体实施方式，步骤S3所述对轻量化骨干网络对提取的特征进行处理和融合，具体包括如下步骤：

F₁＝f₁+F_downsample×f₂+F_downsample×f₃

F₂＝F_upsample×f₁+f₂+F_downsample×f₃

F₃＝F_upsample×f₁+F_upsample×f₂+f₃

其中：F_upsample表示上采样函数，F_downsample表示下采样函数；

F_output＝F_1*1(F_3*3(F_1*1(F_input)))+F_input

F_c(X)＝Pwconv(δ(AvgPool(Pwconv(X))+MaxPool(Pwconv(X))))

F_s(X)＝Pwconv(δ(Conv_7*7((AvgPool(Pwconv(X))；MaxPool(Pwconv(X))))))

作为本发明的一种具体实施方式，步骤S4所述无锚检测方法的具体步骤如下：

其中n表示图片下采样的倍数，当

时表示检测到人脸，当

式中：Y_xy为标签真实值；

作为本发明的一种具体实施方式，所述聚焦损失函数计算公式如下：

其中：Y_xy为标签真实值，

为预测值，α∈(0,1)为损失函数的附加权重，(1-p)^γ为调制因子，γ≥0为可调聚焦参数。

人脸图像获取模块，配置为获取待检测人脸图像集；

人脸计数模块，对图像或视频检测中的人脸进行计数。

仿真实验：

图5中给出了本发明方法与对比检测方法的人脸检测效果图，对比检测方法仅仅使用了轻量化骨干网络未使用特征处理步骤，其中图a1～a4为使用本发明方法的人脸检测效果图，图b1～b4为未使用本发明方法的基础人脸检测网络检测效果图，检测人脸数量结果见表1。

表1仿真实验人脸数量测量统计表

从图5和表1可以看出：使用本发明方法后极大提升了人脸检测器对小尺寸人脸的检测效果，并且能很好地检测复杂场景中受遮挡、多尺度的密集人群。

以上仿真实验结果表明，本发明方法在保持检测网络轻量化的同时，对复杂场景的检测具有很高的鲁棒性，特别是针对人脸尺度变化大、小尺寸人脸多的图片有很好地检测效果。

以上对本发明的有关内容进行了说明，本领域普通技术人员在基于这些说明的情况下将能够实现本发明。基于本发明的上述内容，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

Claims

1.一种基于混合注意力特征金字塔结构的轻量化人脸检测方法，其特征在于，包括以下步骤：

S1、收集复杂场景中含有多个小尺寸人脸的图像，对图像中人脸进行标注，构成训练集；所述小尺寸人脸指一幅图像中超过50％以上的人脸尺寸小于25像素*25像素或者小于整幅图像的0.03*0.03；所述标注包括用包围框对图像中的人脸位置进行标注以及标注图像中人脸数量；

S2、对步骤S1中的训练集图像进行缩放处理及数据增强，得到预处理的人脸图像；

S3、构建人脸检测卷积神经网络；所述人脸检测卷积神经网络使用轻量化骨干网络对步骤S2中预处理的人脸图像提取特征并对提取的特征进行处理并融合，具体包括如下步骤：首先使用采样函数对特征层进行尺度变换并在多个特征尺度上分别融合不同特征层的特征，然后依次使用残差结构、瓶颈层结构、混合注意力模块处理融合的特征，最后输出到预测层进行计算；

S4、将步骤S2中的得到的预处理图像输入到步骤S3构建的人脸检测卷积神经网络结构中进行人脸检测神经网络训练；训练时使用无锚检测方法对输入预测层中的图像特征进行计算并将图像中的人脸用矩形框标注，得到带人脸矩形框的图像，损失函数使用聚焦损失函数，所述聚焦损失函数通过网络训练让预测值拟合出真实值，直到损失函数收敛；聚焦损失函数使用平衡因子作为损失函数附加的权重来调节正负样本的优化，使用可调聚焦参数调节简单样本和复杂样本的优化；通过对网络进行循环迭代训练使损失函数不断减小，直到完成设定的迭代次数E；

2.根据权利要求1所述的一种基于混合注意力特征金字塔结构的轻量化人脸检测方法，其特征在于，所述步骤S2包括如下步骤：

S21、统一所述训练集图像尺寸：对所述训练集图像进行缩放处理使其高宽值与所述网络训练所设定的高宽值相等；

3.根据权利要求1所述的一种基于混合注意力特征金字塔结构的人脸检测方法，其特征在于，步骤S3中所述轻量化骨干网络采用MobileNetV3small网络结构；所述网络结构从前至后依次设置卷积层、批次归一化层、激活函数层和带挤压模块的可逆残差线性瓶颈层；所述带挤压模块的可逆残差线性瓶颈层从前至后包括卷积层、激活函数层、深度可分离卷积层、挤压模块和残差结构；所述网络结构的第一层使用步长为2、卷积核大小为3*3的卷积层对图片进行下采样，然后使用11个带挤压模块的可逆残差线性瓶颈层，并在其第1、2、4、9个瓶颈层中使用步长为2的卷积核进行图片下采样；所述网络结构在所有卷积操作后均使用激活函数层，并在最后一层使用卷积核大小为3*3、步长为2的卷积层进行最后一次下采样操作。

4.根据权利要求1所述的一种基于混合注意力特征金字塔结构的人脸检测方法，其特征在于，步骤S3中所述对轻量化骨干网络提取的特征进行处理和融合，具体包括如下步骤：