CN115171183A

CN115171183A - 一种基于改进yolov5的口罩人脸检测方法

Info

Publication number: CN115171183A
Application number: CN202210737864.6A
Authority: CN
Inventors: 祁云嵩; 葛云飞; 孟祥宇
Original assignee: Jiangsu University of Science and Technology
Current assignee: Jiangsu University of Science and Technology
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2022-10-11

Abstract

一种基于深度学习的口罩人脸检测方法，步骤是：收集制作口罩人脸的数据集；在输入层马赛克数据增强时采用9张图片，随机选取一张置于中心位置，另外8张随机裁剪和随机缩放，随机排列在中心的左上、上、右上、左、右、左下、下和右下的8个位置拼接成一张图片，增加数据集中的小目标数量并且提高了网络的鲁棒性；改进后的三层卷积跨阶段局部幻影网络模块将原模块中的标准卷积替换成幻影卷积，压缩了网络并降低了计算量，提高检测速度；主干层的标准卷积模块后添加卷积块注意力模块，分别进行通道与空间上的注意力，提高对脸部特征关注，减少网络收敛的时间。本发明压缩了网络的参数量和计算量同时提高了检测的准确率，减少了对硬件的依赖。

Description

一种基于改进yolov5的口罩人脸检测方法

技术领域

本发明涉及深度学习和目标检测技术领域，具体涉及一种基于改进yolov5的口罩人脸检测方法。

背景技术

出于对病毒传染的预防，人们佩戴口罩出行已经成为常态，而佩戴口罩所导致的面部遮挡问题干扰了人脸检测，导致人脸识别算法的出现漏检情况，给如今众多人脸识别应用带来巨大的挑战，如在通过火车站、机场安检通道时进行人脸认证就需要摘下口罩，在某种程度上这就会带来一定的安全隐患。在人脸识别算法中增强人脸检测网络，高效准确识别口罩遮挡的人脸，此举能够减少人员交叉感染的风险，有效地抑制病毒的传播。

口罩人脸检测从本质上来说是属于目标检测范畴，随着深度神经网络的快速发展，目标检测算法主要分为“两阶段”和“单阶段”，“两阶段”指的是将提取特征和检测分为两个步骤，以Faster R-CNN为代表，首先为先进性区域选取，再进行分类；而“单阶段”则是将这两个步骤合并为一步，以YOLO系列为代表，将区域选取和分类融合到同一个网络中，构建一个“分类+回归”的多任务学习模型结构。“两阶段”算法检测精度虽高但检测速度不够快，而“单阶段”算法如2020年提出的yolov5，最新版v6.0版本在COCO数据集上单张图片检测速度快达0.0063秒，相比Faster R-CNN提高了2.5倍，精度更是达到了98.77％。

针对人脸检测方法的实际应用场景，基于yolov5的目标检测算法面临以下问题：一，部署的平台硬件资源不足即算力不足，导致检测速度减慢；二、疫情下佩戴口罩所导致的面部遮挡在一定程度上降低了检测精度，因此，在提高检测精度的同时，轻量化网络以减少对硬件的依赖同时提高检测速度，对于口罩人脸检测具有重要意义。

发明内容

本发明的目的在于克服yolov5应用到疫情下人脸检测中存在平台硬件资源不足导致检测速度减慢和佩戴口罩导致检测精度降低的问题，提出一种基于改进yolov5的口罩人脸检测方法。

为了实现上述目的，本发明采用的技术方案如下：

S1，收集制作口罩人脸数据集；

S2，对步骤S1得到的口罩人脸数据集输入输入层进行马赛克数据增强、自适应锚框计算、自适应图片缩放预处理得到特征图(640X640)；改进后的yolov5将马赛克数据增强对4张图片进行随机缩放、随机裁剪、随机排布的方式拼接增加为9张图片。

S3，对步骤S2预处理得到的特征图输入主干层提取类别特征，主干层由标准卷积模块、三层卷积跨阶段局部网络模块和快速空间金字塔池化模块组成，改进后的yolov5将三层卷积跨阶段局部网络模块融合幻影网络得到三层卷积跨阶段局部幻影网络模块，并在每次经过标准卷积模块卷积后添加卷积块注意力模块，经过以上模块一系列组合处理后得到不同尺寸的口罩人脸特征图。

S4，对步骤S3经主干层处理得到的不同尺寸的口罩人脸特征图输入颈层进行上采样和特征融合得到80×80、40×40和20×20三种尺寸的张量；颈层由标准卷积模块、特征融合模块、三层卷积跨阶段局部幻影网络模块和上采样模块组成。

S5，对步骤S4经颈层处理得到的三种尺寸的张量输入预测层，计算得到口罩人脸的预测框位置，并利用改进后的损失函数α-CIoU计算预测框位置和真实框位置重合度，利用准确率、平均精度均值、单张图片检测时间和权重文件大小4个参数进行评价。

进一步优选的，步骤S1中所述收集制作口罩人脸数据集的方法，具体包括以下步骤：

S11，获取网络公共数据集WIDER Face，从中筛选出7000张口罩人脸和人脸图片，接着通过网络爬虫获取口罩人脸和人脸图片共3000张；

S12，将WIDER Face筛选出的图片的txt格式的标注文件转化为xml格式，用Labelimg标注工具对10000张图片进行标签添加、纠正和删除，分为口罩人脸类和人脸类；

S13，将口罩人脸数据集按7：3比例转化为训练集、验证集。

进一步优选的，步骤S2中所述口罩人脸数据集输入输入层预处理的方法，具体包括以下步骤：

S21，马赛克数据增强采用9张图片，随机选取一张置于中心位置，另外8张随机裁剪和随机缩放，随机排列在中心的左上、上、右上、左、右、左下、下和右下的8个位置拼接成一张图片；

S22，自适应锚框计算根据数据集中原目标框大小计算出最佳锚框值，自适应图片缩放将数据集中不同尺寸的图片调整至同一尺寸上(640X640)。

进一步优选的，步骤S3中所述主干层提取类别特征的方法，具体包括以下步骤：

S31，改进后的三层卷积跨阶段局部幻影网络模块将原三层卷积跨阶段局部网络模块中的标准卷积替换为幻影卷积，幻影卷积的计算公式如下：

Y＝F*f

y_ij＝Φ_i，j(y_i)，i∈[1，M]，j∈[1，S]

其中F∈R^H×W×C表示输入特征图，H、W表示特征图的高和宽，C表示通道数，f∈R^M ^×K×K×C表示M个C通道K×K大小的卷积核，这里的传统卷积f减少了卷积核的数量并省略了偏置项，y_i表示Y∈R^M×H×W中的第i个通道特征图，Φ_i，j表示第j个线性计算(除最后一个Φ_i，S)，用于生成第j个幻影特征图，y_i可以生成一个或多个幻影特征图，使用Φ_i，S表示对Y′特征图的identify映射，最终得到M×S个与传统卷积相同的输出特征图。

S32，新增的卷积块注意力模块是一个简单而有效的前馈卷积神经网络，融合通道注意力机制和空间注意力机制。通道注意力机制对输入特征图同时进行最大池化和平均池化以聚合空间维度信息，然后依次送入一个权重共享的多层感知机器(MLP),最后通过激活函数(sigmoid)得到通道注意力图；空间注意力机制对输入特征图先后进行最大池化和平均池化得到两组特征图，接着在通道维度上进行拼接并通过7×7的卷积核处理，最后通过激活函数(sigmoid)得到空间注意力图。

进一步优选的，步骤S4所述颈层在特征金字塔网络的结构基础上引入自底向上的路径聚合网络达到高层语义特征与低层细节特征融合互补的目的，强化特征提取能力。

进一步优选的，步骤S5中所述预测层计算口罩人脸的预测框位置并进行评价的方法，具体包括以下步骤：

S51，改进后的损失函数α-CIoU计算公式如下：

其中IoU表示预测框与真实框交集面积与并集面积的比值，ρ(b，b^gt)表示预测框b与真实框b^gt中心点之间的欧式距离，c表示能够同时覆盖预测框与真实框的最小矩形的对角线距离，β表示权重系数，v是衡量预测框与真实框长宽比的一致性，α作为调节损失函数的超参数，这里取3。

S52，采用准确率(Precision)、平均精度均值(mAP)、单张图片检测时间和权重文件大小4个参数作为评价标准。具体公式如下所示：

其中TP、FP、FP分别是实际正样品预测为正样品数、实际负样品预测为正样品数、实际正样品预测为负样品数，AP是以准确率(Precision,P)和召回率(Recall,R)作为纵、横轴坐标的二维曲线与坐标轴围成的面积，n表示类别数。

本发明具有如下有益效果：

本发明改进马赛克数据增强，增加了数据集中小目标数量并且提高了网络的鲁棒性；改进三层卷积跨阶段局部网络模块，将原模块中的标准卷积替换成幻影卷积，压缩了网络并降低了计算量，提高检测速度；在主干层的标准卷积模块后添加卷积块注意力模块，分别进行通道与空间上的注意力，提高对脸部特征关注，减少网络收敛的时间。本发明将准确率提高了3％并且检测速度提升了0.2ms，权重文件压缩了24％，提升了检测速度和佩戴口罩人脸的检测精度，能够满足实际应用场景需求。

附图说明

图1为本发明的流程示意图，

图2为本发明的输入图通过马赛克数据增强处理后的图片，0标记人脸类，1标记口罩人脸类，

图3为本发明的三层卷积跨阶段局部幻影网络结构图，

图4(a)为本发明的卷积块注意力模块的通道注意力模块结构图、图4(b)为空间注意力模块结构图，

图5为本发明的校园视频检测效果图。

具体实施方式

为了使本领域的普通技术人员能更好的理解本发明的技术方案，下面结合附图对本发明的技术方案进行进一步的清楚、完整的描述。

如图1所示，一种基于改进yolov5的口罩人脸检测方法，具体步骤如下：

S1：从公共数据集WIDER Face中筛选出7000人脸和口罩人脸的图片，通过Labelimg打标签工具进行错误标签的删除、目标框的纠正以及标注遗漏标签。

通过网络爬虫获取有关人脸和口罩人脸的3000张图片扩充数据集，关键词明星合照、防疫等，通过Labelimg进行标注，共分为口罩人脸(mask)、人脸两类(face),最终得到10000张图片。

将口罩人脸数据集按7：3比例转化为训练集、验证集。

S2：对步骤S1得到的口罩人脸数据集输入输入层(Input)预处理，输入层包括马赛克数据增强(Mosaic)、自适应锚框计算和自适应图片缩放。马赛克数据增强如图2所示按照随机缩放、随机裁剪和随机排布的方式对9张图片进行拼接，相当于次性送入9张图片进行训练，极大地丰富了检测物体的背景。自适应锚框计算通过遗传算法与k-means迭代计算出最佳的锚点框，提高网络精度。自适应图片缩放将原始的输入图片缩放到一个固定的尺寸，添加最少的黑边到缩放之后的图片中，减少计算量。

S3：对步骤S2预处理得到的特征图输入主干层(Backbone)提取类别特征，主干层包含标准卷积(Conv)模块、三层卷积跨阶段局部幻影网络(C3Ghost)模块、卷积块注意力模块(CBAM)和快速空间金字塔池化(SPPF)模块。

三层卷积跨阶段局部幻影网络模块如图3所示将原三层卷积跨阶段局部网络模块中的标准卷积替换为幻影卷积，幻影卷积的计算公式如下：

Y＝F*f

y_ij＝Φ_i，j(y_i)，i∈[1，M]，j∈[1，S]

卷积块注意力模块是一个简单而有效的前馈卷积神经网络，融合通道注意力机制和空间注意力机制。通道注意力机制如图4(a)所示对输入特征图同时进行最大池化和平均池化以聚合空间维度信息，然后依次送入一个权重共享的多层感知机器(MLP),最后通过激活函数(sigmoid)得到通道注意力图；空间注意力机制如图4(b)所示对输入特征图先后进行最大池化和平均池化得到两组特征图，接着在通道维度上进行拼接并通过7×7的卷积核处理，最后通过激活函数(sigmoid)得到空间注意力图。

S4：对步骤S3经主干层处理得到的不同尺寸的口罩人脸特征图输入颈层(Neck)，颈层核心为路径聚合网络(Path Aggregation Networks,PAN)和特征金字塔网络(FeaturePyramid Networks,FPN)，在特征金字塔网络的基础上引入自底向上的路径聚合网络，特征金字塔网络将高层特征信息通过上采样的方式和低层特征融合达到高层语义特征与低层细节特征融合互补的目的，路径聚合网络再进行自底向上的特征融合，强化特征提取能力。

S5:对步骤S4经颈层处理得到的三种尺寸的张量输入预测层(Prediction),预测层(Prediction)包含边框回归损失函数(Bounding Box Regression Loss)和NMS非极大值抑制，针对多目标框的筛选，NMS非极大值抑制有效去除冗余框。

改进后的损失函数α-CIoU计算公式如下：

采用准确率(Precision)、平均精度均值(mAP)、单张图片检测时间(Speed-GPU)和权重文件大小(Weight)4个参数作为评价标准。具体公式如下所示：

其中TP、FP、FP分别是实际正样品预测为正样品数、实际负样品预测为正样品数、实际正样品预测为负样品数，AP是以准确率(Precision,P)和召回率(Recall,R)作为纵、横轴坐标的二维曲线与坐标轴围成的面积，n表示类别数，此处为2。

通过计算得出表1的数据，可以看出准确率提高了3％并且检测速度提升了0.2ms，权重文件压缩了24％，在一定程度上减少了对硬件的依赖且降低了口罩人脸的漏检率。

表1网络评价标准

Model	Precision	mAP(0.5)	Speed-GPU(ms)	Weight(M)
					yolov5	92.8％	95.8％	1.7	3.8
本发明方法	95.8％	96.6％	1.5	2.9

改进后的yolov5网络结构如表2所示:

表2改进yolov5的口罩人脸网络结构

其中，表中的from列的-1是指输入来自上一层输出，Arguments列的值分别代表该模块的输入通道数、输出通道数、卷积核大小和步长信息。

图5为本发明在江苏科技大学宿舍拍摄的视频的检测效果图，不难看出该方法检测速度之快以及准确率之高，对于口罩人脸的识别率也是大有提升，极大减轻了对硬件环境的依赖，能满足实际应用需求。

Claims

1.一种基于改进yolov5的口罩人脸检测方法，其特征在于，具体按照如下步骤进行：

S1，收集制作口罩人脸数据集；

S2，对步骤S1得到的口罩人脸数据集输入输入层进行马赛克数据增强、自适应锚框计算、自适应图片缩放预处理得到特征图(640X640)；改进后的yolov5将马赛克数据增强对4张图片进行随机缩放、随机裁剪、随机排布的方式拼接增加为9张图片；

S3，对步骤S2预处理得到的特征图输入主干层提取类别特征，主干层由标准卷积模块、三层卷积跨阶段局部网络模块和快速空间金字塔池化模块组成，改进后的yolov5将三层卷积跨阶段局部网络模块融合幻影网络得到三层卷积跨阶段局部幻影网络模块，并在每次经过标准卷积模块卷积后添加卷积块注意力模块，经过以上模块一系列组合处理后得到不同尺寸的口罩人脸特征图；

S4，对步骤S3经主干层处理得到的不同尺寸的口罩人脸特征图输入颈层进行上采样和特征融合，得到80×80、40×40和20×20三种尺寸的张量；

2.根据权利要求1所述的基于改进yolov5的口罩人脸检测方法，其特征在于，步骤S1中所述收集制作口罩人脸数据集的方法，具体包括以下步骤：

S13，将口罩人脸数据集按7∶3比例转化为训练集、验证集。

3.根据权利要求1所述的基于改进yolov5的口罩人脸检测方法，其特征在于，步骤S2中所述口罩人脸数据集输入输入层预处理的方法，具体包括以下步骤：

4.根据权利要求1所述的基于改进yolov5的口罩人脸检测方法，其特征在于，步骤S3中所述主干层提取类别特征的方法，具体包括以下步骤：

Y＝F*f

y_ij＝Φ_i，j(y_i)，i∈[1，M]，j∈[1，S]

其中F∈R^H×W×C表示输入特征图，H、W表示特征图的高和宽，C表示通道数，f∈R^M×K×K×C表示M个C通道K×K大小的卷积核，这里的传统卷积f减少了卷积核的数量并省略了偏置项，y_i表示Y∈R^M×H×W中的第i个通道特征图，Φ_i，j表示第j个线性计算(除最后一个Φ_i，s)，用于生成第j个幻影特征图，y_i可以生成一个或多个幻影特征图，使用Φ_i，S表示对Y′特征图的identify映射，最终得到M×S个与传统卷积相同的输出特征图；

S32，新增的卷积块注意力模块是一个简单而有效的前馈卷积神经网络，融合通道注意力机制和空间注意力机制；通道注意力机制对输入特征图同时进行最大池化和平均池化以聚合空间维度信息，然后依次送入一个权重共享的多层感知机器(MLP)，最后通过激活函数(sigmoid)得到通道注意力图；空间注意力机制对输入特征图先后进行最大池化和平均池化得到两组特征图，接着在通道维度上进行拼接并通过7×7的卷积核处理，最后通过激活函数(sigmoid)得到空间注意力图。

5.根据权利要求1所述的基于改进yolov5的口罩人脸检测方法，其特征在于，步骤S4中所述输入颈层进行上采样和特征融合的具体方法是，在特征金字塔网络的结构基础上引入自底向上的路径聚合网络，特征金字塔网络将高层特征信息通过上采样的方式和低层特征融合达到高层语义特征与低层细节特征融合互补的目的，路径聚合网络再进行自底向上的特征融合，强化特征提取能力。

6.根据权利要求1所述的基于改进yolov5的口罩人脸检测方法，其特征在于，步骤S5中所述预测层计算口罩人脸的预测框位置并进行评价的方法，具体包括以下步骤：

S51，改进后的损失函数α-CIoU计算公式如下：

其中IoU表示预测框与真实框交集面积与并集面积的比值，ρ(b，b^gt)表示预测框b与真实框b^gt中心点之间的欧式距离，c表示能够同时覆盖预测框与真实框的最小矩形的对角线距离，β表示权重系数，v是衡量预测框与真实框长宽比的一致性，α作为调节损失函数的超参数，这里取3；

S52，采用准确率(Precision)、平均精度均值(mAP)、单张图片检测时间和权重文件大小4个参数作为评价标准；具体公式如下所示：

其中，TP、FP、FP分别是实际正样品预测为正样品数、实际负样品预测为正样品数、实际正样品预测为负样品数，AP是以准确率(Precision，P)和召回率(Recall，R)作为纵、横轴坐标的二维曲线与坐标轴围成的面积，n表示类别数。