CN116311412A

CN116311412A - 一种融合3d注意力机制和空洞卷积的口罩佩戴检测方法

Info

Publication number: CN116311412A
Application number: CN202211471263.1A
Authority: CN
Inventors: 田成军; 刘浩博; 刘哲; 王雨雨; 张晋通; 颜禹
Original assignee: Changchun University of Science and Technology
Current assignee: Changchun University of Science and Technology
Priority date: 2022-11-23
Filing date: 2022-11-23
Publication date: 2023-06-23

Abstract

一种融合3D注意力机制和空洞卷积的口罩佩戴检测方法涉及机器视觉目标检测技术领域，解决了现有需要提供一种训练速度快、检测精度高、检测速度快的检测方法的问题，包括：对第一数据集标注佩戴口罩是否规范；建立改进的YOLOv5深度学习网络模型；使用第二数据集对改进的YOLOv5深度学习网络模型进行预训练得到最佳的预训练模型权重；使用迁移学习的方式，用最佳的预训练模型权重初始化改进的YOLOv5深度学习网络模型的参数，使用第一数据集对模型进行训练，得到口罩佩戴检测模型。本发明将检测精度和检测速度两项指标进行平衡，在不影响检测速度的前提下，使模型的检测精度提升，能够满足口罩佩戴的实时检测的需求。

Description

一种融合3D注意力机制和空洞卷积的口罩佩戴检测方法

技术领域

本发明涉及机器视觉目标检测技术领域，具体涉及一种融合3D注意力机制和空洞卷积的口罩佩戴检测方法。

背景技术

在COVID-19病毒的影响下，佩戴口罩已然成为了人们日常必备的防范措施，个人在公共场所正确的佩戴口罩对于防止疫情的发生是非常有利的，但由于部分人员防范意识不强，没有规范佩戴(包括不佩戴口罩)的事情常有发生，为了降低疫情发生的风险，有必要对公共场合的口罩佩戴进行实时检测。但因公共场所人员密集，存在目标微小，遮挡等问题，这无疑给口罩检测带来了更大的难度。

图学学报中，李小波等人提出了融合注意力机制的YOLOv5口罩检测算法，此算法在骨干特征提取网络处分别融合了SE、CBAM、CA、NAM四种注意力机制，经实验证明融合CBAM注意力机制的系统，其检测的精度提升最大，并选用GIOU损失函数作为边界框损失函数。CBAM注意力机制将通道注意力与空间注意力结合在一起，并且在通道上进行全局池化，能够引入位置信息，所以引入CBAM注意力机制能获得较好的性能，其带来的精度提升的效果也最为明显。但CBAM计算量大且收敛困难，使模型检测速度损失较大，很难达到实时检测的效果。GIOU损失函数虽然增加了目标框与预测框相交尺度的衡量方式，但其收敛速度慢，且当预测框包含在目标框内部时，GIOU完全退化为IOU影响定位精度。

针对于是否规范佩戴口罩的检测，需要提供一种训练速度快、检测精度高、检测速度快的检测方法。

发明内容

鉴于上述问题，本发明提供一种融合3D注意力机制和空洞卷积的口罩佩戴检测方法。

本发明为解决技术问题所采用的技术方案如下：

一种融合3D注意力机制和空洞卷积的口罩佩戴检测方法，包括：

对第一数据集标注佩戴口罩是否规范，第一数据集中的图片中均包括人脸口罩佩戴情况的信息；

建立改进的YOLOv5深度学习网络模型，对YOLOv5深度学习网络模型的改进如下：增加小目标检测层，增加SimAM注意力机制层，通过空洞卷积层替换SPPF模块中的最大池化层，采用α-CIOU作为边界框损失函数，采用BCEWithLogitsLoss作为置信度损失函数；

使用第二数据集对改进的YOLOv5深度学习网络模型进行预训练，得到最佳的预训练模型权重；

训练口罩佩戴检测模型：使用迁移学习的方式，用最佳的预训练模型权重初始化改进的YOLOv5深度学习网络模型的参数，使用第一数据集对改进的YOLOv5深度学习网络模型进行训练，得到口罩佩戴检测模型。

本发明的有益效果是：

本发明一种融合3D注意力机制和空洞卷积的口罩佩戴检测方法通过增加小目标检测层，提高了多尺度的检测能力；通过引入SimAM注意力机制，在不影响检测速度的基础上，提高检测精度；通过将SPPF结构引入空洞卷积，可以学习上下文信息，提高检测精度；通过改进边界框损失函数和置信度损失函数，使模型训练速度加快，检测速度提高。本发明将检测精度和检测速度两项指标进行平衡，在不影响检测速度的前提下，使模型的检测精度提升，能够满足口罩佩戴的实时检测的需求。

附图说明

图1为本发明一种融合3D注意力机制和空洞卷积的口罩佩戴检测方法的整体实现流程图。

图2为本发明基于YOLOv5改进的网络结构图。

图3为本发明应用的SimAM注意力机制示意图。

图4为本发明SPPF-D模块的结构图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

使用迁移学习的方式，用最佳的预训练模型权重初始化改进的YOLOv5深度学习网络模型的参数，使用第一数据集对改进的YOLOv5深度学习网络模型进行训练，得到最佳检测模型，即得到口罩佩戴检测模型。

下面对一种融合3D注意力机制和空洞卷积的口罩佩戴检测方法进行详述，如图1，包括如下步骤：

步骤1、对第一数据集进行筛选和标注，将数据集分为训练集、验证集和测试集，数据集中的图片中均包括人脸口罩佩戴情况的信息。标注分类两类，一类是佩戴口罩规范，另一类为佩戴口罩不规范包括未佩戴口罩。

从WIDER FACE数据集和MAPA数据集手动筛选出多种场景下佩戴口罩和未佩戴口罩的人脸图片，并通过搜索引擎和视频截取等手段收集图片，得到数据集。对第一数据集进行筛选具体为：相似度(即下文的S(x,y)值)达到预设阈值的图片中仅保留一张图片。对相似图片进行结构相似性计算(SSIM)，两张图片通过公式计算，可得出SSIM结构相似性指数SSIM index，该指数在0-1之间，若该指数值大于0.85，则定义为相似图片，相似的图片中只取一张，减少重复数据的出现，结构相似性计算公式如下：

其中，x和y分别表示一张图像；C₁和C₂为常数，通常C₁取0.01和C₂取0.03，μ_x表示图x的平均亮度，σ_x为图x的对比度，μ_y表示图y的平均亮度，σ_y为图y的对比度。本实施例中经过筛选后最终得到6120张图片数据。

对筛选后的图像集进行标注，标注分类两类，一类是佩戴口罩规范，另一类为佩戴口罩不规范包括未佩戴口罩。利用标记软件LabelImg对数据集进行YOLO格式的标注，其图片标签分为两类，分别是mask(规范佩戴口罩)和nomask(未佩戴口罩以及佩戴口罩不规范)，标注完成后，每一张图片都对应着一个与该图片名称相同的txt文件。

将标注后的图片数据集按照8：1：1的比例划分为训练集、验证集和测试集。

步骤2、以YOLOv5深度学习网络模型为基础，建立改进的YOLOv5深度学习网络模型，对原有YOLOv5深度学习网络模型的改进如下：增加小目标检测层，以对小目标物体进行检测；增加SimAM注意力机制层；SPPF模块中通过空洞卷积层替换最大池化层；采用α-CIOU作为边界框损失函数；采用BCEWithLogitsLoss作为置信度损失函数。

原有YOLOv5网络具有三层检测层，使用3种不同尺寸的特征图来检测不同大小的目标，经8倍、16倍、32倍下采样获得3种不同尺度特征图，分别为80×80、40×40和20×20。三层检测层分别对应3种不同尺度特征图80×80尺寸特征图的检测、40×40的检测、20×20的检测。在特征提取金字塔网络中，下采样32倍的相对感受野最大，映射原尺寸图像的面积越大，更适用于预测尺寸较大目标，同理下采样16倍和下采样8倍更适用于中等目标和小型目标。但在特征提取与融合阶段的多次卷积处理，会致使深层网络易丢掉目标的部分位置信息，而浅层网络目标的位置信息却比较精确。考虑图像中有些目标所占比例较小，在改进网络中设计增加针对小目标的检测层，以对小目标物体进行检测；同时小目标检测层的Neck部分也新引入一条融合线路，用于将Neck中的低层特征(浅层网络目标的信息)与高层特征(深层网络目标的信息)进行融合。提高网络模型多尺度检测的能力，小目标检测层所输出特征图的大小为160×160，可以检测感受野大小在4×4以上的小目标，如图2所示。图2为改进的YOLOv5深度学习网络模型，模型为：训练集中图片或待检测的图片作为Focus层的输入，Focus层的输出作为第一Conv层的输入，第一Conv层的输出作为第一C3卷积层的输入，第一C3卷积层的输出作为第二Conv层的输入和第三Concat层的输入，第二Conv层的输出作为第二C3卷积层的输入，第二C3卷积层的输出作为第三Conv层的输入和第二Concat层的输入，第三Conv层的输出作为第三C3卷积层的输入，第三C3卷积层的输出作为第一SimAM注意力机制层的输入和第一Concat层的输入，第一SimAM注意力机制层的输出作为第四Conv层的输入，第四Conv层的输出作为第四C3卷积层的输入，第四C3卷积层的输出作为第二SimAM注意力机制层的输入，第二SimAM注意力机制层的输出作为改进的SPPF模块的输入，改进的SPPF模块的输出作为第五Conv层的输入，第五Conv层的输出作为第一Upsample层(上采样层)的输入和第六Concat层的输入，第一Upsample层的输出作为第一Concat层的输入，第一Concat层的输出作为第五C3卷积层的输入，第五C3卷积层的输出作为第六Conv层的输入，第六Conv层的输出作为第二Upsample层的输入和第五Concat层的输入，第二Upsample层的输出作为第二Concat层的输入，第二Concat层的输出作为第六C3卷积层的输入，第六C3卷积层的输出作为第七Conv层的输入，第七Conv层的输出作为第三Upsample层的输入和第四Concat层的输入，第三Upsample层的输出作为第三Concat层的输入，第三Concat层的输出作为第七C3卷积层的输入，第七C3卷积层的输出作为第八Conv层的输入和第一Conv2d层的输入，第一Conv2d层的输出为检测得到的小目标，即作为小目标检测头，第八Conv层的输出第四Concat层的输入，第四Concat层的输出作为第八C3卷积层的输入，第八C3卷积层的输出作为第九Conv层的输入和第二Conv2d层的输入，第二Conv2d层输出80×80的图像，第九Conv层的输出作为第五Concat层的输入，第五Concat层的输出作为第九C3卷积层的输入，第九C3卷积层的输出作为第十Conv层的输入和第三Conv2d层的输入，第三Conv2d层输出40×40的图像，第十Conv层的输出作为第六Concat层的输入，第六Concat层的输出作为第十C3卷积层的输入，第十C3卷积层的输出作为第四Conv2d层的输入，第四Conv2d层输出20×20的图像。

引入3D注意力机制SimAM，SimAM是一种无参数的注意力机制不同于现有1D通道注意力和2D空域注意力，简单且高效，没有对模型造成负担，在不损害模型的检测速度基础上提高模型的检测精度，具体见图3(Channel、Height、Width、3D-weight分别表示通道、高、宽、3D注意力权值)，加入两个SimAM注意力机制层，无需额外参数去推导出3D注意力权值，只需通过一个Energy函数来计算注意力权重，通过3D权重，对特征中的每个点都赋上单独的标量，通过这种统一权重，使得特征更具有全局性，计算过程如下：

其中，输出结果为增强后的特征X′，X为输入的特征，⊙为点积运算，并且通过sigmoid函数限制E中可能出现的过大值，E为每个通道上的能量函数，计算过程如下：

其中，t为输入的特征的值，t∈X，λ为常数1e-4，μ和σ²分别表示X中每个通道上的均值和方差。

SPPF(Spatial Pyramid Pooling-Fast，空间金字塔快速池化)模块采用5×5的最大池化层Maxpool，虽然会扩大感受野，但会降低特征图的分辨率，不利于网络学习，空洞卷积(dalited conv)具有可以学习上下文信息，扩大感受野且不降低特征分辨率等优点，本发明将不同扩张率的空洞卷积代替了Maxpool，受感受野模块影响，改进的SPPF模块为通过空洞卷积层替换最大池化层的SPPF模块，改进后的SPPF结构包含四路分支，本发明中将其称之为SPPF-D模块，左侧两支路提取较远处上下文信息，右侧两支路提取相邻上下文信息，具体见图4，SPPF-D模块为：第二SimAM注意力机制层的输出作为第十一Conv层(卷积核为1*1)的输入，第十一Conv层的输出为四路分支的输入，即作为第一空洞卷积层、第二空洞卷积层、第十四Conv层和第十五Conv层的输入，第一空洞卷积层的输出作为第十二Conv层的输入，第二空洞卷积层的输出作为第十三Conv层的输入，第十四Conv层的输出作为第三空洞卷积层的输入，第十五Conv层的输出作为第四空洞卷积层的输入，第二SimAM注意力机制层的输出、第三空洞卷积层的输出、第四空洞卷积层的输出、第十二Conv层的输出、第十三Conv层的输出共同作为第七Concat层的输入，第七Concat层的输出作为第十六Conv层的输入，第十六Conv层的输出作为第五Conv层的输入。

本发明将原边界框损失函数CIOU改为α-CIOU，使边界能更好地回归，将功率损失函数α-IOU与CIOU进行结合，采用α-CIOU作为边界框损失函数，α-IOU公式如下：

其中，α为功率参数，可以人为调节的恒大于0的数，IOU为交并比。α-IOU通过改变α的值，可以使模型在实现不同水平的边界框回归时，精度调整更有灵活性。CIOU公式如下：

其中，β为权重系数，v是衡量长宽比的相似性，

是两边框中心点距离和对角线距离的比值。综上，改进后的边界框损失函数α-CIOU如下：

其中，

是两边框中心点距离和对角线距离的比值的α次幂。

本发明将原置信度损失函数CrossEntroyLoss改为BCEWithLogitsLoss。YOLOv5中用于计算置信度损失函数CrossEntroyLoss包括两类损失函数，其公式如下：

CrossEntroyLoss＝LogSoftmax+NLLLoss (7)

该损失函数一般用于多类别分类，由于本发明研究的口罩佩戴检测属于二分类，所以CrossEntroyLoss就不再适用，而BCEWithLogitsLoss(具有Logits的二分类交叉熵损失)则是用于解决单标签二分类或多标签二分类问题，公式如下：

BCEWithLogitsLoss＝Sigmoid+BCELoss (8)

步骤3、第二数据集采用Microsoft CoCo数据集，使用Microsoft CoCo(MicrosoftCommon Objects in Context)数据集对步骤2得到的改进的YOLOv5深度学习网络模型进行预训练，通过训练得到最佳的预训练模型权重，保存最佳的预训练模型权重作为预训练模型。

步骤4、使用迁移学习的方式，用最佳的预训练模型权重来初始化改进的YOLOv5深度学习网络模型的参数，使用步骤1得到的训练集对改进的YOLOv5深度学习网络模型进行训练，得到最佳检测模型。

使用迁移学习的方式，导入最佳的预训练模型权重，用来初始化模型参数，使用步骤1得到的训练集对改进的YOLOv5深度学习网络模型进行训练，既可以防止在训练过程中出现梯度消失，还可以加快改进的YOLOv5检测模型的收敛速度，使用SGD优化器对参数进行自适应更新，训练参数设置为学习率为0.01，动量设为0.937，迭代次数设为400，批尺寸batch-size设为32，并且均使用Mosaic数据增强方式扩充数据，提升模型对微小目标的检测能力。

步骤4具体包括：

S4.1、用最佳的预训练模型权重来初始化改进的YOLOv5深度学习网络模型的参数；

S4.2、对训练集中图片进行图像特征提取和目标识别；

S4.3、计算改进的YOLOv5深度学习网络模型的损失函数；

S4.4、使用SGD优化器对更新改进的YOLOv5深度学习网络模型的参数；

S4.5、在验证集上计算当前模型的MAP值(mean Average Precision，即各类别平均精度的平均值)；

S4.6、当此时的MAP值大于预设最佳性能衡量值时，或本轮执行S4.5所得到MAP值大于上一轮执行S4.5所得到的MAP值时，用此时的改进的YOLOv5深度学习网络模型覆盖原改进的YOLOv5深度学习网络模型，此时的改进的YOLOv5深度学习网络模型保存为当前最佳模型；

S4.7、判断迭代次数是都为最终数，若不是则返回S4.2重新执行S4.2，重新执行一轮S4.4至S4.7，若是迭代次数达到了最终数，则迭代完成，得到最佳检测模型，即当前最佳模型作为最佳检测模型。

步骤5、训练完成后，将测试集数据送入最佳检测模型中，得到检测精度和检测速度。

具体内容为将测试集数据输入至最佳检测模型中，计算每张图片的平均检测时间，平均检测时间包括前向传播和NMS(non maximum suppression即非极大抑制)用时，输出检测结果和平均检测时间。

步骤6、利用最佳检测模型进行口罩佩戴情况的检测。将待检测的图片作为输入，得到口罩佩戴情况的输出结果，输出结果为佩戴口罩规范或佩戴口罩不规范。

本发明通过增加小目标检测层，提高了多尺度的检测能力；通过引入SimAM注意力机制，在不影响检测速度的基础上，提高检测精度；通过将SPPF结构引入空洞卷积，可以学习上下文信息，提高检测精度；通过改进边界框损失函数和置信度损失函数，使模型训练速度加快，检测速度提高。本发明将检测精度和检测速度两项指标进行平衡，在不影响检测速度的前提下，使模型的检测精度提升，能够满足口罩佩戴的实时检测的需求。

Claims

1.一种融合3D注意力机制和空洞卷积的口罩佩戴检测方法，其特征在于，包括：

2.如权利要求1所述的一种融合3D注意力机制和空洞卷积的口罩佩戴检测方法，其特征在于，所述小目标检测层的Neck部分能够将浅层网络目标的信息与深层网络目标的信息进行融合。

3.如权利要求1所述的一种融合3D注意力机制和空洞卷积的口罩佩戴检测方法，其特征在于，所述SimAM注意力机制层通过一个Energy函数来计算注意力权重，SimAM注意力机制层的计算为：

其中，X为输入的特征，输出结果为增强后的特征X^′，⊙为点积运算，E为每个通道上的能量函数，计算过程如下：

4.如权利要求1所述的一种融合3D注意力机制和空洞卷积的口罩佩戴检测方法，其特征在于，所述边界框损失函数α-CIOU的公式为：

其中，α表示功率参数，IOU表示交并比，

表示两边框中心点距离和对角线距离的比值的α次幂，β为权重系数，v是衡量长宽比的相似性。

5.如权利要求1所述的一种融合3D注意力机制和空洞卷积的口罩佩戴检测方法，其特征在于，对所述第一数据集标注前先对第一数据集进行筛选，筛选具体为：相似度达到预设阈值的图片中仅保留一张图片。

6.如权利要求5所述的一种融合3D注意力机制和空洞卷积的口罩佩戴检测方法，其特征在于，所述相似度计算公式为：

其中，x和y分别表示一张图像，C₁和C₂为常数，μ_x表示图x的平均亮度，σ_x为图x的对比度，μ_y表示图y的平均亮度，σ_y为图y的对比度。

7.如权利要求1所述的一种融合3D注意力机制和空洞卷积的口罩佩戴检测方法，其特征在于，所述第一数据集分为训练集、验证集和测试集，通过所述训练集和验证集对改进的YOLOv5深度学习网络模型进行训练，通过所述测试集用于口罩佩戴检测模型的测试。

8.如权利要求1所述的一种融合3D注意力机制和空洞卷积的口罩佩戴检测方法，其特征在于，所述方法还包括利用最佳检测模型进行口罩佩戴情况的检测的步骤。

9.如权利要求1所述的一种融合3D注意力机制和空洞卷积的口罩佩戴检测方法，其特征在于，所述训练口罩佩戴检测模型具体包括如下步骤：

S4.2、对训练集中图片进行图像特征提取和目标识别；

S4.3、计算改进的YOLOv5深度学习网络模型的损失函数；

S4.5、在验证集上计算当前模型的MAP值；

S4.6、当此时的MAP值大于预设最佳性能衡量值时，或，本轮执行S4.5所得到MAP值大于上一轮执行S4.5所得到的MAP值时，用此时的改进的YOLOv5深度学习网络模型覆盖原改进的YOLOv5深度学习网络模型；

S4.7、判断迭代次数是都为最终数，若不是则返回S4.2重新执行一轮S4.2至S4.7，若是迭代次数达到了最终数，则得到口罩佩戴检测模型。

10.如权利要求1所述的一种融合3D注意力机制和空洞卷积的口罩佩戴检测方法，其特征在于，所述第二数据集为Microsoft CoCo数据集。