CN116310967A

CN116310967A - 一种基于改进YOLOv5的化工厂安全帽佩戴检测方法

Info

Publication number: CN116310967A
Application number: CN202310176465.1A
Authority: CN
Inventors: 王梓轩; 姜明新; 曹宇; 陆易; 甘峰瑞
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2023-02-28
Filing date: 2023-02-28
Publication date: 2023-06-23

Abstract

本发明公开了一种基于改进YOLOv5的化工厂安全帽佩戴检测方法，预先获取待检测图像和训练图像，将图像中待检测区域标注出来，得到安全帽检测数据集，通过数据清洗，得到训练集和测试集；构建基于改进YOLOv5的安全帽佩戴检测模型，包括输入端、SwinTransformer模块、Neck模块和输出端；并在YOLOv5模型中加入注意力机制ECA模块及更改损失函数设置为Alpha‑IoU；将训练数据集和测试数据集输入到基于改进YOLOv5的安全帽佩戴检测模型中，进行训练，得到优化后的模型；将待检测的图像输入优化后的模型，在detect中进行检测得到安全帽佩戴的检测结果。本发明可以很好的对化工厂人员安全帽佩戴情况进行检测，有效地增强小目标检测的精确度，提高了化工厂安全帽佩戴检测的准确性。

Description

一种基于改进YOLOv5的化工厂安全帽佩戴检测方法

技术领域

本发明属于计算机视觉的目标检测技术领域，具体涉及一种基于改进YOLOv5的化工厂安全帽佩戴检测方法。

背景技术

高空作业、建筑工地、井下、隧道、涵洞等施工环境的危险性较大，如果发生事故，施工人员的生命安全无法得到保障。

研究表明，正确合理的使用安全帽是最便宜、最方便，也是最有效保护工人生命安全的个人便携防护用具，曾经救过无数工人的命。为了避免不戴安全帽导致的安全事故发生，在提高化工厂工人安全意识的同时，更要加强对安全帽佩戴的监督与管理。

随着深度学习技术的发展，很多学者都进行过安全帽佩戴识别的相关研究。由于真实检测任务中施工人员密集，检测目标小；工作环境复杂，受天气、光照等影响大；现场存在遮挡等干扰因素多，这些算法只能实现理想状态下简单识别，对化工厂现场的复杂环境的泛化能力不佳，对小目标的检测性能较差。为弥补安全防护用具检测模型性能的不足，需要根据化工厂现场的复杂特点优化安全防护用具检测算法，泛化其检测能力，提高小目标检测精度；为填补安全防护用具检测系统的空缺，需要搭建一套安全防护用具佩戴实时检测系统，应用到化工厂现场的监督管理中，为工人的生命安全提供保障。因此本发明对YOLOv5模型进行改进优化，在保证检测速度的同时提升安全帽佩戴的检测精度。

随着计算机性能的提升与相关图像处理算法的改进，许多学者提出了一系列基于计算机视觉的安全帽佩戴检测方法，大致可分为以下几类：

(1)基于简单特征的安全帽检测。利用安全帽的形状、颜色等特征判断是否佩戴安全帽。基于施工人员肤色特征的安全帽佩戴检测算法能够较准确地定位施工人员，但由于实际工地环境的光线条件较复杂变化较多，此方法难以适应实际的工地光线情况。

(2)基于人工设计特征的安全帽佩戴检测。一般的目标检测利用HOG+SVM的检测方法，但存在对人体姿态变化较为敏感的问题，为解决该问题，提出了鲁棒性较高的多尺度可变形部件模型DPM算法，将物体形态拆解为多个组件分别表征，再融合进行分类。

(3)基于深度学习的安全帽佩戴检测。有学者提出了经典卷积神经网络CNN。该网络使用了较多的卷积层和更先进合理的模型参数，明显提高了图像分类的精确度。再通过分类器分类来完成目标检测任务。在2019年改进YOLOv3目标检测方法,使用图像金字塔结构来获取多尺度的特征图,进行位置和类别的预测,从而提高安全帽的识别精度；在2021年使用轻量级网络Mobile Net替换SSD中的特征提取网络VGG,来提高安全帽检测的速度。卷积神经网络被广泛的应用到安全帽检测任务中。

现有技术实验场景少，目前大多数学者实验环境较单一，没有实际结合更多的工地场景以及光照环境，使得检测系统泛化能力不够，不能适应多变的化工厂现场环境。目前化工厂流动人员安全帽检测系统基本都使用现场监控视频作为检测系统的输入，因此会导致被检测目标较小，但目前大多数检测算法对于小目标的检测效果较差，容易发生误检、漏检等情况。因此需要研究能力更强的目标检测方法提高检测系统的泛化能力，解决小目标检测性能差的问题，对违规未佩戴安全防护用具人员进行实时检测并记录。

发明内容

发明目的：本发明公开了一种基于改进YOLOv5的化工厂安全帽佩戴检测方法，可以很好的对化工厂人员安全帽佩戴情况进行检测，有效地增强小目标检测的精确度，提高了化工厂安全帽佩戴检测的准确性。

技术方案：本发明提出一种基于改进YOLOv5的化工厂安全帽佩戴检测方法，包括以下步骤：

(1)预先获取待检测图像和训练图像，将图像中待检测区域标注出来，得到安全帽检测数据集，通过数据清洗，得到训练集和测试集；

(2)构建基于改进YOLOv5的安全帽佩戴检测模型，包括输入端、Swin Transformer模块、Neck模块和输出端；并在YOLOv5模型中加入注意力机制ECA模块及更改损失函数设置为Alpha-IoU；

(3)将训练数据集和测试数据集输入到基于改进YOLOv5的安全帽佩戴检测模型中，进行训练，得到优化后的模型；

(4)将待检测的图像输入优化后的模型，在detect中进行检测得到安全帽佩戴的检测结果。

进一步地，所述步骤(1)实现过程如下：

使用labelGo对图像进行标注，标注后的文件以“.xml”为后缀的标签文件，之后再转成“.txt”后缀的格式，得到数据集。

进一步地，步骤(2)所述输入端对输入的安全放防护用具小目标佩戴图片进行随机缩放，剪裁和排布，然后通过自适应锚框计算，初始设定长宽的锚宽，输出预测框，与真实框ground truth进行对比，在方向更新，迭代网络参数；然后再对原始的安全放防护用具图片自适应的添加最少的黑边，计算缩放比例，计算缩放后的尺寸，计算黑边填充数值，得到增强的图像。

进一步地，所述Swin Transformer模块的结构如下：

输入原始的图像之后是一个Patch Partition，再之后是一个Linear Embedding层，图像经过这两个层就是通过一个Patch Merging层，Patch Merging通过nn.Unfold函数实现降采样，经过nn.Unfold之后会得到

个特征向量；stage的Feature Map的通道数为3，第一个stage的输入是RGB图像，stage1部分，先通过一个Linear Embedding将输划分后的patch特征维度变成C，然后送入Swin Transformer Block；Swin Transformer模块构建了4个stage，每个stage中都是类似的重复单元；stage2-stage4操作相同，先通过一个Patch Merging，将输入按照2x2的相邻Patches合并，patch块的数量变成/>

特征维度为4C，与stage1一样使用Linear Embedding将4C压缩成2C，然后送入Swin TransformerBlock；

Swin Transformer模块中核心的部分是4个Stage中的Swin Transformer Block，Swin Transformer Block由窗口多头自注意层W-MSA和移位窗口多头自注意层SW-MSA组成；将压缩后的特征图输入到该stage的特征z^l-1先经过LN进行归一化，再经过W-MSA进行特征的学习，接着的是一个残差操作得到

接着是一个LN，一个MLP以及一个残差，得到这一层的输出特征z^l；然后继续进行LN归一化，在经过SW-MSA进行特征学习，得到/>

在进行一次LN归一化和MLP，得到特征输出z^l+1；用公式表示为：

式中，

和z^l分别表示W-MSA模块和MLP模块的输出特征，/>

和z^l+1表示SW-MSA模块和MLP模块的输出特征；

Swin Transformer的输出层，在stage4完成计算后，Swin Transformer先通过一个Global Average Pooling，再通过一层LayerNorm和一个全连接层，以及dropout和残差连接；公式为：

y＝MlP(LN(GAP(z⁴)))

式中，z表示特征向量。

进一步地，步骤(2)所述在YOLOv5模型中加入注意力机制ECA模块过程如下：

把通过Swin Transformer的特征向量通过平均池化获得的聚合特征，ECA模块通过执行卷积核大小为k的一维卷积来生成通道权重，用一维卷积替换了全连接层，其中一维卷积核大小k是由通过通道数C自适应确定；自适应确定卷积核大小公式：

式中，k表示卷积核大小；C表示通道数；||odd表示k只能取奇数；γ和b表示用于改变通道数C和卷积核大小和之间的比例。

进一步地，步骤(2)所述输出端与Neck模块连接，将原有的CIOU Loss做边界损失函数进行改进，加入一个影响因子α，其公式为：

式中，β是权重函数，b为预测框中心点坐标，b^gt为真实框中心点坐标，ρ(,)是欧式距离计算；c为预测框、真实框最小包围框的对角线长度，IoU为交并比损失函数，v是度量框的长宽比，w^gt、h^gt分别是预测框的宽和高，w、h是目标框的宽和高；

改进后的Alpha-IoU损失函数公式为：

通过设置α次幂使得在高IoU状态下，预测框回归真实框，最终得到安全防护用具佩戴检测边界框。

有益效果：与现有技术相比，本发明的有益效果：本发明将原有的YOLOv5检测模型Backbone模块转换为Swin Transformer模块网络进行特征提取，构建轻量化目标检测模型，在算法框架中嵌入ECA注意力模块，改进的轻量化网络，并使用深度可分离卷积替换掉冗余操作，以轻量级模块构建高效算法，兼顾轻量化的同时，保持YOLOv5的精度与速度；本发明可以很好的对化工厂人员安全帽佩戴情况进行检测，有效地增强小目标检测的精确度，提高了化工厂安全帽佩戴检测的准确性。

附图说明

图1为本发明的流程图；

图2为基于改进YOLOv5的安全帽佩戴检测模型结构示意图；

图3为Swin transformer Block网络的结构示意图；

图4为ECA注意力机制模块结构示意图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

本发明提出一种基于改进YOLOv5的化工厂安全帽佩戴检测方法，如图1所示，具体包括以下步骤：

步骤1：获取待检测图像和训练图像，将图像中待检测区域标注出来，得到安全防护用具检测数据集，通过数据清洗，得到安全防护用具佩戴训练集和测试集。

通过百度和化工厂监控视频收集安全防护用具佩戴数据集VOC2028，包含安全帽和人两个类别的检测数据集，数据总共7581帧图片。对得到的VOC2028数据集进行数据清洗，从而提高图像数据集中的图像一致性，高质量的数据集可以确保模型能够走向正确的收敛方向，以保证数据集中数据的一致性。使用labelGo对所的图像进行标注，标注后的文件以“.xml”为后缀的标签文件，之后再转成“.txt”后缀的格式，得到数据集。

步骤2：构建基于改进YOLOv5的安全帽佩戴检测模型，如图2所示，包括输入端，Swin Transformer模块、Neck模块和输出端；并在YOLOv5模型中加入注意力机制ECA模块及更改损失函数设置为Alpha-IoU。

输入端，Mosaic数据增强，对输入的安全放防护用具小目标佩戴图片进行随机缩放，剪裁和排布，然后通过自适应锚框计算，初始设定长宽的锚宽，输出预测框，与真实框ground truth进行对比，在方向更新，迭代网络参数，然后再对原始的安全放防护用具图片自适应的添加最少的黑边，计算缩放比例，计算缩放后的尺寸，计算黑边填充数值，得到增强的图像。

Backbone模块，将原有的特征提取Backbone模块替换为提取能力更强的SwinTransformer模块，并且加入ECA注意力模块，这一模块的主要作用是对高层特征进行提取并融合，在融合的过程中多次运用最大池化，尽可能多的去提取高层次的语义特征。

Swin Transformer模块，输入原始的图像之后是一个Patch Partition，再之后是一个Linear Embedding层，图像经过这两个层就是通过一个Patch Merging层，PatchMerging是主要是通过nn.Unfold函数实现降采样，nn.Unfold的功能是对图像进行滑窗，相当于卷积操作的第一步，经过nn.Unfold之后会得到

个长度为4×4×3＝48的特征向量，这个stage的Feature Map的通道数为3，第一个stage的输入是RGB图像，stage1部分，先通过一个Linear Embedding将输划分后的patch特征维度变成C，然后送入Swin Transformer Block；Swin Transformer模块构建了4个stage，每个stage中都是类似的重复单元。stage2-stage4操作相同，先通过一个Patch Merging，将输入按照2x2的相邻Patches合并，这样子patch块的数量就变成了/>

特征维度就变成了4C，与stage1一样使用Linear Embedding将4C压缩成2C，然后送入Swin Transformer Block。

Swin Transformer模块中核心的部分便是4个Stage中的Swin TransformerBlock，Swin Transformer Block是该算法的核心点，如图3所示，它由窗口多头自注意层(window multi-head self-attention,W-MSA)和移位窗口多头自注意层(shifted-windowmulti-head self-attention,SW-MSA)组成。将压缩后的特征图输入到该stage的特征z^l-1先经过LN进行归一化，再经过W-MSA进行特征的学习，接着的是一个残差操作得到

接着是一个LN，一个MLP以及一个残差，得到这一层的输出特征z^l。然后继续进行LN归一化，在经过SW-MSA进行特征学习，得到/>

在进行一次LN归一化和MLP，得到特征输出z^l+1。这一部分可用公式表示为：

式中，

和z^l分别表示W-MSA模块和MLP模块的输出特征，/>

和z^l+1表示SW-MSA模块和MLP模块的输出特征。

Swin Transformer的输出层，在stage4完成计算后，Swin Transformer先通过一个Global Average Pooling得到长度为768的特征向量，再通过一层Layer Norm和一个全连接层，以及dropout和残差连接。公式为：

y＝MLP(LN(GAP(z⁴)))

式中，z表示特征向量。

之后插入ECA注意力机制模块，如图4所示，把通过Swin Transformer的特征向量通过平均池化获得的聚合特征，ECA模块通过执行卷积核大小为k的一维卷积来生成通道权重，用一维卷积替换了全连接层，其中一维卷积核大小k是由通过通道数C自适应确定。自适应确定卷积核大小公式：

ECA模块只是替换了全连接层，每一次卷积只和部分通道作用，减少了数据计算量。

Neck模块，Neck模块的网络结构设计也是沿用了FPN+PAN的结构，FPN就是使用一种自顶向下的侧边连接在所有尺度上构建出高级语义特征图，构造了特征金字塔的经典结构，FPN中间经过多层的网络后，底层的目标信息已经非常模糊了，因此PAN又加入了自底向上的路线，弥补并加强了定位信息，加强网络特征融合能力，将Swin Transformer提取的图像特征进行特征融合，输入到下一个结果预测模块。

输出端，输出端与Neck模块连接，将原有的CIOU Loss做边界损失函数进行改进，加入一个影响因子α，其公式为：

式中，β是权重函数，b为预测框中心点坐标，b^gt为真实框中心点坐标，ρ(,)是欧式距离计算；c为预测框、真实框最小包围框的对角线长度，IoU为交并比损失函数，v是度量框的长宽比，w^gt、h^gt分别是预测框的宽和高，w、h是目标框的宽和高。

改进后的Alpha-IoU损失函数公式为：

步骤3：将训练数据集和测试数据集输入到基于改进YOLOv5的安全帽佩戴检测模型中，进行训练，得到优化后的模型。

设置改进好的YOLOv5模型的网络参数，Model选择使用YOLOv5s模型进行训练，Weights选择YOLOv5.pt文件，epoch训练次数设置为100，Batch-size设置为1。用训练数据集训练上述改进的YOLOv5网络，不断优化网络参数，使网络模型达到最好的状态，得到训练优化后的模型。

步骤4：将待检测的图像输入训练后的模型，在detect中进行检测得到安全防护用具的检测结果；

将所需要检测的视频或图片输入到detect，使用改进优化后的YOLOv5模型对待检测的安全防护用具佩戴图片进行目标检测。产生最终的安全防护用具检测结果，得到待检测数据中的安全防护用具佩戴的检测目标。

以上显示和描述为本发明的基本原理和主要特征和本发明的优点。本领域的技术人员应该了解，本发明不受上述实施方式的限制，上述实施方式和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书界定。

Claims

1.一种基于改进YOLOv5的化工厂安全帽佩戴检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于改进YOLOv5的化工厂安全帽佩戴检测方法，其特征在于，所述步骤(1)实现过程如下：

3.根据权利要求1所述的一种基于改进YOLOv5的化工厂安全帽佩戴检测方法，其特征在于，步骤(2)所述输入端对输入的安全放防护用具小目标佩戴图片进行随机缩放，剪裁和排布，然后通过自适应锚框计算，初始设定长宽的锚宽，输出预测框，与真实框groundtruth进行对比，在方向更新，迭代网络参数；然后再对原始的安全放防护用具图片自适应的添加最少的黑边，计算缩放比例，计算缩放后的尺寸，计算黑边填充数值，得到增强的图像。

4.根据权利要求1所述的一种基于改进YOLOv5的化工厂安全帽佩戴检测方法，其特征在于，所述Swin Transformer模块的结构如下：

个特征向量；stage的Feature Map的通道数为3，第一个stage的输入是RGB图像，stage1部分，先通过一个Linear Embedding将输划分后的patch特征维度变成C，然后送入Swin Transformer Block；Swin Transformer模块构建了4个stage，每个stage中都是类似的重复单元；stage2-stage4操作相同，先通过一个PatchMerging，将输入按照2x2的相邻Patches合并，patch块的数量变成/>

特征维度为4C，与stage1一样使用Linear Embedding将4C压缩成2C，然后送入Swin Transformer Block；

Swin Transformer模块中核心的部分是4个Stage中的Swin Transformer Block，SwinTransformer Block由窗口多头自注意层W-MSA和移位窗口多头自注意层SW-MSA组成；将压缩后的特征图输入到该stage的特征z^l-1先经过LN进行归一化，再经过W-MSA进行特征的学习，接着的是一个残差操作得到