CN115496951A

CN115496951A - 一种基于改进YOLOv5s的安全设备检测方法

Info

Publication number: CN115496951A
Application number: CN202211231287.XA
Authority: CN
Inventors: 叶德阳; 邱军林; 邵鹤帅; 高丽; 蒋晓玲; 陈礼青; 李敏; 周健; 马志鹏; 于金玉
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2022-10-09
Filing date: 2022-10-09
Publication date: 2022-12-20

Abstract

本发明公开了一种基于改进YOLOv5s的安全设备检测方法，包括：获取安全设备样本数据集，分为训练集和测试集；改进模型数据增强方式，采用CutMix与MixUp混合方法，扩充训练数据集的体量，提高模型的泛化能力和测试的鲁棒性；对网络结构进行修改，将原模型主干Backbone网络替换为轻量级MobileNetV3网络；在FPN+PAN网络中增加浅层特征提取层，增强对小目标的提取效果；将轻量级算子CARAFE++引入FPN上采样过程，对局部区域的特征进行重组，不需要学习跨通道的特征变换且较为容易地继承到修改后的网络架构中，降低模型的计算成本。本发明通过网络结构改进、模型优化等方法对传统YOLO算法进行改进，提高了安全设备检测的准确度和小目标情况下的检出效果，具有较好的实用性。

Description

一种基于改进YOLOv5s的安全设备检测方法

技术领域

本发明涉及图像处理检测技术领域，具体涉及一种基于改进YOLOv5s的安全设备检测方法。

背景技术

安全帽、口罩等安全设备无论是在生活还是在工业生产都是必不可少的重要防护手段。安全设备不仅关乎着佩戴者的生命安全，更关系着企业的良好经营。因此在日常生活和生产过程中检测安全设备至关重要。但在现实生活中，常常会出现对小目标检测的漏检误检等问题，所以如何对安全设备进行高效、精准的检测是目标检测领域的重要研究方向之一。

目前，关于使用智能技术对安全设备技术进行检测，不仅是对企业还是在当前新冠流行的公共场所下，都具有紧迫和强烈的需求。对此，国内外许多的学者在提高目标检测的准确度做出了贡献。Han等人针对现有安全帽检测方法精度低的问题，提出了一种基于单发多箱检测器的新型物体检测算法。该算法对低级特征采用空间注意机制，对高级特征采用通道注意机制，进一步细化对象区域的特征信息，提高了对安全帽的检测准确度。Deng等人改进了YOLOv3算法，通过集成CSPNet和GhostNet组成骨干网络以及提出新的轻量级多尺度特征提取网络(PAN-CSP-Resnet)将模型在计算成本和安全帽检测效果方面得到明显提升。Jian等人考虑到口罩检测任务的准确性和推理速度，通过迁移学习、数据增强和模型压缩方法，提出了一种基于PP-YOLO的PP-YOLO-Mask检测模型，通过与YOLOv3和Faster-RCNN相比，模型具有更快的精度和检测速度。在现实情况中，许多场景是复杂多变的，尤其是在检测过程中存在目标数量太多、场景变换等因素都会对检测的结果造出不利的影响。所以当出现小目标的检测时，许多检测算法很难准确地将其检测出来，导致出现误检漏检的情况。基于机器视觉和深度学习的安全设备检测是能够在复杂场景下对小目标进行识别检测，针对可能出现的漏检误检问题实现有效改善。

发明内容

发明目的：本发明提出一种基于改进YOLOv5s的安全设备检测方法，用于解决现有安全设备检测算法在部分复杂场景对小目标检测效果不佳、容易发生误检漏检等问题。

技术方案：本发明公开了一种基于改进YOLOv5s的安全设备检测方法，包括有以下步骤：

S1：获取安全设备图片数据集，对样本数据集中目标检测物进行标注，并分为训练集和测试集；

S2：数据集进行预处理分析，进行CutMix与MixUp混合数据增强，使用超参数scale、shear操作进行处理；

S3：构建基于改进YOLOv5s模型的安全设备检测网络模型，所述网络模型具体包括输入Input、主干网络Backbone、颈部Neck和输出Output；所述主干网络Backbone为轻量级MobileNetV3网络；颈部Neck包括FPN和PAN模块，且加入浅层特征提取层，并在FPN上采样过程引入轻量级算子CARAFE++，对上采样过程的全图语义信息进行优化；

S4：采用训练集对安全设备检测网络模型进行训练，获取网络模型的各个参数，得到训练后的安全设备检测网络模型；

S5：采用测试数据集对训练后的安全设备检测网络模型进行测试，对测试结果进行评价。

进一步地，所述步骤S1的具体方法如下：

S1.1：获得不同种类的安全设备图片数据集；

S1.2：使用LabelImg软件对安全设备数据集中的各类目标检测物进行人工标注，安全设备种类包括安全帽、护目镜、口罩和手套；

S1.3：将标注好的安全设备数据集按一定比例划分为训练集和测试集。

进一步地，所述步骤S2的具体方法如下：

S2.1：利用CutMix与MixUp混合数据增强方式，扩充样本数据集；

S2.2：MixUp将不同类之间的图像进行混合，从而达到扩充训练数据集的作用，具体为：

式中，

和

分别是训练数据中随机抽取的两个样本(x_i，y_i)，(x_j，y_j)混合后的图像和标签，λ是从给定的贝塔分布中取得的随机数；

S2.3：CutMix在训练图像之间裁切出随机矩形的部分图像进行拼接生成新的图像，从新样本中两个原样本的比例确定新的混合标签的比例，确保图像中信息的连续性，具体为：

其中，M∈{0，1}^W×H表示一个二进制掩码，标记出两幅图像裁切和填充的位置，两个数据点之间的随机数λ从贝塔分布采样，即λ从均匀分布(0，1)采样，W和H表示分别表示图像的宽和高；

S2.4：对经过CutMix与MixUp混合数据增强处理后的安全设备图像使用超参数scale、shear操作进行处理。

进一步地，所述步骤S3中MobileNetV3网络进行特征提取的具体方法如下：

所述MobileNetV3网络结构包含多种尺寸和深度的可分离卷积块Bneck、批量归一化层BN、SE注意力机制模块、H-swish激活函数；

S3.1.1：对预训练数据集图片进行切片操作，经过一次32个卷积核的卷积操作，最终变成大小为原图像一半以及通道数为32的特征图；

S3.1.2：CBH模块由卷积层、批量归一化层BN和H-swish激活组成，通过CBH模块对特征图进行卷积、批量归一化和激活操作，其中卷积层的步距为2，使用的激活函数H-swish是在RELU6激活函数的基础上修改，其原理为：

RELU6(x)＝min(max(x，0)，6) (5)

此时特征图的通道数为16；

S3.1.3：进入可分离卷积块Bneck后对特征图进行第一次特征提取，经过3个可分离卷积块Bneck、卷积核大小为3*3且卷积的步距为1的卷积操作后得到特征图的提取特征；

S3.1.4：经过3个可分离卷积块Bneck完成对特征图第二次特征提取，卷积核大小为5*5，引入SE注意力机制模块，采用ReLu激活函数；

S3.1.5：经过4个可分离卷积块Bneck完成对特征图第三次特征提取，卷积核大小为3*3且卷积的步距为1，采用H-swish激活函数；

S3.1.6：经过最后5个可分离卷积块Bneck特征提取以及卷积、批量归一化和激活操作后进入空间金字塔SPP对前层特征进行最大池化处理，卷积核大小为5*5、5*5、5*5，然后将3个处理后的结果连接起来组成新的特征层。

进一步地，所述步骤S3中Neck模块的具体操作为：

S3.2.1：FPN网络对图像金字塔SPP处理后的特征图进行卷积操作，卷积过程的卷积核大小为1*1、步长为2，经过卷积特征提取后得出尺寸大小为20*20的特征图，与来自主干网络提取出的同样大小为20*20的特征图进行2倍的上采样特征融合，得到尺寸大小40*40的特征图；

S3.2.2：对S3.2.1处理得到的40*40特征图继续重复进行卷积操作，卷积过程的卷积核大小为1*1、步长为2，经过卷积特征提取后得出尺寸大小为40*40的特征图，与来自主干网络提取出的同样大小为40*40的特征图进行2倍的上采样特征融合，得到尺寸大小80*80的特征图；

S3.2.3：对S3.2.2过程得到的80*80的特征图继续进行卷积和上采样操作，与PAN网络上层结构共同组成新的浅层特征提取层，此时浅层特征提取层得到尺寸大小为160*160的特征图；

S3.2.4：PAN网络对FPN的特征图同样进行3次卷积核大小为3*3，步长为2的卷积操作，提取到的特征图与FPN提取出的[160²，80²，40²，20²]的特征图进行下采样特征融合，最终得出4个特征预测图，四个特征预测图的尺寸大小同样为[160²，80²，40²，20²]。

进一步地，所述步骤S3中FPN网络上采样融合模块通过使用上采样算子CARAFE++来取代原来融合过程中的双线性插值上采样算子，所述轻量级算子CARAFE++的具体操作为：

给定一个特征图，大小为H×W×C，以及一个上采样倍率σ，内核预测模块ψ根据χ_l相邻位置对每一个位置的l′预测出一个内核

每个重组内核

的重组模块通过函数φ对局部区域内特征进行重组，对扩张后的特征图

每个位置l(i，j)的邻域N(χ_l，k_reassembly)以公式(13)的形式进行加权求和然后重新排列，生成新的特征图x′(σH*σW)：

进一步地，所述步骤S5的具体方法如下：

S5.1：将待检测安全设备图像输入到训练好的安全设备检测模型；

S5.2：安全设备图像经过候选区域生成、特征提取、分类和位置回归，最终的输出安全设备检测结果；

S5.3：采用下列公式分别计算评价参数：

其中，Precision为准确率，代表着模型正确预测的目标检测物的数量(TP)占预测该类总目标数量(TP+FP)的比率；Recall为召回率，代表着模型正确预测的目标检测物的数量(TP)占该类总目标数量(TP+FN)的比率；r为召回率，p为准确率，c为类别总数。

有益效果：

本发明通过对安全设备图像数据集进行数据增强来增加样本数据的多样性，以更加轻量的MobileNetV3网络结构作为改进YOLOv5s主干特征提取网络，结合FPN+PAN特征融合网络，提取多尺度特征以此对检测目标进行快速、准确的分类和定位，达到多尺度目标检测的效果；在网络Neck部分增加浅层特征提取层，提高安全设备检测的准确率和小目标检测效果；在FPN上采样过程引入轻量级算子CARAFE++可以使得不同尺度的特征图内部的上下文语义信息传递更充分，信息的缺失降低，可以有效地提升检测效果。

附图说明

图1为本发明实施例中的方法流程图；

图2为本发明实施例中的MixUp数据增强效果图；

图3为本发明实施例中的CutMix数据增强效果图；

图4为本发明实施例中改进YOLOv5s算法的网络结构图；

图5为本发明实施例中改进主干-颈部网络结构图；

图6为本发明实施例中CARAFE++上采样过程图；

图7为本发明实施例中训练和验证集的训练期间，框损失、目标损失、分类损失、精确度、召回率、平均精度和均值平均精度曲线图；

图8为本发明实施例中改进算法模型实验结果曲线对比图；

图9为本发明实施例中改进算法模型检测效果对比图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。

如图1所示，本发明实施例公开的一种基于改进YOLOv5s的安全设备检测方法，主要包括以下步骤：

(1)制作数据集。本实施例数据集来源为从kaggle下载公共数据集、爬虫爬取以及拍摄等方式获得不同种类的安全设备图片数据集，对采集的安全设备图像数据进行分类，将安全设备分为4类分别为安全帽、手套、护目镜、口罩，使用LabelImg软件对安全设备数据集中的各类目标检测物进行人工标注，生成标注信息的txt文件，包括目标物的个数、坐标等信息，其中“0”，“1”，“2”，“3”分别代表了“safety_hat”，，“goggles”，“mask”，“glove”代表了目标物的标注类别，如表1所示。

表1

(2)数据集进行预处理分析，进行CutMix与MixUp混合数据增强，使用超参数scale、shear等操作进行处理，MixUp将不同类之间的图像进行混合，从而达到扩充训练数据集的作用，效果图如图2所示，虽然MixUp通过全图融合的方式将两类图片进行合并从而获得更多的训练样本数量，但图像混合后会变得模糊不清晰，在某些特定环境下可能降低特征提取的准确度，对模型效果产生负面影响，由此同时引入了CutMix的数据增强方式。CutMix采用了新样本中两个原样本的比例确定新的混合标签的比例，从而保证了图像中信息的连续性，达到更好的增强效果，图3(a)是两张不同的图像，经过CutMix处理后随机裁切出一小部分的图像与第二图像进行拼接，同样第一张图像拼接第二张图像的裁切部分最后获得图3(b)效果。

(3)构建基于改进YOLOv5s模型的安全设备检测网络模型，对主干网络进行优化，原模型主干Backbone网络替换为轻量级MobileNetV3网络，其中MobileNetV3网络前5组卷积层结构如表2所示：

表2

具体步骤如下：

向上述卷积层输入安全设备图像数据，将所有输入的安全设备图像数据利用卷积核进行卷积操作，对经过卷积核卷积操作后的安全设备图像数据进行标准化处理，来得到标准的图像样本数据集合对进行过标准化处理的图像数据利用非线性激活函数进行激活，得到激活图像样本数据集合。Bneck为2个1×1卷积层加上1个3×3深度卷积层的复合结构组成，在深度卷积层中，输入特征图的每个通道都与对应的卷积核进行卷积运算，输入图像经过卷积层C1～C5过程中的15个Bneck的卷积操作，每个过程都会新的图像尺寸大小缩小为原来的一半，将处理后的特征图像进行一次卷积、批量归一化、激活操作后输入到图像金字塔，使用最大池化函数对特征图像进行特征融合，进而完成MobileNetV3网络的训练。

S3.1：对预训练数据集图片进行切片操作，经过一次32个卷积核的卷积操作，最终变成大小为原图像一半以及通道数为32的特征图；

S3.2：CBH模块由卷积层、批量归一化层BN和H-swish激活组成，通过CBH模块对特征图进行卷积、批量归一化和激活操作，其中卷积层的步距为2，使用的激活函数H-swish是在RELU6激活函数的基础上修改，其原理为：

RELU6(x)＝min(max(x，0)，6) (5)

此时特征图的通道数为16；

S3.3：进入可分离卷积块Bneck后对特征图进行第一次特征提取，经过3个可分离卷积块Bneck、卷积核大小为3*3且卷积的步距为1的卷积操作后得到特征图的提取特征；

S3.4：经过3个可分离卷积块Bneck完成对特征图第二次特征提取，卷积核大小为5*5，引入SE注意力机制模块，采用ReLu激活函数；

S3.5：经过4个可分离卷积块Bneck完成对特征图第三次特征提取，卷积核大小为3*3且卷积的步距为1，采用H-swish激活函数；

S3.6：经过最后5个可分离卷积块Bneck特征提取以及卷积、批量归一化和激活操作后进入空间金字塔SPP对前层特征进行最大池化处理，卷积核大小为5*5、5*5、5*5，然后将3个处理后的结果连接起来组成新的特征层。

(4)结合FPN+PAN特征融合提取网络，提取多尺度特征，结合过程如图4、图5所示。

将通过主干网络MobileNetV3提取到的安全设备图像的特征输入到FPN+PAN特征融合提取网络，具体过程如下：

来自主干网络MobileNetV3的特征数据首先进入FPN网络，经过特征提取获得20×20的特征图像，与来自主干的C4卷积层的图像特征进行上采样特征融合形成40×40的特征图像，重复相同操作与来自主干网络的C3卷积层的图像进行上采样特征融合后形成80×80的特征图像，考虑到对小目标的采样检测，但两次上采样特征融合的特征图像包含的像素信息较少，所以增加浅层特征提取层继续与主干网络的C2卷积层图像进行上采样特征融合，如图5虚线框所示，经过三次上采样操作后第一个浅层输出与PAN网络深层的输出进行融合，融合后得到4个特征预测图，4个特征图尺度分别为[160²，80²，40²，20²]，添加浅层特征提取层后，对应到输入图像640*640上，每格特征图的感受野则为640/160＝4*4的大小，增强了模型提取小目标的能力，降低了小目标漏检的概率，提高了检测精度。即具体如下步骤：

S4.1：FPN网络对图像金字塔SPP处理后的特征图进行卷积操作，卷积过程的卷积核大小为1*1、步长为2，经过卷积特征提取后得出尺寸大小为20*20的特征图，与来自主干网络提取出的同样大小为20*20的特征图进行2倍的上采样特征融合，得到尺寸大小40*40的特征图；

S4.2：对S4.1处理得到的40*40特征图继续重复进行卷积操作，卷积过程的卷积核大小为1*1、步长为2，经过卷积特征提取后得出尺寸大小为40*40的特征图，与来自主干网络提取出的同样大小为40*40的特征图进行2倍的上采样特征融合，得到尺寸大小80*80的特征图；

S4.3：为了提高小目标的检测效果，考虑通过扩大特征采样面积的方式提取出特征图更多的信息，对S4.2过程得到的80*80的特征图继续进行卷积和上采样操作，与PAN网络上层结构共同组成新的浅层特征提取层，此时浅层特征提取层得到尺寸大小为160*160的特征图；

S4.4：PAN网络对FPN的特征图同样进行3次卷积核大小为3*3，步长为2的卷积操作，提取到的特征图与FPN提取出的[160²，80²，40²，20²]的特征图进行下采样特征融合，最终得出4个特征预测图，四个特征预测图的尺寸大小同样为[160²，80²，40²，20²]。

(5)本发明的FPN网络上采样融合模块是通过使用上采样算子CARAFE++来取代原来融合过程中的双线性插值上采样算子，CARAFE++的上采样过程图如图6所示。CARAFE++由两步骤组成：1、根据目标位置内容预测一个重组核。2、对预测的重组核进行特征重组。图中给定一个特征图(大小为H×W×C)以及一个上采样倍率σ，内核预测模块ψ根据χ_l相邻位置对每一个位置的l′预测出一个内核

在本发明中，

上采样倍率σ＝2，k_encoder＝3，k_reassembly＝4。每个目标位置对应一个源位置，以k_reassembly×k_reassembly重新组装内核，即大小为4*4，该上采样重组内核，模块将输出大小为C_reassembly×σH×σW的重组内核用于上采样。

CARAFE++只对局部区域的特征进行重组，不需要学习跨通道的特征变换，每个重组内核

每个位置l(i，j)的邻域N(χ_l，k_reassembly)以公式(13)的形式进行加权求和然后重新排列，生成新的特征图x′(σH*σW)。

CARAFE++上采样算子的加入可以使得不同尺度的特征图内部的上下文语义信息传递更充分，信息的缺失降低，可以有效地提升检测效果。

(6)利用MobileNetV3网络和FPN+PAN网络训练优化YOLOv5s网格参数，将处理好的样本数据集输入到优化后的YOLOv5s网络中进行训练，本发明中实验将数据集按照8∶2的比例划分为训练集和测试集。选取数据集中的1320张图片作为训练集以及330张图片作为测试集，实验硬件配置使用Intel Core i5-7300HQ@2.50GHz处理器、NVIDIA GTX 1050，4G显存GPU，内存16G，操作系统为Windows 10，开发平台使用Pycharm，编程语言为Python，深度学习的框架为Pytorch，GPU加速库为CUDA10.2。

进入模型网络训练和测试的图片大小均设置为640×640，batch_size设置为16，初始学习率lr₀＝0.01，采用余弦退火策略更新学习率，余弦退火超参数lr_f＝0.2，采用SGD函数优化参数，动量因子0.937，权重衰减系数0.0005。

(7)为了实现对安全设备检测模型的评价，利用目标检测领域最常用的指标查准确率(Precision)、召回率(Recall)、平均精度(AP)和均值平均精度(mAP)进行评估。

训练结果如图7所示，在经过300次迭代后，实验结果如表3所示。Box数值从开始的0.1071经过训练次数的增减逐渐降低，最后稳定在0.021左右，数值较小，训练损失较低，说明模型预测边框与实际边框的误差较小，生成的训练结果比较准确；Obj的值在0.012左右，目标检测的误差较小，说明模型检测出目标的正确率较高；因为目标检测任务有多个类，Cls的值在0.0014左右，模型分类的效果较好；Total是所有误差的总和，即Box，Obj，Cls的loss之和，从数值来看基本稳定在0.035左右；Precision表示目标识别的精准度，准确率可以达到94％左右，检测出目标物体的准确度相对较高，Recall召回率在92％左右，说明对正样本的检测准确率较好。

表3

数据的检验结果如表4所示，四种类型的检测目标物均得到了较好的准确度，平均准确度在94％左右，平均召回率在92％左右，表明该模型具有较好的将目标物检测能力并且分类器分类的目标物种类也较为准确。

表4

将原始YOLOv5s模型和改进后的模型在相同配置下分别训练300轮后，两个模型的对比曲线图如图8所示。横坐标代表迭代次数，纵坐标代表数值，均无单位。从图8可以看出前50次迭代两种模型都迅速收敛，在100次后逐渐趋于稳定，均没有出现过拟合和欠拟合现象。效果方面优化后的模型明显好于原始模型，优化后的模型相比于原始模型在准确率和召回率上均有明显的提升，验证了改进策略的可行性。

图9选取了具有代表性的两种模型训练后输出检验集部分效果图，分别检测了安全帽、口罩和手套设备。a部分是原始模型的检验效果，b部分是改进模型的检验效果。从图中可以看出在检测安全帽图像时原始模型没有检测到小目标的情况而改进模型可以将该小目标的安全帽检测到，小目标物检测效果明显。在口罩和手套的检测中，两种模型虽然都检测到目标物，但优化后的模型准确度更高，检测的效果更好。