CN117058517A - 一种基于YOLOv5优化模型的安全帽检测方法、装置和介质 - Google Patents

一种基于YOLOv5优化模型的安全帽检测方法、装置和介质 Download PDF

Info

Publication number
CN117058517A
CN117058517A CN202310953816.5A CN202310953816A CN117058517A CN 117058517 A CN117058517 A CN 117058517A CN 202310953816 A CN202310953816 A CN 202310953816A CN 117058517 A CN117058517 A CN 117058517A
Authority
CN
China
Prior art keywords
module
safety helmet
helmet detection
swint
yolov5
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310953816.5A
Other languages
English (en)
Inventor
林翔
方健
田妍
张敏
杨帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd filed Critical Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority to CN202310953816.5A priority Critical patent/CN117058517A/zh
Publication of CN117058517A publication Critical patent/CN117058517A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种基于YOLOv5优化模型的安全帽检测方法、装置和介质,其中,基于YOLOv5优化模型的安全帽检测方法包括:通过获取安全帽检测图像;将所述安全帽检测图像作为训练样本输入至YOLOv5优化模型中进行训练,得到安全帽检测模型;其中,所述YOLOv5的主干结构、颈部结构以及头部结构;所述主干结构包括多个CBS模块、多个SwinT模块,各所述SwinT模块用于将所述安全帽检测图像经过各CBS模块处理后输出的第二特征图进行层次化特征提取;将工作场景中采集的员工图像输入至所述安全帽检测模型,获得安全帽检测结果。解决了相关技术中现有YOLOv 5算法对小目标检测准确率不高的问题,提高了电力相关工作场景中检测员工是否佩戴安全帽的准确率。

Description

一种基于YOLOv5优化模型的安全帽检测方法、装置和介质
技术领域
本申请涉及目标检测领域,特别是涉及一种基于YOLOv5优化模型的安全帽检测方法、装置和介质。
背景技术
当前,随着社会的快速发展,对电力的需求日益迫切,与电力相关的工作越来越多。安全问题也应该成为一个更需要关注的焦点问题。安全帽作为人员头部的防护装备,也是电气工作中必不可少的安全防护装备。但由于车间摄像机通常放置在较高的位置,图像中工人的安全帽是一个相对较小的目标。此外,天气、光照、人员密度等工作环境的问题对所使用的目标检测算法提出了更高的要求。
小目标检测一直是计算机视觉目标检测领域的一个重点研究课题。目前存在的对象检测方法主要为两种类型:一种是基于回归的单阶段算法。另一种是基于候选区域的两阶段算法,相比一阶段算法具有更高的实时性,但精度略低。YOLO(You Only Look Once)是一种两阶段算法。YOLOv 5是YOLO系列中的优秀版本,由Ultralytics于2020年发布。与其他版本相比,它可以应用于更广泛的领域,并且更加灵活,但其对小目标的检测能力并不突出,准确率不高。
针对相关技术中,基于YOLOv 5算法对小目标检测准确率不高的问题,目前尚未提出有效的解决方案。
发明内容
基于此,有必要针对上述技术问题,提供一种基于YOLOv5优化模型的安全帽检测方法、装置和介质。
第一方面,本申请实施例提供了一种基于YOLOv5优化模型的安全帽检测方法,所述方法包括:
获取安全帽检测图像;
将所述安全帽检测图像作为训练样本输入至YOLOv5优化模型中进行训练,得到安全帽检测模型;其中,所述YOLOv5优化模型包括依次连接的主干结构、颈部结构以及头部结构;所述主干结构用于对所述安全帽检测图像进行特征提取以得到第一特征图,其中,所述主干结构包括多个CBS模块、多个SwinT模块,各所述SwinT模块用于将所述安全帽检测图像经过各所述CBS模块处理后输出的第二特征图进行层次化特征提取;所述颈部结构用于对所述第一特征图进行多尺度特征融合获得第三特征图,所述头部结构用于基于所述第三特征图进行预测以获得检测结果;
将工作场景中采集的员工图像输入至所述安全帽检测模型,获得安全帽检测结果。
在其中一个实施例中,各所述SwinT模块包括归一化层、基于窗口的多头自注意力层、基于移动窗口的多头自注意力层以及多层感知机;所述SwinT模块具体用于:
将所述安全帽检测图像经过CBS模块处理后输出的第二特征图经过所述归一化层、所述窗口的多头自注意力层、所述归一化层以及所述多层感知机以获得第四特征图;
将所述第四特征图经过所述归一化层、所述移动窗口的多头自注意力层、所述归一化层、所述多层感知机以获得第五特征图。
在其中一个实施例中,所述多个SwinT模块包括第一SwinT模块、第二SwinT模块、第三SwinT模块以及第四SwinT模块,所述主干结构还包括SE模块,所述SE模块连接在所述第三SwinT模块的输出端,所述SE模块具体用于:
将所述安全帽检测图像经过所述第三SwinT模块处理后输出的第六特征图进行全局平均池化操作,输出一维向量;
基于所述一维向量,通过由两个全连接层组成的激发层计算权重值;
将所述权重值乘以所述第六特征图的像素值,获得输出结果。
在其中一个实施例中,所述主干结构还包括卷积块注意力模块,所述卷积块注意力模块连接在所述第四SwinT模块的输出端,所述卷积块注意力模块包括空间注意模块和信道注意模块;所述信道关注模块用于自适应地校正所述安全帽检测图像经过所述第四SwinT模块处理后输出的第七特征图以产生第八特征图,所述空间关注模块用于校正所述第八特征图以输出第九特征图。
在其中一个实施例中,所述信道关注模块用于自适应地校正所述安全帽检测图像经过所述第四SwinT模块处理后输出的第七特征图以产生第八特征图,所述空间关注模块用于校正所述第八特征图以输出第九特征图的计算方式如下:
其中为进行卷积运算;Fmax C是信道最大池化特征图;MLP为多层感知机;MaxPool()是最大池化函数;FavgC是信道平均池化特征图;AvePool()是平均池化函数;/>是Sigmoid激活函数;f()是标准卷积层;WC和WS分别是信道注意权重和空间注意权重。
在其中一个实施例中,所述将所述安全帽检测图像作为训练样本输入至YOLOv5优化模型中进行训练,得到安全帽检测模型包括:
使用马赛克方法对所述安全帽检测图像进行数据增强处理;
将数据增强后的安全帽检测图像输入至YOLOv5优化模型中进行训练,得到安全帽检测模型。
在其中一个实施例中,所述将所述安全帽检测图像作为训练样本输入至YOLOv5优化模型中进行训练,得到安全帽检测模型包括:
将数据增强后的安全帽检测图像输入至YOLOv5优化模型中进行训练,获得训练结果;
基于所述训练结果对模型参数调整以进行迭代优化,得到安全帽检测模型。
第二方面,本申请实施例还提供了一种基于优化YOLOv5的安全帽检测装置,所述装置包括:
获取模块,用于获取安全帽检测图像;
训练模块,用于将所述安全帽检测图像作为训练样本输入至YOLOv5优化模型中进行训练,得到安全帽检测模型;其中,所述YOLOv5优化模型包括依次连接的主干结构、颈部结构以及头部结构;所述主干结构用于对所述安全帽检测图像进行特征提取以得到第一特征图,其中,所述主干结构包括多个CBS模块、多个SwinT模块,各所述SwinT模块用于将所述安全帽检测图像经过各所述CBS模块处理后输出的第二特征图进行层次化特征提取;所述颈部结构用于对所述第一特征图进行多尺度特征融合获得第三特征图,所述头部结构用于基于所述第三特征图进行预测以获得检测结果;
检测模块,用于将工作场景中采集的员工图像输入至所述安全帽检测模型,获得安全帽检测结果。
第三方面,本申请实施例还提供了一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行如上述第一方面所述的方法。
第四方面,本申请实施例还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现如上述第一方面所述的方法。
上述基于YOLOv5优化模型的安全帽检测方法、装置和介质,通过获取安全帽检测图像;将所述安全帽检测图像作为训练样本输入至YOLOv5优化模型中进行训练,得到安全帽检测模型;其中,所述YOLOv5优化模型包括依次连接的主干结构、颈部结构以及头部结构;所述主干结构用于对所述安全帽检测图像进行特征提取以得到第一特征图,其中,所述主干结构包括多个CBS模块、多个SwinT模块,各所述SwinT模块用于将所述安全帽检测图像经过各CBS模块处理后输出的第二特征图进行层次化特征提取;所述颈部结构用于对所述第一特征图进行多尺度特征融合获得第三特征图,所述头部结构用于基于所述第三特征图进行预测以获得检测结果;将工作场景中采集的员工图像输入至所述安全帽检测模型,获得安全帽检测结果。解决了相关技术中现有YOLOv 5算法对小目标检测准确率不高的问题,提高了电力相关工作场景中检测员工是否佩戴安全帽的准确率。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是一个实施例中基于YOLOv5优化模型的安全帽检测方法的应用环境示意图;
图2是一个实施例中基于YOLOv5优化模型的安全帽检测方法的流程示意图;
图3是一个实施例中现有的YOLOv5结构图;
图4是一个实施例中自我注意力的计算结构图;
图5是一个实施例中SwinT模块结构图;
图6是一个实施例中SE模块结构图;
图7是一个实施例中卷积块注意力模块结构图;
图8是一个优选实施例中优化YOLOv5结构示意图;
图9是一个实施例中安全帽检测的可视化结果的示意图;
图10是一个实施例中YOLOv5模型优化前后的P-R曲线示意图;
图11是一个实施例中基于YOLOv5优化模型的安全帽检测装置的结构框图;
图12是一个实施例中计算机设备结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
在本实施例中提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。比如在终端上运行,图1是本实施例的基于YOLOv5优化模型的安全帽检测方法的终端的硬件结构框图。如图1所示,终端可以包括一个或多个(图1中仅示出一个)处理器102和用于存储数据的存储器104,其中,处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置。上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限制。例如,终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示出的不同配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如在本实施例中的基于YOLOv5优化模型的安全帽检测方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络包括终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(NetworkInterfaceController,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(RadioFrequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
本申请实施例提供了一种基于YOLOv5优化模型的安全帽检测方法,如图2所示,所述方法包括以下步骤:
步骤S201,获取安全帽检测图像;
具体的,本实施例获取的安全帽检测图像为开源SHWD(安全帽佩戴数据集),SHWD包括7581张不同场景、天气、光照条件、人数和拍摄距离的图像,图像分为两类:帽子类别(人员佩戴安全帽)和人类别(人员不戴安全帽)。
实验中使用的软件和硬件环境是:操作系统为Windows11专业版,Pytorch版本为1.10,CPU(中央处理器)为Intel Core(R)I510400F,RAM(随机存取存储器)为32GB,GPU(中央处理器)为NVIDIA GeForce RTX 3060 12GB。
步骤S202,将所述安全帽检测图像作为训练样本输入至YOLOv5优化模型中进行训练,得到安全帽检测模型;其中,所述YOLOv5优化模型包括依次连接的主干结构、颈部结构以及头部结构;所述主干结构用于对所述安全帽检测图像进行特征提取以得到第一特征图,其中,所述主干结构包括多个CBS模块、多个SwinT模块,各所述SwinT模块用于将所述安全帽检测图像经过各所述CBS模块处理后输出的第二特征图进行层次化特征提取;所述颈部结构用于对所述第一特征图进行多尺度特征融合获得第三特征图,所述头部结构用于基于所述第三特征图进行预测以获得检测结果;
具体的,图3为现有的YOLOv5结构图,YOLOv5结构包括主干结构BackBone,颈部结构Neck以及头部结构Head。YOLOv5的BackBone部分包括CSP-Darknet 53(C3)模块,它使用CSP(Cross Stage Partial,跨阶段局部网络)方法进行了优化,并显著降低了计算成本。在CSP-Darknet 53之后,有一个SPPF(Spatial Pyramid Pooling-Fast,快速空间金字塔池化)模块。YOLOv5中的Neck部分是FPN(Feature Pyramid Networ,特征金字塔网络)和PAN(Path Aggregation Network,路径聚合网络)的组合,可以同时考虑大型和小型目标特征。Head部分是用于接收处理后的Neck结构特征,生成最终检测结果,并基于位置偏移量对候选框位置进行校正,以获得更准确的检测结果。图3中Input表示输入,□×□×□表示输入图片或特征图像素大小;CBS(Conv Batch normalization SiLU)模块是卷积加上批标准化和SiLU图像激活函数的一个组合;Bottleneck CSP(Cross Stage Partial)为脊柱部分跨局部阶段;UpSample是上采样层,是一种神经网络层,用于将输入的一个特征图变成一个更大的特征图;Concat为连接,用于将两个或多个张量在某个维度上进行拼接的操作,Conv为卷积层,用于特征提取。
本实施例在现有YOLOv5结构的基础上进行了改进。虽然现有YOLOv5结构中的主干结构的CSP Darknet53(C3)模块具有轻量级的结构和计算复杂度,但其对小目标的特征提取能力相对较弱。因此,本文减少C3模块的重用,将现有YOLOv5主干结构中的C3模块进行裁剪和改进,将C3模块全部替换为SwinT(Swin Transformer)模块。
本实施例基于Transformer应用于图像处理背景下提出了SwinT模块。Transformer自提出以来一直是自然语言处理(NLP)任务中的主导模型,它主要通过自注意机制建立像素之间的远程相关性,具有较强的上下文特征提取能力。可以通过学习输入中每个元素的自注意机制来获得三个矩阵Q、K和V,以确定每个元素的相对重要性。图4为自我注意力的计算结构图,其中,Q(Query)代表查询、K(Key)代表键、V(Value)代表值;DotProduct代表点乘,对Q、K进行点乘计算;Scale代表权重,用于将归一化注意力权重和上一级输入进行特征点乘计算;SoftMax是一种归一化指数函数,将输出分类结果转化成对应概率;MatMul是矩阵乘法函数,用于将上一级输入与V值进行张量矩阵相乘。与自然语言处理(NLP)不同,计算机视觉中的视觉元素在尺度上并不固定,一张图像包含的像素比一段文本多得多。因此,直接将Transformer应用于图像处理是相当具有挑战性的。
SwinT模块引入了卷积运算的分层和局部性质,在各种窗口区域中执行注意力计算,并且还在非重叠窗口中本地执行自注意力计算。这可以限制每个窗口中包含的补丁的数量,并显著降低计算复杂度。此外,SwinT模块从较小尺寸的浅块开始逐渐合并相邻块,最终获得分层特征图结构,这使得它更适合于小目标检测。
步骤S203,将工作场景中采集的员工图像输入至所述安全帽检测模型,获得安全帽检测结果。
上述步骤S201至步骤S203,通过获取安全帽检测图像;将所述安全帽检测图像作为训练样本输入至YOLOv5优化模型中进行训练,得到安全帽检测模型;其中,所述YOLOv5优化模型包括依次连接的主干结构、颈部结构以及头部结构;所述主干结构用于对所述安全帽检测图像进行特征提取以得到第一特征图,其中,所述主干结构包括多个CBS模块、多个SwinT模块,各所述SwinT模块用于将所述安全帽检测图像经过各CBS模块处理后输出的第二特征图进行层次化特征提取;所述颈部结构用于对所述第一特征图进行多尺度特征融合获得第三特征图,所述头部结构用于基于所述第三特征图进行预测以获得检测结果;将工作场景中采集的员工图像输入至所述安全帽检测模型,获得安全帽检测结果。解决了相关技术中现有YOLOv 5算法对小目标检测准确率不高的问题,提高了电力相关工作场景中检测员工是否佩戴安全帽的准确率。
在其中一个实施例中,各所述SwinT模块包括归一化层、基于窗口的多头自注意力层、基于移动窗口的多头自注意力层以及多层感知机;
图5展示了SwinT模块结构图,图5中LayerNorm是一种归一化层,对每一个样本的所有特征做归一化;W-MSA为基于窗口的多头自注意力层,SW-MSA为基于移位窗口的多头自注意力层;MLP是多层感知机;Zl-1表示第l-1个block(块)的MLP模块输出特征;和Zl分别表示第l个block(块)的W-MSA模块输出特征和MLP模块输出特征;/>和Zl+1分别表示第l+1个block(块)的SW-MSA模块输出特征和MLP模块输出特征。
本实施例中的所述SwinT模块具体用于:
将所述安全帽检测图像经过CBS模块处理后输出的第二特征图经过所述归一化层、所述窗口的多头自注意力层、所述归一化层以及所述多层感知机以获得第四特征图;
将所述第四特征图经过所述归一化层、所述移动窗口的多头自注意力层、所述归一化层、所述多层感知机以获得第五特征图。
在其中一个实施例中,所述多个SwinT模块包括第一SwinT模块、第二SwinT模块、第三SwinT模块以及第四SwinT模块,所述主干结构还包括SE模块,所述SE模块连接在所述第三SwinT模块的输出端。
图6展示了SE(Squeeze and Excitation)模块结构图,SE模块是一种主要由压缩和激励部分组成的特征重校准方法。SE模块的输入图像将首先通过由全局平均池化组成的挤压层,输出一维向量,然后通过由两个全连接层组成的激发层,计算权重值。将权值乘以输入特征图的像素值以获得输出。SE模块可以将较大的权重分配给输入特征图中的有效信息,同时将较小的权重分配给无效信息以增强表达能力。图6中Global Average Pool表示全局平均池化操作;FC(Full Connected layer)是全连接层,起到分类器的作用;ReLU和Sigmod均是激活函数;Scale表示通道权重相乘操作。
本实施例中的所述SE模块具体用于:
将所述安全帽检测图像经过所述第三SwinT模块处理后输出的第六特征图进行全局平均池化操作,输出一维向量;
基于所述一维向量,通过由两个全连接层组成的激发层计算权重值;
将所述权重值乘以所述第六特征图的像素值,获得输出结果。
在其中一个实施例中,所述主干结构还包括卷积块注意力模块,所述卷积块注意力模块连接在所述第四SwinT模块的输出端,所述卷积块注意力模块包括空间注意模块和信道注意模块;所述信道关注模块用于自适应地校正所述安全帽检测图像经过所述第四SwinT模块处理后输出的第七特征图以产生第八特征图,所述空间关注模块用于校正所述第八特征图以输出第九特征图。
图7为卷积块注意力(Convolutional Block Attention Module,CBAM)模块结构图,CBAM模块包含两个部分:(a)是空间注意模块(SAM),(b)是信道注意模块(CAM)。这两个部分被串行组合以在通道和空间维度上串行化注意特征图信息。当特征图F被输入到CBAM模块时,它将首先由信道关注模块自适应地校正以产生特征图F’,然后由空间关注模块校正以输出特征图F”。其中a图:Feature F’是信道注意模块产生的特征图;Channel-refined是信道修正,用于处理输入的特征图F’;[MaxPool,AvgPool]表示全局最大池化和全局平均池化,二者为串行方式;Conv Layer表示卷积层;Spatial Attention表示空间注意;Ms为最终生成的空间注意特征;b图:Input feature F表示输入的特征图;MaxPool和AvgPool分别表示全局最大池化和全局平均池化,二者为并行方式;Shared MLP是两层的多层感知机;Channel Attention表示信道注意;Mc为最终生成的信道注意特征。
在其中一个实施例中,所述信道关注模块用于自适应地校正所述安全帽检测图像经过所述第四SwinT模块处理后输出的第七特征图以产生第八特征图,所述空间关注模块用于校正所述第八特征图以输出第九特征图的计算方式如下:
其中为进行卷积运算;Fmax C是信道最大池化特征图;MLP为多层感知机;MaxPool()是最大池化函数;FavgC是信道平均池化特征图;AvePool()是平均池化函数;/>是Sigmoid激活函数;f()是标准卷积层;WC和WS分别是信道注意权重和空间注意权重。
在其中一个实施例中,所述将所述安全帽检测图像作为训练样本输入至YOLOv5优化模型中进行训练,得到安全帽检测模型包括:
使用马赛克方法对所述安全帽检测图像进行数据增强处理;
将数据增强后的安全帽检测图像输入至YOLOv5优化模型中进行训练,得到安全帽检测模型。
本实施例使用马赛克方法对所述安全帽检测图像进行数据增强处理,以丰富样本信息,可以增强网络的鲁棒性。
在其中一个实施例中,所述将所述安全帽检测图像作为训练样本输入至YOLOv5优化模型中进行训练,得到安全帽检测模型包括:
将数据增强后的安全帽检测图像输入至YOLOv5优化模型中进行训练,获得训练结果;
基于所述训练结果对模型参数调整以进行迭代优化,得到安全帽检测模型。
下面通过优选实施例对本实施例进行描述和说明,在该实施例中,对现有YOLOv5主干结构中的C3模块进行裁剪和改进,将C3模块全部替换为SwinT模块。为了进一步增强其特征提取能力,在第三SwinT模块之后增加SE模块。在第四SwinT模块之后添加CBAM模块,进一步提高整个网络的识别精度,生成最终优化YOLOv5结构。最终优化YOLOv5结构如图8所示,表1展示了优化YOLOv5的主链结构。
表1
表1中From=-1表示当前模块同前一个模块相连;N表示当前此模块重复的数量;Module表示模块的名称。
本实施例模型参数设置为:初始学习率为0.01,动量设置为0.937,学习率减少为0.0005,epoch为100,批次大小为8。并建立评价标准来评估本实施例提出的优化前后YOLOv5优化模型的性能,使用IoU(Intersection over Union,交并比)阈值为0.5时的平均准确度(mAP);IoU是一种机器学习中评估模型性能的一种指标。mAP值越大,模型检测的准确性越高。mAP的计算过程如下:
其中,C为分类数量;Prec是正确检测安全帽的概率,也是准确率;Rrec是正确识别的概率,也是召回率。准确率和召回率的公式如下:
其中,TP表示正确预测的样本的数量;FP表示预测戴安全帽但未戴安全帽的样本数;FN表示预测佩戴安全帽的样本数。
本发明与现有YOLOv5在相同的条件下训练作为比较,并比较两种结构的检测结果。本实施例的安全帽检测的可视化结果如图9所示,其中,hat[]表示识别佩戴安全帽的概率;person[]表示识别未佩戴安全帽的概率;概率值从低到高为0-1。与现有YOLOv5模型相比,本发明的改进方法在大多数情况下具有更高的置信度和更低的错误检测率。P-R曲线是评价目标检测模型的重要手段之一。准确率越高,召回率越低。因此,当P-R曲线越靠近右侧,准确率和召回率相对越高,模型的检测效果越好。优化前后的YOLOv5模型的P-R曲线分别如图10中(a)与(b)所示。可以看出,本实施例提出的方法更接近安全帽样本P-R曲线的右上角,其检测效果优于现有YOLOv5模型。图10中all classed[]mAP@0.5表示在使用IoU阈值为0.5时的平均准确度下全类型识别概率;横坐标为召回率,纵坐标为准确率;概率值从低到高为0-1。表2展示了现有YOLOv5结构与优化YOLOv5结构检测结果的比较结果。
表2
表2中P表示正确检测概率;mAP50表示在IoU阈值为0.5时的平均准确度mAP;mAP50-95表示在IoU阈值为0.5-0.95时的平均准确度mAP;从表2中可以看出与现有YOLOv5模型相比,本实施列的YOLOv5优化模型将准确率精度值提高了1.1%,mAP 50值提高了3.0%,mAP 50 -95值提高了4.3%。这可以表明,所提出的方法可以实现更好的安全帽检测结果。
为了考察算法中各模块对实验结果的影响,设计了三组对比方案(A、B、C)进行消融实验。结果示于表3中,其中1表示在实验中使用模块,0表示在实验中不存在相应的模块。三个指标P、mAP 50和mAP 50 -95也用于消融实验中的比较。
表3
从表3中可以看出,与现有YOLOv5相比,只需在Backbone中增加SwinT模块或在Backbone中增加SE模块和CBAM模块,就可以提高安全帽的检测精度。当两者同时进行时,效果最好,可以证明本发明提出的方法的有效性。
第二方面,本申请实施例还提供了一种基于优化YOLOv5的安全帽检测装置,如图11所示,所述装置包括:
获取模块110,用于获取安全帽检测图像;
训练模块120,用于将所述安全帽检测图像作为训练样本输入至YOLOv5优化模型中进行训练,得到安全帽检测模型;其中,所述YOLOv5优化模型包括依次连接的主干结构、颈部结构以及头部结构;所述主干结构用于对所述安全帽检测图像进行特征提取以得到第一特征图,其中,所述主干结构包括多个CBS模块、多个SwinT模块,各所述SwinT模块用于将所述安全帽检测图像经过各所述CBS模块处理后输出的第二特征图进行层次化特征提取;所述颈部结构用于对所述第一特征图进行多尺度特征融合获得第三特征图,所述头部结构用于基于所述第三特征图进行预测以获得检测结果;
检测模块130,用于将工作场景中采集的员工图像输入至所述安全帽检测模型,获得安全帽检测结果。
在一个实施例中,各所述SwinT模块包括归一化层、基于窗口的多头自注意力层、基于移动窗口的多头自注意力层以及多层感知机;所述SwinT模块具体用于:
将所述安全帽检测图像经过CBS模块处理后输出的第二特征图经过所述归一化层、所述窗口的多头自注意力层、所述归一化层以及所述多层感知机以获得第四特征图;
将所述第四特征图经过所述归一化层、所述移动窗口的多头自注意力层、所述归一化层、所述多层感知机以获得第五特征图。
在其中一个实施例中,所述多个SwinT模块包括第一SwinT模块、第二SwinT模块、第三SwinT模块以及第四SwinT模块,所述主干结构还包括SE模块,所述SE模块连接在所述第三SwinT模块的输出端,所述SE模块具体用于:
将所述安全帽检测图像经过所述第三SwinT模块处理后输出的第六特征图进行全局平均池化操作,输出一维向量;
基于所述一维向量,通过由两个全连接层组成的激发层计算权重值;
将所述权重值乘以所述第六特征图的像素值,获得输出结果。
在一个实施例中,所述主干结构还包括卷积块注意力模块,所述卷积块注意力模块连接在所述第四SwinT模块的输出端,所述卷积块注意力模块包括空间注意模块和信道注意模块;所述信道关注模块用于自适应地校正所述安全帽检测图像经过所述第四SwinT模块处理后输出的第七特征图以产生第八特征图,所述空间关注模块用于校正所述第八特征图以输出第九特征图。
在一个实施例中,所述信道关注模块用于自适应地校正所述安全帽检测图像经过所述第四SwinT模块处理后输出的第七特征图以产生第八特征图,所述空间关注模块用于校正所述第八特征图以输出第九特征图的计算方式如下:
其中为进行卷积运算;Fmax C是信道最大池化特征图;MLP为多层感知机;MaxPool()是最大池化函数;FavgC是信道平均池化特征图;AvePool()是平均池化函数;/>是Sigmoid激活函数;f()是标准卷积层;WC和WS分别是信道注意权重和空间注意权重。
在一个实施例中,训练模块120还用于:
使用马赛克方法对所述安全帽检测图像进行数据增强处理;
将数据增强后的安全帽检测图像输入至YOLOv5优化模型中进行训练,得到安全帽检测模型。
在一个实施例中,训练模块120还用于:
将数据增强后的安全帽检测图像输入至YOLOv5优化模型中进行训练,获得训练结果;
基于所述训练结果对模型参数调整以进行迭代优化,得到安全帽检测模型。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时已实现一种基于YOLOv5优化模型的安全帽检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一项基于YOLOv5优化模型的安全帽检测方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于YOLOv5优化模型的安全帽检测方法,其特征在于,所述方法包括:
获取安全帽检测图像;
将所述安全帽检测图像作为训练样本输入至YOLOv5优化模型中进行训练,得到安全帽检测模型;其中,所述YOLOv5优化模型包括依次连接的主干结构、颈部结构以及头部结构;所述主干结构用于对所述安全帽检测图像进行特征提取以得到第一特征图,其中,所述主干结构包括多个CBS模块、多个SwinT模块,各所述SwinT模块用于将所述安全帽检测图像经过各所述CBS模块处理后输出的第二特征图进行层次化特征提取;所述颈部结构用于对所述第一特征图进行多尺度特征融合获得第三特征图,所述头部结构用于基于所述第三特征图进行预测以获得检测结果;
将工作场景中采集的员工图像输入至所述安全帽检测模型,获得安全帽检测结果。
2.根据权利要求1所述的方法,其特征在于,各所述SwinT模块包括归一化层、基于窗口的多头自注意力层、基于移动窗口的多头自注意力层以及多层感知机;所述SwinT模块具体用于:
将所述安全帽检测图像经过CBS模块处理后输出的第二特征图经过所述归一化层、所述窗口的多头自注意力层、所述归一化层以及所述多层感知机以获得第四特征图;
将所述第四特征图经过所述归一化层、所述移动窗口的多头自注意力层、所述归一化层、所述多层感知机以获得第五特征图。
3.根据权利要求1所述的方法,其特征在于,所述多个SwinT模块包括第一SwinT模块、第二SwinT模块、第三SwinT模块以及第四SwinT模块,所述主干结构还包括SE模块,所述SE模块连接在所述第三SwinT模块的输出端,所述SE模块具体用于:
将所述安全帽检测图像经过所述第三SwinT模块处理后输出的第六特征图进行全局平均池化操作,输出一维向量;
基于所述一维向量,通过由两个全连接层组成的激发层计算权重值;
将所述权重值乘以所述第六特征图的像素值,获得输出结果。
4.根据权利要求3所述的方法,其特征在于,所述主干结构还包括卷积块注意力模块,所述卷积块注意力模块连接在所述第四SwinT模块的输出端,所述卷积块注意力模块包括空间注意模块和信道注意模块;所述信道关注模块用于自适应地校正所述安全帽检测图像经过所述第四SwinT模块处理后输出的第七特征图以产生第八特征图,所述空间关注模块用于校正所述第八特征图以输出第九特征图。
5.根据权利要求4所述的方法,其特征在于,所述信道关注模块用于自适应地校正所述安全帽检测图像经过所述第四SwinT模块处理后输出的第七特征图以产生第八特征图,所述空间关注模块用于校正所述第八特征图以输出第九特征图的计算方式如下:
其中为进行卷积运算;Fmax C是信道最大池化特征图;MLP为多层感知机;MaxPool()是最大池化函数;FavgC是信道平均池化特征图;AvePool()是平均池化函数;/>是Sigmoid激活函数;f()是标准卷积层;WC和WS分别是信道注意权重和空间注意权重。
6.根据权利要求1所述的方法,其特征在于,所述将所述安全帽检测图像作为训练样本输入至YOLOv5优化模型中进行训练,得到安全帽检测模型包括:
使用马赛克方法对所述安全帽检测图像进行数据增强处理;
将数据增强后的安全帽检测图像输入至YOLOv5优化模型中进行训练,得到安全帽检测模型。
7.根据权利要求6所述的方法,其特征在于,所述将所述安全帽检测图像作为训练样本输入至YOLOv5优化模型中进行训练,得到安全帽检测模型包括:
将数据增强后的安全帽检测图像输入至YOLOv5优化模型中进行训练,获得训练结果;
基于所述训练结果对模型参数调整以进行迭代优化,得到安全帽检测模型。
8.一种基于优化YOLOv5的安全帽检测装置,其特征在于,所述装置包括:
获取模块,用于获取安全帽检测图像;
训练模块,用于将所述安全帽检测图像作为训练样本输入至YOLOv5优化模型中进行训练,得到安全帽检测模型;其中,所述YOLOv5优化模型包括依次连接的主干结构、颈部结构以及头部结构;所述主干结构用于对所述安全帽检测图像进行特征提取以得到第一特征图,其中,所述主干结构包括多个CBS模块、多个SwinT模块,各所述SwinT模块用于将所述安全帽检测图像经过各所述CBS模块处理后输出的第二特征图进行层次化特征提取;所述颈部结构用于对所述第一特征图进行多尺度特征融合获得第三特征图,所述头部结构用于基于所述第三特征图进行预测以获得检测结果;
检测模块,用于将工作场景中采集的员工图像输入至所述安全帽检测模型,获得安全帽检测结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至权利要求7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至权利要求7中任一项所述的方法。
CN202310953816.5A 2023-07-31 2023-07-31 一种基于YOLOv5优化模型的安全帽检测方法、装置和介质 Pending CN117058517A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310953816.5A CN117058517A (zh) 2023-07-31 2023-07-31 一种基于YOLOv5优化模型的安全帽检测方法、装置和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310953816.5A CN117058517A (zh) 2023-07-31 2023-07-31 一种基于YOLOv5优化模型的安全帽检测方法、装置和介质

Publications (1)

Publication Number Publication Date
CN117058517A true CN117058517A (zh) 2023-11-14

Family

ID=88665492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310953816.5A Pending CN117058517A (zh) 2023-07-31 2023-07-31 一种基于YOLOv5优化模型的安全帽检测方法、装置和介质

Country Status (1)

Country Link
CN (1) CN117058517A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117291845A (zh) * 2023-11-27 2023-12-26 成都理工大学 一种点云地面滤波方法、系统、电子设备及存储介质
CN117670755A (zh) * 2024-01-31 2024-03-08 四川泓宝润业工程技术有限公司 一种吊钩防脱装置检测方法、装置、存储介质及电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117291845A (zh) * 2023-11-27 2023-12-26 成都理工大学 一种点云地面滤波方法、系统、电子设备及存储介质
CN117291845B (zh) * 2023-11-27 2024-03-19 成都理工大学 一种点云地面滤波方法、系统、电子设备及存储介质
CN117670755A (zh) * 2024-01-31 2024-03-08 四川泓宝润业工程技术有限公司 一种吊钩防脱装置检测方法、装置、存储介质及电子设备
CN117670755B (zh) * 2024-01-31 2024-04-26 四川泓宝润业工程技术有限公司 一种吊钩防脱装置检测方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN110532920B (zh) 基于FaceNet方法的小数量数据集人脸识别方法
WO2021022521A1 (zh) 数据处理的方法、训练神经网络模型的方法及设备
CN117058517A (zh) 一种基于YOLOv5优化模型的安全帽检测方法、装置和介质
CN110414344B (zh) 一种基于视频的人物分类方法、智能终端及存储介质
US20220148291A1 (en) Image classification method and apparatus, and image classification model training method and apparatus
CN114359974B (zh) 一种人体姿态的检测方法、设备及存储介质
CN110222718B (zh) 图像处理的方法及装置
CN113326930A (zh) 数据处理方法、神经网络的训练方法及相关装置、设备
US20220270366A1 (en) Bidirectional pairing architecture for object detection in video
CN114332994A (zh) 训练年龄预测模型的方法、年龄检测方法及相关装置
CN114969417B (zh) 图像重排序方法、相关设备及计算机可读存储介质
CN115223239B (zh) 一种手势识别方法、系统、计算机设备以及可读存储介质
CN112308802A (zh) 一种基于大数据的图像分析方法及系统
CN111507285A (zh) 人脸属性识别方法、装置、计算机设备和存储介质
CN111340213B (zh) 神经网络的训练方法、电子设备、存储介质
CN114842238A (zh) 一种嵌入式乳腺超声影像的识别方法
CN116935188B (zh) 模型训练方法、图像识别方法、装置、设备及介质
CN113780145A (zh) 精子形态检测方法、装置、计算机设备和存储介质
CN111582057B (zh) 一种基于局部感受野的人脸验证方法
CN110750673B (zh) 图像处理方法、装置、设备及存储介质
CN111126049A (zh) 对象关系预测方法、装置、终端设备及可读存储介质
CN116434010A (zh) 一种多视图的行人属性识别方法
CN117036658A (zh) 一种图像处理方法及相关设备
CN115424293A (zh) 活体检测方法、活体检测模型的训练方法及装置
CN116110118A (zh) 一种基于时空特征互补融合的行人重识别和步态识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination