CN116580357A - 工人安全头盔实时检测方法、系统、设备及存储介质 - Google Patents

工人安全头盔实时检测方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN116580357A
CN116580357A CN202310540362.9A CN202310540362A CN116580357A CN 116580357 A CN116580357 A CN 116580357A CN 202310540362 A CN202310540362 A CN 202310540362A CN 116580357 A CN116580357 A CN 116580357A
Authority
CN
China
Prior art keywords
layer
network
convolution
helmet
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310540362.9A
Other languages
English (en)
Inventor
吴晓明
裴加彬
刘祥志
邱文科
尹训嘉
刘琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Shanke Intelligent Technology Co ltd
Qilu University of Technology
Shandong Computer Science Center National Super Computing Center in Jinan
Original Assignee
Shandong Shanke Intelligent Technology Co ltd
Qilu University of Technology
Shandong Computer Science Center National Super Computing Center in Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Shanke Intelligent Technology Co ltd, Qilu University of Technology, Shandong Computer Science Center National Super Computing Center in Jinan filed Critical Shandong Shanke Intelligent Technology Co ltd
Priority to CN202310540362.9A priority Critical patent/CN116580357A/zh
Publication of CN116580357A publication Critical patent/CN116580357A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • G06Q50/265Personal security, identity or safety
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Security & Cryptography (AREA)
  • Medical Informatics (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了工人安全头盔实时检测方法、系统、设备及存储介质,所述方法,包括:获取待处理的图像;将待处理的图像输入到训练后的头盔检测网络中,输出头盔佩戴检测结果;其中,所述头盔检测网络,包括:依次连接的骨干网络、颈部网络和解耦头;所述骨干网络,用于对输入的图像进行特征提取;所述颈部网络,用于对提取的特征进行特征增强处理;所述解耦头对增强的特征进行分类得到工人是否佩戴头盔的检测结果。提高了模型对于小目标的检测能力。

Description

工人安全头盔实时检测方法、系统、设备及存储介质
技术领域
本发明涉及计算机视觉目标检测技术领域,特别是涉及工人安全头盔实时检测方法、系统、设备及存储介质。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
安全头盔是一种安全防护用品,主要保护头部,可以有效防止因意外情况对施工人员造成的伤害。每年因工地事故死亡的人数都会占非自然死亡人数的一部分,这就意味着,工地安全形势依旧非常严峻。正确佩戴安全头盔,与减少建筑工地伤亡人数存在直接的关系。由于施工人员的安全防护意识薄弱,佩戴安全头盔的重要性往往被忽视。复杂的施工环境和施工人员的不安全行为容易引发安全事故,威胁施工人员的生命安全。为了监控和纠正不安全行为,确保建筑工人的安全,有必要对建筑工人是否戴安全头盔进行实时检测。
2013年,Kelm等人设计了一个移动射频识别(RFID)门户,以检查建筑工人佩戴安全防护设备的合规性。然而,射频识别检测器的识别区域是有限的。仅将头盔靠近工人,但无法确认头盔是否佩戴正确。2019年,王荣鑫等人使用YOLOv3检测给定图像中未戴安全头盔的头部,但还有其他一些检测被遗漏了,例如一些密集目标和小目标。2022年,王立军等人基于YOLOv5模型,在主干网络中,使用可变形卷积网络代替传统的卷积;在颈部,引入卷积块注意模块,并将原网络的GIoU替换为DIoU。但模型只针对安全帽检测,没有考虑佩戴其他头饰对检测的影响。
传统的安全头盔检测模型,检测精度低,极易受环境外界影响。在复杂的施工环境中,安全头盔则充当小目标和密集目标的角色,同时易被遮挡和被其他头饰干扰检测。在实际应用中原YOLOv5模型在对于该类目标的检测上仍有着一定的欠缺,给检测带来了巨大的挑战。先前研究大多数数据集都是私下收集的,缺乏多样性,因此对模型性能进行全面分析时,仍具有可考察性。同时并没有评估模型在施工人员佩戴其他头饰方面进行干扰时的表现。
发明内容
为了解决现有技术的不足,本发明提供了工人安全头盔实时检测方法、系统、设备及存储介质;提高了模型对于小目标的检测能力。
第一方面,本发明提供了工人安全头盔实时检测方法;
工人安全头盔实时检测方法,包括:
获取待处理的图像;
将待处理的图像输入到训练后的头盔检测网络中,输出头盔佩戴检测结果;
其中,所述头盔检测网络,包括:依次连接的骨干网络、颈部网络和解耦头;所述骨干网络,用于对输入的图像进行特征提取;所述颈部网络,用于对提取的特征进行特征增强处理;所述解耦头对增强的特征进行分类得到工人是否佩戴头盔的检测结果。
第二方面,本发明提供了工人安全头盔实时检测系统;
工人安全头盔实时检测系统,包括:
获取模块,其被配置为:获取待处理的图像;
处理模块,其被配置为:将待处理的图像输入到训练后的头盔检测网络中,输出头盔佩戴检测结果;其中,所述头盔检测网络,包括:依次连接的骨干网络、颈部网络和解耦头;所述骨干网络,用于对输入的图像进行特征提取;所述颈部网络,用于对提取的特征进行特征增强处理;所述解耦头对增强的特征进行分类得到工人是否佩戴头盔的检测结果。
第三方面,本发明还提供了一种电子设备,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述第一方面所述的方法。
第四方面,本发明还提供了一种存储介质,非暂时性地存储计算机可读指令,其中,当非暂时性计算机可读指令由计算机执行时,执行第一方面所述方法的指令。
第五方面,本发明还提供了一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。
与现有技术相比,本发明的有益效果是:
1.本发明以YOLOv5为基本框架,添加空间到深度卷积模块(SPD-Conv),以提高对低分辨率和小目标的检测精度;
2.其次在Backbone网络中添加全局注意力机制(Global Attention Mechanism),来减少信息丢失,增强Backbone网络捕获全局信息的能力,提高模型性能;
3.最后,将YOLOv5的非解耦头(Coupled Head)更换为解耦头(Decoupled Head),将分类任务与回归任务分离,以实现更好的分类与预测框的回归,加速模型收敛。
4.与现有的目标检测模型相比,本发明最后训练出来的模型能够很好地排除其他干扰情况(例如佩戴其他头饰等)对安全头盔检测的影响,提高了模型的鲁棒性。在性能方面,提升了模型对密集目标和小目标的检测能力。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为实施例一的PAN+FPN结构;
图2(a)-图2(d)为实施例一的改进后的YOLOv5网络结构;
图3为实施例一的SPD-Conv模块;
图4为实施例一的GAM模块;
图5为实施例一的解耦头(Decoupled head)结构;
图6(a)-图6(c)为实施例一的密集目标检测效果分析;
图6(d)-图6(f)为实施例一的小目标检测效果分析;
图6(g)-图6(i)为实施例一的手持安全头盔干扰检测效果分析;
图7为实施例一的训练得到的PR曲线。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
本实施例提供了工人安全头盔实时检测方法;
工人安全头盔实时检测方法,包括:
S101:获取待处理的图像;
S102:将待处理的图像输入到训练后的头盔检测网络中,输出头盔佩戴检测结果;
其中,所述头盔检测网络,包括:依次连接的骨干网络、颈部网络和解耦头;所述骨干网络,用于对输入的图像进行特征提取;所述颈部网络,用于对提取的特征进行特征增强处理;所述解耦头对增强的特征进行分类得到工人是否佩戴头盔的检测结果。
进一步地,所述骨干网络,是对YOLOv5s的Backbone网络添加SPD-Conv模块和全局注意力机制模块(GAM,Global Attention Mechanism)。
进一步地,如图2(a)所示,所述骨干网络,具体包括:
依次连接的Focus层、CBL1层、SPD-Conv1层、CSP1层、CBL2层、SPD-Conv2层、CSP2层、CBL3层、SPD-Conv3层、CSP3层、CBL4层、SPD-Conv4层、GAM层和SPPF层。
进一步地,所述骨干网络,工作原理包括:将输入图像首先进行重新缩放到统一大小,经过Focus层,将输入特征图中的信息进行压缩和组合,从而提取出更高层次的特征表示;
然后经过CBL1层的卷积操作提取局部空间信息,并通过经过CBL1层的BN层规范化特征值分布,最后通过经过CBL1层的激活函数引入非线性变换能力,从而实现对输入特征的转换和提取;
将来自CBL1层的特征图送入SPD-Conv1层保留所有的判别特征信息;CSP1层将来自SPD-Conv1层的特征图通过CSP1层的Bottleneck,增加网络的深度和感受野,提高特征提取的能力;
通过GAM层使网络关注物体的全局信息,从而提高特征提取的效果;
最后通过SPPF层,指定一个卷积核,将每次池化后的输出作为下一个池化的输入,不仅加快特征提取的速度,还增强特征图特征表达能力。
应理解地,所述骨干网络,对输入图像进行特征提取。将原始的输入图像转化为多层特征图,以便后续的目标检测任务使用。能够在保证较高检测精度的同时,尽可能地减少计算量和内存占用。CBL1层,与CBL2层、CBL3层、CBL4层原理一致,它主要由卷积层、BN层和激活函数组成。SPD-Conv1层,与SPD-Conv2层、SPD-Conv3层、SPD-Conv4层原理一致,尽可能地保留所有的判别特征信息。CSP1层,与CSP2、CSP3原理一致。骨干网络得到的不同尺度特征图与颈部网络进行融合,提高模型多尺度的检测能力。
进一步地,所述GAM层,工作原理包括:
在通道注意力中,对于输入特征图,首先进行维度转换,经过维度转换的特征图输入到MLP,再转换为原来的维度,进行Sigmoid函数处理输出;
在空间注意力中,通过卷积核为7×7的卷积缩减通道数量,缩小计算量,再经过一个卷积核为7×7的卷积操作,增加通道数量,保持通道数量的一致;最后经过Sigmoid函数输出。
进一步地,所述GAM层将通道注意力与空间注意力相结合,保留信息以放大“全局”跨维度的交互作用,通过减少信息的损失和提高全局特征的交互,提高深度神经网络的性能。
进一步地,所述SPD-Conv1层,工作原理包括:
按照设定的比例因子对来自上一层输出的特征图进行下采样,沿着通道维度进行合并,以避免丢失可学习的特征信息;然后,通过步长为1的卷积,降低通道维度,减少计算量,保留所有的判别特征信息。
应理解地,池化操作和跨步卷积会导致细粒度信息的丢失和较低效的特征表示的学习,特别是在处理低分辨率图像和小物体等更困难的任务时。
进一步地,所述SPD-Conv1层、SPD-Conv2层、SPD-Conv3层和SPD-Conv4层内部结构是一致的,所述SPD-Conv1层,包括:依次连接的Space-to-Depth层和非跨步卷积层。
进一步地,如图2(b)所示,所述Focus层,包括:
Focus层输入端,所述Focus层输入端分别与四个slice层的输入端连接,四个slice层的输出端与乘法器X1的输入端连接,乘法器X1的输出端与卷积层J1的输入端连接,卷积层J1的输出端与批标准化层BN1的输入端连接,批标准化层BN1的输出端与激活函数层SiLU1的输入端连接,激活函数层SiLU的输出端与Focus层输出端连接。
进一步地,所述GAM层,将通道注意力机制与空间注意力结合,以实现对检测目标和检测目标位置的关注。
进一步地,如图2(c)所示,所述SPPF层,包括:
依次连接的卷积层J2、批标准化层BN2、激活函数层SiLU2、最大池化层Z1、乘法器X2、卷积层J3、批标准化层BN3和激活函数层SiLU3;
最大池化层Z1的输出端与最大池化层Z2的输入端连接,最大池化层Z2的输出端与最大池化层Z3的输入端连接,最大池化层Z2的输出端与乘法器X2的输入端连接,最大池化层Z3的输出端与乘法器X2的输入端连接;
激活函数层SiLU2的输出端与乘法器X2的输入端连接。
进一步地,如图1所示,所述颈部网络,采用自顶向下的特征金字塔PAN和自底向上的特征金字塔FPN双塔结构。
进一步地,如图2(a)所示,所述颈部网络,包括:
依次连接的*CSP1层、CBL5层、第一上采样层、*CSP2层、CBL6层、第二上采样层、*CSP3层、CBL7层、*CSP4层、CBL8层和*CSP5层。
进一步地,所述颈部网络,工作原理包括:对特征图进行多尺度特征融合,并把融合特征传递给预测层。
由于物体在图像中的大小和位置是不确定的,因此需要一种机制来处理不同尺度和大小的目标。通过上采样和下采样操作将不同层次的特征图融合在一起,生成多尺度的特征金字塔。
自顶向下部分,是通过上采样和与更粗粒度的特征图融合来实现不同层次特征的融合,而自下向上则是通过使用一个卷积层来融合来自不同层次的特征图。
骨干网络上采用的FPN结构获得的不同尺度的特征图,颈部网络使用PAN将不同层级的特征图结合起来,生成具有多尺度信息的特征图,以提高目标检测的准确率。
进一步地,所述解耦头,采用解耦头Decoupled Head来实现。
进一步地,所述SPD-Conv2层的输出端与*CSP3层的输入端连接;
所述SPD-Conv3层的输出端与*CSP2层的输入端连接;
SPPF层的输出端与*CSP1层的输入端连接;
CBL5层的输出端与*CSP5层的输入端连接;
CBL6层的输出端与*CSP4层的输入端连接;
*CSP3层的输出端与解耦头Decoupled Head的输入端连接;
*CSP4层的输出端与解耦头Decoupled Head的输入端连接。
进一步地,如图2(c)所示,CSP1层、CSP2层和CSP3层内部结构是一致的。
所述CSP1层,包括:依次连接的CBL9层、Bottleneck层、卷积层J4、乘法器X3、批标准化层BN4、激活函数层ReLU、CBL10层;CBL9层的输入端通过卷积层J5与乘法器X3的输入端连接。
进一步地,如图2(d)所示,所述Bottleneck层包括:依次连接的CBL11层、CBL12层。
CBL1层、CBL2层、CBL3层、CBL4层、CBL5层、CBL6层、CBL7层、CBL8层、CBL9层、CBL10层、CBL11层、CBL12层的内部结构是一致的。
所述CBL1层,包括:依次连接的卷积层J5、批标准化层BN5、激活函数层ReLU。
进一步地,所述*CSP1层、*CSP2层、*CSP3层和*CSP4层的内部结构是一样的,所述*CSP1层,与CSP1层内部结构一致,不同点在于CSP1结构中在Bottleneck模块里添加了shortcuts连接,而*CSP1在Bottleneck模块里没有添加shortcuts连接。
进一步地,如图5所示,所述解耦头Decoupled Head,结构包括:
卷积层J6,所述卷积层J6的输入端为解耦头Decoupled Head的输入端;
所述卷积层J6的输出端分别与分类分支和回归分支连接;
所述分类分支包括依次连接的卷积层J7、卷积层J8和卷积层J9;
所述回归分支包括依次连接的卷积层J10、卷积层J11和卷积层J12;
卷积层J11的输出端还与卷积层J13的输入端连接;
卷积层J9用于输出是否佩戴头盔的分类结果;
卷积层J12与卷积层J13输出头盔的边界框。
进一步地,所述解耦头Decoupled Head,工作原理包括:
解耦头Decoupled Head中,将分类和回归任务分开来预测,不共享前一层参数,加快模型收敛速度和提高检测精度。
在非解耦Coupled Head中,分类和回归两个任务的Head共享前一层的参数,所以两个任务其实是有冲突的。
进一步地,所述训练后的头盔检测网络,训练过程包括:
构建训练集和测试集,所述训练集和测试集包括已知是否佩戴头盔分类标签的图像;
对训练集和测试集进行数据扩充处理;
将训练集输入到头盔检测网络中,对其进行训练,当网络的损失函数值不再下降时,停止训练得到初步头盔检测网络;
将测试集输入到初步头盔检测网络,对其进行测试,当测试指标均满足设定要求时,停止测试,初步头盔检测网络为最终头盔检测网络,当测试指标均不满足设定要求时,更换训练集,继续训练。
所述测试指标,包括:精度P、召回率R和每秒传输帧数FPS。
应理解地,对训练集和测试集进行数据扩充处理,对已有的公共数据集进行数据扩充,增强数据集中数据的多样性。
YOLOv5算法共有4种网络结构,分别是YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x,这四种网络结构在宽度和深度上不同,原理上基本一样,最快和最小的型号是YOLOv5s,参数为7.0M,重量为13.7M。本发明以YOLOv5s为主进行改进,主要是因为其具有较少的参数量和更快的速度,便于工业部署和摄像头实时检测。YOLOv5s的网络结构主要分为四个部分Input、Backbone、Neck和Prediction。
在数据预处理方面,YOLOv5沿用了YOLOv4提出的马赛克图像在线增强方式,目的是增加单个批量中小目标的数量,提升网络对小目标的识别能力。
在Backbone网络结构中,采用了Focus,SPPF和CSPNet结构。Focus是一种切片操作,以YOLOv5s为例,原始的640×640×3的图像输入Focus结构,采用切片操作,先变成320×320×12的特征图,通道数变成原来的四倍,再经过一次卷积操作,最终变成320×320×32的特征图。SPPF是基于SPP提出的,具有比SPP更快的速度,它指定一个卷积核,每次池化后的输出会成为下一个池化的输入。YOLOv5在骨干网和颈部网模型中都使用CSPNet残差结构,将基础层的特征映射分为两部分,然后将它们组合成跨阶段层次结构,在保证特征信息完整性的同时减少了计算工作量。
在Neck结构中,采用了自顶向下的PAN和自底向上的FPN双塔结构,如图1所示。对于浅层的特征图,含有较多的位置信息,较少的语义信息,但随着神经网络层数的不断增加,对于深层的特征图,含有较多的语义信息,但一些位置信息会丢失。FPN是自顶向下的,将强语义特征通过上采样从顶部特征图传递到底部特征图。同时,PAN通过下采样把浅层的定位信息传导到深层,增强多个尺度上的定位能力,这两种结构共同增强了颈部网络模型部分的特征融合能力。
在进行目标检测时,拍摄场景的远近和复杂的施工环境产生了大量的小目标和低分辨率目标、遮挡目标、密集目标以及干扰目标。然而,在实际应用中原YOLOv5模型在对于该类目标的检测上仍有着一定的欠缺。本发明对YOLOv5s模型进行改进。改进后的网络结构如图2(a)所示。首先,由于卷积神经网络(CNN)使用跨步卷积或者池化操作,会造成一定的特征丢失,特别是对于低分辨率和小目标物体的图像特征提取时。面对如何尽可能地保留待检测目标的特征信息和如何提高YOLOv5s的backbone网络捕获全局信息的能力的问题,本发明将SPD-Conv模块和GAM模块嵌入到YOLOv5s的backbone网络中。然后,由于在目标检测中,分类和定位两个任务所感兴趣的地方是不同的。为了缓解YOLOv5的head中因分类和定位所关注的内容不一致而导致的空间错位的问题,本发明将YOLOv5s的非解耦头(coupled head)替换为解耦头(decoupled head)。
为了提高在复杂环境下检测模型的鲁棒性,本发明将4个SPD-Conv模块添加到YOLOv5s的Backbone网络中的CBL模块之后,如图3所示。
SPD-Conv是由Space-to-Depth层和非跨步卷积层组成,将提取到的S×S×C1大小的中间特征图首先按照一定的比例scale进行切分为:
f0,0=X[0:S:scale,0:S:scale],f1,0=X[1:S:scale,0:S:scale],…,fscale-1,0
=X[sacale-1:S:scale,0:S:scale];
f0,1=X[0:S:scale,1:S:scale],f1,1=X[1:S:scale,1:S:scale],…,fscale-1,1
=X[scale-1:S:scale,1:S:scale];
f0,scale-1=X[0:S:scale,0:S:scale-1],f1,scale-1
=X[1:S:scale,scale-1:S:scale],…,
fscale-1,scale-1=X[scale-1:S:scale,scale-1:S:scale]
给定任何特征映射X,子映射fx,y由所有特征映射组成特征图X(i,j),i+x和j+y可以被比例因子整除。因此,每个子图按一个比例因子向下采样X。当scale=2时,会被切分为f0,0,f1,0,f0,1,f1,14个子图,每个子图大小为然后沿着通道维度进行连接,特征图大小变为/>最后通过非跨步卷积层,得到大小为/>的特征图,其中C2<22C1
与原始的跨步卷积和池化操作不同的是,SPD-Conv模块会保留X所有的特征信息,只是在通道维度上的变化。通过利用SPD-Conv模块,对于低分辨率和小目标具有较好的检测能力,使模型更加适应复杂的检测环境。
设计一个具有强大的特征提取能力的骨干网,同时避免高计算成本和信息丢失,是至关重要的。随着深度学习的不断发展,注意力机制已成为计算机视觉领域不可或缺的技术。本发明在YOLOv5s的Backbone网络中SPPF模块之前添加了一个GAM模块,来减少特征信息的丢失,增强网络捕获全局信息的能力。
GAM将通道注意力机制和空间注意力机制相结合,通道注意力机制考虑的是关注的目标,空间注意力机制考虑的是关注的位置。
整个GAM模块结构如图4所示。输入的特征图F1,首先通过通道注意力机制处理,得到F2,Mc(F1)表示F1经过通道注意力模块处理;得到的F2再与F1进行元素相乘,表示元素相乘,作为空间注意力模块的输入,Ms(F2)表示经过空间注意力模块处理;最后将F2与Ms(F2)进行元素相乘,得到最终的输出F3。
在通道注意力模块中,将提取到的特征图先通过三维排列来保留三维信息,然后使用两层的多层感知机(MLP)放大空间相关性;在空间注意力模块中,使用两个7×7卷积融合空间信息,同时移除最大池化,充分保留特征信息。
分类和定位两个任务所感兴趣的地方是不同的。在传统的非解耦检测头中,分类和回归两个任务共享前一层的参数,这样会产生YOLOv5的Head中分类和定位两个任务的矛盾。在解耦头(Decoupled head)中分类和定位两个任务不再共享前一层的参数,如图5所示,为了避免增加运算的复杂度,首先使用1×1的卷积层把通道数减少到256;然后使用2个并行分支,每个分支包含2个3×3卷积层,分别进行定位和分类;并且在回归分支上添加一个IoU分支。3个分支Cls、Reg和IoU输出的形状分别为[H,W,C],[H,W,4]和[H,W,1]。
本发明将YOLOv5s的Head转换为解耦头(Decoupled head)后,分类和定位任务在两个不同的分支进行。缓解了分类和定位两个任务的矛盾,同时加快了模型训练时的收敛速度,提升了检测模型的性能。
本发明将SHWD数据集进行扩充,原始数据集中有7581张图片,经过扩充后达到12000张图片。本发明考虑了原数据集中缺乏密集安全头盔目标,小目标和佩戴其他头饰的干扰目标,通过数据集合并,网上爬取和手动下载的方式,并使用Labelimg标注工具进行标注,对原数据集进行扩充,以弥补原数据的不足。本发明将数据集划分为训练集:测试集等于8:2。扩充后的数据更加适应复杂的安全头盔检测环境,训练出的模型鲁棒性更强。
目标检测有多个标准来衡量模型的性能,例如精度(P),召回率(R)和每秒传输帧数(FPS)等。mean Average Precision(mAP)是最常用的评估方法。精度P是在预测为正样本中实际为正样本的概率,召回率R是在实际为正样本中预测为正样本的概率,
P的计算方法:
R的计算方法:
其中TP指True Positive,分类器判定为正样本,实际上就是正样本;FP指FalsePositive,分类器判定为正样本,但实际上是负样本;FN指False Negative,分类器判定为负样本,但实际上是正样本。Mean average precision(mAP)指所有类别averageprecision(AP)的均值,
AP的计算方法:
mAP的计算方法:
其中C为类别数。
根据不同的IoU阈值,使用mAP@0.5,mAP@0.5:0.95,召回率(R)和检测速度对本发明的模型进行评估。这里的检测速度包括图像预处理时间,模型推理速度和后处理时间。
本发明的实验使用的操作系统是CentOS Linux 8,GPU型号是NVIDIA A100-SXM4-40GB。使用Pytorch 1.11深度学习框架和CUDA11.3相结合,Python3.8作为算法的编程语言。
本发明实验不采用任何预训练模型,将模型参数batchsize设置为64,每次训练时从训练集中取64个训练样本进行训练。将训练集和测试集的图片像素大小设置为640×640,采用SGD优化器,动量设置为0.937,权重衰减系数设置为0.0005,初始学习率和终止学习率都设置为0.01。经过200轮的训练,最终生成理想的权重文件。
本发明提出的基于改进YOLOv5的安全头盔检测模型,具有更强的鲁棒性,更加适应复杂的施工环境。通过结合SPD卷积模块,GAM模块和Decoupled head,提高了模型提取特征的能力,在保证模型轻量化和满足实时性的同时,检测精度优于目前比较流行的大部分轻量级模型。提升了原模型对小目标和密集目标的检测能力。
本发明对比了YOLOv3-tiny、PPYOLOE、YOLOv7-tiny和YOLOv4-tiny四种轻量级目标检测模型。如表1所示,改进后的模型要优于所有模型。mAP@0.5与原模型YOLOv5s相比从95.19%提高到了95.73%。mAP@0.5:0:95高达61.28%,超越了原模型1.43%。召回率从92.05%提高到了92.90%。
表1改进后的YOLOv5s在扩充后的SHWD上的实验结果。
图6(a)-图6(c),图6(d)-图6(f)分别是对密集目标和小目标的检测效果展示,可以明显看出,在图6(a)-图6(c)密集目标检测上原始模型会出现检测不全的现象,并且图像右上角未戴安全帽的人员没有被检测出来,本发明的模型则可以成功检测出该人员未带安全帽,漏检的现象也得到了改善。图6(g)-图6(i)对于手持安全帽的人员,原始模型会产生错误的判断,对于头戴其他头饰的人员,原始模型也会产生误判,而本发明改进的模型鲁棒性更强,可以正确检测出安全帽的佩戴问题。
如图7所示,得到的PR曲线,在单类别“helmet”检测上mAP@0.5可以达到96.70%,“person”检测上mAP@0.5可以达到94.80%。
实施例二
本实施例提供了工人安全头盔实时检测系统;
工人安全头盔实时检测系统,包括:
获取模块,其被配置为:获取待处理的图像;
处理模块,其被配置为:将待处理的图像输入到训练后的头盔检测网络中,输出头盔佩戴检测结果;其中,所述头盔检测网络,包括:依次连接的骨干网络、颈部网络和解耦头;所述骨干网络,用于对输入的图像进行特征提取;所述颈部网络,用于对提取的特征进行特征增强处理;所述解耦头对增强的特征进行分类得到工人是否佩戴头盔的检测结果。
此处需要说明的是,上述获取模块和处理模块对应于实施例一中的步骤S101至S102,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
实施例四
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.工人安全头盔实时检测方法,其特征是,包括:
获取待处理的图像;
将待处理的图像输入到训练后的头盔检测网络中,输出头盔佩戴检测结果;
其中,所述头盔检测网络,包括:依次连接的骨干网络、颈部网络和解耦头;所述骨干网络,用于对输入的图像进行特征提取;所述颈部网络,用于对提取的特征进行特征增强处理;所述解耦头对增强的特征进行分类得到工人是否佩戴头盔的检测结果。
2.如权利要求1所述的工人安全头盔实时检测方法,其特征是,所述骨干网络,具体包括:
依次连接的Focus层、CBL1层、SPD-Conv1层、CSP1层、CBL2层、SPD-Conv2层、CSP2层、CBL3层、SPD-Conv3层、CSP3层、CBL4层、SPD-Conv4层、GAM层和SPPF层;
所述骨干网络,工作原理包括:将输入图像首先进行重新缩放到统一大小,经过Focus层,将输入特征图中的信息进行压缩和组合,从而提取出更高层次的特征表示;
然后经过CBL1层的卷积操作提取局部空间信息,并通过经过CBL1层的BN层规范化特征值分布,最后通过经过CBL1层的激活函数引入非线性变换能力,从而实现对输入特征的转换和提取;
将来自CBL1层的特征图送入SPD-Conv1层保留所有的判别特征信息;CSP1层将来自SPD-Conv1层的特征图通过CSP1层的Bottleneck,增加网络的深度和感受野,提高特征提取的能力;
通过GAM层使网络关注物体的全局信息,从而提高特征提取的效果;
最后通过SPPF层,指定一个卷积核,将每次池化后的输出作为下一个池化的输入,不仅加快特征提取的速度,还增强特征图特征表达能力。
3.如权利要求2所述的工人安全头盔实时检测方法,其特征是,所述GAM层,工作原理包括:
在通道注意力中,对于输入特征图,首先进行维度转换,经过维度转换的特征图输入到MLP,再转换为原来的维度,进行Sigmoid函数处理输出;
在空间注意力中,通过卷积核为7×7的卷积缩减通道数量,缩小计算量,再经过一个卷积核为7×7的卷积操作,增加通道数量,保持通道数量的一致;最后经过Sigmoid函数输出。
4.如权利要求2所述的工人安全头盔实时检测方法,其特征是,所述SPD-Conv1层,工作原理包括:
按照设定的比例因子对来自上一层输出的特征图进行下采样,沿着通道维度进行合并,以避免丢失可学习的特征信息;然后,通过步长为1的卷积,降低通道维度,减少计算量,保留所有的判别特征信息。
5.如权利要求2所述的工人安全头盔实时检测方法,其特征是,所述颈部网络,包括:
依次连接的*CSP1层、CBL5层、第一上采样层、*CSP2层、CBL6层、第二上采样层、*CSP3层、CBL7层、*CSP4层、CBL8层和*CSP5层;
所述颈部网络,工作原理包括:对特征图进行多尺度特征融合,并把融合特征传递给预测层。
6.如权利要求5所述的工人安全头盔实时检测方法,其特征是,
所述解耦头,采用解耦头Decoupled Head来实现;
所述SPD-Conv2层的输出端与*CSP3层的输入端连接;
所述SPD-Conv3层的输出端与*CSP2层的输入端连接;
SPPF层的输出端与*CSP1层的输入端连接;
CBL5层的输出端与*CSP5层的输入端连接;
CBL6层的输出端与*CSP4层的输入端连接;
*CSP3层的输出端与解耦头Decoupled Head的输入端连接;
*CSP4层的输出端与解耦头Decoupled Head的输入端连接。
7.如权利要求6所述的工人安全头盔实时检测方法,其特征是,所述解耦头DecoupledHead,结构包括:
卷积层J6,所述卷积层J6的输入端为解耦头Decoupled Head的输入端;
所述卷积层J6的输出端分别与分类分支和回归分支连接;
所述分类分支包括依次连接的卷积层J7、卷积层J8和卷积层J9;
所述回归分支包括依次连接的卷积层J10、卷积层J11和卷积层J12;
卷积层J11的输出端还与卷积层J13的输入端连接;
卷积层J9用于输出是否佩戴头盔的分类结果;
卷积层J12与卷积层J13输出头盔的边界框;
所述解耦头Decoupled Head,工作原理包括:
解耦头Decoupled Head中,将分类和回归任务分开来预测,不共享前一层参数,加快模型收敛速度和提高检测精度。
8.工人安全头盔实时检测系统,其特征是,包括:
获取模块,其被配置为:获取待处理的图像;
处理模块,其被配置为:将待处理的图像输入到训练后的头盔检测网络中,输出头盔佩戴检测结果;其中,所述头盔检测网络,包括:依次连接的骨干网络、颈部网络和解耦头;所述骨干网络,用于对输入的图像进行特征提取;所述颈部网络,用于对提取的特征进行特征增强处理;所述解耦头对增强的特征进行分类得到工人是否佩戴头盔的检测结果。
9.一种电子设备,其特征是,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述权利要求1-7任一项所述的方法。
10.一种存储介质,其特征是,非暂时性地存储计算机可读指令,其中,当非暂时性计算机可读指令由计算机执行时,执行权利要求1-7任一项所述方法的指令。
CN202310540362.9A 2023-05-11 2023-05-11 工人安全头盔实时检测方法、系统、设备及存储介质 Pending CN116580357A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310540362.9A CN116580357A (zh) 2023-05-11 2023-05-11 工人安全头盔实时检测方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310540362.9A CN116580357A (zh) 2023-05-11 2023-05-11 工人安全头盔实时检测方法、系统、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116580357A true CN116580357A (zh) 2023-08-11

Family

ID=87535327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310540362.9A Pending CN116580357A (zh) 2023-05-11 2023-05-11 工人安全头盔实时检测方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116580357A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117036361A (zh) * 2023-10-10 2023-11-10 云南大学 一种电网输电线烟雾检测方法、系统、电子设备及介质
CN117708726A (zh) * 2024-02-05 2024-03-15 成都浩孚科技有限公司 网络模型解耦的开集合类别训练方法、装置及其存储介质
CN117854113A (zh) * 2024-02-02 2024-04-09 广州天竞智能科技有限公司 一种安全防护用品的佩戴检测方法、装置、设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117036361A (zh) * 2023-10-10 2023-11-10 云南大学 一种电网输电线烟雾检测方法、系统、电子设备及介质
CN117036361B (zh) * 2023-10-10 2024-02-20 云南大学 一种电网输电线烟雾检测方法、系统、电子设备及介质
CN117854113A (zh) * 2024-02-02 2024-04-09 广州天竞智能科技有限公司 一种安全防护用品的佩戴检测方法、装置、设备及存储介质
CN117854113B (zh) * 2024-02-02 2024-05-24 广州天竞智能科技有限公司 安全防护用品的佩戴检测方法、装置、设备及存储介质
CN117708726A (zh) * 2024-02-05 2024-03-15 成都浩孚科技有限公司 网络模型解耦的开集合类别训练方法、装置及其存储介质
CN117708726B (zh) * 2024-02-05 2024-04-16 成都浩孚科技有限公司 网络模型解耦的开集合类别训练方法、装置及其存储介质

Similar Documents

Publication Publication Date Title
CN116580357A (zh) 工人安全头盔实时检测方法、系统、设备及存储介质
CN108921159B (zh) 用于检测安全帽的佩戴情况的方法和装置
CN109166094B (zh) 一种基于深度学习的绝缘子故障定位识别方法
CN110688925B (zh) 基于深度学习的级联目标识别方法及系统
EP3899508A1 (en) Automated inspection system and associated method for assessing the condition of shipping containers
CN108038424B (zh) 一种适用于高空作业的视觉自动化检测方法
CN111126136A (zh) 一种基于图像识别的烟雾浓度量化方法
CN111598040A (zh) 一种建筑工人身份识别及安全帽佩戴检测方法及系统
CN109506628A (zh) 一种基于深度学习的卡车环境下目标物测距方法
KR102105954B1 (ko) 사고위험 감지시스템 및 감지방법
CN113962274A (zh) 一种异常识别方法、装置、电子设备及存储介质
CN114998830A (zh) 一种变电站人员安全帽佩戴检测方法及系统
CN116311081B (zh) 一种基于图像识别的医学实验室监控图像分析方法和系统
Yandouzi et al. Investigation of combining deep learning object recognition with drones for forest fire detection and monitoring
de Venâncio et al. A hybrid method for fire detection based on spatial and temporal patterns
Sakthimohan et al. An automated face mask detection using machine learning techniques
CN114419565A (zh) 基于YOLOv4的特种车辆作业碰撞预警方法及系统
CN116092198A (zh) 一种矿用安全帽识别检测方法、装置、设备及介质
CN116778214A (zh) 一种行为检测方法、装置、设备及其存储介质
Yatbaz et al. Run-time introspection of 2d object detection in automated driving systems using learning representations
Evstafev et al. Surface Defect Detection and Recognition Based on CNN
Guijin et al. Night construction site detection based on ghost-YOLOX
Yipeng et al. Personal Protective Equipment Detection for Construction Workers: A Novel Dataset and Enhanced YOLOv5 Approach
Tao et al. ATSS-driven surface flame detection and extent evaluation using edge computing on UAVs
Honda et al. Robust static and moving object detection via multi-scale attentional mechanisms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination