CN115240117A - 一种在工地施工场景下的安全帽佩戴检测方法 - Google Patents
一种在工地施工场景下的安全帽佩戴检测方法 Download PDFInfo
- Publication number
- CN115240117A CN115240117A CN202210912235.2A CN202210912235A CN115240117A CN 115240117 A CN115240117 A CN 115240117A CN 202210912235 A CN202210912235 A CN 202210912235A CN 115240117 A CN115240117 A CN 115240117A
- Authority
- CN
- China
- Prior art keywords
- feature
- construction
- construction site
- algorithm
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 64
- 238000010276 construction Methods 0.000 title claims abstract description 62
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 4
- 230000007246 mechanism Effects 0.000 claims description 20
- 238000011176 pooling Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 11
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000003213 activating effect Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000013100 final test Methods 0.000 claims description 2
- 238000003754 machining Methods 0.000 claims description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种在工地施工场景下的安全帽佩戴检测方法,包括如下步骤:步骤S1:采集工地施工场景的视频帧图像;步骤S2:将已获取到的视频帧图像进行标注和数据增强处理;步骤S3:将预处理后的数据集送入改进的YOLOv4‑tiny算法中进行训练;步骤S4:用已训练好的检测模型对获取到的工地现场摄像头视频流进行检测;步骤S5:若检测到有人员未佩戴安全帽,便发出相应的声音警报信息。应用本技术方案可实现在保证工地安全帽佩戴检测效率的同时,进一步提高检测精度。
Description
技术领域
本发明涉及智慧工地建设技术领域,特别是一种在工地施工场景下的安全帽佩戴检测方法。
背景技术
在工地安全防护中,安全帽作为一种必不可少的安全工具,可以很好地保护工地人员的头部安全,能够尽量减少致命伤害情况的发生,有效地避免安全隐患。然而,人工监督不仅费时费力,还有可能因为疏忽的原因而导致安全事故悲剧的发生。
随着计算机视觉技术的发展,目标检测技术取得了一定的成就。传统的安全帽佩戴检测算法虽然取得了一定的成果,但是其存在着检测复杂度高,检测效率慢以及在复杂场景下的鲁棒性较差等问题。随着深度学习的发展,安全帽的佩戴检测方法取得了一定的进展。像FasterR-CNN这种的双阶段目标检测算法虽然检测精度高,但是其参数量巨大,导致检测效率非常低。像SSD、YOLO系列算法这种的单阶段目标检测算法的检测效率相对于双阶段目标检测算法得到了较大的提升,但是在检测精度上也通常会逊于双阶段检测算法。
在实际的工地安全帽佩戴检测监控的过程中,既要保证检测的实时性,也要同时兼顾检测精度。YOLOv4-tiny算法是YOLOv4算法的简化版,其参数量相比于YOLOv4算法得到了一定的减少,检测速度也因此得到了较大的提高,但是检测精度也存在着一定的缺陷。在实际的施工环境中,工地上往往存在着人员密集的现象,摄像头离检测目标的距离也比较远,从而导致了检测模型对小目标和遮挡目标的检测具有一定的挑战性。
发明内容
有鉴于此,本发明的目的在于提供一种在工地施工场景下的安全帽佩戴检测方法,在保证工地安全帽佩戴检测效率的同时,进一步提高检测精度。
为实现上述目的,本发明采用如下技术方案:一种在工地施工场景下的安全帽佩戴检测方法,包括如下步骤:
步骤S1:采集工地施工场景的视频帧图像;
步骤S2:将已获取到的视频帧图像进行标注和数据增强处理;
步骤S3:将预处理后的数据集送入改进的YOLOv4-tiny算法中进行训练;
步骤S4:用已训练好的检测模型对获取到的工地现场摄像头视频流进行检测;
步骤S5:若检测到有人员未佩戴安全帽,便发出相应的声音警报信息。
在一较佳的实施例中,所述步骤S1的视频帧图像是指在实际的施工环境下通过工业摄像头采集到视频后,再通过对视频进行帧的获取处理后而得到的图像。
在一较佳的实施例中,所述步骤S2图像预处理方法的实现过程为:
步骤S21:通过运用LabelImg软件,对采集到的视频帧图像进行标注,其中所标注的标签文件为XML格式;
步骤S22:通过使用Python中的数据增强库imgaug,对步骤S21的视频帧图像进行数据增强处理,其中数据增强处理包括旋转、平移、裁剪、加入高斯噪声操作。
在一较佳的实施例中,所述步骤S3中的改进的YOLOv4-tiny算法具体为:
步骤S31:在YOLOv4-tiny算法的FPN层的Concat操作中使用更浅层的特征图,丰富Concat后的特征图的小目标位置细节信息;
步骤S32:在YOLOv4-tiny算法的YOLO Head前加入CBAM注意力机制模块,使得网络模型更关注于对重要信息的学习;
步骤S33:使用Soft-NMS算法代替YOLOv4-tiny算法中原有的NMS算法。
在一较佳的实施例中,所述步骤S4中的工地现场的摄像头将接入本地主机端,同时在本地主机端通过对模型的加载来实现对实际施工现场中工地人员的安全帽佩戴情况进行检测。
在一较佳的实施例中,所述步骤S5中的声音警报信息将通过Python中自带的playsound模块来实现;playsound模块通过“pip install playsound”这个命令来进行安装。
在一较佳的实施例中,当输入图像的大小为608×608时,YOLOv4-tiny算法中由CSPDarknet53-tiny产生的两个有效特征层的尺寸大小分别是19×19,38×38;尺寸大小为38×38的有效特征层具有较多的小目标位置细节信息,而尺寸大小为19×19的有效特征层具有较多的图像语义信息,这两个有效特征层会参与到加强特征提取网络FPN层的构建;其中需要注意的是,ResidualBlock_Body3输出的用于接下来进行Concat操作的特征图是未经过MaxPooling处理的,所以其尺寸大小仍然为38×38;YOLOv4-tiny算法中的两个YOLOHead的输出特征图大小分别是19×19,38×38;尺寸大小为19×19的YOLO Head负责进行对较大目标的检测,尺寸大小为38×38的YOLO Head负责进行对较小目标的检测;
将ResidualBlock_Body2中的在MaxPooling处理前的尺寸大小为76×76的输出特征图经过下采样之后,再将其参与到尺寸大小为19×19的特征图通过卷积和上采样之后与尺寸大小为38×38的特征图进行Concat的操作之中。
在一较佳的实施例中,YOLOv4-tiny算法中的主干特征提取网络CSPDarknet53-tny由3个BasicConv模块以及3个ResidualBlock_Body模块构成;其中BasicConv模块包含DarknetConv2D、BatchNormalization以及LeakyReLU激活函数结构;ResidualBlock_Body模块由4个BasicConv模块以及1个MaxPooling模块构成;从CSPDarknet53-tiny产生的两个有效特征层会经过FPN即Feature Pyramid Network层的处理,经过FPN层处理后的特征图会输入到YOLO Head中进行分类与回归处理。
在一较佳的实施例中,在YOLOv4-tiny算法的YOLO Head前加入包含通道注意力机制和空间注意力机制的CBAM注意力机制模块;
在通道注意力机制模块中,通过将输入的特征图分别进行最大池化以及平均池化操作,得到两个分别表示最大池化特征以及平均池化特征的描述符,然后将这两个描述符输入到共享全连接层Shared MLP中生成两个通道注意力特征图,接下来将这两个通道注意力特征图进行在元素级别上的求和运算,再经过Sigmoid函数的激活,输出最终的通道注意力特征图;这个最终的通道注意力特征图会与原始的输入特征图作乘法运算,从而得到经过通道注意力权重值加权后的特征图;
在空间注意力机制模块中,将经过通道注意力权重值加权后的特征图作为输入,首先进行一个沿着通道轴上的最大池化以及平均池化操作,得到两个特征图,然后将它们进行Concat操作再通过卷积核进行卷积处理,变为1个通道,再经过Sigmoid函数激活后获得空间注意力特征图;这个空间注意力特征图会与经过通道注意力权重值加权后的特征图作乘法运算,从而得到最终的经过CBAM模块处理后的特征图。
在一较佳的实施例中,采用基于高斯加权表达方式的Soft-NMS算法,相应的计算方式为:
其中,D表示最终检测结果的集合,Si表示当前待处理的检测框的置信度得分,IOU表示两个边框的交集与并集的比值,Nt表示IOU的阈值,M表示置信度得分最高的检测框,σ表示高斯惩罚函数的超参数,Bi表示当前待处理的检测框,e是自然对数的底数。
与现有技术相比,本发明具有以下有益效果:本发明通过对YOLOv4-tiny算法进行一些改进:在YOLOv4-tiny算法的FPN层的Concat操作中使用了更浅层的特征图,丰富了Concat后的特征图的小目标位置细节信息;在YOLOv4-tiny算法的YOLO Head前加入CBAM注意力机制模块,使得网络模型更关注于对重要信息的学习,以提升算法对小目标的检测能力;使用Soft-NMS算法代替YOLOv4-tiny算法中原有的NMS算法,从而减少遮挡目标漏检情况的发生。改进的YOLOv4-tiny算法在保证检测模型较高检测效率的基础上,进一步提高了模型的检测精度,具有较好的研究意义与工程价值。
附图说明
图1是本发明优选实施例提供的一种在工地施工场景下的安全帽佩戴检测方法的流程图;
图2是本发明优选实施例提供的一种改进的YOLOv4-tiny算法的网络模型结构图;
图3是本发明优选实施例提供的CBAM注意力机制结构图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式;如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
一种在工地施工场景下的安全帽佩戴检测方法,旨在保证工地安全帽佩戴检测效率的同时,进一步提高检测精度。
参考图1,具体包括如下步骤:
步骤S1:采集工地施工场景的视频帧图像;
步骤S2:将已获取到的视频帧图像进行标注和数据增强处理;
步骤S3:将预处理后的数据集送入改进的YOLOv4-tiny算法中进行训练;
步骤S4:用已训练好的检测模型对获取到的工地现场摄像头视频流进行检测;
步骤S5:若检测到有人员未佩戴安全帽,便发出相应的声音警报信息。
具体来说,所述步骤S1的视频帧图像是指在实际的施工环境下通过工业摄像头采集到视频后,再通过对视频进行帧的获取处理后而得到的图像。
具体来说,所述步骤S2图像预处理方法的实现过程为:
步骤S21:通过运用LabelImg软件,对采集到的视频帧图像进行标注,其中所标注的标签文件为XML格式;
步骤S22:通过使用Python中的数据增强库imgaug,对步骤S21的视频帧图像进行数据增强处理,以提高训练后的网络模型的泛化能力,其中数据增强处理包括了旋转、平移、裁剪、加入高斯噪声等操作。
具体来说,所述步骤S3中的改进的YOLOv4-tiny算法具体为:
步骤S31:如图2所示,在YOLOv4-tiny算法的FPN层的Concat操作中使用了更浅层的特征图,丰富了Concat后的特征图的小目标位置细节信息;
步骤S32:如图2所示,在YOLOv4-tiny算法的YOLOHead前加入CBAM注意力机制模块,使得网络模型更关注于对重要信息的学习,以提升算法对小目标的检测能力;
步骤S33:使用Soft-NMS算法代替YOLOv4-tiny算法中原有的NMS算法,以减少遮挡目标漏检情况的发生。
具体来说,所述步骤S4中的工地现场的摄像头将接入本地主机端,同时在本地主机端通过对模型的加载来实现对实际施工现场中工地人员的安全帽佩戴情况进行检测。
具体来说,所述步骤S5中的声音警报信息将通过Python中自带的playsound模块来实现。playsound模块可以通过“pip install playsound”这个命令来进行安装。
YOLOv4-tiny算法概述:
YOLOv4-tiny算法中的主干特征提取网络CSPDarknet53-tiny由3个BasicConv模块以及3个ResidualBlock_Body模块构成。其中BasicConv模块包含了DarknetConv2D、BatchNormalzation以及Leaky ReLU激活函数等结构;ResidualBlock_Body模块由4个BasicConv模块以及1个MaxPooling模块构成。从CSPDarknet53-tiny产生的两个有效特征层会经过FPN(Feature Pyramid Network)层的处理,经过FPN层处理后的特征图会输入到YOLO Head中进行分类与回归处理。
当输入图像的大小为608×608时,由CSPDarknet53-tiny产生的两个有效特征层的尺寸大小分别是19×19,38×38。尺寸大小为38×38的有效特征层具有较多的小目标位置细节信息,而尺寸大小为19×19的有效特征层具有较多的图像语义信息,这两个有效特征层会参与到加强特征提取网络FPN层的构建。其中需要注意的是,ResidualBlock_Body3输出的用于接下来进行Concat操作的特征图是未经过MaxPooling处理的,所以其尺寸大小仍然为38×38。YOLOv4-tiny算法中的两个YOLO Head的输出特征图大小分别是19×19,38×38。尺寸大小为19×19的YOLO Head负责进行对较大目标的检测,尺寸大小为38×38的YOLO Head负责进行对较小目标的检测。
本发明改进点描述:
(1)YOLOv4-tiny算法通过主干特征提取网络CSPDarknet53-tiny进行一系列的特征提取,只用到了主干特征提取网络中的两个有效特征层。虽然YOLOv4-tiny算法中的尺寸大小为38×38的特征图相比于尺寸大小为19×19的特征图有着更多的小目标位置细节信息,但它是经过主干特征提取网络的一系列特征提取之后的结果,难免会有或多或少的小目标位置细节信息丢失。尺寸大小为19×19的特征图通过卷积和上采样之后与尺寸大小为38×38的特征图进行Concat操作,但是Concat后的特征图的小目标位置细节信息还是较为缺乏。因此,本发明通过将ResidualBlock_Body2中的在MaxPooling处理前的尺寸大小为76×76的输出特征图经过下采样之后,再将其参与到尺寸大小为19×19的特征图通过卷积和上采样之后与尺寸大小为38×38的特征图进行Concat的操作之中(如图2所示),这样能够很好地丰富了Concat之后的特征图的小目标位置细节信息,更有利于网络模型对小目标特征的学习。
(2)CBAM(Convolutional Block Attention Module)模块(如图3所示)包含了两种注意力机制模块:通道注意力机制模块和空间注意力机制模块。通道注意力和空间注意力分别聚焦的是关于“什么是重要的”和“重要的地方在哪里”的问题。
在通道注意力机制模块中,通过将输入的特征图分别进行最大池化以及平均池化操作,得到两个分别表示最大池化特征以及平均池化特征的描述符,然后将这两个描述符输入到共享全连接层(Shared MLP)中生成两个通道注意力特征图,接下来将这两个通道注意力特征图进行在元素级别上的求和运算,再经过Sigmoid函数的激活,输出最终的通道注意力特征图。这个最终的通道注意力特征图会与原始的输入特征图作乘法运算,从而得到经过通道注意力权重值加权后的特征图。
在空间注意力机制模块中,将经过通道注意力权重值加权后的特征图作为输入,首先进行一个沿着通道轴上的最大池化以及平均池化操作,得到两个特征图,然后将它们进行Concat操作再通过卷积核进行卷积处理,变为1个通道,再经过Sigmoid函数激活后获得空间注意力特征图。这个空间注意力特征图会与经过通道注意力权重值加权后的特征图作乘法运算,从而得到最终的经过CBAM模块处理后的特征图。
Sigmoid函数是神经网络中比较常见的激活函数,其计算公式为:
其中,x表示输入值,e是自然对数的底数,Sigmoid函数会将输入值映射到介于0到1之间的值。
如图2所示,在YOLOv4-tiny算法的YOLO Head前加入CBAM模块能够使得网络模型更加关注于对检测有用的信息的学习。
(3)当在检测存在遮挡的目标时,传统的NMS算法会直接将和置信度得分最大的Box的IOU大于某个阈值的Box的置信度得分直接置零,并进行过滤掉,从而存在着目标漏检的可能性。Soft-NMS算法能够较好地解决此问题,Soft-NMS算法有两种置信度得分衰减的表达方式,一种是基于线性加权的,其计算方式为:
其中,Si表示当前待处理的检测框的置信度得分,IOU表示两个边框的交集与并集的比值,Nt表示IOU的阈值,M表示置信度得分最高的检测框,Bi表示当前待处理的检测框。
但是基于线性加权的置信度得分衰减的计算方式会出现函数不连续的问题,这样会导致检测框的置信度得分出现断层的现象。因此,为了减少遮挡目标漏检情况的发生,本发明选用了另一种基于高斯加权的表达方式,其计算方式为:
其中,D表示最终检测结果的集合,Si表示当前待处理的检测框的置信度得分,IOU表示两个边框的交集与并集的比值,Nt表示IOU的阈值,M表示置信度得分最高的检测框,σ表示高斯惩罚函数的超参数,Bi表示当前待处理的检测框,e是自然对数的底数。
总之,NMS算法直接将大于IOU阈值的检测框进行剔除,显得简单粗暴,可能存在着目标漏检的问题。然而,Soft-NMS算法不是直接将与置信度得分最高框的IOU大于阈值的检测框的置信度得分直接变为0,进行去除,而是用较低的置信度得分代替原来较高的置信度得分,这样能够较好地解决检测框误删的问题,取得更好的检测效果。
Claims (10)
1.一种在工地施工场景下的安全帽佩戴检测方法,其特征在于包括如下步骤:
步骤S1:采集工地施工场景的视频帧图像;
步骤S2:将已获取到的视频帧图像进行标注和数据增强处理;
步骤S3:将预处理后的数据集送入改进的YOLOv4-tiny算法中进行训练;
步骤S4:用已训练好的检测模型对获取到的工地现场摄像头视频流进行检测;
步骤S5:若检测到有人员未佩戴安全帽,便发出相应的声音警报信息。
2.根据权利要求1所述的一种在工地施工场景下的安全帽佩戴检测方法,其特征在于,所述步骤S1的视频帧图像是指在实际的施工环境下通过工业摄像头采集到视频后,再通过对视频进行帧的获取处理后而得到的图像。
3.根据权利要求1所述的一种在工地施工场景下的安全帽佩戴检测方法,其特征在于,所述步骤S2图像预处理方法的实现过程为:
步骤S21:通过运用LabelImg软件,对采集到的视频帧图像进行标注,其中所标注的标签文件为XML格式;
步骤S22:通过使用Python中的数据增强库imgaug,对步骤S21的视频帧图像进行数据增强处理,其中数据增强处理包括旋转、平移、裁剪、加入高斯噪声操作。
4.根据权利要求1所述的一种在工地施工场景下的安全帽佩戴检测方法,其特征在于,所述步骤S3中的改进的YOLOv4-tiny算法具体为:
步骤S31:在YOLOv4-tiny算法的FPN层的Concat操作中使用更浅层的特征图,丰富Concat后的特征图的小目标位置细节信息;
步骤S32:在YOLOv4-tiny算法的YOLO Head前加入CBAM注意力机制模块,使得网络模型更关注于对重要信息的学习;
步骤S33:使用Soft-NMS算法代替YOLOv4-tiny算法中原有的NMS算法。
5.根据权利要求1所述的一种在工地施工场景下的安全帽佩戴检测方法,其特征在于,所述步骤S4中的工地现场的摄像头将接入本地主机端,同时在本地主机端通过对模型的加载来实现对实际施工现场中工地人员的安全帽佩戴情况进行检测。
6.根据权利要求1所述的一种在工地施工场景下的安全帽佩戴检测方法,其特征在于,所述步骤S5中的声音警报信息将通过Python中自带的playsound模块来实现;playsound模块通过“pip install playsound”这个命令来进行安装。
7.根据权利要求1所述的一种在工地施工场景下的安全帽佩戴检测方法,其特征在于,当输入图像的大小为608×608时,YOLOv4-tiny算法中由CSPDarknet53-tiny产生的两个有效特征层的尺寸大小分别是19×19,38×38;尺寸大小为38×38的有效特征层具有较多的小目标位置细节信息,而尺寸大小为19×19的有效特征层具有较多的图像语义信息,这两个有效特征层会参与到加强特征提取网络FPN层的构建;其中需要注意的是,ResidualBlock_Body3输出的用于接下来进行Concat操作的特征图是未经过MaxPooling处理的,所以其尺寸大小仍然为38×38;YOLOv4-tiny算法中的两个YOLO Head的输出特征图大小分别是19×19,38×38;尺寸大小为19×19的YOLO Head负责进行对较大目标的检测,尺寸大小为38×38的YOLO Head负责进行对较小目标的检测;
将ResidualBlock_Body2中的在MaxPooling处理前的尺寸大小为76×76的输出特征图经过下采样之后,再将其参与到尺寸大小为19×19的特征图通过卷积和上采样之后与尺寸大小为38×38的特征图进行Concat的操作之中。
8.根据权利要求7所述的一种在工地施工场景下的安全帽佩戴检测方法,其特征在于,YOLOv4-tiny算法中的主干特征提取网络CSPDarknet53-tiny由3个BasicConv模块以及3个ResidualBlock_Body模块构成;其中BasicConv模块包含DarknetConv2D、BatchNormalization以及Leaky ReLU激活函数结构;ResidualBlock_Body模块由4个BasicConv模块以及1个MaxPooling模块构成;从CSPDarknet53-tiny产生的两个有效特征层会经过FPN即Feature Pyramid Network层的处理,经过FPN层处理后的特征图会输入到YOLO Head中进行分类与回归处理。
9.根据权利要求8所述的一种在工地施工场景下的安全帽佩戴检测方法,其特征在于,在YOLOv4-tiny算法的YOLO Head前加入包含通道注意力机制和空间注意力机制的CBAM注意力机制模块;
在通道注意力机制模块中,通过将输入的特征图分别进行最大池化以及平均池化操作,得到两个分别表示最大池化特征以及平均池化特征的描述符,然后将这两个描述符输入到共享全连接层Shared MLP中生成两个通道注意力特征图,接下来将这两个通道注意力特征图进行在元素级别上的求和运算,再经过Sigmoid函数的激活,输出最终的通道注意力特征图;这个最终的通道注意力特征图会与原始的输入特征图作乘法运算,从而得到经过通道注意力权重值加权后的特征图;
在空间注意力机制模块中,将经过通道注意力权重值加权后的特征图作为输入,首先进行一个沿着通道轴上的最大池化以及平均池化操作,得到两个特征图,然后将它们进行Concat操作再通过卷积核进行卷积处理,变为1个通道,再经过Sigmoid函数激活后获得空间注意力特征图;这个空间注意力特征图会与经过通道注意力权重值加权后的特征图作乘法运算,从而得到最终的经过CBAM模块处理后的特征图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210912235.2A CN115240117A (zh) | 2022-07-30 | 2022-07-30 | 一种在工地施工场景下的安全帽佩戴检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210912235.2A CN115240117A (zh) | 2022-07-30 | 2022-07-30 | 一种在工地施工场景下的安全帽佩戴检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115240117A true CN115240117A (zh) | 2022-10-25 |
Family
ID=83676643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210912235.2A Pending CN115240117A (zh) | 2022-07-30 | 2022-07-30 | 一种在工地施工场景下的安全帽佩戴检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115240117A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116363425A (zh) * | 2023-03-27 | 2023-06-30 | 南通大学 | 一种基于改进的YOLOv5的商品种类识别及裁剪方法 |
CN116977919A (zh) * | 2023-06-21 | 2023-10-31 | 北京卓视智通科技有限责任公司 | 一种着装规范的识别方法、系统、存储介质和电子设备 |
CN117726991A (zh) * | 2024-02-07 | 2024-03-19 | 金钱猫科技股份有限公司 | 一种高空吊篮安全带检测方法及终端 |
CN118470610A (zh) * | 2024-07-09 | 2024-08-09 | 武汉市德发电子信息有限责任公司 | 基于物联网和视觉ai的高空安全作业检测方法及系统 |
-
2022
- 2022-07-30 CN CN202210912235.2A patent/CN115240117A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116363425A (zh) * | 2023-03-27 | 2023-06-30 | 南通大学 | 一种基于改进的YOLOv5的商品种类识别及裁剪方法 |
CN116977919A (zh) * | 2023-06-21 | 2023-10-31 | 北京卓视智通科技有限责任公司 | 一种着装规范的识别方法、系统、存储介质和电子设备 |
CN116977919B (zh) * | 2023-06-21 | 2024-01-26 | 北京卓视智通科技有限责任公司 | 一种着装规范的识别方法、系统、存储介质和电子设备 |
CN117726991A (zh) * | 2024-02-07 | 2024-03-19 | 金钱猫科技股份有限公司 | 一种高空吊篮安全带检测方法及终端 |
CN117726991B (zh) * | 2024-02-07 | 2024-05-24 | 金钱猫科技股份有限公司 | 一种高空吊篮安全带检测方法及终端 |
CN118470610A (zh) * | 2024-07-09 | 2024-08-09 | 武汉市德发电子信息有限责任公司 | 基于物联网和视觉ai的高空安全作业检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115240117A (zh) | 一种在工地施工场景下的安全帽佩戴检测方法 | |
CN109558832B (zh) | 一种人体姿态检测方法、装置、设备及存储介质 | |
WO2021232771A1 (zh) | 多任务的目标检测方法、装置、电子设备及存储介质 | |
CN109034092A (zh) | 用于监控系统的异常事件检测方法 | |
CN113128368B (zh) | 一种人物交互关系的检测方法、装置及系统 | |
CN105678213B (zh) | 基于视频特征统计的双模式蒙面人事件自动检测方法 | |
CN110633610A (zh) | 一种基于yolo的学员状态检测算法 | |
CN112766195B (zh) | 一种电气化铁路弓网燃弧视觉检测方法 | |
WO2022001091A1 (zh) | 一种危险驾驶行为识别方法、装置、电子设备及存储介质 | |
CN106886763B (zh) | 实时检测人脸的系统及其方法 | |
CN106980826A (zh) | 一种基于神经网络的动作识别方法 | |
CN114693930B (zh) | 基于多尺度特征和上下文注意力的实例分割方法及系统 | |
WO2022199360A1 (zh) | 运动物体的定位方法、装置、电子设备及存储介质 | |
CN111274987A (zh) | 人脸表情识别方法及人脸表情识别装置 | |
Han et al. | A method based on multi-convolution layers joint and generative adversarial networks for vehicle detection | |
Li et al. | Real-time Safety Helmet-wearing Detection Based on Improved YOLOv5. | |
CN117115715A (zh) | 一种基于流重构和帧预测结合的视频异常检测方法 | |
Sun et al. | UAV image detection algorithm based on improved YOLOv5 | |
CN116229531A (zh) | 一种协作渐进生成对抗网络的人脸正面图像合成方法 | |
CN117611994A (zh) | 基于注意力机制加权特征融合的遥感图像目标检测方法 | |
CN111881803B (zh) | 一种基于改进YOLOv3的畜脸识别方法 | |
CN117078942B (zh) | 上下文感知的指称图像分割方法、系统、设备及存储介质 | |
US20240005464A1 (en) | Reflection removal from an image | |
Panigrahi et al. | DSM-IDM-YOLO: Depth-wise separable module and inception depth-wise module based YOLO for pedestrian detection | |
Wang et al. | Safety helmet wearing recognition based on improved YOLOv4 algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |