CN115240117A

CN115240117A - 一种在工地施工场景下的安全帽佩戴检测方法

Info

Publication number: CN115240117A
Application number: CN202210912235.2A
Authority: CN
Inventors: 陈俊; 陈海明
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2022-07-30
Filing date: 2022-07-30
Publication date: 2022-10-25

Abstract

本发明提供了一种在工地施工场景下的安全帽佩戴检测方法，包括如下步骤：步骤S1:采集工地施工场景的视频帧图像；步骤S2:将已获取到的视频帧图像进行标注和数据增强处理；步骤S3:将预处理后的数据集送入改进的YOLOv4‑tiny算法中进行训练；步骤S4:用已训练好的检测模型对获取到的工地现场摄像头视频流进行检测；步骤S5:若检测到有人员未佩戴安全帽，便发出相应的声音警报信息。应用本技术方案可实现在保证工地安全帽佩戴检测效率的同时，进一步提高检测精度。

Description

一种在工地施工场景下的安全帽佩戴检测方法

技术领域

本发明涉及智慧工地建设技术领域，特别是一种在工地施工场景下的安全帽佩戴检测方法。

背景技术

在工地安全防护中，安全帽作为一种必不可少的安全工具，可以很好地保护工地人员的头部安全，能够尽量减少致命伤害情况的发生，有效地避免安全隐患。然而，人工监督不仅费时费力，还有可能因为疏忽的原因而导致安全事故悲剧的发生。

随着计算机视觉技术的发展，目标检测技术取得了一定的成就。传统的安全帽佩戴检测算法虽然取得了一定的成果，但是其存在着检测复杂度高，检测效率慢以及在复杂场景下的鲁棒性较差等问题。随着深度学习的发展，安全帽的佩戴检测方法取得了一定的进展。像FasterR-CNN这种的双阶段目标检测算法虽然检测精度高，但是其参数量巨大，导致检测效率非常低。像SSD、YOLO系列算法这种的单阶段目标检测算法的检测效率相对于双阶段目标检测算法得到了较大的提升，但是在检测精度上也通常会逊于双阶段检测算法。

在实际的工地安全帽佩戴检测监控的过程中，既要保证检测的实时性，也要同时兼顾检测精度。YOLOv4-tiny算法是YOLOv4算法的简化版，其参数量相比于YOLOv4算法得到了一定的减少，检测速度也因此得到了较大的提高，但是检测精度也存在着一定的缺陷。在实际的施工环境中，工地上往往存在着人员密集的现象，摄像头离检测目标的距离也比较远，从而导致了检测模型对小目标和遮挡目标的检测具有一定的挑战性。

发明内容

有鉴于此，本发明的目的在于提供一种在工地施工场景下的安全帽佩戴检测方法，在保证工地安全帽佩戴检测效率的同时，进一步提高检测精度。

为实现上述目的，本发明采用如下技术方案：一种在工地施工场景下的安全帽佩戴检测方法，包括如下步骤：

步骤S1:采集工地施工场景的视频帧图像；

步骤S2:将已获取到的视频帧图像进行标注和数据增强处理；

步骤S3:将预处理后的数据集送入改进的YOLOv4-tiny算法中进行训练；

步骤S4:用已训练好的检测模型对获取到的工地现场摄像头视频流进行检测；

步骤S5:若检测到有人员未佩戴安全帽，便发出相应的声音警报信息。

在一较佳的实施例中，所述步骤S1的视频帧图像是指在实际的施工环境下通过工业摄像头采集到视频后，再通过对视频进行帧的获取处理后而得到的图像。

在一较佳的实施例中，所述步骤S2图像预处理方法的实现过程为：

步骤S21:通过运用LabelImg软件，对采集到的视频帧图像进行标注，其中所标注的标签文件为XML格式；

步骤S22:通过使用Python中的数据增强库imgaug，对步骤S21的视频帧图像进行数据增强处理，其中数据增强处理包括旋转、平移、裁剪、加入高斯噪声操作。

在一较佳的实施例中，所述步骤S3中的改进的YOLOv4-tiny算法具体为：

步骤S31:在YOLOv4-tiny算法的FPN层的Concat操作中使用更浅层的特征图，丰富Concat后的特征图的小目标位置细节信息；

步骤S32:在YOLOv4-tiny算法的YOLO Head前加入CBAM注意力机制模块，使得网络模型更关注于对重要信息的学习；

步骤S33:使用Soft-NMS算法代替YOLOv4-tiny算法中原有的NMS算法。

在一较佳的实施例中，所述步骤S4中的工地现场的摄像头将接入本地主机端，同时在本地主机端通过对模型的加载来实现对实际施工现场中工地人员的安全帽佩戴情况进行检测。

在一较佳的实施例中，所述步骤S5中的声音警报信息将通过Python中自带的playsound模块来实现；playsound模块通过“pip install playsound”这个命令来进行安装。

在一较佳的实施例中，当输入图像的大小为608×608时，YOLOv4-tiny算法中由CSPDarknet53-tiny产生的两个有效特征层的尺寸大小分别是19×19，38×38；尺寸大小为38×38的有效特征层具有较多的小目标位置细节信息，而尺寸大小为19×19的有效特征层具有较多的图像语义信息，这两个有效特征层会参与到加强特征提取网络FPN层的构建；其中需要注意的是，ResidualBlock_Body3输出的用于接下来进行Concat操作的特征图是未经过MaxPooling处理的，所以其尺寸大小仍然为38×38；YOLOv4-tiny算法中的两个YOLOHead的输出特征图大小分别是19×19，38×38；尺寸大小为19×19的YOLO Head负责进行对较大目标的检测，尺寸大小为38×38的YOLO Head负责进行对较小目标的检测；

将ResidualBlock_Body2中的在MaxPooling处理前的尺寸大小为76×76的输出特征图经过下采样之后，再将其参与到尺寸大小为19×19的特征图通过卷积和上采样之后与尺寸大小为38×38的特征图进行Concat的操作之中。

在一较佳的实施例中，YOLOv4-tiny算法中的主干特征提取网络CSPDarknet53-tny由3个BasicConv模块以及3个ResidualBlock_Body模块构成；其中BasicConv模块包含DarknetConv2D、BatchNormalization以及LeakyReLU激活函数结构；ResidualBlock_Body模块由4个BasicConv模块以及1个MaxPooling模块构成；从CSPDarknet53-tiny产生的两个有效特征层会经过FPN即Feature Pyramid Network层的处理，经过FPN层处理后的特征图会输入到YOLO Head中进行分类与回归处理。

在一较佳的实施例中，在YOLOv4-tiny算法的YOLO Head前加入包含通道注意力机制和空间注意力机制的CBAM注意力机制模块；

在通道注意力机制模块中，通过将输入的特征图分别进行最大池化以及平均池化操作，得到两个分别表示最大池化特征以及平均池化特征的描述符，然后将这两个描述符输入到共享全连接层Shared MLP中生成两个通道注意力特征图，接下来将这两个通道注意力特征图进行在元素级别上的求和运算，再经过Sigmoid函数的激活，输出最终的通道注意力特征图；这个最终的通道注意力特征图会与原始的输入特征图作乘法运算，从而得到经过通道注意力权重值加权后的特征图；

在空间注意力机制模块中，将经过通道注意力权重值加权后的特征图作为输入，首先进行一个沿着通道轴上的最大池化以及平均池化操作，得到两个特征图，然后将它们进行Concat操作再通过卷积核进行卷积处理，变为1个通道，再经过Sigmoid函数激活后获得空间注意力特征图；这个空间注意力特征图会与经过通道注意力权重值加权后的特征图作乘法运算，从而得到最终的经过CBAM模块处理后的特征图。

在一较佳的实施例中，采用基于高斯加权表达方式的Soft-NMS算法，相应的计算方式为：

其中，

D表示最终检测结果的集合，S_i表示当前待处理的检测框的置信度得分，IOU表示两个边框的交集与并集的比值，N_t表示IOU的阈值，M表示置信度得分最高的检测框，σ表示高斯惩罚函数的超参数，B_i表示当前待处理的检测框，e是自然对数的底数。

与现有技术相比，本发明具有以下有益效果：本发明通过对YOLOv4-tiny算法进行一些改进：在YOLOv4-tiny算法的FPN层的Concat操作中使用了更浅层的特征图，丰富了Concat后的特征图的小目标位置细节信息；在YOLOv4-tiny算法的YOLO Head前加入CBAM注意力机制模块，使得网络模型更关注于对重要信息的学习，以提升算法对小目标的检测能力；使用Soft-NMS算法代替YOLOv4-tiny算法中原有的NMS算法，从而减少遮挡目标漏检情况的发生。改进的YOLOv4-tiny算法在保证检测模型较高检测效率的基础上，进一步提高了模型的检测精度，具有较好的研究意义与工程价值。

附图说明

图1是本发明优选实施例提供的一种在工地施工场景下的安全帽佩戴检测方法的流程图；

图2是本发明优选实施例提供的一种改进的YOLOv4-tiny算法的网络模型结构图；

图3是本发明优选实施例提供的CBAM注意力机制结构图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式；如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

一种在工地施工场景下的安全帽佩戴检测方法，旨在保证工地安全帽佩戴检测效率的同时，进一步提高检测精度。

参考图1，具体包括如下步骤：

步骤S1:采集工地施工场景的视频帧图像；

步骤S2:将已获取到的视频帧图像进行标注和数据增强处理；

具体来说，所述步骤S1的视频帧图像是指在实际的施工环境下通过工业摄像头采集到视频后，再通过对视频进行帧的获取处理后而得到的图像。

具体来说，所述步骤S2图像预处理方法的实现过程为：

步骤S22:通过使用Python中的数据增强库imgaug，对步骤S21的视频帧图像进行数据增强处理，以提高训练后的网络模型的泛化能力，其中数据增强处理包括了旋转、平移、裁剪、加入高斯噪声等操作。

具体来说，所述步骤S3中的改进的YOLOv4-tiny算法具体为：

步骤S31:如图2所示，在YOLOv4-tiny算法的FPN层的Concat操作中使用了更浅层的特征图，丰富了Concat后的特征图的小目标位置细节信息；

步骤S32:如图2所示，在YOLOv4-tiny算法的YOLOHead前加入CBAM注意力机制模块，使得网络模型更关注于对重要信息的学习，以提升算法对小目标的检测能力；

步骤S33:使用Soft-NMS算法代替YOLOv4-tiny算法中原有的NMS算法，以减少遮挡目标漏检情况的发生。

具体来说，所述步骤S4中的工地现场的摄像头将接入本地主机端，同时在本地主机端通过对模型的加载来实现对实际施工现场中工地人员的安全帽佩戴情况进行检测。

具体来说，所述步骤S5中的声音警报信息将通过Python中自带的playsound模块来实现。playsound模块可以通过“pip install playsound”这个命令来进行安装。

YOLOv4-tiny算法概述：

YOLOv4-tiny算法中的主干特征提取网络CSPDarknet53-tiny由3个BasicConv模块以及3个ResidualBlock_Body模块构成。其中BasicConv模块包含了DarknetConv2D、BatchNormalzation以及Leaky ReLU激活函数等结构；ResidualBlock_Body模块由4个BasicConv模块以及1个MaxPooling模块构成。从CSPDarknet53-tiny产生的两个有效特征层会经过FPN(Feature Pyramid Network)层的处理，经过FPN层处理后的特征图会输入到YOLO Head中进行分类与回归处理。

当输入图像的大小为608×608时，由CSPDarknet53-tiny产生的两个有效特征层的尺寸大小分别是19×19，38×38。尺寸大小为38×38的有效特征层具有较多的小目标位置细节信息，而尺寸大小为19×19的有效特征层具有较多的图像语义信息，这两个有效特征层会参与到加强特征提取网络FPN层的构建。其中需要注意的是，ResidualBlock_Body3输出的用于接下来进行Concat操作的特征图是未经过MaxPooling处理的，所以其尺寸大小仍然为38×38。YOLOv4-tiny算法中的两个YOLO Head的输出特征图大小分别是19×19，38×38。尺寸大小为19×19的YOLO Head负责进行对较大目标的检测，尺寸大小为38×38的YOLO Head负责进行对较小目标的检测。

本发明改进点描述：

(1)YOLOv4-tiny算法通过主干特征提取网络CSPDarknet53-tiny进行一系列的特征提取，只用到了主干特征提取网络中的两个有效特征层。虽然YOLOv4-tiny算法中的尺寸大小为38×38的特征图相比于尺寸大小为19×19的特征图有着更多的小目标位置细节信息，但它是经过主干特征提取网络的一系列特征提取之后的结果，难免会有或多或少的小目标位置细节信息丢失。尺寸大小为19×19的特征图通过卷积和上采样之后与尺寸大小为38×38的特征图进行Concat操作，但是Concat后的特征图的小目标位置细节信息还是较为缺乏。因此，本发明通过将ResidualBlock_Body2中的在MaxPooling处理前的尺寸大小为76×76的输出特征图经过下采样之后，再将其参与到尺寸大小为19×19的特征图通过卷积和上采样之后与尺寸大小为38×38的特征图进行Concat的操作之中(如图2所示)，这样能够很好地丰富了Concat之后的特征图的小目标位置细节信息，更有利于网络模型对小目标特征的学习。

(2)CBAM(Convolutional Block Attention Module)模块(如图3所示)包含了两种注意力机制模块：通道注意力机制模块和空间注意力机制模块。通道注意力和空间注意力分别聚焦的是关于“什么是重要的”和“重要的地方在哪里”的问题。

在通道注意力机制模块中，通过将输入的特征图分别进行最大池化以及平均池化操作，得到两个分别表示最大池化特征以及平均池化特征的描述符，然后将这两个描述符输入到共享全连接层(Shared MLP)中生成两个通道注意力特征图，接下来将这两个通道注意力特征图进行在元素级别上的求和运算，再经过Sigmoid函数的激活，输出最终的通道注意力特征图。这个最终的通道注意力特征图会与原始的输入特征图作乘法运算，从而得到经过通道注意力权重值加权后的特征图。

在空间注意力机制模块中，将经过通道注意力权重值加权后的特征图作为输入，首先进行一个沿着通道轴上的最大池化以及平均池化操作，得到两个特征图，然后将它们进行Concat操作再通过卷积核进行卷积处理，变为1个通道，再经过Sigmoid函数激活后获得空间注意力特征图。这个空间注意力特征图会与经过通道注意力权重值加权后的特征图作乘法运算，从而得到最终的经过CBAM模块处理后的特征图。

Sigmoid函数是神经网络中比较常见的激活函数，其计算公式为：

其中，x表示输入值，e是自然对数的底数，Sigmoid函数会将输入值映射到介于0到1之间的值。

如图2所示，在YOLOv4-tiny算法的YOLO Head前加入CBAM模块能够使得网络模型更加关注于对检测有用的信息的学习。

(3)当在检测存在遮挡的目标时，传统的NMS算法会直接将和置信度得分最大的Box的IOU大于某个阈值的Box的置信度得分直接置零，并进行过滤掉，从而存在着目标漏检的可能性。Soft-NMS算法能够较好地解决此问题，Soft-NMS算法有两种置信度得分衰减的表达方式，一种是基于线性加权的，其计算方式为：

其中，S_i表示当前待处理的检测框的置信度得分，IOU表示两个边框的交集与并集的比值，N_t表示IOU的阈值，M表示置信度得分最高的检测框，B_i表示当前待处理的检测框。

但是基于线性加权的置信度得分衰减的计算方式会出现函数不连续的问题，这样会导致检测框的置信度得分出现断层的现象。因此，为了减少遮挡目标漏检情况的发生，本发明选用了另一种基于高斯加权的表达方式，其计算方式为：

其中，

总之，NMS算法直接将大于IOU阈值的检测框进行剔除，显得简单粗暴，可能存在着目标漏检的问题。然而，Soft-NMS算法不是直接将与置信度得分最高框的IOU大于阈值的检测框的置信度得分直接变为0，进行去除，而是用较低的置信度得分代替原来较高的置信度得分，这样能够较好地解决检测框误删的问题，取得更好的检测效果。

Claims

1.一种在工地施工场景下的安全帽佩戴检测方法，其特征在于包括如下步骤：

步骤S1:采集工地施工场景的视频帧图像；

步骤S2:将已获取到的视频帧图像进行标注和数据增强处理；

2.根据权利要求1所述的一种在工地施工场景下的安全帽佩戴检测方法，其特征在于，所述步骤S1的视频帧图像是指在实际的施工环境下通过工业摄像头采集到视频后，再通过对视频进行帧的获取处理后而得到的图像。

3.根据权利要求1所述的一种在工地施工场景下的安全帽佩戴检测方法，其特征在于，所述步骤S2图像预处理方法的实现过程为：

4.根据权利要求1所述的一种在工地施工场景下的安全帽佩戴检测方法，其特征在于，所述步骤S3中的改进的YOLOv4-tiny算法具体为：

步骤S33:使用Soft-NMS算法代替YOLOv4-tiny算法中原有的NMS算法。

5.根据权利要求1所述的一种在工地施工场景下的安全帽佩戴检测方法，其特征在于，所述步骤S4中的工地现场的摄像头将接入本地主机端，同时在本地主机端通过对模型的加载来实现对实际施工现场中工地人员的安全帽佩戴情况进行检测。

6.根据权利要求1所述的一种在工地施工场景下的安全帽佩戴检测方法，其特征在于，所述步骤S5中的声音警报信息将通过Python中自带的playsound模块来实现；playsound模块通过“pip install playsound”这个命令来进行安装。

7.根据权利要求1所述的一种在工地施工场景下的安全帽佩戴检测方法，其特征在于，当输入图像的大小为608×608时，YOLOv4-tiny算法中由CSPDarknet53-tiny产生的两个有效特征层的尺寸大小分别是19×19，38×38；尺寸大小为38×38的有效特征层具有较多的小目标位置细节信息，而尺寸大小为19×19的有效特征层具有较多的图像语义信息，这两个有效特征层会参与到加强特征提取网络FPN层的构建；其中需要注意的是，ResidualBlock_Body3输出的用于接下来进行Concat操作的特征图是未经过MaxPooling处理的，所以其尺寸大小仍然为38×38；YOLOv4-tiny算法中的两个YOLO Head的输出特征图大小分别是19×19，38×38；尺寸大小为19×19的YOLO Head负责进行对较大目标的检测，尺寸大小为38×38的YOLO Head负责进行对较小目标的检测；

8.根据权利要求7所述的一种在工地施工场景下的安全帽佩戴检测方法，其特征在于，YOLOv4-tiny算法中的主干特征提取网络CSPDarknet53-tiny由3个BasicConv模块以及3个ResidualBlock_Body模块构成；其中BasicConv模块包含DarknetConv2D、BatchNormalization以及Leaky ReLU激活函数结构；ResidualBlock_Body模块由4个BasicConv模块以及1个MaxPooling模块构成；从CSPDarknet53-tiny产生的两个有效特征层会经过FPN即Feature Pyramid Network层的处理，经过FPN层处理后的特征图会输入到YOLO Head中进行分类与回归处理。

9.根据权利要求8所述的一种在工地施工场景下的安全帽佩戴检测方法，其特征在于，在YOLOv4-tiny算法的YOLO Head前加入包含通道注意力机制和空间注意力机制的CBAM注意力机制模块；

10.根据权利要求4所述的一种在工地施工场景下的安全帽佩戴检测方法，其特征在于，采用基于高斯加权表达方式的Soft-NMS算法，相应的计算方式为：

其中，

D表示最终检测结果的集合，S_i表示当前待处理的检测框的置信度得分，IOU表示两个边框的交集与并集的比值，N_t表示IOU的阈值，M表示置信度得分最高的检测框，σ表示高斯惩罚函数的超参数，B_i表示当前待处理的的检测框，e是自然对数的底数。