CN116844114A

CN116844114A - 一种基于YOLOv7-WFD模型的安全帽检测方法及装置

Info

Publication number: CN116844114A
Application number: CN202310916994.0A
Authority: CN
Inventors: 陈建军; 朱君宁; 宋晶晶; 王�琦; 杨习贝
Original assignee: Jiangsu University of Science and Technology
Current assignee: Jiangsu University of Science and Technology
Priority date: 2023-07-25
Filing date: 2023-07-25
Publication date: 2023-10-03

Abstract

本发明公开了一种基于YOLOv7‑WFD模型的安全帽检测方法及装置，预先获取工地现场原始图像，并对图像进行预处理；构建YOLOv7‑WFD模型：在原始的YOLOv7模型中，将主干中的最后一个ELAN模块替换为ELAN‑D模块，即将原ELAN模块中的部分CBS替换为DBS；所述DBS模块由一个可变形卷积层DCN、一个归一化层和SiLU激活函数组成；另外，将头部中的UpSample模块替换为CARAFE上采样算子，扩大模型视野范围；训练YOLOv7‑WFD模型，并使用结合了动态非单调聚焦机制的Wise‑IoU损失函数作为边界框回归损失评价YOLOv7‑WFD模型性能；将待检测的图像输入经过训练好的YOLOv7‑WFD模型中，输出检测结果。本发明能快速、精确的检测出工人是否佩戴安全帽。

Description

一种基于YOLOv7-WFD模型的安全帽检测方法及装置

技术领域

本发明属于目标检测技术领域，具体涉及一种基于YOLOv7-WFD模型的安全帽检测方法及装置。

背景技术

近年来，基于图像或视频的目标检测已成为计算机视觉领域的研究热点之一。目标检测网络模型具备同时判断和识别多个目标类别与位置的能力，因此在解决工程安全问题方面具有广泛应用价值。

在工程行业内，建筑业是事故风险较高的行业之一，为了降低风险，在施工过程中，通常要求工人们佩戴安全护具。安全帽作为工人最基本的个人防护装备之一，在保护工人的生命安全方面具有极其重要的作用。然而，由于现场监管不利以及工人安全意识的不高，因未佩戴安全帽而导致的工地伤亡事故通常会造成巨大的生命和财产损失。据统计，在建筑行业中，工人的伤亡率一直居高不下，其中头部损伤占据了所有伤害的20％以上。为了降低伤亡率，工地迫切需要一个有效的监管系统来监督工人是否佩戴安全帽。过去，大部分施工现场主要依靠人工管理对安全帽佩戴进行监管。然而，由于施工现场的人流量大、作业范围广，人工监管的效率一直较低。随着科技的发展，视频监控的普及度越来越高，逐渐成为安全帽检测系统的主要手段。然而，传统的视频监控智能进行视频录制而没有视频分析的功能，最终的决策仍然依赖于人类的判断，自动化程度不高；而基于深度学习中的目标检测算法则成为提高自动化程度的重要工具。

传统的目标检测算法采用基于滑动窗口的区域选择策略，这种方法缺乏针对性，并且复杂度较高。此外，手工设计的特征提取器在处理多样化目标时的鲁棒性不强。随着科技的发展，现代计算机已经能够满足深度学习对于计算量的需求，因此具备强大学习能力的深度学习被广泛应用于图像处理和目标检测领域。目前，许多目标检测任务已经放弃了传统的方法，转而采用基于卷积神经网络的方法，例如CNN、Faster-CNN。这些方法的优点在于不需要手动设计特征提取器，在提取图像特征方面具有更高的效能。与传统目标检测算法相比，基于卷积神经网络的方法在检测速度和精度上取得了巨大的提升，但是针对特定应用场景仍有很大的提升空间。

发明内容

发明目的：本发明提供一种基于YOLOv7-WFD模型的安全帽检测方法及装置，能快速、精确的检测出工人是否佩戴安全帽。

技术方案：本发明所述的一种基于YOLOv7-WFD模型的安全帽检测方法，包括以下步骤：

(1)预先获取工地现场原始图像，并对图像进行预处理；

(2)构建YOLOv7-WFD模型：在原始的YOLOv7模型中，将主干中的最后一个ELAN模块替换为ELAN-D模块，即将原ELAN模块中的部分CBS替换为DBS；所述DBS模块由一个可变形卷积层DCN、一个归一化层和SiLU激活函数组成；另外，将头部中的UpSample模块替换为CARAFE上采样算子，扩大模型视野范围；

(3)训练YOLOv7-WFD模型，并使用结合了动态非单调聚焦机制的Wise-IoU损失函数作为边界框回归损失评价YOLOv7-WFD模型性能；

(4)将待检测的图像输入经过训练好的改进的YOLOv7-WFD模型中，输出检测结果。

进一步地，步骤(2)所述可变形卷积层DCN实现过程如下：

给出一个输入的RGB图片,与当前像素p₀,DCN算子公式表示为：

其中，C表示通道数,H表示图片的长度,W表示图片的宽度，G表示分组总数，J表示采样点总数，k枚举采样点，w_g表示第g组的投影权重,m_gk表示第g组和第k个网格采样点的位置无关投影权重，通过sigmoid函数进行归一化，表示输入特征图的被切割一部分,p_k表示预定义网格采样的第k个位置是正则卷积，△p_gk表示第g组和第k个网格采样点对应的偏移量，/>且经过DCN算子处理过后图片的通道数C'＝C/G。

进一步地，步骤(2)所述CARAFE上采样算子包括核预测模块和内容感知重组模块；

所述核预测模块根据目标位置的内容通过预测生成自适应重组内核，重组核的大小为k_up×k_up：

w_l'＝ψ(N(x_l,k_encoder))

核预测模块ψ根据内容和邻域的感知生成重组核，并为每个位置l′＝(i′,j′)预测基于位置的核w_l'；

所述内容感知重组模块应用加权和算子φ对以l＝(i,j)为中心的N(x_l,k_up)区域进行特征重组，以下为重组公式：

其中，r＝[k_up/2]。

进一步地，所述核预测模块包括通道压缩器、内容编码器和内核归一化器；

所述通道压缩器通过采用1×1卷积层将输入特征通道从C压缩为C_m，允许后续内容编码器中使用更大的内核大小；

所述内容编码器应用内核大小k_encoder的卷积层来根据输入特征的内容生成重组内核；编码器的参数为：k_encoder×k_encoder×C_m×C_up,

所述核归一化器对于每个重组核，使用softmax函数进行归一化，保证核的权重和自适应性。

进一步地，步骤(3)所述Wise-IoU的计算公式如下：

其中，b表示预测边界框的质心，b^gt表示真实边界框的质心,ρ表示b和b^gt之间的欧几里得度量,d是包含预测边界框和地面真实边界框的最小封闭区域的对角线距离,IoU为预测边界框与真实边界框之间的交并比；W_g和H_g分别为预测边界框和地面真实边界框的最小封闭区域的宽与长，*表示将W_g和H_g从计算图中分离出来，以避免产生影响收敛的梯度；r表示梯度增益，β表示异常值的程度，α和δ是超参数。

进一步地，步骤(2)所述CARAFE采用一组固定的超参数，其中通道压缩器的C_m为64，内容编码器的k_encoder＝3,k_up＝5,上采样系数σ＝2。

基于相同的发明构思，本发明还提出一种装置设备，包括存储器和处理器，其中：

存储器，用于存储能够在处理器上运行的计算机程序；

处理器，用于在运行所述计算机程序时，执行如上所述的基于改进的YOLOv7-WFD模型模型的安全帽检测方法步骤。

基于相同的发明构思，本发明还提出一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被至少一个处理器执行时实现如上所述的基于改进的YOLOv7-WFD模型模型的安全帽检测方法步骤。

有益效果：与现有技术相比，本发明的有益效果：本发明构建的YOLOv7-WFD模型提出了一种新的模块DBS，该模块中使用了可变形卷积层替代原CBS中的常规卷积层，实现了模型对输入数据的采样偏移量和调制标量自适应调整的能力，从而实现了自适应空间聚合；这一方法降低了正则卷积的过归纳偏置，并且仍然采用常见的3x3卷积窗口，避免了大密度核所带来的优化问题和高昂的计算成本；引入了CARAFE上采样算子，通过该算子，模型能够获得更广阔的视野，不再局限于利用亚像素邻域的差异；相反，它能够在更大的接受域中聚合上下文信息；此外，CARAFE上采样算子不再对所有样本使用固定的内核，而是支持特定于实例的内容感知处理，从而能够动态生成自适应内核；通过采用结合了动态非单调聚焦机制与Wise-IoU损失函数作为边界框回归损失，使得检测器能够考虑不同质量的锚盒，从而提升检测任务的整体性能，这一策略还能够评估锚盒质量的“离群值”，进一步提高模型的鲁棒性和准确性；基于以上实现了是否佩戴安全帽的精准快速检测。

附图说明

图1为本申请提供的改进的YOLOv7-WFG网络模型总体结构图；

图2为本申请所描述的可变形卷积DCN的动态稀疏核的表现形式图；

图3为本申请所描述的可变形卷积层DCN的执行过程图；

图4为本申请所描述的CARAFE上采样算子的执行过程图。

具体实施方式

以下将结合附图，对本发明的技术方案进行详细说明。

参考图1，本发明供了一种基于YOLOv7-WFD(Wise,Feature-aware andDeformable)模型的安全帽检测方法，用于对工人是否佩戴安全帽进行检测，具体包括以下步骤：

步骤1：预先获取工地现场原始图像，并对图像进行预处理；将处理后的图像划分训练集和测试集，用于训练下面构建的YOLOv7-WFD模型，并测试模型的性能。

步骤2：如图1所示，构建YOLOv7-WFD模型：在原始的YOLOv7模型中，将主干中的最后一个ELAN模块替换为ELAN-D模块，即将原ELAN模块中的部分CBS替换为DBS；另外，将头部中的UpSample模块替换为CARAFE上采样算子，扩大模型视野范围。

针对原YOLOv7模型的主干部分中最后一个ELAN模块,使用DBS替代部分CBS，从而形成新的ELAN-D模块。其中，CBS模块由一个卷积层(Conv2d)、一个归一化层(BatchNorm2d)和SiLU激活函数组成；而DBS是在CBS的基础上改进的模块，由一个可变形卷积层(DCN)、一个归一化层(BatchNorm2d)和SiLU激活函数组成。由于检测过程中安全头盔和人脸存在旋转和变形，传统的具有固定感受野的卷积层可能无法有效捕获这些空间变换。因此，将原来CBS中的传统卷积层Conv2d替换为可变形卷积层DCN，可以增强模型的特征提取能力。

与传统卷积相比，DCN具有以下优点：(1)如图2所示，DCN在采样位置引入了偏移量后DCN动态稀疏核的表现形式，使得卷积核的结构不是固定的，而是根据图像中物体的特征动态调整。这种灵活的映射可以更广泛地覆盖检测目标的外观特征，从而捕获更有价值的信息。(2)根据深度可分离卷积技术，DCN将卷积权值分为Depthwise卷积与Pointwise卷积两部分。相比常规卷积，DCN其参数量和运算成本较低，可以加快模型计算的速度。(3)DCN引入多组机制，每组执行不同的偏移采样、样本向量投影和因子调制，这种操作增强了DCN算子的表达能力。(4)DCN利用softmax函数对调制标量进行归一化，增强了模型的稳定性。(5)DCN借鉴稀疏全局建模的思想，保留了CNN的归纳偏差，从而增强了模型在检测人和物体时的特征提取能力。这种方法使得DCN算子可以获取更高的检测精度，但代价是检测速度略有下降。

综上DCN优点可知，DCN具有更大的适应性，解决了传统卷积无法学习长范围特征的问题，使得模型更适合多样化的应用场景。图3为可变形卷积执行过程示例图，数学描述如下。

若给出一个三通道的RGB图片，记为与当前像素p₀,DCN算子公式可表示为:

其中，C表示通道数,H表示图片的长度,W表示图片的宽度，G表示分组总数，K表示采样点总数，k枚举采样点，w_g表示第g组的投影权重,m_gk表示第g组和第k个网格采样点的位置无关投影权重，通过sigmoid函数进行归一化，表示输入特征图的被切割一部分,p_k表示预定义网格采样的第k个位置是正则卷积，△p_gk表示第g组和第k个网格采样点对应的偏移量，/>且经过DCN算子处理过后图片的通道数C'＝C/G。

将原YOLOv7模型的头部中的Upsample模块替换为CARAFE上采样算子。CARAFE上采样算子具有的特点：(1)感受野大。传统方法通常使用最近邻插值和双线性插值，将模型的感受野限制为1×1或2×2。然而，CARAFE在上采样过程中考虑了整个特征图，扩大了模型的感受野，从而更好地保留了图像细节和边缘信息，同时减少了上采样过程中锯齿状边缘和模糊效果的出现。(2)CARAFE通过动态生成适合不同目标的自适应内核来支持特定于实例的内容感知处理。而传统的最近邻插值和双线性插值依赖固定规则进行上采样，无法根据内容进行调整。(3)轻量且快速。CARAFE引入的计算开销很小，并且对现有网络模型具有良好的适应性，可以无缝集成到深度神经网络的任何位置。与传统的最近邻插值或双线性插值相比，CARAFE更容易与其他网络层(例如卷积层或池化层)结合。图4为CARAFE上采样算子的执行过程图。

在CARAFE计算过程中，若给定一个尺寸为C×H×W的特征图X和上采样系数σ(假设σ为整数)，CARAFE将生成一个尺寸为C×σH×σW的新特征图X'。对于输入X的任意一个位置l＝(i,j)，输出X'都有一个l'＝(i',j')与之相对应；其中i＝[i′/σ],j＝[j′/σ]。

具体来说，CARAFE上采样算子可以进一步细分为两个模块：核预测模块和内容感知重组模块。

核预测模块：CARAFE根据目标位置的内容通过预测生成自适应重组内核。重组核的作用是对特征进行重新组合和调整，以获得更准确、更丰富的上采样结果。这个预测过程保证了CARAFE算子对特征的精确调整，重组核的大小为k_up×k_up：

w_l'＝ψ(N(x_l,k_encoder))

该公式为重组核生成公式。核预测模块ψ根据内容和邻域的感知生成重组核，并为每个位置l′＝(i′,j′)预测基于位置的核w_l′。

核预测模块可以细分为三个子模块：通道压缩器、内容编码器和内核归一化器,这三个子模块详细解释如下：

(1)通道压缩器:通过采用1×1卷积层将输入特征通道从C压缩为C_m，减少了模型的参数数量和计算成本，从而提高了计算速度。此外，这允许后续内容编码器中使用更大的内核大小。

(2)内容编码器:应用内核大小k_encoder的卷积层来根据输入特征的内容生成重组内核。编码器的参数为k_encoder×k_encoder×C_m×C_up,

(3)核归一化器:对于每个重组核,使用softmax函数进行归一化，保证核的权重和自适应性。

内容感知重组模块：在内容感知重组模块中，应用加权和算子φ对以l＝(i,j)为中心的N(x_l,k_up)区域进行特征重组，以下为重组公式：

其中，为使公式简洁,记r＝[k_up/2]；CARAFE采用了一组固定的超参数，其中通道压缩器的C_m为64，内容编码器的k_encoder＝3,k_up＝5,上采样系数σ＝2。

步骤3：训练YOLOv7-WFD模型，并使用结合了动态非单调聚焦机制的Wise-IoU损失函数作为边界框回归损失评价YOLOv7-WFD模型性能。将待检测的图像输入经过训练好的改进的YOLOv7-WFD模型中，输出检测结果。

原YOLOv7模型使用的定位损失的损失函数为CIoU，该损失函数引入了锚框的长宽比来稳定梯度。但是，在安全帽检测的实际工作中，通常由于场景复杂且人流量大而导致采集的图像样本质量较低，而低质量的样本会产生有害的梯度，为了减轻低质量样本对训练结果的负面影响，改进的模型采用结合了动态非单调聚焦机制的Wise-IoU作为损失函数，该损失函数可以减轻低质量样本对训练结果的负面影响，并使得模型更加稳定，具有更好的泛化能力。结合了动态非单调聚焦机制的Wise-IoU，是利用“离群值”来评估锚框质量的。离群值越小，表明锚框的质量越低，因此该锚框将被分配较小的梯度增益，以将边界框回归集中在较高质量的锚框上。

Wise-IoU的计算公式如下:

其中，b表示预测边界框的质心，b^gt表示真实边界框的质心,ρ表示b和b^gt之间的欧几里得度量,d是包含预测边界框和地面真实边界框的最小封闭区域的对角线距离,IoU为预测边界框与真实边界框之间的交并比,W_g和H_g分别为预测边界框和地面真实边界框的最小封闭区域的宽与长，*表示将W_g和H_g从计算图中分离出来，以避免产生影响收敛的梯度；r表示梯度增益,β表示异常值的程度，α和δ是超参数，α设置为1.9，δ设置为3。由于IoU是动态的，所以锚盒的质量划分标准也是动态的，这使得Wise-IoU能够在每一个时刻做出最符合当前情况的梯度增益分配策略。

基于相同的发明构思，本发明还提出一种装置设备，包括存储器和处理器，其中：存储器，用于存储能够在处理器上运行的计算机程序；处理器，用于在运行所述计算机程序时，执行如上所述的基于改进的YOLOv7-WFD模型模型的安全帽检测方法步骤。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于YOLOv7-WFD模型的安全帽检测方法，其特征在于，包括以下步骤：

(1)预先获取工地现场原始图像，并对图像进行预处理；

2.根据权利要求1所述的一种基于YOLOv7-WFD模型的安全帽检测方法，其特征在于，步骤(2)所述可变形卷积层DCN实现过程如下：

给出一个输入的RGB图片,与当前像素p₀,DCN算子公式表示为：

3.根据权利要求1所述的一种基于YOLOv7-WFD模型的安全帽检测方法，其特征在于，步骤(2)所述CARAFE上采样算子包括核预测模块和内容感知重组模块；

w_l'＝ψ(N(x_l,k_encoder))

核预测模块ψ根据内容和邻域的感知生成重组核，并为每个位置l′＝(i′,j')预测基于位置的核w_l'；

其中，r＝[k_up/2]。

4.根据权利要求3所述的一种基于YOLOv7-WFD模型的安全帽检测方法，其特征在于，所述核预测模块包括通道压缩器、内容编码器和内核归一化器；

5.根据权利要求1所述的一种基于YOLOv7-WFD模型的安全帽检测方法，其特征在于，步骤(3)所述Wise-IoU的计算公式如下：

其中，<表示预测边界框的质心，<^gt表示真实边界框的质心,ρ表示<和<^gt之间的欧几里得度量,d是包含预测边界框和地面真实边界框的最小封闭区域的对角线距离,IoU为预测边界框与真实边界框之间的交并比；W_g和H_g分别为预测边界框和地面真实边界框的最小封闭区域的宽与长，*表示将W_g和H_g从计算图中分离出来，以避免产生影响收敛的梯度；r表示梯度增益，β表示异常值的程度，α和δ是超参数。

6.根据权利要求1所述的一种基于YOLOv7-WFD模型的安全帽检测方法，其特征在于，步骤(2)所述CARAFE采用一组固定的超参数，其中通道压缩器的C_m为64，内容编码器的k_encoder＝3,k_up＝5,上采样系数σ＝2。

7.一种装置设备，其特征在于，包括存储器和处理器，其中：

存储器，用于存储能够在处理器上运行的计算机程序；

处理器，用于在运行所述计算机程序时，执行如权利要求1-6任一项所述的基于YOLOv7-WFD模型的安全帽检测方法步骤。

8.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被至少一个处理器执行时实现如权利要求1-6任一项所述的基于YOLOv7-WFD模型的安全帽检测方法步骤。