CN114463677A

CN114463677A - 一种基于全局注意力的安全帽配戴检测方法

Info

Publication number: CN114463677A
Application number: CN202210062829.9A
Authority: CN
Inventors: 王亮; 孙李程
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2022-01-19
Filing date: 2022-01-19
Publication date: 2022-05-10
Anticipated expiration: 2042-01-19
Also published as: CN114463677B

Abstract

一种基于全局注意力的安全帽配戴检测方法，属于安全帽配戴检测系统领域，包括步骤：(1)预处理，(2)构建全局注意力的目标框类别分类和预测框位置回归任务的神经网络，(3)训练神经网络，(4)安全帽配戴检测。本发明针对施工现场复杂，容易忽略重要特征信息，检测精度低无法达到实时性的问题，(1)提出了一种相关卷积聚合模块框架，以增强上下文特征信息的能力；(2)利用基于全局注意力的上下文信息聚合模块以增强特征融合与聚合上下文特征的能力；(3)通过自注意力局部特征提取模块使网络模型可以更多提取的特征中安全帽特征信息以及上下文整体信息；(4)在全局检测网络模块联合了全局注意力，保留高频特征信息细化网络模型。

Description

一种基于全局注意力的安全帽配戴检测方法

技术领域

本发明涉及安全帽配戴检测系统领域，具体涉及一种基于全局注意力的配戴安全帽检测方法。

背景技术

根据监控视频与拍摄图像而获取其中的目标是计算机视觉中较为重要的一部分，主要是涉及很多领域，涵盖了交通监视，社会安全，军事防护和施工监控等，特别是在安全帽的不规范配戴以及使用上是施工场合上最为关注和值得监控的，因不规范配戴安全帽引发的危险事故和施工场合工人安全问题是安全帽检测系统面临的主要挑战，此外，在工地及施工场所工作必须按规定正确配戴安全帽是中国乃至全世界的安全准则和对建筑工人的基本要求。尤其是在这种阴暗环境下，对于检测算法也是一项重大的挑战。然而，由于监控视频和图像中常常因为视角失真，尺度变化，交叉遮挡和施工现场复杂场景，安全帽佩戴的检测精度仍然不足。因此施工场合中安全帽配戴检测系统一直是极具挑战性的难题。

由于复杂的施工区域以及工人位置散乱导致的安全帽难以识别，同时安全帽体积较小，光线阴暗且有遮挡，传统检测算法只能通过各种传感器对安全帽进行压力或视觉传感器进行检测。所以先前的研究工作是通过对部分细节间接对安全帽进行检测。例如压力传感器来检测安全帽的配戴问题，利用蓝牙装置将数据传回计算机处理，然而，这种方法极易受环境的干扰，还依赖于视觉传感器之外的其他传感器，而且还使得工人们的活动范围有限，高成本低鲁棒性导致无法大规模应用。直到2020年，Siebert等提出了利用多尺度特征金字塔对安全帽配戴进行检测(F.W.Siebert,H.H.Lin,Detecting motorcycle helmetuse with deep learning,Accident；analysis and prevention,Vol.134,105319(1)-105319(11),2020.)。它的基本思想是通过卷积神经网络有效的提取特征，多尺度特征进行强化利用获得表达力更强包含多尺度目标区域信息的特征图，最后在特征图金字塔网络的特征图集合上分别使用两个结构相同但是不同大小参数的卷积层网络，从而完成目标框类别分类和预测框位置回归任务。但可用安全帽的数据集数量较少，场景单一，无法很好的应用到实际复杂的施工场所，即精度和检测速度依然无法达到要求。

因此，本发明提出一种基于全局注意力捕捉局部边缘特征信息的同时兼顾全局上下文特征信息的端到端的神经网络用于安全帽佩戴检测算法。首先采用相关卷积聚合模块以降低模型的参数量，其次利用基于全局注意力的上下文信息聚合模块以增强特征融合与上下文特征信息的能力，然后通过自注意力局部特征提取模块使网络模型可以更多的关心特取特征中的某些重要信息或上下文整体信息，最后在全局检测网络模块依然联合了全局注意力，保留高频特征信息的同时能够有效的进行特征提取。利用以上所提出的网络，提出了一种新的安全帽佩戴检测算法，在保证较高检测准确率的同时仍然能够有较快的检测速度。

发明内容

本发明主要采用深度学习的方法对配戴安全帽的工人进行检测，以获取在施工环境中更高检测精度的网络。首先是输入配戴或未配戴安全帽的工人的图像，通过随机裁剪、噪声模拟环境、高斯滤波去噪以及自适应缩放图片的方法，对输入图像进行一系列预处理，然后采用相关卷积聚合模块将网络计算量大幅降低，再输入到基于全局注意力的上下文信息聚合模块，以增强特征融合与上下文特征信息的能力，同时进一步从特征图中提取图像的深层特征信息，利用分裂合并和跨阶段策略能够更好的减轻特征映射进行拼接的缺点。同时我们利用自注意力局部特征提取模块使网络模型可以更多的关心特取特征中的某些重要信息或上下文整体信息，最后在全局检测网络模块依然联合了全局注意力，保留高频特征信息的同时能够有效的进行特征提取，从而有效地提高检测结果。利用以上所提出的网络，提出了一种新的安全帽佩戴检测算法，可以显著提高检测精度和操作时间，有利于所有场合不同任务场合下捕捉目标的能力尤其是对于工人在较远距离时头盔在图像中显示较小，也可以发挥出强大的检测能力，对环境的适应性更强，在复杂的施工现场场景中可以实现实时检测工人是否正确佩戴安全帽的效果。

为了实现上述目的，本发明提供了如下方案：

一种基于全局注意力的安全帽配戴检测方法，所述方法包括：

步骤1：输入安全帽图像数据预处理；

步骤2：构建全局注意力的目标框类别分类和预测框位置回归任务的神经网络；

步骤3：训练网络模型；

步骤4：利用训练完成的分类与回归任务网络模型进行评估。

所述的数据预处理，具体包括如下步骤：

步骤1：数据集：利用RGB相机采集施工场地中配戴或未配戴安全帽的工人进行拍摄并利用Laelbox等标注工具软件进行标注制作数据集或利用已有公开数据集构造训练数据集。

步骤2：预处理：通过噪声模拟环境、高斯滤波去噪的方式将输入数据进行预处理，达到数据扩增与增强，利用自适应图片缩放方法对输入图像缩放到网络的输入大小进行归一化操作。

所述的构建全局注意力的目标框类别分类和预测框位置回归任务的神经网络，具体包括如下模块：

模块1：相关卷积聚合模块

相关卷积聚合模块表示输入图像首先经过普通卷积后得到的特征图的通道数只有预期输出通道数的1/2，而剩下1/2则采用线性运算得到剩余预期输出通道数，最后将二者沿通道方向进行拼接即为输出特征图。因此相关卷积聚合模块将原本的乘法变成了两个乘法的加法，利用线性运算来增加特征与通道数，计算公式如下：

其中input代表输入特征图像，conv(input)代表对输入图像input进行卷积核大小为1*1、步长为1的普通卷积操作，c是输入特征图像的通道数，linear(input)代表对输入图像input进行线性运算。

模块2：全局检测网络模块

全局检测网络模块是针对在深层特征提取阶段时输入图像存在图像中特征信息丢失的问题，我们在输出模块和全局注意力之前使用扩张因子为1,2,3，大小为3*3的空洞卷积串联组成，从而保留高频特征信息的同时能够进一步进行特征提取。

安全帽占整个特征图像的1/8及以下时，该检测不仅关注空间上的特征信息，而且也需要关注通道维度中的特征信息，而全局注意力则沿着空间和通道两个维度进行获取重要的上下文全局特征信息。全局检测网络模块的步骤是：首先通过平均池化和最大池化生成两个具有不同空间特征的平均池化特征和最大池化特征，将两个特征信息经过共享MLP多层感知器网络后聚合到一块输出特征向量，A_C注意力模块计算公式如下：

A_C＝s(M(φ_avg)+M(φ_max))

其中，s表示激活函数Sigmoid，M表示共享多层感知器网络MLP，φ_avg表示将输入特征进行平均池化操作，φ_max表示将输入特征进行最大池化操作。φ_avg和φ_max计算公式如公

式1和公式2所示。

其中，c表示特征图的通道数，C表示特征图的总通道数，φ^c表示特征图第c个通道，(h,w)表示在空间中的位置，φ^c(h,w)则表示在第c个通道位于特征图中(h,w)坐标的特征信息。

A_S注意力是对通道进行压缩，聚合特征信息中的较小安全帽目标的细节特征信息。在通道维度分别采用了平均池化和最大池化进行聚合，之后在通道方向进行拼接形成空间注意力特征信息。A_S注意力计算公式如下：

A_S＝Sigmoid(Cov([AvgPool(input)；MaxPool(input)]))＝s(c([φ_avg；φ_max]))

其中，s表示激活函数Sigmoid，M表示共享多层感知器网络MLP，φ_avg表示将输入特征进行平均池化操作，φ_max表示将输入特征进行最大池化操作，Cov([AvgPool(input)；MaxPool(input)])表示将AvgPool(input)和MaxPool(input)在通道方向进行拼接后进行卷积核大小为1*1、步长为1的卷积操作。φ_avg和φ_max计算公式如公式1和公式2所示。

模块3：多尺度上下文聚合模块

多尺度上下文聚合模块表示对输入图像使用三种滤波器尺寸为2×2、4×4、6×6，步长均为1的pooling结构和相同大小的空洞卷积，同时采用级联结构的跨阶段特征融合，将该三个以及原始输入特征信息，总共四个传递路径，将梯度信息进行传递。同时在最后输出映射中一次性聚合四个特征信息，大大提高了特征融合的效率，但我们的目的是要避免忽略输入图像特征中安全帽占总图像的1/8及以下的特征信息，因此我们将空洞卷积放入多尺度上下文聚合模块中的同时在前端加入全局注意力,多尺度上下文聚合模块计算公式如下所示：

Output＝c(concat(φ_max(D(A(c(f))))；φ_max(D(A(c(f))))；φ_max(D(A(c(f))))；A(c(f)))+c(f))

其中f代表输入特征图，c(f)代表对输入图像f进行卷积核大小为1*1、步长为1的普通卷积操作，A(f)代表对f进行全局注意力操作，D(f)代表的是对输入特征x采用扩张因子为1,2,3，大小为3*3的空洞卷积，concat(x₁；x₂；…；x_n)代表将输入特征图{x₁,x₂,…,x_n}沿通道方向进行拼接，φ_max计算公式如公式2所示。

模块4：自注意力局部特征提取模块

自注意力局部特征提取模块提取全局特征通过在通道上跨阶段的将局部特征提取出来，从而可以将梯度的变化从头到尾地集成到特征图中。首先将特征图拆成随机两个部分，一部分利用卷积核为1×1、步长为1的卷积操作，其次另一部分将特征图输入到两个卷积核为1×1、步长为1的卷积操作、批规范操作与SILU激活函数中后，然后采用残差卷积结构与自注意力结合的方式跨阶段地将局部特征提取出来，为了聚合输入所含的全局信息，采用4个自注意力机制拼接之后进行线性变换得到最终的注意力值。再利用卷积核为1×1、步长为1的卷积操作调整通道数，然后这部分与上一部分的卷积操作的结果进行通道维度的拼接。自注意力首先将输入的图像特征矩阵或序列x＝(x₁,x₂,…,x_n)进行线性映射后与WQ、WK、WV三个中间权重矩阵相乘生成dq维Q(Queries)，dk维K(Keys)，dv维V(Values)，可得最后输出的注意力值，计算公式如下：

其中Q、K、V是输入的图像特征矩阵或序列x＝(x₁,x₂,…,x_n)进行线性映射后与WQ、WK、WV三个中间权重矩阵相乘所得的dq维Q(Queries)，dk维K(Keys)，dv维V(Values)，WQ、WK、WV是经过模型训练的权重矩阵，Softmax表示归一化指数函数，

代表图像特征矩阵自注意力的权重分值，也就是该区域的重要程度，然后通过softmax传递结果。softmax的作用是使图像特征矩阵的权重分数归一化，得到的分数都是正值且和为1，然后所得的值乘以V可得最后输出的注意力值A(Q,K,V)。权重矩阵WQ、WK、WV根据梯度500次更新迭代模型的学习参数以获得最优解，即使得类别预测损失、置信度预测损失和边界框回归损失最小而得到的。

模块5：输出模块

输出模块由卷积神经网络组成，用于整合整个网络层中具有类别区分性的局部信息，为了提高网络的性能，将多尺度特征信息输入到输出模块中进行检测，输出生成带有类别概率、置信度得分和包围框的最终输出向量，并使用加权非极大值抑制将冗余的目标框抑制，因为在实际测试预测时，是没有真实值的。同时仅保留置信度最高的目标框，最后输出的特征图上会应用目标框。加权非极大值抑制是当两个预测框重叠度即IoU超过0.6时，比较二者的置信度，将比另一个小的置信度通过函数f(IoU)降低，函数f(IoU)计算公式如下：

其中，Nconf_i表示第i个预测框降低后的置信度，c_i表示原有二者的置信度中值小的预测框的置信度，b_i是二者的置信度中值小的预测框的整体形状，m是二者的置信度中值大的预测框的整体形状，IoU(m,b_i)表示m、b_i重叠部分是m与b_i总面积的占比。s表示sigmoid函数，

是利用高斯加权的方法使得该函数连续。

所述训练网络模型，具体包括如下步骤：

步骤1：将经过预处理的训练数据集输入给全局注意力的目标框类别分类与预测框位置回归任务的神经网络的模型进行反向传播训练，该模型的学习参数包括权重和偏置项，随机初始化参数从头开始训练网络模型。

步骤2：类别预测损失和置信度预测损失采用交叉熵损失函数，边界框回归损失采用了GIOU Loss。GIoU Loss用来计算bounding box的Loss。公式如下：

其中预测框和真实框分别表示框A，B，C为最小的封闭形状，让C可以把A，B包含在内，接着计算C中没有覆盖A和B的面积占C总面积的比值，IoU(A,B)表示A、B重叠部分是A与B总面积的占比。计算出IoU后再减去不属于两个框的面积占总面积的比重。

引入交叉熵损失函数L_y′：

其中：y′_i指实际标签中第i个值，y_i指预测标签中第i个值，根据损失函数利用批量梯度下降法进行反向传播，更新模型的学习参数，包括权重和偏置项。

步骤3：重复步骤1和步骤2，不断迭代训练网络模型参数，以获得最优的全局注意力的安全帽配戴检测网络模型。

利用训练完成的模型进行安全帽配戴检测方法的测试。

有益效果：

本发明提供一种基于全局注意力的安全帽配戴检测方法，设计了相关卷积聚合模块、多尺度上下文聚合模块、自注意力局部特征提取模块、全局检测网络模块以及输出层的网络模块，可端到端的实现安全帽是否配戴的检测任务。本发明的安全帽配戴检测网络在特征提取过程中不仅包括全局特征而且增加特征融合与上下文聚合能力，同时全局注意力有利于所有的场合下捕捉目标的能力，在模糊、雨天、物体的施工现场场景中依然可以实现实时检测工人是否正确佩戴安全帽。

附图说明

图1是本发明提供的基于全局注意力的安全帽配戴检测方法的流程图；

图2是本发明提供的基于全局注意力的安全帽配戴检测方法的网络结构图；

具体实施方式

本发明的目的是提供一种基于全局注意力的安全帽配戴检测方法，可端对端的完成网络的训练，无需任何后处理过程，本发明的基于全局注意力的安全帽配戴检测方法在安全帽检测中不仅包括局部特征而且整合上下文特征信息，提高网络的检测精度。

下面将结合附图对本发明加以详细说明，应指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

图1是本发明提供的基于全局注意力的安全帽配戴检测方法的网络流程图。图2是本发明提供的基于全局注意力的安全帽配戴检测方法的网络结构图。本发明提供的基于全局注意力的安全帽配戴检测方法具体包括：

步骤1：数据预处理

所述数据预处理指针对每一个输入的配戴安全帽或者未配戴安全帽的工人的图像添加噪声，用来模拟相关雨天、雾天的恶劣施工环境，在数据集预处理噪声后与当前数据集合并。首先利用均匀随机数和阈值控制噪声的水平来随机生成不同密度的噪声，同时将噪声变形、旋转以及平移，模拟雨天、雾天的恶劣复杂环境。最后对生成的噪声和原始图像进行叠加，得到模拟的新的训练集。而且针对在实际的施工场地中监控相机拍摄到的图像会因为相机问题或环境的原因而存在模糊现象，我们首先通过高斯滤波去噪算法对输入配戴或未配戴安全帽的工人们的图像滤波，将图像中可能存在的噪声剔除出去再送入网络模型中进行训练，进而有效提高检测准确率，最后将模拟新的数据集进行自适应图片缩放，将原始图片统一缩放到一个标准尺寸，即640×640，再送入安全帽检测网络中训练。

步骤2：构建安全帽配戴检测模型网络

对输入的图像进行预处理后利用相关卷积聚合模块进行特征提取，首先经过普通卷积后得到的特征图的通道数只有预期输出通道数的1/2，而剩下1/2则采用线性运算得到剩余预期输出通道数，最后将二者沿通道方向进行拼接即为输出特征图。其中线性运算采用3*3的线性卷积核进行运算。同时利用自注意力局部特征提取模块使网络模型可以获取边缘特征信息。再对特征映射层执行上采样操作，将其调整成同等尺寸，然后将两两进行通道维数叠加，增加了网络的深度的同时提升了网络的鲁棒性。之后就可采用基于全局注意力的上下文信息聚合模块将在特征图金字塔网络中的特征聚合，增强全局的特征信息。然后将其传入到安全帽配戴检测系统网络中的路径聚合网络结构中，将两个相同大小的特征图在通道维度进行拼接。经过两个路径聚合网络结构，将特征图重新下采样会原来的尺寸大小。最后将特征图输入到全局检测网络模块中，在全局检测网络模块依然联合了全局注意力，保留高频特征信息的同时能够进行特征提取，细化检测结果。

步骤3：训练网络模型：首先将预处理后的训练数据集输入到安全帽配戴检测网络的模型中进行前向传播训练，学习率的取值范围[0,0.01],采用Adam优化器，随机初始化模型的学习参数。然后将输出预测标签值和真实标签值、输出预测位置坐标和真实位置坐标输入到交叉熵损失函数和GIOU中，利用批量梯度下降法进行反向传播。最后，根据梯度500次更新迭代模型的学习参数以获得最优的分类网络模型。

最后再利用训练完成的网络模型进行目标框类别分类和预测框位置回归任务的测试。

发明的方法提出的基于全局注意力的安全帽，通过上下文聚合特征后将特征细化，突出边缘化局部特征信息，在保证高准确率的同时仍然能够可以实时检测。隐式表达的引入使该算法在安全帽检测中取得了较好的效果，有利于所有场合不同任务场合下捕捉目标的能力。实验数据证明，在给定10000个不同场景下配戴各种安全帽的工人的图片的实验数据下，应用本方法能够正确发现9639个，检测准确率达96.3％，检测速度达到33f/s。因此，在大规模的复杂施工应用背景下也具有较高的检测准确率。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换和替代，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于全局注意力的安全帽配戴检测方法，其特征在于包括以下步骤：

步骤1：构建数据集并进行预处理，利用RGB相机采集施工场地中配戴或未配戴安全帽的工人进行拍摄并利用标注工具软件进行标注制作数据集或利用已有公开数据集构造训练数据集；通过噪声模拟环境、高斯滤波去噪的方式将输入数据进行预处理，达到数据扩增与增强，利用自适应图片缩放方法对输入图像缩放到网络的输入大小进行归一化操作；

步骤2：构建全局注意力的目标框类别分类和预测框位置回归任务的神经网络，所述的构建全局注意力的目标框类别分类和预测框位置回归任务的神经网络包括相关卷积聚合模块，全局检测网络模块，多尺度上下文聚合模块，自注意力局部特征提取模块，以及输出模块；

所述相关卷积聚合模块用于解决多尺度金字塔特征图存在冗余特征，造成训练时的资源浪费，相关卷积聚合模块表示输入图像首先经过普通卷积后得到的特征图的通道数只有预期输出通道数的1/2，而剩下1/2则采用线性运算得到剩余预期输出通道数，最后将二者沿通道方向进行拼接即为输出特征图；因此相关卷积聚合模块将原本的乘法变成了两个乘法的加法，利用线性运算来增加特征与通道数；

所述全局检测网络模块针对在深层特征提取阶段时输入图像存在图像中特征信息丢失的问题，在输出模块和全局注意力之前使用扩张因子为1,2,3，大小为3*3的空洞卷积串联组成，从而保留高频特征信息的同时能够进一步进行特征提取；安全帽占整个特征图像的1/8及以下时，该检测不仅关注空间上的特征信息，而且也需要关注通道维度中的特征信息，而全局注意力则沿着空间和通道两个维度进行获取重要的上下文全局特征信息；

所述多尺度上下文聚合模块表示对输入图像使用三种滤波器尺寸为2、4、6，步长均为1的pooling结构和相同大小的空洞卷积，同时采用级联结构的跨阶段特征融合，将该三个以及输入特征信息，总共四个传递路径，将梯度信息进行传递；同时将空洞卷积放入多尺度上下文聚合模块中的同时在前端加入全局注意力来避免忽略输入图像特征中安全帽占总图像的1/8及以下的特征信息；

所述的自注意力局部特征提取模块主要体现在通道上跨阶段的将局部特征提取出来，通过将梯度的变化从头到尾地集成到特征图中，；将特征图拆成两个部分，其中一部分采用残差卷积结构与自注意力结合的方式跨阶段地将局部特征提取出来，自注意力机制可以让网络模型更多的关心特取特征中的某些重要信息或上下文整体信息，另一部分仅做简单的卷积操作，最后这两部分操作的结果进行通道维度的拼接；

输出模块由卷积神经网络组成，用于整合整个网络层中具有类别区分性的局部信息，为了提高网络的性能，将多尺度特征信息输入到输出模块中进行检测，输出生成带有类别概率、置信度得分和包围框的最终输出向量，并使用加权非极大值抑制将冗余的目标框抑制，仅保留置信度最高的目标框，输出的特征图上会应用目标框；

步骤3：模型训练：首先将预处理后的训练数据集输入到安全帽配戴检测网络的模型中进行前向传播训练；然后，将输出的预测结果和真实标签值输入到损失函数中，利用批量梯度下降法进行反向传播；然后将输出预测标签值和真实标签值、输出预测位置坐标和真实位置坐标输入到交叉熵损失函数和GIOU中，利用批量梯度下降法进行反向传播；根据梯度500次以上更新迭代模型的学习参数以获得最优的检测网络模型；加权非极大值抑制是当两个预测框重叠度即IoU超过0.6时，比较二者的置信度，将比另一个小的置信度通过函数f(IoU)降低，函数f(IoU)计算公式如下：

其中，Nconf_i表示第i个预测框降低后的置信度，c_i表示原有二者的置信度中值小的预测框的置信度，b_i是二者的置信度中值小的预测框的整体形状，m是二者的置信度中值大的预测框的整体形状，IoU(m,b_i)表示m、b_i重叠部分是m与b_i总面积的占比；s表示sigmoid函数，

是利用高斯加权的方法使得该函数连续；

步骤4：利用训练完成的分类网络模型进行安全帽配戴检测方法。

2.根据权利要求1所述的一种基于全局注意力的安全帽配戴检测方法，其特征在于，步骤1所述的预处理指：针对每一个输入的配戴安全帽或者未配戴安全帽的工人的图像添加噪声，用来模拟相关雨天、雾天的恶劣施工环境，在数据集预处理噪声后与当前数据集合并；首先利用均匀随机数和阈值控制噪声的水平来随机生成不同密度的噪声，同时将噪声变形、旋转以及平移，模拟雨天、雾天的恶劣复杂环境；最后对生成的噪声和原始图像进行叠加，得到模拟的新的训练集；而且针对在实际的施工场地中监控相机拍摄到的图像会因为相机问题或环境的原因而存在模糊现象，首先通过高斯滤波去噪算法对输入配戴或未配戴安全帽的工人们的图像滤波，将图像中可能存在的噪声剔除出去再送入网络模型中进行训练，进而有效提高检测准确率，最后将模拟新的数据集进行自适应图片缩放，将原始图片统一缩放到一个标准尺寸，即640×640，再送入安全帽检测网络中训练。

3.根据权利要求1所述的一种基于全局注意力的安全帽配戴检测方法，其特征在于，所述的相关卷积聚合模块表示输入图像首先经过普通卷积后得到的特征图的通道数只有预期输出通道数的1/2，而剩下1/2则采用线性运算得到剩余预期输出通道数，最后将二者沿通道方向进行拼接即为输出特征图；其中线性运算采用3*3的线性卷积核进行运算；因此利用相关卷积聚合模块将原本的乘法变成了两个乘法的加法，利用最简单的线性运算来增加特征与通道数，将网络模型的参数量与运算量降低，计算公式如下：

4.根据权利要求1所述的一种基于全局注意力的安全帽配戴检测方法，其特征在于，步骤1所述的全局检测网络模块的步骤是：首先通过平均池化和最大池化生成两个具有不同空间特征的平均池化特征和最大池化特征，将两个特征信息经过共享MLP多层感知器网络后聚合到一块输出特征向量，A_C注意力模块计算公式如下：

A_C＝s(M(φ_avg)+M(φ_max))

其中，s表示激活函数Sigmoid，M表示共享多层感知器网络MLP，φ_avg表示将输入特征进行平均池化操作，φ_max表示将输入特征进行最大池化操作；φ_avg和φ_max计算公式如公式1和公式2所示；

其中，c表示特征图的通道数，C表示特征图的总通道数，φ^c表示特征图第c个通道，(h,w)表示在空间中的位置，φ^c(h,w)则表示在第c个通道位于特征图中(h,w)坐标的特征信息；

A_S注意力是对通道进行压缩，聚合特征信息中的较小安全帽目标的细节特征信息；在通道维度分别采用了平均池化和最大池化进行聚合，之后在通道方向进行拼接形成空间注意力特征信息；A_S注意力计算公式如下：

A_S＝Sigmoid(Cov([AvgPool(input)；MaxPool(input)]))＝s(c([φ_avg；φ_max]))

其中，s表示激活函数Sigmoid，M表示共享多层感知器网络MLP，φ_avg表示将输入特征进行平均池化操作，φ_max表示将输入特征进行最大池化操作，Cov([AvgPool(input)；MaxPool(input)])表示将AvgPool(input)和MaxPool(input)在通道方向进行拼接后进行卷积核大小为1*1、步长为1的卷积操作；φ_avg和φ_max计算公式如公式1和公式2所示。

5.根据权利要求1所述的一种基于全局注意力的安全帽配戴检测方法，其特征在于，所述的多尺度上下文聚合模块表示对输入图像使用三种滤波器尺寸为2×2、4×4、6×6，步长均为1的pooling结构和相同大小的空洞卷积，同时采用级联结构的跨阶段特征融合，将该三个以及原始输入特征信息，总共四个传递路径，将梯度信息进行传递；同时在最后输出映射中一次性聚合四个特征信息，大大提高了特征融合的效率，但的目的是要避免忽略输入图像特征中安全帽占总图像的1/8及以下的特征信息，因此将空洞卷积放入多尺度上下文聚合模块中的同时在前端加入全局注意力,多尺度上下文聚合模块计算公式如下所示：

6.根据权利要求1所述的一种基于全局注意力的安全帽配戴检测方法，其特征在于，所述的自注意力局部特征提取模块提取全局特征通过在通道上跨阶段的将局部特征提取出来，从而可以将梯度的变化从头到尾地集成到特征图中；首先将特征图拆成随机两个部分，一部分利用卷积核为1×1、步长为1的卷积操作，其次另一部分将特征图输入到两个卷积核为1×1、步长为1的卷积操作、批规范操作与SILU激活函数中后，然后采用残差卷积结构与自注意力结合的方式跨阶段地将局部特征提取出来，为了聚合输入所含的全局信息，采用4个自注意力机制拼接之后进行线性变换得到最终的注意力值；再利用卷积核为1×1、步长为1的卷积操作调整通道数，然后这部分与上一部分的卷积操作的结果进行通道维度的拼接；自注意力首先将输入的图像特征矩阵或序列x＝(x₁,x₂,…,x_n)进行线性映射后与WQ、WK、WV三个中间权重矩阵相乘生成dq维Q(Queries)，dk维K(Keys)，dv维V(Values)，得最后输出的注意力值，计算公式如下：

代表图像特征矩阵自注意力的权重分值，也就是该区域的重要程度，然后通过softmax传递结果；softmax的作用是使图像特征矩阵的权重分数归一化，得到的分数都是正值且和为1，然后所得的值乘以V可得最后输出的注意力值A(Q,K,V)；权重矩阵WQ、WK、WV根据梯度500次更新迭代模型的学习参数以获得最优解，即使得类别预测损失、置信度预测损失和边界框回归损失最小而得到的。