CN111967393B

CN111967393B - 一种基于改进YOLOv4的安全帽佩戴检测方法

Info

Publication number: CN111967393B
Application number: CN202010831087.2A
Authority: CN
Inventors: 葛青青; 孙军梅; 张智杰; 李秀梅
Original assignee: Hangzhou Normal University
Current assignee: Hangzhou Normal University
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2024-02-13
Anticipated expiration: 2040-08-18
Also published as: CN111967393A

Abstract

本发明公开了一种基于改进YOLOv4的安全帽佩戴检测方法。当前市场上大部分的工地仍旧采用的是人工监管的方式，无法保证每时每刻每个地方都能监管到位。本发明通过深度学习检测算法准确判定是否有违章行为。本发明通过分析数据集的特性以及最终需求，研究在现有模型上添加不同的模块，来使得模型满足大小目标的更优检测，达到更高的检测准确度。本发明通过数据增强的多种方法，模拟各种天气环境以及采集到的视频图片模糊现象，使得模型学到隐含在数据背后的规律，对具有同一规律的学习集以外的数据，经过训练的网络也能给出合适的输出。当模型面对未知数据时也有好的预测能力，有效避免过拟合与欠拟合。

Description

一种基于改进YOLOv4的安全帽佩戴检测方法

技术领域

本发明属于工程安全监测技术领域，具体涉及一种基于改进YOLOv4的安全帽佩戴检测方法。

背景技术

在对2019年全国安全生产数据分析后，发现95％的生产安全事故是作业人员的不安全行为导致的，如越权限进入工作场所、违章操作、未正确穿戴劳保用品、操作失误或忽视安全警告等行为。随着工业化的不断发展和人们安全意识的不断提高，工地安全问题成为了现在企业家和工人最关心的问题之一。安全帽识别系统在安全生产中起到至关重要的作用。其有效识别作业人员是否佩戴安全帽大大降低甚至避免了作业人员的违规行为，保障作业人员的人身安全，以降低安全事故发生的概率。在未来的大趋势下，随着行业的不断发展以及需求的不断细分，安全帽识别系统也会进一步的进行相关功能的优化，从而为企业带来更加便捷的管理。

发明内容

本发明的目的在于提供一种基于改进YOLOv4的安全帽佩戴检测方法。

本发明的具体步骤如下：

步骤一、提取被检测区域内监控设备的视频流，以此为基础，通过数据增强方法建立最终训练集。

1-1.在视频流中截取多张图片，对所得的各图片中的目标位置进行标记，以此作为初始训练集。

2-2.将初始训练集中选取部分或全部图片分为多组，通过数据增强的方法进行数据扩充。数据增强方法包括随机裁剪、目标遮挡、噪声模拟环境和生成对抗样本。同一组图片选择各数据增强方法中的任意一种进行处理，形成最终训练集。

随机裁剪是指在原始图片的基础上随机截取一张预设大小的局部图片。目标遮挡是指对原始图片中的目标位置的不同部分设置黑色矩形块进行遮挡；噪声模拟环境是指在原始图片中加入了不同的模拟噪声。模拟噪声分为雨天模拟噪声、夜晚模拟噪声、雾天模拟噪声；

步骤二、将步骤一得到的最终训练集送入特征图融合模型中训练，直至模型的损失函数低于预设的阈值。

特征图融合模型包括YOLOv4基础模块和特征提取模块。YOLOv4基础模块使用跨阶段局部网络作为骨干网络，使用路径聚合网络和空间金字塔池化作为颈部；根据输入图像得到三个不同大小的yolo head特征图，记作特征提取模块对输入图像的原图做3×3卷积运算，用BN层做归一化操作；特征提取模块输出的三个特征图/>的分辨率与三个yolo head特征图/>的分辨率分别大小一致。

通过两组特征图对应元素相加的操作，进行特征图融合。在得到三种输出融合图之后再做一次3x 3的卷积操作以减小融合造成的混叠效应，得到三种输出融合图F₁、F₂、F₃，最后利用交并比和非极大值抑制保留最优框。

步骤三、实时提取监控视频流，并将其输入训练好的特征图融合模型中，检测视频流中的作业人员和安全帽位置，确定工作人员是否佩戴安全帽，若有作业人员未佩戴安全帽，则系统进行预警提示。

作为优选，所述的数据增强方法还包括Cutmix操作和高斯滤波去噪。所述的Cutmix操作是指将原始图片中的部分区域剪切掉，并在剪切掉的区域填充初始训练集中任选的另一张图片中的相同大小区域的内容。高斯滤波去噪是指通过高斯滤波视频去噪算法对原始图像进行去噪处理。

作为优选，所述的生成对抗样本采用c&w、PGD、UAP、UEA、RAP、JSMA或Deepfool方法进行。

作为优选，所述的生成对抗样本通过如下方法进行：

先构造一个与darknet结构相同的分类网络，然后通过FGSM算法，在梯度方向上添加增量来诱导分类网络对生成的图片X′进行误分类，X′就是所需要的对抗样本。对抗样本X′生成过程如式(1)所示：

X′＝X+η (1)

式(1)中，X为初始图片；η为添加扰动，其表达式为ε为攻击参数；sign(·)为符号函数；/>为损失函数J(θ,X,Y)对X的偏导函数；θ为模型参数；Y为结果标签。通过线性化损失函数J(θ,X,Y)，获得添加扰动η。

作为优选，所述的损失函数J(θ,X,Y)用损失函数loss代替，表达式如式(2)所示；

式(2)中，s²为图片划分的网格数量，B为每个网格包含的预测框数量；若第i个网格的第j个预测框为负责预测框，则取1，反之取0；若第i个网格的第j个预测框不为负责预测框，则/>取1，反之取0；在一个与目标物体相交的网格中，与目标物体的真实标注的重叠部分最大的预测框，即为负责预测框；

x_i，y_i分别表示由第i个网格负责的目标物体的真实标注的中心点坐标，分别表示由第i个网格负责的目标物体的预测框的中心点坐标；h_i、ω_i分别代表由第i个网格负责的目标物体的真实标注的长度、宽度，/>和/>代表由第i个网格负责的obj的预测框的长宽；C_i代表由第i个网格负责的目标物体的真实分类结果，/>代表由第i个网格负责的obj的预测分类结果；p_i(c)代表由第i个网格负责的目标物体属于第c个类别的真实分类概率，代表由第i个网格负责的目标物体属于第c个类别的预测分类概率；λ_coord和λ_noord分别表示坐标损失、网格预测类别损失的权重。

作为优选，目标遮挡操作中，黑色矩形块遮挡住目标位置的1/4、1/3或1/2。

作为优选，添加雨天模拟噪声的方法如下：首先，生成不同密度的随机噪声来模拟不同大小的雨量；随后，对添加的各部分噪声进行拉长、旋转方向操作，生成雨天模拟噪声；最后，对生成的雨天模拟噪声和原始图片进行叠加。

作为优选，添加夜晚模拟噪声的方法具体如下：先截取一张夜晚工地的背景图，然后将该背景图以预设的夜晚模拟权重值加权到原始图片上。

作为优选，添加雾天模拟噪声的方法具体如下：先截取一张雾天工地的背景图，然后将该背景图以预设的雾天模拟权重值加权到原始图片上。

作为优选，三个yolo head特征图的分辨率分别为输入图像的1/8、1/16、1/32。

作为优选，所述的特征提取模块采用具有单侧抑制且稀疏激活的ReLU函数作为激活函数。

作为优选，步骤1-1中，视频流每16帧截取一张图片。

本发明具有的有益效果是：

1、本发明模型检测准确率高。目前流行的目标检测模型虽然在大方向上已经可以达到较好的检测效果，但是针对不同的数据集，还是会有所偏差。我们通过分析数据集的特性以及最终需求，研究在现有模型上添加不同的模块，来使得模型满足大小目标的更优检测，达到更高的检测准确度。

2、本发明模型泛化能力强。通过数据增强的多种方法，模拟各种天气环境以及采集到的视频图片模糊现象，使得模型学到隐含在数据背后的规律，对具有同一规律的学习集以外的数据，经过训练的网络也能给出合适的输出。当模型面对未知数据时也有好的预测能力，有效避免过拟合与欠拟合。

3、本发明模型鲁棒性高。通过训练数据集中加入对抗样本，进行对抗样本训练，使得一些异常的数据对整体的性能影响不大或者基本没有影响，意味着结果不会受到模型中存在的数据扰动、噪声及离群点的太大影响。

4、本发明模型普适度高。通过去噪算法使得模糊照片变得清晰，降低低质量摄像头或者久远摄像头导致的模糊照片对安全帽识别准确率的影响，从而降低企业购买摄像设备的成本，提高系统的普适度。

5、本发明实现系统智能检测与自动预警。通过前端抓取摄像机录制现场视频并上传至管理系统服务器，服务器实时分析视频流，通过深度学习检测算法准确判定是否有违章行为，若检测到违章行为发生，管理平台监控画面出现警示，安全员远程或者现场纠正违章。

附图说明

图1为本发明数据增强中的随机裁剪的图片前后变化示意图；

图2为本发明数据增强中的目标遮挡的图片前后变化示意图；

图3为本发明数据增强中的Cutmix操作的图片前后变化示意图；

图4为本发明数据增强中的噪声模拟环境的图片前后变化示意图；

图5为本发明数据增强中的高斯滤波去噪的图片前后变化示意图；

图6a为本发明数据增强中的生成对抗样本的图片前后变化示意图；

图6b为本发明中针对对抗样本的的标记图；

图6c为本发明中特征图融合模型针对对抗样本的的检测图；

图7为本发明中使用的特征图融合模型的网络结构图；

图8为本发明特征图融合模型与现有YOLOv4模型的检测结果对比示意图。

具体实施方式

以下结合附图对本发明作进一步说明。

实施例1

工地视频流检测未佩戴安全帽人员的方法，主要包括以下步骤：

步骤一、提取t时间内待检测区域监控设备的视频流，以此为基础，通过叠加数据增强方法建立训练集。

1-1.由于人类眼睛的特殊生理结构，如果所看画面的帧率高于16的时候，就会认为是连贯的，此现象称之为视觉停留。所以，我们对获取到的视频流每16帧截取一张图片，对所得的各图片中的目标位置(安全帽和工作人员)进行标记，以此作为初始训练集。

1-2.将初始训练集中选取部分或全部图片分为六组，通过数据增强的方法进行数据扩充。数据增强的方法包括随机裁剪、目标遮挡、Cutmix、噪声模拟环境、高斯滤波去噪和生成对抗样本。选取出的六组图片分别进行随机裁剪、目标遮挡、Cutmix、噪声模拟环境、高斯滤波去噪、生成对抗样本操作形成新的图片；初始训练集和数据增强后得到的新图片共同组成最终训练集。

(1)如图1所示，随机裁剪是指在原始图片的基础上随机截取一张预设大小的局部图片，相当于建立每个因子特征与相应类别的权重关系，减弱背景(或噪音)因子的权重，且使模型面对缺失值不敏感，也就可以产生更好的学习效果，增加模型稳定性。以此能够扩大数据集并模拟待验证图片不包含完整个体的情况，扩大数据集的同时可提高模型的普适性。

(2)如图2所示，目标遮挡是指对原始图片中的目标位置(即安全帽的位置)的不同部分(左上、右上、左下、右下、左、右、上或下)设置黑色矩形块进行遮挡；黑色矩形块遮挡住目标位置的1/4、1/3或1/2)进行黑色矩形块的遮挡。对训练集进行目标遮挡的原因在于：目标检测任务中常常会遇到图像中目标被遮挡严重的问题，由于遮挡数据复杂多样遮挡信息丢失严重，模型在训练过程中往往陷入过拟合问题，对训练集外的数据检测效果下降，在模型层面很难做到很好的改善。因此本发明引入目标遮挡作为训练集数据增强的一部分。

(3)如图3所示，Cutmix操作是指将原始图片中的部分区域剪切掉，但不填充纯黑色或纯白色，而是填充初始训练集中任选的另一张图片中的相同大小区域的内容。Cutmix操作所得的新图片中的标签由原始两图所占区域对应标签组成。Cutmix充分利用训练像素，保持区域dropout的正则化效应，具有训练过程中不存在无信息像素的特性，使得训练更加有效，同时保留了区域dropout的优点，可以专注于对象的非歧视性部分。添加的补丁通过要求模型从局部视图识别对象，进一步增强了定位能力。

(4)如图4所示，噪声模拟环境是指在原始图片中加入了不同的模拟噪声，从而模拟模型应用到真实场景下的识别效果。模拟噪声分为雨天模拟噪声、夜晚模拟噪声、雾天模拟噪声；添加该三种模拟噪声的方法如下：

a.添加雨天模拟噪声的方法

首先，生成不同密度的随机噪声来模拟不同大小的雨量；具体通过均匀随机数和阈值来控制模拟噪声的水平；随后，对添加的各部分噪声进行拉长、旋转方向操作，来模拟不同大小和方向的雨水，形成完整的雨天模拟噪声；最后，对生成的雨天模拟噪声和原始图片进行叠加即可得到模拟的下雨场景图片。

b.添加夜晚模拟噪声的方法

先截取一张夜晚工地的背景图，然后将该背景图以预设的夜晚模拟权重值加权到原始图片上，本实施例中夜晚模拟权重值为0.3，从而获得模拟的夜晚场景图片

c.添加雾天模拟噪声的方法

先截取一张雾天工地的背景图，然后将该背景图以预设的雾天模拟权重值加权到原始图片上，本实施例中雾天模拟权重值为0.4，从而获得模拟的雾天场景图片

由于施工现场的天气环境多变，可能会伴随雨天、雾天、夜晚等，而恰恰是在这样的天气环境下，作业危险度更高。因此，本发明通过噪声模拟环境的方式增强了训练集和模型在应用下的真实性，以及减少实际环境、天气、摄影设备等因素对模型识别效果的影响。

(5)如图5所示，高斯滤波去噪是指通过高斯滤波视频去噪算法对原始图像进行去噪处理；进行高斯滤波去噪的原因在于：实际工地摄像头所捕捉到的视频会因为摄像头老化或质量差而存在模糊现象，为解决这一困扰，本发明通过高斯滤波视频去噪算法使得视频图片的质量大大提高，再送入模型，有效提高了检测精度。并且，使用这一算法对摄像头的质量要求大大降低，可有效降低企业购置摄像设备的成本。

(6)如图6a、6b和6c所示，生成对抗样本的过程为：先构造一个与darknet结构相同的分类网络，然后通过FGSM(Fast Gradient Sign Method)算法，在梯度方向上添加增量来诱导分类网络对生成的图片X′进行误分类，X′就是所需要的对抗样本。对抗样本X′生成过程如公式1所示：

X′＝X+η (1)

式(1)中，X为初始图片，作为初始输入；η为添加扰动，其表达式为ε为攻击参数，本实施中取值为0.01；sign(·)为符号函数；为损失函数J(θ,X,Y)对X的偏导函数；J(θ,X,Y)为损失函数；θ为模型参数；Y为初始图片的结果标签。本发明采用的损失函数如公式(2)loss所示，loss对初始图片X求偏导得到/>

式(2)中，s²为图片划分的网格数量，B为每个网格包含的预测框数量，实验中s取7，B取2。s的取值使得任意一个网格至多覆盖一个目标物体。表示第i个网格的第j个预测框是否为负责预测框；在一个与目标物体相交的网格中，与目标物体的真实标注(groundtruth)的重叠部分(IoU)最大的预测框，即为负责预测框。若第i个网格的第j个预测框为负责预测框，则/>取1，反之取0。/>表示第i个网格的第j个预测框是否不为负责预测框，若不为负责预测框，则/>取1，反之取0。

x_i，y_i分别表示由第i个网格负责的目标物体的真实标注的中心点坐标，分别表示由第i个网格负责的目标物体的预测框的中心点坐标(每一个网格至多只有一个负责预测框，上面已解释，就是重叠部分最大的那个预测框)。h_i、ω_i分别代表由第i个网格负责的目标物体的真实标注的长度、宽度，/>和/>代表由第i个网格负责的obj的预测框的长宽。C_i代表由第i个网格负责的目标物体的真实分类结果，/>代表由第i个网格负责的obj的预测分类结果；p_i(c)代表由第i个网格负责的目标物体属于第c个类别的真实分类概率，代表由第i个网格负责的目标物体属于第c个类别的预测分类概率。λ_coord和λ_noord分别表示坐标损失、网格预测类别损失的权重，本实施例中分别取5和0.5。class表示各类别序号的集合。YOLOv4的loss函数将坐标信息、置信度和分类概率误差相结合，来进行模型的训练。

通过最大化损失函数loss得到最优的添加扰动η。

对抗样本指的是一个经过微小调整就可以让机器学习算法输出错误结果的输入样本。深度神经网络对于对抗样本具有脆弱性，如给深度神经网络输入一个细微的扰动，这些扰动甚至人眼都无法察觉，不会对人的判断造成影响，但可能会导致深度神经网络分类错误。因此，提高安全帽检测模型对对抗样本的防御能力，提升模型的鲁棒性很有必要。对此，本发明采用对抗样本防御方法中的对抗训练方法，将由对抗样本生成算法生成的对抗样本加入到训练集中对模型进行训练，以强化模型。

1-3.利用labelme软件对最终训练集进行处理，生成自己的掩膜(即mask)，得到相应的xml，json，png格式文件，为之后进行模型训练做好准备工作。

步骤二、用最终训练集对特征图融合模型进行训练，得到训练后的特征图融合模型。

将步骤一得到的最终训练集送入特征图融合模型中训练，直至模型的损失函数loss低于预设的阈值。

如图7所示，特征图融合模型包括YOLOv4基础模块和特征提取模块。

YOLOv4基础模块使用跨阶段局部网络(CSPDarknet53)作为骨干网络(Backbone)，使用路径聚合网络(PANET)和空间金字塔池化(SPP)作为颈部(Neck)，根据输入图像得到三个不同大小的yolo head特征图，记作三个yolo head特征图/> 的分辨率分别为输入图像的1/8、1/16、1/32。本实施例中以608×608为输入图片大小，则得到的三个yolo head特征图分辨率分别为76×76，38×38，19×19。由于高低层次特征图信息差异较大，因此对于给定的输入原图X∈R^C×H×W，其中C、H、W分别表示输入原图的通道数、高和宽，

需要进行特征提取来达到与yolo head相同的分辨率。

特征提取模块对输入图像的原图做3×3卷积运算其中，～表示卷积运算得到的特征图，C'、H'、W'分别表示特征图的通道数、高和宽，加BN层(batchnormalization layer)做归一化操作，并采用具有单侧抑制且稀疏激活的ReLU函数(rectified linear unit，线性整流函数)作为激活函数。迭代以上过程，直至输出的三个特征图的分辨率与三个yolo head特征图/>分别大小一致，分别记作通过两组特征图对应元素相加的操作，将两图进行融合，如公式(4)所示。

在得到三种输出融合图之后再做一次3x 3的卷积操作以减小融合造成的混叠效应，得到三种输出融合图F₁、F₂、F₃，最后利用交并比(Intersection over Union，IoU)和非极大值抑制保留最优框。

原图经过特征提取得到的特征图代表的是浅层网络，其分辨率高，学的更多的是细节特征，有利于位置信息的预测；yolo head特征图/>代表的是深层网络，其分辨率低，学的更多的是语义特征，有利于类别信息的判断。将这两者进行融合，可达到同时高准确率检测大小目标的目的。如表1所示为原图经过特征提取得到的/>网络分支的配置，其中W和H均为608，以此类推可得/>的网络分支配置。

表1网络分支配置

现有的YOLOv4网络在小目标的检测上存在不足。在安全帽佩戴检测问题上，大小目标的尺寸差异大，且遮挡物较多，若使用原YOLOv4网络进行检测，在小目标的检测上准确率较低，难以满足需求。在卷积神经网络中，高层次特征图通常具有更加抽象的信息，对目标的位置信息更为敏感，而低层次特征图具有更高的空间分辨率，对细节信息表述的更为清晰。为了使模型能够更加准确地检测到小目标，本文提出了一种基于YOLOv4的特征图融合方法，如图7所示。代表融合，其输入包含两个部分，一部分是YOLOv4本身的输出特征图yolo head，另一部分是原图经过特征提取得到与yolo head感受野一致的特征图。两特征图相融合会造成特征的不连续，导致特征混乱，因此，在融合后再利用3x 3的卷积层来减小特征图融合后的混叠效应，保证特征稳定性。

经训练后的特征图融合模型对大目标的检测召回率(recall)为98.73％，平均精度均值(mAP)为95.52％，对小目标的检测recall为87.34％，mAP为86.90％。相比于现有的YOLOv4模型有明显提升(现有的YOLOv4模型对大目标的检测recall为98.02％，mAP为95.37％，对小目标的检测recall为83.15％，mAP为82.59％)。可见该模型不仅在大目标的检测上有高准确率，在小目标的检测上也能达到不错的效果。

步骤三、实时提取监控视频流，并将其输入训练好的特征图融合模型中，检测视频流中的作业人员是否佩戴安全帽，若有作业人员未佩戴安全帽，则系统进行预警提示。

显然，通过上述方法，本发明能够用前端抓取摄像机录制现场视频流并上传至服务器；服务器通过步骤二训练好的特征图融合模型实时分析现场视频流，判定现场视频流中是否有作业人员未佩戴安全帽；若检测到有作业人员未佩戴安全帽，则管理平台监控画面出现警示，并显示未佩戴安全帽的作业人员的图像，为安全员远程或者现场纠正违章提供指示和依据。

如图8所示，经实验，现有YOLOv4模型对实验数据集进行检测的recall为92.83％，mAP为88.94％；本发明使用的特征图融合模型在同一数据集下的recall为98.62％，mAP为95.82％。可见，本发明不仅满足检测任务的实时性，同时具有较高的检测准确率。

我们的模型可以在各种天气环境下都做出更为准确的预测，使得模型的泛化能力增强，面对各种不同的未知图像都能做出较好的判断。如下表2所示为模型在不同测试集上检测能力的对比分析。

表2不同天气数据集下检测能力对比

对抗训练对模型鲁棒性提升的验证。如表3所示为模型在加入对抗训练前后检测能力的对比分析。将对抗样本和原有数据一起进行训练，对抗样本产生的损失将作为原损失的一部分，即在不修改原模型结构的情况下增加模型的损失，产生正则化的效果。从实验数据得到，加入对抗训练后，本发明模型recall提升0.29％，mAP提升0.56％。模型通过学习训练集中的对抗性干扰来获得泛化能力，从而具有更好的鲁棒性。

表3加入对抗训练前后模型检测能力对比

实施例2

本实施例与实施例1的区别在于：所述的生成对抗样本采用c&w(CarliniandWagner Attacks)、PGD(Project Gradient Descent)、UAP(UniversalAdversarialPerturbation)、UEA(Unified and Efficient Adversary)、RAP(Robust AdversarialPerturbation)、JSMA(Jacobian-based Saliency MapAttack)或Deepfool方法进行。

Claims

1.一种基于改进YOLOv4的安全帽佩戴检测方法，其特征在于：步骤一、提取被检测区域内监控设备的视频流，以此为基础，通过数据增强方法建立最终训练集；

1-1.在视频流中截取多张图片，对所得的各图片中的目标位置进行标记，以此作为初始训练集；

2-2.将初始训练集中选取部分或全部图片分为多组，通过数据增强的方法进行数据扩充；数据增强方法包括随机裁剪、目标遮挡、噪声模拟环境和生成对抗样本；同一组图片选择各数据增强方法中的任意一种进行处理，形成最终训练集；

随机裁剪是指在原始图片的基础上随机截取一张预设大小的局部图片；目标遮挡是指对原始图片中的目标位置的不同部分设置黑色矩形块进行遮挡；噪声模拟环境是指在原始图片中加入了不同的模拟噪声；模拟噪声分为雨天模拟噪声、夜晚模拟噪声、雾天模拟噪声；

步骤二、将步骤一得到的最终训练集送入特征图融合模型中训练，直至模型的损失函数低于预设的阈值；

特征图融合模型包括YOLOv4基础模块和特征提取模块；YOLOv4基础模块使用跨阶段局部网络作为骨干网络，使用路径聚合网络和空间金字塔池化作为颈部；根据输入图像得到三个不同大小的yolo head特征图，记作特征提取模块对输入图像的原图做3×3卷积运算，用BN层做归一化操作；特征提取模块输出的三个特征图/>的分辨率与三个yolo head特征图/>的分辨率分别大小一致；

通过两组特征图对应元素相加的操作，进行特征图融合；在得到三种输出融合图之后再做一次3x3的卷积操作以减小融合造成的混叠效应，得到三种输出融合图F₁、F₂、F₃，最后利用交并比和非极大值抑制保留最优框；

2.根据权利要求1所述的一种基于改进YOLOv4的安全帽佩戴检测方法，其特征在于：所述的数据增强方法还包括Cutmix操作和高斯滤波去噪；所述的Cutmix操作是指将原始图片中的部分区域剪切掉，并在剪切掉的区域填充初始训练集中任选的另一张图片中的相同大小区域的内容。高斯滤波去噪是指通过高斯滤波视频去噪算法对原始图像进行去噪处理。

3.根据权利要求1所述的一种基于改进YOLOv4的安全帽佩戴检测方法，其特征在于：所述的生成对抗样本采用c&w、PGD、UAP、UEA、RAP、JSMA或Deepfool方法进行。

4.根据权利要求1所述的一种基于改进YOLOv4的安全帽佩戴检测方法，其特征在于：所述的生成对抗样本通过如下方法进行：

先构造一个与darknet结构相同的分类网络，然后通过FGSM算法，在梯度方向上添加增量来诱导分类网络对生成的图片X′进行误分类，X′就是所需要的对抗样本；对抗样本X′生成过程如式(1)所示：

X′＝X+η (1)

式(1)中，X为初始图片；η为添加扰动，其表达式为η＝ε×sign(▽_XJ(θ,X,Y))；ε为攻击参数；sign(·)为符号函数；▽_XJ(θ,X,Y)为损失函数J(θ,X,Y)对X的偏导函数；θ为模型参数；Y为结果标签；通过线性化损失函数J(θ,X,Y)，获得添加扰动η。

5.根据权利要求4所述的一种基于改进YOLOv4的安全帽佩戴检测方法，其特征在于：所述的损失函数J(θ,X,Y)用损失函数loss代替，表达式如式(2)所示；

x_i，y_i分别表示由第i个网格负责的目标物体的真实标注的中心点坐标，分别表示由第i个网格负责的目标物体的预测框的中心点坐标；h_i、ω_i分别代表由第i个网格负责的目标物体的真实标注的长度、宽度，/>和/>代表由第i个网格负责的obj的预测框的长宽；C_i代表由第i个网格负责的目标物体的真实分类结果，/>代表由第i个网格负责的obj的预测分类结果；p_i(c)代表由第i个网格负责的目标物体属于第c个类别的真实分类概率，/>代表由第i个网格负责的目标物体属于第c个类别的预测分类概率；λ_coord和λ_noord分别表示坐标损失、网格预测类别损失的权重。

6.根据权利要求1所述的一种基于改进YOLOv4的安全帽佩戴检测方法，其特征在于：目标遮挡操作中，黑色矩形块遮挡住目标位置的1/4、1/3或1/2。

7.根据权利要求1所述的一种基于改进YOLOv4的安全帽佩戴检测方法，其特征在于：添加雨天模拟噪声的方法如下：首先，生成不同密度的随机噪声来模拟不同大小的雨量；随后，对添加的各部分噪声进行拉长、旋转方向操作，生成雨天模拟噪声；最后，对生成的雨天模拟噪声和原始图片进行叠加。

8.根据权利要求1所述的一种基于改进YOLOv4的安全帽佩戴检测方法，其特征在于：添加夜晚模拟噪声的方法具体如下：先截取一张夜晚工地的背景图，然后将该背景图以预设的夜晚模拟权重值加权到原始图片上；添加雾天模拟噪声的方法具体如下：先截取一张雾天工地的背景图，然后将该背景图以预设的雾天模拟权重值加权到原始图片上。

9.根据权利要求1所述的一种基于改进YOLOv4的安全帽佩戴检测方法，其特征在于：三个yolo head特征图的分辨率分别为输入图像的1/8、1/16、1/32。

10.根据权利要求1所述的一种基于改进YOLOv4的安全帽佩戴检测方法，其特征在于：所述的特征提取模块采用具有单侧抑制且稀疏激活的ReLU函数作为激活函数。