CN116844114A - 一种基于YOLOv7-WFD模型的安全帽检测方法及装置 - Google Patents
一种基于YOLOv7-WFD模型的安全帽检测方法及装置 Download PDFInfo
- Publication number
- CN116844114A CN116844114A CN202310916994.0A CN202310916994A CN116844114A CN 116844114 A CN116844114 A CN 116844114A CN 202310916994 A CN202310916994 A CN 202310916994A CN 116844114 A CN116844114 A CN 116844114A
- Authority
- CN
- China
- Prior art keywords
- model
- yolov7
- wfd
- kernel
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 37
- 238000005070 sampling Methods 0.000 claims abstract description 25
- 238000010276 construction Methods 0.000 claims abstract description 9
- 230000007246 mechanism Effects 0.000 claims abstract description 8
- 230000003121 nonmonotonic effect Effects 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims abstract description 7
- 230000004913 activation Effects 0.000 claims abstract description 5
- 238000010606 normalization Methods 0.000 claims abstract description 4
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 20
- 238000000034 method Methods 0.000 claims description 20
- 230000006798 recombination Effects 0.000 claims description 14
- 238000005215 recombination Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 230000008521 reorganization Effects 0.000 claims description 8
- 230000008447 perception Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010019196 Head injury Diseases 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012031 short term test Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于YOLOv7‑WFD模型的安全帽检测方法及装置,预先获取工地现场原始图像,并对图像进行预处理;构建YOLOv7‑WFD模型:在原始的YOLOv7模型中,将主干中的最后一个ELAN模块替换为ELAN‑D模块,即将原ELAN模块中的部分CBS替换为DBS;所述DBS模块由一个可变形卷积层DCN、一个归一化层和SiLU激活函数组成;另外,将头部中的UpSample模块替换为CARAFE上采样算子,扩大模型视野范围;训练YOLOv7‑WFD模型,并使用结合了动态非单调聚焦机制的Wise‑IoU损失函数作为边界框回归损失评价YOLOv7‑WFD模型性能;将待检测的图像输入经过训练好的YOLOv7‑WFD模型中,输出检测结果。本发明能快速、精确的检测出工人是否佩戴安全帽。
Description
技术领域
本发明属于目标检测技术领域,具体涉及一种基于YOLOv7-WFD模型的安全帽检测方法及装置。
背景技术
近年来,基于图像或视频的目标检测已成为计算机视觉领域的研究热点之一。目标检测网络模型具备同时判断和识别多个目标类别与位置的能力,因此在解决工程安全问题方面具有广泛应用价值。
在工程行业内,建筑业是事故风险较高的行业之一,为了降低风险,在施工过程中,通常要求工人们佩戴安全护具。安全帽作为工人最基本的个人防护装备之一,在保护工人的生命安全方面具有极其重要的作用。然而,由于现场监管不利以及工人安全意识的不高,因未佩戴安全帽而导致的工地伤亡事故通常会造成巨大的生命和财产损失。据统计,在建筑行业中,工人的伤亡率一直居高不下,其中头部损伤占据了所有伤害的20%以上。为了降低伤亡率,工地迫切需要一个有效的监管系统来监督工人是否佩戴安全帽。过去,大部分施工现场主要依靠人工管理对安全帽佩戴进行监管。然而,由于施工现场的人流量大、作业范围广,人工监管的效率一直较低。随着科技的发展,视频监控的普及度越来越高,逐渐成为安全帽检测系统的主要手段。然而,传统的视频监控智能进行视频录制而没有视频分析的功能,最终的决策仍然依赖于人类的判断,自动化程度不高;而基于深度学习中的目标检测算法则成为提高自动化程度的重要工具。
传统的目标检测算法采用基于滑动窗口的区域选择策略,这种方法缺乏针对性,并且复杂度较高。此外,手工设计的特征提取器在处理多样化目标时的鲁棒性不强。随着科技的发展,现代计算机已经能够满足深度学习对于计算量的需求,因此具备强大学习能力的深度学习被广泛应用于图像处理和目标检测领域。目前,许多目标检测任务已经放弃了传统的方法,转而采用基于卷积神经网络的方法,例如CNN、Faster-CNN。这些方法的优点在于不需要手动设计特征提取器,在提取图像特征方面具有更高的效能。与传统目标检测算法相比,基于卷积神经网络的方法在检测速度和精度上取得了巨大的提升,但是针对特定应用场景仍有很大的提升空间。
发明内容
发明目的:本发明提供一种基于YOLOv7-WFD模型的安全帽检测方法及装置,能快速、精确的检测出工人是否佩戴安全帽。
技术方案:本发明所述的一种基于YOLOv7-WFD模型的安全帽检测方法,包括以下步骤:
(1)预先获取工地现场原始图像,并对图像进行预处理;
(2)构建YOLOv7-WFD模型:在原始的YOLOv7模型中,将主干中的最后一个ELAN模块替换为ELAN-D模块,即将原ELAN模块中的部分CBS替换为DBS;所述DBS模块由一个可变形卷积层DCN、一个归一化层和SiLU激活函数组成;另外,将头部中的UpSample模块替换为CARAFE上采样算子,扩大模型视野范围;
(3)训练YOLOv7-WFD模型,并使用结合了动态非单调聚焦机制的Wise-IoU损失函数作为边界框回归损失评价YOLOv7-WFD模型性能;
(4)将待检测的图像输入经过训练好的改进的YOLOv7-WFD模型中,输出检测结果。
进一步地,步骤(2)所述可变形卷积层DCN实现过程如下:
给出一个输入的RGB图片,与当前像素p0,DCN算子公式表示为:
其中,C表示通道数,H表示图片的长度,W表示图片的宽度,G表示分组总数,J表示采样点总数,k枚举采样点,wg表示第g组的投影权重,mgk表示第g组和第k个网格采样点的位置无关投影权重,通过sigmoid函数进行归一化, 表示输入特征图的被切割一部分,pk表示预定义网格采样的第k个位置是正则卷积,△pgk表示第g组和第k个网格采样点对应的偏移量,/>且经过DCN算子处理过后图片的通道数C'=C/G。
进一步地,步骤(2)所述CARAFE上采样算子包括核预测模块和内容感知重组模块;
所述核预测模块根据目标位置的内容通过预测生成自适应重组内核,重组核的大小为kup×kup:
wl'=ψ(N(xl,kencoder))
核预测模块ψ根据内容和邻域的感知生成重组核,并为每个位置l′=(i′,j′)预测基于位置的核wl';
所述内容感知重组模块应用加权和算子φ对以l=(i,j)为中心的N(xl,kup)区域进行特征重组,以下为重组公式:
其中,r=[kup/2]。
进一步地,所述核预测模块包括通道压缩器、内容编码器和内核归一化器;
所述通道压缩器通过采用1×1卷积层将输入特征通道从C压缩为Cm,允许后续内容编码器中使用更大的内核大小;
所述内容编码器应用内核大小kencoder的卷积层来根据输入特征的内容生成重组内核;编码器的参数为:kencoder×kencoder×Cm×Cup,
所述核归一化器对于每个重组核,使用softmax函数进行归一化,保证核的权重和自适应性。
进一步地,步骤(3)所述Wise-IoU的计算公式如下:
其中,b表示预测边界框的质心,bgt表示真实边界框的质心,ρ表示b和bgt之间的欧几里得度量,d是包含预测边界框和地面真实边界框的最小封闭区域的对角线距离,IoU为预测边界框与真实边界框之间的交并比;Wg和Hg分别为预测边界框和地面真实边界框的最小封闭区域的宽与长,*表示将Wg和Hg从计算图中分离出来,以避免产生影响收敛的梯度;r表示梯度增益,β表示异常值的程度,α和δ是超参数。
进一步地,步骤(2)所述CARAFE采用一组固定的超参数,其中通道压缩器的Cm为64,内容编码器的kencoder=3,kup=5,上采样系数σ=2。
基于相同的发明构思,本发明还提出一种装置设备,包括存储器和处理器,其中:
存储器,用于存储能够在处理器上运行的计算机程序;
处理器,用于在运行所述计算机程序时,执行如上所述的基于改进的YOLOv7-WFD模型模型的安全帽检测方法步骤。
基于相同的发明构思,本发明还提出一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被至少一个处理器执行时实现如上所述的基于改进的YOLOv7-WFD模型模型的安全帽检测方法步骤。
有益效果:与现有技术相比,本发明的有益效果:本发明构建的YOLOv7-WFD模型提出了一种新的模块DBS,该模块中使用了可变形卷积层替代原CBS中的常规卷积层,实现了模型对输入数据的采样偏移量和调制标量自适应调整的能力,从而实现了自适应空间聚合;这一方法降低了正则卷积的过归纳偏置,并且仍然采用常见的3x3卷积窗口,避免了大密度核所带来的优化问题和高昂的计算成本;引入了CARAFE上采样算子,通过该算子,模型能够获得更广阔的视野,不再局限于利用亚像素邻域的差异;相反,它能够在更大的接受域中聚合上下文信息;此外,CARAFE上采样算子不再对所有样本使用固定的内核,而是支持特定于实例的内容感知处理,从而能够动态生成自适应内核;通过采用结合了动态非单调聚焦机制与Wise-IoU损失函数作为边界框回归损失,使得检测器能够考虑不同质量的锚盒,从而提升检测任务的整体性能,这一策略还能够评估锚盒质量的“离群值”,进一步提高模型的鲁棒性和准确性;基于以上实现了是否佩戴安全帽的精准快速检测。
附图说明
图1为本申请提供的改进的YOLOv7-WFG网络模型总体结构图;
图2为本申请所描述的可变形卷积DCN的动态稀疏核的表现形式图;
图3为本申请所描述的可变形卷积层DCN的执行过程图;
图4为本申请所描述的CARAFE上采样算子的执行过程图。
具体实施方式
以下将结合附图,对本发明的技术方案进行详细说明。
参考图1,本发明供了一种基于YOLOv7-WFD(Wise,Feature-aware andDeformable)模型的安全帽检测方法,用于对工人是否佩戴安全帽进行检测,具体包括以下步骤:
步骤1:预先获取工地现场原始图像,并对图像进行预处理;将处理后的图像划分训练集和测试集,用于训练下面构建的YOLOv7-WFD模型,并测试模型的性能。
步骤2:如图1所示,构建YOLOv7-WFD模型:在原始的YOLOv7模型中,将主干中的最后一个ELAN模块替换为ELAN-D模块,即将原ELAN模块中的部分CBS替换为DBS;另外,将头部中的UpSample模块替换为CARAFE上采样算子,扩大模型视野范围。
针对原YOLOv7模型的主干部分中最后一个ELAN模块,使用DBS替代部分CBS,从而形成新的ELAN-D模块。其中,CBS模块由一个卷积层(Conv2d)、一个归一化层(BatchNorm2d)和SiLU激活函数组成;而DBS是在CBS的基础上改进的模块,由一个可变形卷积层(DCN)、一个归一化层(BatchNorm2d)和SiLU激活函数组成。由于检测过程中安全头盔和人脸存在旋转和变形,传统的具有固定感受野的卷积层可能无法有效捕获这些空间变换。因此,将原来CBS中的传统卷积层Conv2d替换为可变形卷积层DCN,可以增强模型的特征提取能力。
与传统卷积相比,DCN具有以下优点:(1)如图2所示,DCN在采样位置引入了偏移量后DCN动态稀疏核的表现形式,使得卷积核的结构不是固定的,而是根据图像中物体的特征动态调整。这种灵活的映射可以更广泛地覆盖检测目标的外观特征,从而捕获更有价值的信息。(2)根据深度可分离卷积技术,DCN将卷积权值分为Depthwise卷积与Pointwise卷积两部分。相比常规卷积,DCN其参数量和运算成本较低,可以加快模型计算的速度。(3)DCN引入多组机制,每组执行不同的偏移采样、样本向量投影和因子调制,这种操作增强了DCN算子的表达能力。(4)DCN利用softmax函数对调制标量进行归一化,增强了模型的稳定性。(5)DCN借鉴稀疏全局建模的思想,保留了CNN的归纳偏差,从而增强了模型在检测人和物体时的特征提取能力。这种方法使得DCN算子可以获取更高的检测精度,但代价是检测速度略有下降。
综上DCN优点可知,DCN具有更大的适应性,解决了传统卷积无法学习长范围特征的问题,使得模型更适合多样化的应用场景。图3为可变形卷积执行过程示例图,数学描述如下。
若给出一个三通道的RGB图片,记为与当前像素p0,DCN算子公式可表示为:
其中,C表示通道数,H表示图片的长度,W表示图片的宽度,G表示分组总数,K表示采样点总数,k枚举采样点,wg表示第g组的投影权重,mgk表示第g组和第k个网格采样点的位置无关投影权重,通过sigmoid函数进行归一化, 表示输入特征图的被切割一部分,pk表示预定义网格采样的第k个位置是正则卷积,△pgk表示第g组和第k个网格采样点对应的偏移量,/>且经过DCN算子处理过后图片的通道数C'=C/G。
将原YOLOv7模型的头部中的Upsample模块替换为CARAFE上采样算子。CARAFE上采样算子具有的特点:(1)感受野大。传统方法通常使用最近邻插值和双线性插值,将模型的感受野限制为1×1或2×2。然而,CARAFE在上采样过程中考虑了整个特征图,扩大了模型的感受野,从而更好地保留了图像细节和边缘信息,同时减少了上采样过程中锯齿状边缘和模糊效果的出现。(2)CARAFE通过动态生成适合不同目标的自适应内核来支持特定于实例的内容感知处理。而传统的最近邻插值和双线性插值依赖固定规则进行上采样,无法根据内容进行调整。(3)轻量且快速。CARAFE引入的计算开销很小,并且对现有网络模型具有良好的适应性,可以无缝集成到深度神经网络的任何位置。与传统的最近邻插值或双线性插值相比,CARAFE更容易与其他网络层(例如卷积层或池化层)结合。图4为CARAFE上采样算子的执行过程图。
在CARAFE计算过程中,若给定一个尺寸为C×H×W的特征图X和上采样系数σ(假设σ为整数),CARAFE将生成一个尺寸为C×σH×σW的新特征图X'。对于输入X的任意一个位置l=(i,j),输出X'都有一个l'=(i',j')与之相对应;其中i=[i′/σ],j=[j′/σ]。
具体来说,CARAFE上采样算子可以进一步细分为两个模块:核预测模块和内容感知重组模块。
核预测模块:CARAFE根据目标位置的内容通过预测生成自适应重组内核。重组核的作用是对特征进行重新组合和调整,以获得更准确、更丰富的上采样结果。这个预测过程保证了CARAFE算子对特征的精确调整,重组核的大小为kup×kup:
wl'=ψ(N(xl,kencoder))
该公式为重组核生成公式。核预测模块ψ根据内容和邻域的感知生成重组核,并为每个位置l′=(i′,j′)预测基于位置的核wl′。
核预测模块可以细分为三个子模块:通道压缩器、内容编码器和内核归一化器,这三个子模块详细解释如下:
(1)通道压缩器:通过采用1×1卷积层将输入特征通道从C压缩为Cm,减少了模型的参数数量和计算成本,从而提高了计算速度。此外,这允许后续内容编码器中使用更大的内核大小。
(2)内容编码器:应用内核大小kencoder的卷积层来根据输入特征的内容生成重组内核。编码器的参数为kencoder×kencoder×Cm×Cup,
(3)核归一化器:对于每个重组核,使用softmax函数进行归一化,保证核的权重和自适应性。
内容感知重组模块:在内容感知重组模块中,应用加权和算子φ对以l=(i,j)为中心的N(xl,kup)区域进行特征重组,以下为重组公式:
其中,为使公式简洁,记r=[kup/2];CARAFE采用了一组固定的超参数,其中通道压缩器的Cm为64,内容编码器的kencoder=3,kup=5,上采样系数σ=2。
步骤3:训练YOLOv7-WFD模型,并使用结合了动态非单调聚焦机制的Wise-IoU损失函数作为边界框回归损失评价YOLOv7-WFD模型性能。将待检测的图像输入经过训练好的改进的YOLOv7-WFD模型中,输出检测结果。
原YOLOv7模型使用的定位损失的损失函数为CIoU,该损失函数引入了锚框的长宽比来稳定梯度。但是,在安全帽检测的实际工作中,通常由于场景复杂且人流量大而导致采集的图像样本质量较低,而低质量的样本会产生有害的梯度,为了减轻低质量样本对训练结果的负面影响,改进的模型采用结合了动态非单调聚焦机制的Wise-IoU作为损失函数,该损失函数可以减轻低质量样本对训练结果的负面影响,并使得模型更加稳定,具有更好的泛化能力。结合了动态非单调聚焦机制的Wise-IoU,是利用“离群值”来评估锚框质量的。离群值越小,表明锚框的质量越低,因此该锚框将被分配较小的梯度增益,以将边界框回归集中在较高质量的锚框上。
Wise-IoU的计算公式如下:
其中,b表示预测边界框的质心,bgt表示真实边界框的质心,ρ表示b和bgt之间的欧几里得度量,d是包含预测边界框和地面真实边界框的最小封闭区域的对角线距离,IoU为预测边界框与真实边界框之间的交并比,Wg和Hg分别为预测边界框和地面真实边界框的最小封闭区域的宽与长,*表示将Wg和Hg从计算图中分离出来,以避免产生影响收敛的梯度;r表示梯度增益,β表示异常值的程度,α和δ是超参数,α设置为1.9,δ设置为3。由于IoU是动态的,所以锚盒的质量划分标准也是动态的,这使得Wise-IoU能够在每一个时刻做出最符合当前情况的梯度增益分配策略。
基于相同的发明构思,本发明还提出一种装置设备,包括存储器和处理器,其中:存储器,用于存储能够在处理器上运行的计算机程序;处理器,用于在运行所述计算机程序时,执行如上所述的基于改进的YOLOv7-WFD模型模型的安全帽检测方法步骤。
基于相同的发明构思,本发明还提出一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被至少一个处理器执行时实现如上所述的基于改进的YOLOv7-WFD模型模型的安全帽检测方法步骤。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (8)
1.一种基于YOLOv7-WFD模型的安全帽检测方法,其特征在于,包括以下步骤:
(1)预先获取工地现场原始图像,并对图像进行预处理;
(2)构建YOLOv7-WFD模型:在原始的YOLOv7模型中,将主干中的最后一个ELAN模块替换为ELAN-D模块,即将原ELAN模块中的部分CBS替换为DBS;所述DBS模块由一个可变形卷积层DCN、一个归一化层和SiLU激活函数组成;另外,将头部中的UpSample模块替换为CARAFE上采样算子,扩大模型视野范围;
(3)训练YOLOv7-WFD模型,并使用结合了动态非单调聚焦机制的Wise-IoU损失函数作为边界框回归损失评价YOLOv7-WFD模型性能;
(4)将待检测的图像输入经过训练好的改进的YOLOv7-WFD模型中,输出检测结果。
2.根据权利要求1所述的一种基于YOLOv7-WFD模型的安全帽检测方法,其特征在于,步骤(2)所述可变形卷积层DCN实现过程如下:
给出一个输入的RGB图片,与当前像素p0,DCN算子公式表示为:
其中,C表示通道数,H表示图片的长度,W表示图片的宽度,G表示分组总数,K表示采样点总数,k枚举采样点,wg表示第g组的投影权重,mgk表示第g组和第k个网格采样点的位置无关投影权重,通过sigmoid函数进行归一化, 表示输入特征图的被切割一部分,pk表示预定义网格采样的第k个位置是正则卷积,△pgk表示第g组和第k个网格采样点对应的偏移量,/>且经过DCN算子处理过后图片的通道数C'=C/G。
3.根据权利要求1所述的一种基于YOLOv7-WFD模型的安全帽检测方法,其特征在于,步骤(2)所述CARAFE上采样算子包括核预测模块和内容感知重组模块;
所述核预测模块根据目标位置的内容通过预测生成自适应重组内核,重组核的大小为kup×kup:
wl'=ψ(N(xl,kencoder))
核预测模块ψ根据内容和邻域的感知生成重组核,并为每个位置l′=(i′,j')预测基于位置的核wl';
所述内容感知重组模块应用加权和算子φ对以l=(i,j)为中心的N(xl,kup)区域进行特征重组,以下为重组公式:
其中,r=[kup/2]。
4.根据权利要求3所述的一种基于YOLOv7-WFD模型的安全帽检测方法,其特征在于,所述核预测模块包括通道压缩器、内容编码器和内核归一化器;
所述通道压缩器通过采用1×1卷积层将输入特征通道从C压缩为Cm,允许后续内容编码器中使用更大的内核大小;
所述内容编码器应用内核大小kencoder的卷积层来根据输入特征的内容生成重组内核;编码器的参数为:kencoder×kencoder×Cm×Cup,
所述核归一化器对于每个重组核,使用softmax函数进行归一化,保证核的权重和自适应性。
5.根据权利要求1所述的一种基于YOLOv7-WFD模型的安全帽检测方法,其特征在于,步骤(3)所述Wise-IoU的计算公式如下:
其中,<表示预测边界框的质心,<gt表示真实边界框的质心,ρ表示<和<gt之间的欧几里得度量,d是包含预测边界框和地面真实边界框的最小封闭区域的对角线距离,IoU为预测边界框与真实边界框之间的交并比;Wg和Hg分别为预测边界框和地面真实边界框的最小封闭区域的宽与长,*表示将Wg和Hg从计算图中分离出来,以避免产生影响收敛的梯度;r表示梯度增益,β表示异常值的程度,α和δ是超参数。
6.根据权利要求1所述的一种基于YOLOv7-WFD模型的安全帽检测方法,其特征在于,步骤(2)所述CARAFE采用一组固定的超参数,其中通道压缩器的Cm为64,内容编码器的kencoder=3,kup=5,上采样系数σ=2。
7.一种装置设备,其特征在于,包括存储器和处理器,其中:
存储器,用于存储能够在处理器上运行的计算机程序;
处理器,用于在运行所述计算机程序时,执行如权利要求1-6任一项所述的基于YOLOv7-WFD模型的安全帽检测方法步骤。
8.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被至少一个处理器执行时实现如权利要求1-6任一项所述的基于YOLOv7-WFD模型的安全帽检测方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310916994.0A CN116844114A (zh) | 2023-07-25 | 2023-07-25 | 一种基于YOLOv7-WFD模型的安全帽检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310916994.0A CN116844114A (zh) | 2023-07-25 | 2023-07-25 | 一种基于YOLOv7-WFD模型的安全帽检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116844114A true CN116844114A (zh) | 2023-10-03 |
Family
ID=88172536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310916994.0A Pending CN116844114A (zh) | 2023-07-25 | 2023-07-25 | 一种基于YOLOv7-WFD模型的安全帽检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116844114A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117218329A (zh) * | 2023-11-09 | 2023-12-12 | 四川泓宝润业工程技术有限公司 | 一种井口阀门检测方法、装置、存储介质及电子设备 |
-
2023
- 2023-07-25 CN CN202310916994.0A patent/CN116844114A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117218329A (zh) * | 2023-11-09 | 2023-12-12 | 四川泓宝润业工程技术有限公司 | 一种井口阀门检测方法、装置、存储介质及电子设备 |
CN117218329B (zh) * | 2023-11-09 | 2024-01-26 | 四川泓宝润业工程技术有限公司 | 一种井口阀门检测方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11263434B2 (en) | Fast side-face interference resistant face detection method | |
CN110222787B (zh) | 多尺度目标检测方法、装置、计算机设备及存储介质 | |
JP4708909B2 (ja) | デジタル画像の対象物検出方法および装置並びにプログラム | |
JP6798183B2 (ja) | 画像解析装置、画像解析方法およびプログラム | |
CN110619628B (zh) | 一种人脸图像质量评估方法 | |
CN112200043A (zh) | 面向室外施工现场的危险源智能识别系统及方法 | |
CN112837344B (zh) | 一种基于条件对抗生成孪生网络的目标跟踪方法 | |
CN114972213A (zh) | 一种基于机器视觉的两阶段主板图像缺陷检测及定位方法 | |
CN111844101A (zh) | 一种多指灵巧手分拣规划方法 | |
CN111738344A (zh) | 一种基于多尺度融合的快速目标检测方法 | |
CN112818969A (zh) | 一种基于知识蒸馏的人脸姿态估计方法及系统 | |
CN113744262B (zh) | 一种基于GAN和YOLO-v5的目标分割检测方法 | |
CN116844114A (zh) | 一种基于YOLOv7-WFD模型的安全帽检测方法及装置 | |
CN116579616B (zh) | 一种基于深度学习的风险识别方法 | |
JP4757598B2 (ja) | 顔検出方法および装置並びにプログラム | |
CN111259815A (zh) | 一种人脸图像质量评估方法、系统、设备及介质 | |
CN115063648A (zh) | 一种绝缘子缺陷检测模型构建方法及系统 | |
CN114092793A (zh) | 适用于复杂水下环境的端到端生物目标检测方法 | |
CN111274895A (zh) | 基于空洞卷积的cnn微表情识别方法 | |
CN117593193B (zh) | 一种基于机器学习的钣金图像增强方法及系统 | |
JP2011170890A (ja) | 顔検出方法および装置並びにプログラム | |
CN111127355A (zh) | 一种对缺损光流图进行精细补全的方法及其应用 | |
CN116721288A (zh) | 一种基于YOLOv5的安全帽检测方法及系统 | |
JP4795737B2 (ja) | 顔検出方法および装置並びにプログラム | |
Chen et al. | YOLOv7-WFD: A Novel Convolutional Neural Network Model for Helmet Detection in High-Risk Workplaces |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |