CN116343077A - 一种基于注意力机制与多尺度特征的火灾检测预警方法 - Google Patents
一种基于注意力机制与多尺度特征的火灾检测预警方法 Download PDFInfo
- Publication number
- CN116343077A CN116343077A CN202310003454.3A CN202310003454A CN116343077A CN 116343077 A CN116343077 A CN 116343077A CN 202310003454 A CN202310003454 A CN 202310003454A CN 116343077 A CN116343077 A CN 116343077A
- Authority
- CN
- China
- Prior art keywords
- fire
- network
- image
- training
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000007246 mechanism Effects 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 32
- 230000006870 function Effects 0.000 claims abstract description 25
- 238000012360 testing method Methods 0.000 claims abstract description 24
- 239000000779 smoke Substances 0.000 claims abstract description 17
- 238000012544 monitoring process Methods 0.000 claims abstract description 13
- 238000013135 deep learning Methods 0.000 claims abstract description 9
- 230000004927 fusion Effects 0.000 claims abstract description 8
- 238000010606 normalization Methods 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 230000004913 activation Effects 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 230000002457 bidirectional effect Effects 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 206010026749 Mania Diseases 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000002349 favourable effect Effects 0.000 claims description 2
- 238000011478 gradient descent method Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 230000035515 penetration Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000002485 combustion reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
一种基于注意力机制与多尺度特征的火灾检测预警方法,先建立多场景火灾数据集,对数据进行预处理,获取训练样本集和测试样本集;然后搭建改进的深度学习网络模型Fire‑YOLOv5;再迭代训练最小化损失函数,得到训练好的Fire‑YOLOv5模型,部署到隧道监控的边缘服务器中;隧道监控采集模块获取流媒体数据,对采集到视频进行归一化预处理,得到视频的图像帧序列;视频的图像帧序列利用训练完成的Fire‑YOLOv5模型逐帧进行火灾烟雾检测;检测的结果通过视频帧投票机制判决并预警火灾的发生;本发明可部署到不同的硬件设备,提出的Fire‑YOLOv5在主干网络引入同位注意力机制,增强目标位置的权重表示,实现各尺度特征更好融合;通过视频帧投票机制来实现早期火灾的实时预警。
Description
技术领域
本发明涉及图像处理和深度学习技术领域,具体涉及一种基于注意力机制与多尺度特征的火灾检测预警方法。
背景技术
火灾作为全世界公认的灾害之一,严重危害人类的生命和财产安全。对于智慧城市的安防建设,早期有效的火灾检测和预警是至关重要的。基于物理信号的传感器,如烟雾传感器、热释放红外火焰传感器、紫外火焰传感器等,广泛用于火灾报警系统。由于这些传统的物理传感器局限于近火源位置,无法在半封闭性大空间建筑和开放地下空间中有效工作,且无法提供火灾位置、火情大小和燃烧程度等灾情详细信息,而基于视觉传感器的火灾检测技术可满足这些需求。
有方法(一种基于视频的火情监测方法和装置,申请号2021112915514)可获取视频摄像头的流媒体数据,并对流媒体数据进行预处理,得到目标图片;利用YOLO-V4算法对目标图片进行检测,确定出目标图片的边界框,其中,边界框包括:火情边界框和烟雾边界框;对边界框内的图片进行超像素分割,得到超像素分片,并对超像素分片进行分类,得到初始火情监测结果;基于初始火情监测结果构建外接矩形框,并将外接矩形框叠加在流媒体数据上,得到目标火情监测结果。但是其存在以下缺点:适用于大中型火灾目标数据样本,检测不到小目标的火焰和烟雾;对于多场景下的火灾检测存在漏检率和误检率高的问题,导致检测的平均精度低;深度神经网络模型的深度和宽度不可灵活调整,无法更好的部署到不同的硬件设备。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供了一种基于注意力机制与多尺度特征的火灾检测预警方法,解决了大中小火焰和烟雾目标不均衡的问题,使用可变深度和宽度动态神经网络来调整网络模型的大小以部署到不同的硬件设备,提出改进的深度学习网络模型Fire-YOLOv5,在主干网络引入同位注意力机制,增强目标位置的权重表示,实现各尺度特征更好融合;通过视频帧投票机制来实现早期火灾的实时预警。
为了达到上述目的,本发明采取的技术方案为:
一种基于注意力机制与多尺度特征的火灾检测预警方法,包括以下步骤:
步骤S1,建立多场景火灾数据集,对数据进行预处理,获取训练样本集{train1,…,traind,…,trainm}和测试样本集{test1,…,teste,…,testn};
步骤S2,搭建改进的深度学习网络模型Fire-YOLOv5;
步骤S201,设置神经网络的深度、宽度系数以此调整网络模型的大小适应不同的硬件平台,设置数据增强的参数向量,图像样本做仿射变换和透视变换以及组合变换丰富数据集;
步骤S202,使用Mish激活函数优化的同位注意力模块CAB代替YOLOv5主干网络中的CSP2_X模块,以此来增强感兴趣区域的权重参数表示;
步骤S203,使用Concat连接双向跨尺度链路融合不同尺度的特征图,实现语义的多层融合;
步骤S204,增加一组小目标锚框和检测头,实现原图像32倍下采样像素级别目标的检测;
步骤S3,不断迭代训练最小化损失函数,得到训练好的Fire-YOLOv5模型,部署到隧道监控的边缘服务器中;
步骤S4,隧道监控采集模块获取流媒体数据,对采集到视频进行归一化预处理,得到视频的图像帧序列;
步骤S5,视频的图像帧序列利用训练完成的Fire-YOLOv5模型逐帧进行火灾烟雾检测;
步骤S6,检测的结果通过视频帧投票机制判决并预警火灾的发生。
本发明的有益效果为:
由于构建了多场景的火焰和烟雾图像数据集,并使用多种数据增强方法,解决了大中小火焰和烟雾目标不均衡的问题;
由于使用可变深度和宽度动态神经网络来调整网络模型的大小以部署到不同的硬件设备;
为了提高检测的平均精度,提出深度学习网络模型Fire-YOLOv5,在主干网络引入同位注意力机制,增强目标位置的权重表示,并基于双向特征金字塔网络原理,将部分路径聚合网络转化为双向跨尺度连接,通过简单的拼接操作,就可实现各尺度特征更好融合;同时,设计小目标检测层聚焦检测视觉任务中的小目标,通过视频帧投票机制来实现早期火灾的实时预警。
附图说明
图1为本发明方法的实现流程图。
图2为本发明实施例的Fire-YOLOv5网络结构图。
图3为本发明实施例的注意力机制模块CAB网络结构图。
图4为本发明实施例的网络性能图。
图5为本发明实施例与其他方法性能对比图。
具体实施方式
下面结合实施例对本发明做详细描述。
网络训练采用开源Pytorch深度学习框架,Ubuntu 20.04系统环境,Cuda10.0和Python3.7编程环境,硬件平台GPU型号为NVIDIA GeForce RTX 2070Max-Q,显存大小为8G,CPU型号为Intel(R)Core(TM)i-10750HCPU@2.60GHz,内存大小为12G,完成训练与测试。由于硬件设备的限制,设置训练批次的大小为2,采用SGD学习优化器,设定全局初始学习率为0.001。
实施例1,参照图1,一种基于注意力机制与多尺度特征的火灾检测预警方法,包括以下步骤:
步骤S1:建立多场景火灾数据集,对数据进行预处理,获取训练样本集{train1,…,traind,…,trainm}和测试样本集{test1,…,teste,…,testn};
步骤S2:搭建改进的深度学习网络模型Fire-YOLOv5,如图2所示;
步骤S201:设置神经网络的深度、宽度系数以此调整网络模型的大小适应不同的硬件平台,设置数据增强的参数向量,图像样本做仿射变换和透视变换以及组合变换丰富数据集;
步骤S202:使用Mish激活函数优化的同位注意力模块CAB代替YOLOv5主干网络中的CSP2_X模块,以此来增强感兴趣区域的权重参数表示;
步骤S203:使用Concat连接双向跨尺度链路融合不同尺度的特征图,实现语义的多层融合;
步骤S204:增加一组小目标锚框和检测头,实现原图像32倍下采样像素级别目标的检测;
步骤S3:不断迭代训练最小化损失函数,得到训练好的Fire-YOLOv5模型,部署到隧道监控的边缘服务器中;
步骤S4:隧道监控采集模块获取流媒体数据,对采集到视频进行归一化预处理,得到视频的图像帧序列;
步骤S5:视频的图像帧序列利用训练完成的Fire-YOLOv5模型逐帧进行火灾烟雾检测;
步骤S6:检测的结果通过视频帧投票机制判决并预警火灾的发生。
步骤S1具体为:
S101、开源数据集中获取包含火焰和烟雾两类目标的多场景火灾图像Image={Image1,…Imagei…,ImageN},制作统一格式的样本标签Label={Label1,…Labeli…,LabelN},每个标签Labeli表示所对应样本Imagei中第j个目标的中心点位置坐标(Xij,Yij)、目标的宽度和高度(Wij,Hij)和类别{0,1},,Imagei表示数据集中的第i个样本,i∈[0,N],N代表图像的总数目,类别{0,1}分别代表{火焰,烟雾};
S102、对数据集中的每一个样本归一化处理为640像素*640像素,背景做灰色填充;
S103、将归一化处理之后的数据集分为训练集部分Train和测试集部分Test,针对每一类图像,选取80%作为训练集,剩余的20%作为测试集。
步骤S2具体为,
步骤S201中,深度神经网络的网络深度即网络层数和网络宽度即网络输出通道分别由深度因子DM、宽度因子WM控制,网络层数为max(round(number*DM),1),其中number为不同模块网络层数,round为四舍五入取整,网络输出通道为其中channel为不同模块的通道数,/>为向上取整。
步骤S202中,参照图3,Fire-YOLOv5引入高效的通道注意力机制模块CAB,特征金字塔池化层之后使用两个空间范围的池化核分别沿水平坐标和垂直坐标对每个通道进行一维特征编码;第c个通道的两个一维特征编码输出为
其中W和H是第c个通道的宽度和高度,使用1×1卷积核转换通道数和Mish激活函数来获得水平和垂直方向的全局空间信息,中间特征图的输出f=δ(F1([zh,zw])),[zh,zw]代表沿水平和垂直方向的两个方向张量拼接操作,将中间特征图沿空间维度分成两个独立的张量,并使用两个1×1的卷积来转换通道,使之与输入通道一致;转换过程
使用的Mish激活函数y=x*tanh(ln(1+ex)),此函数是一个平滑的曲线,在负值的部分没有完全截断,允许比较小的负梯度流入及更有利的信息深入神经网络,从而得到更高的准确性和泛化性;随着层深的增加,ReLU激活函数会使训练精度迅速下降,而Mish激活函数在训练稳定性、平均精度、峰值精度等方面都有全面的提升。
步骤S203中,Fire-YOLOv5模型结合双向特征金塔网络的原理,将同一层次的输入节点和输出节点跨层连接,缩短了低层语义向高层传递的路径,并通过拼接方式而不是相加的方式合并相邻层将高层丰富的语义特征与位于低层的特征有机结合,明显提升了预测的准确性;采用消除权重的双向跨尺度连接方式来进行特征融合,旨在提高检测精度的同时而不影响网络的推理运算速度。
步骤S204中,Fire-YOLOv5模型中多次下采样倍数过大导致小目标信息量损失,考虑到模型可用的分辨率和上下文信息有限,增设一组锚框和小目标检测层来解决火灾小目标无法检测的问题,将第18层CBS结构输出的特征图进行上采样获取到大小为160X160的特征图与主干网络中第2层输出的特征图进行拼接操作,之后连接CSP_2X层和卷积层;输入图像尺寸被统一调整为640X640像素,160X160特征图用来检测4X4像素以上的目标,80X80特征图用来检测8X8像素以上的目标,40X40特征图用来检测16X16像素以上的目标,20X20特征图用来检测32X32像素以上的目标。这样增设小目标检测层之后,四层检测结构可覆盖不同的感受野,实现超小像素目标的快速检测与精准定位。
步骤S3具体为,
S301、设置最大迭代次数Itera,学习率η,训练批次大小B,每次输入训练数据集{train1,…,traind,…,trainm}的B张图片,输入次数Num为其中,m为训练数据集中的样本总数;损失函数为分类损失、定位损失和正负样本置信度损失之和L=Lclass+LCIoU+Lobj+Lnoobj;
S303、当迭代次数未达到所设置的最小迭代次数Itera时,若损失函数L不再下降,则停止训练;当迭代次数达到所设置的最小迭代次数Itera时,则停止训练,得到训练好的网络模型;否则,继续进行迭代优化。
步骤S301中,损失函数具体如:
T是输出特征图t的个数,S2是特征图划分网格cell的数量,N是每个网格n上锚框的数量,w是预测框的宽度,h预测框的高度,1r<4判断为正样本的条件,设置标定框的宽高和预测狂的宽高之比小于4;
分类损失计算推理的类别与对应的标定分类之间的误差:
定位损失计算预测框与标定框之间的误差:
其中wgt是标定框的宽度,hgt标定框的高度,IoU是标定框和预测框的交集并集的比值,ρ2(b,bgt)标定框和预测框的中心点距离;
正负样本置信度损失计算网络的置信度:
步骤S4中,隧道监控采集模块获取流媒体数据,将输入视频流输出按间隔帧保存为图片序列。
步骤S5中,使用训练完成的Fire-YOLOv5模型逐帧进行火灾烟雾检测,在图片序列中画出目标区域并标注其类别和概率,最后组帧成视频。
步骤S6中,利用深度神经网络分别对视频中的N个连续帧进行检测,将得到的火灾类别概率与阈值对比推理出N个预测投票值,利用这N个投票值进行判决,实现在初期阶段预警火灾。
实验结果参照图4和图5,在火焰和烟雾检测任务中,Fire-YOLOv5x实现了性能和效率的良好平衡,鲁棒性更强。该网络的参数为70.7M,比YOLOv5x网络参数减小了18.0%,检测精度达到93.5%,比YOLOv5x提升了2.0%,在IoU阈值设置0.5时平均检测精度达到71.8%,相比提升了0.2%,推理速度和YOLOv5x相当。由Fire-YOLOv5x的F1值、精度、召回率曲线可知,检测的类平均精度和召回率分别达到93.5%和96%,可见本文新方法具有更高检测精度和较低漏检率。使用一个公开的数据集进行测试,Fire-YOLOv5x的检测精度比EfficientDet-D4和YOLOv5分别提升1.6%和2%,检测召回率相比EfficientDet-D4提升1.7%,而IoU阈值为0.5时平均检测精度比EfficientDet-D4提高14.5%。在检测速度上和EfficientDet-D4相当。尤其在处理超小像素和密集火灾目标时,性能更优于现有的基于深度学习的火焰和烟雾检测方法。对隧道火灾视频检测结果表明,能够实现火灾的快速检测和及时预警。深度神经网络模型的深度和宽度可灵活调整,训练不同规模的网络可部署到不同算力的硬件设备。
Claims (10)
1.一种基于注意力机制与多尺度特征的火灾检测预警方法,其特征在于,包括以下步骤:
步骤S1,建立多场景火灾数据集,对数据进行预处理,获取训练样本集{train1,…,traind,…,trainm}和测试样本集{test1,…,teste,…,testn};
步骤S2,搭建改进的深度学习网络模型Fire-YOLOv5;
步骤S201,设置神经网络的深度、宽度系数以此调整网络模型的大小适应不同的硬件平台,设置数据增强的参数向量,图像样本做仿射变换和透视变换以及组合变换丰富数据集;
步骤S202,使用Mish激活函数优化的同位注意力模块CAB代替YOLOv5主干网络中的CSP2_X模块,以此来增强感兴趣区域的权重参数表示;
步骤S203,使用Concat连接双向跨尺度链路融合不同尺度的特征图,实现语义的多层融合;
步骤S204,增加一组小目标锚框和检测头,实现原图像32倍下采样像素级别目标的检测;
步骤S3,不断迭代训练最小化损失函数,得到训练好的Fire-YOLOv5模型,部署到隧道监控的边缘服务器中;
步骤S4,隧道监控采集模块获取流媒体数据,对采集到视频进行归一化预处理,得到视频的图像帧序列;
步骤S5,视频的图像帧序列利用训练完成的Fire-YOLOv5模型逐帧进行火灾烟雾检测;
步骤S6,检测的结果通过视频帧投票机制判决并预警火灾的发生。
2.根据权利要求1所述的方法,其特征在于,步骤S1具体为:
S101、开源数据集中获取包含火焰和烟雾两类目标的多场景火灾图像Image={Image1,…Imagei…,ImageN},制作统一格式的样本标签Label={Label1,…Labeli…,LabelN},每个标签Labeli表示所对应样本Imagei中第j个目标的中心点位置坐标(Xij,Yij)、目标的宽度和高度(Wij,Hij)和类别{0,1},,Imagei表示数据集中的第i个样本,i∈[0,N],N代表图像的总数目,类别{0,1}分别代表{火焰,烟雾};
S102、对数据集中的每一个样本归一化处理为640像素*640像素,背景做灰色填充;
S103、将归一化处理之后的数据集分为训练集部分Train和测试集部分Test,针对每一类图像,选取80%作为训练集,剩余的20%作为测试集。
5.根据权利要求1所述的方法,其特征在于,步骤S202中,Fire-YOLOv5引入高效的通道注意力机制模块CAB,特征金字塔池化层之后使用两个空间范围的池化核分别沿水平坐标和垂直坐标对每个通道进行一维特征编码;第c个通道的两个一维特征编码输出为
其中W和H是第c个通道的宽度和高度,使用1×1卷积核转换通道数和Mish激活函数来获得水平和垂直方向的全局空间信息,中间特征图的输出f=δ(F1([zh,zw])),[zh,zw]代表沿水平和垂直方向的两个方向张量拼接操作,将中间特征图沿空间维度分成两个独立的张量,并使用两个1×1的卷积来转换通道,使之与输入通道一致;转换过程
使用的Mish激活函数y=x*tanh(ln(1+ex)),此函数是一个平滑的曲线,在负值的部分没有完全截断,允许比较小的负梯度流入及更有利的信息深入神经网络,从而得到更高的准确性和泛化性。
6.根据权利要求1所述的方法,其特征在于,步骤S203中,Fire-YOLOv5模型结合双向特征金塔网络的原理,将同一层次的输入节点和输出节点跨层连接,缩短了低层语义向高层传递的路径,并通过拼接方式而不是相加的方式合并相邻层将高层丰富的语义特征与位于低层的特征有机结合,提升了预测的准确性;采用消除权重的双向跨尺度连接方式来进行特征融合,提高检测精度的同时而不影响网络的推理运算速度。
7.根据权利要求1所述的方法,其特征在于,步骤S204中,Fire-YOLOv5模型中多次下采样倍数过大导致小目标信息量损失,增设一组锚框和小目标检测层来解决火灾小目标无法检测的问题,将第18层CBS结构输出的特征图进行上采样获取到大小为160X160的特征图与主干网络中第2层输出的特征图进行拼接操作,之后连接CSP_2X层和卷积层;输入图像尺寸被统一调整为640X640像素,160X160特征图用来检测4X4像素以上的目标,80X80特征图用来检测8X8像素以上的目标,40X40特征图用来检测16X16像素以上的目标,20X20特征图用来检测32X32像素以上的目标。
8.根据权利要求1所述的方法,其特征在于,步骤S3具体为,
S301、设置最大迭代次数Itera,学习率η,训练批次大小B,每次输入训练数据集{train1,…,traind,…,trainm}的B张图片,输入次数Num为其中,m为训练数据集中的样本总数;损失函数为分类损失、定位损失和正负样本置信度损失之和L=Lclass+LCIoU+Lobj+Lnoobj;
S303、当迭代次数未达到所设置的最小迭代次数Itera时,若损失函数L不再下降,则停止训练;当迭代次数达到所设置的最小迭代次数Itera时,则停止训练,得到训练好的网络模型;否则,继续进行迭代优化。
9.根据权利要求8所述的方法,其特征在于,步骤S301中,损失函数具体如:
T是输出特征图t的个数,S2是特征图划分网格cell的数量,N是每个网格n上锚框的数量,w是预测框的宽度,h预测框的高度,1r<4判断为正样本的条件,设置标定框的宽高和预测狂的宽高之比小于4;
分类损失计算推理的类别与对应的标定分类之间的误差:
定位损失计算预测框与标定框之间的误差:
其中wgt是标定框的宽度,hgt标定框的高度,IoU是标定框和预测框的交集并集的比值,ρ2(b,bgt)标定框和预测框的中心点距离;
正负样本置信度损失计算网络的置信度:
10.根据权利要求1所述的方法,其特征在于,步骤S6中,利用深度神经网络分别对视频中的N个连续帧进行检测,将得到的火灾类别概率与阈值对比推理出N个预测投票值,利用这N个投票值进行判决,实现在初期阶段预警火灾。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310003454.3A CN116343077A (zh) | 2023-01-03 | 2023-01-03 | 一种基于注意力机制与多尺度特征的火灾检测预警方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310003454.3A CN116343077A (zh) | 2023-01-03 | 2023-01-03 | 一种基于注意力机制与多尺度特征的火灾检测预警方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116343077A true CN116343077A (zh) | 2023-06-27 |
Family
ID=86893687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310003454.3A Pending CN116343077A (zh) | 2023-01-03 | 2023-01-03 | 一种基于注意力机制与多尺度特征的火灾检测预警方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116343077A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117173854A (zh) * | 2023-09-13 | 2023-12-05 | 西安博深安全科技股份有限公司 | 一种基于深度学习的煤矿明火预警方法及系统 |
CN117197658A (zh) * | 2023-08-08 | 2023-12-08 | 北京科技大学 | 基于多情境生成图像的建筑火灾多目标检测方法与系统 |
CN117253333A (zh) * | 2023-11-20 | 2023-12-19 | 深圳市美安科技有限公司 | 一种火灾摄像检测装置、火灾检测报警方法及系统 |
CN117409191A (zh) * | 2023-12-12 | 2024-01-16 | 优备科技股份有限公司 | 基于无人机与改进YOLOv8目标检测算法的火灾巡检预警方法 |
CN117907970A (zh) * | 2024-03-19 | 2024-04-19 | 清华大学苏州汽车研究院(相城) | 激光雷达的目标检测模型的生成、目标检测方法及其装置 |
-
2023
- 2023-01-03 CN CN202310003454.3A patent/CN116343077A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117197658A (zh) * | 2023-08-08 | 2023-12-08 | 北京科技大学 | 基于多情境生成图像的建筑火灾多目标检测方法与系统 |
CN117173854A (zh) * | 2023-09-13 | 2023-12-05 | 西安博深安全科技股份有限公司 | 一种基于深度学习的煤矿明火预警方法及系统 |
CN117173854B (zh) * | 2023-09-13 | 2024-04-05 | 西安博深安全科技股份有限公司 | 一种基于深度学习的煤矿明火预警方法及系统 |
CN117253333A (zh) * | 2023-11-20 | 2023-12-19 | 深圳市美安科技有限公司 | 一种火灾摄像检测装置、火灾检测报警方法及系统 |
CN117409191A (zh) * | 2023-12-12 | 2024-01-16 | 优备科技股份有限公司 | 基于无人机与改进YOLOv8目标检测算法的火灾巡检预警方法 |
CN117409191B (zh) * | 2023-12-12 | 2024-03-08 | 优备科技股份有限公司 | 基于无人机与改进YOLOv8目标检测算法的火灾巡检预警方法 |
CN117907970A (zh) * | 2024-03-19 | 2024-04-19 | 清华大学苏州汽车研究院(相城) | 激光雷达的目标检测模型的生成、目标检测方法及其装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116343077A (zh) | 一种基于注意力机制与多尺度特征的火灾检测预警方法 | |
US20230351573A1 (en) | Intelligent detection method and unmanned surface vehicle for multiple type faults of near-water bridges | |
CN110263706B (zh) | 一种雾霾天气车载视频动态目标检测和识别的方法 | |
CN111079739B (zh) | 一种多尺度注意力特征检测方法 | |
US11244188B2 (en) | Dense and discriminative neural network architectures for improved object detection and instance segmentation | |
CN111199220A (zh) | 电梯内人员检测与人数统计的轻量化深度神经网络方法 | |
CN116824335A (zh) | 一种基于YOLOv5改进算法的火灾预警方法及系统 | |
CN115035295B (zh) | 一种基于共享卷积核和边界损失函数的遥感图像语义分割方法 | |
CN114267082B (zh) | 基于深度理解的桥侧坠落行为识别方法 | |
CN114202803A (zh) | 一种基于残差网络的多阶段人体异常动作检测方法 | |
CN116229292A (zh) | 一种基于无人机路面巡检病害的巡检系统及方法 | |
Xiao et al. | FDLR-Net: A feature decoupling and localization refinement network for object detection in remote sensing images | |
CN113936299A (zh) | 建筑工地中危险区域检测方法 | |
Meng et al. | A modified fully convolutional network for crack damage identification compared with conventional methods | |
CN112613359A (zh) | 用于人员异常行为检测的神经网络的构建方法 | |
CN110163081A (zh) | 基于ssd的实时区域入侵检测方法、系统及存储介质 | |
Shan et al. | Rapid full-field deformation measurements of tall buildings using UAV videos and deep learning | |
CN112287854A (zh) | 基于深度神经网络的建筑室内人员检测方法及系统 | |
Roy et al. | Transformer-based Flood Scene Segmentation for Developing Countries | |
CN116805337B (zh) | 一种基于跨尺度视觉变换网络的人群定位方法 | |
CN116912675B (zh) | 一种基于特征迁移的水下目标检测方法及系统 | |
Bharathi et al. | A Conceptual Real-Time Deep Learning Approach for Object Detection, Tracking and Monitoring Social Distance using Yolov5 | |
CN117809043B (zh) | 一种地基云图分割与分类的方法 | |
Yamaguchi et al. | Road crack detection interpreting background images by convolutional neural networks and a self‐organizing map | |
CN117746264A (zh) | 无人机航拍车辆检测与道路分割的多任务实现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |