CN116343077A - 一种基于注意力机制与多尺度特征的火灾检测预警方法 - Google Patents

一种基于注意力机制与多尺度特征的火灾检测预警方法 Download PDF

Info

Publication number
CN116343077A
CN116343077A CN202310003454.3A CN202310003454A CN116343077A CN 116343077 A CN116343077 A CN 116343077A CN 202310003454 A CN202310003454 A CN 202310003454A CN 116343077 A CN116343077 A CN 116343077A
Authority
CN
China
Prior art keywords
fire
network
image
training
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310003454.3A
Other languages
English (en)
Inventor
刘毅
杨锦
张天雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202310003454.3A priority Critical patent/CN116343077A/zh
Publication of CN116343077A publication Critical patent/CN116343077A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

一种基于注意力机制与多尺度特征的火灾检测预警方法,先建立多场景火灾数据集,对数据进行预处理,获取训练样本集和测试样本集;然后搭建改进的深度学习网络模型Fire‑YOLOv5;再迭代训练最小化损失函数,得到训练好的Fire‑YOLOv5模型,部署到隧道监控的边缘服务器中;隧道监控采集模块获取流媒体数据,对采集到视频进行归一化预处理,得到视频的图像帧序列;视频的图像帧序列利用训练完成的Fire‑YOLOv5模型逐帧进行火灾烟雾检测;检测的结果通过视频帧投票机制判决并预警火灾的发生;本发明可部署到不同的硬件设备,提出的Fire‑YOLOv5在主干网络引入同位注意力机制,增强目标位置的权重表示,实现各尺度特征更好融合;通过视频帧投票机制来实现早期火灾的实时预警。

Description

一种基于注意力机制与多尺度特征的火灾检测预警方法
技术领域
本发明涉及图像处理和深度学习技术领域,具体涉及一种基于注意力机制与多尺度特征的火灾检测预警方法。
背景技术
火灾作为全世界公认的灾害之一,严重危害人类的生命和财产安全。对于智慧城市的安防建设,早期有效的火灾检测和预警是至关重要的。基于物理信号的传感器,如烟雾传感器、热释放红外火焰传感器、紫外火焰传感器等,广泛用于火灾报警系统。由于这些传统的物理传感器局限于近火源位置,无法在半封闭性大空间建筑和开放地下空间中有效工作,且无法提供火灾位置、火情大小和燃烧程度等灾情详细信息,而基于视觉传感器的火灾检测技术可满足这些需求。
有方法(一种基于视频的火情监测方法和装置,申请号2021112915514)可获取视频摄像头的流媒体数据,并对流媒体数据进行预处理,得到目标图片;利用YOLO-V4算法对目标图片进行检测,确定出目标图片的边界框,其中,边界框包括:火情边界框和烟雾边界框;对边界框内的图片进行超像素分割,得到超像素分片,并对超像素分片进行分类,得到初始火情监测结果;基于初始火情监测结果构建外接矩形框,并将外接矩形框叠加在流媒体数据上,得到目标火情监测结果。但是其存在以下缺点:适用于大中型火灾目标数据样本,检测不到小目标的火焰和烟雾;对于多场景下的火灾检测存在漏检率和误检率高的问题,导致检测的平均精度低;深度神经网络模型的深度和宽度不可灵活调整,无法更好的部署到不同的硬件设备。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供了一种基于注意力机制与多尺度特征的火灾检测预警方法,解决了大中小火焰和烟雾目标不均衡的问题,使用可变深度和宽度动态神经网络来调整网络模型的大小以部署到不同的硬件设备,提出改进的深度学习网络模型Fire-YOLOv5,在主干网络引入同位注意力机制,增强目标位置的权重表示,实现各尺度特征更好融合;通过视频帧投票机制来实现早期火灾的实时预警。
为了达到上述目的,本发明采取的技术方案为:
一种基于注意力机制与多尺度特征的火灾检测预警方法,包括以下步骤:
步骤S1,建立多场景火灾数据集,对数据进行预处理,获取训练样本集{train1,…,traind,…,trainm}和测试样本集{test1,…,teste,…,testn};
步骤S2,搭建改进的深度学习网络模型Fire-YOLOv5;
步骤S201,设置神经网络的深度、宽度系数以此调整网络模型的大小适应不同的硬件平台,设置数据增强的参数向量,图像样本做仿射变换和透视变换以及组合变换丰富数据集;
步骤S202,使用Mish激活函数优化的同位注意力模块CAB代替YOLOv5主干网络中的CSP2_X模块,以此来增强感兴趣区域的权重参数表示;
步骤S203,使用Concat连接双向跨尺度链路融合不同尺度的特征图,实现语义的多层融合;
步骤S204,增加一组小目标锚框和检测头,实现原图像32倍下采样像素级别目标的检测;
步骤S3,不断迭代训练最小化损失函数,得到训练好的Fire-YOLOv5模型,部署到隧道监控的边缘服务器中;
步骤S4,隧道监控采集模块获取流媒体数据,对采集到视频进行归一化预处理,得到视频的图像帧序列;
步骤S5,视频的图像帧序列利用训练完成的Fire-YOLOv5模型逐帧进行火灾烟雾检测;
步骤S6,检测的结果通过视频帧投票机制判决并预警火灾的发生。
本发明的有益效果为:
由于构建了多场景的火焰和烟雾图像数据集,并使用多种数据增强方法,解决了大中小火焰和烟雾目标不均衡的问题;
由于使用可变深度和宽度动态神经网络来调整网络模型的大小以部署到不同的硬件设备;
为了提高检测的平均精度,提出深度学习网络模型Fire-YOLOv5,在主干网络引入同位注意力机制,增强目标位置的权重表示,并基于双向特征金字塔网络原理,将部分路径聚合网络转化为双向跨尺度连接,通过简单的拼接操作,就可实现各尺度特征更好融合;同时,设计小目标检测层聚焦检测视觉任务中的小目标,通过视频帧投票机制来实现早期火灾的实时预警。
附图说明
图1为本发明方法的实现流程图。
图2为本发明实施例的Fire-YOLOv5网络结构图。
图3为本发明实施例的注意力机制模块CAB网络结构图。
图4为本发明实施例的网络性能图。
图5为本发明实施例与其他方法性能对比图。
具体实施方式
下面结合实施例对本发明做详细描述。
网络训练采用开源Pytorch深度学习框架,Ubuntu 20.04系统环境,Cuda10.0和Python3.7编程环境,硬件平台GPU型号为NVIDIA GeForce RTX 2070Max-Q,显存大小为8G,CPU型号为Intel(R)Core(TM)i-10750HCPU@2.60GHz,内存大小为12G,完成训练与测试。由于硬件设备的限制,设置训练批次的大小为2,采用SGD学习优化器,设定全局初始学习率为0.001。
实施例1,参照图1,一种基于注意力机制与多尺度特征的火灾检测预警方法,包括以下步骤:
步骤S1:建立多场景火灾数据集,对数据进行预处理,获取训练样本集{train1,…,traind,…,trainm}和测试样本集{test1,…,teste,…,testn};
步骤S2:搭建改进的深度学习网络模型Fire-YOLOv5,如图2所示;
步骤S201:设置神经网络的深度、宽度系数以此调整网络模型的大小适应不同的硬件平台,设置数据增强的参数向量,图像样本做仿射变换和透视变换以及组合变换丰富数据集;
步骤S202:使用Mish激活函数优化的同位注意力模块CAB代替YOLOv5主干网络中的CSP2_X模块,以此来增强感兴趣区域的权重参数表示;
步骤S203:使用Concat连接双向跨尺度链路融合不同尺度的特征图,实现语义的多层融合;
步骤S204:增加一组小目标锚框和检测头,实现原图像32倍下采样像素级别目标的检测;
步骤S3:不断迭代训练最小化损失函数,得到训练好的Fire-YOLOv5模型,部署到隧道监控的边缘服务器中;
步骤S4:隧道监控采集模块获取流媒体数据,对采集到视频进行归一化预处理,得到视频的图像帧序列;
步骤S5:视频的图像帧序列利用训练完成的Fire-YOLOv5模型逐帧进行火灾烟雾检测;
步骤S6:检测的结果通过视频帧投票机制判决并预警火灾的发生。
步骤S1具体为:
S101、开源数据集中获取包含火焰和烟雾两类目标的多场景火灾图像Image={Image1,…Imagei…,ImageN},制作统一格式的样本标签Label={Label1,…Labeli…,LabelN},每个标签Labeli表示所对应样本Imagei中第j个目标的中心点位置坐标(Xij,Yij)、目标的宽度和高度(Wij,Hij)和类别{0,1},,Imagei表示数据集中的第i个样本,i∈[0,N],N代表图像的总数目,类别{0,1}分别代表{火焰,烟雾};
S102、对数据集中的每一个样本归一化处理为640像素*640像素,背景做灰色填充;
S103、将归一化处理之后的数据集分为训练集部分Train和测试集部分Test,针对每一类图像,选取80%作为训练集,剩余的20%作为测试集。
步骤S102中,不同宽高比图像的缩放比例
Figure BDA0004035022000000051
图像被缩放为
Figure BDA0004035022000000052
其中max和min为二者之间的最大最小值,w代表图像宽度,h代表图像高度,/>
Figure BDA0004035022000000053
为向上取整,灰色填充值为(114,114,114)。
步骤S2具体为,
步骤S201中,深度神经网络的网络深度即网络层数和网络宽度即网络输出通道分别由深度因子DM、宽度因子WM控制,网络层数为max(round(number*DM),1),其中number为不同模块网络层数,round为四舍五入取整,网络输出通道为
Figure BDA0004035022000000054
其中channel为不同模块的通道数,/>
Figure BDA0004035022000000055
为向上取整。
步骤S202中,参照图3,Fire-YOLOv5引入高效的通道注意力机制模块CAB,特征金字塔池化层之后使用两个空间范围的池化核分别沿水平坐标和垂直坐标对每个通道进行一维特征编码;第c个通道的两个一维特征编码输出为
Figure BDA0004035022000000061
其中W和H是第c个通道的宽度和高度,使用1×1卷积核转换通道数和Mish激活函数来获得水平和垂直方向的全局空间信息,中间特征图的输出f=δ(F1([zh,zw])),[zh,zw]代表沿水平和垂直方向的两个方向张量拼接操作,将中间特征图沿空间维度分成两个独立的张量,并使用两个1×1的卷积来转换通道,使之与输入通道一致;转换过程
Figure BDA0004035022000000062
其中Fh和Fw代表两个1×1卷积变换,σ代表Mish激活函数;得到的两个张量gh和gw作为注意力的权重参数。同位注意力模块的输出
Figure BDA0004035022000000063
使用的Mish激活函数y=x*tanh(ln(1+ex)),此函数是一个平滑的曲线,在负值的部分没有完全截断,允许比较小的负梯度流入及更有利的信息深入神经网络,从而得到更高的准确性和泛化性;随着层深的增加,ReLU激活函数会使训练精度迅速下降,而Mish激活函数在训练稳定性、平均精度、峰值精度等方面都有全面的提升。
步骤S203中,Fire-YOLOv5模型结合双向特征金塔网络的原理,将同一层次的输入节点和输出节点跨层连接,缩短了低层语义向高层传递的路径,并通过拼接方式而不是相加的方式合并相邻层将高层丰富的语义特征与位于低层的特征有机结合,明显提升了预测的准确性;采用消除权重的双向跨尺度连接方式来进行特征融合,旨在提高检测精度的同时而不影响网络的推理运算速度。
步骤S204中,Fire-YOLOv5模型中多次下采样倍数过大导致小目标信息量损失,考虑到模型可用的分辨率和上下文信息有限,增设一组锚框和小目标检测层来解决火灾小目标无法检测的问题,将第18层CBS结构输出的特征图进行上采样获取到大小为160X160的特征图与主干网络中第2层输出的特征图进行拼接操作,之后连接CSP_2X层和卷积层;输入图像尺寸被统一调整为640X640像素,160X160特征图用来检测4X4像素以上的目标,80X80特征图用来检测8X8像素以上的目标,40X40特征图用来检测16X16像素以上的目标,20X20特征图用来检测32X32像素以上的目标。这样增设小目标检测层之后,四层检测结构可覆盖不同的感受野,实现超小像素目标的快速检测与精准定位。
步骤S3具体为,
S301、设置最大迭代次数Itera,学习率η,训练批次大小B,每次输入训练数据集{train1,…,traind,…,trainm}的B张图片,输入次数Num为
Figure BDA0004035022000000071
其中,m为训练数据集中的样本总数;损失函数为分类损失、定位损失和正负样本置信度损失之和L=Lclass+LCIoU+Lobj+Lnoobj
S302、使用梯度下降法
Figure BDA0004035022000000072
最小化损失化函数对网络进行迭代优化,采用SGD学习优化器,全局初始学习率为η,其中ωt+1作为网络参数及进行预测,ωt是当前网络权重参数,/>
Figure BDA0004035022000000073
是下一次迭代的梯度值;
S303、当迭代次数未达到所设置的最小迭代次数Itera时,若损失函数L不再下降,则停止训练;当迭代次数达到所设置的最小迭代次数Itera时,则停止训练,得到训练好的网络模型;否则,继续进行迭代优化。
步骤S301中,损失函数具体如:
T是输出特征图t的个数,S2是特征图划分网格cell的数量,N是每个网格n上锚框的数量,w是预测框的宽度,h预测框的高度,1r<4判断为正样本的条件,设置标定框的宽高和预测狂的宽高之比小于4;
分类损失计算推理的类别与对应的标定分类之间的误差:
Figure BDA0004035022000000081
其中xi为标定的N个类别的一种,取值{0,1,…,N-1},yi为归一化的类别概率,/>
Figure BDA0004035022000000082
为网络推理出目标类别的概率;
定位损失计算预测框与标定框之间的误差:
Figure BDA0004035022000000083
其中wgt是标定框的宽度,hgt标定框的高度,IoU是标定框和预测框的交集并集的比值,ρ2(b,bgt)标定框和预测框的中心点距离;
正负样本置信度损失计算网络的置信度:
Figure BDA0004035022000000084
其中C标定的置信度,取值{0,1},0代表不是目标,1代表是目标,gr是设置的概率因子,
Figure BDA0004035022000000085
推理的置信度,负样本的置信度为零;
步骤S4中,隧道监控采集模块获取流媒体数据,将输入视频流输出按间隔帧保存为图片序列。
步骤S5中,使用训练完成的Fire-YOLOv5模型逐帧进行火灾烟雾检测,在图片序列中画出目标区域并标注其类别和概率,最后组帧成视频。
步骤S6中,利用深度神经网络分别对视频中的N个连续帧进行检测,将得到的火灾类别概率与阈值对比推理出N个预测投票值,利用这N个投票值进行判决,实现在初期阶段预警火灾。
实验结果参照图4和图5,在火焰和烟雾检测任务中,Fire-YOLOv5x实现了性能和效率的良好平衡,鲁棒性更强。该网络的参数为70.7M,比YOLOv5x网络参数减小了18.0%,检测精度达到93.5%,比YOLOv5x提升了2.0%,在IoU阈值设置0.5时平均检测精度达到71.8%,相比提升了0.2%,推理速度和YOLOv5x相当。由Fire-YOLOv5x的F1值、精度、召回率曲线可知,检测的类平均精度和召回率分别达到93.5%和96%,可见本文新方法具有更高检测精度和较低漏检率。使用一个公开的数据集进行测试,Fire-YOLOv5x的检测精度比EfficientDet-D4和YOLOv5分别提升1.6%和2%,检测召回率相比EfficientDet-D4提升1.7%,而IoU阈值为0.5时平均检测精度比EfficientDet-D4提高14.5%。在检测速度上和EfficientDet-D4相当。尤其在处理超小像素和密集火灾目标时,性能更优于现有的基于深度学习的火焰和烟雾检测方法。对隧道火灾视频检测结果表明,能够实现火灾的快速检测和及时预警。深度神经网络模型的深度和宽度可灵活调整,训练不同规模的网络可部署到不同算力的硬件设备。

Claims (10)

1.一种基于注意力机制与多尺度特征的火灾检测预警方法,其特征在于,包括以下步骤:
步骤S1,建立多场景火灾数据集,对数据进行预处理,获取训练样本集{train1,…,traind,…,trainm}和测试样本集{test1,…,teste,…,testn};
步骤S2,搭建改进的深度学习网络模型Fire-YOLOv5;
步骤S201,设置神经网络的深度、宽度系数以此调整网络模型的大小适应不同的硬件平台,设置数据增强的参数向量,图像样本做仿射变换和透视变换以及组合变换丰富数据集;
步骤S202,使用Mish激活函数优化的同位注意力模块CAB代替YOLOv5主干网络中的CSP2_X模块,以此来增强感兴趣区域的权重参数表示;
步骤S203,使用Concat连接双向跨尺度链路融合不同尺度的特征图,实现语义的多层融合;
步骤S204,增加一组小目标锚框和检测头,实现原图像32倍下采样像素级别目标的检测;
步骤S3,不断迭代训练最小化损失函数,得到训练好的Fire-YOLOv5模型,部署到隧道监控的边缘服务器中;
步骤S4,隧道监控采集模块获取流媒体数据,对采集到视频进行归一化预处理,得到视频的图像帧序列;
步骤S5,视频的图像帧序列利用训练完成的Fire-YOLOv5模型逐帧进行火灾烟雾检测;
步骤S6,检测的结果通过视频帧投票机制判决并预警火灾的发生。
2.根据权利要求1所述的方法,其特征在于,步骤S1具体为:
S101、开源数据集中获取包含火焰和烟雾两类目标的多场景火灾图像Image={Image1,…Imagei…,ImageN},制作统一格式的样本标签Label={Label1,…Labeli…,LabelN},每个标签Labeli表示所对应样本Imagei中第j个目标的中心点位置坐标(Xij,Yij)、目标的宽度和高度(Wij,Hij)和类别{0,1},,Imagei表示数据集中的第i个样本,i∈[0,N],N代表图像的总数目,类别{0,1}分别代表{火焰,烟雾};
S102、对数据集中的每一个样本归一化处理为640像素*640像素,背景做灰色填充;
S103、将归一化处理之后的数据集分为训练集部分Train和测试集部分Test,针对每一类图像,选取80%作为训练集,剩余的20%作为测试集。
3.根据权利要求2所述的方法,其特征在于,步骤S102中,不同宽高比图像的缩放比例
Figure FDA0004035021990000021
图像被缩放为/>
Figure FDA0004035021990000022
其中max和min为二者之间的最大最小值,w代表图像宽度,h代表图像高度,/>
Figure FDA0004035021990000025
为向上取整,灰色填充值为(114,114,114)。
4.根据权利要求1所述的方法,其特征在于,步骤201中,深度神经网络的网络深度即网络层数和网络宽度即网络输出通道分别由深度因子DM、宽度因子WM控制,网络层数为max(round(number*DM),1),其中number为不同模块网络层数,round为四舍五入取整,网络输出通道为
Figure FDA0004035021990000023
其中channel为不同模块的通道数,/>
Figure FDA0004035021990000026
为向上取整。
5.根据权利要求1所述的方法,其特征在于,步骤S202中,Fire-YOLOv5引入高效的通道注意力机制模块CAB,特征金字塔池化层之后使用两个空间范围的池化核分别沿水平坐标和垂直坐标对每个通道进行一维特征编码;第c个通道的两个一维特征编码输出为
Figure FDA0004035021990000024
其中W和H是第c个通道的宽度和高度,使用1×1卷积核转换通道数和Mish激活函数来获得水平和垂直方向的全局空间信息,中间特征图的输出f=δ(F1([zh,zw])),[zh,zw]代表沿水平和垂直方向的两个方向张量拼接操作,将中间特征图沿空间维度分成两个独立的张量,并使用两个1×1的卷积来转换通道,使之与输入通道一致;转换过程
Figure FDA0004035021990000031
其中Fh和Fw代表两个1×1卷积变换,σ代表Mish激活函数;得到的两个张量gh和gw作为注意力的权重参数。同位注意力模块的输出
Figure FDA0004035021990000032
使用的Mish激活函数y=x*tanh(ln(1+ex)),此函数是一个平滑的曲线,在负值的部分没有完全截断,允许比较小的负梯度流入及更有利的信息深入神经网络,从而得到更高的准确性和泛化性。
6.根据权利要求1所述的方法,其特征在于,步骤S203中,Fire-YOLOv5模型结合双向特征金塔网络的原理,将同一层次的输入节点和输出节点跨层连接,缩短了低层语义向高层传递的路径,并通过拼接方式而不是相加的方式合并相邻层将高层丰富的语义特征与位于低层的特征有机结合,提升了预测的准确性;采用消除权重的双向跨尺度连接方式来进行特征融合,提高检测精度的同时而不影响网络的推理运算速度。
7.根据权利要求1所述的方法,其特征在于,步骤S204中,Fire-YOLOv5模型中多次下采样倍数过大导致小目标信息量损失,增设一组锚框和小目标检测层来解决火灾小目标无法检测的问题,将第18层CBS结构输出的特征图进行上采样获取到大小为160X160的特征图与主干网络中第2层输出的特征图进行拼接操作,之后连接CSP_2X层和卷积层;输入图像尺寸被统一调整为640X640像素,160X160特征图用来检测4X4像素以上的目标,80X80特征图用来检测8X8像素以上的目标,40X40特征图用来检测16X16像素以上的目标,20X20特征图用来检测32X32像素以上的目标。
8.根据权利要求1所述的方法,其特征在于,步骤S3具体为,
S301、设置最大迭代次数Itera,学习率η,训练批次大小B,每次输入训练数据集{train1,…,traind,…,trainm}的B张图片,输入次数Num为
Figure FDA0004035021990000041
其中,m为训练数据集中的样本总数;损失函数为分类损失、定位损失和正负样本置信度损失之和L=Lclass+LCIoU+Lobj+Lnoobj
S302、使用梯度下降法
Figure FDA0004035021990000042
最小化损失化函数对网络进行迭代优化,采用SGD学习优化器,全局初始学习率为η,其中ωt+1作为网络参数及进行预测,ωt是当前网络权重参数,/>
Figure FDA0004035021990000043
是下一次迭代的梯度值;
S303、当迭代次数未达到所设置的最小迭代次数Itera时,若损失函数L不再下降,则停止训练;当迭代次数达到所设置的最小迭代次数Itera时,则停止训练,得到训练好的网络模型;否则,继续进行迭代优化。
9.根据权利要求8所述的方法,其特征在于,步骤S301中,损失函数具体如:
T是输出特征图t的个数,S2是特征图划分网格cell的数量,N是每个网格n上锚框的数量,w是预测框的宽度,h预测框的高度,1r<4判断为正样本的条件,设置标定框的宽高和预测狂的宽高之比小于4;
分类损失计算推理的类别与对应的标定分类之间的误差:
Figure FDA0004035021990000044
其中xi为标定的N个类别的一种,取值{0,1,…,N-1},yi为归一化的类别概率,/>
Figure FDA0004035021990000045
为网络推理出目标类别的概率;
定位损失计算预测框与标定框之间的误差:
Figure FDA0004035021990000051
其中wgt是标定框的宽度,hgt标定框的高度,IoU是标定框和预测框的交集并集的比值,ρ2(b,bgt)标定框和预测框的中心点距离;
正负样本置信度损失计算网络的置信度:
Figure FDA0004035021990000052
其中C标定的置信度,取值{0,1},0代表不是目标,1代表是目标,gr是设置的概率因子,
Figure FDA0004035021990000053
推理的置信度,负样本的置信度为零。
10.根据权利要求1所述的方法,其特征在于,步骤S6中,利用深度神经网络分别对视频中的N个连续帧进行检测,将得到的火灾类别概率与阈值对比推理出N个预测投票值,利用这N个投票值进行判决,实现在初期阶段预警火灾。
CN202310003454.3A 2023-01-03 2023-01-03 一种基于注意力机制与多尺度特征的火灾检测预警方法 Pending CN116343077A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310003454.3A CN116343077A (zh) 2023-01-03 2023-01-03 一种基于注意力机制与多尺度特征的火灾检测预警方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310003454.3A CN116343077A (zh) 2023-01-03 2023-01-03 一种基于注意力机制与多尺度特征的火灾检测预警方法

Publications (1)

Publication Number Publication Date
CN116343077A true CN116343077A (zh) 2023-06-27

Family

ID=86893687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310003454.3A Pending CN116343077A (zh) 2023-01-03 2023-01-03 一种基于注意力机制与多尺度特征的火灾检测预警方法

Country Status (1)

Country Link
CN (1) CN116343077A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117173854A (zh) * 2023-09-13 2023-12-05 西安博深安全科技股份有限公司 一种基于深度学习的煤矿明火预警方法及系统
CN117197658A (zh) * 2023-08-08 2023-12-08 北京科技大学 基于多情境生成图像的建筑火灾多目标检测方法与系统
CN117253333A (zh) * 2023-11-20 2023-12-19 深圳市美安科技有限公司 一种火灾摄像检测装置、火灾检测报警方法及系统
CN117409191A (zh) * 2023-12-12 2024-01-16 优备科技股份有限公司 基于无人机与改进YOLOv8目标检测算法的火灾巡检预警方法
CN117907970A (zh) * 2024-03-19 2024-04-19 清华大学苏州汽车研究院(相城) 激光雷达的目标检测模型的生成、目标检测方法及其装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117197658A (zh) * 2023-08-08 2023-12-08 北京科技大学 基于多情境生成图像的建筑火灾多目标检测方法与系统
CN117173854A (zh) * 2023-09-13 2023-12-05 西安博深安全科技股份有限公司 一种基于深度学习的煤矿明火预警方法及系统
CN117173854B (zh) * 2023-09-13 2024-04-05 西安博深安全科技股份有限公司 一种基于深度学习的煤矿明火预警方法及系统
CN117253333A (zh) * 2023-11-20 2023-12-19 深圳市美安科技有限公司 一种火灾摄像检测装置、火灾检测报警方法及系统
CN117409191A (zh) * 2023-12-12 2024-01-16 优备科技股份有限公司 基于无人机与改进YOLOv8目标检测算法的火灾巡检预警方法
CN117409191B (zh) * 2023-12-12 2024-03-08 优备科技股份有限公司 基于无人机与改进YOLOv8目标检测算法的火灾巡检预警方法
CN117907970A (zh) * 2024-03-19 2024-04-19 清华大学苏州汽车研究院(相城) 激光雷达的目标检测模型的生成、目标检测方法及其装置

Similar Documents

Publication Publication Date Title
CN116343077A (zh) 一种基于注意力机制与多尺度特征的火灾检测预警方法
US20230351573A1 (en) Intelligent detection method and unmanned surface vehicle for multiple type faults of near-water bridges
CN110263706B (zh) 一种雾霾天气车载视频动态目标检测和识别的方法
CN111079739B (zh) 一种多尺度注意力特征检测方法
US11244188B2 (en) Dense and discriminative neural network architectures for improved object detection and instance segmentation
CN111199220A (zh) 电梯内人员检测与人数统计的轻量化深度神经网络方法
CN116824335A (zh) 一种基于YOLOv5改进算法的火灾预警方法及系统
CN115035295B (zh) 一种基于共享卷积核和边界损失函数的遥感图像语义分割方法
CN114267082B (zh) 基于深度理解的桥侧坠落行为识别方法
CN114202803A (zh) 一种基于残差网络的多阶段人体异常动作检测方法
CN116229292A (zh) 一种基于无人机路面巡检病害的巡检系统及方法
Xiao et al. FDLR-Net: A feature decoupling and localization refinement network for object detection in remote sensing images
CN113936299A (zh) 建筑工地中危险区域检测方法
Meng et al. A modified fully convolutional network for crack damage identification compared with conventional methods
CN112613359A (zh) 用于人员异常行为检测的神经网络的构建方法
CN110163081A (zh) 基于ssd的实时区域入侵检测方法、系统及存储介质
Shan et al. Rapid full-field deformation measurements of tall buildings using UAV videos and deep learning
CN112287854A (zh) 基于深度神经网络的建筑室内人员检测方法及系统
Roy et al. Transformer-based Flood Scene Segmentation for Developing Countries
CN116805337B (zh) 一种基于跨尺度视觉变换网络的人群定位方法
CN116912675B (zh) 一种基于特征迁移的水下目标检测方法及系统
Bharathi et al. A Conceptual Real-Time Deep Learning Approach for Object Detection, Tracking and Monitoring Social Distance using Yolov5
CN117809043B (zh) 一种地基云图分割与分类的方法
Yamaguchi et al. Road crack detection interpreting background images by convolutional neural networks and a self‐organizing map
CN117746264A (zh) 无人机航拍车辆检测与道路分割的多任务实现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination