CN116343077A

CN116343077A - 一种基于注意力机制与多尺度特征的火灾检测预警方法

Info

Publication number: CN116343077A
Application number: CN202310003454.3A
Authority: CN
Inventors: 刘毅; 杨锦; 张天雨
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2023-01-03
Filing date: 2023-01-03
Publication date: 2023-06-27

Abstract

一种基于注意力机制与多尺度特征的火灾检测预警方法，先建立多场景火灾数据集，对数据进行预处理，获取训练样本集和测试样本集；然后搭建改进的深度学习网络模型Fire‑YOLOv5；再迭代训练最小化损失函数，得到训练好的Fire‑YOLOv5模型，部署到隧道监控的边缘服务器中；隧道监控采集模块获取流媒体数据，对采集到视频进行归一化预处理，得到视频的图像帧序列；视频的图像帧序列利用训练完成的Fire‑YOLOv5模型逐帧进行火灾烟雾检测；检测的结果通过视频帧投票机制判决并预警火灾的发生；本发明可部署到不同的硬件设备，提出的Fire‑YOLOv5在主干网络引入同位注意力机制，增强目标位置的权重表示，实现各尺度特征更好融合；通过视频帧投票机制来实现早期火灾的实时预警。

Description

一种基于注意力机制与多尺度特征的火灾检测预警方法

技术领域

本发明涉及图像处理和深度学习技术领域，具体涉及一种基于注意力机制与多尺度特征的火灾检测预警方法。

背景技术

火灾作为全世界公认的灾害之一，严重危害人类的生命和财产安全。对于智慧城市的安防建设，早期有效的火灾检测和预警是至关重要的。基于物理信号的传感器，如烟雾传感器、热释放红外火焰传感器、紫外火焰传感器等，广泛用于火灾报警系统。由于这些传统的物理传感器局限于近火源位置，无法在半封闭性大空间建筑和开放地下空间中有效工作，且无法提供火灾位置、火情大小和燃烧程度等灾情详细信息，而基于视觉传感器的火灾检测技术可满足这些需求。

有方法(一种基于视频的火情监测方法和装置，申请号2021112915514)可获取视频摄像头的流媒体数据，并对流媒体数据进行预处理，得到目标图片；利用YOLO-V4算法对目标图片进行检测，确定出目标图片的边界框，其中，边界框包括：火情边界框和烟雾边界框；对边界框内的图片进行超像素分割，得到超像素分片，并对超像素分片进行分类，得到初始火情监测结果；基于初始火情监测结果构建外接矩形框，并将外接矩形框叠加在流媒体数据上，得到目标火情监测结果。但是其存在以下缺点：适用于大中型火灾目标数据样本，检测不到小目标的火焰和烟雾；对于多场景下的火灾检测存在漏检率和误检率高的问题，导致检测的平均精度低；深度神经网络模型的深度和宽度不可灵活调整，无法更好的部署到不同的硬件设备。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供了一种基于注意力机制与多尺度特征的火灾检测预警方法，解决了大中小火焰和烟雾目标不均衡的问题，使用可变深度和宽度动态神经网络来调整网络模型的大小以部署到不同的硬件设备，提出改进的深度学习网络模型Fire-YOLOv5，在主干网络引入同位注意力机制，增强目标位置的权重表示，实现各尺度特征更好融合；通过视频帧投票机制来实现早期火灾的实时预警。

为了达到上述目的，本发明采取的技术方案为：

一种基于注意力机制与多尺度特征的火灾检测预警方法，包括以下步骤：

步骤S1，建立多场景火灾数据集，对数据进行预处理，获取训练样本集{train₁,…,train_d,…,train_m}和测试样本集{test₁,…,test_e,…,test_n}；

步骤S2，搭建改进的深度学习网络模型Fire-YOLOv5；

步骤S201，设置神经网络的深度、宽度系数以此调整网络模型的大小适应不同的硬件平台，设置数据增强的参数向量，图像样本做仿射变换和透视变换以及组合变换丰富数据集；

步骤S202，使用Mish激活函数优化的同位注意力模块CAB代替YOLOv5主干网络中的CSP2_X模块，以此来增强感兴趣区域的权重参数表示；

步骤S203，使用Concat连接双向跨尺度链路融合不同尺度的特征图，实现语义的多层融合；

步骤S204，增加一组小目标锚框和检测头，实现原图像32倍下采样像素级别目标的检测；

步骤S3，不断迭代训练最小化损失函数，得到训练好的Fire-YOLOv5模型，部署到隧道监控的边缘服务器中；

步骤S4，隧道监控采集模块获取流媒体数据，对采集到视频进行归一化预处理，得到视频的图像帧序列；

步骤S5，视频的图像帧序列利用训练完成的Fire-YOLOv5模型逐帧进行火灾烟雾检测；

步骤S6，检测的结果通过视频帧投票机制判决并预警火灾的发生。

本发明的有益效果为：

由于构建了多场景的火焰和烟雾图像数据集，并使用多种数据增强方法，解决了大中小火焰和烟雾目标不均衡的问题；

由于使用可变深度和宽度动态神经网络来调整网络模型的大小以部署到不同的硬件设备；

为了提高检测的平均精度，提出深度学习网络模型Fire-YOLOv5，在主干网络引入同位注意力机制，增强目标位置的权重表示，并基于双向特征金字塔网络原理，将部分路径聚合网络转化为双向跨尺度连接，通过简单的拼接操作，就可实现各尺度特征更好融合；同时，设计小目标检测层聚焦检测视觉任务中的小目标，通过视频帧投票机制来实现早期火灾的实时预警。

附图说明

图1为本发明方法的实现流程图。

图2为本发明实施例的Fire-YOLOv5网络结构图。

图3为本发明实施例的注意力机制模块CAB网络结构图。

图4为本发明实施例的网络性能图。

图5为本发明实施例与其他方法性能对比图。

具体实施方式

下面结合实施例对本发明做详细描述。

网络训练采用开源Pytorch深度学习框架，Ubuntu 20.04系统环境，Cuda10.0和Python3.7编程环境，硬件平台GPU型号为NVIDIA GeForce RTX 2070Max-Q，显存大小为8G，CPU型号为Intel(R)Core(TM)i-10750HCPU@2.60GHz，内存大小为12G，完成训练与测试。由于硬件设备的限制，设置训练批次的大小为2，采用SGD学习优化器，设定全局初始学习率为0.001。

实施例1，参照图1，一种基于注意力机制与多尺度特征的火灾检测预警方法，包括以下步骤：

步骤S1：建立多场景火灾数据集，对数据进行预处理，获取训练样本集{train₁,…,train_d,…,train_m}和测试样本集{test₁,…,test_e,…,test_n}；

步骤S2：搭建改进的深度学习网络模型Fire-YOLOv5，如图2所示；

步骤S201：设置神经网络的深度、宽度系数以此调整网络模型的大小适应不同的硬件平台，设置数据增强的参数向量，图像样本做仿射变换和透视变换以及组合变换丰富数据集；

步骤S202：使用Mish激活函数优化的同位注意力模块CAB代替YOLOv5主干网络中的CSP2_X模块，以此来增强感兴趣区域的权重参数表示；

步骤S203：使用Concat连接双向跨尺度链路融合不同尺度的特征图，实现语义的多层融合；

步骤S204：增加一组小目标锚框和检测头，实现原图像32倍下采样像素级别目标的检测；

步骤S3：不断迭代训练最小化损失函数，得到训练好的Fire-YOLOv5模型，部署到隧道监控的边缘服务器中；

步骤S4：隧道监控采集模块获取流媒体数据，对采集到视频进行归一化预处理，得到视频的图像帧序列；

步骤S5：视频的图像帧序列利用训练完成的Fire-YOLOv5模型逐帧进行火灾烟雾检测；

步骤S6：检测的结果通过视频帧投票机制判决并预警火灾的发生。

步骤S1具体为：

S101、开源数据集中获取包含火焰和烟雾两类目标的多场景火灾图像Image＝{Image₁，…Image_i…，Image_N}，制作统一格式的样本标签Label＝{Label₁，…Label_i…，Label_N},每个标签Label_i表示所对应样本Image_i中第j个目标的中心点位置坐标(X_ij,Y_ij)、目标的宽度和高度(W_ij,H_ij)和类别{0，1},，Image_i表示数据集中的第i个样本，i∈[0,N]，N代表图像的总数目，类别{0,1}分别代表{火焰，烟雾}；

S102、对数据集中的每一个样本归一化处理为640像素*640像素，背景做灰色填充；

S103、将归一化处理之后的数据集分为训练集部分Train和测试集部分Test，针对每一类图像，选取80％作为训练集，剩余的20％作为测试集。

步骤S102中，不同宽高比图像的缩放比例

图像被缩放为

其中max和min为二者之间的最大最小值，w代表图像宽度，h代表图像高度，/>

为向上取整，灰色填充值为(114,114,114)。

步骤S2具体为，

步骤S201中，深度神经网络的网络深度即网络层数和网络宽度即网络输出通道分别由深度因子DM、宽度因子WM控制，网络层数为max(round(number*DM),1)，其中number为不同模块网络层数，round为四舍五入取整，网络输出通道为

其中channel为不同模块的通道数，/>

为向上取整。

步骤S202中，参照图3，Fire-YOLOv5引入高效的通道注意力机制模块CAB，特征金字塔池化层之后使用两个空间范围的池化核分别沿水平坐标和垂直坐标对每个通道进行一维特征编码；第c个通道的两个一维特征编码输出为

其中W和H是第c个通道的宽度和高度，使用1×1卷积核转换通道数和Mish激活函数来获得水平和垂直方向的全局空间信息，中间特征图的输出f＝δ(F₁([z^h,z^w]))，[z^h,z^w]代表沿水平和垂直方向的两个方向张量拼接操作，将中间特征图沿空间维度分成两个独立的张量，并使用两个1×1的卷积来转换通道，使之与输入通道一致；转换过程

其中F^h和F^w代表两个1×1卷积变换，σ代表Mish激活函数；得到的两个张量g^h和g^w作为注意力的权重参数。同位注意力模块的输出

使用的Mish激活函数y＝x*tanh(ln(1+e^x))，此函数是一个平滑的曲线，在负值的部分没有完全截断，允许比较小的负梯度流入及更有利的信息深入神经网络，从而得到更高的准确性和泛化性；随着层深的增加，ReLU激活函数会使训练精度迅速下降，而Mish激活函数在训练稳定性、平均精度、峰值精度等方面都有全面的提升。

步骤S203中，Fire-YOLOv5模型结合双向特征金塔网络的原理，将同一层次的输入节点和输出节点跨层连接，缩短了低层语义向高层传递的路径，并通过拼接方式而不是相加的方式合并相邻层将高层丰富的语义特征与位于低层的特征有机结合，明显提升了预测的准确性；采用消除权重的双向跨尺度连接方式来进行特征融合，旨在提高检测精度的同时而不影响网络的推理运算速度。

步骤S204中，Fire-YOLOv5模型中多次下采样倍数过大导致小目标信息量损失，考虑到模型可用的分辨率和上下文信息有限，增设一组锚框和小目标检测层来解决火灾小目标无法检测的问题，将第18层CBS结构输出的特征图进行上采样获取到大小为160X160的特征图与主干网络中第2层输出的特征图进行拼接操作，之后连接CSP_2X层和卷积层；输入图像尺寸被统一调整为640X640像素，160X160特征图用来检测4X4像素以上的目标，80X80特征图用来检测8X8像素以上的目标，40X40特征图用来检测16X16像素以上的目标，20X20特征图用来检测32X32像素以上的目标。这样增设小目标检测层之后，四层检测结构可覆盖不同的感受野，实现超小像素目标的快速检测与精准定位。

步骤S3具体为，

S301、设置最大迭代次数Itera，学习率η，训练批次大小B，每次输入训练数据集{train₁,…,train_d,…,train_m}的B张图片，输入次数Num为

其中，m为训练数据集中的样本总数；损失函数为分类损失、定位损失和正负样本置信度损失之和L＝L_class+L_CIoU+L_obj+L_noobj；

S302、使用梯度下降法

最小化损失化函数对网络进行迭代优化，采用SGD学习优化器，全局初始学习率为η，其中ω_t+1作为网络参数及进行预测，ω_t是当前网络权重参数，/>

是下一次迭代的梯度值；

S303、当迭代次数未达到所设置的最小迭代次数Itera时，若损失函数L不再下降，则停止训练；当迭代次数达到所设置的最小迭代次数Itera时，则停止训练，得到训练好的网络模型；否则，继续进行迭代优化。

步骤S301中，损失函数具体如：

T是输出特征图t的个数，S²是特征图划分网格cell的数量，N是每个网格n上锚框的数量，w是预测框的宽度，h预测框的高度，1_r＜4判断为正样本的条件，设置标定框的宽高和预测狂的宽高之比小于4；

分类损失计算推理的类别与对应的标定分类之间的误差：

其中x_i为标定的N个类别的一种，取值{0,1,…，N-1}，y_i为归一化的类别概率，/>

为网络推理出目标类别的概率；

定位损失计算预测框与标定框之间的误差：

其中w^gt是标定框的宽度，h^gt标定框的高度，IoU是标定框和预测框的交集并集的比值，ρ²(b,b^gt)标定框和预测框的中心点距离；

正负样本置信度损失计算网络的置信度：

其中C标定的置信度，取值{0，1}，0代表不是目标，1代表是目标，gr是设置的概率因子，

推理的置信度，负样本的置信度为零；

步骤S4中，隧道监控采集模块获取流媒体数据，将输入视频流输出按间隔帧保存为图片序列。

步骤S5中，使用训练完成的Fire-YOLOv5模型逐帧进行火灾烟雾检测，在图片序列中画出目标区域并标注其类别和概率，最后组帧成视频。

步骤S6中，利用深度神经网络分别对视频中的N个连续帧进行检测，将得到的火灾类别概率与阈值对比推理出N个预测投票值，利用这N个投票值进行判决，实现在初期阶段预警火灾。

实验结果参照图4和图5，在火焰和烟雾检测任务中，Fire-YOLOv5x实现了性能和效率的良好平衡，鲁棒性更强。该网络的参数为70.7M，比YOLOv5x网络参数减小了18.0％，检测精度达到93.5％，比YOLOv5x提升了2.0％，在IoU阈值设置0.5时平均检测精度达到71.8％，相比提升了0.2％，推理速度和YOLOv5x相当。由Fire-YOLOv5x的F1值、精度、召回率曲线可知，检测的类平均精度和召回率分别达到93.5％和96％，可见本文新方法具有更高检测精度和较低漏检率。使用一个公开的数据集进行测试，Fire-YOLOv5x的检测精度比EfficientDet-D4和YOLOv5分别提升1.6％和2％，检测召回率相比EfficientDet-D4提升1.7％，而IoU阈值为0.5时平均检测精度比EfficientDet-D4提高14.5％。在检测速度上和EfficientDet-D4相当。尤其在处理超小像素和密集火灾目标时，性能更优于现有的基于深度学习的火焰和烟雾检测方法。对隧道火灾视频检测结果表明，能够实现火灾的快速检测和及时预警。深度神经网络模型的深度和宽度可灵活调整，训练不同规模的网络可部署到不同算力的硬件设备。

Claims

1.一种基于注意力机制与多尺度特征的火灾检测预警方法，其特征在于，包括以下步骤：

步骤S2，搭建改进的深度学习网络模型Fire-YOLOv5；

2.根据权利要求1所述的方法，其特征在于，步骤S1具体为：

3.根据权利要求2所述的方法，其特征在于，步骤S102中，不同宽高比图像的缩放比例

图像被缩放为/>

为向上取整，灰色填充值为(114,114,114)。

4.根据权利要求1所述的方法，其特征在于，步骤201中，深度神经网络的网络深度即网络层数和网络宽度即网络输出通道分别由深度因子DM、宽度因子WM控制，网络层数为max(round(number*DM),1)，其中number为不同模块网络层数，round为四舍五入取整，网络输出通道为

其中channel为不同模块的通道数，/>

为向上取整。

5.根据权利要求1所述的方法，其特征在于，步骤S202中，Fire-YOLOv5引入高效的通道注意力机制模块CAB，特征金字塔池化层之后使用两个空间范围的池化核分别沿水平坐标和垂直坐标对每个通道进行一维特征编码；第c个通道的两个一维特征编码输出为

使用的Mish激活函数y＝x*tanh(ln(1+e^x))，此函数是一个平滑的曲线，在负值的部分没有完全截断，允许比较小的负梯度流入及更有利的信息深入神经网络，从而得到更高的准确性和泛化性。

6.根据权利要求1所述的方法，其特征在于，步骤S203中，Fire-YOLOv5模型结合双向特征金塔网络的原理，将同一层次的输入节点和输出节点跨层连接，缩短了低层语义向高层传递的路径，并通过拼接方式而不是相加的方式合并相邻层将高层丰富的语义特征与位于低层的特征有机结合，提升了预测的准确性；采用消除权重的双向跨尺度连接方式来进行特征融合，提高检测精度的同时而不影响网络的推理运算速度。

7.根据权利要求1所述的方法，其特征在于，步骤S204中，Fire-YOLOv5模型中多次下采样倍数过大导致小目标信息量损失，增设一组锚框和小目标检测层来解决火灾小目标无法检测的问题，将第18层CBS结构输出的特征图进行上采样获取到大小为160X160的特征图与主干网络中第2层输出的特征图进行拼接操作，之后连接CSP_2X层和卷积层；输入图像尺寸被统一调整为640X640像素，160X160特征图用来检测4X4像素以上的目标，80X80特征图用来检测8X8像素以上的目标，40X40特征图用来检测16X16像素以上的目标，20X20特征图用来检测32X32像素以上的目标。

8.根据权利要求1所述的方法，其特征在于，步骤S3具体为，

S302、使用梯度下降法

是下一次迭代的梯度值；

9.根据权利要求8所述的方法，其特征在于，步骤S301中，损失函数具体如：

分类损失计算推理的类别与对应的标定分类之间的误差：

为网络推理出目标类别的概率；

定位损失计算预测框与标定框之间的误差：

正负样本置信度损失计算网络的置信度：

推理的置信度，负样本的置信度为零。

10.根据权利要求1所述的方法，其特征在于，步骤S6中，利用深度神经网络分别对视频中的N个连续帧进行检测，将得到的火灾类别概率与阈值对比推理出N个预测投票值，利用这N个投票值进行判决，实现在初期阶段预警火灾。