CN117173854A

CN117173854A - 一种基于深度学习的煤矿明火预警方法及系统

Info

Publication number: CN117173854A
Application number: CN202311183713.1A
Authority: CN
Inventors: 李青; 张斌; 张璐; 吴浩
Original assignee: XI'AN BOSSUN COAL MINE SAFETY TECHNOLOGY CO LTD
Current assignee: XI'AN BOSSUN COAL MINE SAFETY TECHNOLOGY CO LTD
Priority date: 2023-09-13
Filing date: 2023-09-13
Publication date: 2023-12-05
Anticipated expiration: 2043-09-13
Also published as: CN117173854B

Abstract

本申请公开了一种基于深度学习的煤矿明火预警方法及系统，用以解决现有技术存在的火焰检测方法误检较多和检测的准确度较低的问题。本申请的煤矿明火预警方法包括：获取现场实时视频中的连续帧图像，对每一帧图像进行特征提取，简单特征图在辅路分支中卷积操作输出辅路特征图，复杂特征图在主路分支中卷积操作输出主路特征图，辅路特征图和主路特征图在不同的通道进行特征融合后得到融合图像，融合图像经过分割检测后裁剪疑似火情区域的检测图像，获取当前帧图像得到的检测图像的静态特征，及当前帧图像和下一帧图像的检测图像的动态特征，静态特征和动态特征判断当前帧图像得到的检测图像中是否存在明火区域，存在明火区域向用户发出警报提示。

Description

一种基于深度学习的煤矿明火预警方法及系统

技术领域

本申请涉及图像处理和深度学习的火灾报警技术领域，具体涉及一种基于深度学习的煤矿明火预警方法及系统。

背景技术

近年来，我国一直致力于积极推动新能源产业的发展，但煤炭作为主要能源，其重要性依然无法被取代。然而，在煤炭的开采和存储过程中，煤矿安全事故时有发生，尤其是明火引发的事故，破坏力极强，亟待重点防控与检测。

火灾监测过程中，常用的传感器主要包括感烟型、感温型和感光型，其中感烟型探测器对于环境中扬尘、烟雾等因素的干扰反应过于敏感，导致误报率较高，这极大地消耗了安防资源。感光型探测器由于易受无关光源的影响，对火灾初期的光辐射感知不明显；而感温型探测器则受到摆放位置的制约，也存在感光型探测器存在的同样问题，即对火灾的快速响应不够敏锐。总之，传统的火灾探测器存在着精度低、易受干扰和响应滞后等不可忽视的缺点。随着计算机技术的进步和煤矿企业对生产作业安全需求的提高，许多煤矿企业已经引入了安全监控系统，这些系统已成为传统人工管理方式的替代品，有效地提高了煤矿企业对生产作业安全风险的控制。随着深度学习技术的深入研究和迅速发展，基于深度学习的火灾检测技术也应运而生。基于深度学习的火灾检测技术可以实现火焰特征的自动提取，并更好地挖掘火灾图像中的特征信息，从而显著提高检测的精确度。因此，基于深度学习的火灾检测算法研究具有重要的现实意义和应用价值。

其中，申请号为：202110746048.7，申请名称为：基于图像细分类的火焰检测方法，该方案首先收集火焰图像，对数据预处理，制作成火焰数据集。然后，根据火焰数据集，训练CenterNet检测器，保存最佳的模型。接着，准备火焰与非火焰的二分类数据集。在MobileNetV2分类模型的倒置残差模块间引入BAM注意力模块，训练二分类模型。最后，CenterNet检测出图像的前景目标K，然后将前景目标K裁剪成图像块送入分类模型中，进行细分类，以滤除与火焰相似的误检物体。该专利存在的主要问题是：MobileNetV2是一种轻量级的卷积神经网络，为了保持相对较高的精度，显著降低了模型的大小和计算复杂性，其特征融合的机制采用了一种被称为″Inverted Residuals and Linear Bottlenecks″的结构，这种结构的特征融合能力较差，为降低计算复杂性，通过扩展阶段(Expansion phase)，一个较大的1x1卷积层将输入的特征图扩展到较高的维度；深度分离卷积阶段(DepthwiseConvolution phase)：然后，通过一个3x3的深度分离卷积层进行特征提取，深度分离卷积是一种卷积操作，它将标准的卷积操作分解为深度卷积和点卷积两个步骤，压缩阶段(Projection phase)，通过一个较小的1x1卷积层将特征图的维度压缩回原来的大小，特征图仅经过一次深度分离卷积，局部感受野限制了模型对全局信息的获取能力，同时，CenterNet检测器和MobileNetV2模型需要两个独立的步骤，容易造成信息丢失从而影响检测的准确度。

发明内容

为此，本申请提供一种基于深度学习的煤矿明火预警装置及方法，以解决现有技术存在的火焰检测方法误检较多和检测的准确度较低的问题。

为了实现上述目的，本申请提供如下技术方案：

第一方面：一种基于深度学习的煤矿明火预警方法，包括如下步骤：

获取现场实时视频中的连续帧图像，对每一帧图像进行特征提取，得到简单特征图和复杂特征图；

对所述的简单特征图和复杂特征图进行卷积得到简单特征输出图和复杂特征输出图，对所述的简单特征输出图进行采样得到每一次卷积采样过程中的简单特征采样图像；将所述简单特征输出图像作为辅路特征图，将相同大小的简单特征采样图像和复杂特征输出图像融合后的图像作为主路特征图；得到多张所述辅路特征图和多张所述主路特征图；

多张所述辅路特征图和多张所述主路特征图在不同的通道进行特征融合后得到融合图像；

所述融合图像在经过分割检测后裁剪疑似火情区域的检测图像；

获取当前帧图像得到的检测图像的静态特征，及当前帧图像和下一帧图像的检测图像的动态特征，根据静态特征和动态特征判断当前帧图像得到的检测图像中是否存在明火区域，如果存在明火区域向用户发出警报提示。

可选地，得到所述简单特征图和所述复杂特征图的方法包括：

对每一帧图像进行通道卷积获得特征图像，对得到的特征图像进行分割得到简单特征图和复杂特征图。

可选地，得到所述简单特征采样图像的方法：

按照设定的卷积核对简单特征输出图进行卷积，对完成卷积后的简单特征图进行第一次上采样得到第一次上采样简单特征图，对第一次上采样简单特征图进行卷积，依次迭代，达到设定的上采样次数后停止，得到每一次上采样过程中的简单特征采样图像。

可选地，得到多张所述主路特征图的方法：

按照设定的卷积核对复杂特征图进行卷积，完成预定卷积操作数量的复杂特征输出图与经过两次上采样的所述简单特征采样图像融合得到第一主路特征图，对所述第一主路特征图进行卷积后与下一次简单特征采样图像融合，得到图像大小为第一主路特征图一半的第二主路特征图，依次执行以上操作，对倒数第二张主路特征图进行分割后输入到两个不同通道的窗口自注意力神经网络中，经过窗口自注意力神经网络处理后沿通道方向拼接，经过通道调整后得到最后一张主路特征图，得到的多张所述主路特征图依次为第一主路特征图至最后一张主路特征图。

可选地，得到多张所述辅路特征图的方法：

按照设定的卷积核对简单特征图进行卷积，完成预定卷积数量的简单特征输出图记为第一辅路特征图，对所述第一辅路特征图进行卷积，得到图像大小为第一辅路特征图一半的第二辅路特征图，依次迭代，对倒数第二张辅路特征图进行分割后输入到两个不同通道的窗口自注意力神经网络中，经过窗口自注意力神经网络处理后沿通道方向拼接，经过通道调整后得到最后一张辅路特征图，得到的多张所述辅路特征图依次为第一辅路特征图至最后一张辅路特征图。

可选地，得到所述融合图像的方法：

将多张所述辅路特征图和多张所述主路特征图在横轴和纵轴的网格状结构中进行融合，所述纵轴从左至右依次设置有多个对应多张所述辅路特征图的输入端，所述横轴从上至下依次设置有多个对应多张所述主路特征图的输入端。

可选地，所述简单特征图为低层次的视觉特征，包括像素的信息、图像的角点、颜色、纹理、形状、轮廓和线条元素中的一种或多种，所述复杂特征图为高层次的语义特征，包括物体部分、物体整体和场景类别中的一种或多种。

可选地，得到所述检测图像的方法为：

将所述融合图像在深度神经网络模型中进行特征分割，所述深度神经网络模型中分割头的输出通道数为32，输出值为3×(n+5+32)，n代表的是模型需要预测的类别得分，3是指每个网格点上有3个预设的、固定尺寸和比例的边界框，(n+5)表示每个对象的预测结果是一个大小为n+5的向量，当在这基础上增加32个维度后，形式变为3×(n+5+32)，使用Sigmoid激活函数限定，使用特征调整将输出的所述检测图像的大小缩放到输入的检测图像的原图大小。

可选地，向用户发出警报提示的条件为：

所述检测图像的静态特征中的R分量与S分量满足预设条件，且动态特征同时大于预设阈值时，判断产生明火区域，用户发出警报提示。

第二方面：一种基于深度学习的煤矿明火预警系统，包括视频采集模块、特征处理模块、特征融合模块和火灾报警模块；

所述视频采集模块用于获取现场实时视频中的连续帧图像，对每一帧图像进行特征提取，得到简单特征图和复杂特征图；

所述图像特征处理模块用于对所述的简单特征图和复杂特征图进行卷积得到简单特征输出图和复杂特征输出图，对所述的简单特征输出图进行采样得到每一次卷积采样过程中的简单特征采样图像；将所述简单特征输出图像作为辅路特征图，将相同大小的简单特征采样图像和复杂特征输出图像融合后的图像作为主路特征图；得到多张所述辅路特征图和多张所述主路特征图；

所述图像特征融合模块用于对多张所述辅路特征图和多张所述主路特征图在不同的通道进行特征融合后得到融合图像；

所述火灾报警模块用于获取当前帧图像得到的检测图像的静态特征，及当前帧图像和下一帧图像的检测图像的动态特征，根据静态特征和动态特征判断当前帧图像得到的检测图像中是否存在明火区域，如果存在明火区域向用户发出警报提示。

相比现有技术，本申请至少具有以下有益效果：

1、精度提升：通过使用深度学习模型，能够自动提取和融合火焰的关键特征，从而提高了火灾检测的精度，通过双路检测，该方法可以更好地捕获和处理火焰图像中的多种特征，模型可以更好地捕捉火焰的各种属性，如颜色、形状和运动模式等，多张辅路特征图和多张主路特征图在不同的通道进行特征融合，使得模型从多个角度和尺度对火焰特征进行捕捉和融合，从而提高了模型对火焰的识别能力，自注意力机制引入到模型中，可以帮助模型关注到图像中的关键部分，即火焰区域，从而提高模型的识别精度，动态特征和静态特征判断，可以提高模型对火焰的识别精度。

2、实时性高：本申请采用了实时的图像处理和预警方法，可以在火灾发生初期就及时发出预警，从而有助于防止火灾的扩散，采用了深度学习模型进行图像处理，这种模型可以在GPU等硬件的加速下进行快速的计算，特别是，使用的双路检测模型是轻量级的模型，它们在保持较高精度的同时，降低了模型的计算复杂性，从而可以实现快速的图像处理，可以更早地发现火灾，从而有助于防止火灾的扩散，深度学习模型通常有在线学习的能力，即在使用过程中持续更新和优化模型，系统可以在使用过程中不断提升其性能，从而更好地适应各种复杂的环境和火灾情况。

3、稳定性强：通过使用动态特征和静态特征的同时判断，可以有效地抑制误报警的情况，只有当图像动态特征和静态特征都被判断为火灾时，才会发出预警，这可以降低由于噪声或者临时的环境变化导致的误报警。

附图说明

为了更直观地说明现有技术以及本申请，下面给出示例性的附图。

图1和图2为本申请实施例1的明火预警方法流程图；

图3为本申请实施例2的明火预警方法流程图；

图4为本申请实施例2的DoubleWinC3模块流程图；

图5为本申请实施例2的Shift window attention和Shift window attention操作原理图；

图6为本申请实施例2的BiBranchBackbone双路检测模型流程图；

图7为本申请实施例2的ELAN操作流程图；

图8为本申请实施例2的GrideFuse模块流程图；

图9为本申请实施例2的分割检测模块流程图；

具体实施方式

以下结合附图，通过具体实施例对本申请做进一步详述。

在本申请的描述中：除非另有说明，“多个”的含义是两个或两个以上。本申请中的术语“第一”“第二”“第三”等旨在区别指代的对象，而不具有技术内涵方面的特别意义(例如，不应理解为对重要程度或次序等的强调)。“包括”“包含”“具有”等表述方式，同时还意味着“不限于”(某些单元、部件、材料、步骤等)。

实施例

第一方面：

实施例1

如图1和图2所示，一种基于深度学习的煤矿明火预警方法，包括如下步骤：

获取现场实时视频中的连续帧图像，对每一帧图像进行特征提取，获取简单特征图和复杂特征图，简单特征图为低层次的视觉特征，包括像素的信息、图像的角点、颜色、纹理、形状、轮廓和线条元素中的一种或多种，复杂特征图为高层次的语义特征，包括物体部分、物体整体和场景类别中的一种或多种；

对简单特征图和复杂特征图进行卷积得到简单特征输出图和复杂特征输出图，对简单特征输出图进行采样得到每一次卷积采样过程中的简单特征采样图像；将简单特征输出图像作为辅路特征图，将相同大小的简单特征采样图像和复杂特征输出图像融合后的图像作为主路特征图；得到多张辅路特征图和多张主路特征图；

多张辅路特征图和多张主路特征图在不同的通道进行特征融合后得到多张融合图像，多张融合图像经过分割检测后裁剪疑似火情区域的检测图像；

当检测图像的静态特征同时满足RGB与HSI结合后的判据时，静态特征判断产生明火区域，当前帧图像和下一帧图像的检测图像的动态特征其帧间差分的结果大于设定的阈值时，静态特征判断产生明火区域，静态特征判断和静态特征判断同时产生明火区域时，用户发出警报提示。

特征提取过程包括双支路特征提取，双支路特征提取还包括以下步骤：

输入的帧图像通过一次卷积操作进行通道调整，调整后的特征图像通过分割操作得到简单特征图和复杂特征图；

简单特征图在辅路分支中依次经过多次连续的合成卷积操作，每次合成卷积操作后得到一张辅路特征图，分别对得到的辅路特征图进行采样操作，每次采样操作后输出的辅路特征图的尺寸都是操作前尺寸的一半；

复杂特征图在主路分支中依次经过多次连续的合成卷积操作，每次合成卷积操作后与经过上采样操作的相同尺寸的辅路特征图进行通道拼接和融合，得到一张所述主路特征图，下一张主路特征图的尺寸为上一张主路特征图尺寸的一半。

辅路分支将分割操作后得到的特征图经过四次连续的合成卷积操作，这四次操作后各自进行四倍、八倍、十六倍、三十二倍下采样，得到四张不同大小的特征图，经过三十二倍的下采样后的辅路特征图的尺寸最小。

合成卷积操作包括融合调整操作，融合调整操作为多个卷积核K＝1或K＝3，步长S＝1的卷积操作在多分路中融合后进行一次通道调整的操作。

特征提取过程还包括窗口特征交互操作，窗口特征交互操作包括以下步骤，

S1：双路卷积，将输出的多张主路特征图或辅路特征图中最小尺寸的特征图进行卷积操作，用于改变特征图的通道数，得到两个不同的特征图，这两个特征图包含了输入特征图的不同视角和多层的特征信息；

S2：全局特征提取，将得到的特征图分别输入到两个不同通路的窗口自注意力神经网络中，对其进行全局特征信息的提取；

S3：特征拼接和通道调整，将经过窗口自注意力神经网络处理后的两路特征图沿通道方向拼接，通过卷积操作进行通道调整。

窗口自注意力神经网络包括窗口自注意力操作和滑动窗口自注意力操作；

窗口自注意力操作将输入的特征图分割成多个固定大小的窗口，在每个窗口内部进行自注意力计算，使得全局的自注意力计算变为了局部的自注意力计算；

滑动窗口自注意力操作对上一层特征图的窗口进行偏移，对偏移后的窗口进行分割，在新分割的每个窗口内进行自注意力计算。

特征融合操作包括横轴和纵轴的网格状融合，纵轴从左至右依次设置有多个对应所述多张辅路特征图的输入端，横轴从上至下依次设置有多个对应多张主路特征图的输入端，特征融合操作包括以下步骤：

P1：以横轴最下侧输入的主路特征图为主图，经过卷积和上采样操作后与横轴上侧相邻输入端的主路特征图进行通道方向拼接，拼接后的特征图再次循环上述操作与横轴顶端输入的主路特征图拼接后截止，将横轴合成图与纵轴左侧起始端输入的辅路特征图拼接得到第一融合图像；

P2：将第一融合图像沿纵轴和横轴多次卷积操作后与纵轴输入的第二张辅路特征图拼接得到第二融合图像；

P3：继续执行上述操作，使得输出的融合图像的数量等于纵轴输入端的数量。

分割检测在深度神经网络模型的特征分割处添加额外的分割头，分割头的输出通道数为32，输出值为3×(n+5+32)，这里的n代表的是模型需要预测的类别得分，3是指每个网格点上有3个预设的、固定尺寸和比例的边界框，用于在图像中寻找和定位目标，每个边界框会输出一个目标的预测，其中，每个预测包括n个类别得分和5个基本属性，5代表的是目标的基本属性包括：

目标中心点的x坐标；

目标中心点的y坐标；

目标的宽度；

目标的高度；

对象存在的可能性；

(n+5)就表示每个对象的预测结果是一个大小为n+5的向量，当在这基础上增加32个维度后，形式变为3×(n+5+32)，使用Sigmoid激活函数将输出特征图中的数值大小限定在0到1之间，使用特征调整操作，将输出的特征图大小缩放到输入的特征图的原图大小。

所述视频采集模块用于获取现场实时视频中的连续帧图像，对每一帧图像进行特征提取，得到所述简单特征图和所述复杂特征图；

实施例2

如图3所示，一种可选地实施方案，一种基于深度学习的煤矿明火预警方法，包括如下步骤：

搭建检测模型，检测模型为YOLOv7的改进模型，基于深度神经网络进行对象的识别和定位，使用检测模型对每一帧图像进行处理；

检测模型包括依次运行的特征提取网络、特征融合网络和检测判断网络，特征提取网络包括双路检测模型，记为：BiBranchBackbone模型，所述BiBranchBackbone模型依次经过输入预处理、特征分割和特征处理三个步骤；输入预处理将帧图像经过一个卷积层进行通道调整，使得其适应后续的特征处理，特征分割将调整后的特征图在通道方向上平均分成两份，获得简单特征图和复杂特征图，分别送入辅路分支和主路分支进行处理，特征处理在主路分支和辅路分支分别处理每份特征图的提取任务，通过上采样操作将辅路分支的特征信息融合到主路分支中；特征融合网络包括依次运行的横纵融合模块和分割检测模块，横纵融合模块将双路检测模块的输出结果进行采样操作得到多种类型特征图，将多种类型特征图分类后输入分割检测模块，进行分割检测后进行合成，合成图片经过激活函数判断后分割输出；分割输出的结果经过检测判断网络，检测判断网络包括静态特征判断和动态特征判断；

对检测模型的输出结果进行判断，无明火图像时设置计数器的值N＝0，疑似包含火焰图像时通过静态特征判断和动态特征判断，同时满足的情况下设置计数器的值N≥2，仅一项满足时，设置计数器的值N＝0；

计数器的值N≥2时向用户发出报警提示。

特征提取网络还包括双路特征交互模块，记为：DoubleWinC3模块，DoubleWinC3模块的工作过程是一个结合了卷积操作和Swin Transformer模型的特征提取和信息交互流程，Swin Transformer是一种基于Transformer架构的神经网络模型，Transformer架构的基本流程，

输入嵌入(Input Embedding)：首先，将输入数据转化为嵌入向量，对于图像数据，使用卷积神经网络(CNN)提取特征；

位置编码(Positional Encoding)：由于Transformer模型本身并不能捕捉到输入数据中的顺序信息，因此需要添加位置编码来提供这种信息，位置编码可以是固定的(如基于正弦和余弦函数的位置编码)，也可以是可学习的，对于可学习的位置编码，在模型的输入阶段添加一些额外的参数，这些参数可以在模型训练过程中通过反向传播和梯度下降等方法进行更新，这种方式的优点是模型可以自适应地学习到最适合其任务的位置编码方式，对于视觉任务，优先选择可学习的位置编码，因为图像中的位置信息更加复杂和多样；

自注意力机制(Self-Attention)：自注意力机制可以捕捉输入数据中的长距离依赖关系，它会计算输入数据中每个元素与其他元素的相关性，然后用这些相关性对输入数据进行加权平均，生成新的特征表示。

前馈神经网络(Feed Forward Neural Network)：在自注意力机制之后，还有一个前馈神经网络。这个网络通常包括两个全连接层和一个激活函数，前馈神经网络可以增加模型的复杂性和表达能力。

编码器和解码器(Encoder and Decoder)：Transformer模型由多个编码器和解码器层堆叠而成，每个编码器和解码器层都包括一个自注意力模块和一个前馈神经网络模块，编码器用于处理输入数据，而解码器则用于生成输出数据。

输出线性层(Output Linear Layer)：最后，使用一个线性层将解码器的输出转化为最终的预测结果。

如图4所示，DoubleWinC3模块的工作过程包括以下步骤，

M1：双路卷积，DoubleWinC3模块首先对输入特征图分别进行卷积核K＝1步长S＝1，1×1的Conv卷积操作，得到两路不同的特征图，这两路特征图包含了输入特征图的不同视角和多层的特征信息；

M2：全局特征提取，这两路特征图分别被输入到Swin Transformer模型中，对其进行全局特征信息的提取，Swin Transformer模型通过Window attention和Shift windowattention两种操作，对特征图的全局特征信息进行提取，并实现特征之间的交互；

M3：特征拼接和通道调整，将经过Swin Transformer模型处理后的两路特征图进行沿通道方向的拼接(记为Concat)，通过1×1的Conv卷积操作进行通道调整，得到DoubleWinC3模块的最终输出。

Swin Transformer模型中的Window attention和Shift window attention两种操作均采用滑动窗口自注意力机制；在原始的自注意力模型中，每一个输入序列的元素都会与所有其他元素进行交互，从而产生输出表示，使得计算复杂度和内存需求随着序列长度的增长而呈二次方增长，对于处理长序列数据的能力十分有限，滑动窗口自注意力机制通过引入一个固定长度的窗口，限制每个元素只与窗口内的其他元素进行交互，降低了计算复杂度和内存需求。例如，如果窗口大小为k，那么每个元素只与其前后k/2个元素进行交互，这样计算复杂度和内存需求就成了线性增长，使得模型可以处理更长的序列；此外，滑动窗口自注意力机制还可以通过设定不同的窗口大小，实现在不同的抽象层次上对序列进行编码，例如，设定较小的窗口可以捕获序列中的局部特征，而设定较大的窗口可以捕获更广泛的上下文信息。

滑动窗口自注意力机制通过限制注意力的范围，使得自注意力模型能够更高效地处理长序列数据，同时也为模型提供了在不同抽象层次上理解序列的能力。

Window attention和Shift window attention是Swin Transformer中使用的两种操作，它们都是基于自注意力(Self-attention)机制的变形，被用于实现局部和全局的特征交互。

Window attention：在标准的自注意力中，每个位置的输出都是输入所有位置的加权和，涉及所有位置之间的全局交互，因此计算复杂度较高，Window attention则是为了降低这种计算复杂度，将特征图分割成多个固定大小的窗口，然后在每个窗口内部进行自注意力计算，这种方法将全局的自注意力变为了局部的自注意力，极大地降低了计算复杂度，同时由于窗口内的特征能够进行互动，也能够提取出一定的上下文信息。

Shift window attention：虽然Window attention降低了计算复杂度，但由于其只在窗口内进行自注意力计算，因此窗口之间的信息无法交互，造成了感受野的限制，为了解决这个问题，Swin Transformer引入了Shift window attention，在进行Shift windowattention时，首先对上一层的窗口进行一定的偏移，然后在偏移后的窗口上进行自注意力计算，这样就能实现不同窗口之间的信息交互，进一步扩大了模型的感受野。

如图5所示，Window attention操作在双路检测模块的L层，将特征图划分为多个固定大小的窗口，在每个窗口内进行自注意力计算；

Shift window attention操作在双路检测模块的L+1层，将第L层的特征图进行窗口偏移，在新的窗口内进行自注意力计算得到L+1层的特征图，在所述L+1层特征图的每个窗口内进行自注意力计算。

YOLOv7目标检测模型主要由主干特征提取网络和特征融合模块构成，现有的主干特征提取网络仅负责提取特征，并未直接参与特征融合，因此限制了模型的特征提取能力，此外，随着网络深度的增加，浅层网络的信息容易丢失，这也影响了模型的性能。基于此，本申请提出了BiBranchBackbone双路检测模型。

BiBranchBackbone模型的特征分割步骤后的两份特征图分别记为简单特征图和复杂特征图，在BiBranchBackbone双路检测模型中，上层分支称为辅路分支，下层分支称为主路分支；输入图片参数为640×640×3，首先通过一个1×1的Conv卷积进行通道调整，然后使用Split分割操作将特征图在通道方向上平均分成两份，分别输入到辅路分支和主路分支中，在特征提取的过程中，利用上采样和下采样(步长为2)操作，将辅路分支的特征信息融合到主路中，从而实现了在特征提取过程中加入特征融合的能力。

如图6所示，在辅路分支中，Split分割操作后得到的特征图经过4次合成卷积操作，分别进行4倍、8倍、16倍、32倍下采样操作，得到4个不同大小的特征图(160×160×32，80×80×64，40×40×128，20×20×256)，之后将DoubleWinC3模块作用到20×20×256的特征图上，用于提升模型的全局信息提取能力，得到20×20×256的第三辅路特征图。

在主路分支中，Split分割操作后的特征图首先经过1次合成卷积操作得到大小为160×160×32的特征图，并将辅路分支中80×80×64的第一辅路特征图经过上采样操作后得到的简单特征采样图像与160×160×32的特征图进行通道拼接后融合，执行合成卷积操作得到大小为80×80×64的特征图，并将辅路分支中160×160×32的特征图经过步长为2的卷积后与大小为80×80×64的特征图融合，同时将辅路分支中40×40×128的第二辅路特征图经过上采样操作(记为：UpSample)后三者融合得到80×80×64大小的第一主路特征图，依次迭代上面的操作，得到40×40×128的第二主路特征图，并将最后得到的特征图输入到DoubleWinC3模块，得到20×20×256的第三主路特征图。

图6中的x1_1、x1_2和x1_3表示输出的第一辅路特征图、第二辅路特征图和第三辅路特征图；x2_1、x2_2和x2_3表示输出的第一主路特征图、第二主路特征图和第三主路特征图，将BiBranchBackbone模型得到的上述六个特征图输入到特征融合模块中。

如图7所示，合成卷积操作包括Conv加ELAN操作，Conv为卷积操作，ELAN操作包括多个卷积核K＝1或K＝3，步长S＝1的卷积操作在多支路中融合后进行一次通道调整的操作。

针对小目标的检测，较小的特征图容易导致小目标特征信息的丢失，而较大的特征图则保留了较多的目标特征信息，基于这种情况，BiBranchBackbone在做特征融合的同时，能够将辅路分支中较大的特征图信息传递到主路分支中的后段结构中，能够最大程度上保留小目标特征信息。

在主路分支和辅路分支中引入了连接部分，根据残差网络的思想，残差网络的主要思想是引入了残差模块(Residual Block)，在普通的深度神经网络中，每一层的输出都是通过上一层的输出进行一系列操作(如卷积、激活函数等)得到的，而在残差网络中，每一层的输出不仅包含了这些操作的结果，还直接加上了上一层的原始输出，即所谓的“残差连接”或“跳跃连接”(Skip Connection)，这种设计使得网络在反向传播时，梯度可以直接通过这些跳跃连接进行传播，有效地解决了深度神经网络中的梯度消失问题，本申请不仅增强了网络特征提取的能力，也能够方便网络的反向传播，同时还能避免梯度消失的问题。

如图8所示，融合模块为网格状结构，记为：GrideFuse模块，其包括横轴和纵轴两个维度，纵轴的三份输入特征图从左至右分别记为x1_1，x1_2和x1_3，均由BiBranchBackbone模型的辅路分支输入，所述横轴的三份输入特征图从上至下分别记为x2_1，x2_2和x2_3，均由所述BiBranchBackbone模型的主路分支输入，GrideFuse模块的工作过程包括以下步骤，

Q1：以x2_3为主图进行上采样操作，将x2_3经过卷积和上采样操作后得到与所述x2_2大小相同的特征图后进行通道方向拼接，通过所述ELAN操作进行特征增强，再次经过卷积和上采样操作得到与x2_1大小相同的特征图，并与之进行通道方向的拼接，得到80×80特征图，经过ELAN操作后与x1_1特征图拼接得到整个网络的其中一个输出图；

Q2：以x1_1为主图进行下采样操作，将所述Q1中80×80特征图经过步长为2的卷积使得特征图大小减半，并经过ELAN操作后与第一步得到的40×40特征图进行拼接，同时再次进行步长为2的卷积操作以及ELAN操作得到20×20特征图并将其与所述Q1中得到的20×20特征图拼接；

Q3：将所述Q2中得到的80×80特征图经过步长为2的卷积操作后与x1_2拼接，同时将所述Q2中20×20特征图经过上采样操作后与前者拼接，将得到的40×40特征图输出；

Q4：将所述Q3中得到的40×40特征图进行步长为2的卷积操作，并与x1_3拼接，将所述Q3中得到的40×40特征图经过步长为2的卷积与ELAN操作后与前者进行拼接，将所述Q2中20×20特征图拼接进来，将得到的20×20特征图输出。

GridFuse模块进行特征融合后，能够充分利用BiBranchBackbone模型所提取到的特征，整个网络结构能够将特征图信息进行充分的融合，帮助目标检测模型更精确地检测和分割出明火与烟雾目标。

如图9所示，分割检测模块在YOLOv7深度神经网络模型的特征分割处添加额外的分割头，分割头的输出通道数为32，将已有的检测输出额外增加32个维度，将原有的3×(n+5)输出，转化为3×(n+5+32)输出，这里的n代表的是模型需要预测的类别得分，3是指每个网格点上有3个预设的、固定尺寸和比例的边界框，用于在图像中寻找和定位目标，每个边界框会输出一个目标的预测，其中，每个预测包括n个类别得分和5个基本属性，5代表的是目标的基本属性包括：

目标中心点的x坐标；

目标中心点的y坐标；

目标的宽度；

目标的高度；

对象存在的可能性；

(n+5)就表示每个对象的预测结果是一个大小为n+5的向量，当在这基础上增加32个维度后，形式变为3×(n+5+32)，这里的32个维度代表额外的属性或者特征，使用Sigmoid激活函数将输出特征图中的数值大小限定在0到1之间，

Sigmoid激活函数也叫做Logistic函数，因为它是线性回归转换为Logistic(逻辑回归)的核心函数，这也是Sigmoid函数优良的特性能够把X∈R的输出压缩到X∈(0，1)区间。Sigmoid激活函数在其大部分定义域内都会趋于一个饱和的定值。Sigmoid函数是连续可导函数，在零点时候导数最大，并在向两边逐渐降低，Sigmoid函数最大的特点就是将数值压缩到(0，1)区间，在机器学习中常利用(0，1)区间的数值来表示以下意义：

概率分布：根据概率公理化定义知道，概率的取值范围在[0，1]之间，Sigmoid函数的(0，1)区间的输出和概率分布的取值范围[0，1]契合。因此可以利用Sigmoid函数将输出转译为概率值的输出。这也是Logistic(逻辑回归)使用Sigmoid函数的原因之一；

信号强度：将0～1理解成某种信号的强度，由于RNN循环神经网络只能够解决短期依赖的问题，不能够解决长期依赖的问题，因此提出了LSTM、GRU，这些网络相比于RNN最大的特点就是加入了门控制，通过门来控制是否允许记忆通过，而Sigmoid函数还能够代表门控值(Gate)的强度，当Sigmoid输出1的时候代表当前门控全部开放(允许全部记忆通过)，当Sigmoid输出0的时候代表门控关闭(不允许任何记忆通过)，使用特征调整操作，将输出的特征图大小缩放到输入的特征图的原图大小。

使用分割检测头，首先将特征融合结网络后输出的大小为80×80的特征图通过1×1的卷积操作进行通道调整，之后对其进行上采样操作，并将最后的输出经过2个卷积进行特征提取，最后经过一个1×1卷积将特征图通道调整到32后得到大小为160×160×32特征图，再将其与模型检测头输出部分的后32个维度进行向量相乘操作(图中用*表示)，并使用Sigmoid激活函数将输出特征图中的数值大小限定在0到1之间，然后使用Scale调整操作，将特征图大小缩放到原图大小，最终选择0.5作为阈值，大于0.5的部分视为目标前景，小于0.5的部分视为目标背景，即可得到最终的分割结果。

静态特征判断：

针对火焰的静态特征本文选用了结合RGB与HSI两种颜色模型作为颜色判断的方法，火焰判据的表达式如公式所示。

其中，R、G、B分别代表图像像素点在RGB颜色模型中的红、绿、蓝分量，S代表图像的像素点在HSI颜色模型中的饱和度(Situration)，S_th代表饱和度阈值，R_th代表了红色分量阈值。

相比较于单独使用一种颜色模型来进行判定，同时结合RGB判据及HIS两种颜色模型判据的可以得到更加严格的约束条件，使得不合理的区域进一步缩小，S_th设置为20，R_th设置为55。

动态特征判断：

针对火焰的动态特征判断本申请采用了帧间差分法，首先读取视频的第一帧并转为灰度图像，接着读取下一帧并同样转化为灰度图像，通过前后帧的灰度图像计算其差异图像，再对差异图像进行二值化处理与形态学处理，分离前景与背景及去除噪声后得到帧间差分的结果，设定阈值T，当帧间差分的结果大于根据先验经验设定好的阈值，则认为当前帧中包含满足动态特征的疑似火焰，阈值T的大小会影响到火焰动态特征的判断，阈值T设定为100时能够较好地提取出火焰的形状区域，T＞100时，动态特征大于预定的阈值。

检测图像的静态特征中的R分量与S分量同时满足上述公式的条件，且动态特征大于预设阈值时判断产生明火区域，向用户发出警报提示。

以上实施例的各技术特征可以进行任意的组合(只要这些技术特征的组合不存在矛盾)，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述；这些未明确写出的实施例，也都应当认为是本说明书记载的范围。

上文中通过一般性说明及具体实施例对本申请作了较为具体和详细的描述。应当理解，基于本申请的技术构思，还可以对这些具体实施例做出若干常规的调整或进一步的创新；但只要未脱离本申请的技术构思，这些常规的调整或进一步的创新得到的技术方案也同样落入本申请的权利要求保护范围。

Claims

1.一种基于深度学习的煤矿明火预警方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于深度学习的煤矿明火预警方法，其特征在于，得到所述简单特征图和所述复杂特征图的方法包括：

3.根据权利要求1所述的一种基于深度学习的煤矿明火预警方法，其特征在于，得到所述简单特征采样图像的方法：

4.根据权利要求3所述的一种基于深度学习的煤矿明火预警方法，其特征在于，得到多张所述主路特征图的方法：

5.根据权利要求1所述的一种基于深度学习的煤矿明火预警方法，其特征在于，得到多张所述辅路特征图的方法：

6.根据权利要求1所述的一种基于深度学习的煤矿明火预警方法，其特征在于，得到所述融合图像的方法：

7.根据权利要求1所述的一种基于深度学习的煤矿明火预警方法，其特征在于，所述简单特征图为低层次的视觉特征，包括像素的信息、图像的角点、颜色、纹理、形状、轮廓和线条元素中的一种或多种，所述复杂特征图为高层次的语义特征，包括物体部分、物体整体和场景类别中的一种或多种。

8.根据权利要求1所述的一种基于深度学习的煤矿明火预警方法，其特征在于，得到所述检测图像的方法为：

9.根据权利要求1所述的一种基于深度学习的煤矿明火预警方法，其特征在于，向用户发出警报提示的条件为：

所述检测图像的静态特征中的R分量与S分量满足条件，且动态特征同时大于预设阈值时判断产生明火区域，向用户发出警报提示。

10.一种基于深度学习的煤矿明火预警系统，其特征在于，包括视频采集模块、特征处理模块、特征融合模块和火灾报警模块；