CN115512225A

CN115512225A - 一种基于注意力机制实现端到端的森林火灾检测算法

Info

Publication number: CN115512225A
Application number: CN202211199537.6A
Authority: CN
Inventors: 李琪林; 严平; 蔡君懿; 叶润
Original assignee: Marketing Service Center Of State Grid Sichuan Electric Power Co
Current assignee: Marketing Service Center Of State Grid Sichuan Electric Power Co
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2022-12-23

Abstract

本发明公开了一种基于注意力机制实现端到端的森林火灾检测算法，包括步骤S1：收集森林火灾事件系列图片，并对其进行预处理；S2：将森林火灾事件系列图片的特征分为浓烟与火焰两个特征表现；根据相对应的特征表现，依次为第一数据集中拼接图赋予第一标签与第二标签进行标注；S3：采用卷积神经网络对拼接图提取2D特征，并采用交叉注意力机制将提取出的2D特征进行特征融合；S4：采用标准COCO数据集进行预训练，并通过迁移学习将其迁移至第一数据集进行训练；按比例划分为训练集与测试集，将训练集送入网络模型中进行迭代训练，得到最优模型；S5：将测试集中的拼接图送入训练好的最优模型中，确认拼接图目标中的类别及位置，输出最终结果。

Description

一种基于注意力机制实现端到端的森林火灾检测算法

技术领域

本发明涉及计算机图像识别技术领域，具体涉及一种基于注意力机制实现端到端的森林火灾检测算法。

背景技术

森林火灾不仅会对自然环境造成严重的危害，而且会对人民财产安全造成不可估量的损害。如何通过有效的手段做到及时预警，及时发现，及时处理成为当前火灾检测领域一个至关重要的研究方向。目前火灾检测主要通过以下两种方式：一种是通过红外相机和温度传感器组合的方式进行检测。当火灾发生时，由于局部环境温度会升高，通过红外相机和温度传感器可以有效的检测出环境温度的变化，从而可以判断出是否有火灾发生。另一种方式是通过基于深度学习的目标检测手段，对大量火灾数据进行训练，从而可以达到对火灾的识别和定位。第一种方法很大程度上受制于红外相机和温度传感器的安装环境，比如发电锅炉及炼钢厂附近，那么该设备的准确率将大大降低。第二种方法虽然简单有效，但是却需要提前手工设计Anchor机制，这对于非计算机视觉人员来说是非常困难的；其次目前主流的目标检测算法，还不能实现真正意义上的端到端的处理，一般都需要一个后处理阶段NMS(非极大值抑制)，正因为有了NMS操作，模型在调参上就变得异常复杂，而且即使训练好了一个模型，部署起来也非常困难，因为并非所有的硬件设备都支持这一操作。

有鉴于此，特提出本申请。

发明内容

本发明的目的是提供一种基于注意力机制实现端到端的森林火灾检测算法，该方法不仅可以保证火灾识别过程的高效快速，还能进一步的提高火灾识别的准确率，最终优化算法的复杂度，提升其整体性能。

本发明通过下述技术方案实现：

一种基于注意力机制实现端到端的森林火灾检测算法，包括步骤：

S1：收集森林火灾事件系列图片，并对其进行预处理；先对系列图片进行数据增强，之后按照随机裁剪与随机排布的方式进行拼接生成拼接图，将多个生成的拼接图进行组合生成第一数据集，并对第一数据集引入预设高斯噪声；

S2：将森林火灾事件系列图片的特征分为浓烟与火焰两个特征表现；根据相对应的特征表现，依次为第一数据集中拼接图赋予第一标签与第二标签进行标注；并将标注后的拼接图按照其特征表现的标签，生成与该图片对应的标签组团，并按序显示其标签类别；

S3：采用卷积神经网络对拼接图提取2D特征，并采用交叉注意力机制将提取出的2D特征进行特征融合；其预测头采用前向网络FFN对拼接图的类型信息与定位框进行预测，其中定位框采用匈牙利算法进行二分图匹配，并对损失函数进行优化；在多次优化后输出唯一定位框；

S4：采用标准COCO数据集进行预训练，并通过迁移学习将其迁移至第一数据集进行训练；将第一数据集按比例划分为训练集与测试集，将训练集送入网络模型中进行迭代训练，并采用自适应梯度下降算法调节其学习率，得到最优模型；

S5：根据上述步骤S4的训练结果，将测试集中的拼接图送入训练好的最优模型中，确认拼接图目标中的类别及位置，输出最终结果。

进一步的，在上述步骤S1中，预处理过程采用Mosaic-4方法进行数据增强，并选取4张系列图片进行拼接组合，输出一张拼接图。

进一步的，第一标签与第二标签分别对应浓烟与火焰，其标注为YOLO格式标注；任一一张拼接图经过标注后都会根据其标签类别依次生成的标签组团中包括：标签类别、标记框中心横坐标与图片宽度的比值、标记框中心纵坐标与图片高度的比值、标记框宽度与图片宽度的比值以及标记框高度与图片高度的比值。

进一步的，在上述步骤S3中，采用CNN骨干网络ResNet-50模型进行特征提取输出特征图；在对图片进行提取之前，还先将ResNet-50模型加入COCO数据集上进行预训练，然后冻结其权重参数，再迁移到目标数据集上进行二次训练后再对拼接图进行2d特征提取。

进一步的，任一拼接图还添加有位置编码，位置编码采用绝对位置编码；任一拼接图的编码会根据其不同频率下的正弦余弦函数对空间位置进行计算再进行编码。

进一步的，在上述步骤S3中，特征融合过程包括：将拼接图输入到训练好的ResNet-50模型进行2D特征提取，并将提取的2D特征经过Flatten()函数扁平化后与位置编码相加，并传递给6层的Encoder-Decoder结构；其中每部分的Encoder-Decoder采用完全相同的结构。

进一步的，在上述步骤S3中，前向网络FFN采用由Relu激活函数和3层1*1卷积层组合形成的构造，用于对标准化中心坐标、高度与宽度进行预测，之后再通过softmax函数激活获取预测的类型信息。

进一步的，在上述步骤S3中，定位框采用匈牙利算法进行二分图匹配，使预测的结果集合与真实的结果集合中的元素进行一一对应，其中预测的结果包括类型信息与定位框；其优化过程为：采用标注信息与预测信息做差，使得预测的类型信息与标注的类型信息接近一致，并使定位框的参数也与真实的参数接近一致令损失函数最小化；其中，标注信息为真实的类型信息，包括物体的位置和类别；预测信息包括定位框的位置和物体类别的概率。

进一步的，在上述步骤S4中，其模型的训练方式包括：

将ResNet-50模型中提取的特征图与位置编码依次输入到编码器中进行特征融合，采用交叉注意力机制进行堆叠与正则化，并通过Feed Forward层输出预测结果集合；

在解码器中输入真实时间目标查询编码，通过交叉注意力机制的堆叠与正则化输出的真实结果集合，在模型中引入上述的预测结果集合，将预测结果集合与真实结果集合再进行基于交叉注意力机制的堆叠与正则化，在Feed Forward层输出比较结果；

将比较结果通过前向网络FNN与匈牙利算法进行优化，逐渐降低预测结果集合与真实结果集合的差值，直到输出最优结果。

进一步的，在上述步骤S5中，在训练模型最优权重的过程中，先在COCO数据集上进行预训练，然后再迁移至目标数据集上，不断调整网络模型的参数，直到模型能正确输出图像中火焰和烟雾的位置；保存训练得到的参数，完成训练后将最优权重模型保存并在测试集上测试。

本发明与现有技术相比，具有如下的优点和有益效果：

本发明以端到端的学习方式，实现一种基于交叉注意力机制的森林火灾检测算法，与现有技术相比，其优点在于：

1)本发明是基于注意力机制生成的特征更好的表示火焰及烟雾的形态，就算是被遮挡严重的情况下也能发挥其优势，极大的简化了模型的复杂度。

2)本发明利用匈牙利算法实现唯一一个预测输出框，大大减少了非极大值抑制所产生的多个输出，而且不需要过多的人工干预，真正意义上实现了端到端的目标检测框架。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明实施例提供的基于注意力机制实现端到端的森林火灾检测算法整体流程图；

图2为本发明实施例提供的基于注意力机制实现端到端的森林火灾检测算法模型流程示意图。

具体实施方式

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述事实和方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，涉及的程序或者所述的程序可以存储于一计算机所可读取存储介质中，该程序在执行时，包括如下步骤：此时引出相应的方法步骤，所述的存储介质可以是ROM/RAM、磁碟、光盘等等。

请参阅图1-图2，本实施例提供了一种基于注意力机制实现端到端的森林火灾检测算法，包括步骤：

S1：收集森林火灾事件系列图片，并对其进行预处理；先对系列图片进行数据增强，之后按照随机裁剪与随机排布的方式进行拼接生成拼接图，将多个生成的拼接图进行组合生成第一数据集，并对第一数据集引入预设高斯噪声。引入合理高斯噪声是为了增强模型的鲁棒性。

S2：将森林火灾事件系列图片的特征分为浓烟与火焰两个特征表现；根据相对应的特征表现，依次为第一数据集中拼接图赋予第一标签与第二标签进行标注；并将标注后的拼接图按照其特征表现的标签，生成与该图片对应的标签组团，并按序显示其标签类别。落实到本实施中，第一标签与第二标签分别对应浓烟与火焰，其标注为YOLO格式标注。数据集标注采用LabelImg软件对其进行YOLO格式的标注。第一数据集中图片的标签共分为两类，分别是Fire(火焰)和Smog(浓烟)。标注完成后，每一张拼接图都会产生一个与文件名相同的txt文件，txt文件中的每一行表示一个标记的类别，每一行由5列数据组成，从左至右分别表示标签类别，标记框中心横坐标与图片宽度的比值，标记框中心纵坐标与图片高度的比值，标记框宽度与图片宽度的比值，标记框高度与图片高度的比值。

S3：采用卷积神经网络对拼接图提取2D特征，并采用交叉注意力机制将提取出的2D特征进行特征融合；其预测头采用前向网络FFN对拼接图的类型信息与定位框进行预测，其中定位框采用匈牙利算法进行二分图匹配，并对损失函数进行优化；在多次优化后输出唯一定位框。本实施例特征融合部分不再采用现有单阶段目标检测较为普遍的方法：FPN+PAN(特征金字塔)结构融合图像不同尺度的特征，而采用Transformer中的交叉注意力机制来实现。

S4：采用标准COCO数据集进行预训练，并通过迁移学习将其迁移至第一数据集进行训练；将第一数据集按比例划分为训练集与测试集，本实施例采用目标数据集按照8:2的比例划分为训练集。将训练集送入网络模型中进行迭代训练，并采用自适应梯度下降算法调节其学习率，得到最优模型。

其中，在预处理阶段使用Mosaic-4增强的方法，选取4张图片进行拼接组成一张输入图像，这种操作扩充了目标图像的特征。此外，拼接后的图像在批量归一化计算时，每层相当于使用4个不同图像激活统计数据，增强算法的鲁棒性。在上述步骤S2中，由于在步骤S4中要进行迁移学习，加快训练速度，本实施例选择标准的COCO数据集进行预训练。为了和标准COCO数据集的格式保持一致，在目标数据集的处理上也要采用相同的格式，但是目前主流标准软件都不支持COCO数据集的格式；因此采用Labelimg软件先对其进行YOLO格式的标注，然后通过编写python脚本程序，将其转换为标准的COCO数据集格式。

在上述步骤S3中，采用CNN骨干网络ResNet-50模型进行特征提取输出特征图；在对图片进行提取之前，还先将ResNet-50模型加入COCO数据集上进行预训练，然后冻结其权重参数，再迁移到目标数据集上进行二次训练后再对拼接图进行2d特征提取，是为了提高模型的泛化性和鲁棒性。

落实到本实施中，任一拼接图还添加有位置编码，位置编码采用绝对位置编码；任一拼接图的编码会根据其不同频率下的正弦余弦函数对空间位置进行计算再进行编码。将拼接图输入到训练好的ResNet-50模型进行2D特征提取，并将提取的2D特征经过Flatten()函数扁平化后与位置编码相加，其中每部分的Encoder-Decoder采用完全相同的结构。

具体的交叉注意力机制算法如下：

注意力机制中有三个重要的概念：1)query:本实施例中指的是最后关注输出的目标；2)key:本实施例中要喂入的图像；3)value:计算所关注目标权重的价值。

本实施例汇中key来自于encoder的输出特征图，query来自特定的输入objectqueries；通过度量query-key的相互影响得到Attention的权重以自适应聚合关键的上下文信息。其关系表示为：

其中

是一个系数，因为QK^T得到的点积结果是一个比较大的数，根据softmax函数的特性随着自变量的增大，函数值将稳定在一个常数附近，此时梯度值变化不大，不利于模型训练，因此除以

加快训练速度。

FFN是由具有Relu激活函数和具有3层1*1卷积层构成，FFN预测框标准化中心坐标，高度和宽度，然后使用softmax函数激活获得预测类标签。

在步骤S3中，最后输出的定位框采用匈牙利算法进行二分图匹配，即对预测的结果集合和真实的结果集合的元素进行一一对应，使得匹配损失最小，其表示为：

对于那些不是背景的，获得其对应目标概率的预测，然后用框的损失函数减去预测类别的概率。表明不仅框要更可能地接近，类别也要基本一致，这样才是最好的。经过匈牙利算法之后，我们得到了ground truth和预测目标框之间一一对应的关系。

在上述步骤S4中，其模型的训练方式包括：

最后，在上述步骤S5中，在训练模型最优权重的过程中，先在COCO数据集上进行预训练，然后再迁移至目标数据集上，不断调整网络模型的参数，直到模型能正确输出图像中火焰和烟雾的位置；保存训练得到的参数，完成训练后将最优权重模型保存并在测试集上测试。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于注意力机制实现端到端的森林火灾检测算法，其特征在于，包括步骤：

2.根据权利要求1所述的一种基于注意力机制实现端到端的森林火灾检测算法，其特征在于，在上述步骤S1中，预处理过程采用Mosaic-4方法进行数据增强，并选取4张系列图片进行拼接组合，输出一张拼接图。

3.根据权利要求1所述的一种基于注意力机制实现端到端的森林火灾检测算法，其特征在于，所述第一标签与第二标签分别对应浓烟与火焰，其标注为YOLO格式标注；任一一张拼接图经过标注后都会根据其标签类别依次生成的标签组团中包括：标签类别、标记框中心横坐标与图片宽度的比值、标记框中心纵坐标与图片高度的比值、标记框宽度与图片宽度的比值以及标记框高度与图片高度的比值。

4.根据权利要求3所述的一种基于注意力机制实现端到端的森林火灾检测算法，其特征在于，在上述步骤S3中，采用CNN骨干网络ResNet-50模型进行特征提取输出特征图；在对图片进行提取之前，还先将ResNet-50模型加入COCO数据集上进行预训练，然后冻结其权重参数，再迁移到目标数据集上进行二次训练后再对拼接图进行2d特征提取。

5.根据权利要求4所述的一种基于注意力机制实现端到端的森林火灾检测算法，其特征在于，任一拼接图还添加有位置编码，位置编码采用绝对位置编码；任一拼接图的编码会根据其不同频率下的正弦余弦函数对空间位置进行计算再进行编码。

6.根据权利要求5所述的一种基于注意力机制实现端到端的森林火灾检测算法，其特征在于，在上述步骤S3中，特征融合过程包括：

将拼接图输入到训练好的ResNet-50模型进行2D特征提取，并将提取的2D特征经过Flatten()函数扁平化后与位置编码相加，并传递给6层的Encoder-Decoder结构；其中每部分的Encoder-Decoder采用完全相同的结构。

7.根据权利要求6所述的一种基于注意力机制实现端到端的森林火灾检测算法，其特征在于，在上述步骤S3中，前向网络FFN采用由Relu激活函数和3层1*1卷积层组合形成的构造，用于对标准化中心坐标、高度与宽度进行预测，之后再通过softmax函数激活获取预测的类型信息。

8.根据权利要求7所述的一种基于注意力机制实现端到端的森林火灾检测算法，其特征在于，在上述步骤S3中，定位框采用匈牙利算法进行二分图匹配，使预测的结果集合与真实的结果集合中的元素进行一一对应，其中预测的结果包括类型信息与定位框；其优化过程为：采用标注信息与预测信息做差，使得预测的类型信息与标注的类型信息接近一致，并使定位框的参数也与真实的参数接近一致令损失函数最小化；其中，所述标注信息为真实的类型信息，包括物体的位置和类别；所述预测信息包括定位框的位置和物体类别的概率。

9.根据权利要求8所述的一种基于注意力机制实现端到端的森林火灾检测算法，其特征在于，在上述步骤S4中，其模型的训练方式包括：

将ResNet-50模型中提取的特征图与位置编码依次输入到编码器中进行特征融合，采用交叉注意力机制预测后进行堆叠与正则化防止过拟合，并通过Feed Forward层输出预测结果集合；

在解码器中输入真实时间目标查询编码，输出真实结果集合，在并引入上述的预测结果集合，在Feed Forward层输出预测结果集合与真实结果集合的比较结果；

10.根据权利要求9所述的一种基于注意力机制实现端到端的森林火灾检测算法，其特征在于，在上述步骤S5中，在训练模型最优权重的过程中，先在COCO数据集上进行预训练，然后再迁移至目标数据集上，不断调整网络模型的参数，直到模型能正确输出图像中火焰和烟雾的位置；保存训练得到的参数，完成训练后将最优权重模型保存并在测试集上测试。