CN114078218A

CN114078218A - 一种自适应融合的森林烟火识别数据增广方法

Info

Publication number: CN114078218A
Application number: CN202111406318.6A
Authority: CN
Inventors: 业巧林; 吴福明; 符利勇; 宋智豪
Original assignee: Research Institute Of Forest Resource Information Techniques Chinese Academy Of Forestry; Nanjing Forestry University
Current assignee: Research Institute Of Forest Resource Information Techniques Chinese Academy Of Forestry; Nanjing Forestry University
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2022-02-22
Anticipated expiration: 2041-11-24
Also published as: CN114078218B

Abstract

本发明公开一种自适应融合的森林烟火识别数据增广方法，包括以下步骤：森林烟火数据采集，数据集构建，数据集分析和融合数据增广；本发明在加权叠加基础上考虑样本分布不均衡问题，根据类别偏重随机提取标注框，同时结合马赛克数据增广的背景复用特点，设计IOA阈值过滤，满足条件的提取标注框与马赛克样本做线性特征融合，在保证不损失马赛克样本信息基础上拓展目标信息密度，从而提升原始样本信息利用率，解决了原始样本中目标过于集中图片中心问题，实现数据量的扩充，可以有效的缓解样本分布不均衡问题，均匀样本标注框出现的位置，提升原始样本信息利用率，极大的增加了森林烟火数据样本的规模，提高了森林烟火识别的精确度。

Description

一种自适应融合的森林烟火识别数据增广方法

技术领域

本发明涉及森林防火技术领域，尤其涉及一种自适应融合的森林烟火识别数据增广方法。

背景技术

森林资源是我国重要的战略性资源，在维持社会政治稳定、经济文化建设、生态可持续发展等方面起着基础性作用，对林区烟火监测主要有基于传统的与基于深度学习的两类算法，传统方法例如，基于高斯混合模型，对森林烟火中的烟雾进行动态提取方法，基于深度学习的森林烟火识别方法又需要大量的样本支持，无论是R-CNN和Fast R-CNN等two-stage的检测方法，还是SSD、YOLOv3、YOLOv4等one-stage的检测方法，在森林烟火识别领域都不能达到很高的精度，其中的一个重要原因就是训练样本的不足。

为缓解深度学习样本量不足的问题，诞生了很多数据增广的方法，其中比较出色的有随机数据增广和马赛克随机增广等，其中随机数据增广集成4种图像变换方法，包括基于HSV的通道随机变化、随机瓷砖贴图、水平垂直随机反转和高斯噪音干扰，HSV的通道随机变化是将图片从RGB转化为HSV色域，在HSV三通道中增加随机变化数改变原有图片亮度等信息，随机瓷砖贴图使用随机生成矩形瓷砖，赋予随机颜色，贴在样本随机位置，为避免瓷砖遮挡目标，对瓷砖位置预先判断，水平垂直随机反转即随机反转原有图像方向，同时同步旋转标签信息，高斯噪音干扰方法在RGB通道上随机增加高斯噪音适度改变原有图像信息，标签信息保持不变，而马赛克随机增广源自于YOLOv4中提出模型训练技巧，有效提高模型的评价指标，其原理是随机收集4个样本，通过随机缩放组合后构建成新的样本数据集，相应的标签信息也随之变化，以上数据增广方法在对于有明显的样本分布不均的森林烟火数据集上不能有很好的增广效果，对于样本中出现的一些小目标样本甚至可能起到副作用，导致这些经典的数据增强方法不能起到对样本本身规模以及分布的自适应调整，从而不能为后续基于深度学习的森林烟火识别提供大量样本支持，降低了森林烟火识别精确度，因此，本发明提出一种自适应融合的森林烟火识别数据增广方法以解决现有技术中存在的问题。

发明内容

针对上述问题，本发明的目的在于提出一种自适应融合的森林烟火识别数据增广方法，该方法在加权叠加基础上考虑样本分布不均衡问题，根据类别偏重随机提取标注框，同时结合马赛克数据增广的背景复用特点，设计IOA阈值过滤，满足条件的提取标注框与马赛克样本做线性特征融合，在保证不损失马赛克样本信息基础上拓展目标信息密度，从而提升原始样本信息利用率。

为了实现本发明的目的，本发明通过以下技术方案实现：一种自适应融合的森林烟火识别数据增广方法，包括以下步骤：

步骤一：先根据实际采集需要设置无人机的飞行垂直高度、飞行半径和飞行速度，再利用无人机以盘旋式和悬停式结合的方式对待采样地区的地面细节信息视频进行采样，作为森林烟火数据样本；

步骤二：先通过编写脚本对森林烟火数据样本视频进行固定间隔抽帧，再通过人工标注的方式排除森林烟火数据样本视频中重复视角样本与无用样本，并保留有用样本作为数据集；

步骤三：先利用标注框中心化将森林烟火数据集中人工标注的所有标注框提取出来，并绘制在平面中，再选取标注框中尺寸分布均匀的目标作为检测对象的训练集；

步骤四：先从训练集中随机获取不重复样本，并使用mosaic方法构建出不同类别基础样本，再计算不同类别基础样本在数据集中的权重ω_i，接着根据权重ω_i在数据集中的偏向从数据集中随机提取α个标注好的目标框，然后设计IOA阈值过滤并将提取的α*ω_i个目标做IOA判断，若叠加目标与马赛克样本中的已有目标面积重叠率IOA大于10％，则过滤当前叠加目标，若符合要求则将提取的标注框与基础样本做线性特征融合加权，生成新样本，即为融合增广后的森林烟火数据。

进一步改进在于：所述步骤一中，所述无人机上装载有变焦相机、广角相机、激光测距仪和热成像相机，并配有用于数据传输的LTE网卡套件和4G网络，所述无人机上还装载有用于保存采集视频的存储器，采样视频为RGB三通道影像。

进一步改进在于：所述步骤一中，所述无人机的采样季节包括春季、夏季和冬季，所述无人机的采样背景包括城区、山区、林区和平原，所述无人机的采样天气包括晴天和阴天。

进一步改进在于：所述步骤一中，所述森林烟火数据样本包括人工烟火和自然烟火，其中人工烟火由采样人员根据天气选择地点，并确保无安全隐患后点燃预先准备的燃料。

进一步改进在于：所述步骤四中，权重ω_i的计算公式为：

其中，

为i类别数据增广后的新样本集合，X_i为原始数据集中i类别样本集合，

为i类别原始样本经过数据增广后生成的新样本，ω_i表示i类别在全体数据集中的占比权重，N为全体样本总数，N_i为i类别样本统计数，R_i(X_i)为i类别样本的数据增广方法。

进一步改进在于：所述步骤四中，α的取值与IOA定义分别为：

α＝random{1,2,3,4,5,6}

S_{mosaic_area∩object_area}

＝|max(x_{mas_1},x_{mas_2})-min(x_{obj_1},x_{obj_2})|

*|max(y_{mas_1},y_{mas_2})-min(y_{obj_1},y_{obj_})|

S_{mosaic_area}＝|x_{mas_1}-x_{mas_2}|*|y_{mas_1}-y_{mas_2}|

其中S_{mosaic_area∩object_area}为马赛克样本中原有目标框与将要粘贴目标框的重叠面积，S_{mosaic_area}为马赛克目标标注框面积，x_{mas_1},x_{mas_2},y_{mas_1},y_{mas_2}分别表示马赛克样本中目标框的左下角与右上角坐标，x_{obj_1},x_{obj_2},y_{obj_1},y_{obj_2}分别表示粘贴目标在原图中目标框的左下角与右上角坐标。

进一步改进在于：所述步骤四中，森林烟火数据的数据融合增广公式为：

其中，S函数从X_train中随机不重复采样出α_i*ω_i数类别i的标注框，X_train采样对象，

为采样对象去除标注框后生成的二进制掩膜，⊙为像素乘积操作，I为全1矩阵，mosaic为使用马赛克数据增广生成的基础样本，

生成只含有标注目标的图片，(I-S)⊙mosaic生成去除标注框坐标中像素后图片，P为像素线性叠加操作，并将标注框于基础样本叠加，

为新样本。

本发明的有益效果为：本发明在加权叠加基础上考虑样本分布不均衡问题，根据类别偏重随机提取标注框，同时结合马赛克数据增广的背景复用特点，设计IOA阈值过滤，满足条件的提取标注框与马赛克样本做线性特征融合，在保证不损失马赛克样本信息基础上拓展目标信息密度，从而提升原始样本信息利用率，解决了原始样本中目标过于集中图片中心问题，实现数据量的扩充，可以有效的缓解样本分布不均衡问题，均匀样本标注框出现的位置，提升原始样本信息利用率，极大的增加了森林烟火数据样本的规模，为后续基于深度学习的森林烟火识别提供了大量的样本支持，提高了森林烟火识别的精确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一中的方法流程图；

图2是本发明实施例二中的类别统计图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

参见图1，本实施例提供了一种自适应融合的森林烟火识别数据增广方法，包括以下步骤：

所述无人机上装载有变焦相机、广角相机、激光测距仪和热成像相机，并配有用于数据传输的LTE网卡套件和4G网络，所述无人机上还装载有用于保存采集视频的存储器，采样视频为RGB三通道影像；

所述无人机的采样季节包括春季、夏季和冬季，所述无人机的采样背景包括城区、山区、林区和平原，所述无人机的采样天气包括晴天和阴天；

所述森林烟火数据样本包括人工烟火和自然烟火，其中人工烟火由采样人员根据天气选择地点，并确保无安全隐患后点燃预先准备的燃料；

步骤四：先从训练集中随机获取不重复样本，并使用mosaic方法构建出不同类别基础样本，再计算不同类别基础样本在数据集中的权重ω_i，接着根据权重ω_i在数据集中的偏向从数据集中随机提取α个标注好的目标框，然后设计IOA阈值过滤并将提取的α*ω_i个目标做IOA判断，若叠加目标与马赛克样本中的已有目标面积重叠率IOA大于10％，则过滤当前叠加目标，若符合要求则将提取的标注框与基础样本做线性特征融合加权，生成新样本，即为融合增广后的森林烟火数据；

权重ω_i的计算公式为：

其中，

为i类别原始样本经过数据增广后生成的新样本，ω_i表示i类别在全体数据集中的占比权重，N为全体样本总数，N_i为i类别样本统计数，R_i(X_i)为i类别样本的数据增广方法；

设定IOA阈值为10％考虑到崇礼数据集中小样本居多问题，如果阈值设定过大，新的目标将会覆盖原有目标的绝大部分有效标注区域，只留下标注框的边缘信息，不利于算法学习，α的取值与IOA定义分别为：

α＝random{1,2,3,4,5,6}

S_{mosaic_area∩object_area}

＝|max(x_{mas_1},x_{mas_2})-min(x_{obj_1},x_{obj_2})|

*|max(y_{mas_1},y_{mas_2})-min(y_{obj_1},y_{obj_})|

S_{mosaic_area}＝|x_{mas_1}-x_{mas_2}|*|y_{mas_1}-y_{mas_2}|

其中S_{mosaic_area∩object_area}为马赛克样本中原有目标框与将要粘贴目标框的重叠面积，S_{mosaic_area}为马赛克目标标注框面积，x_{mas_1},x_{mas_2},y_{mas_1},y_{mas_2}分别表示马赛克样本中目标框的左下角与右上角坐标，x_{obj_1},x_{obj_2},y_{obj_1},y_{obj_2}分别表示粘贴目标在原图中目标框的左下角与右上角坐标；

森林烟火数据的数据融合增广公式为：

为新样本。

实施例二

参见图2，本实施例提供了一种自适应融合的森林烟火识别数据增广方法，包括以下步骤：

步骤一：森林烟火数据的采集

视频样本采集时间为2020年冬季至2021年夏季，采集地点位于河北省张家口市崇礼区，样本采集背景包含城区、山区、林区和平原等，预先设置无人机飞行垂直高度为300m，飞行半径在0～150m，采用盘旋式与悬停式结合方式采样，实际飞行高度有所偏差，根据地形调整，飞行速度控制在10m/s以内；

步骤二：数据采集方式

本实施例使用4台大疆Matrice 300RTK对崇礼林区进行巡护监测，预设飞行路线自动巡航，无人机最大数据传输半径为15公里，最大飞行高度7000米，最大飞行速度23m/s，无人机装载禅思H20-四传感器，分别为：2000万像素变焦相机，1200万像素广角相机，1200米激光测距仪和640x512热成像相机，另外配有LTE网卡套件与4G网络，用于飞行过程中数据传输，由于可见光传感器能获取清晰的地面细节信息，因此采用基于RGB的林业烟火检测；

收集的森林烟火数据分为人工烟火与自然烟火，人工烟火由采样人员根据天气选择地点，确保无安全隐患后点燃预先准备的燃料，为尽可能真实模拟自然烟火，燃料的种类限制为：木材、灌木、枯草、枯叶等，采样时无人机尽可能盘旋避免采集固定视角数据，提高数据的可利用度，自然烟火类型由气候等因素引发的火灾，火情的场地为枯草，无人机协助救火时记录，收集到的数据为视频类型，编写脚本对视频进行固定间隔抽帧，为避免使用重复视角样本与无用样本，所以采用人工选取样本标注方式，样本选取原则为至少包含烟火目标中的一项，标注类别分为火与烟雾；

步骤三：数据集分析

对数据集统计分析，类别统计(如图2)表明数据集中存在类别显著分布不均衡问题(类别火、烟)，标注框中心化将所有标注框提取并绘制在2000*2000尺寸的平面中，红色框表示fire类别，绿色框表示smoke类别，发现火焰类别标注框尺寸偏小且集中于中心区域，绿色标注框尺寸分布相对均匀，表明无人机视角中火焰通常以小目标形式出现，烟雾由于扩散特征，目标更为明细，因此可以将为烟雾作为森林烟火前期的主要检测对象，目标大小归一化将所有标注框尺寸绘制于同一平面，红色表示密度集中区域，蓝色表示样本分布稀疏，绝大部分目标宽高在原图片中相对宽高占比为0.8％～1.5％，无人机分辨率为1920*1080，目标尺寸宽主要分布在15～29像素，高分布于9～16像素，在无人机视角中烟火主要是以小目标形式出现，这一结论为算法检测提供针对性方向，目标位置归一化统计的是检测目标出现在图片中的位置，同样红色高密度区域，蓝色表示稀疏，可视化结果表明样本主要分布于图片中心区域，使用算法检测时需要考虑目标位置的边缘分布问题；

步骤四：消融试验

硬件环境：CPU为Intel i710700K16线程，显卡为NVIDIA RTX2080Ti，运行内存64G，软件环境为：操作系统Ubuntu16.04，深度学习算法均由PyTorch构建，数据标注使用开源Labelimg工具；

为检验Self-adaption Mix Augmentation数据增广效果，设计3组数据增广消融实验，选用SSD、YOLOv3和YOLOv4三种主流one-stage目标检测算法横向比较，每组实验中只改变数据处理方法，其他条件不变，数据处理方法为：随机数据增广(Random Aug)、马赛克随随机增广(Mosaic)和本文增广(Self-adaption Mix Augmentation)，其中一组为不做数据增广(Original)的空白对照组，实验一共12次，如下表1所示：

表1实验设计表

保证其他参数不变的情况下，仅改变数据的增广方式，给出各类别AP指标与所有类别平均mAP，模型迭代训练为100轮，统一使用SGD优化器，初始学习率为0.001，批处理操作大小为8，原始样本设置随机种子后按照20％划分出测试集(test)，所有模型均在test上评估模型；

步骤五：评估参数及结果分析

测试数据集从原始数据集中按照20％比例划分，使用所有类别平均查准率mAP(mean Average Precision)作为模型准确度指标，该指标由Pascal VOC Challenge提出，用于衡量目标检测精度问题：

其中，AP_i为类别i的平均查准率，C为类别数，计算方式为召回率(Recall)—精确度(Precision)坐标曲线面积：

其中，Recall-Precision为坐标曲线，Recall与Precision定义如下：

其中，T_p为预测结果为正确类别的数目，F_p为模型预测为正样本实际标签错误的样本数量，F_n为模型预测为负样本实际预测错误的样本数；

消融实验定量分析结果如下表2、表3、表4所示，定量研究结果显示，不同模型对数据增广方法敏感度不同，其中SSD在4种数据上mAP指标均表现较差，进一步分析模型结构推测，SSD预设输入样本尺寸为300*300，感受野较小使得该算法无法充分学习样本中小目标信息，结合原始样本统计分析结果，样本中小目标占比主要集中于fire类别，故表2中fire类别检测指标相对smoke偏低，虽然SSD整体表现较差，但在消融实验中本文方法呈现一定优势，对比空白对照组，提升为12.16％，YOLOv3与YOLOv4由于网络结构中使用特征金字塔，因此能充分学习小尺度目标信息，组内横向对比发现，本发明方法在两模型中均起到提升作用，除去空白对照组，v3中相对其他方法提升分别为16.33％和1.06％，v4中分贝提升为18.24％和1.79％，实验结果均显示Self-adaption Mix Augmentation增广具有一定效果；

表2 SSD消融实验结果表

表3 YOLOv3消融实验结果表

表4 YOLOv4消融实验结果表

通过上表2、3、4可得，本发明的方法在SSD、YOLOv3、YOLOv4中平均查准率为48.16％、82.02％、67.79％，相比于传统随机增广与Mosaic增广分别提升为11.95％，4.86％、16.33％，1.06％、18.24％，1.79％，相比已有方法相比表现出稳定优势，自适应调整样本类别分布与跨样本信息融合策略有效扩增样本，提升数据集整体质量，在森林森林烟火数据集中具有较高应用价值。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种自适应融合的森林烟火识别数据增广方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种自适应融合的森林烟火识别数据增广方法，其特征在于：所述步骤一中，所述无人机上装载有变焦相机、广角相机、激光测距仪和热成像相机，并配有用于数据传输的LTE网卡套件和4G网络，所述无人机上还装载有用于保存采集视频的存储器，采样视频为RGB三通道影像。

3.根据权利要求1所述的一种自适应融合的森林烟火识别数据增广方法，其特征在于：所述步骤一中，所述无人机的采样季节包括春季、夏季和冬季，所述无人机的采样背景包括城区、山区、林区和平原，所述无人机的采样天气包括晴天和阴天。

4.根据权利要求1所述的一种自适应融合的森林烟火识别数据增广方法，其特征在于：所述步骤一中，所述森林烟火数据样本包括人工烟火和自然烟火，其中人工烟火由采样人员根据天气选择地点，并确保无安全隐患后点燃预先准备的燃料。

5.根据权利要求1所述的一种自适应融合的森林烟火识别数据增广方法，其特征在于：所述步骤四中，权重ω_i的计算公式为：

其中，

为i类别原始样本经过数据增广后生成的新样本，ω_i表示i类别在全体数据集中的占比权重，N为全体样本总数，N_i为i类别样本统计数，R_iX_i为i类别样本的数据增广方法。

6.根据权利要求1所述的一种自适应融合的森林烟火识别数据增广方法，其特征在于：所述步骤四中，α的取值与IOA定义分别为：

α＝random{1，2，3，4，5，6}

S_{mosaic_area∩object_area}

＝|max(x_{mas_1}，x_{mas_2})-min(x_{obj_1}，x_{obj_2})|*|max(y_{mas_1}，y_{mas_2})-min(y_{obj_1}，y_{obj_})|

S_{mosaic_area}＝|x_{mas_1}-x_{mas_2}|*|y_{mas_1}-y_{mas_2}|

其中S_{mosaic_area∩object_area}为马赛克样本中原有目标框与将要粘贴目标框的重叠面积，S_{mosaic_area}为马赛克目标标注框面积，x_{mas_1}，x_{mas_2}，y_{mas_1}，y_{mas_2}分别表示马赛克样本中目标框的左下角与右上角坐标，x_{obj_1}，x_{obj_2}，y_{obj_1}，y_{obj_2}分别表示粘贴目标在原图中目标框的左下角与右上角坐标。

7.根据权利要求1所述的一种自适应融合的森林烟火识别数据增广方法，其特征在于：所述步骤四中，森林烟火数据的数据融合增广公式为：

为新样本。