CN115619013A

CN115619013A - 多传感器信息融合火灾预测算法、系统、电子设备及介质

Info

Publication number: CN115619013A
Application number: CN202211226539.XA
Authority: CN
Inventors: 李琪林; 程志炯; 蔡君懿; 叶润
Original assignee: Marketing Service Center Of State Grid Sichuan Electric Power Co
Current assignee: Marketing Service Center Of State Grid Sichuan Electric Power Co
Priority date: 2022-10-09
Filing date: 2022-10-09
Publication date: 2023-01-17

Abstract

本发明涉及多类型异质传感器信息融合技术领域，公开了一种多传感器信息融合火灾预测算法、系统、电子设备及介质，包括：S1、获取数据库中的样本数据；S2、对所述数据集中的样本数据进行预处理；S3、将预处理后的所述数据集中的样本数据按照比例划分为训练集、测试集和验证集，并将所述训练集中的样本数据利用机器学习算法提取数据特征，得到每个样本数据各属性值的重要度；S4、建立预测模型，将所述训练集输入至所述预测模型中进行训练；S5、将所述测试集中的样本数据送入到所述预测模型中对预测模型进行修正。本发明通过找出各属性与火灾发生之间的内在联系，减少传感器抢占信道资源的情况发生，降低功耗的同时并保证准确地做出火灾预警。

Description

多传感器信息融合火灾预测算法、系统、电子设备及介质

技术领域

本发明涉及多类型异质传感器信息融合技术领域，具体涉及一种多传感器信息融合火灾预测算法、系统、电子设备及介质。

背景技术

近年来由于受到全球气候的急剧变化，全世界各地森林火灾发生的频度和强度逐年加剧，因此及时有效的预测森林火灾的发生具有重大意义。无线传感器网络虽能够解决大面积覆盖的问题，但由于其网络资源有限，大部分传感器节点都采用干电池或纽扣电池供电，能量供给不足。其次，由于传感器节点的设计初衷是为了感知信息，导致其运算能力，存储空间以及无线带宽资源都极其有限。频繁的收发数据会严重浪费有限的电池能量和通信带宽，尤其在大规模的无线传感器网络中，传感器数据会出现大量冗余，使得各节点对信道的争夺加剧，数据丢包率增加，导致网络的传输效率，网络寿命以及数据传输的准确性大大下降，同时，带来网络延时导致的数据不同步性，大大削弱预测的准确性。尽管目前有成熟数据融合方法-Dempster-Shafer证据推理方法。该方法虽然在专家系统，信息融合方面得到广泛的应用，但却受到自身的局限性：1)要求证据必须是独立的，而这在真实环境下难以满足。2)证据合成规则没有非常坚固的理论支持，其合理性和有效性还存在较大的争议。3)计算上存在着潜在的指数爆炸问题，这对小型嵌入式设备来说十分不友好。

发明内容

本发明提供一种多传感器信息融合火灾预测算法、系统、电子设备及介质，提出一种新颖的信息融合思路，利用机器学习中的方法可以快速对引发火灾的环境因素做出正确判别，并利用坚实的数学推理思想得到更加准确，更符合需求的信息，其次，在真实的场景下，传感器的合理选择也是至关重要的，通过决策树的方法我们可以选择出其中最重要的环境参数，作为传感器选择的依据。

本发明通过下述技术方案实现：

一种多传感器信息融合火灾预测算法，包括：

S1、获取数据库中的样本数据，并采集所述样本数据中的温度属性、湿度属性、风速属性和雨量属性对应的数据集；

S2、对所述数据集中的样本数据进行预处理；

S3、将预处理后的所述数据集中的样本数据按照比例划分为训练集、测试集和验证集，并将所述训练集中的样本数据利用机器学习算法提取数据特征，得到每个样本数据各属性值的重要度，一个样本数据的属性值包括一个温度值、雨量值、风速值和湿度值；

S4、建立预测模型，将所述训练集输入至所述预测模型中进行训练，在训练时，通过概率统计学以及决策树算法处理，计算各样本数据的属性值与火灾发生的相关性并找出与火灾发生的相关性最大的属性值所对应的样本数据，然后根据回归算法计算预测结果；

S5、将所述测试集中的样本数据送入到所述预测模型中对预测模型进行修正，得到最终的预测模型参数，最后通过验证集的数据验证所得到的预测模型的可信性。

作为优化，所述样本数据来源于葡萄牙东北部的Montesinho国家公园的数据库。

作为优化，S2中，对所述样本数据进行预处理具体为：采用均值插补法对缺失的属性值进行处理，所述缺失的属性值称为缺失值，根据缺失值的属性分为定距型和非定距型，对于缺失值为定距型的，以该总的属性值的平均值来插补缺失的值；对于缺失值是非定距型的，根据统计学中的众数原理，以该属性值的众数来补齐缺失的值。

作为优化，S3的具体步骤为：

将所述训练集中的数据采用数理统计的思想进行计算，最终得到的数据即为各属性的重要度。

作为优化，S4的具体步骤为：

S4.1、采用斯皮尔曼相关系数计算各样本数据的属性值与火灾发生的相关性，并初步筛选具有正相关属性的样本数据：

其中，ρ表示X_a、Y变量之间的皮尔逊相关系数，X_a、Y是两个n维随机变量矩阵，在本专利中，X_a、Y分别表示属性值和火灾发生状态，a为属性类别，Cov(X_a，Y)表示X_a、Y变量之间的协方差，

表示X_a、Y之间的标准差，X_ai、Y_i分别表示X_a、Y随机变量中的其中一个，E(X_a)、E(Y)分别表示随机变量X_a、Y的均值，n表示随机变量的维数，

表示对变量求和；

S4.2、采用CART决策树找出在样本数据集合中，使得划分后基尼指数最小的属性为最优划分属性；

S4.3、将最优划分属性对应的属性值的权重结合各属性值的重要度作多元线性回归处理，得到第一预测结果。

作为优化，样本数据集合D在属性a下的基尼指数为：

其中，a表示样本数据的某个属性，假定属性a有V个可能的取值

样本数据集合的属性a上取值为

的样本记为D^V；D＝{(Z₁，Y₁)，(Z₂，Y₂)，...，(Z_m，Y_m)}，表示样本集合，m为样本数据Z的数量，p_k表示样本数据集合D中，第k类样本属性所占的比例。

作为优化，还包括S4.3、将所述第一预测结果结合月份的重要度进行判断，得到最终的预测结果。

本发明还公开了一种多传感器信息融合火灾预测系统，包括：

采集模块，用于获取数据库中的样本数据，并采集所述样本数据中的温度属性、湿度属性、风速属性和雨量属性对应的数据集；

数据处理模块，用于对所述数据集中的样本数据进行预处理；

重要度生成模块，用于将预处理后的所述数据集中的样本数据按照比例划分为训练集、测试集和验证集，并将所述训练集中的样本数据利用机器学习算法提取数据特征，得到每个样本数据各属性值的重要度，一个样本数据的属性值包括一个温度值、雨量值、风速值和湿度值；

训练模块，用于建立预测模型，将所述训练集输入至所述预测模型中进行训练，在训练时，通过概率统计学以及决策树算法处理，计算各样本数据的属性值的相关性并找出最优属性所对应的样本数据，然后根据回归算法计算预测结果；

修正验证模块，用于将所述测试集中的样本数据送入到所述预测模型中对预测模型进行修正，得到最终的预测模型参数，最后通过验证集的数据验证所得到的预测模型的可信性。

本发明还公开了一种电子设备，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述的一种多传感器信息融合火灾预测方法。

本发明还公开了一种存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述的一种多传感器信息融合火灾预测方法。

本发明与现有技术相比，具有如下的优点和有益效果：

本发明采用一种多传感器信息融合火灾预测算法对多类型异质传感器采集到的数据进行重要性和相关性等方面的分析，采用多传感器信息融合技术可以有效地采集各种所需的样本数据，将不同数据进行整合，极大程度的对数据加以利用，保证预测的准确性，通过找出各属性与火灾发生之间的内在联系，提出高效快捷的信息融合火灾预测算法，大大减少传感器抢占信道资源的情况发生，降低功耗的同时并保证及时，准确地做出火灾预警。

附图说明

为了更清楚地说明本发明示例性实施方式的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。在附图中：

图1为多传感器信息融合结构框图；

图2为样本属性间相关性热力图；

图3为CART决策树算法流程图；

图4为CART决策树得出的属性重要性树状图；

图5为“月份”属性对火灾发生影响柱状图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1

如图1-5所示，一种多传感器信息融合火灾预测算法，包括：

S1、获取数据库中的样本数据，并采集所述样本数据中的温度属性、湿度属性、风速属性和雨量属性对应的数据集。选择森林火灾多发区域，合理的布设温度、雨量、风速和湿度传感器，采集该区域的样本数据，作为火灾预测的理论依据。

本实施例中，所述样本数据来源于葡萄牙东北部的Montesinho国家公园的数据库。每条样本数据包含13个属性：Monteinho国家公园的空间坐标、信息采集的月份和每周的其中一天、FWI系统的指数变量FFWC(细小可燃物适度码)、DMC(粗腐殖质湿度码)、DC(干旱码)、ISI(初始蔓延指数)、四种可直接测量的气温、相对湿度、风速和降水量的样本数据、森林火灾燃烧的面积。需要说明的是，在本发明中，只使用了可直接测量的气象条件因素以及月份信息，其他条件都是这四项指标更加深化的度量，在最终的预测中没有将其纳入算法的体系之中。

S2、对所述数据集中的样本数据进行预处理；

本发明采用的数据集在预处理阶段最主要的问题是：缺失值的处理。通过对样本数据进行清洗发现，样本数据中的数据值确实都是完全随机缺失的，数据的缺失不依赖于任何不完全变量或完全变量，而对待这种缺失值，采用均值插补法进行处理：根据样本数据的属性分为定距型和非定距型。对于缺失值是定距型的，以该属性存在值的平均值来插补缺失的值；对于缺失值是非定距型的，根据统计学中的众数原理，用该属性的众数(即出现频率最高的值)来补齐缺失的值。

本实施例中，S3的具体步骤为：

将所述训练集中的数据采用数理统计进行计算，最终得到的数据即为各属性的重要度。

具体的，本发明中将样本数据中温度，雨量，风速，湿度四个属性值对火灾发生与否的隶属度统计出来，将统计出的样本数据计算占总样本的比例，这一比例值即为各属性的重要度。比如样本中有600条火灾数据，温度属性对火灾的发生与否的比例是2：1(发生占2，未发生占1)，那么温度对火灾发生所占的比例就是400/600＝66.7％，利用上述方法对各个属性分别求取即可得到重要度，例如，温度属性的重要度即为66.7％。

首先，对处理后的样本数据进行相关度的计算，找出其各个属性之间的相关性。在相关度计算中，采用协方差矩阵进行求解，协方差的大小表示的是两个变量的总体的误差，若协方差的值为正值，则说明两者之间是正相关的；若为负值，则说明两者是负相关的；若为0，则两者彼此独立。即协方差的绝对值越大，两者之间彼此的影响越大，反之，越小。具体的计算方法如下：

总体均值：

总体协方差：

其中，X,Y是两个n维随机变量矩阵，X_i，Y_i表示X，Y随机变量中的某一个，Cov(X，Y)表示二者的协方差，E(X)，E(Y)表示随机变量X,Y的均值，n表示随机变量的维数，δ_X，δ_Y分别是X，Y的标准差，

表示对变量求和。

然而，在具体的操作中，本发明选用的是斯皮尔曼相关系数，用来衡量两个变量的依赖性的非参数指标。根据数据分析可以知道，协方差矩阵只能简单的得出因果之间的相关性，且因果之间必须具有严格的量纲关系。由于本发明是根据火灾发生的气象条件来预测火灾发生与否，从物理角度来说，二者之间并无量纲关系。而因为协方差的大小和两个变量的量纲有关，因此，直接使用协方差矩阵来计算是不准确的。所以本发明引入斯皮尔曼相关系数剔除了量纲的影响，即将X和Y标准化后的协方差。而斯皮尔曼相关系数通常被认为是排列后的变量之间的皮尔逊线性相关系数。

S4.1、采用斯皮尔曼相关系数计算各样本数据的属性值与火灾发生的相关性如下：

表示对变量求和；

计算得到的相关系数矩阵以及相关系数的热力图如图2所示，并初步筛选具有正相关属性的样本数据。

通过相关性ρ，可以得出各属性与标签(火灾发生那个与否)的正负相关程度，作为初次筛选属性，本发明需要了解哪些正相关属性保留、哪些负属性需要舍弃；为后面在使用CART决策树时避免采用后剪枝方法，节省计算的复杂度。

S4.2、采用CART决策树找出在样本数据集合中，使得划分后基尼指数最小的属性为最优划分属性。基尼指数Gini(D)反映了从样本数据集合D中随机抽取两个样本，其类别(这里的类别指的是火灾发生与否，两种互斥的状态)标记不一致的概率，因此基尼指数Gini(D)越小，则样本数据集合的纯度越高。

纯度意味着稳定性，这里指每个属性的稳定性。例如，集合1：有6人打球；集合2：有3人打球，3人不打球；那么集合1的基尼指数Gini(D)＝1-1＝0,集合2的基尼指数为Gini(D)＝1-(0.5*0.5+0.5*0.5)＝0.5。可以看出集合1的基尼指数小于集合2的基尼指数，可以得出集合1的稳定程度高于集合2的。

Gini(D,a)反映了属性a在候选属性集A中，选择哪个使得划分后基尼指数最小的属性作为最优属性，即a^*＝argminGini(D,a)。

在多传感器数据相互交叠的情况下，利用决策树的方法选择其中最重要的几个，不仅可以节约空间，减少不必要的信息冗余，而且还大大降低功耗。决策树的划分依据是基于信息增益，在这里我们采用CART决策树是利用基尼指数来选择最优属性。在候选属性集合中，选择那个使得划分后基尼指数最小的属性为最优划分属性。具体的计算过程如下：

1)计算信息熵和信息增益

其中，p_k表示样本数据集合D中，第k类属性对应的发生火灾的样本占总的发生火灾的样本的概率(比如样本中有600条火灾数据，温度属性对火灾的发生与否的比例是2：1，那么温度对火灾发生所占的比例就是400/600＝66.7％，这里的样本类别就是每个属性与是否发生火灾)，Ent(D)表示计算信息熵，y为属性类别的数量，本发明中，y为4。

Gain(D，a)表示信息增益；V表示某一属性的可能的取值数量，D^V表示某一属性发生火灾的样本数量；D为某一属性的总的样本数量；Ent(D^V)表示样本D^V的计算信息熵；

2)计算增益率

其中：

3)计算基尼指数

样本数据集合D的纯度用基尼值来度量：

样本数据集合D在属性a条件下的基尼指数：

即发生火灾时属性a有V个取值，样本数据集合的属性a上取值为

的样本记为D^V；D＝{(Z₁，Y₁)，(Z₂，Y₂)，...，(Z_m，Y_m)}，表示样本数据集合，m为发生火灾的样本数据Z的数量，p_k表示样本数据集合D中，第k类样本数据所占的比例，k∈y。

基尼值和基尼指数越小(随机抽取的样本数据是同一类别的概率越大)，样本集合的纯度越高。由于本发明是根据火灾发生时的气象条件来预测活在发生的可能性，上述计算完基尼指数便可构建“CART回归树”，而“CART回归树”又是许多二叉树为逻辑构建的，相当于特征空间切分为较小的碎块，然后为每一个碎块内的样本配置一个统一的因变量取值，最终做出误差较小的预测。得到的预测值有归一化将其权重因子限制在[0,1]范围内，提高预测精度。

由公式

可计算出每个属性a划分后的样本数据集合D的基尼指数，最优划分属性就是对所有属性a的基尼指数取最小值，也就是与火灾发生的相关性最大的属性，即最优划分属性ai＝argmin(Gini(D，a))，aⁱ∈a。

本发明将信息融合和火灾预测运用了数理统计和多线性回归的方式。先确定各个环境传感器的权重(这里的权重是由上述CART决策树算法得到的，决策树具有分类和回归两种功能，不但会给出火灾发生与否的分类，还会给出相应环境状态下发生的概率。根据回归得出的结果，便可以得到每个环境传感器的权值)，本发明中，通过决策树算法得到温度，湿度，风速和雨量传感器的权重分别是w1、w2、w3、w4，将火灾发生的可能性分为两种：火灾发生H1，无火灾发生H2。根据当前传感器的工作状态，确定每个传感器对于判别结果的重要度(例如：温度传感器对有、无火灾发生的重要度分别为a₁₁、a₁₂；湿度传感器对有、无火灾发生的重要度为a₂₁、a₂₂；风速传感器对有、无火灾发生的重要度为a₃₁、a₃₂；雨量传感器对有、无火灾发生的重要度为a₄₁、a₄₂)作多元线性回归，即可确定第一预测结果。多元线性回归的方法如下：

在以上分析中，本发明并没有将“月份”这一因素考虑在内，但在数据分析处理中可以发现，月份的变化对火灾的发生有很大的警示作用，比如夏秋环境干燥，温度较高是非常容易引起森林火灾的发生，因此在实际推理预测中，本发明将月份这一要素考虑在内，保证预测的准确性。

本实施例中，还包括S4.4、将所述第一预测结果结合月份的重要度进行判断，得到最终的预测结果。月份的重要性如图4所示。

具体的，为了得到准确的预测结果有必要将其考虑在内，根据实际情况按CART决策树算法统计结果赋予一定的权值w5，按数理统计思想得出月份对有、无火灾发生的重要度为a₅₁、a₅₂，将与上述的第一预测结果做多元线性回归。

一种多传感器信息融合火灾预测系统，包括：

一种电子设备，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述的一种多传感器信息融合火灾预测方法。

一种存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述的一种多传感器信息融合火灾预测方法。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多传感器信息融合火灾预测算法，其特征在于，包括：

S2、对所述数据集中的样本数据进行预处理；

2.根据权利要求1所述的一种多传感器信息融合火灾预测算法，其特征在于，所述样本数据来源于葡萄牙东北部的Montesinho国家公园的数据库。

3.根据权利要求1所述的一种多传感器信息融合火灾预测算法，其特征在于，S2中，对所述样本数据进行预处理具体为：采用均值插补法对缺失的属性值进行处理，所述缺失的属性值称为缺失值，根据缺失值的属性分为定距型和非定距型，对于缺失值为定距型的，以该总的属性值的平均值来插补缺失的值；对于缺失值是非定距型的，根据统计学中的众数原理，以该属性值的众数来补齐缺失的值。

4.根据权利要求1所述的一种多传感器信息融合火灾预测算法，其特征在于，S3的具体步骤为：

5.根据权利要求1所述的一种多传感器信息融合火灾预测算法，其特征在于，S4的具体步骤为：

δ_Y表示X_a、Y之间的标准差，X_ai、Y_i分别表示X_a、Y随机变量中的其中一个，E(X_a)、E(Y)分别表示随机变量X_a、Y的均值，n表示随机变量的维数，

表示对变量求和；

S4.2、采用CART决策树找出在初步筛选后的样本数据集合中，使得划分后基尼指数最小的属性为最优划分属性；

6.根据权利要求5所述的一种多传感器信息融合火灾预测算法，其特征在于，样本数据集合D在属性a下的基尼指数为：

样本数据集合的属性a上取值为

7.根据权利要求5所述的一种多传感器信息融合火灾预测算法，其特征在于，还包括S4.3、将所述第一预测结果结合月份的重要度进行判断，得到最终的预测结果。

8.一种多传感器信息融合火灾预测系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一所述的一种多传感器信息融合火灾预测方法。

10.一种存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的一种多传感器信息融合火灾预测方法。