CN111414819B

CN111414819B - 基于非平衡数据分类框架的火点智能检测和分类方法

Info

Publication number: CN111414819B
Application number: CN202010162640.8A
Authority: CN
Inventors: 黄宇飞; 徐嘉; 李智慧; 高冀; 白绍竣; 任放; 姜笛; 赵阳; 高洪涛; 张新伟; 刘希刚; 曹海翊
Original assignee: Beijing Institute of Spacecraft System Engineering
Current assignee: Beijing Institute of Spacecraft System Engineering
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2023-06-06
Anticipated expiration: 2040-03-10
Also published as: CN111414819A

Abstract

本发明基于非平衡数据分类框架的火点智能检测和分类方法，具体包括以下步骤：1)选用LandSat 8卫星火点数据进行检测，提取火点图像波段数据，计算特征向量；2)感知机组合学习，主要训练正例优先感知器模型，完成反例排除，以此解决数据不平衡问题；3)提取特征向量，采用火点图像波段数据进行线性判别分析变换，提取特征向量；4)训练精确分类模型，训练加权支持向量机模型，对步骤4中的特征向量进行精确分类；5)对火点初步检测，用训练得到的模型判别待检测样本；6)火点的最终检测，经过步骤3、步骤4的分类之后，得到最终检测到的火点。

Description

基于非平衡数据分类框架的火点智能检测和分类方法

技术领域

本发明涉及一种火点检测方法，通过非平衡数据分类框架进行火点智能检测和分类，具体是一种由感知机组合以及加权支持向量机相结合的一种机器学习分类算法。

背景技术

传统检测火点方法分两大类，一类是阈值判断方法，另一类是基于规则集的综合判断方法，规则集由阈值判断与相对数值比较构成。基于阈值或者规则集的方法虽然速度较快，效果也不错，但规则较少时难以准确检测，规则多时，阈值也会增多，选取困难，还可能受不同图像的影响。用于检测的LandSat 8遥感图像大小为7831×7701，一张图像至多几十个火点(正例)，却有6千万非火点(反例)，这是一种样本数极不平衡的分类问题。

类别数据不均衡是分类任务中一个典型存在的问题，简而言之，就是数据集中，每个类别下的样本数目差别很大。一般来说，如果类别不平衡的比例超过4：1，难以得到准确的分类器。目前解决不平衡分类问题的策略可以分为两大类，一类是从训练集入手，通过改变训练集样本分布，降低不平衡程度；另一类是从学习算法入手，根据算法在解决不平衡问题时的缺陷，适当地修改算法使之适应不平衡分类问题。平衡训练集的方法主要有训练集重采样方法和训练集划分方法；学习算法层面的策略包括分类器集成、代价敏感学习和特征选择方法等。分类器集成方法是指对正例和反例分别进行重采样，重采样多次后采用多数投票的方法进行集成学习；代价敏感学习赋予各个类别不同的错分代价，能够有效地提高稀有类的识别率，但在多数情况下真实的错分代价很难被准确地估计并且一些分类器不能使用代价敏感学习；特征选择方法主要集中于自然语言处理领域，该方法在提高正例样本准确率的同时确保了总的准确率不下降。

发明内容

本发明解决的技术问题是：针对传统基于规则集的火点判断方法阈值较多、选取困难的问题，本发明实现一种对极度非平衡数据分类框架的火点检测分类方法；本发明的方法对极度非平衡数据，特别是火点数据的检测，准确率较高，检测综合指标良好。

本发明的技术方案是：基于非平衡数据分类框架的火点智能检测和分类方法，其特征在于步骤如下：

步骤一：主分量分析PCA变换提取特征向量，提取火点图像第6-7、10-11波段数据，对数据进行PCA变换，计算特征向量；

步骤二：感知机组合学习，训练正例优先感知器模型，完成反例排除，以此解决数据不平衡问题；

步骤三：线性判别分析LDA变换提取特征向量，提取火点图像2-7、9-11波段数据进行LDA变换，提取特征向量；

步骤四：训练精确分类模型，训练加权支持向量机SVM模型，对步骤4中的特征向量进行精确分类；

步骤五：对火点初步检测，按照步骤1提取特征，然后用步骤2训练得到的模型判别待检测样本；

步骤六：火点的最终检测，对筛选好的样本作为初始检测结果输入到精确检测步骤，即步骤3和步骤4；经过步骤3、步骤4的分类之后，得到最终检测到的火点。

步骤一的具体过程为：

11)提取火点图像第6-7、10-11波段数据，即样本数为n，维数为4的矩阵

每一行代表一个样本，每一列代表每个样本对应第6、7、10、11波段的数据值；

12)将A中的每一列中心化得到矩阵B，并求出协方差矩阵

13)求出协方差矩阵C的特征值及对应的特征向量；

14)将特征向量按对应特征值从大到小，从左至右排列成矩阵P_c,H＝P_cB为经过PCA变换后得到的新的特征向量，即初步训练样本集H。

所述步骤二的具体过程为：

21)令感知机模型数i＝0；

22)按照正例优先感知机方法对步骤一中得到的训练样本集H，H中的每一行代表一个样本的特征向量，将其输入到感知机模型{w_p,b_p}中进行训练；令感知机的迭代次数t＝0，令初始w_pt是全零向量，b_pt＝0，具体步骤如下：

(221)令t＝t+1，进入步骤(222)；如果超过迭代次数阈值，转步骤(225)；

(222)用{w_pt，b_pt}根据式(1a)与(1b)预测所有样本的类别；计算正例正确率CP_t，和反例正确率CN_t；

f(x_i)＝w_p·x_i+b_p (1a)

其中x_i是特征向量，y_i是类标记，w_p与b_p是分类超平面参数，f(x_i)为感知机的分类判别函数；

(223)找到所有预测错误的正例，取出第一个作为{x_i,y_i}根据式(2a)与(2b)修正{w_pt，b_pt}，然后转步骤(221)，如果没有预测错误的正例，转下一步；

w_p ^(t+1)＝w_p ^(t)+ηy_ix_i (2a)

b_p ^(t+1)＝b_p ^(t)+y_i (2b)

其中t为迭代次数，η是学习率；

(224)找到所有预测错误的反例，取出第一个作为{x_i,y_i}根据式(2)修正{w_pt，b_pt}，然后转步骤(221)；如果没有反例则转下一步；

(225)选择正例正确率CP_t＝1且反例正确率CN_t最大的{w_pt，b_pt}作为感知机模型参数输出，并返回；

23)根据模型{w_p,b_p}对H分类；

24)判断所有预测为反例的样本预测值是否全部正确，如果有不正确的，算法结束；全部正确则转步骤25)；

25)判断预测为反例的样本数是否小于等于阈值T_n(T_n＝300)，是则算法结束；若大于阈值转下一步；

26)i＝i+1；保存模型P_i＝{w_p,b_p}；

27)从S_t中移除所有预测正确的反例样本，转步骤22)，运行结束后，得到若干个感知机参数{P_i}，组合构成了一个非线性分类器，并得到初步的检测结果。

所述步骤三的具体过程为：

31)将经过步骤二反例排除后的反例点以及原正例点的数据提取第2-7、9-11波段数据，得到数据集D＝{(x₁,y₁),(x₂,y₂),…,(x_m,y_m)}，其中x_i为9维向量，y_i∈{0,1}；

32)计算类内散度矩阵

其中μ₀、μ₁分别为两个类别的中心点，类间散度矩阵S_b＝(μ₀-μ₁)(μ₀-μ₁)^T；

33)计算矩阵

34)对样本集中的每一个样本特征x_i转化为新的样本z_i＝W^Tx_i，即为新的特征向量。

所述步骤四的具体过程为：

加权SVM的目标函数如下式所示：

s.t.y_i(w_s ^Tφ(z_i)+b_s)≥1-ξ_i＝1,…,l (3)

z_i是特征向量，y_i是类标记，w_s、b_s是SVM分类超平面参数，φ是核函数，ζ_i是松弛变量，l是样本数，C⁺与C^-分别是正例与反例的惩罚系数，利用步骤三中提取的特征向量，采用加权SVM方法，输入步骤一中通过LDA变换得到的特征向量z_i，训练得到精确分类火点的模型。

所述步骤五的具体过程为：

对检测数据进行PCA处理得到新的特征向量，输入到步骤一中训练的得到的模型中，获取初步检测结果。

所述步骤六的具体过程为：

将初步检测结果标记为1的样本，按照步骤三做LDA变换，得到新的特征向量，输入到步骤四训练得到的加权SVM模型中，得到最终火点。

本发明的有益效果为：

当下对遥感图像进行火点检测通常采用MODIS遥感图像，本发明选择LandSat8图像拥有更高的空间分辨率，提高定位精确度；传统的对遥感图像进行火点检测的方法主要基于阈值判断，本发明提出通过改进的机器学习的方式对火点进行检测，提高了火点检测的准确度以及普适性；现有技术对非平衡数据的分类主要通过两种方式：一是通过复制的方式循环扩展较少的样本，以达到数据的平衡，二是修改损失函数，将漏报的权重远大于误报的权重，本发明提出的将感知机组合以及加权支持向量机相结合的分类方法，先对数据进行初步筛选，使得第一次得到的检测数据达到基本平衡，再通过加权支持向量机进行分类达到较好的分类结果，相较传统解决不平衡数据问题的方法，本发明的方式更加高效且准确率更高。

附图说明

图1为本发明方法的训练过程示意图；

图2为本发明方法的检测过程示意图。

具体实施方式

针对传统基于规则集的火点判断方法阈值较多、选取困难的问题，本发明实现一种基于非平衡数据分类框架的火点智能检测和分类，可实现基于卫星遥感影像的着火点快速发现和准确识别，有助于卫星红外遥感影像推广应用。通过选用LandSat 8卫星火点遥感数据进行检测实验表明，本发明的方法对极度非平衡数据、特别是火点数据的检测，检测准确率较高，检测综合指标优于传统规则集判断方法。

下面结合附图1、2对本发明具体实施方式进行说明。

本发明包括训练和检测两个过程：训练过程详见图1，主要包括反例排除和精确分类两个过程，图中两个大的矩形框分别表示这两个过程，棱形框表示输入的数据、中间结果以及得到的模型。反例排除包括PCA变换和正例优先感知机学习算法，精确分类包括LDA特征提取和加权SVM模型的学习；检测过程详见图2，流程同训练一致，分为反例排除和精确分类两部分，将数据做对应处理后输入到感知机模型和SVM模型中，得到最终检测结果。

1.训练过程

1.1反例排除

反例样本排除的目的是为了排除大部分反例，改善两类样本数量的均衡性。过程如图1中第一个大的矩形框。

1.1.1特征提取

提取火点图像第6-7、10-11波段数据，通过PCA变换计算特征向量，即图1“反例排除”矩形框中的第一个虚框“特征提取”。

1.1.2感知机学习

感知机是一种线性分类器^[1]，其判别函数如下。

f(x_i)＝w_p·x_i+b_p (4a)

x_i是特征向量，y_i是类标记，w_p与b_p是分类超平面参数，f(x_i)为感知机的分类判别函数，感知机的目标函数L如式(5)所示。

其中M是误分类样本集，感知机的目标是使式(5)中的目标函数最小。具体是通过梯度下降方法实现的，更新公式如式(6)所示。

w_p ^(t+1)＝w_p ^(t)+ηy_ix_i (6a)

b_p ^(t+1)＝b_p ^(t)+y_i (6b)

t为迭代次数，η是学习率。在保证正例正确判别的前提下尽量排除反例，用错误样本更新w_p与b_p时，优先选择错误正例修正感知机w_p与b_p，当没有错误正例时，选择反例修正感知机分类参数。并且在每次迭代中记录每次分类中正例与反例的正确分类比率，迭代停止时选择正例完全正确、反例正确率最高的参数。

为了最大限度地解决数据不平衡现象，需要多个感知机组合来实现，即图1中“训练正例优先感知机组合分类器模型”。具体步骤如下：

A.令感知机模型数i＝0；

B.按照正例优先感知机方法对训练样本集H训练感知机模型{w_p,b_p}，令迭代次数t＝0，令初始w_pt是全零向量，b_pt＝0，具体步骤如下：

a.令t＝t+1，如果超过迭代次数阈值，转e步，本文迭代次数阈值为1000；

b.用{w_pt，b_pt}根据式(4)预测所有样本的类别；计算正例正确率CP_t，和反例正确率CN_t；

c.找到所有预测错误的正例，取出第一个作为{x_i,y_i}根据式(3)修正{w_pt，b_pt}，然后转步骤a，如果没有预测错误的正例，转下一步；

d.找到所有预测错误的反例，取出第一个作为{x_i,y_i}根据式(6)修正{w_pt，b_pt}，然后转步骤a；如果没有反例则转下一步；

e.选择正例正确率CP_t＝1且反例正确率CN_t最大的{w_pt，b_pt}作为感知机模型参数输出，并返回。

C.根据{w_p,b_p}对H分类；

D.判断所有预测为反例的样本预测值是否全部正确，如果有不正确的，算法结束；全部正确则转E；

E.判断预测为反例的样本数是否小于等于阈值T_n(T_n＝300)，是则算法结束,大于阈值转下一步；

F.i＝i+1；保存模型P_i＝{w_p,b_p}；

G.从S_t中移除所有预测正确的反例样本，转步骤B；

算法运行结束后，得到若干个感知机参数{P_i}，组合构成了一个非线性分类器。

1.2精确分类

精确分类，如图1的第二个大的矩形框，是对1.1中得到的初步检测结果进行进一步的检测，先对反例排除后的反例点以及原正例点的数据进行LDA变换，再将其输入到加权SVM中训练得到精确分类的模型。

1.2.1特征提取

将1.1经过反例排除后的反例点以及原正例点的数据提取第2-7、9-11波段，再进行LDA处理，得到对分类更有效的特征，将得到的特征进行接下来的操作，如图1中第二个虚线框“特征提取”。

1.2.2加权SVM模型学习

加权SVM是Xanthopoulos提出的针对不平衡分类问题的一种SVM方法，加权SVM的目标函数如下式所示^[2]。

s.t.y_i(w_s ^Tφ(z_i)+b_s)≥1-ξ_i＝1,…,l (7)

x_i是特征向量，y_i是类标记，w_s、b_s是SVM分类超平面参数，φ是核函数，ζ_i是松弛变量，l是样本数，C⁺与C^-分别是正例与反例的惩罚系数。

本发明通过MATLAB中的fitcsvm函数实现，设反例样本的惩罚系数为C，则正例样本的惩罚系数为r·C，其中r是反例样本数与正例样本数的比值。

将1.2.1提取的特征输入到加权SVM模型中，对其进行训练，如图1矩形框“精确分类”中最后一步“训练加权SVM模型”。

2.检测过程

检测过程仍然为反例排除和精确分类两步，如图2所示，两大的矩形框分别表示“反例排除”和“精确分类”两个部分的流程，棱形框表示输入的数据、中间结果以及检测结果，具体步骤如下：

A.首先按照1.1.1节方法提取特征，如图2第一个虚框“特征提取”，按照虚框中的步骤提取波段数据并进行PCA变换得到新的特征向量；

B.利用1.1.2节训练得到的模型{P_i}，对每个P_i按式(4)判别待检测样本，标记为1的样本作为初始检测结果输入到精确检测步骤，如图2第一个大的矩形框中最后一步“根据感知机模型分类”；

C.对于标记为1的样本，需要按照1.2.1的方法重新提取特征；

D.然后用1.2.2节得到的SVM模型进行分类判别，如图2第二个大的矩形框“精确分类”，首先按照“精确分类”的矩形框中的“特征提取”提取图像数据的波段信息，对其进行LDA变换，得到新的特征向量，然后将其作为输入数据，训练得到的SVM模型中进行分类，如图2中最后一个矩形框“根据SVM模型分类”所示，图2最后一个菱形框“最终检测结果”表示经过精确分类最终得到的检测结果，最终标记为1的样本即为检测到的火点。

本发明采用了2016年10月黑龙江地区的Landsat 8卫星的遥感图像。其中训练图像5张，共有火点172个；测试图像8张，共129个火点。首先通过172个火点作为正例，在训练图像上随机选择500个非火点作为反例训练一个SVM模型，特征为第6-7、10-11四个波段数据，在3×3邻域中构成的36维向量，经PCA变换后的向量作为特征。然后在所有训练图像上用此模型进行检测，得到的115693个误报点作为真正的反例，构成训练数据集。火点标注方法是在762波段(短波红外)图像及432波段(可见光图像)上人工标注火点图像，保存火点坐标，用来训练与测试。

本发明评价指标为：火点准确率P、漏检率M和综合评价指标F，分别见式(8)-(10)。

P＝Y_y/(Y_y+Y_n) (8)

M＝N_y/(Y_y+N_y) (9)

其中，Y_y是检测正确的火点数，Y_n是误检测的火点数，N_y为漏检的火点数，P与M分别为准确率和漏检率，F为检测率与漏检率的综合评价指标。

本发明的方法检测结果与规则集判断方法进行了比较.规则集判断方法包括两部分，火点检测和多时间分析.本发明仅使用了火点检测方法，未使用多时间分析方法。表1为检测结果，表2为检测精度。

表1火点检测结果

表2火点检测精度

从检测结果看，本发明方法正确检测数低于规则集判断方法，但误报数也低于规则集判断方法，这体现了火点检测的特点，检测数与误报数有同样变化趋势；从F值看，本发明方法优于规则集判断方法。

本发明说明书中未作详细描述的内容属本领域技术人员的公知技术。