CN111414863B

CN111414863B - 一种增强型集成遥感影像分类方法

Info

Publication number: CN111414863B
Application number: CN202010207087.5A
Authority: CN
Inventors: 焦红波; 郭丽; 窦鹏; 张峰; 李艳雯; 杨晓彤; 侯辰; 王力彦
Original assignee: NATIONAL MARINE DATA AND INFORMATION SERVICE
Current assignee: NATIONAL MARINE DATA AND INFORMATION SERVICE
Priority date: 2020-03-23
Filing date: 2020-03-23
Publication date: 2023-01-17
Anticipated expiration: 2040-03-23
Also published as: CN111414863A

Abstract

本发明提供了一种增强型集成遥感影像分类方法，分为集成学习模型训练和遥感影像分类两个步骤。(1)模型训练：利用从遥感影像上获取的样本构建样本集，然后分别使用随机森林法、Bagging法和随机子空间法分别训练不同类型的基分类器，构建基分类器集。(2)对于遥感影像中的每一个待分类像素，分别使用基分类器集中的每一个集分类器分类，得到一个分类结果集，然后对所有的分类结果采用多数投票法进行投票，得票最多的类别，视为当前像素最终的判断类别。这样，对整幅影像进行分类，即可得到最接近实际目标的解译结果。该方法在增强基分类器多样性的基础上，实现了RandomForest，Bagging和随机子空间的有效集成，有效提高遥感影像的分类精度。

Description

一种增强型集成遥感影像分类方法

技术领域

本发明属于遥感影像自动化分类技术领域，尤其是涉及一种增强型集成遥感影像分类方法。

背景技术

利用遥感影像能够快速实时地获取大范围的土地利用信息，而如何对遥感影像进行分类，获取地物属性，是土地利用变化监测等领域需要解决的重要问题。机器学习的方法使得遥感信息的提取得到了快速的发展。典型的算法如最决策树法(Decision Tree，DT)、最小距离法(Minimum Distance，MD)、支持向量机(Support Vector Machine,SVM)、朴素贝叶斯(Naive Bayes，NB)、人工神经网(Artificial Neural Network，ANN)等都在遥感影像分类中得到了广泛的应用。

然而，这些方法大都使用一个分类器，对于由样本，算法等问题引起的精度差，容易过拟合的问题很难克服。集成学习有效的解决了该问题。所谓的集成学习就是使用多个分类器对同一个实体进行分类，然后通过一定的集成手段获得最接近实际类别的分类结果。目前一些典型的集成学习方法有随机森林法、Bagging法、随机子空间法和AdaBoost等。这些方法都通过构建具有多样性的基分类器，并通过投票的方法实现多分类器的集成。和使用单个分类器相比，集成学习分类方法的精度更高，鲁棒性更强，因此被越来越广泛的应用到遥感影像的分类中。

然而，现有的这些集成学习方法在生成具有多样性的基分类器方面使用的方法比较单一，使得精度提升的空间受到了一定的限制。为此，使用多种基分类器的生成方法，是增强基分类器多样性，提高集成学习分类精度的重要手段。随机森林、Bagging和随机子空间方法分别具有不同的基分类器生成方法，将三种方法的基分类器生成方法进行有效结合，有望在原始算法的基础上，进一步增强基分类器的多样性，实现样影像分类精度的提升。而目前，尚且还未有发明实现三者的有效结合来提高分类精度。

发明内容

鉴于Bagging、随机子空间和随机森林在生成具有多样性基分类器方面能力的不足，本发明从增强基分类器生成方法入手，将三种算法生成基分类器的方法进行了融合，提出了一种增强型的集成学习遥感影像分类算法，设计合理，克服了传统集成学习分类方法的不足，应用到遥感影像分类中具有良好效果。

本发明的核心思想是：提出一种综合Bagging、随机子空间和随机森林的增强型多分类器集成方法，本方法将Bagging、随机子空间和随机森林三种方法进行有效的结合，生成不同类型的基分类器；对于一个待分类实体，所有的基分类器输出自己的结果，最后通过多数投票，得到更加精确的分类结果。

为达到上述目的，本发明的技术方案是这样实现的：

一种增强型集成遥感影像分类方法，包含如下步骤：

步骤1：在遥感影像上选择样本点，通过样本点提取遥感影像的特征，得到样本集S，特征集F，特征集的个数n，设置空集H＝{}；

步骤2：确定迭代次数K，随机抽样的比例r；

步骤3：设置迭代变量i从0到K进行循环执行下列操作，循环结束转到步骤4：

步骤2-1：根据比例r，计算从S中抽取样本的个数n_i；

步骤2-2：采用有放回随机抽样的方法，从S中抽取n_i个训练样本，得到训练集S_i；

步骤2-3：使用训练集S_i训练CART得到基分类器h_i-1；

步骤2-3：生成随机数a∈(1,n)，并从特征集F中抽取a个特征，生成特征子集F_i；利用F_i和样本集S_i构建训练集S_i-2，并利用S_i-2训练CART得到基分类器h_i-2；

步骤2-4：使用训练集S_i训练随机森林的决策树得到基分类器h_i-3；

步骤2-5：将基分类器h_i-1、h_i-2、h_i-3构建分类器集合h_i＝{h_i-1、h_i-2、h_i-3}，并将h_i并入到集合H中；

步骤2-6：令i＝i+1，转入下一轮迭代，转到执行步骤2-1；

步骤4：执行完步骤3，得到具有3×K个分类器的分类器集合H；

步骤5：针对遥感影像的每个像素x，其最终的分类结果可以通过如下公式通过多数投票的方法获得：

对所有像素分类，即可得到最终的遥感影像分类结果。

进一步的，步骤2-4的具体步骤为：随机从特征集F中抽取m(m≤n)个特征，生成特征子集F_i-3，使用信息增益的方法选择最佳分裂特征，构建C4.5决策树，得到分类器h_i-3。

进一步的，在遥感影像上使用人工解译的方法选择样本点。

相对于现有技术，本发明具有以下优势：

本发明提出的增强型集成遥感影像分类方法能够生成更具多样性的基分类器，从而集成Bagging、随机子空间、随机森林三种集成学习方法的分类优势，克服传统集成学习方法由于基分器多样性不而高引起的精度低，容易过拟合的缺点，达到高效、高精度样影像分类的目的。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例所述方法的原理图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

首先介绍本发明所需要的理论基础，Bagging、随机子空间和随机森林。

Bagging的算法：假设训练集S＝{(x₁,y₁),(x₂,y₂),…,(x_n,y_n)}(x_j∈X,y_j∈Y)，其中，n是样本的总个数，X和Y分别代表样本的特征空间和类别标签,K是迭代的次数。Bagging方法的具体过程为，首先从训练集中采用随机有放回的方式抽取样本，构建大小形同，但内容不同的训练集来生成不同的基分类器；对于一个待分类实体x，每个基分类器都输出各自的分类结果，之后，对所有基分类器的输出结果进行多数投票，将得票数最多的类别作为最终的分类结果。

随机子空间算法：假设训练集S＝{(x₁,y₁),(x₂,y₂),…,(x_n,y_n)}(x_j∈X,y_j∈Y)，其中，n是样本的总个数，X和Y分别代表样本的特征空间和类别标签,F是训练集S的特征空间。随机子空间的执行过程为：从F中随机选取m个特征，构成随机特征子空间F_i，然后根据F_i从S中获取样本集S_i，并利用S_i训练一个基分类器。依次类推，迭代K次，就可以构建K个不同的基分类器。对于一个待分类实体x，每个基分类器都输出各自的分类结果，之后，对所有基分类器的输出结果进行多数投票，将得票数最多的类别作为最终的分类结果。

随机森林法：假设训练集S＝{(x₁,y₁),(x₂,y₂),…,(x_n,y_n)}(x_j∈X,y_j∈Y)，其中，n是样本的总个数，X和Y分别代表样本的特征空间和类别标签,F是训练集S的特征空间。随机森林包括了两个随机过程。首先，使用有放回的随机抽样的方法自助选择从S中选择样本集S_i，通过样本集的选择，降低所构建决策树之间的相关性。其次，在构建决策树时，针对每一个分类节点，从样本的原始特征集F中，随机抽取特征子集F_i，然后依据一定的规则选择最优特征作为决策树节点的分裂依据。两种随机过程的有效结合，降低了分类过程中的偏差，消除了决策树构建过程中的过拟合。

基于Bagging、随机子空、和随机森林，如图1所示，本发明具体的实施过程分为模型训练和遥感影像分类两部分：

训练部分：主要训练分类模型，具体步骤如下：

步骤1：在遥感影像上使用人工解译的方法，选择样本点，通过样本点提取遥感影像的特征，得到样本集S，特征集F，特征集的个数n，设置空集H＝{}。

步骤2：确定迭代次数K，随机抽样的比例r。

步骤3：将i从0到K进行循环执行下列操作：

步骤2-1：根据比例r，计算从S中抽取样本的个数n_i。

步骤2-2：采用有放回随机抽样的方法，从S中抽取n_i个训练样本，得到训练集S_i。

步骤2-3：使用S_i训练CART分类h_i-1。

步骤2-3：生成随机数a∈(1,n)，并从特征集F中抽取a个特征，生成特征子集F_i；利用F_i和样本集S_i构建训练集S_i-2，并利用S_i-2训练CART分类h_i-2。

步骤2-4：使用S_i训练随机森林的决策树分类器h_i-3，具体步骤如为：随机从特征集F中抽取m(m≤n)个特征，生成特征子集F_i-3，使用信息增益的方法选择最佳分裂特征，构建C4.5决策树，得到分类器h_i-3。

步骤2-5：将h_i-1、h_i-2、h_i-3构建分类器集合h_i＝{h_i-1、h_i-2、h_i-3}，并将h_i并入到集合H中。

步骤2-6：令i＝i+1，转入下一轮迭代，执行步骤2-1。

步骤4：执行完步骤3，得到具有3×K个分类器的分类器集合H

分类部分：针对遥感影像的每个像素x，其最终的分类结果可以通过如下公式通过多数投票的方法获得。

对所有像素分类，即可得到最终的遥感影像分类结果。

本发明的增强型集成遥感影像分类方法，使用Bagging方法生成基分类器h_i-1，使用随机子空间法生成基分类器h_i-2，使用随机森林方法构建基分类器h_i-3，多次迭代，得到的基分类器集合H同时具备了Bagging，随机子空间和随机森林特性的不同分类器，增强了基分类器的多样性。再对于遥感影像中的单个像素x，基分类器集合H中的每一个分类器输出分类结果，并对所有结果利用公式(1)进行加权投票集成，能够有效克服传统集成分类方法的不足，对遥感影像的分类性能进行有效提升。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种增强型集成遥感影像分类方法，其特征在于，包含如下步骤：

步骤2：确定迭代次数K，随机抽样的比例r；

步骤2-1：根据比例r，计算从S中抽取样本的个数n_i；

步骤2-3：使用训练集S_i训练CART得到基分类器h_i-1；

步骤2-6：令i＝i+1，转入下一轮迭代，转到执行步骤2-1；

步骤4：执行完步骤3，得到具有3×K个分类器的分类器集合H；

对所有像素分类，即可得到最终的遥感影像分类结果；

步骤2-4的具体步骤为：随机从特征集F中抽取m(m≤n)个特征，生成特征子集F_i-3，使用信息增益的方法选择最佳分裂特征，构建C4.5决策树，得到分类器h_i-3。

2.根据权利要求1所述的方法，其特征在于：在遥感影像上使用人工解译的方法选择样本点。

3.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1所述方法的步骤。

4.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1所述方法的步骤。