CN110378405A

CN110378405A - 基于迁移学习的Adaboost算法的高光谱遥感影像分类方法

Info

Publication number: CN110378405A
Application number: CN201910627358.XA
Authority: CN
Inventors: 杨琪
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2019-10-25

Abstract

本发明公开了一种基于迁移学习的Adaboost算法的高光谱遥感影像分类方法，该方法有效缩短了模型的训练时间，能够高效提取高光谱影像的特征，显著提高地物分类的精度，且分类性能较DSVM、GA‑SVM模型相比，在遥感影像分类上有明显的优势。传统的DSVM、GA‑SVM模型无法有效处理数据缺失或数据不足，训练数据和测试数据来自不同的数据源等问题，而基于迁移学习的Adaboost算法，利用多个弱分类器，通过对弱分类器加权求和构建出一个强分类器，使得这个模型在测试数据上的分类准确度尽可能高，从而极大提高了模型的分类精度。

Description

基于迁移学习的Adaboost算法的高光谱遥感影像分类方法

技术领域

本发明涉及高光谱遥感影像分类领域，具体涉及一种基于迁移学习的Adaboost算法的高光谱遥感影像分类方法。

背景技术

目前，迁移学习典型的应用方面的研究主要包含有文本分类、文本聚类、情感分类、图像分类、协同过滤、基于传感器的定位估计、人工智能规划等。

大量的迁移学习工作者在研究文本处理的过程中提出了联合聚类方法。该方法通过对文档以及词特征进行聚类，然后将相同的词特征共享于不同的领域，从而来达到迁移的目的。Dai等人还提出迁移贝叶斯分类器，根据目标领域的需要来修改源领域的数据分布。Zhuang等人在概念层面上对文本进行处理，提出挖掘文档概念与词特征概念的迁移学习方法。在此基础上Long等人提出了双重迁移模型，进一步对概念进行划分，提高算法分类准确率。

对情感分类的研究，Li等人通过领域相关的无标签数据和领域无关的带情感倾向的词先验，来提高其分类精度。Pan等人提出一种新的谱特征对齐方法，成功地降低了领域特有的词的缺口，从而提高了目标领域上的准确率，它以独立于领域的词特征为桥梁，把来自不同领域的领域特有词特征对齐到一个聚类中。

在图像处理方面，提出了一种翻译迁移学习方法，借助文本数据来辅助图像聚类，利用系数编码技术从大量的无标签数据上构造高层特征，以提高图像分类性能，还有一种异构迁移学习方法,利用图像上的Tag标签信息作为文本与图像之间知识迁移的桥梁，从而提高图像数据上的分类效果。

在协同过滤方面，Wang等人提出特征子空间的迁移学习方法来克服协同过滤中的稀疏问题，即从辅助数据中学习得到的用户特征子空间被迁移到目标领中。Pan等人研究了协同过滤中带有不确定评分的迁移学习算法，即在优化目标矩阵分解中考虑不确定评分的辅助数据作为限制。

迁移学习的算法研究可以从两个角度来考虑，它们分别是：基于实例的迁移学习算法，以及基于特征的迁移学习算法。这两种方法各有利弊。基于实例的迁移学习算法，迁移效果较为明显，但是它只能对非常相似的数据进行迁移。而基于特征的迁移学习算法，效果没有基于实例的迁移学习算法明显，但是它可以从很不相似的数据中迁移知识。

发明内容

本发明的目的是提供一种基于迁移学习的Adaboost算法的高光谱遥感影像分类方法。

本发明采用如下技术方案：

基于迁移学习的Adaboost算法的高光谱遥感影像分类方法，包括以下步骤：

S1:利用任意方法收集训练与目标数据。

S2：在选择了合适的训练集之后，我们给每个训练数据赋予权重并初始化成相等的值，权重的集合称为向量D。首先我们根据训练集基于单层决策树构建弱分类器，然后利用公式(1)计算出分类器错误率ε。

Adaboost基于每个弱分类器的分类错误率，为每个弱分类器设定了一个权重值α,权重值α

的计算公式(2)如下：

计算出权重值α之后，可以根据分类正确与否对训练样本的权重值D进行更新，以使得那些正确分类的样本权重降低而错分样本的权重升高。

S3:在同一个训练集上训练，在这次训练中训练样本的权重将会产生调整具体如公式(3)、(4)，在上一次分类中，正确分类的样本权重会降低，错分的样本权重会增加。更新后的权重值D的计算方法如下。

如果样本被正确分类，那么该样本的权重值D更改为：

D^t+1＝(D^te^-α)/样本权重之和 (3)

如果样本未被正确分类，那么该样本的权重值D更改为：

D^t+1＝D^te^α/样本权重之和 (4)

其中，D^t为第t次迭代时权重，D^t+1为第t+1次迭代时权重。计算出D值之后，Adaboost又开始进入下一轮迭代。Adaboost算法会不断地重复训练和调整权重的过程一直持续到训练错误率为0或者弱分类器的数目达到用户指定的值为止。

S4:由各个弱分类器加权求和投票得到一个强分类器。Adaboost算法中所使用的弱分类器类型都是一致的，但不同的分类器权重并不相等，所谓权重是指对对应的分类器在上一轮迭代中的成功度。具体过程如下：比如我们拥有数据集{(x₁，y₁),...,(x_n，y_n)}，x_i属于X数据集，y_i属于类别标签集Y＝{0,1}。然后训练数据集中的每个样本，并赋予一个初始权重向量D，我们可以称它为样本权重，样本权重有别于分类器权重。假设初始化权重为1/n。接下来我们根据训练集训练出弱分类器h_f，通过迭代形成一个弱分类器集合{h₁，...h_f}，然后根据加权求和投票的方法得出一个强分类器。一次迭代的详细算法框架如下表。加权求和投票过程如公式(5)。

其中α_t为第t次迭代时的权值，h_t(x)为第t次迭代时得到的弱分类器。

S5：利用上述得到的强分类器在目标数据集上计算分类精度，从而得到最终的分类结果。

本发明的有益效果：

本发明有效地解决了训练数据和测试数据来自不同的数据源的问题，有能力适应各种分类学习的要求，提高了对目标任务学习的效果，且就模型的分类能力和分类精度较传统的DSVM、GA-SVM模型相比，有明显优势。

附图说明

图1为Adaboost算法流程图；

图2为实验中errorate分布图；

图3为实验中样本分类分布图；

图4为DSVM算法分类还原出来的地物图；

图5为GA-SVM算法分类还原出来的地物图。

图6为Adaboost算法分类还原出来的地物图。

具体实施方式

下面结合具体实施方式和附图，对本发明的技术方案作进一步的介绍。

本具体实施例公开了一种基于迁移学习的Adaboost算法的高光谱遥感影像分类方法，如图1所示，包括以下步骤：

S1:利用任意方法收集训练与目标数据。

Adaboost基于每个弱分类器的分类错误率，为每个弱分类器设定了一个权重值α,权重值α的计算公式(2)如下：

如果样本被正确分类，那么该样本的权重值D更改为：

D^t+1＝(D^te^-α)/样本权重之和 (3)

如果样本未被正确分类，那么该样本的权重值D更改为：

D^t+1＝D^te^α/样本权重之和 (4)

下面对实验仿真过程和结果进行介绍。

1、实验图像

实验所需的高光谱遥感数据来自于美国印第安纳州的印第安纳农林实验区的高光谱遥感影像，该图像拍摄于1992年6月，数据特征为：影像大小为145×145，波段数为220，数据维度为21025×220类别标签为17类，经过预处理后我们得到的波段数为200，我们选取了7类像素点个数较多的类标作为训练样本，训练样本和测试样本约按照1：3的比例选取。

2、实验过程

实验中，选择使用美国印第安纳州的印第安纳农林实验区的高光谱遥感影像，数据集。表1为此数据集的基本信息。

表1各类别样本的高光谱遥感图像数据概要

类别	类别1	类别2	类别3	类别4	类别5	类别6	类别7
								训练样本	48	485	632	86	777	749	163
测试样本	150	1435	2192	235	2417	2469	516

分类器参数设置如下：numIt(迭代次数)为150；numstep(步长)为30；codenum为31；由于容错率errorate最好不要为0所以将其设置成0.5，分类基于类别标签进行。实验中errorate分布如图2所示。在实验过程中用－1和+1来分别表示，在单次迭代分类中，样本分类错误和样本分类正确，其分布如图3所示。

本实验中分类的训练样本是高光谱遥感影像的类别标签，通过对高光谱原始数据的预处理，实验对每类训练样本尽量取到相同的比例，这样可以保证训练出来的分类器可以达到比较良好的分类效果。由于实验只做了简单的降维处理，因此在分类的过程中必须保证训练的类别必须和要分类的类别完全一致，不然就会导致部分类别无法正常分类的问题。此外，实验中发现，分类器容错率一般不能达到理想的0状态，必须要给出一部分容错空间，经过不断的实验分析，最终将这个数值定在了0.5。在判定错误率的方法上，通过汉明码检测的方式，我们假设分类正确就定义为0分类错误就定义为1，然后将其分类结果用汉明码标注，从而得出判断。阀值的选择也是很重要的，阀值就是分类的标杆，大于阀值就分类正确设定为+1，小于阀值就定义为－1。

表2Ad分类误差矩阵

由上表我们可以看出，分类过程中，不是一一对应分类的，1类有可能分到2、3、4等类别中去，为解决此问题，实验中对其建立一个函数统计出其分类矩阵，明确每个类别中的测试样本，在分类中的去向，从而统计出其分类精度，完成对分类结果的检测。

我们将此方法与DSVM，GA-SVM等分类方法做了对比，在相同条件下，三者的分类精度对比如下。图4、5、6分别为DSVM、GA-SVM及Adaboost算法分类还原出来的地物图。

表3三种分类方法各类别样本的分类精度AP(％)

类别	类别1	类别2	类别3	类别4	类别5	类别6	类别7	总精度
									Ad	90.67	92.20	93.89	96.60	92.64	92.99	92.44	93.01
DSVM	88.00	89.47	88.59	89.36	85.02	87.72	89.73	86.72
									GA-SVM	90.00	90.94	90.10	93.19	93.19	90.93	90.16	90.67

三种分类方法的总体精度分别为Ad 93.01％，DSVM 86.72％，GA-SVM 90.67％。将基于迁移学习的分类方法与DSVM、GA-SVM等分类方法比较之后，得出了基于迁移学习的Adaboost算法可以较大程度提高高光谱遥感影像分类精度的结论；Adaboost算法在本实验中起到了至关重要的作用，作为机器学习中比较典型的算法，它完全有能力适应各种分类学习的要求。

Claims

1.基于迁移学习的Adaboost算法的高光谱遥感影像分类方法，其特征在于：包括以下步骤：

S1：利用任意方法收集训练与目标数据；

S2：在选择了合适的训练集之后，给每个训练数据赋予权重并初始化成相等的值，权重的集合称为向量D；

S3：在同一个训练集上训练，在这次训练中训练样本的权重将会产生调整具体如公式(3)、(4)，在上一次分类中，正确分类的样本权重会降低，错分的样本权重会增加；计算出D值之后，Adaboost又开始进入下一轮迭代，Adaboost算法会不断地重复训练和调整权重的过程一直持续到训练错误率为0或者弱分类器的数目达到用户指定的值为止；

S4：由各个弱分类器加权求和投票得到一个强分类器；

2.根据权利要求1所述的基于迁移学习的Adaboost算法的高光谱遥感影像分类方法，其特征在于：步骤S2中具体做法为：首先根据训练集基于单层决策树构建弱分类器，然后利用公式(1)计算出分类器错误率ε；

Adaboost基于每个弱分类器的分类错误率，为每个弱分类器设定了一个权重值α，权重值α的计算公式(2)如下：

计算出权重值α之后，根据分类正确与否对训练样本的权重值D进行更新，以使得那些正确分类的样本权重降低而错分样本的权重升高。

3.根据权利要求1所述的基于迁移学习的Adaboost算法的高光谱遥感影像分类方法，其特征在于：步骤S3中更新后的权重值D的计算方法如下：

如果样本被正确分类，那么该样本的权重值D更改为：

D^t+1＝(D^te^-α)/样本权重之和 (3)

如果样本未被正确分类，那么该样本的权重值D更改为：

D^t+1＝D^te^α/样本权重之和 (4)

其中，D^t为第t次迭代时权重，D^t+1为第t+1次迭代时权重。

4.根据权利要求1所述的基于迁移学习的Adaboost算法的高光谱遥感影像分类方法，其特征在于：步骤S4中加权求和投票过程如公式(5)。

5.根据权利要求4所述的基于迁移学习的Adaboost算法的高光谱遥感影像分类方法，其特征在于：加权求和投票得到一个强分类器的具体过程如下：比如拥有数据集{(x₁，y₁),...,(x_n，y_n)}，x_i属于X数据集，y_i属于类别标签集Y＝{0,1}，然后训练数据集中的每个样本，并赋予一个初始权重向量D，称它为样本权重，假设初始化权重为1/n，接下来根据训练集训练出弱分类器h_f，通过迭代形成一个弱分类器集合{h₁，...h_f}，然后根据加权求和投票的方法得出一个强分类器。