CN103839078A

CN103839078A - 一种基于主动学习的高光谱图像分类方法

Info

Publication number: CN103839078A
Application number: CN201410066856.9A
Authority: CN
Inventors: 王爽; 焦李成; 吴林生; 侯彪; 马文萍; 马晶晶; 牛东
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2014-02-26
Filing date: 2014-02-26
Publication date: 2014-06-04
Anticipated expiration: 2034-02-26
Also published as: CN103839078B

Abstract

本发明公开了一种基于主动学习的高光谱图像分类方法，它属于图像处理技术领域，主要解决基于集成的查询方法所获得的信息量存在重复的问题。其分类过程为：对高光谱图像进行特征提取；将所有样本随机划分为已标记数据集、未标记数据集和测试数据集；构造初始集成分类器；每一次迭代，根据新的信息量度量准则挑选未标记样本；利用最终得到的集成分类器进行预测，得到分类结果。本发明定义了一种新的信息量度量准则，相比于基于集成的查询准则，能够有效降低信息量的重复程度，获得更好的分类性能，可用于高光谱图像目标识别。

Description

一种基于主动学习的高光谱图像分类方法

技术领域

本发明属于图像处理领域，特别是一种基于主动学习的高光谱图像分类方法，可应用于目标识别。

背景技术

伴随着遥感技术的不断进步，遥感传感器能够提供越来越多的数据。如何处理这些数据在遥感领域已经产生了巨大的兴趣。在遥感应用方面，例如环境检测、农业管理和城市绘图等，地物分类是非常重要的。利用这些数据所包含的丰富信息来获得高的分类精度，对于我们来说是一个巨大的挑战。特别地，在高光谱数据中光谱信息是极其的丰富。一幅高光谱图像也许包含有上百万个像素，每一个像素包括成百上千个光谱带，这使得人工标记变得很困难。因此，自动地物分类与识别正在成为一个热点。

许多关于遥感图像的自动分类技术的研究均是建立在监督学习方法的基础之上。监督学习的含义为：在已标记数据集上训练得到一个分类器，然后该分类器被用来预测未标记样本的标记。在机器学习领域，大量的分类器已经被开发出来。但是，监督学习器的分类性能依赖于可得到的已标记样本的数目与质量。已标记数据集的大小和一个分类器的分类精度之间通常是正相关的。换句话说，为了得到高的分类精度，已标记样本的数目应该尽可能的大。然而，对于高光谱数据，由于维数通常很高，该问题显得更加严重。当训练样本的数目对特征的数目的比率较小时，也许会发生维数灾难。因此，对于高光谱数据来说，很容易就发生过拟合训练数据的现象，这给分类器的泛化能力带来了不利的影响。

在现实生活中，要获得遥感数据的标记是非常昂贵并耗时的，因为需要专家人为标记或者实地勘察。因此，如何利用尽可能少的已标记样本来获得尽可能高的分类精度在遥感数据分类中起着非常重要的作用。主动学习刚好就是被设计用来强调这类问题。主动学习的目地在于挑选出最具有信息量的未标记样本用于人工标记，这样一个分类器就能够利用尽可能少的已标记样本来获得尽可能高的分类精度。说的更具体一点，在已标记数据集上训练得到一个分类器，该分类器被用来预测未标记样本的标记。基于预先定义的查询策略，获得了每一个未标记样本的信息量。根据信息量的排序挑选出固定数目的最高信息量的样本。分析人员人工地标记这部分最高信息量的样本，该分类器在扩大的已标记数据集上重新训练。该过程重复进行直到一些停止条件被满足。这个过程中最重要的一步是如何度量未标记样本的信息量。如果使用更好的度量方法就能够期待获得更好的分类性能。在机器学习领域中，有关主动学习技术的研究有很多。近些年，主动学习在遥感领域已经引起了极大的兴趣。

查询策略在主动学习中非常重要，基于集成的查询是其中一种查询策略之一，它

上式中，x_u为未标记样本，y_i取遍所有的可能的标记，v(y_i)为所有那些预测得到的类别标记是y_i的分类器的数目，m为集成大小。

然而，通过该查询策略所获得的信息量也许重复，这就导致了一些未标记样本拥有同样的信息量并且将被随机挑出。这给分类性能的提高带来了不利的影响。在本发明中，提供了一种基于主动学习的高光谱图像分类方法用来处理这个问题。

发明内容

针对上述问题，本发明的目的是提供基于主动学习的高光谱图像分类方法，旨在降低信息量的重复程度来获得它们的一个更精确的排序，从而提高高光谱图像的分类精度。

为实现上述目的，本发明采取以下技术方案：一种基于主动学习的高光谱图像分类方法，包括如下步骤：

(1)对高光谱图像的每一个样本即像素，提取谱特征与空间特征，将这些特征融合为一个特征向量；

(2)将所有样本随机划分为测试数据集与训练数据集，训练数据集被进一步随机划分为已标记数据集和未标记数据集；

(3)在已标记数据集上构造初始集成分类器；

(4)每一次迭代，根据新的信息量度量准则挑选出固定数目的最高信息量的未标记样本用于人工标记；

(5)利用最终得到的集成分类器进行预测。

所述步骤1）是按以下步骤进行的：

(1a)利用主成分分析PCA算法提取高光谱图像的谱特征，若干个主成分能够包含图像的大部分信息；

(1b)在每一个主成分的基础上进行形态学开和闭运算，提取形态学特征；

(1c)将提取出来的谱特征和形态学特征融入一个特征向量，形成每一个样本即像素的新特征。

所述步骤4)按如下过程进行：

4a)对每一个未标记样本x_u，按照新的信息量度量准则计算它的信息量：

Info (x_{u}) = - \underset{i}{Σ \frac{v (y_{i})}{m}} \log \frac{v (y_{i})}{m} + (- \underset{i}{Σ} p_{θ} (y_{i} | x_{u}) \log p_{θ} (y_{i} | x_{u})) / c

上式中，第一项由集成分类器决定，y_i取遍所有的可能的标记，v(y_i)为所有那些预测得到的类别标记是y_i的分类器的数目，m为集成大小，第二项由引入的模型决定，θ为引入的模型，p_θ(y_i|x_u)表示由模型预测得到的未标记样本x_u属于类别y_i的类概率，c是一个常数；

4b)根据信息量排序未标记样本；

4c)选出n个具有最大的信息量的未标记样本；

4d)人工标记这n个样本，并加入到已标记数据集中；

4e)在扩大的已标记数据集上重新构造集成分类器；

4f)重复步骤(4a)～步骤(4e)直到已标记样本的数量达到训练集合的20%时停止。

本发明由于采取以上技术方案，其具有以下优点：

1、本发明定义了一种新的信息量度量准则，相比于基于集成的查询准则，能够有效降低信息量的重复程度，使得每一次迭代挑选出更好的未标记样本；

2、实验结果表明，相比于基于集成的查询方法，本发明方法能够获得更高的分类精度。

附图说明

图1是本发明的流程示意图；

图2是本发明在Indian Pines高光谱图像上的实验结果图；

图3是本发明在Pavia University高光谱图像上的实验结果图；

图4是本发明在Salinas高光谱图像上的实验结果图。

具体实施方式

下面结合附图和实施例对本发明的进行详细的描述。

参照图1，本发明的具体实现步骤如下：

步骤一、对高光谱图像进行特征提取。

实现该步骤的具体过程如下：

步骤二、将所有样本随机划分为已标记数据集、未标记数据集和测试数据集。

所有样本的25%被随机选作测试数据集，剩下的样本被用作训练数据集。在标记率10%的条件下，训练数据集被进一步随机划分为已标记数据集和未标记数据集。测试数据集、已标记数据集和未标记数据集的类别分布与原始的数据集要保持相似。

步骤三、构造初始集成分类器。

在已标记数据集上训练得到6棵具有差异性的随机树，它们构成初始集成分类器。

步骤四、每一次迭代，根据新的信息量度量准则挑选未标记样本。

实现该步骤的具体过程如下：

(4b)根据信息量排序未标记样本；

(4c)选出n个具有最大的信息量的未标记样本；

(4d)人工标记这n个样本，并加入到已标记数据集中；

(4e)在扩大的已标记数据集上重新构造集成分类器；

(4f)重复步骤(4a)～步骤(4e)直到已标记样本的数量达到训练集合的20%时停止。

步骤五、利用最终得到的集成分类器进行预测。

主动学习的迭代训练结束以后，就获得了性能较好的集成分类器，利用该分类器在测试数据集上预测，得到分类结果。

本发明的效果可通过以下实验进一步说明：

1仿真内容：应用本发明方法QBC-M和基于集成的查询方法QBC分别对三幅高光谱图像进行分类实验。

2仿真实验结果

A高光谱图像Indian Pines的实验结果

用本方法QBC-M和基于集成的查询方法QBC对高光谱图像Indian Pines进行分类，其效果比较如图2所示，图2描绘了两种方法在不同迭代下的总体平均测试错误率，从图中可以发现在训练迭代期间分类性能得到逐渐地提高，然而，情况并不总是这样；例如，基于集成的查询方法QBC的平均总体分类精度在最后4次循环下降了，在每一次迭代，通过挑选最高信息量的未标记样本用于人工标记，两种方法的分类性能总体上可以得到改善，特别地，在最开始的4次循环改善是很显著的，相比于QBC，本方法QBC-M在任何循环次数都要表现得更好除了第6和第12次循环，而且最后一次循环相对的改进很大。因此，可以看出通过降低信息量的重复程度，QBC的分类性能可以得到进一步地提高，学习曲线证实了本方法的有效性。

B高光谱图像Pavia University的实验结果

用本方法QBC-M和基于集成的查询方法QBC对高光谱图像Pavia University进行分类，其效果比较如图3所示，图3描绘了两种方法在不同迭代下的总体平均测试错误率，从图中可以看出分类性能并不总是随着迭代的进行而提高，有时在一些小的间隔区间内性能变化是不稳定的，一个可能的解决方案是利用所有先前的集成分类器而不是之前的一个来挑选最高信息量的未标记样本并且预测测试样本，然而这是非常耗时的。从总体上看，每一次迭代通过挑选出最高信息量的未标记样本用于人工标记，平均总体分类精度可以得到改善，前两次循环的改善比较明显，相较于QBC，本方法QBC-M在大多数情况下都获得了更好的性能。在第8和第26次循环下相对的改进较大，因此，可以看出通过降低信息量的重复程度，QBC的分类性能能够得到进一步地提高，图中学习曲线证实了本方法的有效性。

C高光谱图像Salinas的实验结果

用本方法QBC-M和基于集成的查询方法QBC对高光谱图像Salinas进行分类，其效果比较如图4所示，图4描绘了两种方法在不同迭代下的总体平均测试错误率。从总体上看，通过主动学习算法，平均总体分类精度可以得到改善，前四次循环的改善比较明显，相比于QBC，本方法QBC-M在大多数情况下都表现得更好，在第2、第4和最后一次循环相对的改进较大，因此，可以看出通过降低信息量的重复程度，QBC的分类性能能够得到进一步地提高。图中学习曲线证实了本方法的有效性。

本发明中提到的英文解释如下：Indian Pines：印第安纳州；Pavia University：帕维亚大学；Salinas：萨利纳斯；QBC-M表示本发明方法；QBC表示基于集成的查询方法。

Claims

1.一种基于主动学习的高光谱图像分类方法，其特征在于：包括如下步骤：

1)对高光谱图像的每一个样本即像素，提取谱特征与空间特征，将提取谱特征与空间特征融合为一个特征向量；

2)将所有样本随机划分为测试数据集与训练数据集，训练数据集被进一步随机划分为已标记数据集和未标记数据集；

3)在已标记数据集上构造初始集成分类器；

4)每一次迭代，根据新的信息量度量准则挑选出固定数目的最高信息量的未标记样本用于人工标记；

5)利用最终得到的集成分类器进行预测。

2.据权利要求1所述的一种基于主动学习的高光谱图像分类方法，其特征在于：所述步骤1）是按以下步骤进行的：

3.根据权利要求1所述的一种基于主动学习的高光谱图像分类方法，其特征在于：所述步骤4)按如下过程进行：

Info (x_{u}) = - \underset{i}{Σ \frac{v (y_{i})}{m}} \log \frac{v (y_{i})}{m} + (- \underset{i}{Σ} p_{θ} (y_{i} | x_{u}) \log p_{θ} (y_{i} | x_{u})) / c

4b)根据信息量排序未标记样本；

4c)选出n个具有最大的信息量的未标记样本；

4d)人工标记这n个样本，并加入到已标记数据集中；

4e)在扩大的已标记数据集上重新构造集成分类器；