CN103839078A - 一种基于主动学习的高光谱图像分类方法 - Google Patents
一种基于主动学习的高光谱图像分类方法 Download PDFInfo
- Publication number
- CN103839078A CN103839078A CN201410066856.9A CN201410066856A CN103839078A CN 103839078 A CN103839078 A CN 103839078A CN 201410066856 A CN201410066856 A CN 201410066856A CN 103839078 A CN103839078 A CN 103839078A
- Authority
- CN
- China
- Prior art keywords
- sample
- hyperspectral image
- information
- method based
- active learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于主动学习的高光谱图像分类方法,它属于图像处理技术领域,主要解决基于集成的查询方法所获得的信息量存在重复的问题。其分类过程为:对高光谱图像进行特征提取;将所有样本随机划分为已标记数据集、未标记数据集和测试数据集;构造初始集成分类器;每一次迭代,根据新的信息量度量准则挑选未标记样本;利用最终得到的集成分类器进行预测,得到分类结果。本发明定义了一种新的信息量度量准则,相比于基于集成的查询准则,能够有效降低信息量的重复程度,获得更好的分类性能,可用于高光谱图像目标识别。
Description
技术领域
本发明属于图像处理领域,特别是一种基于主动学习的高光谱图像分类方法,可应用于目标识别。
背景技术
伴随着遥感技术的不断进步,遥感传感器能够提供越来越多的数据。如何处理这些数据在遥感领域已经产生了巨大的兴趣。在遥感应用方面,例如环境检测、农业管理和城市绘图等,地物分类是非常重要的。利用这些数据所包含的丰富信息来获得高的分类精度,对于我们来说是一个巨大的挑战。特别地,在高光谱数据中光谱信息是极其的丰富。一幅高光谱图像也许包含有上百万个像素,每一个像素包括成百上千个光谱带,这使得人工标记变得很困难。因此,自动地物分类与识别正在成为一个热点。
许多关于遥感图像的自动分类技术的研究均是建立在监督学习方法的基础之上。监督学习的含义为:在已标记数据集上训练得到一个分类器,然后该分类器被用来预测未标记样本的标记。在机器学习领域,大量的分类器已经被开发出来。但是,监督学习器的分类性能依赖于可得到的已标记样本的数目与质量。已标记数据集的大小和一个分类器的分类精度之间通常是正相关的。换句话说,为了得到高的分类精度,已标记样本的数目应该尽可能的大。然而,对于高光谱数据,由于维数通常很高,该问题显得更加严重。当训练样本的数目对特征的数目的比率较小时,也许会发生维数灾难。因此,对于高光谱数据来说,很容易就发生过拟合训练数据的现象,这给分类器的泛化能力带来了不利的影响。
在现实生活中,要获得遥感数据的标记是非常昂贵并耗时的,因为需要专家人为标记或者实地勘察。因此,如何利用尽可能少的已标记样本来获得尽可能高的分类精度在遥感数据分类中起着非常重要的作用。主动学习刚好就是被设计用来强调这类问题。主动学习的目地在于挑选出最具有信息量的未标记样本用于人工标记,这样一个分类器就能够利用尽可能少的已标记样本来获得尽可能高的分类精度。说的更具体一点,在已标记数据集上训练得到一个分类器,该分类器被用来预测未标记样本的标记。基于预先定义的查询策略,获得了每一个未标记样本的信息量。根据信息量的排序挑选出固定数目的最高信息量的样本。分析人员人工地标记这部分最高信息量的样本,该分类器在扩大的已标记数据集上重新训练。该过程重复进行直到一些停止条件被满足。这个过程中最重要的一步是如何度量未标记样本的信息量。如果使用更好的度量方法就能够期待获得更好的分类性能。在机器学习领域中,有关主动学习技术的研究有很多。近些年,主动学习在遥感领域已经引起了极大的兴趣。
上式中,xu为未标记样本,yi取遍所有的可能的标记,v(yi)为所有那些预测得到的类别标记是yi的分类器的数目,m为集成大小。
然而,通过该查询策略所获得的信息量也许重复,这就导致了一些未标记样本拥有同样的信息量并且将被随机挑出。这给分类性能的提高带来了不利的影响。在本发明中,提供了一种基于主动学习的高光谱图像分类方法用来处理这个问题。
发明内容
针对上述问题,本发明的目的是提供基于主动学习的高光谱图像分类方法,旨在降低信息量的重复程度来获得它们的一个更精确的排序,从而提高高光谱图像的分类精度。
为实现上述目的,本发明采取以下技术方案:一种基于主动学习的高光谱图像分类方法,包括如下步骤:
(1)对高光谱图像的每一个样本即像素,提取谱特征与空间特征,将这些特征融合为一个特征向量;
(2)将所有样本随机划分为测试数据集与训练数据集,训练数据集被进一步随机划分为已标记数据集和未标记数据集;
(3)在已标记数据集上构造初始集成分类器;
(4)每一次迭代,根据新的信息量度量准则挑选出固定数目的最高信息量的未标记样本用于人工标记;
(5)利用最终得到的集成分类器进行预测。
所述步骤1)是按以下步骤进行的:
(1a)利用主成分分析PCA算法提取高光谱图像的谱特征,若干个主成分能够包含图像的大部分信息;
(1b)在每一个主成分的基础上进行形态学开和闭运算,提取形态学特征;
(1c)将提取出来的谱特征和形态学特征融入一个特征向量,形成每一个样本即像素的新特征。
所述步骤4)按如下过程进行:
4a)对每一个未标记样本xu,按照新的信息量度量准则计算它的信息量:
上式中,第一项由集成分类器决定,yi取遍所有的可能的标记,v(yi)为所有那些预测得到的类别标记是yi的分类器的数目,m为集成大小,第二项由引入的模型决定,θ为引入的模型,pθ(yi|xu)表示由模型预测得到的未标记样本xu属于类别yi的类概率,c是一个常数;
4b)根据信息量排序未标记样本;
4c)选出n个具有最大的信息量的未标记样本;
4d)人工标记这n个样本,并加入到已标记数据集中;
4e)在扩大的已标记数据集上重新构造集成分类器;
4f)重复步骤(4a)~步骤(4e)直到已标记样本的数量达到训练集合的20%时停止。
本发明由于采取以上技术方案,其具有以下优点:
1、本发明定义了一种新的信息量度量准则,相比于基于集成的查询准则,能够有效降低信息量的重复程度,使得每一次迭代挑选出更好的未标记样本;
2、实验结果表明,相比于基于集成的查询方法,本发明方法能够获得更高的分类精度。
附图说明
图1是本发明的流程示意图;
图2是本发明在Indian Pines高光谱图像上的实验结果图;
图3是本发明在Pavia University高光谱图像上的实验结果图;
图4是本发明在Salinas高光谱图像上的实验结果图。
具体实施方式
下面结合附图和实施例对本发明的进行详细的描述。
参照图1,本发明的具体实现步骤如下:
步骤一、对高光谱图像进行特征提取。
实现该步骤的具体过程如下:
(1a)利用主成分分析PCA算法提取高光谱图像的谱特征,若干个主成分能够包含图像的大部分信息;
(1b)在每一个主成分的基础上进行形态学开和闭运算,提取形态学特征;
(1c)将提取出来的谱特征和形态学特征融入一个特征向量,形成每一个样本即像素的新特征。
步骤二、将所有样本随机划分为已标记数据集、未标记数据集和测试数据集。
所有样本的25%被随机选作测试数据集,剩下的样本被用作训练数据集。在标记率10%的条件下,训练数据集被进一步随机划分为已标记数据集和未标记数据集。测试数据集、已标记数据集和未标记数据集的类别分布与原始的数据集要保持相似。
步骤三、构造初始集成分类器。
在已标记数据集上训练得到6棵具有差异性的随机树,它们构成初始集成分类器。
步骤四、每一次迭代,根据新的信息量度量准则挑选未标记样本。
实现该步骤的具体过程如下:
上式中,第一项由集成分类器决定,yi取遍所有的可能的标记,v(yi)为所有那些预测得到的类别标记是yi的分类器的数目,m为集成大小,第二项由引入的模型决定,θ为引入的模型,pθ(yi|xu)表示由模型预测得到的未标记样本xu属于类别yi的类概率,c是一个常数;
(4b)根据信息量排序未标记样本;
(4c)选出n个具有最大的信息量的未标记样本;
(4d)人工标记这n个样本,并加入到已标记数据集中;
(4e)在扩大的已标记数据集上重新构造集成分类器;
(4f)重复步骤(4a)~步骤(4e)直到已标记样本的数量达到训练集合的20%时停止。
步骤五、利用最终得到的集成分类器进行预测。
主动学习的迭代训练结束以后,就获得了性能较好的集成分类器,利用该分类器在测试数据集上预测,得到分类结果。
本发明的效果可通过以下实验进一步说明:
1仿真内容:应用本发明方法QBC-M和基于集成的查询方法QBC分别对三幅高光谱图像进行分类实验。
2仿真实验结果
A高光谱图像Indian Pines的实验结果
用本方法QBC-M和基于集成的查询方法QBC对高光谱图像Indian Pines进行分类,其效果比较如图2所示,图2描绘了两种方法在不同迭代下的总体平均测试错误率,从图中可以发现在训练迭代期间分类性能得到逐渐地提高,然而,情况并不总是这样;例如,基于集成的查询方法QBC的平均总体分类精度在最后4次循环下降了,在每一次迭代,通过挑选最高信息量的未标记样本用于人工标记,两种方法的分类性能总体上可以得到改善,特别地,在最开始的4次循环改善是很显著的,相比于QBC,本方法QBC-M在任何循环次数都要表现得更好除了第6和第12次循环,而且最后一次循环相对的改进很大。因此,可以看出通过降低信息量的重复程度,QBC的分类性能可以得到进一步地提高,学习曲线证实了本方法的有效性。
B高光谱图像Pavia University的实验结果
用本方法QBC-M和基于集成的查询方法QBC对高光谱图像Pavia University进行分类,其效果比较如图3所示,图3描绘了两种方法在不同迭代下的总体平均测试错误率,从图中可以看出分类性能并不总是随着迭代的进行而提高,有时在一些小的间隔区间内性能变化是不稳定的,一个可能的解决方案是利用所有先前的集成分类器而不是之前的一个来挑选最高信息量的未标记样本并且预测测试样本,然而这是非常耗时的。从总体上看,每一次迭代通过挑选出最高信息量的未标记样本用于人工标记,平均总体分类精度可以得到改善,前两次循环的改善比较明显,相较于QBC,本方法QBC-M在大多数情况下都获得了更好的性能。在第8和第26次循环下相对的改进较大,因此,可以看出通过降低信息量的重复程度,QBC的分类性能能够得到进一步地提高,图中学习曲线证实了本方法的有效性。
C高光谱图像Salinas的实验结果
用本方法QBC-M和基于集成的查询方法QBC对高光谱图像Salinas进行分类,其效果比较如图4所示,图4描绘了两种方法在不同迭代下的总体平均测试错误率。从总体上看,通过主动学习算法,平均总体分类精度可以得到改善,前四次循环的改善比较明显,相比于QBC,本方法QBC-M在大多数情况下都表现得更好,在第2、第4和最后一次循环相对的改进较大,因此,可以看出通过降低信息量的重复程度,QBC的分类性能能够得到进一步地提高。图中学习曲线证实了本方法的有效性。
本发明中提到的英文解释如下:Indian Pines:印第安纳州;Pavia University:帕维亚大学;Salinas:萨利纳斯;QBC-M表示本发明方法;QBC表示基于集成的查询方法。
Claims (3)
1.一种基于主动学习的高光谱图像分类方法,其特征在于:包括如下步骤:
1)对高光谱图像的每一个样本即像素,提取谱特征与空间特征,将提取谱特征与空间特征融合为一个特征向量;
2)将所有样本随机划分为测试数据集与训练数据集,训练数据集被进一步随机划分为已标记数据集和未标记数据集;
3)在已标记数据集上构造初始集成分类器;
4)每一次迭代,根据新的信息量度量准则挑选出固定数目的最高信息量的未标记样本用于人工标记;
5)利用最终得到的集成分类器进行预测。
2.据权利要求1所述的一种基于主动学习的高光谱图像分类方法,其特征在于:所述步骤1)是按以下步骤进行的:
(1a)利用主成分分析PCA算法提取高光谱图像的谱特征,若干个主成分能够包含图像的大部分信息;
(1b)在每一个主成分的基础上进行形态学开和闭运算,提取形态学特征;
(1c)将提取出来的谱特征和形态学特征融入一个特征向量,形成每一个样本即像素的新特征。
3.根据权利要求1所述的一种基于主动学习的高光谱图像分类方法,其特征在于:所述步骤4)按如下过程进行:
4a)对每一个未标记样本xu,按照新的信息量度量准则计算它的信息量:
上式中,第一项由集成分类器决定,yi取遍所有的可能的标记,v(yi)为所有那些预测得到的类别标记是yi的分类器的数目,m为集成大小,第二项由引入的模型决定,θ为引入的模型,pθ(yi|xu)表示由模型预测得到的未标记样本xu属于类别yi的类概率,c是一个常数;
4b)根据信息量排序未标记样本;
4c)选出n个具有最大的信息量的未标记样本;
4d)人工标记这n个样本,并加入到已标记数据集中;
4e)在扩大的已标记数据集上重新构造集成分类器;
4f)重复步骤(4a)~步骤(4e)直到已标记样本的数量达到训练集合的20%时停止。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410066856.9A CN103839078B (zh) | 2014-02-26 | 2014-02-26 | 一种基于主动学习的高光谱图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410066856.9A CN103839078B (zh) | 2014-02-26 | 2014-02-26 | 一种基于主动学习的高光谱图像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103839078A true CN103839078A (zh) | 2014-06-04 |
CN103839078B CN103839078B (zh) | 2017-10-27 |
Family
ID=50802556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410066856.9A Active CN103839078B (zh) | 2014-02-26 | 2014-02-26 | 一种基于主动学习的高光谱图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103839078B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182767A (zh) * | 2014-09-05 | 2014-12-03 | 西安电子科技大学 | 主动学习和邻域信息相结合的高光谱图像分类方法 |
CN104598925A (zh) * | 2015-01-23 | 2015-05-06 | 湖州师范学院 | 一种基于ELM的多类Adaboost集成学习方法 |
CN105046673A (zh) * | 2015-07-13 | 2015-11-11 | 哈尔滨工业大学 | 基于自学习的高光谱图像和可见光图像融合分类方法 |
CN105069133A (zh) * | 2015-08-18 | 2015-11-18 | 东南大学 | 一种基于未标记数据的数字图像分类方法 |
CN105260738A (zh) * | 2015-09-15 | 2016-01-20 | 武汉大学 | 基于主动学习的高分辨率遥感影像变化检测方法及系统 |
CN108885700A (zh) * | 2015-10-02 | 2018-11-23 | 川科德博有限公司 | 数据集半自动标记 |
CN108985360A (zh) * | 2018-06-29 | 2018-12-11 | 西安电子科技大学 | 基于扩展形态学与主动学习的高光谱分类方法 |
US10796145B2 (en) | 2017-06-29 | 2020-10-06 | Samsung Electronics Co., Ltd. | Method and apparatus for separating text and figures in document images |
CN112784818A (zh) * | 2021-03-03 | 2021-05-11 | 电子科技大学 | 基于分组式主动学习在光学遥感图像上的识别方法 |
CN112861802A (zh) * | 2021-03-16 | 2021-05-28 | 吉林大学 | 基于时空深度学习融合技术的农作物全自动化分类方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090125461A1 (en) * | 2007-11-09 | 2009-05-14 | Microsoft Corporation | Multi-Label Active Learning |
CN103166830A (zh) * | 2011-12-14 | 2013-06-19 | 中国电信股份有限公司 | 一种智能选择训练样本的垃圾邮件过滤系统和方法 |
CN103258214A (zh) * | 2013-04-26 | 2013-08-21 | 南京信息工程大学 | 基于图像块主动学习的遥感图像分类方法 |
-
2014
- 2014-02-26 CN CN201410066856.9A patent/CN103839078B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090125461A1 (en) * | 2007-11-09 | 2009-05-14 | Microsoft Corporation | Multi-Label Active Learning |
CN103166830A (zh) * | 2011-12-14 | 2013-06-19 | 中国电信股份有限公司 | 一种智能选择训练样本的垃圾邮件过滤系统和方法 |
CN103258214A (zh) * | 2013-04-26 | 2013-08-21 | 南京信息工程大学 | 基于图像块主动学习的遥感图像分类方法 |
Non-Patent Citations (2)
Title |
---|
BURR SETTLES: ""Active Learning Literature Survey"", 《HTTP://BURRSETTLES.COM/PUB/SETTLES.ACTIVELEARNING.PDF》 * |
MATHIEU FAUVEL: ""Spectral and Spatial Classification of Hyperspectral Data Using SVMs and Morphological Profiles"", 《IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182767A (zh) * | 2014-09-05 | 2014-12-03 | 西安电子科技大学 | 主动学习和邻域信息相结合的高光谱图像分类方法 |
CN104598925A (zh) * | 2015-01-23 | 2015-05-06 | 湖州师范学院 | 一种基于ELM的多类Adaboost集成学习方法 |
CN105046673A (zh) * | 2015-07-13 | 2015-11-11 | 哈尔滨工业大学 | 基于自学习的高光谱图像和可见光图像融合分类方法 |
CN105046673B (zh) * | 2015-07-13 | 2017-11-03 | 哈尔滨工业大学 | 基于自学习的高光谱图像和可见光图像融合分类方法 |
CN105069133A (zh) * | 2015-08-18 | 2015-11-18 | 东南大学 | 一种基于未标记数据的数字图像分类方法 |
CN105260738B (zh) * | 2015-09-15 | 2019-03-19 | 武汉大学 | 基于主动学习的高分辨率遥感影像变化检测方法及系统 |
CN105260738A (zh) * | 2015-09-15 | 2016-01-20 | 武汉大学 | 基于主动学习的高分辨率遥感影像变化检测方法及系统 |
CN108885700A (zh) * | 2015-10-02 | 2018-11-23 | 川科德博有限公司 | 数据集半自动标记 |
US10796145B2 (en) | 2017-06-29 | 2020-10-06 | Samsung Electronics Co., Ltd. | Method and apparatus for separating text and figures in document images |
CN108985360A (zh) * | 2018-06-29 | 2018-12-11 | 西安电子科技大学 | 基于扩展形态学与主动学习的高光谱分类方法 |
CN108985360B (zh) * | 2018-06-29 | 2022-04-08 | 西安电子科技大学 | 基于扩展形态学与主动学习的高光谱分类方法 |
CN112784818A (zh) * | 2021-03-03 | 2021-05-11 | 电子科技大学 | 基于分组式主动学习在光学遥感图像上的识别方法 |
CN112784818B (zh) * | 2021-03-03 | 2023-03-14 | 电子科技大学 | 基于分组式主动学习在光学遥感图像上的识别方法 |
CN112861802A (zh) * | 2021-03-16 | 2021-05-28 | 吉林大学 | 基于时空深度学习融合技术的农作物全自动化分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103839078B (zh) | 2017-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103839078A (zh) | 一种基于主动学习的高光谱图像分类方法 | |
CN107016405B (zh) | 一种基于分级预测卷积神经网络的害虫图像分类方法 | |
Yang et al. | Development of image recognition software based on artificial intelligence algorithm for the efficient sorting of apple fruit | |
CN105488536B (zh) | 一种基于多特征深度学习技术的农田害虫图像识别方法 | |
Zamberletti et al. | Text localization based on fast feature pyramids and multi-resolution maximally stable extremal regions | |
CN106815604B (zh) | 基于多层信息融合的注视点检测方法 | |
Lee et al. | Adaboost for text detection in natural scene | |
CN103632168B (zh) | 一种机器学习中的分类器集成方法 | |
Weaver et al. | LeafMachine: Using machine learning to automate leaf trait extraction from digitized herbarium specimens | |
CN102663401B (zh) | 一种图像特征提取和描述方法 | |
CN108985360A (zh) | 基于扩展形态学与主动学习的高光谱分类方法 | |
CN110309868A (zh) | 结合无监督学习的高光谱图像分类方法 | |
CN105913090B (zh) | 基于sdae-svm的sar图像目标分类方法 | |
CN106845528A (zh) | 一种基于K‑means与深度学习的图像分类算法 | |
CN103258217A (zh) | 一种基于增量学习的行人检测方法 | |
CN112990282B (zh) | 一种细粒度小样本图像的分类方法及装置 | |
CN103177266A (zh) | 储藏物害虫智能识别系统 | |
CN108805102A (zh) | 一种基于深度学习的视频字幕检测与识别方法及系统 | |
CN104182767A (zh) | 主动学习和邻域信息相结合的高光谱图像分类方法 | |
CN110147725A (zh) | 一种基于正交指数局保投影的高光谱图像特征提取方法 | |
CN106250913B (zh) | 一种基于局部典型相关分析的分类器集成车牌识别方法 | |
CN107977667A (zh) | 基于半监督协同训练的sar目标鉴别方法 | |
CN110503140A (zh) | 基于深度迁移学习与邻域降噪的分类方法 | |
Jana et al. | Intra-class recognition of fruits using color and texture features with neural classifiers | |
CN113435254A (zh) | 一种基于哨兵二号影像的耕地深度学习提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |