CN113111969B - 一种基于混合度量的高光谱图像分类方法 - Google Patents

一种基于混合度量的高光谱图像分类方法 Download PDF

Info

Publication number
CN113111969B
CN113111969B CN202110486966.0A CN202110486966A CN113111969B CN 113111969 B CN113111969 B CN 113111969B CN 202110486966 A CN202110486966 A CN 202110486966A CN 113111969 B CN113111969 B CN 113111969B
Authority
CN
China
Prior art keywords
lof
spectral
dis
distance
svm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202110486966.0A
Other languages
English (en)
Other versions
CN113111969A (zh
Inventor
葛海淼
潘海珠
刘沫岐
马卉宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qiqihar University
Original Assignee
Qiqihar University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qiqihar University filed Critical Qiqihar University
Priority to CN202110486966.0A priority Critical patent/CN113111969B/zh
Publication of CN113111969A publication Critical patent/CN113111969A/zh
Application granted granted Critical
Publication of CN113111969B publication Critical patent/CN113111969B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于混合度量的高光谱图像分类方法,该算法基于对象的邻域密度来判断对象的异常程度,对于klof任意正整数,定义x的第k距离为x与某个对象o之间的距离,记为dis_klof(x),其中对象x与对象o之间的距离记为d(x,o),首先用有标记的数据集训练分类器,并使用该分类器对未标记样本分类;判断未标记样本的置信度,将高置信度的未标记样本添加到有标记样本集中;使用k‑NN选择最接近标记样本的kknn未标记邻居样本,计算样本间光谱距离的同时引入空间距离和LOF距离。并利用自适应方法确定k‑NN和LOF的输入参数,有效提高了算法的寻参效率,有效的提高了分类算法的分类精度。提出算法在这些数据集上的分类性能优于同类算法。

Description

一种基于混合度量的高光谱图像分类方法
技术领域
本发明涉及一种图像分类方法,特别涉及一种基于混合度量的高光谱图像分类方法。
背景技术
高光谱遥感技术起源于20世纪80年代初,是在多光谱遥感技术基础之上发展起来的。高光谱遥感能够通过成像光谱仪在可见光、近红外、短波红外、中红外等电磁波谱范围获取近似连续的光谱曲线,将表征地物几何位置关系的空间信息与表征地物属性特征的光谱信息有机地融合在了一起,使得提取地物的细节信息成为可能。随着新型成像光谱仪的光谱分辨率的提高,人们对相关地物的光谱属性特征的了解也不断深入,许多隐藏在狭窄光谱范围内的地物特性逐渐被人们所发现,这些因素大大加速了遥感技术的发展,使高光谱遥感成为21世纪遥感技术领域重要的研究方向之一。
高光谱图像分类作为高光谱图像的基础研究,一直是高光谱图像重要的信息获取手段,它的主要目标是根据待测地物的空间几何信息与光谱信息将图像中的每个像素划分为不同的类别。高光谱图像分类按照是否有已知类别的训练样本的参与,高光谱图像的分类方式分为监督分类与非监督分类。
目前,关于高光谱图像分类采用单一的度量方法,算法的寻参效率以及分类算法的分类精度较低。
发明内容
本发明的目的在于提供一种基于混合度量的高光谱图像分类方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于混合度量的高光谱图像分类方法,包括如下步骤:
A.局部异常因子算法
该算法基于对象的邻域密度来判断对象的异常程度,首先,对klof于任意正整数,定义x的第k距离为x与某个对象o之间的距离,记为dis_klof(x),其中对象x与对象o之间的距离记为d(x,o);
B.二元光谱相似性度量
给定两个光谱向量x和y,x=(x1,x2,…xn),y=(y1,y2,…yn),n是光谱波段总数,包括光谱角度量(Spectral angle metric,SAM)、光谱梯度角(Spectral gradient angle,SGA)、光谱相关角(Spectral correlation angle,SCA)、光谱信息散度(Spectralinformation divergence,SID);
C.基于k-NN和SVM的自训练算法
首先用有标记的数据集训练分类器,并使用该分类器对未标记样本分类;之后,通过某种策略,判断未标记样本的置信度,将高置信度的未标记样本添加到有标记样本集中;重复该过程,直到满足迭代终止条件;
D.基于混合测量k-NN&SVM的自训练分类器
使用k-NN选择最接近标记样本的kknn未标记邻居样本,同时,引入空间距离和LOF距离,结合光谱距离来度量光谱样本的相似性,根据空间域平滑假设,标记样本周围的一定空间内,其邻居样本大概率与该标记样本属于同一类。
进一步地,步骤A中的o(o∈D)满足以下条件:
(1)至少存在k个对象o′∈D\{x},满足d(x,o′)≤d(x,o);
(2)至多存在k-1个对象o′∈D\{x},满足d(x,o′)<d(x,o)。
进一步地,给定x的第k距离dis_klof(x),定义对象x的第k距离邻域为所有与x的距离不大于dis_klof(x)的对象的集合,即
Figure BDA0003050777350000021
其中,q是对象x的第k距离邻域中的对象,并被指定为Nklof(x)。
进一步地,步骤B的光谱相似性度量是欧氏距离(Euclidean distance,ED)定义如下:
Figure BDA0003050777350000022
其计算结果与光谱幅值的差异直接相关,而对光谱形状差异不敏感。
进一步地,光谱角度量(Spectral angle metric,SAM)是基于投影的光谱相似性度量,该方法更关注光谱形状的差异,SAM被定义为:
Figure BDA0003050777350000023
SAM通过光谱向量间的角度来区分光谱。
进一步地,光谱梯度角(Spectral gradient angle,SGA)计算的是光谱向量梯度间的夹角,即
Figure BDA0003050777350000031
这里,有x′i=x′i+1-xi,y′i=y′i+1-yi
进一步地,光谱相关角(Spectral correlation angle,SCA)可以反映光谱相对于平均值的变化,将光谱向量x和y的相关系数定义为:
Figure BDA0003050777350000032
这里的μx和μy是x和y的均值,则光谱相关角SCA定义为:
Figure BDA0003050777350000033
SCA可以在某种程度上反映光谱的局部特征差异。
进一步地,光谱信息散度(Spectral information divergence,SID)是基于信息测度的光谱相似性度量方法,该方法将光谱相似度评估问题转化为光谱向量概率之间的冗余度评估问题,具体地,SID描述如下,将x和y的信息量大小定义为:
I(xi)=-lnp(xi)
I(yi)=-lnq(yi)
这里的
Figure BDA0003050777350000034
然后,两条光谱曲线的相对熵可以定义为:
Figure BDA0003050777350000035
Figure BDA0003050777350000036
最后,将光谱信息散度定义为:
disSID(x,y)=D(x‖y)+D(y‖x)。
与现有技术相比,本发明的有益效果是:
(1)将传统的k-NN方法推广到HSI分类的自训练半监督学习中,用于在迭代中选取置信未标记样本。
(2)在k-NN算法中,采用混合度量方法进行光谱相似性度量,将空间距离、光谱距离和局部异常因子(Local outlier factor,LOF)距离相结合,有效识别未标记样本与标记样本的相似程度。同时,提出一种自适应方法自动获得LOF和k-NN算法的输入参数,有效提高了提出算法的寻参效率。
(3)SVM分类器用来帮助获得自适应参数和搜索置信未标记样本,有效的提高了分类算法的分类精度。
在实验中,采用了两个公开发表的高光谱数据集(包括Indian Pines数据集、WHU-Hi-HongHu)来评价该方法,并与经典的HSI分类算法,即标准k-NN、标准SVM及其改进自训练半监督算法进行了比较。实验结果表明,提出算法在这些数据集上的分类性能优于同类算法。
附图说明
图1a为测试地点收集的高光谱图像数据集图;
图1b为参考地物分类图;
图2a为的高光谱图像数据集图;
图2b为参考地物分类图;
图3为光谱距离对印度松图像SMM-kNN-SVM性能的影响示意图;
图4为空间距离和LOF距离对Indian Pines图像SMM-kNN-SVM性能的影响示意图;
图5a为Indian Pines数据集上获得参考地物分类图;
图5b为Indian Pines数据集上获得k-NN示意图;
图5c为Indian Pines数据集上获得SVM示意图;
图5d为Indian Pines数据集上获得S-kNN示意图;
图5e为Indian Pines数据集上获得S-kNN-SVM示意图;
图5f为Indian Pines数据集上获得SMM-kNN-SVM示意图;
图6为不同的光谱距离对WHU-Hi-HongHu影像SMM-kNN-SVM性能的影响示意图;
图7为WHU-Hi-HongHu影像的空间距离和LOF距离对SMM-kNN-SVM性能的影响示意图;
图8a为WHU-Hi-HongHu的分类参考地物分类图;
图8b为WHU-Hi-HongHu的分类参考地物k-NN示意图;
图8c为WHU-Hi-HongHu的分类参考地物SVM示意图;
图8d为WHU-Hi-HongHu的分类参考地物S-kNN示意图;
图8e为WHU-Hi-HongHu的分类参考地物S-kNN-SVM示意图;
图8f为WHU-Hi-HongHu的分类参考地物SMM-kNN-SVM示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于混合度量的高光谱图像分类方法,包括如下步骤:
A.局部异常因子算法(Local outlier factor,LOF)
局部异常因子算法是一种异常点检测算法,用于计算对象的异常程度。它是基于局部的,即只考虑每个对象的受限邻域。该算法基于对象的邻域密度来判断对象的异常程度。通过以下几个定义,来给出对象的局部异常因子的定义,首先,对klof于任意正整数,定义x的第k距离为x与某个对象o之间的距离,记为dis_klof(x),其中对象x与对象o之间的距离记为d(x,o);o(o∈D)满足以下条件:
(1)至少存在k个对象o′∈D\{x},满足d(x,o′)≤d(x,o);
(2)至多存在k-1个对象o′∈D\{x},满足d(x,o′)<d(x,o)。
接下来,给定x的第k距离dis_klof(x),定义对象x的第k距离邻域为所有与x的距离不大于dis_klof(x)的对象的集合,即
Figure BDA0003050777350000051
其中,q是对象x的第k距离邻域中的对象,并被指定为Nklof(x)。
接下来,对象x相对于对象o的可达距离被定义为:
reach_disklof(x,o)=max{dis_klof(o),d(x,o)}
然后,定义对象x的局部可达密度为:
Figure BDA0003050777350000052
其中
Figure BDA0003050777350000053
是x的k距离邻域中的对象个数。直观地说,对象x的局部可达密度是基于Nklof(x)的平均可达距离的倒数。
最后,定义对象x的局部异常因子为:
Figure BDA0003050777350000054
对象x的异常因子是x的局部可达密度与x的k距离邻域之比的平均值。对于聚类内部的对象x,其LOF值近似为1,根据x的LOF的值与1的关系,可以判断该对象x是异常点的概率。
B.二元光谱相似性度量
二元光谱相似度度量的目的是通过一个特定的准则函数来定量计算光谱之间的相似性,给定两个光谱向量x和y,x=(x1,x2,…xn),y=(y1,y2,…yn),n是光谱波段总数,包括光谱角度量(Spectral angle metric,SAM)、光谱梯度角(Spectral gradient angle,SGA)、光谱相关角(Spectral correlation angle,SCA)、光谱信息散度(Spectralinformation divergence,SID)。
最常用的光谱相似性度量是欧氏距离(Euclidean distance,ED)定义如下:
Figure BDA0003050777350000061
其计算结果与光谱幅值的差异直接相关,而对光谱形状差异不敏感,ED在高光谱数据分析中的应用。
光谱角度量(Spectral angle metric,SAM)是基于投影的光谱相似性度量,该方法更关注光谱形状的差异,SAM被定义为:
Figure BDA0003050777350000062
SAM通过光谱向量间的角度来区分光谱,然而,SAM难以区分光谱的局部特征差异。
光谱梯度角(Spectral gradient angle,SGA)与SAM类似。不同的是,SGA计算的是光谱向量梯度间的夹角,即
Figure BDA0003050777350000063
这里,有x′i=xi+1-xi,y′i=yi+1-yi
光谱相关角(Spectral correlation angle,SCA)可以反映光谱相对于平均值的变化,将光谱向量x和y的相关系数定义为:
Figure BDA0003050777350000064
这里的μx和μy是x和y的均值,则光谱相关角SCA定义为:
Figure BDA0003050777350000071
SCA可以在某种程度上反映光谱的局部特征差异。
光谱信息散度(Spectral information divergence,SID)是基于信息测度的光谱相似性度量方法,该方法将光谱相似度评估问题转化为光谱向量概率之间的冗余度评估问题,具体地,SID描述如下,将x和y的信息量大小定义为:
I(xi)=-lnp(xi)
I(yi)=-lnq(yi)
这里的
Figure BDA0003050777350000075
,然后,两条光谱曲线的相对熵可以定义为:
Figure BDA0003050777350000072
Figure BDA0003050777350000073
最后,将光谱信息散度定义为:
disSID(x,y)=D(x‖y)+D(y‖x)。
两种混合度量定义如下:
disSIDSAM(x,y)=disSID(x,y)×tan(disSAM(x,y))
Figure BDA0003050777350000074
分别缩写为SIDSAM和SIDSGA。这两种光谱度量方法结合SID、SAM和SGA,可以有效的弥补单一光谱度量不能全面的表达光谱特征差异的问题,试验结果表明,这两种光谱度量方法在大部分高光谱图像上表现优于单一光谱度量方法。
C.基于k-NN和SVM的自训练算法
自训练是一种半监督的学习策略。该策略通过迭代的方法,首先用有标记的数据集训练分类器,并使用该分类器对未标记样本分类;之后,通过某种策略,判断未标记样本的置信度,将高置信度的未标记样本添加到有标记样本集中;重复该过程,直到满足迭代终止条件。自训练技术在各种应用中均能提供良好的效果。然而,对未标记样本的误标记会降低分类器的分类精度,即如果将错误分类的未标记样本添加到已标记集合,则后续迭代也将受到影响,并且分类器的准确性会下降。为了克服这个问题,可以采用启发式的方法来选择高置信度的未标记样品。自训练策略可以看作一种封装算法。实际上,任何有监督分类算法都可以运行在其中。具体而言,k-NN算法用于确定未标记样本的分类标记。而SVM则用于加强自训练策略,以帮助k-NN标记未标记的样本。令L和U分别表示标记样本集和未标记样本集,基于k-NN和SVM的自训练过程可以描述如下:
输入:
L:标记样本集
U:未标记样本集
Figure BDA0003050777350000083
1使用L训练SVM分类器
2使用k-NN为U中的未标记样本指定标签
3使用SVM为U中的未标记样本指定标签
4确定
Figure BDA0003050777350000081
,其成员为2和3两步操作后具有相同标签的样本
5确定
Figure BDA0003050777350000082
,其成员为由SVM挑选的高置信度的样本
6U=U-V
7L=L+V
End while。
D.基于混合测量k-NN&SVM的自训练分类器
与经典的基于k-NN和SVM的自训练算法不同,该方法使用k-NN算法来选择未标记的可信样本,而SVM仅起到辅助作用。主要基于以下三个方面考虑:(1)初始有标记数据不足限制了SVM的性能。此种情况下极有可能将分类错误的未标记样本添加到标记集中,这将降低分类准确度。(2)初始标记数据不足不会影响k-NN的性能,只需选择标记样本的kknn个最接近的未标记邻居即可。(3)自训练算法的成功不仅取决于未标记样本的置信度,还取决于未标记样本的信息量。为了选择高信息量的未标记样本,改进了原算法中SVM分类结果对算法的约束,在提出算法中,SVM分类结果仅对标记样本有约束作用。
与经典的基于投票的k-NN算法不同,所提出的方法中,使用k-NN选择最接近标记样本的kknn未标记邻居样本。同时,引入空间距离和LOF距离,结合光谱距离来度量光谱样本的相似性。根据空间域平滑假设,标记样本周围的一定空间内,其邻居样本大概率与该标记样本属于同一类。将空间距离定义为:
Figure BDA0003050777350000084
其中Sx,Sy为样本x和y的空间坐标,||·||L1为L1范式。将LOF距离定义为:
LOF′(x,y)=|LOF(x)-LOF(y)|
disLOF(x,y)=eLOF′(x,y)
其中LOF′(x,y)是LOF(x)-LOF(y)的绝对值,而disLOF(x,y)是x和y之间的LOF距离。结合空间距离,光谱距离和LOF距离,可以将光谱数据混合度量定义为:
disMM(x,y)=dis′SIDSAM(x,y)×dis′NB(x,y)×disLOF(x,y)
其中dis′SIDSAM(x,y)和dis′NB(x,y)分别是disSIDSAM(x,y)和disNB(x,y)的归一化值,以消除数据量纲的影响。
基于混合度量k-NN&SVM的自训练分类器的性能取决于LOF和k-NN算法的性能。同时,LOF和k-NN的质量受参数klof和kknn的影响。传统算法通过经验和反复试验优化这些参数,这增加了计算复杂性。在提出的方法中,采用自适应方法来自动获取这两个参数:
Figure BDA0003050777350000094
Figure BDA0003050777350000091
其中Ni是通过SVM分类得到的第i类样本数,
Figure BDA0003050777350000095
表示向上取整;
Figure BDA0003050777350000092
是由SVM得到的属于第i类的未标记样本数量。从公式中可以看出,klof和kknn是由SVM算法确定的Ni
Figure BDA0003050777350000093
通过计算得到。算法的整体实现如下:
Inputs:
L:标记样本集
U:未标记样本集
iter_max:最大迭代次数
For(iter=1;iter<=iter-max;iter++)
使用标记样本集L训练SVM分类器
L′为L的子集,代表L中被SVM正确分类的样本集
计算L和U的LOF
获得L′中的类别数目c
for(i=1;i<=c;i++)
L′i为L′的子集,其中的元素被SVM分为i类
Ui为U的子集,其中的元素被SVM分为i类
获得ni,是L′i中样本数
for(j=1;j<=nj;j++)
计算U和L′ij之间的距离disSIDSAM,其中L′ij是L′i中的样本j计算U和L′ij之间的距离disNB
将disSIDSAM,及dNB归一化到[1,10],得到dis′SIDSAM和dis′NB
计算U和L′ij之间的距离disLOF
计算disMM=dis′SIDSAM*dis′NB*disLOF
end for
Vi为U的子集,其元素为k-NN混合相似度量disMM确定的可靠样本
end for
将高置信度样本集Vi合并得V
U=U-V
L=L+V
End For
在实验中,引入了两个公开发表的高光谱数据集以测试该算法的性能。数据集的描述如下所示。
Indian Pines高光谱图像数据集是由AVIRIS传感器于1992年在美国西北印第安纳州的Indian Pines测试地点收集的。由145*145像素和200个光谱反射带组成,其波长范围为0.40至2.50μm。空间分辨率约为20m。现有的真实地貌被划分为十六类。Indian Pines的灰色图像和参考地物分类图如图1所示。实验选择了9个类别,包括corn-notill,corn-min,grass/pasture,grass/trees,hay-windrowed,soybeans-notill,soybeans-min,soybeans-clean and woods。
WHU-Hi-HongHu高光谱图像数据集于2017年在中国湖北省洪湖市获得,该数据集配备了DJI Matrice 600Pro无人机平台上的17毫米焦距Headwall Nano-Hyperspec成像传感器。图像的大小为940*475像素,从0.4μm至1.00μm有270个波段。空间分辨率约为0.043m。在实验中,选择了左上角尺寸为200*300的一部分图像。WHU-Hi-HongHu的灰色图像和参考地物分类图如图2所示。包含10个类别,包括红色屋顶、公路、棉花地块、棉柴地块、油菜、白菜、菜心、白萝卜、蚕豆、树。(Red roof,Road,Cotton,Cotton firewood,Rape,Chine’scabbage,Brassica parachinensis,White radish,Broad bean,Tree)。
为了评估提出的SMM-kNN-SVM算法的性能,该算法与标准SVM,标准k-NN,基于k-NN自训练(S-kNN),基于k-NN和SVM的自训练(S-kNN-SVM)算法,在描述的两个高光谱数据集上进行了测试。关于所提出的SMM-kNN-SVM算法,由获得参数klof和kknn。根据经验将iter_max设置为20。通过3重交叉验证选择SVM算法的惩罚系数C和RBF核函数参数σ,二者均在(0.01,100)的范围内。选择标准SVM和k-NN作为对比的有监督算法。对于标准SVM算法,惩罚系数C和RBF核函数的参数σ均通过3重交叉验证来选择,取值范围在(0.01,100)。对于标准k-NN,将参数kknn设置为3。选择S-kNN和S-kNN-SVM作为对比自训练算法。同样将S-kNN和S-kNN-SVM的kknn设置为3。对于S-kNN-SVM,惩罚系数C和RBF核参数σ均通过3重交叉验证来选择,范围在(0.01,100)。
在实验中,采用总体精度(Overall accuracy,OA,以百分比表示),平均精度(Average accuracy,AA,以百分比表示)和Kappa系数(Kappa coefficient,Kappa)来定量比较所有测试算法的性能。每类中随机选择5个样本作为标记样本,其余样本则为未标记样本。
为了评估该分类器中采用的光谱度量方法对分类性能影响,我们在SMM-kNN-SVM算法中采用了不同的光谱距离度量方法,计算多次迭代下的OA,结果如图3所示。SVM的惩罚系数C和RBF核参数σ分别设置为73.8和0.39。可以看到,SIDSAM和SIDSGA的OA始终高于采用其他光谱距离度量方法的OA。比较这几种不同度量方法经20次迭代后的OA,SIDSAM的OA为79.96%,分别比ED,SAM,SCA,SGA,SID和SIDSGA的OA高6.02%,5.08%,3.17%,6.65%,1.35%和0.25%。曲线中存在一些波动,表明错误分类的未标记样本被错误地选择为可信样本加入了分类器的训练集。
此外,当光谱度量采用disSIDSAM,评估光谱距离和LOF距离的影响,经多次迭代的OA如图4所示。可以清楚地看到,disMM比其他方法具有更好的分类性能,而disSIDSAM则显示了较差的精度。这表明混合度量方法改进了样本的相似性度量,提高了算法的性能。
表1总结了运行在Indian Pines数据集上,对比了本发明提出的SMM-kNN-SVM算法以及其他算法在9个类别上的OA,AA,Kappa。可以看到,与传统的k-NN和SVM算法进行对比,除了S-kNN算法,s-kNN-SVM和SMM-kNN-SVM算法的性能得到了改善。从表1中可以看出,SMM-kNN-SVM算法的总体精度OA最好,与k-NN,SVM,S-kNN,S-kNN-SVM相比,分别增长了33.53%,20.12%,33.99%,15.17%。此外,与其他算法相比,SMM-kNN-SVM算法在每一类的分类精度上得到了较好的结果,特别是针对Corn-notill、Corn-min、Soybeans-notill、Soybeans-min、Soybeans-clean。
表1.在Indian Pines数据集上五种算法的总体精度、平均精度、kappa系数和每个类别分类精度对比(粗体值表示每种情况下方法中的最高准确度)
Figure BDA0003050777350000111
Figure BDA0003050777350000121
为了进一步做对比,在图5中收集了分类图。可以清楚地看到,图5(b)-(e)中的噪声比图5(f)中的噪声更容易观察到,特别是Corn-notill,Soybeans-notill,Soybeans-min上的噪声更明显。图5(f)最接近图5(a)中的参考地物分类图。
在实验中,首先基于WHU-Hi-HongHu,将不同的光谱相似性度量方法运用到SMM-kNN-SVM算法中,对比算法总体精度(OA),考察不同度量方法对分类器的性能影响。将SVM的惩罚系数C和RBF核参数σ分别设置为83.16和0.0268。20次迭代的总体精度变化曲线如图6所示。可以看到,SIDSAM和SIDSGA在最终迭代后提供了更高的精度(分别为80.28%和79.47%)。但是,SGA在第6次到第10次迭代过程中提供了更高的精度,SID在第5次到第16次迭代过程中给出了与SIDSAM和SIDSGA相似的精度。SIDSAM精度曲线在iter=4达到一个峰值,即80.01%,之后曲线陡然下降,在iter=5,OA值为76.82%,然后,该曲线轻微上升直到迭代结束。ED和SAM曲线变化趋势类似,整体精度随着迭代次数的增加而增加,而其他度量方法对应的精度-迭代曲线则呈现不同程度的波动。总体而言,从图6中可以直观地看到,经过20次迭代后采用SIDSAM的SMM-kNN-SVM算法的总体精度值最高。
为了评估空间距离和LOF距离都算法分类精度的影响,在图7给出了在所提出的算法中应用不同相似性度量方法的整体精度-迭代对比曲线。从图中可以看出,采用disSIDSAM,算法分类精度随着迭代次数的增加而降低。针对度量方法disSIDSAM*disNB和disMM,算法的总体精度值随着迭代次数的增加而增大。这表明空间距离(disNB)和LOF距离(disMM)有助于高可信未标记样本的选择,同时提高算法的性能。
同时,表2给出本发明提出的SMM-kNN-SVM和其他算法在WHU-Hi-HongHu数据集上运行得到的OA、AA、Kappa和各类分类精度对比值。可以看到,对比OA、AA和Kappa,算法S-kNN的分类精度优于标准k-NN算法,而算法S-kNN-SVM和SMM-kNN-SVM的分类精度则优于标准SVM算法。对比各个类别的分类精度,针对S-kNN算法与标准k-NN算法、S-kNN-SVM和SMM-kNN-SVM与标准SVM算法,发现很难给出一致的评价,例如,在划分Brassica parachinensis类时,标准k-NN算法精度(31.74%)优于S-kNN算法(24.98);而在划分Cotton firewood类别时,标准SVM算法分类精度(57%.42)优于改进的S-kNN-SVM算法(45.96%)。然而,本发明所提出的SMM-kNN-SVM算法,除了Red roof和Road两类之外,在其余类别上的分类精度以及OA、AA、Kappa均高于对比算法。例如,在划分Chines cabbage类和Brassica parachinensis类,SMM-kNN-SVM算法的分类精度分别为71.25%和76.40%,较传统算法分类性能提升显著。
表2.WHU-Hi-HongHu的五种算法的总体准确性,平均准确性,kappa系数和单个分类准确性(粗体值表示每种方法中的最高准确性)
Figure BDA0003050777350000131
图8给出了WHU-Hi-HongHu数据集上的分类图。可以清楚地看到,图8(b)-(e)中的噪声比图8(f)中更容易观察到,特别是Chines cabbage和Brassica parachinensis两类中尤为明显。图8(f)最接近图8(a)中的参考地物分类图。
将训练分类器的算法SMM-kNN-SVM与标准k-NN、标准SVM、S-kNN和S-kNN-SVM进行了性能比较,还给出了光谱相似性混合度量方法对所提出的分类算法的影响。实验结果表明(如图4和图7),考虑了空间距离和LOF距离可以明显提高算法的性能。相对于空间距离,根据空间平滑假设,可以容易地理解,在标记样本邻域中的未标记样本极有可能与标记样本属于同一类。对于LOF距离,用局部可达性密度来度量样本的相似性。具有相似的局部可达性密度的样本具有较小的LOF距离,这表明样本及其邻居的结构相似。
尽管在某些情况下,S-kNN和S-kNN-SVM可以提高标准k-NN和SVM的分类精度,但改进程度明显小于提出的SMM-kNN-SVM算法。原因可以概括为两个方面。首先,在提出的算法中,增加了空间距离和LOF距离来度量样本的相似度,而在S-kNN和S-kNN-SVM中仅使用光谱距离。其次,对比算法S-kNN-SVM受到有监督的分类器SVM的约束,而提出的算法克服了经典SVM的不足,提高了获取信息丰富的未标记样本的能力。
然而,SMM-kNN-SVM算法不能在所有类别的分类中都获得最大的分类精度。例如,在数据集WHU-Hi-Honghu图像中,SMM-kNN-SVM算法对Red roof的分类精度为74.13%,而使用S-kNN分类方法对Red roof的分类精度为89.34%。通过对分类图的观察,发现一些空间维度上靠近Road的Red roof类本被错误的划分为Road类。这表明相似测量(提出的混合度量)不能正确区分这些样本。从分类图可以看出,被错误分类的Red roof样本绝大部分都在靠近Road类一侧。由于两类样本的空间距离接近,削弱了混合度量中空间距离的区分度,且这两类样本的光谱距离和样本结构也很相似,这些原因造成了靠近Road的Red roof样本被错误划分到Road类中。分析这种现象,可以看出,提出的基于SMM-kNN-SVM算法对于多类混杂分布的数据集的分类能力较弱。
同时,所提出的算法复杂度高于本发明中的对比算法。空间距离和LOF距离的计算是主要的附加计算。具体而言,假设样本数为N,空间距离的计算复杂度为O(N·N),LOF距离的计算复杂度为O(Klof·N·N)。此外,在所提出的算法中,SIDSAM距离用于度量光谱距离,是SID(O(N·N))和SAM(O(N·N))的组合。综上,混合度量的额外计算复杂度估计为((Klof+3)·N·N).。可以看到,所提出的算法复杂度高于对比算法。
尽管所提出的SMM-kNN-SVM算法的分类结果较对比算法具有竞争力,但在其他场景下还需进一步的实验。此外,额外的复杂性限制了所提出算法的应用,进一步的工作将集中在算法简化上。
在本发明中提出了一种新颖的混合度量方法,该方法将光谱距离,空间距离和LOF距离结合在一起,将样本相似性度量到k-NN算法种,同时结合SVM算法来选择高可信的未标记样本,训练一个用于高光谱图像的分类器。此外,提供了一种用于获取LOF和k-NN参数的自适应方法,以降低寻参的计算复杂度。
为了评估提出的算法有效性,使用两个公开的高光谱图像数据集进行了实验,将其结果与标准k-NN,标准SVM,S-kNN和S-kNN-SVM的结果进行了比较。结果表明,空间距离和LOF距离都可以显著提高分类算法的精度。此外,通过对实验结果定性和定量分析,与几个算法相比,所提出的SMM-kNN-SVM算法有更高的整体精度和个体分类精度。此外,分析了提出算法的有效性并给出了算法的局限性。最后,讨论了所提出算法的计算复杂度。
进一步的工作将致力于简化混合度量算法的计算复杂度以及参数自适应优化方法以增强算法分类性能。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种基于混合度量的高光谱图像分类方法,其特征在于,包括如下步骤:
A.局部异常因子算法
该算法基于对象的邻域密度来判断对象的异常程度,首先,klof属于任意正整数,定义x的第k距离为x与某个对象o之间的距离,记为dis_klof(x),其中对象x与对象o之间的距离记为d(x,o);
B.二元光谱相似性度量
给定两个光谱向量x和y,x=(x1,x2,…xn),y=(y1,y2,…yn),n是光谱波段总数,包括光谱角度量(Spectral angle metric,SAM)、光谱梯度角(Spectral gradient angle,SGA)、光谱相关角(Spectral correlation angle,SCA)、光谱信息散度(Spectral informationdivergence,SID);
C.基于k-NN和SVM的自训练算法
首先用有标记的数据集训练分类器,并使用该分类器对未标记样本分类;之后,通过某种策略,判断未标记样本的置信度,将高置信度的未标记样本添加到有标记样本集中;重复该过程,直到满足迭代终止条件;采用启发式的方法来选择高置信度的未标记样品;k-NN算法用于确定未标记样本的分类标记;SVM则用于加强自训练策略,以帮助k-NN标记未标记的样本;令L和U分别表示标记样本集和未标记样本集,基于k-NN和SVM的自训练过程可以描述如下:
输入:
L:标记样本集
U:未标记样本集
Figure FDA0003514373380000011
1使用L训练SVM分类器
2使用k-NN为U中的未标记样本指定标签
3使用SVM为U中的未标记样本指定标签
4确定
Figure FDA0003514373380000012
其成员为2和3两步操作后具有相同标签的样本
5确定
Figure FDA0003514373380000013
其成员为由SVM挑选的高置信度的样本
6U=U-V
7L=L+V
End while;
D.基于混合测量k-NN&SVM的自训练分类器
使用k-NN选择最接近标记样本的kknn未标记邻居样本,同时,引入空间距离和LOF距离,结合光谱距离来度量光谱样本的相似性,根据空间域平滑假设,标记样本周围的一定空间内,其邻居样本大概率与该标记样本属于同一类;
使用k-NN选择最接近标记样本的kknn未标记邻居样本;并引入空间距离和LOF距离,结合光谱距离来度量光谱样本的相似性;根据空间域平滑假设,标记样本周围的一定空间内,其邻居样本大概率与该标记样本属于同一类;将空间距离定义为:
Figure FDA0003514373380000021
其中Sx,Sy为样本x和y的空间坐标,||·||L1为L1范式; 将LOF距离定义为:
LOF′(x,y)=|LOF(x)-LOF(y)|
disLOF(x,y)=eLOF′(x,y)
其中LOF′(x,y)是LOF(x)-LOF(y)的绝对值,而disLOF(x,y)是x和y之间的LOF距离;结合空间距离,光谱距离和LOF距离,可以将光谱数据混合度量定义为:
disMM(x,y)=dis′SIDSAM(x,y)×dis′NB(x,y)×disLOF(x,y)
其中dis′SIDSAM(x,y)和dis′NB(x,y)分别是disSIDSAM(x,y)和disNB(x,y)的归一化值,以消除数据量纲的影响;
基于混合度量k-NN&SVM的自训练分类器的性能取决于LOF和k-NN算法的性能;同时,LOF和k-NN的质量受参数klof和kknn的影响;采用自适应方法来自动获取这两个参数:
Figure FDA0003514373380000026
Figure FDA0003514373380000022
其中Ni是通过SVM分类得到的第i类样本数,
Figure FDA0003514373380000023
表示向上取整;
Figure FDA0003514373380000024
是由SVM得到的属于第i类的未标记样本数量; 从公式中可以看出,klof和kknn是由SVM算法确定的Ni
Figure FDA0003514373380000025
通过计算得到;算法的整体实现如下:
Inputs:
L:标记样本集
U:未标记样本集
iter_max:最大迭代次数
For(iter=1;iter<=iter_max;iter++)
使用标记样本集L训练SVM分类器
L′为L的子集,代表L中被SVM正确分类的样本集
计算L和U的LOF
获得L′中的类别数目c
for(i=1;i<=c;i++)
L′i为L′的子集,其中的元素被SVM分为i类
Ui为U的子集,其中的元素被SVM分为i类
获得ni,是L′i中样本数
for(j=1;j<=nj;j++)
计算U和L′ij之间的距离disSIDSAM,其中L′ij是L′i中的样本j计算U和L′ij之间的距离disNB
将disSIDSAM,及dNB归一化到[1,10],得到dis′SIDSAM和dis′NB
计算U和L′ij之间的距离disLOF
计算disMM=dis′SIDSAM*dis′NB*disLOF
end for
Vi为U的子集,其元素为k-NN混合相似度量disMM确定的可靠样本
end for
将高置信度样本集Vi合并得V
U=U-V
L=L+V
End For。
2.如权利要求1所述的一种基于混合度量的高光谱图像分类方法,其特征在于,步骤A中的o(o∈D)满足以下条件:
(1)至少存在k个对象o′∈D\{x},满足d(x,o′)≤d(x,o);
(2)至多存在k-1个对象o′∈D\{x},满足d(x,o′)<d(x,o)。
3.如权利要求2所述的一种基于混合度量的高光谱图像分类方法,其特征在于,给定x的第k距离dis_klof(x),定义对象x的第k距离邻域为所有与x的距离不大于dis_klof(x)的对象的集合,即
Figure FDA0003514373380000031
其中,q是对象x的第k距离邻域中的对象,并被指定为Nklof(x)。
4.如权利要求1所述的一种基于混合度量的高光谱图像分类方法,其特征在于,步骤B的光谱相似性度量是欧氏距离(Euclidean distance,ED)定义如下:
Figure FDA0003514373380000041
其计算结果与光谱幅值的差异直接相关,而对光谱形状差异不敏感。
5.如权利要求1所述的一种基于混合度量的高光谱图像分类方法,其特征在于,光谱角度量(Spectral angle metric,SAM)是基于投影的光谱相似性度量,该方法更关注光谱形状的差异,SAM被定义为:
Figure FDA0003514373380000042
SAM通过光谱向量间的角度来区分光谱。
6.如权利要求1所述的一种基于混合度量的高光谱图像分类方法,其特征在于,光谱梯度角(Spectral gradient angle,SGA)计算的是光谱向量梯度间的夹角,即
Figure FDA0003514373380000043
这里,有x′i=x′i+1-xi,y′i=y′i+1-yi
7.如权利要求1所述的一种基于混合度量的高光谱图像分类方法,其特征在于,光谱相关角(Spectral correlation angle,SCA)可以反映光谱相对于平均值的变化,将光谱向量x和y的相关系数定义为:
Figure FDA0003514373380000044
这里的μx和μy是x和y的均值,则光谱相关角SCA定义为:
Figure FDA0003514373380000045
SCA可以在某种程度上反映光谱的局部特征差异。
8.如权利要求1所述的基于混合度量的高光谱图像分类方法,其特征在于,光谱信息散度(Spectral information divergence,SID)是基于信息测度的光谱相似性度量方法,该方法将光谱相似度评估问题转化为光谱向量概率之间的冗余度评估问题,具体地,SID描述如下,将x和y的信息量大小定义为:
I(xi)=-ln p(xi)
I(yi)=-lnq(yi)
这里的
Figure FDA0003514373380000051
然后,两条光谱曲线的相对熵可以定义为:
Figure FDA0003514373380000052
Figure FDA0003514373380000053
最后,将光谱信息散度定义为:
disSID(x,y)=D(x‖y)+D(y‖x)。
CN202110486966.0A 2021-05-03 2021-05-03 一种基于混合度量的高光谱图像分类方法 Expired - Fee Related CN113111969B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110486966.0A CN113111969B (zh) 2021-05-03 2021-05-03 一种基于混合度量的高光谱图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110486966.0A CN113111969B (zh) 2021-05-03 2021-05-03 一种基于混合度量的高光谱图像分类方法

Publications (2)

Publication Number Publication Date
CN113111969A CN113111969A (zh) 2021-07-13
CN113111969B true CN113111969B (zh) 2022-05-06

Family

ID=76720822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110486966.0A Expired - Fee Related CN113111969B (zh) 2021-05-03 2021-05-03 一种基于混合度量的高光谱图像分类方法

Country Status (1)

Country Link
CN (1) CN113111969B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591816B (zh) * 2021-09-29 2022-02-22 广东省科学院智能制造研究所 基于自监督引导编码网络的高光谱异常检测方法和系统
CN116310572B (zh) * 2023-03-23 2024-01-23 齐齐哈尔大学 金字塔多尺度卷积和自注意力结合的高光谱图像分类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096825A (zh) * 2011-03-23 2011-06-15 西安电子科技大学 基于图的半监督高光谱遥感图像分类方法
CN106056157A (zh) * 2016-06-01 2016-10-26 西北大学 基于空‑谱信息的高光谱图像半监督分类方法
CN106203523A (zh) * 2016-07-17 2016-12-07 西安电子科技大学 基于梯度提升决策树半监督算法融合的高光谱图像分类
CN107194428A (zh) * 2017-05-26 2017-09-22 重庆师范大学 一种基于近邻密度和半监督knn的集成自训练方法
CN111881989A (zh) * 2020-08-03 2020-11-03 齐齐哈尔大学 一种高光谱图像分类算法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7970718B2 (en) * 2001-05-18 2011-06-28 Health Discovery Corporation Method for feature selection and for evaluating features identified as significant for classifying data
CN104182767B (zh) * 2014-09-05 2018-03-13 西安电子科技大学 主动学习和邻域信息相结合的高光谱图像分类方法
CN104318242A (zh) * 2014-10-08 2015-01-28 中国人民解放军空军工程大学 一种高效的svm主动半监督学习算法
CN107092921A (zh) * 2017-03-10 2017-08-25 佛山市南海区广工大数控装备协同创新研究院 基于k最近邻滤波的高光谱图像分类方法
US10936921B2 (en) * 2017-06-15 2021-03-02 Spynsite Llc Machine learning and/or image processing for spectral object classification
CN107451614B (zh) * 2017-08-01 2019-12-24 西安电子科技大学 基于空间坐标与空谱特征融合的高光谱分类方法
CN110399909B (zh) * 2019-07-08 2021-07-27 南京信息工程大学 一种基于标签约束弹性网图模型的高光谱图像分类方法
US11610076B2 (en) * 2019-08-07 2023-03-21 Applied Materials, Inc. Automatic and adaptive fault detection and classification limits
CN110992334B (zh) * 2019-11-29 2023-04-07 四川虹微技术有限公司 用于dcgan网络生成图像的质量评估方法
CN112418348A (zh) * 2020-12-11 2021-02-26 大连理工大学 一种基于包络优化的图像来源鉴别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096825A (zh) * 2011-03-23 2011-06-15 西安电子科技大学 基于图的半监督高光谱遥感图像分类方法
CN106056157A (zh) * 2016-06-01 2016-10-26 西北大学 基于空‑谱信息的高光谱图像半监督分类方法
CN106203523A (zh) * 2016-07-17 2016-12-07 西安电子科技大学 基于梯度提升决策树半监督算法融合的高光谱图像分类
CN107194428A (zh) * 2017-05-26 2017-09-22 重庆师范大学 一种基于近邻密度和半监督knn的集成自训练方法
CN111881989A (zh) * 2020-08-03 2020-11-03 齐齐哈尔大学 一种高光谱图像分类算法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Combining Active Learning with Self-train algorithm for classification of multimodal problems;Stamatis Karlos 等;《2019 10th International Conference on Information, Intelligence, Systems and Applications (IISA)》;20191114;第1-8页 *
基于图形小波变换的遥感图像表示与去噪;石翠萍等;《电讯技术》;20200128(第01期);第76-80页 *
融合光谱-空间信息的高光谱遥感影像增量分类算法;王俊淑等;《测绘学报》;20150915(第09期);第1003-1013页 *

Also Published As

Publication number Publication date
CN113111969A (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
Wang et al. Discriminative multiple kernel learning for hyperspectral image classification
US9547807B2 (en) Image processing and object classification
CN113111969B (zh) 一种基于混合度量的高光谱图像分类方法
CN106295124A (zh) 利用多种图像检测技术综合分析基因子图相似概率量的方法
CN112101271A (zh) 一种高光谱遥感影像分类方法及装置
CN113569724B (zh) 基于注意力机制和扩张卷积的道路提取方法及系统
CN101916379A (zh) 一种基于对象积累视觉注意机制的目标搜索和识别方法
CN113723492B (zh) 一种改进主动深度学习的高光谱图像半监督分类方法及装置
CN106127228A (zh) 一种基于决策模板分类器融合的遥感图像船舶检测候选区鉴别方法
CN107145831B (zh) 基于矢量概率扩散和马尔科夫随机场高光谱影像分类方法
CN114511012A (zh) 基于特征匹配和位置匹配的sar图像与光学图像匹配方法
Faria et al. Time series-based classifier fusion for fine-grained plant species recognition
CN109784142B (zh) 一种基于条件随机投影的高光谱目标检测方法
CN116310471A (zh) 一种高光谱影像分类方法
Shambulinga et al. Supervised hyperspectral image classification using SVM and linear discriminant analysis
Berge et al. Sparse inverse covariance estimates for hyperspectral image classification
An et al. Tensor based low rank representation of hyperspectral images for wheat seeds varieties identification
CN113191996A (zh) 一种遥感影像变化检测方法、装置及其电子设备
CN104239895A (zh) 基于特征降维的sar目标鉴别方法
CN111666999A (zh) 一种遥感图像的分类方法
CN114863291B (zh) 基于mcl和光谱差异度量的高光谱影像波段选择方法
CN110807387A (zh) 一种基于高光谱图像特征的对象分类方法及系统
CN107798286B (zh) 基于标记样本位置的高光谱图像进化分类方法
CN113469084B (zh) 基于对比生成对抗网络的高光谱图像分类方法
CN112990368B (zh) 一种多边形结构引导的高光谱图像单样本识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220506

CF01 Termination of patent right due to non-payment of annual fee