CN113111969B

CN113111969B - 一种基于混合度量的高光谱图像分类方法

Info

Publication number: CN113111969B
Application number: CN202110486966.0A
Authority: CN
Inventors: 葛海淼; 潘海珠; 刘沫岐; 马卉宇
Original assignee: Qiqihar University
Current assignee: Qiqihar University
Priority date: 2021-05-03
Filing date: 2021-05-03
Publication date: 2022-05-06
Anticipated expiration: 2041-05-03
Also published as: CN113111969A

Abstract

本发明公开了一种基于混合度量的高光谱图像分类方法，该算法基于对象的邻域密度来判断对象的异常程度，对于k_lof任意正整数，定义x的第k距离为x与某个对象o之间的距离，记为dis_k_lof(x)，其中对象x与对象o之间的距离记为d(x，o)，首先用有标记的数据集训练分类器，并使用该分类器对未标记样本分类；判断未标记样本的置信度，将高置信度的未标记样本添加到有标记样本集中；使用k‑NN选择最接近标记样本的k_knn未标记邻居样本，计算样本间光谱距离的同时引入空间距离和LOF距离。并利用自适应方法确定k‑NN和LOF的输入参数，有效提高了算法的寻参效率，有效的提高了分类算法的分类精度。提出算法在这些数据集上的分类性能优于同类算法。

Description

一种基于混合度量的高光谱图像分类方法

技术领域

本发明涉及一种图像分类方法，特别涉及一种基于混合度量的高光谱图像分类方法。

背景技术

高光谱遥感技术起源于20世纪80年代初，是在多光谱遥感技术基础之上发展起来的。高光谱遥感能够通过成像光谱仪在可见光、近红外、短波红外、中红外等电磁波谱范围获取近似连续的光谱曲线，将表征地物几何位置关系的空间信息与表征地物属性特征的光谱信息有机地融合在了一起，使得提取地物的细节信息成为可能。随着新型成像光谱仪的光谱分辨率的提高，人们对相关地物的光谱属性特征的了解也不断深入，许多隐藏在狭窄光谱范围内的地物特性逐渐被人们所发现，这些因素大大加速了遥感技术的发展，使高光谱遥感成为21世纪遥感技术领域重要的研究方向之一。

高光谱图像分类作为高光谱图像的基础研究，一直是高光谱图像重要的信息获取手段，它的主要目标是根据待测地物的空间几何信息与光谱信息将图像中的每个像素划分为不同的类别。高光谱图像分类按照是否有已知类别的训练样本的参与，高光谱图像的分类方式分为监督分类与非监督分类。

目前，关于高光谱图像分类采用单一的度量方法，算法的寻参效率以及分类算法的分类精度较低。

发明内容

本发明的目的在于提供一种基于混合度量的高光谱图像分类方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于混合度量的高光谱图像分类方法，包括如下步骤：

A.局部异常因子算法

该算法基于对象的邻域密度来判断对象的异常程度，首先，对k_lof于任意正整数，定义x的第k距离为x与某个对象o之间的距离，记为dis_k_lof(x)，其中对象x与对象o之间的距离记为d(x，o)；

B.二元光谱相似性度量

给定两个光谱向量x和y，x＝(x₁，x₂，…x_n)，y＝(y₁，y₂，…y_n)，n是光谱波段总数，包括光谱角度量(Spectral angle metric,SAM)、光谱梯度角(Spectral gradient angle,SGA)、光谱相关角(Spectral correlation angle,SCA)、光谱信息散度(Spectralinformation divergence,SID)；

C.基于k-NN和SVM的自训练算法

首先用有标记的数据集训练分类器，并使用该分类器对未标记样本分类；之后，通过某种策略，判断未标记样本的置信度，将高置信度的未标记样本添加到有标记样本集中；重复该过程，直到满足迭代终止条件；

D.基于混合测量k-NN&SVM的自训练分类器

使用k-NN选择最接近标记样本的k_knn未标记邻居样本，同时，引入空间距离和LOF距离，结合光谱距离来度量光谱样本的相似性，根据空间域平滑假设，标记样本周围的一定空间内，其邻居样本大概率与该标记样本属于同一类。

进一步地，步骤A中的o(o∈D)满足以下条件：

(1)至少存在k个对象o′∈D\{x}，满足d(x,o′)≤d(x,o)；

(2)至多存在k-1个对象o′∈D\{x}，满足d(x,o′)＜d(x,o)。

进一步地，给定x的第k距离dis＿k_lof(x)，定义对象x的第k距离邻域为所有与x的距离不大于dis＿k_lof(x)的对象的集合，即

其中，q是对象x的第k距离邻域中的对象，并被指定为Nk_lof(x)。

进一步地，步骤B的光谱相似性度量是欧氏距离(Euclidean distance,ED)定义如下：

其计算结果与光谱幅值的差异直接相关，而对光谱形状差异不敏感。

进一步地，光谱角度量(Spectral angle metric,SAM)是基于投影的光谱相似性度量，该方法更关注光谱形状的差异，SAM被定义为：

SAM通过光谱向量间的角度来区分光谱。

进一步地，光谱梯度角(Spectral gradient angle,SGA)计算的是光谱向量梯度间的夹角，即

这里，有x′_i＝x′_i+1-x_i，y′_i＝y′_i+1-y_i。

进一步地，光谱相关角(Spectral correlation angle,SCA)可以反映光谱相对于平均值的变化，将光谱向量x和y的相关系数定义为：

这里的μ_x和μ_y是x和y的均值，则光谱相关角SCA定义为：

SCA可以在某种程度上反映光谱的局部特征差异。

进一步地，光谱信息散度(Spectral information divergence,SID)是基于信息测度的光谱相似性度量方法，该方法将光谱相似度评估问题转化为光谱向量概率之间的冗余度评估问题，具体地，SID描述如下，将x和y的信息量大小定义为：

I(x_i)＝-lnp(x_i)

I(y_i)＝-lnq(y_i)

这里的

然后，两条光谱曲线的相对熵可以定义为：

最后，将光谱信息散度定义为：

dis_SID(x,y)＝D(x‖y)+D(y‖x)。

与现有技术相比，本发明的有益效果是：

(1)将传统的k-NN方法推广到HSI分类的自训练半监督学习中，用于在迭代中选取置信未标记样本。

(2)在k-NN算法中，采用混合度量方法进行光谱相似性度量，将空间距离、光谱距离和局部异常因子(Local outlier factor,LOF)距离相结合，有效识别未标记样本与标记样本的相似程度。同时，提出一种自适应方法自动获得LOF和k-NN算法的输入参数，有效提高了提出算法的寻参效率。

(3)SVM分类器用来帮助获得自适应参数和搜索置信未标记样本，有效的提高了分类算法的分类精度。

在实验中，采用了两个公开发表的高光谱数据集(包括Indian Pines数据集、WHU-Hi-HongHu)来评价该方法，并与经典的HSI分类算法，即标准k-NN、标准SVM及其改进自训练半监督算法进行了比较。实验结果表明，提出算法在这些数据集上的分类性能优于同类算法。

附图说明

图1a为测试地点收集的高光谱图像数据集图；

图1b为参考地物分类图；

图2a为的高光谱图像数据集图；

图2b为参考地物分类图；

图3为光谱距离对印度松图像SMM-kNN-SVM性能的影响示意图；

图4为空间距离和LOF距离对Indian Pines图像SMM-kNN-SVM性能的影响示意图；

图5a为Indian Pines数据集上获得参考地物分类图；

图5b为Indian Pines数据集上获得k-NN示意图；

图5c为Indian Pines数据集上获得SVM示意图；

图5d为Indian Pines数据集上获得S-kNN示意图；

图5e为Indian Pines数据集上获得S-kNN-SVM示意图；

图5f为Indian Pines数据集上获得SMM-kNN-SVM示意图；

图6为不同的光谱距离对WHU-Hi-HongHu影像SMM-kNN-SVM性能的影响示意图；

图7为WHU-Hi-HongHu影像的空间距离和LOF距离对SMM-kNN-SVM性能的影响示意图；

图8a为WHU-Hi-HongHu的分类参考地物分类图；

图8b为WHU-Hi-HongHu的分类参考地物k-NN示意图；

图8c为WHU-Hi-HongHu的分类参考地物SVM示意图；

图8d为WHU-Hi-HongHu的分类参考地物S-kNN示意图；

图8e为WHU-Hi-HongHu的分类参考地物S-kNN-SVM示意图；

图8f为WHU-Hi-HongHu的分类参考地物SMM-kNN-SVM示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于混合度量的高光谱图像分类方法，包括如下步骤：

A.局部异常因子算法(Local outlier factor，LOF)

局部异常因子算法是一种异常点检测算法，用于计算对象的异常程度。它是基于局部的，即只考虑每个对象的受限邻域。该算法基于对象的邻域密度来判断对象的异常程度。通过以下几个定义，来给出对象的局部异常因子的定义，首先，对k_lof于任意正整数，定义x的第k距离为x与某个对象o之间的距离，记为dis_k_lof(x)，其中对象x与对象o之间的距离记为d(x，o)；o(o∈D)满足以下条件：

(1)至少存在k个对象o′∈D\{x}，满足d(x，o′)≤d(x，o)；

(2)至多存在k-1个对象o′∈D\{x}，满足d(x，o′)＜d(x，o)。

接下来，给定x的第k距离dis＿k_lof(x)，定义对象x的第k距离邻域为所有与x的距离不大于dis＿k_lof(x)的对象的集合，即

接下来，对象x相对于对象o的可达距离被定义为：

reach_disk_lof(x,o)＝max{dis_k_lof(o),d(x,o)}

然后，定义对象x的局部可达密度为：

其中

是x的k距离邻域中的对象个数。直观地说，对象x的局部可达密度是基于N_klof(x)的平均可达距离的倒数。

最后，定义对象x的局部异常因子为：

对象x的异常因子是x的局部可达密度与x的k距离邻域之比的平均值。对于聚类内部的对象x，其LOF值近似为1，根据x的LOF的值与1的关系，可以判断该对象x是异常点的概率。

B.二元光谱相似性度量

二元光谱相似度度量的目的是通过一个特定的准则函数来定量计算光谱之间的相似性，给定两个光谱向量x和y，x＝(x₁，x₂，…x_n)，y＝(y₁，y₂，…y_n)，n是光谱波段总数，包括光谱角度量(Spectral angle metric,SAM)、光谱梯度角(Spectral gradient angle,SGA)、光谱相关角(Spectral correlation angle,SCA)、光谱信息散度(Spectralinformation divergence,SID)。

最常用的光谱相似性度量是欧氏距离(Euclidean distance,ED)定义如下：

其计算结果与光谱幅值的差异直接相关，而对光谱形状差异不敏感，ED在高光谱数据分析中的应用。

光谱角度量(Spectral angle metric,SAM)是基于投影的光谱相似性度量，该方法更关注光谱形状的差异，SAM被定义为：

SAM通过光谱向量间的角度来区分光谱，然而，SAM难以区分光谱的局部特征差异。

光谱梯度角(Spectral gradient angle,SGA)与SAM类似。不同的是，SGA计算的是光谱向量梯度间的夹角，即

这里，有x′_i＝x_i+1-x_i，y′_i＝y_i+1-y_i。

光谱相关角(Spectral correlation angle,SCA)可以反映光谱相对于平均值的变化，将光谱向量x和y的相关系数定义为：

这里的μ_x和μ_y是x和y的均值，则光谱相关角SCA定义为：

SCA可以在某种程度上反映光谱的局部特征差异。

光谱信息散度(Spectral information divergence,SID)是基于信息测度的光谱相似性度量方法，该方法将光谱相似度评估问题转化为光谱向量概率之间的冗余度评估问题，具体地，SID描述如下，将x和y的信息量大小定义为：

I(x_i)＝-lnp(x_i)

I(y_i)＝-lnq(y_i)

这里的

，然后，两条光谱曲线的相对熵可以定义为：

最后，将光谱信息散度定义为：

dis_SID(x,y)＝D(x‖y)+D(y‖x)。

两种混合度量定义如下：

dis_SIDSAM(x,y)＝dis_SID(x,y)×tan(dis_SAM(x,y))

分别缩写为SIDSAM和SIDSGA。这两种光谱度量方法结合SID、SAM和SGA，可以有效的弥补单一光谱度量不能全面的表达光谱特征差异的问题，试验结果表明，这两种光谱度量方法在大部分高光谱图像上表现优于单一光谱度量方法。

C.基于k-NN和SVM的自训练算法

自训练是一种半监督的学习策略。该策略通过迭代的方法，首先用有标记的数据集训练分类器，并使用该分类器对未标记样本分类；之后，通过某种策略，判断未标记样本的置信度，将高置信度的未标记样本添加到有标记样本集中；重复该过程，直到满足迭代终止条件。自训练技术在各种应用中均能提供良好的效果。然而，对未标记样本的误标记会降低分类器的分类精度，即如果将错误分类的未标记样本添加到已标记集合，则后续迭代也将受到影响，并且分类器的准确性会下降。为了克服这个问题，可以采用启发式的方法来选择高置信度的未标记样品。自训练策略可以看作一种封装算法。实际上，任何有监督分类算法都可以运行在其中。具体而言，k-NN算法用于确定未标记样本的分类标记。而SVM则用于加强自训练策略，以帮助k-NN标记未标记的样本。令L和U分别表示标记样本集和未标记样本集，基于k-NN和SVM的自训练过程可以描述如下：

输入:

L：标记样本集

U：未标记样本集

1使用L训练SVM分类器

2使用k-NN为U中的未标记样本指定标签

3使用SVM为U中的未标记样本指定标签

4确定

，其成员为2和3两步操作后具有相同标签的样本

5确定

，其成员为由SVM挑选的高置信度的样本

6U＝U-V

7L＝L+V

End while。

D.基于混合测量k-NN&SVM的自训练分类器

与经典的基于k-NN和SVM的自训练算法不同，该方法使用k-NN算法来选择未标记的可信样本，而SVM仅起到辅助作用。主要基于以下三个方面考虑：(1)初始有标记数据不足限制了SVM的性能。此种情况下极有可能将分类错误的未标记样本添加到标记集中，这将降低分类准确度。(2)初始标记数据不足不会影响k-NN的性能，只需选择标记样本的k_knn个最接近的未标记邻居即可。(3)自训练算法的成功不仅取决于未标记样本的置信度，还取决于未标记样本的信息量。为了选择高信息量的未标记样本，改进了原算法中SVM分类结果对算法的约束，在提出算法中，SVM分类结果仅对标记样本有约束作用。

与经典的基于投票的k-NN算法不同，所提出的方法中，使用k-NN选择最接近标记样本的k_knn未标记邻居样本。同时，引入空间距离和LOF距离，结合光谱距离来度量光谱样本的相似性。根据空间域平滑假设，标记样本周围的一定空间内，其邻居样本大概率与该标记样本属于同一类。将空间距离定义为：

其中S_x,S_y为样本x和y的空间坐标，||·||_L1为L1范式。将LOF距离定义为：

LOF′(x,y)＝|LOF(x)-LOF(y)|

dis_LOF(x,y)＝e^LOF′(x,y)

其中LOF′(x，y)是LOF(x)-LOF(y)的绝对值，而dis_LOF(x，y)是x和y之间的LOF距离。结合空间距离，光谱距离和LOF距离，可以将光谱数据混合度量定义为:

dis_MM(x,y)＝dis′_SIDSAM(x,y)×dis′_NB(x,y)×dis_LOF(x,y)

其中dis′_SIDSAM(x，y)和dis′_NB(x，y)分别是dis_SIDSAM(x，y)和dis_NB(x，y)的归一化值，以消除数据量纲的影响。

基于混合度量k-NN&SVM的自训练分类器的性能取决于LOF和k-NN算法的性能。同时，LOF和k-NN的质量受参数k_lof和k_knn的影响。传统算法通过经验和反复试验优化这些参数，这增加了计算复杂性。在提出的方法中，采用自适应方法来自动获取这两个参数:

其中Ni是通过SVM分类得到的第i类样本数，

表示向上取整；

是由SVM得到的属于第i类的未标记样本数量。从公式中可以看出，k_lof和k_knn是由SVM算法确定的N_i和

通过计算得到。算法的整体实现如下：

Inputs:

L：标记样本集

U：未标记样本集

iter_max:最大迭代次数

For(iter＝1；iter＜＝iter-max；iter++)

使用标记样本集L训练SVM分类器

L′为L的子集，代表L中被SVM正确分类的样本集

计算L和U的LOF

获得L′中的类别数目c

for(i＝1；i＜＝c；i++)

L′_i为L′的子集,其中的元素被SVM分为i类

U_i为U的子集,其中的元素被SVM分为i类

获得n_i,是L′_i中样本数

for(j＝1；j＜＝n_j；j++)

计算U和L′_ij之间的距离dis_SIDSAM,其中L′_ij是L′_i中的样本j计算U和L′_ij之间的距离dis_NB

将dis_SIDSAM,及d_NB归一化到[1,10]，得到dis′_SIDSAM和dis′_NB。

计算U和L′_ij之间的距离dis_LOF

计算dis_MM＝dis′_SIDSAM*dis′_NB*dis_LOF

end for

V_i为U的子集，其元素为k-NN混合相似度量dis_MM确定的可靠样本

end for

将高置信度样本集V_i合并得V

U＝U-V

L＝L+V

End For

在实验中，引入了两个公开发表的高光谱数据集以测试该算法的性能。数据集的描述如下所示。

Indian Pines高光谱图像数据集是由AVIRIS传感器于1992年在美国西北印第安纳州的Indian Pines测试地点收集的。由145*145像素和200个光谱反射带组成，其波长范围为0.40至2.50μm。空间分辨率约为20m。现有的真实地貌被划分为十六类。Indian Pines的灰色图像和参考地物分类图如图1所示。实验选择了9个类别，包括corn-notill,corn-min,grass/pasture,grass/trees,hay-windrowed,soybeans-notill,soybeans-min,soybeans-clean and woods。

WHU-Hi-HongHu高光谱图像数据集于2017年在中国湖北省洪湖市获得，该数据集配备了DJI Matrice 600Pro无人机平台上的17毫米焦距Headwall Nano-Hyperspec成像传感器。图像的大小为940*475像素，从0.4μm至1.00μm有270个波段。空间分辨率约为0.043m。在实验中，选择了左上角尺寸为200*300的一部分图像。WHU-Hi-HongHu的灰色图像和参考地物分类图如图2所示。包含10个类别，包括红色屋顶、公路、棉花地块、棉柴地块、油菜、白菜、菜心、白萝卜、蚕豆、树。(Red roof,Road,Cotton,Cotton firewood,Rape,Chine’scabbage,Brassica parachinensis,White radish,Broad bean,Tree)。

为了评估提出的SMM-kNN-SVM算法的性能，该算法与标准SVM，标准k-NN，基于k-NN自训练(S-kNN)，基于k-NN和SVM的自训练(S-kNN-SVM)算法，在描述的两个高光谱数据集上进行了测试。关于所提出的SMM-kNN-SVM算法，由获得参数k_lof和k_knn。根据经验将iter_max设置为20。通过3重交叉验证选择SVM算法的惩罚系数C和RBF核函数参数σ，二者均在(0.01,100)的范围内。选择标准SVM和k-NN作为对比的有监督算法。对于标准SVM算法，惩罚系数C和RBF核函数的参数σ均通过3重交叉验证来选择，取值范围在(0.01,100)。对于标准k-NN，将参数k_knn设置为3。选择S-kNN和S-kNN-SVM作为对比自训练算法。同样将S-kNN和S-kNN-SVM的k_knn设置为3。对于S-kNN-SVM，惩罚系数C和RBF核参数σ均通过3重交叉验证来选择，范围在(0.01,100)。

在实验中，采用总体精度(Overall accuracy,OA，以百分比表示)，平均精度(Average accuracy,AA，以百分比表示)和Kappa系数(Kappa coefficient,Kappa)来定量比较所有测试算法的性能。每类中随机选择5个样本作为标记样本，其余样本则为未标记样本。

为了评估该分类器中采用的光谱度量方法对分类性能影响，我们在SMM-kNN-SVM算法中采用了不同的光谱距离度量方法，计算多次迭代下的OA，结果如图3所示。SVM的惩罚系数C和RBF核参数σ分别设置为73.8和0.39。可以看到，SIDSAM和SIDSGA的OA始终高于采用其他光谱距离度量方法的OA。比较这几种不同度量方法经20次迭代后的OA，SIDSAM的OA为79.96％，分别比ED，SAM，SCA，SGA，SID和SIDSGA的OA高6.02％，5.08％，3.17％，6.65％，1.35％和0.25％。曲线中存在一些波动，表明错误分类的未标记样本被错误地选择为可信样本加入了分类器的训练集。

此外，当光谱度量采用dis_SIDSAM，评估光谱距离和LOF距离的影响，经多次迭代的OA如图4所示。可以清楚地看到，dis_MM比其他方法具有更好的分类性能，而dis_SIDSAM则显示了较差的精度。这表明混合度量方法改进了样本的相似性度量，提高了算法的性能。

表1总结了运行在Indian Pines数据集上，对比了本发明提出的SMM-kNN-SVM算法以及其他算法在9个类别上的OA，AA，Kappa。可以看到，与传统的k-NN和SVM算法进行对比，除了S-kNN算法，s-kNN-SVM和SMM-kNN-SVM算法的性能得到了改善。从表1中可以看出，SMM-kNN-SVM算法的总体精度OA最好，与k-NN，SVM，S-kNN，S-kNN-SVM相比，分别增长了33.53％，20.12％，33.99％，15.17％。此外，与其他算法相比，SMM-kNN-SVM算法在每一类的分类精度上得到了较好的结果，特别是针对Corn-notill、Corn-min、Soybeans-notill、Soybeans-min、Soybeans-clean。

表1.在Indian Pines数据集上五种算法的总体精度、平均精度、kappa系数和每个类别分类精度对比(粗体值表示每种情况下方法中的最高准确度)

为了进一步做对比，在图5中收集了分类图。可以清楚地看到，图5(b)-(e)中的噪声比图5(f)中的噪声更容易观察到，特别是Corn-notill，Soybeans-notill，Soybeans-min上的噪声更明显。图5(f)最接近图5(a)中的参考地物分类图。

在实验中，首先基于WHU-Hi-HongHu，将不同的光谱相似性度量方法运用到SMM-kNN-SVM算法中，对比算法总体精度(OA)，考察不同度量方法对分类器的性能影响。将SVM的惩罚系数C和RBF核参数σ分别设置为83.16和0.0268。20次迭代的总体精度变化曲线如图6所示。可以看到，SIDSAM和SIDSGA在最终迭代后提供了更高的精度(分别为80.28％和79.47％)。但是，SGA在第6次到第10次迭代过程中提供了更高的精度，SID在第5次到第16次迭代过程中给出了与SIDSAM和SIDSGA相似的精度。SIDSAM精度曲线在iter＝4达到一个峰值，即80.01％，之后曲线陡然下降，在iter＝5，OA值为76.82％，然后，该曲线轻微上升直到迭代结束。ED和SAM曲线变化趋势类似，整体精度随着迭代次数的增加而增加，而其他度量方法对应的精度-迭代曲线则呈现不同程度的波动。总体而言，从图6中可以直观地看到，经过20次迭代后采用SIDSAM的SMM-kNN-SVM算法的总体精度值最高。

为了评估空间距离和LOF距离都算法分类精度的影响，在图7给出了在所提出的算法中应用不同相似性度量方法的整体精度-迭代对比曲线。从图中可以看出，采用dis_SIDSAM，算法分类精度随着迭代次数的增加而降低。针对度量方法dis_SIDSAM*dis_NB和dis_MM，算法的总体精度值随着迭代次数的增加而增大。这表明空间距离(dis_NB)和LOF距离(dis_MM)有助于高可信未标记样本的选择，同时提高算法的性能。

同时，表2给出本发明提出的SMM-kNN-SVM和其他算法在WHU-Hi-HongHu数据集上运行得到的OA、AA、Kappa和各类分类精度对比值。可以看到，对比OA、AA和Kappa，算法S-kNN的分类精度优于标准k-NN算法，而算法S-kNN-SVM和SMM-kNN-SVM的分类精度则优于标准SVM算法。对比各个类别的分类精度，针对S-kNN算法与标准k-NN算法、S-kNN-SVM和SMM-kNN-SVM与标准SVM算法，发现很难给出一致的评价，例如，在划分Brassica parachinensis类时，标准k-NN算法精度(31.74％)优于S-kNN算法(24.98)；而在划分Cotton firewood类别时，标准SVM算法分类精度(57％.42)优于改进的S-kNN-SVM算法(45.96％)。然而，本发明所提出的SMM-kNN-SVM算法，除了Red roof和Road两类之外，在其余类别上的分类精度以及OA、AA、Kappa均高于对比算法。例如，在划分Chines cabbage类和Brassica parachinensis类，SMM-kNN-SVM算法的分类精度分别为71.25％和76.40％，较传统算法分类性能提升显著。

表2.WHU-Hi-HongHu的五种算法的总体准确性，平均准确性，kappa系数和单个分类准确性(粗体值表示每种方法中的最高准确性)

图8给出了WHU-Hi-HongHu数据集上的分类图。可以清楚地看到，图8(b)-(e)中的噪声比图8(f)中更容易观察到，特别是Chines cabbage和Brassica parachinensis两类中尤为明显。图8(f)最接近图8(a)中的参考地物分类图。

将训练分类器的算法SMM-kNN-SVM与标准k-NN、标准SVM、S-kNN和S-kNN-SVM进行了性能比较，还给出了光谱相似性混合度量方法对所提出的分类算法的影响。实验结果表明(如图4和图7)，考虑了空间距离和LOF距离可以明显提高算法的性能。相对于空间距离，根据空间平滑假设，可以容易地理解，在标记样本邻域中的未标记样本极有可能与标记样本属于同一类。对于LOF距离，用局部可达性密度来度量样本的相似性。具有相似的局部可达性密度的样本具有较小的LOF距离，这表明样本及其邻居的结构相似。

尽管在某些情况下，S-kNN和S-kNN-SVM可以提高标准k-NN和SVM的分类精度，但改进程度明显小于提出的SMM-kNN-SVM算法。原因可以概括为两个方面。首先，在提出的算法中，增加了空间距离和LOF距离来度量样本的相似度，而在S-kNN和S-kNN-SVM中仅使用光谱距离。其次，对比算法S-kNN-SVM受到有监督的分类器SVM的约束，而提出的算法克服了经典SVM的不足，提高了获取信息丰富的未标记样本的能力。

然而，SMM-kNN-SVM算法不能在所有类别的分类中都获得最大的分类精度。例如，在数据集WHU-Hi-Honghu图像中，SMM-kNN-SVM算法对Red roof的分类精度为74.13％，而使用S-kNN分类方法对Red roof的分类精度为89.34％。通过对分类图的观察，发现一些空间维度上靠近Road的Red roof类本被错误的划分为Road类。这表明相似测量(提出的混合度量)不能正确区分这些样本。从分类图可以看出，被错误分类的Red roof样本绝大部分都在靠近Road类一侧。由于两类样本的空间距离接近，削弱了混合度量中空间距离的区分度，且这两类样本的光谱距离和样本结构也很相似，这些原因造成了靠近Road的Red roof样本被错误划分到Road类中。分析这种现象，可以看出，提出的基于SMM-kNN-SVM算法对于多类混杂分布的数据集的分类能力较弱。

同时，所提出的算法复杂度高于本发明中的对比算法。空间距离和LOF距离的计算是主要的附加计算。具体而言，假设样本数为N，空间距离的计算复杂度为O(N·N)，LOF距离的计算复杂度为O(K_lof·N·N)。此外，在所提出的算法中，SIDSAM距离用于度量光谱距离，是SID(O(N·N))和SAM(O(N·N))的组合。综上，混合度量的额外计算复杂度估计为((K_lof+3)·N·N).。可以看到，所提出的算法复杂度高于对比算法。

尽管所提出的SMM-kNN-SVM算法的分类结果较对比算法具有竞争力，但在其他场景下还需进一步的实验。此外，额外的复杂性限制了所提出算法的应用，进一步的工作将集中在算法简化上。

在本发明中提出了一种新颖的混合度量方法，该方法将光谱距离，空间距离和LOF距离结合在一起，将样本相似性度量到k-NN算法种，同时结合SVM算法来选择高可信的未标记样本，训练一个用于高光谱图像的分类器。此外，提供了一种用于获取LOF和k-NN参数的自适应方法，以降低寻参的计算复杂度。

为了评估提出的算法有效性，使用两个公开的高光谱图像数据集进行了实验，将其结果与标准k-NN，标准SVM，S-kNN和S-kNN-SVM的结果进行了比较。结果表明，空间距离和LOF距离都可以显著提高分类算法的精度。此外，通过对实验结果定性和定量分析，与几个算法相比，所提出的SMM-kNN-SVM算法有更高的整体精度和个体分类精度。此外，分析了提出算法的有效性并给出了算法的局限性。最后，讨论了所提出算法的计算复杂度。

进一步的工作将致力于简化混合度量算法的计算复杂度以及参数自适应优化方法以增强算法分类性能。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于混合度量的高光谱图像分类方法，其特征在于，包括如下步骤：

A.局部异常因子算法

该算法基于对象的邻域密度来判断对象的异常程度，首先，k_lof属于任意正整数，定义x的第k距离为x与某个对象o之间的距离，记为dis_k_lof(x)，其中对象x与对象o之间的距离记为d(x，o)；

B.二元光谱相似性度量

给定两个光谱向量x和y，x＝(x₁，x₂，…x_n)，y＝(y₁，y₂，…y_n)，n是光谱波段总数，包括光谱角度量(Spectral angle metric,SAM)、光谱梯度角(Spectral gradient angle,SGA)、光谱相关角(Spectral correlation angle,SCA)、光谱信息散度(Spectral informationdivergence,SID)；

C.基于k-NN和SVM的自训练算法

首先用有标记的数据集训练分类器，并使用该分类器对未标记样本分类；之后，通过某种策略，判断未标记样本的置信度，将高置信度的未标记样本添加到有标记样本集中；重复该过程，直到满足迭代终止条件；采用启发式的方法来选择高置信度的未标记样品；k-NN算法用于确定未标记样本的分类标记；SVM则用于加强自训练策略，以帮助k-NN标记未标记的样本；令L和U分别表示标记样本集和未标记样本集，基于k-NN和SVM的自训练过程可以描述如下：

输入:

L：标记样本集

U：未标记样本集

1使用L训练SVM分类器

2使用k-NN为U中的未标记样本指定标签

3使用SVM为U中的未标记样本指定标签

4确定

其成员为2和3两步操作后具有相同标签的样本

5确定

其成员为由SVM挑选的高置信度的样本

6U＝U-V

7L＝L+V

End while；

D.基于混合测量k-NN&SVM的自训练分类器

使用k-NN选择最接近标记样本的k_knn未标记邻居样本，同时，引入空间距离和LOF距离，结合光谱距离来度量光谱样本的相似性，根据空间域平滑假设，标记样本周围的一定空间内，其邻居样本大概率与该标记样本属于同一类；

使用k-NN选择最接近标记样本的k_knn未标记邻居样本；并引入空间距离和LOF距离，结合光谱距离来度量光谱样本的相似性；根据空间域平滑假设，标记样本周围的一定空间内，其邻居样本大概率与该标记样本属于同一类；将空间距离定义为：

其中S_x,S_y为样本x和y的空间坐标，||·||_L1为L1范式；将LOF距离定义为：

LOF′(x,y)＝|LOF(x)-LOF(y)|

dis_LOF(x,y)＝e^LOF′(x,y)

其中LOF′(x，y)是LOF(x)-LOF(y)的绝对值，而dis_LOF(x，y)是x和y之间的LOF距离；结合空间距离，光谱距离和LOF距离，可以将光谱数据混合度量定义为：

dis_MM(x,y)＝dis′_SIDSAM(x,y)×dis′_NB(x,y)×dis_LOF(x,y)

其中dis′_SIDSAM(x，y)和dis′_NB(x，y)分别是dis_SIDSAM(x，y)和dis_NB(x，y)的归一化值，以消除数据量纲的影响；

基于混合度量k-NN&SVM的自训练分类器的性能取决于LOF和k-NN算法的性能；同时，LOF和k-NN的质量受参数k_lof和k_knn的影响；采用自适应方法来自动获取这两个参数:

其中Ni是通过SVM分类得到的第i类样本数，

表示向上取整；

是由SVM得到的属于第i类的未标记样本数量；从公式中可以看出，k_lof和k_knn是由SVM算法确定的N_i和

通过计算得到；算法的整体实现如下：

Inputs:

L：标记样本集

U：未标记样本集

iter_max:最大迭代次数

For(iter＝1；iter＜＝iter_max；iter++)

使用标记样本集L训练SVM分类器

L′为L的子集，代表L中被SVM正确分类的样本集

计算L和U的LOF

获得L′中的类别数目c

for(i＝1；i＜＝c；i++)

L′_i为L′的子集,其中的元素被SVM分为i类

U_i为U的子集,其中的元素被SVM分为i类

获得n_i,是L′_i中样本数

for(j＝1；j＜＝n_j；j++)

将dis_SIDSAM,及d_NB归一化到[1,10]，得到dis′_SIDSAM和dis′_NB；

计算U和L′_ij之间的距离dis_LOF

计算dis_MM＝dis′_SIDSAM*dis′_NB*dis_LOF

end for

将高置信度样本集V_i合并得V

U＝U-V

L＝L+V

End For。

2.如权利要求1所述的一种基于混合度量的高光谱图像分类方法，其特征在于，步骤A中的o(o∈D)满足以下条件：

(1)至少存在k个对象o′∈D\{x}，满足d(x，o′)≤d(x，o)；

(2)至多存在k-1个对象o′∈D\{x}，满足d(x，o′)＜d(x，o)。

3.如权利要求2所述的一种基于混合度量的高光谱图像分类方法，其特征在于，给定x的第k距离dis＿k_lof(x)，定义对象x的第k距离邻域为所有与x的距离不大于dis＿k_lof(x)的对象的集合，即

4.如权利要求1所述的一种基于混合度量的高光谱图像分类方法，其特征在于，步骤B的光谱相似性度量是欧氏距离(Euclidean distance,ED)定义如下：

5.如权利要求1所述的一种基于混合度量的高光谱图像分类方法，其特征在于，光谱角度量(Spectral angle metric,SAM)是基于投影的光谱相似性度量，该方法更关注光谱形状的差异，SAM被定义为：

SAM通过光谱向量间的角度来区分光谱。

6.如权利要求1所述的一种基于混合度量的高光谱图像分类方法，其特征在于，光谱梯度角(Spectral gradient angle,SGA)计算的是光谱向量梯度间的夹角，即

这里，有x′_i＝x′_i+1-x_i，y′_i＝y′_i+1-y_i。

7.如权利要求1所述的一种基于混合度量的高光谱图像分类方法，其特征在于，光谱相关角(Spectral correlation angle,SCA)可以反映光谱相对于平均值的变化，将光谱向量x和y的相关系数定义为：

这里的μ_x和μ_y是x和y的均值，则光谱相关角SCA定义为：

SCA可以在某种程度上反映光谱的局部特征差异。

8.如权利要求1所述的基于混合度量的高光谱图像分类方法，其特征在于，光谱信息散度(Spectral information divergence,SID)是基于信息测度的光谱相似性度量方法，该方法将光谱相似度评估问题转化为光谱向量概率之间的冗余度评估问题，具体地，SID描述如下，将x和y的信息量大小定义为：

I(x_i)＝-ln p(x_i)

I(y_i)＝-lnq(y_i)

这里的

然后，两条光谱曲线的相对熵可以定义为：

最后，将光谱信息散度定义为：

dis_SID(x,y)＝D(x‖y)+D(y‖x)。