CN111881989A

CN111881989A - 一种高光谱图像分类算法

Info

Publication number: CN111881989A
Application number: CN202010766197.5A
Authority: CN
Inventors: 潘海珠; 葛海淼
Original assignee: Qiqihar University
Current assignee: Qiqihar University
Priority date: 2020-08-03
Filing date: 2020-08-03
Publication date: 2020-11-03
Anticipated expiration: 2040-08-03
Also published as: CN111881989B

Abstract

本发明公开了一种高光谱图像分类算法，结合自训练半监督分类算法和吸引子传播算法，与传统的自训练半监督分类算法不同，本发明提出算法在3个方面有所改进。首先，提出算法引入吸引子传播算法自适应的搜索可信度高的未标记样本。其次，提出算法使用“邻域”限制未标记样本的搜索范围，提高可靠性。与传统的基于分割的空间信息提取算法相比，能有效减少运算量。第三，提出算法使用光谱相关角构造吸引子传播算法的相似度矩阵。本发明将提出算法在经典高光谱图像Indian Pines上与高斯混合模型半监督分类算法、拉普拉斯支持向量机、基于k近邻的自训练半监督分类算法比较。提出算法较对比算法有较高的全局分类精度，有更快的收敛速度。

Description

一种高光谱图像分类算法

技术领域

本发明涉及高光谱图像分类技术领域，特别涉及一种高光谱图像分类算法。

背景技术

高光谱遥感图像丰富的空间信息和光谱信息为地物精确识别提供有利条件。但是，由于高光谱数据有标记样本稀少且难以获得，导致在高光谱数据处理中容易出现Hughes现象。为了解决这个问题，很多学者专注于研究半监督学习算法。半监督学习算法是一类利用少量的有标记样本和大量的未标记样本，通过半监督学习策略，提高少标记样本条件下分类精度的分类方法。目前，半监督学习的学习策略主要有生成模型(Li et al.(2013))、自训练模型(Wang C et al.(2018),Fazakis et al.(2019))、联合训练模型(Jian-Hua Z et al.(2013),Son L H et al(2016))、图模型(Jamshidpour N et al(2017),Shao Y et al(2017))和直推式模型(Bruzzone L et al.(2006))。近年来，很多半监督学习方法与深度学习方法结合，产生了很好的效果(Zhan Y et al(2018)，Kang X etal.(2019))。

在半监督学习算法中，自训练模型是一种常用的策略方案。自训练模型搜索可信度高的未标记样本加入标记样本参与训练，通过迭代过程提高分类效果。为了更好的利用未标记样本参与高光谱图像分类，学者们提出了很多基于自训练模型的半监督分类方法。Wang J et al.(2015)，Aydav P S S et al.(2018)，Li F et al.(2018)。自训练模型受分类器性能和噪声的影响较大，如果在搜索过程中引入了错误的未标记样本，会导致分类精度下降。

吸引子传播算法是2007年提出的一种基于范例的聚类方法。该算法通过样本间的信息传递，找到每个样本点的范例样本，从而达到聚类的目的。吸引子传播算法计算简单、初始化不敏感，常用于非监督和半监督算法中。在高光谱数据处理中，吸引子传播算法也得到了广泛的应用。例如，Qian Y.et al.(2009)，Chen Y.et al.(2017)，Chehdi K.et al.(2014)，Yang C.et al.(2018)。目前可查的文献多使用吸引子传播算法结合特征提取算法或监督分类算法提高目标算法性能，在半监督分类中的应用较少。

发明内容

本发明的目的在于提供一种高光谱图像分类算法，可以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种高光谱图像分类算法，结合自训练半监督分类算法和吸引子传播算法，并将标记样本的更新区域限制在标记样本邻域中，包括如下步骤：

步骤1：初始化：设标记样本集合L＝{(x_i，yi)，x_i∈R^d，i＝1,2,…，n}，其中X_i为标记样本，yi∈{L₁，L₂，…，L_m}为样本标签，n为标记样本数量，d为样本维数，m为样本类别数；设未标记样本U＝{X₁ ^*,X₂ ^*,…X_u ^*}，其中X_i ^*为未标记样本，u为未标记样本数；

步骤2：根据标记样本集合L训练初始分类器；

步骤3：找到分类正确的标记样本，得到正确分类标记样本集合L_correct＝{x_c1，x_c2，…，x_ck}，其中x_ci为正确分类的标记样本，k为正确分类标记样本数；

步骤4：对每一个L_correct中的样本，获得标记样本x_ci的位置信息，其中i表示第i个样本；设标记样本x_ci的位置坐标为(ii,jj)，所求邻域为以(ii,jj)为中心，边长为L(L取奇数)的正方形，则设邻域样本集的位置信息为Dⁱ _neighbour；

步骤5：在邻域样本位置集合Dⁱ _neighbour中找到属于未标记样本的位置，并获得对应标记样本x_ci的邻域未标记样本集Uⁱ _AP；将标记样本x_ci加入到样本集Uⁱ _AP中；

步骤6：对Uⁱ _AP求相似矩阵S；

步骤7：设矩阵re为吸引度，矩阵av为归属度，更新re，av；

步骤8：通过Uⁱ _AP中样本的范例样本标签向量c，找到与x_ci同一聚类的样本，得到可信未标记样本集Uⁱ _true；

步骤9：将可信未标记样本集Uⁱ _true加入到标记样本集L中，样本标签为l_i；

步骤10：判断是否对L_correct中所有样本处理完成，如果是，则迭代次数加1，并判断迭代次数是否超过预设值或分类精度改变值不超过预设阈值次数是否超过预设值，如果是，则算法结束；如果否，则转到步骤2；如果对判断是否对L_correct中所有样本处理完成为否，则转到步骤4。

进一步地，Dⁱ _neighbour的表达式为：

mm＝[-HL，…，HL]

nn＝[-HL，…，HL]

其中，mm，nn为邻域样本对中心样本位置的相对位置，HL为邻域范围半径；设x_ci的样本标签为l_i。

进一步地，步骤6的表达式为：

s(a，b)＝-SCA(x_a，x_b)a≠b

s(b，b)＝min(s)b∈(1，n_AP)

其中x_a，x_b为Uⁱ _AP中样本，SCA(x_a，x_b)为样本x_a，x_b的光谱相关角，SCA(x_a，x_b)为样本x_a，x_b间相关系数，μ_a，μ_b为样本x_a，x_b的均值，矩阵S为Uⁱ _AP的相似矩阵，min(·)为目标集合的最小值。

进一步地，re，av的更新公式如下：

re(a，b)＝s(a，b)-max_j，j≠b{av(a，j)+s(a，j)}

其中，max(·)表示目标集合中的最大值。

进一步地，设Uⁱ _AP中样本的范例样本标签向量为c，则有：

c(a)＝max_b(av(a，b)+re(a，b))

迭代过程的结束条件为超过预设最大迭代次数或每一个c(a)保持不变达到预设次数。

进一步地，在迭代过程中引入阻尼系数λ，则有：

re_t+1＝λ·re_t-1+(1-λ)·re_t

av_t+1＝λ·av_t-1+(1-λ)·av_t

其中re,av为吸引度和归属度矩阵，λ为阻尼系数(0.5≤λ＜1)，t为当前迭代次数。

与现有技术相比，本发明的有益效果是：

在本发明这个算法中，使用吸引子传播算法搜寻可靠的未标记样本，使用自训练策略扩大标记样本集合。分类算法根据每次迭代产生的标记样本集合产生新的分类器，最终达到提高高光谱图像分类精度的目的。与传统的自训练半监督分类算法不同，提出算法的特点体现在下面三个方面：

(1)在每次迭代中，未标记样本自适应的通过吸引子传播算法转换为标记样本。

(2)未标记样本的搜索空间被限制在标记样本的“邻域”内，这种做法能使未标记样本有更大可能与标记样本同类。这种限制策略表达了样本之间的空间相似性，提取了样本的空间信息。

(3)提出算法使用光谱相关角表达样本光谱维的相似性。这种样本的相似性表达方式非常适合用在高光谱图像中。同时，这种光谱维相似性提取了样本的光谱信息。

附图说明

图1为本发明的算法步骤流程图；

图2为本发明的算法流程图；

图3为本发明的Indian Pines图像；

图4为本发明的各类算法的分类结果图；

图5为本发明的KNN-SSL和本算法在各迭代过程中的分类精度折线图；

图6为本发明的每次迭代产生的标记样本图；

图7为本发明的每次迭代的分类结果图；

图8为本发明的不同邻域范围下本文算法迭代过程分类精度图；

图9为本发明的不同初始每类标记样本数下本文算法迭代过程分类精度图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

步骤1：初始化：设标记样本集合L＝{(x_i，y_i)，x_i∈R^d，i＝1,2,…，n}，其中X_i为标记样本，y_i∈{L₁，L₂，…，L_m}为样本标签，n为标记样本数量，d为样本维数，m为样本类别数；设未标记样本U＝{X₁ ^*,X₂ ^*,…X_u ^*}，其中X_i ^*为未标记样本，u为未标记样本数；

步骤2：根据标记样本集合L训练初始分类器；

步骤4：对每一个L_correct中的样本，获得标记样本x_ci的位置信息，其中i表示第i个样本；设标记样本x_ci的位置坐标为(ii,jj)，所求邻域为以(ii,jj)为中心，边长为L(L取奇数)的正方形，则设邻域样本集的位置信息为Dⁱ _neighbour，则有：

mm＝[-HL，…，HL]

nn＝[-HL，…，HL]

步骤6：对Uⁱ _AP求相似矩阵S，则有：

s(a，b)＝-SCA(x_a，x_b)a≠b

s(b，b)＝min(s)b∈(1，n_AP)

步骤7：设矩阵re为吸引度，矩阵av为归属度，根据下列公式更新re，av：

re(a，b)＝s(a，b)-max_j，j≠b{av(a，j)+s(a，j)}

其中，max(·)表示目标集合中的最大值。

设Uⁱ _AP中样本的范例样本标签向量为c，则有：

c(a)＝max_b(av(a，b)+re(a，b))

迭代过程的结束条件为超过预设最大迭代次数或每一个c(a)保持不变达到预设次数。为了防止数据震荡，通常在迭代过程中引入阻尼系数λ，则有：

re_t+1＝λ·re_t-1+(1-λ)·re_t

av_t+1＝λ·av_t-1+(1-λ)·av_t

其中re，av为吸引度和归属度矩阵，λ为阻尼系数(0.5≤λ＜1)，t为当前迭代次数。

步骤9：将可信未标记样本集Uⁱ _true加入到标记样本集L中，样本标签为1_i；

与现有的算法相比，本算法使用吸引子传播算法对标记样本生成的邻域未标记样本做可信度标注，将与中心标记样本类簇一致的未标记样本作为可信未标记样本。根据自训练模型的一般步骤，提出算法插入了一个预选择步骤，这一预选择步骤是搜索邻域未标记样本，即对L_correct中的每一个样本，表示为x_ci；以x_ci为中心构建邻域未标记样本，讲中心标记样本x_ci加入该集合中，表示为Uⁱ _AP。这一步骤的主要目的是找到可信度高的未标记样本和减少计算量(因为这些未标记样本是在标记样本的空间邻域内，所以这些邻域未标记样本与中心的标记样本在空间上是空间相似性比较高的，按照流形假设(指处于一个很小的局部邻域内的示例具有相似的性质，因此，其标记也应该相似)，这些未标记样本有更高的可能性与中心标记样本标签一致。

另外，邻域未标记样本是选择标记样本空间邻域范围内的未标记样本，设正方形边长为10，这些未标记样本是在10*10的正方形内的样本，其数量小于100，远远小于全部未标记样本数，由于选择的未标记样本数较少，所以能有效的减少计算量。再次，为了下一步二次标记顺利进行，我们将中心标记样本也添加到了邻域未标记样本中，所以能够看到，邻域未标记样本包含1个中心标记样本和n个属于这个中心标记样本空间邻域内的未标记样本)。接下来是二次标记步骤，提出算法二次标记步骤中使用了AP算法。使用AP算法对邻域未标记样本(这里不能简单的理解为未标记样本，而是经过筛选后的未标记样本，与对比算法的未标记样本是不同的)做聚类操作，对生成的类簇，取其中一个类簇，这个类簇的特点是包含标记样本(这里与对比算法也是不同的，对比算法是在每一个类簇中取一个样本，提出算法是取一个类簇的所有样本，其他类簇被抛弃)。因为在AP聚类后，部分未标记样本与中心标记样本被划分到一个类簇里面，根据聚类假设(指处在相同聚类(cluster)中的示例有较大的可能拥有相同的标记)，这些样本与标记样本有更大可能有相同的标记，所以，这些未标记样本的可信度高，可以作为二次标记中可信度高的未标记样本。这里与对比算法是不同的，对比算法的二次标记方法是使用分类器进行标记，而分类器是根据标记样本生成的，这个分类器的泛化能力取决于标记样本的信息量，所以可以看到，分类器的性能决定了二次标记的准确性，在初始标记样本较少的情况下，分类器的泛化能力往往非常弱，所以“错误积累“现象通常是在这里产生的；算法不使用分类器而是使用AP算法进行二次标记，这种评价方法的差异性保证了结果的独立性，能在一定程度上提高准确性。实际上提出算法并没有考虑分类器对未标记样本的分类结果，而是直接使用AP聚类考查未标记样本的类别标记，其原因是因为分类器因为标记样本数量少导致分类效果实际上是不好的，为了避免错误积累，抛弃了分类器的标记结果，使用完全不同的策略(AP算法)去评价未标记样本的可信度，实验结果表明，错误积累现象得到了很好的抑制。

本算法为了提高二次标记的准确率，改进了AP聚类，具体做法是将AP聚类算法的相似度矩阵的构建方法进行改进，将欧式距离改为光谱相关角。光谱相关角能更准确的表达光谱数据样本的光谱相似性，引入之后能更准确的表达样本之间的相似程度，经过AP聚类后，光谱相似性较大的样本会有更大的可能聚集到一个类簇里面。如果一个类簇中包含了标记样本，那么根据聚类假设，与其同一类簇的未标记样本就有更大的可能与这个标记样本同一标记。实验表明，这一做法能有效提高二次标记准确性，从而提高算法的分类精确度。

仿真实验采用美国国家宇航局(NASA)的AVIRIS于1992年6月在印第安纳西北部获取的Indian Pines图像，图像大小为145*145，共16类地物，去除被水域吸收的20个波段后，图像有200个波段，选择9类样本数较多的类别作为实验数据，图像如图3所示，9类地物样本数如表1所示。

表1 9类地物样本数

类别编号	类别名称	样本个数
			1	Corn-notill	1434
2	Corn-min	834
			3	Grass/pasture	497
4	Grass/trees	747
			5	Hay-windrowed	489
6	Soybeans-notill	968
			7	Soybeans-min	2468
8	Soybeans-clean	614
			9	woods	1294

为检验提出算法的性能，使用本算法与GMM，LapSVM，KNN-SSL比较。其中GMM算法为经典的基于生成模型的半监督分类算法，LapSVM为经典的基于图的半监督分类算法，KNN-SSL为基于自训练和最近邻算法结合的半监督分类算法。

本发明提出算法有4个主要参数，其中邻域范围参数L设为15，阻尼系数λ设为0.5，最大迭代次数iter_max设为20，精度改变阈值th设为10^-3。实验中，分类算法采用支持向量机算法(SVM)，其中惩罚系数C和RBF核函数参数σ通过3倍交叉验证寻找最优参数，搜索范围为(0.01,100)。多分类采用一对一分类策略。对于LapSVM，在每类中随机选取30％的样本作为基础实验数据。在这些数据中，每类随机选取5个样本作为标记样本，其余样本作为未标记样本。对于KNN-SSL算法，最近邻数k_knm设为2。所有半监督分类算法的初始标记样本数为每类5个。使用全局分类精度作为判断算法性能的标准，分类结果为10次实验的平均值。

分类后各类别分类精度和全局分类精度如表2所示，分类结果图如图4所示。从表2中可以看到，GMM算法得到了56.05％的分类精度，是所有对比算法中精度最低的。从图4(a)中可以看到，对于GMM算法，Corn-min,Soybeans-min和Soybeans-clean三个类别的分类效果较差。这种现象说明GMM算法不能生成样本数据集的真实分布情况。其原因是因为初始样本数较少和样本的分布假设不符合正态分布。LapSVM算法得到了66.91％的全局分类精度，高于SVM分类精度(59.84％)。这种现象说明LapSVM算法通过构造样本的图达到了提高分类精度的目的。但是，由于LapSVM算法在计算中使用了全部样本距离矩阵，随着样本增多，计算量和存储量都以样本数的平方级别增加，对于样本数较多的高光谱图像，计算时间和存储量较大。KNN-SSL的全局分类精度为97.19％，比LapSVM算法提高了30.28％。这种现象说明自训练半监督分类算法与其他类型半监督分类算法相比有一定的优势。本发明算法的全局分类精度达到了98.62％，为所有对比算法中获得分类精度最高的算法。KNN-SSL和本发明算法每次迭代得到的高光谱图像全局分类精度如图5所示。从图5中可以看到，本发明算法每次迭代的分类精度提升速度高于KNN-SSL算法。这种现象说明本发明算法每次迭代中搜索到的未标记样本有更高的信息量，对分类更有帮助。另外，从图5中可以看到，本发明提出算法分类精度随迭代次数增加而增加，本发明算法搜索的未标记样本有较高的准确性，能够使每次迭代后全局分类精度提高。比较KNN-SSL和本发明算法的迭代次数，可以看到，KNN-SSL算法迭代7次后分类精度达到最高，本发明算法在迭代次数为5时，分类精度已经达到了98.27％，仅仅比最终的最高精度低0.35％。这说明本发明算法能在较少的迭代次数下达到较高的全局分类精度。本发明算法每次迭代产生的标记样本如图6所示，每次迭代产生的标记样本(a)t＝1.(b)t＝2.(c)t＝3.(d)t＝4.(e)t＝5.(f)t＝6，每次迭代的分类结果图如图7所示，每次迭代产生的标记样本(a)t＝1.(b)t＝2.(c)t＝3.(d)t＝4.(e)t＝5.(f)t＝6。

为测试提出算法的鲁棒性，分别改变邻域范围L和初始标记样本个数。首先，设L为11，15，19，23，27，31，得到的各迭代过程分类精度如图8所示。从图8中可以看到，本发明提出算法的在各邻域范围下的最终的分类精度很相似。这说明本发明算法对邻域范围不敏感。但是，可以看到，本发明算法在不同邻域范围条件下迭代过程的分类精度提高速率是不同的。邻域范围越大，算法随迭代次数增加分类精度提高幅度越大。这一现象很容易解释，因为邻域范围越大，未标记样本的搜索区域越大，每次得到的可信未标记样本的数量就越多，这就导致了每次迭代中得到的标记样本越多，而标记样本参与分类器的训练，从而使分类器的分类性能得到提升，进而提高分类精度。其次，设初始每类标记样本的数量为5,10,15,20，得到的各迭代过程分类精度如图9所示。从图9中可以看到，本发明提出算法在不同初始标记样本数时的最终分类精度很相似。这说明本发明算法对初始标记样本数量不敏感。另外，可以看到，不同的初始标记样本数导致本发明算法在各迭代过程的分类精度有所不同。初始标记样本数越大，算法每次迭代得到的分类精度提高越快。产生这一现象的原因与不同邻域范围导致的分类结果的原因类似。初始标记样本数越大，导致搜索中心增多，从而导致搜索未标记样本的范围越大。所以，初始标记样本数越大，分类精度随迭代次数增加的越快。

表2各类算法的分类精度

本发明提出一种自训练和邻域吸引子传播的高光谱图像半监督分类方法。提出算法使用吸引子传播算法自适应的搜索可信未标记样本，使用自训练策略通过迭代达到提高分类精度的目的。为提高搜索可信未标记样本的可信度，提出算法将搜索区域限制在标记样本的“邻域”范围，表达样本间的空间相似性，使未标记样本有更大可能与标记样本是同一标记。提出算法使用光谱相关角表达样本间的光谱相似性，为吸引子传播算法构建相似矩阵。这种方法特别适合用于高光谱图像的数据相似性表达。提出算法使用支持向量机作为分类算法，通过不断扩大标记样本集合，通过迭代逐步提高分类器性能，实现半监督算法提高分类器性能的目的。

为测试提出算法的性能，在经典高光谱图像Indian Pines上将提出算法与GMM，LapSVM和KNN-SSL算法比较。实验结果表明，提出算法有较高的全局分类精度，与KNN-SSL算法相比，提出算法有较快的收敛性。为测试提出算法的鲁棒性，改变提出算法的邻域范围和初始标记样本数。实验结果表明，提出算法在不同的邻域范围和初始标记样本数的情况下得到了相似的全局分类精度。说明提出算法对邻域范围和初始标记样本数不敏感，有很好的鲁棒性。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。