CN113869454A

CN113869454A - 一种基于快速嵌入式谱分析的高光谱图像稀疏特征选择方法

Info

Publication number: CN113869454A
Application number: CN202111189432.8A
Authority: CN
Inventors: 王靖宇; 王红梅; 聂飞平; 李学龙
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-10-12
Filing date: 2021-10-12
Publication date: 2021-12-31

Abstract

本发明涉及一种基于快速嵌入式谱分析的高光谱图像稀疏特征选择方法，首先采用二分K‑均值方法快速选择锚点，基于锚点构建自适应近邻图加快构图速度减少时间复杂度。其次，采用谱分析对数据结构进行快速分析，并引入F范数正则项以保持数据的流形结构，尽可能保持子空间的类信息。最后引入l_2,0范数约束，约束投影矩阵的行稀疏性，加强子空间的稀疏约束有助于获得类信息最丰富的特征子集。因此，本发明能够更好地实现高光谱图像波段选择，从而降低高光谱数据存储难度、提高数据处理速度、提取更加有效的波段。

Description

一种基于快速嵌入式谱分析的高光谱图像稀疏特征选择方法

技术领域

本发明属于模式识别领域，特别涉及一种基于快速嵌入式谱分析的高光谱图像稀疏特征选择方法。

背景技术

特征选择技术是模式识别领域的一个重要的研究课题，已经被广泛应用于高光谱图像波段选择、人脸识别等实际应用场景中。随着高光谱技术的发展，高光谱成像已经广泛应用于地物分类，如何对高维度的高光谱图像进行特征选择，保留数据的物理意义的同时减少数据冗余、提取数据的关键特征，具有重大的实际意义。特征选择旨在从高维特征中获得满足实际的任务需求的、信息最丰富、最具代表性特征的特征子集。此外，它不仅减少数据冗余，消除噪声，同时还保留了原始数据的物理意义。特征选择方法作为减少数据存储空间、提高模型泛化能力的有效手段。

陈彤，陈秀宏(《特征自表达和图正则化的鲁棒无监督特征选择》，智能系统学报:1-8[2021-09-03].http://kns.cnki.net/kcms/detail/23.1538.TP.20210622.0900.002.html.)中基于图学习和谱分析进行嵌入式特征选择，并采用投影矩阵的l_2,1范数作为正则化项。这一类方法能够生成伪标签，探索数据与挖掘数据结构之间的潜在关联，提高特征选择的性能。大多数方法使用投影矩阵的l_2,1范数作为正则化来实现稀疏性。使用l_2,1范数的原因是它的优化问题是一个凸问题。与非凸问题相比，凸问题可以更容易地得到最优解。然而，在无监督的嵌入式模型中，l_2,1范数的稀疏能力有限，并且这些模型的稀疏性对参数很敏感。除此之外，大多数方法的被选择特征的序号不能直接获得。

发明内容

本发明解决的技术问题是：针对已经提出的嵌入式特征选择方法的模型稀疏性不强并且对参数敏感问题，本发明提出了一种基于快速嵌入式谱分析的高光谱图像稀疏特征选择方法。

本发明的技术方案是：一种基于快速嵌入式谱分析的高光谱图像稀疏特征选择方法，其特征在于，包括以下步骤：

步骤1：获取光谱特征维度均为d的高光谱图像，像素点样本总数为n，

表示样本矩阵，其中x_i表示所有光谱波段同一个像素点的灰度值，

x_i的每一个元素值为数据对应的像素点样本的特征的值，n个像素点样本的类别标签向量为

其中y_i＝1,2,...,c表示第i个像素点样本的类别，c为像素点样本的类别总数(像素点类别可以是图像内包含的物体的类别，例如：如果是对地高光谱图像，那么类别可以为草地、农田、住宅等)；

步骤2：基于步骤1中建立的像素点样本表示和像素点样本的标签向量，采用二分K均值算法获取锚点矩阵；

步骤3：基于步骤2中获得的锚点矩阵构造自适应K近邻图；

步骤4：基于步骤2中得到的K近邻图构建最优化模型并进行求解，最终得到被选择特征的序号。

本发明进一步的技术方案是：所述步骤2中包括以下子步骤：

步骤2.1：首先定义一个聚类中心矩阵

聚类中心矩阵的每一列表示像素点样本的一个聚类中心，随机初始化这个矩阵；

步骤2.2：计算

其中

计算Δe＝e₁-e₂，选择Δe最小的n₁个值对应的样本组成集合V，构造索引矩阵

其中指示向量g的计算方法为：如果Δe的第i个元素属于集合V，那么g_i＝1，否则g_i＝0；

步骤2.3：设置锚点数为p，计算指示向量g指示的两类的所有样本的均值作为锚点；如果锚点数达到p(收敛条件替换掉)停止，否则对于所有子类重复步骤2.1-2.3，直到锚点数达到p，即满足要求，得到锚点矩阵

每一列为一个锚点。

本发明进一步的技术方案是：所述步骤3中包括以下子步骤：

步骤3.1：构建距离矩阵

表示第i个样本与其最近的第j个锚点的欧式距离平方；

步骤3.2：对于每一个样本点x_i的分配s个近邻，s为近邻数，将分配问题转化为求解如下最小化问题；

其中

中b_ij定义第i个样本与第j个锚点之间的相似度，b_i表示B的第i行元素组成的列；该问题的最优解为：

步骤3.3：获得自适应图的拉普拉斯矩阵：相似度矩阵

A是一个双随机的对称矩阵矩阵，即行和和列和都为1；拉普拉斯矩阵为

此时基于锚点的自适应近邻图构建完成。

本发明进一步的技术方案是：所述步骤4中，包括以下步骤：

步骤4.1：基于l_2,0约束的谱分析特征选择的最优模型表示为：

其中α是正则项参数，

m<＝k<＝d；

步骤4.2：对最优模型进行求解，包括以下子步骤：

步骤4.2.1：F没有约束直接求导可得：

令

则有

步骤4.2.2：已知F的表达式，目标函数可以转化为

其中，

定义

是一个索引向量，

是行提取矩阵，将W的非零行提取出来；

步骤4.2.3：判断

与m的相对大小，在

或

条件下分别求解最优模型，

步骤4.2.4：计算||ωⁱ||₂,(i＝1,2,...,d)，如果设置m＜k，则选择m个最大值的索引作为所选特征；如果取m＝k，选择W不全为0的所有行的索引，作为最终选择则的特征的索引。

本发明进一步的技术方案是：所述步骤4.2.3中，

若

时：

(1)将矩阵

对角元素按照大到小的顺序排序，提取矩阵

最大的k个对角元素的索引组成索引向量

(2)由索引向量计算行提取矩阵

定义运算

(3)由行提取矩阵计算

按顺序取

前m个最大特征值对应的特征向量，组成

其中

(4)得到

判断

与m的相对大小；

若

时：

(1)初始化W₀，t＝0；

(2)计算

(3)由大到小的顺序提取矩阵Γ_t最大的k个对角元素的索引组成索引向量

(4)由索引向量计算行提取矩阵

定义运算

(5)由行提取矩阵计算

按顺序取Γ_t前m个最大特征值对应的特征向量，组成

(6)更新内循环

直到收敛，选择最终的W_t作为投影矩阵W。

发明效果

本发明的技术效果在于：本方法首先采用二分K-均值方法快速选择锚点，基于锚点构建自适应近邻图加快构图速度减少时间复杂度。其次，采用谱分析对数据结构进行快速分析，并引入F范数正则项以保持数据的流形结构，尽可能保持子空间的类信息。最后引入l_2,0范数约束，约束投影矩阵的行稀疏性，加强子空间的稀疏约束有助于获得类信息最丰富的特征子集。因此，本发明能够更好地实现高光谱图像波段选择，从而降低高光谱数据存储难度、提高数据处理速度、提取更加有效的波段。

具体来说，采用本发明的方法有益效果主要包括：建立了基于快速嵌入谱分析的高光谱稀疏特征选择方法模型，采用谱分析对数据结构进行快速分析，可以得到原始高光谱数据特征对提取特征的贡献分布。

(1)引入F范数正则化使原始高光谱像素点样本对子空间特征的贡献分布逼近使类信息损失最小的F，保持数据的流形结构，尽可能保持子空间特征。避免了现有高光谱特征选择算法对于光谱波段特征信息的判别能力不强。

(2)引入l_2,0范数，对投影矩阵的行稀疏约束，可得原始特征中对提取特征作用最大的，即选择特征，这可以加强子空间的稀疏约束。稀疏性约束最强时，本文方法提高高光谱图像被选择特征的判别性的同时还能够保证被选择波段的索引可以直接获取。

附图说明

图1是算法流程图。

图2是实际高光谱图像场景的灰度图像，

图3是地物分类精度结果图

具体实施方式

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

为下面结合附图对本发明的技术方案进行详细说明。

本发明基于快速谱分析的稀疏特征选择方法基本流程如图1所示，下面结合对实际场景的高光谱图像的地物分类实例说明本发明的具体实施方式，但本发明的技术内容不限于所述的范围。

本发明是通过以下技术方案实现的，基于快速谱分析的稀疏特征选择方法，其具体步骤如下：

(1)构建数据矩阵、标签向量。

获得特征维度为d的n个样本，

x_i的每一个元素值为数据对应的样本的特征的值，n个样本的类别标签向量为

其中y_i＝1,2,...,c表示第i个样本的类别，c为样本的类别总数。

(2)采用二分K均值算法获取锚点矩阵。

二分K均值是采用二叉树的形式执行K均值算法。对于二分类问题的可以理解为解决如下问题

其中

n₁,n₂分别是第一类的样本个数和第二类的样本个数，c_j表示第j类的聚类中心。通过多次执行二分类的K均值算法可以获得p个聚类中心作为锚点，其中p为2的幂次。二分K均值获得锚点矩阵的算法流程如下：

①初始化：聚类中心矩阵

②计算

其中

j＝1,2.计算Δe＝e₁-e₂，选择Δe最小的n₁个值对应的样本组成集合V，构造索引矩阵

其中指示向量g的计算方法为：如果Δe的第i个元素属于集合V，那么g_i＝1，否则g_i＝0。

③计算指示向量g指示的两类的所有样本的均值作为锚点。如果锚点数达到收敛条件停止，否则对于所有子类重复步骤①-③，直到锚点数，即子类数满足要求，得到锚点矩阵

每一列为一个锚点。

(3)基于锚点进行自适应K近邻图的构建。

①构建距离矩阵

表示第i个样本与其最近的第j个锚点的欧式距离平方。

②对于每一个样本点x_i的分配s个近邻，s为近邻数。分配问题可以转化为求解如下最小化问题

其中

中b_ij定义第i个样本与第j个锚点之间的相似度，b_i表示B的第i行元素组成的列。该问题的最优解为：

③获得自适应图的拉普拉斯矩阵

相似度矩阵

A是一个双随机的对称矩阵矩阵，即行和和列和都为1，这意味着构建的图是已经规范化的。因此拉普拉斯矩阵为

此时基于锚点的自适应近邻图已经构建完成。

(4)构建基于l_2,0约束的谱分析特征选择的最优化模型并进行求解

基于l_2,0约束的谱分析特征选择的最优化模型是期望学习一个变换矩阵

将数据投影到原始空间中具有m个维度的子空间中，同时对于投影矩阵的行稀疏性进行约束为||W_2,0＝k，这意味着W具有k个元素不全为0的行。上述目标可表示为：

其中α是正则项参数，

m<＝k<＝d。很容易理解，ω_ij可以用来评估第i个特征对第j个维的贡献。已构造的锚定图进行谱分析，得到指示样本类型的矩阵F，并F范数正则化学习稀疏投影矩阵保持数据的流形结构。求解过程如下：

①由于F没有约束直接求导可得。

令

则有

②已知F的表达式，目标函数可以转化为

其中，

参数λ应足够大以保证

正定。一般情况下，λ被设置为M的最小负特征值的绝对值。定义

是一个索引向量，

是行提取矩阵，将W的非零行提取出来。

A.若

时

i.由大到小的顺序提取矩阵

最大的k个对角元素的索引组成索引向量

ii.由索引向量计算行提取矩阵

定义运算

iii.由行提取矩阵计算

按顺序取

前m个最大特征值对应的特征向量，组成

其中

iv.得到

B.若

时：

i.初始化W₀，t＝0。

ii.计算

iii.由大到小的顺序提取矩阵Γ_t最大的k个对角元素的索引组成索引向量

iv.由索引向量计算行提取矩阵

定义运算

v.由行提取矩阵计算

按顺序取Γ_t前m个最大特征值对应的特征向量，组成

vi.更新内循环

直到收敛。

③获取提取的特征的索引

计算||ωⁱ||₂，(i＝1，2，..d，)，然后选择m个最大值的索引作为所选特征。如果取m＝k，选择W不全为0的所有行的索引，作为最终选择则的特征的索引。

下面根据列举具体实例来对本方法进行进一步解释说明。

步骤一、获取一组特征维度均为d的高光谱图像(即高光谱波段总数为d)，采用的实际地物数据集中特征维度d为103。特征的值为每个波段对应像素的灰度值。其单一波段的像素总数为n＝10370个，并且获得所有像素的地物类别标签共10类，进而构造数据矩阵、标签向量、锚点矩阵以及图拉普拉斯矩阵。主要分为如下三个过程：

(1)一组特征维度均为d的高光谱图像(特征值取单一波段的灰度化之后的灰度值)，其单一波段的像素总数为n个，第i个像素的所有特征表示为

其中i＝1，2，…，n，X_i的第j个元素代表第i个像素的第j个特征的值，

表示所有数据的标签向量，其中y_i＝1，2，…，c，c为像素地物类别总数，像素点类别可以是图像内包含的物体的类别，例如：如果是对地高光谱图像，那么类别可以为草地、农田、住宅等。

(2)采用二分K均值算法构建锚点矩阵。

①初始化：聚类中心矩阵

聚类中心矩阵的每一列表示像素点样本的一个聚类中心；

②计算

其中

j＝1，2.计算Δe＝e₁-e₂，选择Δe最小的n₁个值对应的样本组成集合V，构造索引矩阵

③计算指示向量g指示的两类的所有样本的均值作为锚点。设置锚点数为p，如果锚点数达到p停止，否则对于所有子类重复步骤①-③，直到锚点数达到p，即子类数满足要求，得到锚点矩阵

其中每一列为一个锚点。其中，p可以取小于样本总数的最大的2的幂次。

(3)基于锚点构建自适应K近邻图。

①计算距离矩阵

表示第i个样本与其最近的第j个锚点的欧式距离平方。

②对于每一个样本点x_i的分配s＝5个近邻，s为近邻数，计算

中b_ij定义第i个样本与第j个锚点之间的相似度，b_i表示B的第i行元素组成的列：

③计算图的拉普拉斯矩阵

步骤二、建立最优化问题，并求解最优投影矩阵，主要分为如下两个过程：

(1)建立基于l_2，0约束的谱分析特征选择的最优化模型：

其中α是正则项参数，

m＜＝k＜＝d。求解投影矩阵的问题可以转化为

其中，

其中正则化参数α可以取10³。参数λ应足够大以保证

正定。一般情况下，λ被设置为M的最小负特征值的绝对值。

(2)求解投影矩阵W，判断

与m的相对大小并求解最优模型，获得被选择特征的索引：

①若

vii.由大到小的顺序提取矩阵

最大的k个对角元素的索引组成索引向量

viii.由索引向量计算行提取矩阵

定义运算

ix.由行提取矩阵计算

按顺序取

前m个最大特征值对应的特征向量，组成

其中

x.得到

②若

xi.初始化W₀，t＝0。

xii.计算

xiii.由大到小的顺序提取矩阵Γ_t最大的k个对角元素的索引组成索引向量

xiv.由索引向量计算行提取矩阵

定义运算

xv.由行提取矩阵计算

按顺序取Γ_t前m个最大特征值对应的特征向量，组成

xvi.更新内循环

直到收敛，选择最终的W_t作为投影矩阵W。。

②计算||ωⁱ||₂，(i＝1，2，...，d)，如果设置m＜k，然后选择m个最大值的索引作为所选特征。如果取m＝k，选择W不全为0的所有行的索引，作为最终选择则的特征的索引。

步骤三、对所有未知标签的高光谱图像像素，即构建样本矩阵的所有样本，共10370个103维的像素进行分类，主要分为以下两个过程：

(1)利用步骤二得到的特征索引选择所有像素的对应波段的灰度值组成新的数据矩阵，

其中每一列代表一个未知标签的高光谱图像像素的被选择的一组特征的值，新特征总数为m。

(2)将Z的每一列作为新的地物对应的像素样本的所有特征序列进行分类。将投影后的新的像素样本中已知标签的样本采用的分类算法(例如K近邻)进行分类。

图2是本发明提供的地物分类实验采用的真实场景下高光谱数据在某一波段的图像灰度化之后的可视化结果。图3是地物分类精度结果图。Baseline是采用原始的已知标签数据训练的K近邻分类器分类未知标签数据10次的平均结果，Our Method是采用特征选择后的已知标签数据训练的K近邻分类器分类特征选择后未知标签数据10次的平均结果。图3假设有20％的已知标签的样本训练K近邻分类器，从分类结果可以看出，Baseline是采用原始数据计算的结果，Our Method是本发明对原始数据进行特征选择后，采用所有像素被选择的特征计算的结果。当被选择特征数从1取到60时，本发明的特征选择方法结合分类方法能够得到较高的精确度。