CN114842253A

CN114842253A - 基于自适应光谱空间核结合ViT高光谱图像分类方法

Info

Publication number: CN114842253A
Application number: CN202210477506.6A
Authority: CN
Inventors: 王爱丽; 邢爽; 戴诗雨; 吴海滨; 徐恺阳
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2022-05-04
Filing date: 2022-05-04
Publication date: 2022-08-02

Abstract

本发明基于自适应光谱空间核结合ViT高光谱图像分类方法属于图像分类技术领域；该方法依次执行以下步骤：步骤a、输入待分类的高光谱图像；步骤b、使用主成分分析方法去除光谱冗余；步骤c、使用基于注意力的自适应光谱空间核进行特征提取；步骤d、将提取的特征输入到ViT中；步骤e、使用多层感知机得到分类结果；本发明通过长距离捕获HSI序列的光谱关系，并充分利用数据的局部和全局信息，解决了CNN方法获取深度语义特征能力有限问题，提高了分类精度。

Description

基于自适应光谱空间核结合ViT高光谱图像分类方法

技术领域

本发明基于自适应光谱空间核结合ViT高光谱图像分类方法属于图像分类技术领域。

背景技术

高光谱HSI遥感技术是获取地表信息的重要方式。高光谱遥感图(HyperspectralImagery，HSI)是通过高光谱成像仪获取的图像，它的空间信息和光谱信息十分丰富。与普通图像相比，高光谱遥感图像还具备更多的波段数以及极高的分辨率。高光谱遥感对地观测技术的应用十分普遍，例如精准农业、土地覆盖分析、海洋水文检测、地质勘探等领域，高光谱遥感及应用也必将在我国经济、农业、环境监测等各个方面发挥越来越重要的作用。

在早期的高光谱分类研究中，很多传统的机器学习方法已经应用于高光谱图像分类，主要如K近邻法、支持向量机、随机森林、朴素贝叶斯和决策树等。虽然这些传统的方法都取得了很好的性能，但是他们都是基于浅层特征进行学习分类的，而且依赖手动设计分类特征，难以学习到高光谱图像中更复杂的信息。

随着深度学习的发展，深度学习已经成为高光谱图像分类领域的研究新热点，基于深度学习高光谱图像分类算法能够自动的获取图像的高级特征，使得分类模型能更好的表征数据的特点，提高分类的精度。虽然基于CNN的HSI分类方法具有空间特征提取的优点，HSI图像的特点是具有近似连续的光谱信息，通常包含数百个谱带，CNN不擅于处理序列数据，而基于注意力机制的Transformer模型证明了其在处理序列数据的优势，另一方面，CNN具有良好的局部感知性，由于固有网络主干的局限性，CNN无法很好地挖掘和表示光谱特征的序列属性，而基于注意力机制的Transformer模型，使模型可以并行化训练，并拥有全局信息。近期，Transformer在视觉方向的应用成为热点，HSI的光谱是一种序列数据，通常包含数百个谱带。基于注意机制的Transformer模型在处理顺序数据方面已证明了其优势。

发明内容

发挥基于注意机制的Transformer模型的优势，本发明公开了一种基于自适应光谱空间核结合ViT高光谱图像分类方法，通过长距离捕获HSI序列的光谱关系，并充分利用数据的局部和全局信息，解决CNN方法获取深度语义特征能力有限问题，提高分类精度。

本发明的目的是这样实现的：

基于自适应光谱空间核结合ViT高光谱图像分类方法，包括以下步骤：

步骤a、输入待分类的高光谱图像；

步骤b、使用主成分分析方法去除光谱冗余；

步骤c、使用基于注意力的自适应光谱空间核进行特征提取；

步骤d、将提取的特征输入到ViT中，所述ViT为Vision Transformer的缩写；

步骤e、使用多层感知机得到分类结果。

上述的基于自适应光谱空间核结合ViT高光谱图像分类方法，步骤b具体包括以下步骤：

步骤b1、计算出三维原始高光谱数据的协方差矩阵；

步骤b2、根据所述协方差矩阵求出特征值和特征向量；

步骤b3、按照特征值从大到小的顺序排列特征向量；

步骤b4、使用特征向量作为加权系数，计算得到B个主成分分量，所述B为高光谱图像的波段数目。

上述的基于自适应光谱空间核结合ViT高光谱图像分类方法，步骤c具体包括以下步骤：

步骤c1、在多个不同大小的核之间进行选择性内核卷积；

步骤c2、通过四个连续的ResBlock进行光谱和空间特征学习。

上述的一种基于自适应光谱空间核结合ViT高光谱图像分类方法，步骤d具体包括以下步骤：

步骤d1、将patch输入到嵌入层，得到token向量；

步骤d2、在一系列token向量前面加上位置信息，对应着0～n；

步骤d3、将加有位置信息的token向量输入到Transformer Encoder中，将block重复堆叠L次。

上述的基于自适应光谱空间核结合ViT高光谱图像分类方法，在步骤e中：通过MLPHead对Vision Transformer的输出进行分类处理，所述MLP Head由LayerNorm和两层全连接层组成，并且采用GELU激活函数用于分类得到最终的分类结果。

有益效果：

本发明基于自适应光谱空间核结合ViT高光谱图像分类方法依次执行以下步骤：步骤a、输入待分类的高光谱图像；步骤b、使用主成分分析方法去除光谱冗余；步骤c、使用基于注意力的自适应光谱空间核进行特征提取；步骤d、将提取的特征输入到ViT中；步骤e、使用多层感知机得到分类结果；通过长距离捕获HSI序列的光谱关系，并充分利用数据的局部和全局信息，解决了CNN方法获取深度语义特征能力有限问题，提高了分类精度。

附图说明

图1是本发明基于自适应光谱空间核结合ViT高光谱图像分类方法的流程图。

图2是本发明方法中的基于自适应光谱空间核结合ViT网络原理示意图。

图3是本发明方法中的Vision Transformer的原理示意图。

图4是本发明方法中的Transformer编码器原理示意图。

图5是本发明方法中的Indian Pines数据集中所采用方法的分类结果图。

图6是本发明方法中的Pavia University数据集中所采用方法的分类结果图。

图7是本发明方法中的Xuzhou数据集中所采用方法的分类结果图。

图8是本发明方法中的WHU-Hi-LongKou数据集中所采用方法的分类结果图。

具体实施方式

下面结合附图对本发明具体实施方式作进一步详细描述。

本具体实施方式下的基于自适应光谱空间核结合ViT高光谱图像分类方法，流程图如图1所示，网络原理示意图如图2所示，包括以下步骤：

步骤a、输入待分类的高光谱图像。

在本具体实施方式中，采用4个公开的数据集，分别为Indian Pines数据集，PaviaUniversity数据集，Xuzhou数据集和WHU-Hi-LongKou数据集。

(1)Indian Pines数据集：由AVIRIS传感器在美国印第安纳州(Indiana)西北部的Indian Pines农业试验场上空获得。原始数据共224个波段，去除4个零波段和20个水体吸收波段(104-108，150-163，220)，余下200个波段供实验研究，范围为0.4到2.5μm，空间大小为145×145像素。

(2)Pavia University数据集：由ROSIS-03传感器在意大利帕维亚市(Pavia)的帕维亚大学(University of Pavia)上空获得。数据集的大小为610×340像素，空间分辨率为1.3m，原始数据具有115个波段，光谱覆盖范围为0.43到0.86μm，去除其中12个噪声波段，余下103个波段供实验研究。城市类别为9类。

(3)Xuzhou数据集：Xuzhou数据由HySpex SWIR-384和HySpex VNIR-1600成像光谱仪于2014年11月在中国江苏省徐州市获得，实验区位于煤矿区附近。数据集的大小为500×260像素，去除415nm到2508nm噪声波段，共有436个波段供实验研究，共有9个类别。

(4)WHU-Hi-LongKou数据集：WHU-Hi-LongKou数据集由一个8毫米焦距HeadwallNano-Hyperspec成像传感器，安装在DJI Matrice 600Pro(DJI M600 Pro)无人机平台上于2018年7月7日在中国湖北省龙口镇获得。研究区域是一个简单的农业场景，包含六种作物：玉米、棉花、芝麻、阔叶大豆、窄叶大豆和水稻，类别共9类。图像大小为550×400像素，在0.4到1μm之间有270个波段，无人机携带的高光谱图像的空间分辨率约为0.463m。

步骤b、使用主成分分析方法去除光谱冗余。

对于采用主成分分析法，其原理是通过较少的分量来反映原始数据中的大部分特性，将原始数据中相关性较高的分量转换为彼此间不相关的新分量，新分量称之为主成分。对高光谱数据进行去除冗余，将每个波段当作一个向量来处理。具体为：将高光谱图像矩阵中每个像素点的200维光谱通道，展开成一个1×200的特征矩阵。对特征矩阵中的元素按列求平均值，用特征矩阵中的每个元素分别减去该特征矩阵其对应列的均值。

步骤b1、计算出三维原始高光谱数据的协方差矩阵。

对特征矩阵中每两列元素求协方差，构造特征矩阵的协方差矩阵，依次依照下述两个公式，求特征矩阵的协方差矩阵。

σ(x_j,x_k)＝E[(x_j-E(x_j))(x_k-E(x_k))]

其中，σ(x_j,x_k)表示x_j和x_k之间的协方差，j,k＝1…m，m表示特征矩阵列数，E表示求矩阵期望，A代表协方差矩阵。

步骤b2、根据所述协方差矩阵求出特征值和特征向量。

步骤b3、按照特征值从大到小的顺序排列特征向量。

将所有特征值按照从大到小排序，从排序中选择前3个特征值，将3个特征值分别对应的特征向量，按列组成特征向量矩阵。

将高光谱图像矩阵投影到选取的特征向量矩阵上，得到降维后的特征矩阵。

步骤c、使用基于注意力的自适应光谱空间核进行特征提取。具体为：

步骤c1、在多个不同大小的核之间进行选择性内核卷积。

将HSI数字立方体

作为输入，生成自适应光谱空间核特征映射

作为输出。通过自动调整感受野大小，使神经元能够共同学习光谱空间特征，并放大下一层神经元中的多尺度信息。

为了提高HSI分类的鲁棒性，需要联合提取光谱-空间特征，同时使神经元能够自适应地调整感受野大小。通过从不同大小的感受野中适当选择卷积核来实现自动选择操作，即在多个不同大小的核之间进行选择性内核卷积。具体来说，基于注意力的自适应光谱空间核模块分为分割、融合和选择三种主要操作组成。

(1)分割：设

为HSI数据立方体的输入，

和

为第(l+1)层的变换，其中X_l为第(l+1)层光谱和空间核选择变换的输入。输出特征映射U^(l+1)和U^(l+1)定义为：

其中*为三维卷积运算，W^l+1为第l+1个卷积层的权重，b^(l+1)为偏差，利用两个感受野大小为(1×1×7)和(3×3×7)的三维卷积核提取光谱和空间特征图。F_spectral提取光谱特征，F_spatial提取空间特征。

(2)融合：通过自动调整神经元的感受野大小，使神经元共同学习光谱-空间特征，并放大下一层神经元的多尺度信息流，其基本思想是利用门来控制信息流，这些信息流来自光谱和空间分支，将不同规模的信息传输到下一层的神经元中。为了实现这个目标，门需要集成来自所有分支的信息。首先通过元素级求和融合两个分支的结果：

U^(l+1)＝U^(l+1)+U^(l+1)

其次，通过使用全局平均池化来嵌入全局信息，以生成具有数据的信道统计信息的特征响应向量(FRV)。具体来说，通过对每个通道b处的S×S空间元素进行平均，从而使

的空间维数沿着第b个特征图方向减少到

此外，为了获得不同通道特征的神经激活，使其能够自适应内核选择，创建了一个紧凑的特征

以实现精确和自适应选择的指导。这是通过一个简单的全连接层实现的，降低了维数以提高效率：特征权值向量定义为：

ReLu为激活函数，BN为归一化处理。d来实现模型收敛，使用压缩率r来控制z^(l+1)压缩维数值：

式中，L为d的最小值(L＝32是我们实验的典型设置)。

(3)选择：在压缩特征描述符z^(l+1)的引导下，使用跨信道软注意自适应选择不同的空间尺度的信息。具体来说，在面向信道的数字上应用Softmax算子：

其中，

和

表示U^(l+1)和U^(l+1)的soft attention向量。

和

是

和

第b行，由于两个分支的情况下，矩阵B_b是冗余的。通过各核函数上的注意权值得到最终的特征图V：

其中，V＝[V₁,V₂,...,V_B]并且

步骤c2、通过四个连续的ResBlock进行光谱和空间特征学习。

为了提取光谱空间特征，使其更加具有鲁棒性和区别性，光谱空间核特征映射由四个连续的ResBlock组成，每个ResBlock由24个内核，根据核形状的不同，ResBlock被分为光谱特征学习和空间特征学习。前两个ResBlock用于提取空间聚焦的光谱特征，而后两个ResBlock用于提取光谱聚焦的空间特征。因此，光谱-空间特征的联合学习提高了该模型的识别能力。在重新划分块之后，使用全局平均池化层将尺寸为7×7×24的三维特征图转换为尺寸为1×1×24的特征向量。

步骤d、将提取的特征输入到ViT中，所述ViT为Vision Transformer的缩写。

步骤d1、将patch输入到嵌入层，得到token向量。

Vision Transformer细节如图3所示。将patch输入到嵌入层，就会得到很多向量称为token，紧接着在一系列token的前面加上一个新的token，位置嵌入将添加到patch嵌入以保留位置。信息的位置越接近，往往具有更相似的位置编码。

步骤d2、在一系列token向量前面加上位置信息，对应着0～n。

Transformer编码器细节如图4所示。Transformer的输出通过MLP Head对输出进行分类处理，这里的MLP Head由LayerNorm和两层全连接层组成，并且采用了GELU激活函数用于分类得到最终的分类结果。

Transformer通常由编码器和解码器组成。对于这里考虑的图像分类任务，网络中只包含编码器。因此，主要描述编码器层的操作。编码器有两个组件，将一个token与所有token关联起来的Re-Attention机制，以及应用于每个token的前馈网络。编码器由N个相同层的堆栈组成。每个层有两个子层。第一种是Re-Attention机制，第二种是简单的位置全连接前馈网络。我们在这两个子层的每个周围都使用了一个残差连接和归一化层。也就是说，每个子层的输出都是LayerNorm(x+Sublayer(x))，其中，Sublayer(x)是子层本身实现的函数。

Re-Attention替代了Transformer块中的自注意层，从而有效地解决了注意力崩溃问题，并实现了更深层的Vision Transformer训练。Re-Attention利用不同注意头之间的相互作用来收集它们的互补信息，从而更好地提高了注意图的多样性。具体来说，我们以头部的注意图为基础，通过动态聚合生成一组新的注意图。定义一个可学习的转换矩阵

然后在与V相乘之前，使用它将多头注意力图混合成重新生成的新映射。具体来说，Re-Attention是通过以下方式实现的：

其中，将变换矩阵Θ乘以头部维度上的自注意力图。Norm是一个用于减少分层方差的标准化函数。Softmax函数应用于相似矩阵的行，d提供了一种标准化。查询、键和值是token的投影，即Q＝XW_Q，K＝XW_K，V＝XW_V。投影矩阵W_Q和W_K具有相同的大小，而W_V可以具有不同的大小。实际上，这三个投影矩阵通常具有相同的大小，即

在注意力层之后，附加一个前馈网络。首先将一个token序列重新塑造为一个在二维格点上重新排列的特征图。然后将两个1×1卷积和一个深度卷积应用到特征图上。然后，特征图被重塑为一个标记序列，作为网络Transformer层的自注意力使用。具体描述如下。

前馈网络由两个进入大小为1×1的卷积组成，并沿嵌入维变换特征。扩展了两个卷积层之间的隐藏维度，以学习更丰富的特征表示。

由于前馈网络是按位置对

序列应用的，将token序列重新排列重塑后的特征表示为

操作Seq2Img将序列转换为2D特征图。每个标记被放置到特征图的像素位置。这种观点的好处是恢复了token之间的接近性，从而为将局部性引入网络提供了机会。

由于特征图只应用了1×1的卷积，相邻像素之间缺乏信息交互。此外，Transformer的自注意力部分只捕获所有token之间的全局依赖关系。在倒置的残块中存在一个深度卷积。深度卷积对每个通道应用k×k(k>1)卷积核。k×k内核中的特性被聚合为计算一个新特征。因此，深度卷积是一种将局部性引入网络的有效方法。将深度卷积引入到Transformer前馈网络中，计算公式为：

Y＝Img 2Seq(Y^r)

其中，f(·)为非线性激活函数。为了简单起见，省略了偏差项。尺寸膨胀比γ通常设为4。

是由W1重塑而来的，表示卷积核。

是深度卷积的核。操作Img2Seq将图像特征映射转换回一个token序列，由下一个自注意力层使用。

综合表1、表2、表3和表4的对比结果可知，通过充分利用不同传感器数据间的优势，本发明有效地提升了多传感器遥感影像的融合质量及分类精度。

为了主观评价分类效果，图5、图6、图7和图8分别显示了Indian Pines数据集、Pavia University数据集、Xuzhou数据集和WHU-Hi-LongKou数据集的真值图以及各方法分类结果的伪彩色图。各分类方法的顺序与表1中分类方法的顺序相同。可以看出，相比于经典方法RBF-SVM和几种先进的方法，包括CNN、HybirdSN、PyResNet、SSRN、SSFTT和A2S2KResNet方法，本发明更贴近真实地物分布，错误分类的面积大大减少，进一步证明了所提方法在高光谱数据分类中的有效性。

表1 Indian Pines数据集不同分类方法的分类精度比较(％)

表2 Pavia University数据集不同分类方法的分类精度比较(％)

表3 Xuzhou数据集不同分类方法的分类精度比较(％)

表4 Xuzhou数据集不同分类方法的分类精度比较(％)