CN114842253A - 基于自适应光谱空间核结合ViT高光谱图像分类方法 - Google Patents
基于自适应光谱空间核结合ViT高光谱图像分类方法 Download PDFInfo
- Publication number
- CN114842253A CN114842253A CN202210477506.6A CN202210477506A CN114842253A CN 114842253 A CN114842253 A CN 114842253A CN 202210477506 A CN202210477506 A CN 202210477506A CN 114842253 A CN114842253 A CN 114842253A
- Authority
- CN
- China
- Prior art keywords
- vit
- hyperspectral image
- classification
- space kernel
- inputting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000001228 spectrum Methods 0.000 title claims abstract description 23
- 230000003595 spectral effect Effects 0.000 claims abstract description 27
- 230000003044 adaptive effect Effects 0.000 claims abstract description 21
- 238000012847 principal component analysis method Methods 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 29
- 239000013598 vector Substances 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 235000008331 Pinus X rigitaeda Nutrition 0.000 description 6
- 235000011613 Pinus brutia Nutrition 0.000 description 6
- 241000018646 Pinus brutia Species 0.000 description 6
- 230000008901 benefit Effects 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 244000068988 Glycine max Species 0.000 description 2
- 235000010469 Glycine max Nutrition 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 229920000742 Cotton Polymers 0.000 description 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 241000219146 Gossypium Species 0.000 description 1
- 101150064138 MAP1 gene Proteins 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 244000000231 Sesamum indicum Species 0.000 description 1
- 235000003434 Sesamum indicum Nutrition 0.000 description 1
- 240000008042 Zea mays Species 0.000 description 1
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 1
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 239000003245 coal Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 235000005822 corn Nutrition 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 101150077939 mapA gene Proteins 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/30—Assessment of water resources
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明基于自适应光谱空间核结合ViT高光谱图像分类方法属于图像分类技术领域;该方法依次执行以下步骤:步骤a、输入待分类的高光谱图像;步骤b、使用主成分分析方法去除光谱冗余;步骤c、使用基于注意力的自适应光谱空间核进行特征提取;步骤d、将提取的特征输入到ViT中;步骤e、使用多层感知机得到分类结果;本发明通过长距离捕获HSI序列的光谱关系,并充分利用数据的局部和全局信息,解决了CNN方法获取深度语义特征能力有限问题,提高了分类精度。
Description
技术领域
本发明基于自适应光谱空间核结合ViT高光谱图像分类方法属于图像分类技术领域。
背景技术
高光谱HSI遥感技术是获取地表信息的重要方式。高光谱遥感图(HyperspectralImagery,HSI)是通过高光谱成像仪获取的图像,它的空间信息和光谱信息十分丰富。与普通图像相比,高光谱遥感图像还具备更多的波段数以及极高的分辨率。高光谱遥感对地观测技术的应用十分普遍,例如精准农业、土地覆盖分析、海洋水文检测、地质勘探等领域,高光谱遥感及应用也必将在我国经济、农业、环境监测等各个方面发挥越来越重要的作用。
在早期的高光谱分类研究中,很多传统的机器学习方法已经应用于高光谱图像分类,主要如K近邻法、支持向量机、随机森林、朴素贝叶斯和决策树等。虽然这些传统的方法都取得了很好的性能,但是他们都是基于浅层特征进行学习分类的,而且依赖手动设计分类特征,难以学习到高光谱图像中更复杂的信息。
随着深度学习的发展,深度学习已经成为高光谱图像分类领域的研究新热点,基于深度学习高光谱图像分类算法能够自动的获取图像的高级特征,使得分类模型能更好的表征数据的特点,提高分类的精度。虽然基于CNN的HSI分类方法具有空间特征提取的优点,HSI图像的特点是具有近似连续的光谱信息,通常包含数百个谱带,CNN不擅于处理序列数据,而基于注意力机制的Transformer模型证明了其在处理序列数据的优势,另一方面,CNN具有良好的局部感知性,由于固有网络主干的局限性,CNN无法很好地挖掘和表示光谱特征的序列属性,而基于注意力机制的Transformer模型,使模型可以并行化训练,并拥有全局信息。近期,Transformer在视觉方向的应用成为热点,HSI的光谱是一种序列数据,通常包含数百个谱带。基于注意机制的Transformer模型在处理顺序数据方面已证明了其优势。
发明内容
发挥基于注意机制的Transformer模型的优势,本发明公开了一种基于自适应光谱空间核结合ViT高光谱图像分类方法,通过长距离捕获HSI序列的光谱关系,并充分利用数据的局部和全局信息,解决CNN方法获取深度语义特征能力有限问题,提高分类精度。
本发明的目的是这样实现的:
基于自适应光谱空间核结合ViT高光谱图像分类方法,包括以下步骤:
步骤a、输入待分类的高光谱图像;
步骤b、使用主成分分析方法去除光谱冗余;
步骤c、使用基于注意力的自适应光谱空间核进行特征提取;
步骤d、将提取的特征输入到ViT中,所述ViT为Vision Transformer的缩写;
步骤e、使用多层感知机得到分类结果。
上述的基于自适应光谱空间核结合ViT高光谱图像分类方法,步骤b具体包括以下步骤:
步骤b1、计算出三维原始高光谱数据的协方差矩阵;
步骤b2、根据所述协方差矩阵求出特征值和特征向量;
步骤b3、按照特征值从大到小的顺序排列特征向量;
步骤b4、使用特征向量作为加权系数,计算得到B个主成分分量,所述B为高光谱图像的波段数目。
上述的基于自适应光谱空间核结合ViT高光谱图像分类方法,步骤c具体包括以下步骤:
步骤c1、在多个不同大小的核之间进行选择性内核卷积;
步骤c2、通过四个连续的ResBlock进行光谱和空间特征学习。
上述的一种基于自适应光谱空间核结合ViT高光谱图像分类方法,步骤d具体包括以下步骤:
步骤d1、将patch输入到嵌入层,得到token向量;
步骤d2、在一系列token向量前面加上位置信息,对应着0~n;
步骤d3、将加有位置信息的token向量输入到Transformer Encoder中,将block重复堆叠L次。
上述的基于自适应光谱空间核结合ViT高光谱图像分类方法,在步骤e中:通过MLPHead对Vision Transformer的输出进行分类处理,所述MLP Head由LayerNorm和两层全连接层组成,并且采用GELU激活函数用于分类得到最终的分类结果。
有益效果:
本发明基于自适应光谱空间核结合ViT高光谱图像分类方法依次执行以下步骤:步骤a、输入待分类的高光谱图像;步骤b、使用主成分分析方法去除光谱冗余;步骤c、使用基于注意力的自适应光谱空间核进行特征提取;步骤d、将提取的特征输入到ViT中;步骤e、使用多层感知机得到分类结果;通过长距离捕获HSI序列的光谱关系,并充分利用数据的局部和全局信息,解决了CNN方法获取深度语义特征能力有限问题,提高了分类精度。
附图说明
图1是本发明基于自适应光谱空间核结合ViT高光谱图像分类方法的流程图。
图2是本发明方法中的基于自适应光谱空间核结合ViT网络原理示意图。
图3是本发明方法中的Vision Transformer的原理示意图。
图4是本发明方法中的Transformer编码器原理示意图。
图5是本发明方法中的Indian Pines数据集中所采用方法的分类结果图。
图6是本发明方法中的Pavia University数据集中所采用方法的分类结果图。
图7是本发明方法中的Xuzhou数据集中所采用方法的分类结果图。
图8是本发明方法中的WHU-Hi-LongKou数据集中所采用方法的分类结果图。
具体实施方式
下面结合附图对本发明具体实施方式作进一步详细描述。
本具体实施方式下的基于自适应光谱空间核结合ViT高光谱图像分类方法,流程图如图1所示,网络原理示意图如图2所示,包括以下步骤:
步骤a、输入待分类的高光谱图像。
在本具体实施方式中,采用4个公开的数据集,分别为Indian Pines数据集,PaviaUniversity数据集,Xuzhou数据集和WHU-Hi-LongKou数据集。
(1)Indian Pines数据集:由AVIRIS传感器在美国印第安纳州(Indiana)西北部的Indian Pines农业试验场上空获得。原始数据共224个波段,去除4个零波段和20个水体吸收波段(104-108,150-163,220),余下200个波段供实验研究,范围为0.4到2.5μm,空间大小为145×145像素。
(2)Pavia University数据集:由ROSIS-03传感器在意大利帕维亚市(Pavia)的帕维亚大学(University of Pavia)上空获得。数据集的大小为610×340像素,空间分辨率为1.3m,原始数据具有115个波段,光谱覆盖范围为0.43到0.86μm,去除其中12个噪声波段,余下103个波段供实验研究。城市类别为9类。
(3)Xuzhou数据集:Xuzhou数据由HySpex SWIR-384和HySpex VNIR-1600成像光谱仪于2014年11月在中国江苏省徐州市获得,实验区位于煤矿区附近。数据集的大小为500×260像素,去除415nm到2508nm噪声波段,共有436个波段供实验研究,共有9个类别。
(4)WHU-Hi-LongKou数据集:WHU-Hi-LongKou数据集由一个8毫米焦距HeadwallNano-Hyperspec成像传感器,安装在DJI Matrice 600Pro(DJI M600 Pro)无人机平台上于2018年7月7日在中国湖北省龙口镇获得。研究区域是一个简单的农业场景,包含六种作物:玉米、棉花、芝麻、阔叶大豆、窄叶大豆和水稻,类别共9类。图像大小为550×400像素,在0.4到1μm之间有270个波段,无人机携带的高光谱图像的空间分辨率约为0.463m。
步骤b、使用主成分分析方法去除光谱冗余。
对于采用主成分分析法,其原理是通过较少的分量来反映原始数据中的大部分特性,将原始数据中相关性较高的分量转换为彼此间不相关的新分量,新分量称之为主成分。对高光谱数据进行去除冗余,将每个波段当作一个向量来处理。具体为:将高光谱图像矩阵中每个像素点的200维光谱通道,展开成一个1×200的特征矩阵。对特征矩阵中的元素按列求平均值,用特征矩阵中的每个元素分别减去该特征矩阵其对应列的均值。
步骤b1、计算出三维原始高光谱数据的协方差矩阵。
对特征矩阵中每两列元素求协方差,构造特征矩阵的协方差矩阵,依次依照下述两个公式,求特征矩阵的协方差矩阵。
σ(xj,xk)=E[(xj-E(xj))(xk-E(xk))]
其中,σ(xj,xk)表示xj和xk之间的协方差,j,k=1…m,m表示特征矩阵列数,E表示求矩阵期望,A代表协方差矩阵。
步骤b2、根据所述协方差矩阵求出特征值和特征向量。
步骤b3、按照特征值从大到小的顺序排列特征向量。
将所有特征值按照从大到小排序,从排序中选择前3个特征值,将3个特征值分别对应的特征向量,按列组成特征向量矩阵。
步骤b4、使用特征向量作为加权系数,计算得到B个主成分分量,所述B为高光谱图像的波段数目。
将高光谱图像矩阵投影到选取的特征向量矩阵上,得到降维后的特征矩阵。
步骤c、使用基于注意力的自适应光谱空间核进行特征提取。具体为:
步骤c1、在多个不同大小的核之间进行选择性内核卷积。
为了提高HSI分类的鲁棒性,需要联合提取光谱-空间特征,同时使神经元能够自适应地调整感受野大小。通过从不同大小的感受野中适当选择卷积核来实现自动选择操作,即在多个不同大小的核之间进行选择性内核卷积。具体来说,基于注意力的自适应光谱空间核模块分为分割、融合和选择三种主要操作组成。
其中*为三维卷积运算,Wl+1为第l+1个卷积层的权重,b(l+1)为偏差,利用两个感受野大小为(1×1×7)和(3×3×7)的三维卷积核提取光谱和空间特征图。Fspectral提取光谱特征,Fspatial提取空间特征。
(2)融合:通过自动调整神经元的感受野大小,使神经元共同学习光谱-空间特征,并放大下一层神经元的多尺度信息流,其基本思想是利用门来控制信息流,这些信息流来自光谱和空间分支,将不同规模的信息传输到下一层的神经元中。为了实现这个目标,门需要集成来自所有分支的信息。首先通过元素级求和融合两个分支的结果:
U(l+1)=U(l+1)+U(l+1)
ReLu为激活函数,BN为归一化处理。d来实现模型收敛,使用压缩率r来控制z(l+1)压缩维数值:
式中,L为d的最小值(L=32是我们实验的典型设置)。
(3)选择:在压缩特征描述符z(l+1)的引导下,使用跨信道软注意自适应选择不同的空间尺度的信息。具体来说,在面向信道的数字上应用Softmax算子:
步骤c2、通过四个连续的ResBlock进行光谱和空间特征学习。
为了提取光谱空间特征,使其更加具有鲁棒性和区别性,光谱空间核特征映射由四个连续的ResBlock组成,每个ResBlock由24个内核,根据核形状的不同,ResBlock被分为光谱特征学习和空间特征学习。前两个ResBlock用于提取空间聚焦的光谱特征,而后两个ResBlock用于提取光谱聚焦的空间特征。因此,光谱-空间特征的联合学习提高了该模型的识别能力。在重新划分块之后,使用全局平均池化层将尺寸为7×7×24的三维特征图转换为尺寸为1×1×24的特征向量。
步骤d、将提取的特征输入到ViT中,所述ViT为Vision Transformer的缩写。
步骤d1、将patch输入到嵌入层,得到token向量。
Vision Transformer细节如图3所示。将patch输入到嵌入层,就会得到很多向量称为token,紧接着在一系列token的前面加上一个新的token,位置嵌入将添加到patch嵌入以保留位置。信息的位置越接近,往往具有更相似的位置编码。
步骤d2、在一系列token向量前面加上位置信息,对应着0~n。
步骤d3、将加有位置信息的token向量输入到Transformer Encoder中,将block重复堆叠L次。
Transformer编码器细节如图4所示。Transformer的输出通过MLP Head对输出进行分类处理,这里的MLP Head由LayerNorm和两层全连接层组成,并且采用了GELU激活函数用于分类得到最终的分类结果。
Transformer通常由编码器和解码器组成。对于这里考虑的图像分类任务,网络中只包含编码器。因此,主要描述编码器层的操作。编码器有两个组件,将一个token与所有token关联起来的Re-Attention机制,以及应用于每个token的前馈网络。编码器由N个相同层的堆栈组成。每个层有两个子层。第一种是Re-Attention机制,第二种是简单的位置全连接前馈网络。我们在这两个子层的每个周围都使用了一个残差连接和归一化层。也就是说,每个子层的输出都是LayerNorm(x+Sublayer(x)),其中,Sublayer(x)是子层本身实现的函数。
Re-Attention替代了Transformer块中的自注意层,从而有效地解决了注意力崩溃问题,并实现了更深层的Vision Transformer训练。Re-Attention利用不同注意头之间的相互作用来收集它们的互补信息,从而更好地提高了注意图的多样性。具体来说,我们以头部的注意图为基础,通过动态聚合生成一组新的注意图。定义一个可学习的转换矩阵然后在与V相乘之前,使用它将多头注意力图混合成重新生成的新映射。具体来说,Re-Attention是通过以下方式实现的:
其中,将变换矩阵Θ乘以头部维度上的自注意力图。Norm是一个用于减少分层方差的标准化函数。Softmax函数应用于相似矩阵的行,d提供了一种标准化。查询、键和值是token的投影,即Q=XWQ,K=XWK,V=XWV。投影矩阵WQ和WK具有相同的大小,而WV可以具有不同的大小。实际上,这三个投影矩阵通常具有相同的大小,即
在注意力层之后,附加一个前馈网络。首先将一个token序列重新塑造为一个在二维格点上重新排列的特征图。然后将两个1×1卷积和一个深度卷积应用到特征图上。然后,特征图被重塑为一个标记序列,作为网络Transformer层的自注意力使用。具体描述如下。
前馈网络由两个进入大小为1×1的卷积组成,并沿嵌入维变换特征。扩展了两个卷积层之间的隐藏维度,以学习更丰富的特征表示。
操作Seq2Img将序列转换为2D特征图。每个标记被放置到特征图的像素位置。这种观点的好处是恢复了token之间的接近性,从而为将局部性引入网络提供了机会。
由于特征图只应用了1×1的卷积,相邻像素之间缺乏信息交互。此外,Transformer的自注意力部分只捕获所有token之间的全局依赖关系。在倒置的残块中存在一个深度卷积。深度卷积对每个通道应用k×k(k>1)卷积核。k×k内核中的特性被聚合为计算一个新特征。因此,深度卷积是一种将局部性引入网络的有效方法。将深度卷积引入到Transformer前馈网络中,计算公式为:
Y=Img 2Seq(Yr)
其中,f(·)为非线性激活函数。为了简单起见,省略了偏差项。尺寸膨胀比γ通常设为4。是由W1重塑而来的,表示卷积核。是深度卷积的核。操作Img2Seq将图像特征映射转换回一个token序列,由下一个自注意力层使用。
综合表1、表2、表3和表4的对比结果可知,通过充分利用不同传感器数据间的优势,本发明有效地提升了多传感器遥感影像的融合质量及分类精度。
为了主观评价分类效果,图5、图6、图7和图8分别显示了Indian Pines数据集、Pavia University数据集、Xuzhou数据集和WHU-Hi-LongKou数据集的真值图以及各方法分类结果的伪彩色图。各分类方法的顺序与表1中分类方法的顺序相同。可以看出,相比于经典方法RBF-SVM和几种先进的方法,包括CNN、HybirdSN、PyResNet、SSRN、SSFTT和A2S2KResNet方法,本发明更贴近真实地物分布,错误分类的面积大大减少,进一步证明了所提方法在高光谱数据分类中的有效性。
表1 Indian Pines数据集不同分类方法的分类精度比较(%)
表2 Pavia University数据集不同分类方法的分类精度比较(%)
表3 Xuzhou数据集不同分类方法的分类精度比较(%)
表4 Xuzhou数据集不同分类方法的分类精度比较(%)
Claims (5)
1.基于自适应光谱空间核结合ViT高光谱图像分类方法,其特征在于,包括以下步骤:
步骤a、输入待分类的高光谱图像;
步骤b、使用主成分分析方法去除光谱冗余;
步骤c、使用基于注意力的自适应光谱空间核进行特征提取;
步骤d、将提取的特征输入到ViT中,所述ViT为Vision Transformer的缩写;
步骤e、使用多层感知机得到分类结果。
2.根据权利要求1所述的基于自适应光谱空间核结合ViT高光谱图像分类方法,其特征在于,步骤b具体包括以下步骤:
步骤b1、计算出三维原始高光谱数据的协方差矩阵;
步骤b2、根据所述协方差矩阵求出特征值和特征向量;
步骤b3、按照特征值从大到小的顺序排列特征向量;
步骤b4、使用特征向量作为加权系数,计算得到B个主成分分量,所述B为高光谱图像的波段数目。
3.根据权利要求1所述的基于自适应光谱空间核结合ViT高光谱图像分类方法,其特征在于,步骤c具体包括以下步骤:
步骤c1、在多个不同大小的核之间进行选择性内核卷积;
步骤c2、通过四个连续的ResBlock进行光谱和空间特征学习。
4.根据权利要求1所述的一种基于自适应光谱空间核结合ViT高光谱图像分类方法,其特征在于,步骤d具体包括以下步骤:
步骤d1、将patch输入到嵌入层,得到token向量;
步骤d2、在一系列token向量前面加上位置信息,对应着0~n;
步骤d3、将加有位置信息的token向量输入到Transformer Encoder中,将block重复堆叠L次。
5.根据权利要求1所述的基于自适应光谱空间核结合ViT高光谱图像分类方法,其特征在于,在步骤e中:通过MLP Head对Vision Transformer的输出进行分类处理,所述MLPHead由LayerNorm和两层全连接层组成,并且采用GELU激活函数用于分类得到最终的分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210477506.6A CN114842253A (zh) | 2022-05-04 | 2022-05-04 | 基于自适应光谱空间核结合ViT高光谱图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210477506.6A CN114842253A (zh) | 2022-05-04 | 2022-05-04 | 基于自适应光谱空间核结合ViT高光谱图像分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114842253A true CN114842253A (zh) | 2022-08-02 |
Family
ID=82568489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210477506.6A Pending CN114842253A (zh) | 2022-05-04 | 2022-05-04 | 基于自适应光谱空间核结合ViT高光谱图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114842253A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017128799A1 (zh) * | 2016-01-27 | 2017-08-03 | 深圳大学 | 基于三维Gabor特征选择的高光谱遥感图像分类方法及系统 |
KR102197297B1 (ko) * | 2019-09-27 | 2020-12-31 | 서울대학교산학협력단 | 순환형 3차원 완전 합성곱망을 활용한 초분광영상의 변화탐지 방법 |
CN112749752A (zh) * | 2021-01-15 | 2021-05-04 | 中国人民解放军战略支援部队信息工程大学 | 一种基于深度Transformer的高光谱影像分类方法 |
CN113850315A (zh) * | 2021-09-22 | 2021-12-28 | 中国人民解放军战略支援部队信息工程大学 | 结合emp特征和tnt模块的高光谱影像分类方法及装置 |
CN113887610A (zh) * | 2021-09-29 | 2022-01-04 | 内蒙古工业大学 | 基于交叉注意力蒸馏Transformer的花粉图像分类方法 |
CN114037899A (zh) * | 2021-12-01 | 2022-02-11 | 福州大学 | 基于vit的面向高光谱遥感图像分类径向累加位置编码系统 |
-
2022
- 2022-05-04 CN CN202210477506.6A patent/CN114842253A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017128799A1 (zh) * | 2016-01-27 | 2017-08-03 | 深圳大学 | 基于三维Gabor特征选择的高光谱遥感图像分类方法及系统 |
KR102197297B1 (ko) * | 2019-09-27 | 2020-12-31 | 서울대학교산학협력단 | 순환형 3차원 완전 합성곱망을 활용한 초분광영상의 변화탐지 방법 |
CN112749752A (zh) * | 2021-01-15 | 2021-05-04 | 中国人民解放军战略支援部队信息工程大学 | 一种基于深度Transformer的高光谱影像分类方法 |
CN113850315A (zh) * | 2021-09-22 | 2021-12-28 | 中国人民解放军战略支援部队信息工程大学 | 结合emp特征和tnt模块的高光谱影像分类方法及装置 |
CN113887610A (zh) * | 2021-09-29 | 2022-01-04 | 内蒙古工业大学 | 基于交叉注意力蒸馏Transformer的花粉图像分类方法 |
CN114037899A (zh) * | 2021-12-01 | 2022-02-11 | 福州大学 | 基于vit的面向高光谱遥感图像分类径向累加位置编码系统 |
Non-Patent Citations (3)
Title |
---|
AILI WANG ET AL: "A Hyperspectral Image Classification Method Based on Adaptive Spectral Spatial Kernel Combined with Improved Vision Transformer", 《REMOTE SENSING》, 2 August 2022 (2022-08-02), pages 1 - 20 * |
ALEXEY DOSOVITSKIY ET AL: "AN I MAGE IS WORTH 16 X16 WORDS:T RANSFORMERS FOR I MAGE RECOGNITION AT S CALE", 《ARXIV》, 3 June 2021 (2021-06-03), pages 1 - 22 * |
王爱丽 等: "结合动态卷积和三重注意力机制的高光谱图像分类", 《激光与光电子学进展》, vol. 59, no. 10, 9 October 2021 (2021-10-09), pages 1 - 11 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112232280B (zh) | 基于自编码器与3d深度残差网络的高光谱图像分类方法 | |
CN112200090B (zh) | 基于交叉分组空谱特征增强网络的高光谱图像分类方法 | |
CN111274869B (zh) | 基于并行注意力机制残差网进行高光谱图像分类的方法 | |
CN111191736A (zh) | 基于深度特征交叉融合的高光谱图像分类方法 | |
CN112308152B (zh) | 基于光谱分割与同质区域检测的高光谱图像地物分类方法 | |
Alipourfard et al. | A novel deep learning framework by combination of subspace-based feature extraction and convolutional neural networks for hyperspectral images classification | |
CN114821164A (zh) | 基于孪生网络的高光谱图像分类方法 | |
CN112580480B (zh) | 一种高光谱遥感影像分类方法及装置 | |
CN111027509B (zh) | 一种基于双流卷积神经网络的高光谱图像目标检测方法 | |
CN113361485A (zh) | 基于光谱空间注意力融合和可变形卷积残差网络的高光谱图像分类方法 | |
CN113139512B (zh) | 基于残差和注意力的深度网络高光谱影像分类方法 | |
Xiang et al. | End-to-end multilevel hybrid attention framework for hyperspectral image classification | |
Qi et al. | Global-local three-dimensional convolutional transformer network for hyperspectral image classification | |
CN113537239A (zh) | 一种基于全局关系感知注意力的高光谱图像波段选择方法 | |
Ge et al. | Adaptive hash attention and lower triangular network for hyperspectral image classification | |
CN115240072A (zh) | 一种基于多方向多尺度光谱-空间残差卷积神经网络的高光谱多类变化检测方法 | |
CN115187861A (zh) | 一种基于深度孪生网络的高光谱图像变化检测方法及系统 | |
CN109145950B (zh) | 一种基于图信号采样的高光谱图像主动学习方法 | |
CN117315481A (zh) | 基于光谱-空间自注意力和Transformer网络的高光谱图像分类方法 | |
CN109460788B (zh) | 基于低秩-稀疏信息组合网络的高光谱图像分类方法 | |
CN109447009B (zh) | 基于子空间核范数正则化回归模型的高光谱图像分类方法 | |
CN116704188A (zh) | 一种基于改进U-Net网络的不同容重小麦籽粒图像分割算法 | |
CN115641503A (zh) | 一种基于Transformer网络的高光谱波段选择方法及装置 | |
CN114299398B (zh) | 一种基于自监督对比学习的小样本遥感图像分类方法 | |
CN115984585A (zh) | 一种引入注意力机制的多尺度高光谱图像特征提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |