CN115205590A - 一种基于互补集成Transformer网络的高光谱图像分类方法 - Google Patents

一种基于互补集成Transformer网络的高光谱图像分类方法 Download PDF

Info

Publication number
CN115205590A
CN115205590A CN202210811682.9A CN202210811682A CN115205590A CN 115205590 A CN115205590 A CN 115205590A CN 202210811682 A CN202210811682 A CN 202210811682A CN 115205590 A CN115205590 A CN 115205590A
Authority
CN
China
Prior art keywords
layer
dimensional convolution
module
network
citnet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210811682.9A
Other languages
English (en)
Inventor
石翠萍
廖帝灵
王丽婧
苗凤娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qiqihar University
Original Assignee
Qiqihar University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qiqihar University filed Critical Qiqihar University
Priority to CN202210811682.9A priority Critical patent/CN115205590A/zh
Publication of CN115205590A publication Critical patent/CN115205590A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/58Extraction of image or video features relating to hyperspectral data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

一种基于互补集成Transformer网络的高光谱图像分类方法,本发明涉及基于互补集成Transformer网络的高光谱图像分类方法。本发明的目的是为了解决现有CNNs很难很好地捕获序列属性的局限性,导致高光谱图像分类准确率低问题。过程为:一、获取高光谱图像HSI,对高光谱图像HSI进行预处理得到预处理后的图像,分为训练样本数据集和测试样本数据集;二、构建CITNet网络;三、将一获得的训练样本数据集和测试样本数据集输入CITNet网络进行训练,以获得训练好的CITNet网络;四、将待分类的图像输入训练好的CITNet网络,输出对待分类图像的分类结果。本发明用于高光谱图像分类领域。

Description

一种基于互补集成Transformer网络的高光谱图像分类方法
技术领域
本发明涉及基于互补集成Transformer网络的高光谱图像分类方法。
背景技术
高光谱图像(HSIs)由高光谱传感器捕获而来,且包含数百个窄带波段,它们携带了精细的光谱信息和丰富的空间信息。HSIs目前被广泛应用于许多领域,包括地质和矿物[1]、异常探测[2]、天气识别[3]、大气科学[4]和农业[5],[6]。高光谱图像分类任务就是识别图像中像素点对应的土地覆盖类别[7]-[9]。然而,由于获取的HSIs常受到大气干扰、入射照明和仪器效应[10],[11]的干扰,所以识别HSIs像素点对应的土地覆盖类别很难被精准地识别。
近年来,很多工作利用深度学习(Deep Learning,DL)在计算机视觉领域取得了巨大的突破,包括图像分类[12]-[14]、目标检测[15],[16]、语义分割[17],且已经被广泛应用在 HSI分类领域[18]。其中,DL中比较流行的主干网络包括自动编码器(Autoencoders,AEs)、卷积神经网络(Convolutional Neural Networks,CNNs)、生成对抗网络(GenerativeAdversarial Networks,GANs)、循环神经网络(Recurrent Neural Networks,RNNs)、胶囊网络(Capsule Networks,CapsNet)以及图神经网络(Graph Convolutional Networks,GCNs)。在[19],Chen等人提出了一种新的基于主成分分析(Principal ComponentAnalysis, PCA)[20]、DL体系结构和逻辑回归(Logistic Regression,LR)[21]的混合框架,并用来提取高级特征。在[22],Lin等人提出了一种改进的GAN,该网络包含一个生成网络和一个相互竞争的鉴别网络。Paoletti等人[23]提出了一种新的光谱-空间胶囊网络,并且有效地降低计算复杂度。此外,Hong等人[24]提出了一种小批量的GCN(miniGCN),为解决GCN中的大图问题提供了一个可行的解决方案。考虑到光谱序列性,RNN[25]由于其天然的序列数据设计属性,使得它能够有序地累积学习图像光谱特征,但RNN模型不能并行计算。
在上述这些DL比较流行的主干网络中,CNNs是最受欢迎的一种学习框架,这也得益于CNN具有强大的图像特征提取能力[26]-[28]。HSIs中包含丰富的光谱和空间信息,充分地提取图像的光谱和空间特征能够有效改善分类性能。在CNN的早期研究工作中, HSI分类出现了很多有出色的网络。在[29],Makantasis等人利用CNN对像素的光谱和空间信息进行编码,并采用多个多层感知器进行高光谱图像分类。Cao等人[30]通过利用 CNN学习后验类别分布,并且贝叶斯的角度来阐述HSI的分类任务。在[31],Paoletti等人为了提取更多的空间信息,提出了一种深度金字塔残差网络(PyResNet)。为了提取更多非线性、判别性和不变性特征,Chen等人[32]构建了多层2D卷积网络(2DCNN)。然而,这些基于2-D CNN的方法更多的是提取图像的空间特征,同时还会大量的计算复杂度。为了提取图像光谱-空间特征和缓解计算参数爆炸的问题,Lee和Kwon[33]通过利用多个不同大小的局部卷积核构建了一种新的端到端CNN(LeeEtAINet),且提取了丰富的光谱-空间特征。同样地,考虑到二维图像和一维光谱信息的HSI与三维目标图像有很大不同,He等人[34]提出一种多尺度三维卷积神经网络(3DCNN)。虽然,基于3-D CNN 被证明能够有效提取HSIs的光谱和空间特征,且有效地改善分类性能[35],[36]。然而,随着网络层数的增加,误差梯度将会大幅度更新网络参数,导致网络不稳定或者产生梯度消失现象[37]。为了解决这些问题,Zhong等人[38]在光谱模块和空间模块中引入残差结构,提出了一种光谱-空间残差网络(Spectral-Spatial Residual Network,SSRN)。Roy等人[39]提出了一种混合光谱卷积神经网络(Hybrid-SN),该网络利用3-D CNNs和2-D CNNs来提取HSI的光谱-空间特征和空间特征。虽然,基于CNN的方法展现出强大的空间信息和局部上下文信息提取能力,但不可否认基于CNN的方法依然存在一些局限性。一方面,CNNs很难很好地捕获序列属性,特别是中期和长期的依赖关系[40]。当遇到一些图像类别较为复杂的情况时,这不可避免地遇到了HSI分类任务中的性能瓶颈。另一方面,CNNs在局部接受域上采用卷积滤波器权重进行特征提取,且权重参数全局共享,导致CNNs过于关注空间内容信息,忽略了重要的光谱特征。
过去两年,基于Transformer方法在计算机视觉任务中得到广泛的应用[41-44]。其中,最为经典的模型是视觉Transformer(Vision Transformer,ViT)[45],且在图像处理领域表现良好。在[46],一种基于光谱-空间Transformer(SST)被提出。首先,SST使用VGGNet[47]提取到空间特征,并构建了密集Transformer获取长期依赖关系。为了解决 HSI多频带性质和数据的冗余性,Qing等人[48]提出了一种SATNet,该网络利用光谱注意机制和自注意机制分别提取了HSI图像的光谱-空间特征。Hong等人[40]提出了一种光谱Transformer(SpectralFormer,SF),从光谱序列性的角度重新思考了Transformer,并通过构建了一个跨层Transformer编码器模块学习群相邻光谱信息。然而,这些基于Transformer方法虽然能够有效地学习到HSIs光谱信息,但却忽略了局部语义信息,导致空间信息获取匮乏。考虑到这个问题,Le等人[49]提出了一种基于光谱-空间特征标记化Transformer(Spectral-Spatial Feature Tokenization Transformer,SSFTT),该网络采用光谱-空间特征提取模块来提取低级特征,并设计了一种高斯加权特征标记器进行特征变换。同样地,Zhong等人[50]提出了一种光谱-空间Transformer网络(Spectral-SpatialTransformer Network,SSTN),并用一种因子分解结构搜索(Factorized ArchitectureSearch, FAS)框架来确定SSTN的层级操作选择和块级顺序。
CNN中的卷积Conv是在局部接受域上采用卷积滤波器权重进行特征提取,且权重参数全局共享,这就使得提取的特征更加关注图像的高频信息[51]。相反,Transformer 被认为是一种低通滤波器[52],且自适应地关注不同的区域,更加关注图像的低频信息。考虑到Conv和Transformer的不同和互补性质,集成这两种模块有益于特征的充分提取。 SSFTT[49]和SSTN[50]也充分验证了这个观点。然而,这些方法也仅仅使用Conv与 Transformer的简单结合,且获取的性能不令人感到十分满意。
发明内容
本发明的目的是为了解决现有CNNs很难很好地捕获序列属性的局限性,导致高光谱图像分类准确率低问题,而提出一种基于互补集成Transformer网络的高光谱图像分类方法。
一种基于互补集成Transformer网络的高光谱图像分类方法具体过程为:
步骤一、获取高光谱图像HSI,对高光谱图像HSI进行预处理得到预处理后的图像,分为训练样本数据集和测试样本数据集;
步骤二、构建CITNet网络;
所述CITNet网络为互补集成Transformer网络;
所述CITNet网络的结构为:
从CITNet网络的输入端开始,CITNet网络依次包括第一三维卷积模块、第二三维卷积模块、基于通道高斯调制注意力模块CGMAM、第三二维卷积模块、第一线性层、互补集成Transformer模块CITM、第二线性层;
所述基于通道高斯调制注意力模块CGMAM依次包括平均池化层、第三线性层、第一ReLU激活函数层、第四线性层、高斯调制函数层;
所述互补集成Transformer模块CITM依次包括Positional Embedding层、第一标准化层、互补多头自注意力C-MHSA、第一残差映射层、第二标准化层、MLP层、第二残差映射层;
所述第一三维卷积模块依次包括第一三维卷积层、第一BN层、第二ReLU激活函数层;
所述第二三维卷积模块依次包括第二三维卷积层、第二BN层、第三ReLU激活函数层;
所述第三二维卷积模块依次包括第三二维卷积层、第三BN层、第四ReLU激活函数层;
所述CITNet网络的连接关系为:
输入端连接第一三维卷积模块,第一三维卷积模块连接第二三维卷积模块,第二三维卷积模块连接基于通道高斯调制注意力模块CGMAM,基于通道高斯调制注意力模块CGMAM连接第三二维卷积模块,第三二维卷积模块连接第一线性层,第一线性层连接互补集成Transformer模块CITM,互补集成Transformer模块CITM连接第二线性层,第二线性层输出分类结果;
步骤三、将步骤一获得的训练样本数据集和测试样本数据集输入CITNet网络进行训练,以获得训练好的CITNet网络;
步骤四、将待分类的图像输入训练好的CITNet网络,输出对待分类图像的分类结果。
本发明的有益效果为:
本发明提出了一种基于Transformer的互补集成网络(ComplementaryIntegrated Transformer Network,CITNet)。具体地说,CITNet首先使用Conv3D和Conv2D提取 HSI的光谱和空间特征。其次,考虑到次要特征的重要性,提出了一种基于通道高斯调制注意力模块(Channel Gaussian Modulation Attention Module,CGMAM)嵌入在Conv3D和Conv2D之间,强调Conv3D提取的次要特征。然后,充分利用Conv和Transformer 的优势,提出了一种互补集成模块(Complementary Integration Transformer Module, CITM),该模块将Conv嵌入在Transformer当中。最后,采用基于softmax的线性分类器来确定每个像素的标签。
本发明提出了一种CITM,它充分地考虑了Conv和Transformer的优势,将Conv嵌入在Transformer当中,并将所获取的低频信息和高频信息有效地融合。
考虑到Conv提取的特征包含次要特征,这种次要特征也同样有利于改善分类性能。因此,本文还提出了一种CGMAM,它用来增强Conv提取的次要特征。
本发明提出的方法CITNet系统集成了CNN和Transformer,这个方式能够有效地提取图像丰富的高频和低频信息,且能够显著提高分类性能。在四个比较常见的数据集上的实验证明了所提出方法的有效性。
本发明提出了一种基于高光谱图像分类的互补集成Transformer网络(Complementary Integrated Transformer Network,CITNet)。首先,CITNet利用Conv3D和Conv2D提取图像的光谱和空间特征。然后,提出了一种基于通道高斯调制注意力模块(Channel Gaussian Modulation Attention Module,CGMAM)嵌入在Conv3D和Conv2D之间,强调 Conv3D提取的次要特征。最后,考虑到Conv和Transformer互补性质,提出了一种互补集成模块(Complementary Integration Module,CITM)。由于自身的局限性,卷积并不利于建立长期的依赖关系,且更倾向于高频信息的提取。相反,Transformer建模能够得到远距离特征之间的长期依赖关系,更加关注低频信息。为了网络充分地体现出Conv和Transformer的优势,CITNet集成了Conv和Tranformer,这种建模方式能够有效地提取图像丰富的特征。为了验证所提出方法的有效性,我们对CITNet在四个常见数据集上进行了定量实验和视觉评估,最终充分验证了CITNet的有效性。当然,在未来的工作当中,我们还会充分地挖掘CNNs和Transformers优势,且引入一些先进的技术(包括迁移学习、自监督学习)来改进Transformer框架。
附图说明
图1为所提出CITNet的整体结构图。
图2为特征值分布图,(a)为高斯调制前原始的特征值分布;(b)为高斯调制后特征值的分布图,以突出次要特征;
图3a为CITM结构图;图3b为C-MHSA结构图;其中,C-MHSA是CITM的核心部件;
图4为不同学习率和批处理大小组合在四个数据集上的实验结果图,(a)IndianPines 数据集,(b)Pavia数据集,(c)Salinas数据集,(d)Houston2013数据集;
图5为不同输入空间大小对分类精度OA值的影响图;
图6为在Indian Pines数据集上不同方法的分类结果图,括号内为OA值,(a)假彩色图,(b)地面真实图,(c)-(l)为2DCNN(82.04%)、3DCNN(81.15%)、PyResNet(92.01%)、Hybrid-SN(94.31%)、SSRN(98.54%)、ViT(79.73%)、SF(88.54%)、SSFTT(97.43%)、SSTN(95.43%)、CITNet(98.71%)的分类图;
图7为在Pavia数据集上不同方法的分类结果图,括号内为OA值,(a)假彩色图,(b)地面真实图,(c)-(l)为2DCNN(94.55%)、3DCNN(93.69%)、PyResNet(94.70%)、 Hybrid-SN(97.99%)、SSRN(%)、ViT(94.35%)、SF(95.89%)、SSFTT(99.15%)、SSTN(97.20%)、CITNet(99.63%)的分类图;
图8为在Salinas数据集上不同方法的分类结果图,括号内为OA值。(a)假彩色图,(b)地面真实图,(c)-(l)为2DCNN(96.01%)、3DCNN(96.62%)、PyResNet(98.22%)、Hybrid-SN(98.99%)、SSRN(99.85%)、ViT(97.87%)、SF(97.72%)、SSFTT(99.41%)、SSTN(94.03%)、CITNet(99.90%)的分类图;
图9为在Houston2013数据集上不同方法的分类结果图,括号内为OA值,(a)假彩色图,(b)地面真实图,(c)-(l)为2DCNN(92.63%)、3DCNN(93.01%)、PyResNet(95.85%)、Hybrid-SN(97.83%)、SSRN(98.98%)、ViT(92.28%)、SF(93.83%)、SSFTT(98.35%)、SSTN(92.82%)、CITNet(99.02%)的分类图。
具体实施方式
具体实施方式一:本实施方式一种基于互补集成Transformer网络的高光谱图像分类方法具体过程为:
近年来,卷积神经网络(Convolutional Neural Network,CNN)由于其强大的特征表示能力,显著地提高了高光谱图像分类的性能。CNN中的卷积(Convolutional,Conv) 是在局部接受域上采用卷积滤波器权重进行特征提取,且权重参数全局共享,更加关注图像的高频信息。与Conv不同,Transformer通过建模能够得到远距离特征之间的长期依赖关系,且自适应地关注不同的区域,被认为是一种低通滤波器,更加关注图像的低频信息。考虑到Conv和Transformer的互补特性,可以通过集成这两种模块进行充分特征提取。此外,最敏感的图像特征对应于判别区域,而次要特征表示重要但容易被忽略的区域,且同样有利于高光谱图像(Hyperspectral Images,HSIs)的分类。因此,本文提出了一种基于高光谱图像分类的互补集成Transformer网络(Complementary Integrated TransformerNetwork,CITNet)。具体地说,首先采用Conv3D和Conv2D提取图像的浅层语义特征。为了增强次要特征,提出了一种通道高斯调制注意力模块(Channel Gaussian ModulationAttention Module,CGMAM)嵌入在Conv3D模块与Conv2D之间。该模块不仅能够增加次要特征,同时还能抑制最重要和最不重要的特征。然后,考虑到Conv和Transformer 的不同和互补的特征,提出了一种互补集成模块(Complementary Integration Transformer Module,CITM)。最后,通过进行一系列的实验,本文评估了CITNet与其他先进的网络在四种常见公开数据集上的分类性能。实验结果显示,与其他先进的分类网络相比, CITNet获得了更好的分类性能。
在图像处理领域中,CNN充分地展现出强大的特征提取能力。其中,CNN中最为常见的是Conv2D和Conv3D。HSI包含丰富光谱和空间信息,采用二维卷积(2D Convolution,Conv2D)和三维卷积(3D convolution,Conv3D)进行HSI的特征提取,既能够捕获图像的光谱-空间联合特征,还能捕获图像的空间特征。因此,CITNet首先采用Conv3D和 Conv2D进行特征提取。
步骤一、获取高光谱图像HSI,对高光谱图像HSI进行预处理得到预处理后的图像,分为训练样本数据集和测试样本数据集;
步骤二、构建CITNet网络;
所述CITNet网络为互补集成Transformer网络;
所述CITNet网络的结构为:
从CITNet网络的输入端开始,CITNet网络依次包括第一三维卷积模块、第二三维卷积模块、基于通道高斯调制注意力模块CGMAM(Channel Gaussian ModulationAttention Module,CGMAM)、第三二维卷积模块、第一线性层、互补集成Transformer模块CITM (Complementary Integration Transformer Module,CITM)、第二线性层;
所述基于通道高斯调制注意力模块CGMAM依次包括平均池化层、第三线性层、第一ReLU激活函数层、第四线性层、高斯调制函数层;
所述互补集成Transformer模块CITM依次包括Positional Embedding层、第一标准化层(LN)、互补多头自注意力(C-MHSA)、第一残差映射层、第二标准化层(LN)、MLP 层、第二残差映射层;
所述第一三维卷积模块依次包括第一三维卷积层、第一BN层、第二ReLU激活函数层;
所述第二三维卷积模块依次包括第二三维卷积层、第二BN层、第三ReLU激活函数层;
所述第三二维卷积模块依次包括第三二维卷积层、第三BN层、第四ReLU激活函数层;
所述CITNet网络的连接关系为:
输入端连接第一三维卷积模块,第一三维卷积模块连接第二三维卷积模块,第二三维卷积模块连接基于通道高斯调制注意力模块CGMAM,基于通道高斯调制注意力模块CGMAM连接第三二维卷积模块,第三二维卷积模块连接第一线性层,第一线性层连接互补集成Transformer模块CITM,互补集成Transformer模块CITM连接第二线性层,第二线性层输出分类结果;
步骤三、将步骤一获得的训练样本数据集和测试样本数据集输入CITNet网络进行训练,以获得训练好的CITNet网络;
步骤四、将待分类的图像输入训练好的CITNet网络,输出对待分类图像的分类结果。
具体实施方式二:本实施方式与具体实施方式一不同的是,所述步骤一中获取高光谱图像HSI,HSI为Z∈{X,Y},
Figure BDA0003739499640000061
为HSI数据,Y={y1,y2,...,yC}为HSI标签;
其中,
Figure BDA0003739499640000062
为实数,h×w为HSI数据的空间大小,l为HSI的波段数量,C为最大的类别标签数;
虽然l携带了大量的光谱信息,但依然存在较多的冗余光谱。因此,为了降低计算复杂度,采用PCA方法对HSI数据
Figure BDA0003739499640000063
进行预处理,PCA将波段数量l降到b,得到预处理后的输出
Figure BDA0003739499640000064
接着,对Xpca进行3D立方体提取,得到N个相邻3D立方体
Figure BDA0003739499640000065
s×s为空间大小;
所有x的中心像素为(xi,xj),每个x的标签由中心像素的标签决定(有的地方进行填充不知道标签,所以每个x的标签由中心像素的标签决定),且所有的x都有对应的标签;
其中,0≤i<h,0≤j<w;
当提取单个像素周围的像素时,若无法检索到边缘像素,则需要对这些边缘像素进行填充(用0填充);
接着,x除去背景数据外(当中心像素为填充时,对应标签为0,不属于1-C类,为背景进行删除),剩下的数据样本被分为训练样本数据集和测试样本数据集。
其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是,所述第一三维卷积模块和第二三维卷积模块的具体过程为:
每个
Figure BDA0003739499640000071
经输入端连接第一三维卷积模块(包括三维卷积层-批归一化层-激活函数层),第一三维卷积模块连接第二三维卷积模块(包括三维卷积层-批归一化层-激活函数层),进行光谱-空间特征提取,得到输出的特征大小为
Figure BDA0003739499640000072
c为通道数;
第一三维卷积模块或第二三维卷积模块的过程可表示为:
Figure BDA0003739499640000073
其中,f(·)为激活函数;
Figure BDA0003739499640000074
表示第i层三维卷积模块(一共2个三维卷积模块,一共2层)第j个特征图在位置(x,y,z)上的神经元;Hi,Wi和Ri分别表示第i层三维卷积模块卷积核的高度、宽度和深度;
Figure BDA0003739499640000075
是第d个特征图在位置(α,β,γ)的权重参数; bi,j为偏置项。
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是,所述第三二维卷积模块具体过程为:
输入数据经过第三二维卷积模块(包括二维卷积层-批归一化层-激活函数层)进行特征提取,输出的特征大小为
Figure BDA0003739499640000076
为了特征提取更加充分,采用Conv2D进一步提取输入数据的空间特征,该过程可表示为
Figure BDA0003739499640000077
其中,H′i,W′i分别表示二维卷积模块卷积核的高度和宽度,
Figure BDA0003739499640000078
表示第d个特征图在位置(H′i,W′i)上的权重参数,
Figure BDA0003739499640000079
表示第i层二维卷积模块(一共1个二维卷积模块,一共1层)第j个特征图在位置(x,y)上的神经元。
其它步骤及参数与具体实施方式一至三之一相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是,所述基于通道高斯调制注意力模块CGMAM具体过程为:
CGMAM
在[53]表明,最敏感的特征对应于鉴别区域,而次要特征表示重要但容易被忽略的区域。最敏感的特征有利于增强判决能力,而次要特征同样也有利于更好地分类。因此,为了提取更多的次要特征,本发明提出了一种基于通道高斯调制注意力模块(ChannelGaussian Modulation Attention Module,CGMAM),利用该模块来增强通道的次要特征。
输入为
Figure BDA0003739499640000081
s×s为空间大小,c为输入的通道数量;
首先,输入Ain依次经过平均池化层、第三线性层、第一ReLU激活函数层、第四线性层、得到包含通道依赖关系的输出特征Gin
然后,Gin通过高斯调制函数层重新分配特征的分布,且突出通道的次要特征,得到输出特征Gout
最后,次要特征被增强的特征Gout对原始的输入Ain进行通道加权;然而,此时得到的输出却只保留了次要特征。因此,将加权后的输出与原始的输入Ain进行逐像素相加,得到输出Aout
其中,Aout包含了增强后的次要特征以及原始的重要特征;
以上操作可以表示为
Figure BDA0003739499640000082
其中,Ps(·)表示平均池化函数,H(·)表示线性和激活函数层(表示第三线性层、第一ReLU激活函数层、第四线性层),
Figure BDA0003739499640000083
表示高斯调制函数,
Figure BDA0003739499640000084
表示逐通道加权;
特别地,在CGMAM中,本发明采用高斯调制函数
Figure BDA0003739499640000085
重新分配特征的分布;即
Figure BDA0003739499640000086
输入Gin通过高斯调制函数能够将所有的激活值映射为高斯分布;而高斯分布的均值μ和方差σ可以通过Gin计算得到,即
Figure BDA0003739499640000091
Figure BDA0003739499640000092
其中,N表示输入数据的总数。
为了更好地解释高斯调制函数,我们对高斯调制前后的特征值的分布进行可视化。从图2中(a)、(b)可以看出,特征值经过高斯调制之后,重要的特征值和最不重要的特征值被抑制,而次要的特征值被增强。
其它步骤及参数与具体实施方式一至四之一相同。
具体实施方式六:本实施方式与具体实施方式一至五之一不同的是,所述互补集成 Transformer模块CITM具体过程为:
互补集成Transformer模块近年来,Transformer被广泛的应用在自然语言处理中。在[45],ViT首次被应用在图像分类任务,且获得了令人满意的分类性能。与CNN不同的是,Transformer通过建模能够得到远距离特征之间的长期依赖关系,并获得深层语义特征。考虑到Conv和Transformer 的不同和互补的特征,通过集成这两种模块有益于特征的充分提取。因此,本发明提出了一种互补集成Transformer模块(ComplementaryIntegration Transformer Module,CITM),其结构如图3a所示。CITM主要包括位置嵌入、互补多头自注意力(Complementary Multi-Head Self-Attention,C-MHSA)。其中,互补多头自注意力是CITM核心组件,结构如图3b所示。
在输入CITM结构之前,为了便于后续数据处理,我们将
Figure BDA0003739499640000093
经过重塑之后,得到的输出为
Figure BDA0003739499640000094
Figure BDA0003739499640000095
再经过第一线性层线性映射之后的输出为
Figure BDA0003739499640000096
其中,z为通道的数量;ss为序列长度;
如图1所示,线性映射后输出
Figure BDA0003739499640000097
作为位置嵌入的输入;
每个令牌(token)用[T1,T2,...,Tz]表示,并且所有的令牌(tokens)与一个可学习的分类令牌
Figure BDA0003739499640000098
(参数)连接;Tz为第z个令牌;
令牌(token)为一个s×s×1的向量;
然后,将位置信息PE编码(已知[T1,T2,...,Tz]和可学习的分类令牌
Figure BDA0003739499640000099
(参数)就能得到位置信息PE编码)附加到所有的令牌表示中;
位置嵌入的标记序列可以表示为
Figure BDA00037394996400000910
位置嵌入的标记序列输入第一标准化层(LN),得到标准化后的位置嵌入的标记序列 Tin
Transformer能够通过建模获取更深的语义特征,它包括多头自注意力(MHSA)、两个标准化层(LN)和一个MLP层。其中,Transformer能够取得优秀的性能得益于多头自注意力(MHSA)。
通常,MSHA的输入包含Query(Q)、Key(K)和Value(V)。然而,MHSA相乘被认为是一个低通滤波[52]。MHSA通过在多个不同的投影空间中建立不同的投影信息,且自适应地关注不同的区域,更加关注图像的低频信息。相反,Conv通过局部接受域采用滤波器进行信息提取,进而更加关注图像的高频信息。考虑到Conv和Transformer的不同和互补的特征,本文提出了一种C-MHSA。其结构如图3b所示。C-MHSA的过程表示如下
Figure BDA0003739499640000101
Figure BDA0003739499640000102
其中,dK表示K的维度,dZ表示Z的维度,
Figure BDA0003739499640000103
表示头的数量,
Figure BDA0003739499640000104
是权重参数,Conv(·)为卷积函数,包含Conv和BN层,Concat(·)为级联函数;SA(Q,K,V)表示自注意力结果,Q、K、V表示特征向量;
将C-MHSA的输出结果CMHSA输入到第一残差映射层,第一残差映射层的输出结果输入到第二标准化层(LN),第二标准化层的输出结果输入到MLP层;
将C-MHSA的输出结果CMHSA输入到第二残差映射层,第二残差映射层的输出与MLP层的结果融合,得到互补集成Transformer模块CITM的输出结果Bout
与MHSA类似,C-MHSA首先经过线性映射成三个不变矩阵Q、K和V,使用Softmax 函数来计算分数。接着,使用相同的操作过程来计算多头注意值。然后,将每个头部注意力的结果连接在一起,且与经过卷积之后的V进行融合,得到C-MHSA输出结果。这种集成方式能够有效地体现出Transformer和Conv的优势,并且充分地提取图像的高频和低频信息。最后,将C-MHSA得到的输出输入到LN和MLP层。
算法1总结了互补集成Transformer模块的实施过程。
Figure BDA0003739499640000105
Figure BDA0003739499640000111
其它步骤及参数与具体实施方式一至六之一相同。
具体实施方式七:本实施方式与具体实施方式一至六之一不同的是,所述向量Q、K、 V求解过程为:
标准化后的位置嵌入的标记序列Tin分别乘以三个不同的CITM权重参数Wq,Wk, Wv,生成三个向量,即Q、K、V。
其它步骤及参数与具体实施方式一至六之一相同。
具体实施方式八:本实施方式与具体实施方式一至七之一不同的是,所述MLP层依次包括第三标准化层(LN)、第五线性层、第一Dropout层、第六线性层、第二Dropout 层。
其它步骤及参数与具体实施方式一至七之一相同。
具体实施方式九:本实施方式与具体实施方式一至八之一不同的是,所述HSI数据
Figure BDA0003739499640000112
的大小为145×145×200,经过PCA预处理和3D立方体提取后的输出为13× 13×30;
所述第一三维卷积模块中的第一三维卷积层使用8个7×7×7卷积核进行卷积,得到 8个13×13×30的特征;
所述第二三维卷积模块中的第二三维卷积层使用64个1×1×30卷积核进行卷积,得到64个大小为13×13×1的特征;
将64个大小为13×13×1的特征重塑为64个大小为13×13特征;
然后,将64个13×13的特征经过基于通道高斯调制注意力模块CGMAM,输出的大小与输入相同;
最后,将输出通过64个大小为7×7卷积核的Conv2D(第三二维卷积模块),得到 64个13×13特征图;每一个特征图展平为一维向量,得到
Figure BDA0003739499640000121
接下来,将上面得到的
Figure BDA0003739499640000122
经过第一线性层映射得到特征
Figure BDA0003739499640000123
然后,将一个全零向量连接到x中作为一个可学习的标记,并嵌入一个已学习到的位置标记,得到
Figure BDA0003739499640000124
Tin经过CITM模块之后,特征大小不变;CITM连接第二线性层,第二线性层输出分类结果。
为了更好地理解所提出的CITNet,本文以Indian Pines数据集为例进行详细的说明。 Indian Pines数据集的大小为145×145×200。首先,输入数据经过PCA预处理和3Dcube 提取后的输出为13×13×30。在第一个Conv3D中,使用8个7×7×7卷积核进行卷积,得到8个13×13×30的特征。再将所得到的特征经过64个1×1×30卷积核进行卷积,得到64个大小为13×13×1的特征,并将其重塑为64个大小为13×13特征。
然后,将64个13×13的特征经过CGMAM,输出的大小与输入相同。最后,将输出通过64个大小为7×7卷积核的Conv2D,得到64个13×13特征图。每一个特征图展平为以为一维向量,得到
Figure BDA0003739499640000125
接下来,为了便于后续数据处理,将上面得到的
Figure BDA0003739499640000126
经过线性映射得到特征
Figure BDA0003739499640000127
然后,将一个全零向量连接到x中作为一个可学习的标记,并嵌入一个已学习到的位置标记,得到
Figure BDA0003739499640000128
Tin经过CITM模块之后,特征大小不变。CITM连接第二线性层,第二线性层输出分类结果。所提出的CITNet进行HSI分类的过程见算法 2。
Figure BDA0003739499640000129
Figure BDA0003739499640000131
其它步骤及参数与具体实施方式一至八之一相同。
具体实施方式十:本实施方式与具体实施方式一至九之一不同的是,所述步骤三中将步骤一获得的训练样本数据集和测试样本数据集输入CITNet网络进行训练,以获得训练好的CITNet网络;具体过程为:
将步骤一获得的训练样本数据集输入CITNet网络进行训练,得到预训练好的CITNet 网络,将测试样本数据集输入CITNet网络进行测试,若满足要求,获得训练好的CITNet 网络;若不满足要求,继续训练,直至获得训练好的CITNet网络。
其它步骤及参数与具体实施方式一至九之一相同。
采用以下实施例验证本发明的有益效果:
实施例一:
实验结果与分析
A、数据集描述
为了验证所提出的CITNet模型的泛化能力,四种常见数据集被用来进行一系列的实验,包括Indian Pines数据集、Pavia数据集、Salinas数据集和Houston2013数据集。所有数据集的类别名称和数据样本划分如表Ⅰ所示。
Indian Pines数据集:这个HSI是1992由机载可见光-红外成像光谱仪(AirborneVisible-Infrared Imaging Spectrometer,AVIRIS)传感器捕获而来,且包含145×145个像素点和224个光谱波段。除去吸水波段和低信噪比波段外,还剩下200个波段被用于实验。Indian Pines数据集包含16个地物类别,主要包括,包括农业、森林和植被。
Pavia数据集:该HSI由反射光学光谱成像系统(Reflective OpticsSpectrographic Image System,ROSIS-3)传感器获得,它有115个光谱波段,且波长范围为0.43~0.86μm。图像的空间大小为610×340,包含9个土地覆盖物。除去12个低信噪比和噪声波段,剩下 103个光谱波段被用于实验。
Salinas数据集:该HSI在萨利纳斯山谷上空由AVIRIS传感器捕获。图像的空间大小为512×217,且包含224个光谱波段。除去噪声波段外(108-112、154-167和224),还剩下200个光谱波段被用于实验。Salinas数据集包含16个土地覆盖物,且空间分辨率为 3.7m。
Houston2013数据集:该HSI由高光谱图像分析团队和NCALM在休斯顿大学的校园和附近的城区采用传感器捕获而来。图像的空间大小为349×1905,且包含144个光谱波段,波长范围为380~1050纳米。Houston2013有15个土地覆盖物。
表Ⅰ所有数据集的类别名称和数据样本划分数量
Figure BDA0003739499640000132
Figure BDA0003739499640000141
B、实验设置
1、评价指标
在高光谱图像分类中,常用的性能指标主要有三个,包括整体精度(OA)、平均精度(AA)和卡帕系数(Kappa)。设H=(ai,j)n×n为真实类别信息与预测的类别信息的混淆矩阵。其中,n为类别的数量,ai,j为类别j分类为类别i的数量。那么,OA值为
Figure BDA0003739499640000142
其中,M为总样本数量,OA表示准确分类的样本数量与总样本数量的比值。另一个性能指标AA表示每个类别分类精度的平均值
Figure BDA0003739499640000143
最后,Kappa矩阵具体的计算如下
Figure BDA0003739499640000144
上式中,ai,_和a_,i分别表示混淆矩阵H中第i行对应的所有列元素和第i列对应的所有行元素。
2、比较方法
为了进行实验的比较,本文选择了一些先进的高光谱图像分类网络,包括 2DCNN[32]、3DCNN[34]、PyResNet[31]、Hybrid-SN[39]、SSRN[38]、ViT[45]、SF[40]、 SSTN[49]和SSFTT[50]。
2DCNN由两个卷积层和两个池化层组成。
3DCNN由两个多尺度三维卷积块和一个全连接层组成,每个多尺度卷积块包含四个卷积核大小分别1×1×1、1×1×3、1×1×5和1×1×11的3D卷积层。
SSRN由空间残差块和光谱残差块组成。其中,空间残差块包含5个卷积块,每个卷积块由卷积核为3×3×128的三维卷积层和BN层组成。而光谱残差块也同样包含5个卷积块,且每个卷积块由卷积核为1×1×7的三维卷积层和一个BN层。
PyResNet由五个不同模块组成,分别为C、P1、P2、P3和输出模块。其中,C由一个卷积层和BN层组成,而金字塔模块P1、P2和P3,由三个金字塔瓶颈残差单元组成。最后,输出模块由下采样和一个全连接层进行最后的分类。
Hybrid-SN结合了2-D CNN和3-D CNN。3-D CNN被用来提取图像的光谱-空间特征,包含3个3-D卷积层。而3DCNN被用来提取图像的空间特征,包含1个2D卷积层。
对于ViT,是一种基于Transformer的经典方法,ViT结构中包含一个线性映射组件和Transformer编码器。
SF从光谱序列性的角度重新讨论了HSIs分类问题,提出了一种基于Transformer的主干网络,以替代基于CNN或RNN的体系结构。
SSFTT是一种光谱空间特征标记化Transformer网络。
SSTN是一种光谱-空间Transformer网络,并用一种FAS框架来确定SSTN的层级操作选择和块级(block-level)顺序。
3、实施细节
本文提出的方法是在Pytorch平台上实现的,并使用台式的PC,带有Intel(R)Core(TM)i9-9900K CPU、NVIDIA GeForce RTX 2080Ti GPU和128G随机存取内存。值得注意的是我们采用Adam优化器,并将批处理大小、初始学习率和训练轮次设置为64、 5e-3和200。
为了公平比较,本文的所有实验均在同一实验环境中进行,并且所有实验结果取20 次实验的平均值。
C、模型分析
1、消融实验
提出的CITM模块的消融研究:Transformer能够通过建模获取更深的语义特征,且更加关注图像的低频信息。相反地,Conv通过局部接受域采用滤波器进行信息提取,更加关注图像的高频信息。考虑两者的不同和互补的特征,本文提出了一种CITM模块。而这种CITM模块与原始的Transformer模块不同的是,在多头自注意力部分引入了Conv。为了验证CITM模块设计的有效性,本文以Indian Pines数据集为例,进行了消融研究。结果如表Ⅰ所示。从表中可以看出,引入Conv之后,OA、AA和k均获得了大幅度地提高。为了进一步探究卷积核大小对CITM模块的性能影响,Conv分别选用卷积核大小为 3×3、5×5和7×7进行了实验。可以看到,随着卷积核的增大,分类性能逐渐降低。因此,消融研究结果充分地证明了在Transformer中引入Conv能够有效提高分类精度,但随着 Conv卷积核逐渐增大,分类性能逐渐降低,这可能的原因是随着卷积核增大,所能获取的精细特征逐渐变少。
表Ⅰ提出的CITM模块在Indian Pines数据集上的消融研究
Figure BDA0003739499640000151
Figure BDA0003739499640000161
表Ⅱ提出的CITNet在Indian Pines数据集上的消融研究
Figure BDA0003739499640000162
提出的CITNet的消融研究:本发明所提出的CITNet网络主要由三个组件组成,包括Conv3D&Conv2D、CGMAM和CTM。Conv3D&Conv2D被用来提取HSI的光谱和空间特征。其中,为了增强次要特征的表示,提出了一种CGMAM被嵌入在Conv3D和 Conv2D之间。此外,本文还提出了CITM,该模块结合了Transformer和Conv。为了验证这三个组件的有效性,我们在Indian Pines数据集上的消融研究。消融实验的结果如表Ⅱ所示。第一种情况,网络中仅包含Conv3D&Conv2D,最终获得的模型分类精度最差。第二种情况,网络包含Conv3D&Conv2D和CGMAM,分类精度得到改善。第三种情况,网络包含Conv3D&Conv2D和CTM,分类精度由于前两种情况。其中,与第一种情况比较,第三种情况的OA、AA和k提高了6.89%、9.08%和7.87%。第四种情况,当网络包含这三个组件时,获得的分类精度最好。因此,笑容研究充分证明了CITNet中主要组件的有效性。
2、参数敏感性分析
在深度学习网络当中,很多参数对网络性能产生影响。其中,学习率和批处理大小直接决定了模型的权重更新。换句话说,学习率直接影响网络的收敛状态,批处理大小则影响网络的泛化性能,并且这两个参数之间也会相互影响。为了探究所提出CITNet网络适合的学习率和批处理大小,我们在四个数据集上进行了不同学习率和批处理大小的组合实验。其中,选用的学习率集合为{1e-4,5e-4,1e-3,5e-3},选用的批处理大小集合为 {128,64,32,16}。实验结果如图4所示,红色为等高线最大值区域,深蓝色为等高线最小值区域。从图中可以看到,在Indian Pines数据中,随着学习率的增大,网络的OA值增大,而不同的批处理大小对OA值的影响较小,如图4中(a)。在Pavia数据集,较大的学习率和批处理大小往往能够获得较大的OA值,如图4中(b)。在Salinas数据集,较优的批处理大小为64,而对应的不同学习率均能够获得较高的OA值,如图4中(c)。在Houston2013数据集上,显然最优的学习率为5e-3,对应最优的批处理大小为128和 64,如图4中(d)。综上所述,我们选用5e-3和64为CITNet网络的学习率和批处理大小。
3、不同输入空间大小
在高光谱图像分类网络中,不同输入空间大小对分类精度影响较大。为了探究四个数据集在所提出网络上最佳的输入空间大小,我们对其进行了实验探究。其中,实验选用的输入空间大小为7×7,9×9,11×11,13×13,15×15,17×17,19×19和21×21。实验结果如图5所示。结果显示,Indian Pines和Pavia数据集随着输入空间大小的增加, OA值先增加后降低。而Salinas和Houston2013数据集OA值逐渐增加,当获得最高值后逐渐平缓。其中,Indian Pines和Pavia在空间大小为13×13时,取得了最大的OA值。而Salinas和Houston2013分别在14×14和19×19时获得了OA的最大值,但它们与输入空间为13×13时的OA值相差不多。考虑到越大的输入空间必然会带来大量的参数,所以本文在四个数据集上采用的输入空间大小为均为13×13。
D、结果分析
1、定量分析
表Ⅲ-表Ⅵ分别给出了Indian Pines、Pavia、Salinas和Houston2013数据集的OA、AA、 k以及每个类别的分类精度。通过粗略地观察,可以轻易发现,基于CNN的方法和基于Transformer的方法都获得了令人满意的分类精度。特别地,与其他方法相比,提出的方法在四个数据集上的整体分类精度最高。具体地说,在基于CNN方法当中,由于2DCNN 和3DCNN网络较浅,致使提取的特征不够充分,这两种方法获得最差的分类精度不令人感到意外。而Hybrid-SN结合了3-D卷积和2-D卷积,既考虑了光谱-空间特征,同时还考虑了空间特征,最终获得了较高的分类精度。深层的CNN网络能够获取判决能力更强的特征,但却往往会带来梯度消失或者梯度爆炸的问题。为了解决这些问题,SSRN在光谱模块和光谱模块中引入了残差结构,获得了基于CNN方法中最优的分类精度。另外,在基于Transformer的方法当中,ViT作为经典模型,在高光谱图像分类上展现出 Transformer的巨大潜力。而SF受到ViT的启发,通过充分考虑光谱序列性进行建模,获得了令人欣喜的分类结果。值得注意的是,最新的两个基于Transformer的工作SSFTT和 SSTN,在四个数据集上获得了比大部分CNNs网络更好的分类精度。
最后,可以发现,我们的方法集成了CNN和Transformer,最终获得了CNNs和Transformers网络中最高的分类精度。与CNNs中分类精度最高的SSRN相比,提出方法的OA值在四个数据集上分别高出0.17%,0.84%,0.05%和0.04%。与Transformers中分类精度最高的SSFTT相比,提出方法的OA值在四个数据集上分别高出1.28%,0.48%, 0.49%和0.67%。此外,在一些较难分类的类别当中,如Indian Pines的类别15和16, Houston2013的类别13,提出的方法获得了100%的分类精度。这也充分说明了,提出方法通过集成CNN和Transformer提取到更丰富的低频和高频信息,有效地提高了特征的判别能力。
表ⅢIndian Pines数据集的分类结果(最优结果加粗)
Figure BDA0003739499640000171
表ⅣPavia数据集的分类结果(最优结果加粗)
Figure BDA0003739499640000172
Figure BDA0003739499640000181
表ⅤSalinas数据集的分类结果(最优结果加粗)
Figure BDA0003739499640000182
表ⅥHouston2013数据集的分类结果(最优结果加粗)
Figure BDA0003739499640000183
2、视觉评估
图6-图9分别给出了所有方法在Indian Pines、Pavia、Salinas和Houston2013数据集上的分类结果图。通过视觉比较,提出的方法CITNet在四个数据集上的分类结果图最接近地面真实图。不难发现,由于CNN强大的局部上下文特征提取能力,一些基于CNN 的方法获得了较为平滑的分类图,包括Hybrid-SN和SSRN。这也得益于它们采用3-D卷积和2-D卷积来提取HSIs的光谱-空间信息。而分类最差的是仅考虑空间信息的2DCNN。光谱特征是高光谱图像分类的重要特征,而Transformer通过建模能够得到远距离特征之间的长期依赖关系,且自适应地关注不同的区域,关注更多图像的低频信息。我们进一步可以发现,基于Transformer方法由于考虑更多低频信息,导致并不能很好的分类一些小尺寸孤立物体,如Houston2013数据集中红色的“Healthy grass”类别和亮绿色的“Stressed grass”类别。值得注意的是,虽然基于Tansformer的ViT和SF获得了分类结果图依然存在较多错分的类别,但也充分了展现了基于Tansformer方法的潜力。因此,我们的方法集成了CNN和Transformer,这不仅能够充分提取局部上下文高频特征,同时还能更多地保留图像的低频特征。通过视觉分类结果,不难验证所提出方法的有效性。
3、测试时间成本比较
为了进一步比较所提出方法,表Ⅶ给出了所有方法在四个数据集上所需的网络训练时间和测试时间。通过对比表Ⅶ数据,可以发现,CNNs方法当中2DCNN和3DCNN所需的网络训练时间和测试时间较短,这与它们的网络较浅有关。而基于CNN的PyResNet、 Hybrid-SN和SSRN所需要的训练时间和测试时间均比基于Transformer方法长,这也是 Transformer方法的优势。同样,我们也可以很容易观察到,基于Transformer的方法所需的训练时间和测试时间相差不大,而所提出的方法在Indian Pines、Pavia和Houston2013 数据集上所需测试时间最短。虽然,所提出的方法在Salinas数据集所需测试时间不是最优的结果,但是次优的结果。基于较深的CNN网络虽然能够获得较好的性能,但计算效率较差。然而,Transformer不需要搭建较深的网络就能够获取高级语义信息,计算效率较高。因此,结合较浅的CNN和Transformer不仅能够保证计算高效,还能提高分类性能,这充分地展现出巨大的潜力。
表Ⅶ所有方法在四个数据集上的网络训练时间(min)和测试时间(s)(最优结果加粗)
Figure BDA0003739499640000191
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
参考文献
[1]N.Yokoya,J.C.-W.Chan,and K.Segl,"Potential of resolution enhancedhyperspectral data for mineral mapping using simulated EnMAP and Sentinel-2images,"Remote Sens.,vol.8,no.3,p.172,2016.
[2]Z.Wu,W.Zhu,J.Chanussot,Y.Xu and S.Osher,"Hyperspectral AnomalyDetection via Global and Local Joint Modeling of Background,"in IEEETransactions on Signal Processing,vol.67,no.14,pp. 3858-3869,15July15,2019.
[3]B.Zhao,L.Hua,X.Li,X.Lu,and Z.Wang,"Weather recognition viaclassification labels and weather-cue maps,"Pattern Recognit.,vol.95,pp.272–284,Nov.2019.
[4]Z.Wang,T.Yang,and H.Zhang,"Land contained sea area ship detectionusing spaceborne image," Pattern Recognit.Lett.,vol.130,pp.125–131,Feb.2020.
[5]Y.Lanthier,A.Bannari,D.Haboudane,J.R.Miller and N.Tremblay,"Hyperspectral Data Segmentation and Classification in Precision Agriculture:AMulti-Scale Analysis,"IGARSS 2008-2008IEEE International Geoscience andRemote Sensing Symposium,2008,pp.II-585-II-588.
[6]F.Xing,H.Yao,Y.Liu,X.Dai,R.L.Brown,and D.Bhatnagar,"Recentdevelopments and applications of hyperspectral imaging for rapid detection ofmycotoxins and mycotoxigenic fungi in food products," Crit.Rev.FoodSci.Nutrition,vol.59,no.1,pp.173–180,Jan.2019.
[7]T.V.Bandos,L.Bruzzone and G.Camps-Valls,"Classification ofHyperspectral Images With Regularized Linear Discriminant Analysis,"in IEEETransactions on Geoscience and Remote Sensing, vol.47,no.3,pp.862-873,March2009.
[8]J.Zhang,X.Jin,J.Sun,J.Wang,and A.K.Sangaiah,"Spatial and semanticconvolutional features for robust visual object tracking,"Multimed.Tools.Appl.,pp.1-21,Aug.2018.
[9]D.Zeng,Y.Dai,F.Li,R.S.Sherratt,and J.Wang,"Adversarial learningfor distant supervised relation extraction,"Comput.Mater.Contin.,vol.55,no.1,pp.121-136,Jan.2018.
[10]R.A.Borsoi,T.Imbiriba and J.C.M.Bermudez,"A Data DependentMultiscale Model for Hyperspectral Unmixing With Spectral Variability,"inIEEE Transactions on Image Processing,vol.29, pp.3638-3651,2020.
[11]L.Drumetz,J.Chanussot,C.Jutten,W.-K.Ma and A.Iwasaki,"SpectralVariability Aware Blind Hyperspectral Image Unmixing Based on ConvexGeometry,"in IEEE Transactions on Image Processing,vol.29,pp.4568-4582,2020.
[12]K.He,X.Zhang,S.Ren and J.Sun,"Deep Residual Learning for ImageRecognition,"2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2016,pp.770-778,doi: 10.1109/CVPR.2016.90.
[13]Y.Chen,J.Li,H.Xiao,X.Jin,S.Yan,and J.Feng,"Dual path networks,"2017,arXiv:1707.01629. [Online].Available:http://arxiv.org/abs/1707.01629.
[14]S.Sabour,N.Frosst,and G.E Hinton,"Dynamic routing betweencapsules,"2017,arXiv:1710.09829. [Online].Available:http://arxiv.org/abs/1710.09829.
[15]S.Ren,K.He,R.Girshick and J.Sun,"Faster R-CNN:Towards Real-TimeObject Detection with Region Proposal Networks,"in IEEE Transactions onPattern Analysis and Machine Intelligence,vol. 39,no.6,pp.1137-1149,1 June2017.
[16]C.Li,R.Cong,J.Hou,S.Zhang,Y.Qian and S.Kwong,"Nested Network WithTwo-Stream Pyramid for Salient Object Detection in Optical Remote SensingImages,"in IEEE Transactions on Geoscience and Remote Sensing,vol.57,no.11,pp.9156-9166,Nov.2019.
[17]E.Shelhamer,J.Long and T.Darrell,"Fully Convolutional Networksfor Semantic Segmentation,"in IEEE Transactions on Pattern Analysis andMachine Intelligence,vol.39,no.4,pp.640-651,1 April 2017.
[18]M.E.Paoletti,J.M.Haut,J.Plaza,and A.Plaza,"Deep learningclassifiers for hyperspectral imaging:A review,"ISPRS J.Photogramm.RemoteSens.,vol.158,pp.279–317,Dec.2019.
[19]Y.Chen,Z.Lin,X.Zhao,G.Wang and Y.Gu,"Deep Learning-BasedClassification of Hyperspectral Data,"in IEEE Journal of Selected Topics inApplied Earth Observations and Remote Sensing,vol.7,no. 6,pp.2094-2107,June2014.
[20]T.J.Malthus and P.J.Mumby,"Remote sensing of the coastal zone:Anoverview and priorities for future research,"Int.J.Remote Sens.,vol.24,no.13,pp.2805–2815,Jan.2003.
[21]G.M.Foody and A.Mathur,"A relative evaluation of multiclass imageclassification by support vector machines,"in IEEE Transactions on Geoscienceand Remote Sensing,vol.42,no.6,pp.1335-1343, June 2004.
[22]L.Zhu,Y.Chen,P.Ghamisi and J.A.Benediktsson,"GenerativeAdversarial Networks for Hyperspectral Image Classification,"in IEEETransactions on Geoscience and Remote Sensing,vol.56, no.9,pp.5046-5063,Sept.2018.
[23]M.E.Paoletti et al.,"Capsule Networks for Hyperspectral ImageClassification,"in IEEE Transactions on Geoscience and Remote Sensing,vol.57,no.4,pp.2145-2160,April 2019.
[24]D.Hong,L.Gao,J.Yao,B.Zhang,A.Plaza and J.Chanussot,"GraphConvolutional Networks for Hyperspectral Image Classification,"in IEEETransactions on Geoscience and Remote Sensing,vol.59, no.7,pp.5966-5978,July2021.
[25]R.Hang,Q.Liu,D.Hong and P.Ghamisi,"Cascaded Recurrent NeuralNetworks for Hyperspectral Image Classification,"in IEEE Transactions onGeoscience and Remote Sensing,vol.57,no.8,pp. 5384-5394,Aug.2019.
[26]H.Zhang,Y.Li,Y.Zhang,and Q.Shen,"Spectral-spatial classificationof hyperspectral imagery using a dual-channel convolutional neural network,"Remote Sens.Lett.,vol.8,no.5,pp.438–447,May 2017.
[27]Y.Xu,L.Zhang,B.Du and F.Zhang,"Spectral–Spatial Unified Networksfor Hyperspectral Image Classification,"in IEEE Transactions on Geoscienceand Remote Sensing,vol.56,no.10,pp. 5893-5909,Oct.2018,.
[28]H.Zhai,H.Zhang,L.Zhang and P.Li,"Total Variation RegularizedCollaborative Representation Clustering With a Locally Adaptive Dictionaryfor Hyperspectral Imagery,"in IEEE Transactions on Geoscience and RemoteSensing,vol.57,no.1,pp.166-180,Jan.2019.
[29]K.Makantasis,K.Karantzalos,A.Doulamis and N.Doulamis,"Deepsupervised learning for hyperspectral data classification throughconvolutional neural networks,"2015 IEEE International Geoscience and RemoteSensing Symposium(IGARSS),2015,pp.4959-4962.
[30]X.Cao,F.Zhou,L.Xu,D.Meng,Z.Xu and J.Paisley,"Hyperspectral ImageClassification With Markov Random Fields and a Convolutional Neural Network,"in IEEE Transactions on Image Processing,vol.27,no.5,pp.2354-2367,May 2018.
[31]M.E.Paoletti,J.M.Haut,R.Fernandez-Beltran,J.Plaza,A.J.Plaza andF.Pla,"Deep Pyramidal Residual Networks for Spectral–Spatial HyperspectralImage Classification,"in IEEE Transactions on Geoscience and Remote Sensing,vol.57,no.2,pp.740-754,Feb.2019.
[32]Y.Chen,H.Jiang,C.Li,X.Jia and P.Ghamisi,"Deep Feature Extractionand Classification of Hyperspectral Images Based on Convolutional NeuralNetworks,"in IEEE Transactions on Geoscience and Remote Sensing,vol.54,no.10,pp.6232-6251,Oct.2016.
[33]H.Lee and H.Kwon,"Going Deeper With Contextual CNN forHyperspectral Image Classification,"in IEEE Transactions on Image Processing,vol.26,no.10,pp.4843-4855,Oct.2017.
[34]M.He,B.Li and H.Chen,"Multi-scale 3D deep convolutional neuralnetwork for hyperspectral image classification,"2017 IEEE InternationalConference on Image Processing(ICIP),2017,pp.3904-3908.
[35]Y.Li,H.Zhang,and Q.Shen,"Spectral–spatial classification ofhyperspectral imagery with 3D convolutional neural network,"Remote Sens.,vol.9,no.67,pp.1–21,2017.
[36]A.Ben Hamida,A.Benoit,P.Lambert and C.Ben Amar,"3-D Deep LearningApproach for Remote Sensing Image Classification,"in IEEE Transactions onGeoscience and Remote Sensing,vol.56,no.8, pp.4420-4434,Aug.2018.
[37]S.Hochreiter and J.Schmidhuber,“Long short-term memory,”NeuralComput.,vol.9,no.8,pp. 1735–1780,1997.
[38]Z.Zhong,J.Li,Z.Luo and M.Chapman,"Spectral–Spatial ResidualNetwork for Hyperspectral Image Classification:A 3-D Deep LearningFramework,"in IEEE Transactions on Geoscience and Remote Sensing,vol.56,no.2,pp.847-858,Feb.2018.
[39]S.K.Roy,G.Krishna,S.R.Dubey and B.B.Chaudhuri,"HybridSN:Exploring3-D–2-D CNN Feature Hierarchy for Hyperspectral Image Classification,"in IEEEGeoscience and Remote Sensing Letters,vol. 17,no.2,pp.277-281,Feb.2020.
[40]D.Hong et al.,"SpectralFormer:Rethinking Hyperspectral ImageClassification With Transformers,"in IEEE Transactions on Geoscience andRemote Sensing,vol.60,pp.1-15,2022.
[41]B.Heo,S.Yun,D.Han,S.Chun,J.Choe and S.J.Oh,"Rethinking SpatialDimensions of Vision Transformers,"2021 IEEE/CVF International Conference onComputer Vision(ICCV),2021,pp. 11916-11925.
[42]B.Graham et al.,"LeViT:a Vision Transformer in ConvNet’s Clothingfor Faster Inference,"2021 IEEE/CVF International Conference on ComputerVision(ICCV),2021,pp.12239-12249.
[43]Zhou D,Kang B,Jin X,et al."DeepViT:Towards Deeper VisionTransformer,"Computer Vision and Pattern Recognition,2021.
[44]L.Yuan,Y.Chen,T.Wang,W.Yu,Y.Shi,F.E.Tay,J.Feng,and S.Yan,"Tokens-to-token vit:Training vision transformers from scratch on imagenet,"ComputerVision and Pattern Recognition,2021.
[45]A.Dosovitskiy,L.Beyer,A.Kolesnikov,D.Weissenborn,X.Zhai,T.Unterthiner,M.Dehghani,M. Minderer,G.Heigold,S.Gelly,J.Uszkoreit,andN.Houlsby,"An image is worth 16x16 words: Transformers for image recognitionat scale,"Computer Vision and Pattern Recognition,2020.
[46]X.He,Y.Chen,and Z.Lin,"Spatial-spectral transformer forhyperspectral image classification," Remote Sensing,vol.13,no.3,p.498,2021.
[47]K.Simonyan and A.Zisserman,"Very deep convolutional networks forlarge-scale image recognition," arXiv preprint arXiv:1409.1556,2014.
[48]Y.Qing,W.Liu,L.Feng,and W.Gao,"Improved transformer net forhyperspectral image classification, "Remote Sensing,vol.13,no.11,p.2216,2021.
[49]L.Sun,G.Zhao,Y.Zheng and Z.Wu,"Spectral–Spatial FeatureTokenization Transformer for Hyperspectral Image Classification,"in IEEETransactions on Geoscience and Remote Sensing,vol.60, pp.1-14,2022.
[50]Z.Zhong,Y.Li,L.Ma,J.Li and W.-S.Zheng,"Spectral–SpatialTransformer Network for Hyperspectral Image Classification:A FactorizedArchitecture Search Framework,"in IEEE Transactions on Geoscience and RemoteSensing,vol.60,pp.1-15,2022.
[51]A.Krizhevsky,Ilya Sutskever,and Geoffrey E.Hinton."Imagenetclassification with deep convolutional neural networks."Communications of theACM,60:84–90,2012.
[52]Namuk Park and Songkuk Kim.How do vision transformers work?InInternational Conference on Learning Representations,2022.
[53]P.-T.Jiang,Q.Hou,Y.Cao,M.-M.Cheng,Y.Wei and H.Xiong,"IntegralObject Mining via Online Attention Accumulation,"2019 IEEE/CVF InternationalConference on Computer Vision(ICCV),2019, pp.2070-2079。

Claims (10)

1.一种基于互补集成Transformer网络的高光谱图像分类方法,其特征在于:所述方法具体过程为:
步骤一、获取高光谱图像HSI,对高光谱图像HSI进行预处理得到预处理后的图像,分为训练样本数据集和测试样本数据集;
步骤二、构建CITNet网络;
所述CITNet网络为互补集成Transformer网络;
所述CITNet网络的结构为:
从CITNet网络的输入端开始,CITNet网络依次包括第一三维卷积模块、第二三维卷积模块、基于通道高斯调制注意力模块CGMAM、第三二维卷积模块、第一线性层、互补集成Transformer模块CITM、第二线性层;
所述基于通道高斯调制注意力模块CGMAM依次包括平均池化层、第三线性层、第一ReLU激活函数层、第四线性层、高斯调制函数层;
所述互补集成Transformer模块CITM依次包括Positional Embedding层、第一标准化层、互补多头自注意力C-MHSA、第一残差映射层、第二标准化层、MLP层、第二残差映射层;
所述第一三维卷积模块依次包括第一三维卷积层、第一BN层、第二ReLU激活函数层;
所述第二三维卷积模块依次包括第二三维卷积层、第二BN层、第三ReLU激活函数层;
所述第三二维卷积模块依次包括第三二维卷积层、第三BN层、第四ReLU激活函数层;
所述CITNet网络的连接关系为:
输入端连接第一三维卷积模块,第一三维卷积模块连接第二三维卷积模块,第二三维卷积模块连接基于通道高斯调制注意力模块CGMAM,基于通道高斯调制注意力模块CGMAM连接第三二维卷积模块,第三二维卷积模块连接第一线性层,第一线性层连接互补集成Transformer模块CITM,互补集成Transformer模块CITM连接第二线性层,第二线性层输出分类结果;
步骤三、将步骤一获得的训练样本数据集和测试样本数据集输入CITNet网络进行训练,以获得训练好的CITNet网络;
步骤四、将待分类的图像输入训练好的CITNet网络,输出对待分类图像的分类结果。
2.根据权利要求1所述的一种基于互补集成Transformer网络的高光谱图像分类方法,其特征在于:所述步骤一中获取高光谱图像HSI,HSI为Z∈{X,Y},
Figure FDA0003739499630000021
为HSI数据,Y={y1,y2,...,yC}为HSI标签;
其中,
Figure FDA0003739499630000022
为实数,h×w为HSI数据的空间大小,l为HSI的波段数量,C为最大的类别标签数;
采用PCA方法对HSI数据
Figure FDA0003739499630000023
进行预处理,PCA将波段数量l降到b,得到预处理后的输出
Figure FDA0003739499630000024
接着,对Xpca进行3D立方体提取,得到N个3D立方体
Figure FDA0003739499630000025
s×s为空间大小;
所有x的中心像素为(xi,xj),每个x的标签由中心像素的标签决定,且所有的x都有对应的标签;
其中,0≤i<h,0≤j<w;
当提取单个像素周围的像素时,若无法检索到边缘像素,则需要对这些边缘像素进行填充;
接着,x除去背景数据外,剩下的数据样本被分为训练样本数据集和测试样本数据集。
3.根据权利要求2所述的一种基于互补集成Transformer网络的高光谱图像分类方法,其特征在于:所述第一三维卷积模块和第二三维卷积模块的具体过程为:
每个
Figure FDA0003739499630000026
经输入端连接第一三维卷积模块,第一三维卷积模块连接第二三维卷积模块,得到输出的特征大小为
Figure FDA0003739499630000027
c为通道数;
第一三维卷积模块或第二三维卷积模块的过程可表示为:
Figure FDA0003739499630000028
其中,f(·)为激活函数;
Figure FDA0003739499630000029
表示第i层三维卷积模块第j个特征图在位置(x,y,z)上的神经元;Hi,Wi和Ri分别表示第i层三维卷积模块卷积核的高度、宽度和深度;
Figure FDA00037394996300000210
是第d个特征图在位置(α,β,γ)的权重参数;bi,j为偏置项。
4.根据权利要求3所述的一种基于互补集成Transformer网络的高光谱图像分类方法,其特征在于:所述第三二维卷积模块具体过程为:
输入数据经过第三二维卷积模块进行特征提取,输出的特征大小为
Figure FDA0003739499630000031
该过程可表示为
Figure FDA0003739499630000032
其中,Hi',Wi'分别表示二维卷积模块卷积核的高度和宽度,
Figure FDA0003739499630000033
表示第d个特征图在位置(Hi',Wi')上的权重参数,
Figure FDA0003739499630000034
表示第i层二维卷积模块第j个特征图在位置(x,y)上的神经元。
5.根据权利要求4所述的一种基于互补集成Transformer网络的高光谱图像分类方法,其特征在于:所述基于通道高斯调制注意力模块CGMAM具体过程为:
输入为
Figure FDA0003739499630000035
s×s为空间大小,c为输入的通道数量;
首先,输入Ain依次经过平均池化层、第三线性层、第一ReLU激活函数层、第四线性层、得到包含通道依赖关系的输出特征Gin
然后,Gin通过高斯调制函数层,得到输出特征Gout
最后,特征Gout对原始的输入Ain进行通道加权;将加权后的输出与原始的输入Ain进行逐像素相加,得到输出Aout
其中,Aout包含了增强后的次要特征以及原始的重要特征;
以上操作可以表示为
Figure FDA0003739499630000036
其中,Ps(·)表示平均池化函数,H(·)表示线性和激活函数层,
Figure FDA0003739499630000037
表示高斯调制函数,
Figure FDA0003739499630000038
表示逐通道加权;
特别地,在CGMAM中,采用高斯调制函数
Figure FDA0003739499630000039
重新分配特征的分布;即
Figure FDA00037394996300000310
输入Gin通过高斯调制函数能够将所有的激活值映射为高斯分布;而高斯分布的均值μ和方差σ可以通过Gin计算得到,即
Figure FDA0003739499630000041
Figure FDA0003739499630000042
其中,N表示输入数据的总数。
6.根据权利要求5所述的一种基于互补集成Transformer网络的高光谱图像分类方法,其特征在于:所述互补集成Transformer模块CITM具体过程为:
Figure FDA0003739499630000043
经过重塑之后,得到的输出为
Figure FDA0003739499630000044
再经过第一线性层线性映射之后的输出为
Figure FDA0003739499630000045
其中,z为通道的数量;ss为序列长度;
线性映射后输出
Figure FDA0003739499630000046
作为位置嵌入的输入;
每个令牌用[T1,T2,...,Tz]表示,并且所有的令牌与一个可学习的分类令牌
Figure FDA0003739499630000047
连接;
Tz为第z个令牌;
令牌为一个s×s×1的向量;
然后,将位置信息PE编码附加到所有的令牌表示中;
位置嵌入的标记序列可以表示为
Figure FDA0003739499630000048
位置嵌入的标记序列输入第一标准化层(LN),得到标准化后的位置嵌入的标记序列Tin
C-MHSA的过程表示如下
Figure FDA0003739499630000049
Figure FDA00037394996300000410
其中,dK表示K的维度,dZ表示Z的维度,
Figure FDA00037394996300000411
表示头的数量,
Figure FDA00037394996300000412
是权重参数,Conv(·)为卷积函数,包含Conv和BN层,Concat(·)为级联函数;SA(Q,K,V)表示自注意力结果,Q、K、V表示特征向量;
将C-MHSA的输出结果CMHSA输入到第一残差映射层,第一残差映射层的输出结果输入到第二标准化层,第二标准化层的输出结果输入到MLP层;
将C-MHSA的输出结果CMHSA输入到第二残差映射层,第二残差映射层的输出与MLP层的结果融合,得到互补集成Transformer模块CITM的输出结果Bout
7.根据权利要求6所述的一种基于互补集成Transformer网络的高光谱图像分类方法,其特征在于:所述向量Q、K、V求解过程为:
标准化后的位置嵌入的标记序列Tin分别乘以CITM权重参数Wq,Wk,Wv,生成三个向量,即Q、K、V。
8.根据权利要求7所述的一种基于互补集成Transformer网络的高光谱图像分类方法,其特征在于:所述MLP层依次包括第三标准化层、第五线性层、第一Dropout层、第六线性层、第二Dropout层。
9.根据权利要求8所述的一种基于互补集成Transformer网络的高光谱图像分类方法,其特征在于:所述HSI数据
Figure FDA0003739499630000051
的大小为145×145×200,经过PCA预处理和3D立方体提取后的输出为13×13×30;
所述第一三维卷积模块中的第一三维卷积层使用8个7×7×7卷积核进行卷积,得到8个13×13×30的特征;
所述第二三维卷积模块中的第二三维卷积层使用64个1×1×30卷积核进行卷积,得到64个大小为13×13×1的特征;
将64个大小为13×13×1的特征重塑为64个大小为13×13特征;
然后,将64个13×13的特征经过基于通道高斯调制注意力模块CGMAM,输出的大小与输入相同;
最后,将输出通过64个大小为7×7卷积核的Conv2D,得到64个13×13特征图;每一个特征图展平为一维向量,得到
Figure FDA0003739499630000052
接下来,将上面得到的
Figure FDA0003739499630000053
经过第一线性层映射得到特征
Figure FDA0003739499630000054
然后,将一个全零向量连接到x中作为一个可学习的标记,并嵌入一个已学习到的位置标记,得到
Figure FDA0003739499630000055
Tin经过CITM模块之后,特征大小不变;CITM连接第二线性层,第二线性层输出分类结果。
10.根据权利要求9所述的一种基于互补集成Transformer网络的高光谱图像分类方法,其特征在于:所述步骤三中将步骤一获得的训练样本数据集和测试样本数据集输入CITNet网络进行训练,以获得训练好的CITNet网络;具体过程为:
将步骤一获得的训练样本数据集输入CITNet网络进行训练,得到预训练好的CITNet网络,将测试样本数据集输入CITNet网络进行测试,若满足要求,获得训练好的CITNet网络;若不满足要求,继续训练,直至获得训练好的CITNet网络。
CN202210811682.9A 2022-07-11 2022-07-11 一种基于互补集成Transformer网络的高光谱图像分类方法 Pending CN115205590A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210811682.9A CN115205590A (zh) 2022-07-11 2022-07-11 一种基于互补集成Transformer网络的高光谱图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210811682.9A CN115205590A (zh) 2022-07-11 2022-07-11 一种基于互补集成Transformer网络的高光谱图像分类方法

Publications (1)

Publication Number Publication Date
CN115205590A true CN115205590A (zh) 2022-10-18

Family

ID=83579331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210811682.9A Pending CN115205590A (zh) 2022-07-11 2022-07-11 一种基于互补集成Transformer网络的高光谱图像分类方法

Country Status (1)

Country Link
CN (1) CN115205590A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115423847A (zh) * 2022-11-04 2022-12-02 华东交通大学 基于Transformer的孪生多模态目标跟踪方法
CN115457420A (zh) * 2022-11-10 2022-12-09 松立控股集团股份有限公司 一种基于无人机拍摄夜间低对比度的车辆重检测方法
CN115713653A (zh) * 2022-11-10 2023-02-24 中国铁塔股份有限公司黑龙江省分公司 塔桅结构破损位置图像识别方法
CN115830461A (zh) * 2023-02-23 2023-03-21 汕头大学 基于深度序列卷积网络的高光谱图像识别方法
CN117173122A (zh) * 2023-09-01 2023-12-05 中国农业科学院农业信息研究所 一种基于轻量级ViT的图像叶密度测定方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115423847A (zh) * 2022-11-04 2022-12-02 华东交通大学 基于Transformer的孪生多模态目标跟踪方法
CN115457420A (zh) * 2022-11-10 2022-12-09 松立控股集团股份有限公司 一种基于无人机拍摄夜间低对比度的车辆重检测方法
CN115713653A (zh) * 2022-11-10 2023-02-24 中国铁塔股份有限公司黑龙江省分公司 塔桅结构破损位置图像识别方法
CN115713653B (zh) * 2022-11-10 2023-10-10 中国铁塔股份有限公司黑龙江省分公司 塔桅结构破损位置图像识别方法
CN115830461A (zh) * 2023-02-23 2023-03-21 汕头大学 基于深度序列卷积网络的高光谱图像识别方法
CN117173122A (zh) * 2023-09-01 2023-12-05 中国农业科学院农业信息研究所 一种基于轻量级ViT的图像叶密度测定方法及装置
CN117173122B (zh) * 2023-09-01 2024-02-13 中国农业科学院农业信息研究所 一种基于轻量级ViT的图像叶密度测定方法及装置

Similar Documents

Publication Publication Date Title
Dong et al. Weighted feature fusion of convolutional neural network and graph attention network for hyperspectral image classification
Ahmad et al. Hyperspectral image classification—Traditional to deep models: A survey for future prospects
Xiong et al. Material based object tracking in hyperspectral videos
Hosseinpour et al. CMGFNet: A deep cross-modal gated fusion network for building extraction from very high-resolution remote sensing images
Zhang et al. Deep learning for remote sensing data: A technical tutorial on the state of the art
Cheng et al. A survey on object detection in optical remote sensing images
Nandhini Abirami et al. Deep CNN and Deep GAN in Computational Visual Perception‐Driven Image Analysis
Wang et al. Dual-channel capsule generation adversarial network for hyperspectral image classification
Sirmacek et al. Urban-area and building detection using SIFT keypoints and graph theory
CN115205590A (zh) 一种基于互补集成Transformer网络的高光谱图像分类方法
CN109766858A (zh) 结合双边滤波的三维卷积神经网络高光谱影像分类方法
Zhang et al. Unsupervised spatial-spectral cnn-based feature learning for hyperspectral image classification
Gao et al. Hyperspectral image classification with pre-activation residual attention network
Baeta et al. Learning deep features on multiple scales for coffee crop recognition
CN115527056A (zh) 基于双混合卷积生成对抗网络的高光谱图像分类方法
Rajendran et al. Hyperspectral image classification model using squeeze and excitation network with deep learning
Ahmad et al. Hybrid dense network with attention mechanism for hyperspectral image classification
Ullah et al. Conventional to deep ensemble methods for hyperspectral image classification: A comprehensive survey
Peng et al. Multiview hierarchical network for hyperspectral and LiDAR data classification
Noshiri et al. A comprehensive review of 3D convolutional neural network-based classification techniques of diseased and defective crops using non-UAV-based hyperspectral images
Yuan et al. Multi-type spectral spatial feature for hyperspectral image classification
CN113935433A (zh) 基于深度光谱空间倒残差网络的高光谱图像分类方法
Wu et al. Multi-task multi-objective evolutionary network for hyperspectral image classification and pansharpening
Song et al. HDTFF-Net: Hierarchical deep texture features fusion network for high-resolution remote sensing scene classification
CN116912677A (zh) 基于混合cnn-gcn网络的有限训练样本下的高光谱图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination