CN116563606A - 一种基于双分支空谱全局特征提取网络的高光谱图像分类方法 - Google Patents

一种基于双分支空谱全局特征提取网络的高光谱图像分类方法 Download PDF

Info

Publication number
CN116563606A
CN116563606A CN202310380529.XA CN202310380529A CN116563606A CN 116563606 A CN116563606 A CN 116563606A CN 202310380529 A CN202310380529 A CN 202310380529A CN 116563606 A CN116563606 A CN 116563606A
Authority
CN
China
Prior art keywords
spatial
feature
spectrum
module
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310380529.XA
Other languages
English (en)
Inventor
郭坦
王睿智
罗甫林
张磊
谭晓衡
陶洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202310380529.XA priority Critical patent/CN116563606A/zh
Publication of CN116563606A publication Critical patent/CN116563606A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/58Extraction of image or video features relating to hyperspectral data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/194Terrestrial scenes using hyperspectral data, i.e. more or other wavelengths than RGB
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A40/00Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
    • Y02A40/10Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in agriculture

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Remote Sensing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于双分支空谱全局特征提取网络的高光谱图像分类方法。该方法通过分别学习高光谱图像的空间特征和光谱特征。其特点在于学习空间特征的空间子网络主体部分为编码解码结构,并利用跳跃连接,空间注意力和通道注意力增强特征表示。此外,设计了一个空间全局特征表示模块用于学习编码后的空间特征,并利用该模块表达全局空间特征。学习光谱特征的光谱子网络采用了渐进式特征学习的思想,并利用视角注意力强化渐进学习到的特征。最后,再利用自适应加权方法,融合两个子网络的结果。在多个真实高光谱遥感图像数据集上的实验结果显示,本发明所提出的双分支空谱全局特征提取网络能够取得优异的分类性能。

Description

一种基于双分支空谱全局特征提取网络的高光谱图像分类 方法
技术领域
本发明属于图像分类领域,涉及基于双分支空谱全局特征提取网络的高光谱图像分类方法研究。
背景技术
随着20世纪80年代成像光谱学的建立,光学遥感技术进入全新时期。成像光谱学与数码成像技术的结合产生了成像光谱仪。高光谱图像(Hyperspectral image,HSI)由成像光谱仪对地表观测得到。不同类别的地物由于接受和辐射电磁波的特性不同,因而呈现出不同的光谱曲线。从光谱维度的角度来看,高光谱图像中的每个像素点都可以看作是同一对象在不同光谱波段下的表现。从空间维度的角度来看,高光谱图像表征地表物体的空间信息。因此,高光谱具有“图谱合一”的特点。相较于全色和多光谱遥感,高光谱遥感图像经过光谱反射率重建,能够获取地物近似连续的光谱反射曲线,便于理论方法和实际应用。此外,高光谱图像能够探测具有诊断性光谱吸收特征的性质,能够准确区分地表植被、覆盖类型、道路铺面材料等。
在早期的研究中,许多工作只针对单一的空间维度或者光谱维度,利用传统方法进行特征提取,如支持向量机,随机森林和空间滤波器等。但是这些方法都只进行了浅层的特征学习,只是简单描述了高光谱图像的一些简单的低层次特征,不能有效的表达高光谱图像的高级语义,从而限制了这些方法和分类效果和应用场景。在过去的几年中,基于深度学习的方法不断呗用于高光谱图像分类,并不断被证明是有效的,如卷积神经网络(CNN),循环神经网络(RNN)和图神经网络(GNN)等。基于深度学习的方法可以直接学习高级抽象特征,其分类性能明显由于传统方法,这使得深度学习在高光谱图像分类领域称为热门。
随着研究的不断深入,分别提取空间特征和光谱特征的双分支网络结构被证明是高光谱图像分类的有效的,并成为一种流行的框架。在该框架下,2DCNN和3DCNN常被用于提取空间特征,RNN和1DCNN被常用于提取光谱特征。为了让模型表达的特征更加丰富,多尺度的双分支网络被用于高光谱图像分类,使得模型可以学习到不同尺度的高光谱图像信息,生成更具判别性的特征。为了降低特征中的冗余信息和增强特征中的有效信息,注意力机制被引入高光谱图像分类领域。但是,CNN和RNN都是局部的操作,无法获得长期依赖,即非相邻的像素或者波段之间的依赖关系。其次,在以往的模型设计中,只注意到了特征的多样性表达,并没有关注全局特征和局部特征的相结合的方式。另一方面,双分支网络的两个分支分别提取不同维度的特征,两个分支的特征具有一致性才能得到更高的分类性能。
发明内容
本发明的目的在于提供了一种提取高光谱图像全局特征的双分支网络模型,在有限的样本条件下,不增加模型复杂度的同时,提高模型的分类性能。
1.空间子网络
在卷积神经网络中,感受野对特征表达具有重要意义,更大的感受野可以提取到更高级和更抽象的语义特征。一般来说,为了获得更大的感受野,主要有以下三种方法。第一,直接增大卷积核的尺寸,但是势必会引入大量的参数。第二,加深网络层数,这种方法会伴随着梯度消失的风险。第三,使用池化减少特征映射,这种方法会导致特征信息的丢失。为了避免上述缺点,本发明使用编码解码网络增大感受野。当编码解码网络进行下采样时,不可避免的会丢失一些特征信息,并且丢失的信息无法在上采样种找回。为了使表达特征表达更完整,采用了跳跃连接,用于连接浅层特征和深层特征。为了进一步降低模型的复杂度,受到深度可分离卷积的启发,我们提出了一种深度卷积和点卷积结合的基本模块用于替代普通的卷积层,命名为空间卷积模块。此外,该模块结合了激活函数和批归一化函数,这可以提高网络的非线性拟合能力,从而使网络更加强大。
随着注意力机制在计算机视觉领域的成功应用,注意力机制也逐渐被作为辅助工具引入深度学习高光谱图像分类任务中。人类视觉观察事物时,通过扫描全局图象,获得需要重点关注的目标区域。而后对这一区域投入更多注意力资源,以获取更多需要关注目标的细节信息,而抑制其他无用信息。常用的注意力模型包括空间注意力和通道注意力,空间注意力为同一特征图的空间信息重新分配权重,旨在增强不同像素的空间差异。通道注意力旨在通道维度上为特征图重新分配权重。高光谱图像中,一些类别块的边界像素,可能会包含多个不同的地物,呈现出的光谱响应曲线更复杂。这些像素被称为混合像元,会削弱空间特征的分辨能力,降低分类精度,因此本文引入空间注意力机制抑制领域像素块中混合像元的影响。
高光谱图像的光谱是一条连续变化的曲线,但是对与一些关键的波段,应当赋予更大的权重,因此光谱维度引入注意力机制,模型会给每个光谱通道分配适应分类任务的权重,从而使模型可以有效学习到光谱内部的信息。
在分类任务中,全局信息尤为重要,它可以有效的捕获长距离依赖关系,对全局上下文建模。在空间特征中,非相邻的像素或非相邻的通道之间可能存在某种依赖关系,并且这种关系信息可以转换为特征的权重信息进而提高特征的判别性。因此,本文提出了一种全局特征表示模块,用于计算空间中非相邻像素的依赖关系并以此提取全局特征。设计的全局特征表示模块包含三个部分,第一部分为空间建模部分,利用空间建模部分获得全局特征的权值,加强空间特征。通过计算当前位置与所有其他位置之间的相关系数As,得到全局特征的权重矩阵,随着训练次数的增加,全局特征不断增强。全局特征的权重可以表示如下:
第二部分为转换部分,该部分用于捕获通道间的依赖关系。本文利用具有瓶颈结构的1x1卷积,将全局特征的权值转换为仅与信道相关的依赖关系。并采用了归一化函数和ReLU激活函数增强特征表示。转换部分可表示如下:
Ac=σ(Wv2(δ(LN(Wv1*As))))
第三部分为特征融合部分,将前两部分的结果与输入融合作为学习结果输出。该部分可以表示如下:
Y=Ac×X
上述公式中,X代表模块的输入,Y代表模块的输出,W均表示卷积的参数,LN(·)表示层归一化,δ(·)代表LeakyReLU激活函数,σ(·)代表Sigmoid激活函数。
在以往的方法中,卷积被认为是有效的空间特征提取操作。卷积的过程是一个局部操作,只获得一个有限的接受域。此外,简单的卷积叠加可以看作是使用相同形式的函数拟合特征。堆叠卷积会使特征缺乏多样性,而全局特征表示模块通过融合空间建模和变换可以增加特征的多样性。
2.光谱子网络
高光谱图像中,每个像素的光谱响应值都可以认为是一个序列。在序列数据分析中,RNN可以获取上下文,但是RNN无法建立长期依赖关系。因此,学者们引入了LSTM用于高光谱的谱域分析。在以往基于LSTM的光谱分类网络中,将当前像素的每个波段的反射率值依次输入到LSTM中。然而,这种方法将导致长期依赖现象,即梯度消失或梯度爆炸问题。在最近的基于LSTM的多尺度特征提取网络中,利用分组策略多次获得位于不同波长范围内的多个光谱段。但在这种策略中,不同尺度上的特征是独立的。为了使不同尺度之间的变量更自然地融合,而不是简单的加法,有必要考虑不同尺度特征之间的关系。因此,我们设计了一个双视图光谱聚合子网络,它由双视角光谱表示模块、视角注意力模块、光谱融合模块组成。其中,双视角光谱表示模块包含两个分支,分别提取长视角和短视角特征。我们利用多尺度的架构来获取不同尺度上的特征信息。并将多尺度划分的结果输入到不同的LSTMCells中。为了使不同尺度之间的特征进行更自然的融合,LSTMCell的输出作为另一个尺度的LSTMCell的输入,使特征的学习成为一个动态的过程。只需要保存最后一个尺度的LSTMCell的输出,就可以得到不同尺度的特征融合结果。在短视角特征表示过程中,特征从大尺度传递到小尺度。利用1D-CNN将LSTMCell输出的隐藏状态和细胞状态转换为下一个小尺度的输入。长视角特征表示过程与此相反。短视角特征传输过程如下所示:
长视角特征传输过程如下所示:
上述公式中,分别代表第t个尺度的LSTMCell第i个序列的输出隐藏状态和细胞状态,/>代表LSTMCell的输入,/>表示向上取整,W代表1D-CNN的参数,[·]表示拼接操作。
此外,双视角特征表示过程同样具有冗余的信息,降低光谱特征的分辨能力。因此,我们考虑特征的内在联系来增强有效信息,抑制冗余和无效信息。设计了一个视角注意机制来突出显示关键信息。为了注意力计算不引入过多参数,我们仅使用了一个共享的MLP和一个归一化层来计算注意力,其中共享的MLP包括两个线性层和一个softmax操作。最后使用加法将注意力权重和光谱特征交互。视角注意力的计算可以表示如下:
上述公式中,X和Y分别表示输入和输出,LN(·)代表层归一化,M1和M2代表两个线性层的参数,同时,这两个参数也代表着该模块中的记忆单元,用于衡量输入之间的相关性。δ(·)表示LeakyReLU函数,表示逐元素相加。基于视角注意力模块,我们分别将其用于短视角特征和长视角特征。由于这种注意利用了加性运算和线性变换,计算量和参数量都十分少。
为了关联长视角特征和短视角特性,我们使用LSTM网络作为聚合模块。为了保留原始的光谱信息,原始特征也作为LSTM的输入之一。短视角特征和长视角特征分别作为LSTM的隐藏状态输入和细胞状态输入。该过程可以表示如下:
Y=LSTM(X,(Vs,Vl))
上述公式中,X和Y分别表示输入和输出,Vs和Vl分别代表由视角注意力增强后的短视角特征和长视角特征。
3.子网络融合
基于上述的两个子网络,可以得到两个通道数相同的输出,其中通道数为类别数。对于来自不同域的特征,它们具有不同的鉴别性能。此外,不同的域特征对不同的类别有不同的贡献。如果融合方法不合理,则融合特征会对分类产生负面影响。因此,我们采用自适应的“得分加权”方法来融合两个子网的特征。该方法可以自适应地强调融合两个子网特征时的重要特征。所获得的特征具有更灵活和鉴别性。该部分可以表达如下:
Y=f(γ)Fsa+(1-f(γ))Fse
上述公式中,Fsa和Fse分别代表空间子网络的输出和光谱自网络的输出,γ是一个可学习的参数用于调整不同子网络的加权系数,f(·)表示激活函数,将加权系数映射到(0,1)之间。
附图说明
图1为发明的双分支空谱全局特征提取网络的高光谱图像分类模型示意图;
图2为发明的模型中空间子网络示意图;
图3为发明的模型中光谱子网络示意图;
图4为全局特征表示模块示意图;
图5为空间卷积模块示意图;
图6为通道注意力模块示意图;
图7为空间注意力模块示意图;
图8为视角注意力模块示意图;
图9为发明所使用的数据集indian pines和pavia university的伪彩色图以及对应的真实分类标签;
图10为本发明方法和对比方法在数据集indian pines的高光谱图像分类结果;
图11为本发明方法和对比方法在数据集pavia university的高光谱图像分类结果;
具体实施方式
下面结合附图和实施例对本发明进行详细说明
步骤1:将所用的数据进行预处理,标记样本的索引;
步骤2:将预处理后的数据输入空间子网络中进行特征提取并根据索引记录空间子网络的输出像素。;
步骤3:根据训练索引,选取像素;
步骤4:将选取的像素输入到光谱子网络中进行光特征提取;
步骤5:将两个子网提取到的特征通过自适应加权,并通过Softmax层;
进一步,所述步骤1,具体包括以下步骤:
步骤1-1:高光谱图像数据是高维数据,为了防止数据的差异过大导致网络训练失败,首先对数据进行标准化。此外,光谱维度具有很高的相关性,为了降低冗余数据的影响,首先使用PCA对原始高光谱数据降维处理。采用公开数据集indian pines和piviauniversity,分别对两个数据设置保留的方差为0.98和0.999。设原始高光谱图像的表示为I∈RH×W×B,经过PCA降维后的数据表示为X∈RH×W×b,b<<B。其中,B为原始图像的波段数b为经过PCA处理后的波段数。
步骤1-2:空间子网络的输入为整个X,但是光谱子网络的输入是由像素组成的集合,因此,随机选取样本的索引集合d={d1,d2,…dn},0<dn<H×W。这里的索引值根据样本像素的位置记录。
进一步,所述步骤2,具体包括以下步骤:
步骤2-1:如图2所示为本发明的空间子网络整体流程图,整体的网络结构为编码解码结构以提取空间特征。编码解码的基本模块为空间卷积模块和2DCNN,该模块的结构如图5所示。整个编码解码结构呈对称形式,编码的第一层为空间卷积模块,它的深度卷积部分采用了32个7×7的卷积核和32个5×5的卷积核,点卷积部分采用了32个1×1的卷积核和32个1×1的卷积核。随后使用最大池化进行下采样,特征图经过第一层编码的尺寸为[H/2,W/2,32]。第二层为空间卷积模块,它的深度卷积部分采用了64个7×7的卷积核和64个5×5的卷积核,点卷积部分采用了64个1×1的卷积核和64个1×1的卷积核。随后使用最大池化进行下采样,特征图经过第二层编码的尺寸为[H/4,W/4,64]。第三层为2DCNN,使用了64个3×3的卷积核。特征图经过第三层编码的尺寸为[H/4,W/4,64]。而解码部分与编码部分完全对称,稍有不同的是,解码部分的上采样使用的是反卷积。
步骤2-2:经过编码后,特征图已经具备了一定的高级语义信息,此时将得到的编码特征图输入到全局特征表示模块,该模块的原理图如图4所示。输入的特征图尺寸为[H/4,W/4,64],经过空间建模过后,特征图的尺寸变为[1,1,64]。变换部分中,瓶颈结构的压缩因子r设为16。经过变换部分以后,特征图的尺寸为[1,1,64]。最后将变换部分的输出与该模块的输入按照通道层逐层相乘。输出的特征图尺寸大小为[H/4,W/4,64]。
步骤2-3:解码部分除了需要全局特征表示模块的输出,还需要编码部分下采样之前的特征,并利用跳跃连接的方式,将下采样之前的特征与解码部分上采样以后的数据进行通道维度的拼接。但是在拼接时,可能出现在空间尺寸上不匹配的情况,因此,还需要对上采样后的特征外围填充0,即保证和下采样前的特征空间尺寸匹配,也没有引入额外的信息。填充的规则如下:
Hp=(Hdown-Hup)/2
Wp=(Wdown-Wup)/2
上式展示了对上采样后的特征空间维度的上下各填充Hp个0,左右各填充Wp个0。其中Hdown和Wdown分别表示下采样前的尺寸,Hup和Wup分别表示上采样后的尺寸。
步骤2-4:在下采样前的特征在拼接前,利用通道注意力进行增强,该模块具有端到端的可训练性,可以直接应用于通道特征的增强。使用通道注意力机制,捕捉通道间的间关系,细化通道特征,减少通道的冗余信息。
步骤2-5:将下采样前的特征和上采样后的特征拼接并向后继续进行特征提取。
步骤2-6:在上采样之前,插入空间注意力对空间特征进行增强。同样,该模块具有端到端的可训练性,可以直接用于特征图上,计算空间注意力。降低空间冗余信息,为不同的像素分配不同的权重。空间注意力的插入位置为第二次上采样之前和解码输出以后。
步骤2-7:经过解码网络以后,特征图的大小为[H,W,32],使用一层全连接层,将通道维度降维类别数大小L,得到空间子网络的输出Fsa∈RH×W×L
步骤2-8:对得到的空间子网络在空间维度上展平,并根据索引记录样本像素的结果,索引后的输出为Fsa∈Rd×L
进一步,所述步骤3,具体包括以下步骤:
步骤3-1:高光谱数据的原始表示为I∈RH×W×B,将该数据在空间维度进行展平操作,使得展平后的表示为IF∈RHW×B。然后根据索引,得到的表示为Id∈Rd×B
进一步,所述步骤4,具体包括以下步骤:
步骤4-1:如图3所示为本发明的光谱子网络整体流程图,原始光谱数据首先经过1DCNN得到浅层的光谱特征Si∈R128,使用了128个1×1的卷积核。随后对这128维的数据进行多尺度划分,划分的尺度分别为128,64,32,16这四个尺度,用两组多尺度数据作为双视角光谱表示模块的输入。
步骤4-2:两组多尺度数据输入双视角光谱表示模块后,首先128尺度的光谱特征输入到LSTMCell中,无输入隐藏状态和输入细胞状态,保留输出的隐藏状态和细胞状态,并分别经过一个卷积核大小为1×3,步长为2的1DCNN进行特征细化和降尺度。将细化后的隐藏状态和细胞状态作为下一个尺度的输入隐藏状态和输入细胞状态,该尺度下输入数据为64尺度的光谱特征。以此类推,直到经过最后的16尺度的的LSTMCell,输出为8个长度为16的隐藏状态和8个长度为16的细胞状态,保留隐藏状态并进行拼接操作,组成长度为128光谱特征作为短视角光谱特征Ss
步骤4-3:与短视角光谱表示略有不同的是,长视角光谱表示过程,首先经过8个16尺度的LSTMCell,并得到8个长度为16的隐藏状态和8个长度为16的细胞状态,第一个和第二个拼接得到一个新的长度为32的隐藏状态和细胞状态,同时合并第三个和第四个,以此类推,得到4个长度为32的隐藏状态和4个长度为32的细胞状态,并分别经过一个卷积核大小为1×3,步长为1的1DCNN进行特征细化。细化后的隐藏状态和细胞状态作为LSTMCell,输出为1个长度为128的隐藏状态和1个长度为128的细胞状态,保留细胞状态作为长视角光谱特征Sl
步骤4-4:将得到的长视角光谱特征和短视角光谱特征分别经过视角注意力模块,该模块具有端到端的可训练性,并且该注意力模块只与输入有关。经过视角注意力模块增强后得到长视角光谱特征Vl和视角光谱特征Vs
步骤4-5:将浅层光谱特征Si,短视角光谱特征Ss和长视角光谱特征Sl分别作为LSTM的数据输入,输入隐藏状态和输入细胞状态一同送入LSTM中进行特征融合。通过LSTM的融合,得到样本的光谱特征Ise∈Rb×128
步骤4-6:最后将得到的光谱特征通过全连接层将特征维度映射至类别数,得到光谱子网络的输出Fse∈Rb×L
进一步,所述步骤5,具体包括以下步骤:
步骤5-1:通过自适应加权融合两个子网络,并通过Softmax层厚输出,得到最终的特征表示F。
F=Softmax(f(γ)Fsa+(1-f(γ))Fse)
在实验中,共有选取了10个具有代表性的高光谱图像分类方法进行比较,包基于传统方法的支持向量机(SVM),基于深度学习的方法有双向LSTM,基于上下文的深度卷积网络(CDCNN),残差空谱特征注意力网络(RSSAN),自适应光谱空间特征网络(BassNet),空谱残差网络(SSRN),快速密集空谱卷积网络(FDSSC),双分支多头注意力机制网络(DBMA),双分支双注意机制网络(DBDA),自适应光谱空间多尺度上下文特征提取网络(ASSMN)。
本实验采用的indian pines是高光谱图像分类的常用测试数据集,由美国印第安纳州的机载可见红外成像光谱仪(AVIRIS)成像,包括200个波段,空间大小为145×145像素,空间分辨率为20m。该数据集的波长范围为0.4-2.5um,包含200个波段。该数据集包含了16种不同类型的地物,共有10249个标记样本。我们随机选择了每类的5%、1%和94%的样本进行训练、验证和测试。pavia university数据集是在2003年由反射光学系统成像光谱仪(ROSIS)传感器采集的。该数据集在0.43-0.86um的波长范围内包含103个波段,空间分辨率为1.3m,空间尺寸为610×340。该数据集中包含了9个类别,共有42776个标记样本。本次实验分别是随机选择每类的1%、1%和98%的样本进行训练、验证和测试。这两个数据集的伪彩色图像和真实标签如图9所示。
分别用10种对比方法在两个数据上进行高光谱图像分类实验,分类结果如图10和图11所示,本发明方法采用总体精度(Overall Accuracy,OA)对本发明方法和其他几种高光谱图像分类方法进行定量评价与分析,OA值范围为0~1,值越接近于1,表明分类方法性能越好。结果如表1所示。从实验结果上看,本发明方法分类效果明显优于对比算法,从而验证了本发明方法的优异性。
表1
结果如表1所示。从实验结果上看,本发明方法分类效果明显优于对比算法,从而验证了本发明方法的优异性。

Claims (4)

1.基于双分支空谱全局特征提取网络的高光谱图像分类方法,其关键在于:该方法包括以下步骤:
S1)通过空间子网络提取高光谱图像的空间特征;
S2)通过光谱子网络提取高光谱图像的光谱特征;
S3)自适应融合两个子网络并通过Softmax分类模块进行分类。
2.根据权力要求1所述的双分支空谱全局特征提取网络的高光谱图像分类方法,其特征在于:所述步骤S1中,提取空间特征包括以下步骤:
步骤S11)整体的网络结构为编码解码结构以提取空间特征。编码解码的基本模块为空间卷积模块和2DCNN,该模块的结构如图5所示。整个编码解码结构呈对称形式,编码的第一层为空间卷积模块,它的深度卷积部分采用了32个7×7的卷积核和32个5×5的卷积核,点卷积部分采用了32个1×1的卷积核和32个1×1的卷积核。随后使用最大池化进行下采样,特征图经过第一层编码的尺寸为[H/2,W/2,32]。第二层为空间卷积模块,它的深度卷积部分采用了64个7×7的卷积核和64个5×5的卷积核,点卷积部分采用了64个1×1的卷积核和64个1×1的卷积核。随后使用最大池化进行下采样,特征图经过第二层编码的尺寸为[H/4,W/4,64]。第三层为2DCNN,使用了64个3×3的卷积核。特征图经过第三层编码的尺寸为[H/4,W/4,64]。而解码部分与编码部分完全对称,稍有不同的是,解码部分的上采样使用的是反卷积。
步骤S12)经过编码后,特征图已经具备了一定的高级语义信息,此时将得到的编码特征图输入到全局特征表示模块,该模块的原理图如图4所示。输入的特征图尺寸为[H/4,W/4,64],经过空间建模过后,特征图的尺寸变为[1,1,64]。变换部分中,瓶颈结构的压缩因子r设为16。经过变换部分以后,特征图的尺寸为[1,1,64]。最后将变换部分的输出与该模块的输入按照通道层逐层相乘。输出的特征图尺寸大小为[H/4,W/4,64]。
步骤S13)解码部分除了需要全局特征表示模块的输出,还需要编码部分下采样之前的特征,并利用跳跃连接的方式,将下采样之前的特征与解码部分上采样以后的数据进行通道维度的拼接。但是在拼接时,可能出现在空间尺寸上不匹配的情况,因此,还需要对上采样后的特征外围填充0,即保证和下采样前的特征空间尺寸匹配,也没有引入额外的信息。填充的规则如下:
Hp=(Hdown-Hup)/2
Wp=(Wdown-Wup)/2
上式展示了对上采样后的特征空间维度的上下各填充Hp个0,左右各填充Wp个0。其中Hdown和Wdown分别表示下采样前的尺寸,Hup和Wup分别表示上采样后的尺寸。
步骤S14)在下采样前的特征在拼接前,利用通道注意力进行增强,该模块具有端到端的可训练性,可以直接应用于通道特征的增强。使用通道注意力机制,捕捉通道间的间关系,细化通道特征,减少通道的冗余信息。
步骤S15)将下采样前的特征和上采样后的特征拼接并向后继续进行特征提取。
步骤S16)在上采样之前,插入空间注意力对空间特征进行增强。同样,该模块具有端到端的可训练性,可以直接用于特征图上,计算空间注意力。降低空间冗余信息,为不同的像素分配不同的权重。空间注意力的插入位置为第二次上采样之前和解码输出以后。
步骤S17)经过解码网络以后,特征图的大小为[H,W,32],使用一层全连接层,将通道维度降维类别数大小L,得到空间子网络的输出Fsa∈RH×W×L
步骤S18)对得到的空间子网络在空间维度上展平,并根据索引记录样本像素的结果,索引后的输出为Fsa∈Rd×L
3.根据权力要求1所述的双分支空谱全局特征提取网络的高光谱图像分类方法,其特征在于:所述步骤S2中,提取光谱特征包括以下步骤:
步骤S21)原始光谱数据首先经过1DCNN得到浅层的光谱特征Si∈R128,使用了128个1×1的卷积核。随后对这128维的数据进行多尺度划分,划分的尺度分别为128,64,32,16这四个尺度,用两组多尺度数据作为双视角光谱表示模块的输入。
步骤S22)两组多尺度数据输入双视角光谱表示模块后,首先128尺度的光谱特征输入到LSTMCell中,无输入隐藏状态和输入细胞状态,保留输出的隐藏状态和细胞状态,并分别经过一个卷积核大小为1×3,步长为2的1DCNN进行特征细化和降尺度。将细化后的隐藏状态和细胞状态作为下一个尺度的输入隐藏状态和输入细胞状态,该尺度下输入数据为64尺度的光谱特征。以此类推,直到经过最后的16尺度的LSTMCell,输出为8个长度为16的隐藏状态和8个长度为16的细胞状态,保留隐藏状态并进行拼接操作,组成长度为128光谱特征作为短视角光谱特征Ss
步骤S23)与短视角光谱表示略有不同的是,长视角光谱表示过程,首先经过8个16尺度的LSTMCell,并得到8个长度为16的隐藏状态和8个长度为16的细胞状态,第一个和第二个拼接得到一个新的长度为32的隐藏状态和细胞状态,同时合并第三个和第四个,以此类推,得到4个长度为32的隐藏状态和4个长度为32的细胞状态,并分别经过一个卷积核大小为1×3,步长为1的1DCNN进行特征细化。细化后的隐藏状态和细胞状态作为LSTMCell,输出为1个长度为128的隐藏状态和1个长度为128的细胞状态,保留细胞状态作为长视角光谱特征Sl
步骤S24)将得到的长视角光谱特征和短视角光谱特征分别经过视角注意力模块,该模块具有端到端的可训练性,并且该注意力模块只与输入有关。经过视角注意力模块增强后得到长视角光谱特征Vl和视角光谱特征Vs
步骤S25)将浅层光谱特征Si,短视角光谱特征Ss和长视角光谱特征Sl分别作为LSTM的数据输入,输入隐藏状态和输入细胞状态一同送入LSTM中进行特征融合。通过LSTM的融合,得到样本的光谱特征Ise∈Rb×128
步骤S26)最后将得到的光谱特征通过全连接层将特征维度映射至类别数,得到光谱子网络的输出Fse∈Rb×L
4.根据权力要求1所述的双分支空谱全局特征提取网络的高光谱图像分类方法,其特征在于:所述步骤S3中,提取光谱特征包括以下步骤:
步骤S31)在网络中设置一个可学习的正参数γ,激活函数f(·)为Sigmoid函数。通过自适应加权融合两个子网络,并通过Softmax层后输出,得到最终的特征表示F。
f(γ)∈(0,1)γ∈(0,1)
F=Softmax(f(γ)Fsa+(1-f(γ))Fse)
步骤S32)将模型的预测结果与真实的样本标签进行对照,预测的误差损失反馈给模型,模型在反馈过程中更新网络参数。经过多次的训练和网络更新,使得最终网络的分类结果接近样本标签。完成上述训练过程后,对验证数据进行检验,并通过检验结果决定当前网络权重是否作为最佳结果保留。
CN202310380529.XA 2023-04-11 2023-04-11 一种基于双分支空谱全局特征提取网络的高光谱图像分类方法 Pending CN116563606A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310380529.XA CN116563606A (zh) 2023-04-11 2023-04-11 一种基于双分支空谱全局特征提取网络的高光谱图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310380529.XA CN116563606A (zh) 2023-04-11 2023-04-11 一种基于双分支空谱全局特征提取网络的高光谱图像分类方法

Publications (1)

Publication Number Publication Date
CN116563606A true CN116563606A (zh) 2023-08-08

Family

ID=87502770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310380529.XA Pending CN116563606A (zh) 2023-04-11 2023-04-11 一种基于双分支空谱全局特征提取网络的高光谱图像分类方法

Country Status (1)

Country Link
CN (1) CN116563606A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117152616A (zh) * 2023-09-12 2023-12-01 电子科技大学 一种基于光谱增强和双路编码的遥感图像典型地物提取方法
CN117257322A (zh) * 2023-09-21 2023-12-22 齐鲁工业大学(山东省科学院) 一种基于双分支网络的多标签心电信号分类方法
CN117809179A (zh) * 2023-12-26 2024-04-02 成都理工大学 一种面向对象的高光谱遥感影像地表岩性识别分类方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117152616A (zh) * 2023-09-12 2023-12-01 电子科技大学 一种基于光谱增强和双路编码的遥感图像典型地物提取方法
CN117257322A (zh) * 2023-09-21 2023-12-22 齐鲁工业大学(山东省科学院) 一种基于双分支网络的多标签心电信号分类方法
CN117257322B (zh) * 2023-09-21 2024-04-19 齐鲁工业大学(山东省科学院) 一种基于双分支网络的多标签心电信号分类方法
CN117809179A (zh) * 2023-12-26 2024-04-02 成都理工大学 一种面向对象的高光谱遥感影像地表岩性识别分类方法

Similar Documents

Publication Publication Date Title
CN110648334A (zh) 一种基于注意力机制的多特征循环卷积显著性目标检测方法
CN111274869B (zh) 基于并行注意力机制残差网进行高光谱图像分类的方法
CN116563606A (zh) 一种基于双分支空谱全局特征提取网络的高光谱图像分类方法
CN111145097B (zh) 图像处理方法、装置和图像处理系统
CN111310598B (zh) 一种基于3维和2维混合卷积的高光谱遥感图像分类方法
Abrahim et al. RETRACTED ARTICLE: Splicing image forgery identification based on artificial neural network approach and texture features
CN114863236B (zh) 基于双重注意力机制的图像目标检测方法
Liang et al. An improved DualGAN for near-infrared image colorization
CN113066065B (zh) 无参考图像质量检测方法、系统、终端及介质
CN114694039A (zh) 一种遥感高光谱与激光雷达图像融合分类方法及装置
CN115511767B (zh) 一种自监督学习的多模态图像融合方法及其应用
Gao et al. AMSSE-Net: Adaptive multiscale spatial–spectral enhancement network for classification of hyperspectral and LiDAR data
CN115205590A (zh) 一种基于互补集成Transformer网络的高光谱图像分类方法
CN113239825A (zh) 一种复杂场景下高精度烟草甲虫检测方法
Liu et al. Hyperspectral remote sensing imagery generation from RGB images based on joint discrimination
CN111639697B (zh) 基于非重复采样与原型网络的高光谱图像分类方法
CN116630700A (zh) 基于引入通道-空间注意力机制的遥感图像分类方法
Zhou et al. MSAR‐DefogNet: Lightweight cloud removal network for high resolution remote sensing images based on multi scale convolution
CN116109925A (zh) 一种基于异构特征学习网络的多模态遥感影像分类方法
CN115601820A (zh) 一种人脸伪造图像检测方法、装置、终端及存储介质
Qiao et al. Underwater image enhancement combining low-dimensional and global features
CN116977747B (zh) 基于多路多尺度特征孪生网络的小样本高光谱分类方法
CN117576483A (zh) 基于多尺度卷积自编码器的多源数据融合地物分类方法
Gao et al. TEGAN: Transformer embedded generative adversarial network for underwater image enhancement
CN113887470B (zh) 基于多任务注意力机制的高分辨率遥感图像地物提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination