CN115830461B

CN115830461B - 基于深度序列卷积网络的高光谱图像识别方法

Info

Publication number: CN115830461B
Application number: CN202310155746.9A
Authority: CN
Inventors: 李兵; 梁嘉鸿; 杨露; 王琪文; 余珂; 熊振华
Original assignee: Shantou University
Current assignee: Shantou University
Priority date: 2023-02-23
Filing date: 2023-02-23
Publication date: 2023-05-02
Anticipated expiration: 2043-02-23
Also published as: CN115830461A

Abstract

本发明公开了基于深度序列卷积网络的高光谱图像识别方法，方法包括：采集并预处理目标高光谱图像；利用训练好的深度序列卷积网络模型对目标高光谱图像进行目标识别，得到分类结果；模型包括特征提取模块、Sequencer2D模块和辅助分类模块。本申请结合卷积结构和BiLSTM2D层构建深度序列卷积网络模型，形成光谱空间特征之间的关联性，抵抗卷积层由于高光谱图像的地面形状不规则导致部分特征无法提取的问题，提高特征提取的精度，模型不仅具有更好的有效性、高效性和泛化能力，还具有更高的训练速度和识别分类速率，能够提高高光谱图像分类的速率和准确率，具有高可用性。本申请应用于图像识别和分类的技术领域。

Description

基于深度序列卷积网络的高光谱图像识别方法

技术领域

本发明涉及图像识别技术领域，特别涉及基于深度序列卷积网络的高光谱图像识别方法。

背景技术

高光谱图像（Hyper Spectral Image，HSI）分类是计算机视觉中的一个重要分支。随着深度学习的发展，深度学习网络开始被引入到高光谱图像分类任务中，来提高高光谱图像的分类精度，减少人工分类高光谱图像的成本损耗。目前常用于高光谱图像分类的深度学习方法大多数以卷积神经网络（Convolutional Neural Networks，CNN）为基础。伴随着卷积神经网络在高光谱图像分类中的出色表现，新兴的神经网络Transformer也开始被引入高光谱图像分类的应用中。

然而，Transformer在提取局部光谱和局部信息差异方面仍有一定的局限性，这导致了其在高光谱图像分类任务中性能不佳。虽然卷积神经网络在高光谱图像分类任务中表现良好，但其仍存在有一些问题：高光谱图像中，地面的不规则形状使卷积神经网络的内核无法捕捉到所有的空间特征，并且由于卷积神经网络的卷积核较小，使得卷积神经网络无法在整个带宽内匹配高光谱特征。这些基于深度学习网络的高光谱图像分类方法的灵活性和识别速率较差，稳定性不足，分类精度难以达到实际使用需求，其分类精度有待进一步地提高。

发明内容

本发明的目的是提供基于深度序列卷积网络的高光谱图像识别方法，以解决现有技术中所存在的一个或多个技术问题，至少提供一种有益的选择或创造条件。

本发明解决其技术问题的解决方案是：本申请提供基于深度序列卷积网络的高光谱图像识别方法，包括如下步骤：

采集目标高光谱图像并对其进行预处理，得到若干个三维像素块；

根据若干个所述三维像素块，利用训练好的深度序列卷积网络模型对目标高光谱图像进行目标识别，得到所述目标高光谱图像的分类结果；

其中，所述训练好的深度序列卷积网络模型利用已标记的样本高光谱图像和对应的标记结果进行训练得到，所述深度序列卷积网络模型包括：光谱空间特征提取模块、Sequencer2D模块和辅助分类模块；

所述光谱空间特征提取模块用于通过三维卷积层和二维卷积层对所述三维像素块进行光谱空间特征的提取，得到第一光谱空间特征；

所述Sequencer2D模块用于根据所述第一光谱空间特征的关联性，通过BiLSTM2D层和通道MLP层生成第二光谱空间特征；

所述辅助分类模块用于根据所述第二光谱空间特征，计算得到每一个所述三维像素块所属类别的最大概率，并根据所述最大概率输出所述目标高光谱图像的分类结果。

本发明的有益效果是：提供基于深度序列卷积网络的高光谱图像识别方法，通过深度序列卷积网络模型SquconvNet，深度序列卷积网络模型包括光谱空间特征提取模块、Sequencer2D模块和辅助分类模块；光谱空间特征提取模块能够提取三维像素块的光谱空间特征，Sequencer2D模块具有混合空间信息记忆的能力，能够进一步地提取更多的光谱空间特征，辅助分类模块可以提高深度序列卷积网络的分类性能。本申请创新性提出融合三维卷积、二维卷积和BiLSTM2D层的深度序列卷积网络模型，并将其与主成分分析法和栅格化法结合，使其应用于高光谱图像的分类任务中，对比传统的卷积神经网络和Transformer，本申请提供的SquconvNet能够形成光谱空间特征之间的关联性，抵抗卷积层由于高光谱图像的地面形状不规则导致部分特征无法提取的问题，提高光谱空间特征提取的精度，其不仅具有更好的有效性、高效性和泛化能力，还具有更高的训练速度和识别分类速率，能够显著提高高光谱图像分类的速率和准确率，具有高可用性。

附图说明

图1为本申请提供的高光谱图像识别方法的数据流图；

图2为本申请提供的LSTM和BiLSTM2D层的结构图；

图3为本申请提供的传统的Transformer模块和Sequencer2D模块的结构图；

图4为本申请提供的IP数据集的假色图像和对应的地面实况图；

图5为本申请提供的PU数据集的假色图像和对应的地面实况图；

图6为本申请提供的SA数据集的假色图像和对应的地面实况图；

图7为本申请提供的地面实况以及SquconvNet和其他对比网络在IP数据集上的分类图；

图8为本申请提供的地面实况以及SquconvNet和其他对比网络在PU数据集上的分类图；

图9为本申请提供的地面实况以及SquconvNet和其他对比网络在SA数据集上的分类图；

图10为本申请提供的SDB-CNN、3D-2DCNN、SS-SDB和SquconvNet在IP数据集上的总体准确性；

图11为本申请提供的SDB-CNN、3D-2DCNN、SS-SDB和SquconvNet在PU数据集上的总体准确性；

图12为本申请提供的SDB-CNN、3D-2DCNN、SS-SDB和SquconvNet在SA数据集上的总体准确性。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

随着高光谱成像传感器的发展，高光谱图像（Hyper Spectral Image，HSI）包含丰富的数百个连续的窄谱带或深度。由于高光谱图像拥有这种丰富的空间光谱信息，高光谱图像已被应用于许多领域。同样，高光谱土地覆盖信息分类也是重要的应用方向之一。其中，高空间相关性和丰富的光谱信息是高光谱图像的两个主要判别特征。从同质区域来看，高空间相关性可以为精确制图提供二级补充信息。另外，受益于高光谱图像的连续光谱带中所包含的丰富的光谱信息，使得地面材料包含大量的代表性特征，进而可以实现精确的图像识别。

随着机器学习的发展，支持向量机、随机森林、K-均值聚类和马尔科夫随机场是机器学习领域中早期尝试进行高光谱图像的分类任务的方法。然而，这些方法在分类任务中并不注重空间相关性和局部一致性，难以利用空间特征信息，导致分类性能不佳。受益于深度学习的发展，深度学习网络被引入至高光谱图像的分类任务中，例如多维卷积网络、光谱-空间剩余网络（Spectral-Spatial Residual Network，SSRN）、深度pyramidal残差网络（Deep Pyramidal Residual Network，DPRN）、混合神经网络模型（HybridSN）等。其中，1D-CNN使用高光谱图像的光谱信息作为输入，并能够有效地利用光谱信息来提取判别性特征。HybridSN可以克服二维神经网络无法从光谱维度上提取判别性特征的问题，并降低了单一三维神经网络的复杂性。除卷积神经网络外，还有一些性能突出的网络被引入到高光谱图像分类中，如全卷积网络、生成对抗网络等。此外，Transformer也被引入高光谱图像的分类任务中。Transformer包括空间-光谱变换器、改进的变换器、带有跨层模型的重组变换器编码器和光谱-空间特征变换器。

为了进一步地提高高光谱图像分类的精度和效果，本申请提出了一种结合CNN和Sequencer模块的深度序列卷积网络模型SquconvNet，并将其与主成分分析（PrincipalComponentAnalysis，PCA）和栅格化法进行结合，应用于高光谱图像的识别和分类任务中。本申请提出的SquconvNet包括光谱空间特征提取（Spectral-Spatial FeatureExtraction，SSFE）模块、Sequencer2D模块和辅助分类（Auxiliary Classification，AC）模块。输入的高光谱图像经过主成分分析法和栅格化法处理后得到若干个3D像素块，SSFE模块提取每一个3D像素块的光谱空间特征，Sequencer2D模块获取光谱空间特征的长期特征信息。最后，通过AC模块来进一步地提高高光谱图像的分类性能。

本申请的一个实施例，所述高光谱图像识别方法可以包括但不限于以下步骤。

S101，采集目标高光谱图像并对其进行预处理，得到若干个三维像素块；

S102，根据若干个三维像素块，利用训练好的深度序列卷积网络模型对目标高光谱图像进行目标识别，得到目标高光谱图像的分类结果。

需要说明的是，训练好的深度序列卷积网络模型是利用已标记的样本高光谱图像和对应的标记结果进行训练而得到的。

参照图1所示的高光谱图像识别方法的数据流图。其中，“PCA and PatchExtraction”为主成分分析和像素块提取，“Conv3d”为三维卷积层，“Conv2d”为二维卷积层，“Sequencer”为Sequencer2D模块。本申请的深度序列卷积网络模型SquconvNet包括三个部分：光谱空间特征提取模块、Sequencer2D模块和辅助分类模块。光谱空间特征提取模块的作用是：通过三维卷积层和二维卷积层对三维像素块进行光谱空间特征的提取，得到第一光谱空间特征。Sequencer2D模块的作用是：根据第一光谱空间特征的关联性，通过BiLSTM2D层和通道MLP层生成第二光谱空间特征。辅助分类模块的作用是：根据第二光谱空间特征，计算得到每一个三维像素块所属类别的最大概率，并根据最大概率输出目标高光谱图像的分类结果。

本申请的一个实施例，下面将对S101中预处理目标高光谱图像进行进一步地说明和阐述。预处理目标高光谱图像的过程可以包括但不限于以下步骤。

首先，定义目标高光谱图像为。其中，D是光谱带的数量，W是宽度，H是高度。其中，高光谱图像中的每一个像素均形成一个单热向量，C为预设的分类阈值，分类阈值定义为高光谱图像中所包含的种类的数量的最大值。

由于D波段组成的高光谱图像数据携带的信息增加了大量不必要的计算，为了消除光谱信息的冗余并保持相同的空间维度，本申请采用主成分分析来减少目标高光谱图像的波段数，将其波段数从D减少到b，得到第一高光谱图像。

需要说明的是，第一高光谱图像为。其中，，b为第一高光谱图像的波段数，M为第一高光谱图像的高度，N为第一高光谱图像的宽度。

然后，通过3D-patch窗口对第一高光谱图像进行像素块的提取，得到若干个三维像素块。其中，为三维像素块的空间尺寸大小，同时也为3D-patch窗口的大小。b为通道的数量，对应着第一高光谱图像的光谱深度。对于尺寸为的目标高光谱图像，得到个三维像素块。

需要说明的是，三维像素块的标签信息由其中心像素的原始标签决定。

进一步地，通过3D-patch窗口对第一高光谱图像进行像素块的提取，得到若干个三维像素块，包括：定义像素块的中心像素，其中，，。提取第一高光谱图像中从高度至和宽度至的全部像素点，并对处于中心像素的边缘的像素点进行填充处理。提取的全部像素点和填充处理后的像素点均作为被提取的三维像素块。其中，中心像素的边缘为、、和。可选地，填充处理为填充长度为(S-1)/2的填充处理。

本具体实施例中，在高光谱图像的分类任务中，高光谱图像的每一个像素点都被表示为一类分类目标。因此，对高光谱图像的分类过程实际上是对高光谱图像的每一个像素点进行分类。并且，对于每一个像素点而言，其特征一般与其周围的像素点具有特征连续性。因此，在本申请的预处理图像的过程中，首先使用主成分分析来降低图像的波段数，进而消除光谱信息的冗余并保持相同的空间维度。然后，通过一个像素块的栅格法来进行地物特征的学习，即利用栅格法对目标高光谱图像进行像素块的提取，得到若干个三维像素块。这样做更有利于后续的分类。

参照图1所示，本申请的一个实施例，下面将对SSFE模块的结构和功能进行进一步地说明和阐述。SSFE模块包括顺次连接的三维卷积层（Conv3d）和二维卷积层（Conv2d），即如图1中所示为“Spectral-Spatial Feature Extraction”的“Conv3d”和“Conv2d”。三维卷积层和二维卷积层的后面均连接有批归一化层和非线性激活函数，图1中并未示出批归一化层和非线性激活函数。可选地，非线性激活函数为ReLU激活函数。

每一个大小为的三维像素块均被作为SSFE模块的输入，以提取光谱空间特征。在三维卷积层的操作中，第i层的第j个特征立方体上的位置的值由以下公式计算：

；

其中，定义了激活函数；定义了偏置；、和是三维卷积核的宽度、高度和光谱深度。是第i层中第j个卷积核的权重参数，上一层的第k个特征在位置。同样的，对于二维卷积层，位于第i层的第j个特征立方体的位置的值可以由下面的公式所给出：；其中，为激活函数，为偏置，为二维卷积核的大小，为在位置的权重参数。

通过上述公式，我们可以看出卷积核的大小对于卷积层是一个重要的参数，卷积核的大小直接影响了卷积层的特征值的提取，不同的卷积核大小的卷积层能提取到不同的特征信息。由于三维卷积层和二维卷积层的结构存在明显差异，两者在特征提取方面有着不同的特点。三维卷积层可以提取和包含更多的光谱信息，但是其参数通常远远大于二维卷积层的参数。单独使用三维卷积层来进行特征提取可能会因参数过多而导致性能下降，而单独使用二维卷积层来进行特征提取可能会导致提取空间特征的能力不足。因此，本具体实施例混合三维卷积层和二维卷积层，构成三维二维混合卷积层来实现光谱空间特征的提取。具体地：

首先，三维像素块被输入至三维卷积层中。三维卷积层的作用是：对三维像素块进行卷积计算，提取三维像素块的光谱特征和空间特征，输出尺寸为的三维特征向量。然后，三维特征向量被尺度变化处理为二维特征向量后输入至二维卷积层中。可选地，特征向量的尺度变化通过torch.reshape函数实现。三维特征向量的后两个维度和8相乘合并为一个维度，与前两个维度和构成二维特征向量。

之后，二维卷积层的作用是：对三维特征向量进行卷积计算，提取三维特征向量的空间特征，生成第一光谱空间特征。本具体实施例中，d=30。对于尺寸大小为的三维像素块，输出的第一光谱空间特征为，即第一光谱空间特征的尺寸大小为。

需要说明的是，三维卷积层的尺寸为83771。其中，输入至三维卷积层的像素块的谱带数为1，三维卷积层中卷积产生的通道数为8，三维卷积层的卷积核的大小为377。

需要说明的是，二维卷积层的尺寸为6433(8(b-2))。其中，输入至二维卷积层中的数据的谱带数为8(b-2)，二维卷积层中卷积产生的通道数为64，二维卷积层的卷积核的大小为33。

SSFE模块中，在原有的目标高光谱图像经过PCA和像素块提取处理后，数据的尺寸为，呈现一个3D-Patch。然后，将其输入至SSFE模块的三维卷积层中，通过三维卷积层输出的数据的尺寸为。然后，我们对后两个维度进行相乘合并处理，数据从3D-Patch变为2D-Patch，尺寸变为。本实施例预设d=30，即为。最后，通过二维卷积层，数据的尺寸变为，输出的第一光谱空间特征为。

参照图1所示，本申请的一个实施例，下面将对Sequencer2D模块的结构和功能进行进一步地说明和阐述。其中，图1中的“Input”为输入层；“BiLSTM2D”为BiLSTM2D层；“Channel MLP”为通道MLP层；“Norm”为正则化层，本具体实施例中为第一正则化层或第二正则化层。

Sequencer2D模块包括顺次连接的输入层、BiLSTM2D层和通道MLP层。输入层和BiLSTM2D层之间连接有第一正则化层，通道MLP层和BiLSTM2D层之间连接有第二正则化层，第二正则化层和BiLSTM2D层之间连接有第一残差结构。另外，通道MLP层的后面连接有第二残差结构，第二残差结构连接AC模块。

在SSFE模块中提取了第一光谱空间特征后，Sequencer2D模块用来进一步地提取空间特征信息。具体地，首先，由SSFE模块输出的第一光谱空间特征通过输入层和第一正则化层输入至BiLSTM2D层中。

BiLSTM2D层包括顺次连接的垂直BiLSTM、水平BiLSTM和第一全连接层。层的作用是：将第一光谱空间特征转换为垂直方向序列和水平方向序列，通过垂直BiLSTM学习垂直方向序列的光谱空间特征，得到第一光谱特征，通过水平BiLSTM学习水平方向序列的光谱空间特征，得到第二光谱特征，并通过第一全连接层拼接第一光谱特征和第二光谱特征后输出光谱特征信息。连接在BiLSTM2D层后面的第一残差结构的作用是：解决梯度消失问题，即防止改进神经网络因为过深导致的精度下降问题。

最后，光谱特征信息被输入至通道MLP层。通道MLP层的作用是对光谱特征信息进行去线性化处理，得到光谱特征矩阵。第二残差结构的作用是：将光谱特征信息和光谱特征矩阵连接在一起，生成第二光谱空间特征。

参照图2所示的LSTM和BiLSTM2D层的结构示意图，图2的（a）为LSTM，（b）为BiLSTM2D层。在图2的（b）中，“Forward LSTM”为前向LSTM，“Backward LSTM”为后向LSTM，“Vertical Bidirectional LSTM”为水平BiLSTM，“Horizontal Bidirectional LSTM”为垂直BiLSTM，“Input”为BiLSTM2D层的输入，“Cat”为第一全连接层，“Channel Fusion”为通道融合，本具体实施例中是指BiLSTM2D层与通道MLP层融合。

本申请中，Sequencer2D模块最重要的核心是BiLSTM2D。BiLSTM2D层包括顺次连接的垂直BiLSTM、水平BiLSTM和第一全连接层。垂直BiLSTM和水平BiLSTM均包括前向LSTM和后向LSTM。LSTM的结构如图2的（a）所示。具体地，LSTM包括输入门、遗忘门和输出门。输入门控制输入的存储，遗忘门控制对前一个单元状态的遗忘，输出门控制当前单元状态的单元输出。LSTM的一次更新过程为：；；；；；；；。

其中，为sigmoid函数，tanh为双曲正切函数，为Hadamard积。其中，为当前时刻的输入，和分别为临时记忆单元值和当前时刻的记忆单元值，、和分别为当前时刻的输入门、遗忘门和输出门的输出；为当前时刻隐藏层的输出结果；均为权值矩阵，均为偏置项向量。

通过上述公式可以得出，垂直BiLSTM满足以下公式：

；

其中，表示垂直BiLSTM的输出，是一个二维向量输出；表示拼接，是垂直方向序列，是的逆序重排；为垂直BiLSTM的前向LSTM的输出，为垂直BiLSTM的后向LSTM的输出。

水平BiLSTM满足以下公式：

；

其中，表示水平BiLSTM的输出，是一个二维向量输出，是水平方向序列，是的逆序重排，为水平BiLSTM的前向LSTM的输出，为水平BiLSTM的后向LSTM的输出。

那么，BiLSTM2D层的输出满足以下公式：

，；

其中，表示BiLSTM2D层的输出，是具有权重的第一全连接层，E为BiLSTM2D层的隐藏维度，C为预设的分类阈值，分类阈值定义为高光谱图像中所包含的种类的数量的最大值。H为第一光谱特征和第二光谱特征的拼接结果，表示拼接，为第一光谱空间特征，为垂直方向序列，为水平方向序列。

本具体实施例中，参照图3所示的传统的Transformer模块和Sequencer2D模块的结构图，（a）为Transformer模块，（b）为Sequencer2D模块。Transformer模块由多头注意力（Multi-head Attention）组成，而Sequencer2D模块由BiLSTM2D组成。Transformer模块的成功很大程度上依赖于多头注意力的使用，但LSTM同样有能力学习长期的依赖关系，且比多头注意力具有更高的内存、参数和效率。因此，本申请选用BiLSTM2D来取代多头注意力来进一步地提取光谱空间特征。

由于高光谱图像的地面形状不规则，光谱空间特征提取模块的卷积层难以提取到全部光谱空间特征。本申请采用由BiLSTM2D构成的Sequencer2D模块来弥补光谱空间特征提取模块的不足。具体地，与卷积层类似，我们以一个像素点为中心，将垂直和水平方向视为序列，并同时扩展它以形成一个空间意义上的感受野。与卷积层相反，LSTM的定时形成能力使Sequencer2D模块有混合空间信息记忆的能力，Sequencer2D模块借助LSTM可以形成第一光谱空间特征之间的关联性，以抵抗由于地面形状不规则导致的特征提取困难的问题。

进一步地，通道MLP层包括顺次连接的第二全连接层、GELU非线性激活函数层和第三全连接层。第二全连接层和第三全连接层的后面均连接有一个丢弃层。其中：第二全连接层的作用是将光谱特征信息的通道数压缩为原来的八分之一。GELU非线性激活函数层的作用是通过GELU函数对通道数压缩后的光谱特征信息进行去线性化处理，得到去线性化的光谱特征信息。第三全连接层的作用是将去线性化的光谱特征信息的通道数恢复为原来的通道数，生成光谱特征矩阵。

Sequencer2D模块中，首先我们分别对第一光谱空间特征的垂直方向和水平方向进行序列转化的处理，得到垂直方向序列和水平方向序列。然后，通过垂直BiLSTM、水平BiLSTM分别学习对应的方向序列，得到序列形式的第一光谱特征和第二光谱特征。将第一光谱特征和第二光谱特征输入通道MLP层中，在通道MLP层中进行先缩小数据的通道尺寸再恢复扩展的操作。最后，将数据进行重排，从序列形式恢复到三维像素块原有的尺寸，即。

参照图1所示，图1的“Auxiliary Classification”中，“Flatten”为扁平层，“Linear”为全连接层，“Softmax”为激活函数，“Classification Result”为分类结果。本申请的一个实施例，下面将对AC模块的结构和功能进行进一步地说明。

辅助分类模块包括顺次连接的第一卷积层、第二卷积层、扁平化层、第四全连接层和Softmax层。第一卷积层、第二卷积层为图1中的“Auxiliary Classification”的“Conv2d”。其中，第一卷积层、第二卷积层均为二维卷积层，第一卷积层、第二卷积层的后面均连接有一个BN层和一个非线性激活函数。可选地，非线性激活函数为ReLU激活函数。其中：第一卷积层和第二卷积层的作用是降低第二光谱空间特征的空间尺寸和增加第二光谱空间特征的通道数。需要说明的是，第一卷积层的卷积核的大小为77，共有128个卷积核。第二卷积层的卷积核的大小为33，共有256个卷积核。扁平化层的作用是将第二卷积层输出的第二光谱空间特征展平为一维特征。第四全连接层的作用是将一维特征转化为三维像素块对应的种类个数及其标签值。需要说明的是，全连接层的输入通道数为256，全连接层的输入通道数等于第二卷积层的卷积核的数量。Softmax层的作用是根据三维像素块对应的种类个数及其标签值，通过Softmax函数计算得到三维像素块所属类别的最大概率，并根据最大概率输出目标高光谱图像的分类结果。需要说明的是，最大概率的范围为[0,1]。

本具体实施例中，经过前面的SSFE模块和Sequencer2D模块，虽然已经提取了许多具有判别性的光谱空间特征，但由于空间特征的大小仍旧比较大，分类的效果仍旧未达到预期效果。因此，为了降低空间特征的参数数量，本申请的AC模块中，采用两个二维卷积层来减小第二光谱空间特征的大小，两层卷积层都起到了降低Patch的空间尺寸和增加通道数量的作用。在通过卷积层后，输出的数据变为。然后，在第四全连接层前会对数据进行展平处理，并通过第四全连接层输出了对应类别的数值。最后，通过Softmax函数对数值进行计算出概率值，并会以最高的概率值作为预测标签的输出。

基于上述实施例，为了更好地训练和验证本申请的SquconvNet，本申请通过两个实施例来进一步地证明本申请的SquconvNet的有效性和稳定性。在阐述实施例之前，首先定义评估参数。对于训练得到的SquconvNet，在可见光遥感图像的相关测量评估参数上，本申请选取了四种参数来进行分类性能的评估：总体精度OA(Overall Accuracy)，平均精度AA(Average Accuracy),Kappa系数(Kappa Coefficient)和每个类别的准确率EA(Eachclass Accuracy)。

其中，总体精度OA代表了总分类准确的测试像素点除以总测试像素点的数量。定义正确分类的像素点为，类别的数量为n，总测试集的像素点数量为N。EA 表示每个类别中准确分类的样本的百分比，则每个类别的准确率EA满足下述公式：。那么，总体精度OA可以被计算为：。而对于平均精度AA而言，它代表的则是每一个类别的准确之和除以类别的数量得出的平均类别精度。平均精度AA可以被表示为：。Kappa系数则是一种统计度量，用于计算地面实况图和预测分类图之间的信息，并且表现出很强的一致性。Kappa系数可以被表示为：。

在两个实施例中本申请均使用三个标准的高光谱遥感图像数据集来进行验证。这三个数据集为分别为IP(Indian Pine，印度松树)数据集、PU(Pavia University，帕维亚大学)数据集和SA（Salians Scene，萨利安场景）数据集。

IP数据集是通过AVRIS传感器对印度松树进行图像采集而得到的数据集，其包括145145像素和波长范围为的224个光谱反射带的成像图像，其中覆盖水吸收区域的24个光谱带的成像图像已被删除。参照图4所示的IP数据集的假色图像和地面实况，（a）为假色图像，（b）为地面实况。本申请随机选取IP数据集的30%的数据进行训练，其余70%的数据用于测试。参照下表1所示的IP数据集的类别名称、训练样本、测试样本和每个类别的样本数量。

表1：IP数据集的类别名称、训练样本、测试样本和每个类别的样本数量

PU数据集包括若干由反射光学光谱成像系统对某一城市进行成像所得到的成像图像。数据的尺寸大小为610340，数据包括103个光谱波段，9类不同的城市地物和1.3m的空间分辨率的成像图像，总共有42776个标记的像素。参照图5所示的PU数据集的假色图像和地面实况，（a）为假色图像，（b）为地面实况。本申请将PU数据集随机分为两个互不相干的数据集，其中，10%的样本用于训练，其余90%用于分类评估。参照下表2所示的PU数据集的类别名称、训练样本、测试样本和每个类别的样本数量。

表2：PU数据集的类别名称、训练样本、测试样本和每个类别的样本数量

SA数据集由通过AVRIS传感器采集的数据构成。数据的尺寸大小为512217，数据包括224个光谱深度、波长范围为360-2500nm的成像图像。其中，涵盖水吸收区域的20个光谱带的成像图像已被删除。参照图6所示的SA数据集的假色图像和地面实况，（a）为假色图像，（b）为地面实况。本申请随机抽取SA数据集的10%的样本用于训练，其余90%用于分类评估。参照下表3所示的SA数据集的类别名称、训练样本、测试样本和每个类别的样本数量。

表3：SA数据集的类别名称、训练样本、测试样本和每个类别的样本数量

实施例1：

将SquconvNet分别在三个标准的高光谱遥感图像数据集上进行训练和验证，将SquconvNet的识别结果与本领域的常用的神经网络Resnet、3D-CNN、SSRN、HybridSN、SPRN、SSFTT的识别结果进行比对。

为了进行公平的比较，本申请的SquconvNet和对比网络的训练和验证均在Pytorch环境下进行，同时使用NVIDIA GeForce GTX 3060 12GBGPU服务器。对于PU、IP和SA数据集的数据，设定IP数据集的三维像素块的尺寸为171730，UP数据集和SA数据集的三维像素块的尺寸为171715。

关于SquconvNet的训练，本申请采用Adam优化器来优化SquconvNet，定义迷你批次大小为256，根据分类性能定义最佳学习率为1e-3，即0.0001，且设定在PU、IP和SA数据集上的训练历时均为100个训练历时。根据上述定义的参数对SquconvNet进行训练。

可选地，本申请训练最佳学习率的选取通过如下步骤进行。学习率是一个重要的超参数，它影响了模型的拟合。在本申请的训练和验证过程中，以下每个学习率被设定为0.0001、0.0005、0.001、0.005、0.01和0.05。分别根据上述每个学习率将模型在PU、IP和SA数据集上训练，并得到对应的分类结果。根据实际验证过程中得到的分类结果可以得知最佳学习率为0.001，次优学习率为0.0005。因此，在本具体实施例中，定义最佳学习率为1e-3，即0.0001。

同时，对对比网络进行训练。关于其他对比网络Resnet、3D-CNN、SSRN、HybridSN、SPRN、SSFTT的训练，对于Resnet，采用与SquconvNet一致的最佳方法。对于3D-CNN、SSRN、HybridSN、SPRN、SSFTT，按照其对应的参考文献中的描述进行设置。另外，为了减少与随机选择的训练样本相关的误差，每个模型都要运行十次，以计算平均准确度和标准偏差。

完成训练SquconvNet和其他对比网络后，进入验证阶段。验证所使用的评估参数如上述所述，使用总体精度OA、平均精度AA、Kappa系数和每个类别的准确率EA来完成SquconvNet的有效性的验证。验证部分可以分为三个大部分：IP数据集的验证、PU数据集的验证、SA数据集的验证和损耗分析。每个大部分可以分为两个小部分：评估参数分析和分类图视觉效果分析。具体地：

一，IP数据集的验证：

（1）评估参数分析：参照下表4所展示的SquconvNet和其他对比网络在IP数据集上的分类结果，表4中强调了每个类别对应的最佳结果。其中，“Proposed”表示SquconvNet。分类结果通过OA、AA、Kappa和标准偏差来体现。

表4：SquconvNet和其他对比网络在IP数据集上的分类结果

通过表1和表4可以得知：本申请的SquconvNet取得了最高的OA值，OA值为99.87%；其次是HybirdSN、3D-CNN、Resnet等对比网络。而SquconvNet的平均值和其他对比网络之间的差异分别为+0.1、+0.24和+0.11。此外，相对于其他对比网络，SquconvNet的标准差也是最小的，代表SquconvNet更稳定。值得注意的是，在这六种对比网络中，由于SSRN和SPRN的网络结构不稳定，SSRN和SPRN取得最差的分类结果。虽然Resnet和SSFTT都有较高的上限，但是由于Resnet和SSFTT在IP数据集中受到了高样本不平衡的影响，Resnet和SSFTT的平均效果相对较差。总之，由于其他对比网络方法具有很强的非线性数据拟合能力，它们在IP数据集的分类任务中都取得了相当不错的结果，特别是基于3D-2D卷积架构的HybridSN。基于卷积-Transformer框架的SSFTT可以补充卷积架构全局信息提取的不足，但它也受到Transformer难以在小数据样本上表现更好的问题的限制，并且其分类精度受到限制。为了克服卷积层全局信息提取的不足和Transformer难以在小数据样本上表现更好的问题，本申请设计了光谱空间特征提取模块和Sequencer2D模块，通过在水平和垂直方向传输“记忆”信息，可以在一定程度上克服卷积核由于地面形状不均匀而无法捕获卷积层中所有特征的问题，并且提高在小数据样本的分类精度。

（2）分类图视觉效果分析：

参照图7所示的地面实况以及SquconvNet和其他对比网络在IP数据集上的分类图。其中，（a）为Ground Truth，IP数据集的地面实况；（b）为Resnet；（c）为3D-CNN；（d）为SSRN；（e）为HybridSN；（f）为SPRN；（g）为SSFTT；（h）为SquconvNet。通过图7可以得知：本申请的SquconvNet和HybridSN的分类图比其他网络具有更好的视觉效果。

通过上述内容可以证明，本申请提出的融合3D-2DCNN和BiLSTM2D的SquconvNet相比于其他对比网络在IP数据集上有更高的准确率和稳定性。

二，PU数据集的验证：

（1）评估参数分析：

参照下表5所示的SquconvNet和其他对比网络在PU数据集上的分类结果，表5中强调了每个类别对应的最佳结果。其中，“Proposed”表示本申请提出的SquconvNet。分类结果通过OA、AA、Kappa和标准偏差体现。

表5：SquconvNet和其他对比网络在PU数据集上的分类结果

通过表2和表5可以得知：在PU数据集的九个类别的分类验证中，除了NO.4类别，SquconvNet在其他八个类别的分类结果是所有方法中最优的，而且SquconvNet在这八个类别的标准差是所有方法中最低的。在OA值方面，本申请的SquconvNet取得了99.93%的OA值，与次优方法SSRN相比，有+0.24的改进。在这六类对比网络中，3D-CNN、SSRN、HybridSN和SSFTT都取得了比Resnet和SPRN更好的分类结果。此外，本申请的SquconvNet的标准偏差是所有方法中最低的，证明本申请的SquconvNet在稳定性方面有所提高。由此可见，本申请的SquconvNet在OA、AA和Kappa方面优于所有对比网络。

（2）分类图视觉效果分析：

参照图8所示，图8所示的地面实况和SquconvNet和其他对比网络在PU数据集上的分类图。其中，（a）为Ground Truth，为PU数据集的地面实况；（b）为Resnet；（c）为3D-CNN；（d）为SSRN；（e）为HybridSN；（f）为SPRN；（g）为SSFTT；（h）为SquconvNet。通过图8可以得知：通过Resnet、SPRN的分类图可知Resnet、SPRN难以提取最具鉴别力的特征信息，因此Resnet、SPRN的分类图具有较多的盐渍噪声和错误分类的区域块。虽然其他对比网络也有着很好的视觉效果，但是其分类图仍旧有相对大量的点状噪声。相比之下，本申请的SquconvNet的分类图含有较少的噪声，边界也比较平滑。

通过上述内容可以证明，本申请提出的融合3D-2DCNN和LSTM2D的SquconvNet相比于其他对比网络在PU数据集上有更高的准确率和稳定性。

三，SA数据集的验证:

（1）评估参数分析：

参照下表6所示的SquconvNet和其他对比网络在SA数据集上的分类结果，表6中强调了每个类别对应的最佳结果。“Proposed”表示本申请提出的SquconvNet。分类结果通过OA、AA、Kappa和标准偏差来体现。

表6：SquconvNet和其他对比网络在SA数据集上的分类结果

通过表3和表6可以得知：由于Resnet和SPRN的网络不稳定以及其网络提取特征的能力有限，Resnet和SPRN在SA数据集的分类任务上表现不佳。相比之下，由于3D-CNN、SSRN、HybridSN和SSFTT均具有三维卷积的结构，3D-CNN、SSRN、HybridSN和SSFTT在进行SA数据集的分类任务时，均能够提取光谱-空间特征，因此3D-CNN、SSRN、HybridSN和SSFTT均能获得较好的分类结果。但是，3D-CNN、SSRN、HybridSN和SSFTT仍旧有提高其准确性和一致性的进步空间。本申请的SquconvNet融合有3D-2D卷积和Sequencer2D块，因此本申请的SquconvNet的OA、AA和Kappa值是最高的，OA、AA和Kappa均达到了99.99%，并且标准差也比较小。由此可见，本申请的SquconvNet在OA、AA和Kappa方面优于所有对比网络。

（2）分类图视觉效果分析：

参照图9所示，图9所示为本申请提供的地面实况和SquconvNet和其他对比网络在SA数据集上的分类图。其中，（a）为Ground Truth，为SA数据集的地面实况；（b）为Resnet；（c）为3D-CNN；（d）为SSRN；（e）为HybridSN；（f）为SPRN；（g）为SSFTT；（h）为SquconvNet。通过图9可以得知：Resnet和SPRN的分类图的性能较差，有明显的噪声水平和连续的分类错误块。相比Resnet和SPRN，通过3D-CNN、SSRN和HybridSN的分类图可以得知：3D-CNN、SSRN和HybridSN获得了更好的结果，包含更少的点状噪声，并且在不同物体类别之间有更好的连续性。然而，相比这六种对比网络，本申请提出的SquconvNet的分类图具有更加平滑的边界和更少的点状噪声。

通过上述内容可以证明，本申请提出的融合3D-2DCNN和LSTM2D的SquconvNet相比于其他对比网络在SA数据集上有更高的准确率和稳定性。

四，损耗分析：

参照下表7所示的3D-CNN、SSRN、HybridSN、SSFTT和SquconvNet的训练时间、测试时间和模型的参数数量。

表7：SquconvNet和对比网络的训练时间、测试时间和模型的参数数量

通过表7可以得知：基于深度残差的SSRN的训练速度是最慢的，3D-CNN、SSRN、HybridSN存在训练时间和测试时间长的问题。此外，HybridSN存在有三个全连接层，导致HybridSN的整体参数过大。另外，虽然SSFTT的训练速度和测试速度较快，但是通过前述SSFTT的准确率较低。与SSRN相比，本申请的SquconvNet的训练速度至少提高了约12倍，且测试速度提高了约4倍。与HybridSN相比，SquconvNet在IP数据集上的训练速度提高了9倍，在SA数据集和PU数据集上的训练速度提高了3倍。另外，SquconvNet的参数器数量比SSRN增大了2至3倍，比HybridSN小约6倍。

通过本具体实施例可以得知，本申请提出的SquconvNet具有更高的分类精度和稳定性，其提出是有价值的，且具有良好的应用前景。

实施例2：

为了更好地探索本申请的SquconvNet的光谱空间特征提取（SSFE）模块、Sequencer2D模块和辅助分类（AC）模块的有效性，本申请通过上述的IP数据集、PU数据集和SA数据集对这三个模块进行消融实验，来探讨SquconvNet的三个模块对IP数据集、PU数据集和SA数据集的影响。

首先，建立四个基于特征提取模块、Sequencer2D模块和辅助分类模块的组合，包括：SDB-CNN、3D-2DCNN、SS-SDB和本申请的SquconvNet，具体的构成如下表8所示，其中“Method”为组合方式，“SDB”为Sequencer2D模块。

表8 ：SDB-CNN、3D-2DCNN、SS-SDB和SquconvNet的组合方式

其中：SDB-CNN由Sequencer2D模块和辅助分类（AC）模块构成；3D-2DCNN由光谱空间特征提取（SSFE）模块和辅助分类（AC）模块构成；SS-SDB由光谱空间特征提取（SSFE）模块和Sequencer2D模块构成。

然后，训练SDB-CNN、3D-2DCNN、SS-SDB和本申请的SquconvNet并验证SDB-CNN、3D-2DCNN、SS-SDB和SquconvNet在IP数据集上的分类效果和性能。如下表9所示的SDB-CNN、3D-2DCNN、SS-SDB和SquconvNet在IP数据集上的分类结果。分类结果通过OA、AA、Kappa来体现。

表9：组合网络在IP数据集上的分类结果

通过表9可以得知：SS-SDB取得了最差的分类结果，其次是SDB-CNN。在这四种方法中，本申请的SquconvNet的OA、AA、Kappa的值最高。

为了探索SquconvNet模型方法的稳定性，本申请尝试使用较少的数据量对这四种方法进行训练。参照图10至图12所示的SDB-CNN、3D-2DCNN、SS-SDB和SquconvNet在IP数据集、PU数据集和SA数据集上的总体准确性。

图10为SDB-CNN、3D-2DCNN、SS-SDB和SquconvNet在IP数据集上的总体准确性，通过图10可以得知：在IP数据集上，SquconvNet在5%的训练数据集上表现出比SDB-CNN和SS-SDB更差的结果，造成此现象的原因是IP数据集中存在样本的高度不平衡（如Class.9Oats）的问题，进而导致一些类别的训练样本太少，SquconvNet无法学习到具有高效判别能力的特征。而在10%至30%的训练数据集上，SquconvNet的表现是最佳的，取得了最高的总体准确性。

图11为SDB-CNN、3D-2DCNN、SS-SDB和SquconvNet在PU数据集上的总体准确性，通过图11可以得知：在PU数据集上，在1%至10%的训练数据集上，SquconvNet的表现是最佳的，其取得了最高的总体准确性。

图12为SDB-CNN、3D-2DCNN、SS-SDB和SquconvNet在SA数据集上的总体准确性，通过图12可以得知：在SA数据集上，SDB-CNN方法在4%的训练样本上只比SquconvNet高0.01。而在1%、7%和10%的训练样本上，SquconvNet的表现是最佳的，取得了最高的总体准确性。

由此可以证明，本申请的SquconvNet具有更高的总体准确性，并在高光谱图像的分类任务中表现出有效性和稳定性。

本申请提出了本文提出了一种混合三维卷积层、二维卷积层和BiLSTM2D层应用于高光谱图像分类的方法SquconvNet。SquconvNet由光谱空间特征提取模块、Sequencer2D模块和辅助分类模块组成。本申请的实施例1在三个现有的标准高光谱遥感图像数据集上进行了严格的比较试验，试验结果表明，与所有的比较方法相比，所提出的SquconvNet分别达到了99.94%、99.98%和100%的最佳总体精度，以及99.87%、99.93%和99.99%的平均精度，其具有更好的分类结果、更快的分类率和更高的稳定性。相比现有技术，本申请能够显著的提高高光谱图像分类的准确率和速率。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于深度序列卷积网络的高光谱图像识别方法，其特征在于，包括如下步骤：

所述辅助分类模块用于根据所述第二光谱空间特征，计算得到每一个所述三维像素块所属类别的最大概率，并根据所述最大概率输出所述目标高光谱图像的分类结果；

其中，所述Sequencer2D模块包括顺次连接的输入层、BiLSTM2D层和通道MLP层，所述输入层和所述BiLSTM2D层之间连接有第一正则化层，所述通道MLP层和所述BiLSTM2D层之间连接有第二正则化层，所述第二正则化层和所述BiLSTM2D层之间连接有第一残差结构，所述第一光谱空间特征通过所述输入层和所述第一正则化层输入至所述BiLSTM2D层中；

所述BiLSTM2D层包括顺次连接的垂直BiLSTM、水平BiLSTM和第一全连接层，所述BiLSTM2D层用于将所述第一光谱空间特征转换为垂直方向序列和水平方向序列，通过所述垂直BiLSTM学习所述垂直方向序列的光谱空间特征，得到第一光谱特征，通过所述水平BiLSTM学习所述水平方向序列的光谱空间特征，得到第二光谱特征，并通过第一全连接层拼接所述第一光谱特征和所述第二光谱特征后输出光谱特征信息；

所述通道MLP层用于对所述光谱特征信息进行去线性化处理，得到光谱特征矩阵，所述通道MLP层的后面连接有第二残差结构，所述第二残差结构用于连接所述光谱特征信息和所述光谱特征矩阵，生成第二光谱空间特征。

2.根据权利要求1所述的基于深度序列卷积网络的高光谱图像识别方法，其特征在于，对所述目标高光谱图像进行预处理，包括：

定义目标高光谱图像为，D为目标高光谱图像的光谱带的数量，W为目标高光谱图像的宽度，H为目标高光谱图像的高度；

通过主成分分析法减少所述目标高光谱图像的波段数,得到第一高光谱图像，所述第一高光谱图像为，，b为第一高光谱图像的波段数，M为第一高光谱图像的高度，N为第一高光谱图像的宽度；

通过3D-patch窗口对所述第一高光谱图像进行像素块的提取，得到若干个三维像素块，为三维像素块的空间尺寸大小，即3D-patch窗口的大小；b为通道的数量，对应着所述第一高光谱图像的光谱深度；其中，所述三维像素块的标签信息由其中心像素的原始标签决定，所述三维像素块的数量为。

3.根据权利要求2所述的基于深度序列卷积网络的高光谱图像识别方法，其特征在于，所述通过3D-patch窗口对所述第一高光谱图像进行像素块的提取，得到若干个三维像素块，包括：

定义像素块的中心像素，，，提取所述第一高光谱图像中从高度至和宽度至的全部像素点，并对处于所述中心像素的边缘的像素点进行填充处理，提取的全部像素点和填充处理后的像素点均作为被提取的三维像素块；

其中，所述填充处理为填充长度为(S-1)/2的填充处理，所述中心像素的边缘为、、和。

4.根据权利要求1所述的基于深度序列卷积网络的高光谱图像识别方法，其特征在于，所述光谱空间特征提取模块包括顺次连接的三维卷积层和二维卷积层，所述三维卷积层和所述二维卷积层的后面均连接有批归一化层和非线性激活函数，所述非线性激活函数为ReLU激活函数；

所述三维像素块被输入至所述三维卷积层中，所述三维卷积层用于对所述三维像素块进行卷积计算，提取所述三维像素块的光谱特征和空间特征，输出尺寸为的三维特征向量；所述三维特征向量被处理为二维特征向量后输入至所述二维卷积层中；

所述二维卷积层用于对所述二维特征向量进行卷积计算，提取所述二维特征向量的空间特征，生成第一光谱空间特征；其中，对于尺寸大小为的三维像素块，输出的所述第一光谱空间特征为；

其中，所述三维卷积层的尺寸为83771，输入至所述三维卷积层的像素块的谱带数为1，所述三维卷积层中卷积产生的通道数为8，所述三维卷积层的卷积核的大小为377；

其中，所述二维卷积层的尺寸为6433(8(b-2))，输入至所述二维卷积层中的数据的谱带数为8(b-2)，所述二维卷积层中卷积产生的通道数为64，所述二维卷积层的卷积核的大小为33。

5.根据权利要求1所述的基于深度序列卷积网络的高光谱图像识别方法，其特征在于，所述垂直BiLSTM和所述水平BiLSTM均包括前向LSTM和后向LSTM，所述LSTM包括输入门、遗忘门和输出门；

其中，所述LSTM的一次更新过程为：

；；

其中，为sigmoid函数，tanh为双曲正切函数，和分别为临时记忆单元值和当前时刻的记忆单元值，和分别为当前时刻的输入门和遗忘门的值，和分别为当前时刻的输出门和隐藏层的输出结果，为Hadamard积，均为权值矩阵，均为偏置项向量。

6.根据权利要求1所述的基于深度序列卷积网络的高光谱图像识别方法，其特征在于，所述垂直BiLSTM满足以下公式：

；

其中，表示垂直BiLSTM的输出，是一个二维向量输出；表示拼接，是垂直方向序列，是的逆序重排；为垂直BiLSTM的前向LSTM的输出，为垂直BiLSTM的后向LSTM的输出；

所述水平BiLSTM满足以下公式：

；

7.根据权利要求1所述的基于深度序列卷积网络的高光谱图像识别方法，其特征在于，所述BiLSTM2D层的输出满足以下公式：

，；

其中，表示BiLSTM2D层的输出，是具有权重的第一全连接层，E为BiLSTM2D层的隐藏维度，C为预设的分类阈值，分类阈值定义为高光谱图像中所包含的种类的数量的最大值；

其中，H为所述第一光谱特征和所述第二光谱特征的拼接结果，表示拼接，表示垂直BiLSTM的输出，表示水平BiLSTM的输出，为第一光谱空间特征，为垂直方向序列，为水平方向序列。

8.根据权利要求1所述的基于深度序列卷积网络的高光谱图像识别方法，其特征在于，所述通道MLP层包括顺次连接的第二全连接层、GELU非线性激活函数层和第三全连接层，第二全连接层和第三全连接层的后面均连接有一个丢弃层；其中，所述第二全连接层用于将光谱特征信息的通道数压缩为原来的八分之一，所述GELU非线性激活函数层用于通过GELU函数对通道数压缩后的光谱特征信息进行去线性化处理，得到去线性化的光谱特征信息；所述第三全连接层用于将去线性化的光谱特征信息的通道数恢复为原来的通道数，生成光谱特征矩阵。

9.根据权利要求1所述的基于深度序列卷积网络的高光谱图像识别方法，其特征在于，所述辅助分类模块包括顺次连接的第一卷积层、第二卷积层、扁平化层、第四全连接层和Softmax层，所述第一卷积层、第二卷积层均为二维卷积层且其后面均连接有一个BN层和一个非线性激活函数，所述非线性激活函数为ReLU激活函数；

所述第一卷积层和所述第二卷积层用于降低所述第二光谱空间特征的空间尺寸和增加所述第二光谱空间特征的通道数；

所述扁平化层用于将所述第二卷积层输出的第二光谱空间特征展平为一维特征；

所述第四全连接层用于将所述一维特征转化为所述三维像素块对应的种类个数及其标签值；

所述Softmax层用于根据所述三维像素块对应的种类个数及其标签值，通过Softmax函数计算得到所述三维像素块所属类别的最大概率，并根据所述最大概率输出所述目标高光谱图像的分类结果，最大概率的范围为[0,1]；

其中，所述第一卷积层的卷积核的大小为77，所述第二卷积层的卷积核的大小为33，所述全连接层的输入通道数与所述第二卷积层的卷积核的数量相同。