CN117218537A

CN117218537A - 基于Transformer和非局部神经网络双分支架构的高光谱图像分类方法

Info

Publication number: CN117218537A
Application number: CN202311178242.5A
Authority: CN
Inventors: 赵晋陵; 王家界; 黄林生; 阮超; 雷雨; 黄文江; 梁栋
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2023-09-13
Filing date: 2023-09-13
Publication date: 2023-12-12
Anticipated expiration: 2043-09-13
Also published as: CN117218537B

Abstract

本发明涉及一种基于Transformer和非局部神经网络双分支架构的高光谱图像分类方法，包括：输入高光谱图像H；对输入的高光谱图像H进行双分支处理：将多个立方块H_sp作为空间子网络的输入，取H的光谱信息H_spe作为光谱子网络的输入；得到一维空间特征；得到一维光谱特征；构建多层感知器模块将提取的一维空间特征和一维光谱特征进行融合，得到分类结果。本发明通过对高光谱图像作为研究对象，用双分支策略以在充分保持计算效率的同时减少计算量和节约成本；本发明所提出的空间注意力机制探索中心像素和周围像素的相似性，提高了中心像素识别的准确性，增强了空间提取能力。

Description

基于Transformer和非局部神经网络双分支架构的高光谱图像分类方法

技术领域

本发明涉及计算机视觉和图像处理技术领域，尤其是一种基于Transformer和非局部神经网络双分支架构的高光谱图像分类方法。

背景技术

高光谱图像比普通图像具有更丰富的光谱空间信息,能充分反映地物特征。目前为止，高光谱图像广泛应用于环境管理、资源评估、城市发展检测、作物分析等领域，而高光谱图像分类则是这些应用的先决条件。在高光谱图像分类领域的早期研究中，主要采用机器学习方法来提取高光谱图像特征，其中包括k近邻法、贝叶斯估计法、多项逻辑回归法、支持向量机和随机森林等，此外，还发展了主成分分析、独立成分分析等多种降维和光谱特征提取方式，然而，这些方法忽略了像素之间在空间维度上相关性，未能充分利用空间特征。因此，又开发了多种形态学算子，如形态学轮廓和扩展多属性轮廓等方法，但这些机器学习方法存在一些缺陷，如特征提取能力不足和对不同高光谱图像场景的适用性差。

近年来，深度学习的快速发展成功地打破了传统提取技术的局限性，它可以自动从数据中提取深层次特征，在计算机视觉方面取得了重大进展。到目前为止，已经有很多深度学习模型用于高光谱图像分类的研究，其中卷积神经网络CNN具有局部感知和参数共享的特点，同时在学习特征的时能保留原有结构，并大大减少网络参数的数量，正是这些显著的优势使CNN在高光谱图像分类任务中表现出了较好的性能，得到了广泛的关注。虽然基于CNN高光谱分类方法可以有效提取光谱和空间信息，但CNN的卷积操作在处理输入内容时通常呈现出一种平等的趋势，但光谱和空间特征往往对分类的贡献存在差异。并且CNN卷积操作主要关注局部邻域的特征提取，对于像素之间的长距离依赖关系能力有限。这使得CNN在处理具有复杂的空间布局和结构的高光谱图像时可能存在一定的局限性。

总结而言，尽管深度学习方法在高光谱图像分类领域取得了显著的进展，但需要认识到高光谱图像通常具有高维度的特点。这导致了模型的复杂性增加，训练变得更加困难，同时需要更多的计算资源和数据才能获得令人满意的结果。这些挑战需要在未来的研究中得到更好的解决，以进一步推动高光谱图像分类技术的发展和应用。

发明内容

为克服CNN无法有效处理像素之间的长距离依赖关系以及高光谱维度问题，本发明的目的在于提供一种有效处理像素之间的长距离依赖关系来提高中心像素识别，缓解高光谱图像的维度问题，增强模型对光谱特征的理解能力的基于Transformer和非局部神经网络双分支架构的高光谱图像分类方法。

为实现上述目的，本发明采用了以下技术方案：一种基于Transformer和非局部神经网络双分支架构的高光谱图像分类方法，该方法包括下列顺序的步骤：

(1)输入高光谱图像H∈R^h×w×b，其中，h、w和b分别为数据集的长度、宽度和波段数；

(2)对输入的高光谱图像H进行双分支处理：先将高光谱图像H通过主成分分析降维为H_pca∈R^h×w×b'，其中，b'为降维后的波段；再将H_pca裁剪成多个立方块H_sp，将多个立方块H_sp依次输入空间子网络；取H的光谱信息H_spe作为光谱子网络的输入；

(3)对于输入空间子网络的多个立方块H_sp，先经过一个二维卷积层用于保证足够的输入信息，再使用空间注意力模块实现全局与局部特征融合，最后经过全局二维平均池化得到一维空间特征；

(4)输入光谱子网络的光谱信息H_spe经过Transformer模块得到一维光谱特征；

(5)构建多层感知器模块将提取的一维空间特征和一维光谱特征进行融合，得到分类结果。

所述步骤(3)具体包括以下步骤：

(3a)所述二维卷积层包括二维卷积、批归一化层和Mish激活函数，输入空间子网络的多个立方块H_sp先经过一个二维卷积，其卷积核为3×3；再经过批归一化层缓解梯度消失和梯度爆炸问题，增强网络的泛化能力，再经过Mish激活函数增加网络的非线性能力；

(3b)在二维卷积层后加入空间注意力模块以融合全局和局部特征，增强特征表示；空间注意力模块使用两个模块来提取特征，所述两个模块分别为余弦和高斯欧几里得相似自注意力模块、尺度信息提取模块，使用余弦和高斯欧几里得相似自注意力模块提取全局特征，然后经过尺度信息提取模块提取局部特征；

(3c)余弦和高斯欧几里得相似自注意力模块的输入为二维卷积层的输出X∈R^s ^×s×c，其中，s×s为空间大小，c为通道数，将X的中心像素表示为X_i∈R^1X1×c，周围像素X_i，t＝[X_i，1，X_i，2，X_i，3，X_i，4，...，X_i，n]，n＝s×s；中心像素X_i和周围像素的高斯欧几里得相似性G_i，t和余旋相似性C_i，t的计算公式分别为：

其中，GESim(X_i，X_i，t)为计算高斯欧几里得相似性，CosSim(X_i，X_i，t)为计算余弦相似性，σ影响相似性衰减的速率；t为周围像素坐标的索引；当G_i，t和C_i，t的值趋近于1时，意味着x_i、x_i，t的相似性较高；反之，当值趋近于0量，相似性逐渐减小；

再利用softmax函数进一步归一化，由相应的相似性矩阵分别得到高斯欧氏距离自相似注意图GaEd∈R^s×s和余弦自相似注意图Cos∈R^s×s：

采用自适应权重相加以融合两个相似性注意力，增强空间信息的表示能力：

Weighted＝λ×GaEd+(1-λ)×Cos (5)

式中，Weighted∈R^s×s为融合相似性注意力，λ是一个初始值为0.5的加权参数，用于在模型优化时进行自适应优化；

最后将融合相似性注意力Weighted与输入X沿着光谱通道维度逐数相乘，得到与中心像素相关信息特征，得到最后的输出：

(3d)尺度信息提取模块通过1×1卷积分支和3×3卷积分支进一步提取空间局部特征：所述1×1卷积分支由一个卷积核1×1的二维卷积层、一个批归一化层以及Mish激活函数构成；所述3×3卷积分支则由一个卷积核3×3二维卷积层、一个批归一化层以及Mish激活函数组成；再通过逐元素加法运算的方式将1×1卷积分支和3×3卷积分支的不同特征进行融合，得到全局局部融合数据，实现对尺度信息的综合提取和互补；

(3e)为有效应对过拟合问题，将输入余弦和高斯欧几里得相似自注意力模块的X和尺度信息提取模块的输出进行残差连接，之后再进行特征融合，再将融合后的数据经过池化层进行全局二维平均池化得到一维空间特征。

所述步骤(4)具体包括以下步骤：

(4a)将光谱信息H_spe∈R^1×1×b输入Transformer模块得到光谱特征，首先将光谱信息H_spe与一个可学习的分类标记T^cls相连接，为区分每个波段的位置，增加位置编码PE_pos，得到最终的输入序列：

X_spe＝[T^cls，H_spe1，H_spe2，H_spe3，...，H_speb]+PE_pos (7)

再将X_spe输入多头注意力块MSA，所述多头注意力块MSA由多个注意力层SA堆叠而成，多头注意力块MSA的计算公式如下：

MSA(Q，K，V)＝Concat(SA₁，SA₂，SA₃，...，SA_i)W (9)

在SA中，输入序列X_spe被线性映射为Q，K，V三个矩阵，计算Q和K之间的相似性得到注意力权重，并将这些权重应用到V上，计算每个位置的上下文感知特征；d_K为K的维数，i是SA堆叠个数，W为权重矩阵，W是一个可学习的参数，用于适应不同的输入数据和任务；

(4b)将上一步学习得到的权重矩阵W输入到批归一化层和多层感知器层，批归一化层用于减少内部协变量偏移，而多层感知器层则进行进一步的非线性变换和特征组合，最终得到一维光谱特征。

所述步骤(5)具体包括以下步骤：

(5a)将得到得一维空间特征和一维光谱特征按水平方向进行拼接；

(5b)将拼接后的特征传递给一个多层感知器进行分类，多层感知器由输入层、一个包含128个神经元的隐层，以及输出层组成，输入层和隐层之间、隐层和输出层之间均采用全连接的结构，采用Relu激活函数对隐层和输出层进行非线性变换，最终输出层输出分类结果。

由上述技术方案可知，本发明的有益效果为：第一，本发明通过对高光谱图像作为研究对象，用双分支策略以在充分保持计算效率的同时减少计算量和节约成本；第二，本发明所提出的空间注意力机制探索中心像素和周围像素的相似性，提高了中心像素识别的准确性，增强了空间提取能力；第三，本发明所提出的空间注意力模块将全局空间特征与局部空间特征相融，提升了网络分类性能；第四，本发明利用Transformer能够捕捉数据中的长距离依赖关系和非线性关联，以提取光谱特征，从而增强了模型对光谱特征的理解能力。

附图说明

图1为本发明的整体框架图；

图2为本发明中的余弦和高斯欧几里得相似自注意力模块的工作流程图；

图3为本发明中空间注意力模块的结构示意图。

具体实施方式

如图1所示，一种基于Transformer和非局部神经网络双分支架构的高光谱图像分类方法，该方法包括下列顺序的步骤：

(2)对输入的高光谱图像H进行双分支处理：先将高光谱图像H通过主成分分析降维为H_pca∈R^h×w×b′，其中，b'为降维后的波段；再将H_pca裁剪成多个立方块H_sp，将多个立方块H_sp依次输入空间子网络；取H的光谱信息H_spe作为光谱子网络的输入；

所述步骤(3)具体包括以下步骤：

(3b)在二维卷积层后加入空间注意力模块以融合全局和局部特征，增强特征表示；空间注意力模块使用两个模块来提取特征，所述两个模块分别为余弦和高斯欧几里得相似自注意力模块和尺度信息提取模块，使用余弦和高斯欧几里得相似自注意力模块提取全局特征，然后经过尺度信息提取模块提取局部特征；

(3c)余弦和高斯欧几里得相似自注意力模块的输入为二维卷积层的输出X∈R^s ^×s×c，其中，s×s为空间大小，c为通道数，将X的中心像素表示为X_i∈R^1×1×c，周围像素X_i，t＝[X_i，1，X_i，2，X_i，3，X_i，4，...，X_i，n]，n＝s×s；中心像素X_i和周围像素的高斯欧几里得相似性G_i，t和余旋相似性C_i，t的计算公式分别为：

其中，GESim(X_i，X_i，t)为计算高斯欧几里得相似性，CosSim(X_i，X_i，t)为计算余弦相似性，σ影响相似性衰减的速率；t为周围像素坐标的索引；当G_i，t和C_i，t的值趋近于1时，意味着X_i、X_i，t的相似性较高；反之，当值趋近于0时，相似性逐渐减小；

Weighted＝λ×GaEd+(1-λ)×Cos (5)

所述步骤(4)具体包括以下步骤：

X_spe＝[T^cls，H_spe1，H_spe2，H_spe3，...，H_speb]+PE_pos (7)

MSA(Q，K，V)＝Concat(SA₁，SA₂，SA₃，...，SA_i)W (9)

所述步骤(5)具体包括以下步骤：

如图2所示，将余弦相似性和高斯欧几里得相似性相结合，这样能够更深入地探索中心像素与周围像素之间的关系。通过将这两种相似性相互融合，成功地解决了余弦相似性在处理特征绝对大小时的不敏感性问题。此外，高斯欧几里得相似性能够有效处理高维数据，从而缓解了高光谱数据因维度高而引起的问题，提高了模型的分类性能。

如图3所示，空间注意力模块的设计旨在充分提取全局空间信息和局部空间信息。全局空间信息有助于捕获整个图像的上下文信息，从而有助于模型理解图像的整体结构和分布。与此不同，局部空间信息则集中关注图像中的细节和微小变化，能够更好地区分具有相似光谱的不同地物。本发明的空间注意力模块成功地将全局和局部特征融合在一起，增强了特征的表达能力。

综上所述，本发明通过对高光谱图像作为研究对象，用双分支策略以在充分保持计算效率的同时减少计算量和节约成本。本发明所提出的空间注意力机制探索中心像素和周围像素的相似性，提高了中心像素识别的准确性，增强了空间提取能力。本发明所提出的空间注意力模块将全局空间特征与局部空间特征相融提升了网络分类性能。本发明利用Transformer能够捕捉数据中的长距离依赖关系和非线性关联，以提取光谱特征，从而增强了模型对光谱特征的理解能力。

Claims

1.一种基于Transformer和非局部神经网络双分支架构的高光谱图像分类方法，其特征在于：该方法包括下列顺序的步骤：

(2)对输入的高光谱图像H进行双分支处理：先将高光谱图像H通过主成分分析降维为H_pca∈R^h×w×b′，其中，b′为降维后的波段；再将H_pca裁剪成多个立方块H_sp，将多个立方块H_sp依次输入空间子网络；取H的光谱信息H_spe作为光谱子网络的输入；

2.根据权利要求1所述的基于Transformer和非局部神经网络双分支架构的高光谱图像分类方法，其特征在于：所述步骤(3)具体包括以下步骤：

(3c)余弦和高斯欧几里得相似自注意力模块的输入为二维卷积层的输出X∈R^s×s×c，其中，s×s为空间大小，c为通道数，将X的中心像素表示为X_i∈R^1×1×c，周围像素X_i，t＝[X_i，1，X_i,2，X_i，3，X_i,4，...，X_i,n】，n＝s×s；中心像素X_i和周围像素的高斯欧几里得相似性G_i,t和余旋相似性C_i，t的计算公式分别为：

其中，GESim(X_i，X_i,t)为计算高斯欧几里得相似性，CosSim(X_i，X_i,t)为计算余弦相似性，σ影响相似性衰减的速率；t为周围像素坐标的索引；当G_i，t和C_i，t的值趋近于1时，意味着X_i、X_i，t的相似性较高；反之，当值趋近于0时，相似性逐渐减小；

Weighted＝λ×GaEd+(1-λ)×Cos (5)

3.根据权利要求1所述的基于Transformer和非局部神经网络双分支架构的高光谱图像分类方法，其特征在于：所述步骤(4)具体包括以下步骤：

X_spe＝[T^cls，H_spe1，H_spe3，H_spe3，...，H_speb]+PE_pos (7)

MSA(Q，K，V)＝Concat(SA₁，SA₂，SA₃，...，SA_i)W (9)

4.根据权利要求1所述的基于Transformer和非局部神经网络双分支架构的高光谱图像分类方法，其特征在于：所述步骤(5)具体包括以下步骤：