CN113139512B

CN113139512B - 基于残差和注意力的深度网络高光谱影像分类方法

Info

Publication number: CN113139512B
Application number: CN202110526282.9A
Authority: CN
Inventors: 吕欢欢; 胡杨; 张辉; 白爽; 黄煜铖
Original assignee: Liaoning Technical University
Current assignee: Liaoning Technical University
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2023-09-29
Anticipated expiration: 2041-05-14
Also published as: CN113139512A

Abstract

本发明公开一种基于残差和注意力的深度网络高光谱影像分类方法，该方法首先将高光谱图像原始数据集进行波段划分和归一化处理，得到高光谱影像数据集；再通过主成分分析方法提取数据集的第一主成分影像作为引导图像；从中选择一定像素的邻域作为输入样本，并进行三维操作，对各个波段进行批处理，提取三维的特征张量；对三维的特征张量进行二维操作，提取更精细的空间特征；再进入一维操作，获得嵌入特征。最后将获得的嵌入特征和对应的空间特征分别输入包含D²CEL损失函数的原型网络分类器中进行分类，得到预测结果。本发明不仅优化了高光谱空间分类模块的设计和应用，提高了深度模型的泛化能力；还产生了更多的区别特征，实现了更精确的HIS分类。

Description

基于残差和注意力的深度网络高光谱影像分类方法

技术领域

本发明涉及高光谱图像处理与应用技术领域，尤其涉及一种基于残差和注意力的深度网络高光谱影像分类方法。

背景技术

高光谱图像(HSI)分类是通过为每个像元分配单个标签来区分不同的地物，在森林勘察、城市检测和土地覆盖制图等领域得到了广泛应用。然而，由于HSI的固有特征，如相对有限的标记样本、高维度和光谱特征的空间变异性等，使得HIS的高精度分类仍然是一个具有挑战性的任务。通常，高维是由众多的光谱波段引起的，但由于空间信息相似，相邻频带之间存在大量的冗余信息，并且标记通常是昂贵的、费力的、耗时的，这就产生了维数诅咒(即休斯现象)，增加了训练数据的过拟合的风险，导致分类模型的泛化能力较差。考虑到这一问题，研究了特征提取来减少数据维数，并在分类决策前捕获可区分的图像特征。

典型的特征提取(FE,feature extraction)方法包括主成分分析、局部线性嵌入和线性判别分析。其中，主成分分析因其简单有效而被广泛应用于预处理。例如，在分类框架的第一阶段进行分类，以提取明显的特征，同时减少数据冗余。近年来，深度学习算法因其优异的性能在HSI分类中得到了发展和应用。与传统的分类模型相比，深度学习最显著的特点是在端到端的层次结构框架中学习高级特征。这样，提取的特征更加细化和有代表性，有利于进一步分类问题的解决。用于HSI分类的表示网络包括堆叠自编码器、深度信念网络和卷积神经网络。特别地，卷积神经网络可以利用拥有局部接受野的优势，提取出具有较少可训练参数的有效不变特征。然而，上述模型的输入样本都是一维的(平坦斑块或光谱向量)，这导致了FE 相位不可避免的空间信息丢失。最重要的是，光谱特征的空间变异性所造成的问题并没有得到解决。

发明内容

针对上述现有技术的不足，本发明提供一种基于残差和注意力的深度网络高光谱影像分类方法。

为解决上述技术问题，本发明所采取的技术方案是：基于残差和注意力的深度网络高光谱影像分类方法，包括如下步骤：

步骤1：输入待分类的高光谱图像原始数据集；

步骤2：对输入的高光谱图像原始数据集进行波段划分和归一化处理，得到高光谱影像数据集，具体如下：

其中，s＝m×n为一个m行n列的高光谱影像的像素点个数，p表示高光谱影像的波段数，xsp表示第p个波段的第s个像素点；

步骤3：通过主成分分析方法提取高光谱影像数据集的光谱特征，并获取第一主成分影像作为引导图像I，过程如下：

步骤3.1：计算归一化后的高光谱影像数据集的协方差矩阵，过程如下：

步骤3.1.1：计算第j个波段所有像素的均值，如下公式所示：

其中，1≤t≤s，1≤j≤p，为第j个波段所有像素的均值，x_tj表示第j个波段的第t个像素点值；

步骤3.1.2：计算高光谱图像数据集第j个波段的协方差矩阵，如下公式所示：

其中，T为转置运算，x_t表示第t个像素点。

步骤3.2：求协方差矩阵的特征值和特征向量，以此获取第一主成分影像，将第一主成分影像作为引导图像，过程如下：

步骤3.2.1：对协方差矩阵进行特征值分解，求取协方差矩阵的特征值λ₁≥λ₂≥…≥λ_q和对应的特征向量D＝[α₁,α₂,…,α_q]；

步骤3.2.2：通过特征值λ₁对应的特征向量α₁得到第一主成分分量，将第一主成分分量与高光谱影像数据集X相乘，得到第一主成分影像，如下公式所示：

其中，I为引导图像，X为输入的高光谱影像数据。

步骤4：从引导图像I中选择像素K×K×B的邻域作为输入样本X'＝{x₁,x₂,…,x_N}，其中， K为区域宽度，B为主波段个数，N为训练样本数，存在于输入样本中，对应的标签Y＝{y₁,y₂,…,y_N}被标记为中心像素，标签对应各输入样本的类别信息；

步骤5：通过步骤4得到的输入样本X'进行三维操作，对各个波段进行批处理，提取三维的特征张量过程如下：

步骤5.1：样本X'通过三维卷积层3DCONV，为加速训练过程，选择线性整流函数ReLU (Rectified Linear Unit)作为激活函数，并在ReLU函数前使用批量归一化BN(BatchNormalization) 方法，具体过程如下：

步骤5.1.1：选择X'的第i层的输入特征为Xⁱ，BN变换如下公式：

其中，E[·]和Var[·]分别为期望函数和方差函数，是对应的归一化结果；

期望函数E[·]公式如下：

其中，P(·)为概率分布函数，X为随机变量；

方差函数Var[·]公式为μ为平均值，E[·]为期望函数。

步骤5.1.2：批量归一化完成，以ReLU作为激活函数，得到3DCONV的运算如下所示：

其中，v表示特征映射的值，(x,y,z)是第i层中第j个特征映射的位置索引，(τ,σ,δ)是核的索引，c是与前一层中连接的特征数量，b是偏差，g[·]是激活函数，为第i层中第j 个位置为(x,y,z)的特征映射的值，h_i为卷积核的高度，w_i为卷积核的宽度，d_i为卷积核在光谱维度的维数，/>为第c个特征中第(τ,σ,δ)个神经元的权重值，/>为第i-1层中第c个特征中位置为(x+τ,y+σ,z+δ)的特征映射的值；当选择ReLU作为激活函数，可以表示为g(x)＝max(0,x)，x是输入。

步骤5.2：X^R为特征映射v的集合，为增强重要特征，减少无用特征，在三维操作中添加混合残差注意力HRA(Hybrid Residual Attention)模块中的显著残差频带注意模块RBAM (Residual Band Attention Module)，过程如下：

步骤5.2.1：选择第(l-1)层中一组表示为X^R∈R^H×W×D×C的特征，其中，l是随机变量，是所有层数中的某一层，包括尺寸为H×W×D的C个特征立方体，H、W、D分别是特征立方体的高度、宽度和深度；然后，通过3DCONV、BN、ReLU和3DCONV操作依次获得表示为特征张量X^I的夹层；

步骤5.2.2：为了计算深度维度D上的注意力权重，将特征张量X^I重构为特征立方体其中R^H×W×(D×C)表示尺寸为H×W的(D×C)个特征立方体的集合，以便于后续计算；在第一层重构层Reshape中，/>被重写为以下矩阵栈：

其中，b＝{1,...,D,...,D×C}；

步骤5.2.3：利用全局平均池的方法将全局空间信息压缩到一个频带描述量中，带宽统计量Z∈R^1×(D×C)，表示为：

其中，B_b(i,j)为X^I中第b条带在位置(i,j)处的值，Z_b为第b条带所有B_b的值求和取均值；

步骤5.2.4：在第二层重构层中，将带宽统计量Z变换为矩阵V＝[v1,v2,...,v_C]∈R^C×D；然后，通过残差模块与注意机制相结合的函数A(F(·))，得到注意权重向量栈：

A(F(X_l-1))＝[a₁，a₂，...,a_c，...a_C]∈R^C×D，a_c＝Φ(W_Ug(W_Dv_c))

其中，F(X_l-1)表示非线性变换的复合函数，它可以是卷积(CONV)、汇集、校正线性单位(ReLU)和批量归一化(BN)等运算的复合函数，c＝{1,2,...,C}，g(·)是ReLU激活函数， W_D是第一个完全连接层的权重，它以缩减率r作为频带缩减，W_U是第二个完全连接层的权重，它以相同的增加率r作为频带扩展，sigmoid函数Φ(·)用作门控机制来控制从0到1范围内的注意力权重值，然后通过元素积得到显著带统计量公式如下：

其中，c＝{1，2，...，C}，d＝{1，2，...，D}，是Xⁱ第c个要素立方体的第D张图，a_cd是A(F(X_l-1))的第c列和第D行，最后，有RBAM的输出：

其中，为三维的特征向量。

步骤6：通过步骤5得到的三维的特征张量进行二维操作，对各个波段进行批处理，提取更精细的空间特征/>过程如下：

步骤6.1：特征张量通过带BN的卷积层和ReLU激活函数，完成批量归一化,并通过Reshape重构层，BIN具体方法为：

步骤6.1.1：为获得深度维度的注意力权重，需要进行二维操作，将重构为 X^r∈R^E×F×G，其中E和F分别为特征图的高度和宽度，G为通道数；

步骤6.2：已得输入张量X^r，通过二维卷积层2DCONV、BN、ReLU、2DCONV实现归一化，得到层间Xⁱ∈R^E×F×G，为增强重要特征，减少无用特征，在二维操作中添加 HRA模块中的残差空间模块RSAM(Residual Spatial Attention Module)，具体方法如下：

步骤6.2.1：假设其中e＝{1,2,...,E}，f＝{1,2,...,F}，通过权值W_bs∈R^1×1×G×1的卷积运算U＝W_bs*Xⁱ对频带信息进行压缩，然后利用sigmoid函数得到空间注意力掩码，则可得到/>公式如下：

其中，(e，f)是注意力掩模和给定特征图的相应空间位置，最后，RSAM的输出为：

步骤7：通过步骤6获得进入一维操作部分；通过归一化、池化层、全连接层，获得嵌入特征；

步骤8：进入决策阶段，将获得的嵌入特征和对应的空间特征作为训练样本分别输入包含D²CEL损失函数的原型网络分类器中，在训练过程中，以端到端的方式从训练数据中迭代学习网络的最优参数θ和原型H，将提取的判别特征与嵌入空间中学习的原型进行比较来确定预测标签，过程如下：

步骤8.1：设x表示一个特征向量，y是对应的类别，共有k个类别；确定训练集 F＝{(x₁,y₁),...(x_n,y_n)}，S_k代表类别为k的数据集合；求类型的原型表示h_k，方法如下：

步骤8.1.1：类别的原型表示h_k是对训练集中的所有的向量化样例数据取均值得到的：

其中，|S_k|表示类k中样本的数量，(x_i，y_i)为样本的特征向量和标记，f(θ,x_i)为嵌入特征，θ为最优参数，x_i为某个训练样本；

步骤8.2：获取基于距离的交叉熵损失：由于所提取的特征与第j个原型h_j的相似度与距离成反比，x属于第j类的概率可以表示为：

其中，d(f(θ,x),h_j)为嵌入特征f(θ,x)与原型h_j之间的距离，α为坡度参数；与交叉熵损失函数类似，基于距离的交叉熵损失DCEL定义为：

其中，1{j＝y}为指示函数，H为原型h_j的集合，M为原型的总数；若j等于训练样本的实际标号，其值为1；否则，其值为0；

步骤8.3：为了进一步增强类内紧性，获取判别损失DL作为正则化约束，定义为：

其中，h_y是类y对应的原型，而h_cl是离错误类最近的原型；当DL最小时，d(f(θ,x),h_y) 减小，d(f(θ,x),h_cl)增大f(θ,x)，实现了拉近与相应的原型的距离，从而远离了消极原型；

步骤8.4：将DCEL和DL结合起来，网络中使用的D²CEL可以总结为:

其中，γ是影响DL权重的正则化系数；

步骤8.5：测试过程中，将测试集中的样本的嵌入特征与学习原型之间的距离进行比较，得到预测标签，从而完成分类；

其中，测试样本的嵌入特性/>与学习原型h_j之间的距离进行比较并决策的过程用下式表示：

其中，是测试样本/>的预测标签。

采用上述技术方案所产生的有益效果在于：

1、本发明提供的基于残差和注意力的深度网络高光谱影像分类方法与现有的高光谱空间分类方法相比，优化了高光谱空间分类模块的设计和应用，提高了深度模型的泛化能力；

2、本发明提供的基于残差和注意力的深度网络高光谱影像分类方法与现有的高光谱空间分类方法相比，本发明采用了深度原型网络(DPN-HRA)并采用了D²CEL损失函数，以产生更多的区别特征，实现了更精确的HIS分类。

附图说明

图1为本发明实施例中基于残差和注意力的深度网络高光谱影像分类方法的流程图；

图2为本发明实施例中高光谱影像数据集的伪彩色影像示意图；

图3为本发明实施例中高光谱影像数据集的地面参考数据；

图4为本发明实施例中采用四种方法进行仿真实验的分类结果图，其中，(a)为采用 SVM-RBF方法的分类结果；(b)为采用2-D CNN方法的分类结果；(c)为采用3-D CNN 方法的分类结果；(d)为采用本发明方法的分类结果。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1所示，本实施例中基于残差和注意力的深度网络高光谱影像分类方法如下所述：

步骤1：输入待分类的高光谱图像原始数据集；

本实施例中，选取的数据集是由反射光学光谱仪传感器捕获的帕维亚大学(UP)的城市场景。去除噪声波段后，剩下103个波段，覆盖范围从0.43到0.86μm。图像场景有610×340 像素，空间分辨率为1.3m。图像中包含9个带标签的类，如图3所示。

步骤2：对输入的高光谱图像原始数据集进行波段划分和归一化处理，得到高光谱影像数据集，其高光谱影像数据集的伪彩色影像如图2所示，具体如下：

步骤3.1.1：计算第j个波段所有像素的均值，如下公式所示：

其中，T为转置运算，x_t表示第t个像素点。

其中，I为引导图像，X为输入的高光谱影像数据。

步骤4：从引导图像I中选择像素K×K×B的邻域作为输入样本X'＝{x₁,x₂,…,x_N}，其中，K为区域宽度，B为主波段个数，N为训练样本数，存在于输入样本中，对应的标签 Y＝{y₁,y₂,…,y_N}被标记为中心像素，标签对应各输入样本的类别信息；

期望函数E[·]公式如下：

其中，P(·)为概率分布函数，X为随机变量；

方差函数Var[·]公式为μ为平均值，E[·]为期望函数。

其中，b＝{1,...,D,...,D×C}；

其中，为三维的特征向量。

其中，h_y是类y对应的原型，而h_cl是离错误类最近的原型；当DL最小时，d(f(θ,x),h_y) 减小，d(f(θ,x),h_cl)增大f(θ,x)，实现了拉近与相应的原型的距离，从而远离了消极原型；因此，所提取的特征在同一类内更紧凑，与其他类相分离，而后者又间接提高了类的内紧性。

步骤8.4：将DCEL和DL结合起来，网络中使用的D²CEL可以总结为:

其中，γ是影响DL权重的正则化系数；

其中，是测试样本/>的预测标签。

本实施例中还给出了采用本发明方法、SVM-RBF方法、2D-CNN方法及3D-CNN四种不同方法对UP数据集进行分类的对比，各方法对应的各类地物分类精度如表1所示，采用各方法对各类地物分类结果的OA(总体分类精度)、AA(平均分类精度)和Kappa系数统计结果如表2所示，图4给出了各分类方法随机一次的分类结果图。其中，本发明方法的分类结果OA、AA和Kappa系数分别约为：93.61％、92.57％和91.48％，相比SVM-RBF、 2D-CNN和3D-CNN方法的分类结果均有所提高，OA分别提高了约：13.41％、7.82％和 7.49％。AA分别提高了约：13.88％、11.06％和10.47％；Kappa系数分别提高了约：16.92％、 9.93％和9.25％，可见采用本发明的方法同时获取了9个最佳类别的地物分类精度。

表1采用不同分类方法的分类结果统计表

/>

表2采用不同分类方法的分类结果OA、AA和Kappa统计表

	SVM-RBF	2D-CNN	3D-CNN	本发明方法
					总体精度OA	80.20	85.79	86.12	93.61
平均精度AA	78.69	81.51	82.10	92.57
					Kappa	74.56	81.55	82.23	91.48

Claims

1.一种基于残差和注意力的深度网络高光谱影像分类方法，其特征在于，包括如下步骤：

步骤1：输入待分类的高光谱图像原始数据集；

步骤3：通过主成分分析方法提取高光谱影像数据集的光谱特征，并获取第一主成分影像作为引导图像I；

步骤4：从引导图像I中选择像素K×K×B的邻域作为输入样本X'＝{x₁,x₂,…,x_N}，其中，K为区域宽度，B为主波段个数，N为训练样本数，存在于输入样本中，对应的标签Y＝{y₁,y₂,…,y_N}被标记为中心像素，标签对应各输入样本的类别信息；

步骤5：通过步骤4得到的输入样本X'进行三维操作，对各个波段进行批处理，提取三维的特征张量

步骤6：通过步骤5得到的三维的特征张量进行二维操作，对各个波段进行批处理，提取更精细的空间特征/>

步骤8：进入决策阶段，将获得的嵌入特征和对应的空间特征作为训练样本分别输入包含D²CEL损失函数的原型网络分类器中，在训练过程中，以端到端的方式从训练数据中迭代学习网络的最优参数θ和原型H，将提取的判别特征与嵌入空间中学习的原型进行比较来确定预测标签。

2.根据权利要求1所述的基于残差和注意力的深度网络高光谱影像分类方法，其特征在于，所述步骤3的过程如下：

步骤3.1：计算归一化后的高光谱影像数据集的协方差矩阵；

步骤3.2：求协方差矩阵的特征值和特征向量，以此获取第一主成分影像，将第一主成分影像作为引导图像。

3.根据权利要求2所述的基于残差和注意力的深度网络高光谱影像分类方法，其特征在于，所述步骤3.1的过程如下：

步骤3.1.1：计算第j个波段所有像素的均值，如下公式所示：

其中，1≤t≤s，1≤j≤_p，为第j个波段所有像素的均值，x_tj表示第j个波段的第t个像素点值；

其中，T为转置运算，x_t表示第t个像素点。

4.根据权利要求2所述的基于残差和注意力的深度网络高光谱影像分类方法，其特征在于，所述步骤3.2的过程如下：

其中，I为引导图像，X为输入的高光谱影像数据。

5.根据权利要求1所述的基于残差和注意力的深度网络高光谱影像分类方法，其特征在于，所述步骤5的过程如下：

步骤5.1：样本X'通过三维卷积层3DCONV，为加速训练过程，选择线性整流函数ReLU作为激活函数，并在ReLU函数前使用批量归一化BN方法，具体过程如下：

其中，v表示特征映射的值，(x,y,z)是第i层中第j个特征映射的位置索引，(τ,σ,δ)是核的索引，c是与前一层中连接的特征数量，b是偏差，g[·]是激活函数，为第i层中第j个位置为(x,y,z)的特征映射的值，h_i为卷积核的高度，w_i为卷积核的宽度，d_i为卷积核在光谱维度的维数，/>为第c个特征中第(τ,σ,δ)个神经元的权重值，/>为第i-1层中第c个特征中位置为(x+τ,y+σ,z+δ)的特征映射的值；

步骤5.2：X^R为特征映射v的集合，为增强重要特征，减少无用特征，在三维操作中添加混合残差注意力HRA模块中的显著残差频带注意模块RBAM。

6.根据权利要求5所述的基于残差和注意力的深度网络高光谱影像分类方法，其特征在于，所述步骤5.2的过程如下：

其中，b＝{1,...,D,...,D×C}；

其中，F(X_l-1)表示非线性变换的复合函数，c＝{1,2,...,C}，g(·)是ReLU激活函数，W_D是第一个完全连接层的权重，它以缩减率r作为频带缩减，W_U是第二个完全连接层的权重，它以相同的增加率r作为频带扩展，sigmoid函数Φ(·)用作门控机制来控制从0到1范围内的注意力权重值，然后通过元素积得到显著带统计量公式如下：

其中，为三维的特征向量。

7.根据权利要求6所述的基于残差和注意力的深度网络高光谱影像分类方法，其特征在于，所述步骤6的过程如下：

步骤6.1：特征张量通过带BN的卷积层和ReLU激活函数，完成批量归一化,并通过Reshape重构层，具体方法为：

步骤6.1.1：为获得深度维度的注意力权重，需要进行二维操作，将重构为X^r∈R^E ^×F×G，其中E和F分别为特征图的高度和宽度，G为通道数；

步骤6.2：已得输入张量X^r，通过二维卷积层2DCONV、BN、ReLU、2DCONV实现归一化，得到层间Xⁱ∈R^E×F×G，为增强重要特征，减少无用特征，在二维操作中添加HRA模块中的残差空间模块RSAM，具体方法如下：

8.根据权利要求1所述的基于残差和注意力的深度网络高光谱影像分类方法，其特征在于，所述步骤8的过程如下：

步骤8.1：设x表示一个特征向量，y是对应的类别，共有k个类别；确定训练集F＝{(x₁,y₁),...(x_n,y_n)}，S_k代表类别为k的数据集合；求类型的原型表示h_k，方法如下：

其中，h_y是类y对应的原型，而h_cl是离错误类最近的原型；当DL最小时，d(f(θ,x),h_y)减小，d(f(θ,x),h_cl)增大f(θ,x)，实现了拉近与相应的原型的距离，从而远离了消极原型；

步骤8.4：将DCEL和DL结合起来，网络中使用的D²CEL可以总结为:

J_D2CEL(θ,H)＝J_DCEL(θ,H)+γJ_DL(θ,H)

其中，γ是影响DL权重的正则化系数；

其中，是测试样本/>的预测标签。