CN113128471A

CN113128471A - 基于注意力机制和生成对抗网络的高光谱影像分类方法

Info

Publication number: CN113128471A
Application number: CN202110533010.1A
Authority: CN
Inventors: 吕欢欢; 张峻通; 张辉; 钱韫竹; 胡杨; 霍欣燃
Original assignee: Liaoning Technical University
Current assignee: Liaoning Technical University
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2021-07-16

Abstract

本发明提供一种基于注意力机制和生成对抗网络的高光谱影像分类方法，涉及高光谱图像处理与应用技术领域。本发明对高光谱影像数据集进行归一化、主成分分析，得到真实样本；将特征矩阵进行转置卷积运算后，生成的特征输入到联合的空间‑光谱联合注意力机制模块，得到生成样本；将真实样本和生成样本进行四次卷积，得到输入样本的层次特征；真实样本特征与生成器中相应的等尺寸特征相加，生成新的融合特征输入到联合的空间‑光谱联合注意力机制模块；将层次特征沿着光谱通道依次输入到ConvLSTM中，通过识别器中的softmax函数实现分类。本发明能有效提高生成样本的质量，通过使用生成的高质量样本，提高鉴别器的分类能力。

Description

基于注意力机制和生成对抗网络的高光谱影像分类方法

技术领域

本发明涉及高光谱图像处理与应用技术领域，尤其涉及一种基于注意力机制和生成对抗网络的高光谱影像分类方法。

背景技术

在过去的几十年中，高光谱数据的获取和收集变得更加方便和廉价。高光谱图像(HSI)是一个三维(3D)数据立方体，每个像素有数百个光谱带，每个光谱带对应一个2D图像。HSI包含了丰富的光谱信息和空间信息，HSI处理已被广泛应用于许多实际应用中，如军事、农业和天文学。HSI分类是这些应用的基础，这是通过给每个像素指定特定类别来实现的。它主要包括两个任务：有效特征的表示和高级分类器的设计。

对于传统方法，特征提取和分类器训练通常是分开进行的。提取特征有两种常见的可选方法：基于光谱的特征提取和空间-光谱特征提取。前者侧重于将高维HSI数据转换为低维空间，如主成分分析(PCA)、判别局部度量学习以及稀疏图学习。然而，仅从HSI中提取光谱信息很难实现准确的分类。因此，联合光谱-空间特征提取技术已成为一种新的趋势，如形态学滤波、低秩表示、基于超像素的方法等等。此外，许多有代表性的分类方法被提出，如基于稀疏表示的分类、决策树，支持向量机(SVM)以及随机森林。在这些分类器中，支持向量机的目标是寻找不同类别之间的最优可分离超平面，在解决小样本和高维问题时表现出鲁棒性。

在基于深度学习的方法中，特征提取和分类器训练可以同步实现。与传统方法相比，基于深度学习的方法不需要手工制作的特性和特定的领域知识。很多深度学习模型已用于HSI特征提取和分类，例如堆叠式自动编码器(SAE)，深度信念网络(DBN)和卷积神经网络(CNN)。

与SAE和DBN不同的是，CNN通过利用局部连接和通过共享权值来减少参数个数来获取空间相关性。近年来，一系列的CNN算法已经被开发用于HSI分类。然而，在有限的训练样本下，较深的CNN容易导致过度拟合。

生成式对抗网络(GAN)是解决小样本问题的另一个新前沿技术。GAN由一个生成器和一个鉴别器组成。前者侧重于生成近似真实的样本，后者侧重于区分输入是生成样本还是真实样本。GAN是通过对抗性训练的，通过交替优化鉴别器和生成器，最终获得了一个平衡。在这种情况下，生成器生成与实际样本具有最相似分布的样本，同时，该分类器获得了最佳的分类效果。GAN已经成功地应用于文本-图像合成，未来帧预测，图像-图像转换等等。

这些改进的GAN方法通过使用未标记样本或提取空谱特征来提高HSI的分类性能。然而，这些方法仅根据鉴别器的来判断是否更新生成器。鉴别器提供的引导信息是有限的，并且生成器不能直接访问真实的样本分布。因此，很难确保生成器总是根据真实的样本分布来进行更新。当涉及到具有高维特征的HSI数据时，生成的样本更难逼近具有复杂空间-光谱分布的真实样本，这可能进一步降低鉴别器的分类性能。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种基于注意力机制和生成对抗网络的高光谱影像分类方法，对高光谱遥感影像进行分类，提高高光谱遥感影像的分类精度。

为解决上述技术问题，本发明所采取的技术方案是：

一种基于注意力机制和生成对抗网络的高光谱影像分类方法，包括以下步骤：

步骤1：在鉴别器中输入高光谱影像数据集；

步骤2：对输入的高光谱影像数据集进行归一化处理，得到归一化后的高光谱影像数据集为：

其中，s为一个m行n列的高光谱影像的像素点个数，s＝m×n，p表示高光谱影像的波段数，a_sp表示第p个波段的第s个像素点；

步骤3：对归一化后的高光谱影像数据集进行主成分分析，提取高光谱影像的光谱特征，得到真实样本I，真实样本I的大小为r×r×d，r×r表示空间邻域窗口的大小，d表示光谱带的个数；

步骤3.1：计算归一化后高光谱影像数据集的协方差矩阵；

步骤3.2：求协方差矩阵的特征值和特征向量，进而得到第一主成分影像，并将得到真实样本I，其大小为27×27×20；

步骤4：将含有噪声和类标签y的特征矩阵转置为2×2×128的特征矩阵z，原特征矩阵的大小为1×1×512；

步骤5：将转置后的特征矩阵z进行转置卷积运算后，生成的特征表示为g(z,y)，g(z,y)∈{g¹(z,y),…,g^q(z,y),…,g^Q(z,y)}，其中1≤q≤Q，q为对应的卷积层数，Q为最大的转置次数；

步骤6：将g(z,y)输入到联合的空间-光谱联合注意力机制模块，得到生成样本L，具体方法为：

步骤6.1：将特征g(z,y)输入转化和掩码分支中，使用3×3卷积核后，运用softmax函数获取转换图M和掩模图θ；

步骤6.2：在转换图M和掩模图θ之间进行元素相减运算得到差分值映射，如下式所示，

(X-α)的不同值在[-1,1]范围内；其中X表示转换映射，X＝softmax(W_c*g(z,y))，W_c为转换分支的权重矩阵，*表示卷积算子；α表示掩模映射，α＝softmax(W_m*g(z,y))，W_m为掩模分支的权重矩阵；

步骤6.3：使用线性校正单元ReLU将差分值映射到非线性空间，生成空间-光谱注意力图A_atte；

步骤6.4：将特征g(z,y)输入原始分支，使用1×1卷积层得到原始特征映射F_ori，F_ori＝W₀*g(z,y)，W₀为原始分支的权重矩阵；

步骤6.5：通过对空间-光谱注意力图A_atte和原始特征映射F_ori进行Hadamard乘积，得到空间-光谱联合注意力机制模块的输出特征图O_output，O_output＝F_ori⊙RELU(X-θ)，其中，⊙表示Hadamard乘积；；

步骤6.6：将输出特征图O_output使用5×5反卷积，得到生成样本L；

步骤7：将真实样本I和生成样本L进行四次5×5卷积，得到输入样本的层次特征d(·)，由四个卷积层从真实样本I中提取的特征用d^j(x_i)＝{d¹(x_i),d²(x_i),d³(x_i),d⁴(x_i)}表示，其中x_i表示第i个训练样本，i∈[1,N]，N为训练样本总个数，j∈[1,4]；d¹(x_i)～d⁴(x_i)分别表示与生成的特征具有相同大小的鉴别器的四个真实样本特征；

步骤8：通过鉴别器中真实样本的特征d^j(x_i)与生成器中相应的等尺寸特征g^q(z,y)相加，生成新的融合特征

融合特征计算方式如下：

其中，j和q的取值均为1、2、3、4，

表示基于元素的求和操作；

步骤9：将步骤8得到的融合特征

矩阵输入到步骤6中；

步骤10：将层次特征d(·)沿着光谱通道依次输入到卷积长短期记忆神经网络ConvLSTM中，利用存储单元捕捉光谱波段间的依赖关系，使用遗忘门和输入门中的卷积算子提取空间信息，具体操作如下：

步骤10.1：层次特征d(·)沿着光谱通道被划分成R个3D立方体(d(·)¹,…,d(·)^r,…d(·)^R)，其中，d(·)^r表示第r个3D立方体，R是立方体的总数目，(d(·)¹,…,d(·)^r,…d(·)^R)沿着光谱通道用于顺序输入ConvLSTM，利用存储单元捕捉光谱波段间的依赖关系，利用遗忘门和输入门中的卷积算子提取出空间-光谱信息矩阵T；

步骤10.1.1：在r时刻，d(·)^r被输入ConvLSTM，r∈[1,R]；

步骤10.1.2：当前存储单元c^r通过计算输入d(·)^r、在r-1时刻的存储单元c^r-1、在r-1时刻的隐藏状态h^r-1来更新，而当前隐藏状态h^r通过遗忘门f^r、输入门i^r和输出门o^r来计算；

步骤10.1.3：在r+1时刻，由r时刻的隐藏状态h^r和r+1时刻的d(·)^r+1输入来计算所输出的o^r+1；r+1时刻的存储单元c^r+1和隐藏状态h^r+1使用在r时刻步骤10.1.1的更新方式进行更新；

步骤10.1.4：通过前一个单元到下一个单元的递归，提取出光谱依赖关系；

步骤10.1.5：在每一时刻，通过输入门与当前时刻的卷积运算和遗忘门与之前隐藏状态的卷积运算，提取出空间信息；

步骤10.1.6：通过在卷积过程的填充操作，其中卷积核的大小为2×2，在ConvLSTM层之后添加一个全连接的层，得到空间-光谱信息矩阵T；

步骤10.2：通过识别器中的softmax函数实现分类，其中softmax函数预测输入样本的类标签y∈{1,2,…,K,K+1}；在这个过程中，鉴别器的目标函数是尽可能将真实样本分类为K类，将生成的样本分类为K+1类。

采用上述技术方案所产生的有益效果在于：本发明提供的基于注意力机制和生成对抗网络的高光谱影像分类方法，在融合协同学习和注意力机制的生成式对抗网络中，协同学习的目的是提供真实的样本信息，这有助于在生成器中生成新的样本。在鉴别器中加入真实多类样本由浅到深的特征，从而实现了协同学习。因此，生成器通过与鉴别器协作和竞争来学习真实样本的分布。此外，该生成器利用动态激活函数和基于多分支卷积网络的元素减法运算，设计了一个空间-光谱联合注意力机制模块，它消除了生成样本的一些误导和混淆特征，进一步提高了生成样本的质量。此外，将卷积长短期记忆神经网络层融合到鉴别器中，以提取空间特征并捕获光谱带之间的光谱依赖性。最后，采用训练好的融合协同学习和注意力机制的生成式对抗网络鉴别器进行高光谱图像分类。通过使用生成的高质量的样本，提高了鉴别器的分类能力。

附图说明

图1为本发明实施例提供的基于注意力机制和生成对抗网络的高光谱影像分类方法的流程图；

图2为本发明实施例提供的仿真实验选取的高光谱影像数据集的伪彩色影像；

图3为本发明实施例提供的仿真实验选取的高光谱影像数据集的地面参考数据；

图4为本发明实施例提供的各种算法对Pavia University数据集进行分类的结果图；其中，(a)为采用SAE方法的分类结果图，(b)为采用PPF-CNN方法的分类结果图，(c)为采用3D-GAN方法的分类结果图，(d)为采用本发明的CA-GAN方法的分类结果图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本实施例以某高光谱遥感影像为例，使用本发明的一种基于注意力机制和生成对抗网络的高光谱影像分类方法对该高光谱遥感影像中的地物进行分类。

如图1所示，本实施例的方法如下所述。

步骤1：在鉴别器中输入高光谱数据数据集。

本实施例中，Pavia University数据集于2002年在意大利北部获得。它由610×340像素和115个光谱波段组成，包括9个类。本实施例对去除12个噪声带后的103个谱带进行了分析。相应地，图2给出了该场景的伪彩色图像以及训练和测试样本的空间分布。图3给出了高光谱图像数据集的地面参考数据。

其中，s为一个m行n列的高光谱影像的像素点个数，s＝m×n，p表示高光谱影像的波段数，a_sp表示第p个波段的第s个像素点。

步骤3：对归一化后的高光谱影像数据集进行主成分分析，提取高光谱影像的光谱特征，得到真实样本I，真实样本I的大小为r×r×d，r×r表示空间邻域窗口的大小，d表示光谱带的个数。

步骤3.1：计算归一化后高光谱影像数据集的协方差矩阵。

步骤3.2：求协方差矩阵的特征值和特征向量，进而得到第一主成分影像，并将得到真实样本I，其大小为27×27×20。

步骤4：将含有噪声和类标签y的特征矩阵转置为2×2×128的特征矩阵z，原特征矩阵的大小为1×1×512。

步骤5：将转置后的特征矩阵z进行转置卷积运算后，生成的特征表示为g(z,y)，g(z,y)∈{g¹(z,y),…,g^q(z,y),…,g^Q(z,y)}，其中1≤q≤Q，q为对应的卷积层数，Q＝4为最大的转置次数。

步骤6.1：将特征g(z,y)输入转化和掩码分支中，使用3×3卷积核后，运用softmax函数获取转换图M和掩模图θ。

(X-α)的不同值在[-1,1]范围内；其中X表示转换映射，X＝softmax(W_c*g(z,y))，W_c为转换分支的权重矩阵，*表示卷积算子；α表示掩模映射，α＝softmax(W_m*g(z,y))，W_m为掩模分支的权重矩阵。

步骤6.3：使用线性校正单元ReLU将差分值映射到非线性空间，生成空间-光谱注意力图A_atte。

步骤6.4：将特征g(z,y)输入原始分支，使用1×1卷积层得到原始特征映射F_ori，F_ori＝W₀*g(z,y)，W₀为原始分支的权重矩阵。

步骤6.5：通过对空间-光谱注意力图A_atte和原始特征映射F_ori进行Hadamard乘积，得到空间-光谱联合注意力机制模块的输出特征图O_output，O_output＝F_ori⊙RELU(X-θ)，其中，⊙表示Hadamard乘积；O_output大小分别为2×2×128、4×4×64、7×7×32、14×14×16。特征矩阵z进行四次转置卷积运算，所以g(z,y)∈{g¹(z,y),g²(z,y),g³(z,y),g⁴(z,y)}对于O_output也是4个值，另一方面，F_ori和RELU(X-α)都有四个值，他们的Hadamard乘积得到的v也有四个值。

步骤6.6：将输出特征图O_output使用5×5反卷积，得到生成样本L，生成样本L的矩阵大小为27×27×20。

步骤7：将真实样本I和生成样本L进行四次5×5卷积，得到输入样本的层次特征d(·)，由四个卷积层从真实样本I中提取的特征用d^j(x_i)＝{d¹(x_i),d²(x_i),d³(x_i),d⁴(x_i)}表示，其中x_i表示第i个训练样本，i∈[1,N]，N为训练样本总个数，j∈[1,4]；d¹(x_i)～d⁴(x_i)分别表示与生成的特征具有相同大小的鉴别器的四个真实样本特征，尺寸分别为14×14×16、7×7×32、4×4×64，2×2×128。

融合特征计算方式如下：

其中，j和q的取值均为1、2、3、4，

表示基于元素的求和操作。

步骤9：将步骤8得到的融合特征

矩阵输入到步骤6中；

步骤10.1.1：在r时刻，d(·)^r被输入ConvLSTM，r∈[1,R]；

步骤10.1.6：通过在卷积过程的填充操作，其中卷积核的大小为2×2，在ConvLSTM层之后添加一个全连接的层，得到空间-光谱信息矩阵T，其大小为1×1×512；

步骤10.2：通过识别器中的softmax函数实现分类，其中softmax函数预测输入样本的类标签y∈{1,2,…,9,10}；在这个过程中，鉴别器的目标函数是尽可能将真实样本分类为9类，将生成的样本分类为10类。

本实施例中，为了验证本发明基于注意力机制和生成对抗网络的高光谱影像分类方法(简称为CA-GAN方法)的有效性，使用了三种具有代表性的HSI分类方法对PaviaUniversity数据集进行分类比较，三种HSI分类方法包括SAE、PPF-CNN、3D-GAN。在实验中，输入数据集的大小会影响分类的性能。为了进行公平比较，所有的比较算法都使用它们的最优参数。随机抽取一定数量的带标签数据进行网络训练。训练样本和测试样本数量如表1所示。

表1 Pavia University数据集每个类提供训练和测试样本

表2为采用各种方法的分类结果，其中对应方法中最准确的结果采用下划线标记，OA为总体精度，AA为平均精度。如表2所示，3D-GAN方法仅在金属板地物上能够实现完全正确分类。CA-GAN对柏油路面和沥青路面的分类效果都有十分明显的改善。在沥青路面地物上，与PPF-CNN相比，CA-GAN至少提高了5.78％。对于柏油路面，与其他3种方法相比，CA-GAN准确率分别提高了16.8％、14.62％、15.72％，CA-GAN对所有类别的分类准确率均在94％以上。此外，CA-GAN在三个评价指标中表现出最好的分类性能。

表2 Pavia University数据集上各种算法的分类准确率

类别	SAE	PPF-CNN	3D-GAN	CA-GAN
					1	92.14	93.29	98.54	99.07
2	93.47	94.22	99.87	99.59
					3	80.45	88.40	95.34	94.27
4	98.17	99.57	94.21	99.67
					5	97.05	97.05	100.0±0.0	100.0±0.0
6	89.98	92.48	95.54	99.97
					7	82.75	84.93	83.83	99.55
8	80.29	85.25	91.53	96.28
					9	99.00	99.00	95.68	99.86
OA(％)	91.33	93.01	97.21	99.04
					AA(％)	90.39	92.69	94.95	98.69
Kappa(％)	88.38	90.63	96.26	98.72

在图4中，SAE和PPF-CNN方法在裸土类地物上出现错误分类，CA-GAN在这一类别中表现出更大的区域一致性。由于光谱特征与柏油路面类地物相似，许多沥青路面类地物在其它3种方法中被错误分类，而CA-GAN改进了这两个地物的分类性能。此外，CA-GAN算法在阴影类地物中具有更好的边界完整性，在砾石和砖块类地物中具有更好的区域均匀性。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。