CN115222994A

CN115222994A - 一种基于混合光谱网络和多头自注意力机制的高光谱图像分类方法

Info

Publication number: CN115222994A
Application number: CN202210964463.4A
Authority: CN
Inventors: 费书宇; 周蕴浩
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2022-08-12
Filing date: 2022-08-12
Publication date: 2022-10-21

Abstract

本发明公开了一种基于混合光谱网络和多头自注意力机制的高光谱图像分类方法，包括：构建整体网络，包括空间和光谱特征提取网络、多头自注意力模块和改进的混合光谱网络模块；进行空间和光谱特征提取，提取到高光谱图像层次化的特征；多头自注意力模块通过拼接不同头部所获取的注意力权重来构建像素点的全局空间和光谱依赖关系；改进的混合光谱网络模块可以增加相邻层之间的对角相关性，减少训练参数；将输出经过全局池化送入分类器中进行最终分类，并输出结果。本发明通过引入多头自注意力机制来获取丰富的空间和光谱特征，并加入改进的混合光谱网络减少训练参数，降低网络复杂度，从而提高了分类精度，保证了良好稳定的分类效果。

Description

一种基于混合光谱网络和多头自注意力机制的高光谱图像分类方法

技术领域

本发明属于高光谱遥感图像处理技术领域，具体涉及一种基于混合光谱网络和多头自注意力机制的高光谱图像分类方法。

背景技术

高光谱图像(HSI,HyperSpectral Images)近些年来在各种遥感领域如目标检测、农业监测、海洋安全等方面具有重大应用，高光谱图像不同于常规的二维数字图像，它是一个三维立方体数据，由二维数字图像和一维光谱维度组成。光谱波段包含着丰富的地理特征信息，因此，特征选择和特征提取对于高光谱像素点分类尤为重要。以往对高光谱图像常用分类方法包括：K最近邻(K-NN,K Nearest Neighbour)，极端学习机(ELM,ExtremeLearning Machine)以及支持向量机(SVM,Support Vector Machine)等。它们都是借助光谱信息进行分类，K近邻是机器学习领域最简单的分类器；而极端学习机是一种新型的快速学习算法，对于单隐层的神经网络，ELM可以随机初始化输入权重和偏置并得到相应的输出权重。支持向量机(SVM)则是通过小样本数据训练来追求对模型的最佳逼近，来获得模型复杂度和学习能力之间的最佳平衡点，是广泛应用的机器学习算法之一。除此之外，主成分分析(PCA,Principal Component Analysis)，它通过频段选择压缩光谱波段来减少噪声的干扰，可以保留住重要的特征，特别适合于高光谱图像分类。

近些年来基于深度学习方法的图像分类越来越受到研究者的青睐。深度学习图像分类的基础思想是通过多层神经元的密集连接，用简单的线性方程和激活函数获得非线性的特征，从原始图像数据中提取抽象特征，通过大量的原始数据的训练，形成特定网络权重参数，从而提高图像的分类准确率。高光谱图像的光谱维度多达几十甚至上百个波段，Chen等人首次将深度学习的概念引入到高光谱图像分类中，提出一种基于堆叠自编码器(SAE)模型，利用自动编码器提取原始数据信息，最后利用SVM分类，然而这种方法只利用了光谱信息却忽视了对空间信息的利用；为了进一步利用高光谱图像的空间特征信息，基于卷积神经网络(CNN,convolutional neural network)的高光谱算法被提出。CNN由于其出色的图像表征能力在计算机视觉领域获得了巨大的突破并被成功应用到了高光谱图像分类领域。Makantasis等人设计了一种基于2D卷积神经网络模型，通过周围像素填充将中间像素打包成固定大小的块，输入到神经网络中进行空间信息提取，最后送入多层感知器进行分类。但是越来越多的研究发现，单纯利用一种维度进行图像分类难以达到预期的效果，因此研究者们更多的把目光放到了空间信息和光谱信息联合的分类实验上。

随着特征提取的不断深入，神经网络不可避免越来越深，常规神经网络模型大多仅使用二维卷积或三维卷积，这就产生了一些问题，例如分别缺少通道关系信息，或非常复杂的模型导致参数变多或计算量增加等。相应地，这也导致了这些方法在高光谱图像分类上无法获得更好的准确性和更多的训练时间。高光谱图像是三维数据，在光谱维度上存在着数量庞大且连续的光谱波段。仅凭借二维卷积神经网络无法从光谱维度中提取具有良好辨别力的光谱特征。类似地，三维卷积在计算上更复杂，虽然可以同时在空间维和光谱维上作卷积来提取空谱特征，但它产生了巨大的计算量和参数，这使得结合两者优势的网络结构和高效减少参数量的卷积方法显得尤为重要。同时，由于高光谱图像本身的光谱冗余特性，神经网络的特征提取能力有限，如何从高光谱图像的众多复杂特征中，选择性筛出更加关键的特征也成为了提升性能的关键。

发明内容

发明目的：为了克服现有技术中存在的高光谱遥感图像分类算法中存在的图像特征提取效率低，难以筛选区分关键和无关特征，以及参数过多导致计算量过大等问题，提供一种基于混合光谱网络和多头自注意力机制的高光谱图像分类方法，其设计了一种改进型混合光谱网络，通过利用多种卷积策略和多头自注意力模块在高效获取丰富的空间-光谱特征的同时极大地减少网络的可训练参数，降低网络复杂度的同时加快网络收敛，保证分类精度。

技术方案：为实现上述目的，本发明提供一种基于混合光谱网络和多头自注意力机制的高光谱图像分类方法，包括如下步骤：

S1：构建整体网络，包括空间和光谱特征提取网络、多头自注意力模块和改进的混合光谱网络模块，所述多头自注意力模块包括空间注意力和光谱注意力模块；

S2：利用空间和光谱特征提取网络通过不同类型卷积核的组合对经过初始化和预处理后的高光谱数据进行特征提取，提取到高光谱图像层次化的特征；

S3：多头自注意力模块通过拼接不同头部所获取的注意力权重来捕获全局空间和光谱注意力信息，构建像素点的全局空间和光谱依赖关系；

S4：改进的混合光谱网络模块利用分组卷积和深度卷积增加相邻层之间的对角相关性，减少训练参数，减轻网络负担；

S5：通过多头自注意力网络细化特征提取，将输出结果经过全局池化送入分类器中进行最终分类，并输出结果。

进一步地，所述步骤S2中空间和光谱特征提取的过程为：

A1：进行空间和光谱特征提取，使用不同类型的卷积核对高光谱图像进行卷积运算；

A2：将卷积过后的特征图进行注意力优化操作。

进一步地，所述步骤S3中多头自注意力模块的运行过程包括：

首先将自注意力模型看作在一个线性投影空间中建立输入向量中不同形式之间的交互关系，而多头自注意力就是在多个不同的投影空间中建立不同的投影信息；接着融合来自多个注意力汇聚的信息，对输入矩阵进行不同的投影，将输出矩阵汇聚并拼接，将已经获得的权重值分配到所有像素各自空间位置中；同时添加Dropout操作，减少过拟合。多头自注意力公式为：

其中，Q_i∈R^L×D，K_i∈R^L×D，V_i∈R^L×D，其中Q_i为Query，K_i为Key，V_i为Value，L×D表示向量大小，Head_i表示第i个头部，softmax为归一化函数，d_k为根据向量通道数得到的放缩因子，O为输出Output，concat表示Concatnate拼接操作。

进一步地，所述步骤S3中多头自注意力模块的运行机制为：多头自注意力模块通过原始数据与卷积后的特征的矩阵相乘获取全局信息，并且重新分配了像素点之间的权重值，最后通过特征融合强化有用信息，抑制无用信息。

进一步地，所述步骤S4中改进的混合光谱网络模块运行过程使用分组卷积和深度卷积，其具体过程为：

在分组卷积中，假设输入的特征图尺寸为c*h*w，将其分为g组，每组的卷积核数量为n/g，卷积核总数为n，单个卷积核的尺寸为(c/g)*k*k，卷积核只与同组的特征图作卷积，则每组输出的特征图数量为n/g，总共输出的特征图数量仍为n，而总参数量为g*(n/g)*(c/g)*k*k，相同条件下标准卷积的总参数量为n*c*k*k，分组卷积的总参数量为一般卷积参数量的1/g。

在深度卷积中，假设输入特征为h*w*n，经过一个标准卷积之后输出特征为h*w*m，其中h*w为特征图的空间尺寸，n为输入特征的通道数，m为输出特征的通道数。标准卷积核尺寸为k*k*n，数量为m，则标准卷积的计算复杂度为h*w*n*k*k*m，参数量为k*k*m*n。而将标准卷积分解成深度卷积和逐点卷积之后，深度卷积核尺寸为k*k*1，k*k为卷积核空间尺寸，通道数为1，卷积核的数量为n，则输入特征通过深度卷积运算的计算复杂度为h*w*n*k*k，参数量为k*k*k，为标准卷积参数量的1/m。

进一步地，所述多头自注意力模块的学习过程包括以下子步骤：

B1：将维度为(b，c，h，w)的输入数据x_i与相同维度的位置编码参数P_e进行逐位相加，得到的输出a_i维度仍为(b，c，h，w)；

B2：将输出a_i与相同维度的W^Q、W^K、W^V分别进行矩阵乘法，并通过全连接层投影为q_i、k_i、v_i，其维度变为(b，h*w，c)；

B3：将q_i与k_i的转置进行矩阵乘法并除以放缩因子d_k得到α_i，维度变为(b，h*w，h*w)，再经过Softmax操作后得到

的维度仍为(b，h*w，h*w)；

B4：将上述所得中间变量

再与v_i进行矩阵乘法，所得Head_i的维度为(b，h*w，c)；

B5：将Head_i进行转置并进行Reshape操作，Head_i的维度变为(b，c，h，w)，最后通过Concatnate拼接操作将不同头部拼接，经过特征融合强化有用信息，抑制无用信息。

进一步地，所述改进的混合光谱网络模块的学习过程的学习过程包括以下子步骤：

C1：首先通过PCA进行数据降维后进行一次三维卷积，随后通过BN和ReLU操作。之后进行组数为4的三维分组卷积，并再次通过BN和ReLU操作。最后进行组数为8的分组卷积，通过这三次操作来提取数据特征并减少网络参数数量；

C2：经过三维深度卷积并通过BN和ReLU激活操作，提取网络特征；

C3：最后通过BN和ReLU激活操作，经过一次二维分组卷积，降低网络参数和复杂度，之后再经过BN和ReLU操作得到最终输出。

本发明中首先，为了综合二维卷积与三维卷积各自的优势，弥补彼此的缺陷，通过使用(7*3*3)，(5*3*3)，(3*3*3)三个不同尺寸的三维卷积核对高光谱图像(HyperSpectralImage)进行卷积运算，对应的卷积核个数分别为8，16，32，均不进行padding补零操作，之后再进行一次padding为1的三维深度卷积运算，卷积核的个数表示特征图的数量，通过混合光谱网络可以减少参数量的同时极大提高特征提前效率，有效弥补了单一维度卷积在空间视野上的局限性。

其次，将融合的特征图传入多头自注意力模块中，多头自注意力模块的基本结构是多头注意力机制模块基于自注意力结构组合而成，目的是通过原始数据与卷积后的特征的矩阵相乘获取全局信息，并提高网络对边缘像素的判别能力，提高整体分类精度。最后经过改进型混合光谱网络提取后的特征图通过全局池化(Global pooling)操作后送入Softmax分类器中获得最终分类结果。

有益效果：本发明与现有技术相比，通过引入多头自注意力模块来同时获取丰富的空间和光谱特征，并加入改进的混合光谱网络聚焦关键信息，抑制无用信息，同时在网络中加入分组卷积和深度卷积，有效地减少了参数量，降低了网络复杂度和计算量，从而提高了分类精度，保证了良好稳定的分类效果。

附图说明

图1为本发明实施的网络模型图；

图2为多头自注意力模块原理图；

图3为改进型混合光谱网络模型图；

图4为Indian Pines算法分类结果图，其中(a)为真实地物结果图，(b)为NN分类结果图，(c)为3DCNN模型分类结果图，(d)为3DFCN模型分类结果图，(e)M3DCNN模型分类结果图，(f)本发明MHSAHSN模型分类图；

图5为University of Pavia算法分类结果图，其中(a)为真实地物结果图，(b)为NN分类结果图，(c)为3DCNN模型分类结果图，(d)为3DFCN模型分类结果图，(e)M3DCNN模型分类结果图，(f)本发明MHSAHSN模型分类图；

图6为Kennedy Space Center算法分类结果图，其中(a)为真实地物结果图，(b)为NN分类结果图，(c)为3DCNN模型分类结果图，(d)为3DFCN模型分类结果图，(e)M3DCNN模型分类结果图，(f)本发明MHSAHSN模型分类图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明提供一种基于混合光谱网络和多头自注意力机制的高光谱图像分类方法，首先构建整体网络，包括一个空间和光谱特征提取网络、一个多头自注意力模块和一个改进型混合光谱网络模块，具体如图1所示；空间和光谱特征提取网络通过不同类型卷积核的组合对经过初始化和预处理后的高光谱数据进行特征提取，提取到高光谱图像层次化的特征；随后，多头自注意力模块通过拼接不同头部所获取的注意力权重来捕获全局空间和光谱注意力信息，构建像素点的全局空间和光谱依赖关系，然后通过与改进型混合光谱网络结合细化特征提取，进行最终分类。

基于上述方法，本实施例将上述方法应用于高光谱图像分类，具体的过程如下：

步骤1：初始化原始网络中所有的参数，使其满足kaiming正态分布。

步骤2：原始的高光谱影像

为，其中h,w,c分别为高光谱数据的高度、宽度和光谱维数。

步骤3：对原始高光谱数据预处理，首先完成数据归一化和PCA降维，然后得到以指定位置i为中心，size为patch_size*patch_size*channel_size的高光谱立方块HIS Cube。

步骤4：利用空间和光谱特征提取网络通过不同类型卷积核的组合对经过初始化和预处理后的高光谱数据进行特征提取，提取到高光谱图像层次化的特征。

空间和光谱特征提取网络，其具体学习过程包括以下子步骤：

步骤4.1：进行特征提取，使用(7*3*3)，(5*3*3)，(3*3*3)三个不同尺寸的三维卷积核对高光谱图像进行卷积运算，对应的卷积核个数分别为8，16，32，均不进行padding补零操作，之后再进行一次padding为1的三维深度卷积运算。

步骤4.2：将卷积过后的特征图进行Reshape操作，使其符合二维卷积的维度要求。

步骤5：借助多头自注意力模块拼接不同头部所获取的注意力权重来捕获全局空间和光谱注意力信息，深化特征提取，构建像素点的全局空间和光谱依赖关系。

步骤6：通过改进型混合光谱网络和多头自注意力模块相结合，有效的抑制了无用信息，减少了网络的参数量，降低了网络的复杂度。

步骤7：将输出结果经过全局池化送入分类器中进行最终分类，并输出结果。

以下依次对多头自注意力模块和改进型混合光谱网络进行详细说明：

1、多头自注意力模块

如图2为多头自注意力模块的示意图，多头自注意力模块通过原始数据与卷积后的特征的矩阵相乘获取全局信息，并且重新分配了像素点之间的权重值，最后通过特征融合强化有用信息，抑制无用信息。

多头自注意力模块，其具体学习过程包括以下子步骤：

步骤5.1：将维度为(b，c，h，w)的输入数据x_i与相同维度的位置编码参数P_e进行逐位相加，得到的输出a_i维度仍为(b，c，h，w)；

步骤5.2：将输出a_i与相同维度的W^Q、W^K、W^V分别进行矩阵乘法，并通过全连接层投影为q_i、k_i、v_i，其维度变为(b，h*w，c)；

步骤5.3：将q_i与k_i的转置进行矩阵乘法并除以放缩因子d_k得到α_i，维度变为(b，h*w，h*w)，再经过Softmax操作后得到

的维度仍为(b，h*w，h*w)；

步骤5.4：将上述所得中间变量

再与v_i进行矩阵乘法，所得Head_i的维度为(b，h*w，c)；

步骤5.5：将Head_i进行转置并进行Reshape操作，Head_i的维度变为(b，c，h，w)，最后通过Concatnate拼接操作将不同头部拼接，经过特征融合强化有用信息，抑制无用信息。

2、改进型混合光谱网络

常规神经网络模型大多仅使用二维卷积或三维卷积，这就产生了一些问题，例如分别缺少通道关系信息或非常复杂的模型导致参数变多或计算量增加等。相应地，这也导致了这些方法在高光谱图像分类上无法获得更好的准确性和更多的训练时间。而混合光谱网络模型先后利用了二维卷积和三维卷积，从而能够充分利用光谱和空间特征，以达到最大可能的精度，同时又减轻了网络的计算负担。为了能够获取到更加鲁棒的空-谱特征，本发明对传统的混合光谱网络结构做出相应的改变，获取到如图3所示的改进型混合光谱网络模型图。对照图3，改进的混合光谱网络模块利用分组卷积和深度卷积增加相邻层之间的对角相关性，有效降低了训练参数的数量，减轻网络负担，加快了网络收敛。

上述改进型混合光谱网络的学习过程包括以下子步骤：

步骤6.1：首先通过PCA进行数据降维后进行一次尺寸为(7，3，3)的三维卷积，卷积核大小为8，随后通过BN和ReLU操作。之后进行组数为4、尺寸为(5，3，3)的三维分组卷积，卷积核大小为16，并再次通过BN和ReLU操作。最后进行组数为8、尺寸为(3，3，3)的分组卷积，卷积核大小为32，通过这三次操作来提取数据特征并减少网络参数数量。

步骤6.2：经过padding为1、尺寸为(3，3，3)的三维深度卷积并通过BN和ReLU激活操作，提取网络特征。

步骤6.3：最后通过BN和ReLU激活操作，经过padding为0、尺寸为(3,3)、组数为8的二维分组卷积，降低网络参数和复杂度，之后再经过BN和ReLU操作得到最终输出。

为了验证本发明方法的效果，基于上述技术方案，本实施例进行了仿真实验，具体的结果和分析如下：

1.实验图像

本实施例中将在IP(Indian Pines)、PU(University of Pavia)、KSC(KennedySpace Center)这三个基准数据集上对所提出的基于多头自注意力机制的混合光谱网络进行测试，以验证MHSAHSN模型的有效性和可靠性。

印第安纳松树(IP,Indian Pines)数据集是美国的红外成像光谱仪(AVIRIS)在印第安纳州西北部获取的图像，空间尺寸为145像素*145像素。AVIRIS成像光谱仪成像波长范围为0.4-2.5μm，是在连续的220个波段对地物进行成像。一般使用剔除了20个波段后剩下的200个波段作为研究的对象。该光谱成像仪所成的图像的空间分辨率约为20m，包含地物的像素总共只有10249个，这些像素中共包含16类地物。

帕维亚大学集(PU,University of Pavia)数据集。PU数据是由德国的机载反射光学光谱成像仪(ROSIS-03，Reflective Optics Spectrographic Imaging System)对意大利东北部的帕维亚城所成的像。图像空间尺寸为610像素*340像素，并且成像仪波长为0.43-0.86μm，所成图像的空间分辨率为13m。在实验中，移除12个由于强噪声和水汽干扰的频段，一般使用剩下103个光谱波段所组成的图像，包含地物的像素总共只有42776个，这些像素中共包含9类地物如道路、数目，屋顶等。

肯尼迪航天中心(KSC,Kennedy Space Center)数据集。KSC数据集由AVIRIS成像光谱仪在佛罗里达州肯尼迪航天中心(KSC)上空拍摄得到。AVIRIS采集224个10nm宽波段的数据，中心波长范围为0.4-2.5μm，KSC数据的空间分辨率为18米，去除吸水率和低信噪比条带后，采用176条条带进行分析，包括标记像素5211个，地物种类总共有13类。

表-1-IP数据集、PU数据集和KSC数据集灰度图和地物信息类别

2.实验方法及相关参数设置

实验电脑配置CPU为Intel Core i7-9750H，GPU为NVIDIA GeForce RTX 2070，编程语言为Python，环境为Pycharm，深度学习模型框架为Pytorch。

评价指标方面，选取总体精度(OA,overall accuracy)和Kappa系数(KA,Kappacoefficient)2个指标。所有数据取10次实验数据下的平均值。

在训练集和测试集的划分中，分别在IP数据集、PU数据集、KSC数据集上随机选取10％、3％、5％的样本作为训练样本，并将剩余的90％、97％和95％的样本作为测试样本。3个数据集的实验中，Batch size均设置为128，反向传播算法采用Adam(Adaptive momentestimation,Adam)，初始学习率为0.0001，迭代次数设置为100次，所有卷积运算中加入L2正则化并且结尾采用Dropout随机丢弃方式降低网络的过拟合。

3.实验结果对比

表-2-IP数据集测试结果

表-3-PU数据集测试结果

表-4-KSC数据集测试结果

本节在IP数据集的对比实验中，随机选取了10％的训练样本，并将剩余的90％作为测试样本，图4和表2展示了不同模型在IP数据集的分类情况，从中可以看出，3DFCN的分类效果最差，并且存在大量的噪声；3DCNN通过引入一种新型的3D卷积框架和联合时空模型来检查高光谱数据中的光谱和空间信息；M3DDCNN利用多尺度三维深度卷积神经网络进行高光谱图像分类，以端到端的方式从高光谱数据中共同学习二维多尺度空间特征和一维光谱特征，但是缺少PCA、稀疏编码等预处理和后处理；而本发明提出的MSHAHSN模型获得了最高的分类精度，通过多头自注意力机制来获取丰富的空间和光谱特征，并加入改进的混合光谱网络减少训练参数，降低网络复杂度，从而提高了分类精度，保证了良好稳定的分类效果。

在PU和KSC数据上进行的比较实验分别随机选取3％和5％的样本作为训练样本，剩余97％和95％的样本作为测试样本，表3、图5和表4、图6分别展示了以上模型分别在PU和KSC数据集上分类结果和可视化效果图，同样本发明所提出的MHSAHSN模型在以上两个数据集中依然获得了最高的分类精度和最好的视觉效果，证明了本发明的模型有良好的泛化性和优于对比实验的理想分类精度。