CN116740474A

CN116740474A - 一种基于锚定条纹注意力机制的遥感图像分类方法

Info

Publication number: CN116740474A
Application number: CN202311021136.6A
Authority: CN
Inventors: 涂兵; 胡江红; 廖晓龙; 曹兆楼; 陈云云; 叶井飞
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2023-08-15
Filing date: 2023-08-15
Publication date: 2023-09-12

Abstract

本发明公开了一种基于锚定条纹注意力机制的遥感图像分类方法，该方法通过双层卷积网络提取样本浅层空‑谱特征表示，利用编译器将特征表示转换成语义特征，嵌入位置信息后生成语义标记序列，输入到锚定条纹注意力机制和窗口注意力模块，对语义特征进行深层次建模，计算得到注意力得分，利用线性层和全连接对多尺度信息进行融合，通过softmax函数得到样本的标签，根据最终的分类模型得到分类结果的遥感图像分类方法。本发明通过构建多尺度锚定条纹注意力机制网络来度量无标记样本的类间不确定性，每类随机选取一定比例的少量样本进行标注，提高模型的泛化能力。

Description

一种基于锚定条纹注意力机制的遥感图像分类方法

技术领域

本发明涉及一种基于锚定条纹注意力机制的遥感图像分类方法，属于遥感领域中的高光谱图像处理技术领域。

背景技术

高光谱遥感图像在许多领域都有广泛的应用，如军事目标检测与识别、城市规划与土地利用、生态环境与自然资源以及地质勘测等，有着十分重要的作用。高光谱图像由于具有丰富的光谱信息，可以捕捉到地物的空间分布和光谱反射特征，更能够提供更全面、更细致的地物信息，通过分析高光谱图像，可以获取地物的光谱特征、形态特征、结构特征等多方面的信息，有助于更深入地理解和解释地物的属性和特征。但同时高光谱图像分类也存在以下难点：1、高光谱图像通常由数十甚至上百个连续谱段组成，每个谱段对应一个波段。这导致数据维度非常高，某些情况下甚至维度远大于样本数量，带来大量冗余信息。2、高光谱图像中的像素往往是由多个地物的光谱组合而成的，即存在光谱混合现象，这种混合使得每个像素的光谱不纯净，使得分类任务更加复杂。3、在高光谱图像中，不同地物类别的分布可能不均衡，即某些类别的样本数量较少。这会导致分类器倾向于较多样本的类别，而对少样本的类别性能较差。4、高光谱图像中地物的光谱特征可能受到多种因素的影响，如遥感采集时间、光照条件和地物状态等。

近年来，深度学习在高光谱图像分类领域取得了显著的进展，为高光谱数据的特征提取和分类提供了新的方法和思路。现有的深度学习分类方法有卷积神经网络、循环神经网络、自编码器以及生成对抗网络等。这些深度学习方法在高光谱图像分类中取得了较好的结果，但也面临一些挑战，如标注困难、过拟合和样本不平衡等。

针对以上困难，尤其是针对模型过拟合和不同类别的样本不平衡，需要提供一种能够避免过拟合和克服样本数量不平衡的分类模型，以提高深度学习模型的分类准确率。

发明内容

本发明所要解决的技术问题是：提供一种基于锚定条纹注意力机制的遥感图像分类方法，通过双层卷积网络提取样本浅层空-谱特征表示，利用编译器将特征表示转换成语义特征，嵌入位置信息后生成语义标记序列，输入到锚定条纹注意力机制和窗口注意力模块，对语义特征进行深层次建模，计算得到注意力得分，利用线性层和全连接对多尺度信息进行融合，通过softmax函数得到样本的标签，根据最终的分类模型得到分类结果的遥感图像分类方法。

本发明为解决上述技术问题采用以下技术方案：

一种基于锚定条纹注意力机制的遥感图像分类方法，包括如下步骤：

步骤1，对输入的高光谱图像进行降维处理，基于降维后的图像设置不同尺度的像素块并基于像素块选定训练集和测试集；

步骤2，构建基于锚定条纹注意力机制的分类模型，并初始化所述分类模型的参数，设置分类模型的迭代次数；所述基于锚定条纹注意力机制的分类模型包括3D卷积层、2D卷积层、语义标记模块、锚定条纹注意力模块、线性层、全连接层和softmax函数；

步骤3，使用3D卷积层和2D卷积层对训练集进行空间-光谱特征提取，即特征图提取；

步骤4，利用语义标记模块将提取到的特征图生成语义标记，并在语义标记上嵌入位置信息，得到语义标记序列；

步骤5，执行锚定条纹注意力模块，对语义标记之间的深层关系进行建模，得到分类模型的权重矩阵；

步骤6，将语义标记序列中的分类标记输入线性层，通过全连接层连接不同尺度的特征，通过softmax函数识别类别标签；

步骤7，根据识别的类别标签更新分类模型的参数，重复步骤3-6；

步骤8，当迭代次数为时，利用更新参数后的分类模型对测试集进行分类预测，得到分类结果。

作为本发明的一种优选方案，步骤1的具体过程如下：

1.1对输入的高光谱遥感图像进行降维处理得到降维后的图像，其中/>代表空间尺寸，/>代表光谱波段数，/>代表降维后的光谱波段数，将降维后的图像中每一个像素点设定为一个样本；

1.2基于设置不同尺度且带有标签的像素块/>，其中/>代表块的空间大小，每个块的真实标签由其中心像素的标签决定；去除零标签的像素块后，将所有剩余像素块中的样本按占每个类别5%的比例划分为训练集，余下的95%划分为测试集。

作为本发明的一种优选方案，步骤2所述锚定条纹注意力模块具体为：

在自注意机制查询、键和值的三元组之外引入锚集的概念，作为查询和键之间相似性比较的中介，锚定自注意的表达式如下：

其中，N代表锚定自注意得分，/>和/>分别代表查询-锚对和锚-键对之间的注意力图，Z代表锚-键对/>与值V的乘积，V代表值，A代表锚，K代表键，d代表标记的维度，Q代表查询；

根据遥感图像的特征具有各向异性，在各向异性内进行条纹关注，形成包括水平条纹、垂直条纹、平移条纹和平移垂直条纹4种模式的条纹注意力机制；

结合锚点的概念，提出锚定条纹注意力机制，在水平和垂直条纹内部进行自注意力。

作为本发明的一种优选方案，所述步骤3的具体过程如下：

3.1，利用3D卷积层对训练集进行卷积、归一化和非线性激活操作，提取多尺度的空谱特征即特征立方体；具体为：

利用不同尺度的像素块将训练集划分为大小为的训练样本，将训练样本作为3D卷积层的输入，其中3D核的大小为/>，得到第m层第n个特征立方体的空间位置/>上的特征值为/>，每个特征立方体的大小为，特征立方体的总体大小为；

特征值的计算公式如下：

其中，代表激活函数，/>代表乘积，p代表与第m-1层中的第n个特征立方体相关的特征立方体，/>分别代表3D卷积核的高、宽和通道数，/>是连接到第p个特征立方体位置/>的权重参数，/>代表偏置，/>代表3D核的个数，即特征立方体的个数，/>代表第m-1层第p个特征立方体的空间位置/>上的特征值；

3.2，将3.1得到的特征立方体进行重排后输入到2D卷积层，进行卷积、归一化和非线性激活操作，得到浅层空谱特征即特征图；具体为：

将大小为的特征立方体作为2D卷积层的输入，其中2D内核的大小为/>，定义第m层第n个特征图上空间位置/>的激活值为/>，生成的特征图总大小为/>，激活值/>的计算公式如下：

其中，/>和/>分别代表2D卷积核的高和宽，/>代表连接到第/>个特征图位置/>的权重参数，/>代表2D核的个数；/>代表第m-1层第/>个特征图上空间位置/>的激活值。

作为本发明的一种优选方案，所述步骤4的具体过程如下：

4.1，定义特征图为，/>代表高、/>代表宽、/>代表通道数量，定义语义标记为/>，x代表标记的数量；

4.2，计算语义标记T，具体公式如下：

其中，F代表特征图，/>代表初始权重矩阵，/>代表进行/>点积；

4.3，将位置信息嵌入语义标记，并编码到标记表示中，形成语义标记序列，语义标记序列具体公式如下：

其中，/>代表语义标记序列，/>代表分类标记，/>代表第一个语义标记；/>代表第x个语义标记。

作为本发明的一种优选方案，所述步骤5的具体过程如下：

5.1，将语义标记序列作为输入，执行锚定条纹注意力模块；

5.2，结合窗口自注意力和锚定条纹注意力中的查询、键、值和锚计算分类模型的权重矩阵。

作为本发明的一种优选方案，所述步骤6的具体过程如下：

6.1，对步骤5得到的分类模型的权重矩阵执行层标准化；

6.2，将语义标记序列中的分类标记作为线性层的输入，得到多个尺度特征，再通过全连接层对经过线性层处理后的多个尺度特征进行融合，得到融合后的特征；

6.3，通过softmax函数计算融合后的特征分别属于各个类别的概率，概率最大的标签即为该特征的类别。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1、本发明通过两个卷积层对多尺度训练样本进行浅层空-谱特征提取，将得到的空-谱特征表示进行转换，利用标记编译器转换成语义特征，并嵌入位置信息形成语义标记序列，将语义标记序列输入到锚定条纹注意力和窗口注意力机制当中，利用查询、键、值和锚集进行语义特征关系的深层次建模，计算注意力的得分，将学习到的权重矩阵执行层标准化，通过全连接对提取到的多尺度语义信息进行融合，利用softmax函数计算特征属于某个类别的概率，概率最大的标签就是样本的类别。重复上述步骤，直到达到最大迭代次数，生成分类结果。

2、本发明通过设计多尺度锚定条纹注意力机制框架来度量样本间的相关性，为深度学习领域的分类提供模型帮助。试验结果表明，在公开的高光谱分类数据集上，随机挑选占总样本数量百分之五的样本比例进行训练，以SF为基准模型的总体精度为97.84%，通过本模型训练后的样本分类总体精度为99.45%，相比之下总体分类精度提高了1.61%。

附图说明

图1是本发明基于锚定条纹注意力机制的遥感图像分类方法的流程图；

图2是本发明实施例Pavia University高光谱图像伪彩色图像；

图3是本发明实施例Pavia University高光谱图像真实地物类型；

图4是本发明锚定条纹注意力机制(Multi-Scale Anchored Stripe Attention，MSASA)模型的分类结果。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

如图1所示，本发明提出一种基于锚定条纹注意力机制的遥感图像分类方法，包括以下步骤：

步骤S1，对输入的高光谱图像进行降维处理，基于降维后的图像设置不同大小的块作为下一步工作的输入，并选定训练集和测试集。具体为：

1.1，对输入的高光谱遥感图像进行降维处理得到降维后的图像，其中/>代表空间尺寸，/>代表光谱波段数，/>代表降维后的光谱波段数；将降维后的图像中每一个像素点设定为一个样本，得到高光谱图像的样本；

1.2，基于设置不同尺度且带有标签的像素块/>，其中/>代表块的空间大小，每个块的真实标签由其中心像素的标签决定；去除零标签的像素块后，将所有剩余的样本按占每个类别5%的比例划分为训练集，余下的95%划分为测试集。

步骤S2，建立基于锚定条纹注意力机制的分类模型，并初始化分类模型的参数，设置分类学习模型的迭代次数；其中，基于锚定条纹注意力机制的分类模型包括3D卷积层、2D卷积层、语义标记模块、锚定条纹注意力模块、线性层、全连接层和softmax函数。

锚定条纹注意力模块具体为：

步骤S3，使用一个3D卷积层和一个2D卷积层对训练集进行空间-光谱特征提取。具体为：

3.1，利用不同尺度的像素块将训练集划分为大小为的训练样本，将训练样本作为3D卷积层的输入，其中3D核的大小为/>，得到第m层第n个特征立方体的空间位置/>上的特征值为/>，每个特征立方体的大小为，特征立方体的总体大小为；

特征值的计算公式如下：

其中，/>和/>分别代表2D卷积核的高和宽，/>代表连接到第/>个特征图位置/>的权重参数，代表2D核的个数；/>代表第m-1层第/>个特征图上空间位置/>的激活值。

步骤S4，将提取到的特征图生成语义标记，并在语义标记上嵌入位置。具体为：

4.1，将特征图转换为语义标记，输入的特征映射定义为，/>代表高、代表宽，/>代表通道数量。语义标记被定义为/>，x代表标记的数量。

4.2，计算语义标记T，具体公式如：式中，/>代表初始权重矩阵，/>表示进行/>点积。

4.3，将语义标记嵌入位置信息并编码到标记表示中，形成语义标记序列，具体表示如：/>式中，/>代表分类标记，/>代表第一个语义标记；代表第x个语义标记。

步骤S5，执行锚定条纹注意力模块，对语义标记之间的深层关系进行建模。具体为：

5.1，将语义标记序列作为输入，执行锚定条纹注意力模块；

步骤S6，将分类标记输入到线性层，引入全连接层连接不同尺度的特征，通过softmax函数识别标签。具体为：

6.1，对步骤5得到的分类模型的权重矩阵执行层标准化；

6.2，将语义标记序列中的分类标记作为线性层的输入，再通过全连接层对经过线性层处理后的多个尺度特征进行融合，得到融合后的特征；

步骤S7，重复步骤S3-S6，根据生成的分类标签更新整个锚定条纹注意力机制网络的参数；

步骤S8，当迭代次数为时，利用更新参数后的分类模型和测试集去预测标签，得到分类结果。

本发明实施例采用的高光谱遥感影像数据集为Pavia University高光谱数据集，它是由机载反射光学光谱成像仪ROSIS-03在2001年对意大利的帕维亚城所收集的。该高光谱数据集大小为610×340像素，空间分辨率为1.3m/像素，共有9个不同的地物类别。包含115个波段，波长范围为0.43-0.86μm，去除12个受噪声影响的波段后，剩下103个波段用于实验，该数据集的伪彩色图如图2所示。图3展示了真实地物类型。分类方法对比实验分别采用Transformer再思考分类方法(SF)，双分支双注意机制分类方法(DBDA)，频谱空间残差网络分类方法(SSRN)，光谱-空间特征标记Transformer分类方法(SSFTT)，光谱-空间掩码Transformer分类方法(SSMTr)和本发明的锚定条纹注意力机制分类方法(MSASA)对实施例Pavia University数据集的有标记样本数据进行图像分类。

模型训练设置如下：从9类中每类选取百分之5的样本作为训练集，剩下的样本作为测试集，迭代次数I设置为100，输入的块大小分别设置为9×9、11×11、13×13，其余对比例得参数按照原始环境配置。在此条件下，进行了10次重复实验，选取SF等通用模型的总体分类精度为比较基准，其平均分类准确率如表1所示。

表1 Pavia University数据集图像分类准确率对比

类别	SF	SSRN	DBDA	SSFTT	SSMTr	MSASA
							1	94.83	98.18	99.23	98.87	99.7	100
2	99.9	99.33	99.88	99.87	99.95	100
							3	89.57	96.04	99.65	97.02	97.04	95.86
4	95.36	99.97	99.05	98.52	97.2	98.38
							5	100	100	99.92	99.66	97.77	99.71
6	99.54	98.95	99.66	99.92	99.87	100
							7	95.49	99.83	99.97	99.6	99	99.64
8	96.97	97.62	95.27	96.79	98.5	98.7
							9	99.22	100	98	97.17	87.57	97.84
OA	97.84	98.89	99.22	99.14	99.06	99.45
							AA	96.76	98.88	98.96	98.6	97.4	98.88
Kappa*100	97.13	98.53	98.96	98.86	98.76	99.28

从表1的可知，以SF模型为比较基准的总体分类精度为97.84%，其他四种对比模型的分类精度分别为98.89%、99.22%、99.14%、99.06%。本发明提出的模型取得了最好的总体分类精度为99.45%。而从每一类的分类精度来看，本发明提出的模型有四个类别都比其他对比基准模型的分类精度高，其他类别的分类精度也具有相当大的竞争力。本发明主要通过构建多尺度的锚定条纹注意力机制网络提取不同尺度样本的特征，构建样本间更深层次的相关性，为深度学习分类精度提升提供模型保障。

图4展示了本发明的分类结果图。可以直观看出，在本发明模型帮助下，分类模型能够更加精确识别样本所属的地物类别。以上证实了本发明在高光谱图像分类上的可行性。在少量标记样本的训练下，本发明较大幅度提升了分类模型的分类精度，进一步推进了高光谱图像分类的准确率。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于锚定条纹注意力机制的遥感图像分类方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于锚定条纹注意力机制的遥感图像分类方法，其特征在于，步骤1的具体过程如下：

3.根据权利要求1所述的基于锚定条纹注意力机制的遥感图像分类方法，其特征在于，步骤2所述锚定条纹注意力模块具体为：

4.根据权利要求1所述的基于锚定条纹注意力机制的遥感图像分类方法，其特征在于，所述步骤3的具体过程如下：

特征值的计算公式如下：

其中，/>代表激活函数，/>代表乘积，p代表与第m-1层中的第n个特征立方体相关的特征立方体，分别代表3D卷积核的高、宽和通道数，/>是连接到第p个特征立方体位置/>的权重参数，/>代表偏置，/>代表3D核的个数，即特征立方体的个数，代表第m-1层第p个特征立方体的空间位置/>上的特征值；

5.根据权利要求1所述的基于锚定条纹注意力机制的遥感图像分类方法，其特征在于，所述步骤4的具体过程如下：

4.2，计算语义标记T，具体公式如下：

6.根据权利要求2所述的基于锚定条纹注意力机制的遥感图像分类方法，其特征在于，所述步骤5的具体过程如下：

5.1，将语义标记序列作为输入，执行锚定条纹注意力模块；

7.根据权利要求1所述的基于锚定条纹注意力机制的遥感图像分类方法，其特征在于，所述步骤6的具体过程如下：

6.1，对步骤5得到的分类模型的权重矩阵执行层标准化；