CN114091514A

CN114091514A - 一种基于同异质Transformer的遥感场景分类方法及系统

Info

Publication number: CN114091514A
Application number: CN202111153214.9A
Authority: CN
Inventors: 马晶晶; 李明腾; 唐旭; 张向荣; 焦李成
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2022-02-25
Anticipated expiration: 2041-09-29
Also published as: CN114091514B

Abstract

本发明公开了一种基于同异质Transformer的遥感场景分类方法及系统，分别使用直接划分方法和超像素分割方法把输入的遥感场景图片划分为异质Patch和同质Patch；使用异质特征学习分支和同质特征学习分支同时提取划分的异质Patch和同质Patch中的异质信息和同质信息，基于Transformer结构提取遥感场景中的全局信息和局部知识及相关上下文信息，得到异质特征he‑token0和同质特征ho‑token0；融合异质特征he‑token0和同质特征ho‑token0，通过结合度量学习机制增强特征区分性，最后根据融合后的特征完成遥感场景分类。本发明全面提取遥感图像的特征表示，具有更好的遥感场景分类性能。

Description

一种基于同异质Transformer的遥感场景分类方法及系统

技术领域

本发明属于图像处理技术领域，具体涉及一种基于同异质Transformer的遥感场景分类方法及系统。

背景技术

遥感场景分类在遥感领域中起着至关重要的作用，并因其广泛的应用而受到越来越多的关注。现有的遥感场景分类技术主要分为两类。

第一类是基于特征提取器和分类器的遥感场景分类方法。它们提取的特征主要包含底层特征(如纹理特征、形状特征和颜色特征)和中层特征(如词袋模型)，然后对于提取到的特征使用分类器完成遥感场景分类任务，常用的分类器包含支持向量机和决策树等。由于遥感场景复杂多样，该类方法不能很好地表示遥感场景复杂的内容。

第二类是基于深度卷积神经网络的遥感场景分类方法。该类方法可以提取遥感场景的高级语义特征，分类精度较高，是目前广泛使用的遥感场景分类方法。虽然基于深度卷积神经网络的方法已经在遥感场景分类任务中取得了较大的成功，但是仍存在一些问题有待进一步完善。首先，基于深度卷积神经网络的方法擅长从遥感场景中捕获全局信息，但无法彻底挖掘隐藏在遥感场景中的局部知识和相关上下文信息。其次，由于特定的结构，一般深度卷积神经网络很容易提取来自遥感场景的异质信息。然而，对于全面理解遥感场景中的复杂内容也至关重要的同质信息并没有得到应有的关注。最后，大多数深度卷积神经网络方法专注于建立遥感场景和语义标签之间的关系。但是，没有深入考虑遥感场景之间的相似性，这有助于区分类内/类间样本。

针对现有遥感场景分类技术中存在的问题和缺陷，如何提供一种能同时提取同质信息和异质信息并且能够有效区分类内/类间样本的分类方法是本领域技术人员需要解决的难题。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于同异质Transformer的遥感场景分类方法及系统，全面提取遥感图像的特征表示，具有更好的遥感场景分类性能。

本发明采用以下技术方案：

一种基于同异质Transformer的遥感场景分类方法，包括以下步骤：

S1、分别使用直接划分方法和超像素分割方法把输入的遥感场景图片划分为异质Patch和同质Patch；

S2、使用异质特征学习分支和同质特征学习分支同时提取步骤S1划分的异质Patch和同质Patch中的异质信息和同质信息，基于Transformer结构提取遥感场景中的全局信息和局部知识及相关上下文信息，得到异质特征he-token0和同质特征ho-token0；

S3、融合步骤S2得到的异质特征he-token0和同质特征ho-token0，通过结合度量学习机制增强特征区分性，最后根据融合后的特征完成遥感场景分类。

具体的，步骤S1中，划分异质Patch具体为：

把一张遥感场景图片均匀划分为一组不重叠的Patch，得到一组异质的Patch，每个Patch具有相同的长度、宽度和通道数，每一个Patch包含的内容具有异质的信息。

具体的，步骤S1中，划分同质Patch具体为：

使用SLIC超像素分割方法把一张遥感场景图片划分为一系列的超像素；取出每一个超像素，根据超像素的四个边界顶点得一个规则区域；然后算出规则区域的中心位置，并以质心为初始点向周围扩张为32x32像素的区域，得到一个指定大小的Patch，即同质的Patch，将一张遥感场景图片被划分为一系列的同质Patch。

具体的，步骤S2中，对于异质Patch，将异质Patch线性映射为一组Patch嵌入向量，然后和位置嵌入相加，保留每个Patch的位置信息，得到最终输入He-transformer Encoder的异质嵌入Patch z₀，通过He-transformer Encoder提取全局信息和局部区域的上下文依赖，使用经过l层编码得到的场景z_l中的第一个元素

经过一个LN层得到最终的异质特征表示he-token0。

进一步的，异质嵌入Patch z₀为：

其中，E表示线性映射矩阵，

表示第i个异质Patch，E_pos表示位置嵌入；经过l层编码得到的场景z_l为：

其中，l＝1...L，L为He-transformer Encoder总共的层数，MLP为多层感知机子层，LN为层归一化，

为上一层z_l-1经过LN和MSA得到的特征。

进一步的，He-transformer Encoder中，使用MSA并行的执行多个基于自注意力头函数，将并行结果拼接得到最终的MSA输出，对于输入的z_l-1，MSA计算如下：

MSA(z_l-1)＝Concat(head₁,...,head_n)W^O

其中，W^O表示可学习矩阵，head_i表示第i个self-attention head函数。

具体的，步骤S3中，将异质特征he-token0和同质特征ho-token0分别经一个MLPhead层得到分类分数he-class和ho-class，最后使用softmax loss进行优化，混合后的分类分数S为：

具体的，步骤S3中，度量学习机制使用双分支余弦对比损失函数在特征空间中减少类间相似度和增加类内相似度，采用同异质分类损失函数增强同异质Transformer特征表示的区分性，提取的遥感场景的特征表示经过softmax后得到分类的概率，进而完成遥感场景分类。

进一步的，双分支余弦对比损失函数L_dccl定义如下：

其中，

和

分别用来优化特征学习模块中的异质特征学习分支和同质特征学习分支，N是一个batch的大小，he-token0_i,he-token0_j分别为第i个遥感场景的异质特征和第j个遥感场景的异质特征，cossim(.,.)是余弦相似度，α用来约束类间距离；

同异质分类损失函数L_hhcl为：

L_hhcl＝L_softmax+λL_dccl

其中，λ是一个超参数用于控制不同项的相对重要性，L_softmax为交叉熵损失函数，L_dccl为提出的双分支余弦对比损失函数。

本发明的另一技术方案是，一种基于同异质Transformer的遥感场景分类系统，包括：

Patch生成模块，分别使用直接划分方法和超像素分割方法把输入的遥感场景图片划分为异质Patch和同质Patch；

特征学习模块，使用异质特征学习分支和同质特征学习分支同时提取Patch生成模块划分的异质Patch和同质Patch中的异质信息和同质信息，基于Transformer结构提取遥感场景中的全局信息和局部知识及相关上下文信息，得到异质特征he-token0和同质特征ho-token0；

分类模块，融合特征学习模块得到的异质特征he-token0和同质特征ho-token0，通过结合度量学习机制增强特征区分性，最后根据融合后的特征完成遥感场景分类。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种基于同异质Transformer的遥感场景分类方法，同时挖掘遥感场景中的同质和异质信息，从而可以更加充分地解译遥感场景中的复杂内容，实现更好的分类性能。

进一步的，本发明提供的划分异质patch，利于特征学习模块从异质patch中充分地学习到遥感场景中的异质信息。

进一步的，本发明提供的划分同质patch，便于特征学习模块从同质patch中充分地学习到遥感场景中的同质信息，从而对异质信息进行互相补充，全面学习到遥感场景的特征，建立更加全面的遥感场景表示。

进一步的，通过把异质patch进行映射为一组向量并加上位置信息，有利于特征学习模块提取异质patch之间的上下文依赖关系，同时又能保持原先的位置信息，防止空间位置顺序错乱。

进一步的，异质嵌入Patchz₀，经过l层编码可以充分地提取遥感场景的全局信息，从而得到遥感场景的异质特征。

进一步的，通过MSA可以提取不同特征子空间的特征表示，多个子空间并行挖掘遥感场景内部的信息，利于充分理解遥感场景中的内容。

进一步的，混合后的分类分数结合了同质信息和异质信息，从而得到的分类分数更加全面，更具鲁棒性。

进一步的，度量学习机制使用双分支余弦对比损失函数在特征空间中减少类间相似度和增加类内相似度，采用同异质分类损失函数增强同异质Transformer特征表示的区分性，可以让相同类别的遥感场景的特征距离更小，不同类别的遥感场景的特征距离更大，从而更加容易区分遥感场景的类别，利于更好地完成分类。

进一步的，双分支余弦对比损失函数拉近相同类别的遥感场景的特征距离，拉远不同类别的遥感场景的特征距离，从而更加利于区分不同类别的遥感场景。同异质分类损失结合了双分支余弦对比损失函数和交叉熵损失函数，既可以区分不同类别遥感场景特征，又建立了遥感场景特征与其对应语义标签之间的关系，从而促进特征学习模块提取的特征更加鲁棒，更加有利于完成遥感场景分类。

综上所述，本发明同时提取遥感场景的同质信息和异质信息，从而更加全面、充分地提取到遥感场景的特征，并提出同异质分类损失函数，增加类内相似性和类间区分性，考虑到了遥感场景复杂多样的特点，最终建立更加鲁棒的遥感场景特征表示，具有优异的分类性能。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为同异质Transformer框架图；

图2为同质Patch生成模块图；

图3为Transformer Encoder结构图，其中，(a)为异质，(b)为同质；

图4为缩放点积注意力机制示意图；

图5是HHCL特征空间展示图，其中，(a)为原始softmax loss特征空间图，(b)为HHCL特征空间图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明提供了一种基于同异质Transformer的遥感场景分类方法，采用Patch生成模块分别使用直接划分方法和超像素分割方法把输入的遥感场景图片划分为异质Patch和同质Patch；然后使用特征学习模块同时提取同质信息和异质信息，从而更加全面的学习遥感场景中的内容。特征学习模块中嵌入Transformer结构，充分提取遥感场景中的全局信息和局部知识及相关上下文信息；然后采用分类模块，一方面融合两个分支的特征，另一方面通过结合度量学习机制，增强特征区分性，使得同类样本距离更小，不同类样本距离更大；最后根据融合后的特征完成遥感场景分类任务。

请参阅图1，本发明一种基于同异质Transformer的遥感场景分类方法，包括以下步骤：

考虑到遥感场景中的复杂内容，本发明提出了一个Patch生成模块来生成不同类型的Patch。该模块包含两个子模块，分别是异质Patch生成模块和同质Patch生成模块。

生成异质Patch具体为：

在异质Patch生成模块中，把一个遥感场景图片直接均匀划分为一组不重叠的Patch，从而得到一组异质的Patch。每个Patch具有固定的大小，即具有相同的长度、宽度和通道数。此外，每一个Patch包含的内容多样，包含“大树”和“建筑物”两个地物目标，具有异质的信息。

除了异质信息，同质信息对于遥感场景的解译也很重要，如图2所示，在同质Patch生成模块中，生成同质Patch具体为：

首先使用SLIC超像素分割方法把一张遥感场景图片划分为一系列的超像素；

接着取出每一个超像素，这里以一个超像素为例进行介绍，其他超像素做法相同，找到一个超像素的四个边界顶点，从而得一个规则区域；

然后算出该区域的中心位置，并以质心为初始点向周围扩张为32x32像素的区域，从而得到一个指定大小的Patch，即同质的Patch，进而一张图片被划分为一系列的同质Patch。

S2、特征学习模块

Patch生成模块生成的同质Patch和异质Patch包含的信息是互补的，为了充分学习到Patch中的信息，本发明提出一个双分支的特征学习模块，同时学习同质信息和异质信息。如图1所示，特征学习模块包含一个异质特征学习分支和一个同质特征学习分支，两个分支结构相同，下面以异质特征学习分支为例进行介绍。

首先，把Patch生成模块生成的异质Patch线性映射为一组Patch嵌入向量，接着和一个分类向量he-token级联在一起，然后和位置嵌入相加，从而保留每个Patch的位置信息，并得到最终输入He-transformer Encoder的异质嵌入Patch z₀，定义如下：

其中，E表示线性映射矩阵，

表示第i个异质Patch，E_pos表示位置嵌入，z₀会被输入到He-transformer Encoder用来提取异质特征。

作为异质特征学习分支中最关键的部分，He-transformer Encoder能够提取全局信息和局部区域的上下文依赖。如图3(a)所示，He-transformer Encoder包含L个相同层，每层包含一个多头自注意力(Multihead Self-Attention，MSA)子层和一个多层感知机子层(Multilayer Perceptron，MLP)，每一个子层的前面会有一个层归一化(Layernorm，LN)，每一个子层的后面会有一个残差连接，从而第l层的输出表示如下：

其中，z_l是经过l层编码得到的场景表示，然后使用z_l中的第一个元素

经过一个LN层得到最终的异质特征表示he-token0。

对于同质Patch，采用相同方法得到同质特征表示ho-token0。

MSA是He-transformer Encoder的关键部分，旨在探索来自不同子空间的Patch嵌入之间的上下文信息。在详细解释MSA之前，首先介绍自注意力头(self-attention head)函数。如图4所示，self-attention head函数实际上是缩放点积注意力机制，用于建立输入Patch中元素之间的关系，计算过程如公式(4)所示。

其中，{Q,K,V}表示一个输入的数据，

是一个缩放因子，softmax(.)表示softmax函数。

MSA并行的执行多个self-attention head函数，之后把并行结果拼接，得到最终的MSA输出。

对于输入的z_l-1，MSA计算如下：

MSA(z_l-1)＝Concat(head₁,...,head_n)W^O (5)

其中，W^O表示可学习矩阵，head_i表示第i个self-attention head函数，head_i计算如下：

其中，

是可学习的参数矩阵。

S3、分类模块

包含一个分类融合子模块和一个度量学习子模块。在分类融合模块中，对于特征学习模块中学到的异质特征he-token0和同质特征ho-token0，分别经过一个MLP head层得到分类分数he-class和ho-class。

混合后的分类分数为S，定义如下：

最后使用softmax loss进行优化。

在度量学习子模块中，本发明提出一个双分支余弦对比损失(dual cosinecontrastive loss)函数，用来在特征空间中减少类间相似度和增加类内相似度，提出的双分支余弦对比损失损失函数L_dccl定义如下：

其中，

和

分别用来优化特征学习模块中的异质特征学习分支和同质特征学习分支，N是一个batch的大小，cossim(.,.)是余弦相似度，α用来约束类间距离。

使用提出的双分支余弦对比损失函数进行训练样本后，如附图5所示，来自相同场景类别的样本特征距离更小，来自不同遥感场景类别的样本距离更大。

最后，一个联合损失函数叫做同异质分类损失(HHCL)函数被提出用于增强同异质Transformer特征表示的区分性，定义如下：

L_hhcl＝L_softmax+λL_dccl

(9)

其中，λ是一个超参数用于控制不同项的相对重要性。

本发明再一个实施例中，提供一种基于同异质Transformer的遥感场景分类系统，该系统能够用于实现上述基于同异质Transformer的遥感场景分类方法，具体的，该基于同异质Transformer的遥感场景分类系统包括Patch生成模块、特征学习模块以及分类模块。

其中，Patch生成模块，分别使用直接划分方法和超像素分割方法把输入的遥感场景图片划分为异质Patch和同质Patch；

本发明再一个实施例中，提供了一种终端设备，该终端设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于基于同异质Transformer的遥感场景分类方法的操作，包括：

分别使用直接划分方法和超像素分割方法把输入的遥感场景图片划分为异质Patch和同质Patch；使用异质特征学习分支和同质特征学习分支同时提取划分的异质Patch和同质Patch中的异质信息和同质信息，基于Transformer结构提取遥感场景中的全局信息和局部知识及相关上下文信息，得到异质特征he-token0和同质特征ho-token0；融合异质特征he-token0和同质特征ho-token0，通过结合度量学习机制增强特征区分性，最后根据融合后的特征完成遥感场景分类。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是终端设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。

可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关基于同异质Transformer的遥感场景分类方法的相应步骤；计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤：

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

(1)遥感场景中的异质信息和同质信息是互补的，同时提取遥感场景中的异质信息和同质信息可以更加全面的挖掘遥感场景的特征信息，从而建立更加鲁棒的场景特征表示。

(2)Transformer通过多头自注意力机制学习Patch之间的依赖关系，可以更好地建模遥感场景的全局上下文信息，具有更强的特征表示能力。

(3)提出的同异质分类损失，可以减小相同场景类别的样本之间的距离，增大不同场景类别的样本之间的距离。度量学习机制的引入相对于只使用交叉熵损失函数，可以增强特征的可区分性。

在UCM，AID，NWPU三个数据集上证明了我们方法的有效性。对比方法有：T2T-ViT-12，PiT-S，PVT-Medium，Fine-tuned AlexNet+SVM，DCNN with AlexNet，VGG-16-CapsNet，SCCov，MIDC-Net_CS，EFPN-DSE-TDFF，SF-CNN with VGGNet，EfficientNet-B0-aux[10]，MG-CAP(Sqrt-E)。结果如下：

表1 UCM数据集结果

表2 AID数据集结果

表3 NWPU数据集结果

综上所述，本发明一种基于同异质Transformer的遥感场景分类方法，同时提取同质信息和异质信息，全面地解译遥感场景内容，建立了更加鲁棒的特征表示，在UCM、AID、NWPU三个具有挑战性的数据集上都取得了优秀的分类结果，证明了我们方法的有效性。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于同异质Transformer的遥感场景分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤S1中，划分异质Patch具体为：

3.根据权利要求1所述的方法，其特征在于，步骤S1中，划分同质Patch具体为：

4.根据权利要求1所述的方法，其特征在于，步骤S2中，对于异质Patch，将异质Patch线性映射为一组Patch嵌入向量，然后和位置嵌入相加，保留每个Patch的位置信息，得到最终输入He-transformer Encoder的异质嵌入Patch z₀，通过He-transformer Encoder提取全局信息和局部区域的上下文依赖，使用经过l层编码得到的场景z_l中的第一个元素