CN115424059A

CN115424059A - 一种基于像素级对比学习的遥感土地利用分类方法

Info

Publication number: CN115424059A
Application number: CN202211018722.0A
Authority: CN
Inventors: 曾麦脉; 顾祝军; 扶卿华; 刁品文; 刘亚飞; 吴家晟; 陈谢宁; 林带娣
Original assignee: Pearl River Hydraulic Research Institute of PRWRC
Current assignee: Pearl River Hydraulic Research Institute of PRWRC
Priority date: 2022-08-24
Filing date: 2022-08-24
Publication date: 2022-12-02
Anticipated expiration: 2042-08-24
Also published as: CN115424059B

Abstract

本发明公开了一种基于像素级对比学习的遥感土地利用分类方法，该分类方法主要由编码器、网络适配器和解码器三个部分组成，所述编码器有四个阶段，每个block由Transformer构成，所述网络适配器由三个部分组成，分别为：空间先验模块、特征映射器和特征提取器，本发明所使用的一元分类方法交叉熵损失函数与像素级对比学习具有互补优势，通过像素级对比学习，研究训练图像像素之间的全局语义关系，引导像素嵌入到交叉图像类别的区分表示，最终提高分割性能，该方法在密集图像预测任务中产生了良好的结果，并且在此基础上还设计了Semantic Layer来捕获图像的语义上下文，增强了特征映射的语义表示，可以提高像素级对比学习的效率，提高分割性能。

Description

一种基于像素级对比学习的遥感土地利用分类方法

技术领域

本发明涉及土地利用技术领域，具体为一种基于像素级对比学习的遥感土地利用分类方法。

背景技术

随着经济的快速发展，人类社会为寻求经济利益的最大化，进行了各种各样的研究活动，这也加快人类了对土地资源的开采和消耗，从而产生了环境污染、资源匮乏等世界性问题，过度的城镇扩张、建设用地与耕地规划不合理等问题都会使环境资源严重萎缩，环境污染日益严重，这同时也制约了我国的可持续发展战略，鉴于遥感技术全面、动态、快速的特点，遥感技术已经被国家用于掌握土地资源利用变化、环境污染监测等方面，从而制定合理高效的土地利用规划，保障人民的生命财产安全，完成环境资源的长期利用的目标，且针对土地利用变化进行分析，探讨其原因可以了解到进行土地利用分析的关键性和巨大的意义；

中国专利公开了一种自注意力多尺度特征融合的遥感图像语义分割方法，申请号为：202210308387.1，在该专利中提出了分割网络包括特征编码器和解码器，特征编码器将前三个阶段不同尺度大小的特征图传递给解码器中对应的自注意力多尺度特征融合模块，解码器从最后一个阶段的特征图开始上采样并与自注意力多尺度特征融合的特征图进行叠加，逐步进行直到和第一阶段的特征图尺度一样，最后将所有尺度的特征图分别上采样至原图大小并对每个像素预测分类，并将四个尺度的预测结果进行融合得到最终的遥感图像语义分割结果；

而目前现有技术中使用Swin Transformer作为特征提取网络，但是SwinTransformer与传统的卷积神经网络引入的归纳偏差不同，该方法缺少图像的先验信息，因此在密集任务中表现较差，并且，现有技术只关注于挖掘单个图像中像素之间的依赖关系，但忽略了不同图像之间存在的丰富的语义关系，无法更好的利用图像间上下文语义信息，使得预测精度不高。

发明内容

本发明提供一种基于像素级对比学习的遥感土地利用分类方法，可以有效解决上述背景技术中提出目前现有技术中使用Swin Transformer作为特征提取网络，但是SwinTransformer与传统的卷积神经网络引入的归纳偏差不同，该方法缺少图像的先验信息，因此在密集任务中表现较差，并且，现有技术只关注于挖掘单个图像中像素之间的依赖关系，但忽略了不同图像之间存在的丰富的语义关系，无法更好的利用图像间上下文语义信息，使得预测精度不高的问题。

为实现上述目的，本发明提供如下技术方案：一种基于像素级对比学习的遥感土地利用分类方法，该分类方法主要由编码器、网络适配器和解码器三个部分组成；

所述编码器有四个阶段，每个block由Transformer构成，所述网络适配器由三个部分组成，分别为：空间先验模块、特征映射器和特征提取器，所述解码器有两个，分别为语义解码器和特征解码器；

其中，还包括使用集成学习生成训练样本，且使用集成学习生成训练样本具体分为标注具有显著性特征和典型的地物类型以及使用集成学习方式训练模型生成训练样本；

分类方法具体包括如下步骤：

步骤1、构建土地利用分类网络；

步骤2、对图像编码进行空间映射；

步骤3、计算具有先验信息的特征向量；

步骤4、通过特征提取器获取各阶段特征图；

步骤5、对每个阶段的特征图进行融合；

步骤6、对融合结果计算损失。

根据上述技术方案，所述编码器的四个阶段具体为：将图像输入到PatchEmbedding层，将图像分割成固定大小的Patch，并对每个patch做Linear Embedding，添加位置信息，得到向量序列，将向量序列输入到block中，得到特征向量。

根据上述技术方案，所述网络适配器引入归纳偏差与视觉先验信息，通过空间先验模块捕获输入图像的本地语义信息，将提取出的语义信息通过特征映射器将语义信息注入到主干网络中，使用特征提取器重建每个阶段得到多尺度信息，以适应密集预测任务。

根据上述技术方案，所述语义解码器主要是在主干网络的每一个阶段后增加一个语义层(Semantic Layer)以捕获编码器网络中的语义上下文，每个阶段的语义映射使用一个简单的上样本+和操作进行聚合，最后通过

计算损失函数；

特征解码器的作用是融合多尺度的特征映射，获取遥感图像中不同大小的物体信息，在特征解码器中既关注图像的空间信息，又关注不同物体间的尺度信息，使用

计算损失函数。

根据上述技术方案，所述标注具有显著性特征和典型的地物类型具体指选择具有显著性特征和典型地物的图片进行标注构成数据集(V1)，V1中的图片地物类型应是显而易见且边界清晰的，V1中应保证包括土地利用的所有类别；

使用集成学习方式训练模型生成训练样本具体指将V1数据集放入多个网络模型中进行训练，按照集成学习范式得到标签，通过标签可视化结果，对结果进行微调后得到训练样本，结合策略根据下式，来设置不同的值，使用不同结合策略：

output＝λ₁output1+λ₂output2+...+λ_noutputn。

根据上述技术方案，所述步骤1中，构建土地利用分类网络主要包括编码器、主干网络适配器、特征解码器和语义解码器；

所述步骤2中，是指将图像输入Patch Embedding层，把图像分成16*16个patch，每个patch的大小为32*32，对每个patch使用cnn进行编码并拉伸成768维的输入向量，再加上位置编码向量，作为主干网络的输入向量。

根据上述技术方案，所述步骤3中，将图像输入至空间先验模块，通过三个卷积层和一个最大池化层，得到局部空间上下文特征向量，最后将特征向量经过3个1*1的卷积，得到一个多尺寸的金字塔特征向量；

将金字塔特征向量和步骤2中的输入向量输入到特征映射器，金字塔特征向量作为键和值，输入向量作为查询；

根据公式(1)计算得到具有先验信息的特征向量，与步骤2中的图像向量拼接，作为第一阶段Block的输入；

根据上述技术方案，所述步骤4中，根据步骤3，交换具有先验信息的特征向量和主干网络特征的向量的作用，即以输入向量作为键和值，以特征向量作为查询，通过特征提取器得到第一阶段的特征图，以此类推得到第二阶段、第三阶段、第四阶段的特征图；

计算方式如公式(2)，公式(3)所示：

根据上述技术方案，所述步骤5中，将每个阶段得到的特征图，上采样至相同的维度，在channel方向进行拼接并降维，在遥感图像处理中，物体的尺寸变化较大，使用空间注意力机制关注多尺度特征图的空间信息，使用通道注意力机制关注多尺度信息，该设计方式既保留多尺度信息，又学习到了图像的空间信息；

对空间信息和尺度信息进行特征融合，对融合结果进行分类，对分类结果使用交叉熵损失函数计算损失并进行优化；

计算公式如(4)所示：

根据上述技术方案，所述步骤6中，每个阶段得到的特征图，经过一个SemanticLayer层，对语义上下文进行建模，融合每个阶段的多尺度的语义信息，通过公式(5)对融合结果计算损失；

Semantic Layer层的关键在于引入可学习性Query，以重叠的方式在局部聚合输入，具有比卷积更强的表征能力，通过该层学习语义信息之间的相关性，获取单个图像之间和batch中不同图像之间的语义相关性，使用不同尺度的特征图，获取不同尺度下的语义相关性，并对不同尺度之间的语义信息进行融合，映射到一个统一的语义嵌入空间；

在语义嵌入空间中，利用像素级对比损失进一步塑造语义嵌入空间，对于正像素强制嵌入相似，而对于负像素强制嵌入不同，以此捕获语义嵌入空间的全局属性，能更好的反映训练数据的内在结构，实现更准确的预测结果，在训练过程中给出像素级的分类信息，即正样本是属于同一类的像素，负样本是来自不同类别的像素，

其中i⁺代表正样本，属于同一标签的像素i为正样本，负样本为属于其他标签的像素i，用i^-表示；

p_i和N_i表示正样本和负样本的像素嵌入集合，核心在于正负样本的来源并不局限于同一图像，而是来自于一个batch中的所有图像；

正负样本的数据存储在记忆库中，记忆库中维护了每个类别的像素队列，从训练的批训练图像中随机抽取一部分像素加入到像素队列中，构成记忆库，在计算公式(5)时，随机从记忆库采取K个正样本和负样本。

与现有技术相比，本发明的有益效果：本发明结构科学合理，使用安全方便：

本发明所使用的一元分类方法交叉熵损失函数与像素级对比学习具有互补优势，通过像素级对比学习，研究训练图像像素之间的全局语义关系，引导像素嵌入到交叉图像类别的区分表示，最终提高分割性能，该方法在密集图像预测任务中产生了良好的结果，并且在此基础上还设计了Semantic Layer来捕获图像的语义上下文，增强了特征映射的语义表示，可以提高像素级对比学习的效率，进一步提高分割性能。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明分类方法的步骤流程图；

图2是本发明原图和标注图的对比示意图；

图3是本发明集成学习范式的示意图；

图4是本发明标签生成策略的示意图；

图5是本发明Semantic Layer层的示意图；

图6是本发明上下文信息特征的对比示意图；

图7是本发明block的构成示意图；

图8是本发明网络适配器的组成示意图；

图9是本发明网络模型的设计示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例：本发明提供一种技术方案，一种基于像素级对比学习的遥感土地利用分类方法，该分类方法主要由编码器、网络适配器和解码器三个部分组成，网络模型及每个部分详细设计如图9所示；

编码器有四个阶段，每个block由Transformer构成，如图7所示，网络适配器由三个部分组成，如图8所示，分别为：空间先验模块、特征映射器和特征提取器，解码器有两个，分别为语义解码器和特征解码器；

如图1所示，分类方法具体包括如下步骤：

步骤1、构建土地利用分类网络；

步骤2、对图像编码进行空间映射；

步骤3、计算具有先验信息的特征向量；

步骤4、通过特征提取器获取各阶段特征图；

步骤5、对每个阶段的特征图进行融合；

步骤6、对融合结果计算损失。

基于上述技术方案，编码器的四个阶段具体为：将图像输入到Patch Embedding层，将图像分割成固定大小的Patch，并对每个patch做Linear Embedding，添加位置信息，得到向量序列，将向量序列输入到block中，得到特征向量。

基于上述技术方案，网络适配器引入归纳偏差与视觉先验信息，通过空间先验模块捕获输入图像的本地语义信息，将提取出的语义信息通过特征映射器将语义信息注入到主干网络中，使用特征提取器重建每个阶段得到多尺度信息，以适应密集预测任务。

基于上述技术方案，语义解码器主要是在主干网络的每一个阶段后增加一个语义层(Semantic Layer)以捕获编码器网络中的语义上下文，每个阶段的语义映射使用一个简单的上样本+和操作进行聚合，最后通过

计算损失函数；

特征解码器的作用是聚合不同阶段的特征映射，通过一系列卷积、双线性上采样和运算融合了来自不同阶段的特征，使用

计算损失函数。

基于上述技术方案，标注具有显著性特征和典型的地物类型具体指选择具有显著性特征和典型地物的图片进行标注构成数据集(V1)，原图和标注图如图2所示，V1中的图片地物类型应是显而易见且边界清晰的，V1中应保证包括土地利用的所有类别；

使用集成学习方式训练模型生成训练样本具体指将V1数据集放入多个网络模型中进行训练，按照集成学习范式得到标签，如图3所示，通过标签可视化结果，对结果进行微调后得到训练样本，结合策略根据下式，来设置不同的值，使用不同结合策略：

output＝λ₁output1+λ₂output2+...+λ_noutputn。

如图4所示，标签生成策略，net_1、net_2、net_3是不同网络输出的标签值，采用投票策略得出结果，该结果根据多个网络的输出投票选出，对生成的标签图片进行微调，作为训练样本；

假设三个网络的值(即权重)分别为1、1.5、1，以第三行第二列为例，三个网络的输出分别3，1，2，三个网络的输出都不相同，但是根据三个网络的权重，因此以第二个网络的值作为结果。

基于上述技术方案，步骤1中，如图6所示，构建土地利用分类网络主要包括编码器、主干网络适配器、特征解码器和语义解码器，在图6中，第一张图为目前只关注于挖掘单个图像间的上下文信息学习到的特征的可视化结果，第二张图为本发明中使用的像素级对比学习到的特征的可视化结果，由可视化结果图可以看出本发明分类方法有效性；

步骤2中，是指将图像输入Patch Embedding层，把图像分成16*16个patch，每个patch的大小为32*32，对每个patch使用cnn进行编码并拉伸成768维的输入向量，再加上位置编码向量，作为主干网络的输入向量。

基于上述技术方案，步骤3中，将图像输入至空间先验模块，通过三个卷积层和一个最大池化层，得到局部空间上下文特征向量，最后将特征向量经过3个1*1的卷积，得到一个多尺寸的金字塔特征向量；

基于上述技术方案，步骤4中，根据步骤3，交换具有先验信息的特征向量和主干网络特征的向量的作用，即以输入向量作为键和值，以特征向量作为查询，通过特征提取器得到第一阶段的特征图，以此类推得到第二阶段、第三阶段、第四阶段的特征图；

计算方式如公式(2)，公式(3)所示：

如图5所示：根据上述技术方案，所述步骤6中，每个阶段得到的特征图，经过一个Semantic Layer层，对语义上下文进行建模，融合每个阶段的多尺度的语义信息，通过公式(5)对融合结果计算损失；

最后应说明的是：以上所述仅为本发明的优选实例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于像素级对比学习的遥感土地利用分类方法，其特征在于：该分类方法主要由编码器、网络适配器和解码器三个部分组成；

分类方法具体包括如下步骤：

步骤1、构建土地利用分类网络；

步骤2、对图像编码进行空间映射；

步骤3、计算具有先验信息的特征向量；

步骤4、通过特征提取器获取各阶段特征图；

步骤5、对每个阶段的特征图进行融合；

步骤6、对融合结果计算损失。

2.根据权利要求1所述的一种基于像素级对比学习的遥感土地利用分类方法，其特征在于：所述编码器的四个阶段具体为：将图像输入到Patch Embedding层，将图像分割成固定大小的Patch，并对每个Patch做Linear Embedding，添加位置信息，得到向量序列，将向量序列输入到block中，得到特征向量。

3.根据权利要求1所述的一种基于像素级对比学习的遥感土地利用分类方法，其特征在于：所述网络适配器引入归纳偏差与视觉先验信息，通过空间先验模块捕获输入图像的本地语义信息，将提取出的语义信息通过特征映射器将语义信息注入到主干网络中，使用特征提取器重建每个阶段得到多尺度信息，以适应密集预测任务。

4.根据权利要求1所述的一种基于像素级对比学习的遥感土地利用分类方法，其特征在于：所述语义解码器主要是在主干网络的每一个阶段后增加一个语义层以捕获编码器网络中的语义上下文，每个阶段的语义映射使用一个简单的上样本+和操作进行聚合，最后通过

计算损失函数；

计算损失函数。

5.根据权利要求1所述的一种基于像素级对比学习的遥感土地利用分类方法，其特征在于：所述标注具有显著性特征和典型的地物类型具体指选择具有显著性特征和典型地物的图片进行标注构成数据集V1，V1中的图片地物类型应是显而易见且边界清晰的，V1中应保证包括土地利用的所有类别；

output＝λ₁output1+λ₂output2+...+λ_noutputn。

6.根据权利要求1所述的一种基于像素级对比学习的遥感土地利用分类方法，其特征在于：所述步骤1中，构建土地利用分类网络主要包括编码器、主干网络适配器、特征解码器和语义解码器；

7.根据权利要求6所述的一种基于像素级对比学习的遥感土地利用分类方法，其特征在于：所述步骤3中，将图像输入至空间先验模块，通过三个卷积层和一个最大池化层，得到局部空间上下文特征向量，最后将特征向量经过3个1*1的卷积，得到一个多尺寸的金字塔特征向量；

8.根据权利要求7所述的一种基于像素级对比学习的遥感土地利用分类方法，其特征在于：所述步骤4中，根据步骤3，交换具有先验信息的特征向量和主干网络特征的向量的作用，即以输入向量作为键和值，以特征向量作为查询，通过特征提取器得到第一阶段的特征图，以此类推得到第二阶段、第三阶段、第四阶段的特征图；

计算方式如公式(2)，公式(3)所示：

9.根据权利要求8所述的一种基于像素级对比学习的遥感土地利用分类方法，其特征在于：所述步骤5中，将每个阶段得到的特征图，上采样至相同的维度，在channel方向进行拼接并降维；

对不同尺度的空间信息和尺度信息进行特征融合，对融合结果进行分类，对分类结果使用交叉熵损失函数计算损失优化网络学习结果；

计算公式如(4)所示：

10.根据权利要求8所述的一种基于像素级对比学习的遥感土地利用分类方法，其特征在于：所述步骤6中，每个阶段得到的特征图，经过一个Semantic Layer层，对语义上下文信息进行建模，融合每个阶段的不同尺度的语义信息，通过公式(5)对融合结果计算损失；

p_i和N_i表示正样本和负样本的像素嵌入集合，核心在于正负样本的来源并不局限于同一图像，而是来自于一个batch中的所有图像。