CN115424059A - 一种基于像素级对比学习的遥感土地利用分类方法 - Google Patents

一种基于像素级对比学习的遥感土地利用分类方法 Download PDF

Info

Publication number
CN115424059A
CN115424059A CN202211018722.0A CN202211018722A CN115424059A CN 115424059 A CN115424059 A CN 115424059A CN 202211018722 A CN202211018722 A CN 202211018722A CN 115424059 A CN115424059 A CN 115424059A
Authority
CN
China
Prior art keywords
feature
semantic
vector
information
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211018722.0A
Other languages
English (en)
Other versions
CN115424059B (zh
Inventor
曾麦脉
顾祝军
扶卿华
刁品文
刘亚飞
吴家晟
陈谢宁
林带娣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pearl River Hydraulic Research Institute of PRWRC
Original Assignee
Pearl River Hydraulic Research Institute of PRWRC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pearl River Hydraulic Research Institute of PRWRC filed Critical Pearl River Hydraulic Research Institute of PRWRC
Priority to CN202211018722.0A priority Critical patent/CN115424059B/zh
Publication of CN115424059A publication Critical patent/CN115424059A/zh
Application granted granted Critical
Publication of CN115424059B publication Critical patent/CN115424059B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于像素级对比学习的遥感土地利用分类方法,该分类方法主要由编码器、网络适配器和解码器三个部分组成,所述编码器有四个阶段,每个block由Transformer构成,所述网络适配器由三个部分组成,分别为:空间先验模块、特征映射器和特征提取器,本发明所使用的一元分类方法交叉熵损失函数与像素级对比学习具有互补优势,通过像素级对比学习,研究训练图像像素之间的全局语义关系,引导像素嵌入到交叉图像类别的区分表示,最终提高分割性能,该方法在密集图像预测任务中产生了良好的结果,并且在此基础上还设计了Semantic Layer来捕获图像的语义上下文,增强了特征映射的语义表示,可以提高像素级对比学习的效率,提高分割性能。

Description

一种基于像素级对比学习的遥感土地利用分类方法
技术领域
本发明涉及土地利用技术领域,具体为一种基于像素级对比学习的遥感土地利用分类方法。
背景技术
随着经济的快速发展,人类社会为寻求经济利益的最大化,进行了各种各样的研究活动,这也加快人类了对土地资源的开采和消耗,从而产生了环境污染、资源匮乏等世界性问题,过度的城镇扩张、建设用地与耕地规划不合理等问题都会使环境资源严重萎缩,环境污染日益严重,这同时也制约了我国的可持续发展战略,鉴于遥感技术全面、动态、快速的特点,遥感技术已经被国家用于掌握土地资源利用变化、环境污染监测等方面,从而制定合理高效的土地利用规划,保障人民的生命财产安全,完成环境资源的长期利用的目标,且针对土地利用变化进行分析,探讨其原因可以了解到进行土地利用分析的关键性和巨大的意义;
中国专利公开了一种自注意力多尺度特征融合的遥感图像语义分割方法,申请号为:202210308387.1,在该专利中提出了分割网络包括特征编码器和解码器,特征编码器将前三个阶段不同尺度大小的特征图传递给解码器中对应的自注意力多尺度特征融合模块,解码器从最后一个阶段的特征图开始上采样并与自注意力多尺度特征融合的特征图进行叠加,逐步进行直到和第一阶段的特征图尺度一样,最后将所有尺度的特征图分别上采样至原图大小并对每个像素预测分类,并将四个尺度的预测结果进行融合得到最终的遥感图像语义分割结果;
而目前现有技术中使用Swin Transformer作为特征提取网络,但是SwinTransformer与传统的卷积神经网络引入的归纳偏差不同,该方法缺少图像的先验信息,因此在密集任务中表现较差,并且,现有技术只关注于挖掘单个图像中像素之间的依赖关系,但忽略了不同图像之间存在的丰富的语义关系,无法更好的利用图像间上下文语义信息,使得预测精度不高。
发明内容
本发明提供一种基于像素级对比学习的遥感土地利用分类方法,可以有效解决上述背景技术中提出目前现有技术中使用Swin Transformer作为特征提取网络,但是SwinTransformer与传统的卷积神经网络引入的归纳偏差不同,该方法缺少图像的先验信息,因此在密集任务中表现较差,并且,现有技术只关注于挖掘单个图像中像素之间的依赖关系,但忽略了不同图像之间存在的丰富的语义关系,无法更好的利用图像间上下文语义信息,使得预测精度不高的问题。
为实现上述目的,本发明提供如下技术方案:一种基于像素级对比学习的遥感土地利用分类方法,该分类方法主要由编码器、网络适配器和解码器三个部分组成;
所述编码器有四个阶段,每个block由Transformer构成,所述网络适配器由三个部分组成,分别为:空间先验模块、特征映射器和特征提取器,所述解码器有两个,分别为语义解码器和特征解码器;
其中,还包括使用集成学习生成训练样本,且使用集成学习生成训练样本具体分为标注具有显著性特征和典型的地物类型以及使用集成学习方式训练模型生成训练样本;
分类方法具体包括如下步骤:
步骤1、构建土地利用分类网络;
步骤2、对图像编码进行空间映射;
步骤3、计算具有先验信息的特征向量;
步骤4、通过特征提取器获取各阶段特征图;
步骤5、对每个阶段的特征图进行融合;
步骤6、对融合结果计算损失。
根据上述技术方案,所述编码器的四个阶段具体为:将图像输入到PatchEmbedding层,将图像分割成固定大小的Patch,并对每个patch做Linear Embedding,添加位置信息,得到向量序列,将向量序列输入到block中,得到特征向量。
根据上述技术方案,所述网络适配器引入归纳偏差与视觉先验信息,通过空间先验模块捕获输入图像的本地语义信息,将提取出的语义信息通过特征映射器将语义信息注入到主干网络中,使用特征提取器重建每个阶段得到多尺度信息,以适应密集预测任务。
根据上述技术方案,所述语义解码器主要是在主干网络的每一个阶段后增加一个语义层(Semantic Layer)以捕获编码器网络中的语义上下文,每个阶段的语义映射使用一个简单的上样本+和操作进行聚合,最后通过
Figure BDA0003813198160000041
计算损失函数;
特征解码器的作用是融合多尺度的特征映射,获取遥感图像中不同大小的物体信息,在特征解码器中既关注图像的空间信息,又关注不同物体间的尺度信息,使用
Figure BDA0003813198160000042
计算损失函数。
根据上述技术方案,所述标注具有显著性特征和典型的地物类型具体指选择具有显著性特征和典型地物的图片进行标注构成数据集(V1),V1中的图片地物类型应是显而易见且边界清晰的,V1中应保证包括土地利用的所有类别;
使用集成学习方式训练模型生成训练样本具体指将V1数据集放入多个网络模型中进行训练,按照集成学习范式得到标签,通过标签可视化结果,对结果进行微调后得到训练样本,结合策略根据下式,来设置不同的值,使用不同结合策略:
output=λ1output1+λ2output2+...+λnoutputn。
根据上述技术方案,所述步骤1中,构建土地利用分类网络主要包括编码器、主干网络适配器、特征解码器和语义解码器;
所述步骤2中,是指将图像输入Patch Embedding层,把图像分成16*16个patch,每个patch的大小为32*32,对每个patch使用cnn进行编码并拉伸成768维的输入向量,再加上位置编码向量,作为主干网络的输入向量。
根据上述技术方案,所述步骤3中,将图像输入至空间先验模块,通过三个卷积层和一个最大池化层,得到局部空间上下文特征向量,最后将特征向量经过3个1*1的卷积,得到一个多尺寸的金字塔特征向量;
将金字塔特征向量和步骤2中的输入向量输入到特征映射器,金字塔特征向量作为键和值,输入向量作为查询;
根据公式(1)计算得到具有先验信息的特征向量,与步骤2中的图像向量拼接,作为第一阶段Block的输入;
Figure BDA0003813198160000051
根据上述技术方案,所述步骤4中,根据步骤3,交换具有先验信息的特征向量和主干网络特征的向量的作用,即以输入向量作为键和值,以特征向量作为查询,通过特征提取器得到第一阶段的特征图,以此类推得到第二阶段、第三阶段、第四阶段的特征图;
计算方式如公式(2),公式(3)所示:
Figure BDA0003813198160000052
Figure BDA0003813198160000053
根据上述技术方案,所述步骤5中,将每个阶段得到的特征图,上采样至相同的维度,在channel方向进行拼接并降维,在遥感图像处理中,物体的尺寸变化较大,使用空间注意力机制关注多尺度特征图的空间信息,使用通道注意力机制关注多尺度信息,该设计方式既保留多尺度信息,又学习到了图像的空间信息;
对空间信息和尺度信息进行特征融合,对融合结果进行分类,对分类结果使用交叉熵损失函数计算损失并进行优化;
计算公式如(4)所示:
Figure BDA0003813198160000054
根据上述技术方案,所述步骤6中,每个阶段得到的特征图,经过一个SemanticLayer层,对语义上下文进行建模,融合每个阶段的多尺度的语义信息,通过公式(5)对融合结果计算损失;
Figure BDA0003813198160000061
Semantic Layer层的关键在于引入可学习性Query,以重叠的方式在局部聚合输入,具有比卷积更强的表征能力,通过该层学习语义信息之间的相关性,获取单个图像之间和batch中不同图像之间的语义相关性,使用不同尺度的特征图,获取不同尺度下的语义相关性,并对不同尺度之间的语义信息进行融合,映射到一个统一的语义嵌入空间;
在语义嵌入空间中,利用像素级对比损失进一步塑造语义嵌入空间,对于正像素强制嵌入相似,而对于负像素强制嵌入不同,以此捕获语义嵌入空间的全局属性,能更好的反映训练数据的内在结构,实现更准确的预测结果,在训练过程中给出像素级的分类信息,即正样本是属于同一类的像素,负样本是来自不同类别的像素,
其中i+代表正样本,属于同一标签的像素i为正样本,负样本为属于其他标签的像素i,用i-表示;
pi和Ni表示正样本和负样本的像素嵌入集合,核心在于正负样本的来源并不局限于同一图像,而是来自于一个batch中的所有图像;
正负样本的数据存储在记忆库中,记忆库中维护了每个类别的像素队列,从训练的批训练图像中随机抽取一部分像素加入到像素队列中,构成记忆库,在计算公式(5)时,随机从记忆库采取K个正样本和负样本。
与现有技术相比,本发明的有益效果:本发明结构科学合理,使用安全方便:
本发明所使用的一元分类方法交叉熵损失函数与像素级对比学习具有互补优势,通过像素级对比学习,研究训练图像像素之间的全局语义关系,引导像素嵌入到交叉图像类别的区分表示,最终提高分割性能,该方法在密集图像预测任务中产生了良好的结果,并且在此基础上还设计了Semantic Layer来捕获图像的语义上下文,增强了特征映射的语义表示,可以提高像素级对比学习的效率,进一步提高分割性能。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明分类方法的步骤流程图;
图2是本发明原图和标注图的对比示意图;
图3是本发明集成学习范式的示意图;
图4是本发明标签生成策略的示意图;
图5是本发明Semantic Layer层的示意图;
图6是本发明上下文信息特征的对比示意图;
图7是本发明block的构成示意图;
图8是本发明网络适配器的组成示意图;
图9是本发明网络模型的设计示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例:本发明提供一种技术方案,一种基于像素级对比学习的遥感土地利用分类方法,该分类方法主要由编码器、网络适配器和解码器三个部分组成,网络模型及每个部分详细设计如图9所示;
编码器有四个阶段,每个block由Transformer构成,如图7所示,网络适配器由三个部分组成,如图8所示,分别为:空间先验模块、特征映射器和特征提取器,解码器有两个,分别为语义解码器和特征解码器;
其中,还包括使用集成学习生成训练样本,且使用集成学习生成训练样本具体分为标注具有显著性特征和典型的地物类型以及使用集成学习方式训练模型生成训练样本;
如图1所示,分类方法具体包括如下步骤:
步骤1、构建土地利用分类网络;
步骤2、对图像编码进行空间映射;
步骤3、计算具有先验信息的特征向量;
步骤4、通过特征提取器获取各阶段特征图;
步骤5、对每个阶段的特征图进行融合;
步骤6、对融合结果计算损失。
基于上述技术方案,编码器的四个阶段具体为:将图像输入到Patch Embedding层,将图像分割成固定大小的Patch,并对每个patch做Linear Embedding,添加位置信息,得到向量序列,将向量序列输入到block中,得到特征向量。
基于上述技术方案,网络适配器引入归纳偏差与视觉先验信息,通过空间先验模块捕获输入图像的本地语义信息,将提取出的语义信息通过特征映射器将语义信息注入到主干网络中,使用特征提取器重建每个阶段得到多尺度信息,以适应密集预测任务。
基于上述技术方案,语义解码器主要是在主干网络的每一个阶段后增加一个语义层(Semantic Layer)以捕获编码器网络中的语义上下文,每个阶段的语义映射使用一个简单的上样本+和操作进行聚合,最后通过
Figure BDA0003813198160000091
计算损失函数;
特征解码器的作用是聚合不同阶段的特征映射,通过一系列卷积、双线性上采样和运算融合了来自不同阶段的特征,使用
Figure BDA0003813198160000092
计算损失函数。
基于上述技术方案,标注具有显著性特征和典型的地物类型具体指选择具有显著性特征和典型地物的图片进行标注构成数据集(V1),原图和标注图如图2所示,V1中的图片地物类型应是显而易见且边界清晰的,V1中应保证包括土地利用的所有类别;
使用集成学习方式训练模型生成训练样本具体指将V1数据集放入多个网络模型中进行训练,按照集成学习范式得到标签,如图3所示,通过标签可视化结果,对结果进行微调后得到训练样本,结合策略根据下式,来设置不同的值,使用不同结合策略:
output=λ1output1+λ2output2+...+λnoutputn。
如图4所示,标签生成策略,net_1、net_2、net_3是不同网络输出的标签值,采用投票策略得出结果,该结果根据多个网络的输出投票选出,对生成的标签图片进行微调,作为训练样本;
假设三个网络的值(即权重)分别为1、1.5、1,以第三行第二列为例,三个网络的输出分别3,1,2,三个网络的输出都不相同,但是根据三个网络的权重,因此以第二个网络的值作为结果。
基于上述技术方案,步骤1中,如图6所示,构建土地利用分类网络主要包括编码器、主干网络适配器、特征解码器和语义解码器,在图6中,第一张图为目前只关注于挖掘单个图像间的上下文信息学习到的特征的可视化结果,第二张图为本发明中使用的像素级对比学习到的特征的可视化结果,由可视化结果图可以看出本发明分类方法有效性;
步骤2中,是指将图像输入Patch Embedding层,把图像分成16*16个patch,每个patch的大小为32*32,对每个patch使用cnn进行编码并拉伸成768维的输入向量,再加上位置编码向量,作为主干网络的输入向量。
基于上述技术方案,步骤3中,将图像输入至空间先验模块,通过三个卷积层和一个最大池化层,得到局部空间上下文特征向量,最后将特征向量经过3个1*1的卷积,得到一个多尺寸的金字塔特征向量;
将金字塔特征向量和步骤2中的输入向量输入到特征映射器,金字塔特征向量作为键和值,输入向量作为查询;
根据公式(1)计算得到具有先验信息的特征向量,与步骤2中的图像向量拼接,作为第一阶段Block的输入;
Figure BDA0003813198160000111
基于上述技术方案,步骤4中,根据步骤3,交换具有先验信息的特征向量和主干网络特征的向量的作用,即以输入向量作为键和值,以特征向量作为查询,通过特征提取器得到第一阶段的特征图,以此类推得到第二阶段、第三阶段、第四阶段的特征图;
计算方式如公式(2),公式(3)所示:
Figure BDA0003813198160000112
Figure BDA0003813198160000113
如图5所示:根据上述技术方案,所述步骤6中,每个阶段得到的特征图,经过一个Semantic Layer层,对语义上下文进行建模,融合每个阶段的多尺度的语义信息,通过公式(5)对融合结果计算损失;
Figure BDA0003813198160000114
Semantic Layer层的关键在于引入可学习性Query,以重叠的方式在局部聚合输入,具有比卷积更强的表征能力,通过该层学习语义信息之间的相关性,获取单个图像之间和batch中不同图像之间的语义相关性,使用不同尺度的特征图,获取不同尺度下的语义相关性,并对不同尺度之间的语义信息进行融合,映射到一个统一的语义嵌入空间;
在语义嵌入空间中,利用像素级对比损失进一步塑造语义嵌入空间,对于正像素强制嵌入相似,而对于负像素强制嵌入不同,以此捕获语义嵌入空间的全局属性,能更好的反映训练数据的内在结构,实现更准确的预测结果,在训练过程中给出像素级的分类信息,即正样本是属于同一类的像素,负样本是来自不同类别的像素,
其中i+代表正样本,属于同一标签的像素i为正样本,负样本为属于其他标签的像素i,用i-表示;
pi和Ni表示正样本和负样本的像素嵌入集合,核心在于正负样本的来源并不局限于同一图像,而是来自于一个batch中的所有图像;
正负样本的数据存储在记忆库中,记忆库中维护了每个类别的像素队列,从训练的批训练图像中随机抽取一部分像素加入到像素队列中,构成记忆库,在计算公式(5)时,随机从记忆库采取K个正样本和负样本。
最后应说明的是:以上所述仅为本发明的优选实例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于像素级对比学习的遥感土地利用分类方法,其特征在于:该分类方法主要由编码器、网络适配器和解码器三个部分组成;
所述编码器有四个阶段,每个block由Transformer构成,所述网络适配器由三个部分组成,分别为:空间先验模块、特征映射器和特征提取器,所述解码器有两个,分别为语义解码器和特征解码器;
其中,还包括使用集成学习生成训练样本,且使用集成学习生成训练样本具体分为标注具有显著性特征和典型的地物类型以及使用集成学习方式训练模型生成训练样本;
分类方法具体包括如下步骤:
步骤1、构建土地利用分类网络;
步骤2、对图像编码进行空间映射;
步骤3、计算具有先验信息的特征向量;
步骤4、通过特征提取器获取各阶段特征图;
步骤5、对每个阶段的特征图进行融合;
步骤6、对融合结果计算损失。
2.根据权利要求1所述的一种基于像素级对比学习的遥感土地利用分类方法,其特征在于:所述编码器的四个阶段具体为:将图像输入到Patch Embedding层,将图像分割成固定大小的Patch,并对每个Patch做Linear Embedding,添加位置信息,得到向量序列,将向量序列输入到block中,得到特征向量。
3.根据权利要求1所述的一种基于像素级对比学习的遥感土地利用分类方法,其特征在于:所述网络适配器引入归纳偏差与视觉先验信息,通过空间先验模块捕获输入图像的本地语义信息,将提取出的语义信息通过特征映射器将语义信息注入到主干网络中,使用特征提取器重建每个阶段得到多尺度信息,以适应密集预测任务。
4.根据权利要求1所述的一种基于像素级对比学习的遥感土地利用分类方法,其特征在于:所述语义解码器主要是在主干网络的每一个阶段后增加一个语义层以捕获编码器网络中的语义上下文,每个阶段的语义映射使用一个简单的上样本+和操作进行聚合,最后通过
Figure FDA0003813198150000021
计算损失函数;
特征解码器的作用是融合多尺度的特征映射,获取遥感图像中不同大小的物体信息,在特征解码器中既关注图像的空间信息,又关注不同物体间的尺度信息,使用
Figure FDA0003813198150000022
计算损失函数。
5.根据权利要求1所述的一种基于像素级对比学习的遥感土地利用分类方法,其特征在于:所述标注具有显著性特征和典型的地物类型具体指选择具有显著性特征和典型地物的图片进行标注构成数据集V1,V1中的图片地物类型应是显而易见且边界清晰的,V1中应保证包括土地利用的所有类别;
使用集成学习方式训练模型生成训练样本具体指将V1数据集放入多个网络模型中进行训练,按照集成学习范式得到标签,通过标签可视化结果,对结果进行微调后得到训练样本,结合策略根据下式,来设置不同的值,使用不同结合策略:
output=λ1output1+λ2output2+...+λnoutputn。
6.根据权利要求1所述的一种基于像素级对比学习的遥感土地利用分类方法,其特征在于:所述步骤1中,构建土地利用分类网络主要包括编码器、主干网络适配器、特征解码器和语义解码器;
所述步骤2中,是指将图像输入Patch Embedding层,把图像分成16*16个patch,每个patch的大小为32*32,对每个patch使用cnn进行编码并拉伸成768维的输入向量,再加上位置编码向量,作为主干网络的输入向量。
7.根据权利要求6所述的一种基于像素级对比学习的遥感土地利用分类方法,其特征在于:所述步骤3中,将图像输入至空间先验模块,通过三个卷积层和一个最大池化层,得到局部空间上下文特征向量,最后将特征向量经过3个1*1的卷积,得到一个多尺寸的金字塔特征向量;
将金字塔特征向量和步骤2中的输入向量输入到特征映射器,金字塔特征向量作为键和值,输入向量作为查询;
根据公式(1)计算得到具有先验信息的特征向量,与步骤2中的图像向量拼接,作为第一阶段Block的输入;
Figure FDA0003813198150000031
8.根据权利要求7所述的一种基于像素级对比学习的遥感土地利用分类方法,其特征在于:所述步骤4中,根据步骤3,交换具有先验信息的特征向量和主干网络特征的向量的作用,即以输入向量作为键和值,以特征向量作为查询,通过特征提取器得到第一阶段的特征图,以此类推得到第二阶段、第三阶段、第四阶段的特征图;
计算方式如公式(2),公式(3)所示:
Figure FDA0003813198150000041
Figure FDA0003813198150000042
9.根据权利要求8所述的一种基于像素级对比学习的遥感土地利用分类方法,其特征在于:所述步骤5中,将每个阶段得到的特征图,上采样至相同的维度,在channel方向进行拼接并降维;
对不同尺度的空间信息和尺度信息进行特征融合,对融合结果进行分类,对分类结果使用交叉熵损失函数计算损失优化网络学习结果;
计算公式如(4)所示:
Figure FDA0003813198150000043
10.根据权利要求8所述的一种基于像素级对比学习的遥感土地利用分类方法,其特征在于:所述步骤6中,每个阶段得到的特征图,经过一个Semantic Layer层,对语义上下文信息进行建模,融合每个阶段的不同尺度的语义信息,通过公式(5)对融合结果计算损失;
Figure FDA0003813198150000044
Semantic Layer层的关键在于引入可学习性Query,以重叠的方式在局部聚合输入,具有比卷积更强的表征能力,通过该层学习语义信息之间的相关性,获取单个图像之间和batch中不同图像之间的语义相关性,使用不同尺度的特征图,获取不同尺度下的语义相关性,并对不同尺度之间的语义信息进行融合,映射到一个统一的语义嵌入空间;
其中i+代表正样本,属于同一标签的像素i为正样本,负样本为属于其他标签的像素i,用i-表示;
pi和Ni表示正样本和负样本的像素嵌入集合,核心在于正负样本的来源并不局限于同一图像,而是来自于一个batch中的所有图像。
正负样本的数据存储在记忆库中,记忆库中维护了每个类别的像素队列,从训练的批训练图像中随机抽取一部分像素加入到像素队列中,构成记忆库,在计算公式(5)时,随机从记忆库采取K个正样本和负样本。
CN202211018722.0A 2022-08-24 2022-08-24 一种基于像素级对比学习的遥感土地利用分类方法 Active CN115424059B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211018722.0A CN115424059B (zh) 2022-08-24 2022-08-24 一种基于像素级对比学习的遥感土地利用分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211018722.0A CN115424059B (zh) 2022-08-24 2022-08-24 一种基于像素级对比学习的遥感土地利用分类方法

Publications (2)

Publication Number Publication Date
CN115424059A true CN115424059A (zh) 2022-12-02
CN115424059B CN115424059B (zh) 2023-09-01

Family

ID=84198129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211018722.0A Active CN115424059B (zh) 2022-08-24 2022-08-24 一种基于像素级对比学习的遥感土地利用分类方法

Country Status (1)

Country Link
CN (1) CN115424059B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116524258A (zh) * 2023-04-25 2023-08-01 云南师范大学 一种基于多标签分类的滑坡检测方法和系统
CN116758360A (zh) * 2023-08-21 2023-09-15 江西省国土空间调查规划研究院 土地空间用途管理方法及其系统
CN117291902A (zh) * 2023-10-17 2023-12-26 南京工业大学 一种基于深度学习用于像素级混凝土裂缝的检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126282A (zh) * 2019-12-25 2020-05-08 中国矿业大学 一种基于变分自注意力强化学习的遥感图像内容描述方法
CN112052783A (zh) * 2020-09-02 2020-12-08 中南大学 一种结合像素语义关联和边界注意的高分影像弱监督建筑物提取方法
CN113780149A (zh) * 2021-09-07 2021-12-10 北京航空航天大学 一种基于注意力机制的遥感图像建筑物目标高效提取方法
CN113850813A (zh) * 2021-09-16 2021-12-28 太原理工大学 基于空间分辨率域自适应的无监督遥感图像语义分割方法
CN114299380A (zh) * 2021-11-16 2022-04-08 中国华能集团清洁能源技术研究院有限公司 对比一致性学习的遥感图像语义分割模型训练方法及装置
CN114511785A (zh) * 2022-02-18 2022-05-17 中科南京人工智能创新研究院 基于瓶颈注意力模块的遥感图像云检测方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126282A (zh) * 2019-12-25 2020-05-08 中国矿业大学 一种基于变分自注意力强化学习的遥感图像内容描述方法
CN112052783A (zh) * 2020-09-02 2020-12-08 中南大学 一种结合像素语义关联和边界注意的高分影像弱监督建筑物提取方法
CN113780149A (zh) * 2021-09-07 2021-12-10 北京航空航天大学 一种基于注意力机制的遥感图像建筑物目标高效提取方法
CN113850813A (zh) * 2021-09-16 2021-12-28 太原理工大学 基于空间分辨率域自适应的无监督遥感图像语义分割方法
CN114299380A (zh) * 2021-11-16 2022-04-08 中国华能集团清洁能源技术研究院有限公司 对比一致性学习的遥感图像语义分割模型训练方法及装置
CN114511785A (zh) * 2022-02-18 2022-05-17 中科南京人工智能创新研究院 基于瓶颈注意力模块的遥感图像云检测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
诸丽娟 等: "基于像素级遥感图像融合方法对比与评价", 测绘 *
青晨: "深度卷积神经网络图像语义分割研究进展", 中国图像图形学报 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116524258A (zh) * 2023-04-25 2023-08-01 云南师范大学 一种基于多标签分类的滑坡检测方法和系统
CN116758360A (zh) * 2023-08-21 2023-09-15 江西省国土空间调查规划研究院 土地空间用途管理方法及其系统
CN116758360B (zh) * 2023-08-21 2023-10-20 江西省国土空间调查规划研究院 土地空间用途管理方法及其系统
CN117291902A (zh) * 2023-10-17 2023-12-26 南京工业大学 一种基于深度学习用于像素级混凝土裂缝的检测方法
CN117291902B (zh) * 2023-10-17 2024-05-10 南京工业大学 一种基于深度学习用于像素级混凝土裂缝的检测方法

Also Published As

Publication number Publication date
CN115424059B (zh) 2023-09-01

Similar Documents

Publication Publication Date Title
Wang et al. DDU-Net: Dual-decoder-U-Net for road extraction using high-resolution remote sensing images
CN112668494A (zh) 基于多尺度特征提取的小样本变化检测方法
Wang et al. Object-scale adaptive convolutional neural networks for high-spatial resolution remote sensing image classification
CN115424059A (zh) 一种基于像素级对比学习的遥感土地利用分类方法
CN115601549A (zh) 基于可变形卷积和自注意力模型的河湖遥感图像分割方法
CN112991353A (zh) 一种跨域遥感图像的无监督语义分割方法
CN115082675B (zh) 一种透明物体图像分割方法及系统
CN111652240B (zh) 一种基于cnn的图像局部特征检测与描述方法
Erdem et al. Comparison of different U-net models for building extraction from high-resolution aerial imagery
CN116912708A (zh) 一种基于深度学习的遥感影像建筑物提取方法
CN114092815A (zh) 一种大范围光伏发电设施遥感智能提取方法
Jiang et al. Forest-CD: Forest change detection network based on VHR images
Yu et al. Text-image matching for cross-modal remote sensing image retrieval via graph neural network
CN115775316A (zh) 基于多尺度注意力机制的图像语义分割方法
CN117197763A (zh) 基于交叉注意引导特征对齐网络的道路裂缝检测方法和系统
CN114168773A (zh) 一种基于伪标签和重排序的半监督草图图像检索方法
Hou et al. Fe-fusion-vpr: Attention-based multi-scale network architecture for visual place recognition by fusing frames and events
CN112668662B (zh) 基于改进YOLOv3网络的野外山林环境目标检测方法
Tian et al. Semantic segmentation of remote sensing image based on GAN and FCN network model
Zhang et al. An improved architecture for urban building extraction based on depthwise separable convolution
CN116740078A (zh) 图像分割处理方法、装置、设备以及介质
Liu et al. CMLocate: A cross‐modal automatic visual geo‐localization framework for a natural environment without GNSS information
CN115100502A (zh) 一种基于标签推理的多标签图像识别算法研究
CN115482463A (zh) 一种生成对抗网络矿区土地覆盖识别方法及系统
CN115131563A (zh) 一种基于弱监督学习的交互式图像分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant