CN116740570A - 基于掩码图像建模的遥感图像道路提取方法、装置及设备 - Google Patents

基于掩码图像建模的遥感图像道路提取方法、装置及设备 Download PDF

Info

Publication number
CN116740570A
CN116740570A CN202310735213.8A CN202310735213A CN116740570A CN 116740570 A CN116740570 A CN 116740570A CN 202310735213 A CN202310735213 A CN 202310735213A CN 116740570 A CN116740570 A CN 116740570A
Authority
CN
China
Prior art keywords
image
road
network model
remote sensing
road extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310735213.8A
Other languages
English (en)
Inventor
陈浩
李政宏
伍江江
杜春
彭双
钟志农
陈荦
熊伟
贾庆仁
马梦宇
杨飞
景宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202310735213.8A priority Critical patent/CN116740570A/zh
Publication of CN116740570A publication Critical patent/CN116740570A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/182Network patterns, e.g. roads or rivers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及基于掩码图像建模的遥感图像道路提取方法、装置及设备。通过构建具有骨干网络、图像重构模块和语义重构模块的道路提取网络模型,将获取的掩码图像输入骨干网络进行特征提取,得到低级特征与高级特征;将低级特征输入图像重构模块进行处理,得到图像预测;将高级特征输入语义重构模块进行处理,得到道路预测;根据预先构建的损失函数、图像预测及道路预测对道路提取网络模型进行一阶训练,得到预训练道路提取网络模型;将带标签的遥感图像输入预训练道路提取网络模型进行二阶训练,得到训练好的道路提取网络模型;通过训练好的道路提取网络模型对遥感图像中被遮蔽区域进行道路预测,改进了道路预测的连通性,提取完整的道路信息。

Description

基于掩码图像建模的遥感图像道路提取方法、装置及设备
技术领域
本申请涉及数据处理技术领域,特别是涉及一种基于掩码图像建模的遥感图像道路提取方法、装置及设备。
背景技术
遥感图像道路提取是从遥感影像中自动提取出道路的过程,它是遥感图像处理的重要应用之一。由于道路的形状又细又长,路边的物体,比如植被和建筑物,会在遥感图像中造成遮挡,这些被遮挡的部分会对道路的检测、提取和分类造成影响,如图1所示,道路遮挡是广泛存在,针对的道路遮挡问题进行研究具有重要意义。现有技术中有些注意到了遮挡问题,并试图通过注意力机制、中心线检测或上下文信息来解决这个问题。
然而,通过注意力机制进行道路提取时,会因为过度关注某些局部区域从而导致道路的提取不完整或不准确。中心线检测虽然可以提高道路的精度,但由于中心线检测需要消耗大量的计算资源,对于大规模的遥感图像数据处理会带来较高的时间和计算成本。上下文信息则可能受到遮挡和干扰,从而影响道路提取的精度。
因此,这些方法虽然有些提高了网络特征提取能力,有些利用了额外的信息进行处理,但是却没有考虑到通过提高网络不同区域的交互能力来对遮蔽区域的道路进行预测,从而提取完整的道路。
发明内容
基于此,有必要针对上述技术问题,提供一种增强不同区域交互能力,从而改进道路预测连通性,对遮蔽区域进行道路预测的基于掩码图像建模的遥感图像道路提取方法、装置及设备。
一种基于掩码图像建模的遥感图像道路提取方法,所述方法包括:
构建道路提取网络模型,所述道路提取网络模型包括骨干网络、图像重构模块及语义重构模块;
获取掩码图像,将所述掩码图像输入所述骨干网络进行特征提取,得到低级特征与高级特征;
将所述低级特征输入所述图像重构模块进行处理,得到图像预测;
将所述高级特征输入所述语义重构模块进行处理,得到道路预测;
根据预先构建的损失函数、所述图像预测及所述道路预测对所述道路提取网络模型进行一阶训练,得到预训练道路提取网络模型;
将带标签的遥感图像输入所述预训练道路提取网络模型进行二阶训练,得到训练好的道路提取网络模型;
通过训练好的道路提取网络模型对所述遥感图像中被遮蔽区域进行道路预测,完成道路提取。
在其中一个实施例中,获取掩码图像,包括:
获取训练集,所述训练集包括带标签的遥感图像及编码图像;
对所述带标签的遥感图像进行线性编码,得到图像线性编码向量;以及
对所述编码图像进行掩码操作,得到掩码区域线性向量与未掩码区域线性向量;
将所述图像线性编码向量与所述未掩码区域线性向量点乘后,与所述掩码区域线性向量进行特征叠加,得到掩码图像。
在其中一个实施例中,所述图像重构模块与所述语义重构模块均为线性层结构。
在其中一个实施例中,预先构建的损失函数包括标签损失函数、图像重构损失函数及语义重构损失函数。
在其中一个实施例中,所述标签损失函数表示为:
其中,y表示道路标签,表示道路预测,lbce表示二值交叉熵损失函数;ldice表示dice损失。
在其中一个实施例中,所述图像重构损失函数表示为:
其中,x表示带标签的遥感图像,表示图像预测,m表示编码图像。
在其中一个实施例中,所述语义重构损失函数表示为:
其中,y表示道路标签,表示道路预测,lbce表示二值交叉熵损失函数;ldice表示dice损失,m表示编码图像。
基于掩码图像建模的遥感图像道路提取装置,所述装置包括:
网络模型构建模块,用于构建道路提取网络模型,所述道路提取网络模型包括骨干网络、图像重构模块及语义重构模块;
特征提取模块,用于获取掩码图像,将所述掩码图像输入所述骨干网络进行特征提取,得到低级特征与高级特征;
图像重构模块,用于将所述低级特征输入所述图像重构模块进行处理,得到图像预测;
语义重构模块,用于将所述高级特征输入所述语义重构模块进行处理,得到道路预测;
一阶训练模块,用于根据预先构建的损失函数、所述图像预测及所述道路预测对所述道路提取网络模型进行一阶训练,得到预训练道路提取网络模型;
二阶训练模块,用于将带标签的遥感图像输入所述预训练道路提取网络模型进行二阶训练,得到训练好的道路提取网络模型;
道路提取模块,用于通过训练好的道路提取网络模型对所述遥感图像中被遮蔽区域进行道路预测,完成道路提取。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述基于掩码图像建模的遥感图像道路提取方法的步骤。
上述基于掩码图像建模的遥感图像道路提取方法、装置及设备,首先构建具有骨干网络、图像重构模块和语义重构模块的道路提取网络模型,将获取的掩码图像输入骨干网络进行特征提取,得到低级特征与高级特征;将低级特征输入图像重构模块进行处理,得到图像预测;将高级特征输入语义重构模块进行处理,得到道路预测;根据预先构建的损失函数、图像预测及道路预测对道路提取网络模型进行一阶训练,得到预训练道路提取网络模型;将带标签的遥感图像输入预训练道路提取网络模型进行二阶训练,得到训练好的道路提取网络模型;通过训练好的道路提取网络模型对遥感图像中被遮蔽区域进行道路预测,完成道路提取。
采用上述方案,通过对提取到的低级特征和高级特征分别进行重构,加强了低级别区域的交互能力和高级别区域的交互能力;同时,在一阶段的预训练中采用掩码图像进行模型训练,增强道路提取网络模型的上下文推理能力;再通过二阶段仅用带标签的遥感图像进行训练,进一步提高道路提取网络模型的性能,加强对完整图像道路预测的能力。由于道路是线性的,对被遮挡区域的预测可以通过其他区域的道路进行推断,而本方案的道路提取网络模型改进并增强了上下文的推理能力,改进了道路预测的连通性,实现对被遮挡区域的道路进行预测,从而提取完整的道路信息。
附图说明
图1为一个实施例中道路遮挡示意图,其中(a)表示遥感图像被遮蔽部分示意图,(b)表示被遮挡部分的道路标签;
图2为一个实施例中基于掩码图像建模的遥感图像道路提取方法流程示意图;
图3为一个实施例中道路提取网络模型框架示意图;
图4为一个实施例中实验验证预测结果示意图,其中(a)为遥感图像,(b)为已经标记的道路标签,(c)为采用DeepLab v3+进行道路提取的结果示意图,(d)为采用D-LinkNet进行道路提取的结果示意图,(e)为采用NL-LinkNet进行道路提取的结果示意图,(f)为采用DBRANet进行道路提取的结果示意图,(g)为采用MACU-Net进行道路提取的结果示意图,(h)为采用本发明提出的RemainNet进行道路提取的结果示意图;
图5表示图像重建结果示意图,其中(a)表示遥感图像,(b)表示重建图像;
图6为一个实施例中基于掩码图像建模的遥感图像道路提取装置的模块结构示意图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
需要说明,除非另有定义,本申请所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本申请中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。本申请所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体地限定。
在开始本发明实时方式的说明之前,给出涉及部分专业术语的释义如下:
道路提取:指的是将遥感图像每个像素赋予道路或非道路标签。
掩码:在掩码图像建模中,主要用于遮盖一部分图像的像素,以便模型对未被遮盖的像素部分进行训练和预测。
掩码图像建模(MIM):一种生成方法,可以从掩码图像中重建原始图像。
块划分(Patch partition,PP):是指将一个大尺寸的图像划分成许多大小相同的小块,通常用于将大尺寸的图像转换为小尺寸的块,以便于处理和提取特征。
线性嵌入(Linear embedding,LE):是一种将数据映射到低维空间的技术,其基本思想是将原始高维数据通过一个线性变换映射到低维空间中,从而提取出数据的关键特征。
Swin transformerblock(STB):主要用于提取图像特征,业界中暂时没有统一的中文翻译。
块连接(Patch merging,PM):用于将多个小块的嵌入向量拼接成一个大的特征向量,并通过一个线性变换映射到原始维度。
(点乘,Multiply):主要用来缩放特征,以便在特征融合时平衡不同层级特征的贡献。
(叠加,Add):用来将不同层级的特征进行相加,以帮助模型更好地融合不同层级的特征。
下面将结合本发明本实施例提供的附图,对本发明实施方式进行详细说明。
在一个实施例中,如图2所示,提供了一种基于掩码图像建模的遥感图像道路提取方法,包括以下步骤:
步骤12,构建道路提取网络模型,道路提取网络模型包括骨干网络、图像重构模块及语义重构模块。
具体地,本发明构建的道路提取网络模型,将其命名为RemainNet。其结构框架如图3所示,其中STB和PM构成了骨干网络,主要用来提取图像特征;图像重构模块(IH)用于将低级特征生成为图像预测;语义重构模块(SH)用于将高级特征生成道路预测。
在一个实施例中,图像重构模块和语义重构模块均可以采用线性层结构,一方面由于线性层的结构简单,可以增加模型的计算速度;另一方面采用线性层不会出现过拟合情况,使模型具有更好的泛化能力。
步骤14,获取掩码图像,将掩码图像输入骨干网络进行特征提取,得到低级特征与高级特征。
可以理解,之所以要将图像进行掩码操作,是因为在进行模型训练时,如果直接采用遥感图像,由于图像本身就会存在一些干扰因素,会给模型错误的信息认知,干扰模型的训练准确性。因此,需要对遥感图像进行初步编码,通过掩码将图像进行随机遮挡然后重构,以此增加模型的上下文推理能力,即如图3中编码图像所示,白色部分的值为1,表示对该位置不遮挡,黑色部分的值为0,表示对该位置进行遮挡。
在一个实施例中,主要通过以下方式获得掩码图像:
步骤22,获取训练集,训练集包括带标签的遥感图像及编码图像。
步骤24,对带标签的遥感图像进行线性编码,得到图像线性编码向量;以及对编码图像进行掩码操作,得到掩码区域线性向量与未掩码区域线性向量。
步骤26,将图像线性编码向量与未掩码区域线性向量点乘后,与掩码区域线性向量进行特征叠加,得到掩码图像。
具体地,掩码图像通过如下公式计算获得:
xm=L(x)·F(m)+vm·(1-F(m));
其中,L(x)表示图像线性编码向量,F(m)表示未掩码区域线性向量,1-F(m)表示掩码区域线性向量,vm为可学习参数。值得说明的是,vm随着训练的进行,其值会自动生成对于结果负面影响最小的值,其主要通过损失反向传播自动调整。
应该注意的是,训练集仅为从数据集中分出的一部分带标签的遥感图像。数据集还包括验证集和测试集,且验证集和测试集均为带有标签的遥感图像,通过验证集检验模型每次迭代的效果,以便选出效果最好的网络模型。测试集用来与其他方法进行比较使用,以测试本发明提出的道路提取网络模型性能。
进一步地,为了提高模型的泛化能力,还采用随机裁剪、随机翻转、随机旋转、随机仿射、随机颜色抖动、随机灰度和高斯模糊等操作进行数据增强。
在一个实施例中,通过骨干网络提取到的f1、f2及f3为低级特征,也可以叫浅层特征,通过骨干网络提取到的f4为高级特征,也可以叫深层特征。之所以提取不同深度层的特征,这是因为低级特征和高级特征具有不同的特性。浅层特征对图像的局部结构比较敏感,但是对全局语义信息的表示比较弱;而高级特征则更加关注图像的全局语义信息。因此,采用低级特征和高级特征相结合的方式,可以获得全面且准确的特征表示。
步骤16,将低级特征输入图像重构模块进行处理,得到图像预测;将高级特征输入语义重构模块进行处理,得到道路预测。
可以理解,一方面,传统的MIM从掩码图像中重建原始图像时,其下游任务也采用高级特征直接重建图像,这会导致预训练和训练得到的特征表达不同。而本实施例中,将图像重构特征和语义分割特征分离,将低级特征f1、f2及f3输入图像重构模块IH,然后生成图像预测通过图像重构模块鼓励低级别区域进行交互,从而提高预训练与训练得到的特征表达一致性。
另一方面,由于传统的MIM专注于自监督学习,而不使用标签信息,这样会使模型忽略标签之间的关联性,从而降低模型的性能,甚至会出现难以评估模型性能的情况。因此,将高级特征f4输入语义重构模块SH,生成道路预测也可以叫语义预测。通过语义重构模块改善了高级区域的交互,加强不同区域之间的高级语义交互,提高模型的性能。
因此,通过在道路提取网络模型中增加图像重构模块IH和语义重构模块SH,可以优化模型的性能,提高泛化性能。
步骤18,根据预先构建的损失函数、图像预测及道路预测对道路提取网络模型进行一阶训练,得到预训练道路提取网络模型。
可以理解,一方面,考虑道路预测与道路标签y在未遮蔽区域之间的差异,构建标签损失函数。
另一方面,f1、f2及f3为图像重建提供了不同的低级别信息,为了使重建图像中未掩蔽区域的图像预测接近于原始遥感图像中未掩蔽区域,构建图像重构损失函数。
再一方面,由于传统的MIM方法主要用于无监督的预训练,因此主要用于重建原始图像。然而,图像重建是基于RGB的重建,而不是基于语义的重建。由于最终目标是加强道路预测连通性,并且道路标签可用,因此本发明通过语义重建,以增加语义交互。与图像重建类似,本实施例采用语义重构模块进行语义重建。为了使道路预测和编码图像m中的遮蔽区域变得更加相似,构建语义重构损失函数。
在一个实施例中,标签损失函数表示为:
其中,y表示道路标签,表示道路预测,lbce表示二值交叉熵损失函数;ldice表示dice损失。
二值交叉熵损失函数lbce的计算公式如下:
dice损失计算公式如下:
在一个实施例中,图像重构损失函数表示为:
其中,x表示带标签的遥感图像,表示图像预测,m表示编码图像。
在一个实施例中,语义重构损失函数表示为:
步骤20,将带标签的遥感图像输入预训练道路提取网络模型进行二阶训练,得到训练好的道路提取网络模型。
可以理解,一阶段为预训练阶段,主要是增强模型的上下文推理能力,采用掩码图像,通过标签损失函数、图像重构损失函数及语义重构损失函数进行训练。然而,由于测试阶段面对的是完整的图像,与预训练阶段进行分割后的图像存在一定差别,为了提高模型的道路预测能力,需要进一步用没有遮挡的图像,即带标签的遥感图像进行二阶训练,二阶训练仅使用标签损失函数。通过这样的方式,可以进一步优化模型,提高模型的道路预测能力。
步骤22,通过训练好的道路提取网络模型对遥感图像中被遮蔽区域进行道路预测,完成道路提取。
在一个实施例中,采用马萨诸塞州道路数据集上进行了实验验证本发明所提出的RemainNet的效果。
马萨诸塞州道路数据集包含1171张带标签的遥感图像,包括1108张训练图像、14张验证图像和49张测试图像。数据集覆盖了约2600平方公里的区域,分辨率为120厘米/像素。每张图片的原始尺寸为1500×1500。我们将它们裁剪为512×512,因此训练、验证和测试图像的数量分别为9972、126和441。
实验是在单个NVIDIARTX 3080GPU上使用PyTorch框架进行的,采用AdamW作为参数优化器,学习率最初设定为2×10-4,AdamW优化器的权重衰减设置为1×10-4,一阶段预训练迭代数为100,二阶段训练迭代数为100,批量大小设置为5,掩码速率和掩码大小分别设置为0.5和16×16。
在实验中,采用精确度、召回率、F1分数(F1)和并集交集(IoU)作为评估指标。为了证明本发明所提出的RemainNet的有效性,使用几种先进的道路提取和语义分割模型来进行定量和定性比较,即DeepLab v3+、D-LinkNet、NL-LinkNet、DBRANet和MACU-Net。
表格1列出了各个方法在数据集上的结果,图4列出了各方法的部分道路提取结果,从实验结果可以看出,提出的RemainNet效果总体上最好,并且道路连续性比较好。
表格1马萨诸塞州道路数据集实验结果
如图5所示,通过本发明图像重构模块进行的图像重建结果,其重建的区域与原始图像区域相似,由于重建图像只使用原始图像的半区域信息,即未遮挡信息,因此重建过程为学习不同区域间联系的过程。
上述基于掩码图像建模的遥感图像道路提取方法、装置及设备,首先构建具有骨干网络、图像重构模块和语义重构模块的道路提取网络模型,将获取的掩码图像输入骨干网络进行特征提取,得到低级特征与高级特征;将低级特征输入图像重构模块进行处理,得到图像预测;将高级特征输入语义重构模块进行处理,得到道路预测;根据预先构建的损失函数、图像预测及道路预测对道路提取网络模型进行一阶训练,得到预训练道路提取网络模型;将带标签的遥感图像输入预训练道路提取网络模型进行二阶训练,得到训练好的道路提取网络模型;通过训练好的道路提取网络模型对遥感图像中被遮蔽区域进行道路预测,完成道路提取。
采用上述方案,通过对提取到的低级特征和高级特征分别进行重构,加强了低级别区域的交互能力和高级别区域的交互能力;同时,在一阶段的预训练中采用掩码图像进行模型训练,增强道路提取网络模型的上下文推理能力;再通过二阶段仅用带标签的遥感图像进行训练,进一步提高道路提取网络模型的性能,加强对完整图像道路预测的能力。由于道路是线性的,对被遮挡区域的预测可以通过其他区域的道路进行推断,而本方案的道路提取网络模型改进并增强了上下文的推理能力,改进了道路预测的连通性,实现对被遮挡区域的道路进行预测,从而提取完整的道路信息,并且结构简单,计算速度快,具有良好的鲁棒性。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本申请中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种基于掩码图像建模的遥感图像道路提取装置,包括:网络模型构建模块、特征提取模块、图像重构模块、语义重构模块、一阶训练模块、二阶训练模块和道路提取模块,其中:
网络模型构建模块,用于构建道路提取网络模型,道路提取网络模型包括骨干网络、图像重构模块及语义重构模块。
特征提取模块,用于获取掩码图像,将掩码图像输入骨干网络进行特征提取,得到低级特征与高级特征。
图像重构模块,用于将低级特征输入图像重构模块进行处理,得到图像预测。
语义重构模块,用于将高级特征输入语义重构模块进行处理,得到道路预测。
一阶训练模块,用于根据预先构建的损失函数、图像预测及道路预测对道路提取网络模型进行一阶训练,得到预训练道路提取网络模型。
二阶训练模块,用于将带标签的遥感图像输入预训练道路提取网络模型进行二阶训练,得到训练好的道路提取网络模型。
道路提取模块,用于通过训练好的道路提取网络模型对遥感图像中被遮蔽区域进行道路预测,完成道路提取。
关于基于掩码图像建模的遥感图像道路提取装置的具体限定可以参见上文中对于基于掩码图像建模的遥感图像道路提取方法的限定,在此不再赘述。上述基于掩码图像建模的遥感图像道路提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于掩码图像建模的遥感图像道路提取数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于掩码图像建模的遥感图像道路提取方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
步骤12,构建道路提取网络模型,道路提取网络模型包括骨干网络、图像重构模块及语义重构模块。
步骤14,获取掩码图像,将掩码图像输入骨干网络进行特征提取,得到低级特征与高级特征。
步骤16,将低级特征输入图像重构模块进行处理,得到图像预测;将高级特征输入语义重构模块进行处理,得到道路预测。
步骤18,根据预先构建的损失函数、图像预测及道路预测对道路提取网络模型进行一阶训练,得到预训练道路提取网络模型。
步骤20,将带标签的遥感图像输入预训练道路提取网络模型进行二阶训练,得到训练好的道路提取网络模型。
步骤22,通过训练好的道路提取网络模型对遥感图像中被遮蔽区域进行道路预测,完成道路提取。
在一个实施例中,处理器执行计算机程序时还可以实现上述基于掩码图像建模的遥感图像道路提取方法中各实施例增加的步骤或者子步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
步骤12,构建道路提取网络模型,道路提取网络模型包括骨干网络、图像重构模块及语义重构模块。
步骤14,获取掩码图像,将掩码图像输入骨干网络进行特征提取,得到低级特征与高级特征。
步骤16,将低级特征输入图像重构模块进行处理,得到图像预测;将高级特征输入语义重构模块进行处理,得到道路预测。
步骤18,根据预先构建的损失函数、图像预测及道路预测对道路提取网络模型进行一阶训练,得到预训练道路提取网络模型。
步骤20,将带标签的遥感图像输入预训练道路提取网络模型进行二阶训练,得到训练好的道路提取网络模型。
步骤22,通过训练好的道路提取网络模型对遥感图像中被遮蔽区域进行道路预测,完成道路提取。
在一个实施例中,计算机程序被处理器执行时还可以实现上述基于掩码图像建模的遥感图像道路提取方法中各实施例增加的步骤或者子步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (9)

1.一种基于掩码图像建模的遥感图像道路提取方法,其特征在于,所述方法包括:
构建道路提取网络模型,所述道路提取网络模型包括骨干网络、图像重构模块及语义重构模块;
获取掩码图像,将所述掩码图像输入所述骨干网络进行特征提取,得到低级特征与高级特征;
将所述低级特征输入所述图像重构模块进行处理,得到图像预测;
将所述高级特征输入所述语义重构模块进行处理,得到道路预测;
根据预先构建的损失函数、所述图像预测及所述道路预测对所述道路提取网络模型进行一阶训练,得到预训练道路提取网络模型;
将带标签的遥感图像输入所述预训练道路提取网络模型进行二阶训练,得到训练好的道路提取网络模型;
通过训练好的道路提取网络模型对所述遥感图像中被遮蔽区域进行道路预测,完成道路提取。
2.根据权利要求1所述的基于掩码图像建模的遥感图像道路提取方法,其特征在于,获取掩码图像,包括:
获取训练集,所述训练集包括带标签的遥感图像及编码图像;
对所述带标签的遥感图像进行线性编码,得到图像线性编码向量;以及
对所述编码图像进行掩码操作,得到掩码区域线性向量与未掩码区域线性向量;
将所述图像线性编码向量与所述未掩码区域线性向量点乘后,与所述掩码区域线性向量进行特征叠加,得到掩码图像。
3.根据权利要求2所述的基于掩码图像建模的遥感图像道路提取方法,其特征在于,所述图像重构模块与所述语义重构模块均为线性层结构。
4.根据权利要求1至3任一项所述的基于掩码图像建模的遥感图像道路提取方法,其特征在于,预先构建的损失函数包括标签损失函数、图像重构损失函数及语义重构损失函数。
5.根据权利要求4所述的基于掩码图像建模的遥感图像道路提取方法,其特征在于,所述标签损失函数表示为:
其中,y表示道路标签,表示道路预测,lbce表示二值交叉熵损失函数;ldice表示dice损失。
6.根据权利要求4所述的基于掩码图像建模的遥感图像道路提取方法,其特征在于,所述图像重构损失函数表示为:
其中,x表示带标签的遥感图像,表示图像预测,m表示编码图像。
7.根据权利要求4所述的基于掩码图像建模的遥感图像道路提取方法,其特征在于,所述语义重构损失函数表示为:
其中,y表示道路标签,表示道路预测,lbce表示二值交叉熵损失函数;ldice表示dice损失,m表示编码图像。
8.基于掩码图像建模的遥感图像道路提取装置,其特征在于,所述装置包括:
网络模型构建模块,用于构建道路提取网络模型,所述道路提取网络模型包括骨干网络、图像重构模块及语义重构模块;
特征提取模块,用于获取掩码图像,将所述掩码图像输入所述骨干网络进行特征提取,得到低级特征与高级特征;
图像重构模块,用于将所述低级特征输入所述图像重构模块进行处理,得到图像预测;
语义重构模块,用于将所述高级特征输入所述语义重构模块进行处理,得到道路预测;
一阶训练模块,用于根据预先构建的损失函数、所述图像预测及所述道路预测对所述道路提取网络模型进行一阶训练,得到预训练道路提取网络模型;
二阶训练模块,用于将带标签的遥感图像输入所述预训练道路提取网络模型进行二阶训练,得到训练好的道路提取网络模型;
道路提取模块,用于通过训练好的道路提取网络模型对所述遥感图像中被遮蔽区域进行道路预测,完成道路提取。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
CN202310735213.8A 2023-06-20 2023-06-20 基于掩码图像建模的遥感图像道路提取方法、装置及设备 Pending CN116740570A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310735213.8A CN116740570A (zh) 2023-06-20 2023-06-20 基于掩码图像建模的遥感图像道路提取方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310735213.8A CN116740570A (zh) 2023-06-20 2023-06-20 基于掩码图像建模的遥感图像道路提取方法、装置及设备

Publications (1)

Publication Number Publication Date
CN116740570A true CN116740570A (zh) 2023-09-12

Family

ID=87918284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310735213.8A Pending CN116740570A (zh) 2023-06-20 2023-06-20 基于掩码图像建模的遥感图像道路提取方法、装置及设备

Country Status (1)

Country Link
CN (1) CN116740570A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117615108A (zh) * 2024-01-17 2024-02-27 中国安全生产科学研究院 油气管道地质灾害预报预警方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117615108A (zh) * 2024-01-17 2024-02-27 中国安全生产科学研究院 油气管道地质灾害预报预警方法及系统
CN117615108B (zh) * 2024-01-17 2024-04-09 中国安全生产科学研究院 油气管道地质灾害预报预警方法及系统

Similar Documents

Publication Publication Date Title
CN111080628B (zh) 图像篡改检测方法、装置、计算机设备和存储介质
Ras et al. Explainable deep learning: A field guide for the uninitiated
Ruff et al. A unifying review of deep and shallow anomaly detection
US11256960B2 (en) Panoptic segmentation
EP3859560A2 (en) Method and apparatus for visual question answering, computer device and medium
CN114612477B (zh) 一种轻量化图像分割方法、系统、介质、终端及应用
CN112634296A (zh) 门机制引导边缘信息蒸馏的rgb-d图像语义分割方法及终端
CN115147598B (zh) 目标检测分割方法、装置、智能终端及存储介质
CN111325766B (zh) 三维边缘检测方法、装置、存储介质和计算机设备
CN114926835A (zh) 文本生成、模型训练方法和装置
CN111507403A (zh) 图像分类方法、装置、计算机设备和存储介质
CN116740570A (zh) 基于掩码图像建模的遥感图像道路提取方法、装置及设备
CN114332893A (zh) 表格结构识别方法、装置、计算机设备和存储介质
CN115222750A (zh) 基于多尺度融合注意力的遥感图像分割方法及系统
Zhang et al. Fully context-aware image inpainting with a learned semantic pyramid
Vijayalakshmi K et al. Copy-paste forgery detection using deep learning with error level analysis
CN111914949B (zh) 基于强化学习的零样本学习模型的训练方法及装置
Arumugam et al. Interpreting denoising autoencoders with complex perturbation approach
Wang et al. Remote sensing image description based on word embedding and end-to-end deep learning
Li et al. Feature pre-inpainting enhanced transformer for video inpainting
CN116977714A (zh) 图像分类方法、装置、设备、存储介质和程序产品
CN116977343A (zh) 图像处理方法、装置、设备、存储介质及程序产品
Liu et al. Boosting semantic segmentation via feature enhancement
CN114694150A (zh) 一种提升数字图像分类模型泛化能力的方法及系统
CN118097665B (zh) 基于多阶段序列的化学分子结构识别方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination