CN114387521B - 基于注意力机制和边界损失的遥感影像建筑物提取方法 - Google Patents

基于注意力机制和边界损失的遥感影像建筑物提取方法 Download PDF

Info

Publication number
CN114387521B
CN114387521B CN202210044832.8A CN202210044832A CN114387521B CN 114387521 B CN114387521 B CN 114387521B CN 202210044832 A CN202210044832 A CN 202210044832A CN 114387521 B CN114387521 B CN 114387521B
Authority
CN
China
Prior art keywords
building
feature
remote sensing
sensing image
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210044832.8A
Other languages
English (en)
Other versions
CN114387521A (zh
Inventor
陈浩
严琨月
徐樱笑
伍江江
熊伟
彭双
杜春
吴烨
钟志农
李军
陈荦
景宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202210044832.8A priority Critical patent/CN114387521B/zh
Publication of CN114387521A publication Critical patent/CN114387521A/zh
Application granted granted Critical
Publication of CN114387521B publication Critical patent/CN114387521B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及基于注意力机制和边界损失的遥感影像建筑物提取方法,方法包括:获取待提取的光学遥感影像;调用训练好的建筑物提取模型;将光学遥感影像输入建筑物提取模型进行建筑物提取,得到光学遥感影像的建筑物提取结果。其中,建筑物提取模型的编码器包括:特征提取层,用于对光学遥感影像进行特征信息提取;全局上下文注意力模块,用于对特征提取层输出的特征信息进行全局上下文特征融合处理;空洞空间金字塔池化模块,用于对特征提取层输出的特征图进行跨尺度融合。建筑物提取模型的解码器用于对编码器输出的特征图进行分辨率恢复,损失函数为边界损失函数与Dice损失函数的结合损失函数。大幅提高了提取的建筑物的可分离性。

Description

基于注意力机制和边界损失的遥感影像建筑物提取方法
技术领域
本申请涉及光学遥感影像信息自动提取技术领域,特别是涉及一种基于注意力机制和边界损失的遥感影像建筑物提取方法。
背景技术
光学遥感影像的建筑物提取是近年来计算机视觉和遥感影像处理领域的研究热点,随着计算机处理速度和提取精度的提高,已应用于城市规划、工程制图、城市建设与监测等领域。建筑物提取可以看作是一个分类问题,光学遥感影像中每个像素被划分为特定的类别(建筑物/非建筑物),可以扩展为面向对象的分类或面向像素的分割任务。
传统建筑物提取方法如基于分割的方法,利用遥感影像中相似的像素往往具有相近的特征,可以根据这一点来将像素分成不同的区域,其中的分裂法和生长法是两种常用的基于分割的方法。又如基于辅助信息的方法,利用遥感影像中存在的阴影,或者利用LiDAR(激光雷达)数据和DSM(数字地表模型)数据等,结合不同特征的数据来进行建筑物的提取。随着遥感图像分辨率和计算能力的提高,自动提取方法降低了人工参与的程度。再如基于特征的方法主要是结合遥感影像的纹理特征、结构特征和光谱特征等进行综合提取,比如模糊C-均值聚类算法也得到了广泛的应用。然而,在实现本发明过程中,发明人发现前述传统建筑物提取方法,存在着提取的建筑物可分离性不高的技术问题。
发明内容
基于此,有必要针对上述技术问题,提供一种基于注意力机制和边界损失的遥感影像建筑物提取方法,能够大幅提高提取的建筑物的可分离性。
为了实现上述目的,本发明实施例采用以下技术方案:
一方面,本发明实施例提供一种基于注意力机制和边界损失的遥感影像建筑物提取方法,包括步骤:
获取待提取的光学遥感影像;
调用训练好的建筑物提取模型;其中,建筑物提取模型包括编码器和解码器,编码器包括特征提取层、全局上下文注意力模块及空洞空间金字塔池化模块,特征提取层用于对光学遥感影像进行特征信息提取,全局上下文注意力模块用于对特征提取层输出的特征信息进行全局上下文特征融合处理,空洞空间金字塔池化模块用于对特征提取层输出的特征图进行跨尺度融合,解码器用于对编码器输出的特征图进行分辨率恢复,建筑物提取模型中深度卷积神经网络的损失函数为边界损失函数与Dice损失函数的结合损失函数;
将光学遥感影像输入建筑物提取模型进行建筑物提取,得到光学遥感影像的建筑物提取结果。
另一方面,还提供一种结合注意力机制和边界损失的遥感影像建筑物提取装置,包括:
图像获取模块,用于获取待提取的光学遥感影像;
网络调用模块,用于调用训练好的建筑物提取模型;其中,建筑物提取模型包括编码器和解码器,编码器包括特征提取层、全局上下文注意力模块及空洞空间金字塔池化模块,特征提取层用于对光学遥感影像进行特征信息提取,全局上下文注意力模块用于对特征提取层输出的特征信息进行全局上下文特征融合处理,空洞空间金字塔池化模块用于对特征提取层输出的特征图进行跨尺度融合,解码器用于对编码器输出的特征图进行分辨率恢复,建筑物提取模型中深度卷积神经网络的损失函数为边界损失函数与Dice损失函数的结合损失函数;
提取输出模块,用于将光学遥感影像输入建筑物提取模型进行建筑物提取,得到光学遥感影像的建筑物提取结果。
上述技术方案中的一个技术方案具有如下优点和有益效果:
上述基于注意力机制和边界损失的遥感影像建筑物提取方法,通过调用训练好的建筑物提取模型对待提取的光学遥感图像进行建筑物提取时,待提取的光学遥感图像在建筑物提取模型的特征提取层中进行特征提取处理,并且模型加入了全局上下文注意力模块对特征提取层输出的特征信息进行全局上下文特征融合处理,可以使神经网络从光学遥感影像的建筑物之间捕获更充分的上下文关系,能够有效的提取光学遥感影像中的全局上下文特征,关注图像中建筑物之间的关系并从中筛选有效特征进行融合,从而更准确地识别出光学遥感影像中被阴影遮挡、或者是密集的建筑物,提高建筑物提取性能。
此外,模型还加入空洞空间金字塔池化模块对特征提取层输出的特征图进行跨尺度融合处理,从而避免神经网络处理速度下降;并且神经网络采用边界损失函数与Dice损失函数的结合损失函数,使得神经网络更加关注建筑物的边界提取质量,使得生成的建筑物边界更加符合直角多边形的形状,减轻角部圆滑现象,最终达到了大幅提高提取的建筑物的可分离性效果,与现有方法相比,更符合光学遥感影像建筑物提取的现实需求,能够提高密集建筑物的提取性能,有很好的应用前景。
附图说明
图1为一个实施例中基于注意力机制和边界损失的遥感影像建筑物提取方法的流程示意图;
图2为一个实施例中建筑物提取模型训练的数据处理流程示意图;
图3为一个实施例中全局上下文注意力模块的结构示意图;
图4为一个实施例中空洞空间金字塔池化模块的结构示意图;
图5为一个实施例中第一种建筑物提取结果的对比示意图;
图6为一个实施例中第二种建筑物提取结果的对比示意图;
图7为一个实施例中第三种建筑物提取结果的对比示意图;
图8为一个实施例中结合注意力机制和边界损失的遥感影像建筑物提取装置的模块结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时,应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
自从卷积神经网络在图像分类和分割中表现出强大的优势,学术界提出了多种基于深度学习的建筑物提取方法,这些方法极大地提高了道路提取的性能。卷积神经网络(Convolutional Neural Network,CNN)为计算机视觉领域做出了重要贡献,确立了其作为语义和实例分割的基础。然而,在执行像素分类时,前述传统提取方法在描绘精确和规则的建筑边界方面存在问题。全卷积神经网络(Fully Convolutional Network,FCN)扩展了原始的CNN卷积神经网络结构,可以实现像素到像素的稠密预测。U-net网络使用编码器-解码器结构和skip连接(即Skip Connection),将编码器中浅层卷积层的粗粒度特征与解码器中的细粒度特征连接起来,对其进行细化并恢复其空间位置信息。
还有研究人员在改进的Deeplabv3+网络进行了多光谱遥感影像的建筑物提取,得到了不错的结果。但是在实践中,发明人还发现现有的基于深度学习的进行遥感影像建筑物提取方法,没有充分关注提取的建筑物轮廓质量以及对密集建筑物等的区分,容易出现建筑物之间粘连的情况并且得到的建筑物有角部过于圆滑的问题,无法满足后续城市规划等的应用。因此为了得到更加符合现实几何形状的建筑物轮廓,在进行建筑物提取的时候应该更关注如何使得到的轮廓更加规则。
综上,针对传统建筑物提取方法中,存在着提取的建筑物可分离性不高的技术问题,本申请提出一种新的基于注意力机制和边界损失的遥感影像建筑物提取方法,着重于获取更加符合现实几何形状的建筑物提取结果,利用遥感影像中的全局上下文信息,在不引入额外多源信息的情况下,从光学遥感影像中提取建筑物,以显著改善密集建筑物群提取的可分离性。
请参阅图1,在一个实施例中,本发明提供一种基于注意力机制和边界损失的遥感影像建筑物提取方法,包括如下步骤S12至S16。
S12,获取待提取的光学遥感影像;
S14,调用训练好的建筑物提取模型;其中,建筑物提取模型包括编码器和解码器,编码器包括特征提取层、全局上下文注意力模块及空洞空间金字塔池化模块,特征提取层用于对光学遥感影像进行特征信息提取,全局上下文注意力模块用于对特征提取层输出的特征信息进行全局上下文特征融合处理,空洞空间金字塔池化模块用于对特征提取层输出的特征图进行跨尺度融合,解码器用于对编码器输出的特征图进行分辨率恢复,建筑物提取模型中深度卷积神经网络的损失函数为边界损失函数与Dice损失函数的结合损失函数;
S16,将光学遥感影像输入建筑物提取模型进行建筑物提取,得到光学遥感影像的建筑物提取结果。
可以理解,光学遥感影像可以从公共的遥感影像数据集中获取,也可以从现有的地理信息系统中爬取遥感影像瓦片拼接而成或者通过其他在线采集的方式获取。建筑物提取模型可以基于本领域中的深度卷积神经网络构建,采用编码器+解码器的结构。特征提取层可以采用已有的各类图像特征提取网络来构建,只要能够实现对光学遥感影像进行特征信息提取即可。全局上下文注意力模块是基于注意力机制的数据处理模块。空洞空间金字塔池化模块可以由不同空洞率的空洞卷积层组成。
具体的,建筑物提取模型可以利用已有训练数据集,如已知的遥感影像数据集,预先或者临场训练好备用。在获得待提取的光学遥感影像后,将其输入训练好的建筑物提取模型,该模型经过对光学遥感影像进行一系列的处理,如特征提取、全局上下文特征融合处理、特征跨尺度融合等编码处理后,经过解码得到该光学遥感影像的建筑物提取结果,从而实现光学遥感影像上的建筑物识别与标识等。
上述基于注意力机制和边界损失的遥感影像建筑物提取方法,通过调用训练好的建筑物提取模型对待提取的光学遥感图像进行建筑物提取时,待提取的光学遥感图像在建筑物提取模型的特征提取层中进行特征提取处理,并且模型加入了全局上下文注意力模块对特征提取层输出的特征信息进行全局上下文特征融合处理,可以使神经网络从光学遥感影像的建筑物之间捕获更充分的上下文关系,能够有效的提取光学遥感影像中的全局上下文特征,关注图像中建筑物之间的关系并从中筛选有效特征进行融合,从而更准确地识别出光学遥感影像中被阴影遮挡、或者是密集的建筑物,提高建筑物提取性能。
此外,模型还加入空洞空间金字塔池化模块对特征提取层输出的特征图进行跨尺度融合处理,从而避免神经网络处理速度下降;并且神经网络采用边界损失函数与Dice损失函数的结合损失函数,使得神经网络更加关注建筑物的边界提取质量,使得生成的建筑物边界更加符合直角多边形的形状,减轻角部圆滑现象,最终达到了大幅提高提取的建筑物的可分离性效果,与现有方法相比,更符合光学遥感影像建筑物提取的现实需求,能够提高密集建筑物的提取性能,有很好的应用前景。
为便于说明与理解,下面从建筑物提取模型的设计与训练角度展开说明。在实际应用中,模型内部对光学遥感影像的数据处理流程可以同理理解。
在一个实施例中,如图2所示的是上述基于注意力机制和边界损失的遥感影像建筑物提取方法,从光学遥感影像中提取建筑物的流程示意图,其中,模型训练阶段相比于工程应用阶段,需要对建筑物提取结果与建筑物真实标签进行损失函数计算,这是因为使损失函数最小是模型训练的目标;而工程应用阶段由于是使用训练好的模型进行图像数据处理,因此只需提供待提取的光学遥感影像,等待建筑物提取结果输出即可。总而言之,在训练阶段,以损失值最小为目标对深度卷积神经网络(即构建的建筑物提取模型)进行训练,得到训练好的建筑物提取模型;在测试阶段和工程应用阶段,将光学遥感影像输入到训练阶段完成后保存的建筑物提取模型中,即可预测得到建筑物提取结果。
在一个实施例中,建筑物提取模型的训练以结合损失函数最小为目标函数;建筑物提取模型的训练步骤,包括:
获取训练用的光学遥感影像以及建筑物真实标签;
以训练用的光学遥感影像为模型输入,以建筑物真实标签为模型的监督信息并以建筑物提取结果为输出,对建筑物提取模型进行迭代训练;
当建筑物提取模型的结合损失函数的损失值最小时,保存建筑物提取模型的当前网络参数作为最终网络模型参数,得到训练好的建筑物提取模型。
可以理解,构建的建筑物提取模型在训练阶段中,模型输入为训练用的光学遥感影像及建筑物真实标签(也即是根据遥感影像现场真实建筑物分布情况已提前标注了建筑物影像),模型输出为建筑物提取结果,前述三种输入/输出图像数据的尺寸大小可以根据实际需要灵活选择。
具体的,将光学遥感影像作为建筑物提取网络的输入,建筑物真实标签作为建筑物提取模型的监督信息,利用建筑物提取模型提取光学遥感影像中的建筑物,将图像中的建筑物标记为第一标记类别(例如但不限于1或其他数字,又或者是字母),非建筑物标记为第二标记类别(例如但不限于0或其他数字,又或者是字母),输出建筑物提取结果。其中,第一标记类别不同于第二标记类别,用于将光学遥感影像中的建筑物与非建筑物区别开来。
在一个实施例中,建筑物提取结果为图像中的建筑物标记为1且非建筑物标记为0的光学遥感影像。可以理解,在本实施例中,优选将光学遥感影像中的建筑物标记为1,非建筑物标记为0,从而使提取结果的可分离性更高且更易于辨认。
在一个实施例中,如图2所示,特征提取层包括五层特征提取层,每个特征提取层输出的特征信息均经过全局上下文注意力模块进行全局上下文特征融合处理后送入下一层特征提取层处理。
需要说明的是,在上述实施例中,特征提取层、全局上下文注意力模块及空洞空间金字塔池化模块等均可以是多层网络结构,具体层数可以根据实际应用的需要及资源限制而灵活选择。在本实施例中,编码器包含五层特征提取层,可以分别记为En_0、En_1、En_2、En_3和En_4。五层特征提取层采用卷积、池化操作逐层提取光学遥感影像的特征并将特征图大小减半,各特征提取层的具体参数可以如下其中一种示例(表1)所示:
表1
表1中,模块resnet.layer1-resnet.layer4分别表示该模块采用本领域已有的resnet网络中layer1层-layer4层的预训练参数,卷积核中的参数表示卷积核大小为7*7、个数为64,以此类推;输出尺寸的参数表示图像或特征图的宽*高*通道数。
将编码器中每个特征提取层输出的信息通过全局上下文注意力模块处理后输入到下一个特征提取层。
在一个实施例中,特征提取层采用Resnet网络构建。
在一个实施例中,如图2所示,全局上下文注意力模块包括三层注意力模块。每层注意力模块进行全局上下文特征融合处理的过程,包括如下处理过程:
获取当前层的特征提取层输出的当前层特征信息;
采用1x1卷积操作和softmax函数获取当前层特征信息的注意力权值;
根据注意力权值和当前层特征信息进行注意力池化,得到当前层特征信息的全局上下文特征;
采用1x1卷积操作对全局上下文特征进行特征转换,捕获通道间的依赖关系;
采用相加操作将转换后的全局上下文特征融合当前层特征信息后,将融合后的特征信息输入下一层的特征提取层。
可以理解,全局上下文注意力模块的具体结构可以如图3所示,其中,contextmodeling表示上下文建模操作,transform表示特征转换操作。全局上下文注意力模块中,第一层注意力模块用于处理特征提取层En_0输出的特征信息并送入特征提取层En_1参与处理,第二层注意力模块用于处理特征提取层En_1输出的特征信息并送入特征提取层En_2参与处理,第三层注意力模块用于处理特征提取层En_3输出的特征信息并送入特征提取层En_4参与处理。
具体的,全局上下文注意力模块的输入分别为En_0、En_1和En_3层的输出。图3所示,Conv表示卷积操作,ReLU表示激活层方法采用Relu函数,LayerNorm表示批量标准化。采用1x1卷积和softmax函数(归一化指数函数)来获取注意力权值,然后执行注意力池化来获得全局上下文特征。特征转换:即采用1x1卷积。特征聚合:即采用相加操作将全局上下文特征聚合到每个特征图位置的特征上。将上一个特征提取层的特征和全局上下文特征融合后再输入下一个特征提取层。
特征提取层的En_4层输出后输入空洞空间金字塔池化模块。
在一个实施例中,空洞空间金字塔池化模块对特征提取层输出的特征图进行跨尺度融合的过程,包括如下处理过程:
分别采用一个1x1卷积层和三个空洞卷积层对特征提取层输出的特征图进行处理,得到第一尺度特征图和第二尺度特征图;
采用一个全局平均池化层对特征提取层输出的特征图进行处理,得到图像级特征后进行1x1卷积处理并双线性插值到原始尺寸,得到第三尺度特征图;
将第一尺度特征图、第二尺度特征图和第三尺度特征图连接后1x1卷积处理,得到跨尺度融合后的编码器输出的特征图。
可以理解,如图4所示为空洞空间金字塔池化模块的结构示意图,其中,Concatenate表示连接操作,Conv表示卷积操作。空洞空间金字塔池化是为了改善网络加入空间金字塔池化模块后速度变慢的问题而提出的,使用不同空洞率的空洞卷积层,特征图通过上述并联的三种网络层并将输出的结果做合并。本实施例使用的空洞空间金字塔池化模块主要包含以下几个部分:一个1×1卷积层,三个卷积率(Conv Rate)分别为12,24和36的3x3的空洞卷积层;一个全局平均池化层(Avgpool)得到图像级特征,然后送入1x1卷积层并双线性插值到原始大小;将上述得到的不同尺度的特征结合在一起,然后经过1x1的卷积层进行融合并得到新特征,也即跨尺度融合后的编码器输出的特征图。
在一个实施例中,如图2所示,解码器采用的是四层解码结构。将编码器中En_4的信息通过空洞空间金字塔池化处理后输入到解码器的De_3层,编码器中En_2的低层注意力信息也直接输入到解码器的De_3层。经过四层解码器层De_3、De_2、De_1和De_0逐层恢复特征图分辨率后输出建筑物提取结果。解码器的具体参数可以如下其中一个示例(表2)所示:
表2
表2(续)
通过上述结构,建筑物提取输出尺寸为512*512*1。加入全局上下文注意力模块后,网络从光学遥感影像的建筑物之间捕获了更充分的上下文关系,有助于识别出光学遥感影像中被阴影遮挡、或者是密集的建筑物。
在一个实施例中,在建筑物提取模型进行迭代训练的过程中,每次迭代过程均计算建筑物提取模型的输出结果与建筑物真实标签之间的损失函数。
在一个实施例中,在建筑物提取模型进行迭代训练的过程中,利用Adam优化算法对建筑物提取模型的深度卷积神经网络中的参数进行优化调整;Adam优化算法的学习率为2e-4且超参数batch_size为4。
可以理解,关于模型训练及保存:如图2所示,在训练过程中,每次迭代过程均计算网络的输出结果(即建筑物提取结果)与对应建筑物真实值标签之间的损失函数,以损失函数最小为目标函数,利用本领域已有的Adam优化算法对深度卷积神经网络中的参数不断进行优化,Adam优化算法的学习率设置为2e-4,超参数batch_size(批尺寸)设置为4。当损失值不再下降时,将此时的网络参数保存为最终网络模型参数,得到训练好的建筑物提取模型。
在一个实施例中,深度卷积神经网络的损失函数分为两部分,一部分是边界损失函数LB,另一部分是Dice损失函数LD。Dice损失函数LD表达式为:
LD=1-F
其中,TP表示预测值与真实值一致的像素个数,FN表示即在真实值中为阳性,在预测值中为阴性的像素个数,FP表示在真实值中为阴性,在预测值中为阳性的像素个数。
具体的,用表示输入图像经由神经网络进行的建筑物的二值映射,/>表示相同图像的地面真实映射。期望预测地图的值分布在[0,1]中,地面真实图的值分布在{0,1}中。边界可以定义为:
其中,ygt表示相同图像的地面真实映射,ypd表示输入图像经由神经网络进行的建筑物的二值映射。边界损失函数是由以上边界定义推导而来,而总损失函数是由边界损失函数和Dice函数相加而来。pool(·,·)将像素级最大池化操作应用到反向的预测或地面真实二值映射,滑动窗口θ大小为θ0,参数θ0须尽可能小才能提取距离相近的边界;值1-ygt,1-ypd对应于图像的任何像素的倒置。为了计算从像素到边界的欧几里得距离,应该得到一个支持映射,这就是扩展边界的映射:
之后,精度和召回率可以计算如下:
其中,Pc表示预测出属于真实建筑物边界的部分除以预测的所有建筑物边界,Rc表示预测出属于真实建筑物边界的部分除以真实的所有建筑物边界,表示扩展真实边界的映射,/>表示扩展预测边界的映射。操作/>表示两个二值映射的像素乘法,(·)表示二值映射的像素求和。最后,将重构的度量BF1和相应的损失函数/>定义为:
最后,总的结合损失函数为LBD
其中,表示边界损失函数在总损失函数中的占比参数,β表示Dice函数在总损失函数中的占比参数。
在一个实施例中,如图5至图7所示,是应用上述基于注意力机制和边界损失的遥感影像建筑物提取方法的提取结果示意图,图5至图7中,每一行从左到右分别表示:光学遥感影像、建筑物真实值标签、采用传统Deeplabv3+的建筑物提取结果、只加入注意力模块的提取结果、本申请上述基于注意力机制和边界损失的遥感影像建筑物提取方法的最终提取结果,可见相比于其他图像,最终提取结果中生成的建筑物边界更加符合直角多边形的形状,减轻角部圆滑现象,建筑物的可分离性效果最好。
应该理解的是,虽然图1和图2流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且图1和图2的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
请参阅图8,在一个实施例中,还提供了一种结合注意力机制和边界损失的遥感影像建筑物提取装置100,包括图像获取模块11、网络调用模块13和提取输出模块15。其中,图像获取模块11用于获取待提取的光学遥感影像。网络调用模块13用于调用训练好的建筑物提取模型;其中,建筑物提取模型包括编码器和解码器,编码器包括特征提取层、全局上下文注意力模块及空洞空间金字塔池化模块,特征提取层用于对光学遥感影像进行特征信息提取,全局上下文注意力模块用于对特征提取层输出的特征信息进行全局上下文特征融合处理,空洞空间金字塔池化模块用于对特征提取层输出的特征图进行跨尺度融合,解码器用于对编码器输出的特征图进行分辨率恢复,建筑物提取模型中深度卷积神经网络的损失函数为边界损失函数与Dice损失函数的结合损失函数。提取输出模块15用于将光学遥感影像输入建筑物提取模型进行建筑物提取,得到光学遥感影像的建筑物提取结果。
上述结合注意力机制和边界损失的遥感影像建筑物提取装置100,通过各模块的协作,调用训练好的建筑物提取模型对待提取的光学遥感图像进行建筑物提取时,待提取的光学遥感图像在建筑物提取模型的特征提取层中进行特征提取处理,并且模型加入了全局上下文注意力模块对特征提取层输出的特征信息进行全局上下文特征融合处理,可以使神经网络从光学遥感影像的建筑物之间捕获更充分的上下文关系,能够有效的提取光学遥感影像中的全局上下文特征,关注图像中建筑物之间的关系并从中筛选有效特征进行融合,从而更准确地识别出光学遥感影像中被阴影遮挡、或者是密集的建筑物,提高建筑物提取性能。
此外,模型还加入空洞空间金字塔池化模块对特征提取层输出的特征图进行跨尺度融合处理,从而避免神经网络处理速度下降;并且神经网络采用边界损失函数与Dice损失函数的结合损失函数,使得神经网络更加关注建筑物的边界提取质量,使得生成的建筑物边界更加符合直角多边形的形状,减轻角部圆滑现象,最终达到了大幅提高提取的建筑物的可分离性效果,与现有方法相比,更符合光学遥感影像建筑物提取的现实需求,能够提高密集建筑物的提取性能,有很好的应用前景。
在一个实施例中,特征提取层包括五层特征提取层,每个特征提取层输出的特征信息均经过全局上下文注意力模块进行全局上下文特征融合处理后送入下一层特征提取层处理。
在一个实施例中,全局上下文注意力模块包括三层注意力模块,每层注意力模块用于进行全局上下文特征融合处理的过程,包括:
获取当前层的特征提取层输出的当前层特征信息;
采用1x1卷积操作和softmax函数获取当前层特征信息的注意力权值;
根据注意力权值和当前层特征信息进行注意力池化,得到当前层特征信息的全局上下文特征;
采用1x1卷积操作对全局上下文特征进行特征转换;
采用相加操作将转换后的全局上下文特征融合当前层特征信息后,将融合后的特征信息输入下一层的特征提取层。
在一个实施例中,空洞空间金字塔池化模块用于对特征提取层输出的特征图进行跨尺度融合的过程,包括:
分别采用一个1x1卷积层和三个空洞卷积层对特征提取层输出的特征图进行处理,得到第一尺度特征图和第二尺度特征图;
采用一个全局平均池化层对特征提取层输出的特征图进行处理,得到图像级特征后进行1x1卷积处理并双线性插值到原始尺寸,得到第三尺度特征图;
将第一尺度特征图、第二尺度特征图和第三尺度特征图连接后1x1卷积处理,得到跨尺度融合后的编码器输出的特征图。
在一个实施例中,建筑物提取模型的训练以结合损失函数最小为目标函数;建筑物提取模型的训练步骤,包括:
获取训练用的光学遥感影像以及建筑物真实标签;
以训练用的光学遥感影像为模型输入,以建筑物真实标签为模型的监督信息并以建筑物提取结果为输出,对建筑物提取模型进行迭代训练;
当建筑物提取模型的结合损失函数的损失值最小时,保存建筑物提取模型的当前网络参数作为最终网络模型参数,得到训练好的建筑物提取模型。
在一个实施例中,在建筑物提取模型进行迭代训练的过程中,每次迭代过程均计算建筑物提取模型的输出结果与建筑物真实标签之间的损失函数。
在一个实施例中,在建筑物提取模型进行迭代训练的过程中,利用Adam优化算法对建筑物提取模型的深度卷积神经网络中的参数进行优化调整;Adam优化算法的学习率为2e-4且超参数batch_size为4。
在一个实施例中,结合损失函数为LBD
Dice损失函数LD为:
其中,表示边界损失函数在总的损失函数中占比的参数,LB表示边界损失函数,β表示Dice函数在总的损失函数中占比的参数,TP表示预测值与真实值一致的像素个数,FN表示即在真实值中为阳性,在预测值中为阴性的像素个数,FP表示在真实值中为阴性,在预测值中为阳性的像素个数。
在一个实施例中,建筑物提取结果为图像中的建筑物标记为1且非建筑物标记为0的光学遥感影像。
在一个实施例中,特征提取层采用Resnet网络构建。
关于结合注意力机制和边界损失的遥感影像建筑物提取装置100的具体限定,可以参见上文中基于注意力机制和边界损失的遥感影像建筑物提取方法的相应限定,在此不再赘述。上述结合注意力机制和边界损失的遥感影像建筑物提取装置100中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于具体数据处理功能的设备中,也可以软件形式存储于前述设备的存储器中,以便于处理器调用执行以上各个模块对应的操作,前述设备可以是但不限于本领域的各型计算机设备。
又一方面,还提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时可以实现以下步骤:获取待提取的光学遥感影像;调用训练好的建筑物提取模型;将光学遥感影像输入建筑物提取模型进行建筑物提取,得到光学遥感影像的建筑物提取结果。其中,建筑物提取模型包括编码器和解码器,编码器包括特征提取层、全局上下文注意力模块及空洞空间金字塔池化模块,特征提取层用于对光学遥感影像进行特征信息提取,全局上下文注意力模块用于对特征提取层输出的特征信息进行全局上下文特征融合处理,空洞空间金字塔池化模块用于对特征提取层输出的特征图进行跨尺度融合,解码器用于对编码器输出的特征图进行分辨率恢复,建筑物提取模型中深度卷积神经网络的损失函数为边界损失函数与Dice损失函数的结合损失函数。
在一个实施例中,处理器执行计算机程序时还可以实现上述基于注意力机制和边界损失的遥感影像建筑物提取方法各实施例中增加的步骤或者子步骤。
再一方面,还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取待提取的光学遥感影像;调用训练好的建筑物提取模型;将光学遥感影像输入建筑物提取模型进行建筑物提取,得到光学遥感影像的建筑物提取结果。其中,建筑物提取模型包括编码器和解码器,编码器包括特征提取层、全局上下文注意力模块及空洞空间金字塔池化模块,特征提取层用于对光学遥感影像进行特征信息提取,全局上下文注意力模块用于对特征提取层输出的特征信息进行全局上下文特征融合处理,空洞空间金字塔池化模块用于对特征提取层输出的特征图进行跨尺度融合,解码器用于对编码器输出的特征图进行分辨率恢复,建筑物提取模型中深度卷积神经网络的损失函数为边界损失函数与Dice损失函数的结合损失函数。
在一个实施例中,计算机程序被处理器执行时,还可以实现上述基于注意力机制和边界损失的遥感影像建筑物提取方法各实施例中增加的步骤或者子步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线式动态随机存储器(Rambus DRAM,简称RDRAM)以及接口动态随机存储器(DRDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可做出若干变形和改进,都属于本申请保护范围。因此本申请专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种基于注意力机制和边界损失的遥感影像建筑物提取方法,其特征在于,包括步骤:
获取待提取的光学遥感影像;
调用训练好的建筑物提取模型;其中,所述建筑物提取模型包括编码器和解码器,所述编码器包括特征提取层、全局上下文注意力模块及空洞空间金字塔池化模块,所述特征提取层用于对所述光学遥感影像进行特征信息提取,所述全局上下文注意力模块用于对所述特征提取层输出的特征信息进行全局上下文特征融合处理,所述空洞空间金字塔池化模块用于对所述特征提取层输出的特征图进行跨尺度融合,所述解码器用于对所述编码器输出的特征图进行分辨率恢复,所述建筑物提取模型中深度卷积神经网络的损失函数为边界损失函数与Dice损失函数的结合损失函数;
所述结合损失函数为LBD
所述Dice损失函数为LD
其中,表示边界损失函数在总的损失函数中占比的参数,LB表示边界损失函数,β表示Dice函数在总的损失函数中占比的参数,TP表示预测值与真实值一致的像素个数,FN表示即在真实值中为阳性,在预测值中为阴性的像素个数,FP表示在真实值中为阴性,在预测值中为阳性的像素个数;
将所述光学遥感影像输入所述建筑物提取模型进行建筑物提取,得到所述光学遥感影像的建筑物提取结果。
2.根据权利要求1所述的基于注意力机制和边界损失的遥感影像建筑物提取方法,其特征在于,所述特征提取层包括五层特征提取层,每个所述特征提取层输出的特征信息均经过所述全局上下文注意力模块进行全局上下文特征融合处理后送入下一层所述特征提取层处理。
3.根据权利要求2所述的基于注意力机制和边界损失的遥感影像建筑物提取方法,其特征在于,所述全局上下文注意力模块包括三层注意力模块,每层所述注意力模块进行全局上下文特征融合处理的过程,包括:
获取当前层的所述特征提取层输出的当前层特征信息;
采用1x1卷积操作和softmax函数获取所述当前层特征信息的注意力权值;
根据所述注意力权值和所述当前层特征信息进行注意力池化,得到所述当前层特征信息的全局上下文特征;
采用1x1卷积操作对所述全局上下文特征进行特征转换;
采用相加操作将转换后的所述全局上下文特征融合所述当前层特征信息后,将融合后的特征信息输入下一层的所述特征提取层。
4.根据权利要求1-3任一项所述的基于注意力机制和边界损失的遥感影像建筑物提取方法,其特征在于,所述空洞空间金字塔池化模块对所述特征提取层输出的特征图进行跨尺度融合的过程,包括:
分别采用一个1x1卷积层和三个空洞卷积层对所述特征提取层输出的特征图进行处理,得到第一尺度特征图和第二尺度特征图;
采用一个全局平均池化层对所述特征提取层输出的特征图进行处理,得到图像级特征后进行1x1卷积处理并双线性插值到原始尺寸,得到第三尺度特征图;
将所述第一尺度特征图、所述第二尺度特征图和所述第三尺度特征图连接后1x1卷积处理,得到跨尺度融合后的所述编码器输出的特征图。
5.根据权利要求4所述的基于注意力机制和边界损失的遥感影像建筑物提取方法,其特征在于,所述建筑物提取模型的训练以所述结合损失函数最小为目标函数;所述建筑物提取模型的训练步骤,包括:
获取训练用的光学遥感影像以及建筑物真实标签;
以训练用的所述光学遥感影像为模型输入,以所述建筑物真实标签为模型的监督信息并以建筑物提取结果为输出,对所述建筑物提取模型进行迭代训练;
当所述建筑物提取模型的所述结合损失函数的损失值最小时,保存所述建筑物提取模型的当前网络参数作为最终网络模型参数,得到训练好的所述建筑物提取模型。
6.根据权利要求5所述的基于注意力机制和边界损失的遥感影像建筑物提取方法,其特征在于,在所述建筑物提取模型进行迭代训练的过程中,每次迭代过程均计算所述建筑物提取模型的输出结果与所述建筑物真实标签之间的损失函数。
7.根据权利要求6所述的基于注意力机制和边界损失的遥感影像建筑物提取方法,其特征在于,在所述建筑物提取模型进行迭代训练的过程中,利用Adam优化算法对所述建筑物提取模型的深度卷积神经网络中的参数进行优化调整;所述Adam优化算法的学习率为2e-4且超参数batch_size为4。
8.根据权利要求1所述的基于注意力机制和边界损失的遥感影像建筑物提取方法,其特征在于,所述建筑物提取结果为图像中的建筑物标记为1且非建筑物标记为0的光学遥感影像。
9.根据权利要求4所述的基于注意力机制和边界损失的遥感影像建筑物提取方法,其特征在于,所述特征提取层采用Resnet网络构建。
CN202210044832.8A 2022-01-14 2022-01-14 基于注意力机制和边界损失的遥感影像建筑物提取方法 Active CN114387521B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210044832.8A CN114387521B (zh) 2022-01-14 2022-01-14 基于注意力机制和边界损失的遥感影像建筑物提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210044832.8A CN114387521B (zh) 2022-01-14 2022-01-14 基于注意力机制和边界损失的遥感影像建筑物提取方法

Publications (2)

Publication Number Publication Date
CN114387521A CN114387521A (zh) 2022-04-22
CN114387521B true CN114387521B (zh) 2024-05-28

Family

ID=81201001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210044832.8A Active CN114387521B (zh) 2022-01-14 2022-01-14 基于注意力机制和边界损失的遥感影像建筑物提取方法

Country Status (1)

Country Link
CN (1) CN114387521B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115345866B (zh) * 2022-08-25 2023-05-23 中国科学院地理科学与资源研究所 一种遥感影像中建筑物提取方法、电子设备及存储介质
CN115841625B (zh) * 2023-02-23 2023-06-06 杭州电子科技大学 一种基于改进U-Net模型的遥感建筑物影像提取方法
CN117649609B (zh) * 2024-01-30 2024-04-30 中国人民解放军海军航空大学 面向跨时空尺度域的遥感图像建筑物信息提取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709387A (zh) * 2020-06-22 2020-09-25 中国科学院空天信息创新研究院 一种高分辨率遥感影像的建筑物分割方法及系统
CN112101310A (zh) * 2020-11-13 2020-12-18 中国人民解放军国防科技大学 基于上下文信息的道路提取方法、装置和计算机设备
CN112862774A (zh) * 2021-02-02 2021-05-28 重庆市地理信息和遥感应用中心 一种遥感影像建筑物精确分割方法
CN113298818A (zh) * 2021-07-09 2021-08-24 大连大学 基于注意力机制与多尺度特征的遥感图像建筑物分割方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201709672D0 (en) * 2017-06-16 2017-08-02 Ucl Business Plc A system and computer-implemented method for segmenting an image

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709387A (zh) * 2020-06-22 2020-09-25 中国科学院空天信息创新研究院 一种高分辨率遥感影像的建筑物分割方法及系统
CN112101310A (zh) * 2020-11-13 2020-12-18 中国人民解放军国防科技大学 基于上下文信息的道路提取方法、装置和计算机设备
CN112862774A (zh) * 2021-02-02 2021-05-28 重庆市地理信息和遥感应用中心 一种遥感影像建筑物精确分割方法
CN113298818A (zh) * 2021-07-09 2021-08-24 大连大学 基于注意力机制与多尺度特征的遥感图像建筑物分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于卷积神经网络的高分辨率遥感影像建筑物提取方法研究;刘亦凡;中国优秀硕士学位论文全文数据库基础科学辑;20210115;A008-247 *

Also Published As

Publication number Publication date
CN114387521A (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
CN114387521B (zh) 基于注意力机制和边界损失的遥感影像建筑物提取方法
CN108961235B (zh) 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法
CN108388896B (zh) 一种基于动态时序卷积神经网络的车牌识别方法
CN115601549B (zh) 基于可变形卷积和自注意力模型的河湖遥感图像分割方法
CN111583097A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN110781756A (zh) 基于遥感图像的城市道路提取方法及装置
CN112990050B (zh) 一种基于轻量级特征金字塔结构的单目3d目标检测方法
CN113486887B (zh) 三维场景下的目标检测方法和装置
CN115331245B (zh) 一种基于图像实例分割的表格结构识别方法
CN112581462A (zh) 工业产品的外观缺陷检测方法、装置及存储介质
CN112560865B (zh) 一种室外大场景下点云的语义分割方法
CN114782355B (zh) 基于改进vgg16网络的胃癌数字病理切片检测方法
CN116612280A (zh) 车辆分割方法、装置、计算机设备和计算机可读存储介质
CN115424017B (zh) 一种建筑物内外轮廓分割方法、装置及存储介质
CN112507849A (zh) 一种基于条件生成对抗网络的动态到静态场景转换方法
CN115294468A (zh) 一种改进Faster RCNN的SAR图像船舶识别方法
CN114926826A (zh) 场景文本检测系统
CN114419060A (zh) 皮肤镜图像分割方法与系统
CN116433545A (zh) 基于雨条纹引导的多尺度融合单幅图像去雨方法
CN111089865B (zh) 一种基于f-rcnn的缺陷电缆检测方法
CN112200850A (zh) 一种基于成熟特征点的orb提取方法
CN114862763B (zh) 一种基于EfficientNet的胃癌病理切片图像分割预测方法
CN116630901B (zh) 一种基于潜在图预测无监督学习框架的视觉里程计方法
CN117523205B (zh) 少样本ki67多类别细胞核的分割识别方法
Chen et al. A UA-net based Salient Object Detection Method for UAV

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant