CN117078943A - 融合多尺度特征和双注意力机制的遥感影像道路分割方法 - Google Patents

融合多尺度特征和双注意力机制的遥感影像道路分割方法 Download PDF

Info

Publication number
CN117078943A
CN117078943A CN202311343105.2A CN202311343105A CN117078943A CN 117078943 A CN117078943 A CN 117078943A CN 202311343105 A CN202311343105 A CN 202311343105A CN 117078943 A CN117078943 A CN 117078943A
Authority
CN
China
Prior art keywords
feature map
feature
module
remote sensing
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311343105.2A
Other languages
English (en)
Other versions
CN117078943B (zh
Inventor
陈泽华
张晓凯
杨莹
张佳鹏
郭学俊
赵哲峰
刘西林
刘晓峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiyuan University of Technology
Original Assignee
Taiyuan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan University of Technology filed Critical Taiyuan University of Technology
Priority to CN202311343105.2A priority Critical patent/CN117078943B/zh
Publication of CN117078943A publication Critical patent/CN117078943A/zh
Application granted granted Critical
Publication of CN117078943B publication Critical patent/CN117078943B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/588Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供了一种融合多尺度特征和双注意力机制的遥感影像道路分割方法,属于深度学习技术领域;解决了目前采用深度学习方法提取遥感影像中道路时由于道路被物体遮挡导致提取的道路出现断连的问题;对RGB三通道的高分辨率遥感图像进行人工标注,制作标签图像,划分数据集并进行图像预处理;搭建基于深度学习方法的道路分割模型,输入训练集图像和标签对其进行训练;将待测试图像输入道路分割模型得到预测标签图像。本发明通过添加前景特征增强模块、融合多尺度特征的双注意力模块、上下文信息提取模块和改进解码器等方式来提升模型的道路分割效果,最后得到提取的道路图像,道路分割结果清晰且鲁棒性强。

Description

融合多尺度特征和双注意力机制的遥感影像道路分割方法
技术领域
本发明涉及深度学习技术领域,具体而言,涉及一种融合多尺度特征和双注意力机制的遥感影像道路分割方法。
背景技术
近些年,随着遥感卫星发射数量不断增加,高分辨率遥感图像的获取更加方便,已成为数字图像处理重要的数据来源。遥感影像道路提取技术在自动驾驶、城市规划、自然灾害预警以及地图测绘等诸多方面发挥着重要作用。但是在遥感影像中,道路形状复杂,容易受到树木和建筑物的遮挡,而且图像中还存在着大量与道路相似的目标,如河道、田埂等,这些情况都会对道路提取结果造成严重的干扰。此外遥感影像还容易受到光照、云雾等因素的影响,这些因素会导致提取出来的道路准确性和连通性较差。所以如何从遥感影像中准确而又高效的提取路网结构,依旧面临着重大挑战。
国内外研究者在遥感道路提取领域已经做了大量的研究,并提出了多种方法。这些方法可分为传统的道路提取方法和基于深度学习的道路提取方法两大类。传统方法需要人工手动提取特征,步骤复杂,效率低,提取精度低。基于深度学习的方法步骤简单,效率高,提取精度高。但是仍然存在由于道路被物体遮挡导致提取的道路出现断连的现象。
发明内容
本发明为了解决目前采用深度学习方法提取遥感影像中道路时由于道路被物体遮挡导致提取的道路出现断连的问题,提出了一种融合多尺度特征和双注意力机制的遥感影像道路分割方法。
为了解决上述技术问题,本发明采用的技术方案为:一种融合多尺度特征和双注意力机制的遥感影像道路分割方法,包括如下步骤:
步骤一:将高分辨率遥感图像数据集随机划分为训练集和测试集,遥感图像数据集通过遥感卫星获取,包括原始图像和经过人工标记的图像数据;对训练集的遥感图像进行预处理和数据增强,得到经过数据增强后的遥感图像数据集;
步骤二:搭建遥感图像道路分割网络:所述遥感图像道路分割网络包括编码器模块、前景特征增强模块、融合多尺度特征的双注意力模块、上下文信息提取模块和多尺度解码器模块;
所述编码器模块由多个阶段构成,每个阶段输出相应的特征图;
所述前景特征增强模块对编码器模块第一阶段输出的特征图进行过滤和增强;
所述融合多尺度特征的双注意力模块包括多个双注意力模块,双注意力模块从空间和通道两方面同时对编码器模块多个阶段输出的特征图进行注意力加权,然后将经过上一层注意力机制处理的浅层特征图和经过本层注意力机制处理的深层特征图进行融合,将编码器模块各个阶段处理过后的特征图通过跳跃连接,传递到多尺度解码器模块的对应阶段,最深层的特征图经过注意力模块处理后,除了传递给第一个解码器模块之外,还传递给了上下文信息提取模块;
所述上下文信息提取模块设置在编码器模块和多尺度解码器之间,用于捕获高层特征图的全局和局部上下文信息;
所述多尺度解码器模块使用反卷积来对特征图进行上采样,并在反卷积之后增加了特征学习模块,用于对初步反卷积之后的特征图进一步学习和调整,最终输出精确的道路分割图;
步骤三:将预处理过的训练集数据输入至搭建的遥感图像道路分割网络中,对遥感图像道路分割网络的参数进行初始化,对遥感图像道路分割网络进行训练;训练完成后,将训练好的遥感图像道路分割网络模型参数进行保存;
步骤四:将经过处理的实时的遥感道路数据输入到训练好的遥感图像道路分割网络中,输出遥感图像数据的精确分割结果。
所述数据增强包括:将训练集中的图像和标签一起使用图像垂直翻转、水平翻转、垂直加水平翻转、对角线翻转、图像旋转、变形缩放、随机添加噪声和颜色变换操作。
所述编码器模块第一阶段的网络结构如下:
第一层为卷积层,卷积核大小为7×7,步长为2;
第二层使用大小为3×3,步长2的最大池化层;
经过第一二层之后,输出特征图;
所述编码器模块在第二层最大池化层后,放置四个由残差块堆叠而成的模块,堆叠的残差块层数分别为[3,4,6,3],第二层池化层和四个模块分别输出5个特征图,其中第第二层池化层输出的特征图称为最浅层特征图,最后一个模块输出的特征图称为最深层特征图。
所述双注意力模块的网络结构如下:
首先将深层特征图经过空间全局平均池化处理,然后使用1×1卷积块来将特征图通道数调整为1的同时获取特征图的空间位置信息,得到包含全局空间位置信息的特征图;
然后将特征图经过Sigmoid激活函数处理后,与未处理过的深层特征图相乘,得到经过空间位置信息加权后的特征图;
同理,将未处理过的深层特征图经过通道全局平均池化层处理,然后使用两个1×1的卷积块来学习特征图的通道信息,得到包含通道信息的特征;
然后经过Sigmoid激活函数处理,并与未处理过的深层特征图进行相乘,得到经过通道注意力加权后的特征图;
然后将经过空间注意力和通道注意力加权后的两个特征图相加,并使用1×1卷积块进行特征融合,就得到了经过双注意力模块加权后的深层特征图;
为了融合编码器模块各个阶段的特征,使模型包含多尺度信息,使用一个卷积核大小为3×3,步长为2的卷积块来进一步学习上一个双注意力模块处理后的浅层特征图的信息;
最后将经过双注意力模块加权后的深层特征图与处理后的浅层特征图进行拼接,得到经过双注意力机制加权并融合多尺度信息的特征图;
将编码器模块各个阶段经过双注意力机制处理过后的特征图通过跳跃连接,传递到多尺度解码器模块的对应阶段,最深层的特征图经过注意力模块处理后,传递给解码器的同时,也传递给上下文信息提取模块。
所述前景特征增强模块的网络结构如下:
采用三条并行的分支,第一条分支由一个1×1卷积块构成;
第二条分支由三个卷积块构成,前两个卷积块由空洞率为3和5的3×3空洞卷积构成,第三个卷积块为1×1卷积;
特征图在经过前两个卷积块后与第一条分支输出的特征图相加,然后再使用一个1×1的卷积块进行特征融合;
第三条分支的前两个卷积块是由空洞率为5和8的5×5卷积构成,特征图经过这两个卷积块后,与第二条分支输出的特征图相加,再经过一个1×1的卷积块进行特征融合,最后将处理后的特征图输出;
前景特征增强模块将编码器第二层最大池化层输出的特征图进行处理,将特征图中包含的背景噪声信息进行过滤,并增强道路特征,然后将处理后的特征图输入到第一个双注意力模块中,作为浅层特征图,与后续深层特征图进行融合。
所述上下文信息提取模块的网络结构如下:
由5条支路组成,第一条支路为残差连接,第2到4条支路分别由窗口大小为2×2、4×4、8×8、16×16的两层Swin-Transformer块堆叠组成;
首先将输入特征图划分为16×16个不重叠的patch块,每个patch块大小为2×2;
在窗口多头自注意力中,根据设置的窗口大小,每个窗口依次包含2×2、4×4、8×8、16×16个patch块,然后在窗口中进行多头自注意力计算;
在经过4条Swin-Transformer块构成的支路后,使用MLP对第2-4条支路输出的特征图进行逐层融合,最后将第一条支路和融合后的特征图进行拼接,最后使用MLP和Relu激活函数处理特征图。
所示多尺度解码器模块的网络结构如下:
经过上下文信息提取模块后的特征图通过使用反卷积块进行上采样之后,特征图的长和宽变为原来的2倍,通道数减半,得到上采样后的特征图;
然后进入三条分别由1×1,3×3,5×5大小的卷积块组成的分支,从不同的尺度学习初步上采样之后的特征图,得到三个更加精细化的特征图;
然后将这三个特征图进行拼接,之后采用1×1的卷积块进行特征融合,最终输出经过学习和调整后的特征图;
经过四个解码器模块后,特征图恢复为原始图像尺寸大小,然后使用反卷积上采样,最后通过两层卷积块调整特征图通道数,然后经过Sigmoid激活函数后,最终输出道路结构分割图。
对遥感图像道路分割网络进行训练,使用的损失函数由Dice系数损失函数和二元交叉熵损失函数共同组成。
本发明相对于现有技术具备的有益效果为:
(1)本发明在编码器部分使用ResNet-34网络的残差块,并采用在ImageNet数据集上预训练过的权重来对编码器进行初始化。在特征提取过程,通过使用在其余任务中训练的参数来初始化网络模型,使得模型初步具有提取特征的能力,加快了模型收敛的速度,在编码器和解码器之间,使用了上下文信息提取模块,同时对道路特征进行全局和局部上下文信息建模,有助于提取被建筑物等遮挡的道路部分。
(2)本发明在编码器第二层最大池化层后设计了前景特征增强模块,用于将最浅层特征图中包含的大量背景干扰信息进行有效抑制,同时增强道路特征。并且前景特征增强模块中的多个分支可以获取到不同尺度的特征信息,有利于后续模块的工作。
(3)本发明在模型的跳跃连接处设计了可以融合多尺度特征的双注意力模块。使用该模块可以对编码器各个阶段输出的特征图同时从空间和通道两方面进行注意力加权,对特征图进行过滤。抑制非道路区域的图像特征,提升目标区域特征的权重。使得模型更加的关注道路特征。由于编码器浅层特征图包含了目标的细节和轮廓信息,深层特征图包含的更多是目标的语义信息。所以该模块还引入多尺度特征融合的方式,将经过注意力加权后的浅层特征图和深层特征图进行充分的特征融合。最终使得模型拥有了捕获多尺度特征的能力。
(4)本发明在模型的编码器和解码器之间设计了上下文信息提取模块。通过不同窗口大小的Swin-Transformer块,从不同尺度对特征图的全局和局部依赖关系进行建模,有效解决了道路被建筑物等遮挡导致提取效果差的问题。
(5)本发明在模型的解码器中除了使用反卷积进行上采样之外还设计了特征学习模块,用来解决普通解码器重建能力不够,目标分割图轮廓不清晰的问题。在上采样之后,通过特征学习模块对初步上采样后的特征图进一步学习和调整,最终提升了模型的分割效果。
附图说明
下面结合附图对本发明做进一步说明:
图1为本发明的方法流程图;
图2为本发明网络的结构示意图;
图3为本发明编码器的结构示意图;
图4为本发明前景特征增强模块的结构示意图;
图5为本发明融合多尺度特征的双注意力模块的结构示意图;
图6为本发明上下文信息提取模块的结构示意图;
图7为本发明多尺度解码器模块的结构示意图;
图8为本发明实施例中使用的DeepGlobe数据集中的遥感图像示例图;
图9为本发明实施例中使用的DeepGlobe数据集中标签的遥感图像示例图;
图10为采用本发明的方法提取的图8中的道路结构示意图。
具体实施方式
如图1,本发明提供了一种融合多尺度特征和双注意力机制的遥感影像道路分割方法,包括如下步骤:
步骤一:将1024×1024大小的高分辨率遥感图像数据集按照8:2划分为训练集和测试集,所述高分辨率遥感图像数据集通过遥感卫星获取,包括原始遥感图像数据和经过人工标记的遥感图像数据;对遥感图像进行预处理和数据扩充,得到经过数据增强后的遥感图像数据集;
步骤二:搭建如图2所示的遥感图像道路分割网络:遥感图像道路分割网络中包括编码器模块、前景特征增强模块、融合多尺度特征的双注意力模块、上下文信息提取模块、多尺度解码器模块,搭建步骤包括:
步骤2.1:编码器模块:编码器模块使用ResNet-34网络中的残差块堆叠构成,并使用ResNet-34在ImageNet数据集上预训练的网络参数来初始化编码器。编码器模块由5个阶段构成,各个阶段都会输出相应的特征图。并将池化层阶段输出的特征图传入前景特征增强模块,编码器模块第2-5个阶段输出的特征图传入融合多尺度特征的双注意力模块。
步骤2.2:前景特征增强模块:由于编码器模块第一个阶段输出的特征图中包含有大量与道路无关的背景噪声信息,如果不经过处理,将该特征图直接输入到下一阶段,会将噪声引入后续模块,影响模型最终的分割效果。为了解决此问题,设计了前景特征增强模块来对编码器模块第一阶段输出的特征图进行过滤和增强,以达到抑制干扰信息的目的。
步骤2.3:融合多尺度特征的双注意力模块:由于不同阶段的编码器输出的特征图尺度不同,而道路也具有多尺度的特点,所以融合多尺度信息可以有效提高道路提取的精度。并且设计了双注意力机制来从空间和通道两方面同时对特征图进行注意力加权,然后将经过上一层注意力机制处理的浅层特征图和经过本层注意力机制处理的深层特征图进行融合。
将经过前景特征增强模块的特征图以及编码器模块第2-5个阶段输出的特征图输入到双注意力模块中,从空间和通道角度同时对特征图进行注意力加权,并且各个双注意力模块要融合浅层经过注意力加权后的特征图。然后将经过注意力模块处理的特征图输入到上下文信息提取模块和对应阶段的解码器模块中。
步骤2.4:上下文信息提取模块:
在编码器和解码器之间设计了上下文信息提取模块,使用Swin-Transformer来捕获高层特征图的全局和局部上下文信息。由于遥感图像包含的信息较为丰富,直接对特征图进行上下文信息建模容易引入无关的上下文信息,所以在将特征图输入上下文信息提取模块前,将经过最深层双注意力模块加权后的特征图与最深层特征图相加,然后将增强后的特征图输入上下文信息提取模块中,进行道路上下文信息的建模。
将第5阶段的编码器输出的深层特征图和包含多尺度特征经过双注意力模块加权后的浅层特征图进行融合,然后输入到该模块中,获取到特征图的全局和局部语义信息。然后将处理后的特征图输入到解码器1中。
步骤2.5:多尺度解码器模块:
解码器通过使用反卷积来对特征图进行上采样,同时减少特征图的通道数,最终使得特征图尺寸恢复为输入图像大小。只使用反卷积进行简单的上采样会导致解码器对特征图的重建能力不足,导致分割出来的道路轮廓不清晰,缺失部分细节信息。所以设计了多尺度解码器模块,在反卷积之后增加了特征学习模块,用于对初步反卷积之后的特征图进一步学习和调整,提高解码器对特征图的重建能力。最终输出精确的道路分割图。
步骤三:将预处理过的训练集数据输入至搭建的遥感图像道路分割网络中,对遥感图像道路分割网络的参数进行初始化,采用ResNet-34网络在ImageNet数据集上预训练的参数来初始化编码器模块网络,对其余网络参数进行随机初始化,对遥感图像道路分割网络进行训练;训练完成后,将训练好的遥感图像道路分割网络模型参数进行保存;
步骤四:经过处理的实时的遥感道路数据输入到训练好的遥感图像道路分割网络中,输出遥感图像数据的精确分割结果。
其中,对训练集的遥感图像和标签进行数据增强,包括使用图像垂直翻转、水平翻转、垂直加水平翻转、图像旋转、变形缩放、随机添加噪声和颜色变换操作。
编码器的详细结构如图3所示,具体如下:
第一层为卷积层,卷积核大小为7×7,步长为2。第二层使用大小为3×3,步长2的最大池化。经过第一二层之后,输出特征图大小为512×512×64。
编码器模块在第二层最大池化层后,放置了四个由残差块堆叠而成的模块,堆叠的残差块层数分别为[3,4,6,3]。残差块中有用于加快网络收敛的残差连接。第二层池化层和四个模块分别输出5个特征图,其中第二层池化层输出的特征图称为浅层特征图,最后一个模块输出的特征图称为深层特征图。
前景特征增强模块的详细结构如图4所示,具体如下:
该模块采用三条并行的分支。第一条分支由一个1×1卷积块构成。第二条分支由三个卷积块构成,前两个卷积块由空洞率为3和5的3×3空洞卷积构成,第三个卷积块为1×1卷积。特征图在经过前两个卷积块后与第一条分支输出的特征图相加,然后再通过一个1×1的卷积块进行特征融合。第三条分支的前两个卷积块是由空洞率为5和8的5×5卷积构成。特征图经过这两个卷积块后,与第二条分支输出的特征图相加,再经过一个1×1的卷积进行特征融合,最后将处理后的特征图输出。该模块将第二层最大池化层输出的512×512×64的特征图进行处理,将特征图中包含的噪声信息进行过滤,并将道路特征进行增强,然后将处理后的特征图输入到第一个双注意力模块中。
双注意力模块的详细结构如图5所示,具体如下:
首先将深层特征图经过空间全局平均池化处理,然后使用1×1卷积块来将特征图通道数调整为1,并且学习特征图中的位置信息,得到包含全局空间位置信息的特征图。然后将该特征图经过Sigmoid激活函数处理后,与未处理过的深层特征图相乘,得到经过空间位置信息加权后的特征图。
同理,将未处理过的深层特征图经过通道全局平均池化层处理,然后使用两个1×1的卷积块来学习特征图的通道信息,得到包含通道信息的特征图。然后经过Sigmoid激活函数,并与未处理过的深层特征图进行相乘,得到经过通道注意力加权后的特征图。
然后将经过空间注意力和通道注意力加权后的两个特征图相加,并使用1×1卷积块进行特征融合,就得到了经过双注意力模块加权后的深层特征图。为了融合编码器模块各个阶段的特征,使模型包含多尺度信息,使用一个卷积核大小为3×3,步长为2的卷积块来进一步学习上一个双注意力模块处理后的浅层特征图的信息。最后将经过双注意力模块加权后的深层特征图与处理后的浅层特征图进行拼接,最终得到经过双注意力机制加权并融合多尺度信息的特征图。将编码器模块各个阶段处理过后的特征图通过跳跃连接,传递到多尺度解码器模块的对应阶段。最深层的特征图经过注意力模块处理后,除了传递给第一个解码器模块之外,还传递给了上下文信息提取模块。
上下文信息提取模块的详细结构如图6所示,具体如下:
上下文信息提取模块输入大小为32×32的特征图,该模块由5条支路组成,第一条支路为残差连接,第2到4条支路分别由窗口大小为2×2、4×4、8×8、16×16的两层Swin-Transformer块堆叠组成。首先将输入特征图X划分为16×16个不重叠的patch块,每个patch块大小为2×2。在窗口多头自注意力中,根据设置的窗口大小,每个窗口依次包含2×2、4×4、8×8、16×16个patch块,然后在窗口中进行多头自注意力计算。在经过4条Swin-Transformer块构成的支路后,使用MLP对第2-4条支路输出的特征图进行逐层融合,最后将第一条支路和融合后的特征图进行拼接,然后使用MLP和ReLU激活函数处理特征图。
多尺度解码器模块的详细结构如图7所示,具体如下:
经过上下文信息提取模块后的特征图通过使用反卷积块进行上采样之后,特征图的长和宽变为原来的2倍,通道数减半,得到上采样后的特征图。然后进入三条分别由1×1,3×3,5×5大小的卷积块组成的分支来从不同的尺度学习初步上采样之后的特征图,得到三个更加精细化的特征图。然后将这三个特征图进行拼接,之后采用1×1的卷积块进行特征融合,最终输出经过学习和调整后的特征图。经过四个这样的解码器后,特征图恢复为512×512×32大小,然后使用反卷积上采样,最后通过两层卷积块调整特征图通道数,然后经过Sigmoid激活函数后,最终输出道路结构分割图。
对遥感图像分割网络进行训练时,在损失函数方面,选择将二元交叉熵损失函数和Dice系数损失函数进行叠加。这是由于遥感影像中表示道路的像素点与表示背景的像素点数量差距过大,类别严重不均衡,只使用交叉熵损失函数训练模型会使得模型偏向于将代表道路的像素点预测为背景类别。为了解决此问题,本发明将交叉熵损失函数和Dice系数损失函数结合,作为模型最终的损失函数。
其中,交叉熵损失函数的计算公式为:
上式中:y为真实的像素标签值,为预测的标签像素值,N为标签的类别数;
Dice系数损失函数的计算公式为:
上式中:X为生成的预测图,Y为真实的标签,为标签和预测之间的交集,/>为标签的元素个数,/>为预测的元素个数;最终的语义分割损失函数为交叉熵损失函数和Dice系数损失函数的加权系数总和,计算公式为:
为了进一步验证本方法的有效性和可行性,本发明根据下面实施例进行实验,实验结果如表1所示。
表1 实验结果。
使用深度学习框架Pytorch1.12搭建遥感图像道路分割网络的架构。实验数据集使用DeepGlobe道路提取数据集,采用了语义分割中常用的四种语义分割评估指标,即准确率、交并比、召回率和调和平均数来评价模型道路分割的性能。进行道路分割前的遥感道路图像如图8所示,对应的人工标记后的遥感道路分割图像如图9所示,经过本发明的方法处理后得到的预测道路分割图像如图10所示。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种融合多尺度特征和双注意力机制的遥感影像道路分割方法,其特征在于:包括如下步骤:
步骤一:将高分辨率遥感图像数据集随机划分为训练集和测试集,遥感图像数据集通过遥感卫星获取,包括原始图像和经过人工标记的图像数据;对训练集的遥感图像进行预处理和数据增强,得到经过数据增强后的遥感图像数据集;
步骤二:搭建遥感图像道路分割网络:所述遥感图像道路分割网络包括编码器模块、前景特征增强模块、融合多尺度特征的双注意力模块、上下文信息提取模块和多尺度解码器模块;
所述编码器模块由多个阶段构成,每个阶段输出相应的特征图;
所述前景特征增强模块对编码器模块第一阶段输出的特征图进行过滤和增强;
所述融合多尺度特征的双注意力模块包括多个双注意力模块,双注意力模块从空间和通道两方面同时对编码器模块多个阶段输出的特征图进行注意力加权,然后将经过上一层注意力机制处理的浅层特征图和经过本层注意力机制处理的深层特征图进行融合,将编码器模块各个阶段处理过后的特征图通过跳跃连接,传递到多尺度解码器模块的对应阶段,最深层的特征图经过注意力模块处理后,除了传递给第一个解码器模块之外,还传递给了上下文信息提取模块;
所述上下文信息提取模块设置在编码器模块和多尺度解码器之间,用于捕获高层特征图的全局和局部上下文信息;
所述多尺度解码器模块使用反卷积来对特征图进行上采样,并在反卷积之后增加了特征学习模块,用于对初步反卷积之后的特征图进一步学习和调整,最终输出精确的道路分割图;
步骤三:将预处理过的训练集数据输入至搭建的遥感图像道路分割网络中,对遥感图像道路分割网络的参数进行初始化,对遥感图像道路分割网络进行训练;训练完成后,将训练好的遥感图像道路分割网络模型参数进行保存;
步骤四:将经过处理的实时的遥感道路数据输入到训练好的遥感图像道路分割网络中,输出遥感图像数据的精确分割结果。
2.根据权利要求1所述的一种融合多尺度特征和双注意力机制的遥感影像道路分割方法,其特征在于:所述数据增强包括:将训练集中的图像和标签一起使用图像垂直翻转、水平翻转、垂直加水平翻转、对角线翻转、图像旋转、变形缩放、随机添加噪声和颜色变换操作。
3.根据权利要求1所述的一种融合多尺度特征和双注意力机制的遥感影像道路分割方法,其特征在于:所述编码器模块第一阶段的网络结构如下:
第一层为卷积层,卷积核大小为7×7,步长为2;
第二层使用大小为3×3,步长2的最大池化层;
经过第一二层之后,输出特征图;
所述编码器模块在第二层最大池化层后,放置四个由残差块堆叠而成的模块,堆叠的残差块层数分别为[3,4,6,3],第二层池化层和四个模块分别输出5个特征图,其中第第二层池化层输出的特征图称为最浅层特征图,最后一个模块输出的特征图称为最深层特征图。
4.根据权利要求1所述的一种融合多尺度特征和双注意力机制的遥感影像道路分割方法,其特征在于:所述双注意力模块的网络结构如下:
首先将深层特征图经过空间全局平均池化处理,然后使用1×1卷积块来将特征图通道数调整为1的同时获取特征图的空间位置信息,得到包含全局空间位置信息的特征图;
然后将特征图经过Sigmoid激活函数处理后,与未处理过的深层特征图相乘,得到经过空间位置信息加权后的特征图;
同理,将未处理过的深层特征图经过通道全局平均池化层处理,然后使用两个1×1的卷积块来学习特征图的通道信息,得到包含通道信息的特征;
然后经过Sigmoid激活函数处理,并与未处理过的深层特征图进行相乘,得到经过通道注意力加权后的特征图;
然后将经过空间注意力和通道注意力加权后的两个特征图相加,并使用1×1卷积块进行特征融合,就得到了经过双注意力模块加权后的深层特征图;
为了融合编码器模块各个阶段的特征,使模型包含多尺度信息,使用一个卷积核大小为3×3,步长为2的卷积块来进一步学习上一个双注意力模块处理后的浅层特征图的信息;
最后将经过双注意力模块加权后的深层特征图与处理后的浅层特征图进行拼接,得到经过双注意力机制加权并融合多尺度信息的特征图;
将编码器模块各个阶段经过双注意力机制处理过后的特征图通过跳跃连接,传递到多尺度解码器模块的对应阶段,最深层的特征图经过注意力模块处理后,传递给解码器的同时,也传递给上下文信息提取模块。
5.根据权利要求4所述的一种融合多尺度特征和双注意力机制的遥感影像道路分割方法,其特征在于:所述前景特征增强模块的网络结构如下:
采用三条并行的分支,第一条分支由一个1×1卷积块构成;
第二条分支由三个卷积块构成,前两个卷积块由空洞率为3和5的3×3空洞卷积构成,第三个卷积块为1×1卷积;
特征图在经过前两个卷积块后与第一条分支输出的特征图相加,然后再使用一个1×1的卷积块进行特征融合;
第三条分支的前两个卷积块是由空洞率为5和8的5×5卷积构成,特征图经过这两个卷积块后,与第二条分支输出的特征图相加,再经过一个1×1的卷积块进行特征融合,最后将处理后的特征图输出;
前景特征增强模块将编码器第二层最大池化层输出的特征图进行处理,将特征图中包含的背景噪声信息进行过滤,并增强道路特征,然后将处理后的特征图输入到第一个双注意力模块中,作为浅层特征图,与后续深层特征图进行融合。
6.根据权利要求1所述的一种融合多尺度特征和双注意力机制的遥感影像道路分割方法,其特征在于:所述上下文信息提取模块的网络结构如下:
由5条支路组成,第一条支路为残差连接,第2到4条支路分别由窗口大小为2×2、4×4、8×8、16×16的两层Swin-Transformer块堆叠组成;
首先将输入特征图划分为16×16个不重叠的patch块,每个patch块大小为2×2;
在窗口多头自注意力中,根据设置的窗口大小,每个窗口依次包含2×2、4×4、8×8、16×16个patch块,然后在窗口中进行多头自注意力计算;
在经过4条Swin-Transformer块构成的支路后,使用MLP对第2-4条支路输出的特征图进行逐层融合,最后将第一条支路和融合后的特征图进行拼接,最后使用MLP和Relu激活函数处理特征图。
7.根据权利要求1所述的一种融合多尺度特征和双注意力机制的遥感影像道路分割方法,其特征在于:所示多尺度解码器模块的网络结构如下:
经过上下文信息提取模块后的特征图通过使用反卷积块进行上采样之后,特征图的长和宽变为原来的2倍,通道数减半,得到上采样后的特征图;
然后进入三条分别由1×1,3×3,5×5大小的卷积块组成的分支,从不同的尺度学习初步上采样之后的特征图,得到三个更加精细化的特征图;
然后将这三个特征图进行拼接,之后采用1×1的卷积块进行特征融合,最终输出经过学习和调整后的特征图;
经过四个解码器模块后,特征图恢复为原始图像尺寸大小,然后使用反卷积上采样,最后通过两层卷积块调整特征图通道数,然后经过Sigmoid激活函数后,最终输出道路结构分割图。
8.根据权利要求1所述的一种融合多尺度特征和双注意力机制的遥感影像道路分割方法,其特征在于:对遥感图像道路分割网络进行训练,使用的损失函数由Dice系数损失函数和二元交叉熵损失函数共同组成。
CN202311343105.2A 2023-10-17 2023-10-17 融合多尺度特征和双注意力机制的遥感影像道路分割方法 Active CN117078943B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311343105.2A CN117078943B (zh) 2023-10-17 2023-10-17 融合多尺度特征和双注意力机制的遥感影像道路分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311343105.2A CN117078943B (zh) 2023-10-17 2023-10-17 融合多尺度特征和双注意力机制的遥感影像道路分割方法

Publications (2)

Publication Number Publication Date
CN117078943A true CN117078943A (zh) 2023-11-17
CN117078943B CN117078943B (zh) 2023-12-19

Family

ID=88712003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311343105.2A Active CN117078943B (zh) 2023-10-17 2023-10-17 融合多尺度特征和双注意力机制的遥感影像道路分割方法

Country Status (1)

Country Link
CN (1) CN117078943B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117392392A (zh) * 2023-12-13 2024-01-12 河南科技学院 一种割胶线识别与生成方法
CN117475236A (zh) * 2023-11-22 2024-01-30 山东省地质矿产勘查开发局第八地质大队(山东省第八地质矿产勘查院) 用于矿产资源勘探的数据处理系统及其方法
CN117726550A (zh) * 2024-02-18 2024-03-19 成都信息工程大学 一种多尺度门控注意力遥感图像去雾方法和系统
CN117726954A (zh) * 2024-02-09 2024-03-19 成都信息工程大学 一种遥感图像海陆分割方法及系统
CN117789042A (zh) * 2024-02-28 2024-03-29 中国地质大学(武汉) 一种道路信息解译方法、系统及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019153245A1 (en) * 2018-02-09 2019-08-15 Baidu.Com Times Technology (Beijing) Co., Ltd. Systems and methods for deep localization and segmentation with 3d semantic map
CN112183258A (zh) * 2020-09-16 2021-01-05 太原理工大学 一种基于上下文信息和注意力机制的遥感图像道路分割方法
CN113298818A (zh) * 2021-07-09 2021-08-24 大连大学 基于注意力机制与多尺度特征的遥感图像建筑物分割方法
CN113780296A (zh) * 2021-09-13 2021-12-10 山东大学 基于多尺度信息融合的遥感图像语义分割方法及系统
CN113850825A (zh) * 2021-09-27 2021-12-28 太原理工大学 基于上下文信息和多尺度特征融合的遥感图像道路分割方法
CN113888550A (zh) * 2021-09-27 2022-01-04 太原理工大学 一种结合超分辨率和注意力机制的遥感图像道路分割方法
CN114092824A (zh) * 2020-08-23 2022-02-25 西南科技大学 结合密集注意力和并行上采样的遥感图像道路分割方法
CN114550014A (zh) * 2022-02-24 2022-05-27 中国电建集团中南勘测设计研究院有限公司 道路分割方法及计算机装置
CN114821342A (zh) * 2022-06-02 2022-07-29 中国科学院地理科学与资源研究所 一种遥感影像道路提取方法及系统
CN115457498A (zh) * 2022-09-22 2022-12-09 合肥工业大学 一种基于双注意力和密集连接的城市道路语义分割方法
CN116030357A (zh) * 2022-12-12 2023-04-28 中北大学 一种高分辨率遥感图像变化检测深度网络及检测方法
US20230267615A1 (en) * 2022-02-19 2023-08-24 Christopher George-R AGIA Systems and methods for generating a road surface semantic segmentation map from a sequence of point clouds
CN116645598A (zh) * 2023-04-25 2023-08-25 浙江工业大学 一种基于通道注意力特征融合的遥感图像语义分割方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019153245A1 (en) * 2018-02-09 2019-08-15 Baidu.Com Times Technology (Beijing) Co., Ltd. Systems and methods for deep localization and segmentation with 3d semantic map
CN114092824A (zh) * 2020-08-23 2022-02-25 西南科技大学 结合密集注意力和并行上采样的遥感图像道路分割方法
CN112183258A (zh) * 2020-09-16 2021-01-05 太原理工大学 一种基于上下文信息和注意力机制的遥感图像道路分割方法
CN113298818A (zh) * 2021-07-09 2021-08-24 大连大学 基于注意力机制与多尺度特征的遥感图像建筑物分割方法
CN113780296A (zh) * 2021-09-13 2021-12-10 山东大学 基于多尺度信息融合的遥感图像语义分割方法及系统
CN113888550A (zh) * 2021-09-27 2022-01-04 太原理工大学 一种结合超分辨率和注意力机制的遥感图像道路分割方法
CN113850825A (zh) * 2021-09-27 2021-12-28 太原理工大学 基于上下文信息和多尺度特征融合的遥感图像道路分割方法
US20230267615A1 (en) * 2022-02-19 2023-08-24 Christopher George-R AGIA Systems and methods for generating a road surface semantic segmentation map from a sequence of point clouds
CN114550014A (zh) * 2022-02-24 2022-05-27 中国电建集团中南勘测设计研究院有限公司 道路分割方法及计算机装置
CN114821342A (zh) * 2022-06-02 2022-07-29 中国科学院地理科学与资源研究所 一种遥感影像道路提取方法及系统
CN115457498A (zh) * 2022-09-22 2022-12-09 合肥工业大学 一种基于双注意力和密集连接的城市道路语义分割方法
CN116030357A (zh) * 2022-12-12 2023-04-28 中北大学 一种高分辨率遥感图像变化检测深度网络及检测方法
CN116645598A (zh) * 2023-04-25 2023-08-25 浙江工业大学 一种基于通道注意力特征融合的遥感图像语义分割方法

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
LI J 等: "Cascaded attention DenseUNet (CADUNet) for road extraction from very-high-resolution images", 《ISPRS INTERNATIONAL JOURNAL OF GEO-INFORMATION》, vol. 10, no. 2021, pages 1 - 20 *
S. WANG 等: "Attention Guided Encoder-Decoder Network With Multi-Scale Context Aggregation for Land Cover Segmentation", 《IEEE ACCESS》, vol. 8, pages 215299 - 215309, XP011824433, DOI: 10.1109/ACCESS.2020.3040862 *
TANG X 等: "Multi-scale channel importance sorting and spatial attention mechanism for retinal vessels segmentation", 《APPLIED SOFT COMPUTING》, vol. 93, pages 1 - 10 *
YUAN M 等: "Using the wide-range attention U-Net for road segmentation", 《REMOTE SENSING LETTERS》, vol. 10, no. 2019, pages 506 - 515 *
刘童心: "基于深度学习的高分辨率遥感影像道路提取研究", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》, no. 2022, pages 028 - 261 *
周涛 等: "C2 Transformer U-Net:面向跨模态和上下文语义的医学图像分割模型", 《电子与信息学报》, vol. 45, no. 2023, pages 1807 - 1816 *
陈果 等: "结合上下文信息与多层特征融合的遥感道路提取", 《激光与光电子学进展》, pages 1 - 18 *
陈泽华 等: "改进U-Net型网络的遥感图像道路提取", 《中国图象图形学报》, vol. 26, no. 2021, pages 3005 - 3014 *
龙伊娜 等: "基于改进D-Linknet的高分遥感影像道路提取方法", 《激光杂志》, vol. 44, no. 2023, pages 162 - 168 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117475236A (zh) * 2023-11-22 2024-01-30 山东省地质矿产勘查开发局第八地质大队(山东省第八地质矿产勘查院) 用于矿产资源勘探的数据处理系统及其方法
CN117475236B (zh) * 2023-11-22 2024-05-03 山东省地质矿产勘查开发局第八地质大队(山东省第八地质矿产勘查院) 用于矿产资源勘探的数据处理系统及其方法
CN117392392A (zh) * 2023-12-13 2024-01-12 河南科技学院 一种割胶线识别与生成方法
CN117392392B (zh) * 2023-12-13 2024-02-13 河南科技学院 一种割胶线识别与生成方法
CN117726954A (zh) * 2024-02-09 2024-03-19 成都信息工程大学 一种遥感图像海陆分割方法及系统
CN117726954B (zh) * 2024-02-09 2024-04-30 成都信息工程大学 一种遥感图像海陆分割方法及系统
CN117726550A (zh) * 2024-02-18 2024-03-19 成都信息工程大学 一种多尺度门控注意力遥感图像去雾方法和系统
CN117726550B (zh) * 2024-02-18 2024-04-30 成都信息工程大学 一种多尺度门控注意力遥感图像去雾方法和系统
CN117789042A (zh) * 2024-02-28 2024-03-29 中国地质大学(武汉) 一种道路信息解译方法、系统及存储介质
CN117789042B (zh) * 2024-02-28 2024-05-14 中国地质大学(武汉) 一种道路信息解译方法、系统及存储介质

Also Published As

Publication number Publication date
CN117078943B (zh) 2023-12-19

Similar Documents

Publication Publication Date Title
CN117078943B (zh) 融合多尺度特征和双注意力机制的遥感影像道路分割方法
CN113850825B (zh) 基于上下文信息和多尺度特征融合的遥感图像道路分割方法
CN111047551B (zh) 一种基于U-net改进算法的遥感影像变化检测方法及系统
CN113298818B (zh) 基于注意力机制与多尺度特征的遥感图像建筑物分割方法
CN111598174B (zh) 基于半监督对抗学习的模型训练方法及图像变化分析方法
CN113780296B (zh) 基于多尺度信息融合的遥感图像语义分割方法及系统
CN109871798A (zh) 一种基于卷积神经网络的遥感影像建筑物提取方法
CN110796009A (zh) 基于多尺度卷积神经网络模型的海上船只检测方法及系统
CN111738111A (zh) 基于多分支级联空洞空间金字塔的高分辨遥感图像的道路提取方法
CN114359130A (zh) 一种基于无人机影像的道路裂缝检测方法
CN111178304B (zh) 基于全卷积神经网络的高分辨率遥感影像像素级解译方法
CN110717921B (zh) 改进型编码解码结构的全卷积神经网络语义分割方法
CN116434012A (zh) 一种基于边缘感知的轻量型棉铃检测方法及系统
CN112819837A (zh) 一种基于多源异构遥感影像的语义分割方法
CN115861756A (zh) 基于级联组合网络的大地背景小目标识别方法
CN114092824A (zh) 结合密集注意力和并行上采样的遥感图像道路分割方法
CN111627055A (zh) 一种联合语义分割的场景深度补全方法
CN113628180A (zh) 一种基于语义分割网络的遥感建筑物检测方法及系统
CN109284752A (zh) 一种车辆的快速检测方法
CN116310871A (zh) 融合空洞空间金字塔池化的内陆水体提取方法
CN115330703A (zh) 基于上下文信息融合的遥感影像云与云阴影检测方法
CN114998587A (zh) 一种遥感影像建筑物语义分割方法及系统
CN113744152A (zh) 一种潮水图像去噪处理方法、终端及计算机可读存储介质
CN113888550B (zh) 一种结合超分辨率和注意力机制的遥感图像道路分割方法
CN114998363B (zh) 一种高分辨率遥感影像渐进式分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant