CN116863347A - 一种高效率和精度的遥感图像语义分割方法及应用 - Google Patents
一种高效率和精度的遥感图像语义分割方法及应用 Download PDFInfo
- Publication number
- CN116863347A CN116863347A CN202310791332.5A CN202310791332A CN116863347A CN 116863347 A CN116863347 A CN 116863347A CN 202310791332 A CN202310791332 A CN 202310791332A CN 116863347 A CN116863347 A CN 116863347A
- Authority
- CN
- China
- Prior art keywords
- convolution
- deep
- features
- feature
- remote sensing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000000605 extraction Methods 0.000 claims abstract description 40
- 230000007246 mechanism Effects 0.000 claims abstract description 37
- 238000003709 image segmentation Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 36
- 238000005070 sampling Methods 0.000 claims description 26
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 claims description 13
- 230000004927 fusion Effects 0.000 claims description 11
- 238000009826 distribution Methods 0.000 claims description 10
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 5
- 230000005012 migration Effects 0.000 claims description 4
- 238000013508 migration Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000001668 ameliorated effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Remote Sensing (AREA)
- Astronomy & Astrophysics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开的一种高效率和精度的遥感图像语义分割方法,使用MobileNetV2网络替换DeepLabv3+原始主干网络Xception进行特征提取;在特征提取后获得的浅层特征层与深层特征层分别引入不同的注意力机制,提高插值的准确性;所述浅层特征层引入的注意力机制构建为卷积注意力模块,所述深层特征层引入的注意力机制构建为坐标注意力模块。本发明在特征提取模块获得的深层有效特征之后加入轻量级的通用卷积注意力模块CBAM,在减少网络参数量的同时增强网络特征提取能力;引入坐标注意力机制CA,使模型更关注图像中有效的特征信息,忽略无关的背景信息,以及改进了DeepLabV3+技术,提出了更适用于高分辨率遥感影像分割的方法。
Description
技术领域
本发明公开一种高效率和精度的遥感图像语义分割方法及应用,涉及图像语义分割方法技术领域。
背景技术
语义分割是遥感图像解译的关键技术之一,但高分辨率遥感图像信息复杂多样、特征丰富、物体尺度差异大,传统分割方法只能提取到图像的低级特征,不能满足高分辨率遥感图像分割的要求。深度学习算法被广泛应用,如FCN、SegNet、DeepLabV1/V2/V3/V3+等,其中DeepLabv3+采用Xception网络作为编码器,可以更好地捕捉特征,提高了分割精度。
DeepLabv3+虽然相对于经典语义分割模型FCN,U-Net等具有更好的分割效果,但由于其本身网络结构较为复杂,上采样幅度过大导致特征图中重要像素信息丢失,在高分辨率遥感图像和复杂场景下仍存在分割效果不佳、网络参数量较大、拟合速度慢、小目标分割不精确、边界信息较粗造等问题。
为了克服这一问题,现有技术中有应用MobileNetV2对DeepLabv3+进行替换以及应用注意力机制提高效率和精度的相关方法。
专利CN 112287940A就公开了一种基于深度学习的注意力机制的语义分割的方法,这个文件的创新思路是利用DeepLabv3+网络和MS-CAM模型,解决尺度不一致问题和语义特征融合问题,提高了准确度。专利CN 112686903A也公开了类似技术内容,主要思路是利用resnet网络提取特征并进行数据融合,同时在网络结构的设计中引入了空间位置注意力模块和通道注意力模块,提高了准确度。
论文:基于DeepLabV3+与注意力机制相结合的图像语义分割;则是通过在特征提取阶段将注意力机制和DeepLabV3+相结合,强调了不同级别的特征图中存在的特征重要程度不同。论文:采用双注意力机制Deeplabv3+算法的遥感影像语义分割;则是通过引入双注意力机制模块(DAMM)并在ASPP层串联或并联连接来改善DeepLabv3+网络的缺点。
论文:Semantic segmentation of UAV remote sensing images based on edgefeature fusing and multi-level upsampling integrated with Deeplabv3+,则是使用基于边缘特征融合和Deeplabv3+集成的多级上采样算法,以提供边缘信息和保留高级语义信息。
综上所述,现有技术相关实现方法普遍存在网络结构复杂的问题。并且对于注意力机制的使用仅仅是将其引入串联或并联;仅仅在Xception模型中提取两条低级特征等,提高精度的效果不佳。
本发明内容
本发明目的在于,提供一种高效率和精度的遥感图像语义分割方法及应用,解决现有技术中优化的图像语义分割方法复杂度高导致效率低下、应用注意力机制提高精度的效果不佳的问题。
为实现上述技术目的,达到上述技术效果,发明是通过以下技术方案实现:
一种高效率和精度的遥感图像语义分割方法,使用MobileNetV2网络替换DeepLabv3+原始主干网络Xception进行特征提取;
在特征提取后获得的浅层特征层与深层特征层分别引入不同的注意力机制,提高插值的准确性;
所述浅层特征层引入的注意力机制构建为卷积注意力模块,所述卷积注意力模块依据特征的重要性和空间分布进行选择,通过权重分配强调重要特征并抑制不重要的特征;
所述深层特征层引入的注意力机制构建为坐标注意力模块,所述坐标注意力模块强化空间位置信息,通过依据特征的空间分布来赋予不同的注意力权重。
进一步的,所述卷积注意力模块为CBAM注意力模块,所述坐标注意力模块为CA注意力模块,还包括ASPP模块进行卷积;
实现步骤具体为:
S1、对特征提取网络进行四次下采样,提取特征的同时保留两即浅层特征层、深层特征层,将深层语义特征输入至CBAM注意力模块;
S2、ASPP模块对CBAM注意力模块提取到的特征以不同膨胀率的空洞卷积进行并行采样,使用1×1卷积调整特征通道数后进行双线性插值四倍上采样操作;
S3、浅层特征输入至CA注意力模块,然后使用1×1的卷积调整通道数,与双线性插值上采样得到的结果进行融合。
S4、将融合后的特征图进行卷积以及双线性插值四倍上采样操作还原至原图大小并得到分割图像。
进一步的,所述卷积注意力模块为SENet注意力模块,所述坐标注意力模块为Non-local注意力模块,还包括ASPP模块进行卷积;
实现步骤具体为:
S1、对特征提取网络进行四次下采样,提取特征的同时保留两即浅层特征层、深层特征层,将深层语义特征输入至SENet注意力模块;
S2、ASPP模块对Non-local注意力模块提取到的特征以不同膨胀率的空洞卷积进行并行采样,使用1×1卷积调整特征通道数后进行双线性插值四倍上采样操作;
S3、浅层特征输入至CA注意力模块,然后使用1×1的卷积调整通道数,与双线性插值上采样得到的结果进行融合。
S4、将融合后的特征图进行卷积以及双线性插值四倍上采样操作还原至原图大小并得到分割图像。
进一步的,所述步骤S3引入多尺度特征融合模块,具体为:
S3、浅层特征输入至CA注意力模块,然后使用1×1的卷积调整通道数,与双线性插值上采样得到的结果进行浅层和深层特征的多尺度特征融合。
进一步的,步骤S2中的动态卷积替换原始的空洞卷积。
本发明的另一目的在于,公开一种高效率和精度的遥感图像语义分割方法的应用,应用于高分辨率遥感影像分割中,对输入的影像进行预处理,制作训练样本集,训练适用于高分辨率遥感影像分割的模型。
进一步的,利用迁移学习思想在训练前先载入主干网络MobileNetV2的预训练模型权重,将预训练参数更新至改进网络中训练,使得模型能够加速收敛,输出最终遥感影像地物信息精确提取结果。
进一步的,将训练集加载至改进的DeepLabv3+模型进行训练,最后得出训练好的DeepLabv3+模型,将该模型应用于高分辨率遥感图像地物分类中。
进一步的,应用于以高分辨率卫星影像建筑、水体、森林、草地、农田为提取目标。
有益效果:
为了克服高分辨率、复杂场景中对于图像分割效果不佳的问题,本发明在浅层和深层特征提取过程中分别引入不同的注意力机制,以提高插值的准确性和语义分割的精度,同时通过使用轻量级的MobileNetV2网络结构,提高高分辨率遥感图像语义分割的效率。相比现有技术中对于注意力机制的使用仅仅是将其引入串联或并联或者仅仅在Xception模型中提取两条低级特征等方式,本发明在特征提取模块获得的深层有效特征之后加入轻量级的通用卷积注意力模块CBAM,在减少网络参数量的同时增强网络特征提取能力;引入坐标注意力机制CA,使模型更关注图像中有效的特征信息,忽略无关的背景信息,以及改进了DeepLabV3+技术,提出了更适用于高分辨率遥感影像分割的方法。
本发明还公开了一种适用于前述方法的应用情况,改进DeepLabV3+技术构建一个特定的模型,在高分辨率遥感影像分割中的应用能够取得良好的效果。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
图1为本发明实施例的改进DeepLabv3+网络的模型结构图
图2为本发明实施例的改进DeepLabv3+中特征提取网络MobileNetV2InvertedResiduals结构图
图3为本发明实施例的CA注意力机制结构图
图4为本发明实施例的CBAM注意力模块结构图
图5为本发明实施例的使用的GID数据集:(a)原始图像,(b)RGB标签图
图6为本发明实施例的改进DeepLabv3+网络实际应用结果图;
具体实施方式
为了更清楚地说明本发明实施例的技术方案,下面将结合附图对实施例对本发明进行详细说明。
申请人注意到在图像语义分割的任务中,一直存在一个主要问题:如何兼顾计算效率和精确性。传统的深度学习模型如DeepLabv3+等使用的主干网络,例如Xception,虽然能够提供优秀的特征提取能力,但是计算资源和内存需求往往非常高,这对于资源受限的设备(如移动设备)或大规模实时应用来说,是一个重大挑战。
因此,申请人考虑到引入一种更轻量级但又能保持良好特征提取能力的网络结构。
即本发明公开的一种高效率和精度的遥感图像语义分割方法,使用MobileNetV2网络替换DeepLabv3+原始主干网络Xception进行特征提取。
MobileNetV2是一种专为移动和嵌入式视觉应用设计的轻量级深度学习网络,现有研究已经表面MobileNetV2是一种轻量级的深度学习模型,相比于Xception网络,它的参数更少,计算效率更高,而且性能也不逊色。但是现有技术在处理分割任务时,往往缺乏对不同特征的有效区分,这对最终的分割精度产生了限制,这主要是由深层和浅层特征的差异导致的:浅层特征和深层特征在语义和空间信息上有明显的差异。通常,浅层特征捕获的是低级别的细节信息和空间结构,如边缘、色彩和纹理等;而深层特征则更关注高级别的语义信息。因此,使用相同的注意力机制对这两类特征进行处理,可能并不是最优的策略。
基于前述考虑,本发明关注特征的重要性和空间分布:受启发于注意力机制的概念,本发明在特征提取后获得的浅层特征层与深层特征层分别引入不同的注意力机制,提高插值的准确性。
所述浅层特征层引入的注意力机制构建为卷积注意力模块,所述卷积注意力模块依据特征的重要性和空间分布进行选择,通过权重分配强调重要特征并抑制不重要的特征。
所述深层特征层引入的注意力机制构建为坐标注意力模块,所述坐标注意力模块强化空间位置信息,通过依据特征的空间分布来赋予不同的注意力权重。
相比现有技术,本发明的设计更好地考虑了特征的分层性和空间结构。通过这种方式,能够使网络在处理不同深度的特征时,能有针对性地强化其有用的信息,抑制不重要的信息,从而提高模型的整体表现。
实施例1
在本实施例中,所述卷积注意力模块为CBAM注意力模块,所述坐标注意力模块为CA注意力模块,还包括ASPP模块进行卷积。
在本实施例的一优选实施例中,实现步骤具体为:
首先结合轻量级的深度卷积神经网络,利用轻量级网络对全卷积神经网络模型的特征提取部分进行改进,
S1、特征提取网络进行四次下采样,提取特征的同时会保留两个特征层,一个特征层是原图1/4大小浅层特征层,另一个特征层是原图1/16大小的深层特征层,将提取的原图1/16大小的深层语义特征输入至CBAM注意力模块,
S2、应用ASPP模块对提取到的特征分别以6,12,18膨胀率的空洞卷积进行并行采样,使用1×1卷积调整特征通道数后进行双线性插值四倍上采样操作。
S3、将原图1/4大小的浅层特征输入至CA注意力模块,然后使用1×1的卷积调整通道数,与双线性插值上采样得到的结果融合。
S4、将融合后的特征图进行3×3卷积以及双线性插值四倍上采样操作还原至原图大小并得到分割图像。从而有效的提升了网络的训练效率,提高了最终语义分割的精度。改进DeepLabv3+网络的模型结构图如图1所示。
在本实施例的另一优选实施例中,所述卷积注意力模块为SENet注意力模块,所述坐标注意力模块为Non-local注意力模块,还包括ASPP模块进行卷积。具体通过如下步骤实现:
S1、特征提取网络进行四次下采样,提取特征的同时会保留两个特征层,一个特征层是原图1/4大小浅层特征层,另一个特征层是原图1/16大小的深层特征层,将提取的原图1/16大小的深层语义特征输入至SENet注意力模块,
S2、应用ASPP模块对提取到的特征分别以6,12,18膨胀率的空洞卷积进行并行采样,使用1×1卷积调整特征通道数后进行双线性插值四倍上采样操作。
S3、将原图1/4大小的浅层特征输入至Non-local注意力模块,然后使用1×1的卷积调整通道数,与双线性插值上采样得到的结果融合。
S4、将融合后的特征图进行3×3卷积以及双线性插值四倍上采样操作还原至原图大小并得到分割图像。从而有效的提升了网络的训练效率,提高了最终语义分割的精度。改进DeepLabv3+网络的模型结构图如图1所示。
在此优选实施例中,SENet相较于CBAM,SENet可以通过全局信息聚合和重新标定操作,可以有效地调整通道间的关系,具有更强的区分能力。此外,SENet的参数量和计算量都较小,更适合在资源受限的环境中使用。
Non-local相较于坐标注意力机制CA,Non-local是一种全局自注意力机制,可以捕捉输入特征的全局依赖关系,对于处理图像中的长程依赖信息有很大的优势。此外,Non-local在图像的各个位置上都能执行相同的操作,这使得模型可以在一个较大的范围内共享特征,提高了模型对图像的理解能力。
当然除了本实施例提及的两种具体的情况,其他符合要求的注意力机制构建的模型也应当属于本发明的保护范围。
基于前两个优选实施例,都可以进一步进行优化,在基于前述两个实施例的任意一个进行优化实施例中,所述步骤S3引入多尺度特征融合模块,具体为:
S3、浅层特征输入至CA注意力模块,然后使用1×1的卷积调整通道数,与双线性插值上采样得到的结果进行浅层和深层特征的多尺度特征融合。
多尺度特征融合模块(Multi-Scale Feature Fusion Module)可以接收来自不同深度的特征图,通常来自浅层特征和深层特征。每个特征图首先经过单独的1x1卷积层进行通道数的调整,然后经过大小相应调整的上采样或下采样操作以达到相同的空间尺度。接着,所有的特征图通过像素级别的加和或者连接操作进行融合,生成最终的融合特征图。这种方法可以有效地捕获和利用图像的多尺度信息,从而提高语义分割的精度。
前述的优选实施例也可以进一步优化,在进一步的优选实施例中,步骤S2中的动态卷积替换原始的空洞卷积。
动态卷积(Dynamic Convolution)主要通过为每个输入样本动态生成不同的卷积核来实现。在动态卷积中,每个输入样本都有自己独特的卷积核参数,这些参数是通过一个单独的网络(通常是一个全连接网络或者1x1卷积网络)计算得到的,这个网络接收当前的输入样本作为输入,输出对应的卷积核参数。然后,这些参数被用来执行卷积操作。动态卷积使得模型具有更强的适应性,可以更好地对输入样本进行特定的处理。
实施例2
关于实施例1的实现方法,其应用于高分辨率遥感影像分割中能够取得几极佳的效果,由于其自身特征,能够很好的满足高分辨率遥感图像信息复杂多样、特征丰富、物体尺度差异大的特点。具体来说要对输入的影像进行预处理,制作训练样本集,训练适用于高分辨率遥感影像分割的模型。
在本实施例的一具体实施例中,实现包括3个阶段:
第一阶段:高分辨率遥感影像数据获取:
由于原始的遥感影像分辨率较大,不能将整个图像直接输入网络进行训练,对输入的影像进行预处理,制作训练样本集。
第二阶段:将样本集数据输入到改进DeepLabv3+网络进行训练:
利用预处理后的样本集进行深度学习网络模型的训练和预测,其中改进后的DeepLabv3+网络模型的结构也分为编码器模块和解码器模块两部分,编码器模块进行特征提取时保留一个浅层有效特征层和一个深层有效特征层,在特征提取模块获得的深层有效特征之后加入轻量级的通用卷积注意力模块CBAM,在减少网络参数量的同时增强网络特征提取能力;最后在特征提取模块获得的浅层特征后引入坐标注意力机制CA,使其更关注图像中有效的特征信息,忽略无关的背景信息。
第三阶段:高分辨率遥感图像语义分割应用:
在第一阶段制作并划分高分辨率遥感影像数据集,第二阶段将数据集加载至改进的DeepLabv3+模型进行训练,最后得出训练好的DeepLabv3+模型。
在此具体实施例的一优选实施中,第二阶段可以利用迁移学习思想在训练前先载入主干网络MobileNetV2的预训练模型权重,将预训练参数更新至改进网络中训练,使得模型能够加速收敛,输出最终遥感影像地物信息精确提取结果。
总的来说,本实施例发明非常适用于以高分辨率卫星影像建筑、水体、森林、草地、农田为提取目标,一方面使用更轻量级的MobileNetV2网络替换DeepLabv3+原始主干网络Xception进行特征提取,另一方面在特征提取模块获得的深层有效特征之后加入CBAM模块,在减少网络参数量的同时可以增强网络特征提取能力,在特征提取模块获得的浅层特征后引入坐标注意力机制CA,使其更关注图像中有效的特征信息,忽略无关的背景信息,将改进后的DeepLabV3+模型应用于遥感影像信息提取,改进的模型分割准确度高,模型参数量少,速度更快,取得了较好的分割结果。
实施例3
为了验证实施例1-2的有效性,以实施例2的应用情况为基础,本实施例将模型应用于高分辨率遥感图像地物分类中,通过类别准确率CPA、平均交并比(MIOU)、F1值和平均像素精度(MPA)作为评价指标,验证改进DeepLabv3+算法模型对高分辨率遥感图像的分割有效性及实际应用效果。
以下提供本发明一种改进DeepLabv3+网络的高分辨率遥感图像语义分割方法的具体实施方式。实施方式给出了网络节点及网络参数设置的具体实施例,但不限于该实施例。
本实施例中关于高分辨率遥感影像数据获取的具体实施例:
根据原始的高分辨率遥感图像,图像大小为7200×6800像素,标注分为建筑、农田、森林、草地和水域5个土地覆盖类别的RGB图像,将RGB图像转化为输入网络训练的灰度图,每个类别对应灰度图的像素值,0为背景、1为建筑、2为农田、3为森林、4为草地、5为水系。通过滑动窗口将原始图像进行裁剪,最终选取裁剪得到的大小为512×512的图像10000张,最后按照8:2的比例划分为8000张训练集和2000张测试集。
本实施例中关于DeepLabv3+网络设计和训练的的具体实施例:
在特征提取操作中,神经网络提取目标的有用信息,这些有用信息可以被嵌入到低维子空间中。传统的网络结构是通过包含ReLU激活函数的卷积来规范化的,但是在低维空间中使用ReLU激活函数会丢失较多有用的信息。在线性瓶颈结构中,将ReLU激活函数改为线性函数,以减少网络中有用信息的损失。MobileNetV2网络应用的倒残差结构由三部分组成。如图2所示,首先用1×1卷积增加输入特征的维数,然后用3×3深度可分离卷积进行特征提取,再用1×1卷积进行降维。
在MobileNetV2的特征提取网络提取到的原图1/4大小的浅层语义特征之后增加了CA注意力机制,该机制将位置信息嵌入到了通道注意力中。添加到编码器的注意力机制等效于特征提取过程以获得输入注意力表示。CA注意力机制结构如图3所示。
CA模块首先使用两个一维全局池化操作将垂直和水平输入特征聚合成两个独立的方向感知特征图。然后将嵌入有方向特定信息的两个特征图编码成两个注意力图,这样的好处是可以沿着一个空间方向捕获长程依赖,沿着另一个空间方向保留精确的位置信息。然后,将生成的特征图分别编码,形成一对方向感知和位置敏感的特征图,它们可以互补地应用到输入特征图来增强感兴趣目标的表示。
Coordinate Attention通过精确的位置信息对通道关系和长期依赖性进行编码,具体操作分为Coordinate信息嵌入和Coordinate Attention生成2个步骤。为了使注意力模块能够使用准确的位置信息来捕获空间中的远程交互,对全局池进行分解,并根据公式(1)转化为一对一维特征编码。
对于给定的输入x,使用大小为(H,1)或(1,W)的pooling kernel分别沿着水平坐标和垂直坐标对每个通道进行编码。因此,高度为h的c通道输出可以表示为:
同样的,宽度为w的c通道输出可以表示为:
通过信息嵌入中的变换后,该部分将上面的变换进行concatenate操作,然后使用1×1的卷积变换函数对其进行变换操作:
f=δ(F1[zh,zw]) (4)
式中[,]为沿空间维数的concatenate操作,δ为非线性激活函数,f为对空间信息在水平方向和垂直方向进行编码的中间特征映射。γ是用来控制SE block大小的缩减率。然后沿着空间维数将分解为2个单独的张量Fh和Fw。利用另外2个卷积变换将其变换为具有相同通道数的张量到输入X,得到:
gh=σ(Fh(fh))
gw=σ(Fw(fw)) (5)
σ是sigmoid激活函数。为了降低模型的计算开销和复杂度,采用适当的缩减比γ来缩减f的通道数。然后,对输出gh和gw进行扩展,分别作为注意力权重。最后,CA模块的输出Y可以表示为:
CBAM包含2个独立的子模块,通道注意力模块和空间注意力模块,分别进行通道与空间上的Attention。这样不仅能够节约参数和计算力,并且保证了其能够做为即插即用的模块集成到现有的网络架构中去。CBAM结构如图4所示,卷积层输出的结果,会先通过一个通道注意力模块,得到加权结果之后,会再经过一个空间注意力模块,最终进行加权得到结果。
本实施例中关于DeepLabv3+实际应用的具体实施例:
训练及应用:本发明采用随机梯度下降(SGD)优化算法,动量(momentum)为0.9,最大学习率为0.007,使用的学习率下降方式为cos,权重衰减率(weight decay)设置为0.0001,训练迭代次数(epoch)为150,批处理大小(batch size)为6,选用交叉熵损失函数(Cross Entropy Loss)计算损失。实验中利用迁移学习思想在训练前先载入主干网络MobileNetV2的预训练模型权重,将预训练参数更新至改进网络中训练,使得模型能够加速收敛,模型训练达到收敛后,将测试集的高分辨率遥感图像输入训练好的模型,得到预测的语义分割图像,输出的分割结果图为灰度图,0,1,2,3,4,5像素分别代表每个类别,经过上色还原为RGB彩色图,图5是改进DeepLabv3+网络实际应用结果图。同时,根据分割出的高分辨率遥感图像,可以得到模型的混淆矩阵。
混淆矩阵能够对模型分类精度进行系统的定量评价,能准确度量分类模型的分类能力,混淆矩阵中行数据代表真实类别,列数据代表预测类别。准确率(Accuracy)用来表示模型对样本的分类能力,即将正样本分类为正,负样本分类为负,对应于分割中的像素准确率PA,公式表示为:
查准率(precision)表示模型预测为正例的所有样本中,预测正确样本的比例,对应于语义分割中的类别像素准确率CPA,计算公式为:
召回率(Recall)表示分类为正的样本占总样本为正的比例,反应分类模型对正样本的预测准确度。
MIOU表示每一类的预测结果与真实值的交并比求和后的平均结果;F1值常用来调和准确率和召回率,反应模型性能的优劣;MPA表示每个类被正确分类像素数的比例,这三个指标的值越大表示模型效果越好。F1、MIOU、MPA的计算公式分别为:
其中N表示类的数量,pij表示将类i预测为类j的像素数量,pii表示被正确预测的像素数量,pji表示将类j预测为类i的像素数量。
以上仅是该申请的实施例部分,并非对该申请做任何形式上的限制。对以上实施例所做的任何简单的修改、等同变化及修饰,仍属于该申请技术方案保护的范围内。
Claims (9)
1.一种高效率和精度的遥感图像语义分割方法,其特征在于,
使用MobileNetV2网络替换DeepLabv3+原始主干网络Xception进行特征提取;
在特征提取后获得的浅层特征层与深层特征层分别引入不同的注意力机制,提高插值的准确性;
所述浅层特征层引入的注意力机制构建为卷积注意力模块,所述卷积注意力模块依据特征的重要性和空间分布进行选择,通过权重分配强调重要特征并抑制不重要的特征;
所述深层特征层引入的注意力机制构建为坐标注意力模块,所述坐标注意力模块强化空间位置信息,通过依据特征的空间分布来赋予不同的注意力权重。
2.根据权利要求1所述的高效率和精度的遥感图像语义分割方法,其特征在于,所述卷积注意力模块为CBAM注意力模块,所述坐标注意力模块为CA注意力模块,还包括ASPP模块进行卷积;
实现步骤具体为:
S1、对特征提取网络进行四次下采样,提取特征的同时保留两即浅层特征层、深层特征层,将深层语义特征输入至CBAM注意力模块;
S2、ASPP模块对CBAM注意力模块提取到的特征以不同膨胀率的空洞卷积进行并行采样,使用1×1卷积调整特征通道数后进行双线性插值四倍上采样操作;
S3、浅层特征输入至CA注意力模块,然后使用1×1的卷积调整通道数,与双线性插值上采样得到的结果进行融合。
S4、将融合后的特征图进行卷积以及双线性插值四倍上采样操作还原至原图大小并得到分割图像。
3.根据权利要求1所述的高效率和精度的遥感图像语义分割方法,其特征在于,所述卷积注意力模块为SENet注意力模块,所述坐标注意力模块为Non-local注意力模块,还包括ASPP模块进行卷积;
实现步骤具体为:
S1、对特征提取网络进行四次下采样,提取特征的同时保留两即浅层特征层、深层特征层,将深层语义特征输入至SENet注意力模块;
S2、ASPP模块对Non-local注意力模块提取到的特征以不同膨胀率的空洞卷积进行并行采样,使用1×1卷积调整特征通道数后进行双线性插值四倍上采样操作;
S3、浅层特征输入至CA注意力模块,然后使用1×1的卷积调整通道数,与双线性插值上采样得到的结果进行融合。
S4、将融合后的特征图进行卷积以及双线性插值四倍上采样操作还原至原图大小并得到分割图像。
4.根据权利要求2或3所述的高效率和精度的遥感图像语义分割方法,其特征在于,所述步骤S3引入多尺度特征融合模块,具体为:
S3、浅层特征输入至CA注意力模块,然后使用1×1的卷积调整通道数,与双线性插值上采样得到的结果进行浅层和深层特征的多尺度特征融合。
5.根据权利要求2或3所述的高效率和精度的遥感图像语义分割方法,其特征在于,步骤S2中的动态卷积替换原始的空洞卷积。
6.根据权利要求1-5任意一项所述的一种高效率和精度的遥感图像语义分割方法的应用,其特征在于:应用于高分辨率遥感影像分割中,对输入的影像进行预处理,制作训练样本集,训练适用于高分辨率遥感影像分割的模型。
7.根据权利要求6所述的高效率和精度的遥感图像语义分割方法的应用,其特征在于:利用迁移学习思想在训练前先载入主干网络MobileNetV2的预训练模型权重,将预训练参数更新至改进网络中训练。
8.根据权利要求6或7所述的高效率和精度的遥感图像语义分割方法的应用,其特征在于:将训练集加载至改进的DeepLabv3+模型进行训练,最后得出训练好的DeepLabv3+模型,将该模型应用于高分辨率遥感图像地物分类中。
9.根据权利要求8所述的高效率和精度的遥感图像语义分割方法的应用,其特征在于:应用于以高分辨率卫星影像建筑、水体、森林、草地、农田为提取目标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310791332.5A CN116863347A (zh) | 2023-06-30 | 2023-06-30 | 一种高效率和精度的遥感图像语义分割方法及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310791332.5A CN116863347A (zh) | 2023-06-30 | 2023-06-30 | 一种高效率和精度的遥感图像语义分割方法及应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116863347A true CN116863347A (zh) | 2023-10-10 |
Family
ID=88235124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310791332.5A Pending CN116863347A (zh) | 2023-06-30 | 2023-06-30 | 一种高效率和精度的遥感图像语义分割方法及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116863347A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117437519A (zh) * | 2023-11-06 | 2024-01-23 | 北京市智慧水务发展研究院 | 一种无水尺水位识别方法及装置 |
-
2023
- 2023-06-30 CN CN202310791332.5A patent/CN116863347A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117437519A (zh) * | 2023-11-06 | 2024-01-23 | 北京市智慧水务发展研究院 | 一种无水尺水位识别方法及装置 |
CN117437519B (zh) * | 2023-11-06 | 2024-04-12 | 北京市智慧水务发展研究院 | 一种无水尺水位识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111210435B (zh) | 一种基于局部和全局特征增强模块的图像语义分割方法 | |
CN113420662B (zh) | 基于孪生多尺度差异特征融合的遥感影像变化检测方法 | |
CN111598174B (zh) | 基于半监督对抗学习的模型训练方法及图像变化分析方法 | |
CN112991354B (zh) | 一种基于深度学习的高分辨率遥感影像语义分割方法 | |
CN111625608B (zh) | 一种基于gan模型根据遥感影像生成电子地图的方法、系统 | |
CN115601549B (zh) | 基于可变形卷积和自注意力模型的河湖遥感图像分割方法 | |
CN112668494A (zh) | 基于多尺度特征提取的小样本变化检测方法 | |
CN115471467A (zh) | 一种高分辨率光学遥感影像建筑物变化检测方法 | |
CN110598564A (zh) | 基于OpenStreetMap的高空间分辨率遥感影像迁移学习分类方法 | |
CN114724155A (zh) | 基于深度卷积神经网络的场景文本检测方法、系统及设备 | |
CN116258976A (zh) | 一种分层次Transformer的高分辨率遥感图像语义分割方法及系统 | |
CN116863347A (zh) | 一种高效率和精度的遥感图像语义分割方法及应用 | |
CN116740422A (zh) | 基于多模态注意力融合技术的遥感图像分类方法及装置 | |
CN113591633A (zh) | 基于动态自注意力Transformer的面向对象土地利用信息解译方法 | |
CN116091929A (zh) | 结合Unet和Transformer的遥感图像语义分割方法 | |
CN117788296B (zh) | 基于异构组合深度网络的红外遥感图像超分辨率重建方法 | |
CN116486074A (zh) | 一种基于局部和全局上下文信息编码的医学图像分割方法 | |
CN116402851A (zh) | 一种复杂背景下的红外弱小目标跟踪方法 | |
CN113313180B (zh) | 一种基于深度对抗学习的遥感图像语义分割方法 | |
CN109658508B (zh) | 一种多尺度细节融合的地形合成方法 | |
CN112686830A (zh) | 基于图像分解的单一深度图的超分辨率方法 | |
CN115984714B (zh) | 一种基于双分支网络模型的云检测方法 | |
CN117058367A (zh) | 高分辨率遥感影像建筑物语义分割方法及装置 | |
CN111368843A (zh) | 一种基于语义分割的冰上湖提取的方法 | |
CN110751699A (zh) | 基于卷积神经网络的光学遥感图像的色彩重建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |