CN117576403A - Sar图像建成区语义分割方法及装置、存储介质与终端 - Google Patents
Sar图像建成区语义分割方法及装置、存储介质与终端 Download PDFInfo
- Publication number
- CN117576403A CN117576403A CN202410050858.2A CN202410050858A CN117576403A CN 117576403 A CN117576403 A CN 117576403A CN 202410050858 A CN202410050858 A CN 202410050858A CN 117576403 A CN117576403 A CN 117576403A
- Authority
- CN
- China
- Prior art keywords
- result
- stage
- feature map
- semantic
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000004927 fusion Effects 0.000 claims abstract description 112
- 230000002776 aggregation Effects 0.000 claims abstract description 73
- 238000004220 aggregation Methods 0.000 claims abstract description 73
- 238000000605 extraction Methods 0.000 claims abstract description 27
- 230000009467 reduction Effects 0.000 claims description 21
- 238000006116 polymerization reaction Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 2
- 238000007500 overflow downdraw method Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 16
- 238000013527 convolutional neural network Methods 0.000 description 32
- 238000010586 diagram Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 108091028732 Concatemer Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/176—Urban or other man-made structures
Abstract
本发明提供一种SAR图像建成区语义分割方法及装置、存储介质与终端,其中方法包括利用CNN主编码器对SAR图像进行语义提取,以获取多阶段的局部语义特征图,利用transformer辅编码器对SAR图像进行语义提取,以获取多阶段的全局语义特征图;将每阶段的全局语义特征图分别嵌入到同阶段的局部语义特征图中,以获取对应阶段的聚合结果;以递归融合方式对所有聚合结果进行融合以获取最终融合结果,并将最终融合结果输入分类器进行分类,以获取SAR图像的语义分割结果。本发明可以有效提高对SAR图像中多尺度建筑物的分割效果。
Description
技术领域
本发明属遥感技术领域,涉及一种SAR图像建成区语义分割方法,特别是涉及一种SAR图像建成区语义分割方法及装置、存储介质与终端。
背景技术
城市化的趋势对全球经济和社会发展产生深远影响。目前,中国城市化正逐渐进入后期阶段,如何保证城市化和环境可持续发展之间的平衡成为难点。确保可持续的城市化发展道路,及时可靠地获取建成区信息,对于评估人类活动对环境所造成的影响,以及推动城市的可持续发展具有重要意义。合成孔径雷达(Synthetic Aperture Radar, SAR)图像因其数据获取不受日照条件限制、对天气状况不敏感而在获取建成区信息的过程中发挥着重要作用。
然而,SAR图像中包含着复杂的地物目标信息,传统的分割方法存在耗时长、效率低等问题,导致传统图像分割方法的应用受限。近年来,研究基于深度学习的SAR图像语义分割方法显著提高了分割的效果并成为新的趋势。然而,针对SAR图像建成区分割的方法仍面临挑战。一方面,散斑效应及侧视成像几何形成的辐射畸变导致SAR图像固有的高复杂性,包括几何扭曲、相似地物干扰、阴影效应等,这些复杂特性对建成区提取造成很大干扰;另一方面,由于SAR的侧视成像几何,图像中建筑物的尺度会发生较大的变化,严重的多尺度特征问题会影响实际的建成区分割与提取能力,导致经常出现大型建筑物残片和小型建筑物的漏检错检问题。这些问题使得利用语义分割获取SAR图像建成区信息面临诸多挑战。
发明内容
本发明的目的在于提供一种SAR图像建成区语义分割方法及装置、存储介质与终端,用于解决现有技术中SAR图像复杂特性对提取干扰大、语义分割能力差的技术问题。
第一方面,本发明提供一种SAR图像建成区语义分割方法,包括:
利用CNN主编码器对SAR图像进行语义提取,以获取多阶段的局部语义特征图,利用transformer辅编码器对SAR图像进行语义提取,以获取多阶段的全局语义特征图;
将每阶段的所述全局语义特征图分别嵌入到同阶段的所述局部语义特征图中,以获取对应阶段的聚合结果;
以递归融合方式对所有所述聚合结果进行融合以获取最终融合结果,并将所述最终融合结果输入分类器进行分类,以获取所述SAR图像的语义分割结果;
其中,所述CNN主编码器和所述transformer辅编码器所提取特征图阶段数相同,且所述CNN主编码器和所述transformer辅编码器所提取相同阶段的特征图具有相同的高、宽和通道维度,所述CNN主编码器和所述transformer辅编码器随着阶段数增加,所提取特征图的通道维度增加。
于本发明的一实施例中,将预设阶段的所述全局语义特征图嵌入到同阶段的所述局部语义特征图中得到对应阶段的聚合结果包括:
使用第一卷积层对预设阶段的所述全局语义特征图进行降维以得到第一降维结果,使用第二卷积层对所述预设阶段的全局语义特征图进行降维以得到第二降维结果;
融合所述第一降维结果和第二降维结果以获取辅编码器注意力向量;
使用Softmax函数对所述预设阶段的局部语义特征图进行处理以获取主编码器注意力向量,将所述主编码器注意力向量与所述辅编码器注意力向量进行融合以获取所述预设阶段的初步聚合结果;
将所述初步聚合结果、所述预设阶段的全局语义特征图和局部语义特征图相加,以得到所述预设阶段的中间聚合结果,对所述中间聚合结果执行预设模型增强操作以得到所述预设阶段的聚合结果;
其中,所述预设阶段为所述CNN主编码器器所提取特征图阶段数中的任一阶段。
于本发明的一实施例中,以递归融合方式对所有所述聚合结果进行融合以获取最终融合结果包括:
对最后一个阶段的聚合结果执行预设模型增强操作,以获取第一层融合结果;
基于每预设层所对应待融合特征图集合,通过预设融合方式获取每预设层的融合结果;
其中,每预设层所对应待融合特征图集合均包括前一层融合结果和第一阶段聚合结果至倒数第二阶段聚合结果,所述每预设层的层数均大于1。
于本发明的一实施例中,所述预设融合方式为:
通过预设缩放形式对所述待融合特征图集合中各阶段聚合结果和前一阶段融合结果进行缩放,以获取缩放后各阶段的聚合结果和缩放后前一层的融合结果;
将所述缩放后各阶段的聚合结果和缩放后前一层的融合结果调整为均具有相同通道数, 以得到维度调整后各阶段的聚合结果和维度调整后前一层的融合结果,将处于相同通道维度的维度调整后各阶段的聚合结果和维度调整后前一层的融合结果进行张量拼接,以获取对应层的融合结果;
其中,所述预设缩放形式为:若特征图结果尺寸大于预设尺度,则将所述特征图结果进行下采样至预设尺寸以获取缩放后的特征图结果,若特征图结果尺寸小于预设尺度,则将所述特征图结果进行上采样至预设尺寸以获取缩放后的特征图结果,若特征图结果尺寸等于预设尺度,则直接将所述特征图结果作为缩放后的特征图结果;
所述特征图结果为各阶段的聚合结果和前一层的融合结果中的任意一个。
于本发明的一实施例中,所述预设模型增强操作包括将待处理结果依次使用3 ×3卷积层、BN层和ReLU层进行处理,获取最终输出作为处理后的结果;
其中,所述待处理结果为中间聚合结果或最后一个阶段的聚合结果。
于本发明的一实施例中,将所述最终融合结果进行分类,以获取所述SAR图像的语义分割结果包括:
将所述最终融合结果依次使用卷积层、线性插值上采样和softmax进行处理,并将最终输出作为所述SAR图像的语义分割结果。
于本发明的一实施例中,所述CNN主编码器的网络骨干包括SegNeXt中的MSCAN-L;所述transformer辅助编码器的网络骨干包括Segformer中的Mit-b5。
第二方面,本发明还提供一种SAR图像建成区语义分割装置,其特征在于,包括编码器、语义聚合模块和解码器;
所述编码器,用于利用CNN主编码器对SAR图像进行语义提取,以获取多阶段的局部语义特征图,利用transformer辅编码器对SAR图像进行语义提取,以获取多阶段的全局语义特征图;
所述语义聚合模块,用于将每阶段的所述全局语义特征图分别嵌入到同阶段的所述局部语义特征图中,以获取对应阶段的聚合结果;
所述解码器,用于以递归融合方式对所有所述聚合结果进行融合以获取最终融合结果,并将所述最终融合结果输入分类器进行分类,以获取所述SAR图像的语义分割结果;
其中,所述CNN主编码器和所述transformer辅编码器所提取特征图阶段数相同,且所述CNN主编码器和所述transformer辅编码器所提取相同阶段的特征图具有相同的高、宽和通道维度,所述CNN主编码器和所述transformer辅编码器随着阶段数增加,所提取特征图的通道维度增加。
第三方面,本发明还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的SAR图像建成区语义分割方法。
第四方面,本发明还提供一种终端,包括处理器以及存储器,所述存储器与所述处理器之间通信连接;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行如上所述的SAR图像建成区语义分割方法。
如上所述,本发明所述的SAR图像建成区语义分割方法及装置、存储介质与终端,具有以下有益效果:
1、使用CNN主编码器和transformer辅编码器,分别提取局部语义和全局语义,因此能够充分提取语义信息。
2、为了应对SAR建成区图像固有的复杂性,设计了全局-局部语义聚合模块以高效利用全局语义和局部语义,从而改善了几何扭曲、地物纹理相似性、阴影效应对建成区提取的干扰。
3、通过递归融合方式实现了高效、充分的多尺度特征融合,有效提高对SAR图像中多尺度建筑物的分割效果。
附图说明
图1示出了本发明实施例所述的SAR图像建成区语义分割方法的流程示意图。
图2示出了本发明实施例所述的SAR图像建成区语义分割方法的数据流向示意图。
图3示出了本发明实施例所述的SAR图像建成区语义分割方法中特征聚合的流程示意图。
图4示出了本发明实施例所述的SAR图像建成区语义分割方法中第一层融合结果至第二层融合结果的特征融合流程示意图。
图5示出了本发明实施例所述的SAR图像建成区语义分割装置的结构示意图。
图6示出了本发明实施例所述的终端的结构示意图。
元件标号说明:
Stage 1- Stage 4为特征提取的第一阶段至第四阶段,M1-M4为CNN主编码器第一阶段至第四阶段的特征图,A1-A4为Transformer辅编码器第一阶段至第四阶段的特征图,D1-D4为第一层融合结果至第四层融合结果,GLSM为语义聚合,MSFN为特征融合。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
以下将详细阐述本实施例的SAR图像建成区语义分割方法及装置、存储介质与终端的原理及实施方式,使本领域技术人员不需要创造性劳动即可理解本实施例的SAR图像建成区语义分割方法、装置、存储介质与终端。
为了解决现有技术中存在的上述技术问题,本发明实施例提供了一种SAR图像建成区语义分割方法。
图1示出了本发明实施例所述的SAR图像建成区语义分割方法的流程示意图,参考图1所示,本发明实施例SAR图像建成区语义分割方法主要包括步骤S100~S300。
图2示出了本发明实施例所述的SAR图像建成区语义分割方法的数据流向示意图,参考图2所示,自SAR图像分别提取全局语义A1-A4、局部语义M1-M4,对应阶段的An与Mn进行聚合得到聚合结果Fn,然后再通过递归融合方式融合聚合结果以获取第一层融合结果D1至第四层融合结果D4,D4再经过分类器得到最终预测的语义分割结果标签。需要说明的是,图2仅以4个阶段的特征图及4层融合结果为例进行说明,根据实际情况,可以设置不同阶段数的特征图及不同层次数的融合结果。
步骤S100:利用CNN主编码器对SAR图像进行语义提取,以获取多阶段的局部语义特征图,利用transformer辅编码器对SAR图像进行语义提取,以获取多阶段的全局语义特征图。
具体地,本实施例分别采用CNN主编码器和transformer辅编码器分别对SAR图像进行语义提取。其中CNN编码器作为图像语义提取的常用工具,可以有效的提取局部信息,因此本实施例将其作为主编码器使用,采用CNN主编码器对SAR图像进行语义提取后,可获取多阶段的局部语义特征图。由于CNN主编码器对全局语义的特征提取不足,而transformer结构中的自注意力机制能够捕获全局信息,因此本实施例还采用transformer编码器作为辅编码器使用,采用transformer辅编码器对SAR图像进行语义提取后,可获取多阶段的全局语义特征图。
可选地,CNN主编码器的网络骨干包括SegNeXt中的MSCAN-L;transformer辅助编码器的网络骨干包括Segformer中的Mit-b5。SegNeXt中的MSCAN是基于CNN使用多分支深度条状卷积来提取局部语义的骨干,具备多尺度提取能力,同时它使用两个深度条状卷积模拟正常的卷积核,不仅降低了参数量,更重要的是其深度条状卷积可以作为网格卷积的补充从而提高对条状物体的提取能力,更适用于应用在建筑物提取场景。而SegFormer使用了高效的自注意力机制,相比于transformer更轻量级。由于SegNeXt和segformer在CNN和transformer中都属于相对轻量级的网络结构,因此即使使用两者参数量最大的骨干MSCAN-L和Mit-b5来增加参数量以提高精度,本发明的网络骨干也依然可以达到兼具精度与效率的效果,并且MSCAN-L和Mit-b5的通道数和分辨率在每个阶段都保持一致,有利于网络的搭建。
步骤S200:将每阶段的全局语义特征图分别嵌入到同阶段的局部语义特征图中,以获取对应阶段的聚合结果。
图3示出了本发明实施例所述的SAR图像建成区语义分割方法中特征聚合的流程示意图,参考图3所示,将预设阶段的全局语义特征图嵌入到同阶段的局部语义特征图中得到对应阶段的聚合结果包括步骤S201~S204。预设阶段为CNN主编码器器所提取特征图阶段数中的任一阶段。
步骤S201:使用第一卷积层对预设阶段的全局语义特征图进行降维以得到第一降维结果,使用第二卷积层对预设阶段的全局语义特征图进行降维以得到第二降维结果。
例如参考图3所示,对于尺寸为C×H×W的全局语义An,分别通过第一卷积层和第二卷积层对An进行降维处理,这里设定第一卷积层和第二卷积层均为1×1卷积核、输入通道均为C、输出通道数均为K,得到两张尺寸为K×H×W的特征图。需要说明的是,虽然此处第一卷积层与第二卷积层的卷积核形状相同,但是在模型训练过程及迭代结果中,第一降维结果与第二降维结果并不相同,也即语义聚合过程中将全局语义嵌入到局部语义是参与到模型训练的学习过程中的,嵌入过程也在随着训练过程迭代更新,而不是一成不变的简单叠加。
步骤S202:融合第一降维结果和第二降维结果以获取辅编码器注意力向量。
例如参考图3所示,从两张尺寸为K×H×W的特征图中自适应地获取视觉基元并融合生成尺寸为HW×HW的辅编码器注意力向量X。融合生成X的方式参考以下公式:
其中,和均代表卷积核大小为1×1的卷积层,而表示矩阵乘法运算,T代表转
置运算。根据矩阵乘法运算的运算规则,对特征图的尺寸进行重塑、转置或softmax操作,使
相乘的两个特征图的矩阵尺寸满足矩阵乘法的要求。
步骤S203:使用Softmax函数对预设阶段的局部语义特征图进行处理以获取主编码器注意力向量,将主编码器注意力向量与辅编码器注意力向量进行融合以获取预设阶段的初步聚合结果。
参考图3所示,使用Softmax函数将局部语义Mn转换为C维主编码器注意力向量,并将主编码器注意力向量与辅编码器注意力向量X进行融合,获取初步聚合结果。
步骤S204:将初步聚合结果、预设阶段的全局语义特征图和局部语义特征图相加,以得到预设阶段的中间聚合结果,对中间聚合结果执行预设模型增强操作以得到预设阶段的聚合结果。其中,预设阶段为CNN主编码器器所提取特征图阶段数中的任一阶段。
例如参考图3所示,将上述初步聚合结果与全局语义An和局部语义Mn进行聚合,并通过3×3卷积层、BN和ReLU激活函数得到GLSM的最终输出结果Fn尺寸为C×H×W。
步骤S203~步骤S204的整个过程参考如下公式:
其中,表示3×3卷积层以及BN和ReLU层,而表示逐元素相加运算,也即
element-wise sum运算。
可选地,预设模型增强操作包括将待处理结果依次使用3×3卷积层、BN层和ReLU层进行处理,获取最终输出作为处理后的结果;其中,待处理结果为中间聚合结果。通过预设模型增强操作,可以在增加网络深层的同时,保持良好的梯度流动和特征表达能力,同时有助于网络学习更加抽象和复杂的特征,从而提高语义分割任务的性能。需要说明的是,本实施例以3×3卷积层、BN层和ReLU层为例进行说明,根据实际情况,可以设置其他参数的卷积层、BN层和ReLU层。
通过重复执行上述步骤S201-S204,即可获取所有阶段的聚合结果。
基于上述内容,GLSM能够从transformer分支编码器中提取全局语义,指导CNN分支编码器中的局部语义学习全局信息。同时,GLSM进一步聚合了全局和局部语义以进行语义融合,高效的利用了主副编码器各自提取的语义信息 。这使得网络能够充分发挥transformer和CNN的优势,有效解决了复杂背景下SAR建成区图像中几何扭曲、相似地物干扰、阴影效应等问题。
步骤S300:以递归融合方式对所有聚合结果进行融合以获取最终融合结果,并将最终融合结果输入分类器进行分类,以获取SAR图像的语义分割结果。
本实施例需设定CNN主编码器和transformer辅编码器所提取特征图阶段数相同,且CNN主编码器和transformer辅编码器所提取相同阶段的特征图具有相同的高、宽和通道维度,CNN主编码器和transformer辅编码器随着阶段数增加,所提取特征图的通道维度增加。例如参考图2所示,CNN主编码器的第一阶段特征图M1与transformer辅编码器第一阶段特征图A1高均为1/4,宽均为1/4,通道维度均为C1,且CNN主编码器和transformer辅编码器其他阶段特征图也具有相同的高、宽和通道维度,C1<C2<C3<C4。优选地,特征图的通道维度{C1,C2,C3,C4}分别对应为{64,128,320,512}。
可选地,以递归融合方式对所有聚合结果进行融合以获取最终融合结果包括:对最后一个阶段的聚合结果执行预设模型增强操作,以获取第一层融合结果;而后基于每预设层所对应待融合特征图集合,通过预设融合方式获取每预设层的融合结果;其中,每预设层所对应待融合特征图集合均包括前一层融合结果和第一阶段聚合结果至倒数第二阶段聚合结果,每预设层的层数均大于1。图2示出了本发明实施例所述的SAR图像建成区语义分割方法的数据流向示意图,参考图2所示,对最后一个阶段的聚合结果F4执行预设模型增强操作以获取第一层融合结果D1;从D1融合得到D2时,对应待融合特征图集合包括第一层融合结果D1、第一阶段聚合结果至倒数第二阶段聚合结果即F1、F2、F3,通过预设融合方式将D1、F1、F2、F3融合得到D2;再将D2、F1、F2、F3融合得到D3;以此类推,得到最终的Dn即D4。需要说明的是,图2仅以4个阶段的特征图及4层融合结果为例进行说明,根据实际情况,可以设置其他阶段的特征图及其他层次的融合结果。
递归融合的关键在于,每一层融合结果都融合了多个聚合结果,也即多尺度语义在整个特征融合过程中进行了充分流动,模型训练时可以学习到更细微的差异性;每一层融合结果都学习了多尺度特征,避免了级联解码器等传统的融合方式在逐层传递的过程中所存在的网络空间信息的丢失。本发明的递归融合方式逐层恢复空间分辨率的同时实现高效的多尺度特征融合,最大限度的让多尺度语义在整个特征融合过程中充分流动,同时,这种设计还能够显著的减少网络中空间信息的损失,从而使得语义分割任务能更准确地识别和定位目标区域。因此,本发明的递归融合语义网络能够有效提高对SAR图像中多尺度建筑物的分割效果,显著改善对大型建筑物残片和小型建筑物的漏检错检问题。
可选地,预设融合方式为通过预设缩放形式对待融合特征图集合中各阶段聚合结果和前一阶段融合结果进行缩放,以获取缩放后各阶段的聚合结果和缩放后前一层的融合结果,对融合特征图集合中的所有特征图进行缩放的目的在于使这些特征图的尺寸统一,以便进行后续融合的操作;将缩放后各阶段的聚合结果和缩放后前一层的融合结果调整为均具有相同通道数,以得到维度调整后各阶段的聚合结果和维度调整后前一层的融合结果,将处于相同通道维度的维度调整后各阶段的聚合结果和维度调整后前一层的融合结果进行张量拼接,即将这些特征图沿通道维度进行concat串联操作,以获取对应层的融合结果。上述预设融合方式能够充分采集和利用来自不同分支、不同层次的信息。其中,预设缩放形式为:若特征图结果尺寸大于预设尺度,则将特征图结果进行下采样至预设尺寸以获取缩放后的特征图结果,若特征图结果尺寸小于预设尺度,则将特征图结果进行上采样至预设尺寸以获取缩放后的特征图结果,若特征图结果尺寸等于预设尺度,则直接将特征图结果作为缩放后的特征图结果;特征图结果为各阶段的聚合结果和前一层的融合结果中的任意一个。例如,图4示出了本发明实施例所述的SAR图像建成区语义分割方法中第一层融合结果至第二层融合结果的特征融合的流程示意图,参考图4所示,第一阶段聚合结果F1尺寸为C1×H/4×W/4,第二阶段聚合结果F2尺寸为C2×H/8×W/8,第三阶段聚合结果F3尺寸为C3×H/16×W/16,第一层融合结果D1尺寸为C4×H/32×W/32,首先将F1、F2、F3、D1缩放至统一尺寸C3×H/16×W/16,然后将这四张特征图沿通道维度进行串联,最后使用一个3×3大小的卷积、BN和ReLU以生成最终的融合结果D2,D2尺寸为C3×H/16×W/16。通常对两个特征图之间进行融合只需要对其中一个做上采样或者下采样即可,但在本发明的递归特征融合中,由于递归融合方式每次都需要对待融合特征图集合中的多个特征图进行融合,因此需要根据实际特征图尺寸选择不同的采样方式,既可能有上采样,也可能有下采样。优选地,上采样通过转置卷积实现,然后使用ReLU激活函数,并通过一个1×1的卷积调整特征图通道数;下采样通过最大池化层实现,然后使用ReLU激活函数,并通过一个1×1的卷积调整特征图通道数。
可选地,预设模型增强操作包括将待处理结果依次使用3×3卷积层、BN层和ReLU层进行处理,获取最终输出作为处理后的结果;此时的待处理结果为最后一个阶段的聚合结果。通过预设模型增强操作,可以在增加网络深层的同时,保持良好的梯度流动和特征表达能力,同时有助于网络学习更加抽象和复杂的特征,从而提高语义分割任务的性能。需要说明的是,本实施例以3×3卷积层、BN层和ReLU层为例进行说明,根据实际情况,可以设置其他参数的卷积层、BN层和ReLU层。
可选地,将最终融合结果进行分类,以获取SAR图像的语义分割结果包括:将最终融合结果依次使用卷积层、线性插值上采样和softmax进行处理,并将最终输出作为SAR图像的语义分割结果。
本发明实施例的SAR图像建成区语义分割方法的保护范围不限于本实施例列举的步骤执行顺序,凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。
本发明实施例的SAR图像建成区语义分割方法使用CNN主编码器和transformer辅编码器,分别提取局部语义和全局语义,充分提取了语义信息,同时为了应对SAR建成区图像固有的复杂性,设计了语义聚合模块以高效利用全局语义和局部语义,从而改善了几何扭曲、地物纹理相似性、阴影效应对建成区提取的干扰,且通过递归融合方式实现高效、充分的多尺度特征融合,有效提高了对SAR图像中多尺度建筑物的分割效果。
为了解决现有技术中存在的上述技术问题,本发明实施例还提供了一种SAR图像建成区语义分割装置。
图5示出了本发明实施例所述的SAR图像建成区语义分割装置的结构示意图,参考图5所示,本发明实施例SAR图像建成区语义分割装置包括编码器、语义聚合模块和解码器。
编码器,用于利用CNN主编码器对SAR图像进行语义提取,以获取多阶段的局部语义特征图,利用transformer辅编码器对SAR图像进行语义提取,以获取多阶段的全局语义特征图。
语义聚合模块,用于将每阶段的全局语义特征图分别嵌入到同阶段的局部语义特征图中,以获取对应阶段的聚合结果。
解码器,用于以递归融合方式对所有聚合结果进行融合以获取最终融合结果,并将最终融合结果输入分类器进行分类,以获取SAR图像的语义分割结果。
其中,CNN主编码器和transformer辅编码器所提取特征图阶段数相同,且CNN主编码器和transformer辅编码器所提取相同阶段的特征图具有相同的高、宽和通道维度,CNN主编码器和transformer辅编码器随着阶段数增加,所提取特征图的通道维度增加。
本发明实施例的SAR图像建成区语义分割装置的编码器使用CNN主编码器和transformer辅编码器用来分别提取局部语义和全局语义,充分提取了语义信息,同时为了应对SAR建成区图像固有的复杂性,设计了语义聚合模块以高效利用全局语义和局部语义,从而改善了几何扭曲、地物纹理相似性、阴影效应对建成区提取的干扰,且在解码器中通过递归融合方式实现高效、充分的多尺度特征融合,有效提高了对SAR图像中多尺度建筑物的分割效果。
为了解决现有技术中存在的上述技术问题,本发明实施例还提供了一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现实施例SAR图像建成区语义分割方法的所有步骤。
SAR图像建成区语义分割方法的具体步骤以及应用本发明实施例提供的可读存储介质获取的有益效果均与上述实施例相同,在此不在对其进行赘述。
本领域普通技术人员可以理解实现上述实施例的方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(magnetic tape),软盘(floppy disk),光盘(optical disc)及其任意组合。上述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
为了解决现有技术中存在的上述技术问题,本发明实施例还提供了一种终端。图6示出了本发明实施例所述的终端的结构示意图,参考图6所示,本发明实施例终端包括处理器以及存储器,存储器与处理器之间通信连接;存储器用于存储计算机程序,处理器用于执行存储器存储的计算机程序,以使终端执行上述实施例SAR图像建成区语义分割方法的所有步骤。
SAR图像建成区语义分割方法的具体步骤以及应用本发明实施例提供的终端获取的有益效果均与上述实施例相同,在此不在对其进行赘述。
需要说明的是,存储器可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。同理处理器也可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
虽然本发明所公开的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所公开的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (10)
1.一种SAR图像建成区语义分割方法,包括:
利用CNN主编码器对SAR图像进行语义提取,以获取多阶段的局部语义特征图,利用transformer辅编码器对SAR图像进行语义提取,以获取多阶段的全局语义特征图;
将每阶段的所述全局语义特征图分别嵌入到同阶段的所述局部语义特征图中,以获取对应阶段的聚合结果;
以递归融合方式对所有所述聚合结果进行融合以获取最终融合结果,并将所述最终融合结果输入分类器进行分类,以获取所述SAR图像的语义分割结果;
其中,所述CNN主编码器和所述transformer辅编码器所提取特征图阶段数相同,且所述CNN主编码器和所述transformer辅编码器所提取相同阶段的特征图具有相同的高、宽和通道维度,所述CNN主编码器和所述transformer辅编码器随着阶段数增加,所提取特征图的通道维度增加。
2.根据权利要求1所述的方法,其特征在于,将预设阶段的所述全局语义特征图嵌入到同阶段的所述局部语义特征图中得到对应阶段的聚合结果包括:
使用第一卷积层对预设阶段的所述全局语义特征图进行降维以得到第一降维结果,使用第二卷积层对所述预设阶段的全局语义特征图进行降维以得到第二降维结果;
融合所述第一降维结果和第二降维结果以获取辅编码器注意力向量;
使用Softmax函数对所述预设阶段的局部语义特征图进行处理以获取主编码器注意力向量,将所述主编码器注意力向量与所述辅编码器注意力向量进行融合以获取所述预设阶段的初步聚合结果;
将所述初步聚合结果、所述预设阶段的全局语义特征图和局部语义特征图相加,以得到所述预设阶段的中间聚合结果,对所述中间聚合结果执行预设模型增强操作以得到所述预设阶段的聚合结果;
其中,所述预设阶段为所述CNN主编码器器所提取特征图阶段数中的任一阶段。
3.根据权利要求1所述的方法,其特征在于,以递归融合方式对所有所述聚合结果进行融合以获取最终融合结果包括:
对最后一个阶段的聚合结果执行预设模型增强操作,以获取第一层融合结果;
基于每预设层所对应待融合特征图集合,通过预设融合方式获取每预设层的融合结果;
其中,每预设层所对应待融合特征图集合均包括前一层融合结果和第一阶段聚合结果至倒数第二阶段聚合结果,所述每预设层的层数均大于1。
4.根据权利要求3所述的方法,其特征在于,所述预设融合方式为:
通过预设缩放形式对所述待融合特征图集合中各阶段聚合结果和前一阶段融合结果进行缩放,以获取缩放后各阶段的聚合结果和缩放后前一层的融合结果;
将所述缩放后各阶段的聚合结果和缩放后前一层的融合结果调整为均具有相同通道数, 以得到维度调整后各阶段的聚合结果和维度调整后前一层的融合结果,将处于相同通道维度的维度调整后各阶段的聚合结果和维度调整后前一层的融合结果进行张量拼接,以获取对应层的融合结果;
其中,所述预设缩放形式为:若特征图结果尺寸大于预设尺度,则将所述特征图结果进行下采样至预设尺寸以获取缩放后的特征图结果,若特征图结果尺寸小于预设尺度,则将所述特征图结果进行上采样至预设尺寸以获取缩放后的特征图结果,若特征图结果尺寸等于预设尺度,则直接将所述特征图结果作为缩放后的特征图结果;
所述特征图结果为各阶段的聚合结果和前一层的融合结果中的任意一个。
5.根据权利要求2或3所述的方法,其特征在于,所述预设模型增强操作包括将待处理结果依次使用3 × 3卷积层、BN层和ReLU层进行处理,获取最终输出作为处理后的结果;
其中,所述待处理结果为中间聚合结果或最后一个阶段的聚合结果。
6.根据权利要求1所述的方法,其特征在于,将所述最终融合结果进行分类,以获取所述SAR图像的语义分割结果包括:
将所述最终融合结果依次使用卷积层、线性插值上采样和softmax进行处理,并将最终输出作为所述SAR图像的语义分割结果。
7.根据权利要求1所述的方法,其特征在于,所述CNN主编码器的网络骨干包括SegNeXt中的MSCAN-L;所述transformer辅助编码器的网络骨干包括Segformer中的Mit-b5。
8.一种SAR图像建成区语义分割装置,其特征在于,包括编码器、语义聚合模块和解码器;
所述编码器,用于利用CNN主编码器对SAR图像进行语义提取,以获取多阶段的局部语义特征图,利用transformer辅编码器对SAR图像进行语义提取,以获取多阶段的全局语义特征图;
所述语义聚合模块,用于将每阶段的所述全局语义特征图分别嵌入到同阶段的所述局部语义特征图中,以获取对应阶段的聚合结果;
所述解码器,用于以递归融合方式对所有所述聚合结果进行融合以获取最终融合结果,并将所述最终融合结果输入分类器进行分类,以获取所述SAR图像的语义分割结果;
其中,所述CNN主编码器和所述transformer辅编码器所提取特征图阶段数相同,且所述CNN主编码器和所述transformer辅编码器所提取相同阶段的特征图具有相同的高、宽和通道维度,所述CNN主编码器和所述transformer辅编码器随着阶段数增加,所提取特征图的通道维度增加。
9.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至7中任一项所述的SAR图像建成区语义分割方法。
10.一种终端,其特征在于,包括处理器以及存储器,所述存储器与所述处理器之间通信连接;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行如权利要求1至7中任一项所述的SAR图像建成区语义分割方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410050858.2A CN117576403B (zh) | 2024-01-15 | 2024-01-15 | Sar图像建成区语义分割方法及装置、存储介质与终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410050858.2A CN117576403B (zh) | 2024-01-15 | 2024-01-15 | Sar图像建成区语义分割方法及装置、存储介质与终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117576403A true CN117576403A (zh) | 2024-02-20 |
CN117576403B CN117576403B (zh) | 2024-04-26 |
Family
ID=89892068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410050858.2A Active CN117576403B (zh) | 2024-01-15 | 2024-01-15 | Sar图像建成区语义分割方法及装置、存储介质与终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117576403B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115797931A (zh) * | 2023-02-13 | 2023-03-14 | 山东锋士信息技术有限公司 | 一种基于双分支特征融合的遥感图像语义分割方法 |
CN115861703A (zh) * | 2022-12-19 | 2023-03-28 | 清华大学 | 一种基于多尺度CNN-Transformer的遥感图像变化检测方法和装置 |
US20230184927A1 (en) * | 2021-12-15 | 2023-06-15 | Anhui University | Contextual visual-based sar target detection method and apparatus, and storage medium |
CN116740344A (zh) * | 2023-05-23 | 2023-09-12 | 中国地质大学(武汉) | 一种基于知识蒸馏的轻量化遥感影像语义分割方法及装置 |
CN116912268A (zh) * | 2023-07-10 | 2023-10-20 | 武汉轻工大学 | 一种皮肤病变图像分割方法、装置、设备及存储介质 |
-
2024
- 2024-01-15 CN CN202410050858.2A patent/CN117576403B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230184927A1 (en) * | 2021-12-15 | 2023-06-15 | Anhui University | Contextual visual-based sar target detection method and apparatus, and storage medium |
CN115861703A (zh) * | 2022-12-19 | 2023-03-28 | 清华大学 | 一种基于多尺度CNN-Transformer的遥感图像变化检测方法和装置 |
CN115797931A (zh) * | 2023-02-13 | 2023-03-14 | 山东锋士信息技术有限公司 | 一种基于双分支特征融合的遥感图像语义分割方法 |
CN116740344A (zh) * | 2023-05-23 | 2023-09-12 | 中国地质大学(武汉) | 一种基于知识蒸馏的轻量化遥感影像语义分割方法及装置 |
CN116912268A (zh) * | 2023-07-10 | 2023-10-20 | 武汉轻工大学 | 一种皮肤病变图像分割方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117576403B (zh) | 2024-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111274892B (zh) | 一种鲁棒的遥感影像变化检测方法及系统 | |
CN111539887B (zh) | 一种基于混合卷积的通道注意力机制和分层学习的神经网络图像去雾方法 | |
CN111259758B (zh) | 一种针对密集区域的两阶段遥感图像目标检测方法 | |
CN113888744A (zh) | 一种基于Transformer视觉上采样模块的图像语义分割方法 | |
CN112258526B (zh) | 一种基于对偶注意力机制的ct肾脏区域级联分割方法 | |
CN111126359A (zh) | 基于自编码器与yolo算法的高清图像小目标检测方法 | |
CN112633330A (zh) | 点云分割方法、系统、介质、计算机设备、终端及应用 | |
CN110349087B (zh) | 基于适应性卷积的rgb-d图像高质量网格生成方法 | |
CN111563507A (zh) | 一种基于卷积神经网络的室内场景语义分割方法 | |
WO2023212997A1 (zh) | 基于知识蒸馏的神经网络训练方法、设备及存储介质 | |
CN111353544A (zh) | 一种基于改进的Mixed Pooling-YOLOV3目标检测方法 | |
CN113807361A (zh) | 神经网络、目标检测方法、神经网络训练方法及相关产品 | |
CN116863194A (zh) | 一种足溃疡图像分类方法、系统、设备及介质 | |
CN116645598A (zh) | 一种基于通道注意力特征融合的遥感图像语义分割方法 | |
CN110633706B (zh) | 一种基于金字塔网络的语义分割方法 | |
CN115482518A (zh) | 一种面向交通场景的可扩展多任务视觉感知方法 | |
CN114550014A (zh) | 道路分割方法及计算机装置 | |
CN117576403B (zh) | Sar图像建成区语义分割方法及装置、存储介质与终端 | |
CN116188272B (zh) | 适用于多模糊核的两阶段深度网络图像超分辨率重建方法 | |
CN117197438A (zh) | 一种基于视觉显著性的目标检测方法 | |
CN115187775A (zh) | 一种遥感图像语义分割方法及装置 | |
CN112560719B (zh) | 基于多尺度卷积-多核池化的高分辨率影像水体提取方法 | |
CN117409375B (zh) | 一种双重注意力引导的人群计数方法、装置及计算机存储介质 | |
CN114998363B (zh) | 一种高分辨率遥感影像渐进式分割方法 | |
CN117237858B (zh) | 一种回环检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |