CN116797787A - 基于跨模态融合与图神经网络的遥感影像语义分割方法 - Google Patents
基于跨模态融合与图神经网络的遥感影像语义分割方法 Download PDFInfo
- Publication number
- CN116797787A CN116797787A CN202310573090.2A CN202310573090A CN116797787A CN 116797787 A CN116797787 A CN 116797787A CN 202310573090 A CN202310573090 A CN 202310573090A CN 116797787 A CN116797787 A CN 116797787A
- Authority
- CN
- China
- Prior art keywords
- feature map
- map
- remote sensing
- feature
- elevation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 85
- 230000011218 segmentation Effects 0.000 title claims abstract description 64
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 44
- 239000011159 matrix material Substances 0.000 claims description 26
- 238000010586 diagram Methods 0.000 claims description 23
- 238000011176 pooling Methods 0.000 claims description 17
- 238000005070 sampling Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 abstract description 10
- 230000009977 dual effect Effects 0.000 description 10
- 239000006002 Pepper Substances 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 150000003839 salts Chemical class 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012876 topography Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明涉及图像处理技术领域,提供了一种基于跨模态融合与图神经网络的遥感影像语义分割方法,包括:获取RGB遥感图和对应的高程图;将所述RGB遥感图和所述高程图输入第一双流编码器‑解码器模块,输出第一重构特征图;将所述第一重构特征图输入图卷积神经网络模块,输出一级分类体系预测图像;将所述RGB遥感图、所述高程图以及所述一级分类体系预测图像输入构建好的语义分割网络,输出二级分类体系预测图像。本发明将一级分类体系预测图像的先验信息融入二级分类体系预测图像的预测过程中,可以引导网络关注不同类别间的差异化特征,提高分割的整体性,从而有效提升了遥感影像语义分割的精确度。
Description
技术领域
本发明涉及图像处理技术领域,具体而言,涉及一种基于跨模态融合与图神经网络的遥感影像语义分割方法。
背景技术
城市规划、土地利用、环境监测对一个城市或者地区的发展至关重要,遥感影像指的是通过卫星、无人机、飞机等遥感平台获取的地球表面图像,高分辨率遥感影像具有更高的空间分辨率,可以清晰地显示地表特征,如建筑物、道路、绿地等。随着遥感技术的发展,逐渐将高分辨率遥感影像应用到城市规划、土地利用、环境监测等领域,可以更加方便地实现城市规划、土地利用、环境监测,因此,对高分辨率遥感影像进行准确的语义分割变得尤为重要。
现有技术例如传统的遥感影像语义分割方法以及基于卷积神经网络的遥感影像语义分割方法,它们的分割精确度较低。具体地,传统的遥感影像语义分割方法依赖于手工设计的特征提取器,如Gabor滤波器、局部二值模式LBP等。这些特征提取器可以捕捉图像中的纹理、边缘等信息,但在复杂场景下表现不佳。基于卷积神经网络的遥感影像语义分割方法,如使用全卷积网络、U-Net等分割方法进行遥感影像语义分割时常常会遇到“椒盐现象”,“椒盐现象”是指在分割结果中出现零散、孤立的错误分类像素点,这些像素点通常与周围像素的真实类别不同,就像椒盐般散布在图像中。
发明内容
本发明解决的问题是如何提高现有技术中遥感影像语义分割的精确度。
为解决上述问题,本发明提供一种基于跨模态融合与图神经网络的遥感影像语义分割方法,该方法包括:
获取RGB遥感图和对应的高程图;
将所述RGB遥感图和所述高程图输入第一双流编码器-解码器模块,输出第一重构特征图;
将所述第一重构特征图输入图卷积神经网络模块,输出一级分类体系预测图像;
将所述RGB遥感图、所述高程图以及所述一级分类体系预测图像输入构建好的语义分割网络,输出二级分类体系预测图像。
可选地,所述将所述RGB遥感图、所述高程图以及所述一级分类体系预测图像输入构建好的语义分割网络,输出二级分类体系预测图像包括:
将所述RGB遥感图、所述高程图输入第二双流编码器-解码器模块,输出第二重构特征图;
按照类别对所述一级分类体系预测图像进行拆分,获得多个二值预测图像;
将所述第二重构特征图和多个所述二值预测图像输入分割头,输出所述二级分类体系预测图像。
可选地,所述将所述RGB遥感图、所述高程图输入第二双流编码器-解码器模块,输出第二重构特征图包括:
将所述RGB遥感图和所述高程图输入第二双流编码器,依次输出多个遥感特征图以及对应的多个高程特征图;其中,多个所述遥感特征图包括第一遥感特征图、第二遥感特征图、第三遥感特征图和第四遥感特征图;多个所述高程特征图包括第一高程特征图、第二高程特征图、第三高程特征图和第四高程特征图;
在跨模态特征融合模块中分别对多个所述遥感特征图以及对应的多个所述高程特征图进行融合,获得多个融合特征图;其中,多个所述融合特征图包括第一融合特征图、第二融合特征图以及第三融合特征图;
将第四遥感特征图和第四高程特征图进行拼接,获得第一拼接特征图;
将所述第一拼接特征图输入多尺度特征提取模块,输出第一尺度特征图;
将所述第一尺度特征图以及多个所述融合特征图输入第二解码器,输出所述第二重构特征图。
可选地,所述将所述RGB遥感图和所述高程图输入第二双流编码器,依次输出多个遥感特征图以及对应的多个高程特征图包括:
分别将所述RGB遥感图和所述高程图输入串行双卷积层,获得第一遥感特征图和第一高程特征图;
分别将所述第一遥感特征图和所述第一高程特征图依次输入最大池化层、串行双卷积层,获得第二遥感特征图和第二高程特征图;
分别将所述第二遥感特征图和所述第二高程特征图依次输入最大池化层、串行双卷积层,获得第三遥感特征图和第三高程特征图;
分别将所述第三遥感特征图和所述第三高程特征图依次输入最大池化层、串行双卷积层,获得第四遥感特征图和第四高程特征图。
可选地,所述在跨模态特征融合模块中分别对多个所述遥感特征图以及对应的多个所述高程特征图进行融合,获得多个融合特征图包括:
在所述跨模态特征融合模块中对输入的所述遥感特征图和所述高程特征图进行拼接,再进行卷积处理以及形状转换,获得转换后的特征图;
提取所述转换后的特征图中不同图像块之间的特征,并再次进行形状转换以及卷积处理,获得所述融合特征图。
可选地,所述将所述第一拼接特征图输入多尺度特征提取模块,输出第一尺度特征图包括:
将所述第一拼接特征图通过并行的多个膨胀卷积层,然后拼接获得第二拼接特征图;
对所述第二拼接特征图进行全局平均池化,再通过多层感知机获得权重;
将所述权重与所述第二拼接特征图相乘,再进行卷积处理获得所述第一尺度特征图。
可选地,所述将所述第一尺度特征图以及多个所述融合特征图输入第二解码器,输出所述第二重构特征图包括:
对所述第一尺度特征图进行卷积、上采样处理,获得第二尺度特征图;
将所述第二尺度特征图与所述第三融合特征图拼接并进行卷积、上采样处理,获得第三尺度特征图;
将所述第三尺度特征图与所述第二融合特征图拼接并进行卷积、上采样处理,获得第四尺度特征图;
对所述第四尺度特征图与所述第一融合特征图拼接并进行卷积、上采样处理,获得所述第二重构特征图。
可选地,所述将所述第二重构特征图和多个所述二值预测图像输入分割头,输出所述二级分类体系预测图像包括:
将所述第二重构特征图与多个所述二值预测图像分别相乘后,再进行卷积处理,然后相加获得特征图;
将所述特征图通过串行卷积层处理,获得所述二级分类体系预测图像。
可选地,所述将所述第一重构特征图输入图卷积神经网络模块,输出一级分类体系预测图像包括:
采用SLIC方法对所述第一重构特征图进行超像素划分,获得超像素图;
基于所述超像素图构建无向图,获取所述无向图的邻接矩阵和特征矩阵;
将所述邻接矩阵和所述特征矩阵输入多层图卷积模块,输出所述一级分类体系预测图像。
可选地,所述第二双流编码器-解码器模块与所述第一双流编码器-解码器模块的结构相同。
本发明所述的基于跨模态融合与图神经网络的遥感影像语义分割方法的有益效果是:利用图卷积神经网络模块确定一级分类体系预测图像,将其作为输入输入到构建好的语义分割网络中,从而将一级分类体系预测图像的先验信息融入二级分类体系预测图像的预测过程中,可以引导网络关注不同类别间的差异化特征,提高分割的整体性,从而有效提升了遥感影像语义分割的精确度。
附图说明
图1为本发明实施例的一种基于跨模态融合与图神经网络的遥感影像语义分割方法的流程示意图一;
图2为本发明实施例的一种基于跨模态融合与图神经网络的遥感影像语义分割方法的流程示意图二;
图3为本发明实施例的语义分割网络的结构图;
图4为本发明实施例的一种基于跨模态融合与图神经网络的遥感影像语义分割方法的流程示意图三;
图5为本发明实施例的一种基于跨模态融合与图神经网络的遥感影像语义分割方法的流程示意图四;
图6为本发明实施例的跨模态特征融合模块的结构示意图;
图7为多尺度特征提取模块的结构示意图;
图8为本发明实施例的一种基于跨模态融合与图神经网络的遥感影像语义分割方法的流程示意图五;
图9为本发明实施例的双流编码器-解码器模块的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
与传统的卷积神经网络相比,图卷积神经网络能够在更大的上下文范围内捕捉像素之间的关系,这有助于模型识别和消除错误分类的孤立像素点,从而降低椒盐现象的影响。遥感影像的高程数据,例如数字表面模型(Digital Surface Model,DSM)是一种重要的地表高程信息,可以用于表示地表的地形变化。这种三维信息可以与传统的二维遥感影像结合,提高语义分割的准确性。高分辨率遥感影像和高程数据可能来自不同的数据源,数据的分辨率、几何精度等可能存在差异,这些差异可能导致数据不一致,从而影响特征融合的效果,并且简单的特征融合方法,例如特征叠加或串联可能无法充分利用这两种特征之间的互补信息。因此,本实施例提出一种基于跨模态融合与图神经网络的遥感影像语义分割方法,如图1所示,该方法包含以下步骤:
步骤101、获取RGB遥感图和对应的高程图。
具体地,遥感图也称为遥感影像,指的是通过卫星、无人机、飞机等遥感平台获取的地球表面图像。高程指的是某点沿铅垂线方向到绝对基面的距离,称绝对高程,简称高程,而高程图是用来表示某一区域高程的图。
步骤102、将所述RGB遥感图和所述高程图输入第一双流编码器-解码器模块,输出第一重构特征图。
具体地,第一双流编码器-解码器模块中的编码器包括对RGB遥感图编码的编码器,以及对高程图编码的编码器。其中,将对RGB遥感图编码的编码器称为RGB图通道,将对高程图编码的编码器称为高程图通道。
步骤103、将所述第一重构特征图输入图卷积神经网络模块,输出一级分类体系预测图像。
具体地,与传统的卷积神经网络相比,图卷积神经网络可以在更大的上下文范围内捕捉像素之间的关系,有助于模型识别和消除错误分类的孤立像素点,从而降低椒盐现象的影响。将第一重构特征图输入图卷积神经网络模块,即可获得一级分类体系预测图像。
在一种可能的实施方式中,如图2所示,所述将所述第一重构特征图输入图卷积神经网络模块,输出一级分类体系预测图像包括:
步骤1031、采用SLIC方法对所述第一重构特征图进行超像素划分,获得超像素图。
具体地,采用简单线性迭代聚类(Simple Linear Iterative Clustering,SLIC)算法对第一重构特征图U4进行超像素划分,得到超像素图。
步骤1032、基于所述超像素图构建无向图,获取所述无向图的邻接矩阵和特征矩阵。
具体地,将超像素图中每个超像素作为一个图节点,基于图节点构建无向图G,每个图节点通过无向边与其K个最近邻点相连。将无向图G表示为特征矩阵X(N×K)和邻接矩阵A(N×N),X有N个节点,每个节点有K维的特征,A表示N个节点之间边的关系。图节点的标签与对应超像素节点的标签相同,超像素节点的标签由其包含的像素投票得到,投票最多的标签代表该超像素节点的标签。也就是说,给定像素的标签,超像素节点中有多个像素,其为多个像素构成的整体,由于每个像素都有标签,一个超像素节点就有多个标签,该超像素节点中类别最多的标签即为该超像素节点的标签。
步骤1033、将所述邻接矩阵和所述特征矩阵输入多层图卷积模块,输出所述一级分类体系预测图像。
具体地,在多层图卷积模块中,每层图卷积均包括如下处理:将邻接矩阵转换为归一化的形式,具体地,将邻接矩阵转化为对称归一化邻接矩阵A'=D-1/2*A*D-1/2,其中D是A的度矩阵。利用可学习的权重矩阵W'对特征矩阵进行线性变换,即X'=X*W',其中,X'表示线性变换后的特征矩阵,维度为(N×F),F表示线性变换后的特征维度,权重矩阵的具体数值可以通过训练来学习。对于线性变换后的特征矩阵X'的每个节点,将其邻居节点的特征聚合到当前节点,该聚合可以通过矩阵乘法实现,即Z=A'*X',其中,Z是具有聚合邻接节点特征的临时特征矩阵。引入非线性激活函数ReLU,对临时特征矩阵应用该非线性激活函数,即X”=ReLU(Z)。
通过上述多层图卷积模块可以获得一级分类体系预测图像。在一级分类体系预测图像的每次训练过程中,计算输出的预测图与一级分类标签交叉熵损失,并进行反向传播以更新可学习参数。
在本发明实施例中,通过图卷积神经网络模型可以减轻预测图中出现的椒盐现象。
步骤104、将所述RGB遥感图、所述高程图以及所述一级分类体系预测图像输入构建好的语义分割网络,输出二级分类体系预测图像。
具体地,将一级分类体系预测图像作为输入输入到构建好的语义分割网络中,从而将一级分类体系预测图像的先验信息融入二级分类体系预测图像的预测过程中,可以引导网络关注不同类别间的差异化特征。
在本发明实施例中,利用图卷积神经网络模块确定一级分类体系预测图像,将其作为输入输入到构建好的语义分割网络中,从而将一级分类体系预测图像的先验信息融入二级分类体系预测图像的预测过程中,可以引导网络关注不同类别间的差异化特征,提高分割的整体性,从而有效提升了遥感影像语义分割的精确度。
在一种可能的实施方式中,所述将所述RGB遥感图、所述高程图以及所述一级分类体系预测图像输入构建好的语义分割网络,输出二级分类体系预测图像包括:
将所述RGB遥感图、所述高程图输入第二双流编码器-解码器模块,输出第二重构特征图。
参照图3,本发明实施例的语义分割网络包括第二双流编码器-解码器模块以及分割头模块,该语义分割网络的输入为RGB遥感图、高程图以及一级分类体系预测图像,输出为二级分类体系预测图像。具体地,将RGB遥感图以及高程图输入第二双流编码器-解码器模块,第二双流编码器-解码器模块包括对RGB遥感图编码的编码器,以及对高程图编码的编码器,将RGB遥感图输入对RGB遥感图编码的编码器,即RGB图通道,将高程图输入对高程图编码的编码器,即高程图通道,通过解码器获得第二重构特征图。
在一种可能的实施方式中,所述第二双流编码器-解码器模块与所述第一双流编码器-解码器模块的结构相同。
按照类别对所述一级分类体系预测图像进行拆分,获得多个二值预测图像。
具体地,一级分类体系预测图像中有多个标签,每个类别对应一个标签,把每个标签单独拆分出来,针对每个标签进行二值化处理,由此可以获得多个二值图像,该二值图像即二值预测图像。
将所述第二重构特征图和多个所述二值预测图像输入分割头,输出所述二级分类体系预测图像。
具体地,通过语义分割头即可输出二级分类体系预测图像,从而将一级分类体系预测图像的先验信息融入二级分类体系预测图像的预测过程中,可以引导网络关注不同类别间的差异化特征。
在一种可能的实施方式中,所述将所述第二重构特征图和多个所述二值预测图像输入分割头,输出所述二级分类体系预测图像包括:
将所述第二重构特征图与多个所述二值预测图像分别相乘后,再进行卷积处理,然后相加获得特征图;
将所述特征图通过串行卷积层处理,获得所述二级分类体系预测图像。
具体地,将第二重构特征图与多个二值预测图像分别进行逐元素点乘,然后分别进行1×1卷积处理,可以调整通道数,然后再相加获得特征图。
将获得的特征图通过串行三卷积层处理,该串行三卷积层的卷积核大小分别为1×1、3×3、3×3,数量分别为64,64,NUM,其中,NUM为二级分类类别数,步长为1,由此获得二级分类体系预测图像。需要说明的是,在语义分割网络的每次训练过程中,计算网络输出的二级分类体系预测图像与二级分类标签交叉熵损失,并进行反向传播,更新网络可学习参数,直至获得最终的二级分类体系预测图像。
在本实施例中,二级分类体系提供了更详细的土地覆盖信息。示例性地,一级分类体系可能只标注“森林”,而二级分类体系可能会进一步细分为“阔叶森林”、“针叶森林”以及其它划分,有利于更深入地进行环境研究和资源管理,以便进行更高级别的分析,例如生态系统的健康状况、土地利用变化趋势或其它分析。
在一种可能的实施方式中,如图4所示,所述将所述RGB遥感图、所述高程图输入第二双流编码器-解码器模块,输出第二重构特征图包括:
步骤201、将所述RGB遥感图和所述高程图输入第二双流编码器,依次输出多个遥感特征图以及对应的多个高程特征图;其中,多个所述遥感特征图包括第一遥感特征图、第二遥感特征图、第三遥感特征图和第四遥感特征图;多个所述高程特征图包括第一高程特征图、第二高程特征图、第三高程特征图和第四高程特征图。
本发明实施例中的第二双流编码器-解码器模块包括第二双流编码器、跨模态特征融合模块、多尺度特征提取模块以及第二解码器,第二双流编码器-解码器模块的输入为RGB遥感图和高程图,输出为第二重构特征图。具体地,第一遥感特征图对应第一高程特征图,第二遥感特征图对应第二高程特征图,第三遥感特征图对应第三高程特征图,第四遥感特征图对应第四高程特征图。
在一种可能的实施方式中,如图5所示,所述将所述RGB遥感图和所述高程图输入第二双流编码器,依次输出多个遥感特征图以及对应的多个高程特征图包括:
步骤2011、分别将所述RGB遥感图和所述高程图输入串行双卷积层,获得第一遥感特征图和第一高程特征图。
具体地,将RGB遥感图经过串行双卷积层,该串行双卷积层的卷积核大小为3×3,数量为64,步长为1,从而获得第一遥感特征图R0。将高程图输入串行双卷积层,该串行双卷积层的卷积核大小为3×3,数量为64,步长为1,从而获得第一高程特征图D0。
步骤2012、分别将所述第一遥感特征图和所述第一高程特征图依次输入最大池化层、串行双卷积层,获得第二遥感特征图和第二高程特征图。
具体地,将第一遥感特征图经过最大池化层后,通过串行双卷积层进行卷积处理,该串行双卷积层的卷积核大小为3×3,数量为128,步长为1,从而获得第二遥感特征图R1。相应的,与获得第二遥感特征图的方法相同,通过第一高程特征图获得第二高程特征图D1。
步骤2013、分别将所述第二遥感特征图和所述第二高程特征图依次输入最大池化层、串行双卷积层,获得第三遥感特征图和第三高程特征图。
具体地,将第二遥感特征图经过最大池化层后,通过串行双卷积层进行卷积处理,该串行双卷积层的卷积核大小为3×3,数量为256,步长为1,从而获得第三遥感特征图R2。相应的,通过与获得第三遥感特征图相同的方法,根据第二高程特征图获得第三高程特征图D2。
步骤2014、分别将所述第三遥感特征图和所述第三高程特征图依次输入最大池化层、串行双卷积层,获得第四遥感特征图和第四高程特征图。
具体地,将第三遥感特征图经过最大池化层后,通过串行双卷积层进行卷积处理,该串行双卷积层的卷积核大小为3×3,数量为512,步长为1,从而获得第四遥感特征图R3。相应的,通过与获得第四遥感特征图相同的方法,获得第四高程特征图D3。
在本发明实施例中,通过编码器提取输入图像的特征,其中,卷积层可以捕获图像中特定类型特征,例如边缘、纹理或者其它类型的特征,而池化层可以减小特征映射的空间尺寸,提高模型的感受野。随着编码器深度的增加,提取的特征越来越抽象,捕获的信息越来越全局。
步骤202、在跨模态特征融合模块中分别对多个所述遥感特征图以及对应的多个所述高程特征图进行融合,获得多个融合特征图;其中,多个所述融合特征图包括第一融合特征图、第二融合特征图以及第三融合特征图。
具体地,在跨模态特征融合模块中将第一遥感特征图与第一高程特征图进行融合,获得第一融合特征图,将第二遥感特征图与第二高程特征图进行融合,获得第二融合特征图,将第三遥感特征图与第三高程特征图进行融合,获得第三融合特征图。
在一种可能的实施方式中,所述在跨模态特征融合模块中分别对多个所述遥感特征图以及对应的多个所述高程特征图进行融合,获得多个融合特征图包括:
在所述跨模态特征融合模块中对输入的所述遥感特征图和所述高程特征图进行拼接,再进行卷积处理以及形状转换,获得转换后的特征图;
提取所述转换后的特征图中不同图像块之间的特征,并再次进行形状转换以及卷积处理,获得所述融合特征图。
具体地,参照图6,在图6中的i取值为0的情况下,在跨模态特征融合模块中将第一遥感特征图R0与第一高程特征图D0进行拼接,再通过卷积层进行卷积处理,该卷积层的卷积核大小为1×1,数量为128,步长为1,得到特征图T00。对生成的特征图T00进行形状转换获得转换后的特征图T01,由此,特征图形状从(B,C,H,W)变成(B*P,N',C),其中B为T01批量大小,C为T01通道数,H为T00高度,W为T00宽度,P为T01划分成的块数,N'为每个块包含的像素数。
将转换后的特征图T01经过Transformer Encoder层,从而提取不同图像块之间的特征,获得特征图T02。对特征图T02进行形状转换,获得特征图T03,由此特征图形状从(B*P,N',C)变成(B,C,H,W)。将特征图T03经过卷积层进行卷积处理,该卷积层的卷积核大小为1×1,数量为64,步长为1,得到第一融合特征图F0。
按照与获取第一融合特征图相同的方法,获取第二融合特征图F1和第三融合特征图F2,具体来说,通过第二遥感特征图R1与第二高程特征图D1获取第二融合特征图F1,通过第三遥感特征图R2与第三高程特征图D2获取第三融合特征图F2。获取第二融合特征图与第一融合特征图的区别在于,获取第二融合特征图的过程中,在第二次进行卷积处理时,卷积核的数量为128。获取第三融合特征图与第一融合特征图的区别在于,获取第三融合特征图的过程中,在第二次进行卷积处理时,卷积核的数量为256。
步骤203、将第四遥感特征图和第四高程特征图进行拼接,获得第一拼接特征图。
将第四遥感特征图R3和第四高程特征图D3进行拼接,从而可以获得第一拼接特征图F3。
步骤204、将所述第一拼接特征图输入多尺度特征提取模块,输出第一尺度特征图。
具体地,通过多尺度特征提取模块获取第一尺度特征图U0。
在一种可能的实施方式中,所述将所述第一拼接特征图输入多尺度特征提取模块,输出第一尺度特征图包括:
将所述第一拼接特征图通过并行的多个膨胀卷积层,然后拼接获得第二拼接特征图;
对所述第二拼接特征图进行全局平均池化,再通过多层感知机获得权重;
将所述权重与所述第二拼接特征图相乘,再进行卷积处理获得所述第一尺度特征图。
具体地,参照图7,将第一拼接特征图F3经过并行三膨胀卷积层,然后拼接获得第二拼接特征图,膨胀卷积层中卷积核的大小为3×3,数量为512,步长为1,膨胀率分别为1、2、3。其中,膨胀率也称扩张率,是深度学习卷积神经网络中卷积操作的一个参数,用于控制卷积核在输入特征图上的采样步长。膨胀率的作用是在不增加卷积核大小和参数数量的情况下,扩大卷积核感受野的范围。
对第二拼接特征图进行全局平均池化,再通过多层感知机(Multilayerperceptron,MLP)获得权重,将该权重与第二拼接特征图相乘,从而有效区分了重要性不同的通道,再经过卷积层进行卷积处理可以获得第一尺度特征图,其中,该卷积层的卷积核大小为3×3,数量为512,步长为1。
步骤205、将所述第一尺度特征图以及多个所述融合特征图输入第二解码器,输出所述第二重构特征图。
具体地,将第一尺度特征图U0输入第二解码器,与第二双流编码器中获得的第一融合特征图、第二融合特征图以及第三融合特征图跨层连接,最终获得第二重构特征图U4'。
在一种可能的实施方式中,如图8所示,所述将所述第一尺度特征图以及多个所述融合特征图输入第二解码器,输出所述第二重构特征图包括:
步骤2051、对所述第一尺度特征图进行卷积、上采样处理,获得第二尺度特征图。
具体地,参照图9,对第一尺度特征图U0进行处理获得第二尺度特征图U1,通道数为256,此处的处理包括卷积、上采样处理,从而提高图像分辨率。
步骤2052、将所述第二尺度特征图与所述第三融合特征图拼接并进行卷积、上采样处理,获得第三尺度特征图。
具体地,将第二尺度特征图U1与第三融合特征图F2进行拼接,然后再进行卷积、上采样处理,从而获得第三尺度特征图U2,通道数为128,从而提高图像分辨率。
步骤2053、将所述第三尺度特征图与所述第二融合特征图拼接并进行卷积、上采样处理,获得第四尺度特征图。
具体地,将第三尺度特征图U2与第二融合特征图F1进行拼接,然后再进行卷积、上采样处理,从而获得第四尺度特征图U3,通道数为64,可以提高图像分辨率。
步骤2054、对所述第四尺度特征图与所述第一融合特征图拼接并进行卷积、上采样处理,获得所述第二重构特征图。
具体地,将第四尺度特征图U3与第一融合特征图F0进行拼接,然后再进行卷积、上采样处理,将图像解码回原图尺寸大小,获得第二重构特征图U4',通道数为64,从而提高图像分辨率。
解码器的作用是根据编码器提取的特征生成具有和输入图像相同大小的分割结果,根据编码器提取图像的语义信息生成精细的分割结果。由于随着编码器深度的增加,提取的特征越来越抽象,捕获的信息越来越全局,空间信息,例如物体的位置和形状也在逐步丢失,而解码器中的上采样操作可以增大特征映射的空间尺寸,恢复丢失的空间信息。另外,在解码过程中,将尺度特征图与融合特征图进行融合,可以使丢失的空间信息重新注入到解码器中。通过第二解码器输出第二重构特征图,该第二重构特征图提取到的是二级分类体系语义信息,用于生成二级分类体系分割结果,即二级分类体系预测图像。
在本发明实施例中,语义分割网络能够捕捉不同模态数据信息,充分融合不同模态特征图,另外,通过多尺度特征提取模块提取多尺度信息,从而可以增强特征表示。
虽然本发明披露如上,但本发明的保护范围并非仅限于此。本领域技术人员在不脱离本发明的精神和范围的前提下,可进行各种变更与修改,这些变更与修改均将落入本发明的保护范围。
Claims (10)
1.一种基于跨模态融合与图神经网络的遥感影像语义分割方法,其特征在于,包括:
获取RGB遥感图和对应的高程图;
将所述RGB遥感图和所述高程图输入第一双流编码器-解码器模块,输出第一重构特征图;
将所述第一重构特征图输入图卷积神经网络模块,输出一级分类体系预测图像;
将所述RGB遥感图、所述高程图以及所述一级分类体系预测图像输入构建好的语义分割网络,输出二级分类体系预测图像。
2.根据权利要求1所述的基于跨模态融合与图神经网络的遥感影像语义分割方法,其特征在于,所述将所述RGB遥感图、所述高程图以及所述一级分类体系预测图像输入构建好的语义分割网络,输出二级分类体系预测图像包括:
将所述RGB遥感图、所述高程图输入第二双流编码器-解码器模块,输出第二重构特征图;
按照类别对所述一级分类体系预测图像进行拆分,获得多个二值预测图像;
将所述第二重构特征图和多个所述二值预测图像输入分割头,输出所述二级分类体系预测图像。
3.根据权利要求2所述的基于跨模态融合与图神经网络的遥感影像语义分割方法,其特征在于,所述将所述RGB遥感图、所述高程图输入第二双流编码器-解码器模块,输出第二重构特征图包括:
将所述RGB遥感图和所述高程图输入第二双流编码器,依次输出多个遥感特征图以及对应的多个高程特征图;其中,多个所述遥感特征图包括第一遥感特征图、第二遥感特征图、第三遥感特征图和第四遥感特征图;多个所述高程特征图包括第一高程特征图、第二高程特征图、第三高程特征图和第四高程特征图;
在跨模态特征融合模块中分别对多个所述遥感特征图以及对应的多个所述高程特征图进行融合,获得多个融合特征图;其中,多个所述融合特征图包括第一融合特征图、第二融合特征图以及第三融合特征图;
将第四遥感特征图和第四高程特征图进行拼接,获得第一拼接特征图;
将所述第一拼接特征图输入多尺度特征提取模块,输出第一尺度特征图;
将所述第一尺度特征图以及多个所述融合特征图输入第二解码器,输出所述第二重构特征图。
4.根据权利要求3所述的基于跨模态融合与图神经网络的遥感影像语义分割方法,其特征在于,所述将所述RGB遥感图和所述高程图输入第二双流编码器,依次输出多个遥感特征图以及对应的多个高程特征图包括:
分别将所述RGB遥感图和所述高程图输入串行双卷积层,获得第一遥感特征图和第一高程特征图;
分别将所述第一遥感特征图和所述第一高程特征图依次输入最大池化层、串行双卷积层,获得第二遥感特征图和第二高程特征图;
分别将所述第二遥感特征图和所述第二高程特征图依次输入最大池化层、串行双卷积层,获得第三遥感特征图和第三高程特征图;
分别将所述第三遥感特征图和所述第三高程特征图依次输入最大池化层、串行双卷积层,获得第四遥感特征图和第四高程特征图。
5.根据权利要求3所述的基于跨模态融合与图神经网络的遥感影像语义分割方法,其特征在于,所述在跨模态特征融合模块中分别对多个所述遥感特征图以及对应的多个所述高程特征图进行融合,获得多个融合特征图包括:
在所述跨模态特征融合模块中对输入的所述遥感特征图和所述高程特征图进行拼接,再进行卷积处理以及形状转换,获得转换后的特征图;
提取所述转换后的特征图中不同图像块之间的特征,并再次进行形状转换以及卷积处理,获得所述融合特征图。
6.根据权利要求3所述的基于跨模态融合与图神经网络的遥感影像语义分割方法,其特征在于,所述将所述第一拼接特征图输入多尺度特征提取模块,输出第一尺度特征图包括:
将所述第一拼接特征图通过并行的多个膨胀卷积层,然后拼接获得第二拼接特征图;
对所述第二拼接特征图进行全局平均池化,再通过多层感知机获得权重;
将所述权重与所述第二拼接特征图相乘,再进行卷积处理获得所述第一尺度特征图。
7.根据权利要求3所述的基于跨模态融合与图神经网络的遥感影像语义分割方法,其特征在于,所述将所述第一尺度特征图以及多个所述融合特征图输入第二解码器,输出所述第二重构特征图包括:
对所述第一尺度特征图进行卷积、上采样处理,获得第二尺度特征图;
将所述第二尺度特征图与所述第三融合特征图拼接并进行卷积、上采样处理,获得第三尺度特征图;
将所述第三尺度特征图与所述第二融合特征图拼接并进行卷积、上采样处理,获得第四尺度特征图;
对所述第四尺度特征图与所述第一融合特征图拼接并进行卷积、上采样处理,获得所述第二重构特征图。
8.根据权利要求2所述的基于跨模态融合与图神经网络的遥感影像语义分割方法,其特征在于,所述将所述第二重构特征图和多个所述二值预测图像输入分割头,输出所述二级分类体系预测图像包括:
将所述第二重构特征图与多个所述二值预测图像分别相乘后,再进行卷积处理,然后相加获得特征图;
将所述特征图通过串行卷积层处理,获得所述二级分类体系预测图像。
9.根据权利要求1所述的基于跨模态融合与图神经网络的遥感影像语义分割方法,其特征在于,所述将所述第一重构特征图输入图卷积神经网络模块,输出一级分类体系预测图像包括:
采用SLIC方法对所述第一重构特征图进行超像素划分,获得超像素图;
基于所述超像素图构建无向图,获取所述无向图的邻接矩阵和特征矩阵;
将所述邻接矩阵和所述特征矩阵输入多层图卷积模块,输出所述一级分类体系预测图像。
10.根据权利要求2所述的基于跨模态融合与图神经网络的遥感影像语义分割方法,其特征在于,所述第二双流编码器-解码器模块与所述第一双流编码器-解码器模块的结构相同。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310573090.2A CN116797787B (zh) | 2023-05-22 | 2023-05-22 | 基于跨模态融合与图神经网络的遥感影像语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310573090.2A CN116797787B (zh) | 2023-05-22 | 2023-05-22 | 基于跨模态融合与图神经网络的遥感影像语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116797787A true CN116797787A (zh) | 2023-09-22 |
CN116797787B CN116797787B (zh) | 2024-01-02 |
Family
ID=88033793
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310573090.2A Active CN116797787B (zh) | 2023-05-22 | 2023-05-22 | 基于跨模态融合与图神经网络的遥感影像语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116797787B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116977750A (zh) * | 2023-09-25 | 2023-10-31 | 中国地质大学(武汉) | 土地覆盖场景分类模型构建方法及分类方法 |
CN117789042A (zh) * | 2024-02-28 | 2024-03-29 | 中国地质大学(武汉) | 一种道路信息解译方法、系统及存储介质 |
CN117830991A (zh) * | 2024-03-04 | 2024-04-05 | 山东大学 | 一种基于多模融合的四足机器人复杂场景感知方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020119679A1 (zh) * | 2018-12-14 | 2020-06-18 | 深圳先进技术研究院 | 三维左心房分割方法、装置、终端设备及存储介质 |
US20200304835A1 (en) * | 2019-03-23 | 2020-09-24 | Uatc, Llc | Compression of Images Having Overlapping Fields of View Using Machine-Learned Models |
CN112241676A (zh) * | 2020-07-07 | 2021-01-19 | 西北农林科技大学 | 一种地形杂物自动识别的方法 |
CN113498530A (zh) * | 2018-12-20 | 2021-10-12 | 艾奎菲股份有限公司 | 基于局部视觉信息的对象尺寸标注系统和方法 |
CN113850824A (zh) * | 2021-09-27 | 2021-12-28 | 太原理工大学 | 一种基于多尺度特征融合的遥感图像路网提取方法 |
CN115019191A (zh) * | 2022-04-22 | 2022-09-06 | 中国石油大学(华东) | 一种基于Hausdorff距离的大件运输关键道路空间通行性判定方法 |
CN115049936A (zh) * | 2022-08-12 | 2022-09-13 | 武汉大学 | 一种面向高分遥感影像的边界增强型语义分割方法 |
CN115082774A (zh) * | 2022-07-20 | 2022-09-20 | 华南农业大学 | 基于双流自注意力神经网络的图像篡改定位方法及系统 |
CN115952424A (zh) * | 2023-01-03 | 2023-04-11 | 安徽工业大学 | 一种基于多视图结构的图卷积神经网络聚类方法 |
CN116071346A (zh) * | 2023-03-01 | 2023-05-05 | 西北工业大学 | 一种异质双时图像变化检测方法及装置 |
-
2023
- 2023-05-22 CN CN202310573090.2A patent/CN116797787B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020119679A1 (zh) * | 2018-12-14 | 2020-06-18 | 深圳先进技术研究院 | 三维左心房分割方法、装置、终端设备及存储介质 |
CN113498530A (zh) * | 2018-12-20 | 2021-10-12 | 艾奎菲股份有限公司 | 基于局部视觉信息的对象尺寸标注系统和方法 |
US20200304835A1 (en) * | 2019-03-23 | 2020-09-24 | Uatc, Llc | Compression of Images Having Overlapping Fields of View Using Machine-Learned Models |
CN112241676A (zh) * | 2020-07-07 | 2021-01-19 | 西北农林科技大学 | 一种地形杂物自动识别的方法 |
CN113850824A (zh) * | 2021-09-27 | 2021-12-28 | 太原理工大学 | 一种基于多尺度特征融合的遥感图像路网提取方法 |
CN115019191A (zh) * | 2022-04-22 | 2022-09-06 | 中国石油大学(华东) | 一种基于Hausdorff距离的大件运输关键道路空间通行性判定方法 |
CN115082774A (zh) * | 2022-07-20 | 2022-09-20 | 华南农业大学 | 基于双流自注意力神经网络的图像篡改定位方法及系统 |
CN115049936A (zh) * | 2022-08-12 | 2022-09-13 | 武汉大学 | 一种面向高分遥感影像的边界增强型语义分割方法 |
CN115952424A (zh) * | 2023-01-03 | 2023-04-11 | 安徽工业大学 | 一种基于多视图结构的图卷积神经网络聚类方法 |
CN116071346A (zh) * | 2023-03-01 | 2023-05-05 | 西北工业大学 | 一种异质双时图像变化检测方法及装置 |
Non-Patent Citations (1)
Title |
---|
陈怀新: "基于图注意力卷积神经网络的三维点云分割算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 1 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116977750A (zh) * | 2023-09-25 | 2023-10-31 | 中国地质大学(武汉) | 土地覆盖场景分类模型构建方法及分类方法 |
CN116977750B (zh) * | 2023-09-25 | 2023-12-12 | 中国地质大学(武汉) | 土地覆盖场景分类模型构建方法及分类方法 |
CN117789042A (zh) * | 2024-02-28 | 2024-03-29 | 中国地质大学(武汉) | 一种道路信息解译方法、系统及存储介质 |
CN117789042B (zh) * | 2024-02-28 | 2024-05-14 | 中国地质大学(武汉) | 一种道路信息解译方法、系统及存储介质 |
CN117830991A (zh) * | 2024-03-04 | 2024-04-05 | 山东大学 | 一种基于多模融合的四足机器人复杂场景感知方法及系统 |
CN117830991B (zh) * | 2024-03-04 | 2024-05-24 | 山东大学 | 一种基于多模融合的四足机器人复杂场景感知方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116797787B (zh) | 2024-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112070779B (zh) | 一种基于卷积神经网络弱监督学习的遥感影像道路分割方法 | |
CN116797787B (zh) | 基于跨模态融合与图神经网络的遥感影像语义分割方法 | |
CN112396607B (zh) | 一种可变形卷积融合增强的街景图像语义分割方法 | |
CN112529015A (zh) | 一种基于几何解缠的三维点云处理方法、装置及设备 | |
JP2016045943A (ja) | シーンの取得画像を意味的にラベル付けする方法 | |
CN112488025B (zh) | 基于多模态特征融合的双时相遥感影像语义变化检测方法 | |
CN113269787A (zh) | 一种基于门控融合的遥感图像语义分割方法 | |
CN110781850A (zh) | 道路识别的语义分割系统和方法、计算机存储介质 | |
CN113988147B (zh) | 基于图网络的遥感图像场景多标签分类方法及装置、多标签检索方法及装置 | |
CN113012177A (zh) | 基于几何特征提取和边缘感知编码的三维点云分割方法 | |
Xu et al. | HA U-Net: Improved model for building extraction from high resolution remote sensing imagery | |
CN113269224A (zh) | 一种场景图像分类方法、系统及存储介质 | |
He et al. | Learning scene dynamics from point cloud sequences | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
CN112950780A (zh) | 一种基于遥感影像的网络地图智能生成方法及系统 | |
Kazimi et al. | Deep learning for archaeological object detection in airborne laser scanning data | |
Chiang et al. | Training deep learning models for geographic feature recognition from historical maps | |
CN116740527A (zh) | U型网络与自注意力机制结合的遥感图像变化检测方法 | |
CN116977750B (zh) | 土地覆盖场景分类模型构建方法及分类方法 | |
CN112686830B (zh) | 基于图像分解的单一深度图的超分辨率方法 | |
Shit et al. | An encoder‐decoder based CNN architecture using end to end dehaze and detection network for proper image visualization and detection | |
Jiang et al. | Semantic segmentation network combined with edge detection for building extraction in remote sensing images | |
CN110532868B (zh) | 一种预测自由空间语义边界的方法 | |
Zhao et al. | SqUNet: An High-performance Network for Crater Detection with DEM data | |
CN115147806A (zh) | 一种基于关键点检测车辆伪3d边界框的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |