CN113269787A - 一种基于门控融合的遥感图像语义分割方法 - Google Patents
一种基于门控融合的遥感图像语义分割方法 Download PDFInfo
- Publication number
- CN113269787A CN113269787A CN202110553034.3A CN202110553034A CN113269787A CN 113269787 A CN113269787 A CN 113269787A CN 202110553034 A CN202110553034 A CN 202110553034A CN 113269787 A CN113269787 A CN 113269787A
- Authority
- CN
- China
- Prior art keywords
- layer
- block
- convolution
- input
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 79
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000004927 fusion Effects 0.000 title claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 55
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 34
- 230000000750 progressive effect Effects 0.000 claims abstract description 10
- 230000004913 activation Effects 0.000 claims description 54
- 230000006870 function Effects 0.000 claims description 44
- 238000010586 diagram Methods 0.000 claims description 30
- 239000011159 matrix material Substances 0.000 claims description 29
- 238000011176 pooling Methods 0.000 claims description 21
- 238000010606 normalization Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 8
- 239000011800 void material Substances 0.000 claims description 8
- 230000017105 transposition Effects 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 4
- 230000006835 compression Effects 0.000 claims description 2
- 238000007906 compression Methods 0.000 claims description 2
- 101000962483 Homo sapiens Max dimerization protein 1 Proteins 0.000 description 29
- 102100039185 Max dimerization protein 1 Human genes 0.000 description 29
- 238000012360 testing method Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000005096 rolling process Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 102100030496 Chorion-specific transcription factor GCMb Human genes 0.000 description 1
- 101000862623 Homo sapiens Chorion-specific transcription factor GCMb Proteins 0.000 description 1
- 101000957106 Homo sapiens Mitotic spindle assembly checkpoint protein MAD1 Proteins 0.000 description 1
- 101000590284 Mus musculus 26S proteasome non-ATPase regulatory subunit 14 Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10032—Satellite or aerial image; Remote sensing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种基于门控融合的遥感图像语义分割方法。选取Q幅原始遥感图像及每幅原始遥感图像对应的数字表面模型图像和真实语义分割图像作为训练集;构建卷积神经网络,卷积神经网络包括输入模块、特征编码模块、特征解码模块和输出模块;特征编码模块包括遥感图像编码层、数字表面模型编码层和特征完善融合层,特征解码模块包括全局上下文层和特征渐进融合解码层;将训练集输入构建的卷积神经网络进行训练;将待语义分割的遥感图像及对应的数字表面模型图像输入完成训练的卷积神经网络中,输出对应的语义分割图像,完成遥感图像的语义分割。本发明方法的分割效率高,且分割准确度高。
Description
技术领域
本发明涉及一种深度学习的语义分割方法,尤其涉及一种基于门控融合的遥感图像语义分割方法。
背景技术
地理观测技术提供了大量的高空间分辨率的遥感图像,可以精细地描绘各种地理空间对象,如建筑、车辆和植被等,从遥感图像中自动提取感兴趣的对象,对城市管理、规划和监测等领域非常有帮助。地理空间对象分割作为对象提取的环节中的重要角色,可以是感兴趣的对象提供语义和位置信息,它属于一种特殊的语义分割任务,目标是为对象区域的每个像素分配一个统一的语义标签。目前,最常用的语义分割方法包括支持向量机、随机森林等算法。这些算法主要集中在二分类任务上,用于检测和识别特定物体,如道路表面、车辆和行人。这些传统的机器学习方法往往需要通过高复杂度的特征来实现,而使用深度学习来对交通场景进行语义分割简单方便,更重要的是,深度学习的应用极大地提高了图像像素级分类任务的精度。
采用深度学习的语义分割方法,直接进行像素级别端到端(end-to-end)的语义分割,其只需要将训练集中的图像输入进模型框架中训练,得到权重与模型,即可在测试集进行预测。卷积神经网络的强大之处在于它的多层结构能自动学习特征,并且可以学习到多个层次的特征。目前,基于深度学习语义分割的方法分为两种,第一种是编码-译码架构。编码过程通过池化层逐渐减少位置信息、抽取抽象特征;译码过程逐渐恢复位置信息。一般译码与编码间有直接的连接。第二种架构是带孔卷积(dilated convolutions),抛弃了池化层,通过带孔卷积的方式扩大感知域,较小值的带孔卷积感知域较小,学习到一些部分具体的特征;较大值的带孔卷积层具有较大的感知域,能够学习到更加抽象的特征,这些抽象的特征对物体的大小、位置和方向等鲁棒性更好。
现有的语义分割方法主要关注自然场景中的尺度变化,而没有充分考虑大面积遥感图片场景中通常发生的其他问题。
发明内容
为了解决背景技术中的问题,本发明提供了一种基于门控融合的遥感图像语义分割方法,其分割效率高,且分割准确度高。
本发明采用的技术方案如下:
一种基于门控融合的遥感图像语义分割方法包括以下步骤:
步骤1:选取Q幅原始遥感图像(IRRG)及每幅原始遥感图像对应的数字表面模型图像(DSM)和真实语义分割图像作为训练集。
步骤2:构建卷积神经网络:
所述卷积神经网络包括输入模块、特征编码模块、特征解码模块和输出模块;特征编码模块包括遥感图像编码层、数字表面模型编码层和特征完善融合层,特征解码模块包括全局上下文层和特征渐进融合解码层;
遥感图像编码层和数字表面模型编码层均包括五个依次连接的卷积块,且五个卷积块采用了ResNet-50的网络架构;特征完善融合层包括四个依次连接的RFB块;全局上下文层包括四个GCM块,特征渐进融合解码层包括四个依次连接的MAD块;
步骤3:将训练集输入步骤2构建的卷积神经网络进行训练:
训练过程中,每次迭代训练处理得到每幅深度估计原始图像的深度预测图,计算每幅深度估计原始图像的深度预测图与深度估计标签图像构成的损失函数值,损失函数值采用均方差(MSE)损失函数获得;
步骤3:将训练集中每幅原始遥感图像和数字表面模型通过随机裁剪、随机旋转、水平翻转、垂直翻转的数据增强操作后作为原始输入图像输入到步骤2构建的卷积神经网络中进行训练,得到训练集中每幅原始的遥感图像对应的语义分割预测图;
步骤4:计算训练集中每幅原始遥感图像对应的语义分割预测图构成的集合与对应的真实语义分割图像采用独热编码技术处理后的6副独热编码图像构成的集合之间的损失函数值,损失函数值采用分类交叉熵获得;
步骤5:重复执行步骤3和步骤4共V次,得到卷积神经网络分类训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,完成卷积神经网络的训练;
步骤6:将待语义分割的遥感图像及对应的数字表面模型图像输入步骤5完成训练的卷积神经网络中,输出对应的语义分割图像,完成遥感图像的语义分割。
输入模块包括遥感图像输入层和数字表面模型图像输入层;遥感图像输入层的输入为遥感图像,其中遥感图像由三通道组成,包括近红外(NIR)、红色(R)和绿色(G)波段;数字表面模型图像输入层的输入为数字表面模型图像,数字表面模型图像为经过归一化处理为一通道的灰度图;
遥感图像经遥感图像输入层输入遥感图像编码层中的第一个卷积块,数字表面模型图像经特征完善融合层输入数字表面模型编码层中的第一个卷积块。
遥感图像编码层中的第二个卷积块、第三个卷积块、第四个卷积块和第五个卷积块的输出分别连接至第一个RFB块、第二个RFB块、第三个RFB块和第四个RFB块;数字表面模型编码层中的第二个卷积块、第三个卷积块、第四个卷积块和第五个卷积块的输出分别连接至第一个RFB块、第二个RFB块、第三个RFB块和第四个RFB块;
对于遥感图像编码层和数字表面模型编码层:第三个卷积块的输入由第二个卷积块输出和第一个RFB块输出相加得到,第四个卷积块的输入由第三个卷积块的输出和第二个RFB块的输出相加得到,第五个卷积块的输入由第三个卷积块的输出和第二个RFB块的输出相加得到;
第一个RFB块、第二个RFB块、第三个RFB块和第四个RFB块的输出分别输入第一个GCM块、第二个GCM块、第三个GCM块和第四个GCM块;第一个GCM块、第二个GCM块、第三个GCM块和第四个GCM块的输出分别输入第四个MAD块、第三个MAD块、第二个MAD块和第一个MAD块。
每个RFB块包括四个门控单元、两个残差单元和一个深度可分离卷积;
对于第一个RFB块:
输入RFB块的两个卷积块经连接操作后分别输入第一门控单元和第二门控单元,第一门控单元和第二门控单元的输出分别和从遥感图像编码层和数字表面模型编码层输入的卷积块做像素级的点积操作后输出两个特征,并将两个特征做连接操作后经卷积层输入深度可分离卷积层;
对于第二个RFB块和第三个RFB块:
输入RFB块的两个卷积块经连接操作后分别输入第一门控单元和第二门控单元,第一门控单元和第二门控单元的输出分别和遥感图像编码层和数字表面模型编码层输入的卷积块做像素级的点积操作后输出两个特征,并将两个特征做连接操作后输入卷积层,卷积层的输出与前一个RFB块输入的特征经相加操作后输入深度可分离卷积层;
对于第一个、第二个和第三个RFB块:
深度可分离卷积层的输出记为RFB块的第一输出;深度可分离卷积层的输出分别输入第三门控单元和第四门控单元,数字表面模型编码层输入的卷积块经第一残差单元与第三门控单元的输出经点积操作后输出的特征图结合记为RFB块的第二输出,遥感图像编码层输入的卷积块经第二残差单元与第四门控单元的输出经点积操作后输出的特征图结合记为RFB块的第三输出;
RFB块的第二输出与输入RFB块的遥感图像编码层中的卷积块进行相加操作后输入到遥感图像编码层中下一个卷积块,RFB块的第三输出与输入RFB块的数字表面模型编码层中的卷积块进行相加操作后输入到数字表面模型编码层中下一个卷积块;
对于第四个RFB块:
输入RFB块的两个卷积块经连接操作后分别输入第一门控单元和第二门控单元,第一门控单元和第二门控单元的输出分别和遥感图像编码层和数字表面模型编码层输入的卷积块做像素级的点积操作后输出两个特征,并将两个特征做连接操作后输入卷积层,卷积层的输出与前一个RFB块输入的特征经相加操作后输入深度可分离卷积层,深度可分离卷积层的输出记为第四个RFB块的第一输出;
每个RFB块的第一输出分别输入对应的GCM块。
所述门控单元主要由第一卷积层、第一激活层、第二卷积层和第二激活层串联而成;门控单元中,第一激活层采用ReLU作为激活函数,第二激活层采用Sigmoid作为激活函数;
所述残差单元主要由主路径和跳跃路径组成,主路径由第一激活层、第一卷积层、第一归一化层串联而成,跳跃路径用于将输入残差单元的特征与经过主路径处理后的特征做像素级的相加操作后输出作为残差单元的输出;残差单元中,第一激活层和第一归一化层采用ReLU作为激活函数;
所述深度可分离卷积主要由第一卷积层和第二卷积层串联而成。
每个GCM块包括四个分支和第二卷积层,输入GCM块的特征图分别输入四个分支,四个分支的输出与输入GCM块的特征图经连接操作后输入第二卷积层,第二卷积层的输出为GCM模块的输出;
第一分支包括依次连接的自适应的平均池化层、第一卷积层、双线性插值层和第一空间注意力块;第二分支包括依次连接的第一空洞卷积层和第二空间注意力块;第三分支包括依次连接的第二空洞卷积层和第三空间注意力块;第四分支包括依次连接的第三空洞卷积层和第四空间注意力块;
第一空洞卷积层、第二空洞卷积层和第三空洞卷积层的空洞率分别为6、12、18。
所述空间注意力块包括最大池化层、平均池化层、第一卷积层和第一激活层,输入空间注意力块的特征图分别输入最大池化层和平均池化层取最大值和平均值,最大池化层和平均池化层的输出均输入第一卷积层后再输入第一激活层,第一激活层的输出与输入空间注意力块的特征图经相乘操作后再与第一激活层的输出进行相加操作后作为空间注意力块的输出输出。
第一个MAD块包括自我完善单元,第二个MAD块、第三个MAD块和第四个MAD块包括自我完善单元和逐层融合单元,自我完善单元的输入为GCM块处理后输入的特征图集合,逐层融合单元的输入为上一个MAD块处理后输入的特征图集合;
自我完善单元包括四个卷积层、特征变换层;自我完善单元的输入分别输入第一个卷积层、第二个卷积层和第三个卷积层得到三个特征图集合Fα、Fβ、Fγ,Fα、Fβ、Fγ的形状均为[c/4,h,w],三个卷积层的输入分别输入三个特征变换层,经特征变换层的矩阵压缩操作后,Fα、Fβ、Fγ的形状为[c/4,h×w]的二维矩阵;再对Fα进行矩阵装置层的矩阵装置操作后得到形状为[h×w,c/4]的二维矩阵,之后对Fα、Fβ进行矩阵乘法操作得到特征图集合Fδ,Fδ形状为[h×w,h×w]的二维矩阵;对Fδ进行Softmax归一化操作后与Fγ进行矩阵相乘操作得到特征图集合Fc,Fc形状为[h×w,c/4]的二维矩阵;特征图集合Fc依次经矩阵转置层的矩阵转置和特征变换层的维度扩展得到形状变为[c/4,h,w]的特征图集合,特征变换层的输出输入卷积核个数为c的第四个卷积层;
对于第一个MAD块:
第四个卷积层的输出与输入自我完善单元的特征图进行相加操作后输入线性差值层,经过线性差值层两倍的双线性插值操作后输入下一个MAD块;
对于第二个MAD块、第三个MAD块或第四个MAD块:
逐层融合单元接收上一个MAD块输出的特征图集合,与输入自我完善单元的特征图集合进行像素级的相乘操作,然后与第四个卷积层的输出和输入自我完善单元的特征图再进行像素级的相加操作后输入线性差值层,经过线性差值层两倍的双线性插值操作后作为MAD块的输出输出。
输出模块主要由第一卷积层、第一激活层、第一反卷积层、第二激活层、第二卷积层、第三激活层、第二反卷积层、第四激活层和第三卷积层依次连接组成;
其中,第一卷积层、第二卷积层第三卷积层的卷积核个数分别为128、64和6,第一反卷积层和第二反卷积层的卷积核个数分别为128和64;所有激活层采用ReLU作为激活函数。
其中,输出模块输出的语义分割预测图为6通道。
本发明的有益效果:
1)本发明方法构建了一种卷积神经网络,通过将训练集中的遥感图像裁剪成256×256分辨率的训练图像输入到卷积神经网络中进行训练,得到卷积神经网络语义分割预测模型;在预测阶段通过滑动窗口的方式将待语义分割的遥感图像输入到卷积神经网络语义分割预测模型中,预测得到滑动窗口所裁剪下来的遥感图像对应的预测语义分割图像;最后将预测得到语义分割图像拼接成原始遥感图像大小,由于窗口滑动的步长要小于窗口的大小,所以在拼接过程中对图像重复区域取平均值,从而得到最终的预测语义分割图像。由于本发明在构建卷积神经网络的过程中考虑了全局上下文信息对分割效果的影响,通过将全局上下文信息同高级语义信息和低级细节信息相互结合,从而有效地提高了遥感图像的语义分割精确度。
2)本发明方法提出了针对遥感图像中物体尺度变化问题的全局上下文模块(GCM),可以在不牺牲特征空间分辨率的同时扩大特征感受野,并运用注意力机制,加强了GCM捕捉所有空间位置之间的远程语义依赖关系的能力。
3)本发明方法在特征解码部分提出了特征渐进融合解码,通过计算任意两个位置之间的相似度直接建立起远程连接,从而完善出更多的细节特征以弥补图像在编码过程中下采样时丢失的细节特征。
附图说明
图1为本发明方法的总体实现框图;
图2a为RFB特征完善融合模块;
图2b为RFB1特征完善融合模块;
图2c为RFB4特征完善融合模块;
图2d为GCM全局上下文模块;
图2e为GCM中的空间注意力模块;
图2f为MAD特征渐进融合解码器;
图2g为MAD1特征渐进融合解码器;
图2h为输出层;
图3a为Vaihingen数据集的第1幅原始的遥感图像;
图3b为利用本发明方法对图3a所示的原始的遥感图像进行预测,得到的预测语义分割图像;
图4a为Vaihingen数据集的第2幅原始的遥感图像;
图4b为利用本发明方法对图4a所示的原始的遥感图像进行预测,得到的预测语义分割图像;
图5a为Potsdam数据集的第1幅原始的道路场景图像;
图5b为利用本发明方法对图5a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;
图6a为Potsdam数据集的第2幅原始的道路场景图像;
图6b为利用本发明方法对图6a所示的原始的遥感图像进行预测,得到的预测语义分割图像。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细说明。
本发明提出的一种基于门控融合的遥感图像语义分割方法,其总体实现框图如图1所示,其包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:在此,原始的遥感图像直接选用遥感图像数据库Vaihingen和Potsdam中的图像。选取Q幅原始的遥感图像及每幅原始的遥感图像对应的数字表面模型图像(DSM)和真实语义分割图像,并按照256×256分辨率对它们进行裁剪构成训练集,将Vaihingen训练集中的第q幅原始的遥感图像记为将Potsdam训练集中的的第q幅原始的遥感图像记为将Vaihingen训练集中与对应的真实语义分割图像记为将Potsdam训练集中与对应的真实语义分割图像记为然后采用现有的独热编码技术(one-hot)将Vaihingen训练集和Potsdam训练集中每幅原始的遥感图像对应的真实语义分割图像处理成6副独热编码图像,将处理成的6副独热编码图像构成的集合记为其中将处理成的6副独热编码图像构成的集合记为其中其中,遥感图像为IRRG彩色图像,Q为正整数,Q≥17656,如取Q=20000,q为正整数,W表示或的宽度,H表示或的高度,如取W=256、H=256表示中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值。
步骤1_2:构建卷积神经网络:
本发明所搭建的卷积神经网络主要由两个部分构成,分别为自下而上的特征编码过程和自上而下的特征解码过程。
由于本发明所采用的是遥感图像数据集是Vaihingen和Potsdam,每个样本包括遥感图像和其对应的数字表面模型图像(DSM),其中遥感图像由三个通道组成,包括近红外(NIR)、红色(R)和绿色(G)波段;数字表面模型为已经过归一化处理为一通道的灰度图,并且每个像素点都代表了对应图像地表信息的高程。因此在特征编码部分,本发明采用了两个组成部分基本一致的编码层,遥感图像编码层和数字表面模型编码层。每个编码层均包含采用ResNet-50的网络架构的第1个卷积块、第2个卷积块、第3个卷积块、第4个卷积块和第5个卷积块;并且特征编码部分还包含4个特征完善融合块RFB1、RFB2、RFB3、RFB4。
特征解码模块分为上下文信息处理单元(包含4个GCM模块,分别是GCM1、GCM2、GCM3、GCM4)和特征渐进融合解码单元(包含4个MAD模块,分别是MAD1、MAD2、MAD3、MAD4)。
网络的输入是已经经过数据处理的遥感图像数据集中的每一张图像和与其相对应的数字表面模型图像(图片的宽度和高度分别为W=256,H=256,遥感图像通道为近红外(IR)通道、红色(R)通道、绿色(G)通道;数字表面模型图像为1通道的灰度图)。
对于遥感图像编码层的第1个卷积块由第一卷积层(Convolution,Conv)、第一归一化层(BatchNorm,BN)、第一激活层(Activation,Act)构成;第1个卷积块的输入端接收的原始输入图像的3通道分量分别为IR通道、R通道、G通道,第1个卷积块的输出端输出64副特征图。其中第一卷积层采用卷积核个数为64,卷积核(kernel_size)为7,步长(stride)为2,补零(padding)为3的配置;第一归一化层的输入端接收来自第一卷积层输出的64副特征图;第一激活层采用修正线性单元——ReLU作为激活方式。对于数字表面模型编码层的第1个卷积块的输入端接收的原始输入图像的1通道分量,其余组成部分皆于遥感图像编码层相同。将遥感图像编码层第1个卷积块输出的64副特征图集合记为R1,将第1个卷积块输出的64副特征图集合记为D1,R1和D1中的每幅特征图的宽度均为高度均为
对于遥感图像编码层和数字表面模型编码层的第2个卷积块由第一最大池化层和三个残差单元串联构成。第一最大池化层采用池化核(kernel_size)为3,步长(stride)为2,补零(padding)为1的配置。第一最大池化层接收来自第1个卷积块的64副特征图,并输出64副特征图且每幅特征图的宽度均为高度均为每个残差单元依次由主路径和跳跃路径组成,主路径由第一卷积层、第一归一化层、第一激活层、第二卷积层、第二归一化层、第二激活层、第三卷积层、第三归一化层、第三激活函数层串联而成。其中,第1个残差单元的第一卷积层的配置为:卷积核为1,卷积核个数为64,步长为1,补零为0;第二卷积层的配置为:卷积核为3,卷积核个数为64,步长为1,补零为1;第三卷积层的配置为:卷积核为1,卷积核个数为256,步长为1,补零为0。由于第一个残差单元输出256副特征图,所以第1个残差单元的跳远路径由第四卷积层、第四归一化层组成。其中,第四卷积层的配置为:卷积核为1,卷积核个数为256,步长为1,补零为0。第1个残差单元接收来自第一最大池化层的64副特征图,这64副特征图分别经过第一个残差单元的主路径和跳跃路径并进行像素级的相加操作后输出。剩余残差单元里所有卷积层的第一卷积层的卷积核个数均为64,第二卷积层卷积核个数为64,第三卷积层卷积核个数为256,其余相应的参数配置与第1个残差单元基本一致并且跳跃路径无任何操作,最后的操作都是将主路径输出的特征图和跳跃路径输出的特征图进行像素级的相加操作并输出。将遥感图像编码层第2个卷积块输出的256副特征图集合记为R2,将数字表面模型编码层第2个卷积块输出的256副特征图集合记为D2,R2和D2中的每幅特征图的宽度均为高度均为
对于遥感图像编码层和数字表面模型编码层的第3个卷积块,操作与第2个卷积块大致相同。不同之处是第3个卷积块里残差单元的个数为4个,并且第1个残差单元的第一卷积层的卷积核个数为输入特征图数量的一半即为128个,第二卷积层的卷积核个数为128,第三卷积层的卷积核个数为512个。第3个卷积块输出512副特征图。将遥感图像编码层第3个卷积块输出的512副特征图集合记为R3,将数字表面模型编码层第3个卷积块输出的512副特征图集合记为D3,R3和D3中的每幅特征图的宽度均为高度均为
对于遥感图像编码层和数字表面模型编码层的第4个卷积块、第5个卷积块,操作与第3个卷积块基本相同。第4个卷积块包含6个残差单元,最终输出特征图的数量为1024,将遥感图像编码层第4个卷积块输出的1024副特征图集合记为R4,将数字表面模型编码层第4个卷积块输出的1024副特征图集合记为D4,R4和D4中的每幅特征图的宽度均为高度均为第5个卷积块里残差单元的数量为3个,最终输出特征图数量为2048,将遥感图像编码层第5个卷积块输出的2048副特征图集合记为R5,将数字表面模型编码层第5个卷积块输出的2048副特征图集合记为D5,R5和D5中的每幅特征图的宽度均为高度均为
如图2a和2b所示,对于遥感图像编码层的第2个卷积块和数字表面模型编码层的第2个卷积块之间的特征完善融合块(RFB1)由4个门控单元(分别为第一门控单元、第二门控单元、第三门控单元、第四门控单元)、2个残差单元和1个深度可分离卷积组成。其中所有的门控单元由第一卷积层、第一激活层、第二卷积层、第二激活层串联而成。第一卷积层的配置为:卷积核为1,卷积核个数为16,步长为1,补零为0。第一激活层采用ReLU作为激活函数。第二卷积层的配置为:卷积核为1,卷积核个数为1,步长为1,补零为0。第二激活层采用Sigmoid作为激活函数。残差单元由主路径和跳跃路径组成,主路径由第一激活层、第一卷积层、第一归一化层串联而成。第一激活层采用ReLU作为激活函数,第一归一化层选用ReLU激活函数;第一卷积层的配置为:卷积核为3,卷积核个数为256,步长为1,补零为0。跳跃路径不做任何操作直接将输入特征图与经过主路径处理后特征做像素级的相加操作。深度可分离卷积由第一卷积层和第二卷积层串联而成。其中第一卷积层的配置为:卷积核为3,卷积核个数为256,步长为1,补零为1,分组(groups)为256;第二卷积层的配置为:卷积核为1,卷积核个数为256,步长为1,补零为0。对于输入RFB1的特征图集合R2和D2先做连接操作(Concatenate),并行的经过第一门控单元和第二门控单元,输出的特征分别和R2和D2做像素级的点积操作并做连接操作,之后送入一个配置为:卷积核为3,卷积核个数为256,步长为1,补零为1的卷积层。因为是第一层RFB,所以卷积层输出的特征图不做任何操作,直接送入深度可分离卷积进行处理。处理之后的特征图集合记为F1out。F1out并行地经过第三门控单元和第四门控单元。R2和D2分别经过残差单元处理后和第三门控单元和第四门控单元输出的特征图做像素级的点积操作输出的特征图结合分别记为R1out和D1out。最终RFB1输出F1out、R1out和D1out。遥感图像编码层和数字表面模型编码层的第2个卷积块输出的特征图集合R2和D2分别和R1out、D1out进行像素级的相加操作并输入到遥感图像编码层和数字表面模型编码层的第3个卷积块,即遥感图像编码层的第3个卷积块的输入为R2+R1out,数字表面模型编码层为D2+D1out。F1out作为一个输入送入到RFB2。
对于遥感图像编码层的第3个卷积块和数字表面模型编码层的第3个卷积块之间的特征完善融合块(RFB2)由4个门控单元(分别为第一门控单元、第二门控单元、第三门控单元、第四门控单元)、2个残差单元、1个卷积层和1个深度可分离卷积组成。其中所有的门控单元由第一卷积层、第一激活层、第二卷积层、第二激活层串联而成。第一卷积层的配置为:卷积核为1,卷积核个数为32,步长为1,补零为0。第一激活层采用ReLU作为激活函数。第二卷积层的配置为:卷积核为1,卷积核个数为1,步长为1,补零为0。第二激活层采用Sigmoid作为激活函数。残差单元由主路径和跳跃路径组成,主路径由第一激活层、第一卷积层、第一归一化层串联而成。第一归一化层选用ReLU激活函数;第一卷积层的配置为:卷积核为3,卷积核个数为512,步长为1,补零为0。跳跃路径不做任何操作直接将输入特征图与经过主路径处理后特征做像素级的相加操作。深度可分离卷积由第一卷积层和第二卷积层串联而成。其中第一卷积层的配置为:卷积核为3,卷积核个数为512,步长为1,补零为1,分组(groups)为512;第二卷积层的配置为:卷积核为1,卷积核个数为512,步长为1,补零为0。对于输入RFB2的特征图集合R3和D3先做连接操作(Concatenate),并行的经过第一门控单元和第二门控单元,输出的特征分别和R3和D3做像素级的点积操作并做连接操作,之后送入一个配置为:卷积核为3,卷积核个数为512,步长为1,补零为1的卷积层,再然后和RFB1输入RFB2的特征图集合F1out做像素级的相加操作,最终输入到深度可分离卷积进行处理。处理之后的特征图集合记为F2out。F2out并行地经过第三门控单元和第四门控单元。R3和D3分别经过残差单元处理后和第三门控单元和第四门控单元输出的特征图做像素级的点积操作输出的特征图结合分别记为R2out和D2out。最终RFB2输出F2out、R2out和D2out。遥感图像编码层和数字表面模型编码层的第3个卷积块输出的特征图集合R3和D3分别和R2out、D2out进行像素级的相加操作并输入到遥感图像编码层和数字表面模型编码层的第4个卷积块,即遥感图像编码层的第4个卷积块的输入为R3+R2out,数字表面模型编码层为D3+D2out。F2out作为一个输入送入到RFB3。
对于遥感图像编码层的第4个卷积块和数字表面模型编码层的第4个卷积块之间的特征完善融合块(RFB3)和第3个卷积块之间的特征完善融合块(RFB2)操作基本相同。RFB3中门控单元第一卷积层的卷积核个数为64,其余卷积层的卷积核个数与均为1024。记RFB3输出特征图的集合为R3out、D3out和F3out。
如图2a和2c所示,对于遥感图像编码层第5个卷积块和数字表面模型编码层的第10个卷积块之间的特征完善融合块(RFB5)由2个门控单元(分别为第一门控单元、第二门控单元)、1个卷积层和1个深度可分离卷积组成。其中所有的门控单元由第一卷积层、第一激活层、第二卷积层、第二激活层串联而成。第一卷积层的配置为:卷积核为1,卷积核个数为128,步长为1,补零为0。第一激活层采用ReLU作为激活函数。第二卷积层的配置为:卷积核为1,卷积核个数为1,步长为1,补零为0。第二激活层采用Sigmoid作为激活函数。深度可分离卷积由第一卷积层和第二卷积层串联而成。其中第一卷积层的配置为:卷积核为3,卷积核个数为2048,步长为1,补零为1,分组(groups)为2048;第二卷积层的配置为:卷积核为1,卷积核个数为2048,步长为1,补零为0。对于输入RFB4的特征图集合R5和D5先做连接操作(Concatenate),并行的经过第一门控单元和第二门控单元,输出的特征分别和R5和D5做像素级的点积操作并做连接操作,之后送入一个配置为:卷积核为3,卷积核个数为2048,步长为1,补零为1的卷积层,再然后和RFB3输入RFB4的特征图集合F3out做像素级的相加操作,最终输入到深度可分离卷积进行处理。处理之后的特征图集合记为F4out。因为是最后一层RFB,所以RFB4直接输出F4out。
如图2d所示,对于专门针对遥感图像中尺度变化过大所提出的GCM模块,该模块一共有四个分支,其中第一分支由自适应的全局平均池化、第一卷积层、双线性插值和第一空间注意力模块串联而成,其余分支由不同空洞率(空洞率分别为6,12,18)的空洞卷积和空间注意力模块(分别为第二空间注意力、第三空间注意力、第四空间注意力)串联而成。同时为了减少通道数过多而产生计算量过大的问题,每个分支的卷积层只有空洞率不同其余配置均为:卷积核为3,卷积核个数为256,步长为1。四个分支的输出与输入GCM块的特征图经连接操作后输入第二卷积层,第二卷积层的输出为GCM模块的输出;其中,第二卷积层的配置为:卷积核为1,卷积核个数为256,步长为1,补零为0。
如图2e所示,GCM中的空间注意力模块是在通道维度上对特征图取最大值和平均值,并将它们连接在一起从而变成了所有像素点平均值和最大值的两张特征图。将这两张特征图送入一个卷积核为3、卷积核个数为1的卷积层进行处理,再经过sigmoid函数激活从而得到一张权重特征图,每个像素点的值都是相应像素点的权重,最后和原始特征图相乘并进行像素级的相加操作,从而建立起所有空间位置之间的远程语义依赖关系。四个GCM模块(GCM1、GCM2、GCM3、GCM4)接收相对应的四个RFB模块(RFB1、RFB2、RFB3、RFB4)的输出特征图集合(F1out、F2out、F3out、F4out),对其进行处理之后输出相对应的特征图集合,记GCM1输出的特征图集合为集合中每幅特征图的宽度均为高度均为GCM2输出的特征图集合为集合中每幅特征图的宽度均为高度均为GCM3输出的特征图集合为集合中每幅特征图的宽度均为高度均为GCM4输出的特征图集合为集合中每幅特征图的宽度均为高度均为
如图2f和图2g所示,对于特征解码阶段的特征渐进融合解码(MAD),其作用是接收来自GCM模块处理后的特征图,并对特征图做进一步的细化,通过计算任意两个位置之间的相似度直接建立起远程连接,从而完善出更多的细节特征。再接收来自之间MAD完善后的特征,提取出两个特征图集合之间的共性以此来逐步细化完善特征。除了MAD1其余每个MAD模块可分为自我完善和逐层融合两部分,MAD1只有自我完善单元。对于自我完善单元来说,记输入特征图集合为Fin,形状为[c,h,w](c为通道数即特征图集合Fin中图片的个数,h和w分别为Fin中每张图片的高度和宽度)。首先Fin并行地经过三个配置为:卷积核为1,卷积核个数为c/4,步长为1,补零为0的三个卷积层(分别为第一卷积层,第二卷积层,第三卷积层)。记第一卷积层得到的特征图集合为Fα;第二卷积层得到的特征图集合为Fβ;第三卷积层得到的特征图集合为Fγ。对于Fα、Fβ、Fγ来说,形状都为[c/4,h,w]。先对Fα、Fβ和Fγ在h,w两个维度上进行矩阵压缩操作,即将h,w两个维度压缩为h×w一个维度,此时Fα、Fβ和Fγ的形状为[c/4,h×w]的二维矩阵。对Fα进行矩阵转置即得到形状为[h×w,c/4]的二维矩阵,之后对Fa和Fβ进行矩阵乘法操作即可得到形状为[h×w,h×w]的二维矩阵,记为Fδ。对Fδ进行Softmax归一化操作和Fγ进行矩阵相乘操作得到形状为[h×w,c/4]的二维矩阵,记为Fc。对Fc进行矩阵转置和维度扩展变为形状为[c/4,h,w]的特征图集合。经过一个卷积核为1,卷积核个数为c,步长为1,补零为0的第四卷积层处理和输入特征图Fin进行像素级的相加操作。对于MAD1来说直接进行两倍的双线性插值操作,把特征图扩展为原始特征的2倍大小,然后输入到下一个MAD模块,记为Fout。对于其余MAD模块来说,还有一个逐层融合单元。逐层融合单元接收上一层MAD输出的特征图集合,与原始输入MAD的特征图集合Fin进行像素级的相乘操作,然后和Fout进行像素级的相加操作,最后进行双线性插值操作,将特征图集合里的每幅特征图扩展为原始图像的两倍,输入到下一个MAD模块。
如图2h所示,对于最后一个MAD模块(MAD4)输出的特征图集合里每幅特征图的宽度均为高度均为根据端到端的思想,要求输出特征图和输入特征图保持一致大小,所以还需要对MAD1输出的特征图集合进一步的扩大。本发明在这里采用了反卷积的方式,构建了一个特征输出块主要由第一卷积层、第一激活层、第一反卷积层、第二激活层、第二卷积层、第三激活层、第二反卷积层、第四激活层和第三卷积层串联而成。其中第一卷积层、第二卷积层第三卷积层的卷积核个数分别为128、64和6,其余配置均为卷积核为1,步长为1,补零为0。第一反卷积层和第二反卷积层的卷积核个数分别为128和64,其余配置均为卷积核为2,步长为2。所有的激活层都采用修正线性单元(ReLU)作为激活方式。最后输出为6通道的预测图。
步骤1_3:将训练集中的每幅原始的遥感图像和数字表面模型通过滑动窗口裁剪、随机裁剪、随机旋转、水平翻转、垂直翻转等数据增强方式后作为原始输入图像,其中Vaihingen训练集的11幅平均分辨率为2493×2063的遥感图像经过数据增强后扩展成17656张分辨率为256×256的遥感图像,Potsdam训练集的17幅平均分辨率为6000×6000的遥感图像数据增强后扩展成35972张分辨率为256×256的遥感图像。将两个训练集的原始输入图像分别输入到卷积神经网络中进行训练,得到训练集中的每幅遥感图像对应的语义分割预测图,将对应的语义分割预测图构成的集合记为将对应的语义分割预测图构成的集合记为
步骤1_4:计算训练集中的每幅原始的遥感图像对应的语义分割预测图构成的集合与对应的真实语义分割图像处理成的独热编码图像构成的集合之间的损失函数值,将与之间的损失函数值记为将与之间的损失函数值记为和采用分类交叉熵(categorical crossentropy)获得。
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络分类训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1,在本实施例中取V=100。
所述的测试阶段过程的具体步骤为:
步骤2_2:将的IR通道分量、R通道分量和G通道分量及其相对应的数字表明模型输入到卷积神经网络分类训练模型中,并利用Wbest和bbest进行预测,得到对应的预测语义分割图像,记为其中,表示中坐标位置为(i',j')的像素点的像素值。
为了进一步验证本发明方法的可行性和有效性,进行实验。
使用基于python的深度学习库pytorch1.6搭建多尺度带孔卷积神经网络的架构。采用遥感图像数据库Vaihingen测试集和Potsdam来分析利用本发明方法预测得到的遥感图像(Vaihingen数据集取5幅遥感图像,图像Potsdam数据集取7副遥感图像)的分割效果如何。这里,利用评估语义分割方法的4个常用客观参量作为评价指标,即类别精确度(ClassAcurracy,Acc)、平均类别准确率(Mean Class Acurracy,mAcc)、每个类别分割图像与标签图像交集与并集的比值(Intersection over Union,IoU),分割图像与标签图像交集与并集的平均比值(Mean Intersection over Union,MIoU)来评价预测语义分割图像的分割性能。
利用本发明方法对遥感图像数据库Vaihingen和Potsdam测试集中的每幅遥感图像进行预测,得到每幅遥感图像对应的预测语义分割图像,反映本发明方法的语义分割效果的类精确度Acc、平均类别准确率mAcc、每个类别分割图像与标签图像交集与并集的比值IoU、分割图像与标签图像交集与并集的平均比值MIoU如表1和表2所列。从表1和表2所列的数据可知,按本发明方法得到的遥感图像的分割结果是较好的,表明利用本发明方法来获取遥感图像对应的预测语义分割图像是可行性且有效的。
表1利用本发明方法在Vaihingen测试集上的评测结果
表2利用本发明方法在Potsdam测试集上的评测结果
图3a给出了Vaihingen数据集的第1幅原始的遥感图像;图3b给出了利用本发明方法对图3a所示的原始的遥感图像进行预测,得到的预测语义分割图像;图4a给出了Vaihingen数据集的第2幅原始的遥感图像;图4b给出了利用本发明方法对图4a所示的原始的遥感图像进行预测,得到的预测语义分割图像;图5a给出了Potsdam数据集的第1幅原始的道路场景图像;图5b给出了利用本发明方法对图5a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;图6a给出了Potsdam数据集的第2幅原始的道路场景图像;图6b给出了利用本发明方法对图6a所示的原始的遥感图像进行预测,得到的预测语义分割图像。对比图3a和图3b,对比图4a和图4b,对比图5a和图5b,对比图6a和图6b,可以看出利用本发明方法得到的预测语义分割图像的分割精度较高。
Claims (9)
1.一种基于门控融合的遥感图像语义分割方法,其特征在于,包括以下步骤:
步骤1:选取Q幅原始遥感图像及每幅原始遥感图像对应的数字表面模型图像和真实语义分割图像作为训练集;
步骤2:构建卷积神经网络:
所述卷积神经网络包括输入模块、特征编码模块、特征解码模块和输出模块;特征编码模块包括遥感图像编码层、数字表面模型编码层和特征完善融合层,特征解码模块包括全局上下文层和特征渐进融合解码层;
遥感图像编码层和数字表面模型编码层均包括五个依次连接的卷积块,且五个卷积块采用了ResNet-50的网络架构;特征完善融合层包括四个依次连接的RFB块;全局上下文层包括四个GCM块,特征渐进融合解码层包括四个依次连接的MAD块;
步骤3:将训练集输入步骤2构建的卷积神经网络进行训练:
训练过程中,每次迭代训练处理得到每幅深度估计原始图像的深度预测图,计算每幅深度估计原始图像的深度预测图与深度估计标签图像构成的损失函数值,损失函数值采用均方差(MSE)损失函数获得;
步骤3:将训练集中每幅原始遥感图像和数字表面模型通过随机裁剪、随机旋转、水平翻转、垂直翻转的数据增强操作后作为原始输入图像输入到步骤2构建的卷积神经网络中进行训练,得到训练集中每幅原始的遥感图像对应的语义分割预测图;
步骤4:计算训练集中每幅原始遥感图像对应的语义分割预测图构成的集合与对应的真实语义分割图像采用独热编码技术处理后的6副独热编码图像构成的集合之间的损失函数值,损失函数值采用分类交叉熵获得;
步骤5:重复执行步骤3和步骤4共V次,得到卷积神经网络分类训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,完成卷积神经网络的训练;
步骤6:将待语义分割的遥感图像及对应的数字表面模型图像输入步骤5完成训练的卷积神经网络中,输出对应的语义分割图像,完成遥感图像的语义分割。
2.根据权利要求1所述的一种基于门控融合的遥感图像语义分割方法,其特征在于,输入模块包括遥感图像输入层和数字表面模型图像输入层;遥感图像输入层的输入为遥感图像,其中遥感图像由三通道组成,包括近红外、红色和绿色波段;数字表面模型图像输入层的输入为数字表面模型图像,数字表面模型图像为经过归一化处理为一通道的灰度图;
遥感图像经遥感图像输入层输入遥感图像编码层中的第一个卷积块,数字表面模型图像经特征完善融合层输入数字表面模型编码层中的第一个卷积块。
3.根据权利要求1所述的一种基于门控融合的遥感图像语义分割方法,其特征在于,
遥感图像编码层中的第二个卷积块、第三个卷积块、第四个卷积块和第五个卷积块的输出分别连接至第一个RFB块、第二个RFB块、第三个RFB块和第四个RFB块;数字表面模型编码层中的第二个卷积块、第三个卷积块、第四个卷积块和第五个卷积块的输出分别连接至第一个RFB块、第二个RFB块、第三个RFB块和第四个RFB块;
对于遥感图像编码层和数字表面模型编码层:第三个卷积块的输入由第二个卷积块输出和第一个RFB块输出相加得到,第四个卷积块的输入由第三个卷积块的输出和第二个RFB块的输出相加得到,第五个卷积块的输入由第三个卷积块的输出和第二个RFB块的输出相加得到;
第一个RFB块、第二个RFB块、第三个RFB块和第四个RFB块的输出分别输入第一个GCM块、第二个GCM块、第三个GCM块和第四个GCM块;第一个GCM块、第二个GCM块、第三个GCM块和第四个GCM块的输出分别输入第四个MAD块、第三个MAD块、第二个MAD块和第一个MAD块。
4.根据权利要求3所述的一种基于门控融合的遥感图像语义分割方法,其特征在于,每个RFB块包括四个门控单元、两个残差单元和一个深度可分离卷积;
对于第一个RFB块:
输入RFB块的两个卷积块经连接操作后分别输入第一门控单元和第二门控单元,第一门控单元和第二门控单元的输出分别和从遥感图像编码层和数字表面模型编码层输入的卷积块做像素级的点积操作后输出两个特征,并将两个特征做连接操作后经卷积层输入深度可分离卷积层;
对于第二个RFB块和第三个RFB块:
输入RFB块的两个卷积块经连接操作后分别输入第一门控单元和第二门控单元,第一门控单元和第二门控单元的输出分别和遥感图像编码层和数字表面模型编码层输入的卷积块做像素级的点积操作后输出两个特征,并将两个特征做连接操作后输入卷积层,卷积层的输出与前一个RFB块输入的特征经相加操作后输入深度可分离卷积层;
对于第一个、第二个和第三个RFB块:
深度可分离卷积层的输出记为RFB块的第一输出;深度可分离卷积层的输出分别输入第三门控单元和第四门控单元,数字表面模型编码层输入的卷积块经第一残差单元与第三门控单元的输出经点积操作后输出的特征图结合记为RFB块的第二输出,遥感图像编码层输入的卷积块经第二残差单元与第四门控单元的输出经点积操作后输出的特征图结合记为RFB块的第三输出;
RFB块的第二输出与输入RFB块的遥感图像编码层中的卷积块进行相加操作后输入到遥感图像编码层中下一个卷积块,RFB块的第三输出与输入RFB块的数字表面模型编码层中的卷积块进行相加操作后输入到数字表面模型编码层中下一个卷积块;
对于第四个RFB块:
输入RFB块的两个卷积块经连接操作后分别输入第一门控单元和第二门控单元,第一门控单元和第二门控单元的输出分别和遥感图像编码层和数字表面模型编码层输入的卷积块做像素级的点积操作后输出两个特征,并将两个特征做连接操作后输入卷积层,卷积层的输出与前一个RFB块输入的特征经相加操作后输入深度可分离卷积层,深度可分离卷积层的输出记为第四个RFB块的第一输出;
每个RFB块的第一输出分别输入对应的GCM块。
5.根据权利要求4所述的一种基于门控融合的遥感图像语义分割方法,其特征在于,
所述门控单元主要由第一卷积层、第一激活层、第二卷积层和第二激活层串联而成;门控单元中,第一激活层采用ReLU作为激活函数,第二激活层采用Sigmoid作为激活函数;
所述残差单元主要由主路径和跳跃路径组成,主路径由第一激活层、第一卷积层、第一归一化层串联而成,跳跃路径用于将输入残差单元的特征与经过主路径处理后的特征做像素级的相加操作后输出作为残差单元的输出;残差单元中,第一激活层和第一归一化层采用ReLU作为激活函数;
所述深度可分离卷积主要由第一卷积层和第二卷积层串联而成。
6.根据权利要求3所述的一种基于门控融合的遥感图像语义分割方法,其特征在于,
每个GCM块包括四个分支和第二卷积层,输入GCM块的特征图分别输入四个分支,四个分支的输出与输入GCM块的特征图经连接操作后输入第二卷积层,第二卷积层的输出为GCM模块的输出;
第一分支包括依次连接的自适应的平均池化层、第一卷积层、双线性插值层和第一空间注意力块;第二分支包括依次连接的第一空洞卷积层和第二空间注意力块;第三分支包括依次连接的第二空洞卷积层和第三空间注意力块;第四分支包括依次连接的第三空洞卷积层和第四空间注意力块;
第一空洞卷积层、第二空洞卷积层和第三空洞卷积层的空洞率分别为6、12、18。
7.根据权利要求6所述的一种基于门控融合的遥感图像语义分割方法,其特征在于,
所述空间注意力块包括最大池化层、平均池化层、第一卷积层和第一激活层,输入空间注意力块的特征图分别输入最大池化层和平均池化层取最大值和平均值,最大池化层和平均池化层的输出均输入第一卷积层后再输入第一激活层,第一激活层的输出与输入空间注意力块的特征图经相乘操作后再与第一激活层的输出进行相加操作后作为空间注意力块的输出输出。
8.根据权利要求3所述的一种基于门控融合的遥感图像语义分割方法,其特征在于,
第一个MAD块包括自我完善单元,第二个MAD块、第三个MAD块和第四个MAD块包括自我完善单元和逐层融合单元,自我完善单元的输入为GCM块处理后输入的特征图集合,逐层融合单元的输入为上一个MAD块处理后输入的特征图集合;
自我完善单元包括四个卷积层、特征变换层;自我完善单元的输入分别输入第一个卷积层、第二个卷积层和第三个卷积层得到三个特征图集合Fα、Fβ、Fγ,Fα、Fβ、Fγ的形状均为[c/4,h,w],三个卷积层的输入分别输入三个特征变换层,经特征变换层的矩阵压缩操作后,Fα、Fβ、Fγ的形状为[c/4,h×w]的二维矩阵;再对Fα进行矩阵装置层的矩阵装置操作后得到形状为[h×w,c/4]的二维矩阵,之后对Fα、Fβ进行矩阵乘法操作得到特征图集合Fδ,Fδ形状为[h×w,h×w]的二维矩阵;对Fδ进行Softmax归一化操作后与Fγ进行矩阵相乘操作得到特征图集合Fc,Fc形状为[h×w,c/4]的二维矩阵;特征图集合Fc依次经矩阵转置层的矩阵转置和特征变换层的维度扩展得到形状变为[c/4,h,w]的特征图集合,特征变换层的输出输入卷积核个数为c的第四个卷积层;
对于第一个MAD块:
第四个卷积层的输出与输入自我完善单元的特征图进行相加操作后输入线性差值层,经过线性差值层两倍的双线性插值操作后输入下一个MAD块;
对于第二个MAD块、第三个MAD块或第四个MAD块:
逐层融合单元接收上一个MAD块输出的特征图集合,与输入自我完善单元的特征图集合进行像素级的相乘操作,然后与第四个卷积层的输出和输入自我完善单元的特征图再进行像素级的相加操作后输入线性差值层,经过线性差值层两倍的双线性插值操作后作为MAD块的输出输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110553034.3A CN113269787A (zh) | 2021-05-20 | 2021-05-20 | 一种基于门控融合的遥感图像语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110553034.3A CN113269787A (zh) | 2021-05-20 | 2021-05-20 | 一种基于门控融合的遥感图像语义分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113269787A true CN113269787A (zh) | 2021-08-17 |
Family
ID=77232170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110553034.3A Withdrawn CN113269787A (zh) | 2021-05-20 | 2021-05-20 | 一种基于门控融合的遥感图像语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113269787A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183360A (zh) * | 2020-09-29 | 2021-01-05 | 上海交通大学 | 高分辨率遥感影像的轻量化语义分割方法 |
CN113554032A (zh) * | 2021-09-22 | 2021-10-26 | 南京信息工程大学 | 基于高度感知的多路并行网络的遥感图像分割方法 |
CN113822828A (zh) * | 2021-08-18 | 2021-12-21 | 吉林大学 | 一种多聚焦图像融合方法 |
CN113887499A (zh) * | 2021-10-21 | 2022-01-04 | 清华大学 | 一种沙丘图像识别模型及其创建方法和沙丘图像识别方法 |
CN114445442A (zh) * | 2022-01-28 | 2022-05-06 | 杭州电子科技大学 | 基于非对称交叉融合的多光谱图像语义分割方法 |
CN114842206A (zh) * | 2022-07-04 | 2022-08-02 | 江西师范大学 | 基于双层全局卷积的遥感图像语义分割模型及方法 |
CN115147279A (zh) * | 2022-07-05 | 2022-10-04 | 南京林业大学 | 基于选择性通道处理机制的轻量级遥感图像超分辨率方法 |
CN115546649A (zh) * | 2022-10-24 | 2022-12-30 | 中国矿业大学(北京) | 一种单视遥感影像高度估计和语义分割多任务预测方法 |
CN116805360A (zh) * | 2023-08-21 | 2023-09-26 | 江西师范大学 | 一种基于双流门控渐进优化网络的显著目标检测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170076438A1 (en) * | 2015-08-31 | 2017-03-16 | Cape Analytics, Inc. | Systems and methods for analyzing remote sensing imagery |
CN109934153A (zh) * | 2019-03-07 | 2019-06-25 | 张新长 | 基于门控深度残差优化网络的建筑物提取方法 |
CN111582104A (zh) * | 2020-04-28 | 2020-08-25 | 中国科学院空天信息创新研究院 | 一种遥感图像语义分割方法及装置 |
CN111797920A (zh) * | 2020-06-30 | 2020-10-20 | 武汉大学 | 门控特征融合的深度网络不透水面遥感提取方法及系统 |
CN112686903A (zh) * | 2020-12-07 | 2021-04-20 | 嘉兴职业技术学院 | 一种改进的高分辨率遥感图像语义分割模型 |
CN112766083A (zh) * | 2020-12-30 | 2021-05-07 | 中南民族大学 | 基于多尺度特征融合的遥感场景分类方法及系统 |
-
2021
- 2021-05-20 CN CN202110553034.3A patent/CN113269787A/zh not_active Withdrawn
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170076438A1 (en) * | 2015-08-31 | 2017-03-16 | Cape Analytics, Inc. | Systems and methods for analyzing remote sensing imagery |
CN109934153A (zh) * | 2019-03-07 | 2019-06-25 | 张新长 | 基于门控深度残差优化网络的建筑物提取方法 |
CN111582104A (zh) * | 2020-04-28 | 2020-08-25 | 中国科学院空天信息创新研究院 | 一种遥感图像语义分割方法及装置 |
CN111797920A (zh) * | 2020-06-30 | 2020-10-20 | 武汉大学 | 门控特征融合的深度网络不透水面遥感提取方法及系统 |
CN112686903A (zh) * | 2020-12-07 | 2021-04-20 | 嘉兴职业技术学院 | 一种改进的高分辨率遥感图像语义分割模型 |
CN112766083A (zh) * | 2020-12-30 | 2021-05-07 | 中南民族大学 | 基于多尺度特征融合的遥感场景分类方法及系统 |
Non-Patent Citations (1)
Title |
---|
许玥: "基于深度学习模型的遥感图像分割方法", 《计算机应用》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183360B (zh) * | 2020-09-29 | 2022-11-08 | 上海交通大学 | 高分辨率遥感影像的轻量化语义分割方法 |
CN112183360A (zh) * | 2020-09-29 | 2021-01-05 | 上海交通大学 | 高分辨率遥感影像的轻量化语义分割方法 |
CN113822828A (zh) * | 2021-08-18 | 2021-12-21 | 吉林大学 | 一种多聚焦图像融合方法 |
CN113554032A (zh) * | 2021-09-22 | 2021-10-26 | 南京信息工程大学 | 基于高度感知的多路并行网络的遥感图像分割方法 |
CN113554032B (zh) * | 2021-09-22 | 2021-12-14 | 南京信息工程大学 | 基于高度感知的多路并行网络的遥感图像分割方法 |
CN113887499A (zh) * | 2021-10-21 | 2022-01-04 | 清华大学 | 一种沙丘图像识别模型及其创建方法和沙丘图像识别方法 |
CN113887499B (zh) * | 2021-10-21 | 2022-11-18 | 清华大学 | 一种沙丘图像识别模型及其创建方法和沙丘图像识别方法 |
CN114445442A (zh) * | 2022-01-28 | 2022-05-06 | 杭州电子科技大学 | 基于非对称交叉融合的多光谱图像语义分割方法 |
CN114445442B (zh) * | 2022-01-28 | 2022-12-02 | 杭州电子科技大学 | 基于非对称交叉融合的多光谱图像语义分割方法 |
CN114842206A (zh) * | 2022-07-04 | 2022-08-02 | 江西师范大学 | 基于双层全局卷积的遥感图像语义分割模型及方法 |
CN115147279A (zh) * | 2022-07-05 | 2022-10-04 | 南京林业大学 | 基于选择性通道处理机制的轻量级遥感图像超分辨率方法 |
CN115147279B (zh) * | 2022-07-05 | 2023-04-07 | 南京林业大学 | 基于选择性通道处理机制的轻量级遥感图像超分辨率方法 |
CN115546649A (zh) * | 2022-10-24 | 2022-12-30 | 中国矿业大学(北京) | 一种单视遥感影像高度估计和语义分割多任务预测方法 |
CN115546649B (zh) * | 2022-10-24 | 2023-04-18 | 中国矿业大学(北京) | 一种单视遥感影像高度估计和语义分割多任务预测方法 |
CN116805360A (zh) * | 2023-08-21 | 2023-09-26 | 江西师范大学 | 一种基于双流门控渐进优化网络的显著目标检测方法 |
CN116805360B (zh) * | 2023-08-21 | 2023-12-05 | 江西师范大学 | 一种基于双流门控渐进优化网络的显著目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113269787A (zh) | 一种基于门控融合的遥感图像语义分割方法 | |
CN110111366B (zh) | 一种基于多级损失量的端到端光流估计方法 | |
CN110517329B (zh) | 一种基于语义分析的深度学习图像压缩方法 | |
CN109840556B (zh) | 一种基于孪生网络的图像分类识别方法 | |
CN111565318A (zh) | 一种基于稀疏样本的视频压缩方法 | |
CN109635662B (zh) | 一种基于卷积神经网络的道路场景语义分割方法 | |
CN110717411A (zh) | 一种基于深层特征融合的行人重识别方法 | |
CN110490205B (zh) | 基于全残差空洞卷积神经网络的道路场景语义分割方法 | |
CN112396607A (zh) | 一种可变形卷积融合增强的街景图像语义分割方法 | |
CN114663670A (zh) | 一种图像检测方法、装置、电子设备及存储介质 | |
CN116797787B (zh) | 基于跨模态融合与图神经网络的遥感影像语义分割方法 | |
CN112733693B (zh) | 一种全局感知高分辨率遥感影像多尺度残差道路提取方法 | |
CN113192073A (zh) | 基于交叉融合网络的服装语义分割方法 | |
CN110782458B (zh) | 一种非对称编码网络的物体图像3d语义预测分割方法 | |
CN112991364A (zh) | 基于卷积神经网络跨模态融合的道路场景语义分割方法 | |
CN109446933B (zh) | 一种基于卷积神经网络的道路场景语义分割方法 | |
CN113269224A (zh) | 一种场景图像分类方法、系统及存储介质 | |
CN115424051B (zh) | 一种全景拼接图像质量评价方法 | |
CN109508639B (zh) | 基于多尺度带孔卷积神经网络的道路场景语义分割方法 | |
CN114780767A (zh) | 一种基于深度卷积神经网络的大规模图像检索方法及系统 | |
Pham | Semantic road segmentation using deep learning | |
CN114419406A (zh) | 图像变化检测方法、训练方法、装置和计算机设备 | |
CN118097268A (zh) | 一种基于监控场景的长尾目标检测方法 | |
CN113096133A (zh) | 一种基于注意力机制的语义分割网络的构建方法 | |
Nguyen et al. | A novel multi-branch wavelet neural network for sparse representation based object classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210817 |
|
WW01 | Invention patent application withdrawn after publication |