CN113269787A - 一种基于门控融合的遥感图像语义分割方法 - Google Patents

一种基于门控融合的遥感图像语义分割方法 Download PDF

Info

Publication number
CN113269787A
CN113269787A CN202110553034.3A CN202110553034A CN113269787A CN 113269787 A CN113269787 A CN 113269787A CN 202110553034 A CN202110553034 A CN 202110553034A CN 113269787 A CN113269787 A CN 113269787A
Authority
CN
China
Prior art keywords
layer
block
convolution
input
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110553034.3A
Other languages
English (en)
Inventor
周武杰
金建会
叶绿
雷景生
万健
甘兴利
钱小鸿
许彩娥
强芳芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN202110553034.3A priority Critical patent/CN113269787A/zh
Publication of CN113269787A publication Critical patent/CN113269787A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于门控融合的遥感图像语义分割方法。选取Q幅原始遥感图像及每幅原始遥感图像对应的数字表面模型图像和真实语义分割图像作为训练集;构建卷积神经网络,卷积神经网络包括输入模块、特征编码模块、特征解码模块和输出模块;特征编码模块包括遥感图像编码层、数字表面模型编码层和特征完善融合层,特征解码模块包括全局上下文层和特征渐进融合解码层;将训练集输入构建的卷积神经网络进行训练;将待语义分割的遥感图像及对应的数字表面模型图像输入完成训练的卷积神经网络中,输出对应的语义分割图像,完成遥感图像的语义分割。本发明方法的分割效率高,且分割准确度高。

Description

一种基于门控融合的遥感图像语义分割方法
技术领域
本发明涉及一种深度学习的语义分割方法,尤其涉及一种基于门控融合的遥感图像语义分割方法。
背景技术
地理观测技术提供了大量的高空间分辨率的遥感图像,可以精细地描绘各种地理空间对象,如建筑、车辆和植被等,从遥感图像中自动提取感兴趣的对象,对城市管理、规划和监测等领域非常有帮助。地理空间对象分割作为对象提取的环节中的重要角色,可以是感兴趣的对象提供语义和位置信息,它属于一种特殊的语义分割任务,目标是为对象区域的每个像素分配一个统一的语义标签。目前,最常用的语义分割方法包括支持向量机、随机森林等算法。这些算法主要集中在二分类任务上,用于检测和识别特定物体,如道路表面、车辆和行人。这些传统的机器学习方法往往需要通过高复杂度的特征来实现,而使用深度学习来对交通场景进行语义分割简单方便,更重要的是,深度学习的应用极大地提高了图像像素级分类任务的精度。
采用深度学习的语义分割方法,直接进行像素级别端到端(end-to-end)的语义分割,其只需要将训练集中的图像输入进模型框架中训练,得到权重与模型,即可在测试集进行预测。卷积神经网络的强大之处在于它的多层结构能自动学习特征,并且可以学习到多个层次的特征。目前,基于深度学习语义分割的方法分为两种,第一种是编码-译码架构。编码过程通过池化层逐渐减少位置信息、抽取抽象特征;译码过程逐渐恢复位置信息。一般译码与编码间有直接的连接。第二种架构是带孔卷积(dilated convolutions),抛弃了池化层,通过带孔卷积的方式扩大感知域,较小值的带孔卷积感知域较小,学习到一些部分具体的特征;较大值的带孔卷积层具有较大的感知域,能够学习到更加抽象的特征,这些抽象的特征对物体的大小、位置和方向等鲁棒性更好。
现有的语义分割方法主要关注自然场景中的尺度变化,而没有充分考虑大面积遥感图片场景中通常发生的其他问题。
发明内容
为了解决背景技术中的问题,本发明提供了一种基于门控融合的遥感图像语义分割方法,其分割效率高,且分割准确度高。
本发明采用的技术方案如下:
一种基于门控融合的遥感图像语义分割方法包括以下步骤:
步骤1:选取Q幅原始遥感图像(IRRG)及每幅原始遥感图像对应的数字表面模型图像(DSM)和真实语义分割图像作为训练集。
步骤2:构建卷积神经网络:
所述卷积神经网络包括输入模块、特征编码模块、特征解码模块和输出模块;特征编码模块包括遥感图像编码层、数字表面模型编码层和特征完善融合层,特征解码模块包括全局上下文层和特征渐进融合解码层;
遥感图像编码层和数字表面模型编码层均包括五个依次连接的卷积块,且五个卷积块采用了ResNet-50的网络架构;特征完善融合层包括四个依次连接的RFB块;全局上下文层包括四个GCM块,特征渐进融合解码层包括四个依次连接的MAD块;
步骤3:将训练集输入步骤2构建的卷积神经网络进行训练:
训练过程中,每次迭代训练处理得到每幅深度估计原始图像的深度预测图,计算每幅深度估计原始图像的深度预测图与深度估计标签图像构成的损失函数值,损失函数值采用均方差(MSE)损失函数获得;
步骤3:将训练集中每幅原始遥感图像和数字表面模型通过随机裁剪、随机旋转、水平翻转、垂直翻转的数据增强操作后作为原始输入图像输入到步骤2构建的卷积神经网络中进行训练,得到训练集中每幅原始的遥感图像对应的语义分割预测图;
步骤4:计算训练集中每幅原始遥感图像对应的语义分割预测图构成的集合与对应的真实语义分割图像采用独热编码技术处理后的6副独热编码图像构成的集合之间的损失函数值,损失函数值采用分类交叉熵获得;
步骤5:重复执行步骤3和步骤4共V次,得到卷积神经网络分类训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,完成卷积神经网络的训练;
步骤6:将待语义分割的遥感图像及对应的数字表面模型图像输入步骤5完成训练的卷积神经网络中,输出对应的语义分割图像,完成遥感图像的语义分割。
输入模块包括遥感图像输入层和数字表面模型图像输入层;遥感图像输入层的输入为遥感图像,其中遥感图像由三通道组成,包括近红外(NIR)、红色(R)和绿色(G)波段;数字表面模型图像输入层的输入为数字表面模型图像,数字表面模型图像为经过归一化处理为一通道的灰度图;
遥感图像经遥感图像输入层输入遥感图像编码层中的第一个卷积块,数字表面模型图像经特征完善融合层输入数字表面模型编码层中的第一个卷积块。
遥感图像编码层中的第二个卷积块、第三个卷积块、第四个卷积块和第五个卷积块的输出分别连接至第一个RFB块、第二个RFB块、第三个RFB块和第四个RFB块;数字表面模型编码层中的第二个卷积块、第三个卷积块、第四个卷积块和第五个卷积块的输出分别连接至第一个RFB块、第二个RFB块、第三个RFB块和第四个RFB块;
对于遥感图像编码层和数字表面模型编码层:第三个卷积块的输入由第二个卷积块输出和第一个RFB块输出相加得到,第四个卷积块的输入由第三个卷积块的输出和第二个RFB块的输出相加得到,第五个卷积块的输入由第三个卷积块的输出和第二个RFB块的输出相加得到;
第一个RFB块、第二个RFB块、第三个RFB块和第四个RFB块的输出分别输入第一个GCM块、第二个GCM块、第三个GCM块和第四个GCM块;第一个GCM块、第二个GCM块、第三个GCM块和第四个GCM块的输出分别输入第四个MAD块、第三个MAD块、第二个MAD块和第一个MAD块。
每个RFB块包括四个门控单元、两个残差单元和一个深度可分离卷积;
对于第一个RFB块:
输入RFB块的两个卷积块经连接操作后分别输入第一门控单元和第二门控单元,第一门控单元和第二门控单元的输出分别和从遥感图像编码层和数字表面模型编码层输入的卷积块做像素级的点积操作后输出两个特征,并将两个特征做连接操作后经卷积层输入深度可分离卷积层;
对于第二个RFB块和第三个RFB块:
输入RFB块的两个卷积块经连接操作后分别输入第一门控单元和第二门控单元,第一门控单元和第二门控单元的输出分别和遥感图像编码层和数字表面模型编码层输入的卷积块做像素级的点积操作后输出两个特征,并将两个特征做连接操作后输入卷积层,卷积层的输出与前一个RFB块输入的特征经相加操作后输入深度可分离卷积层;
对于第一个、第二个和第三个RFB块:
深度可分离卷积层的输出记为RFB块的第一输出;深度可分离卷积层的输出分别输入第三门控单元和第四门控单元,数字表面模型编码层输入的卷积块经第一残差单元与第三门控单元的输出经点积操作后输出的特征图结合记为RFB块的第二输出,遥感图像编码层输入的卷积块经第二残差单元与第四门控单元的输出经点积操作后输出的特征图结合记为RFB块的第三输出;
RFB块的第二输出与输入RFB块的遥感图像编码层中的卷积块进行相加操作后输入到遥感图像编码层中下一个卷积块,RFB块的第三输出与输入RFB块的数字表面模型编码层中的卷积块进行相加操作后输入到数字表面模型编码层中下一个卷积块;
对于第四个RFB块:
输入RFB块的两个卷积块经连接操作后分别输入第一门控单元和第二门控单元,第一门控单元和第二门控单元的输出分别和遥感图像编码层和数字表面模型编码层输入的卷积块做像素级的点积操作后输出两个特征,并将两个特征做连接操作后输入卷积层,卷积层的输出与前一个RFB块输入的特征经相加操作后输入深度可分离卷积层,深度可分离卷积层的输出记为第四个RFB块的第一输出;
每个RFB块的第一输出分别输入对应的GCM块。
所述门控单元主要由第一卷积层、第一激活层、第二卷积层和第二激活层串联而成;门控单元中,第一激活层采用ReLU作为激活函数,第二激活层采用Sigmoid作为激活函数;
所述残差单元主要由主路径和跳跃路径组成,主路径由第一激活层、第一卷积层、第一归一化层串联而成,跳跃路径用于将输入残差单元的特征与经过主路径处理后的特征做像素级的相加操作后输出作为残差单元的输出;残差单元中,第一激活层和第一归一化层采用ReLU作为激活函数;
所述深度可分离卷积主要由第一卷积层和第二卷积层串联而成。
每个GCM块包括四个分支和第二卷积层,输入GCM块的特征图分别输入四个分支,四个分支的输出与输入GCM块的特征图经连接操作后输入第二卷积层,第二卷积层的输出为GCM模块的输出;
第一分支包括依次连接的自适应的平均池化层、第一卷积层、双线性插值层和第一空间注意力块;第二分支包括依次连接的第一空洞卷积层和第二空间注意力块;第三分支包括依次连接的第二空洞卷积层和第三空间注意力块;第四分支包括依次连接的第三空洞卷积层和第四空间注意力块;
第一空洞卷积层、第二空洞卷积层和第三空洞卷积层的空洞率分别为6、12、18。
所述空间注意力块包括最大池化层、平均池化层、第一卷积层和第一激活层,输入空间注意力块的特征图分别输入最大池化层和平均池化层取最大值和平均值,最大池化层和平均池化层的输出均输入第一卷积层后再输入第一激活层,第一激活层的输出与输入空间注意力块的特征图经相乘操作后再与第一激活层的输出进行相加操作后作为空间注意力块的输出输出。
第一个MAD块包括自我完善单元,第二个MAD块、第三个MAD块和第四个MAD块包括自我完善单元和逐层融合单元,自我完善单元的输入为GCM块处理后输入的特征图集合,逐层融合单元的输入为上一个MAD块处理后输入的特征图集合;
自我完善单元包括四个卷积层、特征变换层;自我完善单元的输入分别输入第一个卷积层、第二个卷积层和第三个卷积层得到三个特征图集合Fα、Fβ、Fγ,Fα、Fβ、Fγ的形状均为[c/4,h,w],三个卷积层的输入分别输入三个特征变换层,经特征变换层的矩阵压缩操作后,Fα、Fβ、Fγ的形状为[c/4,h×w]的二维矩阵;再对Fα进行矩阵装置层的矩阵装置操作后得到形状为[h×w,c/4]的二维矩阵,之后对Fα、Fβ进行矩阵乘法操作得到特征图集合Fδ,Fδ形状为[h×w,h×w]的二维矩阵;对Fδ进行Softmax归一化操作后与Fγ进行矩阵相乘操作得到特征图集合Fc,Fc形状为[h×w,c/4]的二维矩阵;特征图集合Fc依次经矩阵转置层的矩阵转置和特征变换层的维度扩展得到形状变为[c/4,h,w]的特征图集合,特征变换层的输出输入卷积核个数为c的第四个卷积层;
对于第一个MAD块:
第四个卷积层的输出与输入自我完善单元的特征图进行相加操作后输入线性差值层,经过线性差值层两倍的双线性插值操作后输入下一个MAD块;
对于第二个MAD块、第三个MAD块或第四个MAD块:
逐层融合单元接收上一个MAD块输出的特征图集合,与输入自我完善单元的特征图集合进行像素级的相乘操作,然后与第四个卷积层的输出和输入自我完善单元的特征图再进行像素级的相加操作后输入线性差值层,经过线性差值层两倍的双线性插值操作后作为MAD块的输出输出。
输出模块主要由第一卷积层、第一激活层、第一反卷积层、第二激活层、第二卷积层、第三激活层、第二反卷积层、第四激活层和第三卷积层依次连接组成;
其中,输入输出模块的特征图为第四个MAD块的输出,第四个MAD块输出的每幅特征图的宽度均为
Figure BDA0003075982560000051
高度均为
Figure BDA0003075982560000052
其中,第一卷积层、第二卷积层第三卷积层的卷积核个数分别为128、64和6,第一反卷积层和第二反卷积层的卷积核个数分别为128和64;所有激活层采用ReLU作为激活函数。
其中,输出模块输出的语义分割预测图为6通道。
本发明的有益效果:
1)本发明方法构建了一种卷积神经网络,通过将训练集中的遥感图像裁剪成256×256分辨率的训练图像输入到卷积神经网络中进行训练,得到卷积神经网络语义分割预测模型;在预测阶段通过滑动窗口的方式将待语义分割的遥感图像输入到卷积神经网络语义分割预测模型中,预测得到滑动窗口所裁剪下来的遥感图像对应的预测语义分割图像;最后将预测得到语义分割图像拼接成原始遥感图像大小,由于窗口滑动的步长要小于窗口的大小,所以在拼接过程中对图像重复区域取平均值,从而得到最终的预测语义分割图像。由于本发明在构建卷积神经网络的过程中考虑了全局上下文信息对分割效果的影响,通过将全局上下文信息同高级语义信息和低级细节信息相互结合,从而有效地提高了遥感图像的语义分割精确度。
2)本发明方法提出了针对遥感图像中物体尺度变化问题的全局上下文模块(GCM),可以在不牺牲特征空间分辨率的同时扩大特征感受野,并运用注意力机制,加强了GCM捕捉所有空间位置之间的远程语义依赖关系的能力。
3)本发明方法在特征解码部分提出了特征渐进融合解码,通过计算任意两个位置之间的相似度直接建立起远程连接,从而完善出更多的细节特征以弥补图像在编码过程中下采样时丢失的细节特征。
附图说明
图1为本发明方法的总体实现框图;
图2a为RFB特征完善融合模块;
图2b为RFB1特征完善融合模块;
图2c为RFB4特征完善融合模块;
图2d为GCM全局上下文模块;
图2e为GCM中的空间注意力模块;
图2f为MAD特征渐进融合解码器;
图2g为MAD1特征渐进融合解码器;
图2h为输出层;
图3a为Vaihingen数据集的第1幅原始的遥感图像;
图3b为利用本发明方法对图3a所示的原始的遥感图像进行预测,得到的预测语义分割图像;
图4a为Vaihingen数据集的第2幅原始的遥感图像;
图4b为利用本发明方法对图4a所示的原始的遥感图像进行预测,得到的预测语义分割图像;
图5a为Potsdam数据集的第1幅原始的道路场景图像;
图5b为利用本发明方法对图5a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;
图6a为Potsdam数据集的第2幅原始的道路场景图像;
图6b为利用本发明方法对图6a所示的原始的遥感图像进行预测,得到的预测语义分割图像。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细说明。
本发明提出的一种基于门控融合的遥感图像语义分割方法,其总体实现框图如图1所示,其包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:在此,原始的遥感图像直接选用遥感图像数据库Vaihingen和Potsdam中的图像。选取Q幅原始的遥感图像及每幅原始的遥感图像对应的数字表面模型图像(DSM)和真实语义分割图像,并按照256×256分辨率对它们进行裁剪构成训练集,将Vaihingen训练集中的第q幅原始的遥感图像记为
Figure BDA0003075982560000071
将Potsdam训练集中的的第q幅原始的遥感图像记为
Figure BDA0003075982560000072
将Vaihingen训练集中与
Figure BDA0003075982560000073
对应的真实语义分割图像记为
Figure BDA0003075982560000074
将Potsdam训练集中与
Figure BDA0003075982560000075
对应的真实语义分割图像记为
Figure BDA0003075982560000076
然后采用现有的独热编码技术(one-hot)将Vaihingen训练集和Potsdam训练集中每幅原始的遥感图像对应的真实语义分割图像处理成6副独热编码图像,将
Figure BDA0003075982560000077
处理成的6副独热编码图像构成的集合记为其中
Figure BDA0003075982560000078
Figure BDA0003075982560000079
处理成的6副独热编码图像构成的集合记为其中
Figure BDA00030759825600000710
其中,遥感图像为IRRG彩色图像,Q为正整数,Q≥17656,如取Q=20000,q为正整数,W表示
Figure BDA00030759825600000711
Figure BDA00030759825600000712
的宽度,H表示
Figure BDA00030759825600000713
Figure BDA00030759825600000714
的高度,如取W=256、H=256
Figure BDA00030759825600000715
表示
Figure BDA00030759825600000716
中坐标位置为(i,j)的像素点的像素值,
Figure BDA00030759825600000717
表示
Figure BDA00030759825600000718
中坐标位置为(i,j)的像素点的像素值。
步骤1_2:构建卷积神经网络:
本发明所搭建的卷积神经网络主要由两个部分构成,分别为自下而上的特征编码过程和自上而下的特征解码过程。
由于本发明所采用的是遥感图像数据集是Vaihingen和Potsdam,每个样本包括遥感图像和其对应的数字表面模型图像(DSM),其中遥感图像由三个通道组成,包括近红外(NIR)、红色(R)和绿色(G)波段;数字表面模型为已经过归一化处理为一通道的灰度图,并且每个像素点都代表了对应图像地表信息的高程。因此在特征编码部分,本发明采用了两个组成部分基本一致的编码层,遥感图像编码层和数字表面模型编码层。每个编码层均包含采用ResNet-50的网络架构的第1个卷积块、第2个卷积块、第3个卷积块、第4个卷积块和第5个卷积块;并且特征编码部分还包含4个特征完善融合块RFB1、RFB2、RFB3、RFB4
特征解码模块分为上下文信息处理单元(包含4个GCM模块,分别是GCM1、GCM2、GCM3、GCM4)和特征渐进融合解码单元(包含4个MAD模块,分别是MAD1、MAD2、MAD3、MAD4)。
网络的输入是已经经过数据处理的遥感图像数据集中的每一张图像和与其相对应的数字表面模型图像(图片的宽度和高度分别为W=256,H=256,遥感图像通道为近红外(IR)通道、红色(R)通道、绿色(G)通道;数字表面模型图像为1通道的灰度图)。
对于遥感图像编码层的第1个卷积块由第一卷积层(Convolution,Conv)、第一归一化层(BatchNorm,BN)、第一激活层(Activation,Act)构成;第1个卷积块的输入端接收的原始输入图像的3通道分量分别为IR通道、R通道、G通道,第1个卷积块的输出端输出64副特征图。其中第一卷积层采用卷积核个数为64,卷积核(kernel_size)为7,步长(stride)为2,补零(padding)为3的配置;第一归一化层的输入端接收来自第一卷积层输出的64副特征图;第一激活层采用修正线性单元——ReLU作为激活方式。对于数字表面模型编码层的第1个卷积块的输入端接收的原始输入图像的1通道分量,其余组成部分皆于遥感图像编码层相同。将遥感图像编码层第1个卷积块输出的64副特征图集合记为R1,将第1个卷积块输出的64副特征图集合记为D1,R1和D1中的每幅特征图的宽度均为
Figure BDA0003075982560000081
高度均为
Figure BDA0003075982560000082
对于遥感图像编码层和数字表面模型编码层的第2个卷积块由第一最大池化层和三个残差单元串联构成。第一最大池化层采用池化核(kernel_size)为3,步长(stride)为2,补零(padding)为1的配置。第一最大池化层接收来自第1个卷积块的64副特征图,并输出64副特征图且每幅特征图的宽度均为
Figure BDA0003075982560000083
高度均为
Figure BDA0003075982560000084
每个残差单元依次由主路径和跳跃路径组成,主路径由第一卷积层、第一归一化层、第一激活层、第二卷积层、第二归一化层、第二激活层、第三卷积层、第三归一化层、第三激活函数层串联而成。其中,第1个残差单元的第一卷积层的配置为:卷积核为1,卷积核个数为64,步长为1,补零为0;第二卷积层的配置为:卷积核为3,卷积核个数为64,步长为1,补零为1;第三卷积层的配置为:卷积核为1,卷积核个数为256,步长为1,补零为0。由于第一个残差单元输出256副特征图,所以第1个残差单元的跳远路径由第四卷积层、第四归一化层组成。其中,第四卷积层的配置为:卷积核为1,卷积核个数为256,步长为1,补零为0。第1个残差单元接收来自第一最大池化层的64副特征图,这64副特征图分别经过第一个残差单元的主路径和跳跃路径并进行像素级的相加操作后输出。剩余残差单元里所有卷积层的第一卷积层的卷积核个数均为64,第二卷积层卷积核个数为64,第三卷积层卷积核个数为256,其余相应的参数配置与第1个残差单元基本一致并且跳跃路径无任何操作,最后的操作都是将主路径输出的特征图和跳跃路径输出的特征图进行像素级的相加操作并输出。将遥感图像编码层第2个卷积块输出的256副特征图集合记为R2,将数字表面模型编码层第2个卷积块输出的256副特征图集合记为D2,R2和D2中的每幅特征图的宽度均为
Figure BDA0003075982560000091
高度均为
Figure BDA0003075982560000092
对于遥感图像编码层和数字表面模型编码层的第3个卷积块,操作与第2个卷积块大致相同。不同之处是第3个卷积块里残差单元的个数为4个,并且第1个残差单元的第一卷积层的卷积核个数为输入特征图数量的一半即为128个,第二卷积层的卷积核个数为128,第三卷积层的卷积核个数为512个。第3个卷积块输出512副特征图。将遥感图像编码层第3个卷积块输出的512副特征图集合记为R3,将数字表面模型编码层第3个卷积块输出的512副特征图集合记为D3,R3和D3中的每幅特征图的宽度均为
Figure BDA0003075982560000093
高度均为
Figure BDA0003075982560000094
对于遥感图像编码层和数字表面模型编码层的第4个卷积块、第5个卷积块,操作与第3个卷积块基本相同。第4个卷积块包含6个残差单元,最终输出特征图的数量为1024,将遥感图像编码层第4个卷积块输出的1024副特征图集合记为R4,将数字表面模型编码层第4个卷积块输出的1024副特征图集合记为D4,R4和D4中的每幅特征图的宽度均为
Figure BDA0003075982560000095
高度均为
Figure BDA0003075982560000096
第5个卷积块里残差单元的数量为3个,最终输出特征图数量为2048,将遥感图像编码层第5个卷积块输出的2048副特征图集合记为R5,将数字表面模型编码层第5个卷积块输出的2048副特征图集合记为D5,R5和D5中的每幅特征图的宽度均为
Figure BDA0003075982560000097
高度均为
Figure BDA0003075982560000098
如图2a和2b所示,对于遥感图像编码层的第2个卷积块和数字表面模型编码层的第2个卷积块之间的特征完善融合块(RFB1)由4个门控单元(分别为第一门控单元、第二门控单元、第三门控单元、第四门控单元)、2个残差单元和1个深度可分离卷积组成。其中所有的门控单元由第一卷积层、第一激活层、第二卷积层、第二激活层串联而成。第一卷积层的配置为:卷积核为1,卷积核个数为16,步长为1,补零为0。第一激活层采用ReLU作为激活函数。第二卷积层的配置为:卷积核为1,卷积核个数为1,步长为1,补零为0。第二激活层采用Sigmoid作为激活函数。残差单元由主路径和跳跃路径组成,主路径由第一激活层、第一卷积层、第一归一化层串联而成。第一激活层采用ReLU作为激活函数,第一归一化层选用ReLU激活函数;第一卷积层的配置为:卷积核为3,卷积核个数为256,步长为1,补零为0。跳跃路径不做任何操作直接将输入特征图与经过主路径处理后特征做像素级的相加操作。深度可分离卷积由第一卷积层和第二卷积层串联而成。其中第一卷积层的配置为:卷积核为3,卷积核个数为256,步长为1,补零为1,分组(groups)为256;第二卷积层的配置为:卷积核为1,卷积核个数为256,步长为1,补零为0。对于输入RFB1的特征图集合R2和D2先做连接操作(Concatenate),并行的经过第一门控单元和第二门控单元,输出的特征分别和R2和D2做像素级的点积操作并做连接操作,之后送入一个配置为:卷积核为3,卷积核个数为256,步长为1,补零为1的卷积层。因为是第一层RFB,所以卷积层输出的特征图不做任何操作,直接送入深度可分离卷积进行处理。处理之后的特征图集合记为F1out。F1out并行地经过第三门控单元和第四门控单元。R2和D2分别经过残差单元处理后和第三门控单元和第四门控单元输出的特征图做像素级的点积操作输出的特征图结合分别记为R1out和D1out。最终RFB1输出F1out、R1out和D1out。遥感图像编码层和数字表面模型编码层的第2个卷积块输出的特征图集合R2和D2分别和R1out、D1out进行像素级的相加操作并输入到遥感图像编码层和数字表面模型编码层的第3个卷积块,即遥感图像编码层的第3个卷积块的输入为R2+R1out,数字表面模型编码层为D2+D1out。F1out作为一个输入送入到RFB2
对于遥感图像编码层的第3个卷积块和数字表面模型编码层的第3个卷积块之间的特征完善融合块(RFB2)由4个门控单元(分别为第一门控单元、第二门控单元、第三门控单元、第四门控单元)、2个残差单元、1个卷积层和1个深度可分离卷积组成。其中所有的门控单元由第一卷积层、第一激活层、第二卷积层、第二激活层串联而成。第一卷积层的配置为:卷积核为1,卷积核个数为32,步长为1,补零为0。第一激活层采用ReLU作为激活函数。第二卷积层的配置为:卷积核为1,卷积核个数为1,步长为1,补零为0。第二激活层采用Sigmoid作为激活函数。残差单元由主路径和跳跃路径组成,主路径由第一激活层、第一卷积层、第一归一化层串联而成。第一归一化层选用ReLU激活函数;第一卷积层的配置为:卷积核为3,卷积核个数为512,步长为1,补零为0。跳跃路径不做任何操作直接将输入特征图与经过主路径处理后特征做像素级的相加操作。深度可分离卷积由第一卷积层和第二卷积层串联而成。其中第一卷积层的配置为:卷积核为3,卷积核个数为512,步长为1,补零为1,分组(groups)为512;第二卷积层的配置为:卷积核为1,卷积核个数为512,步长为1,补零为0。对于输入RFB2的特征图集合R3和D3先做连接操作(Concatenate),并行的经过第一门控单元和第二门控单元,输出的特征分别和R3和D3做像素级的点积操作并做连接操作,之后送入一个配置为:卷积核为3,卷积核个数为512,步长为1,补零为1的卷积层,再然后和RFB1输入RFB2的特征图集合F1out做像素级的相加操作,最终输入到深度可分离卷积进行处理。处理之后的特征图集合记为F2out。F2out并行地经过第三门控单元和第四门控单元。R3和D3分别经过残差单元处理后和第三门控单元和第四门控单元输出的特征图做像素级的点积操作输出的特征图结合分别记为R2out和D2out。最终RFB2输出F2out、R2out和D2out。遥感图像编码层和数字表面模型编码层的第3个卷积块输出的特征图集合R3和D3分别和R2out、D2out进行像素级的相加操作并输入到遥感图像编码层和数字表面模型编码层的第4个卷积块,即遥感图像编码层的第4个卷积块的输入为R3+R2out,数字表面模型编码层为D3+D2out。F2out作为一个输入送入到RFB3
对于遥感图像编码层的第4个卷积块和数字表面模型编码层的第4个卷积块之间的特征完善融合块(RFB3)和第3个卷积块之间的特征完善融合块(RFB2)操作基本相同。RFB3中门控单元第一卷积层的卷积核个数为64,其余卷积层的卷积核个数与均为1024。记RFB3输出特征图的集合为R3out、D3out和F3out
如图2a和2c所示,对于遥感图像编码层第5个卷积块和数字表面模型编码层的第10个卷积块之间的特征完善融合块(RFB5)由2个门控单元(分别为第一门控单元、第二门控单元)、1个卷积层和1个深度可分离卷积组成。其中所有的门控单元由第一卷积层、第一激活层、第二卷积层、第二激活层串联而成。第一卷积层的配置为:卷积核为1,卷积核个数为128,步长为1,补零为0。第一激活层采用ReLU作为激活函数。第二卷积层的配置为:卷积核为1,卷积核个数为1,步长为1,补零为0。第二激活层采用Sigmoid作为激活函数。深度可分离卷积由第一卷积层和第二卷积层串联而成。其中第一卷积层的配置为:卷积核为3,卷积核个数为2048,步长为1,补零为1,分组(groups)为2048;第二卷积层的配置为:卷积核为1,卷积核个数为2048,步长为1,补零为0。对于输入RFB4的特征图集合R5和D5先做连接操作(Concatenate),并行的经过第一门控单元和第二门控单元,输出的特征分别和R5和D5做像素级的点积操作并做连接操作,之后送入一个配置为:卷积核为3,卷积核个数为2048,步长为1,补零为1的卷积层,再然后和RFB3输入RFB4的特征图集合F3out做像素级的相加操作,最终输入到深度可分离卷积进行处理。处理之后的特征图集合记为F4out。因为是最后一层RFB,所以RFB4直接输出F4out
如图2d所示,对于专门针对遥感图像中尺度变化过大所提出的GCM模块,该模块一共有四个分支,其中第一分支由自适应的全局平均池化、第一卷积层、双线性插值和第一空间注意力模块串联而成,其余分支由不同空洞率(空洞率分别为6,12,18)的空洞卷积和空间注意力模块(分别为第二空间注意力、第三空间注意力、第四空间注意力)串联而成。同时为了减少通道数过多而产生计算量过大的问题,每个分支的卷积层只有空洞率不同其余配置均为:卷积核为3,卷积核个数为256,步长为1。四个分支的输出与输入GCM块的特征图经连接操作后输入第二卷积层,第二卷积层的输出为GCM模块的输出;其中,第二卷积层的配置为:卷积核为1,卷积核个数为256,步长为1,补零为0。
如图2e所示,GCM中的空间注意力模块是在通道维度上对特征图取最大值和平均值,并将它们连接在一起从而变成了所有像素点平均值和最大值的两张特征图。将这两张特征图送入一个卷积核为3、卷积核个数为1的卷积层进行处理,再经过sigmoid函数激活从而得到一张权重特征图,每个像素点的值都是相应像素点的权重,最后和原始特征图相乘并进行像素级的相加操作,从而建立起所有空间位置之间的远程语义依赖关系。四个GCM模块(GCM1、GCM2、GCM3、GCM4)接收相对应的四个RFB模块(RFB1、RFB2、RFB3、RFB4)的输出特征图集合(F1out、F2out、F3out、F4out),对其进行处理之后输出相对应的特征图集合,记GCM1输出的特征图集合为
Figure BDA0003075982560000131
集合中每幅特征图的宽度均为
Figure BDA0003075982560000132
高度均为
Figure BDA0003075982560000133
GCM2输出的特征图集合为
Figure BDA0003075982560000134
集合中每幅特征图的宽度均为
Figure BDA0003075982560000135
高度均为
Figure BDA0003075982560000136
GCM3输出的特征图集合为
Figure BDA0003075982560000137
集合中每幅特征图的宽度均为
Figure BDA0003075982560000138
高度均为
Figure BDA0003075982560000139
GCM4输出的特征图集合为
Figure BDA00030759825600001310
集合中每幅特征图的宽度均为
Figure BDA00030759825600001311
高度均为
Figure BDA00030759825600001312
如图2f和图2g所示,对于特征解码阶段的特征渐进融合解码(MAD),其作用是接收来自GCM模块处理后的特征图,并对特征图做进一步的细化,通过计算任意两个位置之间的相似度直接建立起远程连接,从而完善出更多的细节特征。再接收来自之间MAD完善后的特征,提取出两个特征图集合之间的共性以此来逐步细化完善特征。除了MAD1其余每个MAD模块可分为自我完善和逐层融合两部分,MAD1只有自我完善单元。对于自我完善单元来说,记输入特征图集合为Fin,形状为[c,h,w](c为通道数即特征图集合Fin中图片的个数,h和w分别为Fin中每张图片的高度和宽度)。首先Fin并行地经过三个配置为:卷积核为1,卷积核个数为c/4,步长为1,补零为0的三个卷积层(分别为第一卷积层,第二卷积层,第三卷积层)。记第一卷积层得到的特征图集合为Fα;第二卷积层得到的特征图集合为Fβ;第三卷积层得到的特征图集合为Fγ。对于Fα、Fβ、Fγ来说,形状都为[c/4,h,w]。先对Fα、Fβ和Fγ在h,w两个维度上进行矩阵压缩操作,即将h,w两个维度压缩为h×w一个维度,此时Fα、Fβ和Fγ的形状为[c/4,h×w]的二维矩阵。对Fα进行矩阵转置即得到形状为[h×w,c/4]的二维矩阵,之后对Fa和Fβ进行矩阵乘法操作即可得到形状为[h×w,h×w]的二维矩阵,记为Fδ。对Fδ进行Softmax归一化操作和Fγ进行矩阵相乘操作得到形状为[h×w,c/4]的二维矩阵,记为Fc。对Fc进行矩阵转置和维度扩展变为形状为[c/4,h,w]的特征图集合。经过一个卷积核为1,卷积核个数为c,步长为1,补零为0的第四卷积层处理和输入特征图Fin进行像素级的相加操作。对于MAD1来说直接进行两倍的双线性插值操作,把特征图扩展为原始特征的2倍大小,然后输入到下一个MAD模块,记为Fout。对于其余MAD模块来说,还有一个逐层融合单元。逐层融合单元接收上一层MAD输出的特征图集合,与原始输入MAD的特征图集合Fin进行像素级的相乘操作,然后和Fout进行像素级的相加操作,最后进行双线性插值操作,将特征图集合里的每幅特征图扩展为原始图像的两倍,输入到下一个MAD模块。
如图2h所示,对于最后一个MAD模块(MAD4)输出的特征图集合里每幅特征图的宽度均为
Figure BDA0003075982560000141
高度均为
Figure BDA0003075982560000142
根据端到端的思想,要求输出特征图和输入特征图保持一致大小,所以还需要对MAD1输出的特征图集合进一步的扩大。本发明在这里采用了反卷积的方式,构建了一个特征输出块主要由第一卷积层、第一激活层、第一反卷积层、第二激活层、第二卷积层、第三激活层、第二反卷积层、第四激活层和第三卷积层串联而成。其中第一卷积层、第二卷积层第三卷积层的卷积核个数分别为128、64和6,其余配置均为卷积核为1,步长为1,补零为0。第一反卷积层和第二反卷积层的卷积核个数分别为128和64,其余配置均为卷积核为2,步长为2。所有的激活层都采用修正线性单元(ReLU)作为激活方式。最后输出为6通道的预测图。
步骤1_3:将训练集中的每幅原始的遥感图像和数字表面模型通过滑动窗口裁剪、随机裁剪、随机旋转、水平翻转、垂直翻转等数据增强方式后作为原始输入图像,其中Vaihingen训练集的11幅平均分辨率为2493×2063的遥感图像经过数据增强后扩展成17656张分辨率为256×256的遥感图像,Potsdam训练集的17幅平均分辨率为6000×6000的遥感图像数据增强后扩展成35972张分辨率为256×256的遥感图像。将两个训练集的原始输入图像分别输入到卷积神经网络中进行训练,得到训练集中的每幅遥感图像对应的语义分割预测图,将
Figure BDA0003075982560000151
对应的语义分割预测图构成的集合记为
Figure BDA0003075982560000152
Figure BDA0003075982560000153
对应的语义分割预测图构成的集合记为
Figure BDA0003075982560000154
步骤1_4:计算训练集中的每幅原始的遥感图像对应的语义分割预测图构成的集合与对应的真实语义分割图像处理成的独热编码图像构成的集合之间的损失函数值,将
Figure BDA0003075982560000155
Figure BDA0003075982560000156
之间的损失函数值记为
Figure BDA0003075982560000157
Figure BDA0003075982560000158
Figure BDA0003075982560000159
之间的损失函数值记为
Figure BDA00030759825600001510
Figure BDA00030759825600001511
采用分类交叉熵(categorical crossentropy)获得。
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络分类训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1,在本实施例中取V=100。
所述的测试阶段过程的具体步骤为:
步骤2_1:令
Figure BDA00030759825600001512
表示待语义分割的遥感图像;其中,1≤i'≤W',1≤j'≤H',W'表示
Figure BDA00030759825600001513
的宽度,H'表示
Figure BDA00030759825600001514
的高度,
Figure BDA00030759825600001515
表示
Figure BDA00030759825600001516
中坐标位置为(i,j)的像素点的像素值。
步骤2_2:将
Figure BDA00030759825600001517
的IR通道分量、R通道分量和G通道分量及其相对应的数字表明模型输入到卷积神经网络分类训练模型中,并利用Wbest和bbest进行预测,得到
Figure BDA00030759825600001518
对应的预测语义分割图像,记为
Figure BDA00030759825600001519
其中,
Figure BDA00030759825600001520
表示
Figure BDA00030759825600001521
中坐标位置为(i',j')的像素点的像素值。
为了进一步验证本发明方法的可行性和有效性,进行实验。
使用基于python的深度学习库pytorch1.6搭建多尺度带孔卷积神经网络的架构。采用遥感图像数据库Vaihingen测试集和Potsdam来分析利用本发明方法预测得到的遥感图像(Vaihingen数据集取5幅遥感图像,图像Potsdam数据集取7副遥感图像)的分割效果如何。这里,利用评估语义分割方法的4个常用客观参量作为评价指标,即类别精确度(ClassAcurracy,Acc)、平均类别准确率(Mean Class Acurracy,mAcc)、每个类别分割图像与标签图像交集与并集的比值(Intersection over Union,IoU),分割图像与标签图像交集与并集的平均比值(Mean Intersection over Union,MIoU)来评价预测语义分割图像的分割性能。
利用本发明方法对遥感图像数据库Vaihingen和Potsdam测试集中的每幅遥感图像进行预测,得到每幅遥感图像对应的预测语义分割图像,反映本发明方法的语义分割效果的类精确度Acc、平均类别准确率mAcc、每个类别分割图像与标签图像交集与并集的比值IoU、分割图像与标签图像交集与并集的平均比值MIoU如表1和表2所列。从表1和表2所列的数据可知,按本发明方法得到的遥感图像的分割结果是较好的,表明利用本发明方法来获取遥感图像对应的预测语义分割图像是可行性且有效的。
表1利用本发明方法在Vaihingen测试集上的评测结果
Figure BDA0003075982560000161
表2利用本发明方法在Potsdam测试集上的评测结果
Figure BDA0003075982560000162
图3a给出了Vaihingen数据集的第1幅原始的遥感图像;图3b给出了利用本发明方法对图3a所示的原始的遥感图像进行预测,得到的预测语义分割图像;图4a给出了Vaihingen数据集的第2幅原始的遥感图像;图4b给出了利用本发明方法对图4a所示的原始的遥感图像进行预测,得到的预测语义分割图像;图5a给出了Potsdam数据集的第1幅原始的道路场景图像;图5b给出了利用本发明方法对图5a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;图6a给出了Potsdam数据集的第2幅原始的道路场景图像;图6b给出了利用本发明方法对图6a所示的原始的遥感图像进行预测,得到的预测语义分割图像。对比图3a和图3b,对比图4a和图4b,对比图5a和图5b,对比图6a和图6b,可以看出利用本发明方法得到的预测语义分割图像的分割精度较高。

Claims (9)

1.一种基于门控融合的遥感图像语义分割方法,其特征在于,包括以下步骤:
步骤1:选取Q幅原始遥感图像及每幅原始遥感图像对应的数字表面模型图像和真实语义分割图像作为训练集;
步骤2:构建卷积神经网络:
所述卷积神经网络包括输入模块、特征编码模块、特征解码模块和输出模块;特征编码模块包括遥感图像编码层、数字表面模型编码层和特征完善融合层,特征解码模块包括全局上下文层和特征渐进融合解码层;
遥感图像编码层和数字表面模型编码层均包括五个依次连接的卷积块,且五个卷积块采用了ResNet-50的网络架构;特征完善融合层包括四个依次连接的RFB块;全局上下文层包括四个GCM块,特征渐进融合解码层包括四个依次连接的MAD块;
步骤3:将训练集输入步骤2构建的卷积神经网络进行训练:
训练过程中,每次迭代训练处理得到每幅深度估计原始图像的深度预测图,计算每幅深度估计原始图像的深度预测图与深度估计标签图像构成的损失函数值,损失函数值采用均方差(MSE)损失函数获得;
步骤3:将训练集中每幅原始遥感图像和数字表面模型通过随机裁剪、随机旋转、水平翻转、垂直翻转的数据增强操作后作为原始输入图像输入到步骤2构建的卷积神经网络中进行训练,得到训练集中每幅原始的遥感图像对应的语义分割预测图;
步骤4:计算训练集中每幅原始遥感图像对应的语义分割预测图构成的集合与对应的真实语义分割图像采用独热编码技术处理后的6副独热编码图像构成的集合之间的损失函数值,损失函数值采用分类交叉熵获得;
步骤5:重复执行步骤3和步骤4共V次,得到卷积神经网络分类训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,完成卷积神经网络的训练;
步骤6:将待语义分割的遥感图像及对应的数字表面模型图像输入步骤5完成训练的卷积神经网络中,输出对应的语义分割图像,完成遥感图像的语义分割。
2.根据权利要求1所述的一种基于门控融合的遥感图像语义分割方法,其特征在于,输入模块包括遥感图像输入层和数字表面模型图像输入层;遥感图像输入层的输入为遥感图像,其中遥感图像由三通道组成,包括近红外、红色和绿色波段;数字表面模型图像输入层的输入为数字表面模型图像,数字表面模型图像为经过归一化处理为一通道的灰度图;
遥感图像经遥感图像输入层输入遥感图像编码层中的第一个卷积块,数字表面模型图像经特征完善融合层输入数字表面模型编码层中的第一个卷积块。
3.根据权利要求1所述的一种基于门控融合的遥感图像语义分割方法,其特征在于,
遥感图像编码层中的第二个卷积块、第三个卷积块、第四个卷积块和第五个卷积块的输出分别连接至第一个RFB块、第二个RFB块、第三个RFB块和第四个RFB块;数字表面模型编码层中的第二个卷积块、第三个卷积块、第四个卷积块和第五个卷积块的输出分别连接至第一个RFB块、第二个RFB块、第三个RFB块和第四个RFB块;
对于遥感图像编码层和数字表面模型编码层:第三个卷积块的输入由第二个卷积块输出和第一个RFB块输出相加得到,第四个卷积块的输入由第三个卷积块的输出和第二个RFB块的输出相加得到,第五个卷积块的输入由第三个卷积块的输出和第二个RFB块的输出相加得到;
第一个RFB块、第二个RFB块、第三个RFB块和第四个RFB块的输出分别输入第一个GCM块、第二个GCM块、第三个GCM块和第四个GCM块;第一个GCM块、第二个GCM块、第三个GCM块和第四个GCM块的输出分别输入第四个MAD块、第三个MAD块、第二个MAD块和第一个MAD块。
4.根据权利要求3所述的一种基于门控融合的遥感图像语义分割方法,其特征在于,每个RFB块包括四个门控单元、两个残差单元和一个深度可分离卷积;
对于第一个RFB块:
输入RFB块的两个卷积块经连接操作后分别输入第一门控单元和第二门控单元,第一门控单元和第二门控单元的输出分别和从遥感图像编码层和数字表面模型编码层输入的卷积块做像素级的点积操作后输出两个特征,并将两个特征做连接操作后经卷积层输入深度可分离卷积层;
对于第二个RFB块和第三个RFB块:
输入RFB块的两个卷积块经连接操作后分别输入第一门控单元和第二门控单元,第一门控单元和第二门控单元的输出分别和遥感图像编码层和数字表面模型编码层输入的卷积块做像素级的点积操作后输出两个特征,并将两个特征做连接操作后输入卷积层,卷积层的输出与前一个RFB块输入的特征经相加操作后输入深度可分离卷积层;
对于第一个、第二个和第三个RFB块:
深度可分离卷积层的输出记为RFB块的第一输出;深度可分离卷积层的输出分别输入第三门控单元和第四门控单元,数字表面模型编码层输入的卷积块经第一残差单元与第三门控单元的输出经点积操作后输出的特征图结合记为RFB块的第二输出,遥感图像编码层输入的卷积块经第二残差单元与第四门控单元的输出经点积操作后输出的特征图结合记为RFB块的第三输出;
RFB块的第二输出与输入RFB块的遥感图像编码层中的卷积块进行相加操作后输入到遥感图像编码层中下一个卷积块,RFB块的第三输出与输入RFB块的数字表面模型编码层中的卷积块进行相加操作后输入到数字表面模型编码层中下一个卷积块;
对于第四个RFB块:
输入RFB块的两个卷积块经连接操作后分别输入第一门控单元和第二门控单元,第一门控单元和第二门控单元的输出分别和遥感图像编码层和数字表面模型编码层输入的卷积块做像素级的点积操作后输出两个特征,并将两个特征做连接操作后输入卷积层,卷积层的输出与前一个RFB块输入的特征经相加操作后输入深度可分离卷积层,深度可分离卷积层的输出记为第四个RFB块的第一输出;
每个RFB块的第一输出分别输入对应的GCM块。
5.根据权利要求4所述的一种基于门控融合的遥感图像语义分割方法,其特征在于,
所述门控单元主要由第一卷积层、第一激活层、第二卷积层和第二激活层串联而成;门控单元中,第一激活层采用ReLU作为激活函数,第二激活层采用Sigmoid作为激活函数;
所述残差单元主要由主路径和跳跃路径组成,主路径由第一激活层、第一卷积层、第一归一化层串联而成,跳跃路径用于将输入残差单元的特征与经过主路径处理后的特征做像素级的相加操作后输出作为残差单元的输出;残差单元中,第一激活层和第一归一化层采用ReLU作为激活函数;
所述深度可分离卷积主要由第一卷积层和第二卷积层串联而成。
6.根据权利要求3所述的一种基于门控融合的遥感图像语义分割方法,其特征在于,
每个GCM块包括四个分支和第二卷积层,输入GCM块的特征图分别输入四个分支,四个分支的输出与输入GCM块的特征图经连接操作后输入第二卷积层,第二卷积层的输出为GCM模块的输出;
第一分支包括依次连接的自适应的平均池化层、第一卷积层、双线性插值层和第一空间注意力块;第二分支包括依次连接的第一空洞卷积层和第二空间注意力块;第三分支包括依次连接的第二空洞卷积层和第三空间注意力块;第四分支包括依次连接的第三空洞卷积层和第四空间注意力块;
第一空洞卷积层、第二空洞卷积层和第三空洞卷积层的空洞率分别为6、12、18。
7.根据权利要求6所述的一种基于门控融合的遥感图像语义分割方法,其特征在于,
所述空间注意力块包括最大池化层、平均池化层、第一卷积层和第一激活层,输入空间注意力块的特征图分别输入最大池化层和平均池化层取最大值和平均值,最大池化层和平均池化层的输出均输入第一卷积层后再输入第一激活层,第一激活层的输出与输入空间注意力块的特征图经相乘操作后再与第一激活层的输出进行相加操作后作为空间注意力块的输出输出。
8.根据权利要求3所述的一种基于门控融合的遥感图像语义分割方法,其特征在于,
第一个MAD块包括自我完善单元,第二个MAD块、第三个MAD块和第四个MAD块包括自我完善单元和逐层融合单元,自我完善单元的输入为GCM块处理后输入的特征图集合,逐层融合单元的输入为上一个MAD块处理后输入的特征图集合;
自我完善单元包括四个卷积层、特征变换层;自我完善单元的输入分别输入第一个卷积层、第二个卷积层和第三个卷积层得到三个特征图集合Fα、Fβ、Fγ,Fα、Fβ、Fγ的形状均为[c/4,h,w],三个卷积层的输入分别输入三个特征变换层,经特征变换层的矩阵压缩操作后,Fα、Fβ、Fγ的形状为[c/4,h×w]的二维矩阵;再对Fα进行矩阵装置层的矩阵装置操作后得到形状为[h×w,c/4]的二维矩阵,之后对Fα、Fβ进行矩阵乘法操作得到特征图集合Fδ,Fδ形状为[h×w,h×w]的二维矩阵;对Fδ进行Softmax归一化操作后与Fγ进行矩阵相乘操作得到特征图集合Fc,Fc形状为[h×w,c/4]的二维矩阵;特征图集合Fc依次经矩阵转置层的矩阵转置和特征变换层的维度扩展得到形状变为[c/4,h,w]的特征图集合,特征变换层的输出输入卷积核个数为c的第四个卷积层;
对于第一个MAD块:
第四个卷积层的输出与输入自我完善单元的特征图进行相加操作后输入线性差值层,经过线性差值层两倍的双线性插值操作后输入下一个MAD块;
对于第二个MAD块、第三个MAD块或第四个MAD块:
逐层融合单元接收上一个MAD块输出的特征图集合,与输入自我完善单元的特征图集合进行像素级的相乘操作,然后与第四个卷积层的输出和输入自我完善单元的特征图再进行像素级的相加操作后输入线性差值层,经过线性差值层两倍的双线性插值操作后作为MAD块的输出输出。
9.根据权利要求1所述的一种基于门控融合的遥感图像语义分割方法,其特征在于,
输出模块主要由第一卷积层、第一激活层、第一反卷积层、第二激活层、第二卷积层、第三激活层、第二反卷积层、第四激活层和第三卷积层依次连接组成;
其中,输入输出模块的特征图为第四个MAD块的输出,第四个MAD块输出的每幅特征图的宽度均为
Figure FDA0003075982550000041
高度均为
Figure FDA0003075982550000042
其中,第一卷积层、第二卷积层第三卷积层的卷积核个数分别为128、64和6,第一反卷积层和第二反卷积层的卷积核个数分别为128和64;所有激活层采用ReLU作为激活函数。
其中,输出模块输出的语义分割预测图为6通道。
CN202110553034.3A 2021-05-20 2021-05-20 一种基于门控融合的遥感图像语义分割方法 Withdrawn CN113269787A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110553034.3A CN113269787A (zh) 2021-05-20 2021-05-20 一种基于门控融合的遥感图像语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110553034.3A CN113269787A (zh) 2021-05-20 2021-05-20 一种基于门控融合的遥感图像语义分割方法

Publications (1)

Publication Number Publication Date
CN113269787A true CN113269787A (zh) 2021-08-17

Family

ID=77232170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110553034.3A Withdrawn CN113269787A (zh) 2021-05-20 2021-05-20 一种基于门控融合的遥感图像语义分割方法

Country Status (1)

Country Link
CN (1) CN113269787A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183360A (zh) * 2020-09-29 2021-01-05 上海交通大学 高分辨率遥感影像的轻量化语义分割方法
CN113554032A (zh) * 2021-09-22 2021-10-26 南京信息工程大学 基于高度感知的多路并行网络的遥感图像分割方法
CN113822828A (zh) * 2021-08-18 2021-12-21 吉林大学 一种多聚焦图像融合方法
CN113887499A (zh) * 2021-10-21 2022-01-04 清华大学 一种沙丘图像识别模型及其创建方法和沙丘图像识别方法
CN114445442A (zh) * 2022-01-28 2022-05-06 杭州电子科技大学 基于非对称交叉融合的多光谱图像语义分割方法
CN114842206A (zh) * 2022-07-04 2022-08-02 江西师范大学 基于双层全局卷积的遥感图像语义分割模型及方法
CN115147279A (zh) * 2022-07-05 2022-10-04 南京林业大学 基于选择性通道处理机制的轻量级遥感图像超分辨率方法
CN115546649A (zh) * 2022-10-24 2022-12-30 中国矿业大学(北京) 一种单视遥感影像高度估计和语义分割多任务预测方法
CN116805360A (zh) * 2023-08-21 2023-09-26 江西师范大学 一种基于双流门控渐进优化网络的显著目标检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170076438A1 (en) * 2015-08-31 2017-03-16 Cape Analytics, Inc. Systems and methods for analyzing remote sensing imagery
CN109934153A (zh) * 2019-03-07 2019-06-25 张新长 基于门控深度残差优化网络的建筑物提取方法
CN111582104A (zh) * 2020-04-28 2020-08-25 中国科学院空天信息创新研究院 一种遥感图像语义分割方法及装置
CN111797920A (zh) * 2020-06-30 2020-10-20 武汉大学 门控特征融合的深度网络不透水面遥感提取方法及系统
CN112686903A (zh) * 2020-12-07 2021-04-20 嘉兴职业技术学院 一种改进的高分辨率遥感图像语义分割模型
CN112766083A (zh) * 2020-12-30 2021-05-07 中南民族大学 基于多尺度特征融合的遥感场景分类方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170076438A1 (en) * 2015-08-31 2017-03-16 Cape Analytics, Inc. Systems and methods for analyzing remote sensing imagery
CN109934153A (zh) * 2019-03-07 2019-06-25 张新长 基于门控深度残差优化网络的建筑物提取方法
CN111582104A (zh) * 2020-04-28 2020-08-25 中国科学院空天信息创新研究院 一种遥感图像语义分割方法及装置
CN111797920A (zh) * 2020-06-30 2020-10-20 武汉大学 门控特征融合的深度网络不透水面遥感提取方法及系统
CN112686903A (zh) * 2020-12-07 2021-04-20 嘉兴职业技术学院 一种改进的高分辨率遥感图像语义分割模型
CN112766083A (zh) * 2020-12-30 2021-05-07 中南民族大学 基于多尺度特征融合的遥感场景分类方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
许玥: "基于深度学习模型的遥感图像分割方法", 《计算机应用》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183360B (zh) * 2020-09-29 2022-11-08 上海交通大学 高分辨率遥感影像的轻量化语义分割方法
CN112183360A (zh) * 2020-09-29 2021-01-05 上海交通大学 高分辨率遥感影像的轻量化语义分割方法
CN113822828A (zh) * 2021-08-18 2021-12-21 吉林大学 一种多聚焦图像融合方法
CN113554032A (zh) * 2021-09-22 2021-10-26 南京信息工程大学 基于高度感知的多路并行网络的遥感图像分割方法
CN113554032B (zh) * 2021-09-22 2021-12-14 南京信息工程大学 基于高度感知的多路并行网络的遥感图像分割方法
CN113887499A (zh) * 2021-10-21 2022-01-04 清华大学 一种沙丘图像识别模型及其创建方法和沙丘图像识别方法
CN113887499B (zh) * 2021-10-21 2022-11-18 清华大学 一种沙丘图像识别模型及其创建方法和沙丘图像识别方法
CN114445442A (zh) * 2022-01-28 2022-05-06 杭州电子科技大学 基于非对称交叉融合的多光谱图像语义分割方法
CN114445442B (zh) * 2022-01-28 2022-12-02 杭州电子科技大学 基于非对称交叉融合的多光谱图像语义分割方法
CN114842206A (zh) * 2022-07-04 2022-08-02 江西师范大学 基于双层全局卷积的遥感图像语义分割模型及方法
CN115147279A (zh) * 2022-07-05 2022-10-04 南京林业大学 基于选择性通道处理机制的轻量级遥感图像超分辨率方法
CN115147279B (zh) * 2022-07-05 2023-04-07 南京林业大学 基于选择性通道处理机制的轻量级遥感图像超分辨率方法
CN115546649A (zh) * 2022-10-24 2022-12-30 中国矿业大学(北京) 一种单视遥感影像高度估计和语义分割多任务预测方法
CN115546649B (zh) * 2022-10-24 2023-04-18 中国矿业大学(北京) 一种单视遥感影像高度估计和语义分割多任务预测方法
CN116805360A (zh) * 2023-08-21 2023-09-26 江西师范大学 一种基于双流门控渐进优化网络的显著目标检测方法
CN116805360B (zh) * 2023-08-21 2023-12-05 江西师范大学 一种基于双流门控渐进优化网络的显著目标检测方法

Similar Documents

Publication Publication Date Title
CN113269787A (zh) 一种基于门控融合的遥感图像语义分割方法
CN110111366B (zh) 一种基于多级损失量的端到端光流估计方法
CN110517329B (zh) 一种基于语义分析的深度学习图像压缩方法
CN109840556B (zh) 一种基于孪生网络的图像分类识别方法
CN111565318A (zh) 一种基于稀疏样本的视频压缩方法
CN109635662B (zh) 一种基于卷积神经网络的道路场景语义分割方法
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
CN110490205B (zh) 基于全残差空洞卷积神经网络的道路场景语义分割方法
CN112396607A (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN114663670A (zh) 一种图像检测方法、装置、电子设备及存储介质
CN116797787B (zh) 基于跨模态融合与图神经网络的遥感影像语义分割方法
CN112733693B (zh) 一种全局感知高分辨率遥感影像多尺度残差道路提取方法
CN113192073A (zh) 基于交叉融合网络的服装语义分割方法
CN110782458B (zh) 一种非对称编码网络的物体图像3d语义预测分割方法
CN112991364A (zh) 基于卷积神经网络跨模态融合的道路场景语义分割方法
CN109446933B (zh) 一种基于卷积神经网络的道路场景语义分割方法
CN113269224A (zh) 一种场景图像分类方法、系统及存储介质
CN115424051B (zh) 一种全景拼接图像质量评价方法
CN109508639B (zh) 基于多尺度带孔卷积神经网络的道路场景语义分割方法
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统
Pham Semantic road segmentation using deep learning
CN114419406A (zh) 图像变化检测方法、训练方法、装置和计算机设备
CN118097268A (zh) 一种基于监控场景的长尾目标检测方法
CN113096133A (zh) 一种基于注意力机制的语义分割网络的构建方法
Nguyen et al. A novel multi-branch wavelet neural network for sparse representation based object classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210817

WW01 Invention patent application withdrawn after publication