CN113269787A

CN113269787A - 一种基于门控融合的遥感图像语义分割方法

Info

Publication number: CN113269787A
Application number: CN202110553034.3A
Authority: CN
Inventors: 周武杰; 金建会; 叶绿; 雷景生; 万健; 甘兴利; 钱小鸿; 许彩娥; 强芳芳
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2021-08-17

Abstract

本发明公开了一种基于门控融合的遥感图像语义分割方法。选取Q幅原始遥感图像及每幅原始遥感图像对应的数字表面模型图像和真实语义分割图像作为训练集；构建卷积神经网络，卷积神经网络包括输入模块、特征编码模块、特征解码模块和输出模块；特征编码模块包括遥感图像编码层、数字表面模型编码层和特征完善融合层，特征解码模块包括全局上下文层和特征渐进融合解码层；将训练集输入构建的卷积神经网络进行训练；将待语义分割的遥感图像及对应的数字表面模型图像输入完成训练的卷积神经网络中，输出对应的语义分割图像，完成遥感图像的语义分割。本发明方法的分割效率高，且分割准确度高。

Description

一种基于门控融合的遥感图像语义分割方法

技术领域

本发明涉及一种深度学习的语义分割方法，尤其涉及一种基于门控融合的遥感图像语义分割方法。

背景技术

地理观测技术提供了大量的高空间分辨率的遥感图像，可以精细地描绘各种地理空间对象，如建筑、车辆和植被等，从遥感图像中自动提取感兴趣的对象，对城市管理、规划和监测等领域非常有帮助。地理空间对象分割作为对象提取的环节中的重要角色，可以是感兴趣的对象提供语义和位置信息，它属于一种特殊的语义分割任务，目标是为对象区域的每个像素分配一个统一的语义标签。目前，最常用的语义分割方法包括支持向量机、随机森林等算法。这些算法主要集中在二分类任务上，用于检测和识别特定物体，如道路表面、车辆和行人。这些传统的机器学习方法往往需要通过高复杂度的特征来实现，而使用深度学习来对交通场景进行语义分割简单方便，更重要的是，深度学习的应用极大地提高了图像像素级分类任务的精度。

采用深度学习的语义分割方法，直接进行像素级别端到端(end-to-end)的语义分割，其只需要将训练集中的图像输入进模型框架中训练，得到权重与模型，即可在测试集进行预测。卷积神经网络的强大之处在于它的多层结构能自动学习特征，并且可以学习到多个层次的特征。目前，基于深度学习语义分割的方法分为两种，第一种是编码-译码架构。编码过程通过池化层逐渐减少位置信息、抽取抽象特征；译码过程逐渐恢复位置信息。一般译码与编码间有直接的连接。第二种架构是带孔卷积(dilated convolutions)，抛弃了池化层，通过带孔卷积的方式扩大感知域，较小值的带孔卷积感知域较小，学习到一些部分具体的特征；较大值的带孔卷积层具有较大的感知域，能够学习到更加抽象的特征，这些抽象的特征对物体的大小、位置和方向等鲁棒性更好。

现有的语义分割方法主要关注自然场景中的尺度变化，而没有充分考虑大面积遥感图片场景中通常发生的其他问题。

发明内容

为了解决背景技术中的问题，本发明提供了一种基于门控融合的遥感图像语义分割方法，其分割效率高，且分割准确度高。

本发明采用的技术方案如下：

一种基于门控融合的遥感图像语义分割方法包括以下步骤：

步骤1：选取Q幅原始遥感图像(IRRG)及每幅原始遥感图像对应的数字表面模型图像(DSM)和真实语义分割图像作为训练集。

步骤2：构建卷积神经网络：

所述卷积神经网络包括输入模块、特征编码模块、特征解码模块和输出模块；特征编码模块包括遥感图像编码层、数字表面模型编码层和特征完善融合层，特征解码模块包括全局上下文层和特征渐进融合解码层；

遥感图像编码层和数字表面模型编码层均包括五个依次连接的卷积块，且五个卷积块采用了ResNet-50的网络架构；特征完善融合层包括四个依次连接的RFB块；全局上下文层包括四个GCM块，特征渐进融合解码层包括四个依次连接的MAD块；

步骤3：将训练集输入步骤2构建的卷积神经网络进行训练：

训练过程中，每次迭代训练处理得到每幅深度估计原始图像的深度预测图，计算每幅深度估计原始图像的深度预测图与深度估计标签图像构成的损失函数值，损失函数值采用均方差(MSE)损失函数获得；

步骤3：将训练集中每幅原始遥感图像和数字表面模型通过随机裁剪、随机旋转、水平翻转、垂直翻转的数据增强操作后作为原始输入图像输入到步骤2构建的卷积神经网络中进行训练，得到训练集中每幅原始的遥感图像对应的语义分割预测图；

步骤4：计算训练集中每幅原始遥感图像对应的语义分割预测图构成的集合与对应的真实语义分割图像采用独热编码技术处理后的6副独热编码图像构成的集合之间的损失函数值，损失函数值采用分类交叉熵获得；

步骤5：重复执行步骤3和步骤4共V次，得到卷积神经网络分类训练模型，并共得到Q×V个损失函数值；然后从Q×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项，完成卷积神经网络的训练；

步骤6：将待语义分割的遥感图像及对应的数字表面模型图像输入步骤5完成训练的卷积神经网络中，输出对应的语义分割图像，完成遥感图像的语义分割。

输入模块包括遥感图像输入层和数字表面模型图像输入层；遥感图像输入层的输入为遥感图像，其中遥感图像由三通道组成，包括近红外(NIR)、红色(R)和绿色(G)波段；数字表面模型图像输入层的输入为数字表面模型图像，数字表面模型图像为经过归一化处理为一通道的灰度图；

遥感图像经遥感图像输入层输入遥感图像编码层中的第一个卷积块，数字表面模型图像经特征完善融合层输入数字表面模型编码层中的第一个卷积块。

遥感图像编码层中的第二个卷积块、第三个卷积块、第四个卷积块和第五个卷积块的输出分别连接至第一个RFB块、第二个RFB块、第三个RFB块和第四个RFB块；数字表面模型编码层中的第二个卷积块、第三个卷积块、第四个卷积块和第五个卷积块的输出分别连接至第一个RFB块、第二个RFB块、第三个RFB块和第四个RFB块；

对于遥感图像编码层和数字表面模型编码层：第三个卷积块的输入由第二个卷积块输出和第一个RFB块输出相加得到，第四个卷积块的输入由第三个卷积块的输出和第二个RFB块的输出相加得到，第五个卷积块的输入由第三个卷积块的输出和第二个RFB块的输出相加得到；

第一个RFB块、第二个RFB块、第三个RFB块和第四个RFB块的输出分别输入第一个GCM块、第二个GCM块、第三个GCM块和第四个GCM块；第一个GCM块、第二个GCM块、第三个GCM块和第四个GCM块的输出分别输入第四个MAD块、第三个MAD块、第二个MAD块和第一个MAD块。

每个RFB块包括四个门控单元、两个残差单元和一个深度可分离卷积；

对于第一个RFB块：

输入RFB块的两个卷积块经连接操作后分别输入第一门控单元和第二门控单元，第一门控单元和第二门控单元的输出分别和从遥感图像编码层和数字表面模型编码层输入的卷积块做像素级的点积操作后输出两个特征，并将两个特征做连接操作后经卷积层输入深度可分离卷积层；

对于第二个RFB块和第三个RFB块：

输入RFB块的两个卷积块经连接操作后分别输入第一门控单元和第二门控单元，第一门控单元和第二门控单元的输出分别和遥感图像编码层和数字表面模型编码层输入的卷积块做像素级的点积操作后输出两个特征，并将两个特征做连接操作后输入卷积层，卷积层的输出与前一个RFB块输入的特征经相加操作后输入深度可分离卷积层；

对于第一个、第二个和第三个RFB块：

深度可分离卷积层的输出记为RFB块的第一输出；深度可分离卷积层的输出分别输入第三门控单元和第四门控单元，数字表面模型编码层输入的卷积块经第一残差单元与第三门控单元的输出经点积操作后输出的特征图结合记为RFB块的第二输出，遥感图像编码层输入的卷积块经第二残差单元与第四门控单元的输出经点积操作后输出的特征图结合记为RFB块的第三输出；

RFB块的第二输出与输入RFB块的遥感图像编码层中的卷积块进行相加操作后输入到遥感图像编码层中下一个卷积块，RFB块的第三输出与输入RFB块的数字表面模型编码层中的卷积块进行相加操作后输入到数字表面模型编码层中下一个卷积块；

对于第四个RFB块：

输入RFB块的两个卷积块经连接操作后分别输入第一门控单元和第二门控单元，第一门控单元和第二门控单元的输出分别和遥感图像编码层和数字表面模型编码层输入的卷积块做像素级的点积操作后输出两个特征，并将两个特征做连接操作后输入卷积层，卷积层的输出与前一个RFB块输入的特征经相加操作后输入深度可分离卷积层，深度可分离卷积层的输出记为第四个RFB块的第一输出；

每个RFB块的第一输出分别输入对应的GCM块。

所述门控单元主要由第一卷积层、第一激活层、第二卷积层和第二激活层串联而成；门控单元中，第一激活层采用ReLU作为激活函数，第二激活层采用Sigmoid作为激活函数；

所述残差单元主要由主路径和跳跃路径组成，主路径由第一激活层、第一卷积层、第一归一化层串联而成，跳跃路径用于将输入残差单元的特征与经过主路径处理后的特征做像素级的相加操作后输出作为残差单元的输出；残差单元中，第一激活层和第一归一化层采用ReLU作为激活函数；

所述深度可分离卷积主要由第一卷积层和第二卷积层串联而成。

每个GCM块包括四个分支和第二卷积层，输入GCM块的特征图分别输入四个分支，四个分支的输出与输入GCM块的特征图经连接操作后输入第二卷积层，第二卷积层的输出为GCM模块的输出；

第一分支包括依次连接的自适应的平均池化层、第一卷积层、双线性插值层和第一空间注意力块；第二分支包括依次连接的第一空洞卷积层和第二空间注意力块；第三分支包括依次连接的第二空洞卷积层和第三空间注意力块；第四分支包括依次连接的第三空洞卷积层和第四空间注意力块；

第一空洞卷积层、第二空洞卷积层和第三空洞卷积层的空洞率分别为6、12、18。

所述空间注意力块包括最大池化层、平均池化层、第一卷积层和第一激活层，输入空间注意力块的特征图分别输入最大池化层和平均池化层取最大值和平均值，最大池化层和平均池化层的输出均输入第一卷积层后再输入第一激活层，第一激活层的输出与输入空间注意力块的特征图经相乘操作后再与第一激活层的输出进行相加操作后作为空间注意力块的输出输出。

第一个MAD块包括自我完善单元，第二个MAD块、第三个MAD块和第四个MAD块包括自我完善单元和逐层融合单元，自我完善单元的输入为GCM块处理后输入的特征图集合，逐层融合单元的输入为上一个MAD块处理后输入的特征图集合；

自我完善单元包括四个卷积层、特征变换层；自我完善单元的输入分别输入第一个卷积层、第二个卷积层和第三个卷积层得到三个特征图集合F_α、F_β、F_γ，F_α、F_β、F_γ的形状均为[c/4,h,w]，三个卷积层的输入分别输入三个特征变换层，经特征变换层的矩阵压缩操作后，F_α、F_β、F_γ的形状为[c/4,h×w]的二维矩阵；再对F_α进行矩阵装置层的矩阵装置操作后得到形状为[h×w,c/4]的二维矩阵，之后对F_α、F_β进行矩阵乘法操作得到特征图集合F_δ，F_δ形状为[h×w,h×w]的二维矩阵；对F_δ进行Softmax归一化操作后与F_γ进行矩阵相乘操作得到特征图集合F_c，F_c形状为[h×w,c/4]的二维矩阵；特征图集合F_c依次经矩阵转置层的矩阵转置和特征变换层的维度扩展得到形状变为[c/4，h，w]的特征图集合，特征变换层的输出输入卷积核个数为c的第四个卷积层；

对于第一个MAD块：

第四个卷积层的输出与输入自我完善单元的特征图进行相加操作后输入线性差值层，经过线性差值层两倍的双线性插值操作后输入下一个MAD块；

对于第二个MAD块、第三个MAD块或第四个MAD块：

逐层融合单元接收上一个MAD块输出的特征图集合，与输入自我完善单元的特征图集合进行像素级的相乘操作，然后与第四个卷积层的输出和输入自我完善单元的特征图再进行像素级的相加操作后输入线性差值层，经过线性差值层两倍的双线性插值操作后作为MAD块的输出输出。

输出模块主要由第一卷积层、第一激活层、第一反卷积层、第二激活层、第二卷积层、第三激活层、第二反卷积层、第四激活层和第三卷积层依次连接组成；

其中，输入输出模块的特征图为第四个MAD块的输出，第四个MAD块输出的每幅特征图的宽度均为

高度均为

其中，第一卷积层、第二卷积层第三卷积层的卷积核个数分别为128、64和6，第一反卷积层和第二反卷积层的卷积核个数分别为128和64；所有激活层采用ReLU作为激活函数。

其中，输出模块输出的语义分割预测图为6通道。

本发明的有益效果：

1)本发明方法构建了一种卷积神经网络，通过将训练集中的遥感图像裁剪成256×256分辨率的训练图像输入到卷积神经网络中进行训练，得到卷积神经网络语义分割预测模型；在预测阶段通过滑动窗口的方式将待语义分割的遥感图像输入到卷积神经网络语义分割预测模型中，预测得到滑动窗口所裁剪下来的遥感图像对应的预测语义分割图像；最后将预测得到语义分割图像拼接成原始遥感图像大小，由于窗口滑动的步长要小于窗口的大小，所以在拼接过程中对图像重复区域取平均值，从而得到最终的预测语义分割图像。由于本发明在构建卷积神经网络的过程中考虑了全局上下文信息对分割效果的影响，通过将全局上下文信息同高级语义信息和低级细节信息相互结合，从而有效地提高了遥感图像的语义分割精确度。

2)本发明方法提出了针对遥感图像中物体尺度变化问题的全局上下文模块(GCM),可以在不牺牲特征空间分辨率的同时扩大特征感受野，并运用注意力机制，加强了GCM捕捉所有空间位置之间的远程语义依赖关系的能力。

3)本发明方法在特征解码部分提出了特征渐进融合解码，通过计算任意两个位置之间的相似度直接建立起远程连接，从而完善出更多的细节特征以弥补图像在编码过程中下采样时丢失的细节特征。

附图说明

图1为本发明方法的总体实现框图；

图2a为RFB特征完善融合模块；

图2b为RFB1特征完善融合模块；

图2c为RFB4特征完善融合模块；

图2d为GCM全局上下文模块；

图2e为GCM中的空间注意力模块；

图2f为MAD特征渐进融合解码器；

图2g为MAD1特征渐进融合解码器；

图2h为输出层；

图3a为Vaihingen数据集的第1幅原始的遥感图像；

图3b为利用本发明方法对图3a所示的原始的遥感图像进行预测，得到的预测语义分割图像；

图4a为Vaihingen数据集的第2幅原始的遥感图像；

图4b为利用本发明方法对图4a所示的原始的遥感图像进行预测，得到的预测语义分割图像；

图5a为Potsdam数据集的第1幅原始的道路场景图像；

图5b为利用本发明方法对图5a所示的原始的道路场景图像进行预测，得到的预测语义分割图像；

图6a为Potsdam数据集的第2幅原始的道路场景图像；

图6b为利用本发明方法对图6a所示的原始的遥感图像进行预测，得到的预测语义分割图像。

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细说明。

本发明提出的一种基于门控融合的遥感图像语义分割方法，其总体实现框图如图1所示，其包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

步骤1_1：在此，原始的遥感图像直接选用遥感图像数据库Vaihingen和Potsdam中的图像。选取Q幅原始的遥感图像及每幅原始的遥感图像对应的数字表面模型图像(DSM)和真实语义分割图像，并按照256×256分辨率对它们进行裁剪构成训练集，将Vaihingen训练集中的第q幅原始的遥感图像记为

将Potsdam训练集中的的第q幅原始的遥感图像记为

将Vaihingen训练集中与

对应的真实语义分割图像记为

将Potsdam训练集中与

对应的真实语义分割图像记为

然后采用现有的独热编码技术(one-hot)将Vaihingen训练集和Potsdam训练集中每幅原始的遥感图像对应的真实语义分割图像处理成6副独热编码图像，将

处理成的6副独热编码图像构成的集合记为其中

将

处理成的6副独热编码图像构成的集合记为其中

其中，遥感图像为IRRG彩色图像，Q为正整数，Q≥17656，如取Q＝20000，q为正整数，W表示

或

的宽度，H表示

或

的高度，如取W＝256、H＝256

表示

中坐标位置为(i,j)的像素点的像素值，

表示

中坐标位置为(i,j)的像素点的像素值。

步骤1_2：构建卷积神经网络：

本发明所搭建的卷积神经网络主要由两个部分构成，分别为自下而上的特征编码过程和自上而下的特征解码过程。

由于本发明所采用的是遥感图像数据集是Vaihingen和Potsdam，每个样本包括遥感图像和其对应的数字表面模型图像(DSM)，其中遥感图像由三个通道组成，包括近红外(NIR)、红色(R)和绿色(G)波段；数字表面模型为已经过归一化处理为一通道的灰度图，并且每个像素点都代表了对应图像地表信息的高程。因此在特征编码部分，本发明采用了两个组成部分基本一致的编码层，遥感图像编码层和数字表面模型编码层。每个编码层均包含采用ResNet-50的网络架构的第1个卷积块、第2个卷积块、第3个卷积块、第4个卷积块和第5个卷积块；并且特征编码部分还包含4个特征完善融合块RFB₁、RFB₂、RFB₃、RFB₄。

特征解码模块分为上下文信息处理单元(包含4个GCM模块，分别是GCM₁、GCM₂、GCM₃、GCM₄)和特征渐进融合解码单元(包含4个MAD模块，分别是MAD₁、MAD₂、MAD₃、MAD₄)。

网络的输入是已经经过数据处理的遥感图像数据集中的每一张图像和与其相对应的数字表面模型图像(图片的宽度和高度分别为W＝256,H＝256,遥感图像通道为近红外(IR)通道、红色(R)通道、绿色(G)通道；数字表面模型图像为1通道的灰度图)。

对于遥感图像编码层的第1个卷积块由第一卷积层(Convolution,Conv)、第一归一化层(BatchNorm,BN)、第一激活层(Activation,Act)构成；第1个卷积块的输入端接收的原始输入图像的3通道分量分别为IR通道、R通道、G通道，第1个卷积块的输出端输出64副特征图。其中第一卷积层采用卷积核个数为64,卷积核(kernel_size)为7，步长(stride)为2，补零(padding)为3的配置；第一归一化层的输入端接收来自第一卷积层输出的64副特征图；第一激活层采用修正线性单元——ReLU作为激活方式。对于数字表面模型编码层的第1个卷积块的输入端接收的原始输入图像的1通道分量，其余组成部分皆于遥感图像编码层相同。将遥感图像编码层第1个卷积块输出的64副特征图集合记为R₁,将第1个卷积块输出的64副特征图集合记为D₁，R₁和D₁中的每幅特征图的宽度均为

高度均为

对于遥感图像编码层和数字表面模型编码层的第2个卷积块由第一最大池化层和三个残差单元串联构成。第一最大池化层采用池化核(kernel_size)为3，步长(stride)为2，补零(padding)为1的配置。第一最大池化层接收来自第1个卷积块的64副特征图，并输出64副特征图且每幅特征图的宽度均为

高度均为

每个残差单元依次由主路径和跳跃路径组成，主路径由第一卷积层、第一归一化层、第一激活层、第二卷积层、第二归一化层、第二激活层、第三卷积层、第三归一化层、第三激活函数层串联而成。其中，第1个残差单元的第一卷积层的配置为：卷积核为1，卷积核个数为64，步长为1，补零为0；第二卷积层的配置为：卷积核为3，卷积核个数为64，步长为1，补零为1；第三卷积层的配置为：卷积核为1，卷积核个数为256，步长为1，补零为0。由于第一个残差单元输出256副特征图，所以第1个残差单元的跳远路径由第四卷积层、第四归一化层组成。其中，第四卷积层的配置为：卷积核为1，卷积核个数为256，步长为1，补零为0。第1个残差单元接收来自第一最大池化层的64副特征图，这64副特征图分别经过第一个残差单元的主路径和跳跃路径并进行像素级的相加操作后输出。剩余残差单元里所有卷积层的第一卷积层的卷积核个数均为64，第二卷积层卷积核个数为64，第三卷积层卷积核个数为256，其余相应的参数配置与第1个残差单元基本一致并且跳跃路径无任何操作，最后的操作都是将主路径输出的特征图和跳跃路径输出的特征图进行像素级的相加操作并输出。将遥感图像编码层第2个卷积块输出的256副特征图集合记为R₂,将数字表面模型编码层第2个卷积块输出的256副特征图集合记为D₂，R₂和D₂中的每幅特征图的宽度均为

高度均为

对于遥感图像编码层和数字表面模型编码层的第3个卷积块，操作与第2个卷积块大致相同。不同之处是第3个卷积块里残差单元的个数为4个，并且第1个残差单元的第一卷积层的卷积核个数为输入特征图数量的一半即为128个，第二卷积层的卷积核个数为128，第三卷积层的卷积核个数为512个。第3个卷积块输出512副特征图。将遥感图像编码层第3个卷积块输出的512副特征图集合记为R₃,将数字表面模型编码层第3个卷积块输出的512副特征图集合记为D₃，R₃和D₃中的每幅特征图的宽度均为

高度均为

对于遥感图像编码层和数字表面模型编码层的第4个卷积块、第5个卷积块，操作与第3个卷积块基本相同。第4个卷积块包含6个残差单元，最终输出特征图的数量为1024，将遥感图像编码层第4个卷积块输出的1024副特征图集合记为R₄,将数字表面模型编码层第4个卷积块输出的1024副特征图集合记为D₄，R₄和D₄中的每幅特征图的宽度均为

高度均为

第5个卷积块里残差单元的数量为3个，最终输出特征图数量为2048，将遥感图像编码层第5个卷积块输出的2048副特征图集合记为R₅,将数字表面模型编码层第5个卷积块输出的2048副特征图集合记为D₅，R₅和D₅中的每幅特征图的宽度均为

高度均为

如图2a和2b所示，对于遥感图像编码层的第2个卷积块和数字表面模型编码层的第2个卷积块之间的特征完善融合块(RFB₁)由4个门控单元(分别为第一门控单元、第二门控单元、第三门控单元、第四门控单元)、2个残差单元和1个深度可分离卷积组成。其中所有的门控单元由第一卷积层、第一激活层、第二卷积层、第二激活层串联而成。第一卷积层的配置为：卷积核为1，卷积核个数为16，步长为1，补零为0。第一激活层采用ReLU作为激活函数。第二卷积层的配置为：卷积核为1，卷积核个数为1，步长为1，补零为0。第二激活层采用Sigmoid作为激活函数。残差单元由主路径和跳跃路径组成，主路径由第一激活层、第一卷积层、第一归一化层串联而成。第一激活层采用ReLU作为激活函数，第一归一化层选用ReLU激活函数；第一卷积层的配置为：卷积核为3，卷积核个数为256，步长为1，补零为0。跳跃路径不做任何操作直接将输入特征图与经过主路径处理后特征做像素级的相加操作。深度可分离卷积由第一卷积层和第二卷积层串联而成。其中第一卷积层的配置为：卷积核为3，卷积核个数为256，步长为1，补零为1，分组(groups)为256；第二卷积层的配置为：卷积核为1，卷积核个数为256，步长为1，补零为0。对于输入RFB₁的特征图集合R₂和D₂先做连接操作(Concatenate)，并行的经过第一门控单元和第二门控单元，输出的特征分别和R₂和D₂做像素级的点积操作并做连接操作，之后送入一个配置为：卷积核为3,卷积核个数为256，步长为1，补零为1的卷积层。因为是第一层RFB，所以卷积层输出的特征图不做任何操作，直接送入深度可分离卷积进行处理。处理之后的特征图集合记为F_1out。F_1out并行地经过第三门控单元和第四门控单元。R₂和D₂分别经过残差单元处理后和第三门控单元和第四门控单元输出的特征图做像素级的点积操作输出的特征图结合分别记为R_1out和D_1out。最终RFB₁输出F_1out、R_1out和D_1out。遥感图像编码层和数字表面模型编码层的第2个卷积块输出的特征图集合R₂和D₂分别和R_1out、D_1out进行像素级的相加操作并输入到遥感图像编码层和数字表面模型编码层的第3个卷积块，即遥感图像编码层的第3个卷积块的输入为R₂+R_1out，数字表面模型编码层为D₂+D_1out。F_1out作为一个输入送入到RFB₂。

对于遥感图像编码层的第3个卷积块和数字表面模型编码层的第3个卷积块之间的特征完善融合块(RFB₂)由4个门控单元(分别为第一门控单元、第二门控单元、第三门控单元、第四门控单元)、2个残差单元、1个卷积层和1个深度可分离卷积组成。其中所有的门控单元由第一卷积层、第一激活层、第二卷积层、第二激活层串联而成。第一卷积层的配置为：卷积核为1，卷积核个数为32，步长为1，补零为0。第一激活层采用ReLU作为激活函数。第二卷积层的配置为：卷积核为1，卷积核个数为1，步长为1，补零为0。第二激活层采用Sigmoid作为激活函数。残差单元由主路径和跳跃路径组成，主路径由第一激活层、第一卷积层、第一归一化层串联而成。第一归一化层选用ReLU激活函数；第一卷积层的配置为：卷积核为3，卷积核个数为512，步长为1，补零为0。跳跃路径不做任何操作直接将输入特征图与经过主路径处理后特征做像素级的相加操作。深度可分离卷积由第一卷积层和第二卷积层串联而成。其中第一卷积层的配置为：卷积核为3，卷积核个数为512，步长为1，补零为1，分组(groups)为512；第二卷积层的配置为：卷积核为1，卷积核个数为512，步长为1，补零为0。对于输入RFB₂的特征图集合R₃和D₃先做连接操作(Concatenate)，并行的经过第一门控单元和第二门控单元，输出的特征分别和R₃和D₃做像素级的点积操作并做连接操作，之后送入一个配置为：卷积核为3,卷积核个数为512，步长为1，补零为1的卷积层，再然后和RFB₁输入RFB₂的特征图集合F_1out做像素级的相加操作，最终输入到深度可分离卷积进行处理。处理之后的特征图集合记为F_2out。F_2out并行地经过第三门控单元和第四门控单元。R₃和D₃分别经过残差单元处理后和第三门控单元和第四门控单元输出的特征图做像素级的点积操作输出的特征图结合分别记为R_2out和D_2out。最终RFB₂输出F_2out、R_2out和D_2out。遥感图像编码层和数字表面模型编码层的第3个卷积块输出的特征图集合R₃和D₃分别和R_2out、D_2out进行像素级的相加操作并输入到遥感图像编码层和数字表面模型编码层的第4个卷积块，即遥感图像编码层的第4个卷积块的输入为R₃+R_2out，数字表面模型编码层为D₃+D_2out。F_2out作为一个输入送入到RFB₃。

对于遥感图像编码层的第4个卷积块和数字表面模型编码层的第4个卷积块之间的特征完善融合块(RFB₃)和第3个卷积块之间的特征完善融合块(RFB₂)操作基本相同。RFB₃中门控单元第一卷积层的卷积核个数为64，其余卷积层的卷积核个数与均为1024。记RFB₃输出特征图的集合为R_3out、D_3out和F_3out。

如图2a和2c所示，对于遥感图像编码层第5个卷积块和数字表面模型编码层的第10个卷积块之间的特征完善融合块(RFB₅)由2个门控单元(分别为第一门控单元、第二门控单元)、1个卷积层和1个深度可分离卷积组成。其中所有的门控单元由第一卷积层、第一激活层、第二卷积层、第二激活层串联而成。第一卷积层的配置为：卷积核为1，卷积核个数为128，步长为1，补零为0。第一激活层采用ReLU作为激活函数。第二卷积层的配置为：卷积核为1，卷积核个数为1，步长为1，补零为0。第二激活层采用Sigmoid作为激活函数。深度可分离卷积由第一卷积层和第二卷积层串联而成。其中第一卷积层的配置为：卷积核为3，卷积核个数为2048，步长为1，补零为1，分组(groups)为2048；第二卷积层的配置为：卷积核为1，卷积核个数为2048，步长为1，补零为0。对于输入RFB₄的特征图集合R₅和D₅先做连接操作(Concatenate)，并行的经过第一门控单元和第二门控单元，输出的特征分别和R₅和D₅做像素级的点积操作并做连接操作，之后送入一个配置为：卷积核为3,卷积核个数为2048，步长为1，补零为1的卷积层，再然后和RFB₃输入RFB₄的特征图集合F_3out做像素级的相加操作，最终输入到深度可分离卷积进行处理。处理之后的特征图集合记为F_4out。因为是最后一层RFB,所以RFB₄直接输出F_4out。

如图2d所示，对于专门针对遥感图像中尺度变化过大所提出的GCM模块，该模块一共有四个分支，其中第一分支由自适应的全局平均池化、第一卷积层、双线性插值和第一空间注意力模块串联而成，其余分支由不同空洞率(空洞率分别为6，12，18)的空洞卷积和空间注意力模块(分别为第二空间注意力、第三空间注意力、第四空间注意力)串联而成。同时为了减少通道数过多而产生计算量过大的问题，每个分支的卷积层只有空洞率不同其余配置均为：卷积核为3，卷积核个数为256，步长为1。四个分支的输出与输入GCM块的特征图经连接操作后输入第二卷积层，第二卷积层的输出为GCM模块的输出；其中，第二卷积层的配置为：卷积核为1，卷积核个数为256，步长为1，补零为0。

如图2e所示，GCM中的空间注意力模块是在通道维度上对特征图取最大值和平均值，并将它们连接在一起从而变成了所有像素点平均值和最大值的两张特征图。将这两张特征图送入一个卷积核为3、卷积核个数为1的卷积层进行处理，再经过sigmoid函数激活从而得到一张权重特征图，每个像素点的值都是相应像素点的权重，最后和原始特征图相乘并进行像素级的相加操作，从而建立起所有空间位置之间的远程语义依赖关系。四个GCM模块(GCM₁、GCM₂、GCM₃、GCM₄)接收相对应的四个RFB模块(RFB₁、RFB₂、RFB₃、RFB₄)的输出特征图集合(F_1out、F_2out、F_3out、F_4out)，对其进行处理之后输出相对应的特征图集合，记GCM₁输出的特征图集合为

集合中每幅特征图的宽度均为

高度均为

GCM2输出的特征图集合为

集合中每幅特征图的宽度均为

高度均为

GCM3输出的特征图集合为

集合中每幅特征图的宽度均为

高度均为

GCM4输出的特征图集合为

集合中每幅特征图的宽度均为

高度均为

如图2f和图2g所示，对于特征解码阶段的特征渐进融合解码(MAD)，其作用是接收来自GCM模块处理后的特征图，并对特征图做进一步的细化，通过计算任意两个位置之间的相似度直接建立起远程连接，从而完善出更多的细节特征。再接收来自之间MAD完善后的特征，提取出两个特征图集合之间的共性以此来逐步细化完善特征。除了MAD₁其余每个MAD模块可分为自我完善和逐层融合两部分，MAD₁只有自我完善单元。对于自我完善单元来说，记输入特征图集合为F_in，形状为[c,h,w](c为通道数即特征图集合F_in中图片的个数，h和w分别为F_in中每张图片的高度和宽度)。首先F_in并行地经过三个配置为：卷积核为1，卷积核个数为c/4,步长为1，补零为0的三个卷积层(分别为第一卷积层，第二卷积层，第三卷积层)。记第一卷积层得到的特征图集合为F_α；第二卷积层得到的特征图集合为F_β；第三卷积层得到的特征图集合为F_γ。对于F_α、F_β、F_γ来说，形状都为[c/4,h,w]。先对F_α、F_β和F_γ在h,w两个维度上进行矩阵压缩操作，即将h，w两个维度压缩为h×w一个维度，此时F_α、F_β和F_γ的形状为[c/4,h×w]的二维矩阵。对F_α进行矩阵转置即得到形状为[h×w,c/4]的二维矩阵，之后对F_a和F_β进行矩阵乘法操作即可得到形状为[h×w,h×w]的二维矩阵，记为F_δ。对F_δ进行Softmax归一化操作和F_γ进行矩阵相乘操作得到形状为[h×w,c/4]的二维矩阵，记为F_c。对F_c进行矩阵转置和维度扩展变为形状为[c/4，h，w]的特征图集合。经过一个卷积核为1，卷积核个数为c,步长为1，补零为0的第四卷积层处理和输入特征图F_in进行像素级的相加操作。对于MAD₁来说直接进行两倍的双线性插值操作，把特征图扩展为原始特征的2倍大小，然后输入到下一个MAD模块，记为F_out。对于其余MAD模块来说，还有一个逐层融合单元。逐层融合单元接收上一层MAD输出的特征图集合，与原始输入MAD的特征图集合F_in进行像素级的相乘操作，然后和F_out进行像素级的相加操作，最后进行双线性插值操作，将特征图集合里的每幅特征图扩展为原始图像的两倍，输入到下一个MAD模块。

如图2h所示，对于最后一个MAD模块(MAD₄)输出的特征图集合里每幅特征图的宽度均为

高度均为

根据端到端的思想，要求输出特征图和输入特征图保持一致大小，所以还需要对MAD₁输出的特征图集合进一步的扩大。本发明在这里采用了反卷积的方式，构建了一个特征输出块主要由第一卷积层、第一激活层、第一反卷积层、第二激活层、第二卷积层、第三激活层、第二反卷积层、第四激活层和第三卷积层串联而成。其中第一卷积层、第二卷积层第三卷积层的卷积核个数分别为128、64和6，其余配置均为卷积核为1，步长为1，补零为0。第一反卷积层和第二反卷积层的卷积核个数分别为128和64，其余配置均为卷积核为2，步长为2。所有的激活层都采用修正线性单元(ReLU)作为激活方式。最后输出为6通道的预测图。

步骤1_3：将训练集中的每幅原始的遥感图像和数字表面模型通过滑动窗口裁剪、随机裁剪、随机旋转、水平翻转、垂直翻转等数据增强方式后作为原始输入图像，其中Vaihingen训练集的11幅平均分辨率为2493×2063的遥感图像经过数据增强后扩展成17656张分辨率为256×256的遥感图像，Potsdam训练集的17幅平均分辨率为6000×6000的遥感图像数据增强后扩展成35972张分辨率为256×256的遥感图像。将两个训练集的原始输入图像分别输入到卷积神经网络中进行训练，得到训练集中的每幅遥感图像对应的语义分割预测图，将

对应的语义分割预测图构成的集合记为

将

对应的语义分割预测图构成的集合记为

步骤1_4：计算训练集中的每幅原始的遥感图像对应的语义分割预测图构成的集合与对应的真实语义分割图像处理成的独热编码图像构成的集合之间的损失函数值，将

与

之间的损失函数值记为

将

与

之间的损失函数值记为

和

采用分类交叉熵(categorical crossentropy)获得。

步骤1_5：重复执行步骤1_3和步骤1_4共V次，得到卷积神经网络分类训练模型，并共得到Q×V个损失函数值；然后从Q×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项，对应记为W^best和b^best；其中，V＞1，在本实施例中取V＝100。

所述的测试阶段过程的具体步骤为：

步骤2_1：令

表示待语义分割的遥感图像；其中，1≤i'≤W'，1≤j'≤H'，W'表示

的宽度，H'表示

的高度，

表示

中坐标位置为(i,j)的像素点的像素值。

步骤2_2：将

的IR通道分量、R通道分量和G通道分量及其相对应的数字表明模型输入到卷积神经网络分类训练模型中，并利用W^best和b^best进行预测，得到

对应的预测语义分割图像，记为

其中，

表示

中坐标位置为(i',j')的像素点的像素值。

为了进一步验证本发明方法的可行性和有效性，进行实验。

使用基于python的深度学习库pytorch1.6搭建多尺度带孔卷积神经网络的架构。采用遥感图像数据库Vaihingen测试集和Potsdam来分析利用本发明方法预测得到的遥感图像(Vaihingen数据集取5幅遥感图像，图像Potsdam数据集取7副遥感图像)的分割效果如何。这里，利用评估语义分割方法的4个常用客观参量作为评价指标，即类别精确度(ClassAcurracy，Acc)、平均类别准确率(Mean Class Acurracy，mAcc)、每个类别分割图像与标签图像交集与并集的比值(Intersection over Union，IoU)，分割图像与标签图像交集与并集的平均比值(Mean Intersection over Union，MIoU)来评价预测语义分割图像的分割性能。

利用本发明方法对遥感图像数据库Vaihingen和Potsdam测试集中的每幅遥感图像进行预测，得到每幅遥感图像对应的预测语义分割图像，反映本发明方法的语义分割效果的类精确度Acc、平均类别准确率mAcc、每个类别分割图像与标签图像交集与并集的比值IoU、分割图像与标签图像交集与并集的平均比值MIoU如表1和表2所列。从表1和表2所列的数据可知，按本发明方法得到的遥感图像的分割结果是较好的，表明利用本发明方法来获取遥感图像对应的预测语义分割图像是可行性且有效的。

表1利用本发明方法在Vaihingen测试集上的评测结果

表2利用本发明方法在Potsdam测试集上的评测结果

图3a给出了Vaihingen数据集的第1幅原始的遥感图像；图3b给出了利用本发明方法对图3a所示的原始的遥感图像进行预测，得到的预测语义分割图像；图4a给出了Vaihingen数据集的第2幅原始的遥感图像；图4b给出了利用本发明方法对图4a所示的原始的遥感图像进行预测，得到的预测语义分割图像；图5a给出了Potsdam数据集的第1幅原始的道路场景图像；图5b给出了利用本发明方法对图5a所示的原始的道路场景图像进行预测，得到的预测语义分割图像；图6a给出了Potsdam数据集的第2幅原始的道路场景图像；图6b给出了利用本发明方法对图6a所示的原始的遥感图像进行预测，得到的预测语义分割图像。对比图3a和图3b，对比图4a和图4b，对比图5a和图5b，对比图6a和图6b，可以看出利用本发明方法得到的预测语义分割图像的分割精度较高。

Claims

1.一种基于门控融合的遥感图像语义分割方法，其特征在于，包括以下步骤：

步骤1：选取Q幅原始遥感图像及每幅原始遥感图像对应的数字表面模型图像和真实语义分割图像作为训练集；

步骤2：构建卷积神经网络：

步骤3：将训练集输入步骤2构建的卷积神经网络进行训练：

2.根据权利要求1所述的一种基于门控融合的遥感图像语义分割方法，其特征在于，输入模块包括遥感图像输入层和数字表面模型图像输入层；遥感图像输入层的输入为遥感图像，其中遥感图像由三通道组成，包括近红外、红色和绿色波段；数字表面模型图像输入层的输入为数字表面模型图像，数字表面模型图像为经过归一化处理为一通道的灰度图；

3.根据权利要求1所述的一种基于门控融合的遥感图像语义分割方法，其特征在于，

4.根据权利要求3所述的一种基于门控融合的遥感图像语义分割方法，其特征在于，每个RFB块包括四个门控单元、两个残差单元和一个深度可分离卷积；

对于第一个RFB块：

对于第二个RFB块和第三个RFB块：

对于第一个、第二个和第三个RFB块：

对于第四个RFB块：

每个RFB块的第一输出分别输入对应的GCM块。

5.根据权利要求4所述的一种基于门控融合的遥感图像语义分割方法，其特征在于，

6.根据权利要求3所述的一种基于门控融合的遥感图像语义分割方法，其特征在于，

7.根据权利要求6所述的一种基于门控融合的遥感图像语义分割方法，其特征在于，

8.根据权利要求3所述的一种基于门控融合的遥感图像语义分割方法，其特征在于，

对于第一个MAD块：

对于第二个MAD块、第三个MAD块或第四个MAD块：

9.根据权利要求1所述的一种基于门控融合的遥感图像语义分割方法，其特征在于，

高度均为

其中，输出模块输出的语义分割预测图为6通道。