CN112418176A

CN112418176A - 一种基于金字塔池化多级特征融合网络的遥感图像语义分割方法

Info

Publication number: CN112418176A
Application number: CN202011449182.2A
Authority: CN
Inventors: 胡蕾; 李云洪; 胡支波; 翁梦倩
Original assignee: Jiangxi Normal University
Current assignee: Jiangxi Normal University
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2021-02-26

Abstract

本发明公开了一种基于金字塔池化多级特征融合网络的遥感图像语义分割方法，采用ResNet提取特征，将ResNet各阶段提取的特征分别引入到空间金字塔池化结构中提取目标的多尺度信息，在特征提取的最后部分引入双重注意力模块，增强特征表示能力，并采用多层级特征融合策略将池化后特征和双重注意力模块获取的特征进行特征融合，实现遥感图像的精细化分类。

Description

一种基于金字塔池化多级特征融合网络的遥感图像语义分割方法

技术领域

本发明属于数字图像处理技术领域，属于遥感图像地物分类技术，尤其涉及一种基于金字塔池化多级特征融合网络的遥感图像语义分割方法。

背景技术

遥感图像具有覆盖面积大、反映地表直观等特点，遥感图像地物分类广泛应用于土地监测、环境监测、地图制作等。

目前主流的图像语义分割方法大致可以分为两类，传统机器学习的方法和基于深度学习的方法。传统机器学习的方法使用对象的颜色、纹理、形状和空间位置关系来提取特征，然使用聚类、分类等算法对图像进行分割。但这些方法很大程度依赖手工设计的特征，特征表达能力有限，在复杂场景的图像分割效果显示了瓶颈。近年来，基于深度学习的方法，被认为是当前解决图像语义分割问题最有前景的一种方法。典型的基于深度学习的方法有：2015年提出的全卷积神经网络(fully convolutional neural network，FCN)，首次实现了端对端的图像分割，并在自然场景图像中取得了较好的效果。对称的编码-解码网络U-Net，在编码阶段提取图像特征，在解码阶段恢复特征图的分辨率。DeconvNet网络通过反卷积和上池化操作获得更精细的分割结果。DeepLab系列网络提出空洞卷积结构，在增大感受野的同时保持特征图分辨率不变。

现有图像语义分割方法都在一定程度改善或解决了复杂图像场景的语义分割问题，与自然图像相比，遥感图像中地物复杂多样，利用图像语义分割实现遥感图像地物分类的技术仍需提升。

发明内容

本发明所要解决的技术问题在于提供一种基于金字塔池化多级特征融合网络的遥感图像语义分割方法，采用图像语义分割的方式实现遥感图像地物分类。

为实现上述目的，本发明采用以下技术方案：

基于金字塔池化多级特征融合网络的遥感图像语义分割方法，其特征在于，所构建的网络包括训练样本集的准备、基于ResNet图像特征提取、金字塔池化、双重注意力处理、特征融合与预测步骤；

所述训练样本集的准备的过程为：将已分类标注的高分辨率遥感图像按256×256大小随机裁剪出一系列图像块，作为初始样本集，采用旋转、翻转、加噪等方式对初始样本集进行增广，得到训练样本集；

所述于ResNet图像特征提取的过程为：训练样本集中的图像块逐一输入到模型中，对模型进行训练，采用ResNet提取图像特征，ResNet主要包含Conv、Stage1、Stage2、Stage3、Stage4五个子步骤，每个子步骤的输出特征图分别记为：FM0、FM1、FM2、FM3、FM4；

所述金字塔池化的过程为：将特征图FM1、FM2、FM3、FM4分别作为金字塔池化结构的输入，从而提取不同尺度上下文信息，特征图FM1、FM2、FM3、FM4经过金字塔池化结构后的输出分别记为：C1、C2、C3、C4；

所述双重注意力处理的过程为：双重注意力处理分为上下两个注意力模块，分别为位置和通道注意力，特征图FM4分别作为上下两个注意力模块的输入，经过这两个注意力模块后，得到注意力模块融合输出特征图AFM；

所述特征融合与预测，其过程为：将通过双重注意力网络、金字塔池化和卷积操作得到的特征图进行融合，通过softmax层计算出每个像素点在不同通道的概率值，最大概率所在通道判为这个像素点的预测类别。

进一步地，还包括反向传播步骤：将预测的类别再与真实分类标签进行比较差距，即得到损失loss，根据损失对网络模型中的参数进行更新。

进一步地，ResNet图像特征提取五个子步骤具体为：其中网络层数为50，使用三层卷积的残差块结构；

子步骤Conv：filters为64，kernel为7×7，strides为2，padding为“valid”，Conv所得的特征图记为FM0；

子步骤Stage1：FM0作为输入，经过最大池化(maxpool)操作、一个步长为1的conv_block()模块、两个identity_block()模块得到Stage1的特征，涉及的filters列表是[64,64,256]，Stage1所得特征图记为FM1；

子步骤Stage2：FM1作为输入，经过一个步长为2的conv_block()模块、三个identity_block()模块得到Stage2的特征图，涉及的filters列表是[128,128,512]，Stage2所得特征图记为FM2；

子步骤Stage3：FM2作为输入，经过一个步长为1的conv_block()模块、5个identity_block()模块得到Stage3的特征图，涉及的filters列表是[256,256,1024]、扩张率列表是[1,2,1]，Stage3所得特征图记为FM3；

子步骤Stage4：FM3作为输入，经过一个步长为1的conv_block()模块、2个identity_block()模块得到Stage4的特征图，涉及的filters列表是[512,512,2048]、扩张率列表是[1,4,1]，Stage4所得特征图记为FM4；

其中，最大池化(maxpool)操作细节为：池化核(pool_size)为2×2，strides为2，padding为“same”；

其中，conv_block()模块包含四层卷积操作和一个Add()操作，四层卷积的卷积核大小分别是1×1、3×3、1×1、1×1，每一层的filters分别从每个部分的filters列表中依次取值，类似的，扩张率(dilation_rate)也分别从每个部分的扩张率列表中依次取值，前两层卷积操作后面分别都紧跟归一化、激活函数(relu)操作，第三层卷积后面只跟归一化操作，第四层卷积的输入与第一层卷积的输入是相同的，第四层卷积后面只跟归一化操作，将第三层卷积得到特征图与第四层得到的特征图进行Add()求和操作，最后进行一步激活函数(relu)操作；

其中，identity_block()模块有三层卷积操作和一个Add()操作，三层卷积的卷积核大小分别是1×1、3×3、1×1，三层卷积的扩张率(dilation_rate)分别从每个部分的扩张率列表中依次取值，前两层卷积操作后都紧跟归一化、激活函数(relu)操作，第三层卷积后只有归一化操作，然后是将经过conv_block()模块得到的特征图与第三卷基层的输出特征图进行Add()操作，Add()操作后进行归一化处理。

进一步地，所述金字塔池化的过程中特征图FM1、FM2、FM3、FM4经过金字塔池化结构后的输出特征C1、C2、C3、C4的具体步骤为：输入的特征图为FMn，输出特征图为Cn，n为1、2、3、4，

(1)将输入的特征图FMn通过平均池化层使得金字塔每层的大小分别为1×1，4×4，16×16；

(2)将金字塔每层通过1×1卷积降低通道数为原来的1/3，得到特征图分别为P1,P2,P3；

(3)将P1,P2,P3进行双线性插值填充上采样到原来FMn尺寸大小；

(4)将上采样后的特征图与FMn进行通道拼接(Concat)得到通道数增加1倍的特征图P；

(5)利用1×1卷积核将拼接后的特征图P进行卷积操作降低通道得到与输入特征图FMn通道数一致的特征图Cn。

进一步地，所述双重注意力处理的过程中位置注意力具体为：

(1)特征图FM4∈R^(C×H×W)，分别通过3个卷积层得到特征图B、C、D，并将它们reshape为C×N，其中N＝H×W；

(2)将reshape后的B的转置(N×C)与reshape后的C(C×N)相乘，再通过softmax得到任意两点特征之间的关联强度矩阵S；

(3)在reshape后的D(C×N)和S的转置(N×N)之间执行矩阵乘法，再乘以尺度系数α，再reshape为原来形状，与A相加得到最后的输出Ep，其中α初始化为0，并逐渐的学习得到更大的权重；

通道注意力具体为：

(1)分别对FM4做reshape(C×N)，reshape与transpose(N×C)操作；

(2)将第一步得到的两个特征图相乘，再通过softmax得到通道注意力图X；

(3)把X的转置(C×C)与reshape的A(C×N)做矩阵乘法，再乘以尺度系数β，再reshape为原来形状，与A相加得到特征图Ec，其中β初始化为0，并逐渐的学习得到更大的权重；

所述双重注意力处理的过程中将通过位置注意力得到特征图Ep和通道注意力得到特征图Ec进行相加融合得到特征图AFM。

进一步地，所述特征融合与预测过程中将通过双重注意力网络、金字塔池化和卷积操作得到的特征图进行融合，具体为：

(1)双重注意力模块得到的特征图AMF与ResNet中Stage4经过金字塔池化结构的输出特征图C4，各自通过1x1卷积降低到相同通道数量，并进行Add()操作得到特征图D4；

(2)采用类似操作逐层向前融合，分别得到特征图D3、D2、D1，其中，D3与C2以及D2与C1进行Add()后，需进行2倍的上采样操作；

(3)为了充分利用低层特征，同时考虑到最低层通道数量通常较少，将特征图D1与ResNet步长为2的下采样后的特征图FM0进行通道叠加融，具体为Concat()操作；

(4)对经过(3)得到的特征图进行2倍上采样还原到输入尺寸大小，再通过1×1卷积将通道数与类别数保持一致，通过softmax层计算出每个像素点在不同通道的概率值，最大概率所在通道就是这个像素点的类别，实现每个类别的预测，得到分割结果。

本发明的有益效果：

1.遥感图像中地物复杂多样，目标尺寸大小不一，本发明引入金字塔池化结构，针对不同层级的特征，使用金字塔池化结构提取图像多尺度信息，有利于适应目标尺度变化。

2.本发明在特征提取后加入双重注意力模块，对空间和通道维度上语义关系进行建模，并对特征提取各阶段的输出特征逐步融合不同层级特征，充分利用低层空间信息和高层语义信息，有利于改善小目标分割效果。

附图说明

图1为本发明的总体处理框图；

图2为金字塔池化结构示意图；

图3为双重注意力模块示意图；

图4a为遥感图像示例图1；

图4b为遥感图像示例图1的实际地物分类结果示例图；

图4c为遥感图像示例图1在本发明方法下的语义分割结果；

图5a为遥感图像示例图2；

图5b为遥感图像示例图2的实际地物分类结果示例图；

图5c为遥感图像示例图2在本发明方法下的语义分割结果。

具体实施方式

下面结合附图及实施例对本发明作进一步说明。本发明所操作的对象为中高分辨率遥感图像，至少包含红、绿、蓝等波段的光谱信息，为训练发明所提出的模型需有一定数量的已标注遥感图像作为训练样本。具体实施过程，以一幅遥感图像及其对应的标注的处理过程为例进行说明，图1给出了本发明的总体处理框图，下面对本发明的具体实施步骤进行详细说明。本发明的实现共分为五个主要步骤，分别为：

步骤1：训练样本集的准备

模型训练需要大量的样本，本发明将已分类标注的高分辨率遥感图像按256×256大小随机裁剪出一系列图像块，作为初始样本集，采用旋转、翻转、加噪等方式对初始样本集进行增广，得到训练样本集，建议训练样本集数量大于10000，充足的训练样本有利于避免模型过拟合。

步骤2：ResNet图像特征提取

训练样本集中的图像块逐一输入到模型中，对模型进行训练。模型采用ResNet提取图像特征，其中网络层数为50，使用三层卷积的残差块结构，ResNet主要包含Conv、Stage1、Stage2、Stage3、Stage4五个子步骤，具体为：

步骤3：金字塔池化

将步骤2中Stage1、Stage2、Stage3和Stage4四个子步骤的输出特征图FM1、FM2、FM3、FM4分别送入金字塔池化结构(图2)，提取不同尺度上下文信息，以FM1为例，具体为：

(1)将输入的特征图FM1通过平均池化层使得金字塔每层的大小分别为1×1，4×4，16×16；

(3)将P1,P2,P3进行双线性插值填充上采样到原来FM1尺寸大小；

(4)将上采样后的特征图与FM1进行通道拼接(Concat)得到通道数增加1倍的特征图P；

(5)利用1×1卷积核将拼接后的特征图P进行卷积操作降低通道得到与输入特征图FM1通道数一致的特征图C1。

步骤4：双重注意力处理

双重注意力模块示意图如图3所示，该模块分为上下两个注意力模块，分别为位置和通道注意力。步骤2中Stage4的输出特征图FM4作为本步骤的输入，分别经过这两个注意力模块得到注意力模块特征图AFM。

其中位置注意力具体为：

(3)在reshape后的D(C×N)和S的转置(N×N)之间执行矩阵乘法，再乘以尺度系数α，再reshape为原来形状，与A相加得到最后的输出Ep，其中α初始化为0，并逐渐的学习得到更大的权重。

其中通道注意力具体为：

(1)分别对FM4做reshape(C×N)，reshape与transpose(N×C)操作；

(3)把X的转置(C×C)与reshape的A(C×N)做矩阵乘法，再乘以尺度系数β，再reshape为原来形状，与A相加得到特征图Ec，其中β初始化为0，并逐渐的学习得到更大的权重。

将通过位置注意力得到特征图Ep和通道注意力得到特征图Ec进行相加融合得到特征图AFM。

步骤5：特征融合与预测

将通过双重注意力网络、金字塔池化和卷积操作得到的特征图进行融合，具体为：

(2)采用类似操作逐层向前融合，分别得到特征图D3、D2、D1(其中，D3与C2以及D2与C1进行Add()后，需进行2倍的上采样操作)。

(3)为了充分利用低层特征，同时考虑到最低层通道数量通常较少，将特征图D1与ResNet步长为2的下采样后的特征图FM0进行通道叠加融合(Concat()操作)。

步骤6：反向传播

将预测的类别再与标签(也就是真实分类)进行比较差距，即得到损失loss，根据损失对网络模型中的参数进行更新。

图4和图5给出了两幅遥感图像在本发明方法下的语义分割结果，其中图4a和图5a为遥感图像，图4b和图5b为实际地物分类结果，图4c和图5c为本发明方法下的语义分割结果，将遥感图像中的地物分为植被(草绿色)、建筑物(黄绿色)、水体(蓝色)、道路(棕色)、其他类(黑色)五类。

本发明所提供的遥感图像语义分割方法，主要是为了提高遥感图像地物分类而专门提出。但显然，本图像语义分割方法适用于场景等图像的语义分类。

Claims

1.基于金字塔池化多级特征融合网络的遥感图像语义分割方法，其特征在于，所构建的网络包括训练样本集的准备、基于ResNet图像特征提取、金字塔池化、双重注意力处理、特征融合与预测步骤；

2.根据权利要求1所述的基于金字塔池化多级特征融合网络的遥感图像语义分割方法，其特征在于，还包括反向传播步骤：将预测的类别再与真实分类标签进行比较差距，即得到损失loss，根据损失对网络模型中的参数进行更新。

3.根据权利要求1或2所述的基于金字塔池化多级特征融合网络的遥感图像语义分割方法，其特征在于，ResNet图像特征提取五个子步骤具体为：其中网络层数为50，使用三层卷积的残差块结构；

4.根据权利要求1或2所述的基于金字塔池化多级特征融合网络的遥感图像语义分割方法，其特征在于，所述金字塔池化的过程中特征图FM1、FM2、FM3、FM4经过金字塔池化结构后的输出特征C1、C2、C3、C4的具体步骤为：输入的特征图为FMn，输出特征图为Cn，n为1、2、3、4，

(3)将P1,P2,P3进行双线性插值填充上采样到原来FMn尺寸大小；

5.根据权利要求1或2所述的基于金字塔池化多级特征融合网络的遥感图像语义分割方法，其特征在于，所述双重注意力处理的过程中位置注意力具体为：

通道注意力具体为：

(1)分别对FM4做reshape(C×N)，reshape与transpose(N×C)操作；

6.根据权利要求1或2所述的基于金字塔池化多级特征融合网络的遥感图像语义分割方法，其特征在于，所述特征融合与预测过程中将通过双重注意力网络、金字塔池化和卷积操作得到的特征图进行融合，具体为：