CN113807210B

CN113807210B - 一种基于金字塔切分注意力模块的遥感图像语义分割方法

Info

Publication number: CN113807210B
Application number: CN202111009766.2A
Authority: CN
Inventors: 李军怀; 乔路琪; 王怀军; 曹霆; 安洋
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2023-09-15
Anticipated expiration: 2041-08-31
Also published as: CN113807210A

Abstract

本发明公开了一种基于金字塔切分注意力模块的遥感图像语义分割方法，首先获取高分辨率遥感影像，构建遥感图像多类别语义分割数据集；将数据集分为训练集和测试集，采用基于最佳波段指数OIF选择适合遥感地物分类的最佳波段组合，并将选择后的波段组合作为输入数据；然后搭建基于金字塔切分注意力模块的遥感图像语义分割模型对数据集进行训练，得到带有最优参数的遥感图像语义分割模型；将待识别的高分辨率遥感影像送入带有最优参数的遥感图像语义分割模型中进行识别，最后得到遥感图像语义分割的识别结果。本发明用以解决在深度卷积神经网络过程中小目标特征逐渐遗失的问题，同时提高对高分辨率遥感图像语义分割的分割精度。

Description

一种基于金字塔切分注意力模块的遥感图像语义分割方法

技术领域

本发明属于遥感图像语义分割技术领域，具体涉及一种基于金字塔切分注意力模块的遥感图像语义分割方法。

背景技术

高分辨率遥感图像的处理在军事、商业、农业等领域都产生了很大的影响。遥感图像分辨率及解析力的提升能够带动相关产业的发展。在土地使用、环境变化监测、交通运输等方面都对遥感图像的分割提取有极大的需求。从遥感图像中自动进行类别提取和分割，并获取其精确的边缘轮廓信息，始终是遥感图像自动化解译方向追求的目标。

遥感图像具有分辨率高、背景复杂，目标尺度不一致、维度高等特点，传统的分割方法无法针对遥感图像自身特点，获取高精度的分割结果，同时在图像解译等方面耗费大量的人力物力。而近年来深度学习由于其智能化程度高在遥感图像领域得到充分发展。

尽管深度卷积神经网络具有强大的学习能力和特征表示能力，但在复杂场景下进行语义分割仍面临诸多困难和挑战。因此本发明所涉及的一种基于金字塔切分注意力模块的遥感图像语义分割方法，能有效针对遥感图像目标尺度不一致，目标区域的条状部位在深度卷积神经网络中进行特征提取时，小目标特征逐渐遗失等问题，同时获得更高的分割精度。

发明内容

本发明的目的是提供一种基于金字塔切分注意力模块的遥感图像语义分割方法，用以解决在深度卷积神经网络过程中小目标特征逐渐遗失的问题，同时提高对高分辨率遥感图像语义分割的分割精度。

本发明所采用的技术方案是，一种基于金字塔切分注意力模块的遥感图像语义分割方法，具体按照以下步骤实施：

步骤1、获取高分辨率遥感影像，构建遥感图像多类别语义分割数据集；将遥感图像多类别语义分割数据集按照9:1划分为训练集和测试集，并将训练集和测试集采用基于最佳波段指数OIF选择适合遥感地物分类的最佳波段组合，并将选择后的波段组合作为输入数据；

步骤2、搭建基于金字塔切分注意力模块的遥感图像语义分割模型；

步骤3、将步骤1中的遥感图像多类别语义分割数据集送入所述步骤2中的遥感图像语义分割模型中进行训练，得到带有最优参数的遥感图像语义分割模型；

步骤4、对待识别的高分辨率遥感影像采用256×256大小的滑动窗口无重叠的进行读取，然后依次送入所述步骤3中带有最优参数的遥感图像语义分割模型中进行识别，最后得到遥感图像语义分割的识别结果。

本发明的特点还在于，

步骤1具体按照以下步骤实施：

步骤1.1、获取成像波段为R、G、B、Nir的高分辨率遥感多光谱图像，数据覆盖地貌包括河流、山地、平原在内的地区，遥感图像保存格式为tif文件，人工进行标注，标注的对象为所要分割的裸地、草地、林地、水域、道路在内的目标，标注后生成标签数据格式为单通道的png；并将影像和对应的标签数据裁剪为256×256像素大小；

步骤1.2、通过标签数据筛选出数目较少的类别的遥感图像，即道路、水域、居民用房在内的类别对象，采用标准扩孔技术随机翻转、缩放、饱和和Mixup混合增强方式进行数据增广，使得各个类别的图像数据都处在同一数量级；按照9:1的比例划分为训练集和测试集，且两者未有交集；

步骤1.3、将训练集和测试集中的图像采用基于最佳波段指数OIF选择适合遥感地物分类的最佳波段组合，并将选择后的波段组合作为输入数据。

步骤2采用编码器-解码器结构搭建基于金字塔切分注意力模块的遥感图像语义分割模型，其中编码器包括主干网络、引入金字塔切分注意力模块的特征增强网络和多级特征融合网络三部分；

主干网络：采用移除最后一层全连接层的Resnet-101进行遥感图像高维特征提取，Resnet采用Bottleneck残差模块，从浅层到深层依次得到五个不同层次的特征图，分别记为L0、L1、L2、L3、L4；

引入金字塔切分注意力模块的特征增强网络：特征增强网络在主干网络输出的特征图L4后引入空洞空间金字塔池化ASPP模块用于空间特征信息获取，同时采用金字塔切分注意力PSA模块进行特征增强，最后将二者得到的特征图进行特征融合，得到增强的深层特征图output_Y1；

多级特征融合网络：在主干网络中间的三层特征图L1、L2、L3后分别采用金字塔切分注意力PSA模块，进行多尺度和跨信道的特征增强，并将增强后的特征图采用层层级联的方式进行特征融合，得到融合后的深层特征图output_Y2；

解码器对深层特征图output_Y1采用双线性插值进行4倍上采样后与深层特征图output_Y2进行特征融合，融合后采用深度可分离卷积重新定义遥感图像高维特征，最后再次采用双线性插值进行上采样恢复至原图尺寸；

至此基于金字塔切分注意力模块的遥感图像语义分割模型搭建完成。

步骤2中特征增强网络中的空洞空间金字塔池化ASPP分别由1个1×1卷积、3个空洞率分别为6、12、18的3×3的卷积和一个平均池化层并行构成；特征图L4尺寸为2048×16×16，经过ASPP分别输出5个通道数为256的特征图，沿通道方向对其进行合并，合并后的通道数为5×256，再利用1×1卷积进行降维，通道数降为256，输出的特征图output_X1尺寸为256×16×16。

步骤2中的特征增强网络和多级特征融合网络中PSA模块通过四个步骤实现：

(1)利用多尺度特征提取算子SPC模块将输入的特征图X沿通道数切分为S块，用X_i表示每个单独的块，i＝0,1…S-1，每个块有C′＝C/S个通道数，对每个块进行分组卷积，独立学习多尺度空间信息，并以局部方式建立跨信道交互，生成不同尺度的特征图F_i，再通过级联方式生成完整的多尺度特征图F；

不同尺度的特征图F_i表示为：

F_i＝Conv(K_i×K_iG_i)(X_i)i＝0,1,2…S-1

其中，K为卷积核大小，G为分组大小，第i个卷积核大小K_i＝2×(i+1)+1,第i个分组大小F_i∈R^C×H×W表示不同尺度的特征图；

整个多尺度特征图F∈R^C×H×W表示为：

F＝Cat([F₀,F₁,F₂…,F_S-1])；

(2)利用通道注意力模块提取不同尺度特征图的通道注意力向量，再通过串联方式得到整个多尺度通道注意力向量；

不同尺度上的通道注意力向量Z_i表示为：

Z_i＝SEWeight(F_I),i＝0,1,2,…S-1

整个多尺度通道注意力向量Z的串联方式为：

(3)利用Softmax激活函数对不同尺度上的通道注意力向量Z_i进行特征重新标定，得到新的不同尺度通道交互后的注意力权重att_i，建立部分与全局通道注意力的关系；将特征重新标定后的注意力权重以串联的方式进行融和，得到整个多尺度通道注意力权重att；

不同尺度上的通道注意力权重att_i表示为：

整个多尺度通道注意力权重att表示为：

(4)对重新标定后的通道注意力权重att_i和对应的特征图F_i按元素进行点乘操作，得到一个不同尺度特征信息注意力加权之后的特征图Y_i；最后在将加权后的特征图Y_i进行拼接，得到完整的特征图Out；

不同尺度特征信息注意力加权之后的特征图Y_i表示为：

Y_i＝F_i⊙att_i i＝1,2,3…,S-1

完整的特征信息注意力加权之后的特征图Out表示为：

Out＝Cat([Y₀,Y₁,…,Y_S-1])

特征图Out为经过PSA模块得到的多尺度特征信息更丰富的精细化特征图。

步骤2中的特征增强网络使用PSA模块将输入的特征图L4从通道上切分为4组，设置卷积核大小为K＝{3,5,7,9}，分组大小为G＝{1,4,8,16}，得到精细化特征图output_X2，精细化特征图output_X2尺寸为256×16×16；

将特征图output_X1和output_X2进行特征融合，融合后采用1×1卷积重新定义特征并降维，再采用双线性插值进行4倍上采样，恢复至原图的1/4，输出特征图output_Y1尺寸为256×64×64。

多级融合网络具体为：在特征图L1、L2、L3后分别引入PSA模块进行特征增强，分别输出增强后的特征图为C1、C2、C3；首先对特征图C3进行2倍上采样后与特征图C2进行特征融合，融合后得到特征图output_X3；其次将特征图output_X3进行2倍上采样后与特征图C1进行特征融合，融合后得到特征图output_Y2，特征图output_Y2尺寸为原图的1/4。

解码器首先对深层特征图output_Y1采用双线性插值进行二倍上采样，恢复至原图1/4，然后与深层特征图output_Y2进行特征融合，融合后再采用两个3×3的深度可分离卷积重新定义遥感图像的高维特征，最后再次采用双线性插值进行上采样恢复至原图尺寸。

步骤3具体按照以下步骤实施：

根据遥感图像语义分割模型的参数量，将批大小设置为16；

采用的优化函数是带动量的随机梯度下降法SGD，遥感图像语义分割模型的初始学习率定为0.01，采用poly学习率调度，动量设为0.9，权重衰减设为0.0001，通过训练数据的反向迭代更新整个网络的权值参数，同时应用交叉熵损失函数加强网络训练过程，从而使网络能够学习到针对遥感图像语义分割这一特定问题的最优参数，训练完成生成带有最优参数的遥感图像语义分割模型。

本发明的有益效果是，(1)采用基于OIF选择适合遥感地物的最佳波段组合作为遥感影像的输入数据，能有效利用遥感影像的多波段特性，更好地区分具有细微光谱特征差异的地物。(2)在深度特征提取网络，由于长期采用卷积池化导致部分空间信息丢失，因此提出了一种引入金字塔切分注意力模块的特征增强网络用来增强特征信息，PSA模块能有效地提取粒度更细的多尺度空间信息，建立长期的通道依赖关系；(3)提出了一种多级特征融合网络，能够将Resnet-101提取的不同深度的特征图增强后进行融合，有效避免在深度卷积神经网络进行特征提取的过程中，目标呈线状的部分或小目标遗失的问题。

附图说明

图1是本发明一种基于金字塔切分注意力模块的遥感图像语义分割方法的整体流程图；

图2是本发明一种基于金字塔切分注意力模块的遥感图像语义分割方法的总体神经网络结构图。

图3是本发明一种基于金字塔切分注意力模块的遥感图像语义分割方法中引入金字塔切分注意力模块的特征增强网络结构图。

图4是本发明一种基于金字塔切分注意力模块的遥感图像语义分割方法的多级特征融合网络结构图。

图5是本发明一种基于金字塔切分注意力模块的遥感图像语义分割方法中所涉及的PSA模块网络结构图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于金字塔切分注意力模块的遥感图像语义分割方法，流程图如图1所示，具体按照以下步骤实施：

步骤1具体按照以下步骤实施：

步骤1.2、通过标签数据筛选出数目较少的类别的遥感图像，即道路、水域、居民用房在内的类别对象，并采用标准扩孔技术随机翻转、缩放、饱和和Mixup混合增强方式进行数据增广，使得各个类别的图像数据都处在同一数量级；按照9:1的比例划分为训练集和测试集，且两者未有交集；

结合图2～图5，步骤2、搭建基于金字塔切分注意力模块的遥感图像语义分割模型；

主干网络：采用移除最后一层全连接层的Resnet-101进行遥感图像高维特征提取，Resnet采用Bottleneck残差模块，解决深度学习随着网络层数的加深梯度逐渐消失的问题，同时具有更高的分类精度和更小的参数量，从浅层到深层依次得到五个不同层次的特征图，分别记为L0、L1、L2、L3、L4；

引入金字塔切分注意力模块的特征增强网络：解决空洞卷积带来的空间信息丢失的问题，能够有效地提取粒度更细的多尺度空间信息，建立长期的通道依赖关系。特征增强网络如附图3所示，特征增强网络在主干网络输出的特征图L4后引入空洞空间金字塔池化ASPP(Atrous Spatial Pyramid Pooling)模块用于空间特征信息获取，但连续的卷积池化操作造成的空间细节信息损失对于图像的准确分割产生的不利影响，因此同时采用金字塔切分注意力PSA(Pyramid Split Attention)模块进行特征增强，PSA模块能有效地提取粒度更细的多尺度空间信息，同时建立长期的通道依赖关系。最后将二者得到的特征图进行特征融合，得到增强的深层特征图output_Y1；

多级特征融合网络：解决深度卷积神经网络过程中小目标特征遗失的问题。多级特征融合网络结构图如附图4所示，在主干网络中间的三层特征图L1、L2、L3后分别采用金字塔切分注意力PSA模块，进行多尺度和跨信道的特征增强，并将增强后的特征图采用层层级联的方式进行特征融合，可以有效的保留小目标的特征信息，很大程度上避免在深度卷积神经网络中小目标特征遗失的问题，得到融合后的深层特征图output_Y2；

步骤2中的特征增强网络和多级特征融合网络中PSA模块的网络结构图如附图5所示，PSA模块通过四个步骤实现：

不同尺度的特征图F_i表示为：

F_i＝Conv(K_i×K_iG_i)(X_i)i＝0,1,2…S-1

整个多尺度特征图F∈R^C×H×W表示为：

F＝Cat([F₀,F₁,F₂…,F_S-1])；

(2)利用通道注意力(SE weight)模块提取不同尺度特征图的通道注意力向量，再通过串联方式得到整个多尺度通道注意力向量；

不同尺度上的通道注意力向量Z_i表示为：

Z_i＝SEWeight(F_I),i＝0,1,2,…S-1

整个多尺度通道注意力向量Z的串联方式为：

不同尺度上的通道注意力权重att_i表示为：

整个多尺度通道注意力权重att表示为：

不同尺度特征信息注意力加权之后的特征图Y_i表示为：

Y_i＝F_i⊙att_i i＝1,2,3…,S-1

完整的特征信息注意力加权之后的特征图Out表示为：

Out＝Cat([Y₀,Y₁,…,Y_S-1])

步骤2中的特征增强网络具体为：使用PSA模块将输入的特征图L4从通道上切分为4组，设置卷积核大小为K＝{3,5,7,9}，分组大小为G＝{1,4,8,16}，得到一个多尺度特征信息更丰富的精细化特征图output_X2，精细化特征图output_X2尺寸为256×16×16；

解码器首先对深层特征图output_Y1采用双线性插值进行二倍上采样，恢复至原图1/4，然后与深层特征图output_Y2进行特征融合，融合后再采用两个3×3的深度可分离卷积重新定义遥感图像的高维特征，最后再次采用双线性插值进行上采样恢复至原图尺寸；

步骤3具体按照以下步骤实施：

计算机硬件方面，GPU选择NVDIAGTX 1080，拥有2560个计算单元以及8GB的显卡容量，根据遥感图像语义分割模型的参数量，将批大小(batch_size)设置为16；

为了降低损失和更新整个网络的参数，采用的优化函数是带动量的随机梯度下降法SGD，遥感图像语义分割模型的初始学习率定为0.01，采用poly学习率调度(learningrate scheduler)，动量设为0.9，权重衰减设为0.0001，通过训练数据的反向迭代更新整个网络的权值参数，同时应用交叉熵损失函数加强网络训练过程，从而使网络能够学习到针对遥感图像语义分割这一特定问题的最优参数，训练完成生成带有最优参数的遥感图像语义分割模型。

步骤4、对待识别的高分辨率遥感影像采用256×256大小的滑动窗口无重叠的进行读取，滑动窗口能够减少网络模型产生的拼接痕迹，提高模型泛化能力，同时采用小尺寸图片可以降低对内存的消耗。然后依次送入所述步骤3中带有最优参数的遥感图像语义分割模型中进行识别，最后得到遥感图像语义分割的识别结果。

Claims

1.一种基于金字塔切分注意力模块的遥感图像语义分割方法，其特征在于，具体按照以下步骤实施：

所述步骤2采用编码器-解码器结构搭建基于金字塔切分注意力模块的遥感图像语义分割模型，其中编码器包括主干网络、引入金字塔切分注意力模块的特征增强网络和多级特征融合网络三部分；

主干网络：采用移除最后一层全连接层的Resnet-101进行遥感图像高维特征提取，Resnet采用Bottleneck的残差模块，从浅层到深层依次得到五个不同层次的特征图，分别记为L0、L1、L2、L3、L4；

至此基于金字塔切分注意力模块的遥感图像语义分割模型搭建完成；

所述步骤2中特征增强网络中的空洞空间金字塔池化ASPP分别由1个1×1卷积、3个空洞率分别为6、12、18的3×3的卷积和一个平均池化层并行构成；特征图L4尺寸为2048×16×16，经过ASPP分别输出5个通道数为256的特征图，沿通道方向对其进行合并，合并后的通道数为5×256，再利用1×1卷积进行降维，通道数降为256，输出的特征图output_X1尺寸为256×16×16；

所述步骤2中的特征增强网络和多级特征融合网络中PSA模块通过四个步骤实现：

不同尺度的特征图F_i表示为：

F_i＝Conv(K_i×K_iG_i)(X_i)i＝0,1,2…S-1

其中，K为卷积核大小，G为分组大小，第i个卷积核大小K_i＝2×(i+1)+1，第i个分组大小F_i∈R^C′×H×W表示不同尺度的特征图；

整个多尺度特征图F∈R^C×H×W表示为：

F＝Cat([F₀,F₁,F₂…,F_S-1])；

不同尺度上的通道注意力向量Z_i表示为：

Z_i＝SEWeight(F_I),i＝0,1,2,…S-1

整个多尺度通道注意力向量Z的串联方式为：

不同尺度上的通道注意力权重att_i表示为：

整个多尺度通道注意力权重att表示为：

不同尺度特征信息注意力加权之后的特征图Y_i表示为：

Y_i＝F_i⊙att_ii＝1,2,3…,S-1

完整的特征信息注意力加权之后的特征图Out表示为：

Out＝Cat([Y₀,Y₁,…,Y_S-1])

特征图Out为经过PSA模块得到的多尺度特征信息更丰富的精细化特征图；

所述特征增强网络具体为：使用PSA模块将输入的特征图L4从通道上切分为4组，设置卷积核大小为K＝{3,5,7,9}，分组大小为G＝{1,4,8,16}，得到精细化特征图output_X2，精细化特征图output_X2尺寸为256×16×16；

将特征图output_X1和output_X2进行特征融合，融合后采用1×1卷积重新定义特征并降维，再采用双线性插值进行4倍上采样，恢复至原图的1/4，输出特征图output_Y1尺寸为256×64×64；

所述多级融合网络具体为：在特征图L1、L2、L3后分别引入PSA模块进行特征增强，分别输出增强后的特征图为C1、C2、C3；首先对特征图C3进行2倍上采样后与特征图C2进行特征融合，融合后得到特征图output_X3；其次将特征图output_X3进行2倍上采样后与特征图C1进行特征融合，融合后得到特征图output_Y2，特征图output_Y2尺寸为原图的1/4；

步骤3、将步骤1中的遥感图像多类别语义分割数据集送入所述步骤2中的遥感图像语义分割模型中进行训练，得到带有最优参数的遥感图像多语义分割模型；

2.根据权利要求1所述的一种基于金字塔切分注意力模块的遥感图像语义分割方法，其特征在于，所述步骤1具体按照以下步骤实施：

3.根据权利要求2所述的一种基于金字塔切分注意力模块的遥感图像语义分割方法，其特征在于，所述解码器首先对深层特征图output_Y1采用双线性插值进行二倍上采样，恢复至原图1/4，然后与深层特征图output_Y2进行特征融合，融合后再采用两个3×3的深度可分离卷积重新定义遥感图像的高维特征，最后再次采用双线性插值进行上采样恢复至原图尺寸。

4.根据权利要求1所述的一种基于金字塔切分注意力模块的遥感图像语义分割方法，其特征在于，所述步骤3具体按照以下步骤实施：

根据遥感图像语义分割模型的参数量，将批大小设置为16；