CN115170985A

CN115170985A - 一种基于阈值注意力的遥感图像语义分割网络及分割方法

Info

Publication number: CN115170985A
Application number: CN202210876357.0A
Authority: CN
Inventors: 滕亦皓; 龙伟; 张永军; 欧阳婷; 曲彦桥; 黄贵圣
Original assignee: Guizhou Wasu Cloud Valley Technology Co ltd; Guizhou University
Current assignee: Guizhou Wasu Cloud Valley Technology Co ltd; Guizhou University
Priority date: 2022-07-25
Filing date: 2022-07-25
Publication date: 2022-10-11
Anticipated expiration: 2042-07-25
Also published as: CN115170985B

Abstract

本发明提供一种基于阈值注意力的遥感图像语义分割网络及分割方法，它包含有主干网络、注意力特征增强模块和阈值注意力金字塔池化模块，所述主干网络使用预先在ImageNet Image数据集上训练过的ResNet101，并且将其最后两个下采样层替换成膨胀卷积层，用来对输入图片进行特征的提取；所述注意力特征增强模块由三个支路组成，分别为全局平均池化、阈值注意力模块和残差连接组成，帮助网络增强浅层网络所获得的特征信息；所述阈值注意力金字塔池化可以分为三个部分，分别为不同扩张率的膨胀卷积支路、全局平均池化支路和阈值注意力支路，使得网络能够获取输入特征的不同感受野，同时获取更多的全局上下文信息。

Description

一种基于阈值注意力的遥感图像语义分割网络及分割方法

技术领域

本发明属于计算机视觉研究技术领域，更具体地说，特别涉及一种基于阈值注意力的遥感图像语义分割网络及其分割方法。

背景技术

遥感是人们获取地理空间信息的主要手段，它被广泛用于各种应用，例如城市规划、植被监测、军事侦察和灾害监测。高分辨率航空图像和卫星图像的语义分割是遥感领域的一项基本任务,其目标是为图像中的每个像素分配一个类别标签。

深度学习在最近几年获得了巨大的发展，因为其有强大的特征提取能力，而被应用在各种RGB图像处理相关的任务中。在语义分割领域，FCN网络最早被提出，并实现了端到端的逐像素语义分割，虽然这种卷积神经网络能在很大程度上提高语义分割的准确率。然而，基于深度学习的语义分割仍然面临着两个重要的挑战。

第一，FCN的编码部分中采用的下采样操作，会使较深网络层丢失掉原始图片中的精细信息，从而导致了粗糙和不准确的预测。第二，在深度神经网络中，能否捕获到远距离像素之间的相关性，对获取输入图片中各像素的语义信息非常重要。卷积神经网络本身使用的卷积算子有着很大的限制，因为卷积算子专注于捕捉局部特征和关系，这使得FCN捕获远程依赖关系的能力不够好，它的感受野随着网络深度的增加，只是在缓慢地增长。

自注意力机制由于其强大的远程依赖捕获能力，已被广泛应用于自然语言处理和计算机视觉等任务中。Non-local网络将自注意力机制运用到了计算机视觉领域中，通过对输入特征进行点积运算来学习得到注意力权重，然后用相应的注意力权重将所有信号相加，使得卷积神经网络能够更好地获取到远距离像素之间的依赖关系。

但是，这种自注意力机制却有两个明显的限制，首先，它需要生成密集的注意力特征图来度量每个像素对之间的关系，因此其计算复杂度很高，需要占用大量的GPU显存。其次，这种考虑全部像素对之间依赖关系的做法会导致信息冗余，从而不利于特征表示。而且，对于高分辨率遥感图像来说，在空间上相邻的像素通常是高度相关的，邻近像素之间的依赖关系对最终的分割效果贡献更大。但是，这种点积自注意力机制对局部上下文信息不敏感，加权和操作甚至可能会分散全局注意权值。这种特点会导致关注的兴趣范围超出本来应该关注的对象区域，不可避免地引入了一些相当于冗余噪声的注意力权重。

发明内容

为了解决上述技术问题，本发明提供一种基于阈值注意力的遥感图像语义分割网络及分割方法，本发明的模型在主干网络ResNet101上加入了注意力特征增强模块和阈值注意力金字塔池化模块，通过阈值注意力增强主干网络中的浅层特征的细节信息，加强深层特征的全局上下文信息，有效地提高了遥感图像分割精度。本发明的模型主要由以下三个关键组成部分组成：1)本发明提出了一种新的注意力方法：阈值注意力。通过对特征图进行量化统计并阈值化后，进行点积注意力计算，有效获取了图像中不同相似区域的依赖关系。2)本发明设计了一种注意力特征增强模块,可以更好地增强输入特征的细节信息。3)本发明设计了一个阈值注意力金字塔池化模块，在获取不同尺度特征的同时也能获取更多更丰富的全局上下文信息。经过本发明大量的实验结果表明，本发明的模型能很好地进行遥感图像的语义分割，尤其是在汽车等小尺度物体的分割上，分割效果有很大的提升。不论在定性还是定量上，本发明的方法许对比大多SOTA遥感图像语义分割算法都有更好的表现，有效的解决了上述存在的技术问题。

本发明一种基于阈值注意力的遥感图像语义分割网络及分割方法的目的与功效，由以下具体技术手段所达成：

一种基于阈值注意力的遥感图像语义分割网络，它包含有主干网络、注意力特征增强模块和阈值注意力金字塔池化模块，所述主干网络使用预先在ImageNet Image数据集上训练过的ResNet101，并且将其最后两个下采样层替换成膨胀卷积层，用来对输入图片进行特征的提取；所述注意力特征增强模块由三个支路组成，分别为全局平均池化、阈值注意力模块和残差连接组成，帮助网络增强浅层网络所获得的特征信息；所述阈值注意力金字塔池化可以分为三个部分，分别为不同扩张率的膨胀卷积支路、全局平均池化支路和阈值注意力支路。使得网络能够获取输入特征的不同感受野，同时获取更多的全局上下文信息。

所述主干网络是由已经预训练过的将最后两层下采样换成空洞卷积的ResNet101，提取得到由浅层到深层的图片特征。

所述注意力特征增强模块通过两层全连接层来实现通道注意力的获取，阈值注意力模块通过将特征图的每个通道按照一定的阈值进行量化，再进行点积注意力计算，实现对输入特征图的各个不同的相似区域进行相关性建模，得到拥有丰富全局上下文信息的特征图。最后将原始特征图与经过注意力增强所得到的特征图相加，有利于加速模型收敛。

一种基于阈值注意力的遥感图像语义分割网络的分割方法，所述方法步骤为：一、将输入遥感图送到主干网络中提取得到含有不同语义信息和细节信息的特征；二、将经主干网络提取所得的最后一层特征，输入阈值注意力金字塔池化，获取包含更大感受野更多上下文信息的特征；三、将经主干网络提取所得的前三层包含更多细节信息的浅层特征分别经过注意力特征增强模块，得到拥有丰富空间纹理信息的特征；四、将获取到的深层特征分别与前三层浅层特征经过注意力增强后所得特征进行卷积融合；五、将融合所得的特征进行双线性插值的上采样方法，得到与输入图片大小一致的分割结果图。

所述步骤二中，输入特征定义为

将其reshape成

对其每一个通道都分别通过一定的阈值进行量化：

其中，F_c表示输入特征F的第c个通道特征数据，M表示要量化的特征等级数，m表示要量化的第m个特征。通过量化后得到特征矩阵

使用

和

这三个投影矩阵来生成相应的查询矩阵Q，关键矩阵K，价值矩阵V。

其中，D_(·)表示(·)的维度，其中Q矩阵和K矩阵的维度形状相同。采用归一化函数ρ来度量第i个查询特征

和第j个关键特征

之间的相似度，即

这个M×M大小的矩阵QK^T建模了输入阈值特征矩阵的每一对不同的阈值之间的相关信息。通过计算输入特征图中所有不同阈值之间的相似度值并将此相似度值作为权重，使用加权求和的方法来聚合所有不同阈值的特征相关度来生成注意力值：

D(Q,K,V)＝ρ(QK^T)V

ρ(QK^T)＝softmax_row(QK^T)

其中，归一化函数使用的是Softmax函数，softmax_row表示沿矩阵QK^T的每一行的Softmax。

本发明至少包括以下有益效果：

本发明提供了一种端到端的可训练的基于阈值注意力的遥感图像语义分割网络(TANet)，可以对遥感图像进行很好地语义分割。提出了一种新颖的阈值注意力机制，阈值注意力模块通过将特征图的每个通道按照一定的阈值进行量化，再进行点积注意力计算，实现对输入特征图的各个不同的相似区域进行相关性建模，得到拥有丰富全局上下文信息的特征图。设计了一种有效的注意力特征增强模块(AFEM)，用于对主干网络所提取的浅层特征进行特征增强和细节恢复。设计了一种有效的阈值注意力金字塔池化模块(TAPPM)，它由三个支路组成，包括不同扩张率的膨胀卷积支路、全局平均池化支路和阈值注意力支路，使得网络能够获取输入特征的不同感受野，同时获取更多的全局上下文信息。

附图说明：

图1为本发明的网络模型图；

图2为本发明的阈值注意力模型图；

图3为本发明的注意力特征增强模块图；

图4为本发明的阈值注意力金字塔池化模块图；

图5本发明的注意力特征增强模块消融效果和金字塔池化模块消融效果对比图；

图6为本发明的语义分割效果对比图。

具体实施方式

下面通过实施例对本发明的实施方式作进一步详细描述。以下实施例用于说明本发明，但不能用来限制本发明的范围。

在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上；术语“同轴”、“底部”、“一端”、“顶部”、“中部”、“另一端”、“上”、“一侧”、“顶部”、“内”、“前部”、“中央”、“两端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”等仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“设置”、“连接”、“固定”、“旋接”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

实施例：

本发明提供一种基于阈值注意力的遥感图像语义分割网络，它包含有主干网络(BD)、注意力特征增强模块(AFEM)和阈值注意力金字塔池化模块(TAPPM)，所述主干网络使用预先在ImageNet Image数据集上训练过的ResNet101，并且将其最后两个下采样层替换成膨胀卷积层，用来对输入图片进行特征的提取；所述注意力特征增强模块由三个支路组成，分别为全局平均池化、阈值注意力模块和残差连接组成，帮助网络增强浅层网络所获得的特征信息；所述阈值注意力金字塔池化可以分为三个部分，分别为不同扩张率的膨胀卷积支路、全局平均池化支路和阈值注意力支路。使得网络能够获取输入特征的不同感受野，同时获取更多的全局上下文信息。

进一步的，本发明提出了一种新的注意力方法：阈值注意力，通过对特征图进行量化统计并阈值化后，进行点积注意力计算，有效获取了图像中不同相似区域的依赖关系。

进一步的，本发明设计了一种注意力特征增强模块,可以更好地增强输入特征的细节信息。

进一步的，本发明设计了一个阈值注意力金字塔池化模块，在获取不同尺度特征的同时也能获取更多更丰富的全局上下文信息。经过本发明大量的实验结果表明，本发明的模型能很好地进行遥感图像的语义分割，尤其是在汽车等小尺度物体的分割上，分割效果有很大的提升。不论在定性还是定量上，本发明的方法许对比大多SOTA遥感图像语义分割算法都有更好的表现，有效的解决了上述存在的技术问题。

进一步的，所述注意力特征增强模块通过两层全连接层来实现通道注意力的获取，阈值注意力模块通过将特征图的每个通道按照一定的阈值进行量化，再进行点积注意力计算，实现对输入特征图的各个不同的相似区域进行相关性建模，得到拥有丰富全局上下文信息的特征图。最后将原始特征图与经过注意力增强所得到的特征图相加，有利于加速模型收敛。

一种基于阈值注意力的遥感图像语义分割网络的分割方法，所述方法步骤为：一、将输入遥感图送到主干网络中提取得到含有不同语义信息和细节信息的特征；二、将经主干网络提取所得的最后一层特征，输入阈值注意力金字塔池化，获取包含更大感受野和更多上下文信息的特征；三、将经主干网络提取所得的前三层拥有很多细节信息的浅层特征分别经过注意力特征增强模块，得到拥有丰富空间纹理信息的特征；四、将获取到的深层特征分别与前三层浅层特征经过注意力增强后所得特征进行卷积融合；五、将融合所得的特征进行双线性插值的上采样方法，得到与输入图片大小一致的分割结果图。

所述步骤二中，输入特征定义为

将其reshape成

对其每一个通道都分别通过一定的阈值进行量化：

使用

和

和第j个关键特征

之间的相似度，即

D(Q,K,V)＝ρ(QK^T)V

ρ(QK^T)＝softmax_row(QK^T)

本发明未详述之处，均为本领域技术人员的公知技术。

本发明的实施例是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种基于阈值注意力的遥感图像语义分割网络，其特征在于：它包含有主干网络、注意力特征增强模块和阈值注意力金字塔池化模块，所述主干网络使用预先在ImageNetImage数据集上训练过的ResNet101，并且将其最后两个下采样层替换成膨胀卷积层，用来对输入图片进行特征的提取；所述注意力特征增强模块由三个支路组成，分别为全局平均池化、阈值注意力模块和残差连接组成，用来增强浅层网络所获得的特征信息；所述阈值注意力金字塔池化模块分为三个部分，分别为膨胀卷积支路、全局平均池化支路和阈值注意力支路，使得网络能够获取输入特征的不同感受野，同时获取更多的全局上下文信息。

2.根据权利要求1所述的基于阈值注力的遥感图像语义分割网络，其特征在于：所述主干网络是由已经预训练过的将最后两层下采样换成空洞卷积的ResNet101，提取得到由浅层到深层的图片特征。

3.根据权利要求1所述的基于阈值注意力的遥感图像语义分割网络，其特征在于：所述注意力特征增强模块通过两层全连接层来实现通道注意力的获取，阈值注意力金字塔池化模块通过将特征图的每个通道按照一定的阈值进行量化，再进行点积注意力计算，实现对输入特征图的各个不同的相似区域进行相关性建模，得到拥有丰富全局上下文信息的特征图，最后将原始特征图与经过注意力增强所得到的特征图相加，有利于加速模型收敛。

4.根据权利要求1-3任一项所述的基于阈值注意力的遥感图像语义分割网络的分割方法，其特征在于：所述方法步骤为：一、将输入遥感图送到主干网络中提取得到含有不同语义信息和细节信息的特征；二、将经主干网络提取所得的最后一层特征，输入阈值注意力金字塔池化，获取包含更大感受野和更多上下文信息的特征；三、将经主干网络提取所得的前三层拥有很多细节信息的浅层特征分别经过注意力特征增强模块，得到拥有丰富空间纹理信息的特征；四、将获取到的深层特征分别与前三层浅层特征经过注意力增强后所得特征进行卷积融合；五、将融合所得的特征进行双线性插值的上采样方法，得到与输入图片大小一致的分割结果图。

5.根据权利要求4所述的基于阈值注意力的遥感图像语义分割网络的分割方法，其特征在于：所述步骤二中，输入特征定义为