CN114936993A

CN114936993A - 高分辨率与像素关系强化注意力的强融合遥感图像分割方法

Info

Publication number: CN114936993A
Application number: CN202210518129.6A
Authority: CN
Inventors: 龚声蓉; 朱杰; 周立凡; 钟珊; 王朝晖; 应文豪
Original assignee: Changshu Institute of Technology
Current assignee: Changshu Institute of Technology
Priority date: 2022-05-13
Filing date: 2022-05-13
Publication date: 2022-08-23

Abstract

本发明公开了一种高分辨率与像素关系强化注意力的强融合遥感图像分割方法，包括对遥感图像进行卷积提取特征并进行多次下采样卷积及上采用转置卷积融合，在每次融合操作时增加像素关系强化与通道注意力模块，由像素关系强化与通道注意力模块对局部特征图进行卷积映射，并降维后执行矩阵乘法，计算空间注意力并与卷积映射后的特征图进行乘积升维输出。本发明解决了遥感图像中细条状道路、河流等目标的不连续和不完整问题，具有更高的道路、河流提取精度。

Description

高分辨率与像素关系强化注意力的强融合遥感图像分割方法

技术领域

本发明涉及一种遥感图像语义分割方法，特别是涉及一种高分辨率与像素关系强化注意力的强融合遥感图像分割方法。

背景技术

在遥感图像地物要素分类任务中，道路与河流的高精度分割具有极重要的应用价值与战略意义。卷积神经网络应用于遥感图像地物要素分类，表现出了非凡的性能。在现有的分割方法中，常用的是正方形感受野，与遥感图像中的细条状的道路、河流等目标并不匹配。此外，细条状目标在遥感图像中所占的比例较小，在下采样提取高级语义信息时极易丢失细条状目标特征。上述两个原因导致现有的深度学习网络模型在细条状道路，河流等目标处大多会产生不连续和不完整的分割结果。

发明内容

针对上述现有技术的缺陷，本发明提供了一种高分辨率与像素关系强化注意力的强融合遥感图像分割方法，目的是解决遥感图像中细条状道路、河流等目标的不连续和不完整问题。

本发明技术方案如下：一种高分辨率与像素关系强化注意力的强融合遥感图像分割方法，包括以下步骤：

S1、将遥感图像进行卷积操作获得第一特征图；

S2、将所述第一特征图进行卷积操作获得第二特征图，将所述第一特征图进行下采样卷积获得初级第二特征图；

S3、将所述第二特征图送入像素关系强化与通道注意力模块后输出并与所述初级第二特征图的上采样转置卷积结果融合得到第三特征图；

S4、将所述初级第二特征图进行卷积操作同级传递得到初级第三特征图，将所述初级第二特征图进行下采样卷积获得中级第三特征图；

S5、将所述第三特征图送入像素关系强化与通道注意力模块后输出并与所述初级第三特征图、所述中级第三特征图的上采样转置卷积结果融合得到第四特征图；

S6、将所述初级第三特征图进行卷积操作同级传递并与所述中级第三特征图经上采样转置卷积后融合得到初级第四特征图；将所述初级第三特征图进行下采样卷积并与所述中级第三特征图经卷积操作同级传递后融合得到中级第四特征图，将所述中级第三特征图进行下采样卷积获得所述末级第四特征图；

S7、将所述第四特征图送入像素关系强化与通道注意力模块后输出并与所述初级第四特征图、所述中级第四特征图、所述末级第四特征图的上采样转置卷积结果融合得到第五特征图；

S8、将所述第五特征图送入像素关系强化与通道注意力模块后输出并通过卷积及Softmax分类输出；

所述像素关系强化与通道注意力模块包括空间注意力模块，所述空间注意力模块的操作包括：对于给定一个局部特征图A∈R^C*H*W，首先将局部特征图A送入一个卷积层，分别生成三个新的特征映射B、C、D，其中B∈R^C*H*W，C∈R^C*H*W，D∈R^C*H*W，然后将B的格式降维转置成R^(H*W)*C，C、D的格式降维成R^C*(H*W)，再将C和B之间执行矩阵乘法，并应用softmax层来计算空间注意力图S∈R^(H*W)*(H*W)，最后与D进行乘积后进行升维，得到E∈R^C*H*W作为像素关系强化与通道注意力模块的输出。

进一步地，所述像素关系强化与通道注意力模块包括像素级强化模块，所述E∈R^C ^*H*W输入所述像素级强化模块，进行卷积并同时加上批量归一化与ReLU激活函数，再进行第二次卷积并加上批量归一化与ReLU激活函数，计算出全像素强化注意力图F，F∈R^1*H*W，将全像素强化注意力图F与E相乘得到G，G∈R^C*H*W，作为像素关系强化与通道注意力模块的输出。

进一步地，所述像素关系强化与通道注意力模块包括通道关系注意力模块和通道注意力模块，所述局部特征图A经过通道关系注意力模块输出特征图J，所述局部特征图A进入通道注意力模块进行全局平均池化，获取到平均后的通道权值参数然后卷积，并同时加上批量归一化与ReLU激活函数，得到格式为R^C*1*1的通道权重注意力参数，再将通道权重注意力参数与局部特征图A乘积，所述像素关系强化与通道注意力模块的输出L＝E*F+(I*A)+J。

进一步地，所述步骤S3、S5和S7中的融合通过异分辨率融合模块进行，所述异分辨率融合模块对各输入特征图进行累加，然后将累加结果通过全局平局池化得到一维通道权值参数，再卷积并进行批量归一化，再经过修正线性单元、卷积块、S型生长曲线单元，得到通道权重注意力参数，并与累加结果进行乘积再与累加结果进行累加至输出。

进一步地，所述修正线性单元为ReLU非线性激活函数，所述S型生长曲线为Sigmoid非线性激活函数。

进一步地，所述步骤S2、S4和S6中的下采样卷积的步长为2。

本发明所提供的技术方案的优点在于：

本发明方法的整体网络框架，一直保留与原图像相同尺寸的特征图，可以最大限度地减少多次下采样操作造成的细条状目标纹理信息损失。像素关系强化与双通道注意力模块能够探索和整合细条状目标像素之间的全局相关性及强调与抑制不同的通道维度。最后通过异分辨率强融合模块，更好的融合不同分辨率的特征图。在两个开放遥感地物分类数据集进行的验证实验表明，本发明方法能够有效地解决遥感图像中细条状道路、河流等目标的不连续和不完整问题，与其他先进技术相比，具有更高的道路、河流提取精度。

附图说明

图1是高分辨率与像素关系强化注意力的强融合遥感图像分割方法的网络框架结构示意图。

图2是像素关系强化与通道注意力模块的结构示意图。

图3是像素关系强化与通道注意力模块的结构示意图。

图4是HRNet在Aerial ImageSegmentationDataset数据集的分割结果图。

图5是HRNet在GID数据集的分割结果图。

图6是本发明方法与其他现有技术方法在Aerial ImageSegmentationDataset数据集的分割结果图。

图7是本发明方法与其他现有技术方法在GID数据集的分割结果图。

具体实施方式

下面结合实施例对本发明作进一步说明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本说明之后，本领域技术人员对本说明的各种等同形式的修改均落于本申请所附权利要求所限定的范围内。

请结合图1所示，本发明实施例的高分辨率与像素关系强化注意力的强融合遥感图像分割方法所采用的网络基于高分辨率网络(HRNet)，并在高分辨率网络的不同阶段融合像素关系强化与通道注意力模块M1及异分辨率融合模块M2。网络框架由并行的多分辨率子网络组成。从一个高分辨率的子网络作为第一阶段开始，逐步将高分辨率的子网络逐个下采样到低分辨率的子网络中，形成新的阶段，并将多分辨率的子网络通过特征图参数累加的方式完成并行连接。因此，后一阶段并行子网络的分辨率由前一阶段的分辨率和一个较低的分辨率组成，共包含4个平行子网的网络结构。同时，在并行子网中引入交换单元，即异分辨率融合模块M2，以便更充分每个子网络重复接收来自其他并行子网络的信息。具体的，将遥感图像先输入步长为1的3*3卷积块中，获取第一特征图a，接着将第一特征图a输入步长为1的3*3卷积块得到第二特征图b1。同时，引出一个分支输入步长为2的3*3卷积块对第一特征图a进行下采样，获取具有稍高级语义信息的初级第二特征图b2。之后将此初级特征图b2先输入步长为2的3*3转置卷积块进行上采样，与第二特征图b1通过异分辨率融合模块M2融合得到第三特征图c1；初级第二特征图b2再通过步长为1的3*3卷积块进行同级传递得到初级第三特征图c2；初级第二特征图b2最后再输入步长为2的3*3卷积块进行下采样得到中级第三特征图c3，获取更高级的语义信息。接下来分别将初级第三特征图c2输入步长为2的3*3转置卷积块进行上采样，以及将中级第三特征图c3输入步长为4的3*3转置卷积块进行上采样，两者结果共同与第三特征图c1通过异分辨率融合模块M2融合得到第四特征图d1，初级第三特征图c2通过步长为1的3*3卷积块进行同级传递并与中级第三特征图c3通过步长为2的3*3转置卷积块进行上采样融合得到初级第四特征图d2，中级第三特征图c3通过步长为1的3*3卷积块同级传递并与初级第三特征图c2通过步长为2的3*3卷积块下采样融合得到中级第四特征图d3，同时中级第三特征图c3再输入步长为2的3*3卷积块进行下采样得到末级第四特征图d4。分别将初级第四特征图d2输入步长为2的3*3转置卷积块进行上采样，将中级第四特征图d3输入步长为4的3*3转置卷积块进行上采样，以及将末级第四特征图d4输入步长为8的3*3转置卷积块进行上采样，三者结果共同与第四特征图d1通过异分辨率融合模块M2融合得到第五特征图e。除此之外，将高分辨率特征图b1、d1、c1和d1分别输入像素关系强化与通道注意力模块M1中，进行强化像素间关系后再输出，最终将融合后的第五特征图e输入步长为1的3*3卷积块，最后通过Softmax进行分类输出。上述所使用的卷积块都是由2D的两个3*3卷积与批量归一化加ReLU激活函数组成(2D_Conv3*3+BN+ReLU)，转置卷积块都是由2D的3*3转置卷积与批量归一化加ReLU激活函数组成(DeConv3*3+BN+ReLU)，通道数皆设为64。

由于遥感图像中的细条状的道路、河流等目标与方形感受野不匹配，故采用金字塔池化模块以及ASPP等以方形的方式扩大感受野的方法较难获取有益的相关与全局信息。考虑到细条状的道路与河流在空间上是连续的，可通过连续的线条信息互相作用，进而分割出更完整的线条。故采用了像素关系强化与通道注意力模块M1重点感受线条的整体信息，帮助神经网络从复杂背景中明确地定位和捕获具有识别性的细条状道路与河流特征，并在特征维度中利用它们的空间和通道相关性。像素关系强化与通道注意力模块M1的结构如图2所示，其中C代表通道数，为64；H、W分别代表特征图的长、宽。在该模块中分别引入空间注意力模块M101与通道关系注意力模块M102(该模块为现有技术模块，在此不做赘述)，同时还结合像素级强化模块M103，通过训练像素级的自适应权重，可更好的聚焦到细条状目标特征，提高捕捉细条状目标能力。此外，除了通道关系注意力模块，额外加入通道注意力模块M104，建模各个特征通道的重要程度，然后增强或者抑制不同的通道，学习不同通道的重要性。下面分别对各模块进行说明：

空间注意力模块M101。为了在局部特征上建立丰富的上下文关系模型，引入了空间注意力模块。空间注意力模块M101将更广泛的上下文信息编码到局部特征中，从而增强其表征能力。具体的，给定一个局部特征图A∈R^C*H*W，首先将其送入一个卷积层，分别生成两个新的特征映射B和C，其中B∈R^C*H*W，C∈R^C*H*W。然后将B的格式降维转置成R^(H*W)*C，C的格式降维成R^C*(H*W)，其中(H*W)作为一个整体进行运算。然后，将C和B之间执行矩阵乘法，并应用softmax层来计算空间注意力图S∈R^(H*W)*(H*W)。如式(1)所示，其中s_ji代表第i^th个位置对j^th位置的影响。两个位置的特征表征较为相似，有助于提高它们之间的关联性。

在获取空间注意力图S后，与降维后的D∈R^C*(H*W)进行乘积后进行升维，得到E∈R^C ^*H*W，完成像素关系信息的传递任务。如式(2)所式，升维用u表示。

E＝(S*D)^u#(2)

像素级强化模块M103。该模块用于强化细条状目标的特征表示，可自适应强化细条状目标的特征信息，从而针对性的增强细条状目标的表征能力。具体的，将经过空间注意力模块的E特征图首先进行常规卷积，即采用卷积数为C的2维3*3卷积核进行卷积，并同时加上批量归一化与ReLU激活函数。紧接着再输入卷积数仅为1的2维3*3卷积核进行卷积，加上批量归一化与ReLU激活函数，计算出全像素强化注意力图F，F∈R^1*H*W。其中，第一次卷积赋予了更多的参数进行拟合，为第二次卷积得到像素级的强化注意力做准备。在第二次卷积时，可获取到全像素强化注意力图，再将其与E特征图相乘得到G，G∈R^C*H*W，用于传递逐像素的强化信息，提高细条状目标的特征表示。

通道关系注意力模块M102。高层特征的每个通道图都可以被视为一个特定于类的响应，不同的语义响应相互关联。通过利用通道映射之间的相互依赖性，可以强调相互依赖的特征映射，并改进特定语义的特征表示。因此，引入了一个通道注意模块来显式地建模通道之间的相互依赖关系。将A特征图输入通道关系注意力模块，输出为J特征图。

通道注意力模块M104。该模块允许网络执行特征重新校准，通过这种机制，可以学习使用全局信息来选择性地强调含有有效的细条状目标纹理信息的通道，并抑制作用微弱的特征通道。具体的，将A特征图先进行全局平均池化，获取到平均后的通道权值参数，为了利用通道权值参数中聚合的信息，接着执行第二个操作，目的是完全捕获通道依赖性。为了实现这一目标，该功能必须满足两个标准：第一，它必须是灵活的，尤其是，它必须能够学习通道之间的非线性交互。第二，它必须学习非互斥关系，因为希望确保允许强调多个通道，而不是强制执行一个单独的通道。为了满足这些标准，选择使用一种简单的卷积与激活操作，即再输入卷积数为C的2维1*1卷积核进行卷积，并同时加上批量归一化与ReLU激活函数，得到格式为R^C*1*1的通道权重注意力参数，再将其与特征图乘积，强调含有重要细条状纹理信息的有效通道。

最终整个像素关系强化与通道注意力模块M1输出的特征图L的总体计算公式如式(3)所示：

L＝E*F+(I*A)+J#(3)

在上述步骤中，完成了在高分辨率强融合整体框架中的一次像素关系强化与双通道注意力模块M1的输入与输出。在本发明方法中，共经过四次的像素关系强化与双通道注意力模块M1的输入与输出。且为了控制网络的参数，四次的输入输出共享相同的像素关系强化与双通道注意力参数。

异分辨率融合模块M2结构如图3所示，空间细节信息和高级语义信息对于实现高精度语义分割至关重要。然而，很难同时满足这两个要求。得益于高分辨率强融合整体框架，可充分保留空间细节信息，而分别下采样2倍、4倍、8倍的特征图以及像素关系强化与双通道注意力模块M1可更好的获取到高级语义信息。在HRNe中，其通过特征图参数累加的方式融合并行的各尺度特征图。由于并行路径的特征在特征表示的层次上是不同的，因此，简单地采用特征图参数累加的方式较难融合不同并行路径的特点。由于高分辨率特征图捕获的空间信息编码了大部分丰富的细节信息，此外，较低分辨率特征图捕获了较多语义信息。换句话说，高分辨率特征图的输出特征是低水平细节纹理信息，而较低分辨率特征图的输出特征是高水平的高级语义信息。因此采用异分辨率融合模块M2更好的融合上述特征。

鉴于特征图的不同层次，首先将不同分辨率的特征图放大至高分辨率特征图大小(该步骤在整体网络中完成，以下采样4倍的特征图为例，采用步长为4的3*3转置卷积块上采样4倍，与高分辨率特征图大小一致)，然后与高分辨率特征图累加M201，最终将并行的异分辨率特征图合并到一个特征向量中。接着通过全局平局池化M202到一维通道权值参数，继续输入2维1*1卷积并进行批量归一化，再经过修正线性单元M203(ReLU非线性激活函数)、2维1x1卷积、S型生长曲线M204(Sigmoid非线性激活函数)，得到通道权重注意力参数，并与特征图各通道进行乘积。通道权重注意力参数这个权重向量可以重新分配不同分辨率的特征，指导特征选择和结合。此外，采用残差机制，将原特征图进行累加至输出，缓解梯度消失与梯度爆炸问题。

对本发明方法进行论证实验，使用的数据集分别是：AerialImageSegmentationDataset(高空图像分割数据集)与Gaofen Image Dataset(高分图像数据集，GID)。为将实验数据集归一化到统一标准，以及符合GPU可承受训练的图像大小，将上述两个数据集采用随机框图法，以1024×1024像素的框图，分别随机框出900张各异的图像与对应的标签用于本文实验，并将前700张图像作为训练集，后200张图像作为测试集。

本发明方法的网络采用深度学习框架Pytorch实现，硬件和软件环境如表1所示。为保证实验的一致性，皆在相同训练策略下进行。具体训练细节如下：采用2块2080Ti显卡训练、以随机梯度下降算法优化模型、交叉熵为损失函数、动量设为0.9、学习率为0.01、权重衰减为0.0005、随机尺度缩放比例为0.5-2倍、随机裁剪大小为769*769、批处理参数设为8、迭代训练80000次、以此规则训练网络，得到相应的网络模型。

表1实验硬件与软件配置

为了评估本发明方法的网络各子模块的有效性，量化分析各模块的作用，以模块叠加的方法分别在Aerial Image Segmentation数据集与GID数据集上进行消融实验。首先以高分辨率并行网络HRNet为基线，分别在上述两个数据集中进行实验，分割结果图如图4、图5所示，实验结果分别如表2、表3所示。在图4、图5中，左边皆为遥感图像、中间为标签，即真值、右边为HRNet的分割结果，通过实验数据以及白色框框出的可视化分割结果，发现网络在细条状目标，如细长的道路与和河流处分割效果较差，大多会产生不连续和不完整的分割结果。

针对本发明方法的网络，首先在HRNet基础上，聚合所有并行卷积的(上采样)特征图，获取倒更丰富的高级语义信息，有较小的提升，在两个数据集中，mIoU分别提升了0.22％与0.29％。接着加入空间注意力模块，赋予细条状目标获取周围细条状目标信息的能力，在实验中，此模块有较好的提升效果，mIoU分别提升了0.83％与0.69％，且在道路与河流目标处，提升幅度更高，分别提升了1.27％与2.04％。之后加入像素级强化注意力模块，自适应强化细条状目标的特征信息，在道路与河流目标处也有较好的提升效果，分别提升了0.9％与0.62％的mIoU。接着分别融入通道关系注意力模块与通道注意力模块，强化有效通道信息，抑制无效的通道信息。最后加入异分辨率融合模块，重新分配不同分辨率的特征，指导特征选择和结合。

最终，本方法在HRNet的基础上在上述两个数据集中分别提升1.95％与1.69％的mIoU。此外，本方法可重点改善细条状目标的分割效果，在经常为细条状的道路与河流类别，提升幅度较高，与基线网络HRNet相比，分别提升了2.52％与3.72％。

表2 Aerial Image Segmentation数据集消融实验

表3 GID数据集消融实验

另外，请结合图6及图7所示，将本发明的方法与目前最先进的方法进行比较，分别包括语义分割标杆网络与遥感图像地物分类网络。从表4及表5可以看出，本发明的方法在上述两个数个遥感地物分类数据集中，分别达到了79.05％与64.46％的mIoU，已优于目前的最先进方法。

表4 Aerial Image Segmentation数据集对比实验

表5 GID数据集对比实验

Claims

1.一种高分辨率与像素关系强化注意力的强融合遥感图像分割方法，其特征在于，包括以下步骤：

S1、将遥感图像进行卷积操作获得第一特征图；

所述像素关系强化与通道注意力模块包括空间注意力模块，所述空间注意力模块的操作包括：对于给定一个局部特征图A∈R^C*H*W，首先将局部特征图A送入一个卷积层，分别生成三个新的特征映射B、C、D，其中B∈R^C*H*W，C∈R^C*H*W，D∈R^C*H*W，然后将B的格式降维转置成R^(H ^*W)*C，C、D的格式降维成R^C*(H*W)，再将C和B之间执行矩阵乘法，并应用softmax层来计算空间注意力图S∈R^(H*W)*(H*W)，最后与D进行乘积后进行升维，得到E∈R^C*H*W作为像素关系强化与通道注意力模块的输出。

2.根据权利要求1所述的高分辨率与像素关系强化注意力的强融合遥感图像分割方法，其特征在于，所述像素关系强化与通道注意力模块包括像素级强化模块，所述E∈R^C*H*W输入所述像素级强化模块，进行卷积并同时加上批量归一化与ReLU激活函数，再进行第二次卷积并加上批量归一化与ReLU激活函数，计算出全像素强化注意力图F，F∈R^1*H*W，将全像素强化注意力图F与E相乘得到G，G∈R^C*H*W，作为像素关系强化与通道注意力模块的输出。

3.根据权利要求2所述的高分辨率与像素关系强化注意力的强融合遥感图像分割方法，其特征在于，所述像素关系强化与通道注意力模块包括通道关系注意力模块和通道注意力模块，所述局部特征图A经过通道关系注意力模块输出特征图J，所述局部特征图A进入通道注意力模块进行全局平均池化，获取到平均后的通道权值参数然后卷积，并同时加上批量归一化与ReLU激活函数，得到格式为R^C*1*1的通道权重注意力参数，再将通道权重注意力参数与局部特征图A乘积，所述像素关系强化与通道注意力模块的输出L＝E*F+(I*A)+J。

4.根据权利要求1所述的高分辨率与像素关系强化注意力的强融合遥感图像分割方法，其特征在于，所述步骤S3、S5和S7中的融合通过异分辨率融合模块进行，所述异分辨率融合模块对各输入特征图进行累加，然后将累加结果通过全局平局池化得到一维通道权值参数，再卷积并进行批量归一化，再经过修正线性单元、卷积块、S型生长曲线单元，得到通道权重注意力参数，并与累加结果进行乘积再与累加结果进行累加至输出。

5.根据权利要求4所述的高分辨率与像素关系强化注意力的强融合遥感图像分割方法，其特征在于，所述修正线性单元为ReLU非线性激活函数，所述S型生长曲线为Sigmoid非线性激活函数。

6.根据权利要求1所述的高分辨率与像素关系强化注意力的强融合遥感图像分割方法，其特征在于，所述步骤S2、S4和S6中的下采样卷积的步长为2。