CN117078943A

CN117078943A - 融合多尺度特征和双注意力机制的遥感影像道路分割方法

Info

Publication number: CN117078943A
Application number: CN202311343105.2A
Authority: CN
Inventors: 陈泽华; 张晓凯; 杨莹; 张佳鹏; 郭学俊; 赵哲峰; 刘西林; 刘晓峰
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2023-10-17
Filing date: 2023-10-17
Publication date: 2023-11-17
Anticipated expiration: 2043-10-17
Also published as: CN117078943B

Abstract

本发明提供了一种融合多尺度特征和双注意力机制的遥感影像道路分割方法，属于深度学习技术领域；解决了目前采用深度学习方法提取遥感影像中道路时由于道路被物体遮挡导致提取的道路出现断连的问题；对RGB三通道的高分辨率遥感图像进行人工标注，制作标签图像，划分数据集并进行图像预处理；搭建基于深度学习方法的道路分割模型，输入训练集图像和标签对其进行训练；将待测试图像输入道路分割模型得到预测标签图像。本发明通过添加前景特征增强模块、融合多尺度特征的双注意力模块、上下文信息提取模块和改进解码器等方式来提升模型的道路分割效果，最后得到提取的道路图像，道路分割结果清晰且鲁棒性强。

Description

融合多尺度特征和双注意力机制的遥感影像道路分割方法

技术领域

本发明涉及深度学习技术领域，具体而言，涉及一种融合多尺度特征和双注意力机制的遥感影像道路分割方法。

背景技术

近些年，随着遥感卫星发射数量不断增加，高分辨率遥感图像的获取更加方便，已成为数字图像处理重要的数据来源。遥感影像道路提取技术在自动驾驶、城市规划、自然灾害预警以及地图测绘等诸多方面发挥着重要作用。但是在遥感影像中，道路形状复杂，容易受到树木和建筑物的遮挡，而且图像中还存在着大量与道路相似的目标，如河道、田埂等，这些情况都会对道路提取结果造成严重的干扰。此外遥感影像还容易受到光照、云雾等因素的影响，这些因素会导致提取出来的道路准确性和连通性较差。所以如何从遥感影像中准确而又高效的提取路网结构，依旧面临着重大挑战。

国内外研究者在遥感道路提取领域已经做了大量的研究，并提出了多种方法。这些方法可分为传统的道路提取方法和基于深度学习的道路提取方法两大类。传统方法需要人工手动提取特征，步骤复杂，效率低，提取精度低。基于深度学习的方法步骤简单，效率高，提取精度高。但是仍然存在由于道路被物体遮挡导致提取的道路出现断连的现象。

发明内容

本发明为了解决目前采用深度学习方法提取遥感影像中道路时由于道路被物体遮挡导致提取的道路出现断连的问题，提出了一种融合多尺度特征和双注意力机制的遥感影像道路分割方法。

为了解决上述技术问题，本发明采用的技术方案为：一种融合多尺度特征和双注意力机制的遥感影像道路分割方法，包括如下步骤：

步骤一：将高分辨率遥感图像数据集随机划分为训练集和测试集，遥感图像数据集通过遥感卫星获取，包括原始图像和经过人工标记的图像数据；对训练集的遥感图像进行预处理和数据增强，得到经过数据增强后的遥感图像数据集；

步骤二：搭建遥感图像道路分割网络：所述遥感图像道路分割网络包括编码器模块、前景特征增强模块、融合多尺度特征的双注意力模块、上下文信息提取模块和多尺度解码器模块；

所述编码器模块由多个阶段构成，每个阶段输出相应的特征图；

所述前景特征增强模块对编码器模块第一阶段输出的特征图进行过滤和增强；

所述融合多尺度特征的双注意力模块包括多个双注意力模块，双注意力模块从空间和通道两方面同时对编码器模块多个阶段输出的特征图进行注意力加权，然后将经过上一层注意力机制处理的浅层特征图和经过本层注意力机制处理的深层特征图进行融合，将编码器模块各个阶段处理过后的特征图通过跳跃连接，传递到多尺度解码器模块的对应阶段，最深层的特征图经过注意力模块处理后，除了传递给第一个解码器模块之外，还传递给了上下文信息提取模块；

所述上下文信息提取模块设置在编码器模块和多尺度解码器之间，用于捕获高层特征图的全局和局部上下文信息；

所述多尺度解码器模块使用反卷积来对特征图进行上采样，并在反卷积之后增加了特征学习模块，用于对初步反卷积之后的特征图进一步学习和调整，最终输出精确的道路分割图；

步骤三：将预处理过的训练集数据输入至搭建的遥感图像道路分割网络中，对遥感图像道路分割网络的参数进行初始化，对遥感图像道路分割网络进行训练；训练完成后，将训练好的遥感图像道路分割网络模型参数进行保存；

步骤四：将经过处理的实时的遥感道路数据输入到训练好的遥感图像道路分割网络中，输出遥感图像数据的精确分割结果。

所述数据增强包括：将训练集中的图像和标签一起使用图像垂直翻转、水平翻转、垂直加水平翻转、对角线翻转、图像旋转、变形缩放、随机添加噪声和颜色变换操作。

所述编码器模块第一阶段的网络结构如下：

第一层为卷积层，卷积核大小为7×7，步长为2；

第二层使用大小为3×3，步长2的最大池化层；

经过第一二层之后，输出特征图；

所述编码器模块在第二层最大池化层后，放置四个由残差块堆叠而成的模块，堆叠的残差块层数分别为[3,4,6,3]，第二层池化层和四个模块分别输出5个特征图，其中第第二层池化层输出的特征图称为最浅层特征图，最后一个模块输出的特征图称为最深层特征图。

所述双注意力模块的网络结构如下：

首先将深层特征图经过空间全局平均池化处理，然后使用1×1卷积块来将特征图通道数调整为1的同时获取特征图的空间位置信息，得到包含全局空间位置信息的特征图；

然后将特征图经过Sigmoid激活函数处理后，与未处理过的深层特征图相乘，得到经过空间位置信息加权后的特征图；

同理，将未处理过的深层特征图经过通道全局平均池化层处理，然后使用两个1×1的卷积块来学习特征图的通道信息，得到包含通道信息的特征；

然后经过Sigmoid激活函数处理，并与未处理过的深层特征图进行相乘，得到经过通道注意力加权后的特征图；

然后将经过空间注意力和通道注意力加权后的两个特征图相加，并使用1×1卷积块进行特征融合，就得到了经过双注意力模块加权后的深层特征图；

为了融合编码器模块各个阶段的特征，使模型包含多尺度信息，使用一个卷积核大小为3×3，步长为2的卷积块来进一步学习上一个双注意力模块处理后的浅层特征图的信息；

最后将经过双注意力模块加权后的深层特征图与处理后的浅层特征图进行拼接，得到经过双注意力机制加权并融合多尺度信息的特征图；

将编码器模块各个阶段经过双注意力机制处理过后的特征图通过跳跃连接，传递到多尺度解码器模块的对应阶段，最深层的特征图经过注意力模块处理后，传递给解码器的同时，也传递给上下文信息提取模块。

所述前景特征增强模块的网络结构如下：

采用三条并行的分支，第一条分支由一个1×1卷积块构成；

第二条分支由三个卷积块构成，前两个卷积块由空洞率为3和5的3×3空洞卷积构成，第三个卷积块为1×1卷积；

特征图在经过前两个卷积块后与第一条分支输出的特征图相加，然后再使用一个1×1的卷积块进行特征融合；

第三条分支的前两个卷积块是由空洞率为5和8的5×5卷积构成，特征图经过这两个卷积块后，与第二条分支输出的特征图相加，再经过一个1×1的卷积块进行特征融合，最后将处理后的特征图输出；

前景特征增强模块将编码器第二层最大池化层输出的特征图进行处理，将特征图中包含的背景噪声信息进行过滤，并增强道路特征，然后将处理后的特征图输入到第一个双注意力模块中，作为浅层特征图，与后续深层特征图进行融合。

所述上下文信息提取模块的网络结构如下：

由5条支路组成，第一条支路为残差连接，第2到4条支路分别由窗口大小为2×2、4×4、8×8、16×16的两层Swin-Transformer块堆叠组成；

首先将输入特征图划分为16×16个不重叠的patch块，每个patch块大小为2×2；

在窗口多头自注意力中，根据设置的窗口大小，每个窗口依次包含2×2、4×4、8×8、16×16个patch块，然后在窗口中进行多头自注意力计算；

在经过4条Swin-Transformer块构成的支路后，使用MLP对第2-4条支路输出的特征图进行逐层融合，最后将第一条支路和融合后的特征图进行拼接，最后使用MLP和Relu激活函数处理特征图。

所示多尺度解码器模块的网络结构如下：

经过上下文信息提取模块后的特征图通过使用反卷积块进行上采样之后，特征图的长和宽变为原来的2倍，通道数减半，得到上采样后的特征图；

然后进入三条分别由1×1，3×3，5×5大小的卷积块组成的分支，从不同的尺度学习初步上采样之后的特征图，得到三个更加精细化的特征图；

然后将这三个特征图进行拼接，之后采用1×1的卷积块进行特征融合，最终输出经过学习和调整后的特征图；

经过四个解码器模块后，特征图恢复为原始图像尺寸大小，然后使用反卷积上采样，最后通过两层卷积块调整特征图通道数，然后经过Sigmoid激活函数后，最终输出道路结构分割图。

对遥感图像道路分割网络进行训练，使用的损失函数由Dice系数损失函数和二元交叉熵损失函数共同组成。

本发明相对于现有技术具备的有益效果为：

（1）本发明在编码器部分使用ResNet-34网络的残差块，并采用在ImageNet数据集上预训练过的权重来对编码器进行初始化。在特征提取过程，通过使用在其余任务中训练的参数来初始化网络模型，使得模型初步具有提取特征的能力，加快了模型收敛的速度，在编码器和解码器之间，使用了上下文信息提取模块，同时对道路特征进行全局和局部上下文信息建模，有助于提取被建筑物等遮挡的道路部分。

（2）本发明在编码器第二层最大池化层后设计了前景特征增强模块，用于将最浅层特征图中包含的大量背景干扰信息进行有效抑制，同时增强道路特征。并且前景特征增强模块中的多个分支可以获取到不同尺度的特征信息，有利于后续模块的工作。

（3）本发明在模型的跳跃连接处设计了可以融合多尺度特征的双注意力模块。使用该模块可以对编码器各个阶段输出的特征图同时从空间和通道两方面进行注意力加权，对特征图进行过滤。抑制非道路区域的图像特征，提升目标区域特征的权重。使得模型更加的关注道路特征。由于编码器浅层特征图包含了目标的细节和轮廓信息，深层特征图包含的更多是目标的语义信息。所以该模块还引入多尺度特征融合的方式，将经过注意力加权后的浅层特征图和深层特征图进行充分的特征融合。最终使得模型拥有了捕获多尺度特征的能力。

（4）本发明在模型的编码器和解码器之间设计了上下文信息提取模块。通过不同窗口大小的Swin-Transformer块，从不同尺度对特征图的全局和局部依赖关系进行建模，有效解决了道路被建筑物等遮挡导致提取效果差的问题。

（5）本发明在模型的解码器中除了使用反卷积进行上采样之外还设计了特征学习模块，用来解决普通解码器重建能力不够，目标分割图轮廓不清晰的问题。在上采样之后，通过特征学习模块对初步上采样后的特征图进一步学习和调整，最终提升了模型的分割效果。

附图说明

下面结合附图对本发明做进一步说明：

图1为本发明的方法流程图；

图2为本发明网络的结构示意图；

图3为本发明编码器的结构示意图；

图4为本发明前景特征增强模块的结构示意图；

图5为本发明融合多尺度特征的双注意力模块的结构示意图；

图6为本发明上下文信息提取模块的结构示意图；

图7为本发明多尺度解码器模块的结构示意图；

图8为本发明实施例中使用的DeepGlobe数据集中的遥感图像示例图；

图9为本发明实施例中使用的DeepGlobe数据集中标签的遥感图像示例图；

图10为采用本发明的方法提取的图8中的道路结构示意图。

具体实施方式

如图1，本发明提供了一种融合多尺度特征和双注意力机制的遥感影像道路分割方法，包括如下步骤：

步骤一：将1024×1024大小的高分辨率遥感图像数据集按照8:2划分为训练集和测试集，所述高分辨率遥感图像数据集通过遥感卫星获取，包括原始遥感图像数据和经过人工标记的遥感图像数据；对遥感图像进行预处理和数据扩充，得到经过数据增强后的遥感图像数据集；

步骤二：搭建如图2所示的遥感图像道路分割网络：遥感图像道路分割网络中包括编码器模块、前景特征增强模块、融合多尺度特征的双注意力模块、上下文信息提取模块、多尺度解码器模块，搭建步骤包括：

步骤2.1：编码器模块：编码器模块使用ResNet-34网络中的残差块堆叠构成，并使用ResNet-34在ImageNet数据集上预训练的网络参数来初始化编码器。编码器模块由5个阶段构成，各个阶段都会输出相应的特征图。并将池化层阶段输出的特征图传入前景特征增强模块，编码器模块第2-5个阶段输出的特征图传入融合多尺度特征的双注意力模块。

步骤2.2：前景特征增强模块：由于编码器模块第一个阶段输出的特征图中包含有大量与道路无关的背景噪声信息，如果不经过处理，将该特征图直接输入到下一阶段，会将噪声引入后续模块，影响模型最终的分割效果。为了解决此问题，设计了前景特征增强模块来对编码器模块第一阶段输出的特征图进行过滤和增强，以达到抑制干扰信息的目的。

步骤2.3：融合多尺度特征的双注意力模块：由于不同阶段的编码器输出的特征图尺度不同，而道路也具有多尺度的特点，所以融合多尺度信息可以有效提高道路提取的精度。并且设计了双注意力机制来从空间和通道两方面同时对特征图进行注意力加权，然后将经过上一层注意力机制处理的浅层特征图和经过本层注意力机制处理的深层特征图进行融合。

将经过前景特征增强模块的特征图以及编码器模块第2-5个阶段输出的特征图输入到双注意力模块中，从空间和通道角度同时对特征图进行注意力加权，并且各个双注意力模块要融合浅层经过注意力加权后的特征图。然后将经过注意力模块处理的特征图输入到上下文信息提取模块和对应阶段的解码器模块中。

步骤2.4：上下文信息提取模块：

在编码器和解码器之间设计了上下文信息提取模块，使用Swin-Transformer来捕获高层特征图的全局和局部上下文信息。由于遥感图像包含的信息较为丰富，直接对特征图进行上下文信息建模容易引入无关的上下文信息，所以在将特征图输入上下文信息提取模块前，将经过最深层双注意力模块加权后的特征图与最深层特征图相加，然后将增强后的特征图输入上下文信息提取模块中，进行道路上下文信息的建模。

将第5阶段的编码器输出的深层特征图和包含多尺度特征经过双注意力模块加权后的浅层特征图进行融合，然后输入到该模块中，获取到特征图的全局和局部语义信息。然后将处理后的特征图输入到解码器1中。

步骤2.5：多尺度解码器模块：

解码器通过使用反卷积来对特征图进行上采样，同时减少特征图的通道数，最终使得特征图尺寸恢复为输入图像大小。只使用反卷积进行简单的上采样会导致解码器对特征图的重建能力不足，导致分割出来的道路轮廓不清晰，缺失部分细节信息。所以设计了多尺度解码器模块，在反卷积之后增加了特征学习模块，用于对初步反卷积之后的特征图进一步学习和调整，提高解码器对特征图的重建能力。最终输出精确的道路分割图。

步骤三：将预处理过的训练集数据输入至搭建的遥感图像道路分割网络中，对遥感图像道路分割网络的参数进行初始化，采用ResNet-34网络在ImageNet数据集上预训练的参数来初始化编码器模块网络，对其余网络参数进行随机初始化，对遥感图像道路分割网络进行训练；训练完成后，将训练好的遥感图像道路分割网络模型参数进行保存；

步骤四：经过处理的实时的遥感道路数据输入到训练好的遥感图像道路分割网络中，输出遥感图像数据的精确分割结果。

其中，对训练集的遥感图像和标签进行数据增强，包括使用图像垂直翻转、水平翻转、垂直加水平翻转、图像旋转、变形缩放、随机添加噪声和颜色变换操作。

编码器的详细结构如图3所示，具体如下：

第一层为卷积层，卷积核大小为7×7，步长为2。第二层使用大小为3×3，步长2的最大池化。经过第一二层之后，输出特征图大小为512×512×64。

编码器模块在第二层最大池化层后，放置了四个由残差块堆叠而成的模块，堆叠的残差块层数分别为[3,4,6,3]。残差块中有用于加快网络收敛的残差连接。第二层池化层和四个模块分别输出5个特征图，其中第二层池化层输出的特征图称为浅层特征图，最后一个模块输出的特征图称为深层特征图。

前景特征增强模块的详细结构如图4所示，具体如下：

该模块采用三条并行的分支。第一条分支由一个1×1卷积块构成。第二条分支由三个卷积块构成，前两个卷积块由空洞率为3和5的3×3空洞卷积构成，第三个卷积块为1×1卷积。特征图在经过前两个卷积块后与第一条分支输出的特征图相加，然后再通过一个1×1的卷积块进行特征融合。第三条分支的前两个卷积块是由空洞率为5和8的5×5卷积构成。特征图经过这两个卷积块后，与第二条分支输出的特征图相加，再经过一个1×1的卷积进行特征融合，最后将处理后的特征图输出。该模块将第二层最大池化层输出的512×512×64的特征图进行处理，将特征图中包含的噪声信息进行过滤，并将道路特征进行增强，然后将处理后的特征图输入到第一个双注意力模块中。

双注意力模块的详细结构如图5所示，具体如下：

首先将深层特征图经过空间全局平均池化处理，然后使用1×1卷积块来将特征图通道数调整为1，并且学习特征图中的位置信息，得到包含全局空间位置信息的特征图。然后将该特征图经过Sigmoid激活函数处理后，与未处理过的深层特征图相乘，得到经过空间位置信息加权后的特征图。

同理，将未处理过的深层特征图经过通道全局平均池化层处理，然后使用两个1×1的卷积块来学习特征图的通道信息，得到包含通道信息的特征图。然后经过Sigmoid激活函数，并与未处理过的深层特征图进行相乘，得到经过通道注意力加权后的特征图。

然后将经过空间注意力和通道注意力加权后的两个特征图相加，并使用1×1卷积块进行特征融合，就得到了经过双注意力模块加权后的深层特征图。为了融合编码器模块各个阶段的特征，使模型包含多尺度信息，使用一个卷积核大小为3×3，步长为2的卷积块来进一步学习上一个双注意力模块处理后的浅层特征图的信息。最后将经过双注意力模块加权后的深层特征图与处理后的浅层特征图进行拼接，最终得到经过双注意力机制加权并融合多尺度信息的特征图。将编码器模块各个阶段处理过后的特征图通过跳跃连接，传递到多尺度解码器模块的对应阶段。最深层的特征图经过注意力模块处理后，除了传递给第一个解码器模块之外，还传递给了上下文信息提取模块。

上下文信息提取模块的详细结构如图6所示，具体如下：

上下文信息提取模块输入大小为32×32的特征图，该模块由5条支路组成，第一条支路为残差连接，第2到4条支路分别由窗口大小为2×2、4×4、8×8、16×16的两层Swin-Transformer块堆叠组成。首先将输入特征图X划分为16×16个不重叠的patch块，每个patch块大小为2×2。在窗口多头自注意力中，根据设置的窗口大小，每个窗口依次包含2×2、4×4、8×8、16×16个patch块，然后在窗口中进行多头自注意力计算。在经过4条Swin-Transformer块构成的支路后，使用MLP对第2-4条支路输出的特征图进行逐层融合，最后将第一条支路和融合后的特征图进行拼接，然后使用MLP和ReLU激活函数处理特征图。

多尺度解码器模块的详细结构如图7所示，具体如下：

经过上下文信息提取模块后的特征图通过使用反卷积块进行上采样之后，特征图的长和宽变为原来的2倍，通道数减半，得到上采样后的特征图。然后进入三条分别由1×1，3×3，5×5大小的卷积块组成的分支来从不同的尺度学习初步上采样之后的特征图，得到三个更加精细化的特征图。然后将这三个特征图进行拼接，之后采用1×1的卷积块进行特征融合，最终输出经过学习和调整后的特征图。经过四个这样的解码器后，特征图恢复为512×512×32大小，然后使用反卷积上采样，最后通过两层卷积块调整特征图通道数，然后经过Sigmoid激活函数后，最终输出道路结构分割图。

对遥感图像分割网络进行训练时，在损失函数方面，选择将二元交叉熵损失函数和Dice系数损失函数进行叠加。这是由于遥感影像中表示道路的像素点与表示背景的像素点数量差距过大，类别严重不均衡，只使用交叉熵损失函数训练模型会使得模型偏向于将代表道路的像素点预测为背景类别。为了解决此问题，本发明将交叉熵损失函数和Dice系数损失函数结合，作为模型最终的损失函数。

其中，交叉熵损失函数的计算公式为：

；

上式中：y为真实的像素标签值，为预测的标签像素值，N为标签的类别数；

Dice系数损失函数的计算公式为：

；

上式中：X为生成的预测图，Y为真实的标签，为标签和预测之间的交集，/>为标签的元素个数，/>为预测的元素个数；最终的语义分割损失函数为交叉熵损失函数和Dice系数损失函数的加权系数总和，计算公式为：

。

为了进一步验证本方法的有效性和可行性，本发明根据下面实施例进行实验，实验结果如表1所示。

表1 实验结果。

使用深度学习框架Pytorch1.12搭建遥感图像道路分割网络的架构。实验数据集使用DeepGlobe道路提取数据集，采用了语义分割中常用的四种语义分割评估指标，即准确率、交并比、召回率和调和平均数来评价模型道路分割的性能。进行道路分割前的遥感道路图像如图8所示，对应的人工标记后的遥感道路分割图像如图9所示，经过本发明的方法处理后得到的预测道路分割图像如图10所示。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种融合多尺度特征和双注意力机制的遥感影像道路分割方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种融合多尺度特征和双注意力机制的遥感影像道路分割方法，其特征在于：所述数据增强包括：将训练集中的图像和标签一起使用图像垂直翻转、水平翻转、垂直加水平翻转、对角线翻转、图像旋转、变形缩放、随机添加噪声和颜色变换操作。

3.根据权利要求1所述的一种融合多尺度特征和双注意力机制的遥感影像道路分割方法，其特征在于：所述编码器模块第一阶段的网络结构如下：

第一层为卷积层，卷积核大小为7×7，步长为2；

第二层使用大小为3×3，步长2的最大池化层；

经过第一二层之后，输出特征图；

4.根据权利要求1所述的一种融合多尺度特征和双注意力机制的遥感影像道路分割方法，其特征在于：所述双注意力模块的网络结构如下：

5.根据权利要求4所述的一种融合多尺度特征和双注意力机制的遥感影像道路分割方法，其特征在于：所述前景特征增强模块的网络结构如下：

采用三条并行的分支，第一条分支由一个1×1卷积块构成；

6.根据权利要求1所述的一种融合多尺度特征和双注意力机制的遥感影像道路分割方法，其特征在于：所述上下文信息提取模块的网络结构如下：

7.根据权利要求1所述的一种融合多尺度特征和双注意力机制的遥感影像道路分割方法，其特征在于：所示多尺度解码器模块的网络结构如下：

8.根据权利要求1所述的一种融合多尺度特征和双注意力机制的遥感影像道路分割方法，其特征在于：对遥感图像道路分割网络进行训练，使用的损失函数由Dice系数损失函数和二元交叉熵损失函数共同组成。