CN113569724B

CN113569724B - 基于注意力机制和扩张卷积的道路提取方法及系统

Info

Publication number: CN113569724B
Application number: CN202110850757.XA
Authority: CN
Inventors: 王勇
Original assignee: Institute of Geographic Sciences and Natural Resources of CAS
Current assignee: Institute of Geographic Sciences and Natural Resources of CAS
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2022-04-19
Anticipated expiration: 2041-07-27
Also published as: CN113569724A

Abstract

本发明公开了一种基于注意力机制和扩张卷积的道路提取方法及系统，包括基于目标区域遥感影像数据和训练好的A&D‑UNet聚合网络模型提取目标区域的道路信息；本发明提供的训练好的A&D‑UNet聚合网络模型使用残差学习单元减轻深层卷积网络引起的性能退化等问题，采用扩张卷积单元整合道路特征的细节信息，利用卷积注意力模块加强浅层信息的利用程度，提高训练好的A&D‑UNet聚合网络模型对复杂场景中道路信息提取的精度，且自动化程度高。采用BCE损失函数和Dice损失函数相结合的复合损失函数训练A&D‑UNet聚合网络模型，有效地减轻样本数量不平衡导致的模型不稳定问题，提升了模型分类预测的能力。

Description

基于注意力机制和扩张卷积的道路提取方法及系统

技术领域

本发明涉及深度学习及图像处理技术领域，特别是涉及一种基于注意力机制和扩张卷积的道路提取方法及系统。

背景技术

道路作为一种基础性设施，在数字城市建设、公共交通运输和无人汽车驾驶等领域扮演着重要的角色。随着遥感数据空间分辨率不断提高，从高分辨率影像中提取道路信息是当前一个重要的研究热点。然而，基于人工的道路矢量化方法不仅提取周期长，而且容易受到人的主观因素影响。因此，亟需一种快速、自动化的遥感影像道路信息提取方法。

近年来，学者们在利用遥感影像进行道路提取方面做了大量的研究，形成了诸多提取精度不一的方法。这些传统的方法根据提取任务不同，可分为两类。第一类方法是依赖专家知识、道路几何特征和形状特征，通过模板匹配、知识驱动等算法提取道路骨架，但这类方法存在计算复杂度较高、自动化程度较低等缺点。第二类方法则是利用面向对象的思想，通过图分割、支持向量机等方法来检测遥感影像中所有的道路区域，从而获取道路信息，然而这类方法由于受到建筑物阴影遮挡、道路灰度变化不均匀等问题，存在大量道路断裂现象，使得道路信息提取效果不佳。

发明内容

鉴于此，本发明提供了一种基于注意力机制和扩张卷积的道路提取方法及系统，以达到自动化程度高、提取效果佳的目的。

为实现上述目的，本发明提供了如下方案：

一种基于注意力机制和扩张卷积的道路提取方法，包括：

获取目标区域遥感影像数据；

基于所述目标区域遥感影像数据和训练好的A&D-UNet聚合网络模型，提取目标区域的道路信息；

其中，所述训练好的A&D-UNet聚合网络模型是以复合损失函数计算的损失值小于设定阈值为目标，采用训练数据训练A&D-UNet聚合网络模型确定的；所述复合损失函数计算的损失值为二进制交叉熵损失函数计算的损失值与Dice损失函数计算的损失值的和；所述训练数据包括多张遥感图像以及每张所述遥感图像对应的道路标签信息；

所述A&D-UNet聚合网络模型包括编码器、中央处理器和解码器；所述编码器设置有残差学习单元，所述中央处理器设置有扩张卷积单元，所述解码器设置有卷积注意力模块；所述编码器用于基于所述标定遥感图像和所述残差学习单元，提取所述标定遥感图像对应的道路特征信息；所述中央处理器用于基于所述标定遥感图像对应的道路特征信息和扩张卷积单元，整合所述标定遥感图像对应的道路特征信息的邻域信息；所述解码器用于基于所述标定遥感图像对应的道路特征信息、所述标定遥感图像对应的道路特征信息的邻域信息和所述卷积注意力模块，输出标定遥感图像对应的道路预测信息；所述标定遥感图像为所述训练数据中的任意一张遥感图像；

所述二进制交叉熵损失函数计算的损失值是基于所述标定遥感图像对应的道路预测信息和所述标定遥感图像对应的道路标签信息确定的；所述Dice损失函数计算的损失值是基于所述标定遥感图像对应的道路预测信息和所述标定遥感图像对应的道路标签信息确定的。

一种基于注意力机制和扩张卷积的道路提取系统，包括：

数据获取模块，用于获取目标区域遥感影像数据；

道路信息提取模块，用于基于所述目标区域遥感影像数据和训练好的A&D-UNet聚合网络模型，提取目标区域的道路信息；

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供的训练好的A&D-UNet聚合网络模型使用残差学习单元RLU减轻了深层卷积网络引起的性能退化等问题，采用扩张卷积单元DCU整合道路特征的细节信息，利用卷积注意力模块CBAM加强了浅层信息的利用程度，提高了训练好的A&D-UNet聚合网络模型对复杂场景中道路信息提取的精度，且自动化程度高。

2)采用BCE损失函数和Dice损失函数相结合的复合损失函数训练A&D-UNet聚合网络模型，有效地减轻了遥感图像中样本数量不平衡导致的模型不稳定问题，提升了模型分类预测的能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于注意力机制和扩张卷积的道路提取方法的流程示意图；

图2为本发明A&D-UNet聚合网络模型的结构示意图；

图3为本发明经典卷积单元与残差学习单元区别示意图；图3(a)为经典卷积单元结构示意图；图3(b)为残差学习单元结构示意图；

图4为本发明标准卷积和扩张卷积示意图；图4(a)为标准卷积示意图；

图4(b)为扩张卷积示意图；

图5为本发明扩张卷积单元结构示意图；

图6为本发明卷积注意力模块结构示意图；

图7为本发明马萨诸塞州道路数据集下遥感图像和相对应的道路标签图像；图7(a)为遥感图像；图7(b)为道路标签图；

图8为本发明在训练过程中A&D-UNet聚合网络模型在130个Epoch内的损失值大小和预测准确率的变化情况示意图；

图9为本发明在ORLC测试集下训练好的A&D-UNet聚合网络模型的道路信息提取结果图；图9(a)为ORLC测试集下测试影像；图9(b)为ORLC测试集下标签影像；图9(c)为ORLC测试集下道路信息提取结果图；

图10为本发明在IRLD测试集下训练好的A&D-UNet聚合网络模型的道路信息提取结果图；图10(a)为IRLD测试集下测试影像；图10(b)为IRLD测试集下标签影像；图10(c)为IRLD测试集下道路信息提取结果图；

图11为本发明在RBBT测试集下训练好的A&D-UNet聚合网络模型的道路信息提取结果图；图11(a)为RBBT测试集下测试影像；图11(b)为RBBT测试集下标签影像；图11(c)为RBBT测试集下道路信息提取结果图；

图12为本发明UNet网络模型、LinkNet网络模型、D-LinkNet网络模型、训练好的A&D-UNet聚合网络模型在ORLC、IRLD和RTTB测试数据集三种情况下的道路提取结果图；

图13为本发明UNet网络模型、LinkNet网络模型、D-LinkNet网络模型和训练好的A&D-UNet聚合网络模型在Deep Globe道路数据集上的道路提取结果图；

图14为本发明基于注意力机制和扩张卷积的道路提取系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，基于人工智能和深度学习(Deep Learning，DL)的道路提取方法，逐渐成为一种快速、自动化的解决方案。通过构建深度卷积神经网络(DeepConvolutionalNeuralNetwork，DCNN)的DL方法，自主地对遥感影像进行编码，克服了传统方法(如模板匹配、知识驱动和面向对象等方法)中手动选取道路特征信息的缺点。由多个卷积层、激活函数和池化层互相关联组成的DCNN模型，根据所输入的遥感影像数据学习相关特征，具有局部感知和参数共享的优点，被广泛应用于各种地物信息提取研究领域。尽管DL方法拥有极强的局部信息提取能力，但在遥感影像道路提取领域中仍然存在提取精度低、模型训练困难、由于样本数目不平衡导致模型训练不稳定等问题。

UNet网络模型，作为当前流行的端到端DCNN模型，利用了蕴含丰富信息的浅层特征，在生物医学图像分割领域表现出较好的性能。然而，由于遥感影像中道路区域存在树木遮挡以及较为复杂的背景噪声，直接利用UNet网络模型进行道路提取仍然是一项具有挑战性的任务，且存在以下问题：1)UNet网络模型在编码部分使用连续的卷积来提取道路特征，尽管具有较强的局部信息提取能力，但是较深的卷积神经网络容易阻碍模型训练，从而造成性能退化等问题；2)UNet网络模型使用四次最大池化(Max-pooling)进行下采样，来聚合卷积所提取的特征，不仅有效地减小了模型的计算量，而且增大了特征的感受野(Receptive Filed，RF)，但在面临具有较大RF的特征时，标准的卷积仅能提取局部特征，未能考虑更大范围的道路信息；3)UNet网络模型使用跳跃连接(Skip-Connection)操作，尽管加强了对浅层特征的利用程度，但这种直接复制的方式，忽视了所蕴含的道路信息在空间和通道维度上的分布情况，进而限制了模型的分割能力。

针对当前技术存在的计算复杂度高、自动化程度低、提取精度低、模型训练困难、由于样本数目不平衡导致模型训练不稳定等问题，本发明提供一种基于残差学习单元(Residual Learning Unit，RLU)并结合扩张卷积单元(Dilated Convolutional Unit，DCU)和卷积注意力模块(Convolutional Block Attention Module，CBAM)的聚合网络模型(以下用A&D-UNet聚合网络模型表示，其中，A和D分别代表Attention和DCU)，进行道路提取。该A&D-UNet聚合网络模型在编码部分使用RLU来提高模型的训练速度，降低深层网络引起的模型退化问题；该A&D-UNet聚合网络模型中的DCU在不损失特征空间分辨率以及不增加模型参数的情况下，接受更大范围的RF，进一步整合道路特征的细节信息；该A&D-UNet聚合网络模型中的CBAM沿着浅层特征的通道维度和空间维度，在抑制背景信息的同时，增强道路信息的关注程度。与现有的道路提取方法相比，集成了CBAM和DCU的A&D-UNet聚合网络模型，不仅学习到了浅层特征中道路的位置信息、边缘信息，而且还整合了浅层特征中更大范围邻域信息，提高了模型分类的精度，在遥感影像道路提取任务中取得了较好的效果。

实施例一

请参见图1，本实施例提供的一种基于注意力机制和扩张卷积的道路提取方法，包括如下步骤。

步骤101：获取目标区域遥感影像数据。

步骤102：基于所述目标区域遥感影像数据和训练好的A&D-UNet聚合网络模型，提取目标区域的道路信息。

在本实施例中，所述训练好的A&D-UNet聚合网络模型是以复合损失函数计算的损失值小于设定阈值为目标，采用训练数据训练A&D-UNet聚合网络模型确定的。所述复合损失函数计算的损失值为二进制交叉熵损失函数计算的损失值与Dice损失函数计算的损失值的和。所述训练数据包括多张遥感图像以及每张所述遥感图像对应的道路标签信息。

所述A&D-UNet聚合网络模型包括编码器、中央处理器和解码器；所述编码器设置有残差学习单元，所述中央处理器设置有扩张卷积单元，所述解码器设置有卷积注意力模块；所述编码器用于基于所述标定遥感图像和所述残差学习单元，提取所述标定遥感图像对应的道路特征信息；所述中央处理器用于基于所述标定遥感图像对应的道路特征信息和扩张卷积单元，整合所述标定遥感图像对应的道路特征信息的邻域信息；所述解码器用于基于所述标定遥感图像对应的道路特征信息、所述标定遥感图像对应的道路特征信息的邻域信息和所述卷积注意力模块，输出标定遥感图像对应的道路预测信息；所述标定遥感图像为所述训练数据中的任意一张遥感图像。

所述训练好的A&D-UNet聚合网络模型的训练过程为：

步骤A：将标定遥感图像输入到A&D-UNet聚合网络模型，以确定所述标定遥感图像对应的道路预测信息。

步骤B：基于所述标定遥感图像对应的道路预测信息和所述标定遥感图像对应的道路标签信息，计算所述复合损失函数输出的损失值。

步骤C：判断所述复合损失函数输出的损失值是否小于设定阈值。

步骤D：若是，则将用于确定所述标定遥感图像对应的道路预测信息的A&D-UNet聚合网络模型确定为训练好的A&D-UNet聚合网络模型。

步骤E：若否，则根据所述复合损失函数输出的损失值，采用反向传播方式，更新用于确定所述标定遥感图像对应的道路预测信息的A&D-UNet聚合网络模型的参数，更新所述标定遥感图像，返回将标定遥感图像输入到A&D-UNet聚合网络模型，以确定所述标定遥感图像对应的道路预测信息。

所述训练数据的构建过程：

步骤a：获取多张原始遥感图像。

步骤b：对每个所述原始遥感图像进行道路信息提取，以确定每张所述遥感图像对应的道路标签图像。

步骤c：对每张所述原始遥感图像进行预处理操作，得到多张遥感图像；所述预处理操作包括裁剪、筛选以及归一化处理。

步骤d：对每张所述道路标签图像进行预处理操作，得到道路标签信息。

步骤e：多张所述遥感图像以及每张所述遥感图像对应的道路标签信息，构建训练数据。

所述复合损失函数的表达式为：L＝L_B+L_D；

其中，L为复合损失函数计算的损失值。

L_B为BCE损失函数计算的损失值，P_i为第i个像元的道路预测信息，T_i为第i个像元的道路标签信息，P_i∈[0,1]，N为一张遥感图像中像元个数的总数。

L_D为Dice损失函数计算的损失值。

所述步骤102，具体为：

(1)对所述目标区域遥感影像数据进行预处理操作；所述预处理操作包括裁剪、筛选以及归一化处理。其中，详细的预处理过程可参见训练数据的确定过程。(2)将预处理操作后的目标区域遥感影像数据输入到训练好的A&D-UNet聚合网络模型，以提取目标区域的道路信息。

进一步地：

所述训练好的A&D-UNet聚合网络模型中的编码器包括第一输入层、残差学习单元和第一输出层；所述第一输入层，用于输入预处理操作后的目标区域遥感影像数据；所述残差学习单元为设置有恒等映射机制和批量归一化操作的学习单元；所述残差学习单元用于基于所述预处理操作后的目标区域遥感影像数据，提取目标区域对应的道路特征信息；所述第一输出层用于采用最大池化下采样方式对所述道路特征信息进行多次降维处理，输出降维处理后的道路特征信息。

所述训练好的A&D-UNet聚合网络模型中的中央处理器包括第二输入层、扩张卷积单元和第二输出层；所述第二输入层用于输入所述降维处理后的道路特征信息；所述扩张卷积单元设置有多个扩张卷积核；所述扩张卷积核为相邻卷积核之间的间隔通过扩张率增加方式进行扩张后的卷积核；相邻所述扩张卷积核之间串联连接，且相邻所述扩张卷积核之间并联连接；所述扩张卷积单元用于采用设定特征融合方式对所述降维处理后的道路特征信息进行整合，得到降维处理后的道路特征信息的邻域信息；所述设定特征融合方式为在通过串联操作提取特征信息的基础上，以并联相加操作进行特征融合的方式；所述第二输出层为输出所述降维处理后的道路特征信息的邻域信息。

所述训练好的A&D-UNet聚合网络模型中的解码器包括：第三输入层、卷积注意力模块和第三输出层；所述第三输入层用于输入目标信息；所述目标信息包括所述降维处理后的道路特征信息以及所述降维处理后的道路特征信息的邻域信息；所述卷积注意力模块用于：在通道维度上，对所述目标信息分别进行全局最大池化处理和全局平均池化处理，得到两个一维特征矢量，并通过全连接层对所有所述一维特征矢量进行分配特征权重处理，以得到在通道域上关注程度加强的目标信息；所述卷积注意力模块还用于在空间维度上，对通道域上所述关注程度加强的目标信息进行GMP压缩和GAP压缩，生成二维特征图，并利用卷积操作对所述二维特征图进行分配特征权重处理，以完成在空间域上对所述关注程度加强的目标信息进行二次关注程度加强的目的，进而得到关注程度双重加强的目标信息；所述第三输出层用于采用转置卷积上采样方式对所述关注程度双重加强的目标信息进行升维处理，以提取目标区域的道路信息。

下面对A&D-UNet聚合网络模型中的各个模块进行更为详细的介绍。

A&D-UNet聚合网络模型的结构如图2所示，主要包括编码器、中心处理器和解码器。编码器接收输入的遥感影像数据，利用残差学习单元RLU学习道路特征信息，并采用最大池化(Max-pooling)下采样的方式减小特征维度。经过连续的卷积操作和池化操作后，编码器共提取四个含有道路边缘、位置和空间信息的浅层特征(Feature1)。中心处理器采用三个连续的扩张卷积，整合道路特征的邻域信息。解码器一方面通过卷积注意力模块CBAM加强对浅层特征中道路信息的关注程度，另一方面利用转置卷积上采样的处理方式，恢复提取道路的细节，最后输出与遥感影像数据具有相同空间分辨率的提取结果。

该A&D-UNet聚合网络模型充分利用残差学习、扩张卷积和注意力机制的优点，分别简化模型的训练过程、获取更多的道路信息以及提高浅层特征的利用程度。RLU作为主干特征提取网络的组成单元，避免了DCNN所引起的模型训练困难、性能退化等问题，提升了A&D-UNet网络的学习能力。DCU充分利用了该模型第四次下采样后的道路特征，通过连续但不同的扩张卷积考虑其中的上下文信息，有效地整合了特征的邻域信息。CBAM以加权赋值的形式，提高对浅层特征中道路空间信息的关注程度，减少背景噪声信息的干扰，从而有效地提高了道路提取模型的精度。

残差学习单元RLU

经典UNet网络在编码部分使用两次连续的3×3卷积和线性整流激活函数(Rectified Linear Unit，ReLU)来提取目标特征，其结构如图3(a)所示。然而，随着卷积层数的增加，经典UNet网络容易出现阻碍模型训练的现象。为解决此类问题，A&D-UNet聚合网络模型采用图3(b)所示的RLU，通过恒等映射(Identity Mapping，IM)机制和批量归一化(Batch Normalization，BN)操作，不仅降低了模型训练的复杂度，同时也提高了模型训练的速度。

扩张卷积单元(DCU)

如图4所示，标准的卷积仅能感受3×3范围的局部信息(图中阴影区域)。但A&D-UNet聚合网络模型采用图4(b)所示的扩张卷积，在不增加网络模型参数的基础上，通过增加扩张率的方式扩大了卷积核之间的间隔，从而可以感受7×7更大范围的特征信息，有效地整合了道路的邻域信息。

为充分利用第四次下采样后的道路特征信息A&D-UNet聚合网络模型的中心部分使用DCU。如图5所示，DCU在通过串联方式提取特征的基础上，以并联相加的操作进行特征融合，完成道路信息的整合。此外三个连续扩张率(1,2,3)的扩张卷积，避免了特征提取过程中出现的特征遗漏现象。

卷积注意力模块CBAM

卷积神经网络虽然具有很强的局部信息提取能力，但对整体特征分布情况的获取能力相对较弱。计算机视觉领域的注意力机制通过自主学习的形式，获取每个特征的重要信息，从而忽略其他无关的特征信息，重点关注道路整体特征的分布情况，进而有力地提高了模型的预测能力。

采用如图6所示的CBAM结构进一步处理浅层特征中的道路信息。CBAM依次在通道维度和空间维度两个方面，通过分配权重的形式突出道路特征信息，在抑制背景信息的同时，也增强了模型分类预测的效果。CBAM有两个主要的步骤：首先在通道维度上对浅层特征分别进行全局最大池化(Global Max-Pooling，GMP)和全局平均池化(Global AveragePooling，GAP)，创建两个一维的特征矢量，并通过全连接层对特征矢量分配权重，完成通道域上的道路特征信息加强；其次，在空间维度上对通道域所提取的特征再次进行GMP压缩和GAP压缩，生成二维的特征图，然后利用卷积分配特征权重，实现空间域的道路特征信息加强。通过上述步骤的处理，提升了A&D-UNet聚合网络模型对浅层特征中道路信息的关注程度。其CBAM结构的参数、内部操作和特征维度变化如表1所示。

表1 CBAM参数设置表

注：N表示输入到结构中的特征个数，C、H、W分别为每个特征的通道数、长、宽。

下面对复合损失函数进行更为详细的介绍。

A&D-UNet聚合网络模型一般采用公式(1)所示的二进制交叉熵(Binary CrossEntropy，BCE)损失函数进行训练。BCE损失函数通过计算预测结果和道路标签之间的损失大小，再应用反向传播的方式更新A&D-UNet聚合网络模型的参数。

式中，P_i为第i个像元的预测值，T_i为为第i个像元的标签值，P_i∈[0,1]，N为一个样本(训练数据中的标定遥感图像)中像元个数的总数，i为其中任意像元，L_B为BCE损失函数计算的损失值。

然而，遥感影像中道路与背景区域(非道路区域)的样本数量往往是不均衡的。BCE损失函数在这种情况下会使模型陷入局部极小值，并且存在训练不稳定的缺点。公式(2)所示的Dice损失函数，通过比较预测结果和标签之间的相似程度，很好地解决了正负样本不平衡的问题。

式中，L_D为Dice损失函数计算的损失值，其余各参数含义同公式(1)。

由公式(1)和公式(2)可知，在样本数量极度不平衡的情况下，BCE损失函数倾向于学习背景区域，而Dice损失函数只关注道路区域是否被正确分类。本实施例结合BCE损失函数和Dice损失函数两者之间的优点，以相加的形式得到如公式(3)所示的复合损失函数，提高A&D-UNet聚合网络模型在道路样本较少时的预测能力。

L＝L_B+L_D (3)；

式中，L为复合损失函数计算的损失值。

下面对训练数据进行更为详细的介绍。

马萨诸塞州道路数据集(Massachusetts Road Data Sets，MRDS)由Mnih等人(2013)创立，因其覆盖范围广、影像数据量大、数据标注准确，被许多研究人员广泛使用。该数据集共有1171张遥感图像，其中，含有1108张训练遥感图像、14张验证遥感图像、49张测试遥感图像。所有遥感图像大小均为1500×1500像元，由红、绿、蓝三波段组成，空间分辨率为1.2m。图7展示了该数据集下遥感图像和相对应的道路标签图像。其中，道路标签图像中道路区域像素值为1，背景区域为0。故本实施例将马萨诸塞州道路数据集作为原始训练数据。

考虑到计算机显存大小的限制以及该马萨诸塞州道路数据集中遥感图像存在大量的空白区域，本实施例通过以下步骤筛选出满足要求的数据：

1)将每张遥感图像和对应的道路标签图像裁剪为256×256像元大小；2)计算裁剪之后图像的像元个数之和，保留结果大于5000的图像。通过上述数据处理步骤后，共得到2230张训练遥感图像和161张测试遥感图像；3)遥感图像在输入A&D-UNet聚合网络模型前，需要进行数据归一化处理，以达到既能加快模型的训练速度，又可以提升模型学习能力的目的。本实施例采用如公式(4)所示的最值归一化，使得遥感图像数据的像素值标准化至[0,1]范围。

式中，x代表归一化后的像素值，x^*表示原始影像的像素值。

下面对A&D-UNet聚合网络模型的训练以及对训练好的A&D-UNet聚合网络模型的评估进行更为详细的介绍。

A&D-UNet聚合网络模型基于Windows操作平台和Pytorch深度学习框架设计，由Adam优化函数和复合损失函数训练。训练的硬件配置是NVIDIA GeForce RTX 2060，超参数学习率(Learning Rate)和数据批大小(Batch Size)分别设置为0.0001和2。图8显示了A&D-UNet聚合网络模型在130个Epoch内的损失值大小和预测准确率的变化情况。可以明显地看出，损失值在逐渐的减小，准确率在逐渐的上升，表明A&D-UNet聚合网络模型训练正常

本实施例根据已有的研究成果和MRDS的特点，将测试集分为道路线性特征明显(Obvious Road-Line Characteristics，ORLC)、道路标签数据不完整(Incomplete RoadLabel Data，IRLD)和道路存在树木遮挡(Road Blocked By Trees，RBBT)三种情况，其中，每种情况各挑选若干代表性的遥感图像，分别组成ORLC测试集、IRLD测试集和RBBT测试集，以检测训练好的A&D-UNet聚合网络模型在不同情况下的道路提取效果。

ORLC测试集

图9展示了在ORLC测试集下的道路信息提取结果。通过道路影像和真实标签对比可知，该ORLC测试集下的道路大部分呈现单一线性分布的特点，且树木遮挡较少、道路区域较明显。在这种情况下，训练好的A&D-UNet聚合网络模型能够有效地考虑道路的几何特征和线性特征(如图9中黑色加粗椭圆圈所示)，尤其在小面积的“弧形”道路区域(如图9中黑色椭圆圈所示)，表现出较好的道路提取效果。本实施例提出的方法充分地考虑了道路连通性，较为完整地提取了道路信息。

IRLD测试集

测试数据集中有部分真实标签数据中道路区域标记不准确或不完整，称为IRLD测试集。图10是训练好的A&D-UNet聚合网络模型基于IRLD测试集的道路信息提取结果。由图10中道路影像和真实标签对比可知(图10中黑色加粗椭圆圈)，部分道路存在遗漏标记、标记不正确的情况。然而，训练好的A&D-UNet聚合网络模型通过大量的道路影像训练数据集，学习了道路的相关特征，有效地避免了标签错误的现象(图10(c)中所示)。

RBBT测试集

如图11所示，黑色加粗椭圆圈表示该区域的道路存在树木遮挡的情况。对比真实标签数据和道路信息提取结果可知，本实施例提出的训练好的A&D-UNet聚合网络模型能够有效地提取树木遮挡区域的道路，表现出较强的道路提取能力。其中主要的原因是由于训练好的A&D-UNet聚合网络模型通过DCU考虑了更大范围的道路特征信息，并利用CBAM进一步关注浅层特征中的道路信息，提高了模型分类预测的准确率。

对比分析三种不同情况下的道路信息提取结果发现，训练好的A&D-UNet聚合网络模型在道路线性关系明显的情况下，所提取的道路图像最接近道路标签影像。在道路标签不完整、不正确的情况下，也能较完整地提取了道路区域。此外，即使在树木遮挡的情况下，该训练好的A&D-UNet聚合网络模型也能取得较好的提取结果。总体而言，本实施例提出的训练好的A&D-UNet聚合网络模型在不同情况下均能取得满意的道路信息提取结果。

本实施例采用总体精度(Overall Accuracy，OA)、精确率(Precision，P)、召回率(Recall，R)、F1分数(F1-score，F1)和交并比(Intersection Over Union，IOU)，综合评价网络模型的道路提取效果。对于图像分割而言，预测结果和实际标签可组成TP(预测为真，标签为真)，TN(预测为假，标签为假)，FP(预测为真，标签为假)，FN(预测为假，标签为真)四种情况，不同评价指标的具体公式如下：

OA反映了模型预测结果的准确程度，但由于图像中含有大量的背景区域，一般采用F1分数和IOU进行综合评价。F1分数越高，代表模型分类预测的结果较好。IOU是道路预测区域和真实道路区域的重合程度，重合程度越高，模型性能越好。

本实施例将上述三种测试集下的提取结果与真实标签分别进行OA、P、R、F1和IOU指标评估，定量分析模型道路提取的效果。从表2可以看出，ORLC测试集的OA、F1和IOU分别高达96.47％、83.45％，84.18％，一方面说明A&D-UNet聚合网络模型；能较好地区分背景区域，另一方面也表明在道路线性特征明显、遮挡较少的区域，能够高精度的提取道路信息。IRLD测试集的五个评价指标均低于其他两种，主要是由于该测试集下的道路预测结果中的道路区域与真实标签不一致造成的。尽管如此，IRLD测试集依然拥有95.22％的OA、77.13％的F1分数和79.13％的IOU，说明本实施例提出的方法能够有效地提取大部分道路区域。RBBT测试集下的评价指标高于IRLD测试集，但小于ORLC测试集。其中，高达95.88％的OA表明了训练好的A&D-UNet聚合网络模型能有效地提取被树木遮挡的道路区域。

表2不同测试集的评估结果表

注：加粗数字为最优结果

为检验训练好的A&D-UNet聚合网络模型与其它模型相比是否更有效？本实施例基于相同的损失函数和学习率，将训练好的A&D-UNet聚合网络模型(以下用“A&D-UNet聚合网络模型”表示本实施例所述的训练好的A&D-UNet聚合网络模型)与经典的UNet、LinkNet、D-LinkNet等三种网络模型使用相同的道路数据集进行训练学习，并A&D-UNet聚合网络模型使用OA、P、R、F1和IOU五种评价指标进行定量评估。

图12中的Image1、Image2和Image3分别展示了四种模型在ORLC、IRLD和RTTB三种情况下的道路提取结果。如图12Image1所示，四种模型所提取的道路结果干净整洁，表明UNet网络模型、LinkNet网络模型、D-LinkNet网络模型和A&D-UNet聚合网络模型在遮挡较少、线性关系明显的区域都能有效地提取道路。但仔细观察发现，UNet网络模型在线性关系不明显的区域，将建筑物错误地预测为道路(如图12Image1中黑色加粗椭圆所示)，反映了其它三种模型具有较好地区分建筑物的优点。对比图12Image2的真实标签和道路提取结果可知，本发明提出的A&D-UNet聚合网络模型相比于其它三种模型，即使在真实标签不完整的情况下，依然能有效地避免真实标签不完整(如图12中黑色椭圆框所示)的情况。另外从图12Image2的黑色加粗椭圆中可以发现，加入了RLU的LinkNet网络模型、D-LinkNet网络模型和A&D-UNet聚合网络模型所提取的道路都比较完整，而UNet网络模型存在部分遗漏提取的现象。图12Image3的道路提取结果展示了不同模型在道路遮挡区域的提取效果。由图12Image3中黑色加粗椭圆圈可知，加入RLU的LinkNet网络模型比UNet网络模型能提取到更多的道路信息，但也存在道路信息弯曲遗漏提取的情况。而D-LinkNet网络模型和A&D-UNet聚合网络模型所提取的道路更加笔直，主要原因是扩张卷积单元进一步整合了道路特征的邻域信息。相比于D-LinkNet网络模型，A&D-UNet聚合网络模型通过CBAM充分利用了浅层特征的道路信息，使得提取结果更加完整。总之，在道路线性关系明显、标签不完整和道路遮挡等不同情况下，相比于UNet、LinkNet和D-LinkNet三种网络模型，A&D-UNet聚合网络模型所提取的道路最为完整、准确。

采用评价指标定量评估四种模型在三种情况下的道路提取性能，评价结果如表3所示。分析结果可知，UNet网络模型、LinkNet网络模型、D-LinkNet网络模型和A&D-UNet聚合网络模型的OA均在91％以上，表明四种模型都能够有效地区分道路与背景区域。即使在道路遮挡区域，A&D-UNet聚合网络模型的F1分数和IOU依然达到了78.51％和79.38％，是四种模型最高的。从表3中也可以看出，A&D-UNet聚合网络模型中有部分指标(Image2中的OA和P，Image3的P)不如D-LinkNet网络模型，其可能的原因是A&D-UNet聚合网络模型识别了标签中未标注的道路区域，而这些区域被模型认定为正确的(实际上在标签中不存在，被认为是错误的)，把事实上正确的信息作为错误的信息代入公式(5)和公式(6)计算，从而降低了OA和P。尽管如此，A&D-UNet聚合网络模型的F1分数和IOU依然高达80.58％和80.59％，这表明A&D-UNet聚合网络模型依然具有较好的预测性能。这也表明A&D-UNet聚合网络模型在道路提取领域上的具有较好的预测能力。

表3不同影像的评价结果表

注：加粗数字为最优结果。

对四种模型在所有测试集上的道路提取结果进行综合评估，得到如表4所示的评价结果。由表4可知，相比于经典UNet网络模型，加入了RLU的LinkNet网络模型通过IM和BN机制有效地提升了模型的预测性能。融合了扩张卷积的D-LinkNet网络模型在不损失特征信息的基础上，接收更大范围的RF，提高了道路提取的精度。A&D-UNet聚合网络模型由于集成了DCU和CBAM，在测试集上的F1分数和IOU比LinkNet网络模型分别提高了5.12％和3.93％。通过对所有测试结果的定量分析表明，集成了DCU和CBAM的A&D-UNet聚合网络模型，在测试集上的OA(95.27％)、P(76.21％)、R(80.73％)、F1分数(77.96％)和IOU(79.89％)均高于UNet、LinkNet、D-LinkNet三种网络模型，表现出较好的道路提取性能。另外，相比其他模型，尽管A&D-UNet聚合网络模型的训练时间较长(6.9小时)，但在所有测试集上的平均评价结果均为最优，表明A&D-UNet聚合网络模型是四种模型中最优的道路提取模型。

表4不同模型的评价结果表

注：加粗数字为最优结果。

通过不同模型之间的对比分析，本实施例提出的A&D-UNet聚合网络模型具有较好的提取能力。相比于经典的U-Net网络模型，A&D-UNet聚合网络模型使用RLU作为编码器的组成单元，在一定程度上减轻了卷积层数过多而引起的模型退化问题，加快了模型的训练速度。引入的CBAM使得模型进一步关注浅层特征中的道路信息，提升了模型分类预测的准确率。通过设置连续且不同扩张率的扩张卷积，克服了标准卷积感受区域较小的缺点，从而考虑了更大的范围的感受野，进一步整合了道路特征的邻域信息。

本实施例还采用评价指标综合评估BCE损失函数和复合损失函数的道路提取效果。如表5所示，两种损失函数所训练的模型，在测试集上的OA都在95％以上，表明均能有效的提取道路信息。但是，使用BCE损失函数与Dice损失函数相结合的复合损失函数所训练的模型，在测试集上的F1分数和IOU比仅用BCE损失函数训练的模型，分别提高了0.26％和0.18％，说明引入的Dice损失函数能够处理正负样本数目不平衡的现象，从而提升了模型预测分类的准确度。

表5不同损失函数的评价结果表

注：加粗数字为最优结果。

为进一步验证A&D-UNet聚合网络模型的泛化能力，本实施例还选用Deep Globe道路数据集对其进行训练及测试验证。同样，应用上述相同的数据预处理方式对Deep Globe道路数据集进行裁剪、处理和筛选，共得到4770张、尺寸为256×256像元的图像，并按照7∶3的比例随机选取图像，分别组成训练集和测试集。图13为经典UNet网络模型、LinkNet网络模型、D-LinkNet网络模型和A&D-UNet聚合网络模型在Deep Globe道路数据集上的提取结果。从图中黑色椭圆圈可以看出，基于端到端的四种DCNN网络模型在几何线性特征明显的道路区域具有较好的识别效果，能正确地提取大部分道路区域。UNet网络模型、LinkNet网络模型、D-LinkNet网络模型在狭窄城市道路、无清晰边界泥泞道路、面积较大主干道路以及被建筑物阴影遮挡道路等情况下(如图中黑色加粗椭圆圈所示)，存在部分道路信息遗漏提取的现象。然而，A&D-UNet聚合网络模型通过CBAM和DCU，可以提取较为完整的道路信息，具有较好的识别性能。此外，在标签未标记的部分道路区域(如图中黑色加粗虚线围成的椭圆圈所示)，四种DCNN模型依然能够对道路信息进行有效地提取，但A&D-UNet聚合网络模型提取结果具有更好的视觉效果。

表6 Deep Globe Data Sets不同模型道路提取评价结果表

注：加粗数字为最优结果。

基于Deep Globe道路数据集的道路提取结果评价指标及测试集的评估结果如表6所示。从表中可以看出，四种网络模型的OA、F1和IOU分别超过92％、69％和73％，表明基于端到端的DCNN模型具有较好的分类预测性能。但A&D-UNet聚合网络模型在测试集上取得了最高的F1分数(77.06％)和IOU(78.44％)，表现出良好的泛化性能。相比于经典UNet网络模型，本实施例提供的A&D-UNet聚合网络模型虽然训练时间耗时相对较长，但其F1和IOU分别提高了7.12％和5.51％，说明CBAM和DCU能显著提高模型的预测精度。

针对遥感影像道路提取方法存在的自动化程度低、精度不高、由于样本数量不平衡导致的模型训练不稳定等问题，本发明实施例提出了一种基于RLU、带有DCU和CBAM的A&D-UNet聚合网络模型，并使用BCE损失函数和Dice损失函数进行道路信息提取实验，并与经典UNet、LinkNet、D-LinkNet网络模型对比分析，得出以下结论：

1)A&D-UNet聚合网络模型是一个道路信息提取精度较高的聚合网络模型。在测试集上的F1分数和IOU评价指标分别达到77.96％和79.89％，说明该方法能够有效地提取道路信息。与经典UNet网络模型相比，该A&D-UNet聚合网络模型使用RLU减轻了深层卷积网络引起的性能退化等问题，采用DCU整合道路特征的细节信息，利用CBAM加强了浅层信息的利用程度，提高了模型对复杂场景中道路的提取精度。

2)采用BCE损失函数和Dice损失函数相结合的复合损失函数训练A&D-UNet聚合网络模型，有效地减轻了遥感影像中样本数量不平衡导致的模型不稳定问题，提升了模型分类预测的能力。对于其它样本数量不平衡的地物分类任务，具有一定的借鉴意义和适用性。

实施例二

为实现上述目的，请参见图14，本实施例提供的一种基于注意力机制和扩张卷积的道路提取系统，包括：

数据获取模块201，用于获取目标区域遥感影像数据；

道路信息提取模块102，用于基于所述目标区域遥感影像数据和训练好的A&D-UNet聚合网络模型，提取目标区域的道路信息。

其中，所述训练好的A&D-UNet聚合网络模型是以复合损失函数计算的损失值小于设定阈值为目标，采用训练数据训练A&D-UNet聚合网络模型确定的；所述复合损失函数计算的损失值为二进制交叉熵损失函数计算的损失值与Dice损失函数计算的损失值的和；所述训练数据包括多张遥感图像以及每张所述遥感图像对应的道路标签信息。

所述道路信息提取模块202，具体包括：预处理单元，用于对所述目标区域遥感影像数据进行预处理操作；所述预处理操作包括裁剪、筛选以及归一化处理；道路信息提取单元，用于将预处理操作后的目标区域遥感影像数据输入到训练好的A&D-UNet聚合网络模型，以提取目标区域的道路信息。

为解决当前遥感影像道路提取方法普遍存在的自动化程度低、提取精度不高、由于样本数量不平衡导致的模型训练不稳定等问题，本发明提供了一种集成注意力机制和扩张卷积的道路提取模型(即A&D-UNet聚合网络模型)。

A&D-UNet聚合网络模型以经典UNet网络结构为基础，在编码部分引入残差学习单元(Residual Learning Unit，RLU)，降低深度卷积神经网络在训练时的复杂度；应用卷积注意力模块(Convolutional Block Attention Module，CBAM)从通道维度和空间维度两个方面优化分配权重，突出道路特征信息，并使用扩张卷积单元(Dilated ConvolutionalUnit，DCU)感受更大范围的特征区域，整合道路的上下文信息。采用二进制交叉熵(BinaryCross Entropy，BCE)损失函数和Dice损失相结合的复合损失函数训练模型，减轻遥感影像中样本数量不平衡而导致的模型不稳定。

在公开的马萨诸塞州和Deep Globe道路数据集上进行模型验证实验，并与传统的UNet、LinkNet和D-LinkNet图像分割模型对比分析。在马萨诸塞州道路测试集上，A&D-UNet模型的总体精度、F1分数和交并比等评价指标均优于所有相比较的算法，分别达到95.27％、77.96％和79.89％，在测试集中对线性特征明显、标签遗漏标记以及存在树木遮挡的道路区域具有更好的识别效果；在Deep Globe道路测试集上，A&D-UNet聚合网络模型其总体精度、F1分数和交并比分别达到94.01％、77.06％和78.44％，且对线性特征明显的主干道路、标签未标记的狭窄道路以及被阴影遮挡的城市道路都具有较好的提取效果。

本发明提出的A&D-UNet聚合网络模型，综合了残差学习、注意力机制和扩张卷积的优点，有效地提升了目标分割的性能，是一种提取效果较好、值得推广的聚合网络模型

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于注意力机制和扩张卷积的道路提取方法，其特征在于，包括：

获取目标区域遥感影像数据；

其中，所述训练好的A&D-UNet聚合网络模型是以复合损失函数计算的损失值小于设定阈值为目标，采用训练数据训练A&D-UNet聚合网络模型确定的；

所述复合损失函数计算的损失值为二进制交叉熵损失函数计算的损失值与Dice损失函数计算的损失值的和；

所述训练数据包括多张遥感图像以及每张所述遥感图像对应的道路标签信息；

所述A&D-UNet聚合网络模型包括编码器、中央处理器和解码器；所述编码器设置有残差学习单元，所述中央处理器设置有扩张卷积单元，所述解码器设置有卷积注意力模块；所述编码器用于基于标定遥感图像和所述残差学习单元，提取所述标定遥感图像对应的道路特征信息；所述中央处理器用于基于所述标定遥感图像对应的道路特征信息和扩张卷积单元，整合所述标定遥感图像对应的道路特征信息的邻域信息；所述解码器用于基于所述标定遥感图像对应的道路特征信息、所述标定遥感图像对应的道路特征信息的邻域信息和所述卷积注意力模块，输出标定遥感图像对应的道路预测信息；所述标定遥感图像为所述训练数据中的任意一张遥感图像；

所述二进制交叉熵损失函数计算的损失值是基于所述标定遥感图像对应的道路预测信息和所述标定遥感图像对应的道路标签信息确定的；所述Dice损失函数计算的损失值是基于所述标定遥感图像对应的道路预测信息和所述标定遥感图像对应的道路标签信息确定的；

所述训练好的A&D-UNet聚合网络模型中的编码器包括第一输入层、残差学习单元和第一输出层；所述第一输入层，用于输入预处理操作后的目标区域遥感影像数据；所述残差学习单元为设置有恒等映射机制和批量归一化操作的学习单元；所述残差学习单元用于基于所述预处理操作后的目标区域遥感影像数据，提取目标区域对应的道路特征信息；所述第一输出层用于采用最大池化下采样方式对所述道路特征信息进行多次降维处理，输出降维处理后的道路特征信息；

所述训练好的A&D-UNet聚合网络模型中的中央处理器包括第二输入层、扩张卷积单元和第二输出层；所述第二输入层用于输入所述降维处理后的道路特征信息；所述扩张卷积单元设置有多个扩张卷积核；所述扩张卷积核为相邻卷积核之间的间隔通过扩张率增加方式进行扩张后的卷积核；相邻所述扩张卷积核之间串联连接，且相邻所述扩张卷积核之间并联连接；所述扩张卷积单元用于采用设定特征融合方式对所述降维处理后的道路特征信息进行整合，得到降维处理后的道路特征信息的邻域信息；所述设定特征融合方式为在通过串联操作提取特征信息的基础上，以并联相加操作进行特征融合的方式；所述第二输出层为输出所述降维处理后的道路特征信息的邻域信息；

所述训练好的A&D-UNet聚合网络模型中的解码器包括：第三输入层、卷积注意力模块和第三输出层；所述第三输入层用于输入目标信息；所述目标信息包括所述降维处理后的道路特征信息以及所述降维处理后的道路特征信息的邻域信息；所述卷积注意力模块，用于：在通道维度上，对所述目标信息分别进行全局最大池化处理和全局平均池化处理，得到两个一维特征矢量，并通过全连接层对所有所述一维特征矢量进行分配特征权重处理，以得到在通道域上关注程度加强的目标信息；在空间维度上，对通道域上所述关注程度加强的目标信息进行GMP压缩和GAP压缩，生成二维特征图，并利用卷积操作对所述二维特征图进行分配特征权重处理，以完成在空间域上对所述关注程度加强的目标信息进行二次关注程度加强的目的，进而得到关注程度双重加强的目标信息；所述第三输出层用于采用转置卷积上采样方式对所述关注程度双重加强的目标信息进行升维处理，以提取目标区域的道路信息。

2.根据权利要求1所述的一种基于注意力机制和扩张卷积的道路提取方法，其特征在于，所述基于所述目标区域遥感影像数据和训练好的A&D-UNet聚合网络模型，提取目标区域的道路信息，具体包括：

对所述目标区域遥感影像数据进行预处理操作；所述预处理操作包括裁剪、筛选以及归一化处理；

将预处理操作后的目标区域遥感影像数据输入到训练好的A&D-UNet聚合网络模型，以提取目标区域的道路信息。

3.根据权利要求1所述的一种基于注意力机制和扩张卷积的道路提取方法，其特征在于，所述训练好的A&D-UNet聚合网络模型的训练过程为：

将标定遥感图像输入到A&D-UNet聚合网络模型，以确定所述标定遥感图像对应的道路预测信息；

基于所述标定遥感图像对应的道路预测信息和所述标定遥感图像对应的道路标签信息，计算所述复合损失函数输出的损失值；

判断所述复合损失函数输出的损失值是否小于设定阈值；

若是，则将用于确定所述标定遥感图像对应的道路预测信息的A&D-UNet聚合网络模型确定为训练好的A&D-UNet聚合网络模型；

若否，则根据所述复合损失函数输出的损失值，采用反向传播方式，更新用于确定所述标定遥感图像对应的道路预测信息的A&D-UNet聚合网络模型的参数，更新所述标定遥感图像，返回将标定遥感图像输入到A&D-UNet聚合网络模型，以确定所述标定遥感图像对应的道路预测信息。

4.根据权利要求1所述的一种基于注意力机制和扩张卷积的道路提取方法，其特征在于，所述训练数据的构建过程：

获取多张原始遥感图像；

对每个所述原始遥感图像进行道路信息提取，以确定每张所述原始遥感图像对应的道路标签图像；

对每张所述原始遥感图像进行预处理操作，得到多张遥感图像；所述预处理操作包括裁剪、筛选以及归一化处理；

对每张所述道路标签图像进行预处理操作，得到道路标签信息；

多张所述遥感图像以及每张所述遥感图像对应的道路标签信息，构建训练数据。

5.根据权利要求1所述的一种基于注意力机制和扩张卷积的道路提取方法，其特征在于，所述复合损失函数的表达式为：

L＝L_B+L_D；

其中，L为复合损失函数计算的损失值；

L_B为二进制交叉熵损失函数计算的损失值，P_i为第i个像元的道路预测信息，T_i为第i个像元的道路标签信息，P_i∈[0,1]，N为一张遥感图像中像元个数的总数；

L_D为Dice损失函数计算的损失值。

6.一种基于注意力机制和扩张卷积的道路提取系统，其特征在于，包括：

数据获取模块，用于获取目标区域遥感影像数据；

7.根据权利要求6所述的一种基于注意力机制和扩张卷积的道路提取系统，其特征在于，所述道路信息提取模块，具体包括：

预处理单元，用于对所述目标区域遥感影像数据进行预处理操作；所述预处理操作包括裁剪、筛选以及归一化处理；

道路信息提取单元，用于将预处理操作后的目标区域遥感影像数据输入到训练好的A&D-UNet聚合网络模型，以提取目标区域的道路信息。