CN114926797A

CN114926797A - 基于边缘约束与特征适应的Transformer双分支道路提取方法及装置

Info

Publication number: CN114926797A
Application number: CN202210539771.2A
Authority: CN
Inventors: 朱祺琪; 王立增
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-08-19

Abstract

本发明提供了一种基于边缘约束与特征适应的Transformer双分支道路提取方法及装置，该方法包括：搭建双分支道路提取模型，输入高分辨率遥感影像和对应的样本数据集；利用跨窗口自注意力机制模型建模道路特征；道路面提取分支利用非对称上采样解码器整合多尺度特征映射；边缘提取分支道路精细化约束；通过训练后的道路特征提取模型对待分类的影像进行道路特征分类，获得每张影像的道路特征分类结果。本发明提供了一种新颖的双分支道路提取模型的架构，具备局部与全局上下文信息的积累能力，适应道路跨度大的长距离特征，充分利用图像本身的边缘先验信息，保证分割精度的同时增强了道路提取结果的完整性。

Description

基于边缘约束与特征适应的Transformer双分支道路提取方法及装置

技术领域

本发明涉及深度学习与遥感影像处理技术领域，具体涉及一种基于边缘约束与特征适应的Transformer双分支道路提取方法及装置。

背景技术

道路提取即基于道路的几何形状和空间特征的一类图像分割，一直是遥感领域的研究热点，在城市规划、地理信息系统更新、智能化交通、车辆导航等众多应用中具有重要意义。卫星观测数据的巨幅增长使研究人员能够从遥感图像中获得更多的信息，在一个快速发展的地区，道路网络变化速度较快，然而人工标注道路费时费力且无法实际应用于灾害救援等实时性的道路提取任务，因而有必要设计良好的道路提取方法与模型，及时对最新的道路网络进行提取，以满足相应的应用与需求。然而道路所具备的例如跨度大、占比小、路面材料、空间结构等复杂多样等特征，以及遥感图像的噪声、遮挡和复杂背景，使得道路提取具有一定的挑战性。

传统的道路提取方法可以分为基于像素和面向对象方法。常见的基于像素的道路提取方法有边缘检测、光谱分析、阈值分割等，这种方法很容易产生“椒盐”噪声，并且难以区分由道路旁边的树木和建筑物造成的阴影。因此，大多数基于像素的方法需要各种后处理方法来细化提取的结果。在面向对象的提取方法中，道路被视为一个个对象。该方法主要分为区域法、知识模型、纹理分析等，通常先将图像分割或聚类成小区域，然后将其用作道路检测的单元，与基于像素的方法相比具有良好的抗噪声特性以及广泛的适用性，但设计相对复杂，高度依赖于中间的分割结果，并且容易混淆相邻并且具有相似形状的地面物体。

近年来，深度学习的发展极大地推动了道路提取的进展。深度学习方法结合了对象与像元的特征，具备挖掘更高级特征的能力而具有更优的效果。当前领域内如Unet、D-Linknet等深度学习方法在许多道路提取任务中表现良好，但仍存在较大局限性。道路在背景复杂的高分辨率遥感影像中表现出细长、占比小、跨度大的特征，许多网络模型在逐步卷积扩大感受野的同时丢失了地物的高频细节信息，从而使得道路边界模糊，提取效果并不理想。

发明内容

本发明解决的主要技术问题在于，解决现有网络模型在道路提取时存在的边界模糊问题，本发明采取的技术方案是，提供了一种基于边缘约束与特征适应的Transformer双分支道路提取方法及装置。

根据本发明的一个方面，一种基于边缘约束与特征适应的Transformer双分支道路提取方法，包括以下步骤：

S1、对输入训练数据集进行数据增强处理，获得增强后的训练数据集；

S2、搭建双分支道路提取模型并进行初始化和超参数设置，获得初始化的双分支道路提取模型；

S3、将所述增强后的训练数据集输入所述初始化的双分道路提取模型中，通过Transformer编码器对增强后的训练数据集的图像进行四次下采样，使用跨窗口的自注意力机制建模得到包含局部信息与全局信息的特征图；

S4、将增强后的训练数据集的图像输入层次化特征卷积模型得到道路边缘标签，通过边缘约束分支将Transformer编码器输出的包含局部信息与全局信息的特征图恢复尺寸，得到用于约束道路面提取的道路边缘掩膜；

S5、通过道路面提取分支带有非对称上采样模块的解码器，将Transformer编码器各层输出的高层语义特征以跳级连接的方式进行多尺度特征整合，恢复特征映射，结合边缘分支特征约束，输出道路面预测结果；

S6、通过道路面预测结果和增强后的训练数据集中的道路面标签计算道路面损失函数，通过道路边缘掩膜和道路边缘标签计算道路边缘损失函数，进而计算联合损失函数，监督双分支道路提取模型两个分支特征的提取，通过联合损失函数与后向传播算法对模型特征映射进行训练，更新编码器和解码器中的参数；

S7、重复步骤S3-S6，直至获得训练后的道路特征提取模型，通过训练后的道路特征提取模型对待分类影像进行道路特征提取分类，获得待分类影像的道路面分类结果。

优选地，步骤S3包括

S31、将增强后的训练集的图像划分为4×4大小的非重叠的区块，并使用特征图线性归一化层将特征图维度展平，得到

大小的特征图，其中H、W和C分别表示特征图的长、宽和通道数；

S32、将特征图进行四次下采样，每次下采样分别由2、2、6、2个相同的Transformer模块串联而成，每次下采样之间通过区块重组层将特征图长和宽减半，通道数量增加一倍，实现Transformer编码器特征多尺度分层表示，四次下采样得到的特征图大小分别为

以及

即得到包含局部信息与全局信息的特征图。

优选地，步骤S32中，每个Transformer模块包括：特征图线性归一化层、多头自注意力模块、残差连接和具有GELU函数的非线性的2层多层感知机；

两个Transformer模块为一组，第一个Transformer模块的多头自注意力模块基于正常窗口，计算各图像块与其他图像块之间的关系，计算公式为：

其中，z^l-1与

分别为第l-1个、第l个Transformer模块中基于正常窗口的多头自注意力模块的输入与输出，W-MSA为基于正常窗口的多头自注意力模块，LN为特征图线性归一化层，MLP为多层感知机，z^l为第l个Transformer模块的MLP层的输出；

在正常窗口自注意力计算后，在第二个Transformer模块的多头自注意力模块基于滑动错位的窗口，捕获图像不同尺度下地物更广的空间细节，计算公式为：

其中，z^l和

分别为第l个、第l+1个Transformer模块中基于滑动错位窗口的多头自注意模块的输入与输出，SW-MSA为基于滑动错位窗口的多头自注意力模块，LN为特征图线性归一化层，MLP为多层感知机，z^l+1为第l+1个Transformer模块的MLP层的输出。

优选地，步骤S4包括：

S41、对增强后的训练数据集的图像采用预训练的层次化特征卷积模型挖掘边缘信息，从而得到道路边缘标签；

S42、Transformer编码器最后一层输出的特征图经过一次四倍双线性上采样和一个3×3的卷积层，与Transformer编码器第二层输出的特征图进行通道叠加；

S43、将叠加后的特征图经过一次四倍双线性上采样和一个3×3的卷积层，将其连接至道路面提取分支最后一层解码器的输出；经过两次双线性上采样，边缘分支特征图被恢复到原始分辨率，从而得到用于约束道路面提取的道路边缘掩膜。

优选地，步骤S5包括：

S51、特征图通过解码器进行四次上采样，逐步恢复特征图的尺寸；每次先经过一层1×1卷积和Relu函数与一层非对称上采样层，非对称上采样层包含垂直、水平、正对角线、负对角线四个方向串联的一维卷积核，每个方向滤波器的参数量与3×3转置滤波器相同，数量为3×3转置滤波器的四分之一，从而不改变解码器的计算量与参数量；

S52、解码器第四层输出的特征图与边缘约束分支输出的边缘特征图进行通道叠加；

S53、叠加后的特征图通过4×4卷积和跨度为2的3×3卷积，并由Relu函数激活，恢复特征图至原始图像分辨率，最后经过Sigmoid函数输出道路面预测结果图。

优选地，步骤S6中，联合损失函数计算公式如下：

L＝L_surface+αL_edge

其中，道路面损失函数L_surface为二元交叉熵、Dice系数损失函数，道路边缘损失函数L_edge为均方根损失函数，超参数α控制两分支的平衡。

根据本发明的第二方面，一种基于边缘约束与特征适应的Transformer双分支道路提取装置，包括以下模块：

数据增强模块，用于对输入训练数据集进行数据增强处理，获得增强后的训练数据集；

网络搭建及初始化模块，用于搭建双分支道路提取模型并进行初始化和超参数设置，获得初始化的双分支道路提取模型；

下采样模块，用于将所述增强后的训练数据集输入所述初始化的双分道路提取模型中，通过Transformer编码器对增强后的训练数据集的图像进行四次下采样，使用跨窗口的自注意力机制建模得到包含局部信息与全局信息的特征图；

边缘约束模块，用于将增强后的训练数据集的图像输入层次化特征卷积模型得到道路边缘标签，通过边缘约束分支将Transformer编码器输出的包含局部信息与全局信息的特征图恢复尺寸，得到用于约束道路面提取的道路边缘掩膜；

上采样模块，用于通过道路面提取分支带有非对称上采样模块的解码器，将Transformer编码器各层输出的高层语义特征以跳级连接的方式进行多尺度特征整合，恢复特征映射，结合边缘分支特征约束，输出道路面预测结果；

网络训练模块，用于通过道路面预测结果和增强后的训练数据集中的道路面标签计算道路面损失函数，通过道路边缘掩膜和道路边缘标签计算道路边缘损失函数，进而计算联合损失函数，监督双分支道路提取模型两个分支特征的提取，通过联合损失函数与后向传播算法对模型特征映射进行训练，更新编码器和解码器中的参数，重复训练，直至训练完成，获得训练后的道路特征提取模型；

道路提取分类模块，用于通过训练后的道路特征提取模型对待分类影像进行道路特征提取分类，获得待分类影像的道路面分类结果。

本发明提供的技术方案具有以下有益效果：

(1)通过Transformer的跨窗口自注意力机制，解决了传统卷积神经网络逐步扩大感受野积累上下文信息过程中，地物高频细节丢失导致的地物边界模糊、小尺度目标漏分等问题，实现了道路特征分层表示以及从局部到全局的上下文关系建模。

(2)通过非对称上采样层在不改变参数量的情况下减少了卷积区域内复杂背景的影响，水平、垂直、正对角线、负对角线四个方向的一维卷积适应了道路细长、占比小、跨度大的特征。

(3)通过增加边缘约束分支，充分挖掘图像本身包含的边缘特征，使用双分支道路提取框架配合联合损失函数实现了语义和边缘的双重监督和道路细粒度特征的提取，改善了道路边缘细节与连接性。

附图说明

下面将结合附图及实施例对本发明的具体效果作进一步说明，附图中：

图1为本发明具体实施方式中基于边缘约束与特征适应的Transformer双分支道路提取方法的流程图；

图2为本发明具体实施方式中基于边缘约束与特征适应的Transformer双分支道路提取框架的模型图；

图3为本发明具体实施方式中Transformer模块的结构图；

图4为本发明具体实施方式中非对称上采样模块的结构图；

图5为本发明具体实施方式中在Deepglobe道路数据集上进行道路提取的对比结果图；

图6为本发明具体实施方式中基于边缘约束与特征适应的Transformer双分支道路提取装置的结构图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

参考图1，本实施例具体实施方式公开了一种基于边缘约束与特征适应的Transformer双分支道路提取方法，具体操作步骤如下：

S1、对待输入训练数据集进行数据增强处理，获得增强训练数据集；

步骤S1具体为：

输入高分辨率遥感影像数据集，本发明使用了Deepglobe道路数据集进行分析和讨论。Deepglobe道路数据集是来自泰国、印度和印度尼西亚三个国家的像素级标注数据。每幅图像的地面分辨率为50cm/pixel，像素分辨率为1024×1024。将原始的6226张训练图像分割为：4976张用于训练，1250张用于测试。为了扩充训练集，将每张图片裁剪为512×512大小。最后，新的DeepGlobe道路数据集有18784张训练图像和6210张测试图像；

所述数据增强操作具体包括：裁剪、水平翻转、垂直翻转、对角翻转、水平或垂直移动、缩放和色彩抖动。

步骤S2中，初始化和超参数设置具体为：

使用在ImageNet数据集上预训练得到的tiny版本的Swin Transformer(SwinT)的参数进行道路特征提取模型的初始化，旨在加快梯度下降的收敛速度，有效提高道路特征提取模型性能；

使用Adam作为优化器，Batchsize大小为8，道路面分支使用二元交叉熵(BCE)与Dice系数(Dice coefficient)损失函数，道路边缘分支使用二元交叉熵(BCE)损失；初始学习率设为2e-3，并且以每次衰减5倍的方式降低4次。预先设定的Epoch大小为300，当模型的损失不再持续减小，且精度不在6轮内提升时提前停止训练。

参考图2，图2为本发明具体实施方式中基于边缘约束与特征适应的Transformer双分支道路提取框架的模型图；

S3、将所述增强后的训练数据集作为输入图像，输入所述初始化的双分道路提取模型中，通过Transformer编码器对增强后的训练数据集的图像进行四次下采样，使用跨窗口的自注意力机制建模得到包含局部信息与全局信息的特征图；

步骤S3具体包括：

以及

即得到包含局部信息与全局信息的特征图。

参考图3，在上述步骤S32中，每个Transformer模块包括：特征图线性归一化层、多头自注意力模块、残差连接和具有GELU函数的非线性的2层多层感知机；

两个Transformer模块为一组，第一个Transformer模块的多头自注意力模块基于正常窗口(即非重叠窗口)，计算各图像块与其他图像块之间的关系，计算公式为：

其中，z^l-1与

分别为第l-1个、第l个Transformer模块中基于正常窗口的多头自注意力模块的输入与输出，W-MSA为基于正常窗口的多头自注意力模块，LN为特征图线性归一化层(LayerNorm)，MLP为多层感知机，z^l为第l个Transformer模块的MLP层的输出；

其中，z^l和

S4、将增强后的训练数据集的图像输入层次化特征卷积模型得到道路边缘标签，通过边缘约束分支将Transformer编码器输出的包含局部信息与全局信息的特征图恢复尺寸，得到用于约束道路面提取的道路边缘掩膜。

步骤S4具体包括：

S41、对S1中增强后的影像采用预训练的层次化特征卷积模型挖掘边缘信息，层次化特征卷积模型在VGG16基础上进行改进，去除VGG16模型全部的全连接层并于各层末设置损失函数以监督获取多个尺度层次化边缘特征，针对模型输出的一些列像素点的边缘判定概率，赋予像素点特定的损失函数loss_pixel(x_i,ω)定义为：

其中x_i和y_i为第i个像素点的值和预测概率，ω为学习参数阈值，δ在0到1之间取值，将像素的边缘预测概率分为三种情况讨论，参数α、β计算公式如下：

N₊与N_-分别为图像中边缘与非边缘像素数量，λ为超参数，因此整个图像的损失函数Loss(ω)记为：

其中，N为像素个数，

为第k层特征向量，

为混合层特征向量，K阶层数，从而得到图像边缘标签。

S43、将叠加后的特征图经过一次四倍双线性上采样和一个3×3的卷积层，将其连接至道路面提取分支最后一层解码器的输出；经过两次双线性上采样，边缘分支特征图被恢复到原始分辨率，得到用于约束道路面提取的道路边缘掩膜。

S5、通过道路面提取分支带有非对称上采样模块的解码器，将Transformer编码器各层输出的高层语义特征以跳级连接的方式进行多尺度特征整合，恢复特征映射，结合边缘分支特征约束，输出道路面预测结果。

步骤S5具体包括：

S51、特征图通过解码器进行四次上采样，逐步恢复特征图的尺寸；每次先经过一层1×1卷积和Relu函数与一层非对称上采样层，参考图4，非对称上采样层包含垂直、水平、正对角线、负对角线四个方向串联的一维卷积核，每个方向滤波器的参数量与3×3转置滤波器相同，数量为3×3转置滤波器的四分之一，从而不改变解码器的计算量与参数量；

步骤S6中联合损失函数计算公式如下：

L＝L_surface+αL_edge

在步骤S7之后，还包括：对道路提取结果进行分析和评价。参考图5，图5展示了不同方法在DeepGlobe数据集上的分类图，其中，图5(a)、图5(b)、图5(c)、图5(d)、图5(e)分别为输入影像、道路真值标签、U-Net模型、D-LinkNet模型、SII-Net模型[C.Tao,J.Qi,Y.Li,H.Wang,and H.Li,‘Spatial information inference net:Road extraction usingroad-specific contextual information’,ISPRS Journal of Photogrammetry andRemote Sensing,vol.158,pp.155–166,Dec.2019.]在DeepGlobe数据集上的分类图，图5(f)为本发明一种基于边缘约束与特征适应的Transformer双分支道路提取方法的分类图，从可视化的角度进行分析，本发明提出的道路提取方法具有较少的错分漏分现象，道路的连通性以及边缘处均得到的细化与改善。针对城市地区的宽阔道路与农村地区的曲折道路，此方法的分类结果更符合实际的道路分布，都具有较好的提取效果。表1为多种分类方法在DeepGlobe道路数据集上精度评价结果，表2总体上可看出本发明一种基于边缘约束与特征适应的Transformer双分支道路提取方法具有最好的分类精度和有效性。表2为不同模块组合在DeepGlobe道路数据集上精度评价结果，模型骨架网络分为SwinT(SwinTranformer的tiny版本)和ResNet50，通过计算不同模块组合的精度评分指标，可见Transformer跨窗口自注意力机制、非对称上采样模块以及边缘约束分支组合对道路分类精度提高的显著性。

表1多种分类方法在DeepGlobe道路数据集上的结果

发明模型设置	道路交并比(％)	平均交并比(％)	F1分数(％)
				U-Net	55.90	76.81	71.71
D-LinkNet	60.39	79.19	75.31
				SII-Net	61.53	80.36	76.28
本发明方法	72.63	85.62	84.15

表2不同模块组合在DeepGlobe道路数据集上的结果

在一些实施例中，还提供了一种基于边缘约束与特征适应的Transformer双分支道路提取装置，参考图6，该装置包括以下模块：

数据增强模块1，用于对输入训练数据集进行数据增强处理，获得增强后的训练数据集；

网络搭建及初始化模块2，用于搭建双分支道路提取模型并进行初始化和超参数设置，获得初始化的双分支道路提取模型；

下采样模块3，用于将所述增强后的训练数据集输入所述初始化的双分道路提取模型中，通过Transformer编码器对增强后的训练数据集的图像进行四次下采样，使用跨窗口的自注意力机制建模得到包含局部信息与全局信息的特征图；

边缘约束模块4，用于将增强后的训练数据集的图像输入层次化特征卷积模型得到道路边缘标签，通过边缘约束分支将Transformer编码器输出的包含局部信息与全局信息的特征图恢复尺寸，得到用于约束道路面提取的道路边缘掩膜；

上采样模块5，用于通过道路面提取分支带有非对称上采样模块的解码器，将Transformer编码器各层输出的高层语义特征以跳级连接的方式进行多尺度特征整合，恢复特征映射，结合边缘分支特征约束，输出道路面预测结果；

网络训练模块6，用于通过道路面预测结果和增强后的训练数据集中的道路面标签计算道路面损失函数，通过道路边缘掩膜和道路边缘标签计算道路边缘损失函数，进而计算联合损失函数，监督双分支道路提取模型两个分支特征的提取，通过联合损失函数与后向传播算法对模型特征映射进行训练，更新编码器和解码器中的参数，重复训练，直至训练完成，获得训练后的道路特征提取模型；

道路提取分类模块7，用于通过训练后的道路特征提取模型对待分类影像进行道路特征提取分类，获得待分类影像的道路面分类结果。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序，可将这些词语解释为标识。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。