CN114550014A

CN114550014A - 道路分割方法及计算机装置

Info

Publication number: CN114550014A
Application number: CN202210174578.3A
Authority: CN
Inventors: 谭可成; 刘昊; 刘承照; 许强红; 何维; 马晨哲; 胡文柯
Original assignee: PowerChina Zhongnan Engineering Corp Ltd
Current assignee: PowerChina Zhongnan Engineering Corp Ltd
Priority date: 2022-02-24
Filing date: 2022-02-24
Publication date: 2022-05-27

Abstract

本发明公开了一种道路分割方法及计算机装置，从无人机航拍高分辨率道路数据集获取N张图像，利用所述N张图像获取训练集；利用所述训练集训练道路提取模型，得到训练后的道路提取模型；将待测试图像输入所述训练后的道路提取模型，得到道路提取结果。本发明提出了双注意力的残差学习模块，在自适应调节感受野之外兼顾了全局信息的提取，能够更准确的捕捉道路拓扑结构特征，获得更拟合目标的感受野，提升了道路提取的连贯性。

Description

道路分割方法及计算机装置

技术领域

本发明涉及计算机视觉领域，特别是一种道路分割方法及计算机装置。

背景技术

道路信息在应急响应、智慧城市、城市可持续扩展、车辆管理、城市规划、交通导航、公共健康，无人机导航、灾害管理、农业发展，以及无人驾驶车路径规划和交通管理等多个领域扮演着基础性的角色。光学遥感、倾斜摄影正射影像等数据，不仅具有宏观性、多源性、真实性、海量性等一系列优点，而且能够以较高的空间分辨率对目标地物进行精细化解译，其提取的目标信息具有严格的地理坐标转换关系，可为不同行业用户提供统一的表达模式。

目前道路提取传统手段主要采用模板匹配、知识驱动、面向对象等方法，王文峰(基于局部方向编码的遥感影像平行边缘识别.光学学报.2012,32(3):0315001)等利用道路平行边缘的特点，提出了交叉点共线约束的8邻域边界追踪算法和9像素滑动窗口内直线检测算法，但该方法对道路边缘模糊、遮挡等问题敏感，Schubert(Efficient computationof greyscale path openings.Mathematical Morphology Theory and Applications,2016，1(1):189-202)等根据道路的几何特征，利用路径形态学提取影像中长而窄的结构，但受到遮挡(树木)、相似纹理(房屋)等干扰时，会出现道路错提、漏提问题。

随着深度学习的崛起，众多优秀的网络模型被相继提出，如Unet、PSPNet、DeeplabV3等，而这些网络也被广泛应用于道路提取中，其通过encoder阶段(编码器阶段)对图像进行特征提取，再在decoder阶段(解码器阶段)上采样和叠加细节特征来恢复原始大小进行分类，由于空间信息的保留，道路轮廓分割结果边缘抗干扰性较高，边缘更细致化，但是受建筑物阴影、绿化带遮挡时其容易出现误识别，道路提取结果连通性不足。

专利申请CN113888550A《一种结合超分辨率和注意力机制的遥感图像道路分割方法》以语义分割Unet网络为基础结合注意力机制，实现了城市遥感图像道路的准确提取，但该方法存在以下缺陷：(1)并未针对道路特有的形态特征设计网络结构，对于一些农村非常规道路，可能出现无法识别的问题；(2)其注意力机制只考虑了空间层面的特征融合，未考虑通道层面的融合，同时其模型结构不具备扩张感受野的能力，无法有效识别树木遮挡场景下的道路。

发明内容

本发明所要解决的技术问题是，针对现有技术不足，提供一种道路分割方法及计算机装置，更准确的捕捉道路拓扑结构特征。

为解决上述技术问题，本发明所采用的技术方案是：一种道路分割方法，包括以下步骤：

S1、从无人机航拍高分辨率道路数据集获取N张图像，利用所述N张图像获取训练集；

S2、利用所述训练集训练道路提取模型，得到训练后的道路提取模型；

所述道路提取模型包括：

特征提取层，用于对所述训练集中的图像进行降采样操作；

至少一个双注意力残差模块，包括至少一个残差单元，所述残差单元用于对输入进行包括如下步骤的操作：

对所述特征提取层的输出进行卷积操作，得到特征向量F₁；

将所述特征向量F₁输入通道注意力模块，并将所述通道注意力模块的输出与所述特征向量F₁相乘，得到第一输出结果；

将所述第一输出结果输入空间注意力模块，并将所述空间注意力模块的输出与所述第一输出结果相乘，得到第二输出结果；

拼接所述特征向量F₁与所述第二输出结果，得到第三输出结果；

上采样重建模块，用于对所述第三结果进行上采样操作，得到最终输出结果；

S3、将待测试图像输入所述训练后的道路提取模型，得到道路提取结果。

本发明构建了双注意力残差模块，在自适应调节感受野之外兼顾了全局信息的提取，能够更准确地捕捉道路拓扑结构特征，获得更拟合目标的感受野，提升了道路提取的连贯性和准确性，可以识别各种环境下的道路，解决了建筑物阴影和树木遮挡的干扰造成的道路无法识别问题。

所述双注意力残差模块数量为两个，其中第一个双注意力残差模块的输出经池化层后输入第二个双注意力残差模块，且两个所述双注意力残差模块的输出拼接后的结果为所述上采样重建模块的输入。两个双注意力残差模块串联有利于图像深层特征提取，拼接两个所述双注意力残差模块的输出有助于多层次特征信息融合，提升道路分割精度。

所述双注意力残差模块数量为三个，其中第一个双注意力残差模块的输出经池化层后输入第二个双注意力残差模块，第二个双注意力残差模块的输出经池化层后输入第三个双注意力残差模块，且三个所述双注意力残差模块的输出拼接后的结果为所述上采样重建模块的输入。三个双注意力残差模块串联有利于进一步提取图像高层语义信息，拼接三个所述双注意力残差模块的输出有助于多尺度特征信息融合，提升道路分割精度。

每个所述双注意力残差模块与一个全局金字塔聚合模块连接。全局金字塔聚合模块扩展感受野并融合上下文语义信息，保障了图像全局信息的融合，降低图像信息损失。

本发明中，所有金字塔聚合模块的输出拼接后得到的拼接结果输入所述上采样重建模块。该结构有利于整合图像多尺度全局信息，为上采样层提供丰富的语义信息，提高道路的分割精度。

或者，第n个金字塔聚合模块的输出经第一上采样层后与第n-1个金字塔聚合模块的输出拼接，得到的第一拼接结果输入第二上采样层，第二上采样层的输出与第n-2个金字塔采样模块的输出拼接后，得到的第二拼接结果输入第三上采样层，依此类推；其中，n为最后一个金字塔聚合模块，n≥3。该结构实现了图像多尺度特征的高效融合、局部信息与全局信息的深度关联，降低了图像上采样过程中的图像信息损失，有助于图像的精确分割。

本发明的道路提取模型还包括非局部注意力聚合模块，所述非局部注意力聚合模块的输入为所述双注意力残差模块的输出经池化层操作后的结果；所述非局部注意力聚合模块的输出与上一处理层的输出拼接后输入所述上采样重建模块；其中，所述上一处理层为最后一个双注意力残差模块，或者最后一个金字塔聚合模块。该结构整合图像多个维度方向的信息，专注捕获目标感兴趣特征，剔除冗余特征，降低模型参数量，提高了道路形状分割精度。

所述非局部注意力聚合模块与池化层之间还设有可变形卷积网络。所述可变形卷积网络可以较好的适应图像中目标的多种尺寸形状，使得提取到的特征更丰富更加集中于目标本身。

所述双注意力残差模块包括多个串联的残差单元，其中第一个残差单元的输入为所述特征提取层的输出；第二个残差单元的输入为所述第一个残差单元的输出，依此类推。多个残差单元的串联有利于提取到更深层的图像特征，有助于网络理解图像语义信息。

当所述双注意力残差模块个数为多个时，每个所述双注意力残差模块中残差单元的数量不同。多个具有不同数量残差单元的双注意力残差模块串联可实现对不同层次阶段的特征进行多维度融合，有利于图像深度语义信息的获取。

本发明还提供了一种计算机装置，包括存储器、处理器及存储在存储器上的计算机程序；所述处理器执行所述计算机程序，以实现本发明所述方法的步骤。

与现有技术相比，本发明所具有的有益效果为：

(1)本发明提出了双注意力的残差学习模块，结合可变形卷积网络，在自适应调节感受野之外兼顾了多维度信息的提取，能够更准确的捕捉道路拓扑结构特征，获得更拟合目标的感受野，提升了道路提取的连贯性；

(2)本发明采用了全局金字塔聚合模块与非局部注意力结构，通过扩展模型感受野并融合上下文语义信息，降低图像在上采样过程中的信息损失，使模型具有拓扑结构自推理能力，解决了建筑物阴影和树木遮挡的干扰造成的无法识别问题。

附图说明

图1为本发明实施例1道路提取模型结构原理图；

图2为本发明实施例1双注意力残差模块结构原理图；

图3为本发明实施例1通道注意力模块结构原理图；

图4为本发明实施例1空间注意力模块结构原理图；

图5为本发明实施例1残差块结构原理图；

图6为本发明实施例1可变形卷积层结构原理图；

图7为本发明实施例1可变形池化层结构原理图；

图8为本发明实施例1全局金字塔聚合模块结构原理图；

图9为本发明实施例1非局部注意力聚合模块结构原理图；

图10为本发明实施例2道路提取模型结构原理图；

图11为本发明实施例3道路提取模型结构原理图；

图12为本发明实施例4道路提取模型结构原理图；

图13(a)～图13(c)为本发明实施例1方案对应的道路连贯性实验结果图；图13(a)为原始图像；13(b)为本发明方法对应的提取结果；13(c)为deeplabV3方法对应的提取结果；

图14(a)～图14(c)为本发明实施例1方案对应的道路连贯性实验结果图；图14(a)为原始图像；14(b)为本发明方法对应的提取结果；14(c)为deeplabV3方法对应的提取结果；

其中，

表示矩阵乘法；

表示拼接操作；De-Conv表示矩阵转置；C表示特征图通道；D@n表示可分离空洞卷积；

分别表示2倍上采样和4倍上采样。

具体实施方式

如图1所示，本发明实施例1中，道路提取的具体实现过程包括：

S1、从无人机航拍高分辨率道路数据集获取N张图像，将其拆分为训练集和验证集，并将拍摄到的道路数据作为测试集，对训练集进行归一化与数据增强；

S2、构建具有目标约束变形卷积与双注意力机制残差块的道路提取模型，主要包括五个部分：双注意力残差模块、可变形卷积网络、非局部注意力聚合模块、全局金字塔聚合模块、上采样重建模块(Decoder block)；

S3、基于构建的目标约束变形卷积与双注意力机制的道路提取模型(如图1所示)，在(1)中所准备的训练集上进行训练，优化模型参数、直至网络收敛，验证集用于每个训练周期结束时的模型性能测试，优化超参数。

S4、基于(3)所训练的模型，对测试集进行预测，获取道路提取结果。

进一步的，S1的具体实现包括以下步骤：

S1.1选择DeepGlobe数据集，挑选分辨率为1024×1024，带有标签的5000张道路图像数据；

S1.2根据通常数据集划分标准按4:1将S1.1所得数据划分为训练集和验证集

S1.3将S1.2中的训练集进行归一化处理，并利用水平旋转、随机翻转进行数据增强。

进一步的，s2的具体实现包括以下步骤：

S2.1特征提取层采用Conv7X7，stride＝2，其输入为S1.1中数据集图像，对数据集图像进行降采样，降低图像空间复杂度。

S2.2双注意力残差模块，其输入为S2.1特征提取层输出，残差单元中的残差块(Res-block)中有两个3X3卷积层，(如图5所示，He,Kaiming."Deep residual learningfor image recognition."Proceedings of the IEEE conference on computer visionand pattern recognition.2016.)，每个卷积后采用ReLU函数(对应图5中的

)作为激活函数，残差块的输入端与输出端利用残差连接实现特征融合，其后接双注意力结构(CBAM，即通道注意力模块和空间注意力模块串联)，双注意力残差模块的输入端和输出端之间采用残差连接(skip-connect，或skip connection)，该部分表达式如下：

x_l+1＝x_l+F(F_l,W_l)

其中x_l+1为输出的图像特征图,x_l为输入的图像特征图，F(x_l,W_l)是残差部分。

双注意力残差模块将通道注意力模块(如图3所示，Hu J,Shen L,Sun G.Squeeze-and-excitation networks[C]//Proceedings of the IEEE conference on computervision and pattern recognition.2018:7132-7141)和空间注意力模块(如图4所示，Jaderberg M,Simonyan K,Zisserman A.Spatial transformer networks[J].Advancesin neural information processing systems,2015,28.)进行串联，其中通道注意力模块输入为步骤S2.2中第二个3X3卷积输出的特征向量F₁，将特征向量F₁分别经过全局最大池化和全局平均池化得到F_max和F_avg两个特征向量，将F_max和F_avg两个特征向量通过MLP层进行全局特征提取获得F`_max和F`_avg，将F`_max和F`_avg相加，经过sigmoid函数激活操作，生成最终的通道注意力权重F_MC。将该通道注意力权重和特征向量F₁做乘法操作，获得特征向量F₂。

F_MC＝σ(MLP(AvgPool(F₁))+MLP(MaxPool(F₁)))

＝σ(W₁(W₀(F_avg))+W₁(W₀(F_max)))

其中F₁表示输入的特征向量，F_avg和F_max分别表示经过全局最大池化和全局平均池化得到的两个特征向量，MLP是多层感知机，W₁和W₀代表的是多层感知机模型中的两层参数，σ表示sigmoid激活函数，F_MC表示生成的最终的通道注意力权重。

空间注意力模块输入为特征向量F₂，将特征向量F₂分别经过全局最大池化和全局平均池化得到特征向量F_max2和F_avg2，将F_max2和F_avg2通过Conv7x7的卷积层进行全局特征提取获得F、，经过sigmoid函数(对应图3和图4中的

)激活操作，生成最终的空间注意力权重F_Ms，F_Ms与特征向量F₂通过矩阵乘法的结果与双注意力残差模块的输入进行拼接操作，获得输出特征向量F₃。

F_Ms＝σ(f^7×7([AvgPool(F₂)；MaxOool(F₂)]))

＝σ(f^7×7([F_avg2；F_max2]))

其中σ为sigmoid操作，f^7×7代表卷积核为7×7的卷积，F_avg2和F_max2分别代表经过全局最大池化和全局平均池化得到的特征向量。

3个双注意力残差模块(图1中的Res-block(with CBAM))以串联形式依次连接，图1中，3*Res-block(with CBAM)表示3个残差单元串联，4*Res-block(with CBAM)表示4个残差单元串联，6*表示6个残差单元串联。双注意力残差模块的结构见图2。第3个双注意力残差模块后接可变形卷积网络(DCNv2，见图6，Dai J,Qi H,Xiong Y,et al.Deformableconvolutional networks[C]//Proceedings of the IEEE international conferenceon computer vision.2017:764-773.)，该可变形卷积网络包含可变形卷积层与可变形池化层，可变形卷积层设置为两个分支，第一个分支增加额外的卷积层来学习偏置，第二个分支卷积核先基于偏置进行插值操作，然后与输入特征进行常规卷积操作，获得输出特征：

其中，P₀代表输入特征上的一点，P_n代表第n个位置，w是卷积运算函数，x为输入特征，ΔP_n为偏移量。

上述可变形卷积层输出通过可变形池化层(见图7)进行下采样处理，该可变形池化层设置为两个分支，第一个分支通过常规池化操作获得局部特征向量，利用全连接层(fc)来学习偏置，第二个分支先基于偏置进行插值操作，然后与输入特征进行常规池化操作，获得输出特征：

其中，P₀代表输入特征上的一点，P_n代表每个位置，x为输入特征，ΔP_n为偏移量，n_ij为池化的尺寸。

S2.3全局金字塔聚合模块如图8所示，对于多个分支的输入，先用1x1卷积层使各输入特征向量通道数相同，再上采样得到相同的尺寸，而后拼接个分支的输出，再经过具有不同膨胀系数的可分离膨胀卷积，此处膨胀系数设置为1、2、4，获取不同感受野的各层融合信息，最后通过3×3卷积层得到最终结果；

其中G_k是第k步的输出，F_k为第k步时编码层的特征图，

表示上采样倍率为2^i-k，

代表特征拼接操作，D_Sconv@2^i-k表示可分离空洞卷积；

S2.4非局部注意力模块(Wang X,Girshick R,Gupta A,et al.Non-local neuralnetworks[C]//Proceedings of the IEEE conference on computer vision andpattern recognition.2018:7794-7803.)如图9所示，将可变形池化层的输出x经过3个1×1卷积，把通道缩减为原来一半得到θ、

g三个张量，通过展平操作将θ、

g三个张量的高(h)，宽(w)两个维度进行展平(将多维的输入向量一维化，即图9中的flatten)，维数变为h×w，获得形状为[c/2,h×w]的θ1、

g1三个张量，c为单个特征向量的通道数。对θ1、g1对应的张量进行通道重排，在线性代数中也就是转置，分别得到形状为[h×w,c/2]的张量θ2、g2，将θ2与

代表的张量进行矩阵乘法，得到一个形状为[h×w，h×w]的矩阵f，经过softmax函数进行归一化，得到形状为[h×w，h×w]的分数矩阵f_c，将得到的分数矩阵f_c与g2进行矩阵相乘，得到的形状为[h×w,c/2]的张量f_d。将f_d转置为[c/2,h×w]的张量,将h×w维度重新伸展为[h,w]，从而得到了形状为[c/2,h,w]的张量f_e，利用1×1卷积核，将f_e通道扩展为原来的c，维度变为[c,h,w]，并将其与可变形池化层的输出x进行相加得到输出y。

g(x_j)＝W_gx_j

其中W_g是可学习的权重矩阵，x_j为输入

其中

代表相似度计算

x是输入信号feature map；

i代表的是输出位置，如空间、时间或者时空的索引，对j进行枚举后计算得到；

f函数计算i和j的相似度；

g函数计算feature map在j位置的表示；

最终的y是通过响应因子C(x)进行标准化处理以后得到的。

S2.4图1中的3个上采样层(图1竖向箭头表示上采样层，Decoder block)采用1x1卷积层+3x3转置卷积+1x1卷积层组合，利用转置卷积学习自适应映射，得到更详细的信息恢复特征，其中从下往上第1上采样层的输入为非局部注意力聚合模块的输出与第1个全局金字塔聚合模块的输出拼接所得的特征向量，第2个上采样层的输入为第1个上采样层的输出与第2全局金字塔聚合模块的输出拼接所得的特征向量，第3个上采样层的输入为第2个上采样层的输出与第3全局金字塔聚合模块的输出拼接所得的特征向量。

进一步，S3的具体实现步骤如下：

S3.1使用Pytorch作为深度学习框架。所有模型均在2个NVIDIA GTX2080 GPU上进行了训练。

S3.2使用二值交叉熵函数作为损失函数，并选择Adam作为优化器，学习率为2*10^-4，训练批次大小为4，训练周期为160epoch。S2中所给定数据集{(x₁,y₁),…(x_n,y_n)},目标函数如下定义，其中n是训练集的样本数。

F(x_i；0)＝-[y_iln(σ(x_i))+(1-y_i)ln(1-σ(x_i))]

其中y_i为标签，网络预测结果为

其中F(x_i；θ)为特征提取函数；x_i为输入特征；y_i为对应的真值；θ为求解的最优参数；L(θ)为目标函数

S3.3训练时采用随机梯度下降(SGD)来最小化目标函数。其更新过程可写成如下：

其中α为步长，

为梯度

具体步骤如下：首先对网络参数θ进行随机初始化，然后参数θ按照以下更新规则来最小化目标函数：

……

进行N次迭代，直到满足要求，循环结束，得到θ值。

S3.4利用pytorch框架API，torch.save()函数保存最佳训练权重，通过torch.load()函数加载模型参数，将训练完成的模型对S.1中的测试集进行推理测试。、

本发明实施例2中，双注意力残差模块数量也可以只有一个，如图10所示。图10中的m为残差单元数量，可以为1个或者多个。

本发明实施例3中，双注意力残差模块的数量为两个，如图11所示。

本发明实施例4中，所有全局金字塔聚合模块的输出可以拼接到一起，以实施例1的结构为例，得到图12的结构。

图11、12中，残差单元数量可以根据实际使用需要设置。

图10～图12的实施例中，双注意力残差模块也可以不接全局金字塔聚合模块。

图1、图11和图12的实施例中，可以只有一个或者两个双注意力残差模块接全局金字塔聚合模块。

进一步，具体实现结果如下。

由图13(a)～图13(c)可以看出，常规语义分割算法(CHEN L C,ZHU Y,PAPANDREOUG,et al.Encoder-Decoder with Atrous Separable Convolution for Semantic ImageSegmentation[C]Proceedings of the European Conference on Computer Vision(ECCV),2018:801-818)识别结果中道路出现多处未识别，道路提取线条连贯性差的问题，本发明实施例方法所提取道路整体结构完整，连续性好。

由图14(a)～图14(c)可以看出，常规语义分割算法在面对道路被树木遮挡场景，无法有效识别被遮挡部分，本发明实施例方法在树木遮挡场景下，依然能成功提取出遮挡部分，识别效果极佳。

Claims

1.一种道路分割方法，其特征在于，包括以下步骤：

所述道路提取模型包括：

特征提取层，用于对所述训练集中的图像进行降采样操作；

对所述特征提取层的输出进行卷积操作，得到特征向量F₁；

拼接所述特征提取层的输出与所述第二输出结果，得到第三输出结果；

上采样重建模块，用于对所述第三结果进行上采样操作，得到最终输出结果；S3、将待测试图像输入所述训练后的道路提取模型，得到道路提取结果。

2.根据权利要求1所述的道路分割方法，其特征在于，所述双注意力残差模块数量为两个，其中第一个双注意力残差模块的输出经池化层后输入第二个双注意力残差模块，且两个所述双注意力残差模块的输出拼接后的结果为所述上采样重建模块的输入。

3.根据权利要求1所述的道路分割方法，其特征在于，所述双注意力残差模块数量为三个，其中第一个双注意力残差模块的输出经池化层后输入第二个双注意力残差模块，第二个双注意力残差模块的输出经池化层后输入第三个双注意力残差模块，且三个所述双注意力残差模块的输出拼接后的结果为所述上采样重建模块的输入。

4.根据权利要求2或3所述的道路分割方法，其特征在于，每个所述双注意力残差模块与一个全局金字塔聚合模块连接。

5.根据权利要求4所述的道路分割方法，其特征在于，所有金字塔聚合模块的输出拼接后得到的拼接结果输入所述上采样重建模块；或者，第n个金字塔聚合模块的输出经第一上采样层后与第n-1个金字塔聚合模块的输出拼接，得到的第一拼接结果输入第二上采样层，第二上采样层的输出与第n-2个金字塔采样模块的输出拼接后，得到的第二拼接结果输入第三上采样层，依此类推；其中，n为最后一个金字塔聚合模块，n≥3。

6.根据权利要求1～5之一所述的道路分割方法，其特征在于，所述道路提取模型还包括非局部注意力聚合模块，所述非局部注意力聚合模块的输入为所述双注意力残差模块的输出经池化层操作后的结果；所述非局部注意力聚合模块的输出与上一处理层的输出拼接后输入所述上采样重建模块；其中，所述上一处理层为最后一个双注意力残差模块，或者最后一个金字塔聚合模块。

7.根据权利要求6所述的道路分割方法，其特征在于，所述非局部注意力聚合模块与池化层之间还设有可变形卷积网络。

8.根据权利要求1所述的道路分割方法，其特征在于，所述双注意力残差模块包括多个串联的残差单元，其中第一个残差单元的输入为所述特征提取层的输出；第二个残差单元的输入为所述第一个残差单元的输出，依此类推。

9.根据权利要求8所述的道路分割方法，其特征在于，当所述双注意力残差模块个数为多个时，每个所述双注意力残差模块中残差单元的数量不同。

10.一种计算机装置，包括存储器、处理器及存储在存储器上的计算机程序；其特征在于，所述处理器执行所述计算机程序，以实现权利要求1～9之一所述方法的步骤。