CN115147601A

CN115147601A - 基于自注意力全局特征增强的城市街道点云语义分割方法

Info

Publication number: CN115147601A
Application number: CN202210768438.9A
Authority: CN
Inventors: 张振鑫; 陈器; 陈思耘; 温思远
Original assignee: Capital Normal University
Current assignee: Capital Normal University
Priority date: 2022-07-01
Filing date: 2022-07-01
Publication date: 2022-10-04

Abstract

本发明提供一种基于自注意力全局特征增强的城市街道点云语义分割方法，包括：S1、输入一个城市街道大场景点数据作为下采样层，将从下采样层中提取的全局特征在自注意力全局特征编码模块的中进行基于自注意力的编码操作，并将其重映射到与输入特征通道匹配的一维向量中，得到通道自注意力值，再逐通道与原全局特征自适应增强；S2、通过全局语义映射模块将步骤S1中自注意力全局特征编码模块输出的特征进行转置及全连接，将输出各个类别存在的概率，通过各个类别概率组成的向量与真值形成多类别交叉熵损失，联合点标签维度的交叉熵损失对网络参数进一步优化。本发明关注到全局特征的城市街道场景，通过对全局特征逐通道增强，提升语义分割精度效果。

Description

基于自注意力全局特征增强的城市街道点云语义分割方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于自注意力全局特征增强的城市街道点云语义分割方法。

背景技术

城市街道场景的点云蕴含着大量且丰富的人文及自然相关的高价值目标信息，对其进行语义分割是后续一系列重要应用的基础和关键。一些点云分割深度学习模型所设计的自注意力机制往往只关注局部区域，忽视了由下采样网络所提取的空间及语义特征丰富的全局信息。目前，得益于深度学习领域的迅猛发展，将深度学习方法应用于三维点云语义分割，取得的效果往往优于手工提取特征的经典机器学习分割方法。目前现有技术中常用的方法总结大致有三种，分别是基于深度学习的三维点云研究；注意力机制在点云上的应用；大规模城市街景的点云语义分割。

深度学习广泛应用于计算机视觉和模式识别，其中基于深度学习的三维点云分析已成为热点问题。卷积神经网络(CNN)是深度学习的一种代表性模型，在二维图像等结构化数据上具有出色的性能。但是，对于不规则的点云数据，不能直接使用CNN进行处理。面向点云的深度学习方法主要包括基于投影、基于体素、基于点和基于图的方法。基于投影的方法将3D点云投影到2D平面上，以将点云转换为从不同视图渲染的一组图像，并使用传统卷积神经网络进行特征学习。基于体素的方法将点云的体素化转换为3D网格，从而使用3D卷积来处理点云。基于点的方法直接在点云上执行操作，开创性工作即PointNet，使用共享的多层感知机(MLP)以逐点的方式从点云中提取信息，但PointNet的缺陷是不能提取局部特征。PointNet++克服了该缺陷，不断从不同尺度提取局部特征，使其适用于复杂的点云场景。由于图具有描述不规则3D点云的形状和几何结构的潜在可能性，因此也有一些研究使用图结构来处理点云。

注意力机制在点云的深度学习方法上已得到初步应用，其目的是关注到某个目标或某个场景时，形成在该目标内部以及该场景内其它空间位置上所不同的注意力分布，注意力模型本质上是对目标数据进行加权变化。GACNet提出了图注意力卷积，通过学习到的注意力权重，从而动态调整卷积核来不断适应目标结构的形状，通过该方法可以有效提升点云语义分割精度。TANet通过在点维度、体素维度及通道维度运用注意力机制形成三重注意力，使得模型应对噪声鲁棒，以达到检测结果。受基于自注意力机制的转换器(Transformer)在自然语言处理取得巨大成功的启发，提出的将Transformer结构作用于三维空间数据集上，设计了对点云对排列和基数不变的点Transformer结构，在点云分类以及语义分割任务上表现优异。

点云语义分割在大规模城市街景数据集上面临挑战。大场景点云数据集如Semantic3D、Semantic Kitti的特点是点云数量庞大、分布范围广阔并且通常由多个语义类别组成，因此对深度学习特征提取模型有很大挑战。PointNet++提出了多层次特征提取结构并用多层感知器(MLP)提取点云特征，在Semantic Kitti数据集中取得了良好结果。SnapNet将输入点云进行多角度投影成图像并运用卷积神经网络(CNN)学习有效特征并从像素标记恢复成点标记，从而达到大场景点云语义分割的目的。SPG通过使用超点图的方式重新表达点云信息，其富含边信息，减少了点云表征过程中的特征损失，并以此为基础建立了一个解决大规模点云语义分割深度学习模型。RandLA-Net模型，其将随机采样作为下采样方式来降低输入大场景点云分辨率，同时在每个下采样层都使用局部特征聚合模块以便最大程度地保留随机采样中丢失的特征信息，有效地提升了大场景点云分割速度以及精确度。

专利CN110188817B公开一种基于深度学习的实时高性能街景图像语义分割方法，包括准备街景图像训练、验证和测试数据集；对数据集图像进行下采样，减小图像的分辨率；对现有的轻量级分类网络进行改造作为语义分割的基础特征提取网络；在基础特征提取网络后串联一个鉴别性孔洞空间金字塔池化用于解决语义分割的多尺度问题；将若干个卷积层堆叠，形成浅层的空间信息保存网络；使用特征融合网络将得到的特征图进行融合形成预测结果；将输出图像与数据集中的语义标注图像进行对比，利用反向传播算法进行端到端的训练，得到实时高性能街景图像语义分割网络模型；将待测试的街景图像输入实时高性能街景图像语义分割网络模型中得到街景图像的语义分割结果。

另外也有专利公开相关网络分割方法，如专利CN113642390A公开一种基于局部注意力网络的街景图像语义分割方法，基于编码器-解码器的分割结构，编码器网络逐层提取特征，而解码器通过上采样逐步恢复图像的分辨率，达到了对图像中每个像素进行分类的目的，在卷积运算时，通过局部注意力网络模块给每个特征图赋予不同的权重，对于分割有增益的特征图，所分配的权重更大，而对于冗余的特征图，则权重更小，可以显著提高网络模型对每个类别的判别能力，降低类内的分割不一致性，提高语义分割的视觉平滑效果。以及专利CN110188817B提出了一种实时高性能街景图像语义分割方法，通过将孔洞卷积和密集跳层连接添加到已有的实时轻量级分类网络中，将轻量级分类网络改造为的基础特征提取网络；接着，在得到的基础特征提取网络的后面连接一个改进的孔洞空间金字塔池化来更有效的解决语义分割的多尺度问题；然后，设计一个空间信息保存网络来编码充足的空间细节信息，它平行于上面的两个网络分支；最后，利用一个专门设计的特征融合网络连接以上两个属于不同级别的特征。

综上所述，现有技术在城市大场景数据集点云语义分割中均未利用到自注意力机制，且忽略了各语义类别的权重值，而且目前大部分点云语义分割工作没有很好地重视与利用大场景中的全局特征信息，而是直接将下采样网络所提取的全局特征信息直接通过上采样操作预测得到各个点的语义标签，这导致语义标记的结果受到提取点云特征不充分的限制。因此，提出一种对全局特征的城市街道场景大规模点云语义分割深度学习方法，通过对全局特征逐通道增强，达到提升语义分割精度效果是一件具有重要意义的研究。

发明内容

为实现上述目的，本申请聚焦高效的注意力机制，运用深度学习方法提取全局特征，进一步提出了全局特征编码模块，并将其作用于全局特征，完成对全局位置特征与全局语义特征进行增强，突出特征表达能力，进而提升语义分割的效果。

本申请提供有如下技术方案：

一种基于自注意力全局特征增强的城市街道点云语义分割方法，包括：

S1、将从城市街道大场景点数据中提取的全局特征在自注意力全局特征编码模块的中进行基于自注意力的编码操作，并将其重映射到与输入特征通道匹配的一维向量中，得到通道自注意力值，再逐通道与原全局特征自适应地增强；

S2、通过全局语义映射模块将步骤S1中自注意力全局特征编码模块输出的特征进行转置及全连接，获得各个类别存在的概率，通过各个类别概率组成的向量与真值形成多类别交叉熵损失，联合点标签维度的交叉熵损失对网络参数进一步优化。

优选的，所述步骤S1中，自注意力全局特征编码模块包括自注意力编码层和特征通道强化层。

优选的，S1具体为：

S1.1、先将提取的全局特征作为在自注意力编码层中的输入模块，通过三次公式(1)中线性变换函数f_i及激活函数

将全局特征重映射到128×r₁维、128×r₂维及128×r₃维；

S1.2、通过Softmax激活函数计算得出自注意力值，再与之前提取的全局特征进行通道维度相乘操作，通过将张量先进行累加操作，再平铺到与原特征相同的维度；

S1.3、f_raw,f_i与f_att执行连接操作，得到的特征图经过MLP后进入特征通道强化层得到与输入维度一致；

其中，公式如下：

f_att＝SUM_CP(δ(f_i)×f_i) (2)。

优选的，将自注意力编码层得到的特征执行公式

操作，得到1×r维向量

优选的，将得到的1×r维向量

通过Sigmoid函数映射到0-1范围内，形成通道注意力，然后采用类似残差结构的方法将该通道注意力与f_input逐通道相乘再相加，从而达到全局特征中信息增强的作用。

优选的，S2具体为：

S2.1、全局语义映射模块将步骤S1中自注意力全局特征编码模块中的输出特征作为输入，通过转置及全连接操作将其重新映射到所需分类的总体语义类别上，形成一个1×n维的全局语义类别向量，向量中的每个值代表所输入点云场景各个语义类别的语义标记概率值；

S2.2、通过下采样层的特征提取和对全局特征编码模块中的输出特征重映射，将输出与原始点云数据每个点对应的语义标签预测值，将预测值与真实值进行多标签分类的交叉熵损失计算，得到场景维度的损失值。

优选的，将该语义标签预测值与经过真值标记的点云场景进行计算得到加权交叉熵损失，从而得到点维度的损失(L_pt)，计算公式如下：

公式中n为类别数目，v_i为第i类别样本数量占总样本数量的比例，p_i(x)为点x在i类的概率，q_i(x)为点x标签的真实分布。

优选的，所述全局语义映射模块将编码后的全局特征映射到各个语义类别上，再与场景真实值做对比，形成多标签分类的普通交叉熵损失L_sce，表达式如下：

L_sce＝-p(x_i)×log(q_i(x)) (5)。

优选的，形成的多标签分类的普通交叉熵损失L_sce中的点云语义标签损失与场景语义标签损失往往不在同一个量级，因此采用下式方法进行调节：

L_global＝L_pt+m×L_sce (6)；

通过公式(6)利用超参数m，能对两个维度损失函数进行规整计算，其中L_sce是普通交叉熵损失，L_pt是点维度的损失。

本发明至少具有以下其中一个有益效果：

1)本发明提出自注意力全局特征编码模块，将该模块作用于全局特征，可以对全局位置特征与全局语义特征进行增强，突出特征表达能力；从另一方面，为了高效利用全局特征中的语义信息，本发明又提出全局语义映射模块对场景语义标记，进而实现对城市街道大场景点云数据精准分割。

2)相比于现有技术中直接将下采样网络所提取的全局特征信息直接通过上采样操作预测得到各个点的语义标签而导致语义标记的结果受到点云特征学习不充分的问题，本发明通过对下采样层提取的全局特征信息进行基于自注意力全局特征编码模块的操作，将其重映射到与输入特征通道匹配的一维向量中，得到通道自注意力值，再逐通道与原全局特征自适应地增强，达到全局特征中信息增强的作用。

3)通过自注意力全局特征编码模块结合自注意力机制对全局特征进行编码处理，提高了全局特征的表达能力；通过全局语义映射模块，将经过自注意力全局特征编码后的中间层特征重映射到各个语义类别，联合各语义类别样本数量所形成的的权重值，提升模型对特征的学习能力，有效提升了分割效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在所有附图中，类似的元件或部分一般由类似的附图标记、标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1是本发明中全局特征编码层的示意图；

图2是本发明中全局语义映射模块示意图；

图3是本发明的技术路线框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。在下面的描述中，提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本申请的实施例。因此，本领域技术人员应该清楚，可以对这里描述的实施例进行各种改变和修改而不脱离本申请的范围和精神。另外，为了清楚和简洁，实施例中省略了对已知功能和构造的描述。

应该理解，说明书通篇中提到的“一个实施例”或“本实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“一个实施例”或“本实施例”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

此外，本申请可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身并不指示所讨论各种实施例和/或设置之间的关系。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，单独存在B，同时存在A和B三种情况，本文中术语“/和”是描述另一种关联对象关系，表示可以存在两种关系，例如，A/和B，可以表示：单独存在A，单独存在A和B两种情况，另外，本文中字符“/”，一般表示前后关联对象是一种“或”关系。

本文中术语“至少一种”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和B的至少一种，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含。

实施例1

本发明介绍一种基于自注意力全局特征增强的城市街道点云语义分割方法，包括：

S1、输入一个城市街道大场景点数据作为下采样层，将从下采样层中提取的全局特征在自注意力全局特征编码模块的中进行基于自注意力的编码操作，并将其重映射到与输入特征通道匹配的一维向量中，得到通道自注意力值，再逐通道与原全局特征自适应地增强；

其中，步骤S1中的下采样层将随机采样作为下采样方式来降低输入大场景点云分辨率，同时在每个下采样层都使用多层感知机对由KNN(K-Nearest Neighbor，K最近邻算法)聚合的局部点云提取特征。通过最近邻算法(KNN)与点维度多层感知机(MLP)的方式在海量点云中有效提取特征，使用随机采样作为降采样方式极大提高模型速度；提出自注意力全局特征编码模块与全局语义映射模块关注到下采样层提取的全局特征，编码形成通道自注意力对全局特征进行增强，以自适应地增强特征信息的表达能力与模型的拓展性，使得分割效果与精度得到提高并实现了模型的端到端。

实施例2

基于实施例1，本实施例进一步说明自注意力全局特征编码模块。

结合附图1，图1是本发明中全局特征编码模块的示意图。

该自注意力全局特征编码模块包括自注意力编码层和特征通道强化层。

优选的，S1具体为：

将全局特征重映射到128×r₁维、128×r₂维及128×r₃维；

其中，公式如下：

f_att＝SUM_CP(δ(f_i)×f_i) (2)。

将自注意力编码层得到的特征执行公式

操作，得到1×r维向量

将得到的1×r维向量

通过将自注意力全局特征编码模块作用于全局特征，可以对全局位置特征与全局语义特征进行增强，突出特征表达能力。

实施例3

在实施例1和2的基础上，结合附图1、2，本实施例对所述全局语义映射模块进行说明。图1是本发明全局特征编码层的示意图，图2是本发明全局语义映射模块示意图。

全局语义映射模块是将上一个模块输出特征进行转置及全连接后，将输出各个类别存在的概率，再通过各个类别概率组成的向量与真值形成多类别交叉熵损失，联合点标签维度的交叉熵损失对网络参数进一步优化。

所述S2具体的为：

进一步地，将预测值与经过真值标记的点云场景进行计算得到加权交叉熵损失，从而得到点维度的损失(L_pt)，计算公式如下：

所述全局语义映射模块将编码后的全局特征映射到各个语义类别上，再与场景真实值做对比，形成多标签分类的普通交叉熵损失L_sce，表达式如下：

L_sce＝-p(x_i)×log(q_i(x)) (5)。

优选的，所形成的多标签分类的普通交叉熵损失L_sce中的点云语义标签损失与场景语义标签损失往往不在同一个量级，因此采用下式方法进行调节：

L_global＝L_pt+m×L_sce (6)；

通过公式(6)利用超参数m，能对两个维度损失函数进行规整计算，其中L_sce是普通交叉熵损失，L_pt是点维度的损失。最终形成的损失不会特别受到点维度或全局维度语义损失不均匀的影响，达到较好的优化效果。

全局语义特征提取全局所含类别的做法可以交互影响输出点标签的精度，点标记精度的提高也可以进一步提升全局标签的预测精度，以此达到相互促进的作用，这样不仅可以提高网络的分割效果，同时对网络的泛化性能也有一定提升。

实施例4

基于上述实施例1-3，结合附图3，图3是本发明技术路线框图。该语义分割方法的实施至少包括以下阶段：

第一阶段为输入一个城市街道大场景点数据，其中用于训练的数据需带真值标签，输入数据首先进行大场景点云特征提取与降采样。在此阶段，输入点云将通过局部特征聚合模块完成特征提取，随后所提取的特征通过随机采样降低特征数量及点云分辨率。该阶段输出聚合了整个输入场景点云富含语义、空间形态和纹理信息的全局特征。

第二阶段为基于自注意力全局特征逐通道增强。此阶段将上一阶段聚合的全局特征通过自注意力全局特征编码模块编码的方式得到一维的通道自注意力值，并与原全局特征进行乘加操作达到对全局特征的逐通道增强；

此阶段的最后，将一维通道自注意力值作为中间层特征输入到全局语义映射模块得到包含各个语义类别的概率，形成场景维度的语义损失函数以便在训练阶段场景分类器的学习，同事根据类别概率在测试阶段输出场景语义标记。

第三阶段为点云特征上采样与点云逐点标记。将逐通道增强的全局特征输入到上采样层，并通过跃层连接接收同级下采样特征，来丰富特征信息，所述上采样层采用双线性插值的方法，同时通过跃层连接接收同级下采样特征，保留损失特征；经过双线性插值后，最终预测出输入点云场景各个点所属的语义类别，同时产生点维度语义损失，在训练阶段优化点维度分类器，在测试阶段得到点标签的预测值。

第四阶段进入点云分割的精度评价环节。本环节中将对分类的结果以图片或视频的形式进行定性的分析观察，同时输出分割准确率统计结果以进行定量观察。其他方法的分割结果也将同步进行对比，最后对分割误差进行分析以进一步优化模型参数。

实施例5

基于实施例4，对第四阶段进入点云分割的精度评价环节进一步说明。

该评价方法中采用的对比指标包括交并比IoU(Intersection over Union)及全局精度OA(Overall Accuracy)，其中IoU与平均交并比mIoU具体计算如式：

其中n为类别数量；

OA的具体计算公式如下式：

其中TP代表预测结果类别与Ground Truth类别一致的点数量，TN(TrueNegative)表示本该分类正确却被模型分类错误的点数量，FP(False Positive)代表误将不属于真实值类别的点分到了该类的点数，FN(False Negative)代表正样本被错误分为负样本的样本数量。

上述评述方法基于定性、定量及比较分析的激光雷达点云语义分割全面评价方法，该方法不仅适用于基于点分割的评价，还能从实体对象角度对分分割效果进行评价。

表1在Semantic3D数据集上结果对比

表2在测科院数据集上结果对比

通过如表1与表2的数据对比，表明本申请优于现有大多数模型方法，mIoU能达到78％以上(Semantic3D)。

以上所述，仅为本发明的较佳实施例，并非对本发明任何形式上和实质上的限制，应当指出，凡熟悉本专业的技术人员，在不脱离本发明的精神和范围的情况下，当可利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化，均为本发明的等效实施例；同时，凡依据本发明的实质技术对上述实施例所作的任何等同变化的更动、修饰与演变，均仍属于本发明的技术方案的范围内。

Claims

1.一种基于自注意力全局特征增强的城市街道点云语义分割方法，其特征在于，包括：

S2、通过全局语义映射模块将步骤S1中自注意力全局特征编码模块输出的特征进行转置及全连接，将输出各个类别存在的概率，通过各个类别概率组成的向量与真值形成多类别交叉熵损失，联合点标签维度的交叉熵损失对网络参数进一步优化。

2.根据权利要求1所述基于自注意力全局特征增强的城市街道点云语义分割方法，其特征在于，所述步骤S1中，自注意力全局特征编码模块包括自注意力编码层和特征通道强化层。

3.根据权利要求1所述基于自注意力全局特征增强的城市街道点云语义分割方法，其特征在于，S1具体为：

S1.1、先将下采样层提取的全局特征作为在自注意力编码层中的输入模块，通过三次公式(1)中线性变换函数f_i及激活函数

将全局特征重映射到128×r₁维、128×r₂维及128×r₃维；

其中，公式如下：

f_att＝SUM_CP(δ(f_i)×f_i) (2)。

4.根据权利要求3所述基于自注意力全局特征增强的城市街道点云语义分割方法，其特征在于，将自注意力编码层得到的特征执行公式

操作，得到1×r维向量

5.根据权利要求1或4所述基于自注意力全局特征增强的城市街道点云语义分割方法，其特征在于，将得到的1×r维向量

6.根据权利要求1所述基于自注意力全局特征增强的城市街道点云语义分割方法，其特征在于，S2具体为：

7.根据权利要求6所述基于自注意力全局特征增强的城市街道点云语义分割方法，其特征在于，将该语义标签预测值与经过真值标记的点云场景进行计算得到加权交叉熵损失，从而得到点维度的损失(L_pt)，计算公式如下：

8.根据权利要求6或7所述基于自注意力全局特征增强的城市街道点云语义分割方法，其特征在于，全局语义映射模块将编码后的全局特征映射到各个语义类别上，再与场景真实值做对比，形成多标签分类的普通交叉熵损失L_sce，表达式如下：

L_sce＝-p(x_i)×log(q_i(x)) (5)。

9.根据权利要求6或7所述基于自注意力全局特征增强的城市街道点云语义分割方法，其特征在于，形成的多标签分类的普通交叉熵损失L_sce中的点云语义标签损失与场景语义标签损失往往不在同一个量级，因此采用下式方法进行调节：

L_global＝L_pt+m×L_sce (6)；