CN117218351A

CN117218351A - 基于局部和全局上下文感知的三维点云语义分割方法

Info

Publication number: CN117218351A
Application number: CN202311213297.5A
Authority: CN
Inventors: 孙梦轩; 马杰
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2023-09-20
Filing date: 2023-09-20
Publication date: 2023-12-12

Abstract

本发明为一种基于局部和全局上下文感知的三维点云语义分割方法，首先，获取原始点云，对原始点云进行降维处理；然后，构建由编码器和解码器组成的点云语义分割网络，编码器利用局部和全局特征融合模块提取特征，解码器的输出经过全连接层将特征维度转换为语义类别分配给点云；其中，局部和全局特征融合模块包括两个并行分支，一个分支用于获取局部加权上下文特征，另一个分支用于获取全局上下文特征，再将局部加权上下文特征和全局上下文特征进行融合，得到局部和全局特征融合模块的输出；最后，对点云语义分割网络进行训练，将训练后的点云语义分割网络用于点云语义分割，为点云分配类别标签。该方法充分利用了大规模点云场景中分散的局部和全局上下文信息，提高了点云语义分割的精度，并减少了参数量。

Description

基于局部和全局上下文感知的三维点云语义分割方法

技术领域

本发明属于三维点云分割技术领域，具体是一种基于局部和全局上下文感知的三维点云语义分割方法。

背景技术

高效准确的三维点云场景语义分割是实现三维场景理解和环境智能感知的关键，近年来点云语义分割已被应用于自动驾驶、机器人导航等多个领域。随着场景复杂度的不断增加和越来越庞大的点云数据为语义分割带来了更多挑战，并且点云本身分布是无序的、不规则的，传统的特征提取手段在理解海量点云数据时愈发捉襟见肘。因此，通过对大规模场景中三维空间信息的提取、聚合和表示进行更有效的语义分割是有必要的。

常见的三维点云语义分割方法主要有基于多视图的方法、基于体素化的方法和基于点的方法。基于多视图和体素化的方法涉及到3D到2D的转换，转换过程中对局部几何结构信息损失较大，因此这两种方法在三维数据的处理上不占优势。目前分割精度比较高的方法是基于点的方法，直接将原始点云输入到网络中，通过网络对分割结果进行预测，减少维度转换过程中导致的几何信息损失。

目前现有的基于点的方法大都致力于提取点云的局部特征，早期的文献《Pointnet++:Deep hierarchical feature learning on point sets in a metricspace》(参见Qi C R,Yi L,Su H,et al.Pointnet++:Deep hierarchical featurelearning on point sets in a metric space[J].Advances in neural informationprocessing systems,2017,30.)提出了多级分层结构，文献《Pointweb:Enhancing localneighborhood features for point cloudprocessing》(参见Zhao H,Jiang L,Fu C W,etal.Pointweb:Enhancing local neighborhood features for point cloud processing[C]//Proceedings ofthe IEEE/CVF conference on computer vision and patternrecognition.2019:5565-5573.)提出了自适应特征调整模块来学习邻域点之间的关系，致力于捕获局部特征，这些方法虽然减少了信息损失，但是忽略了全局信息的作用，使得网络难以对复杂场景进行分析，因此将这些结构扩展到复杂的大规模点云场景非常具有挑战性，无法取得理想的分割效果。现有的基于大规模点云场景的方法通过构造图卷积网络或者通道注意力机制网络致力于局部特征的提取，尽管可以提高网络提取局部特征的能力，但对全局上下文的关注较少，阻碍了网络有效利用空间相关性来理解场景信息，导致点云分割结果存在总体精度较低，语义类别分配精度低。因此，如何充分利用大规模点云场景中分散的局部和全局上下文信息来提高语义分割的有效性和准确性，是本领域的重要技术课题之一。

发明内容

针对现有技术的不足，本发明拟解决的技术问题是，提供一种基于局部和全局上下文感知的三维点云语义分割方法。

本发明解决所述技术问题采用的技术方案是：

一种基于局部和全局上下文感知的三维点云语义分割方法，其特征在于，该方法包括以下步骤：

步骤1：获取原始点云，对原始点云进行降维处理；

步骤2：构建点云语义分割网络；点云语义分割网络包括编码器和解码器，编码器利用局部和全局特征融合模块提取特征，解码器的输出经过全连接层将特征维度转换为语义类别分配给点云；

局部和全局特征融合模块包括两个并行分支，一个分支利用局部上下文编码模块和双注意力机制模块获取局部加权上下文特征，另一个分支利用全局上下文编码模块获取全局上下文特征，再将局部加权上下文特征和全局上下文特征进行融合，得到局部和全局特征融合模块的输出；

在局部上下文编码模块中，点云空间信息和点的特征分别通过KNN算法得到中心点的邻域点，进而得到邻域点的局部几何信息和邻域点的特征；根据式(1)得到局部几何信息

式中：p_i为中心点i的坐标，为邻域点k的坐标，/>为中心点i与邻域点k之间的相对位置，/>为中心点i与邻域点k之间的相对欧式距离，concat(·)表示拼接操作；MLP(·)表示多层感知机；

根据式(2)得到局部语义特征

式中：f_i为中心点i的特征，为邻域点k的特征；

通过式(3)聚合局部几何信息和局部语义特征/>得到局部上下文特征/>

双注意力机制模块根据式(4)的自注意力机制得到注意力特征再通过注意力池化对注意力特征赋予注意力权重，最后进行加权求和，得到局部加权上下文特征；

式中：σ、η、ω、γ均为多层感知机，ρ表示softmax函数，⊙表示哈达玛乘积，K为邻域点的数量；

在全局上下文编码模块中，将所有邻域点所在空间作为局部邻域空间，整个点云空间作为全局空间，根据式(7)计算局部邻域空间与全局空间的体积比s_i；

式中：V_n表示局部邻域空间的体积，V_g表示全局空间的体积；

根据式(8)得到全局上下文特征G_i；

G_i＝MLP(concat(p_i,s_i)) (8)

步骤3：对点云语义分割网络进行训练，将训练后的点云语义分割网络用于点云语义分割，为点云分配类别标签。

进一步的，所述编码器由多个编码层堆叠而成，每个编码层的输入随机采样后，再经过局部和全局特征融合模块提取特征；解码器由多个解码层堆叠而成，每个解码层利用最邻近插值进行上采样。

进一步的，注意力权重的计算公式为：

式中，softmax(·)为softmax函数；

局部加权上下文特征Q_i的计算公式为：

式中，为权重系数，δ(·)表示共享函数。

与现有技术相比，本发明的有益效果在于：

本发明的点云语义分割网络采用端到端的结构，编码层通过局部和全局特征融合模块学习空间上下文信息并为特征嵌入保留更多信息，解码层通过最邻近插值对点特征进行逐步上采样，为特征提取保留特征细节；层级特征通过跳跃连接层连接，最后引入共享全连接层将特征维度转换为语义类别。局部和全局特征融合模块通过两个分支分别学习局部特征和全局特征，从而减少信息损失，实现大规模场景的三维点云语义分割。首先，局部上下文编码模块将点的局部几何信息和局部语义特征互补整合以获得局部特征，从而增强局部上下文特征的表示；然后，利用双注意力机制模块来学习局部加权特征，为不同位置的重要特征分配更多权重，从而获得精细化的局部加权上下文特征。全局上下文编码模块利用邻域的空间位置和相对体积来捕捉整个空间结构的全局感知，为每个点提供上下文感知信息，从而产生更多的判别特征。点云语义分割网络充分利用了大规模点云场景中分散的局部和全局上下文信息，提高了点云语义分割的精度，并减少了参数量。

附图说明

图1是本发明的点云语义分割网络的结构示意图；

图2是本发明的局部和全局特征融合模块的结构示意图；

图3是本发明的局部上下文编码模块的结构示意图；

图4是本发明的双注意力机制模块的结构示意图；

图5是本发明的全局上下文编码模块的结构示意图；

图6是本发明的三维点云语义分割结果对比图。

具体实施方式

下面给出本发明的具体实施例。具体实施例仅用于进一步详细说明本发明，不限制本申请权利要求的保护范围。

本发明提供了一种基于局部和全局上下文感知的三维点云语义分割方法(简称方法，参见图1～6)，包括以下步骤：

步骤1：获取原始点云，并对原始点云进行降维处理；

原始点云的大小为N×d_in，N为点的数量，d_in为点的特征维度；原始点云经过一个全连接层进行降维，得到大小为N×d的特征矩阵；其中，d为特征矩阵的维度，且d＜d_in；

步骤2：构建点云语义分割网络；如图1所示，点云语义分割网络包括编码器和解码器；编码器包括多个编码层，每个编码层由随机采样操作、局部和全局特征融合模块组成，随机采样操作用于减少采样点的数量，局部和全局特征融合模块用于提取空间上下文特征；解码器包括数量与编码层相同的多个解码层，解码层采用最邻近插值法实现点的上采样，以恢复点的数量和特征维度，保留提取特征的细节信息；编码层和解码层生成的层级特征通过跳跃连接层连接，最后一个编码层之后通过多个全连接层将特征维度恢复至初始维度，并将特征维度转换为语义类别分配给点云，进而实现点云的语义分割；本实施例中，编码器包括4个编码层，各个编码层生成的层级特征的点数和维度分别为(N/4,32)、(N/16,128)、(N/64,256)、(N/256,512)；解码器包括4个解码层，各个解码层生成的层级特征的点数和维度分别为(N/256,512)、(N/64,256)、(N/16,128)、(N/4,32)。

如图2所示，局部和全局特征融合模块包括两个并行分支，一个分支利用局部上下文编码模块和双注意力机制模块不断地学习邻域点的几何信息和语义特征，获得了局部加权上下文特征，实现了局部特征的精细化，同时增强了局部特征对高维特征空间的泛化能力；另一个分支利用全局上下文编码模块提取全局上下文特征；最后，将两个分支得到的局部加权上下文特征和全局上下文特征进行拼接，实现了特征融合，得到空间上下文特征，即局部和全局特征融合模块的输出。

局部上下文编码模块用于提取局部上下文特征，如图3所示，点云空间信息P＝{p₁,…,p_i,…,p_N}和点的特征F＝{f₁,…,f_i,…,f_N}输入到局部上下文编码模块中，分别通过KNN算法搜寻得到中心点i的邻域点，进而得到邻域点的局部几何信息和邻域点的特征F_i＝{f_i ¹,…,f_i ^k,…,f_i ^K}；其中，p_i、f_i为中心点i的坐标和特征，/>为邻域点k的坐标和特征，K为邻域点的数量；点云空间信息描述了点云的空间结构，用点的坐标表征，点的特征反映了点的RGB颜色信息；

通过聚合中心点的坐标、邻域点的坐标、中心点与邻域点之间的相对位置以及中心点与邻域点之间的相对欧式距离，得到局部几何信息表示为：

式中：为中心点i与邻域点k之间的相对位置，/>为中心点i与邻域点k之间的相对欧式距离，concat(·)表示拼接操作；MLP(·)表示多层感知机，由两个线性层和一个ReLU激活层组成，线性层用于改变维度，ReLU激活层引入非线性因素以缓解过拟合的问题；

相邻点在较小的局部空间中表现出相似的语义特征，通过聚合邻域点的特征和特征差值得到局部语义特征表示为：

通过聚合局部几何信息和局部语义特征/>得到局部上下文特征/>

利用双注意力机制模块精细化局部上下文特征，如图3所示，双注意力机制模块包括自注意力机制和注意力池化，自注意力机制关注点的特征和点之间的内部相关性，注意力池化关注点与点之间的外部相关性，从而更好地捕捉局部精细特征；自注意力机制的输入为中心点i和邻域点k的特征，中心点i的特征经过多层感知机σ得到的结果与邻域点k的特征经过多层感知机ω得到的结果进行点乘，在点乘结果中添加局部上下文特征作为几何信息的补充，得到增强特征向量；增强特征向量经过多层感知机η后，再通过softmax函数计算注意力权重，然后再与经过MLP升维的邻域点的特征/>和局部上下文特征/>的拼接进行点乘，获取语义特征之间的相似度，所有邻域点的相似度求和，得到注意力特征/>自注意力机制的表达式为：

式中：γ均为多层感知机，ρ表示softmax函数，⊙表示哈达玛乘积；

注意力池化通常用于输出层或状态层，注意力池化通过计算注意力权重自适应地将注意力集中在网络最相关的部分作为输出，注意力特征输入到注意力池化中，通过共享函数δ(·)计算注意力权重，共享函数δ(·)包含一个MLP和softmax函数，注意力权重的计算公式为：

式中，softmax(·)为softmax函数；

将注意力权重与注意力特征进行加权求和，再经过多层感知机MLP，得到局部加权上下文特征Q_i，即双注意机制模块的输出；

式中，为权重系数。

全局上下文编码模块用于获取全局信息，使网络更加关注全局结构信息；如图5所示，将点云空间信息输入到全局上下文编码模块中，将中心点与经过KNN算法搜寻的K个邻域点所在空间作为局部邻域空间，用V_n表示局部邻域空间的体积，局部邻域空间的半径为中心点到邻域点的最大距离；将整个点云空间作为全局空间，用V_g表示全局空间体积，全局空间的半径为中心点到全局空间最远点的距离；局部邻域空间与全局空间的体积比s_i表示为：

将局部邻域空间的体积比与点云空间信息进行拼接后，得到全局上下文特征G_i：

G_i＝MLP(concat(p_i,s_i)) (8)

步骤3：对点云语义分割网络进行训练，并将训练后的点云语义分割网络用于三维点云的语义分割，为三维点云分配类别标签。

为了验证本发明的点云语义分割网络的有效性，利用大规模室内点云数据集S3DIS进行测试，语义分割结果参见图6。S3DIS数据集分为6个子区域，共包含13个类别，包括天花板、椅子、地板、窗户等类别标签，每个点都包含三维坐标和RGB颜色信息。从图6可知，本发明的点云语义分割网络能够有效识别不同类别标签，且能够区分出两个不同物体的边界和一些小目标，例如杂物、椅子等，这得益于网络中局部和全局上下文的信息融合以及双注意力机制对特征的有效细化，从而减轻了特征在下采样过程中的信息丢失，保证了其识别结果在大多数情况下与真值标准相吻合，对小目标物体有较好的识别性能。

表1为不同网络的分割结果对比，与现有的点云语义分割网络相比，本发明的网络对于大规模室内场景的点云语义分割任务具有良好的准确性和类别可区分性，S3DIS数据集上的测试结果在总体精度(OA)和平均交并比(mIoU)上都优于现有网络，其中mIoU较SPGraph、PointNet两者分别提升了8.5％和23％，并且对于部分类别，其精度也优于现有网络。

表1不同网络的分割结果对比

表2为不同网络的参数量和推理时间对比，与现有的点云语义分割网络相比，本发明的网络在训练参数和训练时间上也表现出高效的推理能力和计算速度。在S3DIS数据集上的测试结果训练参数量为2.14×10⁶，推理时间减少到762s/epoch，相比于PointWeb网络降低了795s/epoch，反映了本发明的网络对分割任务具有很好的适应性和鲁棒性。

表2不同网络的参数量和推理时间对比

本发明未述及之处适用于现有技术。

Claims

1.一种基于局部和全局上下文感知的三维点云语义分割方法，其特征在于，该方法包括以下步骤：

步骤1：获取原始点云，对原始点云进行降维处理；

式中：p_i为中心点i的坐标，为邻域点k的坐标，r_i ^k为中心点i与邻域点k之间的相对位置，||r_i ^k||为中心点i与邻域点k之间的相对欧式距离，concat(·)表示拼接操作；MLP(·)表示多层感知机；

根据式(2)得到局部语义特征F_i ^k；

F_i ^k＝concat(f_i,(f_i-f_i ^k)) (2)

式中：f_i为中心点i的特征，f_i ^k为邻域点k的特征；

通过式(3)聚合局部几何信息和局部语义特征F_i ^k，得到局部上下文特征/>

根据式(8)得到全局上下文特征G_i；

G_i＝MLP(concat(p_i,s_i)) (8)

2.根据权利要求1所述的基于局部和全局上下文感知的三维点云语义分割方法，其特征在于，所述编码器由多个编码层堆叠而成，每个编码层的输入随机采样后，再经过局部和全局特征融合模块提取特征；解码器由多个解码层堆叠而成，每个解码层利用最邻近插值进行上采样。

3.根据权利要求1或2所述的基于局部和全局上下文感知的三维点云语义分割方法，其特征在于，注意力权重的计算公式为：

式中，softmax(·)为softmax函数；

局部加权上下文特征Q_i的计算公式为：

式中，为权重系数，δ(·)表示共享函数。