CN116229079A

CN116229079A - 一种基于视觉辅助和特征增强的三维点云语义分割方法及系统

Info

Publication number: CN116229079A
Application number: CN202310324023.7A
Authority: CN
Inventors: 舒禹程; 王青松; 肖斌; 李伟生
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-03-30
Filing date: 2023-03-30
Publication date: 2023-06-06

Abstract

本发明属于计算机视觉图形学领域，具体涉及一种基于视觉辅助和特征增强的三维点云语义分割方法及系统，所述方法包括构建三维点云语义分割深度学习模型并训练，将待分割三维点云数据输入训练好的点云语义分割模型，通过设计一个重建辅助网络来显式地提取视觉颜色特征，并在主干分割网络中引入通道注意力机制以充分地加以利用，同时在解码层中构建点特征增强模块，以进一步提高模型在不同语义类边界处的点的分割能力；本发明能够对点的局部邻域进行有效的聚合，提升深度学习模型对三维点云语义分割的效果，促进了相关技术领域的发展。

Description

一种基于视觉辅助和特征增强的三维点云语义分割方法及系统

技术领域

本发明数据计算机视觉图形学领域，具体涉及一种基于视觉辅助和特征增强的三维点云语义分割方法及系统。

背景技术

三维点云语义分割的目标是根据点的语义将点云分成若干子集。三维点云语义分割是计算机视觉邻域中重要的研究课题，许多技术都建立在此基础上，例如基于三维点云的目标检测、分类、识别等当前解决场景理解的主要技术。传统的点云分割方法利用了点云的位置、形状等信息来分割出不同的区域边界，其分割结果需要手动对结果进行语义标注，无法达到可接受的精度，且不能推广到大规模数据。因此，有必要开发高效的点云语义分割算法，自动得到大规模点云的语义标注。

随着深度学习技术在2D计算机视觉的巨大成功的推动下，它也成为3D分割任务的首选工具。在此基础上，出现了基于投影的、基于离散化的和基于点的三种类型的语义分割方法。由于一些共性问题，基于投影和基于离散化的方法对于实际应用并不是最佳的，一方面是它们需要几个耗时的前后处理步骤来进行预测，另一方面是所生成的中间表示可能会部分丢失周围环境的上下文信息。基于点的方法逐渐成为主流方法，因为这类方法可以直接对不规则的点云进行处理，然而通过MLP提取的逐点特征不能捕获点的局部几何和点与点之间的相互作用。尽管一些研究者也提出了相关的解决办法，例如在PointNet++中使用分层采样机制得到采样后的点融合了局部邻域点的特征信息。但是这些方法没有充分利用点云数据已有的信息来提升语义分割效果，并且在分割不同语义类边界点方面的能力有限。

发明内容

有鉴于此，本发明提供一种基于视觉辅助和特征增强的三维点云语义分割方法，包括构建三维点云语义分割深度学习模型并训练，将待分割三维点云数据输入训练好的点云语义分割模型，引入视觉辅助任务和特征增强模块来增强语义分割性能，计算分割结果；三维点云语义分割模型的训练过程具体包括以下步骤：

S1、获取待分割的三维点云并进行预处理；

S2、将预处理后的点云数据分别输入到分割网络和重建网络中，其中输入到分割网络中的数据包括XYZ空间坐标和RGB颜色信息，输入到重建网络的数据包括RGB颜色信息；

S3、分割网络和重建网络均获取每个点的特征，在分割网络中，获取点云中每个点的邻域索引及其特征；重建网络共享分割网络中计算得到的邻域索引；

S4、对于分割网络的编码器，对每个局部邻域进行几何编码和特征编码；重建网络的编码器进行视觉颜色特征提取；

S5、分割网络将几何编码和特征编码得到的特征拼接起来，通过自注意力机制加权聚合得到精确的逐点特征；重建网络将从其邻域中提取视觉颜色最显著的特征以及其邻域的加权平均拼接起来作为重建网络的逐点特征；

S6、在分割网络每一编码层中，利用空间位置和体积比来学习三维点云的全局上下文；

S7、在分割网络中使用通道注意力机制融合来自分割网络和重建网络的金字塔顶层特征，将融合后的特征作为分割网络中解码器的输入；重建网络将重建网络的金字塔顶层特征输入到重建网络中的解码器；

S8、在解码器中，分割网络对上采样后的点云进行特征增强；重建网络则进行最近邻插值上采样以及MLP提取逐点特征的操作；

S9、对于分割网络使用交叉熵损失函数进行监督，重建网络则使用均方误差进行监督；

S10、启动梯度反向传播机制，优化损失函数，更新网络参数，当模型收敛后或达到设置的epoch次数，保存模型。

进一步的，分割网络和重建网络获取每个点的特征的过程包括使用一个全连接层对输入点云的特征进行升维，再使用MLP提取整个三维点云中每个点的特征。

进一步的，在分割网络中，获取点云中每个点的邻域的过程包括：以点云中的每个点为中心点使用最近邻算法找到其K个邻居点的索引，根据索引得到每个邻居点的xyz三维坐标和对应的点特征。

进一步的，分割网络的编码器对每个局部邻域进行几何和特征编码的过程包括：

计算每个邻居点与中心点的相对坐标，将得到的相对坐标、中心点坐标和邻居点坐标拼接起来作为整个邻域的几何上下文信息；

使用MLP提取整个局部的几何上下文特征；

计算中心点与邻居点特征差的绝对平均值，将邻居点特征与特征距离的负指数拼接起来作为新的邻居点特征。

进一步的，利用空间位置和体积比来学习三维点云的全局上下文包括：在点云邻域中使用中心点与其最远邻域的距离计算得到局部体积，使用点云中与坐标原点的最远距离计算得到全局体积，基于局部体积与全局体积之比利用MLP学习得到三维点云的全局上下文。

进一步的，分割网络对上采样后的点云进行特征增强的过程包括以下步骤：使用最近邻算法得到每个点的K个邻居点，以邻居点特征减去对应中心点特征的方式得到绝对特征差，对所有邻居点的绝对特征差进行求和；经MLP提取特征后与中心点特征逐元素相加得到增强后的特征作为下一个解码层的输入。

进一步的，在三维点云语义分割模型中引入视觉辅助和特征增强模块包括：以输入到分割网络三维点云数据中的每一个点为中心点，使用K最近邻算法找到其对应的K个邻居点，在局部几何上下文方面，对邻居点进行几何编码得到

在特征空间方面，对局部邻域进行特征编码得到/>

与/>

拼接起来，通过自注意力机制计算邻居点的注意力权重，然后加权求和得到蕴含空间几何信息和特征距离信息的精确局部上下文表示

/>

进一步的，分割网络对上采样后的点云进行特征增强，解码层逐点特征增强后表示为：

其中，f_i ^u为上采样后第i个点的特征；

为对f_i ^u逐点增强后的特征；/>

为对应的邻居点特征；K是邻域中点的数量；|·|表示取绝对值。

进一步的，整个端到端模型训练阶段的损失函数表示为：

L_total＝L_ce+L_mse；

其中，L_ce表示语义分割结果的交叉熵损失，L_mse表示颜色重建的均方误差损失。

本发明还提供一种基于视觉辅助和特征增强的三维点云语义分割系统，用于实现一种基于视觉辅助和特征增强的三维点云语义分割方法，包括数据预处理模块、共享采样模块、局部邻域搜索模块、局部上下文编码模块、共享MLP模块、拼接模块、自注意力聚合模块、池化模块、全局特征获取模块、通道注意力模块、上采样模块以及特征增强模块，其中：

数据预处理模块，用于对三维点云进行预处理，降低输入三维点云点的数量；

共享采样模块，采用最远点采样算法筛选出均匀的样本点输入到下一层；

局部邻域搜索模块，用于搜索点的邻域点，构建点的局部邻域；

局部上下文编码模块，用与对点的局部邻域进行几何编码和特征编码；

共享MLP模块，用于提取点的局部上下文特征，以及对整个三维点云进行逐点特征提取；

拼接模块，用于点的特征信息融合，把点的局部几何上下文与语义上下文拼接在一起；

自注意力聚合模块，用于将每个点的局部上下文聚集起来得到每个点的精确局部上下文表示；

池化模块，用于对重建网络中的局部特征进行最大池化和平均池化得到具有代表性的视觉特征；

全局特征获取模块，用于分割网络中提取点的全局特征表示；

通道注意力模块，用于融合来自重建网络的视觉特征；

上采样模块，采用最近邻三线性差值对高维特征进行上采样。

特征增强模块，用于对解码层特征进行增强，使不同语义类的特征差距加大，提升了在语义类边界点的分割精度。

本发明通过对点云的局部邻域进行几何和特征编码，利用自注意力机制来收集点的精确局部上下文表示，并采用空间位置和体积比来提取全局特征。此外，本方法使用通道注意力机制融合来自重建网络的视觉信息，并在解码层对逐点特征进行增强。这样可以增大点的局部邻域点与中心点属于不同语义类的特征差距，从而提高三维点云语义分割的精度。

附图说明

图1为本发明的基于视觉辅助和特征增强的三维点云语义分割整体结构图；

图2为为本发明的点特征增强模块图；

图3为本发明一实施例的语义分割结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种基于视觉辅助和特征增强的三维点云语义分割方法，包括构建三维点云语义分割深度学习模型并训练，将待分割三维点云数据输入训练好的点云语义分割模型，引入视觉辅助任务和特征增强模块来增强语义分割性能，计算分割结果；三维点云语义分割模型的训练过程具体包括以下步骤：

S1、获取待分割的三维点云并进行预处理；

S7、在分割网络中使用通道注意力机制融合来自分割网络和重建网络的金字塔顶层特征，将融合后的特征作为分割网络中解码器的输入；重建网络将金字塔顶层特征输入到重建网络中的解码器；

本实施例提出了一种基于混合局部聚集的三维点云语义分割方法具体实施方法，如图1所示，包括：

S1.为了快速获取点云数据，首先对整个点云场景进行网格采样，采样的思路是将整个场景均匀划分成多个小立方体，对每个立方体内的点进行采样，将占比最大的类别作为采样后的类别。之后，为了快速地查找近邻，再分别对每一个场景的subxyz建立一个KDTree和一个采样点云到原点云的映射文件。本实例设置立方体长度为0.04米，最大epoch次数为100，初始学习率为0.01；

S2.将预处理后的点云数据分别输入到分割网络和重建网络中，其中输入到分割网络中的数据包含XYZ空间坐标和RGB颜色信息，而重建网络仅包含RGB颜色信息。

S3.两个网络都使用一个全连接层将初始特征从6通道升到8通道，再使用MLP提取整个三维点云中每个点的特征。此外，在分割网络中，根居点的三维坐标，在空间上依据欧几里得距离使用最近邻算法找到每个点的K个邻居点的索引，再根据索引得到每个点对应的所有邻居点的坐标和点特征，如第i个点的坐标和特征分别为p_i和f_i，则对应邻域

中的第j个邻域点坐标和特征分别为p_j和f_j。重建网络共享这些邻域索引，同样以索引获取邻居点特征。

S4.对于分割网络，为了同时捕获关于点局部邻域的全局和局部信息，对每个局部邻域进行几何和特征编码。首先对每个点和其邻居点的空间坐标进行几何编码。计算每个邻居点与中心点的相对坐标，将得到的相对坐标、中心点坐标和邻居点坐标拼接起来作为整个局部的几何上下文，使得对应的点特征总是知道它们的相对空间位置。

具体地，对于中心点p_i和和其对应的K个邻居点

中的每一个点，进行空间几何编码，公式可表示为：

其中，p_i表示第i个点的xyz三维坐标，

表示第i个点邻域中第j个点的xyz三维坐标，[,,]表示一个拼接操作；MLP为多层感知机，用来提取逐点特征；/>

表示对点进行几何编码后得到的局部几何特征。看起来/>

是从多余的点进行位置编码的，但是在实践中，这往往有助于深度学习网络模型学习局部几何特征，并获得良好的性能。

特征编码仅计算中心点与邻居点特征差的绝对平均值，将邻居点特征与特征距离的负指数拼接起来作为新的邻居点特征，具体表示如下：

这里，由于特征是由网络自动学习的，所以特征差是一个不稳定的特征，为此我们引入一个超参数λ来调整特征差所占的权重。

重建网络不包含几何编码，仅包含在特征空间中的特征编码操作。

S5.分割网络将两个编码后的特征拼接起来，通过自注意力机制加权合并得到精确的逐点特征。重建网络则一方面直接从K个邻居中收集最显著(最大)特征用于表示整个邻域的视觉概览，另一方面，通过学习整个邻域的加权平均来提炼和获得更多的邻域细节。

具体地，分割网络使用自注意力机制聚合局部上下文特征可表示为：

/>

重建网络聚合局部上下文特征可表示为：

其中，max_K(f′_j)表示取K个局部邻域点中的特征最大值，θ_i是K个邻居的一组可学习权重，

表示对K个局部邻域点特征加权平均(即使用softmax函数计算局部邻域中每个点的得分，该得到在0到1之间，然后加权求和得到的值即为加权平均)。

S6.在分割网络每一编码层中，利用空间位置和体积比来学习三维点云的全局上下文:

v_i＝max(||p_j-p_i||³)

v_g＝max(‖P-O‖³)

f_iG＝MLP([p_i,r_i])

其中，局部体积v_i是通过邻居点于中心点最大距离的三次方求得的，全局体积v_i是通过点云P所有点中与原点O最大距离三次方求得的。值得注意的是，不同场景中的同一类物体(例如椅子，桌子)通常具有不同的样式，并且它们的几何结构不完全相同。因此，考虑到体积比对局部和全局边界球内的内部点的位置不敏感，使用它以便表示可以容忍相同类别的对象的轻微几何变形。

之后，分割网络每一编码层的输出为：

S7.对于两个网络编码后的金字塔顶层特征，通过concatenate操作将它们拼接起来，再在分割网络中使用通道注意力机制融合来自重建网络的视觉特征信息，再输入到解码器。重建网络无融合机制，仅将原始顶层视觉特征输入到解码器。

S8.在解码层，分割网络对上采样后的点云进行特征增强，首先使用最近邻算法(KNN)得到每个点的K个邻居点，以邻居点特征减去对应中心点特征的方式得到绝对特征差，然后进行求和，最后经MLP提取特征后与中心点特征逐元素相加得到增强后的特征作为下一个解码层的输入。重建网络仅包含最近邻插值上采样以及MLP提取逐点特征的操作。具体过程如图2所示，包括：

针对第i个点f_i ^u，通过最近邻算法找到其k个邻居点，k为包括第i个点及其邻居点在内的点数量之和，d为每个点的维度；

计算每个点与第i个点之间特征值之差的绝对值，将所有绝对值相加并利用多层感知机提取逐点特征后与第i个点特征特征值相加，得到第i个点在解码层逐点特征增强后的特征值。

S9.对于分割网络使用交叉熵损失函数进行监督，重建网络则使用均方误差进行监督。

S10.启动梯度反向传播机制，优化损失函数，更新网络参数，当模型收敛后或达到设置的epoch次数，保存模型。

本发明中三维点云语义分割模型为一个端到端模型，即模型输入的是原始的三维点云数据，模型的输出就是我们想要的语义分割结果。

三维点云语义分割过程中，逐点特征表示对于语义分割任务是至关重要的。虽然非参数对称函数可以有效地总结点的局部信息，但它们不能明确地显示局部的独特性，尤其是对于共享相似局部上下文的邻近点。为了解决这个问题，本文基于注意力机制来收集精确的邻域表示，引入视觉重建辅助任务充分利用点云已有的颜色信息，同时对解码层多尺度的特征进行增强，提升语义分割效果，包括：

以输入到分割网络三维点云数据中的每一个点为中心点，使用K最近邻算法找到其对应的K个邻居点，在局部几何上下文方面，对邻居点进行几何编码得到G(p_i)，在特征空间方面，对局部邻域进行特征编码得到G(f_i)；

G(p_i)与G(f_i)拼接起来，通过自注意力机制计算邻居点的注意力权重，然后加权求和得到蕴含空间几何信息和特征距离信息的精确局部上下文表示G(i)。

在分割网络解码层对逐点特征进行增强，使不同语义类边界点的特征差距增大，提升了在语义类边界点的分割精度，解码层逐点特征增强后表示为：

其中，f_i ^u为上采样后第i个点的特征；

为对f_i ^u逐点增强后的特征；f_j ^u为对应的邻居点特征；K是邻域中点的数量；|·|是绝对值运算。

进一步的，整个端到端模型训练阶段的损失函数表示为：

L_total＝L_ce+L_mse；

在本实施例中，采用数据集(S3DIS)进行实验，数据集(S3DIS)是从室内工作环境中收集的，被广泛用来做语义分割任务。该数据集中有六个子区域，每个子区域包含50个不同的房间。大多数房间的点数从50万到250万不等，取决于房间的大小。所有的点都具有三维坐标和颜色信息，并被标记为13个语义类别之一。在实验中，使用区域五进行测试，其他区域进行训练，按照惯例，首先对每个房间进行以网格大小为4厘米进行网格采样，用于训练和测试。通过从一个房间中获取最多40960个点来形成输入点云，且使用3D坐标和颜色信息作为输入特征。使用平均交并比(mIou)、全局准确率(OA)和平均准确率(mAcc)来衡量语义分割的好坏，表1给出了三维点云语义分割得到实验结果。

表1S3DIS数据集Area 5上的测试结果

/>

从表1中可以看出，通过不同算法进行测试，本专利得到的全局准确率(OA)、平均准确率(mAcc)和平均交并比(mIou)的都比其他算法要好，此外，如图3所示，第一行是输入的室内场景三维点云，第二行是真实的语义分割标签(简称真实标签)，第三方是大规模点云(简称RandLA-Net)方法预测结果，第四行是本发明基于视觉辅助和特征增强的三维点云语义分割方法预测结果，该结果说明，本发明能够基于视觉辅助和特征增强有效地提升语义分割效果。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于视觉辅助和特征增强的三维点云语义分割方法，其特征在于，构建三维点云语义分割深度学习模型并训练，将待分割三维点云数据输入训练好的点云语义分割模型，引入视觉辅助任务和特征增强模块来增强语义分割性能，计算分割结果；三维点云语义分割模型的训练过程具体包括以下步骤：

S1、获取待分割的三维点云并进行预处理；

2.根据权利要求1所述的一种基于视觉辅助和特征增强的三维点云语义分割方法，其特征在于，分割网络和重建网络获取每个点的特征的过程包括使用一个全连接层对输入点云的特征进行升维，再使用MLP提取整个三维点云中每个点的特征。

3.根据权利要求1所述的一种基于视觉辅助和特征增强的三维点云语义分割方法，其特征在于，在分割网络中，获取点云中每个点的邻域的过程包括：以点云中的每个点为中心点使用最近邻算法找到其K个邻居点的索引，根据索引得到每个邻居点的xyz三维坐标和对应的点特征。

4.根据权利要求1所述的一种基于视觉辅助和特征增强的三维点云语义分割方法，其特征在于，分割网络的编码器对每个局部邻域进行几何和特征编码的过程包括：

计算每个邻居点与中心点的相对坐标，将得到的相对坐标、中心点坐标和邻居点坐标拼接起来作为整个邻域的几何上下文；

使用MLP提取整个局部的几何上下文特征；

5.根据权利要求1所述的一种基于视觉辅助和特征增强的三维点云语义分割方法，其特征在于，利用空间位置和体积比来学习三维点云的全局上下文包括：在点云邻域中使用中心点与其最远邻域的距离计算得到局部体积，使用点云中与坐标原点的最远距离计算得到全局体积，基于局部体积与全局体积之比利用MLP学习得到三维点云的全局上下文。

6.根据权利要求1所述的一种基于视觉辅助和特征增强的三维点云语义分割方法，其特征在于，分割网络对上采样后的点云进行特征增强的过程包括以下步骤：使用最近邻算法得到每个点的K个邻居点，以邻居点特征减去对应中心点特征的方式得到绝对特征差，对所有邻居点的绝对特征差进行求和；经MLP提取特征后与中心点特征逐元素相加得到增强后的特征作为下一个解码层的输入。

7.根据权利要求1所述的一种基于视觉辅助和特征增强的三维点云语义分割方法，其特征在于，在三维点云语义分割模型中引入视觉辅助和特征增强模块包括：以输入到分割网络三维点云数据中的每一个点为中心点，使用K最近邻算法找到其对应的K个邻居点，在局部几何上下文方面，对邻居点进行几何编码得到

在特征空间方面，对局部邻域进行特征编码得到/>

与/>

拼接起来，通过自注意力机制计算邻居点的注意力权重，然后加权求和得到蕴含空间几何信息和特征距离信息的精确局部上下文表示/>

8.根据权利要求1所述的一种基于视觉辅助和特征增强的三维点云语义分割方法，其特征在于，分割网络对上采样后的点云进行特征增强，解码层逐点特征增强后表示为：

其中，f_i ^u为解码后第i个点的特征；

为对f_i ^u逐点增强后的特征；/>

9.根据权利要求1所述的一种基于视觉辅助和特征增强的三维点云语义分割方法，其特征在于，整个端到端模型训练阶段的损失函数表示为：

L_total＝L_ce+L_mse；

10.一种基于视觉辅助和特征增强的三维点云语义分割系统，其特征在于，用于实现权利要求1所述的一种基于视觉辅助和特征增强的三维点云语义分割方法，包括数据预处理模块、共享采样模块、局部邻域搜索模块、局部上下文编码模块、共享MLP模块、拼接模块、自注意力聚合模块、池化模块、全局特征获取模块、通道注意力模块、上采样模块以及特征增强模块，其中：

通道注意力模块，用于融合来自重建网络的视觉特征；