CN117058384B

CN117058384B - 一种三维点云语义分割的方法及系统

Info

Publication number: CN117058384B
Application number: CN202311062067.3A
Authority: CN
Inventors: 蒋鹏; 孙浩辰; 曾琼; 屠长河
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2023-08-22
Filing date: 2023-08-22
Publication date: 2024-02-09
Anticipated expiration: 2043-08-22
Also published as: CN117058384A

Abstract

本发明提供了一种三维点云语义分割的方法及系统，属于计算机视觉技术领域，通过视锥投影初步将三维场景投影至二维,进行标注，得到包含反投影矩阵的二维标签序列；利用像素的八近邻关系去除二维图像的噪点，修正所述反投影矩阵，进行二维标签到三维的正确映射；处理像素边缘的误差，通过赋予边缘像素多个正标签缓解三维场景的不连续性误差；针对普通像素点、边界像素点以及无像素映射点构建不同的损失函数，对构建的深度网络模型进行训练；利用训练得到的深度网络模型进行三维点云场景的语义分割。本发明能够解决现有技术在平衡标注困难和分割效果方面存在的难题。

Description

一种三维点云语义分割的方法及系统

技术领域

本发明属于计算机视觉技术领域，涉及一种三维点云语义分割的方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

三维场景的语义分割是机器感知三维场景的基础性方法，具有广泛而基础的应用，如机器人导航和增强现实等领域。三维点云数据是一种易于获取、同时包含大量可靠信息的信息源。一个高质量的三维点云场景通常包括上亿个拥有结构空间和物体表面信息的点，能很好地还原真实场景。因此，三维点云的语义分割一直以来都是计算机视觉领域重要研究方向之一。

在三维点云语义分割领域，深度神经网络学习取得了很好的成绩。然而，基于深度网络的点云语义分割学习方法需要点云场景样本的完全标注，而对上亿个点做出准确完整的标注往往需要耗费大量的人力。特别是，与二维图像的标注不同，三维点云的标注缺乏一个简易快捷的标注工具，这在很大程度上进一步限制了三维场景分割的发展。

近年来，一些研究转向了弱监督的三维点云语义分割，通过稀疏点云的标注或者亚场景级的标签等更易获得的标签来训练神经网络。然而，稀疏点云标签仍未完全摆脱三维点标注难的问题，而亚场景级的标签往往无法取得与传统全监督方法匹敌的效果。

发明内容

本发明为了解决上述问题，提出了一种三维点云语义分割的方法及系统，本发明能够解决现有技术在平衡标注困难和分割效果方面存在的难题。

根据一些实施例，本发明采用如下技术方案：

一种三维点云语义分割的方法，包括以下步骤：

通过视锥投影初步将三维场景投影至二维,进行标注，得到包含反投影矩阵的二维标签序列；

利用像素的八近邻关系去除二维图像的噪点，修正所述反投影矩阵，进行二维标签到三维的正确映射；

处理像素边缘的误差，通过赋予边缘像素多个正标签缓解三维场景的不连续性误差；

针对普通像素点、边界像素点以及无像素映射点构建不同的损失函数，对构建的深度网络模型进行训练；

利用训练得到的深度网络模型进行三维点云场景的语义分割。

作为可选择的实施方式，通过视锥投影初步将三维场景投影至二维的具体过程包括：

获取三维点云场景，包含三维空间以及物体结构信息的点、物体表面的色彩和结构信息；

采用视锥投影的方法进行对输入的点云场景进行投影；

裁剪不可视部分，通过视锥棱台变换得到直平行六面体；

网格化划分yz平面，初步构建像素-点云映射矩阵，对yz平面投影映射，利用对应的颜色，渲染二维原始图像，获取点云二维图像。

作为进一步的，采用视锥投影的方法进行对输入的点云场景进行投影的过程包括按照视点(x₀,y₀,z₀)和视角信息，得到平移操作和旋转矩阵，将点云坐标原点平移至视点，再通旋转至正面投影平面。

作为进一步的，网格化划分yz平面的具体过程包括通过点的(y,z)坐标计算在yz平面网格的坐标，初步构建像素-点云映射矩阵M，M矩阵大小与点云中点的个数相同，对于每个对应点p，赋予其在这个yz平面的坐标id，完成点-像素的对应。

作为进一步的，优化yz平面投影的具体过程包括考虑到不同平面的遮盖关系保留该像素中最低平面内所有点的映射关系，而删除更远处的点的映射关系。

作为可选择的实施方式，利用像素的八近邻关系去除二维图像的噪点，修正所述反投影矩阵的具体过程包括：

在yz平面上，对于每个像素计算中心像素所对应的平面高度与其八近邻像素对应平面的高度差Δh；

统计高度差大于设定阈值的数目，若数量大于设定值，则认为该像素本应该被遮蔽，将其对应的像素-点映射关系删除，并继承其八近邻平面的高度。

作为可选择的实施方式，处理像素边缘的误差，通过赋予边缘像素多个正标签缓解三维场景的不连续性误差的具体过程包括：构建与修正后的反投影矩阵形状相同的第二个空的映射矩阵；

基于人工标注的图像，处理得到每个标签块的边缘像素，每个边界应包含两个标签，边界两侧有两组像素，分别拥有这两种标签；

在原始修正后的反投影矩阵中与一组像素构成映射的点将在第二个空的映射矩阵中与第二组像素构成映射，使得同一个点的通过两个映射矩阵分别对应两个不同的标签，即该点被赋予了双类别标签。

作为可选择的实施方式，对于边缘点或相交点，使用多个投影矩阵进行重复映射操作，拥有更多的标签。

作为可选择的实施方式，针对普通像素点、边界像素点以及无像素映射点构建不同的损失函数的具体过程包括：区分普通点、边缘点以及无像素映射点，普通点在修正后的反投影矩阵中含有且只含有一个标签的像素，将使用交叉熵损失函数；边缘点为在修正后的反投影矩阵中含有超过一个标签的像素，赋予双类别交叉熵损失函数；无映射点为在修正后的反投影矩阵中不含有标签与之对应的像素，赋予香农熵约束。

一种三维点云语义分割的系统，包括：

投影模块，被配置为进行标注，得到包含反投影矩阵的二维标签序列；

修正模块，被配置为利用像素的八近邻关系去除二维图像的噪点，修正所述反投影矩阵，进行二维标签到三维的正确映射；

标签赋予模块，被配置为处理像素边缘的误差，通过赋予边缘像素多个正标签缓解三维场景的不连续性误差；

损失函数设计模块，被配置为针对普通像素点、边界像素点以及无像素映射点构建不同的损失函数，对构建的深度网络模型进行训练；

语义分割模块，被配置为利用训练得到的深度网络模型进行三维点云场景的语义分割。

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述方法中的步骤。

一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的方法中的步骤。

与现有技术相比，本发明的有益效果为：

与普通全监督方法动辄半小时到数小时的场景标注时间相比，本发明对场景投影图片的标注仅需数分钟，大大减小了标注所需的人工成本，“修正模块”和“标签赋予模块”使本发明对较低质量标签也有一定的容错能力。总的来说本发明利用较少的人工成本取得了接近全监督方法的效果。

与其他弱监督方法相比，例如稀疏点标签的方法，本发明更加平衡标注成本和最终效果。通过抛弃传统的在三维空间点对点的标记手段，转而采用并优化更加符合人标注习惯的二维区块标注，完成标注类型从点到块的转变，大大提高了人工标注的效率。据调查，由于稀疏点标注仍未能摆脱在三维场景标注困难的缺点，本发明的方法仅需相当于0.2％稀疏点标签的人工成本，即可达到相当于2％稀疏点标签的效果。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明二维图像标签更为精准地通过反投影回到三维点云的投影矩阵生成的流程示意图

图2是本发明深度网络学习损失函数的适配优化的流程示意图

图3展示了使用本发明进行神经网络训练的可视化总过程示意图；

图4为处理得到的三维点云的二维投影示例图。

图5为本发明在公开数据集上的一些效果展示。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

如图1所示，本发明提供一种三维点云语义分割的方法，首先包括了将二维图像标签通过反投影回到三维点云的方法，获得精确的投影矩阵的步骤。具体又细分为以下步骤：

(1)二维图像及投影矩阵生成

为了得到反投影需要的二维标签，首先需要得到对应的二维投影图片，经过人工或自动标注，最终得到包含反投影矩阵的二维标签序列。包括以下步骤:

输入给定的三维点云场景V，为含有三维空间以及物体结构信息的点v(x,y,z,R,G,B…)的集合，其中(x,y,z)为三维坐标，(R,G,B…)为物体表面的色彩、结构信息。

在本实施例中，其包含大量含有三维空间以及物体结构信息的点v(x,y,z,R,G,B,h)其中(x,y,z)为三维坐标，(R,G,B,h)为物体表面的色彩、结构信息，在这里结构信息保留PointNeXt的高度信息。

然后，采用视锥投影的方法进行对输入的点云场景V进行投影，因此需要确定投影的参数：视点(x₀,y₀,z₀)、视角视距d_v、画布大小等。

在本实施例中，选择场景中央作为视点，前后左右四个方向作为视角，视距和画布大小根据不同的场景和点云质量做不同适配,可以选择d_v＝5m视距,300×300的画布大小。

在得到视点(x₀,y₀,z₀)和视角信息后，平移矩阵将点云坐标原点平移至视点(即v-(x₀,y₀,z₀))，再通过旋转矩阵使点云旋转至正面投影平面(即/> 分别为绕y，z轴旋转的矩阵)。

然后，裁剪去坐标轴负向方向的不可视点，再将视锥棱台通过拉伸变换为直平行六面体的形状。具体来说：可以对于每个可见点，其y,z值乘以式中x即该点的x值，x_max即所有x值中最大者。

经过上述变换的点可以重新写作p(h,y,z,R,G,B,…)其中h代表点到投影平面的距离。

然后，网格化划分yz平面：通过点的(y,z)坐标计算在yz平面网格的坐标，初步构建像素-点云映射矩阵M。M矩阵大小与点云中点的个数相同。对于每个对应点p，赋予其在这个yz平面的坐标id，即可完成点-像素的对应。

此时每个像素常常会有非常多个点与之对应，考虑到不同平面的遮盖关系，h最小的点所在整个平面应当被保留，而h更大的平面上的点应当被删除,所以该像素包含了最低平面h±Δ_o内所有点的映射关系，而删除更远处的点的映射关系。本实施例中，可以取Δ_o＝0.01m。

然后，在优化后的yz平面上，取点每个点的(R,G,B)为其对应的颜色，渲染二维原始图像，渲染是使用Z-buffer模式渲染，取网格中h最小的点渲染色彩。获取点云的二维图像。

最终记录经过修改的三维点与二维图片映射矩阵M₁以供反投影备用。投影图片以及相应的标注图片有图4进行展示。

(2)二维图像标注噪点去除

情况描述：由于点云的稀疏性，在步骤(1)处理的过程中只能处理单像素上的遮盖问题。如果存在一个物体在另一个物体之前，但由于前一个物体采样点较为稀疏，或者存在漏洞，可能会是若干位于后面的本应被遮盖的物体出现在投影图上。这种噪点误差在人为标注的过程中若要手动纠正，则需要耗费大量额外工作，效果也可能受限，须以在此处理。

处理过程如下：

通过计算八近邻平面消除这种误差：计算中心像素所对应的平面高度与其八近邻像素的对应平面的高度差Δh。

统计高度差大于设定阈值Δ_s的数目，若数量大于设定阈值θ，则认为该像素本应该被遮蔽，需将其对应的像素-点映射关系删除，并继承其八近邻平面的高度。

实验表明Δ_s＝0.01m，θ＝4可以取得良好的效果。该设置的意义是：中心像素周围至少一半像素不明显高于该像素，该像素才被认为是有效的。其物理先验是：采样物体表面不会连续出现的高于1cm的起伏，而应当是连续且平滑的。

对于输出图像质量较低的重复次本步骤多次。

(3)二维图像标注边缘处理

情况描述：在图像标注的过程中，人工标注难免会产生一定的误差。在图像识别的过程中，由于卷积神经网络的特性，以及图像的连续性，这样的误差并不会对结果产生较大影响。但是在本系统中，二维边错误的标注将被反投影至三维。像素的连续性在反投影的三维空间中并不存在，二维平面上邻接的两个物体在三维空间中可能有着较远的差距，这样本来在二维中较小的误差将会被放大。此外，位于同一平面的不同物体往往也难以产生清晰的边界，其边界像素往往会同时包含应属于两个不同物体的点。

为了解决上述问题，本实施例提出了边缘上的双类别交叉熵：

输入人工标注的图像，处理得到每个标签块的边缘像素，每个边界应包含两个标签l₁,l₂，边界两侧有两组像素p₁，p₂，分别拥有这两种标签。

构建M₂：在原始映射矩阵M₁中与p₁构成映射的点将在M₂中与p₂构成映射。

由此同一个点的通过两个映射矩阵M₁，M₂分别对应了两个不同的标签，即该点被赋予了双类别标签。

对于特别的边缘点(如三类相交处)，也可以使用更多的投影矩阵操作，拥有更多的标签。

接下来，利用二维图像到三维点云的反投影矩阵，进行深度网络学习损失函数的适配优化，如图2所示，包括：

网络训练过程

以图1所示网络结构为例讲解。给定场景V，选择合适的三维神经网络作为骨干网络F_φ(如PointNext-S)，Ф为神经网络参数。

这样，可以得到相应的神经网络表示F_φ(V)，在外面的条件下,F_φ(V)输出了每个输入点的一个多通道向量，每一个通道对应于一个特定的类别。

接着进行softmax操作，F_φ(V)可以被进一步转化为对应类别的预测概率。

然后通过上述步骤，可以得到二维图像到三维点云的反投影矩阵M，从而将二维图像标签的信息通过反投影回到三维点云场景V，从而使点云中每个点拥有至多两个类别标签。

于是可以将点云划分为以下三个部分：

即Ω₁，Ω₂，Ω₃分别代表普通点(仅有一个标签)、边缘像素点(有两个标签)、无映射点集合(无标签)。

其中普通点将使用普通的标准交叉熵损失函数：

边缘点赋予双类别特别适配的交叉熵损失函数：

式中是该像素预测为第i类的概率，Y_i是该像素的双类别标签，在此用n和m表示这两类，而这第n类和第m类的概率之和应当为1。

上述损失函数将鼓励边缘像素收敛到第n类或第m类而不是某个特定类。因此，本发明避免了学习边缘点的错误标签，并允许图像标签在物体边界处存在一些误差。

无映射点赋予香农熵约束：

经过第一个部分的处理，得到的投影矩阵M并不能保证每个点与至少一个像素对应，这部分点我们成为无映射点。

通常来说，经过第一个部分的处理后，即使每个场景使用四个投影，仍有超半数的点无法被映射，自然无法获得反投影信息。

对于无映射点，我们采用一个先验定理：每个点属于且仅属于某一特定物体，即每个点都应有一特定标签。

因此，只要最小化每个点的熵就可以对无映射点产生良好的约束:

式中表示每个点预测的每个类别的概率。

于是神经网络训练过程就可以表示为以下的网络参数φ的优化过程：

进行网络推理，适用的网络推理与正常的三维点云语义分割网络相同，不需要额外的二维图像，只需要输入点云场景V，通过训练得到的网络F_φ得到网络输出F_φ(V)。

通过确定网络输出最大值所在通道确定对应点所属的类别，完成语义分割。

语义分割结果如图5所示的展示效果。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种三维点云语义分割的方法，其特征是，包括以下步骤：

利用训练得到的深度网络模型进行三维点云场景的语义分割；

处理像素边缘的误差，通过赋予边缘像素多个正标签缓解三维场景的不连续性误差的具体过程包括：构建与修正后的反投影矩阵形状相同的第二个空的映射矩阵；

在原始修正后的反投影矩阵中与一组像素构成映射的点将在第二个空的映射矩阵中与第二组像素构成映射，使得同一个点的通过两个映射矩阵分别对应两个不同的标签，即该点被赋予了双类别标签；

对于边缘点或相交点，使用多个投影矩阵进行重复映射操作，拥有更多的标签；

针对普通像素点、边界像素点以及无像素映射点构建不同的损失函数的具体过程包括：区分普通点、边缘点以及无像素映射点，普通点在修正后的反投影矩阵中含有且只含有一个标签的像素，将使用交叉熵损失函数；边缘点为在修正后的反投影矩阵中含有超过一个标签的像素，赋予双类别交叉熵损失函数；无映射点为在修正后的反投影矩阵中不含有标签与之对应的像素，赋予香农熵约束。

2.如权利要求1所述的一种三维点云语义分割的方法，其特征是，通过视锥投影初步将三维场景投影至二维的具体过程包括：

采用视锥投影的方法进行对输入的点云场景进行投影；

裁剪不可视部分，通过视锥棱台变换得到直平行六面体；

3.如权利要求2所述的一种三维点云语义分割的方法，其特征是，采用视锥投影的方法进行对输入的点云场景进行投影的过程包括按照视点(x₀,y₀,z₀)和视角信息，得到平移操作和旋转矩阵，将点云坐标原点平移至视点，再通旋转至正面投影平面。

4.如权利要求2所述的一种三维点云语义分割的方法，其特征是，网格化划分yz平面的具体过程包括通过点的(y,z)坐标计算在yz平面网格的坐标，初步构建像素-点云映射矩阵M，M矩阵大小与点云中点的个数相同，对于每个对应点p，赋予其在这个yz平面的坐标id，完成点-像素的对应。

5.如权利要求2所述的一种三维点云语义分割的方法，其特征是，优化yz平面投影的具体过程包括考虑到不同平面的遮盖关系保留该像素中最低平面内所有点的映射关系，而删除更远处的点的映射关系。

6.如权利要求1所述的一种三维点云语义分割的方法，其特征是，利用像素的八近邻关系去除二维图像的噪点，修正所述反投影矩阵的具体过程包括：

7.一种三维点云语义分割的系统，其特征是，包括：

语义分割模块，被配置为利用训练得到的深度网络模型进行三维点云场景的语义分割；

其中，处理像素边缘的误差，通过赋予边缘像素多个正标签缓解三维场景的不连续性误差的具体过程包括：构建与修正后的反投影矩阵形状相同的第二个空的映射矩阵；