CN111476242B

CN111476242B - 一种激光点云语义分割方法及装置

Info

Publication number: CN111476242B
Application number: CN202010244752.8A
Authority: CN
Inventors: 李世明; 韩恒贵
Original assignee: Beijing Jingwei Hirain Tech Co Ltd
Current assignee: Beijing Jingwei Hirain Tech Co Ltd
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2023-10-20
Anticipated expiration: 2040-03-31
Also published as: CN111476242A

Abstract

本发明公开了一种激光点云语义分割方法及装置，对获取的原始激光点云数据进行二维投射得到二维图像，基于卷积网络对二维图像进行卷积特征提取，得到前视图特征和俯视图特征，将前视图特征、俯视图特征和原始激光点云数据中点云的三维特征进行融合，得到目标激光点云特征，将目标激光点云特征输入至PointNet网络中进行语义分割。由于前视图进行卷积特征提取后具有的N通道特征，以及俯视图进行卷积特征提取后具有的M通道特征，可以扩大每个像素点的“视野范围”，通过将前视图特征、俯视图特征和原始激光点云数据中每个激光点云的三维特征进行融合，可以实现扩大单个激光点云的特征信息。

Description

一种激光点云语义分割方法及装置

技术领域

本发明涉及数据处理技术领域，更具体的说，涉及一种激光点云语义分割方法及装置。

背景技术

近年来，随着激光雷达等3D传感器在机器人、无人驾驶领域的广泛应用，深度学习语义分割在激光点云数据处理中的应用已经成为研究热点之一。所谓激光点云数据是指扫描对象以点的形式记录，每一个点包含有三维坐标，有些可能含有颜色信息(RGB)或反射强度信息(Intensity)。

由于激光点云数据具有无序性和非结构化的特点，并且在3D空间中可能具有不同的稠密度，因此使得深度学习应用在激光点云语义分割任务上面临巨大挑战，激光点云语义分割精度普遍不高。

发明内容

有鉴于此，本发明公开一种激光点云语义分割方法及装置，以实现单个激光点云的特征信息还包含该激光点周围的空间信息，从而扩大单个激光点云的特征信息，提高网络的深度学习能力，进而将特征融合丰富信息的目标激光点云特征输入至PointNet网络中进行语义分割，能够提高语义分割的准确性。

一种激光点云语义分割方法，包括：

获取原始激光点云数据；

对所述原始激光点云数据进行二维投射得到二维图像；所述二维图像包括前视图和俯视图；

基于卷积网络对所述二维图像进行卷积特征提取，得到前视图特征和俯视图特征，其中，所述前视图特征包括单像素的N通道特征，所述俯视图特征包括单像素的M通道特征，N和M均为超参数；

将所述前视图特征、所述俯视图特征和所述原始激光点云数据中点云的三维特征进行融合，得到目标激光点云特征；

将所述目标激光点云特征输入至PointNet网络中进行语义分割。

可选的，所述对所述原始激光点云数据进行二维投射，得到二维图像具体包括：

将所述原始激光点云数据向点云视角的前视方向进行二维投射，得到所述前视图；

以及，将所述原始激光点云数据向点云视角的俯视方向进行投射，得到所述俯视图。

可选的，所述将所述原始激光点云数据向点云视角的前视方向进行二维投射，得到所述前视图具体包括：

根据如下公式得到所述前视图图像：

式中，以雷达为坐标原点，θ表示顶角，表示方位角，x、y和z表示所述原始激光点云数据的空间三维坐标，Δθ表示离散化的顶角分辨率，/>表示离散化的方位角分辨率，/>表示原始激光点云数据投射到前视图图像中垂直方向的值，/>表示原始激光点云数据投射到前视图图像中水平方向的值；

根据如下公式分别计算所述前视图图像的宽度W₁和高度H₁：

式中，α表示激光雷达的横向视场角度，β表示激光雷达的纵向视场角度。

可选的，所述将所述原始激光点云数据向点云视角的俯视方向进行投射，得到所述俯视图具体包括：

将所述原始激光点云数据向点云视角的俯视方向进行俯视投影得到俯视图图像；

利用多层感知机MLP对所述俯视图图像中的像素所对应的激光点云进行特征提取，得到作为图像像素的初始体柱pillar；

分别计算出水平方向的激光点云数据坐标的最大值与最小值的差值Lx，以及竖直方向的激光点云数据坐标的最大值与最小值的差值Ly；

根据如下公式分别计算所述俯视图图像的宽度W₂和高度H₂：

式中，w表示图像像素在俯视图图像中的宽度，h表示图像像素在俯视图图像中的高度。

可选的，所述将前视图特征、俯视图特征和所述原始激光点云数据中点云的三维特征进行融合，得到目标激光点云特征，具体包括：

将所述N通道特征和所述M通道特征，融合到所述原始激光点云数据中点云的三维特征[x,y,z]上，得到维度特征为[x,y,z,N,M]的目标激光点云特征。

一种激光点云语义分割装置，包括：

获取单元，用于获取原始激光点云数据；

二维投射单元，用于对所述原始激光点云数据进行二维投射得到二维图像；所述二维图像包括前视图和俯视图；

特征提取单元，用于基于卷积网络对所述二维图像进行卷积特征提取，得到前视图特征和俯视图特征，其中，所述前视图特征包括单像素的N通道特征，所述俯视图特征包括单像素的M通道特征，N和M均为超参数；

融合单元，用于将所述前视图特征、所述俯视图特征和所述原始激光点云数据中点云的三维特征进行融合，得到目标激光点云特征；

语义分割单元，用于将所述目标激光点云特征输入至PointNet网络中进行语义分割。

可选的，所述二维投射单元包括：

前视投射单元，用于将所述原始激光点云数据向点云视角的前视方向进行二维投射，得到所述前视图；

俯视投射单元，用于将所述原始激光点云数据向点云视角的俯视方向进行二维投射，得到所述俯视图。

可选的，所述前视投射单元具体用于：

根据如下公式得到前视图图像：

可选的，所述俯视投射单元具体用于：

分别计算出水平方向的原始激光点云数据坐标的最大值与最小值的差值Lx，以及竖直方向的原始激光点云数据坐标的最大值与最小值的差值Ly；

可选的，所述融合单元具体用于：

将所述N通道特征和所述M通道特征，融合到所述原始激光点云数据中每个点云的三维特征[x,y,z]上，得到维度特征为[x,y,z,N,M]的目标激光点云特征。

从上述的技术方案可知，本发明公开了一种激光点云语义分割方法及装置，对获取的原始激光点云数据进行二维投射得到二维图像，该二维图像包括：前视图和俯视图，基于卷积网络对二维图像进行卷积特征提取，得到前视图特征和俯视图特征，前视图特征包括单像素的N通道特征，俯视图特征包括单像素的M通道特征，将前视图特征、俯视图特征和原始激光点云数据中点云的三维特征进行融合，得到目标激光点云特征，通过将目标激光点云特征输入至PointNet网络中进行语义分割，完成激光点云语义分割。由于前视图进行卷积特征提取后具有的N通道特征，以及俯视图进行卷积特征提取后具有的M通道特征，都表示了周围局部信息的一种抽象特征，利用该抽象特征可以扩大每个像素点的“视野范围”，因此，通过将前视图特征、俯视图特征和原始激光点云数据中每个激光点云的三维特征进行融合，可以实现单个激光点云的特征信息还包含该激光点周围的空间信息，从而扩大了单个激光点云的特征信息，提高了网络的深度学习能力，进而将特征融合丰富信息的目标激光点云特征输入至PointNet网络中进行语义分割，能够提高语义分割的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据公开的附图获得其他的附图。

图1为本发明实施例公开的一种激光点云语义分割方法流程图；

图2为本发明实施例公开的一种多层卷积网络结构示意图；

图3为本发明实施例公开的一种将前视图特征、俯视图特征和原始激光点云数据中点云的三维特征进行融合得到目标激光点云特征的示意图；

图4为本发明实施例公开的一种多视图点云特征融合语义分割网络示意图；

图5为本发明实施例公开的一种激光点云语义分割装置的结构示意图。

具体实施方式

目前，在使用深度学习进行激光点云语义分割时，一些技术人员提出了一种基于位置注意力和辅助网络的激光点云语义分割方法，该方法具体为：获取训练集T和测试集V；构建3D点云语义分割网络，并设定该网络的损失函数，该网络包括依次级联的特征下采样网络，位置注意力模块，特征上采样网络和辅助网络；使用训练集T对该分割网络进行P轮有监督的训练：在每轮的训练过程中根据损失函数，调整网络参数，在P轮训练完成后，将分割精度最高的网络模型作为训练好的网络模型；将测试集V输入到训练好的网络模型中进行语义分割，得到每一个点的分割结果，以此来提高激光点云的语义分割精度。

但是，本发明的发明人经过研究后发现，上述激光点云语义分割方法中，对于高度稀疏的激光点云分割采用位置注意力与辅助网络来提升效果，在保持原始点云数据特征的情况下，通过构建位置注意力与辅助网络模块，对语义分割实现更好的效果，并没有增加单个点云特征信息表现，因此网络学习不够充分。其次，增加的辅助网络从卷积后的特征中学习点云的空间属性，很大程度上依赖点云数据，稀疏不均的点云将会影响网络的学习能力。

为提高激光点云语义分割精度，本发明实施例公开了一种激光点云语义分割方法及装置，对获取的原始激光点云数据进行二维投射得到二维图像，该二维图像包括：前视图和俯视图，基于卷积网络对二维图像进行卷积特征提取，得到前视图特征和俯视图特征，前视图特征包括单像素的N通道特征，俯视图特征包括单像素的M通道特征，将前视图特征、俯视图特征和原始激光点云数据中每个激光点云的三维特征进行融合，得到目标激光点云特征，通过将目标激光点云特征输入至PointNet网络中进行语义分割，完成激光点云语义分割。由于前视图进行卷积特征提取后具有的N通道特征，以及俯视图进行卷积特征提取后具有的M通道特征，都表示了周围局部信息的一种抽象特征，利用该抽象特征可以扩大每个像素点的“视野范围”，因此，通过将前视图特征、俯视图特征和原始激光点云数据中每个激光点云的三维特征进行融合，可以实现单个激光点云的特征信息还包含该激光点周围的空间信息，从而扩大了单个激光点云的特征信息，提高了网络的深度学习能力，进而将特征融合丰富信息的目标激光点云特征输入至PointNet网络中进行语义分割，能够提高语义分割的准确性。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，本发明一实施例公开的一种激光点云语义分割方法流程图，该方法包括步骤：

步骤S101、获取原始激光点云数据；

其中，原始激光点云数据为一张[N，4]，也即N行4列的点云数据图。

N表示激光雷达扫描物体之后反射回来的激光点数。

原始激光点云数据的特征用(x,y,z,i)表示，x,y,z表示雷达坐标系下的坐标值，其中，X轴正方向为雷达的发射方向，即汽车前进的方向，Y轴正方向为面向汽车前进方向垂直向右；Z轴正方向垂直向上；i则表示原始激光点云的反射强度，该激光点云数据中的点的特征不包含与此点相邻的周围空间的信息，且点云分布的稀疏度高，网络学习效果差。

步骤S102、对原始激光点云数据进行二维投射得到二维图像；

其中，二维图像包括：前视图和俯视图。

具体的，将原始激光点云数据向点云视角的前视方向进行投射，得到前视图，以及将原始激光点云数据向点云视角的俯视方向进行投射，得到俯视图。

本实施例中点云视角的前视方向指的是：激光雷达的发射方向，或者是雷达坐标系的X正方向。前视投射的信息是分割网络的重点。

点云视角的俯视方向指的是：基于激光点云的雷达坐标系的z方向朝z减小的方向投射。

由于对原始激光点云数据向前视方向和俯视方向进行投射时，对点云中各类物体的影响较小，原始激光点云数据向前视方向和俯视方向以外的其他方向进行投射时，引入的类别误差较大，因此，本实施例对原始激光点云数据从前视方向和俯视方向这两个点云视角进行投射。

需要说明的是，本实施例中的投射形成的前视图图像是将3D空间离散化为立体像素，每个体素方格内可能不包含任何点云点，这将导致过多的空体素出现，从而导致数据的处理效率低。

为了获得像素紧凑的前视图图像，本发明将原始激光点云数据投射到球体上，也即前视图图像是投射到空间球面上，这是符合激光雷达扫描线形状的，并以雷达为中心点，基于球面网格的表示如下：

式中，以雷达为坐标原点，θ表示顶角，表示方位角，x、y和z表示原始激光点云数据的空间三维坐标，Δθ表示离散化的顶角分辨率，/>表示离散化的方位角分辨率。表示前视图图像的球面网格上的点的位置，/>表示原始激光点云数据投射到前视图图像中垂直方向的值，/>表示原始激光点云数据投射到前视图图像中水平方向的值。

根据如下公式分别计算前视图图像的宽度W₁和高度H₁：

式中，α表示激光雷达的横向视场角度(即激光雷达在Y方向上的扫描范围)，β表示激光雷达的纵向视场角度(即激光雷达在Z方向上的扫描范围)。

需要说明的是，一般顶角分辨率Δθ和方位角分辨率可根据雷达的分辨参数人为定义，然后根据公式(3)和(4)求出W₁和H₁；或者，在某些应用场合下，W₁和H₁可人为定义，然后根据公式(3)和(4)进一步求出Δθ和/>

综上，前视投影得到的前视图包括了以表示点云位置的前视图图像以及前视图图像的宽度W₁和高度H₁。

本实施例中，将原始激光点云数据向点云视角的俯视方向进行投射，得到俯视图具体可以包括：

a)将原始激光点云数据向点云视角的俯视方向进行俯视投影得到俯视图图像；

b)利用MLP(Multilayer Perceptron，多层感知机)对俯视图图像中的像素所对应的激光点云进行特征提取，得到作为图像像素的初始pillar(体柱)；

c)分别计算出雷达坐标系的x方向的原始激光点云数据坐标的最大值与最小值的差值Lx，以及雷达坐标系的y方向的原始激光点云数据坐标的最大值与最小值的差值Ly，

利用Lx和Ly可得到俯视图图像的宽度W₂和高度H₂，计算公式如下：

在本实施例中，可以将图像像素的概念在俯视图投射中定义为：cell，每一个cell相当于图像的一个像素，将cell的尺寸定义为(w，h)，w表示cell的宽度，h表示cell的高度。

即，俯视图包括了俯视图图像、图像像素的初始pillar(体柱)以及俯视图图像的宽度W₂和高度H₂。

步骤S103、基于卷积网络对二维图像进行卷积特征提取，得到前视图特征和俯视图特征；

卷积网络对于二维图像具有很强的特征提取能力，在对原始激光点云数据投射成二维图像后，可使用图2所示的多层卷积网络结构对投射后得到的二维图像进行卷积特征提取。首先通过卷积网络对二维图像进行降采样卷积特征提取，再利用上采样方法上采样原始激光点云数据的尺寸大小，得到前视图特征和俯视图特征。

其中，前视图特征包括前视图中的单像素的N通道特征，俯视图特征包括俯视图中的单像素的M通道特征，此M通道特征和N通道特征实际上包含了单个像素周围空间的信息，N和M均为超参数，可进行适当调节。

前视图与俯视图的卷积特征提取的N通道特征、M通道特征都表示了周围局部信息的一种抽象特征，我们可以利用这种抽象特征，扩大每个像素点的“视野范围”。

步骤S104、将前视图特征、俯视图特征和原始激光点云数据中每个激光点云的三维特征进行融合，得到目标激光点云特征；

原始激光点云数据中每个点云的坐标维度为[x,y,z]，该坐标维度只能表征单个点的空间信息，不具有周围的局部信息。

上述各个步骤中，对原始激光点云数据进行前视图和俯视图的二维投射，通过卷积网络提取每个像素点的周围局部信息，将所述N通道特征和所述M通道特征，融合到原始激光点云数据中每个点云的三维特征[x,y,z]上，得到维度特征为[x,y,z,N,M]的目标激光点云特征。

举例说明，若N＝2，M＝3，则相当于在x,y,z的基础上上增加了N₁,N₂,和M₁,M₂,M₃作为新得到的激光点云的特征信息，上述N₁,N₂,和M₁,M₂,M₃的值实际上包含了此点云周围空间的信息。这样通过特征融合使得原始激光点云拥有周围局部点云的空间信息。其中，特征融合示意图可参见图3。

步骤S105、将目标激光点云特征输入至PointNet网络中进行语义分割。

在进行特征融合后，每个目标激光点云特征的数据维度变为[x,y,z,N,M]，由于PointNet网络能够对输入的点云数据做单一激光点的类别分类，因此，将目标激光点云特征输入至PointNet网络中即可进行语义分割。PointNet网络的具体工作原理请参见现有成熟方案，此处不再赘述。

为便于理解本实施例的工作原理，可参见图4公开的多视图点云特征融合语义分割网络示意图。

综上可知，本发明公开的激光点云语义分割方法，对获取的原始激光点云数据进行二维投射得到二维图像，该二维图像包括：前视图和俯视图，基于卷积网络对二维图像进行卷积特征提取，得到前视图特征和俯视图特征，前视图特征包括单像素的N通道特征，俯视图特征包括单像素的M通道特征，将前视图特征、俯视图特征和原始激光点云数据中每个激光点云的三维特征进行融合，得到目标激光点云特征，通过将目标激光点云特征输入至PointNet网络中进行语义分割，完成激光点云语义分割。由于前视图进行卷积特征提取后具有的N通道特征，以及俯视图进行卷积特征提取后具有的M通道特征，都表示了周围局部信息的一种抽象特征，利用该抽象特征可以扩大每个像素点的“视野范围”，因此，通过将前视图特征、俯视图特征和原始激光点云数据中每个激光点云的三维特征进行融合，可以实现单个激光点云的特征信息还包含该激光点周围的空间信息，从而扩大了单个激光点云的特征信息，提高了网络的深度学习能力，进而将特征融合丰富信息的目标激光点云特征输入至PointNet网络中进行语义分割，能够提高语义分割的准确性。

与上述方法实施例相对应，本发明还公开了一种激光点云语义分割装置。

参见图5，本发明一实施例公开的一种激光点云语义分割装置的结构示意图，该装置包括：

获取单元201，用于获取原始激光点云数据；

二维投射单元202，用于对原始激光点云数据进行二维投射得到二维图像；其中，二维图像包括：前视图和俯视图。

具体的，二维投射单元202可以包括：

前视投射单元，用于将原始激光点云数据向点云视角的前视方向进行投射，得到前视图；

以及，俯视投射单元，用于将原始激光点云数据向点云视角的俯视方向进行投射，得到俯视图。

本实施例中，前视投射单元具体可以用于：

根据公式(1)和(2)得到前视图图像；

根据公式(3)和(4)分别计算前视图图像的宽度W₁和高度H₁。

俯视投射单元具体可以用于：

将原始激光点云数据向点云视角的俯视方向进行俯视投影得到俯视图图像；

利用MLP(Multilayer Perceptron，多层感知机)对俯视图图像像素所对应的激光点云进行特征提取，得到作为图像像素的初始pillar(体柱)；

根据公式(5)和(6)分别计算俯视图的宽度W₂和高度H₂。

需要说明的是，上述计算过程请参见方法部分的叙述，此处不再赘述。

特征提取单元203，用于基于卷积网络对二维图像进行卷积特征提取，得到前视图特征和俯视图特征；

其中，前视图特征包括单像素的N通道特征，俯视图特征包括单像素的M通道特征，此M通道特征和N通道特征实际上包含了单个像素周围空间的信息，N和M均为超参数，可进行适当调节。

融合单元204，用于将前视图特征、俯视图特征和原始激光点云数据中每个激光点云的三维特征进行融合，得到目标激光点云特征；

融合单元204具体可以用于：

将所述N通道特征和所述M通道特征，融合到原始激光点云数据中每个点云的三维特征[x,y,z]上，得到维度特征为[x,y,z,N,M]的目标激光点云特征。

语义分割单元205，用于将所述目标激光点云特征输入至PointNet网络中进行语义分割。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种激光点云语义分割方法，其特征在于，包括：

获取原始激光点云数据；

2.根据权利要求1所述的激光点云语义分割方法，其特征在于，所述对所述原始激光点云数据进行二维投射，得到二维图像具体包括：

将所述原始激光点云数据向点云视角的前视方向进行投射，得到所述前视图；

3.根据权利要求2所述的激光点云语义分割方法，其特征在于，所述将所述原始激光点云数据向点云视角的前视方向进行投射，得到所述前视图具体包括：

根据如下公式得到前视图图像：

式中，以雷达为坐标原点，θ表示顶角，表示方位角，x、y和z表示所述原始激光点云数据的空间三维坐标，Δθ表示离散化的顶角分辨率，/>表示离散化的方位角分辨率，/>表示所述原始激光点云数据投射到所述前视图图像中垂直方向的值，/>表示所述原始激光点云数据投射到所述前视图图像中水平方向的值；

4.根据权利要求2所述的激光点云语义分割方法，其特征在于，所述将所述原始激光点云数据向点云视角的俯视方向进行投射，得到所述俯视图具体包括：

分别计算出水平方向的所述原始激光点云数据坐标的最大值与最小值的差值Lx，以及竖直方向的所述原始激光点云数据坐标的最大值与最小值的差值Ly；

式中，w表示图像像素在所述俯视图图像中的宽度，h表示图像像素在所述俯视图图像中的高度。

5.根据权利要求1所述的激光点云语义分割方法，其特征在于，所述将前视图特征、俯视图特征和所述原始激光点云数据中点云的三维特征进行融合，得到目标激光点云特征，具体包括：

6.一种激光点云语义分割装置，其特征在于，包括：

获取单元，用于获取原始激光点云数据；

7.根据权利要求6所述的激光点云语义分割装置，其特征在于，所述二维投射单元包括：

前视投射单元，用于将所述原始激光点云数据向点云视角的前视方向进行投射，得到所述前视图；

俯视投射单元，用于将所述原始激光点云数据向点云视角的俯视方向进行投射，得到所述俯视图。

8.根据权利要求7所述的激光点云语义分割装置，其特征在于，所述前视投射单元具体用于：

根据如下公式得到前视图图像：

9.根据权利要求7所述的激光点云语义分割装置，其特征在于，所述俯视投射单元具体用于：

10.根据权利要求6所述的激光点云语义分割装置，其特征在于，所述融合单元具体用于：