CN111310765A

CN111310765A - 激光点云语义分割方法和装置

Info

Publication number: CN111310765A
Application number: CN202010092826.0A
Authority: CN
Inventors: 李世明
Original assignee: Beijing Jingwei Hirain Tech Co Ltd
Current assignee: Beijing Jingwei Hirain Tech Co Ltd
Priority date: 2020-02-14
Filing date: 2020-02-14
Publication date: 2020-06-19

Abstract

本发明实施例提供激光点云语义分割方法和装置，以实现对路沿、护栏等的语义分割。在本发明实施例中，在获取三维空间点云后，会将三维空间点云划分为至少一个单元，使用深度学习卷积神经网络预测任一单元在预设的语义类别中，所属的n个语义类别(目标语义类别)及各语义类别所对应的高度区间(目标高度区间)。再将该单元位于目标高度区间的所有点的语义类别预测为目标语义类别。上述预设的语义类别至少包括：地面、护栏、路沿。这样，可实现将三维空间点云中的点的语义类别预测为地面、护栏、路沿等，进而可实现从三维空间点云中分割出路沿、护栏等对应的点。

Description

激光点云语义分割方法和装置

技术领域

本发明涉及汽车电子技术领域，特别涉及激光点云语义分割方法和装置。

背景技术

自动驾驶车辆是汽车未来的重要发展方向。在自动驾驶汽车行驶过程中，识别障碍物是智能车辆的基本要求，除了周围车辆、行人外，诸如路沿、护栏等静态障碍物在驾驶过程也要予以识别。

自动驾驶车辆一般安装有激光雷达，使用激光雷达可扫描到三维空间点云，如能从三维空间点云中分割出路沿、护栏对应的点，则可进一步识别出路沿、护栏。因此，如何从三维空间点云中分割出路沿、护栏等对应的点是目前研究的热门。

发明内容

有鉴于此，本发明实施例提供激光点云语义分割方法和装置，以实现对路沿、护栏等的语义分割。

为实现上述目的，本发明实施例提供如下技术方案：

一种激光点云语义分割装置，包括：

转换模块，用于：

获取三维空间点云；其中，所述三维空间点云包括多个点，每一点的信息包括在预设三维坐标系下的位置信息和反射强度信息，所述空间位置信息包括高度信息；

将所述三维空间点云划分为至少一个单元；

提取每一单元的特征向量；

语义分割模块，用于：

以各单元的特征向量为输入，使用深度学习卷积神经网络进行语义分割，得到各单元的预测结果；所述预测结果包括：预测出的n个语义类别，以及，所述n个语义类别中每一语义类别所对应的高度区间；任一单元所对应的n个语义类别中的任意一个为目标语义类别，所述目标语义类别对应的高度区间为目标高度区间；其中，所述n个语义类别包括：在由所述深度学习卷积神经网络预测出针对各预设的语义类别的概率后，概率最大的n个语义类别；预设的语义类别至少包括：地面、护栏和路沿；n不小于2，不大于M；M为预设的语义类别的总个数；

预测输出模块，用于：

在所述任一单元中，将位于所述目标高度区间的点的语义类别预测为所述目标语义类别；

其中，所述n个语义类别包括：在由所述深度学习卷积神经网络预测出针对各预设的语义类别的概率后，概率最大的n个语义类别；预设的语义类别至少包括：地面、护栏和路沿；n不小于2，不大于M；M为预设的语义类别的总个数。

可选的，在所述将所述三维空间点云划分为至少一个单元的方面，所述转换模块具体用于：

将所述三维空间点云在预设平面上的投影划分为N个栅格；N为正整数；

按照所述N个栅格将所述三维空间点云分割为N个体柱单元；其中，每一体柱单元均包括所述三维空间点云中的点，并且，不同体柱单元所包含的点不重叠；一体柱单元的底面为一个栅格；

所述单元具体为体柱单元。

可选的，在所述提取每一单元的特征向量的方面，所述转换模块具体用于：将所述体柱单元按高度分为m层；对每一层提取一个特征数据；所述特征向量包括m个特征数据。

可选的，所述深度学习卷积神经网络包括第一分支和第二分支；所述第一分支用于：预测任一体柱单元针对各预设的语义类别的概率；选择概率最大的n个语义类别作为所述预测出的n个语义类别；所述第二分支用于：预测所述n个语义类别中每一语义类别所对应的高度区间。

可选的，还包括目标编码单元和损失计算单元；其中：所述目标编码模块用于：在训练过程中，获取多个体柱单元样本；所述体柱单元样本中的每一点均标注有语义类别；获取所述体柱单元样本对应的训练目标；所述训练目标包括：目标待识别语义类别，以及，每种目标待识别语义类别所对应的高度区间边界；所述目标待识别语义类别包括：所述体柱单元样本中点数占比最大的n个语义类别；所述高度区间边界包括：属于所述目标待识别语义类别的点中最低点和最高点的高度信息；将所述多个体柱单元样本和对应的训练目标输入深度学习卷积神经网络进行训练；训练完成后的深度学习卷积神经网络用于在预测阶段进行所述语义分割；所述损失计算模块用于：在训练过程中计算所述体柱单元样本的损失值；所述损失值用于调整深度学习卷积神经网络的权重。

一种激光点云语义分割方法，包括：

获取三维空间点云；其中，所述三维空间点云包括多个点，每一点的信息包括在预设三维坐标系下的位置信息，所述空间位置信息包括高度信息；

将所述三维空间点云划分为至少一个单元；

提取每一单元的特征向量；

可选的，所述将所述三维空间点云划分为至少一个单元包括：将所述三维空间点云在预设平面上的投影划分为N个栅格；N为正整数；按照所述N个栅格将所述三维空间点云分割为N个体柱单元；其中，每一体柱单元均包括所述三维空间点云中的点，并且，不同体柱单元所包含的点不重叠；一体柱单元的底面为一个栅格；所述单元具体为体柱单元。

可选的，所述提取每一单元的特征向量包括：将所述体柱单元按高度分为m层；对每一层提取一个特征数据；所述特征向量包括m个特征数据。

可选的，还包括：在训练过程中，获取多个体柱单元样本；所述体柱单元样本中的每一点均标注有语义类别；获取所述体柱单元样本对应的训练目标；所述训练目标包括：目标待识别语义类别，以及，每种目标待识别语义类别所对应的高度区间边界；所述目标待识别语义类别包括：所述体柱单元样本中点数占比最大的n个语义类别；所述高度区间边界包括：属于所述目标待识别语义类别的点中最低点和最高点的高度信息；将所述多个体柱单元样本和对应的训练数据输入深度学习卷积神经网络进行训练；训练完成后的深度学习卷积神经网络用于进行所述语义分割；计算所述体柱单元样本的损失值；所述损失值用于调整深度学习卷积神经网络的权重。

可见，在本发明实施例中，在获取三维空间点云后，会将三维空间点云划分为至少一个单元，使用深度学习卷积神经网络预测任一单元在预设的语义类别中，所属的n个语义类别(目标语义类别)及各语义类别所对应的高度区间(目标高度区间)。再将该单元位于目标高度区间的所有点的语义类别预测为目标语义类别。上述预设的语义类别至少包括：地面、护栏、路沿。这样，可实现将三维空间点云中的点的语义类别预测为地面、护栏、路沿等，进而可实现从三维空间点云中分割出路沿、护栏等对应的点。

附图说明

图1为本发明实施例提供的激光点云语义分割装置的一种示例性结构；

图2为本发明实施例提供的语义分割方法的一种示例性流程；

图3为本发明实施例提供的三维空间点云划分方式的示例性流程；

图4a为本发明实施例提供的将投影划分为栅格的示意图；

图4b为本发明实施例提供的体柱单元示意图；

图4c为本发明实施例提供的提取特征向量示意图；

图4d为本发明实施例提供的路沿、车道地面、人行道或其他道路示意图；

图5为本发明实施例提供的激光点云语义分割装置另一示例性结构；

图6为本发明实施例提供的训练过程的示例性流程；

图7为本发明实施例提供的体柱单元样本示意图。

具体实施方式

本发明提供激光点云语义分割装置和方法，以实现对路沿、护栏等的语义分割。

激光点云语义分割装置可以硬件或软件的方式部署于激光雷达上，作为激光雷达的组成部分，也可作为独立于激光雷达的装置。

图1示出了激光点云语义分割装置的一种示例性结构，包括：

转换模块1、语义分割模块2和预测输出模块3。

图2示出了上述激光点云语义分割装置所执行的语义分割方法的一种示例性流程，包括：

S1：转换模块获取三维空间点云；

当一束激光照射到物体(障碍物)表面再反射回来后，所反射的激光会携带障碍物的方位、距离等信息。

激光雷达一般包括多个探测器，也即能发出多束激光。若将上述多个探测器按照某种轨迹进行扫描，便会边扫描边记录到反射的大量激光点，因而就可形成激光点云。

每个点信息包含在预设三维坐标系(一般是以激光雷达为原点建立的三维坐标系或车辆坐标系)下的位置信息(x y z)及反射强度信息i。

在一个示例中，可将激光雷达得到的激光点云作为后续要处理的三维空间点云。

在另一个示例中，由于本实施例目的在于对地面、路沿、护栏进行语义分割，而地面、路沿、护栏的高度是有一定高度范围限制的。因此，可对激光雷达得到的激光点云进行筛选。例如，可将位于预设三维空间内的所有点作为后续要处理的三维空间点云。

示例性的，在预设三维坐标系下，预设三维空间的x取值范围为[0,50m],y取值范围为[-25m,25m]，z取值范围为[-1m,2.5m]。

S2：转换模块将三维空间点云划分为至少一个单元。

划分的方式有多种，例如利用俯视图的栅格化方式进行划分。具体的，请参见图3，可按照下述步骤划分：

S21：将三维空间点云在预设平面(例如水平面)上的投影划分为N个栅格。

其中，N为正整数。

假定某三维空间点云在水平面上的投影如图4a所示，可将其投影划分为多个栅格。

在一个示例中，N可为一个预设数值，例如等于32。

在另一个示例中，可规定一个栅格所占用的面积为n(或设定其边长)，那么N则由投影的最小外接矩形的面积S和n决定，N＝(S/n)-m，m为空白的栅格的数量。

仍以图4a为例，在图4a中，带阴影的栅格为空白栅格，在空白栅格中没有点云的投影。

在又一个示例中，可同时设定N的最小值N_min和n的推荐取值，若(S/n)-m大于N_min，就令N＝(S/n)-m，若(S/n)-m小于N_min，就令N＝N_min。

此外，面积n也是可以有多种选择的，例如，可设计当S的大小位于区间1时，n为第一取值，当S的大小位于区间2时，n为第二取值，等等。

S22：按照上述N个栅格将三维空间点云分割为N个体柱单元。

请参见图4b，每一体柱单元的底面为一个栅格，各体柱单元均包括三维空间点云中的点，并且，不同体柱单元所包含的点不重叠。

S3：转换模块提取每一单元的特征向量。

以图4b所示体柱单元为例，请参见图4c，可将体柱单元按高度分为m层(也即m个通道)，对每一层提取一个特征数据(特征值)。前述提及的特征向量包括m个特征数据。

m的取值可为大于3的任意一个数，例如16、32、64等，m是可变参数，在训练时，需要调节后确定。

在一个示例中，可由一个神经网络全连接层(感知层)提取体柱单元的特征向量，或者说，将该体柱单元编码成m长度的特征向量。具体的，可求取每个点相对于所属体柱单元左下角的相对位置坐标(xyz)，将每个点的相对位置坐标值和反射强度信息送入神经网络全连接层，获得每个点表示的特征向量，然后对所有特征向量进行求和，得到一个向量表示，从而获得最终的特征向量。

此外，也可求每个立柱单元的反射强度的平均值，与每个点的相对位置坐标值一起输入神经网络全连接层，由其提取特征向量。

S4：语义分割模块以各单元的特征向量为输入，使用深度学习卷积神经网络进行语义分割，得到各单元的预测结果。

语义分割模块主要包括深度学习卷积神经网络。

可利用现有的UNet卷积神经网络模型结构作为主干，将转换模块的输出作为输入，经过逐层卷积编码：对每个体柱单元周边的信息进行特征提取，提取的特征用于预测每个体柱单元的预测结果。

具体的，预测结果包括：预测出的n个语义类别(可称为目标语义类别)，以及，该n个语义类别中每一语义类别所对应的高度区间(可称为目标高度区间)。

其中，n不小于2，不大于M；M为预设的语义类别的总个数。

在一个示例中，预设的语义类别可包括：地面、护栏、路沿和其他地面。

需要说明的是，这里的地面，一般指车道地面，而其他地面，指高出车道地面的人行道或其他道路。请参见图4d，车道地面和高出车道地面的人行道或其他道路之间，存在路沿。

另外，可将语义类别为地面、护栏、路沿、其他地面之外的点的类别，统称为背景。

以M＝5为例，深度学习卷积神经网络可针对5个预设的语义类别预测相应的概率，然后从中选出概率最大的n个语义类别作为预测结果之一。

以某体柱单元为例，假定体柱单元长宽高为：10cm*10cm*3m，该体柱单元针对5个语义类别的概率分别为：0.1，0.1，0.3，0.4，0.1，若n＝2，则0.3和0.4最大，假定，0.3所对应的语义类别为地面，0.4所对应的语义类别为路沿，则目标语义类别分别为地面和路沿。

在一个示例中，可使用one-hot编码来表示预测出的目标语义类别。假定M＝5，则10000表示第一类语义类别，01000表示第二类语义类别，00100表示第三类语义类别，以此类推。

沿用前例，0.3和0.4分别为第三类和第四类，则可输出00100和00010。

目标高度区间是使用最低高度z_min和最高高度z_max表示的。例如，地面所对应的高度区间为z_min＝0m，z_max＝0.05m，护栏类别的高度区间为z_min＝0.8,z_max＝2。因此，若n＝2，则预测结果中包括两个目标语义类别对应的4个高度值。

由于预测了类别和高度区间这两种不同的信息，在一个示例中，深度学习卷积神经网络具体可包括第一分支和第二分支，其中，第一分支用于预测任一体柱单元针对各预设的语义类别的概率，并选择概率最大的n个语义类别作为预测出的n个语义类别。而第二分支用于预测上述n个语义类别中每一语义类别所对应的高度区间。

上述两分支的输入均相同，输出不同。

S5：预测输出模块在上述任一单元中，将位于目标高度区间的点的语义类别预测为目标语义类别。

沿用前例，假定对于体柱单元A，目标语义类别分别为地面和路沿，地面所对应的高度区间为z_min＝0m，z_max＝0.05m，路沿类别的高度区间为z_min＝0.8,z_max＝2，则根据体柱单元A中各点的高度信息，将高度位于0m至0.05m的点的语义类别预测为地面，将高度位于0.8m至2m的点的语义类别预测为路沿。

对于体柱单元A内的其他点，可预测为背景。

依次对所有体柱单元进行同样的操作。

可见，在本发明实施例中，在获取三维空间点云后，会将三维空间点云划分为至少一个单元，使用深度学习卷积神经网络预测任一单元在预设的语义类别中，所属的n个语义类别(目标语义类别)及各语义类别所对应的高度区间(目标高度区间)。再对该单元位于目标高度区间的所有点的语义类别标注为目标语义类别。上述预设的语义类别包括：地面、护栏、路沿。这样，可实现将三维空间点云中的点的语义类别预测为地面、护栏、路沿等，进而可实现从三维空间点云中分割出路沿、护栏等对应的点。

分割出的点云，经过一些后处理方法，可以应用于驾驶员可行驶区域的检测，地图定位以及车辆水平定位等场景。

例如，在执行完步骤S5后，可使用含语义标注的激光雷达点云进行实时点云地图的构建，获得点云语义地图。

此外，也可将属于同一预设的语义类别的点进行分割聚类处理，得到聚类结果；每一聚类结果对应一个障碍物。

上述深度学习卷积神经网络需要预先经过训练，这样在预测阶段才可得到较为准确的预测结果。

下面介绍如何对深度学习卷积神经网络进行训练。为进行训练，请参见图5，前述的激光点云语义分割装置还包括：目标编码模块4和损失计算模块5。

请参见图6，训练过程示例性的包括：

S61：目标编码模块获取多个体柱单元样本。

每一体柱单元样本中的每一点均标注有语义类别。

其中，体柱单元样本与前述的体柱单元相类似，不同的是，体柱单元样本中的点是预先标注了语义类别的。

体柱单元样本可由转换模块基于三维空间点云样本生成，人工标注每一点的语义类别。

S62：目标编码模块生成(获取)体柱单元样本对应的训练目标。

训练目标可包括：目标待识别语义类别，以及，每种目标待识别语义类别所对应的高度区间边界。

其中，目标待识别语义类别可包括：体柱单元样本中点数占比最大的n个语义类别。

高度区间边界包括：属于目标待识别语义类别的点中最低点和最高点的高度信息。

举例来讲，n＝2，若某体柱单元包含10个点，其中5个点标注为地面，3个点标注为路沿，地面和路沿这两种类别的点占该体柱单元内总点云点的比例最多，则这两类别将作为该体柱单元的目标待识别语义类别。

将每一目标待识别语义类别中最低点和最高点的高度信息作为该栅格中属于该两种类别点所在的高度区间边界[z_min,z_max]。

如图7所示，两种类别的高度信息分别用[z_min1,z_max1,z_min2,z_max2]表示，类别信息分别用c1和c2表示，可使用One-hot对类别进行编码。

需要说明的是，目标编码模块不是预测了体柱单元所对应的类别，而是经过代码统计的方式将人工标注的数据，转化为训练目标。

S63：目标编码模块将多个体柱单元样本和对应的训练目标输入(语义分割模块的)深度学习卷积神经网络进行训练，输出目标值。

深度学习卷积神经网络会使用体柱单元样本进行训练，输出目标值。目标值包括：语义类别信息和高度信息，其中，语义类别信息包括针对每一预设的语义类别的概率(可称为预测数据)，高度信息包括：概率最大的n个语义类别中的每一语义类别所对应的高度区间。每一高度区间用两个高度值表示，分别是最低高度和最高高度。

训练完成后的深度学习卷积神经网络可用于在预测阶段进行语义分割。

S64：损失计算模块使用目标值和训练目标计算体柱单元样本的损失值。

计算出的损失值用于调整深度学习卷积神经网络的权重。

由于目标值包括语义类别信息和高度信息两大类，可分别计算语义类别的交叉熵损失和计算高度区间的最小平方损失，然后将交叉熵损失和最小平方损失求和得到损失值。

在一个示例中，交叉熵损失可使用交叉熵损失函数，交叉熵损失函数公式如下表示：

其中，x表示要识别的数据，也就是点云数据；整个点云数据与整个深度学习卷积神经网络之间的关系是一种函数映射，用q表示。

p(x)表示训练目标中的类别信息，即目标编码模块对每个体柱单元编码的类别信息(c1,c2)。

q(x)表示深度学习卷积神经网络输出每个体柱单元的10个预测数值，前五个数值与c1作损失，后五个与c2作损失。

举例来讲，c1＝00100，c2＝00010，q(x)＝0.1,0.1,0.3,0.3,0.2,0.1,0.4,0.3,0.1,0.1，将前五个数值与c1作损失，则得到-log0.3，将后五个与c2作损失，得到-log0.1，二者相加，得到-log0.3-log0.1。

在另一个示例中，因为高度信息的值是连续值，所以采用最小平方损失方法进行回归损失的计算，公式如下：

其中：i至n表示所有包含高度信息的体柱单元，在预测高度信息时，需要进行损失累加计算。所以i＝0,n表示总个数。

y_i表示训练目标中的高度区间边界，即目标编码模块对每个体柱单元编码的高度信息，以n＝2为例，高度信息包括4个高度值：[z_min1,z_max1,z_min2,z_max2]。

y_ie表示深度学习卷积神经网络输出的高度信息，也包含4个预测的高度值。

损失值Loss＝H+Q。

S65：深度学习卷积神经网络根据至少一个体柱单元样本的损失值调整权重。

可利用神经网络固有的梯度反向传播机制，将损失经过链式法则传播到卷积神经网络中的每个参数上，然后使用更新后参数再次训练，从而实现卷积神经网络中权重的学习。

在实际上，为节约时间提高效率，一般是训练多个体柱单元样本(例如64个)后，统一调整一次权重。则可分别计算各样本的损失值后，根据各损失值调整权重。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及模型步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或模型的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、WD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种激光点云语义分割装置，其特征在于，包括：

转换模块，用于：

将所述三维空间点云划分为至少一个单元；

提取每一单元的特征向量；

语义分割模块，用于：

预测输出模块，用于：

2.如权利要求1所述的装置，其特征在于，在所述将所述三维空间点云划分为至少一个单元的方面，所述转换模块具体用于：

所述单元具体为体柱单元。

3.如权利要求2所述的装置，其特征在于，在所述提取每一单元的特征向量的方面，所述转换模块具体用于：

将所述体柱单元按高度分为m层；

对每一层提取一个特征数据；所述特征向量包括m个特征数据。

4.如权利要求2所述的装置，其特征在于，

所述深度学习卷积神经网络包括第一分支和第二分支；

所述第一分支用于：

预测任一体柱单元针对各预设的语义类别的概率；

选择概率最大的n个语义类别作为所述预测出的n个语义类别；

所述第二分支用于：预测所述n个语义类别中每一语义类别所对应的高度区间。

5.权利要求2所述的装置，其特征在于，还包括目标编码单元和损失计算单元；其中：

所述目标编码模块用于：

在训练过程中，获取多个体柱单元样本；所述体柱单元样本中的每一点均标注有语义类别；

获取所述体柱单元样本对应的训练目标；所述训练目标包括：目标待识别语义类别，以及，每种目标待识别语义类别所对应的高度区间边界；所述目标待识别语义类别包括：所述体柱单元样本中点数占比最大的n个语义类别；所述高度区间边界包括：属于所述目标待识别语义类别的点中最低点和最高点的高度信息；

将所述多个体柱单元样本和对应的训练目标输入深度学习卷积神经网络进行训练；训练完成后的深度学习卷积神经网络用于在预测阶段进行所述语义分割；

所述损失计算模块用于：

在训练过程中计算所述体柱单元样本的损失值；所述损失值用于调整深度学习卷积神经网络的权重。

6.一种激光点云语义分割方法，其特征在于，包括：

将所述三维空间点云划分为至少一个单元；

提取每一单元的特征向量；

7.如权利要求6所述的方法，其特征在于，所述将所述三维空间点云划分为至少一个单元包括：

所述单元具体为体柱单元。

8.如权利要求7所述的方法，其特征在于，所述提取每一单元的特征向量包括：

将所述体柱单元按高度分为m层；

9.如权利要求7所述的方法，其特征在于，所述深度学习卷积神经网络包括第一分支和第二分支；

所述第一分支用于：预测任一体柱单元针对各预设的语义类别的概率；

10.如权利要求8所述的方法，其特征在于，还包括：

将所述多个体柱单元样本和对应的训练数据输入深度学习卷积神经网络进行训练；训练完成后的深度学习卷积神经网络用于进行所述语义分割；

计算所述体柱单元样本的损失值；所述损失值用于调整深度学习卷积神经网络的权重。