CN115131758A

CN115131758A - 一种基于轻量化点云补全的地面高度估计方法及系统

Info

Publication number: CN115131758A
Application number: CN202210766004.5A
Authority: CN
Inventors: 李怡康; 马涛; 费奔
Original assignee: Shanghai AI Innovation Center
Current assignee: Shanghai AI Innovation Center
Priority date: 2022-07-01
Filing date: 2022-07-01
Publication date: 2022-09-30
Anticipated expiration: 2042-07-01
Also published as: CN115131758B

Abstract

本发明涉及一种基于轻量化点云补全的地面高度估计方法，包括：将初始点云体素化得到初始点云体素；将初始点云体素作为输入构建二维主干网络模块，其中初始点云体素作为输入，采用编码器来提取特征，然后通过解码器进行特征解耦，输出三维特征图；通过三维分割头将二维主干网络模块输出的三维特征图扩展维度，增加一维语义分类概率分布，并经过三维卷积得到补全点云体素，其中补全点云体素为多层体素；去除补全点云体素中的噪声以及保留顶层的补全点云体素；以及从顶层的补全点云体素中提取高度信息作为地面高度。

Description

一种基于轻量化点云补全的地面高度估计方法及系统

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于轻量化点云补全的地面高度估计方法及系统。

背景技术

地面高度信息在自动驾驶领域有着至关重要的作用。目前绝大多数研究将地面视为不具有高度信息的平面，这样的假设会降低包括检测、追踪等任务的精度。

早期的地面高度估计方法是在DARPA地下城市挑战中使用的基于投影将3D点映射到2.5D网格，然后应用最小-最大高度图，但这种方法在桥梁和树梢的情况下存在较大的误差。另一类方法是基于2D线提取的快速算法，但其无法扩展到大规模场景。其他方法利用地形的梯度信息，使用马尔可夫随机场(MRF)或条件随机场(CRF)建立地平面模型。最近提出了一种两阶段方法来估计接地点，然后使用随机抽样一致性算法(RANSAC)拟合一个平面。将高斯过程回归(GPR)和鲁棒局部加权回归(RLWR)相结合，形成对地平面的混合回归模型。但由于高斯过程回归的计算复杂性，这种方法不是实时的。

语义场景补全(Semantic Scene Completion,SSC)的目的是从不完整的点云输入中获得完整的三维体素表示。这个任务由端到端的SSCNet模型率先提出，利用单视图深度作为输入，可以同时预测场景补全和语义标注的结果。但SSCNet模型在大规模激光雷达场景下的研究较少，且存在严重的几何细节缺失和无法实时性。最近，S3CNet设计了一个基于稀疏卷积的神经网络，从单一的、统一的激光雷达(LiDAR)点云预测语义上完成的场景。此外，JS3C-Net提出了一种基于上下文形状先验的单帧扫描LiDAR点云语义分割框架。与前面的方法不同，Local-DIFs生成一个不基于体素化的连续场景表示。

大多数现有的地面高度估计方法都使用人为设计的特征，这些特征通常无法应用到大规模场景，实现起来较为复杂，而且计算成本很高。由于没有考虑地形的稀疏性、遮挡和粗糙度，导致结果不理想。因此，在点云场景补全中设计一个计算复杂度较低、具有实时使用潜力的网络来补全车辆可通行区域，对于无人驾驶来说具有至关重要的作用。

发明内容

本发明的任务是提供一种基于轻量化点云补全的地面高度估计方法及系统，能够通过点云补全场景中的道路，从补全结果中提取出地面高度信息，提出了一种能够用于自动驾驶实时地面点云补全和地面高度估计的深度神经网络架构，可以用于大规模场景。

在本发明的第一方面，针对现有技术中存在的问题，本发明提供一种基于轻量化点云补全的地面高度估计方法来解决，包括：

将初始点云体素化得到初始点云体素；

将初始点云体素作为输入构建二维主干网络模块，其中初始点云体素作为输入，采用编码器来提取特征，然后通过解码器进行特征解耦，输出三维特征图；

通过三维分割头将二维主干网络模块输出的三维特征图扩展维度，增加一维语义分类概率分布，并经过三维卷积得到补全点云体素，其中补全点云体素为多层体素；

去除补全点云体素中的噪声以及保留顶层的补全点云体素；以及

从顶层的补全点云体素中提取高度信息作为地面高度。

在本发明的一个实施例中，所述初始点云为单帧点云，初始点云中的每个点云具有三维坐标(X,Y,Z)和地面标签/非地面标签。

在本发明的一个实施例中，选取行驶车辆前方51.2m，左右两侧25.6m，高度6.4m的空间范围内的点云作为初始点云，进行体素化，得到初始点云体素，其中每个初始点云体素的尺寸为0.2*0.2*0.2m。

在本发明的一个实施例中，每个初始点云体素的标签为每个初始点云体素中一类数量最多的点的标签。

在本发明的一个实施例中，所述二维主干网络模块的编码器和解码器中的卷积层均为二维卷积，其中编码器沿着初始点云体素的X和Y维度使用二维卷积，高度维度Z作为特征维度。

在本发明的一个实施例中，所述二维主干网络模块的输出维度[bs,H,W,D]，其中W,H,D是体素的维度，W表示宽度，H表示高度，D表示深度，bs为超参数，表示每批数据量的大小。

在本发明的一个实施例中，三维分割头的最后的三维卷积的输出维度为[bs,C,W,H,D]，其中W,H,D是点云体素的维度，即地面或非地面，W表示宽度，H表示高度，D表示深度，bs为超参数，表示每批数据量的大小，C表示类别。

在本发明的一个实施例中，通过随机采样一致性算法去除补全点云体素中的非地面的点云体素噪声。

在本发明的一个实施例中，通过随机采样一致性算法将除了顶层补全点云体素之外的多层体素去除。

在本发明的第二方面，针对现有技术中存在的问题，本发明提供一种基于轻量化点云补全的地面高度估计系统来解决，包括：

存储器；以及

处理器，所述处理器用于执行基于轻量化点云补全的地面高度估计方法。

本发明至少具有下列有益效果：本发明公开的一种基于轻量化点云补全的地面高度估计方法及系统，将地面高度估计问题看作一种点云语义场景补全问题，从语义场景补全角度，在自动驾驶过程中，同步实现道路补全，地面高度估计；构建了一种深度神经网络架构，能够用于实时地面点云补全和地面高度估计，该网络直接在稀疏的三维点上运行，并以端到端方式进行训练；该方法的计算复杂度低，可以应用于自动驾驶场景中，能够解决传统地面高度估计方法无法应用于大规模场景的问题；地面高度估计的准确性高，具有实时应用的前景。

附图说明

为了进一步阐明本发明的各实施例的以上和其它优点和特征，将参考附图来呈现本发明的各实施例的更具体的描述。可以理解，这些附图只描绘本发明的典型实施例，因此将不被认为是对其范围的限制。

图1示出了根据本发明的一个实施例的基于轻量化点云补全的地面高度估计方法的流程；

图2示出了根据本发明的一个实施例的对道路地面上点云补全前后的对比图；以及

图3示出了根据本发明的一个实施例的道路地面高度估计的结果图。

具体实施方式

应当指出，各附图中的各组件可能为了图解说明而被夸大地示出，而不一定是比例正确的。

在本发明中，各实施例仅仅旨在说明本发明的方案，而不应被理解为限制性的。

在本发明中，除非特别指出，量词“一个”、“一”并未排除多个元素的场景。

在此还应当指出，在本发明的实施例中，为清楚、简单起见，可能示出了仅仅一部分部件或组件，但是本领域的普通技术人员能够理解，在本发明的教导下，可根据具体场景需要添加所需的部件或组件。

在此还应当指出，在本发明的范围内，“相同”、“相等”、“等于”等措辞并不意味着二者数值绝对相等，而是允许一定的合理误差，也就是说，所述措辞也涵盖了“基本上相同”、“基本上相等”、“基本上等于”。

在此还应当指出，在本发明的描述中，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是明示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为明示或暗示相对重要性。

另外，本发明的实施例以特定顺序对工艺步骤进行描述，然而这只是为了方便区分各步骤，而并不是限定各步骤的先后顺序，在本发明的不同实施例中，可根据工艺的调节来调整各步骤的先后顺序。

将地面高度估计问题看作一种点云语义场景补全问题，从语义场景补全角度同步实现道路补全，地面高度估计。该基于轻量化点云补全的地面高度估计方法将稀疏的道路地面点云(有缺失的点云)补全，输出稠密的道路地面的点云体素，从补全后的点云体素中提取高度信息作为地面的高度信息。

如图1所示，一种基于轻量化点云补全的地面高度估计方法包括点云输入模块、二维主干网络模块、三维分割头和后处理模块。其中二维主干网络模块包括编码器模块和解码器模块。

点云输入模块通过体素化方法将带有标签的初始点云体素化，生成初始点云体素，同时将每个初始点云体素中一类数量最多的点的标签赋予初始点云体素。具体的，采用公开数据集SemanticKITTI，利用数据集中带有三维坐标(X,Y,Z)的初始点云(单帧的稀疏点云)以及相应的点云标签，通过体素化方法将初始点云体素化。初始点云中的点具有地面标签或非地面标签，将每个初始点云体素中一类数量最多的点的标签赋予初始点云体素，使得每个初始点云体素具有地面标签或非地面标签。在此，选取行驶车辆前方51.2m，左右两侧25.6m，高度6.4m的空间范围的单帧点云作为初始点云，进行体素化，其中每个初始点云体素的尺寸为0.2*0.2*0.2m，每个初始点云体素的三维坐标为其中心点的三维坐标，体素化后的区域作为构建卷积人工神经网络的输入。由于初始点云在远点以及遮挡所带来的稀疏特性，需要通过端到端的网络输出得到稠密的点云体素表示。

二维主干网络模块通过将由初始点云体素化后生成的初始点云体素作为输入，采用编码器来提取特征，然后通过解码器进行特征解耦过程，最终输出三维特征图。第一级编码器包含两层二维卷积与ReLu激活函数。在第二级和第三级编码器包含了池化层、两层二维卷积与ReLu激活函数，其中池化层采用最大池化。第四级编码器包含了池化层、三层二维卷积、ReLu激活函数和二维转置卷积，其中池化层采用最大池化。第一级和第二级解码器包含级联层、两层二维卷积以及二维转置卷积。第三级解码器包含级联层、一层二维卷积和三维分割头(segmentaion head，SH)。三维分割头利用最后一层解码器中二维卷积的输出，通过增加二维卷积的输出维度后，实现三维体素的分类。每级解码器的输入为上一级编码器或解码器的输出和跳跃连接通过级联层拼接的结果。最后一级解码器的二维卷积的输出作为三维分割头的输入。二维主干网络模块的输出维度[bs,H,W,D]，W,H,D是体素的维度，bs为超参数，表示每批数据量的大小，W表示宽度，H表示高度，D表示深度。

为了实现轻量级架构，编码器沿着初始点云体素的X和Y维度使用二维卷积，高度维度Z作为特征维度。这种三维数据的直接处理不同于其他依赖于2.5D数据的二维/三维方法(如深度和鸟瞰视图(BEV))。二维卷积会导致失去三维空间连接性，但它实现了轻量级的操作，在每个二维卷积层中维护最小数量的特征，以减少内存需求，降低了计算量。每级解码器的输入为上一级编码器或解码器的输出和跳跃连接通过级联层拼接的结果。采用标准跳跃连接(skip-connection)，将前面编码器输出的三维特征图连接到解码器来增强解码器中的信息流。具体的，第一级编码器的输出连接到最后一级解码器，第二编码器的输出连接到倒数第二级解码器，以此类推，以增强解码器中的信息流。此外，最后一级编码器和多级解码器中除了最后一级解码器的之外的其它解码器输出的粗粒度特征图(三维特征图)均经过了二维转置卷积进行上采样，然后拼接到下一级解码器。因此，该操作使本发明能够利用较粗分辨率的高层次特征，增强空间上下文信息。

与以往将点云作为BEV的研究不同，本发明中三维地面补全任务需要通过二维卷积重新获得第三维，其中第三维是在二维卷积输出的张量扩张，加一维空的，再通过三维卷积填充特征。具体来说，解码器必须输出一个四维张量，而是二维主干网络模块输出三维特征图，其中解码器的四维张量的最后一个维度是语义分类概率分布。为此，本发明引入了三维分割头，三维分割头利用二维主干网络模块中编码-解码结构的输出(三维特征图)，将其扩展维度，增加一维，其中增加的一维是语义分类概率分布，即体素属于地面或非地面的概率，然后通过一系列三维卷积得到多层补全点云体素，并且包含有每个补全点云体素的类别，类别有两类，为地面/非地面。三维分割头的最后一层三维卷积将语义分类概率分布转化成类别。三维分割头的输出维度为[bs,C,W,H,D]，其中W,H,D是点云体素的维度，bs为超参数，表示每批数据量的大小，C表示类别，即地面或非地面，W表示宽度，H表示高度，D表示深度。三维分割头输出的多层的体素。利用稀疏的点云，经过点云输入模块、二维主干网络模块和三维分割头得到了补全后的密集的点云体素，完成了地面的补全。

三维分割头使用了一系列密集和扩张的卷积。三维分割头包含了拓展维度层(Expand dim)、两层三维卷积和一层Atrous空间金字塔池化(ASPP)。拓展维度层将二维主干网络模块输出的三维特征图加一维空的维度，然后通过一层三维卷积和一层Atrous空间金字塔池化层在增加的维度中填充特征，便于后面的三维卷积分类，最后通过一层三维卷积得到了带有类别标签的补全点云体素。其中增加的维度是语义分类概率分布。补全点云体素具有高度值。采用Atrous空间金字塔池化的形式进行的扩张卷积，通过增加扩张速率，有利于组合来自不同感受野的信息。需要指出的是，虽然膨胀卷积是轻量级和强大的，但它不适合稀疏输入，因此不能用于编码器。在三维分割头中，采用密集的三维卷积进行预处理的好处有两方面:一方面可以进一步密集特征映射，另一方面可以从主干网络的特征中解耦出特征作为分割头的输入特征。

网络的目标是输出补全后的道路标识，并更快地补全道路，从而有利于移动机器人应用和自动驾驶车辆。因此，在二维主干网络模块之后附加了一个三维分割头。

由实验中证实在三维分割头中引入三维卷积从二维主干网络的特征中解耦出特征作为三维分割头的输入特征非常重要。本发明方法的主要优势在于可以推断地面补全情况，同时减少计算和内存需求。

二维主干网络模块加上三维分割头能够完成语义补全，即将稀疏的点云补全，得到稠密的输出。

后处理用于去除三维分割头输出中的噪声。由于三维分割头输出的多层的补全点云体素，且含有少量的噪声，为了得到细粒度的结果，需要进行后处理去除噪声。这些噪声是不属于地面的体素。首先采用随机采样一致性算法(RANSAC)用于三维分割头输出的多层补全点云体素的去噪，距离阈值设置为1.5，初始点的数量设置为2000，迭代次数是1000次。经过RANSAC算法处理之后，消除了噪声，保留了多层补全点云体素。多层的体素无法获得一个明确的高度值，因此需要去除多余的体素，仅保留顶层的补全点云体素作为地面的表示。通过RANSAC算法将除了顶层的补全点云体素之外的多层体素去除，以获得最终的稠密的地面区域以及精确的地面高度信息，最终所获得的补全点云体素的分辨率为0.2*0.2*0.2m。地面高度为最终获得的顶层点云体素的高度。

如图2和图3所示，分别将4种稀疏的点云体素化，然后经过二维主干网络模块构建、三维分割和后处理，得到4种补全后的点云体素(稠密的输出)作为地面表示，并从这4种补全后的点云体素中提取高度信息作为地面高度。

在此，通过具体实验数据来阐述本发明的技术效果，同时将本发明与其他方法进行对比。采用公开数据集SemanticKITTI进行实验，并与其它已有的道路补全和高度估计方法进行了对比。

本发明已经经过实验、模拟，证明可行。从表1中的交并比，准确率，查全率和F1分数的数值可以看出，这四项评价指标中本发明的方法都具有最高的值，证明了本发明所预测的道路补全结果相比于其他方法提升1.01％。

采用倒角距离(Chamfer Distance，CD)来评估地面高度真值与估计高度值之间的接近程度，该值越小越好。P可以看作估计高度值，G可以看作地面高度真值。CD含有两种指标，分别为L1范式和L2范式的评估标准，具体计算公式如下所示：

对于高度估计结果，CD-L1和CD-L2的值越小代表估计高度值与地面高度真值越接近，其中本发明的方法具有最低的CD-L1和CD-L2值，相比于现有方法提升了1.34％，说明了本发明的方法所具备的最佳的地面高度估计性能。

表1实验结果对比表

另一方面，整个模型的推理性能也是非常重要的考量指标之一，该模型包含了二维主干网络和三维分割头，在单张RTX 3090的GPU上测试了本发明的模型推理性能，结果如表2所示。从表2中可以看出，本发明的模型单帧推理时间仅需0.88ms，超越现有方法1.03％，达到了220Hz，具有极高的实时应用前景。

表2推理性能结果对比

方法	时间	设备
			本申请	0.88ms	GPU(RTX 3090)
JS3C	0.91ms	GPU(RTX 3090)
			LMSCNet	0.99ms	GPU(RTX 3090)
SSCNet-full	1.04ms	GPU(RTX 3090)
			SSCNet	1.00ms	GPU(RTX 3090)

可以把各实施例提供为可包括其上存储有机器可执行指令的一个或多个机器可读介质的计算机程序产品，这些指令在由诸如计算机、计算机网络或其他电子设备等的一个或多个机器执行时，可以引起一个或多个机器执行根据本发明的各实施例的操作。机器可读介质可以包括但不限于软盘、光盘、CD-ROM(紧致盘只读存储器)和磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁或光卡、闪速存储器或适用于存储机器可执行指令的其他类型的介质/机器可读介质。

此外，可以作为计算机程序产品下载各实施例，其中，可以经由通信链路(例如，调制解调器和/或网络连接)由载波或其他传播介质实现和/或调制的一种或多种数据信号把程序从远程计算机(例如，服务器)传输给请求计算机(例如，客户机)。因此，在此所使用的机器可读介质可以包括这样的载波，但对此不作要求。

虽然本发明的一些实施方式已经在本申请文件中予以了描述，但是本领域技术人员能够理解，这些实施方式仅仅是作为示例示出的。本领域技术人员在本发明的教导下可以想到众多的变型方案、替代方案和改进方案而不超出本发明的范围。所附权利要求书旨在限定本发明的范围，并藉此涵盖这些权利要求本身及其等同变换的范围内的方法和结构。

Claims

1.一种基于轻量化点云补全的地面高度估计方法，包括：

将初始点云体素化得到初始点云体素；

从顶层的补全点云体素中提取高度信息作为地面高度。

2.根据权利要求1所述的基于轻量化点云补全的地面高度估计方法，其特征在于，所述初始点云为单帧点云，初始点云中的每个点云具有三维坐标(X,Y,Z)和地面标签/非地面标签。

3.根据权利要求1所述的基于轻量化点云补全的地面高度估计方法，其特征在于，选取行驶车辆前方51.2m，左右两侧25.6m，高度6.4m的空间范围内的点云作为初始点云，进行体素化，得到初始点云体素，其中每个初始点云体素的尺寸为0.2*0.2*0.2m。

4.根据权利要求3所述的基于轻量化点云补全的地面高度估计方法，其特征在于，每个初始点云体素的标签为每个初始点云体素中一类数量最多的点的标签。

5.根据权利要求1所述的基于轻量化点云补全的地面高度估计方法，其特征在于，所述二维主干网络模块的编码器和解码器中的卷积层均为二维卷积，其中编码器沿着初始点云体素的X和Y维度使用二维卷积，高度维度Z作为特征维度。

6.根据权利要求5所述的基于轻量化点云补全的地面高度估计方法，其特征在于，所述二维主干网络模块的输出维度[bs,H,W,D]，其中W,H,D是体素的维度，W表示宽度，H表示高度，D表示深度，bs为超参数，表示每批数据量的大小。

7.根据权利要求6所述的基于轻量化点云补全的地面高度估计方法，其特征在于，三维分割头的最后的三维卷积的输出维度为[bs,C,W,H,D]，其中W,H,D是点云体素的维度，即地面或非地面，W表示宽度，H表示高度，D表示深度，bs为超参数，表示每批数据量的大小，C表示类别。

8.根据权利要求1所述的基于轻量化点云补全的地面高度估计方法，其特征在于，通过随机采样一致性算法去除补全点云体素中的非地面的点云体素噪声。

9.根据权利要求1所述的基于轻量化点云补全的地面高度估计方法，其特征在于，通过随机采样一致性算法将除了顶层补全点云体素之外的多层体素去除。

10.一种基于轻量化点云补全的地面高度估计系统，包括：

存储器；以及

处理器，所述处理器用于执行权利要求1至9中任一项所述的方法。