CN114529727A

CN114529727A - 一种基于LiDAR和图像融合的街道场景语义分割方法

Info

Publication number: CN114529727A
Application number: CN202210436081.4A
Authority: CN
Inventors: 陶文兵; 赵蔺; 刘李漫
Original assignee: Wuhan Tuke Intelligent Technology Co ltd
Current assignee: Wuhan Tuke Intelligent Technology Co ltd
Priority date: 2022-04-25
Filing date: 2022-04-25
Publication date: 2022-05-24

Abstract

本发明涉及一种基于LiDAR（激光雷达）和图像融合的街道场景语义分割方法，包括：输入LiDAR点云和图像并进行预处理；将点云投影到图像中后，对图像进行上下文信息的融合得到融合信息；使用点云语义分割网络提取融合信息中的粗粒度特征；使用图像语义分割网络提取图像高维语义特征，计算偏移量得到对齐后的图像语义特征；将图像语义特征和粗粒度特征融合后得到融合语义特征，使用点云语义分割网络提取融合语义特征的细粒度的语义特征，得到语义分割结果；采用一种简单且有效的前融合策略来融合图像上下文信息和LiDAR点云信息这两种不同模态的信息，以此来生成语义类别特征；有效的增强所提取点云的特征的判别力，提升模型对场景分割的准确率。

Description

一种基于LiDAR和图像融合的街道场景语义分割方法

技术领域

本发明涉及计算机视觉领域，尤其涉及一种基于LiDAR和图像融合的街道场景语义分割方法。

背景技术

图像包含了丰富的色彩信息和纹理信息，但是存在尺度、遮挡等问题，相对图像而言，点云包含了三维的几何结构和深度信息，但是点云具有稀疏不一致的问题。

LiDAR点云和图像信息融合主要思想是利用LiDAR和相机两种传感器对环境感知的不同优势进行互补，提高模型对街道场景的感知理解能力。

以街道场景点云语义分割为例，随着自动驾驶的快速发展，3D场景感知受到了越来越多的关注，街道场景语义分割对自动驾驶汽车的环境感知和规划十分重要。目前，街道场景分割的方法可以分为三类：基于投影的方法，基于体素的方法和基于多视图融合的方法。Cortinhal等人利用球形投影机制将LiDAR点云投影成为伪图像，然后利用一个编码-解码结构的网络来获得语义信息。Kochanov等人利用残差网络ResNetXt-101和空洞空间金字塔池化（ASPP）构建了一个增强的网络结构，并利用KPConv作为分割头替换掉KNN后处理过程。Zhang等人利用极坐标的鸟瞰图投影替代了常规的基于2D网络的鸟瞰投影（BEV）。基于投影的方法不可避免的会损失和改变原有的几何拓扑结构，导致无法有效的对几何信息进行建模。基于体素的方法将LiDAR点云栅格化到一系列的体素网格中，并使用3D卷积来获得语义分割结果。Tang等人设计了一些策略来加速3D卷积的计算，以更少的计算量和内存消耗来提高性能。考虑到LiDAR点云的稀疏性和密度变化等固有特性，Zhou等人采用在柱坐标系下将LiDAR点云划分到不同的扇区，并设计了一种非对称残差块结构以进一步减少计算消耗。基于多视图融合的方法结合了基于体素和基于投影或基于点的操作对LiDAR点云进行分割。例如，Wang等人在开始时结合来自BEV的逐点的信息和伪图像信息，然后使用一个深度学习网络来提取特征。Cheng等人采用基于点和基于体素的融合策略实现了更好的分割性能。Xu等人通过门控融合机制融合了基于点、基于投影和基于体素的操作，进而构建了一个深度融合网络。由于LiDAR点云缺少丰富的颜色和纹理信息，这些方法的性能也受到了限制。

为了充分利用LiDAR点云和图像的优势信息进行互补，在基于LiDAR点云的3D目标检测任务中，一些研究者开始探索LiDAR和图像信息的融合方法。例如，Xie等人通过对3D点进行逐点卷积并应用特征聚合操作来融合图像和LiDAR点云的特征。Yoo等人采用一种跨视图空间特征融合策略来融合图像和LiDAR点云的特征，实现了更好的检测性能。Huang等人提出了一种激光雷达引导的图像融合模块来增强在不同尺度上与图像语义特征对应的LiDAR点云特征。Vora等人将LiDAR点云投影到图像上，并将图像特征附加到每个点上，然后使用一个LiDAR检测器实现目标检测。

综上，现有的LiDAR点云语义分割方法仅使用点云的信息来提取特征，而没有研究如何充分利用图像信息和LiDAR点云的优势进行互补，以进一步提高模型对街道场景的感知能力。

发明内容

本发明针对现有技术中存在的技术问题，提供一种基于LiDAR和图像融合的街道场景语义分割方法，首先采用一种简单且有效的前融合策略来融合图像上下文信息和LiDAR点云信息这两种不同模态的信息，以此来生成街道场景语义类别特征。在此基础上，提出一个偏移矫正方法来解决相机和LiDAR之间的弱时空同步问题（表现为将点云投影到图像平面，属于某个物体的投影点可能会落到物体外），以更好的融合图像语义特征和LiDAR点云特征，从而有效的增强所提取点云的特征的判别力，进一步提升模型对街道场景分割的准确率。

根据本发明的第一方面，提供了一种基于LiDAR和图像融合的街道场景语义分割方法，包括：

步骤1，输入LiDAR点云和图像并进行预处理；

步骤2，将点云投影到图像中后，对所述图像进行上下文信息的融合得到融合信息；

步骤3，使用点云语义分割网络提取所述融合信息中的粗粒度特征；使用图像语义分割网络提取图像高维语义特征，计算偏移量得到对齐后的图像语义特征；

步骤4，将所述图像语义特征和所述粗粒度特征融合后得到融合语义特征，使用点云语义分割网络提取所述融合语义特征的细粒度的语义特征，得到语义分割结果。

在上述技术方案的基础上，本发明还可以作出如下改进。

可选的，所述步骤1中对输入的所述点云进行预处理的过程包括：

将所述点云的XYZ坐标变换到柱坐标空间，计算在柱坐标系下所述点云的范围，确定该范围对应的最大值和最小值；

根据设置的参数将各个所述点云划分到一系列的圆柱分区中。

可选的，所述步骤2包括：

步骤201，根据点云的原始坐标

、位姿变换矩阵

、相机内参矩阵

，将点云投影到图像平面，生成投影索引

；其中，

，R表示实数，

表示LiDAR点云中点的数量；

步骤202，将落在图像平面外的点过滤掉，对投影索引更新后保存到内存中；

步骤203，根据更新后的投影索引坐标，在图像平面上，以投影点为中心，以大小为w×w的窗口进行上下文信息采样，并将所述窗口中每个像素位置的RGB颜色值作为特征聚合到一起得到图像上下文信息；将所述图像上下文信息附加到原始点云的特征后面根据点云体素划分的索引对特征进行处理。

可选的，所述步骤202中更新后的所述投影索引为：

；

其中，

；H× W为图像的大小。

可选的，所述步骤203中得到所述图像上下文信息

的过程为：

；

；

其中，sample（）表示用于采样的函数，reshape（）表示将指定的矩阵变换成特定维数矩阵的函数，I表示图像，N_i表示过滤后的点云的点的数量。

可选的，所述步骤3中所述点云语义分割网络为UNet结构网络；所述图像语义分割网络为DeepLab。

可选的，所述步骤3中基于所述图像高维语义特征

，计算偏移量得到对齐后的图像语义特征

的过程为：

使用所述投影索引Idx将所述粗粒度的语义特征

投影到图像平面，得到和所述图像高维语义特征

具有相同形状的伪图像特征

；

将所述粗粒度的语义特征

和所述伪图像特征

融合后得到融合后的特征

；将融合后的特征

输入到一个两层的深度卷积网络中进行偏移学习得到所述偏移量Offset；

基于所述偏移量Offset更新所述投影索引Idx并进行反向投影；

根据更新后的所述投影索引Idx的位置将对应的所述图像高维语义特征

提取出来得到对齐后的图像语义特征

。

可选的，所述步骤4中得到所述融合语义特征

的过程包括：

将所述图像语义特征

附加在所述粗粒度的语义特征

后面，和粗粒度的语义特征

相融合得到融合语义特征

。

可选的，所述步骤4中使用一个基于LiDAR语义分割的

结构的网络 Cylinder3D来提取所述融合语义特征

的细粒度的语义特征；

对输出的细粒度的语义特征应用一个ARGMAX操作来生成所述语义预测结果。

本发明提供的一种基于LiDAR和图像融合的街道场景语义分割方法，通过结合LiDAR和图像上下文信息的融合以及对齐后的图像语义特征和LiDAR点云的特征来实现更加准确的街道场景语义分割；融合点云和图像上下信息从而实现更好的融合点云和图像两种不同模态数据，从而提升模型对街道场景的感知能力。此外，提出一种有效的偏移矫正策略，以解决LiDAR和相机之间的弱时空同步问题，因此可以更好的融合图像高层语义特征和LiDAR点云的特征，从而有效的增强所提取的点云特征的判别力，进一步提升模型对街道场景分割的准确率。核心创新包括两大部分：一是LiDAR点云和图像上下文信息的前融合；二是解决LiDAR和相机之间的弱时空同步问题，从而更好的融合图像语义特征和点云特征，进一步提高点云分割的准确率。

附图说明

图1为本发明提供的一种基于LiDAR和图像融合的街道场景语义分割方法的流程图；

图2为本发明实施例提供的一种点云和图像上下文信息融合的流程框图；

图3为本发明提实施例提供的一种偏移学习的流程框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

相机和3D LiDAR传感器已经成为现代自动驾驶汽车不可或缺的设备。其中相机图像提供了更好的二维纹理和颜色信息，LiDAR能够更加准确的对周围环境进行远距离测量。这两种传感器的互补信息使得两种不同模态的信息融合成为了一种可能。然而，相机和LiDAR融合的两个主要问题阻碍了他们融合的性能，即就是如何有效的融合这两种不同的模态信息以及如何解决由于弱时空同步导致的这两种模态数据的对齐问题。

本发明提出了一个由粗到细的LiDAR和图像融合的网络来对街道场景进行分割。对于第一个问题，不像其他哪些一对一的融合图像信息和点云的方法，本发明采用早期融合的策略来融合图像上下文信息和点云信息。其次，本发明设计了一种偏移矫正的方法来解决弱时空同步问题以对齐两种不同的模态特征。这两种策略使得融合了LiDAR点云和图像信息能够更好的对街道场景进行感知，从而得到更加准确的街道场景语义分割结果。

图1为本发明提供的一种基于LiDAR和图像融合的街道场景语义分割方法的流程图，如图1所示，该语义分割方法包括：

步骤1，输入LiDAR点云和图像并进行预处理。

步骤2，将点云投影到图像中后，对图像进行上下文信息的融合得到融合信息。

步骤3，使用点云语义分割网络提取融合信息中的粗粒度特征；使用图像语义分割网络提取图像高维语义特征，计算偏移量得到对齐后的图像语义特征。

步骤4，将图像语义特征和粗粒度特征融合后得到融合语义特征，使用点云语义分割网络提取融合语义特征的细粒度的语义特征，得到语义分割结果。

本发明提供的一种LiDAR和图像融合的街道场景语义分割方法，首先采用一种简单且有效的前融合策略来融合图像上下文信息和LiDAR点云信息这两种不同模态的信息，以此来生成街道场景语义类别特征。在此基础上，提出一个偏移矫正方法来解决相机和LiDAR之间的弱时空同步问题（表现为将点云投影到图像平面，属于某个物体的投影点可能会落到物体外），以更好的融合图像语义特征和LiDAR点云特征，从而有效的增强所提取点云的特征的判别力，进一步提升模型对街道场景分割的准确率。

实施例1

本发明提供的实施例1为本发明提供的一种基于LiDAR和图像融合的街道场景语义分割方法的实施例，结合图2可知，该语义分割方法的实施例包括：

步骤1，输入LiDAR点云和图像并进行预处理。

在一种可能的实施例方式中，步骤1中对输入的点云进行预处理的过程包括：

将点云的XYZ坐标变换到柱坐标空间，计算在柱坐标系下点云的范围，确定该范围对应的最大值和最小值。

根据设置的参数将各个点云划分到一系列的圆柱分区中。

具体实施中，圆柱分区为H×W×L中，其中H、W和L分别表示柱坐标下的半径、角度和高度。在本实施例中H=480，W=360，L=32。

将点云的反射强度也作为一部分初始特征，并且保留点云体素划分的索引。

如图2所示为本发明实施例提供的一种点云和图像上下文信息融合的流程框图，结合图1和图2可知，在一种可能的实施例方式中，步骤2在给定点云到图像的变换矩阵和对应的相机内参矩阵前提下，将点云投影到图像，并和图像上下文信息进行融合，具体可以包括：

步骤201，根据点云的原始坐标

、位姿变换矩阵

、相机内参矩阵

，将点云投影到图像平面，生成投影索引

；其中，

，R表示实数，

表示LiDAR点云中点的数量。

步骤202，将落在图像平面外的点过滤掉，对投影索引更新后保存到内存中。

其中，更新后的投影索引为：

。

其中，

；H× W为图像的大小。

更新后的索引

，

。

步骤203，根据更新后的投影索引坐标，在图像平面I上，以投影点为中心，以大小为w×w的窗口进行上下文信息采样，并将窗口中每个像素位置的RGB颜色值作为特征聚合到一起得到图像上下文信息；将图像上下文信息附加到原始点云的特征后面，以增强原始点云的特征。并根据点云体素划分的索引对特征进行处理。

得到图像上下文信息

的过程为：

。

在一种可能的实施例方式中，步骤3中点云语义分割网络可以采用任意基于体素化的LiDAR点云语义分割网络，具体可以为UNet结构网络；图像语义分割网络可以使用任意的图像语义分割网络来进行图像高维语义特征的提取，具体可以为DeepLab。

具体实施中，将步骤2中得到的融合信息输入到一个基于LiDAR语义分割的UNet结构的网络Cylinder3D中提取粗粒度的语义特征

，

表示特征维度。

将RGB图像输入到一个图像语义分割网络DeepLab来提取图像的高维语义特征

。

。

该图像高维语义特征

是和步骤3中提取的粗粒度的语义特征

相融合作为偏移学习的输入特征。

如图3所示为本发明提实施例提供的一种偏移学习的流程框图，在一种可能的实施例方式中，步骤3中基于图像高维语义特征

，计算偏移量得到对齐后的图像语义特征

的过程为：

使用投影索引Idx将粗粒度的语义特征

投影到图像平面，得到和图像高维语义特征

具有相同形状的伪图像特征

∈

，以便于后续和图像语义特征融合并进行偏移学习，这一过程可以表示为：

。

将粗粒度的语义特征

和伪图像特征

融合后得到融合后的特征

；

；将融合后的特征

输入到一个两层的深度卷积网络中进行偏移学习得到偏移量Offset∈

；通过学习投影点在图像平面上的偏移量以解决LiDAR和相机之间的弱时空同步问题，进而提升模型对街道场景的分割精度

基于偏移量Offset更新投影索引Idx并进行反向投影。

具体实施中，更新Idx的公式为：

；

。

根据更新后的投影索引Idx的位置将对应的图像高维语义特征

提取出来得到对齐后的图像语义特征

∈

。

在一种可能的实施例方式中，步骤4中得到融合语义特征

的过程包括：

将图像语义特征

附加在粗粒度的语义特征

后面，和粗粒度的语义特征

相融合得到融合语义特征

∈

，这一过程可以表示为：

。

。

在一种可能的实施例方式中，步骤4中可以使用任意的基于体素化的LiDAR语义分割网络，本发明给出的实施例中使用一个基于LiDAR语义分割的UNet结构的网络 Cylinder3D来提取融合语义特征

的细粒度的语义特征，从而进一步细化提取的 LiDAR语义特征。

对输出的细粒度的语义特征应用一个ARGMAX操作来生成语义预测结果。

ARGMAX为一种对函数求参数(集合)的函数。

本发明实施例提供的一种基于LiDAR和图像融合的街道场景语义分割方法，通过结合LiDAR和图像上下文信息的融合以及对齐后的图像语义特征和LiDAR点云的特征来实现更加准确的街道场景语义分割；融合点云和图像上下信息从而实现更好的融合点云和图像两种不同模态数据，从而提升模型对街道场景的感知能力。此外，提出一种有效的偏移矫正策略，以解决LiDAR和相机之间的弱时空同步问题，因此可以更好的融合图像高层语义特征和LiDAR点云的特征，从而有效的增强所提取的点云特征的判别力，进一步提升模型对街道场景分割的准确率。核心创新包括两大部分：一是LiDAR点云和图像上下文信息的前融合；二是解决LiDAR和相机之间的弱时空同步问题，从而更好的融合图像语义特征和点云特征，进一步提高点云分割的准确率。

需要说明的是，在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。