CN115035296A

CN115035296A - 一种基于鸟瞰投影的飞行汽车3d语义分割方法及系统

Info

Publication number: CN115035296A
Application number: CN202210680819.1A
Authority: CN
Inventors: 张新钰; 李骏; 李志伟; 金宪伟; 黄健耕
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2022-09-09

Abstract

本发明公开了一种基于鸟瞰投影的飞行汽车3D语义分割方法及系统，该方法包括：步骤1)对飞行汽车采集的不定尺寸大规模3D点云数据进行给定尺寸裁剪；步骤2)通过设定比例因子、窗格尺寸和步距，经缩小、滑窗法和正则化处理得到若干个窗格，每个窗格包括若干个网格，分别对每个网格的点云数据进行投影，得到每个窗格的RGB图像和Alt深度投影图；步骤3)将每个窗格的RGB图像和Alt深度投影图输入预先建立和训练好的2D图像语义分割模型，得到2D语义分割结果；步骤4)将2D语义分割结果，映射到3D点云数据上，得到3D语义分割结果；2D图像语义分割模型基于自注意力机制的多模型融合方法实现。

Description

一种基于鸟瞰投影的飞行汽车3D语义分割方法及系统

技术领域

本发明属于3D语义分割领域，尤其涉及一种基于鸟瞰投影的飞行汽车3D语义分割方法及系统。

背景技术

随着科技的发展，世界各地的交通都出现拥堵的问题，而飞行汽车为缓解这样的问题提供了一种可能。而汽车的环境感知任务中，激光捕获的点云数据，能获得丰富而准确的环境信息，是3D视觉任务中的主要数据形式，激光雷达的线数越多，获得的点云数据越密集，能够表示的空间信息越精细。但密集的点云数据会导致非常大的计算开销，数据处理时会占用大量的时间。

2D语义分割任务应用广泛，使用卷积网络构造的模型，能够获得较高得语义分割精度，常见得卷积神经网络如FCN，DeepLab(V1,V2,V3)和UNet等。3D语义分割与2D语义分割类似，2D语义分割会对图像中的每一个像素指派一个语义标签，而3D语义分割会对点云数据中的每一个点指派一个标签，将场景分割为若干有特定语义的区域，是3D视觉理解和分析的基础。激光雷达是获得点云的主要设备，随着技术的发展，激光雷达设备的性能也在逐渐提升。尽管线束很高的激光雷达会产生非常稠密的点云数据，但相比于图像中像素的稠密程度来说，仍旧显得稀疏。所以在2D语义分割中比较成熟的卷积网络，由于点云的稀疏性和无序性，直接进行特征提取的效率不高。

当前的3D语义分割任务的主要难题：(1)处理大型整体场景的激光雷达获得的稠密的点云信息计算量大；(2)2D语义分割中应用较为成熟的卷积层特征提取方法，不再适用于相比于像素信息来说稀疏的、无序的点云数据。

发明内容

本发明的目的在于克服现有技术缺陷，提出了一种基于点云鸟瞰投影的飞行汽车3D语义分割方法及系统。

为了实现上述目的，本发明提出了一种基于鸟瞰投影的飞行汽车3D语义分割方法，所述方法包括：

步骤1)对飞行汽车采集的不定尺寸大规模3D点云数据进行给定尺寸裁剪；

步骤2)通过设定比例因子、窗格尺寸和步距，经缩小、滑窗法和正则化处理基于尺寸裁剪后的点云数据得到若干个窗格，每个窗格包括若干个网格，分别对每个网格的点云数据进行投影，得到每个窗格的RGB图像和Alt深度投影图；

步骤3)将每个窗格的RGB图像和Alt深度投影图输入预先建立和训练好的2D图像语义分割模型，得到2D语义分割结果；

步骤4)将获得的2D语义分割结果，映射到3D点云数据上，得到3D语义分割结果；

所述2D图像语义分割模型基于自注意力机制的多模型融合方法实现。

作为上述方法的一种改进，所述步骤2)具体包括：

步骤201)设定比例因子g_scale为固定值，对采集的点云数据进行缩小，使得稀疏的点云数据变得稠密；

步骤202)设定窗格尺寸g_size和窗格步距g_step，将点云数据分割为若干窗格；

步骤203)使用比例因子g_scale对单一窗格内的点云数据进行正则化，得到正则化后该窗格内所有点云数据横、纵坐标的最大值x_max和y_max，分割每个窗格为x_max×y_max个网格；

步骤204)遍历所有网格，保留每个网格下所有点中的z坐标最大值的点，舍弃其余的点，并将该点的坐标值(x_i，y_i，z_i)赋给RGB图像中坐标为(x_i，y_i)处的RGB三通道的分量，将该点的深度坐标值z_i赋给Alt图像中坐标为(x_i，y_i)处的值，构成单通道的灰度图像；

步骤205)重复步骤203)～步骤204)，遍历每个窗格的每个网格，获得所有点云数据的一系列BEV投影，所述BEV投影包括RGB图像和Alt深度投影图。

作为上述方法的一种改进，所述步骤203)的使用比例因子g_scale对单一窗格内的点云数据进行正则化；具体包括：

获取单一窗格内所有点云数据横、纵坐标的最小值x_min和y_min，对于窗格内的每个点(x_i，y_i)，将int((x_i-x_min)/g_scale作为该点的横坐标，将int((y_i-y_min)/g_scale作为该点的纵坐标，实现点云数据的正则化。

作为上述方法的一种改进，所述2D图像语义分割模型包括：RGB分支、Alt分支、注意力机制模块和拼接模块；其中RGB分支和Alt分支并联后依次连接注意力机制模块和拼接模块；

所述RGB分支和Alt分支结构相同，均包括依次连接的基础网络和ASPP结构，其中，

RGB分支的输入为RGB图像，输出为对应RGB图像的5个特征图，特征图的尺寸均为(60，60，256)；

Alt分支的输入为Alt深度投影图，输出为对应Alt深度投影图的5个特征图，特征图的尺寸均为(60，60，256)；

所述注意力机制模块，用于将上述两个分支输出的特征图展成特征向量，基于注意力机制，在Q，K，V上做投影，输出5个特征向量；

所述拼接模块，用于将注意力机制模块输出的5个特征向量沿特征图的通道方向进行拼接，经上采样，还原到原图的尺度。

作为上述方法的一种改进，所述基础网络为以ResNet50为骨干网络的DeepLab v3架构，包括依次连接的4个Block层，其中，Block1和Block2均包括：卷积核为7×7，步距为2的卷积层，池化核为3×3，步距为2的最大池化下采样，以及ResNet网络中的一系列残差结构；Block3和Block4中的第一个残差结构的第一个卷积层以及捷径分支上的步距都设置为1，Block3中的所有3×3的卷积层均替换为膨胀卷积，膨胀系数设置为2，Block4中的所有3×3的卷积层均替换为膨胀卷积，膨胀系数设置为4；

所述ASPP结构包括5个并联的分支，第一分支为1×1的普通卷积层；中间三个分支均为为3×3的膨胀卷积，对应的膨胀系数分别为(12，24，36)；最后一个分支为全局池化层，以获得全局的信息。

作为上述方法的一种改进，所述方法还包括2D图像语义分割模型的训练步骤；具体包括：

建立训练集；

基于训练集对2D图像语义分割模型进行训练，当满足训练条件，得到训练好的2D图像语义分割模型。

作为上述方法的一种改进，所述建立训练集具体包括：

步骤s1)对飞行汽车采集的不定尺寸大规模3D点云数据进行给定尺寸裁剪；

步骤s2)设定比例因子g_scale为固定值，对尺寸裁剪后的点云数据进行缩小，使得稀疏的点云数据变得稠密；

步骤s3)设定窗格尺寸g_size和窗格步距g_step，将点云数据分割为若干窗格；

步骤s4)使用比例因子g_scale对单一窗格内的点云数据进行正则化，得到正则化后该窗格内所有点云数据横、纵坐标的最大值x_max和y_max，分割每个窗格为x_max×y_max个网格，记录每个网格中对应的所有离散的点云的绝对坐标；

步骤s5)遍历所有网格，保留每个网格的所有点云中的z坐标最大值的点，舍弃其余的点，并将该点的坐标值(x_i，y_i，z_i)赋给RGB图像中坐标为(x_i，y_i)处的RGB三通道的分量，将该点的深度坐标值z_i赋给Alt图像中坐标为(x_i，y_i)处的值，构成单通道的灰度图像，同时保存该点对应的标签作为2D语义分割的标签；当网格中没有点云数据时，以0填充RGB和Alt图像，标签为无类别背景标签；

步骤s6)重复步骤s4)～步骤s5)，遍历每个窗格的每个网格，获得所有点云数据的一系列BEV投影，结合对应的标签信息组成训练集。

一种基于鸟瞰投影的飞行汽车3D语义分割系统，所述系统包括2D图像语义分割模型、尺寸裁剪模块、投影模块、2D语义分割处理模块和3D语义分割处理模块；

所述尺寸裁剪模块，用于对飞行汽车采集的不定尺寸大规模3D点云数据进行给定尺寸裁剪；

所述投影模块，用于通过设定比例因子、窗格尺寸和步距，经缩小、滑窗法和正则化处理基于尺寸裁剪后的点云数据得到若干个窗格，每个窗格包括若干个网格，分别对每个网格的点云数据进行投影，得到每个网格的RGB图像和Alt深度投影图；

所述2D语义分割处理模块，用于将每个网格的RGB图像和Alt深度投影图输入预先建立和训练好的2D图像语义分割模型，得到2D语义分割结果；

所述3D语义分割处理模块，用于将获得的2D语义分割结果，映射到3D点云数据上，得到3D语义分割结果；

一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现实施例1所述的方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行实施例1所述的方法。

与现有技术相比，本发明的优势在于：

1、本发明的方法将飞行汽车采集的3D点云数据投影到鸟瞰视图上，获得2D图像数据，降低了模型在训练过程中特征提取的复杂度；

2、本发明的方法对于投影得到的2D图像数据，使用卷积网络进行特征提取，不需要额外设计专门对点云数数据进行特征提取的模型，模型的复杂程度降低；

3、本发明的方法对不同的输入数据(RGB图像和Alt深度投影图)提取的特征，基于注意力机制获得关键的特征图进行融合，考虑全局特征的同时，对不同重要程度的特征图进行取舍，提高了网络模型的推理速度；

4、本发明的方法对得到的RGB图像和Alt深度投影图像，使用基于自注意力机制的多模型融合的网络架构，获得2D图像的语义分割结果，通过映射到点云数据上，得到3D点云上的语义分割结果。

附图说明

图1是本发明实施例1的一种点云数据鸟瞰投影方法获得RGB和Alt图像的示意图；

图2是本发明实施例1的2D图像语义分割模型框架示意图；

图3是本发明实施例1的一种从2D语义分割结果映射到3D点云数据的语义分割结果示意图。

具体实施方式

本发明所涉及的点云数据的3D语义分割模型，包含两个方面的工作：一方面是将点云数据投影到鸟瞰视图上得到RGB和Alt深度投影图像，另一方面是基于自注意力机制的多模型融合的2D语义分割模型架构。

在介绍本发明实施例之前首先对本发明实施例中涉及到的相关名词作如下释义：

点云：通过激光雷达等设备，获得的关于空间中物体表面轮廓的一系列离散三维点数据，包含(x,y,z)坐标信息。

BEV：鸟瞰视图，本文中特指点云数据在水平面上的投影视图，包含RGB图像和Alt深度投影图。

RGB图像：指将点云数据经投影到水平面后得到的图片数据，为三通道图像。

Alt深度投影图像：指将点云投影到水平面上后得到的单通道图像，图中的数值对应点云中对应点的深度值。

标签：语义分割任务中，数据的每个像素点(2D)或点云中的每个点(3D)对应的类别信息。

本发明提供了一种基于鸟瞰投影的飞行汽车3D语义分割方法，包括步骤：

1、将大规模点云数据进行裁剪，使得每份点云数据在x y平面上的尺寸均等于400m；

2、设定比例因子，窗格尺寸、网格尺寸和步距，对点云数据进行投影，得到RGB图像和Alt深度投影图像；其中，点云数据分割成若干窗格，每个窗格中由若干(很多)网格构成，每个网格对应获得一个像素值；步距：分割为窗格时使用滑窗法时给定的参数；

3、使用自注意力机制的多模型融合方法，对得到的RGB图像和Alt深度投影图像获得2D语义分割结果；

4、将获得的2D语义分割结果，映射到3D点云数据上，得到3D的语义分割结果。

下面结合附图和实施例对本发明的技术方案进行详细的说明。

实施例1

本发明的实施例1提出了一种基于鸟瞰投影的飞行汽车3D语义分割方法，具体实施步骤如下：

步骤1)将大规模点云数据进行裁剪，使得每份的点云在xy平面上的尺寸上等于400m×400m；

步骤2)通过点云数据，获取BEV鸟瞰投影图，包括RGB图像和Alt深度投影图，如图1所示，具体包括：

步骤201)大规模点云数据的点云分布范围广，即使被裁剪为400m×400m的区域，点云的分布范围还是很大，通过设定比例因子g_scale为0.2，通过上述比例因子，每一块400m×400m的点云区域的尺寸范围都缩小到80m×80m。对点云进行缩小，使得一部分点云相互接触或重叠，能够使得在空间上相距较远，表现为稀疏的点云数据变得稠密，同时能够降低获得BEV图像的计算量；

步骤202)使用滑窗法，得到每个窗格的BEV图像，设定窗格尺寸g_size为20m×20m，窗格步距g_step也为20m。由于设置滑动窗格的步距为20m，所以每一个点云数据都会由几个窗格所覆盖。每个窗格都会获得一个BEV图像，包括RGB图像和相对应的Alt深度投影图像。在此步骤需要记录该窗格和大规模点云数据的对应关系，每个大规模点云数据由若干个窗格构成，还需记录该窗格的左上角坐标对应在该3D点云上的绝对(x，y)坐标信息，便于从2D语义分割结果到3D语义分割的映射。

步骤203)对单一窗格内的点云数据进行正则化。以X_i表示这个窗格中的所有点云，获取该窗格内所有点云数据横纵坐标的最小值x_min和y_min，使用g_scale对这个窗格内的所有点云进行正则化。

x_i＝int((x_i-x_min)/g_scale

y_i＝int((y_i-y_min)/g_scale

得到正则化后该窗格内所有点云数据横纵坐标的最大值，记为x_max和y_max，从0开始，依次遍历到x_max和y_max生成所有网格数据，对每一网格，遍历窗格中点云的所有点，如果某点的坐标在该网格内，就将该点划归到该网格中，遍历结束后，该窗格由x_max×y_max个网格组成，每个网格中包含干个点，此时需要记录每个网格中对应的所有离散的点云的绝对坐标(x，y，z)，以便从2D语义分割结果到3D点云结果的映射；

步骤204)遍历所有网格，保留每个网格下所有点中的z坐标的最大值的那个点，舍弃其余的点，并将该点的坐标值(x_i，y_i，z_i)赋给RGB图像中坐标为(x_i，y_i)处的RGB三通道的分量，将该点的深度坐标值z_i赋给Alt图像中坐标为(x_i，y_i)处的值，构成单通道的灰度图像，同时保存该点的坐标值(x_i，y_i，z_i)对应的标签信息作为2D图像语义分割的标签。当网格中没有点云数据时，以0填充RGB和Alt图像，对应标签信息对应无类别背景标签。

RGB[x_i，y_i]＝X_i[x_i，y_i，z_i]

Alt[x_i，y_i]＝z_i

步骤205)重复步骤203)和步骤204)，获得所有点云数据的一系列BEV投影，包含RGB图像和Alt深度投影图，其中RGB图像为三通道彩色图，Alt图像为单通道的灰度图。

步骤3)输入RGB图像、Alt深度图像和转化得到的2D语义分割标签，利用卷积神经网络提取特征，实现2D图像的语义分割过程。

鉴于本领域技术人员应当理解神经网络模型的训练过程，描述如下，如图2所示：

再进行网络模型的训练前，根据步骤2)，已有的数据为根据点云投影为RGB图像、Alt图像以及根据点云的标注信息生成的2D图像语义分割的标签信息。

基础网络为以ResNet50为骨干网络的DeepLab v3架构，首先将输入的RGB图像和Alt图像都缩放到(480，480)的大小，此时RGB图像的尺寸为(480，480，3)，由于Alt图像的尺寸为(480，480，1)，为使得网络能同样适用于输入通道为1的输入，将Alt灰度图像在通道方向添加两个全为0的维度。将两者分别作为DeepLab v3的输入数据，输出的数据尺寸为(480，480，num_class)其中每个像素点处有类别个数的通道数，其中数值最大的通道代表的类别就是图像中该像素的语义类别。

具体包括：

步骤301)DeepLab v3中的Block1，2，3，和4分别对应着ResNet50网络中的conv_2，conv_3，conv_4和conv_5及其中的一系列残差结构。输入的数据首先会通过卷积核为7×7，步距为2的卷积层，然后是池化核为3×3，步距为2的最大池化下采样，而后通过ResNet网络中的一系列残差结构，但需要注意的是，为了防止分辨率过低，从Block3开始，对应的一系列残差结构的第一个残差结构不在进行下采样，通过Block2之后，输入的BEV图像已经被下采样8倍，所以Block3和Block4中的第一个残差结构的第一个卷积层以及捷径分支上的步距都设置为1。此外在Block3当中将所有的3×3的卷积都替换为膨胀卷积，并设置所有膨胀卷积的膨胀系数都为2。在Block4中，所有的3×3的卷积层也都改成了膨胀卷积，膨胀系数设置为4。

在Block4输出的特征图上，连接ASPP结构，通过五个并联的分支，第一个分支为1×1的普通卷积层，三个分支为3×3的膨胀卷积，对应的膨胀系数分别为(12，24，36)，最后一个分支为全局池化层，以获得全局的信息。需要注意的是，与DeepLab v2不同的是，在1×1卷积层和3个3×3的膨胀卷积层后，都各自连接了BN和ReLU的激活函数。在全局池化分支上，有一个1×1的全局池化层，然后通过1×1的卷积层调整通道数，而后通过BN和ReLU的激活函数，最后通过双线性插值的方式，还原成与输入特征图尺寸一致的特征图。Alt数据和RGB数据分别通过上述网络，两者的特征图进行融合之前，输出的特征图的尺寸是相同的。

步骤302)基于注意力机制，得到关键的特征图进行拼接

从Alt和RGB分支会产生十个特征图，这些特征图得尺寸均为(60，60，256)，将特征图展成特征向量，基于注意力机制，输出五个特征向量。

注意力机制的表示形式为：attention_output＝Attention(Q,K,V)(Q:Query,K:key，V:Value)。通过对获得的十个特征向量，在Q，K，V上做投影，得到关键的5个特征向量。融合前先将输出的五个特征向量还原成60×60的特征图，然后沿特征图的通道方向进行拼接，拼接后得到的特征图尺寸为(60，60，1280)通过1×1的卷积层更改通道数为语义分割的类别个数再通过BN和ReLU层，再通过双线性插值做8倍的上采样，还原到原图的尺度。此时每个像素处对应有类别个数的通道数，其中数值最大的通道对应的类别就是该像素的语义分割类别。

步骤4)将2D语义分割结果映射到3D点云数据上，如图3所示。

一张BEV图片得到的是一个窗格的2D语义分割结果，对应于原大规模点云上的一部分。窗格中每个像素点对应了窗格中每个网格的语义分割类别，首先确定该窗格对应于原大规模点云的位置。在步骤2)中记录了窗格中每个网格中包含的离散的真实3D点云的绝对坐标，每个网格又对应于2D语义分割中该位置处的像素点，即像素值对应的类别信息就是该网格内所有点的类别信息(网格中的点云数据(x,y)坐标在一定范围内，z坐标不等),将每个像素点的值赋给对应网格位置处的3D点云数据，完成从2D语义分割结果到3D语义分割的映射。

实施例2

本发明的实施例2提出了一种基于鸟瞰投影的飞行汽车3D语义分割系统，基于实施例1的方法实现，所述系统包括2D图像语义分割模型、尺寸裁剪模块、投影模块、2D语义分割处理模块和3D语义分割处理模块；

实施例3

一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现实施例1的方法。

实施例4

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行实施例1的方法。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于鸟瞰投影的飞行汽车3D语义分割方法，所述方法包括：

2.根据权利要求1所述的基于鸟瞰投影的飞行汽车3D语义分割方法，其特征在于，所述步骤2)具体包括：

步骤201)设定比例因子g_scale为固定值，对尺寸裁剪后的点云数据进行缩小，使得稀疏的点云数据变得稠密；

3.根据权利要求2所述的基于鸟瞰投影的飞行汽车3D语义分割方法，其特征在于，所述步骤203)的使用比例因子g_scale对单一窗格内的点云数据进行正则化；具体包括：

4.根据权利要求1所述的基于鸟瞰投影的飞行汽车3D语义分割方法，其特征在于，所述2D图像语义分割模型包括：RGB分支、Alt分支、注意力机制模块和拼接模块；其中RGB分支和Alt分支并联后依次连接注意力机制模块和拼接模块；

5.根据权利要求4所述的基于鸟瞰投影的飞行汽车3D语义分割方法，其特征在于，所述基础网络为以ResNet50为骨干网络的DeepLabv3架构，包括依次连接的4个Block层，其中，Block1和Block2均包括：卷积核为7×7，步距为2的卷积层，池化核为3×3，步距为2的最大池化下采样，以及ResNet网络中的一系列残差结构；Block3和Block4中的第一个残差结构的第一个卷积层以及捷径分支上的步距都设置为1，Block3中的所有3×3的卷积层均替换为膨胀卷积，膨胀系数设置为2，Block4中的所有3×3的卷积层均替换为膨胀卷积，膨胀系数设置为4；

6.根据权利要求5所述的基于鸟瞰投影的飞行汽车3D语义分割方法，其特征在于，所述方法还包括2D图像语义分割模型的训练步骤；具体包括：

建立训练集；

7.根据权利要求6所述的基于鸟瞰投影的飞行汽车3D语义分割方法，其特征在于，所述建立训练集具体包括：

8.一种基于鸟瞰投影的飞行汽车3D语义分割系统，其特征在于，所述系统包括2D图像语义分割模型、尺寸裁剪模块、投影模块、2D语义分割处理模块和3D语义分割处理模块；

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行权利要求1至7任一项所述的方法。