CN114972763A

CN114972763A - 激光雷达点云分割方法、装置、设备及存储介质

Info

Publication number: CN114972763A
Application number: CN202210894615.8A
Authority: CN
Inventors: 李镇; 颜旭; 高建焘; 郑超达; 崔曙光
Original assignee: Chinese University Of Hong Kong Shenzhen Future Intelligent Network Research Institute
Current assignee: Chinese University Of Hong Kong Shenzhen Future Intelligent Network Research Institute
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2022-08-30
Anticipated expiration: 2042-07-28
Also published as: CN114972763B; US20240212374A1; WO2024021194A1

Abstract

本发明公开了一种激光雷达点云分割方法、装置、设备及存储介质，用于解决现有的点云数据分割方案对计算资源消耗较大，且分割准确度较低的技术问题。该方法通过获取目标场景的三维点云和二维图像，并对二维图像进行图块化处理，得到多个图像块，从多个图像块中随机选择一个输出至预设的二维特征提取网络中特征提取，生成多尺度二维特征，利用预设的三维特征提取网络，基于三维点云进行特征提取，生成多尺度三维特征，根据多尺度二维特征和多尺度三维特征进行融合处理，得到融合特征，对融合特征进行单向模态保持的蒸馏，得到单模态语义分割模型；基于单模态语义分割模型以三维点云作为输入进行判别，得到语义分割标签对目标场景进行分割。

Description

激光雷达点云分割方法、装置、设备及存储介质

技术领域

本发明涉及图像技术领域，尤其涉及一种激光雷达点云分割方法、装置、设备及存储介质。

背景技术

语义分割算法在大规模户外场景理解中起着至关重要的作用，在自动驾驶和机器人技术中有着广泛的应用。在过去的几年里，科研学者投入了大量精力来使用相机图像或激光雷达（LiDAR）点云作为输入来理解自然场景。然而，由于所使用的传感器固有的限制，这些单模态方法不可避免地在复杂环境中面临挑战。具体来说，相机提供了密集的颜色信息和细粒度的纹理，但它们在深度感应方面不明确，在弱光条件下也不可靠。相比之下，无论光照变化如何，LiDAR 都能可靠地提供准确和广泛的深度信息，但只能捕获稀疏和无纹理的数据。

目前，通过提供融合策略的方式来对相机和激光雷达这两个互补的传感器的信息进行改进，但是基于融合策略提高分割准确度的方法具有以下不可避免的局限性：

1）由于相机和 LiDAR 之间的视野（field of views，FOV）不同，无法为图像平面外的点建立点到像素的映射。通常，LiDAR和相机的FOV仅在一小部分区域重叠，这极大地限制了基于融合的方法的应用。

2）基于融合的方法消耗更多的计算资源，因为它们在运行时同时处理图像和点云，这给实时应用带来了很大的负担。

发明内容

本发明的主要目的在于提供了一种激光雷达点云分割方法、装置、设备及存储介质，以解决现有的点云数据分割方案对计算资源消耗较大，且分割准确度较低的技术问题。

本发明第一方面提供了一种激光雷达点云分割方法，所述激光雷达点云分割方法包括：

获取目标场景的三维点云和二维图像，并对所述二维图像进行图块化处理，得到多个图像块；

从多个所述图像块中随机选择一个输出至预设的二维特征提取网络中特征提取，生成多尺度二维特征；

利用预设的三维特征提取网络，基于所述三维点云进行特征提取，生成多尺度三维特征；

根据多尺度二维特征和多尺度三维特征进行融合处理，得到融合特征；

对所述融合特征进行单向模态保持的蒸馏，得到单模态语义分割模型；

获取待分割的场景三维点云，将其输入至所述单模态语义分割模型中进行语义判别，得到语义分割标签，并基于所述语义分割标签对所述目标场景进行分割。

可选的，所述预设的二维特征提取网络至少包括二维卷积编码器；所述从多个所述图像块中随机选择一个输出至预设的二维特征提取网络中进行特征提取，生成多尺度二维特征，包括：

利用随机算法从多个所述图像块中确定目标图像块，并基于所述目标图像块构建二维特征图；

通过所述二维卷积编码器，基于不同尺度对所述二维特征图进行二维卷积计算，得到多尺度二维特征。

可选的，所述预设的二维特征提取网络还包括全卷积解码器；在所述通过所述二维卷积编码器，基于不同尺度对所述二维特征图进行二维卷积计算，得到多尺度二维特征之后，还包括：

提取多尺度二维特征中属于所述二维卷积编码器中最后一层卷积层的二维特征；

通过所述全卷积解码器，采用向上采样策略对最后一层卷积层的二维特征进行逐步采样，得到解码特征图；

利用所述二维卷积编码器中的最后一层卷积层，对所述解码特征图进行卷积计算，得到新的多尺度二维特征。

可选的，所述预设的三维特征提取网络至少包括采用稀疏卷积构造的三维卷积编码器；所述利用预设的三维特征提取网络，基于所述三维点云进行特征提取，生成多尺度三维特征，包括：

利用所述三维卷积编码器，提取所述三维点云中的非空体素，并对所述非空体素进行卷积计算，得到三维卷积特征；

利用向上采样策略对所述三维卷积特征进行上采样操作，得到解码特征；

若采样到的特征的尺寸与原始特征的尺寸相同时，将所述三维卷积特征与所述解码特征进行拼接，得到多尺度三维特征。

可选的，在所述利用预设的三维特征提取网络，基于所述三维点云进行特征提取，生成多尺度三维特征之后，在所述根据多尺度二维特征和多尺度三维特征进行融合处理，得到融合特征之前，还包括：

利用返卷积操作，将多尺度二维特征的分辨率调整至所述二维图像的分辨率；

基于调整后的多尺度二维特征，利用透视投影法计算其与对应的点云之间的映射关系，生成点到像素映射关系；

基于所述点到像素映射关系确定对应的二维真值标签；

利用预设的体素化函数，构建所述三维点云中各点云点体素映射关系；

根据所述点体素映射关系对多尺度三维特征进行随机线性插值，得到各点云的三维特征。

可选的，所述根据多尺度二维特征和多尺度三维特征进行融合处理，得到融合特征，包括：

利用基于GRU启发的融合，将所述点云的三维特征转换为二维特征；

利用多层感知机制感知所述二维特征对应的其他卷积层得到的点云的三维特，并计算两者之间的差距，以及将所述二维特征与在解码特征图中对应的二维特征进行拼接；

基于所述差距和拼接的结果，得到融合特征。

可选的，所述对所述融合特征进行单向模态保持的蒸馏，得到单模态语义分割模型，包括：

将所述融合特征和转换后的二维特征依次输入至所述维特征提取网络中的全连接层获得对应的语义分数；

基于所述语义分数确定蒸馏损失；

根据所述蒸馏损失，对所述融合特征进行单向模态保持的蒸馏，得到单模态语义分割模型。

本发明第二方面提供了激光雷达点云分割装置，包括：

采集模块，用于获取目标场景的三维点云和二维图像，并对所述二维图像进行图块化处理，得到多个图像块；

二维提取模块，用于从多个所述图像块中随机选择一个输出至预设的二维特征提取网络中特征提取，生成多尺度二维特征；

三维提取模块，用于利用预设的三维特征提取网络，基于所述三维点云进行特征提取，生成多尺度三维特征；

融合模块，用于根据多尺度二维特征和多尺度三维特征进行融合处理，得到融合特征；

模型生成模块，用于对所述融合特征进行单向模态保持的蒸馏，得到单模态语义分割模型；

分割模块，用于获取待分割的场景三维点云，将其输入至所述单模态语义分割模型中进行语义判别，得到语义分割标签，并基于所述语义分割标签对所述目标场景进行分割。

可选的，所述预设的二维特征提取网络至少包括二维卷积编码器；所述二维提取模块包括：

构建单元，用于利用随机算法从多个所述图像块中确定目标图像块，并基于所述目标图像块构建二维特征图；

第一卷积单元，用于通过所述二维卷积编码器，基于不同尺度对所述二维特征图进行二维卷积计算，得到多尺度二维特征。

可选的，所述预设的二维特征提取网络还包括全卷积解码器；所述二维提取模块还包括第一解码单元，其具体用于：

可选的，所述预设的三维特征提取网络至少包括采用稀疏卷积构造的三维卷积编码器；所述三维提取模块包括：

第二卷积单元，用于利用所述三维卷积编码器，提取所述三维点云中的非空体素，并对所述非空体素进行卷积计算，得到三维卷积特征；

第二解码单元，用于利用向上采样策略对所述三维卷积特征进行上采样操作，得到解码特征；

拼接单元，用于在采样到的特征的尺寸与原始特征的尺寸相同时，将所述三维卷积特征与所述解码特征进行拼接，得到多尺度三维特征。

可选的，所述激光雷达点云分割装置还包括：插值模块，其具体用于：

基于所述点到像素映射关系确定对应的二维真值标签；

可选的，所述融合模块包括：

转换单元，用于利用基于GRU启发的融合，将所述点云的三维特征转换为二维特征；

计算拼接单元，用于利用多层感知机制感知所述二维特征对应的其他卷积层得到的点云的三维特，并计算两者之间的差距，以及将所述二维特征与在解码特征图中对应的二维特征进行拼接；

融合单元，用于基于所述差距和拼接的结果，得到融合特征。

可选的，所述模型生成模块包括：

语义获取单元，用于将所述融合特征和转换后的二维特征依次输入至所述维特征提取网络中的全连接层获得对应的语义分数；

确定单元，用于基于所述语义分数确定蒸馏损失；

蒸馏单元，用于根据所述蒸馏损失，对所述融合特征进行单向模态保持的蒸馏，得到单模态语义分割模型。

本发明第三方面提供了一种电子设备，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述第一方面提供的激光雷达点云分割方法中的各个步骤。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面提供的激光雷达点云分割方法中的各个步骤。

有益效果：

本发明的技术方案中，通过获取目标场景的三维点云和二维图像，并对二维图像进行图块化处理，得到多个图像块，从多个图像块中随机选择一个输出至预设的二维特征提取网络中特征提取，生成多尺度二维特征，利用预设的三维特征提取网络，基于三维点云进行特征提取，生成多尺度三维特征，根据多尺度二维特征和多尺度三维特征进行融合处理，得到融合特征，对融合特征进行单向模态保持的蒸馏，得到语义分割标签，并基于语义分割标签对目标场景进行分割；通过对二维图像和三维点云的独立编码后进行融合，基于融合特征采用单向模态蒸馏，以得到单模态语义分割模型；基于单模态语义分割模型以三维点云作为输入进行判别，得到语义分割标签，这样得到的语义分割标签融合的二维和三维，充分利用了二维特征辅助三维点云进行语义分割，与基于融合的方法相比，这有效地避免了在实际应用中额外的计算负担。解决现有的点云数据分割方案对计算资源消耗较大，且分割准确度较低的技术问题。

附图说明

图1为本发明提供的激光雷达点云分割方法的原理图；

图2为本发明提供的激光雷达点云分割方法的第一个实施例示意图；

图3为本发明提供的激光雷达点云分割方法的第二个实施例示意图；

图4（a）为本发明提供的2D特征生成的原理图；

图4（b）为本发明提供的3D特征生成的原理图；

图5为本发明提供的融合与蒸馏的原理图；

图6为本发明提供的激光雷达点云分割装置的一个实施例示意图；

图7为本发明提供的激光雷达点云分割装置的另一个实施例示意图；

图8为本发明提供的电子设备的一个实施例示意图。

具体实施方式

针对现有的通过摄像头和激光雷达传感器捕获的信息进行融合，以实现多模态数据融合进行语义分割的方案中，因为摄像机图像非常大(例如，像素分辨率为1242×512)，所以将原始图像发送到多模态管道是很难的。对此本申请提出了一种基于二维先验辅助的激光雷达点云分割方案 (2DPASS，2D Priors Assisted Semantic Segmentation)。这是一种通用的训练方案，以促进点云上的表示学习。所提出的2DPASS算法在训练过程中充分利用了具有丰富外观的2D图像，但在推理阶段却不需要成对的数据作为输入。具体而言，2DPASS算法通过利用一个辅助模态融合模块和多尺度fusion-to-single知识蒸馏（MSFSKD）模块，从多模态数据中获取更丰富的语义和结构信息，然后将其提炼到纯3D网络。因此，在2DPASS的帮助下, 仅使用点云输入，模型都能获得显着的改进。

具体的如图1所示，从原始相机图像中随机抽取一个小块(像素分辨率为480×320)作为2D输入，在不降低性能的情况下加速了训练处理。然后将裁剪后的图像块和LiDAR点云分别经过独立的2D和3D编码器，并行提取两个主干的多尺度特征。然后，通过多尺度融合到单一知识蒸馏(MSFSKD)方法以多模态特征增强三维网络，即充分利用纹理和颜色感知的二维先验，同时保留原始的三维特定知识。最后，利用每个尺度的2D和3D特征生成语义分割预测，由纯3D标签进行监督。在推理过程中，可以丢弃与2D相关的分支，与基于融合的方法相比，这有效地避免了在实际应用中额外的计算负担。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1和2所示，本发明实施例中激光雷达点云分割方法的第一个实施例，该方法包括以下步骤：

101、获取目标场景的三维点云和二维图像，并对二维图像进行图块化处理，得到多个图像块；

本实施例中，对于三维点云和二维图像的获取具体可以通过设置于自动驾驶车辆或终端上的激光雷达采集以及图像采集设备进行采集得到。

进一步的，对于将二维图像进行图块化处理，具体的通过图像识别模型对二维图像中的内容进行识别，其中可以通过景深度来识别二维图像中的环境信息和非环境信息，并基于识别结果在二维图像对应的区域上进行标记，基于标记利用图像切分算法进行切分提取，得到多个图像块。

进一步的，还可以按照预先设定的像素大小对二维图像等分划分为多个块，得到图像块。

102、从多个图像块中随机选择一个输出至预设的二维特征提取网络中特征提取，生成多尺度二维特征；

该步骤中，该二维特征提取网络为二维多尺度特征编码器，通过随机算法从多个图像块中选择一个输入至二维多尺度特征编码器中，有二维多尺度特征编码器从不同的尺度上对图像块进行特征提取，得到多尺度二维特征。

在本实施例中，所述预设的二维特征提取网络至少包括二维卷积编码器；利用随机算法从多个所述图像块中确定目标图像块，并基于所述目标图像块构建二维特征图；

103、利用预设的三维特征提取网络，基于三维点云进行特征提取，生成多尺度三维特征；

该步骤中，所述三维特征提取网络为单位卷积编码器，在进行特征提取时，具体是通过利用所述三维卷积编码器，提取所述三维点云中的非空体素，并对所述非空体素进行卷积计算，得到三维卷积特征；

104、根据多尺度二维特征和多尺度三维特征进行融合处理，得到融合特征；

在本实施例中，该融合处理具体可以通过百分比来进行叠加融合，也可以是通过提取不同通道的特征进行叠加融合。

在实际应用中，通过将三维特征降维处理后，通过多层感知机制分别采用向上感知三维特征和向下感知二维特征，并确定降维后的三维特征与感知的特征之间的相似关系来选择拼接。

105、对融合特征进行单向模态保持的蒸馏，得到单模态语义分割模型；

106、获取待分割的场景三维点云，将其输入至单模态语义分割模型中进行语义判别，得到语义分割标签，并基于语义分割标签对目标场景进行分割。

本实施例中，对于确定语义分割标签具体是通过将所述融合特征和转换后的二维特征依次输入至所述维特征提取网络中的全连接层获得对应的语义分数；基于所述语义分数确定蒸馏损失；根据所述蒸馏损失，对所述融合特征进行单向模态保持的蒸馏，得到语义分割标签；然后基于所述语义分割标签对所述目标场景进行分割。

本发明实施例中，获取目标场景的三维点云和二维图像，并对二维图像进行图块化处理，得到多个图像块，从多个图像块中随机选择一个输出至预设的二维特征提取网络中特征提取，生成多尺度二维特征，利用预设的三维特征提取网络，基于三维点云进行特征提取，生成多尺度三维特征，根据多尺度二维特征和多尺度三维特征进行融合处理，得到融合特征，对融合特征进行单向模态保持的蒸馏，得到单模态语义分割模型；基于单模态语义分割模型以三维点云作为输入进行判别，得到语义分割标签，并基于语义分割标签对目标场景进行分割；解决了现有的点云数据分割方案对计算资源消耗较大，且分割准确度较低的技术问题。

请参阅图1和3，本发明实施例中激光雷达点云分割方法的第二个实施例，该实施例以自动驾驶汽车为例，具体包括以下步骤：

201、通过汽车的前置摄像头采集当前环境的图像和利用激光雷达获取三维点云，并从图像中提取一小块作为二维图像；

该步骤中，由于汽车的摄像机图像非常大(例如，像素分辨率为1242×512)，所以将原始图像发送到多模态管道是很难的。因此，从原始相机图像中随机抽取一个小块(像素分辨率为480×320)作为2D输入，在不降低性能的情况下加速了训练处理。然后将裁剪后的图像块和LiDAR点云分别经过独立的2D和3D编码器，并行提取两个主干的多尺度特征。

202、利用2D/3D多尺度特征编码器分别对二维图像和三维点云的多尺度特征进行独立编码，得到二维和三维特征；

具体的，采用二维卷积ResNet34编码器作为二维特征提取网络。对于三维特征提取网络，采用稀疏卷积来构造三维网络。稀疏卷积的一个优点是稀疏性，卷积运算只考虑非空体素。具体来说，设计了一个分级编码器SPVCNN，在每个尺度上采用ResNet backbone的设计，同时用Leaky ReLU激活函数替代ReLU激活函数. 在这两个网络中，分别从不同的尺度提取特征图L，得到二维和三维特征，即

和

。

在本实施例中，所述预设的二维特征提取网络至少包括二维卷积编码器；所述从多个所述图像块中随机选择一个输出至预设的二维特征提取网络中进行特征提取，生成多尺度二维特征，包括：

进一步的，所述预设的二维特征提取网络还包括全卷积解码器；在所述通过所述二维卷积编码器，基于不同尺度对所述二维特征图进行二维卷积计算，得到多尺度二维特征之后，还包括：

进一步的，所述预设的三维特征提取网络至少包括采用稀疏卷积构造的三维卷积编码器；所述利用预设的三维特征提取网络，基于所述三维点云进行特征提取，生成多尺度三维特征，包括：

在实际应用中，上述的解码器具体可以采用2D/3D预测解码器（2D/3D PredictionDecoders）实现，在处理每个尺度的图像和点云的特征后，分别使用两个特定模态预测解码器将下采样的特征映射恢复到原始大小。

对于二维网络，我们采用FCN解码器对2D多尺度特征编码器中最后一层的特征进行逐步上采样。具体来说，通过下式，可以得到第L层的特征图

：

其中，ConvBlock(·)和DeConv(·)分别为核大小为3的卷积块和反卷积操作。将第一个解码器的特征图跳跃连接到最后一个编码器层，即:

. 最后，通过线性分类器从解码器传递特征图，得到二维图像块的语义分割结果。

对于三维网络，我们没有采用以往方法中使用的U-Net解码器。相反，我们将不同尺度的特征向上采样到原始大小，并将它们连接在一起，然后将它们输入分类器。我们发现这种结构可以更好地学习层次信息，同时更有效地获得预测。

203、利用返卷积操作，将多尺度二维特征的分辨率调整至二维图像的分辨率；

204、基于调整后的多尺度二维特征，利用透视投影法计算其与对应的点云之间的映射关系，生成点到像素映射关系；

205、基于点到像素映射关系确定对应的二维真值标签；

206、利用预设的体素化函数，构建三维点云中各点云点体素映射关系；

207、根据点体素映射关系对多尺度三维特征进行随机线性插值，得到各点云的三维特征；

在本实施例中，由于二维特征和三维特征通常分别表示为像素和点，因此难以在两种模式之间直接传递信息。在本节中，该方法的目标是利用点到像素的对应关系，生成两种模式的成对特征，以进一步进行知识蒸馏。以往的多传感器方法以整个图像或调整大小的图像作为输入，因为全局上下文通常可以得到更好的分割结果。在本文中，通过裁剪小块图像应用一种更有效的方法。证明，这种方法可以大大加快训练阶段，并表现出与拍摄整个图像同等的效果。在两种模式下成对特征生成的细节如图4（a）和图4（b）所示。其中，图4（a）演示了2D特征生成，首先将点云投影到图像块上，并生成点-像素(point-to-pixel, P2P)映射。然后，根据P2P映射将二维特征图转换为逐点二维特征。图4（b）展示了3D特征的生成。点-体素(P2V)映射容易获得，体素特征将被插值到点云上。

在实际应用中，二维特征生成过程如图图4（a）所示。从原始图像中裁剪出小块

，通过二维网络，可以在不同分辨率的隐藏层中提取出多尺度特征。以第l层的特征图

为例，首先进行一个反卷积操作，将其分辨率提升到原始的

。与最近的多传感器方法类似，采用透视投影并计算点云和图像之间的点-像素映射。具体来说，给定一个激光雷达点云

, 将3D点云的每个点

投影到图像平面的点

,公式如下：

其中

,

分别为相机内参矩阵和外参矩阵。K和T在KITTI数据集中直接提供。由于在NuScenes中激光雷达和摄像机的工作频率不同，通过全局坐标系将时间戳

的激光雷达帧转换为时间戳

的摄像机帧。NuScenes数据集给出了的外参矩阵T为：

投影后的点-像素映射由下式表示：

其中，

表示层运算操作。根据点与像素的映射，如果

中包含了特征图上的任何一个像素，则从原始特征图

中提取一个逐点2D特征

这里

表示包含在

中点的个数。

对于三维特征的处理过程比较简单，如图图4（b）所示。具体来说，对于点云

，得到第l层(

-th layer)的点-体素映射，通过下式：

其中

是第l层的体素化的分辨率。然后，给定来自一个稀疏卷积层的3D特征

,根据

对原始特征图

进行3-NN插值，获得逐点3D特征

。最后，通过丢弃图像视野外的点来过滤这些点:

2D真值标签 (ground-truths)：由于只提供2D图像，通过使用上述点与像素映射，将三维点标签投影到相应的图像平面上，得到2D ground-truths。之后，投影得的2Dground truths可以作为2D分支的监督。

特征对应关系（Features Correspondence）：由于2D和3D特征都使用相同的点与像素映射，所以在任意第l层的2D特征

和3D特征

都具有数量相同的点

以及相同的点与像素对应关系。

208、利用基于GRU启发的融合，将点云的三维特征转换为二维特征；

该步骤中，基于GRU启发的融合(GRU-inspired Fusion). 对于每个尺度，考虑到由于不同的神经网络骨干(backbones)而产生的2D和3D特征差距，直接将原始的3D特征

融合为对应的2D特征

是无效的。因此，受到门控循环单元（Gate RecurrentUnit, GRU）内部“重置门reset gate”的启发，先将

转换为

,定义为2Dlearner，通过一个多层感知机 (MLP)，努力缩小两个特征的差距。随后，

不仅一边进入另一个MLP（感知），一边进入与2D特征

的后续拼接，以获得融合特征

，而且可以通过跳跃连接回到原始的3D特征，从而产生增强的3D特征

。此外，类似于GRU中使用的“更新门update gate”设计，最后增强融合特征

由下式获得：

这里，σ为Sigmoid激活函数。

209、利用多层感知机制感知二维特征对应的其他卷积层得到的点云的三维特，并计算两者之间的差距，以及将二维特征与在解码特征图中对应的二维特征进行拼接；

210、基于差距和拼接的结果，得到融合特征；

在本实施例中，上述融合特征实质上是基于3.多尺度融合-单一知识蒸馏(MSFSKD)的方式得到，具体的：MSFSKD是2DPASS的关键，其目的是利用辅助的二维先验，通过融合再蒸馏的方式，提高每个尺度的三维表示。MSFSKD的知识蒸馏(KD)设计部分受到了XMUDA的启发。然而，XMUDA以一种朴素的跨模态方式处理KD，即简单地将两组单模态特征(即2D或3D)的输出对齐，这不可避免地将两组模态特征推入它们的重叠空间。因此，这种方式实际上丢弃了特定模态的信息，这是多传感器分割的关键。虽然这个问题可以通过引入额外的分割预测层来缓解，但它是跨模态蒸馏固有的，导致预测有偏差。为此，提出了多尺度融合到单一知识蒸馏(MSFSKD)模块，如图5所示。该算法首先将图像和点云的特征进行融合，然后将融合后的和点云的特征进行单向对齐。先融合后蒸馏方法中，融合很好地保留了来自多模态数据的完整信息。此外，单向对齐保证了融合后增强的点云的特征不丢失任何模态特征信息。

211、对融合特征进行单向模态保持的蒸馏，得到单模态语义分割模型；

212、获取待分割的场景三维点云，将其输入至单模态语义分割模型中进行语义判别，得到语义分割标签，并基于语义分割标签对目标场景进行分割。

在本实施例中，将所述融合特征和转换后的二维特征依次输入至所述维特征提取网络中的全连接层获得对应的语义分数；

基于所述语义分数确定蒸馏损失；

进一步的，获取待分割的场景三维点云，将其输入至所述单模态语义分割模型中进行语义判别，得到语义分割标签；基于所述语义分割标签对所述目标场景进行分割。

在实际应用中，模态保持的蒸馏(Modality-Preserving KD). 虽然

是由纯3D特征生成的，但它也会受到2D解码器分割损失的影响，该解码器以增强的融合特征

作为输入。就像融合和点特征之间的残差，2D learner

可以很好地防止蒸馏污染

中的特定模态信息，实现Modality-Preserving KD。最后，在

和

分别应用两个独立的分类器(全连接层) 获取语义分数

和

，我们选择KL散度作为蒸馏损失

，如下所示:

在实现中，在计算

时，将

从计算图中分离出来，只将

向

推近，加强单向蒸馏。

综上，采用这样的知识蒸馏方案，有以下几个优点:

1) 2D leaner和融合与单一蒸馏提供了丰富的纹理信息和结构正则化，以增强3D特征学习，同时不丢失3D中任何模态特定信息。

2)融合分支仅在训练阶段采用。因此，增强的模型在推理过程中几乎不需要额外的计算开销。

本实施例中，从原始相机图像中随机抽取一个小块(像素分辨率为480×320)作为2D输入，在不降低性能的情况下加速了训练处理。然后将裁剪后的图像块和LiDAR点云分别经过独立的2D和3D编码器，并行提取两个主干的多尺度特征。然后，通过多尺度融合到单一知识蒸馏(MSFSKD)方法以多模态特征增强三维网络，即充分利用纹理和颜色感知的二维先验，同时保留原始的三维特定知识。最后，利用每个尺度的2D和3D特征生成语义分割预测，由纯3D标签进行监督。在推理过程中，可以丢弃与2D相关的分支，与基于融合的方法相比，这有效地避免了在实际应用中额外的计算负担。解决现有的点云数据分割方案对计算资源消耗较大，且分割准确度较低的技术问题。

上面对本发明实施例中激光雷达点云分割方法进行了描述，下面对本发明实施例中激光雷达点云分割装置进行描述，请参阅图6，本发明实施例中激光雷达点云分割装置一个实施例包括：

采集模块610，用于获取目标场景的三维点云和二维图像，并对所述二维图像进行图块化处理，得到多个图像块；

二维提取模块620，用于从多个所述图像块中随机选择一个输出至预设的二维特征提取网络中特征提取，生成多尺度二维特征；

三维提取模块630，用于利用预设的三维特征提取网络，基于所述三维点云进行特征提取，生成多尺度三维特征；

融合模块640，用于根据多尺度二维特征和多尺度三维特征进行融合处理，得到融合特征；

模型生成模块650，用于对所述融合特征进行单向模态保持的蒸馏，得到单模态语义分割模型；

分割模块660，用于获取待分割的场景三维点云，将其输入至所述单模态语义分割模型中进行语义判别，得到语义分割标签，并基于所述语义分割标签对所述目标场景进行分割。

本实施例提供的装置，通过对二维图像和三维点云的独立编码后进行融合，基于融合特征采用单向模态蒸馏，以得到单模态语义分割模型；基于单模态语义分割模型以三维点云作为输入进行判别，得到语义分割标签，这样得到的语义分割标签融合的二维和三维，充分利用了二维特征辅助三维点云进行语义分割，与基于融合的方法相比，这有效地避免了在实际应用中额外的计算负担。解决现有的点云数据分割方案对计算资源消耗较大，且分割准确度较低的技术问题。

进一步地，请参阅图7，图7为激光雷达点云分割装置各个模块的细化示意图。

在本实施例另一实施例中，所述预设的二维特征提取网络至少包括二维卷积编码器；所述二维提取模块620包括：

构建单元621，用于利用随机算法从多个所述图像块中确定目标图像块，并基于所述目标图像块构建二维特征图；

第一卷积单元622，用于通过所述二维卷积编码器，基于不同尺度对所述二维特征图进行二维卷积计算，得到多尺度二维特征。

在本实施例另一实施例中，所述预设的二维特征提取网络还包括全卷积解码器；所述二维提取模块还包括第一解码单元623，其具体用于：

在本实施例另一实施例中，所述预设的三维特征提取网络至少包括采用稀疏卷积构造的三维卷积编码器；所述三维提取模块630包括：

第二卷积单元631，用于利用所述三维卷积编码器，提取所述三维点云中的非空体素，并对所述非空体素进行卷积计算，得到三维卷积特征；

第二解码单元623，用于利用向上采样策略对所述三维卷积特征进行上采样操作，得到解码特征；

拼接单元633，用于在采样到的特征的尺寸与原始特征的尺寸相同时，将所述三维卷积特征与所述解码特征进行拼接，得到多尺度三维特征。

在本实施例另一实施例中，所述激光雷达点云分割装置还包括：插值模块660，其具体用于：

基于所述点到像素映射关系确定对应的二维真值标签；

在本实施例另一实施例中，所述融合模块640包括：

转换单元641，用于利用基于GRU启发的融合，将所述点云的三维特征转换为二维特征；

计算拼接单元642，用于利用多层感知机制感知所述二维特征对应的其他卷积层得到的点云的三维特，并计算两者之间的差距，以及将所述二维特征与在解码特征图中对应的二维特征进行拼接；

融合单元643，用于基于所述差距和拼接的结果，得到融合特征。

在本实施例另一实施例中，所述分割模块650包括：

语义获取单元651，用于将所述融合特征和转换后的二维特征依次输入至所述维特征提取网络中的全连接层获得对应的语义分数；

确定单元652，用于基于所述语义分数确定蒸馏损失；

蒸馏单元653，用于根据所述蒸馏损失，对所述融合特征进行单向模态保持的蒸馏，得到单模态语义分割模型。

通过上述装置的实施，从原始相机图像中随机抽取一个小块(像素分辨率为480×320)作为2D输入，在不降低性能的情况下加速了训练处理。然后将裁剪后的图像块和LiDAR点云分别经过独立的2D和3D编码器，并行提取两个主干的多尺度特征。然后，通过多尺度融合到单一知识蒸馏(MSFSKD)方法以多模态特征增强三维网络，即充分利用纹理和颜色感知的二维先验，同时保留原始的三维特定知识。最后，利用每个尺度的2D和3D特征生成语义分割预测，由纯3D标签进行监督。在推理过程中，可以丢弃与2D相关的分支，与基于融合的方法相比，这有效地避免了在实际应用中额外的计算负担。解决现有的点云数据分割方案对计算资源消耗较大，且分割准确度较低的技术问题。

上面图6和图7从模块化功能实体的角度对本发明实施例中的激光雷达点云分割装置进行详细描述，下面从硬件处理的角度对本发明实施例中电子设备进行详细描述。

图8是本发明实施例提供了一种电子设备的结构示意图，该电子设备800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（Central ProcessingUnits，CPU）810（例如，一个或一个以上处理器）和存储器820，一个或一个以上存储应用程序833或数据832的存储介质830（例如一个或一个以上海量存储设备）。其中，存储器820和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对电子设备800中的一系列指令操作。更进一步地，处理器810可以设置为与存储介质830通信，在电子设备800上执行存储介质830中的一系列指令操作。

电子设备800还可以包括一个或一个以上电源840，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口860，和/或，一个或一个以上操作系统831，例如：WindowsServe，MacOSX，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图8示出的电子设备结构还可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明实施例还提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述实施例提供的激光雷达点云分割方法中的各个步骤。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令或计算机程序，当所述指令或计算机程序被运行时，使得计算机执行上述实施例提供的激光雷达点云分割方法的各个步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统或装置、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种激光雷达点云分割方法，其特征在于，所述激光雷达点云分割方法包括：

2.根据权利要求1所述的激光雷达点云分割方法，其特征在于，所述预设的二维特征提取网络至少包括二维卷积编码器；所述从多个所述图像块中随机选择一个输出至预设的二维特征提取网络中进行特征提取，生成多尺度二维特征，包括：

3.根据权利要求2所述的激光雷达点云分割方法，其特征在于，所述预设的二维特征提取网络还包括全卷积解码器；在所述通过所述二维卷积编码器，基于不同尺度对所述二维特征图进行二维卷积计算，得到多尺度二维特征之后，还包括：

4.根据权利要求1所述的激光雷达点云分割方法，其特征在于，所述预设的三维特征提取网络至少包括采用稀疏卷积构造的三维卷积编码器；所述利用预设的三维特征提取网络，基于所述三维点云进行特征提取，生成多尺度三维特征，包括：

5.根据权利要求1-4中任一项所述的激光雷达点云分割方法，其特征在于，在所述利用预设的三维特征提取网络，基于所述三维点云进行特征提取，生成多尺度三维特征之后，在所述根据多尺度二维特征和多尺度三维特征进行融合处理，得到融合特征之前，还包括：

基于所述点到像素映射关系确定对应的二维真值标签；

6.根据权利要求5所述的激光雷达点云分割方法，其特征在于，所述根据多尺度二维特征和多尺度三维特征进行融合处理，得到融合特征，包括：

基于所述差距和拼接的结果，得到融合特征。

7.根据权利要求6所述的激光雷达点云分割方法，其特征在于，所述对所述融合特征进行单向模态保持的蒸馏，得到单模态语义分割模型，包括：

基于所述语义分数确定蒸馏损失；

8.一种激光雷达点云分割装置，其特征在于，所述激光雷达点云分割装置包括：

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的激光雷达点云分割方法中的各个步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的激光雷达点云分割方法中的各个步骤。