CN115965783A

CN115965783A - 一种基于点云和图像特征融合的非结构化道路分割方法

Info

Publication number: CN115965783A
Application number: CN202211647922.2A
Authority: CN
Inventors: 李旭; 冯允佳; 倪培洲; 张学文
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-12-21
Filing date: 2022-12-21
Publication date: 2023-04-14

Abstract

本发明提出了一种基于点云和图像特征融合的非结构化道路分割方法。首先，利用自动驾驶仿真模拟器CARLA构建非结构化道路场景的数据集。然后，针对点云数据特性设计了用于训练和推理的3D主干网络，针对图像数据的特征设计了用于辅助训练的2D网络。接着，利用知识蒸馏进行点云‑图像特征融合，在保留原有3D特征知识的基础上，充分利用2D特征的纹理和颜色特征作为先验信息辅助训练，利用多模态特征增强3D主干网络。最后，利用自建的非结构化道路场景数据集训练模型，并进行非结构化道路分割。本发明有效解决了当前非结构化道路场景数据集稀缺的问题，并将互补的多模态特征进行有效的提取和融合，进一步提高了非结构化道路分割的准确性和高效性。

Description

一种基于点云和图像特征融合的非结构化道路分割方法

技术领域

本发明属于计算机视觉与车辆交通领域，涉及一种针对非结构化道路的语义分割方法，尤其涉及一种基于点云和图像特征融合的非结构化道路分割方法。

背景技术

自动驾驶技术发展的最终目的是在任何环境下都不需要人类的注意，对可行驶道路进行有效分割是实现这一目标的关键任务之一。现有的研究大多集中在车道线清晰、路面规整、标志物明确的结构化道路场景，而对于非结构化道路场景，存在道路边界模糊、道路形状不规整等问题，因此为道路分割带来了巨大挑战。

目前，激光雷达和RGB相机是自动驾驶数据采集中两类常用的不同模态的传感器，用以获取不同模态的数据。由于不同模态数据之间存在较大差异，现有方法大多采用单一传感器采集的单模态数据作为输入。然而，单模态数据有限的特征难以支持道路分割精度的进一步提升，因此需要将多模态特征进行融合。激光雷达采集的3D点云数据包含丰富的结构信息，不受天气和光照影响，但只能捕获稀疏和无纹理的数据；RGB相机采集的2D图像数据包含丰富的纹理和颜色信息，但缺乏三维特征，在弱光条件下不可靠。因此，需要设计一种将点云特征与图像特征进行有效融合的方法，提升非结构化场景下道路分割的效果。

近年来，深度学习的方法为解决非结构化道路分割问题提供了新思路，设计深度神经网络并利用大量的数据训练模型，增强特征表达能力。然而目前开源的自动驾驶数据集大多为城市背景下的结构化道路场景，几乎不涉及受损道路、灾后场景等非结构化道路场景。因此，根据分割任务构建一个具有针对性的非结构化道路场景数据集显得尤为重要。利用自动驾驶模拟器可以有效解决非结构化道路场景数据稀缺问题，模拟器中可对各类场景进行仿真，并可设置多种传感器，可为非结构化道路分割任务的进行提供强有力的支持。

发明内容

为解决上述问题，本发明公开了一种基于点云和图像特征融合的非结构化道路分割方法，针对多模态数据的不同特征设计相应的特征提取网络，并对多模态特征进行融合，利用自建的非结构化道路场景数据集训练模型，进一步提升非结构化道路语义分割在实际应用中的准确性和高效性。

为了达到上述目的，本发明提供如下技术方案：

基于点云-图像特征融合的非结构化道路分割方法，包括如下步骤：

(1)构建非结构化道路场景数据集

构建针对非结构化道路场景的数据集，利用自动驾驶仿真模拟器CARLA搭建非结构化道路场景，按照KITTI数据集格式对采集的数据进行处理。该非结构化道路场景的数据集包括RGB图像(1242×512)、图像的语义分割标签、点云数据、点云的语义分割标签、图像点云标定文件。

(2)设计3D主干网络

设计基于点云-体素的3D主干网络，输入为激光雷达采集的3D点云数据，该网络可用于训练和推理。具体实现方式包括以下子步骤：

子步骤1：设计体素支路网络，该支路将点云转化为体素进行操作，采用语义分割传统的编码器-解码器结构。具体包括：

①设计体素卷积模块。该模块由3D卷积层、批标准化层、LeakyReLU激活函数层组成。其中3D卷积层利用的卷积核大小为2，步长为2。

②设计体素反卷积模块。该模块由3D卷积层、批标准化层、LeakyReLU激活函数层组成。其中3D卷积层利用的卷积核大小为3的卷积核，步长为1。

③设计标准残差模块。该模块由3D卷积层和批标准化层组成，其中卷积核大小为3，步长为1。

④根据子步骤1中①和③设计下采样模块。该模块由一个①中的体素卷积模块和两个③中的残差模块组成。

⑤根据子步骤1中②和③设计上采样模块。该模块由一个②中的体素反卷积模块和两个③中的残差模块组成。

⑥根据上述子步骤1中①～⑤的模块，将所涉及的不同类型的网络模块进行组合，设计体素支路网络模型。通过对比不同网络架构下模型的准确性和高效性，得到最优网络如下：

点云预处理：首先对点云数据进行标准化，将所有点转换为以重心为原点的局部坐标系，并将这些点归一化到单位球中，将点坐标转化至[0,1]。然后将归一化后的点云栅格化，转化为三维体素的形式。

下采样层1：根据步骤1中④设计的下采样模块，先用32个大小为2的卷积核对原始体素做卷积，之后进行批标准化和LeakyReLU激活。然后用32个大小为3的卷积核做卷积，并进行批标准化。最后经过LeakyReLU激活，将原始体素转化为32维的特征向量。

下采样层2：根据步骤1中④设计的下采样模块，先用64个大小为2的卷积核对原始体素做卷积，之后进行批标准化和LeakyReLU激活。然后用64个大小为3的卷积核做卷积，并进行批标准化。最后经过LeakyReLU激活，将体素向量转化为64维的特征向量。

下采样层3：根据步骤1中④设计的下采样模块，先用128个大小为2的卷积核对原始体素做卷积，之后进行批标准化和LeakyReLU激活。然后用128个大小为3的卷积核做卷积，并进行批标准化。最后经过LeakyReLU激活，将体素向量转化为128维的特征向量。

下采样层4：根据步骤1中④设计的下采样模块，先用256个大小为2的卷积核对原始体素做卷积，之后进行批标准化和LeakyReLU激活。然后用256个大小为3的卷积核做卷积，并进行批标准化。最后经过LeakyReLU激活，将体素向量转化为256维的特征向量。

下采样层5：重复下采样层4的操作，得到更精确的256维的特征向量。

上采样层1：根据步骤1中⑤设计的上采样模块，先用256个大小为3的卷积核对原始体素做卷积，之后进行批标准化和LeakyReLU激活。将所得特征向量与下采样层4融合，然后用128个大小为3的卷积核做卷积，并进行批标准化。最后经过LeakyReLU激活，将体素向量转化为128维的特征向量。

上采样层2：根据步骤1中⑤设计的上采样模块，先用128个大小为3的卷积核对原始体素做卷积，之后进行批标准化和LeakyReLU激活。将所得特征向量与下采样层3融合，然后用64个大小为3的卷积核做卷积，并进行批标准化。最后经过LeakyReLU激活，将体素向量转化为64维的特征向量。

上采样层3：根据步骤1中⑤设计的上采样模块，先用64个大小为3的卷积核对原始体素做卷积，之后进行批标准化和LeakyReLU激活。将所得特征向量与下采样层2融合，然后用32个大小为3的卷积核做卷积，并进行批标准化。最后经过LeakyReLU激活，将体素向量转化为32维的特征向量。

上采样层4：根据步骤1中⑤设计的上采样模块，先用32个大小为3的卷积核对原始体素做卷积，之后进行批标准化和LeakyReLU激活。将所得特征向量与下采样层1融合，然后用32个大小为3的卷积核做卷积，并进行批标准化。最后经过LeakyReLU激活，得到更精准的32维特征向量。

子步骤2：设计点云融合支路网络，该支路直接对点云进行操作，设计针对点云序列的上采样层和下采样层。具体包括：

①设计点云卷积模块，卷积数量为3，全部设计为全连接结构。

②设计点云-体素融合模块，用于将点云序列的点和体素进行映射。首先为体素张量中的所有激活点构造一个哈希表，然后遍历点云张量中的所有点，使用每个点体素化坐标作为键，在体素张量中查询相应的索引。

③根据上述子步骤2中①、②模块，将所涉及的不同类型的网络模块进行组合，设计点云融合支路网络模型。通过对比不同网络架构下模型的准确性和高效性，得到最优网络如下：

点云下采样层1：利用子步骤2中①的点云卷积模块，利用全连接、批标准化、ReLU激活函数，将点云序列转化成32维特征向量。

点云下采样层2：利用子步骤2中①的点云卷积模块，利用全连接、批标准化、ReLU激活函数，将点云序列转化成64维特征向量。

点云-体素融合层1：利用子步骤2中②的体素-点云融合模块，将子步骤1中的下采样层5进行转化，并与点云下采样层2进行叠加，得到256维特征向量。

点云上采样层1：利用全连接、批标准化、ReLU激活函数对点云-体素融合层1进行操作，将点云序列转化成64维特征向量。

点云-体素融合层2：利用子步骤2中②的体素-点云融合模块，将子步骤1中的上采样层2进行转化，并与点云上采样层1进行叠加，得到32维特征向量。

点云上采样层2：利用全连接、批标准化、ReLU激活函数对点云-体素融合层2进行操作，将点云序列转化成64维特征向量。

点云-体素融合层3：利用子步骤2中②的体素-点云融合模块，将子步骤1中的上采样层4进行转化，并与点云上采样层2进行叠加，得到32维特征向量，即3D特征，表示为F^3D。

(3)设计2D辅助训练网络

设计的辅助语义分割网络为2D图像网络，输入为RGB相机采集的2D图像数据，该网络仅用于辅助训练，采用语义分割传统的编码器-解码器结构。利用透视投影进行图像-点云映射，将像素级特征转化为点级特征。具体实现方式包括以下子步骤：

子步骤1：设计2D特征提取网络，采用语编码器-解码器结构，对RGB图像进行处理，用于辅助训练

①设计2D卷积层。采用常规的2D卷积，卷积核大小为3，步长为1。

②设计池化层。采用最大池化，采样尺寸为2，步长为2。

③设计dropout层。采用dropout操作，在模型训练阶段的前向传播过程中让某些神经元的激活值以一定的概率停止工作，提升模型的泛化性能力。

④设计2D反卷积层。该层用于将特征图恢复到原始图片大小，采用常规的2D卷积，卷积核大小为3，步长为2。

⑤根据上述子步骤1中①～⑤的模块，将所涉及的不同类型的网络层进行组合，设计2D辅助训练网络。通过对比不同网络架构下模型的准确性和高效性，得到最优网络如下：

下采样层1：根据子步骤1中①～③中的设计，利用32个大小为3的卷积核，步长为1，对输入的RGB图像做卷积。对所得特征图进行批标准化处理，再利用大小为2的池化核，步长为2，进行最大池化操作，得到32维特征图。

下采样层2：根据子步骤1中①～③的设计，利用64个大小为3的卷积核，步长为1，对下采样层1中的32维特征图做卷积。对所得特征图进行批标准化处理，然后进行dropout操作，再利用大小为2的池化核，步长为2，进行最大池化操作，得到64维特征图。

下采样层3：根据子步骤1中①～③的设计，利用128个大小为3的卷积核，步长为1，对下采样层2中的64维特征图做卷积。对所得特征图进行批标准化处理，然后进行dropout操作，再利用大小为2的池化核，步长为2，进行最大池化操作，得到128维特征图。

下采样层4：根据子步骤1中①～③的设计，利用256个大小为3的卷积核，步长为1，对下采样层3中的128维特征图做卷积。对所得特征图进行批标准化处理，然后进行dropout操作，再利用大小为2的池化核，步长为2，进行最大池化操作，得到256维特征图。

上采样层1：根据子步骤1中②～④的设计，利用128个大小为3的卷积核，步长为2，对下采样层4中的256维特征图做反卷积。对所得特征图进行批标准化处理，然后进行dropout操作，将所得特征图与下采样层3中输出的特征图逐像素相加，得到128维特征图。

上采样层2：根据子步骤1中②～④的设计，利用64个大小为3的卷积核，步长为2，对上采样层1中的128维特征图做反卷积。对所得特征图进行批标准化处理，然后进行dropout操作，将所得特征图与下采样层2中输出的特征图逐像素相加，得到64维特征图。

上采样层3：根据子步骤1中②～④的设计，利用32个大小为3的卷积核，步长为2，对上采样层2中的64维特征图做反卷积。对所得特征图进行批标准化处理，然后进行dropout操作，将所得特征图与下采样层1中输出的特征图逐像素相加，得到32维特征图。

子步骤2：设计像素到点的映射模块。本发明采用透视投影，计算点云与图像之间的点到像素映射，将RGB图像的像素级特征映射转换为点级特征，得到点级2D特征，表示为F^2D，便于之后的特征融合。

用p_i＝(x_i,y_i,z_i)表示3D点云的坐标，用p'_i＝(u_i,v_i)表示点云投影到2D图像上的坐标，用K和T分别表示相机的内参矩阵和外参矩阵，可得3D点云投影到2D图像的转换关系如下：

(4)设计2D特征到3D特征的知识蒸馏网络

利用知识蒸馏，在保留原有3D特征知识的基础上，充分利用2D特征的纹理和颜色特征作为先验信息辅助训练，利用多模态特征增强3D主干网络。具体实现方式包括以下子步骤：

子步骤1：设计特征逼近模块。为方便表达，将(2)和(3)中提取的3D特征表示为F^3D，2D特征表示为F^2D。将F^3D输入一个多层感知机(MLP)，得到与F^2D相似的特征，表示为F^3D’，从而减小3D特征和2D特征的差异。

子步骤2：设计知识蒸馏网络。将子步骤1中得到特征F^3D’分为两路，一路与2D特征进行拼接操作实现多模态特征融合，得到3D2D融合特征，表示为F^3D2D；另一路连接回3D支路。对两路支路分别进行处理，具体操作如下：

①将F^3D2D输入进一个多层感知机，将所得结果输入进另一个多层感知机，并利用Sigmoid函数激活，将所得权重与上一多层感知机输出结果相乘，再与纯2D特征F^2D进行元素级相加，得到增强的3D2D融合特征，表示为F^3D2De。将所得结果输入全连接层，输出融合分割结果，该分割结果的损失函数会通过反向传播影响特征F^3D’。

②将F^3D’与纯3D特征F^3D进行元素级相加，得到增强的3D特征，表示为F^3De。将所得结果输入全连接层，输出3D分割结果。

③计算子步骤2中①和②中的融合分割结果和3D分割结果之间的KL散度，使3D分割结果向融合分割结果逼近，从而强化3D主干网络。

(5)网络模型训练

根据所设计的网络，将初始学习率设置为0.01，dropout率设置为0.5，batch size设置为2，epoch设置为64，利用自建的非结构化道路场景数据集与KITTI数据集进行混合训练，首先利用KITTI数据集对模型进行预训练，得到预训练权重，再利用非结构化道路场景数据集做进一步训练，得到最终的网络权重。

本发明具有如下优点和有益效果：

1、本发明针对非结构化环境公开数据集较少的问题，利用自动驾驶仿真模拟器CARLA搭建非结构化道路场景，并按照KITTI数据集格式对采集的数据进行处理，为模型训练提供支持。

2、本发明考虑到非结构化道路场景特征和实际应用的需要，在3D数据编码层面利用点云序列和体素结合的方式设计网络，保证了网络在具有实时性的前提下有较高的精度。

3、本发明充分利用3D点云数据的结构信息和2D图像数据的纹理和颜色信息，对多模态特征进行融合。训练时利用2D网络辅助3D主干网络，推理时仅利用3D主干网络，有效提升了语义分割效果同时也保证了模型推理的效率。

附图说明

图1是本发明的方法流程图。

图2是本发明的3D主干网络和2D辅助训练网络设计流程图。

图3是本发明的2D特征到3D特征的知识蒸馏网络。

具体实施方式

为解决上述存在的问题，本发明公开了一种基于点云-图像特征融合的非结构化道路分割方法。该方法利用了多模态数据，针对3D点云特征设计了3D主干网络，用于模型训练和推理；针对2D图像特征设计了2D辅助训练网络，仅用于辅助模型训练。此外，还设计了一个2D特征到3D特征的知识蒸馏网络，在保留原有3D特征知识的基础上，充分利用2D特征的纹理和颜色特征作为先验信息辅助训练，利用多模态特征增强3D主干网络。利用开源数据集以及自建的非结构化道路数据集对网络进行训练，获得网络参数，从而实现更高效更精确的非结构化道路分割。

本发明提供的基于点云-图像特征融合的非结构化道路分割方法，具体包括如下步骤：

(1)构建非结构化道路场景数据集

非结构化道路是指缺少或者没有人工标记的道路，由于现有包含此类场景的开源数据集较少，因此利用自动驾驶仿真模拟器CARLA搭建非结构化道路场景，利用模拟器内的激光雷法采集点云数据，利用模拟器内的相机采集可见光图像数据，按照KITTI数据集格式对采集的数据进行处理。

本发明构建了一个针对非结构化道路场景的数据集，包括RGB图像(1242×512)、图像的语义分割标签、点云数据、点云的语义分割标签、图像点云标定文件。

(2)设计3D主干网络

本发明设计的主干语义分割网络为点云-体素网络，输入为激光雷达采集的3D点云数据，该网络可用于训练和推理。

点云-体素网络由点云支路和体素支路组成。对于点云支路，直接对点云进行处理，可以高效捕捉高分辨率信息，对场景细粒度特征提取效果较好。该支路不设计卷积操作，可以有效降低随机访问内存的代价，但也会丢失邻距建模的能力。对于体素支路，将原始点云数据先转换为分辨率较低的体素网格，然后对网格进行卷积运算。针对非结构道路场景下点云的稀疏性，该支路在保证处理速度的同时，还可以捕捉点云间的邻距信息，对于场景的粗粒度特征提取效果较好。本发明针对非结构道路场景设计的点云-体素网络，将基于点云的方法和基于体素的方法进行互补融合，兼顾了算法的精度和效率。本发明的3D主干网络的具体实现方式包括以下子步骤：

子步骤1：设计体素支路网络，该支路将点云转化为体素进行操作，采用语义分割传统的编码器-解码器结构，设计了四层下采样编码层和四层上采样解码层。同时将上采样层与下采样层进行跨层连接，使上采样时网络恢复出来的特征融合更多的原始特征，让不同尺度的特征得以融合，以达到更好的分割效果。具体包括：

①设计体素卷积模块。该模块由3D卷积层、批标准化层、LeakyReLU激活函数层组成。3D卷积层用于特征提取，卷积核大小为2，步长为2，使得网络既能提取到场景中的细粒度特征又能兼顾卷积操作的处理速度；批标准化层用于解决训练困难梯度下降难的问题，使得训练深层网络模型更加容易和稳定，提升网络泛化能力；LeakyReLU激活函数层为ReLu激活函数的变体，用于增强模型分类能力。

②设计体素反卷积模块。该模块由3D卷积层、批标准化层、LeakyReLU激活函数层组成。做3D卷积时，考虑到非结构化场景特征的稀疏性，采用大小为3的卷积核，步长为1，一定程度上增大感受野的同时也尽可能减少了模型的复杂度。批标准化层、LeakyReLU激活函数层的作用与子步骤1中①类似。

③设计标准残差模块。该模块由3D卷积层和批标准化层组成，其中卷积核大小为3，步长为1。残差模块连接于体素卷积模块和体素反卷积模块之后，提升网络训练效率。

子步骤2：设计点云融合支路网络，该支路直接对点云进行操作，设计针对点云序列的上采样层和下采样层。在下采样阶段融合一次特征，在上采样阶段融合两次特征，从而保证上采样时网络能够恢复精度足够高的特征，以达到更好的分割效果。具体包括：

①设计点云卷积模块，卷积数量为3，全部设计为全连接结构。由于点云是一维的序列，为了建模细粒度的单个点特征，这里采用了比较常用且有效的做法，直接使用全连接层提取单个点的特征，这种高分辨率的单个点信息对于补充基于粗粒度体素的信息非常关键。

②设计点云-体素融合模块。该模块用于将点云序列的点和体素进行映射，由于普通的点云-体素转换方法时间复杂度较大，无法满足实时性应用，因此利用哈希表来加速点云-体素编码和解码。首先为体素张量中的所有激活点构造一个哈希表，该哈希表可以在O(n)时间内完成。然后遍历点云张量中的所有点，使用每个点体素化坐标作为键，在体素张量中查询相应的索引，该查询步骤总共需要O(m)时间。因此，特征转换总用时为O(m+n)。该方法只需要在点云体素化时进行一次哈希映射建立哈希表，之后再做特征转换，可以大大提高效率。

(3)设计2D辅助训练网络

本发明设计的辅助语义分割网络为2D图像网络，输入为RGB相机采集的2D图像数据，该网络仅用于辅助训练。该网络采用语义分割传统的编码器-解码器结构，利用具有二维卷积的残差网络作为编码器，利用全卷积神经网络作为解码器，然后将得到的特征图通过线性分类器进行语义分割。同时，利用透视投影进行图像-点云映射，将像素级特征转化为点级特征。本发明设计的辅助语义分割网络的具体实现方式包括以下子步骤：

①设计2D卷积层。该层用于图像特征提取，采用常规的2D卷积，卷积核大小为3，步长为1。

②设计池化层。该层用于增大网络的感受野，从而实现对更大目标的特征提取。本发明针对非结构化场景特性，采用最大池化作为该网络的池化层，采样尺寸为2，步长为2。

③设计dropout层。本发明针对非结构化场景中目标的稀疏特性，采用dropout操作，在模型训练阶段的前向传播过程中让某些神经元的激活值以一定的概率停止工作，这样不仅可以在一定程度上减少模型参数，还能防止模型过度拟合，提升模型的泛化性能力。

(4)设计2D特征到3D特征的知识蒸馏网络

本发明利用知识蒸馏，在保留原有3D特征知识的基础上，充分利用2D特征的纹理和颜色特征作为先验信息辅助训练，利用多模态特征增强3D主干网络。在训练过程中，利用所设计的3D网络支路和2D网络支路分别生成语义分割预测，并由纯3D标签监督。在推理过程中，不涉及2D辅助训练网络支路，仅利用3D网络进行推理。与传统的将特征进行简单拼接的融合方法相比，本发明设计的基于知识蒸馏的融合网络在推理时仅需要输入3D数据，不用额外的对2D数据进行处理，可以有效降低网络在实际应用中的计算负担。本发明设计的2D特征到3D特征的知识蒸馏网络具体实现方式包括以下子步骤：

子步骤1：设计特征逼近模块。由于3D网络和2D网络的主干网络设计有所不同，因此不能直接对(2)和(3)中提取的3D特征和2D特征进行直接融合。本发明设计了一个特征逼近模块，防止蒸馏过程中3D特征被融合特征污染，从而更好的实现蒸馏。如图2所示，为方便表达，将(2)和(3)中提取的3D特征表示为F^3D，2D特征表示为F^2D。将F^3D输入一个多层感知机(MLP)，得到与F^2D相似的特征，表示为F^3D’，从而减小3D特征和2D特征的差异。

(5)网络模型训练

根据本发明设计的网络，初始学习率设置为0.01，dropout率设置为0.5，batchsize设置为2，epoch设置为64，利用本发明构建的非结构化道路场景数据集与KITTI数据集进行混合训练，首先利用KITTI数据集对模型进行预训练，得到预训练权重，再利用本发明构建的非结构化道路场景数据集做进一步训练，得到最终的网络权重。

Claims

1.一种基于点云和图像特征融合的非结构化道路分割方法，其特征在于，具体包括以下步骤：

(1)构建非结构化道路场景数据集

构建针对非结构化道路场景的数据集，利用自动驾驶仿真模拟器CARLA搭建非结构化道路场景，按照KITTI数据集格式对采集的数据进行处理；该非结构化道路场景的数据集包括RGB图像、图像的语义分割标签、点云数据、点云的语义分割标签、图像点云标定文件；

(2)设计3D主干网络

设计基于点云-体素的3D主干网络，输入为激光雷达采集的3D点云数据，该网络能用于训练和推理；具体实现方式包括以下子步骤：

子步骤1：设计体素支路网络，该支路将点云转化为体素进行操作，采用编码器-解码器结构；具体包括：

①设计体素卷积模块；该模块由3D卷积层、批标准化层、LeakyReLU激活函数层组成，其中3D卷积层利用的卷积核大小为2，步长为2；

②设计体素反卷积模块；该模块由3D卷积层、批标准化层、LeakyReLU激活函数层组成，其中3D卷积层利用的卷积核大小为3的卷积核，步长为1；

③设计标准残差模块；该模块由3D卷积层和批标准化层组成，其中卷积核大小为3，步长为1；

④根据子步骤1中①和③设计下采样模块；该模块由一个①中的体素卷积模块和两个③中的残差模块组成；

⑤根据子步骤1中②和③设计上采样模块；该模块由一个②中的体素反卷积模块和两个③中的残差模块组成；

⑥根据上述子步骤1中①～⑤的模块，将所涉及的不同类型的网络模块进行组合，设计体素支路网络模型；通过对比不同网络架构下模型的准确性和高效性，得到最优网络如下：

点云预处理：首先对点云数据进行标准化，将所有点转换为以重心为原点的局部坐标系，并将这些点归一化到单位球中，将点坐标转化至[0,1]；然后将归一化后的点云栅格化，转化为三维体素的形式；

下采样层1：根据步骤1中④设计的下采样模块，先用32个大小为2的卷积核对原始体素做卷积，之后进行批标准化和LeakyReLU激活；然后用32个大小为3的卷积核做卷积，并进行批标准化；最后经过LeakyReLU激活，将原始体素转化为32维的特征向量；

下采样层2：根据步骤1中④设计的下采样模块，先用64个大小为2的卷积核对原始体素做卷积，之后进行批标准化和LeakyReLU激活；然后用64个大小为3的卷积核做卷积，并进行批标准化；最后经过LeakyReLU激活，将体素向量转化为64维的特征向量；

下采样层3：根据步骤1中④设计的下采样模块，先用128个大小为2的卷积核对原始体素做卷积，之后进行批标准化和LeakyReLU激活；然后用128个大小为3的卷积核做卷积，并进行批标准化；最后经过LeakyReLU激活，将体素向量转化为128维的特征向量；

下采样层4：根据步骤1中④设计的下采样模块，先用256个大小为2的卷积核对原始体素做卷积，之后进行批标准化和LeakyReLU激活；然后用256个大小为3的卷积核做卷积，并进行批标准化；最后经过LeakyReLU激活，将体素向量转化为256维的特征向量；

下采样层5：重复下采样层4的操作，得到更精确的256维的特征向量；

上采样层1：根据步骤1中⑤设计的上采样模块，先用256个大小为3的卷积核对原始体素做卷积，之后进行批标准化和LeakyReLU激活；将所得特征向量与下采样层4融合，然后用128个大小为3的卷积核做卷积，并进行批标准化；最后经过LeakyReLU激活，将体素向量转化为128维的特征向量；

上采样层2：根据步骤1中⑤设计的上采样模块，先用128个大小为3的卷积核对原始体素做卷积，之后进行批标准化和LeakyReLU激活；将所得特征向量与下采样层3融合，然后用64个大小为3的卷积核做卷积，并进行批标准化；最后经过LeakyReLU激活，将体素向量转化为64维的特征向量；

上采样层3：根据步骤1中⑤设计的上采样模块，先用64个大小为3的卷积核对原始体素做卷积，之后进行批标准化和LeakyReLU激活；将所得特征向量与下采样层2融合，然后用32个大小为3的卷积核做卷积，并进行批标准化；最后经过LeakyReLU激活，将体素向量转化为32维的特征向量；

上采样层4：根据步骤1中⑤设计的上采样模块，先用32个大小为3的卷积核对原始体素做卷积，之后进行批标准化和LeakyReLU激活；将所得特征向量与下采样层1融合，然后用32个大小为3的卷积核做卷积，并进行批标准化；最后经过LeakyReLU激活，得到更精准的32维特征向量；

子步骤2：设计点云融合支路网络，该支路直接对点云进行操作，设计针对点云序列的上采样层和下采样层；具体包括：

①设计点云卷积模块，卷积数量为3，全部设计为全连接结构；

②设计点云-体素融合模块，用于将点云序列的点和体素进行映射；首先为体素张量中的所有激活点构造一个哈希表，然后遍历点云张量中的所有点，使用每个点体素化坐标作为键，在体素张量中查询相应的索引；

③根据上述子步骤2中①、②模块，将所涉及的不同类型的网络模块进行组合，设计点云融合支路网络模型；通过对比不同网络架构下模型的准确性和高效性，得到最优网络如下：

点云下采样层1：利用子步骤2中①的点云卷积模块，利用全连接、批标准化、ReLU激活函数，将点云序列转化成32维特征向量；

点云下采样层2：利用子步骤2中①的点云卷积模块，利用全连接、批标准化、ReLU激活函数，将点云序列转化成64维特征向量；

点云-体素融合层1：利用子步骤2中②的体素-点云融合模块，将子步骤1中的下采样层5进行转化，并与点云下采样层2进行叠加，得到256维特征向量；

点云上采样层1：利用全连接、批标准化、ReLU激活函数对点云-体素融合层1进行操作，将点云序列转化成64维特征向量；

点云-体素融合层2：利用子步骤2中②的体素-点云融合模块，将子步骤1中的上采样层2进行转化，并与点云上采样层1进行叠加，得到32维特征向量；

点云上采样层2：利用全连接、批标准化、ReLU激活函数对点云-体素融合层2进行操作，将点云序列转化成64维特征向量；

点云-体素融合层3：利用子步骤2中②的体素-点云融合模块，将子步骤1中的上采样层4进行转化，并与点云上采样层2进行叠加，得到32维特征向量，即3D特征，表示为F^3D；

(3)设计2D辅助训练网络

设计的辅助语义分割网络为2D图像网络，输入为RGB相机采集的2D图像数据，该网络采用编码器-解码器结构，仅用于辅助训练；利用透视投影进行图像-点云映射，将像素级特征转化为点级特征；具体实现方式包括以下子步骤：

子步骤1：设计2D特征提取网络，采用语编码器-解码器结构，对RGB图像进行处理，用于辅助训练；

①设计2D卷积层；采用常规的2D卷积，卷积核大小为3，步长为1；

②设计池化层；采用最大池化，采样尺寸为2，步长为2；

③设计dropout层；采用dropout操作，在模型训练阶段的前向传播过程中让某些神经元的激活值以一定的概率停止工作，提升模型的泛化性能力；

④设计2D反卷积层；该层用于将特征图恢复到原始图片大小，采用常规的2D卷积，卷积核大小为3，步长为2；

⑤根据上述子步骤1中①～⑤的模块，将所涉及的不同类型的网络层进行组合，设计2D辅助训练网络；通过对比不同网络架构下模型的准确性和高效性，得到最优网络如下：

下采样层1：根据子步骤1中①～③中的设计，利用32个大小为3的卷积核，步长为1，对输入的RGB图像做卷积；对所得特征图进行批标准化处理，再利用大小为2的池化核，步长为2，进行最大池化操作，得到32维特征图；

下采样层2：根据子步骤1中①～③的设计，利用64个大小为3的卷积核，步长为1，对下采样层1中的32维特征图做卷积；对所得特征图进行批标准化处理，然后进行dropout操作，再利用大小为2的池化核，步长为2，进行最大池化操作，得到64维特征图；

下采样层3：根据子步骤1中①～③的设计，利用128个大小为3的卷积核，步长为1，对下采样层2中的64维特征图做卷积；对所得特征图进行批标准化处理，然后进行dropout操作，再利用大小为2的池化核，步长为2，进行最大池化操作，得到128维特征图；

下采样层4：根据子步骤1中①～③的设计，利用256个大小为3的卷积核，步长为1，对下采样层3中的128维特征图做卷积；对所得特征图进行批标准化处理，然后进行dropout操作，再利用大小为2的池化核，步长为2，进行最大池化操作，得到256维特征图；

上采样层1：根据子步骤1中②～④的设计，利用128个大小为3的卷积核，步长为2，对下采样层4中的256维特征图做反卷积；对所得特征图进行批标准化处理，然后进行dropout操作，将所得特征图与下采样层3中输出的特征图逐像素相加，得到128维特征图；

上采样层2：根据子步骤1中②～④的设计，利用64个大小为3的卷积核，步长为2，对上采样层1中的128维特征图做反卷积；对所得特征图进行批标准化处理，然后进行dropout操作，将所得特征图与下采样层2中输出的特征图逐像素相加，得到64维特征图；

上采样层3：根据子步骤1中②～④的设计，利用32个大小为3的卷积核，步长为2，对上采样层2中的64维特征图做反卷积；对所得特征图进行批标准化处理，然后进行dropout操作，将所得特征图与下采样层1中输出的特征图逐像素相加，得到32维特征图；

子步骤2：设计像素到点的映射模块；本发明采用透视投影，计算点云与图像之间的点到像素映射，将RGB图像的像素级特征映射转换为点级特征，得到点级2D特征，表示为F^2D，便于之后的特征融合；

用p_i＝(x_i,y_i,z_i)表示3D点云的坐标，用p'_i＝(u_i,v_i)表示点云投影到2D图像上的坐标，用K和T分别表示相机的内参矩阵和外参矩阵，能得3D点云投影到2D图像的转换关系如下：

(4)设计2D特征到3D特征的知识蒸馏网络

利用知识蒸馏，在保留原有3D特征知识的基础上，充分利用2D特征的纹理和颜色特征作为先验信息辅助训练，利用多模态特征增强3D主干网络；具体实现方式包括以下子步骤：

子步骤1：设计特征逼近模块；为方便表达，将(2)和(3)中提取的3D特征表示为F^3D，2D特征表示为F^2D；将F^3D输入一个多层感知机MLP，得到与F^2D相似的特征，表示为F^3D’，从而减小3D特征和2D特征的差异；

子步骤2：设计知识蒸馏网络；将子步骤1中得到特征F^3D’分为两路，一路与2D特征进行拼接操作实现多模态特征融合，得到3D2D融合特征，表示为F^3D2D；另一路连接回3D支路；对两路支路分别进行处理，具体操作如下：

①将F^3D2D输入进一个多层感知机，将所得结果输入进另一个多层感知机，并利用Sigmoid函数激活，将所得权重与上一多层感知机输出结果相乘，再与纯2D特征F^2D进行元素级相加，得到增强的3D2D融合特征，表示为F^3D2De；将所得结果输入全连接层，输出融合分割结果，该分割结果的损失函数会通过反向传播影响特征F^3D’；

②将F^3D’与纯3D特征F^3D进行元素级相加，得到增强的3D特征，表示为F^3De；将所得结果输入全连接层，输出3D分割结果；

③计算子步骤2中①和②中的融合分割结果和3D分割结果之间的KL散度，使3D分割结果向融合分割结果逼近，从而强化3D主干网络；

(5)网络模型训练