CN117036895B

CN117036895B - 基于相机与激光雷达点云融合的多任务环境感知方法

Info

Publication number: CN117036895B
Application number: CN202311303504.6A
Authority: CN
Inventors: 张硕; 梅继林; 胡瑜
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-10-10
Filing date: 2023-10-10
Publication date: 2023-12-19
Anticipated expiration: 2043-10-10
Also published as: CN117036895A

Abstract

本发明公开一种基于相机与激光雷达点云融合的多任务环境感知方法，该方法提出一种基于2D卷积神经网络与3d稀疏卷积相结合的网络结构，该结构可以有效的融合图像信息与点云信息，并且对融合后的特征分别进行3d目标检测解码与点云语义分割解码，在同一网络中同时完成3D目标检测与激光雷达点云语义分割两项任务，有效降低了常规自动驾驶环境感知方案中多个任务分别由单独模型完成的计算冗余以及部署成本。在输入当前帧点云与图像的同时融合过去帧的点云信息来增强输入信息以提升模型效果，并在点云语义分割预测时使用哈希方法高效筛除过去帧点云对应的体素，仅输出当前帧点云的语义分割结果以避免运动模糊等情况。

Description

基于相机与激光雷达点云融合的多任务环境感知方法

技术领域

本发明涉及深度学习以及自动驾驶环境感知领域，具体涉及一种基于相机与激光雷达点云融合的多任务环境感知方法。

背景技术

环境感知是自动驾驶领域的重要技术，是车辆行驶规划的基础。车辆在行驶的过程中，需要由摄像机、毫米波雷达以及激光雷达等传感器获取周围的原始环境信息，然后经过感知算法得到环境中的物体位置、类别、区域等信息，这些信息会帮助车辆理解周边情况并规划出目标轨迹来进行行驶。而在环境感知领域，3d目标检测与点云语义分割是尤为重要的基础任务。由3d目标检测与点云语义分割可拓展出可通行区域、实例分割等多个感知任务结果。

常规的环境感知算法仅使用单一模态的数据如图像或点云进行处理。而单一模态的数据具有自身的缺陷，图像有着丰富的纹理信息但其无法获取像素对应空间的位置信息且受光照强度影响较大，激光雷达点云可以提供物体的位置以及形状信息，但在自动驾驶场景中点云数据往往非常稀疏，且在恶劣天气，例如大雾或者雨天会有噪点过多等问题。因此融合两种数据的信息可以得到更加鲁棒且丰富的特征，也有利于在上层任务得到更好的结果。

现有的深度学习模型通常针对单一任务设计单独的模型，然而多个单独的模型之间往往有很多冗余的部分，例如图像特征提取骨干网络，每个模型都有单独的图像提取骨干网络，但其作用是相似的。并且多个单独的模型进行部署与协调也会带来很大的工作量。因此，使用一个整合的网络结构输出多个任务的结果会很大程度降低模型的冗余性并减少部署与协调的工作量。

现有的一些网络融合了激光雷达点云数据与图像数据进行3d物体检测并在nuscenes数据集上取得了较好的效果。但其仅完成了单一任务，并没有充分利用其庞大的特征提取部分。另一些网络使用激光点云数据同时得到3d物体检测与点云语义分割的结果，但其并未结合图像数据以致效果还可以进一步提升。

发明内容

针对现有技术的不足，本发明提出一种基于多视角相机与激光雷达点云融合的多任务环境感知方法，融合激光雷达点云数据与图像数据的特征，充分利用其强大的特征提取网络，同时完成3d目标检测与点云语义分割两个核心环境感知任务，与使用多个模型解决多个任务的方案相比，降低了部署难度与计算冗余。

本发明的目的通过如下的技术方案来实现：

一种基于相机与激光雷达点云融合的多任务环境感知方法，该方法包括如下步骤：

步骤一：使用车载多个相机获取原始RGB图像，使用深度自注意力网络特征提取器提取其2d图像特征，并用2d图像特征转鸟瞰图特征网络将多个相机的2d图像特征转换到鸟瞰图视角之下，得到图像鸟瞰图特征；

同时，利用车辆运动的平移以及旋转信息将当前帧之前的多帧激光雷达点云融合进当前帧点云，得到融合激光雷达点云；将所述融合激光雷达点云和当前帧的激光雷达点云的数据均转换成体素表达形式；使用3d稀疏卷积网络编码器提取所述融合激光雷达点云的特征，其提取出的特征有多层多个尺度，将提取的最后一层激光雷达点云特征转为稠密张量，并在Z轴压缩，得到点云鸟瞰图特征；

步骤二：将所述点云鸟瞰图特征和图像鸟瞰图特征进行融合，得到融合鸟瞰图特征；

步骤三：使用3d目标检测解码器对融合鸟瞰图特征解码，得到3d目标检测的结果；

同时，将所述融合鸟瞰图特征在Z轴进行拓展并转为稀疏张量，使用3d稀疏卷积网络解码器进行进一步解码以及上采样，并与所述3d稀疏卷积网络编码器的各阶段特征进行连接融合，形成U型网络的结构，并得到跳跃连接后的融合特征；

步骤四：取所述跳跃连接后的融合特征中最后一层的体素特征，送入体素分类器得到体素的分类结果，在此基础上，利用当前帧的激光雷达点云的体素过滤掉非当前帧的分类结果，并使用反体素化的操作得到当前帧点云语义分割的结果。

进一步地，训练整个多任务网络时：

首先，冻结所述3d稀疏卷积网络解码器的权重，并且仅使用目标检测任务训练与3d目标检测有关的网络；然后冻结除3d稀疏卷积网络解码器以外的网络权重，使用点云语义分割任务训练所述3d稀疏卷积网络解码器，训练完成后解除冻结；

再次，同时训练目标检测任务和点云语义分割任务；

最后，同时冻结图像鸟瞰图特征提取和点云鸟瞰图特征提取部分的权重，并分别训练3d目标检测解码器与3d稀疏卷积网络解码器，从而得到最终模型。

进一步地，将当前帧之前的多帧激光雷达点云融合进当前帧点云，具体包括：

将当前帧的激光雷达点云的所有点放入点云列表，然后随机选取过去几帧，将这几帧中的点云按照车辆运动信息旋转，过滤掉距离雷达小于设定距离的点，然后随机抽取其中一部分点云，增加到所述点云列表。

进一步地，将所述融合激光雷达点云的数据转换成体素表达形式的步骤如下：

根据体素的尺寸，将所述融合激光雷达点云的坐标转换至体素空间下的坐标并取整，得到每个点的体素坐标；对所有点的体素坐标进行取非重复值集合操作，得到所有非空的体素坐标以及非空体素与点之间的映射关系；

非空体素的特征由体素内的所有点坐标取平均而得到。

进一步地，所述3d稀疏卷积网络编码器的结构为：

使用3d稀疏卷积设置步长为2，对特征进行下采样，使用子流形稀疏卷积进行特征提取，整个编码器将原始体素空间下采样3次，至1/8大小。

进一步地，所述步骤一中，稠密张量在Z轴压缩的方法为：将稠密张量沿Z轴在通道上进行拼接操作；

所述步骤二中，将所述点云鸟瞰图特征和图像鸟瞰图特征进行融合时，首先在通道层进行拼接，然后使用残差模块进行进一步融合；

所述体素分类器为多层全连接网络，最终输出的通道维度为点云语义分割的类别数目。

进一步地，所述步骤三中，得到跳跃连接后的融合特征的子步骤如下：

（1）在所述融合鸟瞰图特征的基础上增加Z轴，并在Z轴上对通道进行复制,得到三维融合特征矩阵；

（2）使用所述3d稀疏卷积网络编码器最后一阶段输出的稀疏张量的坐标，对三维融合特征进行特征采样，得到对应的稀疏融合特征；

（3）对所述稀疏融合特征进行反卷积操作，得到上采样后的特征；

（4）将上采样后的特征与所述3d稀疏卷积网络编码器中对应的下采样特征，在通道层进行拼接，形成U型网络的结构，并得到跳跃连接后的融合特征。

进一步地，将当前帧的激光雷达点云的数据转换成体素表达形式时，在网络训练阶段，需要为当前帧的激光雷达点云生成体素标签，具体的生成体素标签的方法为：

将当前帧的激光雷达点云的数据转换成体素时，同时得到当前帧的激光雷达点云与体素的映射关系，对于每个非空体素，随机抽取其中一个点的标签作为体素的标签；训练时使用当前帧体素的分类结果与其对应标签进行损失的计算。

进一步地，所述步骤四中，使用反体素化的操作得到当前帧点云语义分割的结果，具体包括：

使用当前帧的激光雷达点云与体素的映射关系，为每个点找到其对应的体素，并使用其体素的分类结果作为点的分类结果。

一种基于相机与激光雷达点云融合的多任务环境感知系统，包括一个或多个处理器，用于实现基于相机与激光雷达点云融合的多任务环境感知方法。

本发明的有益效果如下：

1. 本发明在融合多模态数据的前提下，充分利用了网络的特征提取部分，在同一网络里同时完成3d目标检测与点云语义分割两个任务，相较于每个任务采用一个单独网络的方式，降低了网络的冗余以及部署的难度。

2. 本发明针随机融合了过去帧的点云信息，增强了模型的效果与鲁棒性，并且在点云语义分割的时候仅得出当前帧点云的分割结果，以避免多帧点云的运动模糊以及噪声等对实际应用带来的影响。

附图说明

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1为本发明实施例的基于相机与激光雷达点云融合的多任务环境感知方法的流程图。

图2为本发明实施例的多模态多任务模型中图像特征提取部分的网络示意图。

图3为本发明实施例的多模态多任务模型中点云特征提取部分的网络示意图。

图4为本发明实施例的融合特征进行3d目标检测与点云语义分割两个任务的网络的示意图。

图5为基于相机与激光雷达点云融合的多任务环境感知系统的示意图。

具体实施方式

下面根据附图和优选实施例详细描述本发明，本发明的目的和效果将变得更加明白，应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本发明的原理在于：本发明提出一种基于2D卷积神经网络与3d稀疏卷积相结合的网络结构，能够融合激光雷达点云信息与图像信息，并且将过去帧的点云融合进当前帧来增强输入信息。过去帧的点云可以引入一定的时序信息并且缓解点云过于稀疏的情况。在点云语义分割的时候仅得出当前帧点云的分割结果，以避免多帧点云的运动模糊以及噪声等对实际应用带来的影响。在图像特征与点云特征进行融合的时候，采用在通道层拼接以及多个残差模块处理的方式，保证两个模态的输入特征都不损失并且可以根据输出任务自行决定特征的融合程度。在输出任务的时候使用融合特征同时解码3d目标检测任务与点云语义分割任务，其中点云语义分割任务会与点云的编码器部分形成U型网络的结构，以保证输出的非空体素与输入时的非空体素相同。

作为其中一种实施方式，本实施例的基于相机与激光雷达点云融合的多任务环境感知方法，参考图1的流程图，该方法包括如下步骤：

步骤一：使用车载多个相机获取原始RGB图像，使用深度自注意力网络特征提取器提取其2d图像特征，并用2d图像特征转鸟瞰图特征网络将多个相机的2d图像特征转换到鸟瞰图视角之下，得到图像鸟瞰图特征。同时，利用车辆运动的平移以及旋转信息将当前帧之前的多帧激光雷达点云融合进当前帧点云，得到融合激光雷达点云；将所述融合激光雷达点云和当前帧的激光雷达点云的数据均转换成体素表达形式；使用3d稀疏卷积网络编码器提取所述融合激光雷达点云的特征，将提取的激光雷达点云特征转为稠密张量，并在Z轴压缩，得到点云鸟瞰图特征。

该实施例中，车载相机为6个，分别布置在车的正前、左前、右前、正后、左后、右后6个位置，将这6个相机采集到的同一时间的图像输入相同的深度自注意力网络（transformer）特征提取器，提取对应的2d图像特征。深度自注意网络由4个结构相似的子模块构成，每个子模块会首先对图像特征进行下采样，然后送入自注意编码模块进行进一步特征提取，经4个子模块提取最终得到的2d图像特征为输入图像的1/16大小。提取到所有相机的2d图像特征后，利用图像特征转鸟瞰图特征网络(LSS网络，Lift, Splat, Shoot)将6个相机采集的2d图像特征转换至鸟瞰图俯视下，得到图像鸟瞰图特征。

首先将图像特征送入图像特征转鸟瞰图特征网络(LSS网络)的深度预测部分，使用深度估计模块来预测图像对应的深度信息（深度图），并且同时使用特征压缩模块对图像特征进行压缩得到压缩图像特征(压缩的原因为：图像特征通道数较多，如果将原所有相机的图像特征转至鸟瞰图视角会导致鸟瞰图特征过大)，然后根据相机参数以及深度信息将透视视角的压缩图像特征转换至鸟瞰图视角下，得到鸟瞰图俯视视角下的图像特征图（ImgBev）。上述步骤对应图2。

对于点云特征提取，首先将当前帧点云的所有点放入列表，然后随机选取过去的几帧（本实施例为0~9帧，具体帧数可根据激光雷达的频率进行调整，随机选取的目的为增强模型的鲁棒性），将选取的点云按照车辆运动信息旋转，过滤掉距离雷达过近的点（距离雷达1米内的点多为车辆自身的点，为噪声），然后随机抽取其中一部分点增加至点云列表之中，得到融合激光雷达点云。

获取到融合点云后，根据所要处理的点云范围[x_max,x_min,y_max,y_min,z_max,z_min]过滤掉范围之外的点，然后将其体素化，体素化的过程为：首先设置体素的边长d，然根据以下公式得到点云对应的体素坐标C：

其中，N为点云的总个数，floor为向下取整操作。

得到所有的体素坐标之后，使用取非重复值集合操作（unique操作）取得所有包含点的非空体素的坐标集合，同时获取到点与体素之间的映射关系。非空体素的坐标集合即3d稀疏卷积网络编码器的输入稀疏张量的坐标部分（稀疏张量由坐标（Coord）与特征（Feature）两部分构成），稀疏张量的特征（Feature）由落入体素中的点的坐标取平均得到：

其中，M为落入体素j中的所有点的个数，P_i为落入其中的点的坐标（在激光雷达坐标系下的坐标）。由 [坐标（Coord），特征（ Feature）] 构成3d稀疏卷积网络编码器的输入稀疏张量。与此同时，对仅当前帧点云的集合做相同的操作，得到当前帧点云的体素坐标集合（Coord-current）以及当前帧点云与体素坐标集合之间的映射（map-current）。与此同时，生成当前帧点云的体素标签用来计算损失，体素标签的计算方法为：使用当前帧点云与体素坐标集合之间的映射（map-current），对于每个非空体素，随机抽取其中一个点的标签作为体素的标签（VoxelLabel），训练时使用当前帧点云体素的分类结果与其对应标签进行损失的计算。

将得到的稀疏张量送入3d稀疏卷积网络编码器来提取激光雷达点云特征，3d稀疏卷积网络由3d稀疏卷积设置步长为2来进行下采样，下采样之后使用子流形稀疏卷积（SubmSparseConv）来进行进一步的特征提取，整个稀疏卷积编码器共进行三次下采样，最终得到的稀疏张量大小为原来的1/8。

将提取的点云特征进行在Z轴压缩（flatten）操作得到点云鸟瞰图（点云bev）特征。即，首先将提取的稀疏点云特征转为稠密张量，然后使用拼接操作合并Z轴的特征层得到点云鸟瞰图特征（LidarBev）。

点云特征提取的步骤对应图3。

步骤二：将所述点云鸟瞰图特征和图像鸟瞰图特征进行融合，得到融合鸟瞰图特征（FuseBev）。

如图4的特征融合部分所示，首先将图像鸟瞰图特征与点云鸟瞰图特征在通道层进行拼接（concat），得到拼接后的特征（FuseBevCat），然后使用2d卷积构成的残差模块（ResBlock）对拼接后的鸟瞰图特征进行进一步融合，得到融合鸟瞰图特征（FuseBev）。

FuseBevCat = concat([ImgBev, LidarBev])

ResBlock = Input + conv2d(conv2d(Input))

FuseBev = ResBlock(FuseBevCat)

同时，将所述融合鸟瞰图特征在Z轴进行拓展，使用3d稀疏卷积网络解码器进行进一步解码以及上采样，并与所述3d稀疏卷积网络编码器的各阶段特征进行连接融合，形成U型网络的结构，并得到跳跃连接后的融合特征。

其中，3d目标检测解码器可以为以锚点（anchor）为基础的网络，也可以为其他类型的检测网络。

将所述融合鸟瞰图特征在Z轴进行拓展，使用3d稀疏卷积网络解码器进行进一步解码以及上采样的方法为：

（1）在2d的融合鸟瞰图特征的基础上增加Z轴，并在Z轴上对通道进行复制,得到三维融合特征矩阵；

（2）使用3d稀疏卷积网络编码器最后一阶段输出的稀疏张量的坐标，对三维融合特征进行特征采样，得到对应的稀疏融合特征；

（3）对稀疏融合特征进行反卷积（sparseInverse3D）操作，得到上采样后的特征（UpFeature）。

然后使用子流形稀疏卷积（SubmSparseConv）进行进一步特征转换，将上采样后的特征矩阵与3d稀疏卷积网络编码器中对应的下采样特征矩阵(EncoderFeature)在通道层进行拼接（concat）以构成U型网络（U-net）的结构（如图4跳跃连接所示）。

UpFeature = SubmSparseConv(SparseInverse3D(input))

Feature = SubmSparseConv(concat(UpFeature,EncoderFeature))

步骤四：取跳跃连接后的融合特征中最后一层的体素特征，送入体素分类器得到体素的分类结果，在此基础上，利用当前帧的激光雷达点云的体素过滤掉非当前帧的分类结果，并使用反体素化的操作得到当前帧点云语义分割的结果。过滤掉非当前帧分类结果的原因为：多帧累加的点云在运动目标上会存在运动模糊的情况，此情况会对环境感知上层任务带来负面影响。引入过去帧点云仅为了缓解单帧点云过于稀疏的情况并且为系统增加一定的历史信息，目标是为了得到更准确的当前帧点云分类结果。并且此种方式仅需要当前帧点云的分类标签进行训练，所需的标注量更小。

体素分类器由多层全连接网络构成，最终输出的通道维度为点云语义分割的类别数目。

过滤掉非当前帧体素的方法为：使用哈希操作（Hash）将融合点云的非空体素坐标（Coord）映射成一个哈希值列表，并对当前帧点云非空体素坐标（Coord_current）做相同操作，对融合哈希值列表与当前帧哈希值列表使用哈希匹配（HashMap）得到二个列表之间的映射关系，使用其映射关系筛出不在当前帧点云的体素, 上述操作可以由开源库torchsparse库来进行实现。

coord_hash = Hash(Coord)

coord_current_hash = Hash(Coord_current)

hashmap = HashMap(coord_hash, coord_current_hash)

其中，哈希匹配(HashMap)会得到两个坐标列表之中相同坐标对应关系，如果没找到的会标记为-1。

将当前帧的激光雷达点云的数据转换成体素表达形式时，在网络训练阶段，需要为当前帧的激光雷达点云生成体素标签，具体的生成体素标签的方法为：

反体素化操作的方法为：使用步骤3中体素化操作得到的点云与体素之间的映射关系，为每个点找到其对应的体素，并使用其体素的分类结果作为点的分类结果。

作为优选，训练本实施例图2中的整个多任务网络时，采取如下的训练策略：

首先，冻结3d稀疏卷积网络解码器的权重，并且仅使用目标检测任务训练与3d目标检测有关的网络；然后冻结除3d稀疏卷积网络解码器以外的网络权重，使用点云语义分割任务训练所述3d稀疏卷积网络解码器，点云语义分割的损失为使用当前帧体素分类结果（VoxelSeg）与得到的体素分类标签（VoxelLabel）进行交叉熵损失以及洛瓦兹损失（lovasz）得到：

LidarSegLoss = CrossEntropy(VoxelSeg,VoxelLabel) + lovasz(VoxelSeg,VoxelLabel)

训练完成后解除冻结；

再次，同时训练目标检测任务和点云语义分割任务；

通过对上述模型多模态输入多任务输出的情况，单独设计了分阶段训练的策略，保证了两个任务都可以得到好的结果。

本发明实施例还提供一种基于相机与激光雷达点云融合的多任务环境感知系统，包括一个或多个处理器，用于实现基于相机与激光雷达点云融合的多任务环境感知方法。

本发明基于相机与激光雷达点云融合的多任务环境感知系统的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为基于相机与激光雷达点云融合的多任务环境感知系统所在任意具备数据处理能力的设备的一种硬件结构图，除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

为了验证本发明的有效性，将本发明实施例的方法与仅利用了激光雷达点云数据做相同多任务的网络VIN（VIN: Voxel-based Implicit Network for Joint 3D ObjectDetection and Segmentation forLidars）在nuscenes验证集上进行对比，结果如表1所示。本发明在3d目标检测任务与点云语义分割任务上均超过VIN。

表1本发明方法与VIN网络在nuscenes验证集结果对比表

本领域普通技术人员可以理解，以上所述仅为发明的优选实例而已，并不用于限制发明，尽管参照前述实例对发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内，所做的修改、等同替换等均应包含在发明的保护范围之内。

Claims

1.一种基于相机与激光雷达点云融合的多任务环境感知方法，其特征在于，该方法包括如下步骤：

2.根据权利要求1所述的基于相机与激光雷达点云融合的多任务环境感知方法，其特征在于，训练整个多任务网络时：

再次，同时训练目标检测任务和点云语义分割任务；

3.根据权利要求1所述的基于相机与激光雷达点云融合的多任务环境感知方法，其特征在于，将当前帧之前的多帧激光雷达点云融合进当前帧点云，具体包括：

4.根据权利要求1所述的基于相机与激光雷达点云融合的多任务环境感知方法，其特征在于，将所述融合激光雷达点云的数据转换成体素表达形式的步骤如下：

非空体素的特征由体素内的所有点坐标取平均而得到。

5.根据权利要求1所述的基于相机与激光雷达点云融合的多任务环境感知方法，其特征在于，所述3d稀疏卷积网络编码器的结构为：

6.根据权利要求1所述的基于相机与激光雷达点云融合的多任务环境感知方法，其特征在于，所述步骤一中，稠密张量在Z轴压缩的方法为：将稠密张量沿Z轴在通道上进行拼接操作；

7.根据权利要求1所述的基于相机与激光雷达点云融合的多任务环境感知方法，其特征在于，所述步骤三中，得到跳跃连接后的融合特征的子步骤如下：

（1）在所述融合鸟瞰图特征的基础上增加Z轴，并在Z轴上对通道进行复制，得到三维融合特征矩阵；

8.根据权利要求1所述的基于相机与激光雷达点云融合的多任务环境感知方法，其特征在于，将当前帧的激光雷达点云的数据转换成体素表达形式时，在网络训练阶段，需要为当前帧的激光雷达点云生成体素标签，具体的生成体素标签的方法为：

9.根据权利要求8所述的基于相机与激光雷达点云融合的多任务环境感知方法，其特征在于，所述步骤四中，使用反体素化的操作得到当前帧点云语义分割的结果，具体包括：

10.一种基于相机与激光雷达点云融合的多任务环境感知系统，其特征在于，包括一个或多个处理器，用于实现权利要求1~9中任意一项所述的基于相机与激光雷达点云融合的多任务环境感知方法。