CN116902003A

CN116902003A - 基于激光雷达与摄像头混合模态的无人驾驶方法

Info

Publication number: CN116902003A
Application number: CN202310945274.7A
Authority: CN
Inventors: 丁勇; 刘瑞香; 戴行; 洪宇; 韩皓
Original assignee: Hefei Haipu Microelectronics Co ltd
Current assignee: Hefei Haipu Microelectronics Co ltd
Priority date: 2023-07-31
Filing date: 2023-07-31
Publication date: 2023-10-20
Anticipated expiration: 2043-07-31
Also published as: CN116902003B

Abstract

本发明公开了基于激光雷达与摄像头混合模态的无人驾驶方法，包括以下步骤：获取激光雷达采集的点云模态数据和摄像头采集的图像模态数据；将点云模态数据和图像模态数据分别输入对应的体素特征生成网络，生成点云模态体素特征和图像模态体素特征；将点云模态体素特征和图像模态体素特征输入自适应体素特征融合网络，得到融合后的融合体素特征；获取感知任务，将融合体素特征输入感知输出头完成感知任务的输出，并获得感知相关的Key与Value。既能充分利用不同模态特征的优势，同时显著降低模型部署难度和训练成本，又能充分利用感知、预测和规划任务之间的内在关联性，实现了整体性能的提升。

Description

基于激光雷达与摄像头混合模态的无人驾驶方法

技术领域

本发明涉及自动驾驶技术领域，尤其涉及基于激光雷达与摄像头混合模态的无人驾驶方法。

背景技术

自人工智能出现以来，自动驾驶(Autonomous Driving)一直是最受人们关注的技术之一，在汽车产业引发了一场技术革命。这项技术的快速发展得益于车载传感器设备的不断更新和配套感知、预测、规划等算法技术的进步。各类车载传感器精度的提高和造价的降低，在为自动驾驶车辆提供全面、精确的场景信息的同时，满足了实际生产中的成本控制需求。在一套完整的自动驾驶流程中，车载传感器相当于自动驾驶车辆的“视觉”，而感知(Perception)、预测(Prediction)和规划(Planning)等算法则相当于自动驾驶车辆的“大脑”，需要“眼”和“脑”有效配合才能实现高质量、高水准的车辆自主行驶。车辆智能化和交通智能化是未来建设智慧城市的关键部分，是为人们提供高效、安全的智慧出行必不可少的关键技术点。

当前主流的车载传感器主要涉及激光雷达和摄像头。激光雷达是目前自动驾驶汽车上最常见的一种传感器，可以提供360°环绕点云数据，能够较为准确地构建车辆自身周围的三维环境，提供精确的深度信息，但是缺乏在驾驶过程中十分重要的场景色彩信息，并且易受距离、天气等因素影像。相较于激光雷达，虽然单个摄像头视野范围有限，但因其低廉的造价可以通过在车身周围部署多个摄像头的方式获取全方位的场景信息，图像数据弥补了点云数据缺乏色彩信息的缺陷，并且对于远距离场景捕获效果好，对于车辆的高速自动行驶十分关键，但是丢失了深度信息。高精度的场景信息获取是自动驾驶的前提，而单一传感器所能提供的信息往往是有限的。为了解决这一问题，可以采用混合模态特征融合的方式，基于不同传感器采集的数据，提取相应模态下的体素特征(Voxel Feature)，因为不同模态的体素特征在对场景语义信息、物体的位置和尺度表征上各有优势，有效的特征融合可以生成更加全面、丰富的场景信息。

目前对于自动驾驶的各项任务，一般采用相互独立的深度学习模型实现，感知、预测和规划任务之间相互并行，彼此之间没有交互，这样一来就产生了一些弊端：1)利用特征提取器从传感器数据提取特征是所有任务都必不可少的网络结构，在使用多个独立模型时会增加大量的重复运算，增加了模型训练成本和算力消耗；2)自动驾驶各项任务之间具有一定的关联性，例如感知结果可以为预测和规划提供相关性很强的参考信息，但在独立模型中各项任务之间缺乏有效的交互，无法利用这种内在关联性提升效果；3)采用多个独立模型意味着更高的算力需求，带来了生产成本的增加和模型实际部署难度的提高。

因此，如何有效融合不同模态的体素特征，同时共用部分特征提取网络，在一个模型内部统一完成感知、预测和规划任务，是当前自动驾驶技术发展中亟待解决的关键难点。

发明内容

为解决背景技术中存在的技术问题，本发明提出基于激光雷达与摄像头混合模态的无人驾驶方法。

本发明提出的基于激光雷达与摄像头混合模态的无人驾驶方法，包括以下步骤：

S1、获取激光雷达采集的点云模态数据和摄像头采集的图像模态数据；

S2、将点云模态数据和图像模态数据分别输入对应的体素特征生成网络，生成点云模态体素特征和图像模态体素特征；

S3、将点云模态体素特征和图像模态体素特征输入自适应体素特征融合网络，得到融合后的融合体素特征；

S4、获取感知任务，将融合体素特征输入感知输出头完成感知任务的输出，并获得感知相关的Key与Value；

S5、将感知相关的Key与Value、融合体素特征输入体素特征筛选器，得到体素环境相关的第一类型Key与Value；

S6、将第一类型Key与Value、感知相关的Key与Value输入预先建立和训练好的自动驾驶的Transformer模型，完成自动驾驶车辆周围物体动作预测以及驾驶行为规划的任务。

优选地，“S2”具体包括：

对于点云模态数据，先将其规范化为体素形式，再通过三维神经网络提取点云模态体素特征；

对于图像模态数据，先通过二维神经网络提取图像特征，再投影到三维体素空间内，生成图像模态体素特征；

统一点云模态体素特征、图像模态体素特征的特征维度C和空间分辨率X×Y×Z。

优选地，“S3”具体包括：

将点云模态体素特征和图像模态体素特征分别输入对应的全连接网络后，再进行拼接，使得特征维度上升到2C；

将拼接后的体素特征输入卷积核大小为1×1的卷积神经网络进行降维，获得自适应融合的融合体素特征。

优选地，“S5”具体包括：

将感知相关的Key与Value、融合体素特征输入体素特征筛选器；

体素特征筛选器结合感知结果筛选出三维体素空间中与感知目标相对应的、稀疏的感兴趣体素特征；

利用采样出的体素特征构建体素环境相关的第一类型Key与Value，为后续任务提供体素特征信息。

优选地，所述Transformer模型包括：周围物体动作预测神经网络、驾驶行为规划神经网络；“S6”具体包括：

将第一类型Key与Value、感知相关的Key与Value输入周围物体动作预测神经网络，完成周围物体动作预测的任务，同时获得动作预测相关的第二类型Key与Value；

将第一类型Key与Value、第二类型Key与Value输入驾驶行为规划神经网络，完成自动驾驶车辆驾驶行为规划的任务。

优选地，还包括：所述自动驾驶车辆周围物体动作预测的任务以及驾驶行为规划的任务经由一一对应的输出头进行任务输出。

优选地，所述感知任务包括但不限于三维目标检测、三维目标跟踪、三维空间占用预测和在线地图生成。

优选地，所述驾驶行为规划的任务包括但不限于保持直行、左转、右转、加速、减速及停车。

本发明中，所提出的基于激光雷达与摄像头混合模态的无人驾驶方法，包括模态体素特征提取、自适应模态体素特征融合、部分特征提取网络共用、感知预测规划多任务信息交互。在模态体素特征生成阶段，能够同时获取基于激光雷达点云和摄像头图像两种不同模态数据的体素特征。在自适应模态体素特征融合阶段，可以通过可学习的神经网络将不同模态的体素特征自适应地融合到统一的体素空间，保留不同特征各自的优势。对于所有任务，都会共用之前的体素特征，避免了冗余计算。在输出阶段，统一实现了感知、预测和规划的任务，不同任务之间还进行了充分的信息交互。既能充分利用不同模态特征的优势，同时显著降低模型部署难度和训练成本，又能充分利用感知、预测和规划任务之间的内在关联性，实现了整体性能的提升。

附图说明

图1为本发明提出的基于激光雷达与摄像头混合模态的无人驾驶方法的工作流程的结构示意图；

图2为本发明提出的基于激光雷达与摄像头混合模态的无人驾驶方法的系统流程的结构示意图。

具体实施方式

参照图1和图2，本发明提出的基于激光雷达与摄像头混合模态的无人驾驶方法，包括以下步骤：

S1、获取激光雷达采集的点云模态数据和摄像头采集的图像模态数据。

在本实施例中，通过激光雷达、摄像头采集在自动驾驶场景下的模态数据，相应的激光雷达采集的点云模态数据记作I_pc、摄像头采集的图像模态数据记作I_img。

S2、将点云模态数据和图像模态数据分别输入对应的体素特征生成网络，生成点云模态体素特征和图像模态体素特征。

“S2”具体包括：

在本实施例中，输入的点云模态数据I_pc经过体素化V和三维神经网络Φ_pc，生成点云模态体素特征F_pc：

F_pc＝Φ_pc(V(I_pc))；

输入的图像模态数据I_img经过二维神经网络Φ_img提取图像特征，再经由P将其投影到三维体素空间，生成图像模态体素特征F_img：

F_img＝P(Φ_img(I_img))；

其中，V表示将输入点云模态数据I_pc体素化，Φ_pc为提取体素特征的三维神经网络，Φ_img为提取图像特征的二维神经网络，P表示将二维图像特征投影到三维体素空间。

将来自不同传感器的不同数据I统一转换为体素特征F∈R^C×X×Y×Z。体素特征的后三个维度对应当前的三维空间，确定体素的空间位置，第一个维度对应体素特征通道数。由此生成的体素特征F_pc、F_img分别为相应传感器对车辆所在三维场景中各个位置的语义信息描述。

点云模态体素特征F_pc、图像模态体素特征F_img均设置为相同的特征维度C和空间分辨率X×Y×Z，特征维度C可设置为256，空间分辨率X×Y×Z可设置为1024×1024×60，三维体素空间可根据体素大小映射回真实的三维空间，当体素大小为0.1×0.1×0.1时对应真实空间范围为102.4m×102.4m×6m，可以通过调整空间分辨率或体素大小改变体素空间涵盖范围。

S3、将点云模态体素特征和图像模态体素特征输入自适应体素特征融合网络，得到融合后的融合体素特征。

“S3”具体包括：

将拼接后的体素特征输入卷积核大小为1×1的卷积神经网络进行降维，获得自适应融合的融合体素特征记作F_voxel。

在本实施例中，点云模态体素特征F_pc经过一个全连接网络Ω_pc生成待拼接的点云体素特征F′_pc：

F′_pc＝Ω_pc(F_pc)；

图像模态体素特征F_img，经过一个全连接网络Ω_img生成待拼接的图像体素特征F′_img：

F′_img＝Ω_img(F_img)；

将点云体素特征F′_pc、图像体素特征F′_img进行逐体素的特征维度拼接获得拼接后的体素特征F′_voxel∈R^2C×X×Y×Z：

由于拼接后特征维度提升至2C，需要使用一个神经网络对特征通道进行降维，使特征维度相较于S2中获得的特征保持不变:

F_voxel＝conv(F′_voxel)；

其中，conv为卷积核大小为1×1的卷积神经网络。该融合后的融合体素特征F_voxel∈R^C×X×Y×Z，F_pc和F_img具有相同的特征维度C和空间分辨率X×Y×Z，可以灵活适应传感器数量的变化。

S4、获取感知任务，将融合体素特征输入感知输出头完成感知任务的输出，并获得感知相关的Key与Value。

感知任务包括但不限于三维目标检测、三维目标跟踪、三维空间占用预测和在线地图生成。

在本实施例中，感知输出头包括三维目标跟踪输出头，三维空间占用预测输出头和在线地图生成输出头，将融合的融合体素特征送入这些感知输出头，分别完成相对应的感知任务，获得感知输出结果O_perc：

O_perc＝H_mult-perc(F_voxel)；

所有感知任务的输出O_perc会被用于体素特征筛选和构建为感知相关的Key与Value。感知相关的Key与Value分别记作K_perc与V_perc，以实现不同任务之间的信息交互。

S5、将感知相关的Key与Value、融合体素特征输入体素特征筛选器，得到体素环境相关的第一类型Key与Value。

在本实施例中，体素环境相关的第一类型Key与Value分别记作K_voxel与V_voxel。

“S5”具体包括：

在本实施例中，体素特征筛选器会使用多类型感知结果O_perc对融合体素特征F_voxel进行感兴趣体素特征筛选，根据感知目标在三维体素空间中的相应位置，选择关键性的稀疏感兴趣体素特征F_sparse：

F_sparse＝ψ(F_voxel,O_perc)；

筛选出的稀疏感兴趣体素特征F_sparse将被用作体素特征相关的Key与Value，分别记作K_voxel与V_voxel。

驾驶行为规划的任务包括但不限于保持直行、左转、右转、加速、减速及停车。

所述Transformer模型包括：周围物体动作预测神经网络、驾驶行为规划神经网络；“S6”具体包括：

在本实施例中，周围物体动作预测神经网络记作T_pred、驾驶行为规划神经网络记作T_plan；周围物体动作预测神经网络T_pred包括两个子模块：T_pred1、T_pred2；

驾驶行为规划神经网络T_plan包括三个子模块：T_plan1、T_plan2、T_plan3；

周围物体动作预测神经网络T_pred分别使用感知相关的K_perc与V_perc和体素特征相关的K_voxel与V_voxel对动作预测Q_pred进行信息交互和特征更新，使用信息聚合后的动作预测Q_pred配合相应的动作预测输出头完成对自动驾驶车辆周围物体进行动作预测的任务，同时作为自动驾驶车辆动作预测相关的Key和Value，记作K_pred与V_pred，以实现不同任务之间的信息交互。

具体实现过程如下：

步骤1、T_pred中的T_pred1部分使用感知相关的K_perc与V_perc对动作预测Q_pred进行信息交互和特征更新，该过程使用基于Transformer结构的计算方式，如下：

Q_pred＝T_pred1(Q_pred,K_perc,V_perc)

其中，T_pred1包括注意力计算和前馈网络：

Q_pred＝Q_pred+FFN(Q_pred)

其中，计算查询特征和被查询特征的相关性矩阵；δ函数对相关性矩阵进行归一化，通过Softmax函数实现。C为动作预测Q_pred的特征维度，设置为与S3中的体素特征维度相同；FFN为前馈神经网络，具体由两个全连接层组合构建，实现特征的升维和降维，有利于在提取更深层次特征的同时保持输出特征通道数不变；

步骤2、T_pred中的T_pred2部分使用体素特征相关的K_voxel与V_voxel对Q_pred进行进一步的信息交互和特征更新，该过程计算方式，如下：

Q_pred＝T_pred2(Q_pred,K_voxel,V_voxel)；

步骤3、经上述步骤2更新后的Q_pred将会被送至动作预测输出头H_pred中，用于输出自动驾驶车辆自身周围物体的动作预测结果O_pred：

O_pred＝H_pred(Q_pred)；

步骤4、经上述步骤2更新后的Q_pred还会被用作动作预测相关的Key与Value，记作K_pred与V_pred，以实现不同任务之间的信息交互。

驾驶行为规划神经网络T_plan分别使用感知相关的K_perc与V_perc、体素特征相关的K_voxel与V_voxel、动作预测相关的K_pred与V_pred，对驾驶行为规划Q_plan进行信息交互和特征更新，信息聚合后的驾驶行为规划Q_plan将被用于完成相应的自动驾驶车辆行为规划任务。

具体实现过程如下：

步骤11、T_plan中的T_plan1使用感知相关的K_perc与V_perc对驾驶行为规划Q_plan进行初步信息交互和特征更新，该过程的计算方式，如下：

Q_plan＝T_plan1(Q_plan,K_perc,V_perc)；

步骤12、T_plan中的T_plan2使用体素特征相关的K_voxel与V_voxel对Q_plan进行进一步的信息交互和特征更新，如下：

Q_plan＝T_plan2(Q_plan,K_voxel,V_voxel)；

步骤13、T_plan中的T_plan3使用动作预测相关的K_pred与V_pred对Q_plan进行最终的信息交互和特征更新，如下：

Q_plan＝T_plan3(Q_plan,K_pred,V_pred)；

步骤14、经上述步骤11至步骤13更新后的Q_plan将会被送至驾驶行为规划输出头H_plan中，用于输出自动驾驶车辆的驾驶行为规划结果O_plan：

O_plan＝H_plan(Q_plan)

其中，该输出结果O_plan具体的驾驶行为包括但不限于保持直行、左转、右转、加速、减速及停车，在实际应用中，还可以根据不同场景下的需求添加前车跟随、左变道、右变道等更加详细的行为指令。

具体的，如图2所示，还包括：自动驾驶车辆周围物体动作预测的任务以及驾驶行为规划的任务经由一一对应的输出头进行任务输出。

在具体实施方式中，S3中生成的融合体素特征就是自适应融合后的混合模态体素特征；S1-S3中所涉及到的特征提取网络将被后续多项任务共用，可以在满足各项任务需求的同时降低计算消耗；S4-S6的推理结果O_perc、O_pred及O_plan，就是基于激光雷达与摄像头混合模态的无人驾驶方法输出的感知结果、动作预测和行为规划，不同任务之间会进行有效的信息交互，充分利用了各项任务的内在关联性。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.基于激光雷达与摄像头混合模态的无人驾驶方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于激光雷达与摄像头混合模态的无人驾驶方法，其特征在于，“S2”具体包括：

3.根据权利要求1所述的基于激光雷达与摄像头混合模态的无人驾驶方法，其特征在于，“S3”具体包括：

4.根据权利要求1所述的基于激光雷达与摄像头混合模态的无人驾驶方法，其特征在于，“S5”具体包括：

5.根据权利要求1所述的基于激光雷达与摄像头混合模态的无人驾驶方法，其特征在于，所述Transformer模型包括：周围物体动作预测神经网络、驾驶行为规划神经网络；“S6”具体包括：

6.根据权利要求1所述的基于激光雷达与摄像头混合模态的无人驾驶方法，其特征在于，还包括：所述自动驾驶车辆周围物体动作预测的任务以及驾驶行为规划的任务经由一一对应的输出头进行任务输出。

7.根据权利要求1所述的基于激光雷达与摄像头混合模态的无人驾驶方法，其特征在于，所述感知任务包括但不限于三维目标检测、三维目标跟踪、三维空间占用预测和在线地图生成。

8.根据权利要求1所述的基于激光雷达与摄像头混合模态的无人驾驶方法，其特征在于，所述驾驶行为规划的任务包括但不限于保持直行、左转、右转、加速、减速及停车。