CN115879060B

CN115879060B - 基于多模态的自动驾驶感知方法、装置、设备和介质

Info

Publication number: CN115879060B
Application number: CN202310137829.5A
Authority: CN
Inventors: 叶晓青; 谭啸; 万吉; 王井东; 丁二锐; 王亮; 吴甜; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-02-14
Filing date: 2023-02-14
Publication date: 2023-07-04
Anticipated expiration: 2043-02-14
Also published as: CN115879060A

Abstract

本公开提供了一种基于多模态的自动驾驶感知方法、装置、设备和介质，涉及人工智能技术领域，尤其涉及计算机视觉、图像处理、深度学习等技术领域，可应用于自动驾驶、无人驾驶等场景。具体实现方案为：从主车和路侧设备获取多模态输入信息；分别提取所述多模态输入信息的各模态特征；将所述各模态特征分别映射到全局3D空间，得到各模态全局特征；对所述各模态全局特征进行特征融合，得到所述全局3D空间的多模态融合特征；基于所述多模态融合特征实现自动驾驶感知。本公开可以提升自动驾驶感知精度。

Description

基于多模态的自动驾驶感知方法、装置、设备和介质

技术领域

本公开涉及人工智能技术领域，尤其涉及计算机视觉、图像处理、深度学习等技术领域，可应用于自动驾驶、无人驾驶等场景，具体涉及一种基于多模态的自动驾驶感知方法、装置、设备和介质。

背景技术

自动驾驶汽车，即可以根据乘客计划自主完成出行任务的汽车，在整个出行过程中，完全不需要驾驶员的参与和控制。自动驾驶汽车想要完成出行安排，离不开感知、决策、控制这三大要素，其中感知作为让汽车“认得路”的重要环节，可以让自动驾驶汽车和驾驶员一样，读懂周围的交通要素。

感知系统用于给自动驾驶汽车提供决策依据，简而言之，感知就是根据输入信息进行一系列计算及处理，对自动驾驶汽车周围环境进行感知的系统。因此，感知的结果是否准确是自动驾驶汽车安全行驶的重要因素之一。

发明内容

本公开提供了一种基于多模态的自动驾驶感知方法、装置、设备和介质。

根据本公开的一方面，提供了一种基于多模态的自动驾驶感知方法，包括：

从主车和路侧设备获取多模态输入信息；

分别提取所述多模态输入信息的各模态特征；

将所述各模态特征分别映射到全局3D空间，得到各模态全局特征；

对所述各模态全局特征进行特征融合，得到所述全局3D空间的多模态融合特征；

基于所述多模态融合特征实现自动驾驶感知。

根据本公开的另一方面，提供了一种基于多模态的自动驾驶感知装置，包括：

输入信息获取模块，用于从主车和路侧设备获取多模态输入信息；

特征提取模块，用于分别提取所述多模态输入信息的各模态特征；

特征映射模块，用于将所述各模态特征分别映射到全局3D空间，得到各模态全局特征；

特征融合模块，用于对所述各模态全局特征进行特征融合，得到所述全局3D空间的多模态融合特征；

感知模块，用于基于所述多模态融合特征实现自动驾驶感知。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开任意实施例所述的基于多模态的自动驾驶感知方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使计算机执行本公开任意实施例所述的基于多模态的自动驾驶感知方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的一种基于多模态的自动驾驶感知方法的流程示意图；

图2是根据本公开实施例的另一种基于多模态的自动驾驶感知方法的流程示意图；

图3是根据本公开实施例的另一种基于多模态的自动驾驶感知方法的流程示意图；

图4是根据本公开实施例的另一种基于多模态的自动驾驶感知方法的流程示意图；

图5是根据本公开实施例的另一种基于多模态的自动驾驶感知方法的流程示意图；

图6是根据本公开实施例的基于统一BEV特征空间的转换的示意图；

图7是根据本公开实施例的另一种基于多模态的自动驾驶感知方法的流程示意图；

图8a是根据本公开实施例的另一种基于多模态的自动驾驶感知方法的流程示意图；

图8b是根据本公开实施例的车路一体的长短时序融合的示意图；

图9是根据本公开实施例的另一种基于多模态的自动驾驶感知方法的流程示意图；

图10是根据本公开实施例的基于多模态的自动驾驶感知方法的整体架构图；

图11是根据本公开实施例的不同模态传感器输入的示意图；

图12是根据本公开实施例的主车和路侧视角对比的示意图；

图13是根据本公开实施例的主车与路侧的特征融合方案的示意图；

图14是根据本公开实施例的一种基于多模态的自动驾驶感知装置的示意图；

图15是用来实现本公开实施例的基于多模态的自动驾驶感知方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本公开实施例的基于多模态的自动驾驶感知方法的流程示意图，本实施例可适用于对自动驾驶汽车的周围环境进行感知的情况，涉及人工智能技术领域，尤其涉及计算机视觉、图像处理、深度学习等技术领域，可应用于自动驾驶、无人驾驶等场景。该方法可由一种基于多模态的自动驾驶感知装置来执行，该装置采用软件和/或硬件的方式实现，优选是配置于电子设备中，例如自动驾驶汽车或其他计算机设备等。如图1所示，该方法具体包括如下：

S101、从主车和路侧设备获取多模态输入信息。

S102、分别提取多模态输入信息的各模态特征。

S103、将各模态特征分别映射到全局3D空间，得到各模态全局特征。

S104、对各模态全局特征进行特征融合，得到全局3D空间的多模态融合特征。

S105、基于多模态融合特征实现自动驾驶感知。

其中，主车即为自动驾驶汽车，主车上安装有各种不同的传感器，例如包括支持多个不同视角的相机、激光雷达和毫米波雷达等，还可以包括拾音器。主车上的传感器用于获取主车周围的多视角图像、雷达点云信息和语音信号等。路侧设备可以包括安装在路口或路边的相机、激光雷达和毫米波雷达等不同种类的传感器，通常用于采集路口等道路上固定范围内的信息。主车与路侧设备从不同的视角对道路周围环境、车辆和行人等情况进行观测，获取到不同模态的信息，这些多模态输入信息可以作为自动驾驶感知的数据基础。因此，所述多模态输入信息包括分别由主车传感器和路侧传感器采集的图像和点云。此外，多模态输入信息还包括高精地图的3D结构信息和语义拓扑信息，其中，3D结构信息主要是指地图上目标的位置与高度信息，语义拓扑信息则包括目标的类别信息，例如车道线、人行道或停止线等，以及道路不同节点之间的关系，例如分叉点或交汇点等。获取这些传感器数据的方式可以是通过5G信号基站，实现车与车、车与路侧智能设施等的信号通信。此外，主车和路侧设备两端的传感器还需要进行外参配准，即分别统一标定到世界坐标系上。

不同模态的输入信息的特征可以分别进行提取，例如，分别利用各模态对应的由深度神经网络构成的特征抽取器来提取多模态输入信息的各模态特征。在一种实施方式中，针对图像数据，可以经过堆叠的卷积网络组成的特征提取器，对多个相机提取的图像特征进行编码，得到各自视角的特征表达，该特征表达的优点是包含了丰富的语义上下文信息，但缺点是2D图像中不包含准确的深度和几何位置信息。针对激光雷达点云，则可以采用适配3D数据的深度神经网络进行抽取特征，或者利用点云的点的空间位置、反射率等信息。同理，毫米波雷达的特征也可采用类似方式进行抽取特征。3D数据（激光雷达和/或毫米波雷达）具有准确的几何空间位置信息，但缺点是缺少语义信息。高精地图的3D结构信息与语义拓扑信息可以采用深度神经网络编码的方式进行特征抽取。此外，同一模态数据的特征抽取器在训练过程可以采用该模态不同时间的数据进行训练，以提升训练效果。

由于不同模态数据所在的特征空间差异较大，因此，需要建立一个统一的全局3D表征空间实现特征的融合。全局3D空间例如可以是主车的鸟瞰图BEV（Bird’s Eye View）空间，该鸟瞰图BEV空间是指以主车为坐标系原点，主车的前进方向为Y轴，与Y轴垂直的方向为X轴，从上往下看到的用于描述主车的感知世界的视角。通过BEV等全局3D空间，可以在一个统一的表示下很容易地融合来自不同模态的特征，从相机和激光雷达等不同传感器的多模态输入信息中学习强大且有一致性的特征表示，为接下来的感知提供有力的特征数据支持。

不同模态的特征可以采用不同的方法来映射到全局3D空间，实施时，可以根据系统算力、自动驾驶等级进行合理选型。在一种实施方式中，将图像特征映射到全局3D空间，可以通过基于近似假设的IPM（Inverse Perspective Mapping）变换实现，即认为所有物体都近似在一个平面上。而雷达点云本身就是3D信息，因此，利用点云视角与全局3D空间视角之间的变换关系即可实现映射。需要说明的是，可以采用现有技术中任意一种针对图像和点云在不同视角下的变换方法来实现上述映射，本公开对此不作任何限定。

在将各模态特征分别映射到全局3D空间得到各模态全局特征后，即可基于多模态融合特征实现自动驾驶感知。例如，在融合特征后接不同的预测头，就可以对不同的感知场景进行预测，包括动态障碍物检测（预测障碍物的3D包围框和位置定位）、道路静态结构分割（预测车道线的分割）、驾驶意图预测（预测未来的运动状态）等3D感知和路径规划（从当前点到终点的最优路径规划）。

需要说明的是，传统车路协同方案中，车端感知模块与路侧感知模块是完全独立的。换而言之，传统车路协同方案中，是在各自独立感知结果的基础上，在结果层面进行策略的融合，两者在感知时没有交互。然而，车端感知的优势在于实时感知主车周围的静态道路结构、动态障碍物以及其他车的未来可能的轨迹，周围的环境是随着主车的不断运动而实时变化的。路侧感知的优势是对一个固定范围内具有更长历史信息的视角，它的传感器一般是安装在路边较高的灯杆上，相比车端传感器视角，观测范围更大，遮挡的情况更少。因此，车端感知模块与路侧感知模块进行各自独立地感知，并不能弥补各自感知的不足。

本公开实施例的技术方案，将路侧设备采集的传感器数据也作为一种跨模态的输入信息，并与车端采集的多模态输入信息都通过统一的全局3D空间转换，最终实现融合感知，由此，实现了端到端的融合，即：将现有技术中结果层面的后融合改为端到端的融合，能够更好的利用长历史信息（路侧）和短时瞬间变化（车端）的信息，提升感知精度。

而且，由于车载的多视角图像传感器可以捕获到语义信息和高分辨率的远处信息，但缺乏准确的深度信息。车载摄像机安装的高度不高，也容易发生目标遮挡。而车载雷达可以感知准确的3D结构化信息，但由于缺乏丰富的语义信息，对雨雾、洒水车、细条状的物体容易误检或者漏检。同时雷达的感知距离有限，对远距离感知能力弱。而路侧的图像传感器分路段安装，感知范围较大，且对遮挡鲁棒。因此，本公开实施例的技术方案通过多传感融合，不仅可以实现车端多传感器之间的融合，还可以实现车端与路侧同一类型传感器以及不同类型传感器的跨模态跨视角融合，在不同视角和不同传感器之间实现优势互补，从而确保多个感知达到更好的融合效果和感知效果。

例如，针对自动驾驶车辆盲区内的感知，在主车盲区内若突然窜出行人、骑行者或其他车辆，由于车载传感器无法采集到该区域内的图像或点云信息，或者采集的信息覆盖面不完整，那么仅依据主车上的传感器采集数据来进行盲区内感知，就会出现感知误差。而在路侧视角下就可以观测到更加全面的信息，而且路侧设备可以是分布在道路两侧和路口等位置，数量也可以是多个，分别从不同的视角进行拍摄，提高拍摄覆盖的范围。当采用V2X技术获取主车周围能够拍摄到主车及其周边环境的多个路侧设备采集的信息，就可以将主车与这些路侧设备的多模态输入信息一起进行特征提取，然后统一映射到BEV空间进行跨模态融合，基于融合后的特征来实现盲区的感知，就可以将主车拍摄不到但是路侧设备能够拍摄到的盲区内突然窜出的行人、骑行者或其他车辆感知到，从而及时提醒主车进行紧急避让，确保自动驾驶行车安全。

再例如，当主车因车道前方出现事故而导致排队等待的情况时，由于主车传感器无法拍摄到事故点周围图像，因此无法对事故进行提前感知，只能排队等待。而采用车路协同感知后，由于路侧传感器遍布较多，通常是能够覆盖所有道路及路口的情况的，因此，当根据覆盖该事故点及其周围的路侧传感器捕捉的信息感知到事故的发生，就可以通过V2X技术，提前告知那些可能会经过该事故点的其他车辆提前变道或者变更路线。一方面，可以提高道路车辆的形式效率，另一方面，也可以避免不必要的车辆碰撞等潜在的危险，提高车辆行驶的安全性。

在一种实施方式中，对于多模态输入信息中的图像，将图像特征映射到全局3D空间，得到图像的全局特征，可以是利用图像的坐标系与全局3D空间的坐标系之间的变换关系，将图像的特征映射到全局3D空间，得到图像的全局特征。在另一种实施方式中，还可以是基于深度学习网络，将图像的特征映射到全局3D空间，得到图像的全局特征，其中，该深度学习网络例如可以包括卷积神经网络、Transformer（一种利用注意力机制来提高模型训练速度的模型）和多层感知机（MLP, Multilayer Perceptron）等。

在一种实施方式中，对于多模态输入信息中的点云，将点云特征映射到全局3D空间，得到点云的全局特征，可以按照如下方式实现：根据目标感知区域对点云分布沿三维空间维度进行子空间划分，得到多个子空间网格；对每个子空间网络内的点云特征进行特征抽象，并将特征抽象的结果组合得到点云的全局特征。其中，目标感知区域表示当前需要感知的范围。特征抽象可采用特征平均和/或最大池化等方法，最终得到所有子空间的特征组成点云数据的全局特征。

在另一种实施方式中，将点云特征映射到全局3D空间，得到点云的全局特征，还可以按照如下方式实现：根据点云的空间分布建立邻接图，利用图卷积深度网络对点云特征在邻接图上进行特征聚合；将点云的每个数据点的位置投影到全局3D空间中，根据所述位置和特征聚合的结果，得到点云的全局特征。其中，邻接图的顶点是点云中的点，邻接图的边的权重是利用点云点之间的距离进行定义，邻接图中点的特征包括点云点的位置和反射率等信息。将特征聚合得到的结果按照每个数据点的位置在全局3D空间内的投影位置，就可以获取到全局3D空间内的点云特征。

其中，由于点云数据本身就是3D数据，因此，需要将原始点云乘以雷达传感器经标定的外参，然后再进行处理。

在一种实施方式中，对于多模态输入信息中的高精地图的3D结构信息和语义拓扑信息，由于其本身即为全局3D空间中表达的3D结构信息和语义拓扑信息，因此，该模态数据从特征编码器输出的特征已经在BEV空间中，无需进行额外处理。而通过高精地图的3D结构信息和语义拓扑信息可以在线实时建图，这样，自动驾驶车辆就可以知道当前在哪个车道，或者在红绿灯前多远需要减速以在停止线前停下来，从而提高自动驾驶感知的灵活性，引导车辆能够平稳、安全驾驶。

图2是根据本公开实施例的另一种基于多模态的自动驾驶感知方法的流程示意图，本实施例在上述实施例的基础上，以全局3D空间为BEV鸟瞰图空间为例，对如何对各模态BEV空间特征进行特征融合做出进一步的优化。如图2所示，该方法具体包括如下：

S201、从主车和路侧设备获取多模态输入信息。

S202、分别提取多模态输入信息的各模态特征。

S203、将各模态特征分别映射到主车的鸟瞰图BEV空间，得到各模态BEV空间特征。

S204、根据BEV空间内预定义的网格位置，将落到相同位置的各模态BEV空间特征进行聚合，得到BEV空间的多模态融合特征。

S205、基于多模态融合特征实现自动驾驶感知。

其中，预定义的网格位置是通过对BEV空间进行网格划分后确定的，网格的大小和具体的划分方式本公开并不做任何限定。不同模态的BEV空间特征是已经经过映射得到的转换后的特征，因此，将落到同一个网格内的各模态BEV空间特征通过聚合的方式，即可获取到多模态融合特征。聚合方式例如可以采用特征堆叠或者基于注意力机制的方式，本公开对此不作任何限定。

本公开实施例的技术方案，采用基于BEV网格的特征聚合方式来实现多模态的特征融合，不同网格内的特征聚合可以并行进行计算，不仅计算效率高，而且实现过程更加规则化，易于实现。

图3是根据本公开实施例的另一种基于多模态的自动驾驶感知方法的流程示意图，本实施例在上述实施例的基础上，以全局3D空间为BEV鸟瞰图空间为例，对如何对各模态BEV空间特征进行特征融合做出进一步的优化。如图3所示，该方法具体包括如下：

S301、从主车和路侧设备获取多模态输入信息。

S302、分别提取多模态输入信息的各模态特征。

S303、将各模态特征分别映射到主车的鸟瞰图BEV空间，得到各模态BEV空间特征。

S304、根据点云的数据点在BEV空间确定非空BEV空间网格位置。

S305、将非空BEV网格位置中的各模态BEV空间特征进行融合，得到BEV空间的多模态融合特征。

S306、基于多模态融合特征实现自动驾驶感知。

具体的，由于雷达的点云点可能分布较为稀疏，存在某个网格里面没有扫到点云点的情况。因此，本公开实施例根据多模态输入信息中的点云数据，利用点云的数据点先在BEV空间确定非空BEV空间网格位置，也就是说，在非空BEV空间网格内是包含一定的点云分布的，然后再将非空BEV网格位置中的各模态BEV空间特征进行融合，得到BEV空间的多模态融合特征。由此，可以确保融合后的特征中既能保留图像数据特征也能保留点云数据特征，从而保留两种数据特征的优势，提升感知效果。

本公开实施例的技术方案，采用基于点云数据点划分网格的融合方式来实现多模态的特征融合，将基于点云数据点确定的非空BEV网格位置中的各模态BEV空间特征进行融合，在确保融合效果的基础上，还能更省计算量，节约计算资源。

图4是根据本公开实施例的另一种基于多模态的自动驾驶感知方法的流程示意图，本实施例在上述实施例的基础上，以全局3D空间为BEV鸟瞰图空间为例，对如何对各模态BEV空间特征进行特征融合做出进一步的优化。如图4所示，该方法具体包括如下：

S401、从主车和路侧设备获取多模态输入信息。

S402、分别提取多模态输入信息的各模态特征。

S403、将各模态特征中具有相同模态的特征进行同模态特征融合。

S404、将经同模态特征融合后的各模态特征分别映射到主车的鸟瞰图BEV空间，得到各模态融合BEV空间特征。

S405、将各模态融合BEV空间特征进行第一跨模态特征融合，得到BEV空间的多模态融合特征。

S406、基于多模态融合特征实现自动驾驶感知。

具体的，主车和路侧设备获取的各模态输入信息中包含相同模态的数据，例如，都包含通过各自配备的相同类型的传感器而采集到的图像数据、雷达点云数据等。因此，在本实施例中，作为一种特征融合的具体实施方式，是在将特征映射到BEV空间之前，先将提取到的各模态特征中，属于同一种模态的特征先进行相同模态特征融合，也即将主车与路侧设备两端分别提取到的图像特征进行融合，将两端分别提取到的雷达点云特征进行融合。之后，再将经同模态特征融合后的各模态特征分别映射到主车的BEV空间，得到各模态融合BEV空间特征。也即，将主车与路侧设备两端的图像融合特征映射到BEV空间，将两端的点云融合特征映射到BEV空间。最后再将不同模态融合BEV空间特征通过跨模态的特征融合，得到最终BEV空间的多模态融合特征。

本公开实施例的技术方案，在将特征映射到BEV空间之前，先对主车与路侧之间同模态的特征进行融合，融合时，可以将主车与路侧的传感器数据都转换到世界坐标系再进行融合，也可以将路侧的传感器数据转换到主车的坐标系进行融合，或者将主车的传感器数据转换到路侧传感器的坐标系进行融合，当然，还可以是将主车与路侧均分别转换到其他统一的坐标系进行融合，本公开对此不作任何限定。先进行同模态的特征融合，可以确保融合的准确性，避免因BEV空间映射误差而带来的损失，然后再在BEV空间内完成跨模态融合，提高车路协同的特征融合的精度。

图5是根据本公开实施例的另一种基于多模态的自动驾驶感知方法的流程示意图，本实施例在上述实施例的基础上，以全局3D空间为BEV鸟瞰图空间为例，对如何对各模态BEV空间特征进行特征融合做出进一步的优化。如图5所示，该方法具体包括如下：

S501、从主车和路侧设备获取多模态输入信息。

S502、分别提取多模态输入信息的各模态特征。

S503、将各模态特征分别映射到主车的鸟瞰图BEV空间，得到各模态BEV空间特征。

S504、将主车的多模态输入信息对应的不同模态BEV空间特征进行第二跨模态特征融合，得到主车的BEV空间多模态融合特征。

S505、将路侧设备的多模态输入信息对应的不同模态BEV空间特征进行第三跨模态特征融合，得到路侧设备的BEV空间多模态融合特征。

S506、将主车的BEV空间多模态融合特征和路侧设备的BEV空间多模态融合特征进行第四跨模态特征融合，得到BEV空间的多模态融合特征。

S507、基于多模态融合特征实现自动驾驶感知。

本实施例作为另一种特征融合的具体实施方式，是先对主车和路侧设备各自的多模态BEV空间特征分别进行跨模态特征融合，分别得到主车的BEV空间多模态融合特征和路侧设备的BEV空间多模态融合特征，然后，再将二者进行跨模态特征融合，最终得到BEV空间的多模态融合特征。

本公开实施例的技术方案，主车和路侧分别具有不同的视角，因此，先将主车和路侧的传感器数据分别进行BEV空间的特征融合，然后再将二者进行跨模态融合，也是一种实用的方式。而且，主车对应的BEV空间多模态融合特征也可以独立对接任务头，完成针对主车周边的事件感知，同理，路侧设备的BEV空间多模态融合特征也可以独立对接任务头，完成道路或路口周边的事件感知。主车与路侧各自的BEV空间多模态融合特征再经跨模态融合后，也可以对接不同的任务头，由此，同一套架构也可以更加灵活地对接不同场景下的任务头，实现多样化的事件感知，其具有更加广泛的适用范围。

此外，在又一种实施方式中，还可以是将主车与路侧设备对应的各模态BEV空间特征放在一起统一进行跨模态特征融合，得到BEV空间的多模态融合特征。图6即为根据本公开实施例的基于统一BEV特征空间的转换的示意图。如图6所示，路侧激光雷达点云与车端激光雷达点云、路侧毫米波雷达点云与车端毫米波雷达点云、路侧多相机图像与车端多视角图像分别通过上述各模态对应的特征提取器提取特征，然后再映射到主车的BEV空间，得到各模态BEV空间特征，最后统一在BEV空间进行跨模态融合。此种实施方式中的融合方式，统一将主车与路侧各自的传感器数据都是映射到BEV空间后再进行融合，其优势就在于计算过程的统一性，减少中间过程，提高计算的准确性。

需要说明的是，对于主车与路侧设备两端的多模态传感器数据的融合方式，本公开实施例并不限定具体采用上述各个实施例中描述的哪一种，不同的融合方式具有不同的优势，因此，可以基于具体场景和感知来灵活选择。此外，在一套架构中，可以选择其中一种融合方式实现，也可以选择其中的一种或多种融合方式组合实现，本公开实施例对此也不做任何限定。

图7是根据本公开实施例的另一种基于多模态的自动驾驶感知方法的流程示意图，本实施例在上述实施例的基础上，以全局3D空间为BEV鸟瞰图空间为例，对时空融合做出进一步优化。如图7所示，该方法具体包括如下：

S701、从主车和路侧设备获取多模态输入信息。

S702、分别提取多模态输入信息的各模态特征。

S703、将各模态特征分别映射到主车的鸟瞰图BEV空间，得到各模态BEV空间特征。

S704、对各模态BEV空间特征进行特征融合，得到BEV空间的多模态融合特征。

S705、将BEV空间的多模态融合特征与主车的运动信息进行时序对齐。

S706、利用时序对齐后的多模态融合特征实现自动驾驶感知。

本实施例中得到BEV空间的多模态融合特征之后，还将多模态融合特征与主车的运动信息进行时序对齐。其中，主车的运动信息可以包括主车在不同时刻的位置和姿态信息，通过主车的运动信息可以获取相应时刻或者相应时刻前后多个时刻所对应的图像和点云数据各自对应的多模态融合特征。也就是说，经过时序对齐，可以准确获取到与主车运行位置和姿态所对应的每一帧或多帧的多模态融合特征，增加多模态融合特征与主车运行的匹配性。这样，利用对齐后的多模态融合特征来计算和更新BEV空间下的特征图，并基于特征图来实现自动驾驶感知，可以提升感知的准确性，避免出现感知偏差。

同时，针对未来意图预测的一些感知场景，以及预测物体运动速度信息的感知场景，都需要将当前帧的前面几帧历史信息作为辅助信息才能准确进行预测。因此，在面对这种类型的感知时，通过本公开实施例的时序对齐，就可以获取与主车当前的运动信息相匹配以及当前帧之前历史上的多模态融合特征，从而对主车周围其他车辆或行人的未来意图进行预测，提高对此类型感知预测的精度。

在一种实施方式中，将BEV空间的多模态融合特征与主车的运动信息进行时序对齐，可以包括：

建立设定长度的第一时序特征队列，其中，第一时序特征队列由每一帧的BEV空间的多模态融合特征组成，并按照先进先出的规则，基于时序进行更新；

将第一时序特征队列中的多模态融合特征与主车的运动信息进行时序对齐。

具体的，经融合后的BEV空间的多模态融合特征，会按照先进先出的规则依次进入预先创建的第一时序特征队列。例如，该第一时序特征队列的长度为20帧，那么，在满20帧之后，当新来一帧，会把队列中前面最旧的一帧从队列中推出，同时推入该最新的一帧特征。需要说明的是，本公开并不限定第一时序特征队列的长度，可以根据感知的需要进行配置。第一时序特征队列经时空融合模块进行时序对齐，也即实现将第一时序特征队列中的多模态融合特征与主车的运动信息进行时序对齐。由此，通过时序特征队列的方式能够快速、准确地与主车的运动信息完成时序对齐。同时，本公开实施例对于经时序对齐后从时序特征队列中提取的特征片段的长度或特征帧数，也不做任何限定，可以根据具体的感知特点和感知需求进行配置。如果需要选择更长时间的历史信息作为感知的辅助信息，则可以选择与主车当前时刻对应的数量更多帧的历史特征进行对齐。

本公开实施例的技术方案，通过将BEV空间的多模态融合特征与主车的运动信息进行时序对齐，依据对齐后的融合特征完成感知，可以获得与主车运动时刻相同的时间下的融合特征及历史特征，避免出现因融合特征在主车运动时刻上的错位导致感知事件提前或滞后的问题，这不仅能提高感知的准确性，更加能提高自动驾驶的安全性。尤其是针对未来意图预测和物体运动速度预测的一些感知场景，可以极大提高感知的准确性，而在能够对主车周围物体未来的行进趋势进行准确预测的情况下，就可以指导主车提前做出适当的行动，确保主车顺利完成驾驶，同时也能规避未来可能存在的风险。

图8a是根据本公开实施例的另一种基于多模态的自动驾驶感知方法的流程示意图，本实施例在上述实施例的基础上，以全局3D空间为BEV鸟瞰图空间为例，对时空融合做出进一步优化。如图8a所示，该方法具体包括如下：

S801、从主车和路侧设备获取多模态输入信息。

S802、分别提取多模态输入信息的各模态特征。

S803、将各模态特征分别映射到主车的鸟瞰图BEV空间，得到各模态BEV空间特征。

S804、将主车的多模态输入信息对应的不同模态BEV空间特征进行第二跨模态特征融合，得到主车的BEV空间多模态融合特征。

S805、将路侧设备的多模态输入信息对应的不同模态BEV空间特征进行第三跨模态特征融合，得到路侧设备的BEV空间多模态融合特征。

S806、将主车的BEV空间多模态融合特征，与路侧设备的BEV空间多模态融合特征，分别与主车的运动信息进行时序对齐。

S807、将时序对齐后的主车的BEV空间多模态融合特征和路侧设备的BEV空间多模态融合特征，进行第四跨模态特征融合，得到BEV空间的多模态融合特征。

S808、基于多模态融合特征实现自动驾驶感知。

具体的，当主车与路侧分别在BEV空间内完成各自的跨模态融合，本实施例中先将主车和路侧设备的BEV空间多模态融合特征，分别与主车的运动信息进行时序对齐，然后再将对齐后的特征进行跨模态特征融合，基于此多模态融合特征完成感知。也就是说，从主车的BEV空间多模态融合特征中选择与主车运动时刻对齐的特征和/或历史特征，从路侧的BEV空间多模态融合特征中选择与主车运动时刻对齐的特征和/或历史特征，然后再将二者进行跨模态融合，一起作为感知的数据基础。

其中，将主车的BEV空间多模态融合特征，与路侧设备的BEV空间多模态融合特征，分别与主车的运动信息进行时序对齐，包括：

根据主车的BEV空间多模态融合特征中的每一帧特征，建立第二时序特征队列；

根据路侧设备的BEV空间多模态融合特征中的每一帧特征，建立第三时序特征队列；

将第二时序特征队列中的特征和第三时序特征队列中的特征分别与主车的运动信息进行时序对齐；

其中，第二时序特征队列与第三时序特征队列，均按照先进先出的规则，基于时序进行更新。

具体的，第二时序特征队列与第三时序特征队列和上述实施例中的第一时序特征队列相似，都是按照先进先出的规则基于时序进行更新。且本实施例对第二时序特征队列与第三时序特征队列的长度不做任何限定，在一种实施方式中，可以将第二时序特征队列与第三时序特征队列设置为相同的长度，也可以让第二时序特征队列的长度小于第三时序特征队列。经过与主车的时序对齐，就可以获取到相同时间以及当前时刻的历史上的主车的BEV融合特征与路侧设备的BEV融合特征，这些特征表达的是在主车运行的同一时刻同一种姿态下，主车和路侧设备分别获取到的环境周围的特征，因此，利用将二者融合后的多模态融合特征完成感知，可以提高感知精度，提升自动驾驶的安全性。

在一种实施方式中，由于主车与路侧是从不同的视角进行拍摄，在时序对齐的时候，可以让对齐的第二时序特征队列中的特征的片段长度小于第三时序特征队列中的特征的片段长度。也就是说，对主车和路侧设备两端的历史帧信息采用不同时间序列长度的特征进行对齐和后续的融合，对路侧视角可以缓存更长时间的特征队列，对主车视角则可以相对较短。由于主车的自动驾驶感知需要将主车周围以及主车当前时刻前后的周边环境都作为依据，才能提高感知精度，因此，按照本实施例的方式，就可以将更长时间的路侧环境信息作为主车运行感知的依据，提高感知精度。

图8b是根据本公开实施例的车路一体的长短时序融合的示意图。如图8b所示，以全局3D空间为BEV鸟瞰图空间为例，图中每一个方块可代表BEV空间多模态融合特征，多个方块组成时序特征队列（Feature queue）。例如，在路侧的时序特征队列中，包括t、t-1、t-2、t-3……t-N等不同时刻的特征。图中A1与B1是经过时序对齐的车端和路侧的特征队列中的片段，车端的特征片段A1长度小于路侧的特征片段B1。同理，A2与B2也是两个经过时序对齐的特征片段，并且A2的长度小于B2的长度。之后，A1与B1、A2与B2分别进行跨模态融合，并完成预测。这样做的目的在于，车端的优势是实时感知，而由于路侧视角的传感器等设备通常是固定安装的，例如安装在路口高高的灯杆上，所以路侧视角可以拥有长时间的历史信息作为参考，相当于获取与主车当前时刻对齐的特征前后更长时间的历史信息，其可以更好地为自动驾驶车辆实时的感知提供数据依据。因此，在进行意图预测的时候，车路一体感知有绝对的优势，其既可以发挥车端实时感知的优势，也可以通过路侧较长时间的历史信息获取更具有价值的、并且车端无法获取到的特征，从而提升自动驾驶的感知精度。

图9是根据本公开实施例的另一种基于多模态的自动驾驶感知方法的流程示意图，本实施例在上述实施例的基础上，以全局3D空间为BEV鸟瞰图空间为例，对主车运动信息的融合做出进一步优化。如图9所示，该方法具体包括如下：

S901、从主车和路侧设备获取多模态输入信息。

S902、分别提取多模态输入信息的各模态特征。

S903、将各模态特征分别映射到主车的鸟瞰图BEV空间，得到各模态BEV空间特征。

S904、对各模态BEV空间特征进行特征融合，得到BEV空间的多模态融合特征。

S905、将主车的外参信息进行高维信息编码，得到外参编码信息，其中，外参信息表示上一帧的主车位置相对于当前帧的主车位置的变换关系。

S906、将多模态融合特征与外参编码信息进行融合，并基于所述融合后的特征实现自动驾驶感知。

本实施例中，将主车的外参也作为感知的辅助信息。其中，主车的外参信息表示上一帧的主车位置相对于当前帧的主车位置的变换关系，包括速度、姿态和位置等变换关系。外参信息通常是低维数据，本实施例先将外参信息进行隐式的高维信息编码，得到外参编码信息，例如，通过神经网络进行编码。然后再将多模态融合特征与外参编码信息进行融合，相当于将外参编码信息也引入到感知网络中。由此，在车路协同的BEV空间特征跨模态融合基础上，将主车的外参信息也引入进来作为辅助信息，基于融合后的特征实现自动驾驶感知，可以丰富特征数据的内容，提高特征数据的完整性，继而提升自动驾驶感知的精度。尤其是在障碍物检测的感知中，具有更好的表现。

此外，在一种实施方式中，还可以将作为多模态输入信息之一的高精地图的3D结构信息和语义拓扑信息转换为矢量地图数据，而后再进行特征提取、BEV空间映射和跨模态融合，这样，后续在对静态道路结构进行预测时，只需要预测关键点和上下节点的拓扑关系即可，将原本需要预测每个网格点的分割类别属性的稠密预测转换为稀疏预测的形式，例如，对于车道线分割的问题就可以转换成矢量地图预测的问题。由此，针对静态道路结构的预测就可以与障碍物检测等感知场景共享一套车路协同的BEV感知框架，且无需后续进行额外的处理，无缝衔接下游任务。

本公开实施例的技术方案是一种统一范式的车路协同的多模态传感器3D感知框架，它解决的问题是构建一个统一的框架，具有统一的表征范式，即BEV鸟瞰图空间，可以支持跨模态、时空融合、多任务的端到端感知系统，适用于车路一体3D感知，实现从图像空间、LiDAR空间、时序空间等，直接预测出真实3D空间的信息，包括静态道路结构、动态障碍物的3D包围框、速度以及未来的意图预测等。适用的场景包括L4级自动驾驶、L2/L3级智能辅助驾驶、智能信控和智慧高速等。

图10是根据本公开实施例的基于多模态的自动驾驶感知方法的整体架构图。如图所示，整体架构包括跨模态输入、特征提取、特征变换与融合、感知预测四个部分。其中，跨模态输入至少包括高精地图、多视角图像、激光雷达、毫米波雷达、超声波雷达、时序多帧信号及语音信号等。其中，语音信号是通过主车上配备的拾音器采集到的主车周围的声音信号，例如包括周围车辆的喇叭声等。而通过对这些语音信号的识别，也可以融合其他传感器的特征数据，实现对周围车辆意图的感知和预测，提高感知的维度，提升感知的准确度。特征提取则包括同模态的共享提取器，以及利用这些提取器实现不同模态的独立提取。特征变换与融合则包括BEV空间内的跨模态特征融合与时空运动融合。感知预测则至少包动态障碍物检测、静态元素分割、未来意图预测和跟踪等。

具体的，本公开实施例的技术方案针对自动驾驶领域的3D感知问题，提出一种统一范式的感知框架UniBEV，该框架支持不同输入（多视角图像/Radar/LiDAR/时序前后帧信息/声音信号输入）、不同的融合方式以及不同的感知场景（静态道路元素分割、动态障碍物检测、未来意图预测等），是一个统一的框架，可以同时用于车端和路侧感知系统，辅助车路协同，让聪明的车与智慧的路协同发展。该自动驾驶感知系统的优势在于使用一种统一的特征空间（BEV）进行特征融合，借助BEV这种统一的空间实现端到端的融合感知，而传统的图像空间感知方案，则是不同视角或者不同帧的图像经过各自的网络进行独立预测，然后在结果层面做融合。所以，BEV感知有其独特的优势，不需要复杂的后处理，也没有图像里面近大远小和遮挡等问题，可以端到端输出后端规划控制模块需要的信息。

图11是根据本公开实施例的不同模态传感器输入的示意图。如图11所示，主车（自动驾驶汽车，Autonomous Vehicle）上安装有如下传感器：相机（Camera），用于拍摄图像数据（Image）；激光雷达（LiDAR），用于采集点云数据（Point Cloud）和深度图像（RangeImage）；毫米波雷达（Millimeter Radar）和超声波雷达（Ultrasonic Radar）。同时，还通过V2X技术获取到路侧设备的传感器数据，包括路侧雷达点云、路侧图像、红绿灯信号等。这些传感器获取的信息都作为不同模态的输入信息。此外，输入信息还包括高精地图（HD Map）的3D结构信息与语义拓扑信息。

主车与路侧是以不同视角来获取数据。图12是根据本公开实施例的主车和路侧视角对比的示意图。由图中可以看出，同样是针对道路（Road）进行拍摄，但由于主车传感器与路侧传感器视角不同，二者获取到的信息的覆盖范围并不相同。因此，车路协同感知则更能对二者进行优势互补，获取更加全面的信息。

同时，由于输入信息是来自不同视角下的不同类型的传感器数据，因此，先将输入信息统一映射到BEV等全局3D空间，然后再进行跨模态融合。图13是根据本公开实施例的主车与路侧的特征融合方案的示意图。如图所示，本公开实施例的技术方案支持三种不同的融合方案，具体可根据所使用的场景和感知需求来确定，本公开对此不作任何限定。不同融合方案的具体描述已分别在上述实施例中描述，此处不再赘述。

本公开实施例的技术方案，将V2X路侧传感器的数据也作为一种跨模态的输入信息，并通过BEV等全局3D空间转换，最终实现融合感知，与传统的车路协同感知方案相比，具有如下优势：

（1）端到端融合。将结果层面的后融合改为端到端融合，更好的利用长历史信息（路侧）和短时瞬间变化（车端）的信息。

（2）实时交互。通过时间戳（时序）对齐，可以获得同一时间下车端和路侧的不同传感器作为输入，然后在统一的全局3D空间下实现特征融合和交互。

（3）统一不同视角和不同传感器实现优势互补。而且，多模态传感器的融合，在本公开实施例的框架中，首先可以是车端多传感器之间的融合，其次也可以是车端与路侧同一类型传感器之间的融合，最后还可以是车端与路侧不同类型的传感器之间的跨模态多视角的融合。不同的感知场景可以采用不同的融合方式，使用方法更加灵活，适用范围更加广泛。

图14是根据本公开实施例的基于多模态的自动驾驶感知装置的结构示意图，本实施例可适用于对自动驾驶汽车的周围环境进行感知的情况，涉及人工智能技术领域，尤其涉及计算机视觉、图像处理、深度学习等技术领域，可应用于自动驾驶、无人驾驶等场景。该装置可实现本公开任意实施例所述的基于多模态的自动驾驶感知方法。如图14所示，该装置1400具体包括：

输入信息获取模块1401，用于从主车和路侧设备获取多模态输入信息；

特征提取模块1402，用于分别提取所述多模态输入信息的各模态特征；

特征映射模块1403，用于将所述各模态特征分别映射到全局3D空间，得到各模态全局特征；

特征融合模块1404，用于对所述各模态全局特征进行特征融合，得到所述全局3D空间的多模态融合特征；

感知模块1405，用于基于所述多模态融合特征实现自动驾驶感知。

可选的，所述多模态输入信息包括图像和点云，所述图像和点云分别由所述主车的传感器和路侧设备的传感器采集。

可选的，所述多模态输入信息还包括高精地图在所述全局3D空间中表达的3D结构信息和语义拓扑信息。

可选的，所述全局3D空间为所述主车的鸟瞰图BEV空间。

可选的，所述特征提取模块具体用于：

分别利用各模态对应的由深度神经网络构成的特征抽取器，提取所述多模态输入信息的各模态特征。

可选的，所述特征映射模块包括：

第一特征映射子模块，用于利用所述图像的坐标系与所述全局3D空间的坐标系之间的变换关系或基于深度学习网络，将所述图像的特征映射到所述全局3D空间，得到所述图像的全局特征。

可选的，所述特征映射模块包括第二特征映射子模块，所述第二特征映射子模块包括：

子空间划分单元，用于根据目标感知区域对所述点云分布沿三维空间维度进行子空间划分，得到多个子空间网格；

特征组合单元，用于对所述多个子空间网格中每个子空间网络内的点云特征进行特征抽象，并将所述特征抽象的结果组合得到所述点云的全局空间特征。

可选的，所述特征映射模块包括第三特征映射子模块，所述第三特征映射子模块包括：

特征聚合单元，用于根据所述点云的空间分布建立邻接图，利用图卷积深度网络对点云特征在所述邻接图上进行特征聚合；

投影单元，用于将所述点云的每个数据点的位置投影到所述全局3D空间中，根据所述位置和所述特征聚合的结果，得到所述点云的全局特征。

可选的，所述特征融合模块包括：

第一特征融合子模块，用于根据所述全局3D空间内预定义的网格位置，将落到相同位置的所述各模态全局特征进行聚合，得到所述全局3D空间的多模态融合特征。

可选的，所述特征融合模块包括第二特征融合子模块，所述第二特征融合子模块包括：

网格位置确定单元，用于根据所述点云的数据点在所述全局3D空间确定非空全局3D空间网格位置；

融合单元，用于将所述非空全局3D网格位置中的所述各模态全局特征进行融合，得到所述全局3D空间的多模态融合特征。

可选的，所述特征映射模块包括：

同模态特征融合单元，用于将所述各模态特征中具有相同模态的特征进行同模态特征融合；

映射单元，用于将经同模态特征融合后的各模态特征分别映射到所述全局3D空间，得到各模态融合全局特征。

可选的，所述特征融合模块包括：

第三特征融合子模块，用于将所述各模态融合全局特征进行第一跨模态特征融合，得到所述全局3D空间的多模态融合特征。

可选的，所述特征融合模块包括第四特征融合子模块，所述第四特征融合子模块包括：

第二跨模态特征融合单元，用于将所述主车的多模态输入信息对应的不同模态全局特征进行第二跨模态特征融合，得到主车的全局3D空间多模态融合特征；

第三跨模态特征融合单元，用于将所述路侧设备的多模态输入信息对应的不同模态全局特征进行第三跨模态特征融合，得到路侧设备的全局3D空间多模态融合特征；

第四跨模态特征融合单元，用于将所述主车的全局3D空间多模态融合特征和所述路侧设备的全局3D空间多模态融合特征进行第四跨模态特征融合，得到所述全局3D空间的多模态融合特征。

可选的，所述感知模块包括第一感知子模块，所述第一感知子模块包括：

第一时序对齐单元，用于将所述全局3D空间的多模态融合特征与所述主车的运动信息进行时序对齐；

第一感知单元，用于利用时序对齐后的多模态融合特征实现自动驾驶感知。

可选的，所述第一时序对齐单元包括：

第一时序特征队列建立子单元，用于建立设定长度的第一时序特征队列，其中，所述第一时序特征队列由每一帧的所述全局3D空间的多模态融合特征组成，并按照先进先出的规则，基于时序进行更新；

第一时序对齐子单元，用于将所述第一时序特征队列中的多模态融合特征与所述主车的运动信息进行时序对齐。

可选的，所述第五跨模态特征融合单元包括：

第二时序对齐子单元，用于将所述主车的全局3D空间多模态融合特征，与所述路侧设备的全局3D空间多模态融合特征，分别与所述主车的运动信息进行时序对齐；

第四跨模态特征融合子单元，用于将所述时序对齐后的所述主车的全局3D空间多模态融合特征和所述路侧设备的全局3D空间多模态融合特征，进行第四跨模态特征融合，得到所述全局3D空间的多模态融合特征。

可选的，所述第二时序对齐子单元具体用于：

根据所述主车的全局3D空间多模态融合特征中的每一帧特征，建立第二时序特征队列；

根据所述路侧设备的全局3D空间多模态融合特征中的每一帧特征，建立第三时序特征队列；

将所述第二时序特征队列中的特征和所述第三时序特征队列中的特征分别与所述主车的运动信息进行时序对齐；

其中，所述第二时序特征队列与所述第三时序特征队列，均按照先进先出的规则，基于时序进行更新。

可选的，经所述时序对齐的第二时序特征队列中的特征的片段长度小于所述第三时序特征队列中的特征的片段长度。

可选的，所述感知模块包括第二感知子模块，所述第二感知子模块包括：

外参编码单元，用于将所述主车的外参信息进行高维信息编码，得到外参编码信息，其中，所述外参信息表示上一帧的主车位置相对于当前帧的主车位置的变换关系；

外参融合单元，用于将所述多模态融合特征与所述外参编码信息进行融合，并基于融合后的特征实现自动驾驶感知。

可选的，所述装置还包括：

高精地图数据转换模块，用于将所述高精地图的3D结构信息和语义拓扑信息转换为矢量地图数据。

可选的，所述自动驾驶感知至少包括如下之一：动态障碍物检测、静态元素分割、未来意图预测或跟踪。

上述产品可执行本公开任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图15示出了可以用来实施本公开的实施例的示例电子设备1500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图15所示，设备1500包括计算单元1501，其可以根据存储在只读存储器（ROM）1502中的计算机程序或者从存储单元1508加载到随机访问存储器（RAM）1503中的计算机程序，来执行各种适当的动作和处理。在RAM 1503中，还可存储设备1500操作所需的各种程序和数据。计算单元1501、ROM 1502以及RAM 1503通过总线1504彼此相连。输入/输出（I/O）接口1505也连接至总线1504。

设备1500中的多个部件连接至I/O接口1505，包括：输入单元1506，例如键盘、鼠标等；输出单元1507，例如各种类型的显示器、扬声器等；存储单元1508，例如磁盘、光盘等；以及通信单元1509，例如网卡、调制解调器、无线通信收发机等。通信单元1509允许设备1500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1501的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元1501执行上文所描述的各个方法和处理，例如基于多模态的自动驾驶感知方法。例如，在一些实施例中，基于多模态的自动驾驶感知方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1502和/或通信单元1509而被载入和/或安装到设备1500上。当计算机程序加载到RAM 1503并由计算单元1501执行时，可以执行上文描述的基于多模态的自动驾驶感知方法的一个或多个步骤。备选地，在其他实施例中，计算单元1501可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行基于多模态的自动驾驶感知方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、复杂可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）区块链网络和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

人工智能是研究使计算机来模拟人的某些思维过程和智能行为（如学习、推理、思考、规划等）的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。

云计算（cloud computing），指的是通过网络接入弹性可扩展的共享物理或虚拟资源池，资源可以包括服务器、操作系统、网络、软件、应用和存储设备等，并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术，可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提供的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种基于多模态的自动驾驶感知方法，包括：

从主车和路侧设备获取多模态输入信息，其中，所述多模态输入信息包括高精地图的3D结构信息和语义拓扑信息；

分别提取所述多模态输入信息的各模态特征；

基于所述多模态融合特征实现自动驾驶感知。

2.根据权利要求1所述的方法，其中，所述多模态输入信息还包括图像和点云，所述图像和点云分别由所述主车的传感器和路侧设备的传感器采集。

3.根据权利要求2所述的方法，其中，所述高精地图的3D结构信息和语义拓扑信息是在所述全局3D空间中表达的3D结构信息和语义拓扑信息。

4.根据权利要求1所述的方法，其中，所述全局3D空间为所述主车的鸟瞰图BEV空间。

5.根据权利要求1-4中任一项所述的方法，其中，所述分别提取所述多模态输入信息的各模态特征，包括：

6.根据权利要求2或3所述的方法，其中，

所述将所述各模态特征分别映射到全局3D空间，得到各模态全局特征，包括：

利用所述图像的坐标系与所述全局3D空间的坐标系之间的变换关系或基于深度学习网络，将所述图像的特征映射到所述全局3D空间，得到所述图像的全局特征。

7.根据权利要求2或3所述的方法，其中，

根据目标感知区域对所述点云的分布沿三维空间维度进行子空间划分，得到多个子空间网格；

对所述多个子空间网格中每个子空间网络内的点云特征进行特征抽象，并将所述特征抽象的结果组合得到所述点云的全局特征。

8.根据权利要求2或3所述的方法，其中，

根据所述点云的空间分布建立邻接图，利用图卷积深度网络对点云特征在所述邻接图上进行特征聚合；

将所述点云的每个数据点的位置投影到所述全局3D空间中，根据所述位置和所述特征聚合的结果，得到所述点云的全局特征。

9.根据权利要求1-4中任一项所述的方法，其中，所述对所述各模态全局特征进行特征融合，得到所述全局3D空间的多模态融合特征，包括：

根据所述全局3D空间内预定义的网格位置，将落到相同位置的所述各模态全局特征进行聚合，得到所述全局3D空间的多模态融合特征。

10.根据权利要求2或3所述的方法，其中，

所述对所述各模态全局特征进行特征融合，得到所述全局3D空间的多模态融合特征，包括：

根据所述点云的数据点在所述全局3D空间确定非空全局3D空间网格位置；

将所述非空全局3D网格位置中的所述各模态全局特征进行融合，得到所述全局3D空间的多模态融合特征。

11.根据权利要求1-4中任一项所述的方法，其中，所述将所述各模态特征分别映射到所述全局3D空间，得到各模态全局特征，包括：

将所述各模态特征中具有相同模态的特征进行同模态特征融合；

将经同模态特征融合后的各模态特征分别映射到所述全局3D空间，得到各模态融合全局特征。

12.根据权利要求11所述的方法，其中，所述对所述各模态全局特征进行特征融合，得到所述全局3D空间的多模态融合特征，包括：

将所述各模态融合全局特征进行第一跨模态特征融合，得到所述全局3D空间的多模态融合特征。

13.根据权利要求1-4中任一项所述的方法，其中，所述对所述各模态全局特征进行特征融合，得到所述全局3D空间的多模态融合特征，包括：

将所述主车的多模态输入信息对应的不同模态全局特征进行第二跨模态特征融合，得到主车的全局3D空间多模态融合特征；

将所述路侧设备的多模态输入信息对应的不同模态全局特征进行第三跨模态特征融合，得到路侧设备的全局3D空间多模态融合特征；

将所述主车的全局3D空间多模态融合特征和所述路侧设备的全局3D空间多模态融合特征进行第四跨模态特征融合，得到所述全局3D空间的多模态融合特征。

14.根据权利要求1-4中任一项所述的方法，其中，所述基于所述多模态融合特征实现自动驾驶感知，包括：

将所述全局3D空间的多模态融合特征与所述主车的运动信息进行时序对齐；

利用时序对齐后的多模态融合特征实现自动驾驶感知。

15.根据权利要求14所述的方法，其中，所述将所述全局3D空间的多模态融合特征与所述主车的运动信息进行时序对齐，包括：

建立设定长度的第一时序特征队列，其中，所述第一时序特征队列由每一帧的所述全局3D空间的多模态融合特征组成，并按照先进先出的规则，基于时序进行更新；

将所述第一时序特征队列中的多模态融合特征与所述主车的运动信息进行时序对齐。

16.根据权利要求13所述的方法，其中，所述将所述主车的全局3D空间多模态融合特征和所述路侧设备的全局3D空间多模态融合特征进行第四跨模态特征融合，得到所述全局3D空间的多模态融合特征，包括：

将所述主车的全局3D空间多模态融合特征，与所述路侧设备的全局3D空间多模态融合特征，分别与所述主车的运动信息进行时序对齐；

将时序对齐后的所述主车的全局3D空间多模态融合特征和所述路侧设备的全局3D空间多模态融合特征，进行第四跨模态特征融合，得到所述全局3D空间的多模态融合特征。

17.根据权利要求16所述的方法，其中，所述将所述主车的全局3D空间多模态融合特征，与所述路侧设备的全局3D空间多模态融合特征，分别与所述主车的运动信息进行时序对齐，包括：

18.根据权利要求17所述的方法，其中，经所述时序对齐的第二时序特征队列中的特征的片段长度小于所述第三时序特征队列中的特征的片段长度。

19.根据权利要求1-4中任一项所述的方法，其中，所述基于所述多模态融合特征实现自动驾驶感知，包括：

将所述主车的外参信息进行高维信息编码，得到外参编码信息，其中，所述外参信息表示上一帧的主车位置相对于当前帧的主车位置的变换关系；

将所述多模态融合特征与所述外参编码信息进行融合，并基于融合后的特征实现自动驾驶感知。

20.根据权利要求3所述的方法，还包括：

将所述高精地图的3D结构信息和语义拓扑信息转换为矢量地图数据。

21.根据权利要求1-4中任一项所述的方法，其中，所述自动驾驶感知至少包括如下之一：动态障碍物检测、静态元素分割、未来意图预测或跟踪。

22.一种基于多模态的自动驾驶感知装置，包括：

输入信息获取模块，用于从主车和路侧设备获取多模态输入信息，其中，所述多模态输入信息包括高精地图的3D结构信息和语义拓扑信息；

23.根据权利要求22所述的装置，其中，所述多模态输入信息还包括图像和点云，所述图像和点云分别由所述主车的传感器和路侧设备的传感器采集。

24.根据权利要求23所述的装置，其中，所述高精地图的3D结构信息和语义拓扑信息是在所述全局3D空间中表达的3D结构信息和语义拓扑信息。

25.根据权利要求22所述的装置，其中，所述全局3D空间为所述主车的鸟瞰图BEV空间。

26.根据权利要求22-25中任一项所述的装置，其中，所述特征提取模块具体用于：

27.根据权利要求23或24所述的装置，其中，

所述特征映射模块包括：

28.根据权利要求23或24所述的装置，其中，

所述特征映射模块包括第二特征映射子模块，所述第二特征映射子模块包括：

子空间划分单元，用于根据目标感知区域对所述点云的分布沿三维空间维度进行子空间划分，得到多个子空间网格；

特征组合单元，用于对所述多个子空间网格中每个子空间网络内的点云特征进行特征抽象，并将所述特征抽象的结果组合得到所述点云的全局特征。

29.根据权利要求23或24所述的装置，其中，

所述特征映射模块包括第三特征映射子模块，所述第三特征映射子模块包括：

30.根据权利要求22-25中任一项所述的装置，其中，所述特征融合模块包括：

31.根据权利要求23或24所述的装置，其中，

所述特征融合模块包括第二特征融合子模块，所述第二特征融合子模块包括：

32.根据权利要求22-25中任一项所述的装置，其中，所述特征映射模块包括：

33.根据权利要求32所述的装置，其中，所述特征融合模块包括：

34.根据权利要求22-25中任一项所述的装置，其中，所述特征融合模块包括第四特征融合子模块，所述第四特征融合子模块包括：

35.根据权利要求22-25中任一项所述的装置，其中，所述感知模块包括第一感知子模块，所述第一感知子模块包括：

36.根据权利要求35所述的装置，其中，所述第一时序对齐单元包括：

37.根据权利要求34所述的装置，其中，所述第四跨模态特征融合单元包括：

38.根据权利要求37所述的装置，其中，所述第二时序对齐子单元具体用于：

39.根据权利要求38所述的装置，其中，经所述时序对齐的第二时序特征队列中的特征的片段长度小于所述第三时序特征队列中的特征的片段长度。

40.根据权利要求22-25中任一项所述的装置，其中，所述感知模块包括第二感知子模块，所述第二感知子模块包括：

41.根据权利要求24所述的装置，还包括：

42.根据权利要求22-25中任一项所述的装置，其中，所述自动驾驶感知至少包括如下之一：动态障碍物检测、静态元素分割、未来意图预测或跟踪。

43. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-21中任一项所述的基于多模态的自动驾驶感知方法。

44.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-21中任一项所述的基于多模态的自动驾驶感知方法。