CN116543361A

CN116543361A - 车辆的多模态融合感知方法、装置、车辆及存储介质

Info

Publication number: CN116543361A
Application number: CN202310140215.2A
Authority: CN
Inventors: 朱张平
Original assignee: Chongqing Changan Automobile Co Ltd
Current assignee: Chongqing Changan Automobile Co Ltd
Priority date: 2023-02-20
Filing date: 2023-02-20
Publication date: 2023-08-04

Abstract

本申请涉及自动驾驶技术领域，特别涉及一种车辆的多模态融合感知方法、装置、车辆及存储介质，其中，方法包括：获取车载激光雷达采集的激光点云数据和车载相机采集的图像数据；将激光点云数据中所有激光点云放入目标俯瞰图上的体素中，提取激光点云数据的激光体素特征；提取图像数据中每张图像的二维图像特征，投影至目标俯瞰图上的体素中，并提取图像数据的视觉体素特征；在时间和空间上对齐激光体素特征和视觉体素特征后，并在目标俯瞰图上进行融合，利用融合特征得到车辆的多模态融合感知结果。由此，解决了相关技术通过在单传感器检测结果基础上进行目标级别的融合，无法将多传感器的数据进行融合，存在误差大，感知精度低等问题。

Description

车辆的多模态融合感知方法、装置、车辆及存储介质

技术领域

本申请涉及自动驾驶技术领域，特别涉及一种车辆的多模态融合感知方法、装置、车辆及存储介质。

背景技术

自动驾驶感知技术对无人驾驶车来说是非常重要的模块。感知主要包括了目标检测，分割，深度估计以及预测等任务，能够帮助车辆通过传感器感知到道路环境信息。当前主流的方法主要是分别使用激光雷达的点云和图像数据单独进行道路感知。然而，单个传感器受到自身的一些缺点，比如在一些复杂的场景中，检测的目标可能由于被遮挡或者截断会对目标检测的算法或者语义分割的算法带来巨大的困难。而且，受限于机械结构，激光雷达在不同的距离上会有不同的分辨率，尤其是当时大雾天气以及大于天气，激光雷达感知数据检测距离会变得十分短。虽然不同传感器别放置在不同的位置，然后如果能够将不同传感器例如激光雷达和图像数据结合起来一同进行感知算法的开发，对感知结果会有一个较大的提升。

因此，多模态融合感知算法对自动驾驶感知系统来说是一个非常重要的任务。然而由于数据的噪声，感知数据利用的不足以及多传感器之间标定误差会导致融合过程产生巨大的误差。其次在工程上应用中，数据的标注以及多传感器同步性的难题会给工程上带来极大的挑战。所以，在算法的设计上需要尽可能地考虑到工程上可能出现的难点来进行弥补。

多传感器的融合感知技术也称为多模态的感知技术，传统的多模态传感器方法论中将传感器融合主要分为三个大类，包括了数据级别的融合(early fusion)，特征级别融合(deep fusion)以及目标级别的融合(late fusion)。数据级别的融合需要进行空间上的对齐，特征级别的融合是一种跨的特征空间的融合，目标级别的融合对于传感器的检测目标的融合。

相关技术在自动驾驶感知算法中鲜有部署融合感知算法在实际工程中进行开发，更多可能在弱融合或者在后期的决策级融合对目标进行融合。决策级别的融合，根据传感器检测得到的结果，进行一定的判别、分类，以及简单的逻辑运算，根据应用需求进行较高级的决策，是高级的融合。决策级融合是面向应用的融合，通过在单传感器检测结果基础上进行目标级别的融合，从而提高了整体感知的召回率，但是无法将多传感器的数据进行融合。

发明内容

本申请提供一种车辆的多模态融合感知方法、装置、车辆及存储介质，以解决相关技术通过在单传感器检测结果基础上进行目标级别的融合，无法将多传感器的数据进行融合，存在误差大，感知精度低等问题。

本申请第一方面实施例提供一种车辆的多模态融合感知方法，包括以下步骤：获取车载激光雷达采集的激光点云数据和车载相机采集的图像数据；将所述激光点云数据中所有激光点云放入预先构建的目标俯瞰图上的体素中，从所述目标俯瞰图上的体素中提取所述激光点云数据的激光体素特征；提取所述图像数据中每张图像的二维图像特征，并将所有二维图像特征投影至所述目标俯瞰图上的体素中，从所述目标俯瞰图上的体素中提取所述图像数据的视觉体素特征；在时间和空间上对齐所述激光体素特征和所述视觉体素特征，并在所述目标俯瞰图上融合对齐后的所述激光体素特征和所述视觉体素特征，得到融合特征，利用所述融合特征得到车辆的多模态融合感知结果。

根据上述技术手段，本申请实施例可以将车载激光雷达采集的激光点云数据和车载相机采集的图像数据放入到目标俯瞰图上的体素中，并进行提取得到相应的激光体素特征和视觉体素特征，然后分别将激光和视觉体素特征进行数据对齐并进行特征融合，从而得到车辆的多模态融合感知结果。解决了相机的曝光时间和激光雷达采样时间难以保持同步，以及相机和激光雷达之间存在标定上的误差的问题，在弥补视觉和激光雷达各自的传感器上的缺点的同时能够提高感知的精度。

可选地，在本申请的一个实施例中，所述从所述目标俯瞰图上的体素中提取所述激光点云数据的激光体素特征，包括：将所述激光点云数据中点云离散到二维平面的均匀间隔网格中，并根据点云的散布的稠密程度调整网格大小，以创建一个或多个柱状集；将每个柱状集中的点云在多个维度均增加预设特征，使得每个点云具有多个维度特征，根据所述每个柱状集中非空支柱数、每个柱状集的点云数量和每个点云具有的多个维度特征对每个点云张量化处理，得的张量化后的点云；对所述张量化后的点云输入预设多层感知机，得的深层次的点云特征，并对所述深层次的点云特征进行最大池化操作，输出特征向量，根据所述特征向量编码生成特征图；依次遍历所有柱状集中的所有点云，将所有的特征向量散布到所述特征图所对应的位置，以得的所述激光点云数据的激光体素特征。

根据上述技术手段，本申请实施例可以将点云离散到二维平面的均匀间隔的网格中，并创建一组柱状集，通过增加点云的特征，使每个点云具有多个维度特征，从而更有利于网络模型的点云特征的提取，在获得大量非空的柱状集合后，对每个样本的非空支柱数和每个支柱中的点数施加限制，从而来创建大小归整大小为的张量，通过对每个点进行多层感知的操作获得深层次的点云特征，并进行编码和遍历后，将所有的特征向量散布到特征图所对应的位置，得到激光点云数据的激光体素特征，使激光雷达感知数据会更加准确，避免了数据特征的丢失，进一步提升感知结果。

可选地，在本申请的一个实施例中，在所述根据所述每个柱状集中非空支柱数、每个柱状集的点云数量和每个点云具有的多个维度特征对每个点云张量化处理，得的张量化后的点云之前，还包括：若所述柱状集中的数据量大于预设值，则从所述柱状集中随机采样多个数据作为所述柱状集用于张量化处理的点云，否则利用预设标识填充所述柱状集。

根据上述技术手段，本申请实施例可以在柱状体中的数据太多，则进行随机采样，如数据太少，则用预设标识进行填充，进一步提高了数据特征提取的准确度。

可选地，在本申请的一个实施例中，所述提取所述图像数据中每张图像的二维图像特征，并将所有二维图像特征投影至所述目标俯瞰图上的体素中，包括：提取所述图像数据中每张图像的图像特征；以所述图像特征为索引，查询预设深度向量表，得到所述图像特征对应的深度向量，并将所述深度向量投影至所述目标俯瞰图上，以将所述图像数据中每张图像融合到所述目标俯瞰图上。

根据上述技术手段，本申请实施例可以提取车载相机采集的图像特征，利用图像特征在预设深度向量表中查询得到对应的深度，将深度投影并融合到所对应的俯瞰图的平面上去，以便提取图像数据的视觉体素特征，有利于数据的融合。

可选地，在本申请的一个实施例中，查询预设深度向量表之前，还包括：获取离线图像数据，其中，所述离线图像数据包括图像特征和多个像素点；将具有离散深度的预设数据关联到每个像素点，并根据所述图像特征，生成新图像，其中，所述新图像包括图像特征和深度特征；通过相机外参将各个新图像的深度特征转换至目标坐标系中，得到深度向量与图像特征之间的对应关系，并基于所述对应关系构建得到所述预设深度向量表。

根据上述技术手段，本申请实施例可以提取像素点的图像特征和带有深度的特征，通过相机外参将各个图像中深度的数据转换到同一个坐标系下，得到了一系列虚拟的点云深度的信息和图像的位置的查找表，从而通过像素点的位置来查询到所对应的深度向量。

可选地，在本申请的一个实施例中，所述在时间和空间上对齐所述激光体素特征和所述视觉体素特征，并在所述目标俯瞰图上融合对齐后的所述激光体素特征和所述视觉体素特征，得到融合特征，包括：将所述激光体素特征和所述视觉体素特征输入至具有三个完全连接层的可学习对齐模块，输出所述激光体素特征的第一特征值和所述视觉体素特征的第二特征值和第三特征值；根据所述第一特征值和所述第二特征值计算相似性矩阵，利用所述相似性矩阵确定所述车载相机与所述车载激光雷达之间的坐标关系，利用预设激活函的操作符进行规范化处理，并使用注意力和矩阵对所述第三特征值进行加权和聚合，得到融合矩阵；拼接所述融合矩阵和所述第一特征值，得到拼接矩阵，利用所述拼接矩阵提取所述第二特征值和所述第三特征值的预设层次的特征，并拼接所述预设层次的特征与所述激光体素特征，得到所述融合特征。

根据上述技术手段，本申请实施例可以使用三个完全连接层分别将激光点云的体素转换得到激光体素特征的第一特征值、第二特征值和第三特征值，根据第一特征值和第二特征值计算相似性矩阵，将激光的特征和视觉的特征的相似度进行聚合，提出激光和视觉具有共性的特征，聚合后的相机特征由全连接层进行处理并和点云的特征进行矩阵拼接，提取更深层次的特征，最后与原始激光雷达特征连接，从而完成特征的融合，不仅可以矫正空间上不对齐的数据，而且可以矫正时间上不对齐的数据，有效解决数据之间时间与空间不匹配的问题。

可选地，在本申请的一个实施例中，在所述目标俯瞰图上融合对齐后的所述激光体素特征和所述视觉体素特征之前，还包括：给定激光点云数据一个预设三维关键点，利用预设增强参数对所述激光点云数据进行几何相关的数据增广，得到增广数据，实现数据的增强，其中，在融合时，利用所述预设增强参数反转所有增广数据，得到所述激光点云数据的预设三维关键点的原始坐标，并利用所述原始坐标在二维空间中定位相应的相机特性。

根据上述技术手段，本申请实施例可以使用一种逆增广的数据增广方式，当点云数据进行数据增强时，给定一个数据增强后的三维关键点，实现数据的增强，并融合的时候，通过反转所有的数据来得到三维关键点的原始坐标，然后在相机空间中找到相应的二维坐标，不仅能够对齐不同类型的关键点，而且可以对增强前后的数据进行处理。

本申请第二方面实施例提供一种车辆的多模态融合感知装置，包括：第一获取模块，用于获取车载激光雷达采集的激光点云数据和车载相机采集的图像数据；第一提取模块，用于将所述激光点云数据中所有激光点云放入预先构建的目标俯瞰图上的体素中，从所述目标俯瞰图上的体素中提取所述激光点云数据的激光体素特征；第二提取模块，用于提取所述图像数据中每张图像的二维图像特征，并将所有二维图像特征投影至所述目标俯瞰图上的体素中，从所述目标俯瞰图上的体素中提取所述图像数据的视觉体素特征；感知模块，用于在时间和空间上对齐所述激光体素特征和所述视觉体素特征，并在所述目标俯瞰图上融合对齐后的所述激光体素特征和所述视觉体素特征，得到融合特征，利用所述融合特征得到车辆的多模态融合感知结果。

可选的，在本申请的一个实施例中，所述第一提取模块，进一步用于：将所述激光点云数据中点云离散到二维平面的均匀间隔网格中，并根据点云的散布的稠密程度调整网格大小，以创建一个或多个柱状集；将每个柱状集中的点云在多个维度均增加预设特征，使得每个点云具有多个维度特征，根据所述每个柱状集中非空支柱数、每个柱状集的点云数量和每个点云具有的多个维度特征对每个点云张量化处理，得的张量化后的点云；对所述张量化后的点云输入预设多层感知机，得的深层次的点云特征，并对所述深层次的点云特征进行最大池化操作，输出特征向量，根据所述特征向量编码生成特征图；依次遍历所有柱状集中的所有点云，将所有的特征向量散布到所述特征图所对应的位置，以得的所述激光点云数据的激光体素特征。

可选的，在本申请的一个实施例中，还包括：判断模块，用于在所述根据所述每个柱状集中非空支柱数、每个柱状集的点云数量和每个点云具有的多个维度特征对每个点云张量化处理，得的张量化后的点云之前，若所述柱状集中的数据量大于预设值，则从所述柱状集中随机采样多个数据作为所述柱状集用于张量化处理的点云，否则利用预设标识填充所述柱状集。

可选的，在本申请的一个实施例中，所述第二提取模块，进一步用于提取所述图像数据中每张图像的图像特征；以所述图像特征为索引，查询预设深度向量表，得到所述图像特征对应的深度向量，并将所述深度向量投影至所述目标俯瞰图上，以将所述图像数据中每张图像融合到所述目标俯瞰图上。

可选的，在本申请的一个实施例中，还包括：第二获取模块，用于在查询预设深度向量表之前，获取离线图像数据，其中，所述离线图像数据包括图像特征和多个像素点；生成模块，用于将具有离散深度的预设数据关联到每个像素点，并根据所述图像特征，生成新图像，其中，所述新图像包括图像特征和深度特征；构建模块，用于通过相机外参将各个新图像的深度特征转换至目标坐标系中，得到深度向量与图像特征之间的对应关系，并基于所述对应关系构建得到所述预设深度向量表。

可选的，在本申请的一个实施例中，所述感知模块，进一步用于将所述激光体素特征和所述视觉体素特征输入至具有三个完全连接层的可学习对齐模块，输出所述激光体素特征的第一特征值和所述视觉体素特征的第二特征值和第三特征值；根据所述第一特征值和所述第二特征值计算相似性矩阵，利用所述相似性矩阵确定所述车载相机与所述车载激光雷达之间的坐标关系，利用预设激活函的操作符进行规范化处理，并使用注意力和矩阵对所述第三特征值进行加权和聚合，得到融合矩阵；拼接所述融合矩阵和所述第一特征值，得到拼接矩阵，利用所述拼接矩阵提取所述第二特征值和所述第三特征值的预设层次的特征，并拼接所述预设层次的特征与所述激光体素特征，得到所述融合特征。

可选的，在本申请的一个实施例中，还包括：处理模块，用于在所述目标俯瞰图上融合对齐后的所述激光体素特征和所述视觉体素特征之前，给定激光点云数据一个预设三维关键点，利用预设增强参数对所述激光点云数据进行几何相关的数据增广，得到增广数据，实现数据的增强，其中，在融合时，利用所述预设增强参数反转所有增广数据，得到所述激光点云数据的预设三维关键点的原始坐标，并利用所述原始坐标在二维空间中定位相应的相机特性。

本申请第三方面实施例提供一种车辆，包括：车载激光雷，用于采集感知区域内的激光点云数据；车载相机，用于采集车辆周围环境的图像数据；处理器，用于获取车载激光雷达采集的激光点云数据和车载相机采集的图像数据；将所述激光点云数据中所有激光点云放入预先构建的目标俯瞰图上的体素中，从所述目标俯瞰图上的体素中提取所述激光点云数据的激光体素特征；提取所述图像数据中每张图像的二维图像特征，并将所有二维图像特征投影至所述目标俯瞰图上的体素中，从所述目标俯瞰图上的体素中提取所述图像数据的视觉体素特征；在时间和空间上对齐所述激光体素特征和所述视觉体素特征，并在所述目标俯瞰图上融合对齐后的所述激光体素特征和所述视觉体素特征，得到融合特征，利用所述融合特征得到车辆的多模态融合感知结果。

本申请第四方面实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以用于实现如上述实施例所述的车辆的多模态融合感知方法。

由此，本申请至少具有如下有益效果：

1、本申请实施例可以将车载激光雷达采集的激光点云数据和车载相机采集的图像数据放入到目标俯瞰图上的体素中，并进行提取得到相应的激光体素特征和视觉体素特征，然后分别将激光和视觉体素特征进行数据对齐并进行特征融合，从而得到车辆的多模态融合感知结果。解决了相机的曝光时间和激光雷达采样时间难以保持同步，以及相机和激光雷达之间存在标定上的误差的问题，在弥补视觉和激光雷达各自的传感器上的缺点的同时能够提高感知的精度。

2、本申请实施例可以将点云离散到二维平面的均匀间隔的网格中，并创建一组柱状集，通过增加点云的特征，使每个点云具有多个维度特征，从而更有利于网络模型的点云特征的提取，在获得大量非空的柱状集合后，对每个样本的非空支柱数和每个支柱中的点数施加限制，从而来创建大小归整大小为的张量，通过对每个点进行多层感知的操作获得深层次的点云特征，并进行编码和遍历后，将所有的特征向量散布到特征图所对应的位置，得到激光点云数据的激光体素特征，使激光雷达感知数据会更加准确，避免了数据特征的丢失，进一步提升感知结果。

3、本申请实施例可以在柱状体中的数据太多，则进行随机采样，如数据太少，则用预设标识进行填充，进一步提高了数据特征提取的准确度。

4、本申请实施例可以提取车载相机采集的图像特征，利用图像特征在预设深度向量表中查询得到对应的深度，将深度投影并融合到所对应的俯瞰图的平面上去，以便提取图像数据的视觉体素特征，有利于数据的融合。

5、本申请实施例可以提取像素点的图像特征和带有深度的特征，通过相机外参将各个图像中深度的数据转换到同一个坐标系下，得到了一系列虚拟的点云深度的信息和图像的位置的查找表，从而通过像素点的位置来查询到所对应的深度向量。

6、本申请实施例可以使用三个完全连接层分别将激光点云的体素转换得到激光体素特征的第一特征值、第二特征值和第三特征值，根据第一特征值和第二特征值计算相似性矩阵，将激光的特征和视觉的特征的相似度进行聚合，提出激光和视觉具有共性的特征，聚合后的相机特征由全连接层进行处理并和点云的特征进行矩阵拼接，提取更深层次的特征，最后与原始激光雷达特征连接，从而完成特征的融合，不仅可以矫正空间上不对齐的数据，而且可以矫正时间上不对齐的数据，有效解决数据之间时间与空间不匹配的问题。

7、本申请实施例可以使用一种逆增广的数据增广方式，当点云数据进行数据增强时，给定一个数据增强后的三维关键点，实现数据的增强，并融合的时候，通过反转所有的数据来得到三维关键点的原始坐标，然后在相机空间中找到相应的二维坐标，不仅能够对齐不同类型的关键点，而且可以对增强前后的数据进行处理。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请实施例提供的一种车辆的多模态融合感知方法的流程图；

图2为根据本申请实施例提供的视觉激光融合网络模型示意图；

图3为根据本申请实施例提供的激光雷达特征提取示意图；

图4为根据本申请实施例提供的图像特征提取示意图；

图5为根据本申请实施例提供的点云图像特征融合示意图；

图6为根据本申请实施例提供的逆数据增强方法示意图；

图7为根据本申请实施例提供的一种车辆的多模态融合感知装置的方框示意图；

图8为根据本申请实施例提供的车辆的方框示意图。

附图标记说明：第一获取模块-100、第一提取模块-200、第二提取模块-300、感知模块-400、车载激光雷-500、车载相机-600、处理器-700。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的车辆的多模态融合感知方法、装置、车辆及存储介质。针对上述背景技术中提到的问题，本申请提供了一种车辆的多模态融合感知方法，在该方法中，通过将车载激光雷达采集的激光点云数据和车载相机采集的图像数据放入到目标俯瞰图上的体素中，并进行提取得到相应的激光体素特征和视觉体素特征，然后分别将激光和视觉体素特征进行数据对齐并进行特征融合，从而得到车辆的多模态融合感知结果，避免了相机的曝光时间和激光雷达采样时间难以保持同步，以及相机和激光雷达之间存在标定上的误差的问题，能够弥补视觉和激光雷达各自的传感器上的缺点的同时能够提高感知的精度。由此，解决了相关技术通过在单传感器检测结果基础上进行目标级别的融合，无法将多传感器的数据进行融合，存在误差大，感知精度低等问题。

具体而言，图1为本申请实施例所提供的一种车辆的多模态融合感知方法的流程示意图。

本申请实施例的基于点云激光雷达和多相机的特征级别的融合的算法方案，能够有效规避当某一传感器失效的时候会导致算法失效，也就是说当激光雷达失效的时候视觉的算法也能有效的工作，某一相机失效的情况下，整体算法也能有效的工作，并可以根据不同的任务需求来设计自身的任务。

具体而言，如图2所示，激光雷达和视觉分别使用了各自的特征提取器来进行特征的提取并获取嵌入层的特征，然后分别将激光和嵌入层的特征进行数据对齐并进行特征融合。在完成融合模块之后可以介入检测头或者语意分割的头来进行对目标的预测或者对图像及点云语意的预测。

如图1所示，该车辆的多模态融合感知方法包括以下步骤：

在步骤S101中，获取车载激光雷达采集的激光点云数据和车载相机采集的图像数据。

可以理解的是，本申请实施例可以获取车载激光雷达采集的激光点云数据和车载相机采集的图像数据，通过将不同传感器例如激光雷达和图像数据结合起来一同进行感知算法的开发，提高感知的精度，从而帮助车辆通过传感器感知道路环境信息。

在步骤S102中，将激光点云数据中所有激光点云放入预先构建的目标俯瞰图上的体素中，从目标俯瞰图上的体素中提取激光点云数据的激光体素特征。

本申请实施例可以从激光雷达中获取的点云表现形式一般是三维坐标x，y，z和反射强度i。由于点云的数据通常来说都是离散的，本申请实施例可以将离散的数据放入一个三维的网格中，这样的网格称之为体素，通过对激光点云数据进行处理和特征提取得到激光体素特征。

在本申请的一个实施例中，从目标俯瞰图上的体素中提取激光点云数据的激光体素特征，包括：将激光点云数据中点云离散到二维平面的均匀间隔网格中，并根据点云的散布的稠密程度调整网格大小，以创建一个或多个柱状集；将每个柱状集中的点云在多个维度均增加预设特征，使得每个点云具有多个维度特征，根据每个柱状集中非空支柱数、每个柱状集的点云数量和每个点云具有的多个维度特征对每个点云张量化处理，得的张量化后的点云；对张量化后的点云输入预设多层感知机，得的深层次的点云特征，并对深层次的点云特征进行最大池化操作，输出特征向量，根据特征向量编码生成特征图；依次遍历所有柱状集中的所有点云，将所有的特征向量散布到特征图所对应的位置，以得的激光点云数据的激光体素特征。

具体而言，对于提取激光点云数据的激光体素特征，如图3所示，本申请实施例可以将点云离散到x-y平面的均匀间隔的网格中，网格大小可根据点云散布的稠密程度来进行调整，接着可以创建一组柱状集P，z轴不需要参数进行控制，因此在柱状集合P中通常会有数量不均等的点云，因为点云是离散的，因此大多数的柱状集中是空集合。通常的点云数据只有四维的特征，本申请实施例可以增加点云的特征从而更有利于网络模型的点云特征的提取，本申请实施例中将每个支柱中的点增加xc，yc，zc，xp和yp(其中c下标表示到支柱中所有点的算术平均值的距离，p下标表示从支柱x，y中心的偏移量)，激光雷达中的每个点就具有了多维度的特征(D)。

进一步地，在获得大量非空的柱状集合后，本申请实施例可以对每个样本的非空支柱数(P)和每个支柱中的点数(N)施加限制，从而创建归整大小为(D，P，N)的张量，对张量化的点云数据进行处理和特征提取。在实际执行过程中，本申请实施例可以对每个点都进行多层感知机+BN层+ReLU层的操作，多层感知机的作用是用来获得深层次的点云特征，从而生成一个(C，P，N)的张量，对深层次的点云特征进行最大池化操作，输出一个(C，P)的特征向量，经过编码后生成一个的特征图，并置为零，依次遍历所有的P，将所有的特征向量散布到特征图所对应的位置，从而得的激光点云数据的激光体素特征，创建的特征图为(C，W，H)的伪图像。

需要说明的是，对于点云的鸟瞰网络，本申请实施例可以沿用PointPillars的主干网络组合来进行点云数据特征的提取。

在步骤S103中，提取图像数据中每张图像的二维图像特征，并将所有二维图像特征投影至目标俯瞰图上的体素中，从目标俯瞰图上的体素中提取图像数据的视觉体素特征。

可以理解的是，本申请实施例可以将提取到的图像数据中每张图像的二维图像特征投影至目标俯瞰图上的体素中，进行视觉体素特征提取，与激光雷达俯瞰图上的提取类似，本申请实施例可以使用一个子网络对目标进行特征的提取，最终获得Cn×Wn×Hn矩阵的数据。其中Cn特征网络输出的特征通道，Wn为网络输出特征图的宽，Hn为网络输出特征图的高。在实际执行过程中，本申请实施例的图像输入通常可以是多张图像也可以是一张图像，图像要确保和激光有较大的重叠的区域，并且需要获得图像与图像之间的外参，以便通过外参来进行图像之间坐标的转换。

需要说明的是，对于图像的鸟瞰网络，本申请实施例可以使用类似于PointPillars的ResNet块的组合，不做具体限定。

在本申请的一个实施例中，提取图像数据中每张图像的二维图像特征，并将所有二维图像特征投影至目标俯瞰图上的体素中，包括：提取图像数据中每张图像的图像特征；以图像特征为索引，查询预设深度向量表，得到图像特征对应的深度向量，并将深度向量投影至目标俯瞰图上，以将图像数据中每张图像融合到目标俯瞰图上。

具体而言，如图4所示，本申请实施例可以分别对图像数据中每张图像进行特征提取，主要是提取像素点的图像特征和带有深度的特征，即得到矩阵[N,C,D,H,W]，本申请实施例可以根据矩阵的INDEX查询到对应的深度，即获得一系列带有特征的点，即M×D(M＝N×C×W×H)，C为俯视图上的图像的特征，W为俯视图上的张量的宽度，H为俯视图上张量的高度。本申请实施例的点的数据结构与激光雷达点云模块的特征数据结构相似，可以将深度投影到所对应的俯瞰图的平面上去，即C×W’×H’，进一步将多帧的图像融合到一个俯瞰平面上去。其中W’为俯瞰图上的宽度，H’为俯瞰图上的高度，W’可以和图像上W不同，同理H’可以和H不同，W’和H’的大小由点的体素大小决定。

需要说明的是，本申请实施例在构建俯瞰图的平面通常和激光雷达的平面的体素大小保持一致，有利于数据的融合。单独对每张图像进行操作，本申请实施例可以使用二维的矩阵生成一个三维的体素矩阵，以便从虚拟的深度查找表中生成鸟瞰图上的特征图。在对于单独对每个图像进行操作的网络，本申请实施例可以使用在Imagenet上预训练过的EfficientNet-B0主干网络作为基线网络。EfficientNets是在资源有限的情况下通过详尽的架构搜索找到的网络架构，深度、宽度和分辨率可以根据网络模型的大小的需求按比例增加。

在步骤S104中，在时间和空间上对齐激光体素特征和视觉体素特征，并在目标俯瞰图上融合对齐后的激光体素特征和视觉体素特征，得到融合特征，利用融合特征得到车辆的多模态融合感知结果。

由于相机的曝光时间和激光雷达采样时间难以保持同步，以及相机和激光雷达之间存在标定上的误差，因此，相机和激光雷达融合问题中的难点主要于时间上和空间上的不匹配的问题。为了更好地将来自激光雷达功能的信息与最相关的相机功能对齐，本申请实施例引入了一种可学习的对齐方法，利用交叉注意机制动态捕获两种模式之间的相关性，不仅可以矫正空间上不对齐的数据，而且可以矫正时间上不对齐的数据，有效解决数据之间时间与空间不匹配的问题。

在本申请的一个实施例中，在时间和空间上对齐激光体素特征和视觉体素特征，并在目标俯瞰图上融合对齐后的激光体素特征和视觉体素特征，得到融合特征，包括：将激光体素特征和视觉体素特征输入至具有三个完全连接层的可学习对齐模块，输出激光体素特征的第一特征值和视觉体素特征的第二特征值和第三特征值；根据第一特征值和第二特征值计算相似性矩阵，利用相似性矩阵确定车载相机与车载激光雷达之间的坐标关系，利用预设激活函的操作符进行规范化处理，并使用注意力和矩阵对第三特征值进行加权和聚合，得到融合矩阵；拼接融合矩阵和第一特征值，得到拼接矩阵，利用拼接矩阵提取第二特征值和第三特征值的预设层次的特征，并拼接预设层次的特征与激光体素特征，得到融合特征。

具体而言，本申请实施例可以输入包含激光点云俯瞰图上体素的特征和多相机的在俯瞰图上的体素的特征，使用三个完全连接层分别将激光点云的体素转换为查询ql(第一特征值)，将相机特征转换为kc(第二特征值)，和值vc(第三特征值。对于每个查询(即体素单元)，如图5所示，本申请实施例可以与视觉特征之间进行q1和kc的内积计算相似性得到每一时间步的相似性矩阵，通过相似性矩阵便能获得视觉和激光雷达点之间的坐标之间的关系，然后通过softmax操作符进行规范化，最后使用注意力和矩阵对包含相机信息的值vc进行加权和聚合，获得最后的融合矩阵。其中，加权聚合的作用就是将激光的特征和视觉的特征的相似度进行聚合，提出激光和视觉具有共性的特征，聚合后的相机特征由全连接层进行处理并和点云的特征进行矩阵拼接，提取更深层次的特征，最后与原始激光雷达特征连接，从而完成特征的融合，不仅能够克服在工程应用中所产生的传感器之间的标定上的误差，还可以克服传感器之间异步所带来的误差，提高感知的精度。

在本申请的一个实施例中，在目标俯瞰图上融合对齐后的激光体素特征和视觉体素特征之前，还包括：给定激光点云数据一个预设三维关键点，利用预设增强参数对激光点云数据进行几何相关的数据增广，得到增广数据，实现数据的增强，其中，在融合时，利用预设增强参数反转所有增广数据，得到激光点云数据的预设三维关键点的原始坐标，并利用原始坐标在二维空间中定位相应的相机特性。

其中，预设三维关键点、预设增强参数可以根据实际情况而定，不做具体限定。

为了解决几何相关数据增加引起的对齐问题，如图6所示，本申请实施例可以使用一种逆增广的数据增广方式，当点云数据进行数据增强时，给定一个数据增强后的三维关键点(这可以是任意三维坐标，如激光雷达点、体素中心等)，本申请实施例当使用与几何相关的数据增广时，数据逆增广首先可以保存增强参数(比如旋转角)，融合的时候，它会反转所有的数据来得到三维关键点的原始坐标，然后在相机空间中找到相应的二维坐标，不仅能够对齐不同类型的关键点，而且可以对增强前后的数据进行处理。

在本申请的一个实施例中，在查询预设深度向量表之前，还包括：获取离线图像数据，其中，离线图像数据包括图像特征和多个像素点；将具有离散深度的预设数据关联到每个像素点，并根据图像特征，生成新图像，其中，新图像包括图像特征和深度特征；通过相机外参将各个新图像的深度特征转换至目标坐标系中，得到深度向量与图像特征之间的对应关系，并基于对应关系构建得到预设深度向量表。

可以理解的是，本申请实施例可以将图像生成一个离线的虚拟的深度向量表，若图像的数据为N×3×H×W，N为相机的数量，图像的宽为W，高位H，相机的外参为E，相机的内参为I，p为图像上的像素点(h,w)。本申请实施例关联一组数据{d0+Δ,...,d0+|D|Δ}到每一个像素点，每一个像素点可以表示为{(h,w,d)∈R 3|d∈D}，D为一组离散的深度。因此，本申请实施例可以生成一个新的图像即D×H×W的数据，且在这个表达式中并没有需要训练的参数。

若有多张图像的情况下，本申请实施例可以将图像中的深度D，通过外参将各个图像中深度的数据转换到同一个坐标系下，得到一系列虚拟的点云深度的信息和图像的位置的查找表，查找表的大小为[D,H,W,3]，其中3对应x，y，z的三个坐标的维度，从而通过像素点的位置来查询到所对应的深度向量。

在本申请的一个实施例中，在根据每个柱状集中非空支柱数、每个柱状集的点云数量和每个点云具有的多个维度特征对每个点云张量化处理，得的张量化后的点云之前，还包括：若柱状集中的数据量大于预设值，则从柱状集中随机采样多个数据作为柱状集用于张量化处理的点云，否则利用预设标识填充柱状集。

可以理解的是，本申请实施例可以在柱状体中的数据量大于预设值，进行随机采样，否则用零进行填充，进一步提高了数据特征提取的准确度。其中，预设值可以根据实际情况而定，为了便于计算，预设标识可以设置为零，不做具体限定。

根据本申请实施例提出的车辆的多模态融合感知方法，通过将车载激光雷达采集的激光点云数据和车载相机采集的图像数据放入到目标俯瞰图上的体素中，并进行提取得到相应的激光体素特征和视觉体素特征，然后分别将激光和视觉体素特征进行数据对齐并进行特征融合，从而得到车辆的多模态融合感知结果，避免了相机的曝光时间和激光雷达采样时间难以保持同步，以及相机和激光雷达之间存在标定上的误差的问题，能够弥补视觉和激光雷达各自的传感器上的缺点的同时能够提高感知的精度。由此，解决了相关技术通过在单传感器检测结果基础上进行目标级别的融合，无法将多传感器的数据进行融合，存在误差大，感知精度低等问题。

其次参照附图描述根据本申请实施例提出的一种车辆的多模态融合感知装置。

图7是本申请实施例的一种车辆的多模态融合感知装置的方框示意图。

如图7所示，该车辆的多模态融合感知装置10包括：第一获取模块100、第一提取模块200、第二提取模块300和感知模块400。

其中，第一获取模块100，用于获取车载激光雷达采集的激光点云数据和车载相机采集的图像数据；第一提取模块200，用于将激光点云数据中所有激光点云放入预先构建的目标俯瞰图上的体素中，从目标俯瞰图上的体素中提取激光点云数据的激光体素特征；第二提取模块300，用于提取图像数据中每张图像的二维图像特征，并将所有二维图像特征投影至目标俯瞰图上的体素中，从目标俯瞰图上的体素中提取图像数据的视觉体素特征；感知模块400，用于在时间和空间上对齐激光体素特征和视觉体素特征，并在目标俯瞰图上融合对齐后的激光体素特征和视觉体素特征，得到融合特征，利用融合特征得到车辆的多模态融合感知结果。

可选的，在本申请的一个实施例中，第一提取模块200进一步用于将激光点云数据中点云离散到二维平面的均匀间隔网格中，并根据点云的散布的稠密程度调整网格大小，以创建一个或多个柱状集；将每个柱状集中的点云在多个维度均增加预设特征，使得每个点云具有多个维度特征，根据每个柱状集中非空支柱数、每个柱状集的点云数量和每个点云具有的多个维度特征对每个点云张量化处理，得的张量化后的点云；对张量化后的点云输入预设多层感知机，得的深层次的点云特征，并对深层次的点云特征进行最大池化操作，输出特征向量，根据特征向量编码生成特征图；依次遍历所有柱状集中的所有点云，将所有的特征向量散布到特征图所对应的位置，以得的激光点云数据的激光体素特征。

可选的，在本申请的一个实施例中，本申请实施例的装置10还包括：判断模块，用于在根据每个柱状集中非空支柱数、每个柱状集的点云数量和每个点云具有的多个维度特征对每个点云张量化处理，得的张量化后的点云之前，若柱状集中的数据量大于预设值，则从柱状集中随机采样多个数据作为柱状集用于张量化处理的点云，否则利用预设标识填充柱状集。

可选的，在本申请的一个实施例中，第二提取模块300进一步用于提取图像数据中每张图像的图像特征；以图像特征为索引，查询预设深度向量表，得到图像特征对应的深度向量，并将深度向量投影至目标俯瞰图上，以将图像数据中每张图像融合到目标俯瞰图上。

可选的，在本申请的一个实施例中，本申请实施例的装置10还包括：第二获取模块、生成模块和构建模块。

其中，第二获取模块，用于在查询预设深度向量表之前，获取离线图像数据，其中，离线图像数据包括图像特征和多个像素点；生成模块，用于将具有离散深度的预设数据关联到每个像素点，并根据图像特征，生成新图像，其中，新图像包括图像特征和深度特征；构建模块，用于通过相机外参将各个新图像的深度特征转换至目标坐标系中，得到深度向量与图像特征之间的对应关系，并基于对应关系构建得到预设深度向量表。

可选的，在本申请的一个实施例中，感知模块400进一步用于将激光体素特征和视觉体素特征输入至具有三个完全连接层的可学习对齐模块，输出激光体素特征的第一特征值和视觉体素特征的第二特征值和第三特征值；根据第一特征值和第二特征值计算相似性矩阵，利用相似性矩阵确定车载相机与车载激光雷达之间的坐标关系，利用预设激活函的操作符进行规范化处理，并使用注意力和矩阵对第三特征值进行加权和聚合，得到融合矩阵；拼接融合矩阵和第一特征值，得到拼接矩阵，利用拼接矩阵提取第二特征值和第三特征值的预设层次的特征，并拼接预设层次的特征与激光体素特征，得到融合特征。

可选的，在本申请的一个实施例中，本申请实施例的装置10还包括：处理模块，用于在目标俯瞰图上融合对齐后的激光体素特征和视觉体素特征之前，给定激光点云数据一个预设三维关键点，利用预设增强参数对激光点云数据进行几何相关的数据增广，得到增广数据，实现数据的增强，其中，在融合时，利用预设增强参数反转所有增广数据，得到激光点云数据的预设三维关键点的原始坐标，并利用原始坐标在二维空间中定位相应的相机特性。

需要说明的是，前述对车辆的多模态融合感知方法实施例的解释说明也适用于该实施例的车辆的多模态融合感知装置，此处不再赘述。

根据本申请实施例提出的车辆的多模态融合感知装置，通过将车载激光雷达采集的激光点云数据和车载相机采集的图像数据放入到目标俯瞰图上的体素中，并进行提取得到相应的激光体素特征和视觉体素特征，然后分别将激光和视觉体素特征进行数据对齐并进行特征融合，从而得到车辆的多模态融合感知结果，避免了相机的曝光时间和激光雷达采样时间难以保持同步，以及相机和激光雷达之间存在标定上的误差的问题，能够弥补视觉和激光雷达各自的传感器上的缺点的同时能够提高感知的精度。由此，解决了相关技术通过在单传感器检测结果基础上进行目标级别的融合，无法将多传感器的数据进行融合，存在误差大，感知精度低等问题。

图8为本申请实施例提供的车辆的方框示意图。该车辆20包括：车载激光雷500、车载相机600和处理器700。

其中，车载激光雷500，用于采集感知区域内的激光点云数据；车载相机600，用于采集车辆周围环境的图像数据；处理器700，用于获取车载激光雷达采集的激光点云数据和车载相机采集的图像数据；将激光点云数据中所有激光点云放入预先构建的目标俯瞰图上的体素中，从目标俯瞰图上的体素中提取激光点云数据的激光体素特征；提取图像数据中每张图像的二维图像特征，并将所有二维图像特征投影至目标俯瞰图上的体素中，从目标俯瞰图上的体素中提取图像数据的视觉体素特征；在时间和空间上对齐激光体素特征和视觉体素特征，并在目标俯瞰图上融合对齐后的激光体素特征和视觉体素特征，得到融合特征，利用融合特征得到车辆的多模态融合感知结果。

根据本申请实施例提出的车辆，通过将车载激光雷达采集的激光点云数据和车载相机采集的图像数据放入到目标俯瞰图上的体素中，并进行提取得到相应的激光体素特征和视觉体素特征，然后分别将激光和视觉体素特征进行数据对齐并进行特征融合，从而得到车辆的多模态融合感知结果，避免了相机的曝光时间和激光雷达采样时间难以保持同步，以及相机和激光雷达之间存在标定上的误差的问题，能够弥补视觉和激光雷达各自的传感器上的缺点的同时能够提高感知的精度。由此，解决了相关技术通过在单传感器检测结果基础上进行目标级别的融合，无法将多传感器的数据进行融合，存在误差大，感知精度低等问题。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上的车辆的多模态融合感知方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不是必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列，现场可编程门阵列等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种车辆的多模态融合感知方法，其特征在于，包括以下步骤：

获取车载激光雷达采集的激光点云数据和车载相机采集的图像数据；

将所述激光点云数据中所有激光点云放入预先构建的目标俯瞰图上的体素中，从所述目标俯瞰图上的体素中提取所述激光点云数据的激光体素特征；

提取所述图像数据中每张图像的二维图像特征，并将所有二维图像特征投影至所述目标俯瞰图上的体素中，从所述目标俯瞰图上的体素中提取所述图像数据的视觉体素特征；

在时间和空间上对齐所述激光体素特征和所述视觉体素特征，并在所述目标俯瞰图上融合对齐后的所述激光体素特征和所述视觉体素特征，得到融合特征，利用所述融合特征得到车辆的多模态融合感知结果。

2.根据权利要求1所述的方法，其特征在于，所述从所述目标俯瞰图上的体素中提取所述激光点云数据的激光体素特征，包括：

将所述激光点云数据中点云离散到二维平面的均匀间隔网格中，并根据点云的散布的稠密程度调整网格大小，以创建一个或多个柱状集；

将每个柱状集中的点云在多个维度均增加预设特征，使得每个点云具有多个维度特征，根据所述每个柱状集中非空支柱数、每个柱状集的点云数量和每个点云具有的多个维度特征对每个点云张量化处理，得的张量化后的点云；

对所述张量化后的点云输入预设多层感知机，得的深层次的点云特征，并对所述深层次的点云特征进行最大池化操作，输出特征向量，根据所述特征向量编码生成特征图；

依次遍历所有柱状集中的所有点云，将所有的特征向量散布到所述特征图所对应的位置，以得的所述激光点云数据的激光体素特征。

3.根据权利要求2所述的方法，其特征在于，在所述根据所述每个柱状集中非空支柱数、每个柱状集的点云数量和每个点云具有的多个维度特征对每个点云张量化处理，得的张量化后的点云之前，还包括：

若所述柱状集中的数据量大于预设值，则从所述柱状集中随机采样多个数据作为所述柱状集用于张量化处理的点云，否则利用预设标识填充所述柱状集。

4.根据权利要求1所述的方法，其特征在于，所述提取所述图像数据中每张图像的二维图像特征，并将所有二维图像特征投影至所述目标俯瞰图上的体素中，包括：

提取所述图像数据中每张图像的图像特征；

以所述图像特征为索引，查询预设深度向量表，得到所述图像特征对应的深度向量，并将所述深度向量投影至所述目标俯瞰图上，以将所述图像数据中每张图像融合到所述目标俯瞰图上。

5.根据权利要求4所述的方法，其特征在于，在查询预设深度向量表之前，还包括：

获取离线图像数据，其中，所述离线图像数据包括图像特征和多个像素点；

将具有离散深度的预设数据关联到每个像素点，并根据所述图像特征，生成新图像，其中，所述新图像包括图像特征和深度特征；

通过相机外参将各个新图像的深度特征转换至目标坐标系中，得到深度向量与图像特征之间的对应关系，并基于所述对应关系构建得到所述预设深度向量表。

6.根据权利要求1所述的方法，其特征在于，所述在时间和空间上对齐所述激光体素特征和所述视觉体素特征，并在所述目标俯瞰图上融合对齐后的所述激光体素特征和所述视觉体素特征，得到融合特征，包括：

将所述激光体素特征和所述视觉体素特征输入至具有三个完全连接层的可学习对齐模块，输出所述激光体素特征的第一特征值和所述视觉体素特征的第二特征值和第三特征值；

根据所述第一特征值和所述第二特征值计算相似性矩阵，利用所述相似性矩阵确定所述车载相机与所述车载激光雷达之间的坐标关系，利用预设激活函的操作符进行规范化处理，并使用注意力和矩阵对所述第三特征值进行加权和聚合，得到融合矩阵；

拼接所述融合矩阵和所述第一特征值，得到拼接矩阵，利用所述拼接矩阵提取所述第二特征值和所述第三特征值的预设层次的特征，并拼接所述预设层次的特征与所述激光体素特征，得到所述融合特征。

7.根据权利要求1-6任意一项所述的方法，其特征在于，在所述目标俯瞰图上融合对齐后的所述激光体素特征和所述视觉体素特征之前，还包括：

给定激光点云数据一个预设三维关键点，利用预设增强参数对所述激光点云数据进行几何相关的数据增广，得到增广数据，实现数据的增强，其中，在融合时，利用所述预设增强参数反转所有增广数据，得到所述激光点云数据的预设三维关键点的原始坐标，并利用所述原始坐标在二维空间中定位相应的相机特性。

8.一种车辆的多模态融合感知装置，其特征在于，包括：

第一获取模块，用于获取车载激光雷达采集的激光点云数据和车载相机采集的图像数据；

第一提取模块，用于将所述激光点云数据中所有激光点云放入预先构建的目标俯瞰图上的体素中，从所述目标俯瞰图上的体素中提取所述激光点云数据的激光体素特征；

第二提取模块，用于提取所述图像数据中每张图像的二维图像特征，并将所有二维图像特征投影至所述目标俯瞰图上的体素中，从所述目标俯瞰图上的体素中提取所述图像数据的视觉体素特征；

感知模块，用于在时间和空间上对齐所述激光体素特征和所述视觉体素特征，并在所述目标俯瞰图上融合对齐后的所述激光体素特征和所述视觉体素特征，得到融合特征，利用所述融合特征得到车辆的多模态融合感知结果。

9.根据权利要求8所述的装置，其特征在于，所述第一提取模块，进一步用于：

10.根据权利要求9所述的装置，其特征在于，还包括：判断模块，用于在所述根据所述每个柱状集中非空支柱数、每个柱状集的点云数量和每个点云具有的多个维度特征对每个点云张量化处理，得的张量化后的点云之前，若所述柱状集中的数据量大于预设值，则从所述柱状集中随机采样多个数据作为所述柱状集用于张量化处理的点云，否则利用预设标识填充所述柱状集。

11.根据权利要求8所述的装置，其特征在于，所述第二提取模块，进一步用于：

提取所述图像数据中每张图像的图像特征；

12.根据权利要求11所述的装置，其特征在于，还包括：

第二获取模块，用于在查询预设深度向量表之前，获取离线图像数据，其中，所述离线图像数据包括图像特征和多个像素点；

生成模块，用于将具有离散深度的预设数据关联到每个像素点，并根据所述图像特征，生成新图像，其中，所述新图像包括图像特征和深度特征；

构建模块，用于通过相机外参将各个新图像的深度特征转换至目标坐标系中，得到深度向量与图像特征之间的对应关系，并基于所述对应关系构建得到所述预设深度向量表。

13.根据权利要求8所述的装置，其特征在于，所述感知模块，进一步用于：

14.根据权利要求8-13任意一项所述的装置，其特征在于，还包括：

处理模块，用于在所述目标俯瞰图上融合对齐后的所述激光体素特征和所述视觉体素特征之前，给定激光点云数据一个预设三维关键点，利用预设增强参数对所述激光点云数据进行几何相关的数据增广，得到增广数据，实现数据的增强，其中，在融合时，利用所述预设增强参数反转所有增广数据，得到所述激光点云数据的预设三维关键点的原始坐标，并利用所述原始坐标在二维空间中定位相应的相机特性。

15.一种车辆，其特征在于，包括：

车载激光雷，用于采集感知区域内的激光点云数据；

车载相机，用于采集车辆周围环境的图像数据；

处理器，用于获取车载激光雷达采集的激光点云数据和车载相机采集的图像数据；将所述激光点云数据中所有激光点云放入预先构建的目标俯瞰图上的体素中，从所述目标俯瞰图上的体素中提取所述激光点云数据的激光体素特征；提取所述图像数据中每张图像的二维图像特征，并将所有二维图像特征投影至所述目标俯瞰图上的体素中，从所述目标俯瞰图上的体素中提取所述图像数据的视觉体素特征；在时间和空间上对齐所述激光体素特征和所述视觉体素特征，并在所述目标俯瞰图上融合对齐后的所述激光体素特征和所述视觉体素特征，得到融合特征，利用所述融合特征得到车辆的多模态融合感知结果。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1-7任一项所述的车辆的多模态融合感知方法。