CN116229224A

CN116229224A - 融合感知方法、装置、电子设备及存储介质

Info

Publication number: CN116229224A
Application number: CN202310077347.5A
Authority: CN
Inventors: 漆昇翔; 董楠
Original assignee: Chongqing Changan Automobile Co Ltd
Current assignee: Chongqing Changan Automobile Co Ltd
Priority date: 2023-01-18
Filing date: 2023-01-18
Publication date: 2023-06-06

Abstract

本申请提供一种融合感知方法、装置、电子设备及存储介质，该方法通过对获取的车辆视觉图像进行图像特征编码得到图像编码特征，以及对获取的车辆点云数据进行点云特征编码得到点云编码特征，将上述特征均映射至预设三维特征空间，再进行平面化映射后进行特征融合得到融合特征，根据感知任务需求特征尺度将融合特征转化为需求尺度特征，并将需求尺度特征输入预设感知任务网络，得到感知结果，其采用的多摄视觉与雷达融合感知属于前融合信息处理方式，能够实现各个感知任务均基于车周环境空间全域视角的多模态传感器特征融合，使视觉特征和雷达点云特征形成特性互补，进而提升跨视域信息提取精度，降低了后处理难度、重要信息的丢失以及错误率。

Description

融合感知方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及自动驾驶感知技术领域，具体涉及一种融合感知方法、装置、电子设备及存储介质。

背景技术

全方位高精度环境感知能力是实现车辆高级自动驾驶的前提和基础。尤其是卷积神经网络技术的快速发展，使计算机初步具备了对车载2D视觉图像和3D雷达点云场景的语义理解能力。由于视觉图像与雷达点云能够从不同维度反映环境目标的色彩、形状、纹理、位姿等特性，结合视觉与雷达的多模态信息融合已被视为实现自动驾驶高级感知的有效手段。

然而，考虑到模型计算及信号流程的复杂度等现实因素，当前大量多模态应用主要采用后融合信息处理方式，即对各个传感器数据独立完成环境目标与道路感知任务，再通过后处理方法实现目标校验及全域映射。但这种信息处理方式难以避免视觉、雷达等各传感器探测缺陷对独立检测识别带来的负面影响，大大增加后处理的难度，且在融合阶段容易造成重要信息的丢失，最终导致较高的错误概率。

发明内容

鉴于以上所述现有技术的缺点，本发明实施例提供一种融合感知方法、装置、电子设备及存储介质，以解决上述提到的相关技术中的结合视觉与雷达的多模态信息融合的信息处理方式存在不能避免视觉、雷达等各传感器探测缺陷对独立检测识别带来的负面影响，后处理难度较大、在融合阶段容易造成重要信息的丢失，错误概率较高的技术问题。

本发明实施例提供的融合感知方法，所述方法包括：获取车辆视觉图像和车辆点云数据；对所述车辆视觉图像进行图像特征编码，得到图像编码特征，以及对所述车辆点云数据进行点云特征编码，得到点云编码特征；将所述图像编码特征和所述点云编码特征映射至预设三维特征空间，并对所述预设三维特征空间中的所述图像编码特征和所述点云编码特征进行平面化映射，得到平面点云编码特征和平面图像编码特征；对所述平面点云编码特征和所述平面图像编码特征进行特征融合，得到融合特征；根据感知任务需求特征尺度将所述融合特征转化为需求尺度特征，并将所述需求尺度特征输入预设感知任务网络，得到感知结果，所述感知任务需求特征尺度为所述预设感知任务网络所需要的特征尺度。

于本发明一实施例中，将所述图像编码特征映射至预设三维特征空间包括：以车辆坐标系原点为中心，以车身纵向方向、车身横向方向和车身高度方向作为三个维度方向构建所述预设三维特征空间；获取车辆图像采集设备的图像设备内参和所述车辆图像采集设备与所述预设三维特征空间之间的图像设备外参，并计算所述预设三维特征空间中各体素网格单元对应在所述图像编码特征中的图像体素位置，通过双线性插值方法确定各所述体素网格单元的图像体素特征向量，所述图像编码特征为二维视觉特征图，所述车辆视觉图像通过所述车辆图像采集设备采集得到。

于本发明一实施例中，以车辆坐标系原点为中心，以车身纵向方向、车身横向方向和车身高度方向作为三个维度方向构建所述预设三维特征空间之后，将所述点云编码特征映射至预设三维特征空间包括：获取车辆点云采集设备与所述预设三维特征空间之间的点云设备外参，并计算所述预设三维特征空间中各体素网格单元对应在所述点云编码特征中的点云体素位置，通过三线性插值方法确定各所述体素网格单元的点云体素特征向量，所述点云编码特征为三维点云特征，所述车辆点云数据通过所述车辆点云采集设备采集得到。

于本发明一实施例中，对所述预设三维特征空间中的所述图像编码特征和所述点云编码特征进行平面化映射包括：在所述预设三维特征空间的第一预设平面上沿第一预设维度方向对所有所述体素网格单元的图像体素特征向量进行加和平均处理或维度堆叠处理，得到多个平面图像编码特征；在所述预设三维特征空间的所述第一预设平面上沿所述第一预设维度方向对所有所述体素网格单元的点云体素特征向量进行加和平均处理或维度堆叠处理，得到多个平面点云编码特征。

于本发明一实施例中，对所述平面点云编码特征和所述平面图像编码特征进行特征融合，得到融合特征包括：将所述预设三维特征空间的第二预设平面上各所述体素网格单元对应的所述平面点云编码特征和所述平面图像编码特征沿特征维度进行拼接，得到所述融合特征。

于本发明一实施例中，根据感知任务需求特征尺度将所述融合特征转化为需求尺度特征包括：对所述融合特征进行特征解码；将解码后的融合特征通过特征金字塔基于所述感知任务需求特征尺度输出所述需求尺度特征，所述需求尺度特征满足所述感知任务需求特征尺度的特征尺度要求。

于本发明一实施例中，将所述需求尺度特征输入预设感知任务网络，得到感知结果包括：若所述感知任务需求特征尺度的数量为多个，所述需求尺度特征包括多个不同尺度的需求尺度子特征；将第一目标尺度子特征输入目标检测任务网络，得到目标框的位置信息，所述第一目标尺度子特征的第一尺度大于第一预设尺度阈值；将第二目标尺度子特征输入道路可通行区域任务网络和车道线分割任务网络中至少之一，得到道路可通行区域和车道线分割结果中至少之一，所述第二目标尺度子特征的第二尺度小于第二预设尺度阈值，所述第二预设尺度阈值小于或等于所述第一预设尺度阈值，所述预设感知任务网络包括目标检测任务网络、道路可通行区域任务网络和车道线分割任务网络中至少之一，所述感知结果包括目标框的位置信息、道路可通行区域和车道线分割结果中至少之一。

于本发明一实施例中，将所述需求尺度特征输入预设感知任务网络之前，所述融合感知方法还包括：获取样本车辆的行驶区域高精度地图数据，以及所述样本车辆行驶过程中采集的多个样本视觉图像和多个样本点云数据；基于所述样本视觉图像的图像采集时间和所述样本点云数据的点云采集时间对多个样本视觉图像和多个样本点云数据进行时间对准；对所述行驶区域高精度地图数据标注样本道路可通行区域和样本车道线分割结果，以及在所述样本点云数据所在的三维空间标注样本目标和样本目标框；根据所述样本道路可通行区域、样本车道线分割结果、样本目标、样本目标框以及时间对准后的所述样本视觉图像、所述样本点云数据生成训练样本集；根据目标检测损失和道路结构分割损失确定模型总损失函数，所述目标检测损失基于分类损失与目标框回归损失得到，所述道路结构分割损失基于道路可通行区域二值交叉熵和车道线二值交叉熵损失得到；通过所述训练样本集和所述模型总损失函数对初始感知任务网络进行训练，得到所述预设感知任务网络。

于本发明一实施例中，基于所述样本视觉图像的图像采集时间和所述样本点云数据的点云采集时间对多个样本视觉图像和多个样本点云数据进行时间对准之前，所述融合感知方法还包括：获取所述样本车辆行驶过程中的多个车辆位姿；基于车辆位姿的位姿采集时间、样本视觉图像的图像采集时间对至少一部分所述样本视觉图像进行第一运动补偿，以及基于所述车辆位姿的位姿采集时间、样本点云数据的点云采集时间对至少一部分所述样本点云数据进行第二运动补偿。

于本发明一实施例中，所述车辆视觉图像包括待感知车辆的多个视角的图像采集设备所采集的车辆子视觉图像；所述车辆点云数据包括所述待感知车辆的多个4D毫米波雷达所采集的三维子点云数据。

本发明实施例提供的一种融合感知装置，所述装置包括：数据获取模块，用于获取车辆视觉图像和车辆点云数据；编码模块，用于对所述车辆视觉图像进行图像特征编码，得到图像编码特征，以及对所述车辆点云数据进行点云特征编码，得到点云编码特征；映射模块，用于将所述图像编码特征和所述点云编码特征映射至预设三维特征空间，并对所述预设三维特征空间中的所述图像编码特征和所述点云编码特征进行平面化映射，得到平面点云编码特征和平面图像编码特征；特征融合模块，用于对所述平面点云编码特征和所述平面图像编码特征进行特征融合，得到融合特征；感知模块，用于根据感知任务需求特征尺度将所述融合特征转化为需求尺度特征，并将所述需求尺度特征输入预设感知任务网络，得到感知结果，所述感知任务需求特征尺度为所述预设感知任务网络所需要的特征尺度。

本发明实施例提供的一种电子设备，所述电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现上述任一项实施例所述的方法。

本发明实施例提供的一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被计算机的处理器执行时，使计算机执行上述任一项实施例所述的方法。

本发明的有益效果：本发明提供的融合感知方法、装置、电子设备及存储介质，该方法通过对获取的车辆视觉图像进行图像特征编码，得到图像编码特征，以及对获取的车辆点云数据进行点云特征编码，得到点云编码特征，将上述特征均映射至预设三维特征空间，再进行平面化映射，得到平面点云编码特征和平面图像编码特征，并进行特征融合，得到融合特征，根据感知任务需求特征尺度将融合特征转化为需求尺度特征，并将需求尺度特征输入预设感知任务网络，得到感知结果，其采用的多摄视觉与雷达融合感知属于前融合信息处理方式，能够实现各个感知任务均基于车周环境空间360°全域视角的多模态传感器特征融合，使视觉特征和雷达点云特征形成特性互补，进而提升跨视域3D目标检测、识别、定位及俯瞰视角道路结构化信息提取精度，大幅降低甚至简化了后处理难度，降低了重要信息的丢失，以及降低了错误概率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术者来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本申请一示例性实施例示出的系统架构图；

图2是本申请的一示例性实施例示出的融合感知方法的流程图；

图3是本申请的一示例性实施例示出的融合感知方法的一种具体的流程图；

图4是本申请的一示例性实施例示出的融合感知方法的另一种具体的流程图；

图5是本申请的一示例性实施例示出的应用本申请实施例提供的融合感知方法的一种输出效果示意图；

图6是本申请的一示例性实施例示出的融合感知装置的框图；

图7是本申请的一示例性实施例示出的融合感知方法的所采用的网络模型的流程图；

图8示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

以下将参照附图和优选实施例来说明本发明的实施方式，本领域技术人员可由本说明书中所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。应当理解，优选实施例仅为了说明本发明，而不是为了限制本发明的保护范围。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

在下文描述中，探讨了大量细节，以提供对本发明实施例的更透彻的解释，然而，对本领域技术人员来说，可以在没有这些具体细节的情况下实施本发明的实施例是显而易见的，在其他实施例中，以方框图的形式而不是以细节的形式来示出公知的结构和设备，以避免使本发明的实施例难以理解。

鸟瞰图(Bird’sEyeView,BEV)是从鸟的视角去俯视看到的视图，该视角视野宽广，对比清晰。在自动驾驶领域，更关心的是跟车辆在同一平面上的物体(尤其是车和人)以及物体与道路之间的关系，通过BEV视角的特征映射的多摄视觉与雷达融合感知，能够更为完整的多方位的得到车辆的相关特征的融合。

请参见图1，图1为本申请一示例性实施例示出的系统架构图。如图1所示，车辆101通过自身的多个视角的车辆图像采集设备采集得到2D车辆视觉图像，以及通过车辆点云采集设备如4D毫米波雷达采集3D车辆点云数据，将2D车辆视觉图像和3D车辆点云数据上传至云端服务器102，云端服务器将得到的2D车辆视觉图像和3D车辆点云数据进行编码，得到2D图像特征编码和3D点云特征编码，基于车辆图像采集设备采集的图像设备内参和车辆图像采集设备采集相对于车辆自身的图像设备外参将2D图像特征编码映射到预设三维特征空间，该预设三维特征空间也即BEV视角3D空间，以车辆坐标系原点为中心，以车身纵向方向、车身横向方向和车身高度方向作为三个维度方向构建得到。基于点云采集设备与所述预设三维特征空间之间的点云设备外参将3D点云特征编码映射到预设三维特征空间，对预设三维特征空间中的图像编码特征和点云编码特征进行平面化映射，得到平面点云编码特征和平面图像编码特征，并进行特征融合，得到融合特征，对该融合特征进行特征解码，得到多尺度特征(多个不同尺度的需求尺度特征)，将不同尺度的需求尺度特征输入到对应的预设感知任务网络中，得到感知结果。基于BEV(鸟瞰图,Bird’sEyeView)视角特征映射的多摄视觉与雷达融合感知属于前融合信息处理方式，其优势体现在各个感知任务均基于车周环境空间360°全域视角的多模态传感器特征融合，使视觉特征和雷达点云特征形成特性互补，进而提升跨视域3D目标检测、识别、定位及俯瞰视角道路结构化信息提取精度，大幅降低甚至简化了后处理难度，有利于后端规控信息输入，降低了重要信息的丢失，以及降低了错误概率。

需要说明的是，本实施例方法的实现也可以直接基于车辆和终端的处理器和存储器实现，具体的实现方式在此不做限定，以上仅为一种示例，具体的实现方式可以由本领域技术人员根据需要进行选择。

请参阅图2，图2是本申请的一示例性实施例示出的融合感知方法的流程图。该方法可以通过图1所示的系统架构所执行，也可以通过本领域技术人员所知晓的其他实施环境执行。如图2所示，在一示例性的实施例中，该融合感知方法至少包括步骤S201至步骤S205，详细介绍如下：

步骤S201，获取车辆视觉图像和车辆点云数据。

其中，车辆视觉图像包括待感知车辆的多个视角的图像采集设备所采集的车辆子视觉图像；车辆点云数据包括待感知车辆的多个4D毫米波雷达所采集的三维(3D)子点云数据。车辆视觉图像可以通过车辆的一个或多个视角下的车辆图像采集设备采集得到，例如，设置在车辆多个角度下的多个摄像头采集车辆周围的图像作为车辆视觉图像。当存在多个车辆图像采集设备时，各车辆图像采集设备的图像采集时间可以是一致的。当然可能部分视觉图像数据的采集时间和车辆点云数据的采集时间不一致，但至少有一部分视觉图像数据的采集时间和车辆点云数据的采集时间一致。但考虑到实际使用场景，通常来说，采集到的车辆视觉图像的采集时间和车辆点云数据的采集时间是一致的。具体的时间同步性要求也可以根据本领域技术人员根据需要进行设定。

在一实施例中，步骤S201之后，步骤S202之前，当部分车辆视觉图像的采集时间与部分车辆点云数据的采集时间不一致时，需要获取基于车辆视觉图像采集时间区间和车辆点云数据采集时间区间的并集所生成的总数据采集区间下车辆在各个时刻的位姿信息，基于上述位姿信息对车辆视觉图像或车辆点云数据进行调整，使得车辆点云数据与车辆视觉图像在时间维度上具备同步性。

车辆点云数据可以通过车辆的一个或多个4D毫米波雷达采集得到，车辆点云数据也可以通过激光雷达采集得到。需要说明的是，车辆视觉图像和车辆点云数据均为同一车辆采集得到的。且至少一部分车辆视觉图像与车辆点云数据的采集时间相同。

成像雷达传感器方面，尽管现阶段车载激光雷达能够提供多线束的稠密点云探测数据，但是其价格成本高昂，且对大雾雨雪等天气效果较差，全天候探测能力欠佳。与采用激光雷达获取3D点云相比，4D毫米波雷达的采样密度与低线束激光雷达相当，但价格成本却远低于激光雷达，仅与传统毫米波雷达接近，且继承了传统毫米波雷达全天候抗干扰的优势，不受光线、烟雾、灰尘、雾霾的影响，在夜晚、雨雪等环境下都能正常工作，适应性更强。4D毫米波雷达不仅可以检测物体的距离、相对速度和方位角，还可以检测物体高于道路水平面的空间高度，分辨率比传统毫米波雷达高数倍，可以更有效地解析目标的轮廓、类别、行为，其探测距离、角度范围及分辨率均大幅优于传统毫米波雷达，拥有部分激光雷达的功能和性能。故当本申请实施例中的车辆点云数据为通过4D毫米波雷达采集的数据时，其使得该方案的实现具有低成本、全方位、全天候、高精度、高效率的性能。

步骤S202，对车辆视觉图像进行图像特征编码，得到图像编码特征，以及对车辆点云数据进行点云特征编码，得到点云编码特征。

其中，对车辆视觉图像进行图像特征编码，得到图像编码特征的方式可以为：利用2D卷积主干网络，分别对车载各视角摄像机获取的2D视觉图像(车辆视觉图像)进行图像特征编码，获得各视角2D图像编码特征(图像编码特征)。具体的利用2D卷积主干网络Encode^2D，分别对车载各视角摄像机获取的2D视觉图像I_i(i＝1,2,…,N)进行图像特征编码，获得各视角2D图像编码特征

其中，2D卷积主干网络Encode^2D为输入的各视角摄像机2D视觉图像I_i(i＝1,2,…,N)共享权重，通常可采用但不限于有一定深度层级的ResNet、EfficientNet、SwinTransformer、VoVNetV2等系列常用2D卷积网络结构。

其中，对车辆点云数据进行点云特征编码，得到点云编码特征的方式可以为：利用3D稀疏卷积主干网络，分别对车载各4D毫米波雷达获取的3D点云数据(车辆点云数据)进行点云特征编码，获得各4D毫米波雷达3D点云编码特征(点云编码特征)。具体的，利用3D稀疏卷积主干网络Encode^3D，分别对车载各4D毫米波雷达获取的3D点云数据D_j(j＝1,2,…,M)进行点云特征编码，获得各4D毫米波雷达3D点云编码特征

3D稀疏卷积主干网络Encode^3D为输入的各4D毫米波雷达3D点云D_j(j＝1,2,…,M)共享权重，通常可采用但不限于有一定深度层级的SECOND等系列常用3D稀疏卷积网络结构。

其中，对车辆视觉图像进行图像特征编码的方式也可以采用本领域技术人员所知晓的方式实现，对车辆点云数据进行点云特征编码的方式也可以采用本领域技术人员所知晓的其他方式实现。

步骤S203，将图像编码特征和点云编码特征映射至预设三维特征空间，并对预设三维特征空间中的图像编码特征和点云编码特征进行平面化映射，得到平面点云编码特征和平面图像编码特征。

在一实施例中，将图像编码特征映射至预设三维特征空间包括：

以车辆坐标系原点为中心，以车身纵向方向、车身横向方向和车身高度方向作为三个维度方向构建预设三维特征空间，例如，生成以本车坐标系原点为中心的3D网格化空间R^(Z×X×Y)(预设三维特征空间)，其中Z,X,Y分别表示车身纵向方向、车身横向方向和高度方向；

获取车辆图像采集设备的图像设备内参和车辆图像采集设备与预设三维特征空间之间的图像设备外参，并计算预设三维特征空间中各体素网格单元对应在图像编码特征中的图像体素位置，通过双线性插值方法确定各体素网格单元的图像体素特征向量，图像编码特征为二维视觉特征图，车辆视觉图像通过车辆图像采集设备采集得到，例如，可以结合各视角摄像机内参(图像设备内参)及相对车身坐标系外参(图像设备外参)，通过插值采样，将各视角2D图像编码特征(图像编码特征)映射至以本车坐标系原点为中心的统一BEV视角3D网格化特征空间(预设三维特征空间)。具体的，根据小孔成像光射原理，结合各视角摄像机内参K_i(i＝1,2,…,N)及相对车身坐标系外参

计算3D网格化空间R^Z×X×T中各体素网格单元对应在各2D视觉特征图/>

中的位置，再采用双线性插值方法获取各体素网格单元的特征值(图像体素特征向量)，最终得到映射好的3D网格化特征空间/>

在一实施例中，为进一步提升计算效率，可预先将3D网格化空间R^Z×X×Y中各体素网格单元对应在各2D视觉特征图

中的坐标位置计算好预存在查找表中T_I中，模型训练和推理运行时直接根据查找表T_I检索相关2D视觉特征进行双线性插值计算。

在一实施例中，以车辆坐标系原点为中心，以车身纵向方向、车身横向方向和车身高度方向作为三个维度方向构建预设三维特征空间之后，将点云编码特征映射至预设三维特征空间包括：

获取车辆点云采集设备与预设三维特征空间之间的点云设备外参，并计算预设三维特征空间中各体素网格单元对应在点云编码特征中的点云体素位置，通过三线性插值方法确定各体素网格单元的点云体素特征向量，点云编码特征为三维点云特征，车辆点云数据通过车辆点云采集设备采集得到，例如结合各4D毫米波雷达相对车身坐标系外参

通过插值采样，将3D点云编码特征映射至以本车坐标系为中心的统一BEV视角3D网格化特征空间/>

具体的，将各4D毫米波雷达3D点云编码特征映射至统一BEV视角3D网格化特征空间/>

具体操作方式为，首先生成如前所述的以本车坐标系原点为中心的3D网格化空间R^Z×X×Y，然后结合各4D毫米波雷达相对车身坐标系外参/>

(点云设备外参)，计算3D网格化空间R^Z×X×Y中各体素网格单元对应在各3D点云特征空间/>

中的位置，再采用三线性插值方法获取各体素网格单元的特征值(点云体素特征向量)，最终得到映射好的3D网格化特征空间/>

在一实施例中，为进一步提升计算效率，可预先将3D网格化空间R^Z×X×Y中各体素网格单元对应在各3D点云特征空间

中的坐标位置计算好预存在查找表中T_D中，模型训练和推理运行时直接根据查找表T_D检索相关3D点云特征进行三线性插值计算。

在一实施例中，对预设三维特征空间中的图像编码特征和点云编码特征进行平面化映射包括：

在预设三维特征空间的第一预设平面上沿第一预设维度方向对所有体素网格单元的图像体素特征向量进行加和平均处理或维度堆叠处理，得到多个平面图像编码特征；

在预设三维特征空间的第一预设平面上沿第一预设维度方向对所有体素网格单元的点云体素特征向量进行加和平均处理或维度堆叠处理，得到多个平面点云编码特征。

例如，用柱体池化操作，分别对BEV视角3D特征空间

中的图像编码特征和BEV视角3D特征空间/>

中的点云编码特征进行平面化映射，获得BEV平面图像编码特征/>

和点云编码特征/>

具体的，对3D特征空间/>

和

的柱体池化操作方式，可考虑BEV空间XY平面(第一预设平面)上各网格所沿Z轴高度方向(第一预设维度方向)所对应柱体的所有体素特征向量的加和平均或维度堆叠，若为加和平均则新特征维度/>

若为维度堆叠则新特征维度

步骤S204，对平面点云编码特征和平面图像编码特征进行特征融合，得到融合特征。

在一实施例中，对平面点云编码特征和平面图像编码特征进行特征融合，得到融合特征包括：

将预设三维特征空间的第二预设平面上各体素网格单元对应的平面点云编码特征和平面图像编码特征沿特征维度进行拼接，得到融合特征。

例如，图像编码特征

与点云编码特征/>

融合的一种具体操作方式为，将BEV视角ZX平面(第二预设平面)上各网格对应的/>

维图像编码特征(平面图像编码特征)与/>

维点云编码特征(平面点云编码特征)沿特征维度进行拼接，融合后得到新特征维度

这样能够得到高维视觉与4D毫米波雷达融合BEV特征F_BEV∈R^C×Z×X(融合特征)。

步骤S205，根据感知任务需求特征尺度将融合特征转化为需求尺度特征，并将需求尺度特征输入预设感知任务网络，得到感知结果，感知任务需求特征尺度为预设感知任务网络所需要的特征尺度。

在一实施例中，根据感知任务需求特征尺度将融合特征转化为需求尺度特征包括：

对融合特征进行特征解码；

将解码后的融合特征通过特征金字塔基于感知任务需求特征尺度输出需求尺度特征，需求尺度特征满足感知任务需求特征尺度的特征尺度要求。

在一实施例中，将需求尺度特征输入预设感知任务网络，得到感知结果包括：

若感知任务需求特征尺度的数量为多个，需求尺度特征包括多个不同尺度的需求尺度子特征；

将第一目标尺度子特征输入目标检测任务网络，得到目标框的位置信息，第一目标尺度子特征的第一尺度大于第一预设尺度阈值；

将第二目标尺度子特征输入道路可通行区域任务网络和车道线分割任务网络中至少之一，得到道路可通行区域和车道线分割结果中至少之一，第二目标尺度子特征的第二尺度小于第二预设尺度阈值，第二预设尺度阈值小于或等于第一预设尺度阈值，预设感知任务网络包括目标检测任务网络、道路可通行区域任务网络和车道线分割任务网络中至少之一，感知结果包括目标框的位置信息、道路可通行区域和车道线分割结果中至少之一。

例如，利用2D卷积神经网络Decode，对融合特征F_BEV∈R^C×Z×X进行特征解码，并在其末端采用特征金字塔FPN结构，针对各感知任务输出所需的特定尺度BEV特征

然后，将各特征层分别连接适配的3D目标检测DtHead和道路结构分割RdHead等任务头网络，输出相应目标检测及道路可通行区域、车道线分割任务结果。其中，2D卷积神经网络Decode通常可采用但不限于ResNet等系列常用2D卷积网络结构，该环节所采用的网络层数一般相对较浅，如ResNet-18等。

其中，针对特征金字塔FPN(feature pyramid networks,特征金字塔)输出的各级BEV尺度特征(需求尺度特征)，通常相对较大的尺度特征连接3D目标检测头DtHead(目标检测任务网络)，以满足3D目标框的精确定位，而相对较小的尺度特征连接道路可通行区域和车道线分割头RdHead(道路可通行区域任务网络和车道线分割任务网络)，以提升像素分割计算效率，DtHead一般采用CenterPoint3D检测网络，RdHead一般采用像素语义分类分割网络。

在一实施例中，将需求尺度特征输入预设感知任务网络之前，该融合感知方法还包括：

获取样本车辆的行驶区域高精度地图数据，以及样本车辆行驶过程中采集的多个样本视觉图像和多个样本点云数据，需要说明的是，样本车辆可以为多辆车，每一辆车的数据均为一个数据子集；

基于样本视觉图像的图像采集时间和样本点云数据的点云采集时间对多个样本视觉图像和多个样本点云数据进行时间对准，可以通过样本视觉图像和样本点云数据的时间戳进行样本视觉图像和样本点云数据的配对，将时间戳相近的两个样本视觉图像和样本点云数据作为一对数据；

对行驶区域高精度地图数据标注样本道路可通行区域和样本车道线分割结果，以及在样本点云数据所在的三维空间标注样本目标和样本目标框；

根据样本道路可通行区域、样本车道线分割结果、样本目标、样本目标框以及时间对准后的样本视觉图像、样本点云数据生成训练样本集；

根据目标检测损失和道路结构分割损失确定模型总损失函数，目标检测损失基于分类损失与目标框回归损失得到，道路结构分割损失基于道路可通行区域二值交叉熵和车道线二值交叉熵损失得到；

通过训练样本集和模型总损失函数对初始感知任务网络进行训练，得到预设感知任务网络。

在本实施例中，基于样本视觉图像的图像采集时间和样本点云数据的点云采集时间对多个样本视觉图像和多个样本点云数据进行时间对准之前，该融合感知方法还包括：

获取样本车辆行驶过程中的多个车辆位姿；

基于车辆位姿的位姿采集时间、样本视觉图像的图像采集时间对至少一部分样本视觉图像进行第一运动补偿，以及基于车辆位姿的位姿采集时间、样本点云数据的点云采集时间对至少一部分样本点云数据进行第二运动补偿。这样，可以弥补多个图像采集设备或者多个4D毫米波雷达采集数据的频率不一致的缺陷，使得最终的感知结果更为精确。

上述实施例提供的融合感知方法，通过对获取的车辆视觉图像进行图像特征编码，得到图像编码特征，以及对获取的车辆点云数据进行点云特征编码，得到点云编码特征，将上述特征均映射至预设三维特征空间，再进行平面化映射，得到平面点云编码特征和平面图像编码特征，并进行特征融合，得到融合特征，根据感知任务需求特征尺度将融合特征转化为需求尺度特征，并将需求尺度特征输入预设感知任务网络，得到感知结果，其采用的多摄视觉与雷达融合感知属于前融合信息处理方式，能够实现各个感知任务均基于车周环境空间360°全域视角的多模态传感器特征融合，使视觉特征和雷达点云特征形成特性互补，进而提升跨视域3D目标检测、识别、定位及俯瞰视角道路结构化信息提取精度，大幅降低甚至简化了后处理难度，降低了重要信息的丢失，以及降低了错误概率。

上述实施例提供的方法充分考虑了对车载多摄视觉图像与4D毫米波雷达点云等低成本传感器信息的融合利用，通过构建BEV特定多尺度特征映射网络，更好地支持跨视域3D目标检测、道路可通行区域分割、车道线分割等多任务性能。

通过将BEV这一概念被引入用以解决各类智能驾驶多摄视觉感知乃至多模态信息融合领域，面向但不局限于3D目标探测、BEV视图道路结构化信息提取、运动目标跟踪与预测、高精度地图制备等复杂端到端多感知任务。基于BEV视角特征映射的多摄视觉与雷达融合感知属于前融合信息处理方式，各个感知任务均基于车周环境空间360°全域视角的多模态传感器特征融合，使视觉特征和雷达点云特征形成特性互补，进而提升跨视域3D目标检测、识别、定位及俯瞰视角道路结构化信息提取精度，大幅降低甚至简化了后处理难度，有利于后端规控信息输入。其输入接口也不再仅仅是单一的视觉图像内容，还被广泛延申至激光雷达、毫米波雷达等多模态传感器数据结构。通过将BEV视作一种通过前端多摄多模态信息融合手段，以获取车身周围全域全方位环境信息层次更丰富、语义深度更递进、表达能力更强的高维度特征，从而大幅提升或拓展对周围车辆、行人、指示标志、通行区域及障碍物的精准识别及方位测量能力。BEV所起的作用更多是将多摄视角及多模态数据特征映射至鸟瞰视角数据结构，从而得到带有车身周边环境全域全方位3D空间或BEV平面的高维信息，弥补单摄视角局限导致的信息丢失或信息不全，从而拓展或改善相关感知任务功能。

与相关技术中采用后融合信息处理方式的方案相比，本申请实施例提供的方法通过BEV视角进行感知融合，不需要在进行后处理过程之前，进行目标身份的唯一性识别，由于在前处理阶段，得到的融合特征就已经完成了目标对象的唯一身份的确定，使得该方案将融合特征输入到不同的感知分支网络时，处理过程更为简便、快捷。

本申请实施例提供的方法，通过特征金字塔对融合特征进行处理，能够提供不同尺度的需求尺度特征满足不同的感知分支网络(如目标检测任务网络、道路可通行区域任务网络和车道线分割任务网络等)的尺度需要，并非“千篇一律”，能够节约算力，提升感知效率。

下面通过一具体的实施例对融合感知方法进行示例性的说明，参见图3、图4，图3是本申请的一示例性实施例示出的融合感知方法的一种具体的流程图，图4是本申请的一示例性实施例示出的融合感知方法的另一种具体的流程图，如图3-图4所示，该具体的方法包括：

步骤S301,2D视觉图像特征编码与BEV空间映射。

利用2D卷积主干网络，分别对车载各视角摄像机获取的2D视觉图像进行图像特征编码，获得各视角2D图像编码特征；然后，结合各视角摄像机内参及相对车身坐标系外参，通过插值采样，将各视角2D图像编码特征映射至以本车坐标系原点为中心的统一BEV视角3D网格化特征空间。

步骤S302,3D点云数据特征编码与BEV空间映射。

利用3D稀疏卷积主干网络，分别对车载各4D毫米波雷达获取的3D点云数据进行点云特征编码，获得各4D毫米波雷达3D点云编码特征；然后，结合各4D毫米波雷达相对车身坐标系外参，通过插值采样，将3D点云编码特征映射至以本车坐标系为中心的统一BEV视角3D网格化特征空间。

步骤S303,BEV平面视觉与点云特征融合。

利用柱体池化操作，分别对步骤S1所述的BEV视角3D特征空间中的图像编码特征和步骤S302所述的BEV视角3D特征空间中的点云编码特征进行平面化映射，获得BEV平面图像编码特征和点云编码特征；然后，将图像编码特征和点云编码特征进行融合，获得高维视觉与4D毫米波雷达融合BEV特征。

步骤S304,BEV特征解码与多任务网络输出。

利用2D卷积神经网络，对步骤S4所述的融合特征进行特征解码，并在其末端采用特征金字塔FPN结构，针对各感知任务输出所需的特定尺度BEV特征；然后，将各特征层分别连接适配的3D目标检测和道路结构分割等任务头网络，输出相应目标检测及道路可通行区域、车道线分割任务结果，最终完成多模态BEV感知网络模型构建。

以上步骤S301至步骤S304的过程可以视为图4中所示出的模型推理过程，通过对车载各视角摄像机所采集的视觉图像进行2D图像特征编码得到图像编码特征，对车载4D毫米波雷达采集的3D点云进行3D点云特征编码得到点云编码特征，基于相机(各视角摄像机)内参及相对本车外参、4D毫米波雷达相对本车外参、图像编码特征、点云编码特征形成BEV视角3D空间特征，并将BEV视角3D空间特征映射到平面，得到平面点云编码特征和平面图像编码特征，再进行特征融合，形成BEV特征也即融合特征，对BEV特征进行解码形成多尺度特征层(多个不同尺度的需求尺度特征)，将其输送至预设感知任务网络，如跨视域空间3D目标检测网络(图中的跨视域空间3D目标检测)、BEV道路可通行区域分割网络(图中的BEV道路可通行区域分割)、BEV车道线分割网络中(图中的BEV车道线分割)。

步骤S305,样本库制备、损失函数设计、模型训练及推理。

针对步骤S304所述的多模态BEV感知网络模型权重训练，采集获取各时间戳t对应的车载各视角摄像机2D视觉图像和4D毫米波雷达3D点云数据，在3D空间中进行所需3D目标类别及相应包围框信息标注，利用覆盖采集车辆行驶区域的高精度地图数据，在其图层上进行道路可通行区域及车道线等结构化信息标注，同时保存各时间戳车辆位姿信息，制备BEV感知模型训练专用样本库；然后，通过构造相应多任务损失函数，完成多模态BEV感知网络模型训练，获得最优网络权重；最后，将训练得到的最优网络权重提供给网络模型进行推理使用。

其中，各视角摄像机2D视觉图像、4D毫米波雷达3D点云数据需要进行时间戳对准，通常可将最近时间戳作为各传感器对应同组数据，各时间戳车辆位姿状态信息可用于必要的运动补偿。

其中，模型训练的总损失函数L由3D目标检测损失L_det和道路结构分割损失L_seg加权构成，即L＝L_det+γ·L_seg，其中3D目标检测损失L_det由分类Focal损失L_cls与3D框回归L1损失L_reg加权计算获得，道路结构分割损失L_seg由道路可通行区域二值交叉熵L_road和车道线二值交叉熵损失L_lane加权计算获得。

请参见图5，图5是本申请的一示例性实施例示出的应用本申请实施例提供的融合感知方法的一种输出效果示意图，如图5所示，有6个视角的视觉图像和一份点云数据，图5上排第2张图像中显示了目标框，并且能够得到目标框的位置信息，图5左右侧的图像输出了道路可通行区域和车道线分割结果。

上述实施例提供的方法，基于BEV特征映射的多摄视觉与4D毫米波雷达融合感知方法，充分考虑了对车载多摄视觉图像与4D毫米波雷达点云等低成本传感器信息的融合利用，通过构建BEV特定多尺度特征映射网络，更好地支持跨视域3D目标检测、道路可通行区域分割、车道线分割等多任务性能。

图6是本申请的一示例性实施例示出的融合感知装置的框图。如图6所示，该示例性的融合感知装置600包括：

数据获取模块601，用于获取车辆视觉图像和车辆点云数据；

编码模块602，用于对车辆视觉图像进行图像特征编码，得到图像编码特征，以及对车辆点云数据进行点云特征编码，得到点云编码特征；

映射模块603，用于将图像编码特征和点云编码特征映射至预设三维特征空间，并对预设三维特征空间中的图像编码特征和点云编码特征进行平面化映射，得到平面点云编码特征和平面图像编码特征；

特征融合模块604，用于对平面点云编码特征和平面图像编码特征进行特征融合，得到融合特征；

感知模块605，用于根据感知任务需求特征尺度将融合特征转化为需求尺度特征，并将需求尺度特征输入预设感知任务网络，得到感知结果，感知任务需求特征尺度为预设感知任务网络所需要的特征尺度。

请参见图7，图7是本申请的一示例性实施例示出的融合感知方法的所采用的网络模型的流程图，图7以另一种方式对上述实施例提供的方法进行示例性的展示，如图7所示，一方面通过车载摄像机采集得到视角1相机图像、视角2相机图像……视角N相机图像，也即车辆视觉图像，将车辆视觉图像输入到2D卷积编码网络进行图像特征编码，得到2D图像编码特征，另一方面将4D毫米波雷达采集的4D雷达点云数据输入到3D卷积编码网络，得到3D点云编码特征，编码模块可以包括2D卷积编码网络和3D卷积编码网络，将3D点云编码特征和2D图像编码特征进行BEV空间视角映射(映射模块)，柱体池化、平面化映射后再进行BEV特征融合(特征融合模块)，得到BEV融合特征，将BEV融合特征输入至解码网络，得到FPN多尺度特征(不同尺度的需求尺度特征)，将FPN多尺度特征输入到对应的预设感知任务网络，如3D目标检测头、BEV道路结构分割头等。感知模块包括解码网络和预设感知任务网络。

需要说明的是，上述实施例所提供的融合感知装置与上述实施例所提供的方法属于同一构思，其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。上述实施例所提供的装置在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能，本处也不对此进行限制。

本申请的实施例还提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得电子设备实现上述各个实施例中提供的方法。

图8示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。需要说明的是，图8示出的电子设备的计算机系统1100仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，计算机系统1100包括中央处理单元(Central Processing Unit，CPU)1101，其可以根据存储在只读存储器(Read-Only Memory，ROM)1102中的程序或者从储存部分1108加载到随机访问存储器(Random Access Memory，RAM)1103中的程序而执行各种适当的动作和处理，例如执行上述实施例中的方法。在RAM 1103中，还存储有系统操作所需的各种程序和数据。CPU 1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(Input/Output，I/O)接口1105也连接至总线1104。

以下部件连接至I/O接口1105：包括键盘、鼠标等的输入部分1106；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1107；包括硬盘等的储存部分1108；以及包括诸如LAN(Local AreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入储存部分1108。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中，该计算机程序可以通过通信部分1109从网络上被下载和安装，和/或从可拆卸介质1111被安装。在该计算机程序被中央处理单元(CPU)1101执行时，执行本申请的装置中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

本申请的另一方面还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被计算机的处理器执行时，使计算机执行如上述实施例所提供的方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的，也可以是单独存在，而未装配入该电子设备中。

本申请的另一方面还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各个实施例中提供的方法。

上述实施例仅示例性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，但凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种融合感知方法，其特征在于，所述融合感知方法包括：

获取车辆视觉图像和车辆点云数据；

对所述车辆视觉图像进行图像特征编码，得到图像编码特征，以及对所述车辆点云数据进行点云特征编码，得到点云编码特征；

将所述图像编码特征和所述点云编码特征映射至预设三维特征空间，并对所述预设三维特征空间中的所述图像编码特征和所述点云编码特征进行平面化映射，得到平面点云编码特征和平面图像编码特征；

对所述平面点云编码特征和所述平面图像编码特征进行特征融合，得到融合特征；

根据感知任务需求特征尺度将所述融合特征转化为需求尺度特征，并将所述需求尺度特征输入预设感知任务网络，得到感知结果，所述感知任务需求特征尺度为所述预设感知任务网络所需要的特征尺度。

2.如权利要求1所述的融合感知方法，其特征在于，将所述图像编码特征映射至预设三维特征空间包括：

以车辆坐标系原点为中心，以车身纵向方向、车身横向方向和车身高度方向作为三个维度方向构建所述预设三维特征空间；

获取车辆图像采集设备的图像设备内参和所述车辆图像采集设备与所述预设三维特征空间之间的图像设备外参，并计算所述预设三维特征空间中各体素网格单元对应在所述图像编码特征中的图像体素位置，通过双线性插值方法确定各所述体素网格单元的图像体素特征向量，所述图像编码特征为二维视觉特征图，所述车辆视觉图像通过所述车辆图像采集设备采集得到。

3.如权利要求2所述的融合感知方法，其特征在于，以车辆坐标系原点为中心，以车身纵向方向、车身横向方向和车身高度方向作为三个维度方向构建所述预设三维特征空间之后，将所述点云编码特征映射至预设三维特征空间包括：

获取车辆点云采集设备与所述预设三维特征空间之间的点云设备外参，并计算所述预设三维特征空间中各体素网格单元对应在所述点云编码特征中的点云体素位置，通过三线性插值方法确定各所述体素网格单元的点云体素特征向量，所述点云编码特征为三维点云特征，所述车辆点云数据通过所述车辆点云采集设备采集得到。

4.如权利要求3所述的融合感知方法，其特征在于，对所述预设三维特征空间中的所述图像编码特征和所述点云编码特征进行平面化映射包括：

在所述预设三维特征空间的第一预设平面上沿第一预设维度方向对所有所述体素网格单元的图像体素特征向量进行加和平均处理或维度堆叠处理，得到多个平面图像编码特征；

在所述预设三维特征空间的所述第一预设平面上沿所述第一预设维度方向对所有所述体素网格单元的点云体素特征向量进行加和平均处理或维度堆叠处理，得到多个平面点云编码特征。

5.如权利要求4所述的融合感知方法，其特征在于，对所述平面点云编码特征和所述平面图像编码特征进行特征融合，得到融合特征包括：

将所述预设三维特征空间的第二预设平面上各所述体素网格单元对应的所述平面点云编码特征和所述平面图像编码特征沿特征维度进行拼接，得到所述融合特征。

6.如权利要求1-5任一项所述的融合感知方法，其特征在于，根据感知任务需求特征尺度将所述融合特征转化为需求尺度特征包括：

对所述融合特征进行特征解码；

将解码后的融合特征通过特征金字塔基于所述感知任务需求特征尺度输出所述需求尺度特征，所述需求尺度特征满足所述感知任务需求特征尺度的特征尺度要求。

7.如权利要求6所述的融合感知方法，其特征在于，将所述需求尺度特征输入预设感知任务网络，得到感知结果包括：

若所述感知任务需求特征尺度的数量为多个，所述需求尺度特征包括多个不同尺度的需求尺度子特征；

将第一目标尺度子特征输入目标检测任务网络，得到目标框的位置信息，所述第一目标尺度子特征的第一尺度大于第一预设尺度阈值；

将第二目标尺度子特征输入道路可通行区域任务网络和车道线分割任务网络中至少之一，得到道路可通行区域和车道线分割结果中至少之一，所述第二目标尺度子特征的第二尺度小于第二预设尺度阈值，所述第二预设尺度阈值小于或等于所述第一预设尺度阈值，所述预设感知任务网络包括目标检测任务网络、道路可通行区域任务网络和车道线分割任务网络中至少之一，所述感知结果包括目标框的位置信息、道路可通行区域和车道线分割结果中至少之一。

8.如权利要求1-5任一项所述的融合感知方法，其特征在于，将所述需求尺度特征输入预设感知任务网络之前，所述融合感知方法还包括：

获取样本车辆的行驶区域高精度地图数据，以及所述样本车辆行驶过程中采集的多个样本视觉图像和多个样本点云数据；

基于所述样本视觉图像的图像采集时间和所述样本点云数据的点云采集时间对多个样本视觉图像和多个样本点云数据进行时间对准；

对所述行驶区域高精度地图数据标注样本道路可通行区域和样本车道线分割结果，以及在所述样本点云数据所在的三维空间标注样本目标和样本目标框；

根据所述样本道路可通行区域、样本车道线分割结果、样本目标、样本目标框以及时间对准后的所述样本视觉图像、所述样本点云数据生成训练样本集；

根据目标检测损失和道路结构分割损失确定模型总损失函数，所述目标检测损失基于分类损失与目标框回归损失得到，所述道路结构分割损失基于道路可通行区域二值交叉熵和车道线二值交叉熵损失得到；

通过所述训练样本集和所述模型总损失函数对初始感知任务网络进行训练，得到所述预设感知任务网络。

9.如权利要求8所述的融合感知方法，其特征在于，基于所述样本视觉图像的图像采集时间和所述样本点云数据的点云采集时间对多个样本视觉图像和多个样本点云数据进行时间对准之前，所述融合感知方法还包括：

获取所述样本车辆行驶过程中的多个车辆位姿；

基于车辆位姿的位姿采集时间、样本视觉图像的图像采集时间对至少一部分所述样本视觉图像进行第一运动补偿，以及基于所述车辆位姿的位姿采集时间、样本点云数据的点云采集时间对至少一部分所述样本点云数据进行第二运动补偿。

10.如权利要求1-5任一项所述的融合感知方法，其特征在于，所述车辆视觉图像包括待感知车辆的多个视角的图像采集设备所采集的车辆子视觉图像；

所述车辆点云数据包括所述待感知车辆的多个4D毫米波雷达所采集的三维子点云数据。

11.一种融合感知装置，其特征在于，所述融合感知装置包括：

数据获取模块，用于获取车辆视觉图像和车辆点云数据；

编码模块，用于对所述车辆视觉图像进行图像特征编码，得到图像编码特征，以及对所述车辆点云数据进行点云特征编码，得到点云编码特征；

映射模块，用于将所述图像编码特征和所述点云编码特征映射至预设三维特征空间，并对所述预设三维特征空间中的所述图像编码特征和所述点云编码特征进行平面化映射，得到平面点云编码特征和平面图像编码特征；

特征融合模块，用于对所述平面点云编码特征和所述平面图像编码特征进行特征融合，得到融合特征；

感知模块，用于根据感知任务需求特征尺度将所述融合特征转化为需求尺度特征，并将所述需求尺度特征输入预设感知任务网络，得到感知结果，所述感知任务需求特征尺度为所述预设感知任务网络所需要的特征尺度。

12.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如权利要求1至10中任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，当所述计算机程序被计算机的处理器执行时，使计算机执行权利要求1至10中任一项所述的方法。