CN116363615B

CN116363615B - 数据融合方法、装置、车辆和存储介质

Info

Publication number: CN116363615B
Application number: CN202310308902.0A
Authority: CN
Inventors: 卢红喜
Original assignee: Xiaomi Automobile Technology Co Ltd
Current assignee: Xiaomi Automobile Technology Co Ltd
Priority date: 2023-03-27
Filing date: 2023-03-27
Publication date: 2024-02-23
Anticipated expiration: 2043-03-27
Also published as: CN116363615A

Abstract

本公开涉及车辆技术领域，尤其涉及一种数据融合方法、装置、车辆和存储介质。其中，该数据融合方法，包括：获取四维毫米波雷达点云数据，并在自车三维坐标系下确定四维毫米波雷达点云数据对应的四维毫米波雷达点云鸟瞰图特征；基于四维毫米波雷达点云数据，在自车三维坐标系下获取多视角摄像头视觉数据对应的视觉鸟瞰图特征；在自车三维坐标系下的鸟瞰图空间中，对四维毫米波雷达点云鸟瞰图特征和视觉鸟瞰图特征进行特征级融合，得到视觉点云多模态数据流。采用本公开可以提高融合后的BEV特征获取的准确性，提高车辆对周围环境感知的准确性。

Description

数据融合方法、装置、车辆和存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种数据融合方法、装置、车辆和存储介质。

背景技术

在高等级智能驾驶领域，车辆对周围环境进行感知时，可以采用多传感器融合方案。相关技术中，多传感器融合方案可以通过获取车辆周围的多模态感知数据(例如视觉数据、雷达数据)，并在鸟瞰图(Bird’s Eye View，BEV)空间中对多模态感知数据进行特征融合实现对周围环境的感知。然而，由于视觉BEV特征获取的准确性较低，导致融合后的BEV特征的误差较大，使得车辆对周围环境感知的准确性较低。

发明内容

本公开提供了一种数据融合方法、装置、车辆和存储介质，主要目的在于提高融合后的BEV特征获取的准确性，提高车辆对周围环境感知的准确性。

根据本公开的一方面，提供了一种数据融合方法，应用于车辆，所述车辆上安装有四维毫米波雷达和环视摄像头，所述方法包括：

获取四维毫米波雷达点云数据，并在自车三维坐标系下确定所述四维毫米波雷达点云数据对应的四维毫米波雷达点云鸟瞰图特征，其中，所述四维毫米波雷达点云数据为控制所述四维毫米波雷达采集得到的数据；

基于所述四维毫米波雷达点云数据，在所述自车三维坐标系下获取多视角摄像头视觉数据对应的视觉鸟瞰图特征，其中，所述多视角摄像头视觉数据为控制所述环视摄像头采集得到的数据，所述四维毫米波雷达点云数据的时间与所述多视角摄像头视觉数据的时间同步；

在所述自车三维坐标系下的鸟瞰图空间中，对所述四维毫米波雷达点云鸟瞰图特征和所述视觉鸟瞰图特征进行特征级融合，得到视觉点云多模态数据流。

可选的，所述确定所述四维毫米波雷达点云数据对应的自车三维坐标系下的四维毫米波雷达点云鸟瞰图特征，包括：

对所述四维毫米波雷达点云数据进行预处理，得到预处理后的四维毫米波雷达点云数据；

将所述预处理后的四维毫米波雷达点云数据输入至所述目标三维主干网络，得到所述四维毫米波雷达点云数据对应的自车三维坐标系下的四维毫米波雷达点云鸟瞰图特征。

可选的，所述基于所述四维毫米波雷达点云数据，获取多视角摄像头视觉数据对应的所述自车三维坐标系下的视觉鸟瞰图特征，包括：

将所述多视角摄像头视觉数据输入至目标图像主干网络，得到所述多视角摄像头视觉数据对应的第一特征图；

基于所述预处理后的四维毫米波雷达点云数据，对所述第一特征图进行逆透视图映射，得到第二特征图，其中，所述第一特征图对应的特征空间为二维空间，所述第二特征图对应的特征空间为三维空间；

利用鸟瞰图编码器，在所述自车三维坐标系下的鸟瞰图空间中，对所述第二特征图进行表征，得到多视角摄像头视觉数据对应的所述自车三维坐标系下的视觉鸟瞰图特征。

可选的，所述基于所述预处理后的四维毫米波雷达点云数据，对所述第一特征图进行逆透视图映射，得到第二特征图，包括：

获取摄像头参数，将所述摄像头参数和所述第一特征图输入至目标视觉深度网络进行深度估计，得到第一深度分布；

基于所述预处理后的四维毫米波雷达点云数据，对所述第一深度分布进行深度监督，得到第二深度分布；

获取所述第一特征图对应的上下文信息，并根据所述上下文信息和所述第二深度分布确定第二特征图。

可选的，还包括：

获取初始三维主干网络、初始图像主干网络以及初始视觉深度网络；

采用LET-IoU损失函数，分别对所述初始三维主干网络、所述初始图像主干网络以及所述初始视觉深度网络进行训练，得到所述目标三维主干网络、所述目标图像主干网络以及所述目标视觉深度网络。

可选的，所述对四维毫米波雷达点云鸟瞰图特征和视觉鸟瞰图特征进行特征级融合，包括：

对所述四维毫米波雷达点云鸟瞰图特征进行多普勒分辨，得到任一对象对应的四维毫米波雷达点云鸟瞰图子特征；

对所述视觉鸟瞰图特征进行空间切割，得到所述任一对象对应的视觉鸟瞰图子特征；

对所述四维毫米波雷达点云鸟瞰图子特征和所述视觉鸟瞰图子特征进行关联，得到视觉点云多模态数据流。

可选的，在所述得到视觉点云多模态数据流之后，还包括：

在所述视觉点云多模态数据流满足感知条件的情况下，利用检测头对所述视觉点云多模态数据流进行感知处理，得到所述视觉点云多模态数据流对应的四维鸟瞰图融合检测结果；

在所述视觉点云多模态数据流不满足所述感知条件的情况下，利用所述检测头对所述四维毫米波雷达点云鸟瞰图特征或所述视觉鸟瞰图特征进行感知处理，得到所述四维毫米波雷达点云鸟瞰图特征对应的四维毫米波雷达检测结果或者视觉鸟瞰图特征对应的纯视觉检测结果。

可选的，所述检测头为多任务检测头，所述利用检测头对视觉点云多模态数据流进行感知处理，得到所述视觉点云多模态数据流对应的四维鸟瞰图融合检测结果，包括以下至少一种：

利用所述多任务检测头，使用目标检测算法对所述视觉点云多模态数据流进行感知处理，得到所述视觉点云多模态数据流对应的四维鸟瞰图融合检测结果，其中，所述四维鸟瞰图融合检测结果包括三维框；

利用所述多任务检测头，使用语义分割算法对所述视觉点云多模态数据流进行感知处理，得到所述视觉点云多模态数据流对应的四维鸟瞰图融合检测结果，其中，所述四维鸟瞰图融合检测结果包括语义分割结果；

利用所述多任务检测头，使用动态目标跟踪算法对所述视觉点云多模态数据流进行感知处理，得到所述视觉点云多模态数据流对应的四维鸟瞰图融合检测结果，其中，所述四维鸟瞰图融合检测结果包括目标追踪结果。

根据本公开的另一方面，提供了一种数据融合装置，所述装置设置于车辆，所述车辆上安装有四维毫米波雷达和环视摄像头，所述装置包括：

雷达特征获取单元，用于获取四维毫米波雷达点云数据，并在自车三维坐标系下确定所述四维毫米波雷达点云数据对应的四维毫米波雷达点云鸟瞰图特征，其中，所述四维毫米波雷达点云数据为控制所述四维毫米波雷达采集得到的数据；

视觉特征获取单元，用于基于所述四维毫米波雷达点云数据，在所述自车三维坐标系下获取多视角摄像头视觉数据对应的视觉鸟瞰图特征，其中，所述多视角摄像头视觉数据为控制所述环视摄像头采集得到的数据，所述四维毫米波雷达点云数据的时间与所述多视角摄像头视觉数据的时间同步；

特征融合单元，用于在所述自车三维坐标系下的鸟瞰图空间中，对所述四维毫米波雷达点云鸟瞰图特征和所述视觉鸟瞰图特征进行特征级融合，得到视觉点云多模态数据流。

可选的，所述雷达特征获取单元用于确定所述四维毫米波雷达点云数据对应的自车三维坐标系下的四维毫米波雷达点云鸟瞰图特征时，具体用于：

可选的，所述视觉特征获取单元用于基于所述四维毫米波雷达点云数据，获取多视角摄像头视觉数据对应的所述自车三维坐标系下的视觉鸟瞰图特征时，具体用于：

可选的，所述视觉特征获取单元用于基于所述预处理后的四维毫米波雷达点云数据，对所述第一特征图进行逆透视图映射，得到第二特征图时，具体用于：

可选的，所述装置还包括模型训练单元，用于：

可选的，所述特征融合单元用于对四维毫米波雷达点云鸟瞰图特征和视觉鸟瞰图特征进行特征级融合时，具体用于：

可选的，所述装置还包括结果检测单元，用于在所述得到视觉点云多模态数据流之后，具体用于：

可选的，所述检测头为多任务检测头，所述结果检测单元用于利用检测头对视觉点云多模态数据流进行感知处理，得到所述视觉点云多模态数据流对应的四维鸟瞰图融合检测结果时，具体用于以下至少一种：

根据本公开的另一方面，提供了一种车辆，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述一方面中任一项所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行前述一方面中任一项所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现前述一方面中任一项所述的方法。

在本公开一个或多个实施例中，通过获取四维毫米波雷达点云数据，并在自车三维坐标系下确定四维毫米波雷达点云数据对应的四维毫米波雷达点云鸟瞰图特征，其中，四维毫米波雷达点云数据为控制四维毫米波雷达采集得到的数据；基于四维毫米波雷达点云数据，在自车三维坐标系下获取多视角摄像头视觉数据对应的视觉鸟瞰图特征，其中，多视角摄像头视觉数据为控制环视摄像头采集得到的数据，四维毫米波雷达点云数据的时间与多视角摄像头视觉数据的时间同步；在自车三维坐标系下的鸟瞰图空间中，对四维毫米波雷达点云鸟瞰图特征和视觉鸟瞰图特征进行特征级融合，得到视觉点云多模态数据流。因此，通过使用四维毫米波雷达点云数据来优化视觉鸟瞰图特征，可以提高视觉鸟瞰图特征获取的准确性，可以提高四维毫米波雷达点云数据和多视角摄像头视觉数据进行特征级融合后得到的BEV特征的准确性，可以提高车辆对周围环境感知的准确性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示出现有技术提供的一种BEV融合的架构示意图；

图2示出现有技术提供的另一种BEV融合的架构示意图；

图3示出现有技术提供的一种BEV深度的架构示意图；

图4示出本公开实施例提供的一种数据融合方法的流程示意图；

图5示出本公开实施例提供的另一种数据融合方法的流程示意图；

图6示出本公开实施例提供的一种数据融合方法的架构示意图；

图7示出本公开实施例提供的一种数据融合装置的结构示意图；

图8是用来实现本公开实施例的数据融合方法的车辆的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

随着科学技术的发展，车辆的日益普及，提高了人们的生产生活。在高等级智能驾驶领域，车辆对周围环境进行感知时，可以采用纯视觉技术方案或多传感器融合方案。对于多传感器融合方案来说，其一方面可以充分利用不同工作原理的传感器，提升对不同场景下的整体感知精度，另一方面可以在某种传感器出现失效时，其他传感器可以作为冗余备份。

根据一些实施例，多传感器融合方案主要包括后融合(目标级融合)、前融合(数据级融合)和中融合(特征级融合)三种：

当采用后融合方案时，各传感器针对目标物体单独进行深度学习模型推理，从而各自输出带有传感器自身属性的结果，并在决策层进行融合。其优势是不同的传感器都独立进行目标识别，解耦性好，且各传感器可以互为冗余备份。对于车厂一级供应商(TierOne，Tier 1)而言，后融合方案便于做标准的模块化开发，可以把接口封装好，提供给主机厂“即插即用”。对于主机厂来说，后融合方案比较简单，每种传感器的识别结果输入到融合模块，融合模块对各传感器在不同场景下的识别结果设置不同的置信度，最终根据融合策略进行决策。然而后融合方案也有缺点，最大的问题就是，各自传感器经过目标识别再进行融合时，中间损失了很多有效信息，影响了感知精度，而且最终的融合算法，仍然是一种基于规则的方法，要根据先验知识来设定传感器的置信度，局限性较大。

当采用前融合方案时，各传感器数据采集后，经过数据同步后，对这些原始数据进行融合。其优势是可以从整体上来处理信息，让数据更早做融合，从而让数据更有关联性，比如把激光雷达的点云数据和摄像头的像素级数据进行融合，数据的损失也比较少。但是，由于视觉数据和激光雷达点云数据是异构数据，其坐标系不同，视觉数据是二维(2D)图像空间，而激光雷达点云是三维(3D)空间，在进行融合时，只能在图像空间里把点云放进去，给图像提供深度信息，或者在点云坐标系里，通过给点云染色或做特征渲染，而让点云具有更丰富的语义信息。坐标系的不同，也导致前融合的效果并不理想，一方面，前融合需要处理的数据量较大，对算力要求较高；另一方面，前融合要想达到好的效果，对融合策略要求较高，过程非常复杂。

当采用中融合方案时，将各个传感器通过神经网络模型提取中间层特征(即有效特征)，再对多种传感器的有效主要特征进行融合，从而更有可能得到最佳推理。相关技术中，可以对有效特征在鸟瞰图(Bird’s Eye View，BEV)空间进行融合，一来数据损失少，二来算力消耗也较少(相对于前融合)。BEV特征级融合可以将视觉2D图像转到3D坐标系下，这样就和其他传感器数据，如激光雷达点云数据，所在的空间保持一致，能够有效解决异构传感器坐标系不一致的问题，从而可以在相同坐标系下进行融合。

现有技术中，图1示出现有技术提供的一种BEV融合的架构示意图。如图1所示，其从多模态输入中提取特征，并使用视图转换有效地将其转换为BEV空间。它通过一个全卷积BEV编码器将统一的BEV特征融合在一起，并通过不同任务的检测头对融合后的BEV特征进行探测。

图2示出现有技术提供的一种BEV融合的架构示意图。如图2所示，雷达分支和视觉分支都采用多种不用的结构，视觉分支对LSS(Lift-Splat-Shoot)进行了改造，使其更加适合完成3D框检测任务。

易于理解的是，上述两种BEV融合方案均使用高密度的激光点云作为模型输入，量产成本更高，而高昂的硬件成本，也大大降低了算法的工程应用价值。且视觉BEV特征提取并未使用精确的深度标定数据来优化，BEV特征误差较大。

现有技术中，图3示出现有技术提供的一种BEV深度的架构示意图。如图3所示，图像主干从多视图图像中提取图像特征。深度估计模块以图像特征作为输入，生成上下文特征和深度，并获取最终点特征。体素池将所点特征统一到一个坐标系中，并将它们合并到BEV要素地图上。

易于理解的是，上述BEV深度方案也使用了高密度的激光点云，量产成本更高。同时，其仅使用点云深度作为辅助信息，未使用多模态感知数据进行特征融合，方案性能弱于多传感器融合方案。

下面结合具体的实施例对本公开进行详细说明。

在第一个实施例中，如图4所示，图4示出本公开实施例提供的一种数据融合方法的流程示意图，该方法可依赖于计算机程序实现，可运行于进行数据融合的车辆上。该车辆可以为自动驾驶车辆，车辆上安装有四维毫米波雷达和环视摄像头。

具体的，该数据融合方法包括：

S101，获取四维毫米波雷达点云数据，并在自车三维坐标系下确定四维毫米波雷达点云数据对应的四维毫米波雷达点云鸟瞰图特征；

根据一些实施例，四维(4D)四维毫米波雷达在传统四维毫米波雷达探测的距离、速度、方向的数据基础上，加上了对目标的高度分析，将第4个维度整合到传统四维毫米波雷达中，以更好地了解和绘制环境地图，让测到的交通数据更为精准。

在一些实施例中，点云数据(point cloud data)是指在一个三维坐标系统中的一组向量的集合。

在一些实施例中，自车三维坐标系也叫车身坐标系，可以为右-前-天坐标(RFU)，也可以为前-左-上(FLU)。其中，在RFU中，原点可以取车辆的后轴中心，X轴为面向车辆前方右手所指方向，Y轴为车辆前进方向，Z轴为与地面垂直指向车顶方向。在(FLU)中，原点可以取车辆的后轴中心，X轴为车辆前进方向，Y轴为面向车辆前方左手所指方向，Z轴为与地面垂直指向车顶方向。

根据一些实施例，四维毫米波雷达点云数据指的是车辆控制4D四维毫米波雷达采集得到的距离、速度、方向、高度的在自车三维坐标系下的点云数据。

根据一些实施例，四维毫米波雷达点云BEV特征用于使用BEV作为四维毫米波雷达点云数据特征的表达。

在一些实施例中，四维毫米波雷达点云数据特征指的是四维毫米波雷达点云数据的特征。可以通过对四维毫米波雷达点云数据进行处理得到四维毫米波雷达点云数据特征。

易于理解的是，当车辆进行数据融合时，车辆可以控制4D四维毫米波雷达采集四维毫米波雷达点云数据，并在自车三维坐标系下确定四维毫米波雷达点云数据对应的四维毫米波雷达点云鸟瞰图特征。

S102，基于四维毫米波雷达点云数据，在自车三维坐标系下获取多视角摄像头视觉数据对应的视觉鸟瞰图特征；

根据一些实施例，环视摄像头也被称为全景式影像监控系统，包括车辆前后车标(或附近)、以及集成于左右后视镜上的一组摄像头。

在一些实施例中，多视角摄像头视觉数据指的是车辆控制环视摄像头采集到的车辆周围的视觉数据。

根据一些实施例，视觉BEV特征用于使用BEV作为视觉特征的表达。

在一些实施例中，视觉特征指的是能够用来表征多视角摄像头视觉数据所蕴含语义的属性数据。

根据一些实施例，在获取到四维毫米波雷达点云数据和多视角摄像头视觉数据时，需要对四维毫米波雷达点云数据和多视角摄像头视觉数据进行时间同步处理。以使四维毫米波雷达点云数据的时间与多视角摄像头视觉数据的时间同步。

在一些实施例中，对四维毫米波雷达点云数据和多视角摄像头视觉数据进行时间同步处理时，可以利用秒脉冲(Pulse per second，PPS)对四维毫米波雷达点云数据和多视角摄像头视觉数据进行时间同步。

易于理解的是，当车辆进行数据融合时，车辆可以基于四维毫米波雷达点云数据，在自车三维坐标系下获取多视角摄像头视觉数据对应的视觉鸟瞰图特征。

S103，在自车三维坐标系下的鸟瞰图空间中，对四维毫米波雷达点云鸟瞰图特征和视觉鸟瞰图特征进行特征级融合，得到视觉点云多模态数据流。

根据一些实施例，BEV空间可以看作三维空间，在自车三维坐标系下的BEV空间可以看作坐标系为自车三维坐标系的三维空间。BEV空间内视觉感知到的物体大小和朝向能直接得到表达，各模态信息损失可以尽可能降到最低，且同一特征空间也更适于做时序融合进行高精度的目标追踪与预测。

在一些实施例中，特征级融合指的是特征层联合识别。用于特征层数据融合的方法有神经网络、聚类算法、模板法等。

根据一些实施例，视觉点云多模态数据流指的是对四维毫米波雷达点云鸟瞰图特征和视觉鸟瞰图特征进行特征级融合后得到的多模态数据流。

易于理解的是，当车辆获取到四维毫米波雷达点云鸟瞰图特征和视觉鸟瞰图特征时，车辆可以在自车三维坐标系下的鸟瞰图空间中，对四维毫米波雷达点云鸟瞰图特征和视觉鸟瞰图特征进行特征级融合，得到视觉点云多模态数据流。

综上，本公开实施例提供的方法，通过获取四维毫米波雷达点云数据，并在自车三维坐标系下确定四维毫米波雷达点云数据对应的四维毫米波雷达点云鸟瞰图特征；基于四维毫米波雷达点云数据，在自车三维坐标系下获取多视角摄像头视觉数据对应的视觉鸟瞰图特征；在自车三维坐标系下的鸟瞰图空间中，对四维毫米波雷达点云鸟瞰图特征和视觉鸟瞰图特征进行特征级融合，得到视觉点云多模态数据流。因此，通过使用四维毫米波雷达点云数据来优化视觉鸟瞰图特征，可以提高视觉鸟瞰图特征获取的准确性，可以提高四维毫米波雷达点云数据和多视角摄像头视觉数据进行特征级融合后得到的BEV特征的准确性，相比纯视觉方案BEV深度方案而言可以取得更好的感知性能，可以提高车辆对周围环境感知的准确性。同时，选用四维毫米波雷达点云数据来代替激光点云，硬件配置成本更低，更满足量产应用需求。

请参见图5，图5示出本公开实施例提供的一种数据融合方法的流程示意图。该方法可依赖于计算机程序实现，可运行于进行数据融合方法的车辆上，该车辆可以为自动驾驶车辆，车辆上安装有四维毫米波雷达和环视摄像头。

具体的，该数据融合方法包括：

S201，获取四维毫米波雷达点云数据；

根据一些实施例，4D四维毫米波雷达探测得到的初始点云数据需要经过空间标定，转换为在自车三维坐标系下的四维毫米波雷达点云数据。从而，确定四维毫米波雷达点云数据对应的四维毫米波雷达点云鸟瞰图特征时，四维毫米波雷达点云鸟瞰图特征也在自车三维坐标系下。

在一些实施例中，在对4D四维毫米波雷达探测得到的初始点云数据进行空间标定时，可以采用三角反射器对标定结果进行校正，从而可以提高在自车三维坐标系下的四维毫米波雷达点云数据获取的准确性。

易于理解的是，当车辆进行数据融合时，车辆可以控制四维毫米波雷达采集得到在自车三维坐标系下的四维毫米波雷达点云数据。

S202，对四维毫米波雷达点云数据进行预处理，得到预处理后的四维毫米波雷达点云数据；

根据一些实施例，图6示出本公开实施例提供的一种数据融合方法的架构示意图。如图6所示，获取到的四维毫米波雷达点云数据(4D Radar Point Clouds)时，可以进行点云数据预处理(point cloud date preprocessing)。

在一些实施例中，对四维毫米波雷达点云数据进行预处理时，包括但不限于进行地杂波处理，基于多普勒效应的空时二维点云聚类等。

在一些实施例中，预处理后的四维毫米波雷达点云数据包括但不限于4D雷达点云深度信息和多普勒信息。

易于理解的是，当获取到在自车三维坐标系下的四维毫米波雷达点云数据时，可以对四维毫米波雷达点云数据进行预处理，得到预处理后的四维毫米波雷达点云数据。

S203，将预处理后的四维毫米波雷达点云数据输入至目标三维主干网络，得到四维毫米波雷达点云数据对应的自车三维坐标系下的四维毫米波雷达点云鸟瞰图特征；

根据一些实施例，目标三维主干网络指的是训练后的三维主干网络(3DBackbone)。3D Backbone可以从原始数据中固有地学习3D特征，而无需将点云压缩为多个2D图像并生成用于对象检测的丰富特征图。3D Backbone例如可以为稀疏嵌入卷积检测(Sparsely Embedded Convolutional Detection，SECOND)。

在一些实施例中，SECOND可以将稀疏的输入特征通过聚集(gather)操作获得密集的gather特征。然后使用通用矩阵乘(General Matrix Multiplication,GEMM)对密集的gather特征进行卷积操作，获得密集的输出特征。最后通过预先构建的输入-输出索引规则矩阵，将密集的输出特征映射到稀疏的输出特征。因此，通过训练后的SECOND，可以根据输入的预处理后的四维毫米波雷达点云数据，输出自车三维坐标系下的四维毫米波雷达点云鸟瞰图特征(4D Radar BEV Features)。

根据一些实施例，该目标三维主干网络可以由初始三维主干网络训练得到。对初始三维主干网络进行训练时，可以采用LET-IoU损失函数对初始三维主干网络进行训练，得到目标三维主干网络。

在一些实施例中，传统的IoU(Intersection over Union)损失函数指的是两个模型结果之间的重叠比率，重叠比率越接近1，说明两个结果之间的重叠度越高，即说明模型的性能越好。

在一些实施例中，纵向容错(LET)IoU损失函数通过计算三维联合交集LET-3D-AP，可以将真实边界框中心投影到预测边界框中心的视线上，相比于传统的IoU损失函数，能够获得更好的算法性能和模型收敛速度。在模型训练过程中，采用LET-IoU损失函数能够在车辆密集的行驶工况获得更好的算法性能。

易于理解的是，当获取到预处理后的四维毫米波雷达点云数据时，可以将预处理后的四维毫米波雷达点云数据输入至目标三维主干网络，得到四维毫米波雷达点云数据对应的自车三维坐标系下的四维毫米波雷达点云鸟瞰图特征。

S204，将多视角摄像头视觉数据输入至目标图像主干网络，得到多视角摄像头视觉数据对应的第一特征图；

根据一些实施例，环视摄像头采集到的车辆周围的视觉数据需要经过空间标定，转换为在自车三维坐标系下的多视角摄像头视觉数据。从而，根据在自车三维坐标系下的多视角摄像头视觉数据确定视觉鸟瞰图特征时，获取的视觉鸟瞰图特征也在自车三维坐标系下。

根据一些实施例，如图6所示，将多视角摄像头视觉数据(多视角图像)输入至目标图像主干网络，可以得到多视角摄像头视觉数据对应的第一特征图(Image Features)。

在一些实施例中，目标图像主干网络指的是训练后的图像主干网络(Backbone)。Backbone例如可以为ResNet50。

在一些实施例中，Resnet50网络中包含了49个卷积层、一个全连接层。Resnet50网络结构可以分成七个部分，第一部分不包含残差块，主要对输入进行卷积、正则化、激活函数、最大池化的计算，第二、三、四、五部分结构都包含了残差块。在ResNet50网络结构中，残差块都有三层卷积，网络总共有1+3×(3+4+6+3)＝49个卷积层，加上最后的全连接层总共是50层。Resnet50网络的输入为224×224×3，经过前五部分的卷积计算，输出为7×7×2048，池化层会将其转化成一个特征向量，最后分类器会对这个特征向量进行计算并输出类别概率。

根据一些实施例，该目标图像主干网络可以由初始图像主干网络训练得到。对初始图像主干网络进行训练时，也可以采用LET-IoU损失函数对初始图像主干网络进行训练，得到目标图像主干网络。

易于理解的是，当获取到环视摄像头采集的在自车三维坐标系下的多视角摄像头视觉数据时，可以将该多视角摄像头视觉数据输入至目标图像主干网络，得到多视角摄像头视觉数据对应的第一特征图。

S205，基于预处理后的四维毫米波雷达点云数据，对第一特征图进行逆透视图映射，得到第二特征图；

根据一些实施例，逆透视图映射(Inverse Perspective Mapping，IPM)可以将相机视角转换成鸟瞰图视角。例如，可以通过求相机平面与地面的单应性变换(homography)矩阵，以实现逆透视图映射。

在一些实施例中，第二特征图指的是对第一特征图进行逆透视图映射后得到的特征图。第一特征图对应的特征空间为二维空间，第二特征图对应的特征空间为三维空间。

根据一些实施例，如图6所示，车辆基于预处理后的四维毫米波雷达点云数据，对第一特征图进行逆透视图映射，得到第二特征图时，首先，可以获取摄像头参数(CameraParameters)，将摄像头参数(Camera Parameters)和第一特征图(Image Features)输入至目标视觉深度网络(Depth Net)进行深度估计，得到第一深度分布(Depth Distribution)。接着，可以基于预处理后的四维毫米波雷达点云数据，对第一深度分布(DepthDistribution)进行深度监督(Depth Supervision)，得到第二深度分布，即深度细化(Depth Refine)后的深度分布。最后，车辆可以获取第一特征图对应的上下文信息(Context Features)，并根据上下文信息(Context Features)和第二深度分布确定第二特征图。因此，通过引入预处理后的四维毫米波雷达点云数据对目标视觉深度网络进行监督学习训练，可以有效减少视觉对深度估计误差大的情况，可以得到更准确的深度分布，经深度修正后可以得到更为精确的视觉BEV特征。

在一些实施例中，摄像头参数(Camera Parameters)包括相机内参和相机外参。在使用摄像头参数进行深度估计时，具体可以使用相机外参输入至目标视觉深度网络中进行深度估计。

在一些实施例中，基于预处理后的四维毫米波雷达点云数据，对第一深度分布进行深度监督时，使用预处理后的四维毫米波雷达点云数据中的4D雷达点云深度信息对第一深度分布进行深度监督。

在一些实施例中，视觉深度网络指的是用于估计图像中场景的深度，即场景中各点像素到相机成像平面的垂直距离的深度神经网络。视觉深度网络可以通过homography等变换进行深度估计。目标视觉深度网络可以由初始视觉深度网络训练得到，对初始视觉深度网络训练时，同样可以采用LET-IoU损失函数对初始视觉深度网络进行训练，得到目标视觉深度网络。

根据一些实施例，可以通过导出第一特征图对应的上下文信息(ContextFeatures)，并在预定义的点云中根据第二深度分布进行渲染，得到第二特征图。

易于理解的是，当获取到第一特征图时，可以基于预处理后的四维毫米波雷达点云数据，对第一特征图进行逆透视图映射，得到第二特征图。

S206，利用鸟瞰图编码器，在自车三维坐标系下的鸟瞰图空间中，对第二特征图进行表征，得到多视角摄像头视觉数据对应的自车三维坐标系下的视觉鸟瞰图特征；

根据一些实施例，鸟瞰图编码器(BEV Encoder)可以将输入的特征编码为BEV空间特征。因此，利用鸟瞰图编码器可以将第二特征图中的特征编码为自车三维坐标系下的视觉BEV特征(Camera BEV Features)，如图6所示。

易于理解的是，当车辆获取到第二特征图时，车辆可以利用鸟瞰图编码器，在自车三维坐标系下的鸟瞰图空间中，对第二特征图进行表征，得到多视角摄像头视觉数据对应的自车三维坐标系下的视觉鸟瞰图特征。

S207，在自车三维坐标系下的鸟瞰图空间中，对四维毫米波雷达点云鸟瞰图特征进行多普勒分辨，得到任一对象对应的四维毫米波雷达点云鸟瞰图子特征；

根据一些实施例，多普勒分辨指的是在多普勒频率域，从毗邻目标的回波中，区分出各个目标的能力。

例如，对四维毫米波雷达点云鸟瞰图特征进行多普勒分辨时，可以根据车辆A对应的多普勒信息A1，以及车辆B对应的多普勒信息B1分辨出车辆A对应的四维毫米波雷达点云鸟瞰图子特征和车辆B对应的四维毫米波雷达点云鸟瞰图子特征。

易于理解的是，当获取到四维毫米波雷达点云鸟瞰图特征时，可以在自车三维坐标系下的鸟瞰图空间中，对四维毫米波雷达点云鸟瞰图特征进行多普勒分辨，得到任一对象对应的四维毫米波雷达点云鸟瞰图子特征，从而可以获取到四维毫米波雷达目标清单，即4D四维毫米波雷达探测得到的对象，例如车辆的清单。

S208，对视觉鸟瞰图特征进行空间切割，得到任一对象对应的视觉鸟瞰图子特征；

根据一些实施例，空间切割指的是将不同对象的特征进行分割时采用的一种方法。

例如，对视觉鸟瞰图特征进行空间切割，可以得到车辆A对应的视觉鸟瞰图子特征和车辆B对应的视觉鸟瞰图子特征。

S209，对四维毫米波雷达点云鸟瞰图子特征和视觉鸟瞰图子特征进行关联，得到视觉点云多模态数据流。

根据一些实施例，对四维毫米波雷达点云鸟瞰图子特征和视觉鸟瞰图子特征进行关联时，可以将每个对象对应的四维毫米波雷达点云鸟瞰图子特征和视觉鸟瞰图子特征关联至该对象。例如，可以将车辆A对应的视觉鸟瞰图子特征和四维毫米波雷达点云鸟瞰图子特征关联至车辆A，将车辆B对应的视觉鸟瞰图子特征和四维毫米波雷达点云鸟瞰图子特征关联至车辆B。

在一些实施例中，视觉点云多模态数据流中可以包括多个对象，例如多个车辆的视觉点云多模态数据，以供后续任务使用。

根据一些实施例，如图6所示，在得到视觉点云多模态数据流之后，在视觉点云多模态数据流满足感知条件的情况下，可以利用检测头(Detection Head)对视觉点云多模态数据流进行感知处理，得到视觉点云多模态数据流对应的四维鸟瞰图融合检测结果(4D-BevFusion Detection Results)；在视觉点云多模态数据流不满足感知条件的情况下，可以利用检测头对四维毫米波雷达点云鸟瞰图特征或视觉鸟瞰图特征进行感知处理，得到四维毫米波雷达点云鸟瞰图特征对应的四维毫米波雷达检测结果(4D Radar DetectionResults)或者视觉鸟瞰图特征对应的纯视觉检测结果(Camera Detection Results)。因此，在四维毫米波雷达点云鸟瞰图特征或视觉鸟瞰图特征失效的情况下，也可以得到有效的输出结果。

在一些实施例中，感知条件指的是终端判断是否可以利用检测头对视觉点云多模态数据流进行感知处理时采用的条件。该感知条件例如可以为判断四维毫米波雷达点云鸟瞰图特征和视觉鸟瞰图特征是否均有效，如果均有效，则判断视觉点云多模态数据流满足感知条件。

根据一些实施例，检测头指的是服务与检测任务而采用的检测算法。当需要进行多种感知子任务处理时，该检测头可以为多任务检测头。多任务检测头可以执行的算法包括但不限于目标检测算法、语义分割算法、动态目标跟踪算法等。因此，可以提高输出结果获取的灵活性。

在一些实施例中，车辆可以利用多任务检测头，使用目标检测算法对视觉点云多模态数据流进行感知处理，得到视觉点云多模态数据流对应的四维鸟瞰图融合检测结果，其中，四维鸟瞰图融合检测结果包括三维框；

在一些实施例中，目标检测算法可以为3D目标检测算法，例如DETER3D。

在一些实施例中，车辆可以利用多任务检测头，使用语义分割算法对视觉点云多模态数据流进行感知处理，得到视觉点云多模态数据流对应的四维鸟瞰图融合检测结果，其中，四维鸟瞰图融合检测结果包括语义分割结果；

在一些实施例中，车辆可以利用多任务检测头，使用动态目标跟踪算法对视觉点云多模态数据流进行感知处理，得到视觉点云多模态数据流对应的四维鸟瞰图融合检测结果，其中，四维鸟瞰图融合检测结果包括目标追踪结果。

综上，本公开实施例提供的方法，首先，通过获取四维毫米波雷达点云数据；对四维毫米波雷达点云数据进行预处理，得到预处理后的四维毫米波雷达点云数据；将预处理后的四维毫米波雷达点云数据输入至目标三维主干网络，得到四维毫米波雷达点云数据对应的自车三维坐标系下的四维毫米波雷达点云鸟瞰图特征；因此，可以提高四维毫米波雷达点云鸟瞰图特征获取的准确性。接着，通过将多视角摄像头视觉数据输入至目标图像主干网络，得到多视角摄像头视觉数据对应的第一特征图，基于预处理后的四维毫米波雷达点云数据，对第一特征图进行逆透视图映射，得到第二特征图，利用鸟瞰图编码器，在自车三维坐标系下的鸟瞰图空间中，对第二特征图进行表征，得到多视角摄像头视觉数据对应的自车三维坐标系下的视觉鸟瞰图特征；因此，可以使用预处理后的四维毫米波雷达点云数据来优化视觉鸟瞰图特征，可以提高视觉鸟瞰图特征获取的准确性。最后，通过在自车三维坐标系下的鸟瞰图空间中，对四维毫米波雷达点云鸟瞰图特征进行多普勒分辨，得到任一对象对应的四维毫米波雷达点云鸟瞰图子特征，对视觉鸟瞰图特征进行空间切割，得到任一对象对应的视觉鸟瞰图子特征，对四维毫米波雷达点云鸟瞰图子特征和视觉鸟瞰图子特征进行关联，得到视觉点云多模态数据流。因此，可以提高四维毫米波雷达点云数据和多视角摄像头视觉数据进行特征级融合后得到的BEV特征的准确性，相比纯视觉方案BEV深度方案而言可以取得更好的感知性能，可以提高车辆对周围环境感知的准确性。同时，选用四维毫米波雷达点云数据来代替激光点云，硬件配置成本更低，更满足量产应用需求。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种数据融合装置。

请参见图7，其示出本公开实施例提供的一种数据融合装置的结构示意图。该数据融合装置可以通过软件、硬件或者两者的结合实现成为装置的全部或一部分。该数据融合装置设置于车辆，车辆上安装有四维毫米波雷达和环视摄像头，该数据融合装置700包括雷达特征获取单元701、视觉特征获取单元702和特征融合单元703，其中：

雷达特征获取单元701，用于获取四维毫米波雷达点云数据，并在自车三维坐标系下确定四维毫米波雷达点云数据对应的四维毫米波雷达点云鸟瞰图特征，其中，四维毫米波雷达点云数据为控制四维毫米波雷达采集得到的数据；

视觉特征获取单元702，用于基于四维毫米波雷达点云数据，在自车三维坐标系下获取多视角摄像头视觉数据对应的视觉鸟瞰图特征，其中，多视角摄像头视觉数据为控制环视摄像头采集得到的数据，四维毫米波雷达点云数据的时间与多视角摄像头视觉数据的时间同步；

特征融合单元703，用于在自车三维坐标系下的鸟瞰图空间中，对四维毫米波雷达点云鸟瞰图特征和视觉鸟瞰图特征进行特征级融合，得到视觉点云多模态数据流。

可选的，雷达特征获取单元701用于确定四维毫米波雷达点云数据对应的自车三维坐标系下的四维毫米波雷达点云鸟瞰图特征时，具体用于：

对四维毫米波雷达点云数据进行预处理，得到预处理后的四维毫米波雷达点云数据；

将预处理后的四维毫米波雷达点云数据输入至目标三维主干网络，得到四维毫米波雷达点云数据对应的自车三维坐标系下的四维毫米波雷达点云鸟瞰图特征。

可选的，视觉特征获取单元702用于基于四维毫米波雷达点云数据，获取多视角摄像头视觉数据对应的自车三维坐标系下的视觉鸟瞰图特征时，具体用于：

将多视角摄像头视觉数据输入至目标图像主干网络，得到多视角摄像头视觉数据对应的第一特征图；

基于预处理后的四维毫米波雷达点云数据，对第一特征图进行逆透视图映射，得到第二特征图，其中，第一特征图对应的特征空间为二维空间，第二特征图对应的特征空间为三维空间；

利用鸟瞰图编码器，在自车三维坐标系下的鸟瞰图空间中，对第二特征图进行表征，得到多视角摄像头视觉数据对应的自车三维坐标系下的视觉鸟瞰图特征。

可选的，视觉特征获取单元702用于基于预处理后的四维毫米波雷达点云数据，对第一特征图进行逆透视图映射，得到第二特征图时，具体用于：

获取摄像头参数，将摄像头参数和第一特征图输入至目标视觉深度网络进行深度估计，得到第一深度分布；

基于预处理后的四维毫米波雷达点云数据，对第一深度分布进行深度监督，得到第二深度分布；

获取第一特征图对应的上下文信息，并根据上下文信息和第二深度分布确定第二特征图。

可选的，数据融合装置700还包括模型训练单元704，用于：

采用LET-IoU损失函数，分别对初始三维主干网络、初始图像主干网络以及初始视觉深度网络进行训练，得到目标三维主干网络、目标图像主干网络以及目标视觉深度网络。

可选的，特征融合单元703用于对四维毫米波雷达点云鸟瞰图特征和视觉鸟瞰图特征进行特征级融合时，具体用于：

对四维毫米波雷达点云鸟瞰图特征进行多普勒分辨，得到任一对象对应的四维毫米波雷达点云鸟瞰图子特征；

对视觉鸟瞰图特征进行空间切割，得到任一对象对应的视觉鸟瞰图子特征；

对四维毫米波雷达点云鸟瞰图子特征和视觉鸟瞰图子特征进行关联，得到视觉点云多模态数据流。

可选的，数据融合装置700还包括结果检测单元705，用于在得到视觉点云多模态数据流之后，具体用于：

在视觉点云多模态数据流满足感知条件的情况下，利用检测头对视觉点云多模态数据流进行感知处理，得到视觉点云多模态数据流对应的四维鸟瞰图融合检测结果；

在视觉点云多模态数据流不满足感知条件的情况下，利用检测头对四维毫米波雷达点云鸟瞰图特征或视觉鸟瞰图特征进行感知处理，得到四维毫米波雷达点云鸟瞰图特征对应的四维毫米波雷达检测结果或者视觉鸟瞰图特征对应的纯视觉检测结果。

可选的，检测头为多任务检测头，结果检测单元705用于利用检测头对视觉点云多模态数据流进行感知处理，得到视觉点云多模态数据流对应的四维鸟瞰图融合检测结果时，具体用于以下至少一种：

利用多任务检测头，使用目标检测算法对视觉点云多模态数据流进行感知处理，得到视觉点云多模态数据流对应的四维鸟瞰图融合检测结果，其中，四维鸟瞰图融合检测结果包括三维框；

利用多任务检测头，使用语义分割算法对视觉点云多模态数据流进行感知处理，得到视觉点云多模态数据流对应的四维鸟瞰图融合检测结果，其中，四维鸟瞰图融合检测结果包括语义分割结果；

利用多任务检测头，使用动态目标跟踪算法对视觉点云多模态数据流进行感知处理，得到视觉点云多模态数据流对应的四维鸟瞰图融合检测结果，其中，四维鸟瞰图融合检测结果包括目标追踪结果。

需要说明的是：如图7所示，该数据融合装置700中一定包括的单元用实线框示意，如雷达特征获取单元701、视觉特征获取单元702和特征融合单元703；该数据融合装置700中可以包括也可以不包括的模块用虚线框示意，如模型训练单元704和结果检测单元705。

需要说明的是，上述实施例提供的数据融合装置在执行数据融合方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的数据融合装置与数据融合方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

综上，本公开实施例提供的装置，通过雷达特征获取单元获取四维毫米波雷达点云数据，并在自车三维坐标系下确定四维毫米波雷达点云数据对应的四维毫米波雷达点云鸟瞰图特征，其中，四维毫米波雷达点云数据为控制四维毫米波雷达采集得到的数据；视觉特征获取单元基于四维毫米波雷达点云数据，在自车三维坐标系下获取多视角摄像头视觉数据对应的视觉鸟瞰图特征，其中，多视角摄像头视觉数据为控制环视摄像头采集得到的数据，四维毫米波雷达点云数据的时间与多视角摄像头视觉数据的时间同步；特征融合单元在自车三维坐标系下的鸟瞰图空间中，对四维毫米波雷达点云鸟瞰图特征和视觉鸟瞰图特征进行特征级融合，得到视觉点云多模态数据流。因此，通过使用四维毫米波雷达点云数据来优化视觉鸟瞰图特征，可以提高视觉鸟瞰图特征获取的准确性，可以提高四维毫米波雷达点云数据和多视角摄像头视觉数据进行特征级融合后得到的BEV特征的准确性，相比纯视觉方案BEV深度方案而言可以取得更好的感知性能，可以提高车辆对周围环境感知的准确性。同时，选用四维毫米波雷达点云数据来代替激光点云，硬件配置成本更低，更满足量产应用需求。

根据本公开的实施例，本公开还提供了一种车辆、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例车辆800的示意性框图。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，车辆800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储车辆800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

车辆800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许车辆800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如数据融合方法。例如，在一些实施例中，数据融合方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到车辆800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的数据融合方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数据融合方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种数据融合方法，其特征在于，应用于车辆，所述车辆上安装有四维毫米波雷达和环视摄像头，所述方法包括：

在所述自车三维坐标系下的鸟瞰图空间中，对所述四维毫米波雷达点云鸟瞰图特征和所述视觉鸟瞰图特征进行特征级融合，得到视觉点云多模态数据流；

所述对所述四维毫米波雷达点云鸟瞰图特征和所述视觉鸟瞰图特征进行特征级融合，得到视觉点云多模态数据流，包括：

分别获取四维毫米波雷达点云鸟瞰图子特征和视觉鸟瞰图子特征；

将相同对象对应的四维毫米波雷达点云鸟瞰图子特征和视觉鸟瞰图子特征进行关联，得到所述视觉点云多模态数据流。

2.根据权利要求1所述的方法，其特征在于，所述确定所述四维毫米波雷达点云数据对应的自车三维坐标系下的四维毫米波雷达点云鸟瞰图特征，包括：

将所述预处理后的四维毫米波雷达点云数据输入至目标三维主干网络，得到所述四维毫米波雷达点云数据对应的自车三维坐标系下的四维毫米波雷达点云鸟瞰图特征。

3.根据权利要求2所述的方法，其特征在于，所述基于所述四维毫米波雷达点云数据，获取多视角摄像头视觉数据对应的所述自车三维坐标系下的视觉鸟瞰图特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述预处理后的四维毫米波雷达点云数据，对所述第一特征图进行逆透视图映射，得到第二特征图，包括：

5.根据权利要求4所述的方法，其特征在于，还包括：

6.根据权利要求1所述的方法，其特征在于，所述对四维毫米波雷达点云鸟瞰图特征和视觉鸟瞰图特征进行特征级融合，包括：

7.根据权利要求1所述的方法，其特征在于，在所述得到视觉点云多模态数据流之后，还包括：

8.根据权利要求7所述的方法，其特征在于，所述检测头为多任务检测头，所述利用检测头对视觉点云多模态数据流进行感知处理，得到所述视觉点云多模态数据流对应的四维鸟瞰图融合检测结果，包括以下至少一种：

9.一种数据融合装置，其特征在于，所述装置设置于车辆，所述车辆上安装有四维毫米波雷达和环视摄像头，所述装置包括：

特征融合单元，用于在所述自车三维坐标系下的鸟瞰图空间中，对所述四维毫米波雷达点云鸟瞰图特征和所述视觉鸟瞰图特征进行特征级融合，得到视觉点云多模态数据流；

所述特征融合单元用于对所述四维毫米波雷达点云鸟瞰图特征和所述视觉鸟瞰图特征进行特征级融合时，具体用于：

10.根据权利要求9所述的装置，其特征在于，所述雷达特征获取单元用于确定所述四维毫米波雷达点云数据对应的自车三维坐标系下的四维毫米波雷达点云鸟瞰图特征时，具体用于：

11.根据权利要求10所述的装置，其特征在于，所述视觉特征获取单元用于基于所述四维毫米波雷达点云数据，获取多视角摄像头视觉数据对应的所述自车三维坐标系下的视觉鸟瞰图特征时，具体用于：

12.根据权利要求11所述的装置，其特征在于，所述视觉特征获取单元用于基于所述预处理后的四维毫米波雷达点云数据，对所述第一特征图进行逆透视图映射，得到第二特征图时，具体用于：

13.根据权利要求12所述的装置，其特征在于，所述装置还包括模型训练单元，用于：

14.根据权利要求9所述的装置，其特征在于，所述特征融合单元用于对四维毫米波雷达点云鸟瞰图特征和视觉鸟瞰图特征进行特征级融合时，具体用于：

15.根据权利要求9所述的装置，其特征在于，所述装置还包括结果检测单元，用于在所述得到视觉点云多模态数据流之后，具体用于：

16.根据权利要求15所述的装置，其特征在于，所述检测头为多任务检测头，所述结果检测单元用于利用检测头对视觉点云多模态数据流进行感知处理，得到所述视觉点云多模态数据流对应的四维鸟瞰图融合检测结果时，具体用于以下至少一种：

17.一种车辆，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。