CN116664997A

CN116664997A - 一种感知融合系统、电子设备和存储介质

Info

Publication number: CN116664997A
Application number: CN202310553045.0A
Authority: CN
Inventors: 李玉鑫; 黄梓航; 刘妮妮; 李宜恒; 陈炫翰; 伍小军
Original assignee: Huizhou Desay SV Automotive Co Ltd
Current assignee: Huizhou Desay SV Automotive Co Ltd
Priority date: 2023-05-16
Filing date: 2023-05-16
Publication date: 2023-08-29

Abstract

本发明公开了一种感知融合系统、电子设备和存储介质。其中，该系统包括：数据获取模块，用于获取目标车辆的环境感知数据，环境感知数据至少包括：环视图像数据、激光雷达点云数据、毫米波雷达点云数据；数据编码模块，用于根据不同预设编码器分别处理环视图像数据、激光雷达点云数据以及毫米波雷达点云数据以得到对应的鸟瞰图特征；特征融合模块，用于按照预设鸟瞰图编码器处理各鸟瞰图特征以得到鸟瞰图融合特征，并根据鸟瞰图融合特征和任务头生成任务结果。本发明实施例提出的感知融合系统，通过将不同类型的环境感知数据转化至鸟瞰图空间，再利用鸟瞰图融合特征执行感知任务，实现了不同感知数据的有效融合，提高了感知任务结果的准确性。

Description

一种感知融合系统、电子设备和存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种感知融合系统、电子设备和存储介质。

背景技术

在无人驾驶领域，需要依赖车载的相机、激光雷达以及毫米波雷达等感知器件的共同配合实现无人车辆的行为控制。但在现有技术下，相机算法、激光雷达算法、毫米波雷达算法分别由不同感知模块单独处理，再将对应的输出结果在结果层面进行简单的逻辑融合，导致融合算法十分繁杂，同时输出的感知融合结果不够准确，降低了后续感知任务的准确性。

发明内容

本发明提供了一种感知融合系统、电子设备和存储介质，通过将不同类型的环境感知数据转化至鸟瞰图空间，再利用鸟瞰图融合特征和任务头执行感知任务，实现了不同传感器感知数据的有效融合，提高了感知任务结果的准确性。

根据本发明的一方面，提供了一种感知融合系统，该系统包括：

数据获取模块，用于获取目标车辆的环境感知数据，环境感知数据至少包括：环视图像数据、激光雷达点云数据、毫米波雷达点云数据；

数据编码模块，用于根据不同预设编码器分别处理环视图像数据、激光雷达点云数据以及毫米波雷达点云数据以得到对应的鸟瞰图特征；

特征融合模块，用于按照预设鸟瞰图编码器处理各鸟瞰图特征以得到鸟瞰图融合特征，并根据鸟瞰图融合特征和任务头生成任务结果。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的感知融合系统。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的感知融合系统。

本发明实施例提出的感知融合系统，通过数据获取模块，用于获取目标车辆的环境感知数据，所述环境感知数据至少包括：环视图像数据、激光雷达点云数据、毫米波雷达点云数据；数据编码模块，用于根据不同预设编码器分别处理所述环视图像数据、所述激光雷达点云数据以及所述毫米波雷达点云数据以得到对应的鸟瞰图特征；特征融合模块，用于按照预设鸟瞰图编码器处理各所述鸟瞰图特征以得到鸟瞰图融合特征，并根据所述鸟瞰图融合特征和任务头生成任务结果。本发明实施例提出的感知融合系统，通过将不同类型的环境感知数据转化至鸟瞰图空间，再利用鸟瞰图融合特征和任务头执行感知任务，实现了不同传感器感知数据的有效融合，提高了感知任务结果的准确性。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例一提供的一种感知融合系统的示意图；

图2是根据本发明实施例二提供的一种感知融合系统的示意图；

图3是根据本发明实施例三提供的一种感知融合系统的示意图；

图4是根据本发明实施例三提供的一种感知融合系统的框架示意图；

图5是根据本发明实施例三提供的一种稀疏图像特征提取的示意图；

图6是根据本发明实施例三提供的一种基于视线投影的几何变换的示意图；

图7是根据本发明实施例三提供的一种感知任务处理的示意图；

图8是实现本发明实施例的感知融合系统的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1为本发明实施例一提供了一种感知融合系统的示意图，本实施例可适用于对环境感知数据进行融合的情况。如图1所示，本实施例一提供的一种感知融合系统，包括数据获取模块10、数据编码模块20和特征融合模块30。所述感知融合系统具体包括：

数据获取模块10，用于获取目标车辆的环境感知数据，环境感知数据至少包括：环视图像数据、激光雷达点云数据、毫米波雷达点云数据。

其中，环境感知数据可以是指目标车辆利用配置的环视相机、激光雷达(LIDAR)以及毫米波雷达(RADAR)等传感器采集的感知数据，环境感知数据可以至少包括：环视图像数据、激光雷达点云数据、毫米波雷达点云数据。环视图像数据可以是指利用目标车辆上安装的环视相机采集的图像数据，环视图像数据可以包括环视相机采集的交通灯数据和交通标识牌数据等。激光雷达点云数据可以是指利用目标车辆上安装的激光雷达(LIDAR)采集的点云数据。毫米波雷达点云数据可以是指利用目标车辆上安装的毫米波雷达(RADAR)采集的点云数据。

在本发明实施例中，数据获取模块10可以获取基于目标车辆的环境感知数据，例如可以包括但不限于：目标车辆上安装的一个或者多个环视相机采集车辆周围的环视图像数据、目标车辆上安装的激光雷达采集车辆周围的激光雷达点云数据、目标车辆上安装的毫米波雷达采集车辆周围的毫米波雷达点云数据等。需要理解的是，上述环境感知数据仅作为示例，实际应用中还可以包括：全球定位系统(Global Positioning System，GPS)数据、惯性传感器(Inertial Measurement Unit，IMU)数据以及车辆通信数据等，本发明实施例对此不进行限制。

数据编码模块20，用于根据不同预设编码器分别处理环视图像数据、激光雷达点云数据以及毫米波雷达点云数据以得到对应的鸟瞰图特征。

其中，预设编码器可以理解为用于根据环视图像数据、激光雷达点云数据以及毫米波雷达点云数据生成对应的鸟瞰图特征的编码器，预设编码器可以采用常见的卷积神经网络组成，例如可以包括ResNet50神经网络和3D卷积神经网络等。鸟瞰图特征可以是指根据环境感知数据提取并转换到3D鸟瞰图空间的特征，其中，鸟瞰图(Bird's Eye View，BEV)是一种用于描述感知到的现实世界的视角或坐标系(3D空间)，将环境感知数据转换至3D鸟瞰图空间，可以有效保留环视图像数据的语义密度以及激光雷达点云数据和毫米波雷达点云数据的几何结构，能够为环境感知数据的有效融合提供统一表示形式。

在本发明实施例中，数据编码模块20可以调用预先配置的预设编码器分别对获取的环视图像数据、激光雷达点云数据以及毫米波雷达点云数据进行特征提取，例如可以采用ResNet50神经网络、3D卷积神经网络或者其他种类的神经网络模型等对上述环境感知数据进行鸟瞰图特征提取，提取的特征为转换至鸟瞰图3D鸟瞰图空间的鸟瞰图特征，选择鸟瞰图作为后续特征融合的统一表示，可以有效保留环视图像数据的语义密度以及激光雷达点云数据和毫米波雷达点云数据的几何结构，为后面感知任务的执行提供重要基础。

特征融合模块30，用于按照预设鸟瞰图编码器处理各鸟瞰图特征以得到鸟瞰图融合特征，并根据鸟瞰图融合特征和任务头生成任务结果。

其中，预设鸟瞰图编码器可以是指预先配置的用于对环视图像数据、激光雷达点云数据以及毫米波雷达点云数据对应的鸟瞰图特征进行特征融合的编码器，预设鸟瞰图编码器可以由卷积神经网络或者其他种类的神经网络模型组成，本发明实施例对此不进行限制。鸟瞰图融合特征可以是指将第环视图像数据、激光雷达点云数据以及毫米波雷达点云数据对应的鸟瞰图特征进行特征融合后得到的融合特征。任务头可以理解为用于执行某种特定感知任务的功能单元，任务头可以包括3D检测头、地图分割头以及轨迹预测头等，任务头可以由卷积神经网络或者其他种类的神经网络模型组成。任务结果可以是指由任务头输出的感知任务结果，示例性的，任务结果可以包括：由3D检测头输出的3D目标检测结果、由地图分割头输出的地图分割结果以及由轨迹预测头输出的目标轨迹预测结果等。

在本发明实施例中，特征融合模块30可以调用预先配置的预设鸟瞰图编码器对提取的环视图像数据、激光雷达点云数据以及毫米波雷达点云数据对应的鸟瞰图进行特征融合处理，再根据实际需要将获得的鸟瞰图融合特征输入至相应的任务头中，并由对应的任务头输出相应的任务结果，其中，预设鸟瞰图编码器和各任务头可以由卷积神经网络或者其他种类的神经网络模型组成，任务头可以包括但不限于3D检测头、地图分割头以及轨迹预测头等，相应的，任务结果可以包括但不限于3D目标检测结果、地图分割结果以及目标轨迹预测结果等。需要理解的是，任务头可以根据实际需要进行相应的增添配置，例如任务头还可以包括车道检测头、交通标识牌检测头和实时定位头等，本发明实施例对此不进行限制。

本发明实施例提出的感知融合系统，通过数据获取模块，用于获取目标车辆的环境感知数据，所述环境感知数据至少包括：环视图像数据、激光雷达点云数据、毫米波雷达点云数据；数据编码模块，用于根据不同预设编码器分别处理所述环视图像数据、所述激光雷达点云数据以及所述毫米波雷达点云数据以得到对应的鸟瞰图特征；特征融合模块，用于按照预设鸟瞰图编码器处理各所述鸟瞰图特征以得到鸟瞰图融合特征，并根据所述鸟瞰图融合特征和任务头生成任务结果。本发明实施例提出的感知融合系统，通过将不同类型的环境感知数据转化至鸟瞰图空间，再利用鸟瞰图融合特征和任务头执行感知任务，实现了不同传感器感知数据的有效融合，提高了感知任务结果的准确性，同时简化了感知融合算法的流程。

实施例二

图2为本发明实施例二提供的一种感知融合系统的示意图，基于上述实施方式进一步进行优化与扩展，并可以与上述实施方式中各个可选技术方案结合。如图2所示，本实施例二提供的一种感知融合系统，是对数据编码模块20和特征融合模块30进行了进一步的细化，其中，数据编码模块20包括第一鸟瞰图特征提取单元21、第二鸟瞰图特征提取单元22和第三鸟瞰图特征提取单元23，特征融合模块30包括鸟瞰图特征融合单元31和任务结果获取单元32。所述感知融合系统具体包括：

数据编码模块20中的第一鸟瞰图特征提取单元21，用于调用第一预设编码器的ResNet50神经网络提取至少一张环视图像数据的图像特征，并将各图像特征横向拼接得到图像特征矩阵，将图像特征矩阵序列化处理为图像特征序列，输入特征序列至第一预设编码器的压缩编码器进行压缩处理以得到图像稀疏特征，转换图像稀疏特征至3D鸟瞰图空间作为第一鸟瞰图特征。

在本发明实施例中，第一预设编码器可以理解为用于根据环视图像数据生成第一鸟瞰图特征的编码器，第一预设编码器可以包括ResNet50神经网络和压缩编码器等，其中，ResNet50神经网络是指一种引入了残差学习思想的卷积神经网络，压缩编码器可以采用多层自注意力机制的神经网络模型，其层数可以根据实际需要进行相应配置。第一鸟瞰图特征可以是指根据环视图像数据提取并转换到3D鸟瞰图空间的鸟瞰图特征。

具体的，可以控制目标车辆上安装的一个或者多个环视相机采集车辆周围的环视图像数据，环视图像数据可以包括但不限于交通灯数据和交通标识牌数据等，调用第一预设编码器的ResNet50神经网络对上述环视图像数据进行特征提取，将提取的各图像特征进行横向拼接得到图像特征矩阵，再调用卷积神经网络等序列化算法将该图像特征矩阵处理为图像特征序列，然后将处理后的图像特征序列输入至第一预设编码器的压缩编码器进行压缩处理，得到环视图像数据对应的图像稀疏特征，其中，压缩编码器可以采用多层自注意力机制的神经网络模型，其层数可以根据实际需要进行相应配置，最后利用视角转换器将图像稀疏特征从2D空间转换至3D鸟瞰图空间，进而得到环视图像数据对应的第一鸟瞰图特征。

进一步地，在上述发明实施例的基础上，第一鸟瞰图特征提取单元21中，将处理后得到的特征序列输入压缩编码器进行压缩处理得到图像稀疏特征，可以包括如下步骤：

调用预设量化打分器确定特征序列内各图像特征的依赖分数；

剔除特征序列内依赖分数低于预设过滤阈值的图像特征作为图像稀疏特征。

在本发明实施例中，预设量化打分器可以是指预先配置用于确定图像特征的依赖分数的打分器，利用预设量化打分器可以提取各图像特征中的稀疏图像特征。依赖分数可以理解为各图像特征对应的注意力评分或者权重。预设过滤阈值可以是指根据各图像特征对应的依赖分数而预先配置的过滤阈值，可以根据各图像特征对应的依赖分数综合配置一个预设过滤阈值，也可以根据各图像特征对应的依赖分数配置相同数量预设过滤阈值，即一个图像特征对应一个预设过滤阈值，本发明实施例对此不进行限制。图像稀疏特征可以是指对图像特征进行压缩处理后得到的图像特征。

具体的，在获取环视图像数据对应的图像特征序列后，可以调用预先配置的预设量化打分器去确定该特征序列内各图像特征的依赖分数，依赖分数可以是指各图像特征对应的注意力评分或者权重，再根据预先配置的预设过滤阈值和各图像特征对应的依赖分数对特征序列内的各图像特征进行筛选，剔除特征序列内依赖分数低于预设过滤阈值的图像特征，并将筛选后的图像特征作为图像稀疏特征，其中，预设过滤阈值的数量可以为一个或者多个，即可以根据各图像特征对应的依赖分数综合配置一个预设过滤阈值，也可以根据各图像特征对应的依赖分数分别配置对应的预设过滤阈值，本发明实施例对此不进行限制。

数据编码模块20中的第二鸟瞰图特征提取单元22，用于对激光雷达点云数据进行基于非确定性体素化的格栅化处理得到激光点云体素，再将激光点云体素输入至由3D卷积神经网络构成的第二预设编码器以得到第二鸟瞰图特征。

在本发明实施例中，激光点云体素可以是指对激光雷达点云数据进行体素栅格化处理后得到的三维点云体素，由于激光雷达点云数据中空间点数量非常大，利用体素栅格化处理得到激光点云体素可以提高点云数据处理的效率。第二预设编码器可以理解为用于根据激光雷达点云数据生成第二鸟瞰图特征的编码器，第二预设编码器可以由3D卷积神经网络组成。第二鸟瞰图特征可以是指根据激光雷达点云数据提取到的鸟瞰图特征。

具体的，可以控制目标车辆上安装的激光雷达采集车辆周围的激光雷达点云数据，为了提高后面激光雷达点云数据的处理速度，可以对获取的激光雷达点云数据进行基于非确定性体素化的格栅化处理得到对应的激光点云体素，其中，基于非确定性体素化的格栅化处理是指在激光雷达点云数据的格栅化处理过程中，不是均匀地处理所有激光雷达点云数据，而是根据激光雷达点云数据中各点云位置的重要性进行有选择性的体素化处理，在获取到激光点云体素之后，可以将其输入至由3D卷积神经网络构成的第二预设编码器中进行鸟瞰图特征提取，得到激光雷达点云数据对应的第二鸟瞰图特征。

数据编码模块20中的第三鸟瞰图特征提取单元23，用于对毫米波雷达点云数据进行确定性格栅化处理，再将处理后的毫米波雷达点云数据输入至由3D卷积神经网络构成的第三预设编码器以得到第三鸟瞰图特征。

在本发明实施例中，第三预设编码器可以理解为用于根据毫米波雷达点云数据生成第三鸟瞰图特征的编码器，第三预设编码器可以由3D卷积神经网络组成。第三鸟瞰图特征可以是指根据毫米波雷达点云数据提取到的鸟瞰图特征。

具体的，可以控制目标车辆上安装的毫米波雷达采集车辆周围的毫米波雷达点云数据，再对获取的毫米波雷达点云数据进行确定性体素化的格栅化处理，其中，基于确定性体素化的格栅化处理是指在毫米波雷达点云数据的格栅化处理过程中，均匀地处理所有毫米波雷达点云数据，以使得激光雷达点云数据和毫米波雷达点云数据具备一致性表示，最后将处理后的毫米波雷达点云数据输入至由3D卷积神经网络构成的第三预设编码器中进行鸟瞰图特征提取，得到毫米波雷达点云数据对应的第三鸟瞰图特征。

进一步地，在上述发明实施例的基础上，第一鸟瞰图特征、第二鸟瞰图特征和第三鸟瞰图特征的存储形式为格栅化处理后的数据矩阵，并且在空间维度上尺度相同。

特征融合模块30中的鸟瞰图特征融合单元31，用于将各鸟瞰图特征进行横向拼接后输入至由卷积神经网络构成的预设鸟瞰图编码器中，以得到鸟瞰图融合特征。

具体的，在获取到环视图像数据、激光雷达点云数据和毫米波雷达点云数据分别对应的第一鸟瞰图特征、第二鸟瞰图特征以及第三鸟瞰图特征后，可以对它们执行横向拼接(Concatenation)操作后输入至预先配置的预设鸟瞰图编码器中进行特征融合，进而得到鸟瞰图融合特征。

特征融合模块30中的任务结果获取单元32，用于将鸟瞰图融合特征输入至分别由卷积神经网络构成的各任务头中执行感知任务，并输出对应的任务结果。

在本发明实施例中，任务头可以包括以下至少之一：3D检测头、地图分割头、交通标识牌检测头、交通灯检测头、实时定位头、轨迹预测头，其中，3D检测头和地图分割头为基础任务头。任务结果可以包括以下至少之一：3D目标检测结果、地图分割结果、交通标识牌检测结果、交通灯状态检测结果、实时定位结果以及目标轨迹预测结果等。

具体的，根据实际感知任务的需要，将获取的鸟瞰图融合特征对应输入至由卷积神经网络构成的任务头中，并输出对应的任务结果，其中，任务头可以包括以下至少之一：3D检测头、地图分割头、交通标识牌检测头、交通灯检测头、实时定位头、轨迹预测头，相应的，与感知任务相对应的任务结果可以包括3D目标检测结果、地图分割结果、交通标识牌检测结果、交通灯状态检测结果、实时定位结果以及目标轨迹预测结果等。

进一步地，在上述发明实施例的基础上，任务结果获取单元，具体用于以下至少之一：

将鸟瞰图融合特征输入至任务头中的3D检测头，输出的任务结果为3D目标信息检测框；

将鸟瞰图融合特征输入至任务头中的地图分割头，输出的任务结果为实时地图元素掩码；

将3D目标信息检测框输入至任务头中的交通标识牌检测头，输出的任务结果为交通标识牌信息；

将3D目标信息检测框输入至任务头中的交通灯检测头，输出的任务结果为交通灯状态信息；

将实时地图元素掩码输入至任务头中的实时定位头，输出的任务结果为地理位置向量；

将3D目标信息检测框、实时地图元素掩码、交通标识牌信息、交通灯状态信息以及地理位置向量输入至任务头中的轨迹预测头，输出的任务结果为目标物的轨迹预测信息。

在一具体实施例中，若感知任务为行人轨迹预测，则可以先将鸟瞰图融合特征分别输入至3D检测头和地图分割头中得到对应的3D目标信息检测框和实时地图元素掩码，再将3D目标信息检测框分别输入至交通标识牌检测头和交通灯检测头得到对应的交通标识牌信息和交通灯状态信息，以及将实时地图元素掩码输入至实时定位头得到对应的地理位置向量，最后将将3D目标信息检测框、实时地图元素掩码、交通标识牌信息、交通灯状态信息以及地理位置向量输入至轨迹预测头，即可输出行人的轨迹预测信息。

进一步地，在上述发明实施例的基础上，该系统还包括：

图像转换模块，用于利用几何变换将2D输入框转换为3D目标信息检测框，几何变换由相机和点云的相互关系参数矩阵获得。

在本发明实施例中，由于环视图像数据例如交通灯数据和交通标识牌数据等是2D的，需要使用几何变换将2D的图像数据转换为3D的鸟瞰图特征，既可以保留完整的语义信息，还有助于环视图像数据、激光雷达点云数据和毫米波雷达点云数据采用鸟瞰图作为融合的统一表示。

本发明实施例提出的感知融合系统，通过数据获取模块，用于获取目标车辆的环境感知数据，环境感知数据至少包括：环视图像数据、激光雷达点云数据、毫米波雷达点云数据；数据获取模块中的第一鸟瞰图特征提取单元、第二鸟瞰图特征提取单元和第三鸟瞰图特征提取单元分别获取环视图像数据、激光雷达点云数据和毫米波雷达点云数据对应的鸟瞰图特征；特征融合模块中的鸟瞰图特征融合单元，用于将各鸟瞰图特征进行横向拼接后输入至由卷积神经网络构成的预设鸟瞰图编码器中，以得到鸟瞰图融合特征；特征融合模块中的任务结果获取单元，用于将鸟瞰图融合特征输入至分别由卷积神经网络构成的各任务头中执行感知任务，并输出对应的任务结果。本发明实施例提出的感知融合系统，通过第一鸟瞰图特征提取单元、第二鸟瞰图特征提取单元和第三鸟瞰图特征提取单元分别获取环视图像数据、激光雷达点云数据和毫米波雷达点云数据对应的鸟瞰图特征，再通过鸟瞰图特征融合单元对上述鸟瞰图特征进行融合，最后通过任务结果获取单元执行相应的感知任务，并输出对应的任务结果，实现了不同传感器感知数据的有效融合，提高了感知任务结果的准确性，同时简化了感知融合算法的流程。

实施例三

图3为本发明实施例三提供的一种感知融合系统的示意图，基于上述实施方式进一步进行优化与扩展，并可以与上述实施方式中各个可选技术方案结合。如图3所示，本实施例三提供的一种感知融合系统，包括：图像主干网络31、激光点云主干网络32、雷达点云主干网络33、特征融合网络34以及任务头35。图4为本发明实施例三提供的一种感知融合系统的框架示意图，是对图3的感知融合系统的进一步细化。所述感知融合系统具体包括：

图像主干网络31，输入为由安装在目标车辆周围的多个环视相机获取的环视图像数据，输出为视觉鸟瞰图特征。将采集的环视图像数据经过图像编码器处理后获取深度图像特征，然后将图像特征输入到压缩编码器，压缩处理后获取图像压缩特征，压缩编码器可以采用具有稀疏自注意力机制的高效网络，具体结构为采用多层自注意力机制的神经网络模型，具体层数视部署要求而定，本发明实施例不作具体限制。具体的，如图5所示，图像编码器由卷积神经网络Resnet50作为图像特征提取器，依次将6幅环视图像数据输入到图像特征提取器中，将6个输入图像特征使用图像序列化处理获取序列化图像特征，序列化过程为首先将输入图像特征横向拼接获取拼接图像特征矩阵，然后使用序列化算法将特征矩阵转变为特征序列，特征序列经量化打分器打分，获取每一个序列特征的依赖分数，在根据过滤算法预先设置过滤阈值，删除依赖分数低于阈值的序列特征，获取稀疏图像特征，稀疏图像特征最后经相机-鸟瞰图转换从2D空间转换到3D鸟瞰图空间，进而得到环视图像数据对应的鸟瞰图特征。进一步地，可以采用如图6所示的基于视线投影的几何变换方法实现将2D输入框转换为3D目标信息检测框，几何变换由相机和点云的相互关系参数矩阵获得，几何变换依据光线传播物理特性提前计算出任意像素点在3D空间的位置，进而实现2D到3D的投影，此外在转换过程中，对于交通灯、交通标识牌等目标物的厚度可以设置为0.5米。

激光点云主干网络32，输入为由安装在目标车辆顶部的激光雷达获取的激光雷达点云数据，输出为激光点云鸟瞰图特征。具体的，将获取的激光雷达点云数据首先经过格栅化处理获取点云体素，然后经过激光点云编码器获取激光点云鸟瞰图特征，其中，其中体素化处理采用非确定性体素化，即在处理中不再均匀地处理所有数据点，而是根据当前点云位置的重要性来选择性的进行体素化处理，且激光点云编码器由3D卷积神经网络实现。

雷达点云主干网络33，输入为由安装在目标车辆头部和尾部的毫米波雷达获取的毫米波雷达点云数据，输出为雷达点云鸟瞰图特征。具体的，将获取的毫米波雷达点云数据经过格栅化处理获取雷达点云，然后经过雷达点云编码器获取雷达点云鸟瞰图特征，其中，由于雷达点云具备稀疏性特点，计算复杂度远小于激光点云，并且为了获取目标速度，需要点云数据具备一致性表示，故采用确定性格栅化处理，均匀的处理每一个数据点，且雷达点云编码器同样由3D卷积神经网络实现。

经过图像主干网络、激光点云主干网络以及雷达点云主干网络输出的视觉鸟瞰图特征、激光点云鸟瞰图特征和雷达点云鸟瞰图特征，其存储形式为格栅化处理后的数据矩阵，并且在空间维度上尺度相同。

特征融合网络34，输入为视觉鸟瞰图特征、激光点云鸟瞰图特征和雷达点云鸟瞰图特征，输出为鸟瞰图融合特征。具体的，将视觉鸟瞰图特征、激光点云鸟瞰图特征和雷达点云鸟瞰图特征执行横向拼接(Concatenation)操作后输入至鸟瞰图编码器中进行特征融合，进而得到鸟瞰图融合特征。

任务头部分35，如图4和图7所示，任务头在时序上为并行处理，但在逻辑上为串并联混合处理结构。任务头可以包括：3D检测头、地图分割头、交通标识牌检测头、交通灯检测头、实时定位头、轨迹预测头，其中，3D检测头和地图分割头为基础任务头，各任务头基本构造为卷积神经网络，任务头同时工作但各自独立，其输出结果在时间上同步。交通标识牌检测头和交通灯检测头依赖于3D检测头，实时定位头依赖于地图分割头，轨迹预测头依赖于3D检测头、地图分割头、交通标识牌检测头、交通灯检测头和实时定位头。具体的，3D检测头的输入为鸟瞰图融合特征，输出为3D目标信息检测框；地图分割头的输入为鸟瞰图融合特征，输出为实时地图元素掩码；交通标识牌检测头的输入为3D目标信息检测框，输出为交通标识牌信息；交通灯检测头的输入为3D目标信息检测框，输出为交通灯状态信息；实时定位头的输入为实时地图元素掩码，输出为地理位置向量；轨迹预测头的输入为3D目标信息检测框、实时地图元素掩码、交通标识牌信息、交通灯状态信息以及地理位置向量，输出为目标物(行人、车辆等)的轨迹预测信息。

本发明实施例提出的感知融合系统，包括图像主干网络、激光点云主干网络、雷达点云主干网络、特征融合网络以及任务头。利用本发明实施例提出的感知融合系统可以实现环视图像数据、激光雷达点云数据和毫米波雷达点云数据的有效融合，选择鸟瞰图作为特征融合的统一表示，可以有效保留环视图像数据的语义密度以及激光雷达点云数据和毫米波雷达点云数据的几何结构；简化了感知融合算法的流程；同时实现了数据驱动的基于鸟瞰图模式的端到端感知系统，提高了感知数据的利用率，以及实现了特征层面的多传感器融合，有效提升了感知任务的准确性。

实施例四

图8示出了可以用来实施本发明的实施例的电子设备40的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图8所示，电子设备40包括至少一个处理器41，以及与至少一个处理器41通信连接的存储器，如只读存储器(ROM)42、随机访问存储器(RAM)43等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器41可以根据存储在只读存储器(ROM)42中的计算机程序或者从存储单元48加载到随机访问存储器(RAM)43中的计算机程序，来执行各种适当的动作和处理。在RAM 43中，还可存储电子设备40操作所需的各种程序和数据。处理器41、ROM 42以及RAM 43通过总线44彼此相连。输入/输出(I/O)接口45也连接至总线44。

电子设备40中的多个部件连接至I/O接口45，包括：输入单元46，例如键盘、鼠标等；输出单元47，例如各种类型的显示器、扬声器等；存储单元48，例如磁盘、光盘等；以及通信单元49，例如网卡、调制解调器、无线通信收发机等。通信单元49允许电子设备50通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器41可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器41的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器41执行上文所描述的各个系统和处理，例如感知融合系统。

在一些实施例中，感知融合系统可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元48。在一些实施例中，计算机程序的部分或者全部可以经由ROM 42和/或通信单元49而被载入和/或安装到电子设备40上。当计算机程序加载到RAM 43并由处理器41执行时，可以执行上文描述的感知融合系统的一个或多个步骤。备选地，在其他实施例中，处理器41可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行感知融合系统。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种感知融合系统，其特征在于，所述系统包括：

数据获取模块，用于获取目标车辆的环境感知数据，所述环境感知数据至少包括：环视图像数据、激光雷达点云数据、毫米波雷达点云数据；

数据编码模块，用于根据不同预设编码器分别处理所述环视图像数据、所述激光雷达点云数据以及所述毫米波雷达点云数据以得到对应的鸟瞰图特征；

特征融合模块，用于按照预设鸟瞰图编码器处理各所述鸟瞰图特征以得到鸟瞰图融合特征，并根据所述鸟瞰图融合特征和任务头生成任务结果。

2.根据权利要求1所述的系统，其特征在于，所述根据不同预设编码器分别处理所述环视图像数据、所述激光雷达点云数据以及所述毫米波雷达点云数据以得到对应的鸟瞰图特征，包括：

调用第一预设编码器的ResNet50神经网络提取至少一张所述环视图像数据的图像特征，并将各所述图像特征横向拼接得到图像特征矩阵，将所述图像特征矩阵序列化处理为图像特征序列，输入所述特征序列至所述第一预设编码器的压缩编码器进行压缩处理以得到图像稀疏特征，转换所述图像稀疏特征至3D鸟瞰图空间作为所述第一鸟瞰图特征；

对所述激光雷达点云数据进行基于非确定性体素化的格栅化处理得到激光点云体素，再将所述激光点云体素输入至由3D卷积神经网络构成的第二预设编码器以得到第二鸟瞰图特征；

对所述毫米波雷达点云数据进行确定性格栅化处理，再将处理后的所述毫米波雷达点云数据输入至由3D卷积神经网络构成的第三预设编码器以得到第三鸟瞰图特征。

3.根据权利要求2所述的系统，其特征在于，所述输入所述特征序列至所述第一预设编码器的压缩编码器进行压缩处理以得到图像稀疏特征，包括：

调用预设量化打分器确定所述特征序列内各所述图像特征的依赖分数；

剔除所述特征序列内所述依赖分数低于预设过滤阈值的所述图像特征作为所述图像稀疏特征。

4.根据权利要求1所述的系统，其特征在于，所述任务头包括以下至少之一：3D检测头、地图分割头、交通标识牌检测头、交通灯检测头、实时定位头、轨迹预测头，其中，所述3D检测头和所述地图分割头为基础任务头。

5.根据权利要求1所述的系统，其特征在于，所述按照预设鸟瞰图编码器处理各所述鸟瞰图特征以得到鸟瞰图融合特征，并根据所述鸟瞰图融合特征和任务头生成任务结果，包括：

将各所述鸟瞰图特征进行横向拼接后输入至由卷积神经网络构成的所述预设鸟瞰图编码器中，以得到所述鸟瞰图融合特征；

将所述鸟瞰图融合特征输入至分别由卷积神经网络构成的各所述任务头中执行感知任务，并输出对应的所述任务结果。

6.根据权利要求5所述的系统，所述将所述鸟瞰图融合特征输入至分别由卷积神经网络构成的各所述任务头中执行对应的感知任务，并将输出结果作为所述任务结果，包括以下至少之一：

将所述鸟瞰图融合特征输入至所述任务头中的3D检测头，输出的所述任务结果为3D目标信息检测框；

将所述鸟瞰图融合特征输入至所述任务头中的地图分割头，输出的所述任务结果为实时地图元素掩码；

将所述3D目标信息检测框输入至所述任务头中的交通标识牌检测头，输出的所述任务结果为交通标识牌信息；

将所述3D目标信息检测框输入至所述任务头中的交通灯检测头，输出的所述任务结果为交通灯状态信息；

将所述实时地图元素掩码输入至所述任务头中的实时定位头，输出的所述任务结果为地理位置向量；

将所述3D目标信息检测框、所述实时地图元素掩码、所述交通标识牌信息、所述交通灯状态信息以及所述地理位置向量输入至所述任务头中的轨迹预测头，输出的所述任务结果为目标物的轨迹预测信息。

7.根据权利要求6所述的系统，其特征在于，还包括：

利用几何变换将2D输入框转换为所述3D目标信息检测框，所述几何变换由相机和点云的相互关系参数矩阵获得。

8.根据权利要求2所述的系统，其特征在于，所述第一鸟瞰图特征、所述第二鸟瞰图特征和所述第三鸟瞰图特征的存储形式为格栅化处理后的数据矩阵，并且在空间维度上尺度相同。

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的感知融合系统。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-8中任一项所述的感知融合系统。