CN113378605A

CN113378605A - 多源信息融合方法及装置、电子设备和存储介质

Info

Publication number: CN113378605A
Application number: CN202010161436.4A
Authority: CN
Inventors: 危磊
Original assignee: Beijing Jingdong Qianshi Technology Co Ltd
Current assignee: Beijing Jingdong Qianshi Technology Co Ltd
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2021-09-10
Anticipated expiration: 2040-03-10
Also published as: CN113378605B

Abstract

本公开是关于一种多源信息融合方法及装置、电子设备以及计算机可读存储介质，涉及自动驾驶技术领域，可以应用于检测无人车周围物体的场景。该多源信息融合方法包括：获取目标街景图像以及目标街景图像对应的鸟瞰图像；其中，鸟瞰图像基于目标街景图像对应的点云图像确定；将目标街景图像输入至第一特征提取模型，以确定目标街景图像对应的第一特征图；将鸟瞰图像输入至第二特征提取模型，以确定鸟瞰图像对应的第二初始特征图；根据第一特征图对第二初始特征图进行位置融合处理，以得到目标特征图；对目标特征图进行检测框预测处理，以确定目标街景图像中的像素点信息。本公开可以对自动驾驶感知前融合方法进行改进。

Description

多源信息融合方法及装置、电子设备和存储介质

技术领域

本公开涉及自动驾驶技术领域，具体而言，涉及一种多源信息融合方法、多源信息融合装置、电子设备以及计算机可读存储介质。

背景技术

自动驾驶技术是汽车产业与高性能计算芯片、人工智能、物联网等新一代信息技术深度融合的产物。近年来，自动驾驶技术取得了巨大的进步和发展，但距离完全成熟并投入使用尚有一段距离。

在众多无人驾驶所需要的技术中，用各种传感器检测无人车周边各种物体的感知技术是非常重要和关键的。具体的，感知技术主要包括：点云检测，Bird's Eye View(鸟瞰图，BEV)检测，前融合，后融合等。另外，前融合技术目前排名较高的开源融合方法是多视图目标检测网络(an Aggregate View Obeject Detection network，AVOD)。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

然而，现有的前融合技术AVOD通常采用两个神经网络分别提取RGB图像和BEV图像的特征图，通过预设的锚点(anchor)参数计算出每个anchor在RGB和BEV特征图上的位置，然后分别把其裁剪出来进行融合。这种融合有两个缺点：一是只采取了最后的高层抽象特征进行融合，丢失了前面浅层特征的相关性；二是为了保证检测框的准确性，一般预设的anchor数量比较多，导致计算代价较大。

本公开的目的在于提供一种多源信息融合方法、多源信息融合装置、电子设备以及计算机可读存储介质，进而至少在一定程度上克服现有的前融合技术在信息融合过程中丢失了低层特征的相关性并且需要设置锚点进行信息融合的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本公开的第一方面，提供一种多源信息融合方法，包括：获取目标街景图像以及目标街景图像对应的鸟瞰图像；其中，鸟瞰图像基于目标街景图像对应的点云图像确定；将目标街景图像输入至第一特征提取模型，以确定目标街景图像对应的第一特征图；将鸟瞰图像输入至第二特征提取模型，以确定鸟瞰图像对应的第二初始特征图；根据第一特征图对第二初始特征图进行位置融合处理，以得到目标特征图；对目标特征图进行检测框预测处理，以确定目标街景图像中的像素点信息。

可选的，第一特征图包括多个第一特征子图，将目标街景图像输入至第一特征提取模型，以确定目标街景图像对应的第一特征图，包括：将目标街景图像输入至第一特征提取模型；其中，第一特征提取模型包括第一数量个第一卷积层；通过各第一卷积层对目标街景图像进行特征提取处理，以得到各第一卷积层分别对应的第一特征子图。

可选的，将鸟瞰图像输入至第二特征提取模型，以确定鸟瞰图像对应的第二初始特征图，包括：将鸟瞰图像输入至第二特征提取模型；其中，第二特征提取模型包含第一数量个第二卷积层；由第二特征提取模型中处于第一层的第二卷积层对鸟瞰图像进行特征提取处理，以得到第二初始特征图。

可选的，第二特征提取模型包括第二数量个反卷积层，根据第一特征图对第二初始特征图进行位置融合处理，以得到目标特征图，包括：对第一特征图与第二初始特征图进行位置融合处理，以得到初始融合特征图；由第二特征提取模型中的除处于第一层的第二卷积层之外的其他第二卷积层对初始融合特征图进行特征提取处理，以得到中间特征图；将第一特征图与中间特征图进行位置融合处理，以得到中间融合特征图；通过第二数量个反卷积层对中间融合特征图进行反卷积处理，以得到目标特征图。

可选的，对第一特征图与第二初始特征图进行位置融合处理，包括：从第二初始特征图中确定目标像素点，并从目标街景图像中确定与目标像素点对应的目标街景图像点；将目标街景图像点的像素值添加至目标像素点的像素值，以进行位置融合处理。

可选的，从所述目标街景图像中确定与目标像素点对应的目标街景图像点，包括：确定目标像素点在世界坐标系中对应的目标方格；并从目标方格中确定目标街景图像对应的最高位置点；将最高位置点在相机坐标系中的投影作为目标街景图像点。

可选的，对目标特征图进行检测框预测处理，以确定目标街景图像中的像素点信息，包括：将目标特征图输入至多层感知机；通过多层感知机的全连接层对目标特征图进行检测框预测处理，以确定目标街景图像中的位置信息和类别信息。

根据本公开的第二方面，提供一种多源信息融合装置，包括：图像获取模块，获取目标街景图像以及目标街景图像对应的鸟瞰图像；其中，鸟瞰图像基于目标街景图像对应的点云图像确定；第一特征图确定模块，用于将目标街景图像输入至第一特征提取模型，以确定目标街景图像对应的第一特征图；第二特征图确定模块，用于将鸟瞰图像输入至第二特征提取模型，以确定鸟瞰图像对应的第二初始特征图；目标特征图确定模块，用于根据第一特征图对第二初始特征图进行位置融合处理，以得到目标特征图；信息确定模块，用于对目标特征图进行检测框预测处理，以确定目标街景图像中的像素点信息。

可选的，第一特征图确定模块包括第一特征图确定单元，用于将目标街景图像输入至第一特征提取模型；其中，第一特征提取模型包括第一数量个第一卷积层；通过各第一卷积层对目标街景图像进行特征提取处理，以得到各第一卷积层分别对应的第一特征子图。

可选的，第二特征图确定模块包括第二特征图确定单元，用于将鸟瞰图像输入至第二特征提取模型；其中，第二特征提取模型包含第一数量个第二卷积层；由第二特征提取模型中处于第一层的第二卷积层对鸟瞰图像进行特征提取处理，以得到第二初始特征图。

可选的，目标特征图确定模块包括目标特征图确定单元，用于对第一特征图与第二初始特征图进行位置融合处理，以得到初始融合特征图；由第二特征提取模型中的除处于第一层的第二卷积层之外的其他第二卷积层对初始融合特征图进行特征提取处理，以得到中间特征图；将第一特征图与中间特征图进行位置融合处理，以得到中间融合特征图；通过第二数量个反卷积层对中间融合特征图进行反卷积处理，以得到目标特征图。

可选的，目标特征图确定单元包括融合处理子单元，用于从第二初始特征图中确定目标像素点，并从目标街景图像中确定与目标像素点对应的目标街景图像点；将目标街景图像点的像素值添加至目标像素点的像素值，以进行位置融合处理。

可选的，融合处理子单元包括图像点确定子单元，用于确定目标像素点在世界坐标系中对应的目标方格；并从目标方格中确定目标街景图像对应的最高位置点；将最高位置点在相机坐标系中的投影作为目标街景图像点。

可选的，信息确定模块包括信息确定单元，用于将目标特征图输入至多层感知机；通过多层感知机的全连接层对目标特征图进行检测框预测处理，以确定目标街景图像中的位置信息和类别信息。

根据本公开的第三方面，提供一种电子设备，包括：处理器；以及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现根据上述任意一项所述的多源信息融合方法。

根据本公开的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据上述任意一项所述的多源信息融合方法。

本公开提供的技术方案可以包括以下有益效果：

本公开的示例性实施例中的多源信息融合方法，获取目标街景图像以及目标街景图像对应的鸟瞰图像；其中，鸟瞰图像基于目标街景图像对应的点云图像确定；将目标街景图像输入至第一特征提取模型，以确定目标街景图像对应的第一特征图；将鸟瞰图像输入至第二特征提取模型，以确定鸟瞰图像对应的第二初始特征图；根据第一特征图对第二初始特征图进行位置融合处理，以得到目标特征图；对目标特征图进行检测框预测处理，以确定目标街景图像中的像素点信息。通过本公开的多源信息融合方法，一方面，根据第一特征图对第二初始特征图进行位置融合处理，可以在融合过程中，结合浅层抽象特征，使得图像中包含的信息更加准确；另一方面，将第一特征图与第二特征图进行位置融合的方法，可以在确定检测框的过程中，无需预先设置锚点，可以减少由于设置锚点所产生的计算代价。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示意性示出了根据本公开的示例性实施方式的多源信息融合方法的流程图；

图2示意性示出了根据本公开的示例性实施方式的某一目标街景图像；

图3示意性示出了根据本公开的示例性实施方式的某一目标街景图像对应的鸟瞰图像；

图4示意性示出了根据本公开的示例性实施方式的多源信息融合方法的整体流程图；

图5示意性示出了根据本公开的示例性实施方式的确定目标特征图的流程图；

图6示意性示出了根据本公开的示例性实施方式的多源信息融合装置的方框图；

图7示意性示出了根据本公开一示例性实施例的电子设备的框图；

图8示意性示出了根据本公开一示例性实施例的计算机可读存储介质的示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知结构、方法、装置、实现、材料或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个软件硬化的模块中实现这些功能实体或功能实体的一部分，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

现有的前融合技术AVOD通常采用两个神经网络分别提取RGB图像和BEV图像的特征图，通过预设的锚点(anchor)参数计算出每个anchor在RGB和BEV特征图上的位置，然后分别把其裁剪出来进行融合。这种融合有两个缺点：一是只采取了最后的高层抽象特征进行融合，丢失了前面浅层特征的相关性；二是为了保证检测框的准确性，一般预设的anchor比较密集，数量也较多，造成对图像进行剪切操作和对图像进行伸缩操作(crop andresize)，因此，融合处理这一步骤很费时间，在融合后需要通过非极大值抑制(Non-Maximum Suppression，NMS)处理以消减这些特征的数量，以减轻全连接层耗时严重的问题，但NMS这一步本身也耗不少时间，而且NMS在部署时，也不容易用加速引擎加速。

基于此，在本示例实施例中，首先提供了一种多源信息融合方法，可以利用服务器来实现本公开的用多源信息融合方法，也可以利用终端设备来实现本公开所述的方法，其中，本公开中描述的终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)、导航装置、可穿戴设备、智能手环、计步器等移动终端，以及诸如台式计算机等固定终端。图1示意性示出了根据本公开的一些实施例的多源信息融合方法流程的示意图。参考图1，该多源信息融合方法可以包括以下步骤：

步骤S110，获取目标街景图像以及目标街景图像对应的鸟瞰图像；其中，鸟瞰图像基于目标街景图像对应的点云图像确定。

步骤S120，将目标街景图像输入至第一特征提取模型，以确定目标街景图像对应的第一特征图。

步骤S130，将鸟瞰图像输入至第二特征提取模型，以确定鸟瞰图像对应的第二初始特征图。

步骤S140，根据第一特征图对第二初始特征图进行位置融合处理，以得到目标特征图。

步骤S150，对目标特征图进行检测框预测处理，以确定目标街景图像中的像素点信息。

根据本示例实施例中的多源信息融合方法，一方面，根据第一特征图对第二初始特征图进行位置融合处理，可以在融合过程中，结合浅层抽象特征，使得图像中包含的信息更加准确；另一方面，将第一特征图与第二特征图进行位置融合的方法，可以在确定检测框的过程中，无需预先设置锚点，可以减少由于设置锚点所产生的计算代价。

下面，将对本示例实施例中的多源信息融合方法进行进一步的说明。

在步骤S110中，获取目标街景图像以及目标街景图像对应的鸟瞰图像；其中，鸟瞰图像基于目标街景图像对应的点云图像确定。

在本公开的一些示例性实施方式中，目标街景图像(image图像)可以是由无人驾驶汽车等无人驾驶设备中的摄像头拍摄到的实时街景画面的图像，目标街景图像可以是普通的RGB色彩模式(Red Green Blue，RGB)图像。目标街景图像可以包括拍摄到的图像像素点的类别信息等。参考图2，图2示意性示出了拍摄到的某一目标街景图像。鸟瞰图像可以是以空中视角观察目标街景图像而确定出的图像。点云图像可以是由激光雷达等设备拍摄到的3D点云图像。鸟瞰图像可以是点云图像投影在地面上形成的图像。参考图3，图3示意性示出了某一街景图像对应的鸟瞰图像。鸟瞰图像中可以包括与之对应的目标街景图像的深度信息。鸟瞰图像与目标街景图像具有较强的互补性，因此，在进行图像的多源信息融合处理之前，可以先获取到目标街景图像以及与之对应的鸟瞰图像，以便对目标街景图像和鸟瞰图像进行融合处理。

需要说明的是，image图像中主要可以包含像素点的类别信息，也可以包含像素点的深度相关信息；BEV图像中也可以不仅仅包括像素点的深度信息，本公开对此不作任何特殊限定。

在步骤S120中，将目标街景图像输入至第一特征提取模型，以确定目标街景图像对应的第一特征图。

在本公开的一些示例性实施方式中，第一特征提取模型可以是对目标街景图像进行特征提取处理的计算模型。特征图(Feature map)可以通过特征提取模型对输入图像进行特征提取处理后得到的与输入图像对应的特征图。第一特征图可以是对目标街景图像进行特征提取处理后得到的对应特征图。

参考图4，图4示意性示出了基于目标街景图像和鸟瞰图像进行信息融合的系统结构图。在获取到目标街景图像后，可以将该image图像输入至第一特征提取模型中，由第一特征提取模型对目标街景图像进行特征提取处理后得到第一特征图。

根据本公开的一些示例性实施例，将目标街景图像输入至第一特征提取模型；其中，第一特征提取模型包括第一数量个第一卷积层；通过各第一卷积层对目标街景图像进行特征提取处理，以得到各第一卷积层分别对应的第一特征子图。第一数量可以是第一特征提取模型中包含的第一卷积层的数量，在具体的实施例中，可以根据卷积处理效果确定第一数量的具体数值。第一卷积层可以是第一特征提取模型对应的卷积层。第一特征子图可以是各个第一卷积层逐层对目标街景图像进行特征提取后得到的特征图。

举例而言，参考图4，图4中的第一特征提取模型410可以包含4个第一卷积层，分别为第一卷积层1、第一卷积层2、第一卷积层3和第一卷积层4，在步骤S410中，可以将目标街景图像输入至第一特征提取模型410中；在步骤S420中，第一特征提取模型410中的多个第一卷积层可以逐一对目标街景图像进行特征提取处理，经各第一卷积层进行特征提取后，分别得到对应的第一特征子图。

在步骤S130中，将鸟瞰图像输入至第二特征提取模型，以确定鸟瞰图像对应的第二初始特征图。

在本公开的一些示例性实施方式中，第二特征提取模型可以是针对鸟瞰图像进行特征提取处理的计算模型。第二初始特征图可以是将鸟瞰图像输入至第二特征提取模型，由第二特征提取模型的第一个卷积层进行特征提取后得到的对应特征图。

参考图4，在步骤S440中，将鸟瞰图像输入至第二特征提取模型420；在步骤S450中，由第二特征提取模型420对鸟瞰图像进行特征提取处理，可以得到鸟瞰图像对应的第二初始特征图。

根据本公开的一些示例性实施例，将鸟瞰图像输入至第二特征提取模型；其中，第二特征提取模型包含第一数量个第二卷积层；由第二特征提取模型中处于第一层的第二卷积层对鸟瞰图像进行特征提取处理，以得到第二初始特征图。第二卷积层可以是第二特征提取模型中包含的卷积层，第二卷积层与第一卷积层不同。

参考图4，图4中的第二特征提取模型420可以包含4个第二卷积层，分别为第二卷积层1、第二卷积层2、第二卷积层3和第二卷积层4，其中，在第二特征提取模型中处于第一层的卷积层可以为第二卷积层1；以及3个反卷积层，分别为反卷积层1、反卷积层2和反卷积层3。在步骤S450中，由第二特征提取模型的第二卷积层1对鸟瞰图像进行特征提取处理，以得到第二初始特征图。

需要说明的是，在其他示例性实施例中，本领域技术人员可以根据欲取得的特征提取效果分别设置对应的第一数量和第二数量，本公开对第一数量和第二数量的具体数值不作任何特殊限定。

在步骤S140中，根据第一特征图对第二初始特征图进行位置融合处理，以得到目标特征图。

在本公开的一些示例性实施方式中，由于目标街景图像中可以包含类别相关信息和位置相关信息，而鸟瞰图像可以包含目标街景图像对应的深度信息，因此，位置融合处理可以是对得到的第一特征图中包含的位置相关信息或类别相关信息与第二初始特征图中包含的深度相关信息等进行融合处理的过程。在对image图像的特征图和BEV图像的特征图进行位置融合处理，并经过三个反卷积层处理后生成的目标特征图与原始BEV图像的尺寸是相同的，像素点位置也是对应的。

为了克服现有技术中，通过预设的anchor参数算出每个anchor在image特征图和BEV特征图上的位置，然后分别把其裁剪出来进行融合处理，可能导致丢失浅层特征相关性以及由于设置anchor而产生的较大的计算量的问题，在本公开的示例性实施例中，通过将第一特征图与第二初始特征图进行位置融合处理，可以在不预先设置anchor的情况下，可以基于image图像和BEV图像进行多源信息融合的处理，以得到图像中包含的位置信息和类别信息。

根据本公开的一些示例性实施例，对第一特征图与第二初始特征图进行位置融合处理，以得到初始融合特征图；由第二特征提取模型中的除处于第一层的第二卷积层之外的其他第二卷积层对初始融合特征图进行特征提取处理，以得到中间特征图；将第一特征图与中间特征图进行位置融合处理，以得到中间融合特征图；通过第二数量个反卷积层对中间融合特征图进行反卷积处理，以得到目标特征图。初始融合特征图可以是对第一特征图和第二初始特征图进行位置融合处理得到的特征图。中间特征图可以是初始融合特征图进行特征提取处理，并与第一特征图进行位置融合处理后得到的特征图。中间特征图可以是对初始融合特征图或中间融合特征图进行特征提取处理后得到的特征图。中间融合特征图可以是将第一特征图与中间特征图进行位置融合处理后得到的特征图。反卷积层可以是第二特征提取模型中用于对中间特征图进行反卷积处理的处理层。目标特征图可以是对中间特征图进行反卷积处理后得到的特征图。

参考图4，将目标街景图像输入至第一特征提取模型后，由各个第一卷积层进行特征提取处理后得到多个第一特征子图，具体的，经第一卷积层1、第二卷积层2、第二卷积层3和第二卷积层4分别进行特征提取处理后得到的特征子图可以确定为第一特征子图1、第一特征子图2、第一特征子图3和第一特征子图4。在步骤S430中，将BEV图像输入至第二特征提取模型，由第二特征提取模型420的第二卷积层1对BEV图像进行特征提取处理，可以得到第二初始特征图。参考图5，图5示意性示出了确定目标特征图的流程图。在步骤S440中以及步骤S510中，通过位置融合层431可以将第一特征子图1与第二初始特征图进行位置融合处理，得到初始融合特征图；在步骤S450中以及步骤S520中，由第二卷积层2继续对得到的初始融合特征图进行特征提取处理，得到中间特征图；在步骤S530中，通过位置融合层432对第一特征子图2与第二特征子图2进行位置融合处理，得到中间融合特征图；以此类推，直至第二特征提取模型中的第二卷积层3得到的特征图与第一特征子图3由位置融合层433进行位置融合处理，并由第二卷积层4对得到的融合图像进行特征提取处理后，通过位置融合层434与第一特征子图进行位置融合处理以得到中间融合特征图。在步骤S540中，在得到中间融合特征图后，采用反卷积层1、反卷积层2和反卷积层3依次对中间融合特征图进行反卷积处理，以输出目标特征图。通过上述逐层对第一特征子图和第二特征子图进行位置融合的处理过程，可以将浅层特征图的特征也加入到位置融合处理过程中，避免丢失浅层特征的相关性。

根据本公开的另一示例性实施例，从第二初始特征图中确定目标像素点，并从目标街景图像中确定与目标像素点对应的目标街景图像点；将目标街景图像点的像素值添加至目标像素点的像素值，以进行位置融合处理。目标像素点可以是从第二初始特征图中确定出的一个像素点，在对特征图进行位置融合处理时，可以从特征图中确定所有特征点，并逐一进行位置融合处理，本公开以对目标像素点的处理过程为例进行说明。由于BEV图像对应的特征图中的每一个像素点均可以对应到BEV图中的一个矩形。矩形中心点可以是目标像素点在鸟瞰图像中对应的矩形的中心点。目标街景像素点可以是从目标街景图像的特征图中确定出的与目标像素点对应的像素点。

由于BEV图像与image图像投影的方向不一致，同一个物体在两个特征图上的位置是不一样的，因此，对image图像的特征图与BEV图像的特征图的位置融合处理无法通过直接相加的融合方式实现。参考图4，在步骤S440中，将image图像对应的第一特征图与BEV图像对应的第二特征图的位置融合处理过程为：首先，从BEV图像的特征图中确定一个目标像素点，通常，每一个像素点在BEV图像中对应一个矩形，该矩形的矩形中心点可以代表该目标像素点。其次，根据目标像素点可以在目标街景图像的特征图中确定出目标街景图像点。再次，将目标街景像素点的像素值数值添加至BEV图像的特征图中目标像素点的像素值中，即可进行针对image图像的特征图与BEV图像的特征图的位置融合处理。采用该位置融合处理过程，可以使前融合处理的anchor-free，减少由于设置anchor而产生的计算代价，提升计算效率。

本领域技术人员容易理解的是，对第一特征子图2和与之对应的第二特征子图2的位置融合处理，均可以采用上述的位置融合处理步骤进行，本公开对此不再赘述。

根据本公开的又一示例性实施例，确定目标像素点在世界坐标系中对应的目标方格；并从目标方格中确定目标街景图像对应的最高位置点；将最高位置点在相机坐标系中的投影作为目标街景图像点。世界坐标系是系统的绝对坐标系。相机坐标系是以相机的聚焦中心为原点，以光轴为Z轴建立的三维直角坐标系。目标方格可以是根据目标像素点对应的矩形在世界坐标系中确定出的竖直方格。最高位置点可以是在目标方格中确定出的Z轴的位置坐标值最高的点。

具体的，根据目标像素点可以在目标街景图像的特征图中确定出目标街景图像点的过程可以为：由于目标像素点在BEV图像的特征图中可以对应一个矩形，根据该矩形可以在世界坐标系中确定出对应的一个竖直方格，在该竖直方格中找到点云图像中位置最高的点，点云图像中位置最高的点在相机坐标系中的投影就是这个目标像素点在image图像上对应的点。确定出image点在对应的image图像的特征图上的对应像素点，即为目标街景图像点。

在步骤S150中，对目标特征图进行检测框预测处理，以确定目标街景图像中的像素点信息。

在本公开的一些示例性实施方式中，检测框预测处理可以通过神经网络模型对目标特征图进行的回归处理，以确定目标街景图像中包含的像素点的像素点信息。像素点信息可以是目标街景图像中包含的像素点的位置信息和类别信息。位置信息可以包括像素点的位置坐标，例如，位置信息可以是目标街景图像中像素点的三维(three dimensional，3D)位置坐标。类别信息可以是像素点对应的物体类别，例如，物体类别可以包括行人、机动车、非机动车等。

参考图4，在步骤S460中，可以通过一个3层的MLP对目标特征图进行检测框预测处理；在步骤S470中，由3层的MLP输出目标街景图像中的像素点信息。

根据本公开的一些示例性实施例，将目标特征图输入至多层感知机；通过多层感知机的全连接层对目标特征图进行检测框预测处理，以确定目标街景图像中的位置信息和类别信息。多层感知机(Multi-Layer Perceptron，MLP)可以是对目标特征图进行回归处理的神经网络模型。MLP通常可以包括输入层、输出层和隐含层，MLP层与层之间是全连接的。例如，将目标特征图输入至MLP模型中，MLP模型的全连接层可以对目标特征图进行回归处理，由MLP模型输出像素点对应的物体类别的置信度(confidence)和位置坐标信息；其中，根据物体类别的置信度可以确定出像素点对应的物体类别，位置坐标信息可以包括像素点对应的矩形的左上角位置坐标(x1，y1，z1)和右下角位置坐标(x2，y2，z2)。

需要说明的是，本公开所使用的术语“第一”、“第二”等，仅是为了区分不同的特征提取模型、不同特征提取模型中包含的卷积层、不同的预设数量以及不同的特征图等等，并不应对本公开造成任何限制。

综上所述，获取目标街景图像以及目标街景图像对应的鸟瞰图像；其中，鸟瞰图像基于目标街景图像对应的点云图像确定；将目标街景图像输入至第一特征提取模型，以确定目标街景图像对应的第一特征图；将鸟瞰图像输入至第二特征提取模型，以确定鸟瞰图像对应的第二初始特征图；根据第一特征图对第二初始特征图进行位置融合处理，以得到目标特征图；对目标特征图进行检测框预测处理，以确定目标街景图像中的像素点信息。通过本公开的多源信息融合方法，一方面，根据第一特征图对第二初始特征图进行位置融合处理，可以在融合过程中，结合浅层抽象特征，使得图像中包含的信息更加准确；另一方面，将第一特征图与第二特征图进行位置融合的方法，可以在确定检测框的过程中，无需预先设置锚点，可以减少由于设置锚点所产生的计算代价，提升计算效率。

需要说明的是，尽管在附图中以特定顺序描述了本发明中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

此外，在本示例实施例中，还提供了一种多源信息融合装置。参考图6，该多源信息融合装置600可以包括：图像获取模块610、第一特征图确定模块620、第二特征图确定模块630、目标特征图确定模块640以及信息确定模块650。

具体的，图像获取模块610可以用于获取目标街景图像以及目标街景图像对应的鸟瞰图像；其中，鸟瞰图像基于目标街景图像对应的点云图像确定；第一特征图确定模块620可以用于将目标街景图像输入至第一特征提取模型，以确定目标街景图像对应的第一特征图；第二特征图确定模块630可以用于将鸟瞰图像输入至第二特征提取模型，以确定鸟瞰图像对应的第二初始特征图；目标特征图确定模块640可以用于根据第一特征图对第二初始特征图进行位置融合处理，以得到目标特征图；信息确定模块650可以用于对目标特征图进行检测框预测处理，以确定目标街景图像中的像素点信息。

多源信息融合装置600可以确定出目标街景图像的第一特征图与鸟瞰图像的第二初始特征图，对第一特征图和第二初始特征图进行位置融合处理，可以得到目标特征图，在进行位置融合处理的过程中，保持了浅层特征的相关性，并且，通过位置融合处理过程，可以减少由于设置锚点以保证检测框的准确性所造成的计算代价，提高计算效率，是一种行之有效的多源信息融合装置。

在本公开的一种示例性实施方案中，第一特征图确定模块包括第一特征图确定单元，用于将目标街景图像输入至第一特征提取模型；其中，第一特征提取模型包括第一数量个第一卷积层；通过各第一卷积层对目标街景图像进行特征提取处理，以得到各第一卷积层分别对应的第一特征子图。

在本公开的一种示例性实施方案中，第二特征图确定模块包括第二特征图确定单元，用于将鸟瞰图像输入至第二特征提取模型；其中，第二特征提取模型包含第一数量个第二卷积层；由第二特征提取模型中处于第一层的第二卷积层对鸟瞰图像进行特征提取处理，以得到第二初始特征图。

在本公开的一种示例性实施方案中，目标特征图确定模块包括目标特征图确定单元，用于对第一特征图与第二初始特征图进行位置融合处理，以得到初始融合特征图；由第二特征提取模型中的除处于第一层的第二卷积层之外的其他第二卷积层对初始融合特征图进行特征提取处理，以得到中间特征图；将第一特征图与中间特征图进行位置融合处理，以得到中间融合特征图；通过第二数量个反卷积层对中间融合特征图进行反卷积处理，以得到目标特征图。

在本公开的一种示例性实施方案中，目标特征图确定单元包括融合处理子单元，用于从第二初始特征图中确定目标像素点，并从目标街景图像中确定与目标像素点对应的目标街景图像点；将目标街景图像点的像素值添加至目标像素点的像素值，以进行位置融合处理。

在本公开的一种示例性实施方案中，融合处理子单元包括图像点确定子单元，用于确定目标像素点在世界坐标系中对应的目标方格；并从目标方格中确定目标街景图像对应的最高位置点；将最高位置点在相机坐标系中的投影作为目标街景图像点。

在本公开的一种示例性实施方案中，信息确定模块包括信息确定单元，用于将目标特征图输入至多层感知机；通过多层感知机的全连接层对目标特征图进行检测框预测处理，以确定目标街景图像中的位置信息和类别信息。

上述中各虚拟多源信息融合装置模块的具体细节已经在对应的多源信息融合方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了多源信息融合装置的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施例、完全的软件实施例(包括固件、微代码等)，或硬件和软件方面结合的实施例，这里可以统称为“电路”、“模块”或“系统”。

下面参考图7来描述根据本发明的这种实施例的电子设备700。图7显示的电子设备700仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于：上述至少一个处理单元710、上述至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730、显示单元740。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元710执行，使得所述处理单元710执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。

存储单元720可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)721和/或高速缓存存储单元722，还可以进一步包括只读存储单元(ROM)723。

存储单元720可以包括具有一组(至少一个)程序模块725的程序/实用工具724，这样的程序模块725包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线730可以表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备700也可以与一个或多个外部设备770(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备700交互的设备通信，和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且，电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器760通过总线730与电子设备700的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备700使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。

参考图8所示，描述了根据本发明的实施例的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种多源信息融合方法，其特征在于，包括：

获取目标街景图像以及所述目标街景图像对应的鸟瞰图像；其中，所述鸟瞰图像基于所述目标街景图像对应的点云图像确定；

将所述目标街景图像输入至第一特征提取模型，以确定所述目标街景图像对应的第一特征图；

将所述鸟瞰图像输入至第二特征提取模型，以确定所述鸟瞰图像对应的第二初始特征图；

根据所述第一特征图对所述第二初始特征图进行位置融合处理，以得到目标特征图；

对所述目标特征图进行检测框预测处理，以确定所述目标街景图像中的像素点信息。

2.根据权利要求1所述的多源信息融合方法，其特征在于，所述第一特征图包括多个第一特征子图，所述将所述目标街景图像输入至第一特征提取模型，以确定所述目标街景图像对应的第一特征图，包括：

将所述目标街景图像输入至所述第一特征提取模型；其中，所述第一特征提取模型包括第一数量个第一卷积层；

通过各所述第一卷积层对所述目标街景图像进行特征提取处理，以得到各所述第一卷积层分别对应的第一特征子图。

3.根据权利要求1所述的多源信息融合方法，其特征在于，所述将所述鸟瞰图像输入至第二特征提取模型，以确定所述鸟瞰图像对应的第二初始特征图，包括：

将所述鸟瞰图像输入至所述第二特征提取模型；其中，所述第二特征提取模型包含第一数量个第二卷积层；

由所述第二特征提取模型中处于第一层的第二卷积层对所述鸟瞰图像进行特征提取处理，以得到所述第二初始特征图。

4.根据权利要求3所述的多源信息融合方法，其特征在于，所述第二特征提取模型包括第二数量个反卷积层，所述根据所述第一特征图对所述第二初始特征图进行位置融合处理，以得到目标特征图，包括：

对所述第一特征图与所述第二初始特征图进行位置融合处理，以得到初始融合特征图；

由所述第二特征提取模型中的除处于第一层的第二卷积层之外的其他第二卷积层对所述初始融合特征图进行特征提取处理，以得到中间特征图；

将所述第一特征图与所述中间特征图进行位置融合处理，以得到中间融合特征图；

通过所述第二数量个反卷积层对所述中间融合特征图进行反卷积处理，以得到所述目标特征图。

5.根据权利要求4所述的多源信息融合方法，其特征在于，所述对所述第一特征图与所述第二初始特征图进行位置融合处理，包括：

从所述第二初始特征图中确定目标像素点，并从所述目标街景图像中确定与目标像素点对应的目标街景图像点；

将所述目标街景图像点的像素值添加至所述目标像素点的像素值，以进行所述位置融合处理。

6.根据权利要求5所述的多源信息融合方法，其特征在于，所述从所述目标街景图像中确定与目标像素点对应的目标街景图像点，包括：

确定所述目标像素点在世界坐标系中对应的目标方格；并从所述目标方格中确定所述目标街景图像对应的最高位置点；

将所述最高位置点在相机坐标系中的投影作为所述目标街景图像点。

7.根据权利要求1所述的多源信息融合方法，其特征在于，所述像素点信息包括位置信息和类别信息，所述对所述目标特征图进行检测框预测处理，以确定所述目标街景图像中的像素点信息，包括：

将所述目标特征图输入至多层感知机，并通过所述多层感知机的全连接层对所述目标特征图进行处理；

输出所述目标特征图对应的所述位置信息和所述类别信息。

8.一种多源信息融合装置，其特征在于，包括：

图像获取模块，获取目标街景图像以及所述目标街景图像对应的鸟瞰图像；其中，所述鸟瞰图像基于所述目标街景图像对应的点云图像确定；

第一特征图确定模块，用于将所述目标街景图像输入至第一特征提取模型，以确定所述目标街景图像对应的第一特征图；

第二特征图确定模块，用于将所述鸟瞰图像输入至第二特征提取模型，以确定所述鸟瞰图像对应的第二初始特征图；

目标特征图确定模块，用于根据所述第一特征图对所述第二初始特征图进行位置融合处理，以得到目标特征图；

信息确定模块，用于对所述目标特征图进行检测框预测处理，以确定所述目标街景图像中的像素点信息。

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现根据权利要求1至7中任一项所述的多源信息融合方法。

10.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据权利要求1至7中任一项所述的多源信息融合方法。