CN110929692B

CN110929692B - 一种基于多传感器信息融合的三维目标检测方法及装置

Info

Publication number: CN110929692B
Application number: CN201911269486.8A
Authority: CN
Inventors: 朱明�; 王佳荣
Original assignee: Changchun Institute of Optics Fine Mechanics and Physics of CAS
Current assignee: Changchun Institute of Optics Fine Mechanics and Physics of CAS
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2022-05-24
Anticipated expiration: 2039-12-11
Also published as: CN110929692A

Abstract

本发明公开了一种基于多传感器信息融合的三维目标检测方法、装置、设备及计算机可读存储介质，包括：融合激光雷达与摄像头传感器采集到的3D点云与RGB图像，生成RGB‑I图像；根据3D点云生成多通道鸟瞰图，从而确定感兴趣区域；基于卷积神经网络分别提取并融合RGB‑I图像与鸟瞰图的感兴趣区域特征；利用多层感知机基于感兴趣区域特征融合图像预测目标的置信度、大致位置及尺寸，确定候选框；基于注意力机制自适应赋予不同传感器候选框特征图不同的像素权重，进行跳跃式融合；利用多层感知机处理候选框特征融合图像，输出三维检测结果。本发明所提供的方法、装置、设备及计算机可读存储介质，提高了目标识别率，可获得目标精确定位。

Description

一种基于多传感器信息融合的三维目标检测方法及装置

技术领域

本发明涉及自动驾驶技术领域，特别是涉及一种基于多传感器信息融合的三维目标检测方法、装置、设备以及计算机可读存储介质。

背景技术

以预防、智能为核心的自动驾驶技术已成为现代交通的迫切需求，解决智能车在复杂场景下多目标识别和三维定位，是三维环境感知的关键，是车辆安全、可靠行驶的前提。传统的单一传感器很难对场景中的动态或静态的目标进行及时和准确地识别与检测，则多传感器联合检测，优势互补是智能感知的趋势。目前，基于多传感器的三维目标检测技术仍存在源数据初始特征提取不充分；多模态数据匹配融合方式简单低效；复杂道路交通工况下，感知性能易受距离、形变、尺度变化、重叠、遮挡等因素的影响等难点。

综上所述可以看出，如何充分高效的利用多传感器信息，减少智能车在复杂场景下对目标的漏检、误检率，提高识别率同时实现检测目标的精确定位是目前有待解决的问题。

发明内容

本发明的目的是提供一种基于多传感器信息融合的三维目标检测方法、装置、设备以及计算机可读存储介质，以解决现有技术中多模态数据匹配融合粗糙低效和复杂环境下三维目标无法精确识别和定位的问题。

为解决上述技术问题，本发明提供一种基于多传感器信息融合的三维目标检测方法，包括：分别获取智能车上安装的激光雷达与摄像头传感器采集到的预设环境区域内的3D点云与RGB图像，将所述RGB图像与所述3D点云中的反射率进行融合，生成RGB-I图像；根据所述3D点云生成鸟瞰图，并依据所述鸟瞰图确定感兴趣区域；利用卷积神经网络提取所述RGB-I图像与所述鸟瞰图的特征图后，获取并融合所述RGB-I图像的感兴趣区域特征图与所述鸟瞰图的感兴趣区域特征图，得到感兴趣区域特征融合图像；利用多层感知机处理所述感兴趣区域特征融合图像，以初步预测所述预设环境区域中目标的置信度、三维大小与位置，生成候选框，并根据所述目标的置信度与预设置信度阈值，对所述候选框进行筛选；基于注意力机制自适应地赋予所述RGB-I图像的候选框特征图与所述鸟瞰图的候选框特征图不同的像素权重后，对加权处理后的所述RGB-I图像的候选框特征图与所述鸟瞰图的候选框特征图进行跳跃式融合，得到候选框特征融合图像；利用多层感知机对所述候选框特征融合图像进行处理，获取所述候选框特征融合图像中目标对象的类别、三维尺寸、三维位置与运动方向。

优选地，所述将所述RGB图像与所述3D点云中的反射率进行融合，生成RGB-I图像包括：

通过根据所述激光雷达与所述摄像头传感器间的位置关系预先标定得到的外部参数，将所述3D点云从三维激光雷达坐标系转换至相机坐标系；

将所述相机坐标系下的3D点云投影至所述RGB图像，确定所述3D点云的每个激光雷达点在所述RGB图像的对应位置；其中，每个位置的像素由R、G、B三个通道组成；

将所述3D点云的每个激光雷达点的反射强度作为所述RGB图像中对应位置的第四通道，生成RGB-I图像。

优选地，所述利用卷积神经网络提取所述RGB-I图像与所述鸟瞰图的特征图后，获取并融合所述RGB-I图像的感兴趣区域特征图与所述鸟瞰图的感兴趣区域特征图，得到感兴趣区域特征融合图像包括：

利用所述卷积神经网络分别提取所述RGB-I图像与所述鸟瞰图的特征，得到所述RGB-I图像的特征图与所述鸟瞰图的特征图；

将所述感兴趣区域分别投影至所述RGB-I图像的特征图与所述鸟瞰图的特征图，得到所述RGB-I图像的感兴趣区域特征图与所述鸟瞰图的感兴趣区域特征图；

将所述RGB-I图像的感兴趣区域特征图与所述鸟瞰图的感兴趣区域特征图调整至固定尺寸后进行融合，得到所述感兴趣区域特征融合图像。

优选地，所述基于注意力机制自适应地赋予多所述RGB-I图像的候选框特征图与所述鸟瞰图的候选框特征图不同的像素权重后，对所述RGB-I图像的候选框特征图与所述鸟瞰图的候选框特征图进行跳跃式融合，得到候选框特征融合图像包括：

将所述候选框分别投影至所述RGB-I图像的特性图与所述鸟瞰图的特征图，得到所述RGB-I图像的候选框特征图与所述鸟瞰图的候选框特征图；

将所述RGB-I图像的候选框特征图与所述鸟瞰图的候选框特征图调整至固定尺寸后，基于所述注意力机制自适应地赋予所述RGB-I图像的候选框特征图与所述鸟瞰图的候选框特征图不同的像素权重；

完成候选框权重赋予后，对所述RGB-I图像的候选框特征图与所述鸟瞰图的候选框特征图进行跳跃式融合，得到候选框特征融合图像。

优选地，所述基于所述注意力机制自适应地赋予所述RGB-I图像的候选框特征图与所述鸟瞰图的候选框特征图不同的像素权重包括：

采用全局平均池化操作对当前候选框特征图

依据空间维度H×W进行聚合，生成通道描述符P_avg∈R^(C×1×1)；

利用预建多层感知器对所述通道描述符进行解码操作，得到一维注意力图；其中，所述预建多层感知器包括神经元为C/r×H×W的全连接层、ReLU函数、神经元为C×H×W的全连接层、sigmoid函数；

对所述一维注意力图进行整形操作后，得到元素注意图M∈R^(C×H×W)；

将所述元素注意图与所述当前候选框特征图相乘后，得到对所述当前候选框特征图中每个元素进行赋值加权处理后的特征图；

其中，C、H、W分别为所述当前候选框特征图的通道数、高、宽；r为还原比。

优选地，所述对加权处理后的所述RGB-I图像的候选框特征图与所述鸟瞰图的候选框特征图进行跳跃式融合，得到候选框特征融合图像包括：

将所述RGB-I图像的候选框特征图与所述鸟瞰图的候选框特征图的均值分别输入第一全连接层与第二全连接层；

将所述第一全连接层的输出特征图与所述第二全连接层的输出特征图的均值分别输入第三全连接层与所述第四全连接层后，计算所述第三全连接层的输出特征图与所述第四全连接层的输出特征图的均值，得到中间特征图；

计算所述RGB-I图像的候选框特征图、所述鸟瞰图的候选框特征图与所述中间特征图的均值，得到所述候选框特征融合图像。

本发明还提供了一种基于多传感器信息融合的三维目标检测装置，包括：

第一融合模块，用于分别获取智能车上安装的激光雷达与摄像头传感器采集到的预设环境区域内的3D点云与RGB图像，将所述RGB图像与所述3D点云中的反射率进行融合，生成RGB-I图像；

确定模块，用于根据所述3D点云生成鸟瞰图，并依据所述鸟瞰图确定感兴趣区域；

第二融合模块，用于利用卷积神经网络提取所述RGB-I图像与所述鸟瞰图的特征图后，获取并融合所述RGB-I图像的感兴趣区域特征图与所述鸟瞰图的感兴趣区域特征图，得到感兴趣区域特征融合图像；

筛选模块，用于利用多层感知机处理所述感兴趣区域特征融合图像，以初步预测所述预设环境区域中目标的置信度、三维大小与位置，生成候选框，并根据所述目标的置信度与预设置信度阈值，对所述候选框进行筛选；

第三融合模块，用于基于注意力机制自适应地赋予所述RGB-I图像的候选框特征图与所述鸟瞰图的候选框特征图不同的像素权重后，对所述RGB-I图像的候选框特征图与所述鸟瞰图的候选框特征图进行跳跃式融合，得到候选框特征融合图像；

获取模块，用于利用多层感知机对所述候选框特征融合图像进行处理，获取所述候选框特征融合图像中目标对象的类别、三维尺寸、三维位置与运动方向。

优选地，所述第一融合模块包括：

转换单元，用于通过根据所述激光雷达与所述摄像头传感器间的位置关系预先标定得到的外部参数，将所述3D点云从三维激光雷达坐标系转换至相机坐标系；

第一投影单元，用于将所述相机坐标系下的3D点云投影至所述RGB图像，确定所述3D点云的每个激光雷达点在所述RGB图像的对应位置；其中，每个位置的像素由R、G、B三个通道组成；

生成单元，用于将所述3D点云的每个激光雷达点的反射强度作为所述RGB图像中对应位置的第四通道，融合生成RGB-I图像。

本发明还提供了一种基于多传感器信息融合的三维目标检测设备，包括：

存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现上述一种基于多传感器信息融合的三维目标检测方法的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述一种基于多传感器信息融合的三维目标检测方法的步骤。

本发明所提供的基于多传感器信息融合的三维目标检测方法，采用激光雷达与摄像头传感器采集预设环境区域内的3D点云与RGB图像。将所述3D点云与所述RGB图像进行融合，生成RGB-I图像。基于3D点云生成鸟瞰图，根据所述鸟瞰图确定感兴趣区域。利用卷积神经网络分别提取所述RGB-I图像与所述鸟瞰图的特征图后，获取并融合所述RGB-I图像的感兴趣区域特征图与所述鸟瞰图的感兴趣区域特征图，得到感兴趣区域特征融合图像。利用多层感知机处理多幅感兴趣区域特征融合图像，以初步预测所述预设环境区域中的目标的置信度、位置与三维大小，生成候选框，并根据所述目标的置信度与所述预设置信度阈值，对所述候选框进行筛选根据所述RGB-I图像与所述鸟瞰图的特征图，确定所述RGB-I图像的候选框特征图与所述鸟瞰图的候选框特征图。利用注意力机制自适应地赋予所述RGB-I图像的候选框特征图与所述鸟瞰图的候选框特征图不同的权重后，将所述RGB-I图像的候选框特征图与所述鸟瞰图的候选框特征图进行跳跃式融合，得到候选框特征融合图像。最后，利用多层感知机对所述候选框特征融合图像进行处理，获取所述候选框特征融合图像中目标对象的类别、三维尺寸、三维位置与运动方向。本发明所提供的方法，采用激光雷达和摄像头传感器，基于深度学习，对3D点云和RGB图像进行了多阶段互补、精细和有导向的融合。本发明突破了单一传感器的局限，并结合卷积神经网络、多层感知机、注意力机制等对多传感器数据进行分析、综合、平衡，根据多模态数据在时间和空间冗余或互补特性进行容错处理，扩大系统的时频覆盖范围和数据资源，得到更准确、更稳定、更关键的环境信息。本发明构建了智能多目标识别与三维定位方法，利用神经网络强大的自学习和特征提取能力对融合后的多传感器数据进行处理，解决了自动驾驶场景下目标密集、尺度跨度大、遮挡、实时检测等难点，提升识别率和定位精度，降低漏检、误检率。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的基于多传感器信息融合的三维目标检测方法的第一种具体实施例的流程图；

图2为本发明所提供的基于多传感器信息融合的三维目标检测方法的第二种具体实施例的流程图；

图3为本发明所提供的基于多传感器信息融合的三维目标检测方法的技术框图；

图4为所述注意力模块的结构示意图；

图5为RGB-I图像与鸟瞰图的候选框特征图跳跃式融合的示意图；

图6为本发明实施例提供的一种基于多传感器信息融合的三维目标检测装置的结构框图。

具体实施方式

本发明的核心是提供一种基于多传感器信息融合的三维目标检测的方法、装置、设备以及计算机可读存储介质，提高了自动驾驶场景下的目标识别率，并可精确定位目标。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明所提供的基于多传感器信息融合的三维目标检测方法的第一种具体实施例的流程图；具体操作步骤如下：

步骤S101：分别获取智能车上安装的激光雷达与摄像头传感器采集到的预设环境区域内的3D点云与RGB图像，将所述RGB图像与所述3D点云中的反射率进行融合，生成RGB-I图像；

步骤S102：根据所述3D点云生成鸟瞰图，并依据所述鸟瞰图确定感兴趣区域；

步骤S103：利用卷积神经网络提取所述RGB-I图像与所述鸟瞰图的特征图后，获取并融合所述RGB-I图像的感兴趣区域特征图与所述鸟瞰图的感兴趣区域特征图，得到感兴趣区域特征融合图像；

步骤S104：利用多层感知机处理所述感兴趣区域特征融合图像，以预测所述预设环境区域中目标的置信度、三维大小与位置，生成候选框，并根据所述目标的置信度与预设置信度阈值，对所述候选框进行筛选；

步骤S105：基于注意力机制自适应地赋予所述RGB-I图像的候选框特征图与所述鸟瞰图的候选框特征图不同的像素权重后，对所述RGB-I图像的候选框特征图与所述鸟瞰图的候选框特征图进行跳跃式融合，得到候选框特征融合图像；

步骤S106：利用多层感知机对所述候选框特征融合图像进行处理，获取所述候选框特征融合图像中目标对象的类别、三维尺寸、三维位置与运动方向。

本实施例构建了智能多目标识别与三维定位方法，利用神经网络强大的自学习和特征提取能力对环境信息进行处理，解决了自动驾驶场景下目标密集、尺度跨度大、遮挡、实时检测等难点，提升识别率和定位精度，降低漏检、误检率。

基于上述实施例，在本实施例中，对获取所述RGB-I图像与所述鸟瞰图的感兴趣区域特征或候选框特征时，通过将所述感兴趣区域或所述候选框投影至所述RGB-I图像与所述鸟瞰图的特征图上获取。采用不同的多级全连接网络，实现所述RGB-I图像与所述鸟瞰图的感兴趣区域特征或候选框特征的融合。

请参考图2和图3，图2为本发明所提供的基于多传感器信息融合的三维目标检测方法的第二种具体实施例的流程图，图3为本发明所提供的基于多传感器信息融合的三维目标检测方法的技术框图；具体操作步骤如下：

步骤S201：分别获取智能车上安装的激光雷达与摄像头传感器采集到的预设环境区域内的3D点云与RGB图像，将所述RGB图像与所述3D点云中的反射率进行融合，生成RGB-I图像；

在预处理阶段，若全面融合原始数据层信息，则运算量较大，且信息冗余度高，严重影响算法效率。因此本实施例设计选择性融合以取代全局融合。根据激光雷达和摄像头之间的空间几何关系，创新性地将所述3D点云的反射强度信息添加到对应的RGB图像中，使图片具备更丰富的光谱信息。

在预融合时，通过根据所述激光雷达与所述摄像头传感器间的位置关系预先标定得到的外部参数，将所述3D点云从三维激光雷达坐标系转换至相机坐标系。其次，将所述相机坐标系下的3D点云投影至所述RGB图像，确定所述3D点云的每个激光雷达点在所述RGB图像的对应位置；其中，每个位置的像素由R、G、B三个通道组成。将转换坐标后的对应3D点的反射强度作为第四个通道，得到新颖的RGB-I表达形式，以很少的额外计算成本完成了选择性预融合。

通过下述公式：

将所述3D点云从三维激光雷达坐标系转换至相机坐标系，将所述相机坐标系下的3D点云投影至所述RGB图像；其中，(x,y,z)为激光雷达坐标系中的三维点坐标，(u,v)为对应于(x,y,z)的相机图像像素坐标；

为从激光雷达坐标系变换至相机坐标系的外参矩阵，由旋转矩阵

和平移矩阵

组成。P_rect为将相机坐标系中的3D点转变成相机坐标系下的2D点的投影矩阵。

步骤S202：根据所述3D点云生成鸟瞰图，并依据所述鸟瞰图确定感兴趣区域；

在预处理阶段，基于原始激光雷达点云转换成六通道的的鸟瞰图(BEV，Bird EyeView)形式，采用锚机制基于BEV图生成感兴趣区域ROI(Region Of Interest)。即把探测范围内的三维空间划分为若干个三维矩形区域。本发明可以0.5m为采样间隔距离，每个采样点生成4个三维锚点，由2种尺度大小和2种长宽比例组成，以此匹配车、人、自行车等不同尺度的目标。

步骤S203：利用卷积神经网络分别提取所述RGB-I图像与所述鸟瞰图的特征，得到所述RGB-I图像的特征图与所述鸟瞰图的特征图；

步骤S204：将所述感兴趣区域分别投影至所述RGB-I图像的特征图与所述鸟瞰图的特征图，得到所述RGB-I图像的感兴趣区域特征图与所述鸟瞰图的感兴趣区域特征图；

步骤S205：将所述RGB-I图像的感兴趣区域特征图与所述鸟瞰图的感兴趣区域特征与图调整至固定尺寸后进行融合，得到所述感兴趣区域特征融合图像；

在所述初步筛选阶段，利用卷积神经网络分别对RGB-I和鸟瞰图进行特征提取，得到具有强语义信息和高分辨的特征图。将预处理阶段预测得到的感兴趣区域分别投影到两个特征图上，经裁剪、缩放分别得到固定尺寸的代表不同传感器的感兴趣区域特征，将其拼接在一起以实现特征级的充分融合。

步骤S206：利用多层感知机处理所述感兴趣区域特征融合图像，以初步预测所述预设环境区域中目标的置信度、三维大小与位置，生成候选框，并根据所述目标的置信度与预设置信度阈值，对所述候选框筛选；

在初步筛选阶段，设计弱检测网络根据感兴趣区域融合特征实现初步预测。经预处理阶段融合后的特征分别经由两组网络分支进行三维边界框回归和二元分类。其中回归分支估计(Δc_X,Δc_Y,Δc_Z,Δd_X,Δd_Y,Δd_Z)，表示感兴趣区域和目标在中心点和尺寸之间的差异；分类分支预测感兴趣区域包含目标的概率，确定此区域是目标还是背景。根据预测出的回归量对感兴趣区域进行解码操作，生成相应候选框。结合预测的目标概率，利用非极大值抑制算法对候选框进行筛选。

步骤S207：将所述候选框分别投影至所述RGB-I图像的特征图与所述鸟瞰图的特征图，得到所述RGB-I图像的候选框特征图与所述鸟瞰图的候选框特征图；

步骤S208：将所述RGB-I图像的候选框特征图与所述鸟瞰图的候选框特征图调整至尺寸一致后，基于所述注意力机制自适应地赋予所述RGB-I图像的候选框特征图与所述鸟瞰图的候选框特征图不同的像素权重；

在精细预测阶段，将初步筛选阶段预测得到的候选框分别投影RGB-I和鸟瞰图对应的特征图上，通过裁剪和缩放得到固定尺寸的推荐候选框特征。在目前的基于多传感器的方法中，代表不同传感器的候选框特征的权重在融合时是固定的，这不可避免地影响了关键信息的表达，限制了算法对各种情况的自适应能力。本实施例针对上述问题设计了注意力模块，通过对来自不同传感器数据的每个候选框特征图进行学习，判断其中每一像素的重要度和可信度，并依此赋权重值。即让注意力模型作为特征选择器，增加有用信息的贡献，抑制无用干扰，所述注意力模块的结构如图4所示。

注意力模块由编码部分和解码部分组成：针对候选框

首先使用全局平均池化操作对其按空间维度(H×W)进行聚合，生成通道描述符P_avg∈R^(C×1×1)，完成候选框特征图编码操作。然后，使用全连接层和激活函数组成的多层感知器对其进行解码操作，得到一维(1D)注意力图。其中全连接层逐层增加尺寸，第一层神经元是(C/r×H×W)，后接ReLU函数。第二层神经元为(C×H×W)，后接sigmoid函数，其中r为还原比。最后对一维(1D)注意图进行整形操作，将其转换为元素注意图M∈R^(C×H×W)，该元素注意图的维数与输入P相同。将其与P相乘，则实现了对输入候选框特征图的每个元素进行赋值加权处理，使处理后的特征富含关键且有效的目标信息。

步骤S209：完成候选框权重赋予后，对加权处理后的所述RGB-I图像的候选框特征图与所述鸟瞰图的候选框特征图进行跳跃式融合，得到候选框特征融合图像；

如图5所示，对所述RGB-I图像的候选框特征图与所述鸟瞰图的候选框特征图进行跳跃式融合时，首先，对所述RGB-I图像的候选框特征图与所述鸟瞰图的候选框特征图求和取均值，使用两个独立的全连接层学习取均值之后的特征。然后，重复上述操作一次，得到中间输出。最后，创新性地应用跳过连接对原始输入和中间输出进行融合，即对所述RGB-I图像的候选框特征图、所述鸟瞰图的候选框特征图与所述中间输出的求和取均值，使最终的融合结果既包含清晰的原始信息又具有反复抽象后的特征。随后将其传递到一系列全连接层中，用于最终的精细预测。

步骤S210：利用多层感知机对所述候选框特征融合图像进行处理，获取所述候选框特征融合图像中目标对象的类别、三维尺寸、三维位置与运动方向。

在精细预测阶段，设计强检测器基于融合后的候选框特征进行最终的精细预测。首先，将初步筛选阶段融合后的特征分别通过三个平行的全连接层进行处理，进行三维边界框精细回归、运动方向估计和类别分类。估计的方向由(cos(θ)，sin(θ))向量间接表示。三维边界框通过一个10维向量(Δx₁…Δx₄,Δy₁…Δy₄,Δh₁,Δh₂)进行编码，其分别表示从地面到底角的偏移量，在满足物理约束的同时减少了冗余。然后，利用非极大值抑制，根据预测的分类分数筛选出若干候选框，并将其基于预测出的回归量解码，得到最终的检测结果。

本实施例首先根据先验知识，对所述3D点云和所述RGB图像进行选择性的预融合，再基于融合数据预测出周围环境中的感兴趣区域；在初步筛选阶段，首先利用卷积神经网络模组对对预融合数据(RGB-I)和预处理数据(BEV)进行特征提取，然后将感兴趣区域对应的RGB-I和BEV特征区域进行充分融合，再根据融合特征进行目标三维大小和位置的初步预测，推荐多个候选框；在精细预测阶段，首先基于注意力机制，自适应地赋予来自不同传感器的候选框特征图不同的像素权重，再进行跳跃式融合。再根据融合的候选框特征图进行目标三维位置和尺寸细化、方向估计和类别分类，得到最终的三维检测结果。本实施例所设计的预处理阶段、初步筛选阶段、精细预测阶段采用级联形式，任务的难度和精细度逐阶提升，在各阶段分别采用特定的预融合、特征级融合、决策级融合方法和网络结构以配合不同的检测任务，使模型具有更好的鲁棒性和容错性，根据每个阶段融合后的数据分别进行进一步预测和学习，包括感兴趣区域生成、候选框推荐和预结果细化。融合和检测算法交替进行，嵌合在一起构成了一个端到端的兼具识别和三维定位功能的多传感器三维目标检测网络。本发明实施例可实时探测周围环境内的运动或静止目标物体(如汽车、行人、骑车人、树木、车道线等)的类别、三维位置和尺寸、运动方向等物理属性。

请参考图6，图6为本发明实施例提供的一种基于多传感器信息融合的三维目标检测装置的结构框图；具体装置可以包括：

第一融合模块100，用于分别获取智能车上安装的激光雷达与摄像头传感器采集到的预设环境区域内的3D点云与RGB图像，将所述RGB图像与所述3D点云中的反射率进行融合，生成RGB-I图像；

确定模块200，用于根据所述3D点云生成鸟瞰图，并依据所述鸟瞰图确定感兴趣区域；

第二融合模块300，用于利用卷积神经网络提取所述RGB-I图像与所述鸟瞰图的特征图后，获取并融合所述RGB-I图像的感兴趣区域特征图与所述鸟瞰图的感兴趣区域特征图，得到感兴趣区域特征融合图像；

筛选模块400，用于利用多层感知机处理所述感兴趣区域特征融合图像，以初步预测所述预设环境区域中目标的置信度、三维大小与位置，生成候选框，并根据所述目标的置信度与预设置信度阈值，对所述候选框进行筛选；

第三融合模块500，用于基于注意力机制自适应地赋予所述RGB-I图像的候选框特征图与所述鸟瞰图的候选框特征图不同的像素权重后，对所述RGB-I图像的候选框特征图与所述鸟瞰图的候选框特征图进行跳跃式融合，得到候选框特征融合图像；

获取模块600，用于利用多层感知机对所述候选框特征融合图像进行处理，获取所述候选框特征融合图像中目标对象的类别、三维尺寸、三维位置与运动方向。

本实施例的基于多传感器信息融合的三维目标检测装置用于实现前述的基于多传感器信息融合的三维目标检测方法，因此基于多传感器信息融合的三维目标检测装置中的具体实施方式可见前文中的基于多传感器信息融合的三维目标检测方法的实施例部分，例如，第一融合模块100，确定模块200，第二融合模块300，筛选模块400，第三融合模块500，获取模块600，分别用于实现上述基于多传感器信息融合的三维目标检测方法中步骤S101，S102，S103，S104，S105和S106，所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再赘述。

本发明具体实施例还提供了一种基于多传感器信息融合的三维目标检测设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现上述一种基于多传感器信息融合的三维目标检测方法的步骤。

本发明具体实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述一种基于多传感器信息融合的三维目标检测方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的基于多传感器信息融合的三维目标检测方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种基于多传感器信息融合的三维目标检测方法，其特征在于，包括：

分别获取智能车上安装的激光雷达与摄像头传感器采集到的预设环境区域内的3D点云与RGB图像，将所述RGB图像与所述3D点云中的反射率进行融合，生成RGB-I图像；

根据所述3D点云生成鸟瞰图，并依据所述鸟瞰图确定感兴趣区域；

利用卷积神经网络提取所述RGB-I图像与所述鸟瞰图的特征图后，获取并融合所述RGB-I图像的感兴趣区域特征图与所述鸟瞰图的感兴趣区域特征图，得到感兴趣区域特征融合图像；

利用多层感知机处理所述感兴趣区域特征融合图像，以初步预测所述预设环境区域中目标的置信度、三维大小与位置，生成候选框，并根据所述目标的置信度与预设置信度阈值，对所述候选框进行筛选；

基于注意力机制自适应地赋予所述RGB-I图像的候选框特征图与所述鸟瞰图的候选框特征图不同的像素权重后，对所述RGB-I图像的候选框特征图与所述鸟瞰图的候选框特征图进行跳跃式融合，得到候选框特征融合图像；

利用多层感知机对所述候选框特征融合图像进行处理，获取所述候选框特征融合图像中目标对象的类别、三维尺寸、三维位置与运动方向。

2.如权利要求1所述的方法，其特征在于，所述将所述RGB图像与所述3D点云中的反射率进行融合，生成RGB-I图像包括：

3.如权利要求1所述的方法，其特征在于，所述利用卷积神经网络提取所述RGB-I图像与所述鸟瞰图的特征图后，获取并融合所述RGB-I图像的感兴趣区域特征图与所述鸟瞰图的感兴趣区域特征图，得到感兴趣区域特征融合图像包括：

4.如权利要求1所述的方法，其特征在于，所述基于注意力机制自适应地赋予所述RGB-I图像的候选框特征图与所述鸟瞰图的候选框特征图不同的像素权重后，对所述RGB-I图像的候选框特征图与所述鸟瞰图的候选框特征图进行跳跃式融合，得到候选框特征融合图像包括：

完成候选框权重赋予后，对加权处理后的所述RGB-I图像的候选框特征图与所述鸟瞰图的候选框特征图进行跳跃式融合，得到候选框特征融合图像。

5.如权利要求4所述的方法，其特征在于，所述基于所述注意力机制自适应地赋予所述RGB-I图像的候选框特征图与所述鸟瞰图的候选框特征图不同的像素权重包括：

采用全局平均池化操作对当前候选框特征图

利用多层感知器对所述通道描述符进行解码操作，得到一维注意力图；其中，所述多层感知器包括神经元为C/r×H×W的全连接层、ReLU函数、神经元为C×H×W的全连接层、sigmoid函数；

6.如权利要求4所述的方法，其特征在于，所述对加权处理后的所述RGB-I图像的候选框特征图与所述鸟瞰图的候选框特征图进行跳跃式融合，得到候选框特征融合图像包括：

将所述第一全连接层的输出特征图与所述第二全连接层的输出特征图的均值分别输入第三全连接层与第四全连接层后，计算所述第三全连接层的输出特征图与所述第四全连接层的输出特征图的均值，得到中间特征图；

7.一种基于多传感器信息融合的三维目标检测装置，其特征在于，包括：

8.如权利要求7所述的装置，其特征在于，所述第一融合模块包括：

9.一种基于多传感器信息融合的三维目标检测设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至6任一项所述一种基于多传感器信息融合的三维目标检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述一种基于多传感器信息融合的三维目标检测方法的步骤。