CN113435232A

CN113435232A - 一种物体的检测方法、装置、设备及存储介质

Info

Publication number: CN113435232A
Application number: CN202010208631.8A
Authority: CN
Inventors: 张培崇; 许新玉
Original assignee: Beijing Jingdong Qianshi Technology Co Ltd
Current assignee: Beijing Jingdong Qianshi Technology Co Ltd
Priority date: 2020-03-23
Filing date: 2020-03-23
Publication date: 2021-09-24

Abstract

本发明实施例公开了一种物体的检测方法、装置、设备及存储介质，该物体的检测方法包括：获取当前车辆检测到的外部环境的点云数据和图像数据；基于第一预设神经网络模型，对所述点云数据和图像数据进行特征提取和特征融合，以生成融合特征图，并确定所述融合特征图的候选框和候选框概率；根据所述融合特征图中的候选框和候选框概率进行物体检测。本发明实施例的技术方案，通过点云和图像两种数据进行物体检测，提高了检测的全面性和准确度，并基于神经网络对两种数据进行特征提取和融合，从而根据融合后的特征图进行物体检测，提高了检测效率。

Description

一种物体的检测方法、装置、设备及存储介质

技术领域

本发明实施例涉及自动驾驶技术领域，尤其涉及一种物体的检测方法、装置、设备及存储介质。

背景技术

3D物体检测是自动驾驶感知模块的基础任务，对于自动驾驶系统有着举足轻重的地位。

现有的3D物体检测方法，主要分为基于图像的检测方法和基于点云数据的方法。基于图像的检测方法，单纯利用2D图像信息的三维物体检测，大多数是从2D图像推断出3D检测框，这种方法的准确率受限于深度估计的精度。基于点云数据的检测方法，与基于图像的检测方法相比，激光雷达提供可靠的深度信息，可以用于精确定位物体并表征它们的形状，然而点云数据具有无序性、分布不规则性等特征，检测方法较为复杂，且对于较小物体的检测分辨率不够。

综上，在实现本发明过程中，发明人发现现有技术中至少存在如下问题：现有的物体检测方法无法兼顾检测分辨率与计算效率，无法满足自动驾驶对精度和实时性的要求。

发明内容

本发明提供了一种物体的检测方法、装置、设备及存储介质，以提高物体检测的精度和实时性。

第一方面，本发明实施例提供了一种物体的检测方法，该方法包括：

获取当前车辆检测到的外部环境的点云数据和图像数据；

基于第一预设神经网络模型，对所述点云数据和图像数据进行特征提取和特征融合，以生成融合特征图，并确定所述融合特征图的候选框和候选框概率；

根据所述融合特征图中的候选框和候选框概率进行物体检测。

第二方面，本发明实施例还提供了一种物体的检测装置，该装置包括：

数据获取模块，用于获取当前车辆检测到的外部环境的点云数据和图像数据；

候选框确定模块，用于基于第一预设神经网络模型，对所述点云数据和图像数据进行特征提取和特征融合，以生成融合特征图，并确定所述融合特征图的候选框和候选框概率；

物体检测模块，用于根据所述融合特征图的候选框和候选框概率进行物体检测。

第三方面，本发明实施例还提供了一种物体的检测设备，该设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例提供的物体的检测方法。

第四方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行本发明任意实施例提供的物体的检测方法。

本发明实施例的技术方案，通过车辆的点云数据和图像数据两种数据进行物体检测，提高了物体检测的准确度和全面性；通过训练好的神经网络模型对点云数据和图像数据进行特征提取和特征融合，从而得到融合特征图，进而基于该融合特征图，确定其对应的候选框和候选框概率，根据该候选框和候选框概率进行物体检测，相对于传统的基于点云数据的物体检测方法，提高了检测效率、鲁棒性和准确度，从而有效保证了自动驾驶控制策略的实时性和准确性，提高了自动驾驶的安全性。

附图说明

图1是本发明实施例一中的一种物体的检测方法的流程图；

图2A是本发明实施例二中的一种物体的检测方法的流程图；

图2B是本发明实施例二中的一种自定义网络的结构示意图；

图2C是本发明实施例二中的一种物体的检测方法的流程图；

图3是本发明实施例三中的一种物体的检测装置的结构示意图；

图4是本发明实施例四中的一种物体的检测设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一提供的一种物体的检测方法的流程图，本实施例可适用于自动驾驶模式下对物体进行检测的情况，该方法可以由物体的检测装置来执行，如图1所示，该方法具体包括如下步骤：

步骤110、获取当前车辆检测到的外部环境的点云数据和图像数据。

其中，当前车辆可以是自动驾驶或无人驾驶中的车辆，如汽车、卡车等，当然，还可以是智能机器人。外部环境指的是当前车辆在自动驾驶时的车辆的外部环境，如城市道路环境、乡村环境、高速环境、校园环境、居民区环境等。点云数据指的是激光雷达采集的外部环境的数据，图像数据通常由车载相机进行采集。

具体的，可以同步获取激光雷达采集的所述外部环境的点云数据以及车载相机采集的图像数据。

步骤120、基于第一预设神经网络模型，对所述点云数据和图像数据进行特征提取和特征融合，以生成融合特征图，并确定所述融合特征图的候选框和候选框概率。

其中，第一预设神经网络模型可以是卷积神经网络模型，具体可以是区域候选网络模型。

可选的，所述第一预设神经网络模型包括：自定义网络、全连接神经网络和候选框确定模块；

其中，所述自定义网络为具有金字塔特征提取网络结构的inception网络，用于对所述点云数据和外部图像进行特征提取，以生成点云特征和图像特征；所述全连接神经网络，用于对所述点云特征和图像特征进行特征融合，以生成融合特征图；所述候选框确定模块，用于确定所述融合特征图的候选框和候选框概率。

可选的，所述第一预设神经网络模型为区域候选网络模型；相应的，所述候选框确定模块，具体用于：基于所述区域候选网络模型的锚点机制，确定所述融合特征图的候选框和候选框概率。

其中，区域候选网络模型(Region Proposal Network，RPN)的主要作用是用于区分图像中的前景(物体)和背景。具体的，所述区域候选网络模型主要用于根据输入数据生成特征图，并提取特征图中的候选框，其中，候选框对应的选中区域为图像中的物体，可以是行人、车辆或者障碍物等。

具体的，将所述点云数据和图像数据分别输入所述区域候选网络模型中，对点云数据和图像数据分别进行特征提取，之后将所得到的点云数据对应的特征以及图像数据对应的特征进行特征融合。其中，特征融合可以是将两种特征进行叠加，如取平均或者加权叠加，还可以是根据设定融合规则进行特征融合，得到融合特征图。

具体的，基于锚点机制，具体为：第一步、以融合特征图中各个点(锚点)为中心得到设定个数的预选框，其中，预选框的长宽比可以是1:1、1:2、2:1，长可以是128、256、512像素，当然也可以是其他数值，设定个数可以是9个、16个或者其他值；第二步、对各个预选框进行评估，以确定候选框以及候选框对应的预测分数或概率，进一步地，当预选框与groundtruth的IOU(Intersection over Union，重叠度)大于设定阈值时，则确定所述预选框为候选框，其中，设定阈值可以是0.7、0.8或者其他值，该重叠度即为预测分数或候选框概率。

进一步地，在得到各个候选框和候选框概率后，还可以通过对各个预测的候选框进行位置修正，以提高与ground truth的重叠度。

可选的，所述基于区域候选网络模型，对所述点云数据和图像数据进行特征提取和特征融合，以生成融合特征图，并基于区域候选网络的锚点机制，确定所述融合特征图的候选框和候选框概率，包括：

基于区域候选网络模型，分别对所述点云数据和外部图像进行特征提取，以生成点云特征和图像特征；基于区域候选网络模型，对所述点云特征和图像特征进行特征融合，以生成融合特征图；基于区域候选网络模型，并基于区域候选网络的锚点机制，确定所述融合特征图的候选框和候选框概率。

具体的，可以通过区域候选网络中的特征提取网络，如卷积神经网络，进行特征提取；再经由区域候选网络中的特征融合网络或者特征融合模块，如全连接神经网络，进行特征融合，从而得到融合特征图；进而对融合特征图中的各个特征进行预设锚点匹配，根据匹配结果确定候选框和候选框概率，其中，候选框中对应的选中区域为物体(前景)，候选框概率用于描述该选中区域属于物体的概率或者分数。

可选的，所述区域候选网络的训练过程包括：

基于KITTI数据集，获取所述区域候选网络的训练集，其中，所述训练集包括车辆在各种预设场景下采集的点云数据和图像数据，还可以包括所述点云数据和图像数据对应的融合特征图，所述预设场景可以包括市区场景、高速公路、乡村场景、校园场景和居民区场景；根据所述训练集以及设定损失函数对所述区域候选网络进行训练，以获取训练好的区域候选网络。

其中，KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办，是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。KITTI数据集市区、乡村和高速公路等场景采集的真实图像数据，每张图像中最多达15辆车和30个行人，还有各种程度的遮挡与截断，还包括在各种场景下采集的点云数据集。

具体的，可以通过KITTI数据集获取训练所需的各类场景下对应的点云数据和图像数据，将其中80％的数据作为训练集，10％的数据作为测试集，10％的数据作为验证集，分别进行网络的训练、测试和验证，以获取满足需求的网络模型。当然，训练集、测试集和验证集也可以采用其他配比。

进一步地，为了提高网络的质量，训练集中所包括的场景应尽可能多，且训练集、测试集和验证集中均应包括各种场景的数据。

步骤130、根据所述融合特征图的候选框和候选框概率进行物体检测。

具体的，可以将候选框概率大于设定阈值的候选框对应的区域确定为物体。

进一步地，在确定所述融合特征图的候选框和候选框概率之后，还可以基于预设识别算法，对候选框概率大于设定阈值的候选框对应的区域进行物体识别，以确定所述物体的具体种类。

具体的，预设识别算法可以是特征匹配算法，预先设置各个目标物体的目标特征，通过将候选框中的特征与目标特征进行匹配，以确定候选框中的物体的类别，实现对各个物体的检测。

实施例二

图2A为本发明实施例二提供的一种物体的检测方法的流程图，本实施例是对上一实施例的进一步细化和补充，本实施例所提供的物体的检测方法还包括将所述点云数据转换为二维鸟瞰图。

如图2A所示，该物体的检测方法包括如下步骤：

步骤210、获取当前车辆检测到的外部环境的点云数据和图像数据。

步骤220、将所述点云数据转换为二维鸟瞰图。

其中，二维鸟瞰图(bird of view)是根据透视原理，用高视点透视法从高处某一点俯视地面起伏绘制成的立体图。简单地说，就是在空中俯视某一地区所看到的图像，比平面图更有真实感。

具体的，可以根据点云数据对应的点云坐标轴和鸟瞰图的图像坐标轴的对应关系，将点云数据转换为二维鸟瞰图。还可以通过设置感兴趣区域，来限定需要转换的数据范围。

具体的，所述二维鸟瞰图与图像数据的大小一致，即尺寸相同。

步骤230、基于区域候选网络模型中的自定义网络分别对所述二维鸟瞰图和外部图像进行特征提取，以生成点云特征和图像特征。

其中，所述区域候选网络模型包括：自定义网络和全连接神经网络。

可选的，所述自定义网络为具有金字塔特征提取网络(FPN，Feature PyramidNetworks)结构的inception网络，用于对所述点云数据和外部图像进行特征提取，以生成点云特征和图像特征；所述全连接神经网络，用于对所述点云特征和图像特征进行特征融合，以生成融合特征图。

可选的，所述自定义网络包括：编码器和解码器，其中，所述编码器用于基于卷积层对所述点云数据和图像数据进行编码，以生成编码特征，所述解码器用于基于转置卷积层对所述编码特征进行解码，以生成点云特征和图像特征。

其中，转置卷积层也可以称为反卷积(deconvolution)层，对编码特征进行反卷积，以获取解码后的特征，即点云特征和图像特征。

可选的，所述编码器包括依次连接的第一二维卷积网络、第二二维卷积网络和池化层，所述池化层后连接第一分支、第二分支和第三分支，所述第一分支、第二分支和第三分支为并行结构，所述第一分支包括一个二维卷积层，所述第二分支包括两个二维卷积层，所述第三分支包括三个二维卷积层。

相应的，解码器中的转置卷积层也应根据编码器中的卷积层进行相应设置，以对经过编码器的卷积层的数据进行解码。如图2B所示，对encode的feature利用反卷积得到与conv2d_2一样大小的特征并与conv2d_2合并在一起，然后再对合并后的特征进行一层卷积得到解码后的特征。

进一步地，编码器中各个卷积层中的卷积可以是空洞卷积。

示例性的，图2B是本发明实施例提供的一种自定义网络的结构示意图，如图2B所示，该自定义网络主要包括编码器(Encode)21和解码器(Decode)22，其中，编码器(Encode)21依次包括：第一二维卷积网络(Conv2d_1)211、第二二维卷积网络(Conv2d_2)212、池化层(Max_pooling)213和三个并行的分支结构，第一分支包括一个二维卷积层(Conv2d)，所述第二分支包括两个二维卷积层，所述第三分支包括三个二维卷积层。经过编码器之后便得到编码之后对应的编码特征(Encode feature)，该编码特征经过解码器(Decode)22进行解码，主要是对编码特征进行反卷积，从而得到解码特征(Decode feature)。

步骤240、基于区域候选网络中的全连接神经网络网络，对所述点云特征和图像特征进行特征融合，以生成融合特征图。

具体的，全连接神经网络可以是任意一种现有的全连接神经网络。

可选的，在得到融合特征图之后，还包括：

对所述融合特征图进行卷积操作，以得到与输入的所述图像数据大小一致的融合特征图。

步骤250、基于区域候选网络的锚点机制，确定所述融合特征图的候选框和候选框概率。

步骤260、基于第二预设神经网络模型，根据所述候选框和候选框概率进行物体检测，以生成检测结果，其中，所述检测结果包括物体类别和各物体类别分别对应的类别概率。

其中，第二预设神经网络可以是任意一种神经网络，如深度卷积神经网络。主要用于识别输入的候选框中的特征的物体类别，如行人、自行车、电动车、汽车、卡车等，以及该物体类别的概率。

具体的，将各个候选框对应的融合特征输入第二预设神经网络，确定所述候选框对应的物体类别以及属于所述物体类别的类别概率，进一步结合候选框概率修正所述类别概率，从而根据物体类别和修正后的类别概率生成检测结果。

进一步地，图2C是本发明实施例二提供的一种物体的检测方法的流程图，如图2C所示，该物体的检测方法主要分为四个阶段：

阶段一、数据获取阶段202，用于获取车辆的点云数据和图像数据，并将点云数据转换为鸟瞰图。

阶段二、特征提取和融合阶段204，用于基于区域候选网络的自定义网络对鸟瞰图和图像数据进行特征提取，得到点云特征和图像特征；并基于全连接神经网络对点云特征和图像特征进行融合，生成融合特征图。

阶段三、候选框生成阶段206，用于基于区域候选网络的锚点机制生成确定融合特征图的候选框和候选框概率。

阶段四、物体检测阶段208，用于根据候选框和候选框概率进行物体检测。

本发明实施例的技术方案，通过车辆的点云数据和图像数据两种数据进行物体检测，提高了物体检测的准确度和全面性；通过将点云数据转换为与图像数据大小一致的鸟瞰图，加快了物体检测的速度；通过区域候选网络模型中的具有金字塔特征提取网络结构的inception网络进行特征提取，并基于全连接神经网络进行特征融合，运行时间短，提高了检测的效率，同时有效保证了检测的准确性；基于区域候选网络模型的锚点机制进行物体和背景的分类，确定物体的候选框，并根据第二预设神经网络模型确定候选框对应物体的物体类别，实现了物体类别的自动检测，检测精度高、效率高，进而提高了自动驾驶控制策略的实时性和准确性，提高了自动驾驶的安全性。

实施例三

图3是本发明实施例三提供的一种物体的检测装置的结构示意图，如图3所示，该装置包括：数据获取模块310、候选框确定模块320和物体检测模块330。

其中，数据获取模块310，用于获取当前车辆检测到的外部环境的点云数据和图像数据；候选框确定模块320，用于基于第一预设神经网络模型，对所述点云数据和图像数据进行特征提取和特征融合，以生成融合特征图，并确定所述融合特征图的候选框和候选框概率；物体检测模块330，用于根据所述融合特征图的候选框和候选框概率进行物体检测。

可选的，所述第一预设神经网络模型包括：自定义网络、全连接神经网络和候选框确定模块；其中，所述自定义网络为具有金字塔特征提取网络结构的inception网络，用于对所述点云数据和外部图像进行特征提取，以生成点云特征和图像特征；所述全连接神经网络，用于对所述点云特征和图像特征进行特征融合，以生成融合特征图；所述候选框确定模块，用于确定所述融合特征图的候选框和候选框概率。

可选的，候选框确定模块320，包括：

特征提取单元，用基于区域候选网络模型，分别对所述点云数据和外部图像进行特征提取，以生成点云特征和图像特征；特征融合单元，基于区域候选网络模型，对所述点云特征和图像特征进行特征融合，以生成融合特征图；候选框确定单元，用于基于区域候选网络模型，并基于区域候选网络的锚点机制，确定所述融合特征图的候选框和候选框概率。

可选的，所述区域候选网络模型包括：自定义网络、全连接神经网络和候选框确定模块；其中，所述自定义网络为具有金字塔特征提取网络结构的inception网络，用于对所述点云数据和外部图像进行特征提取，以生成点云特征和图像特征；所述全连接神经网络，用于对所述点云特征和图像特征进行特征融合，以生成融合特征图；所述候选框确定模块，用于基于锚点机制，确定所述融合特征图的候选框和候选框概率。

可选的，所述编码器的卷积层具体为依次连接的第一二维卷积网络、第二二维卷积网络和池化层，所述池化层后连接第一分支、第二分支和第三分支，所述第一分支、第二分支和第三分支为并行结构，所述第一分支包括一个二维卷积层，所述第二分支包括两个二维卷积层，所述第三分支包括三个二维卷积层。

可选的，该物体的检测装置，还包括：

模型训练模块，用于基于KITTI数据集，获取所述区域候选网络的训练集，其中，所述训练集包括车辆在各种预设场景下采集的点云数据和图像数据，还可以包括所述点云数据和图像数据对应的融合特征图；所述预设场景包括市区场景、高速公路、乡村场景、校园场景和居民区场景；根据所述训练集以及设定损失函数对所述区域候选网络进行训练，以获取训练好的区域候选网络。

可选的，物体检测模块330，具体用于：

基于第二预设神经网络模型，根据所述候选框和候选框概率进行物体检测，以生成检测结果，其中，所述检测结果包括物体类别和各物体类别分别对应的类别概率。

可选的，该物体的检测装置，还包括：

点云数据转换模块，用于在获取当前车辆检测到的外部环境的点云数据之后，将所述点云数据转换为二维鸟瞰图，以采用所述二维鸟瞰图代替所述点云数据进行特征提取。

本发明实施例所提供的物体的检测装置可执行本发明任意实施例所提供的物体的检测方法，具备执行方法相应的功能模块和有益效果。

实施例四

图4为本发明实施例四提供的一种物体的检测设备的结构示意图，如图4所示，该设备包括处理器410、存储器420、输入装置430和输出装置440；设备处理器410的数量可以是一个或多个，图4中以一个处理器410为例；设备中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或其他方式连接，图4中以通过总线连接为例。

存储器420作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的物体的检测方法对应的程序指令/模块(例如，物体的检测装置中的数据获取模块310、候选框确定模块320和物体检测模块330)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的物体的检测方法。

存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器420可进一步包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。

实施例五

本发明实施例五还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种物体的检测方法，该方法包括：

获取当前车辆检测到的外部环境的点云数据和图像数据；

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的物体的检测方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述物体的检测装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种物体的检测方法，其特征在于，包括：

获取当前车辆检测到的外部环境的点云数据和图像数据；

2.根据权利要求1所述的方法，其特征在于，所述第一预设神经网络模型包括：自定义网络、全连接神经网络和候选框确定模块；

其中，所述自定义网络为具有金字塔特征提取网络结构的inception网络，用于对所述点云数据和外部图像进行特征提取，以生成点云特征和图像特征；

所述全连接神经网络，用于对所述点云特征和图像特征进行特征融合，以生成融合特征图；

所述候选框确定模块，用于确定所述融合特征图的候选框和候选框概率。

3.根据权利要求2所述的方法，其特征在于，所述第一预设神经网络模型为区域候选网络模型；

相应的，所述候选框确定模块，具体用于：

基于所述区域候选网络模型的锚点机制，确定所述融合特征图的候选框和候选框概率。

4.根据权利要求2所述的方法，其特征在于，所述自定义网络包括：编码器和解码器，其中，所述编码器用于基于卷积层对所述点云数据和图像数据进行编码，以生成编码特征，所述解码器用于基于转置卷积层对所述编码特征进行解码，以生成点云特征和图像特征。

5.根据权利要求4所述的方法，其特征在于，所述编码器包括依次连接的第一二维卷积网络、第二二维卷积网络和池化层，所述池化层后连接第一分支、第二分支和第三分支，所述第一分支、第二分支和第三分支为并行结构，所述第一分支包括一个二维卷积层，所述第二分支包括两个二维卷积层，所述第三分支包括三个二维卷积层。

6.根据权利要求3所述的方法，其特征在于，所述区域候选网络的训练过程包括：

基于KITTI数据集，获取所述区域候选网络的训练集，其中，所述训练集包括车辆在预设场景下采集的点云数据和图像数据，以及所述点云数据和图像数据对应的融合特征图；

根据所述训练集以及设定损失函数对所述区域候选网络进行训练，以获取训练好的区域候选网络。

7.根据权利要求1所述的方法，其特征在于，所述根据所述融合特征图的候选框和候选框概率进行物体检测，包括：

8.根据权利要求1所述的方法，其特征在于，在获取当前车辆检测到的外部环境的点云数据之后，还包括：

将所述点云数据转换为二维鸟瞰图，以采用所述二维鸟瞰图代替所述点云数据进行特征提取。

9.一种物体的检测装置，其特征在于，包括：

10.一种物体的检测设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一项所述的物体的检测方法。

11.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-8中任一项所述的物体的检测方法。