CN112740269B

CN112740269B - 一种目标检测方法及装置

Info

Publication number: CN112740269B
Application number: CN202080005178.9A
Authority: CN
Inventors: 李洪敏
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-05-13
Filing date: 2020-05-13
Publication date: 2022-04-08
Anticipated expiration: 2040-05-13
Also published as: CN112740269A; US20230072289A1; EP4145338A4; EP4145338A1; WO2021226876A1

Abstract

一种目标检测方法及装置，涉及信息处理技术领域，可以应用于自动驾驶或者智能驾驶、车联网等。通过分析图像传感器采集的目标场景的第一图像得到目标场景中的一个或多个第一2D检测框，以及分析激光传感器采集的目标场景的三维点云，得到一个或多个视图(例如BEV和/或PV)下，目标场景的一个或多个第二2D检测框。然后，综合分析一个或多个第一2D检测框的匹配度和置信度，以及一个或多个第二2D检测框的匹配度和置信度，得到目标的2D检测框。最后，基于目标的2D检测框对应的三维点，得到目标的3D模型。通过这样的方法，可以避免由于图像传感器FOV受限或环境因素等导致的目标漏检问题。

Description

一种目标检测方法及装置

技术领域

本申请实施例涉及信息处理技术领域，尤其涉及一种目标检测方法及装置，可以具体应用于自动驾驶、智能驾驶或者车联网等。

背景技术

目标三维(3dimensions，3D)检测是3D感知场景，如自动驾驶、机器人导航等场景中不可或缺的底层技术之一。3D检测要求获得目标准确的位置、结构以及类别等信息。

通常，可以根据图像传感器采集的3D感知场景中的图像，获取图像中包括一个或多个图像特征的一个或多个二维(2dimensions，2D)检测框，然后基于获取的一个或多个2D检测框中的图像特征，得到目标的位置、结构以及类别等信息。

但是，采用上述常规方法，对于位于图像传感器视场(field of view，FOV)以外的目标，则无法获取2D检测框，因而无法得到图像传感器FOV以外的目标的位置、结构以及类别等信息。另外，上述常规方法对于环境因素依赖较大，例如在黑夜、光照不足、目标快速运动等情况下，则无法准确检测到3D感知场景中的目标。

发明内容

本申请提供一种目标检测方法及装置，可以解决目标检测过程中，无法准确检测到目标的问题。

为达到上述目的，本申请实施例采用如下技术方案：

第一方面，提供一种目标检测方法，该方法包括：获取第一图像和三维点云；该第一图像是目标场景的图像，三维点云是目标场景的三维点云；根据第一图像中的图像特征，得到一个或多个第一2D检测框；将三维点云投射到预设视图；该预设视图包括鸟瞰视图BEV和/或前视视图PV；将投射到预设视图的三维点云体素化，得到括一个或多个三维点的多个体素；根据得到的多个体素，得到一个或多个第二2D检测框；基于一个或多个第一2D检测框的匹配度和置信度，以及一个或多个第二2D检测框的匹配度和置信度，得到目标的2D检测框；基于目标的2D检测框对应的三维点，获取目标的3D模型；其中，置信度用于表征对应第一2D检测框或第二2D检测框中包括特征三维点的可靠性。

上述第一方面提供的技术方案，通过分析图像传感器采集的目标场景的第一图像得到目标场景中的一个或多个第一2D检测框，通过分析激光传感器采集的目标场景的三维点云，得到一个或多个视图(例如鸟瞰视图(bird view，BEV)和/或前视视图(perspectiveview，PV))下，目标场景的一个或多个第二2D检测框。然后，综合分析一个或多个第一2D检测框的匹配度和置信度，以及一个或多个第二2D检测框的匹配度和置信度，得到目标的2D检测框。最后，基于目标的2D检测框对应的三维点，得到目标的3D模型。通过这样的方法，可以避免由于图像传感器视场(field of view，FOV)受限或环境因素(例如在黑夜、光照不足、目标快速运动)等导致的目标漏检问题。

在一种可能的实现方式中，上述根据得到的多个体素，得到一个或多个第二2D检测框，包括：根据三维点云与所述体素的映射关系，生成体素图；获取体素图对应的每一个体素的体素特征；该体素特征用于表征体素内预设特征三维点的数量，该体素内是否有预设特征三维点或体素内预设特征三维点的平均坐标中的一个或多个；根据体素图对应的每一个体素的体素特征，将体素图表示为多维张量；获取体素图对应的每一个体素的空间特征；根据每一个体素的空间特征，得到一个或多个第二2D检测框。通过对得到的多个体素进行特征分析，以便根据特征分析结果得到候选的可能包括目标特征的2D检测框，以弥补单纯依靠图像分析造成的漏检测的问题。

在一种可能的实现方式中，上述基于目标的2D检测框对应的三维点，获取目标的3D模型，包括：获取目标的2D检测框对应的三维点的特征，得到目标的2D检测框对应的特征三维点；对特征三维点执行第一操作；所述第一操作包括采样、坐标变换或前景分割中的一项或多项；根据执行了第一操作之后的特征三维点，得到目标的3D模型。通过基于目标的2D检测框对应的原始三维点进行目标的3D模型的构建，可以避免目标相关信息的丢失，提高目标检测准确性。

在一种可能的实现方式中，上述基于一个或多个第一2D检测框的匹配度和置信度，以及一个或多个第二2D检测框的匹配度和置信度，得到目标的2D检测框，包括：获取一个或多个第一2D检测框和一个或多个第二2D检测框的置信度排名；按照置信度排名将每一个第一2D检测框与每一个第二2D检测框两两交并比IOU，若结果大于预设阈值，且第一2D检测框的置信度小于第二2D检测框的置信度，则保留第二2D检测框，丢弃第一2D检测框。通过结合基于图像特征检测得到的2D检测框和基于体素特征检测得到的2D检测框确定目标的2D检测框，可以降低目标漏检的概率，提高目标检测准确性。

在一种可能的实现方式中，上述预设视图包括BEV视图和PV视图；上述将投射到预设视图的所述三维点云体素化，得到多个体素，包括：将投射到BEV视图的三维点云体素化，得到BEV视图的多个体素；以及，将投射到PV视图的三维点云体素化，得到PV视图的多个体素。通过将三维点云投射到不同视图，可以综合考虑图像特征分析和不同视图下的体素特征分析，得到目标的2D检测框，以降低目标漏检的概率，提高目标检测准确性。

在一种可能的实现方式中，上述根据得到的多个体素，得到一个或多个第二2D检测框，包括：融合BEV视图的多个体素和PV视图的多个体素；根据融合后的体素，得到一个或多个第二2D检测框。本方案支持将不同视图的体素融合，进行特征分析，以根据特征分析结果得到候选的可能包括目标特征的2D检测框。

在一种可能的实现方式中，上述根据得到的多个体素，得到一个或多个第二2D检测框，包括：根据BEV视图的多个体素，得到BEV视图的一个或多个第二2D检测框；以及，根据PV视图的多个体素，得到PV视图的一个或多个第二2D检测框；上述基于一个或多个第一2D检测框的匹配度和置信度，以及所述一个或多个第二2D检测框的匹配度和置信度，得到目标的2D检测框，包括：基于一个或多个第一2D检测框的匹配度和置信度，以及BEV视图的一个或多个第二2D检测框的匹配度和置信度，得到第一目标2D检测框；以及，基于一个或多个第一2D检测框的匹配度和置信度，以及PV视图的一个或多个第二2D检测框的匹配度和置信度，得到第二目标2D检测框；根据得到的第一目标2D检测框和第二目标2D检测框，获取目标的2D检测框。本方案支持分别根据不同视图的体素，得到候选的可能包括目标特征的2D检测框，以及综合分析不同视图对应的候选目标2D检测框，得到目标的2D检测框。

在一种可能的实现方式中，上述目标的2D检测框是第一目标2D检测框或第二目标2D检测框。本方案支持从不同视图对应的候选目标2D检测框，中选择一个候选目标2D检测框作为目标的2D检测框。

在一种可能的实现方式中，上述根据得到的第一目标2D检测框和第二目标2D检测框，获取目标的2D检测框，包括：将得到的第一目标2D检测框和第二目标2D检测框融合，获取目标的2D检测框。本方案支持融合不同视图对应的候选目标2D检测框得到目标的2D检测框。

在一种可能的实现方式中，上述目标的3D模型至少用于表征目标的位置、结构或类别中的一种或多种。

第二方面，提供一种目标检测装置，该装置包括：获取单元，用于获取第一图像和三维点云；第一图像是目标场景的图像，三维点云是目标场景的三维点云；处理单元，用于根据第一图像中的图像特征，得到一个或多个第一2D检测框；将三维点云投射到预设视图；将投射到预设视图的所述三维点云体素化，得到包括一个或多个三维点的多个体素；根据多个体素，得到一个或多个第二2D检测框；基于一个或多个第一2D检测框的匹配度和置信度，以及一个或多个第二2D检测框的匹配度和置信度，得到目标的2D检测框；以及，基于目标的2D检测框对应的三维点，获取目标的3D模型；其中，预设视图包括鸟瞰视图BEV和/或前视视图PV；置信度用于表征对应第一2D检测框或第二2D检测框中包括特征三维点的可靠性。

上述第二方面提供的技术方案，目标检测装置通过分析图像传感器采集的目标场景的第一图像得到目标场景中的一个或多个第一2D检测框，通过分析激光传感器采集的目标场景的三维点云，得到一个或多个视图(例如鸟BEV和/或PV)下，目标场景的一个或多个第二2D检测框。然后，综合分析一个或多个第一2D检测框的匹配度和置信度，以及一个或多个第二2D检测框的匹配度和置信度，得到目标的2D检测框。最后，基于目标的2D检测框对应的三维点，得到目标的3D模型。通过这样的方法，可以避免由于FOV受限或环境因素(例如在黑夜、光照不足、目标快速运动)等导致的目标漏检问题。

在一种可能的实现方式中，上述处理单元根据多个体素，得到一个或多个第二2D检测框，包括：处理单元根据三维点云与所述体素的映射关系，生成体素图；处理单元获取体素图对应的每一个体素的体素特征；该体素特征用于表征所述体素内预设特征三维点的数量，体素内是否有预设特征三维点或体素内预设特征三维点的平均坐标中的一个或多个；处理单元根据体素图对应的每一个体素的体素特征，将体素图表示为多维张量；处理单元获取体素图对应的每一个体素的空间特征；处理单元根据每一个体素的空间特征，得到一个或多个第二2D检测框。通过对得到的多个体素进行特征分析，以便根据特征分析结果得到候选的可能包括目标特征的2D检测框，以弥补单纯依靠图像分析造成的漏检测的问题。

在一种可能的实现方式中，上述处理单元基于目标的2D检测框对应的三维点，获取目标的3D模型，包括：处理单元获取目标的2D检测框对应的三维点的特征，得到目标的2D检测框对应的特征三维点；处理单元对特征三维点执行第一操作；第一操作包括采样、坐标变换或前景分割中的一项或多项；处理单元根据执行了第一操作之后的特征三维点，得到目标的3D模型。通过基于目标的2D检测框对应的原始三维点进行目标的3D模型的构建，可以避免目标相关信息的丢失，提高目标检测准确性。

在一种可能的实现方式中，上述处理单元基于一个或多个第一2D检测框的匹配度和置信度，以及一个或多个第二2D检测框的匹配度和置信度，得到目标的2D检测框，包括：处理单元获取一个或多个第一2D检测框和一个或多个第二2D检测框的置信度排名；处理单元按照置信度排名将每一个第一2D检测框与每一个第二2D检测框两两IOU，若结果大于预设阈值，且第一2D检测框的置信度小于第二2D检测框的置信度，则保留第二2D检测框，丢弃第一2D检测框。通过结合基于图像特征检测得到的2D检测框和基于体素特征检测得到的2D检测框确定目标的2D检测框，可以降低目标漏检的概率，提高目标检测准确性。

在一种可能的实现方式中，上述预设视图包括BEV视图和PV视图；上述处理单元将投射到预设视图的三维点云体素化，得到多个体素，包括：处理单元将投射到BEV视图的所三维点云体素化，得到BEV视图的多个体素；以及，处理单元将投射到PV视图的三维点云体素化，得到PV视图的多个体素。通过将三维点云投射到不同视图，可以综合考虑图像特征分析和不同视图下的体素特征分析，得到目标的2D检测框，以降低目标漏检的概率，提高目标检测准确性。

在一种可能的实现方式中，上述处理单元根据所述多个体素，得到一个或多个第二2D检测框，包括：处理单元融合BEV视图的多个体素和PV视图的多个体素；处理单元根据融合后的体素，得到一个或多个第二2D检测框。本方案支持将不同视图的体素融合，进行特征分析，以根据特征分析结果得到候选的可能包括目标特征的2D检测框。

在一种可能的实现方式中，上述处理单元根据多个体素，得到一个或多个第二2D检测框，包括：处理单元根据BEV视图的多个体素，得到BEV视图的一个或多个第二2D检测框；以及，根据PV视图的多个体素，得到PV视图的一个或多个第二2D检测框；处理单元基于一个或多个第一2D检测框的匹配度和置信度，以及一个或多个第二2D检测框的匹配度和置信度，得到目标的2D检测框，包括：处理单元基于一个或多个第一2D检测框的匹配度和置信度，以及BEV视图的一个或多个第二2D检测框的匹配度和置信度，得到第一目标2D检测框；以及，基于一个或多个第一2D检测框的匹配度和置信度，以及PV视图的一个或多个第二2D检测框的匹配度和置信度，得到第二目标2D检测框；处理单元根据第一目标2D检测框和第二目标2D检测框，获取目标的2D检测框。本方案支持分别根据不同视图的体素，得到候选的可能包括目标特征的2D检测框，以及综合分析不同视图对应的候选目标2D检测框，得到目标的2D检测框。

在一种可能的实现方式中，上述处理单元根据第一目标2D检测框和第二目标2D检测框，获取目标的2D检测框，包括：处理单元将第一目标2D检测框和第二目标2D检测框融合，获取目标的2D检测框。本方案支持融合不同视图对应的候选目标2D检测框得到目标的2D检测框。

第三方面，提供一种目标检测装置，该目标检测装置包括：至少一个存储器，用于存储计算机程序；至少一个处理器，用于执行上述计算机程序，以使得所述目标检测装置实现第一方面任一种可能的实现方式中的方法。

第四方面，提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序代码，该计算机程序代码被处理电路或者集成电路执行时实现如第一方面任一种可能的实现方式中的方法。

第五方面，提供一种芯片系统，该芯片系统包括处理器、存储器，存储器中存储有计算机程序代码；所述计算机程序代码被所述处理器执行时，实现如第一方面任一种可能的实现方式中的方法。该芯片系统可以由芯片构成，也可以包含芯片和其他分立器件。

第六方面，提供一种计算机程序产品，当其在计算机上运行时，使得实现如第一方面任一种可能的实现方式中的方法。

第七方面，提供一种终端设备，该终端设备可以是运输工具、卫星或者智能设备。例如，无人机、无人汽车、船舶、卫星或机器人等。或者，该终端设备可以集成在运输工具、卫星或者智能设备中，例如集成在车辆、飞机、船舶、卫星或机器人等中。该终端设备包括上述第二方面或第三方面任一种可能的实现方式中的目标检测装置，或者包括上述第四方面中的计算机可读存储介质；或者包括上述第五方面中的芯片系统，或者存储有上述第六方面中的计算机程序产品。

第八方面，提供一种系统，所述系统包括所述第二方面或第三方面任一项所述的目标检测装置，以及图像传感器和激光传感器中的至少一个。

附图说明

图1为本申请实施例提供的一种目标检测装置的硬件结构示意图；

图2为本申请实施例提供的一种目标检测方法流程图；

图3为本申请实施例提供的一种卷积神经网络积层进行特征提取的原理图；

图4为本申请实施例提供的一种卷积神经网络分析第一图像的示例图；

图5为本申请实施例提供的一种目标检测方法示意图一；

图6为本申请实施例提供的一种目标检测方法示意图二；

图7为本申请实施例提供的一种目标检测方法示意图三；

图8为本申请实施例提供的一种目标检测方法示意图四；

图9为本申请实施例提供的一种目标检测方法示意图五；

图10为本申请实施例提供的一种根据体素得到第二2D检测框的方法示意图；

图11为本申请实施例提供的一种根据目标对应的三维点获取目标的3D模型的方法示意图；

图12为本申请实施例提供的一种目标检测装置的结构框图。

具体实施方式

本申请实施例提供一种目标检测方法及装置，可以应用于三维(3dimensions，3D)环境感知的场景中。

例如，上述方法可以应用于汽车、无人机或卫星等的先进驾驶辅助系统(advanceddriving assistant system，ADAS)，可通过激光传感器和图像传感器等在汽车、无人机或卫星运动的过程中感应周围环境。然后，通过感应周围环境，以完成目标识别，从而有效规避障碍物，有效增加自动驾驶的舒适性和安全性。

又如，上述方法还可以应用于机器人导航系统，通过激光传感器和图像传感器等在机器人运动的过程中感应周围环境。通过感应周围环境，以完成目标识别，从而有效规避障碍物或者锁定操作目标，有效增加机器人的工作安全性和工作效率。

又如，上述方法还可以应用于医疗设备，通过激光传感器和图像传感器等在操作装置(如超声探针等)运动的过程中感应周围环境。以控制操作装置的运动方向或控制操作装置对患者进行诊断或治疗，从而有效提供对医疗设备控制的精确度，提高诊断准确度或治疗成功率等。

或者，上述方法还可以应用于其他3D环境感知的场景中，本申请实施例对于具体的应用场景不作限定。

为便于理解，以下介绍本申请可能出现的概念和术语。

激光传感器：利用激光技术进行测量的传感器。其工作原理是：激光传感器发射激光脉冲，并接收经过去其他物体的一个或多个反射点反射的部分反射光，通过分析接收到的反射光，以达到探测目标的位置、结构等的目的。例如，激光传感器可以是激光雷达。

激光雷达：是以发射激光束探测目标的位置、速度等特征量的雷达装置。其工作原理是：通过发射激光束，然后将接收到的从目标物体反射的回波与发射出的激光束进行比较以及处理，得到目标的距离、方位、高度、速度、姿态、甚至形状等特征量中的至少一个。从而实现对目标进行探测、跟踪和识别等。

图像传感器：也称感光装置，是一种将光学图像转换成电子信号的装置。其工作原理是：通过将外界照明光照射下的(或自身发光的)物体成像，形成二维空间的光强分布(即光学图像)，然后将光学图像转变成一维时序电信号。该一维时序信号经过放大和同步控制处理后，可以还原出物体的二维光学图像。通过这样的方式得到目标的图像信息，从而实现对目标的探测、跟踪和识别等。

鸟瞰图(bird eye view，BEV)：是根据透视原理，用高视点透视法从高处某一点俯视地面起伏绘制成的立体图。简单地说，就是在空中俯视某一地区所看到的图像，比平面图更有真实感。具体就是将笛卡尔坐标系下的激光点云在竖直方向俯视得到的视图。

前视图(perspective view，PV)：将笛卡尔坐标系下的激光点云变换到球形坐标下，在水平方向前视得到的视图。

笛卡尔坐标系：过定点O，作三条互相垂直的轴，三条轴都以O为原点且一般具有相同的长度单位。这三条轴分别叫做x轴(横轴)、y轴(纵轴)和z轴(竖轴)，统称坐标轴。通常x轴和y轴位于在水平面上，z轴垂直于水平面。x轴、y轴和z轴的正方向符合右手法则，即以右手握住z轴，当右手的四指从正向x轴以90°转向正向y轴时，大拇指的指向就是z轴的正向。x轴、y轴、z轴和原点O构成了笛卡尔坐标系。

本申请提供的一种目标检测方法可以应用于目标检测装置，该目标检测装置可以包括一个或多个激光传感器(或者激光雷达、毫米波雷达)，一个或多个图像传感器，存储器和处理器。在一些可能的结构中，该目标检测装置还可以包括射频电路、显示器和扬声器等其他模块。

其中，目标检测装置可以是安装在车辆、船只、飞机、无人机、机器人、卫星或医疗设备等终端设备上，该终端设备也称车载设备或者机载设备。或者，目标检测装置还可以是桌面型设备、膝上型设备、手持型设备、可穿戴设备、智能家居设备或计算设备等终端设备。例如，上网本、平板电脑、智能手表、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、智能相机、上网本、个人数字助理(personal digital assistant，PDA)、便携式多媒体播放器(portable multimedia player，PMP)、AR(增强现实)/VR(虚拟现实)设备。

此外，目标检测装置还可以是物联网(internet of things，IoT)系统中的终端设备，IoT是未来信息技术发展的重要组成部分，其主要技术特点是将物品通过通信技术与网络连接，从而实现人机互连，物物互连的智能化网络。IoT技术可以通过例如窄带(narrowband，NB)技术，做到海量连接，深度覆盖，终端省电。本申请对目标检测装置的具体类型和结构等不作限定。

请参考图1，图1示出了本申请实施例提供的一种可能的目标检测装置的硬件结构示意图。如图1所示，目标检测装置100可以包括但不限于：至少一个处理器101、射频电路102、存储器103、显示器104、蓝牙装置105、一个或多个传感器106、Wi-Fi装置107、定位装置108、音频电路109、外设接口110、电源装置111、扬声器112和麦克风113等部件中的一个或多个。所述目标检测装置包括的部件可通过一根或多根通信总线或信号线进行通信，如控制器局域网络(controller area network，CAN)总线(图1中未示出)。本领域技术人员可以理解，图1中示出的硬件结构并不构成对目标检测装置的限定，目标检测装置可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图1对目标检测装置的各个部件进行具体的介绍：

处理器101可以是目标检测装置的控制中心，利用各种接口和线路连接目标检测装置的其它各个部分，通过运行或执行存储在存储器103内的计算机程序，执行目标检测装置的各种功能。

在一些实施例中，处理器101可以是一个通用中央处理器(central processingunit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本申请方案程序执行的集成电路，处理器301可以包括一个或多个CPU。

在一些实施例中，处理器101还可以包括神经网络处理单元(neural-networkprocessing unit，NPU)芯片。NPU可以通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现目标检测装置100的智能认知等应用，例如：图像识别，人脸识别，场景识别，语音识别，文本理解等。具体到本申请实施例中，NPU可以理解为集成有神经网络(例如，卷积神经网络(convolutionalneural network，CNN))的单元，或者可以理解为场景识别装置。或者可以理解为场景识别装置可以包括NPU，用于对图像进行识别。在本申请实施例中，NPU芯片可以用于采用神经网络(例如，卷积神经网络)方法完成第一图像分析、三维点特征分析和3D模型构建等目标检测过程。

在一些实施例中，NPU芯片可以集成有算法加速器，例如，寒武纪Cambricon指令集。算法加速器用于加速NPU芯片的一图像分析、三维点特征分析和3D模型构建等目标检测过程的处理速度。

射频电路102可用于无线信号的接收和发送。特别地，射频电路102可以接收基站的下行数据，发送给处理器101进行处理；另外，射频电路102还可以将上行的数据发送给基站。

通常，射频电路102包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频电路102还可以通过无线通信和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统、通用分组无线服务、码分多址、宽带码分多址、长期演进、电子邮件、短消息服务等。

存储器103用于存储计算机程序，还可以用于存储数据。存储器103可以是只读存储器(read-only memory，ROM)或随机存取存储器(random access memory，RAM)，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储程序代码并能够由计算机存取的任何其他介质，但不限于此。

处理器101可以通过运行存储器103存储的计算机程序，执行射频电路的各种功能以及数据处理。

存储器103可以包括存储程序区以及存储数据区。其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)；存储数据区可以存储处理器101工作时所创建的数据(比如图像数据、位置信息等)。

其中，存储器103可以存储用于实现模块化功能的计算机程序，并由处理器101来控制执行。处理器101用于执行存储器103中存储的计算机程序，从而实现本申请下述实施例提供的方法。此外，存储器103可以包括高速随机存取存储器，还可以包括非易失存储器，例如磁盘存储器件、闪存器件或其他易失性固态存储器件等。存储器103可以存储各种操作系统，例如，iOS操作系统，Android操作系统等。

显示器104用于显示图像，视频等。显示器104包括显示面板。显示面板可以采用液晶显示器(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，目标检测装置100可以包括1个或N个显示器104，N为大于1的正整数。

目标检测装置100还可以包括至少一个或多个传感器106，包括激光传感器1061、图像传感器1062、运动传感器1063以及环境光传感器等其他传感器等。

激光传感器1061的工作原理是：激光传感器1061发射激光脉冲，并接收经过去其他物体的一个或多个反射点反射的部分反射光，记录反射光的相关数据。其中，反射光的相关数据至少包括但不限于激光发射和接收的时间差、激光发射和接收的强度差、激光发射的偏航角和俯仰角等。目标检测装置100通过分析反射光的相关数据，例如使用处理器101分析反射光的相关数据，可以达到探测目标位置、结构、速度、姿态等的目的。

图像传感器1062的工作原理是：通过将外界照明光照射下的(或自身发光的)物体成像，形成二维空间的光强分布(即光学图像)，然后将光学图像转变成一维时序电信号。该一维时序信号经过放大和同步控制处理后，可以还原出物体的二维光学图像。通过这样的方式得到目标的图像信息，从而实现对目标的探测、跟踪和识别等。在本申请实施例中，图像传感器1062也可以理解为摄像头。

在一些实施例中，处理器101还可以包括图形处理器(graphics processingunit，GPU)、图像信号处理器(image signal processor，ISP)、视频编解码器和数字信号处理器(digital signal processor，DSP)。在图像传感器1062是摄像头时，目标检测装置100可以通过ISP，摄像头，视频编解码器，GPU，显示器104以及应用处理器等实现第一图像的拍摄功能。在本申请实施例中，GPU可以用于进行3D模型构建和渲染等。

其中，ISP用于处理摄像头反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头中。

摄像头用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。视频编解码器用于对数字视频压缩或解压缩。目标检测装置100可以支持一种或多种视频编解码器。这样，目标检测装置100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

运动传感器可以包括加速度传感器、陀螺仪传感器或磁传感器等。

其中，加速度传感器可以用于检测目标检测装置100的运动方向和运动加速度。当目标检测装置100静止时可检测出重力的大小及方向。还可以用于识别目标检测装置100的姿态，应用于计步器等应用。陀螺仪传感器可以用于确定目标检测装置100的运动姿态。在一些实施例中，可以通过陀螺仪传感器确定目标检测装置100的旋转方向和旋转角速度。磁传感器是把磁场、电流、应力应变、温度、光等外界因素引起敏感元件磁性能变化转换成电信号，以这种方式来检测相应物理量的器件。在一些实施例中，通过磁传感器可以测量出目标检测装置100与东南西北四个方向的夹角。环境光传感器用于感知环境光亮度。示例性的，目标检测装置100可以根据环境光传感器采集到的环境光亮度确定当前预览画面的场景是黑夜，从而可以补光进行拍摄，具体的补光量也可以视环境光传感器采集到的环境光亮度而定。

在一些实施例中，目标检测装置100还可以配置有气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路109、扬声器112、麦克风113可提供用户与目标检测装置100之间的音频接口。音频电路109可将接收到的音频数据转换后的电信号，传输到扬声器112，由扬声器112转换为声音信号输出；另一方面，麦克风113将收集的声音信号转换为电信号，由音频电路109接收后转换为音频数据，再将音频数据输出至射频电路102以发送给比如另一设备，或者将音频数据输出至存储器103以便进一步处理。

应理解，上述图1所示目标检测装置100包括的硬件模块只是示例性地描述，并不对本申请构成限定。事实上，尽管图1未示出，本申请实施例提供的目标检测装置100中还可以包含其他与图中示意的硬件模块具有交互关系的其他硬件模块。例如，目标检测装置100还可以包括近场通信(near field communication，NFC)装置、闪光灯等其他装置。这里不作具体限定。

本申请提供的一种目标检测方法可以应用于具有图1结构或者具体有相似结构的目标检测装置中。以下结合附图对本申请实施例提供的一种目标检测方法进行具体介绍。

本申请实施例提供的一种目标检测方法能够在不同环境因素下，特别是黑夜、光照不足、目标快速运动等环境因素不利于目标检测的情况下，提高目标检测的准确性。该方法的基本原理是：首先，通过分析图像传感器采集的目标场景的第一图像得到目标场景中的一个或多个第一2D检测框，通过分析激光传感器采集的目标场景的三维点云，得到一个或多个视图(例如鸟瞰视图(bird view，BEV)和/或前视视图(perspective view，PV))下，目标场景的一个或多个第二2D检测框。然后，综合分析一个或多个第一2D检测框的匹配度和置信度，以及一个或多个第二2D检测框的匹配度和置信度，得到目标的2D检测框。最后，基于目标的2D检测框对应的三维点，得到目标的3D模型。

以下将以具有图1所示结构的目标检测装置100为例，具体介绍本申请实施例提供的一种目标检测方法。

需要说明的是，本申请实施例中的图像传感器1062和激光传感器1061的内外参数和坐标转换矩阵是提前标定好的。其中，以图像传感器1062为相机为例，相机的内参(也称内部参数)是由一个3x3的内参矩阵K来表示：

其中，f_x、f_y分别是相机坐标系的x、y方向以像素为单位的焦距，x0、y0为主点坐标(相对于成像平面)。s为坐标轴倾斜参数，理想情况下s为0。

相机的外参(也称外部参数)由一个3x3的旋转矩阵R和一个平移向量T表示。其中，旋转矩阵R描述了世界坐标系的坐标轴相对于相机坐标系的坐标轴的方向。平移向量T描述了在相机坐标系下，空间原点的位置。

例如，旋转矩阵

平移向量T＝[t_x t_y t_z]^T。

坐标转换矩阵是指世界坐标轴、相机坐标轴、像面坐标轴和像素坐标轴之间的转换关系。例如，三维点在世界坐标系中的坐标为P_w＝(x_w,y_w,z_w)^T，在相机坐标系中的坐标为P_c＝(x_c,y_c,z_c)^T，则

三维点在像面坐标系中的坐标为P_m＝(x_m,y_m,1)^T。其中，

假设一个像素的长和宽分别问dx和dy，三维点在像素坐标系中的坐标为

关于图像传感器1062和激光传感器1061的内参、外参和坐标转换矩阵的详细介绍，可以参考常规技术中的解释和说明，这里不做赘述。

本申请实施例提供的方法的执行主体可以是目标检测装置100，也可以是传感器系统；或者融合传感器系统；或者集成上述传感器系统或融合传感器系统的规划/控制系统，如辅助驾驶或者自动驾驶系统等。或者，该方法的执行主体也可以是软件或者硬件。请参考图2，图2以执行主体是目标检测装置100为例，对本申请实施例提供的一种目标检测方法进行介绍。如图2所示，本申请实施例提供的一种目标检测方法可以包括以下步骤S201-S208：

S201、目标检测装置100获取目标场景的第一图像。

例如，目标检测装置100可以在第一时刻获取目标场景的图像(即第一图像)。例如，图像传感器1062为摄像头。目标检测装置100可以在第一时刻调用目标检测装置100中安装的相机应用，从而调用目标检测装置100的摄像头，获取目标场景的第一图像。例如，第一图像可以是图4-图9中所示的街景图。

S202、目标检测装置100获取目标场景的三维点云。

例如，目标检测装置100可以在第二时刻调用激光传感器1061，获取目标场景的三维点云。其中，所述第一时刻与第二时刻可以相同或者不同。

示例性的，激光传感器1061可以扫描目标场景，得到包括目标场景中多个物体的位置信息的三维点云。具体的，激光传感器1061可以按照预设工作频率发射激光脉冲，并且接收上述激光脉冲到达其他物体的一个或多个反射点后反射回来的反射光，从而确定反射光对应的反射点云。例如，图5-图9所示的反射点云。该一个或多个反射点可以用一个或多个三维点表示。

其中，每一个三维点可以用(x，y，z，r)来表示。x，y和z分别用来表示对应三维点在预设坐标系内的坐标。r表示对应三维点对来自激光传感器1061的激光束的反射强度。例如，预设坐标系可以是世界坐标系。世界坐标系是原点为o_w，x_w轴水平向右，y_w轴向下，z_w根据右手法则确定的一种笛卡尔坐标系。关于世界坐标系的具体介绍，可以参考常规技术中的解释和说明，这里不做赘述。

需要说明的是，如上文所述，目标检测装置100通过图像传感器1062采集第一图和通过激光传感器1061获取目标场景的三维点云可以均是在第一时刻进行的。也就是说，目标检测装置100通过图像传感器1062执行上述S201与通过激光传感器1061执行上述S202是同步进行的。

在一种可能的实现方式中，图像传感器1062和激光传感器1061可以接受同步开关的控制同步执行上述S201和上述S202。例如，同步开关可以设置在处理器101中。

在另一种可能的实现方式中，图像传感器1062和激光传感器1061可以基于相同的时间戳(timestamp)同步执行上述S201和上述S202。其中，时间戳通常是一个字符序列。时间戳可以唯一地标识某一时刻。示例性的，时间戳可以由数字时间戳服务(digita1 timestamp service，DTS)模块生成。例如，DTS模块可以设置在处理器101中。

在另一种可能的实现方式中，图像传感器1062和激光传感器1061还可以基于相同的随机数同步执行上述S201和上述S202。其中，随机数可以唯一地标识某一时刻。

或者，图像传感器1062和激光传感器1061还可以基于其他同步方式同步执行上述S201和上述S202。本申请实施例不限定同步方式。

S203、目标检测装置100根据第一图像的图像特征，得到一个或多个第一2D检测框。

在一些实施例中，如图5中的S3001和S3002所示，目标检测装置100根据第一图像的图像特征，得到一个或多个第一2D检测框可以包括：首先，目标检测装置100对第一图像进行预处理；然后，目标检测装置100采用神经网络算法对预处理之后的第一图像进行特征识别和特征分析，得到一个或多个第一2D检测框。其中，每一个第一2D检测框中包括目标场景中一个目标物体的多个图像特征。

在本申请实施例中，第一图像的图像特征至少包括第一图像中被用户关注可能性较高的特征。例如，人脸特征、人体特征、建筑物特征、事物特征(如车辆特征、动物特征、树木特征、花朵特征等)河流特征和山川特征等。

在一些实施例中，目标检测装置1001对第一图像进行预处理可以包括：目标检测装置100对第一图像去噪、灰度化、裁减或尺寸变换等中的一项或多项。其中，第一图像去噪是指抑制第一图像噪声，使得第一图像亮度平缓渐变，减小突变梯度，改善第一图像质量。例如，可以使用高斯滤波器对第一图像去噪。第一图像灰度化是指将第一图像按照灰度值处理成呈现白→灰→黑分布的图像。其中，灰度值为0的像素点显示为白色，灰度值为255的像素点显示为黑色。第一图像灰度化的目的在于降低后续计算量。第一图像裁减可以用于将第一图像的主体区域保留，去除信息量较少的区域；或者方便后续计算。例如，第一图像的尺寸为100像素*100像素，经裁剪之后的尺寸为80像素*80像素。第一图像尺寸变换可以用于辅助判断第一图像的主体区域，或者方便后续计算。例如，第一图像的尺寸为100像素*100像素，经尺寸变换后的尺寸为150像素*150像素。

需要说明的是，上述去噪、灰度化、裁减和尺寸变换仅作为几种图像预处理示例，关于图像预处理的具体介绍，可以参考常规技术中的解释和说明，本申请不作限定。

示例性的，在本申请中，NPU芯片中可以集成有卷积神经网络算法，目标检测装置100可以通过NPU芯片对第一图像进行特征识别和特征分析，得到一个或多个第一2D检测框。

其中，卷积神经网络是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元。

卷积神经网络至少可以包括数据输入层、至少一个卷积层、至少一个池化层和全连接层。其中，数据输入层用于对获取的图像、声音和文本等待处理数据进行预处理，例如，预处理包括去均值、归一化和主成分分析(principal component analysis，PCA)/白化(whitening))。卷积层用于进行特征提取。池化层用于对特征进行采样，即用一个数值替代一块区域，主要是为了降低网络训练参数及模型的过拟合程度。全连接层用于对提取到的特征进行综合分析，得到分析结果。其中，如上所述，卷积神经网络中还可以包括已训练好的AI模型。

其中，在卷积神经网络中，卷积层进行特征提取可以包括：滤波器按照步长大小在输入图像上不断移动进行加权求和，提取输入特征矩阵的特征信息，再对特征矩阵进行数据的计算。如图3所示。

在一些实施例中，卷积神经网络还可以包括激活函数层，用于对卷积层提取到的特征进行非线性映射。例如，激活函数层可以采用激励函数修正线性单元(the rectifiedlinear unit，ReLU)将卷积层输出的结果压缩到某一个固定的范围，这样可以一直保持一层一层下去的数值范围是可控的。其中，ReLU的特点是收敛快，求梯度简单。

请参考图4，如图4所示，为本申请实施例提供的卷积神经网络分析第一图像的示例图。如图4所示，卷积神经网络可以包括数据输入层410、卷积层420、池化层430、卷积层440、池化层450和全连接层460。其中，数据输入层410用于输入第一图像，以及对第一图像进行预处理。然后，预处理后的图像经过卷积层420卷积得到28×28的图像。接下来，经过池化层430池化得到14×14的图像。然后，再经过卷积层440，卷积得到10×10的图像。再经过池化层450得到5×5的图像。其中，卷积层420可以由6个5×5的卷积核组成。卷积层440可以由16个5×5的卷积核组成。最后，将经过池化层450得到的5×5的图像，通过全连接层460得到与第一图像特征相似的预设图像特征，以及其对应的特征匹配程度。进而根据每一个与第一图像特征相似的预设图像特征，以及其对应的特征匹配程度，输出结果，对应与训练集中AI模型的特征匹配结果。

卷积神经网络可以在目标检测装置100出厂前预先训练好，固化在目标检测装置100中。也可以使用目标检测装置100在预设时间段内所拍摄的照片，或者接收的、下载的图片作为训练集，对卷积神经网络进行个性化训练，使得该卷积神经网络在进行目标检测时的准确度。

在一些实施例中，为了提高目标检测装置100分析第一图像的速度和准确度，以及为了简化神经网络，可以采用轻量化神经网络(例如，MobileNets或者MobileNets V2)完成本申请实施例的目标检测方法。

在另一些实施例中，目标检测装置100也可以基于常规算法对预处理之后的第一图像进行特征识别和特征分析，得到一个或多个第一2D检测框。例如，传统SIFT特征、haar特征算法等。本申请实施例不限定第一图像图像特征的分析方法。

S204、目标检测装置100将三维点云投射到预设视图。

其中，目标检测装置100可以根据预先设置的坐标转换矩阵将三维点云投射到预设视图。具体可以参考常规技术中的介绍，不做赘述。

在一些实施例中，如图5中的S2041所示，目标检测装置100可以将三维点云投射到BEV视图。

在另一些实施例中，如图6中的S2042所示，目标检测装置100可以将三维点云投射到PV视图。

在另一些实施例中，如图7、图8或图9中的S2041和S2042所示，目标检测装置100可以将三维点云分别投射到BEV视图和PV视图。通过将三维点云分别投射到BEV视图和PV视图，以便后续可以融合BEV视图的体素和PV视图体素进行目标检测。以解决BEV视图或PV视图特征稀疏的缺点，提高远处目标的检测能力。

S205、目标检测装置100将投射到预设视图的三维点云体素化，得到多个体素。

其中，体素是体积元素(volume pixel)的简称，是三维空间中可以分割的最小单位。例如，将投射到预设视图的三维点云区域平均分成了M*N*K个格子。其中，M、N和K分别是沿着x轴、y轴和z轴的体素数量。概念上体素似二维空间中可以分割的最小单位：像素。体素可以理解为三维空间中的一个有大小的特征块。例如，体素可以是规则的正方体、长方体或球体等。本申请不限定体素化的规则以及体素的具体形状。

以体素为规则的正方体为例，若预设视图包括BEV视图，则目标检测装置100可以将在笛卡尔坐标系的三维空间平均分成相等大小的正方体。若预设视图包括PV视图，则目标检测装置100需要先将在笛卡尔坐标系的三维点云变换到球坐标系中，然后将球坐标系中的三维点云体素化成相等大小的正方体。

可以理解，在将三维点云体素化之后，有的体素中包括三维点，有的体素中是不包括三维点的。不包括三维点的体素中必然不包括特征点，也就不包括目标的特征点。因此，对于不包括三维点的体素可以不予考虑。仅保留包括有一个或多个三维点的体素。因此，目标检测装置100执行S205之后得到的每一个体素包括一个或多个三维点。

在一些实施例中，若目标检测装置100在S204将三维点云投射到BEV视图，则上述步骤S205包括：目标检测装置100将投射到BEV视图的三维点云体素化，得到BEV视图的多个体素。如图5中的S2051所示。

在另一些实施例中，若目标检测装置100在S204将三维点云投射到PV视图，则上述步骤S205包括：目标检测装置100将投射到PV视图的三维点云体素化，得到PV视图的多个体素。如图6中的S2052所示。

在另一些实施例中，若目标检测装置100在S204将三维点云分别投射到BEV视图和PV视图，则上述步骤S205包括：目标检测装置100分别将投射到BEV视图和PV视图的三维点云体素化，得到BEV视图的多个体素和PV视图的多个体素。如图7、图8或图9中的S2051和S2052所示。

S206、目标检测装置100根据得到的多个体素，得到一个或多个第二2D检测框。

其中，目标检测装置100根据得到的多个体素，得到一个或多个第二2D检测框的主要思路是：目标检测装置100获取每一个体素的空间特征，例如采用神经网络算法获取每一个体素的空间特征；然后，目标检测装置100根据每一个体素的空间特征得到一个或多个第二2D检测框。关于目标检测装置100根据得到的多个体素，得到一个或多个第二2D检测框的详细过程，将在下文对图10的解释和说明中具体介绍。

在一些实施例中，若目标检测装置100在S204将三维点云投射到BEV视图，则上述步骤S206可以包括：目标检测装置100分析BEV视图的多个体素，得到BEV视图的一个或多个第二2D检测框。如图5中的S2061所示。

在另一些实施例中，若目标检测装置100在S204将三维点云投射到PV视图，则上述步骤S206可以包括：目标检测装置100分析PV视图的多个体素，得到PV视图的一个或多个第二2D检测框。如图6中的S2062所示。

在另一些实施例中，若目标检测装置100在S204分别将三维点云投射到BEV视图和PV视图，则上述步骤S206可以包括：目标检测装置100分别分析BEV视图的多个体素和PV视图的多个体素，得到BEV视图的一个或多个第二2D检测框和PV视图的一个或多个第二2D检测框。如图7中的S2061和S2062所示。

或者，若目标检测装置100在S204分别将三维点云投射到BEV视图和PV视图，则上述步骤S206可以包括：目标检测装置100融合BEV视图的多个体素和PV视图的多个体素。目标检测装置100根据融合后的体素，得到一个或多个第二2D检测框。如图8中的S2063和S2064所示。

S207、目标检测装置100基于得到的一个或多个第一2D检测框的匹配度和置信度，以及一个或多个第二2D检测框的匹配度和置信度，得到目标的2D检测框。

其中，匹配度用于表征对应第一2D检测框和第二2D检测框中特征三维点的重合程度。例如，第一2D检测框和第二2D检测框均是汽车A对应的第二2D检测框，则两者中特征三维点的重合程度较高，都包括汽车A的特征点。置信度用于表征对应第一2D检测框或第二2D检测框中包括特征三维点的可靠性。例如，置信度可以用百分比表示，100％表示2D检测框中包括特征三维点的可能性较高，1％表示2D检测框中包括特征三维点的可能性较低。又如，置信度可以用1～10表示，10表示2D检测框中包括特征三维点的可能性较高，1表示2D检测框中包括特征三维点的可能性较低。本申请对置信度的表示方式不做限定。

在一些实施例中，若目标检测装置100在S204仅将三维点云投射到BEV视图，则上述步骤S207可以包括：目标检测装置100基于得到的一个或多个第一2D检测框的匹配度和置信度，以及BEV视图的一个或多个第二2D检测框的匹配度和置信度，得到目标的2D检测框。如图5中的S2071所示。

在另一些实施例中，若目标检测装置100在S204将三维点云投射到PV视图，则上述步骤S207可以包括：目标检测装置100基于得到的一个或多个第一2D检测框的匹配度和置信度，以及PV视图的一个或多个第二2D检测框的匹配度和置信度，得到目标的2D检测框。如图6中的S2072所示。

在另一些实施例中，若目标检测装置100在S204分别将三维点云投射到BEV视图和PV视图，则上述步骤S207可以包括：目标检测装置100基于得到的一个或多个第一2D检测框的匹配度和置信度，以及BEV视图的一个或多个第二2D检测框的匹配度和置信度，得到第一目标2D检测框，如图7中的S2073所示。目标检测装置100基于得到的一个或多个第一2D检测框的匹配度和置信度，以及PV视图的一个或多个第二2D检测框的匹配度和置信度，得到第二目标2D检测框，如图7中的S2074所示。目标检测装置100根据得到的第一目标2D检测框和第二目标2D检测框，获取目标的3D模型。例如，如图7中的S2075所示，目标检测装置100可以将得到的第一目标2D检测框和第二目标2D检测框融合，获取目标的2D检测框。

或者，如图9所示，在执行完上述步骤S2073和S2074之后，如S2081和S2082所示，目标检测装置100还可以将第一目标2D检测框和第二目标2D检测框分别作为目标的2D检测框，分别基于第一目标2D检测框对应的三维点和第二目标2D检测框对应的三维点，获取第一目标3D模型和第二目标3D模型。

示例性的，目标检测装置100将得到的第一目标2D检测框和第二目标2D检测框融合，获取目标的2D检测框，可以包括：目标检测装置100确定第一目标2D检测框和第二目标2D检测框的并集，将该并集作为目标的2D检测框。

或者，若目标检测装置100在S204分别将三维点云投射到BEV视图和PV视图，则述步骤S207可以包括：目标检测装置100确定第一目标2D检测框为目标的2D检测框，或者第二目标2D检测框为目标的2D检测框。例如，目标检测装置100可以根据第一目标2D检测框和第二目标2D检测框对应的三维点数量确定目标的2D检测框是第一目标2D检测框还是第二目标2D检测框。或者，目标检测装置100可以随机从第一目标2D检测框和第二目标2D检测框职工确定目标的2D检测框。本申请不限定。

或者，若目标检测装置100在S204分别将三维点云投射到BEV视图和PV视图，且目标检测装置100在S206融合了BEV视图的多个体素和PV视图的多个体素，以及根据融合后的体素，得到一个或多个第二2D检测框，则上述步骤S207可以包括：目标检测装置100基于得到的一个或多个第一2D检测框的匹配度和置信度，以及根据融合后的体素得到的一个或多个第二2D检测框的匹配度和置信度，得到目标的2D检测框，如图8中的S2076所示。

以下以目标检测装置100在S204仅将三维点云投射到BEV视图为例，介绍目标检测装置100得到第一目标2D检测框、第二目标2D检测框或得到目标的2D检测框的具体原理和方法：

上述步骤S207可以包括：目标检测装置100获取一个或多个第一2D检测框的置信度排名和一个或多个BEV视图的第二2D检测框的置信度排名。然后，目标检测装置100按照一个或多个第一2D检测框和一个或多个BEV视图的第二2D检测框的置信度排名将每一个第一2D检测框与每一个BEV视图的第二2D检测框两两交并比(intersection over union，IOU)。若IOU结果大于预设阈值，且第一2D检测框的置信度小于第二2D检测框的置信度，则保留第二2D检测框，丢弃第一2D检测框。

在本申请实施例中，IOU可以理解为第二2D检测框与第一2D检测框的交叠率，即第二2D检测框与第一2D检测框的交集和并集的比值。IOU的值通常为0～1之间的任何一个数值。可以理解，第二2D检测框中包括目标检测装置100通过激光传感器检测到的目标场景中的物体，第一2D检测框中包括目标检测装置100通过图像传感器检测到的目标场景中的物体。

若两者的交集与并集的比值为1，或者，若两者的交集与并集的比值大于预设阈值(例如大于预设阈值0.8)，则说明第二2D检测框和第一2D检测框描述的是同一个物体。在这种情况下，可以根据第二2D检测框和第一2D检测框置信度的高低选择保留第二2D检测框还是第一2D检测框。例如，第一2D检测框的置信度小于第二2D检测框的置信度，则保留第二2D检测框，丢弃第一2D检测框。若置信度相当，则可以随机选择保留第二2D检测框还是第一2D检测框。或者，若第一2D检测框标示有类别标签，则可以保留第一2D检测框。或者，考虑到第一图像包含丰富的颜色纹理信息，可以保留根据第一图像得到的第一2D检测框。本申请不限定。

若两者的交集与并集的比值为0，则说明第二2D检测框与第一2D检测框描述的不是同一个物体。在这种情况下，则继续处理下一个第二2D检测框与第一2D检测框。

若两者的交集与并集的比值较小(例如小于预设阈值0.4)，则说明第二2D检测框和第一2D检测框描述的是同一个物体，但是图像传感器可能有漏检，在这种情况下，需要保留对应的第二2D检测框。通过这样的方法，可以弥补单纯依据目标场景的图像或者目标场景的反射点云造成目标漏检的问题。例如，图像检测中由于FOV或环境因素(例如在黑夜、光照不足、目标快速运动)等导致的目标漏检问题。

通过对每一个第一2D检测框和BEV视图的第二2D检测框作上述处理，得到最终保留的2D检测框，即为目标的2D检测框。

S208、目标检测装置100基于目标的2D检测框对应的三维点，获取目标的3D模型。

其中，目标的2D检测框对应的三维点是指激光传感器1061在上述步骤S202中获取的目标场景的三维点云中，映射在目标的2D检测框中的三维点。

在一种可能的实现方式中，若目标检测装置100获取了目标的2D检测框，则如图5、图6、图7和图8所示，目标检测装置100可以直接基于目标的2D检测框对应的三维点，获取目标的3D模型。

在另一种可能的实现方式中，若目标检测装置100分别获取了第一目标2D检测框和第二目标2D检测框，则如图9中的S2081和S2082所示，目标检测装置100可以分别基于第一目标2D检测框对应的三维点和第二目标2D检测框对应的三维点，获取第一目标3D模型和第二目标3D模型。然后，如图9中的S2083所示，目标检测装置100可以根据第一目标3D模型和第二目标3D模型确定目标的3D模型。例如，目标检测装置100可以根据第一目标3D模型和第二目标3D模型的置信度确定第一目标3D模型为目标的3D模型，或者第二目标3D模型为目标的3D模型。本申请不限定根据第一目标3D模型和第二目标3D模型的置信度确定目标的3D模型的原则和方法。

以目标检测装置100直接基于目标的2D检测框对应的三维点，获取目标的3D模型为例，在一种可能的实现方式中，上述步骤S208可以包括：首先，目标检测装置100确定目标的2D检测框对应的三维点，获取目标的2D检测框对应的三维点的特征，得到目标的2D检测框对应的特征三维点。然后，目标检测装置100对得到的特征三维点执行采样、坐标变换或前景分割等第一操作中的一项或多项。最后，目标检测装置100根据执行了第一操作之后的特征三维点，得到目标的3D模型。如图11所示，2D检测框对应的三维点包括汽车对应的三维点。通过对汽车对应的三维点进行特征提取，得到汽车对应的特征三维点；然后对汽车对应的特征三维点执行第一操作(如采样、坐标变换或前景分割等)，进而对执行了第一操作的特征三维点进行3D回归，可以得到汽车的3D模型。

其中，采样、坐标变换或前景分割的目的都在于从目标的2D检测框对应的特征三维点中提取出关注度比较高的特征三维点。例如，前景物体对应的三维点，如图4-图9所示的第一图像中，街景中的汽车。关于采样、坐标变换或前景分割的具体介绍，可以参考常规技术中的解释和说明，这里不做赘述。

在一种可能的实现方式中，目标检测装置100确定目标的2D检测框对应的三维点可以根据信息源的不同采取不同方法。例如，对于目标的2D检测框来源于第一2D检测框的情况，可以将三维点云坐标转换到图像坐标系下，得到落在目标的2D检测框内的三维点即为目标的2D检测框对应的三维点。对于目标的2D检测框来源于第二2D检测框的情况，可以根据三维点云与体素的映射关系，确定目标的2D检测框对应的体素内的三维点，即为目标的2D检测框对应的三维点。其中，三维点云与体素的映射关系用于表征每一个三维点对应的体素。

在本申请实施例中，目标检测装置100得到目标的2D检测框对应的特征三维点的方法包括但不限于目标检测装置100采用神经网络算法或者常规算法对目标的2D检测框对应的三维点进行特识别和特征分析，得到与预设特征匹配的特征三维点。具体过程可以参考上文中的介绍，这里不做赘述。

另外，在本申请实施例中，根据特征三维点得到目标的3D模型的过程，可以参考常规技术中的介绍和说明，例如，通过GPU进行3D模型构建和渲染等，本申请实施例不做赘述。

若目标检测装置100在S204将三维点云投射到BEV视图，则如图10所示，上述步骤S206可以包括以下步骤S1001-S1005：

S1001、目标检测装置100根据三维点云与体素的映射关系，生成体素图。

其中，体素图包括多个体素。每一个体素为一个三维空间。体素中可以包括一个或多个三维点，也可以不包括三维点。

S1002、目标检测装置100获取体素图对应的每一个体素的体素特征。

其中，每一个体素的体素特征用于表征以下中的一种或多种：每一个体素内预设特征三维点的数量、每一个体素内是否有预设特征三维点或每一个体素内预设特征三维点的平均坐标中的一个或多个。预设特征三维点包括但不限于与周围三维点深度值的差值大于预设阈值的三维点、与周围三维点反射强度的差值大于预设阈值的三维点或者反射强度大于预设阈值的三维点等。不申请不限定。

在一种可能的实现方式中，目标检测装置100提取体素图对应的每一个体素的体素特征，包括：目标检测装置100统计每一个体素中预设特征三维点的数量，使用“0”或“1”，或者“no”或“yes”等表示每一个体素。其中，“0”和“no”用于表示体素中没有预设特征三维点，“1”和“yes”用于表示体素中有预设特征三维点。例如，体素i的体素特征为“0”。该体素特征用于表征体素i中没有预设特征三维点。

在另一种可能的实现方式中，目标检测装置100提取体素图对应的每一个体素的体素特征，包括：目标检测装置100统计每一个体素中预设特征三维点的数量，使用每一个体素中预设特征三维点的数量表示该体素。例如，体素i的体素特征为38。该体素特征用于表征体素i中预设特征三维点的数量为38。

在另一种可能的实现方式中，目标检测装置100提取体素图对应的每一个体素的体素特征，包括：目标检测装置100计算每一个体素中预设特征三维点的平均坐标，使用该平均坐标表示每一个体素。例如，体素i的体素特征为(34，55，67)。该体素特征用于表征体素i中预设特征三维点的平均坐标为x＝34，y＝55，z＝67。

在另一种可能的实现方式中，目标检测装置100提取体素图对应的每一个体素的体素特征，包括：目标检测装置100统计每一个体素中预设特征三维点的数量，计算每一个体素中预设特征三维点的平均坐标，使用每一个体素中预设特征三维点的数量和预设特征三维点的平均坐标表示每一个体素。例如，体素i的体素特征为(34，55，67，38)。该体素特征用于表征体素i中预设特征三维点的数量为38，预设特征三维点的平均坐标为x＝34，y＝55，z＝67。

需要说明的是，上述体素内预设特征三维点的数量、体素内是否有预设特征三维点或体素内预设特征三维点的平均坐标仅作为几种体素特征的表示方式示例，本申请实施例不限定体素特征的表示方式。例如，体素特征还可以用来表示体素内三维点的反射强度的平均值等。

在一些实施例中，目标检测装置100可以采用神经网络算法提取体素图对应的每一个体素的体素特征。例如，目标检测装置100可以使用PointNet方法提取每一个体素的体素特征。可以理解，三维点云在分类或分割时存在空间关系不规则的特点，因此不能直接将已有的图像分类分割框架套用到三维点云，因此通常将三维点云体素化(也称“格网化”)，采用体素化的深度学习框架。但是，将三维点云体素化势必会改变三维点云数据的原始特征，造成不必要的数据损失，并且额外增加工作量。因此，可以引入PointNet方法，PointNet作为一种点云分类/分割深度学习框架，采用了原始三维点云的输入方式，可以最大限度地保留三维点云的空间特征，取得较好的分析效果。

S1003、目标检测装置100根据体素图对应的每一个体素的体素特征，将体素图表示为多维张量。

例如，将投射到预设视图的三维点云区域平均分成了M*N*K个体素，每个体素是一个L维张量。

以体素的体素特征用于表征体素内预设特征三维点的数量和预设特征三维点的平均坐标为例，体素图可以表示为二维张量。其中一个维度用于表征体素内预设特征三维点的数量，一个维度用于表征体素内预设特征三维点的平均坐标。

S1004、目标检测装置100获取体素图对应的每一个体素的空间特征。

可以理解，在体素图用多维张量表示之后，目标检测装置100则可以采用神经网络算法提取每一个体素的空间特征。

例如，将投射到预设视图的三维点云区域平均分成了M*N*K个体素，每个体素是一个L维张量。则每一个体素的空间特征可以用该L维张量来表示。体素图可以表示成一个M*N*K*L的多维张量。

S1005、目标检测装置100根据每一个体素的空间特征，得到一个或多个第二2D检测框。

在一种可能的实现方式中，目标检测装置100可以采用区域提议网络(regionproposal network，RPN)，根据每一个体素的空间特征，得到一个或多个第二2D检测框。

其中，RPN用于通过一些列卷积网络回归出目标场景中的前景(包括前景物体)或背景(包括背景物体)的包围框。

RPN的工作原理主要可以包括：首先，根据每一个体素的空间特征确定anchorboxes。然后，判断每一个anchor box是前景(foreground)还是背景(background)。最后，通过边界框回归(bounding box regression)对每一个anchor box进行微调，使得anchorbox和真实场景中的物体更加接近，即第二2D检测框。

在一些实施例中，通过执行S1005，目标检测装置100可以得到前景和背景对应的一个或多个第二2D检测框。

在另一些实施例中，通过执行S1005，目标检测装置100也可以只保留前景对应的一个或多个第二2D检测框。

可以理解，假设目标检测装置100作为观察目标场景的一个装置，目标场景中的背景(例如图4-图9所示的第一图像对应的目标场景中的马路和建筑物)通常是保持不变的，而目标检测装置100感兴趣的元素往往是在目标场景中运动的物体，即前景物体(例如图4-图9所示的第一图像对应的目标场景中的汽车)。因此，目标检测装置100可以只保留前景对应的一个或多个第二2D检测框。

进一步的，目标检测装置100还可以得到每一个第二2D检测框对应的类别标签。每一个类别标签用于表征对应第二2D检测框中的物体的类别，例如建筑物、马路或汽车等。

关于目标检测装置100根据得到的PV视图的多个体素，得到PV视图的一个或多个第二2D检测框的过程，以及目标检测装置100根据基于PV视图的多个体素和BEV视图的多个体素融合后的体素集合，得到一个或多个第二2D检测框的过程，可以参考上文中的步骤S1001-S1005，这里不做赘述。

应理解，本申请实施例的各个方案可以进行合理的组合使用，并且实施例中出现的各个术语的解释或说明可以在各个实施例中互相参考或解释，对此不作限定。

还应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

可以理解的是，目标检测装置为了实现上述任一个实施例的功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以对目标检测装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

比如，以采用集成的方式划分各个功能模块的情况下，如图12所示，为本申请实施例提供的一种目标检测装置的结构框图。该目标检测装置100可以包括收发单元1210和处理单元1220。

其中，收发单元1210用于辅助支持目标检测装置100执行上述步骤S202，和/或用于本文所描述的技术的其他过程。例如，发射激光信号，接收激光反射光；或者发射雷达信号，接收雷达反射信号。处理单元1220用于支持目标检测装置100执行上述步骤S201、S202、S203、S204、S205、S206、S207、S208、S3001、S3002、S2041、S2051、S2061、S2071、S2042、S2052、S2062、S2072、S2073、S2074、S2075、S2063、S2064、S2076、S2081、S2082、S2083、S1001、S1002、S1003、S1004或S1005，和/或用于本文所描述的技术的其他过程。

在一种可选的方式中，本申请提供一种传感器系统或者融合传感器系统，该传感器系统或者融合传感器系统包括一个或多个传感器。例如，传感器系统或者融合传感器系统可以包括图像传感器、摄像头或成像雷达等中的一个或多个；以及包括激光传感器、激光雷达、毫米波雷达、声纳或超声波传感器等中一个或多个。

可选的，上述传感器系统或者融合传感器系统可以集成在目标检测装置100中或者集成在规划/控制系统，如辅助驾驶或者自动驾驶系统等。

在一种可选的方式中，本申请提供一种目标检测装置100，该目标检测装置100用于从第三方装置获取第一图像和目标场景的三维点云，根据获取的第一图像和目标场景的三维点云对目标场景中的目标进行识别。例如第三方装置可以是传感器系统或者融合传感器系统等。

在一种可选的方式中，本申请提供一种终端设备，该终端设备可以是运输工具、卫星或者智能设备。例如，无人机、无人汽车、船舶、卫星或机器人等。或者，该终端设备可以集成在运输工具、卫星或者智能设备中，例如集成在车辆、飞机、船舶、卫星或机器人等中。该终端设备包括本申请实施例中的目标检测装置100、传感器系统、融合传感器系统、规划/控制系统中的一个或多个。

在一种可选的方式中，当使用软件实现数据传输时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地实现本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线((digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如软盘、硬盘、磁带)、光介质(例如数字化视频光盘(digital video disk,DVD))、或者半导体介质(例如固态硬盘solid state disk(SSD))等。

结合本申请实施例所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于探测装置中。当然，处理器和存储介质也可以作为分立组件存在于探测装置中。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在一种可能的结构中，目标检测装置100可以包括至少一个处理器和通信接口。其中，该至少一个处理器包含CPU、GPU或者DSP中的至少一个。

进一步的，在一种可能的结构中，目标检测装置100还可以包括至少一个存储器。

在一种可选的方式中，本申请提供一种芯片系统，该芯片系统包括处理器、存储器，存储器中存储有计算机程序代码；当计算机程序代码被处理电路或者集成电路执行时，实现本申请提供的任一种可能的实现方式中的方法。该芯片系统可以由芯片构成，也可以包含芯片和其他分立器件。

可选的，上述芯片系统可以集成在目标检测装置100中。在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种目标检测方法，其特征在于，所述方法包括：

获取第一图像和三维点云；所述第一图像是目标场景的图像，所述三维点云是所述目标场景的三维点云；

根据所述第一图像中的图像特征，得到一个或多个第一二维2D检测框；

将所述三维点云投射到预设视图；所述预设视图包括鸟瞰视图BEV和/或前视视图PV；

将投射到所述预设视图的所述三维点云体素化，得到多个体素；每一个所述体素中包括一个或多个三维点；

根据所述多个体素，得到一个或多个第二2D检测框；

基于所述一个或多个第一2D检测框的匹配度和置信度，以及所述一个或多个第二2D检测框的匹配度和置信度，得到目标的2D检测框；所述置信度用于表征对应第一2D检测框或第二2D检测框中包括特征三维点的可靠性，所述匹配度用于表征对应第一2D检测框和第二2D检测框中特征三维点的重合程度；

基于所述目标的2D检测框对应的三维点，获取所述目标的3D模型。

2.根据权利要求1所述的方法，其特征在于，所述根据所述多个体素，得到一个或多个第二2D检测框，包括：

根据所述三维点云与所述体素的映射关系，生成体素图；

获取所述体素图对应的每一个体素的体素特征；所述体素特征用于表征所述体素内预设特征三维点的数量，所述体素内是否有预设特征三维点或所述体素内预设特征三维点的平均坐标中的一个或多个；

根据所述体素图对应的每一个体素的体素特征，将所述体素图表示为多维张量；

获取所述体素图对应的每一个体素的空间特征；

根据每一个体素的空间特征，得到一个或多个第二2D检测框。

3.根据权利要求1或2所述的方法，其特征在于，所述基于所述目标的2D检测框对应的三维点，获取所述目标的3D模型，包括：

获取所述目标的2D检测框对应的三维点的特征，得到所述目标的2D检测框对应的特征三维点；

对所述特征三维点执行第一操作；所述第一操作包括采样、坐标变换或前景分割中的一项或多项；

根据执行了所述第一操作之后的特征三维点，得到所述目标的3D模型。

4.根据权利要求1或2所述的方法，其特征在于，所述基于所述一个或多个第一2D检测框的匹配度和置信度，以及所述一个或多个第二2D检测框的匹配度和置信度，得到目标的2D检测框，包括：

获取所述一个或多个第一2D检测框和所述一个或多个第二2D检测框的置信度排名；

按照所述置信度排名将每一个第一2D检测框与每一个第二2D检测框两两交并比IOU，若结果大于预设阈值，且第一2D检测框的置信度小于第二2D检测框的置信度，则保留所述第二2D检测框，丢弃所述第一2D检测框。

5.根据权利要求1或2所述的方法，其特征在于，所述预设视图包括BEV视图和PV视图；所述将投射到所述预设视图的所述三维点云体素化，得到多个体素，包括：

将投射到所述BEV视图的所述三维点云体素化，得到所述BEV视图的多个体素；以及，

将投射到所述PV视图的所述三维点云体素化，得到所述PV视图的多个体素。

6.根据权利要求5所述的方法，其特征在于，所述根据所述多个体素，得到一个或多个第二2D检测框，包括：

融合所述BEV视图的多个体素和所述PV视图的多个体素；

根据所述融合后的体素，得到一个或多个第二2D检测框。

7.根据权利要求5所述的方法，其特征在于，所述根据所述多个体素，得到一个或多个第二2D检测框，包括：

根据所述BEV视图的多个体素，得到所述BEV视图的一个或多个第二2D检测框；以及，根据所述PV视图的多个体素，得到所述PV视图的一个或多个第二2D检测框；

所述基于所述一个或多个第一2D检测框的匹配度和置信度，以及所述一个或多个第二2D检测框的匹配度和置信度，得到目标的2D检测框，包括：

基于所述一个或多个第一2D检测框的匹配度和置信度，以及所述BEV视图的一个或多个第二2D检测框的匹配度和置信度，得到第一目标2D检测框；以及，基于所述一个或多个第一2D检测框的匹配度和置信度，以及所述PV视图的一个或多个第二2D检测框的匹配度和置信度，得到第二目标2D检测框；

根据所述第一目标2D检测框和所述第二目标2D检测框，获取所述目标的2D检测框。

8.根据权利要求7所述的方法，其特征在于，所述目标的2D检测框是所述第一目标2D检测框或所述第二目标2D检测框。

9.根据权利要求7所述的方法，其特征在于，所述根据所述第一目标2D检测框和所述第二目标2D检测框，获取所述目标的2D检测框，包括：

将所述第一目标2D检测框和所述第二目标2D检测框融合，获取所述目标的2D检测框。

10.根据权利要求1、2、6、7、8或9中任一项所述的方法，其特征在于，所述目标的3D模型至少用于表征所述目标的位置、结构或类别中的一种或多种。

11.一种目标检测装置，其特征在于，所述装置包括：

获取单元，用于获取第一图像和三维点云；所述第一图像是目标场景的图像，所述三维点云是所述目标场景的三维点云；

处理单元，用于根据所述第一图像中的图像特征，得到一个或多个第一二维2D检测框；将所述三维点云投射到预设视图；将投射到所述预设视图的所述三维点云体素化，得到多个体素；每一个所述体素中包括一个或多个三维点；根据所述多个体素，得到一个或多个第二2D检测框；基于所述一个或多个第一2D检测框的匹配度和置信度，以及所述一个或多个第二2D检测框的匹配度和置信度，得到目标的2D检测框；以及，

基于所述目标的2D检测框对应的三维点，获取所述目标的3D模型；

其中，所述预设视图包括鸟瞰视图BEV和/或前视视图PV；所述置信度用于表征对应第一2D检测框或第二2D检测框中包括特征三维点的可靠性，所述匹配度用于表征对应第一2D检测框和第二2D检测框中特征三维点的重合程度。

12.根据权利要求11所述的装置，其特征在于，所述处理单元根据所述多个体素，得到一个或多个第二2D检测框，包括：

所述处理单元根据所述三维点云与所述体素的映射关系，生成体素图；

所述处理单元获取所述体素图对应的每一个体素的体素特征；所述体素特征用于表征所述体素内预设特征三维点的数量，所述体素内是否有预设特征三维点或所述体素内预设特征三维点的平均坐标中的一个或多个；

所述处理单元根据所述体素图对应的每一个体素的体素特征，将所述体素图表示为多维张量；

所述处理单元获取所述体素图对应的每一个体素的空间特征；

所述处理单元根据每一个体素的空间特征，得到一个或多个第二2D检测框。

13.根据权利要求11或12所述的装置，其特征在于，所述处理单元基于所述目标的2D检测框对应的三维点，获取所述目标的3D模型，包括：

所述处理单元获取所述目标的2D检测框对应的三维点的特征，得到所述目标的2D检测框对应的特征三维点；

所述处理单元对所述特征三维点执行第一操作；所述第一操作包括采样、坐标变换或前景分割中的一项或多项；

所述处理单元根据执行了所述第一操作之后的特征三维点，得到所述目标的3D模型。

14.根据权利要求11或12所述的装置，其特征在于，所述处理单元基于所述一个或多个第一2D检测框的匹配度和置信度，以及所述一个或多个第二2D检测框的匹配度和置信度，得到目标的2D检测框，包括：

所述处理单元获取所述一个或多个第一2D检测框和所述一个或多个第二2D检测框的置信度排名；

所述处理单元按照所述置信度排名将每一个第一2D检测框与每一个第二2D检测框两两IOU，若结果大于预设阈值，且第一2D检测框的置信度小于第二2D检测框的置信度，则保留所述第二2D检测框，丢弃所述第一2D检测框。

15.根据权利要求11或12所述的装置，其特征在于，所述预设视图包括BEV视图和PV视图；所述处理单元将投射到所述预设视图的所述三维点云体素化，得到多个体素，包括：

所述处理单元将投射到所述BEV视图的所述三维点云体素化，得到所述BEV视图的多个体素；以及，

所述处理单元将投射到所述PV视图的所述三维点云体素化，得到所述PV视图的多个体素。

16.根据权利要求15所述的装置，其特征在于，所述处理单元根据所述多个体素，得到一个或多个第二2D检测框，包括：

所述处理单元融合所述BEV视图的多个体素和所述PV视图的多个体素；

所述处理单元根据所述融合后的体素，得到一个或多个第二2D检测框。

17.根据权利要求15所述的装置，其特征在于，所述处理单元根据所述多个体素，得到一个或多个第二2D检测框，包括：

所述处理单元根据所述BEV视图的多个体素，得到所述BEV视图的一个或多个第二2D检测框；以及，根据所述PV视图的多个体素，得到所述PV视图的一个或多个第二2D检测框；

所述处理单元基于所述一个或多个第一2D检测框的匹配度和置信度，以及所述一个或多个第二2D检测框的匹配度和置信度，得到目标的2D检测框，包括：

所述处理单元基于所述一个或多个第一2D检测框的匹配度和置信度，以及所述BEV视图的一个或多个第二2D检测框的匹配度和置信度，得到第一目标2D检测框；以及，基于所述一个或多个第一2D检测框的匹配度和置信度，以及所述PV视图的一个或多个第二2D检测框的匹配度和置信度，得到第二目标2D检测框；

所述处理单元根据所述第一目标2D检测框和所述第二目标2D检测框，获取所述目标的2D检测框。

18.根据权利要求17所述的装置，其特征在于，所述目标的2D检测框是所述第一目标2D检测框或所述第二目标2D检测框。

19.根据权利要求17所述的装置，其特征在于，所述处理单元根据所述第一目标2D检测框和所述第二目标2D检测框，获取所述目标的2D检测框，包括：

所述处理单元将所述第一目标2D检测框和所述第二目标2D检测框融合，获取所述目标的2D检测框。

20.根据权利要求11、12、16、17、18或19中任一项所述的装置，其特征在于，所述目标的3D模型至少用于表征所述目标的位置、结构或类别中的一种或多种。

21.一种目标检测装置，其特征在于，所述装置包括：

至少一个存储器，用于存储计算机程序；

至少一个处理器，用于执行所述计算机程序，以使得所述目标检测装置实现如权利要求1-10中任一项所述的目标检测方法。

22.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序代码，所述计算机程序代码被处理电路或者集成电路执行时实现如权利要求1-10中任一项所述的目标检测方法。

23.一种芯片系统，其特征在于，所述芯片系统包括处理电路、存储介质，所述存储介质中存储有计算机程序代码；所述计算机程序代码被所述处理电路执行时实现如权利要求1-10中任一项所述的目标检测方法。