CN111862222A

CN111862222A - 一种目标检测方法及电子设备

Info

Publication number: CN111862222A
Application number: CN202010767473.XA
Authority: CN
Inventors: 钱智明
Original assignee: Hubei Ecarx Technology Co Ltd
Current assignee: Ecarx Hubei Tech Co Ltd
Priority date: 2020-08-03
Filing date: 2020-08-03
Publication date: 2020-10-30
Anticipated expiration: 2040-08-03
Also published as: CN111862222B

Abstract

本发明实施例提供了一种目标检测方法及电子设备，涉及计算机视觉技术领域。该方法包括：将待检测目标的场景的点云划分为多个体素；确定每个体素的体素特征；基于每个体素的体素特征，生成不同分辨率下的初始二维特征图；利用所得到的多个初始二维特征图，生成目标二维特征图；确定目标二维特征图中的各个候选区域以及每一候选区域的区域信息；基于各个候选区域中待检测目标的置信度，从各个候选区域中选取表征待检测目标的区域，得到场景中的待检测目标的空间位置和类型信息。相比于现有技术，应用本发明实施例提供的方案，可以避免进行点云目标检测时，计算量过大。

Description

一种目标检测方法及电子设备

技术领域

本发明涉及计算机视觉技术领域，特别是涉及一种目标检测方法及电子设备。

背景技术

当前，随着计算机技术的不断发展，计算机视觉技术应用到越来越多的领域中，例如，车辆自动驾驶、家务机器人等。所谓计算机视觉技术为：通过对采集的图片或视频进行处理以获得相应场景的三维信息，并进一步做图形处理，得到更适合人眼观察或仪器检测的图像。

其中，计算机视觉技术的重要环节为：如何对场景中的目标进行检测。

通常，在计算机视觉技术中，可以利用点云对场景中所有感兴趣的目标的三维边界框进行检测，从而，实现对场景中的目标的检测。所谓点云为：同一空间参考系下表达目标空间分布和目标表面特性的海量点集合，一般可以通过激光雷达得到某个场景的点云。

相关技术中，利用点云进行目标检测的方法中，通常针对点云中的每个点进行点动态聚集，从而，提取该点对应的判别特征，并进一步的采用所提取到的每个点对应的判别特征进行目标检测。

然而，在上述相关技术中，整个目标检测过程的每个环节均需要针对点云中的每个点进行大量的计算，从而，导致目标检测过程中的计算量较大，甚至，出现由于目标检测所需的计算资源超过计算设备的可用计算资源，导致计算设备宕机的情况发生。

基于此，在利用点云进行目标检测时，如何避免计算量过大是一个亟待解决的问题。

发明内容

本发明实施例的目的在于提供一种目标检测方法及电子设备，以避免进行点云目标检测时，计算量过大。具体技术方案如下：

第一方面，本发明实施例提供了一种目标检测方法，所述方法包括：

将待检测目标的场景的点云划分为多个体素；

确定每个体素的体素特征；

基于每个体素的体素特征，生成不同分辨率下的初始二维特征图；

利用所得到的多个初始二维特征图，生成目标二维特征图；

确定所述目标二维特征图中的各个候选区域以及每一候选区域的区域信息；其中，所述区域信息包括能够表征的待检测目标的空间位置、类型信息和置信度；

基于各个候选区域中待检测目标的置信度，从各个候选区域中选取表征待检测目标的区域，得到所述场景中的待检测目标的空间位置和类型信息。

可选的，一种具体实现方式中，所述确定每个体素的体素特征的步骤，包括：

针对每个体素，确定体素中每个点的特征；其中，每个点的特征包括：该点的空间位置、该点的激光反射率强度以及该点与所在体素的中心点的相对位置；

对每个点的特征进行转换得到预设维度的特征；

对各体素中每一维度的特征进行最大值聚合，得到该体素的体素特征。

可选的，一种具体实现方式中，所述预设维度为8维，所述对每个点的特征进行转换得到预设维度的特征的步骤，包括：

利用线性层函数确定每个点的预设维度的特征；其中，所述线性层函数为：

y_i＝Wx_i+b

其中，y_i为第i个点的预设维度的特征，x_i为第i个点的特征，W为预先训练得到的维度为7×8的权值矩阵，b为预先训练得到的偏差值。

可选的，一种具体实现方式中，所述基于每个体素的体素特征，生成不同分辨率下的初始二维特征图的步骤，包括：

利用稀疏三维卷积神经网络对每个体素的体素特征进行三维稀疏卷积操作，得到不同分辨率下的初始二维特征图。

可选的，一种具体实现方式中，所述利用所得到的多个初始二维特征图，生成目标二维特征图的步骤，包括：

利用基于区域推荐的三维目标检测网络，对所得到的多个初始二维特征图进行卷积操作和反卷积操作，得到目标二维特征图。

可选的，一种具体实现方式中，所述确定所述目标二维特征图中的各个候选区域以及每一候选区域的区域信息的步骤，包括：

针对所述目标二维特征图中的每个点，确定包含该点的多个初始区域；

对每个初始区域进行类型判断和位置回归，确定该初始区域的区域信息；

针对所述目标二维特征图中的每个点，从所确定的包含该点的多个初始区域中，选取置信度满足预设置信度条件的多个初始区域；其中，所述预设置信度条件包括：置信度大于预设阈值；或，按照置信度由高到底的顺序对所确定的包含该点的多个初始区域进行排列，排序在前第一预设数量位；

将所选取的各个初始区域确定为所述目标二维特征图中的各个候选区域，并得到每一候选区域的区域信息。

可选的，一种具体实现方式中，在所述基于各个候选区域中待检测目标的置信度，从各个候选区域中选取表征待检测目标的区域，得到所述场景中的待检测目标的空间位置和类型信息的步骤之前，所述方法还包括：

对所述各个候选区域进行非极大值抑制，得到所保留的各个候选区域；

所述基于各个候选区域中待检测目标的置信度，从各个候选区域中选取表征待检测目标的区域，得到所述场景中的待检测目标的空间位置和类型信息的步骤，包括：

基于所保留的各个候选区域中待检测目标的置信度，从所保留的各个候选区域中选取表征待检测目标的区域，得到所述场景中的待检测目标的空间位置和类型信息。

可选的，一种具体实现方式中，所述基于所保留的各个候选区域中待检测目标的置信度，从所保留的各个候选区域中选取表征待检测目标的区域，得到所述场景中的待检测目标的空间位置和类型信息的步骤，包括：

根据所保留的各个候选区域的数量，确定第二预设数量个待优化区域；

针对每个待优化区域，确定空间位置与该待优化区域的空间位置对应的体素的体素特征，并基于所确定的体素特征，对该待优化区域的空间位置进行优化，得到该待优化区域的优化空间位置；

针对每个待优化区域，当该待优化区域中待检测目标的置信度大于该优化区域的类型信息对应的置信度阈值时，将该待优化区域确定为表征待检测目标的区域，得到所述场景中的待检测目标的优化空间位置和类型信息。

可选的，一种具体实现方式中，所述根据所保留的各个候选区域的数量，确定第二预设数量个待优化区域的步骤，包括：

当所保留的各个候选区域的数量小于第二预设数量时，添加至少一个置信度为零的指定区域，将所保留的各个候选区域和所添加的指定区域确定为各个待优化区域；其中，所保留的各个候选区域和所添加的指定区域的数量和为所述第二预设数量；

当所保留的各个候选区域的数量等于所述第二预设数量时，将所保留的各个候选区域确定为各个待优化区域；

当所保留的各个候选区域的数量大于所述第二预设数量时，按照置信度由高到低的排列顺序，在所保留的各个候选区域中，选取排列在前第二预设数量位的候选区域，作为各个待优化区域。

第二方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面提供的任一目标检测方法的步骤。

第三方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面提供的任一目标检测方法的步骤。

第四方面，本发明实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面提供的任一目标检测方法的步骤。

本发明实施例有益效果：

应用本发明实施例提供的方案，在利用点云进行目标检测时，对于待检测目标的场景的点云，首先将点云划分为多个体素，进而，在确定每个体素的体素特征后，便可以基于每个体素的体素特征，生成不同分辨率下的初始二维特征图；进而，利用所得到的多个初始二维特征图，生成目标二维特征图。这样，便可以基于所得到的目标二维特征图实现对场景中的待检测目标的检测，得到场景中的待检测目标的空间位置和类型信息。

其中，在利用点云进行目标检测的过程中，由于目标二维特征图是基于每个体素的体素特征得到的，因此，不需要始终针对点云中的每个点进行大量的计算，可以减少目标检测过程中的计算量。进一步的，将三维的点云转换成二维的特征图，从而，在目标检测过程中，还可以实现数据降维，从而，可以进一步减少目标检测过程中的计算量。

基于此，应用本发明实施例提供的方案，通过将点云划分为多个体素，并在基于每个体素的体素特征，得到目标二维特征图，可以不需要始终对点云中的每个点进行大量的计算，并且实现数据降维，从而，可以极大地减少目标检测过程中的计算量。这样，便可以避免在利用点云进行目标检测时，计算量过大。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种目标检测方法的流程示意图；

图2为电子设备展示场景中的待检测目标的空间位置和类型信息的一种示意图；

图3为图1中S102的一种具体实现方式的流程示意图；

图4为图1中S103的一种具体实现方式的原理图；

图5为图1中S104的一种具体实现方式的原理图；

图6为图1中S105的一种具体实现方式的流程示意图；

图7为本发明实施例提供的另一种目标检测方法的流程示意图；

图8为图7中S107A的一种具体实现方式的流程示意图；

图9为本发明实施例提供的一种电子设备的结果示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

相关技术中，利用点云进行目标检测的方法中，通常针对点云中的每个点进行点动态聚集，从而，提取该点对应的判别特征，并进一步的采用所提取到的每个点对应的判别特征进行目标检测。然而，在上述相关技术中，整个目标检测过程的每个环节均需要针对点云中的每个点进行大量的计算，从而，导致目标检测过程中的计算量较大，甚至，出现由于目标检测所需的计算资源超过计算设备的可用计算资源，导致计算设备宕机的情况发生。基于此，在利用点云进行目标检测时，如何避免计算量过大是一个亟待解决的问题。

为了解决上述技术问题，本发明实施例提供了一种目标检测方法。

其中，该目标检测方法可以适用于任一利用点云进行目标检测的场景，例如，车辆自动驾驶、家务机器人等。此外，该目标检测方法可以应用于任一类电子设备，例如，笔记本电脑、台式电脑、手机等。本发明实施例不对该目标检测方法的应用场景和执行主体进行具体限定。为了行文清晰，以下将本发明实施例提供的一种目标检测方法的执行主体统称为电子设备。

此外，实现本发明实施例提供的目标检测方法的功能软件可以为设置于电子设备中专门的目标检测辅助软件，也可以为设置于电子设备中的现有目标检测软件中的功能插件，这样，在运行该目标检测软件时，可以调用该插件执行本发明实施例提供的目标检测方法。这都是合理的。

其中，本发明实施例提供的一种目标检测方法，包括：

将待检测目标的场景的点云划分为多个体素；

确定每个体素的体素特征；

利用所得到的多个初始二维特征图，生成目标二维特征图；

以上可见，应用本发明实施例提供的方案，在利用点云进行目标检测时，对于待检测目标的场景的点云，首先将点云划分为多个体素，进而，在确定每个体素的体素特征后，便可以基于每个体素的体素特征，生成不同分辨率下的初始二维特征图；进而，利用所得到的多个初始二维特征图，生成目标二维特征图。这样，便可以基于所得到的目标二维特征图实现对场景中的待检测目标的检测，得到场景中的待检测目标的空间位置和类型信息。

下面，对本发明实施例提供的一种目标检测方法进行具体说明。

图1为本发明实施例提供的一种目标检测方法的流程示意图，如图1所示，该方法可以包括如下步骤：

S101：将待检测目标的场景的点云划分为多个体素；

在进行目标检测时，电子设备可以首先获取到待检测目标的场景的点云。即获取需要进行目标检测的场景的点云。

通常，点云可以是通过激光雷达对待检测目标所在场景进行探测得到的，当然，也可以通过其他方式得到，对此，本发明实施例不做具体限定。

其中，可以是电子设备自身设置有用于探测生成上述点云的装置，从而，直接在本地生成待检测目标所在场景的点云，例如，电子设备上安装有激光雷达；也可以是其他电子设备通过自身所设置的用于探测生成上述点云的装置生成待检测目标所在场景的点云，并将所生成的点云发送给用于执行本发明实施例提供的目标检测方法的电子设备，这都是合理的。

在得到待检测目标所在场景的点云后，电子设备便可以将该点云划分为多个体素。其中，由于所划分得到的体素的数量不同，则执行后续步骤所需的计算资源不同，因此，可以根据点云的点云数据的大小和电子设备的可用计算资源，确定体素的尺寸，从而，按照该尺寸对点云进行划分，得到多个体素。

例如，在车辆自动驾驶场景中，建立待检测目标所在场景的三维空间坐标系，其中，该三维空间坐标系的X轴、Y轴和Z轴分别对应车辆的前进方向、车辆的正左侧方向和垂直于地面的方向。

则待检测目标所在场景的点云的点云在该三维空间坐标系X轴、Y轴和Z轴上的取值范围可以分别设定为[-70.4米，70.4米]、[-70.4米，70.4米]和[-3米，3米]。进而，可以设定体素是：尺寸为0.2米*0.2米*0.2米的立方体。从而，便可以根据所设定的体素的尺寸，对上述点云进行划分，得到多个体素。

又例如，在车辆自动驾驶场景中，建立待检测目标所在场景的三维空间坐标系，其中，该三维空间坐标系的X轴、Y轴和Z轴分别对应车辆的前进方向、车辆的正左侧方向和垂直于地面的方向。

则待检测目标所在场景的点云的点云在该三维空间坐标系X轴、Y轴和Z轴上的取值范围可以分别设定为[0，70.4米]、[-40米，40米]和[-3米，1米]。进而，可以设定体素是：尺寸为0.1米*0.1米*0.1米的立方体。从而，便可以根据所设定的体素的尺寸，对上述点云进行划分，得到多个体素。

需要说明的是，上述三维空间坐标系、点云在三维空间坐标系中的取值范围，以及体素尺寸均仅仅用于对上述步骤S101进行举例说明，而非限定。其他能够实现将待检测目标所在场景的点云划分为多个体素的方式均属于本发明实施例的保护范围。

S102：确定每个体素的体素特征；

在将待检测目标所在场景的点云进行划分，得到多个体素后，电子设备便可以进一步确定每个体素的体素特征。进而，后续的步骤便可以基于每个体素的体素特征实现。

其中，由于所划分得到的体素的数量是小于待检测目标所在场景的点云中点的数量的，因此，可以减少后续的步骤中待处理的数据，进而，减少后续的步骤中的计算量，从而，可以减少目标检测过程中的计算量。

为了行文清晰，后续将会对上述步骤S102的具体实现方式进行举例说明。

S103：基于每个体素的体素特征，生成不同分辨率下的初始二维特征图；

在得到每个体素的体素特征后，电子设备便可以得到由每个体素的体素特征构成的上述点云的三维体素特征图。由于每个体素为一个三维的立方体，则该体素特征图可以理解为一个三维的特征图。

进而，电子设备便可以基于每个体素的体素特征，生成不同分辨率下的初始二维特征图。

为了行文清晰，后续将会对上述步骤S103的具体实现方式进行举例说明。

S104：利用所得到的多个初始二维特征图，生成目标二维特征图；

进而，在得到上述不同维度下的初始二维特征图后，由于，每个初始二维特征图所表达的上述点云的特征不同，因此，为了能够尽可能多的覆盖上述点云的特征，因此，电子设备便可以利用所得到的多个初始二维特征图，生成目标二维特征图。

需要说明的是，所得到的目标二维特征图的尺寸可以为预设尺寸。

这样，便可以将三维体素特征图转换为目标二维特征图，即实现了数据降维。从而，可以进一步减少后续的步骤中待处理的数据，进而，减少后续的步骤中的计算量，从而，减少目标检测过程中的计算量。

为了行文清晰，后续将会对上述步骤S104的具体实现方式进行举例说明。

S105：确定目标二维特征图中的各个候选区域以及每一候选区域的区域信息；

其中，区域信息包括能够表征的待检测目标的空间位置、类型信息和置信度；

在得到上述目标二维特征图后，电子设备便可以确定目标二维特征图中的各个候选区域以及每一候选区域的区域信息。

可选的，一种具体实现方式中，电子设备可以利用预设的区域推荐算法确定目标二维特征图中的各个候选区域以及每一候选区域的区域信息。其中，该预设的区域推荐算法用于推荐能够表征待检测目标的区域。进而，电子设备可以采用任一能够推荐表征待检测目标的区域的区域推荐算法实现上述步骤S104。例如，SS(Selective Search)算法等。

进而，每一候选区域的区域信息所包括的空间位置为该候选区域所能够表征的待检测目标在待检测目标所在场景中的空间位置。其中，若上述场景中设置有三维空间坐标系，且在获取待检测目标所在场景的点云时，点云的取值范围是依据该三维空间坐标系确定的，则该候选区域的区域信息所包括的空间位置即为该候选区域所能够表征的待检测目标在上述三维空间坐标系中的空间坐标。

其中，可选的，一种具体实现方式中，上述空间位置可以包括：所能够表征的待检测目标的中心点的空间位置、所能够表征的待检测目标在平行于水平面的平面上与某一预设方向的旋转角，以及所能够表征的待检测目标的长、宽和高。

每一候选区域的区域信息所包括的类型信息为该候选区域所能够表征的待检测目标的类型；例如，在车辆自动驾驶场景中，该类型信息可以包括：机动车、非机动车或行人。

每一候选区域的区域信息所包括的置信度为该候选区域表征待检测目标的可信程度。通常，置信度为不小于0且不大于1的数。其中，一个候选区域的置信度越高，则表明该候选区域在场景中的某个空间位置处待检测目标出现的可能性越高。

例如，一个候选区域的区域信息包括：空间位置A、类型信息机动车和置信度0.8，则该候选区域在位于场景中的空间位置A处机动车出现的可能性较大；

又例如，一个候选区域的区域信息包括：空间位置B、类型信息行人和置信度0.1，则该候选区域在场景中的空间位置B处行人出现的可能性较小。

可选的，一种具体实现方式中，电子设备可以利用预先训练得到的目标区域推荐网络实现上述步骤S104。其中，该目标区域推荐网络用于推荐能够表征待检测目标的区域，并且，该目标区域推荐网络可以采用全卷积方式构成。

S107：基于各个候选区域中待检测目标的置信度，从各个候选区域中选取表征待检测目标的区域，得到场景中的待检测目标的空间位置和类型信息。

可以理解的，对于每个候选区域而言，其区域信息中所包括的：能够表征的待检测目标的空间位置、类型信息和置信度可以作为该候选区域中待检测目标的空间位置、类型信息和置信度。

基于此，在确定上述各个候选区域以及每一候选区域的区域信息后，电子设备便可以基于各个候选区域中待检测目标的置信度，从各个候选区域中选取表征待检测目标的区域。

这样，所选取的候选区域所能够表征的目标即为上述场景中的待检测目标。从而，根据所选取的候选区域的区域信息，电子设备便可以得到场景中的待检测目标的空间位置和类型信息。

进一步的，可选的，一种具体实现方式中，电子设备还可以进一步展示所得到的场景中的待检测目标的空间位置和类型信息。

其中，电子设备可以通过多种方式展示所得到的场景中的待检测目标的空间位置和类型信息。

例如，如图2所示，电子设备可以直接在待检测目标的场景的点云的点云数据图中，通过立方体框标注该场景中的待检测目标。其中，立方体框在点云数据图中的位置标识了该立方体框所表征的待检测目标的空间位置，并且，可以利用立方体框的边框粗细程度标识该立方体框所表征的待检测目标的类型信息。

此外，电子设备也可以通过表格的形式展示所得到的场景中的待检测目标的空间位置和类型信息。例如，如下表所示。

序号	类型信息	空间位置
			1	行人	a
2	机动车	b

当然，电子设备还可以通过其他方式展示所得到的场景中的待检测目标的空间位置和类型信息。这都是合理的。

此外，再进一步的，一种具体实现方式，在得到的场景中的待检测目标的空间位置和类型信息后，电子设备还可以针对某一指定目标，确定所得到的场景中的待检测目标与该指定目标的位置关系。

以上可见，应用本发明实施例提供的方案，通过将点云划分为多个体素，并在基于每个体素的体素特征，得到目标二维特征图，可以不需要始终对点云中的每个点进行大量的计算，并且实现数据降维，从而，可以极大地减少目标检测过程中的计算量。这样，便可以避免在利用点云进行目标检测时，计算量过大。

下面，对上述步骤S102，确定每个体素的体素特征，进行举例说明。

可选的，一种具体实现方式中，如图3所示，上述步骤S102可以包括如下步骤：

S1021：针对每个体素，确定体素中每个点的特征；

其中，每个点的特征包括：该点的空间位置、该点的激光反射率强度以及该点与所在体素的中心点的相对位置；

可以理解的，在将待检测目标的场景的点云划分为多个体素后，每个体素可能包括一个或多个点，也可能不包括任何点。

这样，针对所划分得到的每个体素，电子设备可以确定该体素中所包括的点，进而，针对每个点，电子设备可以确定该点的空间位置、该点的激光反射率强度以及该点与所在体素的中心点的相对位置，从而，电子设备可以得到该体素中的每个点的特征。

其中，若上述场景中设置有三维空间坐标系，且在获取待检测目标所在场景的点云时，点云的取值范围是依据该三维空间坐标系确定的，则每个点的空间位置和该点所在体素的中心点的空间位置可以分别通过该点和该点所在体素的中心点在该三维空间坐标系中的空间坐标表示，从而，可以利用该点和该点所在体素的中心点的空间坐标，确定该点与所在体素的中心点的相对位置。

S1022：对每个点的特征进行转换得到预设维度的特征；

在得到每个点的特征后，电子设备便可以将每个点的特征转换为预设维度的特征。

其中，可选的，一种具体实现方式中，上述预设维度可以为8维，则上述步骤S1022即可以包括如下步骤11：

步骤11：利用线性层函数，确定每个点的预设维度的特征；

其中，线性层函数为：

y_i＝Wx_i+b

需要说明的是，上述线性层函数是预先通过样本数据进行训练得到的。

当然，上述预设维度也可以为其他数值，进而，电子设备可以通过其他方式对每个点的特征进行转换得到该点的预设维度的特征。这都是合理的。

例如，当上述预设维度为其他维度时，可以调整上述线性层函数中的权值矩阵W的维度，从而，利用维度调整后的权值矩阵W替换上述线性层函数中维度为7×8的权值矩阵W，进而，通过权值矩阵W替换后的新的线性层函数得到每个点的其他维度的特征。

此外，可选的，一种具体实现方式中，电子设备可以利用预先训练得到的多层感知器实现上述步骤S1022。

其中，多层感知器可以包括线性层和激活函数。并且，线形层的函数形式可以与上述线性层函数类似，用于得到每个点的预设维度的初始特征。

进而，激活函数可以提供非线性激励，从而，对线形层的输出进行优化，从而得到每个点的预设维度的特征。

需要说明的是，在本具体实现方式中，多层感知器的线性层可以利用预设函数得到每个点的预设维度的初始特征。其中，多层感知器的线性层所利用的预设函数可以为上述步骤11中所采用的线性层函数。

基于此，可以理解的，在本具体实现方式中，采用多层感知器实现上述步骤S1022的实质是：在利用线性层函数得到每个点的预设维度的初始特征后，通过激活函数对该初始特征进行优化，以提高所得到的每个点的预设维度的特征的准确率。

S1023：对各个体素的每一维度的特征进行最大值聚合，得到该体素的体素特征。

针对每个体素，在得到该体素中预设维度的特征后，对每一维度的特征进行最大值聚合，得到该体素的体素特征。其中，每个体素的体素特征的维度为上述预设维度。

其中，可选的，一种具体实现方式中，电子设备可以利用最大值池化层实现上述步骤S1023。

可以理解的，由于点云具有非结构性和无序性，因此，对待检测目标的场景的点云进行划分所得到的多个体素中，可以存在不包括点的体素，针对所包括的点的数量为零的体素，可以得到该体素的体素特征为零或者为空值。

在本具体实现方式中，针对对待检测目标的场景的点云进行划分所得到的每个体素，当电子设备确定该体素中不包括点时，电子设备将丢弃该体素，不进行体素特征确定；相应的，当电子设备确定该体素中包括至少一个点时，电子设备便可以对该体素所包括的每一维度的特征进行最大值聚合，从而，得到该体素的体素特征。

其中，在本具体实现方式中，对于每个所包括的点的数量不为零的体素而言，其所包括的点的数量可以不同，因此，可以将本具体实现方式称为动态体素特征提取方式。

进而，在本具体实现方式的一个实施例中，电子设备可以利用动态最大值池化层实现上述步骤S1023。

其中，动态最大值池化层不作用于所包括的点的数量为零的体素，并且，支持每个所包括的点的数量不为零的体素所包括的点的数量不同。

相应的，可以理解的，由于点云具有非结构性和无序性，因此，对待检测目标的场景的点云进行划分所得到的多个体素中，每个体素所包括的点的数量可以不同，例如，有些体素中可以不包括点，有些体素中可以包括较多的点，还有些体素中可以包括较少的点。

基于此，可选的，一种具体实现方式中，上述步骤S1023，可以包括如下步骤21-23：

步骤21：针对每个体素，若该体素所包括的点的数量等于指定数量，则对该体素所包括的各个点的每一维度的特征进行最大值聚合，得到该体素的体素特征；

步骤22：针对每个体素，若该体素所包括的点的数量大于指定数量，则在该体素所包括的点中，选取指定数量的点，对所选取的各个点的每一维度的特征进行最大值聚合，得到该体素的体素特征；

步骤23：针对每个体素，若该体素所包括的点的数量小于指定数量，则添加至少一个每一维度的特征均为零的点，并对所添加的点与该体素所包括的点的每一维度的特征进行最大值聚合，得到该体素的体素特征；其中，所添加的点与该体素所包括的点的数量和等于指定数量。

在本具体实现方式中，可以根据待检测目标的场景的点云中点的数量和分布情况，预先设定一指定数量。

从而，在得到上述点云中每个点的预设维度的特征后，针对每个体素，电子设备可以首先判断该体素所包括的点的数量与上述指定数量的大小关系，从而，根据该大小关系，采用对应的策略，确定该体素的体素特征。

其中，由于所添加的点不是上述点云中真实存在的点，因此，为了保证所添加的点的特征不会影响该体素的体素特征的准确性，所添加的点的每一维度的特征均为零。

其中，在本具体实现方式中，由于通过添加或者丢弃点的方式，使得可以通过相同数量的点的特征确定每个体素的体素特征，因此，可以将本具体实现方式称为常用体素特征提取方式。

下面，对上述步骤S103，基于每个体素的体素特征，生成不同分辨率下的初始二维特征图，进行举例说明。

可选的，一种具体实现方式中，上述步骤S103可以包括如下步骤31：

步骤31：利用稀疏三维卷积神经网络对每个体素的体素特征进行三维稀疏卷积操作，得到不同分辨率下的初始二维特征图。

在得到每个体素的体素特征后，电子设备便可以得到由每个体素的体素特征构成的上述点云的三维体素特征图，进而，该体素特征图中每个点即为一个携带有体素特征的体素。由于每个体素为一个三维的立方体，则该三维体素特征图可以理解为一个三维的特征图。

在本具体实现方式中，每个体素的体素特征是采用上述动态体素特征提取方式得到的，也就是说，所得到的多个体素中，存在体素特征中每一维度的特征均为零的体素。在这种情况下，可以认为由每个体素的体素特征构成的三维体素特征图是稀疏的。

基于此，便可以利用稀疏三维卷积神经网络，基于三维稀疏卷积操作，得到不同分辨率下的初始二维特征图。从而，将三维体素特征图转换为多个初始二维特征图。

其中，可以利用稀疏三维卷积神经网络对上述每个体素的体素特征构成的三维体素特征图进行降维，并对该三维的特征图中每个体素的体素特征进行进一步的特征提取和特征融合，从而，将上述三维的特征图转换为不同分辨率下的初始二维特征图。其中，相对于每个体素的体素特征所具有的维度，所得到的每个初始二维特征图中每个点的特征向量的维度得到了扩展。

也就是说，通过稀疏三维卷积神经网络对每个体素的体素特征的三维稀疏卷积操作和三维稀疏反卷积操作，可以实现对由每个体素的体素特征构成的三维体素特征图进行降维、特征提取和特征融合的综合操作，得到多个初始二维特征图。并且，上述稀疏三维卷积神经网络可以采用全卷积方式构成。

其中，所谓对上述三维体素特征图进行降维，是指将上述三维体素特征图中，垂直于地面的维度的分辨率降为1。

例如，在车辆自动驾驶场景中，建立待检测目标所在场景的三维空间坐标系，其中，该三维空间坐标系的X轴、Y轴和Z轴分别对应车辆的前进方向、车辆的正左侧方向和垂直于地面的方向。则对上述三维体素特征图进行降维，即为将Z轴分辨率降为1。

也就是说，上述不同分辨率下的初始二维特征图可以理解为：上述三维体素特征图在与地面平行的平面上的不同分辨率下的二维特征图，即上述点云的鸟瞰图在不同分辨率下的二维特征图。

例如，在车辆自动驾驶场景中，建立待检测目标所在场景的三维空间坐标系，其中，该三维空间坐标系的X轴、Y轴和Z轴分别对应车辆的前进方向、车辆的正左侧方向和垂直于地面的方向。则上述不同分辨率下的点云的初始二维特征图可以理解为：上述三维体素特征图在上述三维空间坐标系的XY平面上的不同分辨率下的特征图。

为了便于理解上述步骤31，下面，通过一个具体实施例对上述步骤31进行具体说明。如图4所示，为上述步骤31的一种具体实现方式的原理图。

在图4中，按照由左到右箭头指向的方向，生成不同分辨率下的初始二维特征图。其中，3D CNN为Three-Dimensional Convolutional Neural Network(三维卷积神经网络)的缩写，k表示进行三维稀疏卷积操作时所利用的卷积核尺寸(kernel size)，p表示进行三维稀疏卷积操作时所利用的填充项(padding)数量，并且，p可以称为边缘补零参数。

按照三维空间坐标系的X、Y和Z三个方向，将点云划分为1408×1600×40个体素，并确定每个体素的体素特征，其中，每个体素的体素特征的维度为8维。

第一步：向稀疏三维卷积神经网络输入1408×1600×40个且维度为8维的体素特征。

第二步：利用预设的卷积核和边缘补零参数对输入的1408×1600×40个体素特征进行三维稀疏卷积操作，得到704×800×20个且维度为16维的体素特征。

第三步：利用预设的卷积核和边缘补零参数对所得到的704×800×20个体素特征进行三维稀疏卷积操作，得到352×400×10个且维度为32维的体素特征。

第四步：利用不同的预设的卷积核，对所得到的352×400×10个体素特征进行不同的三维稀疏卷积操作，分别得到352×400×9个且维度为32维的体素特征；以及176×200×9个且维度为64维的体素特征。

第五步：利用同一预设的卷积核分别对所得到的352×400×9个且维度为32维的体素特征和176×200×9个且维度为64维的体素特征进行三维稀疏卷积操作，得到352×400×4个且维度为64维的体素特征；以及176×200×4个且维度为128维的体素特征。

第六步：针对所得到的352×400×4个且64维的体素特征，利用不同的预设的卷积核进行不同的三维稀疏卷积操作，分别得到352×400×3个且维度为64维的体素特征、176×200×3个且维度为128维的体素特征，以及88×100×3个且维度为256维的体素特征；

针对所得到的176×200×4个且维度为128维的体素，利用不同的预设的卷积核不同的三维稀疏卷积操作和三维稀疏反卷积操作，分别得到352×400×3个且维度为64维的体素特征、176×200×3个且维度为128维的体素特征，以及88×100×3个且维度为256维的体素特征。

第七步：对所得到的体素特征维度相同的体素特征进行相加，并利用预设的卷积核对相加后的体素特征进行三维稀疏卷积操作，从而，得到分辨率分别为352×400、176×200和88×100的初始二维特征图。

其中，分辨率为352×400的初始二维特征图中，每个体素的体素特征的维度为64维，分辨率为176×200的初始二维特征图中，每个体素的体素特征的维度为128维，分辨率为88×100的初始二维特征图中，每个体素的体素特征的维度为256维。

需要说明的是，上述各个预设的卷积核和边缘补零参数是在构建上述稀疏三维卷积神经网络时所设置的。进而，在执行一次稀疏三维卷积操作后，可以降低所得到的体素的数量，即可以降低体素特征图的维度，其中，可以将该过程称为降采样过程，并且，根据一次降采样过程前后，每个体素的体素特征的维度的变化，确定该降采样过程中卷积神经网络的步长。

相应的，在执行一次稀疏三维反卷积操作后，可以提高所得到的体素的数量，即可以提高体素特征图的维度，其中，可以将该过程称为上采样过程，并且，根据一次上采样过程前后，每个体素的体素特征的维度的变化，确定该上采样过程中卷积神经网络的步长。

此外，可选的，另一种具体实现方式中，当采用上述步骤21-步骤23所示具体实现方式中的常用体素特征提取方式得到各个体素的体素特征时，那么，可以采用训练完成的三维卷积神经网络层实现上述步骤S103，基于每个体素的体素特征，生成不同分辨率下的初始二维特征图。

下面，对上述步骤S104，利用所得到的多个初始二维特征图，生成目标二维特征图，进行举例说明。

可选的，一种具体实现方式中，上述步骤S103可以包括如下步骤41：

步骤41：利用基于区域推荐的三维目标检测网络，对所得到的多个初始二维特征图进行卷积操作和反卷积操作，得到目标二维特征图。

进而，在得到上述不同维度下的点云的初始二维特征图后，由于，每个初始二维特征图所表达的上述点云的特征不同，因此，为了能够尽可能多的覆盖上述点云的特征，因此，电子设备便可以利用基于区域推荐的三维目标检测网络，对所得到的多个初始二维特征图进行卷积操作和反卷积操作。这样，便可以实现对该多个初始二维特征图进行特征提取和特征融合，从而，生成目标二维特征图。

需要说明的是，所得到的目标二维特征图的尺寸可以为预设尺寸，并且，上述基于区域推荐的三维目标检测网络可以采用全卷积方式构成。

为了便于理解上述步骤41，下面，通过一个具体实施例对上述步骤41进行具体说明。如图5所示，为上述步骤41的一种具体实现方式的原理图。

在图5中，按照由左到右箭头指向的方向，生成目标二维特征图。其中，CNN为Convolutional Neural Network(卷积神经网络)的缩写，Transpost CNN为反卷积神经网络，k表示进行卷积操作或反卷积操作时所利用的卷积核尺寸(kernel size)，p表示进行卷积操作或反卷积操作时所利用的填充项(padding)数量，并且，p可以称为边缘补零参数，s表示进行卷积操作或反卷积操作时卷积神经网络的步进(stride)，out_c表示所得到的体素特征的维度，可以简称为输出的通道数(channel count)，cat为concatenate(连接)的缩写，表示不同的体素特征进行直连的操作，add(相加)表示不同的体素特征的特征张量相加的操作。

第一步：将所得到的三个不同分辨率下的初始二维特征图输入到基于区域推荐的三维目标检测网络中。其中，三个不同分辨率分别为：352×400、176×200和88×100。

第二步：针对分辨率352×400下的初始二维特征图，利用预设的卷积核对该初始二维特征图中维度为64维的每个体素特征进行卷积操作，得到176×200个且维度为128维的体素特征，并在不改变体素数量和体素特征的维度的情况下，对所得到的各体素特征进行三次卷积操作，得到176×200个且维度为128维的体素特征，简称176×200个第一体素特征；

第三步：将分辨率176×200下的初始二维特征图中维度为128维的每个体素特征与上述176×200个第一体素特征的特征张量进行相加，并利用预设的卷积核对相加后的176×200个体素特征进行卷积操作，得到88×100个且维度为256维的体素特征，并在不改变体素数量和体素特征的维度的情况下，对所得到的各个体素特征进行五次卷积操作，得到88×100个且维度为256维的体素特征，简称88×100个第二体素特征。

第四步：将分辨率88×100下的初始二维特征图中维度为256维的每个体素特征与上述88×100个第二体素特征的特征张量进行相加，并利用预设的卷积核对相加后的88×100个体素特征进行卷积操作，得到44×50个且维度为512维的体素特征，并在不改变体素数量和体素特征的维度的情况下，对所得到的各个体素特征进行五次卷积操作，得到44×50个维度为512维的体素特征，简称44×50个第三体素特征。

第五步：利用预设的卷积核对上述44×50个第三体素特征进行卷积操作，得到22×25个且维度为1024维的体素特征，并在不改变体素数量和体素特征的维度的情况下，对所得到的各个体素特征进行五次卷积操作，得到22×25个且维度为1024维的体素特征，简称22×25个第四体素特征。

第六步：利用预设的卷积核对上述22×25个第四体素特征进行反卷积操作，得到44×50个且维度为512维的体素特征，并将所得到的各个体素特征与上述44×50个体素特征的特征张量进行相加，得到新的44×50个且维度为512维的体素特征，简称44×50个第五体素特征；

第七步：利用预设的卷积核对上述44×50个第五体素特征进行反卷积操作，得到88×100个且维度为256维的体素特征，并将所得到的各个体素特征与上述88×100个第二体素特征的特征张量进行相加，得到新的88×100个且维度为256维的体素特征，简称88×100个第六体素特征；

第八步：利用预设的卷积核对上述88×100个第六体素特征进行反卷积操作，得到176×200个且维度为128维的体素特征，并将所得到的各个体素特征与上述176×200个体素特征的特征张量进行相加，得到新的176×200个且维度为128维的体素特征，简称176×200个第七体素特征；

第九步：在不改变体素数量和体素特征的维度的情况下，对上述176×200个第七体素特征进行卷积操作，得到新的176×200个且维度为128维的体素特征，简称176×200个第八体素特征；

第十步：利用预设的卷积核对上述176×200个第八体素特征进行卷积操作，得到88×100个且维度为256维的体素特征，并将所得到的各个体素特征与上述88×100个第六体素特征的特征张量进行相加，得到新的88×100个且维度为256维的体素特征，简称88×100个第九体素特征；

第十一步：利用预设的卷积核对上述88×100个第九体素特征进行卷积操作，得到44×50个且维度为512维的体素特征，并将所得到的各个体素特征与上述44×50个第五体素特征的特征张量进行相加，得到新的44×50个且维度为512维的体素，简称44×50个第十体素特征；

第十二步：利用预设的卷积核对上述88×100个第十体素特征进行反卷积操作，得到176×200个且维度为128维的体素特征，简称176×200个第十一体素特征，并利用预设的卷积核对上述44×50个第十体素特征进行反卷积操作，得到176×200个且维度为128维的体素，简称176×200个第十二体素特征；

第十三步：将上述176×200个第八体素特征、176×200个十一体素和176×200个第十二体素特征进行直连，得到176×200个且维度为384维的体素特征，则由所得到的176×200个且维度为384维的体素特征构成的特征图即为目标二维特征图。

相应的，在执行一次稀疏三维反卷积操作后，可以提高所得到的体素特征的数量，即可以提高体素特征图的维度，其中，可以将该过程称为上采样过程，并且，根据一次上采样过程前后，每个体素的体素特征的维度的变化，确定该上采样过程中卷积神经网络的步长。

下面，对上述步骤S105，确定目标二维特征图中的各个候选区域以及每一候选区域的区域信息，进行举例说明。

可选的，一种具体实现方式中，如图6所示，上述步骤S105可以包括如下步骤：

S1051：针对目标二维特征图中的每个点，确定包含该点的多个初始区域；

在得到目标二维特征图后，针对该目标二维特征图中的每个点，电子设备可以确定目标二维特征图中，包含该点的多个初始区域。

S1052：对每个初始区域进行类型判断和位置回归，确定该初始区域的区域信息；

在得到多个初始区域后，电子设备便可以对每个初始区域进行类型判断和位置回归，从而，确定该初始区域的区域信息。其中，每个初始区域的区域信息包括：能够表征的目标的空间位置、类型信息和置信度。

其中，电子设备可以在针对目标二维特征图中的每个点，确定包含该点的多个初始区域后，即刻对包含该点的每个初始区域进行类型判断和位置回归，从而，确定该初始区域的区域信息；也可以在针对目标二维特征图中的每个点，确定全部的初始区域后，再对每个初始区域进行类型判断和位置回归，从而，确定该初始区域的区域信息；这都是合理的。

S1053：针对目标二维特征图中的每个点，从所确定的包含该点的多个初始区域中，选取置信度满足预设置信度条件的多个初始区域；

其中，预设置信度条件包括：置信度大于预设阈值；或，按照置信度由高到底的顺序对所确定的包含该点的多个初始区域进行排列，排序在前第一预设数量位。

在确定出每个初始区域的区域信息后，电子设备便可以得到每个初始区域的置信度。从而，针对目标二维特征图中的每个点，电子设备便可以根据上述步骤S1051中所确定的包含该点的每个初始区域的置信度，从所确定的包含该点的多个初始区域中，选取满足预设条件的多个初始区域。

其中，可选的，一种具体实现方式中，预设置信度条件可以为：置信度大于预设阈值，则针对目标二维特征图中的每个点，电子设备可以从所确定的包含该点的多个初始区域中，选取置信度大于预设阈值的初始区域；

可选的，另一种具体实现方式中，预设置信度条件为：按照置信度由高到底的顺序对所确定的包含该点的多个初始区域进行排列，排序在前第一预设数量位。则针对目标二维特征图中的每个点，电子设备便可以按照置信度由高到低的顺序对所确定的包含该点的多个初始区域进行排列，从而，选取排序在前第一预设数量位的初始区域。

当然，针对目标二维特征图中的每个点，电子设备还可以从所确定的包含该点的多个初始区域中，选取置信度满足其他置信度条件的多个初始区域，这都是合理的。

S1054：将所选取的各个初始区域确定为目标二维特征图中的各个候选区域，并得到每一候选区域的区域信息。

在针对目标二维特征图中的每个点，选取得到满足预设置信度条件的多个初始区域后，电子设备便可以将所选取的各个初始区域确定为目标二维特征图中的各个候选区域，进而，所选取的每个初始区域的区域信息即为该初始区域作为候选区域后的区域信息。

这样，电子设备便可以确定出目标二维特征图中的各个候选区域以及每一候选区域的区域信息。

其中，可选的，一种具体实现方式中，电子设备可以利用预先训练得到的基于区域推荐的三维目标检测网络实现上述步骤S1051-步骤S1054。

其中，上述基于区域推荐的三维目标检测网络可以用于推荐表征目标的区域的目标区域推荐网络，且该目标区域推荐网络可以采用全卷积方式构成。

可以理解的，电子设备所确定的目标二维特征图中的各个候选区域中，可以存在多个包含有目标二维特征图中的同一个点的候选区域，从而，针对待检测目标的场景中，可能存在多个候选区域表征同一待检测目标的情况。

例如，如图上述图6所示的具体实现方式中，所得到的各个候选区域中，便可以存在多个包含有目标二维特征图中的同一个点的候选区域。

基于此，可选的，一种具体实现方式中，如图7所示，本发明实施例提供的一种目标检测方法中还可以包括如下步骤：

S106：对各个候选区域进行非极大值抑制，得到所保留的各个候选区域。

在确定出目标二维特征图中的各个候选区域后，电子设备便可以对该各个候选区域进行非极大值抑制，得到所保留的各个候选区域。

其中，非极大值抑制(Non Maximum Suppression，NMS)的目的是抑制各个候选区域中不是极大值的区域，从而，实现局部最大搜索。因此，所保留的各个候选区域中任两个区域均不存在重叠区域。

也就是说，所保留的各个候选区域包括的目标二维特征图中的点不同，即目标二维特征图中的同一个点不会被包含在多个所保留的候选区域中。

这样，针对待检测目标的场景，便可以避免出现多个候选区域表征同一待检测目标的情况。

相应的，在本具体实现方式中，上述步骤S107，基于各个候选区域中待检测目标的置信度，从各个候选区域中选取表征待检测目标的区域，得到场景中的待检测目标的空间位置和类型信息，可以包括如下步骤：

S107A：基于所保留的各个候选区域中待检测目标的置信度，从所保留的各个候选区域中选取表征待检测目标的区域，得到场景中的待检测目标的空间位置和类型信息。

在确定上述所保留的各个候选区域后，电子设备便可以得到所保留的各个候选区域的区域信息，进而，电子设备便可以基于所保留的各个候选区域中待检测目标的置信度，从所保留的各个候选区域中选取表征待检测目标的区域。

这样，从所保留的各个候选区域中所选取的各个区域所能够表征的待检测目标即为上述场景中的待检测目标。从而，根据从所保留的各个候选区域中所选取的表征待检测目标的区域的区域信息，电子设备便可以得到场景中的待检测目标的空间位置和类型信息。

为了行文清晰，后续将会对上述步骤S107A的具体实现方式进行举例说明。

下面，对上述步骤S107A，基于所保留的各个候选区域中待检测目标的置信度，从所保留的各个候选区域中选取表征待检测目标的区域，得到场景中的待检测目标的空间位置和类型信息，进行举例说明。

可选的，一种具体实现方式中，如图8所示，上述步骤S107A可以包括如下步骤：

S107A1：根据所保留的各个候选区域的数量，确定第二预设数量个待优化区域；

在得到所保留的各个候选区域后，电子设备可以首先确定所保留的各个候选区域的数量，从而，根据所确定的数量，确定第二预设数量个待优化区域。

也就是说，在本具体实现方式中，所确定的待优化区域的数量是固定的。

其中，可选的，一种具体实现方式中，上述步骤S107A1可以包括如下步骤51-步骤53：

步骤51：当所保留的各个候选区域的数量小于第二预设数量时，添加至少一个置信度为零的指定区域，将所保留的各个候选区域和所添加的指定区确定为各个待优化区域；其中，所保留的各个候选区域和所添加的指定区域的数量和为第二预设数量；

步骤52：当所保留的各个候选区域的数量等于所述第二预设数量时，将所保留的各个候选区域确定为各个待优化区域

步骤53：当所保留的各个候选区域的数量不小于第二预设数量时，按照置信度由高到低的排列顺序，在所保留的各个候选区域中，选取排列在前第二预设数量位的候选区域，作为各个待优化区域。

在确定所保留的各个候选区域的数量后，电子设备可以首先判断所保留的各个候选区域的数量与第二预设数量的大小关系，从而，基于该大小关系，采用对应的策略，确定第二预设数量个待优化区域。

其中，当所保留的各个候选区域的数量小于第二预设数量时，则电子设备需要对所保留的候选区域进行添加，以使得所添加的区域和所保留的候选区域的数量和等于第二预设数量，从而，可以将所添加的区域和所保留的候选区域确定为各个待优化区域。

其中，由于所添加的区域不是上述目标二维特征图中真实存在的区域，因此，为了保证所添加的区域不会影响目标检测的准确性，即为了保证所得到的场景中的待检测目标的优化空间位置和类型信息的准确性，所添加的区域的置信度为零。

当所保留的各个候选区域的数量等于第二预设数量时，电子设备便可以直接将所保留的各个候选区域确定为待优化区域。

当所保留的各个候选区域的数量大于第二预设数量时，则电子设备可以舍弃所保留的各个候选区域中，多于第二预设数量的区域。进而，为了提高目标检测的准确性，即提高所得到的场景中的待检测目标的优化空间位置和类型信息的准确性，电子设备可以按照置信度由高到低的顺序，对所保留的各个候选区域进行排序，从而，将排列在前第二预设数量位的候选区域确定为各个待优化区域。

S107A2：针对每个待优化区域，确定空间位置与该待优化区域的空间位置对应的体素的体素特征，并基于所确定的体素特征，对该待优化区域的空间位置进行优化，得到该待优化区域的优化空间位置；

在确定上述第二预设数量个待优化区域后，电子设备便可以确定每个待优化区域的空间位置。从而，由于该待优化区域的空间位置与点云处于同一三维空间坐标系中，且每个待优化区域的空间位置为该候选区域所能够表征的待检测目标在待检测目标所在场景中的空间位置，因此，在对点云进行划分得到各个体素后，可以确定各个体素在待检测目标所在场景中的空间位置，从而，便可以在各个体素中确定在待检测目标所在场景中的空间位置与该待优化区域的空间位置相对应的体素，从而，电子设备便可以确定上述空间位置与该待优化区域的空间位置对应的体素的体素特征。

进而，在确定上述体素特征后，电子设备便可以基于所确定的体素特征，对该待优化区域的空间位置进行优化，得到该待优化区域的优化空间位置。

其中，需要说明的是，当各个待优化区域中存在所添加的置信度为零的区域时，则可以预先设定该区域的空间位置，以及空间位置与该区域的空间位置对应的体素的体素特征的每一维度均为零。

例如，针对每个待优化区域，可以根据该待优化区域的空间位置，从空间位置与该待优化区域的空间位置对应的体素中，裁剪尺寸大小为9×9×5，体素特征维度为16的4阶张量特征，并将该4阶张量特征转换为9×9×5×16的矢量，从而，利用该矢量，对该待优化区域的空间位置进行优化，得到该待优化区域的优化空间位置。

需要说明的是，上述举例均仅仅用于对上述步骤S106A2进行举例说明，而非限定。其他能够实现对每一待优化区域的空间位置进行优化的方式均属于本发明实施例的保护范围。

其中，所得到的优化空间位置也为该候选区域所能够表征的待检测目标在待检测目标所在场景中的空间位置。这样，在对每一待优化区域的空间位置进行优化后，可以使所得到的每一待优化区域的优化空间位置相对于该待优化区域所表征待检测目标在待检测目标的场景中的真实位置更为准确。

其中，可选的，一种具体实现方式中，电子设备可以利用预先训练好的全连接层网络实现上述步骤S107A2中的“基于所确定的体素特征，对该待优化区域的空间位置进行优化，得到该待优化区域的优化空间位置”。

此外，需要说明的是，由于每次目标检测，所得到的待优化区域的数量均是相同的，因此，电子设备可以预先根据上述第二预设数量设定并行方案，从而，在执行上述步骤S107A2时，电子设备可以采用并行的方式进行，从而，可以提高目标检测的速率和实效性。

S107A3：针对每个待优化区域，当该待优化区域中待检测目标的置信度大于该优化区域的类型信息对应的置信度阈值时，将该待优化区域确定为表征待检测目标的区域，得到场景中的待检测目标的优化空间位置和类型信息。

在对每个待优化区域的空间位置进行优化，得到该待优化区域的优化空间位置后，由于上述第二预设数量个待优化区域中可能存在所添加的置信度为零的区域，还可能存在置信度较低的区域。从而，为了提高目标检测的准确性，即提高所得到的场景中的待检测目标的优化空间位置和类型信息的准确性，电子设备可以进一步通过置信度在上述第二预设数量个待优化区域中选取表征目标的区域。

这样，电子设备可以根据类型信息所表征的待检测目标的类型的不同，设定每一类型信息对应的置信度阈值。从而，针对每个待优化区域，电子设备便可以确定该待优化区域的类型信息对应的置信度阈值，进而，判断该待优化区域中待检测目标的置信度是否大于上述所确定的置信度阈值。

进而，当判断结果为是，电子设备可以将该待优化区域确定为表征待检测目标的区域；否则，电子设备便可以丢弃该待优化区域。

其中，对于上述第二预设数量个待优化区域中所存在的所添加的置信度为零的区域而言，由于其完全不能表征待检测目标，因此，可以直接丢弃该区域。

这样，当在上述第二预设数量个待优化区域中确定出表征待检测目标的区域后，则该所确定出的表征待检测目标的区域所表征的待检测目标即为待检测目标的场景中的待检测目标。从而，电子设备可以获取所确定出的表征待检测目标的区域的类型信息和优化空间位置，进而，得到待检测目标的场景中的待检测目标的优化空间位置和类型信息。即电子设备可以得到检测结果。

下面，继续对上述步骤S107A，基于所保留的各个候选区域中待检测目标的置信度，从所保留的各个候选区域中选取表征待检测目标的区域，得到场景中的待检测目标的空间位置和类型信息，进行举例说明

可选的，一种具体实现方式中，上述步骤S107A，可以包括如下步骤61和63：

步骤61：针对所保留的每个候选区域，当该候选区域中待检测目标的置信度大于该候选区域的类型信息对应的置信度阈值时，将该候选区域确定为表征待检测目标的区域；

步骤63：得到场景中的待检测目标的空间位置和类型信息。

由于上述所保留的各个候选区域中可能存在置信度较低的区域。从而，为了提高目标检测的准确性，即提高所得到的场景中的待检测目标的优化空间位置和类型信息的准确性，电子设备可以进一步通过置信度在上述所保留的各个候选区域中选取表征目标的区域。

这样，电子设备可以根据类型信息所表征的待检测目标的类型的不同，设定每一类型信息对应的置信度阈值。从而，针对所保留的每个候选区域，电子设备便可以确定该区域的类型信息对应的置信度阈值，进而，判断该候选区域中待检测目标的置信度是否大于上述所确定的置信度阈值。

进而，当判断结果为是，电子设备可以将该候选区域确定为表征待检测目标的区域；否则，电子设备便可以丢弃该候选区域。

这样，当在上述所保留的各个候选区域中确定出表征待检测目标的区域后，则该所确定出的表征待检测目标的区域所表征的待检测目标即为待检测目标的场景中的待检测目标。从而，电子设备可以获取所确定出的表征待检测目标的区域的类型信息和空间位置，进而，得到待检测目标的场景中的待检测目标的空间位置和类型信息。即电子设备可以得到检测结果。

进而，为了进一步提高目标检测的准确性，即进一步提高所得到的场景中的待检测目标的空间位置和类型信息的准确性，当根据置信度在上述所保留的各个候选区域中确定出表征待检测目标的区域后，电子设备可以首先对所确定的表征待检测目标的各个候选区域的空间位置进行优化，从而，针对所得到的表征待检测目标的区域，得到相对于该区域所表征待检测目标在待检测目标的场景中的真实位置更为准确的该区域的优化空间位置。

基于此，可选的，一种具体实现方式中，则上述步骤63之前，本发明实施例提供的一种目标检测方法还可以包括如下步骤62：

步骤42：针对所确定的每个表征待检测目标的区域，确定空间位置与该区域的空间位置对应的体素的体素特征，并基于所确定的体素特征，对该区域的空间位置进行优化，得到该区域的优化空间位置；

相应的，上述步骤43，得到场景中的待检测目标的空间位置和类型信息，即可以包括如下步骤43A：

步骤43A：得到场景中的待检测目标的优化空间位置和类型信息。

当在上述所保留的各个候选区域中确定出表征待检测目标的区域后，电子设备便可以确定每个表征待检测目标的区域的空间位置。从而，由于该表征待检测目标的区域的空间位置与点云处于同一三维空间坐标系中，且每个待优化区域的空间位置为该候选区域所能够表征的待检测目标在待检测目标所在场景中的空间位置，因此，在对点云进行划分得到各个体素后，可以确定各个体素在待检测目标所在场景中的空间位置，从而，便可以在各个体素中确定在待检测目标所在场景中的空间位置与该表征待检测目标的区域的空间位置相对应的体素，从而，电子设备便可以确定上述空间位置与该表征目标的区域的空间位置对应的体素的体素特征。

进而，在确定上述体素特征后，电子设备便可以基于所确定的体素特征，对该表征目标的区域的空间位置进行优化，得到该表征目标的区域的优化空间位置。

例如，针对每个表征目标的区域，可以根据该表征目标的区域的空间位置，从空间位置与该表征目标的区域的空间位置对应的体素中，裁剪尺寸大小为9×9×5，体素特征维度为16的4阶张量特征，并将该4阶张量特征转换为9×9×5×16的矢量，从而，利用该矢量，对该表征目标的区域的空间位置进行优化，得到该表征目标的区域的优化空间位置。

其中，所得到的优化空间位置也为该表征目标的区域所能够表征的待检测目标在待检测目标所在场景中的空间位置。这样，在对每一表征待检测目标的区域的空间位置进行优化后，可以使所得到的每一表征待检测目标的区域的优化空间位置相对于该表征待检测目标的区域所表征待检测目标在待检测目标的场景中的真实位置更为准确。

其中，可选的，一种具体实现方式中，电子设备可以利用预先训练好的全连接层网络实现上述步骤62中的“基于所确定的体素特征，对该区域的空间位置进行优化，得到该区域的优化空间位置”。

这样，电子设备可以获取所确定出的表征待检测目标的区域的类型信息和优化空间位置，进而，得到待检测目标的场景中的待检测目标的优化空间位置和类型信息。即电子设备可以得到检测结果。

相应于上述本发明实施例提供的一种目标检测方法，本发明实施例还提供了一种电子设备，如图9所示，包括处理器901、通信接口902、存储器903和通信总线904，其中，处理器901，通信接口902，存储器903通过通信总线904完成相互间的通信，

存储器903，用于存放计算机程序；

处理器901，用于执行存储器903上所存放的程序时，实现上述本发明实施例提供的任一目标检测方法的步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述本发明实施例提供的任一目标检测方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述本发明实施例提供的任一目标检测方法的步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于电子设备实施例、计算机可读存储介质实施例及计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种目标检测方法，其特征在于，所述方法包括：

将待检测目标的场景的点云划分为多个体素；

确定每个体素的体素特征；

利用所得到的多个初始二维特征图，生成目标二维特征图；

2.根据权利要求1所述的方法，其特征在于，所述确定每个体素的体素特征的步骤，包括：

对每个点的特征进行转换得到预设维度的特征；

对各体素的每一维度的特征进行最大值聚合，得到该体素的体素特征。

3.根据权利要求2所述的方法，其特征在于，所述预设维度为8维，所述对每个点的特征进行转换得到预设维度的特征的步骤，包括：

y_i＝Wx_i+b

4.根据权利要求1所述的方法，其特征在于，所述基于每个体素的体素特征，生成不同分辨率下的初始二维特征图的步骤，包括：

5.根据权利要求1所述的方法，其特征在于，所述利用所得到的多个初始二维特征图，生成目标二维特征图的步骤，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述确定所述目标二维特征图中的各个候选区域以及每一候选区域的区域信息的步骤，包括：

7.根据权利要求1-5任一项所述的方法，其特征在于，在所述基于各个候选区域中待检测目标的置信度，从各个候选区域中选取表征待检测目标的区域，得到所述场景中的待检测目标的空间位置和类型信息的步骤之前，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述基于所保留的各个候选区域中待检测目标的置信度，从所保留的各个候选区域中选取表征待检测目标的区域，得到所述场景中的待检测目标的空间位置和类型信息的步骤，包括：

9.根据权利要求8所述的方法，其特征在于，所述根据所保留的各个候选区域的数量，确定第二预设数量个待优化区域的步骤，包括：

10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-9任一所述的方法步骤。