CN110400304B

CN110400304B - 基于深度学习的物体检测方法、装置、设备及存储介质

Info

Publication number: CN110400304B
Application number: CN201910679025.1A
Authority: CN
Inventors: 杨泽同; 孙亚楠; 刘枢; 贾佳亚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2023-12-12
Anticipated expiration: 2039-07-25
Also published as: CN110400304A

Abstract

本申请公开了基于深度学习的物体检测方法、装置、设备及存储介质，属于计算机技术领域。方法包括：基于目标空间的点云数据，获取点云数据中多个采样点的分类结果；根据多个采样点的分类结果，为多个采样点确定对应的第一立体区域和第二立体区域；基于采样点对应的第一立体区域和第二立体区域，获取目标空间中的目标候选区域；将目标候选区域进行切割，得到第一参考数量个目标候选子区域；基于目标候选子区域，获取目标空间中的目标物体的检测结果，在目标界面显示目标物体的检测结果。基于上述物体检测的过程，可以在避免点云数据的信息丢失的同时，有效减少计算量，从而提高物体检测的效果和物体检测的效率。

Description

基于深度学习的物体检测方法、装置、设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种基于深度学习的物体检测方法、装置、设备及存储介质。

背景技术

物体检测是模式识别和计算机视觉的一个重要研究领域，同时也是解决很多高层视觉任务的核心问题。随着深度学习技术的不断完善与发展，基于深度学习的物体检测技术已经在诸多现实领域中具有广泛的应用，例如：智能机器人、自动驾驶、行为识别等。在过去的几年里，随着二维物体检测方法的日趋完善，三维物体检测技术也获得了突飞猛进的发展。

在相关技术中，基于点云进行三维物体检测的方法主要分为两大类，第一类是将点云分解成多个小区域，然后提取每个小区域的特征，进而用神经网络解析各个小区域并输出物体的检测结果；第二类是直接用点云作为输入，提取点云中每个点的特征，然后用神经网络解析整个点云并输出物体的检测结果。

在实现本申请的过程中，发明人发现相关技术至少存在以下问题：

第一类方法将点云区域化，容易造成信息丢失，导致物体检测的效果较差；第二类方法提取点云中每个点的特征，计算量巨大，物体检测的效率较低。

发明内容

本申请实施例提供了一种基于深度学习的物体检测方法、装置、设备及存储介质，可用于解决相关技术中的问题。所述技术方案如下：

一方面，本申请实施例提供了一种基于深度学习的物体检测方法，所述方法包括：

基于目标空间的点云数据，获取所述点云数据中多个采样点的分类结果；

根据多个所述采样点的分类结果，为多个所述采样点确定对应的第一立体区域和第二立体区域；

基于所述采样点对应的第一立体区域和第二立体区域，获取所述目标空间中的目标候选区域；

将所述目标候选区域进行切割，得到第一参考数量个目标候选子区域；

基于所述目标候选子区域，获取所述目标空间中的目标物体的检测结果，在目标界面显示所述目标物体的检测结果。

另一方面，提供了一种基于深度学习的物体检测装置，所述装置包括：

第一获取模块，用于基于目标空间的点云数据，获取所述点云数据中多个采样点的分类结果；

确定模块，用于根据多个所述采样点的分类结果，为多个所述采样点确定对应的第一立体区域和第二立体区域；

第二获取模块，用于基于所述采样点对应的第一立体区域和第二立体区域，获取所述目标空间中的目标候选区域；

切割模块，用于将所述目标候选区域进行切割，得到第一参考数量个目标候选子区域；

第三获取模块，用于基于所述目标候选子区域，获取所述目标空间中的目标物体的检测结果；

显示模块，用于在目标界面显示所述目标物体的检测结果。

在一种可能实现方式中，所述第一获取模块，还用于基于目标空间的点云数据，获取所述点云数据中多个采样点的分割特征；

所述第三获取模块，用于基于所述目标候选子区域内的采样点的初始特征，获取所述目标候选区域的全局特征，所述采样点的初始特征由所述采样点的分割特征和所述采样点的空间坐标构成；基于所述目标候选区域的全局特征，获取所述目标空间中的目标物体的检测结果。

在一种可能实现方式中，所述第二获取模块，包括：

过滤单元，用于基于非极大值抑制算法，对所述采样点对应的第一立体区域进行过滤，将剩余的第一立体区域作为初始候选区域；

获取单元，用于基于所述初始候选区域内的采样点的初始特征，获取所述初始候选区域的分类结果和目标偏移；

调整单元，用于基于所述初始候选区域的目标偏移，对所述采样点对应的第二立体区域进行调整，得到所述采样点对应的第三立体区域；

所述过滤单元，还用于基于非极大值抑制算法，对所述采样点对应的第三立体区域进行过滤，将剩余的第三立体区域作为目标候选区域。

在一种可能实现方式中，所述装置还包括：

选择模块，用于在所述目标候选子区域内选择第二参考数量个采样点作为目标点；

所述第三获取模块，还用于基于所述目标点的初始特征，获取所述目标候选子区域的区域特征；基于所述目标候选子区域的区域特征，获取所述目标候选区域的全局特征。

在一种可能实现方式中，所述选择模块，还用于在所述目标候选区域内选择第三参考数量个采样点作为随机点；在所述目标候选子区域内选择属于所述随机点的第二参考数量个采样点作为目标点。

在一种可能实现方式中，所述检测结果包括分类结果和目标定位区域；所述第三获取模块，包括：

获取单元，用于基于所述目标候选区域的全局特征，获取所述目标候选区域的分类结果和目标偏移；

调整单元，用于基于所述目标候选区域的目标偏移，对所述目标候选区域进行调整，得到初始定位区域；

过滤单元，用于基于非极大值抑制算法，对所述初始定位区域进行过滤，将剩余的初始定位区域作为所述目标物体的目标定位区域。

在一种可能实现方式中，所述目标候选区域的分类结果包括所述目标候选区域的分类分数；所述第三获取模块，还包括：

输入单元，用于将所述目标候选区域的全局特征输入全连接层，得到所述目标候选区域的预测分数；

计算单元，用于将所述目标候选区域的分类分数与所述目标候选区域的预测分数的乘积作为所述初始定位区域的目标分数；

所述过滤单元，用于结合所述初始定位区域的目标分数，利用非极大值抑制算法对所述初始定位区域进行过滤。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现上述任一所述的基于深度学习的物体检测方法。

另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现上述任一所述的基于深度学习的物体检测方法。

本申请实施例提供的技术方案至少带来如下有益效果：

根据目标空间的全部点云数据获取各个采样点的分类结果，根据分类结果确定采样点对应的第一立体区域和第二立体区域，进而获取目标候选区域。然后根据对目标候选区域进行切割得到的目标候选子区域获取最终的目标物体的检测结果。在此物体检测的过程中，能够在避免点云数据的信息丢失的同时，有效减少计算量，从而可以提高物体检测的效果和物体检测的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种基于深度学习的物体检测方法的流程图；

图3是本申请实施例提供的一种获取目标候选区域的流程图；

图4是本申请实施例提供的一种获取目标物体的检测结果的流程图；

图5是本申请实施例提供的一种显示目标物体的检测结果的界面示意图；

图6是本申请实施例提供的一种基于深度学习的物体检测过程的示意图；

图7是本申请实施例提供的一种基于深度学习的物体检测装置的示意图；

图8是本申请实施例提供的一种第二获取模块的结构示意图；

图9是本申请实施例提供的一种基于深度学习的物体检测装置的示意图；

图10是本申请实施例提供的一种第三获取模块的结构示意图；

图11是本申请实施例提供的一种终端的结构示意图；

图12是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用计算机代替人眼对目标进行识别和测量等，并进一步做图形处理，使计算机处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、物体检测、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

其中，物体检测是计算机视觉技术的一个重要研究领域，同时也是解决很多高层视觉任务的核心问题。随着深度学习技术的不断完善与发展，基于深度学习的物体检测技术已经在诸多现实领域中具有广泛的应用，例如：智能机器人、自动驾驶、行为识别等。在过去的几年里，随着二维物体检测方法的日趋完善，三维物体检测技术也获得了突飞猛进的发展。

对此，本申请实施例提供了一种基于深度学习的物体检测方法，请参考图1，其示出了本申请实施例提供的方法实施环境的示意图。该实施环境可以包括：终端11和服务器12。

其中，终端11安装有能够采集三维点云数据的雷达设备，例如，激光雷达等。终端11可以对采集的三维点云数据进行存储，从而在需要进行物体检测时，应用本申请实施例提供的方法对物体进行检测；终端11也可以将采集到的三维点云数据发送至服务器12上，由服务器12应用本申请实施例提供的方法对物体进行检测。服务器12也可以将物体检测的结果返回至终端11。

在一种可能实现方式中，终端11可以是车载终端或是移动终端，例如，移动终端可以为智能手机、台式计算机、平板电脑、电子书阅读器和膝上型便携计算机中的至少一种。服务器12可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。终端11与服务器12通过有线或无线网络建立通信连接。

本领域技术人员应能理解上述终端11和服务器12仅为举例，其他现有的或今后可能出现的终端或服务器如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

基于上述图1所示的实施环境，本申请实施例提供一种基于深度学习的物体检测方法，以该方法应用于终端为例。如图2所示，本申请实施例提供的方法可以包括如下步骤：

在步骤201中，基于目标空间的点云数据，获取点云数据中多个采样点的分类结果。

目标空间是指待检测的空间，例如，道路空间等。目标空间中可能有多个待检测的目标物体，例如，对于道路空间，可能有多个车辆和/或多个行人等。点云是指在同一空间参考系下表达目标空间分布和目标物体表面特性的海量采样点的集合。点云数据包括多个采样点的数据，采样点的数据可以包括采样点的空间坐标、采样点的RGB(Red Green Blue，红绿蓝)颜色、采样点的灰度值、采样点的反射强度等。

终端在获取点云数据中多个采样点的分类结果之前，需要先获取目标空间的点云数据。目标空间的点云数据可以由终端自身配置的雷达设备对目标空间进行扫描而获得。其中，雷达设备可以是指激光雷达。激光雷达可以是1线激光雷达、4线激光雷达、16线激光雷达、32线激光雷达、64线激光雷达或更高线的激光雷达，本申请实施例对此不加以限定。举例而言，无人车在行驶过程中，无人车的雷达设备可以对车前方的道路空间进行扫描，得到道路空间的点云数据。

终端在获取目标空间的点云数据后，可以将目标空间的点云数据输入分割网络，基于分割网络输出的结果获取目标空间的多个采样点的分类结果。其中，分割网络是指能够对点云数据进行分割的网络，也就是能够对点云数据中的每个采样点进行分类的网络。例如，分割网络可以是指PointNet++网络。

PointNet++是一种解析点云数据的网络结构，它用点云数据作为输入，能够提取点云数据中的每个采样点的特征，基于PointNet++网络输出的结果，获取每个采样点的分类结果。分类结果可以包括类别和分类分数。具体而言，PointNet++网络输出的结果可以是一组对该采样点进行分类的概率描述。基于输出的结果，获取每个采样点的类别和分类分数的方式为：将输出的结果中最大的概率值对应的类别作为该采样点的类别，将该最大的概率值作为该采样点的分类分数。例如，假设输出的结果表示该采样点是狗的概率为0.01，是猫的概率为0.03，是汽车的概率为0.94，是人的概率为0.02，则可以确定该采样点的类别为汽车，该采样点的分类分数为0.94。

需要说明的是，基于目标空间的点云数据，除了可以获取点云数据中多个采样点的分类结果外，还可以获取点云数据中多个采样点的分割特征。其中，分割特征可以是指由分割网络提取的特征，该分割特征可以是指语义的特征。

通过将目标空间的点云数据输入分割网络，可以得到点云数据中所有的采样点的分类结果和分割特征，从而有效避免信息丢失。

在步骤202中，根据多个采样点的分类结果，为多个采样点确定对应的第一立体区域和第二立体区域。

根据采样点的分类结果，可以确定采样点的类别。根据采样点的类别，为每个采样点确定一个对应的第一立体区域和一个对应第二立体区域。其中，第一立体区域和第二立体区域都是以采样点为中心的在目标空间中的三维立体区域，第一立体区域的形状和第二立体区域的形状可以不同。例如，第一立体区域可以为球形区域，该球形区域可以是指锚点(anchor)区域；第二立体区域可以为长方体区域。采样点对应的第一立体区域和第二立体区域可以表示该采样点所属的目标物体的可能定位区域。

第一立体区域和第二立体区域的尺寸与采样点的类别有关。不同类别的采样点对应不同尺寸的第一立体区域和第二立体区域。也就是说，采样点的类别、第一立体区域的尺寸以及第二立体区域的尺寸，这三者是一一对应的。在一种可能实现方式中，为多个采样点确定对应的第一立体区域和第二立体区域的过程可以为：根据采样点的类别，确定该采样点对应的第一立体区域的尺寸；根据第一立体区域的尺寸，确定该采样点对应的第二立体区域的尺寸。

具体而言，假设第一立体区域为以采样点为中心的球形区域，根据采样点的类别不同，球形区域的半径可以不同。例如，对于类别为车辆的采样点而言，该采样点对应的球形区域的半径可以为2米；对于类别为行人的采样点而言，该采样点对应的球形区域的半径可以为1米。然后根据采样点对应的球形区域的尺寸确定该采样点对应的第二立体区域的尺寸。球形区域只需要定义半径，不需要定义角度，可以提高为采样点确定对应的第一立体区域的效率。

在一种可能实现方式中，可以预先设置采样点类别、第一立体区域的尺寸以及第二立体区域的尺寸的映射关系表。具体而言，当第一立体区域为球形区域、第二立体区域为长方体区域时，可以预先设置采样点类别、球形半径以及长方体的长宽高的映射关系表。在确定采样点的类别后，即可从映射关系表中查找该类别的采样点对应的第一立体区域的尺寸和第二立体区域的尺寸，从而以该采样点为中心，确定该采样点对应的第一立体区域和第二立体区域。

在步骤203中，基于采样点对应的第一立体区域和第二立体区域，获取目标空间中的目标候选区域。

由于采样点对应的第一立体区域和第二立体区域可以表示该采样点所属的目标物体的可能定位区域，所以通过对第一立体区域和第二立体区域进行过滤或者调整等处理，可以得到目标物体的较精确的定位区域，也就是目标候选区域。

具体而言，参见图3，基于各个采样点对应的第一立体区域和第二立体区域，获取目标空间中的目标候选区域的过程可以包括以下四个步骤：

步骤301，基于非极大值抑制算法，对采样点对应的第一立体区域进行过滤，将剩余的第一立体区域作为初始候选区域。

非极大值抑制(Non-maximum suppression，NMS)是一种去除非极大值的算法，常用于计算机视觉中的边缘检测、物体识别等。不同的采样点对应的第一立体区域可能有相互重叠的部分，通过NMS算法可以过滤掉与具有极大值的第一立体区域重叠面积较大其他第一立体区域，保留具有代表性的第一立体区域作为初始候选区域。

具体而言，基于非极大值抑制算法，对采样点对应的第一立体区域进行过滤的过程可以分为以下四个步骤：

步骤一、构建一个用于存放待处理的第一立体区域的集合H，初始化的集合H中包含全部第一立体区域；构建一个用于存放具有代表性的第一立体区域的集合M，初始化的集合M为空集。

步骤二、将集合H中的所有第一立体区域按照分数进行排序，选出分数最高的第一立体区域m，将第一立体区域m从集合H中移到集合M中。其中，第一立体区域的分数是指该第一立体区域对应的采样点的分类分数。

步骤三、计算集合H中的第一立体区域与第一立体区域m的交并比(Interection-over-union，IoU)，也就是计算集合H中的第一立体区域与第一立体区域m的交集面积和并集面积的比值。如果集合H中的第一立体区域与第一立体区域m的交并比高于参考阈值，则认为该第一立体区域与第一立体区域m重叠面积较大，将该第一立体区域从集合H中剔除；如果集合H中的第一立体区域与第一立体区域m的交并比不高于参考阈值，则认为该第一立体区域与第一立体区域m重叠面积较小，将该第一立体区域保留在集合H中。其中，参考阈值可以根据经验设置，也可以根据应用场景自由调整，本申请实施例对此不加以限定，例如，参考阈值可以设置为0.7，也就是将与第一立体区域m的交并比大于0.7的第一立体区域从集合H中剔除。重复上述过程，直至遍历集合H中的所有第一立体区域。

步骤四、返回到步骤二进行迭代，直到集合H为空集。将集合M中的第一立体区域作为初始候选区域。

需要说明的是，初始候选区域中包含的第一立体区域的数量与参考阈值有关，参考阈值越大，初始候选区域中包含的第一立体区域的数量越多；参考阈值越小，初始候选区域中包含的第一立体区域的数量越少。例如，假设点云数据中包含16000个采样点，由于每个采样点均对应有一个第一立体区域，所以共有16000个第一立体区域，若参考阈值设置为0.5，初始候选区域中包含的第一立体区域的数量可能为500，若参考阈值设置为0.7，初始候选区域中包含的第一立体区域的数量可能为1000。

上述过程可以过滤掉冗余的第一立体区域，减少后续物体检测过程中的计算量，提高物体检测的效率。

步骤302，基于初始候选区域内的采样点的初始特征，获取初始候选区域的分类结果和目标偏移。

采样点的初始特征由采样点的分割特征和采样点的空间坐标构成，其中，采样点的空间坐标是指采样点在空间坐标系下的XYZ坐标。采样点的初始特征可以是指将采样点的分割特征和采样点的空间坐标组成的特征进行拼接而得到的特征。

由于初始候选区域是指经过过滤后剩余的第一立体区域，所以初始候选区域有一个或多个。每个初始候选区域均对应一个采样点。需要说明的是，每个初始候选区域内除了对应的采样点外，还可能包含其他的采样点。

在一种可能实现方式中，基于初始候选区域内的采样点的初始特征，获取初始候选区域的分类结果和目标偏移的过程可以为：将初始候选区域内的所有采样点的初始特征输入神经网络，经过神经网络的处理后，得到初始候选区域的分类结果和目标偏移。其中，初始候选区域的分类结果可以包括该初始候选区域的类别和该初始候选区域的分类分数，目标偏移可以是指通过神经网络预测得到的该初始候选区域相对于真实的物体区域的偏移。该神经网络可以是指PointNet网络。

目标偏移包括但不限于位置偏移和角度偏移。位置偏移可以是指通过神经网络预测得到的该初始候选区域相对于真实的物体区域在位置上的偏移；角度偏移可以是指通过神经网络预测得到的该初始候选区域相对于真实的物体区域在角度上的偏移。需要说明的是，当初始候选区域为球形区域时，可以根据通过神经网络预测得到的真实的物体区域的角度得到初始候选区域的角度偏移。在一种可能实现方式中，得到初始候选区域的角度偏移的方式为：预先定义N个空间，把角度分类到对应空间中去，计算预测得到的真实的物体区域的角度相对于对应空间的偏移。N可以设置为12，也就是预先定义12个空间，若预测得到的真实的物体区域的角度为31度，则初始候选区域的角度偏移为第1类偏1度；若预测得到的真实的物体区域的角度为66度，则初始候选区域的角度偏移为第2类偏6度。

需要说明的是，上述神经网络是基于训练得到的。用于训练的样本集中包括原始的点云数据和真实的物体区域的标注信息。在训练神经网络的过程中，根据神经网络的输出结果与标注信息之间的差值进行迭代训练，直至神经网络的输出结果与标注信息之间的差值小于参考阈值或者迭代次数超过次数阈值。需要说明的是，在训练上述神经网络的过程中，当第一立体区域为球形区域时，判断样本为正样本还是负样本的方法为：计算球形区域内的采样点与真实的物体区域内的采样点的交集和并集的比值，将比值大于比值阈值的样本作为正样本，将其他的样本作为负样本。其中，比值阈值可以根据经验进行设置，例如，比值阈值可以设置为0.7等。

步骤303，基于初始候选区域的目标偏移，对采样点对应的第二立体区域进行调整，得到采样点对应的第三立体区域。

每个初始候选区域均对应一个采样点。根据初始候选区域的位置偏移，对该采样点对应的第二立体区域的位置进行调整；根据初始候选区域的角度偏移，对该采样点对应的第二立体区域的角度进行调整。将调整之后的初始候选区域作为该采样点对应的第三立体区域。

由于初始候选区域的目标偏移是指通过神经网络预测得到的该初始候选区域相对于真实的物体区域的偏移，所以调整之后得到的第三立体区域能够更接近真实的物体区域。

步骤304，基于非极大值抑制算法，对采样点对应的第三立体区域进行过滤，将剩余的第三立体区域作为目标候选区域。

将初始候选区域的分类分数作为第三立体区域的分数，然后基于非极大值抑制算法，过滤掉冗余的第三立体区域，将剩余的第三立体区域作为目标候选区域。对第三立体区域进行过滤的过程详见步骤301，此处不再赘述。

相对于初始候选区域而言，经过上述过程得到的目标候选区域是更加精确的候选区域。此外，由于目标候选区域的数量进一步减少，所以可以进一步减少后续物体检测过程中的计算量，提高物体检测的效率。例如，假设初始候选区域的数量为500个，经过上述过程可以得到100个目标候选区域。

在步骤204中，将目标候选区域进行切割，得到第一参考数量个目标候选子区域。

在得到目标候选区域后，需要提取目标候选区域的特征，以基于目标候选区域的特征得到最终的物体检测结果。在提取目标候选区域的特征之前，先将目标候选区域切割成第一参考数量个目标候选子区域，从而基于对目标候选子区域的研究得到目标候选区域的特征。此过程可以有效减少计算量，提高物体检测的效率。第一参考数量可以根据经验设置，也可以根据应用场景自由调整。例如，假设目标候选区域为长方体区域，可以将目标候选区域的长、宽、高都进行六等分，也就是将目标候选区域切割成6×6×6个目标候选子区域。

在一种可能实现方式中，调用一个体素化层(Voxelization Layer)，该体素化层可以将目标候选区域均等切割成第一参考数量个目标候选子区域。该体素化层是基于训练得到的，由于该体素化层可以反传梯度，所以可以对该体素化层进行端到端的训练。也就是说，可以根据该体素化层的输出结果，反向调整体素化层的参数，直至该体素化层能够输出满足条件的结果。

在步骤205中，基于目标候选子区域，获取目标空间中的目标物体的检测结果，在目标界面显示目标物体的检测结果。

目标物体的检测结果包括但不限于目标物体的分类结果和目标物体的目标定位区域。目标界面是指可以显示目标物体的检测结果的界面，本申请实施例对此不加以限定，例如，目标界面可以是指终端对目标空间的点云数据进行处理的界面。

在一种可能实现方式中，参见图4，基于目标候选子区域，获取目标空间中的目标物体的检测结果的过程包括以下步骤：

步骤401，基于目标候选子区域内的采样点的初始特征，获取目标候选区域的全局特征，采样点的初始特征由采样点的分割特征和采样点的空间坐标构成。

具体而言，该过程可以包括以下三个步骤：

步骤一：在目标候选子区域内选择第二参考数量个采样点作为目标点。

每个目标候选子区域内均包含多个采样点，不同的目标候选子区域内的采样点的数量可能相同，也可能不同。在每个目标候选子区域内选择相同数量的采样点作为目标点，可以使提取到的不同的目标候选子区域的特征对齐。

第二参考数量可以根据经验设置，也可以根据应用场景自由调整。例如，第二参考数量可以设置为35，也就是在每个目标候选子区域内选择35个采样点作为目标点。

在一种可能实现方式中，在目标候选子区域内选择第二参考数量个采样点作为目标点之前，先在目标候选区域内选择第三参考数量个采样点作为随机点；然后再在目标候选子区域内选择属于随机点的第二参考数量个采样点作为目标点。第三参考数量可以根据经验设置，也可以根据应用场景自由调整。假设第三参考数量为M，第二参考数量为35，则在每个目标候选子区域内，选择属于M个采样点中的35个采样点作为目标点。

先在目标候选区域内随机选择第三参考数量个采样点作为随机点，可以有效降低目标候选区域内用于提取特征的采样点的数量，减小计算量。目标点的选择过程可以为随机选择，本申请实施例对此不加以限定。

步骤二：基于目标点的初始特征，获取目标候选子区域的区域特征。

具体而言，将目标点的初始特征输入神经网络，经过卷积操作，得到目标候选子区域的区域特征。

在一种可能实现方式中，神经网络为一个或多个VFE(Voxel Feature Encoding，体素特征编码)网络。VFE网络用于基于卷积操作对目标候选子区域进行特征提取。VFE网络的特征提取过程为：将目标候选子区域内的目标点的初始特征输入一个全连接层，提取每个目标点的特征，接着对每个目标点的特征进行元素级的池化形成局部特征，完成对目标候选子区域的一次特征提取。依次经过多个VFE网络的处理，即可获得目标候选子区域的更高层次的局部特征。例如，假设神经网络为三个通道数分别为128、128、256的VFE网络，则经过神经网络的处理后，得到的每个目标候选子区域的区域特征的通道数为256。

步骤三：基于目标候选子区域的区域特征，获取目标候选区域的全局特征。

具体而言，该过程可以分为两个步骤：

(1)基于目标候选子区域的区域特征，获取目标候选区域的拼接特征。

将所有目标候选子区域的区域特征进行拼接，得到目标候选区域的拼接特征。对于将目标候选区域切割成6×6×6个目标候选子区域、每个目标候选子区域的特征的通道数为256的情况，该目标候选区域的拼接特征的维度为6×6×6×256。

(2)基于目标候选区域的拼接特征，获取目标候选区域的全局特征。

由于目标候选区域的拼接特征是由各个目标候选子区域的局部特征直接拼接得到的，所以目标候选区域的拼接特征不能体现各个目标候选子区域的区域特征之间的联系。此步骤将每个目标候选区域的区域特征输入全连接层，经过全连接层处理后，可以得到该目标候选区域的全局特征。该全局特征能够体现各个目标候选子区域的区域特征之间的联系。全连接层的数量可以为一个或多个，本申请实施例对此不加以限定。例如，全连接层的数量可以为两个，假设这两个全连接层的通道数分别为512和1024。则经过将该全连接层处理后得到的目标候选区域的全局特征的维度为1024。

经过上述过程，将目标候选区域的特征从稀疏的点阵特征变成了密集的全局特征，充分提取目标候选区域的原始特征，能够提高物体检测的效果。

步骤402，基于目标候选区域的全局特征，获取目标空间中的目标物体的检测结果。

具体而言，该过程可以包括以下三个步骤：

步骤一：基于目标候选区域的全局特征，获取目标候选区域的分类结果和目标偏移。

其中，分类结果可以包括该目标候选区域的类别和该目标候选区域的分类分数，目标偏移可以是指神经网络预测的该目标候选区域相对于真实的物体区域的偏移。

在一种可能实现方式中，将目标候选区域的全局特征输入神经网络，经过神经网络处理后，得到该目标候选区域的分类结果和目标偏移。神经网络中可以包括一个或多个全连接层。例如，神经网络可以包括两个全连接层等。

步骤二：基于目标候选区域的目标偏移，对目标候选区域进行调整，得到初始定位区域。

将目标候选区域根据目标偏移进行调整，将调整后得到的目标候选区域作为初始定位区域。与目标候选区域相比，初始定位区域更加接近真实的物体区域。

步骤三：基于非极大值抑制算法，对初始定位区域进行过滤，将剩余的初始定位区域作为目标物体的目标定位区域。

基于非极大值抑制算法，过滤掉重叠面积较大的非局部极大值的初始定位区域，剩余的初始定位区域就可以作为目标物体的目标定位区域，根据目标物体的目标定位区域即可确定目标空间中存在目标物体的区域。

在一种可能实现方式中，对初始定位区域进行过滤的过程为：将目标候选区域的全局特征输入全连接层，得到目标候选区域的预测分数；将目标候选区域的分类分数与目标候选区域的预测分数的乘积作为初始定位区域的目标分数；结合初始定位区域的目标分数，利用非极大值抑制算法对初始定位区域进行过滤。其中，目标候选区域的预测分数可以是指基于全连接层预测得到的目标候选区域与真实的物体区域之间的IoU。

结合初始定位区域的目标分数，利用非极大值抑制算法对初始定位区域进行过滤，可以使得到的目标定位区域更加接近真实的物体区域，从而进一步提高物体检测的效果。

在获取到目标物体的检测结果后，在目标界面显示目标物体的检测结果，以使用户查看目标物体的检测结果。由于目标定位区域的尺寸与目标物体的类别相对应，所以在目标界面可以只显示目标物体的目标定位区域，也可以同时显示目标物体的类别和目标物体的目标定位区域，其中，目标定位区域可以用长方体框表示。例如，如图5(1)所示，在每个长方体框旁边显示该长方体框的类别，如“车辆”或者“行人”等。在实际的道路空间中，在目标界面可以显示如图5(2)所示的目标物体的检测结果，在图5(2)中只显示了目标物体的目标定位区域。

整个基于深度学习的物体检测过程可以如图6所示。首先将目标空间的点云数据输入PointNet++网络进行分割，获取每个采样点的分类分数和每个采样点的分割特征；根据分类分数对采样点对应的第一立体区域进行NMS，得到初始候选区域；将初始候选区域内的采样点的XYZ坐标和分割特征输入PointNet网络，基于输出的结果得到目标候选区域；将目标候选区域经过体素化层切割成多个目标候选子区域，通过VFE网络提取目标候选子区域的局部特征，然后根据目标候选子区域的局部特征，得到目标候选区域的全局特征。将目标候选区域的全局特征分别输入IoU分支和预测分支。根据IoU分支得到每个目标候选区域的IoU值；根据预测分支，得到目标候选区域的分类分数和初始定位区域。结合目标候选区域的IoU值和目标候选区域的分类分数的乘积，对初始定位区域进行NMS，得到目标定位区域，将目标定位区域显示在终端的目标界面上。

在本申请实施例中，根据目标空间的全部点云数据获取各个采样点的分类结果，根据分类结果确定采样点对应的第一立体区域和第二立体区域，进而获取目标候选区域。然后根据对目标候选区域进行切割得到的目标候选子区域获取最终的目标物体的检测结果。在此物体检测的过程中，能够在避免点云数据的信息丢失的同时，有效减少计算量，从而可以提高物体检测的效果和物体检测的效率。

基于相同技术构思，参见图7，本申请实施例提供了一种基于深度学习的物体检测装置，该装置包括：

第一获取模块701，用于基于目标空间的点云数据，获取点云数据中多个采样点的分类结果；

确定模块702，用于根据多个采样点的分类结果，为多个采样点确定对应的第一立体区域和第二立体区域；

第二获取模块703，用于基于采样点对应的第一立体区域和第二立体区域，获取目标空间中的目标候选区域；

切割模块704，用于将目标候选区域进行切割，得到第一参考数量个目标候选子区域；

第三获取模块705，还用于基于目标候选子区域，获取目标空间中的目标物体的检测结果；

显示模块706，用于在目标界面显示目标物体的检测结果。

在一种可能实现方式中，第一获取模块701，还用于基于目标空间的点云数据，获取点云数据中多个采样点的分割特征；

第三获取模块705，用于基于目标候选子区域内的采样点的初始特征，获取目标候选区域的全局特征，采样点的初始特征由采样点的分割特征和采样点的空间坐标构成；基于目标候选区域的全局特征，获取目标空间中的目标物体的检测结果。

在一种可能实现方式中，参见图8，第二获取模块703，包括：

过滤单元7031，用于基于非极大值抑制算法，对采样点对应的第一立体区域进行过滤，将剩余的第一立体区域作为初始候选区域；

获取单元7032，用于基于初始候选区域内的采样点的初始特征，获取初始候选区域的分类结果和目标偏移；

调整单元7033，用于基于初始候选区域的目标偏移，对采样点对应的第二立体区域进行调整，得到采样点对应的第三立体区域；

过滤单元7031，还用于基于非极大值抑制算法，对采样点对应的第三立体区域进行过滤，将剩余的第三立体区域作为目标候选区域。

在一种可能实现方式中，参见图9，该装置还包括：

选择模块707，用于在目标候选子区域内选择第二参考数量个采样点作为目标点；

第三获取模块705，还用于基于目标点的初始特征，获取目标候选子区域的区域特征；基于目标候选子区域的区域特征，获取目标候选区域的全局特征。

在一种可能实现方式中，选择模块707，还用于在目标候选区域内选择第三参考数量个采样点作为随机点；在目标候选子区域内选择属于随机点的第二参考数量个采样点作为目标点。

在一种可能实现方式中，参见图10，检测结果包括分类结果和目标定位区域；第三获取模块705，包括：

获取单元7051，用于基于目标候选区域的全局特征，获取目标候选区域的分类结果和目标偏移；

调整单元7052，用于基于目标候选区域的目标偏移，对目标候选区域进行调整，得到初始定位区域；

过滤单元7053，用于基于非极大值抑制算法，对初始定位区域进行过滤，将剩余的初始定位区域作为目标物体的目标定位区域。

在一种可能实现方式中，参见图10，目标候选区域的分类结果包括目标候选区域的分类分数；第三获取模块705，还包括：

输入单元7054，用于将目标候选区域的全局特征输入全连接层，得到目标候选区域的预测分数；

计算单元7055，用于将目标候选区域的分类分数与目标候选区域的预测分数的乘积作为初始定位区域的目标分数；

过滤单元7053，用于结合初始定位区域的目标分数，利用非极大值抑制算法对初始定位区域进行过滤。

需要说明的是，上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图11是本申请实施例提供的一种终端的结构示意图。该终端可以是：智能手机、平板电脑、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端包括有：处理器1101和存储器1102。

处理器1101可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1101可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1101可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1101还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1102可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1102中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1101所执行以实现本申请中方法实施例提供的基于深度学习的物体检测方法。

在一些实施例中，终端还可选包括有：外围设备接口1103和至少一个外围设备。处理器1101、存储器1102和外围设备接口1103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1103相连。具体地，外围设备包括：射频电路1104、显示屏1105、摄像头组件1106、音频电路1107和电源1109中的至少一种。

外围设备接口1103可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1101和存储器1102。在一些实施例中，处理器1101、存储器1102和外围设备接口1103被集成在同一芯片或电路板上；在一些其他实施例中，处理器1101、存储器1102和外围设备接口1103中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1104用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1104将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1104包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1104可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1104还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1105用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1105是触摸显示屏时，显示屏1105还具有采集在显示屏1105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1101进行处理。此时，显示屏1105还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1105可以为一个，设置在终端的前面板；在另一些实施例中，显示屏1105可以为至少两个，分别设置在终端的不同表面或呈折叠设计；在再一些实施例中，显示屏1105可以是柔性显示屏，设置在终端的弯曲表面上或折叠面上。甚至，显示屏1105还可以设置成非矩形的不规则图形，也即异形屏。显示屏1105可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1106用于采集图像或视频。可选地，摄像头组件1106包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1106还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1107可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1101进行处理，或者输入至射频电路1104以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1101或射频电路1104的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1107还可以包括耳机插孔。

电源1109用于为终端中的各个组件进行供电。电源1109可以是交流电、直流电、一次性电池或可充电电池。当电源1109包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端还包括有一个或多个传感器1110。该一个或多个传感器1110包括但不限于：加速度传感器1111、陀螺仪传感器1112、压力传感器1113、光学传感器1115以及接近传感器1116。

加速度传感器1111可以检测以终端建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1111可以用于检测重力加速度在三个坐标轴上的分量。处理器1101可以根据加速度传感器1111采集的重力加速度信号，控制显示屏1105以横向视图或纵向视图进行用户界面的显示。加速度传感器1111还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1112可以检测终端的机体方向及转动角度，陀螺仪传感器1112可以与加速度传感器1111协同采集用户对终端的3D动作。处理器1101根据陀螺仪传感器1112采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1113可以设置在终端的侧边框和/或显示屏1105的下层。当压力传感器1113设置在终端的侧边框时，可以检测用户对终端的握持信号，由处理器1101根据压力传感器1113采集的握持信号进行左右手识别或快捷操作。当压力传感器1113设置在显示屏1105的下层时，由处理器1101根据用户对显示屏1105的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器1115用于采集环境光强度。在一个实施例中，处理器1101可以根据光学传感器1115采集的环境光强度，控制显示屏1105的显示亮度。具体地，当环境光强度较高时，调高显示屏1105的显示亮度；当环境光强度较低时，调低显示屏1105的显示亮度。在另一个实施例中，处理器1101还可以根据光学传感器1115采集的环境光强度，动态调整摄像头组件1106的拍摄参数。

接近传感器1116，也称距离传感器，通常设置在终端的前面板。接近传感器1116用于采集用户与终端的正面之间的距离。在一个实施例中，当接近传感器1116检测到用户与终端的正面之间的距离逐渐变小时，由处理器1101控制显示屏1105从亮屏状态切换为息屏状态；当接近传感器1116检测到用户与终端的正面之间的距离逐渐变大时，由处理器1101控制显示屏1105从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图11中示出的结构并不构成对终端的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图12是本发明实施例提供的一种服务器的结构示意图。该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(central processing units，CPU)1201和一个或多个存储器1202，其中，一个或多个存储器1202中存储有至少一条程序代码，至少一条程序代码由一个或多个处理器1201加载并执行，以实现上述各个方法实施例提供的基于深度学习的物体检测方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由计算机设备的处理器加载并执行，以实现上述任一种基于深度学习的物体检测方法。

可选地，上述计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-OnlyMemory，CD-ROM)、磁带、软盘和光数据存储设备等。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于深度学习的物体检测方法，其特征在于，所述方法包括：

基于目标空间的点云数据，获取所述点云数据中多个采样点的分类结果，所述分类结果包括类别；

基于目标空间的点云数据，获取所述点云数据中多个采样点的分割特征；

根据多个所述采样点的类别，确定所述采样点的第一立体区域的尺寸，根据所述第一立体的尺寸，确定所述采样点的第二立体区域的尺寸，以所述采样点为中心，为多个所述采样点确定对应的第一立体区域和第二立体区域；

基于非极大值抑制算法，对所述采样点对应的第一立体区域进行过滤，将剩余的第一立体区域作为初始候选区域；

基于所述初始候选区域内的采样点的初始特征，获取所述初始候选区域的分类结果和目标偏移；

基于所述初始候选区域的目标偏移，对所述采样点对应的第二立体区域进行调整，得到所述采样点对应的第三立体区域；

基于非极大值抑制算法，对所述采样点对应的第三立体区域进行过滤，将剩余的第三立体区域作为目标候选区域；

基于所述目标候选子区域内的采样点的初始特征，获取所述目标候选区域的全局特征，所述采样点的初始特征由所述采样点的分割特征和所述采样点的空间坐标构成；

基于所述目标候选区域的全局特征，获取所述目标空间中的目标物体的检测结果，在目标界面显示所述目标物体的类别和所述目标物体的目标定位区域。

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标候选子区域内的采样点的初始特征，获取所述目标候选区域的全局特征，包括：

在所述目标候选子区域内选择第二参考数量个采样点作为目标点；

基于所述目标点的初始特征，获取所述目标候选子区域的区域特征；

基于所述目标候选子区域的区域特征，获取所述目标候选区域的全局特征。

3.根据权利要求2所述的方法，其特征在于，所述在所述目标候选子区域内选择第二参考数量个采样点作为目标点之前，所述方法还包括：

在所述目标候选区域内选择第三参考数量个采样点作为随机点；

所述在所述目标候选子区域内选择第二参考数量个采样点作为目标点，包括：

在所述目标候选子区域内选择属于所述随机点的第二参考数量个采样点作为目标点。

4.根据权利要求1所述的方法，其特征在于，所述检测结果包括分类结果和目标定位区域；所述基于所述目标候选区域的全局特征，获取所述目标空间中的目标物体的检测结果，包括：

基于所述目标候选区域的全局特征，获取所述目标候选区域的分类结果和目标偏移；

基于所述目标候选区域的目标偏移，对所述目标候选区域进行调整，得到初始定位区域；

基于非极大值抑制算法，对所述初始定位区域进行过滤，将剩余的初始定位区域作为所述目标物体的目标定位区域。

5.根据权利要求4所述的方法，其特征在于，所述目标候选区域的分类结果包括所述目标候选区域的分类分数；所述基于非极大值抑制算法，对所述初始定位区域进行过滤之前，所述方法还包括：

将所述目标候选区域的全局特征输入全连接层，得到所述目标候选区域的预测分数；

将所述目标候选区域的分类分数与所述目标候选区域的预测分数的乘积作为所述初始定位区域的目标分数；

所述基于非极大值抑制算法，对所述初始定位区域进行过滤，包括：

结合所述初始定位区域的目标分数，利用非极大值抑制算法对所述初始定位区域进行过滤。

6.一种基于深度学习的物体检测装置，其特征在于，所述装置包括：

第一获取模块，用于基于目标空间的点云数据，获取所述点云数据中多个采样点的分类结果，所述分类结果包括类别；基于目标空间的点云数据，获取所述点云数据中多个采样点的分割特征；

确定模块，用于根据多个所述采样点的类别，确定所述采样点的第一立体区域的尺寸，根据所述第一立体的尺寸，确定所述采样点的第二立体区域的尺寸，以所述采样点为中心，为多个所述采样点确定对应的第一立体区域和第二立体区域；

第二获取模块，用于基于非极大值抑制算法，对所述采样点对应的第一立体区域进行过滤，将剩余的第一立体区域作为初始候选区域；基于所述初始候选区域内的采样点的初始特征，获取所述初始候选区域的分类结果和目标偏移；基于所述初始候选区域的目标偏移，对所述采样点对应的第二立体区域进行调整，得到所述采样点对应的第三立体区域；基于非极大值抑制算法，对所述采样点对应的第三立体区域进行过滤，将剩余的第三立体区域作为目标候选区域；

所述第一获取模块，还用于基于目标空间的点云数据，获取所述点云数据中多个采样点的分割特征；

第三获取模块，用于基于所述目标候选子区域内的采样点的初始特征，获取所述目标候选区域的全局特征，所述采样点的初始特征由所述采样点的分割特征和所述采样点的空间坐标构成；基于所述目标候选区域的全局特征，获取所述目标空间中的目标物体的检测结果；

显示模块，用于在目标界面显示所述目标物体的检测结果。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求7所述的装置，其特征在于，所述选择模块，还用于在所述目标候选区域内选择第三参考数量个采样点作为随机点；在所述目标候选子区域内选择属于所述随机点的第二参考数量个采样点作为目标点。

9.根据权利要求6所述的装置，其特征在于，所述检测结果包括分类结果和目标定位区域；所述第三获取模块包括：

10.根据权利要求9所述的装置，其特征在于，所述目标候选区域的分类结果包括所述目标候选区域的分类分数；所述第三获取模块，还包括：

11.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如权利要求1至5任一所述的基于深度学习的物体检测方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1至5任一所述的基于深度学习的物体检测方法。