CN112580561A

CN112580561A - 目标检测方法、装置、电子设备及存储介质

Info

Publication number: CN112580561A
Application number: CN202011565765.1A
Authority: CN
Inventors: 梁志栋; 张明; 张泽瀚; 赵显�
Original assignee: Shanghai Goldway Intelligent Transportation System Co Ltd
Current assignee: Shanghai Goldway Intelligent Transportation System Co Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-03-30
Anticipated expiration: 2040-12-25
Also published as: CN112580561B

Abstract

本申请实施例提供了目标检测方法、装置、电子设备及存储介质，鸟瞰图中目标的尺寸不会随着距离视图的深度方向而改变，且目标之间的遮挡更少几乎不存在，利用2D鸟瞰图图像特征得到目标的3D检测框，目标检测精度高。并且为基于2D图像特征的预测，计算复杂度低，计算速度快，增加了目标检测的实时性，对设备算力要求低，能够通过车载电子设备实现，可以有效应用与车辆自动驾驶的场景。

Description

目标检测方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及目标检测方法、装置、电子设备及存储介质。

背景技术

感知是自动驾驶系统的基础与核心，2D(二维)感知对于高级别自动驾驶远远不够，准确的3D(三维)感知尤为重要。

在目前的3D检测方法中，主流方法大多数为基于体素的方法，如VoxelNet、SECOND等3D检测方法；或者基于点的方法，如Point RCNN(Region Convolutional NeuralNetworks，区域卷积神经网络)等。这些方法在众多公开数据集取得了较高的精度与领先地位。但是，这些方法在实际应用中存在如下问题。首先，由于这些方法采用了3D数据格式，运行速度较慢，无法满足实时性的要求。其次，这些方法的计算量大算法复杂对设备的要求很高，导致无法应用于嵌入式设备当中。因此，目前实际应用及研究的深度学习框架为2D图像的框架。

相关技术中，将雷达采集的点云信息转换为2D距离视图，并在2D距离视图上确定anchor(锚点框)，从而实现目标检测。但是采用该方法，由于距离视图中物体尺寸随距离变化较大，且目标之间存在遮挡，会造成目标检测精度低。

发明内容

本申请实施例的目的在于提供一种目标检测方法、装置、电子设备及存储介质，以实现提高目标检测的精度。具体技术方案如下：

第一方面，本申请实施例提供了一种目标检测方法，所述方法包括：

获取雷达采集的点云数据，将所述点云数据转换为距离视图；

利用预设深度学习模型对所述距离视图进行特征提取，得到2D距离图图像特征，其中，所述2D距离图图像特征包括所述距离视图中各像素的图像特征；

根据所述距离视图中各像素与所述点云数据中各点的对应关系，将所述距离视图中各像素的图像特征映射到鸟瞰图上，得到2D鸟瞰图图像特征；

利用预设深度学习模型对所述2D鸟瞰图图像特征进行分析，得到目标的3D检测框。

在一种可能的实施方式中，所述预设深度学习模型包括特征提取网络，所述特征提取网络包括多个编码模块及多个解码模块；

所述利用预设深度学习模型对所述距离视图进行特征提取，得到2D距离图图像特征，包括：

利用所述特征提取网络的卷积层将所述距离视图转换为初始图像特征；

利用所述特征提取网络的各编码模块对所述初始图像特征进行特征提取及下采样，得到图像编码特征；

利用所述特征提取网络的各解码模块对所述下采样图像特征进行特征提取及上采样，得到2D距离图图像特征。

在一种可能的实施方式中，所述编码模块包括第一卷积单元、多个膨胀卷积单元、特征级联单元、第二卷积单元、特征融合单元、随机失活单元及池化单元，其中，同一编码模块中各膨胀卷积单元的膨胀率不同；

所述利用所述特征提取网络的各编码模块对所述初始图像特征进行特征提取及下采样，得到图像编码特征，包括：

针对每一编码模块，利用该编码模块的第一卷积单元对输入该编码模块的图像特征进行更新，得到一次更新后的图像特征；

利用该编码模块的膨胀卷积单元对一次更新后的图像特征进行特征提取，得到多种尺度的图像特征；

利用该编码模块的特征级联单元对多种尺度的图像特征进行级联，得到级联后的图像特征；

利用该编码模块的第二卷积单元对级联后的图像特征进行更新，得到二次更新后的图像特征；

利用该编码模块的特征融合单元将一次更新后的图像特征与二次更新后的图像特征进行融合，得到融合图像特征；

利用该编码模块的随机失活单元及池化单元对融合图像特征进行随机失活操作及下采样操作，得到输出的图像特征；

其中，第一个编码模块的输入为所述初始图像特征，第i+1个编码模块的输入为第i个编码模块的输出，最后一个编码模块的输出为图像编码特征。

在一种可能的实施方式中，，所述解码模块包括第一卷积单元、多个膨胀卷积单元、特征级联单元、第二卷积单元、特征融合单元、随机失活单元及池化单元，其中，同一解码模块中各膨胀卷积单元的膨胀率不同；

所述利用所述特征提取网络的各解码模块对所述下采样图像特征进行特征提取及上采样，得到2D距离图图像特征，包括：

针对每一解码模块，利用该解码模块的第一卷积单元对输入该解码模块的图像特征进行更新，得到一次更新后的图像特征；

利用该解码模块的膨胀卷积单元对一次更新后的图像特征进行特征提取，得到多种尺度的图像特征；

利用该解码模块的特征级联单元对多种尺度的图像特征进行级联，得到级联后的图像特征；

利用该解码模块的第二卷积单元对级联后的图像特征进行更新，得到二次更新后的图像特征；

利用该解码模块的特征融合单元将一次更新后的图像特征与二次更新后的图像特征进行融合，得到融合图像特征；

利用该解码模块的随机失活单元及池化单元对融合图像特征进行随机失活操作及上采样操作，得到输出的图像特征；

其中，第一个解码模块的输入为所述图像编码特征，第i+1个解码模块的输入为第i个解码模块的输出，最后一个解码模块的输出为2D距离图图像特征。

在一种可能的实施方式中，所述根据所述距离视图中各像素与所述点云数据中各点的对应关系，将所述距离视图中各像素的图像特征映射到鸟瞰图上，得到2D鸟瞰图图像特征，包括：

根据所述距离视图中各像素与所述点云数据中各点的对应关系，将所述距离视图中各像素的图像特征映射为所述点云数据中各点的图像特征；

将所述点云数据中各点的图像特征投影到所述鸟瞰图的各像素上，得到2D鸟瞰图图像特征。

在一种可能的实施方式中，所述利用预设深度学习模型对所述2D鸟瞰图图像特征进行分析，得到目标的3D检测框，包括：

利用预设深度学习模型的多个卷积单元依次对所述2D鸟瞰图图像特征进行卷积操作，得到多个尺度的鸟瞰图图像特征；

分别对多个尺度的鸟瞰图图像特征进行反卷积操作，得到多个尺度相同的鸟瞰图图像特征；

将多个尺度相同的鸟瞰图图像特征进行级联，得到级联鸟瞰图图像特征；

对所述级联鸟瞰图图像特征进行分析，得到目标的3D检测框。

在一种可能的实施方式中，在所述利用预设深度学习模型对所述2D鸟瞰图图像特征进行分析，得到目标的3D检测框之后，所述方法还包括：

根据所述3D检测框，按照预设步长，将所述3D检测框内的点划分为多个体素立方体；

按照各所述体素立方体的位置，将各所述体素立方体排列为一维特征向量；

利用预设深度学习模型对所述一维特征向量进行分析，得到校正后的3D检测框。

第二方面，本申请实施例提供了一种目标检测装置，所述装置包括：

距离视图转换模块，用于获取雷达采集的点云数据，将所述点云数据转换为距离视图；

图像特征获取模块，用于利用预设深度学习模型对所述距离视图进行特征提取，得到2D距离图图像特征，其中，所述2D距离图图像特征包括所述距离视图中各像素的图像特征；

图像特征转换模块，用于根据所述距离视图中各像素与所述点云数据中各点的对应关系，将所述距离视图中各像素的图像特征映射到鸟瞰图上，得到2D鸟瞰图图像特征；

3D检测框获取模块，用于利用预设深度学习模型对所述2D鸟瞰图图像特征进行分析，得到目标的3D检测框。

在一种可能的实施方式中，所述预设深度学习模型包括特征提取网络，所述特征提取网络包括多个编码模块及多个解码模块；所述图像特征获取模块，包括：

初始图像特征获取子模块，用于利用所述特征提取网络的卷积层将所述距离视图转换为初始图像特征；

图像编码特征获取子模块，用于利用所述特征提取网络的各编码模块对所述初始图像特征进行特征提取及下采样，得到图像编码特征；

2D距离图图像特征获取子模块，用于利用所述特征提取网络的各解码模块对所述下采样图像特征进行特征提取及上采样，得到2D距离图图像特征。

所述图像编码特征获取子模块，具体用于：

在一种可能的实施方式中，所述解码模块包括第一卷积单元、多个膨胀卷积单元、特征级联单元、第二卷积单元、特征融合单元、随机失活单元及池化单元，其中，同一解码模块中各膨胀卷积单元的膨胀率不同；

所述2D距离图图像特征获取子模块，具体用于：

在一种可能的实施方式中，所述图像特征转换模块，具体用于：

在一种可能的实施方式中，所述3D检测框获取模块，具体用于：

在一种可能的实施方式中，所述装置还包括3D检测框校正模块，用于：

第三方面，本申请实施例提供了一种电子设备，包括处理器及存储器；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现本申请中任一所述的目标检测方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现本申请中任一所述的目标检测方法。

本申请实施例有益效果：

本申请实施例提供的目标检测方法、装置、电子设备及存储介质，获取雷达采集的点云数据，将点云数据转换为距离视图；利用预设深度学习模型对距离视图进行特征提取，得到2D距离图图像特征，其中，2D距离图图像特征包括距离视图中各像素的图像特征；根据距离视图中各像素与点云数据中各点的对应关系，将距离视图中各像素的图像特征映射到鸟瞰图上，得到2D鸟瞰图图像特征；利用预设深度学习模型对2D鸟瞰图图像特征进行分析，得到目标的3D检测框。鸟瞰图中目标的尺寸不会随着距离视图的深度方向而改变，且目标之间的遮挡更少几乎不存在，利用2D鸟瞰图图像特征得到目标的3D检测框，目标检测精度高。并且为基于2D图像特征的预测，计算复杂度低，计算速度快，增加了目标检测的实时性，对设备算力要求低，能够通过车载电子设备实现，可以有效应用与车辆自动驾驶的场景。当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的目标检测方法的第一种示意图；

图2为本申请实施例的目标检测方法的第二种示意图；

图3为本申请实施例的3D感兴趣区域池化模块的一种示意图；

图4为本申请实施例中步骤S102的一种可能的实现方式的示意图；

图5为本申请实施例的特征提取网络的一种示意图；

图6为本申请实施例的编码模块及解码模块的一种示意图；

图7为本申请实施例的步骤S104的一种可能的实现方式的示意图；

图8为本申请实施例的3D检测网络的一种示意图；

图9为本申请实施例的目标检测装置的一种示意图；

图10为本申请实施例的电子设备的一种示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先，对本申请中的术语进行解释：

Range Image：距离视图，点云通过转换得到的一种表示。

Dilated Convolution：膨胀卷积，一种特殊的2D卷积方式。

RoI：感兴趣区域。

Anchor：锚点框，用于目标检测的初始预设框。

PointNet：点云特征学习网络。

PointNet++：层级点云特征学习网络。

PointRCNN：采用PointNet++进行3D目标检测的网络。

VoxelNet：体素3D检测网络。

SECOND：采用稀疏卷积的体素3D检测网络。

为了提高目标检测的精度，本申请实施例提供了一种目标检测方法，参见图1，该方法包括：

S101，获取雷达采集的点云数据，将上述点云数据转换为距离视图。

本申请实施例的目标检测方法可以通过电子设备实现，例如，该电子设备可以为车载电子设备，还可以为用于控制车辆驾驶的服务器等。雷达可以为激光雷达，相应的点云数据为激光点云数据。

点云数据转换为距离视图的具体方法可以参见相关技术中的转换方法。一个例子中，激光雷达采集点云数据后，需要将点云数据转换为距离视图，点云数据中的每个点(x,y,z)都会通过变换转换为距离视图中的像素(u,v)，投影公式如下：

其中，f_down为垂直视场角的下限，f为垂直视场角的总范围，r为每个点对应的深度值，w和h是距离视图预设的分辨率。通过如上公式，将空间中一系列点对应到距离视图上的像素。每个像素中，编码5个通道，分别为该像素对应的点的坐标(x,y,z)、强度以及该像素在空间中的距离。

S102，利用预设深度学习模型对上述距离视图进行特征提取，得到2D距离图图像特征，其中，上述2D距离图图像特征包括上述距离视图中各像素的图像特征。

在得到距离视图后，可以利用预设深度学习模型的2D卷积神经网络对距离视图进行特征提取，得到2D距离图图像特征，2D距离图图像特征包括距离视图中各像素的图像特征。

S103，根据上述距离视图中各像素与上述点云数据中各点的对应关系，将上述距离视图中各像素的图像特征映射到鸟瞰图上，得到2D鸟瞰图图像特征。

距离视图中各像素是由点云数据中的点映射来的，因此距离视图中各像素与点云数据中各点存在对应关系。

可以利用点云数据得到鸟瞰图，鸟瞰图的获取方式可以参见上述距离视图的获取方式，此处不再赘述。然后根据鸟瞰图中各像素与云数据中各点存在对应关系，及距离视图中各像素与点云数据中各点存在对应关系，确定鸟瞰图中各像素与距离视图中各像素的对应关系，例如，鸟瞰图中的像素A与距离视图中的像素B是通过点云数据中同一点投影得到的，则像素A与像素B相对应。按照鸟瞰图中各像素与距离视图中各像素的对应关系，将距离视图中各像素的图像特征映射到鸟瞰图上，得到2D鸟瞰图图像特征。

一个例子中，可以不用获取真实的鸟瞰图。在一种可能的实施方式中，上述根据上述距离视图中各像素与上述点云数据中各点的对应关系，将上述距离视图中各像素的图像特征映射到鸟瞰图上，得到2D鸟瞰图图像特征，包括：

步骤一，上述根据上述距离视图中各像素与上述点云数据中各点的对应关系，将上述距离视图中各像素的图像特征映射为上述点云数据中各点的图像特征。

例如，距离视图中像素A是由点云数据中的点a映射得到的，则图中像素A的图像特征即为点a的图像特征。

步骤二，将上述点云数据中各点的图像特征投影到上述鸟瞰图的各像素上，得到2D鸟瞰图图像特征。

点云数据中各点的图像特征沿z轴方向(距离视图的深度方向)投影到鸟瞰图的各像素上，对于落在鸟瞰图同一像素中的多个点的图像特征，可以采用平均池化的操作，从而得到2D鸟瞰图图像特征。该过程中可以不获取真实的鸟瞰图，仅是根据像素点的对应关系，将距离视图中各像素的图像特征投影到鸟瞰图上，从而得到2D鸟瞰图图像特征。

S104，利用预设深度学习模型对上述2D鸟瞰图图像特征进行分析，得到目标的3D检测框。

鸟瞰图(即俯视图)中目标的尺寸不会随着距离视图的深度方向而改变，且目标之间的遮挡更少几乎不存在，利用2D鸟瞰图图像特征得到目标的3D检测框，目标检测精度高。并且为基于2D图像特征的预测，计算复杂度低，计算速度快，增加了目标检测的实时性，对设备算力要求低，能够通过车载电子设备实现，可以有效应用与车辆自动驾驶的场景。

在一种可能的实施方式中，参见图2，在上述利用预设深度学习模型对上述2D鸟瞰图图像特征进行分析，得到目标的3D检测框之后，上述方法还包括：

S105，根据上述3D检测框，按照预设步长，将上述3D检测框内的点划分为多个体素立方体。

S106，按照各上述体素立方体的位置，将各上述体素立方体排列为一维特征向量。

S107，利用预设深度学习模型对上述一维特征向量进行分析，得到校正后的3D检测框。

基于2D鸟瞰图图像特征，得到了目标的3D检测框。但是，由于2D鸟瞰图图像特征为2D的，因此生成的3D检测框不能很好地反映目标的3D结构。因此可以利用预设深度学习模型的3D感兴趣区域池化模块，对目标的3D特征进行更好地提取与描述。一个例子中3D感兴趣区域池化模块可以如图3所示，基于2D鸟瞰图图像特征生成的3D检测框，对点云数据中3D检测框内的点按照预设步长进行三个维度上的划分，将其在空间上划分为若干个体素立方体。预设步长可以按照实际情况自定义设置，例如，可以设置为一个点的长度、两个点的长度或三个点的长度等。按照体素立方体的排列顺序将其重新排列为一维特征向量。该一维特征向量由于隐含了空间位置的顺序信息，可以间接反映3D检测框内部的结构。使用全连接网络，对该一维特征向量进行进一步提取，最终获得校正后的3D检测框和其对应的置信度。

在本申请实施例中，利用点云数据的三维信息，对3D检测框进行进一步校正，可以提高目标检测的精度。

在一种可能的实施方式中，上述预设深度学习模型包括特征提取网络，上述特征提取网络包括多个编码模块及多个解码模块；参见图4，上述利用预设深度学习模型对上述距离视图进行特征提取，得到2D距离图图像特征，包括：

S1021，利用上述特征提取网络的卷积层将上述距离视图转换为初始图像特征。

S1022，利用上述特征提取网络的各编码模块对上述初始图像特征进行特征提取及下采样，得到图像编码特征。

S1023，利用上述特征提取网络的各解码模块对上述下采样图像特征进行特征提取及上采样，得到2D距离图图像特征。

特征提取网络的输入为距离视图，输出为2D距离图图像特征。一个例子中，如图5所示，第一行表示特征提取网络的输入，最后一行表示特征提取网络的输出；除第一行及最后一行外，深色行表示编码部分，每个编码模块对上一层的特征进行进一步提取，并对其进行池化，实现特征的降采样(下采样)；除第一行及最后一行外，浅色行表示解码部分，每个解码模块对上一层的特征进行进一步提取，并对其进行上采样。

在一种可能的实施方式中，上述编码模块包括第一卷积单元、多个膨胀卷积单元、特征级联单元、第二卷积单元、特征融合单元、随机失活单元及池化单元，其中，同一编码模块中各膨胀卷积单元的膨胀率不同；上述利用上述特征提取网络的各编码模块对上述初始图像特征进行特征提取及下采样，得到图像编码特征，包括：

步骤A，针对每一编码模块，利用该编码模块的第一卷积单元对输入该编码模块的图像特征进行更新，得到一次更新后的图像特征；

步骤B，利用该编码模块的膨胀卷积单元对一次更新后的图像特征进行特征提取，得到多种尺度的图像特征；

步骤C，利用该编码模块的特征级联单元对多种尺度的图像特征进行级联，得到级联后的图像特征；

步骤D，利用该编码模块的第二卷积单元对级联后的图像特征进行更新，得到二次更新后的图像特征；

步骤E，利用该编码模块的特征融合单元将一次更新后的图像特征与二次更新后的图像特征进行融合，得到融合图像特征；

步骤F，利用该编码模块的随机失活单元及池化单元对融合图像特征进行随机失活操作及下采样操作，得到输出的图像特征；

其中，第一个编码模块的输入为上述初始图像特征，第i+1个编码模块的输入为第i个编码模块的输出，最后一个编码模块的输出为图像编码特征。

在一种可能的实施方式中，上述解码模块包括第一卷积单元、多个膨胀卷积单元、特征级联单元、第二卷积单元、特征融合单元、随机失活单元及池化单元，其中，同一解码模块中各膨胀卷积单元的膨胀率不同；上述利用上述特征提取网络的各解码模块对上述下采样图像特征进行特征提取及上采样，得到2D距离图图像特征，包括：

步骤1，针对每一解码模块，利用该解码模块的第一卷积单元对输入该解码模块的图像特征进行更新，得到一次更新后的图像特征；

步骤2，利用该解码模块的膨胀卷积单元对一次更新后的图像特征进行特征提取，得到多种尺度的图像特征；

步骤3，利用该解码模块的特征级联单元对多种尺度的图像特征进行级联，得到级联后的图像特征；

步骤4，利用该解码模块的第二卷积单元对级联后的图像特征进行更新，得到二次更新后的图像特征；

步骤5，利用该解码模块的特征融合单元将一次更新后的图像特征与二次更新后的图像特征进行融合，得到融合图像特征；

步骤6，利用该解码模块的随机失活单元及池化单元对融合图像特征进行随机失活操作及上采样操作，得到输出的图像特征；

其中，第一个解码模块的输入为上述图像编码特征，第i+1个解码模块的输入为第i个解码模块的输出，最后一个解码模块的输出为2D距离图图像特征。

一个例子中，编码模块及解码模块均可以如图6所示。针对任一编码模块或任一解码模块，输入的特征先通过一个1×1卷积更新特征，然后依次通过3个3×3的膨胀卷积，这三个膨胀卷积的膨胀率各不相同，分别为1、2、3。通过设置不同的膨胀率，可以实现不同尺度的特征提取，更好地适应距离带来的尺度变化。接着，3个膨胀卷积的输出被级联为一个特征，并再次使用一个1×1卷积对级联后的特征进行通道层面的特征融合。在编码部分，需要使用池化对特征进行降采样，在解码部分，需要使用双线性插值对特征进行上采样。

在本申请实施例中，通过多个膨胀率不同的膨胀卷积单元，可以实现多种尺度的特征提取，能够适应不同距离下不同大小的目标，从而提高目标检测的准确度。

在一种可能的实施方式中，参见图7，上述利用预设深度学习模型对上述2D鸟瞰图图像特征进行分析，得到目标的3D检测框，包括：

S1041，利用预设深度学习模型的多个卷积单元依次对上述2D鸟瞰图图像特征进行卷积操作，得到多个尺度的鸟瞰图图像特征。

S1042，分别对多个尺度的鸟瞰图图像特征进行反卷积操作，得到多个尺度相同的鸟瞰图图像特征。

S1043，将多个尺度相同的鸟瞰图图像特征进行级联，得到级联鸟瞰图图像特征。

S1044，对上述级联鸟瞰图图像特征进行分析，得到目标的3D检测框。

获得2D鸟瞰图图像特征后，使用深度特征学习模型的3D检测网络对2D鸟瞰图图像特征进行分析，得到目标的3D检测框。一个例子中3D检测网络可以如图8所示，对输入的2D鸟瞰图图像特征依次进行3个3×3卷积，卷积步长均为2，得到三种不同尺度的特征，并对这三个尺度的特征进行反卷积，将其恢复到同一尺度，然后将同一尺度的三个特征进行级联，得到级联鸟瞰图图像特征，对级联鸟瞰图图像特征进行分析，便可以得到目标的3D检测框，其中，Conv表示卷积操作，Deconv表示反卷积操作。

预设深度学习模型可以包含多个网络，预设深度学习模型训练方式为端到端训练，不需要各网络分别训练，从而使得各网络学习到的参数最大程度被优化。训练的输入为距离视图，预设深度学习模型输出为3D检测框，可以使用Focal Loss损失函数进行检测框类别的监督，使用Smooth L1损失函数进行检测框位置的监督，从而训练得到预设深度学习模型。

例如，将样本距离视图输入到待训练的深度学习模型中，得到预测3D检测框，基于Focal Loss损失函数根据预测3D检测框的类别与样本距离视图的真值3D检测框的类别计算第一模型损失，基于Smooth L1损失函数根据预测3D检测框的位置与样本距离视图的真值3D检测框的位置计算第二模型损失，根据第一模型损失及第二模型损失调整深度学习模型的参数。当达到预设的训练次数或模型损失(包括第一模型损失及第二模型损失)收敛时，得到预设深度学习模型。

本申请实施例还提供了一种目标检测装置，参见图9，该装置包括：

距离视图转换模块11，用于获取雷达采集的点云数据，将上述点云数据转换为距离视图；

图像特征获取模块12，用于利用预设深度学习模型对上述距离视图进行特征提取，得到2D距离图图像特征，其中，上述2D距离图图像特征包括上述距离视图中各像素的图像特征；

图像特征转换模块13，用于根据上述距离视图中各像素与上述点云数据中各点的对应关系，将上述距离视图中各像素的图像特征映射到鸟瞰图上，得到2D鸟瞰图图像特征；

3D检测框获取模块14，用于利用预设深度学习模型对上述2D鸟瞰图图像特征进行分析，得到目标的3D检测框。

在一种可能的实施方式中，上述预设深度学习模型包括特征提取网络，上述特征提取网络包括多个编码模块及多个解码模块；上述图像特征获取模块，包括：

初始图像特征获取子模块，用于利用上述特征提取网络的卷积层将上述距离视图转换为初始图像特征；

图像编码特征获取子模块，用于利用上述特征提取网络的各编码模块对上述初始图像特征进行特征提取及下采样，得到图像编码特征；

2D距离图图像特征获取子模块，用于利用上述特征提取网络的各解码模块对上述下采样图像特征进行特征提取及上采样，得到2D距离图图像特征。

在一种可能的实施方式中，上述编码模块包括第一卷积单元、多个膨胀卷积单元、特征级联单元、第二卷积单元、特征融合单元、随机失活单元及池化单元，其中，同一编码模块中各膨胀卷积单元的膨胀率不同；

上述图像编码特征获取子模块，具体用于：

在一种可能的实施方式中，上述解码模块包括第一卷积单元、多个膨胀卷积单元、特征级联单元、第二卷积单元、特征融合单元、随机失活单元及池化单元，其中，同一解码模块中各膨胀卷积单元的膨胀率不同；

上述2D距离图图像特征获取子模块，具体用于：

在一种可能的实施方式中，上述图像特征转换模块，具体用于：

根据上述距离视图中各像素与上述点云数据中各点的对应关系，将上述距离视图中各像素的图像特征映射为上述点云数据中各点的图像特征；

将上述点云数据中各点的图像特征投影到上述鸟瞰图的各像素上，得到2D鸟瞰图图像特征。

在一种可能的实施方式中，上述3D检测框获取模块，具体用于：

利用预设深度学习模型的多个卷积单元依次对上述2D鸟瞰图图像特征进行卷积操作，得到多个尺度的鸟瞰图图像特征；

对上述级联鸟瞰图图像特征进行分析，得到目标的3D检测框。

在一种可能的实施方式中，上述装置还包括3D检测框校正模块，用于：

根据上述3D检测框，按照预设步长，将上述3D检测框内的点划分为多个体素立方体；

按照各上述体素立方体的位置，将各上述体素立方体排列为一维特征向量；

利用预设深度学习模型对上述一维特征向量进行分析，得到校正后的3D检测框。

本申请实施例还提供了一种电子设备，包括：处理器及存储器；

上述存储器，用于存放计算机程序；

上述处理器用于执行上述存储器存放的计算机程序时，实现本申请中任一目标检测方法。

可选的，参见图10，除了上述处理器21及存储器23外，本申请实施例的电子设备还包括通信接口22和通信总线24，其中，处理器21，通信接口22，存储器23通过通信总线24完成相互间的通信。

上述电子设备提到的通信总线可以是PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-Volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processing，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请实施例还提供了一种计算机可读存储介质，上述计算机可读存储介质内存储有计算机程序，上述计算机程序被处理器执行时实现本申请中任一目标检测方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本申请中任一目标检测方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

需要说明的是，在本文中，各个可选方案中的技术特征只要不矛盾均可组合来形成方案，这些方案均在本申请公开的范围内。诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机程序产品及存储介质的实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种目标检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述预设深度学习模型包括特征提取网络，所述特征提取网络包括多个编码模块及多个解码模块；

3.根据权利要求2所述的方法，其特征在于，所述编码模块包括第一卷积单元、多个膨胀卷积单元、特征级联单元、第二卷积单元、特征融合单元、随机失活单元及池化单元，其中，同一编码模块中各膨胀卷积单元的膨胀率不同；

4.根据权利要求2所述的方法，其特征在于，所述解码模块包括第一卷积单元、多个膨胀卷积单元、特征级联单元、第二卷积单元、特征融合单元、随机失活单元及池化单元，其中，同一解码模块中各膨胀卷积单元的膨胀率不同；

5.根据权利要求1所述的方法，其特征在于，所述根据所述距离视图中各像素与所述点云数据中各点的对应关系，将所述距离视图中各像素的图像特征映射到鸟瞰图上，得到2D鸟瞰图图像特征，包括：

6.根据权利要求1所述的方法，其特征在于，所述利用预设深度学习模型对所述2D鸟瞰图图像特征进行分析，得到目标的3D检测框，包括：

7.根据权利要求1所述的方法，其特征在于，在所述利用预设深度学习模型对所述2D鸟瞰图图像特征进行分析，得到目标的3D检测框之后，所述方法还包括：

8.一种目标检测装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括处理器及存储器；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-7任一所述的目标检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一所述的目标检测方法。