CN112200129A

CN112200129A - 一种基于深度学习的三维目标检测方法、装置及终端设备

Info

Publication number: CN112200129A
Application number: CN202011167245.5A
Authority: CN
Inventors: 邹博; 胡杰民; 王立强; 齐季; 孙伟; 郑尧
Original assignee: Chinese People's Liberation Army Aviation School Army Aviation Institute
Current assignee: Chinese People's Liberation Army Aviation School Army Aviation Institute
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2021-01-08

Abstract

本申请公开了一种基于深度学习的三维目标检测方法、装置及终端设备，其中，方法包括：在获取到指定场景对应的点云数据的情况下，对所述点云数据进行预处理得到多个第一点云方柱；分别对每个所述第一点云方柱中包括的数据点进行特征扩展，得到多个完成特征扩展后的第二点云方柱；将所述多个第二点云方柱作为预设的特征学习网络的输入，以提取所述多个第二点云方柱中的点云特征，并基于所述点云特征将各数据点映射为与所述指定场景对应的伪图像；将所述伪图像作为预设的候选框生成网络的输入，以对所述伪图像中包括的三维目标进行预测，得到所述指定场景中包含的三维目标对应的边界回归图和/或置信概率图。

Description

一种基于深度学习的三维目标检测方法、装置及终端设备

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种基于深度学习的三维目标检测方法、装置及终端设备。

背景技术

三维目标检测是计算机视觉任务中的重要研究课题，也是很多视觉任务实现的前提，如场景解析任务、事件识别任务等。近些年，三维目标检测也被广泛应用于很多方面，例如，民用方面有自动驾驶、家庭机器人、视频监控等；军事方面有目标探测、精确制导、无人机侦测等；医学方面有病灶检测等。

在此以自动驾驶领域为例，三维目标检测作为自动驾驶领域中的关键技术之一，可用于对智能汽车的周围环境进行感知，从而确保自动驾驶的安全性。但是，目前的三维目标检测技术还存在精确度不高等问题，例如，经统计，自2016年9月至2018年3月之间，Uber的自动驾驶汽车共发生37起碰撞事故，其中，2018年3月发生在美国亚利桑那州坦佩市的车祸造成一名妇女丧生，资料显示，事故发生前5.6秒就已发现行人，但车辆并未能正确识别，系统对目标的分类发生了混乱，在“汽车”和“其他”之间摇摆不定，浪费了大量宝贵的时间，而未及时制动。

加之，在自动驾驶领域中，智能汽车的周围环境会异常复杂，如包括各种天气、路况、障碍物等多种组合，进一步加大了三维目标检测的难度，因此，如何有效提高三维目标检测结果的准确性，确保自动驾驶技术的安全性，成为了目前急需解决的技术问题。

发明内容

本申请实施例提供了一种基于深度学习的三维目标检测方法、装置及终端设备，能够提高三维目标检测结果的准确性，确保自动驾驶技术的安全性。

为了解决上述问题，本申请是这样实现的：

第一方面，本申请实施例提供一种基于深度学习的三维目标检测方法，包括：在获取到自动驾驶场景对应的点云数据的情况下，对所述点云数据进行预处理得到多个第一点云方柱；对每个所述第一点云方柱中包括的数据点进行特征扩展，得到多个第二点云方柱；将所述多个第二点云方柱作为预设的特征学习网络的输入，计算得到所述自动驾驶场景对应的伪图像；将所述伪图像作为预设的候选框生成网络的输入，以预测得到所述自动驾驶场景中包含的三维目标对应的边界回归图和/或置信概率图。

第二方面，本申请实施例提供一种基于深度学习的三维目标检测装置，包括：预处理模块，用于在获取到自动驾驶场景对应的点云数据的情况下，对所述点云数据进行预处理得到多个第一点云方柱；扩展模块，用于对每个所述第一点云方柱中包括的数据点进行特征扩展，得到多个第二点云方柱；伪图像计算模块，用于将所述多个第二点云方柱作为预设的特征学习网络的输入，计算得到所述自动驾驶场景对应的伪图像；预测模块，用于将所述伪图像作为预设的候选框生成网络的输入，以预测得到所述自动驾驶场景中包含的三维目标对应的边界回归图和/或置信概率图。

第三方面，本申请实施例还提供一种终端设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述的基于深度学习的三维目标检测方法的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上所述的基于深度学习的三维目标检测方法的步骤。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

在本申请给出的一种基于深度学习的三维目标检测方法、装置及终端设备中，通过将指定场景对应的点云数据预处理为多个第一点云方柱，再通过对每个第一点云方柱中包括的每个数据点进行特征扩展，得到多个第二点云方柱，然后基于预设的特征学习网络和候选框生成网络对多个第二点云方柱进行特征学习以及目标预测，以实现对指定场景中的三维目标的检测，能够提高三维目标检测结果的可靠性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为根据一示例性实施例提供的基于深度学习的三维目标检测方法的流程示意图。

图2为根据一示例性实施例提供的点云数据预处理过程示意图。

图3为根据一示例性实施例提供的基于深度学习的三维目标检测方法的流程示意图。

图4为根据一示例性实施例提供的特征学习网络的结构示意图。

图5为根据一示例性实施例提供的特征学习网络的另一结构示意图。

图6为根据一示例性实施例提供的候选框生成网络的结构示意图。

图7为根据另一示例性实施例提供的基于深度学习的三维目标检测装置的框图。

图8为根据一示例性实施例提供的终端设备的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

如图1所示，为本申请一示例性实施例提供的基于深度学习的三维目标检测方法的流程示意图，该基于深度学习的三维目标检测方法可应用终端设备，具体可由，但不限于终端设备中的硬件或软件执行。请参照图1，基于深度学习的三维目标检测方法可以包括如下步骤。

S110，在获取到指定场景对应的点云数据的情况下，对所述点云数据进行预处理得到多个第一点云方柱。

其中，所述指定场景可以是但不限于自动驾驶场景、无人机侦测场景等。考虑到激光雷达具有不受光照影响和直接获得对应场景的准确三维信息的特性，本实施例中所述的点云数据可以是通过激光雷达获得的，以最大可能的提高获取到的指定场景的点云数据的全面性和准确性，为后续三维目标检测结果的可靠性提供支撑。

另外，本实施例对所述点云数据进行预处理得到多个第一点云方柱的过程可以包括：对所述点云数据进行剪裁得到预设尺寸的目标点云；基于预设坐标系，将所述目标点云划分为所述多个点云方柱。

示例性地，请结合参阅图2，首先，可根据所述指定场景中需要感知的实际空间的尺寸对所述点云数据进行剪裁得到尺寸为L×W×H的目标点云，由此可去除点云数据中的冗余点，提高数据计算效率。其中，L、W和H分别为前述实际空间的长度、宽度和高度，且L、W和H分别是对应于三维坐标轴的x、y和z轴方向。然后，在所述预设坐标系为直角坐标系的情况下，分别沿着直角坐标系的x轴和y轴的方向对剪裁得到的L×W×H的目标点云进行等间距划分，得到

个第一点云方柱，也就是，每个第一点云方柱的尺寸为d_L×d_W×H。

本实施例中，在对目标点云进行划分时，由于仅按照x、y坐标轴进行栅格化，而未将目标点云栅格化为三维网格，由此能够最大限度地保留空间信息的同时减少计算量，确保后续三维目标检测结果的可靠性，避免相关技术中由于将点云数据栅格化为三维网格而可能引起的维度灾难，如随着体素尺寸减小，分辨率增大，计算量呈现指数式增长，对设备的存储能力和计算能力要求较高。

需要说明的是，各所述第一点云方柱中的数据点的数量可以相同，也可以不同。此外，在对点云数据进行栅格化时，各栅格的尺寸可根据实际需求进行设定，例如，在剪裁后的目标点云的尺寸为L×W×H＝[0,70.4]m×[-40,40]m×[-3,1]m的情况下，可按照d_L×d_W＝0.2m×0.2m进行栅格化，本实施例在此不做限制。

S120，对每个所述第一点云方柱中包括的每个数据点进行特征扩展，得到多个完成特征扩展后的第二点云方柱。

其中，作为一种实现方式，S120的实现过程可以包括：针对所述第一点云方柱中的每个数据点，将所述数据点由特征[x,y,z,r]扩展为特征[x,y,z,r,x-Δx,y-Δy,z-Δz,x-x_c,y-y_c]，其中，[r]表示所述数据点自身的反射强度值，[x,y,z]表示所述数据点在三维空间中的坐标值，[Δx,Δy,Δz]表示所述第一点云方柱内所有点的坐标均值，[x_c,y_c,Δ_c]表示所述第一点云方柱内的数据点在鸟瞰图方向投影的中心坐标值。

本实施例中，通过对各数据点进行特征扩展能够充分利用各数据点自身携带的信息，进而为后续的三维目标检测提供可靠支持。

S130，将所述多个第二点云方柱作为预设的特征学习网络的输入，以提取所述多个第二点云方柱中的点云特征，并基于所述点云特征将各数据点映射为与所述指定场景对应的伪图像。

其中，所述预设的特征学习网络是用于对多个所述第二点云方柱中包括的数据点进行特征提取、学习，以映射得到与所述指定场景对应的伪图像。可选地，关于所述特征学习网络的实际形式可根据实际需求进行设定，例如，所述特征学习网络可以采用但不限于基于PointNet++实现的点云处理网络等，本实施例在此不做限制。

S140，将所述伪图像作为预设的候选框生成网络的输入，以对所述伪图像中包括的三维目标进行预测，得到所述指定场景中包含的三维目标对应的边界回归图和/或置信概率图。

其中，所述候选框生成网络是用于提取所述伪图像中不同层级的特征并对提取到的特征进行融合，进而基于融合后的特征进行三维目标的定位和分类，例如，本实施例中是通过S140中的边界回归框和/或置信概率图来表征三维目标的定位和分类结果，例如，至少可以包括三维目标的位置、尺寸、旋转角和类别信息等。

实际应用中，可采用七个参数表示一个三维边界框(x,y,z,l,w,h,θ)，其中，(x,y,z)表示三维边界框的中心坐标值，(l,w,h)表示三维边界框的长、宽、高，θ表示目标绕z轴的旋转角度，(x_p,y_p,z_p,l_p,w_p,h_p,θ_p)表示预测的三维边界框，用(x_g,y_g,z_g,l_g,w_g,h_g,θ_g)表示地面真实的三维边界框。

可选地，前述的候选框生成网络的实际形式本实施例在此不做限制，例如，可根据实际需求对所述侯选框生成网络里面的卷积层、池化层等的数量、连接顺序等进行调整。

在本实施例给出的前述基于深度学习的三维目标检测方法中，通过将获取的指定场景对应的点云数据预处理为多个第一点云方柱，再对每个第一点云方柱中包括的每个数据点进行特征扩展，得到多个第二点云方柱，最后利用预设的特征学习网络和候选框生成网络多个第二点云方柱进行处理，由此，在实现对自动驾场景中的三维目标的检测时，一方面通过点云方柱的划分能够最大地保留空间信息的同时减少计算量，确保后续三维目标检测结果的可靠性，另一方面，通过对点云方柱中的数据点进行特征扩展，能够充分利用数据点自身携带的特征信息，进一步提高三维目标检测结果的可靠性。

如图3所示，为本申请一示例性实施例提供的基于深度学习的三维目标检测方法的流程示意图，该基于深度学习的三维目标检测方法可应用终端设备，具体可由，但不限于终端设备中的硬件或软件执行。请参照图3，基于深度学习的三维目标检测方法可以包括如下步骤。

S310，三维目标检测网络的获取。

其中，三维目标检测网络包括特征学习网络和候选框生成网络。

假设需要进行三维目标检测的场景为自动驾驶场景，那么，可基于自动驾驶场景下计算机视觉评估数据集KITTI进行特征学习网络和候选框生成网络训练与验证。但考虑到KITTI数据集中用于测试的测试集的标签未公开，因此，为了算法之间对比的客观性，可将KITTI数据集中的用于训练的数据集(7481)按照1:1的比例划分为训练集(3712)和验证集(3769)。另外，在进行网络训练时，自动驾驶场景下，待检测的三维目标可以但不限于包括汽车、骑自行车的人和行人三个类别，且每个类别同时可被划分为三个难度等级：容易、中等和困难。

实际实施时，可采用Pytorch深度学习框架在KITTI数据集上对模型进行了160次迭代训练，并采用Adam优化器对模型进行优化，其中学习率初始值为0.002，衰减率为0.8，每18750次迭代衰减一次。应注意的是，用于目标检测网络训练的数据为经预处理和特征扩展后的第二点云方柱，且三维目标检测网络中采用的激活函数均是ReLU，即

需要理解的是，关于如何基于KITTI数据集进行特征学习网络和候选框生成网络的训练不涉及本申请的发明点，因此对此不进行详细描述。此外，本实施中，除了可使用Pytorch深度学习框架之外，还可使用tensorflow、caffe等深度学习框架等。

需要强调的是，在完成对特征学习网络和候选框生成网络的训练后，可基于分类损失(即焦点损失)函数、边界框回归损失函数(如SmoothL1损失)以及三维广义交并比损失函数实现网络训练，其中，三维广义交并比损失是用于计算被判定为正的边界框的损失。下面分别对三种损失函数进行简单介绍。

(1)分类损失函数可以为L_cls＝FL(p_τ)＝-α_τ(1-p_τ)^γlog(p_τ)，其中，α_t和γ均是常数，p_t表示预测为存在三维目标的概率。

(2)边界框回归损失函数，考虑到本实施例中可采用用七个参数表示一个三维边界框(x,y,z,l,w,h,θ)，其中，(x,y,z)表示三维边界框的中心坐标值，(l,w,h)表示三维边界框的长、宽、高，θ表示目标绕z轴的旋转角度。若用(x_p,y_p,z_p,l_p,w_p,h_p,θ_p)表示预测的三维边界框，用(x_g,y_g,z_g,l_g,w_g,h_g,θ_g)表示地面真实的三维边界框，那么，所要回归的目标参数可以表示为：

θ_r＝θ_g-θ_p。

其中，

基于此，边界框回归损失函数可被表示为L_reg＝∑_{e∈(x,y,z,l,w,h)}SmoothL1(e_r)+SmoothL1(sinθ_r)；其中，

e取值为x、y、z、l、w、h。

(3)三维广义交并比损失可以表示为：L_3DGIoU＝1-GIoU_3D，

其中，V_I表示预测的三维边界框和真实的三维边界框相交部分的体积，V_u表示预测的三维边界框和真实的三维边界框相并的体积，V_c表示能够包围预测的三维边界框和真实的三维边界框的最小包围框的体积。

需要注意的是，对于被判定为正样本的三维边界框，本实施例中采用三维广义交并比损失是优化边界框的回归，使预测的三维边界框更加精准，提高目标定位的精度。

S320，在获取到指定场景对应的点云数据的情况下，对所述点云数据进行预处理得到多个第一点云方柱。

其中，关于S220的相关描述可参照前述S110的详细描述，本实施例对此不再赘述。

另外，本申请的一个或多个实施例中，在执行S330之前，考虑到点云具有分布不规则的特性，如近密远疏等，因此，为了降低第一点云方柱中的数据点的数量偏差，可将每个第一点云方柱内的数据点的数量控制在一阈值(如30个等)内。换言之，在执行S340之前，可对各第一点云方柱内的数据点的数量进行处理，以使得每个第一点云方柱内的数据点的数量被控制在一阈值(如30个等)内。

具体地，对于每个所述第一点云方柱，在所述第一点云方柱中包括的数据点的数量大于阈值的情况下，对所述大于阈值的第一点云方柱中的数据点进行随机下采样以丢弃部分数据点，直到所述第一点云方柱中的数据点的数量等于所述阈值。

在所述第一点云方柱中包括的数据点的数量小于阈值时，对所述小于所述阈值的第一点云方柱进行数据点填充，直到所述第一点云方柱中的数据点的数量等于所述阈值。可选地，在进行数据点填充时，可使用“0”进行填充，本实施例对此不做限制。

S330，对每个所述第一点云方柱中包括的数据点进行特征扩展，得到多个第二点云方柱。

其中，关于S230的相关描述可参照前述S120的详细描述，本实施例对此不再赘述。

S340，将所述多个第二点云方柱作为预设的特征学习网络的输入，以提取所述多个第二点云方柱中的点云特征，并基于所述点云特征将各数据点映射为与所述指定场景对应的伪图像。

其中，S340中的相关描述除可参照前述S130的详细描述之外，作为一种可能的实现方式，请结合参阅图4，所述预设的特征学习网络至少可以包括依次连接的集合抽象层、残差预测层、全连接层和最大池化层，其中，S340中给出的伪图像的映射过程可以如下(1)-(4)中所示。

(1)将所述多个第二点云方柱作为所述集合抽象层的输入，以分别对各所述第二点云方柱中包括的数据点进行特征聚合得到多个关键特征点，以及各所述关键特征点的第一坐标矩阵以及第一特征矩阵。

示例性地，请集合参阅图5，所述集合抽象层可采用最远点采样算法对各所述第二点云方柱内的数据点(如图5中的“N×3”)进行迭代采样，以获得M个(如10个等)采样点，再分别查找这M个采样点的邻域数据点(如K个邻域数据点)，并提取各邻域数据点的点云特征。其中，提取到的各邻域数据点的点云特征聚合至M个采样点，得到M个关键特征点，从而降低三维目标检测过程的数据处理量。实际应用中，可将各关键特征点的第一坐标矩阵记为[M×3]、第一特征矩阵记为[M×C]，其中，M表示采样点的数量，C表示特征的维度。另外，图5中所示的N表示第二点云方柱内的数据点的数量，K表示近邻域点的数量。

(2)将各所述关键特征点的第一坐标矩阵以及第一特征矩阵作为所述残差预测层的输入，分别计算得到各所述关键特征点的空间偏移量和特征偏移量，将关键特征点对应的所述空间偏移量与第一坐标矩阵相加得到第二坐标矩阵、特征偏移量与第一特征矩阵相加得到第二特征矩阵，并对所述第二坐标矩阵和所述第二特征矩阵进行拼接。

示例性地，参阅图5，空间偏移量和特征偏移量是残差预测层通过学习输入的各关键特征点的特征得到。另外，第一坐标矩阵和第二坐标矩阵具有相同的维度，如均为[M×3]，第一特征矩阵和第二特征矩阵具有相同的维度，如均为[M×C]。应注意，在进行特征相加时，可将第一坐标矩阵和第一特征矩阵分别与对应的残差(如空间偏移量和特征偏移量)进行逐点叠加，并将坐标与特征一一拼接。

本实施例中，通过残差预测层的引入以对关键特征点的空间坐标残差和特征残差进行预测，能够消除点云特征存在的偏差，从而提高三维目标检测结果的准确性。

(3)将所述残差预测层输出的拼接结果作为所述全连接层的输入，以对所述拼接结果中包括的特征点进行处理，如特征升维等

(4)将所述全连接层的输出作为最大池化层的输入，以得到所述指定场景对应的伪图像。

示例性地，结合参阅图5，在(3)和(4)中，使用全连接层对输入的拼接结果(也即采样点特征)进行再学习，并使用一个最大池化层以获得体素内数据点所包含的最显著的特征，例如，假设存在10个64维的方柱特征项向量，经所述最大池化层后可以得到1个64维的向量，该向量中每一个通道的取值均是这10个向量对应通道的最大值。也即，经所述最大池化层得到的所述指定场景的伪图像为一个C_out维的图像，如，如果M＝10，C_out＝64，那么，伪图像可以为352×400×64的伪图像，其中352×400图像的尺寸，64是每个像素点的通道数。

需要理解的是，本实施例在基于预设的特征学习网络得到伪图像的过程可以是但不限于前述(1)-(4)中给出的实现过程，另外，图5中所述的多层感知层可以理解为全连接层。

S350，将所述伪图像作为预设的候选框生成网络的输入，以对所述伪图像中包括的三维目标进行预测，得到所述指定场景中包含的三维目标对应的边界回归图和/或置信概率图。

其中，S350中的相关描述除可参照前述S140的详细描述之外，作为一种可能的实现方式，预设的候选框生成网络至少可以包括骨网和头网。基于此，S350中给出的将所述伪图像作为预设的候选框生成网络的输入，以预测得到所述指定场景中包含的三维目标对应的边界回归图和/或置信概率图的实现过程可以如下(1)-(2)中所示。

(1)将所述伪图像作为所述骨网的输入，以对所述伪图像进行多尺度特征融合，得到目标特征图。

其中，本实施例采用的骨网可以由一系列残差网络(或卷积层)构成，以用于避免由于网络加深带来的梯度消失或梯度爆炸。示例性地，考虑到低级特征抽象层次低，具有较高的分辨率，含有更多的细节特征；而高级特征图抽象层次高，分辨率较低，含有更多的语义信息。换言之，对于三维目标检测任务而言，低层级的细节特征有助于目标位置的估计，高层级的语义信息有助于结合场景，更好的理解目标。因此，本实施例给出的骨网可以包括特征融合层以及依次连接的多个残差网络，每个残差网络中可以包括一层步长为2的卷积层和R个(R＝2或R＝4)残差块(Residualblock)。本实施例中采用残差块代替单调的卷积层，能够避免网络加深带来的梯度消失或梯度爆炸问题。可选地，残差块可以但不限于由两层卷积核大小为1×1的卷积层组成。

实际应用中，前述的将所述伪图像作为所述骨网的输入，以对所述伪图像进行多尺度特征融合，得到目标特征图的过程可以包括(11)-(14)。

(11)将所述伪图像作为第一残差网络的输入，以通过所述第一残差网络对所述伪图像中包括的特征进行下采样，得到具有第一尺度的第一特征图，所述第一残差网络为所述依次连接的多个残差网络中的第一个残差网络。

(12)将所述具有第一尺度的第一特征图作为与所述第一残差网络相邻的第二残差网络的输入，以通过所述第二残差网络对所述具有第一尺度的第一特征图进行下采样，得到具有第二尺度的第一特征图。

(13)将所述第二残差网络作为第一残差网络，重复执行(2)，直到基于所述多个残差网络得到多个具有不同尺度的第一特征图，所述第一特征图与所述残差网络一一对应。

(14)将所述伪图像以及具有不同尺度的多个所述第一特征图作为所述特征融合层的输入，以分别对所述伪图像以及多个所述具有不同尺度的第一特征图进行卷积或反卷积，得到多个具有相同尺度的第二特征图，并对多个所述第二特征图进行特征融合，得到所述目标特征图。

示例性地，请结合参阅图6，在前述(11)-(14)中给出的实现过程中，假设骨网包括特征融合层C、第一残差网络S1、第二残差网络S2和第三残差网络S3，S1中包括两个残差块，S2和S3中均包括4个残差块，输入的伪图像的尺寸为I×J×C_in，那么。在将伪图像输入S1后，经过一层卷积核为3×3、步长为2的卷积操作后，得到尺寸为I/2×J/2×C₁特征图，该尺寸为I/2×J/2×C₁特征图再经两个残差块，输出尺寸为I/2×J/2×C₁的第一特征图，其中，残差块的使用能够避免网络加深引起的梯度消失或者爆炸。

同时，将尺寸为I/2×J/2×C₁的第一特征图输入S2，经过一层卷积核大小为3×3、步长为2的卷积操作后，得到尺寸为I/4×J/4×C₂的特征图，而后经过四个残差块，输出尺寸为I/4×J/4×C₂的第一特征图。

同时，将尺寸为I/4×J/4×C₂的第一特征图输入S3，经过一层卷积核大小为3×3、步长为2的卷积操作后，得到尺寸为I/8×J/8×C₃的特征图，而后经过四个残差块，输出尺寸为I/8×J/8×C₃的第一特征图。

最后，将得到的3个尺度不同的第一特征图以及伪图像共计4个不同尺度的特征图输入特征融合层C中，该特征融合层C通过步长不同的卷积或反卷积对4个不同尺度的特征图进行处理后，获得4个相同尺寸的第二特征图(I/2×J/2×C₀)，并将4个第二特征图进行横向拼接得到目标特征图，从而完成多尺度特征融合。

由前述描述可知，本实施例中基于前述的骨网在三维目标检过程中引入了多尺度特征融合机制，通过卷积层和残差块将输入的特征图(即伪图像)重塑为不同层级的具有不同尺度的特征图，如二分之一、四分之一和八分之一等，使得每个像素的感受野增加，再采用步长不同的卷积或反卷积获得相同尺寸的特征图并对其进行横向拼接，完成特征融合，减少了数据信息在神经网络传播过程中的丢失，确保了三维目标检测结果的准确性,其中，感受野，其定义是卷积神经网络每一层输出的特征图上一个像素点在输入图片上映射的区域大小。

(2)将所述目标特征图作为所述头网的输入，以对所述目标特征图进行目标边界框和目标类别预测，得到所述指定场景中包含的三维目标对应的边界回归图和/或置信概率图。

示例性地，继续参阅图6，在输入至头网中的目标特征图的尺寸为I/2×J/2×512的情况下，前述的边界回归图的尺寸可以为I/2×J/2×14、置信概率图的尺寸为可以为I/2×J/2×2。

图7是根据一示例性实施例示出的一种应用于终端设备的基于深度学习的三维目标检测装置700框图。该基于深度学习的三维目标检测装置700应用于终端设备，参照图7，装置700包括预处理模块710、扩展模块720、特征学习模块730和目标预测模块740。

预处理模块710，用于在获取到指定场景对应的点云数据的情况下，对所述点云数据进行预处理得到多个第一点云方柱。

扩展模块720，用于分别对每个所述第一点云方柱中包括的每个数据点进行特征扩展，得到多个完成特征扩展后的第二点云方柱。

特征学习模块730，用于将所述多个第二点云方柱作为预设的特征学习网络的输入，以提取所述多个第二点云方柱中的点云特征，并基于所述点云特征将各数据点映射为与所述指定场景对应的伪图像。

目标预测模块740，用于将所述伪图像作为预设的候选框生成网络的输入，以对所述伪图像中包括的三维目标进行预测，得到所述指定场景中包含的三维目标对应的边界回归图和/或置信概率图。

关于上述实施例中的装置700，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

请参阅图8，为根据一示例性实施例提供的一种终端设备800的框图，该终端设备800可至少包括处理器810，用于存储处理器810可执行指令的处理器820。其中，处理器810被配置为执行指令，以实现如上述实施例中的报文处理方法的全部步骤或部分步骤。

处理器810、处理器820之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

其中，处理器810用于读/写存储器中存储的数据或程序，并执行相应地功能。

处理器820用于存储程序或者数据，如存储处理器810可执行指令。该处理器820可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read OnlyMemory，ROM)，可编程只读存储器(Programmable Read-Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

进一步，作为一种可能的实现方式，终端设备800还可包括电源组件、多媒体组件、音频组件、输入/输出(I/O)接口、传感器组件以及通信组件等。

电源组件为终端设备800的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源、以及其他与为终端设备800生成、管理和分配电力相关联的组件。

多媒体组件包括在终端设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件包括一个前置摄像头和/或后置摄像头。当终端设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风(MIC)，当终端设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在处理器820或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。

I/O接口为处理组件和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件包括一个或多个传感器，用于为终端设备800提供各个方面的状态评估。例如，传感器组件可以检测到终端设备800的打开/关闭状态，组件的相对定位，例如组件为终端设备800的显示器和小键盘，传感器组件还可以检测终端设备800或终端设备800一个组件的位置改变，用户与终端设备800接触的存在或不存在终端设备800方位或加速/减速和终端设备800的温度变化。传感器组件可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件被配置为便于终端设备800和其他设备之间有线或无线方式的通信。终端设备800可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，终端设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

应当理解的是，图8所示的结构仅为终端设备800的结构示意图，该终端设备800还可包括比图8中所示更多或者更少的组件，或者具有与图8所示不同的配置。图8中所示的各组件可以采用硬件、软件或其组合实现。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的处理器820，上述指令可由终端设备800的处理器810执行以完成上述报文处理方法。例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于深度学习的三维目标检测方法，其特征在于，包括：

在获取到指定场景对应的点云数据的情况下，对所述点云数据进行预处理得到多个第一点云方柱；

分别对每个所述第一点云方柱中包括的数据点进行特征扩展，得到多个完成特征扩展后的第二点云方柱；

将所述多个第二点云方柱作为预设的特征学习网络的输入，以提取所述多个第二点云方柱中的点云特征，并基于所述点云特征将各数据点映射为与所述指定场景对应的伪图像；

将所述伪图像作为预设的候选框生成网络的输入，以对所述伪图像中包括的三维目标进行预测，得到所述指定场景中包含的三维目标对应的边界回归图和/或置信概率图。

2.根据权利要求1所述的基于深度学习的三维目标检测方法，其特征在于，所述特征学习网络包括集合抽象层、残差预测层、全连接层和最大池化层；

所述将所述多个第二点云方柱作为预设的特征学习网络的输入，以提取所述多个第二点云方柱中的点云特征，并基于所述点云特征将各数据点映射为与所述指定场景对应的伪图像，包括：

将所述多个第二点云方柱作为所述集合抽象层的输入，以分别对各所述第二点云方柱中包括的数据点进行特征聚合得到多个关键特征点，以及各所述关键特征点的第一坐标矩阵以及第一特征矩阵；

将各所述关键特征点的第一坐标矩阵以及第一特征矩阵作为所述残差预测层的输入，分别计算得到各所述关键特征点的空间偏移量和特征偏移量，将关键特征点对应的所述空间偏移量与第一坐标矩阵相加得到第二坐标矩阵、特征偏移量与第一特征矩阵相加得到第二特征矩阵，并对所述第二坐标矩阵和所述第二特征矩阵进行拼接；

将所述残差预测层输出的拼接结果作为所述全连接层的输入，以对所述拼接结果中包括的特征点进行分类；

将所述全连接层的输出作为所述最大池化层的输入，以映射得到所述指定场景对应的伪图像。

3.根据权利要求1所述的基于深度学习的三维目标检测方法，其特征在于，所述预设的候选框生成网络包括骨网和头网；

所述将所述伪图像作为预设的候选框生成网络的输入，以对所述伪图像中包括的三维目标进行预测，得到所述指定场景中包含的三维目标对应的边界回归图和/或置信概率图，包括：

将所述伪图像作为所述骨网的输入，以对所述伪图像进行多尺度特征融合，得到目标特征图；

将所述目标特征图作为所述头网的输入，以预测得到所述指定场景中包含的三维目标对应的边界回归图和/或置信概率图。

4.根据权利要求3所述的基于深度学习的三维目标检测方法，其特征在于，所述骨网包括特征融合层以及依次连接的多个残差网络；

所述将所述伪图像作为所述骨网的输入，以对所述伪图像进行多尺度特征融合，得到目标特征图，包括：

(1)将所述伪图像作为第一残差网络的输入，以通过所述第一残差网络对所述伪图像中包括的特征进行下采样，得到具有第一尺度的第一特征图，所述第一残差网络为所述依次连接的多个残差网络中的第一个残差网络；

(2)将所述具有第一尺度的第一特征图作为与所述第一残差网络相邻的第二残差网络的输入，以通过所述第二残差网络对所述具有第一尺度的第一特征图进行下采样，得到具有第二尺度的第一特征图；

(3)将所述第二残差网络作为第一残差网络，重复执行(2)，直到基于所述多个残差网络得到多个具有不同尺度的第一特征图，所述第一特征图与所述残差网络一一对应；

(4)将所述伪图像以及具有不同尺度的多个所述第一特征图作为所述特征融合层的输入，以分别对所述伪图像以及多个所述具有不同尺度的第一特征图进行卷积或反卷积，得到多个具有相同尺度的第二特征图，并对多个所述第二特征图进行特征融合，得到所述目标特征图。

5.根据权利要求4所述的基于深度学习的三维目标检测方法，其特征在于，每个所述残差网络包括一个卷积层和多个残差块，所述残差块包括至少两个卷积层。

6.根据权利要求1所述的基于深度学习的三维目标检测方法，其特征在于，所述对每个所述第一点云方柱中包括的数据点进行特征扩展，得到多个第二点云方柱，包括：

针对所述第一点云方柱中的每个数据点，将所述数据点由特征[x,y,z,r]扩展为特征[x,y,z,r,x-Δx,y-Δy,z-Δz,x-x_c,y-y_c]，其中，[r]表示所述数据点自身的反射强度值，[x,y,z]表示所述数据点在三维空间中的坐标值，[Δx,Δy,Δz]表示所述第一点云方柱内所有点的坐标均值，[x_c,y_c,Δ_c]表示所述第一点云方柱内在鸟瞰图方向投影的中心坐标值。

7.根据权利要求1所述的基于深度学习的三维目标检测方法，其特征在于，所述对每个所述第一点云方柱中包括的数据点进行特征扩展，得到多个第二点云方柱，所述方法还包括：

对于每个所述第一点云方柱，在所述第一点云方柱中包括的数据点的数量大于阈值的情况下，对所述大于阈值的第一点云方柱中的数据点进行下采样，直到所述第一点云方柱中的数据点的数量等于所述阈值；

在所述第一点云方柱中包括的数据点的数量小于阈值时，对所述小于所述阈值的第一点云方柱进行数据点填充，直到所述第一点云方柱中的数据点的数量等于所述阈值。

8.一种基于深度学习的三维目标检测装置，其特征在于，包括：

预处理模块，用于在获取到指定场景对应的点云数据的情况下，对所述点云数据进行预处理得到多个第一点云方柱；

扩展模块，用于分别对每个所述第一点云方柱中包括的数据点进行特征扩展，得到多个完成特征扩展后的第二点云方柱；

特征学习模块，用于将所述多个第二点云方柱作为预设的特征学习网络的输入，以提取所述多个第二点云方柱中的点云特征，并基于所述点云特征将各数据点映射为与所述指定场景对应的伪图像；

目标预测模块，用于将所述伪图像作为预设的候选框生成网络的输入，以对所述伪图像中包括的三维目标进行预测，得到所述指定场景中包含的三维目标对应的边界回归图和/或置信概率图。

9.一种终端设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于深度学习的三维目标检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于深度学习的三维目标检测方法的步骤。