CN112613378B

CN112613378B - 3d目标检测方法、系统、介质及终端

Info

Publication number: CN112613378B
Application number: CN202011495255.1A
Authority: CN
Inventors: 康志恒; 王若谷; 李柠
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2023-03-28
Anticipated expiration: 2040-12-17
Also published as: CN112613378A

Abstract

本发明提供一种3D目标检测方法、系统、介质及终端；所述方法包括以下步骤：获取点云数据，并对点云数据进行质量优化；对点云数据进行特征提取，获取点云特征图；将点云特征图输入至一3D目标检测模型中，对3D目标检测模型进行训练，获取训练好的3D目标检测模型，以基于训练好的3D目标检测模型，实现目标检测；3D目标检测模型包括区域候选网络和检测头；本发明考虑了小目标难以检测的情况和仅仅针对点云空间的列方向进行特征编码，简洁高效；通过在不同方向上进行尺度变化，使网络更好的学习长宽比不一致的目标物体；最后基于区域候选网络进行分类和回归，得到物体的类别概率、坐标信息和方向角概率。

Description

3D目标检测方法、系统、介质及终端

技术领域

本发明涉及3D目标检测技术领域，特别是涉及一种3D目标检测方法、系统、介质及终端。

背景技术

随着深度学习技术的发展，目标检测技术已经非常成熟，被大量应用于工业界，但常规的目标检测方法都是对RGB图像进行2D目标检测，其结果已无法满足无人驾驶、机器人、增强现实等领域的需求，因此，3D目标检测因其可获得物体长宽高及偏转角等信息的优势，逐渐成为当前的研究热点。

一般而言，可以按照输入数据类型将3D目标检测分为基于单目图像的方法、基于多视图图像的方法和基于点云的方法；其中，基于单目图像的方法，对于特定类型的目标，由于其具有较强的先验信息，因此可依靠给真实物体做标注，结合机器学习的方法来估计物体在真实世界中的尺寸和位置；多视图可以得到比单目图像更强的空间约束关系，再结合已有的物体先验信息，可能得到更准确的结果；大多数最新的3D对象检测方法都是使用雷达获得的点云数据来作为数据载体；点云目标检测是一种非常重要的3D场景理解任务，尤其在无人驾驶领域，起着至关重要的作用；传统的2D目标检测方法，是对RGB图像进行物体类别的识别和图像中识别的最小包围框，2D图像的空间信息表达能力有限，而点云数据包含空间的深度信息，语义丰富，简单有效，非常适用于大规模点云场景下的3D目标检测任务；3D点云目标检测对点云场景中的3D物体进行识别，并评估3D点云物体的坐标信息、旋转角和3D尺寸。

综上所述，目前3D目标检测算法还不是很成熟，虽然检测算法一直在进步，但综合精度、检测速度、成本仍没有达到良好的平衡。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种3D目标检测方法、系统、介质及终端，用于解决现有3D目标检测技术存在的精度低及检测速度慢的问题。

为实现上述目的及其他相关目的，本发明提供一种3D目标检测方法，包括以下步骤：获取点云数据，并对所述点云数据进行质量优化；对所述点云数据进行特征提取，获取点云特征图；将所述点云特征图输入至一3D目标检测模型中，对所述3D目标检测模型进行训练，获取训练好的3D目标检测模型，以基于所述训练好的3D目标检测模型，实现目标检测；所述3D目标检测模型包括：区域候选网络和检测头。

于本发明的一实施例中，获取点云数据，并对所述点云数据进行质量优化包括以下步骤：从KITTI数据集中提取出所述点云数据；去除所述点云数据中的离群点；对所述点云数据进行降采样处理，以减少所述点云数据中点的数量。

于本发明的一实施例中，对所述点云数据进行特征提取，获取点云特征图包括以下步骤：定义一点云空间坐标系；根据所述点云数据在所述点云空间坐标系中的分布情况，对所述点云数据进行裁剪；将裁剪后的点云数据的体素堆叠成柱体的列特征；对所述列特征进行不同方向上的尺度变化，以实现对所述点云数据多尺度的特征学习，获取所述点云特征图。

于本发明的一实施例中，还包括：搭建所述3D目标检测模型；其中，搭建所述3D目标检测模型包括：搭建所述区域候选网络；所述区域候选网络包括：至少一卷积层；每一所述卷积层的卷积核的长宽比不同；将所述点云特征图输入至一3D目标检测模型中，对所述3D目标检测模型进行训练，获取训练好的3D目标检测模型包括以下步骤：将所述点云特征图输入至所述区域候选网络中；利用所述卷积层对所述处理后的点云特征图进行卷积处理；对每一层经所述卷积处理后的结果进行特征融合，并将特征融合的结果作为所述区域候选网络的输出；将所述区域候选网络的输出输入至所述检测头中，以获取所述训练好的3D目标检测模型。

于本发明的一实施例中，将所述区域候选网络的输出输入至所述检测头中，以获取所述训练好的3D目标检测模型包括以下步骤：将所述区域候选网络的输出输入至所述检测头中，以使所述检测头对所述区域候选网络的输出进行物体分类预测、3D边界框回归及方向角预测，获取3D预测框；定义所述3D预测框与所述真实框之间的偏差函数，获取偏差值；所述偏差值用来表征所述3D预测框与所述真实框之间的偏差；根据所述偏差值修正所述3D目标检测模型，直至所述偏差值收敛，训练完成，获取所述训练好的3D目标检测模型。

于本发明的一实施例中，所述检测头对所述区域候选网络的输出进行物体分类预测、3D边界框回归及方向角预测，获取3D预测框包括以下步骤：所述检测头在所述区域候选网络的输出的每个单位上定义两个角度相互垂直的锚框；所述锚框的大小固定；所述检测头对每一所述锚框分配一分类目标的one-hot向量、一3D边界框回归目标的七维向量及一方向角one-hot预测向量；one-hot向量指一个锚框只有一个物体类别被指定；所述3D边界框回归目标的七维向量作为所述3D预测框；所述七维向量用(x,y,z,w,l,h,θ)来表示；其中，(x,y,z)表示框的中心位置坐标；w、l、h分别表示框的宽度、长度及高度；θ表示偏航角；所述偏差函数包括：边界框中心坐标位置的偏差、宽长高的偏差及偏航角的偏差；其中，所述边界框中心坐标位置的偏差定义为：

宽长高的偏差定义为：

偏航角的偏差定义为：

θ_t＝θ_g-θ_a；

下标g、a分别代表所述真实框和所述3D预测框；

表示所述锚框底部的对角线。

于本发明的一实施例中，还包括：计算所述锚框与所述真实框的交并比值，并将所述交并比值与预设交并比阈值进行比较；若所述交并比值大于第一预设交并比阈值，则将所述锚框分配给真实框；若所述交并比值小于第二预设交并比阈值，则将所述锚框分配给背景；若所述交并比值在所述第一预设交并比阈值和所述第二预设交并比阈值之间，则将所述锚框忽略。

本发明提供一种3D目标检测系统，包括：数据处理模块、特征提取模块及目标检测模块；所述数据处理模块用于获取点云数据，并对所述点云数据进行质量优化；所述特征提取模块用于对所述点云数据进行特征提取，获取点云特征图；所述目标检测模块用于将所述点云特征图输入至一3D目标检测模型中，对所述3D目标检测模型进行训练，获取训练好的3D目标检测模型，以基于所述训练好的3D目标检测模型，实现目标检测；所述3D目标检测模型包括：区域候选网络和检测头。

本发明提供一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的3D目标检测方法。

本发明提供一种终端，包括：处理器及存储器；所述存储器用于存储计算机程序；所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行上述的3D目标检测方法。

如上所述，本发明所述的3D目标检测方法、系统、介质及终端，具有以下有益效果：

与现有技术相比，本发明考虑了小目标难以检测的情况和仅仅针对点云空间的列方向进行特征编码，简洁高效；通过在不同方向上进行尺度变化，使网络更好的学习长宽比不一致的目标物体；最后基于区域候选网络进行分类和回归，得到物体的类别概率、坐标信息和方向角概率。

附图说明

图1显示为本发明的3D目标检测方法于一实施例中的流程图。

图2显示为本发明的获取点云数据，并对点云数据进行质量优化于一实施例中的流程图。

图3显示为本发明的获取点云特征图于一实施例中的流程图。

图4显示为本发明的点云空间坐标系于一实施例中的结构示意图。

图5显示为本发明的列特征于一实施例中的结构示意图。

图6显示为本发明的多尺度的柱体特征编码于一实施例中的原理图。

图7显示为本发明的将点云特征图输入至一3D目标检测模型中，对3D目标检测模型进行训练，获取训练好的3D目标检测模型于一实施例中的流程图。

图8显示为本发明的区域候选网络于一实施例中的工作原理图。

图9显示为本发明的将区域候选网络的输出输入至检测头中，以获取训练好的3D目标检测模型于一实施例中的流程图。

图10显示为本发明的检测头对区域候选网络的输出进行物体分类预测、3D边界框回归及方向角预测，获取3D预测框于一实施例中的流程图。

图11显示为本发明的3D目标检测系统于一实施例中的结构示意图。

图12显示为本发明的终端于一实施例中的结构示意图。

标号说明

111 数据处理模块

112 特征提取模块

113 目标检测模块

121 处理器

122 存储器

S1～S3 步骤

S11～S13 步骤

S21～S24 步骤

S31～S34 步骤

S341～S343 步骤

S3411～S3412 步骤

具体实施方式

以下通过特定的具体实施例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本发明的3D目标检测方法、系统、介质及终端，与现有技术相比，本发明考虑了小目标难以检测的情况和仅仅针对点云空间的列方向进行特征编码，简洁高效；通过在不同方向上进行尺度变化，使网络更好的学习长宽比不一致的目标物体；最后基于区域候选网络进行分类和回归，得到物体的类别概率、坐标信息和方向角概率。

如图1所示，于一实施例中，本发明的3D目标检测方法包括以下步骤：

步骤S1、获取点云数据，并对所述点云数据进行质量优化。

如图2所示，于一实施例中，获取点云数据，并对所述点云数据进行质量优化包括以下步骤：

步骤S11、从KITTI数据集中提取出所述点云数据。

需要说明的是，该KITTI数据集是由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办，是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集，KITTI包含市区、乡村和高速公路等场景采集的真实图像数据，每张图像中最多达15辆车和30个行人，还有各种程度的遮挡与截断。

具体地，该KITTI数据集作为事先获取的已知数据集，然后，从该KITTI数据集中提取出该点云数据。

需要说明的是，点云数据(point cloud data)是指在一个三维坐标系统中的一组向量的集合；扫描资料以点的形式记录，每一个点包含有三维坐标，有些可能含有颜色信息(RGB)或反射强度信息(Intensity)；其中，颜色信息通常是通过相机获取彩色影像，然后将对应位置的像素的颜色信息(RGB)赋予点云中对应的点。强度信息的获取是激光扫描仪接收装置采集到的回波强度，此强度信息与目标的表面材质、粗糙度、入射角方向，以及仪器的发射能量，激光波长有关。

步骤S12、去除所述点云数据中的离群点。

优选地，采用半径离群点移除滤波算法去除该点云数据中的离群点。

需要说明的是，在点云数据中，用户可以定义每个点的一定半径圆的范围内要有足够多近邻；具体地，通过确定了近邻点的数量后，保留相同数量的近邻点在该半径圆内，其它的点均删除。

步骤S13、对所述点云数据进行降采样处理，以减少所述点云数据中点的数量。

优选地，采用体素化网格降采样算法，对该点云数据进行降采样处理。

需要说明的是，该体素化网格降采样算法的基本原理是对点云进行网格划分，落在每个小立方块区域中的点的重心就代表网格中的所有点，因此通过控制网格边长就能够控制降采样的点数。

步骤S2、对所述点云数据进行特征提取，获取点云特征图。

如图3所示，于一实施例中，对所述点云数据进行特征提取，获取点云特征图包括以下步骤：

步骤S21、定义一点云空间坐标系。

如图4所示，于一实施例中，以雷达的正前方为+z轴，垂直于雷达的右侧为+y轴，其顶部为+x轴，据此定义该点云空间坐标系，沿着y，z，x轴的方向，依次划分距离[-40,40]，[0,70.4]，[-3,1]，单位是米(m)，把空间裁剪为一个80×70.4×4的长方体，形状规整，有利于后续步骤中对“列特征”的学习。

步骤S22、根据所述点云数据在所述点云空间坐标系中的分布情况，对所述点云数据进行裁剪。

需要说明的是，由于后续需要将点云特征图输入至3D目标检测模型中，所以，对于该点云特征图的尺寸需要满足该3D目标检测模型对其输入数据的尺寸要求。

步骤S23、将裁剪后的点云数据的体素堆叠成柱体的列特征。

如图5所示，所谓“列特征”，就是在列方向，也就是垂直方向上的特征学习，将体素堆叠成柱体(一列)，这样做得好处是仅仅在列方向上进行特征处理，不用考虑不同方向的体素的特征融合问题，通过学习“列特征”，将得到一张整体的2D特征图，方便特征学习，这种特征生成的方法，将其定义为柱体特征编码(Pillar Feature Encode，PFE)。

需要说明的是，上述列特征生成的方法的关键就在于体素的边长v_x大小的设定，v_x设置的过大或过小，都会影响检测结果，v_x过大，学到的特征不具有代表性，使区域候选网络模型易陷入到过拟合的情况中，v_x过小，学到的特征琐碎稀疏，质量较低，因此，为了克服参数设置困难的问题，提出一种多尺度的柱体特征编码(Multi Scale Pillar FeatureEncode，MSPFE)。

步骤S24、对所述列特征进行不同方向上的尺度变化，以实现对所述点云数据多尺度的特征学习，获取所述点云特征图。

如图6所示，将裁剪后的点云数据沿z轴负方向，向x-y平面进行投影，设置体素单元格(正方体)的长度为v_x，长度为v_x，高度为4的柱体里的点的个数阈值设置为T_the，以每一个体素单元格的中心依次建立长度为v_x，2v_x，3v_x的柱体，每一个柱体内的点的个数的阈值依次为T_the，2T_the，3T_the，设置T_the＝35。

需要说明的是，考虑到点云是非常稀疏的，因此不需要对图6里所示的每一个位置进行检索，故可设置点云空间的柱体数量P，首先根据指定的柱体数量P，预先分配缓存区，紧接着遍历点云，并将点云分配给相关联的柱体，并保存柱体坐标(柱体中心的位置坐标)以及每个柱体内的点数；在遍历迭代过程中，基于哈希表检查柱体的存在，若与点有关的柱体存在，则柱体数量加一，一旦柱体数量达到指定的限制，迭代过程将停止，否则在剩余的柱体内补充零值；每一个有意义的位置将被遍历3次，设置v_x＝0.3m，因此在三种尺度下，80×70.4×4的点云空间依次最多有62400、15600、6934个柱体，因此对应的柱体数量P依次设置为30000、10000、4000；在每个柱体内，采用简化的PyramNet方法来提取特征；具体地，首先，将柱体内的点作为输入，经过GEM、MLP、最大池化层(Max Pooling)、批归一化层(BatchNorm)、激活函数层(ReLU)，最后经过全连接层(Fully Connected Network)输出一个64×496×432的特征图(即点云特征图)，作为3D的区域候选网络(3D RPN)的输入。

步骤S3、将所述点云特征图输入至一3D目标检测模型中，对所述3D目标检测模型进行训练，获取训练好的3D目标检测模型，以基于所述训练好的3D目标检测模型，实现目标检测。

需要说明的是，所述3D目标检测模型包括区域候选网络和检测头。

于一实施例中，在步骤S3之前，还包括搭建所述3D目标检测模型。

具体地，搭建所述3D目标检测模型包括搭建3D的所述区域候选网络。

需要说明的是，3D的所述区域候选网络包括至少一卷积层，且每一所述卷积层的卷积核的长宽比不同。

需要说明的是，3D的区域候选网络(3D RPN)的思路来自特征金字塔网络(FeaturePyramid Network，FPN)，特征金字塔网络(Feature Pyramid Network，FPN)是小目标检测的有效方法，但是一般的FPN是对特征图的长和宽进行同比例的缩小，比例固定，对各种长宽比不一致的目标来说，从方法上进行限制了网络的灵活性；本发明考虑设置不同大小和长宽比例的目标，设计3D RPN，使用卷积核长宽比不同的卷积层依次进行卷积，使每一层对应一种长宽比的目标，从而使网络对小目标和不同长宽比的物体适应性更强。

如图7所示，于一实施例中，将所述点云特征图输入至一3D目标检测模型中，对所述3D目标检测模型进行训练，获取训练好的3D目标检测模型包括以下步骤：

步骤S31、将所述点云特征图输入至所述区域候选网络中。

步骤S32、利用所述卷积层对所述点云特征图进行卷积处理。

步骤S33、对每一层经所述卷积处理后的结果进行特征融合，并将特征融合的结果作为所述区域候选网络的输出。

如图8所示，该区域候选网络的输入为MSPFE的输出64×496×432(即点云特征图)，在卷积层—(0,1)层，长度减半，宽度不变；在卷积层—(1,0)层，长度不变，宽度减半；在卷积层—(1,1)层，长度和宽度都减半，最后对每一层都进行特征融合，得到该区域候选网络的输出为64×248×216。

步骤S34、将所述区域候选网络的输出输入至所述检测头中，以获取所述训练好的3D目标检测模型。

如图9所示，于一实施例中，将所述区域候选网络的输出输入至所述检测头中，以获取所述训练好的3D目标检测模型包括以下步骤：

步骤S341、将所述区域候选网络的输出输入至所述检测头中，以使所述检测头对所述区域候选网络的输出进行物体分类预测、3D边界框回归及方向角预测，获取3D预测框。

如图10所示，于一实施例中，所述检测头对所述区域候选网络的输出进行物体分类预测、3D边界框回归及方向角预测，获取3D预测框包括以下步骤：

步骤S3411、所述检测头在所述区域候选网络的输出的每个单位上定义两个角度相互垂直的锚框。

需要说明的是，所述锚框的大小固定；该锚框是根据KITTI数据集中所有实际标注的大小和中心位置确定的，对于检测目标—车辆，锚框的大小为l×w×h＝1.6m×3.9m×1.56m，以z＝-1m为中心，该区域候选网络的输出为64×248×216，在该输出的每个单位上定义两个角度相互垂直的锚框，因此锚框为248×216×2＝107136个。

于一实施例中，还包括计算所述锚框与所述真实框的交并比值(IoU)，并将所述交并比值与预设交并比阈值进行比较。

具体地，若所述交并比值大于第一预设交并比阈值，则将所述锚框分配给真实框；若所述交并比值小于第二预设交并比阈值，则将所述锚框分配给背景；若所述交并比值在所述第一预设交并比阈值和所述第二预设交并比阈值之间，则将所述锚框在训练该区域候选网络期间忽略，定义为样本难例。

优选地，该第一预设交并比阈值设为0.65，该第二预设交并比阈值设为0.45。

步骤S3412、所述检测头对每一所述锚框分配一分类目标的one-hot向量、一3D边界框回归目标的七维向量及一方向角one-hot预测向量。

需要说明的是，该one-hot向量指一个锚框只有一个物体类别被指定；所述3D边界框回归目标的七维向量作为所述3D预测框。

具体地，所述七维向量用(x,y,z,w,l,h,θ)来表示；其中，(x,y,z)表示框的中心位置坐标；w、l、h分别表示框的宽度、长度及高度；θ表示沿z轴的偏航角，且θ∈[0,90°]。

步骤S342、定义所述3D预测框与所述真实框之间的偏差函数，获取偏差值。

需要说明的是，所述偏差值用来表征所述3D预测框与所述真实框之间的偏差。

具体地，所述偏差函数包括边界框中心坐标位置的偏差、宽长高的偏差及偏航角的偏差。

其中，所述边界框中心坐标位置的偏差定义为：

宽长高的偏差定义为：

偏航角的偏差定义为：

θ_t＝θ_g-θ_a；

下标g、a分别代表所述真实框和所述3D预测框；

表示所述锚框底部的对角线。

步骤S343、根据所述偏差值修正所述3D目标检测模型，直至所述偏差值收敛，训练完成，获取所述训练好的3D目标检测模型。

进一步地，在获取该训练好的3D目标检测模型后，还会利用验证集对该训练好的3D目标检测模型进行验证。

下面通过具体实施例来进一步解释说明对该3D目标检测模型训练及验证的过程。

所有训练过程均使用KITTI雷达点云检测基准数据集，该数据集由同时具有激光雷达点云和图像的样本组成，仅需要在激光雷达点云上训练，但与同时使用激光雷达和图像的融合方法进行比较。

于一实施例中，样本最初分为7481个训练样本和7518个测试样本，在训练过程中，将训练集分为3712个训练样本和3769个验证样本；在KITTI雷达点云检测基准数据集中，3D检测目标包括轿车、卡车、客货车、行人、坐着的人、自行车、有轨电车等等；于本实施例中，只对轿车进行检测，并将训练结果投射到雷达点云中进行可视化展示。

具体地，KITTI数据采集平台包括两个灰度摄像机，2个彩色摄像机，一个Vdlodyne64线3D激光雷达，4个光学镜头以及1个GPS导航系统；训练和测试用到的文件有相机参数文件夹calib(.txt文件)，左侧彩色相机标签文件夹labels_2(.txt格式)，64线雷达点云文件夹velodyne64(.bin格式)和用于可视化的左侧彩色相机图像文件夹image_2(.png格式)；另外，使用soft-NMS方法对3D边界框进行排序筛选。

需要说明的是，所有检测结果均使用官方的KITTI评估检测指标进行测量，这些指标是：鸟瞰图(BirdEyeView，BEV)，3D，平均方向相似度(AverageOrientationSimilarity，AOS)；其中，平均方向相似度AOS评估2D检测平均方向的相似度(在BEV中度量)数据集分为容易、中等和困难三个两个等级，性能指标均为平均精度(Average precision，AP)，只在验证集上进行比较。

进一步地，对于视野中较近的目标车辆，检测效果要好于较远的目标车辆，尽管包裹较远的目标车辆的点云数量较少，但该3D目标检测方法对这种情况依然产生了较好的结果，这就是3D目标检测的优势，同时该3D目标检测方法仅仅利用了雷达点云数据，与LiDAR+图像的方法相比，速度和性能都表现优异，仅仅利用可靠的雷达点云，相比较而言，大大加快了机器的处理速度，是一种非常实用的方法。

需要说明的是，本发明所述的3D目标检测方法的保护范围不限于本实施例列举的步骤执行顺序，凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。

如图11所示，于一实施例中，本发明的3D目标检测系统包括数据处理模块111、特征提取模块112及目标检测模块113。

所述数据处理模块111用于获取点云数据，并对所述点云数据进行质量优化。

所述特征提取模块112用于对所述点云数据进行特征提取，获取点云特征图。

所述目标检测模块113用于将所述点云特征图输入至一3D目标检测模型中，对所述3D目标检测模型进行训练，获取训练好的3D目标检测模型，以基于所述训练好的3D目标检测模型，实现目标检测。

需要说明的是，所述数据处理模块111、所述特征提取模块112及所述目标检测模块113的结构及原理与上述3D目标检测方法中的步骤(步骤S1～步骤S3)一一对应，故在此不再赘述。

需要说明的是，应理解以上系统的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，x模块可以为单独设立的处理元件，也可以集成在上述系统的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述系统的存储器中，由上述系统的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个数字信号处理器(Digital Singnal Processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

本发明的存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述的3D目标检测方法。所述存储介质包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

如图12所示，本发明的终端包括处理器121及存储器122。

所述存储器122用于存储计算机程序；优选地，所述存储器122包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

所述处理器121与所述存储器122相连，用于执行所述存储器122存储的计算机程序，以使所述终端执行上述的3D目标检测方法。

优选地，所述处理器121可以是通用处理器，包括中央处理器(CentralProcessing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(ApplicationSpecific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field ProgrammableGate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

需要说明的是，本发明的3D目标检测系统可以实现本发明的3D目标检测方法，但本发明的3D目标检测方法的实现装置包括但不限于本实施例列举的3D目标检测系统的结构，凡是根据本发明的原理所做的现有技术的结构变形和替换，都包括在本发明的保护范围内。

综上所述，本发明的3D目标检测方法、系统、介质及终端，与现有技术相比，本发明考虑了小目标难以检测的情况和仅仅针对点云空间的列方向进行特征编码，简洁高效；通过在不同方向上进行尺度变化，使网络更好的学习长宽比不一致的目标物体；最后基于区域候选网络进行分类和回归，得到物体的类别概率、坐标信息和方向角概率；所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种3D目标检测方法，其特征在于，包括以下步骤：

获取点云数据，并对所述点云数据进行质量优化；

对所述点云数据进行特征提取，获取点云特征图；

将所述点云特征图输入至一3D目标检测模型中，对所述3D目标检测模型进行训练，获取训练好的3D目标检测模型，以基于所述训练好的3D目标检测模型，实现目标检测；所述3D目标检测模型包括：区域候选网络和检测头；

其中，搭建所述3D目标检测模型包括：

搭建所述区域候选网络；所述区域候选网络包括：至少一卷积层；每一所述卷积层的卷积核的长宽比不同；

将所述点云特征图输入至一3D目标检测模型中，对所述3D目标检测模型进行训练，获取训练好的3D目标检测模型包括以下步骤：

将所述点云特征图输入至所述区域候选网络中；

利用所述卷积层对处理后的点云特征图进行卷积处理；

对每一层经所述卷积处理后的结果进行特征融合，并将特征融合的结果作为所述区域候选网络的输出；

将所述区域候选网络的输出输入至所述检测头中，以获取所述训练好的3D目标检测模型。

2.根据权利要求1所述的3D目标检测方法，其特征在于，获取点云数据，并对所述点云数据进行质量优化包括以下步骤：

从KITTI数据集中提取出所述点云数据；

去除所述点云数据中的离群点；

对所述点云数据进行降采样处理，以减少所述点云数据中点的数量。

3.根据权利要求1所述的3D目标检测方法，其特征在于，对所述点云数据进行特征提取，获取点云特征图包括以下步骤：

定义一点云空间坐标系；

根据所述点云数据在所述点云空间坐标系中的分布情况，对所述点云数据进行裁剪；

将裁剪后的点云数据的体素堆叠成柱体的列特征；

对所述列特征进行不同方向上的尺度变化，以实现对所述点云数据多尺度的特征学习，获取所述点云特征图。

4.根据权利要求1所述的3D目标检测方法，其特征在于，将所述区域候选网络的输出输入至所述检测头中，以获取所述训练好的3D目标检测模型包括以下步骤：

将所述区域候选网络的输出输入至所述检测头中，以使所述检测头对所述区域候选网络的输出进行物体分类预测、3D边界框回归及方向角预测，获取3D预测框；

定义所述3D预测框与真实框之间的偏差函数，获取偏差值；所述偏差值用来表征所述3D预测框与所述真实框之间的偏差；

根据所述偏差值修正所述3D目标检测模型，直至所述偏差值收敛，训练完成，获取所述训练好的3D目标检测模型。

5.根据权利要求4所述的3D目标检测方法，其特征在于，所述检测头对所述区域候选网络的输出进行物体分类预测、3D边界框回归及方向角预测，获取3D预测框包括以下步骤：

所述检测头在所述区域候选网络的输出的每个单位上定义两个角度相互垂直的锚框；所述锚框的大小固定；

所述检测头对每一所述锚框分配一分类目标的one-hot向量、一3D边界框回归目标的七维向量及一方向角one-hot预测向量；one-hot向量指一个锚框只有一个物体类别被指定；所述3D边界框回归目标的七维向量作为所述3D预测框；

所述七维向量用(x,y,z,w,l,h,θ)来表示；其中，(x,y,z)表示框的中心位置坐标；w、l、h分别表示框的宽度、长度及高度；θ表示偏航角；

所述偏差函数包括：边界框中心坐标位置的偏差、宽长高的偏差及偏航角的偏差；其中，所述边界框中心坐标位置的偏差定义为：

宽长高的偏差定义为：

偏航角的偏差定义为：

θ_t＝θ_g-θ_a；

下标g、a分别代表所述真实框和所述3D预测框；

表示所述锚框底部的对角线。

6.根据权利要求5所述的3D目标检测方法，其特征在于，还包括：计算所述锚框与所述真实框的交并比值，并将所述交并比值与预设交并比阈值进行比较；

若所述交并比值大于第一预设交并比阈值，则将所述锚框分配给真实框；

若所述交并比值小于第二预设交并比阈值，则将所述锚框分配给背景；

若所述交并比值在所述第一预设交并比阈值和所述第二预设交并比阈值之间，则将所述锚框忽略。

7.一种3D目标检测系统，其特征在于，包括：数据处理模块、特征提取模块及目标检测模块；

所述数据处理模块用于获取点云数据，并对所述点云数据进行质量优化；

所述特征提取模块用于对所述点云数据进行特征提取，获取点云特征图；

所述目标检测模块用于将所述点云特征图输入至一3D目标检测模型中，对所述3D目标检测模型进行训练，获取训练好的3D目标检测模型，以基于所述训练好的3D目标检测模型，实现目标检测；所述3D目标检测模型包括：区域候选网络和检测头；

其中，搭建所述3D目标检测模型包括：

将所述点云特征图输入至所述区域候选网络中；

利用所述卷积层对所述处理后的点云特征图进行卷积处理；

8.一种存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的3D目标检测方法。

9.一种终端，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行权利要求1至6中任一项所述的3D目标检测方法。