CN110688905A

CN110688905A - 一种基于关键帧的三维物体检测与跟踪方法

Info

Publication number: CN110688905A
Application number: CN201910818311.1A
Authority: CN
Inventors: 黄凯; 郭叙森; 许子潇; 郭思璐
Original assignee: National Sun Yat Sen University
Current assignee: National Sun Yat Sen University
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2020-01-14
Anticipated expiration: 2039-08-30
Also published as: CN110688905B

Abstract

本发明涉及一种基于关键帧的三维物体检测与跟踪方法，通过输入包含点云数据和图像数据的相邻两关键帧,首先使用特征提取网络对数据进行特征提取分别得到特征图，然后将特征图输入候选框提取网络得到两关键帧共享的候选框；之后通过共享候选框截取特征图相应特征进行特征融合，回归得到三维预测框；然后使用共享候选框截取特征图进行特征互相关得到相关特征,回归得到物体三维框在两关键帧的偏移量；通过插值算法得到所有帧的检测结果之后,对所有帧物体框进行关联,得到跟踪结果。本发明利用了流数据的冗余性,通过只对关键帧预测,大大减少了计算量,并且能够利用时序信息改善检测结果，提升了检测速度和更好的追踪目标。

Description

一种基于关键帧的三维物体检测与跟踪方法

技术领域

本发明涉及三维目标检测和追踪领域，更具体地，涉及一种基于关键帧的三维物体检测与跟踪方法。

背景技术

目前自动驾驶与视觉感知任务主要分为基于图像，基于点云以及基于图像与点云融合，具体为：

1.基于图像的方法中主要以Mono3D,3DOP等为代表，由于图像数据没有深度信息，因此需要加入额外手工设计的三维特征。然而，单一的RGB数据以及特定的手工设计的特征不利于神经网络有效地学习3D空间信息，也限制这场景的扩展。此外，手工特征的获取一般耗时过长，这类方法目前效果有限，进展缓慢。

2.基于点云的方案可以细分为三个子分支：

①直接在点云上使用3DCNN进行物体检测。例如3DFCN和Vote3Deep等，这类方法先将点云数据结构化(一般为三维的voxel)，然后使用三维卷积提取特征。由于点云十分稀疏，且三维卷积需要在三个维度上进行，检测过程极其耗时。另外，高耗时限制了感受野的大小，使得传统的3DCNN不能很好地学习不同尺度的局部特征。②另一种方案是针对点云提出特定的网络结构，如VoxelNet将点云划分成Voxel等结构单元，在非空的结构单元上采用网络提取特征。最近，随着PointNet，PointNet++，PointCNN，PointSIFT，OctNet，DynamicGraphCNN等模型的提出，研究的重心转移至从无序点云数据中更有效地学习空间几何表示的方法探究。以PointNet为例，基于点云数据的置换不变性与旋转不变性，该工作提出了对称函数的概念。使用全连接网络和池化层拟合对称函数，能够高校地提取点云特征。然而，由于这类方法使用全连接层，一般需要对所有点进行处理，因此运用到大型场景(点云数据非常多)时速度还有待提升。③以PIXOR，FaF以及Complex-YOLO为代表的工作将点云投影到某一平面，例如前视图和鸟瞰图。这种映射过程存在某一维度的信息损失，但由于自动驾驶场景下几乎所有物体都位于同一平面上，因此信息损失对检测结果的影响极小。此方法将3DCNN简化为2DCNN，减小了算法的空间和时间复杂度，使实时检测成为可能。然而由于点云的稀疏性，投影后的目标点很少，造成特征信息不足，特别是对小目标以及远处物体的检测，效果很不理想。

3.基于图像和点云融合的方案。这类方法将图像丰富的纹理信息以及点云的深度信息进行融合，代表性的工作有MV3D,FusingBEV&FV,AVOD,F-PointNet等。前三者将点云映射到某一或几个平面，并选择性地加入手动设计的特征，然后与RGB图像融合。其中MV3D在深网络层进行融合，而FusingBEV&FV提出在RPN之前进行融合会取得更好的检测效果。这类方法需要额外模块融合数据，导致模型运行速度降低，很难满足实时性。通过减少手工设计的特征的输入，AVOD能够达到一定的实时性。另一方面，F-PointNet先在图像数据上使用2D目标检测获取2D定位框，然后投影到三维空间获得对应的视场锥，最后使用PointNet对视场锥内的点云进行语义分割，最终获得目标的三维定位框。该方法缺点是精度受限于2D目标检测过程，并且对于遮挡等情况效果不佳。

发明内容

本发明为克服上述现有技术中对于流数据也只能用单帧数据检测的方法，而且针对现有技术速度慢且效果差导致难以处理多目标追踪的问题，提供一种基于关键帧的三维物体检测与跟踪方法，利用时序信息预测轨迹的出现与消失情况，能够很好的处理多目标追踪。

为解决上述技术问题，本发明采用的技术方案是：提供一种基于关键帧的三维物体检测与跟踪方法，包括以下步骤：

步骤一：输入前后两帧由点云数据和图像数据组成的关键帧数据，对数据进行预处理，其中的点云数据在俯视图方向上投影结构转化成BEV图；

步骤二：将步骤一中的两关键帧数据进行特征提取，得到两关键帧特征图，分别为图像特征图和点云特征图；

步骤三：将步骤一中的两关键帧数据输入共享区域提取网络模块，生成能被两个关键帧共享的共享候选框集合；

步骤四：步骤三中的候选框在所述特征图提取候选框特征，然后送入分类网络与框回归网络，得到物体的类别以及三维框位置；

步骤五：步骤三中的共享候选框分别提取两关键帧的BEV图特征块，送入追踪模块提取对应候选框的相关特征，然后输入偏移回归网络得到两关键帧对应物体的三维框的偏移量；

步骤六：根据物体的三维框和三维框对应的偏移量，运用插值法得到两个关键帧数据之间的其他帧数据的物体的三维框，从而得到所有帧中的物体的三维检测结果；

步骤七：根据检测结果，对所有帧数据对应的物体相互关联，得到跟踪结果。

优选的，在所述步骤一中，对图像数据进行归一化，然后裁剪到1200x360px；对点云数据，取范围在[-40,40]x[0,70]x[0,2.5]m内的点，然后去除掉在图像范围外的点值。由于车辆本身在运动，不同帧的参考系不一样，所以为了能够学习到正确的位置偏移，需要将两个关键帧的数据变换在同一坐标系下，变换矩阵可以通过IMU数据计算。我们使用基于投影的点云数据编码方式将点云编码为大小800x700x6的张量。首先将点云有效三维空间网格化成800x700x5的三维张量，张量中每个元素对应着三维区域0.1x0.1x0.5的小长方体，元素的值为小长方体内所有点高度的最大值，如果小长方体内没有点，则值为0。考虑到不同小长方体内点的个数不一样，新增加一个密度通道，其值为min(1.0,log(N+1)/log16)(N为小长方体内点的总数)。

优选的，在所述步骤二中，所述特征提取基于VGG16的结构并加入特征金字塔结构，对两个关键帧图像数据进行数据提取，分别得到点云特征图和图像特征图。

优选的，在所述步骤三中，将两关键帧各自生成的候选框合并为轴对齐的候选框，即生成可被两关键帧共享的共享候选框集合。生成的候选框集合经过全连接层得到每个候选框区域对应的坐标值和类别以及置信度，再经过非极大值抑制筛选掉重叠度高的候选框，最后选择置信度较高的若干预测值，对应着若干个候选框的预测结果。输入共享区域提取网络模块的点云数据有5帧，包括两关键帧以及两关键帧之间的所有非关键帧，由于点云数据是三维的，我们将这5帧点云变换到同一坐标系中，然后进行投影编码得到集成的BEV特征。由于点云的稀疏性以及使用了投影编码，该阶段不会增加任何计算量。而由于图像数据有很高的冗余性，因此我们只使用第一帧图像的特征。在训练阶段由于点云数据集成了5帧的信息，由于物体在移动，所以正样本区域要比之前的大，因此真值框也要相应的扩大。我们直接在5帧数据的真值框基础上生成轴对齐标签，将不同帧的对应物体全部包含。

优选的，在所述步骤四中，所述候选框分别在点云特征图和图像特征图上截取相应的特征块，调整至相同大小后经过多视角融合后通过全连接网络分类和回归，得到对应物体的三维框。

优选的，在所述步骤五中，追踪模块首先分别对每一对点云BEV特征做相关操作，提取两关键帧特征在同一候选框区域的特征的相关性，然后再通过全连接网络预测目标的位置偏移以及存在性；目标的位置偏移的编码方式为：

式子中，F_t和F_t+τ为前后两关键帧的输入，

为关键帧t的目标，

为关键帧t+τ的目标，Δ^t,t+τ为目标位置的偏移，

为目标在BEV平面上的中心点坐标偏移，为目标在BEV平面上的长宽偏移，

为目标在BEV平面上的转向角偏移。如果该物体同时在两关键帧中出现，则长宽的变化量为0，这是因为目标为刚性的，其形状不会随着时间变化而变化。追踪模块只需要预测物体的中心点位置偏移以及转向角变化。如果该物体只出现在某一帧，则物体位置变化以及转向角变化为0，而长宽变化显著。如果物体只出现在第一帧，则长宽变化都为-1，如果只出现在第二帧则为1。通过这种编码方式模型能检测轨迹的出现与消失，从而更好的配合插值算法工作。

优选的，在所述步骤六中，首先使用数据关联算法将两关键帧的三维框关联，相互关联的三维框表示为同一物体在两帧的位置，成功关联的物体，运用插值法得到所有帧中的物体的三维检测结果；关联失败的三维框，预设物体长宽变化阀值，根据预设的物体长宽变化阈值，物体长宽变化低于阀值，则根据位置的变化计算出物体在两关键帧的位置，最后运用线性插值生成中间帧的结果；物体长宽变化高于阀值，根据运动模型计算出物体的临界位置，然后进行线性插值生成中间帧的结果。

8.根据权利要求7所述的一种基于关键帧的三维物体检测与跟踪方法，其特征在于，所述运动模型的公式为：

{Δ_x，Δ_z}＝{|ad|sin(ry)，|ad|cos(ry)}

式子中，|ad|为物体中心点在前后两关键帧的真实偏移，|bc|为前一关键帧物体中心点在其运动方向上距离边界的距离，|cd|为后一关键帧物体中心点在去运动方向上距离边界的距离，w分别为物体的宽和长，ry为物体的转向角、z轴正方向为0度，角度按顺时针方向增大，△x、△z分别为物体在x轴方向与z轴方向的偏移量。

优选的，在所述步骤六中，得到所有帧的检测结果后，使用数据关联算法关联不同帧的三维框；具体为先设定一个重叠程度阈值，如果前后两帧图像的物体三维框的重叠程度超过该阈值，则判断为同一物体，相反，则认为不是同一物体。

与现有技术相比，有益效果是：

1.本发明利用流式数据之间存在信息冗余的特点，只需对关键帧进行目标检测，其余帧的检测框通过插值生成，能够加快流数据检测的速度，改善了现有三维目标检测网络对连续场景数据检测时间过长，无法达到自动驾驶环境对实时性的要求的问题。

2.本发明所提出的三维物体检测方法准确率高。由于同时融合了点云信息与图像信息，两者优劣互补。相对于只用图像的物体检测方法，本发明融合了点云的深度数据，且能够处理物体遮挡的情况；相对于只基于点云的三维物体检测方法，本发明融合了图像丰富的纹理信息，弥补了点云数据的稀疏性所造成的信息缺失，特别是对于远处物体以及小物体基本没有点云数据的情况下，能够有效的降低漏检率。

3.本发明的两关键帧共用同一套候选框，不但能够减少计算量，还能有针对性的利用时序信息。特别是在追踪模块中，通过只在对应候选框区域的特征进行相关操作，大大减少了相关卷积的计算量，提供检测的速度。

4.本发明提供一种基于运动模型的插值算法，能够准确的生成非关键帧的物体检测框。特别是当物体在某一帧未检出的情况，我算法提供了一种判断是漏检还是轨迹出现或终止的方法，为解决多目标追踪中物体消失等问题提出了一套可靠的解决方案。

附图说明

图1是本发明的流程图；

图2为本发明的运动模型的示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明，不能理解为对本专利的限制。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”“长”“短”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

下面通过具体实施例，并结合附图，对本发明的技术方案作进一步的具体描述：

实施例

如图1所示为一种基于关键帧的三维物体检测与跟踪方法的是实施例，包括以下步骤：

步骤一：输入前后两帧由点云数据和图像数据组成的关键帧数据，对数据进行预处理，其中的点云数据在俯视图方向上投影结构转化成BEV图；预处理为对图像数据进行归一化，然后裁剪到1200x360px；对点云数据，取范围在[-40,40]x[0,70]x[0,2.5]m内的点，然后去除掉在图像范围外的点值。由于车辆本身在运动，不同帧的参考系不一样，所以为了能够学习到正确的位置偏移，需要将两个关键帧的数据变换在同一坐标系下，变换矩阵可以通过IMU数据计算。我们使用基于投影的点云数据编码方式将点云编码为大小800x700x6的张量。首先将点云有效三维空间网格化成800x700x5的三维张量，张量中每个元素对应着三维区域0.1x0.1x0.5的小长方体，元素的值为小长方体内所有点高度的最大值，如果小长方体内没有点，则值为0。考虑到不同小长方体内点的个数不一样，新增加一个密度通道，其值为min(1.0,log(N+1)/log16)(N为小长方体内点的总数)。

步骤二：将步骤一中的两关键帧数据进行特征提取，特征提取基于VGG16的结构并加入特征金字塔结构，对两个关键帧图像数据进行数据提取，分别得到点云特征图和图像特征图。

步骤三：将步骤一中的两关键帧数据输入共享区域提取网络模块，两关键帧各自生成的候选框合并为轴对齐的候选框，该候选框为被两关键帧共享的共享候选框集合。生成的共享候选框集合经过全连接层得到每个候选框区域对应的坐标值和类别以及置信度，再经过非极大值抑制筛选掉重叠度高的候选框，最后选择置信度较高的若干预测值，对应着若干个候选框的预测结果。输入共享区域提取网络模块的点云数据有5帧，包括两关键帧以及两关键帧之间的所有非关键帧，由于点云数据是三维的，我们将这5帧点云变换到同一坐标系中，然后进行投影编码得到集成的BEV特征。由于点云的稀疏性以及使用了投影编码，该阶段不会增加任何计算量。而由于图像数据有很高的冗余性，因此我们只使用第一帧的特征。在训练阶段由于点云数据集成了5帧的信息，由于物体在移动，所以正样本区域要比之前的大，因此真值框也要相应的扩大。我们直接在5帧数据的真值框基础上生成轴对齐标签，将不同帧的对应物体全部包含。

步骤四：步骤三中的共享候选框在所述特征图提取候选框特征，然后送入分类网络与框回归网络，得到物体的类别以及三维框位置。

具体的，追踪模块首先分别对每一对特征做相关操作，提取两关键帧特征在同一候选框区域的特征的相关性，然后再通过全连接层预测目标的位置偏移以及存在性；目标的位置偏移的编码方式为：

式子中，F_t和F_t+τ为前后两关键帧的输入，

为关键帧t的目标，

为关键帧t+τ的目标，Δ^t,t+τ为目标位置的偏移，

为目标在BEV平面上的中心点坐标偏移，

为目标在BEV平面上的长宽偏移，

步骤六：根据物体的三维框和三维框对应的偏移量，运用插值法得到两个关键帧数据之间的其他帧数据的物体的三维框，从而得到所有帧中的物体的三维检测结果；首先使用数据关联算法将两关键帧的三维框关联，相互关联的三维框表示为同一物体在两帧的位置，成功关联的物体，运用插值法得到所有帧中的物体的三维检测结果；关联失败的三维框，预设物体长宽变化阀值(阀值为0.3)，根据预设的物体长宽变化阈值，物体长宽变化低于阀值，则根据位置的变化计算出物体在两关键帧的位置，最后运用线性插值生成中间帧的结果；物体长宽变化高于阀值，根据运动模型计算出物体的临界位置，然后进行线性插值生成中间帧的结果。

另外的，如图2所示，运动模型的公式为：

{Δ_x，Δ_z}＝{|ad|sin(ry)，|ad|cos(ry)}

步骤7：根据检测结果，对所有帧数据对应的物体相互关联，得到跟踪结果。具体为有帧的检测结果后，使用数据关联算法关联不同帧的三维框；具体为先设定一个重叠程度阈值(阀值为0.8)，如果前后两帧图像的物体三维框的重叠程度超过该阈值，则判断为同一物体，相反，则认为不是同一物体。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于关键帧的三维物体检测与跟踪方法，其特征在于，包括如下步骤：

步骤二：将步骤一中的两关键帧数据进行特征提取，分别得到两关键帧的特征图，分别为点云特征图和图像特征图；

步骤四：步骤三中的共享候选框在所述特征图提取候选框特征，然后送入分类网络与框回归网络，得到物体的类别以及三维框位置；

2.根据权利要求1所述的一种基于关键帧的三维物体检测与跟踪方法，其特征在于，在所述步骤一中，对图像数据进行归一化，然后裁剪到1200x360px；对点云数据，取范围在[-40,40]x[0,70]x[0,2.5]m内的点，然后去除掉在图像范围外的点值。

3.根据权利要求2所述的一种基于关键帧的三维物体检测与跟踪方法，其特征在于，在所述步骤二中，所述特征提取基于VGG16的结构并加入特征金字塔结构，对两个关键帧图像数据进行数据提取，分别得到点云特征图和图像特征图。

4.根据权利要求3所述的一种基于关键帧的三维物体检测与跟踪方法，其特征在于，在所述步骤三中，将两关键帧各自生成的候选框合并为轴对齐的候选框，即生成可被两关键帧共享的候选框集合。

5.根据权利要求4所述的一种基于关键帧的三维物体检测与跟踪方法，其特征在于，在所述步骤四中，所述候选框分别在点云特征图和图像特征图上截取相应的特征块，调整至相同大小后经过多视角融合后通过全连接网络分类和回归，得到对应物体的三维框。

6.根据权利要求5所述的一种基于关键帧的三维物体检测与跟踪方法，其特征在于，在所述步骤五中，追踪模块首先分别对每一对点云BEV特征做相关操作，提取两关键帧特征在同一候选框区域的特征相关性，然后再通过全连接网络测目标的位置偏移以及存在性；目标的位置偏移的编码方式为：

式子中，F_t和F_t+τ为前后两关键帧的输入，

为关键帧t的目标，

为关键帧t+τ的目标，Δ^t,t+τ为目标位置的偏移，

为目标在BEV平面上的中心点坐标偏移，

为目标在BEV平面上的长宽偏移，

为目标在BEV平面上的转向角偏移。

7.根据权利要求6所述的一种基于关键帧的三维物体检测与跟踪方法，其特征在于，在所述步骤六中，首先使用数据关联算法将两关键帧的三维框关联，相互关联的三维框表示为同一物体在两帧的位置，成功关联的物体，运用插值法得到所有帧中的物体的三维检测结果；关联失败的三维框，预设物体长宽变化的阀值，根据预设的物体长宽变化阈值，物体长宽变化低于阀值，则根据位置的变化计算出物体在两关键帧的位置，最后运用线性插值生成中间帧的结果；物体长宽变化高于阀值，根据运动模型计算出物体的临界位置，然后进行线性插值生成中间帧的结果。

{Δ_x，Δ_z}＝{|ad|sin(ry)，|ad|cos(ry)}

9.根据权利要求1所述的一种基于关键帧的三维物体检测与跟踪方法，其特征在于，在所述步骤六中，得到所有帧的检测结果后，使用数据关联算法关联不同帧的三维框；具体为先设定一个重叠程度阈值，如果前后两帧图像的物体三维框的重叠程度超过该阈值，则判断为同一物体，相反，则认为不是同一物体。