CN112561966B

CN112561966B - 一种融合时空信息的稀疏点云多目标跟踪方法

Info

Publication number: CN112561966B
Application number: CN202011530744.6A
Authority: CN
Inventors: 冯建江; 周杰; 张猛
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2022-11-11
Anticipated expiration: 2040-12-22
Also published as: CN112561966A

Abstract

本发明提出一种融合时空信息的稀疏点云多目标跟踪方法，属于3D视觉领域。本发明以点云特征提取网络为主干，同时输入多帧点云数据，对提取的特征进行时域信息的融合，从而避免点云稀疏导致的漏检。得益于时空信息的融合，跟踪和检测任务可以更紧密耦合，本发明对前后共三帧的检测框同时进行预测，得到当前目标持续三帧的轨迹段。之后计算当前轨迹段和前一时刻的轨迹跟踪结果的距离交并比分数，利用贪心算法将当前分裂后的轨迹段与历史轨迹段匹配拼接，得到各时刻最终的轨迹跟踪结果。本发明方法具有应对稀疏点云下多目标跟踪的应用潜力，对于目标漏检、错检有较强的鲁棒性，在稀疏的点云序列输入中仍然可以得到稳定的跟踪结果。

Description

一种融合时空信息的稀疏点云多目标跟踪方法

技术领域

本发明涉及3D视觉领域，尤其涉及一种融合时空信息的稀疏点云多目标跟踪方法。

背景技术

近年来自动驾驶、机器人等领域的火热发展对高精度的目标检测和跟踪算法提出了迫切的需求，所以三维目标检测和跟踪正在成为计算机视觉中最值得关注的研究方向。检测跟踪任务以传感器的原始数据作为输入，输出准确的目标位置和跟踪id，是路径规划等后续环节的基础，也是整个系统必不可少的部分。面对精确三维定位和跟踪的需求，深度相机或多相机传感器精度低，定位距离近，而且受光照影响很大。激光雷达则有距离远、精度高、稳定性强的特点，不过由于激光雷达产品的价格较高，所以目前固定场景的监控系统基本仍旧使用摄像机作为主要的设备。随着激光雷达工艺进步，最近市场上出现的低价格、低点云密度的激光雷达使其在更多场景的应用成为可能，例如足球比赛等场景的监控。这种激光雷达得到的点云数据非常稀疏，并且点云密度会随着目标距离的增大以平方次下降，所以这对检测方法提出了更高的要求。同时，稀疏点云带来的错检、漏检问题，也对多目标的跟踪带来了极大的挑战。因此利用固定大场景下得到的稀疏点云，进行目标物体的检测和鲁棒跟踪，是重要并且很有应用前景的。

激光雷达点云数据的检测和跟踪任务已经存在相关算法。基于点云稀疏性、无序性、不规则的特点，对点云数据进行体素分割，使其变为规则数据的方法，可以直接使用传统的卷积操作进行深度特征的提取，但是损失信息和低效性是这种方法的桎梏。随着近些年直接应用于点云的处理方法的提出，对点云数据利用深度网络进行特征提取使得很多高性能高准确率的三维检测方法不断出现，直接处理点云而非进行体素化的方法成为三维视觉领域的主流，但是这种方法一般都采用单帧点云作为输入，而忽略了连续点云序列的时域信息，导致稀疏的单帧点云下的检测结果较差。三维多目标跟踪的算法大多仍承袭二维多目标的分两阶段先检测再进行跟踪匹配的思路，即先由三维检测算法得到目标的检测结果，再使用二分图匹配将轨迹进行连接。但是，这样的多目标跟踪算法只能得到次最优的结果，无法得到从原始数据到最终跟踪轨迹的最优结果。CVPR2018上发表的文章Fast andFurious:Real Time End-to-End 3D Detection,Tracking and Motion Forecastingwith a Single Convolutional Net(以下简称FaF)提出了一种同时进行检测、预测和跟踪的方法。FaF通过对连续5帧的点云进行体素化和3D卷积提取特征，直接回归5帧的检测结果和未来10帧的轨迹预测。而跟踪则直接利用当前时刻轨迹预测的结果与之前的预测结果进行简单的交并比匹配。FaF虽然也考虑了多帧点云融合的方式，但是存在以下几个问题：(1)FaF预测网络在鸟瞰图进行，所以只能得到俯视图下的2D检测框。(2)FaF通过对未来轨迹的预测进行跟踪匹配，而未来的预测准确率实际上比较低，所以跟踪精度不高。(3)在跟踪匹配时，FaF使用简单的交并比匹配，并且没有进行新生和消亡轨迹的管理。

发明内容

本发明的目的是为克服已有3D多目标跟踪算法在稀疏点云数据下精度低、信息利用不充分的问题，提出一种融合时空信息的稀疏点云多目标跟踪方法。本发明融合多帧稀疏点云，可以同时利用时域和空域信息，减少目标的漏检和误检，得到更为鲁棒准确的跟踪轨迹。

本发明提出一种融合时空信息的稀疏点云多目标跟踪方法，其特征在于，包括以下步骤：

1)获取点云训练集，利用点云训练集训练3D点云轨迹段预测深度学习网络，得到训练完毕的3D点云轨迹段预测深度学习网络；具体步骤如下：

1-1)获取点云训练集；具体步骤如下：

1-1-1)在固定场景场边四周任意选取一处架设一台激光雷达，使得激光雷达的视野覆盖该固定场景中的目标区域，该激光雷达对目标区域进行点云采集得到点云序列；

1-1-2)对步骤1-1-1)获取的点云序列进行预处理，将该点云序列中距离大于设定距离阈值的点作为背景点并删除，然对该点云序列中所有目标轨迹进行标注，对点云序列每一帧中的每个目标，标注该目标的3D检测框的长宽高，并标注目标在对应帧中的3D位置、朝向角以及该目标的跟踪id；预处理完毕后的点云序列组成点云训练集；

1-2)构建3D点云轨迹段预测深度学习网络；所述3D点云轨迹段预测深度学习网络包括：点云特征提取网络，时空信息融合提取网络和轨迹段预测网络三个部分，具体构建方法如下：

1-2-1)构建点云特征提取网络；

设点云序列中的每一帧点云对应的时刻为t，t＝0,1,2…，其中t＝0对应点云序列中的第一帧点云；将t时刻的点云输入到点云特征提取网络，输入的点云在x-y平面上按照该时刻点云的x-y的坐标进行网格化，将该时刻的点云分割成p*q个底面为长方形的柱体，柱体内的每个点对应的特征向量包括该点在点云中对应的坐标(x，y，z)、该点到对应柱体中心的偏移量(dx,dy,dz)以及柱体内所有点的平均坐标(mx,my,mz)，形成该点对应的一个九维的向量(x,y,z,dx,dy,dz,mx,my,mz)；记柱体内有n个点，则该柱体对应的点云为n*(x,y,z,dx,dy,dz,mx,my,mz)的矩阵；

然后对于每一个非空的柱体特征提取，得到该柱体对应的64维向量的特征；

将每个柱体对应的特征放置在水平离散化后的相应位置，其中空柱体的特征置为0，得到对应输入的t时刻点云的鸟瞰视图的特征图作为点云特征提取网络的输出，该鸟瞰视图的特征图大小为p*q*64；

1-2-2)构建时空信息融合提取网络；

从t≥2开始，将从步骤1-2-1)点云特征提取网络中得到的t-2,t-1,t时刻三帧点云分别对应的的p*q*64的鸟瞰视图的特征图输入时空信息融合提取网络，对每张特征图分别进行高层次和低层次的特征的提取，时空信息融合提取网络输出各时刻点云对应的三张p*q*128的特征图共9张特征图；将该9张特征图组成t-2,t-1,t时刻三帧点云对应的3x3组特征图；

然后，利用3×3×3的卷积核对三帧点云的每个对应层次的特征图进行三维卷积，得到三帧点云各自对应的时域融合后的特征图，再将这三张时域融合后的特征图按通道维度拼接，得到该三帧点云对应的一个p*q*384规模张量的时空融合特征图作为时空信息融合提取网络的输出；

1-2-3)构建轨迹段预测网络；

轨迹段预测网络的输入为步骤1-2-2)得到的时空融合特征图，通过构建1×1大小卷积核的卷积层，输出为该时空融合特征图对应的p*q*(1+7*3)张量，其中(1+7*3)维向量分别为输入特征图的每一个位置预测分类分数和由t-1时刻、t时刻和t+1时刻预测的三帧点云的检测框组成的轨迹段；

1-3)利用步骤1-1)得到的训练集对步骤1-2)构建的深度学习网络进行训练；训练时将训练集中每一组t-2,t-1,t三个时刻对应的点云作为输入，网络输出对应的p*q*(1+7*3)的张量，将该输出结果与训练集中t-1,t,t+1三个时刻点云标注得到的目标的3D检测框计算损失进行反向传播训练，最终得到训练完毕的3D点云轨迹段预测深度学习网络；

其中，损失函数表达式如下：

其中，

为分类损失函数，

为组成轨迹段的三个时刻的检测框中位置损失函数，

为朝向角的回归损失函数，α，λ_i，β为损失函数的权重；

2)获取待进行轨迹跟踪的点云序列，利用步骤1)训练完毕的3D点云轨迹段预测深度学习网络获取该点云序列中每个当前时刻的轨迹段检测结果；对该检测结果进行分裂，然后与前一时刻的轨迹跟踪结果进行基于距离交并比的跟踪匹配，最终得到当前时刻的轨迹跟踪结果；具体步骤如下：

2-1)利用步骤1)同一位置的激光雷达获取新的待进行轨迹跟踪的点云序列；

2-2)将步骤2-1)获取的点云序列对应时刻用t进行表示，其中t＝0对应该点云序列中的第一帧点云；

将每一个t时刻作为当前时刻；从t≥2开始，在每个当前时刻，将t-2,t-1,t时刻对应的三帧点云输入1)训练完毕的深度学习网络中，得到对应的p*q*(1+7*3)的张量的输出结果，其中(1+7*3)维向量分别为输入三帧点云对应的时空融合特征图中每一个位置预测分类分数，以及t-1时刻、t时刻和t+1三个时刻预测的点云检测框组成的轨迹段；

2-2)对步骤2-1)得到的输出结果经过分类分数的阈值筛选，筛选完毕后计算检测结果中t时刻预测的检测框之间的重叠面积，利用重叠面积阈值进行非极大值抑制，删除t时刻被抑制的检测框，对于在t-1时刻与t+1时刻中与t时刻对应位置的检测框利用t时刻的抑制结果同样进行删除，三个时刻进行筛选去除后的检测框最终组成当前时刻的轨迹段检测结果；

2-3)将步骤2-2)得到的当前时刻轨迹段检测结果进行分裂，然后与前一时刻的轨迹跟踪结果进行基于距离交并比的跟踪匹配，最终得到当前时刻的轨迹跟踪结果；具体步骤如下：

2-3-1)对步骤2-2)得到的当前时刻的轨迹段检测结果进行分裂，具体方法如下：

当t＝2时，将步骤2-2)得到的当前时刻的轨迹段检测结果作为初始的当前时刻轨迹跟踪结果，然后进入步骤2-3-3)；

当t≥3时，对步骤2-2)得到的当前时刻的轨迹段检测结果进行分裂，再对分裂后的检测结果与前一个时刻得到的轨迹跟踪结果进行轨迹段的匹配，具体方法如下：

利用t时刻的轨迹段检测结果与t-1时刻的轨迹跟踪结果中轨迹段重合的个数进行判定：若t时刻的轨迹段检测结果与t-1时刻的轨迹跟踪结果中存在两条以上的轨迹段重叠率大于设定的重叠率阈值，则对t时刻的轨迹段检测结果进行轨迹分裂；对于多个目标重合的情况，其中心和偏航角为分裂目标中心坐标和偏航角的均值，即：

其中(x,y,z,θ)为重叠的检测框，x,y,z分别为重合的检测框的三维位置，θ为重叠检测框的朝向角，(x_i,y_i,z_i,θ_i)为分裂的目标，下标i代表重合的K个目标检测框的标号，利用下式对于错误的预测进行分裂还原：

其中(x'_i,y'_i,z'_i,θ'_i)为分裂后的检测框位置和朝向角；

2-3-2)对当前时刻分裂后的轨迹段检测结果与前一时刻的轨迹跟踪结果进行匹配，具体步骤如下：

2-3-2-1)计算匹配分数，具体方法如下：

对于分别位于t时刻的轨迹段和t-1时刻的轨迹跟踪结果中的两个检测框，ρ(a,b)为两个检测框的最远顶点距离，ρ(c₁,c₂)为两个检测框的中心点距离，具体的计算方式为：

其中IoU为常规交并比，ρ(a,b)为两个检测框的最远顶点距离，ρ(c₁,c₂)为两个检测框的中心点距离；

步骤2-3-1)得到的t时刻分裂后的轨迹段检测结果与上一时刻的轨迹跟踪结果存在两帧的重叠，即当前时刻分裂后的轨迹段检测结果和t-1时刻的轨迹跟踪结果都有t-1,t时刻的检测框，则存在两个匹配分数矩阵；利用距离交并比对t时刻分裂后的轨迹段检测结果和t-1时刻的轨迹跟踪结果中重叠的检测框计算匹配分数，若步骤2-3-1)得到的t时刻分裂后的轨迹段检测结果的检测框数量为m，t-1时刻的跟踪结果中的检测框数量为n，则计算的匹配分数矩阵大小为mxn；再对t-1,t的两个匹配分数矩阵进行平均得到最终的匹配分数矩阵S；

2-3-2-2)利用步骤2-3-2-1)得到的匹配分数矩阵S对轨迹段匹配连接，具体方法为：

寻找匹配分数矩阵S中的最大值，若该最大值大于设定的分数阈值，则该最大值对应的分别属于当前时刻分裂后的轨迹段检测结果与前一时刻的轨迹跟踪结果的两条轨迹段属于同一目标，将该两个轨迹段进行连接，得到该目标t时刻匹配后的轨迹段，随后将该匹配成功的轨迹段对应的矩阵S的行列值设定为负无穷，并继续在矩阵S中寻找下一个最大值，直到矩阵S的最大值小于分数阈值，匹配结束；

2-3-3)轨迹消亡和新生处理，具体方法如下：

在步骤2-3-2)匹配完毕之后，若存在没有在t时刻分裂得到的轨迹段检测结果中找到匹配对的属于t-1时刻的轨迹跟踪结果的历史轨迹段，将该历史轨迹在当前轨迹跟踪结果中再存在6帧，若该轨迹在未来的6帧内与任一当前时刻分裂得到的轨迹段检测结果中任一轨迹段成功匹配则恢复该历史轨迹为当前轨迹跟踪结果中的正常轨迹段，否则将其从当前轨迹跟踪结果中删除；

若存在没有匹配的t时刻分裂得到的轨迹段，先令该轨迹段为新出现的目标的轨迹段，若该轨迹段持续多帧成功匹配后，则在当前轨迹跟踪结果中保留该轨迹段为正常轨迹段；否则将该轨迹段作为假阳性目标，将其从当前轨迹跟踪结果中删除；

其中，当t＝2时，初始的当前时刻轨迹跟踪结果中所有轨迹段均为新出现的目标的轨迹段；

2-3-4)将所有正常匹配的轨迹段和未匹配的历史轨迹段组成当前时刻最终的轨迹跟踪结果。

本发明的特点及有益效果在于：

1)相比于常规的多目标跟踪方法，本发明考虑到激光雷达可以轻松得到连续的点云序列，所以融合多帧点云，同时提取时域和空域信息，从原始点云中直接回归跟踪所需要的轨迹段，既可以保证连续点云时序信息的充分利用，也可以解决两阶段方法的次最优问题。与思路接近的FaF相比，本发明对目标先进的检测框架进行改造，从而进行3D检测框的回归。同时我们对过去时刻和未来时刻的轨迹进行预测，采用距离交并比进行匹配，并且添加新生轨迹、消亡轨迹和碰撞轨迹的管理模块，极大提升稀疏点云多目标跟踪任务的效果。

2)在大场景下，激光雷达点云会更加稀疏，100m距离的人形目标平均只有一个点。传统的点云检测跟踪算法对单帧的数据进行处理，所以极易导致目标的漏检。本发明针对连续多帧进行时域信息提取的算法，极大提高了点云稀疏时的目标识别性能。

3)传统多目标跟踪算法在跟踪阶段只使用检测的输出结果得到跟踪轨迹，无法从输入数据直接优化目标。本发明直接预测连续三帧的轨迹段，从而使跟踪任务与原始数据耦合更为紧密。

4)本发明提出利用距离交并比进行轨迹段的连接匹配，获得比正常交并比更为稳定准确的跟踪结果。

5)本发明典型的应用场景就获取足球比赛中的运动员的信息。利用激光雷达的数据，可以得到场上球员的精确位置，以及跟踪轨迹，从而计算出球员的跑动距离、速度等数据，以便于赛事分析。

附图说明

图1为本发明的一种融合时空信息的稀疏点云多目标跟踪方法的总体流程图。

图2为本发明实施例中3D点云轨迹段预测深度学习网络的原理示意图。

图3为本发明实施例中多层次特征的三维卷积时域信息融合示意图。

图4为本发明实施例中当前轨迹段分裂、匹配流程图。

图5为本发明实施例中距离交并比计算示意图。

图6为本发明实施例中多目标跟踪结果图。

具体实施方式：

本发明提出一种融合时空信息的稀疏点云多目标跟踪方法，下面结合附图和具体实施例进一步详细说明如下。

本发明提出一种融合时空信息的稀疏点云多目标跟踪方法，整体流程如图1所示，包括以下步骤：

1-1)获取点云训练集；具体步骤如下：

1-1-1)在固定场景场边四周任意选取一处架设一台激光雷达(可为任意型号，本实例采用Livox Mid-100激光雷达)，使得激光雷达的视野覆盖该固定场景中的目标区域，以足球比赛场景为例，将激光雷达对准场地中央，利用12V锂电池对该激光雷达进行供电，该激光雷达对目标区域进行点云的采集并发送给上位机。本实施例点云采集频率为20Hz，每帧点云数量为15000个点，采集时长约为15分钟，每次采集得到的点云序列发送给上位机后组成一个lvx文件。其中，目标区域中存在若干个运动目标(本实例为8个)。

1-1-2)对步骤1-1-1)获取的点云序列进行预处理，预处理完毕后得到点云训练集；

对步骤1-1)得到的lvx文件进行分解，得到频率20hz的点云序列。随后对点云序列进行预处理，将点云序列转化为常见的pcd格式，并且将该序列中距离大于设定距离阈值的点作为背景点并删除(距离阈值通常为激光雷达到目标区域的距离，本实施例为40m外)。然后对该点云序列进行目标轨迹进行手工标注，对于点云序列每一帧中的每个目标，按照该目标的实际大小标注该目标的3D检测框的长宽高，并标注目标在对应帧中的3D位置，朝向角以及该目标的跟踪id。预处理完毕后的点云序列组成点云训练集。

1-2)构建3D点云轨迹段预测深度学习网络。所述3D点云轨迹段预测深度学习网络包括：点云特征提取网络，时空信息融合提取网络和轨迹段预测网络三个部分，其中点云特征提取网络采用PillarFeatureNet用于提取点云特征，时空信息融合提取网络采用多尺度和Temporal Fusion Module用于提取时空融合信息，轨迹段预测网络采用Detection Head用于预测得到的轨迹段。该深度学习网络原理如图2所示，具体构建方法如下：

1-2-1)构建点云特征提取网络；

设点云序列中的每一帧点云对应的时刻为t(t＝0,1,…)，其中t＝0对应点云序列中的第一帧点云。将t时刻的点云输入到点云特征提取网络的点云分割层中，输入的点云在x-y平面上按照该时刻点云的x-y的坐标进行网格化，将该时刻的点云分割成p*q个底面为长方形的柱体(本实例分割的底面大小为0.2m x 0.2m，得到的柱体数量为80*80个)，柱体内的每个点对应的特征向量包括该点在原始点云中对应的坐标(x，y，z)、该点到对应柱体中心的偏移量(dx,dy,dz)以及柱体内所有点的平均坐标(mx,my,mz)，形成该点对应的一个九维的向量(x,y,z,dx,dy,dz,mx,my,mz)，假设柱体内有n个点，则该柱体的点云数据为矩阵n*(x,y,z,dx,dy,dz,mx,my,mz)的张量。由于点云数据的稀疏性，大部分柱体内都是空的。

对于每一个非空的内部包含n个点(非空柱体中n大于等于1；每个柱体内n的数值不一定相等)的柱体(表示为n*9的张量)，本发明利用PointNet对该柱体进行特征提取，得到该柱体对应的64维向量的特征。

将每个柱体对应的特征放置在水平离散化后的相应位置，其中没有点的柱体的特征置为0，从而得到了鸟瞰视图的特征图作为对应输入的t时刻的点云的点云特征提取网络的输出，该输出实际上是p*q*64(本实例为80*80*64)的三维张量并作为下一阶段的输入。

1-2-2)构建时空信息融合提取网络；

本发明从t≥2开始，对t-2,t-1,t三个时刻的点云进行多帧点云的时空信息融合提取。从步骤1-2-1)中的点云特征提取网络中得到t-2,t-1,t时刻三帧点云分别对应的的p*q*64的鸟瞰视图的特征图(本实施例为80*80*64)，对每张特征图分别进行高层次和低层次的特征的提取。以t时刻对应的特征图为例，多层次特征提取主要有两个分支，自顶而下的分支分别为3x3卷积核的二维卷积层和池化层，对于每个时刻的输入分别得到通道数为80*80*64,40*40*128,20*20*256的特征图，以获得更大感受野。而上采样分支利用反卷积操作使得t时刻自顶而下分支的80*80*64,40*40*128,20*20*256分别恢复到统一大小，得到t时刻输入时空信息融合提取网络的特征图对应的三张80*80*128的特征图，即如图2中

(大小分别为p*q*128，下标代表特征的三个层次)所标识的三张特征图。对于输入到时空信息融合提取网络中的t-2,t-1时刻的特征图也进行同样操作，得到各自对应的三张p*q*128的特征图。本发明中，输入的三帧点云独立进行原始点云处理和多层次特征提取，所以t-2,t-1时刻的输入分别独立得到对应的特征图为

和

将t-2,t-1,t时刻对应时空信息融合提取网络输出的9张特征图组成该连续三帧点云对应的3x3组特征图。

在得到3x3组特征图之后，如图3所示，时域融合算法利用3×3×3的卷积核对三帧点云的每个对应层次的特征图进行三维卷积，即对

三组特征图进行三维卷积，得到三帧点云各自对应的时域融合后的特征图。再将这三张时域融合后的特征图按通道维度拼接，得到该三帧点云对应的一个p*q*384(本实施例为80*80*384)规模张量的时空融合特征图作为时空信息融合提取网络的输出，然后将该张量输入到轨迹段预测网络进行回归。

1-2-3)构建轨迹段预测网络；

本实例使用与经典检测网络SSD相似的方式，利用先验提前设定好的锚定框和真实的检测框计算俯视图的交并比，从而确定回归目标的分配。轨迹段预测网络的输入为步骤1-2-2)得到的连续三帧点云对应的p*q*384(本实施例为80*80*384)规模的时空融合特征图，构建1x1大小卷积核的卷积层，输出为该时空融合特征特征图对应的p*q*(1+7*3)张量(本实施例为80*80*(1+7*3))，其中(1+7*3)维张量分别为输入特征图的每一个位置预测分类分数和对应的由过去t-1时刻、当前t时刻和未来帧t+1时刻预测的三帧点云的检测框组成的轨迹段。

1-3)利用步骤1-1)得到的训练集对步骤1-2)构建的深度学习网络进行训练。训练时将训练集中每一组t-2,t-1,t三个时刻的点云作为输入，网络输出对应的pxqx(1+7x3)的张量(本实施例为80x80x(1+7x3))，将该输出结果与t-1,t,t+1三个时刻对应的点云标注的目标检测框计算损失进行反向传播训练。

其中，分类损失函数

为Focal loss，组成轨迹段的三个时刻的检测框中位置损失函数

为SmoothL1范数，而朝向角的回归损失函数

为交叉熵损失，而三种损失值的权重设置为α＝1,λ_t-1＝λ_t＝λ_t+1＝2,β＝0.2。在训练时，本实例设定批大小batch size＝2，在初始学习率1e-3使用Adam优化器进行了200个epoch的训练，最终得到训练完毕的3D点云轨迹段预测深度学习网络。

2)获取待进行轨迹跟踪的点云序列，利用步骤1)训练完毕的3D点云轨迹段预测深度学习网络得到该点云序列中每个当前时刻的轨迹段检测结果，对该检测结果进行分裂，然后与前一时刻的轨迹跟踪结果进行基于距离交并比的跟踪匹配，最终得到当前时刻的轨迹跟踪结果；具体步骤如下：

2-2)将步骤2-1)获取的点云序列对应时刻用t进行表示，其中t＝0对应该点云序列中的第一帧点云。

将每一个t时刻作为当前时刻；从t(t≥2)开始，在每个当前时刻，将t-2,t-1,t时刻对应的三帧点云输入1)训练完毕的深度学习网络中，得到对应的p*q*(1+7*3)的张量的输出结果(本实施例为80*80*(1+7*3))，其中(1+7*3)维向量为输入三帧点云对应的时空融合特征图中每一个位置预测分类分数和对应的由过去t-1时刻、当前t时刻和未来t+1三个时刻的预测的点云检测框组成的轨迹段。

2-2)对步骤2-1)得到的输出结果经过分类分数的阈值筛选，筛选完毕后计算检测结果中t时刻(即输出的三个时刻中的中间时刻)预测得到的多个检测框之间的重叠面积，利用重叠面积阈值进行非极大值抑制(本实例非极大抑制所使用的重叠面积阈值为0.1)，删除t时刻被抑制的检测框，对于在t-1时刻与t+1时刻中与t时刻对应位置的检测框利用t时刻的抑制结果同样进行删除，三个时刻进行筛选去除后的检测框最终组成当前t时刻的轨迹段检测结果；

2-3)将步骤2-2)得到的当前时刻轨迹段检测结果进行分裂，然后与前一时刻的轨迹跟踪结果进行基于距离交并比的跟踪匹配，最终得到当前时刻的轨迹跟踪结果。此步骤的原理如图4所示，D^t为t时刻的轨迹段检测结果，R^t-1为t-1时刻得到轨迹跟踪结果，V^t-1为t-1时刻没有成功匹配的待消亡轨迹，B^t-1为t-1时刻的待确认的新生轨迹，图中下标的match和unmatch分别代表是否成功匹配。

具体的实现方法如下：

当t＝2时，步骤2-2)得到的t时刻的轨迹段检测结果为第一个点云轨迹段检测结果，此时不进行分裂操作，将该时刻的轨迹段检测结果直接作为初始的当前时刻轨迹跟踪结果，然后进入步骤2-3-3)。

当t(t≥3)时，得到t时刻的轨迹段检测结果后，本发明先利用如下所述的目标分裂算法对其进行分裂，再对分裂后的检测结果与前一个时刻(即t-1时刻)得到的轨迹跟踪结果进行轨迹段的匹配。

对于足球场这样的目标密集场景，常常会发生运动员相互碰撞，交错的场景。由于点云的稀疏性和遮挡问题，距离较近的多个目标的点云往往难以分割，所以轨迹预测一般会将其识别成一个目标。利用步骤2-2)得到的t时刻的轨迹段检测结果与t-1时刻的轨迹段跟踪结果中轨迹段重合的个数判断是否对t时刻的轨迹段检测结果检测结果进行分裂：若t时刻的轨迹段检测结果与t-1时刻的轨迹跟踪结果中存在两条以上的轨迹段重叠率大于设定的重叠率阈值，则需要对t时刻的轨迹段检测结果进行轨迹分裂。本发明提出了一种对轨迹段检测结果进行分裂的方法，对于多个目标重合的情况，其中心和偏航角应该为分裂目标中心坐标和偏航角的均值，即：

其中(x,y,z,θ)为重叠的检测框(x,y,z分别为重合的检测框的三维位置，θ为重叠检测框的朝向角，由前一时刻的预测得到)，(x_i,y_i,z_i,θ_i)为分裂的目标(下标i代表重合的K个跟踪目标检测框的标号)，本发明使用如下公式对于错误的预测进行分裂还原：

其中(x'_i,y'_i,z'_i,θ'_i)为分裂后的检测框位置和朝向角(下标i代表重合的K个目标的标号)。

2-3-2-1)匹配分数的计算，具体计算方式如下：

由于常规交并比对于重叠为0的两个检测框，无法度量他们的关系远近，本发明使用了距离交并比作为检测框之间关系度量的方式。距离交并比的计算示意图如附图5所示，对于分别位于t时刻的轨迹段和t-1时刻的轨迹跟踪结果中的两个检测框，ρ(a,b)为两个检测框的最远顶点距离，ρ(c₁,c₂)为两个检测框的中心点距离。具体的计算方式为：

其中IoU为常规交并比，ρ(a,b)为两个检测框的最远顶点距离，ρ(c₁,c₂)为两个检测框的中心点距离。(距离交并比是在t时刻的轨迹段检测结果和t-1时刻得到的历史轨迹之间的所有检测框计算的，如图2所示，t时刻得到的是tracklet t，用深色框圈出，而历史轨迹用没有封口的浅色U型框圈出，存在两帧重叠。匹配分数计算时，例如t时刻的轨迹段检测结果中的t-1帧的检测框和历史轨迹中t-1帧的检测框之间计算匹配分数，用来衡量远近。所以，当前时刻与历史时刻有两帧的重叠，就会计算出两个匹配分数矩阵。)

对步骤2-3-1)得到的t时刻分裂后的轨迹段检测结果，若t≥3，会与上一时刻得到的t-2,t-1,t时刻的历史轨迹存在两帧的重叠，即当前时刻分裂后的轨迹段检测结果和上一时刻的轨迹跟踪结果都有t-1,t时刻的检测框，则存在两个匹配分数矩阵。分别利用距离交并比对两个时刻结果中重叠的检测框计算匹配分数，若步骤2-3-1)得到的t时刻分裂后的轨迹段检测结果的检测框数量为m，t-1时刻匹配得到的跟踪结果中的检测框数量为n，那么计算出的匹配分数矩阵大小为mxn。再对t-1,t的两个匹配矩阵进行平均得到最终的匹配分数矩阵S。

2-3-2-2)利用步骤2-3-2-1)得到的匹配分数矩阵S对轨迹段匹配连接，本发明利用贪婪匹配算法，寻找匹配分数矩阵S中的最大值，若该最大值大于设定的分数阈值(本实例的分数阈值为-0.5)，则认为该最大值对应的分别属于当前时刻分裂后的轨迹段检测结果与前一时刻的轨迹跟踪结果两条轨迹段属于同一目标，将该两个轨迹段进行连接，得到该目标t时刻匹配后的轨迹段。随后将已经匹配成功的轨迹段对应的矩阵S的行列值设定为负无穷，并继续在矩阵S中寻找下一个最大值，直到矩阵S的最大值小于分数阈值，匹配结束。

2-3-3)轨迹消亡和新生处理，由于检测丢失或者假阳性，所以跟踪算法需要对轨迹断裂和新生轨迹进行处理，具体方法如下：

在步骤2-3-2)匹配完毕之后，得到三种轨迹，第一种是成功与t时刻分裂得到的轨迹段检测结果中成功匹配连接的轨迹段，第二种是没能在t时刻分裂得到的轨迹段检测结果中找到匹配对的历史轨迹段，第三种是没有匹配的t时刻分裂得到的轨迹段。

对于没有成功得到匹配历史轨迹段，并不立即认为该轨迹立即消亡，而是允许其在未匹配后按照恒定速度模型在当前轨迹跟踪结果中再存在6帧，若该轨迹在未来的6帧内与任一当前t时刻分裂得到的轨迹段监测结果中任一轨迹段成功匹配则恢复该历史轨迹为当前轨迹跟踪结果中的正常轨迹段，否则将其从当前轨迹跟踪结果中删除。

对于没有成功匹配的t时刻分裂得到的轨迹段中的任一轨迹段，先假设其为新出现的目标的轨迹段，若持续多帧(本实例为新生轨迹持续三帧)成功匹配跟踪后，认定为该轨迹段对应真实的目标，然后在当前轨迹跟踪结果中保留其为正常轨迹段；否则认为是假阳性目标，将其从当前轨迹跟踪结果中删除。其中，当t＝2时，初始的当前时刻轨迹跟踪结果中所有轨迹段均为新出现的目标的轨迹段。

2-3-4)完成跟踪轨迹的管理之后，输出t时刻对应的最终的跟踪轨迹结果，其中包括所有正常匹配的轨迹段和未匹配历史轨迹段，组成该时刻最终的轨迹跟踪结果。

图6展示了本发明的方法的输出结果，图中的曲线即为目标(本实例为足球运动员)的3D轨迹跟踪结果。

Claims

1.一种融合时空信息的稀疏点云多目标跟踪方法，其特征在于，包括以下步骤：

1-1)获取点云训练集；具体步骤如下：

1-2-1)构建点云特征提取网络；

1-2-2)构建时空信息融合提取网络；

从t≥2开始，将从步骤1-2-1)点云特征提取网络中得到的t-2,t-1,t时刻三帧点云分别对应的p*q*64的鸟瞰视图的特征图输入时空信息融合提取网络，对每张特征图分别进行高层次和低层次的特征的提取，时空信息融合提取网络输出各时刻点云对应的三张p*q*128的特征图共9张特征图；将该9张特征图组成t-2,t-1,t时刻三帧点云对应的3x3组特征图；

1-2-3)构建轨迹段预测网络；

其中，损失函数表达式如下：

其中，

为分类损失函数，

为组成轨迹段的三个时刻的检测框中位置损失函数，

为朝向角的回归损失函数，α，λ_i，β为损失函数的权重；

其中(x'_i,y'_i,z'_i,θ'_i)为分裂后的检测框位置和朝向角；

2-3-2-1)计算匹配分数，具体方法如下：

2-3-3)轨迹消亡和新生处理，具体方法如下：