CN110135314B

CN110135314B - 一种基于深度轨迹预测的多目标跟踪方法

Info

Publication number: CN110135314B
Application number: CN201910374592.6A
Authority: CN
Inventors: 李晓峰; 赵开开; 叶正; 傅志中; 周宁
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-05-07
Filing date: 2019-05-07
Publication date: 2020-08-11
Anticipated expiration: 2039-05-07
Also published as: CN110135314A

Abstract

本发明公开了一种基于深度轨迹预测的多目标跟踪方法，其整体步骤包括为：为多目标跟踪系统构建基于长短时记忆网络的轨迹预测模型；使用真实跟踪场景的轨迹数据训练轨迹预测模型；使用目标检测的外观特征构建保守的短时轨迹片段并计算轨迹片段间的外观相似度。使用训练好的轨迹预测模型在线上对目标进行深度轨迹预测，并得到轨迹片段间的运动相似度，综合考虑外观相似度和运动相似度，设置目标跟踪的网络模型完成多目标跟踪。本发明为多目标跟踪系统构建了基于长短时记忆网络的轨迹预测模型，相较传统方法，本发明的方法能够充分考虑目标的历史轨迹信息和场景信息，计算鲁棒性更佳的目标间运动相似度，进而提升多目标跟踪效果。

Description

一种基于深度轨迹预测的多目标跟踪方法

技术领域

本发明涉及计算机视觉和深度学习技术领域，尤其涉及一种基于深度轨迹预测的多目标跟踪方法。

背景技术

多目标跟踪是计算机视觉领域的一个研究热点，在现实生活中有着非常广泛的应用，例如视频监控、体育赛事分析、生物学研究、人机互动、机器人导航、无人驾驶等。根据目标初始化方法的不同，可以将目前大多数多目标跟踪算法分为基于检测的跟踪(Detection-Based Tracking,DBT)和无检测的跟踪(Detection-Free Tracking,DFT)，其中基于检测的跟踪算法越来越受大家的欢迎。

尽管经过学者们几十年的努力研究，多目标跟踪任务仍然远远没有达到类人的精度，这主要是因为多目标跟踪任务中几个非常棘手的问题：目标个数不确定且动态变化，目标间的频繁遮挡、目标间的相似外观、目标的复杂运动情况、目标间可能存在的交互等。现有的多目标跟踪算法中，往往使用目标间的外观相似度和运动相似度进行数据关联，在运动相似度的计算部分，大多数方法通常将目标的运动特性描述为线性运动或某种特定的非线性运动，这很难准确地描述目标在真实世界中的复杂运动情况。

深度学习的发展也推动了多目标跟踪的发展，但相对其他计算机视觉任务而言，深度学习在多目标跟踪领域的应用还有极大的发展空间。在最基本的深度学习网络结构中，循环神经网络的特点和优势在于它能够考虑历史输入信息，因此它在自然语言处理等众多序列处理任务中表现出了卓越的性能。

在多目标跟踪系统中，优良的运动特征能够在一定程度上解决目标形变、目标遮挡、目标相似外观等问题，且准确的轨迹预测结果能够减小目标跟踪算法的搜索空间。因此如何对目标的复杂运动情况进行更准确的建模，提取目标更优的运动特征，得到更准确的轨迹预测结果是提升多目标跟踪性能的重要思考方向。

发明内容

本发明的发明目的在于：针对上述存在的问题，提供一种基于深度轨迹预测的多目标跟踪方法。

本发明的基于深度轨迹预测的多目标跟踪方法，包括下列步骤：

步骤1、构建深度轨迹预测模型：

构建基于长短时记忆网络(Long Short-Term Memory Network,LSTM)的深度轨迹预测模型，该模型以目标的历史轨迹和目标所处环境的场景信息为输入，经预设的嵌入向量函数对每个时刻的输入进行嵌入向量处理后连接为一个向量，并作为当前时刻的输入向量；再经过长短时记忆网络得到目标的深度运动特征，最后经过全连接层输出目标未来连续多帧的位置信息，作为目标的轨迹预测结果；

其中，目标的历史轨迹和目标所处环境的场景信息包括：目标的位置坐标、场景边界坐标、场景兴趣点坐标和场景目的地坐标；

步骤2、训练深度轨迹预测模型：

采集训练数据集；例如从多目标跟踪平台上选取真实的跟踪数据集，对选取出来的跟踪数据集，从标注文件中计算每个目标连续多帧的检测框中心位置，并选取连续的多帧的数据作为一组训练数据，基于多组训练数据得到训练数据集；

深度轨迹预测模型训练：首先随机初始化模型参数，包括隐藏层间权重和输入向量与隐藏层间的权重；然后基于训练数据集经过前向传播过程和反向传播算法对深度轨迹预测模型进行深度学习训练，当深度轨迹预测模型满足预设的收敛条件时(达到最大迭代次数或者目标函数的结果不再明显变化(两次最近的目标函数值的差异低于预设阈值))，保存当前模型参数，得到训练好的深度轨迹预测模型；

例如，采用k折交叉验证的方式将训练数据集分为80％的训练集和20％的验证集，经过前向传播过程和反向传播算法，基于预设的目标函数优化模型参数；

步骤3、轨迹片段构建及外观相似度计算：

对于给定的视频序列(待进行多目标跟踪的视频图像)，根据每一帧中所有目标的检测框集合(可以表示为

其中

表示第t帧的第i个检测框)，分别计算帧间两个检测框的帧间视觉相似度、帧间位置平滑相似度和帧间尺寸相似度；

其中，帧间视觉相似度的计算方式为：使用颜色直方图作为检测框的视觉特征，并使用直方图的巴氏系数表示帧间两个检测框间的视觉相似度；

而帧间位置平滑相似度和帧间尺寸相似度均可采用任一惯用计算方式；

将帧间视觉相似度、帧间位置平滑相似度和帧间尺寸相似度的乘积大于预设的最低阈值的帧间两个检测框作为备选关联对；

并对于同一帧的同一检测框，将备选关联对中帧间视觉相似度、帧间位置平滑相似度和帧间尺寸相似度的乘积最大的备选关联对对应的两个检测框进行点连接(每个检测框作为一个轨迹点)，从而得到给定的视频序列中的一条轨迹片段；即基于给定的视频序列中所设置的帧间检测框连接关系，得到对应的短时轨迹片段；

以及采用平均颜色直方图的巴氏系数表示两条不冲突轨迹片段(两条轨迹片段中所包括的轨迹点不重叠)间的外观相似度；

步骤4、轨迹预测及运动相似度计算：

对于每一对不冲突的轨迹片段对(t_i,t_j)，其中i,j为轨迹片段区分符；

基于训练好的深度轨迹预测模型对轨迹片段t_i进行轨迹预测，得到轨迹预测结果；

得到未来连续多帧的位置信息；

再根据公式A_m(t_i,t_j)＝G(Δp-μ_m,Σ_m)计算轨迹片段间的运动相似度A_m(t_i,t_j)，其中，Δp是轨迹片段t_i的轨迹预测结果与轨迹片段t_j间的平均距离，即

Δp_k是轨迹片段t_i的轨迹预测结果与轨迹片段t_j重叠时间段(相同帧)中各帧(用k表示各重叠时间所对应的帧标识)的轨迹点之间的欧式距离(检测框的中心坐标位置之间的欧式距离)，K为轨迹预测结果与轨迹片段t_j重叠时间的长度，即帧数。

步骤5、数据关联：

对于给定的视频序列，以步骤3生成的各轨迹片段为节点，构建最小费用最大流网络流模型，并将轨迹片段间的外观相似度和运动相似度的融合结果作为所述最小费用最大流网络流模型中边的费用；

基于边的费用，使用连续最短路算法求解模型，完成数据关联，得到每个目标的跟踪结果。

进一步的，步骤5可以具体是：

设置多目标跟踪结果的目标函数为：

其中，l_ij＝1表示轨迹片段对(t_i,t_j)被关联，T表示每个时间窗内的轨迹片段集合，其中时间窗的大小为经验预设值，c表示被关联的轨迹片段t_i与t_j之间的边的费用(轨迹片段间的外观相似度A_a(t_i,t_j)和运动相似度A_m(t_i,t_j)的融合结果，例如设置为

其中λ_a,λ_m分别是外观相似度和运动相似度的权重)；

将所述目标函数取得最小值时的关联方案作为最优的多目标跟踪结果。综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明为多目标跟踪系统构建了基于长短时记忆网络的轨迹预测模型，该模型在线下从大量真实跟踪场景的行人轨迹数据中学习行人运动特征，线上利用模型的“记忆性”根据目标有限的历史信息生成其隐含的深度运动特征，预测目标未来最可能出现的多帧位置，计算了目标间鲁棒性更佳的运动相似度，提升了多目标跟踪的效果。

附图说明

图1是本发明的多目标跟踪整体流程图。

图2是本发明中深度轨迹预测模型的结构示意图。

图3是本发明的轨迹片段间运动相似度计算方法示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

参见图1，本发明的基于深度轨迹预测的多目标跟踪方法的具体实现过程，包括下列步骤：

步骤一、构建深度轨迹预测模型：

充分考虑目标的历史轨迹信息和目标所处环境的场景信息，为多目标跟踪场景中的目标构建基于LSTM的轨迹预测模型，轨迹预测模型结构示意图如图2所示。

以m(m＝1,…,insize)时刻为例说明m时刻模型隐藏层状态的计算过程：

首先通过公式(1)分别将目标的位置坐标

场景边界坐标

场景兴趣点坐标

和场景目的地坐标

映射为对应的向量p_m,b_m,i_m,d_m：

其中，r(·)是带有Relu激活的Embedding(嵌入向量)函数，W_p,W_b,W_i,W_d是Embedding函数的参数矩阵，四个Embedding后的向量的维度均为16。将四个向量连接为一个向量e_m＝[p_m,b_m,i_m,d_m]，然后将e_m作为模型在m时刻的输入向量，则m时刻模型隐藏层状态h_m可以由公式(2)所示的前向传播过程计算。

h_m＝LSTM(h_m-1,e_m；W_lstm) (2)

其中，LSTM(·)代表通用的长短时记忆网络的前向传播过程，W_lstm代表LSTM模型中的所有网络参数，即图2中的w(隐藏层间权重)，u(向量e_m与隐藏层间的权重)。

则轨迹预测模型的运作流程为：依次接收1～insize时刻的输入向量，经过insize次前向传播过程得到insize时刻模型的隐藏层状态h_insize，最后将h_insize输入到全连接层(FC)中得到预测的outsize帧的位置坐标P_out，insize和outsize分别是LSTM模型输入的帧数和输出的帧数，insize的合适取值范围为[5,15]，outsize的合适取值范围为[3,8]。

步骤二、数据集处理：

为了将轨迹预测模型应用到真实多目标跟踪场景中，数据集的构建和处理均基于多目标跟踪平台(例如MOT Challenge)中的真实数据，首先选取平台上的真实目标跟踪数据集(2DMOT15)，从标注文件中选择出现帧数不小于insize+outsize帧的目标，计算并整合其每一帧检测框的中心位置坐标，然后从其出现的第一帧开始，以滑动窗的方式截取insize+outsize帧的坐标作为一组训练数据，合适的滑动步长1或2，最终共生成33000组训练数据。

步骤三、深度轨迹预测模型训练：

在模型训练阶段，首先随机初始化模型参数，然后将步骤二生成的真实训练数据的输入部分作为轨迹预测模型的输入，经过前向传播过程得到预测的轨迹坐标序列，再根据训练数据中的标签，使用合适的梯度优化算法和结构化损失函数，利用反向传播思想更新模型的参数，至模型收敛，在训练时最小化目标函数的优化过程如公式(3)所示：

其中，Θ为模型的所有参数，包含W_p,W_b,W_i,W_d,W_lstm，Θ^*为最优化的模型参数，N为一批训练数据的数量，

为第i个训练样本的预测结果，Labelⁱ为第i个样本的标签，J为参数数量，λ为提高模型泛化能力的正则化项系数，合适的取值范围为[0,5]。

本具体实施方式中，在模型训练过程中，优选的优化算法为RMSprop(均方根反向传播)算法，批数据的数量BATCH_SIZE为100，隐藏层神经元个数为400，学习率为0.0001，最大迭代次数为5000，且为了避免模型在训练数据上过拟合，训练时使用交叉验证的方式将训练数据集分为80％的训练集和20％的验证集。

步骤四、轨迹片段构建及外观相似度计算：

对于给定的视频序列，

表示所有目标的检测集合，其中

代表第t帧图像的第i个目标的检测结果，x,y,s,g分别表示该检测矩形框左上角的x坐标，y坐标，尺寸和像素信息，即x,y,s,g的上下标分别用于区分不同的图像帧和不同的目标。

首先使用目标检测的RGB颜色直方图作为其视觉特征，对于相邻帧的两个检测，使用其颜色直方图特征的巴氏系数计算它们之间的视觉相似度。然后计算检测间的位置平滑相似度，尺寸相似度，当检测得到的三种相似度(视觉相似度、位置平滑相似度和尺寸相似度)的乘积大于最低阈值且在他们的冲突关联对中最大时，将二者连接起来，反之二者不连接，基于此策略，所有的检测都被关联到了唯一的一条短时轨迹片段t_k上。最后，使用两条轨迹片段t_i和t_j间平均颜色直方图的巴氏系数作为两条“不冲突”轨迹片段间的外观相似度A_a(t_i,t_j)，“不冲突”是指两条轨迹片段不包含同一个检测响应且二者没有重叠时间区域。

步骤五、轨迹预测及运动相似度计算：

如图3所示，对于每一对“不冲突”的轨迹片段(t_i,t_j)，将t_i每一帧检测的坐标及其对应的场景信息输入到步骤一所构建的深度轨迹预测模型中，得到其未来连续多帧最可能出现的位置

并使用公式(4)计算

与t_j重叠时间上的平均欧式距离Δp：

其中，K为

与t_j重叠时间的长度，在图3中以K＝3为例，Δp_k是

与t_j重叠帧中第k帧检测的中心坐标的欧式距离。最后使用公式(5)所示的高斯函数来度量轨迹片段(t_i,t_j)间的运动相似度A_m(t_i,t_j)：

A_m(t_i,t_j)＝G(Δp-μ_m,Σ_m) (5)

其中，G()表示高斯函数，μ_m，Σ_m分别为高斯分布的均值和方差，μ_m的范围为[0,10]，Σ_m的范围为[0,10]。

步骤六、数据关联：

对于给定视频序列，按照上述步骤生成轨迹片段并得到任意两条轨迹片段间的外观相似度和运动相似度后，以轨迹片段作为网络流节点，构建最小费用最大流网络流模型，该网络流模型的目标函数如公式(6)所示，最优的多目标跟踪结果即为该目标函数最小时的关联方案。

其中，l_ij＝1表示轨迹片段(t_i,t_j)被关联，T是一个时间窗内的轨迹片段集合，c是关联t_i和t_j的边的费用且

其中A_a(t_i,t_j)和A_m(t_i,t_j)即为轨迹片段(t_i,t_j)间的外观相似度和运动相似度，λ_a,λ_m分别是外观相似度和运动相似度的权重，二者的取值范围均为[0,1]且λ_a+λ_m＝1，最小费用最大流网络流模型求解算法为连续最短路算法。

本发明的多目标跟踪方法的性能验证：将本发明的多目标跟踪方法在公开平台上的所有测试集序列上进行验证，得到每个序列的多目标跟踪指标，对跟踪结果进行定量和定性分析，并和传统方法及国际领先的多目标跟踪方法进行对比，部分指标对比结果如表1所示。

表1多目标跟踪方法MOTA指标对比

MOTA↑	Venice-1	KITTI-16	ADL-Rundle-3	AVG-TownCentre	PETS09-S2L2	TUD-Crossing
							外观	14.1	28.3	34.3	18	24	56.4
外观+线性	14.2	30.9	34.7	23	24.1	55.6
							外观+LSTM	18.9	31.9	36.1	23	27.6	59.3

在表1中，给出了三种跟踪方法在六个公开数据集(Venice-1、KITTI-16、ADL-Rundle-3、AVG-TownCentre、PETS09-S2L2和TUD-Crossing)上的多目标跟踪准确度指标(MOTA)，“MOTA↑”表示该指标的数值越大，性能越好。三种跟踪方法分别是在步骤六的数据关联中使用外观相似度(外观)，使用外观相似度结合线性轨迹预测模型计算的运动相似度(外观+线性)以及使用外观相似度结合本发明中深度轨迹预测模型计算的运动相似度(外观+LSTM)，表1验证了本发明基于深度轨迹预测的多目标跟踪方法的有效性。

综上，本发明的实施所带来的有益效果如下：

(1)为了解决多目标跟踪系统中传统的线性轨迹预测及非线性轨迹预测方法的局限性，基于长短时记忆网络，通过结构设计、超参搜索、数据准备、模型训练和模型验证等流程构建了目标轨迹预测模型，该模型在线下从大量真实跟踪场景的行人轨迹数据中学习行人运动特征，线上利用模型的“记忆性”根据目标有限的历史信息生成目标隐含的深度运动特征，预测目标未来最可能出现的多帧位置，计算了鲁棒性更佳的运动相似度，提升了多目标跟踪的效果。

(2)在基本的轨迹预测模型的基础上设计了针对的输入结构，隐藏层结构和损失函数，考虑了场景信息对目标运动的影响，提高了轨迹预测的真实性和可靠性，提升了多目标跟踪的效果。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种基于深度轨迹预测的多目标跟踪方法，其特征在于，包括下列步骤：

步骤1、构建深度轨迹预测模型：

构建基于长短时记忆网络的深度轨迹预测模型，该模型以目标的历史轨迹和目标所处环境的场景信息为输入，经预设的嵌入向量函数对每个时刻的输入进行嵌入向量处理后连接为一个向量，并作为当前时刻的输入向量；再经过长短时记忆网络得到目标的深度运动特征，最后经过全连接层输出目标未来连续多帧的位置信息，作为目标的轨迹预测结果；

步骤2、训练深度轨迹预测模型：

采集训练数据集：从多目标跟踪平台上选取真实的跟踪数据集，对选取出来的跟踪数据集，从标注文件中计算每个目标连续多帧的检测框中心位置，并选取连续的多帧的数据作为一组训练数据，基于多组训练数据得到训练数据集；

深度轨迹预测模型训练：首先随机初始化模型参数，包括隐藏层之间的权重，以及输入向量与隐藏层之间的权重；然后基于训练数据集经过前向传播过程和反向传播算法对深度轨迹预测模型进行深度学习训练，当深度轨迹预测模型满足预设的收敛条件时，保存当前模型参数，得到训练好的深度轨迹预测模型；

步骤3、轨迹片段构建及外观相似度计算：

对于给定的视频序列，根据每一帧中所有目标的检测框集合，分别计算帧间两个检测框的帧间视觉相似度、帧间位置平滑相似度和帧间尺寸相似度；

并对于同一帧的同一检测框，将备选关联对中帧间视觉相似度、帧间位置平滑相似度和帧间尺寸相似度的乘积最大的备选关联对对应的两个检测框进行点连接，即将每个检测框作为一个轨迹点，从而得到给定的视频序列中的一条轨迹片段；

以及采用平均颜色直方图的巴氏系数表示两条不冲突轨迹片段间的外观相似度；

步骤4、轨迹预测及运动相似度计算：

得到未来连续多帧的位置信息；

再根据公式A_m(t_i,t_j)＝G(Δp-μ_m,Σ_m)计算轨迹片段间的运动相似度A_m(t_i,t_j)，其中，Δp是轨迹片段t_i的轨迹预测结果与轨迹片段t_j间的平均距离，G()表示高斯函数，μ_m，Σ_m分别为高斯函数G()的均值和方差；

步骤5、数据关联：

2.如权利要求1所述的方法，其特征在于，步骤4中，

平均距离Δp具体为：

其中，Δp_k表示轨迹片段t_i的轨迹预测结果与轨迹片段t_j重叠时间段中各帧的轨迹点之间的欧式距离，K为轨迹预测结果与轨迹片段t_j重叠时间的长度，即帧数，k表示各重叠时间所对应的帧标识。

3.如权利要求1所述的方法，其特征在于，将步骤5中的数据关联的处理过程设置为：

设置多目标跟踪结果的目标函数为：

其中，l_ij＝1表示轨迹片段对(t_i,t_j)被关联，T表示每个时间窗内的轨迹片段集合，c表示被关联的轨迹片段t_i与t_j之间的边的费用；

将所述目标函数取得最小值时的关联方案作为最优的多目标跟踪结果。

4.如权利要求3所述的方法，其特征在于，被关联的轨迹片段t_i与t_j之间的边的费用的计算方式设置为：

其中A_a(t_i,t_j)表示轨迹片段间的外观相似度，λ_a,λ_m分别是外观相似度和运动相似度的权重，且λ_a+λ_m＝1。

5.如权利要求1所述的方法，其特征在于，步骤1中，用insize、outsize分别表示深度轨迹预测模型输入和输出的帧数，并设置insize的取值范围为[5,15]；outsize的取值范围为[3,8]。

6.如权利要求1所述的方法，其特征在于，步骤4中，高斯分布的均值和方差取值范围分别设置为：μ_m的范围为[0,10]，Σ_m的范围为[0,10]。