CN115457086A

CN115457086A - 基于双目视觉和卡尔曼滤波的多目标跟踪算法

Info

Publication number: CN115457086A
Application number: CN202211127966.2A
Authority: CN
Inventors: 章雨昂; 仲维; 刘勇; 刘晋源; 王维民; 樊鑫; 刘日升; 罗钟铉
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2022-09-16
Filing date: 2022-09-16
Publication date: 2022-12-09

Abstract

本发明属于图像处理和计算机视觉领域，涉及基于双目视觉和卡尔曼滤波的多目标跟踪算法。基于DeepSort算法基本流程，通过双目立体视觉获取目标的距离信息，使用卡尔曼滤波来估计运动信息，同时在目标状态上增加距离维度和距离变化维度，提高目标检测阶段的稳定性，解决了单目检测与运动估计无法很好适应自动驾驶数据集和目标移动速度较快的情况，进而增强目标跟踪的效果。

Description

基于双目视觉和卡尔曼滤波的多目标跟踪算法

技术领域

本发明属于图像处理和计算机视觉领域，涉及基于双目视觉和卡尔曼滤波的多目标跟踪算法。

背景技术

随着计算机视觉技术的发展，海量的视觉信息被获取、传输以及分析，因此如何让计算机处理这些视频数据成为了当前的研究热点，其中视觉目标跟踪技术是处理这些视频数据的重要手段，视频目标跟踪已成为现计算机视觉领域的热门问题，在视频监控、无人驾驶、人机交互、军事应用等诸多方面都有广泛的应用前景。视觉目标跟踪要解决的问题可以表述为：在视频序列中，给出第一帧中目标的位置和大小(通常是一个矩形边界框)，需要在后续帧中预测出目标的位置和大小。多目标跟踪相对于单目标跟踪更加复杂，更加具有挑战,其学术价值和商业潜力受到越来越多的关注。虽然已经提出了不同的方法来解决这个问题，但由于外观突变和严重的物体遮挡等因素，仍然具有挑战性。深度学习在目标检测领域的应用使得检测的准确度有了巨大的提升，这也使得基于检测的跟踪方法(Tracking-by-detection)能够依托目标检测的良好性能拥有更好的表现。

DeepSort算法是现今最流行，最实用的多目标跟踪范式之一，现有的SOTA方法大多都使用了和DeepSort类似的模式，如JDE，FairMOT等，本发明的算法也基于该流程进行改进。跟踪问题一般要把当前检测的结果与过去已有的跟踪对象进行关联，通过关联来确定当前的检测目标与过去哪一个已有的跟踪对象是一致的。DeepSort范式的流程如图1所示，在处理一张图片的流程中，首先通过检测器检测目标，一般来说检测器的结果是boundingbox(边界框)，它包含了目标在图像上的位置信息。

下一步是数据关联，这一步分两个分支：基于外观信息的数据关联和基于运动信息的数据关联。以基于外观信息的数据关联为例说明，首先要进行外观信息估计，目标的边界框和图像通过某些方式可以抽象为外观信息，这个特征也被称为embedding，一般用多维向量表示，通过神经网络或其它方式把一个区域图像的像素提取为特征。其次，因为要与已有的跟踪对象进行匹配，所以当前的检测到的目标需要与过去的目标计算相似度。一般使用余弦距离，欧式距离等距离来衡量计算两个embedding之间的距离即计算两个目标的相似度。最后一步是分配，多目标跟踪的复杂性体现在多对多的匹配上，在有了相似度的前提下，多个当前检测和多个过去跟踪对象的匹配问题，这个匹配一般被看作是指派问题(Assignment Problem)，通常使用匈牙利算法求解，通过求解可以得到未匹配的检测，匹配成功的对象，未匹配的跟踪对象3种类型的结果。

卡尔曼滤波(Kalman filtering)是一种利用线性系统状态方程，通过系统输入输出观测数据，对系统状态进行最优估计的算法。可在任何含有不确定信息的动态系统中使用卡尔曼滤波，对系统下一步的走向做出有根据的预测，即使伴随着各种干扰，卡尔曼滤波总是能指出真实发生的情况。在连续变化的系统中，使用卡尔曼滤波是非常理想的，它具有占用内存小的优点，并且速度很快，很适合用于实时问题和嵌入式系统。在目标跟踪应用中，使用卡尔曼滤波器对系统进行预测，可以有效地解决目标移动过程中出现遮挡导致目标丢失的情况。

在基于运动信息进行跟踪时，单目检测无法很好适应自动驾驶数据集或目标移动速度较快的情况，因为基于运动模型的跟踪算法非常依赖检测目标在二维图像上的位置。目标检测的输出结果一般为目标在二维图像上所露出区域，如果目标被其它物体遮挡，则该目标检测边界框会发生变化，在二维图像上会表现为该目标发生移动。相比于单目视觉，双目视觉不依赖于训练和学习，因此不需要庞大的训练集。同时双目视觉依靠不同摄像头同时获得的两幅图像，计算物体在两幅图上的视差(同一物体在两幅图像中横坐标之差)就可以得到图像中的深度信息，完成场景中物体或障碍物距离的计算，拥有该目标的距离信息，即使二维边界框发生移动，但因为其依然包含该目标，目标的三维距离不发生较大变化，可以通过距离信息判定当前检测的目标是否是已有的跟踪对象。因此本发明算法结合深度学习，双目视觉的距离信息以及常用的跟踪方法卡尔曼滤波改进上述算法性能。

发明内容

本发明提供基于双目视觉和卡尔曼滤波的多目标跟踪算法，通过双目视觉获得两幅图像，计算物体在两幅图上的视差，从而得到图像中的深度信息，完成场景中物体或障碍物距离的计算，拥有该目标的距离信息，将该距离信息作为新的维度添加至卡尔曼滤波状态，来估计物体运动信息，进而增强跟踪效果。

本发明的技术方案为：

基于双目视觉和卡尔曼滤波的多目标跟踪算法，包括步骤如下：

1)利用双目视觉模型进行目标检测，获取图像中的深度信息，完成场景中物体或障碍物距离的计算，获得该目标的距离信息。

2)将第一帧次检测到的结果创建其对应的轨迹。将卡尔曼滤波的运动变量初始化，在其状态上新增了距离维度和距离变化维度，预测其对应的边界框。

3)将该帧目标检测的边界框和第上一帧通过轨迹预测的边界框一一进行IOU匹配，再通过IOU匹配的结果计算其代价矩阵(cost matrix，其计算方式是1-IOU)。

4)将步骤3)中得到的所有的代价矩阵作为匈牙利算法的输入，得到线性的匹配的结果，这时得到的结果有三种：第一种是轨迹失配，直接将失配的轨迹删除；第二种是检测框失配，将这样的检测框初始化为一个新的轨迹；第三种是检测框和预测框配对成功，这说明前一帧和后一帧追踪成功，将其对应的检测框通过卡尔曼滤波更新其对应的轨迹变量。

5)反复循环步骤3)-4)，直到出现确认态的轨迹或者视频帧结束。

6)通过卡尔曼滤波预测其确认态的轨迹和不确认态的轨迹对应的边界框。将确认态的轨迹的预测边界框和检测边界框进行级联匹配。

7)进行级联匹配后有三种可能的结果。第一种，轨迹匹配，这样的轨迹通过卡尔曼滤波更新其对应的轨迹变量。第二第三种是检测框和轨迹失配，这时将之前的不确认状态的轨迹和失配的轨迹一起和失配的检测框一一进行IOU匹配，再通过IOU匹配的结果计算其代价矩阵(cost matrix，其计算方式是1-IOU)。

8)将步骤7)中得到的所有的代价矩阵作为匈牙利算法的输入，得到线性的匹配的结果，这时候得到的结果有三种：第一种是轨迹失配，我们直接将失配的轨迹删除；第二种是检测框失配，将这样的检测框初始化为一个新的轨迹；第三种是检测框和预测框配对成功，这说明前一帧和后一帧追踪成功，将其对应的检测框通过卡尔曼滤波更新其对应的轨迹变量。

9)反复循环6)-8)步骤，直到视频帧结束。

本发明的有益效果：本发明解决了单目检测与运动估计无法很好适应自动驾驶数据集和目标移动速度较快的情况，基于DeepSort算法基本流程，通过双目立体视觉获取目标的距离信息，使用卡尔曼滤波来估计运动信息，同时在目标状态上增加距离维度和距离变化维度，提高目标检测阶段的稳定性，进而增强目标跟踪的效果。

附图说明

图1为遵循DeepSort跟踪范式的算法大致流程图。

图2为本发明的详细流程图。

图3为平行式双目立体视觉模型。

图4(a)和图4(b)分别为可见光相机拍摄的图像与其视差图。

图5在kitti数据集上跟踪的效果图。

图6为实施例中在双目数据集上的效果图。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

本发明的基于双目视觉和卡尔曼滤波的多目标跟踪算法，基本流程如图2所示，具体如下：

1)利用双目视觉进行目标检测，获取图像中的深度信息，完成场景中物体或障碍物距离的计算，拥有该目标的距离信息。

双目立体视觉模型：单目相机的图像采集是三维立体空间到二维平面的映射过程，丢失了深度信息。双目立体视觉则可恢复丢失的深度信息，重建三维立体场景，成像模型有汇聚式(仿生)和平行式两种，其中平行式可以看作双目汇聚距离为无限远的特例。由于基于平行式的双目立体匹配的模型相对简单且相关研究较多，本发明主要采用平行式双目立体视觉模型，如图3所示：

图中左右相机的原点分别为O_cl和O_cr，光心之间的距离为B，称为基线长度，基线与相机光轴垂直。以左相机作为基准相机，则空间中P点在左相机坐标系下坐标为P(x_c,y_c,z_c)。设点P在左右图像上的图像坐标分别为p_l(u_l,v_l)和p_r(u_r,v_r)。

平行式双目立体相机中图像像素坐标系与相机坐标系的转换关系如公式(1.1)所示：

进一步得到点P(x_c,y_c,z_c)，如公式(1.2)所示：

其中d＝u_l-u_r，称为点P的视差值(disparity)，a_u、a_v、u₀和v₀是相机内参，B为双目基线长度。可以看出，只要知道双目相机的内部参数和基线长度，以及图像坐标p_l(u_l,v_l)和视差值d，就可以求出空间点P(x_c,y_c,z_c)在相机坐标系下的坐标，其中z_c为目标的距离。

2)将第一帧次检测到的结果创建其对应的轨迹。将卡尔曼滤波的运动变量初始化，在其状态上新增了距离维度和距离变化维度，通过卡尔曼滤波预测其对应的边界框。这时候的轨迹一定是不确认态的。

2-1)使用卡尔曼滤波来估计三维世界目标在二维图像上的运动信息。将目标状态设置为x，同时在其状态上新增距离维度和距离变化维度：

其中u,v是目标在图像上二维坐标的中心点横纵坐标，γ是目标边界框的宽高比，h是目标边界框的高度(类似面积，可以指代目标的距离)，dis是目标在边界框中心像素位置对应的三维世界位置和左相机成像平面的垂直距离，即步骤1中的z_c；带有“·”标记的是对应字母所代表变量变化的速率。

2-2)卡尔曼滤波分为2个步骤，预测和校正。预测是基于上一时刻状态估计当前时刻状态，而校正则是综合当前时刻的估计状态与观测状态，估计出最优的状态。预测与校正的过程所下：

预测：

x_k＝Ax_k-1+Bu_k(1.3)

P_k＝AP_k-1A^T+Q (1.4)

校正：

K_k＝P_kH^T(HP_KH^T+R)^-1(1.5)

x_k＝x_k+K_k(z_k-Hx_k) (1.6)

P_k＝(1-K_kH)P_k(1.7)

公式(1.3)是状态预测，公式(1.4)是误差矩阵预测，公式(1.5)是卡尔曼增益计算，公式(1.6)是状态校正，其输出即是最终的卡尔曼滤波结果，公式(1.7)是误差矩阵更新。x_k代表k时刻的状态，A代表状态转移矩阵，和具体的线性系统相关，u_k代表k时刻外界对系统的作用，B代表输入控制矩阵，外界的影响如何转化为对状态的影响，P代表协方差矩阵，Q代表预测噪声协方差矩阵，R代表测量噪声协方差矩阵，H代表观测矩阵，K_k代表K时刻的卡尔曼增益，z_k代表K时刻的观测值。

3)采用与步骤2)相同的方法获得该帧目标检测的边界框，将该帧目标检测的边界框和第上一帧通过轨迹预测的边界框一一进行IOU(交并比)匹配。IOU匹配的原理是用预测框和检测框的交集面积除以并集面积为交并比IOU，再通过IOU匹配的结果计算其代价矩阵(cost matrix，其计算方式是1-IOU)。

4)将步骤3)中得到的所有的代价矩阵作为匈牙利算法的输入，得到线性的匹配的结果，这时得到的结果有三种，第一种是轨迹失配，直接将失配的轨迹(因为这个轨迹是不确定态了，如果是确定态的话则要连续达到一定的次数(默认30次)才可以删除)删除；第二种是检测框失配，将这样的检测框初始化为一个新的轨迹；第三种是检测框和预测框配对成功，这说明前一帧和后一帧追踪成功，将其对应的检测通过卡尔曼滤波更新其对应的轨迹变量。

匈牙利算法基于代价矩阵找到最小代价的分配方法，是解决分配问题中最优匹配(最小代价)的算法。其中依据定理：代价矩阵的行或列同时加或减一个数，得到新的代价矩阵的最优匹配与原代价矩阵相同。

算法步骤：

(1)若代价矩阵不为方阵，则在相应位置补0转换为方阵；

(2)代价矩阵每一行减去此行最小值后每一列减去此列最小值；

(3)用最少的横线或竖线覆盖代价矩阵中的所有0元素；

(4)找出(3)中未被覆盖元素的最小值，且未被覆盖元素减去该最小值；

对覆盖直线交叉点元素加上该最小值；

(5)重复(3)和(4)，直到覆盖线的数量等于对应方阵的维度数，最后得到的代价矩阵，根据最小代价匹配原则进行匹配。

5)反复循环3)-4)步骤，直到出现确认态的轨迹或者视频帧结束。

6)通过卡尔曼滤波预测其确认态的轨迹和不确认态的轨迹对应的边界框。将确认态的轨迹的预测边界框和是检测边界框进行级联匹配(之前每次只要轨迹匹配上都会保存检测框的外观特征和运动信息，默认保存前100帧，利用外观特征和运动信息和检测框进行级联匹配,这么做是因为确认态的轨迹和检测框匹配的可能性更大)。

6-1)为了整合运动信息，计算第j个检测框和第i条轨迹之间的马氏距离：

d⁽¹⁾(i,j)＝(d_j–y_i)^TS_i ^-1(d_j-y_i) (1.8)

y_i和S_i是卡尔曼滤波预测得到的均值和方差，表示第i条轨迹分布在测量空间中的投影，d_j表示第j个检测框。马氏距离通过测量检测距离平均轨道位置有多少标准偏差来考虑状态估计的不确定性。另外，使用该度量，可以根据从逆χ²分布计算出的95％置信区间对马氏距离进行阈值化来排除不太可能的关联，用公式(1.9)指标来表示：

b_i,j ⁽¹⁾＝1[d⁽¹⁾(i,j)≤t⁽¹⁾] (1.9)

如果第i条轨迹和第j个检测框之间的关联是可允许的则置1，四个维度测量空间的相应马氏阈值为t⁽¹⁾＝9.4877。

6-2)当运动不确定性较低时，引入马氏距离是一个合适的关联矩阵。但是卡尔曼滤波对于目标位置的预测是粗糙的，且摄像头的可以引入高速的位移，因此需要第二个矩阵整合外观特征来解决分配问题。

对于每个检测边界框d_j，计算外观描述符r_j，||r_j||＝1。设置

L_k＝100，表示每个轨迹k的关联外貌。第二个矩阵测量第i个轨迹和第j个检测框在外貌特征的最小余弦距离：

d⁽²⁾(i,j)＝min{1-r_j ^Tr_k ⁽ⁱ⁾|r_k ⁽ⁱ⁾∈R_i} (1.10)

根据此度量，引入一个二元变量表示是否关联：

b_i,j ⁽²⁾＝1[d⁽²⁾(i,j)≤t⁽²⁾] (1.11)

阈值容易确定，在实践中，可以使用一个预先训练好的CNN来计算边界框的外观描述符。

6-3)通过结合使用分配问题的不同方面，公式(1.9)与公式(1.11)中的两个指标可以相互补充。一方面，马氏距离基于运动提供有关可能的目标位置的信息，这对于短期预测特别有用。另一方面，当运动的判别力较弱时，余弦距离会考虑外观信息，这些信息对于长时间遮挡后恢复身份(identity)特别有用。为了建立关联问题，使用加权总和将两个指标结合起来。

c_i,j＝λd⁽¹⁾(i,j)+(1-λ)d⁽²⁾(i,j)(1.12)

当摄像机高速运动的情况下，可以设置λ＝0来控制损失值关注外貌特征。还有个关联可容许矩阵，用于两个矩阵的门控：

级联匹配使用门控距离矩阵(运动特征)和外观语义特征距离矩阵(外观特征)加权计算代价矩阵，其中门控距离和外观语义特征距离都通过对应的阈值限制过大的值。匹配过程根据最大级联匹配深度逐层进行目标框与轨迹的关联，即根据连续匹配失败次数与匹配深度对应，实现匹配失败次数少的轨迹优先匹配，失败次数多的轨迹靠后匹配。通过级联匹配，可以重新将被遮挡后重现的目标找回，降低ID切换次数(ID-Switch)。

7)进行级联匹配后有三种可能的结果。第一种，轨迹匹配，这样的轨迹通过卡尔曼滤波更新其对应的轨迹变量。第二和第三种分别是检测失配框和轨迹失配，这时将之前的不确认状态的轨迹和失配的轨迹一起和失配的检测框一一进行IOU匹配，再通过IOU匹配的结果计算其代价矩阵(cost matrix，其计算方式是1-IOU)。

8)将步骤7)中得到的所有的代价矩阵作为匈牙利算法的输入，得到线性的匹配的结果，这时候得到的结果有三种：第一种是轨迹失配，我们直接将失配的轨迹(因为这个轨迹是不确定态了，如果是确定态的话则要连续达到一定的次数(默认30次)才可以删除)删除；第二种是检测框失配，将这样的检测框初始化为一个新的轨迹；第三种是检测框和预测框配对成功，这说明前一帧和后一帧追踪成功，将其对应的检测框通过卡尔曼滤波更新其对应的轨迹变量。

9)反复循环步骤6)-8)，直到视频帧结束。图4(a)和图4(b)分别为可见光相机拍摄的图像与及其图像对应的视差图，图5为本算法在kitti数据集上进行目标跟踪的效果图，可以看到图中的车辆均被正确识别和跟踪到；图6为实际应用双目相机拍摄的场景中的跟踪效果图，可以看出行人和车辆均被正确检测且跟踪到了，在实际应用中鲁棒性强，跟踪效果显著。

Claims

1.基于双目视觉和卡尔曼滤波的多目标跟踪算法，其特征在于，包括下列步骤：

1)利用双目视觉模型进行目标检测，获取图像中的深度信息，完成场景中物体或障碍物距离的计算，获得该目标的距离信息；具体如下：

双目立体视觉模型：左右相机的原点分别为O_cl和O_cr，光心之间的距离为B，称为基线长度，基线与相机光轴垂直；以左相机作为基准相机，则空间中P点在左相机坐标系下坐标为P(x_c,y_c,z_c)；设点P在左右图像上的图像坐标分别为p_l(u_l,v_l)和p_r(u_r,v_r)；

进一步得到点P(x_c,y_c,z_c)，如公式(1.2)所示：

其中d＝u_l-u_r，称为点P的视差值，a_u、a_v、u₀和v₀是相机内参，B为双目基线长度；只要知道双目相机的内部参数和基线长度，以及图像坐标p_l(u_l,v_l)和视差值d，就可求出空间点P(x_c,y_c,z_c)在相机坐标系下的坐标，其中z_c为目标的距离；

2)将第一帧次检测到的结果创建其对应的轨迹；将卡尔曼滤波的运动变量初始化，在其状态上新增距离维度和距离变化维度，通过卡尔曼滤波预测目标对应的边界框；具体如下：

2-1)使用卡尔曼滤波来估计三维世界目标在二维图像上的运动信息；将目标状态设置为x，同时在其状态上新增距离维度和距离变化维度：

其中u,v是目标在图像上二维坐标的中心点横纵坐标，γ是目标边界框的宽高比，h是目标边界框的高度，dis是目标在边界框中心像素位置对应的三维世界位置和左相机成像平面的垂直距离，即步骤1中的z_c；带有“·”标记的是对应字母所代表变量变化的速率：

2-2)卡尔曼滤波分为2个步骤，预测和校正；预测是基于上一时刻状态估计当前时刻状态，而校正则是综合当前时刻的估计状态与观测状态，估计出最优的状态；预测与校正的过程所下：

预测：

x_k＝Ax_k-1+Bu_k(1.3)

P_k＝AP_k-1A^T+Q (1.4)

校正：

K_k＝P_kH^T(HP_KH^T+R)^-1(1.5)

x_k＝x_k+K_k(z_k-Hx_k) (1.6)

P_k＝(1-K_kH)P_k(1.7)

公式(1.3)是状态预测，公式(1.4)是误差矩阵预测，公式(1.5)是卡尔曼增益计算，公式(1.6)是状态校正，其输出即是最终的卡尔曼滤波结果，公式(1.7)是误差矩阵更新；x_k代表k时刻的状态，A代表状态转移矩阵，和具体的线性系统相关，u_k代表k时刻外界对系统的作用，B代表输入控制矩阵，外界的影响如何转化为对状态的影响，P代表协方差矩阵，Q代表预测噪声协方差矩阵，R代表测量噪声协方差矩阵，H代表观测矩阵，K_k代表K时刻的卡尔曼增益，z_k代表K时刻的观测值；

3)采用与步骤2)相同的方法获得该帧目标检测的边界框，将该帧目标检测的边界框和第上一帧通过轨迹预测的边界框一一进行交并比IOU匹配；IOU匹配的原理是用预测框和检测框的交集面积除以并集面积为交并比IOU，再通过IOU匹配的结果计算其代价矩阵；

4)将步骤3)中得到的所有的代价矩阵作为匈牙利算法的输入，得到线性的匹配的结果，这时得到的结果有三种：第一种是轨迹失配，直接将失配的轨迹；第二种是检测框失配，将这样的检测框初始化为一个新的轨迹；第三种是检测框和预测框配对成功，说明前一帧和后一帧追踪成功，将其对应的检测通过卡尔曼滤波更新其对应的轨迹变量；

5)反复循环步骤3)-4)，直到出现确认态的轨迹或者视频帧结束；

6)通过卡尔曼滤波预测其确认态的轨迹和不确认态的轨迹对应的边界框；将确认态的轨迹的预测边界框和检测边界框进行级联匹配；具体如下：

d⁽¹⁾(i,j)＝(d_j–y_i)^TS_i ^-1(d_j-y_i) (1.8)

y_i和S_i是卡尔曼滤波预测得到的均值和方差，表示第i条轨迹分布在测量空间中的投影，d_j表示第j个检测框；马氏距离通过测量检测距离平均轨道位置有多少标准偏差来考虑状态估计的不确定性；另外，使用该度量，可以通过根据从逆χ²分布计算出的95％置信区间对马氏距离进行阈值化来排除不太可能的关联，用公式(1.9)指标来表示：

b_i,j ⁽¹⁾＝1[d⁽¹⁰(i,j)≤t⁽¹⁾] (1.9)

如果第i条轨迹和第j个检测框之间的关联是可允许的则置1；

6-2)当运动不确定性较低时，引入马氏距离是一个合适的关联矩阵；但是卡尔曼滤波对于目标位置的预测是粗糙的，且摄像头的可以引入高速的位移，因此需要第二个矩阵整合外观特征来解决分配问题；

对于每个检测边界框d_j，计算外观描述符r_j，||r_j||＝1；设置

表示每个轨迹k的关联外貌；第二个矩阵测量第i个轨迹和第j个检测框在外貌特征的最小余弦距离：

d⁽²⁾(i,j)＝min{1-r_j ^Tr_k ⁽ⁱ⁾|r_k ⁽ⁱ⁾∈R_i} (1.10)

根据此度量，引入一个二元变量表示是否关联：

b_i,j ⁽²⁾＝1[d⁽²⁾(i,j)≤t⁽²⁾] (1.11)

6-3)通过结合使用分配问题的不同方面，公式(1.9)与公式(1.11)中的两个指标可以相互补充；为了建立关联问题，使用加权总和将两个指标结合起来；

c_i,j＝λd⁽¹⁾(i,j)+(1-λ)d⁽²⁾(i,j)(1.12)

当摄像机高速运动的情况下，设置λ＝0来控制损失值关注外貌特征；还有个关联可容许矩阵，用于两个矩阵的门控：

7)进行级联匹配后有三种可能的结果；第一种，轨迹匹配，这样的轨迹通过卡尔曼滤波更新其对应的轨迹变量；第二和第三种分别是检测失配框和轨迹失配，这时将之前的不确认状态的轨迹和失配的轨迹一起和失配的检测框一一进行IOU匹配，再通过IOU匹配的结果计算其代价矩阵；

8)将步骤7)中得到的所有的代价矩阵作为匈牙利算法的输入，得到线性的匹配的结果，这时候得到的结果有三种：第一种是轨迹失配，我们直接将失配的轨迹删除；第二种是检测框失配，将这样的检测框初始化为一个新的轨迹；第三种是检测框和预测框配对成功，这说明前一帧和后一帧追踪成功，将其对应的检测框通过卡尔曼滤波更新其对应的轨迹变量；

9)反复循环步骤6)-8)，直到视频帧结束。