CN110047096B

CN110047096B - 一种基于深度条件随机场模型的多目标跟踪方法和系统

Info

Publication number: CN110047096B
Application number: CN201910348058.8A
Authority: CN
Inventors: 项俊; 徐国寒; 侯建华; 张国帅; 麻建; 王超; 蓝华
Original assignee: South Central University for Nationalities
Current assignee: South Central Minzu University
Priority date: 2019-04-28
Filing date: 2019-04-28
Publication date: 2019-11-22
Anticipated expiration: 2039-04-28
Also published as: CN110047096A

Abstract

本发明公开了一种基于深度条件随机场模型的多目标跟踪方法，包括：获取多目标跟踪数据集，对输入视频序列的所有帧中任意两个连续帧的检测响应进行数据关联，以得到轨迹片，根据得到的轨迹片集合中任意两个轨迹片之间的时间关系生成顶点，计算顶点集合中每个顶点对应的两个轨迹片之间的匹配度，根据顶点集合中任意两个顶点之间的时间关系和位置关系确定困难顶点对集合，获取得到的困难顶点对集合中每个困难顶点对的外观特征和位置信息，将该困难顶点对的外观特征和运动特征组合成困难顶点对特征向量，将每个困难顶点对特征向量输入LSTM网络。本发明能够有效体现多目标跟踪过程中真实数据的相关性，跟踪结果的准确性高。

Description

一种基于深度条件随机场模型的多目标跟踪方法和系统

技术领域

本发明属于模式识别技术领域，更具体地，涉及一种基于深度条件随机场模型的多目标跟踪方法和系统。

背景技术

多目标跟踪(Multiple object tracking，简称MOT)因其学术潜力和商业价值，在计算机视觉领域备受关注。MOT的主要任务是在给定视频序列中对感兴趣目标进行运动轨迹检索、对感兴趣目标的位置进行标定、以及对各个感兴趣目标的身份(即ID)进行鉴别，感兴趣目标可以是行人、车辆、动物，甚至是一个目标的不同组成部分。

现有多目标跟踪方法大多都是基于检测的数据关联模型，即给定视频中逐步帧的目标检测响应后，将目标跟踪转化为数据关联问题，其关键技术是设计有效的度量模型，用于度量检测响应与轨迹片之间的相似度，然后根据相似度采用有效的优化策略来决定检测响应和轨迹片是否属于同一目标。然而，现有基于数据关联模型的多目标跟踪方法都是独立的关联检测响应和轨迹片，却并没有考虑到它们之间成对的依赖关系，这会损失很多可以利用的有效信息，而这些有效信息在一定程度上可以用来解决遮挡问题，并克服外观相似且时空域相近的目标身份易混淆问题。

为了解决上述问题，一种有效的办法是经典的基于CRF建模的多目标跟踪方法，其通过引入条件随机场(Conditional Random Field，简称CRF)来建模数据间的依赖关系。然而，该方法仍然存在一些不可忽略的技术问题：(1)该方法将CRF势函数建模为特定分布(例如高斯分布)，但由于多目标跟踪问题的复杂性，特定分布并不能有效地体现出真实数据的相关性，从而会降低目标跟踪结果的准确性；(2)该方法中CRF模型的参数求解困难，不但要花费大量的人力和计算能力，而且求解出的参数大部分是近似值，无法发挥出CRF模型的最优性能；(3)该方法采用启发式算法或近似迭代算法解决CRF推理问题，这些推理算法很难与神经网络相结合，因而无法形成一个端到端可训练的深度神经网络，导致无法利用深度学习强大的学习能力，根据提高数据关联模型和状态推理模型的内在联系，进一步提高数据关联模型和状态推理模型的性能。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于深度条件随机场模型的多目标跟踪方法和系统，其目的在于，解决现有经典的基于CRF建模的多目标跟踪方法存在的由于多目标跟踪问题的复杂性，特定分布并不能有效地体现出真实数据的相关性，从而会降低目标跟踪结果的准确性的技术问题，以及CRF模型的参数求解困难，不但要花费大量的人力和计算能力，而且无法发挥出CRF模型的最优性能的技术问题，以及其推理算法很难与神经网络相结合，因而无法形成一个端到端可训练的深度神经网络，从而无法利用深度学习强大的学习能力的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于深度条件随机场模型的多目标跟踪方法，包括以下步骤：

(1)获取多目标跟踪数据集，其包含输入视频序列、以及输入视频序列中每一帧的检测响应；

(2)对输入视频序列的所有帧中任意两个连续帧的检测响应进行数据关联，以得到轨迹片，所有的轨迹片构成轨迹片集合T；

(3)根据步骤(2)得到的轨迹片集合中任意两个轨迹片之间的时间关系生成顶点，所有的顶点构成条件随机场模型的顶点集合V；

(4)计算步骤(3)得到的顶点集合V中每个顶点对应的两个轨迹片之间的匹配度，所有匹配度构成匹配度集合；

(5)根据步骤(3)得到的顶点集合V中任意两个顶点之间的时间关系和位置关系确定困难顶点对，所有的困难顶点对构成困难顶点对集合；

(6)获取步骤(5)中得到的困难顶点对集合中每个困难顶点对的外观特征和位置信息，将该困难顶点对的外观特征和运动特征组合成困难顶点对特征向量，所有的困难顶点对特征向量构成困难顶点对特征向量集合；

(7)将步骤(6)得到的每个困难顶点对特征向量输入LSTM网络，以得到每个困难顶点对的四个轨迹片中任意两个轨迹片之间的匹配度，所有匹配度构成匹配度集合；

(8)将步骤(4)得到的匹配度集合和步骤(7)得到的匹配度集合作为CRF模型的输入，进行全局推导，以得到顶点集合V中每个顶点中两个轨迹片之间的最优匹配度；

(9)在步骤(8)中获得的顶点集合V中所有顶点对应的最优匹配度中，找出最优匹配度大于匹配度阈值(其取值范围是0.5到0.8之间)的所有对应顶点，并将这些顶点中的轨迹片关联起来，从而得到长轨迹片；

(10)对步骤(3)中与时间关系相关的参数进行更新，并重复上述步骤(3)至(9)，直到不能再生成长轨迹片为止。

优选地，步骤(2)具体包括以下子步骤：

(2-1)针对输入视频序列中的任意两个连续帧，获取其检测响应的颜色直方图特征向量，以建立这两个连续帧的表观关联矩阵，表观关联矩阵中的每个元素代表这两个连续帧各自的检测响应之间的关联置信度，即两个检测响应属于同一目标的概率；

表观关联矩阵具体为：

其中，矩阵中的元素P_yz表示前一帧的第y个检测响应和后一帧的第z个检测响应之间的关联置信度，y∈[1，m]，且有z∈[1,n]，m表示前一帧的检测响应的总数，n表示后一帧的检测响应的总数；

(2-2)在步骤(2-1)中得到的表观关联矩阵中，查找在其所在行和所在列中均为最大值的所有元素，在查找到的多个元素中选出大于第一预设阈值的所有元素，并确定选出的每个元素所对应的一对检测响应；

(2-3)针对步骤(2-2)中选出的多对检测响应中的每一对而言，分别获取其检测响应的中心点坐标，根据确定的中心点坐标获取两个检测响应中心点之间的欧氏距离，并判断该欧氏距离是否大于第二预设阈值，如果大于，则表示这一对检测响应可关联，然后记录该对检测响应，否则重复执行本步骤，直到遍历完选出的所有多对检测响应为止；

(2-4)针对输入视频序列中的所有剩余帧，重复执行上述步骤(2-1)至(2-3)，从而得到多对可关联的检测响应，将这些可关联的检测响应对连接，以形成多个轨迹片构成的轨迹片集合。

优选地，对于轨迹片集合T中的任意两个轨迹片T_i和T_j，如果两个轨迹片在时间上满足以下公式，则轨迹片T_i和T_j可以组成一个顶点：

其中T_thr表示两个可关联轨迹片之间的最大帧间隔，和分别表示轨迹片T_j的起始帧和轨迹片T_i的结束帧，i和j的取值范围都是1到P之间的自然数，P为轨迹片集合T中轨迹片的总数。

优选地，对于顶点V_a(T_a1,T_a2)而言，只需将一个轨迹片T_a1和另一个轨迹片T_a2的每个中的置信度最高的检测响应在对应帧中的对应区域输入LSTM网络，即可得到轨迹片T_a1和T_a2之间的匹配度z_a:λ，其中λ取值为0或1，为0时z_a:0表示两个轨迹片T_a1和T_a2不属于同一目标的概率，为1时z_a:1表示两个轨迹片T_a1和T_a2属于同一目标的概率，其中a为1到Q之间的自然数，Q为顶点集合V中的顶点总数；

LSTM网络的训练过程如下：首先从MOT16数据集的训练集、2DMOT15数据集的训练集、CUHK03数据集的训练集、以及Market-1501数据集的训练集中选取多个人作为训练集，将ID-Net训练成一个可以区分多个类别的分类网络，然后用训练好的分类网络的参数来初始化LSTM网络，并用上面使用的训练集中的数据对初始化后的LSTM网络进行微调，以得到训练好的LSTM网络。

优选地，顶点V_a(T_a1,T_a2)和顶点V_b(T_b1,T_b2)如果满足下面的公式(1)或(2)时，顶点V_a和顶点V_b构成困难顶点对，其中b为1到Q之间的自然数，T_a1表示顶点V_a对应的一个轨迹片，T_b1表示顶点V_b对应的一个轨迹片，T_a2表示顶点V_a对应的另一个轨迹片，T_b2表示顶点V_b对应的另一个轨迹片：

其中ζ是时间长度阈值，P_thr是位置距离阈值，表示轨迹片T_a1在第t帧中的位置，表示轨迹片T_b1在第t帧中的位置；

其中表示轨迹片T_a2在第t帧中的位置，表示轨迹片T_b2在第t帧中的位置。

优选地，步骤(6)具体为：

首先，将困难顶点对中每个轨迹片的一个或多个检测响应在对应帧中的对应区域输入到卷积神经网络中，以提取每个轨迹片的外观特征：

f_ap(T_a1),f_ap(T_a2),f_ap(T_b1),f_ap(T_b2)；

随后，根据困难顶点对中所有四个轨迹片的位置关系计算任意两个轨迹片之间的运动特征，其计算公式如下：

f_m(T_a1,T_a2)＝[Δp₁,Δp₂]

其中

其中，表示轨迹片T_a1在时刻的位置，v_a1和v_a2分别表示轨迹片T_a1和轨迹片T_a2所属目标的运动速度；

随后，根据困难顶点对中所有四个轨迹片的位置关系计算其对应的两个顶点之间的运动特征：

f_m(V_a,V_b)＝[Δp₃,Δp₄]

其中

其中表示轨迹片T_a2在时刻的位置；v_b2表示轨迹片T_b2所属目标的运动速度；

最后，将上述过程中得到的外观特征和运动特征组合成困难顶点对的特征向量F：

优选地，步骤(8)包括以下子步骤：

(8-1)根据步骤(4)得到的顶点的轨迹片之间的匹配度获取CRF模型的一元势函数：其中w_u是一元势函数的影响力因子，ε表示极小值；

(8-2)根据步骤(7)得到的四个轨迹片中两两轨迹片的匹配度获取CRF模型的二元势函数：

(8-3)为CRF模型中的每个顶点关联一个二元类别变量x_a∈L＝{0,1}，其中x_a＝1时表示顶点V_a内的两个轨迹片属于同一目标，x_a＝0时表示顶点V_a内的两个轨迹片不属于同一目标，所有二元类别变量构成二元类别变量集合x＝[x₁,x₂,…x_Q]，并利用CRF模型对二元类别变量集合x＝[x₁,x₂,…x_Q]和步骤(2)中得到的轨迹片集合T进行建模，以得到建模结果，其吉布斯能量方程为其中任意一对顶点构成边，记为e_ab＝(V_a,V_b)∈E，E表示CRF模型中的所有边所构成的集合；

(8-4)将每类别变量集合x都映射为两个变量：x→x_λ＝[x_1：λ，x_2：λ，...，x_Q：λ]，λ∈L＝{0，1}，对于任意的x_a:η∈x_η，其取值范围为{0,1}，并引入松弛变量q_λ＝[q_1:λ,q_2:λ,...,q_Q:λ,]对步骤(8-3)得到的吉布斯能量方程进行连续化处理，以将每一个二元类别变量x_a:λ松弛为q_a:λ，并得到处理结果如下：

其中,q_a:λ∈q_λ，其取值范围为[0,1]，q_a:1表示顶点V_a内的两个轨迹片属于同一目标的概率，q_a:0表示顶点V_a内的两个轨迹片不属于同一目标的概率；

(8-5)以步骤(8-1)和步骤(8-2)求得的一元势函数和二元势函数为输入，利用梯度下降法对松弛变量q_λ在d时刻的状态进行一次更新，以得到松弛变量q_λ在d+1时刻的状态对该状态进行Softmax层操作，从而得到操作结果并使得对应的每个都满足下面的约束：且其中d的取值范围为0到D，其中取值范围为[0,1]，q_a:1表示顶点V_a内的两个轨迹片属于同一目标的概率，q_a:0表示顶点V_a内的两个轨迹片不属于同一目标的概率。

(8-6)以步骤(8-1)和步骤(8-2)求得的一元势函数和二元势函数为输入，使用RNN网络对步骤(8-5)得到的操作结果进行D次迭代，从而得到顶点集合V中每个顶点中两个轨迹片之间的最优匹配度其中在迭代过程开始前是使用根据步骤(4)得到的顶点的轨迹片之间的匹配度来初始化松弛变量q_λ在0时刻的状态

优选地，步骤(8-2)中，如果两个顶点构成困难顶点对，则CRF模型的二元势函数等于

否则CRF模型的二元势函数等于：

其中μ取值为0或1，为0时z_b:0表示两个轨迹片T_b1和T_b2不属于同一目标的概率，为1时z_b:1表示两个轨迹片T_b1和T_b2属于同一目标的概率。w_d和w_o分别是用来控制这两个二元势函数的影响力因子，如果两个顶点构成困难顶点对，z_a:λ和z_b:u直接取步骤(7)计算得到的匹配度，否则z_a:λ和z_b:u直接取步骤(4)中计算得到的匹配度。

优选地，步骤(8-5)中的一次更新过程是使用以下公式：

其中γ是更新步长，其是0到1之间的训练常数，

对于任意的有

按照本发明的另一方面，提供了一种基于深度条件随机场模型的多目标跟踪系统，包括：

第一模块，用于获取多目标跟踪数据集，其包含输入视频序列、以及输入视频序列中每一帧的检测响应；

第二模块，用于对输入视频序列的所有帧中任意两个连续帧的检测响应进行数据关联，以得到轨迹片，所有的轨迹片构成轨迹片集合T；

第三模块，用于根据第二模块得到的轨迹片集合中任意两个轨迹片之间的时间关系生成顶点，所有的顶点构成条件随机场模型的顶点集合V；

第四模块，用于计算第三模块得到的顶点集合V中每个顶点对应的两个轨迹片之间的匹配度，所有匹配度构成匹配度集合；

第五模块，用于根据第三模块得到的顶点集合V中任意两个顶点之间的时间关系和位置关系确定困难顶点对，所有的困难顶点对构成困难顶点对集合；

第六模块，用于获取第五模块中得到的困难顶点对集合中每个困难顶点对的外观特征和位置信息，将该困难顶点对的外观特征和运动特征组合成困难顶点对特征向量，所有的困难顶点对特征向量构成困难顶点对特征向量集合；

第七模块，用于将第六模块得到的每个困难顶点对特征向量输入LSTM网络，以得到每个困难顶点对的四个轨迹片中任意两个轨迹片之间的匹配度，所有匹配度构成匹配度集合；

第八模块，用于将第四模块得到的匹配度集合和第七模块得到的匹配度集合作为CRF模型的输入，进行全局推导，以得到顶点集合V中每个顶点中两个轨迹片之间的最优匹配度；

第九模块，用于在第八模块中获得的顶点集合V中所有顶点对应的最优匹配度中，找出最优匹配度大于匹配度阈值的所有对应顶点，并将这些顶点中的轨迹片关联起来，从而得到长轨迹片；

第十模块，用于对第三模块中与时间关系相关的参数进行更新，并重复上述第三模块至第九模块，直到不能再生成长轨迹片为止。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)由于本发明采用了步骤(4)到步骤(8)，其采用定制的神经网络来自适应学习CRF模型中的一元势函数，采用困难顶点对来描述顶点之间的关系，并且使用双向LSTM自适应的学习困难顶点对中四个轨迹片两两之间的匹配概率，在此基础上利用公式求解出二元势函数，因此，本发明能够有效体现多目标跟踪过程中真实数据的相关性，跟踪结果的准确性高；

(2)由于本发明采用了步骤(8)，其先将对目标跟踪问题转化求解CRF模型中能量函数最小化问题，再将CRF推理转化为基于梯度下降法的连续能量函数最小化问题，并采用递归神经网络RNN序列处理策略实现了基于梯度下降法的CRF推理，因此CRF模型参数可以利用神经网络中的反向传播算法较为容易地求解，从而能够解决现有基于CRF建模的多目标跟踪方法中存在的CRF模型的参数求解困难、花费大量的人力和计算能力、求解出的参数缺乏精确性、无法发挥出CRF模型最优性能的技术问题；

(3)由于本发明步骤(8)中解决CRF推理的过程也可以嵌入到神经网络中，因此能够利用深度学习强大的学习能力，根据提高数据关联模型和状态推理模型的内在联系，进一步提高数据关联模型和状态推理模型的性能；

(4)本发明提出了一个基于CRF模型的框架，它同时结合了深度学习和条件随机场的优势用于多目标跟踪问题，因此可以利用反向传播算法自动求解CRF模型中的参数，同时还可以与步骤(4)和步骤(7)中神经网络结合起来进行端到端的学习，得到更加合适的参数，进一步提高CRF模型的性能；

(5)本发明是本技术领域中第一个将CRF潜在势能学习和CRF推导集成到深度学习架构中的端到端学习方法，因此能够避免人工设计的一元势函数和二元势函数的单一性和不合理性，并自适应地学习合适的一元势函数和二元势函数；同时本发明也是第一个将数据关联和状态推理整合到一个神经网络中的基于深度学习的多目标跟踪算法，为多目标跟踪领域提供了一个新的基于深度学习的算法框架；

(6)本发明针对深度学习在多目标跟踪应用中存在的制约，采用自适应时间滑动窗技术批量生成固定个数的CRF顶点，将原来的多类别标定问题转化为二元类别标定，从而为神经网络解决类别不确定的数据关联问题提供了新的解决方案；

(7)本发明应用范围广泛，不仅可用于行人跟踪，也可适用于任何已知类别的运动目标轨迹跟踪。

附图说明

图1是本发明基于深度条件随机场模型的多目标跟踪方法的流程图；

图2示出本发明方法的步骤(5)中构成困难顶点对的两个顶点的实例；

图3是本发明方法的步骤(6)中计算困难顶点对的运动特征的示意图；

图4是本发明方法的步骤(7)中使用的双向LSTM网络的结构示意图；

图5是本发明方法的步骤(8)中使用RNN网络实现CRF推导过程中一次迭代的数据流。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提出了一个用于多目标跟踪的条件随机场(Conditional Random Fields,以下简称CRF，简称CRF)框架，与现有的基于CRF的目标跟踪方法相比，本发明侧重于CRF潜在势能的学习和难以处理的CRF推理。特别设计了中性网络以学习更合适的CRF潜在势能，并使用梯度下降算法直接最小化能量函数。CRF潜在势能的学习和CRF推断都是以端到端的方式进行的。本发明提出的CRF框架适用于一切多目标跟踪问题，如街景场景中行人跟踪，车辆轨迹标定等等。

如图1所示，本发明基于深度条件随机场模型的多目标跟踪方法包括以下步骤：

(1)获取多目标跟踪数据集，其包含输入视频序列、以及输入视频序列中每一帧的检测响应(Detection response)；

在本步骤中，多目标跟踪数据集采用的是MOT16数据集(其主要标注目标为移动的行人与车辆)，该数据集一共包含14个视频序列，其中7个视频序列为带有标注信息的训练集，另外7个视频序列为测试集，7个测试视频序列来自7个不同的场景，它们的拍摄视角和相机运动情况不一样，各个场景的天气状况也不相同。测试集总长度有5919帧，包含有182326个检测响应和830个轨迹。

具体而言，本步骤具体步骤包括以下子步骤：

具体而言，如果两个连续帧分别为F1和F2，F1的检测响应是[R₁，R₂，…，R_m]，F2的检测响应是[r₁，r₂，…，r_n]，其中m表示前一帧的检测响应的总数，n表示后一帧的检测响应的总数；则本步骤中构建的表观关联矩阵为：

其中，矩阵中的元素P_yz表示前一帧的第y个检测响应和后一帧的第z个检测响应之间的关联置信度，在本实例中，y∈[1，m]，且有z∈[1,n]；

本步骤中计算两个检测响应之间的关联置信度，首先是计算两个检测响应的颜色直方图特征向量之间的欧氏距离，然后用高斯核函数将计算得到的欧式距离映射成概率，即得到关联置信度。

在本步骤中，第一预设阈值的取值范围是0.4到0.7之间，优选为0.5。

例如，如果第一帧F1的第2个检测响应和第二帧F2的第3个检测响应可关联，第二帧F2的第3个检测响应和第三帧F3的第5个检测响应可关联，则这三个检测响应可以串联起来，形成一个轨迹片。

如果第一帧F1的第5个检测响应和第二帧F2的第9个检测响应可关联，而第二帧F2的第9个检测响应和第三帧中的所有检测响应都不关联，则第一帧F1的第5个检测响应和第二帧F2的第9个检测响应可串联起来，形成另一个轨迹片。

(3)根据步骤(2)得到的轨迹片集合中任意两个轨迹片之间的时间关系生成顶点，所有的顶点构成条件随机场(Conditional random field，简称CRF)模型的顶点集合V；

具体而言，在轨迹片集合T中任意选取两个轨迹片T_i和T_j(其中i和j的取值范围都是1到P之间的自然数，P为轨迹片集合T中轨迹片的总数)，如果两个轨迹片在时间上满足以下公式，则轨迹片T_i和T_j可以组成一个顶点：

其中T_thr表示两个可关联轨迹片之间的最大帧间隔(其初始值等于10)，和分别表示轨迹片T_j的起始帧和轨迹片T_i的结束帧，通过对步骤(2)得到的轨迹片集合中任意两个轨迹片循环执行上面的操作，就可以得到顶点集V。

(4)计算步骤(3)得到的顶点集合V中每个顶点对应的两个轨迹片之间的匹配度(即两个轨迹片属于同一目标的概率)，所有匹配度构成匹配度集合；

具体而言，本步骤中获取每个顶点对应的两个轨迹片之间的匹配度是通过LSTM网络实现，该网络的输入是每个轨迹片中置信度最高的检测响应在对应帧中的对应区域(由于每个顶点对应两个轨迹片，因此对应区域也有两个)，网络的输出是两个轨迹片之间的匹配度。

本步骤中组成LSTM网络的基础网络结构是VGG-16，在此用ID-Net来表示它。

LSTM网络的训练过程如下：首先从MOT16数据集的训练集、2DMOT15数据集的训练集、CUHK03数据集的训练集、以及Market-1501数据集的训练集中选取多个人(在本实例中选取了2551个人)作为训练集，将ID-Net训练成一个可以区分多个类别(在本实例中是2551个类别)的分类网络，然后用训练好的分类网络的参数来初始化LSTM网络，并用上面使用的训练集中的数据对初始化后的LSTM网络进行微调，以得到训练好的LSTM网络。

对于顶点V_a(T_a1,T_a2)而言(其中a为1到Q之间的自然数，Q为顶点集合V中的顶点总数)，只需将一个轨迹片T_a1和另一个轨迹片T_a2的每个中的置信度最高的检测响应在对应帧中的对应区域输入LSTM网络，即可得到轨迹片T_a1和T_a2之间的匹配度z_a:λ，其中λ取值为0或1，为0时z_a:0表示两个轨迹片T_a1和T_a2不属于同一目标的概率，为1时z_a:1表示两个轨迹片T_a1和T_a2属于同一目标的概率。

如图2所示，顶点V_a(T_a1,T_a2)和顶点V_b(T_b1,T_b2)(其中b为1到Q之间的自然数，T_a1表示顶点V_a对应的一个轨迹片，T_b1表示顶点V_b对应的一个轨迹片，T_a2表示顶点V_a对应的另一个轨迹片，T_b2表示顶点V_b对应的另一个轨迹片)如果满足下面的公式(1)或(2)时，则顶点V_a和顶点V_b构成困难顶点对。

其中ζ是时间长度阈值，其取值为1，P_thr是位置距离阈值，其取值为3，表示轨迹片T_a1在第t帧中的位置，表示轨迹片T_b1在第t帧中的位置；

当满足上述等式时，轨迹片T_a1和T_b1尾相邻。

当满足上述等式时，轨迹片T_a2和T_b2头相邻。

当两个轨迹片头相邻或者尾相邻时，这两个轨迹片分别对应的两个构成困难顶点对。

具体而言，首先是将困难顶点对中每个轨迹片的一个或多个检测响应在对应帧中的对应区域输入到卷积神经网络中，以提取每个轨迹片的外观特征：f_ap(T_a1),f_ap(T_a2),f_ap(T_b1),f_ap(T_b2)；

实施过程中直接使用一个预先训练好的行人重识别网络，记为ReID-Net，它的基础网络是ResNet-50，训练时使用的损失函数是三元组损失。在此基础上使用MOT16和2DMOT15的训练集构建样本对ReID-Net进行微调，得到最终的模型。选取每个轨迹片中置信度最高的检测最为ReID-Net的输入，即可得到该轨迹片的外观特征向量，其维度为128。

随后，根据困难顶点对中所有四个轨迹片的位置关系计算任意两个轨迹片之间的运动特征；

对于困难顶点对{V_a(T_a1,T_a1),V_b(T_b1,T_b1)}，根据图3来计算它的运动特征f_m(T_a1,T_a2)、f_m(T_a1,T_b2)、f_m(T_b1,T_a2)、f_m(T_b1,T_b2)和f_m(V_a,V_b)，每一个都包含两个Δp，每个Δp包含两个维度，分别表示在横坐标和纵坐标上的位置关系。

其中轨迹片T_a1和T_a2之间运动特征的计算公式如下(其余轨迹片之间运动特征f_m(T_a1,T_b2)、f_m(T_b1,T_a2)、f_m(T_b1,T_b2)的计算方式完全相同)：

f_m(T_a1,T_a2)＝[Δp₁,Δp₂]

其中

其中，表示轨迹片T_a1在时刻的位置；v_a1和v_a2分别表示轨迹片T_a1和轨迹片T_a2所属目标的运动速度。

f_m(V_a,V_b)＝[Δp₃,Δp₄]

其中

其中其中，表示轨迹片T_a2在时刻的位置；v_b2表示轨迹片T_b2所属目标的运动速度。

F＝[f_ap(T_a1),f_ap(T_a2),f_ap(T_b1),f_ap(T_b2),f_m(T_a1,T_a2),f_m(T_a1,T_b2),f_m(T_b1,T_a2),f_m(T_b1,T_b2),f_m(V_a,V_a)]

在使用上述段落中的行人重识别网络时，将外观特征向量征和运动特征向量拼接起来得到一个532维的困难顶点对特征向量F。

(7)将步骤(6)得到的每个困难顶点对特征向量输入双向长短时记忆网络(LongShort-Term Memory，简称LSTM)，以得到每个困难顶点对的四个轨迹片中任意两个轨迹片之间的匹配度，所有匹配度构成匹配度集合；

图4是两个时间步长的双向LSTM网络的结构示意图，输入困难顶点对特征向量F即可得到困难顶点对{V_a(T_a1,T_a1),V_b(T_b1,T_b1)}中四个轨迹片中两两轨迹片的匹配度p(y|T_a1,T_a2)、p(y|T_a1,T_b2)、p(y|T_b1,T_b2)和p(y|T_b1,T_b2)，其中y∈{0,1}为二元变量，表示轨迹片对之间的关联性。

本步骤包括以下子步骤：

(8-1)根据步骤(4)得到的顶点的轨迹片之间的匹配度获取CRF模型的一元势函数：其中w_u是一元势函数的影响力因子，ε表示极小值，其取值是0.0000001；

其中如果两个顶点构成困难顶点对，则有

否则：

其中μ取值为0或1，为0时z_b:0表示两个轨迹片T_b1和T_b2不属于同一目标的概率，为1时z_b:1表示两个轨迹片T_b1和T_b2属于同一目标的概率。w_d和w_o分别是用来控制这两个二元势函数的影响力因子。

如上所述，二元势函数的计算有两种情况，如果两个顶点构成困难顶点对，z_a:λ和z_b:u直接取步骤(7)计算得到的匹配度，否则就假设两个顶点的相关性很小，z_a:λ和z_b:u直接取步骤(4)中计算得到的匹配度。

其中,q_a:λ∈q_λ，其取值范围为[0,1]，q_a:1表示顶点V_a内的两个轨迹片属于同一目标的概率，q_a:0表示顶点V_a内的两个轨迹片不属于同一目标的概率。

(8-5)以步骤(8-1)和步骤(8-2)求得的一元势函数和二元势函数为输入，利用梯度下降法对松弛变量q_λ在d时刻的状态进行一次更新，以得到松弛变量q_λ在d+1时刻的状态对该状态进行Softmax层操作，从而得到操作结果并使得对应的每个都满足下面的约束：且其中d的取值范围为0到D(D的取值范围为5到10之间的自然数，优选为10)，其中取值范围为[0,1]，q_a:1表示顶点V_a内的两个轨迹片属于同一目标的概率，q_a:0表示顶点V_a内的两个轨迹片不属于同一目标的概率。

具体而言，一次更新是使用以下公式：

其中γ是更新步长，其是0到1之间的训练常数，优选等于0.020519，且对于任意的有

(8-6)以步骤(8-1)和步骤(8-2)求得的一元势函数和二元势函数为输入，使用递归神经网络(Recursive neural network，简称RNN，该RNN的参数为步骤(8-1)和步骤(8-2)求得的一元势函数和二元势函数为RNN的隐藏状态)对步骤(8-5)得到的操作结果进行D次迭代(即推理过程)，从而得到顶点集合V中每个顶点中两个轨迹片之间的最优匹配度其中在迭代过程开始前是使用根据步骤(4)得到的顶点的轨迹片之间的匹配度来初始化松弛变量q_λ在0时刻的状态

具体而言，本步骤首先根据图5的RNN网络实现D次迭代，利用2DMOT15和MOT16的训练集构建训练数据和测试数据，通过反向传播算法来训练CRF模型中的参数(即影响力因子w_u，w_d，w_o和更新步长γ)。CRF模型有两个可调参数。第一个是梯度下降算法中的迭代次数D，在训练阶段将D的设置为5，以避免在测试阶段出现消失/爆炸梯度问题，迭代次数增加到10。第二个是每次进行推导的节点数Num。通常，在神经网络架构难以处理可变数目的目标的问题，本发明通过采用滑动窗策略来产生固定数量的节点，然后向后移动窗口并确保新的滑动窗口与旧窗口之间有重叠，使得各个窗口之间存在联系。考虑到精度和效率之间的权衡，滑动窗口中的节点数Num设置为200。

在训练时权值w_u，w_d，w_o均初始化为1，学习步长γ初始化为0.5。初始学习率设为0.001，使用Adam算法对网络进行优化，总共训练60000次。

(9)在步骤(8)中获得的顶点集合V中所有顶点对应的最优匹配度中，找出最优匹配度大于匹配度阈值(其取值范围是0.5到0.8之间，优选为0.5)的所有对应顶点，并将这些顶点中的轨迹片关联起来，从而得到长轨迹片；

在本步骤中，对与时间关系相关的参数进行更新，就是对最大帧间隔进行更新，是每次都将该值增加10(最大帧间隔的上限为100)。

本发明针对现有MOT技术领域中所存在的CRF模型求解的问题，提出了基于深度条件随机场的多目标跟踪算法框架，其主要特点包括：(1)本发明的CRF建模过程充分利用了数据间的结构相关性，有效提高复杂拥挤等困难场景中跟踪精度的准确性；(2)本发明将CRF模型参数学习(影响力因子)与CRF模型的推理(步骤(8-6)中q_λ的更新过程)统一嵌入到深度神经网络模型中，一方面利用神经网络强大的学习表达能力，自适应学习建模适合MOT的CRF势函数，有效避免了CRF参数学习困难；另一方面将CRF推理转化为神经网络可实现形式，有效避免了现有技术人工干预逐步求解的后处理过程；(3)深度条件随机场充分结合了神经网络模型与图模型的优点，本发明所提模型在公开数据库上取得了领先的跟踪精度，验证了基于深度条件随机场的MOT算法的有效性。

需要说明的是，本发明中主要关注的目标为行人，其原因有三：第一，行人相比于其他目标更加复杂，是典型的非刚性目标，因此适用于行人的跟踪算法可以推广到其他类别目标的跟踪需求中；第二，实际生活中存在着大量的含有行人的视频，数据量大，应用需求广泛；第三，现有大多数的多目标跟踪技术都是针对行人的，因此选择行人作为目标，更能相对于现有技术体现出本发明的优点。但应该理解的是，本发明的应用范围绝不局限于行人，而是可适用于任何已知类别的运动目标轨迹跟踪。

测试结果和比较

这里通过在MOT16测试集上的测试结果来说明本发明的实际效果。通过使用以下的标准评估指标对本发明提出的多目标跟踪算法在MOT16数据计集上的跟踪结果进行评估，这些标准评估指标包括：多目标跟准确度(Multiple Object Tracking Accuracy，简称MOTA)、多目标跟踪精度(Multiple Object Tracking Precision，简称MOTP)，主要跟踪目标(Mostly Track targets，简称MT)、大多数丢失目标(Mostly Lost targets，简称ML)、误报(False Positives，简称FP)，假阴性(False Negatives，简称FN)、碎片(Fragmentation，简称FM)、以及身份切换(ID Switches，简称IDS)。“↑”表示越高越好，‘↓’表示越低越好。如下表1所示，其列出了本发明与现有的性能优越的拉普拉斯矩阵投影(Laplacian matrixprojection，简称LMP)算法、接近在线多目标跟踪(Near-Online Multi-target Tracking，简称NOMT)算法、以及Quad-CNN算法在MOT16测试集上的测试结果的详细比较。

表1

通过上表1可以看出：(1)本发明的方法在MOTA，ML和FN三个指标上面都超越了其他三种算法。其中，MOTA是评估算法性能整体性能的主要指标，相比于其他三个跟踪算法本发明提出的跟踪算法取得了最好的成绩，这表明本发明提出的跟踪算法在整体性能上要优于其他三个算法；

(2)更高的MT和更低的ML表明，本发明提出的方法通过考虑适当的时间间隔，并利用目标之间的依赖关系，可以正确恢复被遮挡目标或发生漂移的目标的轨迹。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度条件随机场模型的多目标跟踪方法，其特征在于，包括以下步骤：

(9)在步骤(8)中获得的顶点集合V中所有顶点对应的最优匹配度中，找出最优匹配度大于匹配度阈值的所有对应顶点，并将这些顶点中的轨迹片关联起来，从而得到长轨迹片；

2.根据权利要求1所述的多目标跟踪方法，其特征在于，步骤(2)具体包括以下子步骤：

表观关联矩阵具体为：

3.根据权利要求2所述的多目标跟踪方法，其特征在于，对于轨迹片集合T中的任意两个轨迹片T_i和T_j，如果两个轨迹片在时间上满足以下公式，则轨迹片T_i和T_j可以组成一个顶点：

4.根据权利要求3所述的多目标跟踪方法，其特征在于，

对于顶点V_a(T_a1,T_a2)而言，只需将一个轨迹片T_a1和另一个轨迹片T_a2的每个中的置信度最高的检测响应在对应帧中的对应区域输入LSTM网络，即可得到轨迹片T_a1和T_a2之间的匹配度z_a:λ，其中λ取值为0或1，为0时z_a:0表示两个轨迹片T_a1和T_a2不属于同一目标的概率，为1时z_a:1表示两个轨迹片T_a1和T_a2属于同一目标的概率，其中a为1到Q之间的自然数，Q为顶点集合V中的顶点总数；

5.根据权利要求4所述的多目标跟踪方法，其特征在于，顶点V_a(T_a1,T_a2)和顶点V_b(T_b1,T_b2)如果满足下面的公式(1)或(2)时，顶点V_a和顶点V_b构成困难顶点对，其中b为1到Q之间的自然数，T_a1表示顶点V_a对应的一个轨迹片，T_b1表示顶点V_b对应的一个轨迹片，T_a2表示顶点V_a对应的另一个轨迹片，T_b2表示顶点V_b对应的另一个轨迹片：

6.根据权利要求5所述的多目标跟踪方法，其特征在于，步骤(6)具体为：

首先，将困难顶点对中每个轨迹片的一个或多个检测响应在对应帧中的对应区域输入到卷积神经网络中，以提取每个轨迹片的外观特征：f_ap(T_a1),f_ap(T_a2),f_ap(T_b1),f_ap(T_b2)；

f_m(T_a1,T_a2)＝[Δp₁,Δp₂]

其中

f_m(V_a,V_b)＝[Δp₃,Δp₄]

其中

其中表示轨迹片T_b2在时刻的位置；v_b2表示轨迹片T_b2所属目标的运动速度；

7.根据权利要求6所述的多目标跟踪方法，其特征在于，步骤(8)包括以下子步骤：

(8-4)将每类别变量集合x都映射为两个变量：x→x_λ＝[x_1：λ，x_2：λ，x_Q：λ]，λ∈L＝{0，1}，对于任意的x_a:η∈x_η，其取值范围为{0,1}，并引入松弛变量q_λ＝[q_1:λ,q_2:λ,...,q_Q:λ,]对步骤(8-3)得到的吉布斯能量方程进行连续化处理，以将每一个二元类别变量x_a:λ松弛为q_a:λ，并得到处理结果如下：

(8-5)以步骤(8-1)和步骤(8-2)求得的一元势函数和二元势函数为输入，利用梯度下降法对松弛变量q_λ在d时刻的状态进行一次更新，以得到松弛变量q_λ在d+1时刻的状态对该状态进行Softmax层操作，从而得到操作结果并使得对应的每个都满足下面的约束：且其中d的取值范围为0到D，其中取值范围为[0,1]，q_a:1表示顶点V_a内的两个轨迹片属于同一目标的概率，q_a:0表示顶点V_a内的两个轨迹片不属于同一目标的概率；

8.根据权利要求7所述的多目标跟踪方法，其特征在于，

步骤(8-2)中，如果两个顶点构成困难顶点对，则CRF模型的二元势函数等于

否则CRF模型的二元势函数等于：

其中μ取值为0或1，为0时z_b:0表示两个轨迹片T_b1和T_b2不属于同一目标的概率，为1时z_b:1表示两个轨迹片T_b1和T_b2属于同一目标的概率；w_d和w_o分别是用来控制这两个二元势函数的影响力因子，如果两个顶点构成困难顶点对，z_a:λ和z_b:u直接取步骤(7)计算得到的匹配度，否则z_a:λ和z_b:u直接取步骤(4)中计算得到的匹配度。

9.根据权利要求8所述的多目标跟踪方法，其特征在于，

步骤(8-5)中的一次更新过程是使用以下公式：

其中γ是更新步长，其是0到1之间的训练常数，

对于任意的有

10.一种基于深度条件随机场模型的多目标跟踪系统，其特征在于，包括：