CN108447080B

CN108447080B - 基于分层数据关联和卷积神经网络的目标跟踪方法、系统和存储介质

Info

Publication number: CN108447080B
Application number: CN201810175534.6A
Authority: CN
Inventors: 王轩; 孟东伟; 漆舒汉; 蒋琳; 廖清; 姚霖; 李晔; 关键; 刘泽超; 吴宇琳; 李化乐; 贾丰玮
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2018-03-02
Filing date: 2018-03-02
Publication date: 2023-05-23
Anticipated expiration: 2038-03-02
Also published as: CN108447080A

Abstract

本发明公开了一种基于分层数据关联和卷积神经网络的目标跟踪方法、系统和存储介质，其方法包括：获取跟踪目标的当前视频帧的检测响应以及当前视频帧之前的所有视频帧的跟踪片段；为每一条跟踪片段计算其置信度，其中，跟踪片段置信度是指当前已经完成部分连接的跟踪片段的可信赖程度；根据置信度的大小，将所有的跟踪片段分为高可靠度跟踪片段和低可靠度跟踪片段两部分，并以当前视频帧的检测响应为关联对象，为高可靠度跟踪片段进行局部数据关联处理，为低可靠度跟踪片段进行全局数据关联处理。本发明可以有效降低关联算法的时间复杂度，能够有效缓解在跟踪的过程中出现的局部遮挡问题，同时可以实现算法的鲁棒性和实时性的均衡。

Description

基于分层数据关联和卷积神经网络的目标跟踪方法、系统和存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于分层数据关联和卷积神经网络的目标跟踪方法、系统和存储介质。

背景技术

目前，随着社会的发展，人们对于人工智能应用的需求越来越大，几乎涵盖了社会生活中的各个方面，人们也希望能够在视频相关领域实现智能化。尤其是近几年来计算机视觉相关技术以及硬件平台的快速发展，使得人工智能在视频领域的应用成为了可能。目前，世界上各个国家越来越多的人开始投入到计算机视觉领域的分析与研究当中，并取得了巨大的成就。然而由于拍摄场景、拍摄角度复杂多样，不同的光照强度、场景的复杂程度都会对拍摄的视频质量产生重要的影响。因此，许多计算机视觉技术在实际视频应用中还存在许多难点问题需要去解决，多目标跟踪技术便是其中之一。在多目标跟踪领域，目标所处的背景复杂，有的含有很多噪音，而且多个不同的目标之间存在表观相似及相互遮挡等问题，使得在视频中实现鲁棒性和实时性的多目标跟踪充满了挑战性。

在整个视频序列中，多目标跟踪要始终维持所有目标的身份标记，以及所有目标的尺寸、位置等信息，防止跟丢、跟错等情况的发生。多目标跟踪的主要过程如下：首先，利用摄像机进行场景拍摄，拍摄的视频就是多目标跟踪需要处理的对象；然后利用目标检测算法对每一帧中的检测响应进行提取，包括目标的位置及尺寸信息，获得每一帧中的所有的目标的位置、尺寸信息之后，需要进行一个数据关联的过程，即对每一帧中出现的所有目标进行标号，要求同一个目标在整个视频序列中的标号唯一，且不能出现漏标的情况，最后将每一帧中拥有相同标号的目标连接起来，获取它们的位置、尺寸、速度等信息，进行一个平滑处理，就可以获得所求的目标轨迹，上述类型的算法被称为基于数据关联的多目标跟踪算法。

多目标跟踪在现实生活中具有广泛的应用场景。越来越多的机构及科研人员投入到了多目标跟踪问题的研究当中，并取得了巨大的进步，但取得的效果并不理想，其原因如下：

(1)遮挡问题：遮挡问题是多目标跟踪里面十分严重的问题，也是许多目标跟踪算法企图避免或解决的问题。多目标跟踪中的遮挡问题主要可以分为以下三种情况：要跟踪的目标被视频序列中的其他物体遮挡，从目标进入遮挡区域到目标离开遮挡区域的时间段内，无法获取该目标的表观信息及运动信息，当目标再次出现时，无法将该目标与前面的跟踪轨迹连接，导致跟踪片段断裂；跟踪的目标之间相互遮挡，当两个目标在运动的过程中出现了交叉，发生了位置交换或者是两个目标的位置距离较近，若是两个目标的表观信息相近，则当两个目标再次分开时，可能出现身份交换的问题；目标自身的遮挡，目标在运动的过程中，出现了剧烈的形变，自身的某些部位遮挡住了其他部分，导致无法很好的提取其表观信息。目前许多算法都提出了处理遮挡问题的一些方案，但出现严重遮挡或长期遮挡时，这些算法的效果并不理想，这些算法也无法在目标丢失的情况下如何重新获取这些目标。

(2)目标之间的相似性：当跟踪的场景属于密集场景时，即在每一幅画面中，都存在大量的需要进行跟踪的目标，此时想要获取这些目标全部的表观信息较为困难，只能获得局部的表观信息，例如在密集场景下对行人进行跟踪，只能看到行人上半身的状态甚至是只能看到头部，此时提取的表观特征极为相似，而且他们之间的位置也会十分接近，如何准确的将各个目标区分开成为一个难点问题。

(3)鲁棒性和实时性的均衡：在多目标跟踪时，首先要进行目标检测的过程，然后计算检测响应之间的相似度，再根据该相似度进行关联优化，关联完成后还要处理身份交换、遮挡等问题，这几个过程中都需要大量的计算，但在现实应用的场景中，不仅要关注算法的鲁棒性，还要求算法能够实时的分析问题、处理问题。

发明内容

本发明提供一种基于分层数据关联和卷积神经网络的目标跟踪方法、系统和存储介质，可以有效降低关联算法的时间复杂度，有效缓解在跟踪的过程中出现的局部遮挡问题，实现算法的鲁棒性和实时性的均衡。

为实现上述目的，本发明提供一种基于分层数据关联和卷积神经网络的目标跟踪方法，包括以下步骤：

获取跟踪目标的当前视频帧的检测响应以及当前视频帧之前的所有视频帧的跟踪片段；

为每一条跟踪片段计算其置信度，其中，跟踪片段置信度是指当前已经完成部分连接的跟踪片段的可信赖程度；

根据置信度的大小，将所有的跟踪片段分为高可靠度跟踪片段和低可靠度跟踪片段两部分，并以当前视频帧的检测响应为关联对象，为高可靠度跟踪片段进行局部数据关联处理，为低可靠度跟踪片段进行全局数据关联处理，其中，全局数据关联处理结合卷积神经网络实现。

其中，所述方法还包括：

在完成数据关联处理之后，更新跟踪目标的跟踪状态；

更新每一个跟踪片段的置信度，进入下一帧的处理，一直到视频结束。

其中，所述获取跟踪目标的当前视频帧的检测响应以及当前视频帧之前的所有视频帧的跟踪片段的步骤之前，所述方法还包括：

定义跟踪片段置信度的计算方式，所述跟踪片段置信度是指当前已经完成部分连接的跟踪片段的可信赖程度，其中，跟踪片置信度的大小考虑因素包括：可观测度、遮挡程度、段内相似度。

其中，所述以当前视频帧的检测响应为关联对象，为高可靠度跟踪片段进行局部数据关联处理的步骤包括：

将高可靠度跟踪片段同当前视频帧的检测响应相连接，在连接过程中，计算当前所有的跟踪片段和该帧内所有的检测响应之间的相似度，所述跟踪片段和该帧内所有的检测响应之间的相似度，以跟踪片段和检测响应之间的亲和度通过矩阵方式表征，连接亲和度大于预设阈值的跟踪片段和检测响应对。

其中，所述以当前视频帧的检测响应为关联对象，为低可靠度跟踪片段进行全局数据关联处理的步骤中包括：

对低可靠度跟踪片段进行遮挡漂移处理；其中：

对低可靠度跟踪片段进行遮挡处理包括：

将被遮挡的目标的背景框分成多个小块，每个小块赋予不同的权重，在计算表观相似度时，除了计算整体的表观相似度以外，同时计算对应小块的相似度，然后综合判定两个目标整体的相似度；

对低可靠度跟踪片段进行漂移处理包括：

将跟踪片段和相对较远距离的目标检测响应进行连接。

其中，所述方法还包括：

在目标跟踪过程中，计算两个目标相似度时，从两个目标的表观相似度、运动相似度以及尺寸相似度三个方面考虑，将相似度度量模型定义为这三个方面乘积的形式；其中，基于多通道卷积神经网络实现表观相似度模型，基于卡尔曼滤波实现运动相似度模型。

其中，所述方法还包括：

在数据关联处理过程中，对跟踪片段进行管理。

其中，所述方法还包括：

对跟踪算法进行有效性检测。

此外，本发明还提出一种基于分层数据关联和卷积神经网络的目标跟踪系统，包括存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序被所述处理器运行时实现如上所述的方法的步骤。

此外，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时实现如上所述的方法的步骤。

本发明的有益效果是：

本发明提出的基于分层数据关联和卷积神经网络的目标跟踪方法、系统和存储介质，采用了一种新的数据关联方式和表观相似度计算方式，在数据关联方面，为每一条跟踪片段计算其置信度，根据置信度的大小，将所有的跟踪片段分为高可靠度跟踪片段和低可靠度跟踪片段两部分，并为高可靠度跟踪片段进行局部数据关联处理，为低可靠度跟踪片段进行全局数据关联处理，可以有效降低关联算法的时间复杂度。在全局数据关联过程中可能出现遮挡情况时，将跟踪目标分成若干个小块，利用两个目标之间对应小块的相似度来计算两个目标整体的相似度，能够有效缓解在跟踪的过程中出现的局部遮挡问题。同时可以实现算法的鲁棒性和实时性的均衡。

附图说明

图1是本发明实施例提出的基于分层数据关联和卷积神经网络的目标跟踪方法的流程示意图；

图2-1是本发明算法框架示意图；

图2-2是本发明算法中数据关联示意图；

图2-3是本发明算法中置信度变化与遮挡关系图；

图2-4是本发明算法中全局数据关联示意图；

图2-5是本发明算法中目标轨迹遮挡示意图；

图2-6是本发明算法中目标分块示意图；

图3-1是本发明算法中基于双通道神经网络的相似度计算模型；

图3-2是本发明算法中基于卷积神经网络的相似度计算模型；

图3-3是本发明算法中CUHK数据集与实际跟踪数据集对比图；

图3-4是本发明算法中遮挡情况示意图；

图4-1是本发明算法中2D MOT 2016数据集示意图；

图4-2是本发明算法中身份交换及断链问题示意图；

图4-3是本发明算法中相似度算法计算结果示例图；

图4-4是本发明算法中ETH-Bahnhof视频序列上跟踪结果示意图；

图4-5是本发明算法中PETS09-S2L1视频序列上跟踪结果示意图；

图4-6是本发明算法中跟踪结果示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

具体地，请参照图1，图1是本发明实施例提出的一种基于分层数据关联和卷积神经网络的目标跟踪方法的流程示意图。

如图1所示，本发明实施例提出的一种基于分层数据关联和卷积神经网络的目标跟踪方法，包括以下步骤：

步骤S1，获取跟踪目标的当前视频帧的检测响应以及当前视频帧之前的所有视频帧的跟踪片段；

步骤S2，为每一条跟踪片段计算其置信度，其中，跟踪片段置信度是指当前已经完成部分连接的跟踪片段的可信赖程度；

其中，跟踪片置信度的大小考虑因素包括：可观测度、遮挡程度、段内相似度。

步骤S3，根据置信度的大小，将所有的跟踪片段分为高可靠度跟踪片段和低可靠度跟踪片段两部分，并以当前视频帧的检测响应为关联对象，为高可靠度跟踪片段进行局部数据关联处理，为低可靠度跟踪片段进行全局数据关联处理，其中，全局数据关联处理结合卷积神经网络实现。

其中，在完成数据关联处理之后，更新跟踪目标的跟踪状态；

本实施例中，以当前视频帧的检测响应为关联对象，为高可靠度跟踪片段进行局部数据关联处理的步骤包括：

本实施例中，以当前视频帧的检测响应为关联对象，为低可靠度跟踪片段进行全局数据关联处理的步骤中包括：

对低可靠度跟踪片段进行遮挡漂移处理；其中：

对低可靠度跟踪片段进行遮挡处理包括：

对低可靠度跟踪片段进行漂移处理包括：

将跟踪片段和相对较远距离的目标检测响应进行连接。

其中，在目标跟踪过程中，计算两个目标相似度时，从两个目标的表观相似度、运动相似度以及尺寸相似度三个方面考虑，将相似度度量模型定义为这三个方面乘积的形式；其中，基于多通道卷积神经网络实现表观相似度模型，基于卡尔曼滤波实现运动相似度模型。

在数据关联处理过程中，还包括对跟踪片段进行管理。

相比现有技术，本发明采用了一种新的数据关联方式和表观相似度计算方式，在数据关联方面，为每一条跟踪片段计算其置信度，根据置信度的大小，将所有的跟踪片段分为高可靠度跟踪片段和低可靠度跟踪片段两部分，并为高可靠度跟踪片段进行局部数据关联处理，为低可靠度跟踪片段进行全局数据关联处理，可以有效降低关联算法的时间复杂度。在全局数据关联过程中可能出现遮挡情况时，将跟踪目标分成若干个小块，利用两个目标之间对应小块的相似度来计算两个目标整体的相似度，能够有效缓解在跟踪的过程中出现的局部遮挡问题。同时可以实现算法的鲁棒性和实时性的均衡。

以下对本发明实施例方案进行详细阐述：

本发明是一种视频多目标跟踪算法。本发明采用了一种新的数据关联方式和表观相似度计算方式。在数据关联方面，为每一条跟踪片段计算其置信度，根据置信度的大小，将所有的跟踪片段分为高可靠度跟踪片段和低可靠度跟踪片段两部分，并为高可靠度跟踪片段进行局部数据关联处理，为低可靠度跟踪片段进行全局数据关联处理，可以有效降低关联算法的时间复杂度。在全局数据关联过程中可能出现遮挡情况时，将跟踪目标分成若干个小块，利用两个目标之间对应小块的相似度来计算两个目标整体的相似度，能够有效缓解在跟踪的过程中出现的局部遮挡问题。

在相似度计算方面，本发明将基于卷积神经网络的表观模型与基于卡尔曼滤波的运动模型相结合来计算两个目标的相似度分数。首先在辅助训练集上训练一个卷积神经网络，将需要比较的两个目标图片进行尺度变换，得到多张图片，将多张图片合并为一张多通道的图片送入卷积神经网络后得到两个目标的表观相似度分数，然后利用卡尔曼滤波算法预测目标在当前帧的运动状态，计算其与当前帧检测响应的运动状态的相似度。

如图2所示，图2是本发明算法框架示意图。

在数据关联的过程中，当前帧的检测响应可能与现有的多个跟踪片段具有较高的相似度，确定该类检测响应与哪一个跟踪片段相关联是数据关联中的一个难点问题。本发明通过实验发现，在前t-1帧中，关联正确度越高的片段，在当前帧关联成功的概率就越高，本发明在关联的过程中优先考虑这部分跟踪片段的连接，在一定程度上可以提高关联的准确度与时间效率。本发明首先重新定义了跟踪片段置信度的计算方式，跟踪片段置信度是指当前已经完成部分连接的跟踪片段的可信赖程度。在第t帧时，通过置信度的计算，可以将前t-1帧中所有的跟踪片段分为两类，置信度超过某一阈值的称为高可靠度跟踪片段，低于该阈值的称为低可靠度跟踪片段。在求得所有跟踪片段的置信度之后，首先将高可靠度的跟踪片段同当前帧的检测响应相连接，因为通过实验发现，高可靠度跟踪片段数据关联成功的概率远大于低可靠度跟踪片段关联成功的概率，先对高可靠度的跟踪片段进行数据关联，既可以保证高可靠度跟踪片段关联成功率，又可以减少低可靠跟踪片段候选集合的大小，进而提高整体的关联成功率。低可靠度跟踪片段关联成功的概率低于高可靠度的跟踪片段一般是因为该关联片段出现了遮挡或漂移等问题，因此在低可靠度跟踪片段关联过程中，还要针对漂移、遮挡等情况进行处理。当完成数据关联之后，还要判断是否有新的跟踪目标出现或者是否有目标可以结束跟踪。完成上述过程之后，需要更新每一个跟踪片段的置信度，进入下一帧的处理，一直到视频结束。本发明设计的整体跟踪框架图2-1所示:

以下对本发明算法框架中的置信度计算方式、高可靠度跟踪片段关联过程、低可靠度跟踪片段关联过程以及跟踪片段管理的过程进行详细介绍。

1.1置信度设计

如图2-2所示，图2-2是本发明算法中数据关联示意图。

在第t帧时，前t-1帧的检测响应已经连接成跟踪片段，图中t1、t2和t3就代表已经连接好的跟踪片段，图中的d1、d2、d3和d4代表第t帧的检测响应，数据关联的过程就是要将前t-1帧的三个跟踪片段与第t帧的四个检测响应连接在一起。通过距离、表观相似度等约束，t1可能与d1、d2相连，t2可能与d2、d3相连，其中，d2既是t1的候选集合，又是t2的候选集合，所有的类似d2这样的元素组成了冲突集合。跟踪片段和检测响应的关联方式主要分为两种，第一种首先选择与t1相似度最高的检测响应与t1进行关联，然后再在剩余的检测响应里面选择与t2相似度最高的进行关联，以此类推。第二种则是在所有可能的组合中选择相似度总和最高的方案进行关联。第一种方法时间复杂度低，但准确度低于第二种，第二种方式可能面临组合爆炸的问题。本发明通过利用跟踪片段的置信度，将跟踪片段分成高可靠度和低可靠度两种，再依次采用第二种关联方式，这样可以结合两种关联方式的优势。

跟踪片段置信度反应了跟踪片段的可靠程度，可以直观的理解为多目标跟踪框架所构造的目标轨迹和真实的目标轨迹的匹配程度，匹配度越高，已完成关联的跟踪片段的可信赖程度越高，则置信度越高。跟踪片段置信度的大小主要从如下几个方面考虑：

(1)可观测度若一个跟踪片段对应的跟踪目标在大部分帧内都能被很好的检测到，则认为该跟踪片段是可靠的，反之，若该片段对应的跟踪目标在多帧内都无法检测到，则认为该片段具有较低的置信度，因此，跟踪片段置信度的高低和该片段对应的跟踪目标的可检测程度成正比关系；

(2)遮挡程度若一个跟踪片段对应的跟踪目标在大部分帧内都没有被遮挡，则可以很好的提取该目标的表观特征，后续计算得到的相似度可靠性就会很高，关联正确的可能性就会很高，因此，此类跟踪片段的置信度应该较高。另外，当跟踪片段被遮挡时，则它的置信度应该降低，遮挡过后，置信度应该回升，其变化情况如图2-3所示，通过置信度的变化，可以对是否出现了遮挡进行一个简单的判断；

(3)段内相似度若一个跟踪片段对应的跟踪目标发生了较大的变化，比如表观变化、尺寸变化或者运动状态变化等，则该片段可能出现了身份交换问题或跟踪漂移的问题，则该跟踪片段的置信度应该较低。

综上，跟踪片段r在第t帧时的置信度Ωt_r的定义如公式(1-1)所示。

式中Φ(X,Y)——X，Y的相似度，X，Y既可以是跟踪片段，也可以是检测响应；

L——跟踪片段r的长度；

r^s——跟踪片段r在视频序列中第一次出现的帧的索引；

r^e——跟踪片段r在视频序列中最后出现的帧的索引；

v^r(k)——跟踪片段r对应的目标能否在第t帧检测到的标志位。

因此，L的计算方式如公式(1-2)所示。

L＝r^e-r^s+1 (1-2)

1.2局部数据关联

通过公式(1-1)，在t帧时，可以得到前t-1帧连接完成的所有跟踪片段的置信度的值，根据跟踪片段置信度的大小，可以将跟踪片段分为高可靠度跟踪片段和低可靠度跟踪片段，首先对高可靠度跟踪片段进行数据关联，在关联时，只考虑前t-1帧的高可靠度跟踪片段与第t帧的检测响应之间的连接，因此高可靠度跟踪片段的数据关联又称为局部数据关联。在线多目标跟踪的框架中，数据关联问题可以看成是跟踪片段和当前帧的检测响应的匹配问题，满足一对一的约束条件，匹配对象的选择则根据跟踪片段和检测响应相似度的大小进行。

令R＝{r₁,r₂,...,r_m}表示截止到当前帧为止，已经存在的所有的跟踪片段的集合，令D＝{d₁,d₂,...,d_n}表示当前帧中所有的检测响应的集合，局部数据关联就是R与D之间进行二分图匹配，匹配度为r_i和d_j的相似程度，其影响因素有多个，包括它们的运动状态、尺寸、位置以及表观模型等，在本发明中仅考虑位置、尺寸以及表观模型三个因素。在每一帧中，需要计算当前所有的跟踪片段和该帧内所有的检测响应之间的相似度，并用矩阵F来表示，F的定义如公式(1-3)所示。

F＝[f(r_i,d_j)]_m×n (1-3)

式中f(r_i,d_j)——跟踪片段i和检测响应j之间的亲和度。

在高可靠性跟踪的过程中，只连接亲和度大于某一阈值的跟踪片段和检测响应对，在求得矩阵F后，采用贪婪算法进行数据关联。f(r_i,d_j)的计算方法如公式(1-4)所示。

运动、尺寸、表观的亲和度的取值范围为0～1，f(r_i,d_j)的值越大，表示跟踪片段i和检测响应j之间的匹配度越高，即它们属于同一目标的可能性越大。当利用贪婪算法进行数据关联时，每次选取的跟踪片段和目标检测响应对的亲和度都是矩阵中的最大值，且为正数。因此，通过设定某个阈值，可以减少一些错误的连接，尤其是在当前跟踪目标和某一较远距离的检测响应具有相似的尺寸和表观的情形下，由于连续的两帧或若干帧之间的时间间隔较短，目标不可能运动到较远的距离，因此通过该阈值的设定，可以避免该情形下跟踪片段和检测响应之间的连接，此外，由于f(r_i,d_j)是乘积的形式，当位置亲和度为0时，f(r_i,d_j)的值的大小必然为0，此时不必计算尺寸以及表观的相似度，在一定程度上，可以降低时间复杂度。

1.3全局数据关联

在处理完成高可靠度跟踪片段的关联之后，还需要对低可靠度跟踪片段进行关联，与高可靠度跟踪片段的关联过程相比，低可靠度跟踪片段数据的关联对象不再仅仅是第t帧的检测响应，还包括其他的跟踪片段。因为在前面的视频序列的关联过程中，有的目标可能由于遮挡或者是漏检的情况，导致没有被关联上，实际的目标轨迹中间被断开，或者是原本属于一个目标的一条运动轨迹变成了两条，如图2-4所示。

图2-4中颜色相同的跟踪片段代表属于同一跟踪目标，但中间可能由于遮挡、漏检等情况导致一条完整的跟踪片段被分成了两部分。因此，在低可靠度跟踪片段数据关联阶段，不再只是关联第t帧的检测响应，还有前面的断开的跟踪片段，低可靠度跟踪片段数据关联因此被称为全局数据关联。除了进行上述关联过程之外，在全局数据关联阶段，还要对可能存在的遮挡、漏检、漂移等情况进行处理，防止跟踪片段断链的情况。

全局数据关联处理

在第t帧时，通过计算置信度，将第t帧中所有的跟踪片段分为两部分，假设共存在h条高可靠度跟踪片段和l条低可靠度跟踪片段，所有的高可靠度跟踪片段集合用

表示，所有的具有低可靠度的跟踪片段的集合可以用

表示。同时假设在局部数据关联之后，第t帧剩余n个检测响应没有被任何一个高可靠度跟踪片段关联上，n个检测响应的集合用/>

表示，低可靠度的跟踪片段的关联情况则可以分为以下三种：

情况1：低可靠度的跟踪片段同高可靠度的跟踪片段连接在一起；

情况2：低可靠度的跟踪片段终止；

情况3：低可靠度的跟踪片段同当前帧的检测响应连接在一起。

同局部数据关联过程类似，本发明将局部数据关联阶段的代价矩阵定义为公式(1-5)的形式。

其中，A＝[a_ij]表示情况1，

B＝diag[b₁,...,b_l]表示情况2，

代表在第t帧终止跟踪片段r需要付出的代价，C＝[c_ij]表示情况3，

同局部数据关联相同，需要设置一个阈值θ，以此来排除一些不可能的连接情况。

当完成局部连接之后，需要对每一条跟踪片段重新计算置信度，并更新当前每一条跟踪片段的状态，每一条跟踪片段的状态包括了其所对应的跟踪目标在视频帧中的位置、尺寸以及速度信息。同时对没有关联成功的跟踪片段判断是否出现了遮挡情况，并进行进一步的处理。

遮挡处理

遮挡问题是多目标跟踪研究中最困难的问题之一，由于遮挡问题的存在，导致一些目标会出现漏检或者是无法提取到有效表观特征的情况，将会对数据关联过程产生重要的影响，一般会出现身份交换或分段数远大于真实基准数据中的轨迹数量。当出现遮挡问题时，主要有两个难点问题需要解决，第一是如何在目标受到遮挡的情况下有效的提取特征进行相似度计算，第二，在复杂的场景下，目标被其他目标或背景中的障碍物遮挡，且目标的运动方向发生了变化。

如图2-5所示，当目标再次出现时，无法根据原有的运动模型预测出目标出现的位置，同时，目标出现的实际位置超出了在关联过程中设定的距离约束，即超出了原有的搜索范围。

针对上述第二个问题，本发明中的关联过程中的位置距离约束不再是一个常量，而是改为一个变量，用D_rt来表示，其定义如公式(1-6)所示。

相对于局部数据关联过程，在处理遮挡时允许有效数据关联的范围相对较大，

的大小取决于跟踪目标的宽度/>

和跟踪片段置信度/>

的大小，一般情况下，置信度越低，

的值越大，即跟踪片段可以和相对较远距离的目标检测响应进行连接。因为置信度越低说明跟踪发生了漂移，运动轨迹变化较大，因此应扩大数据关联的范围。

为了解决全局关联中第一个问题，本发明将被遮挡的目标的背景框分成多个小块，每个小块赋予不同的权重，在计算表观相似度时，除了计算整体的表观相似度以外，同时计算对应小块的相似度，然后综合判定两个目标是否为同一个目标。如图2-6所示，当出现遮挡时，本发明将目标的背景框分为了六块，第一块及背景框本身，后面的五块每一块都只包含了整个目标背景框的一部分，分别是背景框的中间上下左右五部分，当一个目标被遮挡时，很多情况下目标只是被遮挡住了一部分，虽然全局的特征提取效果不好，但是某一个部分有很大概率是没有被遮挡的，基于此，当目标局部被遮挡时，希望能够通过没有被遮挡的部分来判定两个目标的相似度。

为了提高计算效率，在分块计算两个目标的相似度的时候，本发明采用一种相对简单的方式。假设需要计算两个目标A和B的相似度，则用A和B的加权环形颜色直方图的欧式距离来度量，这里并没有考虑两个目标的运动状态相似度，加权环形颜色直方图与传统的颜色直方图相比，对图片中的每一个像素都加了一个权值，像素离中心点的距离越远，则权值越小。则A和B的相似度定义如公式(1-7)所示。

式中A_k——目标A的第k个小块；

B_k——目标B的第k个小块；

d(A_k,B_k)——两个小块的加权环形颜色直方图的欧式距离；

w_k——每个小块的权值。

w_k具体定义如公式(1-8)所示。

式中σ(d(A_k,B_k),k＝1,.N.)——目标框中所有小块的相应的欧氏距离的方差。

由上面的公式可以看出，某个位置对应的小块的距离度量值的大小和该块的权重大小成正比关系。

在跟踪的过程中，随时可能有新的目标加入到视频序列中，也随时可能有目标离开视频监控范围，因此需要实时判断每一帧中是否有新的目标出现或消失。在本发明中，设定了两个阈值，一个是目标检测响应分数的值，一个是帧数的阈值，本发明中设置为4帧，在跟踪的过程中，如果连续5帧内，在某一个范围内都检测到了有新的目标存在，则判定新出现了一个目标。判定一个目标消失的过程同上述过程类似，即当一个目标连续8帧内没有出现，则认为该目标消失。但不同的是，当一个目标消失后，有可能会再次出现，且当这个目标重新出现时，需要与前面的跟踪片段重新进行连接，且属于该目标的身份编号保持不变。

2.目标相似度度量模型设计

2.1相似度度量模型设计

在计算两个目标相似度时，本发明从两个目标的表观相似度、运动相似度以及尺寸相似度从三个方面考虑，将相似度度量模型定义为这三个方面乘积的形式，如公式(2-1)所示。

Φ(X,Y)＝Φ_a(X,Y)×Φ_m(X,Y)×Φ_s(X,Y) 2-1)

式中X，Y——目标检测响应或者是跟踪片段；

Φ_a(X,Y)——X与Y的表观相似度；

Φ_m(X,Y)——X与Y的运动相似度；

Φ_s(X,Y)——X与Y的尺寸相似度。

其中，尺寸相似度为X和Y所对应的检测响应的背景框大小的相似度，定义为公式(2-2)的形式。

式中h_X——与X对应的检测响应的背景框的高度；

w_X——与X对应的检测响应的背景框的宽度。

表观相似度和运动相似度的计算相对复杂，下面的小节中将会详细介绍本发明中所设计的表观相似度计算算法及运动相似度计算算法。

2.2基于多通道卷积神经网络的表观相似度模型

传统的表观相似度计算方式多种多样，包括计算两个目标的颜色直方图分布的匹配程度、计算两个目标相同特征点的个数等，然而这些特征都过于简单，在计算相似度时无法取得预期的结果。

多通道卷积神经网络结构设计

本发明设计的神经网络结构采用一个分支对输入的图片进行处理。在本发明收集的训练集中，所有的图片均为RGB三通道彩色图片，在设计网络结构时，本发明将输入的两张图片合并为一张六通道的图片，然后利用双倍通道的网络结构，不再进行各个分支显式提取特征然后进行特征对比的过程，而是直接将该六通道图片送入卷积神经网络，利用该网络直接学习相似度评价函数Φ_a(X,Y)，其网络结构示意图如图3-1所示。

在图3-2所示的网络结构中，最后一层为全连接层，输出的值即为输入两张图片的相似度。与原有的孪生卷积神经网络相比，直接利用双倍通道的图片通过单支卷积神经网络进行训练的速度会比较快，计算更为方便。更为重要的是，在输入时直接将两张图片合并为了一张，只是将图片的通道数变为了原来的两倍，在经过第一层卷积时，两张图片的像素就进行了相应的加权组合操作，在第一层进行完卷积操作后，输入的两张图片就已经彼此关联，无法区分，在后面的几层中，使用的是两张图片的联合信息，可以认为，两张图片相似度的计算过程从第一层就已经开始，而原有的孪生卷积神经网络在最后的全连接层才开始，因此取得的效果较原来的孪生卷积网络结构更好。这是本发明采用的双倍通道卷积神经网络结构同原有的孪生卷积神经网络结构最大的区别。

通过上述构建的神经网络结构，只需将两张三通道的RGB彩色图片合并为一张六通道的图片输入到网络结构就可以得到两张图片的相似度，但在跟踪的过程中，无法预测检测响应背景框的大小，背景框的大小对最后相似度的计算有一定影响，为了缓解上述问题，本发明又对上述的网络结构的输入进行了进一步处理，主要是对输入的两张图片做一个多尺度变换得到多张图片，再缩放至原来的大小。

假设一张输入图片的尺寸大小为m×n，以该图片的中心点为中心，截取一张大小为

的图片，截取的图片与原图片的中心点重合，同时将原有的图片进行下采样，垂直和水平方向的步长为2，同样得到一张大小为/>

的图片，经过上述两步处理后，一张大小为m×n的图片就变为了两张/>

大小的图片，因此，输入网络结构的一组图片就变为了四张大小为原来四分之一的图片，因此本发明设计的卷积神经网络结构也要做出相应的修改，最终的网络结构如图3-2所示。

多通道卷积神经网络结构实现

神经网络结构的损失函数定义如公式(2-3)所示。

式中w——神经网路结构中的参数；

——第i对训练样本在神经网络结构中的输出。

当输入的一对图片属于同一目标时，y_i取值为1，否则为-1。上述损失函数可以分为两部分，第一部分是正则化项，也称为结构化损失，用来防止过拟合，第二部分则为训练过程中损失，成为经验损失，用来降低训练过程中的误差。训练时参数更新的方法采用随机梯度下降(Stochastic Gradient Descent，SGD)，学习率初始化为1.0，权重衰减大小为0.0005，训练时min-batch的大小为100，其他的参数采用随机初始化的值。

本发明设计的网络结构模型需要预先在辅助数据集上训练，辅助数据集可以采用任意行人识别数据集，例如采用由香港中文大学研究团队提出的CUHK数据集。当神经网络结构完成训练时，就可以将该网络结构模型应用到多目标跟踪的过程中用来计算两个目标的表观相似度，然而如图3-3所示，辅助数据集和实际跟踪的数据集中的目标不同、尺寸不同、角度不同以及遮挡状态等都不同，数据的统计信息也不会相同，为了使得在辅助数据集上训练得到的模型能够在实际测试的数据集上依然取得较好的效果，需要进行一个在线迁移的过程。

采用在线迁移的过程，预训练时得到的神经网络模型的卷积层1和卷积层2学到的是中等层次的特征，在迁移时，保持这两层的结构和参数不变。本发明中的多目标跟踪框架街考虑迁移考虑了在线学习的过程。一般来讲，重新训练一个网络结构比重新训练一个网络结构的参数需要更多的数据，因此在本发明中，保持预训练得到的网络结构不变，只是重新训练该网络结构的参数，而且，并非所有的参数都需要重新训练。

在本发明提出的多目标跟踪框架中，当跟踪片段和检测响应之间的平均相似度分数低于0.5时，自动执行在线迁移学习过程，该分数是表观相似度矩阵中所有元素的平均值。在线迁移学习过程中一个核心的过程就是在线训练样例的收集，在每一帧里面会根据前面提到的置信度计算公式计算每一条跟踪片段的置信度，在收集训练样例时，只收集来自高可靠度跟踪片段的检测响应对应的图片块，包括目标的位置、尺寸信息。因为低可靠度的跟踪片段受到遮挡或存在错误的概率相对较大，在低可靠度跟踪片段里面采集的训练样例错误的可能性也就越大，将会影响到训练模型的效果。假设在高可靠度跟踪片段里面收集了N个图片样例，则正样例的个数与负样例的个数合计N(N-1)/2个。

在线迁移学习的好处是能够使得训练的神经网络模型更加适应指定的跟踪序列，进而提高多目标跟踪的效果，同时只重新训练后面的卷积层和全连接层，保持其它层参数不变又可以有效的避免过拟合。

2.3运动模型

利用卷积神经网络计算两个目标的相似度比传统的提取特征计算相似度具有更好的效果，然而，在多目标跟踪视频序列里面，有很多目标被遮挡的情况，此时，即使用卷积神经网络来计算两个目标的表观相似度也无法取得理想的效果，本发明介绍了在全局数据关联阶段对于遮挡情况的处理，但该处理方法也只能缓解目标被局部遮挡的情况，对于目标被全部遮挡的情况就失去了效果。另外，目标检测算法在提取每一帧目标的过程中可能出现漏检的情况，此时无法利用表观模型计算该检测响应同其他目标或跟踪片段的相似度。

如图3-4所示，红色虚线框代表的黑色目标在前几帧并无遮挡，可以准确的跟踪到，而中间两帧却被另外一个目标完全遮挡住，此时，目标检测算法无法检测到该目标的存在，导致在数据关联的过程中有可能判定该目标的跟踪过程结束，而后面的帧中该目标又从新出现在了画面中，此时需要重新对该目标进行跟踪，不仅要与前面的跟踪片段关联在一起，同时还要对中间没有检测到的两帧进行修复，此时无法依靠表观模型来解决。

为了缓解上述问题，在计算两个目标相似度的时候，本发明同时引入了物体的运动模型，与表观模型相结合共同计算两个目标的相似度。尤其当图3-4中的情况发生时，跟踪的目标被完全遮挡住，但目标的运动状态却未发生变化，此时利用该目标在前几帧中的位置和速度就可以准确预测出该目标在被遮挡住的两帧中的位置。

本发明中的运动模型利用卡尔曼滤波算法进行建模，假设目标X在t时刻的运动状态信息为X(t)＝[x(t),v_x(t),y(t),v_y(t)]^T，其中，x，y分别表示目标在水平和垂直两个方向的位置，v_x和v_y分别表示目标在这两个方向的速度。其状态方程如公式(2-4)所示。

X(t)＝AX(t-1)+W(t) (2-4)

式中W(t)——过程噪声，假设为高斯白噪声，其协方差矩阵为Q；A——系统参数，为矩阵形式。

A，Q在本发明中的具体形式如公式(2-5)所示。

式中T_s——帧速率的倒数。

运动模型的观测方程如(2-6)所示。

Z(t)＝HX(t)+V(t) (2-6)

式中V(t)——测量噪声，假设为高斯白噪声，其协方差矩阵为R；H——系统参数，为矩阵形式。

H，R在本发明中的具体形式如公式(2-7)所示。

卡尔曼滤波需要经过状态预测和状态更新两个步骤，在状态预测阶段，需要根据t-1时刻的状态来预测t时刻的状态，预测状态X(t|t-1)的定义如公式(2-8)所示。

X(t|t-1)＝AX(t-1|t-1) (2-8)

式中X(t|t-1)——上一时刻最优的预测状态。

当前时刻的状态更新完毕后，还需要更新预测误差协方差矩阵P(t|t-1)，更新过程如公式(2-9)所示。

P(t|t-1)＝AP(t-1|t-1)A^T+Q (2-9)

式中P(t|t-1)——X(t|t-1)对应的协方差；

Q——系统过程的协方差。

通过公式(2-8)，(2-9)可以获得t时刻的预测结果，将该结果与测量值相结合，可以获得该时刻的最优状态估计值X(t|t)，求取过程如公式(2-10)所示。

X(t|t)＝X(t|t-1)+K(t)[Z(t)-HX(t|t-1)] (2-10)

式中K(t)——卡尔曼增益，其计算方式如公式(2-11)所示。

此外，还需要更新与X(t|t)状态对应的误差协方差矩阵P(t|t)，更新过程如公式(2-12)所示。

P(t|t)＝P(t|t-1)-K(t)HP(t|t-1) (2-12)

卡尔曼滤波模拟的是带有高斯噪声的线性运动，假设目标在第t时刻没有被遮挡，此时的状态信息为X(t)，从t+1帧开始，目标消失了N-1帧，则在第t+N帧目标的状态可以根据公式(2-8)～(2-12)迭代求出，最终其形式如公式(2-13)所示。

X(t+N)＝[x(t+N),v_x(t+N),y(t+N),v_y(t+N)] (2-13)

从中可以得到目标在该帧的初始预测位置，表示为公式(2-14)的形式。

loc_(t+N)＝[x(t+N),y(t+N)] (2-14)

由上可知，通过公式(2-8)～(2-12)，可以根据目标X在t-1帧的信息求得目标在第t帧时的运动信息，包括其位置与速度信息。此时便可以通过公式(2-15)计算目标X与第t帧的检测响应或其他跟踪片段Y的相似度。

式中

——X和Y的速度方向相似度；

——X和Y的速度大小相似度。

和/>

可以分别通过公式、求得。

当出现遮挡情况时，同一跟踪片段内的表观相似度及运动相似度都会明显下降，可以以此作为判断出现遮挡的依据。若几帧后有新的目标出现，此时应考虑两种情况，一是出现的目标从未出现过，应给该目标分配一个编号，并维持跟踪，二是出现的目标为前几帧被遮挡住的目标，即新出现的目标能够通过全局数据关联同前面的跟踪片段进行连接，假设该目标在[t-γ,t]帧内被遮挡住，则应该对该区间内目标的运动状态信息进行恢复，恢复过程按公式(2-18)，(2-19)进行。

式中

——跟踪片段r在第t帧时的位置；

——跟踪片段r在第t帧时的速度。

3.1实验设置

3.1.1实验设计

本发明设计的实验在MOT Challenge^[44]提供的2D MOT 2015和2D MOT 2016两个公开数据集上进行。其中，2D MOT 2015数据集共包含了22条视频序列，训练集与测试集各占一半，训练集在每一帧中还包含了真实目标的相关信息，包括目标的身份编号，位置等。训练集的详细信息如表1所示，其中包含了每段视频的分辨率、视频长度、目标个数、背景框个数、每帧中目标的密度、拍摄的场景以及拍摄角度等信息。

表1 2D MOT 2015训练集序列

2D MOT 2015数据集中的主要挑战是行人交叉运动、障碍物遮挡等问题比较严重，尤其是在复杂情况下，行人目标被遮挡时会发生运动状态改变的情况。如图4-1所示，2DMOT 2016数据集与2D MOT 2015数据集相比，视频序列更长，包含的目标数目和背景框的数目更多，尤其是每帧中的目标密度要远远高于2D MOT 2015数据集，使得遮挡情况更加严重，而且拍摄场景更加多样化，因此更具有挑战性。

图4-1中，第一行为训练序列，第二行为测试序列，训练序列的详细信息如表2所示。

表2 MOT 2016训练集序列

3.1.2多目标跟踪评价指标

本发明采用Stiefelhagen等提出的CLEAR度量标准以及一些多目标跟踪性能评价指标来对本发明设计算法的性能进行评估。在多目标跟踪里面有两个常见的先决条件来量化跟踪器的性能，一个是判断每一个假设的输出是一个真正的正样例(True Positive,TP)还是一个假的正样例(False Positive，FP)，TP是指一个假设的输出就是一个实际的需要跟踪的目标，FP是指假设的输出并非实际需要跟踪的目标，TP与FP的判定通常通过设定的相似度阈值进行判断。与TP和FP对应的还有假的负样例(False Negative，FN，FN是指一个实际需要跟踪的目标没有被任何一个假设的输出覆盖。在多目标跟踪中，FP和FN出现的越少越好。显然，有时同一个实际需要跟踪的目标可能被多个假设输出覆盖，因此另一个先决条件就是一个实际的跟踪目标只能被一个假设输出覆盖，同时，一个假设输出也只能覆盖一个目标。另外两个常见的指标是身份交换(Identity Switch，IDSW)的次数和断链(Fragment，Frag)的次数，IDSW是指由于遮挡或其他因素，目标在跟踪的过程中突然被分配了一个新的身份编号，断链是指在跟踪的过程中，属于同一个目标的一条完整的运动轨迹被分割成了两部分，认为这两部分分别属于两个目标。如图5-2所示，虚线部分为一个目标真实的运动轨迹，在图4-2a)中，第三帧时，可能由于遮挡等因素，发生了跟踪错误，下一帧跟踪结束，第五帧时目标重新被跟踪到，但被分配了一个新的标号，此时，在第三帧便发生了断链，第五帧发生了身份交换的问题。在图4-2b)中，虽然没有发生断链的情况，但在第三帧时，由于相邻目标表观相近等因素，导致两个目标的编号发生了交换，该情况也属于身份交换的问题。

除了上述评价指标外，还有两个重要的评价指标，分别为多目标跟踪准确度(Multiple Object Tracking Accuracy，MOTA)和多目标跟踪精度(Multiple ObjectTracking Precision，MOTP)，MOTA综合了上述的多个评价指标，其计算方式如公式(3-1)所示，是多目标跟踪里面使用最为广泛的评价指标。

式中GT_t——真实目标轨迹的数目.

当跟踪算法输出错误目标的数目超过真实目标的数目时，MOTA的数值可以为负。MOTP是指多目标跟踪算法预测的目标的位置与目标真实位置的相似程度，利用它们的背景框的重合率来计算，计算方法如公式(3-2)所示。

式中c_t——预测的目标轨迹与真实目标轨迹匹配成功的数目；

d_t,i——预测的目标i的背景框和真实背景框在第t帧的重叠率.

MOTP主要衡量的是多目标跟踪算法预测的目标位置及尺寸的精度。所有的真实的目标轨迹可以分为三类，分别为大部分被跟踪到的轨迹(Mostly Tracked，MT)、部分被跟踪到的轨迹(Partially Tracked，PT)和大部分未被跟踪到的轨迹(Mostly Lost，ML)，分类的标准为一个目标在它的生命周期内被成功跟踪到的帧数占他生命周期的比率，如果大于80％则为MT，小于20％为ML，否则为PT，在多目标跟踪的过程中，MT越高越好，ML越低越好。

综上，多目标跟踪中常见的评价指标如表3所示。其中，红色的指标代表越低越好，其他则是越高越好。

表3多目标跟踪评价指标

/>

3.2实验及结果分析

3.2.1基于卷积网络的表观模型有效性验证

为了验证本发明提出的表观模型相似度计算方法的性能，本发明利用CUHK01和CUHK02数据集进行实验，在两个数据集中提取了5000组正样本，5000组负样本，每一个样本包含两个目标，若两个目标为相同目标，则为正样本，否则为负样本，将其中80％的样本作为训练集，20％的图片作为测试集。如图4-3所示，测试时输入一组图片，网络模型将会给出该组样例的类别及相似度分数，图4-3的第一行为正样例测试结果，第二行为负样例测试结果。

在上述实验中，本发明提出的卷积神经网络模型能够准确的判断出两个输入目标是否属于同一目标，准确率高达96.71％，同时，该网络模型能够给出两个目标的相似度分数，越相似越接近于1，反之，接近于0。但上述实验只测试了本发明提出的相似度算法在辅助训练集上的效果，为了进一步验证其在多目标跟踪过程中的有效性，本发明又设计了如下对比试验，在实验中，跟踪算法的整体框架采用本发明第三章设计的框架为基础，表观相似度计算部分分别采用如下方法：

(1)计算颜色直方图特征(HOG)的巴氏系数；

(2)计算ALFD特征；

(3)利用孪生卷积神经网络计算相似度；

(4)利用本发明的网络结构计算相似度。

对比结果如表4所示，测试视频序列为2D MOT 2015数据集中的ETH-Bahnhof序列。

表4表观相似度算法对比实验结果

在算法(1)中，利用两个模板颜色直方图的巴氏系数来计算两个模板的相似度，其将每个模板分成了512个分箱来计算两个模板的像素点颜色分布的相似程度，该算法只使用了表观特征中的颜色特征，使用的特征过于简单，且对于遮挡和光照情况非常敏感，因此取得的效果明显低于另外三种算法。在算法(2)中采用ALFD特征来计算两个目标的相似度，每个目标当中的特征点利用Kanade-Lucas-Tomasi Tracking算法和光流法相结合来确定，将像素差的阈值设置为30，每个目标划分为6个小区域，ALFD特征不仅考虑了目标的颜色信息，还隐含了特征点的运动信息，且对光照的敏感程度低于颜色直方图特征，取得的效果相对较好。算法(3)与算法(4)都利用卷积神经网络结构对目标提取特征并计算两个目标的相似度分数，与传统的方法相比，提取的特征更加丰富且更具有针对性，因此在复杂场景下的判别性更好，能够有效区分两个表观相似的目标，如表5-5所示，算法(3)与算法(4)出现身份交换和断链的次数要少于前两种算法。算法(3)的网络结构和参数设置与[33]中的网络结构相同，本发明算法为算法(4)，与算法(3)相比，本发明算法在第一个卷积层就将需要比较的两个图片的信息通过卷积操作结合在了一起，后面的网络层使用的均为两个目标的联合信息，因此取得的效果更好一些，且计算效率要高于算法(3)。

本发明提出的表观相似度算法虽然在准确率等部分指标上效果有所提升，时间复杂度却相对于传统的相似度计算方法有所提高，算法(1)和算法(2)的处理速度分别为5.7fps与4.6fps，而本发明算法只有3.3fps，但与利用孪生卷积神经网络计算表观相似度的方法相比，本发明算法的计算效率和准确度都有所提升，算法(3)的处理速度仅为1.1fps。

3.2.2遮挡处理的有效性验证

为了处理遮挡问题，本发明提出了多个处理技巧，首先，将目标的关联范围阈值设置为和置信度值相关的一个变量，而不再是常量，应用该技巧，可以在跟踪轨迹出现断链的时候提高两个跟踪片段关联成功的概率。

如图4-4所示，图中展示了本发明算法在ETH-Bahnhof视频序列上第16至25帧的跟踪结果，在第18帧时，跟踪目标1号开始被3号遮挡住，直到第24帧才重新出现，如果关联范围阈值是一个常量，则会认为1号目标是一个新出现的目标，应分配一个新的编号，但在本发明的实验结果中可以看到，当1号重新出现时，编号依然为1，因此，当在跟踪的过程中出现断链情况时，本发明提出的算法能够在一定程度上进行恢复。

其次，本发明还采取了一些其他处理遮挡的方法，如在出现局部遮挡时，将目标分成多个小块进行比较等，为了验证这些遮挡方案的有效性，本发明利用数据集PETS09-S2L1进行实验验证，在该数据集序列中，视频画面的中心有一个广告牌存在，视频中的多个人在一个小区域内往返走动，并频繁的受到其他目标或者广告牌遮挡，而且当行人在受到遮挡时运动状态经常发生改变，因此该数据集经常被用来验证多目标跟踪算法在面临遮挡问题时的鲁棒性。表5为其他算法同本发明算法的实验结果对比，其中，Our1与Our2为本发明算法，our1并未使用本发明提出的遮挡处理方案。

表5 PETS09-S2L1数据集实验结果

其中，CDA_DDALpb算法与本发明算法均采用了基于分层关联的多目标跟踪框架，但前者并没有对遮挡情况进行显示处理，MDP算法将多目标跟踪问题转化为马尔科夫决策问题，将目标被遮挡时看做目标生存周期中的一个状态，其对遮挡处理的方式相对简单。通过实验对比可以发现，含有遮挡处理方案的Our2算法和MDP算法比没有遮挡处理方案的CDA_DDALpb算法和Our1算法的准确度有明显提升，身份交换次数和断链的次数都有所降低。本发明算法和MDP算法相比，跟踪结果的准确度提升了1.7％，同时，身份交换的次数和发生断链的次数明显减少，通过该实验可以说明，本发明提出的遮挡处理方案可以有效提高多目标跟踪结果的准确度和鲁棒性，而且相对于其他算法的遮挡处理方案相比，本发明提出的遮挡处理方案更加有效。

图4-5为CDA_DDALpb算法、MDP算法以及本发明Our2算法在PETS09-S2L1数据集上的跟踪结果，图中只取了第22、27、36、41及46帧的结果。在该数据集中，画面的中间有一个广告牌存在，1号、2号和3号三个目标在这段时间内一直在这个区域内运动，且运动方式并无规律，更非线性运动。从第27帧开始，1号、2号及3号目标在广告牌附近均出现了遮挡情况，且2号3号目标的位置相近，1号目标的运动状态发生了突变。在第46帧时，2号与3号目标分开，1号目标离开了遮挡区域，此时，CDA_DDALpb算法和MDP算法均出现了错误。如图4-5a)所示，从27帧到第36帧这段时间内，由于2号和3号目标在受到遮挡时出现了交叉运动的情况，当二者分开时，CDA_DDALpb算法对这两个目标的编号出现了错误，他们的身份发生了交换；如图4-5b)所示，由于1号目标在遮挡时运动状态发生了突变，MDP算法中的1号目标的编号变为了4号，出现了断链的情况，而本发明的算法却没有出现上述问题。

3.2.3跟踪算法有效性验证

为了验证算法整体的性能，本发明利用MOT Challenge平台提供的2D MOT 2015和MOT 2016两个数据集中的测试集进行验证，并与近两年一些优秀的算法进行对比，对比结果分别如表6、7所示。

表6 2D MOT 2015数据集实验结果

表7MOT 2016数据集实验结果

根据表6、7的实验对比结果可以发现，本发明提出的算法在公开数据集上取得了良好的跟踪效果，尤其是在IDSW和Frag两项指标上取得的效果明显优于其他算法，因此可以说明本发明提出的算法拥有更好的鲁棒性。在表6中，CNNTCM算法与SiameseCNN算法均为线下的多目标跟踪算法，二者均采用卷积神经网络结构来计算两个跟踪目标的表观相似度，而且在其跟踪的过程中，可以使用视频序列中未来帧的信息，但本发明的算法在MOTA、IDSW以及Frag等指标中依然取得了比这两种算法更好的效果。MDP算法与oICF算法均为近两年提出的在线多目标跟踪算法，MDP算法为2016年提出的传统的多目标跟踪算法，并未使用卷积神经网络结构，本发明的算法与其相比，跟踪的准确度略低于该算法，但身份交换的次数和断链的次数明显较少，显然具有更好的鲁棒性。oICF算法也是基于卷积神经网络的多目标跟踪算法，其利用卷积神经网络不同的卷积层提取的特征进行组合计算两个目标之间的相似度，但与本发明提出的算法相比，几乎所有的指标都要低于本发明提出的算法。在表7中，使用的数据集为MOT2016数据集，相对于表6中使用的数据集，其视频场景更加复杂，每帧中目标的密度更大，遮挡情况更加严重，虽然本发明提出的算法在该数据集上获得的跟踪结果的准确度与另外两种算法取得的准确度相近，但本发明算法的跟踪结果中，发生身份交换和断链的次数却明显低于另外两种算法，由此可以证明，本发明提出的算法在复杂场景下具有更好的鲁棒性。

虽然本发明算法在公开数据集上取得了较好的效果，但时间复杂度却略高于其他算法。在2D MOT 2015数据集中，每帧中目标的密度相对较小，本发明算法的处理速度约为2.7帧每秒，而在MOT 2016数据集上，每帧中目标的密度相对较大，本发明算法的处理速度只有1.5帧每秒。通过实验分析发现，虽然总体的时间复杂度有所提高，但本发明提出的数据关联算法的时间复杂度却有所降低，在本发明算法当中，大约30％的时间用来处理遮挡和计算两个目标的表观相似度。因此，本发明算法在提高跟踪准确度和鲁棒性的同时，也在一定程度上造成了时间复杂度的提升。

图4-6为本发明算法在ETH_Bahnhof、PETS09-S2.L1以及ADL-Rundle-8视频序列上的部分跟踪结果。ETH_Bahnhof与ADL-Rundle-8视频序列中人员相对密集，频繁遮挡情况较为严重，虽然PETS09-S2.L1视频序列中目标的密度较小，但其中多个目标一直受到长时间遮挡，且在遮挡的过程中，运动状态发生了变化，但如图4-6所示，本发明提出的算法依然能够在这三个视频序列上取得较好的结果。

此外，本发明还提出一种基于分层数据关联和卷积神经网络的目标跟踪系统，其特征在于，包括存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序被所述处理器运行时实现如上所述的方法的步骤，其原理请参照上述方法实施例，在此不再赘述。

此外，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时实现如上所述的方法的步骤，其原理请参照上述方法实施例，在此不再赘述。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于分层数据关联和卷积神经网络的目标跟踪方法，其特征在于，包括以下步骤：

根据置信度的大小，将所有的跟踪片段分为高可靠度跟踪片段和低可靠度跟踪片段两部分，并以当前视频帧的检测响应为关联对象，为高可靠度跟踪片段进行局部数据关联处理，为低可靠度跟踪片段进行全局数据关联处理，其中，全局数据关联处理结合卷积神经网络实现；

所述以当前视频帧的检测响应为关联对象，为低可靠度跟踪片段进行全局数据关联处理的步骤中包括：

对低可靠度跟踪片段进行遮挡漂移处理；其中：

对低可靠度跟踪片段进行遮挡处理包括：

对低可靠度跟踪片段进行漂移处理包括：

将跟踪片段和相对较远距离的目标检测响应进行连接；

将目标的背景框分为六块，当出现遮挡时，第一块为背景框本身，后面的五块每一块都只包含了整个目标背景框的一部分，分别是背景框的中间上下左右五部分；

在分块计算两个目标的相似度的时候，采用一种加权环形颜色直方图的欧式距离来度量，则A和B的相似度定义如公式(1-7)所示，

式中A_k——目标A的第k个小块；

B_k——目标B的第k个小块；

d(A_k,B_k)——两个小块的加权环形颜色直方图的欧式距离；

w_k——每个小块的权值；

w_k具体定义如公式(1-8)所示；

式中

——目标框中所有小块的相应的欧氏距离的方差，在计算表观相似度时，除了计算整体的表观相似度以外，同时计算对应小块的相似度，然后综合判定两个目标是否为同一个目标；

其中目标被其他目标或背景中的障碍物遮挡，当目标再次出现时，无法根据原有的运动模型预测出目标出现的位置，同时，目标出现的实际位置超出了在关联过程中设定的距离约束，即超出了原有的搜索范围，关联过程中的位置距离约束不再是一个常量，而是改为一个变量，用

来表示，其定义如公式(1-6)所示，

的大小取决于跟踪目标的宽度/>

和跟踪片段置信度/>

的大小，置信度越低，/>

的值越大，即跟踪片段和相对较远距离的目标检测响应进行连接，因为置信度越低说明跟踪发生了漂移，运动轨迹变化大，因此应扩大数据关联的范围。

2.根据权利要求1所述的基于分层数据关联和卷积神经网络的目标跟踪方法，其特征在于，所述方法还包括：

在完成数据关联处理之后，更新跟踪目标的跟踪状态；

3.根据权利要求1所述的基于分层数据关联和卷积神经网络的目标跟踪方法，其特征在于，所述获取跟踪目标的当前视频帧的检测响应以及当前视频帧之前的所有视频帧的跟踪片段的步骤之前，所述方法还包括：

4.根据权利要求1所述的基于分层数据关联和卷积神经网络的目标跟踪方法，其特征在于，所述以当前视频帧的检测响应为关联对象，为高可靠度跟踪片段进行局部数据关联处理的步骤包括：

5.根据权利要求1所述的基于分层数据关联和卷积神经网络的目标跟踪方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的基于分层数据关联和卷积神经网络的目标跟踪方法，其特征在于，所述方法还包括：

在数据关联处理过程中，对跟踪片段进行管理。

7.根据权利要求1所述的基于分层数据关联和卷积神经网络的目标跟踪方法，其特征在于，所述方法还包括：

对跟踪算法进行有效性检测。

8.根据权利要求1所述的基于分层数据关联和卷积神经网络的目标跟踪方法，其特征在于，该目标跟踪方法包括多通道卷积神经网络结构，和应用该网络结构的网络损失函数，其中多通道卷积神经网络结构采用RGB三通道彩色图片作为输入，在设计网络结构时，将输入的两张图片合并为一张六通道的图片，然后利用双倍通道的网络结构，不再进行各个分支显式提取特征然后进行特征对比的过程，而是直接将该六通道图片送入卷积神经网络，将两张三通道的RGB彩色图片合并为一张六通道的图片输入到网络结构就得到两张图片的相似度，对输入的两张图片做一个多尺度变换得到多张图片，再缩放至原来的大小，具体来讲，假设一张输入图片的尺寸大小为m×n，以该图片的中心点为中心，截取一张大小为

大小的图片，因此，输入网络结构的一组图片就变为了四张大小为原来四分之一的图片，

对第一层卷积层的卷积核进行了设置，由于输入的两张图片做了一个多尺度变换得到了多张图片，总共12个通道，所以将第一层卷积的卷积核也要相应的设置为(m/2)*(n/2)*12；

其中应用于基于多通道卷积神经网络的这一网络结构的损失函数包括：神经网络结构的损失函数定义如公式(2-3)所示，

式中w——神经网络结构中的参数，

——第i对训练样本在神经网络结构中的输出，

当输入的一对图片属于同一目标时，y_i取值为1，否则为-1，上述损失函数分为两部分，第一部分是正则化项，也称为结构化损失，第二部分则为训练过程中损失，成为经验损失。

9.根据权利要求1所述的基于分层数据关联和卷积神经网络的目标跟踪方法，其特征在于，当出现遮挡情况时，在建立卡尔曼运动模型基础上，预测出目标的位置和速度，并以此作为判断出现遮挡的依据，若几帧后有新的目标出现，此时应考虑两种情况，一是出现的目标从未出现过，给该目标分配一个编号，并维持跟踪，二是出现的目标为前几帧被遮挡住的目标，即新出现的目标能够通过全局数据关联同前面的跟踪片段进行连接，假设该目标在[t-γ,t]帧内被遮挡住，则对该区间内目标的运动状态信息进行恢复，恢复过程按公式(2-18)，(2-19)进行，

式中

——跟踪片段r在第t帧时的位置；

——跟踪片段r在第t帧时的速度。

10.一种基于分层数据关联和卷积神经网络的目标跟踪系统，其特征在于，包括存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序被所述处理器运行时实现如权利要求1-9任一项所述的方法的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时实现如权利要求1-9中任一项所述的方法的步骤。