CN116245913A

CN116245913A - 基于层次化上下文引导的多目标跟踪方法

Info

Publication number: CN116245913A
Application number: CN202310117211.2A
Authority: CN
Inventors: 张宝鹏; 李芮; 王子印; 滕竹; 刘瑜淼; 李棋瑞; 陈晧阳
Original assignee: Aifushi Suzhou Special Equipment Co ltd; Beijing Jiaotong University
Current assignee: Aifushi Suzhou Special Equipment Co ltd; Beijing Jiaotong University
Priority date: 2023-01-30
Filing date: 2023-01-30
Publication date: 2023-06-09

Abstract

本发明提供一种基于层次化上下文引导的多目标跟踪方法，并提出了一种新的分层上下文引导网络，该网络通过分层地视频帧全局处理、局部处理和对象包围框处理来执行检测、包围框特征提取和对象位置细化。该跟踪器分别以全局和局部的方式学习视频帧的时间和空间上下文特征，引导多尺度特征聚合，从而定位感兴趣的区域，提取丰富的包围框特征。这样，每个检测的包围框除了语义信息外，还包含上下文关系信息，减少了不完整或不清楚的对象的重要信息的丢失。基于学习到的上下文特征，设计了一个上下文引导的对象位置细化模块，通过传播对象在每一帧的包围框特征来学习目标对象轨迹片段的代表性特征，并根据代表性特征生成位置细化后的对象。

Description

基于层次化上下文引导的多目标跟踪方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于层次化上下文引导的多目标跟踪方法。

背景技术

随着深度学习的发展，卷积神经网络应用在越来越多的场景中，而多目标跟踪由于其在视频监控、人机交互和虚拟现实中的广泛应用，在计算机视觉领域受到越来越多的重识。多目标跟踪旨在定位给定视频序列中的多个目标对象，为不同的对象分配不同的身份ID并记录每个ID在视频中的轨迹。目前，随着基于卷积神经网络的目标检测技术不断发展，基于检测的跟踪算法已成为多目标跟踪的主流方向。基于检测的跟踪算法首先需要在每个视频帧上执行目标检测获取每帧的检测结果，然后根据检测结果进行数据关联以创建每个对象在视频中的轨迹。

一阶段多目标跟踪方法的核心思想是在一个深度学习网络中同时进行目标检测和跟踪，通过共享大部分计算量来减少推理时间。最近，一种同时兼容跟踪效率和精度的一阶段多目标跟踪方法被提出，它是一个anchor-free的方法，使用ResNet-34结构作为骨干网络，使其能够很好的兼容精度和速度，通在骨干网络上添加Deep Layer Aggregation(DLA)结构来实现不同尺度的检测，这种网络设计可以根据目标的尺度和姿势动态地适应感受野，同时有助于缓解对齐问题。

该方法的框架如图2所示，主要由用于提取特征的特征提取网络，检测部分和嵌入ID的重识别3个部分。其中，检测分支分别用热图去预测物体中心的位置、获取目标的中心偏移量和估计目标边界框的高度和宽度，重识别分支的目的是产生能够区分物体的特征。检测部分和重识别部分共享特征提取网络提取到的特征，并同时进行训练学习。这些一次性方法虽然节省了一些计算量，但在跟踪场景复杂的情况下性能仍然有限。

发明内容

本发明的实施例提供了一种基于层次化上下文引导的多目标跟踪方法，用于解决现有技术中存在的技术问题。

为了实现上述目的，本发明采取了如下技术方案。

基于层次化上下文引导的多目标跟踪方法，包括：

S1基于原始视频序列，令t表示原始视频序列的第t帧；

S2当t＝1时，通过上下文引导的多尺度聚合模块处理原始视频序列，获得目标对象在当前帧的检测值D^t、检测值对应的包围框特征

和当前视频帧的特征

并使用检测值D^t初始化目标对象O^t，使用检测值对应的包围框特征

初始化对象的包围框特征

使用目标对象的包围框特征

初始化对象轨迹片段的代表性特征

当t>1时，通过上下文引导的多尺度聚合模块处理原始视频序列的第t帧和第t-1帧，挖掘获得当前帧的具有时空上下文信息的视频帧特征

并根据上下文信息的引导获取第t帧图像中的检测值D^t，检测值对应的包围框特征

和第t帧图像的特征

S3通过上下文引导的对象位置细化模块，通过目标对象在第t-1帧时的包围框特征

初始化该目标对象在第t-1帧时轨迹片段的代表性特征

获得更新后的该目标对象在第t帧时的轨迹片段的代表性特征

S4基于步骤S3获得的更新后的轨迹片段的代表性特征

和步骤S2得到的具有时空上下文信息的视频帧特征

通过上下文引导的对象位置细化模块进行处理，获得位置细化后目标对象R^t；

S5基于步骤S2得到的第t帧图像中的检测值D^t、检测值对应的包围框特征

步骤S3获得的更新后的目标对象在第t帧时的轨迹片段的代表性特征

和步骤S4得到的位置细化后的目标对象R^t，构建二部图；

S6基于二部图通过匈牙利算法进行匹配；

S7基于步骤S6的匹配结果获得目标的跟踪轨迹结果，包括：将检测值D^t的位置坐标作为与该检测值D^t匹配的目标对象在当前帧的位置，与该目标对象对应的包围框特征

作为该目标对象在当前帧的特征；

S8判断原始视频序列的处理是否结束，若是，则输出所有的目标的跟踪轨迹结果，否则，执行针对原始视频序列下一帧的处理操作。

优选地，上下文引导的多尺度聚合模块包括全局时序上下文挖掘子模块和基于补丁的空间上下文挖掘子模块；

全局时序上下文学习子模块用于处理不同帧之间的时间上下文关系，通过将上一帧的底层特征与当前帧的底层特征进行串联生成连接特征，然后对连接特征进行视频帧全局的时间上下文学习，计算当前帧特征的每个像素与前一帧所有像素之间的关系，并将计算结果输送到局部空间上下文学习子模块；

局部空间上下文学习子模块用于：基于全局时序上下文学习子模块的计算结果，利用ResNet34进行渐进式编码获得多尺度特征金字塔，对多尺度特征金字塔每一层的特征进行交叉分割，生成多个局部特征，然后对每个局部特征独立地进行空间上下文学习以获得特定范围的空间上下文关系，拼接同一层特征中地所有具有空间上下文信息地局部特征以得到特征金字塔中每一层完整的具有空间上下文的特征图，最后使用深层聚合方法对多尺度特征金字塔每一层的特征图进行聚合操作，获得多尺度聚合的当前视频的特征

基于多尺度聚合特征定位感兴趣的区域，获得检测值D^t和检测值的包围框特征

优选地，局部空间上下文学习子模块通过式

计算获得多尺度聚合的当前视频的特征

式中，Y为模块学到的具有上下文信息的特征，X为输入特征，在计算时间上下文关系时，X为当前帧和前一帧底层特征串联后的结果，在计算空间上下文时，X为多尺度金字塔中每一层进行交叉分割后的局部特征，W₁,W₂,W₃,W₄表示4个卷积层，Softmax表示激活函数，Maxpool为最大池化操作，

是一个系数，具体是通过自注意力机制计算获得的特征关系；

局部空间上下文学习子模块将计算获得的多尺度聚合的当前视频的特征

输送到检测分支和包围框特征提取分支中，得到当前帧的检测值D^t、检测值对应的包围框特征

优选地，步骤S3包括：通过式

计算获得更新后的该目标对象在第t帧时的轨迹片段的代表性特征

式中，j表示第j个目标对象，

表示该目标对象在第t-1帧时的包围框特征，

代表该目标对象在第t-1帧时轨迹片段的代表性特征。

优选地，步骤S4包括：

S41将具有时空上下文信息的当前视频帧帧特征

和上一视频帧帧特征

输入到编码器中进行编码；

S42通过式

将步骤S3获得的

与子步骤S41获得的编码结果输入到解码器中进行对象探查，计算获得细化对象R^t；式中，TransD和TransE是Transformer结构的编码器和解码器，f(.)是由卷积层组成的用于预测目标对象中心点位置，偏移量和包围框的函数。

由上述本发明的实施例提供的技术方案可以看出，本发明提供一种基于层次化上下文引导的多目标跟踪方法，并提出了一种新的分层上下文引导网络，该网络通过分层次自下而上的全局处理、局部处理和对象包围框处理来执行检测、包围框特征提取和对象位置细化。具体而言，该网络的多尺度聚合模块分别以全局和局部的方式学习时间和空间上下文特征，引导多尺度特征聚合，从而定位感兴趣的区域，提取丰富的包围框特征。这样，每个检测值的包围框特征除了语义信息外，还拥有上下文关系，减少了不完整或不清楚的对象的重要信息的丢失。最后，基于学习到的上下文特征，设计了一个上下文引导的对象位置细化模块，通过传播对象在历史帧中的包围框特征来学习该对象轨迹片段的代表性特征，并利用代表性特征和多尺度聚合模块的上下文特征在每一帧中生成位置细化后的对象，这种方式可以缓解对象和检测之间的错误匹配。以此来提高多目标跟踪任务模型在复杂跟踪场景中的性能。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的基于层次化上下文引导的多目标跟踪方法的处理流程图；

图2为现有技术的多目标跟踪处理过程图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

本发明提供一种基于层次化上下文引导的多目标跟踪方法，用于解决现有技术中存在的如下技术问题：

现有的很多多目标跟踪技术已经实现了一阶段方法，但是这些一阶段方法虽然大大提高了多目标跟踪的效率，但忽略了该方法的性能。在实际应用中，经常会遇到非常复杂的情况：物体的数量往往多达几十甚至数百个，物体间频繁的相互作用和遮挡很容易导致物体外观不完整或不清晰。而现有的很多一阶段方法由于缺乏对上下文线索的综合考虑，性能仍然局限于复杂的跟踪场景。

有鉴于此，本发明提出了一种用于一阶段多目标跟踪任务的新型分层上下文引导网络，该网络由上下文引导的多尺度聚合模块和上下文引导的对象位置细化模块组成。其中，为了减少由于相似目标对象的干扰、外观不完整或不清晰的目标对象所造成的性能限制，设计了上下文引导的多尺度聚合模块，该模块以全局和局部的方式学习视频帧的时空上下文信息，，指导多尺度特征聚合，以进行检测和包围框特征提取；为了有效地缓解错误匹配并处理长期遮挡问题，再多尺度聚合模块的基础上设计了上下文引导的对象位置细化模块用于调整对象的位置。

参见图1，本发明提供一种基于层次化上下文引导的多目标跟踪方法，包括如下步骤：

S1基于原始视频序列，令t表示原始视频序列的第t帧；

和当前视频帧的特征

初始化对象的包围框特征

使用目标对象的包围框特征

初始化对象轨迹片段的代表性特征

和第t帧图像的特征

初始化该目标对象在第t-1帧时轨迹片段的代表性特征

获得更新后的该目标对象在第t帧时的轨迹片段的代表性特征

S4基于步骤S3获得的更新后的轨迹片段的代表性特征

和步骤S2得到的具有时空上下文信息的视频帧特征

和步骤S4得到的位置细化后的目标对象R^t，构建二部图；

S6基于二部图通过匈牙利算法进行匹配；

作为该目标对象在当前帧的特征；

本发明提供的方法，首先需要对视频序列进行目标检测，然后将目标检测框中的目标进行特征提取，计算前后两帧目标之间的匹配程度并进行数据关联得到目标轨迹。

在多目标跟踪的实际应用场景中，往往需要根据一段没有任何标注信息的视频序列获得目标在视频序列中的运动轨迹，因此首先需要知道目标可能出现的位置，随着目标检测技术的不断提高，通过目标检测的方法获取视频中目标可能存在的位置成为多目标跟踪的主流。

在掌握目标可能出现的位置之后，如何将相邻视频帧之间同一个目标的位置关联起来得到目标在整个视频序列中的轨迹，即数据关联，是多目标跟踪中需要解决的关键问题。在步骤S2的实施例中，首先需要根据第1帧中的目标检测框对目标进行轨迹初始化，然后进行后续帧的数据关联。处理完所有视频帧后，输出每个目标对应的轨迹，即每个目标出现在哪一帧的哪个位置。

本发明模型整体框架由上下文引导的多尺度聚合和上下文引导的对象细化两个模块组成。在本发明中，将视频序列的每一帧依次输入到多尺度聚合模块和对象位置细化模块中得到视频帧中的检测值、检测值所对应包围框的特征、目标对象轨迹片段的代表性特征、经过位置细化后的目标对象，根据得到的这些结果构造二部图，并使用匈牙利算法进行数据关联，得到检测值和经过细化后的目标对象之间的匹配结果，最后根据匹配结果得到跟踪结果。

在本发明提供的方法中提出了一种用于一阶段多目标跟踪任务的新型分层上下文引导网络，该网络中包含一种新的上下文引导的多尺度聚合模块和上下文引导的对象位置细化模块。

分析发现现有一阶段多目标跟踪模型由于相似目标对象的干扰、外观不完整或不清晰会造成性能限制，为此设计了一个上下文引导的多尺度聚合模块，该模块使用ResNet34作为骨干网络。由于不同检测的空间拓扑结构不同，且随时间变化，多尺度聚合模块中的上下文学习有助于对检测的理解和定位。此外，该模块提供的具有时空上下文信息的视频帧特征为后续的对象位置细化奠定了坚实的基础。该模块通过全局时序上下文学习和局部空间上下文学习两个步骤来学习视频帧中的上下文关系，指导多尺度特征聚合，减少混合个体，生成具有更清晰边界的区别性嵌入。

上下文引导的多尺度聚合是为了减少由于相似目标的干扰、外观不完整或不清晰的目标对象所造成的性能限制，提高聚合特征的有效性而设计的，该模块包括全局时序上下文学习和局部空间上下文挖掘两个步骤，以此来学习上下文关系指导多尺度特征聚合。

关于上下文引导的多尺度聚合模块，具体提供的优选实施例中提出了一种分层学习上下文时空特征的方法。不同于现有的方法(图2)，考虑到在视频序列中，相邻数据帧的每个像素点都可能发生变化，而在同一数据帧中，像素点之间的变化往往与其近邻点紧密相关，因此采用一种从全局到局部的方式学习空间上下文。具体地，提出一个上下文学习模块，以Resnet50作为特征提取器，在Resnet50得到的底层特征中以全局方式使用上下文学习模块学习时间上下文，并在之后的多尺度特征金字塔中以局部方式学习目标与其周围环境的空间上下文信息。上下文学习模块的计算公式如公式(1)(2)所示，Y为模块学到的具有上下文信息的特征。X为输入特征，在以全局方式使用上下文学习模块学习时间上下文时，X为当前帧的底层特征和前一帧视频的底层特征串联后的结果；在以局部方式学习空间上下文时，X为将多尺度金字塔中各层特征进行均匀划分后的结果(进行交叉分割后的局部特征)。W₁,W₂,W₃,W₄表示4个卷积层，Softmax表示激活函数，Maxpool为最大池化操作，

是一个系数，具体是通过已知的自注意力机制计算获得的特征关系。

在上下文引导的多尺度聚合模块中，本实施例使用深层聚合方法对得到的各层具有时空上下文信息的特征进行聚合，以得到当前帧的特征

然后将该特征输送到检测分支和包围框特征提取分支中，得到当前帧的检测值D^t、检测值对应的包围框特征

全局时序上下文学习是以不同帧作为研究对象的，用以研究不同帧之间的时间上下文关系，并将得到的输出传递给空间上下文学习中。局部空间上下文学习以得到的时间上下文特征为前提，进而利用深层聚合方法得到多尺度聚合特征，从而定位感兴趣的区域，提取丰富的包围框特征。该模块得到的输出会传入到上下文引导的对象位置细化模块中进行处理。

具体的，上下文引导的多尺度聚合模块使用ResNet34作为骨干网络。全局时序上下文学习是以不同帧作为研究对象的，用以研究不同帧之间的时间上下文关系。它将上一帧的底层特征与当前帧的底层特征进行串联生成连接特征，然后通过上下文学习模块对连接特征进行全局的时间上下文学习，计算当前帧特征的每个像素与前一帧所有像素之间的关系。将得到的输出传递给空间上下文学习中。局部空间上下文挖掘以时间上下文的特征为前提，利用ResNet34进行渐进式编码得到多尺度特征金字塔。对于每一层特征都执行相同的操作：对特征进行交叉分割生成多个局部特征，然后对每个局部特征独立地进行空间上下文学习以获得特定范围的空间上下文关系，拼接同一层特征中地所有具有空间上下文信息地局部特征以得到特征金字塔中每一层完整的具有空间上下文的特征图，最后使用深层聚合方法对多尺度特征金字塔每一层的特征图进行聚合操作，获得视频帧的多尺度聚合特征

基于多尺度聚合特征定位感兴趣的区域，获得检测值D^t、检测值的包围框特征

如果存在长期遮挡，则会导致目标预测失败，因此，如何减轻跟踪中被跟踪对象的错误匹配和检测的问题成为一个不容忽视的问题，由此设计了上下文引导的对象位置细化模块，它借助学习到的具有时空上下文信息的视频帧特征和更新的轨迹片段代表性特征来探索每一帧中对象的可能位置，以获得每帧中尽可能接近真实目标的细化目标。该模块由轨迹片段的代表性特征更新和对象位置细化两部分组成，它通过传播对象在历史帧中的包围框特征来学习该对象轨迹片段的代表性特征，并利用代表性特征和多尺度聚合模块的上下文特征在每一帧中生成位置细化后的对象。使用轨迹片段的代表性特征代替目标对象在单独一帧中的包围框特征，可以为对象位置细化提供更可靠的特征信息，抑制一些噪声查询导致的细化失败。轨迹片段的代表性特征传递了之前所见对象的语义、上下文和位置信息，因位置细化模块可以达到良好的跟踪对象位置细化效果。在这个模块的作用下，细化后的目标更接近真实位置，提高了目标与检测之间的关联性能。

具体的，在上下文引导的对象位置细化模块中提出了目标对象的包围框特征和其轨迹片段的代表性特征这两个概念。目标对象的包围框特征是指目标在某一帧中的特征，轨迹片段的代表性特征是指该目标在一个时间段内的具有代表性的特征。全局时序上下文学习子模块用于处理不同帧之间的时间上下文关系，通过将上一帧的底层特征与当前帧的底层特征进行串联生成连接特征，然后对连接特征进行视频帧全局的时间上下文学习，计算当前帧特征的每个像素与前一帧所有像素之间的关系，并将计算结果输送到所述的局部空间上下文学习子模块。

具体地，利用前一帧跟踪得到的所有目标对象的包围框特征更新其轨迹片段的代表性特征，如公式(3)所示。其中j表示第j个目标对象，

表示其在第t-1帧时的包围框特征，

代表其在第t-1帧时轨迹片段的代表性特征。对于在第t-1帧中刚出现的目标，我们直接使用其在第t-1帧中的包围框特征初始化该轨迹片段的代表性特征。

在本发明提供的优选实施例中，步骤S4具体包括：

S41将具有时空上下文信息的当前视频帧帧特征

和上一视频帧帧特征

输入到编码器中进行编码；

S42通过式

将步骤S3获得的

如图1模型流程图所示，本发明整体流程步骤为：

1.给定一个需要进行多目标跟踪的视频序列，将其输入到模型中。

2.使用t表示输入视频的第t帧，从t＝1开始直至处理完视频序列的所有视频帧。当t＝1时，将第一帧输入到上下文引导的多目标聚合模块中，获得检测值D^t，检测值对应的包围框特征

和当前视频帧的特征

并使用D^t初始化目标对象O^t，使用

初始化目标对象的包围框特征

使用

初始化轨迹片段的代表性特征

3.当t>1时，将当前帧和上一帧的底层特征输入到上下文引导的多特征聚合模块中，通过学习时间和空间上下文来获得获得检测值D^t，检测值对应的包围框特征

和当前视频帧的特征

4.轨迹片段的代表性特征

进行更新，将第(t-1)帧的对象包围框特征

传播到历史轨迹片段代表性特征

中来更新第t帧中的轨迹片段代表性

5.利用上下文引导的对象位置细化模块产生位置细化后的对象R^t；

6.根据D^t，

和R^t构建二部图，其中二部图中的亲和力的值包括

和

之间的欧式距离、D^t和R^t的中心点之间的欧氏距离；

7.在二部图上使用匈牙利算法进行结果匹配。在数据关联中，我们将检测值的位置坐标作为与其匹配的对象在当前帧的位置，对应的包围框特征作为该对象在当前帧的特征。此外，还提出一种双重验证策略来处理长期遮挡的物体。具体来说，我们使用匈牙利算法来获得二部图的匹配结果。与细化对象不匹配的检测会产生一个新对象，而与检测不匹配的细化对象在被丢弃前最多会休眠50帧。通过计算出的亲和度值将新对象与休眠对象进行比较，确定新对象是否属于休眠对象。通过在线存储休眠对象，并将休眠对象与新对象进行比较，可以有效地抑制长期遮挡对象的跟踪失败。对于不属于任何休眠对象的新对象，我们将其视为一个真正的新目标对象。

8.根关联结果生成目标轨迹；

9.判断整个视频序列是否结束，若已经结束，输出所有目标的跟踪轨迹；否则，执行下一帧的跟踪操作。

综上所述，本发明提供一种基于层次化上下文引导的多目标跟踪方法，并提出了一种新的分层上下文引导网络，该网络通过分层全局处理、局部处理和对象处理来执行检测、特征提取和对象位置细化。具体而言，该跟踪器分别以全局和局部的方式学习时间和空间上下文特征，引导多尺度聚合，从而定位感兴趣的区域，提取丰富的包围框特征。这样，每个检测的嵌入除了语义信息外，还拥有上下文关系，减少了不完整或不清楚的对象的重要信息的丢失。最后，基于学习到的上下文特征，设计了一个上下文引导的对象位置细化模块，通过传播对象在每一帧的包围框特征来学习目标对象轨迹片段的代表性特征，并根据代表性特征生成位置细化后的对象，可以缓解对象和检测之间的错误匹配。以此来提高多目标跟踪任务模型在复杂跟踪场景中的性能。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.基于层次化上下文引导的多目标跟踪方法，其特征在于，包括：

S1基于原始视频序列，令t表示原始视频序列的第t帧；

和当前视频帧的特征

初始化对象的包围框特征

使用目标对象的包围框特征

初始化对象轨迹片段的代表性特征

和第t帧图像的特征

初始化该目标对象在第t-1帧时轨迹片段的代表性特征

获得更新后的该目标对象在第t帧时的轨迹片段的代表性特征

S4基于步骤S3获得的更新后的轨迹片段的代表性特征

和步骤S2得到的具有时空上下文信息的视频帧特征

和步骤S4得到的位置细化后的目标对象R^t，构建二部图；

S6基于二部图通过匈牙利算法进行匹配；

作为该目标对象在当前帧的特征；

2.根据权利要求1所述的方法，其特征在于，步骤S2中，所述上下文引导的多尺度聚合模块包括全局时序上下文挖掘子模块和基于补丁的空间上下文挖掘子模块；

所述全局时序上下文学习子模块用于处理不同帧之间的时间上下文关系，通过将上一帧的底层特征与当前帧的底层特征进行串联生成连接特征，然后对连接特征进行视频帧全局的时间上下文学习，计算当前帧特征的每个像素与前一帧所有像素之间的关系，并将计算结果输送到所述的局部空间上下文学习子模块；

所述的局部空间上下文学习子模块用于：基于所述全局时序上下文学习子模块的计算结果，利用ResNet34进行渐进式编码获得多尺度特征金字塔，对多尺度特征金字塔每一层的特征进行交叉分割，生成多个局部特征，然后对每个局部特征独立地进行空间上下文学习以获得特定范围的空间上下文关系，拼接同一层特征中地所有具有空间上下文信息地局部特征以得到特征金字塔中每一层完整的具有空间上下文的特征图，最后使用深层聚合方法对多尺度特征金字塔每一层的特征图进行聚合操作，获得多尺度聚合的当前视频的特征