CN113628245B

CN113628245B - 多目标跟踪方法、装置、电子设备和存储介质

Info

Publication number: CN113628245B
Application number: CN202110786110.5A
Authority: CN
Inventors: 胡卫明; 周宗伟; 高晋
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-07-12
Filing date: 2021-07-12
Publication date: 2023-10-31
Anticipated expiration: 2041-07-12
Also published as: CN113628245A

Abstract

本发明提供一种多目标跟踪方法、装置、电子设备和存储介质，所述方法包括：获取待检测的当前视频帧；基于目标检测网络，对所述当前视频帧进行多目标检测，得到检测结果；基于所述检测结果，对所述当前视频帧中的各目标进行目标跟踪；其中，所述目标检测网络包括若干组并行的目标检测分支和特征抽取分支；所述目标检测分支和特征抽取分支用于对所述当前视频帧的特征图中各个位置点进行处理。本发明提供的方法、装置、电子设备和存储介质，节省了目标检测和特征抽取的时间消耗，大大提升了目标跟踪的速度，从而能够实现多目标的实时性跟踪，并且增强了抽取特征的鉴别性，同时避免了不必要的人力消耗和资源消耗。

Description

多目标跟踪方法、装置、电子设备和存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种多目标跟踪方法、装置、电子设备和存储介质。

背景技术

多目标跟踪任务一直以来都是计算机视觉中的一个重要研究方向，其在视频监控、视频内容分析、自动驾驶等领域具有广泛应用。多目标跟踪任务所要解决的问题是如何通过定位和关联多帧图像中相同身份的不同观测获得多个目标的运动轨迹。基于检测的跟踪框架是当前解决多目标跟踪问题的主流框架，其一般包含三个步骤：利用检测器对每帧图像进行目标检测；从每个检测的图像区域中抽取目标的特征嵌入；利用表观相似性和运动一致性等信息实现不同帧中检测的关联以形成轨迹。

目前，为了完成目标检测和特征抽取这两个步骤，通常采用类似于Faster RCNN(Faster Region-Convolutional Neural Networks，快速区域卷积神经网络)的两阶段框架，首先在第一阶段利用区域候选网络(Region Proposal Network，RPN)进行前景目标的检测，然后在第二阶段抽取每个目标的鉴别特征。然而，这种方式的执行速度较慢，进而导致目标跟踪的速度较慢，并且，由于该框架下性能的提升往往以大量的候选区域为代价，这种方式的计算量也会较大。

发明内容

本发明提供一种多目标跟踪方法、装置、电子设备和存储介质，用以解决现有技术中跟踪速度慢的缺陷，实现多目标的实时性跟踪。

本发明提供一种多目标跟踪方法，包括：

获取待检测的当前视频帧；

基于目标检测网络，对所述当前视频帧进行多目标检测，得到检测结果；

基于所述检测结果，对所述当前视频帧中的各目标进行目标跟踪；

其中，所述目标检测网络包括若干组并行的目标检测分支和特征抽取分支；所述目标检测分支和特征抽取分支用于对所述当前视频帧的特征图中各个位置点进行处理。

根据本发明提供的一种多目标跟踪方法，所述特征抽取分支包括可形变局部注意力模块；

所述可形变局部注意力模块用于基于注意力机制获取特征图中局部位置点的局部特征。

根据本发明提供的一种多目标跟踪方法，所述目标检测分支包括位置点分类分支和目标框回归分支；

所述位置点分类分支、目标框回归分支和特征抽取分支中的至少一个包括任务敏感模块；所述任务敏感模块用于基于所处分支执行的任务选取对应位置点的特征。

根据本发明提供的一种多目标跟踪方法，所述目标检测网络是基于如下步骤得到的：

基于样本特征图中各个样本位置点处于对应目标框的中心度，计算各个样本位置点的置信度；

基于所述置信度对各个样本位置点进行划分，得到正样本集和负样本集；

基于所述正样本集和负样本集，对初始网络进行训练，得到所述目标检测网络。

根据本发明提供的一种多目标跟踪方法，所述基于所述正样本集和负样本集，对初始网络进行训练，包括：

基于所述正样本集和负样本集中各个样本点处于对应目标框的中心度，确定所述各个样本点的损失权重；

基于所述各个样本点以及对应的损失权重，对所述初始网络进行训练。

根据本发明提供的一种多目标跟踪方法，所述基于目标检测网络，对所述当前视频帧进行多目标检测，得到检测结果，之后还包括：

基于所述检测结果中各预测框之间的交并比，以及各预测框对应特征之间的表观相似度，对所述各预测框进行筛选，得到多个目标框。

根据本发明提供的一种多目标跟踪方法，所述基于所述检测结果，对所述当前视频帧中的各目标进行目标跟踪，包括：

基于各目标框对应的特征，进行相邻视频帧之间的特征匹配，得到所述各目标的跟踪轨迹。

本发明还提供一种多目标跟踪装置，包括：

获取模块，用于获取待检测的当前视频帧；

检测模块，用于基于目标检测网络，对所述当前视频帧进行多目标检测，得到检测结果；

跟踪模块，用于基于所述检测结果，对所述当前视频帧中的各目标进行目标跟踪；

其中，所述目标检测网络包括若干组并行的目标检测分支和特征抽取分支；所述目标检测分支和特征抽取分支中的至少一个是基于特征图中的各个位置点进行处理的。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述多目标跟踪方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述多目标跟踪方法的步骤。

本发明提供的多目标跟踪方法、装置、电子设备和存储介质，通过目标检测网络包括若干组并行的目标检测分支和特征抽取分支，节省了目标检测和特征抽取的时间消耗，大大提升了目标跟踪的速度，从而能够实现多目标的实时性跟踪，并且通过目标检测分支和特征抽取分支针对特征图中各个位置点进行处理，增强了抽取特征的鉴别性，同时避免了不必要的人力消耗和资源消耗。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的多目标跟踪方法的流程示意图；

图2是本发明提供的目标检测网络的网络结构示意图；

图3是本发明提供的可形变局部注意力模块的网络结构示意图；

图4是本发明提供的任务敏感模块的网络结构示意图；

图5是本发明提供的多目标跟踪装置的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

尽管多目标跟踪任务经过几十年的研究已经取得了很大进步，但由于类内表观差异较大、类间交互频繁等因素，其依然具有较大的挑战性，值得继续深入研究与探索。基于检测的跟踪框架是当前解决多目标跟踪问题的主流框架，其一般包含目标检测、特征抽取和帧间关联三个步骤。这三个步骤的依次执行往往会导致跟踪效率较低，难以满足许多实际应用中的实时性需求。随着深度学习的发展，目标的表观特征鉴别性越来越强。得益于较强的鉴别特征，简单的帧间关联策略也能达到较好的跟踪性能。简单的帧间关联策略一般速度较快，因此限制多目标跟踪速度的瓶颈在于分离的目标检测和特征抽取步骤，打破该速度瓶颈的直观思路是联合目标检测和特征抽取步骤。

目前，为了完成目标检测和特征抽取这两个步骤，通常采用类似于Faster RCNN的两阶段框架，即需要分两个阶段顺序执行目标检测和特征抽取，这种顺序执行的框架会限制执行速度，进而导致目标跟踪的速度较慢。此外，也有少量采用类似SSD(Single ShotMultiBox Detector，单级多框预测)思路的单阶段框架，但这种单阶段框架目前研究尚不充分，已有的方法一般在图像的深层特征图中利用预先定义的锚框同步完成特征的抽取和目标的检测。这种框架虽然能够得到接近实时的跟踪速度，但依然存在两点不足之处：

首先，尽管每个位置上预先定义了多个不同尺度的锚框用于检测，但从模型复杂度考虑，特征的抽取一般是针对于位置而非锚框，于是同一位置可能对应负责不同目标的多个锚框，而只产生一个表观向量，进而导致该表观向量的标签产生歧义性，降低表观特征的鉴别性；其次，在锚框的预定义过程中需要较复杂的超参数的人为设定，并且基于锚框的检测分支相对于锚框结构也更加复杂。

对此，本发明实施例提供了一种多目标跟踪方法，图1是本发明提供的多目标跟踪方法的流程示意图，如图1所示，该方法包括：

步骤110，获取待检测的当前视频帧；

步骤120，基于目标检测网络，对当前视频帧进行多目标检测，得到检测结果；

步骤130，基于检测结果，对当前视频帧中的各目标进行目标跟踪；

其中，目标检测网络包括若干组并行的目标检测分支和特征抽取分支；目标检测分支和特征抽取分支用于对当前视频帧的特征图中各个位置点进行处理。

具体地，获取需要进行多目标跟踪的视频数据，从视频数据中抽取视频帧序列，并确定当前要进行多目标检测的当前视频帧。此处，视频数据可以是装设在待跟踪区域的视频采集设备实时采集并传输的视频流，也可以是视频采集设备预先采集并存储的视频，本发明实施例对此不作具体限定。

为了确定当前视频帧中包含的目标，需要对当前视频帧进行多目标检测，得到当前视频帧的检测结果。此处，检测结果可以包括当前视频帧中各个目标的位置、类别以及对应的特征表示等信息，目标可以是行人，也可以是车辆，还可以是其他需要进行跟踪的移动目标。在此基础上，即可基于检测结果对当前视频帧中各个目标进行目标跟踪。

在本发明实施例中，步骤120实质涵盖了多目标跟踪任务的两个步骤，即目标检测和特征抽取。而考虑到现有技术通常需要分两个阶段顺序执行目标检测和特征抽取，这种顺序执行的方式会限制执行速度，进而导致目标跟踪的速度较慢。针对这一问题，本发明实施例提出了一种单阶段的联合网络，即设置目标检测网络包括若干组并行的目标检测分支和特征抽取分支，实现目标检测分支和特征抽取分支并行进行处理，从而打破了顺序执行目标检测和特征抽取的时序性带来的天然的速度瓶颈。

此外，考虑到现有技术在进行目标检测和特征抽取时，需要依赖于预先定义的锚框才能完成，这种方式会降低表观特征的鉴别性，并且会带来不必要的人力消耗和资源消耗。针对这一问题，本发明实施例设置目标检测分支针对当前视频帧的特征图中各个位置点执行目标检测，从而通过不依赖于锚框，能够避免针对不同目标设计不同锚框所带来的人力消耗，同时也避免了锚框的标签分配和后处理过程中的复杂计算资源消耗。

并且，特征抽取分支也针对当前视频帧的特征图中各个位置点执行特征抽取，从而能够保证每个位置点对应的回归框仅具有唯一的特征表示，进而避免了多锚框引起的特征表示歧义性，增强了特征的鉴别性，使其能更好地保证跟踪过程中轨迹的连续性。

本发明实施例提供的方法，通过目标检测网络包括若干组并行的目标检测分支和特征抽取分支，节省了目标检测和特征抽取的时间消耗，大大提升了目标跟踪的速度，从而能够实现多目标的实时性跟踪，并且通过目标检测分支和特征抽取分支针对特征图中各个位置点进行处理，增强了抽取特征的鉴别性，同时避免了不必要的人力消耗和资源消耗。

基于上述任一实施例，特征抽取分支包括可形变局部注意力模块；

可形变局部注意力模块用于基于注意力机制获取特征图中局部位置点的局部特征。

具体地，一方面，考虑到每个目标总是具有一定的空间连续分布，而基于位置点的方法，将位置点划分为对应的目标标签，因此局部邻域内的位置点簇理论上应该具有聚集性，即具有较强的相似度，利用局部特征的相似度可以进一步增强检测精度和抽取特征的鉴别性；另一方面，考虑到目标的尺寸存在不同，采用可形变注意力机制的方式可以选择不同尺寸目标内部的注意力点提取关键特征。

对此，本发明实施例设置特征抽取分支包括一种改进的注意力模块，即可形变局部注意力模块，该可形变局部注意力模块可以基于注意力机制获取特征图中局部位置点对应的局部特征，此处的局部位置点即目标检测分支检测到的各个目标内部的位置点，从而利用各个局部位置点之间的较强特征相关性，提升了所抽取特征的表征能力，同时通过结合可形变注意力机制，能够更好地针对不同目标融合更适合的局部特征。

基于上述任一实施例，目标检测分支包括位置点分类分支和目标框回归分支；

位置点分类分支、目标框回归分支和特征抽取分支中的至少一个包括任务敏感模块；任务敏感模块用于基于所处分支执行的任务选取对应位置点的特征。

具体地，为了更好地定位检测出来的各个目标，进而有利于后续的目标跟踪，本发明实施例的目标检测分支除了包括位置点分类分支之外，还包括目标框回归分支。该位置点分类分支用于确定各个位置点处是否存在目标，目标框回归分支用于回归出各个目标所在位置处的目标框。

此外，考虑到现有基于中心点的目标检测方法中，当出现多个不同目标重叠的情况时，目标中心点可能会被遮挡，此时提取中心点特征显然不合理。另外，有利于不同任务的特征可能对应的是不同位置点的特征，例如，有利于目标框回归任务的位置点特征，可能并不是特征抽取任务的最优特征。

对此，本发明实施例设置位置点分类分支、目标框回归分支和特征抽取分支中的至少一个包括任务敏感模块，该任务敏感模块可以基于所处分支执行的任务选取对应位置点的特征，从而实现针对不同分支所执行的不同任务，选取适合任务本身的位置点特征进行各自的任务。

基于上述任一实施例，目标检测网络是基于如下步骤得到的：

基于置信度对各个样本位置点进行划分，得到正样本集和负样本集；

基于正样本集和负样本集，对初始网络进行训练，得到目标检测网络。

具体地，考虑到目标检测网络是针对特征图中各个位置点进行处理，因此，为了训练得到目标检测网络，可以预先收集大量样本特征图中各个样本位置点，并将其作为训练样本。随即，为了增强特征表示的鉴别性，可以在得到训练样本之后，将训练样本划分为正样本集和负样本集，再利用正样本集和负样本集，对初始网络进行训练优化，从而得到训练完成的目标检测网络。可以理解的是，初始网络与目标检测网络的网络结构相同，二者之间仅仅是网络参数上的区别。本发明实施例对于初始网络的类型不作具体限定，初始网络可以是在已有神经网络模型的基础上进行改进直接得到的，也可以是对已有神经网络模型进行网络改进并进行预训练后得到的。

此处，正样本集和负样本集具体可以通过如下方式得到：预先在样本特征图上标注出真实的目标框，然后计算样本特征图中各个样本位置点处于对应目标框的中心偏离程度即中心度，随即根据中心度计算各个样本位置点的置信度，最后可以根据置信度将各个样本位置点划分为正样本或负样本，由此得到正样本集和负样本集，也可以根据置信度筛选部分样本位置点，再将这部分样本位置点进行正负样本集的构建，从而可以进一步增强特征表示的鉴别性。

进一步地，各个样本位置点处于对应目标框的中心度可以通过如下公式计算：

其中，P_ij，B_k分别表示样本位置点和对应的目标框，CT(·)表示位置点处于对应目标框的中心度，分别表示样本位置点到其所处的目标框的左边、右边、上边、下边的距离；

另外，考虑到多目标跟踪场景中存在多个目标频繁遮挡的情形，样本位置点可能对应多个目标框，因此就会面临这类样本位置点的标签该如何划分的问题。为了解决这一问题，本发明实施例计算样本位置点处于对应的所有目标框的中心度，然后取中心度最大的那个目标框的标签作为该样本位置点的标签。其采用的函数形式如下：

M_ij＝argmax_k[CT(P_ij，B_k)]

其中，M_ij表示样本位置点P_ij最终分配的标签。

基于上述任一实施例，基于正样本集和负样本集，对初始网络进行训练，包括：

基于正样本集和负样本集中各个样本点处于对应目标框的中心度，确定各个样本点的损失权重；

基于各个样本点以及对应的损失权重，对初始网络进行训练。

具体地，考虑到多目标跟踪场景中目标往往具有较大的尺寸差异以及较严重的遮挡问题，传统检测器在检测过程中会更多地注意可见度较大的目标，导致部分遮挡区域的目标被忽视的情况。对此，本发明实施例在得到正负样本集合中包括的各个样本点之后，根据各个样本点处于对应目标框的中心度，判断各个样本点的检测难易程度，由此分配给各个样本点对应的损失权重，再根据各个样本点以及对应的损失权重，对初始网络进行训练，从而通过赋予样本不同的损失权重，使得网络更侧重于困难样本的检测，进而减轻易混淆区域对网络训练的影响，提升网络的检测精度。

进一步地，在目标检测网络的整个训练过程中可以采用多任务损失函数，即各个任务分支采用不同的损失函数，例如，目标检测分支中位置点分类分支的损失函数可以采用二值交叉熵损失的二分类损失，目标框回归分支的损失函数可以采用L1 smooth loss，特征抽取分支的损失函数可以采用交叉熵损失的多分类损失。对于每一个任务分支的损失函数，都可以给各个样本点赋予不同的损失权重，例如，位置点分类分支采用的分类损失函数形式如下：

此处，L_cls表示分类损失值，K表示真实目标的个数，CT(P_ij)表示样本点P_ij的中心度，β表示中心度的调制因子，α_ij表示样本点的损失权重，τ表示中心度阈值，ρ_ij表示样本点为正样本的概率，γ表示损失权重的调制因子。

基于上述任一实施例，图2是本发明提供的目标检测网络的网络结构示意图，如图2所示，整个网络由基干网络、特征金字塔和每个金字塔层的预测头构成，能够以全卷积方式进行端到端推断。基干网络可以采用一些常用的结构，如ResNet50等；特征金字塔能更好的处理目标尺寸差异问题，第m层金字塔表示为Pm，其特征图的尺寸为输入图像尺寸的1/sm，其中sm为下采样的步长；每个金字塔层的预测头结构都包含两个特定任务的子网结构，即目标检测分支和特征抽取分支。

在特征抽取分支中，先利用3层卷积核为3×3的卷积层进行特征的再变换，然后从最后特征图的每个位置点上抽取512维的特征向量表示该位置点对应的表观信息。在目标检测分支中，先利用2层卷积核为3×3的卷积层进行特征再变换，然后通过两个分支即位置点分类分支和目标框回归分支，分别预测每个位置点属于前景目标的概率以及回归该位置点负责的目标的包围框。

在此基础上，每一视频帧图像首先经过一个基干网络以提取其深度特征，然后特征经过两个并行的分支，其一用于目标的检测，其二用于特征的抽取。目标检测分支采用无锚框单阶段的方式，针对每个位置点进行目标检测，能够克服表观特征的歧义性；特征抽取分支同样采用无锚框单阶段的方式，利用每个位置点的特征进行类别的分类，从而提取鉴别性特征。

本发明实施例从框架设计层面，联合了多目标跟踪方法中的目标检测模块和特征抽取模块，由此得到目标检测网络。该网络能够利用共享特征层，打破了顺序执行目标检测和特征抽取的时序性带来的天然的速度瓶颈。并且，能够实现多目标的实时性跟踪，能够促进当前多目标跟踪领域学术研究针对具体场景的实际落地。

基于上述任一实施例，图3是本发明提供的可形变局部注意力模块的网络结构示意图，如图3所示，给定基干网络提供的特征图F，将F经过三个卷积层Wq，Wk，Wv分别对应特征的进一步编码，得到注意力机制中的query(Q＝WqF)，key(K＝WkF)和value(V＝WvF)值；将F通过卷积层Wo获得每个参考点上query需要查询的value位置的偏移量O＝WoF，从而得到实际的采样点位置，再基于采样点位置选取对应的key和value；随即，将key和query做向量内积，然后使用softmax计算权重得分，再与value进行加权求和。可形变局部注意力模块可以通过计算特征间内积融合局部特征。

基于上述任一实施例，图4是本发明提供的任务敏感模块的网络结构示意图，如图4中虚线框所示，在每个金字塔层的预测头中，位置点分类分支、目标框回归分支和特征抽取分支对应的每个任务的最终层之前都加了一层卷积核尺寸为1的可变形卷积层，从而可以通过训练实现选择合适的位置点提取对应的特征解决特定的任务。

进一步地，可以在目标检测网络中同时设置可形变局部注意力模块和任务敏感模块，从而能够利用局部信息选择适合不同任务不同目标的特征选择和目标检测，增强了模型的泛化性能，使其具有更好的鲁棒性。

基于上述任一实施例，考虑到与一般的目标检测场景不同，在多目标跟踪场景中，尤其是在多行人跟踪场景中，目标往往具有较大的尺寸差异以及较严重的遮挡问题，因此使用一般的无锚框目标检测器会因注意力偏差和特征选择偏差导致大量漏检。此处，注意力偏差是指检测器在检测过程中更多地注意到可见度较大的目标，导致部分遮挡的目标被忽视的情况。特征选择偏差是指相似尺度的相互遮挡目标在被映射到相同特征金字塔阶段时，可能产生的将属于不同目标的区域映射到相同位置的情况，特征选择偏差会导致特征鉴别性下降。

为了避免注意力偏差和特征选择偏差，本发明实施例提出了两种有效的训练策略。首先，在目标检测和特征抽取任务中，样本会根据其距目标中心点的距离被赋予不同的权重，以减轻易混淆区域对训练的影响；其次，在构建特征金字塔时，令不同阶段的金字塔回归区间存在重叠，从而可将一个目标映射到多个特征尺度，通过信息的冗余筛选更有鉴别力的特征。

本发明实施例在模型训练层面，通过重要性样本选择以及损失加权，能够处理模型的特征选择偏差和注意力偏差。从而使模型能够更好地处理歧义性或困难样本，并且同时照顾不同尺寸的样本重要性，使得模型同时较好地处理不同尺寸的目标检测。两种策略的选择能够获得更好的检测结果以及更强鉴别性的特征。

基于上述任一实施例，步骤120之后还包括：

基于检测结果中各预测框之间的交并比，以及各预测框对应特征之间的表观相似度，对各预测框进行筛选，得到多个目标框。

具体地，考虑到目标检测过程一般会通过阈值提供许多可能的预测框，然后利用非极大值抑制方法选择最可能的检测结果。传统的非极大值抑制方法仅考虑了预测框之间的交并比，而并不考虑框内的具体内容，会导致在遮挡场景下存在大量过度抑制。

针对这一问题，本发明实施例针对检测结果的后处理，提出了一种同时考虑目标的空间和表观信息的改进非极大值抑制方法，即根据检测结果中各预测框之间的交并比，以及各预测框对应特征之间的表观相似度，对各预测框进行筛选，从而得到多个目标框，进而通过结合预测框对应的具有较强鉴别性的特征，能够极大地降低目标的误检率和漏检率。

基于位置点的目标检测网络所提取的特征具有较强鉴别性，在此基础上，在对检测结果进行后处理时，同时考虑目标的空间相似度，以及目标对应特征之间的表观相似度，能够进一步降低目标检测网络的误检率和漏检率。

基于上述任一实施例，步骤130包括：

基于各目标框对应的特征，进行相邻视频帧之间的特征匹配，得到各目标的跟踪轨迹。

具体地，在当前视频帧经过目标检测网络检测以及后处理之后，可以获得各目标对应的目标框以及特征，根据各目标框对应的特征，在相邻视频帧之间利用特征相似度，进行特征匹配，从而能够获得各目标连续的跟踪轨迹。

基于上述任一实施例，本发明提供的基于单阶段无锚框的目标检测网络的多目标跟踪方法步骤如下：

步骤S1，给定当前视频帧，使用目标检测网络得到当前视频帧的检测结果；

步骤S2，使用改进的非极大值抑制法对检测结果进行后处理，得到最终检测出的各个目标；

步骤S3，同时利用表观相似度和运动信息一致性计算激活轨迹和目标的匹配程度，使用匈牙利算法进行关联；此处，激活轨迹是指连续跟踪超过∈_i帧的轨迹，运动一致性可以使用卡尔曼滤波器进行度量，表观相似度计算时，轨迹的表观特征可以在线更新，即

其中，表示轨迹在当前时刻的表观特征，η表示表观特征在线更新的更新率，表示前一时刻轨迹的表观特征，f_k表示轨迹在当前时刻匹配成功的目标的表观特征；

如果表观相似度小于∈_d，则认为对应关联对的关联关系不成立；

步骤S4，对于尚未关联的目标和未激活态轨迹采用目标框交并比进行再次关联；交并比阈值为∈iou，如果小于该阈值，则认为对应关联对的关联关系不成立；

步骤S5，对当前视频帧中各个目标的跟踪结果进行更新；未关联成功的轨迹被认为在当前视频帧跟踪失败；连续跟踪失败超过∈_t帧的轨迹被认为跟踪结束从轨迹集合中删除；跟踪失败的未激活态轨迹被认为是虚警直接删除；置信度大于阈值∈_c的未关联目标认为是轨迹起点，初始化未激活态轨迹；若未激活态轨迹连续跟踪次数超过∈_i则将其转变为激活态轨迹；通过设置轨迹激活态和非激活态能够有效避免轨迹的虚警；

步骤S6，针对下帧图像重复上述步骤，直至所有的视频帧跟踪结束，输出跟踪结束的所有轨迹。

基于上述任一实施例，本发明公开了一种基于无锚框单阶段框架的在线实时多阶段跟踪技术，该技术包括：根据多目标跟踪的流程，利用多任务学习的思想，将目标检测任务和特征表示学习任务纳入到统一的无锚框单阶段框架，以实现实时准确的多目标跟踪。该技术在实施过程中包括三个阶段。第一阶段先利用已标注的大规模跟踪数据集对模型进行预训练，使其获得较好的初始参数；第二阶段针对于具体问题，采集一定的数据并标注，在初始参数上调整模型；第三阶段输入实时的真实场景数据进行多目标的跟踪。本发明在计算机视觉领域中，提供了一种利用深度学习技术处理实际自然场景中多目标跟踪任务遇到的速度慢，精度差等问题的解决方案。

需要说明的是，本发明的方法具体运行的硬件和编程语言并不受限制，用任何语言编写都可以实现本发明的方法。本发明采用一台具有2.8G赫兹中央处理器和1G字节内存的计算机，网络的训练过程在Pytorch框架下实现，整个网络的训练和测试过程均采用多个NVIDIA 1080Ti GPU并行处理，实现了本发明的方法。

下面对本发明提供的多目标跟踪装置进行描述，下文描述的多目标跟踪装置与上文描述的多目标跟踪方法可相互对应参照。

基于上述任一实施例，图5是本发明提供的多目标跟踪装置的结构示意图，如图5所示，该装置包括：

获取模块510，用于获取待检测的当前视频帧；

检测模块520，用于基于目标检测网络，对当前视频帧进行多目标检测，得到检测结果；

跟踪模块530，用于基于检测结果，对当前视频帧中的各目标进行目标跟踪；

其中，目标检测网络包括若干组并行的目标检测分支和特征抽取分支；目标检测分支和特征抽取分支中的至少一个是基于特征图中的各个位置点进行处理的。

本发明实施例提供的装置，通过目标检测网络包括若干组并行的目标检测分支和特征抽取分支，节省了目标检测和特征抽取的时间消耗，大大提升了目标跟踪的速度，从而能够实现多目标的实时性跟踪，并且通过目标检测分支和特征抽取分支针对特征图中各个位置点进行处理，增强了抽取特征的鉴别性，同时避免了不必要的人力消耗和资源消耗。

基于上述任一实施例，该装置还包括筛选模块，用于：

基于上述任一实施例，跟踪模块具体用于：

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(CommunicationsInterface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行多目标跟踪方法，该方法包括：获取待检测的当前视频帧；基于目标检测网络，对所述当前视频帧进行多目标检测，得到检测结果；基于所述检测结果，对所述当前视频帧中的各目标进行目标跟踪；其中，所述目标检测网络包括若干组并行的目标检测分支和特征抽取分支；所述目标检测分支和特征抽取分支用于对所述当前视频帧的特征图中各个位置点进行处理。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的多目标跟踪方法，该方法包括：获取待检测的当前视频帧；基于目标检测网络，对所述当前视频帧进行多目标检测，得到检测结果；基于所述检测结果，对所述当前视频帧中的各目标进行目标跟踪；其中，所述目标检测网络包括若干组并行的目标检测分支和特征抽取分支；所述目标检测分支和特征抽取分支用于对所述当前视频帧的特征图中各个位置点进行处理。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的多目标跟踪方法，该方法包括：获取待检测的当前视频帧；基于目标检测网络，对所述当前视频帧进行多目标检测，得到检测结果；基于所述检测结果，对所述当前视频帧中的各目标进行目标跟踪；其中，所述目标检测网络包括若干组并行的目标检测分支和特征抽取分支；所述目标检测分支和特征抽取分支用于对所述当前视频帧的特征图中各个位置点进行处理。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多目标跟踪方法，其特征在于，包括：

获取待检测的当前视频帧；

2.根据权利要求1所述的多目标跟踪方法，其特征在于，所述特征抽取分支包括可形变局部注意力模块；

3.根据权利要求1所述的多目标跟踪方法，其特征在于，所述目标检测分支包括位置点分类分支和目标框回归分支；

4.根据权利要求1所述的多目标跟踪方法，其特征在于，所述目标检测网络是基于如下步骤得到的：

5.根据权利要求4所述的多目标跟踪方法，其特征在于，所述基于所述正样本集和负样本集，对初始网络进行训练，包括：

6.根据权利要求1至5中任一项所述的多目标跟踪方法，其特征在于，所述基于目标检测网络，对所述当前视频帧进行多目标检测，得到检测结果，之后还包括：

7.根据权利要求6所述的多目标跟踪方法，其特征在于，所述基于所述检测结果，对所述当前视频帧中的各目标进行目标跟踪，包括：

8.一种多目标跟踪装置，其特征在于，包括：

获取模块，用于获取待检测的当前视频帧；

其中，所述目标检测网络包括若干组并行的目标检测分支和特征抽取分支；所述目标检测分支和特征抽取分支是基于特征图中的各个位置点进行处理的。

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述多目标跟踪方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述多目标跟踪方法的步骤。