CN118038341A

CN118038341A - 多目标跟踪方法、装置、计算机设备以及存储介质

Info

Publication number: CN118038341A
Application number: CN202410447700.9A
Authority: CN
Inventors: 郑培儒; 龚湛; 赵云; 朱红
Original assignee: Suzhou Metabrain Intelligent Technology Co Ltd
Current assignee: Suzhou Metabrain Intelligent Technology Co Ltd
Priority date: 2024-04-15
Filing date: 2024-04-15
Publication date: 2024-05-14

Abstract

本申请涉及目标跟踪技术领域，特别是涉及一种多目标跟踪方法、装置、计算机设备以及存储介质。多目标跟踪方法包括：基于目标对象的轨迹预测多个目标对象于当前视频帧的预测位置；将各目标对象的预测位置与前向外观特征，作为前向特征；其中，前向外观特征为目标对象在前向视频帧中的外观特征；获取当前视频帧中若干个检测对象的当前位置以及当前外观特征，作为当前特征；将前向特征以及当前特征输入多级匹配模型，对检测对象与目标对象进行匹配，以对各目标对象进行跟踪。采用本方法能够引入时序记忆的轨迹并结合外观特征，能够降低多目标跟踪过程中出现异常、错误的风险，进而有利于提高多目标跟踪方法的精度以及可靠性。

Description

多目标跟踪方法、装置、计算机设备以及存储介质

技术领域

本申请涉及目标跟踪技术领域，特别是涉及一种多目标跟踪方法、多目标跟踪装置、计算机设备以及计算机可读存储介质。

背景技术

在诸如会议场景、体育比赛、马路监控等场景下，经常存在多目标跟踪任务。然而，多目标跟踪技术中通常会存在着直接丢弃视频帧中的部分检测对象，容易引发大量的漏跟情况以及出现跟踪异常的情况。亦或是，以不合理的方式对视频帧中存在的全部检测对象进行跟踪以及匹配，容易出现消耗大量算力的同时引入大量的错跟情况。

发明内容

基于此，有必要针对上述技术问题，提供一种能够引入时序记忆的轨迹并结合外观特征，能够降低多目标跟踪过程中出现异常、错误的风险，进而有利于提高多目标跟踪方法的精度以及可靠性的多目标跟踪方法、多目标跟踪装置、计算机设备以及计算机可读存储介质。

一方面，提供一种多目标跟踪方法，多目标跟踪方法包括：基于目标对象的轨迹预测多个目标对象于当前视频帧的预测位置；其中，轨迹为历史跟踪目标对象得到的历史真实轨迹；将各目标对象的预测位置与前向外观特征，作为前向特征；其中，前向外观特征为目标对象在前向视频帧中的外观特征；获取当前视频帧中若干个检测对象的当前位置以及当前外观特征，作为当前特征；将前向特征以及当前特征输入多级匹配模型，对检测对象与目标对象进行匹配，以对各目标对象进行跟踪。

在本申请的一实施例中，多级匹配模型包括一级匹配单元以及二级匹配单元；将前向特征以及当前特征输入多级匹配模型，对检测对象与目标对象进行匹配包括：将置信度分数高于置信度阈值的检测对象作为第一对象；将第一对象与前向特征输入一级匹配单元，进行第一特征匹配；其中，特征匹配维度包括运动特征以及外观特征；响应于目标对象的轨迹未匹配到当前视频帧的检测对象，将其作为二级轨迹；将置信度分数低于置信度阈值的检测对象作为第二对象；将第二对象、二级轨迹及对应的目标对象的前向外观特征输入二级匹配单元，进行第二特征匹配。

在本申请的一实施例中，将第一对象与前向特征输入一级匹配单元，进行第一特征匹配之后还包括：响应于第一对象未匹配到目标对象，将其作为新的目标对象；新建新的目标对象的轨迹并分配新的轨迹标识，记录新的目标对象的当前位置，将新的轨迹标识、新建轨迹以及新的目标对象的当前位置存储至轨迹存储模块；将新的目标对象的当前外观特征存储至外观匹配模块。

在本申请的一实施例中，将第二对象、二级轨迹及对应的目标对象的前向外观特征输入二级匹配单元，进行第二特征匹配之后还包括：响应于第二对象未匹配到目标对象，将其丢弃且不新建轨迹；响应于目标对象经多级匹配模型未匹配到检测对象，将其轨迹年龄增加一；直至目标对象的轨迹年龄达到年龄阈值，则删除目标对象的轨迹。

在本申请的一实施例中，特征匹配包括第一特征匹配和/或第二特征匹配；特征匹配包括：获取各目标对象的目标特征向量；其中，目标特征向量包括拼接的目标对象的预测位置以及前向外观特征；获取各检测对象的检测特征向量；其中，检测特征向量包括拼接的检测对象的当前位置以及当前外观特征；分别计算每个目标特征向量与各检测特征向量的相似度；基于相似度利用匈牙利算法或贪心算法，匹配目标对象以及检测对象。

在本申请的一实施例中，对检测对象与目标对象进行匹配之后还包括：响应于存在与检测对象匹配的目标对象，将当前位置输入轨迹存储模块；轨迹存储模块保留匹配的目标对象的原有轨迹标识，并将其轨迹年龄刷新为一；将当前外观特征输入外观匹配模块，外观匹配模块融合当前外观特征与所匹配的目标对象的外观特征。

在本申请的一实施例中，述将前向特征以及当前特征输入多级匹配模型包括：计算各检测对象的置信度分数；筛选置信度分数以及置信度阈值将检测对象划分为第一对象以及第二对象；基于第一对象的检测特征向量，构建输入一级匹配单元的第一检测列表；基于第二对象的检测特征向量，构建输入二级匹配单元的第二检测列表；基于目标对象的目标特征向量，构建目标对象的目标列表；将第一检测列表、第二检测列表以及目标列表输入多级匹配模型。

在本申请的一实施例中，计算各检测对象的置信度分数包括：将当前视频帧输入检测器，检测器对是否存在目标对象进行检测，获取各检测对象存在的存在概率以及属于各目标对象的类别概率；计算检测对象的存在概率与最高的类别概率二者的乘积，作为置信度分数。

在本申请的一实施例中，检测器对是否存在目标对象进行检测包括：将当前视频帧划分成多个网格；于各网格预测至少一组边界框以及检测对象对应的类别概率；基于各边界框的中心点预测其内存在检测对象的概率，作为第一预测概率；基于各边界框的尺寸预测其内所存在检测对象的概率，作为第二预测概率；融合第一预测概率以及第二预测概率，得到存在概率。

在本申请的一实施例中，基于目标对象的轨迹预测多个目标对象于当前视频帧的预测位置包括：响应于目标对象在前向视频帧中匹配到检测对象，获取前向视频帧的前向轨迹；基于前向轨迹对目标对象于当前视频帧的中心点位置进行预测，得到预测位置。

在本申请的一实施例中，基于前向轨迹对目标对象于当前视频帧的中心点位置进行预测，得到预测位置包括：获取第一视频帧和第二视频帧中目标对象的位移；其中，第一视频帧为当前视频帧的相邻前向视频帧，第二视频帧为第一视频帧的相邻前向视频帧；基于位移计算目标对象的移动速度；获取目标对象于第一视频帧的中心点位置；利用第一视频帧的中心点位置以及移动速度，计算目标对象于当前视频帧的中心点位置。

在本申请的一实施例中，获取当前视频帧中若干个检测对象的当前外观特征包括：将当前视频帧输入特征提取器，特征提取器对当前视频帧内存在的检测对象进行检测；对检测到的若干个检测对象进行特征提取，得到属于各检测对象的当前外观特征。

在本申请的一实施例中，对检测对象与目标对象进行匹配之后还包括：响应于一检测对象与一目标对象匹配，将一检测对象的当前外观特征存储至外观匹配模块；于外观匹配模块内，融合一检测对象的当前外观特征与一目标对象的前向外观特征；或，利用一检测对象的当前外观特征覆盖一目标对象的前向外观特征。

另一方面，提供了一种多目标跟踪装置，多目标跟踪装置包括：预测模块、存储模块、提取模块以及多级匹配模型；预测模块用于基于目标对象的轨迹预测多个目标对象于当前视频帧的预测位置；其中，轨迹为历史跟踪目标对象得到的历史真实轨迹；存储模块用于存储目标对象的轨迹以及前向外观特征，作为前向特征；其中，前向外观特征为目标对象在前向视频帧中的外观特征；提取模块用于获取当前视频帧中若干个检测对象的当前位置以及当前外观特征，作为当前特征；多级匹配模型用于输入前向特征以及当前特征，对检测对象与目标对象进行匹配，以对各目标对象进行跟踪。

在本申请的一实施例中，多级匹配模型包括一级匹配单元以及二级匹配单元；一级匹配单元用于输入第一对象与前向特征，进行第一特征匹配；第一对象为置信度分数高于置信度阈值的检测对象；二级匹配单元用于输入第二对象、二级轨迹及对应的目标对象的前向外观特征，进行第二特征匹配；第二对象为置信度分数低于置信度阈值的检测对象；二级轨迹为未匹配到当前视频帧的检测对象的目标对象的轨迹。

在本申请的一实施例中，存储模块包括轨迹存储模块以及外观匹配模块；提取模块包括检测器以及特征提取器；轨迹存储模块用于存储目标对象的轨迹、轨迹标识以及轨迹年龄；外观匹配模块用于存储目标对象的外观特征；检测器用于对是否存在目标对象进行检测，获取各检测对象存在的存在概率以及属于各目标对象的类别概率；特征提取器用于对当前视频帧内存在的检测对象进行特征提取，得到属于各检测对象的当前外观特征。

再一方面，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：基于目标对象的轨迹预测多个目标对象于当前视频帧的预测位置；将各目标对象的预测位置与前向外观特征，作为前向特征；其中，前向外观特征为目标对象在前向视频帧中的外观特征；获取当前视频帧中若干个检测对象的当前位置以及当前外观特征，作为当前特征；将前向特征以及当前特征输入多级匹配模型，对检测对象与目标对象进行匹配，以对各目标对象进行跟踪。

又一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：基于目标对象的轨迹预测多个目标对象于当前视频帧的预测位置；将各目标对象的预测位置与前向外观特征，作为前向特征；其中，前向外观特征为目标对象在前向视频帧中的外观特征；获取当前视频帧中若干个检测对象的当前位置以及当前外观特征，作为当前特征；将前向特征以及当前特征输入多级匹配模型，对检测对象与目标对象进行匹配，以对各目标对象进行跟踪。

上述多目标跟踪方法、多目标跟踪装置、计算机设备以及计算机可读存储介质，引入目标对象已存在的轨迹进行位置预测，即基于目标对象已存在的轨迹，对其于当前视频帧可能出现的位置进行预测，得到目标对象的预测位置。同时，本申请中结合位置信息以及外观信息对目标对象以及出现在当前视频帧的检测对象进行匹配。也就是说，本申请能够引入时序记忆的轨迹并结合外观特征，降低多目标跟踪过程中出现异常、错误的风险，进而有利于提高多目标跟踪的精度以及可靠性。

附图说明

图1是本申请多目标跟踪方法一实施例的应用场景示意图；

图2是本申请多目标跟踪装置一实施例的结构示意图；

图3是本申请多目标跟踪装置另一实施例的结构示意图；

图4是本申请多目标跟踪方法一实施例的流程示意图；

图5是本申请多目标跟踪方法另一实施例的流程示意图；

图6是本申请特征匹配方法一实施例的流程示意图；

图7是本申请计算机设备一实施例的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

目标跟踪是利用一个视频或图像序列的上下文信息，对目标的外观和运动信息进行建模，从而对目标运动状态进行预测并标定目标位置的一种技术，是计算机视觉的一个重要基础问题，具有重要的理论研究意义和应用价值。目标跟踪通过在连续的视频图像序列中估计跟踪目标的位置、形状或所占区域，确定目标的运动速度、方向及轨迹等运动信息，实现对运动目标行为的分析和理解，以便完成更高级的用户任务。

目标跟踪目前广泛应用在体育赛事转播、安防监控和无人机、无人车、机器人等领域。然而，本申请中发现目前仍然存在许多痛点和难点影响跟踪的效果。具体地，姿态变化是目标跟踪中较为常见的干扰问题。运动目标发生姿态变化时，会导致它的特征以及外观模型发生改变，容易导致跟踪失败。例如，体育比赛中的运动员、马路上的行人。尺度的自适应也是目标跟踪中的关键问题。当目标尺度缩小时，可能由于跟踪框不能自适应跟踪，会将很多背景信息包含在内，容易导致目标模型的更新错误；当目标尺度增大时，可能由于跟踪框不能将目标完全包括在内，容易出现跟踪框内目标信息不全，也容易导致目标模型的更新错误。同时，还可能出现遮挡与消失的情况，目标在运动过程中可能出现被遮挡或者短暂的消失情况。当这种情况发生时，跟踪框容易将遮挡物以及背景信息包含在跟踪框内，可能会导致后续帧中的跟踪目标漂移到遮挡物上面。若出现目标被完全遮挡的情况，则可能由于找不到目标的对应模型而导致跟踪失败。并且，伴随着光照强度变化、目标快速运动、低分辨率等可能出现的情况，容易导致图像模糊，尤其是在运动目标与背景相似的情况下更为明显。

而在多目标跟踪中，至关重要的一个环节就是跟踪目标的重识别（Re-Identification，ReID）。目的是在连续的多帧视频/图像中对同一个跟踪目标进行识别并关联匹配。在绝大多数的跟踪算法中，都采用了Tracking-by-Detection（TBD）方法，即采用检测的结果和一定的关联匹配策略，进行相邻帧的检测目标匹配，从而实现ReID。在大部分TBD多目标跟踪方法中，都会设置一个置信度阈值，来过滤掉检测结果中低于置信度阈值的检测框。这种方法其实并不合理，因为当目标在当前帧被遮挡、部分消失、模糊时，便会产生低置信度的检测框，直接过滤后，下一帧若目标重新出现，则会分配一个新的ID，这便造成了跟踪目标ID的切换（ID Switch，IDS），降低跟踪的精度和效率。

举例而言，在公司日常的运营中，每天都要进行大大小小规模不一的会议，而每一场会议参会人数的统计、参会人员管理、会议期间的人员组成分析是会务的重要组成部分。目前，针对这个问题，基本采用参会人员签到和会务人员清点的方式，占用了人力和物力。

为解决相关技术中未能良好地均衡目标跟踪精度以及可靠性的技术问题，本申请提供了一种多目标跟踪方法、多目标跟踪装置、计算机设备以及计算机可读存储介质。以本申请应用在会议中为例，能够对参会人员人数进行统计，并且连接公司人脸数据库，可以对参会人员进行管理和分析。多目标跟踪方法包括：基于目标对象的轨迹预测多个目标对象于当前视频帧的预测位置；将各目标对象的预测位置与前向外观特征，作为前向特征；其中，前向外观特征为目标对象在前向视频帧中的外观特征；获取当前视频帧中若干个检测对象的当前位置以及当前外观特征，作为当前特征；将前向特征以及当前特征输入多级匹配模型，对检测对象与目标对象进行匹配，以对各目标对象进行跟踪。以下对本申请的具体装置结构以及工作原理进行详细阐述。

请参阅图1，图1是本申请多目标跟踪方法一实施例的应用场景示意图。

在一实施例中，本申请提供的多目标跟踪方法，可以应用于如图1所举例展示的应用环境中。

具体地，图1中所举例展示的应用场景可以包括终端102与服务器104。

终端102能够用于拍摄视频，其所拍摄的视频可以以流媒体等形式发送至服务器104。视频可以是拍摄时实时发送至服务器104，也可以是延后地或响应于用户的任务指令而发送至服务器104，在此不做限定。

其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，亦或是监控摄像头等，取决于多目标跟踪方法的应用场景，例如线上会议、会场、体育比赛、道路监控等，在此不做限定。

终端102可以通过网络与服务器104通过网络进行通信，以将视频传输至服务器104。

服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现，从而服务器104能够对所接收的视频进行多目标跟踪任务。

以下对本申请中多目标跟踪装置的具体结构进行详细阐述。

请参阅图2，图2是本申请多目标跟踪装置一实施例的结构示意图。

在一实施例中，多目标跟踪装置包括：预测模块21、存储模块22、提取模块23以及多级匹配模型24。

预测模块21用于基于目标对象的轨迹预测多个目标对象于当前视频帧的预测位置。其中，轨迹为历史跟踪目标对象得到的历史真实轨迹。

存储模块22用于存储目标对象的轨迹以及前向外观特征，作为前向特征；其中，前向外观特征为目标对象在前向视频帧中的外观特征。

提取模块23用于获取当前视频帧中若干个检测对象的当前位置以及当前外观特征，作为当前特征；多级匹配模型24用于输入前向特征以及当前特征，对检测对象与目标对象进行匹配，以对各目标对象进行跟踪。

由此可见，本实施例中多目标跟踪装置引入目标对象已存在的轨迹进行位置预测，即基于目标对象已存在的轨迹，对其于当前视频帧可能出现的位置进行预测，得到目标对象的预测位置。同时，本申请中结合位置信息以及外观信息对目标对象以及出现在当前视频帧的检测对象进行匹配。也就是说，本申请能够引入时序记忆的轨迹并结合外观特征，降低多目标跟踪过程中出现异常、错误的风险，进而有利于提高多目标跟踪装置的精度以及可靠性。

请参阅图3，图3是本申请多目标跟踪装置另一实施例的结构示意图。

在一实施例中，多级匹配模型24可以包括一级匹配单元以及二级匹配单元。

具体地，一级匹配单元用于输入第一对象与前向特征，进行第一特征匹配；第一对象为置信度分数高于置信度阈值的检测对象。

二级匹配单元用于输入第二对象、二级轨迹及对应的目标对象的前向外观特征，进行第二特征匹配；第二对象为置信度分数低于置信度阈值的检测对象；二级轨迹为未匹配到当前视频帧的检测对象的目标对象的轨迹。

请继续参阅图3。在一实施例中，存储模块22可以包括轨迹存储模块22以及外观匹配模块。轨迹存储模块22用于存储目标对象的轨迹、轨迹标识以及轨迹年龄；外观匹配模块用于存储目标对象的外观特征。

可选地，提取模块23可以包括检测器以及特征提取器。检测器用于对是否存在目标对象进行检测，获取各检测对象存在的存在概率以及属于各目标对象的类别概率；特征提取器用于对当前视频帧内存在的检测对象进行特征提取，得到属于各检测对象的当前外观特征。

其中，检测器以及特征提取器可以集成于同一模型作为提取器，亦或是二者为彼此独立的模型，在此不做限定。

关于多目标跟踪装置的具体限定可以参见下文中对于多目标跟踪方法的限定，在此不再赘述。上述多目标跟踪装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

以下对本申请的多目标跟踪方法的跟踪原理进行详细阐述。

请参阅图4，图4是本申请多目标跟踪方法一实施例的流程示意图。

S101：基于目标对象的轨迹预测多个目标对象于当前视频帧的预测位置；其中，所述轨迹为历史跟踪所述目标对象得到的历史真实轨迹。

在本实施例中，目标对象为在当前视频帧之前已进行目标跟踪的目标。目标对象的轨迹可以认为是目标对象在若干个前向视频帧中运动的轨迹。前向视频帧为相对当前视频帧而言，为在当前视频帧发生之前所发生的视频帧。

可选地，本实施例中前向视频帧可以是相邻前向视频帧，通俗而言，即上一视频帧。

基于目标对象真实的历史轨迹对目标对象当前的位置进行预测，能够结合时序记忆中的运动趋势信息，有利于提高预测位置的可靠性。

S102：将各目标对象的预测位置与前向外观特征，作为前向特征；其中，前向外观特征为目标对象在前向视频帧中的外观特征。

在本实施例中，结合目标对象的预测位置与前向外观特征，以结合位置信息以及外观信息二者进行目标跟踪，有利于提高目标跟踪精度以及可靠性。

可选地，可以将预测位置形成位置特征向量，将前向外观特征形成前向外观特征向量，形成前向特征向量。亦或是，预测位置可以以坐标等形式表现，将二者均以特征的形式作为前向特征，在此不做限定。

S103：获取当前视频帧中若干个检测对象的当前位置以及当前外观特征，作为当前特征。

在本实施例中，可以通过预先训练的神经网络模型、算法对当前视频帧进行目标识别，将检测到的目标作为检测对象。换言之，检测对象为在当前视频帧检测到的目标，其可能是在历史时刻已跟踪的目标对象，也可能是自当前视频帧首次出现的目标对象，甚至还可能是被误捕捉的非目标对象，在此就不再赘述。

目标识别可以是对指定目标类型的目标进行识别，目标类型可以包括一种或多种，例如行人、运动员、车牌、动物、滑板等，在此不做限定。

在当前视频帧识别到若干个检测对象时，可以对检测对象进行外观特征提取，分别得到各检测对象的当前外观特征。还可以对检测对象的当前位置进行计算，可以通过预先建立的坐标系、亦或是位置算法等获取当前位置，在此不做限定。

S104：将前向特征以及当前特征输入多级匹配模型，对检测对象与目标对象进行匹配，以对各目标对象进行跟踪。

在本实施例中，多级匹配模型能够基于预设条件对检测对象进行筛选，分别参与不同级匹配单元的匹配任务，以相对级数为一的匹配模型减少繁冗的匹配计算，有利于提高匹配效率以及模型稳定性。

可选地，多级匹配模型可以是两级、三级、四级等，并且输入各级匹配单元的当前特征为部分检测对象的当前特征。

可选地，对检测对象进行划分以适应输入不同层级的匹配单元时，可以依赖于置信度分数、检测对象的清晰度、检测对象的边缘轮廓清晰度、外观特征的丰富度灯，在此不做限定。

由此可见，本实施例中引入目标对象已存在的轨迹进行位置预测，即基于目标对象已存在的轨迹，对其于当前视频帧可能出现的位置进行预测，得到目标对象的预测位置。同时，本申请中结合位置信息以及外观信息对目标对象以及出现在当前视频帧的检测对象进行匹配。也就是说，本申请能够引入时序记忆的轨迹并结合外观特征，降低多目标跟踪过程中出现异常、错误的风险，进而有利于提高多目标跟踪的精度以及可靠性。

请参阅图5，图5是本申请多目标跟踪方法另一实施例的流程示意图。

在本实施例中，响应于目标对象在前向视频帧中匹配到检测对象，获取前向视频帧的前向轨迹；基于前向轨迹对目标对象于当前视频帧的中心点位置进行预测，得到预测位置。通过真实的历史轨迹对目标对象的当前位置进行预测，能够提高预测位置的可靠性。并且，本实施例中的多目标跟踪方法中引入了位置信息，从而能够提高检测对象的检测效率，还有利于提高检测对象以及目标对象的匹配效率。

进一步地，可以获取第一视频帧和第二视频帧中目标对象的位移；其中，第一视频帧为当前视频帧的相邻前向视频帧，第二视频帧为第一视频帧的相邻前向视频帧；基于位移计算目标对象的移动速度；获取目标对象于第一视频帧的中心点位置；利用第一视频帧的中心点位置以及移动速度，计算目标对象于当前视频帧的中心点位置。如是，本实施例中基于中心点位置的检测和位置预测方法具有良好的计算效率，有利于提高边缘端（如监控、车机）部署的轻量化。

将各目标对象的预测位置与前向外观特征，作为前向特征；其中，前向外观特征为目标对象在前向视频帧中的外观特征。

将当前视频帧输入特征提取器，特征提取器对当前视频帧内存在的检测对象进行检测；对检测到的若干个检测对象进行特征提取，得到属于各检测对象的当前外观特征。

计算各检测对象的置信度分数。具体地，可以将当前视频帧输入检测器，检测器对是否存在目标对象进行检测。

可选地，可以将当前视频帧划分成多个网格。于各网格预测至少一组边界框以及检测对象对应的类别概率；基于各边界框的中心点预测其内存在检测对象的概率，作为第一预测概率；基于各边界框的尺寸预测其内所存在检测对象的概率，作为第二预测概率；融合第一预测概率以及第二预测概率，得到存在概率。

进一步地，可以获取各检测对象存在的存在概率以及属于各目标对象的类别概率；计算检测对象的存在概率与最高的类别概率二者的乘积，作为置信度分数。

筛选置信度分数以及置信度阈值将检测对象划分为第一对象以及第二对象。

可选地，可以将置信度分数高于置信度阈值的检测对象作为第一对象；将置信度分数低于置信度阈值的检测对象作为第二对象。

基于第一对象的检测特征向量，构建输入一级匹配单元的第一检测列表；基于第二对象的检测特征向量，构建输入二级匹配单元的第二检测列表。基于目标对象的目标特征向量，构建目标对象的目标列表。将第一检测列表、第二检测列表以及目标列表输入多级匹配模型。

可选地，可以将第一检测列表与目标列表输入一次匹配单元，将第二检测列表以及删除已匹配到检测对象的目标对象的目标列表输入二次匹配单元。亦或是，一次匹配单元与二级匹配单元为级联地，无需另外人工/额外指令删除目标列表中已匹配到检测对象的目标对象。

本实施例中，也可以是，将置信度分数高于置信度阈值的检测对象作为第一对象；将第一对象与前向特征输入一级匹配单元，进行第一特征匹配；其中，特征匹配维度包括运动特征以及外观特征。

响应于第一对象未匹配到目标对象，将其作为新的目标对象，从而降低新出现的目标对象被遗漏的情况出现，进而能够可靠捕捉视频中动态出现的目标对象，提高本实施例目标跟踪的可靠性以及自适应性。针对新的目标对象，可以新建新的目标对象的轨迹并分配新的轨迹标识，记录新的目标对象的当前位置，将新的轨迹标识、新建轨迹以及新的目标对象的当前位置存储至轨迹存储模块。将新的目标对象的当前外观特征存储至外观匹配模块。

可选地，可以响应于一检测对象与一目标对象匹配，将一检测对象的当前外观特征存储至外观匹配模块；于外观匹配模块内，融合一检测对象的当前外观特征与一目标对象的前向外观特征，从而提高外观匹配模块中目标对象的外观特征丰富度，以有利于提高目标对象与检测对象匹配的可靠性，进而提高多目标跟踪的精度以及可靠性。或，可以利用一检测对象的当前外观特征覆盖一目标对象的前向外观特征，从而在能够保障当前外观特征的时效性的同时，还能够节省外观匹配模块的存储空间。

可选地，外观匹配模块可以采用一个运算量较低的CNN（Convolutional NeuralNetwork，卷积神经网络），例如ResNet-18（网络架构为ResNet，即深度残差网络，网络的深度为18层）等。

可以利用外观匹配模块提取检测框中的检测对象的外观特征，还可以通过低维embedding（将高维度的数据映射到低维度空间的过程）对当前外观特征进行表示，在每帧检测+跟踪后，进行一次目标外观特征的提取并保存。

响应于目标对象的轨迹未匹配到当前视频帧的检测对象，将其作为二级轨迹。

将置信度分数低于置信度阈值的检测对象作为第二对象；将第二对象、二级轨迹及对应的目标对象的前向外观特征输入二级匹配单元，进行第二特征匹配。也就是说，本实施例中可以通过两级匹配模型对检测目标与目标对象进行匹配，可以减少置信度较低的检测对象与目标对象的对比次数，如是能够显著减少多目标跟踪过程中比对次数，有利于降低匹配过程的运算量，从而能够提高检测对象与目标对象的匹配效率，进而提高目标跟踪效率，即有利于提高多目标跟踪的即时性。与此同时，在两级匹配过程中能够结合位置信息以及外观信息进行匹配，增加匹配特征的丰富度，有利于降低匹配复杂度并提高匹配结果的可靠性。

响应于第二对象未匹配到目标对象，将其丢弃且不新建轨迹。这是因为，第二对象为置信度较低的检测对象，可以认为第二对象为相对不可信的亦或是受其他因素影响未能可靠识别的检测对象，适当地对不信数据进行丢弃，能够减少在先的轨迹数据作废的情况发生，不新建轨迹还能够节省轨迹存储模块的存储空间。

响应于目标对象经多级匹配模型未匹配到检测对象，将其轨迹年龄增加一；直至目标对象的轨迹年龄达到年龄阈值，则删除目标对象的轨迹，从而能够及时清理存储模块中较为陈旧的目标对象数据，释放存储模块内的存储空间，提高目标对象的有效性，降低后续匹配过程的无效匹配，在减少繁冗的无效比对过程的同时还能够提高匹配效率，进而提高多目标跟踪的效率。

举例而言，年龄阈值可以设为5~10，通过设定合理的年龄阈值以降低设置较高导致内存占用过高的风险，还能够降低设置较小导致FN（False Negative，漏跟）过多。

特征匹配包括第一特征匹配和/或第二特征匹配。以下对特征匹配的具体原理进行阐述。

在本实施例中，可以获取各目标对象的目标特征向量；其中，目标特征向量包括拼接的目标对象的预测位置以及前向外观特征。

获取各检测对象的检测特征向量；其中，检测特征向量包括拼接的检测对象的当前位置以及当前外观特征。

分别计算每个目标特征向量与各检测特征向量的相似度。

基于相似度利用匈牙利算法或贪心算法，匹配目标对象以及检测对象。

由此可见，本实施例中是在进行目标对象与检测对象匹配时，是同时融合了外观特征信息以及位置信息进行匹配，进行特征融合能够结合目标对象的外观特征和运动特征，有利于更加精确地实现匹配，通过对特征匹配维度的扩展，能够增强匹配过程的准确性，进而有利于在目标识别和匹配过程中能够提高所提供信息的丰富度。

在第一特征匹配与第二特征匹配完成后，可以将匹配到检测对象的目标对象的年龄轨迹进行更新。具体地，可以响应于存在与检测对象匹配的目标对象，将当前位置输入轨迹存储模块；轨迹存储模块保留匹配的目标对象的原有轨迹标识，并将其轨迹年龄刷新为一，从而能够及时地对轨迹状态进行更新，提高本实施例多目标跟踪方法的灵活性，有利于根据轨迹年龄对目标对象的有效性进行判断，如本实施例中还可以通过轨迹年龄对一段时间失去轨迹的目标对象进行丢弃，以节省存储模块的存储空间，同时能够提高目标对象的有效率。

将当前外观特征输入外观匹配模块，外观匹配模块融合当前外观特征与所匹配的目标对象的外观特征。

以下对本申请特征匹配的原理进行通俗描述。

请结合参阅图5以及参阅图6，图6是本申请特征匹配方法一实施例的流程示意图。

在一实施例中，特征匹配可以依次包括检测对象筛选、构建待匹配的检测对象列表、构建待匹配的目标对象列表、计算检测对象和目标对象之间的距离、使用匈牙利算法或贪心算法进行匹配等。

对于当前帧中的检测对象检测结果，在第一步匹配中首先会筛选出高于设定阈值的检测对象框，在第二步匹配中会筛选出低于设定阈值的检测对象框，筛选后的检测对象将被用于匹配，并进行一些预处理操作，获取检测对象的中心位置、速度信息和类别预测。

根据筛选后的检测对象框，构建待匹配的检测对象列表，检测对象列表的维度为[m，n]；其中，m为第t帧检测到的检测对象个数，n为位置信息与外观特征的拼接。

分别从轨迹存储模块和外观特征辅助匹配模块中获取第t-1帧中检测对象的位置信息和外观特征，由第t-1帧中的位置信息和速度信息预测第t帧中的位置信息，并与外观特征进行拼接，待匹配的目标对象列表与待匹配的检测对象列表的维度一致。

根据待匹配的检测对象列表和待匹配的目标对象列表，计算待匹配的检测对象列表中每个检测对象与待匹配的目标对象列表中每个目标对象之间的欧氏距离。向量a和向量b的欧氏距离的计算公式可以如下所示：

式1-1

其中，n表示向量维度，ai和bi分别表示向量a和向量b在第i维上的元素；向量a表示检测特征向量；向量b表示目标特征向量。

利用匈牙利算法或贪心算法（可以根据跟踪器参数hungarian决定）对检测对象和目标对象之间的综合相似度进行匹配。匹配后进行目标对象和外观特征的存储和更新。

综上，本申请多检测对象跟踪方法通过对高低置信度检测结果进行分步ReID（Person re-identification，行人重识别），并引入了时序记忆的轨迹保存模块和利用检测目标特征辅助检测目标和轨迹的匹配的外观特征辅助匹配模块，能够降低跟踪过程中的错跟、漏跟、标识切换，提升了跟踪精度和跟踪效率。通过应用在会议场景中，可以实现对参会人员的统计、管理、分析，从而能够节省相关的人力、物力以及算力等资源。

换言之，本申请能够对高低置信度的检测框采用了分步匹配的方式，先将高置信度的检测框与轨迹进行匹配，再将低置信度的检测框与轨迹进行匹配。同时引入了时序记忆模块对轨迹和检测特征进行若干前向帧视频的保存，防止当前视频帧目标完全被遮挡没有检测框时，在下一帧重新被检测到增加IDS（ID Switch，跟踪目标对象ID的切换），以及能够利用检测特征的相似度辅助ReID，解决了低置信度检测框在跟踪过程中被直接过滤掉的问题。通过以上方式，本申请能够提升多目标跟踪的精度和准确度。

应该理解的是，虽然图4-图6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图4-图6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

请参阅图7，图7是本申请计算机设备一实施例的结构示意图。

在一实施例中提供了一种计算机设备，该计算机设备可以是服务器或终端等具备计算能力的设备。

举例而言，计算机设备可以是服务器，其内部结构图可以如图7中所举例展示的。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多目标跟踪方法。

本领域技术人员可以理解，图7中所举例展示的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时可以实现以下步骤：

在一实施例中，所述多级匹配模型包括一级匹配单元以及二级匹配单元；在执行步骤S104时，处理器执行计算机程序时还可以实现以下步骤：

将置信度分数高于置信度阈值的检测对象作为第一对象；将所述第一对象与所述前向特征输入一级匹配单元，进行第一特征匹配；其中，所述特征匹配维度包括运动特征以及外观特征；响应于所述目标对象的轨迹未匹配到所述当前视频帧的检测对象，将其作为二级轨迹；将置信度分数低于置信度阈值的检测对象作为第二对象；将所述第二对象、所述二级轨迹及对应的所述目标对象的前向外观特征输入二级匹配单元，进行第二特征匹配。

在一实施例中，所述将所述第一对象与所述前向特征输入一级匹配单元，进行第一特征匹配之后，处理器执行计算机程序时还可以实现以下步骤：响应于所述第一对象未匹配到所述目标对象，将其作为新的目标对象；新建所述新的目标对象的轨迹并分配新的轨迹标识，记录所述新的目标对象的当前位置，将所述新的轨迹标识、新建轨迹以及所述新的目标对象的当前位置存储至轨迹存储模块；将所述新的目标对象的当前外观特征存储至外观匹配模块。

在一实施例中，将所述第二对象、所述二级轨迹及对应的所述目标对象的前向外观特征输入二级匹配单元，进行第二特征匹配之后，处理器执行计算机程序时还可以实现以下步骤：

响应于所述第二对象未匹配到所述目标对象，将其丢弃且不新建轨迹；响应于所述目标对象经所述多级匹配模型未匹配到所述检测对象，将其轨迹年龄增加一；直至所述目标对象的轨迹年龄达到年龄阈值，则删除所述目标对象的轨迹。

在一实施例中，所述特征匹配包括所述第一特征匹配和/或所述第二特征匹配；进行所述特征匹配时，处理器执行计算机程序时还可以实现以下步骤：

获取各所述目标对象的目标特征向量；其中，所述目标特征向量包括拼接的所述目标对象的预测位置以及前向外观特征；获取各所述检测对象的检测特征向量；其中，所述检测特征向量包括拼接的所述检测对象的当前位置以及当前外观特征；分别计算每个所述目标特征向量与各检测特征向量的相似度；基于所述相似度利用匈牙利算法或贪心算法，匹配所述目标对象以及所述检测对象。

在一实施例中，所述对所述检测对象与所述目标对象进行匹配之后，处理器执行计算机程序时还可以实现以下步骤：

响应于存在与所述检测对象匹配的所述目标对象，将所述当前位置输入轨迹存储模块；所述轨迹存储模块保留匹配的所述目标对象的原有轨迹标识，并将其轨迹年龄刷新为一；将所述当前外观特征输入外观匹配模块，所述外观匹配模块融合所述当前外观特征与所匹配的所述目标对象的外观特征。

在一实施例中，在执行步骤S104时，处理器执行计算机程序时还可以实现以下步骤：

计算各所述检测对象的置信度分数；筛选所述置信度分数以及置信度阈值将检测对象划分为第一对象以及第二对象；基于所述第一对象的检测特征向量，构建输入一级匹配单元的第一检测列表；基于所述第二对象的检测特征向量，构建输入二级匹配单元的第二检测列表；基于所述目标对象的目标特征向量，构建所述目标对象的目标列表；将所述第一检测列表、所述第二检测列表以及所述目标列表输入所述多级匹配模型。

在一实施例中，所述计算各所述检测对象的置信度分数时，处理器执行计算机程序时还可以实现以下步骤：

将所述当前视频帧输入检测器，所述检测器对是否存在目标对象进行检测，获取各检测对象存在的存在概率以及属于各目标对象的类别概率；计算所述检测对象的所述存在概率与最高的类别概率二者的乘积，作为所述置信度分数。

在一实施例中，所述检测器对是否存在目标对象进行检测时，处理器执行计算机程序时还可以实现以下步骤：

将所述当前视频帧划分成多个网格；于各所述网格预测至少一组边界框以及所述检测对象对应的类别概率；基于各所述边界框的中心点预测其内存在所述检测对象的概率，作为第一预测概率；基于各所述边界框的尺寸预测其内所存在检测对象的概率，作为第二预测概率；融合所述第一预测概率以及所述第二预测概率，得到所述存在概率。

在一实施例中，在执行步骤S101时，处理器执行计算机程序时还可以实现以下步骤：

响应于所述目标对象在所述前向视频帧中匹配到所述检测对象，获取所述前向视频帧的前向轨迹；基于所述前向轨迹对所述目标对象于所述当前视频帧的中心点位置进行预测，得到所述预测位置。

在一实施例中，在基于前向轨迹对目标对象于当前视频帧的中心点位置进行预测，得到预测位置时，处理器执行计算机程序时还可以实现以下步骤：

获取第一视频帧和第二视频帧中目标对象的位移；其中，第一视频帧为当前视频帧的相邻前向视频帧，第二视频帧为第一视频帧的相邻前向视频帧；基于位移计算目标对象的移动速度；获取目标对象于第一视频帧的中心点位置；利用第一视频帧的中心点位置以及移动速度，计算目标对象于当前视频帧的中心点位置。

在一实施例中，在执行步骤S103中获取所述当前视频帧中若干个检测对象的当前外观特征时，处理器执行计算机程序时还可以实现以下步骤：

将所述当前视频帧输入特征提取器，所述特征提取器对所述当前视频帧内存在的检测对象进行检测；对检测到的若干个所述检测对象进行特征提取，得到属于各所述检测对象的当前外观特征。

在一实施例中，处理器执行计算机程序时还可以实现以下步骤：

对检测对象与目标对象进行匹配之后还包括：响应于一检测对象与一目标对象匹配，将一检测对象的当前外观特征存储至外观匹配模块；于外观匹配模块内，融合一检测对象的当前外观特征与一目标对象的前向外观特征；或，利用一检测对象的当前外观特征覆盖一目标对象的前向外观特征。

在一实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时可以实现以下步骤：

在一实施例中，所述多级匹配模型包括一级匹配单元以及二级匹配单元；在执行步骤S104时，计算机程序被处理器执行时还可以实现以下步骤：

在一实施例中，所述将所述第一对象与所述前向特征输入一级匹配单元，进行第一特征匹配之后，计算机程序被处理器执行时还可以实现以下步骤：响应于所述第一对象未匹配到所述目标对象，将其作为新的目标对象；新建所述新的目标对象的轨迹并分配新的轨迹标识，记录所述新的目标对象的当前位置，将所述新的轨迹标识、新建轨迹以及所述新的目标对象的当前位置存储至轨迹存储模块；将所述新的目标对象的当前外观特征存储至外观匹配模块。

在一实施例中，将所述第二对象、所述二级轨迹及对应的所述目标对象的前向外观特征输入二级匹配单元，进行第二特征匹配之后，计算机程序被处理器执行时还可以实现以下步骤：

在一实施例中，所述特征匹配包括所述第一特征匹配和/或所述第二特征匹配；进行所述特征匹配时，计算机程序被处理器执行时还可以实现以下步骤：

在一实施例中，所述对所述检测对象与所述目标对象进行匹配之后，计算机程序被处理器执行时还可以实现以下步骤：

在一实施例中，在执行步骤S104时，计算机程序被处理器执行时还可以实现以下步骤：

在一实施例中，所述计算各所述检测对象的置信度分数时，计算机程序被处理器执行时还可以实现以下步骤：

在一实施例中，所述检测器对是否存在目标对象进行检测时，计算机程序被处理器执行时还可以实现以下步骤：

在一实施例中，在执行步骤S101时，计算机程序被处理器执行时还可以实现以下步骤：

在一实施例中，在基于前向轨迹对目标对象于当前视频帧的中心点位置进行预测，得到预测位置时，计算机程序被处理器执行时还可以实现以下步骤：

在一实施例中，在执行步骤S103中获取所述当前视频帧中若干个检测对象的当前外观特征时，计算机程序被处理器执行时还可以实现以下步骤：

在一实施例中，计算机程序被处理器执行时还可以实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。

Claims

1.一种多目标跟踪方法，其特征在于，所述多目标跟踪方法包括：

基于目标对象的轨迹预测多个目标对象于当前视频帧的预测位置；其中，所述轨迹为历史跟踪所述目标对象得到的历史真实轨迹；

将各所述目标对象的所述预测位置与前向外观特征，作为前向特征；其中，所述前向外观特征为所述目标对象在前向视频帧中的外观特征；

获取所述当前视频帧中若干个检测对象的当前位置以及当前外观特征，作为当前特征；

将所述前向特征以及所述当前特征输入多级匹配模型，对所述检测对象与所述目标对象进行匹配，以对各所述目标对象进行跟踪。

2.根据权利要求1中所述的多目标跟踪方法，其特征在于，所述多级匹配模型包括一级匹配单元以及二级匹配单元；

所述将所述前向特征以及所述当前特征输入多级匹配模型，对所述检测对象与所述目标对象进行匹配包括：

将置信度分数高于置信度阈值的检测对象作为第一对象；将所述第一对象与所述前向特征输入一级匹配单元，进行第一特征匹配；其中，特征匹配维度包括运动特征以及外观特征；

响应于所述目标对象的轨迹未匹配到所述当前视频帧的检测对象，将其作为二级轨迹；

将置信度分数低于置信度阈值的检测对象作为第二对象；将所述第二对象、所述二级轨迹及对应的所述目标对象的前向外观特征输入二级匹配单元，进行第二特征匹配。

3.根据权利要求2中所述的多目标跟踪方法，其特征在于，所述将所述第一对象与所述前向特征输入一级匹配单元，进行第一特征匹配之后还包括：

响应于所述第一对象未匹配到所述目标对象，将其作为新的目标对象；

新建所述新的目标对象的轨迹并分配新的轨迹标识，记录所述新的目标对象的当前位置，将所述新的轨迹标识、新建轨迹以及所述新的目标对象的当前位置存储至轨迹存储模块；

将所述新的目标对象的当前外观特征存储至外观匹配模块。

4.根据权利要求2中所述的多目标跟踪方法，其特征在于，所述将所述第二对象、所述二级轨迹及对应的所述目标对象的前向外观特征输入二级匹配单元，进行第二特征匹配之后还包括：

响应于所述第二对象未匹配到所述目标对象，将其丢弃且不新建轨迹；

响应于所述目标对象经所述多级匹配模型未匹配到所述检测对象，将其轨迹年龄增加一；直至所述目标对象的轨迹年龄达到年龄阈值，则删除所述目标对象的轨迹。

5.根据权利要求2中所述的多目标跟踪方法，其特征在于，特征匹配包括所述第一特征匹配和/或所述第二特征匹配；

所述特征匹配包括：

获取各所述目标对象的目标特征向量；其中，所述目标特征向量包括拼接的所述目标对象的预测位置以及前向外观特征；

获取各所述检测对象的检测特征向量；其中，所述检测特征向量包括拼接的所述检测对象的当前位置以及当前外观特征；

分别计算每个所述目标特征向量与各检测特征向量的相似度；

基于所述相似度利用匈牙利算法或贪心算法，匹配所述目标对象以及所述检测对象。

6.根据权利要求1所述的多目标跟踪方法，其特征在于，所述对所述检测对象与所述目标对象进行匹配之后还包括：

响应于存在与所述检测对象匹配的所述目标对象，将所述当前位置输入轨迹存储模块；所述轨迹存储模块保留匹配的所述目标对象的原有轨迹标识，并将其轨迹年龄刷新为一；

将所述当前外观特征输入外观匹配模块，所述外观匹配模块融合所述当前外观特征与所匹配的所述目标对象的外观特征。

7.根据权利要求1中所述的多目标跟踪方法，其特征在于，所述将所述前向特征以及所述当前特征输入多级匹配模型包括：

计算各所述检测对象的置信度分数；

筛选所述置信度分数以及置信度阈值将检测对象划分为第一对象以及第二对象；

基于所述第一对象的检测特征向量，构建输入一级匹配单元的第一检测列表；基于所述第二对象的检测特征向量，构建输入二级匹配单元的第二检测列表；基于所述目标对象的目标特征向量，构建所述目标对象的目标列表；

将所述第一检测列表、所述第二检测列表以及所述目标列表输入所述多级匹配模型。

8.根据权利要求7中所述的多目标跟踪方法，其特征在于，所述计算各所述检测对象的置信度分数包括：

将所述当前视频帧输入检测器，所述检测器对是否存在目标对象进行检测，获取各检测对象存在的存在概率以及属于各目标对象的类别概率；

计算所述检测对象的所述存在概率与最高的类别概率二者的乘积，作为所述置信度分数。

9.根据权利要求8中所述的多目标跟踪方法，其特征在于，所述检测器对是否存在目标对象进行检测包括：

将所述当前视频帧划分成多个网格；

于各所述网格预测至少一组边界框以及所述检测对象对应的类别概率；

基于各所述边界框的中心点预测其内存在所述检测对象的概率，作为第一预测概率；基于各所述边界框的尺寸预测其内所存在检测对象的概率，作为第二预测概率；

融合所述第一预测概率以及所述第二预测概率，得到所述存在概率。

10.根据权利要求1中所述的多目标跟踪方法，其特征在于，所述基于目标对象的轨迹预测多个目标对象于当前视频帧的预测位置包括：

响应于所述目标对象在所述前向视频帧中匹配到所述检测对象，获取所述前向视频帧的前向轨迹；

基于所述前向轨迹对所述目标对象于所述当前视频帧的中心点位置进行预测，得到所述预测位置。

11.根据权利要求10所述的多目标跟踪方法，其特征在于，所述基于所述前向轨迹对所述目标对象于所述当前视频帧的中心点位置进行预测，得到所述预测位置包括：

获取第一视频帧和第二视频帧中所述目标对象的位移；其中，所述第一视频帧为所述当前视频帧的相邻前向视频帧，所述第二视频帧为所述第一视频帧的相邻前向视频帧；

基于所述位移计算所述目标对象的移动速度；

获取所述目标对象于所述第一视频帧的中心点位置；

利用所述第一视频帧的中心点位置以及所述移动速度，计算所述目标对象于所述当前视频帧的中心点位置。

12.根据权利要求1中所述的多目标跟踪方法，其特征在于，获取所述当前视频帧中若干个检测对象的当前外观特征包括：

将所述当前视频帧输入特征提取器，所述特征提取器对所述当前视频帧内存在的检测对象进行检测；

对检测到的若干个所述检测对象进行特征提取，得到属于各所述检测对象的当前外观特征。

13.根据权利要求1或12中所述的多目标跟踪方法，其特征在于，所述对所述检测对象与所述目标对象进行匹配之后还包括：

响应于一检测对象与一目标对象匹配，将所述一检测对象的当前外观特征存储至外观匹配模块；

于所述外观匹配模块内，融合所述一检测对象的当前外观特征与所述一目标对象的前向外观特征；或，利用所述一检测对象的当前外观特征覆盖所述一目标对象的前向外观特征。

14.一种多目标跟踪装置，其特征在于，所述多目标跟踪装置包括：

预测模块，用于基于目标对象的轨迹预测多个目标对象于当前视频帧的预测位置；其中，所述轨迹为历史跟踪所述目标对象得到的历史真实轨迹；

存储模块，用于存储所述目标对象的轨迹以及前向外观特征，作为前向特征；其中，所述前向外观特征为所述目标对象在前向视频帧中的外观特征；

提取模块，用于获取所述当前视频帧中若干个检测对象的当前位置以及当前外观特征，作为当前特征；

多级匹配模型，用于输入所述前向特征以及所述当前特征，对所述检测对象与所述目标对象进行匹配，以对各所述目标对象进行跟踪。

15.根据权利要求14中所述的多目标跟踪装置，其特征在于，所述多级匹配模型包括：

一级匹配单元，用于输入第一对象与所述前向特征，进行第一特征匹配；所述第一对象为置信度分数高于置信度阈值的检测对象；

二级匹配单元，用于输入第二对象、二级轨迹及对应的所述目标对象的前向外观特征，进行第二特征匹配；所述第二对象为置信度分数低于置信度阈值的检测对象；所述二级轨迹为未匹配到所述当前视频帧的检测对象的所述目标对象的轨迹。

16.根据权利要求14中所述的多目标跟踪装置，其特征在于，所述存储模块包括：

轨迹存储模块，用于存储所述目标对象的轨迹、轨迹标识以及轨迹年龄；

外观匹配模块，用于存储所述目标对象的外观特征；

所述提取模块包括：

检测器，用于对是否存在目标对象进行检测，获取各检测对象存在的存在概率以及属于各目标对象的类别概率；

特征提取器，用于对所述当前视频帧内存在的检测对象进行特征提取，得到属于各所述检测对象的当前外观特征。

17.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至13中任一项所述多目标跟踪方法的步骤。

18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至13中任一项所述多目标跟踪方法的步骤。