CN116630367B

CN116630367B - 目标跟踪方法、装置、电子设备及存储介质

Info

Publication number: CN116630367B
Application number: CN202310915024.9A
Authority: CN
Inventors: 梁玲燕; 赵雅倩; 董刚; 晁银银; 张开华
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2023-07-25
Filing date: 2023-07-25
Publication date: 2023-11-03
Anticipated expiration: 2043-07-25
Also published as: CN116630367A

Abstract

本发明提供一种目标跟踪方法、装置、电子设备及存储介质，涉及计算机视觉技术领域，该方法包括：获取当前场景对应的当前视频序列；将当前视频序列输入至多目标跟踪模型中，得到多目标跟踪模型输出的当前视频序列中各目标的跟踪轨迹；其中，多目标跟踪模型是基于当前场景对应的历史视频序列，以及基于预训练神经网络模型对历史视频序列进行多目标跟踪获取的伪标签进行训练得到的。本发明实现利用当前场景下的视频序列进行半监督训练得到既具备当前场景的场景知识，又可高效精准地对当前场景下的视频序列进行多目标跟踪的多目标跟踪模型，由此提高目标跟踪准确性。

Description

目标跟踪方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种目标跟踪方法、装置、电子设备及存储介质。

背景技术

多目标跟踪是计算机视觉领域的一项关键技术，广泛应用于自动驾驶、视频监控、行为识别等领域中。因此，如何进行高效精准地进行多目标跟踪是目前业界亟待解决的重要课题。

相关技术中，在场景部署发生变更后，由于训练数据库和实际部署的场景不同，导致多目标跟踪系统性能降低。因此，需要人工重新采集实际部署场景下的样本数据集，并对每一样本进行一一标注，但是受限于数据集标注难度大、成本高，由此使得训练数据库中缺乏实际部署场景下的样本数据，进而导致训练的目标跟踪模型的性能差，目标跟踪准确性低。

发明内容

本发明提供一种目标跟踪方法、装置、电子设备及存储介质，用以解决现有技术中训练数据库中缺乏实际部署场景下的样本数据，导致目标跟踪准确性低的缺陷，实现提高目标跟踪准确性。

本发明提供一种目标跟踪方法，包括：

获取当前场景对应的当前视频序列；

将所述当前视频序列输入至多目标跟踪模型中，得到所述多目标跟踪模型输出的所述当前视频序列中各目标的跟踪轨迹；

其中，所述多目标跟踪模型是基于所述当前场景对应的历史视频序列，以及所述历史视频序列对应的伪标签进行训练得到的；所述伪标签是基于预训练神经网络模型，对所述历史视频序列进行目标跟踪获取的；所述预训练神经网络模型是基于多种历史场景对应的样本视频序列和所述样本视频序列对应的真实标签进行训练得到的。

根据本发明提供的一种目标跟踪方法，所述多目标跟踪模型是基于如下步骤训练得到的：

基于所述样本视频序列和所述样本视频序列对应的真实标签对初始神经网络模型进行训练，得到所述预训练神经网络模型；

将所述历史视频序列输入至所述预训练神经网络模型，得到所述预训练神经网络模型输出的所述历史视频序列中各目标的跟踪轨迹；

根据所述历史视频序列中各目标的跟踪轨迹，确定所述历史视频序列对应的伪标签；

根据所述历史视频序列和所述伪标签，构建第一目标数据集；

根据所述第一目标数据集，对所述预训练神经网络模型进行循环迭代训练，得到所述多目标跟踪模型。

根据本发明提供的一种目标跟踪方法，所述根据所述历史视频序列中各目标的跟踪轨迹，确定所述历史视频序列对应的伪标签，包括：

计算所述历史视频序列中各目标的跟踪轨迹的轨迹置信度；

根据所述轨迹置信度，在所述历史视频序列中所有目标的跟踪轨迹中确定目标跟踪轨迹；

根据所述目标跟踪轨迹，对所述历史视频序列进行标签标记，得到所述历史视频序列对应的伪标签。

根据本发明提供的一种目标跟踪方法，所述根据所述轨迹置信度，在所述历史视频序列中所有目标的跟踪轨迹中确定目标跟踪轨迹，包括：

将所述轨迹置信度与置信度阈值进行比较，得到第一比较结果；

根据所述第一比较结果，在所述历史视频序列中所有目标的跟踪轨迹中，确定所述目标跟踪轨迹。

根据本发明提供的一种目标跟踪方法，所述根据所述第一比较结果，在所述历史视频序列中所有目标的跟踪轨迹中，确定所述目标跟踪轨迹，包括：

根据所述第一比较结果，在所述历史视频序列中所有目标的跟踪轨迹中，确定所述轨迹置信度大于所述置信度阈值的跟踪轨迹；

将所述轨迹置信度大于所述置信度阈值的跟踪轨迹作为所述目标跟踪轨迹。

根据本发明提供的一种目标跟踪方法，所述计算所述历史视频序列中各目标的跟踪轨迹的轨迹置信度，包括：

对于各目标的跟踪轨迹执行如下步骤：

根据当前目标的跟踪轨迹，在所述历史视频序列中确定第一目标图像帧；所述第一目标图像帧为成功检测到所述当前目标的轨迹的图像帧；

将所述历史视频序列中所述第一目标图像帧的帧数与帧数阈值进行比较，得到第二比较结果；

在根据所述第二比较结果，确定所述第一目标图像帧的帧数小于所述帧数阈值的情况下，根据预设值确定所述当前目标的跟踪轨迹的轨迹置信度；

在根据所述第二比较结果，确定所述第一目标图像帧的帧数大于或等于所述帧数阈值的情况下，在所述历史视频序列中确定第二目标图像帧；所述第二目标图像帧为检测到所述当前目标在跟踪过程中被遮挡的图像帧，或者确定所述当前目标在跟踪过程中被成功跟踪到的图像帧；

根据所述历史视频序列中所述第二目标图像帧的帧数，确定所述当前目标的跟踪轨迹的轨迹置信度。

根据本发明提供的一种目标跟踪方法，所述帧数阈值是基于如下步骤获取的：

根据所述当前场景对应的第一需求信息，获取第一目标比例；所述第一需求信息用于表征跟踪精度的需求信息；

将所述历史视频序列中的图像帧数量与所述第一目标比例相乘，得到所述帧数阈值。

根据本发明提供的一种目标跟踪方法，所述根据所述历史视频序列和所述伪标签，构建第一目标数据集，包括：

对所述历史视频序列进行数据增强；

根据增强后的历史视频序列和所述伪标签，构建所述第一目标数据集；

其中，所述数据增强包括图像平移、图像翻转、图像旋转和光线处理中的一种或多种组合。

根据本发明提供的一种目标跟踪方法，所述根据所述第一目标数据集，对所述预训练神经网络模型进行循环迭代训练，得到所述多目标跟踪模型，包括：

根据所述第一目标数据集，对所述预训练神经网络模型的各分支节点进行重要性计算；

根据所述重要性，对所述预训练神经网络模型进行初始化；

根据所述第一目标数据集，对初始化后的预训练神经网络模型进行循环迭代训练，得到所述多目标跟踪模型。

根据本发明提供的一种目标跟踪方法，所述根据所述重要性，对所述预训练神经网络模型进行初始化，包括：

根据所述重要性，在所述预训练神经网络模型的所有所述分支节点中确定目标分支节点；

对所述预训练神经网络模型中的所述目标分支节点进行随机初始。

根据本发明提供的一种目标跟踪方法，所述根据所述重要性，在所述预训练神经网络模型的所有所述分支节点中确定目标分支节点，包括：

按照从高到低的顺序，对各所述分支节点的重要性进行排序；

根据排序结果，在所述预训练神经网络模型的所有所述分支节点中，选择所述重要性排序靠后的预设数量的所述分支节点作为所述目标分支节点。

根据本发明提供的一种目标跟踪方法，所述预设数量是基于如下步骤获取的：

根据所述当前场景对应的第二需求信息，获取第二目标比例；所述第二需求信息用于表征模型性能的需求信息；

将所述预训练神经网络模型的分支节点数量与所述第二目标比例相乘，得到所述预设数量。

根据本发明提供的一种目标跟踪方法，所述根据所述第一目标数据集，对所述预训练神经网络模型的各分支节点进行重要性计算，包括：

对所述第一目标数据集进行样本数据抽取，得到第二目标数据集；所述第二目标数据集中所述历史视频序列的数量小于所述第一目标数据集中所述历史视频序列的数量；

根据所述第二目标数据集，对所述预训练神经网络模型的各分支节点进行重要性计算。

将所述第一目标数据集划分为训练数据集和验证数据集；

根据所述训练数据集，对所述预训练神经网络模型进行循环迭代训练，直到满足预设终止条件，得到训练后的神经网络模型；所述预设终止条件包括达到最大迭代次数和/或损失函数值收敛；

根据所述验证数据集，对所述训练后的神经网络模型的跟踪精度进行验证；

在确定所述训练后的神经网络模型的跟踪精度未通过验证的情况下，对所述训练后的神经网络模型进行重训练，直到所述训练后的神经网络模型的跟踪精度通过验证；

将通过验证的所述训练后的神经网络模型作为所述多目标跟踪模型。

根据本发明提供的一种目标跟踪方法，所述对所述训练后的神经网络模型进行重训练，包括：

对于当前次重训练，将所述第一目标数据集中的所述历史视频序列输入至上一次重训练后的神经网络模型中，得到所述上一次重训练后的神经网络模型输出的所述历史视频序列中各目标的跟踪轨迹；

根据所述上一次重训练后的神经网络模型输出的所述历史视频序列中各目标的跟踪轨迹，构建所述当前次重训练对应的数据集；

根据所述当前次重训练对应的数据集，获取第三目标数据集；

根据所述第三目标数据集，对所述上一次重训练后的神经网络模型进行重训练。

根据本发明提供的一种目标跟踪方法，所述根据所述当前次重训练对应的数据集，获取第三目标数据集，包括：

将所述当前次重训练对应的数据集作为所述第三目标数据集。

获取所述当前次重训练之前的所有历史次重训练对应的数据集；

根据所有所述历史次重训练对应的数据集以及所述当前次重训练对应的数据集，获取第三目标数据集。

本发明还提供一种目标跟踪装置，包括：

采集模块，用于获取当前场景对应的当前视频序列；

跟踪模块，用于将所述当前视频序列输入至多目标跟踪模型中，得到所述多目标跟踪模型输出的所述当前视频序列中各目标的跟踪轨迹；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述目标跟踪方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述目标跟踪方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述目标跟踪方法。

本发明提供的目标跟踪方法、装置、电子设备及存储介质，通过利用多种历史场景对应的样本视频序列和样本视频序列对应的真实标签训练得到的预训练神经网络模型，自适应地模拟生成当前场景对应的历史视频序列的伪标签，以利用具备伪标签的历史视频序列进行多目标跟踪模型的半监督学习训练，极大地避免人工标注，实现在训练数据库中缺乏当前部署场景下的样本数据的情况下，也可以训练得到既具备当前场景的场景知识，又可以高效精准地对当前场景对应的当前视频序列进行多目标跟踪的多目标跟踪模型，由此提高目标跟踪准确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的多目标跟踪模型部署的示意图；

图2是本发明提供的目标跟踪方法的流程示意图之一；

图3是本发明提供的目标跟踪方法的流程示意图之二；

图4是本发明提供的伪标签确定步骤的流程示意图；

图5是本发明提供的多目标跟踪模型的训练步骤的流程示意图之一；

图6是本发明提供的分支节点的重要性计算步骤的流程示意图；

图7是本发明提供的初始化后的预训练神经网络模型的训练步骤的流程示意图；

图8是本发明提供的多目标跟踪模型的训练步骤的流程示意图之二；

图9是本发明提供的目标跟踪装置的结构示意图；

图10是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

多目标跟踪是计算机视觉领域的一项关键技术，广泛应用于自动驾驶、视频监控、行为识别等领域中，本实施例对此不作具体地限定。以下以行为识别为例，对本实施例提供的目标跟踪方法展开说明，对于其它领域的目标跟踪，本发明提供的方案同样适用。

不同于其他计算机视觉任务，由于多目标跟踪数据集标注难度大、成本高，导致在多目标跟踪领域存在数据集的缺乏问题，特别是行人多目标跟踪数据集。由此导致在实际场景部署中，由于训练数据库和实际部署场景不同，从而导致多目标跟踪的性能降低。

图1为本申请实施例提供的多目标跟踪模型部署的示意图，如图1所示，对于训练数据库，包括场景1和场景2，且场景1和场景2均为街景视频序列，且行人分布均匀、稀疏、光线充足；当前真实部署场景包括场景3和场景4，其中，场景3为街景视频序列，且行人分布均匀、稀疏、光线充足，而场景4为室内视频序列，行人分布杂乱、密集、光线暗淡。

在使用场景1和场景2训练得到的多目标跟踪模型应用于场景3进行行人目标跟踪时，由于其与训练数据库中的场景1和场景2相似，由训练数据库训练得到的多目标跟踪模型直接应用于场景3，模型性能将受影响很小，因此由训练数据库训练得到的多目标跟踪模型可成功部署至场景3中。

在使用场景1和场景2训练得到的多目标跟踪模型应用于场景4进行行人目标跟踪时，由于其与训练数据库中的场景1和场景2差异较大，由训练数据库训练得到的多目标跟踪模型直接应用于场景4，模型性能严重降低，如目标跟踪不准确、目标跟踪失败，因此由训练数据库训练得到的多目标跟踪模型无法成功部署至场景4中，导致部署失败。

为了解决该问题，相关技术中，通常根据实际部署场景采集部分数据进行人工标注，并基于标注完成的数据进行多目标跟踪模型的重训练，但是标注数据人工成本高、耗时长、不自动化，如果每新换一个部署场景，就进行一次数据标定，将非常不利于产品的部署与推广。由此，受限于数据集标注难度大、成本高，训练数据库中严重缺乏实际部署场景下的样本数据，导致训练的目标跟踪模型的性能差，目标跟踪准确性低。

为了由于场景变化导致训练数据库中缺乏实际部署场景下的样本数据带来的多目标跟踪性能降低的问题，本实施例提供一种目标跟踪方法、装置、电子设备及存储介质，通过自动创建实际部署场景下的伪标签，基于伪标签和多种历史场景对应的样本视频序列的真实标签对多目标跟踪模型进行半监督学习的模型重训方法，无需人工标定数据，极大地减少了人工成本，且可以自适应、高效地训练出应用于实际部署场景的多目标跟踪模型，由此提高目标跟踪准确性。

下面结合图2-图8描述本发明的目标跟踪方法。

需要说明的是，该方法的执行主体可以是电子设备、电子设备中的部件、集成电路、或芯片。该电子设备可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机（ultra-mobile personal computer，UMPC）、上网本或者个人数字助理（personal digital assistant，PDA）等，非移动电子设备可以为服务器、网络附属存储器（Network Attached Storage，NAS）、个人计算机（personal computer，PC）、电视机（television，TV）、柜员机或者自助机等，本发明不作具体限定。

图2为本申请实施例提供的目标跟踪方法的流程示意图之一，该方法可适用于场景变化的实际部署场景中，也可适用于因场景变换而引起模型性能降低的实际部署场景中，如目标检测系统部署，场景分割系统部署等。

如图2所示，该方法包括如下步骤：

步骤201，获取当前场景对应的当前视频序列。

其中，当前场景为所需进行目标跟踪的场景；当前视频序列包括多个所需进行目标跟踪的图像帧，具体数量可以根据实际检测需求进行确定。

可选地，当前视频序列可以是通过相机或者带有相机的智能终端在当前场景下拍摄得到，也可以是扫描得到，还可以是通过互联网传输或者下载得到；本实施例对当前视频序列的获取方式不作具体限定。

可以理解的是，在确定当前视频序列后，可以对当前视频序列进行预处理，包括但不限于，尺度归一化处理、图像对齐处理和滤波处理等，以提高多目标跟踪的效率和精度。

步骤202，将所述当前视频序列输入至多目标跟踪模型中，得到所述多目标跟踪模型输出的所述当前视频序列中各目标的跟踪轨迹；其中，所述多目标跟踪模型是基于所述当前场景对应的历史视频序列，以及所述历史视频序列对应的伪标签进行训练得到的；所述伪标签是基于预训练神经网络模型，对所述历史视频序列进行目标跟踪获取的；所述预训练神经网络模型是基于多种历史场景对应的样本视频序列和所述样本视频序列对应的真实标签进行训练得到的。

其中，多目标跟踪模型可以对多个目标进行同时跟踪，以得到各个目标的跟踪轨迹。多目标跟踪模型可以是基于卷积神经网络、循环神经网络等网络模型构建生成的，本实施例对此不作具体地限定。

所称的跟踪轨迹包括但不限于各目标的轨迹标识，如ID（Identity Document，身份标识）、位置信息和坐标信息等，本实施例对此不作具体地限定。

可选地，在执行步骤202之前，需要预先训练得到可适用于当前场景的多目标跟踪模型，该多目标跟踪模型是基于如下步骤进行半监督学习训练得到的：

首先，获取当前场景对应的历史视频序列的伪标签；其中，当前场景对应的历史视频序列的伪标签，可以是将历史视频序列输入至预训练神经网络模型，获取预训练神经网络模型输出的历史视频序列中各目标的跟踪轨迹，根据预训练神经网络模型输出的历史视频序列中各目标的跟踪轨迹获取的。

其中，所称的预训练神经网络模型为预先根据多种历史场景对应的样本视频序列和样本视频序列对应的真实标签对初始神经网络进行有监督训练得到的。此处的真实标签为已标注的真实跟踪轨迹。初始神经网络为对多个目标进行同时跟踪，以得到各个目标的跟踪轨迹的初始多目标跟踪模型。

此处的多种历史场景中的任一历史场景可以是与当前场景属于同一业务场景或属于相似业务场景，或者属于同一应用领域的不同业务场景，本实施例对此不作具体地限定。

接着，根据当前场景对应的历史视频序列，以及历史视频序列对应的伪标签，对目标网络模型进行训练，以得到可对当前场景下的视频序列进行准确跟踪的多目标跟踪模型。所称的目标网络模型可以是预训练神经网络模型或者初始神经网络模型等其他神经网络模型，本实施例对此不作具体地限定。

所称的训练方式可以是直接将当前场景对应的历史视频序列，以及历史视频序列对应的伪标签作为输入进行训练得到多目标跟踪模型；或者，对当前场景对应的历史视频序列，以及历史视频序列对应的伪标签进行数据增强，以将增强结果作为输入进行训练得到多目标跟踪模型；或者，先根据部分历史视频序列，以及部分历史视频序列对应的伪标签对目标网络模型进行优化，再利用所有历史视频序列，以及所有历史视频序列对应的伪标签对优化后的目标网络模型进行再次优化，得到多目标跟踪模型，本实施例对此不作具体地限定。

可选地，在训练获取到多目标跟踪模型之后，可在需要对当前场景对应的当前视频序列进行目标跟踪时，将当前场景对应的当前视频序列输入训练得到的多目标跟踪模型，以基于多目标跟踪模型对当前视频序列进行多目标跟踪，得到当前视频序列中各目标的跟踪轨迹。

图3为本申请实施例提供的目标跟踪方法的流程示意图之二；如图3所示，通过半监督学习训练，得到了适应于当前场景的多目标跟踪模型后，就可以基于训练得到的多目标跟踪模型进行当前场景的多目标跟踪实施，具体包括如下步骤：

步骤301，输入当前场景对应的当前视频序列；

步骤302，基于半监督学习得到的多目标跟踪模型对当前视频序列进行目标跟踪；

步骤303，获取多目标跟踪模型输出的当前视频序列的跟踪结果，如当前视频序列中各目标的跟踪轨迹；

步骤304，根据跟踪结果进行进一步地分析，如人脸识别应用中，基于人脸的运动轨迹进行人脸识别；又如在车辆管理应用中，基于车辆的运动轨迹进行交通安全管理等。

本实施例提供的目标跟踪方法，通过利用多种历史场景对应的样本视频序列和样本视频序列对应的真实标签训练得到的预训练神经网络模型，自适应地模拟生成当前场景对应的历史视频序列的伪标签，以利用具备伪标签的历史视频序列进行多目标跟踪模型的半监督学习训练，极大地避免人工标注，实现在训练数据库中缺乏当前部署场景下的样本数据的情况下，也可以训练得到既具备当前场景的场景知识，又可以高效精准地对当前场景对应的当前视频序列进行多目标跟踪的多目标跟踪模型，由此提高目标跟踪准确性。

在一些实施例中，所述多目标跟踪模型是基于如下步骤训练得到的：

其中，所称的初始神经网络模型或预训练神经网络模型可以是基于CenterTrack（联合检测的跟踪模型）、SimTrack（Simple 3D Multi-Object Tracking，简单的三维多目标跟踪模型）、JDE（Joint Detection and Embedding，联合检测和嵌入向量的跟踪模型）、Track-Rcnn（Track and Region based Convolutional Neural Network，基于区域卷积神经网络的跟踪模型）等神经网模型构建生成的，本实施例对此不作具体地限定。

可选地，为了解决由于场景变化带来的跟踪性能降低的问题，需要首先获取伪标签，再根据伪标签对预训练神经网络模型进行循环迭代训练，即可得到多目标跟踪模型。因此，目标跟踪模型的训练步骤进一步包括：

首先，将样本视频序列和所述样本视频序列对应的真实标签输入至初始神经网络模型，以对初始神经网络模型进行迭代训练，直到达到最大迭代次数或者损失函数收敛或模型精度达到预设值，即可得到预训练神经网络模型。

接着，将历史视频序列输入至预训练神经网络模型，由预训练神经网络模型对历史视频序列进行多目标跟踪，以输出历史视频序列中各目标的跟踪轨迹；

接着，根据历史视频序列中各目标的跟踪轨迹获取伪标签。此处，获取历史视频序列的伪标签的方式，可以是直接将预训练神经网络模型输出的历史视频序列中各目标的跟踪轨迹作为伪标签；或者，对预训练神经网络模型输出的历史视频序列中各目标的跟踪轨迹进行筛选，如计算各目标的跟踪轨迹的轨迹置信度，以根据轨迹置信度以从中获取性能较优的跟踪轨迹作为伪标签，本实施例对此不作具体地限定。

接着，根据历史视频序列和伪标签构建第一目标数据集。此处，构建第一目标数据集的方式包括：直接将历史视频序列作为样本，将历史视频序列的伪标签作为样本标签，构建第一目标数据集；或者对历史视频序列进行数据增强，以将数据增强后的历史视频序列作为样本，将数据增强后的历史视频序列的伪标签作为样本标签，构建第一目标数据集，本实施例对此不作具体地限定。需要说明的是，数据增强前后的历史视频序列具备相同的伪标签。

接着，根据第一目标数据集，直接对预训练神经网络模型进行循环迭代训练，直到达到最大迭代次数或者损失函数收敛或模型精度达到预设值，以得到多目标跟踪模型；或者，从第一目标数据集中获取部分数据集对预训练神经网络模型进行优化后，再采用第一目标数据集的完整数据集对优化后的预训练神经网络模型进行重训练，得到多目标跟踪模型。

需要说明的是，对于每一模型的训练过程，可以将其对应的数据集划分为训练集和验证集，以采用训练集对其进行训练，采用验证集对其性能进行验证，直到模型性能通过验证的情况下，才获取最终的优化模型，由此提高模型性能。

本实施例提供的方法，通过采用多种历史场景的样本视频序列对初始神经网络模型进行训练，得到预训练神经网络模型，基于预训练神经网络模型获取当前场景对应的历史视频序列对应的伪标签，以基于伪标签和当前场景对应的历史视频序列对预训练神经网络模型进行训练，以在训练数据库中缺乏当前部署场景下的样本数据的情况下，即使没有人工参与，也可以训练得到既具备当前场景的场景知识，又可以高效精准地对当前场景对应的当前视频序列进行多目标跟踪的多目标跟踪模型，由此提高目标跟踪准确性。

图4为本申请实施例提供的伪标签确定步骤的流程示意图；如图4所示，在一些实施例中，所述根据所述历史视频序列中各目标的跟踪轨迹，确定所述历史视频序列对应的伪标签，包括：

步骤401，计算所述历史视频序列中各目标的跟踪轨迹的轨迹置信度；

可选地，由于目标被准确跟踪的时间越长，跟踪轨迹越可靠；但跟踪轨迹不被准确跟踪（如基于预测获取的跟踪位置结果）的时间越久，则表明该跟踪轨迹越不可靠，即置信度越低。在轨迹置信度计算过程中，可以结合各目标的轨迹跟踪长度（也即预测时长）和跟踪轨迹中目标被准确跟踪到的次数进行跟踪轨迹置信度的计算。当通过跟踪轨迹被连续准确跟踪到的次数衡量轨迹置信度时，轨迹置信度与跟踪的次数成正比；当通过跟踪轨迹被连续预测到的次数衡量轨迹置信度时，轨迹置信度与跟踪的次数成反比。

置信度的具体计算方式，可以是将轨迹跟踪长度以及跟踪轨迹中目标被准确跟踪到的次数输入至预先训练的置信度计算模型中，由置信度计算模型输出各目标的跟踪轨迹置信度；或者采用预先配置的置信度计算规则，对轨迹跟踪长度以及跟踪轨迹中目标被准确跟踪到的次数进行规则计算，获取各目标的跟踪轨迹置信度，本实施例对此不作具体地限定。

步骤402，根据所述轨迹置信度，在所述历史视频序列中所有目标的跟踪轨迹中确定目标跟踪轨迹；

可选地，根据轨迹置信度确定相应的选择策略，以根据选择策略从所有目标的跟踪轨迹中选择确定目标跟踪轨迹。

在一些实施例中，所述根据所述轨迹置信度，在所述历史视频序列中所有跟踪轨迹中确定目标跟踪轨迹，包括：

可选地，将各目标对应的轨迹置信度与置信度阈值进行比较，以确定各目标对应的轨迹置信度是否大于置信度阈值，进而确定各目标的跟踪轨迹的可靠性。进一步地，根据比较结果，确定相应的选择策略，以根据选择策略，在历史视频序列中所有目标的跟踪轨迹中确定目标跟踪轨迹。

在一些实施例中，所述根据所述第一比较结果，在所述历史视频序列中所有目标的跟踪轨迹中，确定所述目标跟踪轨迹，包括：

可选地，在历史视频序列中所有目标的跟踪轨迹中，确定轨迹置信度大于置信度阈值的跟踪轨迹，也即轨迹置信度较高的跟踪轨迹；并对轨迹置信度较高的跟踪轨迹的轨迹数据进行保存。其中需要保存的轨迹数据包括历史视频序列及对应轨迹置信度较高的跟踪轨迹数据，如跟踪轨迹ID号，跟踪坐标边界框信息（x，y，w，f）以及轨迹置信度大小。

步骤403，根据所述目标跟踪轨迹，对所述历史视频序列进行标签标记，得到所述历史视频序列对应的伪标签。

可选地，在获取到目标跟踪轨迹之后，可以直接根据目标跟踪轨迹对历史视频序列进行标签标记，得到历史视频序列对应的伪标签。

本实施例提供的方法，通过计算每一目标的跟踪轨迹置信度，从中选择轨迹置信度较高的跟踪轨迹进行伪标签生成，以最大限度地提高伪标签的可靠性，进而提高目标跟踪性能。

在一些实施例中，计算所述历史视频序列中各目标的跟踪轨迹的轨迹置信度的步骤进一步包括：

对于各目标的跟踪轨迹执行如下步骤：

在根据所述第二比较结果，确定所述第一目标图像帧的帧数小于所述帧数阈值的情况下，根据所述预设值确定所述当前目标的跟踪轨迹的轨迹置信度；

可选地，对于每一目标的跟踪轨迹的轨迹置信度计算执行如下操作：

为了避免由噪声引起误检测而产生的跟踪轨迹进入到伪标签数据集（下文也称第一目标数据集）构建中，需要根据当前目标的跟踪轨迹，在历史视频序列的多帧图像帧中确定可成功检测到当前目标的轨迹的图像帧作为第一目标图像帧，也即在该段跟踪轨迹中当前目标被成功检测到的图像帧，并统计该第一目标图像帧的帧数；

接着，将第一目标图像帧的帧数与帧数阈值进行比较，以判断第一目标图像帧的帧数/>是否大于帧数阈值/>。所称的帧数阈值可以根据实际需求进行设置，如设置至少为2；也可以是根据该段历史视频序列中所包含的图像帧的总帧数进行确定，本实施例对此不作具体地限定。

接着，对于确定第一目标图像帧的帧数小于帧数阈值/>的情况下，确定当前目标的跟踪轨迹的可信度较低，可将当前目标的跟踪轨迹的轨迹置信度直接配置为预设值。此处的预设值可以根据实际需求进行设置，如设置为0。

对于确定所述第一目标图像帧的帧数大于或等于帧数阈值/>的情况下，确定当前目标的跟踪轨迹的可信度相对较高，可以在历史视频序列中确定在跟踪过程中存在当前目标被遮挡的图像帧作为第二目标图像帧，也即在预测的连续多帧图像帧中，跟踪器无法进行准确跟踪，跟踪器只能通过位置进行预测的图像帧，或者将在跟踪过程中当前目标被成功跟踪到的图像帧作为第二目标图像帧。

以下以在跟踪过程中存在当前目标被遮挡的图像帧作为第二目标图像帧为例对置信度计算展开描述。

统计在跟踪过程中存在当前目标被遮挡的图像帧的帧数。由于/>越大，轨迹可靠性也低；因此，可以采用对数函数对/>进行计算，以获取当前目标的跟踪轨迹的轨迹置信度，具体计算公式如下：

；

其中，为当前目标的跟踪轨迹的轨迹置信度，/>为在跟踪过程中存在当前目标被遮挡的图像帧的帧数，/>为当前目标对应的第一目标图像帧的帧数，/>为帧数阈值；/>为权重系数；/>为对数函数；/>为最大值函数。

需要说明的是，预测时间越久，则的累计帧数越高，那么置信度/>越小。

本实施例提供的方法，通过结合历史视频序列中存在各目标遮挡的图像帧的帧数以及成功检测到各目标的轨迹的图像帧的帧数，对各目标的跟踪轨迹的轨迹置信度进行计算，可以有效避免噪声干扰，由此提高各目标的跟踪轨迹的轨迹置信度的计算准确性，进而提高目标跟踪性能。

在一些实施例中，帧数阈值是基于如下步骤获取的：根据所述当前场景对应的第一需求信息，获取第一目标比例；所述第一需求信息用于表征跟踪精度的需求信息；

其中，各场景对应的第一需求信息与各比例之间预先构建有第一映射关系；各场景对应的第一需求信息对应的比例可以包括三组，如第一等级的第一需求信息对应的比例为1/2，第二等级的第一需求信息对应的比例为1/3，第三等级的第一需求信息对应的比例为1/4，第一等级、第二等级和第三等级分别对应的第一需求信息依次递减，也即跟踪准确度要求越高，对应的比例越高。

可选地，根据第一映射关系，以及当前场景对应的第一需求信息，获取当前场景对应的第一需求信息等级对应的比例，作为第一目标比例。由于数值的大小，与跟踪轨迹的帧数成正比，因此可以将历史视频序列中的图像帧数量与第一目标比例相乘，得到帧数阈值。

需要说明的是，为了提高跟踪性能，需要设置帧数阈值至少大于或等于2，也即若历史视频序列中的图像帧数量与第一目标比例相乘结果小于2，则直接将帧数阈值设置为2。

本实施例提供的方法，通过当前场景对应的第一需求信息以及历史视频序列中的图像帧数量自适应地确定帧数阈值，由此使得目标跟踪结果可以与当前场景对应的第一需求信息相适配，进而提高目标跟踪性能。

在一些实施例中，所述根据所述历史视频序列和所述伪标签，构建第一目标数据集，包括：

对所述历史视频序列进行数据增强；

可选地，在获取到伪标签之后，为了丰富数据集，可以对历史视频序列执行图像平移、图像翻转、图像旋转和光线处理中的一种或多种组合，以扩大数据集。

需要说明的是，数据增强前后，历史视频序列具备相同的伪标签。

图5为本申请实施例提供的多目标跟踪模型的训练步骤的流程示意图之一；如图5所示，在一些实施例中，所述根据所述第一目标数据集，对所述预训练神经网络模型进行循环迭代训练，得到所述多目标跟踪模型，包括：

步骤501，根据所述第一目标数据集，对所述预训练神经网络模型的各分支节点进行重要性计算；

步骤502，根据所述重要性，对所述预训练神经网络模型进行初始化；

步骤503，根据所述第一目标数据集，对初始化后的预训练神经网络模型进行循环迭代训练，得到所述多目标跟踪模型。

可选地，将第一目标数据集均作为重要性计算数据，或者从第一目标数据集中选择部分数据集作为重要性计算数据；接着，对预训练神经网络模型进行各分支节点进行处理，根据重要性计算数据判断各分支节点处理前后对预训练神经网络模型的影响，进而确定各分支节点连接的重要性，所称的处理可以是将参数值设置为目标值处理等，本实施例对此不作具体地限定。

在获取到重要性后，可以确定预训练神经网络模型的初始化策略，进而根据初始化策略对预训练神经网络模型进行初始化。初始化策略中至少包括所需进行初始化的分支节点以及初始化方式。

此处，初始化策略的获取方式，可以根据各节点的重要性与各初始化策略之间的映射关系，确定各节点的初始化策略；或者，根据预先配置的初始化判断规则，对各节点的重要性进行规则判断，以形成所有节点的初始化策略，本实施例对此不作具体地限定。

可选地，在对预训练神经网络模型进行初始化之后，可以对初始化后的分支节点的参数以及未被初始化的分支节点的参数形成预训练神经网络模型的新的模型参数，也即初始化后的预训练神经网络模型的模型参数，以在新的模型参数的基础上进行循环迭代训练，以得到多目标跟踪模型。

图6为本申请实施例提供的分支节点的重要性计算步骤的流程示意图；其中，无图案填充的分支节点为被选中的分支节点，经上对角线图案填充的为未被选中的分支节点。如图6所示，预训练神经网络模型采用少量的伪标签数据集，也即根据第一目标数据集确定的数据集，进行各分支节点的重要性确定，以根据重要性排序选择预练神经网络模型中的部分分支节点，例如图6右侧网络结构中无图案填充的分支节点；并对选择的部分分支节点进行随机初始化，以得到初始化后的预训练神经网络模型。

图7为本申请实施例提供的初始化后的预训练神经网络模型的训练步骤的流程示意图；如图7所示，经过分支节点重要性选择之后，选择部分分支节点（如图7中无图案填充的分支节点），接着对选择的部分分支节点的权重值进行随机初始化（如图7中网格图案填充的分支节点），并与未被选中的分支节点的原始权重值（如图7中无图案填充的分支节点）形成初始化后的预训练神经网络模型的参数（如图7中横线填充的分支节点）；最后基于第一目标数据集，在初始化后的预训练神经网络模型的参数的基础上，进行模型重训工作，并得到训练后的预训练神经网络模型，根据训练后的预训练神经网络模型，获取多目标跟踪模型。

本实施例提供的方法，通过根据预训练神经网络模型的各分支节点的重要性，对预训练神经网络模型进行随机初始化，有效避免预训练神经网络模型的过拟合，提高预训练神经网络模型训练的效率和模型性能，进而提高目标跟踪性能。

在一些实施例中，所述根据所述重要性，对所述预训练神经网络模型进行初始化，包括：

可选地，根据各分支节点的重要性确定相应的选择策略，以根据选择策略从所有分支节点中确定目标分支节点。

在一些实施例中，所述根据所述重要性，在所述预训练神经网络模型的所有所述分支节点中确定目标分支节点，包括：

可选地，确定目标分支节点的步骤进一步包括：

按照从高到低的顺序，对各分支节点的重要性进行排序，以在预训练神经网络模型的所有分支节点中选择重要性排序靠后的预设数量的分支节点作为目标分支节点，也即选择非重要的分支节点作为目标分支节点。所称的预设数量可以根据实际需求进行选择；也可根据预训练神经网络模型的分支节点数量以及性能需求进行适应性地确定。

可选地，由于重要性指标越大表明该分支节点越重要，则其对应参数保留；重要性指标越小则表明该分支越不重要，那么其对应的参数也不重要，为了避免预训练神经网络模型的过拟合，提高预训练神经网络模型训练的效率和模型性能，进而提高目标跟踪性能，可对该权重参数进行重新初始化。因此，在获取到非重要的目标分支节点之后，可对预训练神经网络模型中的目标分支节点进行随机初始。

在一些实施例中，所述预设数量是基于如下步骤获取的：

其中，各场景对应的第二需求信息与各比例之间预先构建有第二映射关系；需要说明的是，第二需求信息越高，对应的比例越低。

可选地，根据第二映射关系，以及当前场景对应的第二需求信息，获取当前场景对应的第二需求信息对应的比例，作为第二目标比例。

接着，将预训练神经网络模型的分支节点数量与第二目标比例相乘，得到预设数量，具体计算公式可表征为预设数量分支节点数量；其中，a2为第二目标比例，0=<a2<1，且a2的大小同多目标跟踪模型的跟踪性能需求成反比，多目标跟踪模型的跟踪性能需求越高，a2的取值越小，一般a2的初始化大小为a2=0.2。

本实施例提供的方法，通过当前场景对应的第二需求信息以及预训练神经网络模型的分支节点数量自适应地确定预设数量，由此使得训练获取的多目标跟踪模型可以与当前场景对应的第二需求信息相适配，进而提高目标跟踪性能。

在一些实施例中，所述根据所述第一目标数据集，对所述预训练神经网络模型的各分支节点进行重要性计算，包括：

根据第二目标数据集和剪枝算法，对所述预训练神经网络模型的各分支节点进行重要性计算。

可选地，随机从第一目标数据集抽取预设数量的样本数据，形成第二目标数据集。此处的预设数量可以根据实际需求进行设置，如128个样本数据。

接着，采用连接重要性算法，如SNIP（Single-Shot Network Pruning BasedConnection Sensitivity，基于单次网络修剪的连接灵敏度算法）以及第二目标数据集对预训练神经网络模型的各分支节点进行重要性计算。

其中，SNIP是一种基于连接敏感的显著性指标来定位当前网络模型中的重要连接，减少了预训练和剪枝策略的复杂性，对于不同的网络结构也比较高的鲁棒性。

本实施例提供的方法，通过小批量的样本数据即可一次性完成预训练神经网络模型的各分支节点的重要性计算，进而有效提高目标跟踪效率。

在一些实施例中，所述根据所述第一目标数据集，对所述预训练神经网络模型进行循环迭代训练，得到所述多目标跟踪模型，包括：

将所述第一目标数据集划分为训练数据集和验证数据集；

可选地，对第一目标数据集进行样本划分，以划分得到训练数据集和验证数据集。所称的样本划分方式可以是按照预设比例或者按照预设数量进行划分。

需要说明的是，训练数据集主要用于模型重训练，验证数据集主要用于训练模型的跟踪精度评估。训练数据集和验证数据集不存在重叠的样本数据。

接着，基于训练数据集对预训练神经网络模型进行训练迭代训练，直到训练后的预训练神经网络模型的迭代次数达到最大迭代次数和/或损失函数值收敛，获取训练后的神经网络模型，具体训练步骤参见图5，此处不再赘述。

接着，将验证数据集输入至训练后的神经网络模型，计算训练后的神经网络模型在验证样本上的损失函数，以获取训练后的神经网络模型的跟踪精度，将跟踪精度与精度阈值进行比较，以验证训练后的神经网络模型能否在当前场景下进行精准地目标跟踪。

在跟踪精度大于或等于精度阈值的情况下，确定训练后的神经网络模型能在当前场景下进行精准地目标跟踪，即表征训练后的神经网络模型通过验证，此时可结束模型训练，并将训练后的神经网络模型作为多目标跟踪模型。

在跟踪精度小于精度阈值的情况下，训练后的神经网络模型无法在当前场景下进行精准地目标跟踪，此时需要重新更新训练后的神经网络模型的模型参数，并进行下一轮重训练，直到训练后的神经网络模型的跟踪精度通过验证，至此完成重训练过程，将通过验证的训练后的神经网络模型作为多目标跟踪模型。

需要说明的是，对于每一轮重训练，可以是对训练后的神经网络模型的结构进行调整和/或对样本数据的伪标签进行更新，以根据调整后的神经网络模型和/或更新的伪标签进行重训过程，以得到多目标跟踪模型，本实施例对此不作具体地限定。

本实施例提供的方法，通过对训练后的神经网络模型的跟踪精度进行验证，并根据验证结果实时对训练后的神经网络模型进行重训练，由此获取可以更加精准获取当前场景的目标跟踪轨迹的多目标跟踪模型，以提高目标跟踪的准确性。

在一些实施例中，所述对所述训练后的神经网络模型进行重训练，包括：

对于每一次重训练过程，将所述第一目标数据集中的所述历史视频序列输入至上一次重训练后的神经网络模型中，得到所述上一次重训练后的神经网络模型输出的所述历史视频序列中各目标的跟踪轨迹；

根据所述上一次重训练后的神经网络模型输出的所述历史视频序列中各目标的跟踪轨迹，构建当前次重训练对应的数据集；

可选地，对于每一次重训练过程，可以是将第一目标数据集中的所述历史视频序列输入至上一次重训练后的神经网络模型中，由上一次重训练后的神经网络模型对第一目标数据集中的历史视频序列进行多目标跟踪，以根据多目标跟踪结果对第一目标数据集中的伪标签进行更新，得到当前次重训练对应的数据集；

接着，根据当前次重训练对应的数据集，确定第三目标数据集；也即当前轮重训练所需的数据集。确定第三目标数据集的方式包括，直接将当前次重训练对应的数据集作为第三目标数据集，或者将一个或多个次重训练对应的数据集和当前次重训练对应的数据集进行累计，得到第三目标数据集，本实施例对此不作具体地限定。

接着，根据第三目标数据集，对上一次重训练后的神经网络模型进行重训练，直到训练后的神经网络模型的跟踪精度通过验证，以获取多目标跟踪模型。

本提供的方法，通过根据重训练得到的训练后的神经网络模型对第一目标数据集中的伪标签进行更新，以获取第三目标数据集，根据第三目标数据集对训练后的神经网络模型进行重训练，由此加快预训练神经网络模型的训练效率，以及提高模型训练精准，进而提高目标跟踪性能。

在一些实施例中，根据所述当前次重训练对应的数据集，获取第三目标数据集的步骤进一步包括：

可选地，根据上一轮重训练得到的训练后的预训练神经网络模型对第一目标数据集中的伪标签进行更新得到的第三目标数据集的伪标签。

本实施例提供的方法，通过根据上一轮重训练得到的训练后的预训练神经网络模型对第一目标数据集中的伪标签进行更新，以作为当前轮训练所需的伪标签，由此加快预训练神经网络模型的训练效率，以及提高模型训练精准，进而提高目标跟踪性能。

在一些实施例中，所述根据所述当前次重训练对应的数据集，获取第三目标数据集的步骤还进一步包括：

获取所述当前次重训练之前的所有历史次训练对应的数据集；

根据所有所述历史次训练对应的数据集以及所述当前次重训练对应的数据集，获取第三目标数据集。

可选地，将所有历史次训练对应的数据集以及当前次重训练对应的数据集进行累加，得到第三目标数据集，由此丰富每一轮重训练所需的样本数量，以提高预训练神经网络模型的训练效率和模型训练精准，进而提高目标跟踪性能。

图8为本申请实施例提供的多目标跟踪模型的训练步骤的流程示意图之二；如图8所示，多目标跟踪模型的训练步骤进一步包括：

步骤801，获取当前场景的历史视频序列；

步骤802，将当前场景的历史视频序列输入至预训练神经网络模型，获取预训练神经网络模型输出的历史视频序列中各目标的跟踪轨迹，根据历史视频序列中各目标的跟踪轨迹生成伪标签，并对历史视频序列进行数据增强，以建立第一目标数据集；

步骤803，从第一目标数据集中抽取部分样本数据作为第二目标数据集，基于第二目标数据集对预训练神经网络模型中各分支节点的重要性进行计算；

步骤804，基于分支节点的重要性进行排序，选择部分非重要的分支节点作为目标分支节点，并对目标分支节点对应的节点参数进行随机初始化。

步骤805，基于第一目标数据集中的训练数据集对初始化后的预训练神经网络模型进行重训练，得到训练后的神经网络模型；

步骤806，基于第一目标数据集中的验证数据集，对训练后的神经网络模型的模型精度进行验证，以确定其是否满足精度阈值；若满足，则执行步骤807，若不满足，则将训练后的神经网络模型作为新的预训练神经网络模型，以基于新的预训练神经网络模型对第一目标数据集进行更新，获取新的第一目标数据集（也即第三目标数据集），以基于新的第一目标数据集进行重训练，具体重复执行步骤801到步骤806；

步骤807，结束预训练神经网络模型的训练，并根据最后一次更新获取的模型参数对预训练神经网络模型进行优化，以获取多目标跟踪模型，并将多目标跟踪模型部署至当前场景下，以对当前场景下的视频序列进行多目标跟踪。

综上，本实施例提供的方法，通过半监督学习训练解决了多目标跟踪模型在实际场景部署中，因为部署场景发生变化而导致多目标跟踪系统性能降低的问题，并且提出了一种自适应的多目标跟踪模型重训方法；相对于传统方法，为解决新部署场景中跟踪系统降低的问题，需通过人工重新标定数据并进行模型重训的模式，本发明所提出的基于半监督学习的模型重训方法，无需人工标定数据，极大地减少了人工成本，且通过迭代循环训练，提高了模型精度，加快了多目标模型在实际场景中的部署，且具有良好的自适应性，因此可以应用于各种部署场景中，由此提高多目标跟踪精准性的同时，提高多目标跟踪系统的部署效率。

下面对本发明提供的目标跟踪装置进行描述，下文描述的目标跟踪装置与上文描述的目标跟踪方法可相互对应参照。

图9为本申请实施例提供的目标跟踪装置的结构示意图；如图9所示，该装置包括：

采集模块901用于获取当前场景对应的当前视频序列；

跟踪模块902用于将所述当前视频序列输入至多目标跟踪模型中，得到所述多目标跟踪模型输出的所述当前视频序列中各目标的跟踪轨迹；

本发明提供的目标跟踪装置，通过利用多种历史场景对应的样本视频序列和样本视频序列对应的真实标签训练得到的预训练神经网络模型，自适应地模拟生成当前场景对应的历史视频序列的伪标签，以利用具备伪标签的历史视频序列进行多目标跟踪模型的训练，极大地避免人工标注，实现在训练数据库中缺乏当前部署场景下的样本数据的情况下，也可以训练得到既具备当前场景的场景知识，又可以高效精准地对当前场景对应的当前视频序列进行多目标跟踪的多目标跟踪模型，由此提高目标跟踪准确性。

图10示例了一种电子设备的实体结构示意图，如图10所示，该电子设备可以包括：处理器(processor)1001、通信接口(Communications Interface)1002、存储器(memory)1003和通信总线1004，其中，处理器1001，通信接口1002，存储器1003通过通信总线1004完成相互间的通信。处理器1001可以调用存储器1003中的逻辑指令，以执行目标跟踪方法，该方法包括：获取当前场景对应的当前视频序列；将所述当前视频序列输入至多目标跟踪模型中，得到所述多目标跟踪模型输出的所述当前视频序列中各目标的跟踪轨迹；其中，所述多目标跟踪模型是基于所述当前场景对应的历史视频序列，以及所述历史视频序列对应的伪标签进行训练得到的；所述伪标签是基于预训练神经网络模型，对所述历史视频序列进行目标跟踪获取的；所述预训练神经网络模型是基于多种历史场景对应的样本视频序列和所述样本视频序列对应的真实标签进行训练得到的。

此外，上述的存储器1003中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的目标跟踪方法，该方法包括：获取当前场景对应的当前视频序列；将所述当前视频序列输入至多目标跟踪模型中，得到所述多目标跟踪模型输出的所述当前视频序列中各目标的跟踪轨迹；其中，所述多目标跟踪模型是基于所述当前场景对应的历史视频序列，以及所述历史视频序列对应的伪标签进行训练得到的；所述伪标签是基于预训练神经网络模型，对所述历史视频序列进行目标跟踪获取的；所述预训练神经网络模型是基于多种历史场景对应的样本视频序列和所述样本视频序列对应的真实标签进行训练得到的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的目标跟踪方法，该方法包括：获取当前场景对应的当前视频序列；将所述当前视频序列输入至多目标跟踪模型中，得到所述多目标跟踪模型输出的所述当前视频序列中各目标的跟踪轨迹；其中，所述多目标跟踪模型是基于所述当前场景对应的历史视频序列，以及所述历史视频序列对应的伪标签进行训练得到的；所述伪标签是基于预训练神经网络模型，对所述历史视频序列进行目标跟踪获取的；所述预训练神经网络模型是基于多种历史场景对应的样本视频序列和所述样本视频序列对应的真实标签进行训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种目标跟踪方法，其特征在于，包括：

获取当前场景对应的当前视频序列；

其中，所述多目标跟踪模型是基于所述当前场景对应的历史视频序列，以及所述历史视频序列对应的伪标签进行训练得到的；所述伪标签是基于预训练神经网络模型，对所述历史视频序列进行目标跟踪获取的；所述预训练神经网络模型是基于多种历史场景对应的样本视频序列和所述样本视频序列对应的真实标签进行训练得到的；

所述伪标签是基于如下步骤确定的：

所述根据所述历史视频序列中各目标的跟踪轨迹，确定所述历史视频序列对应的伪标签，包括：

计算所述历史视频序列中各目标的跟踪轨迹的轨迹置信度；

根据所述目标跟踪轨迹，对所述历史视频序列进行标签标记，得到所述历史视频序列对应的伪标签；

所述计算所述历史视频序列中各目标的跟踪轨迹的轨迹置信度，包括：

对于各目标的跟踪轨迹执行如下步骤：

2.根据权利要求1所述的目标跟踪方法，其特征在于，所述多目标跟踪模型是基于如下步骤训练得到的：

3.根据权利要求1所述的目标跟踪方法，其特征在于，所述根据所述轨迹置信度，在所述历史视频序列中所有目标的跟踪轨迹中确定目标跟踪轨迹，包括：

4.根据权利要求3所述的目标跟踪方法，其特征在于，所述根据所述第一比较结果，在所述历史视频序列中所有目标的跟踪轨迹中，确定所述目标跟踪轨迹，包括：

5.根据权利要求1所述的目标跟踪方法，其特征在于，所述帧数阈值是基于如下步骤获取的：

6.根据权利要求2-5任一项所述的目标跟踪方法，其特征在于，所述根据所述历史视频序列和所述伪标签，构建第一目标数据集，包括：

对所述历史视频序列进行数据增强；

7.根据权利要求2-5任一项所述的目标跟踪方法，其特征在于，所述根据所述第一目标数据集，对所述预训练神经网络模型进行循环迭代训练，得到所述多目标跟踪模型，包括：

根据所述重要性，对所述预训练神经网络模型进行初始化；

8.根据权利要求7所述的目标跟踪方法，其特征在于，所述根据所述重要性，对所述预训练神经网络模型进行初始化，包括：

9.根据权利要求8所述的目标跟踪方法，其特征在于，所述根据所述重要性，在所述预训练神经网络模型的所有所述分支节点中确定目标分支节点，包括：

10.根据权利要求9所述的目标跟踪方法，其特征在于，所述预设数量是基于如下步骤获取的：

11.根据权利要求7所述的目标跟踪方法，其特征在于，所述根据所述第一目标数据集，对所述预训练神经网络模型的各分支节点进行重要性计算，包括：

12.根据权利要求2-5任一项所述的目标跟踪方法，其特征在于，所述根据所述第一目标数据集，对所述预训练神经网络模型进行循环迭代训练，得到所述多目标跟踪模型，包括：

将所述第一目标数据集划分为训练数据集和验证数据集；

13.根据权利要求12所述的目标跟踪方法，其特征在于，所述对所述训练后的神经网络模型进行重训练，包括：

14.根据权利要求13所述的目标跟踪方法，其特征在于，所述根据所述当前次重训练对应的数据集，获取第三目标数据集，包括：

15.根据权利要求13所述的目标跟踪方法，其特征在于，所述根据所述当前次重训练对应的数据集，获取第三目标数据集，包括：

16.一种目标跟踪装置，其特征在于，包括：

采集模块，用于获取当前场景对应的当前视频序列；

所述伪标签是基于如下步骤确定的：

计算所述历史视频序列中各目标的跟踪轨迹的轨迹置信度；

对于各目标的跟踪轨迹执行如下步骤：

17.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至15任一项所述目标跟踪方法。

18.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至15任一项所述目标跟踪方法。