CN113469118A

CN113469118A - 多目标行人跟踪方法及装置、电子设备、存储介质

Info

Publication number: CN113469118A
Application number: CN202110820432.7A
Authority: CN
Inventors: 何凌霄; 程鹏; 刘武; 梅涛; 周伯文
Original assignee: Jingdong Technology Holding Co Ltd
Current assignee: Jingdong Technology Holding Co Ltd
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2021-10-01
Anticipated expiration: 2041-07-20
Also published as: CN113469118B

Abstract

本申请公开了一种多目标行人跟踪方法及装置、电子设备、存储介质，方法包括：将获取的目标视频帧输入预先训练好的跟踪模型中，通过跟踪模型的检测部分网络检测目标视频帧的全局特征图中的各个目标行人的位置信息，以及通过身份特征提取部分网络提取全局特征图中的各个位置的特征信息，并结合目标行人的位置信息确定各个目标行人的身份特征信息；其中，全局特征图由跟踪模型的主干网络提取得到；跟踪模型预先利用训练好的行人重识别网络提取到的软标签训练得到；软标签为从所述训练样本中提取的身份特征信息，用于对身份特征提取部分网络从训练样本提取的身份特征信息进行约束；基于各个目标行人的位置信息以及身份特征信息进行跟踪。

Description

多目标行人跟踪方法及装置、电子设备、存储介质

技术领域

本申请涉及目标跟踪技术领域，特别涉及一种多目标行人跟踪方法及装置、电子设备、存储介质。

背景技术

多目标行人跟踪旨在利用计算机视觉技术，从给定的连续视频流中对多个目标个体进行实时跟踪。

依据位置信息检测和身份特征的提取的方式不同，可以将跟踪方法划分为两类：两阶段法和单阶段法。

两阶段法虽然能达到较高的跟踪精度，但是需要两个网络模型分别单独对视频帧进行处理，处理速度较为缓慢，无法很好地满足实时跟踪的需求。而单阶段法，虽然相对于两阶段法，具有较快的处理速度，但是由于检测任务和身份提取任务会存在一定的冲突影响，所以会一定程度上影响提取到的身份特征的指令，从而影响到目标行人跟踪的精度。所以可见现有的方式无法同时兼顾处理速度和精度。

发明内容

基于上述现有技术的不足，本申请提供了一种多目标行人跟踪方法及装置、电子设备、存储介质，以解决现有技术在多目标行人跟踪时无法同时兼顾处理速度和精度的问题。

为了实现上述目的，本申请提供了以下技术方案：

本申请第一方面提供了一种多目标行人跟踪方法，包括：

获取目标视频帧；

将所述目标视频帧输入预先训练好的跟踪模型中，通过所述跟踪模型的检测部分网络检测得到所述目标视频帧的全局特征图中的各个目标行人的位置信息，以及通过所述跟踪模型的身份特征提取部分网络提取所述目标视频帧的全局特征图中的各个位置的特征信息，并结合各个所述目标行人的位置信息，确定出各个所述目标行人的身份特征信息；其中，所述目标视频帧的全局特征图由所述跟踪模型的主干网络对所述目标视频帧进行全局特征提取得到；所述跟踪模型预先利用训练好的行人重识别网络提取到的软标签进行训练得到；所述软标签指代从训练样本中提取到的身份特征信息，用于对所述跟踪模型的所述身份特征提取部分网络从所述训练样本提取的身份特征信息进行约束；

基于各个所述目标行人的所述位置信息以及所述身份特征信息，对各个所述目标行人进行跟踪。

可选地，在上述的方法中，所述跟踪模型的训练方法，包括：

获取多帧视频帧作为训练样本；

将所述训练样本输入所述跟踪模型的主干网络中，通过所述主干网络对所述训练样本进行全局特征提取，得到所述训练样本的全局特征图；

通过所述跟踪模型的检测部分网络检测得到所述训练样本的全局特征图中的各个行人的位置信息，以及通过所述跟踪模型的身份特征提取部分网络提取所述训练样本的全局特征图中的各个位置的特征信息；

通过所述跟踪模型的身份特征提取部分网络将所述各个行人的位置信息与所述训练样本的全局特征图中的各个位置的特征信息结合，确定出各个所述行人的身份特征信息；

根据所述跟踪模型的损失函数，调整所述跟踪模型的参数，并返回执行所述将所述训练样本输入所述跟踪模型的主干网络中，通过所述主干网络对所述训练样本进行全局特征提取，得到所述训练样本的全局特征图，直至所述跟踪模型的损失函数收敛，得到训练好后的所述跟踪模型；其中，所述跟踪模型的损失函数用于表征所述跟踪模型的身份特征提取部分网络提取到的各个所述行人的身份特征信息与训练好的所述行人重识别网络提取到的所述训练样本中的各个行人的身份特征信息的误差。

可选地，在上述的方法中，所述检测部分网络包括热力图分支、尺寸预测分支和偏移矫正分支，所述通过所述跟踪模型的检测部分网络检测得到所述训练样本的全局特征图中的各个行人的位置信息，包括：

通过所述热力图分支预测所述训练样本的全局特征图中的各个所述行人的中心位置参数；

通过所述尺寸预测分支预测所述训练样本的全局特征图中的各个所述行人的绝对尺寸参数；其中，所述绝对尺寸参数包括行人的绝对高度和绝对宽度；

通过所述偏移矫正分支预测所述训练样本的全局特征图中的各个所述行人的位置偏移参数；其中，所述位置偏移包括相对实际位置的横向偏移差和纵向偏移差；

将所述中心位置参数、所述绝对尺寸参数以及所述位置偏移参数整合，得到所述训练样本的全局特征图中的各个行人的位置信息。

可选地，在上述的方法中，所述将所述中心位置参数、所述绝对尺寸参数以及所述位置偏移参数整合，得到所述训练样本的全局特征图中的各个行人的位置信息，包括：

将中心位置参数与对应的所述位置偏移参数进行叠加，得到每个所述行人的矫正位置参数；

基于每个所述行人的矫正位置参数以及每个所述行人的绝对尺寸参数，确定每个所述行人的相对尺寸参数；

针对每个所述行人，将所述行人的矫正位置参数和所述行人的相对尺寸参数组合，得到每个所述行人的位置信息。

本申请第二方面提供了一种多目标行人跟踪装置，包括：

第一获取单元，用于获取目标视频帧；

输入单元，用于将所述目标视频帧输入预先训练好的跟踪模型中，通过所述跟踪模型的检测部分网络检测得到所述目标视频帧的全局特征图中的各个目标行人的位置信息，以及通过所述跟踪模型的身份特征提取部分网络提取所述目标视频帧的全局特征图中的各个位置的特征信息，并结合各个所述目标行人的位置信息，确定出各个所述目标行人的身份特征信息；其中，所述目标视频帧的全局特征图由所述跟踪模型的主干网络对所述目标视频帧进行全局特征提取得到；所述跟踪模型预先利用训练好的行人重识别网络提取到的软标签进行训练得到；所述软标签指代从训练样本中提取到的身份特征信息，用于对所述跟踪模型的所述身份特征提取部分网络从所述训练样本提取的身份特征信息进行约束；

跟踪单元，用于基于各个所述目标行人的所述位置信息以及所述身份特征信息，对各个所述目标行人进行跟踪。

可选地，在上述的装置中，还包括模型训练单元，其中，所述模型训练单元，包括：

第一获取单元，用于获取多帧视频帧作为训练样本；

第一处理单元，用于通过所述跟踪模型的检测部分网络检测得到所述训练样本的全局特征图中的各个行人的位置信息；

第二处理单元，用于通过所述跟踪模型的身份特征提取部分网络提取所述训练样本的全局特征图中的各个位置的特征信息；

第三处理单元，用于通过所述跟踪模型的身份特征提取部分网络将所述各个行人的位置信息与所述训练样本的全局特征图中的各个位置的特征信息结合，确定出各个所述行人的身份特征信息；

迭代单元，用于根据所述跟踪模型的损失函数，调整所述跟踪模型的参数，并返回执行所述将所述训练样本输入所述跟踪模型的主干网络中，通过所述主干网络对所述训练样本进行全局特征提取，得到所述训练样本的全局特征图，直至所述跟踪模型的损失函数收敛，得到训练好后的所述跟踪模型；其中，所述跟踪模型的损失函数用于表征所述跟踪模型的身份特征提取部分网络提取到的各个所述行人的身份特征信息与训练好的所述行人重识别网络提取到的所述训练样本中的各个行人的身份特征信息的误差。

可选地，在上述的装置中，所述第二处理单元，包括：

位置参数获取单元，用于通过所述热力图分支预测所述训练样本的全局特征图中的各个所述行人的中心位置参数；

尺寸参数获取单元，用于通过所述尺寸预测分支预测所述训练样本的全局特征图中的各个所述行人的绝对尺寸参数；其中，所述绝对尺寸参数包括行人的绝对高度和绝对宽度；

偏移参数获取单元，用于通过所述偏移矫正分支预测所述训练样本的全局特征图中的各个所述行人的位置偏移参数；其中，所述位置偏移包括相对实际位置的横向偏移差和纵向偏移差；

整合单元，用于将所述中心位置参数、所述绝对尺寸参数以及所述位置偏移参数整合，得到所述训练样本的全局特征图中的各个行人的位置信息。

可选地，在上述的装置中，所述整合单元，包括：

叠加单元，用于将中心位置参数与对应的所述位置偏移参数进行叠加，得到每个所述行人的矫正位置参数；

确定单元，用于基于每个所述行人的矫正位置参数以及每个所述行人的绝对尺寸参数，确定每个所述行人的相对尺寸参数；

组合单元，用于针对每个所述行人，将所述行人的矫正位置参数和所述行人的相对尺寸参数组合，得到每个所述行人的位置信息。

本申请第三方面提供了一种电子设备，包括：

存储器和处理器；

其中，所述存储器用于存储程序；

所述处理器用于执行所述程序，所述程序被执行时，具体用于实现如上述任意一项所述的多目标行人跟踪方法。

本申请第四方面提供了一种计算机存储介质，用于存储计算机程序，所述计算机程序被执行时，用于实现如上述任意一项所述的多目标行人跟踪方法。

本申请提供的一种多目标行人跟踪方法，通过获取目标视频帧，并将目标视频帧输入预先训练好的跟踪模型中，通过跟踪模型的检测部分网络检测得到目标视频帧的全局特征图中的各个目标行人的位置信息，以及通过跟踪模型的身份特征提取部分网络提取目标视频帧的全局特征图中的各个位置的特征信息，并结合各个目标行人的位置信息，确定出各个目标行人的身份特征信息，最后基于各个目标行人的位置信息以及身份特征信息，对各个目标行人进行跟踪。通过由主干网络、检测部分网络以及身份特征提取部分网络组成的一个整体的网络模型，获取到目标行人为位置信息和身份特征信息，从而可以有效地保证处理的效率。并且，由于跟踪模型是预先利用训练好的行人重识别网络提取到的软标签进行训练得到，而软标签指代从训练样本中提取到的身份特征信息，用于对跟踪模型的身份特征提取部分网络从训练样本提取的身份特征信息进行约束，所以可以有效的保证训练得到的跟踪模型所得到的身份特征信息的精度，因此可以有效地兼顾处理速度以及精度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种跟踪模型的训练方法的流程图；

图2为本申请实施例提供的一种检测信任位置信息的方法的流程图；

图3为本申请实施例提供的一种整合位置信息的方法的流程图；

图4为本申请实施例提供的一种训练跟踪模型的网络架构示意图；

图5为本申请另一实施例提供的一种多目标行人跟踪方法的流程图；

图6为本申请另一实施例提供的一种多目标行人跟踪装置的结构示意图；

图7为本申请另一实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本申请提供了一种多目标行人跟踪方法，以解决现有技术在多目标行人跟踪时无法同时兼顾处理速度和精度的问题。

需要说明的是，本申请采用基于知识蒸馏思路预先训练好的跟踪模型进行多目标行人跟踪，有效地保证了跟踪进度，而跟踪模型本申请为多任务学习网络，所以具有处理速度较快的优点，从而同时兼顾到了处理速度和精度。

可选地，本申请实施例提供了一种用于实现本申请提供的多目标行人更足方法的跟踪模型的训练方法。如图1所示，本申请实施例提供的跟踪模型的训练方法，包括以下步骤：

S101、获取多帧视频帧作为训练样本。

S102、将训练样本输入跟踪模型的主干网络中，通过主干网络对训练样本进行全局特征提取，得到训练样本的全局特征图。

需要说明的是，本申请实施例中使用跟踪模型主要分为三大部分：主干网络、检测部分网络以及身份信息提取部分网络。

其中，主干网络主要用于提取全局特征。输入跟踪模型的视频帧，先经过主干网络，由主干网络对视频帧进行全局特征提取，获得大小为原视频帧的四分之一的特征图，代表输入的视频帧的全局特征。

可选地，可以采用DLA34模型作为主干网络。当然，也可根据实际速度和精度的需求更换其他主干网络以达到更好效果。

S103、通过跟踪模型的检测部分网络检测得到训练样本的全局特征图中的各个行人的位置信息，以及通过跟踪模型的身份特征提取部分网络提取训练样本的全局特征图中的各个位置的特征信息。

经过主干网络获取的全局特征图，将分别由检测部分网络与身份特征提取部分网络进行处理。其中，检测部分网络用于检测全局特征图中的行人的位置信息，而身份特征提取部分用于提取行人的特征信息。

可选地，本申请另一实施例中，检测部分网络包括热力图分支、尺寸预测分支和偏移矫正分支。相应的，在本申请实施例中，步骤S103中的通过跟踪模型的检测部分网络检测得到训练样本的全局特征图中的各个行人的位置信息，如图2所示，包括以下步骤：

S201、通过热力图分支预测训练样本的全局特征图中的各个行人的中心位置参数。

具体的，热力图分支预测所有行人在全局特征图上的位置，并以热力图的形式进行表示。

S202、通过尺寸预测分支预测训练样本的全局特征图中的各个行人的绝对尺寸参数。

其中，绝对尺寸参数包括行人的绝对高度和绝对宽度。

尺寸预测分支对于全局特征图上的所有位置，预测两个独立的实数值，分别代表目标的高度和宽度。

S203、通过偏移矫正分支预测训练样本的全局特征图中的各个行人的位置偏移参数。

其中，位置偏移包括相对实际位置的横向偏移差和纵向偏移差。

偏移矫正分支对于全局特征图上的所有位置，预测两个独立的偏移量，代表目标相对于实际位置在横向和纵向的偏移差，用以补偿量化引起的误差。

需要说明的是，检测部分网络的三个分支分别对全局特征图进行处理，所以本申请实施例中步骤S201、步骤S202以及步骤S203的执行顺序仅是其中一种可选地的方式，也可以采用其他的执行顺序。

S204、将中心位置参数、绝对尺寸参数以及位置偏移参数整合，得到训练样本的全局特征图中的各个行人的位置信息。

需要说明的是，可以是在检测部分网络额外设置执行步骤S204的部分，也可以是由三个分支中的其中一个执行。

可选地，如图3所示，步骤S204的其中一种具体实施方式，包括以下步骤：

S301、将中心位置参数与对应的所述位置偏移参数进行叠加，得到每个行人的矫正位置参数。

S302、基于每个行人的矫正位置参数以及每个行人的绝对尺寸参数，确定每个行人的相对尺寸参数。

也就是说，相对尺寸参数为相对与矫正位置参数指示的位置的尺寸参数。

S303、针对每个行人，将行人的矫正位置参数和行人的相对尺寸参数组合，得到每个行人的位置信息。

所以本申请实施例中，训练的跟踪模型的整个网络架构，如图4所示。假设“A”、“B”为视频帧中的行人，在经过主干网络进行处理得到全局特征图后，分别由检测部分网络的三个分支对得到全局特征图进行处理，以及由身份特征提取部分网络。

S104、通过跟踪模型的身份特征提取部分网络将各个行人的位置信息与训练样本的全局特征图中的各个位置的特征信息结合，确定出各个行人的身份特征信息。

需要说明的是，身份特征提取部分网络只包含一个身份特征预测分支。在全局特征图上，身份特征预测分支对所有位置预测一个固定长度的特征向量。所以需要将身份特征预测分支的结果和检测部分网络得到的结果相结合，才能确定出提取到的特征中哪些属于行人的身份特征，即可以得到不同位置的行人的身份特征信息。

S105、根据确定出的行人的身份特征信息，确定跟踪模型的损失函数是否收敛。

其中，跟踪模型的损失函数用于表征跟踪模型的身份特征提取部分网络得到的各个行人的身份特征与训练好的行人重识别网络提取到的训练样本中的各个行人的身份信息的误差。

需要说明的是，本申请实施例中基于知识蒸馏对跟踪模型进行训练。其中，将训练好的行人重识别网络作为教师模型，而待训练的跟踪模型为学生模型。

其中，通过训练好的行人重识别网络对训练数据进行特征提取，到训练数据中的行人的身份特征信息，将得到的行人的身份特征信息作为软标签，用以代替分类标签，对跟踪模型输出的身份特征信息进行约束。具体如图4所示，对视频帧进行裁剪，然后改变裁剪图片的大小，并输入教师模型中进行处理，得到软标签，然后通过软标签对身份特征提取部分网络获取的身份特征信息进行约束，以达到知识迁移的目的。

需要说明的是，行人重识别网络作为教师模型是预先训练好的，所以本申请实施例中所提及的训练数据指的是用于训练跟踪模型的数据，而不是用于训练行人重识别网络的数据。

还需要说明的是，若确定出跟踪模型的损失函数未收敛，则执行步骤S106。若确定出跟踪模型的损失函数已收敛，则执行步骤S107。

S106、根据跟踪模型的损失函数，调整跟踪模型的参数。

需要说明的是，在执行步骤S106之后，返回执行步骤S102。

S107、结束对跟踪模型的训练，得到训练好后的跟踪模型。

基于上述训练得到的跟踪模型，本申请另一实施例提供了一种多目标行人跟踪方法，如图5所示，包括以下步骤：

S501、获取目标视频帧。

具体的，可以从视频录像中选取任意一帧视频帧作为目标视频帧。

S502、将目标视频帧输入预先训练好的跟踪模型中，通过跟踪模型的检测部分网络检测得到目标视频帧的全局特征图中的各个目标行人的位置信息，以及通过跟踪模型的身份特征提取部分网络提取目标视频帧的全局特征图中的各个位置的特征信息，并结合各个目标行人的位置信息，确定出各个目标行人的身份特征信息。

其中，目标视频帧的全局特征图由跟踪模型的主干网络对目标视频帧进行全局特征提取得到。跟踪模型预先利用训练好的行人重识别网络提取到的软标签进行训练得到。软标签指代从训练样本中提取到的身份特征信息，用于对跟踪模型的所述身份特征提取部分网络从所述训练样本提取的身份特征信息进行约束。

需要说明的是，本申请实施例中的跟踪模型包括主干网络、检测部分网络和身份特征提取部分。

主干网络用以提取全局特征。输入的目标视频帧经过主干网络后，获得大小为原视频帧的四分之一的全局特征图，代表输入帧的全局特征。

检测部分网络包括三个分支：热力图分支，尺寸预测分支和偏移矫正分支。热力图分支预测所有目标行人在全局特征图上的位置，并以热力图的形式进行表示。尺寸预测分支对于全局特征图上的所有位置，预测两个独立的实数值，分别代表目标行人的高度和宽度。偏移矫正分支对于全局特征图上的所有位置，预测两个独立的偏移量，代表目标行人相对于实际位置在横向和纵向的偏移差，用以补偿量化引起的误差。三个分支预测结果综合形成最终的检测结果，其中位置为热力图预测的中心和偏移矫正的叠加，大小为尺寸预测分支在对应位置的值。

身份特征提取部分网络和检测部分网络类似，但只包含一个身份特征预测分支。在全局特征图上，身份特征预测分支对所有位置预测一个固定长度的特征向量，表示目标行人的身份特征。将身份特征预测分支网络的结果和检测部分得到的位置信息结合，可以得到不同位置的目标行人的身份特征向量。

S503、基于各个目标行人的位置信息以及身份特征信息，对各个目标行人进行跟踪。

具体基于目标人物的位置信息和身份特征，采用简单的优化匹配算法对前后视频帧中的目标人物的位置进行串联，从而实现多目标行人跟踪。

本申请实施例提供的一种多目标行人跟踪方法，通过获取目标视频帧，并将目标视频帧输入预先训练好的跟踪模型中，通过跟踪模型的检测部分网络检测得到目标视频帧的全局特征图中的各个目标行人的位置信息，以及通过跟踪模型的身份特征提取部分网络提取目标视频帧的全局特征图中的各个位置的特征信息，并结合各个目标行人的位置信息，确定出各个目标行人的身份特征信息，最后基于各个目标行人的位置信息以及身份特征信息，对各个目标行人进行跟踪。由于通过一个整体的网络模型得到目标行人为位置信息和身份特征信息，可以有效地保证处理的效率。并且，由于跟踪模型是预先利用训练好的行人重识别网络提取到的软标签进行训练得到，而软标签指代行人重识别网络从训练样本中提取到的身份特征信息，用于对跟踪模型的身份特征提取部分网络从训练样本提取的身份特征信息进行约束，所以可以有效的保证训练得到的跟踪模型所得到的身份特征信息的精度，因此可以有效地兼顾处理速度以及精度。

本申请另一实施例提供了一种多目标行人跟踪装置，如图6所示，包括以下单元：

第一获取单元601，用于获取目标视频帧。

输入单元602，用于将目标视频帧输入预先训练好的跟踪模型中，通过跟踪模型的检测部分网络检测得到目标视频帧的全局特征图中的各个目标行人的位置信息，以及通过跟踪模型的身份特征提取部分网络提取目标视频帧的全局特征图中的各个位置的特征信息，并结合各个目标行人的位置信息，确定出各个目标行人的身份特征信息。

其中，目标视频帧的全局特征图由跟踪模型的主干网络对目标视频帧进行全局特征提取得到。跟踪模型预先利用训练好的行人重识别网络提取到的软标签进行训练得到。软标签指代从训练样本中提取到的身份特征信息，用于对跟踪模型的身份特征提取部分网络从训练样本提取的身份特征信息进行约束。

跟踪单元603，用于基于各个目标行人的位置信息以及身份特征信息，对各个目标行人进行跟踪。

可选地，在本申请另一实施例提供的多目标行人跟踪装置中，还包括可以模型训练单元。其中，模型训练单元，包括以下单元：

第一获取单元，用于获取多帧视频帧作为训练样本。

将训练样本输入跟踪模型的主干网络中，通过主干网络对训练样本进行全局特征提取，得到训练样本的全局特征图。

第一处理单元，用于通过跟踪模型的检测部分网络检测得到训练样本的全局特征图中的各个行人的位置信息。

第二处理单元，用于通过跟踪模型的身份特征提取部分网络提取训练样本的全局特征图中的各个位置的特征信息。

第三处理单元，用于通过跟踪模型的身份特征提取部分网络将各个行人的位置信息与训练样本的全局特征图中的各个位置的特征信息结合，确定出各个行人的身份特征信息。

迭代单元，用于根据跟踪模型的损失函数，调整跟踪模型的参数，并返回执行将训练样本输入跟踪模型的主干网络中，通过主干网络对训练样本进行全局特征提取，得到训练样本的全局特征图，直至跟踪模型的损失函数收敛，得到训练好后的跟踪模型。

其中，跟踪模型的损失函数用于表征跟踪模型的身份特征提取部分网络提取到的各个行人的身份特征信息与训练好的行人重识别网络提取到的训练样本中的各个行人的身份特征信息的误差。

可选地，在本申请另一实施例提供的多目标行人跟踪装置中，第二处理单元，包括：

位置参数获取单元，用于通过热力图分支预测训练样本的全局特征图中的各个行人的中心位置参数。

尺寸参数获取单元，用于通过尺寸预测分支预测训练样本的全局特征图中的各个行人的绝对尺寸参数。

其中，绝对尺寸参数包括行人的绝对高度和绝对宽度。

偏移参数获取单元，用于通过偏移矫正分支预测训练样本的全局特征图中的各个行人的位置偏移参数。

整合单元，用于将中心位置参数、绝对尺寸参数以及位置偏移参数整合，得到训练样本的全局特征图中的各个行人的位置信息。

可选地，在本申请另一实施例提供的多目标行人跟踪装置中，整合单元，包括：

叠加单元，用于将中心位置参数与对应的位置偏移参数进行叠加，得到每个行人的矫正位置参数。

确定单元，用于基于每个行人的矫正位置参数以及每个行人的绝对尺寸参数，确定每个行人的相对尺寸参数。

组合单元，用于针对每个行人，将行人的矫正位置参数和行人的相对尺寸参数组合，得到每个行人的位置信息。

本申请另一实施例提供了一种电子设备，如图7所示，包括：

存储器701和处理器702。

其中，存储器701用于存储程序。处理器702用于执行存储器701存储的程序，并且该程序被执行时，具体用于实现如上述任意一个实施例提供的多目标行人跟踪方法。

需要说明的是，具体的实现过程可相应地参考上述的方法实施例，此处不再赘述。

本申请另一实施例提供了一种计算机存储介质，用于存储计算机程序，该计算机程序被执行时，用于实现如上述任意一个的多目标行人跟踪方法。

计算机存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种多目标行人跟踪方法，其特征在于，包括：

获取目标视频帧；

2.根据权利要求1所述的方法，其特征在于，所述跟踪模型的训练方法，包括：

获取多帧视频帧作为训练样本；

3.根据权利要求2所述的方法，其特征在于，所述检测部分网络包括热力图分支、尺寸预测分支和偏移矫正分支，所述通过所述跟踪模型的检测部分网络检测得到所述训练样本的全局特征图中的各个行人的位置信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述中心位置参数、所述绝对尺寸参数以及所述位置偏移参数整合，得到所述训练样本的全局特征图中的各个行人的位置信息，包括：

5.一种多目标行人跟踪装置，其特征在于，包括：

第一获取单元，用于获取目标视频帧；

6.根据权利要求5所述的装置，其特征在于，还包括模型训练单元，其中，所述模型训练单元，包括：

第一获取单元，用于获取多帧视频帧作为训练样本；

7.根据权利要求6所述的装置，其特征在于，所述第二处理单元，包括：

8.根据权利要求7所述的装置，其特征在于，所述整合单元，包括：

9.一种电子设备，其特征在于，包括：

存储器和处理器；

其中，所述存储器用于存储程序；

所述处理器用于执行所述程序，所述程序被执行时，具体用于实现如权利要求1至4任意一项所述的多目标行人跟踪方法。

10.一种计算机存储介质，其特征在于，用于存储计算机程序，所述计算机程序被执行时，用于实现如权利要求1至4任意一项所述的多目标行人跟踪方法。