CN112150514A

CN112150514A - 视频的行人轨迹追踪方法、装置、设备及存储介质

Info

Publication number: CN112150514A
Application number: CN202011050427.4A
Authority: CN
Inventors: 赵佳男
Original assignee: Shanghai Eye Control Technology Co Ltd
Current assignee: Shanghai Eye Control Technology Co Ltd
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2020-12-29

Abstract

本发明实施例提供一种视频的行人轨迹追踪方法、装置、设备及存储介质，通过对于待处理视频的每一视频帧进行行人检测，获取每一视频帧中包含的候选行人；对各视频帧之间进行候选行人的相似度匹配，确定出各视频帧之间能够匹配的候选行人，作为相同行人，并获取相同行人的行人标识以及相同行人在各视频帧中的位置信息；输出相同行人的行人标识以及相同行人在各视频帧中的位置信息，作为轨迹信息。本发明实施例可实现对行人检测以及相似度匹配，实现自动对视频进行多目标行人追踪，得到相同行人在视频中的轨迹信息，可用于Re‑ID模型的训练，无需人工对视频中相同行人进行标注，极大的节省了标注成本，为Re‑ID模型的无监督训练提供支持。

Description

视频的行人轨迹追踪方法、装置、设备及存储介质

技术领域

本发明实施例涉及图像处理技术领域，尤其涉及一种视频的行人轨迹追踪方法、装置、设备及存储介质。

背景技术

多目标追踪(Multiple Object Tracking，MOT)技术在当代计算机视觉领域中受到越来越多的关注，因为它在智能安防等领域的研究和应用具有重要的意义。而多目标行人追踪(person tracking)技术更是MOT领域研究的重点。该技术的目标是在监控设备(例如，摄像头)上同时追踪多个指定的行人目标。在现实场景中，由于受到人体姿态、摄像头拍摄角度变化和照明条件等因素以及遮挡的影响，如何准确地检测并追踪到目标行人成为了十分具有挑战性的问题。而随着深度学习相关算法在计算机视觉(Computer Vision,CV)领域的成功应用，很多先进的方法不断被提出，来提升多目标行人追踪的准确性。

行人追踪问题通常被分解为行人检测和目标关联，目前研究的重点在于目标关联。目标关联过程是将不同视频帧(图片)上关联起同一个目标，使得同一个被追踪目标在一个视频序列上得到一条完整的轨迹。重识别(Re-Identification，Re-ID)技术是目前最为常见的时间空间关联技术，基于视频的行人重识别和车辆重识别也广泛应用于视频安防领域。

而在行人重识别任务中，需要预先训练Re-ID模型，而对Re-ID模型的训练需要大量训练数据，现有技术中需要人为的对视频中的行人进行类别标签进行标注，标注过程耗费了大量的时间成本和人力成本，这就使得重识别技术在多目标行人追踪任务上的应用受到了极大限制。

发明内容

本发明实施例提供一种视频的行人轨迹追踪方法、装置、设备及存储介质，以实现自动对视频进行多目标行人追踪，得到相同行人在视频中的轨迹信息，可用于Re-ID模型的训练，节省标注成本。

本发明实施例的第一方面是提供一种视频的行人轨迹追踪方法，包括：

对于待处理视频的每一视频帧进行行人检测，获取每一视频帧中包含的候选行人；

对各视频帧之间进行候选行人的相似度匹配，确定出各视频帧之间能够匹配的候选行人，作为相同行人，并获取相同行人的行人标识以及相同行人在各视频帧中的位置信息；

输出相同行人的行人标识以及相同行人在各视频帧中的位置信息，作为轨迹信息。

在一种可能的实施方式中，所述输出相同行人的行人标识以及相同行人在各视频帧中的位置信息后，还包括：

根据所述相同行人的行人标识以及相同行人在各视频帧中的位置信息，对各视频帧进行图像截取，获取与所述行人标识对应的行人图像集合；

根据所述行人图像集合，对重识别Re-ID模型进行训练。

在一种可能的实施方式中，所述对各视频帧之间进行候选行人的相似度匹配，确定出各视频帧之间能够匹配的候选行人，包括：

采用预设的匹配模型对任意两视频帧之间的各候选行人的图像进行相似度匹配，确定出两视频帧之间能够匹配的候选行人，并获取匹配的置信度；

当置信度高于预设阈值时，将所述能够匹配的候选行人作为相同行人。

在一种可能的实施方式中，所述预设的匹配模型为贪婪匹配模型和/或匈牙利匹配模型。

在一种可能的实施方式中，所述对于待处理视频的每一视频帧进行行人检测，包括：

将所述待处理视频输入预设的行人检测器中，通过所述行人检测器依次对每一视频帧进行行人检测，并标注检测框。

在一种可能的实施方式中，所述方法还包括：

对于当前视频帧，根据当前视频帧之前已标注的检测框，对当前视频帧中所述行人检测器标注的检测框进行卡尔曼滤波，校正当前视频帧中所述行人检测器标注的检测框的位置。

在一种可能的实施方式中，所述对各视频帧之间进行候选行人的相似度匹配，包括：

按照视频帧的次序，依次对相邻视频帧之间各检测框内候选行人的图像进行相似度匹配，以在后一视频帧中追踪到前一视频帧中的候选行人；

若当前视频帧中不存在与前一视频帧中任一目标候选行人相匹配的候选行人时，则判断当前视频帧之后的预定数量的视频帧内是否存在与所述目标候选行人相匹配的候选行人；

若存在，则在所述当前视频帧之后的视频帧中继续对所述目标候选行人进行追踪；或者

若不存在，则在所述当前视频帧之后的视频帧中结束对所述目标候选行人的追踪。

本发明实施例的第二方面是提供一种视频的行人轨迹追踪装置，包括：

检测模块，用于对于待处理视频的每一视频帧进行行人检测，获取每一视频帧中包含的候选行人；

匹配模块，用于对各视频帧之间进行候选行人的相似度匹配，确定出各视频帧之间能够匹配的候选行人，作为相同行人，并获取相同行人的行人标识以及相同行人在各视频帧中的位置信息；

输出模块，用于输出相同行人的行人标识以及相同行人在各视频帧中的位置信息，作为轨迹信息。

在一种可能的实施方式中，所述装置还包括训练模块，用于：

根据所述行人图像集合，对重识别Re-ID模型进行训练。

在一种可能的实施方式中，所述匹配模块在对各视频帧之间进行候选行人的相似度匹配，确定出各视频帧之间能够匹配的候选行人时，用于：

在一种可能的实施方式中，所述检测模块在对于待处理视频的每一视频帧进行行人检测时，用于：

在一种可能的实施方式中，所述检测模块还用于：

在一种可能的实施方式中，所述匹配模块在对各视频帧之间进行候选行人的相似度匹配时，用于：

本发明实施例的第三方面是提供一种视频的行人轨迹追踪设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现如第一方面所述的方法。

本发明实施例的第四方面是提供一种计算机可读存储介质，其上存储有计算机程序；

所述计算机程序被处理器执行时实现如第一方面所述的方法。

本发明实施例提供的视频的行人轨迹追踪方法、装置、设备及存储介质，通过对于待处理视频的每一视频帧进行行人检测，获取每一视频帧中包含的候选行人；对各视频帧之间进行候选行人的相似度匹配，确定出各视频帧之间能够匹配的候选行人，作为相同行人，并获取相同行人的行人标识以及相同行人在各视频帧中的位置信息；输出相同行人的行人标识以及相同行人在各视频帧中的位置信息，作为轨迹信息。本发明实施例可实现对行人检测以及相似度匹配，实现自动对视频进行多目标行人追踪，得到相同行人在视频中的轨迹信息，可用于Re-ID模型的训练，无需人工对视频中相同行人进行标注，极大的节省了标注成本，为Re-ID模型的无监督训练提供支持。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的视频的行人轨迹追踪方法的通信系统示意图；

图2为本发明一实施例提供的视频的行人轨迹追踪方法流程图；

图3为本发明另一实施例提供的视频的行人轨迹追踪方法流程图；

图4为本发明另一实施例提供的视频的行人轨迹追踪方法流程图；

图5为本发明一实施例提供的视频的行人轨迹追踪装置的结构图；

图6为本发明一实施例提供的视频的行人轨迹追踪设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明实施例保护的范围。

现有技术中，在行人重识别任务中需要预先训练Re-ID模型，而对Re-ID模型的训练需要大量训练数据，现有技术中需要人为的对视频中的行人进行类别标签进行标注，标注过程耗费了大量的时间成本和人力成本。

为了解决上述技术问题，本发明实施例考虑通过计算机视觉技术来实现对视频中相同行人进行标注，实现自动对视频进行多目标行人追踪，得到相同行人在视频中的轨迹信息，从而无需人工对视频中相同行人进行标注，极大的节省了标注成本，为Re-ID模型的无监督训练提供支持。具体的，在通过计算机视觉技术来实现对视频中相同行人进行标注时，可通过对于每一视频帧进行行人检测，再基于检测出来的行人对各视频帧之间进行行人的相似度匹配，确定各视频帧中相同行人，进行轨迹追踪。

本发明实施例提供的视频的行人轨迹追踪方法，可以适用于图1所示的通信系统。如图1所示，该通信系统包括数据库10、第一服务端11、第二服务端12，其中数据库10中可存储待处理视频；第一服务端11可从数据库10中获取待处理视频，并通过对于待处理视频的每一视频帧进行行人检测，获取每一视频帧中包含的候选行人，对各视频帧之间进行候选行人的相似度匹配，确定出各视频帧之间能够匹配的候选行人，作为相同行人，并获取相同行人的行人标识以及相同行人在各视频帧中的位置信息，输出相同行人的行人标识以及相同行人在各视频帧中的位置信息，作为轨迹信息；而第二服务端12可从第一服务端11获取行人的轨迹信息，并根据相同行人的行人标识以及相同行人在各视频帧中的位置信息，对各视频帧进行图像截取，获取与行人标识对应的行人图像集合，根据行人图像集合，对重识别Re-ID模型进行训练。需要说明的是，其中第一服务端和第二服务端可以为同一服务器，也可以为不同的服务器。

下面结合具体的实施例对视频的行人轨迹追踪过程进行详细的描述。

图2为本发明实施例提供的视频的行人轨迹追踪方法流程图。如图2所示，本实施例提供了视频的行人轨迹追踪方法，该视频的行人轨迹追踪方法具体步骤如下：

S201、对于待处理视频的每一视频帧进行行人检测，获取每一视频帧中包含的候选行人。

在本实施例中，行人检测是利用计算机视觉技术判断视频帧中是否存在行人，并给出在视频帧中的定位。本实施例中行人检测可采用但不限于基于全局的特征的方法、基于人体部位的方法、或者基于立体视觉的方法，具体的行人检测过程此处不再赘述。

可选的，本实施例中可将待处理视频输入预设的行人检测器中，其中行人检测器可以采用任意的行为检测方法，通过行人检测器依次对每一视频帧进行行人检测，并标注检测框，从而可将每一视频帧中检测到的候选行人用检测框框出。

S202、对各视频帧之间进行候选行人的相似度匹配，确定出各视频帧之间能够匹配的候选行人，作为相同行人，并获取相同行人的行人标识以及相同行人在各视频帧中的位置信息。

在本实施例中，为了实现在待处理视频中对相同行人的追踪，因此需要从各视频帧中识别出相同行人，本实施例中对各视频帧之间进行候选行人的相似度匹配，确定出各视频帧之间能够匹配的候选行人作为相同行人，并对相同行人赋予行人标识ID，同时确定出该行人ID在各视频帧中的位置信息。

举例来讲，假设第一视频帧经过行人检测后检测出3个行人，记为候选行人A、候选行人B、候选行人C，而第二视频帧经过行人检测后也检测出3个行人，记为候选行人a、候选行人b、候选行人c，经过第一视频帧和第二视频帧中候选行人的相似度匹配后，确定候选行人A能够与候选行人a匹配，因此视为同一个行人，将该行人赋予ID：001，其在第一视频帧中的位置为地址X1，在第二视频帧中的位置为地址X2；而候选行人B能够与候选行人c匹配，也视为同一个行人，将该行人赋予ID：002，其在第一视频帧中的位置为地址Y1，在第二视频帧中的位置为地址Y2；候选行人C能够与候选行人b匹配，也视为同一个行人，将该行人赋予ID：003，其在第一视频帧中的位置为地址Z1，在第二视频帧中的位置为地址Z2。

在本实施例中，可选的，对各视频帧之间进行候选行人的相似度匹配，具体可采用预设的匹配模型对任意两视频帧之间的各候选行人的图像进行相似度匹配，具体例如可对图像提取关键特征、再依据关键特征进行匹配，匹配过程此处不做限定，其中预设的匹配模型可以为贪婪匹配模型和/或匈牙利匹配模型，当然也可以为其他的匹配模型，此处不再一一列举。

可选的，本实施例中预设的匹配模型在对任意两视频帧之间进行各候选行人的图像相似度匹配时，对于第一视频帧中某一候选行人A，依次与第二视频帧中的各候选行人进行图像相似度匹配，选择第二视频帧中匹配度最高的一个候选行人，作为能够匹配的候选行人；然后再对第一视频帧中下一候选行人执行同样的图像相似度匹配，直至完成所有匹配。若第二视频帧中与第一视频帧中某一候选行人A相似度最高的候选行人存在多个时，可依次获取若该些相似度最高的候选行人每一候选行人与候选行人A匹配时的全局损失值，取全局损失值最小的作为与候选行人A最匹配的候选行人。

进一步的，在通过匹配模型确定出任意两视频帧之间能够匹配的候选行人时，还可给出匹配的置信度，例如匹配模型确定第一视频帧中的候选行人A与第二视频帧中的候选行人a相似度最高或者匹配结果最好，可以给出候选行人A与候选行人a匹配的置信度，该置信度可以为相似度或者其他的参数，当置信度高于预设阈值时才确定为同一行人，否则可认为是不同行人。

需要说明的是，每个行人ID在该待处理视频中的各视频帧可唯一标识该行人，也即不同视频帧中同一个行人其ID是相同的，而不同行人ID可以根据一定的规则生成，例如依次生成例如001、002、003等，也可随机生成，或者采用其他规则生成，此处不做限定。

本实施例中的行人在各视频帧中的位置信息，可以先在视频帧图像中构建坐标系，例如以视频帧图像的某一顶点作为原点，顶点处的两条边为坐标轴。其中各视频帧中的坐标系可保持一致。

S203、输出相同行人的行人标识以及相同行人在各视频帧中的位置信息，作为轨迹信息。

在本实施例中，在获取到相同行人的行人标识以及相同行人在各视频帧中的位置信息，即可作为对视频中行人轨迹追踪的追踪结果，也即得到了行人在视频中的轨迹信息。可选的，在获取了匹配的置信度的情况下，还可输出相同行人在每一帧中的置信度。

进一步的，由于重识别模型Re-ID(Re-identification)是利用计算机视觉技术判断图像或视频中是否存在的特定行人的技术，实现跨设备检索行人图像，而Re-ID模型的训练则需要大量视频中行人图像，因此本实施例的上述轨迹信息可作为对Re-ID模型训练的基础。具体的，如图3所示，可采用如下方式进行训练数据的获取和对模型的训练：

S301、根据所述相同行人的行人标识以及相同行人在各视频帧中的位置信息，对各视频帧进行图像截取，获取与所述行人标识对应的行人图像集合；

S302、根据所述行人图像集合，对重识别Re-ID模型进行训练。

在本实施例中，可根据轨迹信息中的相同行人的行人标识以及相同行人在各视频帧中的位置信息，从各视频帧中将相同行人的图像截取出来，从而可得到相同行人的行人图像集合，进而可作为Re-ID模型的训练数据，对Re-ID模型进行训练，从而可实现对Re-ID模型的无监督训练。

本实施例提供的视频的行人轨迹追踪方法，通过对于待处理视频的每一视频帧进行行人检测，获取每一视频帧中包含的候选行人；对各视频帧之间进行候选行人的相似度匹配，确定出各视频帧之间能够匹配的候选行人，作为相同行人，并获取相同行人的行人标识以及相同行人在各视频帧中的位置信息；输出相同行人的行人标识以及相同行人在各视频帧中的位置信息，作为轨迹信息。本实施例可实现对行人检测以及相似度匹配，实现自动对视频进行多目标行人追踪，得到相同行人在视频中的轨迹信息，可用于Re-ID模型的训练，无需人工对视频中相同行人进行标注，极大的节省了标注成本，为Re-ID模型的无监督训练提供支持。

在上述任一实施例的基础上，S201所述对于待处理视频的每一视频帧进行行人检测，具体可包括：

在本实施例中，可由预设的行人检测器对待处理视频按照视频帧的先后次序逐帧的进行行人检测，并标注检测框，将每一视频帧中检测出来的候选行人框出。本实施例中的待处理视频可以有多个，每个待处理视频可独立的通过一个行人检测器。

进一步的，可选的，所述方法还可包括：

在本实施例中，可通过卡尔曼(Kalman)滤波对检测框位置进行滤波。具体的，对于当前视频帧，可以通过行人检测器得到候选行人位置，从而确定出检测框的位置，而通过当前视频帧之前的视频帧中已标注的检测框，结合恒定速度假设，可预测当前视频帧中检测框的位置，进而根据预测的检测框对行人检测器标注的检测框的位置进行校正，从而可提高检测框位置标注的准确性。

在上述实施例的基础上，由于行人监测器可以按照视频帧的先后次序逐帧的进行行人检测，对各视频帧之间进行候选行人的相似度匹配也可按照视频帧的先后次序逐帧的进行，具体可如图4所示，所述方法包括：

S401、按照视频帧的次序，依次对相邻视频帧之间各检测框内候选行人的图像进行相似度匹配，以在后一视频帧中追踪到前一视频帧中的候选行人。

在本实施例中，按照视频帧的次序依次对相邻视频帧之间各检测框内候选行人的图像进行相似度匹配，举例来说，行人检测器依次检测出第一视频帧和第二视频帧中的候选行人，并标注检测框后，即可依据第一视频帧中的候选行人进行追踪，也即以第一视频帧中的候选行人为基础，将第二视频帧中各检测框中候选行人的图像与第一视频帧中各检测框中候选行人的图像进行相似度匹配，从而可在第二视频帧中追踪到第一视频帧中的候选行人。以此类推，在下一视频帧中可继续依据前面的视频帧进行候选行人相似度匹配，从而可得到候选行人在视频中的连续轨迹，实现时空关联。

进一步的，在S401逐帧追踪的过程中，不可避免的会存在遮挡的情况，也即在某些视频帧中某一候选行人消失、无法匹配到，而后续该消失的候选行人又出现在后面的视频帧中，为了避免对该候选行人追踪过程的中断，在本实施例中，可选的，可通过如下过程进行处理：

S402、若当前视频帧中不存在与前一视频帧中任一目标候选行人相匹配的候选行人时，则判断当前视频帧之后的预定数量的视频帧内是否存在与所述目标候选行人相匹配的候选行人；

S403、若存在，则在所述当前视频帧之后的视频帧中继续对所述目标候选行人进行追踪；或者

S404、若不存在，则在所述当前视频帧之后的视频帧中结束对所述目标候选行人的追踪。

在本实施例中，在逐帧追踪的过程中，若当前视频帧中不存在与前一视频帧中某一目标候选行人相匹配的候选行人，也即目标候选行人在前一视频帧中存在，而在当前视频帧中不存在，此时可不中断对该目标候选行人的追踪，在当前视频帧之后的预定数量的视频帧中继续追踪该目标候选行人。

举例来讲，预定数量可设置为5，假设第一视频帧中存在某一目标候选行人，而在对第二视频帧与第一视频帧进行候选行人相似度匹配时发现第二视频帧不存在该目标候选行人，可在第三视频帧与第二视频帧进行候选行人相似度匹配时，判断第三视频帧中是否存在能够与第一视频帧中目标候选行人图像相匹配的候选行人，若存在，则不中断对该目标候选行人的追踪，也即认为该匹配的候选行人与第一视频帧中的该目标候选行人为同一行人，再后续的视频帧中继续追踪该目标候选行人；若不存在，则可考察下一视频帧，直至当考察到第七视频帧时，若第七视频帧中仍不存在与第一视频帧中目标候选行人图像相匹配的候选行人，为了避免系统资源浪费，可结束对该目标候选行人的追踪。

需要说明的是，上述实施例中在预定数量的视频帧内不存在与所述目标候选行人相匹配的候选行人即结束对所述目标候选行人的追踪，会产生一定的噪声，例如，假设该目标候选行人被遮挡的时间比较长，在超过预定数量的视频帧之后又出现了，可能会被认为是另外一个行人。因此，考虑到该种情况，本实施例中可对结束对所述目标候选行人的追踪的情况，向处理人员发送通知信息，或者对目标行人添加特定的标签，以便于处理人员进行人工处理，识别是否存在漏检测或遮挡，从而减少或避免噪声。

在上述实施例的基础上，对于S302所述的根据所述行人图像集合，对重识别Re-ID模型进行训练时，由于是无监督训练，Re-ID模型的训练面临的主要问题在于如何以轨迹的形式利用数据的规律。在这里需要做两个简单的假设：1)视频之间是相互独立的(两个视频之间没有共同的轨迹)；2)一个视频中的轨迹是相互独立的。

如果这两个假设都满足，那么每条轨迹信息都可以看作是一个独立的类，可以选择常用的深度学习基网络(例如ResNet)，基于训练数据(行人图像集合)预测给定图像的标签，用交叉熵损失优化(类的数量等于轨迹的数量)。而第二条假设在漏检测和遮挡等情况下可能会不满足，会导致同一个人在视频中出现多条轨迹。

可选的，在另一种方式中可以选择同一个视频中的相同目标行人的行人图像集合作为正样本(放宽第二条假设，相同目标行人在同一个视频可能存在多条轨迹)，选择来自同一视频或者不同视频的不同目标行人的行人图像集合作为负样本，这样的配对可以使用孪生网络(siamesenetwork)预测它们是否是同一个行人。可以用对比损失(contrastiveloss)和三元组损失(tripletloss)进行监督和训练更复杂的训练，从而得到抗噪声性能和鲁棒性更好的Re-ID网络。

在本实施例中，利用了目标检测得到的轨迹信息作为训练数据，对Re-ID网络进行训练，因此训练得到的网络相对于传统的基于有标签的Re-ID数据集训练得到的网络具有如下两点优势：1)不需要对训练数据进行标注，节省了大量的人力成本；2)训练数据为视频序列，更加贴近多目标人物追踪的任务场景，因而具备更好的关联性能。

图5为本发明实施例提供的视频的行人轨迹追踪装置的结构图。本实施例提供的视频的行人轨迹追踪装置可以执行视频的行人轨迹追踪方法实施例提供的处理流程，如图5所示，所述视频的行人轨迹追踪装置50包括检测模块51、匹配模块52、及输出模块53。

检测模块51，用于对于待处理视频的每一视频帧进行行人检测，获取每一视频帧中包含的候选行人；

匹配模块52，用于对各视频帧之间进行候选行人的相似度匹配，确定出各视频帧之间能够匹配的候选行人，作为相同行人，并获取相同行人的行人标识以及相同行人在各视频帧中的位置信息；

输出模块53，用于输出相同行人的行人标识以及相同行人在各视频帧中的位置信息，作为轨迹信息。

根据所述行人图像集合，对重识别Re-ID模型进行训练。

在一种可能的实施方式中，所述匹配模块52在对各视频帧之间进行候选行人的相似度匹配，确定出各视频帧之间能够匹配的候选行人时，用于：

在一种可能的实施方式中，所述检测模块51在对于待处理视频的每一视频帧进行行人检测时，用于：

在一种可能的实施方式中，所述检测模块51还用于：

在一种可能的实施方式中，所述匹配模块52在对各视频帧之间进行候选行人的相似度匹配时，用于：

本发明实施例提供的视频的行人轨迹追踪装置可以具体用于执行上述图2-4所提供的方法实施例，具体功能此处不再赘述。

本发明实施例提供的视频的行人轨迹追踪装置，通过对于待处理视频的每一视频帧进行行人检测，获取每一视频帧中包含的候选行人；对各视频帧之间进行候选行人的相似度匹配，确定出各视频帧之间能够匹配的候选行人，作为相同行人，并获取相同行人的行人标识以及相同行人在各视频帧中的位置信息；输出相同行人的行人标识以及相同行人在各视频帧中的位置信息，作为轨迹信息。本实施例可实现对行人检测以及相似度匹配，实现自动对视频进行多目标行人追踪，得到相同行人在视频中的轨迹信息，可用于Re-ID模型的训练，无需人工对视频中相同行人进行标注，极大的节省了标注成本，为Re-ID模型的无监督训练提供支持。

图6为本发明实施例提供的视频的行人轨迹追踪设备的结构示意图。本发明实施例提供的视频的行人轨迹追踪设备可以执行视频的行人轨迹追踪方法实施例提供的处理流程，如图6所示，视频的行人轨迹追踪设备60包括存储器61、处理器62、计算机程序和通讯接口63；其中，计算机程序存储在存储器61中，并被配置为由处理器62执行以上实施例所述的视频的行人轨迹追踪方法。

图6所示实施例的可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

另外，本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现上述实施例所述的视频的行人轨迹追踪方法。

在本发明实施例所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明实施例各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明实施例各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

最后应说明的是：以上各实施例仅用以说明本发明实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的范围。

Claims

1.一种视频的行人轨迹追踪方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述输出相同行人的行人标识以及相同行人在各视频帧中的位置信息后，还包括：

根据所述行人图像集合，对重识别Re-ID模型进行训练。

3.根据权利要求1所述的方法，其特征在于，所述对各视频帧之间进行候选行人的相似度匹配，确定出各视频帧之间能够匹配的候选行人，包括：

4.根据权利要求3所述的方法，其特征在于，所述预设的匹配模型为贪婪匹配模型和/或匈牙利匹配模型。

5.根据权利要求3或4所述的方法，其特征在于，所述对于待处理视频的每一视频帧进行行人检测，包括：

6.根据权利要求5所述的方法，其特征在于，还包括：

7.根据权利要求5所述的方法，其特征在于，所述对各视频帧之间进行候选行人的相似度匹配，包括：

8.一种视频的行人轨迹追踪装置，其特征在于，包括：

9.一种视频的行人轨迹追踪设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序；

所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。