CN109522843B

CN109522843B - 一种多目标跟踪方法及装置、设备和存储介质

Info

Publication number: CN109522843B
Application number: CN201811368687.9A
Authority: CN
Inventors: 田茂清; 杨昆霖; 伊帅
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2018-11-16
Filing date: 2018-11-16
Publication date: 2021-07-02
Anticipated expiration: 2038-11-16
Also published as: CN109522843A

Abstract

本申请实施例提供一种多目标跟踪方法及装置、设备和存储介质，其中，所述方法包括：确定待处理视频中待跟踪目标的行人检测框；根据所述行人检测框，确定所述待跟踪目标的行人姿态信息、行人再识别特征；根据所述行人姿态信息、行人再识别特征和所述行人检测框，确定所述待处理视频中相邻两帧视频对应的相似度矩阵；根据所述相似度矩阵对所述待跟踪目标进行跟踪，得到所述待跟踪目标的跟踪结果。

Description

一种多目标跟踪方法及装置、设备和存储介质

技术领域

本申请涉及目标跟踪技术，涉及但不限于一种多目标跟踪方法及装置、设备和存储介质。

背景技术

相关技术中的行人多目标跟踪，是根据跟踪对象的行人检测框进行跟踪的，并没有考虑到行人姿态信息；那么当引入行人姿态信息时，相关技术中的行人多目标跟踪方法便不能有效的进行跟踪，导致跟踪准确率不够高。

发明内容

有鉴于此，本申请实施例提供一种多目标跟踪方法及装置、设备和存储介质。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种多目标跟踪方法，所述方法包括：

确定待处理视频中待跟踪目标的行人检测框；

根据所述行人检测框，确定所述待跟踪目标的行人姿态信息、行人再识别特征；

根据所述行人姿态信息、行人再识别特征和所述行人检测框，确定所述待处理视频中相邻两帧视频的相似度矩阵；

根据所述相似度矩阵对所述待跟踪目标进行跟踪。

在本申请实施例中，所述确定待处理视频中待跟踪目标的行人检测框，包括：

将所述待处理视频的M帧视频中的每一帧视频分别输入到预设的行人检测模型中，得到P个行人对应的行人检测框；其中，所述预设的行人检测模型是通过将样本图像和所述样本图像中的行人的边界信息对卷积神经网络进行训练得到的；其中，所述边界信息为所述行人的身体边界，P为大于等于1的整数；M为大于等于1的整数；

从所述P个行人对应的行人检测框中，确定所述待跟踪目标的行人检测框。

在本申请实施例中，所述根据所述行人检测框，确定所述待跟踪目标的行人姿态信息、行人再识别特征，包括：

根据所述行人检测框确定所述待跟踪目标的关键点信息；

根据所述关键点信息确定所述行人姿态信息；

根据所述行人检测框，确定所述待跟踪目标的外观信息；

根据所述外观信息生成所述行人再识别特征。

在本申请实施例中，所述根据所述行人姿态信息、行人再识别特征和所述行人检测框，确定所述待处理视频中相邻两帧视频的相似度矩阵，包括：

根据所述行人姿态信息、行人再识别特征和所述行人检测框，确定第N帧视频中的第n个目标与第(N+1)帧视频中第m个目标的相似度；其中，N、n和m均为大于等于1的整数，且N小于等于M；

分别确定所述第N帧视频中的每个目标与所述第(N+1)帧视频中所有目标的相似度，得到所述第N帧视频和所述第(N+1)帧视频的相似度矩阵。

在本申请实施例中，所述根据所述行人姿态信息、行人再识别特征和所述行人检测框，确定第N帧视频中的第n个目标与第(N+1)帧视频中第m个目标对应的相似度，包括：

根据第n个目标的行人姿态信息和第m个目标的行人姿态信息，确定第一相似度；其中，所述第一相似度用于表征第n个目标的关键点与第m个目标的关键点之间的距离；

根据第n个目标的行人再识别特征和第m个目标的行人再识别特征，确定第二相似度；其中，所述第二相似度用于表征第n个目标的外观与第m个目标的外观的相似度；

根据第n个目标的行人检测框和第m个目标的行人检测框，确定第三相似度；其中，所述第三相似度用于表征第n个目标的行人检测框与第m个目标的行人检测框之间的交叠率；

根据所述第一相似度、第二相似度和第三相似度，确定所述第N帧视频中的第n个目标与第(N+1)帧视频中第m个目标的相似度。

在本申请实施例中，所述根据所述第一相似度、第二相似度和第三相似度，确定所述第N帧视频中的第n个目标与第(N+1)帧视频中第m个目标的相似度，包括：

分别对所述第一相似度、第二相似度和第三相似度按照预设权值进行加权，得到加权后的第一相似度、加权后的第二相似度和加权后的第三相似度；

对加权后的第一相似度、加权后的第二相似度和加权后的第三相似度求和，将求和得到的结果作为所述第N帧视频中的第n个目标与第(N+1)帧视频中第m个目标的相似度值。

在本申请实施例中，在根据第n个目标的行人检测框和第m个目标的行人检测框，确定第三相似度之前，还包括：

计算所述第N帧视频中所述第N帧视频到第(N+1)帧视频的之间的光流信息；

所述根据第n个目标的行人检测框和第m个目标的行人检测框，确定第三相似度，包括：

根据所述光流信息，分别调整所述第n个目标的行人检测框和第m个目标的行人检测框的位置，得到调整后的第n个目标的行人检测框和调整后第m个目标的行人检测框；

根据所述调整后的第n个目标的行人检测框的位置和调整后第m个目标的行人检测框，确定所述第三相似度。

在本申请实施例中，所述根据第n个目标的行人姿态信息和第m个目标的行人姿态信息，确定第一相似度，还包括：

根据所述光流信息，分别调整第n个目标的关键点的坐标位置和第m个目标的关键点的坐标位置，得到调整后的第n个目标的行人姿态信息和调整后的第m个目标的行人姿态信息；

根据所述调整后的第n个目标的行人姿态信息和调整后的第m个目标的行人姿态信息，确定所述第一相似度。

在本申请实施例中，所述根据所述调整后的第n个目标的行人姿态信息和调整后的第m个目标的行人姿态信息，确定所述第一相似度，包括：

确定所述调整后的第n个目标的j个关键点中每一关键点，与和所述每一关键点相匹配的调整后的第m个目标的j个关键点之间的距离，得到j个距离；

对所述j个距离求和，得到总距离；

按照预设比例对所述总距离进行调整，得到所述第一相似度。

在本申请实施例中，所述根据第n个目标的行人再识别特征和第m个目标的行人再识别特征，确定第二相似度，包括：

确定第一向量和第二向量之间的夹角；其中，所述第一向量为所述第n个目标的行人再识别特征对应的向量，所述第二向量为所述第m个目标的行人再识别特征对应的向量；

将所述夹角的余弦值，确定为所述第二相似度。

在本申请实施例中，所述根据所述调整后的第n个目标的行人检测框和调整后第m个目标的行人检测框，确定所述第三相似度，包括：

将所述调整后的第n个目标的行人检测框的面积确定为第一面积，并将所述调整后的第m个目标的行人检测框面积确定为第二面积；

将所述第一面积和第二面积的并，确定为第三面积；

将所述第一面积和第二面积的交，确定为第四面积；

将所述第四面积与所述第三面积的商，确定为所述第三相似度。

在本申请实施例中，所述根据所述相似度矩阵对所述待跟踪目标进行跟踪，包括：

按照预设规则对所述相似度矩阵中的相似度值进行排序，得到排序后的相似度矩阵；

根据所述排序后的相似度矩阵，确定所述待跟踪目标的跟踪标识；其中，所述跟踪标识用于区分不同的目标。

在本申请实施例中，所述根据所述排序后的相似度矩阵，确定所述待跟踪目标的跟踪标识，包括：

确定所述待跟踪目标在所述排序后的相似度矩阵中对应的相似度值，并确定所述相似度值对应的另一目标；其中，所述待跟踪目标所属的视频帧与所述另一目标所属的视频帧相邻；

如果所述相似度值大于等于预设相似度阈值，将所述另一目标对应的跟踪标识作为所述待跟踪目标的跟踪标识；

如果所述相似度值小于预设相似度阈值，停止对所述待跟踪目标的跟踪。

本申请实施例提供一种多目标跟踪装置，所述装置包括：所述装置包括：第一获取模块、第一确定模块、第二确定模块和第一跟踪模块，其中：

所述第一获取模块，用于确定待处理视频中待跟踪目标的行人检测框；

所述第一确定模块，用于根据所述行人检测框，确定所述待跟踪目标的行人姿态信息、行人再识别特征；

所述第二确定模块，用于根据所述行人姿态信息、行人再识别特征和所述行人检测框，确定所述待处理视频中相邻两帧视频的相似度矩阵；

所述第一跟踪模块，用于根据所述相似度矩阵对所述待跟踪目标进行跟踪。

在本申请实施例中，所述第一获取模块，包括：

第一输入子模块，用于将待处理视频的所述M帧视频中的每一帧视频分别输入到预设的行人检测模型中，得到P个行人对应的行人检测框；其中，所述预设的行人检测模型是通过将样本图像和所述样本图像中的行人的边界信息对卷积神经网络进行训练得到的；其中，所述边界信息为所述行人的身体边界，P为大于等于1的整数；M为大于等于1的整数；

第一确定子模块，用于从所述P个行人对应的行人检测框中，确定所述待跟踪目标的行人检测框。

在本申请实施例中，所述第一确定模块，包括：

第二确定子模块，用于根据所述行人检测框确定所述待跟踪目标的关键点信息；

第三确定子模块，用于根据所述关键点信息确定所述行人姿态信息；

第四确定子模块，用于根据所述行人检测框，确定所述待跟踪目标的外观信息；

第一生成子模块，用于根据所述外观信息生成所述行人再识别特征。

在本申请实施例中，所述第二确定模块，包括：

第五确定子模块，用于根据所述行人姿态信息、行人再识别特征和所述行人检测框，确定第N帧视频中的第n个目标与第(N+1)帧视频中第m个目标的相似度；其中，N、n和m均为大于等于1的整数，且N小于等于M；

第十一确定子模块，用于分别确定所述第N帧视频中的每个目标与所述第(N+1)帧视频中所有目标的相似度，得到所述第N帧视频和所述第(N+1)帧视频的相似度矩阵。

在本申请实施例中，所述第五确定子模块，包括：

第一确定单元，用于根据第n个目标的行人姿态信息和第m个目标的行人姿态信息，确定第一相似度；其中，所述第一相似度用于表征第n个目标的关键点与第m个目标的关键点之间的距离；

第二确定单元，用于根据第n个目标的行人再识别特征和第m个目标的行人再识别特征，确定第二相似度；其中，所述第二相似度用于表征第n个目标的外观与第m个目标的外观的相似度；

第三确定单元，用于根据第n个目标的行人检测框和第m个目标的行人检测框，确定第三相似度；其中，所述第三相似度用于表征第n个目标的行人检测框与第m个目标的行人检测框之间的交叠率；

第四确定单元，用于根据所述第一相似度、第二相似度和第三相似度，确定所述第N帧视频中的第n个目标与第(N+1)帧视频中第m个目标的相似度。

在本申请实施例中，所述第四确定单元，包括：

第一加权子单元，用于分别对所述第一相似度、第二相似度和第三相似度按照预设权值进行加权，得到加权后的第一相似度、加权后的第二相似度和加权后的第三相似度；

第一求和子单元，用于对加权后的第一相似度、加权后的第二相似度和加权后的第三相似度求和，将求和得到的结果作为所述第N帧视频中的第n个目标与第(N+1)帧视频中第m个目标的相似度值。

在本申请实施例中，所述装置还包括：

第三确定模块，用于计算所述第N帧视频中所述从第N帧视频与第(N+1)帧视频之间的光流信息；

第一调整模块，用于根据所述光流信息，分别调整所述第n个目标的行人检测框和第m个目标的行人检测框的位置，得到调整后的第n个目标的行人检测框和调整后第m个目标的行人检测框；

第四确定模块，用于根据所述调整后的第n个目标的行人检测框的位置和调整后第m个目标的行人检测框，确定所述第三相似度。

在本申请实施例中，所述装置还包括：

第二调整模块，用于根据所述光流信息，分别调整第n个目标的关键点的坐标位置和第m个目标的关键点的坐标位置，得到调整后的第n个目标的行人姿态信息和调整后的第m个目标的行人姿态信息；

第五确定模块，用于根据所述调整后的第n个目标的行人姿态信息和调整后的第m个目标的行人姿态信息，确定所述第一相似度。

在本申请实施例中，所述第五确定模块，包括：

第六确定子模块，用于确定所述调整后的第n个目标的j个关键点中每一关键点，与和所述每一关键点相匹配的调整后的第m个目标的j个关键点之间的距离，得到j个距离；

第一求和子模块，用于对所述j个距离求和，得到总距离；

第一调整子模块，用于按照预设比例对所述总距离进行调整，得到所述第一相似度。

在本申请实施例中，所述第二确定单元，包括：

第二确定子单元，用于确定第一向量和第二向量之间的夹角；其中，所述第一向量为所述第n个目标的行人再识别特征对应的向量，所述第二向量为所述第m个目标的行人再识别特征对应的向量；

第三确定子单元，用于将所述夹角的余弦值，确定为所述第二相似度。

在本申请实施例中，所述第四确定模块，包括：

第五确定子单元，用于将调整后的所述第n个目标的行人检测框的面积确定为第一面积，并将所述调整后的第m个目标的行人检测框面积确定为第二面积；

第七确定子模块，用于将所述第一面积和第二面积的并，确定为第三面积；

第八确定子模块，用于将所述第一面积和第二面积的交，确定为第四面积；

第九确定子模块，用于将所述第四面积与所述第三面积的商，确定为所述第三相似度。

在本申请实施例中，所述第一跟踪模块，包括：

第一排序子模块，用于按照预设规则对所述相似度矩阵中的相似度值进行排序，得到排序后的相似度矩阵；

第六确定模块，用于根据所述排序后的相似度矩阵，确定所述待跟踪目标的跟踪标识；其中，所述跟踪标识用于区分不同的目标。

在本申请实施例中，所述第六确定模块，包括：

第十确定子模块，用于确定所述待跟踪目标在所述排序后的相似度矩阵中对应的相似度值，并确定所述相似度值对应的另一目标；其中，所述待跟踪目标所属的视频帧与所述另一目标所属的视频帧相邻；

第一匹配子模块，用于如果所述相似度值大于等于预设相似度阈值，将所述另一目标对应的跟踪标识作为所述待跟踪目标的跟踪标识；

第一跟踪子模块，用于如果所述相似度值小于预设相似度阈值，停止对所述待跟踪目标的跟踪。

本实施例提供一种计算机存储介质，所述计算机存储介质上存储有计算机可执行指令，该计算机可执行指令被执行后，能够实现本申请实施例提供的多目标跟踪方法中的步骤。

本实施例提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时可实现本申请实施例提供的多目标跟踪方法中的步骤。

本申请实施例提供一种多目标跟踪方法及装置、设备和存储介质，其中，首先，确定待处理视频中待跟踪目标的行人检测框；然后根据所述行人检测框，确定所述待跟踪目标的行人姿态信息、行人再识别特征；根据所述行人姿态信息、行人再识别特征和所述行人检测框，确定所述待处理视频中相邻两帧视频对应的相似度矩阵；最后，根据所述相似度矩阵对所述待跟踪目标进行跟踪，得到所述待跟踪目标的跟踪结果；如此，充分考虑到了行人姿态信息，结合行人姿态信息、行人再识别特征等生成相似度矩阵，根据该相似度矩阵对行人进行跟踪，从而显著提高跟踪的准确率。

附图说明

图1A为本申请实施例网络架构的组成结构示意图

图1B为本申请实施例多目标跟踪方法的实现流程示意图；

图2A为本申请实施例多目标跟踪方法的又一实现流程示意图；

图2B为本申请实施例通过光流信息确定第一相似度的实现流程示意图；

图2C为本申请实施例多目标跟踪方法的应用场景示意图；

图3为本申请实施例图像识别装置的组成结构示意图；

图4为本申请实施例计算机设备的组成结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对发明的具体技术方案做进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

本实施例先提供一种网络架构，图1A为本申请实施例网络架构的组成结构示意图，如图1A所示，该网络架构包括两个或多个计算机设备11至1N和服务器31，其中计算机设备11至1N与服务器31之间通过网络21进行交互。计算机设备在实现的过程中可以为各种类型的具有信息处理能力的计算设备，例如所述计算机设备可以包括手机、平板电脑、台式机、个人数字助理、导航仪、数字电话、电视机等。

本申请实施例提供一种多目标跟踪方法，图1B为本申请实施例多目标跟踪方法的实现流程示意图，如图1B所示，所述方法包括以下步骤：

步骤S101，确定待处理视频中待跟踪目标的行人检测框。

这里，在获取待跟踪目标的行人检测框之前，已经从待处理视频中识别出需要跟踪的行人目标；然后，在已经识别出行人目标的基础上，对待跟踪目标进行行人再识别，以确定该待跟踪目标的行人再识别特征。所述步骤S101可以理解为，首先将待处理视频分解为M帧视频，然后，将每一帧视频输入到预设行人检测模型中，然后即输出多个行人的行人检测框；最后，从这多个行人的行人检测框中确定出待跟踪目标的行人检测框；其中，预设的行人检测模型是通过将样本图像和所述样本图像中每一行人的边界信息对卷积神经网络进行训练得到的，边界信息为所述每一行人的身体边界。

步骤S102，根据所述行人检测框，确定所述待跟踪目标的行人姿态信息、行人再识别特征。

这里，行人姿态信息可以为待跟踪目标的关键点信息，比如，行人待跟踪目标有15个关键点，那么该15个关键点即为行人姿态信息；所述行人再识别特征是根据跟踪目标的外观信息而生成的，不同的跟踪目标对应的行人再识别特征不同；其中，所述外观信息至少包括所述待跟踪目标的外貌、衣着、身高等。在本实施例中，通过将行人检测框输入到预设的行人姿态估计模型，即可得到所述待跟踪目标的行人姿态信息；其中，所述预设的行人姿态估计模型是通过根据样本视频和所述样本视频中包含的行人的姿态信息，对卷积神经网络进行训练得到的。通过将行人检测框输入到预设的再识别模型，即可得到行人再识别特征；其中，所述预设的再识别模型是通过根据样本行人检测框和所述样本行人检测框对应的行人信息，对卷积神经网络进行训练得到的。

步骤S103，根据所述行人姿态信息、行人再识别特征和所述行人检测框，确定所述待处理视频中相邻两帧视频的相似度矩阵。

这里，首先，通过对两个相邻帧视频中的两个目标的行人姿态对应关键点的距离求和，并对求和的结果进行归一化，将最终的归一化结果作为第一相似度(即目标关键点相似度(Object Keypoints Similarity，OKS相似度))；比如，第i帧视频F_i中的第i个行人和第(i+1)帧视频F_i+1第j个行人，然后确定第i个行人对应的15个关键点和与这15关键点相匹配的第j个行人对应的15个关键点之间的距离(比如，第i个行人额头上的关键点与第j个行人额头上的关键点之间的距离，即第i个行人和第j个行人相同部位对应的关键点之间的距离)，得到15个距离，再对这15个距离求和，最后将求和的结果除以第i个行人和第j个行人所对应的图片的面积，得到最终的归一化结果，即第一相似度。

其次，确定第i个行人的行人再识别特征对应的特征向量和第j个行人的行人再识别特征对应的特征向量之间的夹角，然后取该夹角的余弦值，即为第二相似度(即再识别相似度(RE-identification，REID相似度))；

再次，将第i个行人的行人检测框的面积和第j个行人的行人检测框的面积的交除以第i个行人的行人检测框的面积和第j个行人的行人检测框的面积的并，即为第三相似度(即检测评价函数(Intersection over Union，IOU相似度))。

最后，对该第一相似度、第二相似度和第三相似度进行加权并求和，确定相邻两帧视频对应的相似度矩阵中的相似度值。

步骤S104，根据所述相似度矩阵对所述待跟踪目标进行跟踪。

这里，因为相似度矩阵中每一相似度值均对应相邻两帧视频中的两个行人，因此将相似度达到阈值的两个行人赋予相同的标识，比如，相似度值S_ij对应F_i中第i个行人和F_i+1中第j个行人，假设将第i个行人作为待跟踪目标，如果相似度值S_ij大于等于预设相似度阈值，那么将第j个行人的跟踪标识作为第i个行人的跟踪标识；如果相似度值S_ij小于预设相似度阈值，停止跟踪。在另一些实施例中，比如输入一段视频并且实时对视频中每一帧的目标进行跟踪，则在多目标跟踪过程中，会以该视频上一帧的中行人的跟踪标识去标记该视频下一帧中与该行人较为相似的行人，以实现对多目标的跟踪。而且在本实施中，当对待处理视频中的目标跟踪停止时，确定不具有跟踪标识的目标；为所述不具有跟踪标识的目标赋予新的跟踪标识，所述新的跟踪标识与具有跟踪标识的目标对应的跟踪标识不同；即当在相似度矩阵中停止循环操作时，对于还没有被赋予跟踪标识的目标，即视为不具有跟踪标识的(即未识别的行人)，然后为这些未识别的行人赋予新的跟踪标识，以有助于下一次的跟踪。

在本申请实施例中，通过结合行人姿态信息、行人再识别特征等生成相似度矩阵，这样综合考虑多个方面的因素生成相似度矩阵，然后基于该相似度矩阵对行人目标进行跟踪，从而提高跟踪的准确率。

在其他实施例中，所述步骤S103，即根据所述行人姿态信息、行人再识别特征和所述行人检测框，确定所述待处理视频中相邻两帧视频的相似度矩阵，包括：

根据所述行人姿态信息、行人再识别特征和所述行人检测框，确定第N帧视频中的第n个目标与第(N+1)帧视频中第m个目标对应的相似度矩阵；其中，N、n和m均为大于等于1的整数，且N小于等于M。

这里，表明相似度矩阵中的相似度值是用来表明相邻两帧视频中的两个行人目标的相似度(比如，第N帧视频中的第n个目标与第(N+1)帧视频中第m个目标的相似度)。

本申请实施例提供一种多目标跟踪方法，图2A为本申请实施例多目标跟踪方法的又一实现流程示意图，如图2A所示，所述方法包括以下步骤：

步骤S201，确定待处理视频中待跟踪目标的行人检测框。

这里，如图2C所示，确定进行棒球比赛的待跟踪的4个运动员的行人检测框，即运动员01的行人检测框001、运动员02的行人检测框002、运动员03的行人检测框003和运动员04的行人检测框004。

步骤S202，根据所述行人检测框确定所述待跟踪目标的关键点信息，即行人姿态信息。

这里，如图2C所示，在运动员01的头部、肩部、腰部、膝盖处和脚踝处，共确定13个关键点(即点a至点m)；同样在运动员02、运动员03和运动员04的头部、肩部、腰部、膝盖处和脚踝处也确定多个关键点。

步骤S203，根据所述行人检测框，确定所述待跟踪目标的外观信息。

这里，外观信息可以是至少包括所述待跟踪目标的外貌、衣着、身高等。

步骤S204，根据所述外观信息生成所述行人再识别特征。

这里，比如，根据外观信息生成一个256维的特征向量。

步骤S205，根据第n个目标的行人姿态信息和第m个目标的行人姿态信息，确定第一相似度。

这里，第一相似度用于表明第n个目标的关键点与第m个目标的关键点之间的距离；所述步骤S205可以通过以下过程实现：如图2B所示，所述步骤S205可以通过以下步骤实现：

步骤S251，计算所述第N帧视频中所述第N帧视频与第(N+1)帧视频之间的光流信息。

这里，将所述第N帧视频中的任一像素点从第N帧视频到第(N+1)帧视频的速度，确定为第N帧视频与第(N+1)帧视频之间的光流信息。

步骤S252，根据所述光流信息，分别调整第n个目标的关键点的坐标位置和第m个目标的关键点的坐标位置，得到调整后的第n个目标的行人姿态信息和调整后的第m个目标的行人姿态信息。

步骤S253，确定所述调整后的第n个目标的j个关键点中每一关键点，与和所述每一关键点相匹配的调整后的第m个目标的j个关键点之间的距离，得到j个距离。

这里，所述步骤S253可以理解为，确定第n个目标的部位与第m个目标的部位相同的关键点之间的距离。

步骤S254，对所述j个距离求和，得到总距离。

步骤S255，按照预设比例对所述总距离进行调整，得到所述第一相似度。

这里，所述步骤S255可以理解为，将得到的总距离除以第n个目标的行人检测框和第m个目标的行人检测框。

步骤S251至步骤S255可以理解为，首先，得到第N帧视频与第(N+1)帧视频之间的光流信息；然后，根据光流信息，分别调整第n个目标的关键点的坐标位置和第m个目标的关键点的坐标位置，得到调整后的第n个目标的行人姿态信息和调整后的第m个目标的行人姿态信息；最后，确定所述调整后的第n个目标的j个关键点中每一关键点，与和该每一关键点相匹配的调整后的第m个目标的关键点之间的距离，得到j个距离，并对j个距离求和，得到总距离；按照预设比例对所述总距离进行调整，得到所述第一相似度。比如，调整后的第n个目标包括20个关键点，确定这20个关键点和调整后的第m个目标的相同部位的20个关键点之间的距离(比如，第m个目标的额头上的关键点与第n个目标的额头上的关键点之间的距离)，对这20个距离求和，然后将求和结果除以第m个目标和第n个目标对应的图片的面积，即得到第一相似度。

步骤S206，根据第n个目标的行人再识别特征和第m个目标的行人再识别特征，确定第二相似度。

这里，第二相似度用于表明第n个目标的外观与第m个目标的外观的相似度。所述步骤S206可以通过以下过程实现：首先，确定第n个目标的行人再识别特征对应的向量和第m个目标的行人再识别特征对应的向量之间的夹角；将该夹角的余弦值，确定为第二相似度。

步骤S207，根据第n个目标的行人检测框和第m个目标的行人检测框，确定第三相似度。

这里，第三相似度用于表明第n个目标的行人检测框与第m个目标的行人检测框之间的交叠率。所述步骤S207可以通过以下过程实现：首先，根据所述光流信息，分别调整所述第n个目标的行人检测框和第m个目标的行人检测框的位置，得到调整后的第n个目标的行人检测框的位置和调整后第m个目标的行人检测框；然后，将调整后的第n个目标的行人检测框的面积确定为第一面积，并将调整后的第m个目标的行人检测框面积确定为第二面积；将所述第一面积和第二面积的并，确定为第三面积；所述第一面积和第二面积的交，确定为第四面积；最后，将第四面积除以第三面积，将得到的商确定为第三相似度。

步骤S208，分别对所述第一相似度、第二相似度和第三相似度按照预设权值进行加权，得到加权后的第一相似度、加权后的第二相似度和加权后的第三相似度。

步骤S209，对加权后的第一相似度、加权后的第二相似度和加权后的第三相似度求和，将求和得到的结果作为所述第N帧视频中的第n个目标与第(N+1)帧视频中第m个目标的相似度值。

这里，相似度矩阵中的每一相似度值均表示相邻帧视频中的两个目标的相似度。

步骤S210，按照预设规则对所述相似度矩阵中的相似度值进行排序，得到排序后的相似度矩阵。

这里，将相似度矩阵按照相似度从大到小进行排序。

步骤S211，确定所述待跟踪目标在所述排序后的相似度矩阵中对应的相似度值，并确定所述相似度值对应的另一目标。

这里，所述待跟踪目标所属的视频帧与所述另一目标所属的视频帧相邻,因为每一相似度值对应相邻帧视频中的两个目标，按照贪心算法对相邻帧中的目标进行配对，比如，依次取出排序的相似度值，假设当前取出的相似度为S，如果S大于等于预设的相似度阈值，对应F_i中第i个行人与F_i+1中第j个行人，若第j个行人还没有被赋予跟踪标识，则令第j个行人的跟踪标识等于第i个行人的跟踪标识；若第j个行人已经被赋予了跟踪标识，则跳过；若S低于预设的相似度阈值，则停止跟踪。

步骤S212，依次类推，对待处理视频中的每一行人赋予跟踪标识，从而对每一行人进行跟踪。

在本实施例中，首先，根据相邻帧视频中两个目标的关键点之间的距离确定OKS相似度，再根据两个目标的检测框面积的交除以两个检测框面积的并，确定IOU相似度；再根据两个行人检测框对应行人再识别特征的余弦值，确定REID相似度，然后对这三部分加权求和得到相似度矩阵，再采用贪心算法对不同帧视频中的行人进行匹配，对每一行人赋予跟踪标识，从而完成对每一行人进行跟踪，由此，显著提高了跟踪的准确率。

本申请实施例提供一种多目标跟踪方法，行人姿态估计和多目标跟踪是计算机视觉中的两个重要且具有挑战性的问题。行人姿态估计旨在预测人体关键点在单个图像中的位置。行人姿态估计是一项基本任务，它可以帮助完成许多其他计算机视觉任务。另一方面，多对象追踪旨在同时在视频中跟踪多个目标对象。被跟踪的目标对象通常是边界框，并且在姿态跟踪挑战中，目标对象是行人姿态。与传统的基于边界框的多目标跟踪任务不同，基于姿态的多目标跟踪可以从行人姿态中获取更多信息。

为了解决多目标行人姿态跟踪任务，本实施例提出了三个步骤，包括行人检测，行人姿态估计和多目标跟踪。首先对前两个步骤进行了跟踪和修改相关技术中的行人检测和行人姿态估计方法，其次提出了用于多目标跟踪的混合相似度函数来解决最后一步。

本申请实施例在传统多目标跟踪方法的基础框架上，提出了一种混合相似度函数用于衡量两个目标之间的相似程度，该混合相似度函数包含基于检测框的IOU相似度，基于行人姿态的OKS相似度和基于行人再识别的REID相似度三部分，在公开数据集姿态跟踪(Pose Track)上取得了优异的结果。

本申请实施例的输入为一段视频，输出是多目标姿态跟踪结果，可以通过以下四个步骤实现：

第一步，将视频分解成帧，每帧用行人检测模型处理，生成行人目标。

这里，输入行人检测模型的为视频；输出行人检测模型的为行人检测框；首先将视频分解成帧，对每一帧用行人检测模型处理，生成若干行人检测框。多目标跟踪可以理解为，取一段视频V，视频中第i帧为F_i，F_i的每一个行人是一个目标，第i帧中的第j个行人可以记作P_ij，多目标跟踪要解决的问题就是给每一个行人目标一个标记跟踪标识。在本实施例中将行人关键点作为行人姿态信息，一个行人姿态信息可以用若干关键点的坐标表示(比如，假设有15个关键点，则一个行人姿态就是15*2个数字)。

第二步，利用行人姿态估计模型预测每个行人目标的行人姿态，利用行人再识别模型对每个行人目标提取特征，利用光流估计模型计算相邻帧视频之间的光流。

这里，输入行人姿态估计模型预测的是行人检测框，输出行人姿态估计模型预测的是行人姿态、行人再识别特征和相邻帧视频之间的光流信息；实现过程为：利用行人姿态估计模型对行人检测框进行处理，生成对应的行人姿态；利用行人再识别模型对行人检测框进行处理，生成对应的行人再识别特征；利用光流估计模型进行处理相邻两帧，生成两帧之间的光流。

第三步，计算相邻帧视频之间任意两两新人目标的混合相似度(利用第二步中的各种特征)。

这里，输入是行人检测框，行人姿态，行人再识别特征，相邻帧视频之间的光流；输出是相邻帧中两组目标的相似度矩阵；实现过程为：假设相邻帧为F_i和F_i+1，Fi中有n个行人，F_i+1中有m个行人，最终生成一个大小为n*m相似度矩阵，第i行第j列的元素代表F_i中第i个行人与F_i+1中第j个行人的相似度，记作S_ij。S_ij的计算包括三个部分，分别是IOU相似度，OKS相似度和REID相似度，S_ij由这三部分加权求和得到。IOU相似度等于两个检测框面积的交处理两个检测框面积的并。OKS相似度等于两个行人姿态对应关键点距离和归一化后的结果。REID相似度等于两个行人检测框对应行人再识别特征的余弦值。其中，在计算IOU相似度和OKS相似度时，F_i中检测框的位置和姿态的坐标都需要使用光流进行修正。

第四步，根据混合相似度矩阵，进行跟踪标识的传递，得到多目标跟踪结果。

这里，输入是相邻帧中两组目标的相似度矩阵；输出是相邻帧中两组目标的跟踪结果；实现过程为：将相似度矩阵按照相似度从大到小进行排序，按照贪心算法的方式对相邻帧中的目标进行配对。依次取出排序的相似度值，假设当前取出的相似度为s，对应Fi中第i个行人与Fi+1中第j个行人，若j还没有被赋予跟踪标识，则令j的跟踪标识等于i的跟踪标识；若j已经被赋予了跟踪标识，则跳过；若s低于一个事先设定的阈值，则停止循环。当循环结束时，还没有被赋予跟踪标识的目标即视为匹配失败，赋予一个新的跟踪标识。

在本申请实施例中，首先，逐帧估计行人检测，并将许多行人检测边界框输出到下一步骤。其次，在每个边界框上估计行人姿态。最后，根据混合目标相似性来跟踪来自相邻帧的边界框，该混合相似度函数包含基于检测框的IOU相似度，基于行人姿态的OKS相似度和基于行人再识别的REID相似度三部分。

行人检测方法大致可分为一阶段方法和两阶段方法。一阶段方法通常具有更高的速度但更低的准确性。相比之下，两阶段方法通常具有更高的准确度但速度更低。考虑到最后两个步骤都严重依赖于行人检测框，本实施例选择经典的两阶段方法作为本实施例的行人探测器。

在本申请实施例中，首先，使用多输入比例。众所周知，不同的输入尺度在不同尺寸的目标上具有不同的表现。例如，较小的输入尺寸在大物体上具有更好的性能，较大的输入尺寸在小物体上具有更好的性能。其次，本实施例使用三种不同的输入比例训练相同的模型结构，再合并得到的模型结构。第二个是做模型合奏。本实施例训练了几个具有不同骨干模型结构的模型，例如残差神经网络和多密度神经网络。为了获得更好的性能和更快的收敛，所有骨干模型都在可视化数据库(ImageNet)基准测试中进行了预先训练。最后，本实施在训练模型结构的过程中还添加了外部训练数据。

行人姿态估计方法可大致分为自上而下方法和自下而上方法。自下而上的方法首先提取所有关键点，然后将它们分组到不同的对象。自上而下的方法首先为每个对象提取检测框，然后在单个框上进行姿态估计。本实施例选择自上而下的方法作为本实施例的行人姿态估计基线。

本实施例将多目标跟踪解决为检测框相似性匹配问题。一般的想法是根据相似性匹配相邻帧视频之间的检测框。上一帧的匹配框将跟踪标识传递给最后一帧上的匹配框。未匹配的框将被分配一个新的跟踪标识。

本实施例在视频中逐帧进行跟踪程序。本实施例使用简单的贪心匹配算法来匹配相邻帧视频之间的检测框。处理一帧时，计算当前帧上每个检测框与前一帧上每个检测之间的相似性。然后将相似性从大到小排序并迭代相似性。在迭代过程中，如果当前帧上的一个检测框尚未分配跟踪标识，则将从前一帧的检测框中为其分配跟踪标识。当相似度低于阈值时，将停止迭代过程，并且将为当前帧上剩余的未匹配的边界框分配新的跟踪标识。

如何计算相似度是本实施例算法的核心技术。本实施例提出联合对象相似性来计算两个检测框之间的相似性。联合对象相似度包括基于光流的IOU相似度，基于光流的OKS相似度和行人再识别相似度。基于光流的OKS相似度，本实施例提出了基于光流的IOU相似度。本实施例使用光流信息生成传播的检测框，然后计算当前帧中传播框和检测框之间的正常IOU相似度。考虑到仅使用IOU和OKS相似度将缺乏语义信息，本实施例使用行人再识别特征来计算语义相似性。将两个行人检测框对应行人再识别特征的余弦(cosine)值作为行人重识别相似性。使用简单加权求和方法来合并三个相似之处。实验结果表明，本实施例提出的联合对象相似度函数的性能优于三个单一相似度函数。

本实施例提出的自上而下的在线多目标跟踪系统结合了最先进的人体检测，人体姿态估计，人物识别和跟踪方法。此外，本实施例提出了混合相似度函数，据本实施例所知，混合相似度函数首先在多目标跟踪中使用人物重新识别特征，并且混合相似度函数在Pose-Track测试装置上能够达到显著的效果。

本申请实施例提供一种多目标跟踪装置，图3为本申请实施例多目标跟踪装置的组成结构示意图，如图3所示，所述装置300包括：第一获取模块301、第一确定模块302、第二确定模块303和第一跟踪模块304，其中：

所述第一获取模块301，用于确定待处理视频中待跟踪目标的行人检测框；

所述第一确定模块302，用于根据所述行人检测框，确定所述待跟踪目标的行人姿态信息、行人再识别特征；

所述第二确定模块303，用于根据所述行人姿态信息、行人再识别特征和所述行人检测框，确定所述待处理视频中相邻两帧视频对应的相似度矩阵；

所述第一跟踪模块304，用于根据所述相似度矩阵对所述待跟踪目标进行跟踪，得到所述待跟踪目标的跟踪结果。

在本申请实施例中，所述第一获取模块301，包括：

在本申请实施例中，所述第一确定模块301，包括：

在本申请实施例中，所述第二确定模块302，包括：

在本申请实施例中，所述第五确定子模块，包括：

在本申请实施例中，所述第四确定单元，包括：

在本申请实施例中，所述装置还包括：

在本申请实施例中，所述第五确定模块，包括：

第一求和子模块，用于对所述j个距离求和，得到总距离；

在本申请实施例中，所述第二确定单元，包括：

在本申请实施例中，所述第四确定模块，包括：

在本申请实施例中，所述第一跟踪模块304，包括：

在本申请实施例中，所述第六确定模块，包括：

需要说明的是，以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述的多目标跟踪方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台即时通讯设备(可以是终端、服务器等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

相应地，本申请实施例再提供一种计算机程序产品，所述计算机程序产品包括计算机可执行指令，该计算机可执行指令被执行后，能够实现本申请实施例提供的多目标跟踪方法中的步骤。

相应地，本申请实施例再提供一种计算机存储介质，所述计算机存储介质上存储有计算机可执行指令，所述该计算机可执行指令被处理器执行时实现上述实施例提供的多目标跟踪方法的步骤。

相应地，本申请实施例提供一种计算机设备，图4为本申请实施例计算机设备的组成结构示意图，如图4所示，所述设备400包括：一个处理器401、至少一个通信总线402、用户接口403、至少一个外部通信接口404和存储器405。其中，通信总线402配置为实现这些组件之间的连接通信。其中，用户接口403可以包括显示屏，外部通信接口404可以包括标准的有线接口和无线接口。其中所述处理器401，配置为执行存储器中存储的病理图像识别程序，以实现上述实施例提供的多目标跟踪方法的步骤。

以上即时计算机设备和存储介质实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请即时通讯设备和存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种多目标跟踪方法，其特征在于，所述方法包括：

确定待处理视频中待跟踪目标的行人检测框；

确定相邻帧视频之间的光流；

根据所述行人姿态信息、行人再识别特征、所述行人检测框和所述相邻帧视频之间的光流，确定所述待处理视频中相邻两帧视频的相似度矩阵；

根据所述排序后的相似度矩阵，确定所述待跟踪目标的跟踪标识；其中，所述跟踪标识用于区分不同的目标；

2.根据权利要求1中所述的方法，其特征在于，所述确定待处理视频中待跟踪目标的行人检测框，包括：

3.根据权利要求1中所述的方法，其特征在于，所述根据所述行人检测框，确定所述待跟踪目标的行人姿态信息、行人再识别特征，包括：

根据所述行人检测框确定所述待跟踪目标的关键点信息；

根据所述关键点信息确定所述行人姿态信息；

根据所述行人检测框，确定所述待跟踪目标的外观信息；

根据所述外观信息生成所述行人再识别特征。

4.根据权利要求1中所述的方法，其特征在于，所述根据所述行人姿态信息、行人再识别特征、所述行人检测框和所述相邻帧视频之间的光流，确定所述待处理视频中相邻两帧视频的相似度矩阵，包括：

5.根据权利要求4中所述的方法，其特征在于，所述根据所述行人姿态信息、行人再识别特征和所述行人检测框，确定第N帧视频中的第n个目标与第(N+1)帧视频中第m个目标的相似度，包括：

6.根据权利要求5中所述的方法，其特征在于，所述根据所述第一相似度、第二相似度和第三相似度，确定所述第N帧视频中的第n个目标与第(N+1)帧视频中第m个目标的相似度，包括：

7.根据权利要求5中所述的方法，其特征在于，在所述根据第n个目标的行人检测框和第m个目标的行人检测框，确定第三相似度之前，还包括：

计算所述第N帧视频中所述第N帧视频与第(N+1)帧视频之间的光流信息；

根据所述光流信息，分别调整所述第n个目标的行人检测框和第m个目标的行人检测框的位置，得到调整后的第n个目标的行人检测框的位置和调整后第m个目标的行人检测框；

根据所述调整后的第n个目标的行人检测框和调整后第m个目标的行人检测框，确定所述第三相似度。

8.根据权利要求7中所述的方法，其特征在于，根据第n个目标的行人姿态信息和第m个目标的行人姿态信息，确定第一相似度，还包括：

9.根据权利要求8中所述的方法，其特征在于，所述根据所述调整后的第n个目标的行人姿态信息和调整后的第m个目标的行人姿态信息，确定所述第一相似度，包括：

对所述j个距离求和，得到总距离；

10.根据权利要求5中所述的方法，其特征在于，所述根据第n个目标的行人再识别特征和第m个目标的行人再识别特征，确定第二相似度，包括：

将所述夹角的余弦值，确定为所述第二相似度。

11.根据权利要求7中所述的方法，其特征在于，所述根据所述调整后的第n个目标的行人检测框和调整后第m个目标的行人检测框，确定所述第三相似度，包括：

将所述第一面积和第二面积的并，确定为第三面积；

将所述第一面积和第二面积的交，确定为第四面积；

12.一种多目标跟踪装置，其特征在于，所述装置包括：第一获取模块、第一确定模块、第二确定模块、第三确定模块和第一跟踪模块，其中：

所述第一获取模块，用于根据光流信息，确定待处理视频中待跟踪目标的行人检测框；

所述第二确定模块，用于确定相邻帧视频之间的光流；

所述第三确定模块，用于根据所述行人姿态信息、行人再识别特征、所述行人检测框和所述光流信息，确定所述待处理视频中相邻两帧视频的相似度矩阵；

所述第一跟踪模块，用于按照预设规则对所述相似度矩阵中的相似度值进行排序，得到排序后的相似度矩阵；根据所述排序后的相似度矩阵，确定所述待跟踪目标的跟踪标识；其中，所述跟踪标识用于区分不同的目标；确定所述待跟踪目标在所述排序后的相似度矩阵中对应的相似度值，并确定所述相似度值对应的另一目标；其中，所述待跟踪目标所属的视频帧与所述另一目标所属的视频帧相邻；如果所述相似度值大于等于预设相似度阈值，将所述另一目标对应的跟踪标识作为所述待跟踪目标的跟踪标识；如果所述相似度值小于预设相似度阈值，停止对所述待跟踪目标的跟踪。

13.根据权利要求12所述的装置，其特征在于，所述第一获取模块，包括：

第一输入子模块，用于将所述待处理视频的M帧视频中的每一帧视频分别输入到预设的行人检测模型中，得到P个行人对应的行人检测框；其中，所述预设的行人检测模型是通过将样本图像和所述样本图像中的行人的边界信息对卷积神经网络进行训练得到的；其中，所述边界信息为所述行人的身体边界，P为大于等于1的整数；M为大于等于1的整数；

14.根据权利要求12中所述的装置，其特征在于，所述第一确定模块，包括：

15.根据权利要求12中所述的装置，其特征在于，所述第二确定模块，包括：

16.根据权利要求15中所述的装置，其特征在于，所述第五确定子模块，包括：

17.根据权利要求16中所述的装置，其特征在于，所述第四确定单元，包括：

第一求和子单元，用于对加权后的第一相似度、加权后的第二相似度和加权后的第三相似度求和，将求和得到的结果作为所述第N帧视频中的第n个目标与第(N+1)帧视频中第m个目标的的相似度值。

18.根据权利要求16中所述的装置，其特征在于，所述装置还包括：

第四确定模块，用于计算所述第N帧视频中所述第N帧视频与第(N+1)帧视频之间的光流信息；

第五确定模块，用于根据所述调整后的第n个目标的行人检测框的位置和调整后第m个目标的行人检测框，确定所述第三相似度。

19.根据权利要求18中所述的装置，其特征在于，所述装置还包括：

第六确定模块，用于根据所述调整后的第n个目标的行人姿态信息和调整后的第m个目标的行人姿态信息，确定所述第一相似度。

20.根据权利要求19中所述的装置，其特征在于，所述第五确定模块，包括：

第一求和子模块，用于对所述j个距离求和，得到总距离；

21.根据权利要求16中所述的装置，其特征在于，所述第二确定单元，包括：

22.根据权利要求16中所述的装置，其特征在于，所述第四确定模块，包括：

23.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机可执行指令，该计算机可执行指令被执行后，能够实现权利要求1至11任一项所述的方法步骤。

24.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时可实现权利要求1至11任一项所述的方法步骤。