CN114332169A

CN114332169A - 基于行人重识别的行人跟踪方法、装置、存储介质及设备

Info

Publication number: CN114332169A
Application number: CN202210244166.2A
Authority: CN
Inventors: 杨帆; 朱莹; 陈凯琪; 张凯翔; 胡建国
Original assignee: Nanjing Zhenshi Intelligent Technology Co Ltd
Current assignee: Xiaoshi Technology Jiangsu Co ltd
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2022-04-12
Anticipated expiration: 2042-03-14
Also published as: CN114332169B

Abstract

本申请公开了一种基于行人重识别的行人跟踪方法、装置、存储介质及设备，属于图像处理技术领域。所述方法包括：从视频流的当前视频帧中提取n个行人的检测框和第一特征向量；获取已分配的m个行人跟踪器，行人跟踪器中包含已识别出的一个行人的跟踪框、第二特征向量和行人标签；根据n个检测框和m个跟踪框计算交并比矩阵；根据n个第一特征向量和m个第二特征向量计算余弦相似度矩阵；对所述交并比矩阵和所述余弦相似度矩阵进行加权运算，得到代价矩阵；根据所述代价矩阵对所述n个行人和所述m个跟踪器进行匹配。本申请为同一个视频流中不同时刻出现的行人分配同一行人标签，避免冗余的行人标签，还可以避免交换跟踪器，可区分重叠的行人。

Description

基于行人重识别的行人跟踪方法、装置、存储介质及设备

技术领域

本申请涉及图像处理技术领域，特别涉及一种基于行人重识别的行人跟踪方法、装置、存储介质及设备。

背景技术

行人重识别是利用计算机视觉技术检索图像或者视频序列中是否存在特定行人的技术。当给定一张行人图像时，利用行人重识别技术可以确定行人在其它监控视频中是否出现过。行人重识别可与行人检测、行人跟踪等技术相结合，广泛应用于智能视频监控、智能安保等领域。

相关技术中，可以从监控摄像机获取监控视频流，从监控视频流中提取视频帧，通过人工方式、行人检测或者行人跟踪方式从视频帧中裁切出行人图像，再通过人工方式标注行人图像的行人标签等信息。

通过人工方式标注行人标签时，不仅耗时耗人工，而且易出现不同行人标签标注给相同行人的标注结果，从而产生错误的跟踪结果。

发明内容

本申请提供了一种基于行人重识别的行人跟踪方法、装置、存储介质及设备，用于解决通过人工方式标注行人标签时，不仅耗时耗人工，而且易出现不同行人标签标注给相同行人的标注结果，从而产生错误的跟踪结果的问题。所述技术方案如下：

一方面，提供了一种基于行人重识别的行人跟踪方法，所述方法包括：

从视频流的当前视频帧中提取n张行人图像，根据所述n张行人图像生成n个行人的检测框和第一特征向量，n为正整数；

获取已分配的m个行人跟踪器，每个行人跟踪器中包含已识别出的一个行人的跟踪框、第二特征向量和行人标签，m为正整数；

根据n个检测框和m个跟踪框计算交并比矩阵；

根据n个第一特征向量和m个第二特征向量计算余弦相似度矩阵；

对所述交并比矩阵和所述余弦相似度矩阵进行加权运算，得到代价矩阵；

根据所述代价矩阵将所述m个行人跟踪器中的部分或全部分配给所述n个行人；

若一个行人跟踪器被分配给p张行人图像中的行人，则确定所述p张行人图像对应于所述行人跟踪器中的同一行人标签，提取具有相同行人标签的所述p张行人图像的特征向量，将所述特征向量组成第一特征向量矩阵，p为正整数；

计算所述第一特征向量矩阵的第一转置矩阵；

将所述第一特征向量矩阵和所述第一转置矩阵相乘，得到第一特征相似度矩阵，所述第一特征相似度矩阵中的每个元素表示两张行人图像之间的特征相似度；

根据所述第一特征相似度矩阵将所述p张行人图像划分为至少一个图像集，并为每个图像集分配一个行人标签。

在一种可能的实现方式中，所述根据所述代价矩阵将所述m个行人跟踪器中的部分或全部分配给所述n个行人，包括：

基于所述代价矩阵，利用匈牙利算法对所述n个检测框和所述m个跟踪框进行匹配；

当存在与一个跟踪框相匹配的检测框时，将所述跟踪框对应的行人跟踪器分配给所述检测框对应的行人。

当存在与所有跟踪框都不匹配的检测框时，获取所述检测框对应的第一特征向量，以及，剩余未匹配的跟踪框对应的第二特征向量；

分别计算所述第一特征向量与每个第二特征向量的余弦相似度；

从所有余弦相似度中筛选最大余弦相似度；

若所述最大余弦相似度超过第一阈值，则将所述最大余弦相似度对应的行人跟踪器分配给所述检测框对应的行人；

若所述最大余弦相似度未超过第一阈值，则为所述检测框对应的行人分配新建的行人跟踪器。

在一种可能的实现方式中，所述根据所述第一特征相似度矩阵将所述p张行人图像划分为至少一个图像集，包括：

从剩余的行人图像中随机选择一张行人图像；

从所述第一特征相似度矩阵中，筛选与所述行人图像之间的特征相似度超过第二阈值的行人图像；

将随机选择的所述行人图像和筛选的所述行人图像划分为一个图像集；

继续执行所述从剩余的行人图像中随机选择一张行人图像的步骤，直至完成所述p张行人图像的划分后停止。

在一种可能的实现方式中，在所述根据所述第一特征相似度矩阵将所述p张行人图像划分为至少一个图像集之后，所述方法还包括：

当一个图像集中行人图像的数量满足冗余条件时，按照预定比例随机删除所述图像集中的部分行人图像。

从每个图像集中随机选择q张行人图像，q为正整数；

提取随机选择的所有行人图像的特征向量，将所述特征向量组成第二特征向量矩阵；

计算所述第二特征向量矩阵的第二转置矩阵；

将所述第二特征向量矩阵和所述第二转置矩阵相乘，得到第二特征相似度矩阵，所述第二特征相似度矩阵中的每个行向量表示一张行人图像与所有行人图像之间的特征相似度；

根据所述第二特征相似度矩阵对至少两个图像集的行人标签进行合并。

在一种可能的实现方式中，所述根据所述第二特征相似度矩阵对至少两个图像集的行人标签进行合并，包括：

根据所述第二特征相似度矩阵，计算每个图像集中的q张行人图像与其他图像集中的q张行人图像的特征相似度的平均相似度向量；

根据所述平均相似度向量，查找与一个图像集的平均相似度超过第三阈值的其他图像集，将所述图像集和所述其他图像集的行人标签合并为一个标签集。

一方面，提供了一种基于行人重识别的行人跟踪装置，所述装置包括：

提取模块，用于从视频流的当前视频帧中提取n张行人图像，根据所述n张行人图像生成n个行人的检测框和第一特征向量，n为正整数；

获取模块，用于获取已分配的m个行人跟踪器，每个行人跟踪器中包含已识别出的一个行人的跟踪框、第二特征向量和行人标签，m为正整数；

计算模块，用于根据n个检测框和m个跟踪框计算交并比矩阵；根据n个第一特征向量和m个第二特征向量计算余弦相似度矩阵；对所述交并比矩阵和所述余弦相似度矩阵进行加权运算，得到代价矩阵；

匹配模块，用于根据所述代价矩阵将所述m个行人跟踪器中的部分或全部分配给所述n个行人；

所述提取模块，还用于若一个行人跟踪器被分配给p张行人图像中的行人，则确定所述p张行人图像对应于所述行人跟踪器中的同一行人标签，提取具有相同行人标签的所述p张行人图像的特征向量，将所述特征向量组成第一特征向量矩阵，p为正整数；

所述计算模块，还用于计算所述第一特征向量矩阵的第一转置矩阵；将所述第一特征向量矩阵和所述第一转置矩阵相乘，得到第一特征相似度矩阵，所述第一特征相似度矩阵中的每个元素表示两张行人图像之间的特征相似度；

所述装置还包括分组模块，用于根据所述第一特征相似度矩阵将所述p张行人图像划分为至少一个图像集，并为每个图像集分配一个行人标签。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上所述的基于行人重识别的行人跟踪方法。

一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如上所述的基于行人重识别的行人跟踪方法。

本申请提供的技术方案的有益效果至少包括：

通过根据n个检测框和m个跟踪框计算交并比矩阵，根据n个第一特征向量和m个第二特征向量计算余弦相似度矩阵，对交并比矩阵和余弦相似度矩阵进行加权运算，得到代价矩阵，根据代价矩阵将m个行人跟踪器中的部分或全部分配给n个行人，从而可以根据行人特征相似度来确定行人是否曾经出现在视频流中，可实现长时间跟踪，尽量确保为同一个视频流中不同时刻出现的行人分配同一行人标签，避免冗余的行人标签。另外，当行人出现重叠时容易出现行人跟踪器交换的问题，通过将交并比矩阵和余弦相似度矩阵加权和作为代价矩阵，这样，可以在行人重叠而导致交并比差异较小时，控制余弦相似度矩阵起主要作用，从而可以避免交换行人跟踪器，一定程度上可区分重叠的行人。

通过根据第一特征相似度矩阵将p张行人图像划分为至少一个图像集，并为每个图像集分配一个行人标签，可以在匹配错误，即为不同的行人分配相同的行人标签后，进一步确认同行人标签的行人是否均为同一行人，从而提高行人跟踪的准确性。

当一个图像集中行人图像的数量满足冗余条件时，按照预定比例随机删除图像集中的部分行人图像，可以在有行人长时间站立或者行动缓慢，存在大量冗余行人图像的场景下，清理相似度较高的冗余的行人图像。

通过根据第二特征相似度矩阵对至少两个图像集的行人标签进行合并，可以在同一个行人出现在多个视频流的场景下，实现跨视频流的行人合并，也就是行人跨行人标签合并。另外，在对同行人标签的行人图像进行分组后，可能会将一个行人标签拆解成多个行人标签，需要对多个行人标签再次匹配并合并相同行人图像，以进一步提高行人跟踪的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的基于行人重识别的行人跟踪方法的方法流程图；

图2是本申请另一实施例提供的基于行人重识别的行人跟踪方法的方法流程图；

图3是本申请另一实施例提供的行人标签的拆分方法的方法流程图；

图4是本申请另一实施例提供的行人标签的合并方法的方法流程图；

图5是本申请再一实施例提供的基于行人重识别的行人跟踪装置的结构框图；

图6是本申请再一实施例提供的基于行人重识别的行人跟踪装置的结构框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

普通的行人跟踪方法可以保持短时间内的行人标签不发生改变，但是，当行人从画面中消失一段时间，再出现在画面时，就会被当作是新的行人，新增行人标签，从而导致行人跟踪出错。本实施例中，可以根据行人特征相似度来确定行人是否曾经出现在视频流中，可实现长时间跟踪，尽量确保为同一个视频流中不同时刻出现的行人分配同一行人标签，避免冗余的行人标签，便于后续数据处理。

基于行人重识别的行人跟踪方法主要包含行人检测模块、特征提取模块和跟踪模块。其中，行人检测模块采用行人检测器检测视频流中的行人图像，特征提取模块采用行人重识别模型提取行人图像的特征，跟踪模块采用卡尔曼滤波方法预测检测框。然后，获取已分配的行人跟踪器，每个行人跟踪器包含卡尔曼滤波器、跟踪框、特征向量、行人标签等信息。基于匈牙利算法匹配检测框与跟踪框，匈牙利算法基于代价矩阵进行最优匹配。跟踪普遍采用检测框与跟踪框的交并比矩阵作为代价矩阵，当行人出现重叠时，这种方式容易出现行人跟踪器交换的现象，如果行人A与行人B的行人跟踪器交换，那么后面行人A的行人标签就为B，后面行人B的行人标签就为A。为避免行人跟踪器交换的现象，将交并比矩阵和余弦相似度矩阵加权和作为代价矩阵，这样，可以在行人重叠而导致交并比差异较小时，控制余弦相似度矩阵起主要作用，从而可以避免交换行人跟踪器，一定程度上可区分重叠的行人。

请参考图1，其示出了本申请一个实施例提供的基于行人重识别的行人跟踪方法的方法流程图，该基于行人重识别的行人跟踪方法可以应用于计算机设备中。该基于行人重识别的行人跟踪方法，可以包括：

步骤101，从视频流的当前视频帧中提取n张行人图像，根据n张行人图像生成n个行人的检测框和第一特征向量，n为正整数。

本实施例中的视频流可以是监控摄像头拍摄的视频流。

计算机设备可以按照预定采样频率从视频流中采样得到视频帧，本实施例中将当前时刻采样得到的视频帧称为当前视频帧。计算机设备可以利用行人检测器对当前视频帧进行行人检测，裁剪出n张行人图像，并根据每张行人图像生成一个行人的检测框和第一特征向量X_i（i=1，…，n），其中，第一特征向量X_i的维度为d。

步骤102，获取已分配的m个行人跟踪器，每个行人跟踪器中包含已识别出的一个行人的跟踪框、第二特征向量和行人标签，m为正整数。

其中，计算机设备可以在每识别出一个新的行人时，为该行人分配一个行人跟踪器。本实施例中所说的m个行人跟踪器，是计算机设备为之前检测到的m个行人分配的行人跟踪器。

行人跟踪器除了包括跟踪框、第二特征向量和行人标签之外，还可以包括卡尔曼滤波器等其他信息，本实施例不作限定。

步骤103，根据n个检测框和m个跟踪框计算交并比矩阵。

计算机设备可以根据公式（1）计算交并比矩阵A_nm。

（1）

其中，

表示检测框与跟踪框的交集面积，

表示检测框与跟踪框的并集面积。

步骤104，根据n个第一特征向量和m个第二特征向量计算余弦相似度矩阵。

计算机设备可以根据公式（2）计算余弦相似度矩阵B_nm。

（2）

其中，d表示第一特征向量的维度，x_i表示第一特征向量X中的第i个数值，y_i表示第二特征向量Y中的第i个数值。

步骤105，对交并比矩阵和余弦相似度矩阵进行加权运算，得到代价矩阵。

计算机设备可以根据公式（3）计算代价矩阵C_nm。

（3）

其中，α为交并比矩阵的加权值，β为余弦相似度矩阵的加权值，且满足α+β=1，一般取α=0.5，β=0.5。

步骤106，根据代价矩阵将m个行人跟踪器中的部分或全部分配给n个行人。

计算机设备可以采用匈牙利算法，基于代价矩阵C_nm匹配检测框和跟踪框，当确定检测框和跟踪框相匹配时，将包含该跟踪框的行人跟踪器分配给该检测框内的行人。

综上所述，本申请实施例提供的基于行人重识别的行人跟踪方法，通过根据n个检测框和m个跟踪框计算交并比矩阵，根据n个第一特征向量和m个第二特征向量计算余弦相似度矩阵，对交并比矩阵和余弦相似度矩阵进行加权运算，得到代价矩阵，根据代价矩阵将m个行人跟踪器中的部分或全部分配给n个行人，从而可以根据行人特征相似度来确定行人是否曾经出现在视频流中，可实现长时间跟踪，尽量确保为同一个视频流中不同时刻出现的行人分配同一行人标签，避免冗余的行人标签。另外，当行人出现重叠时容易出现行人跟踪器交换的问题，通过将交并比矩阵和余弦相似度矩阵加权和作为代价矩阵，这样，可以在行人重叠而导致交并比差异较小时，控制余弦相似度矩阵起主要作用，从而可以避免交换行人跟踪器，一定程度上可区分重叠的行人。

请参考图2，其示出了本申请一个实施例提供的基于行人重识别的行人跟踪方法的方法流程图，该基于行人重识别的行人跟踪方法可以应用于计算机设备中。该基于行人重识别的行人跟踪方法，可以包括：

步骤201，从视频流的当前视频帧中提取n张行人图像，根据n张行人图像生成n个行人的检测框和第一特征向量，n为正整数。

步骤202，获取已分配的m个行人跟踪器，每个行人跟踪器中包含已识别出的一个行人的跟踪框、第二特征向量和行人标签，m为正整数。

步骤203，根据n个检测框和m个跟踪框计算交并比矩阵。

步骤204，根据n个第一特征向量和m个第二特征向量计算余弦相似度矩阵。

步骤205，对交并比矩阵和余弦相似度矩阵进行加权运算，得到代价矩阵。

其中，步骤201-205的实现流程与步骤101-105的实现流程相同，此处不再赘述。

步骤206，基于代价矩阵，利用匈牙利算法对n个检测框和m个跟踪框进行匹配。

计算机设备可以采用匈牙利算法，基于代价矩阵C_nm匹配检测框和跟踪框。对于每个检测框，计算机设备可以生成两种匹配结果，第一种匹配结果是，存在与该检测框相匹配的跟踪框，此时执行步骤207；第二种匹配结果是，不存在与该检测框相匹配的跟踪框，此时执行步骤208。

步骤207，当存在与一个跟踪框相匹配的检测框时，将跟踪框对应的行人跟踪器分配给检测框对应的行人。

步骤208，当存在与所有跟踪框都不匹配的检测框时，获取检测框对应的第一特征向量，以及，剩余未匹配的跟踪框对应的第二特征向量；分别计算第一特征向量与每个第二特征向量的余弦相似度；从所有余弦相似度中筛选最大余弦相似度；若最大余弦相似度超过第一阈值，则将最大余弦相似度对应的行人跟踪器分配给检测框对应的行人；若最大余弦相似度未超过第一阈值，则为检测框对应的行人分配新建的行人跟踪器。

由于未匹配成功的行人可能是新出现的行人也可能是出现过的行人，所以，计算机设备可以分别计算第一特征向量与每个第二特征向量的余弦相似度，从所有余弦相似度中筛选最大余弦相似度，若最大余弦相似度超过第一阈值，则表明该行人之前出现过，将最大余弦相似度对应的行人跟踪器分配给检测框对应的行人；若最大余弦相似度未超过第一阈值，则表明该行人之前未出现过，为检测框对应的行人分配新建的行人跟踪器。

在如图1和图2所示的行人跟踪过程中也有可能出现匹配错误的现象，即不同的行人具有相同的行人标签，需进一步确认同行人标签的行人是否均为同一行人。

请参考图3，其示出了一种行人标签的拆分方法，该行人标签的拆分方法包括以下步骤：

步骤301，若一个行人跟踪器被分配给p张行人图像中的行人，则确定p张行人图像对应于该行人跟踪器中的同一行人标签，提取具有相同行人标签的p张行人图像的特征向量，将特征向量组成第一特征向量矩阵，p为正整数。

计算机设备可以在采用基于行人重识别的行人跟踪方法，对视频流中的行人分配行人跟踪器中的行人标签后，获取具有相同行人标签的p张行人图像。通常，p张行人图像是当前时刻同一行人标签下的所有行人图像。

计算机设备可以根据每张行人图像生成一个行人的特征向量X_i（i=1，…，p），该特征向量X_i的维度为d，再对特征向量进行合并得到第一特征向量矩阵C_pd。

步骤302，计算第一特征向量矩阵的第一转置矩阵。

计算机设备根据第一特征向量矩阵C_pd计算第一转置矩阵C_pd ^T。

步骤303，将第一特征向量矩阵和第一转置矩阵相乘，得到第一特征相似度矩阵，第一特征相似度矩阵中的每个元素表示两张行人图像之间的特征相似度。

计算机设备根据公式（4）计算第一特征相似度矩阵。

（4）

其中，第一特征相似度矩阵中的元素s_ij表示第i张行人图像与第j张行人图像的特征相似度。

步骤304，根据第一特征相似度矩阵将p张行人图像划分为至少一个图像集，并为每个图像集分配一个行人标签。

具体的，根据第一特征相似度矩阵将p张行人图像划分为至少一个图像集，可以包括：从剩余的行人图像中随机选择一张行人图像；从第一特征相似度矩阵中，筛选与行人图像之间的特征相似度超过第二阈值的行人图像；将随机选择的行人图像和筛选的行人图像划分为一个图像集；继续执行从剩余的行人图像中随机选择一张行人图像的步骤，直至完成p张行人图像的划分后停止。

计算机设备可以在每得到一个图像集后，将该图像集中的行人作为一个新出现的行人，为该行人分配一个新的行人标签，最后一个图像集的行人标签可以是原p张行人图像对应的行人标签，也可以是分配的新的行人标签。

如果视频帧率为30FPS，即一秒有30帧图像，在行人跟踪过程中，若有行人长时间站立或者行动缓慢，会有大量冗余行人图像，此时，需要清理相似度较高的冗余的行人图像。具体的，在根据第一特征相似度矩阵将p张行人图像划分为至少一个图像集之后，该方法还包括：当一个图像集中行人图像的数量满足冗余条件时，按照预定比例随机删除图像集中的部分行人图像。

综上所述，本申请实施例提供的行人标签的拆分方法，通过根据第一特征相似度矩阵将p张行人图像划分为至少一个图像集，并为每个图像集分配一个行人标签，可以在匹配错误，即为不同的行人分配相同的行人标签后，进一步确认同行人标签的行人是否均为同一行人，从而提高行人跟踪的准确性。

基于行人重识别的行人跟踪方法是基于单个视频的行人跟踪方法，生成的行人标签是基于当前摄像头下的行人标签，同一个行人可能出现在多个摄像头下，于是需要进行跨摄像头合并行人，也就是行人跨行人标签合并。在同行人标签清理过程中，可能会将1个行人标签拆解成n个行人标签，多出的（n-1）个行人标签需在所有行人标签中再次匹配并合并相同行人图像。

请参考图4，其示出了一种行人标签的合并方法，该行人标签的合并方法包括以下步骤：

步骤401，从每个图像集中随机选择q张行人图像，q为正整数。

计算机设备可以在采用行人标签的拆分方法，将同一行人标签的行人图像拆分成多个图像集后，从每个图像集中随机选择q张行人图像。

假设存在w个图像集，则计算机设备以供可以选取t=w*q张行人图像。

步骤402，提取随机选择的所有行人图像的特征向量，将特征向量组成第二特征向量矩阵。

计算机设备可以根据每张行人图像生成一个行人的特征向量X_i（i=1，…，t），该特征向量X_i的维度为d，再对特征向量进行合并得到第二特征向量矩阵C_td。

步骤403，计算第二特征向量矩阵的第二转置矩阵。

计算机设备根据第二特征向量矩阵C_td计算第一转置矩阵C_td ^T。

步骤404，将第二特征向量矩阵和第二转置矩阵相乘，得到第二特征相似度矩阵，第二特征相似度矩阵中的每个行向量表示一张行人图像与所有行人图像之间的特征相似度。

计算机设备根据公式（5）计算第一特征相似度矩阵。

（5）

其中，第二特征相似度矩阵中的行向量s_i表示第i张行人图像与所有行人图像的特征相似度。

步骤405，根据第二特征相似度矩阵对至少两个图像集的行人标签进行合并。

具体的，根据第二特征相似度矩阵对至少两个图像集的行人标签进行合并，可以包括：根据第二特征相似度矩阵，计算每个图像集中的q张行人图像与其他图像集中的q张行人图像的特征相似度的平均相似度向量；根据平均相似度向量，查找与一个图像集的平均相似度超过第三阈值的其他图像集，将图像集和其他图像集的行人标签合并为一个标签集。

计算机设备根据公式（6）计算平均相似度向量。

（6）

其中，

表示第a组行人标签的第i张行人图像与所有行人图像的特征相似度向量。

对于每个行人标签，计算机设备可以基于平均相似度向量

，判断是否存在相似度超过第三阈值的其它行人标签，若存在，则以标签组的方式记录相似的行人标签，如行人标签1与行人标签2、3和4均相似，则合并后的标签集为（1，2）、（1，3）和（1，4）。为了确保标签合并的准确性，在得到标签集后，可以由人工核验标签集对应的是否是相同的行人。

本实施例中，可以自动进行行人跟踪、行人标签的拆分和合并，最后只需要人工核验相似的标签集，极大程度地减少了人力资源的消耗，同时也保证了行人标签的准确性。

综上所述，本申请实施例提供的行人标签的合并方法，通过根据第二特征相似度矩阵对至少两个图像集的行人标签进行合并，可以在同一个行人出现在多个视频流的场景下，实现跨视频流的行人合并，也就是行人跨行人标签合并。另外，在对同行人标签的行人图像进行分组后，可能会将一个行人标签拆解成多个行人标签，需要对多个行人标签再次匹配并合并相同行人图像，以进一步提高行人跟踪的准确性。

请参考图5，其示出了本申请一个实施例提供的基于行人重识别的行人跟踪装置的结构框图，该基于行人重识别的行人跟踪装置可以应用于计算机设备中。该基于行人重识别的行人跟踪装置，可以包括：

提取模块510，用于从视频流的当前视频帧中提取n张行人图像，根据n张行人图像生成n个行人的检测框和第一特征向量，n为正整数；

获取模块520，用于获取已分配的m个行人跟踪器，每个行人跟踪器中包含已识别出的一个行人的跟踪框、第二特征向量和行人标签，m为正整数；

计算模块530，用于根据n个检测框和m个跟踪框计算交并比矩阵；根据n个第一特征向量和m个第二特征向量计算余弦相似度矩阵；对交并比矩阵和余弦相似度矩阵进行加权运算，得到代价矩阵；

匹配模块540，用于根据代价矩阵将m个行人跟踪器中的部分或全部分配给n个行人；

提取模块510，还用于若一个行人跟踪器被分配给p张行人图像中的行人，则确定所述p张行人图像对应于所述行人跟踪器中的同一行人标签，提取具有相同行人标签的p张行人图像的特征向量，将特征向量组成第一特征向量矩阵，p为正整数；

计算模块530，还用于计算第一特征向量矩阵的第一转置矩阵；将第一特征向量矩阵和第一转置矩阵相乘，得到第一特征相似度矩阵，第一特征相似度矩阵中的每个元素表示两张行人图像之间的特征相似度；

分组模块550，用于根据第一特征相似度矩阵将p张行人图像划分为至少一个图像集，并为每个图像集分配一个行人标签。

在一个可选的实施例中，匹配模块540，还用于：

基于代价矩阵，利用匈牙利算法对n个检测框和m个跟踪框进行匹配；

当存在与一个跟踪框相匹配的检测框时，将跟踪框对应的行人跟踪器分配给检测框对应的行人。

在一个可选的实施例中，匹配模块540，还用于：

当存在与所有跟踪框都不匹配的检测框时，获取检测框对应的第一特征向量，以及，剩余未匹配的跟踪框对应的第二特征向量；

分别计算第一特征向量与每个第二特征向量的余弦相似度；

从所有余弦相似度中筛选最大余弦相似度；

若最大余弦相似度超过第一阈值，则将最大余弦相似度对应的行人跟踪器分配给检测框对应的行人；

若最大余弦相似度未超过第一阈值，则为检测框对应的行人分配新建的行人跟踪器。

在一个可选的实施例中，分组模块550，还用于：

从剩余的行人图像中随机选择一张行人图像；

从第一特征相似度矩阵中，筛选与行人图像之间的特征相似度超过第二阈值的行人图像；

将随机选择的行人图像和筛选的行人图像划分为一个图像集；

继续执行从剩余的行人图像中随机选择一张行人图像的步骤，直至完成p张行人图像的划分后停止。

请参考图6，在一个可选的实施例中，该装置还包括：

删除模块560，用于在分组模块550根据第一特征相似度矩阵将p张行人图像划分为至少一个图像集之后，当一个图像集中行人图像的数量满足冗余条件时，按照预定比例随机删除图像集中的部分行人图像。

在一个可选的实施例中，该装置还包括：

选择模块570，用于在根据第一特征相似度矩阵将p张行人图像划分为至少一个图像集之后，从每个图像集中随机选择q张行人图像，q为正整数；

提取模块510，还用于提取随机选择的所有行人图像的特征向量，将特征向量组成第二特征向量矩阵；

计算模块530，还用于计算第二特征向量矩阵的第二转置矩阵；将第二特征向量矩阵和第二转置矩阵相乘，得到第二特征相似度矩阵，第二特征相似度矩阵中的每个行向量表示一张行人图像与所有行人图像之间的特征相似度；

合并模块580，用于根据第二特征相似度矩阵对至少两个图像集的行人标签进行合并。

在一个可选的实施例中，合并模块580，还用于：

根据第二特征相似度矩阵，计算每个图像集中的q张行人图像与其他图像集中的q张行人图像的特征相似度的平均相似度向量；

根据平均相似度向量，查找与一个图像集的平均相似度超过第三阈值的其他图像集，将图像集和其他图像集的行人标签合并为一个标签集。

综上所述，本申请实施例提供的基于行人重识别的行人跟踪装置，通过根据n个检测框和m个跟踪框计算交并比矩阵，根据n个第一特征向量和m个第二特征向量计算余弦相似度矩阵，对交并比矩阵和余弦相似度矩阵进行加权运算，得到代价矩阵，根据代价矩阵将m个行人跟踪器中的部分或全部分配给n个行人，从而可以根据行人特征相似度来确定行人是否曾经出现在视频流中，可实现长时间跟踪，尽量确保为同一个视频流中不同时刻出现的行人分配同一行人标签，避免冗余的行人标签。另外，当行人出现重叠时容易出现行人跟踪器交换的问题，通过将交并比矩阵和余弦相似度矩阵加权和作为代价矩阵，这样，可以在行人重叠而导致交并比差异较小时，控制余弦相似度矩阵起主要作用，从而可以避免交换行人跟踪器，一定程度上可区分重叠的行人。

本申请一个实施例提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上所述的基于行人重识别的行人跟踪方法。

本申请一个实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如上所述的基于行人重识别的行人跟踪方法。

需要说明的是：上述实施例提供的基于行人重识别的行人跟踪装置在进行基于行人重识别的行人跟踪时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将基于行人重识别的行人跟踪装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于行人重识别的行人跟踪装置与基于行人重识别的行人跟踪方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请实施例的保护范围之内。

Claims

1.一种基于行人重识别的行人跟踪方法，其特征在于，所述方法包括：

根据n个检测框和m个跟踪框计算交并比矩阵；

计算所述第一特征向量矩阵的第一转置矩阵；

2.根据权利要求1所述的方法，其特征在于，所述根据所述代价矩阵将所述m个行人跟踪器中的部分或全部分配给所述n个行人，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述代价矩阵将所述m个行人跟踪器中的部分或全部分配给所述n个行人，包括：

从所有余弦相似度中筛选最大余弦相似度；

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一特征相似度矩阵将所述p张行人图像划分为至少一个图像集，包括：

从剩余的行人图像中随机选择一张行人图像；

5.根据权利要求1所述的方法，其特征在于，在所述根据所述第一特征相似度矩阵将所述p张行人图像划分为至少一个图像集之后，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，在所述根据所述第一特征相似度矩阵将所述p张行人图像划分为至少一个图像集之后，所述方法还包括：

从每个图像集中随机选择q张行人图像，q为正整数；

计算所述第二特征向量矩阵的第二转置矩阵；

7.根据权利要求6所述的方法，其特征在于，所述根据所述第二特征相似度矩阵对至少两个图像集的行人标签进行合并，包括：

8.一种基于行人重识别的行人跟踪装置，其特征在于，所述装置包括：

9.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至7中任一所述的基于行人重识别的行人跟踪方法。

10.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至7中任一所述的基于行人重识别的行人跟踪方法。