CN113128410A

CN113128410A - 一种基于轨迹关联学习的弱监督行人重识别方法

Info

Publication number: CN113128410A
Application number: CN202110432674.9A
Authority: CN
Inventors: 刘敏; 王飞; 刘庆
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2021-07-16

Abstract

本发明属于计算机视觉领域，尤其涉及一种基于轨迹关联学习的弱监督行人重识别方法，包括以下步骤：S1：构建弱监督行人重识别数据集；S2：基于ImageNet数据集得到预训练的Resnet‑50模型和特征矩阵；S3：捕获样本内行人图像与行人身份间的关系；S4：对每个行人图像进行特征学习，获取每个行人的轨迹特征；S5：挖掘样本间行人图像与行人身份的潜在关联；S6：模型训练；S7：进行弱监督测试。通过对样本内行人图像与行人身份关系的捕获和行人轨迹特征的学习并结合样本间行人轨迹潜在关系的挖掘，有效地提高了模型的特征提取能力，并取得了突出的行人重识别性能。

Description

一种基于轨迹关联学习的弱监督行人重识别方法

技术领域

本发明属于计算机视觉领域，尤其涉及一种基于轨迹关联学习的弱监督行人重识别方法。

背景技术

近年来，有研究者提出了弱监督行人重识别的方法；弱监督的设定是指对每一个行人视频数据样本标上弱标签，弱标签只标记该视频片段中出现的行人身份，而不是精确地给每个人的轨迹标记一个身份标签；通过自动行人检测算法将每一个视频片段中检测到的所有行人图像作为一个独立的弱监督样本，并标上相对应的弱标签，该方法平衡了标记数据和识别性能的需求；虽然现有的基于弱监督的行人重识别方法在一定程度上降低了行人重识别任务的标注成本，并相比于无监督方法提升了识别性能，但识别精度相比于全监督方法仍然不高；主要是由于在弱监督的设定下，样本与身份间的对应关系不明确，让网络难以充分地利用弱标签提供的监督信息；再者弱监督的数据样本是由自动检测算法直接获取的，每个样本内可能会出现未标记的轨迹，这类情况会降低算法的鲁棒性。

发明内容

本发明的目的在于克服上述现有技术的不足，提供了一种在弱监督设定下能够明确样本与身份间对应关系的行人重识别方法，具体为一种基于轨迹关联学习的弱监督行人重识别方法。

为解决上述问题，本发明提供了一种基于轨迹关联学习的弱监督行人重识别方法，具体包括如下步骤：

S1：构建弱监督行人重识别数据集，数据集由视频片段组成，视频片段包括多条行人轨迹和多张行人图像，给行人图像贴上弱标签；

S2：在数据集上进行预训练，获得行人重识别预训练网络模型，在网络模型的骨干网络上添加全连接层，提取每张行人图像的特征组成特征矩阵；

S3：捕获样本内行人图像与行人身份间的关系，对于视频片段中行人图像通过全连接层得到对应特征矩阵，将得到的特征矩阵输入到分类器中，分类器输出行人图像的身份预测的概率，并根据身份预测概率和弱标签求得数值最高的索引，将该索引作为伪标签分配给每张行人图像；

S4：对每个行人图像进行特征学习，获取每个行人的轨迹特征，根据伪标签和行人轨迹得到每条轨迹的识别率，通过识别率为弱标签的每个行人身份选择一个有效的轨迹训练出行人重识别模型，在伪标签的监督下，通过行人重识别模型，获取每个行人的轨迹特征；

S5：挖掘样本间行人图像与行人身份的潜在关系，通过两条不同的轨迹得到样本间行人轨迹的损失函数；通过该损失函数，训练行人重识别模型，训练后的行人重识别模型可获取样本间行人图像和行人身份的潜在关系；

S6：模型训练，通过弱标签建立弱监督轨迹关联学习行人重识别模型，在数据集上训练弱监督轨迹关联学习行人重识别模型；

S7：进行弱监督测试，通过轨迹-视频重识别和轨迹-轨迹重识别两个评估策略，评估弱监督轨迹关联学习行人重识别模型的性能。

通过对样本内行人图像与行人身份关系的捕获和行人轨迹特征的学习并结合样本间行人轨迹潜在关系的挖掘，有效地提高了模型的特征提取能力，并取得了突出的行人重识别性能。

作为本发明的进一步限定，S1中，构建数据集的具体内容为：在第n个视频片段中选取所有轨迹中图像的集合，记为

作为弱监督样本，模拟从第n个视频片段中获取的所有行人图像的集合，记为

且给B_n贴上C维的弱标签向量，记为y_n∈{0,1}^C，得到弱监督行人重识别数据集，记为

其中N表示视频片段的数量，K表示行人图像的数量，T_n表示第n个视频片段中轨迹的数量，S_n,t表示第n个视频片段的第t条轨迹的所有行人图像的集合，t∈(1，T_n)，I_n,k表示第n个视频片段的第k张行人图像，N(S_n,t)表示轨迹S_n,t对应的行人图像的索引集合。

作为本发明的进一步限定，S2中，具体内容为：基于ImageNet数据集得到预训练的Resnet-50模型，将Resnet-50模型作为骨干网络，输入弱监督行人重识别数据集

在骨干网络上加上一个d维的全连接层作为特征提取器，提取B_n中K_n张行人图像对应的特征组成一个特征矩阵，记为

作为本发明的进一步限定，S3中，得到伪标签的具体过程为：对于第n个视频片段中K_n张行人图像通过特征提取器得到相应的特征矩阵X_n，将相应的特征矩阵X_n输入到分类器f(·,θ)，然后使用softmax函数得到行人图像的身份预测的概率，记为

将

和真值视频级弱标签进行元素级的乘积操作，分配数值最高的索引作为相应行人图像的伪标签

表示在该视频片段中最可能对应的身份；其中θ为分类器的参数，X_n,k表示第n个视频片段的第k张行人图像的特征向量。

作为本发明的进一步限定，S4中，根据伪标签

和行人轨迹s_n,t得到每条轨迹的识别率r，通过识别率r为弱标签

的每个行人身份选择一个有效的轨迹s_n,k训练出行人重识别模型，在伪标签

的监督下，通过行人重识别模型，获取每个行人的轨迹特征；有效的轨迹s_n,k会在下一次训练迭代时动态更新。

作为本发明的进一步限定，所述识别率r的计算方式为：

其中C_n,i表示第n个视频片段的弱标签中第i个人物身份标签(每个视频片段的弱标签包含多个人物身份标签)。

作为本发明的进一步限定，S4中，还包括采用交叉熵损失函数l_ce来优化网络参数，给定一个视频片段的有效轨迹包括K张行人图像，计算出样本内轨迹识别学习的损失函数L_I：

作为本发明的进一步限定，S5中，得到样本间行人轨迹的损失函数的具体过程为：通过欧式距离D(,)衡量两个轨迹特征的相似度，给定两个不同的视频片段n_u和n_v，分别包括T_u和T_v条轨迹和拥有至少1个共同的行人身份，选择两个视频片段中相似度第一高的一对行人轨迹作为轨迹正样本对，记为(S_u,a,S_v,b)，则得到轨迹正样本对的距离，记为

根据轨迹正样本S_u,a∈n_u在另一个视频片段中相似度第二高的行人轨迹，作为第一个轨迹负样本对，则得到第一个轨迹负样本对的距离，记为

对于轨迹正样本S_v,b∈n_v同上方式得到第二个轨迹负样本对，得到第二个轨迹负样本对的距离，记为

计算出轨迹负样本对间的距离，记为

得到行人样本间的损失函数，表示为

则样本间行人轨迹的损失函数L_C为：

其中N_b表示小批量的视频片段，u表示视频片段的索引，v表示频片段的索引，(u,v)是小批量中视频片段的索引，p表示轨迹正样本对的距离表达式的上标，m表示轨迹负样本对间的距离表达式的上标。

作为本发明的进一步限定，S6中，还包括加权样本内轨迹识别学习的损失函数L_I和样本间行人轨迹的损失函数L_C，得到总损失函数L，表示为L＝λ₁L_I+λ₂L_C，λ₁和λ₂为超参数；通过该总损失函数L，在数据集上训练弱监督轨迹关联学习行人重识别模型。

作为本发明的进一步限定，S7中，所述轨迹-视频重识别评估策略给定一个查询集的轨迹，旨在查找图像集中与该轨迹有相同身份标签的视频片段，S_h表示查询集中第h条轨迹的所有图像的均值池化特征，X_g,f表示图像集第g个视频片段的第f帧图像的特征向量，则图像集样本Z_h和Z_G之间的距离表示为：

其中X_g,Kg表示图像集第g个视频片段的第K_g帧图像的特征向量；则该公式的含义为第g个视频片段包含K_g张行人图像，D(S_h,X_g,Kg)表示特征向量S_h与特征向量X_g,Kg之间的欧式距离，从而d_Bp,BG为查询轨迹h的均值特征S_p与图像集样本Z_h的最短距离。

有益效果：1.通过对样本内行人图像与行人身份关系的捕获和行人轨迹特征的学习并结合样本间行人轨迹潜在关系的挖掘，有效地提高了模型的特征提取能力，并取得了突出的行人重识别性能；

2.基于轨迹关联学习对弱标签标记的数据进行网络的训练能够有效地减少标注工作。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施中弱监督行人重识别方法的流程图。

图2为本发明实施中弱监督行人重识别方法的网络结构示意图。

图2a为图2网络结构示意图中弱标签数据输入示意图。

图2b为图2网络结构示意图中Resnet-50骨架网络示意图。

图2c为图2网络结构示意图中样本内和样本间的关联学习示意图。

图3为本发明实施中弱监督行人重识别方法的测试示意图。

具体实施方式

下面将结合本发明的实施例中的附图，对本发明的实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

结合图1、图2和图3，本实施例提供了一种基于轨迹关联学习的弱监督行人重识别方法，如图1所示本实施例包括如下步骤：

步骤1：构建弱监督行人重识别数据集。由于目前没有行人重识别弱监督开源数据集，因此本发明利用现有的开源强监督数据集来构建模拟的弱监督数据集。本发明在第n个视频片段中选取所有轨迹中图像的集合，记为

并给上弱标签。

为方便表述，本发明利用

来表示弱标记的数据集，由N个视频片段组成，其中存在C个身份的行人图像。对于第n个视频片段，它包含T_n条行人轨迹，且样本中所有的轨迹由K_n张行人图像组成，则

表示该视频片段所有图像的集合。

表示属于轨迹s_n,t的行人图像集合，其中N(S_n,t)表示相应的图像索引集合，I_n,k表示第n个视频片段的第k张行人图像。y_n∈{0,1}^C是一个C维的标签向量，如果第n个视频片段中出现第C个身份的行人，则

否则

步骤2：基于ImageNet数据集得到预训练的Resnet-50模型，输入弱监督行人重识别数据集

如图2a所示，将Resnet-50模型作为骨干网络，如图2b所示。

骨干网络随后加上一个d维的全连接层作为特征提取器，提取B_n中每张行人图像对应的特征组成一个特征矩阵

步骤3、步骤4和步骤5如图2c所示。

步骤3：捕获样本内行人图像与行人身份间的关系。本发明通过为一个视频片段的每张行人图像分配一个伪标签捕获样本内行人图像与行人身份间的关系，视频片段的每张行人图像的伪标签表示在该视频片段中出现的最可能对应的身份。

在弱监督下每个视频片段包括多个行人轨迹和多个身份标签，但是行人图像和行人身份之间的一一对应关系是未知的。为了捕获每个视频片段中行人图像和行人身份之间的关系，本发明利用每张行人图像的预测值和弱标签

来分配伪标签

对于第n个视频片段通过特征提取器得到相应的特征矩阵X_n，输入到分类器f(·,θ)，其中θ是该分类器的参数，随后使用softmax函数输出行人图像的身份预测的概率

先让身份预测的概率和真值视频级弱标签进行元素级的乘积操作，分配其结果中数值最高的索引作为相应的伪标签

表示在该视频片段中最可能对应的身份。分配伪标签

能够引导网络识别特征的学习。

步骤4：对每个行人图像进行特征学习，获取每个行人的轨迹特征。根据给定的伪标签和轨迹信息，为每个视频片段中的每个身份选择一个有效的轨迹来学习每个身份的行人的特征，从而学习到的模型不受噪声轨迹的影响。然后，在伪标签的监督下，可以学习到每个身份的行人的判别特征。

为了让本发明学习到的模型不受到噪声轨迹的影响，本发明通过利用每个轨迹的识别率为弱标签

的每个身份选择一个有效的轨迹去训练行人重识别模型。拥有身份c_n,k的轨迹s_n,k的识别率r使用伪标签和轨迹信息来计算，表示轨迹s_n,k属于身份c_n,k的概率。r表示为：

其中C_n,i表示第n个视频片段的弱标签中第i个人物身份标签(每个视频片段的弱标签包含多个人物身份标签)，N(S_n,t)表示与轨迹S_n,t对应的行人图像的索引集合。

有效的轨迹会在下一次训练迭代时动态更新。即使在训练开始时模型不稳定，该模型也能准确地获得有效的轨迹。

此后，对于每个有效的轨迹，本发明可以利用每个视频片段中分配的行人图像的伪标签，以完全监督的方式学习识别特征。本发明采用交叉熵损失函数l_ce来优化网络参数，给定一个视频片段的有效轨迹包括K张行人图像，计算样本内轨迹识别学习的损失函数：

通过样本内轨迹识别学习的损失函数L_I，行人重识别模型可以学习到每个行人图像的识别特征。特别的是，在捕获样本内行人图像与行人身份间的关系从而得到有效轨迹的方法的过滤过程之后，对于每个视频片段的每个身份只对应一个行人轨迹。

步骤5：挖掘样本间行人轨迹图像的潜在关联。基于之前学习到的特征，对来自同一有效轨迹的行人图像的特征进行均值池化操作，得到有效轨迹的特征

本发明的方法利用挖掘可靠的轨迹正样本对和轨迹负样本对探索了样本间行人轨迹图像的潜在关联。

对于弱监督的行人数据，同一个人出现在多个视频片段中是一个常见的现象。因此，本发明利用这个普遍的现象，在每个小批量中选择一对至少有一个共同行人身份的视频片段来训练模型。

给定来自不同摄像头的一对n_u和n_v的视频片段，它们分别包括T_u和T_v段轨迹，至少有一个共同的行人身份。根据两个视频片段中相似度高的一对轨迹(S_u,a,S_v,b)假设它们有相同的身份标签，将其视为一对可靠的轨迹正样本对。本发明使用欧式距离D(,)来衡量两个轨迹特征的相似度，则轨迹正样本对的索引表示为

轨迹正样本的距离表示为

本发明基于获得的轨迹正样本对来挖掘轨迹负样本对，即对于正轨迹S_u,a∈n_u选择其在另外一个视频片段B_v中相似度值第二高的轨迹作为第一个轨迹负样本对，则得到第一个轨迹负样本对的距离，记为

计算出轨迹负样本对间的距离，记为

得到行人样本间的损失函数，表示为

则样本间行人轨迹的损失函数L_C为：

其中N_b表示小批量的视频片段，u表示视频片段的索引，v表示频片段的索引，(u,v)是小批量中视频片段的索引，p表示轨迹正样本对的距离表达式的上标，m表示轨迹负样本对间的距离表达式的上标。选择有效轨迹(过滤噪声轨迹)后，一个视频片段中每一个身份只对应一个轨迹；通过样本间行人轨迹的损失函数L_c，行人重识别模型可以在特征空间中拉近相同身份的样本，同时推远不同身份的样本。

步骤6：模型训练。总损失函数L由样本内轨迹识别学习的损失函数L_I和样本间行人轨迹的损失函数L_C组成，最小化总损失函数L能够联合优化这两个互补的损失函数，在弱监督的数据集

上训练高效的基于轨迹关联学习的行人重识别模型。值得注意的是，本发明的模型不需要任何强标记的轨迹样本来进行模型训练，仅利用弱标签

来建立一个弱监督轨迹关联学习模型。

使用超参数λ₁和λ₂分别去控制在模型训练期间样本内轨迹识别学习的损失函数L_I和样本间行人轨迹的损失函数L_C的相对重要性，总损失函数L表示为：

L＝λ₁L_I+λ₂L_C

步骤7：如图3所示，进行弱监督测试。为了达到本发明的目的，在测试阶段通过两个不同的策略来评估基于轨迹关联学习的弱监督行人重识别模型的性能，测试集包括轨迹-视频重识别(T2V re-id)评估策略和轨迹-轨迹重识别(T2T re-id)评估策略。

轨迹-视频重识别(T2V re-id)评估策略用于查找在图像集中出现查询集轨迹的相同身份的行人视频片段。查询集视频片段是轨迹样本，图像集视频片段是视频片段。利用查询集视频片段的均值池化特征和图像集视频片段的每一帧图像特征之间的最小的距离来定义查询集视频片段和图像集每个视频片段之间的距离。S_h表示查询集中第h条轨迹的所有图像的均值池化特征，X_g,f表示图像集第g个视频片段的第f帧图像的特征向量，则图像集样本Z_h和Z_G之间的距离表示为：

轨迹-轨迹重识别(T2T re-id)评估策略用于检索在图像集中与查询集的轨迹有相同身份的轨迹。查询集数据样本和图像集数据样本都是轨迹样本。给定一个查询集数据样本，去检索图像集中与之有相同身份的数据样本。这个目标与一般的基于视频的行人重识别的目标一致，即图像集中的数据样本是所有身份的轨迹样本。本发明根据一般行人重识别的设定去评估轨迹-轨迹重识别(T2T re-id)的性能。

本实施例提供了一种基于轨迹关联学习的弱监督行人重识别方法，具有以下有益效果：

1.通过对样本内行人图像与行人身份关系的捕获和行人轨迹特征的学习并结合样本间行人轨迹潜在关系的挖掘，有效地提高了模型的特征提取能力，并取得了突出的行人重识别性能；

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于轨迹关联学习的弱监督行人重识别方法，其特征在于，具体包括如下步骤：

S3：捕获样本内行人图像与行人身份间的关系，对于视频片段中行人图像通过全连接层得到对应特征矩阵，将得到的特征矩阵输入到分类器中，分类器输出行人图像的身份预测的概率，并根据身份预测概率和弱标签求得数值最高的索引，将该索引作为伪标签分配给相应的行人图像；

S4：对每个行人图像进行特征学习，获取每个行人的轨迹特征，根据伪标签和行人轨迹得到每条轨迹的识别率，通过识别率为弱标签的每个行人身份选择一个有效的轨迹，在伪标签的监督下，通过行人重识别模型，获取每个行人的轨迹特征；

S5：挖掘样本间行人图像与行人身份的潜在关系，通过两个不同的视频片段得到样本间行人轨迹的损失函数；通过该损失函数，训练行人重识别模型，训练后的行人重识别模型可获取样本间行人图像和行人身份的潜在关系；

S6：模型训练，基于弱标签建立弱监督轨迹关联学习行人重识别模型，在带有弱标签的数据集上训练该模型；

2.根据权利要求1所述的一种基于轨迹关联学习的弱监督行人重识别方法，其特征在于S1中，构建数据集的具体内容为：在第n个视频片段中选取所有轨迹中图像的集合，记为

其中N表示视频片段的数量，K表示行人图像的数量，T_n表示第n个视频片段中轨迹的数量，S_n,t表示第n个视频片段的第t条轨迹的所有行人图像的集合，t∈(1，T_n)，I_n,k表示第n个视频片段的第k张行人图像，N(S_n,t)表示与轨迹S_n,t对应的行人图像的索引集合。

3.根据权利要求1所述的一种基于轨迹关联学习的弱监督行人重识别方法，其特征在于S2中，具体内容为：将Resnet-50作为行人重识别预训练网络模型的骨干网络，基于ImageNet数据集得到预训练的Resnet-50模型，输入弱监督行人重识别数据集

4.根据权利要求1所述的一种基于轨迹关联学习的弱监督行人重识别方法，其特征在于S3中，得到伪标签的具体过程为：对于第n个视频片段中K_n张行人图像通过特征提取器得到相应的特征矩阵X_n，将相应的特征矩阵X_n输入到分类器f(·,θ)，然后使用softmax函数输出行人图像的身份预测的概率，记为

将

5.根据权利要求1所述的一种基于轨迹关联学习的弱监督行人重识别方法，其特征在于S4中，根据伪标签

和行人轨迹s_n，t得到每条轨迹的识别率r，通过识别率r为弱标签

的每个行人身份选择一个有效的轨迹s_n，k训练出行人重识别模型，在伪标签

6.根据权利要求5所述的一种基于轨迹关联学习的弱监督行人重识别方法，其特征在于，所述识别率r的计算方式为：

7.根据权利要求6所述的一种基于轨迹关联学习的弱监督行人重识别方法，其特征在于S4中，还包括采用交叉熵损失函数l_ce来优化网络参数，给定一个视频片段的有效轨迹包括K张行人图像，计算出样本内轨迹识别学习的损失函数L_I：

8.根据权利要求7所述的一种基于轨迹关联学习的弱监督行人重识别方法，其特征在于S5中，得到样本间行人轨迹的损失函数的具体过程为：通过欧式距离D(,)衡量两个轨迹特征的相似度，给定两个不同的视频片段n_u和n_v，分别包括T_u和T_v条轨迹和拥有至少1个共同的行人身份，选择两个视频片段中相似度第一高的一对行人轨迹作为轨迹正样本对，记为(S_u,a,S_v,b)，则得到轨迹正样本对的距离，记为

计算出轨迹负样本对间的距离，记为

得到行人样本间的损失函数，表示为

则样本间行人轨迹的损失函数L_C为：

9.根据权利要求8所述的一种基于轨迹关联学习的弱监督行人重识别方法，其特征在于S6中，还包括加权样本内轨迹识别学习的损失函数L_I和样本间行人轨迹的损失函数L_C，得到总损失函数L，表示为L＝λ₁L_I+λ₂L_C，λ₁和λ₂为超参数；通过该总损失函数L，在数据集上训练弱监督轨迹关联学习行人重识别模型。

10.根据权利要求1所述的一种基于轨迹关联学习的弱监督行人重识别方法，其特征在于S7中，所述轨迹-视频重识别评估策略给定一个查询集的轨迹，旨在查找图像集中与该轨迹有相同身份标签的视频片段，S_h表示查询集中第h条轨迹的所有图像的均值池化特征，X_g,f表示图像集第g个视频片段的第f帧图像的特征向量，则图像集样本Z_h和Z_G之间的距离表示为：

其中X_g,Kg表示图像集第g个视频片段的第K_g帧图像的特征向量；则该公式的含义为第g个视频片段包含K_g张行人图像，D(S_h,X_g,Kg)表示特征向量S_h与特征向量X_g,Kg之间的欧式距离，从而d_Bp,BG为查询轨迹h的均值特征S_p与图像集样本Z_h的最短距离；

轨迹-轨迹重识别评估策略用于检索在图像集中与查询集的轨迹有相同身份的轨迹，查询集数据样本和图像集数据样本都是轨迹样本，给定一个查询集数据样本，去检索图像集中与之有相同身份的数据样本，这个目标与一般的基于视频的行人重识别的目标一致，即图像集中的数据样本是所有身份的轨迹样本。