CN113435329A

CN113435329A - 一种基于视频轨迹特征关联学习的无监督行人重识别方法

Info

Publication number: CN113435329A
Application number: CN202110715016.0A
Authority: CN
Inventors: 刘敏; 陈永春; 曾树军; 王学平; 王耀南
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-09-24
Anticipated expiration: 2041-06-25
Also published as: CN113435329B

Abstract

本发明属于计算机视觉领域，涉及一种基于视频轨迹特征关联学习的无监督行人重识别方法，包括以下步骤：输入行人重识别视频数据集；对行人重识别视频数据集进行稀疏时空轨迹采样，得到行人视频轨迹样本，组成行人视频轨迹；对行人视频轨迹样本进行预训练，获得行人重识别预训练网络模型；在行人重识别预训练网络模型中添加全连接层，构建视频轨迹特征向量表；根据行人视频轨迹特征向量表进行轨迹联合学习，得到联合学习损失函数；更新视频轨迹特征向量表；模型训练；进行无监督测试；通过对相机内和相机间视频轨迹特征向量的联合学习，挖掘行人轨迹潜在的关系，提高了模型的特征提取能力，取得了突出的行人重识别性能。

Description

一种基于视频轨迹特征关联学习的无监督行人重识别方法

技术领域

本发明属于计算机视觉领域，尤其涉及一种基于视频轨迹特征关联学习的无监督行人重识别方法。

背景技术

近年来，有研究者提出了无监督行人重识别的方法；无监督的设定是指对每一个行人视频数据样本，不标上标签或者打上伪标签，伪标签只是用来代表一个行人的数据样本图片，并不具有任何的指导意义；通过自动行人检测算法将每一个视频片段中检测到的所有行人图像作为一个独立的无监督样本，并标上相对应的伪标签，该方法平衡了标记数据和识别性能的需求；虽然现有的基于无监督的行人重识别方法在一定程度上降低了行人重识别任务的标注成本，但识别精度相比于全监督方法仍然不高；主要是由于在无监督的设定下，样本与身份间的对应关系不明确，让网络难以充分地学习到重要的信息；再者无监督的数据样本是随机抽取的，每个样本与它对应的轨迹可能不相同，这类情况会降低算法的鲁棒性。

发明内容

本发明的目的在于克服上述现有技术的不足，提供了一种在无监督设定下能够明确样本与身份间对应关系的行人重识别方法，具体为一种基于视频轨迹特征关联学习的无监督行人重识别方法。

本发明提供了一种基于视频轨迹特征关联学习的无监督行人重识别方法，具体包括如下步骤：

S1：输入行人重识别视频数据集，数据集由视频片段组成，视频片段包括多条行人轨迹和多张行人图像；

S2：对行人重识别视频数据集进行稀疏时空轨迹采样，得到行人视频轨迹样本；在视频片段中为每条行人轨迹抽出相同数量的帧，给上相机标签，组成行人视频轨迹；

S3：对行人视频轨迹样本进行预训练，获得行人重识别预训练网络模型；

S4：在行人重识别预训练网络模型中添加全连接层，全连接层用于提取每张行人图像的特征，构建视频轨迹特征向量表；

S5：根据行人视频轨迹特征向量表进行轨迹联合学习，得到联合学习损失函数，其包括：

相机内轨迹联合学习，对每张行人图像进行特征学习，获取视频轨迹特征向量表中每张行人图像的特征；根据行人轨迹整合每张行人图像的特征，得到视频轨迹特征向量；根据行人图像的特征和视频轨迹特征向量，得到正样本和负样本，从而得到相机内行人联合学习损失函数；

相机间轨迹联合学习，获取视频轨迹特征向量表中每张行人图像的特征，将相机中一个行人视频轨迹中每张行人图像，与其它相机的每个行人视频轨迹中每张行人图像进行特征相似度计算，按照特征相似度将行人视频轨迹进行排序，并交换计算顺序，交叉验证相似度最高的两个行人视频轨迹的身份，得到相机间联合学习损失函数；

S6：更新视频轨迹特征向量表；

S7：模型训练，基于行人视频轨迹特征向量表建立无监督视频轨迹特征向量关联学习行人重识别模型；在行人视频轨迹样本上训练无监督视频轨迹特征向量关联学习行人重识别模型；优化模型；

S8：进行无监督测试，通过对相机内和相机间行人视频轨迹的联合学习，挖掘行人轨迹潜在关系；通过评估策略，评估无监督视频轨迹特征向量关联学习行人重识别模型的性能。

优选的，S1中，行人重识别视频数据集包括不同相机的多个视频片段。

优选的，S2中，采用稀疏时空轨迹采样方法对每个相机的行人视频轨迹进行采样，使得在一个相机中，每个行人身份对应一个行人视频轨迹；行人视频轨迹样本表示为

其中

是第c个相机中的第t个行人视频轨迹，

是对应的唯一伪标签，c∈{1,2,...,C}，C是相机的数量；t∈{1,2,...,M_c}，M_c表示相机c中采样的视频轨迹的数量；

其中，

是行人视频轨迹

的第n个人图像。

优选的，S5中，得到相机内行人联合学习损失函数的步骤为：

步骤1：通过欧几里得距离计算公式，计算同一个相机内的一张行人图像的特征与同一相机内的其他视频轨迹特征向量的距离，并进行排序；

其中行人图像表示为

视频轨迹特征向量表示为

则行人图像的特征与视频轨迹特征向量之间的欧几里得距离为：

其中φ(·)是一个特征嵌入模型，

表示行人图像的特征，对得到的欧几里得距离进行排序，得到排名列表，排名列表表示为：

行人图像

与视频轨迹特征向量

具有相同的行人身份，

表示与包含该行人图像的视频轨迹特征向量，则在同一相机内排名第一的视频轨迹特征向量

与包含相同组成帧的视频轨迹特征向量

行人身份相对应，则视频轨迹特征向量

为正样本，若

与

的行人身份不同，则

为负样本；

步骤2：通过三元组损失的形式定义相机内轨迹联合损失，并基于稀疏时空轨迹采样，得到正样本对距离和负样本对距离；

相机内轨迹联合损失表示为：

其中[·]₊＝max(·,0)，表示从大到小排序；D_r,r是行人图像的特征

与视频轨迹特征向量

之间的距离，D_r,i是行人图像的特征

与排名第一的视频轨迹特征向量

之间的距离，D_r,j是行人图像的特征

和排名第二的视频轨迹特征向量

之间的距离；m表示区分视频轨迹特征向量和其他轨迹的边距；

通过稀疏时空轨迹采样，正样本对距离表示为D_r,r，当r≠j时，负样本对距离是相机c中

与所有视频轨迹特征向量之间的最小距离；

将视频轨迹特征向量拉进到排名第一的视频轨迹特征向量；当r＝j时，负样本对距离是

和所有轨迹之间次小的距离；

将进一步最小化

和

不同；

步骤3：通过正样本对距离和负样本对距离，得到相机内行人联合学习损失函数；

相机内行人联合学习损失函数表示为：

其中N_bs表示为小批量次数，k表示一个批量中行人图像的序号。

优选的，S5中，得到相机间行人联合学习损失函数的步骤为：

步骤1：选取相机p的视频轨迹特征向量

以及相机q的所有视频轨迹特征向量；

步骤2：通过欧几里得距离计算公式，计算视频轨迹特征向量

与相机q的所有视频轨迹特征向量之间的距离，并进行排序；

视频轨迹特征向量

与相机q的所有视频轨迹特征向量之间的距离表示为：

其中φ(·)是一个特征嵌入模型，对得到的欧几里得距离进行排序，得到排名列表，排名列表表示为：

排名第一的视频轨迹特征向量表示为

步骤3：将相机q中排名第一的视频轨迹特征向量

作为候选匹配的视频轨迹特征向量；通过欧几里得距离计算公式，计算视频轨迹特征向量

与相机p的所有视频轨迹特征向量之间的距离，并进行排序；

视频轨迹特征向量

与相机p的所有视频轨迹特征向量之间的距离表示为：

步骤4：将两次排序的结果，进行对齐操作，则对齐操作的结果表示为：

其中

表示

是相匹配的轨迹，

表示

不相匹配；此外，通过阈值过滤策略，要求它们的余弦相似度大于阈值λ；其他相机中所有视频轨迹特征向量相对于视频轨迹特征向量

的权重可定义，即置信系数，置信系数表示为：

将所有其他相机的轨迹

定义成潜在正轨迹集

则潜在正轨迹集

表示为：

视频轨迹特征向量

为来自其他相机的潜在正轨迹；

步骤5：通过稀疏时空轨迹采样和伪标签，为

分配一个伪标签

为

随机分配一个伪标签

为

的潜在正轨迹；通过softmax函数为属于相机q中视频轨迹特征向量

的视频轨迹

中的帧

生成置信度分数：

其中a_q表示相机q中的所有视频轨迹特征向量，

步骤6：通过置信系数和置信度分数，计算相机内轨迹联合损失，则相机间轨迹联合损失表示为：

由于潜在正轨迹集

中的所有视频轨迹特征向量都是

的潜在正轨迹，则视频轨迹特征向量的损失表示为：

则相机间行人联合学习损失函数表示为：

优选的，S6中，更新视频轨迹特征向量表包括相机内更新、以及相机间更新；

相机内更新采用指数移动平均策略，通过使用同一相机内的视频轨迹特征向量的帧更新视频轨迹特征向量表；

相机内更新的表示公式为：

其中b表示小批量学习迭代的次数，

用零初始化；

相机间更新通过拉近其他相机的潜在正轨迹，找到更多潜在正轨迹，进行更新视频轨迹特征向量表；

相机间更新的表示公式为：

其中γ表示学习率，b表示小批量学习的迭代次数。

优选的，S7中，模型训练包括：

S7.1：基于行人视频轨迹特征向量表建立无监督视频轨迹特征向量关联学习行人重识别模型；

S7.2：在行人视频轨迹样本的基础上，通过相机内行人联合学习损失函数训练无监督视频轨迹特征向量关联学习行人重识别模型；

S7.3：通过相机间行人联合学习损失函数优化无监督视频轨迹特征向量关联学习行人重识别模型。

优选的，S8中，测试的步骤为：

S8.1：行人重识别视频数据集作为测试集，选取一个数据集作为查询集，选取另一个数据集作为验证集；将查询集与验证集分别输入到无监督视频轨迹特征向量关联学习行人重识别模型内；

S8.2：提取查询集的行人视频轨迹的特征，得到查询集的视频轨迹特征向量；提取验证集的行人视频轨迹的特征，得到验证集的视频轨迹特征向量；

S8.3：将查询集的视频轨迹特征向量与验证集的视频轨迹特征向量进行相似度比较，并进行排序；

S8.4：采用轨迹-轨迹重识别评估策略，评估无监督视频轨迹特征向量关联学习行人重识别模型。

优选的，视频轨迹特征向量的损失中

表示小批量中的每个行人图像，视频轨迹特征向量

的导数表示为：

其中

是

的伪标签。

有益效果：

1.通过对相机内行人图像与行人视频轨迹关系和特征的学习并结合相机间行人视频轨迹潜在关系的挖掘，有效地提高了模型的特征提取能力，并取得了突出的行人重识别性能；

2.基于视频轨迹特征向量关联学习无监督方法对于没有标记的数据进行网络的训练能够节省标注工作。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施中一种基于视频轨迹特征关联学习的无监督行人重识别方法的流程示意图。

图2为本发明实施中一种基于视频轨迹特征关联学习的无监督行人重识别方法的网络结构示意图。

图3为本发明实施中一种基于视频轨迹特征关联学习的无监督行人重识别方法的测试示意图。

具体实施方式

下面将结合本发明的实施例中的附图，对本发明的实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

结合图1、图2、图3，本实施例提供了一种基于视频轨迹特征关联学习的无监督行人重识别方法，具体包括如下步骤：

步骤1：输入行人重识别视频数据集，数据集由视频片段组成，视频片段包括多条行人轨迹和多张行人图像；

数据集的具体内容为：基于大规模视频的行人重识别数据集；数据集均来自不同相机的各个视频，每个视频中有不同数量的人同时出现；

步骤2：对行人重识别视频数据集进行稀疏时空轨迹采样(SSTT)，使得每个摄像头下最多只有一个身份的行人轨迹，得到行人视频轨迹样本；从这些视频中，为每个人抽出相同数量的帧，打上相机标签，组成行人视频轨迹，相同的人打上相同的身份标签；

假设我们有一个从C台相机捕获的视频数据集，采用稀疏时空轨迹采样(SSTT)方法对每个相机的训练视频轨迹进行采样；在一个相机中，每个行人身份最多只有一个视频轨迹；行人视频轨迹样本表示为

其中

是第c个相机中的第t个行人视频轨迹，

是对应的唯一伪标签，c∈{1,2,...,C}，其中C是相机的数量；t∈{1,2,...,M_c}，M_c表示相机c中采样的视频轨迹的数量。

其中，

是视频轨迹

的第n个行人图像；

步骤3：对行人视频轨迹样本进行预训练，获得行人重识别预训练网络模型；在行人重识别预训练网络模型中添加全连接层，全连接层用于提取每张行人图像的特征，构建视频轨迹特征向量表；

具体内容为：用稀疏时空轨迹采样(SSTT)得到的行人视频轨迹样本进行预训练，获得行人重识别预训练网络模型，在网络模型的骨干网络上添加全连接层，用来提取每张行人图像的特征，将相机内同一个行人图像的特征进行整合，组成视频轨迹特征向量，并构建视频轨迹特征向量表。

步骤4：根据视频轨迹特征向量表进行轨迹联合学习，得到联合学习损失函数，其包括：

相机内轨迹联合学习，对每个行人图像进行特征学习，获取每个行人图像的特征；根据行人视频轨迹整合每个行人图像的特征，获得视频轨迹特征向量；在同一个相机内，计算一张行人图片的特征与其它视频轨迹特征向量的距离，进行排序，获得难样本；计算一张行人图片的特征与自身所在视频轨迹特征向量的距离，获得正样本。根据正负样本，得到相机内行人联合学习损失函数；将每个图像与来自同一相机拍摄的所有轨迹进行相似度排序，以三元组损失的形式呈现相机内轨迹联合损失；

如上述，来自相机c的视频轨迹可以表示为

这是存储在内存模块中的视频轨迹特征向量；然后行人图像

与视频轨迹特征向量

之间的欧几里得距离可以计算如下：

其中φ(·)是一个特征嵌入模型。因此，相机c中所有行人图像的特征

和视频轨迹特征向量之间(即

)的距离，可通过上述公式进行计算。通过对距离的从小到大排序，可以得到一个排名列表，排名列表可以描述为：

排名列表的顶部，相机内排名第一视频轨迹

应该对应于包含相同组成帧的源行人视频轨迹

因为图像

和行人视频轨迹

代表相同的人物身份；

行人图像

与视频轨迹特征向量

具有相同的行人身份，

与包含相同组成帧的视频轨迹特征向量

行人身份相对应，则视频轨迹特征向量

为正样本，若

与

的行人身份不同，则

为负样本；

因此，我们以三元组损失的形式定义相机内轨迹关联损失，加强图像与源视频轨迹的正确关联，以进行判别模型学习，相机内轨迹联合损失表示为：

其中[·]₊＝max(·,0)，表示从大到小排序；D_r,r是

和视频轨迹特征向量

之间的距离，D_r,i是

和排名第一的视频轨迹特征向量

之间的距离，D_r,j是

和排名第二的视频轨迹特征向量

之间的距离。m表示区分视频轨迹特征向量和其他轨迹的边距。

由于稀疏时空轨迹采样，我们认为D_r,r是正样本对距离。具体来说，如果r≠j，则负样本对距离是相机c中

和所有轨迹之间的最小距离。

将修正深度学习模型以将视频轨迹特征向量拉进到排名第一的轨迹。如果r＝j，则负样本对距离是

和所有轨迹之间次小的距离。

将进一步最小化

和

的视频轨迹特征向量不同。给定一个小批量次数N_bs，我们计算相机内行人联合学习损失函数(IAAL)表示为：

在所提出的方法中，我们将视频轨迹特征向量视为帧级特征向量，这意味着它们具有相同的维度。视频级特征向量可以通过特征聚合技术转化，例如平均池化、最大池化和基于聚合的回归层。然而，这些方法在小批量中学习视频级特征非常耗时。因此，我们使用更新策略来更新视频轨迹特征向量表中的特征。在训练阶段，从相机中随机选择一批人物图像，这些图像来自相同的视频轨迹或者不同的视频轨迹。采用指数移动平均(EMA)策略，通过使用来自相同源视频轨迹的帧表示来更新特征，如下所示：

其中b表示小批量学习迭代的次数。

用零初始化，根据上述公式进行更新，在每个摄像头中，视频轨迹特征向量代表了每个人的行人视频轨迹，并区分于其他行人视频轨迹。所有更新的视频轨迹特征向量都存储到相应的特征向量表中，以备进一步使用。

相机内轨迹联合学习，一个行人视频轨迹中的每张图像，与其它相机的行人视频轨迹的每张图像进行特征相似度的计算，挖掘相机间行人图像的潜在关系。按照相似度将行人视频轨迹进行排序，并交换计算顺序，交叉验证相似度最高的两个轨迹的身份信息，获得相机间联合学习损失函数；

为了利用相机之间潜在正轨迹对，我们采用循环排序视频轨迹特征向量对齐和阈值过滤策略。具体来说，给定来自相机p的视频轨迹特征向量

我们的目标是探索另一个在相机q中的轨迹是否具有相同的身份。为此，我们计算

与相机q中所有其他行人视频轨迹之间的距离。

视频轨迹特征向量

与相机q的所有视频轨迹特征向量之间的距离表示为：

排名第一的视频轨迹特征向量表示为

相机q中排名第一的视频轨迹特征向量

作为候选匹配的轨迹。为了提高匹配样本对的准确性和鲁棒性，计算

与相机p中所有行人视频轨迹的距离，进行排序，则视频轨迹特征向量

与相机p的所有视频轨迹特征向量之间的距离表示为：

并检索相应的候选匹配轨迹。循环排序轨迹对齐操作的结果可以表示为：

其中

表示

是相匹配的行人视频轨迹，

表示

不相匹配。此外，使用一种阈值过滤策略，要求它们的余弦相似度大于阈值λ。其他相机中所有轨迹相对于该轨迹

的权重可以定义为：

定义了一个潜在的正轨迹集

即网络中所有其它相机的轨迹

该视频轨迹特征向量

被视为来自其他相机的潜在正轨迹。通过SSTT采样和伪标签，我们为视频轨迹特征向量

随机分配一个伪标签

为视频轨迹特征向量

随机分配一个伪标签

由于我们在另一个相机上找到了

的潜在正轨迹

因此

的伪标签

可能是相机q下的伪标签

我们的目标是拉近潜在的正轨迹并学习每个轨迹的视图不变特征。因此，我们利用softmax函数为属于相机q中

的行人视频轨迹

中的帧

生成置信度分数：

其中a_q表示相机q中的所有视频轨迹特征向量，

为了避免噪声关联误导跨像机视频轨迹特征向量关联学习，我们应用置信系数，即

计算跨像机视频轨迹特征向量关联损失，如下所示：

因为集合

中的视频轨迹特征向量都是

的潜在正轨迹，我们计算视频轨迹特征向量的损失为：

整个小批量训练阶段的相机间行人联合学习损失函数公式如下：

对于小批量中的每个行人图像

视频轨迹特征向量

的导数可以写为：

其中

是

的伪标签，那么

的更新可以表述为：

上式中，γ指的是学习率和b表示第b个小批量学习的迭代次数。

的更新充分利用了其他相机底层的正样本对的信息。上述公式将所有潜在正轨迹对拉近，并使模型学习每个视频轨迹特征向量的视图具有不变性。通过这种方式，行人重识别模型将在相机之间找到更多潜在正轨迹对。

步骤5：模型训练，基于视频轨迹特征向量表建立无监督视频轨迹特征向量关联学习行人重识别模型，在稀疏空间轨迹采样的数据样本上进行训练；

为了学习更多的判别性视频轨迹特征向量并挖掘更多潜在正轨迹对，提出的无监督视频轨迹特征向量关联学习行人重识别模型(UAAL)首先用相机内行人联合学习损失函数(IAAL)损失训练几个时期，然后使用相机间行人联合学习损失函数(CAAL)损失来优化模型。

IAAL损失函数：

CAAL损失函数：

步骤6：进行无监督测试，通过查询集与验证集视频轨迹相似度评估策略，评估无监督视频轨迹特征向量关联学习行人重识别模型的性能；

测试的步骤为：

行人重识别视频数据集作为测试集，选取一个数据集作为查询集，选取另一个数据集作为验证集；将查询集与验证集分别输入到无监督视频轨迹特征向量关联学习行人重识别模型内；

提取查询集的行人视频轨迹的特征，得到查询集的视频轨迹特征向量；提取验证集的行人视频轨迹的特征，得到验证集的视频轨迹特征向量；

将查询集的视频轨迹特征向量与验证集的视频轨迹特征向量进行相似度比较，并进行排序；

采用轨迹-轨迹重识别评估策略，评估无监督视频轨迹特征向量关联学习行人重识别模型。

具体内容为：给定一个由UAAL训练的特征嵌入模型，在测试阶段，我们利用该模型来获得测试数据的特征。因此，我们首先提取查询视频轨迹的特征，然后根据它们与查询的相似性，将其与验证集中的视频轨迹进行排序，采用轨迹-轨迹重识别(T2T re-id)评估策略。

轨迹-轨迹重识别(T2T re-id)评估策略用于检索在图像集中与查询集的轨迹有相同身份的轨迹。查询集数据样本和图像集数据样本都是轨迹样本。给定一个查询集数据样本，去检索图像集中与之有相同身份的数据样本。这个目标与一般的基于视频的行人重识别的目标一致，即图像集中的数据样本是所有身份的轨迹样本。本发明根据一般行人重识别的设定去评估轨迹-轨迹重识别(T2T re-id)的性能。

本发明实施例提供了一种基于视频轨迹特征关联学习的无监督行人重识别方法，该方法具有以下有益效果：

2.基于视频轨迹关联特征学习无监督方法对于没有标记的数据进行网络的训练能够节省标注工作。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等，均应包含在本发明的保护范围之内。