CN112784772B

CN112784772B - 一种基于对比学习的相机内有监督跨相机行人重识别方法

Info

Publication number: CN112784772B
Application number: CN202110111355.8A
Authority: CN
Inventors: 王梦琳; 龚小谨; 赖百胜; 黄健强; 华先胜
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2022-05-27
Anticipated expiration: 2041-01-27
Also published as: CN112784772A

Abstract

本发明公开了一种基于对比学习的相机内有监督跨相机行人重识别方法。首先经过多相机拍摄采集，获得子图片集和待训练的行人图片集，独立地在每个相机下对图片所代表行人进行标注，不对跨相机行人进行标注。之后以每个相机下的每个行人作为一个节点构造行人图，基于行人图对跨相机行人进行关联，对待训练的行人图片集处理获得每个图片的伪标签；将待训练的行人图片集以小批次训练方式输入到参考网络模型中进行训练，使用渐进对比损失函数进行监督；重复小批次训练；重复进行多次训练周期的训练，将多次训练周期的训练过程分为两个阶段，对参考网络模型进行迭代优化，训练结束后，对训练所得的基础网络模型进行跨相机行人重识别应用。本发明方法在只需同个相机内标注的半监督场景下，可达到与全监督场景相当的重识别准确率。

Description

一种基于对比学习的相机内有监督跨相机行人重识别方法

技术领域

本发明属于计算机视觉技术领域的一种跨相机行人图像处理方法，尤其是涉及了一种基于对比学习的相机内有监督跨相机行人重识别方法。

背景技术

行人重识别要解决的问题是在不同的相机之间对同一个行人进行检索和匹配，也即跨相机行人重识别；由于行人重识别在安防、监控等方面的重要应用，这一任务在近几年吸引了工业界和学术界的广泛研究与关注。

虽然行人重识别任务取得了较大的发展，但目前行人重识别模型和方法的高性能依赖于大量的标注数据；在实际应用场景中，由于行人繁多复杂，数据量大，对数据集进行完全标注十分昂贵，代价较高，限制了行人重识别技术在实际生产生活中的应用。

在行人图片的标注过程中，最费时费力的往往是对跨相机行人的标注。而在同相机中，由于行人的轨迹大多在时间上具有连续性，对同一个相机下的行人进行行人标注是相对更为容易的。

相机内有监督场景最早被提出是在Zhu Xiangping等人发表在《Proceedings ofthe IEEE International Conference on Computer Vision Workshops》的《Intra-camera supervised person re-identification:A new benchmark》文章中，这一场景假设行人编码标签是在每个相机内被独立标注的，而跨相机之间的行人关系未知。

由于只有同相机内的行人标注信息，没有跨相机的行人关联信息，这一场景下的方法设计面临着一定的挑战，之前在这一场景下被提出的方法包括：Zhu Xiangping等人发表在《Proceedings of the IEEE International Conference on Computer VisionWorkshops》的《Intra-camera supervised person re-identification:A newbenchmark》，Qi Lei等人发表在《arXiv:1908.05669》的《Progressive Cross-cameraSoft-label Learning for Semi-supervised Person Re-identification》，ZhuXiangping等人发表在《arXiv:2002.05046》的《Intra-camera supervised person re-identification》，Qi Lei等人发表在《arXiv:1908.00862》的《Intra-camera supervisedperson re-identification》，以及Menglin Wang等人发表在《2021Winter Conference onApplications of Computer Vision(WACV’21)》的《Towards precise intra-camerasupervised person re-identification》；这些方法虽然取得了较好的模型性能，但与全监督相比仍存在较大的差距，尤其是在一些规模较大的数据集上和全监督模型的差距较为明显。

现有针对相机内有监督场景的行人重识别方法，主要存在的问题是没有充分利用已知的同相机内标注信息，以及对于跨相机行人的关联没有进行准确预测，因而有待改进。

发明内容

为了解决背景技术中存在的问题，本发明提供了一种基于对比学习的相机内有监督跨相机行人重识别方法，利用现有在全监督场景下性能较优的神经网络模型作为基础网络模型，在此基础上挖掘同相机内有监督场景的数据特点来设计方法，从而有效提高模型在同相机内有监督场景下的性能，达到与全监督场景相当的行人重识别准确率。

本发明是针对只有同相机内标注信息的场景进行多相机(跨相机)图像行人识别处理。

本发明的技术方案如下：

(1)在同一场景区域采用多相机进行拍摄采集，每个相机拍摄的图片组成子图片集，每张图片中只有一个行人，由多个相机拍摄的子图片集组成待训练的行人图片集，对待训练的行人图片集处理获得每个图片的伪标签h；

(2)将待训练的行人图片集以小批次训练方式输入到参考网络模型中进行训练，以小批次的图片作为输入，训练过程使用ADAM优化算法，使用本发明特殊设计的渐进对比损失函数进行监督；

(3)重复所述步骤(2)直至达到预设的批次训练数量num_batch，批次训练数量num_batch为小批次的批次数，作为一个训练周期；

(4)重复所述步骤(2)-(3)进行多次训练周期的训练，将多次训练周期的训练过程分为两个阶段，以预设固定数量的训练周期为第一个阶段，剩余的为第二阶段；对参考网络模型进行迭代优化，直至迭代次数达到预设的训练迭代次总数num_epoch；

(5)训练结束后，对训练所得的基础网络模型进行跨相机行人重识别应用。

所述(1)具体为：

(1.1)分别独立地对每个子图片集中标注每张图片的行人局部标签y和相机标签c，并根据每张图片的局部标签y和相机标签c处理获得每张图片的全局标签z；局部标签、相机标签和全局标签作为同相机标注信息；

本发明独立地在每个相机下对图片所代表行人进行标注，不对跨相机行人进行标注。

(1.2)采用基础网络模型并预训练后修改获得参考网络模型，将待训练的行人图片集，构造行人记忆特征矩阵K并将其中的各个元素全零初始化，行人记忆特征矩阵的第p行表示全局标签的值为p的行人特征；

(1.3)对待训练的行人图片集，使用参考网络模型提取每张图片的用于区分不同行人的图片特征，参考网络模型的输入是图片，输出是图片特征，对具有相同全局标签z_k的所有图片的图片特征进行平均，得到全局标签等于z_k的行人的最新平均特征，进而得到各个行人的最新平均特征；具有相同全局标签z_k意味着这些相同全局标签z_k的所有图片中的行人是同一个，相机也是同一个。

(1.4)以每个行人作为一个节点构造带权重的行人图，并采用所设计的基于相机内有监督约束的图分割方法将行人图划分成若干个子图，其中每个子图中有若干个行人的节点，对各个子图中的行人赋上伪标签h；

伪标签h具体是区分不同行人的标签。

所述步骤(1.1)中，每个相机拍摄的子图片集是指在所述行人图片集中来自同一相机拍摄的图片所组成的图片集合；所述行人图片集一共有来自C个相机的总共M张图片，经过相机内标注总共获得N个同相机标注行人，所述的同相机标注行人是在同一个相机下独立标注所获得的若干个行人中的任一个行人；相机内标注是指独立地在每个相机下，对该相机的子图片集中每张图片所代表的行人进行标注。注意实际上同一个行人可能出现在多个相机下，所以在所有不同相机下标注的若干个行人可能实际属于同一个行人。

参看更改之后的图3，每一个“同相机标注行人”是指在同一个相机下独立标注所获得的若干个行人中的任一个行人，例如图3中的#1是一个行人，#2是另一个行人，…,#4也是一个行人，不同的行人可能属于同一个人物个体，也可能属于不同人物个体。这里说是在不同相机拍摄的实际属于同一个行人的行人，感觉是不正确的；本发明想要表示的“同相机标注行人”，就是图3中的#1，#2，#3，…，#7中的任意一个。

同相机标注行人如图3所示，图3(b)是对于相机内标注的示意图在该图3(b)中总共画出了3个相机视角(camera 1,2,3)，在每个相机下独立地对行人所代表的图片进行标注，其中camera 1下面标注了3个同相机标注行人，camera 2下面标注了2个同相机标注行人，camera 3下面标注了2个同相机标注行人，所以这三个相机下总共的相机内标注行人数量等于3+2+2＝7。

虽然不同相机下的同相机标注行人可能实际属于同一个行人，但这一信息是在标注时没有提供的/不知道的，需要通过算法来找出来，跨相机的哪些同相机标注行人实际最可能属于同一个行人。

单独在一个相机下标注获得的，而实际上同一个行人可能出现在多个相机下，所以在所有不同相机下标注的若干个行人可能实际属于同一个行人，作为同相机标注行人。

在第c个相机下子图片集一共有M_c张图片，每张图片具有相同的相机标签c_c，相机标签c_c为第c个相机的序数；每张图片根据行人的不同设置行人局部标签y_k，行人局部标签y_k为同相机标注行人的序数，第k张图片x_k的行人局部标签y_k取值范围是[0,N_c-1]，N_c表示第c个相机下行人总数，由图片的行人局部标签y_k和相机标签c_k处理获得该图片的全局标签z_k：

其中，k表示图片的序号。

所述步骤(1.2)中，所述的基础网络模型采用ResNet-50神经网络，通过标准图片集进行预训练获得训练后的基础网络模型；然后再对训练后的基础网络模型保留除最后用于分类的全连接层之外的其余网络结构及参数作为参考网络模型(CNNbackbone)；多相机拍摄采集图片并经过同相机标注后获得具有同相机标注信息的行人图片集作为待训练的行人图片集。

建立大小为N*d的行人记忆特征矩阵K，其中d为基础网络模型输出特征的维度，N为行人图片集中的同相机标注过行人的总数。

所述步骤(1.4)中，以一个同相机标注行人作为一个节点，节点间通过边连接，以同相机标注行人间的不相似度作为边，从而构造带权重的行人图，表示为：

ε＝{e_ij|i，j∈{1，2，...，N}}

W＝{w(e_ij)|i，j∈{1，2，...，N}}

其中，

表示所构造带权重的行人图包含的数据；

表示所有节点的集合，每个节点表示一个同相机标注行人；ε＝{e_ij|i，j∈{1，2，...，N}}表示节点之间的边的集合，<>表示集合，C表示相机标签的集合，W表示节点间的不相似度的集合；e_ij表示同相机标注行人i和同相机标注行人j所在节点之间的边，w(e_ij)表示同相机标注行人i和同相机标注行人j之间的不相似度；

行人图中，节点之间的边e_ij表示为：

Dist(i,j)＝＝||f^a(i)-f^a(j)||

其中，∧表示交集，T1代表预先设定的距离阈值，c(i)代表同相机标注行人i的相机标签；Dist(i,j)表示同相机标注行人i和同相机标注行人j之间的欧氏距离，f^a(i)和f^a(j)分别代表同相机标注行人i的最新平均特征和同相机标注行人j的最新平均特征，||*||代表欧氏距离；在e_ij＝1时，w(e_ij)＝Dist(i,j)。

在带权重的行人图中，先对各个节点的同相机标注行人进行以下判断和处理：在多相机下，各个相机下各自的一个同相机标注行人实质为同一个行人，则将该多个同相机标注行人进行关联；且在一个相机下，若有多个同相机标注行人实质为同一个行人，则该行人的仅有一个同相机标注行人被关联与其他相机下的同相机标注行人。

所设计的基于同相机有监督约束的图分割方法中，基于在同相机内有监督场景的特点，实质性建立了以下的两个约束条件，用于对不同的同相机标注行人进行关联。对两个或多个同相机标注行人进行关联指的是认为两个或多个同相机标注行人实质上代表了同一个人物个体。

实质性建立了在行人关联时以下的两个约束条件：

约束条件一：每个同相机标注行人不能和同个相机下的其他同相机标注行人进行关联；

约束条件二：每个同相机标注行人可以和来自不同相机下的多个同相机标注行人进行关联，但在任一个相机下至多关联同一行人的一个同相机标注行人。

所设计的基于同相机有监督约束的图分割方法具体为执行以下步骤：

S1、输入带权重的行人图

S2、设置分割结果PT和队列，分割结果PT为一个集合，由多个节点组构成，队列由多个边构成；

S3、初始化一个队列为空队列，初始化行人图的分割结果PT为空集，

S4、将所有不相似度不等于0所在的边，按照不相似度从小到大进行排序，并依次放入队列中；

S5、每次从队列中取出一条边，进行以下判断：

如果边中的两个节点i和j均不在分割结果PT所包含的任一个节点组中，则创建一个新的节点组G＝{i,j}，并把新的节点组G加入分割结果PT中；

如果边中的两个节点i和j中，有一个节点i在分割结果PT所包含的某个节点组G_p中，另一个节点j不在，则判断另一个节点j对应的相机c(j)是否与节点组G_p中所有节点对应的相机集合c(G_p)有交集：

如果没有交集，则把另一个节点j加入节点组G_p中；

如果有交集，则不作处理；

如果边中的两个节点i和j分别在分割结果PT中的两个节点组G_p和G_q中：判断两个节点组中各自所有节点对应的相机集合c(G_p)和c(G_q)之间是否有交集：

如果没有交集，就把集合G_p和G_q合并成一个集合；

如果有交集，则不作处理；

S6、重复S5直至队列为空，遍历了队列中的每个边；

S7、输出行人图的分割结果PT，分割结果PT所包含的每个节点组作为一个子图，同一节点组中各个节点所代表的同相机标注行人均分配相同的伪标签h，不同节点组中节点所代表的同相机标注行人分配不同的伪标签h。

基于在行人关联时的上述两个约束条件，本发明所设计的基于同相机有监督约束的图分割方法具体为一种考虑相机约束的贪婪式的合并方式。

所述步骤(2)中，训练过程以小批次的方式进行训练，将待训练的行人图片集分为各个小批次，每个小批次中从已赋上伪标签的待训练的行人图片集随机采样B张图片，B张图片中随机采样到P个同相机标注行人，每个同相机标注行人再对应随机采样K1张图片，输入到参考网络模型中，每次训练获得图片特征f。

所述步骤(2)中，用来监督网络训练的渐进对比损失函数L设置为：

S(p，x_k)＝K[p]^Tf(x_k)/τ

其中，exp(*)是指数函数，S(p，x_i)表示同相机标注行人p所对应的行人记忆特征K[p]和输入图像的特征f(x_i)之间的相似度，f(x_k)表示第k个图片x_i输入到参考网络模型的图片特征f，K[p]表示行人记忆特征矩阵的第p行；τ表示尺度变换因子；P_k和N_k分别表示第k个图片x_i所对应的正、负关联行人集合，v表示正关联行人集合P_k中的元素，u表示负关联行人集合N_k中的元素；B表示每个小批次中随机采样的图片数量。

在每个小批次训练之后，以小批次内获得的图片特征f来更新行人记忆特征矩阵，行人记忆特征矩阵更新表示为：

K[p]←μK[p]+(1-μ)f(x_k)

其中，K[p]是行人记忆特征矩阵的第p行，μ是更新速率，x_k是第i张图片，f(x_k)是第k张图片x_k的图片特征，←表示赋值。

所述的训练过程包括两个阶段，以前面预设固定数量的训练周期为第一个阶段，剩余的所有训练周期为第二阶段；在两个阶段，设置不同的正关联行人集合P_k和负关联行人集合N_k：

第一训练阶段：

正关联行人集合P_k只包含一个元素，元素为输入的第k个图片x_k的全局标签z_k，P_k＝{z_k}，意义表示和输入的第k个图片x_k所属于的、并且和输入的第k个图片x_k在同个相机下的同相机标注行人；

负关联行人集合N_k包含了和输入的第k个图片x_k在同个相机下除了全局标签z_k之外的其他所有全局标签，N_k＝{z_j|c(z_j)＝(z_k)Λz_j≠z_k}；

第二训练阶段：

正关联行人集合P_k包含分割结果PT中输入的第k个图片x_k的全局标签z_k所在的节点组中所有节点对应的全局标签，即P_k＝G_p∈PTΛz_k∈G_p；

负关联行人集合N_k为所有的同相机标注行人中，不在正关联行人集合P_k中的其他所有同相机标注行人的全局标签构成的集合，N_k＝PT\G_p。

在训练初期，网络模型学到的特征对于不同行人的区分能力还比较弱，所以对于跨相机行人关联的准确度较低，因此在初期阶段只利用了给定的相机内标注信息，来获取和每张图片属于同一个相机的局部的正负关联行人集合；随着训练的继续进行，网络模型学到的特征对于不同行人的识别和区分能力逐渐增强，所设计的图分割算法此时能够较为准确预测跨相机行人的关联，因此在后期阶段利用所设计的图分割算法，以和输入图片具有相同伪标签的行人的索引构成正关联行人集合，以和输入图片具有不同伪标签的行人的索引构成负关联行人集合。通过这样的两阶段的关联策略，能够在整个训练过程中利用最为可靠的关联信息来进行模型优化，从而学习到更为有效的特征。

所述(5)中，对于待搜索图片，将待搜索图片输入到训练所得的基础网络模型后输出图片特征，进而将图片特征和已知图片数据库中每个图片预先输入到训练所得的基础网络模型后获得的各个图片特征进行比较，获得待搜索图片和和已知图片数据库中每个图片之间的特征相似度，按照特征相似度排序将已知图片数据库中前若干个图片进行呈现。

与现有方法相比，本发明具有以下优点：

1、本发明提出了一种基于同相机内有监督场景特点的行人图分割方法，来预测跨相机行人关联。相比现有方法多采用的前K个最近邻作为跨相机行人关联，本发明所提出的行人图分割方法充分考虑了同相机有监督场景对于关联结果的约束，保证了更为准确的跨相机行人关联；

2、本发明提出了一种由行人图指导的对比学习框架，该框架把同相机学习和跨相机学习统一起来，使用一个渐进的对比损失函数来进行监督，从而使得基础网络模型能够进行端到端的优化，学到对不同行人有更强区分能力的特征；

3、本发明在三个公开的标准行人重识别数据集，包括Market-1501、DukeMTMC-reID和MSMT17上，取得了较好的性能，验证了所提出方法的有效性。

本发明在只需要相机内图片标注的场景下，可有效预测准确的跨相机行人关联，并达到与全监督场景下相当的重识别准确度。

附图说明

图1为本发明方法的流程示意图。

图2为本发明实施例中跨相机行人图关联&网络模型对比学习的示意图。

图3为本发明同相机标注行人的标注示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而不对其起任何限定作用。

如图1所示，本发明的实施例及其实施过程如下：

S01，选择一个包含多个相机的行人重识别数据集，并独立地在每个相机下进行图片标注。

本实施例中，所选择的行人重识别数据集是由一个特定区域中放置在不同位置的多个相机所拍摄的行人图片所组成，不同相机的数量至少为两个。独立地在每个相机下进行图片标注是为了获取同相机标注信息，其具体为：对于同个相机下的图片，具有相同行人的图片给予相同的局部行人标签，不同行人的图片给予不同的局部行人标签；在具体实施中，由于每个相机独立标注，实际同个行人在不同相机下的图片可能会标注为不同的局部行人标签；不同相机下的图片局部行人标签不具有直接的关联性。此外，同个相机下的图片给予相同的相机标签；根据每张图片的局部行人标签y和相机标签c，标注每张图片的全局标签z；局部标签、相机标签和全局标签作为同相机标注信息；

S02，选择经预训练的基础网络模型，构造行人记忆特征矩阵并进行初始化。

本实施例中，基础网络模型选择在行人重识别任务上常用的ResNet-50网络，且网络预先在大规模图像分类数据集(如ImageNet)上进行预训练。行人记忆特征矩阵的第p行存放了具有局部标签p的行人特征，初始化方式采用全零初始化；

再对训练后的基础网络模型保留除最后用于分类的全连接层之外的其余网络结构及参数作为参考网络模型(CNNbackbone)。

如图2所示，特征提取基础网络是参考网络模型进行修改所得，由若干个顺序连接的由多个卷积层组成的卷积块(Conv-block)所构成；具体修改方式为：保留参考网络模型中，除最后全连接分类层之外的其余网络层及参数，作为参考网络模型。

行人记忆特征矩阵标记为K，初始化为一个d x N大小的全零矩阵；其中，N为待训练行人图片集中每个相机内不同行人局部标签数量的累积总和；d为参考网络模型输出的特征的维度，本实施例中d值为2048。

S03，获取最新的行人平均特征，建立行人图，采用所设计的图分割方法将行人图分割成若干个子图。

最新的行人平均特征获取方式为：先通过参考网络模型提取所有图片的特征，然后对具有相同局部行人标签的图片特征进行平均，作为该局部行人标签的最新的行人特征；

以每个局部行人作为一个节点构造行人图，在构造图的边时，距离阈值T1在本实施例中设置为0.7；通过所设计的图分割方法，可将整个行人图分割成至少一个子图，其中每个子图中的任一局部行人和该子图中其他局部行人进行关联；对于只有一个局部行人的至少一个子图，在本实施例中认为其为噪声，其中的局部行人的图片不作为参考网络模型的训练输入；作为参考网络模型的训练输入的有效图片数量等于总图片数量减去噪声图片的数量；

S04，以所述小批次图片作为输入，对所述参考网络模型进行迭代训练。

如图2所示，参考网络模型的训练由输入图片集、特征提取基础网络和对比学习这三个部分所构成。

训练过程以小批次方式进行训练，小批次方式是指图片集所有图片分批次进行训练，每次随机选择B张采样的图片作为一个小批次，其中B值在本实施例中选择32。

训练过程使用ADAM优化算法对网络模型进行参数更新；ADAM优化算法是随机梯度下降算法的变式，使用自适应学习率来更新网络参数；与随机梯度下降算法相似，ADAM优化算法也通过计算网络模型预测值与实际真值之间的误差，以链式法则来更新网络参数的梯度，进而更新网络参数值。

在训练过程中，每个小批次的图片首先输入特征提取基础网络以提取图片特征，通过将提取的输入图片特征和行人记忆特征矩阵进行比较，来计算输入的小批次图片的渐进损失函数值；渐进损失函数值作为网络误差值，用来作为ADAM优化算法的输入，更新特征提取网络的参数值。之后以提取的小批次的图片特征更新行人记忆特征矩阵。

重复进行小批次的训练直到指定次数num_batch，作为一个训练周期。本实施例中，num_batch设置为有效图片数量除以小批次的图片数量B，并取整的结果；

之后重复进行S03和S04两个步骤，即交替进行行人图的分割和参考网络模型的迭代训练，直至指定次数num_epoch，在本实施例中num_epoch设置为50；

在本实施例中，其他相关参数设置为：ADAM优化算法的权重衰减weight_decay＝0.0005,初始学习率base_lr＝0.00035，每经过20个epoch减小为原来的1/10；每个epoch为一次S03步骤和S04步骤的重复；渐进损失函数的尺度变换因子τ设置为0.7，P_i和N_i在前10个epoch使用第一训练阶段的形式；在之后的40个epoch使用第二训练阶段的形式；记忆特征矩阵的更新速率μ设置为0.2；

S05，训练结束，对训练所得参考网络模型进行行人重识别应用。

为验证本发明方法的有效性，本发明在三个公开的标准行人重识别数据集Market-1501,DukeMTMC-reID和MSMT17上进行验证，与目前最前沿的行人重识别方法进行对比：

Market-1501数据集总共有来自1501个行人的32668张带有标注的图片，数据集总共有6个相机视角。

DukeMTMC-reID总共有来自1404个行人的36411张带有标注的图片，数据集总共有8个相机视角。

MSMT17数据集总共有来自4101个行人的126441张带有标注的图片，数据集总共有15个相机视角；相比Market-1501和DukeMTMC-re行人数据集，MSMT17数据集行人数量更多，涵盖跨天的图片数据，因此在行人重识别难度上相对更大。

本发明主要以行人重识别中常用的两个评价指标：CMC和mAP来评估重识别准确度；实验主要包括两部分，第一部分是本发明中各个模块的控制变量实验，第二部分是本发明方法与目前最前沿的行人重识别方法进行对比实验。

第一部分：本发明中各个模块的控制变量实验，是为了说明本发明中各个模块的有效性；在Market-1501,DukeMTMC-reID和MSMT17三个数据集上，不同的模型变式的评测结果如表1所示：

表1

表1中，M11是本发明所提出方法，M1-M5是对于局部行人跨相机关联方式的控制变量实验，在模型对比学习部分与本发明保持一致，但采用了不同形式的局部行人跨相机关联方式；其中M1-M3采用了根据图片特征和记忆特征矩阵相似度选取前KNN个最近邻的方式，作为跨相机关联；KNN在M1-M3中分别取值为1，2，3；M4采用了对局部行人进行聚类的方式获取行人关联结果；M5采用了《Towards precise intra-camera supervised personre-identification,WACV 2021》论文中所提出的跨相机局部行人关联策略；通过对比M11和M1-M5可以看出，当把局部行人跨相机关联方式替换成其他的策略时，模型在三个数据集上的准确率都有较为明显的下降，从而验证了本发明中提出的图分割方法对于跨相机局部行人关联的有效性和优越性；

M6-M9是对于模型对比学习的控制变量实验，在局部行人跨相机关联方式上与本发明保持一致，同时把对比学习的损失函数替换成其他的常见形式进行实验；其中M6采用了实例级别(每张图片作为一个实例)的记忆单元并计算实例级别的对比损失函数；M7采用了《End-to-end learning of visual representations from uncurated instructionalvideos,CVPR2020》论文中所提出的MIL-NCE对比损失函数；M8只采用了本发明中渐进对比损失函数在第一训练阶段的P_i和N_i形式；M9只采用了本发明中渐进对比损失函数在第二训练阶段的P_i和N_i形式；M10只采用了本发明中渐进对比损失函数在第二训练阶段的P_i和N_i形式，同时在跨相机局部行人关联方式上采用了《Towards precise intra-camerasupervised person re-identification,WACV 2021》论文中所提出的跨相机局部行人关联策略；通过比较本发明所提出的方法M11和M6-M10，可以看到当对比损失函数采用其他常见形式时，性能相比本发明的模型性能均有一定的下降，从而说明了本发明所提出的渐进对比损失函数的有效性；

表1中最后一行的Oracle表示当采用全监督标签进行训练时的模型性能，代表本发明所提出方法的性能上限。通过对比M11和Oracle可以看到，本发明所提的的同相机有监督场景下的模型性能在Market-1501和DukeMTMC-reID数据集上已经十分接近性能上限，在MSMT17数据集上也与性能上限的差距较小，体现了本发明在有限标注场景下的实用性。

表2

表2中，GCL是本发明所提出的方法；首先通过与无监督方法(BUC,ECN,MMCL,MMT,SpCL)、半监督方法(OneEX,EDS,SSG)和同相机内有监督场景方法(MTML,PCSL,ACAN,MATE,Precise-ICS)进行对比，可以看出本发明所提出方法在三个数据集上的性能均领先于当前性能最好方法；通过进一步与全监督方法(PCB,BoT,DGNet,ABD-Net)进行对比，可以看出本发明所提出方法与全监督方法PCB和BoT的性能相当，同时接近其他全监督方法性能；在只有同相机内标注信息的情况下，本发明所提出方法达到了与全标注场景下的方法接近的性能，体现了本发明的实用性和有益性。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，但并不是用来限制本发明，任何在本发明的原则范围内所进行的变动和修改，都应当包含在本发明的保护范围内。

Claims

1.一种基于对比学习的相机内有监督跨相机行人重识别方法，其特征在于，方法包括：

(1)在同一场景区域采用多相机进行拍摄采集，每个相机拍摄的图片组成子图片集，由多个相机拍摄的子图片集组成待训练的行人图片集，对待训练的行人图片集处理获得每个图片的伪标签h；

(2)将待训练的行人图片集以小批次训练方式输入到参考网络模型中进行训练，训练过程使用ADAM优化算法，使用渐进对比损失函数进行监督；

(3)重复所述步骤(2)直至达到预设的批次训练数量num_batch，作为一个训练周期；

(4)重复所述步骤(2)-(3)进行多次训练周期的训练，将多次训练周期的训练过程分为两个阶段，对参考网络模型进行迭代优化，直至迭代次数达到预设的训练迭代次总数num_epoch；

(5)训练结束后，对训练所得的基础网络模型进行跨相机行人重识别应用；

所述步骤(1)具体为：

(1.1)分别独立地对每个子图片集中标注每张图片的行人局部标签y和相机标签c，并根据每张图片的局部标签y和相机标签c处理获得每张图片的全局标签z；

(1.3)对待训练的行人图片集，使用参考网络模型提取每张图片的图片特征，对具有相同全局标签z_k的所有图片的图片特征进行平均，得到全局标签等于z_k的行人的最新平均特征，进而得到各个行人的最新平均特征；

(1.4)以每个行人作为一个节点构造带权重的行人图，并采用基于相机内有监督约束的图分割方法将行人图划分成若干个子图，其中每个子图中有若干个行人的节点，对各个子图中的行人赋上伪标签h；

ε＝{e_ij|i，j∈{1，2，...，N}}

W＝{w(e_ij)|i，j∈{1，2，...，N}}

其中，

表示所构造带权重的行人图包含的数据；

表示所有节点的集合，每个节点表示一个同相机标注行人；ε＝{e_ij|i，j∈{1，2，...，N}}表示节点之间的边的集合，＜＞表示集合，C表示相机标签的集合，W表示节点间的不相似度的集合；e_ij表示同相机标注行人i和同相机标注行人j所在节点之间的边，w(e_ij)表示同相机标注行人i和同相机标注行人j之间的不相似度；

行人图中，节点之间的边e_ij表示为：

Dist(i，j)＝＝||f^a(i)-f^a(j)||

其中，∧表示交集，T1代表预先设定的距离阈值，c(i)代表同相机标注行人i的相机标签；Dist(i，j)表示同相机标注行人i和同相机标注行人j之间的欧氏距离，f^a(i)和f^a(j)分别代表同相机标注行人i的最新平均特征和同相机标注行人j的最新平均特征，||*||代表欧氏距离；

基于同相机有监督约束的图分割方法具体为执行以下步骤：

S1、输入带权重的行人图

S5、每次从队列中取出一条边，进行以下判断：

如果边中的两个节点i和j均不在分割结果PT所包含的任一个节点组中，则创建一个新的节点组G＝{i，j}，并把新的节点组G加入分割结果PT中；

如果没有交集，则把另一个节点j加入节点组G_p中；

如果有交集，则不作处理；

如果没有交集，就把集合G_p和G_q合并成一个集合；

如果有交集，则不作处理；

S6、重复S5直至队列为空，遍历了队列中的每个边；

S7、输出行人图的分割结果PT，分割结果PT所包含的每个节点组作为一个子图，同一节点组中各个节点所代表的同相机标注行人均分配相同的伪标签h，不同节点组中节点所代表的同相机标注行人分配不同的伪标签h；

S(p，x_k)＝K[p]^Tf(x_k)/τ

2.根据权利要求1所述的一种基于对比学习的相机内有监督跨相机行人重识别方法，其特征在于：所述步骤(1.1)中，所述行人图片集一共有来自C个相机的总共M张图片，经过相机内标注总共获得N个同相机标注行人，所述的同相机标注行人是在同一个相机下独立标注所获得的若干个行人中的任一个行人；

在第c个相机下子图片集一共有M_c张图片，每张图片具有相同的相机标签c_c，相机标签c_c为第c个相机的序数；每张图片根据行人的不同设置行人局部标签y_k，行人局部标签y_k为同相机标注行人的序数，第k张图片x_k的行人局部标签y_k取值范围是[0，N_c-1]，N_c表示第c个相机下行人总数，由图片的行人局部标签y_k和相机标签c_k处理获得该图片的全局标签z_k：

其中，k表示图片的序号。

3.根据权利要求1所述的一种基于对比学习的相机内有监督跨相机行人重识别方法，其特征在于：所述步骤(1.2)中，所述的基础网络模型采用ResNet-50神经网络，通过标准图片集进行预训练获得训练后的基础网络模型；然后再对训练后的基础网络模型保留除最后用于分类的全连接层之外的其余网络结构及参数作为参考网络模型；建立大小为N*d的行人记忆特征矩阵K，其中d为基础网络模型输出特征的维度，N为行人图片集中的同相机标注过行人的总数。

4.根据权利要求1所述的一种基于对比学习的相机内有监督跨相机行人重识别方法，其特征在于：

5.根据权利要求1所述的一种基于对比学习的相机内有监督跨相机行人重识别方法，其特征在于：在每个小批次训练之后，以小批次内获得的图片特征f来更新行人记忆特征矩阵，行人记忆特征矩阵更新表示为：

K[p]←μK[p]+(1-μ)f(x_k)

其中，K[p]是行人记忆特征矩阵的第p行，μ是更新速率，xk是第i张图片，f(x_k)是第k张图片xk的图片特征，←表示赋值。

6.根据权利要求1所述的一种基于对比学习的相机内有监督跨相机行人重识别方法，其特征在于：所述的训练过程包括两个阶段，以前面预设固定数量的训练周期为第一个阶段，剩余的所有训练周期为第二阶段；在两个阶段，设置不同的正关联行人集合P_k和负关联行人集合N_k：

第一训练阶段：正关联行人集合P_k只包含一个元素，元素为输入的第k个图片xk的全局标签zk，P_k＝{z_k}；负关联行人集合N_k包含了和输入的第k个图片xk在同个相机下除了全局标签zk之外的其他所有全局标签；

第二训练阶段：正关联行人集合P_k包含分割结果PT中输入的第k个图片xk的全局标签zk所在的节点组中所有节点对应的全局标签；负关联行人集合N_k为所有的同相机标注行人中，不在正关联行人集合P_k中的其他所有同相机标注行人的全局标签构成的集合。

7.根据权利要求1所述的一种基于对比学习的相机内有监督跨相机行人重识别方法，其特征在于：所述(5)中，对于待搜索图片，将待搜索图片输入到训练所得的基础网络模型后输出图片特征，进而将图片特征和已知图片数据库中每个图片预先输入到训练所得的基础网络模型后获得的各个图片特征进行比较，获得待搜索图片和已知图片数据库中每个图片之间的特征相似度，按照特征相似度排序将已知图片数据库中前若干个图片进行呈现。