CN114387623A

CN114387623A - 一种基于多粒度块特征的无监督行人重识别方法

Info

Publication number: CN114387623A
Application number: CN202210052862.3A
Authority: CN
Inventors: 付利华; 陈人杰; 杜金莲; 王丹; 董光建
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2022-04-22
Anticipated expiration: 2042-01-18

Abstract

本发明公开了一种基于多粒度块特征的无监督行人重识别方法，用于解决无监督行人重识别精度不高，行人特征表示辨别力不强的问题，提升了模型的可扩展性。首先引入了多粒度块特征提取模块，使得模型在能获取数据集公共的细粒度判别信息的同时能够关注到无标签数据集特有的较大粒度的特征；然后使用单粒度实例判别性学习模块挖掘不同单一粒度的实例级特征；在此基础上，进一步使用多粒度实例判别性学习模块获得更具有判别力的多粒度全局特征表示。本发明能够在无标签的情况下获得判别力较强的行人特征，从而保证较好的识别效果。

Description

一种基于多粒度块特征的无监督行人重识别方法

技术领域

本发明属于图像处理和计算机视觉领域，涉及行人重识别的方法，具体为一种基于多粒度块特征的无监督行人重识别方法。

背景技术

行人重识别通常被定义为一项图像检索任务，旨在跨摄像机匹配同一个行人的图像。由于在安防和监控领域的重要应用前景，行人重识别受到了越来越多的关注。其中，有监督行人重识别方法得以快速发展并获得了不错的效果。但是，有监督的行人重识别模型需要使用大量有标签数据进行训练，以训练得到较为鲁棒的重识别模型，而数据集的标注需要消耗大量的时间和精力。这使得有监督的行人重识别方法难以被直接用于现实生活中，扩展性非常有限。因此，对于无标签的目标数据集，行人重识别模型如何有效地学习到目标域的判别信息，是无监督行人重识别技术的一项重要挑战。

现有的无监督行人重识别方法主要分为基于伪标签的行人重识别方法、基于生成对抗网络的行人重识别方法。基于伪标签的方法主要使用聚类的方法为无标签数据集生成伪标签，并使用这些带有伪标签的数据集对网络进行训练。基于生成对抗网络的方法则使用生成对抗网络将有标签数据集转化成无标签数据集风格的图像并保留标签信息，并以此来训练模型。其中基于伪标签的行人重识别方法受到噪声的影响，生成伪标签的可信度不高；基于生成对抗网络的行人重识别方法忽略了数据集内部的风格差异，因此转换后的图像具有很大的随机性。此外，这些无监督学习方法共有的缺点是行人特征表示辨别力不足，不能真正学习到无标签数据集的判别信息。

为了解决上述问题，本发明提出一种基于多粒度块特征的无监督行人重识别方法。

发明内容

本发明用于解决无监督行人重识别的识别精度不高，行人特征表示辨别力不强的问题。为了解决上述问题，本发明提供了一种基于多粒度块特征表示的无监督行人重识别方法。首先引入了多粒度块特征提取模块，使得模型在能获取数据集公共的细粒度判别信息的同时能够关注到无标签数据集特有的较大粒度的特征；然后使用单粒度实例判别性学习模块挖掘不同单一粒度的实例级特征；在此基础上，进一步使用多粒度实例判别性学习模块获得更具有判别力的多粒度全局特征表示。本发明能够在无标签的情况下获得判别力较强的行人特征，从而保证较好的识别效果。

具体包括以下步骤：

步骤1)设计多粒度块特征提取模块，将行人图像送入多粒度块特征提取模块，首先通过骨干网络获得行人图像的特征图，并将获取的行人特征图输入三个不同粒度的块生成网络，得到三种粒度的块特征，然后输入块判别性学习损失子模块，得到具有更强判别力的块特征；

步骤2)设计单粒度实例判别性学习模块，分别将具有相同粒度的块特征组合成多个单粒度实例特征，然后将单粒度实例特征分别进行单粒度实例判别性学习损失计算，使模型能够同时学习不同粒度的单粒度实例特征；

步骤3)设计多粒度实例判别性学习模块，将多粒度块特征提取模块提取的块特征组合成一个多粒度实例特征，然后将该多粒度实例特征进行多粒度实例判别性学习损失计算，使模型可以学习到多粒度全局特征表示；

步骤4)将块判别性学习损失、单粒度实例判别性学习损失以及多粒度实例判别性学习损失的加权和作为总损失训练整个模型；

步骤5)测试阶段，行人图像经过多粒度块特征提取模块，得到不同粒度的块特征后，将其首尾连接作为最终的多粒度行人特征表示，通过计算查询图像与图像库中图像的相似度，返回重识别结果。

进一步，所属步骤1)中的多粒度块特征提取模块，获得多粒度块特征，具体为：

1.1)多粒度块特征提取模块由一个基础CNN特征提取网络以及三个不同的块生成网络PGN_3P、PGN_4P与PGN_6P构成。其中，PGN_3P和PGN_4P在无标签数据集上进行初始化以及微调，用于获取无标签数据集上较大尺度的块级特征，如衣服、裤子等；PGN_6P在一个辅助数据集上预训练并固定网络参数，用于获取数据集间所共有的小尺度图像块特征，如帽子、鞋子等；

将待识别的无标签行人图像输入多粒度块特征提取模块，首先通过一个基础CNN特征提取网络，得到输入行人图像的初始特征图；然后将该初始特征图分别输入三个块生成网络PGN_3P、PGN_4P与PGN_6P，分别得到三组具有不同粒度的块特征，分别是PGN_3P、PGN_4P与PGN_6P生成的3个、4个以及6个块特征，共13个不同粒度的块特征，每个块特征的维度大小均为2048维，这些不同粒度的块特征具有不同的语义信息，可以相互补充从而挖掘潜在的判别信息；

1.2)为了减少特征的冗余度，使用一层全连接层将这些块特征向量降维到256维，并输入块判别性学习损失子模块，进行块判别性学习损失计算，以获得具有更强判别力的块特征。

进一步，所属步骤2)中单粒度实例判别性学习模块，将无标签数据集中行人图像的块特征向量输入单粒度实例判别性学习模块，具体为：

2.1)首先，多粒度块特征提取模块输出的13个256维的块特征通过一层全连接层，降维到128维，得到13个128维的块特征；

2.2)然后，分别将这13个128维的块特征中具有相同粒度的块特征进行首尾相连，得到3个单粒度实例特征；

2.3)最后，基于硬难例三元组损失设计单粒度实例判别性学习损失，并将3个单粒度实例特征分别进行单粒度实例判别性学习损失计算，使模型能够同时学习不同粒度的单粒度实例特征。

进一步，所属步骤3)中多粒度实例判别性学习模块，将无标签数据集中行人图像的块特征向量输入多粒度实例判别性学习模块，使模型可以学习到更具判别力的多粒度实例特征。具体为：

3.1)首先，将多粒度块特征提取模块输出的13个256维块特征进行首尾连接，得到一个3328维的特征向量；

3.2)然后，将该3328维特征向量送入全连接层，将其维度扩展为4096维；

3.3)最后，基于Softmax分类损失设计多粒度实例判别性学习损失，并将该4096维特征向量进行多粒度实例判别性学习损失计算，使模型可以学习到多粒度全局特征表示。

本发明提供了一种基于多粒度块特征的无监督行人重识别方法，首先引入了多粒度特征提取模块，使得模型在获取数据集公共的细粒度判别信息的同时能够关注到无标签数据集特有的较大粒度特征；单粒度实例判别性学习模块使得模型能够学习到不同粒度下的单粒度实例特征；多粒度实例判别性学习模块则能保证由多粒度块特征提取模块得到的不同粒度的块特征能够互相补充，形成更具有判别力的全局多粒度特征表示。本发明结合多粒度特征提取模块、单粒度实例判别性学习模块以及多粒度实例判别性学习模块，在无标签的数据集上可以达到良好的行人重识别效果。

有益效果

首先，本发明将多粒度特征的思想引入无监督的行人重识别，设计多粒度块特征提取模块，提取更多的行人局部细节信息，得到具有更丰富判别信息的多粒度行人块特征表示；其次，基于单粒度实例判别性学习模块和多粒度实例判别性学习模块，进行不同粒度的实例判别性学习，充分挖掘无标签数据集上的身份判别信息，进一步提升行人重识别模型的效果。除此之外，本发明识别效果稳定，在行人重识别的公共基准数据集上取得了良好的识别效果。

附图说明

图1是本发明基于多粒度块特征的无监督行人重识别方法的流程图。

图2是本发明基于多粒度块特征的无监督行人重识别方法的网络结构图。

图3是本发明中块判别性学习的示例图。

图4是本发明中单粒度实例判别性学习的示例图。

具体实施方式

本发明的目标是学习一个有判别力的行人特征表示，以此来提高无监督行人重识别的性能。由于数据集缺乏真实的标签，本发明设计了基于多粒度块特征的无监督行人重识别模型。该模型通过三个不同粒度的块生成网络，分别提取不同粒度的块特征。第一个块生成网络用于提取跨数据集共享的小尺度图像块的特征，其余两个块生成网络用于提取无标签数据集上的尺度较大图像块的特征。在训练阶段，使用多粒度块特征提取模块提取不同粒度的块级特征，并联合单粒度实例判别性学习损失，使模型的每个块生成网络可以分别提取行人图像不同粒度的身份判别信息。此外，为了使三个块生成网络能够互补地学习一些潜在的信息，本发明还设计多粒度实例判别性学习损失进一步精细化模型的特征表示。在测试阶段，将多粒度块特征提取模块输出的不同粒度的块级特征连接起来，作为最终的行人特征表示。

下面结合具体实例以及附图对本发明进行更详细阐述。

本发明包括以下步骤：

1)首先获取ImageNet数据集作为多粒度块特征提取模块的预训练模型ResNet50的训练集，然后获取MSMT17数据集用于预训练多粒度块特征提取模块中的块生成网络PGN_6P，最后获取Market-1501和DukeMTMC-reID数据集分别作为整体模型的训练集和测试集；

2)对数据集进行预处理。对于给定尺寸大小为H×W的输入行人图像，当前初始图像大小为H×W×3，首先将其调整为384×128×3的图像大小，并通过随机擦除、随机翻转和随机裁剪的方式进行数据增强；

3)构建多粒度块特征提取模块，输入无标签的行人图像经过backbone进行特征提取后，得到输入行人图像的初始特征图；然后将该初始特征图分别输入三个块生成网络PGN_3P、PGN_4P与PGN_6P，分别得到三组具有不同粒度的块特征，共13个不同粒度的块特征，这些不同粒度的块特征具有不同的语义信息，可以相互补充从而挖掘潜在的判别信息。具体为：

3.1)首先，对于给定大小为384×128×3的行人图像，首先经过backbone得到初始特征图，模型的backbone采用基于ResNet50的网络结构；

3.2)然后将初始特征图送入PGN_3P、PGN_4P、PGN_6P三个块生成网络，三个块生成网络PGN_3P、PGN_4P、PGN_6P将传统空间变换网络的采样器偏置由一组分别变为三组、四组和六组并加入平均池化层，可以从三个、四个和六个空间位置进行采样，这三个块生成网络分别输出3个、4个和6个块维度为2048×1的块特征；

3.3)为了减少特征的冗余度，使用一层全连接层将这些块特征向量从2048维降维到256维；

3.4)将得到的维度为256×1的块特征送入块判别性学习损失子模块，使用块判别性学习损失保证每个块特征的判别信息。

初始特征图经过一个块生成网络PGN生成N个不同的块特征，

表示在一个batch内第j幅图像的第n个块特征。本发明使用一种块特征存储器

来存储这些块特征，其中S代表训练样本的总数，

代表第j个样本的第n个块特征。块特征存储器在每个epoch训练结束完成更新，过程如下。

其中，c代表当前训练epoch，

代表第j幅图像通过当前块生成网络PGN生成的第n个块特征，

代表上一个训练epoch中块特征存储器的第j个样本的第n个块特征，l代表块特征存储器的更新率。

块特征存储器在训练开始之前进行初始化，并且使用上述等式在每个epoch训练结束后进行更新。

对于第i幅图像的第n个块特征

通过计算它与存储器Wⁿ中对应特征的相似度获得与其相似度最高的一组块特征集合

将集合

中的块特征看做是与

为同一个类别的正样本，而将集合外的图像块则视作负样本。基于上述假设，定义如下块判别性学习损失函数：

其中，S表示训练样本的总数，γ表示缩放参数，N_t表示第t个块生成网络生成块特征的数量，H的值为3，表示多粒度块特征提取模块的块特征具有三个粒度。

通过块判别性学习损失L_PL，可以将视觉上相似的块对应的块特征映射得更近，从而使块特征更具判别性。

4)构建单粒度实例判别性学习模块。首先计算无标签数据集行人图像单粒度实例特征之间的相似度矩阵，然后基于相似度矩阵构建正负样本对，并采用三元组损失设计单粒度实例判别性学习损失，使得模型可以学习到单粒度实例特征的身份判别信息。具体为：

4.1)首先，将多粒度块特征提取模块输出的13个256维的块特征通过一层全连接层，降维到128维，得到13个128维的块特征；

4.2)然后，分别将这13个128维的块特征中具有相同粒度的块特征进行首尾相连，得到3个单粒度实例特征；

4.3)构建正样本对。因为数据集没有标签，而通过聚类等方法获取的正样本存在较大误差。因此本发明对原行人图像进行缩放、裁剪、旋转、颜色抖动(随机调整亮度，对比度以及饱和度)，将变换后的图像作为原行人图像的正样本；

4.4)然后构建负样本对。本发明采用硬难例挖掘的方式获取负样本对。首先，根据单粒度实例特征计算相似度矩，并根据规则定义负样本对。规则为：给定一个训练batch中的两幅行人图像x_i与x_j，如果x_j在x_i的最近邻集合中而x_i不在x_j的最近邻集合中，则x_j是x_i的负样本。最后，为使得模型能够更好地学习判别特征，本发明仅使用难例数据，即采用具有相似度最高的负样本构建负样本对；

4.5)最后，基于正负样本对构建三元组损失设计单粒度实例判别性学习损失L_SIL，第i幅图像的单粒度实例判别性学习损失定义如下：

其中，H为3，表示多粒度块特征提取模块的块特征具有三个粒度，m是三元组损失的margin，x_i,h表示第i幅行人图像第h个单粒度实例特征，u_i,h表示该单粒度实例特征的正样本特征，v_i,h表示该单粒度实例特征的负样本特征。

通过单粒度实例判别性学习损失，每个粒度下的单粒度实例特征具有更强的身份判别力。

5)构建多粒度实例判别性学习模块。首先计算无标签数据集行人图像多粒度实例特征之间的相似度矩阵，然后基于相似度矩阵构建一种软分类损失代替传统的硬分类损失，使模型在无标签的情况下具有较强的鲁棒性。具体为：

5.1)首先将多粒度块特征提取模块输出的13个256维特征向量，进行首尾连接得到一个3328维的特征向量；

5.2)将该3328维的特征向量送入全连接层，将其维度扩展为4096维；

5.3)然后计算该特征向量与无标签数据集中的所有行人图像对应的4096维特征向量的相似度矩阵；

5.4)获取无标签图像的伪标签。由于数据集缺失行人图像的标签，多粒度实例判别性学习模块直接将无标签数据集中图像的索引作为图像伪标签，降低了标签获取的复杂度；

5.5)最后使用带有伪标签的多粒度特征向量进行多粒度实例判别性学习损失的计算。多粒度实例损失是一种软分类损失，具体设计如下：

其中，F_i表示行人图像x_i的多粒度实例特征，F’_a是行人图像x_a经过网络上一次迭代后更新的多粒度实例特征，M(x_i,r)表示x_i的多粒度实例特征在特征空间中r幅最近邻行人图像的集合，w_a是权重系数，S是无标签数据集的图像数量，ε是平衡因子。

在特征空间中距离行人图像x_i最近的r幅行人图像很有可能和x_i具有不相同的身份，将这些图像赋予与x_i相同的标签可能会导致带有不同身份信息的多粒度实例特征在特征空间中距离太近，干扰模型的学习。因此，本发明加入权重系数w_a构成软分类损失行制约，增强了模型的鲁棒性。

6)对整个无监督行人重识别模型进行训练，分别在Market-1501和DukeMTMC-reID数据集上进行无标签训练。以DukeMTMC-reID数据集为例，训练的具体方式如下：

6.1)首先进行模型预训练。使用在ImageNet上预训练的ResNet50作为网络的主干模型，并在MSMT17数据集预训练块生成网络PGN_6P；

6.2)然后进行数据集预处理。对DukeMTMC-reID数据集中的行人图像进行预处理，将输入图像的尺寸调整为384×128，并使用随机擦除、随机翻转和随机裁剪的方式进行数据增强；

6.3)将无标签的DukeMTMC-reID数据集中的行人图像送入模型进行训练；

6.4)设置训练参数，每批次训练样本数batchsize设置为40，采用随机梯度下降SGD作为训练优化器。固定预训练PGN_6P参数，将PGN_3P和PGN_4P从第25个epoch训练到第40个epoch，学习率设置为1e-5。其余参数学习率设置为1e-4，并在50个epoch之后变为1e-5，总共训练70个epoch；

6.5)设置损失函数相关参数，块特征存储器的更新率l设置为0.1。存储器中前10个最相似的块特征用于块判别性学习损失的计算，缩放参数γ设置为15。对于单粒度实例判别性学习，块特征集合的大小设置为3，margin设置为2。对于多粒度实例判别性学习，r设置为6，平衡因子ε设置为0.05，dropout的概率设为0.5。最后，总损失主要分为两个部分：一部分为多粒度实例判别性学习，一部分为块判别性学习损失联合多粒度实例判别性学习，并用权重系数α平衡两部分损失，α在具体实施中设置为0.7。总损失L_TOTAL如下：

L_TOTAL＝αL_MIL+(1-α)*(L_SIL+2*L_PL)#

7)测试阶段，将DukeMTMC-reID的测试集bounding_box_test送入模型进行测试。行人图像经过多粒度块特征提取模块，得到不同粒度的行人特征后，将其首尾连接作为最终的多粒度行人特征表示，通过计算查询图像与图像库中图像的余弦相似度，得出模型性能评价结果mAP、rank-1、rank-5和rank-10。

本发明在TITAN RTX GPU和Ubuntu 1604操作系统下，采用PyTorch开源框架和Python语言实现该方法。

本发明提供了一种基于多粒度块特征的无监督行人重识别方法，适用于无标签数据集的行人重识别。根据实验结果表明，本发明鲁棒性好，识别效果稳定，识别精度较高。

Claims

1.一种基于多粒度块特征的无监督行人重识别方法，融合不同粒度的块特征表示，深入挖掘无标签数据集的潜在身份判别信息，包括以下步骤：

步骤1)计多粒度块特征提取模块，将行人图像送入多粒度块特征提取模块，首先通过骨干网络获得行人图像的特征图，并将获取的行人特征图输入三个不同粒度的块生成网络，得到三种粒度的块特征，然后输入块判别性学习损失子模块，得到具有更强判别力的块特征；

步骤3)设计多粒度实例判别性学习模块，将多粒度块特征提取模块提取的块特征组合成一个多粒度实例特征，然后将该多粒度实例特征进行多粒度实例判别性学习损失计算，使模型学习到多粒度全局特征表示；

2.根据权利要求1所述的一种基于多粒度块特征的无监督行人重识别方法，其特征在于：所述步骤1)的多粒度块特征提取模块，获得具有丰富外观信息的块特征表示，具体为：

1.1)多粒度块特征提取模块由一个基础CNN特征提取网络以及三个不同的块生成网络PGN_3P、PGN_4P与PGN_6P构成；其中，PGN_3P和PGN_4P在无标签数据集上进行初始化以及微调，用于获取无标签数据集上较大尺度的块级特征；PGN_6P在一个辅助数据集上预训练并固定网络参数，用于获取数据集间所共有的小尺度图像块特征；

将待识别的无标签行人图像输入多粒度块特征提取模块，首先通过一个基础CNN特征提取网络，得到输入行人图像的初始特征图；然后将该初始特征图分别输入三个块生成网络PGN_3P、PGN_4P与PGN_6P，分别得到三组具有不同粒度的块特征，分别是PGN_3P、PGN_4P与PGN_6P生成的3个、4个以及6个块特征，共13个不同粒度的块特征，每个块特征的维度大小均为2048维，这些不同粒度的块特征具有不同的语义信息，相互补充从而挖掘潜在的判别信息；

3.根据权利要求1所述的一种基于多粒度块特征的无监督行人重识别方法，其特征在于：所述步骤2)的单粒度实例判别性学习模块，学习不同粒度的身份判别信息，具体为：

4.根据权利要求1所述的一种基于多粒度块特征提取的无监督行人重识别方法，其特征在于：所述步骤3)的多粒度实例判别性学习模块，学习多粒度全局特征表示，具体为：

3.3)最后，基于Softmax分类损失设计多粒度实例判别性学习损失，并将该4096维特征向量进行多粒度实例判别性学习损失计算，使模型学习到多粒度全局特征表示。