CN111967294A

CN111967294A - 一种无监督域自适应的行人重识别方法

Info

Publication number: CN111967294A
Application number: CN202010583041.3A
Authority: CN
Inventors: 徐健锋; 潘纯杰; 刘澜; 吴俊杰; 邹伟康; 江飞翔
Original assignee: Nanchang University
Current assignee: Nanchang University
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2020-11-20
Anticipated expiration: 2040-06-23
Also published as: CN111967294B

Abstract

本发明公开了一种无监督跨域自适应的行人重识别方法，该方法包括以下步骤；S1:在源域预训练初始模型；S2利用初始模型提取目标域多粒度特征，生成多粒度特征分组集合,对每个分组集合计算距离矩阵；S3对距离矩阵进行聚类分析，生成簇内点和噪声点,估计簇中样本的硬伪标签；S4根据聚类结果，估计每个样本的软伪标签用以处理噪声点,更新数据集；S5在更新的数据集上重新训练模型，直至模型收敛；S6根据预设的迭代次数，循环步骤2‑5；S7将测试集数据输入模型提取多粒度特征，根据特征相似度得到最终重识别结果；本发明利用源域和目标域，挖掘目标域数据天然相似性，在无标签的目标域上提升模型准确率，降低模型对标签的依赖性。

Description

一种无监督域自适应的行人重识别方法

技术领域

本发明涉及人工智能、计算机视觉及图像处理领域。具体涉及一种无监督域自适应的行人重识别方法。

背景技术

行人重识别是计算机视觉中的关键任务，其目的是使用提供的感兴趣目标行人，在不重叠的摄像机视图中定位该目标行人。由于行人重识别技术在安防应用中的重要作用，受到了学术界和工业界的广泛关注。随着大型数据集的提出和深度学习技术的快速发展，行人重识别技术在监督形式上取得了令人满意的性能。然而，在现实中对大型数据进行身份标注往往是非常耗时耗力的。无监督的行人重识别方法被提出，用于解决该问题。如今对无监督行人重识别方法的研究可以分为两大类，即单域的行人重识别方法和跨域的行人重识别方法。在单域的行人重识别方法中，通常直接使用在单域上生成的模型应用于其他数据集，该方法效果较差。因此对跨域行人重识别方法的研究具有极大的意义。

本发明是针对无监督跨域的行人重识别方法的研究，对于无监督跨域行人重识别而言，随着对抗生成网络的研究不断深入和应用。生成图像技术已经取得了较为满意的成果。但是生成大量的图像对计算机硬件要求非常高，从而在跨域行人重识别方法使用对抗生成网络有较大的限制。对跨域行人重识别的研究还有另一种无监督域自适应的方法，该方法旨在仅仅使用源域的监督信息来学习目标域上最具有辨别性的嵌入特征。让在有标注的源域上训练好的模型适应于无标注的目标域，以获取在目标域上的识别精度提升。与一般的无监督域自适应的任务不同的是：普通无监督域自适应任务中目标域与源域共享类别，而行人重识别任务是一个开放集的无监督领域自适应任务。行人重识别任务中目标域与源域的身份ID是不同的，并且源域的类别数目是不知的。所以该任务也更加贴近现实，也更具挑战性。

无监督领域自适应在行人重识别上的技术方案可以分为三大类，即基于聚类的伪标签法、领域转换法和基于图像或特征相似度的伪标签法。本发明是发明人在研发过程中发现。基于聚类的伪标签方法受伪标签质量的影响较大，三元组采样往往存在不准确的问题。并且该类方法往往会忽略含有重要知识的噪声点。

发明内容

为了克服上诉现有方法的不足之处，本发明提供了一种无监督域自适应的行人重识别方法。能够充分的根据目标域中数据的天然相似性和数据的软标签，较大程度上克服在聚类阶段忽略噪声点的缺陷，并且在目标域的训练阶段，提出一种更加准确的三元组采样方法。本发明能够一定程度上提升无监督域自适应行人重识别的模型性能。

本发明提供了一种无监督域自适应的行人重识别方法，该方法包括以下步骤：

S1、在有标签的源域预训练初始模型；

S2、利用初始模型提取目标域多粒度特征，生成多粒度特征分组集合，对每个分组集合计算距离矩阵；

S3、对距离矩阵进行聚类分析，生成簇内点和噪声点。根据聚类聚类结果估计簇内点的硬标签；

S4、根据聚类结果，估计每个样本的软伪标签用以处理噪声点，更新数据集；

S5、在更新的数据集上重新训练模型，直至模型收敛；

S6、根据预设的迭代次数，循环步骤2-5；

S7、将测试集数据输入模型提取多粒度特征，根据特征相似度得到最终重识别结果，从而实现无监督域自适应行人重识别方法。

进一步地，步骤S1包括：

S1.1、选择在ImageNet上预训练的ResNet-50作为骨干网络，去掉ResNet-50的最后一个完全连接(FC)层,并添加两个额外的FC层。设定第一个FC层的输出维度为2048维，输出特征记为f_{t_2048}。设定第二个FC层的输出维度为S_id维，其中S_id为源域数据集的ID个数。

S1.2、使用困难样本的三元组损失和交叉熵损失函数联合训练初始模型。具体地，在f_{t_2048}后使用三元组损失，将之视为验证问题。在最后一个FC层后使用交叉熵损失，将之视为分类问题。直至模型收敛或达到模型最大迭代次数，生成初始Re-ID模型。

进一步地，步骤S2包括：

S2.1、利用步骤1生成的初始模型，给定目标域无标签数据集

其中N_T为目标域数据集的图片总数。将每个目标域数据

输入到模型中，提取

在初始模型的conv5层的输出特征图。

S2.2、对输出特征图划分多粒度特征。具体地，给定目标域样本

由初始模型提取的特征图记为f_i,将f_i划分为多个粒度地特征图。分别为上半部分特征图f_{t_u},下半部分图特征f_{t_l},中间部分特征图f_{t_m}。对每个特征图使用全局平均池化(GAP)操作，提取GAP后的特征。循环遍历XT中所有数据。

S2.3、生成多粒度特征分组集合，具体地：如步骤S2.2所述，对每个样本提取多粒度特征，将相同粒度特征归于该粒度组集合。生成的多个分组特征集合表示为：

其中Nt表示目标域图片总数。

S2.4、计算每个分组集合的距离矩阵。具体地，对于每个分组特征集合，经过下列步骤计算距离矩阵：首先计算两两特征之间的欧式距离，得到一个距离矩阵

其中M_ij＝||x_i-x_j||²。然后按照以下规则更新M：

其中，M_ij表示样本i和j的特征相似度，R*(i,j)表示样本i的k互近邻集合。最后，计算样本对之间的Jaccard距离。计算方式为：

最终的距离矩阵D，其中D_ij＝D_J(x_i,x_j)。遍历每个分组集合，生成对应的距离矩阵D^t、D^t_u、D^t_l和D^t_m。

进一步地，步骤S3包括：

S3.1、根据步骤S2所述，所生成的距离矩阵D^t、D^t_u、D^t_l和D^t_m，对每个距离矩阵采用基于密度的HDBSCAN聚类算法，生成簇内点和噪声点。将同一类簇中的所有样本视为同一ID。针对簇内点，根据聚类聚类结果估计每个簇内点的伪标签。更新分组集合数据集，具体为：

其中x_i和y_i表示对应分组数据集中第i个训练数据和与之相关的伪标签，N_{c_g}、N_{c_u}、N_{c_l}和N_{c_m}分别表示该X_t X_{t_u} X_{t_l}和X_{t_m}组中的样本总数。M_{t_id}、M_{tu_id}、M_{tp_id}和M_{tp_id}表示对应分组中的ID个数。

S3.2、根据步骤S3.1所述，在每个分组数据集中，样本x_i的硬伪标签定义为：

其中

表示y_i的第k个值。

根据步骤S3.1所述，由步骤S2.3生成四个特征分组集合。针对每个多粒度特征分组集合经过以下步骤：1.由HDBSCAN聚类算法生成的C类簇，将每类簇中所有样本点视为同一ID的行人图像。2.从每个簇中随机抽取一张图片，组成一个带有伪标签的辅助子数据集。其中N_c为辅助数据集图片的个数。

进一步地，步骤S4包括：

S4.1、根据步骤S3.2所生成的分组数据集其硬伪标签。对于单个分组集合，首先，在每个ID中随机选取一张图片。生成辅助子数据集

对其他每个行人图估计其软伪标签。具体地，给定行人图像x_i其软伪标签为y_s。其中y_s的计算方式为：

其中ys(k)为软标签ys的第k个值。dist(·,·)是余弦相似度度量。根据辅助子集Asub，利用上述方法将该分组中所有样本估计软伪标签。

S4.2、在单个分组集合中，由于聚类算法的性质，难免产生噪声样本。本发明认为噪声点含有对ReID模型重要知识，不应抛弃重要的噪声点。本发明处理噪声点方法如下：1)、首先，查找距离噪声点最近邻的K个簇内点。2)：将噪声点分别计算与K个近邻簇内点的得分值S，得分值的计算方式为：

其中Snj为噪声点xn与近邻点xj的得分值，dist(x_n,x_j)表示噪声点xn与第j个近邻簇内点的余弦相似度,j∈(1,K)其中

ys(k)是软标签ys的第k个值，λ是超参数。3)：对S进行排序，将噪声点xn归于Sij最大的xj同一类。给噪声点估计对应的伪标签。更新各分组数据集为：

其中，Nt为无标签目标域中的图像总数。

进一步地，步骤S5包括：

S5.1、根据步骤S4.2所述，带有多粒度伪标签的数据集。根据伪标签对步骤S1.2所生成的初始模型进行监督学习。损失函数为：

其中L_tri(·，·)为难批次三元组损失(hard-batch triplet loss)，根据多粒度特征和多粒度伪标签对初始模型进行监督学习。

S5.2、由于聚类算法自身的局限性等原因，本发明对三元组损失中的困难正样本和困难负样本进行限制，用以提升三元组损失函数在模型上的表现能力。具体地：为每个mini-batch随机抽样p个ID的K个样本，用于满足hard-batch triplet loss。因此每个mini-batch中含有n(＝p*k)个图像。首先计算mini-batch中两两特征之间的相似度矩阵

和

M为余弦相似度矩阵，

的计算方式根据步骤S4.1和S4.2所述。三元组样本的选择规则为：

对于给定的固定样本x_a。其困难正样本x_p的选择条件需要满足：

(1)x_p和x_a来自于同一ID；

(2)根据

选择

最大的x_p，其中

为x_a与同一ID的其他k-1张图片的

对于给定的固定样本x_a。其困难负样本x_neg的选择条件需要满足：

(1)x_neg和x_a是来自不同ID中；

(2)根据相似度矩阵M，x_a和(p-1)*k个样本进行降序，生成x_a的相似度列表，在选择前top-m个样本中，选择

最大的样本为x_neg。

S5.3、使用三元组损失，根据上述三元组样本的选择规则训练初始网络。迭代训练直至网络收敛。

本发明相对于现有技术具有以下优点：

1、本发明基于多粒度分组的方式，挖掘无标签目标域数据集中天然的相似性，提高了模型对目标域数据集中行人的判别性特征的学习能力。

2、本发明通过DBSCAN聚类算法对无标签目标域数据集行人特征聚类和估计样本硬伪标签。根据软标签和K近邻方法处理具有重要行人信息的噪声点。基于硬伪标签对模型进行监督学习，重复迭代直至模型收敛，提高了模型对新数据集的适应性。

3、本发明在无标签的目标域上训练时，通过最小化三元组损失函数更新网络参数。并提出基于软伪标签的三元组采样方式。有助于模型在仅使用三元组损失时采样不准确的问题。提高了模型的性能。

附图说明

图1是本发明的基本流程图。

图2是本发明的初始模型结构图。

图3是本发明的多粒度分组图。

图4是本发明的目标域训练流程图。

图5是本发明的详细流程图。

具体实施方式

为了使本发明的目的、技术方案以及有点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。此处所描述的具体实施例仅用于解释本发明的技术方案，并不限于本发明。

本发明将通过以下实施例作进一步说明。

1、有标签的源域上训练初始模型。

如图2初始模型结构图所示，本发明选择在ImageNet上预训练的ResNet50作为初始模型的骨干网络。去掉最后一个完全连接层。添加一个输出维度为2048的FC层、和一个输出维度为源域ID数的FC层。将源域数据集以三元组的方式循环迭代输入网络，利用三元组损失函数和交叉熵损失函数训练网络。最小化损失函数，更新模型的参数，直至模型收敛。交叉熵损失函数和三元组损失函数表示为：

其中，ya,i为xa,i的真实标签，mini-batch大小为P*K，表示为P个ID，每个ID中随机抽取K张图片,d(i,j)表示为‖i-j‖2，在本发明中，超参数m＝0.5，P＝16,K＝8。

2、无标签目标域数据集多粒度特征提取

首先利用上述步骤所生成的初始模型，迭代目标域数据集的训练集图像，提取每张图像在f_{t_2048}处的特征。然后对每个特征进行多粒度切分，切分位置如图3所示，将每个特征划分为全局特征、上部分特征、下部分特征和中间部分特征。最后根据切分的位置将相同区域特征归于同一集合。即对于无标签目标域而言。可以划分为四个粒度特征集合。

3、聚类分析，估计硬、伪标签

对于单个特征集合都执行以下操作，1)首先计算两两特征之间距离度量，即K互近邻编码作为距离度量的方式，K互近邻即为Jaccard距离的一种改进。对每个特征集合求得一个距离矩阵。然后对距离矩阵进行基于密度的DNSCAN聚类，该聚类算法的参数有半径和最小样本数。在本发明中，取最小样本数为4，半径为P*N，其中P为百分比取0.0016，N为目标域数据集的图片总数。由聚类算法将目标域数据划分为不同的类簇中，将同一簇的样本点分配为同一类，将该簇标记分配给该类作为硬伪标签。第一个类簇样本的硬伪标签为[1,0,0，...，0]，该长度为类簇个数。

随机在每个类簇中选择一个样本，生成辅助子数据集

根据辅助子数据集计算其他每个数据的软伪标签，计算方式为：

其中ys(k)为软标签ys的第k个值。dist(·,·)是余弦相似度度量。根据辅助子集Asub，利用上述方法将该分组中所有数据的软伪标签。

由于聚类算法的特性，难免产生噪声点，对于噪声点的处理方式如下：首先查找距离噪声点最近邻的K个簇内点，计算将噪声点与这K个簇内点的得分值，得分值的计算方式为：

ys(k)是软标签ys的第k个值，λ取0.7。对S进行排序，将噪声点xn归于Snj最大的xj同一类。给噪声点估计对应的伪标签。

将四个特征集合更新为带伪标签的集合。

4、在带伪标签的目标域上训练模型

如图4训练流程图所示，根据带伪标签的数据集对模型进行监督学习，模型的损失函数为：

其中L_tri(·，·)为难批次三元组损失(hard-batch triplet loss)，在难批次三元组损失中，本发明对采样方式进行如下限制：在mini-batch中，随机采样p个ID的K个样本，因此每个mini-batch中含有n(＝p*k)个图像。首先计算mini-batch中两两特征之间的余弦相似度矩阵

和

M为余弦相似度矩阵，

的计算为公式(3)。三元组样本的选择规则为：

(1)x_p和x_a来自于同一ID；

(2)根据

选择

最大的x_p，其中

为x_a与同一ID的其他k-1张图片的

(1)x_neg和x_a是来自不同ID中；

最大的样本为x_neg。

本发明利用限定的采样方式，依照预设迭代次数，迭代优化损失函数。本发明中预设的迭代次数为90次，循环执行第2步至第4步。逐渐提升网络对目标域的表征学习能力。

5、在目标域测试集测试模型

将目标域数据集上测试图片输入训练好的模型当中，提取多粒度特征，将测试集行人图片的四个粒度特征连接在一起作为该行人的最后表征。再根据特征相似度排序得到最后的行人重识别结果，进而实现本发明提出的无监督与自适应行人重识别方法。

综上所述，本实施例公开了一种无监督域自适应的行人重识别方法，该方法基于在有标签的源域数据集上预训练的初始模型，自适应至无标签的目标域行人数据集。提高了模型在无标签数据集上学习表征的能力。该方法基于多粒度特征，软伪标签等方法，降低了由聚类算法中噪声的影响，提高了模型的学习能力。此外并提出一种新的三元组采样规则，降低了伪标签不准确的影响，提高了模型选择正确样本的能力。根据采样规则重复迭代训练网络。提高网络在无标签数据集上的自适应性。

上述实施例仅代表了本发明的优选实施例方式，其描述较为具体和详细。但不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离别发明的构思前提下，还可以做出若干变形、改进及替代，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种无监督域自适应行人重识别方法，其特征在于，所述的无监督域自适应行人重识别方法包括以下步骤：

S1、在有标签的源域预训练初始模型；

S3、对距离矩阵进行聚类分析，生成簇内点和噪声点，根据聚类聚类结果估计簇内点的硬标签；

S5、在更新的数据集上重新训练模型，直至模型收敛；

S6、根据预设的迭代次数，循环步骤S2-S5；

2.根据权利要求1所述的一种无监督域自适应行人重识别方法，其特征在于，所述的步骤S1包括：

S1.1、选择在ImageNet上预训练的ResNet-50作为骨干网络，去掉ResNet-50的最后一个完全连接(FC)层,并添加两个额外的FC层，设定第一个FC层的输出维度为2048维，输出特征记为f_{t_2048}，设定第二个FC层的输出维度为S_id维，其中S_id为源域数据集的ID个数；

S1.2、使用困难样本的三元组损失和交叉熵损失函数联合训练初始模型，具体地，在f_{t_2048}后使用三元组损失，将之视为验证问题，在最后一个FC层后使用交叉熵损失，将之视为分类问题，直至模型收敛或达到模型最大迭代次数，生成初始Re-ID模型。

3.根据权利要求1所述的一种无监督域自适应行人重识别方法，其特征在于，所述的步骤S2包括：

S2.1、利用步骤1生成的初始模型，给定目标域无标签数据集

其中N_T为目标域数据集的图片总数，将每个目标域数据

输入到模型中，提取

在初始模型的conv5层的输出特征图；

S2.2、对输出特征图划分多粒度特征，具体地，给定目标域样本

由初始模型提取的特征图记为f_i,将f_i划分为多个粒度地特征图，分别为上半部分特征图f_{t_u},下半部分图特征f_{t_l},中间部分特征图f_{t_m}，对每个特征图使用全局平均池化(GAP)操作，提取GAP后的特征，循环遍历XT中所有数据；

S2.3、生成多粒度特征分组集合，具体地：如步骤S2.2所述，对每个样本提取多粒度特征，将相同粒度特征归于该粒度组集合，生成的多个分组特征集合表示为：

其中Nt表示目标域图片总数；

S2.4、计算每个分组集合的距离矩阵，具体地，对于每个分组特征集合，经过下列步骤计算距离矩阵：首先计算两两特征之间的欧式距离，得到一个距离矩阵

其中M_ij＝||x_i-x_j||²，然后按照以下规则更新M：

其中，M_ij表示样本i和j的特征相似度，R*(i,j)表示样本i的k互近邻集合，最后，计算样本对之间的Jaccard距离，计算方式为：

最终的距离矩阵D，其中D_ij＝D_J(x_i,x_j)，遍历每个分组集合，生成对应的距离矩阵D^t、D^t ^_u、D^t_l和D^t_m。

4.根据权利要求2所述的一种无监督域自适应行人重识别方法，其特征在于，所述的步骤S3包括：

S3.1、根据步骤S2所述，所生成的距离矩阵D^t、D^t_u、D^t_l和D^t_m，对每个距离矩阵采用基于密度的HDBSCAN聚类算法，生成簇内点和噪声点，将同一类簇中的所有样本视为同一ID，针对簇内点，根据聚类聚类结果估计每个簇内点的伪标签，更新分组集合数据集，具体为：

其中x_i和y_i表示对应分组数据集中第i个训练数据和与之相关的伪标签，N_{c_g}、N_{c_u}、N_{c_l}和N_{c_m}分别表示该X_tX_{t_u}X_{t_l}和X_{t_m}组中的样本总数，M_{t_id}、M_{tu_id}、M_{tp_id}和M_{tp_id}表示对应分组中的ID个数；

其中

表示y_i的第k个值。

5.根据权利要求4所述的一种无监督域自适应行人重识别方法，其特征在于，所述步骤S3.1，由步骤S2.3生成四个特征分组集合，针对每个多粒度特征分组集合经过以下步骤：

(1)由HDBSCAN聚类算法生成的C类簇，将每类簇中所有样本点视为同一ID的行人图像；

(2)从每个簇中随机抽取一张图片，组成一个带有伪标签的辅助子数据集；

其中N_c为辅助数据集图片的个数。

6.根据权利要求1所述的一种无监督域自适应行人重识别方法，其特征在于，所述的步骤S4包括：

S4.1、根据步骤S3.2所生成的分组数据集其硬伪标签，对于单个分组集合，首先，在每个ID中随机选取一张图片，生成辅助子数据集

对其他每个行人图估计其软伪标签，具体地，给定行人图像x_i其软伪标签为y_s，其中y_s的计算方式为：

其中ys(k)为软标签ys的第k个值，dist(·,·)是余弦相似度度量，根据辅助子集Asub，利用上述方法将该分组中所有样本估计软伪标签；

S4.2、在单个分组集合中，由于聚类算法的性质，难免产生噪声样本，本发明认为噪声点含有对ReID模型重要知识，不应抛弃重要的噪声点，本发明处理噪声点方法如下：

(1)查找距离噪声点最近邻的K个簇内点；

(2)将噪声点分别计算与K个近邻簇内点的得分值S，计算方式为：

ys(k)是软标签ys的第k个值，λ是超参数，3)：对S进行排序，将噪声点xn归于Sij最大的xj同一类，给噪声点估计对应的伪标签，更新各分组数据集为：

其中，Nt为无标签目标域中的图像总数。

7.根据权利要求6所述的一种无监督域自适应行人重识别方法，其特征在于，所述的步骤S5包括：

S5.1、在步骤S4.2，带有多粒度伪标签的数据集，根据伪标签对步骤S1.2所生成的初始模型进行监督学习，损失函数为：

其中L_tri(·，·)为难批次三元组损失(hard-batch triplet loss)，根据多粒度特征和多粒度伪标签对初始模型进行监督学习；

(1)S5.2、由于聚类算法自身的局限性等原因，本发明对三元组损失中的困难正样本和困难负样本进行限制，用以提升三元组损失函数在模型上的表现能力，具体地：为每个mini-batch随机抽样p个ID的K个样本，用于满足hard-batch triplet loss，因此每个mini-batch中含有n(＝p*k)个图像，首先计算mini-batch中两两特征之间的相似度矩阵