CN116229510A

CN116229510A - 一种无监督跨模态行人重识别方法

Info

Publication number: CN116229510A
Application number: CN202310148333.8A
Authority: CN
Inventors: 王春宇; 庞志奇; 赵玲玲
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2023-02-21
Filing date: 2023-02-21
Publication date: 2023-06-06

Abstract

一种无监督跨模态行人重识别方法，解决了现有跨模态行人重识别方法依赖于标注数据的问题，属于行人重识别技术领域。本发明包括：将三个单通道的行人可见光数据集分别与红外数据集中对应行人图像组合；利用动量编码器M对组合后的进行特征提取及聚类，确定各个簇的训练样本集合，并确定伪标签和每个簇的质心；计算各个簇中图像的交并比，得到的交并比作为聚类一致性矩阵中的元素，对矩阵中达到阈值的元素所对应簇的交集作为精炼结果，利用softmax损失函数、困难三元组损失函数以及模态对比损失函数对E进行优化，基于优化后的E对M进行更新；利用更新后的M对待测数据集中三通道可见光及红外的行人图像进行识别。

Description

一种无监督跨模态行人重识别方法

技术领域

本发明涉及一种无监督跨模态行人重识别方法，属于行人重识别技术领域。

背景技术

行人重识别旨在从一个大规模的图像库中寻找具有给定身份的人的图像。随着深度学习技术的引入，早期的行人重识别方法可以在可见光模态内实现良好的性能。然而，这些方法只能在光照充足的条件下使用。目前，大多数监控摄像机在光照不足时会自动从可见光模式切换到红外模式。因此，可见光与红外之间的跨模态行人重识别受到了越来越多的关注。跨模态行人重识别的目标是在可见模态和红外模态之间匹配具有相同身份的人。

虽然现有的基于监督学习的跨模态行人重识别方法已取得了具有前景的性能，但它们通常依赖于大规模的跨模态标注数据集。众所周知，为图像检索任务标注数据集是一个十分耗时的工作，而模态间的差异进一步增加了标注难度。为了解决以上问题，有研究者提出了首个无监督跨模态行人重识别方法H2H。该方法首先在标记的源域数据集(单模态数据集)上对模型进行预训练，之后在未标记的目标域数据集(跨模态数据集)上进行同质-异质学习。H2H虽然不再依赖跨模态场景中的身份信息，但仍然需要其他域的身份信息进行预训练。故H2H本质上并非完全无监督的方法，而是一种跨域的方法。跨域的方法不仅需要额外的数据预处理操作，而且对源域数据有一定的要求。除此之外，合适的源域并不总是存在的。

发明内容

针对现有跨模态行人重识别方法依赖于标注数据的问题，本发明提供一种无监督跨模态行人重识别方法。

本发明的一种无监督跨模态行人重识别方法，包括：

S1、分别采集可见光和红外模态内的多个行人图像，并构建可见光数据集和红外数据集；

S2、从可见光数据集中的每个可见光行人图像中提取出红、绿、蓝三个单通道的数据，并分别组成三个单通道的可见光数据集，并将三个单通道的可见光数据集分别与红外数据集组合得到三个单通道的新数据集；

S3、利用动量编码器M对三个单通道的新数据集进行特征提取，分别得到三个单通道的特征集，再根据三个单通道的特征集进行聚类，为每个训练样本分配伪标签，根据伪标签计算每个簇的质心；

S4、计算三个单通道的新数据集中各个簇中图像的交并比，将得到的交并比作为聚类一致性矩阵U中的元素；

S5、将聚类一致性矩阵U中达到阈值的元素所对应簇的交集作为精炼结果，并将交集中同一图像的所有通道加入精炼结果中；

S6、根据得到的质心和精炼结果利用softmax损失函数、困难三元组损失函数以及模态对比损失函数对在线编码器E进行优化，再依据权重加权的方法基于优化后的在线编码器E对所述动量编码器M进行更新；

S7、利用更新后的动量编码器M对待测数据集中的可见光图像的三个通道以及红外图像分别进行特征提取，基于特征距离得到具体特定身份的行人图像。

作为优选，S3中，利用DBSCAN对三个单通道的特征集分别进行聚类，为每个训练样本分配伪标签。

作为优选，S3中，每个簇的质心c_p：

其中，n_p为对应簇中的样本总数，m_l为对三个单通道的训练样本提取的对应簇中训练样本的特征。

作为优选，S4中，交并比作为聚类一致性矩阵

其中任意元素u_i,j,k为：

其中，|·|为计算集合中样本数量的函数，在计算交并比的过程中，将相同的图像的不同通道视作同一样本；n_r、n_g和n_b分别表示三个单通道中簇的数量，

表示{X^r,X^ir}中的第i个簇中的样本集合，i＝1,2…n_r，/>

表示{X^g,X^ir}中的第j个簇中的样本集合，j＝1,2,…,n_g，/>

表示{X^b,X^ir}中的第k个簇中的样本集合，k＝1,2,…,n_b。

作为优选，S6中，利用softmax损失函数对在线编码器E进行优化：

其中，L_soft表示softmax损失函数，f_p为由在线编码器E在精炼结果中提取的任意样本x_p的特征，c_p为x_p的正簇质心，n_c为簇的数量，τ_s是softmax损失的温度超参数，c_a为任意簇的质心，a＝1,2,…,n_c，将精炼结果中与任意样本x_p具有相同伪标签的簇质心称为x_p的正簇质心，将其他簇质心称为x_p的负簇质心。

作为优选，S6中，利用困难三元组损失函数对在线编码器E进行优化：

其中，L_hard表示困难三元组损失函数，mar是阈值超参数，dist(·,·)为欧式距离度量函数，在线编码器E在精炼结果中选定P×K大小的minibatch，

为所述P×K大小的minibatch中任意选定的样本,/>

为/>

的最困难正样本,/>

为/>

的最困难负样本。

作为优选，S6中，利用模态对比损失函数对在线编码器E进行优化：

其中，L_moda表示模态对比损失函数，x_pq表示在线编码器E在精炼结果中提取的第p个簇中模态标签为q的样本，q∈{0,1}为模态标签，q＝0表示可见模态，q＝1表示红外模态，f_pq为x_pq的特征，c_pl为x_pq的正模态质心，下标l＝1-q，τ_m为模态对比损失的温度超参数，c_sd表示与x_pq具有不同簇标签的模态质心，下标s为除p外的其他簇，下标d∈{0,1}，d＝0表示可见模态，d＝1表示红外模态，Q表示x_pq的最困难的负模态质心的集合。

作为优选，第p个簇中模态标签为q的模态质心为：

m_h为由在线编码器E中提取的簇p中的模态标签为q的样本特征，n_pq表示簇p中模态标签为q的样本总数。

本发明的有益效果，本发明不再依赖任何的源域数据进行学习，提升了识别模型的灵活性和可扩展性；将同一样本的不同通道作为正样本能够有效提升模型对亮度和对比度的鲁棒性；对比可见模态中三个通道的聚类结果能够提升标签的可靠性。

附图说明

图1是本发明的无监督跨模态行人重识别方法的流程图；

图2是本发明的原理示意图；

图3是本发明标签精炼的原理示意图；

图4是本发明模态对比损失优化图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

本实施方式的无监督跨模态行人重识别方法，包括：

步骤1、分别采集可见光和红外模态内的多个行人图像，并构建可见光数据集和红外数据集；

步骤2、从可见光数据集中的每个可见光行人图像中提取出红、绿、蓝三个单通道的数据，并分别组成三个单通道的可见光数据集，并将三个单通道的可见光数据集分别与红外数据集组合得到三个单通道的训练样本；

具体地，本实施方式的步骤2中从可见光数据集

提取不同的通道，分别得到红通道/>

绿通道/>

和蓝通道/>

将三个通道可见光数据集与红外模态/>

组合以得到三个单通道的新数据集{X^r,X^ir}，{X^g,X^ir}和{X^b,X^ir}。

步骤3、利用动量编码器M对三个单通道的新数据集进行特征提取，分别得到三个单通道的特征集，再根据三个单通道的特征集进行聚类，为每个训练样本分配伪标签，根据伪标签计算每个簇的质心；

具体地，本实施方式的步骤3中利用动量编码器M对三个单通道的训练样本集{X^r,X^ir}，{X^g,X^ir}和{X^b,X^ir}分别进行特征提取；再利用DBSCAN(Density-Based SpatialClustering of Applications with Noise，具有噪声的基于密度的聚类方法)对得到的三个特征集分别进行聚类为每个训练样本分配伪标签；

计算每个簇的质心c_p：

其中，n_p为对应簇中的样本总数，m_l为对三个单通道的训练样本提取的对应簇中训练样本的特征；

步骤4、计算三个单通道中各个簇的训练样本集合中图像数量的交并比，得到的交并比作为聚类一致性矩阵U中的元素；

本实施方式的聚类一致性矩阵

其中任意元素u_i,j,k为：

表示{X^r,X^ir}中的第i个簇中的样本集合，i＝1,2…n_r，/>

表示{X^g,X^ir}中的第j个簇中的样本集合，j＝1,2,…,n_g，/>

表示{X^b,X^ir}中的第k个簇中的样本集合，k＝1,2,…,n_b。

在计算交并比的过程中，将相同的图像的不同通道视作同一样本。以图3为例，上标代表通道和模态。下标代表样本序号。

和/>

来自同一样本x₂，红色通道中一个簇的训练样本包括：/>

绿色通道中一个簇的训练样本包括：

蓝色通道中一个簇的训练样本包括：

这三个簇的交集的样本图像为：x₂,x₃,x₆,x₇,x₈，这三个簇并集的样本图像为：/>

数量的交并比为/>

作为聚类一致性矩阵/>

中的一个元素；

步骤5、将聚类一致性矩阵U中达到阈值的元素所对应簇的交集作为精炼结果，并将交集中同一图像的所有通道加入精炼结果中；

以图3为例，阈值为t，

大于t，则将交集x₂,x₃,x₆,x₇,x₈中的图像的所有通道作为精炼结果，即精炼结果为：/>

需要说明的是，这样做的优势是双重的：一方面，同一样本的不同通道虽然在亮度和对比度等方面有差异，但它们本质上互为正样本，通过优化它们之间的距离能够提升模型对亮度和对比度的鲁棒性；另一方面，精炼会降低训练数据数量，而且相比红外图像，可见图像的数量被减少的更多，加入多个通道的图像能够补充训练集。

步骤6、根据得到的质心和精炼结果利用softmax损失函数、困难三元组损失函数以及模态对比损失函数对在线编码器E进行优化，再依据权重加权的方法基于优化后的在线编码器E对所述动量编码器M进行更新；

具体地，利用softmax损失函数对在线编码器E进行优化，softmax损失函数的目的是增加x_p与正簇质心的相似性，并降低x_p与负簇质心的相似性：

L_soft表示softmax损失函数，f_p为由在线编码器E在精炼结果中提取的任意样本x_p的特征，c_p为x_p的正簇质心，n_c为簇的数量，τ_s是softmax损失的温度超参数，c_a为任意簇的质心，a＝1,2,…,n_c，将精炼结果中与任意样本x_p具有相同伪标签的簇质心称为x_p的正簇质心，将其他簇质心称为x_p的负簇质心。

具体地，在线编码器E在精炼结果中选定P×K大小的minibatch，困难三元组损失函数首先选定一个样本

作为锚点，之后增加/>

与最困难的正样本/>

的相似度，降低/>

与最困难的负样本/>

的相似度：

其中mar是阈值超参数，dist(·,·)为欧式距离度量函数。

本实施方式需要根据伪标签寻找

的正样本和负样本，再基于与样本/>

距离关系确定是否是最困难的，即与/>

距离最近的负样本被定义为最困难的负样本，与/>

距离最远的正样本被定义为最困难的正样本。

基于聚类结果计算模态质心，第p个簇中模态标签为q的模态质心c_pq被定义为：

将与样本x_pq具有相同簇标签和不同模态标签的模态质心c_pl(l＝1-q)称为x_pq的正模态质心，q∈{0,1}为模态标签，q＝0表示可见模态，q＝1表示红外模态，将与样本x_pq具有不同簇标签的模态质心c_sd(s≠p)称为x_pq的负模态质心，下标s为除p外的其他簇，下标d∈{0,1}，d＝0表示可见模态，d＝1表示红外模态。如图4所示，对于任意标记样本x_pq，模态对比损失的目的是增加其与正模态质心的相似性，并降低其与负模态质心的相似性：

x_pq表示在线编码器E在精炼结果中提取的第p个簇中模态标签为q的样本，f_pq为x_pq的特征，c_pl为x_pq的正模态质心，下标l＝1-q，τ_m为模态对比损失的温度超参数，c_sd表示与x_pq具有不同簇标签的模态质心，Q表示x_pq的最困难的负模态质心的集合。

步骤7、利用更新后的动量编码器M对待测数据集中的可见光图像的三个通道以及红外图像分别进行特征提取，基于特征距离得到具体特定身份的行人图像。

也就是说，利用优化后的动量编码器对待测数据集中的可见光图像的三个通道以及红外图像分别进行特征提取，然后基于特征间的相似性寻找具体特定身份的行人图像。

本实施方式不再依赖任何的源域数据进行学习，提升了识别模型的灵活性和可扩展性；将同一样本的不同通道作为正样本能够有效提升模型对亮度和对比度的鲁棒性；对比可见模态中三个通道的聚类结果能够提升标签的可靠性。

下面通过一个具体实施例对本发明实施例提出的基于标签精炼的无监督跨模态行人重识别方法进一步说明。

具体实施例：本实施例采用mean average precision(mAP)、rank-1和rank-10来评估本发明DHCR与现有的完全无监督方法进行性能对比，其中，选择的现有的完全无监督方法为SpCL、ICE、CIFL和H2H。

使用的实验数据集包括：SYSU-MM01和RegDB，其中，

SYSU-MM01数据集包含使用6个摄像头(4个红外和2个可见)拍摄的491个身份的30071张可见光图像15792张红外图像，训练集包含395个身份，测试集包含96个身份；

RegDB数据集包含来自412个身份的8240张图像，每个身份包含10张可见光图像和10张红外图像。206个身份作为训练集，206个身份作为测试集。

如下表1：为本发明在SYSU-MM01和RegDB数据集上与现有的无监督行人重识别方法的比较结果。

可以看出，本发明与最优方法H2H相比，本发明在SYSU-MM01和RegDB上都取得了明显优势，因此本发明的综合性能优于现有的无监督行人重识别方法。

综上，根据本发明实施例提出的基于标签精炼的无监督跨模态行人重识别方法，不仅能够在对齐两个模态的特征分布时防止身份的错误对齐，还能够促进来自不同模态的正样本被聚集到相同的簇中从而为优化提供充足的模态间的正样本对；除此之外，能够通过对比可见模态中三个通道的聚类结果来提升伪标签的可靠性。

虽然在本文中参照了特定的实施方式来描述本发明，但是应该理解的是，这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是，可以对示例性的实施例进行许多修改，并且可以设计出其他的布置，只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是，可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是，结合单独实施例所描述的特征可以使用在其他所述实施例中。