CN116229510A - 一种无监督跨模态行人重识别方法 - Google Patents

一种无监督跨模态行人重识别方法 Download PDF

Info

Publication number
CN116229510A
CN116229510A CN202310148333.8A CN202310148333A CN116229510A CN 116229510 A CN116229510 A CN 116229510A CN 202310148333 A CN202310148333 A CN 202310148333A CN 116229510 A CN116229510 A CN 116229510A
Authority
CN
China
Prior art keywords
cluster
pedestrian
modal
sample
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310148333.8A
Other languages
English (en)
Inventor
王春宇
庞志奇
赵玲玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202310148333.8A priority Critical patent/CN116229510A/zh
Publication of CN116229510A publication Critical patent/CN116229510A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

一种无监督跨模态行人重识别方法,解决了现有跨模态行人重识别方法依赖于标注数据的问题,属于行人重识别技术领域。本发明包括:将三个单通道的行人可见光数据集分别与红外数据集中对应行人图像组合;利用动量编码器M对组合后的进行特征提取及聚类,确定各个簇的训练样本集合,并确定伪标签和每个簇的质心;计算各个簇中图像的交并比,得到的交并比作为聚类一致性矩阵中的元素,对矩阵中达到阈值的元素所对应簇的交集作为精炼结果,利用softmax损失函数、困难三元组损失函数以及模态对比损失函数对E进行优化,基于优化后的E对M进行更新;利用更新后的M对待测数据集中三通道可见光及红外的行人图像进行识别。

Description

一种无监督跨模态行人重识别方法
技术领域
本发明涉及一种无监督跨模态行人重识别方法,属于行人重识别技术领域。
背景技术
行人重识别旨在从一个大规模的图像库中寻找具有给定身份的人的图像。随着深度学习技术的引入,早期的行人重识别方法可以在可见光模态内实现良好的性能。然而,这些方法只能在光照充足的条件下使用。目前,大多数监控摄像机在光照不足时会自动从可见光模式切换到红外模式。因此,可见光与红外之间的跨模态行人重识别受到了越来越多的关注。跨模态行人重识别的目标是在可见模态和红外模态之间匹配具有相同身份的人。
虽然现有的基于监督学习的跨模态行人重识别方法已取得了具有前景的性能,但它们通常依赖于大规模的跨模态标注数据集。众所周知,为图像检索任务标注数据集是一个十分耗时的工作,而模态间的差异进一步增加了标注难度。为了解决以上问题,有研究者提出了首个无监督跨模态行人重识别方法H2H。该方法首先在标记的源域数据集(单模态数据集)上对模型进行预训练,之后在未标记的目标域数据集(跨模态数据集)上进行同质-异质学习。H2H虽然不再依赖跨模态场景中的身份信息,但仍然需要其他域的身份信息进行预训练。故H2H本质上并非完全无监督的方法,而是一种跨域的方法。跨域的方法不仅需要额外的数据预处理操作,而且对源域数据有一定的要求。除此之外,合适的源域并不总是存在的。
发明内容
针对现有跨模态行人重识别方法依赖于标注数据的问题,本发明提供一种无监督跨模态行人重识别方法。
本发明的一种无监督跨模态行人重识别方法,包括:
S1、分别采集可见光和红外模态内的多个行人图像,并构建可见光数据集和红外数据集;
S2、从可见光数据集中的每个可见光行人图像中提取出红、绿、蓝三个单通道的数据,并分别组成三个单通道的可见光数据集,并将三个单通道的可见光数据集分别与红外数据集组合得到三个单通道的新数据集;
S3、利用动量编码器M对三个单通道的新数据集进行特征提取,分别得到三个单通道的特征集,再根据三个单通道的特征集进行聚类,为每个训练样本分配伪标签,根据伪标签计算每个簇的质心;
S4、计算三个单通道的新数据集中各个簇中图像的交并比,将得到的交并比作为聚类一致性矩阵U中的元素;
S5、将聚类一致性矩阵U中达到阈值的元素所对应簇的交集作为精炼结果,并将交集中同一图像的所有通道加入精炼结果中;
S6、根据得到的质心和精炼结果利用softmax损失函数、困难三元组损失函数以及模态对比损失函数对在线编码器E进行优化,再依据权重加权的方法基于优化后的在线编码器E对所述动量编码器M进行更新;
S7、利用更新后的动量编码器M对待测数据集中的可见光图像的三个通道以及红外图像分别进行特征提取,基于特征距离得到具体特定身份的行人图像。
作为优选,S3中,利用DBSCAN对三个单通道的特征集分别进行聚类,为每个训练样本分配伪标签。
作为优选,S3中,每个簇的质心cp
Figure BDA0004089948350000021
其中,np为对应簇中的样本总数,ml为对三个单通道的训练样本提取的对应簇中训练样本的特征。
作为优选,S4中,交并比作为聚类一致性矩阵
Figure BDA0004089948350000022
其中任意元素ui,j,k为:
Figure BDA0004089948350000023
其中,|·|为计算集合中样本数量的函数,在计算交并比的过程中,将相同的图像的不同通道视作同一样本;nr、ng和nb分别表示三个单通道中簇的数量,
Figure BDA0004089948350000024
表示{Xr,Xir}中的第i个簇中的样本集合,i=1,2…nr,/>
Figure BDA0004089948350000025
表示{Xg,Xir}中的第j个簇中的样本集合,j=1,2,…,ng,/>
Figure BDA0004089948350000026
表示{Xb,Xir}中的第k个簇中的样本集合,k=1,2,…,nb
作为优选,S6中,利用softmax损失函数对在线编码器E进行优化:
Figure BDA0004089948350000027
其中,Lsoft表示softmax损失函数,fp为由在线编码器E在精炼结果中提取的任意样本xp的特征,cp为xp的正簇质心,nc为簇的数量,τs是softmax损失的温度超参数,ca为任意簇的质心,a=1,2,…,nc,将精炼结果中与任意样本xp具有相同伪标签的簇质心称为xp的正簇质心,将其他簇质心称为xp的负簇质心。
作为优选,S6中,利用困难三元组损失函数对在线编码器E进行优化:
Figure BDA0004089948350000031
其中,Lhard表示困难三元组损失函数,mar是阈值超参数,dist(·,·)为欧式距离度量函数,在线编码器E在精炼结果中选定P×K大小的minibatch,
Figure BDA0004089948350000032
为所述P×K大小的minibatch中任意选定的样本,/>
Figure BDA0004089948350000033
为/>
Figure BDA0004089948350000034
的最困难正样本,/>
Figure BDA0004089948350000035
为/>
Figure BDA0004089948350000036
的最困难负样本。
作为优选,S6中,利用模态对比损失函数对在线编码器E进行优化:
Figure BDA0004089948350000037
其中,Lmoda表示模态对比损失函数,xpq表示在线编码器E在精炼结果中提取的第p个簇中模态标签为q的样本,q∈{0,1}为模态标签,q=0表示可见模态,q=1表示红外模态,fpq为xpq的特征,cpl为xpq的正模态质心,下标l=1-q,τm为模态对比损失的温度超参数,csd表示与xpq具有不同簇标签的模态质心,下标s为除p外的其他簇,下标d∈{0,1},d=0表示可见模态,d=1表示红外模态,Q表示xpq的最困难的负模态质心的集合。
作为优选,第p个簇中模态标签为q的模态质心为:
Figure BDA0004089948350000038
mh为由在线编码器E中提取的簇p中的模态标签为q的样本特征,npq表示簇p中模态标签为q的样本总数。
本发明的有益效果,本发明不再依赖任何的源域数据进行学习,提升了识别模型的灵活性和可扩展性;将同一样本的不同通道作为正样本能够有效提升模型对亮度和对比度的鲁棒性;对比可见模态中三个通道的聚类结果能够提升标签的可靠性。
附图说明
图1是本发明的无监督跨模态行人重识别方法的流程图;
图2是本发明的原理示意图;
图3是本发明标签精炼的原理示意图;
图4是本发明模态对比损失优化图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
本实施方式的无监督跨模态行人重识别方法,包括:
步骤1、分别采集可见光和红外模态内的多个行人图像,并构建可见光数据集和红外数据集;
步骤2、从可见光数据集中的每个可见光行人图像中提取出红、绿、蓝三个单通道的数据,并分别组成三个单通道的可见光数据集,并将三个单通道的可见光数据集分别与红外数据集组合得到三个单通道的训练样本;
具体地,本实施方式的步骤2中从可见光数据集
Figure BDA0004089948350000041
提取不同的通道,分别得到红通道/>
Figure BDA0004089948350000042
绿通道/>
Figure BDA0004089948350000043
和蓝通道/>
Figure BDA0004089948350000044
将三个通道可见光数据集与红外模态/>
Figure BDA0004089948350000045
组合以得到三个单通道的新数据集{Xr,Xir},{Xg,Xir}和{Xb,Xir}。
步骤3、利用动量编码器M对三个单通道的新数据集进行特征提取,分别得到三个单通道的特征集,再根据三个单通道的特征集进行聚类,为每个训练样本分配伪标签,根据伪标签计算每个簇的质心;
具体地,本实施方式的步骤3中利用动量编码器M对三个单通道的训练样本集{Xr,Xir},{Xg,Xir}和{Xb,Xir}分别进行特征提取;再利用DBSCAN(Density-Based SpatialClustering of Applications with Noise,具有噪声的基于密度的聚类方法)对得到的三个特征集分别进行聚类为每个训练样本分配伪标签;
计算每个簇的质心cp
Figure BDA0004089948350000051
其中,np为对应簇中的样本总数,ml为对三个单通道的训练样本提取的对应簇中训练样本的特征;
步骤4、计算三个单通道中各个簇的训练样本集合中图像数量的交并比,得到的交并比作为聚类一致性矩阵U中的元素;
本实施方式的聚类一致性矩阵
Figure BDA0004089948350000052
其中任意元素ui,j,k为:
Figure BDA0004089948350000053
其中,|·|为计算集合中样本数量的函数,在计算交并比的过程中,将相同的图像的不同通道视作同一样本;nr、ng和nb分别表示三个单通道中簇的数量,
Figure BDA0004089948350000054
表示{Xr,Xir}中的第i个簇中的样本集合,i=1,2…nr,/>
Figure BDA0004089948350000055
表示{Xg,Xir}中的第j个簇中的样本集合,j=1,2,…,ng,/>
Figure BDA0004089948350000056
表示{Xb,Xir}中的第k个簇中的样本集合,k=1,2,…,nb
在计算交并比的过程中,将相同的图像的不同通道视作同一样本。以图3为例,上标代表通道和模态。下标代表样本序号。
Figure BDA0004089948350000057
和/>
Figure BDA0004089948350000058
来自同一样本x2,红色通道中一个簇的训练样本包括:/>
Figure BDA0004089948350000059
绿色通道中一个簇的训练样本包括:
Figure BDA00040899483500000510
蓝色通道中一个簇的训练样本包括:
Figure BDA00040899483500000511
这三个簇的交集的样本图像为:x2,x3,x6,x7,x8,这三个簇并集的样本图像为:/>
Figure BDA00040899483500000512
数量的交并比为/>
Figure BDA00040899483500000513
作为聚类一致性矩阵/>
Figure BDA0004089948350000061
中的一个元素;
步骤5、将聚类一致性矩阵U中达到阈值的元素所对应簇的交集作为精炼结果,并将交集中同一图像的所有通道加入精炼结果中;
以图3为例,阈值为t,
Figure BDA0004089948350000062
大于t,则将交集x2,x3,x6,x7,x8中的图像的所有通道作为精炼结果,即精炼结果为:/>
Figure BDA0004089948350000063
需要说明的是,这样做的优势是双重的:一方面,同一样本的不同通道虽然在亮度和对比度等方面有差异,但它们本质上互为正样本,通过优化它们之间的距离能够提升模型对亮度和对比度的鲁棒性;另一方面,精炼会降低训练数据数量,而且相比红外图像,可见图像的数量被减少的更多,加入多个通道的图像能够补充训练集。
步骤6、根据得到的质心和精炼结果利用softmax损失函数、困难三元组损失函数以及模态对比损失函数对在线编码器E进行优化,再依据权重加权的方法基于优化后的在线编码器E对所述动量编码器M进行更新;
具体地,利用softmax损失函数对在线编码器E进行优化,softmax损失函数的目的是增加xp与正簇质心的相似性,并降低xp与负簇质心的相似性:
Figure BDA0004089948350000064
Lsoft表示softmax损失函数,fp为由在线编码器E在精炼结果中提取的任意样本xp的特征,cp为xp的正簇质心,nc为簇的数量,τs是softmax损失的温度超参数,ca为任意簇的质心,a=1,2,…,nc,将精炼结果中与任意样本xp具有相同伪标签的簇质心称为xp的正簇质心,将其他簇质心称为xp的负簇质心。
具体地,在线编码器E在精炼结果中选定P×K大小的minibatch,困难三元组损失函数首先选定一个样本
Figure BDA0004089948350000065
作为锚点,之后增加/>
Figure BDA0004089948350000066
与最困难的正样本/>
Figure BDA0004089948350000067
的相似度,降低/>
Figure BDA0004089948350000068
与最困难的负样本/>
Figure BDA0004089948350000069
的相似度:
Figure BDA00040899483500000610
其中mar是阈值超参数,dist(·,·)为欧式距离度量函数。
本实施方式需要根据伪标签寻找
Figure BDA0004089948350000071
的正样本和负样本,再基于与样本/>
Figure BDA0004089948350000072
距离关系确定是否是最困难的,即与/>
Figure BDA0004089948350000073
距离最近的负样本被定义为最困难的负样本,与/>
Figure BDA0004089948350000074
距离最远的正样本被定义为最困难的正样本。
基于聚类结果计算模态质心,第p个簇中模态标签为q的模态质心cpq被定义为:
Figure BDA0004089948350000075
mh为由在线编码器E中提取的簇p中的模态标签为q的样本特征,npq表示簇p中模态标签为q的样本总数。
将与样本xpq具有相同簇标签和不同模态标签的模态质心cpl(l=1-q)称为xpq的正模态质心,q∈{0,1}为模态标签,q=0表示可见模态,q=1表示红外模态,将与样本xpq具有不同簇标签的模态质心csd(s≠p)称为xpq的负模态质心,下标s为除p外的其他簇,下标d∈{0,1},d=0表示可见模态,d=1表示红外模态。如图4所示,对于任意标记样本xpq,模态对比损失的目的是增加其与正模态质心的相似性,并降低其与负模态质心的相似性:
Figure BDA0004089948350000076
xpq表示在线编码器E在精炼结果中提取的第p个簇中模态标签为q的样本,fpq为xpq的特征,cpl为xpq的正模态质心,下标l=1-q,τm为模态对比损失的温度超参数,csd表示与xpq具有不同簇标签的模态质心,Q表示xpq的最困难的负模态质心的集合。
步骤7、利用更新后的动量编码器M对待测数据集中的可见光图像的三个通道以及红外图像分别进行特征提取,基于特征距离得到具体特定身份的行人图像。
也就是说,利用优化后的动量编码器对待测数据集中的可见光图像的三个通道以及红外图像分别进行特征提取,然后基于特征间的相似性寻找具体特定身份的行人图像。
本实施方式不再依赖任何的源域数据进行学习,提升了识别模型的灵活性和可扩展性;将同一样本的不同通道作为正样本能够有效提升模型对亮度和对比度的鲁棒性;对比可见模态中三个通道的聚类结果能够提升标签的可靠性。
下面通过一个具体实施例对本发明实施例提出的基于标签精炼的无监督跨模态行人重识别方法进一步说明。
具体实施例:本实施例采用mean average precision(mAP)、rank-1和rank-10来评估本发明DHCR与现有的完全无监督方法进行性能对比,其中,选择的现有的完全无监督方法为SpCL、ICE、CIFL和H2H。
使用的实验数据集包括:SYSU-MM01和RegDB,其中,
SYSU-MM01数据集包含使用6个摄像头(4个红外和2个可见)拍摄的491个身份的30071张可见光图像15792张红外图像,训练集包含395个身份,测试集包含96个身份;
RegDB数据集包含来自412个身份的8240张图像,每个身份包含10张可见光图像和10张红外图像。206个身份作为训练集,206个身份作为测试集。
如下表1:为本发明在SYSU-MM01和RegDB数据集上与现有的无监督行人重识别方法的比较结果。
Figure BDA0004089948350000081
可以看出,本发明与最优方法H2H相比,本发明在SYSU-MM01和RegDB上都取得了明显优势,因此本发明的综合性能优于现有的无监督行人重识别方法。
综上,根据本发明实施例提出的基于标签精炼的无监督跨模态行人重识别方法,不仅能够在对齐两个模态的特征分布时防止身份的错误对齐,还能够促进来自不同模态的正样本被聚集到相同的簇中从而为优化提供充足的模态间的正样本对;除此之外,能够通过对比可见模态中三个通道的聚类结果来提升伪标签的可靠性。
虽然在本文中参照了特定的实施方式来描述本发明,但是应该理解的是,这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是,可以对示例性的实施例进行许多修改,并且可以设计出其他的布置,只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是,可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是,结合单独实施例所描述的特征可以使用在其他所述实施例中。

Claims (10)

1.一种无监督跨模态行人重识别方法,其特征在于,所述方法包括:
S1、分别采集可见光和红外模态内的多个行人图像,并构建可见光数据集和红外数据集;
S2、从可见光数据集中的每个可见光行人图像中提取出红、绿、蓝三个单通道的数据,并分别组成三个单通道的可见光数据集,并将三个单通道的可见光数据集分别与红外数据集组合得到三个单通道的新数据集;
S3、利用动量编码器M对三个单通道的新数据集进行特征提取,分别得到三个单通道的特征集,再根据三个单通道的特征集进行聚类,为每个训练样本分配伪标签,根据伪标签计算每个簇的质心;
S4、计算三个单通道的新数据集中各个簇中图像的交并比,将得到的交并比作为聚类一致性矩阵U中的元素;
S5、将聚类一致性矩阵U中达到阈值的元素所对应簇的交集作为精炼结果,并将交集中同一图像的所有通道加入精炼结果中;
S6、根据得到的质心和精炼结果利用softmax损失函数、困难三元组损失函数以及模态对比损失函数对在线编码器E进行优化,再依据权重加权的方法基于优化后的在线编码器E对所述动量编码器M进行更新;
S7、利用更新后的动量编码器M对待测数据集中的可见光图像的三个通道以及红外图像分别进行特征提取,基于特征距离得到具体特定身份的行人图像。
2.根据权利要求1所述的无监督跨模态行人重识别方法,其特征在于,S3中,利用DBSCAN对三个单通道的特征集分别进行聚类,为每个训练样本分配伪标签。
3.根据权利要求2所述的无监督跨模态行人重识别方法,其特征在于,S3中,每个簇的质心cp
Figure FDA0004089948340000011
其中,np为对应簇中的样本总数,ml为对三个单通道的训练样本提取的对应簇中训练样本的特征。
4.根据权利要求1所述的无监督跨模态行人重识别方法,其特征在于,S4中,交并比作为聚类一致性矩阵
Figure FDA0004089948340000012
其中任意元素ui,j,k为:
Figure FDA0004089948340000013
其中,|·|为计算集合中样本数量的函数,在计算交并比的过程中,将相同的图像的不同通道视作同一样本;nr、ng和nb分别表示三个单通道中簇的数量,
Figure FDA0004089948340000021
表示{Xr,Xir}中的第i个簇中的样本集合,i=1,2…nr,/>
Figure FDA0004089948340000022
表示{Xg,Xir}中的第j个簇中的样本集合,j=1,2,…,ng,/>
Figure FDA0004089948340000023
表示{Xb,Xir}中的第k个簇中的样本集合,k=1,2,…,nb
5.根据权利要求1所述的无监督跨模态行人重识别方法,其特征在于,S6中,利用softmax损失函数对在线编码器E进行优化:
Figure FDA0004089948340000024
其中,Lsoft表示softmax损失函数,fp为由在线编码器E在精炼结果中提取的任意样本xp的特征,cp为xp的正簇质心,nc为簇的数量,τs是softmax损失的温度超参数,ca为任意簇的质心,a=1,2,…,nc,将精炼结果中与任意样本xp具有相同伪标签的簇质心称为xp的正簇质心,将其他簇质心称为xp的负簇质心。
6.根据权利要求1所述的无监督跨模态行人重识别方法,其特征在于,S6中,利用困难三元组损失函数对在线编码器E进行优化:
Figure FDA0004089948340000025
其中,Lhard表示困难三元组损失函数,mar是阈值超参数,dist(·,·)为欧式距离度量函数,在线编码器E在精炼结果中选定P×K大小的minibatch,
Figure FDA0004089948340000026
为所述P×K大小的minibatch中任意选定的样本,/>
Figure FDA0004089948340000027
为/>
Figure FDA0004089948340000028
的最困难正样本,/>
Figure FDA0004089948340000029
为/>
Figure FDA00040899483400000210
的最困难负样本。
7.根据权利要求1所述的无监督跨模态行人重识别方法,其特征在于,S6中,利用模态对比损失函数对在线编码器E进行优化:
Figure FDA00040899483400000211
其中,Lmoda表示模态对比损失函数,xpq表示在线编码器E在精炼结果中提取的第p个簇中模态标签为q的样本,q∈{0,1}为模态标签,q=0表示可见模态,q=1表示红外模态,fpq为xpq的特征,cpl为xpq的正模态质心,下标l=1-q,τm为模态对比损失的温度超参数,csd表示与xpq具有不同簇标签的模态质心,下标s为除p外的其他簇,下标d∈{0,1},d=0表示可见模态,d=1表示红外模态,Q表示xpq的最困难的负模态质心的集合。
8.根据权利要求7所述的无监督跨模态行人重识别方法,其特征在于,第p个簇中模态标签为q的模态质心为:
Figure FDA0004089948340000031
mh为由在线编码器E中提取的簇p中的模态标签为q的样本特征,npq表示簇p中模态标签为q的样本总数。
9.一种计算机可读的存储设备,所述存储设备存储有计算机程序,其特征在于,所述计算机程序被执行时实现如权利要求1至8任一所述无监督跨模态行人重识别方法。
10.一种无监督跨模态行人重识别系统,包括存储设备、处理器以及存储在所述存储设备中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序实现如权利要求1至8任一所述无监督跨模态行人重识别方法。
CN202310148333.8A 2023-02-21 2023-02-21 一种无监督跨模态行人重识别方法 Pending CN116229510A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310148333.8A CN116229510A (zh) 2023-02-21 2023-02-21 一种无监督跨模态行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310148333.8A CN116229510A (zh) 2023-02-21 2023-02-21 一种无监督跨模态行人重识别方法

Publications (1)

Publication Number Publication Date
CN116229510A true CN116229510A (zh) 2023-06-06

Family

ID=86586914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310148333.8A Pending CN116229510A (zh) 2023-02-21 2023-02-21 一种无监督跨模态行人重识别方法

Country Status (1)

Country Link
CN (1) CN116229510A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117351518A (zh) * 2023-09-26 2024-01-05 武汉大学 一种基于层级差异的无监督跨模态行人重识别方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117351518A (zh) * 2023-09-26 2024-01-05 武汉大学 一种基于层级差异的无监督跨模态行人重识别方法及系统
CN117351518B (zh) * 2023-09-26 2024-04-19 武汉大学 一种基于层级差异的无监督跨模态行人重识别方法及系统

Similar Documents

Publication Publication Date Title
CN109002834B (zh) 基于多模态表征的细粒度图像分类方法
CN109948561B (zh) 基于迁移网络的无监督图像视频行人重识别的方法及系统
Xue et al. Correlative multi-label multi-instance image annotation
CN109993197B (zh) 一种基于深度端对端示例差异化的零样本多标签分类方法
Lin et al. RSCM: Region selection and concurrency model for multi-class weather recognition
Guillaumin et al. Tagprop: Discriminative metric learning in nearest neighbor models for image auto-annotation
Chong et al. Simultaneous image classification and annotation
US9224071B2 (en) Unsupervised object class discovery via bottom up multiple class learning
US11804069B2 (en) Image clustering method and apparatus, and storage medium
CN107944410B (zh) 一种基于卷积神经网络的跨领域面部特征解析方法
CN104715021B (zh) 一种基于哈希方法的多标记学习的学习方法
CN110647904A (zh) 一种基于无标记数据迁移的跨模态检索方法及系统
CN105718940A (zh) 基于多组间因子分析的零样本图像分类方法
CN113806582B (zh) 图像检索方法、装置、电子设备和存储介质
CN111931562A (zh) 一种基于软标签回归的无监督特征选择方法和系统
CN110245723A (zh) 一种安全可靠的图像分类半监督机器学习方法及装置
CN116229510A (zh) 一种无监督跨模态行人重识别方法
CN114399634B (zh) 基于弱监督学习的三维图像分类方法、系统、设备及介质
CN112668633B (zh) 一种基于细粒度领域自适应的图迁移学习方法
CN104778234A (zh) 基于局部敏感哈希技术的多标记文件近邻查询方法
CN111898528B (zh) 数据处理方法、装置、计算机可读介质及电子设备
CN116910571A (zh) 一种基于原型对比学习的开集域适应方法及系统
CN117173702A (zh) 基于深度特征图融合的多视图多标记学习方法
CN112052722A (zh) 行人身份再识别方法及存储介质
CN110263620A (zh) 一种基于l2,1偏标记学习的年龄估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination