CN115205570B - 一种基于对比学习的无监督跨域目标重识别方法 - Google Patents

一种基于对比学习的无监督跨域目标重识别方法 Download PDF

Info

Publication number
CN115205570B
CN115205570B CN202211112425.2A CN202211112425A CN115205570B CN 115205570 B CN115205570 B CN 115205570B CN 202211112425 A CN202211112425 A CN 202211112425A CN 115205570 B CN115205570 B CN 115205570B
Authority
CN
China
Prior art keywords
learning
camera
domain
query
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211112425.2A
Other languages
English (en)
Other versions
CN115205570A (zh
Inventor
王晓东
韩晓蕊
黄磊
魏志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Ocean Instrument Technology Center Co ltd
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN202211112425.2A priority Critical patent/CN115205570B/zh
Publication of CN115205570A publication Critical patent/CN115205570A/zh
Application granted granted Critical
Publication of CN115205570B publication Critical patent/CN115205570B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于图像处理技术领域,公开了一种基于对比学习的无监督跨域目标重识别方法,包括步骤1、构建无监督跨域目标重识别网络模型,为聚类样本生成伪标签;步骤2、构建基于相机原型的混合内存库;步骤3、基于混合内存库进行联合对比学习,生成可靠伪标签;步骤4、反复迭代步骤1‑步骤3,训练所述无监督跨域目标重识别网络模型;步骤5、将待识别的图像输入训练好的模型中,进行目标重识别,输出识别结果。通过本发明减轻了伪标签噪声对对比学习造成的影响,抑制了伪标签噪声的影响,提高目标识别精度。

Description

一种基于对比学习的无监督跨域目标重识别方法
技术领域
本发明属于图像处理技术领域,特别涉及一种基于对比学习的无监督跨域目标重识别方法。
背景技术
目标重识别是在非重叠摄像机中识别同一目标的一项具有挑战性和重要性的任务,由于其在人员跟踪和寻找丢失车辆等情景下的重要实际意义,得到了广泛的关注。现有的目标重识别方法根据使用标注数据的情况可分为:有监督目标重识别、半监督目标重识别和无监督目标重识别,其中无监督目标重识别又可以细分为纯无监督和无监督跨域。纯无监督指的是不使用任何人工标注的数据,首先在ImageNet上进行预训练然后在目标域上进行微调,得到在目标域上表现良好的模型。而无监督跨域目标重识别介于有监督和无监督之间,利用有标注的源域数据和未标注的目标域数据,首先在源域进行预训练,然后在目标域进行微调,最后得到一个在目标域表现优异的模型。一般地,有监督的目标重识别方法比无监督的方法能够获得更好的性能。但由于标签成本过高,有监督方法无法扩展到大型无标签数据集和新领域。因此,无监督的目标重识别方法因其在解决可扩展性问题方面的潜力而引起了越来越多的关注。
无监督跨域目标重识别的关键是如何利用有标注的源域数据和未标注的目标数据,学习一个在目标域中可区分性强的特征表示。现有的最先进的无监督跨域目标重识别方法利用聚类生成伪标签,并结合内存库来训练神经网络。在每次迭代中,通过对模型提取的图像特征进行聚类生成伪标签,所有实例的特征向量都存储在内存库中,用于对比学习。最后,基于内存库,使用对比损失、三元组损失或其他非参数分类损失来训练神经网络。由此可见,影响模型在目标域上表现的关键是源域数据与目标域数据之间的域间差距,以及目标数据本身的域内差距,造成聚类生成的伪标签存在噪声,进而影响可区分性特征的准确性。同时,对未标注的目标数据,如何减少噪声标签的影响以及在伪标签的监督下学习鉴别性的目标特征也是极为重要的。
对比学习的目的是最大限度地减少正样本之间的距离,同时增加负样本之间的距离,近些年来被广泛地应用于无监督特征学习领域,取得了显著的效果,但是这些方法仍然存在一些问题。首先,大多数基于聚类的无监督跨域目标重识别方法将每个聚类视为一个伪身份类,使用聚类质心执行对比学习,将样本与正质心拉近的同时推远负质心,但是同一簇的样本也存在较大差异,这种基于质心的对比学习却忽略了这较大的身份内差异。其次,由于伪标签噪声的存在,使用假的正负样本计算对比损失会阻碍特征学习。第三,有研究证明更多的困难负样本有利于对比学习。针对以上问题,本发明提出了一种基于对比学习的无监督跨域目标重识别方法,该方法能够处理较大的身份内差异并有效减轻伪标签噪声造成的影响,使模型学习到更具鉴别性的特征表示。
发明内容
针对现有技术存在的不足,本发明提供一种基于对比学习的无监督跨域目标重识别方法,设计混合内存库,并基于此进行对比学习,在计算对比损失时,联合使用相机原型计算对比损失,使得属于一个聚类的原型相互靠近,生成可靠伪标签;同时还设计正负样本选择策略并合成困难负样本,减轻伪标签噪声对对比学习的影响,提高目标重识别的精度。
为了解决上述技术问题,本发明采用的技术方案是:
一种基于对比学习的无监督跨域目标重识别方法,包括以下步骤:
步骤0、输入图像,构建有标签源域数据集和无标签目标域数据集;
步骤1、构建无监督跨域目标重识别模型进行特征提取与聚类:包括网络初始和内存初始化阶段;
网络初始化是通过在带标签的源域上预训练卷积神经网络CNN得到初始化模型;内存初始化是首先利用预训练得到的初始化模型提取源域特征
Figure 89733DEST_PATH_IMAGE001
和目标域特征
Figure 475715DEST_PATH_IMAGE002
,然后计算样本特征的相似性进而利用样本相似性对所有图像的特征进行聚类,将属于相同聚类的样本标记为同一类,生成伪标签;
步骤2、构建基于相机原型的混合内存库:
在每次聚类之后,根据摄像机信息将每个聚类分成多个组,每个组包含来自同一摄像机的样本,每个组的平均样本特征向量作为每个组的相机原型;
所述混合内存库存储了所有源域类心、源域相机原型、目标域聚类质心和目标域相机原型,将源域的类数记为
Figure 239141DEST_PATH_IMAGE003
,目标域的聚类数记为
Figure 306454DEST_PATH_IMAGE004
,并且模型迭代更新时,混合内存库也更新;
步骤3、基于混合内存库进行联合对比学习:
在对比学习中,使用联合对比学习损失,包括类心或质心级对比学习损失
Figure 855247DEST_PATH_IMAGE005
和相机原型级对比学习损失
Figure 395819DEST_PATH_IMAGE006
,使得样本向类心或质心靠近的同时属于一个聚类的原型也相互靠近;在对比学习中,基于混合内存库,选择可靠的正负样本并合成困难负样本;在计算相机原型级对比学习损失选择正负样本时,对于每一个query,从其正聚类包括的相机原型和负聚类包括的相机原型中分别取可靠的正和负样本,在合成困难负样本时,通过混合源域数据与目标域负样本合成困难负样本;
步骤4、反复迭代步骤1-步骤3,训练所述无监督跨域目标重识别模型;
步骤5、将待识别的图像输入训练好的模型中,进行目标重识别,输出识别结果。
进一步的,步骤2中,混合内存库中的每个条目通过以下方式更新:
Figure 334956DEST_PATH_IMAGE007
Figure 268277DEST_PATH_IMAGE008
为混合内存库中的第j个条目,
Figure 655265DEST_PATH_IMAGE009
是内存更新率,
Figure 320732DEST_PATH_IMAGE010
代表第i个样本,
Figure 543903DEST_PATH_IMAGE011
是参数,
Figure 267533DEST_PATH_IMAGE012
则是当前迭代该条目的样本特征。
进一步的,步骤3中,对于一个query,同时使用类心或聚类质心级对比学习损失和相机原型级对比学习损失,对比学习损失计算公式如下:
Figure 463022DEST_PATH_IMAGE013
其中,
Figure 361708DEST_PATH_IMAGE014
代表对比学习损失,
Figure 321443DEST_PATH_IMAGE015
代表查询样本query,
Figure 330987DEST_PATH_IMAGE016
是温度系数,m是用于对比学习的样本数,n是用于计算对比学习损失的正负样本数量和;
在计算类心或聚类质心级对比学习损失
Figure 646562DEST_PATH_IMAGE017
时,如果query是源域特征,则
Figure 699837DEST_PATH_IMAGE018
为query所属类别的类心,
Figure 897600DEST_PATH_IMAGE019
为源域类心,将源域的类心级对比学习损失记为
Figure 710836DEST_PATH_IMAGE020
; 如果query是目标域特征,则
Figure 677655DEST_PATH_IMAGE021
为query所属聚类的质心,
Figure 167411DEST_PATH_IMAGE022
为目标域质心,将目标域的聚类质心级对比学习损失记为
Figure 790153DEST_PATH_IMAGE023
;在计算相机原型级对比学习损失
Figure 407079DEST_PATH_IMAGE024
时,如果query是源域特征,则
Figure 498180DEST_PATH_IMAGE025
为query所属的相机原型,
Figure 112832DEST_PATH_IMAGE026
为每个类的相机原型的平均值,将源域的相机原型级对比学习损失记为
Figure 19608DEST_PATH_IMAGE027
;如果query是目标域特征,则
Figure 423914DEST_PATH_IMAGE028
为query所属的相机原型,
Figure 568587DEST_PATH_IMAGE029
为每个聚类的相机原型的平均值, 将目标域的相机原型级对比学习损失记为
Figure 150878DEST_PATH_IMAGE030
源域的类心级对比学习损失
Figure 59797DEST_PATH_IMAGE031
和相机原型级对比学习损失
Figure 956209DEST_PATH_IMAGE032
通过一个系数
Figure 486548DEST_PATH_IMAGE033
相加得到源域总的对比学习损失
Figure 754587DEST_PATH_IMAGE034
,公式如下:
Figure 635955DEST_PATH_IMAGE035
目标域的聚类质心级对比学习损失
Figure 336058DEST_PATH_IMAGE036
和相机原型级对比学习损失
Figure 504259DEST_PATH_IMAGE037
通过一个系数
Figure 162773DEST_PATH_IMAGE033
相加得到目标域总的对比学习损失
Figure 531437DEST_PATH_IMAGE038
,公式如下:
Figure 18919DEST_PATH_IMAGE039
总损失L的公式如下:
Figure 55009DEST_PATH_IMAGE040
进一步的,步骤3中,在进行对比学习时,设计正负样本选择策略,对于batch中的每个query,假设query属于第p个聚类,则混合内存库将提供相机数
Figure 884424DEST_PATH_IMAGE041
个正候选和
Figure 192915DEST_PATH_IMAGE042
个负候选,其中,
Figure 31558DEST_PATH_IMAGE043
是目标域聚类个数,
Figure 656574DEST_PATH_IMAGE044
是第l个聚类中相机原型的个数,
Figure 922470DEST_PATH_IMAGE045
是第p个聚类中相机原型的个数,具体选择策略如下:
选择正样本:对于每个query,根据query与正候选们的余弦相似度按升序排列,选择排序中的中位作为正样本;
选择负样本:将每个聚类表示为其相机数个原型的平均特征,并将平均特征作为负样本,可以得到
Figure 249415DEST_PATH_IMAGE046
个除query所在的聚类外的所有负样本;对来自源域的query使用相同的选择策略,以解决可能的标签错误问题。
进一步的,步骤3中,在进行对比学习时,合成困难负样本的策略,具体如下:对于来自目标域
Figure 95012DEST_PATH_IMAGE047
的每一个query,基于混合内存库,首先计算query与其负相机原型的余弦相似度,与query余弦相似度最大的负相机原型就是query的困难负样本,对每个困难负样本随机从源域选取一个类心,按照如下公式合成新的困难负样本
Figure 840114DEST_PATH_IMAGE048
Figure 726512DEST_PATH_IMAGE049
其中,
Figure 291485DEST_PATH_IMAGE050
是插值系数,H代表选取的困难负样本,
Figure 737510DEST_PATH_IMAGE051
是源域的类心。
与现有技术相比,本发明优点在于:
(1)本发明设计了质心或类心-相机原型级混合内存库,基于该混合内存库引入联合对比损失,学习区分性表示的同时提高聚类内的紧密性,为对比学习生成更可靠的伪标签;
(2)本发明设计了一种新的正负样本选择策略,该策略在对比学习阶段,通过选择可靠且信息丰富的正样本和负样本,缓解了伪标签噪声造成的模型区分性特征学习不足问题,提高对比学习效果;
(3)本发明提出了一种困难负样本生成方法,利用源域与目标域负样本进行插值生成困难负样本,以保证得到的负样本是真负的,且与query距离较近,将额外的困难负样本纳入对比学习,提升对比学习的效果,从而减轻了伪标签噪声对对比学习造成的影响,从而进一步抑制了伪标签噪声对模型优化的影响,提高了无监督跨域目标重识别的效果,提高目标重识别的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的模型整体框架图;
图2为本发明的困难负样本合成方法流程图。
图3为本发明方法流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的说明。
实施例1
结合图1-图3,一种基于对比学习的无监督跨域目标重识别方法,包括以下步骤:
步骤0、输入图像,构建有标签源域数据集和无标签目标域数据集。需要说明的是,本发明的识别对象可以是人物或车辆等,也就是说输入图像可以是人物或车辆等图像,进行人物重识别或者车辆重识别。本实施例以人物重识别为例说明。
步骤1、构建无监督跨域目标重识别网络模型进行特征提取与聚类:包括网络初始和内存初始化阶段。
网络初始化是通过在带标签的源域上预训练卷积神经网络(CNN)得到初始化模型。该初始化模型作为特征提取网络用于提取数据特征,一般使用ResNet-50作为主干网络。
内存初始化是首先利用预训练得到的初始化模型提取源域特征
Figure 320807DEST_PATH_IMAGE001
和目标域特征
Figure 131768DEST_PATH_IMAGE002
,然后计算样本特征的相似性进而利用样本相似性对所有图像的特征进行聚类,将属于相同聚类的样本标记为同一类,生成伪标签;根据样本特征初始化内存库,在训练过程中采用动量更新。
具体的,当输入图像时,网络提取特征输出d维特征
Figure 184038DEST_PATH_IMAGE052
。然后,在每次迭代中,根据特征相似度对所有图像的特征进行聚类并分配伪标签,得到一个带标签的数据集
Figure 417442DEST_PATH_IMAGE053
Figure 871557DEST_PATH_IMAGE054
代表第i个样本,生成的伪标签是
Figure 853419DEST_PATH_IMAGE055
Figure 642253DEST_PATH_IMAGE056
是包含在聚类中的图像数量,Y是聚类号。
步骤2、构建基于相机原型的混合内存库:
为了处理较大的身份内差异,本发明在每次聚类之后,根据摄像机信息将每个聚类分成多个组,每个组包含来自同一摄像机的样本,每个组的平均样本特征向量作为每个组的相机原型,每个聚类中的相机原型数量等于该聚类中摄像机的数量。
本发明将相机原型和聚类质心都存储在混合内存库中。聚类后,任何一个聚类
Figure 430080DEST_PATH_IMAGE057
都可以表示为
Figure 738702DEST_PATH_IMAGE058
,它有
Figure 143663DEST_PATH_IMAGE059
个样本。然后,对每个聚类进行分组,并计算每个组的平均样本特征,用p代表相机原型,得到聚类
Figure 904945DEST_PATH_IMAGE057
v个相机原型集合
Figure 496464DEST_PATH_IMAGE060
Figure 846543DEST_PATH_IMAGE061
表示聚类
Figure 170208DEST_PATH_IMAGE057
中的第一个相机原型,
Figure 933633DEST_PATH_IMAGE062
表示聚类
Figure 63263DEST_PATH_IMAGE057
中的第二个相机原型,以此类推,
Figure 284160DEST_PATH_IMAGE063
表示聚类
Figure 90311DEST_PATH_IMAGE057
中的第v个相机原型。所有的聚类质心和相机原型存储在混合内存库,源域数据同样处理。在反向传播期间,当模型参数通过梯度下降更新时,内存库也更新。
本发明的混合内存库存储了所有源域类心、源域相机原型、目标域聚类质心和目标域相机原型。将源域的类数记为
Figure 91765DEST_PATH_IMAGE003
,目标域的聚类数记为
Figure 759507DEST_PATH_IMAGE004
。混合内存库中的每个条目通过以下方式更新:
Figure 81248DEST_PATH_IMAGE007
Figure 74612DEST_PATH_IMAGE008
为混合内存库中的第j个条目,
Figure 297783DEST_PATH_IMAGE009
=0.5是一个系数,
Figure 956166DEST_PATH_IMAGE010
代表第i个样本,
Figure 948393DEST_PATH_IMAGE011
指整个特征提取网络的参数,
Figure 112658DEST_PATH_IMAGE012
则是当前迭代该条目的样本特征。现有技术中提出过用于无监督域适应目标重识别的混合内存库,SPCL提出的内存库将源域类心、目标域聚类质心和目标域的未聚类实例混合存储,并在训练阶段联合使用源域和目标域信息。该混合内存库适用于域适应的无监督目标重识别,而本发明提出的内存库使用更精细的原型,与先前的混合内存库有很大的不同。与仅使用聚类质心相比,使用更精细的原型可以发掘聚类的全局信息和内在信息,更有利于模型的迭代更新。
步骤3、基于混合内存库进行联合对比学习:
基于混合内存库,本发明提出了联合聚类质心和相机原型的对比学习,将样本与聚类质心拉近的同时,将同一聚类的相机原型也拉近,让模型学习区分性表示的同时提高聚类内的紧密性。
(1)对比损失
在对比学习中,使用联合对比学习损失,包括类心或聚类质心级对比学习损失
Figure 10076DEST_PATH_IMAGE005
和相机原型级对比学习损失
Figure 19620DEST_PATH_IMAGE006
,使得样本向质心靠近的同时属于一个聚类的原型也相互靠近;
对于一个query,本发明提出同时使用类心或聚类质心级对比学习损失和相机原型级对比学习损失,对比学习损失计算公式如下:
Figure 397512DEST_PATH_IMAGE013
其中,
Figure 654050DEST_PATH_IMAGE014
代表对比学习损失,
Figure 851813DEST_PATH_IMAGE015
代表查询样本query,
Figure 665048DEST_PATH_IMAGE016
是温度系数,m是用于对比学习的样本数,n是用于计算对比学习损失的正负样本数量和;
在计算类心或聚类质心级对比学习损失
Figure 631867DEST_PATH_IMAGE017
时,如果query是源域特征,则
Figure 62236DEST_PATH_IMAGE018
为query所属类别的类心,
Figure 747295DEST_PATH_IMAGE019
为源域类心,将源域的类心级对比学习损失记为
Figure 364221DEST_PATH_IMAGE020
; 如果query是目标域特征,则
Figure 638076DEST_PATH_IMAGE021
为query所属聚类的质心,
Figure 49466DEST_PATH_IMAGE022
为目标域质心,将目标域的聚类质心级对比学习损失记为
Figure 221822DEST_PATH_IMAGE023
;在计算相机原型级对比学习损失
Figure 563810DEST_PATH_IMAGE024
时,如果query是源域特征,则
Figure 505221DEST_PATH_IMAGE025
为query所属的相机原型,
Figure 821933DEST_PATH_IMAGE026
为每个类的相机原型的平均值,将源域的相机原型级对比学习损失记为
Figure 730852DEST_PATH_IMAGE027
;如果query是目标域特征,则
Figure 424002DEST_PATH_IMAGE028
为query所属的相机原型,
Figure 423182DEST_PATH_IMAGE029
为每个聚类的相机原型的平均值, 将目标域的相机原型级对比学习损失记为
Figure 688291DEST_PATH_IMAGE030
源域的类心级对比学习损失
Figure 569660DEST_PATH_IMAGE031
和相机原型级对比学习损失
Figure 4183DEST_PATH_IMAGE032
通过一个系数
Figure 169454DEST_PATH_IMAGE033
相加得到源域总的对比损失
Figure 93548DEST_PATH_IMAGE034
,公式如下:
Figure 665474DEST_PATH_IMAGE035
目标域的聚类质心级对比学习损失
Figure 949694DEST_PATH_IMAGE036
和相机原型级对比学习损失
Figure 720204DEST_PATH_IMAGE037
通过一个系数
Figure 18461DEST_PATH_IMAGE033
相加得到目标域总的对比损失
Figure 123689DEST_PATH_IMAGE038
,公式如下:
Figure 962332DEST_PATH_IMAGE039
总损失L的公式如下:
Figure 790611DEST_PATH_IMAGE040
大多数基于聚类的方法将每个聚类视为一个伪身份类,使用聚类质心执行对比学习,将query与正质心拉近的同时推远负质心,但是由于摄像机视角变化,同一簇的样本也存在较大差异,这种基于聚类质心的对比学习却忽略了这较大的身份内差异。因此,本发明提出使用相机原型计算对比损失,使得属于一个聚类的原型相互靠近,从而处理较大的ID内差异,并为学习生成更可靠的伪标签。
(2)正负样本选择策略和合成困难负样本
在对比学习中,基于混合内存库,选择正负样本和合成困难负样本;其中在选择正负样本时,对于每一个query,从正聚类和其他负聚类中的相机原型中分别取其可靠的正和负样本,在合成困难负样本时,通过混合源域数据与目标域负样本合成困难负样本。详细介绍如下:
设计正负样本选择策略:对于batch中的每个query,混合内存库提供相机数
Figure 574284DEST_PATH_IMAGE041
个正候选和
Figure 651961DEST_PATH_IMAGE042
个负候选,其中,
Figure 497558DEST_PATH_IMAGE043
是目标域的聚类个数,
Figure 226348DEST_PATH_IMAGE044
是第l个聚类中相机原型的个数,
Figure 663146DEST_PATH_IMAGE045
是第p个聚类中相机原型的个数,也就是正候选的个数。具体选择策略如下:
选择可靠的正样本:对于每个query,与query属于同一聚类的原型都是它的正候选,但是由于伪标签噪声的存在,这些正候选原型也可能含有噪声,也就是说混合内存库中一些正候选可能捕获不同身份的信息即假正候选,当这些原型被用做正样本时会阻碍特征学习。为了获得可靠的正样本,根据query与正候选们的余弦相似度按升序排列,如果选择相似度最大的候选作为正样本,由于最相似的候选通常在以往的更新中融合了query的特征,因此对学习类内多样性的信息较少,相反,最不相似的候选更有可能是离群值。因此本发明选择排序中的中位作为正样本。
选择可靠的负样本:如果是将所有的负候选都作为负样本,由于聚类结果的不理想,具有相同身份的图像可能被错误地分割为多个聚类,从而导致负候选图像中出现假负候选,推开query和这些假负样本会使特征学习产生偏差。然而,很难找到并排除可能的假负候选。为了解决这个问题,本发明将每个聚类表示为其相机数个原型的平均特征,并将平均特征(称为平均负原型)作为负样本,可以得到
Figure 493698DEST_PATH_IMAGE046
个除query所在的聚类外的所有负样本。对来自源域的query使用相同的选择策略,以解决可能的标签错误问题。
本发明提出一种新的合成困难负样本的策略,用于合成多样且信息丰富的负样本,具体如下:对于来自目标域
Figure 408565DEST_PATH_IMAGE047
的每一个query,基于混合内存库,首先计算query与其相机负原型的余弦相似度,与query余弦相似度最大的负相机原型就是query的困难负样本,对每个困难负样本随机从源域选取一个类心,按照如下公式合成新的困难负样本
Figure 460703DEST_PATH_IMAGE048
Figure 68402DEST_PATH_IMAGE049
其中,
Figure 386251DEST_PATH_IMAGE050
是插值系数,实验设置为0.5,H代表选取的困难负样本,
Figure 557338DEST_PATH_IMAGE051
是源域的类心。源域中的样本对于query是真负的(与目标域不相交),所以源域类心与query的困难负样本插值合成的
Figure 11453DEST_PATH_IMAGE048
也是负样本。
在对比学习过程中,移除简单的负样本不会影响性能,这表明此类负样本在训练期间的贡献较小。有标记的源域和无标记的目标域是两个不相交的类集,这意味着一个数据集的所有样本对于另一个数据集的样本都是负样本。因此,本发明通过混合源域数据和目标域样本来生成困难负样本可以确保合成的负样本可靠且信息丰富。
步骤4、反复迭代步骤1-步骤3,训练所述无监督跨域目标重识别网络模型;
步骤5、将图像输入训练好的模型中,进行目标重识别,输出识别结果。
实施例2
作为一个具体实施例,在本实施例中,使用在源域上预先训练的ResNet-50作为主干网络来提取输入图像的特征,使用DBSCAN聚类算法来分配伪标签,使用Jaccard距离用于聚类。内存更新率
Figure 55633DEST_PATH_IMAGE064
为0.2,温度系数
Figure 68236DEST_PATH_IMAGE065
为0.007。初始学习率为0.00035,前10个迭代过程有预热方案,每20个迭代后除以10,总的迭代数为50。每个训练批次由64个样本组成。实施如实施例1部分所述的目标重识别方法,此处不再赘述该方法。
综上所述,本发明设计了一个混合内存库,并引入了联合对比学习损失,并通过选择可靠的正负样本和合成额外困难负样本的方法改善了对比学习,本发明能够学习有效的区分性特征表示,以提高聚类性能,缓解伪标签噪声对对比学习的不利影响,提高了无监督跨域目标重识别的效果,提高目标重识别的准确率。本发明可以很方便地用于大多数基于聚类的无监督跨域目标重识别方法,适用范围广。
当然,上述说明并非是对本发明的限制,本发明也并不限于上述举例,本技术领域的普通技术人员,在本发明的实质范围内,做出的变化、改型、添加或替换,都应属于本发明的保护范围。

Claims (3)

1.一种基于对比学习的无监督跨域目标重识别方法,其特征在于,包括以下步骤:
步骤0、输入图像,构建有标签源域数据集和无标签目标域数据集;
步骤1、构建无监督跨域目标重识别模型进行特征提取与聚类:包括网络初始化和内存初始化阶段;
网络初始化是通过在带标签的源域上预训练卷积神经网络CNN得到初始化模型;内存初始化是首先利用预训练得到的初始化模型提取源域特征
Figure 464483DEST_PATH_IMAGE001
和目标域特征
Figure 892315DEST_PATH_IMAGE002
,然后计算样本特征的相似性进而利用样本相似性对所有图像的特征进行聚类,将属于相同聚类的样本标记为同一类,生成伪标签;
步骤2、构建基于相机原型的混合内存库:
在每次聚类之后,根据摄像机信息将每个聚类分成多个组,每个组包含来自同一摄像机的样本,每个组的平均样本特征向量作为每个组的相机原型;
所述混合内存库存储了所有源域类心、源域相机原型、目标域聚类质心和目标域相机原型,将源域的类数记为
Figure 972267DEST_PATH_IMAGE003
,目标域的聚类数记为
Figure 857046DEST_PATH_IMAGE004
,并且模型迭代更新时,混合内存库也更新;
步骤3、基于混合内存库进行联合对比学习:
在对比学习中,使用联合对比学习损失,包括类心或质心级对比学习损失
Figure 451975DEST_PATH_IMAGE005
和相机原型级对比学习损失
Figure 713192DEST_PATH_IMAGE006
,使得样本向类心或质心靠近的同时属于一个聚类的原型也相互靠近;在对比学习中,基于混合内存库,选择可靠的正负样本并合成困难负样本;在计算相机原型级对比学习损失选择正负样本时,对于每一个query,从其正聚类包括的相机原型和负聚类包括的相机原型中分别取可靠的正和负样本,在合成困难负样本时,通过混合源域数据与目标域负样本合成困难负样本;
其中,步骤3中,对于一个query,同时使用类心或聚类质心级对比学习损失和相机原型级对比学习损失,对比学习损失计算公式如下:
Figure 149115DEST_PATH_IMAGE007
其中,
Figure 470375DEST_PATH_IMAGE008
代表对比学习损失,
Figure 490284DEST_PATH_IMAGE009
代表查询样本query,
Figure 289613DEST_PATH_IMAGE010
是温度系数,m是用于对比学习的样本数,n是用于计算对比学习损失的正负样本数量和;
在计算类心或聚类质心级对比学习损失
Figure 140894DEST_PATH_IMAGE011
时,如果query是源域特征,则
Figure 603361DEST_PATH_IMAGE012
为query所属类别的类心,
Figure 907304DEST_PATH_IMAGE013
为源域类心,将源域的类心级对比学习损失记为
Figure 244744DEST_PATH_IMAGE014
; 如果query是目标域特征,则
Figure 153794DEST_PATH_IMAGE015
为query所属聚类的质心,
Figure 20119DEST_PATH_IMAGE016
为目标域质心,将目标域的聚类质心级对比学习损失记为
Figure 312823DEST_PATH_IMAGE017
;在计算相机原型级对比学习损失
Figure 719533DEST_PATH_IMAGE018
时,如果query是源域特征,则
Figure 483090DEST_PATH_IMAGE019
为query所属的相机原型,
Figure 582633DEST_PATH_IMAGE020
为每个类的相机原型的平均值,将源域的相机原型级对比学习损失记为
Figure 798851DEST_PATH_IMAGE021
;如果query是目标域特征,则
Figure 510717DEST_PATH_IMAGE022
为query所属的相机原型,
Figure 128780DEST_PATH_IMAGE023
为每个聚类的相机原型的平均值, 将目标域的相机原型级对比学习损失记为
Figure 399224DEST_PATH_IMAGE024
源域的类心级对比学习损失
Figure 899476DEST_PATH_IMAGE025
和相机原型级对比学习损失
Figure 340997DEST_PATH_IMAGE026
通过一个系数
Figure 79146DEST_PATH_IMAGE027
相加得到源域总的对比损失
Figure 146591DEST_PATH_IMAGE028
,公式如下:
Figure 134138DEST_PATH_IMAGE029
目标域的聚类质心级对比学习损失
Figure 125490DEST_PATH_IMAGE030
和相机原型级对比学习损失
Figure 249304DEST_PATH_IMAGE031
通过一个系数
Figure 595972DEST_PATH_IMAGE027
相加得到目标域总的对比损失
Figure 539657DEST_PATH_IMAGE032
,公式如下:
Figure 895552DEST_PATH_IMAGE033
总损失L的公式如下:
Figure 640916DEST_PATH_IMAGE034
步骤3中,在进行对比学习时,设计正负样本选择策略,对于batch中的每个query,假设query属于第p个聚类,则混合内存库将提供相机数
Figure 96168DEST_PATH_IMAGE035
个正候选和
Figure 323887DEST_PATH_IMAGE036
个负候选,其中,
Figure 155577DEST_PATH_IMAGE037
是目标域的聚类个数,
Figure 519562DEST_PATH_IMAGE038
是第l个聚类中相机原型的个数,
Figure 912760DEST_PATH_IMAGE039
是第p个聚类中相机原型的个数,具体选择策略如下:
选择正样本:对于每个query,根据query与正候选们的余弦相似度按升序排列,选择排序中的中位作为正样本;
选择负样本:将每个聚类表示为其相机数个原型的平均特征,并将平均特征作为负样本,可以得到
Figure 362196DEST_PATH_IMAGE040
个除query所在的聚类外的所有负样本;对来自源域的query使用相同的选择策略;
步骤4、反复迭代步骤1-步骤3,训练所述无监督跨域目标重识别模型;
步骤5、将待识别的图像输入训练好的模型中,进行目标重识别,输出识别结果。
2.根据权利要求1所述的一种基于对比学习的无监督跨域目标重识别方法,其特征在于,步骤2中,混合内存库中的每个条目通过以下方式更新:
Figure 59893DEST_PATH_IMAGE041
Figure 481647DEST_PATH_IMAGE042
为混合内存库中的第j个条目,
Figure 341019DEST_PATH_IMAGE043
是内存更新率,
Figure 716899DEST_PATH_IMAGE044
代表第i个样本,
Figure 218287DEST_PATH_IMAGE045
是参数,
Figure 494548DEST_PATH_IMAGE046
则是当前迭代该条目的样本特征。
3.根据权利要求1所述的一种基于对比学习的无监督跨域目标重识别方法,其特征在于,步骤3中,在进行对比学习时,合成困难负样本的策略,具体如下:
对于来自目标域
Figure 524821DEST_PATH_IMAGE047
的每一个query,基于混合内存库,首先计算query与其负相机原型的余弦相似度,与query余弦相似度最大的负相机原型就是query的困难负样本,对每个困难负样本随机从源域选取一个类心,按照如下公式合成新的困难负样本
Figure 948849DEST_PATH_IMAGE048
Figure 224235DEST_PATH_IMAGE049
其中,
Figure 620581DEST_PATH_IMAGE050
是插值系数,H代表选取的困难负样本,
Figure 25018DEST_PATH_IMAGE051
是源域的类心。
CN202211112425.2A 2022-09-14 2022-09-14 一种基于对比学习的无监督跨域目标重识别方法 Active CN115205570B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211112425.2A CN115205570B (zh) 2022-09-14 2022-09-14 一种基于对比学习的无监督跨域目标重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211112425.2A CN115205570B (zh) 2022-09-14 2022-09-14 一种基于对比学习的无监督跨域目标重识别方法

Publications (2)

Publication Number Publication Date
CN115205570A CN115205570A (zh) 2022-10-18
CN115205570B true CN115205570B (zh) 2022-12-20

Family

ID=83573051

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211112425.2A Active CN115205570B (zh) 2022-09-14 2022-09-14 一种基于对比学习的无监督跨域目标重识别方法

Country Status (1)

Country Link
CN (1) CN115205570B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115601791B (zh) * 2022-11-10 2023-05-02 江南大学 基于Multiformer及离群样本重分配的无监督行人重识别方法
CN116229080B (zh) * 2023-05-08 2023-08-29 中国科学技术大学 半监督域适应图像语义分割方法、系统、设备及存储介质
CN116502644B (zh) * 2023-06-27 2023-09-22 浙江大学 一种基于无源领域自适应的商品实体匹配方法及装置
CN116912535B (zh) * 2023-09-08 2023-11-28 中国海洋大学 一种基于相似筛选的无监督目标重识别方法、装置及介质
CN117274619B (zh) * 2023-11-21 2024-02-09 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种基于风格融合对比学习的跨域目标识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860678A (zh) * 2020-07-29 2020-10-30 中国矿业大学 一种基于聚类的无监督跨域行人重识别方法
CN111967325A (zh) * 2020-07-16 2020-11-20 长沙理工大学 一种基于增量优化的无监督跨域行人重识别方法
CN112633071A (zh) * 2020-11-30 2021-04-09 之江实验室 基于数据风格解耦内容迁移的行人重识别数据域适应方法
CN113936275A (zh) * 2021-10-14 2022-01-14 上海交通大学 一种基于区域特征对齐的无监督域适应语义分割方法
CN114882531A (zh) * 2022-05-19 2022-08-09 重庆大学 一种基于深度学习的跨域行人再识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868583B (zh) * 2016-04-06 2018-08-10 东北师范大学 一种基于序列使用代价敏感集成和聚类预测表位的方法
US11263476B2 (en) * 2020-03-19 2022-03-01 Salesforce.Com, Inc. Unsupervised representation learning with contrastive prototypes
EP3989106B1 (en) * 2020-10-26 2024-05-15 Robert Bosch GmbH Unsupervised training of a video feature extractor

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967325A (zh) * 2020-07-16 2020-11-20 长沙理工大学 一种基于增量优化的无监督跨域行人重识别方法
CN111860678A (zh) * 2020-07-29 2020-10-30 中国矿业大学 一种基于聚类的无监督跨域行人重识别方法
CN112633071A (zh) * 2020-11-30 2021-04-09 之江实验室 基于数据风格解耦内容迁移的行人重识别数据域适应方法
CN113936275A (zh) * 2021-10-14 2022-01-14 上海交通大学 一种基于区域特征对齐的无监督域适应语义分割方法
CN114882531A (zh) * 2022-05-19 2022-08-09 重庆大学 一种基于深度学习的跨域行人再识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Unsupervised Cross-domain Person Re-identification with Self-attention and Joint-flexible Optimization;Haopeng Hou;《Image and Vision Computing》;20210731;全文 *
基于多层次均衡聚类的无监督行人重识别方法;汪芳羽;《中国优秀硕士学位论文全文数据库》;20220515;全文 *

Also Published As

Publication number Publication date
CN115205570A (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
CN115205570B (zh) 一种基于对比学习的无监督跨域目标重识别方法
CN111814584B (zh) 基于多中心度量损失的多视角环境下车辆重识别方法
Gao et al. Deep label distribution learning with label ambiguity
Chong et al. Simultaneous image classification and annotation
Niu et al. Context aware topic model for scene recognition
Zhang A survey of unsupervised domain adaptation for visual recognition
Jin et al. Deep saliency hashing for fine-grained retrieval
Lian et al. Max-margin dictionary learning for multiclass image categorization
CN110297931B (zh) 一种图像检索方法
CN111753874A (zh) 一种结合半监督聚类的图像场景分类方法及系统
Xie et al. Hierarchical coding of convolutional features for scene recognition
JP2012038244A (ja) 学習モデル作成プログラム、画像識別情報付与プログラム、学習モデル作成装置及び画像識別情報付与装置
Littwin et al. The multiverse loss for robust transfer learning
CN110598022B (zh) 一种基于鲁棒深度哈希网络的图像检索系统与方法
Li et al. Image classification based on SIFT and SVM
US20180349766A1 (en) Prediction guided sequential data learning method
Menaga et al. Deep learning: a recent computing platform for multimedia information retrieval
Zhou et al. Classify multi-label images via improved CNN model with adversarial network
CN113065409A (zh) 一种基于摄像分头布差异对齐约束的无监督行人重识别方法
Shuai et al. Scene parsing with integration of parametric and non-parametric models
Amayri et al. On online high-dimensional spherical data clustering and feature selection
Sun et al. A novel semantics-preserving hashing for fine-grained image retrieval
Sun et al. Multiple-kernel, multiple-instance similarity features for efficient visual object detection
Wu et al. Distilled camera-aware self training for semi-supervised person re-identification
Su et al. Segmented handwritten text recognition with recurrent neural network classifiers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231024

Address after: 266,071 No.2 Huiquan Road, Shinan District, Qingdao, Shandong

Patentee after: Shandong Ocean Instrument Technology Center Co.,Ltd.

Address before: 266000 Shandong Province, Qingdao city Laoshan District Songling Road No. 238

Patentee before: OCEAN University OF CHINA