CN114937289B - 一种基于异构伪标签学习的跨域行人检索方法 - Google Patents

一种基于异构伪标签学习的跨域行人检索方法 Download PDF

Info

Publication number
CN114937289B
CN114937289B CN202210799577.8A CN202210799577A CN114937289B CN 114937289 B CN114937289 B CN 114937289B CN 202210799577 A CN202210799577 A CN 202210799577A CN 114937289 B CN114937289 B CN 114937289B
Authority
CN
China
Prior art keywords
pedestrian
pseudo tag
pseudo
tag
target domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210799577.8A
Other languages
English (en)
Other versions
CN114937289A (zh
Inventor
张重
贺迪
刘爽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Normal University
Original Assignee
Tianjin Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Normal University filed Critical Tianjin Normal University
Priority to CN202210799577.8A priority Critical patent/CN114937289B/zh
Publication of CN114937289A publication Critical patent/CN114937289A/zh
Application granted granted Critical
Publication of CN114937289B publication Critical patent/CN114937289B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于异构伪标签学习的跨域行人检索方法。该方法包括:构建均值教师和学生网络模型,将源域行人图像和目标域行人图像分别输入,得到源域行人特征、第一目标域行人特征和第二目标域行人特征;计算源域行人图像中每个身份行人对应的中心特征,将中心特征和第二目标域行人特征存入内存库模块;基于第一目标域行人特征获取细颗粒度伪标签和粗颗粒度伪标签,利用第二目标域行人特征和内存库模块存储的特征得到实例伪标签,对实例伪标签进行标签一致性转换,得到第一实例伪标签和第二实例伪标签;计算总损失值,并对学生网络和均值教师网络进行优化;利用最优均值教师网络模型得到跨域行人检索结果。本发明提高了跨域行人检索的正确率。

Description

一种基于异构伪标签学习的跨域行人检索方法
技术领域
本发明属于计算机视觉、模式识别、人工智能领域,具体涉及一种基于异构伪标签学习的跨域行人检索方法。
背景技术
近年来,行人检索广泛应用于人体行为分析,多目标识别等领域,因此受到了学术界和工业界的广泛关注。它主要研究在不同摄像机下搜索相同行人的方法。然而现有行人检索模型直接应用在未知的目标域上,性能会急剧下降,又由于真实场景中行人姿态、衣着、光照以及摄像机角度变化较大,使得跨域行人检索技术面临着巨大的挑战。
最近,基于伪标签学习的跨域行人检索模型性能取得了显著的提升,大多数研究人员通过聚类算法获取一种硬伪标签或者一种软伪标签进行模型学习。Fan等人和Wu等人采用聚类算法和阈值挑选策略进行一种可靠的硬伪标签学习。Fu等人设计了一种自相似性组合模块来学习全局特征和局部特征分配的多尺度硬伪标签。Zheng等人设计了一种组感知标签转移算法,该算法通过对目标域样本聚类多次并在线精细伪标签去学习一种可靠的硬伪标签。对于软伪标签,Zhong等人设计了一个范例内存模块去存储目标域样本的均值特征,并使用该均值特征去学习一种软伪标签。Yu等人引入了有标注的辅助域作为参考行人,进而学习一种软伪标签。除此之外,为了减轻噪声伪标签的影响,Ge等人设计了相互平均教师模型进而精炼伪标签,学习更可靠的软伪标签。Zheng等人提出不确定性引导的抗噪网络模型,该模型利用不确定性评估伪标签的可靠性,并为所有的损失函数学习不确定系数去精细伪标签。
以上这些基于伪标签学习的跨域行人检索方法只学习了一种硬伪标签或者软伪标签,从而导致对目标域中的样本描述不准确、不充分。
发明内容
本发明的目的是要解决目标域样本描述不充分对跨域行人检索结果影响较大的技术问题,为此,本发明提供一种基于异构伪标签学习的跨域行人检索方法。
为了实现所述目的,本发明提出的一种基于异构伪标签学习的跨域行人检索方法包括以下步骤:
步骤S1,利用预训练深度学习模型构建均值教师和学生网络模型,其中,所述均值教师和学生网络模型包括均值教师网络和学生网络,将组成训练集的源域行人图像和目标域行人图像分别输入至所述均值教师和学生网络模型中,得到所述均值教师网络提取的源域行人特征fs和第一目标域行人特征ft,以及所述学生网络提取的第二目标域行人特征gt
步骤S2,构建内存库模块,计算源域行人图像中每个身份行人对应的源域行人特征fs的均值,以表示该身份行人的中心特征,将该中心特征通过键值对形式的更新方式存入所述内存库模块,将第二目标域行人特征gt按照队列形式的更新方式存入所述内存库模块;
步骤S3,构建伪标签生成模块,基于所述第一目标域行人特征ft,利用聚类算法获取细颗粒度伪标签和粗颗粒度伪标签,利用所述第二目标域行人特征gt和内存库模块存储的特征进行相似性度量,得到实例伪标签,并对于所述实例伪标签进行标签一致性转换,得到第一实例伪标签和第二实例伪标签;
步骤S4,构建损失计算模块,基于细颗粒度伪标签、粗颗粒度伪标签、实例伪标签、第一实例伪标签和第二实例伪标签,利用所述损失计算模块计算总损失值,利用所述总损失值对所述学生网络进行参数优化,通过学生网络参数的指数移动平均算法对所述均值教师网络进行参数更新,得到最优均值教师网络模型;
步骤S5,利用所述最优均值教师网络模型提取目标域查询图像和行人库图像的最终特征,并利用余弦距离计算得到所述目标域查询图像和行人库图像之间的相似度,得到跨域行人检索的结果。
可选地,所述步骤S1包括以下步骤:
步骤S11,确定预训练深度学习模型,并对其进行参数初始化,利用源域行人图像对于所述预训练深度学习模型再进行一次预训练,基于得到的深度学习模型分别构建均值教师网络和学生网络,并进行参数初始化,得到均值教师网络和学生网络模型;
步骤S12,对训练集中的所述源域行人图像和目标域行人图像进行预处理;
步骤S13,将预处理后得到的源域行人图像和目标域行人图像输入至所述均值教师网络和学生网络模型中,提取得到相应的行人特征并进行平均池化,得到所述均值教师网络提取的源域行人特征fs和第一目标域行人特征ft,以及所述学生网络提取的第二目标域行人特征gt
可选地,所述步骤S2包括以下步骤:
步骤S21,计算源域行人图像中每个身份行人对应的源域行人特征fs的均值,以表示该身份行人的中心特征Cs
步骤S22,确定所述源域行人图像中每个身份行人的中心特征Cs和第二目标域行人特征gt在所述内存库模块的更新方式分别为键值对形式和队列形式。
可选地,利用下式计算所述源域行人图像中每个身份行人的中心特征Cs
其中,n是源域行人图像中每个身份行人所包含的行人图像的数量,fi s表示源域行人图像中每个身份行人所包含的第i个行人图像的源域行人特征。
可选地,所述步骤S3包括以下步骤:
步骤S31,将得到的第一目标域行人特征ft利用DBSCAN进行聚类,得到细颗粒度伪标签;
步骤S32,将得到的第一目标域行人特征ft利用K-means进行聚类,得到包含较少噪声的粗颗粒度伪标签,其聚类中心的数量少于细颗粒度伪标签中的聚类中心数量;
步骤S33,利用所述第二目标域行人特征gt和内存库模块存储的特征进行相似性度量,得到将每一个目标域行人图像看成一类的实例伪标签;
步骤S34,将步骤S33得到的实例伪标签分别向细颗粒度伪标签和粗颗粒度伪标签进行标签一致性转换,得到第一实例伪标签和第二实例伪标签。
可选地,利用下式计算所述实例伪标签:
其中,表示第k个实例伪标签,Mk表示内存库模块中第k个槽的特征,Mj表示内存库模块中第j个槽的特征,k,j=1,2,…,K3,K3是内存库模块中所有特征的数量,T表示转置操作,/>表示第i个目标域行人图像的第二目标域行人特征,i=1,2,…,nt,nt是目标域行人图像的数量。
可选地,利用下式对实例伪标签进行标签转换,得到第一实例伪标签和第二实例伪标签/>
其中, 表示第k个实例伪标签,arg maxk表示用于获取第k个实例伪标签中的最大值的索引值的函数,/>是细颗粒度伪标签的第k个聚类中心,是粗颗粒度伪标签的第k个聚类中心。
可选地,所述步骤S4包括以下步骤:
步骤S41,基于细颗粒度伪标签、粗颗粒度伪标签和实例伪标签,计算三种不同伪标签对应的交叉熵损失;
步骤S42,基于细颗粒度伪标签、粗颗粒度伪标签、第一实例伪标签和第二实例伪标签,确定伪标签约束正则损失;
步骤S43,计算细颗粒度伪标签对应的三元组损失;
步骤S44,确定细颗粒度伪标签对应的置信度对比损失;
步骤S45,计算交叉熵损失、三元组损失、置信对比损失和伪标签约束正则损失的加权和,得到总损失值;
步骤S46,利用所述总损失值对所述学生网络进行参数优化;
步骤S47,通过学生网络参数的指数移动平均算法对所述均值教师网络进行参数更新,得到最优均值教师网络模型。
可选地,所述步骤S46中,所述学生网络模型的模型参数的更新计算过程表示为:
其中,θs:是学生网络模型更新后的模型参数,θs是学生网络模型更新前的模型参数,σ是学习率。
可选地,所述步骤S47中,均值教师网络的参数更新方式如下:
θt=αθt-1+(1-α)θs
其中,θt是当前迭代次的均值教师网络参数,θt-1是前一迭代次的均值教师网络参数,α是平滑系数。
本发明的有益效果为:本发明通过设计了三种不同的伪标签从不同的角度去描述同一个目标域样本,使得无标注的目标域样本描述更充分、更完备,并基于标签一致性引导进行伪标签约束正则,从而提高了伪标签的质量,与此同时,在对比学习过程中还对相似性分数进行重新加权,从而减少了噪声伪标签的影响,提高了跨域行人检索的正确率。
需要说明的是,本发明得到了国家自然科学基金项目No.62171321,天津市自然科学基金重点项目No.20JCZDJC00180和天津师范大学研究生科研创新项目资助。
附图说明
图1是根据本发明一实施例的一种基于异构伪标签学习的跨域行人检索方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
图1是根据本发明一实施例的一种基于异构伪标签学习的跨域行人检索方法的流程图,下面以图1为例来说明本发明的一些具体实现流程,如图1所示,所述基于异构伪标签学习的跨域行人检索方法包括以下步骤:
步骤S1,利用预训练深度学习模型构建均值教师和学生网络模型,其中,所述均值教师和学生网络模型包括均值教师网络和学生网络,将组成训练集的源域行人图像和目标域行人图像分别输入至所述均值教师和学生网络模型中,得到所述均值教师网络提取的源域行人特征fs和第一目标域行人特征ft,以及所述学生网络提取的第二目标域行人特征gt
进一步地,所述步骤S1包括以下步骤:
步骤S11,确定预训练深度学习模型,并对其进行参数初始化,利用源域行人图像对于所述预训练深度学习模型再进行一次预训练,基于得到的深度学习模型分别构建均值教师网络和学生网络,并进行参数初始化,得到均值教师网络和学生网络模型;
在本发明一实施例中,所采用的预训练深度学习模型可以为ResNet-50,仅选择该模型中最后一个整体池化之前的模型成分,即去掉所述预训练深度学习模型中最后的全局池化层和全连接层,并将ResNet-50模型中第四个块的步长由原来默认的2改为1。
步骤S12,对所述源域行人图像和目标域行人图像进行预处理;
在本发明一实施例中,对所述源域行人图像和目标域行人图像进行预处理包括:将源域行人图像和目标域行人图像的大小裁剪为预设大小,比如256×128,并把所述源域行人图像和目标域行人图像所有的像素值按比例缩小至预设范围内,比如0到1之间,然后将所述源域行人图像中的每个像素值减去相应源域行人图像的像素平均值,再除以所述源域行人图像的像素方差,类似地,将所述目标域行人图像中的每个像素值减去相应目标域行人图像的像素平均值,再除以所述目标域行人图像的像素方差。
步骤S13,将预处理后得到的源域行人图像和目标域行人图像输入至所述均值教师网络和学生网络模型中,提取得到相应的行人特征并进行平均池化,得到所述均值教师网络提取的源域行人特征fs和第一目标域行人特征ft,以及所述学生网络提取的第二目标域行人特征gt
在本发明一实施例中,所述源域行人特征fs和第一目标域行人特征ft、第二目标域行人特征gt的特征图数量为2048,即 其中,所述平均池化是本领域技术人员应当熟练掌握的技术,在此不再赘述。
步骤S2,构建内存库模块,计算源域行人图像中每个身份行人对应的源域行人特征fs的均值,以表示该身份行人的中心特征,将该中心特征通过键值对形式的更新方式存入所述内存库模块,将第二目标域行人特征gt按照队列形式的更新方式存入所述内存库模块;
进一步地,所述步骤S2包括以下步骤:
步骤S21,计算源域行人图像中每个身份行人对应的源域行人特征fs的均值,以表示该身份行人的中心特征Cs
在本发明一实施例中,利用下式计算所述源域行人图像中每个身份行人的中心特征Cs
其中,n是源域行人图像中每个身份行人所包含的行人图像的数量,fi s表示源域行人图像中每个身份行人所包含的第i个行人图像的源域行人特征。
步骤S22,确定所述源域行人图像中每个身份行人的中心特征Cs和第二目标域行人特征gt在所述内存库模块的更新方式分别为键值对形式和队列形式。
在本发明一实施例中,源域行人图像中每个身份行人的中心特征Cs在内存库模块中的更新方式可表示为:
Mi←αMi+(1-α)Cs
其中,Mi是内存库模块中第i个槽的特征,α∈[0,1]是控制更新比例的参数。
在本发明一实施例中,第二目标域行人特征gt在内存库模块中的更新方式是按照队列的形式进行更新,队列的大小就是每次训练时输入的目标域行人图像的数量N。
在本发明一实施例中,α=0.2,N=64。
步骤S3,构建伪标签生成模块,基于所述第一目标域行人特征ft,利用聚类算法获取细颗粒度伪标签和粗颗粒度伪标签,利用所述第二目标域行人特征gt和内存库模块存储的特征进行相似性度量,得到实例伪标签,并对于所述实例伪标签进行标签一致性转换,得到第一实例伪标签和第二实例伪标签;
进一步地,所述步骤S3包括以下步骤:
步骤S31,将得到的第一目标域行人特征ft利用DBSCAN进行聚类,得到包含聚类中心数量足够多的细颗粒度伪标签;
在本发明一实施例中,将所述细颗粒度伪标签作为硬伪标签。
步骤S32,将得到的第一目标域行人特征ft利用K-means进行聚类,得到包含较少噪声的粗颗粒度伪标签,其聚类中心的数量少于细颗粒度伪标签中的聚类中心数量;
在本发明一实施例中,将所述粗颗粒度伪标签作为软伪标签。
步骤S33,利用所述第二目标域行人特征gt和内存库模块存储的特征进行相似性度量,得到将每一个目标域行人图像看成一类的实例伪标签;
在本发明一实施例中,所述实例伪标签可表示为:
其中,表示第k个实例伪标签,上角标3表示第3种伪标签,即实例伪标签,Mk表示内存库模块中第k个槽的特征,Mj表示内存库模块中第j个槽的特征,k,j=1,2,…,K3,K3是内存库模块中所有特征的数量,T表示转置操作,/>表示第i个目标域行人图像的第二目标域行人特征,i=1,2,…,nt,nt是目标域行人图像的数量。
在本发明一实施例中,将所述实例伪标签作为硬伪标签。
步骤S34,将步骤S33得到的实例伪标签分别向细颗粒度伪标签和粗颗粒度伪标签进行标签一致性转换,得到第一实例伪标签和第二实例伪标签。
在本发明一实施例中,利用下式对实例伪标签进行标签转换,得到第一实例伪标签和第二实例伪标签/>
其中, 表示第k个实例伪标签,arg maxk表示用于获取第k个实例伪标签中的最大值的索引值的函数,/>是细颗粒度伪标签的第k个聚类中心,上角标1表示第1种伪标签,即细颗粒度伪标签,/>是粗颗粒度伪标签的第k个聚类中心,上角标2表示第2种伪标签,即粗颗粒度伪标签。
步骤S4,构建损失计算模块,基于细颗粒度伪标签、粗颗粒度伪标签、实例伪标签、第一实例伪标签和第二实例伪标签,利用所述损失计算模块计算总损失值,利用所述总损失值对所述学生网络进行参数优化,通过学生网络参数的指数移动平均算法对所述均值教师网络进行参数更新,得到最优均值教师网络模型;
进一步地,所述步骤S4包括以下步骤:
步骤S41,基于细颗粒度伪标签、粗颗粒度伪标签和实例伪标签,计算三种不同伪标签对应的交叉熵损失;
在本发明一实施例中,所述交叉熵损失可表示为:
其中,Yj,j=(1,2,3)分别代表细颗粒度伪标签、粗颗粒度伪标签和实例伪标签,是/>属于Yj的预测概率。
步骤S42,基于细颗粒度伪标签、粗颗粒度伪标签、第一实例伪标签和第二实例伪标签,确定伪标签约束正则损失;
在本发明一实施例中,利用L2正则来约束实例伪标签与细颗粒度伪标签和粗颗粒度伪标签,所述伪标签约束正则损失可表示为:
其中,||·||2表示L2正则,上角标2表示求平方操作,Y1和Y2分别是细颗粒度伪标签和粗颗粒度伪标签,和/>
步骤S43,计算细颗粒度伪标签对应的三元组损失;
在本发明一实施例中,所述三元组损失可表示为:
其中,是第i个目标域行人图像与其最不相似正样本行人图像之间的余弦相似性,/>是第i个目标域行人图像与其最相似负样本行人图像之间的余弦相似性。
步骤S44,确定细颗粒度伪标签对应的置信度对比损失;
在本发明一实施例中,利用置信系数对步骤S43中计算得到的余弦相似性分数进行重新加权,得到置信度对比损失,进而减少噪声伪标签的影响。
其中,所述置信系数可利用下式计算:
其中,wi表示第i个目标域行人图像的置信系数,是内存库模块存储的第k个槽中的目标域行人图像特征的均值,m用于指代内存库模块,K1是该均值的数量,C1(i)是第i个目标域行人图像特征对应的细颗粒度伪标签聚类中心。
其中,所述置信度对比损失可表示为:
其中,是内存库模块中负样本行人图像的数量,/>是内存库模块中正样本行人图像的数量,/>是第i个目标域行人图像和内存库模块中的第k个负样本行人图像之间的余弦相似性分数,/>是第i个目标域行人图像和内存库模块中的第j个正样本行人图像之间的余弦相似性分数,/> [·]+表示截取大于等于0的操作,/>和/>是两个非负权重系数,m是边界值,γ是缩放因子。
在本发明一实施例中,m=0.25,γ=128。
步骤S45,计算交叉熵损失、三元组损失、置信度对比损失和伪标签约束正则损失的加权和,得到总损失值;
在本发明一实施例中,所述总损失函数可表示为:
Loss=Lid+LTRI+LCCLregLreg
其中,Lid、LTRI、LCCL、Lreg分别表示交叉熵损失、三元组损失、置信度对比损失和伪标签约束正则损失,λreg是控制伪标签约束重要性的加权参数。
步骤S46,利用所述总损失值对所述学生网络进行参数优化;
其中,可利用所述总损失值,借助随机梯度下降法对于学生网络模型的模型参数进行迭代计算,所述学生网络模型的模型参数的更新计算过程可表示为:
其中,θs:是学生网络模型更新后的模型参数,θs是学生网络模型更新前的模型参数,σ是学习率。
在本发明一实施例中,σ=0.00035。
步骤S47,通过学生网络参数的指数移动平均算法对所述均值教师网络进行参数更新,得到最优均值教师网络模型。
其中,均值教师网络的参数更新方式如下:
θt=αθt-1+(1-α)θs
其中,θt是当前迭代次的均值教师网络参数,θt-1是前一迭代次的均值教师网络参数,α是平滑系数。
在本发明一实施例中,α=0.999。
步骤S5,利用所述最优均值教师网络模型提取目标域查询图像和行人库图像的最终特征,并利用余弦距离计算得到所述目标域查询图像和行人库图像之间的相似度,得到跨域行人检索的结果。
其中,所述行人库图像Ig指的是已知行人识别结果的图像。
其中,所述目标域查询图像Iq和行人库图像Ig之间的相似度可表示为:
其中,指的是所述目标域查询图像Iq和行人库图像Ig之间的余弦距离。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (10)

1.一种基于异构伪标签学习的跨域行人检索方法,其特征在于,所述方法包括以下步骤:
步骤S1,利用预训练深度学习模型构建均值教师和学生网络模型,其中,所述均值教师和学生网络模型包括均值教师网络和学生网络,将组成训练集的源域行人图像和目标域行人图像分别输入至所述均值教师和学生网络模型中,得到所述均值教师网络提取的源域行人特征fs和第一目标域行人特征ft,以及所述学生网络提取的第二目标域行人特征gt
步骤S2,构建内存库模块,计算源域行人图像中每个身份行人对应的源域行人特征fs的均值,以表示该身份行人的中心特征,将该中心特征通过键值对形式的更新方式存入所述内存库模块,将第二目标域行人特征gt按照队列形式的更新方式存入所述内存库模块;
步骤S3,构建伪标签生成模块,基于所述第一目标域行人特征ft,利用聚类算法获取细颗粒度伪标签和粗颗粒度伪标签,利用所述第二目标域行人特征gt和内存库模块存储的特征进行相似性度量,得到实例伪标签,并对于所述实例伪标签进行标签一致性转换,得到第一实例伪标签和第二实例伪标签;
步骤S4,构建损失计算模块,基于细颗粒度伪标签、粗颗粒度伪标签、实例伪标签、第一实例伪标签和第二实例伪标签,利用所述损失计算模块计算总损失值,利用所述总损失值对所述学生网络进行参数优化,通过学生网络参数的指数移动平均算法对所述均值教师网络进行参数更新,得到最优均值教师网络模型;
步骤S5,利用所述最优均值教师网络模型提取目标域查询图像和行人库图像的最终特征,并利用余弦距离计算得到所述目标域查询图像和行人库图像之间的相似度,得到跨域行人检索的结果。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1包括以下步骤:
步骤S11,确定预训练深度学习模型,并对其进行参数初始化,利用源域行人图像对于所述预训练深度学习模型再进行一次预训练,基于得到的深度学习模型分别构建均值教师网络和学生网络,并进行参数初始化,得到均值教师网络和学生网络模型;
步骤S12,对训练集中的所述源域行人图像和目标域行人图像进行预处理;
步骤S13,将预处理后得到的源域行人图像和目标域行人图像输入至所述均值教师网络和学生网络模型中,提取得到相应的行人特征并进行平均池化,得到所述均值教师网络提取的源域行人特征fs和第一目标域行人特征ft,以及所述学生网络提取的第二目标域行人特征gt
3.根据权利要求1所述的方法,其特征在于,所述步骤S2包括以下步骤:
步骤S21,计算源域行人图像中每个身份行人对应的源域行人特征fs的均值,以表示该身份行人的中心特征Cs
步骤S22,确定所述源域行人图像中每个身份行人的中心特征Cs和第二目标域行人特征gt在所述内存库模块的更新方式分别为键值对形式和队列形式。
4.根据权利要求3所述的方法,其特征在于,利用下式计算所述源域行人图像中每个身份行人的中心特征Cs
其中,n是源域行人图像中每个身份行人所包含的行人图像的数量,fi s表示源域行人图像中每个身份行人所包含的第i个行人图像的源域行人特征。
5.根据权利要求1所述的方法,其特征在于,所述步骤S3包括以下步骤:
步骤S31,将得到的第一目标域行人特征ft利用DBSCAN进行聚类,得到细颗粒度伪标签;
步骤S32,将得到的第一目标域行人特征ft利用K-means进行聚类,得到包含较少噪声的粗颗粒度伪标签,其聚类中心的数量少于细颗粒度伪标签中的聚类中心数量;
步骤S33,利用所述第二目标域行人特征gt和内存库模块存储的特征进行相似性度量,得到将每一个目标域行人图像看成一类的实例伪标签;
步骤S34,将步骤S33得到的实例伪标签分别向细颗粒度伪标签和粗颗粒度伪标签进行标签一致性转换,得到第一实例伪标签和第二实例伪标签。
6.根据权利要求5所述的方法,其特征在于,利用下式计算所述实例伪标签:
其中,表示第k个实例伪标签,Mk表示内存库模块中第k个槽的特征,Mj表示内存库模块中第j个槽的特征,k,j=1,2,…,K3,K3是内存库模块中所有特征的数量,T表示转置操作,表示第i个目标域行人图像的第二目标域行人特征,i=1,2,…,nt,nt是目标域行人图像的数量。
7.根据权利要求5所述的方法,其特征在于,利用下式对实例伪标签进行标签转换,得到第一实例伪标签和第二实例伪标签/>
其中, 表示第k个实例伪标签,arg maxk表示用于获取第k个实例伪标签中的最大值的索引值的函数,/>是细颗粒度伪标签的第k个聚类中心,/>是粗颗粒度伪标签的第k个聚类中心。
8.根据权利要求1所述的方法,其特征在于,所述步骤S4包括以下步骤:
步骤S41,基于细颗粒度伪标签、粗颗粒度伪标签和实例伪标签,计算三种不同伪标签对应的交叉熵损失;
步骤S42,基于细颗粒度伪标签、粗颗粒度伪标签、第一实例伪标签和第二实例伪标签,确定伪标签约束正则损失;
步骤S43,计算细颗粒度伪标签对应的三元组损失;
步骤S44,确定细颗粒度伪标签对应的置信度对比损失;
步骤S45,计算交叉熵损失、三元组损失、置信对比损失和伪标签约束正则损失的加权和,得到总损失值;
步骤S46,利用所述总损失值对所述学生网络进行参数优化;
步骤S47,通过学生网络参数的指数移动平均算法对所述均值教师网络进行参数更新,得到最优均值教师网络模型。
9.根据权利要求8所述的方法,其特征在于,所述步骤S46中,所述学生网络模型的模型参数的更新计算过程表示为:
其中,θs:是学生网络模型更新后的模型参数,θs是学生网络模型更新前的模型参数,σ是学习率。
10.根据权利要求8所述的方法,其特征在于,所述步骤S47中,均值教师网络的参数更新方式如下:
θt=αθt-1+(1-α)θs
其中,θt是当前迭代次的均值教师网络参数,θt-1是前一迭代次的均值教师网络参数,α是平滑系数。
CN202210799577.8A 2022-07-06 2022-07-06 一种基于异构伪标签学习的跨域行人检索方法 Active CN114937289B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210799577.8A CN114937289B (zh) 2022-07-06 2022-07-06 一种基于异构伪标签学习的跨域行人检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210799577.8A CN114937289B (zh) 2022-07-06 2022-07-06 一种基于异构伪标签学习的跨域行人检索方法

Publications (2)

Publication Number Publication Date
CN114937289A CN114937289A (zh) 2022-08-23
CN114937289B true CN114937289B (zh) 2024-04-19

Family

ID=82868836

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210799577.8A Active CN114937289B (zh) 2022-07-06 2022-07-06 一种基于异构伪标签学习的跨域行人检索方法

Country Status (1)

Country Link
CN (1) CN114937289B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881714A (zh) * 2020-05-22 2020-11-03 北京交通大学 一种无监督跨域行人再识别方法
CN113326731A (zh) * 2021-04-22 2021-08-31 南京大学 一种基于动量网络指导的跨域行人重识别算法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11537817B2 (en) * 2018-10-18 2022-12-27 Deepnorth Inc. Semi-supervised person re-identification using multi-view clustering
CN111814871B (zh) * 2020-06-13 2024-02-09 浙江大学 一种基于可靠权重最优传输的图像分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881714A (zh) * 2020-05-22 2020-11-03 北京交通大学 一种无监督跨域行人再识别方法
CN113326731A (zh) * 2021-04-22 2021-08-31 南京大学 一种基于动量网络指导的跨域行人重识别算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于主动学习的半监督领域自适应方法研究;姚明海;黄展聪;;高技术通讯;20200815(08);全文 *

Also Published As

Publication number Publication date
CN114937289A (zh) 2022-08-23

Similar Documents

Publication Publication Date Title
Afif et al. An evaluation of retinanet on indoor object detection for blind and visually impaired persons assistance navigation
CN110163110B (zh) 一种基于迁移学习和深度特征融合的行人重识别方法
WO2023087558A1 (zh) 基于嵌入平滑图神经网络的小样本遥感图像场景分类方法
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN110516095B (zh) 基于语义迁移的弱监督深度哈希社交图像检索方法和系统
CN113326731B (zh) 一种基于动量网络指导的跨域行人重识别方法
CN108345866B (zh) 一种基于深度特征学习的行人再识别方法
CN110287952A (zh) 一种维语图片字符的识别方法及系统
CN115563327A (zh) 基于Transformer网络选择性蒸馏的零样本跨模态检索方法
CN111695531B (zh) 一种基于异构卷积网络的跨域行人再识别方法
CN111126155B (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN113065409A (zh) 一种基于摄像分头布差异对齐约束的无监督行人重识别方法
CN113920472A (zh) 一种基于注意力机制的无监督目标重识别方法及系统
CN112084895A (zh) 一种基于深度学习的行人重识别方法
CN110503090A (zh) 基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器
CN116910571B (zh) 一种基于原型对比学习的开集域适应方法及系统
Wang et al. Malware detection algorithm based on the attention mechanism and ResNet
CN115830643B (zh) 一种姿势引导对齐的轻量行人重识别方法
CN114937289B (zh) 一种基于异构伪标签学习的跨域行人检索方法
CN115082778B (zh) 一种基于多分支学习的宅基地识别方法及系统
CN116246305A (zh) 一种基于混合部件变换网络的行人检索方法
CN116258938A (zh) 基于自主进化损失的图像检索与识别方法
CN113516118B (zh) 一种图像与文本联合嵌入的多模态文化资源加工方法
CN112699954B (zh) 一种基于深度学习和词袋模型的闭环检测方法
CN115187660A (zh) 一种基于知识蒸馏的多人人体姿态估计方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant