CN112861695B - 行人身份再识别方法、装置、电子设备及存储介质 - Google Patents

行人身份再识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112861695B
CN112861695B CN202110142947.6A CN202110142947A CN112861695B CN 112861695 B CN112861695 B CN 112861695B CN 202110142947 A CN202110142947 A CN 202110142947A CN 112861695 B CN112861695 B CN 112861695B
Authority
CN
China
Prior art keywords
pseudo
clustering
pedestrian
training
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110142947.6A
Other languages
English (en)
Other versions
CN112861695A (zh
Inventor
张史梁
轩诗宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202110142947.6A priority Critical patent/CN112861695B/zh
Publication of CN112861695A publication Critical patent/CN112861695A/zh
Application granted granted Critical
Publication of CN112861695B publication Critical patent/CN112861695B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种行人身份再识别方法、装置、电子设备及存储介质。该方法包括:利用特征提取网络提取多个摄像头所采集的所有图像样本的特征;根据特征分别处理同一摄像头所采集的图像样本,获得若干第一伪标签;利用第一伪标签训练多分支卷积神经网络;利用训练后的多分支卷积神经网络处理所有图像样本,获得若干第二伪标签;利用第二伪标签训练特征提取网络;利用训练好的特征提取网络对输入图像进行行人身份再识别。本申请的行人身份再识别方法能够实现更好的相似度计算,提高了伪标签的质量,从而充分利用了训练数据使身份再识别模型得到更好地训练,在无标注信息的情况下提取具有高判别力和高鲁棒性的行人特征,实现行人的准确检索与匹配。

Description

行人身份再识别方法、装置、电子设备及存储介质
技术领域
本申请涉及计算机视觉技术领域,具体涉及一种行人身份再识别方法、装置、电子设备及存储介质。
背景技术
大多数的无监督行人身份再识别(Re-ID)方法通过测量特征相似度产生伪标签,而未考虑摄像头间的分布差异,导致摄像头间的标签计算精度下降。行人身份再识别(ReID)的目的是从一个图像库中匹配到一个特定的被查询人员,该图像库是从非重叠的摄像头网络中收集得到的。基于强大的深度卷积神经网络(CNN),全监督的行人身份再识别方法取得了很大的进展。为了缓解对昂贵的人员ID标注的需求,人们在无监督的行人身份再识别方法上做了越来越多的工作,即利用有标记的源数据和无标记的目标数据进行训练,或者完全依赖无标记的目标数据进行训练。
现有的无监督的行人身份再识别方法可分为三类:a)利用域自适应来调整源域和目标域之间的特征分布;b)利用生成对抗网络(Generative Adversarial Network,GAN)来进行图像风格转换,同时保持源域上的身份标注;c)通过聚类、KNN搜索等方法为相似图像分配相似标签,从而在目标域上生成用于训练的伪标签。
前两类将无监督的行人身份再识别方法定义为迁移学习任务(transferlearning task),迁移学习任务利用了源域上的已标记数据。生成伪标签使得在完全无监督的情况下训练身份再识别模型成为可能,从而显示出更佳的灵活性。大多数伪标签预测算法一般都是先计算样本的相似性,然后给通过聚类算法或KNN搜索等方法所识别出的相似样本分配相似标签。在这个过程中,计算出的样本相似度在很大程度上决定了行人身份再识别的准确性。为了生成高质量的伪标签,同一身份(ID)的样本被认定为比不同身份的样本具有更大的相似性。然而,无监督的行人身份再识别模型的设置使得学习可靠的样本相似性——尤其是对于来自不同摄像头的样本来说,变得很难。例如,每个身份都可以由具有不同参数和处于不同环境的多个摄像头所记录。这些因素可能会显著改变身份的表征。换言之,摄像头之间的域差异使得同一身份的样本识别以及类内特征相似度的优化变得困难。
发明内容
本申请的目的是提供一种行人身份再识别方法、装置、电子设备及存储介质。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
根据本申请实施例的一个方面,提供一种无监督行人身份再识别方法,包括:
利用特征提取网络提取多个摄像头所采集的所有图像样本的特征;
根据所述特征分别处理同一摄像头所采集的图像样本,获得若干第一伪标签;
利用所述若干第一伪标签训练多分支卷积神经网络;
利用训练后的多分支卷积神经网络处理所述所有图像样本,获得若干第二伪标签;
利用所述第二伪标签训练所述特征提取网络;
利用训练好的特征提取网络对输入图像进行行人身份再识别。
进一步地,所述根据所述特征分别处理同一摄像头所采集的图像样本,获得若干第一伪标签,包括:
根据所述特征分别对同一摄像头所采集的图像样本进行聚类;
为聚类得到的每个簇分别生成一个第一伪标签。
进一步地,所述利用训练后的多分支卷积神经网络处理所述所有图像样本,获得若干第二伪标签,包括:
根据所述特征利用训练后的多分支卷积神经网络对所述所有图像样本进行分类;
根据得到的分类分数计算各所述样本之间的相似度;
根据所述相似度对所述所有样本进行聚类,为对所述所有样本进行聚类得到的每个簇分别生成一个第二伪标签。
进一步地,所述训练后的多分支卷积神经网络包括若干训练好的分类器;在所述根据所述相似度对所述所有样本进行聚类之前,所述方法还包括:
根据每一个所述图像样本在不同分类器的概率分布对各所述样本之间的相似度进行修正;
所述根据所述相似度对所述所有样本进行聚类替换为根据修正后的相似度对所述所有样本进行聚类。
进一步地,在所述利用所述第二伪标签训练所述特征提取网络之前,所述方法还包括:
对所述特征提取网络进行自适应实例规范化处理与批量规范化处理。
根据本申请实施例的另一个方面,提供一种行人身份再识别装置,包括:
提取模块,用于利用特征提取网络提取多个摄像头所采集的所有图像样本的特征;
第一获取模块,用于根据所述特征分别处理同一摄像头所采集的图像样本,获得若干第一伪标签;
第一训练模块,用于利用所述若干第一伪标签训练多分支卷积神经网络;
第二获取模块,用于利用训练后的多分支卷积神经网络处理所述所有图像样本,获得若干第二伪标签;
第二训练模块,用于利用所述第二伪标签训练所述特征提取网络;
识别模块,用于利用训练好的特征提取网络对输入图像进行行人身份再识别。
进一步地,所述第一获取模块,包括:
聚类单元,用于根据所述特征分别对同一摄像头所采集的图像样本进行聚类;
生成单元,用于为聚类得到的每个簇分别生成一个第一伪标签。
进一步地,所述装置还包括规范化处理模块,用于在所述第二训练模块利用所述第二伪标签训练所述特征提取网络之前,对所述特征提取网络进行自适应实例规范化处理与批量规范化处理。
根据本申请实施例的另一个方面,提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现上述的行人身份再识别方法。
根据本申请实施例的另一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以实现上述的行人身份再识别方法。
本申请实施例的其中一个方面提供的技术方案可以包括以下有益效果:
本申请实施例提供的行人身份再识别方法,能够充分利用摄像头间的样本相似度与摄像头内的样本相似度,实现更好的相似度计算,提高了伪标签的质量,从而充分利用了训练数据使身份再识别模型得到更好地训练,在无标注信息的情况下提取具有高判别力和高鲁棒性的行人特征,实现行人的准确检索与匹配。
本申请的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者,部分特征和优点可以从说明书中推知或毫无疑义地确定,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请的一个实施方式的行人身份再识别方法流程图;
图2示出了本申请一个实施方式中的摄像头内训练阶段和摄像头间训练阶段的过程示意图;
图3示出了图1中步骤S40的一个实施方式流程图;
图4示出了图1中步骤S40的另一实施方式流程图;
图5示出了本申请的另一实施方式的行人身份再识别方法流程图;
图6示出了本申请的一个实施例的行人身份再识别装置结构框图;
图7示出了本申请的一个实施例的电子设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本申请做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
如图1所示,本申请的一个实施例提供了一种行人身份再识别方法,包括以下步骤:
S10、利用特征提取网络提取多个摄像头所采集的所有图像样本的特征。
多个摄像头所采集的所有图像样本例如可以表示为带有摄像头信息的未标记个人图像数据集其中/>是个人图像的集合,上标c代表摄像头的索引,c=1:C。
特征提取网络即行人身份再识别模型的基础网络。训练好的特征提取网络即行人身份再识别模型,可以在上训练特征提取网络。
对于任一被查询行人的图像q,特征提取网络能够产生一个特征向量,该特征向量用于从一个图库集G中检索出包含同一个人的图像Ig
训练好的特征提取网络应该满足:确保q与Ig之间的特征相似度比q与图库集G中的其他任一图像之间的特征相似度都要高,即q与Ig之间的特征相似度是最高的,即
其中,是由行人身份再识别模型所提取的d维特征向量。sim(·)用于计算特征相似度。
S20、根据所述特征分别处理同一摄像头所采集的图像样本,获得若干第一伪标签。
在某些实施方式中,S20包括:根据所述特征分别对同一摄像头所采集的图像样本进行聚类,为聚类得到的每个簇分别生成一个第一伪标签。
假设一个人p被中的摄像头捕获,p和/>的图像集合可以分别表示为/>其中P是/>中的总人数。对/>的估计将使得对等式(1)的优化成为可能,例如,通过最小化每个/>中的特征距离,同时用i≠j来扩大/>和/>之间的距离,常用的策略是在/>上进行聚类生成伪标签(即第一伪标签)。标签预测中的训练目标在概念上可以表示为
其中表示聚类结果,/>计算其与/>的差异。
对式(2)的优化需要通过摄像头识别同一个人的图像。由于图像的表观可能会受到复杂因素的影响,所以这具有一定的难度。使用来表示由照摄像头c所捕获的人p的图像,在概念上将/>的表观描述为
其中Ap表示人p的表观。Sc表示摄像头c的设置,包括影响其捕获图像的表观的参数、视点、环境等。
用En来表示影响表观的其他随机因素,包括姿势、光照、遮挡等。根据式(3),式(2)的挑战在于学习特征向量f以减轻Sc和En的影响,以及根据Ap在摄像头之间找到图像簇。
为了克服这一挑战,分两个阶段进行伪标签预测,分别逐步增强特征向量f对En和Sc的鲁棒性。通过使用现有的伪标签生成方法在每个摄像头内执行式(2),然后根据聚类结果训练特征向量f,可以增强对En的鲁棒性。假设第c个摄像头的聚类结果为Tc,则第c个摄像头上的训练损失可以表示为
其中m表示簇ID,其用于作为In的伪标签损失计算。
为了确保特征向量f在不同摄像头下对复杂En的鲁棒性,可以通过共享相同的f在不同的摄像头上计算式(4)。因此采用一个多分支CNN,其中每个分支对应一个分类器,所有分类器的共享主干学习特征f。在第二阶段通过对摄像头得到的同一个人的图像的聚类增强了对Sc的鲁棒性。使用被学习的特征向量f来度量用于聚类的相似度,这直接受到Sc影响。
因此,计算一个更健壮的摄像头间相似度,训练具有域适应策略的分类器,以获得增强的泛化能力,例如,摄像头c上的分类器与其他摄像头上的分类器是有区别的。因此,可以根据同一个人的分类分数来识别来自不同摄像头的图像,并用摄像头间的相似度来放大它们的相似度,即
SIMinter(Im,In)=sim(fm,fn)+μΔ(sm,sn) (5),
其中Sn表示图像In的分类分数。Δ(sm,sn)是Im和In来自同一身份的概率。如果来自不同摄像头的两幅图像被识别为同一个人,那么式(5)会放大该两幅图像的相似度。
这有效地缓解了相似度计算和图像聚类过程中的Sc问题。因此,根据聚类结果进一步优化特征向量f,即
本实施例的方法通过式(4)和式(6)进行逐步优化,以分别获得对Sc、En具有鲁棒性的特征向量f。下面将介绍它们的详细计算,以及Δ(·)的实现和泛化能力的增强。
图2展示了本申请实施例的摄像头内训练阶段和摄像头间训练阶段的过程示意图,其中行人身份再识别特征向量f通过两个阶段进行了优化。摄像头内训练阶段中,根据每幅图像的摄像头索引将训练集划分为若干子集/>一个摄像头对应一个子集。然后,根据特征向量f计算出的相似度对每个子集进行聚类,得到多个簇,为每个簇的图像分配相同的标签,即第一伪标签,将每个/>变成一个有标签的数据集,使得在/>中的lossc(·)函数可以计算为
其中表示具有可学习参数wc的分类器。l(·)计算在分类器输出和真实数据标签m上的softmax交叉熵损失。
S30、利用所述若干第一伪标签训练多分支卷积神经网络。
如图2所示,摄像头内训练将每个摄像头视为训练任务的对象,并用多个任务训练特征向量f。总体训练损失可以表示为
其中,C代表摄像头的总数。式(8)有效地提高了每个摄像头内特征向量f的分辨力。此外,在多任务上优化特征向量f,提高了特征向量f在不同领域的识别能力,从而提高了学习分类器的泛化能力。
这种“摄像头内”距离通过对样本进行聚类并给同一簇中的样本分配相同的标签来指导每个摄像头内的伪标签生成。因此,C个摄像头中的独立伪标签利用C分支网络来训练身份再识别模型,其中共享主干(shared backbone)通过多个任务进行优化,每个分支通过同一摄像头中的特定分类任务进行优化。这一阶段简化了伪标签的生成,从而确保了高质量的伪标签和高效的主干优化。
S40、利用训练后的多分支卷积神经网络处理所述所有图像样本,获得若干第二伪标签。
如图3所示,在某些实施方式中,步骤S40包括:
S401、根据所述特征利用训练后的多分支卷积神经网络对所述所有图像样本进行分类;
S402、根据得到的分类分数计算各所述样本之间的相似度;
S403、根据所述相似度对所述所有样本进行聚类,为对所述所有样本进行聚类得到的每个簇分别生成一个第二伪标签。
所述训练后的多分支卷积神经网络包括若干训练好的分类器。如图4所示,在某些实施方式中,在S403之前,所述方法还包括:
S402’、根据每一个所述图像样本在不同分类器的概率分布对各所述样本之间的相似度进行修正。
步骤S403替换为:S403’、根据修正后的相似度对所述所有样本进行聚类,为对所述所有样本进行聚类得到的每个簇分别生成一个第二伪标签。
为了估计来自不同摄像头的两个样本属于同一身份的概率,需要一个与域无关的特征。属于同一身份的样本应该具有每个分类器所产生的相似分类概率分布。使用分类概率的Jaccard相似度来计算Δ(sm,sn)Δ(sm,sn)反映了Im和In来自相同身份的概率,其中,
其中∩代表求两个向量的元素最小值,∪代表求两个向量的元素最大值。
分类分数Sm是通过连接来自各C个分类器的分类分数得到的,
其中p(k|fm,wc)是由分类器所计算的在类k上的分类概率,/>代表摄像头C上的图像Im的分类分数。
为了使Δ(sm,sn)按预期工作,在每个摄像头上所训练的分类器需要在其他摄像头上很好地推广。由在摄像头内阶段的多任务学习所训练的特征向量f为特征提取网络的泛化能力提供了基本保证。为了进一步提高不同分类器的泛化能力,提出了AIBN。
通过Δ(sm,sn),可以基于摄像头间相似度进行聚类,从而在上生成伪标签。
式(6)可以通过式(11)计算如下
其中,是训练小批量,l是softmax交叉熵损失,m是通过聚类结果所分配的伪标签,λ是损失权重,Ltriplet是硬批量三重损失。从每个聚类中随机选取P个簇和K个样本构建训练小批量B。
S50、利用所述第二伪标签训练所述特征提取网络。
用CNN特征计算的样本相似度可能受到域差距的影响,较大的域差距降低相同身份的样本之间的相似度。分类概率比原始特征在域差距中更稳健。通过提高训练分类器的泛化能力来缩小域差距。具体来说,使用C个分类器对每个样本进行分类,并将其分类得分作为一个新的特征向量。
因此,采用C个分类器产生的分类分数来计算“摄像头间”相似度,从而在摄像头间寻找伪标签。身份再识别模型最终通过第二伪标签得到优化。通过本申请实施例的方法所学习的特征,摄像头之间的域差距被有效地消除。
S60、利用训练好的特征提取网络对输入图像进行行人身份再识别。
将待识别的图像输入训练好的特征提取网络,能够实现行人身份再识别。
摄像头内训练在每个摄像头内分别进行。摄像头内训练利用CNN特征f计算的摄像头内相似度聚类生成伪标签,摄像头间训练利用摄像头间相似度聚类生成伪标签。这两个阶段的训练过程能够对摄像头内训练和摄像头间训练所产生的行人身份再识别特征f的损失进行优化互补。通过分别考虑摄像头间样本相似度与摄像头内样本相似度,可以提高生成伪标签的质量,进而可以学习到鲁棒的行人特征以用于后续的行人检索。
如图5所示,在某些实施方式中,在S50之前,该方法还包括:S40’、对特征提取网络进行自适应实例规范化(Adaptive Instance Normalization)处理与批量规范化(BatchNormalization)处理。
如上所述,提出AIBN来提高学习分类器的泛化能力。IN(InstanceNormalization,实例规范化)可以使网络相对于表象变化保持不变。然而,IN减少了类间方差,使得网络的区分性降低。与IN不同的是,BN(Batch Normalization,批量规范化)在网络训练过程中保留了不同类之间的变异,减少了内部协变量的变换。即IN和BN是互补的。为了获得IN和BN的优势,提出了AIBN。它是通过线性混合分别由IN和BN所得到的统计量(均值和方差)来计算的,即:
其中,是每个通道的特征图,μbn和σbn分别是由BN计算得到的均值和方差,μm和σin分别是由IN计算得到的均值和方差,γ和β分别是仿射参数,α是可学习权重参数。α的优化可以由在CNN训练过程中的反向传播引导。在训练反向传播过程中未对α施加约束。在使用式(12)的网络前向推导中,将α限定在[0,1]中以避免出现负值。
为了保证分类结果对域间距的鲁棒性,在一个摄像头上训练的分类器应该能很好地推广应用到其他摄像头上。这是通过提出的自适应实例和批处理归一化(AIBN)来实现的,它在不降低分类器识别能力的前提下提高了分类器的泛化能力。
本实施例的方法包括摄像头内阶段和摄像头间阶段。在摄像头内阶段,聚类只发生在每个摄像头内,利用CNN特征计算得到的相似度为每个样本生成伪标签。然后使用这些伪标签,训练一个多分支CNN,其中每个分支对应一个分类器,各分支对应一个共享主干。在摄像头间阶段,使用在摄像头内阶段训练的每个分类器所产生的分类分数作为新的特征向量来计算更为鲁棒的摄像头间样本相似度,然后根据摄像头间样本相似度进行摄像头间的样本聚类,并利用聚类结果生成的伪标签对特征提取网络进行训练。此外,引入了AIBN来提高网络的泛化能力。
本申请实施例的方法不需要额外的人工数据标注,可以广泛应用于行人搜索,跨摄像头行人检测等实际系统中,服务于视频监控、安保等领域与数字视网膜技术,提升监控视频数据处理与使用的效率。可用于大型公共场所或者智慧城市的目标人追踪应用,例如寻找丢失儿童、犯罪嫌疑人等。例如,给定一张特定行人的图片,该方法可以在海量监控视频数据中自动寻找和匹配该行人,进而推断出该行人的出行路线和规律等信息。
本申请实施例的方法包括计算摄像头内相似度与计算摄像头间相似度的两个阶段,逐步寻找更好的伪标签进行训练,能够有效提高身份再识别模型的性能。本申请实施例的方法通过学习可归纳分类器来减小域差距(domain gap),有效地减小了摄像头之间的域差距,比直接预测摄像头之间的伪标签更为合理。另外,这两个阶段在预测伪标签方面的难度不同,因此在优化身份再识别模型方面是互补的。
本申请实施例的方法,将样本相似度计算分解为两个阶段,即摄像头内相似度计算和摄像头间相似度计算。摄像头内相似度计算直接利用CNN特征在每个摄像头内进行相似度计算,利用在不同摄像头上生成的伪标签在多分支CNN网络中训练身份再识别模型。第二阶段将每个样本在不同摄像头上的分类得分作为一个新的特征向量。这一新特性有效地缓解了摄像头之间的分布差异,生成了更可靠的伪标签。因此,将行人身份再识别模型的训练分为两个阶段,该两个阶段分别使用摄像头内的伪标签和摄像头间的伪标签进行训练。本申请实施例的方法可以利用摄像头间与摄像头内相似度实现无监督行人再识别,可以在无标注信息的情况下提取具有高判别力和高鲁棒性的行人特征,可应用于行人的准确检索与匹配。
本申请实施例的方法通过更好的相似度计算直接提高了伪标签的质量,从而充分利用了训练数据使身份再识别模型得到更好地训练。在无监督的行人身份再识别中利用了更好的相似度计算策略。
本申请实施例提出的方法首先根据摄像头内各样本之间的相似度对摄像头内部的样本进行聚类,根据聚类结果生成伪标签,训练得到基础网络。利用每一个样本在不同摄像头数据下所训练得到的分类器的概率分布可以对摄像头间样本的相似度进行修正,根据修正后的摄像头间各样本的相似度对摄像头间各样本进行聚类,并生成新的伪标签,训练特征提取网络。通过分别考虑摄像头间与摄像头内相似度,提出的方法可以提高生成伪标签的质量,进而可以学习到鲁棒的行人特征用于后续的行人检索。
本申请实施例提供了一种可以利用摄像头间与摄像头内相似度的无监督行人身份再识别方法。该方法可以在无标注信息的情况下提取具有高判别力和高鲁棒性的行人身份特征,可应用于行人的准确检索与匹配。
本申请实施例的方法解决了无监督行人再识别问题中在无标注信息的情况下学习鲁棒的行人特征的核心难题。本申请实施例的方法不需要额外的人工数据标注,可以广泛应用于行人搜索,跨摄像头行人检测等实际系统中,服务于视频监控、安保等领域与数字视网膜技术,提升监控视频数据处理与使用的效率。可用于大型公共场所或者智慧城市的目标人追踪应用,例如寻找丢失儿童、犯罪嫌疑人等。例如,给定一张特定行人的图片,该方法可以在海量监控视频数据中自动寻找和匹配该行人,进而推断出该行人的出行路线和规律等信息。
如图6所示,本申请的另一个实施例还提供了一种行人身份再识别装置,包括:
提取模块1,用于利用特征提取网络提取多个摄像头所采集的所有图像样本的特征;
第一获取模块2,用于根据所述特征分别处理同一摄像头所采集的图像样本,获得若干第一伪标签;
第一训练模块3,用于利用所述若干第一伪标签训练多分支卷积神经网络;
第二获取模块4,用于利用训练后的多分支卷积神经网络处理所述所有图像样本,获得若干第二伪标签;
第二训练模块5,用于利用所述第二伪标签训练所述特征提取网络;
识别模块6,用于利用训练好的特征提取网络对输入图像进行行人身份再识别。
在某些实施方式中,所述第一获取模块1,包括:
聚类单元,用于根据所述特征分别对同一摄像头所采集的图像样本进行聚类;
生成单元,用于为聚类得到的每个簇分别生成一个第一伪标签。
在某些实施方式中,所述装置还包括规范化处理模块,用于在所述第二训练模块利用所述第二伪标签训练所述特征提取网络之前,对所述特征提取网络进行自适应实例规范化处理与批量规范化处理。
在某些实施方式中,第二获取模块4,包括:
分类单元,用于根据所述特征利用训练后的多分支卷积神经网络对所述所有图像样本进行分类;
计算单元,用于根据得到的分类分数计算各所述样本之间的相似度;
聚类单元,用于根据所述相似度对所述所有样本进行聚类,为对所述所有样本进行聚类得到的每个簇分别生成一个第二伪标签。
所述训练后的多分支卷积神经网络包括若干训练好的分类器。在某些实施方式中,所述装置还包括修正单元,用于在聚类单元根据所述相似度对所述所有样本进行聚类,为对所述所有样本进行聚类得到的每个簇分别生成一个第二伪标签之前,根据每一个所述图像样本在不同分类器的概率分布对各所述样本之间的相似度进行修正。
聚类单元用于根据修正后的相似度对所述所有样本进行聚类,为对所述所有样本进行聚类得到的每个簇分别生成一个第二伪标签。
本申请的另一个实施例还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现上述任一实施方式的行人身份再识别方法。如图7所示,所述电子设备10可以包括:处理器100,存储器101,总线102和通信接口103,所述处理器100、通信接口103和存储器101通过总线102连接;所述存储器101中存储有可在所述处理器100上运行的计算机程序,所述处理器100运行所述计算机程序时执行本申请前述任一实施方式所提供的方法。其中,存储器101可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还可以包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。总线102可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器101用于存储程序,所述处理器100在接收到执行指令后,执行所述程序,前述本申请实施例任一实施方式揭示的所述方法可以应用于处理器100中,或者由处理器100实现。处理器100可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器100中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器100可以是通用处理器,可以包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器101,处理器100读取存储器101中的信息,结合其硬件完成上述方法的步骤。本申请实施例提供的电子设备与本申请实施例提供的方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本申请的另一个实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以实现上述任一实施方式的行人身份再识别方法。
需要说明的是:
术语“模块”并非意图受限于特定物理形式。取决于具体应用,模块可以实现为硬件、固件、软件和/或其组合。此外,不同的模块可以共享公共组件或甚至由相同组件实现。不同模块之间可以存在或不存在清楚的界限。
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述实施例仅表达了本申请的实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (9)

1.一种行人身份再识别方法,其特征在于,包括:
利用特征提取网络提取多个摄像头所采集的所有图像样本的特征;
根据所述特征分别处理同一摄像头所采集的图像样本,获得若干第一伪标签;
根据每幅图像的摄像头索引将训练集划分为若干子集/>一个摄像头对应一个子集;
根据特征向量f计算出的相似度对每个子集进行聚类,得到多个簇,为每个簇的图像分配相同的标签,即第一伪标签,将每个变成一个有标签的数据集,使得在/>中的lossc(·)函数可以计算为:
其中,表示具有可学习参数wc的分类器;
l(·)计算在分类器输出和真实数据标签m上的softmax交叉熵损失;
利用所述若干第一伪标签训练多分支卷积神经网络;
利用训练后的多分支卷积神经网络处理所述所有图像样本,获得若干第二伪标签;
根据所述特征利用训练后的多分支卷积神经网络对所述所有图像样本进行分类;
根据得到的分类分数计算各所述样本之间的相似度;
根据所述相似度对所述所有样本进行聚类,为对所述所有样本进行聚类得到的每个簇分别生成一个第二伪标签;
利用所述第二伪标签训练所述特征提取网络;
利用训练好的特征提取网络对输入图像进行行人身份再识别。。
2.根据权利要求1所述的行人身份再识别方法,其特征在于,,所述根据所述特征分别处理同一摄像头所采集的图像样本,获得若干第一伪标签,包括:
根据所述特征分别对同一摄像头所采集的图像样本进行聚类;
为聚类得到的每个簇分别生成一个第一伪标签。
3.根据权利要求1所述的行人身份再识别方法,其特征在于,,所述训练后的多分支卷积神经网络包括若干训练好的分类器;在所述根据所述相似度对所述所有样本进行聚类之前,所述方法还包括:
根据每一个所述图像样本在不同分类器的概率分布对各所述样本之间的相似度进行修正;
所述根据所述相似度对所述所有样本进行聚类替换为根据修正后的相似度对所述所有样本进行聚类。
4.根据权利要求1所述的行人身份再识别方法,其特征在于,,在所述利用所述第二伪标签训练所述特征提取网络之前,所述方法还包括:
对所述特征提取网络进行自适应实例规范化处理与批量规范化处理。
5.一种行人身份再识别装置,其特征在于,包括:
提取模块,用于利用特征提取网络提取多个摄像头所采集的所有图像样本的特征;
第一获取模块,用于根据所述特征分别处理同一摄像头所采集的图像样本,获得若干第一伪标签;
根据每幅图像的摄像头索引将训练集划分为若干子集/>一个摄像头对应一个子集;
根据特征向量f计算出的相似度对每个子集进行聚类,得到多个簇,为每个簇的图像分配相同的标签,即第一伪标签,将每个变成一个有标签的数据集,使得在/>中的lossc(·)函数可以计算为:
其中,表示具有可学习参数wc的分类器;
l(·)计算在分类器输出和真实数据标签m上的softmax交叉熵损失;
第一训练模块,用于利用所述若干第一伪标签训练多分支卷积神经网络;
第二获取模块,用于利用训练后的多分支卷积神经网络处理所述所有图像样本,获得若干第二伪标签;
根据所述特征利用训练后的多分支卷积神经网络对所述所有图像样本进行分类;
根据得到的分类分数计算各所述样本之间的相似度;
根据所述相似度对所述所有样本进行聚类,为对所述所有样本进行聚类得到的每个簇分别生成一个第二伪标签;
第二训练模块,用于利用所述第二伪标签训练所述特征提取网络;
识别模块,用于利用训练好的特征提取网络对输入图像进行行人身份再识别。
6.根据权利要求5所述的行人身份再识别装置,其特征在于,所述第一获取模块,包括:
聚类单元,用于根据所述特征分别对同一摄像头所采集的图像样本进行聚类;
生成单元,用于为聚类得到的每个簇分别生成一个第一伪标签。
7.根据权利要求5所述的行人身份再识别装置,其特征在于,所述装置还包括规范化处理模块,用于在所述第二训练模块利用所述第二伪标签训练所述特征提取网络之前,对所述特征提取网络进行自适应实例规范化处理与批量规范化处理。
8.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-4中任一所述的方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以实现如权利要求1-4中任一所述的方法。
CN202110142947.6A 2021-02-02 2021-02-02 行人身份再识别方法、装置、电子设备及存储介质 Active CN112861695B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110142947.6A CN112861695B (zh) 2021-02-02 2021-02-02 行人身份再识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110142947.6A CN112861695B (zh) 2021-02-02 2021-02-02 行人身份再识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112861695A CN112861695A (zh) 2021-05-28
CN112861695B true CN112861695B (zh) 2023-10-24

Family

ID=75986251

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110142947.6A Active CN112861695B (zh) 2021-02-02 2021-02-02 行人身份再识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112861695B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536946B (zh) * 2021-06-21 2024-04-19 清华大学 一种基于摄像头关系的自监督行人重识别方法
CN114519863A (zh) * 2021-12-30 2022-05-20 深圳云天励飞技术股份有限公司 人体重识别方法、人体重识别装置、计算机设备及介质
CN114821651B (zh) * 2022-04-30 2023-11-10 苏州浪潮智能科技有限公司 一种行人重识别方法、系统、设备及计算机可读存储介质
CN116089652B (zh) * 2023-04-07 2023-07-18 中国科学院自动化研究所 视觉检索模型的无监督训练方法、装置和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288051A (zh) * 2018-02-14 2018-07-17 北京市商汤科技开发有限公司 行人再识别模型训练方法及装置、电子设备和存储介质
CN112001321A (zh) * 2020-08-25 2020-11-27 商汤国际私人有限公司 网络训练、行人重识别方法及装置、电子设备和存储介质
CN112036322A (zh) * 2020-09-01 2020-12-04 清华大学 多任务网络跨域行人重识别模型构建方法、系统及装置
CN112052722A (zh) * 2020-07-21 2020-12-08 北京大学 行人身份再识别方法及存储介质
CN112149637A (zh) * 2020-10-23 2020-12-29 北京百度网讯科技有限公司 用于生成目标再识别模型和用于目标再识别的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288051A (zh) * 2018-02-14 2018-07-17 北京市商汤科技开发有限公司 行人再识别模型训练方法及装置、电子设备和存储介质
CN112052722A (zh) * 2020-07-21 2020-12-08 北京大学 行人身份再识别方法及存储介质
CN112001321A (zh) * 2020-08-25 2020-11-27 商汤国际私人有限公司 网络训练、行人重识别方法及装置、电子设备和存储介质
CN112036322A (zh) * 2020-09-01 2020-12-04 清华大学 多任务网络跨域行人重识别模型构建方法、系统及装置
CN112149637A (zh) * 2020-10-23 2020-12-29 北京百度网讯科技有限公司 用于生成目标再识别模型和用于目标再识别的方法和装置

Also Published As

Publication number Publication date
CN112861695A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN112861695B (zh) 行人身份再识别方法、装置、电子设备及存储介质
Mahto et al. Refining yolov4 for vehicle detection
CN110414462B (zh) 一种无监督的跨域行人重识别方法及系统
Liu et al. Localization guided learning for pedestrian attribute recognition
Shen et al. Detecting and aligning faces by image retrieval
WO2021017303A1 (zh) 行人重识别方法、装置、计算机设备及存储介质
Wang et al. Two-stage method based on triplet margin loss for pig face recognition
Xian et al. Evaluation of low-level features for real-world surveillance event detection
Huang et al. Benchmarking still-to-video face recognition via partial and local linear discriminant analysis on COX-S2V dataset
Sheng et al. Combining pose invariant and discriminative features for vehicle reidentification
CN112597324A (zh) 一种基于相关滤波的图像哈希索引构建方法、系统及设备
CN116798070A (zh) 一种基于光谱感知和注意力机制的跨模态行人重识别方法
Bekhet et al. Gender recognition from unconstrained selfie images: a convolutional neural network approach
Wu et al. Variant semiboost for improving human detection in application scenes
CN113449676B (zh) 一种基于双路互促进解纠缠学习的行人重识别方法
Han et al. DMRNet++: Learning discriminative features with decoupled networks and enriched pairs for one-step person search
CN114358205A (zh) 模型训练方法、模型训练装置、终端设备及存储介质
Mekhazni et al. Camera alignment and weighted contrastive learning for domain adaptation in video person ReID
WO2022134104A1 (en) Systems and methods for image-to-video re-identification
Shen et al. Real-time human detection based on gentle MILBoost with variable granularity HOG-CSLBP
Fung-Lung et al. An image acquisition method for face recognition and implementation of an automatic attendance system for events
CN117493674A (zh) 基于标签增强的监督多模态哈希检索方法及系统
CN112052722A (zh) 行人身份再识别方法及存储介质
Li Global face pose detection based on an improved PSO-SVM method
CN112487927B (zh) 一种基于物体关联注意力的室内场景识别实现方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant