CN112052722A - 行人身份再识别方法及存储介质 - Google Patents
行人身份再识别方法及存储介质 Download PDFInfo
- Publication number
- CN112052722A CN112052722A CN202010707102.2A CN202010707102A CN112052722A CN 112052722 A CN112052722 A CN 112052722A CN 202010707102 A CN202010707102 A CN 202010707102A CN 112052722 A CN112052722 A CN 112052722A
- Authority
- CN
- China
- Prior art keywords
- image
- images
- classification
- calculating
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000012549 training Methods 0.000 claims abstract description 51
- 238000003062 neural network model Methods 0.000 claims abstract description 42
- 230000000007 visual effect Effects 0.000 claims abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 5
- 230000003044 adaptive effect Effects 0.000 claims description 17
- 238000013145 classification model Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 7
- 230000002123 temporal effect Effects 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 5
- 238000005457 optimization Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- ZAMOUSCENKQFHK-UHFFFAOYSA-N Chlorine atom Chemical compound [Cl] ZAMOUSCENKQFHK-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000460 chlorine Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 208000020442 loss of weight Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000004304 visual acuity Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种行人身份再识别方法及存储介质,该方法包括:对图像识别神经网络模型进行调整;检测调整后的图像识别神经网络模型的识别准确度;根据所述识别准确度判断所述图像识别神经网络模型是否训练完成;若是,则利用训练完成的图像识别神经网络模型针对行人图像进行身份再识别处理;若否,则转向所述对图像识别神经网络模型进行调整。本申请实施例提供的行人身份再识别方法,兼顾视觉相似性和时间一致性,实现无监督行人身份再识别,具有更强的鲁棒性和更好的性能,可以用于无标记信息的情况下提取具有高判别力和高鲁棒性的行人特征,可应用于行人的准确检索与匹配。
Description
技术领域
本申请涉及计算机视觉技术领域,具体涉及一种联合视觉相似性和时间一致性的无监督的行人身份再识别方法及存储介质。
背景技术
行人身份再识别(ReID)的目的是通过匹配他/她的图像或视频序列来识别摄像头网络中的行人,该技术有很多有前景的应用,如智能监控和刑事调查。
近年来,有监督的行人身份再识别(ReID)技术在从带标签的人物图像和视频中进行区别特征学习方面取得了显著进展。然而,有监督的行人身份再识别方法依赖于大量标记成本昂贵的已标记数据。当转换到不同的目标域时,在源域上训练的深度模型的性能会显著下降。这些问题导致在实际应用程序中部署有监督的ReID模型变得困难。
为了解决这个问题,研究人员将注意力集中在无监督学习上,无监督学习可以利用大量的未标记数据进行训练。与有监督学习相比,无监督学习减少了昂贵的数据注释需求,因此更有可能将行人ReID推向真实应用。最新的研究将无监督的行人ReID定义为利用其他领域已标记数据的转移学习任务。相关工作可归纳为两类:(1)利用生成性对抗网络(GAN,Generative Adversarial Network)将图像风格从已标记的源域转移到未标记的目标域,同时保留用于训练的身份标签;或(2)对源域上的深层模型进行预训练,然后对目标域中未标记的数据进行聚类以便估计用于训练的伪标签。第二类显著提高了无监督行人ReID的性能。然而,在有监督的和无监督的行人ReID之间仍然存在相当大的差距。原因可能是因为很多人都有相似的外表,而同一个人可能会呈现出不同的外表,导致不可靠的标签判断。因此,更有效地利用未标记数据的方法仍有待研究。
发明内容
本申请的目的是提供一种行人身份再识别方法及存储介质。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
根据本申请实施例的一个方面,提供一种行人身份再识别方法,包括:
对图像识别神经网络模型进行调整;
检测调整后的图像识别神经网络模型的识别准确度;
根据所述识别准确度判断所述图像识别神经网络模型是否训练完成;
若是,则利用训练完成的图像识别神经网络模型针对行人图像进行身份再识别处理;
若否,则转向所述对图像识别神经网络模型进行调整。
进一步地,所述对图像识别神经网络模型进行调整,包括:
获取图像识别神经网络模型的整体损失;
利用所述整体损失更新所述图像识别神经网络模型。
进一步地,所述获取图像识别神经网络模型的整体损失,包括:
获取已标记源域上的最小化交叉熵损失;
通过自适应分类模型获取最小化分类局部损失;
通过时间引导的聚类模型获取多标签分类全局损失;
对所述最小化交叉熵损失进行加权求和,以得到的和作为所述图像识别神经网络模型的整体损失。
进一步地,所述获取已标记源域上的最小化交叉熵损失,包括:
计算所述已标记源域中的各图像属于各类别的概率;
对各所述概率进行取对数操作,得到取对数后的值;
计算各所述取对数后的值的平均值;
对所述平均值进行取负数操作,得到所述已标记源域上的最小化交叉熵损失。
进一步地,所述通过自适应分类模型获取最小化分类局部损失,包括:
从未标记目标域中抽取若干样本图像;
通过自适应分类模型给各所述样本图像分配不同的行人身份标签;
生成分类器,利用所述分类器对分配行人身份标签后的样本图像进行分类;
计算分类后的样本图像所对应的分类分数;
比较所述分类分数与one-hot标签,计算各所述样本图像所对应的损失;
计算各所述样本图像所对应的损失的平均值,得到最小化分类局部损失。
进一步地,所述生成分类器,包括:
针对每一所述样本图像进行增强,生成对应的若干个增强图像;
计算每一所述样本图像及其对应的增强图像的平均特征;
利用所述平均特征构成张量,得到分类器。
进一步地,所述通过时间引导的聚类模型获取多标签分类全局损失,包括:
通过时间引导的聚类模型对未标记目标域的图像进行多标签分类,得到多标签分类后的图像;
计算各所述多标签分类后的图像的分类分数;
比较所述分类分数与预测标签,计算各所述多标签分类后的图像所对应的多标签分类损失;
计算各所述多标签分类损失的平均值,得到多标签分类全局损失。
进一步地,所述检测调整后的图像识别神经网络模型的识别准确度,包括:
针对若干图像对,利用所述调整后的图像识别神经网络模型计算每一图像对的两图像之间的相似性;
根据所述一致性判断所述图像对的两图像是否为同一人的图像;
根据对所有图像对进行判断的结果,计算识别准确度。
进一步地,所述计算每一图像对的两图像之间的相似性,包括:
计算所述两图像之间的视觉相似性;
计算所述两图像之间的时间一致性;
基于所述视觉相似性和所述时间一致性,计算联合相似函数值,得到所述两图像之间的相似性。
根据本申请实施例的另一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以实现上述的行人身份再识别方法。
本申请实施例的其中一个方面提供的技术方案可以包括以下有益效果:
本申请实施例提供的行人身份再识别方法,兼顾视觉相似性和时间一致性,实现无监督行人身份再识别,具有更强的鲁棒性和更好的性能,可以用于无标记信息的情况下提取具有高判别力和高鲁棒性的行人特征,可应用于行人的准确检索与匹配。
本申请的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者,部分特征和优点可以从说明书中推知或毫无疑义地确定,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请的一个实施例的行人身份再识别方法流程图;
图2示出了行人身份再识别模型训练框架图;
图3示出了分别通过视觉相似性和联合相似度进行行人再识别所得到的结果图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本申请做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
无监督域自适应方法和无监督域自适应的行人身份再识别(ReID)方法这两种分类方法,无监督域自适应方法(UDA)多用于图像分类中,UDA的目的是协调源域和目标域之间的域分布。UDA的一个常用方案是定义并最小化源域和目标域之间的域差异。不同于行人身份再识别(ReID)中的域自适应,传统的UDA大多假设源域和目标域共享相同的类。然而,在行人ReID方法中,不同的域通常处理不同的人,因此有不同的类。无监督域自适应的行人ReID方法,早期是人工设计用于行人ReID的特征,可以直接用于未标记的数据集,但性能不理想,最近的研究提出在已标记的源域上训练深层模型,然后转移到未标记的目标域。现有用于未标记数据上的特征学习的方法大多只考虑视觉相似性,容易受到视觉变化和领域偏差的影响。
如图1所示,本申请的一个实施例提供了一种行人身份再识别方法,包括:
S10、对图像识别神经网络模型进行调整。
图像识别神经网络模型可以为卷积神经网络模型。对图像识别神经网络模型进行调整的过程相当于对图像识别神经网络模型进行训练的过程。
步骤S10包括:
S101、获取图像识别神经网络模型的整体损失。
具体地,步骤S101包括:
获取已标记源域上的最小化交叉熵损失;通过自适应分类模型获取最小化分类局部损失;通过时间引导的聚类模型获取多标签分类全局损失;对所述最小化交叉熵损失进行加权求和,以得到的和作为所述图像识别神经网络模型的整体损失。
S102、利用所述整体损失更新所述图像识别神经网络模型。
本实施例中,对图像识别神经网络模型的调整实际上即调整模型损失函数的过程。
S20、检测调整后的图像识别神经网络模型的识别准确度。
S30、根据所述识别准确度判断所述图像识别神经网络模型是否训练完成。
S40、若是,则利用训练完成的图像识别神经网络模型针对行人图像进行身份再识别处理;若否,则转向步骤S10。
本申请实施例的再识别方法兼顾了视觉相似性和时间一致性来进行特征学习。与现有的无监督域自适应行人身份再识别方法相比,本申请实施例的方法具有更强的鲁棒性和更好的性能。本申请实施例的方法在无监督的和无监督域的自适应设置下都优于现有的身份再识别方法。本申请实施例提供了一种联合视觉相似性和时间一致性的无监督域自适应的行人身份再识别方法。
查询一行人图像q时,需要通过行人ReID模型生成一个特征向量以便从一个图库集中检索包含同一人的图像g。换言之,ReID模型要确保q与g分享比其他图像更多的相似特征。因此,对于行人身份再识别方法来说学习区别特征提取器是至关重要的。在无监督域自适应的行人ReID方法中,具有一个包含NT个行人图像的未标记目标域
域自适应行人ReID的目标是利用S和T学习目标域T的区别特征提取器f(·)。通过最小化在源域和目标域上的训练损失来引导f(·)的训练。利用行人ID标签,在S上进行训练,以最小化交叉熵损失。
获取已标记源域上的最小化交叉熵损失,包括:
计算所述已标记源域中的各图像属于各类别的概率;对各所述概率进行取对数操作,得到取对数后的值;计算各所述取对数后的值的平均值;对所述平均值进行取负数操作,得到所述已标记源域上的最小化交叉熵损失。
具体地,最小化交叉熵损失的计算公式如公式(1)
其中,P(yi|si)代表样本si属于类yi的预测概率。
这种有监督学习能够确保f(·)在源域上的性能。为了获得f(·)对目标域的分辨能力,利用T上的预测标签进一步计算训练损失。
首先,由于每个训练批次(training batch)从T中抽取nT(nT<<NT)个图像,该nT个图像看起来是抽取自不同人员的样本。因此通过不同的行人ID标签简单地标记最小批中的每一图像ti,行人ID标签满足:当i=j时,one-hot向量li满足li[j]=1。在训练批次中,采用自适应分类(SAC)模型来区分不同行人的图像。
通过自适应分类模型获取最小化分类局部损失,包括:
从未标记目标域中抽取若干样本图像;
通过自适应分类模型给各所述样本图像分配不同的行人身份标签;
生成分类器,利用所述分类器对分配行人身份标签后的样本图像进行分类;
计算分类后的样本图像所对应的分类分数;
比较所述分类分数与one-hot标签,计算各所述样本图像所对应的损失;
计算各所述样本图像所对应的损失的平均值,得到最小化分类局部损失。
具体地,SAC的目标实现最小化局部分类损失,最小化局部分类损失计算公式如下
其中nT代表训练批次中的图像数量。f(·)产生d-dim特征向量。
生成分类器,包括:
针对每一所述样本图像进行增强,生成对应的若干个增强图像;
计算每一所述样本图像及其对应的增强图像的平均特征;
利用所述平均特征构成张量,得到分类器。
V存储nT个d-dim向量作为分类器。计算分类分数,L(·)通过比较分类分数和one-hot标签计算损失。除了每个训练批次的局部优化外,还进一步预测整个T上的标签,并进行全局优化。由于每个人在T中可能有多个图像,提出基于记忆的时间引导聚类方法(MTC)来预测每个图像的多类别标签。对于图像ti来说,MTC预测其多类别标签mi,其中,只有当ti和tj包含同一人员时,mi[j]=1。被预测的标签mi允许T上的多标签分类。引入记忆库(memory bank)来存储NT图像特征作为NT类分类器。通过利用记忆库对图像特征f(ti)进行分类,然后利用多类别标签mi比较分类分数,来计算该多标签的分类损失。
通过时间引导的聚类模型获取多标签分类全局损失,包括:
通过时间引导的聚类模型对未标记目标域的图像进行多标签分类,得到多标签分类后的图像;计算各所述多标签分类后的图像的分类分数;比较所述分类分数与预测标签,计算各所述多标签分类后的图像所对应的多标签分类损失;计算各所述多标签分类损失的平均值,得到多标签分类全局损失。
在T上的多标签分类全局损失可以用公式(3)表示
其中上标t代表训练代数,α代表更新率。
通过将上文中提到的在S和T上计算的损失结合起来,全部的训练损失可以通过公式(5)计算
其中w1和w2为损失权重。
被预测的标签(例如l和m)的准确性,对于在T上的训练是至关重要的。l的准确性可以通过设置批次大小nT<<NT,以及使用谨慎的抽样策略来确保。MTC兼顾视觉相似性和时间连续性进行标签预测,以便确保m的准确性。
图2示出了训练框架,其中,可以通过对每一训练批次中的一些图像进行分类来有效计算对于整个训练集T,是更高效的监督。图2展示了无监督域自适应ReID模型训练框架。是在源域上计算的。SAC在每个训练批次中计算MTC在整个目标域上计算
SAC和MTC分别为每个图像预测one-hot标签和多类别标签。如果没有该框架就如同无监督的训练。和的结合利用了在未标记数据中间的时间和视觉连续性,并确保被学习的特征提取器f(·)的强鲁棒性。在SAC中计算在MTC中计算
检测调整后的图像识别神经网络模型的识别准确度,包括:
针对若干图像对,利用所述调整后的图像识别神经网络模型计算每一图像对的两图像之间的相似性;根据所述一致性判断所述图像对的两图像是否为同一人的图像;根据对所有图像对进行判断的结果,计算识别准确度。
计算每一图像对的两图像之间的相似性,包括:
计算所述两图像之间的视觉相似性;计算所述两图像之间的时间一致性;基于所述视觉相似性和所述时间一致性,计算联合相似函数值,得到所述两图像之间的相似性。
SAC在每一训练批次中对未标记数据进行分类。如公式(2)所示,SAC的关键在于分类器对于一个包含nT个图像的训练批次来说,分类器定义为nT×d大小的张量,其中第i个d-dim向量代表第i个图像的分类器。
数据增强是确保对视觉变化的鲁棒性的关键。将每个摄像机视为一个风格域,并采用CycleGAN来训练摄像机风格转换模型。对于特定摄影机下的每个图像,完全可以生成不同风格的C-1个图像,其中C是目标域中的摄像机编号。设定k<C-1。因此,每个训练批次随机选取k个增强图像进行训练。
其中,P(i|ti)为图像ti被分类到标签i的概率,通过计算公式(8)来计算
其中β1代表平衡特征分布的温度因素。
基于记忆的时间引导聚类
通过在T中对图像进行聚类,MTC预测图像ti的多类别标签mi,例如,给同一簇中的图像分配相同标签。基于兼顾两图像视觉相似性和时间一致性的成对相似性引导聚类。
可以使用特征提取器f(·)或存储在记忆库中的特征直接计算视觉相似性。使用特征提取器f(·)需要提取T中每一图像的特征,导致额外的时间消耗。同时,记忆库中的特征通过不同的图像增强技术被增强,从而更具鲁棒性。因此,使用记忆库中的特征来计算图像ti和图像tj之间的视觉相似性,如公式(9)所示
其中vs(·)利用余弦距离计算视觉相似性。
时间一致性独立于视觉特征,而与对应于每一行人图像的摄像机id和帧id相关。假设两张图像ti和tj,图像ti是摄像机a拍摄的,图像tj是摄像机b拍摄的,图像ti是的帧id为fidi,图像tj是的帧id为fidj,通过公式(10)来计算图像ti和tj之间的时间一致性
ts(ti,tj)=H(a,b)(fidi-fidj), (10)
其中,H(a,b)(·)为摄像机对(a,b)的函数,其基于图像ti和图像tj的帧id间隔来估计时间一致性,反映摄像机a和b分别记录图像ti和图像tj的时间间隔。
可以在行人ID标签数据集上计算在未标记的T上对其进行估计时,首先利用公式(9)中的视觉相似性对T中的图像进行聚类,以获得伪行人ID标签。假设n(a,b)为在摄像机a和摄像机b中同时包含的同一人的图像对总数。直方图中的第int个条块的值通过公式(11)进行计算
对于C个摄像机的数据集,可以计算C(C-1)/2个直方图。使用高斯函数来平滑化直方图并采用平滑化之后的直方图H(a,b)(·)用于时间一致性计算。
基于vs(·)和ts(·)计算最终的图像对相似性。由于vs(·)和ts(·)具有不同的值范围,所以首先对vs(·)和ts(·)进行归一化,然后将归一化之后的结果进行融合。这就产生了联合相似函数J(·),如公式(12)所示
其中λ0和λ1都是平滑因子,γ0和γ1都是缩小因子。
利用公式(12)来计算图像之间的相似性比之前的公式(9)或公式(10)更可靠。J(·)还可以用于查询库相似性计算的行人ReID。图3比较了分别通过视觉相似性和联合相似度ReID所得到的结果。可以看出,联合相似度比视觉相似性更具有区分度。图3示出了在Duke MTMC-reID数据集上的行人ReID结果。
每个示例展示了通过视觉相似性(第一行)和通过公式(12)计算的联合相似性(第二行)检索到的前5个被恢复的图像。
其中,用绿色边框标注正确的匹配,用红色边框标注错误的匹配。
因此,本实施例基于J(·)对T中的图像进行聚类,并为每一图像分配多类别标签。对图像ti,只有当图像ti和图像tj在同一聚类中时,其多类别标签mi[j]=1。基于m,目标域T上的通过公式(13)进行计算
其中,β2为温度因子。
本申请实施例通过将局部one-hot分类和全局多类别分类相结合以联合增强视觉一致性和时间一致性的方法,解决无监督域自适应行人ReID的问题。这两个分类任务分别由SAC和MTC来实现。SAC在训练批次中为图像分配不同的行人ID标签,然后采用自适应分类器对图像进行分类。MTC兼顾视觉相似性和时间一致性来预测多类别标签,以保证标签预测的质量。将这两种分类模型组合在一个统一的框架中,用于目标域的区别特征学习。该方法优于现有的无监督的和域自适应的ReID方法。
本申请的另一个实施例提供了一种联合视觉相似性和时间一致性的无监督行人身份再识别方法。
由于源域和目标域之间存在较大的域差距,以及目标域上标记数据的缺失,无监督域自适应行人身份再识别具有挑战性。
本申请实施例通过结合局部one-hot分类和全局多类分类来联合增强视觉和时间一致性来应对这一挑战。局部one-hot分类在训练批次中给图像分配不同的人员ID,然后采用自适应分类(SAC)模型对图像进行分类。通过利用基于记忆的时间引导聚类(MTC)预测整个未标记训练集上的标签来实现全局多类分类。MTC综合考虑视觉相似性和时间一致性对多类别标签进行预测,以保证标签预测的质量。这两个分类模型被组合在一个统一的框架中,有效地利用未标记的数据进行有区别的特征学习。
在三个大型ReID数据集上的实验结果表明了该方法在无监督的和无监督域的自适应ReID任务中的优越性。
例如,在无监督的情况下,本实施例的方法优于最近的无监督域的自适应方法,后者利用更多的标签进行训练。
本申请实施例提供了一种可以同时利用视觉相似性和时间一致性信息的无监督行人身份再识别方法。该方法可以用于无标记信息的情况下提取具有高判别力和高鲁棒性的行人特征,可应用于行人的准确检索与匹配。
提出的方法首先使用自适应分类器将不同行人图片特征的距离拉远,然后使用时间指导的聚类方法在特征存储库中拉近相同行人特征的距离,通过同时使用视觉相似性和时间一致性,提出的方法可以准确区分外观相似的行人,进而可以学习到鲁棒的行人特征用于后续的行人检索。
如何在无标记信息的情况下学习鲁棒的行人特征是无监督行人身份再识别问题中的核心难题之一。本发明被证明提供了该难题的有效方法,在多个著名公共数据集上取得了比国际最新算法更好的性能。
该方法不需要额外的人工数据标记,可以广泛应用于行人搜索,跨摄像头行人检测等实际系统中,服务于视频监控、安保等领域,提升监控视频数据处理与使用的效率。可用于大型公共场所或者智慧城市的目标人追踪应用,例如寻找丢失儿童、犯罪嫌疑人等。例如,给定一张特定行人的图片,该方法可以在海量监控视频数据中自动寻找和匹配该行人,进而推断出该行人的出行路线和规律等信息。
本申请实施例技术方案的目标是通过生成更可靠的标签预测来学习未标记目标域的区别特征。具体地,可以从两个方面进行可靠的标签预测。首先,由于每个训练批次从训练集中抽取少量图像,所以这些图像很可能是抽取自不同的人。因此,可以用不同的行人ID来标记每个图像,并用分类模型将它们彼此分开。第二,仅仅依靠视觉相似性来估计整个训练集上的标签是不可靠的。
因此,同时考虑多类别标签预测的视觉相似性和时间一致性,以便用于优化类别间和类别内的距离。与以往仅利用视觉相似性对未标记图像进行聚类的方法相比,该方法具有更好的鲁棒性。时间一致性是基于视频帧数来推断出的,这很容易获得,而不需要额外的注释或人工校准。以上直觉导致了两个特征学习的分类任务。通过自适应分类(SAC)模型进行对每个训练批次的局部分类。尤其是在每个训练批次中,根据图像的特征生成一个自适应分类器,并应用one-hot标签来区分图像。整个训练集中的特征优化被定义为一个全局优化的多标签分类任务。
本实施例提出了一种基于记忆的时态引导聚类(MTC)来预测基于视觉相似性和时间一致性的多类别标签。换言之,如果两幅图像具有较大的视觉相似性和足够的时间一致性,则为该两幅图像分配相同的标签。基于两个摄像机之间的时间间隔的分布,即两个图像的帧号之间的间隔,来计算时间一致性。例如,当观察到某个人在时间t出现在摄像机i中时,根据估计的分布,他/她在时间t+Δt时被摄像机j记录的可能性很高,而被另一个相机k记录的可能性很小。该操作能有效过滤具有相似视觉外观的难负性样本(hard negativesamples),并可以应用在ReID中以减少搜索空间。为了进一步确保聚类结果的准确性,MTC采用存储在存储库中的图像特征。每次训练迭代后,用增强的特征更新存储库,以提高特征鲁棒性。这两个分类模型被聚合在一个统一的框架中,以用于区别特征学习。在三个大规模的行人ReID数据集上的实验表明,与现有的无监督的和域自适应ReID方法相比,本实施例的方法具有明显的优越性。例如,在无监督训练的Market-1501上,达到了79.5%的rank1准确率,而在无监督域转移之后,达到了90.0%的rank1准确率。
SAC模型通过给各图像分配不同的标签有效实现了在每个局部训练批次中的特征优化。MTC方法通过预测具有视觉相似性和时间一致性的标签,实现了在全局训练集中的特征优化。时间一致性不需要任何额外的注释或人工校准,并且可以用于模型训练和ReID相似性计算。本实施例的方法为一种采用时间一致性进行标签预测和模型训练的无监督行人ReID方法。
本申请的另一个实施例还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现上述的行人身份再识别方法。
本申请的另一个实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以实现上述的行人身份再识别方法。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述实施例仅表达了本申请的实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种行人身份再识别方法,其特征在于,包括:
对图像识别神经网络模型进行调整;
检测调整后的图像识别神经网络模型的识别准确度;
根据所述识别准确度判断所述图像识别神经网络模型是否训练完成;
若是,则利用训练完成的图像识别神经网络模型针对行人图像进行身份再识别处理;
若否,则转向所述对图像识别神经网络模型进行调整。
2.根据权利要求1所述的方法,其特征在于,所述对图像识别神经网络模型进行调整,包括:
获取图像识别神经网络模型的整体损失;
利用所述整体损失更新所述图像识别神经网络模型。
3.根据权利要求2所述的方法,其特征在于,所述获取图像识别神经网络模型的整体损失,包括:
获取已标记源域上的最小化交叉熵损失;
通过自适应分类模型获取最小化分类局部损失;
通过时间引导的聚类模型获取多标签分类全局损失;
对所述最小化交叉熵损失进行加权求和,以得到的和作为所述图像识别神经网络模型的整体损失。
4.根据权利要求3所述的方法,其特征在于,所述获取已标记源域上的最小化交叉熵损失,包括:
计算所述已标记源域中的各图像属于各类别的概率;
对各所述概率进行取对数操作,得到取对数后的值;
计算各所述取对数后的值的平均值;
对所述平均值进行取负数操作,得到所述已标记源域上的最小化交叉熵损失。
5.根据权利要求3所述的方法,其特征在于,所述通过自适应分类模型获取最小化分类局部损失,包括:
从未标记目标域中抽取若干样本图像;
通过自适应分类模型给各所述样本图像分配不同的行人身份标签;
生成分类器,利用所述分类器对分配行人身份标签后的样本图像进行分类;
计算分类后的样本图像所对应的分类分数;
比较所述分类分数与one-hot标签,计算各所述样本图像所对应的损失;
计算各所述样本图像所对应的损失的平均值,得到最小化分类局部损失。
6.根据权利要求5所述的方法,其特征在于,所述生成分类器,包括:
针对每一所述样本图像进行增强,生成对应的若干个增强图像;
计算每一所述样本图像及其对应的增强图像的平均特征;
利用所述平均特征构成张量,得到分类器。
7.根据权利要求3所述的方法,其特征在于,所述通过时间引导的聚类模型获取多标签分类全局损失,包括:
通过时间引导的聚类模型对未标记目标域的图像进行多标签分类,得到多标签分类后的图像;
计算各所述多标签分类后的图像的分类分数;
比较所述分类分数与预测标签,计算各所述多标签分类后的图像所对应的多标签分类损失;
计算各所述多标签分类损失的平均值,得到多标签分类全局损失。
8.根据权利要求3所述的方法,其特征在于,所述检测调整后的图像识别神经网络模型的识别准确度,包括:
针对若干图像对,利用所述调整后的图像识别神经网络模型计算每一图像对的两图像之间的相似性;
根据所述一致性判断所述图像对的两图像是否为同一人的图像;
根据对所有图像对进行判断的结果,计算识别准确度。
9.根据权利要求8所述的方法,其特征在于,所述计算每一图像对的两图像之间的相似性,包括:
计算所述两图像之间的视觉相似性;
计算所述两图像之间的时间一致性;
基于所述视觉相似性和所述时间一致性,计算联合相似函数值,得到所述两图像之间的相似性。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以实现如权利要求1-9中任一所述的行人身份再识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010707102.2A CN112052722A (zh) | 2020-07-21 | 2020-07-21 | 行人身份再识别方法及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010707102.2A CN112052722A (zh) | 2020-07-21 | 2020-07-21 | 行人身份再识别方法及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112052722A true CN112052722A (zh) | 2020-12-08 |
Family
ID=73602096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010707102.2A Pending CN112052722A (zh) | 2020-07-21 | 2020-07-21 | 行人身份再识别方法及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112052722A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112861695A (zh) * | 2021-02-02 | 2021-05-28 | 北京大学 | 行人身份再识别方法、装置、电子设备及存储介质 |
CN113807425A (zh) * | 2021-09-11 | 2021-12-17 | 中南大学 | 基于自适应正则深度聚类的组织病理图像分类方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165563A (zh) * | 2018-07-27 | 2019-01-08 | 北京市商汤科技开发有限公司 | 行人再识别方法和装置、电子设备、存储介质、程序产品 |
CN110414462A (zh) * | 2019-08-02 | 2019-11-05 | 中科人工智能创新技术研究院(青岛)有限公司 | 一种无监督的跨域行人重识别方法及系统 |
WO2020052513A1 (zh) * | 2018-09-14 | 2020-03-19 | 阿里巴巴集团控股有限公司 | 图像识别和行人再识别方法及装置,电子和存储设备 |
CN111046959A (zh) * | 2019-12-12 | 2020-04-21 | 上海眼控科技股份有限公司 | 模型训练方法、装置、设备和存储介质 |
CN111275060A (zh) * | 2018-12-04 | 2020-06-12 | 北京嘀嘀无限科技发展有限公司 | 识别模型更新处理方法、装置、电子设备及存储介质 |
-
2020
- 2020-07-21 CN CN202010707102.2A patent/CN112052722A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165563A (zh) * | 2018-07-27 | 2019-01-08 | 北京市商汤科技开发有限公司 | 行人再识别方法和装置、电子设备、存储介质、程序产品 |
WO2020052513A1 (zh) * | 2018-09-14 | 2020-03-19 | 阿里巴巴集团控股有限公司 | 图像识别和行人再识别方法及装置,电子和存储设备 |
CN111275060A (zh) * | 2018-12-04 | 2020-06-12 | 北京嘀嘀无限科技发展有限公司 | 识别模型更新处理方法、装置、电子设备及存储介质 |
CN110414462A (zh) * | 2019-08-02 | 2019-11-05 | 中科人工智能创新技术研究院(青岛)有限公司 | 一种无监督的跨域行人重识别方法及系统 |
CN111046959A (zh) * | 2019-12-12 | 2020-04-21 | 上海眼控科技股份有限公司 | 模型训练方法、装置、设备和存储介质 |
Non-Patent Citations (5)
Title |
---|
DONGKAI WANG等: "Unsupervised Person Re-identification via Multi-label Classification", 《ARXIV》 * |
GUANGCONG WANG等: "Spatial-Temporal Person Re-identification", 《ARXIV》 * |
HONG-XING YU等: "Unsupervised Person Re-identification by Soft Multil-", 《ARXIV》 * |
JIANING LI等: "Multi-Scale Temporal Cues Learning for Video Person Re-Identification", 《IEEE TRANSACTIONS ON IMAGE PROCESSING 》 * |
YANG FU 等: "Self-similarity Grouping: A Simple Unsupervised Cross Domain Adaptation Approach for Person Re-identification", 《ARXIV》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112861695A (zh) * | 2021-02-02 | 2021-05-28 | 北京大学 | 行人身份再识别方法、装置、电子设备及存储介质 |
CN112861695B (zh) * | 2021-02-02 | 2023-10-24 | 北京大学 | 行人身份再识别方法、装置、电子设备及存储介质 |
CN113807425A (zh) * | 2021-09-11 | 2021-12-17 | 中南大学 | 基于自适应正则深度聚类的组织病理图像分类方法 |
CN113807425B (zh) * | 2021-09-11 | 2023-11-10 | 中南大学 | 基于自适应正则深度聚类的组织病理图像分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111126360B (zh) | 基于无监督联合多损失模型的跨域行人重识别方法 | |
CN111814584B (zh) | 基于多中心度量损失的多视角环境下车辆重识别方法 | |
CN112036322B (zh) | 多任务网络跨域行人重识别模型构建方法、系统及装置 | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
US9852340B2 (en) | System and method for object re-identification | |
Zahra et al. | Person re-identification: A retrospective on domain specific open challenges and future trends | |
CN111666851B (zh) | 一种基于多粒度标签的交叉域自适应行人重识别方法 | |
CN107330397B (zh) | 一种基于大间隔相对距离度量学习的行人重识别方法 | |
CN111832514B (zh) | 基于软多标签的无监督行人重识别方法及装置 | |
CN110942025A (zh) | 一种基于聚类的无监督跨域行人重识别方法 | |
CN107832711A (zh) | 一种基于迁移学习的行人重识别方法 | |
CN111898736A (zh) | 基于属性感知的高效行人重识别方法 | |
Han et al. | End-to-end trainable trident person search network using adaptive gradient propagation | |
CN112861695B (zh) | 行人身份再识别方法、装置、电子设备及存储介质 | |
CN115527269B (zh) | 一种人体姿态图像智能识别方法及系统 | |
CN113920472A (zh) | 一种基于注意力机制的无监督目标重识别方法及系统 | |
An | Anomalies detection and tracking using Siamese neural networks | |
Xia et al. | Face occlusion detection using deep convolutional neural networks | |
CN112052722A (zh) | 行人身份再识别方法及存储介质 | |
CN113627237A (zh) | 基于局部最大对齐的后期融合人脸图像聚类方法及系统 | |
CN117854104A (zh) | 一种基于特征对齐的无监督行人重识别方法 | |
CN115100476B (zh) | 一种基于结构建模局部提议网络的细粒度分类方法 | |
Dutra et al. | Re-identifying people based on indexing structure and manifold appearance modeling | |
Peng et al. | Multi-task person re-identification via attribute and part-based learning | |
Akilan | Video foreground localization from traditional methods to deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201208 |
|
RJ01 | Rejection of invention patent application after publication |