CN113936302B - 行人重识别模型的训练方法、装置、计算设备及存储介质 - Google Patents

行人重识别模型的训练方法、装置、计算设备及存储介质 Download PDF

Info

Publication number
CN113936302B
CN113936302B CN202111295755.5A CN202111295755A CN113936302B CN 113936302 B CN113936302 B CN 113936302B CN 202111295755 A CN202111295755 A CN 202111295755A CN 113936302 B CN113936302 B CN 113936302B
Authority
CN
China
Prior art keywords
pedestrian
recognition
loss function
module
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111295755.5A
Other languages
English (en)
Other versions
CN113936302A (zh
Inventor
林修明
周成祖
朱海勇
袁泉
毕永辉
陈子沣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN202111295755.5A priority Critical patent/CN113936302B/zh
Publication of CN113936302A publication Critical patent/CN113936302A/zh
Application granted granted Critical
Publication of CN113936302B publication Critical patent/CN113936302B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种行人重识别模型的训练方法、装置、计算设备及存储介质,该方法包括:获取第一行人重识别训练数据集所述第一行人重识别训练数据集输入预设的行人重识别模型进行处理,并基于处理结果得到第一损失函数所述第一行人重识别训练数据集进行处理得到第二行人重识别训练数据集所述第二行人重识别训练数据集输入远程监督网络进行处理,并根据处理结果得到第二损失函数;所述第一损失函数和第二损失函数所述预设的行人重识别模型,得到目标行人重识别模型。根据本发明实施例通过增加监督网络提供监督信息来实现不增加识别网络复杂度的前提下,扩充训练样本数量的同时也有效提升了行人重识别网络的识别性能。

Description

行人重识别模型的训练方法、装置、计算设备及存储介质
技术领域
本发明涉及神经网络技术领域,特别涉及一种行人重识别模型的训练方法、装置、计算设备及存储介质。
背景技术
随着社会和科技的进步,人脸识别越来越成为一项可依赖的安防技术。但是对于现今大部分安防摄像头而言,由于其分辨率往往不能达到人脸识别系统的要求,故可以应用于现有监控系统的行人重识别技术是极有必要的。行人重识别(Person re-identification)是利用图像处理技术来判定某一摄像头下的行人是否出现在其他摄像头中,从而可以描绘行人的活动路径,实现跨镜头追踪的目的。
发明内容
在发明内容部分中引入了一系列简化形式的概念,这将在具体实施例部分中进一步详细说明。本发明的发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。
鉴于以上技术问题,本发明提供了一种行人重识别模型的训练方法、装置、计算设备及存储介质,其通过增加监督网络为多个不同的开源数据集提供额外的共性监督信息来训练行人重识别模型,实现在不增加识别网络复杂度的前提下,扩充训练样本数量的同时也有效提升了行人重识别网络的识别性能。
根据本发明的一个方面,提供一种行人重识别模型的训练方法,其包括:
获取第一行人重识别训练数据集,所述第一行人重识别训练数据集包括至少两个不同的训练图像集;
将所述第一行人重识别训练数据集输入预设的行人重识别模型进行处理,并基于处理结果计算第一损失函数;
对所述第一行人重识别训练数据集进行处理得到第二行人重识别训练数据集;
将所述第二行人重识别训练数据集输入监督网络进行处理,并根据处理结果计算第二损失函数;
根据所述第一损失函数和第二损失函数的计算结果调整所述预设的行人重识别模型,得到目标行人重识别模型。
根据本发明的另一方面,提供一种行人重识别方法,其包括:
获取待识别的行人图像;
利用根据本发明所述的训练方法训练的目标行人重识别模型进行行人重识别。
根据本发明的另一方面,提供一种行人重识别模型的训练装置,其包括:
第一数据获取模块,用于获取第一行人重识别训练数据集,所述第一行人重识别训练数据集包括至少两个不同的训练图像集;
第一训练模块,用于将所述第一行人重识别训练数据集输入预设的行人重识别模型进行处理,并基于处理结果计算第一损失函数;
第二数据获取模块,用于对所述第一行人重识别训练数据集进行处理得到第二行人重识别训练数据集;
第二训练模块,用于将所述第二行人重识别训练数据集输入监督网络进行处理,并根据处理结果计算第二损失函数;
调整模块,用于根据所述第一损失函数和第二损失函数的计算结果调整所述预设的行人重识别模型,得到目标行人重识别模型。
根据本发明的另一方面,提供一种行人重识别装置,其包括:
获取模块,用于获取待识别的行人图像;
识别模块,用于利用根据本发明实施例所述的训练方法训练的目标行人重识别模型进行行人重识别。
根据本发明的又一方面,提供一种计算设备,所述设备包括:处理器,以及存储有计算机程序指令的存储器;所述处理器读取并执行所述计算机程序指令,以实现根据本发明一方面的所述的行人重识别模型的训练方法或行人重识别方法。
根据本发明的再一方面,提供一种计算机存储介质,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现根据本发明一方面的行人重识别模型的训练方法或行人重识别方法。
根据本发明的行人重识别模型的训练方法及装置、计算设备及存储介质,通过增加监督网络为多个不同的开源数据集提供额外的共性监督信息来训练行人重识别模型,实现在不增加识别网络复杂度的前提下,扩充训练样本数量的同时也有效提升了行人重识别网络的识别性能。根据本发明实施例的行人重识别方法及装置,由于采用本发明训练方法得到行人重识别模型,因此具有更好的识别性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例的行人重识别模型的训练方法的示意性流程图;
图2为根据本发明实施例的行人重识别模型的训练过程的示例;
图3为根据本发明实施例的行人重识别方法的示意性流程图;
图4为本发明实施例的行人重识别模型的训练装置的示意性结构框图;
图5为本发明实施例的行人重识别装置的示意性结构框图;以及
图6是本发明实施例提供的一种计算设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。在下文的描述中,给出了大量具体的细节以便提供对本发明更为彻底的理解。然而,对于本领域技术人员来说显而易见的是,本发明实施例可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本发明实施例发生混淆,对于本领域公知的一些技术特征未进行描述。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
为了使得本发明的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。
现阶段行人重识别常用方法主要有表征学习、度量学习、基于局部特征或视频序列等方法。行人和人脸一样具有结构,但是不同于人脸,行人的结构往往更加复杂。在实际应用场景中可能存在无正脸、配饰不一、姿态变化及遮挡、摄像头的拍摄角度、室内外环境的变化、白天与黑夜的光线差异、季节穿搭(冬天进入室内可能会脱掉外套)等等不利条件和干扰因素。与此同时,不同于人脸可以到互联网直接爬取名人的图片,行人重识别由于其任务的特殊性,其训练数据集采集标记难度更高,现有的数据集往往只能达到几万的级别,这也阻碍了行人重识别技术进一步走向实用化。
将现有的多个开源数据集合并成一个大的数据集不失为一种快速扩大训练样本集的有效方式,但是不同数据集采集条件不一,如何让每个数据集内的数据合力对整个有监督训练过程形成正向贡献是一个亟需解决的问题。本发明通过在行人识别网络训练过程中添加远程监督信息,从而解决这一跨域数据训练问题。
本发明实施例基于以上描述,提供了一种行人重识别模型的训练方法、装置、计算设备及存储介质,其能够。下面结合附图进行详细描述。
首先对本发明实施例所提供的行人重识别模型的训练方法进行介绍。
图1为根据本发明实施例的行人重识别模型的训练方法100的示意性流程图。
请参考图1,本发明实施例公开的行人重识别模型的训练方法100,包括:
步骤S101,获取第一行人重识别训练数据集,所述第一行人重识别训练数据集包括至少两个不同的训练图像集。
示例性地,在本发明实施例中,第一行人重识别训练数据集可以使用各种开源训练数据集,而且在本发明实施例中,为了增加训练图像的数量,可以使用多个不同的开源数据集,通过使用不同的开源数据集来增加训练图像集的数量。
示例性地,在本发明实施例中,第一行人识别训练数据集可以使用不同设备采集的图像集进行训练,这些设备彼此之间的采集条件不同,因此导致所获得的训练图像集。
应当理解的是,训练数据集中包含了标注信息,即训练数据集包括每张图像归属于哪个行人(ID,每个行人一个ID,同一行人的图像归属于同一ID)的标注信息。
步骤S102,将所述第一行人重识别训练数据集输入预设的行人重识别模型进行处理,并基于处理结果计算第一损失函数。
示例性地,在本发明实施例中,预设的行人重识别模型可以采用目前已知的行人重识别网络结构或将来开发的网络结构,其都可以应用本申请的训练方法进行训练。
示例性地,在本发明实施例中,第一损失函数可以使用适用于行人重识别模型训练的各种损失函数,例如对比损失(Contrastive loss)、三元组损失(Triplet loss)、四元组损失(Quadruplet loss)等损失函数。
步骤S103,对所述第一行人重识别训练数据集进行处理得到第二行人重识别训练数据集。
示例性地,在本发明实施例中,可以对第一行人重识别训练数据集进行增强处理,得到数据增强训练数据集。增强处理例如为对比度、亮度增强处理。增强处理还可以各种几何变换处理。示例性地,在本发明实施例中可以通过对第一行人重识别训练数据集进行随机几何变换来得到第二行人重识别训练数据集。
步骤S104,将所述第二行人重识别训练数据集输入监督网络进行处理,并根据处理结果计算第二损失函数。
示例性地,在本发明实施例中,监督网络用于从第二行人重识别训练数据集种提取监督信息,以辅助行人重识别模型的训练。该监督信息可以反映到监督网络的损失函数中,因而通过第二损失函数辅助行人重识别模型的训练,并且由于通过监督网络提供了额外的共性监督信息,因此可以不同的训练数据集对训练结果合力形成正向贡献。监督网络的示例性结构和第二损失函数将在下文进行描述。
步骤S105,根据所述第一损失函数和第二损失函数的计算结果调整所述预设的行人重识别模型,得到目标行人重识别模型。
当在S102和S104中计算第一损失函数和第二损失函数后,便可以所述第一损失函数和第二损失函数的计算结果调整所述预设的行人重识别模型,例如调整预设的行人重识别模型的网络参数和/或权重等,直到损失函数的计算结果达到设定阈值或者损失函数的计算结果不再减小为止,从而得到目标行人重识别模型。
根据本发明的行人重识别模型的训练方法,通过增加监督网络提供监督信息来利用多个不同的开源数据集训练行人重识别模型,实现在不增加识别网络复杂度的前提下,扩充训练样本数量的同时也有效提升了行人重识别网络的识别性能。
图2为根据本发明实施例的行人重识别模型的训练过程的示例。
首先,如图2所示,在本发明实施例中,示例性地,监督网络包括预分类模块、降维模块、聚类模块和重构模块。
预分类模块用于使用预训练的分类模型从输入的所述第二行人重识别训练数据集提取图像特征(其为一特征向量)。预分类模块可以使用各种预训练的分类模型G,例如使用来自ImageNet的预训练分类模型。示例性地,在本发明实实施例中,预分类模块从输入的所述第二行人重识别训练数据集提取图像特征为1024维图像特征。
降维模块用于对所述分类模提取的图像特征进行降维处理。示例性地,在本发明实施例中,通过降维模块将1024维图像特征变换为128维图像特征。
聚类模块用于对降维后的图像特征进行聚类处理,以使属于同一行人的图像特征归到一类。即将降维处理得到的多个图像特征(即特征向量)进行聚类,是属于同一行人的图像特征聚到同一个类别中。
重构模块用于利用反卷积网络根据所述聚类模块的聚类中心进行重构,得到重构图像。重构模块通过反卷积网络从特征向量反向构建特征图,得到重构图像。
示例性地,在本发明实施例中,第二损失函数包括聚类损失函数和重构损失函数。聚类损失函数用于评价聚类模块的聚类结果,其可以学习第一训练数据集到第二训练数据集的图片几何变换隐含信息,从而提供一个额外监督信息。重构损失函数用于指导反卷积网络,让其生成得到的特征图尽可能接近原始图片,这个损失越小代表网络所生成特征图质量越好,也从侧面反映出聚类中心质量越好,也就说明了监督网络学习到了有用的附加信息,对整个训练过程产生了正面影响。
应当理解,聚类过程可以定义成一个分类问题,因此可以利用正则化信息最大化方法(Regularized Information Maximization,RIM),对于输入x,聚类损失函数示例性地可以为:
Lrim=R(θ)-λ[H(Y)-H(Y|X)],
其中,R(θ)是正则项,λ是权重因子,,H(Y)和H(Y|X)分别代表熵和条件熵,
Figure BDA0003336527780000081
Figure BDA0003336527780000082
Figure BDA0003336527780000083
y=softmaxθ(x)
x为输入的特征向量。
在发明实施例中,监督网络基于自编码器思设计,因此借助于自编码器的思想重构损失函数示例性地定义为:
Figure BDA0003336527780000084
其中,Xj代表输入图像中属于类别j的集合,rj是类别j的聚类中心的向量表示,D代表所使用的反卷积神经网络。
Figure BDA0003336527780000085
G代表所使用的预训练分类模型。
上面描述了本发明实施例中的监督网络和第二损失函数的示例。下面结合图2描述本发明的行人重识别模型的示例训练过程。
如图2所示,获取第一训练数据集之后,可以将其输入至预设的行人重识别模型中进行处理,并根据处理结构计算第一损失函数。与此同时,可以对第一训练数据集进行变换,例如随机几何变换来得到第二训练数据集,其为数据增强训练集,可以作为监督网络的输入,然后经过预分类模块通过预训练分类模型提取到相应1024维图像特征,再通过降维模块将其降维成128维图像特征。降维后的特征向量(即图像特征)输入到聚类模块中得到相应的聚类中心,聚类中心再输入到重构模块。由此,通过聚类损失和反卷积网络后的重构损失为整个有监督训练流程提供监督信息。
示例性地,在本发明实施中,行人重识别模型的训练方法还包括下述步骤:
根据所述聚类结果计算所述聚类损失函数,并根据所述聚类损失函数的计算结果调整所述聚类模块;
根据所述重构结构计算所述重构损失函数,并根据所述重构损失函数的计算结果调整所述重构模块。
应当理解,聚类损失函数的计算结果和重构损失函数的计算结果还用于调整行人重识别模型的网络参数。
图3为本发明实施例提供的行人重识别方法的示意性流程图。
如图3所述,本发明实施例提供的行人重识别方法300,包括:
步骤S301,获取待识别的行人图像。
步骤S302,利用本发明实施例提供的训练方法训练的目标行人重识别模型进行行人重识别。
根据本发明实施例的行人重识别方法,由于采用本发明训练方法训练的目标行人重识别模型进行行人重识别,因此具有更好的识别性能。
图4为根据本发明实施例的行人重识别模型的训练装置400的示意性结构框图。下面结合图4对根据本发明实施例的行人重识别模型的训练装置400进行描述。
请参考图4,根据本发明实施例的行人重识别模型的训练装置400包括第一数据获取模块410、第一训练模块420、第二数据获取模块430、第二训练模块440和调整模块450。
第一数据获取模块410用于获取第一行人重识别训练数据集,所述第一行人重识别训练数据集包括至少两个不同的训练图像集。第一数据获取模块410用于执行结合图1描述的行人重识别模型的训练方法中的步骤S101,该过程的详细描述参见前述结合图1-图2的描述,在此不再赘述。
第一训练模块420用于将所述第一行人重识别训练数据集输入预设的行人重识别模型进行处理,并基于处理结果计算第一损失函数。第一训练模块420用于执行结合图1描述的行人重识别模型的训练方法中的步骤S102,该过程的详细描述参见前述结合图1-图2的描述,在此不再赘述。
第二数据获取模块430用于对所述第一行人重识别训练数据集进行处理得到第二行人重识别训练数据集。第二数据获取模块430用于执行结合图1描述的行人重识别模型的训练方法中的步骤S103,该过程的详细描述参见前述结合图1-图2的描述,在此不再赘述。
第二训练模块440用于将所述第二行人重识别训练数据集输入监督网络进行处理,并根据处理结果计算第二损失函数。第二训练模块440用于执行结合图1描述的行人重识别模型的训练方法中的步骤S104,该过程的详细描述参见前述结合图1-图2的描述,在此不再赘述。
调整模块450用于根据所述第一损失函数和第二损失函数的计算结果调整所述预设的行人重识别模型,得到目标行人重识别模型。调整模块450用于执行结合图1描述的行人重识别模型的训练方法中的步骤S105,该过程的详细描述参见前述结合图1-图2的描述,在此不再赘述。
图4所示行人重识别模型的训练装置400中的各个模块/单元具有实现图1中各个步骤的功能,并能达到其相应的技术效果,为简洁描述,在此不再赘述。
图5为根据本发明实施例的行人重识别装置500的示意性结构框图。下面结合图5对根据本发明实施例的行人重识别装置500进行描述。
请参考图5,根据本发明实施例的行人重识别装置500包括获取模块510和识别模块520。
获取模块510用于获取待识别的行人图像。获取模块510用于执行结合图3描述的行人重识别方法中的步骤S301,该过程的详细描述参见前述结合图3的描述,在此不再赘述。
识别模块520用于利用本发明实施例所述的训练方法训练的目标行人重识别模型进行行人重识别。识别模块520用于执行结合图3描述的行人重识别模型的训练方法中的步骤S302,该过程的详细描述参见前述结合图3的描述,在此不再赘述。
图5所示行人重识别装置500中的各个模块/单元具有实现图3中各个步骤的功能,并能达到其相应的技术效果,为简洁描述,在此不再赘述。
图6示出了本发明实施例提供的计算设备的硬件结构示意图。
计算设备600可以包括处理器601以及存储有计算机程序指令的存储器602。
具体地,上述处理器601可以包括中央处理器(Central Processing Unit,CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器602可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器602可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在一个实例中,存储器602可以包括可移除或不可移除(或固定)的介质,或者存储器602是非易失性固态存储器。存储器602可在综合网关容灾设备的内部或外部。
在一个实例中,存储器602可以是只读存储器(Read Only Memory,ROM)。在一个实例中,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
存储器602可以包括只读存储器(ROM),随机存取存储器(RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本公开的一方面的方法所描述的操作。
处理器601通过读取并执行存储器602中存储的计算机程序指令,以实现图1所示实施例中的方法/步骤S101至S104,并达到图1和图3所示实例执行其方法/步骤达到的相应技术效果,为简洁描述在此不再赘述。
处理器601通过读取并执行存储器602中存储的计算机程序指令,以实现图4所示实施例中的行人重识别模型的训练装置400,以及第一数据获取模块410、第一训练模块420、第二数据获取模块430、第二训练模块440和调整模块450,并达到图4所示实例中的装置所达到的相应技术效果,以及实现行人重识别装置500、获取模块510和识别模块520,并达到图5所示实例中的装置所达到的相应技术效果,为简洁描述在此不再赘述。
在一个示例中,计算设备600还可包括通信接口603和总线610。其中,如图6所示,处理器601、存储器602、通信接口603通过总线610连接并完成相互间的通信。
通信接口603,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。
总线610包括硬件、软件或两者,将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(Accelerated Graphics Port,AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,EISA)总线、前端总线(Front Side Bus,FSB)、超传输(Hyper Transport,HT)互连、工业标准架构(Industry Standard Architecture,ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线610可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
该计算设备600可以执行本发明实施例中的行人重识别模型的训练方法,从而实现结合图1描述的行人重识别模型的训练方法。该计算设备600还可以执行本发明实施例中的行人重识别方法,从而实现结合图3描述的行人重识别方法
此外,根据本发明实施例,还提供了一种存储介质,在所述存储介质上存储了程序指令,在所述程序指令被计算机或处理器运行时用于执行本发明实施例的行人重识别模型的训练方法以及行人重识别方法的相应步骤,并且用于实现根据本发明实施例的行人重识别模型的训练装置和行人重识别装置的相应单元或模块。所述存储介质例如可以包括个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。
在一个实施例中,所述计算机程序指令在被计算机运行时可以实现根据本发明实施例行人重识别模型的训练装置和行人重识别装置中的各个功能模块,并且/或者可以执行根据本发明实施例的行人重识别模型的训练方法和行人重识别方法。
在一个实施例中,所述计算机程序指令在被计算机运行时执行以下步骤:获取第一行人重识别训练数据集,所述第一行人重识别训练数据集包括至少两个不同的训练图像集;将所述第一行人重识别训练数据集输入预设的行人重识别模型进行处理,并基于处理结果计算第一损失函数;对所述第一行人重识别训练数据集进行处理得到第二行人重识别训练数据集;将所述第二行人重识别训练数据集输入监督网络进行处理,并根据处理结果计算第二损失函数;根据所述第一损失函数和第二损失函数的计算结果调整所述预设的行人重识别模型,得到目标行人重识别模型。
根据本发明实施例的行人重识别模型的训练方法中的各模块可以通过根据本发明实施例的行人重识别模型的训练方法的电子设备、服务器、系统的处理器运行在存储器中存储的计算机程序指令来实现,或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。
根据本发明的行人重识别模型的训练方法、装置、计算设备及存储介质,通过增加监督网络提供监督信息来利用多个不同的开源数据集训练行人重识别模型,实现在不增加识别网络复杂度的前提下,扩充训练样本数量的同时也有效提升了行人重识别网络的识别性能。根据本发明实施例的行人重识别方法及装置,由于采用本发明训练方法得到行人重识别模型,因此具有更好的识别性能。
尽管这里已经参考附图描述了示例实施例,应理解上述示例实施例仅仅是示例性的,并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改,而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个设备,或一些特征可以忽略,或不执行。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该本发明的的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如相应的权利要求书所反映的那样,其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域的技术人员可以理解,除了特征之间相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的物品分析设备中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本发明的具体实施方式或对具体实施方式的说明,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种行人重识别模型的训练方法,其特征在于,包括:
获取第一行人重识别训练数据集,所述第一行人重识别训练数据集包括至少两个不同的训练图像集;
将所述第一行人重识别训练数据集输入预设的行人重识别模型进行处理,并基于处理结果计算第一损失函数;
对所述第一行人重识别训练数据集进行处理得到第二行人重识别训练数据集;
将所述第二行人重识别训练数据集输入监督网络进行处理,并根据处理结果计算第二损失函数,所述第二损失函数包括聚类损失函数和重构损失函数,所述监督网络包括:
预分类模块,用于使用预训练的分类模型从输入的所述第二行人重识别训练数据集提取图像特征;
降维模块,用于对所述分类模提取的图像特征进行降维处理;
聚类模块,用于对降维后的图像特征进行聚类处理,以使属于同一行人的图像特征归到一类,根据聚类结果计算所述聚类损失函数,并根据所述聚类损失函数的计算结果调整所述聚类模块;
重构模块,用于利用反卷积网络根据所述聚类模块的聚类中心进行重构,得到重构图像,根据重构结构计算所述重构损失函数,并根据所述重构损失函数的计算结果调整所述重构模块;
根据所述第一损失函数和第二损失函数的计算结果调整所述预设的行人重识别模型,得到目标行人重识别模型。
2.根据权利要求1所述的方法,其特征在于,所述聚类损失函数为:
Lrim=R(θ)-λ[H(Y)-H(Y|X)],
其中,R(θ)是正则项,λ是权重因子,H(Y)和H(Y|X)分别代表熵和条件熵,
Figure FDA0003946537730000011
Figure FDA0003946537730000012
Figure FDA0003946537730000021
y=softmaxθ(x)
x为输入的特征向量。
3.根据权利要求1所述的方法,其特征在于,所述重构损失函数为:
Figure FDA0003946537730000022
其中,Xj代表输入图像中属于类别j的集合,rj是类别j的聚类中心的向量表示,D代表所使用的反卷积神经网络;
Figure FDA0003946537730000023
G代表所使用的预训练分类模型。
4.一种行人重识别方法,其特征在于,包括:
获取待识别的行人图像;
利用权利要求1-3中的任一项所述的训练方法训练的目标行人重识别模型进行行人重识别。
5.一种行人重识别模型的训练装置,其特征在于,包括:
第一数据获取模块,用于获取第一行人重识别训练数据集,所述第一行人重识别训练数据集包括至少两个不同的训练图像集;
第一训练模块,用于将所述第一行人重识别训练数据集输入预设的行人重识别模型进行处理,并基于处理结果计算第一损失函数;
第二数据获取模块,用于对所述第一行人重识别训练数据集进行处理得到第二行人重识别训练数据集;
第二训练模块,用于将所述第二行人重识别训练数据集输入监督网络进行处理,并根据处理结果计算第二损失函数,所述第二损失函数包括聚类损失函数和重构损失函数,所述监督网络包括:
预分类模块,用于使用预训练的分类模型从输入的所述第二行人重识别训练数据集提取图像特征;
降维模块,用于对所述分类模提取的图像特征进行降维处理;
聚类模块,用于对降维后的图像特征进行聚类处理,以使属于同一行人的图像特征归到一类,根据聚类结果计算所述聚类损失函数,并根据所述聚类损失函数的计算结果调整所述聚类模块;
重构模块,用于利用反卷积网络根据所述聚类模块的聚类中心进行重构,得到重构图像,根据重构结构计算所述重构损失函数,并根据所述重构损失函数的计算结果调整所述重构模块;
调整模块,用于根据所述第一损失函数和第二损失函数的计算结果调整所述预设的行人重识别模型,得到目标行人重识别模型。
6.一种行人重识别装置,其特征在于,包括:
获取模块,用于获取待识别的行人图像;
识别模块,用于利用权利要求1-3中的任一项所述的训练方法训练的目标行人重识别模型进行行人重识别。
7.一种计算设备,其特征在于,所述设备包括:处理器,以及存储有计算机程序指令的存储器;所述处理器读取并执行所述计算机程序指令,以实现如权利要求1-3中的任意一项所述的行人重识别模型的训练方法,或权利要求4所述的行人重识别方法。
8.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-3中的任意一项所述的行人重识别模型的训练方法,或权利要求4所述的行人重识别方法。
CN202111295755.5A 2021-11-03 2021-11-03 行人重识别模型的训练方法、装置、计算设备及存储介质 Active CN113936302B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111295755.5A CN113936302B (zh) 2021-11-03 2021-11-03 行人重识别模型的训练方法、装置、计算设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111295755.5A CN113936302B (zh) 2021-11-03 2021-11-03 行人重识别模型的训练方法、装置、计算设备及存储介质

Publications (2)

Publication Number Publication Date
CN113936302A CN113936302A (zh) 2022-01-14
CN113936302B true CN113936302B (zh) 2023-04-07

Family

ID=79285408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111295755.5A Active CN113936302B (zh) 2021-11-03 2021-11-03 行人重识别模型的训练方法、装置、计算设备及存储介质

Country Status (1)

Country Link
CN (1) CN113936302B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114120373A (zh) * 2022-01-24 2022-03-01 苏州浪潮智能科技有限公司 一种模型训练方法、装置、设备及存储介质
CN114529946A (zh) * 2022-02-23 2022-05-24 厦门市美亚柏科信息股份有限公司 基于自监督学习的行人重识别方法、装置、设备及存储介质
CN114550109B (zh) * 2022-04-28 2022-07-19 中国科学院微电子研究所 一种行人流量检测方法和系统
CN115471875B (zh) * 2022-10-31 2023-03-03 之江实验室 一种多码率的行人识别视觉特征编码压缩方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738351A (zh) * 2020-06-30 2020-10-02 创新奇智(重庆)科技有限公司 模型训练方法、装置、存储介质及电子设备
CN111967429A (zh) * 2020-08-28 2020-11-20 清华大学 一种基于主动学习的行人重识别模型训练方法及装置
CN112149705A (zh) * 2019-06-28 2020-12-29 京东数字科技控股有限公司 分类模型的训练方法、系统、计算机设备及存储介质
CN112417289A (zh) * 2020-11-29 2021-02-26 中国科学院电子学研究所苏州研究院 一种基于深度聚类的资讯信息智能推荐方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108898180B (zh) * 2018-06-28 2020-09-01 中国人民解放军国防科技大学 一种面向单颗粒冷冻电镜图像的深度聚类方法
US11302110B2 (en) * 2020-02-28 2022-04-12 Honda Motor Co., Ltd. Pedestrian action recognition and localization using RGB images
CN111401281B (zh) * 2020-03-23 2022-06-21 山东师范大学 基于深度聚类和样例学习的无监督行人重识别方法及系统
CN111476168B (zh) * 2020-04-08 2022-06-21 山东师范大学 一种基于三阶段的跨域行人重识别方法和系统
CN113569615A (zh) * 2021-02-24 2021-10-29 腾讯科技(深圳)有限公司 基于图像处理的目标识别模型的训练方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112149705A (zh) * 2019-06-28 2020-12-29 京东数字科技控股有限公司 分类模型的训练方法、系统、计算机设备及存储介质
CN111738351A (zh) * 2020-06-30 2020-10-02 创新奇智(重庆)科技有限公司 模型训练方法、装置、存储介质及电子设备
CN111967429A (zh) * 2020-08-28 2020-11-20 清华大学 一种基于主动学习的行人重识别模型训练方法及装置
CN112417289A (zh) * 2020-11-29 2021-02-26 中国科学院电子学研究所苏州研究院 一种基于深度聚类的资讯信息智能推荐方法

Also Published As

Publication number Publication date
CN113936302A (zh) 2022-01-14

Similar Documents

Publication Publication Date Title
CN113936302B (zh) 行人重识别模型的训练方法、装置、计算设备及存储介质
CN107529650B (zh) 闭环检测方法、装置及计算机设备
CN112950581B (zh) 质量评估方法、装置和电子设备
CN110598558B (zh) 人群密度估计方法、装置、电子设备及介质
WO2017166586A1 (zh) 基于卷积神经网络的图片鉴别方法、系统和电子设备
CN108230291B (zh) 物体识别系统训练方法、物体识别方法、装置和电子设备
CN106683119B (zh) 基于航拍视频图像的运动车辆检测方法
Kang et al. Deep learning-based weather image recognition
CN108960314B (zh) 基于难样本的训练方法、装置及电子设备
JP2017062778A (ja) 画像のオブジェクトを分類するための方法およびデバイスならびに対応するコンピュータプログラム製品およびコンピュータ可読媒体
CN111598182A (zh) 训练神经网络及图像识别的方法、装置、设备及介质
CN112115979B (zh) 一种红外图像和可见图像的融合方法及设备
CN109558790B (zh) 一种行人目标检测方法、装置及系统
CN109376736A (zh) 一种基于深度卷积神经网络的视频小目标检测方法
CN110415260A (zh) 基于字典与bp神经网络的烟雾图像分割与识别方法
CN112884147A (zh) 神经网络训练方法、图像处理方法、装置及电子设备
Bahrami et al. Image tampering detection by exposing blur type inconsistency
CN109165636A (zh) 一种基于部件级多特征融合的珍稀鸟类稀疏识别方法
CN115546909A (zh) 活体检测方法、装置、门禁系统、设备及存储介质
CN112101114A (zh) 一种视频目标检测方法、装置、设备以及存储介质
CN111401143A (zh) 一种行人跟踪系统及方法
CN117409083B (zh) 一种基于红外图像和改进yolov5的电缆终端识别方法及装置
CN112348011B (zh) 一种车辆定损方法、装置及存储介质
CN111428567A (zh) 一种基于仿射多任务回归的行人跟踪系统及方法
CN111160353A (zh) 车牌识别方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant