CN113283362B - 一种跨模态的行人重识别方法 - Google Patents
一种跨模态的行人重识别方法 Download PDFInfo
- Publication number
- CN113283362B CN113283362B CN202110623617.9A CN202110623617A CN113283362B CN 113283362 B CN113283362 B CN 113283362B CN 202110623617 A CN202110623617 A CN 202110623617A CN 113283362 B CN113283362 B CN 113283362B
- Authority
- CN
- China
- Prior art keywords
- network
- shallow
- mode
- pedestrian
- classifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000004821 distillation Methods 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims description 33
- 238000005070 sampling Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000011176 pooling Methods 0.000 claims description 11
- 238000005065 mining Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 abstract description 3
- 230000005284 excitation Effects 0.000 abstract description 2
- 238000012360 testing method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000036544 posture Effects 0.000 description 2
- 238000001931 thermography Methods 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Abstract
本发明公开了一种跨模态的行人重识别方法,该方法首先构造与卷积神经网络最深层分类器具有相同结构的浅层分类器,然后使用最深层的分类器在多个维度上指导浅层分类器学习,通过这种方式,将来自深层的行人高级信息和数据集中的真实标签信息传递给浅层网络。随后,吸收了深层知识和真实标签信息的浅层网络提取的低层特征进一步促进较深层网络的高层特征学习,这样不断正向循环激励,推动网络学习有鉴别力的特征表示。该发明使用知识自蒸馏,网络模型充当自己的老师,不断正向推动,使模型能够提取到更具有鉴别力的特征表示,促进分类性能。
Description
技术领域
本发明涉及行人重识别领域,更具体的说公开了一种跨模态的行人重识别方法。
背景技术
行人重识别是指给定一幅待查询人的图片,在不同摄像头采集的图像中通过人员匹配找出具有相同身份的人员。行人重识别较难的原因主要是由于姿势、穿着打扮、以及拍摄角度等不同造成的同一行人拍摄图像之间具有较大差异,而采集的不同行人的图像反而更相似。从而给身份识别带来了较大难度。由于行人重识别在智能视频监控和案件侦破等公共安全领域的广泛应用,大量学者致力于该问题的研究。现有的方法主要集中于可见光和可见光图像之间这种单模态内的行人重识别,即给定的待查询人员的图像是可见光形式,进行人员搜集的图像库里的图像也都是可见光形式。然而,由于可见光摄像头在光线比较弱,例如夜间的情况下很难铺捉到清晰人像,人们通常在夜间采用不太依赖光线的红外摄像头进行监控。因此,可见光和红外两种不同模态图像之间的跨模态行人身份重识别,引起广泛关注。即给定一种模态下的行人图像,从另一种模态图像中找到相同身份的行人图像。目前,可见光-红外这种跨模态行人重识别算法的进展远远落后于单模态的行人重识别。该项研究进展相对缓慢的原因在于其难度比单模态下的行人重识别更大。首先,最主要的是由于可见光和红外摄像机成像原理差异造成的模态差异。除此之外,还有如前所述的行人重识别问题共同存在的困难,即姿势、穿着打扮和拍摄角度等因素造成的模态内差异。
目前,针对可见光和红外图像的跨模态行人重识别方法已经有一些。这些方法主要从网络设计、度量学习和图像变换三个方面进行研究。其中,基于网络设计的方法旨在通过设计合适的深度学习网络来进行更好的特征表达,以实现更准确的识别。该类方法中,Wu等人首先建立了跨模态行人重识别图像数据库,然后提出了一种模态共享参数的单流网络结构。紧接着,多种单流结构的跨模态行人重识别算法被相继提出。然后,鉴于双流结构能够更好的进行模态专属信息和模态共享信息表达,又有学者提出了双流结构的跨模态行人重识别网络模型,即两个模态的图像对应网络结构的参数不共享。
例如,在现有文献《Hierarchical discriminative learning for visiblethermal person re-identification》中,模型的前半部分采用参数不共享的双流结构来提取模态专属信息,然后采用参数共享的全连接层将特征映射到同一空间中。
在现有文献《Enhancing the discriminative feature learning for visible-thermal cross-modality person re-identification》中,中级水平特征被融入到模态共享特征中以提升识别能力。鉴于设计合适的网络结构是一项耗时费力且收效不大的工作,而行人重识别在实际应用中往往对效率要求较高,所以该类方法的实用性较差。对于基于度量学习的方法,主要是通过设计好的损失函数,使得同一行人的特征距离更近,而不同行人的特征具体更远。目前,经典的损失函数包括异质中心损失、双模态三元组损失、难样本五元组损失等等。基于网络设计的方法和基于度量学习的方法均是从特征角度进行研究,以达到更准确的识别。而基于图像变化的行人重识别方法是从图像层面进行问题的处理,其主要思想是通过建立一个中间模态图像来减少可见光和红外两个模态之间的差异,以达到更准确识别的目的。现有的该类方法主要是借助生成对抗网络进行中间模态图像生成。这类方法比较典型的缺点是依赖现有图像生成算法的性能。现有方法的性能还有很大进步空间,还不能满足实际应用需求。
发明内容
针对上述技术问题,本发明提出一种跨模态的行人重识别方法,该方法采用教师指导学生学习的思想,即知识丰富的教师指导知识浅薄的学生学习。不同于其他方法教师和学生是两个不同的模型,本发明所提出的方法教师和学生是同一模型中的不同区域。该方法首先构造与卷积神经网络最深层分类器具有相同结构的浅层分类器,然后使用最深层的分类器在多个维度上指导浅层分类器学习,通过这种方式,将来自深层的行人高级信息和数据集中的真实标签信息传递给浅层网络。随后,吸收了深层知识和真实标签信息的浅层网络提取的低层特征进一步促进较深层网络的高层特征学习,这样不断正向循环激励,推动网络学习有鉴别力的特征表示。除此知识自蒸馏模块之外,在训练过程中,本方法还采用身份损失和全模态难样本挖掘三元组损失共同监督网络学习。最后,通过丰富的知识传递和反馈,本发明提出的跨模态行人重识别方法具有了更好的特征表示能力。
为了实现上述技术目的,本发明采用如下技术方案:
一种跨模态的行人重识别方法,包括以下步骤:
S1、在训练集中采用在线的随机批采样策略获取身份对应、数量相同的可见光图片和红外图片;
S2、构建包括部分参数共享的双主流主干网络和知识自蒸馏支路的跨模态行人重识别模型;
S3、将随机采样得到的可见光图片和红外图片分别输入模型进行训练,模型的深层网络作为教师指导浅层网络学习,进行知识自蒸馏,训练完成得到训练好的跨模态行人重识别模型;
S4、将待识别的行人图像根据模态输入训练好的跨模态行人重识别模型,得到待识别的行人图像特征;
S5、将待识别的行人图像特征与另一模态候选行人图像库中的行人图像特征进行相似度计算并排序,得到跨模态行人重识别结果。
所述步骤S2中采用Resnet50作为所述双流主干网络,Resnet 50包含5个Stage,Stage0-Stage4,将stage0作为特征提取部分,后面的4个Stage作为特征嵌入部分;
Stage0部分参数不共享,用于提取可见光模态和红外模态的模态专属信息;
两个模态的图片经过各自的stage0之后进入后面共享参数的网络中,参数共享的网络将前面网络提取出来的特征映射到同一特征子空间中。
所述步骤S3中在训练阶段,每一个位于浅层的知识自蒸馏支路都作为学生被最深层的教师网络指导训练,所述知识自蒸馏部分的损失为:
LDist=αLsoft+βLhard+γLfea,
其中,α,β,γ是知识自蒸馏平衡参数;
Lsoft:深层分类器和各浅层分类器之间的KL散度损失,其中,KL散度用来度量深层教师网络和浅层学生网络的Softmax输出,通过引入KL散度,将深层网络学习到的知识指导给浅层网络,使两者分布接近;
Lhard:来自真实标签的交叉熵损失监督,来自标签的交叉熵损失监督所有的浅层分类器,它度量训练数据集的真实标签和每个浅层分类器的Softmax输出之间的差异;
Lfea:深层分类器和各浅层分类器池化后的特征之间的L2损失,用来计算最深层的网络提取出来的特征与各浅层网络提取出来的特征之间的L2损失,通过引入L2损失,将深层网络特征图中隐藏的知识引入到浅层的网络中,用高级的特征指导低级的特征。
所述Lsoft计算公式如下:
其中,
KL(p0||pj)表示计算最深层教师分类器p0和各浅层学生分类器pj的KL散度;
N表示训练时mini-batch中图片的数量,根据采用的在线采样策略,
N=2×P×K;
M表示浅层学生分类器的总数,在本方法中其值等于3;
j={1,2,3}根据从小到大的顺序分别表示从浅到深的各浅层学生分类器,j=0表示最深层的教师分类器;
p0(i)和pj(i)表示mini-batch中第i张图片最深层教师分类器和各浅层分类器的Softmax输出;
所述Lhard计算公式如下:
其中,
pj(i)表示mini-batch中第i张图片经过各浅层学生网络和Softmax操作对应的训练集中所有身份预测逻辑分布;
qj(i)表示该图片对应的真实标签分布;
所述Lfea计算公式如下:
其中,
f0(i)表示mini-batch中第i张图片最深层教师网络特征图池化后的特征;
fj(i)表示各浅层学生网络特征图池化后的特征;
表示L2损失。
所述步骤S3中随机采样采用在线的采样策略。
所述步骤S3中在训练过程中,采用身份损失和全模态难样本挖掘三元组损失共同监督网络学习。
所述身份损失的计算公式如下:
其中,p0(i)表示第i张图片经过最深层网络和Softmax操作对应的训练集中所有身份预测逻辑分布;
q0(i)表示该图片对应的真实标签分布。
所述全模态难样本挖掘三元组损失,计算公式如下:
其中,C∈{V,I}表示可见光模态和红外模态;
d(·)表示计算欧式距离;
分别表示可见光图片和红外图片中第t个行人的第a张图片经过深层网络池化后的特征;
表示可见光模态和红外模态中与/>同一行人的第p张图片的特征;
表示可见光模态和红外模态中与/>不同行人的第n张图片的特征,相应的,/>和/>对于/>有相同的意义;
m是一个阈值参数;
[X]+表示取X和0之间的较大值。
有益效果:
第一.本发明提出了一种知识自蒸馏的跨模态行人重识别方法,通过使用知识自蒸馏,网络模型充当自己的老师,不断正向推动,使模型能够提取到更具有鉴别力的特征表示,促进分类性能。
第二.本发明在两个公开数据集上的大量实验显示,该方法能显著提高跨模态行人重识别的准确率,并优于现有方法。
附图说明
图1为本发明一种跨模态的行人重识别方法的流程图;
图2为本发明知识自蒸馏跨模态行人重识别网络模型图。
具体实施方式
1.知识自蒸馏:
本方法采用Resnet50作为神经网络的主干。Resnet 50包含5个Stage,Stage0-Stage4。我们将stage0作为特征提取部分,后面的4个Stage作为特征嵌入部分。Stage0部分参数不共享,用于提取可见光模态和红外模态的模态专属信息。两个模态的图片经过各自的stage0之后进入后面共享参数的网络中,参数共享的网络将前面网络提取出来的特征映射到同一特征子空间中。
本方法采用在线的采样策略。由于跨模态行人重识别中存在着两个模态,我们在每个mini-batch中随机采样P个行人类别,在每个行人类别中随机挑选K张可见光图片和K张红外图片,总共包含2PK张图片。PK张可见光图片和PK张红外图片根据模态分别输入我们双流网络结构中各个模态的支路。通过这样的采样方式,可以有效避免样本不平衡带来的扰动,同时由于随机采样机制,一个mini-batch训练的效果和整个训练集训练的效果一致。
Resnet50后面参数共享的4个stage,根据残差块别划分为4个部分,前面三个浅层的部分为学生,最深层的部分为教师。每一个浅层网络后面都跟随着一个知识自蒸馏支路(浅层分类器),包含一个Bottleneck层,一个GeM(Generalized-mean pooling)池化层,一个BN(batch normalization)层,一个FC(fully connected)层和一个Softmax层。Bottleneck层用于调整特征图的大小和通道数与最深层保持一致。在训练阶段,每一个位于浅层的自蒸馏支路都作为学生被最深层的教师网络指导训练,从而达到知识蒸馏的目的,提高浅层网络的特征提取能力。在知识自蒸馏过程中,三个损失共同指导浅层网络学习。
1)Lsoft:深层分类器和各浅层分类器之间的KL散度(Kullback-Leiblerdivergence)。KL散度用来度量深层教师网络和浅层学生网络的Softmax输出。通过引入KL散度,将深层网络学习到的知识指导给浅层网络,使两者分布接近。该损失计算方式如下:
其中,KL(p0||pj)表示计算最深层教师分类器p0和各浅层学生分类器pj的KL散度。N表示训练时mini-batch中图片的数量,根据采用的在线采样策略,N=2×P×K。M表示浅层学生分类器的总数,在本方法中其值等于3。j={1,2,3}根据从小到大的顺序分别表示从浅到深的各浅层学生分类器。j=0表示最深层的教师分类器。p0(i)和pj(i)表示mini-batch中第i张图片最深层教师分类器和各浅层分类器的Softmax输出。
2)Lhard:来自真实标签的交叉熵损失监督。来自标签的交叉熵损失监督所有的浅层分类器。它度量训练数据集的真实标签和每个浅层分类器的Softmax输出之间的差异。通过这种方式,利用标签中的真实分类信息监督浅层网络学习有鉴别力的类内共享特征表示,促进分类和重识别性能。该损失计算方式如下:
其中,pj(i)表示mini-batch中第i张图片经过各浅层学生网络和Softmax操作对应的训练集中所有身份预测逻辑分布,qj(i)表示该图片对应的真实标签分布。
3)Lfea:深层分类器和各浅层分类器池化后的特征之间的L2损失。用来计算最深层的网络提取出来的特征与各浅层网络提取出来的特征之间的L2损失。通过引入L2损失,将深层网络特征图中隐藏的知识引入到浅层的网络中,用高级的特征指导低级的特征。该损失计算方式如下:
其中,f0(i)表示mini-batch中第i张图片最深层教师网络特征图池化后的特征。fj(i)表示各浅层学生网络特征图池化后的特征。表示L2损失。
总结来说,关于知识自蒸馏部分的损失可以整合为:
LDist=αLsoft+βLhard+γLfea, (4)
其中,α,β,γ是知识自蒸馏平衡参数。
2.多维损失监督:
除了知识自蒸馏部分的损失外,我们对于整个网络(深层网络)提取出来的特征分别利用身份损失和全模态难样本挖掘三元组损失进行监督,从而进一步促进重识别的性能。卷积神经网络输出的特征图经过池化后的2048维特征用于计算全模态难样本挖掘三元组损失,这些特征经过BN层、再经过FC层和Softmax层计算身份损失。
1)身份损失的计算公式如下:
其中,p0(i)表示第i张图片经过最深层网络和Softmax操作对应的训练集中所有身份预测逻辑分布,q0(i)表示该图片对应的真实标签分布。
2)全模态难样本挖掘三元组损失,计算公式如下:
其中,C∈{V,I}表示可见光模态和红外模态。d(·)表示计算欧式距离。分别表示可见光图片和红外图片中第t个行人的第a张图片经过深层网络池化后的特征。/>表示可见光模态和红外模态中与/>同一行人的第p张图片的特征。/>表示可见光模态和红外模态中与/>不同行人的第n张图片的特征。相应的,/>和/>对于/>有相同的意义。m是一个阈值参数。[X]+表示取X和0之间的较大值。
综上,整个方法的损失函数:
LTotal=LDist+LId+LTrihardAm, (7)
利用损失函数监督模型完成训练,得到训练好的跨模态行人重识别模型。之后进行测试得到提出方法的跨模态重识别性能。
实验设置:
1.数据集
SYSU-MM01:一个大规模的数据集,由6个不同的相机,包括4个可见光相机和2个近红外相机拍摄,不仅包含室内环境还包含户外环境,总共有30071个可见光图片和15792个红外图片。训练集包含395个供训练的行人ID,包含22258个可见光和11909个近红外图片,图片在室内和室外环境都有拍摄。测试集中包含另外的95个供测试的行人ID,有着两种不同的评估设置。在每种设置中,查询集是相同的,包含由两个红外相机拍摄的3803个图片。在All-search模式中,库集包含由全部的4个可见光相机拍摄的所有的可见光图片。在Indoor-search模式中,库集只含有由2个室内可见光相机拍摄的可见光图片。相较来说,All-search模式比Indoor-search模式更加具有挑战性。我们遵从现存的方法按照single-shot setting的库集挑选方式进行10次实验,然后取平均检索性能。
RegDB数据集由双路的可见光相机和热成像相机同一时间拍摄的,共有412个行人身份,每个行人有10张可见光图片和10张热成像图片。412个行人被均等随机划分为训练集和测试集,每一个数据集包含206个行人且不重叠。在测试阶段,来自一个模态的图片作为库集,另一个模态的图片作为指针集,进行检索。测试10次,取平均值作为结果。
2.度量方法介绍
采用两个标准指标,即累积匹配曲线(CMC)和平均精度(mAP)。CMC-k:在排名前k的检索结果中出现正确匹配的概率。mAP:AP衡量的是对给定的测试数据集,分类器正确分类的样本数与总样本之比的值。而mAP则是对所有类别的AP求平均值。两个指标都是越高代表效果越好。
3.参数设置
对于全模态难样本挖掘三元组损失,设置阈值参数m=0.3。对于在线的采样策略,在RegDB数据集上设置P=8,K=4,在SYSU-MM01数据集上,设置P=4,K=8。对于知识自蒸馏权衡参数,RegDB上设置α,β,γ分别为0.1,0.1,0.001,SYSU-MM01上设置α,β,γ分别为0.7,0.3,0.01。
实验结果与性能比较:
我们在两个公开数据集上RegDB和SYSU-MM01对比目前最先进的跨模态行人重识别方法。结果分别如表1和表2所示。
表格1本方法与其他先进方法在RegDB数据集上的性能对比
在数据集RegDB上,本发明提出的方法获得了巨大的性能提升。相比于现在的跨模态行人重识别算法我们的方法领先他们一大段距离。我们在所有的评价指标上都取得最高的表现。相较于目前性能较好的EDFL方法,Visible-Infrared检索模式下,rank-1和mAP分别提升了36.25%和32.89%,达到了88.83%和85.87%;Infrared-Visible检索模式下,rank-1和mAP分别提升了35.61%和32.38%,达到了87.50%和84.51%。
表格2本方法与其他先进方法在SYSU-MM01数据集上的性能对比
在数据集SYSU-MM01上的实验表明,本发明提出的的方法在各项性能指标上均达到目前领先水平。相较于目前性能较好的HC方法,在SYSU-MM01最难的All-search single-shot检索模式下rank-1和mAP分别提升了4.00%和3.02%,达到了60.96%和57.97%。在Indoor-search single-shot检索模式下rank-1和mAP分别提升了3.91%和5.47%,达到了63.65%和70.38%。
对比表1和表2的数据可知,可以明显得出我们的方法能获得较高的跨模态行人重识别性能,并且优于现有算法。
Claims (2)
1.一种跨模态的行人重识别方法,其特征在于,包括以下步骤:
S1、在训练集中采用在线的随机批采样策略获取身份对应、数量相同的可见光图片和红外图片;
S2、构建包括部分参数共享的双流主干网络和知识自蒸馏支路的跨模态行人重识别模型;
S3、将随机采样得到的可见光图片和红外图片分别输入模型进行训练,模型的深层网络作为教师指导浅层网络学习,进行知识自蒸馏,训练完成得到训练好的跨模态行人重识别模型;
S4、将待识别的行人图像根据模态输入训练好的跨模态行人重识别模型,得到待识别的行人图像特征;
S5、将待识别的行人图像特征与另一模态候选行人图像库中的行人图像特征进行相似度计算并排序,得到跨模态行人重识别结果;
所述步骤S2中采用Resnet50作为所述双流主干网络,Resnet 50 包含5个Stage,Stage0-Stage4,将stage0作为特征提取部分,后面的4个Stage作为特征嵌入部分;
Stage0部分参数不共享,用于提取可见光模态和红外模态的模态专属信息;
两个模态的图片经过各自的stage0之后进入后面共享参数的网络中,参数共享的网络将前面网络提取出来的特征映射到同一特征子空间中;
所述步骤S3中在训练阶段,每一个位于浅层的知识自蒸馏支路都作为学生被最深层的教师网络指导训练,所述知识自蒸馏部分的损失为:
,
其中,,/>,/>是知识自蒸馏平衡参数;
:深层分类器和各浅层分类器之间的KL散度损失,其中,KL散度用来度量深层教师网络和浅层学生网络的Softmax输出,通过引入KL散度,将深层网络学习到的知识指导给浅层网络,使两者分布接近;
:来自真实标签的交叉熵损失监督,来自标签的交叉熵损失监督所有的浅层分类器,它度量训练数据集的真实标签和每个浅层分类器的Softmax输出之间的差异;
:深层分类器和各浅层分类器池化后的特征之间的L2损失,用来计算最深层的网络提取出来的特征与各浅层网络提取出来的特征之间的L2损失,通过引入L2损失,将深层网络特征图中隐藏的知识引入到浅层的网络中,用高级的特征指导低级的特征;
所述计算公式如下:
,其中,
表示计算最深层教师分类器/>和各浅层学生分类器/>的KL散度;
表示训练时mini-batch中图片的数量,根据采用的在线采样策略,/>;
表示浅层学生分类器的总数,在本方法中其值等于3;
根据从小到大的顺序分别表示从浅到深的各浅层学生分类器,/>表示最深层的教师分类器;
和/>表示mini-batch中第/>张图片最深层教师分类器和各浅层分类器的Softmax输出;
所述计算公式如下:
,其中,
表示mini-batch中第/>张图片经过各浅层学生网络和Softmax操作对应的训练集中所有身份预测逻辑分布;
表示该图片对应的真实标签分布;
所述计算公式如下:
,其中,
表示mini-batch中第/>张图片最深层教师网络特征图池化后的特征;
表示各浅层学生网络特征图池化后的特征;
表示L2损失;
所述步骤S3中在训练过程中,采用身份损失和全模态难样本挖掘三元组损失共同监督网络学习;
所述身份损失的计算公式如下:,
其中, 表示第/>张图片经过最深层网络和Softmax操作对应的训练集中所有身份预测逻辑分布;
表示该图片对应的真实标签分布;
所述全模态难样本挖掘三元组损失,计算公式如下:
,
其中,表示可见光模态和红外模态;
表示计算欧式距离;
、/>分别表示可见光图片和红外图片中第/>个行人的第/>张图片经过深层网络池化后的特征;
表示可见光模态和红外模态中与/>同一行人的第/>张图片的特征;
表示可见光模态和红外模态中与/>不同行人的第/>张图片的特征,相应的,/>和对于/>有相同的意义;
是一个阈值参数;
表示取/>和0之间的较大值。
2.根据权利要求1所述的跨模态的行人重识别方法,其特征在于,所述步骤S1中随机采样采用在线的采样策略,在每个mini-batch中随机采样个行人类别,在每个行人类别中随机挑选/>张可见光图片和/>张红外图片,总共包含/>张图片。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110623617.9A CN113283362B (zh) | 2021-06-04 | 2021-06-04 | 一种跨模态的行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110623617.9A CN113283362B (zh) | 2021-06-04 | 2021-06-04 | 一种跨模态的行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113283362A CN113283362A (zh) | 2021-08-20 |
CN113283362B true CN113283362B (zh) | 2024-03-22 |
Family
ID=77283413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110623617.9A Active CN113283362B (zh) | 2021-06-04 | 2021-06-04 | 一种跨模态的行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113283362B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114067356B (zh) * | 2021-10-21 | 2023-05-09 | 电子科技大学 | 基于联合局部引导与属性聚类的行人重识别方法 |
CN113920540A (zh) * | 2021-11-04 | 2022-01-11 | 厦门市美亚柏科信息股份有限公司 | 基于知识蒸馏的行人重识别方法、装置、设备及存储介质 |
CN114241517B (zh) * | 2021-12-02 | 2024-02-27 | 河南大学 | 基于图像生成和共享学习网络的跨模态行人重识别方法 |
CN114596546A (zh) * | 2022-01-12 | 2022-06-07 | 盛视科技股份有限公司 | 车辆重识别方法、装置及计算机、可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480178A (zh) * | 2017-07-01 | 2017-12-15 | 广州深域信息科技有限公司 | 一种基于图像与视频跨模态比对的行人重识别方法 |
WO2020042419A1 (zh) * | 2018-08-29 | 2020-03-05 | 汉王科技股份有限公司 | 基于步态的身份识别方法、装置、电子设备 |
CN110909605A (zh) * | 2019-10-24 | 2020-03-24 | 西北工业大学 | 基于对比相关的跨模态行人重识别方法 |
WO2020098158A1 (zh) * | 2018-11-14 | 2020-05-22 | 平安科技(深圳)有限公司 | 行人重识别方法、装置及计算机可读存储介质 |
CN111931637A (zh) * | 2020-08-07 | 2020-11-13 | 华南理工大学 | 基于双流卷积神经网络的跨模态行人重识别方法和系统 |
CN112597866A (zh) * | 2020-12-16 | 2021-04-02 | 南京邮电大学 | 一种基于知识蒸馏的可见光-红外跨模态行人重识别方法 |
-
2021
- 2021-06-04 CN CN202110623617.9A patent/CN113283362B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480178A (zh) * | 2017-07-01 | 2017-12-15 | 广州深域信息科技有限公司 | 一种基于图像与视频跨模态比对的行人重识别方法 |
WO2020042419A1 (zh) * | 2018-08-29 | 2020-03-05 | 汉王科技股份有限公司 | 基于步态的身份识别方法、装置、电子设备 |
WO2020098158A1 (zh) * | 2018-11-14 | 2020-05-22 | 平安科技(深圳)有限公司 | 行人重识别方法、装置及计算机可读存储介质 |
CN110909605A (zh) * | 2019-10-24 | 2020-03-24 | 西北工业大学 | 基于对比相关的跨模态行人重识别方法 |
CN111931637A (zh) * | 2020-08-07 | 2020-11-13 | 华南理工大学 | 基于双流卷积神经网络的跨模态行人重识别方法和系统 |
CN112597866A (zh) * | 2020-12-16 | 2021-04-02 | 南京邮电大学 | 一种基于知识蒸馏的可见光-红外跨模态行人重识别方法 |
Non-Patent Citations (3)
Title |
---|
cross-modal distillation for RGB-Depth person re-identification;Frank Hafner等;computer vision and image understanding;20181027;1-16 * |
基于全模态度量和知识自蒸馏的跨模态行人重识别算法研究;李锐;中国优秀硕士学位论文全文数据库信息科技辑;20230215(第2期);I138-1707 * |
基于生成对抗网络的跨模态行人重识别研究;冯敏;张智成;吕进;余磊;韩斌;;现代信息科技;20200225;第4卷(第04期);107-109 * |
Also Published As
Publication number | Publication date |
---|---|
CN113283362A (zh) | 2021-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113283362B (zh) | 一种跨模态的行人重识别方法 | |
CN111126360B (zh) | 基于无监督联合多损失模型的跨域行人重识别方法 | |
Luo et al. | Stnreid: Deep convolutional networks with pairwise spatial transformer networks for partial person re-identification | |
Hasani et al. | Spatio-temporal facial expression recognition using convolutional neural networks and conditional random fields | |
Xia et al. | Multi-stage feature constraints learning for age estimation | |
CN111325115B (zh) | 带有三重约束损失的对抗跨模态行人重识别方法和系统 | |
Deng et al. | Marginal loss for deep face recognition | |
Prosser et al. | Person re-identification by support vector ranking. | |
CN111709311B (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
Wang et al. | Cross-scenario transfer person reidentification | |
CN109255289B (zh) | 一种基于统一式生成模型的跨衰老人脸识别方法 | |
US8520906B1 (en) | Method and system for age estimation based on relative ages of pairwise facial images of people | |
CN110598543B (zh) | 基于属性挖掘和推理的模型训练方法及行人再识别方法 | |
CN108509854B (zh) | 一种基于投影矩阵约束结合判别字典学习的行人再识别方法 | |
CN110580460A (zh) | 基于行人身份和属性特征联合识别验证的行人再识别方法 | |
Zhang et al. | Dual mutual learning for cross-modality person re-identification | |
CN111898736A (zh) | 基于属性感知的高效行人重识别方法 | |
CN111832511A (zh) | 一种增强样本数据的无监督行人重识别方法 | |
CN110807434A (zh) | 一种基于人体解析粗细粒度结合的行人重识别系统及方法 | |
CN111428650B (zh) | 一种基于sp-pggan风格迁移的行人重识别方法 | |
CN109766748A (zh) | 一种基于投影变换与字典学习的行人再识别的方法 | |
CN108875448B (zh) | 一种行人再识别方法及装置 | |
CN112115838A (zh) | 一种热红外图像光谱融合的人脸分类方法 | |
Fan et al. | Parformer: transformer-based multi-task network for pedestrian attribute recognition | |
Chen et al. | Pose-guided spatial alignment and key frame selection for one-shot video-based person re-identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |