CN112926451B - 基于自模仿互蒸馏的跨模态行人重识别方法 - Google Patents

基于自模仿互蒸馏的跨模态行人重识别方法 Download PDF

Info

Publication number
CN112926451B
CN112926451B CN202110212898.9A CN202110212898A CN112926451B CN 112926451 B CN112926451 B CN 112926451B CN 202110212898 A CN202110212898 A CN 202110212898A CN 112926451 B CN112926451 B CN 112926451B
Authority
CN
China
Prior art keywords
feature
pedestrian
visible light
distillation
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110212898.9A
Other languages
English (en)
Other versions
CN112926451A (zh
Inventor
曲延云
张德茂
洪铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202110212898.9A priority Critical patent/CN112926451B/zh
Publication of CN112926451A publication Critical patent/CN112926451A/zh
Application granted granted Critical
Publication of CN112926451B publication Critical patent/CN112926451B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

基于自模仿互蒸馏的跨模态行人重识别方法,涉及图像处理领域。针对现有的一阶段特征配准方法忽略了模态内和模态间的特征分布差异的不足,提出两阶段的特征配准方法,提升跨模态行人重识别的性能。其两阶段的特征配准包括:1)模态内的特征配准:以一种自模拟的学习方式获取每个行人类别的原型特征,通过提高该类别所有样本与原型特征的相似度来实现模态内的特征配准;2)模态间的特征配准:采用互蒸馏的学习方法,减小同类别不同模态的样本分布的差异。提升特征的判别性。使得来自两个不同模态,同一ID的所有样本互相学习彼此的特征分布,从而减小模态间特征差异。可用于智能视频监控、行人追踪和行为分析,智能安防等。

Description

基于自模仿互蒸馏的跨模态行人重识别方法
技术领域
本发明涉及图像处理领域,尤其是涉及可用于智能视频监控、行人追踪和行为分析、智能安防等的基于自模仿互蒸馏的跨模态行人重识别方法。
背景技术
跨模态行人重识别因为其应用前景以及实际应用价值,近年来受到广泛的关注,并涌现出了许多优秀的算法。这些算法大致可以分为三大类:基于特征配准的跨模态行人重识别算法、基于图像生成的跨模态行人重识别算法和基于度量学习的跨模态行人重识别算法。相比其他两类算法,基于特征配准的跨模态行人重识别算法受到的关注度较高。它通过将可见光图像和红外图像映射到同一个特征空间,通过注意力图配准,引入额外模块进行图像级别或者像素级别配准等方式,实现减小跨模态差异的目标。这类方法除了增加模型复杂度的同时,忽略了模态内的冗余信息对跨模态行人检索精度的影响,仅是通过直接进行一个阶段的特征配准,不能有效缓解模态间差异对性能提升的阻碍。
知识蒸馏被广泛的用于模型压缩和迁移学习当中,其中自蒸馏和互蒸馏是知识蒸馏领域中两个很重要的分支。自蒸馏是一种模仿模型自身在不同训练阶段输出的一种学习策略,而互蒸馏是指采用多个网络(2个或更多)同时进行训练,每个网络在训练过程中不仅接受来自真值标记的监督,还参考同伴网络的学习经验来进一步提升泛化能力。在整个过程中,两个网络之间不断分享学习经验,实现互相学习共同进步。本发明根据自蒸馏的核心思想,通过学习模仿先前模型学习到的原型特征,减少高阶语义特征的冗余信息,使得学习到的特征更具有代表性。利用互蒸馏的思想,来自不同模态相同ID的样本,通过互相拟合彼此的特征分布,使得模态间的特征差异大大减小。
中国专利CN112016401A公开一种基于跨模态行人重识别方法,所述方法包括:通过将带有身份标识的行人图像输入跨模态特征提取模型中,确定带有身份标识的行人图像的跨模态泛化特征、红外单模态泛化特征和可见光单模态泛化特征,并计算待进行跨模态行人重识别的图像特征,与跨模态泛化特征、红外单模态泛化特征和可见光单模态泛化特征的相似度,进行行人重识别。
发明内容
本发明的目的在于提供可实现可见光图像和红外图像的跨模态行人重识别,在减少模态内冗余信息的同时,缩小不同模态间的分布差异,得到强判别性特征的基于自模仿互蒸馏的跨模态行人重识别方法。
本发明包括以下步骤:
1)对跨模态数据集进行采样,所述跨模态数据集包含可见光图像集和红外图像集,每个批次中每个模态选取不同ID的行人图片,每种ID分别选取若干张可见光图像和红外图像作为当前批次的网络输入;
2)对输入图片进行归一化,随机裁剪至指定大小并进行数据增强;
3)将可见光图像输入到一个参数不共享的卷积模块,得到的特征图作为共享主干网络的输入,再经过一个全局平均池化,将可见光图像映射到一个共享的特征空间,对于每一张可见光图像,得到对应的2048维度的特征向量;
4)将红外图像输入到另一个参数不共享的卷积模块,得到的特征图作为共享主干网络的输入,再经过一个全局平均池化,将红外图像映射到一个共享的特征空间,对于每一张红外图像,得到对应的2048维度的特征向量;通过对特征空间中的特征向量施加约束进行优化,增强特征的判别性,从而提高跨模态行人充实别的性能;
5)对于模型的整个训练过程中,使用常用的交叉熵损失和三元组对比损失对模型提取的特征进行判别性约束。
6)对于模态内差异,借助每个类的原型特征具有特征代表性的特点,再结合自模仿的核心思想,进而对共享特征空间中所有样本进行第一阶段的特征配准;
7)利用互蒸馏的思想进行第二阶段的特征配准:来自两个不同模态,同一ID的所有样本互相学习彼此的特征分布,从而减小模态间的特征差异;
8)在测试阶段,利用模型编码后的特征进行跨模态检索,即计算特征之间的相似度矩阵;
在步骤8)中,所述利用模型编码后的特征进行跨模态检索是用红外图像去检索匹配同ID 的可见光图像,或可见光图像去检索匹配同ID红外图像。
9)根据计算得到的相似度矩阵,根据行人重识别的评价指标算得Top-K(K=1,10,20) 和平均检索精度(mAP)。
在步骤1)中,所述可见光图像集
Figure RE-GDA0003033056670000021
红外图像集
Figure RE-GDA0003033056670000022
其中p表示行人的身份标签(ID),Np和Mp分别表示可见光图像样本总数和红外图像样本总数。
在步骤2)中,所述进行数据增强可采用随机翻转操作进行数据增强。
在步骤6)中,所述第一阶段的特征配准主要包括以下三个步骤:i.获取上一次迭代中每个ID的原型特征;ii.在当前迭代中,拉近每个ID的所有样本与之对应原型特征的距离;iii. 随着网络的每一次训练迭代结束之后,对每个ID的原型特征进行更新。
在步骤6)中,所述对共享特征空间中所有样本进行第一阶段的特征配准的具体步骤可为:
(6.1)对于行人ID为p的所有可见光图像和红外图像,经过步骤3)和4)之后得到对应的特征,
Figure RE-GDA0003033056670000031
Figure RE-GDA0003033056670000032
分别表示行人ID为p的所有可见光图像和红外图像经过编码得到的所有特征集合;其中Np和Mp分别表示行人ID为p的可见光图像样本总数和红外图像样本总数;对于
Figure RE-GDA0003033056670000033
Figure RE-GDA0003033056670000034
用下式分别计算两个特征集合的中心
Figure RE-GDA0003033056670000035
Figure RE-GDA0003033056670000036
作为行人ID为p的所有样本的原型特征:
Figure RE-GDA0003033056670000037
Figure RE-GDA0003033056670000038
(6.2)固定第t-1(t>1)次迭代产生的原型特征
Figure RE-GDA0003033056670000039
Figure RE-GDA00030330566700000310
通过缩小所有ID为p的图像样本与之模态对于的原型特征距离来达到模态内特征配准的目的,采用欧式距离作为距离度量方式;在第t次迭代中,对于每个ID的可见光模态图像和红外模态图像,都进行同样的特征配准操作,自模仿训练优化的损失函数如下:
Figure RE-GDA00030330566700000311
(6.3)第t次迭代结束后,利用步骤(6.1)中计算当前每个ID的原型特征
Figure RE-GDA00030330566700000312
Figure RE-GDA00030330566700000313
重复步骤(6.2),直至训练结束。
在步骤7)中,所述利用互蒸馏的思想进行第二阶段的特征配准的具体步骤可为:
(7.1)度量当前模型相同ID不同模态的所有样本的分布差异,在此使用最大均值差异 (Maximum Mean Discrepancy)来衡量两个不同但相关的分布的距离,Maximum MeanDiscrepancy(MMD)的具体计算公式如下:
Figure RE-GDA00030330566700000314
其中,
Figure RE-GDA0003033056670000041
表示高斯核函数。
(7.2)在每个批次的训练过程中,随机采样n对可见光图像和红外图像,分别表示为
Figure RE-GDA0003033056670000042
Figure RE-GDA0003033056670000043
根据互蒸馏的思想:来自两个不同模态,同一ID的所有样本互相学习彼此的特征分布,达到减小模态间特征分布差异的目的;故互蒸馏损失计算如下:
Figure RE-GDA0003033056670000044
通过优化互蒸馏损失,可以拉近不同模态相同ID的样本分布,从而有效减小模态间的特征差异。
本发明针对现有的一阶段特征配准方法忽略了模态内和模态间的特征分布差异的不足,通过设计两阶段特征配准方法,提升跨模态行人重识别的性能。本发明两阶段的特征配准包括:1)模态内的特征配准:以一种自模拟的学习方式获取每个行人类别的原型特征,通过提高该类别所有样本与原型特征的相似度来实现模态内的特征配准;2)模态间的特征配准:经过第一阶段模态内的特征配准后,采用互蒸馏的学习方法,减小同类别不同模态的样本分布的差异。
与现有技术相比,本发明具有以下突出优点:
1.本发明首先提出两阶段的特征配准方法。考虑到模态内存在冗余信息,先通过第一阶段的模态内特征配准方法,使得特征空间中相同模态相同ID的特征更具有相似性;接着进行第二阶段的模态间特征配准,使得特征空间中不同模态相同ID的特征分布差异大大减小。
2.巧妙利用自蒸馏的核心思想,通过模仿早期学习到的每个类的原型特征,来提升特征的判别性。
3.结合互蒸馏的方法,使得来自两个不同模态,同一ID的所有样本互相学习彼此的特征分布,从而减小模态间的特征差异。
4.本发明可用于智能视频监控、行人追踪和行为分析,智能安防等。
附图说明
图1是本发明的基于自模仿互蒸馏的跨模态行人重识别方法框架。
具体实施方式
以下实施例将结合附图对本发明作进一步的说明。
本发明实施例包括以下步骤:
(1)跨模态数据集包含可见光图像集
Figure RE-GDA0003033056670000051
和红外图像集
Figure RE-GDA0003033056670000052
其中p表示行人的身份标签(ID),Np和Mp分别表示可见光图像样本总数和红外图像样本总数。对数据集进行采样,每个批次中每个模态选取八种不同ID的行人图片,每种ID分别选取四张可见光图像和四张红外图像作为当前批次的网络输入;
(2)对输入图片进行归一化,随机裁剪至指定大小(288*144),采用随机翻转进行数据增强;
(3)将可见光图像输入到一个参数不共享的卷积模块(Head1),得到的特征图作为共享主干网络(Backbone)的输入,再经过一个全局平均池化,将可见光图像映射到一个共享的特征空间,对于每一张可见光图像,得到对应的2048维度的特征向量;
(4)将红外图像输入到一个参数不共享的卷积模块(Head2),得到的特征图作为共享主干网络(Backbone)的输入,再经过一个全局平均池化,将红外图像映射到一个共享的特征空间,对于每一张红外图像,得到对应的2048维度的特征向量。将不同模态强行映射到同一个特征空间会不可避免的导致巨大模态内差异和模态间差异,接下来通过对特征空间中的特征向量施加约束进行优化,增强特征的判别性,从而提高跨模态行人充实别的性能;
(5)对于模型的整个训练过程中,使用常用的交叉熵损失LID和三元组对比损失LT对模型提取的特征进行判别性约束。
(6)对于模态内差异,借助每个类的原型特征具有特征代表性的特点,再结合自模仿的核心思想,进而对共享特征空间中所有样本进行第一阶段的特征配准。第一阶段的特征配准主要包括以下三个主要步骤:i.获取上一次迭代中每个ID的原型特征;ii.在当前迭代中,拉近每个ID的所有样本与之对应原型特征的距离;iii.随着网络的每一次训练迭代结束之后,对每个ID的原型特征进行更新。
(7)第一阶段训练迭代T1次后,当前共享特征空间中,每个ID的样本点较配准之前更为聚拢,也就是同一模态同一ID的样本具有一定的高阶语义一致性。通过第一阶段的配准后,模态内的差异可以得到有效的缓解,进而在此基础上,进行第二阶段的特征配准。利用互蒸馏的思想:来自两个不同模态,同一ID的所有样本互相学习彼此的特征分布,从而减小模态间的特征差异。
(8)经过两阶段的特征配准后,模型对不同模态图片的特征表达能力大大提升,在测试阶段,利用模型编码后的特征进行跨模态检索(用红外图像去检索匹配同ID的可见光图像,或可见光图像去检索匹配同ID红外图像),即计算特征之间的相似度矩阵;
(9)根据计算得到的相似度矩阵,根据行人重识别的评价指标算得Top-K(K=1,10,20) 和平均检索精度(mAP)。
在步骤(6)中,所述利用自模仿的核心思想进行第一阶段的特征配准:
(6.1)对于行人ID为p的所有可见光图像和红外图像,经过要求1中的步骤(3)(4)之后得到对应的特征,
Figure RE-GDA0003033056670000061
Figure RE-GDA0003033056670000062
分别表示行人ID为p的所有可见光图像和红外图像经过编码得到的所有特征集合。其中Np和Mp分别表示行人ID为p的可见光图像样本总数和红外图像样本总数。对于
Figure RE-GDA0003033056670000063
Figure RE-GDA0003033056670000064
用如下式子分别计算两个特征集合的中心
Figure RE-GDA0003033056670000065
Figure RE-GDA0003033056670000066
作为行人ID为p的所有样本的原型特征:
Figure RE-GDA0003033056670000067
Figure RE-GDA0003033056670000068
(6.2)固定第t-1(t>1)次迭代产生的原型特征
Figure RE-GDA0003033056670000069
Figure RE-GDA00030330566700000610
通过缩小所有ID为p的图像样本与之模态对于的原型特征距离来达到模态内特征配准的目的,在此采用欧式距离作为距离度量方式。在第t次迭代中,对于每个ID的可见光模态图像和红外模态图像,都进行同样的特征配准操作,自模仿训练优化的损失函数如下:
Figure RE-GDA00030330566700000611
(6.3)第t次迭代结束后,利用步骤(6.1)中计算当前每个ID的原型特征
Figure RE-GDA00030330566700000612
Figure RE-GDA00030330566700000613
重复步骤(6.2),直至训练结束。
在步骤(7)中,所述利用互蒸馏的思想进行第二阶段的特征配准:
(7.1)度量当前模型相同ID不同模态的所有样本的分布差异,在此使用最大均值差异 (Maximum Mean Discrepancy)来衡量两个不同但相关的分布的距离,Maximum MeanDiscrepancy(MMD)的具体计算公式如下所示:
Figure RE-GDA00030330566700000614
其中
Figure RE-GDA0003033056670000071
表示高斯核函数。
(7.2)在每个批次的训练过程中,随机采样n对可见光图像和红外图像,分别表示为
Figure RE-GDA0003033056670000072
Figure RE-GDA0003033056670000073
根据互蒸馏的思想:来自两个不同模态,同一ID的所有样本互相学习彼此的特征分布,达到减小模态间特征分布差异的目的。故互蒸馏损失计算如下:
Figure RE-GDA0003033056670000074
通过优化互蒸馏损失,可以拉近不同模态相同ID的样本分布,从而有效减小模态间的特征差异。
如图1,本发明实施例的方法框架如下:
步骤1,获取模型的输入图像。
对数据集进行采样,每个批次中每个模态选取八种不同ID的行人图片,每种ID分别选取四张可见光图像和四张红外图像作为当前批次的网络输入。
对输入图片进行归一化,随机裁剪至指定大小(288*144),采用随机翻转进行数据增强。
步骤2,得到模型输出的特征向量。
(2a)将可见光图像输入一个参数不共享的卷积模块(Head1),得到的特征图作为共享主干网络(Backbone)的输入,再经过一个全局平均池化,将可见光图像映射到一个共享的特征空间,对于每一张可见光图像,得到对应的2048维度的特征向量;
(2b)将红外图像输入一个参数不共享的卷积模块(Head2),得到的特征图作为共享主干网络(Backbone)的输入,再经过一个全局平均池化,将红外图像映射到一个共享的特征空间,对于每一张红外图像,得到对应的2048维度的特征向量;
步骤3,对图像特征进行约束,进行两阶段训练。
(3a)使用常用的交叉熵损失LID和三元组对比损失LT对模型提取的特征进行判别性约束;
(3b)第一阶段的特征配准主要包括以下三个主要步骤:i.获取上一次迭代中每个ID的原型特征;ii.在当前迭代中,拉近每个ID的所有样本与之对应原型特征的距离;iii.随着网络的每一次训练迭代结束之后,对每个ID的原型特征进行更新;
(3c)第二阶段的特征配准主要利用互蒸馏的思想,使来自两个不同模态,同一ID的所有样本互相学习彼此的特征分布,从而减小模态间的特征差异。
实验结果以及结果分析:
实验1,用本发明在SYSU-MM01数据集上进行跨模态行人重识别。
为了验证算法的有效性,在SYSU-MM01的测试集上,进行消融实验,表1为实验结果。其中,‘SM’表示自模仿损失LSM,‘MD’表示互蒸馏损失LMD,‘√’和‘×’表示分别表示使用和不使用对应项的损失,‘R1’,‘R10’,‘R20’和‘mAP’分别表示Rank-1,Rank-10, Rank-20和平均检索精度。实验结果表明,本发明所提出的两种损失分别对跨模态行人重识别任务上,都有较大程度的性能提升,验证了两阶段配准的有效性。
实验2,用本发明在RegDB数据集上进行跨模态行人重识别。
为了验证算法的有效性,在RegDB的数据集上进行两种模式的测试:用红外图像去检索匹配同ID的可见光图像(Visible2thermal)以及用可见光图像去检索匹配同ID红外图像 (Thermal2visible)。表2为实验结果,从结果可以发现,本发明提出的基于自模仿互蒸馏的跨模态行人重识别方法在RegDB数据集上同样获得了卓越的性能提升。
表1
Index SM MD R1 R10 R20 mAP
1 × × 51.0 86.3 93.5 49.8
2 × 55.7 91.0 96.3 54.5
3 × 57.2 90.7 96.2 54.0
4 58.3 92.2 96.9 56.4
表2
Figure RE-GDA0003033056670000081
本发明通过设计两阶段特征配准方法,提升跨模态行人重识别的性能。其两阶段的特征配准包括:1)模态内的特征配准:以一种自模拟的学习方式获取每个行人类别的原型特征,通过提高该类别所有样本与原型特征的相似度来实现模态内的特征配准;2)模态间的特征配准:经过第一阶段模态内的特征配准后,采用互蒸馏的学习方法,减小同类别不同模态的样本分布的差异。
实验表明,本发明在现有的两个跨模态行人重识别数据集上都有显著的性能优势,超越了当前学术领域的最高水平,验证本发明提出的两阶段特征配准方法的有效性。

Claims (6)

1.基于自模仿互蒸馏的跨模态行人重识别方法,其特征在于包括以下步骤:
1)对跨模态数据集进行采样,所述跨模态数据集包含可见光图像集和红外图像集,每个批次中每个模态选取不同ID的行人图片,每种ID分别选取若干张可见光图像和红外图像作为当前批次的网络输入;
2)对输入图片进行归一化,随机裁剪至指定大小并进行数据增强;
3)将可见光图像输入到一个参数不共享的卷积模块,得到的特征图作为共享主干网络的输入,再经过一个全局平均池化,将可见光图像映射到一个共享的特征空间,对于每一张可见光图像,得到对应的2048维度的特征向量;
4)将红外图像输入到另一个参数不共享的卷积模块,得到的特征图作为共享主干网络的输入,再经过一个全局平均池化,将红外图像映射到一个共享的特征空间,对于每一张红外图像,得到对应的2048维度的特征向量;通过对特征空间中的特征向量施加约束进行优化,增强特征的判别性,从而提高跨模态行人充实别的性能;
5)对于模型的整个训练过程中,使用常用的交叉熵损失和三元组对比损失对模型提取的特征进行判别性约束;
6)对于模态内差异,借助每个类的原型特征具有特征代表性的特点,再结合自模仿的核心思想,进而对共享特征空间中所有样本进行第一阶段的特征配准;
7)利用互蒸馏的思想进行第二阶段的特征配准:来自两个不同模态,同一ID的所有样本互相学习彼此的特征分布,从而减小模态间的特征差异;
所述利用互蒸馏的思想进行第二阶段的特征配准的具体步骤为:
(7.1)度量当前模型相同ID不同模态的所有样本的分布差异,在此使用最大均值差异来衡量两个不同但相关的分布的距离,最大均值差异的具体计算公式如下:
Figure FDA0003559986380000011
其中,
Figure FDA0003559986380000012
表示高斯核函数;
(7.2)在每个批次的训练过程中,随机采样n对可见光图像和红外图像,分别表示为
Figure FDA0003559986380000021
Figure FDA0003559986380000022
根据互蒸馏的思想:来自两个不同模态,同一ID的所有样本互相学习彼此的特征分布,以减小模态间特征分布差异;故互蒸馏损失计算如下:
Figure FDA0003559986380000023
通过优化互蒸馏损失,拉近不同模态相同ID的样本分布,减小模态间的特征差异;
8)在测试阶段,利用模型编码后的特征进行跨模态检索,即计算特征之间的相似度矩阵;
9)根据计算得到的相似度矩阵,根据行人重识别的评价指标算得Top-K和平均检索精度;其中,K=1,10,20。
2.如权利要求1所述基于自模仿互蒸馏的跨模态行人重识别方法,其特征在于在步骤1)中,所述可见光图像集
Figure FDA0003559986380000024
红外图像集
Figure FDA0003559986380000025
其中,p表示行人的身份标签ID,Np和Mp分别表示可见光图像样本总数和红外图像样本总数。
3.如权利要求1所述基于自模仿互蒸馏的跨模态行人重识别方法,其特征在于在步骤2)中,所述进行数据增强可采用随机翻转操作进行数据增强。
4.如权利要求1所述基于自模仿互蒸馏的跨模态行人重识别方法,其特征在于在步骤6)中,所述第一阶段的特征配准主要包括以下三个步骤:i.获取上一次迭代中每个ID的原型特征;ii.在当前迭代中,拉近每个ID的所有样本与之对应原型特征的距离;iii.随着网络的每一次训练迭代结束之后,对每个ID的原型特征进行更新。
5.如权利要求1所述基于自模仿互蒸馏的跨模态行人重识别方法,其特征在于在步骤6)中,所述对共享特征空间中所有样本进行第一阶段的特征配准的具体步骤为:
(6.1)对于行人ID为p的所有可见光图像和红外图像,经过步骤3)和4)之后得到对应的特征,
Figure FDA0003559986380000026
Figure FDA0003559986380000027
分别表示行人ID为p的所有可见光图像和红外图像经过编码得到的所有特征集合;其中Np和Mp分别表示行人ID为p的可见光图像样本总数和红外图像样本总数;对于
Figure FDA0003559986380000028
Figure FDA0003559986380000029
用下式分别计算两个特征集合的中心
Figure FDA00035599863800000210
Figure FDA00035599863800000211
作为行人ID为p的所有样本的原型特征:
Figure FDA00035599863800000212
Figure FDA00035599863800000213
(6.2)固定第t-1次迭代产生的原型特征
Figure FDA00035599863800000214
Figure FDA00035599863800000215
通过缩小所有ID为p的图像样本与之模态对于的原型特征距离来达到模态内特征配准的目的,采用欧式距离作为距离度量方式,t>1;在第t次迭代中,对于每个ID的可见光模态图像和红外模态图像,都进行同样的特征配准操作,自模仿训练优化的损失函数如下:
Figure FDA0003559986380000031
(6.3)第t次迭代结束后,利用步骤(6.1)中计算当前每个ID的原型特征
Figure FDA0003559986380000032
Figure FDA0003559986380000033
重复步骤(6.2),直至训练结束。
6.如权利要求1所述基于自模仿互蒸馏的跨模态行人重识别方法,其特征在于在步骤8)中,所述利用模型编码后的特征进行跨模态检索是用红外图像去检索匹配同ID的可见光图像,或可见光图像去检索匹配同ID红外图像。
CN202110212898.9A 2021-02-25 2021-02-25 基于自模仿互蒸馏的跨模态行人重识别方法 Active CN112926451B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110212898.9A CN112926451B (zh) 2021-02-25 2021-02-25 基于自模仿互蒸馏的跨模态行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110212898.9A CN112926451B (zh) 2021-02-25 2021-02-25 基于自模仿互蒸馏的跨模态行人重识别方法

Publications (2)

Publication Number Publication Date
CN112926451A CN112926451A (zh) 2021-06-08
CN112926451B true CN112926451B (zh) 2022-05-03

Family

ID=76171978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110212898.9A Active CN112926451B (zh) 2021-02-25 2021-02-25 基于自模仿互蒸馏的跨模态行人重识别方法

Country Status (1)

Country Link
CN (1) CN112926451B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569639B (zh) * 2021-06-25 2023-07-25 湖南大学 一种基于样本中心损失函数的跨模态行人重识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598654A (zh) * 2019-09-18 2019-12-20 合肥工业大学 多粒度交叉模态特征融合行人再识别方法和再识别系统
CN110909605A (zh) * 2019-10-24 2020-03-24 西北工业大学 基于对比相关的跨模态行人重识别方法
CN111325115A (zh) * 2020-02-05 2020-06-23 山东师范大学 带有三重约束损失的对抗跨模态行人重识别方法和系统
CN111539255A (zh) * 2020-03-27 2020-08-14 中国矿业大学 基于多模态图像风格转换的跨模态行人重识别方法
CN111898510A (zh) * 2020-07-23 2020-11-06 合肥工业大学 一种基于渐进式神经网络的跨模态行人再识别方法
CN111931637A (zh) * 2020-08-07 2020-11-13 华南理工大学 基于双流卷积神经网络的跨模态行人重识别方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9830506B2 (en) * 2015-11-09 2017-11-28 The United States Of America As Represented By The Secretary Of The Army Method of apparatus for cross-modal face matching using polarimetric image data

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598654A (zh) * 2019-09-18 2019-12-20 合肥工业大学 多粒度交叉模态特征融合行人再识别方法和再识别系统
CN110909605A (zh) * 2019-10-24 2020-03-24 西北工业大学 基于对比相关的跨模态行人重识别方法
CN111325115A (zh) * 2020-02-05 2020-06-23 山东师范大学 带有三重约束损失的对抗跨模态行人重识别方法和系统
CN111539255A (zh) * 2020-03-27 2020-08-14 中国矿业大学 基于多模态图像风格转换的跨模态行人重识别方法
CN111898510A (zh) * 2020-07-23 2020-11-06 合肥工业大学 一种基于渐进式神经网络的跨模态行人再识别方法
CN111931637A (zh) * 2020-08-07 2020-11-13 华南理工大学 基于双流卷积神经网络的跨模态行人重识别方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Ranked List Loss for Deep Metric Learning;Xinshao Wang et al.;《2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20200109;第5202-5210页 *
RGB-Infrared Cross-Modality Person Re-Identification via Joint Pixel and Feature Alignment;Guan"an Wang et al.;《2019 IEEE/CVF International Conference on Computer Vision (ICCV)》;20200227;第3622-3631页 *
跨模态异构行人再识别的研究进展;孙锐 等;《模式识别与人工智能》;20201215;第33卷(第12期);第1066-1082页 *

Also Published As

Publication number Publication date
CN112926451A (zh) 2021-06-08

Similar Documents

Publication Publication Date Title
CN113657349B (zh) 一种基于多尺度时空图卷积神经网络的人体行为识别方法
CN111723675B (zh) 基于多重相似性度量深度学习的遥感图像场景分类方法
CN105138973B (zh) 人脸认证的方法和装置
CN111079847B (zh) 一种基于深度学习的遥感影像自动标注方法
CN110929080B (zh) 基于注意力和生成对抗网络的光学遥感图像检索方法
CN110321830A (zh) 一种基于神经网络的中文字符串图片ocr识别方法
CN112949740B (zh) 一种基于多级度量的小样本图像分类方法
CN112800876A (zh) 一种用于重识别的超球面特征嵌入方法及系统
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
CN113628059A (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
CN112733602B (zh) 关系引导的行人属性识别方法
CN110349170B (zh) 一种全连接crf级联fcn和k均值脑肿瘤分割算法
CN108733801A (zh) 一种面向数字人文的移动视觉检索方法
CN113920472A (zh) 一种基于注意力机制的无监督目标重识别方法及系统
CN114219824A (zh) 基于深度网络的可见光-红外目标跟踪方法及系统
CN109190521A (zh) 一种基于知识提纯的人脸识别模型的构建方法及应用
CN111476310A (zh) 一种图像分类方法、装置及设备
CN108805280B (zh) 一种图像检索的方法和装置
CN116524189A (zh) 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法
CN115937693A (zh) 一种基于遥感图像的道路识别方法及系统
CN112926451B (zh) 基于自模仿互蒸馏的跨模态行人重识别方法
CN115761888A (zh) 基于nl-c3d模型的塔吊操作人员异常行为检测方法
CN109993070B (zh) 一种基于全局距离尺度损失函数的行人再识别方法
CN113011506B (zh) 一种基于深度重分形频谱网络的纹理图像分类方法
CN109241315A (zh) 一种基于深度学习的快速人脸检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant