CN112926451B

CN112926451B - 基于自模仿互蒸馏的跨模态行人重识别方法

Info

Publication number: CN112926451B
Application number: CN202110212898.9A
Authority: CN
Inventors: 曲延云; 张德茂; 洪铭
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2022-05-03
Anticipated expiration: 2041-02-25
Also published as: CN112926451A

Abstract

基于自模仿互蒸馏的跨模态行人重识别方法，涉及图像处理领域。针对现有的一阶段特征配准方法忽略了模态内和模态间的特征分布差异的不足，提出两阶段的特征配准方法，提升跨模态行人重识别的性能。其两阶段的特征配准包括：1)模态内的特征配准：以一种自模拟的学习方式获取每个行人类别的原型特征，通过提高该类别所有样本与原型特征的相似度来实现模态内的特征配准；2)模态间的特征配准：采用互蒸馏的学习方法，减小同类别不同模态的样本分布的差异。提升特征的判别性。使得来自两个不同模态，同一ID的所有样本互相学习彼此的特征分布，从而减小模态间特征差异。可用于智能视频监控、行人追踪和行为分析，智能安防等。

Description

基于自模仿互蒸馏的跨模态行人重识别方法

技术领域

本发明涉及图像处理领域，尤其是涉及可用于智能视频监控、行人追踪和行为分析、智能安防等的基于自模仿互蒸馏的跨模态行人重识别方法。

背景技术

跨模态行人重识别因为其应用前景以及实际应用价值，近年来受到广泛的关注，并涌现出了许多优秀的算法。这些算法大致可以分为三大类：基于特征配准的跨模态行人重识别算法、基于图像生成的跨模态行人重识别算法和基于度量学习的跨模态行人重识别算法。相比其他两类算法，基于特征配准的跨模态行人重识别算法受到的关注度较高。它通过将可见光图像和红外图像映射到同一个特征空间，通过注意力图配准，引入额外模块进行图像级别或者像素级别配准等方式，实现减小跨模态差异的目标。这类方法除了增加模型复杂度的同时，忽略了模态内的冗余信息对跨模态行人检索精度的影响，仅是通过直接进行一个阶段的特征配准，不能有效缓解模态间差异对性能提升的阻碍。

知识蒸馏被广泛的用于模型压缩和迁移学习当中，其中自蒸馏和互蒸馏是知识蒸馏领域中两个很重要的分支。自蒸馏是一种模仿模型自身在不同训练阶段输出的一种学习策略，而互蒸馏是指采用多个网络(2个或更多)同时进行训练，每个网络在训练过程中不仅接受来自真值标记的监督，还参考同伴网络的学习经验来进一步提升泛化能力。在整个过程中，两个网络之间不断分享学习经验，实现互相学习共同进步。本发明根据自蒸馏的核心思想，通过学习模仿先前模型学习到的原型特征，减少高阶语义特征的冗余信息，使得学习到的特征更具有代表性。利用互蒸馏的思想，来自不同模态相同ID的样本，通过互相拟合彼此的特征分布，使得模态间的特征差异大大减小。

中国专利CN112016401A公开一种基于跨模态行人重识别方法，所述方法包括：通过将带有身份标识的行人图像输入跨模态特征提取模型中，确定带有身份标识的行人图像的跨模态泛化特征、红外单模态泛化特征和可见光单模态泛化特征，并计算待进行跨模态行人重识别的图像特征，与跨模态泛化特征、红外单模态泛化特征和可见光单模态泛化特征的相似度，进行行人重识别。

发明内容

本发明的目的在于提供可实现可见光图像和红外图像的跨模态行人重识别，在减少模态内冗余信息的同时，缩小不同模态间的分布差异，得到强判别性特征的基于自模仿互蒸馏的跨模态行人重识别方法。

本发明包括以下步骤：

1)对跨模态数据集进行采样，所述跨模态数据集包含可见光图像集和红外图像集，每个批次中每个模态选取不同ID的行人图片，每种ID分别选取若干张可见光图像和红外图像作为当前批次的网络输入；

2)对输入图片进行归一化，随机裁剪至指定大小并进行数据增强；

3)将可见光图像输入到一个参数不共享的卷积模块，得到的特征图作为共享主干网络的输入，再经过一个全局平均池化，将可见光图像映射到一个共享的特征空间，对于每一张可见光图像，得到对应的2048维度的特征向量；

4)将红外图像输入到另一个参数不共享的卷积模块，得到的特征图作为共享主干网络的输入，再经过一个全局平均池化，将红外图像映射到一个共享的特征空间，对于每一张红外图像，得到对应的2048维度的特征向量；通过对特征空间中的特征向量施加约束进行优化，增强特征的判别性，从而提高跨模态行人充实别的性能；

5)对于模型的整个训练过程中，使用常用的交叉熵损失和三元组对比损失对模型提取的特征进行判别性约束。

6)对于模态内差异，借助每个类的原型特征具有特征代表性的特点，再结合自模仿的核心思想，进而对共享特征空间中所有样本进行第一阶段的特征配准；

7)利用互蒸馏的思想进行第二阶段的特征配准：来自两个不同模态，同一ID的所有样本互相学习彼此的特征分布，从而减小模态间的特征差异；

8)在测试阶段，利用模型编码后的特征进行跨模态检索，即计算特征之间的相似度矩阵；

在步骤8)中，所述利用模型编码后的特征进行跨模态检索是用红外图像去检索匹配同ID 的可见光图像，或可见光图像去检索匹配同ID红外图像。

9)根据计算得到的相似度矩阵，根据行人重识别的评价指标算得Top-K(K＝1,10,20) 和平均检索精度(mAP)。

在步骤1)中，所述可见光图像集

红外图像集

其中p表示行人的身份标签(ID)，N_p和M_p分别表示可见光图像样本总数和红外图像样本总数。

在步骤2)中，所述进行数据增强可采用随机翻转操作进行数据增强。

在步骤6)中，所述第一阶段的特征配准主要包括以下三个步骤：i.获取上一次迭代中每个ID的原型特征；ii.在当前迭代中，拉近每个ID的所有样本与之对应原型特征的距离；iii. 随着网络的每一次训练迭代结束之后，对每个ID的原型特征进行更新。

在步骤6)中，所述对共享特征空间中所有样本进行第一阶段的特征配准的具体步骤可为：

(6.1)对于行人ID为p的所有可见光图像和红外图像，经过步骤3)和4)之后得到对应的特征，

和

分别表示行人ID为p的所有可见光图像和红外图像经过编码得到的所有特征集合；其中N_p和M_p分别表示行人ID为p的可见光图像样本总数和红外图像样本总数；对于

和

用下式分别计算两个特征集合的中心

和

作为行人ID为p的所有样本的原型特征：

(6.2)固定第t-1(t>1)次迭代产生的原型特征

和

通过缩小所有ID为p的图像样本与之模态对于的原型特征距离来达到模态内特征配准的目的，采用欧式距离作为距离度量方式；在第t次迭代中，对于每个ID的可见光模态图像和红外模态图像，都进行同样的特征配准操作，自模仿训练优化的损失函数如下：

(6.3)第t次迭代结束后，利用步骤(6.1)中计算当前每个ID的原型特征

和

重复步骤(6.2)，直至训练结束。

在步骤7)中，所述利用互蒸馏的思想进行第二阶段的特征配准的具体步骤可为：

(7.1)度量当前模型相同ID不同模态的所有样本的分布差异，在此使用最大均值差异 (Maximum Mean Discrepancy)来衡量两个不同但相关的分布的距离，Maximum MeanDiscrepancy(MMD)的具体计算公式如下：

其中，

表示高斯核函数。

(7.2)在每个批次的训练过程中，随机采样n对可见光图像和红外图像，分别表示为

和

根据互蒸馏的思想：来自两个不同模态，同一ID的所有样本互相学习彼此的特征分布，达到减小模态间特征分布差异的目的；故互蒸馏损失计算如下：

通过优化互蒸馏损失，可以拉近不同模态相同ID的样本分布，从而有效减小模态间的特征差异。

本发明针对现有的一阶段特征配准方法忽略了模态内和模态间的特征分布差异的不足，通过设计两阶段特征配准方法，提升跨模态行人重识别的性能。本发明两阶段的特征配准包括：1)模态内的特征配准：以一种自模拟的学习方式获取每个行人类别的原型特征，通过提高该类别所有样本与原型特征的相似度来实现模态内的特征配准；2)模态间的特征配准：经过第一阶段模态内的特征配准后，采用互蒸馏的学习方法，减小同类别不同模态的样本分布的差异。

与现有技术相比，本发明具有以下突出优点：

1.本发明首先提出两阶段的特征配准方法。考虑到模态内存在冗余信息，先通过第一阶段的模态内特征配准方法，使得特征空间中相同模态相同ID的特征更具有相似性；接着进行第二阶段的模态间特征配准，使得特征空间中不同模态相同ID的特征分布差异大大减小。

2.巧妙利用自蒸馏的核心思想，通过模仿早期学习到的每个类的原型特征，来提升特征的判别性。

3.结合互蒸馏的方法，使得来自两个不同模态，同一ID的所有样本互相学习彼此的特征分布，从而减小模态间的特征差异。

4.本发明可用于智能视频监控、行人追踪和行为分析，智能安防等。

附图说明

图1是本发明的基于自模仿互蒸馏的跨模态行人重识别方法框架。

具体实施方式

以下实施例将结合附图对本发明作进一步的说明。

本发明实施例包括以下步骤：

(1)跨模态数据集包含可见光图像集

和红外图像集

其中p表示行人的身份标签(ID)，N_p和M_p分别表示可见光图像样本总数和红外图像样本总数。对数据集进行采样，每个批次中每个模态选取八种不同ID的行人图片，每种ID分别选取四张可见光图像和四张红外图像作为当前批次的网络输入；

(2)对输入图片进行归一化，随机裁剪至指定大小(288*144)，采用随机翻转进行数据增强；

(3)将可见光图像输入到一个参数不共享的卷积模块(Head1)，得到的特征图作为共享主干网络(Backbone)的输入，再经过一个全局平均池化，将可见光图像映射到一个共享的特征空间，对于每一张可见光图像，得到对应的2048维度的特征向量；

(4)将红外图像输入到一个参数不共享的卷积模块(Head2)，得到的特征图作为共享主干网络(Backbone)的输入，再经过一个全局平均池化，将红外图像映射到一个共享的特征空间，对于每一张红外图像，得到对应的2048维度的特征向量。将不同模态强行映射到同一个特征空间会不可避免的导致巨大模态内差异和模态间差异，接下来通过对特征空间中的特征向量施加约束进行优化，增强特征的判别性，从而提高跨模态行人充实别的性能；

(5)对于模型的整个训练过程中，使用常用的交叉熵损失L_ID和三元组对比损失L_T对模型提取的特征进行判别性约束。

(6)对于模态内差异，借助每个类的原型特征具有特征代表性的特点，再结合自模仿的核心思想，进而对共享特征空间中所有样本进行第一阶段的特征配准。第一阶段的特征配准主要包括以下三个主要步骤：i.获取上一次迭代中每个ID的原型特征；ii.在当前迭代中，拉近每个ID的所有样本与之对应原型特征的距离；iii.随着网络的每一次训练迭代结束之后，对每个ID的原型特征进行更新。

(7)第一阶段训练迭代T₁次后，当前共享特征空间中，每个ID的样本点较配准之前更为聚拢，也就是同一模态同一ID的样本具有一定的高阶语义一致性。通过第一阶段的配准后，模态内的差异可以得到有效的缓解，进而在此基础上，进行第二阶段的特征配准。利用互蒸馏的思想：来自两个不同模态，同一ID的所有样本互相学习彼此的特征分布，从而减小模态间的特征差异。

(8)经过两阶段的特征配准后，模型对不同模态图片的特征表达能力大大提升，在测试阶段，利用模型编码后的特征进行跨模态检索(用红外图像去检索匹配同ID的可见光图像，或可见光图像去检索匹配同ID红外图像)，即计算特征之间的相似度矩阵；

(9)根据计算得到的相似度矩阵，根据行人重识别的评价指标算得Top-K(K＝1,10,20) 和平均检索精度(mAP)。

在步骤(6)中，所述利用自模仿的核心思想进行第一阶段的特征配准：

(6.1)对于行人ID为p的所有可见光图像和红外图像，经过要求1中的步骤(3)(4)之后得到对应的特征，

和

分别表示行人ID为p的所有可见光图像和红外图像经过编码得到的所有特征集合。其中N_p和M_p分别表示行人ID为p的可见光图像样本总数和红外图像样本总数。对于

和

用如下式子分别计算两个特征集合的中心

和

作为行人ID为p的所有样本的原型特征：

(6.2)固定第t-1(t>1)次迭代产生的原型特征

和

通过缩小所有ID为p的图像样本与之模态对于的原型特征距离来达到模态内特征配准的目的，在此采用欧式距离作为距离度量方式。在第t次迭代中，对于每个ID的可见光模态图像和红外模态图像，都进行同样的特征配准操作，自模仿训练优化的损失函数如下：

和

重复步骤(6.2)，直至训练结束。

在步骤(7)中，所述利用互蒸馏的思想进行第二阶段的特征配准：

(7.1)度量当前模型相同ID不同模态的所有样本的分布差异，在此使用最大均值差异 (Maximum Mean Discrepancy)来衡量两个不同但相关的分布的距离，Maximum MeanDiscrepancy(MMD)的具体计算公式如下所示：

其中

表示高斯核函数。

和

根据互蒸馏的思想：来自两个不同模态，同一ID的所有样本互相学习彼此的特征分布，达到减小模态间特征分布差异的目的。故互蒸馏损失计算如下：

如图1，本发明实施例的方法框架如下：

步骤1，获取模型的输入图像。

对数据集进行采样，每个批次中每个模态选取八种不同ID的行人图片，每种ID分别选取四张可见光图像和四张红外图像作为当前批次的网络输入。

对输入图片进行归一化，随机裁剪至指定大小(288*144)，采用随机翻转进行数据增强。

步骤2，得到模型输出的特征向量。

(2a)将可见光图像输入一个参数不共享的卷积模块(Head1)，得到的特征图作为共享主干网络(Backbone)的输入，再经过一个全局平均池化，将可见光图像映射到一个共享的特征空间，对于每一张可见光图像，得到对应的2048维度的特征向量；

(2b)将红外图像输入一个参数不共享的卷积模块(Head2)，得到的特征图作为共享主干网络(Backbone)的输入，再经过一个全局平均池化，将红外图像映射到一个共享的特征空间，对于每一张红外图像，得到对应的2048维度的特征向量；

步骤3，对图像特征进行约束，进行两阶段训练。

(3a)使用常用的交叉熵损失L_ID和三元组对比损失L_T对模型提取的特征进行判别性约束；

(3b)第一阶段的特征配准主要包括以下三个主要步骤：i.获取上一次迭代中每个ID的原型特征；ii.在当前迭代中，拉近每个ID的所有样本与之对应原型特征的距离；iii.随着网络的每一次训练迭代结束之后，对每个ID的原型特征进行更新；

(3c)第二阶段的特征配准主要利用互蒸馏的思想，使来自两个不同模态，同一ID的所有样本互相学习彼此的特征分布，从而减小模态间的特征差异。

实验结果以及结果分析：

实验1，用本发明在SYSU-MM01数据集上进行跨模态行人重识别。

为了验证算法的有效性，在SYSU-MM01的测试集上，进行消融实验，表1为实验结果。其中，‘SM’表示自模仿损失L_SM，‘MD’表示互蒸馏损失L_MD，‘√’和‘×’表示分别表示使用和不使用对应项的损失，‘R1’，‘R10’,‘R20’和‘mAP’分别表示Rank-1，Rank-10， Rank-20和平均检索精度。实验结果表明，本发明所提出的两种损失分别对跨模态行人重识别任务上，都有较大程度的性能提升，验证了两阶段配准的有效性。

实验2，用本发明在RegDB数据集上进行跨模态行人重识别。

为了验证算法的有效性，在RegDB的数据集上进行两种模式的测试：用红外图像去检索匹配同ID的可见光图像(Visible2thermal)以及用可见光图像去检索匹配同ID红外图像 (Thermal2visible)。表2为实验结果,从结果可以发现，本发明提出的基于自模仿互蒸馏的跨模态行人重识别方法在RegDB数据集上同样获得了卓越的性能提升。

表1

Index	SM	MD	R1	R10	R20	mAP
							1	×	×	51.0	86.3	93.5	49.8
2	√	×	55.7	91.0	96.3	54.5
							3	×	√	57.2	90.7	96.2	54.0
4	√	√	58.3	92.2	96.9	56.4

表2

本发明通过设计两阶段特征配准方法，提升跨模态行人重识别的性能。其两阶段的特征配准包括：1)模态内的特征配准：以一种自模拟的学习方式获取每个行人类别的原型特征，通过提高该类别所有样本与原型特征的相似度来实现模态内的特征配准；2)模态间的特征配准：经过第一阶段模态内的特征配准后，采用互蒸馏的学习方法，减小同类别不同模态的样本分布的差异。

实验表明，本发明在现有的两个跨模态行人重识别数据集上都有显著的性能优势，超越了当前学术领域的最高水平，验证本发明提出的两阶段特征配准方法的有效性。

Claims

1.基于自模仿互蒸馏的跨模态行人重识别方法，其特征在于包括以下步骤：

5)对于模型的整个训练过程中，使用常用的交叉熵损失和三元组对比损失对模型提取的特征进行判别性约束；

所述利用互蒸馏的思想进行第二阶段的特征配准的具体步骤为：

(7.1)度量当前模型相同ID不同模态的所有样本的分布差异，在此使用最大均值差异来衡量两个不同但相关的分布的距离，最大均值差异的具体计算公式如下：

其中，

表示高斯核函数；

和

根据互蒸馏的思想：来自两个不同模态，同一ID的所有样本互相学习彼此的特征分布，以减小模态间特征分布差异；故互蒸馏损失计算如下：

通过优化互蒸馏损失，拉近不同模态相同ID的样本分布，减小模态间的特征差异；

9)根据计算得到的相似度矩阵，根据行人重识别的评价指标算得Top-K和平均检索精度；其中，K＝1,10,20。

2.如权利要求1所述基于自模仿互蒸馏的跨模态行人重识别方法，其特征在于在步骤1)中，所述可见光图像集

红外图像集

其中，p表示行人的身份标签ID，N_p和M_p分别表示可见光图像样本总数和红外图像样本总数。

3.如权利要求1所述基于自模仿互蒸馏的跨模态行人重识别方法，其特征在于在步骤2)中，所述进行数据增强可采用随机翻转操作进行数据增强。

4.如权利要求1所述基于自模仿互蒸馏的跨模态行人重识别方法，其特征在于在步骤6)中，所述第一阶段的特征配准主要包括以下三个步骤：i.获取上一次迭代中每个ID的原型特征；ii.在当前迭代中，拉近每个ID的所有样本与之对应原型特征的距离；iii.随着网络的每一次训练迭代结束之后，对每个ID的原型特征进行更新。

5.如权利要求1所述基于自模仿互蒸馏的跨模态行人重识别方法，其特征在于在步骤6)中，所述对共享特征空间中所有样本进行第一阶段的特征配准的具体步骤为：