CN113283362B

CN113283362B - 一种跨模态的行人重识别方法

Info

Publication number: CN113283362B
Application number: CN202110623617.9A
Authority: CN
Inventors: 周玉; 李锐; 汪一; 孙彦景
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2024-03-22
Anticipated expiration: 2041-06-04
Also published as: CN113283362A

Abstract

本发明公开了一种跨模态的行人重识别方法，该方法首先构造与卷积神经网络最深层分类器具有相同结构的浅层分类器，然后使用最深层的分类器在多个维度上指导浅层分类器学习，通过这种方式，将来自深层的行人高级信息和数据集中的真实标签信息传递给浅层网络。随后，吸收了深层知识和真实标签信息的浅层网络提取的低层特征进一步促进较深层网络的高层特征学习，这样不断正向循环激励，推动网络学习有鉴别力的特征表示。该发明使用知识自蒸馏，网络模型充当自己的老师，不断正向推动，使模型能够提取到更具有鉴别力的特征表示，促进分类性能。

Description

一种跨模态的行人重识别方法

技术领域

本发明涉及行人重识别领域，更具体的说公开了一种跨模态的行人重识别方法。

背景技术

行人重识别是指给定一幅待查询人的图片，在不同摄像头采集的图像中通过人员匹配找出具有相同身份的人员。行人重识别较难的原因主要是由于姿势、穿着打扮、以及拍摄角度等不同造成的同一行人拍摄图像之间具有较大差异，而采集的不同行人的图像反而更相似。从而给身份识别带来了较大难度。由于行人重识别在智能视频监控和案件侦破等公共安全领域的广泛应用，大量学者致力于该问题的研究。现有的方法主要集中于可见光和可见光图像之间这种单模态内的行人重识别，即给定的待查询人员的图像是可见光形式，进行人员搜集的图像库里的图像也都是可见光形式。然而，由于可见光摄像头在光线比较弱，例如夜间的情况下很难铺捉到清晰人像，人们通常在夜间采用不太依赖光线的红外摄像头进行监控。因此，可见光和红外两种不同模态图像之间的跨模态行人身份重识别，引起广泛关注。即给定一种模态下的行人图像，从另一种模态图像中找到相同身份的行人图像。目前，可见光-红外这种跨模态行人重识别算法的进展远远落后于单模态的行人重识别。该项研究进展相对缓慢的原因在于其难度比单模态下的行人重识别更大。首先，最主要的是由于可见光和红外摄像机成像原理差异造成的模态差异。除此之外，还有如前所述的行人重识别问题共同存在的困难，即姿势、穿着打扮和拍摄角度等因素造成的模态内差异。

目前，针对可见光和红外图像的跨模态行人重识别方法已经有一些。这些方法主要从网络设计、度量学习和图像变换三个方面进行研究。其中，基于网络设计的方法旨在通过设计合适的深度学习网络来进行更好的特征表达，以实现更准确的识别。该类方法中，Wu等人首先建立了跨模态行人重识别图像数据库，然后提出了一种模态共享参数的单流网络结构。紧接着，多种单流结构的跨模态行人重识别算法被相继提出。然后，鉴于双流结构能够更好的进行模态专属信息和模态共享信息表达，又有学者提出了双流结构的跨模态行人重识别网络模型，即两个模态的图像对应网络结构的参数不共享。

例如，在现有文献《Hierarchical discriminative learning for visiblethermal person re-identification》中，模型的前半部分采用参数不共享的双流结构来提取模态专属信息，然后采用参数共享的全连接层将特征映射到同一空间中。

在现有文献《Enhancing the discriminative feature learning for visible-thermal cross-modality person re-identification》中，中级水平特征被融入到模态共享特征中以提升识别能力。鉴于设计合适的网络结构是一项耗时费力且收效不大的工作，而行人重识别在实际应用中往往对效率要求较高，所以该类方法的实用性较差。对于基于度量学习的方法，主要是通过设计好的损失函数，使得同一行人的特征距离更近，而不同行人的特征具体更远。目前，经典的损失函数包括异质中心损失、双模态三元组损失、难样本五元组损失等等。基于网络设计的方法和基于度量学习的方法均是从特征角度进行研究，以达到更准确的识别。而基于图像变化的行人重识别方法是从图像层面进行问题的处理，其主要思想是通过建立一个中间模态图像来减少可见光和红外两个模态之间的差异，以达到更准确识别的目的。现有的该类方法主要是借助生成对抗网络进行中间模态图像生成。这类方法比较典型的缺点是依赖现有图像生成算法的性能。现有方法的性能还有很大进步空间，还不能满足实际应用需求。

发明内容

针对上述技术问题，本发明提出一种跨模态的行人重识别方法，该方法采用教师指导学生学习的思想，即知识丰富的教师指导知识浅薄的学生学习。不同于其他方法教师和学生是两个不同的模型，本发明所提出的方法教师和学生是同一模型中的不同区域。该方法首先构造与卷积神经网络最深层分类器具有相同结构的浅层分类器，然后使用最深层的分类器在多个维度上指导浅层分类器学习，通过这种方式，将来自深层的行人高级信息和数据集中的真实标签信息传递给浅层网络。随后，吸收了深层知识和真实标签信息的浅层网络提取的低层特征进一步促进较深层网络的高层特征学习，这样不断正向循环激励，推动网络学习有鉴别力的特征表示。除此知识自蒸馏模块之外，在训练过程中，本方法还采用身份损失和全模态难样本挖掘三元组损失共同监督网络学习。最后，通过丰富的知识传递和反馈，本发明提出的跨模态行人重识别方法具有了更好的特征表示能力。

为了实现上述技术目的，本发明采用如下技术方案：

一种跨模态的行人重识别方法，包括以下步骤：

S1、在训练集中采用在线的随机批采样策略获取身份对应、数量相同的可见光图片和红外图片；

S2、构建包括部分参数共享的双主流主干网络和知识自蒸馏支路的跨模态行人重识别模型；

S3、将随机采样得到的可见光图片和红外图片分别输入模型进行训练，模型的深层网络作为教师指导浅层网络学习，进行知识自蒸馏，训练完成得到训练好的跨模态行人重识别模型；

S4、将待识别的行人图像根据模态输入训练好的跨模态行人重识别模型，得到待识别的行人图像特征；

S5、将待识别的行人图像特征与另一模态候选行人图像库中的行人图像特征进行相似度计算并排序，得到跨模态行人重识别结果。

所述步骤S2中采用Resnet50作为所述双流主干网络，Resnet 50包含5个Stage,Stage0-Stage4，将stage0作为特征提取部分，后面的4个Stage作为特征嵌入部分；

Stage0部分参数不共享，用于提取可见光模态和红外模态的模态专属信息；

两个模态的图片经过各自的stage0之后进入后面共享参数的网络中，参数共享的网络将前面网络提取出来的特征映射到同一特征子空间中。

所述步骤S3中在训练阶段，每一个位于浅层的知识自蒸馏支路都作为学生被最深层的教师网络指导训练，所述知识自蒸馏部分的损失为：

L_Dist＝αL_soft+βL_hard+γL_fea，

其中，α，β，γ是知识自蒸馏平衡参数；

L_soft：深层分类器和各浅层分类器之间的KL散度损失，其中，KL散度用来度量深层教师网络和浅层学生网络的Softmax输出，通过引入KL散度，将深层网络学习到的知识指导给浅层网络,使两者分布接近；

L_hard：来自真实标签的交叉熵损失监督，来自标签的交叉熵损失监督所有的浅层分类器，它度量训练数据集的真实标签和每个浅层分类器的Softmax输出之间的差异；

L_fea：深层分类器和各浅层分类器池化后的特征之间的L2损失，用来计算最深层的网络提取出来的特征与各浅层网络提取出来的特征之间的L2损失，通过引入L2损失，将深层网络特征图中隐藏的知识引入到浅层的网络中，用高级的特征指导低级的特征。

所述L_soft计算公式如下：

其中，

KL(p₀||p_j)表示计算最深层教师分类器p₀和各浅层学生分类器p_j的KL散度；

N表示训练时mini-batch中图片的数量，根据采用的在线采样策略，

N＝2×P×K；

M表示浅层学生分类器的总数，在本方法中其值等于3；

j＝{1,2,3}根据从小到大的顺序分别表示从浅到深的各浅层学生分类器，j＝0表示最深层的教师分类器；

p₀(i)和p_j(i)表示mini-batch中第i张图片最深层教师分类器和各浅层分类器的Softmax输出；

所述L_hard计算公式如下：

其中，

p_j(i)表示mini-batch中第i张图片经过各浅层学生网络和Softmax操作对应的训练集中所有身份预测逻辑分布；

q_j(i)表示该图片对应的真实标签分布；

所述L_fea计算公式如下：

其中，

f₀(i)表示mini-batch中第i张图片最深层教师网络特征图池化后的特征；

f_j(i)表示各浅层学生网络特征图池化后的特征；

表示L2损失。

所述步骤S3中随机采样采用在线的采样策略。

所述步骤S3中在训练过程中，采用身份损失和全模态难样本挖掘三元组损失共同监督网络学习。

所述身份损失的计算公式如下：

其中，p₀(i)表示第i张图片经过最深层网络和Softmax操作对应的训练集中所有身份预测逻辑分布；

q₀(i)表示该图片对应的真实标签分布。

所述全模态难样本挖掘三元组损失，计算公式如下：

其中，C∈{V,I}表示可见光模态和红外模态；

d(·)表示计算欧式距离；

分别表示可见光图片和红外图片中第t个行人的第a张图片经过深层网络池化后的特征；

表示可见光模态和红外模态中与/>同一行人的第p张图片的特征；

表示可见光模态和红外模态中与/>不同行人的第n张图片的特征，相应的，/>和/>对于/>有相同的意义；

m是一个阈值参数；

[X]₊表示取X和0之间的较大值。

有益效果：

第一.本发明提出了一种知识自蒸馏的跨模态行人重识别方法，通过使用知识自蒸馏，网络模型充当自己的老师，不断正向推动，使模型能够提取到更具有鉴别力的特征表示，促进分类性能。

第二.本发明在两个公开数据集上的大量实验显示，该方法能显著提高跨模态行人重识别的准确率，并优于现有方法。

附图说明

图1为本发明一种跨模态的行人重识别方法的流程图；

图2为本发明知识自蒸馏跨模态行人重识别网络模型图。

具体实施方式

1.知识自蒸馏：

本方法采用Resnet50作为神经网络的主干。Resnet 50包含5个Stage,Stage0-Stage4。我们将stage0作为特征提取部分，后面的4个Stage作为特征嵌入部分。Stage0部分参数不共享，用于提取可见光模态和红外模态的模态专属信息。两个模态的图片经过各自的stage0之后进入后面共享参数的网络中，参数共享的网络将前面网络提取出来的特征映射到同一特征子空间中。

本方法采用在线的采样策略。由于跨模态行人重识别中存在着两个模态，我们在每个mini-batch中随机采样P个行人类别，在每个行人类别中随机挑选K张可见光图片和K张红外图片，总共包含2PK张图片。PK张可见光图片和PK张红外图片根据模态分别输入我们双流网络结构中各个模态的支路。通过这样的采样方式，可以有效避免样本不平衡带来的扰动，同时由于随机采样机制，一个mini-batch训练的效果和整个训练集训练的效果一致。

Resnet50后面参数共享的4个stage，根据残差块别划分为4个部分，前面三个浅层的部分为学生，最深层的部分为教师。每一个浅层网络后面都跟随着一个知识自蒸馏支路(浅层分类器)，包含一个Bottleneck层,一个GeM(Generalized-mean pooling)池化层，一个BN(batch normalization)层，一个FC(fully connected)层和一个Softmax层。Bottleneck层用于调整特征图的大小和通道数与最深层保持一致。在训练阶段，每一个位于浅层的自蒸馏支路都作为学生被最深层的教师网络指导训练，从而达到知识蒸馏的目的，提高浅层网络的特征提取能力。在知识自蒸馏过程中，三个损失共同指导浅层网络学习。

1)L_soft：深层分类器和各浅层分类器之间的KL散度(Kullback-Leiblerdivergence)。KL散度用来度量深层教师网络和浅层学生网络的Softmax输出。通过引入KL散度，将深层网络学习到的知识指导给浅层网络,使两者分布接近。该损失计算方式如下：

其中，KL(p₀||p_j)表示计算最深层教师分类器p₀和各浅层学生分类器p_j的KL散度。N表示训练时mini-batch中图片的数量，根据采用的在线采样策略，N＝2×P×K。M表示浅层学生分类器的总数，在本方法中其值等于3。j＝{1,2,3}根据从小到大的顺序分别表示从浅到深的各浅层学生分类器。j＝0表示最深层的教师分类器。p₀(i)和p_j(i)表示mini-batch中第i张图片最深层教师分类器和各浅层分类器的Softmax输出。

2)L_hard：来自真实标签的交叉熵损失监督。来自标签的交叉熵损失监督所有的浅层分类器。它度量训练数据集的真实标签和每个浅层分类器的Softmax输出之间的差异。通过这种方式，利用标签中的真实分类信息监督浅层网络学习有鉴别力的类内共享特征表示，促进分类和重识别性能。该损失计算方式如下：

其中，p_j(i)表示mini-batch中第i张图片经过各浅层学生网络和Softmax操作对应的训练集中所有身份预测逻辑分布，q_j(i)表示该图片对应的真实标签分布。

3)L_fea：深层分类器和各浅层分类器池化后的特征之间的L2损失。用来计算最深层的网络提取出来的特征与各浅层网络提取出来的特征之间的L2损失。通过引入L2损失，将深层网络特征图中隐藏的知识引入到浅层的网络中，用高级的特征指导低级的特征。该损失计算方式如下：

其中，f₀(i)表示mini-batch中第i张图片最深层教师网络特征图池化后的特征。f_j(i)表示各浅层学生网络特征图池化后的特征。表示L2损失。

总结来说，关于知识自蒸馏部分的损失可以整合为：

L_Dist＝αL_soft+βL_hard+γL_fea， (4)

其中，α，β，γ是知识自蒸馏平衡参数。

2.多维损失监督：

除了知识自蒸馏部分的损失外，我们对于整个网络(深层网络)提取出来的特征分别利用身份损失和全模态难样本挖掘三元组损失进行监督，从而进一步促进重识别的性能。卷积神经网络输出的特征图经过池化后的2048维特征用于计算全模态难样本挖掘三元组损失，这些特征经过BN层、再经过FC层和Softmax层计算身份损失。

1)身份损失的计算公式如下：

其中，p₀(i)表示第i张图片经过最深层网络和Softmax操作对应的训练集中所有身份预测逻辑分布，q₀(i)表示该图片对应的真实标签分布。

2)全模态难样本挖掘三元组损失，计算公式如下：

其中，C∈{V,I}表示可见光模态和红外模态。d(·)表示计算欧式距离。分别表示可见光图片和红外图片中第t个行人的第a张图片经过深层网络池化后的特征。/>表示可见光模态和红外模态中与/>同一行人的第p张图片的特征。/>表示可见光模态和红外模态中与/>不同行人的第n张图片的特征。相应的，/>和/>对于/>有相同的意义。m是一个阈值参数。[X]₊表示取X和0之间的较大值。

综上，整个方法的损失函数:

L_Total＝L_Dist+L_Id+L_TrihardAm， (7)

利用损失函数监督模型完成训练，得到训练好的跨模态行人重识别模型。之后进行测试得到提出方法的跨模态重识别性能。

实验设置：

1.数据集

SYSU-MM01:一个大规模的数据集，由6个不同的相机，包括4个可见光相机和2个近红外相机拍摄，不仅包含室内环境还包含户外环境，总共有30071个可见光图片和15792个红外图片。训练集包含395个供训练的行人ID，包含22258个可见光和11909个近红外图片，图片在室内和室外环境都有拍摄。测试集中包含另外的95个供测试的行人ID，有着两种不同的评估设置。在每种设置中，查询集是相同的，包含由两个红外相机拍摄的3803个图片。在All-search模式中，库集包含由全部的4个可见光相机拍摄的所有的可见光图片。在Indoor-search模式中，库集只含有由2个室内可见光相机拍摄的可见光图片。相较来说，All-search模式比Indoor-search模式更加具有挑战性。我们遵从现存的方法按照single-shot setting的库集挑选方式进行10次实验,然后取平均检索性能。

RegDB数据集由双路的可见光相机和热成像相机同一时间拍摄的，共有412个行人身份，每个行人有10张可见光图片和10张热成像图片。412个行人被均等随机划分为训练集和测试集，每一个数据集包含206个行人且不重叠。在测试阶段，来自一个模态的图片作为库集，另一个模态的图片作为指针集，进行检索。测试10次，取平均值作为结果。

2.度量方法介绍

采用两个标准指标，即累积匹配曲线(CMC)和平均精度(mAP)。CMC-k：在排名前k的检索结果中出现正确匹配的概率。mAP：AP衡量的是对给定的测试数据集，分类器正确分类的样本数与总样本之比的值。而mAP则是对所有类别的AP求平均值。两个指标都是越高代表效果越好。

3.参数设置

对于全模态难样本挖掘三元组损失，设置阈值参数m＝0.3。对于在线的采样策略，在RegDB数据集上设置P＝8,K＝4,在SYSU-MM01数据集上，设置P＝4,K＝8。对于知识自蒸馏权衡参数，RegDB上设置α，β，γ分别为0.1,0.1,0.001，SYSU-MM01上设置α，β，γ分别为0.7,0.3,0.01。

实验结果与性能比较：

我们在两个公开数据集上RegDB和SYSU-MM01对比目前最先进的跨模态行人重识别方法。结果分别如表1和表2所示。

表格1本方法与其他先进方法在RegDB数据集上的性能对比

在数据集RegDB上，本发明提出的方法获得了巨大的性能提升。相比于现在的跨模态行人重识别算法我们的方法领先他们一大段距离。我们在所有的评价指标上都取得最高的表现。相较于目前性能较好的EDFL方法，Visible-Infrared检索模式下，rank-1和mAP分别提升了36.25％和32.89％，达到了88.83％和85.87％；Infrared-Visible检索模式下，rank-1和mAP分别提升了35.61％和32.38％，达到了87.50％和84.51％。

表格2本方法与其他先进方法在SYSU-MM01数据集上的性能对比

在数据集SYSU-MM01上的实验表明，本发明提出的的方法在各项性能指标上均达到目前领先水平。相较于目前性能较好的HC方法，在SYSU-MM01最难的All-search single-shot检索模式下rank-1和mAP分别提升了4.00％和3.02％，达到了60.96％和57.97％。在Indoor-search single-shot检索模式下rank-1和mAP分别提升了3.91％和5.47％，达到了63.65％和70.38％。

对比表1和表2的数据可知，可以明显得出我们的方法能获得较高的跨模态行人重识别性能，并且优于现有算法。

Claims

1.一种跨模态的行人重识别方法，其特征在于，包括以下步骤：

S2、构建包括部分参数共享的双流主干网络和知识自蒸馏支路的跨模态行人重识别模型；

S5、将待识别的行人图像特征与另一模态候选行人图像库中的行人图像特征进行相似度计算并排序，得到跨模态行人重识别结果；

所述步骤S2中采用Resnet50作为所述双流主干网络，Resnet 50 包含5个Stage,Stage0-Stage4，将stage0作为特征提取部分，后面的4个Stage作为特征嵌入部分；

两个模态的图片经过各自的stage0之后进入后面共享参数的网络中，参数共享的网络将前面网络提取出来的特征映射到同一特征子空间中；

，

其中，，/>，/>是知识自蒸馏平衡参数；

：深层分类器和各浅层分类器之间的KL散度损失，其中，KL散度用来度量深层教师网络和浅层学生网络的Softmax输出，通过引入KL散度，将深层网络学习到的知识指导给浅层网络,使两者分布接近；

：来自真实标签的交叉熵损失监督，来自标签的交叉熵损失监督所有的浅层分类器，它度量训练数据集的真实标签和每个浅层分类器的Softmax输出之间的差异；

：深层分类器和各浅层分类器池化后的特征之间的L2损失，用来计算最深层的网络提取出来的特征与各浅层网络提取出来的特征之间的L2损失，通过引入L2损失，将深层网络特征图中隐藏的知识引入到浅层的网络中，用高级的特征指导低级的特征；

所述计算公式如下：

，其中，

表示计算最深层教师分类器/>和各浅层学生分类器/>的KL散度；

表示训练时mini-batch中图片的数量，根据采用的在线采样策略，/>；

表示浅层学生分类器的总数，在本方法中其值等于3；

根据从小到大的顺序分别表示从浅到深的各浅层学生分类器，/>表示最深层的教师分类器；

和/>表示mini-batch中第/>张图片最深层教师分类器和各浅层分类器的Softmax输出；

所述计算公式如下：

，其中，

表示mini-batch中第/>张图片经过各浅层学生网络和Softmax操作对应的训练集中所有身份预测逻辑分布；

表示该图片对应的真实标签分布；

所述计算公式如下：

，其中，

表示mini-batch中第/>张图片最深层教师网络特征图池化后的特征；

表示各浅层学生网络特征图池化后的特征；

表示L2损失；

所述步骤S3中在训练过程中，采用身份损失和全模态难样本挖掘三元组损失共同监督网络学习；

所述身份损失的计算公式如下：，

其中，表示第/>张图片经过最深层网络和Softmax操作对应的训练集中所有身份预测逻辑分布；

表示该图片对应的真实标签分布；

所述全模态难样本挖掘三元组损失，计算公式如下：

，

其中，表示可见光模态和红外模态；

表示计算欧式距离；

、/>分别表示可见光图片和红外图片中第/>个行人的第/>张图片经过深层网络池化后的特征；

表示可见光模态和红外模态中与/>同一行人的第/>张图片的特征；

表示可见光模态和红外模态中与/>不同行人的第/>张图片的特征，相应的，/>和对于/>有相同的意义；

是一个阈值参数；

表示取/>和0之间的较大值。

2.根据权利要求1所述的跨模态的行人重识别方法，其特征在于，所述步骤S1中随机采样采用在线的采样策略，在每个mini-batch中随机采样个行人类别，在每个行人类别中随机挑选/>张可见光图片和/>张红外图片，总共包含/>张图片。