CN113269117B

CN113269117B - 一种基于知识蒸馏的行人重识别方法

Info

Publication number: CN113269117B
Application number: CN202110625592.6A
Authority: CN
Inventors: 葛永新; 谢佳宏; 李文鑫; 郭帧廷; 张俊银; 华博誉
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2022-12-13
Anticipated expiration: 2041-06-04
Also published as: CN113269117A

Abstract

本发明涉及一种基于知识蒸馏的行人重识别方法，该方法建立结构完整行人网络和部分行人网络，以完整行人图像训练完整行人网络，以随机截取的部分图像训练部分行人网络，当损失不再下降，两个网络的训练结束；对于待预测图像，若待预测图像是完整行人图像，则输入训练好的完整行人网络中，否则输入训练好的部分行人网络中，计算待预测图像的特征与数据库中各图像的特征之间的距离，根据距离由大到小的顺序输出与待预测图像的特征之间距离排在前M的图像。本发明方法通过损失计算将完整行人网络和部分行人网络进行联合，提高了检测结果的鲁棒性。

Description

一种基于知识蒸馏的行人重识别方法

技术领域

本发明涉及图像识别技术领域，特别涉及基于知识蒸馏的行人重识别方法。

背景技术

当前的部分行人重识别研究中面临的一大难题是训练数据集的缺乏，为此，一些部分行人重识别方法会利用随机裁剪的方式从完整行人图像获得部分行人图像，例如：方法1用二分类网络判断输入的图像是否是完整图像来使网络学习到关于遮挡的隐藏知识；方法2，VPM的方法，核心思路是运用自监督的方式，使模型能感知到图像区域的可见性；方法3，在网络中嵌入空间转换网络模块，来实现部分图像与完整图像的自动匹配。然而这些方法都没有考虑完整行人图像和部分行人图像在特征空间上的差异。从数据的角度上说，完整图像和部分图像服从不一样的概率分布，因此在它们之间实际上就存在着领域间隔(domain gap)的问题。在行人重识别中领域间隔问题是广泛存在的，以下几种受到较多研究者的关注：1)不同数据集之间的间隔；2)同一数据集中不同的摄像头之间的间隔；3)RGB-红外模态图像之间的间隔。值得指出的是，部分行人重识别问题也属于一种领域间隔问题，因此也可以用类似的范式加以解决。

发明内容

针对现有技术存在的上述问题，本发明的要解决的技术问题是：现有方法输出的图像特征缺少全局相关性知识而不够鲁棒。

为解决上述技术问题，本发明采用如下技术方案：一种基于知识蒸馏的行人重识别方法，包括如下步骤：

S100：建立完整行人网络和部分行人网络，所述完整行人网络和部分行人网络具有相同的网络结构。

S200：从现有的公开数据集中获取多张完整行人图像构建数据库，将完整行人图像随机裁剪得到部分行人图像，初始化完整行人网络和部分行人网络的参数。

对于完整行人网络，以完整行人图像作为训练样本，提取训练样本的特征进行完整行人网络训练，对于每个训练样本，计算完整行人网络输出与对应的样本真实身份标签间的损失，反向传播更新完整行人网络参数，当损失不再下降，训练结束。

对于部分行人网络，以部分行人图像作为训练样本，提取训练样本的特征进行部分行人网络的训练，对于每个训练样本，计算部分行人网络输出与对应的样本真实身份标签间的损失，反向传播更新部分行人网络参数，当损失不再下降，训练结束。

S300:对于待预测图像，若待预测图像是完整行人图像，则将待预测图像输入训练好的完整行人网络中，训练好的完整行人网络计算待预测图像的特征与数据库中各图像的特征之间的距离，根据距离由大到小的顺序输出与待预测图像的特征之间距离排在前M的图像。

若待预测图像是部分行人图像，则将待预测图像输入训练好的部分行人网络中，训练好的部分行人网络计算待预测图像的特征与数据库中各图像的特征之间的距离，根据距离由大到小的顺序输出与待预测图像的特征之间距离排在前M的图像。

作为优选，所述S100建立的完整行人网络N_h和部分行人网络N_p以ResNet-50作为骨干网络，将每个图像映射到固定大小的向量表示，R^W×H×3→R^D。

对原始的ResNet-50做了如下修改：将原始的ResNet-50最后一个ReLU激活函数和最终的分类层均使用BNNeck层代替，将原始的ResNet-50最后一个残差块的步长从2减小到1。

作为优选，所述S200中对于完整行人网络计算完整行人网络输出与对应的样本标签间的损失以及对于部分行人网络计算部分行人网络输出与对应的样本标签间的损失的方法相同，具体如下：

构建整体损失，如公式(1)所示：

其中，L_CE为交叉熵损失，L_T为三元组损失，

为基于特征的损失，

为基于距离的损失。

其中，y表示输入图像真实的身份标签，

表示完整行人网络或部分行人网络的softmax层之后的输出；

总的三元组损失如公式(3)所示：

L_T＝L_{T_h}+L_{T_p}+L_{T_h2p}+L_{T_p2h} (3)

其中，L_{T_h}和L_{T_p}分别表示完整行人网络和部分行人网络各自独立计算的三元组损失，

和

分别表示锚点样本(anchor)的正样本集和负样本集，α表示三元组损失中约束正负样本对距离差异的阈值，d表示距离函数，h_a表示以完整行人图像作为锚点样本，h_p表示以完整行人图像作为正样本，h_n表示以完整行人图像作为负样本，p_a表示以部分行人图像作为锚点样本，p_p表示以部分行人图像作为正样本，p_n表示以部分行人图像作为负样本；

L_{T_h2p}表示以完整行人图像作为锚点样本，以部分行人图像作为正负样本构建的三元组损失，L_{T_p2h}表示以部分行人图像作为锚点样本，以完整行人图像作为正负样本构建三元组损失；

对于一个训练批次的第i和第j个图像，计算它们的完整行人图像特征之间的距离D_h[i,j]，并且对于它们裁剪后的部分图像，计算它们的部分行人图像特征之间的距离D_p[i,j]，基于距离矩阵的损失如公式(8)所示：

基于特征的损失函数最小化它们之间的均方误差，如公式(9)所示：

其中，N表示一个训练批次的数据量，‖·‖₂表示l₂距离。

相对于现有技术，本发明至少具有如下优点：

本发明在训练阶段，给定同一个身份行人的完整图像和部分图像，使用完整行人网络提取完整图像的特征，用部分行人网络提取部分图像的特征，然后迫使部分行人网络的输出去模拟完整行人网络的输出，使得两个网络的特征空间一致。经过反向传播训练，全局相关性知识可以自然地从完整行人网络迁移到部分行人网络。

在实验的测试阶段，将测试集中的部分行人图像输入训练好的部分行人网络提取特征，将完整行人图像输入训练好的完整行人网络提取特征，由于两个网络的特征空间趋于一致，所以可以直接计算它们之间的相似度，增加判断部分行人身份的准确率。

附图说明

图1为本发明方法基于知识蒸馏的行人重识别方法的框架图。

图2为实验测试中部分图像到完整图像的测试过程框架图。

具体实施方式

下面对本发明作进一步详细说明。

完整行人图像与部分行人图像之间存在着信息的不对称，增加了在它们之间进行相似性度量的难度。本发明提出了一种全局相关性知识蒸馏(Global RelationalKnowledge Distillation,GRKD)方法，试图将从完整行人网络中学到的全局相关性知识迁移到部分行人网络。在训练阶段，给定同一个身份行人的完整图像和部分图像，使用完整行人网络提取完整图像的特征，用部分行人网络提取部分图像的特征，然后迫使部分行人网络的输出去模拟完整行人网络的输出，使得两个网络的特征空间一致。经过反向传播训练，全局相关性知识可以自然地从完整行人网络迁移到部分行人网络。

GRKD方法整体框架如图1所示，首先，从原始的完整行人图像经过随机裁剪得到部分行人图像，然后建立完整行人网络N_h，部分行人网络N_p，分别以完整行人图像和与其对应的部分行人图像作为训练输入，最后通过损失函数的约束实现全局相关性知识从完整行人网络N_h到部分行人网络N_p的传递，使得输出特征具有跨域的判别性。

参见图1，一种基于知识蒸馏的行人重识别方法，包括如下步骤：

S100：建立完整行人网络和部分行人网络，所述完整行人网络和部分行人网络具有相同的网络结构；

S200：从现有的公开数据集中获取多张完整行人图像构建数据库，将完整行人图像随机裁剪得到部分行人图像，初始化完整行人网络和部分行人网络的参数；

对于完整行人网络，以完整行人图像作为训练样本，提取训练样本的特征进行完整行人网络训练，对于每个训练样本，计算完整行人网络输出与对应的样本真实身份标签间的损失，反向传播更新完整行人网络参数，当损失不再下降，训练结束；

对于部分行人网络，以部分行人图像作为训练样本，提取训练样本的特征进行部分行人网络的训练，对于每个训练样本，计算部分行人网络输出与对应的样本真实身份标签间的损失，反向传播更新部分行人网络参数，当损失不再下降，训练结束；

S300:对于待预测图像，若待预测图像是完整行人图像，则将待预测图像输入训练好的完整行人网络中，训练好的完整行人网络计算待预测图像的特征与数据库中各图像的特征之间的距离，根据距离由大到小的顺序输出与待预测图像的特征之间距离排在前M的图像；

具体的，所述S100建立的完整行人网络N_h和部分行人网络N_p以ResNet-50作为骨干网络，将每个图像映射到固定大小的向量表示，R^W×H×3→R^D，本发明中D＝2048，骨干网络利用ImageNet预训练来初始化网络权重。ResNet-50网络为现有技术。

对原始的ResNet-50做了如下修改：将原始的ResNet-50最后一个ReLU激活函数和最终的分类层均使用BNNeck层代替，(即批量归一化层后接一个全连接层)；为了从细粒度的空间细节中获益，将原始的ResNet-50最后一个残差块的步长从2减小到1。

具体的，所述S200中对于完整行人网络计算完整行人网络输出与对应的样本标签间的损失以及对于部分行人网络计算部分行人网络输出与对应的样本标签间的损失的方法相同，具体如下：

一般来说，行人重识别的性能在很大程度上取决于特征表示的鲁棒性。部分行人网络只接收不完整的行人图像作为输入，不能处理行人全局结构关系，因此输出的图像特征缺少全局相关性知识而不够鲁棒。为了解决这个问题，提出了GRKD方法，该方法迫使部分行人网络的输出去模拟完整行人网络的鲁棒性输出，使得两个网络的特征空间一致，通过反向传播算法，部分行人网络可以从完整行人特征中学习全局相关性知识。GRKD由三种类型的损失函数共同实现，一是基于特征的损失，二是基于距离矩阵的损失，最后是三元组损失。

构建整体损失，如公式(1)所示：

其中，L_CE为交叉熵损失，L_T为三元组损失，

为基于特征的损失，

为基于距离的损失；

其中，y表示输入图像真实的身份标签，

表示完整行人网络或部分行人网络的softmax层之后的输出身份标签与输出的特征向量是大小相等的矩阵。

总的三元组损失如公式(3)所示：

L_T＝L_{T_h}+L_{T_p}+L_{T_h2p}+L_{T_p2h} (3)

式(4)和式(5)的三元组损失是由完整行人网络和部分行人网络各自独立计算的，两个网络输出的特征并未相互联系。而GRKD的目的是希望完整行人特征和部分行人特征构成一个共享的特征空间，因此还需在两个网络之间交互地计算三元组损失。

和

分别表示描点样本(anchor)的正样本集和负样本集，α表示三元组损失中约束正负样本对距离差异的阈值，d表示距离函数(欧氏距离或余弦距离)，h_a表示以完整行人图像作为锚点样本，h_p表示以完整行人图像作为正样本，h_n表示以完整行人图像作为负样本，p_a表示以部分行人图像作为锚点样本，p_p表示以部分行人图像作为正样本，p_n表示以部分行人图像作为负样本。

除了让学生网络一对一地模拟教师网络的输出特征之外，GRKD还鼓励学生网络模拟教师网络跨样本的成对距离，这样对更好地学习到教师网络的嵌入空间结构有积极的意义。对于一个训练批次的第i和第j个图像，计算它们的完整行人图像特征之间的距离D_h[i,j]，并且对于它们裁剪后的部分图像，计算它们的部分行人图像特征之间的距离D_p[i,j]，距离代表了图像之间的相似性。相似的图像输入应该在教师网络和学生网络中有相似的激活模式，因此，基于距离矩阵的损失如公式(8)所示：

为了在一个共享的特征空间中迫使部分行人特征和与之对应的鲁棒的完整行人特征尽可能地接近，基于特征的损失函数最小化它们之间的均方误差，如公式(9)所示：

其中，N表示一个训练批次的数据量，‖·‖₂表示l₂距离。

实验测试

1.在测试阶段，每个待查询行人图像(query)都是部分图像，而查询库(gallery)里的所有行人图像都是完整图像，部分图像到完整图像的检索匹配过程如图2所示。具体来说，使用获得全局相关性知识后的部分行人网络来提取待查询行人图像特征，而查询库图像特征通过完整行人网络来提取。在特征提取后，计算待查询行人特征与每个查询库行人特征之间的距离，然后根据距离进行部分行人到完整行人的检索。

2.数据集

目前主要使用的数据集包括两个，即Partial-ReID数据集和Partial-iLIDS数据集。由于这两个数据集规模较小，所以评测协议规定所有样本都只作为测试集，采用Market-1501数据集的训练集作为训练集。Partial-ReID数据集包括总共60个行人ID的600张图像。其中毎个行人包含5张含有遮挡的半身图和5张全身图，半身图经过人工裁剪去除遮挡物保留人体部分。半身图中遮挡区域随机分布，因此上身、下身、侧身遮挡现象均存在。在检索过程中以所有半身图为query集，所有全身图为gallery集。值得注意的是，由于Partial-ReID数据集规模比较小，所以只评测CMC指标。Partial-iLIDS数据集总共包括119个行人的238张图片，即每个行人包含一张半身图和一张全身图。由于该数据集的采集环境是在机场，所以绝大部分图像的遮挡物为随身携带的行李箱，因此遮挡主要发生在下半身。测试时将所有半身图和全身图分别作为query集和gallery集，同样只评价CMC指标。

3.与现有方法的对比

如表1所示，本发明提出的方法使Rank-1指标在Partial-ReID和Partial-iLIDS上分别达到83.9％和70.4％。

表1 Partial-ReID和Partial-iLIDS数据集上与先进方法的对比

4.消融实验

为了验证GRKD方法的效果，本实验中，消除了某些或全部GRKD损失函数来训练网络，然后对比识别率。如表2和表3所示，当训练数据只使用未经裁剪(holistic)的Market-1501训练集，而测试集是裁剪后的Market-1501测试集时，识别率非常低，Rank-1和mAP指标仅分别有60.9％和30.4％，测试集为Partial-ReID和Partial-iLIDS时，Rank-1指标仅取得了42.8％和40.3％，这表明在完整图像数据和部分图像数据之间存在着巨大的领域间隔。当训练集采用裁剪后的Market-1501训练集，但并不使用GRKD方法来迁移全局相关性知识时，识别率有所上升，在裁剪后的Market-1501测试集上Rank-1和mAP指标分别为76.6％和53.8％，在Partial-ReID和Partial-iLIDS上Rank-1指标为65.3％和61.4％。随着几个GRKD损失的加入，识别率逐步提高，最终可以使得裁剪后的Market-1501测试集上Rank-1和mAP达到83.0％和61.8，在Partial-ReID和Partial-iLIDS上Rank-1指标达到83.9％和70.4％。这表明GRKD使得部分行人特征从完整行人网络的隐藏知识中获益，匹配精度得到了提升。

表2裁剪后的Market-1501测试集上的对比实验

表3 Partial-ReID和Partial-iLIDS上的对比实验

表2和表3中，holistic表示只使用完整行人图像训练网络，w/o GRKD表示不加入GRKD损失，

表示加入了基于特征的GRKD损失，

表示加入了基于特征的GRKD损失和基于距离矩阵的GRKD损失，

表示加入了基于特征的GRKD损失、基于距离矩阵的GRKD损失和基于三元组的GRKD损失。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于知识蒸馏的行人重识别方法，其特征在于，包括如下步骤：

全局相关性知识蒸馏方法GRKD，该GRKD迫使部分行人网络的输出去模拟完整行人网络的鲁棒性输出，使得两个网络的特征空间一致，通过反向传播算法，部分行人网络可以从完整行人特征中学习全局相关性知识；

对于完整行人网络计算完整行人网络输出与对应的样本标签间的损失以及对于部分行人网络计算部分行人网络输出与对应的样本标签间的损失的方法相同，具体如下：

构建整体损失，如公式(1)所示：

其中，L_CE为交叉熵损失，L_T为三元组损失，

为基于特征的损失，

为基于距离的损失；

其中，y表示输入图像真实的身份标签，

表示完整行人网络或部分行人网络的softmax层之后的输出；

总的三元组损失如公式(3)所示：

L_T＝L_{T_h}+L_{T_p}+L_{T_h2p}+L_{T_p2h} (3)

和

分别表示描点样本(anchor)的正样本集和负样本集，α表示三元组损失中约束正负样本对距离差异的阈值，d表示距离函数，h_a表示以完整行人图像作为锚点样本，h_p表示以完整行人图像作为正样本，h_n表示以完整行人图像作为负样本，p_a表示以部分行人图像作为锚点样本，p_p表示以部分行人图像作为正样本，p_n表示以部分行人图像作为负样本；

对于一个训练批次的第i和第j个图像，计算它们的完整行人图像特征之间的距离D_h[i，j]，并且对于它们裁剪后的部分图像，计算它们的部分行人图像特征之间的距离D_p[i，j]，基于距离矩阵的损失如公式(8)所示：

其中，N表示一个训练批次的数据量，||·||₂表示l₂距离；

S300：对于待预测图像，若待预测图像是完整行人图像，则将待预测图像输入训练好的完整行人网络中，训练好的完整行人网络计算待预测图像的特征与数据库中各图像的特征之间的距离，根据距离由大到小的顺序输出与待预测图像的特征之间距离排在前M的图像；

2.如权利要求1所述的基于知识蒸馏的行人重识别方法，其特征在于，所述S100建立的完整行人网络N_h和部分行人网络N_p以ResNet-50作为骨干网络，将每个图像映射到固定大小的向量表示，R^W×H×3→R^D；