CN113297906B

CN113297906B - 一种基于知识蒸馏的行人重识别模型压缩方法及评价方法

Info

Publication number: CN113297906B
Application number: CN202110423900.7A
Authority: CN
Inventors: 陆易; 徐晓刚; 何鹏飞; 张逸; 朱岳江; 张文广
Original assignee: Zhejiang Gongshang University; Zhejiang Lab
Current assignee: Zhejiang Gongshang University; Zhejiang Lab
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2022-09-09
Anticipated expiration: 2041-04-20
Also published as: CN113297906A

Abstract

本发明公开了一种基于知识蒸馏的行人重识别模型压缩方法及评价方法，压缩方法包括如下步骤：S1：预训练行人重识别教师模型；S2：构建行人重识别学生模型；S3：构建低阶状态蒸馏损失和高阶结构蒸馏损失，将教师模型的知识迁移到学生模型，联合优化行人重识别任务损失和蒸馏损失进行训练；评价方法还包括如下步骤：S4：将底库测试集输入训练好的学生模型，获得底库行人特征；S5：将查询测试集输入训练好的学生模型，获得行人特征，与底库行人特征进行相似度计算，经度量排序找到与之具有相同身份的底库行人图片，计算时间效率和性能准确度。

Description

一种基于知识蒸馏的行人重识别模型压缩方法及评价方法

技术领域

本发明涉及人工智能及计算机视觉技术领域，尤其是涉及一种基于知识蒸馏的行人重识别模型压缩方法。

背景技术

随着城市化进程的加快，公共安全已成为了人们日益关注的焦点和需求。大学校园、主题公园、医院、街道等许多重要的公共卫生区域都广泛覆盖了监控摄像头，为利用计算机视觉技术自动化监控创造了良好的客观条件。

近年来，行人重识别作为视频监控领域的一个重要研究方向，日益受到人们的关注。具体来说，行人重识别是指在跨摄像头、跨场景下利用计算机视觉技术判断图像或视频序列中是否存在特定行人的技术。作为人脸识别技术的重要补充，该技术能够根据行人的穿着、体态、发型等信息认知行人，在实际监控场景下对无法获取清晰拍摄人脸的行人进行跨摄像头连续跟踪，增强数据的时空连续性，有助于节省大量的人力物力，具有重要的研究意义。

然而，在实际应用过程中，行人重识别模型往往十分笨重复杂，尤其在人员密集场景下，单帧行人特征提取的推理速度高达50ms-80ms，不利于实际部署应用，因此，目前亟待提出一种性能好、耗时少的行人重识别方法。

发明内容

针对现有方法的不足，提出了一种基于知识蒸馏的行人重识别模型压缩方法。该方法设计了低阶状态蒸馏和高阶结构蒸馏进行教师模型到学生模型的知识迁移，充分挖掘行人身份不变性特征和其对应图片特征的低阶输出分布和高阶结构关系，使得性能较差的学生模型学习到教师模型强大的判别性、鲁棒性和泛化性，且保留其原本轻量化的特点，在维持检索精确度的同时减少了耗时，更易于实际部署。此外，该方法利用现有深度学习的优势，通过深度残差神经网络提取特征，使得网络更加健壮稳定，容易训练。综上所述，本发明在保证性能的情况下，提升了跨摄像头下行人重识别的效率，具有良好的鲁棒性和普遍的适用性。本发明采用如下的技术方案：

一种基于知识蒸馏的行人重识别模型压缩方法，包括如下步骤：

S1：在行人重识别数据集上训练教师模型T，输出的特征维度为N_T，输出的类别维度为行人重识别数据集行人身份数K_T；

S2：构建行人重识别学生模型S，包括如下步骤：

S2.1：行人重识别学生模型S的骨干架构采用ResNet，并在大规模图像识别数据集上进行预训练；

S2.2：在特征层增加降维层，输出维度N_s，令行人重识别学生模型S的输出特征维度N_S＝N_T；

S2.3：令ResNet的分类层输入维度为N_s，输出类别维度K_S＝K_T；

S3：构建行人重识别任务损失L_task和蒸馏损失L_kd进行联合训练，L_task优化学生模型S本身的表达能力，L_kd包括低阶状态蒸馏损失和高阶结构蒸馏损失，二者将教师模型的知识迁移到学生模型中去，增强学生模型S的鲁棒性。

进一步地，所述步骤S2.1中的骨干架构采用ResNet18。

进一步地，所述步骤S2.1中的大规模图像识别数据集采用ImageNet。

进一步地，所述步骤S2.2中的降维层包括卷积层、归一化层，激活层，降维层后接全局池化层。

进一步地，所述步骤S2.3中的分类层包括全连接层、softmax激活层。

进一步地，所述步骤S3包括如下步骤：

S3.1：构建行人重识别任务损失L_task，包括分类损失L_ce和度量损失L_triplet，即：

L_task＝λ_ceL_ce+λ_tripletL_triplet

其中，λ_ce和λ_triplet是分类损失L_ce和度量损失L_triplet的权重控制参数，用于调节两个损失的占比；

输入的行人训练图像集P＝{p₁，p₂，p₃......p_n}，其对应的身份标签Q＝{q₁，q₂，q₃......q_n}，n为P的样本数量，对于任意的p_i∈P，其对应标签为q_i∈Q，经过学生模型S，得到池化层特征输出

和分类层类别输出

L_ce计算方式为：

取P中离p_i最近的负样本p_j，其标签为q_j，和离p_i最远的正样本p_k，其标签为q_k，其中，q_i＝q_k≠q_j，输入学生模型后，得到池化层特征输出

和

记：

我们期望sn-sp≥m，m为边界值，则度量损失L_triplet的计算公式为：

L_triplet＝[sp-sn+m]₊

其中，[·]₊为hinge函数；

S3.2：构建低阶状态蒸馏损失L_low-order，训练学生模型形成与教师模型相同的输出分布和特征图分布，形成点对点、面对面的低阶知识迁移，具体来说，学生模型模拟的输出分布为教师模型全连接层的分类输出，特征图分布为教师模型的特征提取层的特征图输出；

对于任意的p_i∈P，经过教师模型T，得到特征图输出

和分类层类别输出

经过学生模型S，得到池化层特征输出

特征图输出

和分类层类别输出

根据池化层输出特征，得到低阶状态蒸馏损失为

和

二者的K-L散度，计算方式如下：

根据特征图输出特征，得到低阶状态蒸馏损失为

和

的加权L2距离，计算方式如下：

其中，β为特征图拟合度权重控制参数；

L_low-order的计算方式为：

L_low--orer＝λ_ce-kdL_low-order-f+λ_FL_low-order-F

λ_ce-kd为输出分布知识蒸馏损失的权重控制参数，λ_F为特征图输出的知识蒸馏损失权重控制参数，λ_ce-kd与行人重识别分类任务的权重控制参数λ_ce之和为1，即λ_ce-kd+λ_ce＝1，来控制任务本身和输出分布知识蒸馏的训练平衡；

S3.3：构建高阶结构蒸馏损失L_high-order，训练学生模型形成与教师模型相同的输出结构关系。高阶的输出结构关系包含距离关系和角度关系。

设置二元组(p_i，p_j)∈P²，对应标签为(q_i，q_j)∈Q²，经过教师模型T，得到池化层输出特征

经过学生模型S，得到池化层输出特征

教师模型的距离关系计算方式如下：

学生模型的距离信息计算方式如下：

距离关系的知识迁移损失L_{high-orrder-D}为Ω_T-D和Ω_S-D的Smooth-L1损失，计算方式如下：

设置三元组(p_i，p_j，p_k)∈P³，对应标签为(q_i，q_j，q_k)∈Q³，经过教师模型T，得到池化层输出特征

经过学生模型S，得到池化层输出特征

教师模型的角度信息计算方式如下：

其中，

学生模型的角度信息计算方式如下：

其中，

角度结构知识迁移损失L_high-order-A为Ω_T-A和Ω_S-A的Smooth-L1损失，计算方式如下：

综上所述，高阶结构蒸馏损失为：

L_high-order＝λ_high-order-DL_high-order-D+λ_high-order-AL_high-order-A

其中，λ_high-order-D为高阶距离知识蒸馏损失的权重控制参数，L_high-order-A为高阶角度知识蒸馏损失的权重控制参数；

S3.4：构建训练学生模型S的损失函数L_train，采用随机梯度下降法对损失函数进行优化，L_train的计算方式如下：

L_train＝L_task+L_low-order+L_high-order。

一种基于知识蒸馏的行人重识别模型压缩方法的评价方法，还包括如下步骤：

S4：将底库测试集输入训练好的学生模型，获得底库行人特征F_gallery；

S5：将查询测试集输入训练好的学生模型，获得行人特征F_query，与F_gallery进行相似度计算，经度量排序找到与之具有相同身份的底库行人图片，计算时间效率和性能准确度。

进一步地，所述步骤S4具体地包括如下步骤：

S4.1：底库测试集为G＝{g₁，g₂，g₃......g_T}，其对应的标签为

将图片集输入训练好的学生模型S，获得底库行人池化层特征

并计算特征提取耗时T_S；

S4.2：将图片集输入训练好的教师模型T，获得底库行人池化层特征，并计算耗时T_T。

进一步地，所述步骤S5具体地包括如下步骤：

S5.1：查询测试集为A＝{a₁，a₂，a₃......a_M}，其对应的标签为

将查询图片输入训练好的学生模型S，获得查询图片池化层特征F_query＝{fa₁，fa₂，fa₃，......，fa_M}.

S5.2：比较模型耗时，计算方式如下：T＝T_T-T_S；

S5.3：计算F_query和F_gallery之间的欧氏距离，构建相似度矩阵S∈R^M*T，按照距离大小进行降序排列，得到查询测试集的底库检索候选列表，并用平均精度均值mAP和首位命中率Rank@1对性能的准确度进行评估。

本发明的优势和有益效果在于：

本发明在跨摄像头下的行人图片检索及识别，构建了轻量化的行人重识别学生模型，减少耗时，充分考虑在实际应用当中，鲁棒但笨重的模型带来的耗时压力；通过迁移鲁棒但繁重的教师模型的知识到学生模型，设计了低阶状态蒸馏和高阶结构蒸馏损失，充分挖掘行人身份不变性特征和其对应图片特征的低阶输出分布和高阶结构关系，使得性能较差的学生模型学习到教师模型强大的判别性、鲁棒性和泛化性；通过联合训练行人重识别任务损失和知识蒸馏损失，使得学生模型在拟合任务分布的同时学习模型的泛化能力，提高模型准确度。

附图说明

图1是本发明中行人重识别教师模型结构图。

图2是本发明中行人重识别知识蒸馏方法示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

如图1、2所示，一种基于知识蒸馏的行人重识别模型压缩方法，包括以下步骤：

S1：预训练行人重识别教师模型T，包括如下步骤：

S1.1：构建如图1所示的行人重识别教师模型T，在行人重识别数据集上训练教师模型T，输出的特征维度为N_T，输出的类别维度为行人重识别数据集行人身份数K_T；

S1.2：在行人重识别数据集上进行训练，联合优化行人重识别分类损失和度量损失，获得鲁棒的识别性能；

S2：构建行人重识别学生模型S，包括如下步骤：

S2.1：行人重识别学生模型S的骨干架构采用ResNet18，并在大规模图像识别数据集ImageNet上进行预训练；

S2.2：如图2所示，在ResNet18基础上增加降维层，输出维度N_s，令行人重识别学生模型S的输出特征维度N_S＝N_T，降维层包括卷积层、归一化层，激活层，降维层后接全局池化层；

S2.3：令ResNet的分类层输入维度为N_s，输出类别维度K_S＝K_T，分类层包括全连接层、softmax激活层；

S3：行人重识别任务损失L_task和蒸馏损失L_kd进行联合训练，L_task优化学生模型S本身的表达能力，L_kd包括低阶状态蒸馏损失和高阶结构蒸馏损失，二者将教师模型的知识迁移到学生模型中去，增强学生模型S的鲁棒性，包括如下步骤：

L_task＝λ_ceL_ce+λ_tripletL_triplet

其中，λ_ce和λ_triplet是分类损失L_ce和度量损失L_triplet的权重控制参数，用来调节两个损失的占比。

和分类层类别输出

L_ce计算方式为：

和

记：

L_triplet＝[sp-sn+m]₊

其中，[·]₊为hinge函数；

S3.2：构建低阶状态蒸馏损失L_low-order，训练学生模型形成与教师模型相同的输出分布和特征图分布，形成点对点、面对面的低阶知识迁移。具体来说，学生模型模拟的输出分布为教师模型全连接层的分类输出，特征图分布为教师模型的特征提取层的特征图输出；

对于任意的p_i∈P，经过教师模型T，得到特征图输出

和分类层类别输出

经过学生模型S，得到池化层特征输出

特征图输出

和分类层类别输出

根据池化层输出特征，得到低阶状态蒸馏损失为：

根据特征图输出特征，得到低阶状态蒸馏损失为为

和

的加权L2距离，计算方式如下：

其中，β为特征图拟合度权重控制参数；

L_low-order的计算方式为：

L_low-order＝λ_ce-kdL_low-order-f+λ_FL_low-order-F

经过学生模型S，得到池化层输出特征

教师模型的距离关系计算方式如下：

学生模型的距离信息计算方式如下：

距离关系的知识迁移损失L_high-order-D为Ω_T-D和Ω_S-D的Smooth-L1损失，计算方式如下：

经过学生模型S，得到池化层输出特征

教师模型的角度信息计算方式如下：

其中，

学生模型的角度信息计算方式如下：

其中，

综上所述，高阶结构蒸馏损失为：

L_high-order＝λ_high-order-DL_high-order-D+λ_high-order-AL_high-order-A

其中，λ_high-order-D为高阶距离知识蒸馏损失的权重控制参数，L_high-order-A为高阶角度知识蒸馏损失的权重控制参数。令λ_high-order-D＝λ_high-order-A，且λ_high-order-D+5λ_triplet＝5；

L_train＝L_task+L_low-order+L_high-order；

S4：将底库测试集输入训练好的学生模型，获得底库行人特征F_gallery，包括如下步骤：

G为RGB图片，大小被调整为256×128×3，将图片集G输入训练好的学生模型S，获得底库行人池化层特征F_gallery＝{fg₁，fg₂，fg₃，......，fg_T}，并计算特征提取耗时T_S；

S4.2：将图片集输入训练好的教师模型T，获得底库行人池化层特征，并计算耗时T_T；

S5：将查询测试集输入训练好的学生模型，获得行人特征F_query，与F_gallery进行相似度计算，经度量排序找到与之具有相同身份的底库行人图片，计算时间效率和性能准确度，包括如下步骤：

S5.1：令查询测试集为A＝{a₁，a₂，a₃......a_M}，其对应的标签为

将查询图片输入训练好的学生模型S，获得查询图片池化层特征F_query＝{fa₁，fa₂，fa₃，......，fa_M}；

S5.2：比较模型耗时，计算方式如下：T＝T_T-T_S；

S5.3：计算F_query和F_gallery之间的欧氏距离，构建相似度矩阵S∈R^M*T，针对每个查询图片将底库图片按照相似度进行降序排列，设置查询个数s，取相似度最高的前s个待选图片作为该查询图片的检索候选列表，并用平均精度均值mAP和首位命中率Rank@1对性能的准确度进行评估。

表1是基于本发明上述实施例所提供的方法得到的教师模型与学生模型的识别准确度对比，其中，首位命中率Rank@1由91.9％提升至93.3％，接近教师模型性能，可以看出，本发明上述学生模型实施例性能有较高的提升。

表1：本实施例识别准确率结果

方法	Rank@1	mAP
			知识蒸馏前的学生模型S’	91.9％	79.6％
学生模型S	93.3％	83.9％
			教师模型T	94.0％	86.2％

表2是基于本发明上述实施例所提供的方法得到的教师模型与学生模型，对每张行人图像所用耗时和模型计算力FLOPs进行对比，可以看出，本发明上述学生模型实施例在耗时上具有很大的优势。

表2：本实施例的教师模型与学生模型耗时及计算力对比

方法	时间(ms)	模型所需计算力FLOPs(次)
			学生模型S	5	2.00*10<sup>9</sup>
教师模型T	14	5.47*10<sup>9</sup>

表3是基于本发明上述实施例所提供的方法得到的学生模型识别准确度。从上至下依次陈列了用以对照的其他基准方法同本实施例实施的结果比较，可以看出，本发明上述学生模型实施例有较高的性能。

表3：其他基准方法与本实施例识别准确率结果

综上所述，本发明实施例公开了一种基于知识蒸馏的行人重识别模型压缩方法，该方法构建了轻量化的行人重识别学生模型，减少耗时，充分考虑在实际应用当中，鲁棒但笨重的模型带来的耗时压力。本发明提出了一种基于知识蒸馏的行人重识别模型压缩方法，旨在迁移鲁棒但繁重的教师模型的知识到学生模型。该方法设计了低阶状态蒸馏和高阶结构蒸馏损失，充分挖掘行人身份不变性特征和其对应图片特征的低阶输出分布和高阶结构关系，使得性能较差的学生模型学习到教师模型强大的判别性、鲁棒性和泛化性。本发明通过联合训练行人重识别任务损失和知识蒸馏损失，使得学生模型在拟合任务分布的同时学习模型的泛化能力，提高模型准确度。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。