CN117253123A

CN117253123A - 一种基于中间层特征辅助模块融合匹配的知识蒸馏方法

Info

Publication number: CN117253123A
Application number: CN202311012546.4A
Authority: CN
Inventors: 陈世海; 秦新芳; 李玉莲; 袁静波; 王军
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2023-08-11
Filing date: 2023-08-11
Publication date: 2023-12-19
Anticipated expiration: 2043-08-11

Abstract

本发明公开了一种基于中间层辅助特征模块融合匹配的知识蒸馏方法，将教师网络和学生网络划分成若干个模块，利用所划分的模块构建分支网络和辅助训练模块，计算其辅助训练损失；再构建特征融合模块并利用注意力机制生成不同的融合权值对辅助训练模块中提取到的特征根据制定的融合策略进行特征融合，计算其特征融合损失；最后将利用总的蒸馏损失促使学生网络和教师网络进行充分地信息交流，并且辅助学生网络更好的分模块矫正参数。本发明解决了知识网络中存在的信息利用不足、信息交流不对等以及信息冗余问题，提升了学生模型对综合信息的学习和表征能力，提高了特征迁移的可靠性，增强了模型的泛化性和鲁棒性。

Description

一种基于中间层特征辅助模块融合匹配的知识蒸馏方法

技术领域

本发明涉及计算机视觉领域，具体涉及一种基于中间层特征辅助模块融合匹配的知识蒸馏方法。

背景技术

对于一般的神经网络模型，复杂模型往往是单个宽而深的复杂模型或若干个基础模型的集合，具有较好的收敛能力和任务处理性能。相反地，简单模型的基本结构单一并且网络模型呈现窄而浅的特点，其表征能力有限。知识蒸馏技术利用复杂模型处理任务能力强和简单模型存储量小的特点，对模型的知识进行迁移来完成模型的压缩处理。知识蒸留技术在处理同样任务时具有提升模型精度、降低模型时延，压缩网络参数的特点。

Seyed Iman Mirzadeh在《Improved Knowledge Distillation via TeacherAssistant》一文中采用引入中等规模的网络(教师助理)的方案来弥合学生模型和教师模型之间的差距，在一定程度上解决了由于教师模型和学生模型差异过大带来的问题，但是该方法的教师助理选择会耗费大量的实验和计算资源，且没有从根本上解决学生网络模型的表达能力有限这一问题。除此之外，按照大多数模型的建模逻辑，学生网络架构和教师网络架构的一致性对知识迁移效果的影响是至关重要的，教师不恰当的表征学习往往会导致知识蒸馏的次优性。

发明内容

本发明的目的在于提供一种基于中间层特征辅助模块融合匹配的知识蒸馏方法，充分挖掘出中间层特征的丰富的信息并加以利用，构建出辅助训练模块和迭代融合模块，解决了以往异构知识蒸馏网络中存在的信息利用不足和信息交流不对等的问题，既保证了不需要学生网络先验知识的便捷性和可以直接用于各种网络的广泛性，又提高了特征迁移的可靠性。

实现本发明目的的技术解决方案为：一种中间层特征辅助模块融合匹配的知识蒸馏方法，包括以下步骤：

步骤S1、在CIFAR-100数据集中随机采集K幅带标签的图像，10000＜K≤60000，对上述K幅图像进行归一化处理，将像素大小统一为h×w，其中，h为图像高度，w为图像宽度；将统一尺寸后的图像按照5∶1的比例随机划分为训练数据集和测试数据集，对训练数据集进行数据增强构成教师-学生网络训练数据集，利用教师-学生网络训练数据集对教师网络进行预训练，得到教师主干网络，转入步骤S2。

步骤S2、根据卷积层的深度和特征图的大小，将教师主干网络划分为n个教师模块，学生主干网络划分为n个学生模块，转入步骤S3。

步骤S3、利用教师模块构建学生分支网络，利用学生模块构建教师分支网络，再利用分支网络中包含的子模块构建辅助训练模块，转入步骤S4。

步骤S4、提取步骤S2中各主干网络的输出特征以及步骤S3中辅助训练模块中各分支网络的输出特征，利用教师主干网络的输出特征和学生主干网络的输出特征计算传统蒸馏损失，利用辅助训练模块中各分支网络的输出特征与相应的主干网络的输出特征计算辅助训练损失，转入步骤S5。

步骤S5、制定分组融合策略：

利用步骤S3中辅助训练模块中功能相对应的教师分支网络的子模块和学生分支网络的子模块共同构成n-1个功能组，转入步骤S6。

步骤S6、构建特征融合模块，并利用步骤S5中n-1个功能组经过特征融合模块融合后的特征分别与学生主干网络中功能相对应的n-1个学生模块的输出特征计算特征融合损失，转入步骤S7。

步骤S7、将传统蒸馏损失、辅助训练损失以及特征融合损失加权求和，得到总的损失函数，并以此对学生网络的网络参数进行更新，最终获得训练好的学生网络，转入步骤S8。

步骤S8、将测试数据集输入到训练好的学生网络，输出测试集中每个样本对应的预测结果，测试训练好的学生网络的准确率。

与现有技术相比，本发明优点在于：

(1)构建了辅助训练模块。该模块使教师网络提供学生网络易于学习的可转移知识，并且辅助学生网络更好的分批矫正模块参数，促进教师网络模块与学生网络模块间的对等信息交流。

(2)构建了特征融合模块并制定了相应的分组融合策略，采用特征迭代融合的方法来整合特征信息、提供可信的特征指导学生网络模型训练。该模块解决了蒸馏信息冗余的问题，具有很强的信息综合能力，能很好地协调多种输入信息关系，进一步优化异构知识蒸馏网络使其实现先进的性能。

(3)利用了注意力机制将特征融合模块的不同通道设置不同的注意力卷积网络生成不同模块的的融合权值，将细节信息聚合，提取更为全面的信息且自适应的突出重要信息。

附图说明

图1为本发明基于中间层特征辅助模块融合匹配的知识蒸馏方法的模型图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

结合图1，一种基于中间层特征辅助模块融合匹配的知识蒸馏方法，包括以下步骤：

步骤S3、利用教师模块构建学生分支网络，利用学生模块构建教师分支网络，再利用分支网络中包含的子模块构建辅助训练模块，具体如下：

将步骤S2中教师主干网络和学生主干网络划分的n个模块分别用集合表示；教师模块的集合用表示，T表示教师主干网络，/>表示教师主干网络的第i个教师模块；学生模块的集合用/>表示，S表示学生网络，/>表示学生主干网络的第i个学生模块；然后在教师模块/>后延伸出分支，即依次接入n-i个学生模块/>以构成第v个教师分支网络分支，将这n-i个学生模块称作教师分支网络的子模块，将这n-i个子模块的集合记为/>其中/>表示该教师分支网络的第u个子模块；同理，在学生模块/>后延伸出分支，依次接入n-i个教师模块/> 以构成第v个学生分支网络，将这n-i个教师模块称作学生分支网络的子模块，将这n-i个子模块的集合记为/>其中/>表示该学生分支网络的第u个子模块；最多共有n-1个学生网络分支和n-1个教师网络分支，即1≤v≤nv1，其中，每条教师分支网络中的n-i个学生模块称教师分支网络的子模块，每条学生分支网络中的n-i个教师模块称为学生分支网络的子模块，即1≤u≤n-i；最后将学生分支网络的子模块集合B_T1，B_T2，…，B_Tv，…，B_Tn-1和教师分支网络的子模块集合B_S1，B_S2，…，B_Sv，…，B_Sn-1共同构成辅助训练模块B_aux＝{B_T1，B_T2，...，B_Tv，...，B_Tn-1；B_S1，B_S2，...，B_Sv，…，B_Sn-1}，该模块使教师网络提供学生网络易于学习的可转移知识，并且辅助学生网络更好的分批矫正模块参数，促进教师网络模块与学生网络模块间的对等信息交流。

步骤S4、提取步骤S2中各主干网络的输出特征以及步骤S3中辅助训练模块中各分支网络的输出特征，利用教师主干网络的输出特征和学生主干网络的输出特征计算传统蒸馏损失，利用辅助训练模块中各分支网络的输出特征与相应的主干网络的输出特征计算辅助训练损失，具体如下：

首先将第v条学生分支网络中的第u个子模块的输出特征和第v条教师分支网络中的第u个子模块的输出特征/>分别表示为：

其中，表示第v条学生分支网络的第u个子模块的特征提取函数，/>表示第v条学生分支网络的第u个子模块；/>表示第v条教师分支网络的第u个子模块的特征提取函数，/>表示第v条教师分支网络的第u个子模块，1≤v≤n-1，1≤u≤n-i。

再将教师主干网络的输出特征经过softmax函数处理后的输出定义为P_T，学生主干网络的输出特征/>经过softmax函数处理后的输出定义为P_S：

式中t表示温度的超参数。

利用P_T、P_S计算出教师主干网络和学生主干网络的输出层特征间的知识蒸馏损失即传统的知识蒸馏损失L_cla：

L_cla＝KL(P_T||P_S)

再将第v条教师分支网络的输出特征经softmax函数处理后的类概率定义为将第v条学生分支网络的输出特征经softmax函数处理后的类概率定义为/>

利用P_T计算出教师分支网络和教师主干网络的输出特征间的KL损失L_Tv，利用P_S计算出学生分支网络和学生主干网络的KL损失L_Sv：

最后将辅助训练模块中各分支网络输出特征与主干网络的输出特征之间的辅助训练损失L_aux重建为：

L_aux＝L_Tv+L_Sv。

步骤S5、制定分组融合策略，利用步骤S3中辅助训练模块中功能相对应的教师分支网络的子模块和学生分支网络的子模块共同构成n-1个功能组，具体如下：

按照相同位置的模块承担相同功能这个规则，利用第1个教师分支网络的第1个子模块的输出特征/>和第1个学生分支网络的第1个子模块/>的输出特征/>共同建立为第一个功能组/>利用第1个教师分支网络的第2个子模块/>的输出/>第2个教师分支网络的第1个子模块/>的输出特征/>第1个学生分支网络的第2个子模块的输出特征/>以及第2个学生分支网络的第1个子模块的输出特征/>共同建立为第二个功能组/>......；依次取出所有教师分支网络和学生分支网络中所有的子模块，将其中执行相同功能的子模块的输出特征划分为一组，直至建立出第n-1个功能组/>将所有功能组的集合定义为G＝{G₁，G₂，...，G_n-₁}，1≤v≤n-1，1≤u≤n-i。

步骤S6、构建特征融合模块，并利用步骤S5中n-1个功能组经过特征融合模块融合后的特征分别与学生主干网络中功能相对应的n-1个学生模块的输出特征计算特征融合损失，具体如下：

首先由3个大小为1×1、步长为1的卷积层和一次concat操作构成特征融合模块，同时利用注意力机制将特征融合模块的不同通道设置不同的注意力卷积网络生成不同的融合权值将细节信息聚合，提取更为全面的信息且自适应的突出重要信息；在此特征融合模块中采用特征迭代融合的方法，解决了蒸馏信息冗余的问题，具有很强的信息综合能力，能很好地协调多种输入信息关系，进一步优化异构知识蒸馏网络使其实现先进的性能，具体如下：

每两个特征根据不同的融合权值进行一次融合，再将得到的融合特征与下一个特征进行融合，如此逐次进行迭代融合直至遍历功能组中的所有元素；

再将特征融合模块的融合函数定义为f_m，将第k个功能组G_k经过特征融合模块的输出特征表示为

其中，1≤k≤n-1。

将学生主干网络划分的学生模块集合的除去第一个学生模块后的n-1个学生模块的输出特征集合定义为/>利用L2归一化损失函数计算功能组经过特征融合模块后的输出特征/>和特征集合F_SO中的输出特征/>之间的特征融合损失L_fuse：

步骤S7、将传统蒸馏损失L_cla、辅助训练损失L_aux以及特征融合损失L_fuse加权求和，得到总的损失函数L_totality，并以此对学生网络的网络参数进行更新，最终获得训练好的学生网络，具体如下：

L_totality＝λ₁L_cla+λ₂L_aux+λ₃L_fuse

其中，λ₁为传统知识蒸馏损失的权重超参数，λ₂为辅助训练损失的权重超参数，λ₃为特征融合损失函数的权重超参数。

实施例1

本发明所述的一种基于中间层特征辅助模块融合匹配的知识蒸馏方法，步骤如下：

步骤S1、在CIFAR-100数据集中随机采集60000幅带标签的图像，对这60000幅图像进行归一化处理，将像素大小统一为32×32，将统一尺寸后的图像按照5∶1的比例随机划分为训练数据集和测试数据集，对训练数据集进行数据增强构成教师-学生网络训练数据集，利用教师-学生网络训练数据集对教师网络进行预训练，得到教师网络，其中数据增强操作包括图像缩放和随机翻转，图像缩放比例按照原始图像的10％向内缩放和向外缩放，随机翻转的角度在-20°到20°，图像类别数量为100类。

步骤S2、根据卷积层的深度和特征图的大小，将教师主干网络和学生主干网络各自划分为4个模块，转入步骤S3。

步骤S3、利用步骤S2中的教师模块构建3条学生分支网络，利用步骤S2中的学生模块构建3条教师分支网络；再利用这6条分支网络包含的模块共同构成辅助训练模块，具体如下：

将步骤S2中教师主干网络和学生主干网络划分的4个模块分别用集合表示；教师模块的集合用表示，T表示教师主干网络，/>表示教师主干网络的第i个教师模块；学生模块的集合用/>表示，S表示学生网络，/>表示学生主干网络的第i个学生模块；然后在教师模块/>后延伸出分支，即依次接入3个学生模块/>以构成第1个教师分支网络分支，其子模块集合/> 在教师模块/>后延伸出分支，即依次接入2个学生模块/>以构成第2个教师分支网络分支，其子模块集合在教师模块/>后延伸出分支，即依次接入1个学生模块/>以构成第3个教师分支网络分支，其子模块集合/>同理，在学生模块/>后延伸出分支，即依次接入3个教师模块/>以构成第1个学生网络分支，其子模块集合/> 在学生模块/>后延伸出分支，即依次接入2个教师模块/>以构成第2个学生分支网络分支，其子模块集合/>在学生模块/>后延伸出分支，即依次接入2个教师模块/>以构成第3个学生分支网络分支，其子模块集合/>最后将学生分支网络的子模块集合和教师分支网络的子模块集合共同构成辅助训练模块B_aux＝{B_T1，B_T2，B_T3，；B_S1，B_S2，B_S3}。

步骤S4、提取步骤S2中各主干网络的输出特征和步骤S3中辅助训练模块中各分支网络的输出特征，利用预训练教师主干网络和学生主干网络的输出特征计算传统蒸馏损失，利用辅助训练模块中各分支网络的输出特征与相应的主干网络的输出特征计算辅助训练损失，转入步骤S5。

步骤S5、制定分组融合策略：

利用步骤S3中辅助训练模块中功能相对应的教师分支网络的子模块和学生分支网络的子模块共同构成3个功能组，具体如下：

按照相同位置的模块承担相同功能这个规则，利用第1个教师分支网络的第1个子模块的输出特征/>和第1个学生分支网络的第1个子模块/>的输出特征/>共同建立为第一个功能组/>利用第1个教师分支网络的第2个子模块/>的输出/>第2个教师分支网络的第1个子模块/>的输出特征/>第1个学生分支网络的第2个子模块的输出特征/>以及第2个学生分支网络的第1个子模块的输出特征/>共同建立为第二个功能组/>以此类推建立出第3个功能组将所有功能组的集合定义为G＝{G₁，G₂，G₃}。

步骤S6、构建特征融合模块，并利用步骤S5中3个功能组经过特征融合模块融合后的特征分别与学生主干网络功能相对应的3个模块的输出特征计算特征融合损失，转入步骤S7。

Claims

1.一种基于中间层辅助特征模块融合匹配的知识蒸馏方法，其特征在于，步骤如下：

步骤S1、在CIFAR-100数据集中随机采集K幅带标签的图像，10000<K≤60000，对上述K幅图像进行归一化处理，将像素大小统一为h×w，其中，h为图像高度，w为图像宽度；将统一尺寸后的图像按照5:1的比例随机划分为训练数据集和测试数据集，对训练数据集进行数据增强构成教师—学生网络训练数据集，利用教师—学生网络训练数据集对教师网络进行预训练，得到教师主干网络，转入步骤S2；

步骤S2、根据卷积层的深度和特征图的大小，将教师主干网络划分为n个教师模块，学生主干网络划分为n个学生模块，转入步骤S3；

步骤S3、利用教师模块构建学生分支网络，利用学生模块构建教师分支网络，再利用分支网络中包含的子模块构建辅助训练模块，转入步骤S4；

步骤S4、提取步骤S2中各主干网络的输出特征以及步骤S3中辅助训练模块中各分支网络的输出特征，利用教师主干网络的输出特征和学生主干网络的输出特征计算传统蒸馏损失，利用辅助训练模块中各分支网络的输出特征与相应的主干网络的输出特征计算辅助训练损失，转入步骤S5；

步骤S5、制定分组融合策略：

利用步骤S3中辅助训练模块中功能相对应的教师分支网络的子模块和学生分支网络的子模块共同构成n-1个功能组，转入步骤S6；

步骤S6、构建特征融合模块，并利用步骤S5中n-1个功能组经过特征融合模块融合后的特征分别与学生主干网络中功能相对应的n-1个学生模块的输出特征计算特征融合损失，转入步骤S7；

步骤S7、将传统蒸馏损失、辅助训练损失以及特征融合损失加权求和，得到总的损失函数，并以此对学生网络的网络参数进行更新，最终获得训练好的学生网络，转入步骤S8；

2.根据权利要求1所述的基于中间层辅助特征模块融合匹配的知识蒸馏方法，其特征在于，步骤S3中，利用教师模块构建学生分支网络，利用学生模块构建教师分支网络，再利用分支网络中包含的子模块构建辅助训练模块，具体如下：

将步骤S2中教师主干网络和学生主干网络划分的n个模块分别用集合表示；教师模块的集合用表示，T表示预训练教师主干网络，/>表示教师主干网络的第i个教师模块；学生模块的集合用/>表示，S表示学生网络，/>表示学生主干网络的第i个学生模块；然后在教师模块/>后延伸出分支，即依次接入n-i个学生模块/>以构成第v条教师分支网络分支，将这n-i个学生模块称作该条教师分支网络的子模块，将第v条教师分支网络分支中的n-i个子模块的集合记为/>其中/>表示该教师分支网络的第u个子模块；同理，在学生模块/>后延伸出分支，依次接入n-i个教师模块/>以构成第v条学生分支网络，将这n-i个教师模块称作该条学生分支网络的子模块，将这第v条学生分支网络中的n-i个子模块的集合记为其中/>表示该学生分支网络的第u个子模块；最多共有n-1个学生网络分支和n-1个教师网络分支，即1≤v≤n-1且1≤u≤n-i；最后将所有学生分支网络的子模块集合B_T1，B_T2，...，B_Tv，…，B_Tn-1和所有教师分支网络的子模块集合B_S1，B_S2，...，B_Sv，…，B_Sn-1共同构成辅助训练模块B_aux＝{B_T1，B_T2，...，B_Tv，…，B_Tn-1；B_S1，B_S2，...，B_Sv，…，B_Sn-1}。

3.根据权利要求2所述的基于中间层辅助特征模块融合匹配的知识蒸馏方法，其特征在于，步骤S4中，提取步骤S2中各主干网络的输出特征以及步骤S3中辅助训练模块中各分支网络的输出特征，利用教师主干网络的输出特征和学生主干网络的输出特征计算传统蒸馏损失，利用辅助训练模块中各分支网络的输出特征与相应的主干网络的输出特征计算辅助训练损失，具体如下：

其中，表示第v条学生分支网络的第u个子模块的特征提取函数，/>表示第v条学生分支网络的第u个子模块；/>表示第v条教师分支网络的第u个子模块的特征提取函数，/>表示第v条教师分支网络的第u个子模块，1≤v≤n-1，1≤u≤n-i；

式中t表示温度的超参数；

L_cla＝KL(P_T||P_S)

最后将第v条教师分支网络的输出特征经softmax函数处理后的类概率定义为将第v条学生分支网络的输出特征经softmax函数处理后的类概率定义为/>

利用P_T计算出教师分支网络和教师主干网络的输出特征间的KL损失L_Tv，利用/>P_S计算出学生分支网络和学生主干网络的KL损失L_Sv：

L_aux＝L_Tv+L_Sv。

4.根据权利要求3所述的基于中间层辅助特征模块融合匹配的知识蒸馏方法，其特征在于，步骤S5中制定分组融合策略，利用步骤S3中辅助训练模块中功能相对应的教师分支网络的子模块和学生分支网络的子模块共同构成n-1个功能组，具体分组策略如下：

按照相同位置的模块承担相同功能这个规则，利用第1个教师分支网络的第1个子模块的输出特征/>和第1个学生分支网络的第1个子模块/>的输出特征/>共同建立第一个功能组/>利用第1个教师分支网络的第2个子模块/>的输出/>第2个教师分支网络的第1个子模块/>的输出特征/>第1个学生分支网络的第2个子模块/>的输出特征/>以及第2个学生分支网络的第1个子模块的输出特征/>共同建立为第二个功能组……；依次取出所有教师分支网络和学生分支网络中所有的子模块，将其中执行相同功能的子模块的输出特征划分为一组，直至建立出第n-1个功能组将所有功能组的集合定义为G＝{G₁,G₂,…,G_n-1}，1≤v≤n-1，1≤u≤n-i。

5.根据权利要求4所述的基于中间层辅助特征融合匹配的知识蒸馏方法，其特征在于，步骤S6中构建特征融合模块，并利用步骤S5中n-1个功能组经过特征融合模块融合后的特征分别与学生主干网络功能相对应的n-1个模块的输出特征计算特征融合损失，具体如下：

首先由3个大小为1×1、步长为1的卷积层和一次concat操作构成特征融合模块，同时利用注意力机制将特征融合模块的不同通道设置不同的注意力卷积网络生成不同的融合权值；在此特征融合模块中采用特征迭代融合的方法，即每两个特征根据不同的融合权值进行一次融合，再将得到的融合特征与下一个特征进行融合，如此逐次进行迭代融合直至遍历功能组中的所有元素；

其中，1≤j≤n-1；

6.根据权利要求5所述的基于中间层特征辅助融合匹配的知识蒸馏方法，其特征在于，步骤S7中将传统蒸馏损失L_cla、辅助训练损失L_aux以及特征融合损失L_fuse加权求和，得到总的损失函数L_totality，并以此对学生网络的网络参数进行更新，最终获得训练好的学生网络，具体如下：

L_totality＝λ₁L_cla+λ₂L_aux+λ₃L_fuse

7.根据权利要求6所述的基于中间层特征辅助融合匹配的知识蒸馏方法，其特征在于：λ₁＝0.5，λ₂＝0.1，λ₃＝0.1。

8.根据权利要求3所述的基于中间层特征辅助融合匹配的知识蒸馏方法，其特征在于：t＝4。