CN114782776A

CN114782776A - 基于MoCo模型的多模块知识蒸馏方法

Info

Publication number: CN114782776A
Application number: CN202210412270.8A
Authority: CN
Inventors: 王军; 袁静波; 刘新旺; 李玉莲; 李兵
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2022-04-19
Filing date: 2022-04-19
Publication date: 2022-07-22
Anticipated expiration: 2042-04-19
Also published as: CN114782776B

Abstract

本发明公开了一种基于MoCo模型的多模块知识蒸馏方法，利用中间过程中生成的特征间具有相似度这一特点，将教师和学生网络各自分成对应的多个模块，通过MoCo模型提取到教师和学生网络的每个模块生成的特征计算相似度，利用相似度达到教师网络指导学生网络的目的。本发明可以在只有少量标签的基础上，自动地对样本特征进行动态更新，此方法的内存效率更高，解决了在有限内存的情况下训练大规模数据集的问题，使教师网络指导下的学生网络有鲁棒性的同时，兼具泛化性。

Description

基于MoCo模型的多模块知识蒸馏方法

技术领域

本发明属于模型轻量化技术，尤其涉及一种基于MoCo模型的多模块知识蒸馏方法。

背景技术

近年来，机器学习和深度学习在计算机视觉、自然语言处理、预测和音频处理等方面都有了卓越的进步，对于这些复杂的任务，训练后模型的规模很大，这使得在资源受限的设备上部署它很困难。在知识蒸馏中，在大数据集上训练的较大的繁琐网络(教师模型)可以很好地将学习到的知识转移到作为一个学生模型的更小更轻的网络中。

在基于瘦长网络的提示的研究中，引入了一种两阶段的策略来训练深度网络，但是没有明显的速度提升；深度相互学习提出了教师-学生网络相互学习，并且同时更新，但是难以提取学习更细节的信息，带来的误差更大；再生网络中，提出了利用学习到的学生网络指导下一级的学生网络，但是训练时间长且冗余过程较多。

发明内容

本发明的目的在于提供一种基于MoCo模型的多模块知识蒸馏方法，解决了在有限内存的情况下训练大规模数据集的问题，达到了减少运算量提高内存效率的效果。

实现本发明目的的技术解决方案为：一种基于MoCo模型的多模块知识蒸馏方法，包括以下步骤：

步骤S1、在Imagenet中随机采集K幅带标签的图像，1000＜K＜10000，对上述K幅图像逐张统一尺寸后进行数据增强，得到像素大小为h×w的2K幅带标签的图像，构成教师网络训练集。

步骤S2、将教师网络训练集输入教师网络，利用教师网络训练集对教师网络进行预训练，得到预训练教师网络。

步骤S3、在Instagram中随机采集N幅无标签的图像，10000＜N＜100000，对上述N幅图像逐张统一尺寸后进行数据增强，得到像素大小为h×w的2N幅无标签的图像，构成教师-学生网络训练集。

步骤S4、构建MoCo模型：

所述MoCo模型包括预训练教师网络、学生网络、编码器和动态编码器，将预训练教师网络划分成m个模块，并将学生网络也对应划分成m个模块，2<m<100。

步骤S5、将教师-学生网络训练集输入MoCo模型，提取预训练教师网络和学生网络中各模块生成的特征，并将上述特征分别输入编码器和动态编码器进行编码，对应得到查询样本特征和匹配样本特征，求出查询样本特征和匹配样本特征的相似度。用学生网络中第n+1个模块生成的相似度学习预训练教师网络第n+1个模块生成的相似度和第n模块生成的相似度，以此更新学生网络的网络参数，1≤n≤m。同时，预训练教师网络和学生网络都根据自身各模块生成的相似度各自对网络参数进行更新，最终获得训练好的学生网络。

步骤S6、在Instagram中随机采集M幅带标签的图像，100＜M＜1000，对上述M幅图像逐张统一尺寸后进行数据增强，得到像素大小为h×w的2M幅图像，构成学生网络测试集。

步骤S7、将学生网络测试集输入MoCo模型中训练好的学生网络，输出学生网络测试集中每个样本对应的预测结果，测试训练好的学生网络的准确率。

本发明与现有技术相比，其显著优点在于：

(1)首次将Moco模型学习到的相似度用于知识蒸馏方法中，可以在只有少量标签的基础上，自动地对样本特征进行动态更新，使内存效率更高，并且没有匹配提取到的特征的步骤，减少中间数据转换的误差，使教师网络指导下的学生网络有鲁棒性的同时，兼具泛化性。

(2)利用Moco模型自身的特性，预训练教师网络和学生网络都能通过相似度对网络参数进行自我更新，学生网络不仅可以学习各模块的工作方式还可以回顾复习未被学习到的特征，通过增加更新策略的方式，提高了学生网络的准确度。

(3)在Moco模型中加入了池化层，为前期的训练提供可靠的数据，加速数据收敛，并且利用移动平均值的策略，使网络更好的更新，既保留了原数据又平稳添加新的梯度。

附图说明

图1为基于MoCo模型的多模块知识蒸馏方法模型图。

具体实施方式

下面结合附图对本发明作进一步详细描述。

结合图1，本发明所述的一种基于MoCo模型的多模块知识蒸馏方法，步骤如下：

步骤S1、在Imagenet中随机采集K幅带标签的图像，1000＜K＜10000，对上述K幅带标签的图像逐张统一尺寸后进行数据增强，得到像素大小为h×w(h取值范围为0～256，w取值范围为0～256)的2K幅带标签的图像，构成带标签的教师网络训练集，转入步骤S2。

步骤S2、将带标签的教师网络训练集输入教师网络，利用教师网络训练集对教师网络进行预训练，得到预训练教师网络，转入步骤S3。

步骤S3、在Instagram中随机采集N幅无标签的图像，10000＜N＜100000，对上述N幅图像逐张统一尺寸后进行数据增强，得到像素大小为h×w的2N幅无标签的图像，构成无标签的教师-学生网络训练集，转入步骤S4。

步骤S4、构建MoCo模型：

所述预训练教师网络和学生网络均无分支，包括但不局限于经典网络结构中的ResNet、VGGNet、Mobilenet等。预训练教师网络规模数据均大于学生网络，转入步骤S5。

步骤S5、将无标签的教师-学生网络训练集输入MoCo模型，提取预训练教师网络和学生网络中各模块生成的特征，并将上述特征分别输入编码器和动态编码器进行编码，对应得到查询样本特征和匹配样本特征，求出查询样本特征和匹配样本特征的相似度；用学生网络中第n+1个模块生成的相似度学习预训练教师网络中的第n+1个模块生成的相似度和第n模块(预训练教师网络中)生成的相似度，以此更新学生网络的网络参数，1≤n≤m；同时，预训练教师网络和学生网络都根据自身各模块生成的相似度各自对网络参数进行更新，最终获得训练好的学生网络，具体如下：

编码器和动态编码器采用相同结构，编码器承担了生成查询特征的任务；动态编码器基于无监督学习的对比损失构建具有一致性的字典，字典是以队列的形式表现出来的：

当前的特征经过动态编码器编码后得到的匹配样本特征进入队列，最先进入的一组匹配样本特征被清理出队列。

当前有编码器生成的一个查询样本特征q和动态编码器生成的一组序列{k₀,k₁,k₂,…}，序列作为字典中的键，序列中存在一个与q匹配的键k₊；利用点积度量相似性，提出对比损失函数L_q：

其中，τ是一个温度超参数，k_i为字典中的键；字典中的键包括一个正样本k₊和K个负样本，1<K<100；当q与键k+相似，而与所有其他键不同时，L_q的值趋近于0。

查询样本特征q由编码器f_q和池化层产生，即q＝f_q(x^q)+pool_q(x^q)，x^q表示任意一个查询样本；键k_i由动态编码器f_k和池化层产生，即k_i＝f_k(x^ki)+pool_ki(x^ki)，x^ki是字典中的键(即字典所需样本)。

此外，提出了一种缓慢进行的动态编码器更新方式，其动态是基于编码器的移动平均值来实现的，并以此与编码器保持一致性，将f_k的参数表示为θ_k，f_q的参数表示为θ_q，更新θ_k的公式为：

θk→ε(θk-t+θk-t+1+……+θk)/t+(1-ε)θq

其中，ε∈[0,1)是一个动量系数，t为移动平均数个数，0<t<100，只有参数θ_q才会通过反向传播进行更新。

在MoCo模型中，提取预训练教师网络和学生网络中各模块生成的特征，并将上述特征分别输入编码器和动态编码器进行编码，对应得到查询样本特征和匹配样本特征，求出查询样本特征和匹配样本特征的相似度，具体如下：

上述相似度中包含的信息用于指导学生网络进行优化。

字典中的键包括一个正样本k₊和K个负样本k_s；查询样本特征与正样本产生正样本相似度l_pos：

l_pos＝bmm(q,k₊)

其中，bmm是分批矩阵乘法函数。

查询样本与剩下K个负样本k_s产生负样本相似度l_neg：

l_neg＝mm(q,k_s)

其中，mm是矩阵乘法函数。

将得到的l_pos和l_neg拼接起来得到样本相似度logits：

logits＝cat(l_pos,l_neg)

其中，cat是矩阵拼接函数；得到预训练教师网络和学生网络中各模块对应生成的相似度，利用无监督样本自动生成的标签labels与样本相似度logits求出标签损失函数L_label：

L_label＝CrossEntropyLoss(logits/τ,labels)

其中，CrossEntropyLoss可求出交叉熵。

在MoCo模型中，存在三个更新策略：用学生网络中第n+1个模块生成的相似度学习预训练教师网络第n+1个模块生成的相似度和第n模块生成的相似度，以此更新学生网络的网络参数，1≤n≤m。

用学生网络中第1个模块生成的相似度学习预训练教师网络第1个模块生成的相似度，用学生网络中第2个模块生成的相似度学习预训练教师网络第2个模块生成的相似度和第1模块生成的相似度，用学生网络中第3个模块生成的相似度学习预训练教师网络第3个模块生成的相似度和第2模块生成的相似度，以此更新学生网络的网络参数。

预训练教师网络和学生网络都根据自身各模块生成的相似度各自对网络参数进行更新，对应着三个损失函数：标签损失函数L_label、教师-学生网络损失函数L_st1、回顾损失函数L_st2。

将学生网络中第n+1个模块生成的相似度，向预训练教师网络中的第n+1个模块生成的相似度进行学习，以此更新学生网络的网络参数，具体如下：

利用预训练教师网络指导学生网络，即用预训练教师网络中第n+1个模块生成的相似度

与对应的学生网络中第n+1个模块生成的相似度

求出教师-学生网络损失函数L_st1：

将学生网络中第n+1个模块生成的相似度

向预训练教师网络中第n个模块生成的相似度

进行学习，以此更新学生网络的网络参数，将回顾损失函数定义为L_st2：

预训练教师网络根据损失函数L_label进行更新迭代，而学生网络的损失函数包括三个部分：标签损失函数L_label、教师-学生网络损失函数L_st1、回顾损失函数L_st2，则学生网络的损失函数L为：

L＝αL_label+βL_st1+γL_st2

其中，α，β，γ为损失函数L中的平衡系数；将教师-学生网络训练集中的所有图像分批次重复以上操作后，最终获得训练好的学生网络。

转入步骤S6。

步骤S6、在Instagram中随机采集M幅带标签的图像，100＜M＜1000，对上述M幅图像逐张统一尺寸后进行数据增强，得到像素大小为h×w的2M幅图像，构成学生网络测试集，转入步骤S7。

实施例1

本发明所述的基于MoCo模型的多模块知识蒸馏方法，步骤如下：

步骤S1、在Imagenet中随机采集5000幅带标签的图像，对这5000幅图像逐张进行尺寸的统一后进行数据增强，得到像素大小为256×256的10000幅图像，构成教师网络训练集。

步骤S3、在Instagram中随机采集50000幅图像，对这50000幅图像逐张进行尺寸的统一后进行数据增强，得到像素大小为256×256的100000幅图像，构成教师-学生网络训练集。

步骤S4、构建多模块知识蒸馏的MoCo模型：

所述MoCo模型包含了预训练教师网络和学生网络，将预训练教师网络和学生网络各自划分成一一对应的3个模块，提取每个模块生成的特征并输入编码器和动态编码器即可求出对应的相似度。在构建MoCo模型时，提取预训练教师网络和学生网络中每个模块生成的特征并输入编码器和动态编码器，其中，编码器和动态编码器可以被认为是为字典查找任务而训练的：编码器承担了生成查询特征的任务。动态编码器基于无监督学习的对比损失构建了大型且具有一致性的字典，其中，字典是以队列的形式表现出来的：当前的特征经过编码后得到的匹配样本特征进入队列，最先进入的一组匹配样本特征被清理出队列，在此处，字典可容纳500个匹配样本特征。

步骤S5、将教师-学生网络训练集以每个批次为128的数量输入多模块知识蒸馏的MoCo模型，得到预训练教师网络和学生网络各个模块对应生成的相似度，将学生网络各个模块生成的相似度根据该模块的对应关系，对预训练教师网络中对应模块生成的相似度和对应模块前一个模块生成的相似度进行学习，以此更新学生网络的网络参数。同时，预训练教师网络和学生网络都根据各个模块生成的相似度各自对网络参数进行更新，最终获得训练好的学生网络。

在MoCo模型中，存在三个更新策略：将学生网络各个模块生成的相似度根据该模块的对应关系，对预训练教师网络中对应模块生成的相似度和对应模块前一个模块生成的相似度进行学习，以此更新学生网络的网络参数。同时，预训练教师网络和学生网络都根据各个模块生成的相似度各自对网络参数进行更新，对应着三个损失函数。

步骤S6、在Instagram中随机采集500幅带标签的图像，对这500幅图像逐张进行尺寸的统一后进行数据增强，得到像素大小为256×256的1000幅图像，构成学生网络测试集。

步骤S7、将学生网络测试集输入多模块知识蒸馏的MoCo模型中训练好的的学生网络，输出学生网络测试集中每个样本对应的预测结果，测试训练好的学生网络的准确率。

Claims

1.一种基于MoCo模型的多模块知识蒸馏方法，其特征在于，步骤如下：

步骤S1、在Imagenet中随机采集K幅带标签的图像，1000＜K＜10000，对上述K幅图像逐张统一尺寸后进行数据增强，得到像素大小为h×w的2K幅带标签的图像，构成教师网络训练集，转入步骤S2；

步骤S2、将教师网络训练集输入教师网络，利用教师网络训练集对教师网络进行预训练，得到预训练教师网络，转入步骤S3；

步骤S3、在Instagram中随机采集N幅无标签的图像，10000＜N＜100000，对上述N幅图像逐张统一尺寸后进行数据增强，得到像素大小为h×w的2N幅无标签的图像，构成教师-学生网络训练集，转入步骤S4；

步骤S4、构建MoCo模型：

所述MoCo模型包括预训练教师网络、学生网络、编码器和动态编码器，将预训练教师网络划分成m个模块，并将学生网络也对应划分成m个模块，2<m<100；

转入步骤S5；

步骤S5、将教师-学生网络训练集输入MoCo模型，提取预训练教师网络和学生网络中各模块生成的特征，并将上述特征分别输入编码器和动态编码器进行编码，对应得到查询样本特征和匹配样本特征，求出查询样本特征和匹配样本特征的相似度；用学生网络中第n+1个模块生成的相似度学习预训练教师网络第n+1个模块生成的相似度和第n模块生成的相似度，以此更新学生网络的网络参数，1≤n≤m；同时，预训练教师网络和学生网络都根据自身各模块生成的相似度各自对网络参数进行更新，最终获得训练好的学生网络，转入步骤S6；

步骤S6、在Instagram中随机采集M幅带标签的图像，100＜M＜1000，对上述M幅图像逐张统一尺寸后进行数据增强，得到像素大小为h×w的2M幅图像，构成学生网络测试集，转入步骤S7；

2.根据权利要求1所述的基于MoCo模型的多模块知识蒸馏方法，其特征在于，步骤S5中，在MoCo模型中，提取预训练教师网络和学生网络中各模块生成的特征并输入编码器和动态编码器，其中，编码器和动态编码器采用相同结构，编码器承担了生成查询特征的任务；动态编码器基于无监督学习的对比损失构建具有一致性的字典，字典是以队列的形式表现出来的：

当前特征经过动态编码器编码后得到的匹配样本特征进入队列，最先进入的一组匹配样本特征被清理出队列；