CN116257751A

CN116257751A - 基于在线协作与特征融合的蒸馏方法与装置

Info

Publication number: CN116257751A
Application number: CN202310171773.5A
Authority: CN
Inventors: 梁兴柱; 刘稳; 徐良骥; 石峥映; 方贤进; 王列伟; 刘潇鹏; 顾成杰; 来文豪
Original assignee: Anhui University of Science and Technology
Current assignee: Anhui University of Science and Technology
Priority date: 2023-02-23
Filing date: 2023-02-23
Publication date: 2023-06-13

Abstract

本发明公开了一种基于在线协作与特征融合的蒸馏方法与系统，所述方法包括：步骤1：多尺度提取中间层和最后一层的特征；步骤2；将步骤1得到的特征累加和提前融合；步骤3：将步骤2得到的特征输送到双重注意力网络；步骤4：将步骤3得到的新的特征进行融合形成一个分类器，该融合分类器是作为教师网络去指导学生网络学习。本发明旨在通过特征累加和早融合的方法来充分利用各个学生的表征知识，从而提升各网络的性能。

Description

基于在线协作与特征融合的蒸馏方法与装置

1、技术领域

本发明涉及深度学习模型压缩与加速研究领域，尤其涉及一种基于在线协作与特征融合的知识蒸馏方法与系统。

2、背景技术

卷积神经网络(CNN)作为深度学习中最重要的技术，在许多任务中表现出优异的性能。然而，为了获得更高的准确度，CNN进一步扩展了通道和层的数量，随之而来的是参数和计算数量的指数增长。这对于在边缘设备上部署模型来说是一个巨大的挑战。针对上述问题，现有技术提出了许多模型压缩和加速方法，主要包括网络剪枝、权重量化、轻量级网络设计和知识蒸馏。(1)作为一种三阶段方法，网络剪枝需要对模型进行预训练，根据重要性评估结果剪枝不重要的通道，最后进行微调以恢复性能。这种方法非常耗时。此外，即使经过微调，网络通常仍然或多或少地受到性能下降的影响。(2)权重量化通过压缩模型权重的位数来减少计算量和参数，从而使模型可以部署在特定硬件。(3)轻量级网络设计依赖于设计者的经验和大量的实验。(4)与上述方法不同，知识蒸馏通过教师网络到学生网络的知识转移来实现模型的压缩和加速。紧凑的学生网络从繁琐的教师网络那里学习知识，例如，类预测作为软目标、特征映射激活边界和中间层特征映射。教师网络和学生网络是在同一任务下训练的，并且利用教师网络的知识作为监督信号来训练紧凑的学生，使学生网络能够以较少的资源消耗实现优异的性能。然而，我们需要预先训练一个繁琐的教师网络，并在学生网络训练过程中使用它的同步推理结果。这些过程的资源成本成为其实际应用的最终障碍。

为了避免培训额外的教师网络，现有技术在知识蒸馏方法的基础上提出了在线协同的知识蒸馏。该方法没有提前预设好的强弱师生关系，而是协调几个平行学生网络，并对它们进行迭代训练以学习互补的特征，从而构建一个更广泛的网络。然后融合了两个流的特征并将其传递给融合分类器。融合后的分类器和子网络的分类器的组合优于独立训练的网络。尽管如此，它面临以下挑战：(1)这种方法只关注融合分类器的性能。子网络的性能明显低于以相同结构独立训练的网络的性能，这意味着忽略了子网络和融合分类器之间的积极协同作用。这也会影响到融合分类器的性能；(2)因为她直接结合了特征图，所以它只适合用于子网络具有相同的结构时。

3、发明内容

本发明要解决的技术问题：针对现有的在线知识蒸馏方法所面临的上述技术问题，提供了一种基于在线协作与特征融合的知识蒸馏方法与系统，本命旨在充分利用学生网络的中间层和最后一层的特征，使得融合分类器和各个学生网络的准确度得到很大程度上的提升。

为了解决上述技术问题，本发明采用的技术方案为：

一种基于在线协作与特征融合的知识蒸馏方法，包括采用基于在线协作与特征融合的知识蒸馏网络进行图像分类训练或应用，所述基于在线协作与特征融合的知识蒸馏网络包括相互连接的多尺度特征提取网络、特征累加和融合网络，双重注意力机制、融合模块和分类器网络，利用多尺度特征提取各个学生网络的中间层和最后一层的特征图，然后再将中间层特征累加起来，类似的操作也应用在中间层与最后一层，将获得的两层经过累加之后的特征图进行融合，将此次提前融合获得的特征图在经过双重注意力机制之后与其他网络中经过相同操作的特征图再次融合，可以获得融合的特征网络F_ij。

可选地，所述融合特征F_ij的函数表达式为：

上式中，n表示的是学生网络的数量F_i为从第i个学生网络获得的特征图，F_j为从第j个学生网络获得的特征图。

可选地，所述的特征累加和提前融合模块是在获得两层中间特征图和最后一层特征图之后，我们首先将得到的两层中间特征图进行按位累加操作，即F_i1+F_i2，即为F_i12。然后，我们将中间层跟最后一层的特征图进行按位累加，即F_i2+F_i3，得到F_i23。再将两次累加得到的特征图F_i12和F_i23实施cat操作，且将操作之后的特征图视为F_i。再对另一条网络执行完全相同的操作，我们能得到F_j。

可选地，所述的双重注意力机制包括计算通道注意力和计算空间注意力两条平行的路径以及特征图更新模块，其中计算空间注意力的步骤包括：(1)将输入特征图F_i通过Conv1×1的卷积从空间维度R^W*H*C降为R^W*H*1，得到特征图F_{i_s}，其中W为宽度，H为高度，C为通道，R为维度；(2)对特征图F_{i_s}在H与W两个维度进行分别进行平均池化操作，得到两个一维的全局特征F_{i_sH}∈R^W*1*1、F_{i_sH}∈R^1*H*1；运用激活函数sigmoid对得到的H和W维度上的全局特征进行归一化，并将归一化后的两个特征向量计算外积，得到空间注意力矩阵A_s∈R^W*H*1；计算通道注意力的步骤包括(1)将输入特征图F_i通过平均池化操作从空间维度R^W*H*C降为R¹ ^*1*C，得到特征图F_{i_c}；(2)通过Conv1×1卷积将i_c进行降维之后再升维，得到预权重向量F_i-pre∈R^1*1*C；(3)运用激活函数sigmoid对得到的预权重向量i-pre进行归一化，得到最终的通道注意力向量A_c∈R^1*1*C；所述特征图更新模块用于将计算通道注意力和计算空间注意力两条平行的路径的输出融合为更新后的特征图，所述将计算通道注意力和计算空间注意力两条平行的路径的输出融合为特征图的函数表达式为：

上式中F_{i_At}为从第i个学生网络获得的融合特征图。

可选地，所述特征融合模块和分类器网络以汇总并最大限度地利用学生模型的信息。将以前处理过的学生的有意义的特征图连接起来，如果特征图的分辨率不同，就应用卷积回归器使其相同。然后，将它们连接起来，并将结果发送到转移层，转移层由一连串的纵深和点卷积操作组成。最后，我们融合学生模型的特征信息，并将其送入一个融合分类器，该分类器由地面真实标签监督。

可选地，根据权利要求6所述的基于在线协作与特征融合的知识蒸馏方法，其特征在于，所述采用基于在线协作与特征融合的知识蒸馏网络进行图像分类训练时，还包括采用感知机来

进行图像分类训练，所述感知机用于根据输入的多个学生模型分类预测概率得到融合预测概率，所述采用基于在线协作与特征融合的知识蒸馏网络进行图像分类训练时，每一轮训练包括：

S1)将训练数据输入到学生网络中，由学生网络中的特征提取网络，通过特征提取网络得到的中间层和最后一层特征图F_i1、F_i2、F_i3，获得两层中间特征图和最后一层特征图之后，我们首先将得到的两层中间特征图进行按位累加操作，即F_i1+F_i2，即为F_i12。然后，我们将中间层跟最后一层的特征图进行按位累加，即F_i2+F_i3，得到F_i23。再将两次累加得到的特征图F_i12和F_i23实施cat操作，且将操作之后的特征图视为F_i，再将F_i连接经过相同操作得到的第j个学生网络的特征图F_j；

S2)将多个学生网络得到的特征图融合预测概率作为可学习参数的感知机的输入，通过该感知机输出一个一维的融合预测概率，根据融合预测概率与样本真实标签之间的差异损失，若差异损失达到预定值误差范围内，则判定得到最优的融合预测概率，跳转执行下一步；否则，通过梯度下降的方法更新感知机的参数，跳转执行步骤S1)以继续训练感知机；

S3)将最优的融合预测概率作为知识蒸馏中的老师，基于训练数据对各个学生网络以及集成网络进行训练以实现知识迁移、完成知识蒸馏。

此外，本发明还提供了一种基于在线协作与特征融合的知识蒸馏系统，包括相互连接的微处理器和存储器，其特征在于，该微处理器和编程或配置以执行权利要求1～7中任意一项所述基于在线协作与特征融合的知识蒸馏方法的步骤。

此外，本发明还提供了一种计算机可读存储介质，其特征在于，该计算机可读存储介质中存储有用于被计算机设备执行以实施权利要求1～7中任意一项所述基于在线协作与特征融合的知识蒸馏方法的步骤。

和现有技术相比，本发明具有下述优点：

1.本发明利用多尺度特征提取各个学生网络的中间层和最后一层的特征图，然后再将中间层特征累加起来，类似的操作也应用在中间层与最后一层，将获得的两层经过累加之后的特征图进行融合，将此次提前融合获得的特征图在经过双重注意力机制之后与其他网络中经过相同操作的特征图再次融合，可实现模型压缩与加速。

2.本发明中的多尺度特征提取和早融合丰富了特征融合模块与预测融合的知识来源，并且特征融合网络与感知机能够充分利用不同子网络的知识，构建更加强大的知识源用于引导基于在线协作与特征融合的知识蒸馏网络中的多个学生网络的训练。

3.本发明的方法为实际应用提供了具有不同计算量与存储消耗的多个网络，用户可以根据实际环境限制选择合适准确度与计算量、存储消耗的网络部署。本发明的方法通过特征融合和预测融合实现网络间的在线协作学习，可在不影响性能的情况下减少网络参数和计算量的优势，这对于资源有限的实际场景至关重要。

4、附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实例中基于在线协作与特征融合的知识蒸馏的结构示意图。

图2为本发明中多尺度特征提取的结构示意图。

图3为本发明实例中特征累加和早融合结构示意图。

图4为本发明实例中双重注意力机制的结构示意图。

图5为本发明实例中融合模块的结构示意图。

5、具体实施方式

为了使本技术领域的人员更好地理解本发明的技术方案，下面结合附图对本发明作进一步的详细说明。

实施例一：

本实施例基于在线协作与特征融合的知识蒸馏方法，其特征在于，包括采用基于在线协作与特征融合的知识蒸馏网络进行图像分类训练或应用，所述基于在线协作与特征融合的知识蒸馏网络包括相互连接的特征提取网络、特征累加和提前融合网络、双重注意力网络、融合模块和分类器网络，利用多尺度特征提取各个学生网络的中间层和最后一层的特征图，然后再将中间层特征累加起来，类似的操作也应用在中间层与最后一层，将获得的两层经过累加之后的特征图进行融合，将此次提前融合获得的特征图通过双重注意力机制之后与其他网络中经过相同操作的特征图再次融合，形成一个融合分类器，该融合分类器在融合了多个学生网络的特征成为了F_ij之后可以作为教师网络去指导学生网络学习。

如图2所示，作为一种可选的实施方式，本实例中学生网络的个数为2，即上述所描述的操作需要在两个网络中同时进行，融合两个学生网络的特征用于构造融合的特征知识源，本实施例中，融合的特征图F_ij的表达式为：

上式中，n表示的是学生网络的数量F_i为从第i个学生网络获得的特征图，F_j为从第j个学生网络获得的特征图。本实施例中，两个学生网络产生的特征图包括两层中间层和最后一层经过累加和融合产生了F_ij。

本实例中学生主干网络具体采用ResNet网络，其中首层(用于通道扩展的卷积层)为Conv7×7的卷积层，其余池化层和卷积组块均遵循ResNet网络的始网络结构设定。记学生网络的两层中间层和最后一层的特征分别为F_i1、F_i2和F_i3，类似地，也可以得到另一条网络的F_j1、F_j2和F_j3

如图3所示学生网络的核心操作是两层中间特征图进行按位累加操作，即F_i1+F_i2，即为F_i12。然后，我们将中间层跟最后一层的特征图进行按位累加，即F_i2+F_i3，得到F_i23。再将两次累加得到的特征图F_i12和F_i23实施cat操作，且将操作之后的特征图视为F_i。再对另一条网络执行完全相同的操作，得到F_j。

本实施例中，多个学生网络再进行特征提取累加和提前融合之后，所述注意力机制用于对输入的特征图权重建模得到更新后的特征图。

如图4所示，本实施例中所述的双重注意力机制包括计算通道注意力和计算空间注意力两条平行的路径以及特征图更新模块，其中计算空间注意力的步骤包括：(1)将输入特征图F_i通过Conv1×1的卷积从空间维度R^W*H*C降为R^W*H*1，得到特征图F_{i_s}，其中W为宽度，H为高度，C为通道，R为维度；(2)对特征图F_{i_s}在H与W两个维度进行分别进行平均池化操作，得到两个一维的全局特征F_{i_sH}∈R^W*1*1、F_{i_sH}∈R^1*H*1；运用激活函数sigmoid对得到的H和W维度上的全局特征进行归一化，并将归一化后的两个特征向量计算外积，得到空间注意力矩阵A_s∈R^W*H*1；计算通道注意力的步骤包括(1)将输入特征图F_i通过平均池化操作从空间维度R^W*H*C降为R^1*1*C，得到特征图F_{i_c}；(2)通过Conv1×1卷积将i_c进行降维之后再升维，得到预权重向量F_i-pre∈R^1*1*C；(3)运用激活函数sigmoid对得到的预权重向量i-pre进行归一化，得到最终的通道注意力向量A_c∈R^1*1*X；所述特征图更新模块用于将计算通道注意力和计算空间注意力两条平行的路径的输出融合为更新后的特征图。

本实施例中，将计算通道注意力和计算空间注意力两条平行的路径的输出融合为特征图的函数表达式为：

上式中，F_{i_At}为第i个学生网络输出的更新后的特征图。

注意力模块在顶部和底部包含两条平行路径，顶部路径计算通道注意力，而底部路径计算空间注意力。一个下采样层只能实现对输入特征图在H和W两个维度尺寸缩减一半以及将输入通道转换至C_out，为使得所有辅助分支最后输出的特征图维数与主干网络最后一层输出特征图一致，下采样层模块设置N来调节下采样层数量。

本实例中，分类器网络中的知识来源于多个学生网络的中间层特征累加和提前融合。

本实施例中采用基于在线协作与特征融合的知识蒸馏方法，其特征在于，所述采用基于在线协作与特征融合的知识蒸馏网络进行图像分类训练时，还包括采用感知机来进行图像分类训练，所述感知机用于根据输入的多个学生模型分类预测概率得到融合预测概率，所述采用基于在线协作与特征融合的知识蒸馏网络进行图像分类训练时，每一轮训练包括：

本实施例中，各个学生网络的预测概率与样本真实标签之间的差异损失为交叉熵损失函数，其计算表达式为：

上式中

表示k个学生网络预测概率与样本真实标签之间的差异损失，L_CE值越大，表示两个预测概率与真实样本差异越大,y表示样本真实标签，P_i表示的是第i个学生的预测概率，log是自然对数,T是控制软化的温度因子。具体地本实施例中利用多尺度特征提取各个学生网络的中间层和最后一层的特征图，然后再将中间层特征累加起来，类似的操作也应用在中间层与最后一层，将获得的两层经过累加之后的特征图进行融合，将此次提前融合获得的特征图通过双重注意力机制之后与其他网络中经过相同操作的特征图再次融合，形成一个融合分类器，该融合分类器在融合了多个学生网络的特征成为了F_ij之后可以作为教师网络去指导学生网络学习，即：融合预测概率与样本真实标签之间的差异损失的函数表达式为：

上式中

表示的是融合学生网络的预测概率。

S3)将最优的融合预测概率作为知识蒸馏中的软目标，基于训练数据对多个学生网络和集成学生网络进行训练以实现知识迁移、完成知识蒸馏。

实施例中采用基于在线协作与特征融合的知识蒸馏网络进行图像分类训练采用自适应集成的方法进行预测融合，以构建具有更强鲁棒性的融合预测概率用于指导各网络学习。

本实施例中，基于训练数据对多个学生网络以及特征融合网络进行训练以实现知识迁移、完成知识蒸馏时，损失函数表示为：

上式中，P_f为融合预测概率，L_kl是用来描述融合预测概率P_f和单个的学生网络的预测概率P_k之间相似程度，L_kl的值越大，表示两个概率差异越大。在网络训练中，通过最小化L_kl来实现第k个网络预测概率

中各个类别的概率分布与融合预测概率分布尽可能一致。

如图5所示，本实施例中引入了中间层的特征，并提前将中间层的特征融合收集到更多的知识，然后通过融合模块进行卷积操作。为了减少参数的数量，我们使用简单的深度卷积和1×1的卷积，即使用的pointwise卷积。让网络中间层的特征先一步的按位累加，将此操作执行两次，得到两个新的特征图。该特征图有足够的网络表达能力。让C₁和C₂成为上述两个融合之后特征图的通道数，那么来自融合后的特征图H的通道数将是C₁+C₂。融合后的通道数目为C,可以根据需要操作。如图所示，我们首先进行3×3深度卷积，对每个输入通道应用一个滤波器，然后应用点卷积，对特征图的片段进行线性组合，以便将它们结合起来。

本实施例中，具体采用数据集CIFAR100用于评价知识蒸馏效果，评价指标为分类准确度，准确度越高表示模型越好。其中CIFAR100是图像分类任务中最常用的基准数据集，包含50000个训练样本和10000个测试样本，包含100个不同类别，所有样本均为分辨率为32×32的RGB图像。

综上所述，本实施例基于在线协作与特征融合的蒸馏方法与系统，该蒸馏方法包括特征提取网络、特征累加和提前融合网络、双重注意力网络、融合模块和分类器网络。利用多尺度特征提取各个学生网络的中间层和最后一层的特征图，然后再将中间层特征累加起来，类似的操作也应用在中间层与最后一层，将获得的两层经过累加之后的特征图进行融合，将此次提前融合获得的特征图在经过双重注意力机制之后与其他网络中经过相同操作的特征图再次融合，转换后得到语义信息更加丰富的融合特征图，形成一个分类器，该融合分类器是作为教师网络去指导学生网络学习。本发明旨在通过特征累加和早融合的方法来充分利用各个学生的表征知识，从而提升各网络的性能。本实施例的方法展示在不影响性能的情况下减少网络参数和计算量的优势，这对于资源有限的实际场景至关重要，此外，本实施例的方法为实际应用提供了具有不同计算量与存储消耗的多个网络，用户可以根据实际环境限制选择合适准确度与计算量、存储消耗的网络部署。

在一个实施例中，本实施例提供了一种基于在线协作与特征融合的知识蒸馏方法，包括预处理后的数据集、特征提取网络、特征累加和提前融合网络、双重注意力网络、融合模块和分类器网络。利用多尺度特征提取各个学生网络的中间层和最后一层的特征图，然后再将中间层特征累加起来，类似的操作也应用在中间层与最后一层，将获得的两层经过累加之后的特征图进行融合，将此次提前融合获得的特征图在经过双重注意力机制之后与其他网络中经过相同操作的特征图再次融合，形成一个分类器，该融合分类器是作为教师网络去指导学生网络学习。

此外，本实施例还提供一种基于在线协作与特征融合的知识蒸馏系统，包括相互连接的微处理器和存储器，该微处理器和编程或配置以执行前述基于在线协作与融合的知识蒸馏方法的步骤。此外，本实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有用于被计算机设备执行以实施前述基于在线协作与特征融合的知识蒸馏方法的步骤。

实施例二：

本实施例与实施例一基本相同，其主要区别在于学生网络采用的是异构网络，进行的操作也是同实施例一相同。

此外，本实施例还提供一种基于在线协作与特征融合的知识蒸馏系统，包括相互连接的微处理器和存储器，该微处理器和编程或配置以执行前述基于在线协作与融合的知识蒸馏方法的步骤。此外，本实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有用于被计算机设备执行以实施前述基于在线协作与融合的自我知识蒸馏方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于在线协作与特征融合的知识蒸馏方法，其特征在于，包括采用基于在线协作与特征融合的知识蒸馏网络进行图像分类训练或应用，所述基于在线协作与特征融合的知识蒸馏网络包括相互连接的特征提取网络、特征累加和提前融合网络、双重注意力网络、融合模块和分类器网络，利用多尺度特征提取各个学生网络的中间层和最后一层的特征图，然后再将中间层特征累加起来，类似的操作也应用在中间层与最后一层，将获得的两层经过累加之后的特征图进行融合，将此次提前融合获得的特征图通过双重注意力机制之后与其他网络中经过相同操作的特征图再次融合，形成一个融合分类器，该融合分类器在融合了多个学生网络的特征成为了F_ij之后可以作为教师网络去指导学生网络学习。

2.根据权利要求1所述的基于在线协作与特征融合的知识蒸馏方法，其特征在于，所述的函数表达式为：

上式中，n表示为了学生网络的数量F_i是第i个学生网络产生的特征图，F_j是第j个学生网络产生的特征图，cat指的是对特征图进行的连接操作。

3.根据权利要求1所述的基于在线协作与特征融合的知识蒸馏方法，其特征在于，所述的多尺度特征的提取是在多个学生网络的多个中间层F_i1，F_i2，和最后一层的特征图F_i3。类似地，我们提取第j个学生模型的中间层特征图和最后一层特征的输出分别为F_j1，F_j2和F_j3。

4.根据权利要求1所述的基于在线协作与特征融合的知识蒸馏方法，其特征在于，其所述的特征累加和提前融合模块是在获得两层中间特征图和最后一层特征图之后，我们首先将得到的两层中间特征图进行按位累加操作，即F_i1+F_i2，即为F_i12。然后，我们将中间层跟最后一层的特征图进行按位累加，即F_i2+F_i3，得到F_i23。再将两次累加得到的特征图F_i12和F_i23实施cat操作，且将操作之后的特征图视为F_i。再对另一条网络执行完全相同的操作，我们能得到F_j。

5.根据权利要求1所述的基于在线协作与特征融合的知识蒸馏方法，其特征在于，所述注意力模块包括计算通道注意力和计算空间注意力两条平行的路径以及特征图更新模块，其中计算空间注意力的步骤包括：(1)将输入特征图F_i通过Conv1×1的卷积从空间维度R^W ^*H*C降为R^W*H*1，得到特征图F_{i_s}，其中W为宽度，H为高度，C为通道，R为维度；(2)对特征图F_{i_s}在H与W两个维度进行分别进行平均池化操作，得到两个一维的全局特征F_{i_sH}∈R^W*1*1、F_{i_sH}∈R^1*H*1；运用激活函数sigmoid对得到的H和W维度上的全局特征进行归一化，并将归一化后的两个特征向量计算外积，得到空间注意力矩阵A_s∈R^W*H*1；计算通道注意力的步骤包括(1)将输入特征图F_i通过平均池化操作从空间维度R^W*H*C降为R^1*1*C，得到特征图F_{i_c}；(2)通过Conv1×1卷积将i_c进行降维之后再升维，得到预权重向量F_i-pre∈R^1*1*C；(3)运用激活函数sigmoid对得到的预权重向量i-pre进行归一化，得到最终的通道注意力向量A_c∈R^1*1*C；所述特征图更新模块用于将计算通道注意力和计算空间注意力两条平行的路径的输出融合为更新后的特征图，所述将计算通道注意力和计算空间注意力两条平行的路径的输出融合为特征图的函数表达式为：

上式中F_{i_At}为从第i个学生网络获得的融合特征图。

6.根据权利要求1所述的基于在线协作与特征融合的知识蒸馏方法，其特征在于，所述特征融合模块和分类器网络以汇总并最大限度地利用学生模型的信息。将以前处理过的学生的有意义的特征图连接起来，如果特征图的分辨率不同，就应用卷积回归器使其相同。然后，将它们连接起来，并将结果发送到转移层，转移层由一连串的纵深和点卷积操作组成。最后，我们融合学生模型的特征信息，并将其送入一个融合分类器，该分类器由地面真实标签监督。

7.根据权利要求6所述的基于在线协作与特征融合的知识蒸馏方法，其特征在于，所述采用基于在线协作与特征融合的知识蒸馏网络进行图像分类训练时，还包括采用感知机来进行图像分类训练，所述感知机用于根据输入的多个学生模型分类预测概率得到融合预测概率，所述采用基于在线协作与特征融合的知识蒸馏网络进行图像分类训练时，每一轮训练包括：

8.一种基于在线协作与特征融合的知识蒸馏系统，包括相互连接的微处理器和存储器，其特征在于，该微处理器和编程或配置以执行权利要求1～7中任意一项所述基于在线协作与特征融合的知识蒸馏方法的步骤。

9.一种计算机可读存储介质，其特征在于，该计算机可读存储介质中存储有用于被计算机设备执行以实施权利要求1～7中任意一项所述基于在线协作与特征融合的知识蒸馏方法的步骤。