CN113627545B

CN113627545B - 一种基于同构多教师指导知识蒸馏的图像分类方法及系统

Info

Publication number: CN113627545B
Application number: CN202110937984.6A
Authority: CN
Inventors: 姬冰; 徐全政; 崔贺; 赵景太; 刘力瑜
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-08-16
Filing date: 2021-08-16
Publication date: 2023-08-08
Anticipated expiration: 2041-08-16
Also published as: CN113627545A

Abstract

本发明属于图像分类技术领域，提供了一种基于同构多教师指导知识蒸馏的图像分类方法及系统。该方法包括，基于给定的学生模型，初始化与学生模型结构相同的教师组模型；采用训练集预训练教师组模型；计算教师组模型在训练集上的自信度，基于自信度的自适应初始化策略初始化学生模型参数；采用教师组模型中的各个教师模型联合指导完成模型参数初始化的学生模型；基于待分类的图像，采用优化后的学生模型，得到分类结果。

Description

一种基于同构多教师指导知识蒸馏的图像分类方法及系统

技术领域

本发明属于图像分类技术领域，尤其涉及一种基于同构多教师指导知识蒸馏的图像分类方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

在自动驾驶领域，网络模型的实时性是一项十分重要的指标。模型需要根据摄像头传入的图片进行分类判断,然后进行驾驶决策。这就需要模型能够快速响应,短时间内得到分类结果。但现阶段的高性能模型参数量较多,一般无法实时响应。这就需要使用模型压缩技术对大模型进行压缩,得到规模较小模型的同时,不会造成太大的精度损失。

知识蒸馏是一种有效的知识转移策略，它建立一个教师-学生框架，通过让学生网络尽可能匹配教师网络的输出，从而将一个大型教师网络的知识转移到一个相对轻量级的学生网络中，使学生网络达到与教师相当的推理性能。然而，现有研究侧重于在传统师生框架下提高知识蒸馏的性能，而忽视了师生框架本身的一些潜在的局限性。具体来说，传统师生框架中存在着能力不匹配的困境，即小型学生网络无法完全模仿大型教师网络的输出。容量越大、精度越高的教师网络，其指导出的学生网络的性能却不一定更好。这说明教师和学生的能力差距可能会抑制知识蒸馏性能的进一步提高。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种基于同构多教师指导知识蒸馏的图像分类方法及系统，其用一组与学生模型结构相同的多个小教师模型代替传统的大教师模型，以缓解教师与学生能力差距所带来的负面影响，从而提高学生模型的性能，提高模型响应速度的同时保证图像分类的精度。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于同构多教师指导知识蒸馏的图像分类方法。

一种基于同构多教师指导知识蒸馏的图像分类方法，包括：

基于给定的学生模型，初始化与学生模型结构相同的教师组模型；

采用训练集预训练教师组模型；

计算教师组模型在训练集上的自信度，基于自信度的自适应初始化策略初始化学生模型参数；

采用教师组模型中的各个教师模型联合指导完成模型参数初始化的学生模型；

基于待分类的图像，采用优化后的学生模型，得到分类结果。

本发明的第二个方面提供一种基于同构多教师指导知识蒸馏的图像分类方系统。

一种基于同构多教师指导知识蒸馏的图像分类系统，包括：

模型确定模块，其被配置为：基于给定的学生模型，初始化与学生模型结构相同的教师组模型；

模型训练模块，其被配置为：采用训练集预训练教师组模型；

模型参数优化模块，其被配置为：计算教师组模型在训练集上的自信度，基于自信度的自适应初始化策略初始化学生模型参数；

知识蒸馏模块，其被配置为：采用教师组模型中的各个教师模型联合指导完成模型参数初始化的学生模型；

分类模块，其被配置为：基于待分类的图像，采用优化后的学生模型，得到分类结果。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一个方面所述的基于同构多教师指导知识蒸馏的图像分类方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一个方面所述的基于同构多教师指导知识蒸馏的图像分类方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明有效缓解了传统知识蒸馏框架下的师生模型容量差距所带来的负面影响。

本发明相比于传统知识蒸馏，对于给定的学生模型，在教师组总容量与传统单个大教师相当的情况下(即不增加教师容量)，知识蒸馏的性能得到明显提升。

本发明所提出的全连接层的行向量相似度损失L_RVS，不仅可用于知识蒸馏任务，对于常规的图像分类任务，依然可以取得有效提升，具有很好的通用性。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明基于同构多教师指导知识蒸馏的图像分类方法的流程图；

图2是本发明基于同构多教师指导知识蒸馏的图像分类方法的整体框架图；

图3是本发明最佳教师模型的选择流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要注意的是，附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意，在有些作为备选的实现中，方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，或者它们有时也可以按照相反的顺序执行，这取决于所涉及的功能。同样应当注意的是，流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合，可以使用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以使用专用硬件与计算机指令的组合来实现。

实施例一

如图1所示，本实施例提供了一种基于同构多教师指导知识蒸馏的图像分类方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器和系统，并通过终端和服务器的交互实现。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。本实施例中，该方法包括以下步骤：

S101：基于给定的学生模型，初始化与学生模型结构相同的教师组模型；

具体的，本实施例采用一组与学生模型结构相同的多个小教师模型代替传统的大教师模型，以缓解教师与学生能力差距所带来的负面影响。学生模型将学习由这个教师组联合提供的知识。本实施例方法的整体框架如图2所示。

S102：采用训练集预训练教师组模型；

S103：计算教师组模型在训练集上的自信度，基于自信度的自适应初始化策略初始化学生模型参数；

具体的，我们观察到教师模型在训练集上的自信度会影响知识蒸馏的性能。因此，设计了一种基于自信度的自适应的初始化策略，来对阶段二的学生网络的参数进行初始化。具体来说，当教师组的自信度在我们预设的数值范围之内时，则使用继承初始化来初始化学生网络的权重参数，否则使用正常初始化(即随机初始化)。继承初始化是指，在预训练的教师组中，选取性能最优的一个教师网络，并使用其权重参数，直接初始化学生网络(因为任一教师成员均与学生同构，因此可行)。

S104：采用教师组模型中的各个教师模型联合指导完成模型参数初始化的学生模型；

S105：基于待分类的图像，采用优化后的学生模型，得到分类结果。

本实施例的方法分为两个阶段：阶段一，对教师组模型的每个模型进行独立预训练。阶段二，每个教师模型的知识都独立、同步地提炼到学生模型中，这与传统知识蒸馏中的单个大教师模型明显不同。

作为一种或多种实施方式，所述教师组模型的自信度为：所有教师模型在训练集所有真实类别上预测概率的平均值。

作为一种或多种实施方式，所述基于自信度的自适应初始化策略初始化学生模型参数包括：当教师组模型的自信度在预设的数值范围之内，则采用继承初始化来初始化学生模型参数；否则，采用随机初始化来初始化学生模型参数。

具体的，给定学生模型，独立初始化n个与学生模型结构相同的教师模型，这n个教师模型构成一个教师组模型，代替传统的单个大教师模型，为保证相对公平，我们将教师组模型的总容量控制在与单个大教师模型容量相当。

使用相同的训练集，独立、并行地完成n个教师模型的预训练。

计算教师组模型在训练集上的自信度C_group，并根据C_group是否达到预设数值范围[C_low,C_high]，自适应地选择对学生模型进行正常初始化或继承初始化。在本实施例中，每个教师模型的自信度被定义为：该教师模型在训练集所有真实类别上的预测概率的平均P_ave：

其中，M表示训练集样本数量，表示教师模型对第i个样本的真实类别的预测概率。进一步，教师组模型的自信度C_group被定义为所有教师模型的自信度的平均：

当C_group达到预设数值范围[C_low,C_high]之内时，则对学生模型进行继承初始化，否则进行正常初始化。

作为一种或多种实施方式，所述继承初始化指的是：在预训练的教师组模型中，选取性能最优的教师模型，依据该模型的权重参数初始化学生模型。

作为一种或多种实施方式，所述选取性能最优教师模型的过程包括：对每个教师模型的输出T_k进行加权集成，当集成结果预测P_E在验证集上达到最佳准确率时，此时所对应的一系列权重系数W₁,W₂,...,W_n即最佳权重系数，取最大权重系数所对应的教师模型为最佳教师模型。其中，T_k表示每个教师模型输出的logits向量，形如[0,0.5,0.1,0.1,0.3]。

根据步骤，若确定对学生模型使用继承初始化，则还需要选出教师组模型中最优的一个教师模型，使用其权重参数对学生模型进行初始化。为确定一个合适的教师模型用于继承初始化，对每个教师模型的输出T_k进行加权集成，并使用这个集成预测P_E来评估验证集，如图3所示。

其中，W_k表示第k个教师模型的输出所对应的权重系数，且本实施例对所有权重系数在[0,1]之间进行迭代，以尝试教师组模型输出的各种组合。当集成预测P_E在验证集上达到最佳准确率时，此时所对应的一系列权重系数W₁,W₂,...,W_n即最佳权重系数。特别地，本实施例取最大权重系数所对应的教师模型作为最佳教师模型，并使用其全部的网络权重参数对学生模型进行继承初始化。

作为一种或多种实施方式，所述学生模型的优化包括：采用损失函数优化学生模型分类层。

具体的，采用损失函数，针对学生网络的分类层(即全连接层)的权重矩阵，通过约束其行向量间的相似性，来进一步提升学生网络的分类性能。

作为一种或多种实施方式，优化过程中，学生模型的总目标函数为：

L_CE(·)表示经典交叉熵损失，表示第k个教师成员与学生之间的KL散度损失；α和β是这两项损失的平衡系数；p_S表示学生网络的软目标输出，/>表示第k个教师组成员的软目标输出；L_RVS是全连接层的行向量相似度损失，γ是L_RVS的平衡系数。

具体的，对于已经完成网络参数初始化的学生模型，其在正常训练过程中，还将独立、同时地接受教师组模型所有成员(包括步骤中的最佳教师模型)的知识进行知识蒸馏。学生模型的目标函数如下：

其中，L_CE(·)表示经典交叉熵损失，表示第k个教师模型与学生模型之间的KL散度损失。α和β是这两项损失的平衡系数。p_S表示学生模型的软目标输出，/>表示第k个教师模型的软目标输出。W_k是步骤中得到的第k个教师模型的输出所对应的权重系数，它也被分配给了对应的/>损失项，以达到更佳的知识蒸馏效果。

在步骤的基础上，在学生模型的训练和知识蒸馏过程中，本实施例对学生模型的分类层，即全连接层，进行优化。任取全连接层权重矩阵的两个行向量v_i和v_j，计算它们的余弦相似度：

再对这个相似度 _fj设置合适的目标值t，并使用平方差损失进行优化：

其中t的取值范围在[-1,1]之间。最后，对全连接层权重矩阵的所有行向量，两两之间计算公式(6)，即得到最终的全连接层的行向量相似度损失L_RVS：

其中，表示在K个行向量中任选2个的组合总数。

整个算法的学生模型的总目标函数如下：

本发明的最终目的在于获得一个高精度的学生模型，因此在模型推理及部署阶段，教师组模型均被移除，仅保留学生模型，不会带来额外的计算量和部署成本。

实施例二

本实施例提供了一种基于同构多教师指导知识蒸馏的图像分类系统。

一种基于同构多教师指导知识蒸馏的图像分类系统，包括：

此处需要说明的是，上述模型确定模块、模型训练模块、模型参数优化模块、知识蒸馏模块和分类模块对应于实施例一中的步骤S101至S105，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于同构多教师指导知识蒸馏的图像分类方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于同构多教师指导知识蒸馏的图像分类方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于同构多教师指导知识蒸馏的图像分类方法，其特征在于，包括：

采用训练集预训练教师组模型；

计算教师组模型在训练集上的自信度，基于自信度的自适应初始化策略初始化学生模型参数；所述教师组模型的自信度为：所有教师模型在训练集所有真实类别上预测概率的平均值；所述基于自信度的自适应初始化策略初始化学生模型参数包括：当教师组模型的自信度在预设的数值范围之内，则采用继承初始化来初始化学生模型参数；否则，采用随机初始化来初始化学生模型参数；所述继承初始化指的是：在预训练的教师组模型中，选取性能最优的教师模型，依据该模型的权重参数初始化学生模型；

基于待分类的图像，采用优化后的学生模型，得到分类结果；

所述学生模型的优化包括：采用损失函数优化学生模型分类层；优化过程中，学生模型的总目标函数为：

L_CE(·)表示经典交叉熵损失，表示第k个教师模型与学生模型之间的KL散度损失；α和β是这两项损失的平衡系数；p_S表示学生模型的软目标输出，/>表示第k个教师模型的软目标输出；L_RVS是全连接层的行向量相似度损失，γ是L_RVS的平衡系数。

2.根据权利要求1所述的基于同构多教师指导知识蒸馏的图像分类方法，其特征在于，所述选取性能最优教师模型的过程包括：对每个教师模型的输出T_k进行加权集成，当集成结果预测P_E在验证集上达到最佳准确率时，此时所对应的一系列权重系数w₁,w₂,…,w_n即最佳权重系数，取最大权重系数所对应的教师模型为最佳教师模型。

3.一种基于同构多教师指导知识蒸馏的图像分类系统，其特征在于，包括：

模型参数优化模块，其被配置为：计算教师组模型在训练集上的自信度，基于自信度的自适应初始化策略初始化学生模型参数；所述教师组模型的自信度为：所有教师模型在训练集所有真实类别上预测概率的平均值；所述基于自信度的自适应初始化策略初始化学生模型参数包括：当教师组模型的自信度在预设的数值范围之内，则采用继承初始化来初始化学生模型参数；否则，采用随机初始化来初始化学生模型参数；所述继承初始化指的是：在预训练的教师组模型中，选取性能最优的教师模型，依据该模型的权重参数初始化学生模型；

分类模块，其被配置为：基于待分类的图像，采用优化后的学生模型，得到分类结果；

4.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-2中任一项所述的基于同构多教师指导知识蒸馏的图像分类方法中的步骤。

5.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-2中任一项所述的基于同构多教师指导知识蒸馏的图像分类方法中的步骤。