CN116205290A

CN116205290A - 一种基于中间特征知识融合的知识蒸馏方法和装置

Info

Publication number: CN116205290A
Application number: CN202310499470.6A
Authority: CN
Inventors: 王玉柱; 张艾嘉; 裘云蕾; 段曼妮
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-05-06
Filing date: 2023-05-06
Publication date: 2023-06-02
Anticipated expiration: 2043-05-06
Also published as: CN116205290B

Abstract

一种基于中间特征知识融合的知识蒸馏方法和装置，将图像数据喂入教师模型和学生模型，并提取教师模型和学生模型的各阶段中间特征；构建阶段级残差连接，将学生模型某一阶段中间特征与上一阶段特征实现特征知识融合；将教师模型与融合后的学生模型分别经过全局平均池化，构建出语义类别特征向量，对该特征向量计算交叉熵损失，以最大化特征相似性；将学生模型预测输出与类别标签的分类损失与特征向量相似性损失加权求和，训练学生模型。还包括一种基于中间特征知识融合的知识蒸馏系统。本发明相较于现有技术，本发明充分融合教师模型的中间特征知识，知识蒸馏性能更优。

Description

一种基于中间特征知识融合的知识蒸馏方法和装置

技术领域

本发明涉及深度神经网络模型压缩领域，尤其是涉及一种基于中间特征知识融合的知识蒸馏方法和装置。

背景技术

近十年来，受益于更大的深度模型、大规模高质量的标注数据以及强大的硬件算力，深度神经网络在多种计算机视觉任务已取得显著进展，比如图像分类、目标检测、语义分割等。然而，由于计算资源和内存资源的限制，大模型在实际应用中难以部署。利用深度模型压缩技术，能够建立一个与大模型具有性能竞争力且对硬件资源要求低的高效模型。

知识蒸馏的优势在于能够实现跨模型结构的深度压缩而广受业界关注。知识蒸馏旨在利用更大的模型(教师)知识指导轻量化的小模型(学生)的训练，使学生模型能够实现更高的性能，其核心问题是如何从教师模型中提取有效的知识，并高效的传递给学生模型。知识蒸馏方法大体可分为两类：基于预测概率方法(logits-based)和基于中间特征方法(feature-based)。其中，基于中间特征的方法，如FitNet、OFD、ReviewKD等，通过引入精心设计的特征变换模块，能够有效提取教师模型的中间特征，进而显著提升知识蒸馏效果，但会额外引入不可避免的显著计算成本。基于预测概率的方法，如KD、DKD、DIS等，通过分析知识的表示形式，实现了对教师知识的高效利用，有效提升了知识蒸馏的性能，且不需要额外的计算成本。如何在较少计算成本下，能够有效利用教师模型中间阶段的特征知识，设计简单有效的知识表示及融合方法，进一步提升知识蒸馏效果，在模型压缩知识蒸馏领域的仍是一个待解决的关键问题。

发明内容

本发明要克服现有技术的上述缺点，提供一种基于中间特征知识融合的知识蒸馏方法和装置。

为了实现上述目的，本发明所述的一种基于中间特征知识融合的知识蒸馏方法，包括如下步骤：

S1，构建数据集：构建图像分类数据集；所述图像分类数据集中包括训练集和测试集；所述训练集由图像和分类标签构成；

S2，数据预处理：调整图像分类数据集中的图像的宽和高；对训练集图像做随机水平翻转、随机裁剪、标准化操作；对测试集图像做中心裁剪、标准化操作；

S3，融合残差知识：将预处理后的训练集数据分批次喂入教师模型和学生模型；对于教师模型，提取各阶段中间特征，所述中间特征为教师模型内部各阶段对所述图像分类数据集中的图像的表征，再对所述中间特征做全局平均池化处理得到特征向量

；对于学生模型，提取各阶段中间特征/>

，所述中间特征为学生模型内部各阶段对所述图像分类数据集中的图像的表征，其中，l为教师模型和学生模型的阶段数量；/>

对于阶段i，融合特征

与阶段i-1的特征/>

获得特征/>

；

S4，变换特征：在S3步骤，为了保证特征

与特征/>

具有相同的尺度，对特征/>

做特征变换操作，使特征/>

与特征/>

具有相同的宽、高、通道数量；同样的，为了使学生模型的融合特征/>

与教师特征/>

具有相同的尺度，对特征/>

做特征变换和全局平均池化得到特征向量/>

，最终学生特征向量为/>

；

S5，计算特征相似性：考虑教师模型和学生模型中的第i个中间特征向量，分别为

和/>

，计算特征向量的相似性损失/>

；

S6，计算分类损失：所述步骤S3中，输入图像的标签为

，C为类别数，学生模型对输入图像的预测为/>

，计算分类损失/>

；

S7，学生网络训练过程的总损失为特征相似性损失与分类损失的加权和，表示为

，其中/>

为损失权重平衡因子。

进一步地，所述步骤S3中，学生模型与教师模型可以是相似结构，也可以是不同结构。喂入同样的图像数据，可以提取相同数量的中间特征。

进一步地，所述步骤S4中，对中间特征

的特征变换为步长为2的3x3卷积；对特征/>

的特征变换依次为1x1卷积、步长为2的3x3卷积、1x1卷积。

进一步地，所述步骤S5中，使用交叉熵最大化特征向量

和/>

之间的相似性，其过程如下式所述：

其中，n为向量维度。

进一步地，所述步骤S5中，只对教师模型预测正确的图像样本，计算特征相似性。

进一步地，所述步骤S6中，使用交叉熵计算分类损失，其过程如下式所述：

其中，输入图像的标签为

，C为类别总数，学生模型对输入图像的预测为

。

进一步地，所述步骤S7中，在训练集中划分出一定比例的验证集，根据学生模型在验证集上的准确率调整

。

本发明还包括一种基于中间特征知识融合的知识蒸馏系统，包括：

数据集构建模块，用于构建图像分类数据集；所述图像分类数据集中包括训练集和测试集；所述训练集由图像和分类标签构成；

数据预处理模块：用于调整图像分类数据集中的图像的宽和高；对训练集图像做随机水平翻转、随机裁剪、标准化操作；对测试集图像做中心裁剪、标准化操作；

融合残差知识模块：用于融合特征向量，将预处理后的训练集数据分批次喂入教师模型和学生模型；对于教师模型，提取各阶段中间特征，再做全局平均池化处理得到特征向量

；对于学生模型，提取各阶段中间特征/>

，其中，l为教师模型和学生模型的阶段数量；对于阶段i，融合特征/>

与阶段i-1的特征/>

获得特征/>

；/>

特征变换模块：用于统一教师网络与学生网络的特征尺度，对特征

做特征变换操作，使特征/>

与特征/>

具有相同的宽、高、通道数量；为了使学生模型的融合特征/>

与教师特征/>

具有相同的尺度，对特征/>

做特征变换和全局平均池化得到特征向量/>

，最终学生特征向量为/>

；

特征相似性计算模块：用于计算特征向量的相似性损失

；

分类损失计算模块：用于计算学生网络分类损失

；

学生网络训练模块：用于特征相似性损失与分类损失的加权求和，训练学生网络。

本发明还包括一种基于中间特征知识融合的知识蒸馏装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于上述的一种基于中间特征知识融合的知识蒸馏方法。

本发明还包括一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述的一种基于中间特征知识融合的知识蒸馏方法。

本发明的有益效果在于：

在知识蒸馏中，本发明将知识建模为教师模型对输入图像样本的预测结果的相对顺序，而不是强制要求学生模型严格学习教师模型预测的绝对值，能够降低学生模型的学习要求，有益于学生模型的优化。另外，本发明通过对学生模型跨阶段的中间特征知识融合，摒弃了现有方法需要手工设计精巧的特征变换模块，避免额外引入显著的计算成本。相较于以往知识蒸馏工作，本发明充分利用教师模型的中间特征，并且额外引入的计算成本较少，能够有效地教师模型的中间知识，并高效的传递给学生模型，充分发挥知识蒸馏的效果。

附图说明

图1是本发明一种基于中间特征知识融合的知识蒸馏方法的流程图。

图2是本发明在CIFAR100数据集上知识蒸馏损失曲线图。

图3是本发明在CIFAR100数据集上知识蒸馏准确率曲线图。

图4是本发明在ImageNet-1K数据集上知识蒸馏损失曲线图。

图5是本发明在ImageNet-1K数据集上知识蒸馏准确率曲线图。

图6是本发明一种基于中间特征知识融合的知识蒸馏装置的结构示意图。

图7是本发明的系统结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，以下结合附图及实施例，对本发明进行详细说明。但是应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明的范围。

实施例1

以户外自然场景目标识别任务为例，包括动物、鸟类、植物、人等目标类别，本发明一种基于中间特征知识融合的知识蒸馏方法，参阅图1，具体过程如下：

S1，构建数据集：构建动物、鸟类、植物、人等100个类别的自然图像分类数据集，共6万张，其中训练集5万张，测试集1万张，在训练集中划分1万张作为验证集，用于调整超参数(CIFAR100公开数据集)；类似的，构建1000个类别的自然图像分类数据集，共120余万张，其中训练集120万张，测试集5万张，在训练集中划分5万张作为验证集，用于调整超参数(ImageNet-1K公开数据集)；

S2，数据预处理：调整图像分类数据集中的图像的宽和高；对训练集图像做随机水平翻转、随机裁剪、标准化操作；对测试集图像做中心裁剪、标准化操作；对CIFAR100数据集，将图像宽高调为32，对ImageNet-1K数据集，将图像宽高调为224；

S3，残差知识融合：对CIFAR100数据集，选择教师模型为DenseNet250，学生模型为ResNet110；对ImageNet-1K数据集，选择教师模型为ResNet-34，学生模型为ResNet-18；将预处理后的训练集数据分批次喂入教师模型和学生模型；对于教师模型，提取各阶段中间特征，所述中间特征为教师模型内部各阶段对所述图像分类数据集中的图像的表征，再对所述中间特征做全局平均池化处理得到特征向量

；对于学生模型，提取各阶段中间特征/>

，所述中间特征为学生模型内部各阶段对所述图像分类数据集中的图像的表征，其中，l为教师模型和学生模型的阶段数量。对于阶段i，融合特征/>

与阶段i-1的特征/>

获得特征/>

；

S4，特征变换：在S3步骤，为了保证特征

与特征/>

具有相同的尺度，对特征/>

做特征变换操作，使特征/>

与特征/>

与教师特征/>

具有相同的尺度，对特征/>

做特征变换和全局平均池化得到特征向量/>

，最终学生特征向量为/>

；

和/>

，计算特征向量的相似性损失/>

；

S6，计算分类损失：所述步骤S3中，输入图像的标签为

，C为类别数，学生模型对输入图像的预测为/>

，计算分类损失/>

；

，其中/>

为损失权重平衡因子。

所述步骤S3中，学生模型与教师模型可以是相似结构，也可以是不同结构。喂入同样的图像数据，可以提取相同数量的中间特征。

所述步骤S4中，对中间特征

的特征变换为步长为2的3x3卷积；对特征/>

的特征变换依次为1x1卷积、步长为2的3x3卷积、1x1卷积。

所述步骤S5中，使用交叉熵最大化特征向量

和/>

之间的相似性，其过程如下式所述：

其中，n为向量维度。

所述步骤S5中，只对教师模型预测正确的图像样本，计算特征相似性。

所述步骤S6中，使用交叉熵计算分类损失，其过程如下式所述：

其中，输入图像的标签为

，C为类别总数，学生模型对输入图像的预测为

。

所述步骤S7中，在训练集中划分出一定比例的验证集，根据学生模型在验证集上的准确率调整

。如表1所示，本发明在CIFAR100和ImageNet-1K数据集上与KD和ReviewKD的比较。在CIFAR100数据集上，设置教师网络和学生网络分别是DenseNet250和ResNet110。可以看到，本发明相对KD方法，准确率提升了2.21%；相对ReviewKD方法，准确率提升了1.11%。本发明的训练曲线如图2至图5所示。

实施例2

参照图7，本发明还包括用于实现实施例1的一种基于中间特征知识融合的知识蒸馏方法的一种基于中间特征知识融合的知识蒸馏系统，包括：

；对于学生模型，提取各阶段中间特征/>

与阶段i-1的特征/>

获得特征/>

；

做特征变换操作，使特征/>

与特征/>

与教师特征/>

具有相同的尺度，对特征/>

做特征变换和全局平均池化得到特征向量/>

，最终学生特征向量为/>

；

特征相似性计算模块：用于计算特征向量的相似性损失

；

分类损失计算模块：用于计算学生网络分类损失

；/>

实施例3

本实施例涉及一种基于中间特征知识融合的知识蒸馏装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于上述实施例1的一种基于中间特征知识融合的知识蒸馏方法；装置实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。

如图6，在硬件层面，该知识蒸馏装置包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所示的方法。当然，除了软件实现方式之外，本发明并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

对于一个技术的改进可以很明显地区分是硬件上的改进（例如，对二极管、晶体管、开关等电路结构的改进）还是软件上的改进（对于方法流程的改进）。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件（ProgrammableLogic Device, PLD）（例如现场可编程门阵列（Field Programmable Gate Array，FPGA））就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器（logic compiler）”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言（HardwareDescription Language，HDL），而HDL也并非仅有一种，而是有许多种，如ABEL（AdvancedBoolean Expression Language）、AHDL（Altera Hardware Description Language）、Confluence、CUPL（Cornell University Programming Language）、HDCal、JHDL（JavaHardware Description Language）、Lava、Lola、MyHDL、PALASM、RHDL（Ruby HardwareDescription Language）等，目前最普遍使用的是VHDL（Very-High-Speed IntegratedCircuit Hardware Description Language）与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

实施例4

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例1的一种基于中间特征知识融合的知识蒸馏方法。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。