CN111695698A

CN111695698A - 用于模型蒸馏的方法、装置、电子设备及可读存储介质

Info

Publication number: CN111695698A
Application number: CN202010538343.9A
Authority: CN
Inventors: 希滕; 张刚; 温圣召; 洪智滨
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2020-09-22
Anticipated expiration: 2040-06-12
Also published as: CN111695698B

Abstract

本申请实施例公开了一种用于模型蒸馏的方法、装置、电子设备及计算机可读存储介质，涉及人工智能、深度学习和图像处理技术领域。该方法的一具体实施方式包括：首先，基于预设的搜索空间设计规则构建得到搜索空间；然后，根据搜索空间初始化多特征融合方式生成器；接着，利用多特征融合方式生成器得到多个教师模型的融合特征；最后，基于融合特征对原始学生模型的原始特征进行模型蒸馏处理，得到目标学生模型。该实施方式在将教师模型的知识传递至学生模型时，引入了自动搜索技术中搜索空间的概念，得以利用设计好的搜索空间自动确定出最佳的融合特征生成方式和蒸馏策略，得以让教师模型的知识更加准确的传递至学生模型。

Description

用于模型蒸馏的方法、装置、电子设备及可读存储介质

技术领域

本申请实施例涉及机器学习技术领域，具体涉及人工智能、深度学习和图像处理技术领域，尤其涉及用于模型蒸馏的方法、装置、电子设备及可读存储介质。

背景技术

知识蒸馏是一种将成熟、性能好的大模型(也称教师模型、teacher模型)的关键参数传递给小模型(也称学生模型、student模型)的模型压缩技术，可使结构精简的小模型拥有近乎于结构庞大、复杂的大模型的精度，同时提升处理速度。

在此基础上，为了尽可能提高小模型的精度，本领域学者开始尝试通过多个大模型来蒸馏单个小模型，在具体实现过程中，现有技术提供了一种多大模型的损失函数取平均的方式对小模型进行蒸馏的实现方式。

发明内容

本申请实施例提出了一种用于模型蒸馏的方法、装置、电子设备及计算机可读存储介质。

第一方面，本申请实施例提出了一种用于模型蒸馏的方法，包括：基于预设的搜索空间设计规则构建得到搜索空间；根据搜索空间初始化多特征融合方式生成器；利用多特征融合方式生成器得到多个教师模型的融合特征；基于融合特征对原始学生模型的原始特征进行模型蒸馏处理，得到目标学生模型；其中，教师模型和原始学生模型均用于对图像或视频数据进行编解码处理。

第二方面，本申请实施例提出了一种用于模型蒸馏的装置，包括：搜索空间构建单元，被配置成基于预设的搜索空间设计规则构建得到搜索空间；生成器初始化单元，被配置成根据搜索空间初始化多特征融合方式生成器；融合特征获得单元，被配置成利用多特征融合方式生成器得到多个教师模型的融合特征；模型蒸馏处理单元，被配置成基于融合特征对原始学生模型的原始特征进行模型蒸馏处理，得到目标学生模型；其中，教师模型和原始学生模型均用于对图像或视频数据进行编解码处理。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器执行时能够实现如第一方面中任一实现方式描述的用于模型蒸馏的方法。

第四方面，本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行时能够实现如第一方面中任一实现方式描述的用于模型蒸馏的方法。

为得到能够用于对图像或视频数据进行高精度、快速编解码处理的目标学生模型，本申请实施例提供的用于模型蒸馏的方法、装置、电子设备及计算机可读存储介质，首先，基于预设的搜索空间设计规则构建得到搜索空间；然后，根据该搜索空间初始化多特征融合方式生成器；接着，利用该多特征融合方式生成器得到多个教师模型的融合特征；最后，基于该融合特征对原始学生模型的原始特征进行模型蒸馏处理，得到目标学生模型。

区别于现有技术采用的对多个教师模型的损失函数取平均来指导单个学生模型的蒸馏的方式，本申请引入了自动搜索技术中搜索空间的概念，通过构建得到可表征多个教师模型各自特征组合方式的搜索空间，借助多特征融合方式生成器得到多个教师模型的融合特征，进而寻找到最优的、能够将每个教师模型最重要的知识传递给学生模型的蒸馏策略，最终生成从多个教师模型均得到更多知识的目标学生模型。同时，在每个教师模型的知识得以充分传递至学生模型的情况下，目标学生模型的精度将随教师模型的数量增加得以不断提升。

此外，当通过上述模型蒸馏方案得到的目标学生模型用于图像处理领域时，在搜索空间通过自动搜索得到的最优蒸馏策略的帮助下，可高效的得到适用于处理图像/视频数据的轻量级目标学习模型，充分利用了自动化电子设备的运算能力，解放了人工，而且轻量级的目标学习模型也可较好的运行在轻量级设备，降低了对实际运行目标学习模型的硬件设备运算能力的要求，实现了在轻量级设备上也能得到较高处理精度的图像处理结果的目的。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构；

图2是根据本申请的用于模型蒸馏的方法的一个实施例的流程图；

图3是根据本申请的用于模型蒸馏的方法的另一个实施例的流程图；

图4是根据本申请的用于模型蒸馏的方法的一个应用场景的流程图；

图5是根据本申请的用于模型蒸馏的装置的一个实施例的结构示意图；

图6是适于用来实现本申请实施例的用于模型蒸馏的方法的电子设备的框图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的用于模型蒸馏的方法、装置、电子设备及计算机可读存储介质的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括存储设备101、网络102和服务器103。网络102为存储设备101和服务器103之间进行数据交换的通信介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以控制服务器103与存储设备101通过网络102进行数据交互，以接收或发送消息。存储设备101和服务器103上可以安装有各种应用，例如模型蒸馏应用、数据传输类应用、数据处理类应用等。

存储设备101和服务器103均可以是硬件，也可以是软件。当存储设备101为硬件时，可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当存储设备101为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来存储教师模型和预设的搜索空间设计规则)，也可以实现成单个软件或软件模块，在此不做具体限定。当服务器103为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供模型蒸馏服务)，也可以实现成单个软件或软件模块，在此不做具体限定。

服务器103通过内置的各种应用可以提供各种服务，以可以提供模型蒸馏服务的模型蒸馏应用为例，服务器103在运行该模型蒸馏应用时可实现如下效果：首先，通过网络102从存储设备101获取预设的搜索空间设计规则，并基于该设计规则构建得到搜索空间；然后，根据该搜索空间初始化多特征融合方式生成器；接着，利用该多特征融合方式生成器得到多个教师模型的融合特征；最后，基于该融合特征对原始学生模型的原始特征进行模型蒸馏处理，得到目标学生模型。即服务器103通过上述处理步骤最终完成将多个教师模型的知识尽可能多的、准确到传递到学生模型的目的，目标学生模型即为该模型蒸馏应用的输出结果。

需要指出的是，多个教师模型和搜索空间的设计规则不仅可以存储在存储设备101中，也可以直接存储在服务器103本地。特殊的，当存储设备101为运行在服务器103上的虚拟机时，示例性系统架构100也可以不包括存储设备101和网络102。

本申请后续各实施例所提供的用于模型蒸馏的方法一般由拥有较强运算能力的服务器103执行，相应地，用于模型蒸馏的装置一般设置于服务器103中。但同时也需要指出的是，在存储设备101也具有满足要求的运算能力时，存储设备101也可以通过其上安装的模型蒸馏应用完成上述本交由服务器103做的各项运算，得到同样的结果。尤其是在同时采用多种具有不同运算能力的存储设备的情况下，用于模型蒸馏的方法可以由其中一些具有较强运算能力的存储设备101执行，来适当减轻服务器103的运算压力。相应地，用于模型蒸馏的装置也可以设置于存储设备101中。此时，示例性系统架构100也可以不包括服务器103和网络102。应当理解的是，存储设备并非不拥有运算能力，运算能力也可以通过多种方式进行添加和提升。

应该理解，图1中的存储设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的存储设备、网络和服务器。

继续参考图2，其示出了根据本申请的用于模型蒸馏的方法的一个实施例的实现流程200，包括以下步骤：

步骤201：基于预设的搜索空间设计规则构建得到搜索空间；

本步骤旨在由用于模型蒸馏的方法的执行主体(例如图1所示的服务器103)获取预设的搜索空间设计规则，并基于该搜索空间设计规则构建得到搜索空间。

其中，预设的搜索空间设计规则用于指导构建适用于本申请确定最优蒸馏策略的搜索空间，为实现这一目的，搜索空间至少应能够表征多个不同教师模型各自特征的不同融合方式，这是能够确定如何将多个教师模型各自的“知识”进行融合，进而寻求到最优融合特征的基础。具体的，搜索空间设计规则可以表现为以文字和字符的组合，也可以直接为便于计算机识别和调用的代码，此处不做具体限定。

同时，根据实际应用的模型类型的不同，搜索空间设计规则也应适用于对相应类型模型的处理，例如当教师模型具体为卷积神经网络时，搜索空间的设计规则就应针对卷积神经网络的特点、构造进行适应性调整。当然，搜索空间设计规则还可以包括粒度(例如以channel为最小粒度，即以通道为最小粒度)、不同特征的融合方式(例如线性或非线性)以及特征在融合前的处理方式(例如仿射变换，即先变换后组合等)等各项要求，以使构建出的搜索空间能够更好的将多个教师模型各自的“知识”进行融合，进而实现寻求到最优融合特征的目的。

需要指出的是，预设的搜索空间设计规则可以由上述执行主体直接从本地的存储设备获取，也可以从非本地的存储设备(例如图1所示的存储设备101)中获取。本地的存储设备可以为设置在上述执行主体内的一个数据存储模块，例如服务器硬盘，在此情况下，预设的搜索空间设计规则可以快速的通过本地读取获取到；非本地的存储设备还可以为其它任何被设置用于存储数据的电子设备，例如一些用户终端等，在此情况下，上述执行主体可以通过向该电子设备发送获取命令来获取所需的预设的搜索空间设计规则。

步骤202：根据搜索空间初始化多特征融合方式生成器；

步骤203：利用多特征融合方式生成器得到多个教师模型的融合特征；

在步骤201的基础上，步骤202旨在由上述执行主体根据搜索空间来完成对多特征融合方式生成器的初始化，步骤203则旨在由上述执行主体利用完成初始化的多特征方式生成器得到多个教师模型的融合特征。

可以看出，多特征融合方式生成器是搜索空间在本申请应用场景下完成将多个教师模型各自的“知识”进行融合，进而寻求到最优融合特征的目的关键。应当理解的是，来自不同教师模型的“知识”根据其对最终结果精度的影响或贡献，将以不同的比例或权重参与构成该融合特征，而最优的融合特征则是指基于确定出的相对精准的比例或权重所得到的融合特征。

其中，教师模型是用于对图像/视频数据进行编解码处理的大模型，具体可根据实际需求的不同表现为具体的各种类型的模型，例如卷积神经网络、深度神经网络、长短期记忆网络、生成对抗网络(GAN，Generative Adversarial Networks)等，该教师模型的特点为精度较高但结构复杂，得到输出数据的耗时较长且对运算能力需求较高。

其中，每个教师模型的特征获取可通过多种方式，例如使用专用的特征提取模型，以得到相同标准下的不同教师模型的特征；在确定不同特征的最优权重时，除可以借助搜索空间中的多特征融合方式生成器来完成之外，当然也可以借助其它相同或类似的手段，相比其它手段，多特征融合方式生成器可自动化完成多种组合的遍历，进而在仅需要较少互动操作的情况下，便捷的得到最优融合特征。

步骤204：基于融合特征对原始学生模型的原始特征进行模型蒸馏处理，得到目标学生模型。

在步骤203的基础上，本步骤旨在由上述执行主体利用融合特征对原始学生模型的原始特征执行模型蒸馏操作，得到目标学生模型。其中，原始学生模型和经模型蒸馏操作得到的目标学生模型，其用途与教师模型一致，均用于对待处理图像/视频数据进行编解码处理，与教师模型不同的是，目标学生模型仅以较小的“体积”、较短的运算耗时可得到精度与教师模型基本一致的输出结果。

进一步的，在得到目标学生模型之后，即可利用目标学生模型对获取到的待处理图像/视频数据进行编解码处理，得到处理后图像/视频数据，并按预设路径发送该处理后图像/视频数据。具体的，该预设路径可以为预设的IP地址、各类视频或图像应用的客户端地址、存储服务器地址等等，即根据实际需求的不同，该预设路径可灵活调整。

区别于现有技术采用的对多个教师模型的损失函数取平均来指导单个学生模型的蒸馏的方式，本实施例所提供的用于模型蒸馏的方法引入了自动搜索技术中搜索空间的概念，通过构建得到可表征多个教师模型各自特征组合方式的搜索空间，借助多特征融合方式生成器得到多个教师模型的融合特征，进而寻找到最优的、能够将每个教师模型最重要的知识传递给学生模型的蒸馏策略，最终生成从多个教师模型均得到更多知识的目标学生模型。同时，在每个教师模型的知识得以充分传递至学生模型的情况下，目标学生模型的精度将随教师模型的数量增加得以不断提升。

在上述实施例的基础上，本申请还通过图3提供了另一种用于模型蒸馏的方法的流程300，包括如下步骤：

步骤301：基于预设的搜索空间设计规则按非线性融合方式构建得到搜索空间；

在本实施例中，本步骤具体选用了将预设的搜索空间设计规则按照非线性融合方式来构建搜索空间的方式，因为相比线性的融合方式，本申请所针对的分别来自不同教师模型的特征，很难确定出其之间的关联，采用非线性的融合方式有利用得到更准确的融合特征。

步骤302：根据搜索空间初始化多特征融合方式生成器；

步骤303：利用多特征融合方式生成器得到多个教师模型的融合特征；

以上步骤302-303与如图2所示的步骤202-203一致，相同部分内容请参见上一实施例的相应部分，此处不再进行赘述。

步骤304：利用预设的训练集对原始学生模型进行前向传播，得到原始特征；

区别于流程200的步骤204，本实施例通过本步骤提供了一种具体获取到原始模型的原始特征的方案，即利用预设的训练集来对原始学生模型进行前向传播，将得到的结果作为原始特征。

前向传播是相对于反向传播存在的一个概念，出现在仿自人脑的神经网络中，人脑有复杂多层的神经元系统以及架构于之上的正向传导和反向反馈信号回路，神经网络里面所谓前向传播(Forward Propagation)和反向传播(Backword Propagation)概念则与之类似。因为神经网络在使用之前要进行优化，目的是尽可能的让神经网络能够对相同的输入得到与人脑相同的输出，本质上这是一场以误差为主导的反向传播运动，旨在得到最优的全局参数矩阵，进而将多层神经网络应用到分类或者回归任务中去。其中，前向传递输入信号直至输出产生误差，反向传播误差信息更新权重矩阵。这两句话很好的形容了信息的流动方向，权重得以在信息双向流动中得到优化，其实就类似一个带反馈校正循环的电子信号处理系统。简单来说，本步骤通过对预设的训练集结合原始学生模型进行前向传播，其输出能够在一定程度上反映相应原始学生模型的特征。

步骤305：将融合特征作为蒸馏损失对原始特征进行模型蒸馏处理，得到目标学生模型；

在步骤304的基础上，本步骤旨在由上述执行主体将融合特征作为蒸馏损失对原始特征进行模型蒸馏处理，最终得到目标学生模型。

可以看出，模型蒸馏处理主要具体体现在对应多个教师模型的融合特征和原始学生模型的原始特征，进行模型蒸馏处理的目的，也是为了尽可能的让原始特征接近融合特征。进一步的，为了尽可能便于两个特征之间的“知识”传递，还可以基于控制变量法的思想，选择与获得原始特征相同的方式，来获取到每个教师模型的特征，以使融合特征在来源、过程都与原始特征更加接近，即使用相同的训练集，均通过前向传播方式进行处理。

相较于流程200，本实施例通过步骤301提供一种更适合本申请应用场景的特征融合方式，通过步骤304和步骤304提供一套具体的获取到原始学生模型的原始特征的方法，并进一步给出了如何基于控制变量法使得融合特征在对原始特征进行模型蒸馏操作时提升精度的处理思想，更加科学合理、具有更高的可行性，尽可能的提升了最终得到的目标学生模型的精度。

为加深理解，本申请还结合一个具体应用场景，给出了一种具体的实现方案。该场景下的目的为通过模型蒸馏操作得到一个“体积”较小、精度较高的GAN网络。区别于其它机器学习算法，GAN网络由两大部分组成，即G(Generative，生成)网络和D(Discriminative，对抗，也称判别)网络，G网络负责捕获数据分布，D网络负责估计样本来自训练数据的概率，两者通过依次迭代、对抗优化，可以很好的保障输出结果的精度。该场景下，蒸馏得到GAN网络主要用于对待处理图像/视频数据进行编解码处理，可具体应用在多种图像/视频处理轻量级平台或应用中。

基于GAN网络的特殊构成，应用本申请所提供的方案时，教师模型为教师G网络，原始学生模型为原始学生G网络，而目标学生模型则为GAN网络，这是因为D网络并不需要接受知识的传递，其完全可以基于蒸馏后的学生G网络经过常规的对抗迭代实现较好的效果。

如图4所示的流程400包括如下步骤：

步骤401：基于预设的搜索空间设计规则按非线性融合方式构建得到搜索空间；

由于本实施例针对的教师模型具体为教师G网络，搜索空间设计规则还需要充分结合G网络的特点进行适应性调整。

步骤402：根据搜索空间初始化多特征融合方式生成器；

步骤403：利用多特征融合方式生成器得到三个教师G网络的融合特征；

步骤404：利用预设的训练集对原始学生G网络进行前向传播，得到原始特征；

步骤405：将融合特征作为蒸馏损失对原始特征进行模型蒸馏处理，得到蒸馏后G网络；

步骤406：利用蒸馏后G网络和原始D网络进行对抗迭代，得到收敛G网络和收敛G网络；

在步骤405的基础上，本步骤旨在由上述执行主体利用蒸馏后G网络和原始D网络进行对抗迭代，最终得到收敛G网络和收敛D网络。

具体的，一种更加具体的对抗迭代方式可以为：

判断当前的已迭代次数是否小于预设迭代次数；

若当前的已迭代次数小于该预设迭代次数，则利用相同的训练集重新对迭代至当前的蒸馏后G网络进行前向传播，并根据计算出的新第二特征重新得到新蒸馏后G网络，即跳转至步骤404，将迭代至当前的学生G网络作为新的原始学生G网络重新处理；

若当前的已迭代次数不小于该预设迭代次数，则根据当前的迭代结果得到收敛G网络和收敛D网络。

上述具体实现方式提供了一种基于预设的最大迭代次数的具体对抗迭代方式，当然，也可以根据实际情况更换其它迭代终止条件，例如最后两次迭代结果的精度差是否小于预设阈值等。

步骤407：利用收敛G网络和收敛D网络构建得到GAN网络；

步骤408：利用GAN网络对待处理图像/视频数据进行编解码处理，得到处理后图像/视频数据；

步骤409：将处理后图像/视频数据发送图像/视频内容存储服务器进行存储。

本步骤旨在由上述执行主体将处理后图像/视频数据发送图像/视频内容存储服务器进行存储，以便用户通过客户端点播某个图像或视频时直接从该服务器中取出成品。

为了进一步的提升最终得到的GAN网络的精度，还可以选择合适的参数来指导更新关键的多特征融合方式生成器的参数，以通过更优的多特征融合方式生成器得到更优的融合特征。

一种包括但不限于的实现方式可以为：

评估收敛G网络的性能，得到性能评价参数；

根据性能评价参数更新多特征融合方式生成器的参数。

即通过构成GAN网络关键的G网络的性能来指导多特征融合方式生成器的参数的更新，因为结合GAN网络的特性，G网络的性能对GAN网络的性能起到最大的影响，因此可通过评估收敛G网络的方式来预估GAN网络的最终性能，那么也就需要确保收敛G网络性能足够好即可。

通过本应用场景实施例可以看出，本申请将模型蒸馏方法的适用场景从常规类型的模型/网络，拓展到了较为特殊的GAN网络。在搜索空间通过自动搜索得到的最优蒸馏策略的帮助下，可高效的得到适用于处理图像/视频数据的轻量级目标学习模型，充分利用了自动化电子设备的运算能力，解放了人工，而且轻量级的目标学习模型也可较好的运行在轻量级设备，降低了对实际运行目标学习模型的硬件设备运算能力的要求，实现了在轻量级设备上也能得到较高处理精度的图像/视频数据处理结果的目的。

进一步参考图5，作为对上述各图所示方法的实现，本申请提供了一种用于模型蒸馏的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的用于模型蒸馏的装置500可以包括：待搜索空间构建单元501、生成器初始化单元502、融合特征获得单元503和模型蒸馏处理单元504。其中，搜索空间构建单元501，被配置成基于预设的搜索空间设计规则构建得到搜索空间；生成器初始化单元502，被配置成根据搜索空间初始化多特征融合方式生成器；融合特征获得单元503，被配置成利用多特征融合方式生成器得到多个教师模型的融合特征；模型蒸馏处理单元504，被配置成基于融合特征对原始学生模型的原始特征进行模型蒸馏处理，得到目标学生模型；其中，教师模型和原始学生模型均用于对图像或视频数据进行编解码处理。

在本实施例中，用于模型蒸馏的装置500中：搜索空间构建单元501、生成器初始化单元502、融合特征获得单元503和模型蒸馏处理单元504的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-204的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，模型蒸馏处理单元504可以包括：原始特征获取子单元，被配置成利用预设的训练集对原始学生模型进行前向传播，得到原始特征；模型蒸馏子单元，被配置成将融合特征作为蒸馏损失对原始特征进行模型蒸馏处理。

在本实施例的一些可选的实现方式中，当目标学生模型具体为生成对抗网络时，原始学生模型具体为原始学生生成网络，对应的，教师模型具体为教师生成网络，模型蒸馏子单元可以包括：蒸馏后生成网络获取模块，被配置成将融合特征作为蒸馏损失对原始学生生成网络的原始特征执行模型蒸馏操作，得到蒸馏后生成网络；收敛网络获取模块，被配置成利用蒸馏后生成网络和原始对抗网络进行对抗迭代，得到收敛生成网络和收敛对抗网络；生成对抗网络构建模块，被配置成利用收敛生成网络和收敛对抗网络构建得到生成对抗网络。

在本实施例的一些可选的实现方式中，收敛网络获取模块可以进一步被配置成：判断当前的已迭代次数是否小于预设迭代次数；若小于，则利用训练集重新对迭代至当前的学生生成网络进行前向传播，并根据计算出的新原始特征重新得到新蒸馏后生成网络；若不小于，则根据当前的迭代结果得到收敛生成网络和收敛对抗网络。

在本实施例的一些可选的实现方式中，用于模型蒸馏的装置500还可以包括：性能评价单元，被配置成评估收敛生成网络的性能，得到性能评价参数；参数更新单元，被配置成根据性能评价参数更新多特征融合方式生成器的参数。

在本实施例的一些可选的实现方式中，用于模型蒸馏的装置500还可以包括：编解码处理单元，被配置成在得到目标学生模型之后，利用目标学生模型对待处理图像/视频数据进行编解码处理，得到处理图像/视频数据；处理后数据发送单元，被配置成通过预设路径发送处理图像/视频数据。

在本实施例的一些可选的实现方式中，搜索空间可以基于搜索空间设计规则按非线性融合方式构建得到。

在本实施例的一些可选的实现方式中，搜索空间可表征多个教师模型的特征的仿射变化情况。

本实施例作为对应于上述方法实施例的装置实施例存在，区别于现有技术采用的对多个教师模型的损失函数取平均来指导单个学生模型的蒸馏的方式，本实施例提供的用于模型蒸馏的装置引入了自动搜索技术中搜索空间这一概念，通过构建得到可表征多个教师模型特征的搜索空间，然后借助多特征融合方式生成器得到多个教师模型的融合特征，进而寻找到最优的、能够将每个教师模型最重要的知识传递给学生模型的蒸馏策略，从而得到从多个教师模型均得到更多知识的目标学生模型。同时，在每个教师模型的知识能够得以充分传递至目标学生模型的情况下，目标学生模型的精度将随教师模型的数量增加得以不断提升。

根据本申请的实施例，本申请还提供了一种电子设备和一种计算机可读存储介质。

如图6所示，是根据本申请实施例的用于模型蒸馏的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的用于模型蒸馏的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的用于模型蒸馏的方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如与本申请上述各实施例中用于模型蒸馏的方法对应的程序指令/模块(例如，附图5所示的搜索空间构建单元501、生成器初始化单元502、融合特征获得单元503和模型蒸馏处理单元504)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的用于模型蒸馏的方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储电子设备在执行用于模型蒸馏的方法时所创建的各类数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至适用于执行用于模型蒸馏的方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

适用于执行用于模型蒸馏的方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生适用于执行用于模型蒸馏的方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

区别于现有技术采用的对多个教师模型的损失函数取平均来指导单个学生模型的蒸馏的方式，本实施例引入了自动搜索技术中搜索空间这一概念，通过构建得到可表征多个教师模型特征的搜索空间，然后借助多特征融合方式生成器得到多个教师模型的融合特征，进而寻找到最优的、能够将每个教师模型最重要的知识传递给学生模型的蒸馏策略，从而得到从多个教师模型均得到更多知识的目标学生模型。同时，在每个教师模型的知识能够得以充分传递至目标学生模型的情况下，目标学生模型的精度将随教师模型的数量增加得以不断提升。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种用于模型蒸馏的方法，包括：

基于预设的搜索空间设计规则构建得到搜索空间；

根据搜索空间初始化多特征融合方式生成器；

利用多特征融合方式生成器得到多个教师模型的融合特征；

基于融合特征对原始学生模型的原始特征进行模型蒸馏处理，得到目标学生模型；其中，教师模型和原始学生模型均用于对图像或视频数据进行编解码处理。

2.根据权利要求1的方法，其中，基于融合特征对原始学生模型的原始特征进行蒸馏处理，包括：

利用预设的训练集对原始学生模型进行前向传播，得到原始特征；

将融合特征作为蒸馏损失对原始特征进行模型蒸馏处理。

3.根据权利要求2的方法，其中，当目标学生模型具体为生成对抗网络时，原始学生模型具体为原始学生生成网络，对应的，教师模型具体为教师生成网络，将融合特征作为蒸馏损失对原始学生生成网络的原始特征执行模型蒸馏操作，得到生成对抗网络，包括：

将融合特征作为蒸馏损失对原始学生生成网络的原始特征执行模型蒸馏操作，得到蒸馏后生成网络；

利用蒸馏后生成网络和原始对抗网络进行对抗迭代，得到收敛生成网络和收敛对抗网络；

利用收敛生成网络和收敛对抗网络构建得到生成对抗网络。

4.根据权利要求3的方法，其中，利用蒸馏后生成网络和原始对抗网络进行对抗迭代，得到收敛生成网络和收敛对抗网络，包括：

判断当前的已迭代次数是否小于预设迭代次数；

若小于，则利用训练集重新对迭代至当前的学生生成网络进行前向传播，并根据计算出的新原始特征重新得到新蒸馏后生成网络；

若不小于，则根据当前的迭代结果得到收敛生成网络和收敛对抗网络。

5.根据权利要求3的方法，其中，还包括：

评估收敛生成网络的性能，得到性能评价参数；

根据性能评价参数更新多特征融合方式生成器的参数。

6.根据权利要求1的方法，其中，在得到目标学生模型之后，还包括：

利用目标学生模型对待处理图像/视频数据进行编解码处理，得到处理图像/视频数据；

通过预设路径发送处理图像/视频数据。

7.根据权利要求1至6任一项的方法，其中，搜索空间基于搜索空间设计规则按非线性融合方式构建得到。

8.根据权利要求7的方法，其中，搜索空间可表征多个教师模型的特征的仿射变化情况。

9.一种用于模型蒸馏的装置，包括：

搜索空间构建单元，被配置成基于预设的搜索空间设计规则构建得到搜索空间；

生成器初始化单元，被配置成根据搜索空间初始化多特征融合方式生成器；

融合特征获得单元，被配置成利用多特征融合方式生成器得到多个教师模型的融合特征；

模型蒸馏处理单元，被配置成基于融合特征对原始学生模型的原始特征进行模型蒸馏处理，得到目标学生模型；其中，教师模型和原始学生模型均用于对图像或视频数据进行编解码处理。

10.根据权利要求9的装置，其中，模型蒸馏处理单元包括：

原始特征获取子单元，被配置成利用预设的训练集对原始学生模型进行前向传播，得到原始特征；

模型蒸馏子单元，被配置成将融合特征作为蒸馏损失对原始特征进行模型蒸馏处理。

11.根据权利要求10的装置，其中，当目标学生模型具体为生成对抗网络时，原始学生模型具体为原始学生生成网络，对应的，教师模型具体为教师生成网络，模型蒸馏子单元包括：

蒸馏后生成网络获取模块，被配置成将融合特征作为蒸馏损失对原始学生生成网络的原始特征执行模型蒸馏操作，得到蒸馏后生成网络；

收敛网络获取模块，被配置成利用蒸馏后生成网络和原始对抗网络进行对抗迭代，得到收敛生成网络和收敛对抗网络；

生成对抗网络构建模块，被配置成利用收敛生成网络和收敛对抗网络构建得到生成对抗网络。

12.根据权利要求11的装置，其中，收敛网络获取模块进一步被配置成：

判断当前的已迭代次数是否小于预设迭代次数；

13.根据权利要求11的装置，其中，还包括：

性能评价单元，被配置成评估收敛生成网络的性能，得到性能评价参数；

参数更新单元，被配置成根据性能评价参数更新多特征融合方式生成器的参数。

14.根据权利要求9的装置，还包括：

编解码处理单元，被配置成在得到目标学生模型之后，利用目标学生模型对待处理图像/视频数据进行编解码处理，得到处理图像/视频数据；

处理后数据发送单元，被配置成通过预设路径发送处理图像/视频数据。

15.根据权利要求9至14任一项的装置，其中，搜索空间基于搜索空间设计规则按非线性融合方式构建得到。

16.根据权利要求15的装置，其中，搜索空间可表征多个教师模型的特征的仿射变化情况。

17.一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行权利要求1-8中任一项的用于模型蒸馏的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行权利要求1-8中任一项的用于模型蒸馏的方法。