CN111445008A

CN111445008A - 一种基于知识蒸馏的神经网络搜索方法及系统

Info

Publication number: CN111445008A
Application number: CN202010213957.XA
Authority: CN
Inventors: 彭杰锋; 李长林; 袁柳春; 王广润; 梁小丹
Original assignee: DMAI Guangzhou Co Ltd
Current assignee: DMAI Guangzhou Co Ltd
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2020-07-24

Abstract

本发明公开一种基于知识蒸馏的神经网络搜索方法及系统，方法包括：构建神经网络搜索空间，数据流在各搜索神经网络子空间选定任一基本网络结构按一定方向传递构成有向无环图集合组成神经超级网络；根据不同深度将神经超级网络划分为多个子空间块；基于知识蒸馏分别对多个子空间块进行单独训练，获取各子空间块有向无环图对应的损失值，对各子空间块中的损失值进行排序，将损失值最小的作为最优有向无环图模型；将最优模型并组合得到目标神经网络。本发明将大搜索空间的神经架构搜索模块化确保潜在的候选网络结构得到公平的训练，减少由共享参数引起的表示偏差，从而确保候选结构的正确评分，正确的模型评分和排序提高了搜索的有效性，且扩展性好。

Description

一种基于知识蒸馏的神经网络搜索方法及系统

技术领域

本发明涉及深度学习的模型技术领域，具体涉及一种基于知识蒸馏的神经网络搜索方法及系统。

背景技术

神经网络搜索(NAS)作为AutoML的一项重要任务，有望减少网络架构设计中人类专家所需的工作量。近两年来，业界加速了对NAS的研究，并提出了许多解决方案。

在数学上，NAS最精确的解决方案是在搜索空间内从零开始训练每一个候选体系结构到收敛，并比较它们的性能，然而成本高得惊人。次优的解决方案是使用高级搜索策略(如RL或EA)仅在搜索子空间中训练体系结构；尽管这仍然很耗时，因为即使是训练一个体系结构也需要很长的时间(例如，在ImageNet上的ResNet需要超过10GPU天)。为了加快网络接入速度，最近的研究工作提出，不同的候选对象应该通过共享网络参数来进行并行训练，而不是从零开始到收敛的全部训练。随后，可以通过基于这些未经充分训练的共享网络参数评估不同候选体系结构的性能来确定它们的等级。然而，仍然存在几个问题：基于未充分训练的网络参数的评估是否正确排列了候选模型在从无到有的训练中，达到最高精度的体系结构能否捍卫它的最高排名，最佳网络参数W*不一定表示子网(即候选架构)的最佳网络参数ω*，因为子网没有得到公平和充分的训练。基于W*的评估不能正确排列候选模型，因为搜索空间通常很大(例如，>10^15)。不准确的评估导致了现有NAS的无效性。

发明内容

因此，本发明要解决的技术问题在于克服现有技术中的神经网络搜索工作量大及性能差的缺陷，从而提供一种基于知识蒸馏的神经网络搜索方法及系统。

为达到上述目的，本发明提供如下技术方案：

第一方面，本发明实施例提供一种基于知识蒸馏的神经网络搜索方法，包括：

构建神经网络搜索空间，其包括多个搜索神经网络子空间，数据流在各搜索神经网络子空间选定任一基本网络结构按一定方向传递，构成有向无环图集合，组成神经超级网络；

根据不同深度将神经超级网络划分为多个子空间块；

基于知识蒸馏分别对多个子空间块进行单独训练，获取各子空间块多层神经网络的有向无环图对应的损失值，并对各子空间块中的损失值进行排序，将损失值最小的作为最优有向无环图模型；

将各子空间块的最优有向无环图模型并进行组合，得到最优的目标神经网络。

进一步地，每个子空间块包括多个层数不同的多层神经网络，所述多个多层神经网络之间不存在数据流交叉流动，不同子空间块之间的数据流动遵循有向无环图规则。

在一实施例中，基于知识蒸馏的神经网络搜索方法还包括：初始化所述目标神经网络参数，根据目标任务进行重新训练，得到最终模型。

进一步地，基于知识蒸馏分别对多个子空间块进行单独训练的步骤包括：将教师网络对应神经超级网络前一层子空间块输出的特征图作为神经超级网络当前空间块的输入特征，通过最小化子空间块的输出特征与教师网络对应当前子空间块的输出的特征图的范式距离，对各子空间块进行训练。

在一实施例中，对各子空间块进行搜索时通过预设的约束条件，筛选出符合约束条件的模型进行训练。

进一步地，约束条件为模型相关属性包括：模型参数量，模型计算复杂度，模型推理延时。

在一实施例中，所述将各子空间块的最优有向无环图模型并进行组合，得到最优的目标神经网络的过程，包括：

获得每个候选基本网络结构的预设约束属性构建查找表；

选取当前子空间块的最优有向无环图模型，如果当前待定模型与后续所有子空间块中具有最小约束属性的有向无环图模型的组合得到的待定目标网络的约束属性超过约束，返回当前子空间块按排序选取次优有向无环图模型直到满足上述约束，继续选取下一子空间块；当选取完最后一层子空间块，得到满足约束的待定目标网络后，记录该网络为候选目标并返回倒数第二层子空间块，选取排序次优的有向无环图模型重复上述流程；

将新的待定目标网络与候选目标对比，如果综合损失值更小，则替换掉该候选目标，否则返回倒数第二层子空间块继续选取次优的有向无环图模型直到该有向无环图模型的排序落后于候选目标在最后一层子空间块的有向无环图模型的排序，依次返回倒数第三层子空间块重复上述过程直到完成第一层子空间块的选取，得到最终的目标神经网络结构。

第二方面，本发明实施例提供一种基于知识蒸馏的神经网络搜索系统，包括：

搜索空间构建模块，用于构建神经网络搜索空间，其包括多个搜索神经网络子空间，数据流在各搜索神经网络子空间选定任一基本网络结构按一定方向传递，构成有向无环图集合，组成神经超级网络；

子空间块划分模块，用于根据不同深度将神经超级网络划分为多个子空间块；

子空间块训练及最优模型获取模块，用于基于知识蒸馏分别对多个子空间块进行单独训练，并获取各子空间块多层神经网络的有向无环图对应的损失值，并对各子空间块中的损失值进行排序，将损失值最小的作为最优有向无环图模型；

目标神经网络获取模块，用于将各子空间块的最优有向无环图模型并进行组合，得到最优的目标神经网络。

第三方面，本发明实施例提供一种计算机设备，包括：至少一个处理器，以及与至少一个处理器通信连接的存储器，其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器执行本发明实施例第一方面的基于知识蒸馏的神经网络搜索方法。

第四方面，本发明实施例提供一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令用于使计算机执行本发明实施例第一方面的基于知识蒸馏的神经网络搜索方法。

本发明技术方案，具有如下优点：

本发明提供的一种基于知识蒸馏的神经网络搜索方法及系统，方法包括：构建神经网络搜索空间，其包括多个搜索神经网络子空间，数据流在各搜索神经网络子空间选定任一基本网络结构按一定方向传递，构成有向无环图集合，组成神经超级网络；根据不同深度将神经超级网络划分为多个子空间块；基于知识蒸馏分别对多个子空间块进行单独训练，并获取各子空间块多层神经网络的有向无环图对应的损失值，并对各子空间块中的损失值进行排序，将损失值最小的作为最优有向无环图模型；将各子空间块的最优有向无环图模型并进行组合，得到最优的目标神经网络。本发明将大搜索空间的NAS模块化，以确保潜在的候选网络结构得到公平的训练，并减少由共享参数引起的表示偏差，从而确保候选结构的正确评分，正确的模型评分和排序提高了NAS的有效性，且扩展性好。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于知识蒸馏的神经网络搜索方法方法的一个具体示例的流程图；

图2为本发明实施例中通过蒸馏的方法用老师网络分区块训练超网的一个具体示例的原理框图；

图3为本发明实施例中提供的模型与现有最新的NAS模型的比较结果对比图；

图4为本发明实施例中提供的模型迁移学习后后的结果示意图；

图5为本发明实施例中提供的两种模型排序方法的比较示意图；

图6为本发明实施例中提供的采用EfficientNet-B0作为教师模型来搜索相似大小的学生网络的结果示意图；

图7为本发明实施例中基于知识蒸馏的神经网络搜索系统一个具体示例的组成框图。

图8为本发明实施例提供的计算机设备一个具体示例的组成图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

本实施例提供一种基于知识蒸馏的神经网络搜索方法，如图1所示，包括如下步骤：

S1：构建神经网络搜索空间，其包括多个搜索神经网络子空间，数据流在各搜索神经网络子空间选定任一基本网络结构按一定方向传递，构成有向无环图集合，组成神经超级网络。

本发明实施例中，神经网络搜索空间包括多层神经网络，各层神经网络存在对应的搜索神经网络子空间，搜索神经网络子空间包括由多个神经元组成的基本网络结构。神经网络搜索空间，数据流可以在多层神经网络中的搜索神经网络子空间选定任一基本网络结构按一定方向流动，构成有向无环图集合，以上要素构成神经超级网络(以下简称超级网)。

S2：根据不同深度将神经超级网络划分为多个子空间块。

当搜索空间很小，并且所有候选模型都经过充分和公平的训练时，评估基本是准确的。为了提高评价的准确性，本申请根据超级网的深度将超级网划分为更小的子空间块。每个子空间块包括多个层数不同的多层神经网络，所述多个多层神经网络之间不存在数据流交叉流动，不同子空间块之间的数据流动遵循有向无环图规则。

S3：基于知识蒸馏分别对多个子空间块进行单独训练，获取各子空间块多层神经网络的有向无环图对应的损失值，并对各子空间块中的损失值进行排序，将损失值最小的作为最优有向无环图模型。

知识不仅存在于网络参数中，而且还存在于网络结构中。因此，使用现有模型的块的中间结果来监督我们的体系结构搜索。如图2所示，将教师网络对应神经超级网络前一层子空间块输出的特征图作为神经超级网络当前空间块的输入特征，通过最小化子空间块的输出特征与教师网络对应当前子空间块的输出的特征图的范式距离，对各子空间块进行训练。通过最小化它们的输出特征图之间的L2距离来模拟相应教师块的行为，其中的虚线表示每个搜索子空间随机采样的路径。

训练的目标是模仿老师在每个街区的行为，因此根据学生子模型在每个区块中的评估损失来评估其学习能力。分块搜索使得评估所有的拆分模型成为可能(每个块大约10^4)。为了加速这一过程，本发明实施例以类似于深度优先搜索的方式向前传播一批输入节点，并保存每个节点的中间输出，然后由后续节点重用，以避免从头重新计算。通过对超级网中一个块中的所有单元求值，可以得到一个块中所有可能路径的求值损失。可以用一个CPU在几秒钟内用大约10^4个元素轻松地对这个列表进行排序。

S4：将各子空间块的最优有向无环图模型并进行组合，得到最优的目标神经网络。

在进行排序之后，可以从每个块中选择最优有向无环图模型来组合成一个最好的学生网络。在本发明实施例中，需要利用目标神经网路进行新的任务检测识别时，需要初始化目标神经网络参数，根据目标任务进行重新训练，得到最终模型。

本发明实施例提供的方法将大搜索空间的NAS模块化，以确保潜在的候选网络结构得到公平的训练，并减少由共享参数引起的表示偏差，从而确保候选结构的正确评分，正确的模型评分和排序提高了NAS的有效性，且扩展性好。

在一实施例中，对各子空间块进行搜索时通过预设的约束条件，筛选出符合约束条件的模型进行训练，约束条件为模型相关属性包括：模型参数量，模型计算复杂度，模型推理延时。

在一定的约束条件下找到最优有向无环图模型，为了自动分配每个块的计算成本，需要确保每个块的评估标准是公平的。由于MSE损失与特征图的大小和教师特征图的方差有关，为了避免任何可能的影响，一个公平的评估标准，称为相对L1损失。子模型的每个块中的所有L被相加以估计从老师那里学习的能力。然而计算所有10^17个候选模型的复杂性和增加损失是不必要的耗时的。在每一个块中都有排序的部分模型的情况下，本发明实施例采用一种省时的搜索算法来巧妙地访问所有可能的模型。通过预先计算的查找表来获得每个候选操作的复杂度，以节省时间。如果当前部分模型与下列块中最小部分模型的组合已超过约束，则跳过下一个块的测试。此外，它在找到满足约束的模型后返回到上一个块，以防止在当前块中测试具有较低秩的后续模型。

具体地，获得每个候选基本网络结构的预设约束属性构建查找表；选取当前子空间块的最优有向无环图模型，如果当前待定模型与后续所有子空间块中具有最小约束属性的有向无环图模型的组合得到的待定目标网络的约束属性超过约束，返回当前子空间块按排序选取次优有向无环图模型直到满足上述约束，继续选取下一子空间块；当选取完最后一层子空间块，得到满足约束的待定目标网络后，记录该网络为候选目标并返回倒数第二层子空间块，选取排序次优的有向无环图模型重复上述流程；将新的待定目标网络与候选目标对比，如果综合损失值更小，则替换掉该候选目标，否则返回倒数第二层子空间块继续选取次优的有向无环图模型直到该有向无环图模型的排序落后于候选目标在最后一层子空间块的有向无环图模型的排序，依次返回倒数第三层子空间块重复上述过程直到完成第一层子空间块的选取，得到最终的目标神经网络结构。

假设当前约束条件为模型参数量小于某一阈值，划分子空间块为{B₁,B₂,B₃}，B_i中排序好的有向无环图集合为{G_i ¹,G_i ²,…,G_i ⁿ}。开始搜索选定G₁ ¹，根据查找表可以知道在B₂,B₃中最小模型参数量的有向无环图为G₂ ^min，G₃ ^min，如果G₁ ¹，G₂ ^min，G₃ ^min构成的模型参数量超过给定的阈值，则跳过B₂,B₃的搜索。选定G₁ ²，重复上述过程。如果满足约束条件，则选定G₁ ²，G₂ ¹，重复上述过程。如果超过阈值，则选定G₁ ²，G₂ ²，重复过程直到满足条件。假定G₁ ²，G₂ ¹满足约束条件，则选定G₁ ²，G₂ ¹，G₃ ¹，如果满足条件，则G₁ ²，G₂ ¹，G₃ ¹为目标网络结构。否则重复直到找到G₁ ²，G₂ ¹，G₃ ⁱ满足条件，记录当前组合的损失值加权和为L，记录(L，i)，此时返回上一个单元块B₂,选定G₁ ²，G₂ ²，重复上述直到找到G₁ ²，G₂ ²，G₃ ^j满足条件，比较L和当前组合的损失值加权和，如果L较小，返回上一个单元块B₂重复直到找到G₁ ²，G₂ ^k，G₃ ^j的加权和小于L，替换掉L，同时令i＝j，返回B₂重复寻找，直到G₁ ²，G₂ ^k，k>i，返回上一个单元块B₁重复直到G₁ ^t，t>k。停止搜索，当前L所对应的有向无环图组合为最终的目标神经网络结构。

本发明实施例提供的方法生成的目标模型(DNA模型)与现有最新的NAS模型相比，得到的比较结果如图3所示。在350M的FLOPs限制条件下搜索，DNA-a的参数比Scarlet-a少了180万。为了与EfficientNet-B0进行公平的比较，分别以399M和5.3M的参数获得了DNA-b和DNA-c。两者的表现都大大超过B0(1.1％和1.5％)。特别是，DNA-d在6.4M参数和611M触发器下达到了78.4％的top-1精度。当使用与EfficientNet-B1相同的输入大小(240*240)进行测试时，DNA-d达到78.8％的top-1准确度，与B1同样准确，但比B1少140万参数量。

为了测试本发明实施例提供模型的迁移能力，在两个广泛使用的迁移学习数据集(CIFAR-10和CIFAR-100)上进行评估。本发明实施例的模型在迁移学习后仍保持着优势，结果如图4所示。

为了评估本实施例提供NAS方法的有效性，通过可视化代理单点模型的评估指标与独立模型的实际精度之间的关系，比较了本实施例提供的方法与SPOS(Single Path Oneshot)之间的模型排序能力。从搜索空间中抽取了16个模型，并从头开始训练它们。对于模型排序测试，在两个超级网中对这些抽样模型进行评估，以获得它们的预测性能。两种模型排序方法的比较如图5所示。每个采样模型在图中都有两个对应的点，用两种方法表示其预测性能与真实性能之间的相关性。图5中显示，由于子网没有得到公平和充分的训练，SPOS几乎无法对候选模型进行正确的排序。而在本实施例的分块超网中，预测性能与采样模型的真实精度高度相关，这证明了本实施例提供方法的有效性。

为了检验DNA对教师模型性能的依赖性，采用EfficientNet-B0作为教师模型来搜索相似大小的学生网络，结果见图6。用B0搜索的模型与用B7搜索的模型的性能几乎相同，这意味着DNA的性能并不依赖于高性能的教师。此外，DNA-B0的表现比教师高出1.5％，这证明了本实施例的结构蒸馏的表现不受教师表现的限制。因此，可以通过自蒸馏架构搜索来改进任何模型的结构，扩展性好。

实施例2

本施例提供一种基于知识蒸馏的神经网络搜索系统，如图7所示，包括：

搜索空间构建模块1，用于构建神经网络搜索空间，其包括多个搜索神经网络子空间，数据流在各搜索神经网络子空间选定任一基本网络结构按一定方向流动，构成有向无环图集合，组成神经超级网络；此模块执行实施例1中的步骤S1所描述的方法，在此不再赘述。

子空间块划分模块2，用于根据不同深度将神经超级网络划分为多个子空间块；此模块执行实施例1中的步骤S2所描述的方法，在此不再赘述。

子空间块训练及最优模型获取模块3，用于基于知识蒸馏分别对多个子空间块进行单独训练，并获取各子空间块多层神经网络的有向无环图对应的损失值，并对各子空间块中的损失值进行排序，将损失值最小的作为最优有向无环图模型，此模块执行实施例1中的步骤S3所描述的方法，在此不再赘述。

目标神经网络获取模块4，用于将各子空间块的最优有向无环图模型并进行组合，得到最优的目标神经网络。此模块执行实施例1中的步骤S4所描述的方法，在此不再赘述。

本发明实施例提供的系统将大搜索空间的NAS模块化，以确保潜在的候选网络结构得到公平的训练，并减少由共享参数引起的表示偏差，从而确保候选结构的正确评分，正确的模型评分和排序提高了NAS的有效性，且扩展性好。

实施例3

本发明实施例提供一种计算机设备，如图8所示，包括：至少一个处理器401，例如CPU(Central Processing Unit，中央处理器)，至少一个通信接口403，存储器404，至少一个通信总线402。其中，通信总线402用于实现这些组件之间的连接通信。其中，通信接口403可以包括显示屏(Display)、键盘(Keyboard)，可选通信接口403还可以包括标准的有线接口、无线接口。存储器404可以是高速RAM存储器(Ramdom Access Memory，易挥发性随机存取存储器)，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器404可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以执行实施例1的基于知识蒸馏的神经网络搜索方法。存储器404中存储一组程序代码，且处理器401调用存储器404中存储的程序代码，以用于执行实施例1的基于知识蒸馏的神经网络搜索方法。

其中，通信总线402可以是外设部件互连标准(peripheral componentinterconnect，简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture，简称EISA)总线等。通信总线402可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条线表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器404可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)，硬盘(英文：hard diskdrive，缩写：HDD)或固降硬盘(英文：solid-state drive，缩写：SSD)；存储器404还可以包括上述种类的存储器的组合。

其中，处理器401可以是中央处理器(英文：central processing unit，缩写：CPU)，网络处理器(英文：network processor，缩写：NP)或者CPU和NP的组合。

其中，处理器401还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integrated circuit，缩写：ASIC)，可编程逻辑器件(英文：programmable logic device，缩写：PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文：complex programmable logic device，缩写：CPLD)，现场可编程逻辑门阵列(英文：field-programmable gate array，缩写：FPGA)，通用阵列逻辑(英文：generic arraylogic,缩写：GAL)或其任意组合。

可选地，存储器404还用于存储程序指令。处理器401可以调用程序指令，实现如本申请执行实施例1中的基于知识蒸馏的神经网络搜索方法。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机可执行指令，该计算机可执行指令可执行实施例1的基于知识蒸馏的神经网络搜索方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard DiskDrive，缩写：HDD)或固降硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于知识蒸馏的神经网络搜索方法，其特征在于，包括：

根据不同深度将神经超级网络划分为多个子空间块；

基于知识蒸馏分别对多个子空间块进行单独训练，并获取各子空间块多层神经网络的有向无环图对应的损失值，并对各子空间块中的损失值进行排序，将损失值最小的作为最优有向无环图模型；

2.根据权利要求1所述的基于知识蒸馏的神经网络搜索方法，其特征在于，每个子空间块包括多个层数不同的多层神经网络，所述多个多层神经网络之间不存在数据流交叉流动，不同子空间块之间的数据流动遵循有向无环图规则。

3.根据权利要求1所述的基于知识蒸馏的神经网络搜索方法，其特征在于，还包括：初始化所述目标神经网络参数，根据目标任务进行重新训练，得到最终模型。

4.根据权利要求1所述的基于知识蒸馏的神经网络搜索方法，其特征在于，基于知识蒸馏分别对多个子空间块进行单独训练的步骤包括：

将教师网络对应神经超级网络前一层子空间块输出的特征图作为神经超级网络当前空间块的输入特征，通过最小化子空间块的输出特征与教师网络对应当前子空间块的输出的特征图的范式距离，对各子空间块进行训练。

5.根据权利要求4所述的基于知识蒸馏的神经网络搜索方法，其特征在于，对各子空间块进行搜索时通过预设的约束条件，筛选出符合约束条件的模型进行训练。

6.根据权利要求5所述的基于知识蒸馏的神经网络搜索方法，其特征在于，所述约束条件为模型相关属性包括：模型参数量，模型计算复杂度，模型推理延时。

7.根据权利要求6所述的基于知识蒸馏的神经网络搜索方法，其特征在于，所述将各子空间块的最优有向无环图模型并进行组合，得到最优的目标神经网络的过程，包括：

获得每个候选基本网络结构的预设约束属性构建查找表；

8.一种基于知识蒸馏的神经网络搜索系统，其特征在于，包括：

9.一种计算机设备，其特征在于，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1-7中任一所述的基于知识蒸馏的神经网络搜索方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行权利要求1-7中任一所述的基于知识蒸馏的神经网络搜索方法。