CN111159489A

CN111159489A - 一种搜索方法

Info

Publication number: CN111159489A
Application number: CN201911234277.XA
Authority: CN
Inventors: 张昱航; 叶可江; 须成忠
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2020-05-15
Anticipated expiration: 2039-12-05
Also published as: CN111159489B

Abstract

本申请属于信息处理技术领域，特别是涉及一种搜索方法。目前比较成熟的方案大体上已有NAS(Neural Architecture Searching)方式，Google公司提供的自主优化平台AotuML等，但依然在需要耗费大量的计算资源。本申请提出一种基于约束的网络搜索方法，首先是得到约束方法；基于约束方法下的搜索方法；最后得出完整的带约束的深度网络自主搜索方法及其配套框架。在规定的网络复杂度之下实现尽可能高的精度；或在规定的精度以上实现尽可能小的网络复杂度设计；实现了约束机制在自主搜索中的应用。

Description

一种搜索方法

技术领域

本申请属于信息处理技术领域，特别是涉及一种搜索方法。

背景技术

深度神经网络(Deep Neural Networks，以下简称DNN)是深度学习的基础，DNN可以理解为有很多隐藏层的神经网络，又被称为深度前馈网络(DFN)，多层感知机(Multi-Layer perceptron，MLP)。传统未经优化的深度神经网络参数量大，训练和测试耗费更多的计算资源和计算时间，不利于实际的研究；无法做到定向优化，只能依赖于人工进行反复尝试，这是容易出错以及耗费人力的低效率办法；

优化的深度神经网络借助强化学习或者演化学习实现的网络优化，自身这个优化网络在初始化的时候就需要更多的资源实现，而且花费的计算资源是之前的几十倍，不利于实际应用；目前已有的一些优化方式很多是针对于单一网络的，但不具备通用性。搜索方式单一，没有一种更为优秀的搜索方式，缺少理论支持。

现有的针对深度神经网络进行自主搜索优化的方式主要是依赖于强化学习下的大空间暴力搜索。目前比较成熟的方案大体上已有NAS(Neural Architecture Searching)方式，Google公司提供的自主优化平台AotuML等，但依然在需要耗费大量的计算资源。

发明内容

1.要解决的技术问题

基于现有的针对深度神经网络进行自主搜索优化的方式主要是依赖于强化学习下的大空间暴力搜索。目前比较成熟的方案大体上已有NAS(Neural ArchitectureSearching)方式，Google公司提供的自主优化平台AotuML等，但依然在需要耗费大量的计算资源的问题，本申请提供了一种搜索方法。

2.技术方案

为了达到上述的目的，本申请提供了一种搜索方法，所述方法包括如下步骤：

步骤1：对深度神经网络进行训练，剔除冗余节点后进行网络蒸馏得到所有拥有约束的子网络；

步骤2：初始化策略迭代模式下的任意一个同构通用结构网络，使得所述通用结构网络与所述子网络节点位置保持一致，但数值初始化不同；

步骤3：按照约束条件进行一次epoch产生一次对应函数值和结构，使得iteration＝1，当iteration＝＝epoch时，进行策略更新；

步骤4：在满足约束的条件下继续在回报函数最大化下寻求最好的策略，此时更新为iteration＝2；

步骤5：重复步骤3和步骤4，直至约束收敛；

步骤6：生成带约束的自主搜索网络。

本申请提供的另一种实施方式为：所述步骤1中深度神经网络为N(D,d)＝Teacher(D)+Student(d)

将Student(d)收敛值设定在一个参数量不大于T(n)，准确度不小于

的区间内；N(D,d)，为包含两个参数D和d的深度神经网络，Teacher(D)为最初选定的深度神经网络，

为设定的需要满足的准确度阈值大小，T(n)代表该网络最初设定的参数量大小，即参数量阈值该单位为计算机中常用单位Kb；

Teacher(D)为最初选定的深度神经网络；

初始化Student(d)，并开始训练。直至满足T(n)和

的收敛条件，此时停止训练，并保存Student(d)。

本申请提供的另一种实施方式为：所述网络蒸馏为通用网络剪枝方式，只保存关键节点的值，其他影响较小的节点或网络部分抛弃。

本申请提供的另一种实施方式为：所述子网络包括子节点的位置和对应位置的值。

本申请提供的另一种实施方式为：所述约束为：

Constrained(p,v)＝Student(p_x,y,v_p)

其中，Constrained(p,v)为约束网络，即子网络生成完毕后的新网络名称，p表示约束作用位置，v代表约束函数值的上界或下界；p_x,y,v_p代表在一个网络中第x个模块的第y个部分产生的位置坐标及其对应值。

本申请提供的另一种实施方式为：所述步骤2中策略迭代模式下随机策略为π(a)，所述π(a)为等概率的均匀随机取值。

本申请提供的另一种实施方式为：所述步骤3中策略更新后新的策略按照贪心算法决定。

本申请提供的另一种实施方式为：所述步骤5中收敛为所有的策略同时满足π_l+1＝＝π_l并且新的策略下的

本申请提供的另一种实施方式为：所述步骤6中自主搜索网络为动态规划下的：

动态规划最终产生的网络命名为Dynamic^*它的输入参数为x在条件

下，Find_dynamic(x)代表一种动态规划算法，本申请不特指某种具体动态规划算法，因为该种算法具有很强通用性，参数π_l+1代表此时动态规划算法的输入。

本申请提供的另一种实施方式为：所述自主搜索网络的约束条件和准确度可按照人为控制办法进行选取。

3.有益效果

与现有技术相比，本申请提供的一种搜索系统及方法的有益效果在于：

本申请提供的搜索方法，提供一种有约束的定向优化方式；按照两步走策略拆分任务，使得网络最初可以同步进行多种任务；提供一种更为通用的模式方法用以优化深度网络；强化算法具有可解释性。

本申请提供的搜索方法，提出了一种带有约束条件的神经网络搜索方式，借助强化学习的办法，本申请在约束条件之下进行了最优化网络的搜索，旨在完成一个参数适宜，精度可控的深度神经网络。

本申请提供的搜索方法，在规定的网络复杂度之下实现尽可能高的精度；或在规定的精度以上实现尽可能小的网络复杂度设计；实现了约束机制在自主搜索中的应用。

伴随着深度学习的火热发展，各种卷积神经网络(也可称为深度神经网络或深度网络)如雨后春笋般的出现在了各种学术文献上，但随之而来的是大量算力的付出和实际中的电力资源消耗。本申请涉及的搜索方法更好的发展深度学习技术，同时也使得每一次的计算都有更多的价值。

附图说明

图1是本申请的搜索方法约束条件原理示意图；

图2是本申请的搜索方法过程原理示意图。

具体实施方式

在下文中，将参考附图对本申请的具体实施例进行详细地描述，依照这些详细的描述，所属领域技术人员能够清楚地理解本申请，并能够实施本申请。在不违背本申请原理的情况下，各个不同的实施例中的特征可以进行组合以获得新的实施方式，或者替代某些实施例中的某些特征，获得其它优选的实施方式。

“蒸馏”(distillation)：把大网络的知识压缩成小网络的一种方法。先训练好一个大网络，在最后的softmax层使用合适的温度参数T，最后训练得到的概率称为“软目标”。以这个软目标和真实标签作为目标，去训练一个比较小的网络，训练的时候也使用在大模型中确定的温度参数T。

蒸馏把大网络压成小网络，这样就可以先在训练阶段花费大精力训练一个大网络，然后在部署阶段以较小的计算代价来产生一个较小的网络，同时保持一定的网络预测表现。

参见图1～2，本申请提供一种搜索方法，所述方法包括如下步骤：

步骤5：重复步骤3和步骤4，直至约束收敛；

步骤6：生成带约束的自主搜索网络。

本申请提出的约束方法背后是一个强有力的实验支撑的方法(彩票理论)：在常规的深度网络中，存在着一些需要人为设定的经验值下的超参数，这些超参数的选取往往影响着网络训练的速度和最终训练出深度网络的精度，所以由此来看，这些超参数选取的方式就显得尤为重要。根据彩票理论，参数选取的随机化通常是有利于整体网络的性能的。但基于一个大前提就是如果我们能给网络一个经验参考范围那么这样进行的随机化将会更有利于整体网络的性能表现。为此，本申请的约束机制即为一个带后验知识的网络。

进一步地，所述步骤1中深度神经网络为N(D,d)＝Teacher(D)+Student(d)

Teacher(D)为最初选定的深度神经网络；

初始化Student(d)，并开始训练。直至满足T(n)和

的收敛条件，此时停止训练，并保存Student(d)。

这里的深度神经网络即为大网络。

进一步地，所述网络蒸馏为通用网络剪枝方式，只保存关键节点的值，其他影响较小的节点或网络部分抛弃。

进一步地，所述子网络包括子节点的位置和对应位置的值。

进一步地，所述约束为：

Constrained(p,v)＝Student(p_x,y,v_p)

其中Constrained(p,v)为约束网络，即子网络生成完毕后的新网络名称，p表示约束作用位置，v代表约束函数值的上界或下界；p_x,y,v_p代表在一个网络中第x个模块的第y个部分产生的位置坐标及其对应值。

进一步地，所述步骤2中策略迭代模式下随机策略为π(a)，所述π(a)为等概率的均匀随机取值。

本申请借助强化学习中的策略迭代Policy Iteration模式，设计了一个基于约束的搜索方式。

先给出搜索环境设置，环境设置规则按本申请内容如下设定：

设定此时有一个能够最小化且满足模块递归条件的最小子模块，记为Sun_N，其中N代表模块的数量。实际中这种子模块是大量存在的，所以这一步的取得是合理正常的；

设定此时利用已有经验知识构造出来了共计K(K＝1,2,…,n)个类型不同的子模块Sub_N,所以此时每一个子模块记为Sub_i,N(i∈K)；

规定Policy Iteration模式下的动作空间为B[2]中所有的Sub_i,N；

规定Policy Iteration模式下的状态空间为不超过t(n)＜＜T(n)的所有Sub_i,N的自由组合的数量.其中t(n)的取得为穷举所有的Sub_i,N组合；

规定Policy Iteration模式下回报函数为Student(d)对应的Loss_function(Student(d))取反，即回报函数定义为：

R(x)＝-Loss_function(x)；

R(x)是本申请定义的回报函数，Loss_function为损失函数，括号里的内容为损失函数的输入。

规定Policy Iteration模式下随机策略定义为π(a)且为等概率的均匀随机取值。

进一步地，所述步骤3中策略更新后新策略按照贪心算法决定。

进一步地，所述步骤5中收敛为所有的策略同时满足π_l+1＝＝π_l并且新的策略下满足：

T(N|π_l+1)≤T(n)且

π_l代表在l步时的选择策略，

代表在策略π_l+1下的l+1步的准确度。T(N|π_l+1)代表在策略π_l+1下的此时参数量的大小，记为T(N)。大写的N代表在新的策略下的步骤序数，与小写的n指代不同。

进一步地，所述步骤6中自主搜索网络为动态规划下的：

进一步地，所述自主搜索网络的约束条件和准确度可按照人为控制办法进行选取。

按照上面定义的各种模式，此时已经确定了状态转移概率为

回报函数

定义折扣因子为γ。

初始化值函数：V(s)＝0，初始化策略为π₀＝Student(d)，此时网络被初始化成了上面的子网络中采取的策略。

进行iteration＝epoch(epoch＝5,10,15,…,5n)一次更新的策略，每次更新的值函数的值为：

当iteration＝＝epoch时，进行一次策略更新，更新方式为：

按照如上方式进行策略更新后，新的策略为按照贪心算法决定的：

直到所有的策略同时满足π_l+1＝＝π_l并且新的策略下的

即约束收敛至：

上式中的条件要满足在任何一个子节点都是这样的状态才能完成最后的传播，所以对于整体的带约束的深度网络自主搜索，在网络的任意一层l_i∈L均需满足上式，L代表大网络下的层数的编号，l_i代表当前层下的编号；

动态规划算法，即最终网络结构约束为动态规划下的：

上式中Dynamic^*满足上述条件的最终网络。即约束条件下搜索完成的深度网络。

算法结束。

本申请提出了带有后验指导知识的子网络，辅助强化学习网络进行最优值的搜索；针对有大量递归可利用的子网络设计出了一种按照动态规划方法求解整体网络的解；针对自主搜索网络设计出了一套办法流程。

本申请可以对两端网络进行分布式训练，节省训练时间；

本申请的约束可以有效定向对网络模型或者网络进度进行参数性调节。

尽管在上文中参考特定的实施例对本申请进行了描述，但是所属领域技术人员应当理解，在本申请公开的原理和范围内，可以针对本申请公开的配置和细节做出许多修改。本申请的保护范围由所附的权利要求来确定，并且权利要求意在涵盖权利要求中技术特征的等同物文字意义或范围所包含的全部修改。

Claims

1.一种搜索方法，其特征在于：所述方法包括如下步骤：

步骤5：重复步骤3和步骤4，直至约束收敛；

步骤6：生成带约束的自主搜索网络。

2.如权利要求1所述的搜索方法，其特征在于：所述步骤1中深度神经网络为

N(D，d)＝Teacher(D)+Student(d)

的区间内；N(D，d)，为包含两个参数D和d的深度神经网络，Teacher(D)为最初选定的深度神经网络，

为设定的需要满足的准确度阈值大小，T(n)代表该网络最初设定的参数量大小；

初始化Student(d)，并开始训练，直至满足T(n)和

的收敛条件，此时停止训练，并保存Student(d)。

3.如权利要求2所述的搜索方法，其特征在于：所述网络蒸馏为通用网络剪枝方式，只保存关键节点的值，其他影响较小的节点或网络部分抛弃。

4.如权利要求1所述的搜索方法，其特征在于：所述子网络包括子节点的位置和对应位置的值。

5.如权利要求1所述的搜索方法，其特征在于：所述约束为：

Constrained(p，v)＝Student(p_x，y，v_p)

其中，Constrained(p，v)为约束网络，p表示约束作用位置，v代表约束函数值的上界或下界；p_x，y，v_p代表在一个网络中第x个模块的第y个部分产生的位置坐标及其对应值。

6.如权利要求1所述的搜索方法，其特征在于：所述步骤2中策略迭代模式下随机策略为π(a)，所述π(a)为等概率的均匀随机取值。

7.如权利要求1所述的搜索方法，其特征在于：所述步骤3中策略更新后新的策略按照贪心算法决定。

8.如权利要求6所述的搜索方法，其特征在于：所述步骤5中收敛为所有的策略同时满足π_l+1＝＝π_l并且新的策略下的T(N|π_l+1)≤T(n)且

9.如权利要求1所述的搜索方法，其特征在于：所述步骤6中自主搜索网络为动态规划下的：

下，列nd_dynamic(x)代表一种动态规划算法，参数π_l+1代表此时动态规划算法的输入。

10.如权利要求1～9中任一项所述的搜索方法，其特征在于：所述自主搜索网络的约束条件和准确度可按照人为控制办法进行选取。