CN112801264B

CN112801264B - 一种动态可微分的空间架构搜索方法与系统

Info

Publication number: CN112801264B
Application number: CN202011271696.3A
Authority: CN
Inventors: 杨隆兴; 胡瑜
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2023-06-13
Anticipated expiration: 2040-11-13
Also published as: CN112801264A

Abstract

本发明提出一种动态可微分的空间架构搜索方法与系统，将空间采样与可微分搜索结合，仅对采样空间进行可微分搜索，同时于搜索过程中更新搜索空间的概率分布，用以指导下一次的采样。多次迭代后算法收敛，继而根据相应参数确定最终的搜索结构。这样既可以通过仅优化子空间来加速搜索，又能够以采样的方式使搜索在多个子空间下进行，跳出可微分优化导致的局部最优解，找到更好的网络结构。

Description

一种动态可微分的空间架构搜索方法与系统

技术领域

本发明涉及深度学习中神经网络架构搜索领域，并特别涉及一种动态可微分的空间架构搜索方法与系统。

背景技术

神经网络架构搜索(neural architecture search，简称NAS)是深度学习的一个分支，用于降低人工设计网络架构的试错成本，自动化地搜索性能更优的网络架构。围绕着如何提高搜索效率和如何找到更好的结构，NAS可划分为强化学习类、进化算法类和可微分类三种方法。由于需要对每种结构进行重训练，前两类方法要求极其巨大的搜索资源，因此当下主流的搜索算法是可微分类算法。可微分方法需要用权重共享机制对搜索空间的所有结构进行集成，然后基于梯度优化权重和结构参数，最后通过结构参数选择结构。

可微分搜索需要对整个搜索空间的结构进行集成，这样存在着效率和性能上的不足。一方面，搜索空间集成后会产生一个权重共享的超网络，超网络在搜索过程中的训练需要比较大的显存开销，抬高了硬件门槛。同时，前向和反向传播会比较耗时，从而拖慢整个搜索时间。另一方面，可微分方法利用梯度进行搜索，受限于初始条件和优化过程，易陷入局部最优解，甚至出现结构崩塌，从而难以发现好的结构。该类方法往往需要多次搜索，而这又降低了搜索效率。

发明内容

针对现有技术的不足，本发明提出一种动态可微分空间和架构搜索的方法，包括：

步骤1、通过集合多个待搜索的神经网络架构得到搜索空间，将该搜索空间中所有神经网络架构通过权重共享生成超网络，将该超网络的有向无环图以矩阵表示，得到空间矩阵，该空间矩阵的行数表示图的边，列表示候选操作；

步骤2、对该空间矩阵的每一个元素计算上置信界值，将所有元素的上置信界值进行排序，通过选择最大的topK个，生成子空间矩阵，该子空间矩阵对应着采样的子空间；

步骤3、使用反向传播算法优化该子空间矩阵中候选操作的权重参数、空间参数和结构参数；优化的迭代次数为M步，用于控制子空间中参数的收敛程度。

步骤4、根据该空间参数和该结构参数得到该子空间矩阵中每条边的所有候选操作的重要程度，以构建重要程度矩阵，判断当前迭代次数是否达到预定次数，若否则再次执行该步骤2，直到当前迭代次数达到预定次数，根据该重要程度矩阵，选择每条边重要程度最大的候选操作，构成最终的神经网络架构。

所述的动态可微分空间和架构搜索的方法，包括该超网络包括神经网络的层数、通道数、步长、拓扑结构和节点间候选操作信息。

所述的动态可微分空间和架构搜索的方法，包括空间矩阵中元素的值为1 或0，用于表示边的操作是否是搜索空间的候选操作。

所述的动态可微分空间和架构搜索的方法，包括该步骤4中每条边的所有候选操作的重要程度为：

如果子空间矩阵对应位置的值为1则第i次迭代的重要程度＝空间概率* 结构条件概率+第i-1次迭代的重要程度，否则第i次迭代的重要程度＝第i-1 次迭代的重要程度，其中空间概率为该空间参数，结构条件概率为该结构参数。

所述的动态可微分空间和架构搜索的方法，包括该步骤2中计算上置信界值具体过程为：

对该空间矩阵的每一个元素计算上置信界值，UCB＝空间概率 +c*sqrt(lnT/t)，其中UCB为该上置信界值，该空间概率在第一次迭代时来自初始值，之后来自步骤3的空间参数，c为置信系数，T为子空间总共采样次数，t为该操作的子空间矩阵值为1的次数。

所述的动态可微分空间和架构搜索的方法，包括该步骤3优化过程具体为：

该子空间矩阵中候选操作集合为O，o表示具体操作，

表示混合操作，ω， ζ，α为权重、空间、结构参数，k用来表示第k种操作，则在两个节点间混合操作的计算为

其中，p_k，q_k分别表示第k种操作的空间概率和在此空间下的条件结构概率，p_k＝sigmoid(ζ_k)，

Z_k为节点间第k种操作的子空间矩阵值，通过反向传播更新得到权重、空间、结构参数。反向传播优化的步数为M步，用于控制子空间中参数的收敛程度，根据子空间的大小选取M的大小，当M越大时，子空间的收敛程度越好，但是容易过拟合令搜索陷入局部最优解。当M较小时，子空间收敛不好，对其重要程度的评估就会不准确。

本发明还提出了一种动态可微分空间和架构搜索的系统，包括：

模块1、用于集合多个待搜索的神经网络架构得到搜索空间，将该搜索空间中所有神经网络架构通过权重共享生成超网络，将该超网络的有向无环图以矩阵表示，得到空间矩阵，该空间矩阵的行数表示图的边，列表示候选操作；

模块2、用于对该空间矩阵的每一个元素计算上置信界值，将所有元素的上置信界值进行排序，通过选择最大的topK个，生成子空间矩阵，该子空间矩阵对应着采样的子空间；

模块3、用于反向传播算法优化该子空间矩阵中候选操作的权重参数、空间参数和结构参数，其中优化步数为M步，用于控制子空间中参数的收敛程度。

模块4、用于根据该空间参数和该结构参数得到该子空间矩阵中每条边的所有候选操作的重要程度，以构建重要程度矩阵，判断当前迭代次数是否达到预定次数，若否则再次运行该模块2，直到当前迭代次数达到预定次数。其中，迭代次数为采样次数。根据该重要程度矩阵，选择每条边重要程度最大的候选操作，构成最终的神经网络架构。

所述的动态可微分空间和架构搜索的系统，包括该超网络包括神经网络的层数、通道数、步长、拓扑结构和节点间候选操作信息。

所述的动态可微分空间和架构搜索的系统，包括空间矩阵中元素的值为1 或0，用于表示边的操作是否是搜索空间的候选操作。

所述的动态可微分空间和架构搜索的系统，包括该模块4中每条边的所有候选操作的重要程度为：

如果子空间矩阵对应位置的值为1则第i次迭代的重要程度＝空间概率* 结构条件概率+第i-1次迭代的重要程度，否则第i次迭代的重要程度＝第i-1 次迭代的重要程度，其中空间概率为该空间参数，结构条件概率为该结构参数；

该模块2中计算上置信界值具体过程为：

对该空间矩阵的每一个元素计算上置信界值，UCB＝空间概率 +c*sqrt(lnT/t)，其中UCB为该上置信界值，该空间概率在第一次迭代时来自初始值，之后来自模块3的空间参数，c为置信系数，T为子空间总共采样次数，t为该操作的子空间矩阵值为1的次数；

该模块3优化过程具体为：

该子空间矩阵中候选操作集合为O，o表示具体操作，

Z_k为节点间第k种操作的子空间矩阵值，通过反向传播更新得到权重、空间、结构参数，I为指示函数，括号内条件成立值为1，否则为0。

由以上方案可知，本发明的优点在于：本发明将空间采样与可微分搜索结合，仅对采样空间进行可微分搜索，同时于搜索过程中更新搜索空间的概率分布，用以指导下一次的采样。多次迭代后算法收敛，继而根据相应参数确定最终的搜索结构。这样既可以通过仅优化子空间来加速搜索，又能够以采样的方式使搜索在多个子空间下进行，跳出可微分优化导致的局部最优解，找到更好的网络结构。

附图说明

图1是本发明实施例的一种动态可微分的空间和架构搜索方法的流程图；

图2是本发明实施例的一种生成的超网络的示意图；

图3是本发明实施例的一种子空间采样的示意图；

图4是本发明实施例的一种网络架构选择的示意图；

图5是本发明实施例的一种动态可微分空间和架构搜索的示意图。

具体实施方式

采样空间是整个搜索空间的子空间。从集合的角度来说，采样空间是整个搜索的间的一个子集，二者属于包含关系。采样空间可以是整个搜索空间的任意子集，空集除外。对于某次采样，除了采样空间外，其他的空间仅是这次没有采样而已，之后仍然可能采到。所以并不存在采样空间外的空间。

第一方面，本发明提供了一种动态可微分的空间和架构搜索方法包含以下步骤：

步骤1.确定搜索空间并生成权重共享的超网络。

确定搜索空间即确定待搜索的神经网络架构集合，例如设计一个10层的网络，每层可供选择2种卷积核，如3*3和5*5，那么总共有2^10＝1024种网络结构。具体来说，超网络包括神经网络的层数、通道数、步长、拓扑结构、节点间候选操作等信息。然后，将该集合的所有结构通过权重共享策略生成超网络，即一个有向无环图。该图可以用矩阵表示，称之为空间矩阵。空间矩阵的行数表示图的边，列表示候选操作。空间矩阵的值为1或0，1表示该边的该操作是搜索空间的候选操作，0则不是。矩阵初始化值为1，表示全空间矩阵。

步骤2.从搜索空间采样子空间，即从超网络对应的有向无环图中采样子图。

在采样前，需要对搜索空间进行评估，以平衡对空间的探索和利用。评估基于UCB(上置信界Upper Confidence Bound)原理，即对矩阵的每一个元素计算UCB值。对于每种候选操作，UCB＝空间概率+c*sqrt(lnT/t)。其中，空间概率第一步来自初始值，之后来自第4步的空间概率值，c为置信系数例如 1.44，T为子空间总共采样次数，t为该操作的子空间矩阵值为1的次数，每次采样都会生成一个空间矩阵，矩阵中有K个值为1，其他值为0，此时值为 1的位置计数一次。若干次采样后一个位置总共的计数次数就是该位置矩阵值为1的次数。这里的一个位置对应着一个操作。然后，将所有元素的UCB值进行排序，选择最大的topK个。由此生成一个由1和0构成的空间矩阵，1 的个数有K个，对应着前面K个数的位置。该空间矩阵为子空间矩阵，对应着采样的子空间。

步骤3.对子空间进行可微分搜索。

根据2的子空间矩阵，本发明仅优化超网络中子空间矩阵中值为1的候选操作。优化使用反向传播算法。优化的参数包括三类，即权重参数、空间参数和结构参数，分别表示候选操作的权重参数(如卷积核的参数)，空间概率分布的参数，在给定空间下的结构条件概率分布的参数。空间参数和结构参数形式上也可以构成矩阵，它们尺寸同空间矩阵。权重参数用于使超网络收敛，同时它会影响空间参数和结构参数。

步骤4.评估候选操作重要程度和搜索空间的UCB值。

重要程度是一个变量，用来确定最后的网络架构。这也是一个矩阵，称之为重要程度矩阵。其尺寸与空间矩阵相同，矩阵的每个值为非负的实数。矩阵元素值计算方式是：如果子空间矩阵对应位置的值为1，则第i次迭代的重要程度＝空间概率*结构条件概率+第i-1次迭代的重要程度，否则，第i次迭代的重要程度＝第i-1次迭代的重要程度。其中空间和结构条件概率分别通过步骤3的空间参数和结构参数进行计算。另外，UCB值是一种平衡探索和利用的参数，用来指导下一次的空间采样，其计算公式见步骤2。

第二方面，本发明提供了一种动态可微分空间和架构搜索方法与装置，其特征包含以下模块：

A、超网络生成模块，用于对确定的搜索空间构建权重共享的超网络。超网络为一个有向无环图，可以用空间矩阵表示。空间矩阵行为边，列为候选操作。其值为0或1，1表示该边的该操作是搜索空间的候选操作，0则不是。矩阵初始值全为1，表示全空间。

B、子空间采样模块，用于对搜索空间进行探索和利用，并从中提取中收益最大，即UCB值最大的子空间，以进行搜索。

C、可微分优化模块，用于梯度更新权重参数、空间参数和结构参数。

D、重要程度评估模块，用于计算更新每种候选操作的重要程度。

E、网络架构选择模块，根据重要程度以确定最后的网络架构。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

实施例1

图1是本发明提供的一种动态可微分的空间和架构搜索方法，其步骤为：

S11：确定搜索空间并生成权重共享的超网络，对超网络的有向无环图构建矩阵。

在该步骤的实施方式中：如图2所示，超网络由n层单元(cell)堆叠而成，单元共有两类，分别是一般单元(normalcell)和降采样单元(reduction cell)，其中降采样单元位于网络的

和

层，一般单元位于其他层。单元内部为有向无环图，含v个节点和e条边，每条边由m种候选操作，如zero 操作，卷积操作、池化操作等。由此，通过确定单元的拓扑结构和候选操作的类型，搜索空间也便能确定下来。单元包括所有的搜索结构，它们通过权重共享的方式构成整个完整的单元。同时，本方法通过矩阵的形式对整个搜索空间进行表示，称之为空间矩阵。空间矩阵的行数表示边，列表示候选操作。矩阵的值为1或0，1表示该边的该操作是搜索空间的候选操作，0则不是。矩阵初始值全为1，表示全空间。图2中，单元由4个节点构成，其边数是6，候选操作是3，矩阵的尺寸为6*3。注意，由于超网络是由两种单元堆叠构成，因此没有必要对超网络构建矩阵，只需要对两种单元分别构建即可。

S12：从搜索空间采样子空间，即从超网络对应的有向无环图中采样子图，采样的基于UCB进行topK选取。

在该步骤的实施方式中：如图3所示，采样前需要对搜索空间进行评估，以平衡对空间的探索和利用，评估基于UCB(Upper Confidence Bound)进行计算，即对矩阵的每一个元素计算UCB值。其中，UCB值第一步来自初始值，之后来自S14的结果。然后，将所有元素的UCB值进行排序，选择最大的topK 个，接着生成一个由1和0构成空间矩阵，1的个数有K个，对应着前面K 个数的位置。这里空间矩阵称为子空间矩阵，表示一个子图，对应着一个子空间。注意，图3中K＝12，UCB数值仅用于理解，而非方法必然产生的值。

S13：对子空间进行可微分搜索，对权重参数、空间参数、结构参数进行可微分优化。

在该步骤的实施方式中：根据S12的空间矩阵，本发明仅优化超网络中空间矩阵值为1的候选操作。优化使用反向传播算法，优化的参数包括三类，即权重参数、空间参数和结构参数，分别表示候选操作的权重参数(如卷积核的参数)，空间概率分布的参数，在给定空间下的结构条件概率分布的参数。为了更为精准的描述，这里假定候选操作集合为O，o表示具体操作，即为O的元素，

表示混合操作。ω，ζ，α为权重、空间、结构参数，k用来表示第k 种操作，则在两个节点间混合操作的计算为

其中，x表示特征图，p_k，q_k分别表示第k种操作的空间概率和在此空间下的条件结构概率，它们的计算方式为p_k＝sigmoid(ζ_k)，

Z_k为节点间第k种操作的子空间矩阵值，k’为索引下标，n为操作数量。由此，网络前向传播便可确定，然后根据反向传播算法更新三种参数即可。

S14：评估候选操作重要程度和搜索空间的UCB值，重要程度根据S13中优化的空间参数和结构参数进行计算，UCB值则根据空间参数进行计算。

在该步骤的实施方式中：重要程度是一个变量，用来确定最后的网络架构，其尺寸同空间矩阵，矩阵的每个值为非负的实数。矩阵元素值计算方式是：如果子空间矩阵对应位置的值为1，则第i次迭代的重要程度＝空间概率*结构条件概率+第i-1次迭代的重要程度，否则，第i次迭代的重要程度＝第i-1次迭代的重要程度。其中空间和结构条件概率分别通过空间参数和结构参数进行计算，详见S13。同时，对于每种候选操作，计算UCB值，UCB值＝空间概率 +c*sqrt(lnT/t)，其中，c为置信系数，T为子空间总共采样次数，t为该操作的子空间矩阵值为1的次数。

S15：判断算法是否达到指定迭代次数，否，跳转到S12，是，跳转到S16。

S16：根据候选操作的重要程度选择最后的网络架构，选择每条边重要程度最大的操作。

在该步骤的实施方式中：选择策略是每条边选择重要程度最大的候选操作，由此这些被选择的操作构成最终的网络架构,该步骤的实施方式如图4所示，注意，重要程度矩阵的数值仅用于理解，而非方法必然产生的值

实施例2

本发明实施例还提供一种动态可微分空间和架构搜索的装置，该装置包括：超网络生成模块21、子空间采样模块22、可微分优化模块23、评估模块24、网络架构选择模块25。

其中超网络生成模块21，将所有待搜索的网络结构以权重共享方式集合成一个超网络；子空间采样模块22，根据UCB值topK选择子空间；可微分优化模块23，对生成的子网络中的权重参数、结构参数、空间参数进行可微分优化；评估模块24用于评估候选操作重要程度和UCB值，前者用于网络架构选择，后者用于指导下一次的子空间采样；网络架构选择模块25，根据重要程度选择最终的网络结构。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

模块3、用于反向传播算法优化该子空间矩阵中候选操作的权重参数、空间参数和结构参数；

模块4、用于根据该空间参数和该结构参数得到该子空间矩阵中每条边的所有候选操作的重要程度，以构建重要程度矩阵，判断当前迭代次数是否达到预定次数，若否则再次运行该模块2，直到当前迭代次数达到预定次数，根据该重要程度矩阵，选择每条边重要程度最大的候选操作，构成最终的神经网络架构。

该模块2中计算上置信界值具体过程为：

该模块3优化过程具体为：

该子空间矩阵中候选操作集合为O，o表示具体操作，

Z_k为节点间第k种操作的子空间矩阵值，通过反向传播更新得到权重、空间、结构参数。

Claims

1.一种动态可微分空间和架构搜索的方法，其特征在于，包括：

步骤1、通过集合多个待搜索的图像分类神经网络架构得到搜索空间，将该搜索空间中所有图像分类神经网络架构通过权重共享生成超网络，将该超网络的有向无环图以矩阵表示，得到空间矩阵，该空间矩阵的行数表示图的边，列表示候选操作；

步骤3、使用反向传播算法优化该子空间矩阵中候选操作的权重参数、空间参数和结构参数；

步骤4、根据该空间参数和该结构参数得到该子空间矩阵中每条边的所有候选操作的重要程度，以构建重要程度矩阵，判断当前迭代次数是否达到预定次数，若否则再次执行该步骤2，直到当前迭代次数达到预定次数，根据该重要程度矩阵，选择每条边重要程度最大的候选操作，构成最终的图像分类神经网络架构，以该最终的图像分类神经网络架构执行图像分类任务；

该超网络包括神经网络的层数、通道数、步长、拓扑结构和节点间候选操作信息，且步骤3中反向传播算法优化的迭代次数为M，用于控制子空间中参数的收敛程度；空间矩阵中元素的值为1或0，用于表示边的操作是否是搜索空间的候选操作；

该步骤4中每条边的所有候选操作的重要程度为：

如果子空间矩阵对应位置的值为1则第i次迭代的重要程度＝空间概率*结构条件概率+第i-1次迭代的重要程度，否则第i次迭代的重要程度＝第i-1次迭代的重要程度，其中空间概率为该空间参数，结构条件概率为该结构参数；

该步骤2中计算上置信界值具体过程为：

对该空间矩阵的每一个元素计算上置信界值，UCB＝空间概率+c*sqrt(lnT/t)，其中UCB为该上置信界值，该空间概率在第一次迭代时来自初始值，之后来自步骤3的空间参数，c为置信系数，T为子空间总共采样次数，t为该操作的子空间矩阵值为1的次数；

该步骤3优化过程具体为：

该子空间矩阵中候选操作集合为O，o表示具体操作，

表示混合操作，ω，ζ，α为权重、空间、结构参数，k用来表示第k种操作，则在两个节点间混合操作的计算为

其中，p_k,q_k分别表示第k种操作的空间概率和在此空间下的条件结构概率，p_k＝sigmoid(ζ_k)，

2.一种动态可微分空间和架构搜索的系统，其特征在于，包括：

模块1、用于集合多个待搜索的图像分类神经网络架构得到搜索空间，将该搜索空间中所有图像分类神经网络架构通过权重共享生成超网络，将该超网络的有向无环图以矩阵表示，得到空间矩阵，该空间矩阵的行数表示图的边，列表示候选操作；

模块4、用于根据该空间参数和该结构参数得到该子空间矩阵中每条边的所有候选操作的重要程度，以构建重要程度矩阵，判断当前迭代次数是否达到预定次数，若否则再次运行该模块2，直到当前迭代次数达到预定次数，根据该重要程度矩阵，选择每条边重要程度最大的候选操作，构成最终的图像分类神经网络架构；

该超网络包括神经网络的层数、通道数、步长、拓扑结构和节点间候选操作信息，且模块3中反向传播算法优化的迭代次数为M，用于控制子空间中参数的收敛程度；空间矩阵中元素的值为1或0，用于表示边的操作是否是搜索空间的候选操作；

该模块4中每条边的所有候选操作的重要程度为：

该模块2中计算上置信界值具体过程为：

对该空间矩阵的每一个元素计算上置信界值，UCB＝空间概率+c*sqrt(lnT/t)，其中UCB为该上置信界值，该空间概率在第一次迭代时来自初始值，之后来自模块3的空间参数，c为置信系数，T为子空间总共采样次数，t为该操作的子空间矩阵值为1的次数；

该模块3优化过程具体为：

该子空间矩阵中候选操作集合为O，o表示具体操作，