CN116611504A

CN116611504A - 一种基于进化的神经架构搜索方法

Info

Publication number: CN116611504A
Application number: CN202310453530.0A
Authority: CN
Inventors: 马连博; 安晓洁; 李楠
Original assignee: 东北大学
Priority date: 2023-04-25
Filing date: 2023-04-25
Publication date: 2023-08-18

Abstract

本发明提供一种基于进化的神经架构搜索方法，首先定义神经网络架构的搜索空间并进行编码，其次根据训练实例和实例对应的标签构建训练数据集，构建列表排序预测器，利用构建的训练数据集进行训练，最后利用进化算法搜索最佳架构。本发明使用列表排序预测器来对架构的性能进行评估，用列表排序模型代替线性回归来构建性能预测器。预测器是预测每个候选体系结构在总体中的顺序，而不是预测体系结构的精确精度值。根据排名信息，可以快速识别出优秀的架构，并选择进入下一轮，并且本发明中的排序预测器不需要大量原始的训练有素的架构样本，这大大降低了计算成本。

Description

一种基于进化的神经架构搜索方法

技术领域

本发明涉及深度神经网络技术领域，具体设计一种基于进化的神经架构搜索方法。

背景技术

深度学习在很多领域都取得了巨大的突破和进展。这是由于深度学习具有强大的自动化特征提取的能力。人工智能技术应用于各个领域已经屡见不鲜，各种人工智能技术(例SVM、决策树等)在医疗图像分割、深度图像分类等方面已经超越了医疗专家，尤其以深度卷积神经网络技术为代表的深度学习技术在医疗图像领域已经开始展露锋芒。而网络结构的设计对数据特征的表征和最终模型的表现起到了至关重要的作用。为了获取数据的更好的特征表示，研究人员设计多种多样的复杂的网络架构，而网络结构的设计是严重依赖于研究人员的先验知识和经验。这样会导致一个问题：当新的分类任务到来时，原本设计出来的架构可能在新的任务上表现不佳，需要重新设计，使得过程耗时耗力。同时网络结构的设计也很难跳出原有思考模式并设计出一个最优的网络。新人很难根据自己的实际任务和需求对网络结构进行合理的修改。且调参对于深度模型来说是一项非常艰难的事情，众多的超参数和网络结构参数会产生爆炸性的组合，一个很自然的想法就是尽可能减少人工的干预，让算法能够自动寻找最合适的网络架构。

神经架构搜索(NAS)是一种很有前途的方法，可以自动设计特定于任务的深度神经网络(DNN)架构，而不是基于广泛的人类专业知识设计手工制作的DNN。NAS的主要研究问题总体上可以分为3个部分：构建搜索空间，制定搜索策略以及模型的性能评估。最近的研究结果已经证明NAS可以像人类专家一样获得具有竞争力的DNN，甚至发现了不太可能由人类专家开发的新颖的最先进的DNN架构。在早期的NAS方法中，需要从头开始训练候选架构以进行评估，这需要昂贵的计算资源。为了降低评估候选架构的计算成本，NAS通常使用性能预测器来指导进化搜索。并且各种优化器已被用于解决NAS，包括强化学习(Reinforcement Learning，RL)，进化计算(Evolutionary Computation，EC)和基于梯度的算法。与其他方法不同，基于EC的NAS(简称ENAS)是无梯度的，对NAS目标的复杂性不敏感，它演化出一个模型种群(包括适应度评估和选择操作)来搜索关于目标的最优架构。

通常，在目标ENAS中，架构搜索使用线性回归代理来预测每个候选架构的数值，目的是在适应度评估中获得较高的预测精度。这样的基于进化的神经架构搜索(ENAS)仍然存在两个主要的局限性：第一，线性回归模型的预测偏差容易导致排序无序问题，从而误导NAS的选择；第二，获得这样一个精确的代理模型是一个挑战，甚至是棘手的，因为模型训练需要大量的样本并且需要在不同的数据集上进行训练，而有限的计算资源无法满足这个条件。在NAS中，候选架构的数量通常有限，因此很难获得稳定和高的预测精度。更严重的是，精确精度性能的不稳定预测会导致在对一组候选架构进行排序时出现排序无序，不利于NAS的选择操作。因此，设计有效、高效的ENAS替代物是非常迫切的要求。

发明内容

针对现有技术的不足，本发明提出一种基于进化的神经架构搜索方法，包括以下步骤：

步骤1：定义神经网络架构的搜索空间并进行编码；所述搜索空间的网络的输入为图像分辨率R和宽度乘数W，宽度乘数W是一个统一缩放每层输出通道的因子；搜索空间的网络结构采用模块化设计，包括主干、多个阶段和尾部；主干和尾部是对所有的网络结构通用的，在之后的网络架构搜索阶段是不需要搜索的，多个阶段是将卷积神经网络CNN的结构划分为5个顺序连接的阶段，每一个阶段逐渐减小特征图的大小，增加通道的数量；每个阶段依次由多层组成，在阶段中需要搜索层数，每一层由一个倒转的残差网络结构组成；

所述编码是指使用长度为22的整数字符串对网络的架构进行编码，前两个值分别表示输入图像的分辨率R和宽度乘数W，其余20个值表示20层中每个层L_i的扩展比E和内核大小K设置，L_i若为跳过skip则扩展比为0；

步骤2：根据训练实例和实例对应的标签构建训练数据集；包括如下步骤：

步骤2.1：构建训练实例；包括：

步骤2.1.1：从原始架构中获得N个架构的编码集合V：{v₁,v₂,…,v_N}；

步骤2.1.2：构建训练实例集X，首先将训练实例集初始化为一个空集，之后将构建好的每个实例添加到这个集合中；

步骤2.1.3：集合X中具有M组实例，每一组中包含k个需要排序的架构，这k个需要排序的架构数小于架构总数N，那么将会得到组实例，且/>

步骤2.1.4：对于每m组中的实例都将初始化为一个k×|v_i|的矩阵，v_i表示第i个架构的编码，|v_i|表示第i个架构编码的长度，m＝1,2,…,M；

步骤2.2：构建训练实例的标签；包括：

步骤2.2.1：计算每个架构的分数值Score；包括：

步骤2.2.1.1：计算不同架构c_i与c_j之间的Hamming距离d_H(c_i,c_j)；

步骤2.2.1.2：将所有计算得到的Hamming距离d_H(c_i,c_j)形成一个核矩阵K_H：

式中，N_A为给定层中ReLU神经元的数量，N_m为架构的个数；

步骤2.2.1.3：计算每个架构的分数值Score：

其中，为第l层的核矩阵；

步骤2.2.2：根据分数值Score进行排序形成顺序序列Order_m，作为实例x_m的标签；

步骤2.3：将训练实例和训练实例对应的标签作为一个样本，形成训练数据集。

步骤3：构建列表排序预测器，利用构建的训练数据集进行训练；包括：

步骤3.1：选择径向基函数(RBF)神经网络作为列表排序预测器；

步骤3.2：使用构建的数据集对列表排序预测器进行训练，训练集中的实例作为列表排序预测器的输入，输出得到实例中每个架构的概率预测值；

步骤3.3：根据概率预测值的顺序对架构进行排序，这样每个架构将得到相应的顺序，通过如下最小化损失公式衡量两个排名概率分布的相似性，实现对列表排序预测器的训练；

其中，i′表示每一组中需要排序的架构数量，和/>分别表示真实架构顺序y^(i′)的概率分布和预测架构顺序z^(i′)的概率分布；

步骤4：利用进化算法搜索最佳架构；包括：

步骤4.1：从搜索空间中随机抽取N个原始架构进行种群的初始化；

步骤4.2：利用训练后的列表排序预测器输出初始化种群的性能值；

步骤4.3：采用同构交叉方法统一的从父体系结构中选取整数来创建子代体系结构；即通过交叉生成两个子代架构，并且在每一代中生成与父代相同大小的子代种群；

步骤4.4：通过突变操作产生新的解；具体表述为：

步骤4.4.1：突变使用多项式突变PM算子的离散化版本，并将其应用于由交叉算子创建的每个解；

步骤4.4.2：对于给定的架构a，PM以整数方式进行，概率为p_m，突变子代的突变第i个整数为a_i，突变后代为：

其中，u是[0,1]区间内的均匀随机数，和/>分别是a_i的下界和上界，中心度由指数超参数η_m控制，是指η_m的高值倾向于在亲本周围产生突变的子代，而η_m的低值鼓励突变的子代远离亲本结构；

步骤4.4.3：子代中的每个突变值都四舍五入到最接近的整数；

步骤4.4.4：将PM应用于子代种群中的每个成员，然后将突变的后代种群与亲本种群合并；

步骤4.5：环境选择。对步骤4.4产生的后代使用训练后的列表排序预测器进行评估，选择排序前K′个个体，并将其插入到原始种群中作为下一次迭代的亲本种群；

步骤4.6：重复步骤4.2-步骤4.5，直到达到最大的迭代次数；

步骤4.7：根据排序列表找到排名最高的架构，将其解码作为搜索到的最优架构输出。

本发明的有益效果是：

本发明方法针对ENAS提出了一种基于进化的神经架构搜索方法，是一种基于列表排序预测的进化方法，用列表排序模型代替线性回归来构建性能预测器。预测器是预测每个候选体系结构在总体中的顺序，而不是预测体系结构的精确精度值。根据排名信息，可以快速识别出优秀的架构，并选择进入下一轮。这样的排序预测器不需要大量原始的训练有素的架构样本，这大大降低了计算成本。再者，本发明使用无需训练的度量分数(K_H)来确定原始架构样本的性能值，不需要任何训练，从而降低了训练计算成本。

附图说明

图1为本发明中搜索空间结构示意图，其中(a)为搜索空间的网络示意图，(b)为网络中每个阶段的组成示意图，(c)为网络中每个阶段中每一层的结构示意图。

图2为本发明中架构编码方式示意图。

图3为本发明中进化搜索中预测器的训练框架示意图。

图4为本发明中进化搜索中列表排序预测器的训练框架示意图。

具体实施方式

下面结合附图和具体实施实例对发明做进一步说明。

对最优网络架构的搜索可以在多个不同的搜索空间中进行。好的搜索空间可以降低神经架构的复杂性，对可行结果的质量有重大影响。

如图4所示，本发明提出的一种基于进化的神经架构搜索方法，包括以下步骤：

步骤1：定义神经网络架构的搜索空间并进行编码；所述搜索空间的网络的输入为图像分辨率R和宽度乘数W，宽度乘数W是一个统一缩放每层输出通道的因子；搜索空间的网络结构采用模块化设计，包括主干stem、多个阶段stage和尾部tail；主干和尾部是对所有的网络结构通用的，在之后的网络架构搜索阶段是不需要搜索的，多个阶段是将卷积神经网络CNN的结构划分为5个顺序连接的阶段，每一个阶段逐渐减小特征图的大小，增加通道的数量，如图1(a)所示；每个阶段依次由多层组成，如图1(b)所示；在阶段中需要搜索层数，如果特征图大小减小，只有第一层使用步幅2，允许每个stage最小有两层，最大有四层；每一层由一个倒转的残差网络结构组成，如图1(c)所示，在这一过程中搜索第一个1×1卷积的扩展比和深度可分离卷积的核大小；

如图2所示，所述编码是指使用长度为22的整数字符串对网络的架构进行编码，前两个值分别表示输入图像的分辨率R和宽度乘数W，其余20个值表示20层中每个层L_i的扩展比E和内核大小K设置，L_i若为跳过skip则扩展比为0；

步骤2.1：构建训练实例；包括：

步骤2.1.2：构建训练实例集，表示为X，首先将训练实例集初始化为一个空集，之后将构建好的每个实例添加到这个集合中；

步骤2.1.3：集合X中具有M组实例，M是所需要的实例的组数(例如100组)，每一组中包含k个需要排序的架构，这k个需要排序的架构数小于架构总数N，那么将会得到组实例，且/>

步骤2.1.4：对于每m组中的实例都将初始化为一个k×|v_i|的矩阵，v_i表示第i个架构的编码，|v_i|就是第i个架构编码的长度，m＝1,2,…,M；

步骤2.2：构建训练实例的标签，训练实例的标签是由实例中组合的架构的排名顺序构造的；包括：

步骤2.2.1：计算每个架构的分数值Score；包括：

步骤2.2.1.2：将所有计算得到的Hamming距离d_H(c_i,c_j)形成一个核矩阵K_H，K_H指标反映了架构相对于输入数据的可区分性)来直接评估每个原始架构的性能，而无需任何训练；

式中，N_A为给定层中ReLU神经元的数量，N_m为架构的个数；

步骤2.2.1.2：计算每个架构的分数值Score：

其中，为第l层的核矩阵；在候选架构中，得分最高的架构被认为是精度性能最高的架构。

步骤3：构建列表排序预测器，利用构建的训练数据集进行训练，列表排序预测器的训练采用了与其他监督学习算法相似的训练过程，如图3所示；包括：

步骤3.1：选择径向基函数(RBF)神经网络作为列表排序预测器，其中高斯函数作为核函数，隐层有50个神经元；由于列表排序预测器是一个监督学习模型，因此需要一个训练数据集对其进行训练，每一个训练数据都是基于一组原始架构编码及架构的性能值构成的；

步骤3.2：使用构建的数据集对列表排序预测器进行训练，基于列的学习排序(List-wise Approach)是将对应的样本数据集作为一个实例进行训练，即一个架构编码及其对应的顺序作为一个实例进行训练，训练集中的实例作为列表排序预测器的输入，输出得到实例中每个架构的概率预测值；

其中，i′表示每一组中需要排序的架构数量，和/>分别表示真实架构顺序y^(i′)的概率分布和预测架构顺序z^(i′)的概率分布。

步骤4：利用进化算法EA搜索最佳架构，EA是一个迭代的过程，在这个过程中，从以前探索过的体系结构档案中选择的初始体系结构作为一个组(称为总体)逐渐得到改进。在每一代(迭代)中，通过应用创建一组后代(即新的体系结构)；包括：

步骤4.3：交叉操作。交叉是在两个或多个种群成员之间交换信息，以创建两个或多个新成员；采用同构交叉方法统一的从父体系结构中选取整数来创建子代体系结构；即通过交叉生成两个子代架构，并且在每一代中生成与父代相同大小的子代种群；

交叉运算符提供了两个属性：(1)它保留父节点之间共享的公共整数；(2)无附加超参数；

步骤4.4：进行突变操作，突变是一个局部算子，它扰动一个解以在这个解的附近产生一个新的解；具体表述为：

其中，u是[0,1]区间内的均匀随机数，和/>分别是a_i的下界和上界，中心度由指数超参数η_m控制，是指η_m的高值倾向于在亲本周围产生突变的子代，而η_m的低值鼓励突变的子代远离亲本结构；值得注意的是，PM操作符最初是为连续优化而提出的，其中变量值之间的距离是自然定义的。相比之下，在编码上下文中，变量本质上是分类的，表示特定的层超参数。

步骤4.4.3：子代中的每个突变值都四舍五入到最接近的整数，PM操作符继承了以父操作符为中心的约定，其中有意围绕父操作符创建子操作符；

步骤4.4.4：将PM应用于子代种群中的每个成员(由交叉创建)，然后将突变的后代种群与亲本种群合并；

步骤4.6：重复步骤4.2-步骤4.5，直到达到最大的迭代次数；

Claims

1.一种基于进化的神经架构搜索方法，其特征在于，包括：

步骤1：定义神经网络架构的搜索空间并进行编码；

步骤2：根据训练实例和实例对应的标签构建训练数据集；

步骤3：构建列表排序预测器，利用构建的训练数据集进行训练；

步骤4：利用进化算法搜索最佳架构。

2.根据权利要求1所述的一种基于进化的神经架构搜索方法，其特征在于，所述步骤1中搜索空间的网络的输入为图像分辨率R和宽度乘数W，宽度乘数W是一个统一缩放每层输出通道的因子；搜索空间的网络结构采用模块化设计，包括主干、多个阶段和尾部；主干和尾部是对所有的网络结构通用的，在之后的网络架构搜索阶段是不需要搜索的，多个阶段是将卷积神经网络CNN的结构划分为5个顺序连接的阶段，每一个阶段逐渐减小特征图的大小，增加通道的数量；每个阶段依次由多层组成，在阶段中需要搜索层数，每一层由一个倒转的残差网络结构组成。

3.根据权利要求1所述的一种基于进化的神经架构搜索方法，其特征在于，所述步骤1中编码是指使用长度为22的整数字符串对网络的架构进行编码，前两个值分别表示输入图像的分辨率R和宽度乘数W，其余20个值表示20层中每个层L_i的扩展比E和内核大小K设置，L_i若为跳过skip则扩展比为0。

4.根据权利要求1所述的一种基于进化的神经架构搜索方法，其特征在于，所述步骤2包括：

步骤2.1：构建训练实例；

步骤2.2：构建训练实例的标签；

5.根据权利要求4所述的一种基于进化的神经架构搜索方法，其特征在于，所述步骤2.1包括：

步骤2.1.4：对于每m组中的实例都将初始化为一个k×|v_i|的矩阵，v_i表示第i个架构的编码，|v_i|表示第i个架构编码的长度，m＝1,2,…,M。

6.根据权利要求4所述的一种基于进化的神经架构搜索方法，其特征在于，所述步骤2.2包括：

步骤2.2.1：计算每个架构的分数值Score；

步骤2.2.2：根据分数值Score进行排序形成顺序序列Order_m，作为实例x_m的标签。

7.根据权利要求6所述的一种基于进化的神经架构搜索方法，其特征在于，所述步骤2.2.1包括：

式中，N_A为给定层中ReLU神经元的数量，N_m为架构的个数；

步骤2.2.1.3：计算每个架构的分数值Score：

其中，为第l层的核矩阵。

8.根据权利要求1所述的一种基于进化的神经架构搜索方法，其特征在于，所述步骤3包括：

9.根据权利要求1所述的一种基于进化的神经架构搜索方法，其特征在于，所述步骤4包括：

步骤4.3：采用同构交叉方法统一的从父体系结构中选取整数来创建子代体系结构；

步骤4.4：通过突变操作产生新的解；

步骤4.5：对步骤4.4产生的后代使用训练后的列表排序预测器进行评估，选择排序前K′个个体，并将其插入到原始种群中作为下一次迭代的亲本种群；

步骤4.6：重复步骤4.2-步骤4.5，直到达到最大的迭代次数；

10.根据权利要求9所述的一种基于进化的神经架构搜索方法，其特征在于，所述步骤4.4包括：

其中，u是[0,1]区间内的均匀随机数，和/>分别是a_i的下界和上界，η_m表示超参数；

步骤4.4.4：将PM应用于子代种群中的每个成员，然后将突变的后代种群与亲本种群合并。