CN116611504A - 一种基于进化的神经架构搜索方法 - Google Patents
一种基于进化的神经架构搜索方法 Download PDFInfo
- Publication number
- CN116611504A CN116611504A CN202310453530.0A CN202310453530A CN116611504A CN 116611504 A CN116611504 A CN 116611504A CN 202310453530 A CN202310453530 A CN 202310453530A CN 116611504 A CN116611504 A CN 116611504A
- Authority
- CN
- China
- Prior art keywords
- architecture
- training
- predictor
- list
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000001537 neural effect Effects 0.000 title claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 58
- 238000013528 artificial neural network Methods 0.000 claims abstract description 9
- 230000035772 mutation Effects 0.000 claims description 18
- 238000009826 distribution Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000013461 design Methods 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 239000004744 fabric Substances 0.000 claims description 5
- 210000002569 neuron Anatomy 0.000 claims description 4
- 238000012417 linear regression Methods 0.000 abstract description 4
- 238000004364 calculation method Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 7
- 238000013459 approach Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 240000003433 Miscanthus floridulus Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Genetics & Genomics (AREA)
- Physiology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于进化的神经架构搜索方法,首先定义神经网络架构的搜索空间并进行编码,其次根据训练实例和实例对应的标签构建训练数据集,构建列表排序预测器,利用构建的训练数据集进行训练,最后利用进化算法搜索最佳架构。本发明使用列表排序预测器来对架构的性能进行评估,用列表排序模型代替线性回归来构建性能预测器。预测器是预测每个候选体系结构在总体中的顺序,而不是预测体系结构的精确精度值。根据排名信息,可以快速识别出优秀的架构,并选择进入下一轮,并且本发明中的排序预测器不需要大量原始的训练有素的架构样本,这大大降低了计算成本。
Description
技术领域
本发明涉及深度神经网络技术领域,具体设计一种基于进化的神经架构搜索方法。
背景技术
深度学习在很多领域都取得了巨大的突破和进展。这是由于深度学习具有强大的自动化特征提取的能力。人工智能技术应用于各个领域已经屡见不鲜,各种人工智能技术(例SVM、决策树等)在医疗图像分割、深度图像分类等方面已经超越了医疗专家,尤其以深度卷积神经网络技术为代表的深度学习技术在医疗图像领域已经开始展露锋芒。而网络结构的设计对数据特征的表征和最终模型的表现起到了至关重要的作用。为了获取数据的更好的特征表示,研究人员设计多种多样的复杂的网络架构,而网络结构的设计是严重依赖于研究人员的先验知识和经验。这样会导致一个问题:当新的分类任务到来时,原本设计出来的架构可能在新的任务上表现不佳,需要重新设计,使得过程耗时耗力。同时网络结构的设计也很难跳出原有思考模式并设计出一个最优的网络。新人很难根据自己的实际任务和需求对网络结构进行合理的修改。且调参对于深度模型来说是一项非常艰难的事情,众多的超参数和网络结构参数会产生爆炸性的组合,一个很自然的想法就是尽可能减少人工的干预,让算法能够自动寻找最合适的网络架构。
神经架构搜索(NAS)是一种很有前途的方法,可以自动设计特定于任务的深度神经网络(DNN)架构,而不是基于广泛的人类专业知识设计手工制作的DNN。NAS的主要研究问题总体上可以分为3个部分:构建搜索空间,制定搜索策略以及模型的性能评估。最近的研究结果已经证明NAS可以像人类专家一样获得具有竞争力的DNN,甚至发现了不太可能由人类专家开发的新颖的最先进的DNN架构。在早期的NAS方法中,需要从头开始训练候选架构以进行评估,这需要昂贵的计算资源。为了降低评估候选架构的计算成本,NAS通常使用性能预测器来指导进化搜索。并且各种优化器已被用于解决NAS,包括强化学习(Reinforcement Learning,RL),进化计算(Evolutionary Computation,EC)和基于梯度的算法。与其他方法不同,基于EC的NAS(简称ENAS)是无梯度的,对NAS目标的复杂性不敏感,它演化出一个模型种群(包括适应度评估和选择操作)来搜索关于目标的最优架构。
通常,在目标ENAS中,架构搜索使用线性回归代理来预测每个候选架构的数值,目的是在适应度评估中获得较高的预测精度。这样的基于进化的神经架构搜索(ENAS)仍然存在两个主要的局限性:第一,线性回归模型的预测偏差容易导致排序无序问题,从而误导NAS的选择;第二,获得这样一个精确的代理模型是一个挑战,甚至是棘手的,因为模型训练需要大量的样本并且需要在不同的数据集上进行训练,而有限的计算资源无法满足这个条件。在NAS中,候选架构的数量通常有限,因此很难获得稳定和高的预测精度。更严重的是,精确精度性能的不稳定预测会导致在对一组候选架构进行排序时出现排序无序,不利于NAS的选择操作。因此,设计有效、高效的ENAS替代物是非常迫切的要求。
发明内容
针对现有技术的不足,本发明提出一种基于进化的神经架构搜索方法,包括以下步骤:
步骤1:定义神经网络架构的搜索空间并进行编码;所述搜索空间的网络的输入为图像分辨率R和宽度乘数W,宽度乘数W是一个统一缩放每层输出通道的因子;搜索空间的网络结构采用模块化设计,包括主干、多个阶段和尾部;主干和尾部是对所有的网络结构通用的,在之后的网络架构搜索阶段是不需要搜索的,多个阶段是将卷积神经网络CNN的结构划分为5个顺序连接的阶段,每一个阶段逐渐减小特征图的大小,增加通道的数量;每个阶段依次由多层组成,在阶段中需要搜索层数,每一层由一个倒转的残差网络结构组成;
所述编码是指使用长度为22的整数字符串对网络的架构进行编码,前两个值分别表示输入图像的分辨率R和宽度乘数W,其余20个值表示20层中每个层Li的扩展比E和内核大小K设置,Li若为跳过skip则扩展比为0;
步骤2:根据训练实例和实例对应的标签构建训练数据集;包括如下步骤:
步骤2.1:构建训练实例;包括:
步骤2.1.1:从原始架构中获得N个架构的编码集合V:{v1,v2,…,vN};
步骤2.1.2:构建训练实例集X,首先将训练实例集初始化为一个空集,之后将构建好的每个实例添加到这个集合中;
步骤2.1.3:集合X中具有M组实例,每一组中包含k个需要排序的架构,这k个需要排序的架构数小于架构总数N,那么将会得到组实例,且/>
步骤2.1.4:对于每m组中的实例都将初始化为一个k×|vi|的矩阵,vi表示第i个架构的编码,|vi|表示第i个架构编码的长度,m=1,2,…,M;
步骤2.2:构建训练实例的标签;包括:
步骤2.2.1:计算每个架构的分数值Score;包括:
步骤2.2.1.1:计算不同架构ci与cj之间的Hamming距离dH(ci,cj);
步骤2.2.1.2:将所有计算得到的Hamming距离dH(ci,cj)形成一个核矩阵KH:
式中,NA为给定层中ReLU神经元的数量,Nm为架构的个数;
步骤2.2.1.3:计算每个架构的分数值Score:
其中,为第l层的核矩阵;
步骤2.2.2:根据分数值Score进行排序形成顺序序列Orderm,作为实例xm的标签;
步骤2.3:将训练实例和训练实例对应的标签作为一个样本,形成训练数据集。
步骤3:构建列表排序预测器,利用构建的训练数据集进行训练;包括:
步骤3.1:选择径向基函数(RBF)神经网络作为列表排序预测器;
步骤3.2:使用构建的数据集对列表排序预测器进行训练,训练集中的实例作为列表排序预测器的输入,输出得到实例中每个架构的概率预测值;
步骤3.3:根据概率预测值的顺序对架构进行排序,这样每个架构将得到相应的顺序,通过如下最小化损失公式衡量两个排名概率分布的相似性,实现对列表排序预测器的训练;
其中,i′表示每一组中需要排序的架构数量,和/>分别表示真实架构顺序y(i′)的概率分布和预测架构顺序z(i′)的概率分布;
步骤4:利用进化算法搜索最佳架构;包括:
步骤4.1:从搜索空间中随机抽取N个原始架构进行种群的初始化;
步骤4.2:利用训练后的列表排序预测器输出初始化种群的性能值;
步骤4.3:采用同构交叉方法统一的从父体系结构中选取整数来创建子代体系结构;即通过交叉生成两个子代架构,并且在每一代中生成与父代相同大小的子代种群;
步骤4.4:通过突变操作产生新的解;具体表述为:
步骤4.4.1:突变使用多项式突变PM算子的离散化版本,并将其应用于由交叉算子创建的每个解;
步骤4.4.2:对于给定的架构a,PM以整数方式进行,概率为pm,突变子代的突变第i个整数为ai,突变后代为:
其中,u是[0,1]区间内的均匀随机数,和/>分别是ai的下界和上界,中心度由指数超参数ηm控制,是指ηm的高值倾向于在亲本周围产生突变的子代,而ηm的低值鼓励突变的子代远离亲本结构;
步骤4.4.3:子代中的每个突变值都四舍五入到最接近的整数;
步骤4.4.4:将PM应用于子代种群中的每个成员,然后将突变的后代种群与亲本种群合并;
步骤4.5:环境选择。对步骤4.4产生的后代使用训练后的列表排序预测器进行评估,选择排序前K′个个体,并将其插入到原始种群中作为下一次迭代的亲本种群;
步骤4.6:重复步骤4.2-步骤4.5,直到达到最大的迭代次数;
步骤4.7:根据排序列表找到排名最高的架构,将其解码作为搜索到的最优架构输出。
本发明的有益效果是:
本发明方法针对ENAS提出了一种基于进化的神经架构搜索方法,是一种基于列表排序预测的进化方法,用列表排序模型代替线性回归来构建性能预测器。预测器是预测每个候选体系结构在总体中的顺序,而不是预测体系结构的精确精度值。根据排名信息,可以快速识别出优秀的架构,并选择进入下一轮。这样的排序预测器不需要大量原始的训练有素的架构样本,这大大降低了计算成本。再者,本发明使用无需训练的度量分数(KH)来确定原始架构样本的性能值,不需要任何训练,从而降低了训练计算成本。
附图说明
图1为本发明中搜索空间结构示意图,其中(a)为搜索空间的网络示意图,(b)为网络中每个阶段的组成示意图,(c)为网络中每个阶段中每一层的结构示意图。
图2为本发明中架构编码方式示意图。
图3为本发明中进化搜索中预测器的训练框架示意图。
图4为本发明中进化搜索中列表排序预测器的训练框架示意图。
具体实施方式
下面结合附图和具体实施实例对发明做进一步说明。
对最优网络架构的搜索可以在多个不同的搜索空间中进行。好的搜索空间可以降低神经架构的复杂性,对可行结果的质量有重大影响。
如图4所示,本发明提出的一种基于进化的神经架构搜索方法,包括以下步骤:
步骤1:定义神经网络架构的搜索空间并进行编码;所述搜索空间的网络的输入为图像分辨率R和宽度乘数W,宽度乘数W是一个统一缩放每层输出通道的因子;搜索空间的网络结构采用模块化设计,包括主干stem、多个阶段stage和尾部tail;主干和尾部是对所有的网络结构通用的,在之后的网络架构搜索阶段是不需要搜索的,多个阶段是将卷积神经网络CNN的结构划分为5个顺序连接的阶段,每一个阶段逐渐减小特征图的大小,增加通道的数量,如图1(a)所示;每个阶段依次由多层组成,如图1(b)所示;在阶段中需要搜索层数,如果特征图大小减小,只有第一层使用步幅2,允许每个stage最小有两层,最大有四层;每一层由一个倒转的残差网络结构组成,如图1(c)所示,在这一过程中搜索第一个1×1卷积的扩展比和深度可分离卷积的核大小;
如图2所示,所述编码是指使用长度为22的整数字符串对网络的架构进行编码,前两个值分别表示输入图像的分辨率R和宽度乘数W,其余20个值表示20层中每个层Li的扩展比E和内核大小K设置,Li若为跳过skip则扩展比为0;
步骤2:根据训练实例和实例对应的标签构建训练数据集;包括如下步骤:
步骤2.1:构建训练实例;包括:
步骤2.1.1:从原始架构中获得N个架构的编码集合V:{v1,v2,…,vN};
步骤2.1.2:构建训练实例集,表示为X,首先将训练实例集初始化为一个空集,之后将构建好的每个实例添加到这个集合中;
步骤2.1.3:集合X中具有M组实例,M是所需要的实例的组数(例如100组),每一组中包含k个需要排序的架构,这k个需要排序的架构数小于架构总数N,那么将会得到组实例,且/>
步骤2.1.4:对于每m组中的实例都将初始化为一个k×|vi|的矩阵,vi表示第i个架构的编码,|vi|就是第i个架构编码的长度,m=1,2,…,M;
步骤2.2:构建训练实例的标签,训练实例的标签是由实例中组合的架构的排名顺序构造的;包括:
步骤2.2.1:计算每个架构的分数值Score;包括:
步骤2.2.1.1:计算不同架构ci与cj之间的Hamming距离dH(ci,cj);
步骤2.2.1.2:将所有计算得到的Hamming距离dH(ci,cj)形成一个核矩阵KH,KH指标反映了架构相对于输入数据的可区分性)来直接评估每个原始架构的性能,而无需任何训练;
式中,NA为给定层中ReLU神经元的数量,Nm为架构的个数;
步骤2.2.1.2:计算每个架构的分数值Score:
其中,为第l层的核矩阵;在候选架构中,得分最高的架构被认为是精度性能最高的架构。
步骤2.2.2:根据分数值Score进行排序形成顺序序列Orderm,作为实例xm的标签;
步骤2.3:将训练实例和训练实例对应的标签作为一个样本,形成训练数据集。
步骤3:构建列表排序预测器,利用构建的训练数据集进行训练,列表排序预测器的训练采用了与其他监督学习算法相似的训练过程,如图3所示;包括:
步骤3.1:选择径向基函数(RBF)神经网络作为列表排序预测器,其中高斯函数作为核函数,隐层有50个神经元;由于列表排序预测器是一个监督学习模型,因此需要一个训练数据集对其进行训练,每一个训练数据都是基于一组原始架构编码及架构的性能值构成的;
步骤3.2:使用构建的数据集对列表排序预测器进行训练,基于列的学习排序(List-wise Approach)是将对应的样本数据集作为一个实例进行训练,即一个架构编码及其对应的顺序作为一个实例进行训练,训练集中的实例作为列表排序预测器的输入,输出得到实例中每个架构的概率预测值;
步骤3.3:根据概率预测值的顺序对架构进行排序,这样每个架构将得到相应的顺序,通过如下最小化损失公式衡量两个排名概率分布的相似性,实现对列表排序预测器的训练;
其中,i′表示每一组中需要排序的架构数量,和/>分别表示真实架构顺序y(i′)的概率分布和预测架构顺序z(i′)的概率分布。
步骤4:利用进化算法EA搜索最佳架构,EA是一个迭代的过程,在这个过程中,从以前探索过的体系结构档案中选择的初始体系结构作为一个组(称为总体)逐渐得到改进。在每一代(迭代)中,通过应用创建一组后代(即新的体系结构);包括:
步骤4.1:从搜索空间中随机抽取N个原始架构进行种群的初始化;
步骤4.2:利用训练后的列表排序预测器输出初始化种群的性能值;
步骤4.3:交叉操作。交叉是在两个或多个种群成员之间交换信息,以创建两个或多个新成员;采用同构交叉方法统一的从父体系结构中选取整数来创建子代体系结构;即通过交叉生成两个子代架构,并且在每一代中生成与父代相同大小的子代种群;
交叉运算符提供了两个属性:(1)它保留父节点之间共享的公共整数;(2)无附加超参数;
步骤4.4:进行突变操作,突变是一个局部算子,它扰动一个解以在这个解的附近产生一个新的解;具体表述为:
步骤4.4.1:突变使用多项式突变PM算子的离散化版本,并将其应用于由交叉算子创建的每个解;
步骤4.4.2:对于给定的架构a,PM以整数方式进行,概率为pm,突变子代的突变第i个整数为ai,突变后代为:
其中,u是[0,1]区间内的均匀随机数,和/>分别是ai的下界和上界,中心度由指数超参数ηm控制,是指ηm的高值倾向于在亲本周围产生突变的子代,而ηm的低值鼓励突变的子代远离亲本结构;值得注意的是,PM操作符最初是为连续优化而提出的,其中变量值之间的距离是自然定义的。相比之下,在编码上下文中,变量本质上是分类的,表示特定的层超参数。
步骤4.4.3:子代中的每个突变值都四舍五入到最接近的整数,PM操作符继承了以父操作符为中心的约定,其中有意围绕父操作符创建子操作符;
步骤4.4.4:将PM应用于子代种群中的每个成员(由交叉创建),然后将突变的后代种群与亲本种群合并;
步骤4.5:环境选择。对步骤4.4产生的后代使用训练后的列表排序预测器进行评估,选择排序前K′个个体,并将其插入到原始种群中作为下一次迭代的亲本种群;
步骤4.6:重复步骤4.2-步骤4.5,直到达到最大的迭代次数;
步骤4.7:根据排序列表找到排名最高的架构,将其解码作为搜索到的最优架构输出。
Claims (10)
1.一种基于进化的神经架构搜索方法,其特征在于,包括:
步骤1:定义神经网络架构的搜索空间并进行编码;
步骤2:根据训练实例和实例对应的标签构建训练数据集;
步骤3:构建列表排序预测器,利用构建的训练数据集进行训练;
步骤4:利用进化算法搜索最佳架构。
2.根据权利要求1所述的一种基于进化的神经架构搜索方法,其特征在于,所述步骤1中搜索空间的网络的输入为图像分辨率R和宽度乘数W,宽度乘数W是一个统一缩放每层输出通道的因子;搜索空间的网络结构采用模块化设计,包括主干、多个阶段和尾部;主干和尾部是对所有的网络结构通用的,在之后的网络架构搜索阶段是不需要搜索的,多个阶段是将卷积神经网络CNN的结构划分为5个顺序连接的阶段,每一个阶段逐渐减小特征图的大小,增加通道的数量;每个阶段依次由多层组成,在阶段中需要搜索层数,每一层由一个倒转的残差网络结构组成。
3.根据权利要求1所述的一种基于进化的神经架构搜索方法,其特征在于,所述步骤1中编码是指使用长度为22的整数字符串对网络的架构进行编码,前两个值分别表示输入图像的分辨率R和宽度乘数W,其余20个值表示20层中每个层Li的扩展比E和内核大小K设置,Li若为跳过skip则扩展比为0。
4.根据权利要求1所述的一种基于进化的神经架构搜索方法,其特征在于,所述步骤2包括:
步骤2.1:构建训练实例;
步骤2.2:构建训练实例的标签;
步骤2.3:将训练实例和训练实例对应的标签作为一个样本,形成训练数据集。
5.根据权利要求4所述的一种基于进化的神经架构搜索方法,其特征在于,所述步骤2.1包括:
步骤2.1.1:从原始架构中获得N个架构的编码集合V:{v1,v2,…,vN};
步骤2.1.2:构建训练实例集X,首先将训练实例集初始化为一个空集,之后将构建好的每个实例添加到这个集合中;
步骤2.1.3:集合X中具有M组实例,每一组中包含k个需要排序的架构,这k个需要排序的架构数小于架构总数N,那么将会得到组实例,且/>
步骤2.1.4:对于每m组中的实例都将初始化为一个k×|vi|的矩阵,vi表示第i个架构的编码,|vi|表示第i个架构编码的长度,m=1,2,…,M。
6.根据权利要求4所述的一种基于进化的神经架构搜索方法,其特征在于,所述步骤2.2包括:
步骤2.2.1:计算每个架构的分数值Score;
步骤2.2.2:根据分数值Score进行排序形成顺序序列Orderm,作为实例xm的标签。
7.根据权利要求6所述的一种基于进化的神经架构搜索方法,其特征在于,所述步骤2.2.1包括:
步骤2.2.1.1:计算不同架构ci与cj之间的Hamming距离dH(ci,cj);
步骤2.2.1.2:将所有计算得到的Hamming距离dH(ci,cj)形成一个核矩阵KH:
式中,NA为给定层中ReLU神经元的数量,Nm为架构的个数;
步骤2.2.1.3:计算每个架构的分数值Score:
其中,为第l层的核矩阵。
8.根据权利要求1所述的一种基于进化的神经架构搜索方法,其特征在于,所述步骤3包括:
步骤3.1:选择径向基函数(RBF)神经网络作为列表排序预测器;
步骤3.2:使用构建的数据集对列表排序预测器进行训练,训练集中的实例作为列表排序预测器的输入,输出得到实例中每个架构的概率预测值;
步骤3.3:根据概率预测值的顺序对架构进行排序,这样每个架构将得到相应的顺序,通过如下最小化损失公式衡量两个排名概率分布的相似性,实现对列表排序预测器的训练;
其中,i′表示每一组中需要排序的架构数量,和/>分别表示真实架构顺序y(i′)的概率分布和预测架构顺序z(i′)的概率分布。
9.根据权利要求1所述的一种基于进化的神经架构搜索方法,其特征在于,所述步骤4包括:
步骤4.1:从搜索空间中随机抽取N个原始架构进行种群的初始化;
步骤4.2:利用训练后的列表排序预测器输出初始化种群的性能值;
步骤4.3:采用同构交叉方法统一的从父体系结构中选取整数来创建子代体系结构;
步骤4.4:通过突变操作产生新的解;
步骤4.5:对步骤4.4产生的后代使用训练后的列表排序预测器进行评估,选择排序前K′个个体,并将其插入到原始种群中作为下一次迭代的亲本种群;
步骤4.6:重复步骤4.2-步骤4.5,直到达到最大的迭代次数;
步骤4.7:根据排序列表找到排名最高的架构,将其解码作为搜索到的最优架构输出。
10.根据权利要求9所述的一种基于进化的神经架构搜索方法,其特征在于,所述步骤4.4包括:
步骤4.4.1:突变使用多项式突变PM算子的离散化版本,并将其应用于由交叉算子创建的每个解;
步骤4.4.2:对于给定的架构a,PM以整数方式进行,概率为pm,突变子代的突变第i个整数为ai,突变后代为:
其中,u是[0,1]区间内的均匀随机数,和/>分别是ai的下界和上界,ηm表示超参数;
步骤4.4.3:子代中的每个突变值都四舍五入到最接近的整数;
步骤4.4.4:将PM应用于子代种群中的每个成员,然后将突变的后代种群与亲本种群合并。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310453530.0A CN116611504A (zh) | 2023-04-25 | 2023-04-25 | 一种基于进化的神经架构搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310453530.0A CN116611504A (zh) | 2023-04-25 | 2023-04-25 | 一种基于进化的神经架构搜索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116611504A true CN116611504A (zh) | 2023-08-18 |
Family
ID=87673762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310453530.0A Pending CN116611504A (zh) | 2023-04-25 | 2023-04-25 | 一种基于进化的神经架构搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116611504A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118014010A (zh) * | 2024-04-09 | 2024-05-10 | 南京信息工程大学 | 基于多种群机制及代理模型的多目标演化神经架构搜索方法 |
-
2023
- 2023-04-25 CN CN202310453530.0A patent/CN116611504A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118014010A (zh) * | 2024-04-09 | 2024-05-10 | 南京信息工程大学 | 基于多种群机制及代理模型的多目标演化神经架构搜索方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lu et al. | Neural architecture transfer | |
CN110263227B (zh) | 基于图神经网络的团伙发现方法和系统 | |
US20200167659A1 (en) | Device and method for training neural network | |
Liu et al. | Block proposal neural architecture search | |
CN110490320B (zh) | 基于预测机制和遗传算法融合的深度神经网络结构优化方法 | |
CN113361680A (zh) | 一种神经网络架构搜索方法、装置、设备及介质 | |
CN112561039A (zh) | 一种改进的基于超网络的进化神经网络架构搜索方法 | |
CN114422382A (zh) | 网络流量预测方法、计算机装置、产品及存储介质 | |
CN111611748A (zh) | 一种数据驱动的材料逆向设计方法及系统 | |
CN116611504A (zh) | 一种基于进化的神经架构搜索方法 | |
CN115481727A (zh) | 一种基于进化计算的意图识别神经网络生成与优化方法 | |
WO2022147583A2 (en) | System and method for optimal placement of interacting objects on continuous (or discretized or mixed) domains | |
CN114241267A (zh) | 基于结构熵采样的多目标架构搜索骨质疏松图像识别方法 | |
Broni-Bediako et al. | Evolutionary NAS with gene expression programming of cellular encoding | |
CN113282747A (zh) | 一种基于自动机器学习算法选择的文本分类方法 | |
CN114093426B (zh) | 基于基因调控网络构建的标志物筛选方法 | |
CN115620046A (zh) | 一种基于半监督性能预测器的多目标神经架构搜索方法 | |
CN115661546A (zh) | 一种特征选择与分类器联合设计的多目标优化分类方法 | |
CN118014010B (zh) | 基于多种群机制及代理模型的多目标演化神经架构搜索方法 | |
Nourian | Design Optimization of Truss Structures Using Artificial Neural Networks | |
Ali et al. | Recent Trends in Neural Architecture Search Systems | |
Li et al. | Surrogate-Assisted Evolution of Convolutional Neural Networks by Collaboratively Optimizing the Basic Blocks and Topologies | |
Avval et al. | Systematic Review on Neural Architecture Search | |
Sun et al. | Architecture Design for Plain CNNs | |
Funika et al. | Co-evolution of fitness predictors and deep neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |