CN110276442B - 一种神经网络架构的搜索方法及装置 - Google Patents
一种神经网络架构的搜索方法及装置 Download PDFInfo
- Publication number
- CN110276442B CN110276442B CN201910441546.3A CN201910441546A CN110276442B CN 110276442 B CN110276442 B CN 110276442B CN 201910441546 A CN201910441546 A CN 201910441546A CN 110276442 B CN110276442 B CN 110276442B
- Authority
- CN
- China
- Prior art keywords
- neural network
- network architecture
- architecture diagram
- evaluation value
- gaussian process
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 201
- 238000000034 method Methods 0.000 title claims abstract description 120
- 238000010586 diagram Methods 0.000 claims abstract description 146
- 230000008569 process Effects 0.000 claims abstract description 75
- 238000011156 evaluation Methods 0.000 claims abstract description 74
- 238000005457 optimization Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000010845 search algorithm Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 142
- 238000004590 computer program Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000009826 distribution Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 8
- 239000003795 chemical substances by application Substances 0.000 description 10
- 238000012545 processing Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000002922 simulated annealing Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种神经网络架构的搜索方法及装置,所述方法包括:对当前神经网络架构图进行训练,获得训练后的神经网络架构图和对应的评估值;根据所述训练后的神经网络架构图和对应的评估值,拟合多元高斯过程函数;根据所述多元高斯过程函数构建采集函数,对所述采集函数进行优化搜索;对上述步骤在设定时间内反复操作,获得所述评估值最大的神经网络架构图。解决了现有技术中的神经网络架构搜索算法存在准确率低、搜索过程耗时、模型结果参数量过多的技术问题。基于贝叶斯优化方法来搜索神经网络架构,通过蒙特卡洛树搜索来优化算法中的采集函数,达到了在较短时间内搜索得到准确率比较高,且模型参数量少的神经网络架构的技术效果。
Description
技术领域
本申请涉及数字图像处理技术领域,尤其涉及一种神经网络架构的搜索方法及装置。
背景技术
在计算机视觉领域,图像分类是一个非常基本且很重要的任务。许多基于图像分类任务设计出的神经网络架构都被作为特征提取网络进行迁移学习至其他计算机视觉领域。但是人为设计神经网络并具有优秀的性能是一件十分困难的事情,需要经验丰富的专家才能设计出新的有效的网络,通常做法都是使用已经开源的架构进行借鉴。因此,需要一种算法能够自动设计神经网络,可以给学者们提供更多的思路,给业界内降低成本。
目前,基于蒙特卡洛树搜索的神经网络架构搜索算法是以一个初始网络为根节点,通过一系列的动作序列生成新的网络结构,并构成子节点,但是这种启发式搜索的方法仍比较耗时,且准确率不高。基于贝叶斯优化的神经网络架构搜索方法在优化采集函数时采取的是模拟退火算法,得到的模型参数量巨大,搜索策略存在缺陷。
但本申请发明人在实现本申请实施例中技术方案的过程中,发现上述现有技术至少存在如下技术问题:
现有技术中的神经网络架构搜索算法存在准确率低、搜索过程耗时、模型结果参数量过多的技术问题。
发明内容
本申请实施例通过提供一种神经网络架构的搜索方法及装置,用以解决现有技术中的神经网络架构搜索算法存在准确率低、搜索过程耗时、模型结果参数量过多的技术问题。基于贝叶斯优化方法来搜索神经网络架构,通过蒙特卡洛树搜索来优化算法中的采集函数,达到了在较短时间内搜索得到准确率比较高,且模型参数量少的神经网络架构的技术效果。
为了解决上述问题,第一方面,本申请实施例提供了一种神经网络架构的搜索方法,所述方法包括:对当前神经网络架构图进行训练,获得训练后的神经网络架构图和对应的评估值;根据所述训练后的神经网络架构图和对应的评估值,拟合多元高斯过程函数;根据所述多元高斯过程函数构建采集函数,对所述采集函数进行优化搜索;对上述步骤在设定时间内反复操作,获得所述评估值最大的神经网络架构图。
优选的,所述对当前神经网络架构图进行训练,获得训练后的神经网络架构图和对应的评估值,包括:获得当前神经网络架构图;将图像分类任务的数据集作为输入数据对所述当前神经网络架构图进行训练,获得所述训练后的神经网络架构图和对应的评估值。
优选的,所述根据所述训练后的神经网络架构图和对应的评估值,拟合多元高斯过程函数,包括:构建概率代理模型,设置所述概率代理模型为多元高斯过程函数;根据所述训练后的神经网络架构图和对应的评估值作为新的输入数据拟合所述多元高斯过程函数。
优选的,所述根据所述多元高斯过程函数构建采集函数,对所述采集函数进行优化搜索,包括:根据所述训练后的神经网络架构图和所述多元高斯过程函数构建采集函数;在所述采集函数中进行搜索,获得令所述采集函数值最大的神经网络架构图;将所述令所述采集函数值最大的神经网络架构图作为下一个需要评估的神经网络架构图。
优选的,所述在所述采集函数中进行搜索,包括:所述搜索的算法为蒙特卡洛树搜索算法。
第二方面,本申请实施例还提供了一种神经网络架构的搜索装置,其特征在于,所述装置包括:
第一获得单元,所述第一获得单元用于对当前神经网络架构图进行训练,获得训练后的神经网络架构图和对应的评估值;
第一拟合单元,所述第一拟合单元用于根据所述训练后的神经网络架构图和对应的评估值,拟合多元高斯过程函数;
第一搜索单元,所述第一搜索单元用于根据所述多元高斯过程函数构建采集函数,对所述采集函数进行优化搜索;
第二获得单元,所述第二获得单元用于对上述步骤在设定时间内反复操作,获得所述评估值最大的神经网络架构图。
优选的,所述第一获得单元包括:
第三获得单元,所述第三获得单元用于获得当前神经网络架构图;
第四获得单元,所述第四获得单元用于将图像分类任务的数据集作为输入数据对所述当前神经网络架构图进行训练,获得所述训练后的神经网络架构图和对应的评估值。
优选的,所述第一拟合单元包括:
第一构建单元,所述第一构建单元用于构建概率代理模型,设置所述概率代理模型为多元高斯过程函数;
第二拟合单元,所述第二拟合单元用于根据所述训练后的神经网络架构图和对应的评估值作为新的输入数据拟合所述多元高斯过程函数。
优选的,所述第一搜索单元包括:
第二构建单元,所述第二构建单元用于根据所述训练后的神经网络架构图和所述多元高斯过程函数构建采集函数;
第五获得单元,所述第五获得单元用于在所述采集函数中进行搜索,获得令所述采集函数值最大的神经网络架构图;
第一执行单元,所述第一执行单元用于将所述令所述采集函数值最大的神经网络架构图作为下一个需要评估的神经网络架构图。
优选的,所述第五获得单元还包括:所述搜索的算法为蒙特卡洛树搜索算法。
第三方面,本申请实施例还提供了一种神经网络架构的搜索装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
对当前神经网络架构图进行训练,获得训练后的神经网络架构图和对应的评估值;根据所述训练后的神经网络架构图和对应的评估值,拟合多元高斯过程函数;根据所述多元高斯过程函数构建采集函数,对所述采集函数进行优化搜索;对上述步骤在设定时间内反复操作,获得所述评估值最大的神经网络架构图。
第四方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现以下步骤:
对当前神经网络架构图进行训练,获得训练后的神经网络架构图和对应的评估值;根据所述训练后的神经网络架构图和对应的评估值,拟合多元高斯过程函数;根据所述多元高斯过程函数构建采集函数,对所述采集函数进行优化搜索;对上述步骤在设定时间内反复操作,获得所述评估值最大的神经网络架构图。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本申请实施例通过提供一种神经网络架构的搜索方法及装置,所述方法包括:对当前神经网络架构图进行训练,获得训练后的神经网络架构图和对应的评估值;根据所述训练后的神经网络架构图和对应的评估值,拟合多元高斯过程函数;根据所述多元高斯过程函数构建采集函数,对所述采集函数进行优化搜索;对上述步骤在设定时间内反复操作,获得所述评估值最大的神经网络架构图。解决了现有技术中的神经网络架构搜索算法存在准确率低、搜索过程耗时、模型结果参数量过多的技术问题。基于贝叶斯优化方法来搜索神经网络架构,通过蒙特卡洛树搜索来优化算法中的采集函数,达到了在较短时间内搜索得到准确率比较高,且模型参数量少的神经网络架构的技术效果。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
图1为本发明实施例中一种神经网络架构的搜索方法的流程示意图;
图2为本发明实施例中一种神经网络架构的搜索装置的结构示意图;
图3为本发明实施例中另一种神经网络架构的搜索装置的结构示意图。
附图标记说明:第一获得单元11,第一拟合单元12,第一搜索单元13,第二获得单元14,总线300,接收器301,处理器302,发送器303,存储器304,总线接口306。
具体实施方式
本申请实施例提供了一种神经网络架构的搜索方法及装置,用以解决现有技术中的神经网络架构搜索算法存在准确率低、搜索过程耗时、模型结果参数量过多的技术问题。
为了解决上述技术问题,本申请提供的技术方案总体思路如下:通过对当前神经网络架构图进行训练,获得训练后的神经网络架构图和对应的评估值;根据所述训练后的神经网络架构图和对应的评估值,拟合多元高斯过程函数;根据所述多元高斯过程函数构建采集函数,对所述采集函数进行优化搜索;对上述步骤在设定时间内反复操作,获得所述评估值最大的神经网络架构图。基于贝叶斯优化方法来搜索神经网络架构,通过蒙特卡洛树搜索来优化算法中的采集函数,达到了在较短时间内搜索得到准确率比较高,且模型参数量少的神经网络架构的技术效果。
下面通过附图以及具体实施例对本申请技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。
实施例一
图1为本发明实施例中一种神经网络架构的搜索方法的流程示意图,本发明实施例提供的一种神经网络架构的搜索方法,如图1所示,所述方法包括:
步骤110:对当前神经网络架构图进行训练,获得训练后的神经网络架构图和对应的评估值;
步骤120:根据所述训练后的神经网络架构图和对应的评估值,拟合多元高斯过程函数;
步骤130:根据所述多元高斯过程函数构建采集函数,对所述采集函数进行优化搜索;
步骤140:对上述步骤在设定时间内反复操作,获得所述评估值最大的神经网络架构图。
进一步的,所述对当前神经网络架构图进行训练,获得训练后的神经网络架构图和对应的评估值,包括:获得当前神经网络架构图;将图像分类任务的数据集作为输入数据对所述当前神经网络架构图进行训练,获得所述训练后的神经网络架构图和对应的评估值。
具体而言,本发明实施例提供的一种神经网络架构的搜索方法,首先在算法运行开始,需要初始化一个当前神经网络架构图,然后将图像分类任务的数据集作为输入数据对所述当前神经网络架构图进行训练,训练结果用准确率作为评估标准,得到训练后的神经网络架构图和对应的评估值,若在算法循环中,则依据步骤130得到一个所述当前神经网络架构图,然后对其进行训练,得到所述训练后的神经网络架构图和对应的评估值,接着将所述训练后的神经网络架构图和对应的评估值作为输入变量x和输出变量y来拟合概率代理模型,其中,所述概率代理模型为多元高斯过程函数,然后根据所述多元高斯过程函数和所述训练后的神经网络架构图来构建采集函数,并通过蒙特卡洛树搜索算法在所述采集函数中搜索令所述采集函数值最大的神经网络架构图,并将所述令所述采集函数值最大的神经网络架构图作为下一个待评估的神经网络架构图,设定搜索时间为T,重复步骤110~130,直至所述搜索时间截止,返回所述评估值最大的神经网络架构图,其中,所述令所述评估值最大的神经网络架构图即为分类准确率最高的神经网络架构图,达到了在较短时间内搜索得到准确率比较高,且模型参数量少的神经网络架构的技术效果。
进一步的,所述根据所述训练后的神经网络架构图和对应的评估值,拟合多元高斯过程函数,包括:构建概率代理模型,设置所述概率代理模型为多元高斯过程函数;根据所述训练后的神经网络架构图和对应的评估值作为新的输入数据拟合所述多元高斯过程函数。
具体而言,在步骤120中,基于步骤110得到的所述训练后的神经网络架构图和对应的评估值,作为输入变量x和输出变量y来拟合所述概率代理模型,其中,所述概率代理模型为多元高斯过程函数,在拟合所述多元高斯过程函数中,我们在此假设数据集为,令,则,假设需要预测的集合为,对应的预测值为。高斯回归首先要计算数据集中样本之间的联合概率分布f~GP(E(f(x)),K(x,x′))。高斯过程和高斯函数一样,由均值和方差构成,均值代表了函数离原点的偏移位置,方差代表了函数的分布形状,多元高斯分布中,方差变为用协方差矩阵表示。因此设均值为,协方差矩阵为,再根据需要预测的来计算后验概率分布。
根据理论知识我们定义协方差公式为:
其中和为两个神经网络架构图,代表了两个网络之间的距离,范围是,是一个映射函数,它将原始度量空间中的距离映射到新空间中的相应距离。通过使用Bourgain定理将原始度量空间嵌入到新的空间中来构造新空间,其目的是确保内核的有效性。
出于计算方便,我们先假设一个0均值的先验分布:
f(x)~GP(0,K(x,x′))
其中,
P(ft+1|D1:t,xt+1)~N(μ,σ2)
μ(ft+1)=kTK-1f1:t
σ2(ft+1)=k(xt+1,xt+1)-kTK-1k
进一步的,所述根据所述多元高斯过程函数构建采集函数,对所述采集函数进行优化搜索,包括:根据所述训练后的神经网络架构图和所述多元高斯过程函数构建采集函数;在所述采集函数中进行搜索,获得令所述采集函数值最大的神经网络架构图;将所述令所述采集函数值最大的神经网络架构图作为下一个需要评估的神经网络架构图。
进一步的,所述在所述采集函数中进行搜索,包括:所述搜索的算法为蒙特卡洛树搜索算法。
具体而言,在步骤130中,首先根据所述训练后的神经网络架构图与对应的评估值和所述多元高斯过程函数,来构建所述采集函数,具体地,所述采集函数被定义为:
在优化过程中,期望通过得到一个需要观察的新神经网络架构图,在该过程中,通过以下操作生成新神经网络架构图,将所述新神经网络架构图作为变量输入到所述多元高斯过程函数中,得到所述新神经网络架构图对应评估值的均值和方差,以此来得到所述采集函数的值。其中,生成所述新的神经网络架构图的具体操作方式为:
(3)add(,u,v):相加式跳变连接,随机选择两个输出层u和v,通过跳变连接,使其两个通道的输出向量进行特征相加,由于网络中特征图尺寸只会随着网络加深不变或者变小,因此前面的层若是输出特征大与后面的层,则自动添加池化层缩小尺寸直至与小的一方一致在进行相加;
(4)concat(,u,v):并联式跳变连接,随机选择两个输出层u和v,通过跳变连接,使其两个通道的输出向量进行特征并联,由于输出通道数的改变,下一层输入尺寸随之修改。若尺寸不一致,则大的一方通过池化操作进行缩小尺寸,并在缩小后加入Relu层将特征非线性化。
假设已经观察的神经网络架构图,即已经实际训练得到真实评估值的所述训练后的神经网络架构图,存在搜索历史记录中,为评估值。是一个操作方式的集合,可以将原图映射为新的图,定义这种操作操作为。为了保留节点信息便于搜索,本发明实施例基于已有的搜索历史重新构建了一棵模拟树,每棵树有父节点(parent)和子节点(child),子节点保存在列表(children)中。本发明实施例将已评估的所述训练后的神经网络架构视为真实节点(True Node)。每个真实节点ID号与搜索结果中的模型ID保存的一致,便于在H中索引来调用历史计算图。我们将当前每个节点的真实评估值作为节点当前的收益值(reward),由于不存在博弈方,这个收益值与蒙特卡洛树中的博弈的获胜次数一样可以累加。本发明实施例令通过操作方式得到的未评估神经网络架构为虚拟节点(Virtual Node),由于该搜索空间不像下棋存在向前模拟多步得到棋局是否获胜作为收益,本发明实施例令其模拟是否获胜的‘0’‘1’值直接改为值来代替,算法基于已有的真实节点继续搜索虚拟节点。蒙特卡洛树中的总博弈局数用访问节点次数(visits)来代替。在对所述采集函数搜索结束后,返回令所述采集函数值最大的神经网络架构图。
在步骤140中,将步骤130中搜索得到所述令所述采集函数值最大的神经网络架构图返回至步骤110继续进行训练得到对应的评估值,循环步骤110~步骤130直至所述搜索时间T结束,最后将树形结构图中评估值最大的神经网络架构取出来,作为最终结果。
实施例二
基于与前述实施例中一种神经网络架构的搜索方法同样的发明构思,本发明还提供一种神经网络架构的搜索装置,如图2所示,所述装置包括:
第一获得单元11,所述第一获得单元11用于对当前神经网络架构图进行训练,获得训练后的神经网络架构图和对应的评估值;
第一拟合单元12,所述第一拟合单元12用于根据所述训练后的神经网络架构图和对应的评估值,拟合多元高斯过程函数;
第一搜索单元13,所述第一搜索单元13用于根据所述多元高斯过程函数构建采集函数,对所述采集函数进行优化搜索;
第二获得单元14,所述第二获得单元14用于对上述步骤在设定时间内反复操作,获得所述评估值最大的神经网络架构图。
优选的,所述第一获得单元11包括:
第三获得单元,所述第三获得单元用于获得当前神经网络架构图;
第四获得单元,所述第四获得单元用于将图像分类任务的数据集作为输入数据对所述当前神经网络架构图进行训练,获得所述训练后的神经网络架构图和对应的评估值。
优选的,所述第一拟合单元12包括:
第一构建单元,所述第一构建单元用于构建概率代理模型,设置所述概率代理模型为多元高斯过程函数;
第二拟合单元,所述第二拟合单元用于根据所述训练后的神经网络架构图和对应的评估值作为新的输入数据拟合所述多元高斯过程函数。
优选的,所述第一搜索单元13包括:
第二构建单元,所述第二构建单元用于根据所述训练后的神经网络架构图和所述多元高斯过程函数构建采集函数;
第五获得单元,所述第五获得单元用于在所述采集函数中进行搜索,获得令所述采集函数值最大的神经网络架构图;
第一执行单元,所述第一执行单元用于将所述令所述采集函数值最大的神经网络架构图作为下一个需要评估的神经网络架构图。
优选的,所述第五获得单元还包括:所述搜索的算法为蒙特卡洛树搜索算法。
前述图1实施例一中的一种神经网络架构的搜索方法的各种变化方式和具体实例同样适用于本实施例的一种神经网络架构的搜索装置,通过前述对一种神经网络架构的搜索方法的详细描述,本领域技术人员可以清楚的知道本实施例中一种神经网络架构的搜索装置的实施方法,所以为了说明书的简洁,在此不再详述。
实施例三
基于与前述实施例中一种神经网络架构的搜索方法同样的发明构思,本发明还提供一种神经网络架构的搜索装置,其上存储有计算机程序,该程序被处理器执行时实现前文所述一种神经网络架构的搜索方法的任一方法的步骤。
其中,在图3中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口306在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。
处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。
实施例四
基于与前述实施例中一种神经网络架构的搜索方法同样的发明构思,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
对当前神经网络架构图进行训练,获得训练后的神经网络架构图和对应的评估值;根据所述训练后的神经网络架构图和对应的评估值,拟合多元高斯过程函数;根据所述多元高斯过程函数构建采集函数,对所述采集函数进行优化搜索;对上述步骤在设定时间内反复操作,获得所述评估值最大的神经网络架构图。
在具体实施过程中,该程序被处理器执行时,还可以实现实施例一中的任一方法步骤。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本申请实施例通过提供一种神经网络架构的搜索方法及装置,所述方法包括:对当前神经网络架构图进行训练,获得训练后的神经网络架构图和对应的评估值;根据所述训练后的神经网络架构图和对应的评估值,拟合多元高斯过程函数;根据所述多元高斯过程函数构建采集函数,对所述采集函数进行优化搜索;对上述步骤在设定时间内反复操作,获得所述评估值最大的神经网络架构图。解决了现有技术中的神经网络架构搜索算法存在准确率低、搜索过程耗时、模型结果参数量过多的技术问题。基于贝叶斯优化方法来搜索神经网络架构,通过蒙特卡洛树搜索来优化算法中的采集函数,达到了在较短时间内搜索得到准确率比较高,且模型参数量少的神经网络架构的技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (6)
1.一种神经网络架构的搜索方法,其特征在于,所述方法包括:
对当前神经网络架构图进行训练,获得训练后的神经网络架构图和对应的评估值;
根据所述训练后的神经网络架构图和对应的评估值,拟合多元高斯过程函数;
根据所述多元高斯过程函数构建采集函数,对所述采集函数进行优化搜索;
对上述步骤在设定时间内反复操作,获得所述评估值最大的神经网络架构图;
其中,所述对当前神经网络架构图进行训练,获得训练后的神经网络架构图和对应的评估值,包括:
获得当前神经网络架构图;
将图像分类任务的数据集作为输入数据对所述当前神经网络架构图进行训练,获得所述训练后的神经网络架构图和对应的评估值;
将所述训练后的神经网络架构图和对应的评估值作为输入变量x和输出变量y来拟合所述多元高斯过程函数,构建数据集为D:{X,Y},令f(xi)=yi,则f=[f(x1),f(x2),...,f(xn)];
计算数据集中样本之间的联合概率分布f~GP(E(f(x)),K(x,x′)),其中E(f(x))为均值,协方差矩阵为K;
根据所述协方差矩阵得出高斯过程函数为:P(ft+1|D1:t,xt+1)~N(μ,σ2);
其中,μ(ft+1)=kTK-1f1:t;σ2(ft+1)=k(xt+1,xt+1)-kTK-1k;
其中,所述根据所述多元高斯过程函数构建采集函数还包括:
所述采集函数为:α(f)=-μ(yf)-βσ(yf),
其中f是神经网络架构图,yf为神经网络架构图的评估值,β是平衡系数,μ(yf)和σ(yf)分别是高斯拟合先验的均值和方差;
其中,所述对所述采集函数进行优化搜索,还包括:
通过蒙特卡洛树搜索算法对所述采集函数进行优化搜索。
2.如权利要求1所述的方法,其特征在于,所述根据所述训练后的神经网络架构图和对应的评估值,拟合多元高斯过程函数,包括:
构建概率代理模型,设置所述概率代理模型为多元高斯过程函数;
根据所述训练后的神经网络架构图和对应的评估值作为新的输入数据拟合所述多元高斯过程函数。
3.如权利要求1所述的方法,其特征在于,所述根据所述多元高斯过程函数构建采集函数,对所述采集函数进行优化搜索,包括:
根据所述训练后的神经网络架构图和所述多元高斯过程函数构建采集函数;
在所述采集函数中进行搜索,获得令所述采集函数值最大的神经网络架构图;
将所述令所述采集函数值最大的神经网络架构图作为下一个需要评估的神经网络架构图。
4.一种神经网络架构的搜索装置,其特征在于,所述装置包括:
第一获得单元,所述第一获得单元用于对当前神经网络架构图进行训练,获得训练后的神经网络架构图和对应的评估值;
第一拟合单元,所述第一拟合单元用于根据所述训练后的神经网络架构图和对应的评估值,拟合多元高斯过程函数;
第一搜索单元,所述第一搜索单元用于根据所述多元高斯过程函数构建采集函数,对所述采集函数进行优化搜索;
第二获得单元,所述第二获得单元用于对上述步骤在设定时间内反复操作,获得所述评估值最大的神经网络架构图;
第三获得单元,所述第三获得单元用于获得当前神经网络架构图;
第四获得单元,所述第四获得单元用于将图像分类任务的数据集作为输入数据对所述当前神经网络架构图进行训练,获得所述训练后的神经网络架构图和对应的评估值;
将所述训练后的神经网络架构图和对应的评估值作为输入变量x和输出变量y来拟合所述多元高斯过程函数,构建数据集为D:{X,Y},令f(xi)=yi,则f=[f(x1),f(x2),...,f(xn)];
计算数据集中样本之间的联合概率分布f~GP(E(f(x)),K(x,x′)),其中E(f(x))为均值,协方差矩阵为K;
根据所述协方差矩阵得出高斯过程函数为:P(ft+1|D1:t,xt+1)~N(μ,σ2);
其中,μ(ft+1)=kTK-1f1:t;σ2(ft+1)=k(xt+1,xt+1)-kTK-1k;
其中,所述根据所述多元高斯过程函数构建采集函数还包括:
所述采集函数为:α(f)=-μ(yf)-βσ(yf),
其中f是神经网络架构图,yf为神经网络架构图的评估值,β是平衡系数,μ(yf)和σ(yf)分别是高斯拟合先验的均值和方差;
其中,所述对所述采集函数进行优化搜索,还包括:
通过蒙特卡洛树搜索算法对所述采集函数进行优化搜索。
5.一种神经网络架构的搜索装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至3中任一项所述的一种神经网络架构的搜索方法的步骤。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至3中任一项所述的一种神经网络架构的搜索方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910441546.3A CN110276442B (zh) | 2019-05-24 | 2019-05-24 | 一种神经网络架构的搜索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910441546.3A CN110276442B (zh) | 2019-05-24 | 2019-05-24 | 一种神经网络架构的搜索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110276442A CN110276442A (zh) | 2019-09-24 |
CN110276442B true CN110276442B (zh) | 2022-05-17 |
Family
ID=67960235
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910441546.3A Active CN110276442B (zh) | 2019-05-24 | 2019-05-24 | 一种神经网络架构的搜索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110276442B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110705695B (zh) * | 2019-10-10 | 2022-11-18 | 北京百度网讯科技有限公司 | 搜索模型结构的方法、装置、设备和存储介质 |
CN110807109A (zh) * | 2019-11-08 | 2020-02-18 | 北京金山云网络技术有限公司 | 数据增强策略的生成方法、数据增强方法和装置 |
CN112990461B (zh) * | 2019-12-16 | 2023-09-19 | 杭州海康威视数字技术股份有限公司 | 构建神经网络模型的方法、装置、计算机设备和存储介质 |
CN111340221B (zh) * | 2020-02-25 | 2023-09-12 | 北京百度网讯科技有限公司 | 神经网络结构的采样方法和装置 |
CN113326929A (zh) * | 2020-02-28 | 2021-08-31 | 深圳大学 | 基于贝叶斯优化的渐进式可微分网络架构搜索方法及系统 |
CN111526054B (zh) * | 2020-04-21 | 2022-08-26 | 北京百度网讯科技有限公司 | 用于获取网络的方法及装置 |
CN111882042B (zh) * | 2020-08-03 | 2024-04-05 | 中国人民解放军国防科技大学 | 用于液体状态机的神经网络架构自动搜索方法、系统及介质 |
CN112489012A (zh) * | 2020-11-27 | 2021-03-12 | 大连东软教育科技集团有限公司 | 一种用于ct图像识别的神经网络架构方法 |
CN112700006B (zh) * | 2020-12-29 | 2024-06-28 | 平安科技(深圳)有限公司 | 网络架构搜索方法、装置、电子设备及介质 |
CN112396042A (zh) * | 2021-01-20 | 2021-02-23 | 鹏城实验室 | 实时更新的目标检测方法及系统、计算机可读存储介质 |
CN113780146B (zh) * | 2021-09-06 | 2024-05-10 | 西安电子科技大学 | 基于轻量化神经架构搜索的高光谱图像分类方法及系统 |
CN113962391B (zh) * | 2021-12-22 | 2022-03-01 | 鹏城实验室 | 神经网络架构搜索方法、装置、设备及存储介质 |
CN114926698B (zh) * | 2022-07-19 | 2022-10-14 | 深圳市南方硅谷半导体股份有限公司 | 基于演化博弈论的神经网络架构搜索的图像分类方法 |
CN118627152A (zh) * | 2024-08-13 | 2024-09-10 | 浙江大学 | 一种基于蒙特卡洛树搜索的高维微架构设计空间探索方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5790754A (en) * | 1994-10-21 | 1998-08-04 | Sensory Circuits, Inc. | Speech recognition apparatus for consumer electronic applications |
CN104077595A (zh) * | 2014-06-15 | 2014-10-01 | 北京工业大学 | 基于贝叶斯正则化的深度学习网络图像识别方法 |
CN106600583A (zh) * | 2016-12-07 | 2017-04-26 | 西安电子科技大学 | 基于端到端神经网络的视差图获取方法 |
WO2018156942A1 (en) * | 2017-02-23 | 2018-08-30 | Google Llc | Optimizing neural network architectures |
CN109284820A (zh) * | 2018-10-26 | 2019-01-29 | 北京图森未来科技有限公司 | 一种深度神经网络的结构搜索方法及装置 |
WO2019086867A1 (en) * | 2017-10-31 | 2019-05-09 | Babylon Partners Limited | A computer implemented determination method and system |
CN109784497A (zh) * | 2019-01-15 | 2019-05-21 | 探智立方(北京)科技有限公司 | 基于计算图进化的ai模型自动生成的方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11112784B2 (en) * | 2016-05-09 | 2021-09-07 | Strong Force Iot Portfolio 2016, Llc | Methods and systems for communications in an industrial internet of things data collection environment with large data sets |
US20180349158A1 (en) * | 2017-03-22 | 2018-12-06 | Kevin Swersky | Bayesian optimization techniques and applications |
-
2019
- 2019-05-24 CN CN201910441546.3A patent/CN110276442B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5790754A (en) * | 1994-10-21 | 1998-08-04 | Sensory Circuits, Inc. | Speech recognition apparatus for consumer electronic applications |
CN104077595A (zh) * | 2014-06-15 | 2014-10-01 | 北京工业大学 | 基于贝叶斯正则化的深度学习网络图像识别方法 |
CN106600583A (zh) * | 2016-12-07 | 2017-04-26 | 西安电子科技大学 | 基于端到端神经网络的视差图获取方法 |
WO2018156942A1 (en) * | 2017-02-23 | 2018-08-30 | Google Llc | Optimizing neural network architectures |
WO2019086867A1 (en) * | 2017-10-31 | 2019-05-09 | Babylon Partners Limited | A computer implemented determination method and system |
CN109284820A (zh) * | 2018-10-26 | 2019-01-29 | 北京图森未来科技有限公司 | 一种深度神经网络的结构搜索方法及装置 |
CN109784497A (zh) * | 2019-01-15 | 2019-05-21 | 探智立方(北京)科技有限公司 | 基于计算图进化的ai模型自动生成的方法 |
Non-Patent Citations (2)
Title |
---|
ReinBo: Machine Learning pipeline search and configuration with Bayesian Optimization embedded Reinforcement Learning;Xudong Sun 等;《arXiv:1904.05381v1》;20190410;1-17 * |
Sequential model-based optimization for general algorithm configuration;HUTTER Frank 等;《International Conference on Learning and Intelligent Optimization》;20111231;507-523 * |
Also Published As
Publication number | Publication date |
---|---|
CN110276442A (zh) | 2019-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110276442B (zh) | 一种神经网络架构的搜索方法及装置 | |
CN112487168B (zh) | 知识图谱的语义问答方法、装置、计算机设备及存储介质 | |
CN112116090B (zh) | 神经网络结构搜索方法、装置、计算机设备及存储介质 | |
WO2019018375A1 (en) | NEURONAL ARCHITECTURE RESEARCH FOR CONVOLUTION NEURAL NETWORKS | |
CN111406264A (zh) | 神经架构搜索 | |
JP7287397B2 (ja) | 情報処理方法、情報処理装置及び情報処理プログラム | |
CN115066694A (zh) | 计算图优化 | |
CN115357554B (zh) | 一种图神经网络压缩方法、装置、电子设备及存储介质 | |
CN111626489B (zh) | 基于时序差分学习算法的最短路径规划方法和装置 | |
CN107783998A (zh) | 一种数据处理的方法以及装置 | |
CN114261400A (zh) | 一种自动驾驶决策方法、装置、设备和存储介质 | |
CN114398949A (zh) | 一种脉冲神经网络模型的训练方法、存储介质及计算设备 | |
CN112330054A (zh) | 基于决策树的动态旅行商问题求解方法、系统及存储介质 | |
CN116974249A (zh) | 柔性作业车间调度方法和柔性作业车间调度装置 | |
CN111645687A (zh) | 变道策略确定方法、装置及存储介质 | |
CN109213922B (zh) | 一种对搜索结果排序的方法和装置 | |
CN115865713A (zh) | 一种高阶网络中高阶结构的重要性排序方法、系统及终端 | |
CN115809701A (zh) | 用于风险交易捕捉的图特征搜索方法和系统 | |
CN112836805B (zh) | Krfpv算法、执行装置、电子设备、存储介质以及神经网络 | |
CN111027709B (zh) | 信息推荐方法、装置、服务器及存储介质 | |
CN113963551A (zh) | 基于协作定位的车辆定位方法、系统、设备及介质 | |
JP6558860B2 (ja) | 推定装置、予測装置、方法、及びプログラム | |
CN117808040B (zh) | 一种基于脑图的低遗忘热点事件预测方法及装置 | |
CN114580578B (zh) | 具有约束的分布式随机优化模型训练方法、装置及终端 | |
US20200410366A1 (en) | Automatic determination of the run parameters for a software application on an information processing platform by genetic algorithm and enhanced noise management |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |