CN113762469B - 神经网络结构搜索方法及系统 - Google Patents
神经网络结构搜索方法及系统 Download PDFInfo
- Publication number
- CN113762469B CN113762469B CN202110931457.4A CN202110931457A CN113762469B CN 113762469 B CN113762469 B CN 113762469B CN 202110931457 A CN202110931457 A CN 202110931457A CN 113762469 B CN113762469 B CN 113762469B
- Authority
- CN
- China
- Prior art keywords
- coefficient
- neural network
- network structure
- backtracking
- edge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 92
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000008878 coupling Effects 0.000 claims abstract description 53
- 238000010168 coupling process Methods 0.000 claims abstract description 53
- 238000005859 coupling reaction Methods 0.000 claims abstract description 53
- 238000005457 optimization Methods 0.000 claims abstract description 42
- 230000002452 interceptive effect Effects 0.000 claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 14
- 230000009467 reduction Effects 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 9
- 230000003993 interaction Effects 0.000 abstract description 9
- 230000008569 process Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种神经网络结构搜索方法及系统,方法包括:根据预设搜索空间中目标单元组成的有向无环图,确定有向无环图中边的边缘系数和操作系数;根据链式法则,确定操作系数与边缘系数之间的耦合关系;根据交互式可微架构搜索IDARTS的更新规则和耦合关系,对操作系数进行回溯优化,并根据回溯优化后的操作系数搜索神经网络结构。所述系统执行所述方法。本发明利用预设搜索空间中目标单元组成的有向无环图的操作系数和边缘系数之间的耦合关系以及IDARTS的更新规则,进一步探索神经网络结构搜索中操作系数和边缘系数的相互作用,提高了搜索到神经网络结构的性能。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种神经网络结构搜索方法及系统。
背景技术
神经网络结构搜索(Neural Architecture Search,NAS)作为自动化架构工程,可以自动搜索神经网络结构,近年来成为深度学习中最有前途的技术之一。早期的NAS方法侧重于通过使用强化学习或进化算法来搜索网络结构。然而,这些方法大多都需要大量的计算和内存资源。为了在短时间内实现神经网络结构搜索,一次性结构搜索方法被提出,使得图形处理器GPU在几天内搜索最佳结构成为可能,特别是可微架构搜索(DifferentiableArchitecture Search,DARTS)通过松弛搜索空间,使其变得连续可微,然后通过梯度下降学习每个操作的权重,优化结构的性能,使结构搜索更加高效。然而DARTS仍然受制于庞大而冗余的网络结构空间,因此受到大量内存和计算开销的影响。
为了解决这一问题,用于内存高效架构搜索的部分通道连接(Partial channelconnections for memory-efficient architecture search,PC-DARTS)被提出,PC-DARTS通过在网络优化中引入部分通道连接策略,解决了高GPU内存成本的问题,并通过学习一组额外的边缘参数,稳定了对网络连接的搜索。
尽管PC-DARTS通过端到端学习结构和网络参数提高了结构搜索的效率。然而,忽略了操作参数与边缘参数的关系,导致训练过程不充分,所搜索到的神经网络结构是次优的。原因在于PC-DARTS使用的梯度下降法忽略了参数的耦合关系,从而降低了优化效果,搜索到的神经网络结构性能较差。
发明内容
本发明提供的神经网络结构搜索方法及系统,用于现有技术中存在的搜索到的神经网络结构的性能较差的缺陷,利用预设搜索空间中目标单元组成的有向无环图的操作系数和边缘系数之间的耦合关系以及IDARTS的更新规则,进一步探索神经网络结构搜索中操作系数和边缘系数的相互作用,提高了搜索到神经网络结构的性能。
本发明提供的一种神经网络结构搜索方法,包括:
根据预设搜索空间中目标单元组成的有向无环图,确定所述有向无环图中边的边缘系数和操作系数;
根据链式法则,确定所述操作系数与所述边缘系数之间的耦合关系;
根据交互式可微架构搜索IDARTS的更新规则和所述耦合关系,对所述操作系数进行回溯优化,并根据回溯优化后的操作系数搜索神经网络结构。
根据本发明提供的一种神经网络结构搜索方法,所述目标单元,包括:
正常单元和缩减单元;
其中,所述缩减单元是根据所述与所述预设搜索空间对应的超级网络中的目标层数的单元确定的;
所述正常单元是根据所述超级网络中的非所述缩减单元确定的。
根据本发明提供的一种神经网络结构搜索方法,所述根据链式法则,确定所述操作系数与所述边缘系数之间的耦合关系,包括:
根据所述链式法则、学习率、回溯系数和目标矩阵的迹,确定所述耦合关系;
其中,所述目标矩阵是根据第一预设矩阵和所述边缘系数与所述操作系数之间的偏导数确定的;
所述第一预设矩阵是根据第二预设矩阵和所述操作系数确定的。
根据本发明提供的一种神经网络结构搜索方法,所述根据交互式可微架构搜索IDARTS的更新规则和所述耦合关系,对所述操作系数进行回溯优化,包括:
根据所述IDARTS的更新规则,确定边缘系数的约束是否小于预设阈值;
若是,则根据所述耦合关系和当前时刻的操作系数,对所述操作系数进行回溯优化;
否则,则根据所述当前时刻的操作系数,对所述操作系数进行优化。
根据本发明提供的一种神经网络结构搜索方法,所述预设阈值是通过如下方式确定的:
根据回溯的开始时刻、回溯的终止时刻、预设系数和所述有向无环图中边的总数,确定所述预设阈值。
本发明还提供一种神经网络结构搜索系统,包括:系数确定模块、关系确定模块以及网络搜索模块;
所述系数确定模块,用于根据预设搜索空间中目标单元组成的有向无环图,确定所述有向无环图中边的边缘系数和操作系数;
所述关系确定模块,用于根据链式法则,确定所述操作系数与所述边缘系数之间的耦合关系;
所述网络搜索模块,用于根据交互式可微架构搜索IDARTS的更新规则和所述耦合关系,对所述操作系数进行回溯优化,并根据回溯优化后的操作系数搜索神经网络结构。
根据本发明提供的一种神经网络结构搜索系统,所述网络搜索模块,还用于:
根据所述IDARTS的更新规则,确定边缘系数的约束是否小于预设阈值;
若是,则根据所述耦合关系和当前时刻的操作系数,对所述操作系数进行回溯优化;
否则,则根据所述当前时刻的操作系数,对所述操作系数进行优化。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述神经网络结构搜索方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述神经网络结构搜索方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述神经网络结构搜索方法的步骤。
本发明提供的神经网络结构搜索方法及系统,利用预设搜索空间中目标单元组成的有向无环图的操作系数和边缘系数之间的耦合关系以及IDARTS的更新规则,进一步探索神经网络结构搜索中操作系数和边缘系数的相互作用,提高了搜索到神经网络结构的性能。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的神经网络结构搜索方法的流程示意图;
图2是本发明提供的交互式可微架构搜索IDARTS的结构示意图;
图3是本发明提供的目标单元的结构示意图;
图4是本发明提供的神经网络结构搜索系统的结构示意图;
图5是本发明提供的电子设备的实体结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术采用PC-DARTS通过端到端学习架构和网络参数提高了神经网络结构搜索的效率。然而,忽略了操作参数与边缘参数的关系,导致训练过程不充分,所搜索到的神经网络结构是次优的。
双线性优化模型广泛应用于计算机视觉算法中。通常优化的目标或模型受到两个或多个隐藏因素的影响,这些因素相互作用对最终的结果产生影响。而PC-DARTS可以被认为是一个双线性优化问题。
假设一个单元(cell)中有L条边,节点Ni和节点Nj之间为第l条边。以第l条边为例:
假设一条边上有M个操作,Wl,m表示第l条边上第m个操作,xi表示节点Ni的特征,αl,m表示第l条边上第m个操作系数,该操作系数经过softmax函数操作处理。
节点Nj的特征:
其中,βl表示第l条边的边缘系数,该边缘系数同样经过softmax函数操作处理。在图2的左图中,可以发现α和β在推理过程中是耦合的,如公式(2)所示。在神经网络结构搜索过程中利用一个基本的双线性优化问题优化以下目标函数:
其中,是需要优化的参数,L表示边的总数,M表示所有操作的总数。R(·)是一个约束,/>是采用的损失函数。
根据DARTS和PC-DARTS,超级网络(Super Network)的权重W、操作系数α和边缘系数β交替优化。操作系数α和边缘系数β的学习过程涉及一个优化问题,如公式(4)至(6)
Wt+1=arg minWLtrain(Wt,βt,αt) (4)
αt+1=arg minαLval(Wt+1,βt,αt) (5)
βt+1=arg minβLval(Wt+1,βt,αt) (6)
其中,αt+1和βt+1分别表示在t+1时刻边的操作系数和边缘系数,Wt+1表示在t+1时刻超级网络的权重。
在公式(4)至(6)中α和β独立更新。然而,由于α和β的耦合关系,用常规方法优化它们是不合适的。原因在于忽略了不同类型的参数之间内在关系,导致训练过程不充分,所搜索到的神经网络结构是次优的。
针对上述问题,本发明提供了一种神经网络结构搜索方法,交互式可微架构搜索(Interactive Differentiable Architecture Search,IDARTS),通过在PC-DARTS中引入了一个双线性模型并设计了一种新的反向传播方法,利用边的操作系数和边缘系数之间的隐藏关系,在同一框架中训练它们,促进优化过程。具体实现如下:
图1是本发明提供的神经网络结构搜索方法的流程示意图,如图1所示,方法包括:
S1、根据预设搜索空间中目标单元组成的有向无环图,确定有向无环图中边的边缘系数和操作系数;
S2、根据链式法则,确定操作系数与边缘系数之间的耦合关系;
S3、根据交互式可微架构搜索IDARTS的更新规则和耦合关系,对操作系数进行回溯优化,并根据回溯优化后的操作系数搜索神经网络结构。
需要说明的是,上述方法的执行主体可以是计算机设备。
可选地,根据预先设置的搜索空间,搜索目标单元,并根据搜索到的正常单元和缩减单元来构建最终的神经网络结构。
通常利用超级网络来表示搜索空间。超级网络中包括多个计算单元(Cell),通过在超级网络中搜索可以获得最终的神经网络结构。
在实际应用场景中,一个目标单元是由7个节点组成的有向无环图,节点Ni和节点Nj之间的边(i,j)上包含了操作集合,如图3,每个单元有2个输入节点(N-1,N0),4个中间节点(N1至N4),1个输出节点和14条边,每个单元都将前两个单元的输出作为输入,且单元的输出节点(output)是所有中间节点的深度级联。
然后对回溯反向传播过程进行证明,具体地,从一个新的角度考虑这个问题,即β和α在方程(3)中耦合。α导数的计算应考虑其与β的耦合关系,根据链式法则,得到操作系数α与边缘系数β之间的耦合关系。
利用得到的操作系数α与边缘系数β之间的耦合关系以及IDARTS的更新规则,对操作系数进行回溯优化,并利用回溯优化后的操作系数搜索神经网络结构。
本发明提供的神经网络结构搜索方法,利用预设搜索空间中目标单元组成的有向无环图的操作系数和边缘系数之间的耦合关系以及IDARTS的更新规则,进一步探索神经网络结构搜索中操作系数和边缘系数的相互作用,提高了搜索到神经网络结构的性能。
进一步地,在一个实施例中,目标单元,可以具体包括:
正常单元和缩减单元;
其中,缩减单元是根据与预设搜索空间对应的超级网络中神经网络结构中的目标层数的单元确定的;
正常单元是根据神经网络结构中超级网络中的非缩减单元确定的。
可选地,根据预设搜索空间,搜索正常单元和缩减单元,并根据最终搜索到的正常单元和缩减单元来构建最终的神经网络结构。
其中,缩减单元是根据与预设搜索空间对应的超级网络中的目标层数的单元确定的;正常单元是根据超级网络中的非缩减单元确定的。例如,缩减单元位于超级网络总层数的1/3层和2/3层处,其余为正常单元。
一个正常单元使用步长为1的操作来保持输入特征图的大小不变,并且输入通道数与输出通道数保持不变。一个缩减单元使用步长为2的操作来降低特征图的大小,且输出通道数是输入通道数的两倍。操作集合包括:3×3和5×5的可分离卷积,3×3和5×5的扩张可分离卷积,3×3的最大池化,3×3的平均池化,跳跃连接和无操作。
假设一个目标单元是由7个节点组成的有向无环图,节点Ni和节点Nj之间的边(i,j)上包含了操作集合,如图3,每个单元有2个输入节点(N-1,N0),4个中间节点(N1至N4),1个输出节点和14条边,α导数的计算应考虑其与β的耦合关系,根据链式法则,得到操作系数α与边缘系数β之间的耦合关系。
本发明提供的神经网络结构搜索方法,通过对预设搜索空间中正常单元和缩减单元进行搜索,对神经网络结构搜索中操作系数和边缘系数的相互作用进行探索,提高了搜索到神经网络结构的性能的同时,提高了搜索效率。
进一步地,在一个实施例中,步骤S2可以具体包括:
S21、根据链式法则、学习率、回溯系数和目标矩阵的迹,确定耦合关系;
其中,目标矩阵是根据第一预设矩阵和边缘系数与操作系数之间的偏导数确定的;
第一预设矩阵是根据第二预设矩阵和操作系数确定的。
可选地,根据链式法则、学习率、回溯系数和目标矩阵的迹,确定耦合关系,得到操作系数α与边缘系数β之间的耦合关系,具体如下:
其中,η1表示学习率,η2表示回溯系数,Tr(·)表示目标矩阵的迹,表示第一预设矩阵,/>表示边缘系数β与操作系数α之间的偏导数。
同时,为简单起见,在反向传播过程中省略了超级网络的权重W,只考虑了边缘系数β与操作系数α,考虑公式(3)中的双线性优化问题,由于R(·)仅仅在回溯过程中考虑,因此可以得到第一预设矩阵
其中,表示第二预设矩阵,通常设置/>
假设当l≠m时,βl和αm是独立的,可以得到:
结合公式(9)和公式(10),可以得到:
由此可以得到公式(7)中目标矩阵的迹:
由于可以根据公式(13)计算得到:
联合公式(12)和公式(13)可以得到t+1时刻的操作系数
其中,⊙表示Hadamard积,η=η1η2。为简化计算,/>可以近似为/>
公式(14)表示基于一个投影函数来解决γ的双线性优化问题。通过考虑αt的影响,并在第t+1时刻回溯优化状态以形成
本发明提供的神经网络结构搜索方法,利用操作系数和边缘系数之间的耦合关系搜索神经网络结构,提高了搜索效率及搜索到的神经网络结构的性能,同时节省了内存和计算开销。
进一步地,在一个实施例中,步骤S3可以具体包括:
S31、根据IDARTS的更新规则,确定边缘系数的约束是否小于预设阈值;
S32、若是,则根据耦合关系和当前时刻的操作系数,对当前时刻的操作系数进行回溯优化;
S33、否则,则根据当前时刻的操作系数,对当前时刻的操作系数进行优化。
进一步地,预设阈值是通过如下方式确定的:
根据回溯的开始时刻、回溯的终止时刻、预设系数和有向无环图中边的总数,确定预设阈值。
可选地,根据IDARTS的更新规则,确定进行回溯优化的时刻,IDARTS的更新规则可以根据公式(15)得到:
其中,P(αt+1,αt)=αt+1+ηγ⊙αt,R(β)表示边缘系数|βl|的约束(排序),ζ表示预设阈值。
其中,T和S分别表示回溯的开始时刻与终止时刻,λ表示预设系数,L表示有向无环图中边的总数。
具体地,回溯优化包括回溯过程和梯度下降,非回溯优化仅仅包括梯度下降,当确定边缘系数的约束小于预设阈值的时候会进行回溯优化,当确定边缘系数的约束不小于预设阈值的时候不进行回溯优化,但是无论是否回溯优化,都会进行梯度下降优化。
具体地,如公式(15)所示,若确定边缘系数的约束小于预设阈值ζ,则根据耦合关系和当前时刻的操作系数αt+1,对操作系数αt+1进行回溯优化,得到回溯优化后的操作系数
若确定边缘系数的约束不小于预设阈值ζ,不进行回溯优化,并将当前时刻的操作系数αt+1作为操作系数进行不包括回溯的优化。
如公式(16)所示,在搜索过程中预设阈值ζ将会增加,那么,α将会根据β进行回溯。
参见图2右图,与实线所示的IDARTS相比,虚线结果是低效的。t1,t2时刻表示操作系数α开始回溯。IDARTS协调了不同参数的训练,并基于回溯优化方法充分探索操作系数和边缘系数之间的相互作用,这使得操作系数α经过充分训练,最终搜索出更优的神经网络结构。
在实际应用中,利用本发明提供的神经网络结构搜索方法在ImageNet数据集上进行了验证,具体如表1所示。
在表1中,IDARTS(CIFAR10)表示在CIFAR10数据集上搜索得到的架构用在ImageNet数据集上训练,IDARTS(ImageNet)表示直接在ImageNet数据集上进行搜索。从表1中可以看出,与目前最先进的方法相比,应用本发明提供的神经网络结构搜索方法可以得到性能更好的神经网络结构,在图像分类领域取得了更高的精度,另外IDARTS除了可以搜索全精度卷积神经网络外,还可以搜索二值网络,只需要将搜索空间变为二值网络所需的操作,即可对二值网络进行搜索。
表1
本发明提供的神经网络结构搜索方法,通过利用回溯优化的概念来协调神经网络结构搜索过程中操作系数和边缘系数的训练,利用它们之间的相互作用进一步探索神经网络搜索中参数的潜力,从而提高神经网络结构的搜索效率。
下面对本发明提供的神经网络结构搜索系统进行描述,下文描述的神经网络结构搜索系统与上文描述的神经网络结构搜索方法可相互对应参照。
图4是本发明提供的神经网络结构搜索系统的结构示意图,如图4所示,包括:系数确定模块410、关系确定模块411以及网络搜索模块412;
系数确定模块410,用于根据预设搜索空间中目标单元组成的有向无环图,确定有向无环图中边的边缘系数和操作系数;
关系确定模块411,用于根据链式法则,确定操作系数与所述边缘系数之间的耦合关系;
网络搜索模块412,用于根据交互式可微架构搜索IDARTS的更新规则和耦合关系,对操作系数进行回溯优化,并根据回溯优化后的操作系数搜索神经网络结构。
本发明提供的神经网络结构搜索系统,利用预设搜索空间中目标单元组成的有向无环图的操作系数和边缘系数之间的耦合关系以及IDARTS的更新规则,进一步探索神经网络结构搜索中操作系数和边缘系数的相互作用,提高了搜索到神经网络结构的性能。
进一步地,在一个实施例中,网络搜索模块412,还可以具体用于:
根据IDARTS的更新规则,确定边缘系数的约束是否小于预设阈值;
若是,则根据耦合关系和当前时刻的操作系数,对操作系数进行回溯优化;
否则,则根据当前时刻的操作系数,对操作系数进行优化。
本发明提供的神经网络结构搜索系统,通过利用回溯优化的概念来协调神经网络结构搜索过程中操作系数和边缘系数的训练,利用它们之间的相互作用进一步探索神经网络搜索中参数的潜力,从而提高神经网络结构的搜索效率。
图5是本发明提供的一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(communication interface)511、存储器(memory)512和总线(bus)513,其中,处理器510,通信接口511,存储器512通过总线513完成相互间的通信。处理器510可以调用存储器512中的逻辑指令,以执行如下方法:
根据预设搜索空间中目标单元组成的有向无环图,确定有向无环图中边的边缘系数和操作系数;
根据链式法则,确定操作系数与边缘系数之间的耦合关系;
根据交互式可微架构搜索IDARTS的更新规则和耦合关系,对操作系数进行回溯优化,并根据回溯优化后的操作系数搜索神经网络结构。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机电源屏(可以是个人计算机,服务器,或者网络电源屏等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
进一步地,本发明公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的神经网络结构搜索方法,例如包括:
根据预设搜索空间中目标单元组成的有向无环图,确定有向无环图中边的边缘系数和操作系数;
根据链式法则,确定操作系数与边缘系数之间的耦合关系;
根据交互式可微架构搜索IDARTS的更新规则和耦合关系,对操作系数进行回溯优化,并根据回溯优化后的操作系数搜索神经网络结构。
另一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的神经网络结构搜索方法,例如包括:
根据预设搜索空间中目标单元组成的有向无环图,确定有向无环图中边的边缘系数和操作系数;
根据链式法则,确定操作系数与边缘系数之间的耦合关系;
根据交互式可微架构搜索IDARTS的更新规则和耦合关系,对操作系数进行回溯优化,并根据回溯优化后的操作系数搜索神经网络结构。
以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机电源屏(可以是个人计算机,服务器,或者网络电源屏等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种神经网络结构搜索方法,其特征在于,包括:
根据预设搜索空间中目标单元组成的有向无环图,确定所述有向无环图中边的边缘系数和操作系数;
根据链式法则,确定所述操作系数与所述边缘系数之间的耦合关系;
根据交互式可微架构搜索IDARTS的更新规则和所述耦合关系,对所述操作系数进行回溯优化,并根据回溯优化后的操作系数搜索神经网络结构,并将搜索到的神经网络结构应用于ImageNet数据集训练,以实现与GPU关联的图像分类任务;
根据链式法则、学习率、回溯系数和目标矩阵的迹,确定耦合关系,得到操作系数α与边缘系数β之间的耦合关系,具体如下:
其中,η1表示学习率,η2表示回溯系数,Tr(·)表示目标矩阵的迹,表示第一预设矩阵,/>表示边缘系数β与操作系数α之间的偏导数;
根据IDARTS的更新规则,确定进行回溯优化的时刻,IDARTS的更新规则可以根据以下公式得到:
其中,P(αt+1,αt)=αt+1+ηγ⊙αt,R(β)表示边缘系数|βl|的约束(排序),ζ表示预设阈值;αt+1为第t+1时刻的操作系数,为第t+1时刻回溯优化状态形成的操作系数。
2.根据权利要求1所述的神经网络结构搜索方法,其特征在于,所述目标单元,包括:
正常单元和缩减单元;
其中,所述缩减单元是根据所述与所述预设搜索空间对应的超级网络中的目标层数的单元确定的;
所述正常单元是根据所述超级网络中的非所述缩减单元确定的。
3.根据权利要求1所述的神经网络结构搜索方法,其特征在于,所述根据链式法则,确定所述操作系数与所述边缘系数之间的耦合关系,包括:
根据所述链式法则、学习率、回溯系数和目标矩阵的迹,确定所述耦合关系;
其中,所述目标矩阵是根据第一预设矩阵和所述边缘系数与所述操作系数之间的偏导数确定的;
所述第一预设矩阵是根据第二预设矩阵和所述操作系数确定的。
4.根据权利要求1所述的神经网络结构搜索方法,其特征在于,所述预设阈值是通过如下方式确定的:
根据回溯的开始时刻、回溯的终止时刻、预设系数和所述有向无环图中边的总数,确定所述预设阈值。
5.一种神经网络结构搜索系统,其特征在于,包括:系数确定模块、关系确定模块以及网络搜索模块;
所述系数确定模块,用于根据预设搜索空间中目标单元组成的有向无环图,确定所述有向无环图中边的边缘系数和操作系数;
所述关系确定模块,用于根据链式法则,确定所述操作系数与所述边缘系数之间的耦合关系;
所述网络搜索模块,用于根据交互式可微架构搜索IDARTS的更新规则和所述耦合关系,对所述操作系数进行回溯优化,并根据回溯优化后的操作系数搜索神经网络结构,并将搜索到的神经网络结构应用于ImageNet数据集训练,以实现与GPU关联的图像分类任务;
所述关系确定模块具体用于:
根据链式法则、学习率、回溯系数和目标矩阵的迹,确定耦合关系,得到操作系数α与边缘系数β之间的耦合关系,具体如下:
其中,η1表示学习率,η2表示回溯系数,Tr(·)表示目标矩阵的迹,表示第一预设矩阵,/>表示边缘系数β与操作系数α之间的偏导数;
所述网络搜索模块具体用于:
根据IDARTS的更新规则,确定进行回溯优化的时刻,IDARTS的更新规则可以根据以下公式得到:
其中,P(αt+1,αt)=αt+1+ηγ⊙αt,R(β)表示边缘系数|βl|的约束(排序),ζ表示预设阈值;αt+1为第t+1时刻的操作系数,为第t+1时刻回溯优化状态形成的操作系数。
6.一种电子设备,包括处理器和存储有计算机程序的存储器,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4任一项所述神经网络结构搜索方法的步骤。
7.一种处理器可读存储介质,其特征在于,所述处理器可读存储介质存储有计算机程序,所述计算机程序用于使所述处理器执行权利要求1至4任一项所述神经网络结构搜索方法的步骤。
8.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述神经网络结构搜索方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110931457.4A CN113762469B (zh) | 2021-08-13 | 2021-08-13 | 神经网络结构搜索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110931457.4A CN113762469B (zh) | 2021-08-13 | 2021-08-13 | 神经网络结构搜索方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113762469A CN113762469A (zh) | 2021-12-07 |
CN113762469B true CN113762469B (zh) | 2024-05-03 |
Family
ID=78789282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110931457.4A Active CN113762469B (zh) | 2021-08-13 | 2021-08-13 | 神经网络结构搜索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113762469B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111275172A (zh) * | 2020-01-21 | 2020-06-12 | 复旦大学 | 一种基于搜索空间优化的前馈神经网络结构搜索方法 |
CN111767983A (zh) * | 2020-05-29 | 2020-10-13 | 中国科学院大学 | 基于熵损失函数的离散化可微分神经网络搜索方法 |
CN112381208A (zh) * | 2020-11-13 | 2021-02-19 | 中国科学院计算技术研究所 | 一种深度渐进且逐步寻优的神经网络架构搜索方法与系统 |
CN112561027A (zh) * | 2019-09-25 | 2021-03-26 | 华为技术有限公司 | 神经网络架构搜索方法、图像处理方法、装置和存储介质 |
CN112699957A (zh) * | 2021-01-08 | 2021-04-23 | 北京工业大学 | 一种基于darts的图像分类优化方法 |
WO2021078027A1 (zh) * | 2019-10-25 | 2021-04-29 | 腾讯科技(深圳)有限公司 | 构建网络结构优化器的方法、装置及计算机可读存储介质 |
CN112784140A (zh) * | 2021-02-03 | 2021-05-11 | 浙江工业大学 | 一种高能效神经网络架构的搜索方法 |
-
2021
- 2021-08-13 CN CN202110931457.4A patent/CN113762469B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112561027A (zh) * | 2019-09-25 | 2021-03-26 | 华为技术有限公司 | 神经网络架构搜索方法、图像处理方法、装置和存储介质 |
WO2021078027A1 (zh) * | 2019-10-25 | 2021-04-29 | 腾讯科技(深圳)有限公司 | 构建网络结构优化器的方法、装置及计算机可读存储介质 |
CN111275172A (zh) * | 2020-01-21 | 2020-06-12 | 复旦大学 | 一种基于搜索空间优化的前馈神经网络结构搜索方法 |
CN111767983A (zh) * | 2020-05-29 | 2020-10-13 | 中国科学院大学 | 基于熵损失函数的离散化可微分神经网络搜索方法 |
CN112381208A (zh) * | 2020-11-13 | 2021-02-19 | 中国科学院计算技术研究所 | 一种深度渐进且逐步寻优的神经网络架构搜索方法与系统 |
CN112699957A (zh) * | 2021-01-08 | 2021-04-23 | 北京工业大学 | 一种基于darts的图像分类优化方法 |
CN112784140A (zh) * | 2021-02-03 | 2021-05-11 | 浙江工业大学 | 一种高能效神经网络架构的搜索方法 |
Non-Patent Citations (5)
Title |
---|
iDARTS: Differentiable Architecture Search with Stochastic Implicit Gradients;Miao Zhang et. al;International Conference on Machine Learning;20210621;12557-12 566 * |
Li'an Zhuo et. al.Cogradient descent for bilinear optimization.2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).2020,7956– 7964. * |
Modulated Convolutional Networks;Baochang Zhang et.al;IEEE Transactions on Neural Networks and Learning Systems;20210309;1-14 * |
基于最大信息系数的贝叶斯网络结构学习算法;曾千千等;计算机工程;20170815(第08期);225-230 * |
基于神经网络结构搜索的目标识别方法;卞伟伟等;空军工程大学学报(自然科学版);20200825(第04期);88-92 * |
Also Published As
Publication number | Publication date |
---|---|
CN113762469A (zh) | 2021-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gao et al. | Spotlight: Optimizing device placement for training deep neural networks | |
CN112036512B (zh) | 基于网络裁剪的图像分类神经网络架构搜索方法和装置 | |
CN110633785B (zh) | 一种卷积神经网络的计算方法及系统 | |
CN111406264A (zh) | 神经架构搜索 | |
CN113098714A (zh) | 一种基于深度强化学习的低时延网络切片的方法 | |
Yang et al. | Deep reinforcement learning based wireless network optimization: A comparative study | |
CN110428046A (zh) | 神经网络结构的获取方法及装置、存储介质 | |
CN113988464A (zh) | 基于图神经网络的网络链路属性关系预测方法及设备 | |
CN113570039A (zh) | 一种基于强化学习的优化共识的区块链系统 | |
CN113132232A (zh) | 一种能量路由优化方法 | |
CN111314171B (zh) | 一种sdn路由性能预测和优化的方法、设备及介质 | |
CN111461284A (zh) | 数据离散化方法、装置、设备及介质 | |
CN113743594B (zh) | 网络流量预测模型建立方法、装置、电子设备及存储介质 | |
CN115186806A (zh) | 一种支持跨节点自动微分的分布式图神经网络训练方法 | |
KR20210078212A (ko) | 정책 벡터 기반 인공신경망 탐색 장치 및 방법 | |
CN113762469B (zh) | 神经网络结构搜索方法及系统 | |
CN118140231A (zh) | 在图神经网络中的自适应扩散 | |
CN112131089B (zh) | 软件缺陷预测的方法、分类器、计算机设备及存储介质 | |
CN112528033A (zh) | 知识图谱多跳推理方法、装置、电子设备及存储介质 | |
WO2024168972A1 (zh) | 一种目标检测模型训练方法、目标检测方法、设备及介质 | |
Rong et al. | Soft Taylor pruning for accelerating deep convolutional neural networks | |
CN109726801A (zh) | 卷积神经网络的优化方法、装置、存储介质和系统 | |
Zhang et al. | Ir-nas: Neural architecture search for image restoration | |
CN114626284A (zh) | 一种模型处理方法及相关装置 | |
CN113642592A (zh) | 一种训练模型的训练方法、场景识别方法、计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |