CN112801264B - 一种动态可微分的空间架构搜索方法与系统 - Google Patents

一种动态可微分的空间架构搜索方法与系统 Download PDF

Info

Publication number
CN112801264B
CN112801264B CN202011271696.3A CN202011271696A CN112801264B CN 112801264 B CN112801264 B CN 112801264B CN 202011271696 A CN202011271696 A CN 202011271696A CN 112801264 B CN112801264 B CN 112801264B
Authority
CN
China
Prior art keywords
space
matrix
subspace
probability
spatial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011271696.3A
Other languages
English (en)
Other versions
CN112801264A (zh
Inventor
杨隆兴
胡瑜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN202011271696.3A priority Critical patent/CN112801264B/zh
Publication of CN112801264A publication Critical patent/CN112801264A/zh
Application granted granted Critical
Publication of CN112801264B publication Critical patent/CN112801264B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提出一种动态可微分的空间架构搜索方法与系统,将空间采样与可微分搜索结合,仅对采样空间进行可微分搜索,同时于搜索过程中更新搜索空间的概率分布,用以指导下一次的采样。多次迭代后算法收敛,继而根据相应参数确定最终的搜索结构。这样既可以通过仅优化子空间来加速搜索,又能够以采样的方式使搜索在多个子空间下进行,跳出可微分优化导致的局部最优解,找到更好的网络结构。

Description

一种动态可微分的空间架构搜索方法与系统
技术领域
本发明涉及深度学习中神经网络架构搜索领域,并特别涉及一种动态可微 分的空间架构搜索方法与系统。
背景技术
神经网络架构搜索(neural architecture search,简称NAS)是深度学 习的一个分支,用于降低人工设计网络架构的试错成本,自动化地搜索性能更 优的网络架构。围绕着如何提高搜索效率和如何找到更好的结构,NAS可划分 为强化学习类、进化算法类和可微分类三种方法。由于需要对每种结构进行重 训练,前两类方法要求极其巨大的搜索资源,因此当下主流的搜索算法是可微 分类算法。可微分方法需要用权重共享机制对搜索空间的所有结构进行集成, 然后基于梯度优化权重和结构参数,最后通过结构参数选择结构。
可微分搜索需要对整个搜索空间的结构进行集成,这样存在着效率和性能 上的不足。一方面,搜索空间集成后会产生一个权重共享的超网络,超网络在 搜索过程中的训练需要比较大的显存开销,抬高了硬件门槛。同时,前向和反 向传播会比较耗时,从而拖慢整个搜索时间。另一方面,可微分方法利用梯度 进行搜索,受限于初始条件和优化过程,易陷入局部最优解,甚至出现结构崩 塌,从而难以发现好的结构。该类方法往往需要多次搜索,而这又降低了搜索 效率。
发明内容
针对现有技术的不足,本发明提出一种动态可微分空间和架构搜索的方法, 包括:
步骤1、通过集合多个待搜索的神经网络架构得到搜索空间,将该搜索空 间中所有神经网络架构通过权重共享生成超网络,将该超网络的有向无环图以 矩阵表示,得到空间矩阵,该空间矩阵的行数表示图的边,列表示候选操作;
步骤2、对该空间矩阵的每一个元素计算上置信界值,将所有元素的上置 信界值进行排序,通过选择最大的topK个,生成子空间矩阵,该子空间矩阵 对应着采样的子空间;
步骤3、使用反向传播算法优化该子空间矩阵中候选操作的权重参数、空 间参数和结构参数;优化的迭代次数为M步,用于控制子空间中参数的收敛 程度。
步骤4、根据该空间参数和该结构参数得到该子空间矩阵中每条边的所有 候选操作的重要程度,以构建重要程度矩阵,判断当前迭代次数是否达到预定 次数,若否则再次执行该步骤2,直到当前迭代次数达到预定次数,根据该重 要程度矩阵,选择每条边重要程度最大的候选操作,构成最终的神经网络架构。
所述的动态可微分空间和架构搜索的方法,包括该超网络包括神经网络的 层数、通道数、步长、拓扑结构和节点间候选操作信息。
所述的动态可微分空间和架构搜索的方法,包括空间矩阵中元素的值为1 或0,用于表示边的操作是否是搜索空间的候选操作。
所述的动态可微分空间和架构搜索的方法,包括该步骤4中每条边的所有 候选操作的重要程度为:
如果子空间矩阵对应位置的值为1则第i次迭代的重要程度=空间概率* 结构条件概率+第i-1次迭代的重要程度,否则第i次迭代的重要程度=第i-1 次迭代的重要程度,其中空间概率为该空间参数,结构条件概率为该结构参数。
所述的动态可微分空间和架构搜索的方法,包括该步骤2中计算上置信界 值具体过程为:
对该空间矩阵的每一个元素计算上置信界值,UCB=空间概率 +c*sqrt(lnT/t),其中UCB为该上置信界值,该空间概率在第一次迭代时来自 初始值,之后来自步骤3的空间参数,c为置信系数,T为子空间总共采样次 数,t为该操作的子空间矩阵值为1的次数。
所述的动态可微分空间和架构搜索的方法,包括该步骤3优化过程具体为:
该子空间矩阵中候选操作集合为O,o表示具体操作,
Figure BDA0002777885320000021
表示混合操作,ω, ζ,α为权重、空间、结构参数,k用来表示第k种操作,则在两个节点间混 合操作的计算为
Figure BDA0002777885320000022
其中,pk,qk分别表示第k种操作的 空间概率和在此空间下的条件结构概率,pk=sigmoid(ζk),
Figure BDA0002777885320000023
Figure BDA0002777885320000031
Zk为节点间第k种操作的子空间矩阵值,通过反向传播更新得 到权重、空间、结构参数。反向传播优化的步数为M步,用于控制子空间中参 数的收敛程度,根据子空间的大小选取M的大小,当M越大时,子空间的收 敛程度越好,但是容易过拟合令搜索陷入局部最优解。当M较小时,子空间 收敛不好,对其重要程度的评估就会不准确。
本发明还提出了一种动态可微分空间和架构搜索的系统,包括:
模块1、用于集合多个待搜索的神经网络架构得到搜索空间,将该搜索空 间中所有神经网络架构通过权重共享生成超网络,将该超网络的有向无环图以 矩阵表示,得到空间矩阵,该空间矩阵的行数表示图的边,列表示候选操作;
模块2、用于对该空间矩阵的每一个元素计算上置信界值,将所有元素的 上置信界值进行排序,通过选择最大的topK个,生成子空间矩阵,该子空间 矩阵对应着采样的子空间;
模块3、用于反向传播算法优化该子空间矩阵中候选操作的权重参数、空 间参数和结构参数,其中优化步数为M步,用于控制子空间中参数的收敛程 度。
模块4、用于根据该空间参数和该结构参数得到该子空间矩阵中每条边的 所有候选操作的重要程度,以构建重要程度矩阵,判断当前迭代次数是否达到 预定次数,若否则再次运行该模块2,直到当前迭代次数达到预定次数。其中, 迭代次数为采样次数。根据该重要程度矩阵,选择每条边重要程度最大的候选 操作,构成最终的神经网络架构。
所述的动态可微分空间和架构搜索的系统,包括该超网络包括神经网络的 层数、通道数、步长、拓扑结构和节点间候选操作信息。
所述的动态可微分空间和架构搜索的系统,包括空间矩阵中元素的值为1 或0,用于表示边的操作是否是搜索空间的候选操作。
所述的动态可微分空间和架构搜索的系统,包括该模块4中每条边的所有 候选操作的重要程度为:
如果子空间矩阵对应位置的值为1则第i次迭代的重要程度=空间概率* 结构条件概率+第i-1次迭代的重要程度,否则第i次迭代的重要程度=第i-1 次迭代的重要程度,其中空间概率为该空间参数,结构条件概率为该结构参数;
该模块2中计算上置信界值具体过程为:
对该空间矩阵的每一个元素计算上置信界值,UCB=空间概率 +c*sqrt(lnT/t),其中UCB为该上置信界值,该空间概率在第一次迭代时来自 初始值,之后来自模块3的空间参数,c为置信系数,T为子空间总共采样次 数,t为该操作的子空间矩阵值为1的次数;
该模块3优化过程具体为:
该子空间矩阵中候选操作集合为O,o表示具体操作,
Figure BDA0002777885320000041
表示混合操作,ω, ζ,α为权重、空间、结构参数,k用来表示第k种操作,则在两个节点间混 合操作的计算为
Figure BDA0002777885320000042
其中,pk,qk分别表示第k种操作的 空间概率和在此空间下的条件结构概率,pk=sigmoid(ζk),
Figure BDA0002777885320000043
Figure BDA0002777885320000044
Zk为节点间第k种操作的子空间矩阵值,通过反向传播更新得 到权重、空间、结构参数,I为指示函数,括号内条件成立值为1,否则为0。
由以上方案可知,本发明的优点在于:本发明将空间采样与可微分搜索结 合,仅对采样空间进行可微分搜索,同时于搜索过程中更新搜索空间的概率分 布,用以指导下一次的采样。多次迭代后算法收敛,继而根据相应参数确定最 终的搜索结构。这样既可以通过仅优化子空间来加速搜索,又能够以采样的方 式使搜索在多个子空间下进行,跳出可微分优化导致的局部最优解,找到更好 的网络结构。
附图说明
图1是本发明实施例的一种动态可微分的空间和架构搜索方法的流程图;
图2是本发明实施例的一种生成的超网络的示意图;
图3是本发明实施例的一种子空间采样的示意图;
图4是本发明实施例的一种网络架构选择的示意图;
图5是本发明实施例的一种动态可微分空间和架构搜索的示意图。
具体实施方式
采样空间是整个搜索空间的子空间。从集合的角度来说,采样空间是整个 搜索的间的一个子集,二者属于包含关系。采样空间可以是整个搜索空间的任 意子集,空集除外。对于某次采样,除了采样空间外,其他的空间仅是这次没 有采样而已,之后仍然可能采到。所以并不存在采样空间外的空间。
第一方面,本发明提供了一种动态可微分的空间和架构搜索方法包含以下 步骤:
步骤1.确定搜索空间并生成权重共享的超网络。
确定搜索空间即确定待搜索的神经网络架构集合,例如设计一个10层的 网络,每层可供选择2种卷积核,如3*3和5*5,那么总共有2^10=1024种网 络结构。具体来说,超网络包括神经网络的层数、通道数、步长、拓扑结构、 节点间候选操作等信息。然后,将该集合的所有结构通过权重共享策略生成超 网络,即一个有向无环图。该图可以用矩阵表示,称之为空间矩阵。空间矩阵 的行数表示图的边,列表示候选操作。空间矩阵的值为1或0,1表示该边的 该操作是搜索空间的候选操作,0则不是。矩阵初始化值为1,表示全空间矩 阵。
步骤2.从搜索空间采样子空间,即从超网络对应的有向无环图中采样子 图。
在采样前,需要对搜索空间进行评估,以平衡对空间的探索和利用。评估 基于UCB(上置信界Upper Confidence Bound)原理,即对矩阵的每一个元素 计算UCB值。对于每种候选操作,UCB=空间概率+c*sqrt(lnT/t)。其中,空 间概率第一步来自初始值,之后来自第4步的空间概率值,c为置信系数例如 1.44,T为子空间总共采样次数,t为该操作的子空间矩阵值为1的次数,每 次采样都会生成一个空间矩阵,矩阵中有K个值为1,其他值为0,此时值为 1的位置计数一次。若干次采样后一个位置总共的计数次数就是该位置矩阵值 为1的次数。这里的一个位置对应着一个操作。然后,将所有元素的UCB值 进行排序,选择最大的topK个。由此生成一个由1和0构成的空间矩阵,1 的个数有K个,对应着前面K个数的位置。该空间矩阵为子空间矩阵,对应 着采样的子空间。
步骤3.对子空间进行可微分搜索。
根据2的子空间矩阵,本发明仅优化超网络中子空间矩阵中值为1的候选 操作。优化使用反向传播算法。优化的参数包括三类,即权重参数、空间参数 和结构参数,分别表示候选操作的权重参数(如卷积核的参数),空间概率分 布的参数,在给定空间下的结构条件概率分布的参数。空间参数和结构参数形 式上也可以构成矩阵,它们尺寸同空间矩阵。权重参数用于使超网络收敛,同 时它会影响空间参数和结构参数。
步骤4.评估候选操作重要程度和搜索空间的UCB值。
重要程度是一个变量,用来确定最后的网络架构。这也是一个矩阵,称之 为重要程度矩阵。其尺寸与空间矩阵相同,矩阵的每个值为非负的实数。矩阵 元素值计算方式是:如果子空间矩阵对应位置的值为1,则第i次迭代的重要 程度=空间概率*结构条件概率+第i-1次迭代的重要程度,否则,第i次迭代 的重要程度=第i-1次迭代的重要程度。其中空间和结构条件概率分别通过步 骤3的空间参数和结构参数进行计算。另外,UCB值是一种平衡探索和利用 的参数,用来指导下一次的空间采样,其计算公式见步骤2。
第二方面,本发明提供了一种动态可微分空间和架构搜索方法与装置,其 特征包含以下模块:
A、超网络生成模块,用于对确定的搜索空间构建权重共享的超网络。超 网络为一个有向无环图,可以用空间矩阵表示。空间矩阵行为边,列为候选操 作。其值为0或1,1表示该边的该操作是搜索空间的候选操作,0则不是。 矩阵初始值全为1,表示全空间。
B、子空间采样模块,用于对搜索空间进行探索和利用,并从中提取中收 益最大,即UCB值最大的子空间,以进行搜索。
C、可微分优化模块,用于梯度更新权重参数、空间参数和结构参数。
D、重要程度评估模块,用于计算更新每种候选操作的重要程度。
E、网络架构选择模块,根据重要程度以确定最后的网络架构。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并 配合说明书附图作详细说明如下。
实施例1
图1是本发明提供的一种动态可微分的空间和架构搜索方法,其步骤为:
S11:确定搜索空间并生成权重共享的超网络,对超网络的有向无环图构 建矩阵。
在该步骤的实施方式中:如图2所示,超网络由n层单元(cell)堆叠而 成,单元共有两类,分别是一般单元(normalcell)和降采样单元(reduction cell), 其中降采样单元位于网络的
Figure BDA0002777885320000061
Figure BDA0002777885320000062
层,一般单元位于其他层。单元 内部为有向无环图,含v个节点和e条边,每条边由m种候选操作,如zero 操作,卷积操作、池化操作等。由此,通过确定单元的拓扑结构和候选操作的 类型,搜索空间也便能确定下来。单元包括所有的搜索结构,它们通过权重共 享的方式构成整个完整的单元。同时,本方法通过矩阵的形式对整个搜索空间 进行表示,称之为空间矩阵。空间矩阵的行数表示边,列表示候选操作。矩阵 的值为1或0,1表示该边的该操作是搜索空间的候选操作,0则不是。矩阵 初始值全为1,表示全空间。图2中,单元由4个节点构成,其边数是6,候 选操作是3,矩阵的尺寸为6*3。注意,由于超网络是由两种单元堆叠构成, 因此没有必要对超网络构建矩阵,只需要对两种单元分别构建即可。
S12:从搜索空间采样子空间,即从超网络对应的有向无环图中采样子图, 采样的基于UCB进行topK选取。
在该步骤的实施方式中:如图3所示,采样前需要对搜索空间进行评估, 以平衡对空间的探索和利用,评估基于UCB(Upper Confidence Bound)进行 计算,即对矩阵的每一个元素计算UCB值。其中,UCB值第一步来自初始值, 之后来自S14的结果。然后,将所有元素的UCB值进行排序,选择最大的topK 个,接着生成一个由1和0构成空间矩阵,1的个数有K个,对应着前面K 个数的位置。这里空间矩阵称为子空间矩阵,表示一个子图,对应着一个子空 间。注意,图3中K=12,UCB数值仅用于理解,而非方法必然产生的值。
S13:对子空间进行可微分搜索,对权重参数、空间参数、结构参数进行 可微分优化。
在该步骤的实施方式中:根据S12的空间矩阵,本发明仅优化超网络中空 间矩阵值为1的候选操作。优化使用反向传播算法,优化的参数包括三类,即 权重参数、空间参数和结构参数,分别表示候选操作的权重参数(如卷积核的 参数),空间概率分布的参数,在给定空间下的结构条件概率分布的参数。为 了更为精准的描述,这里假定候选操作集合为O,o表示具体操作,即为O的 元素,
Figure BDA0002777885320000073
表示混合操作。ω,ζ,α为权重、空间、结构参数,k用来表示第k 种操作,则在两个节点间混合操作的计算为
Figure BDA0002777885320000071
其中,x表示特征图,pk,qk分别表示第k种操作的空间概率和在此空间下的条件结构 概率,它们的计算方式为pk=sigmoid(ζk),
Figure BDA0002777885320000072
Zk为节点间第k种操作的子空间矩阵值,k’为索引下标,n为操作数量。由 此,网络前向传播便可确定,然后根据反向传播算法更新三种参数即可。
S14:评估候选操作重要程度和搜索空间的UCB值,重要程度根据S13中 优化的空间参数和结构参数进行计算,UCB值则根据空间参数进行计算。
在该步骤的实施方式中:重要程度是一个变量,用来确定最后的网络架构, 其尺寸同空间矩阵,矩阵的每个值为非负的实数。矩阵元素值计算方式是:如 果子空间矩阵对应位置的值为1,则第i次迭代的重要程度=空间概率*结构条 件概率+第i-1次迭代的重要程度,否则,第i次迭代的重要程度=第i-1次迭 代的重要程度。其中空间和结构条件概率分别通过空间参数和结构参数进行计 算,详见S13。同时,对于每种候选操作,计算UCB值,UCB值=空间概率 +c*sqrt(lnT/t),其中,c为置信系数,T为子空间总共采样次数,t为该操作的子空间矩阵值为1的次数。
S15:判断算法是否达到指定迭代次数,否,跳转到S12,是,跳转到S16。
S16:根据候选操作的重要程度选择最后的网络架构,选择每条边重要程 度最大的操作。
在该步骤的实施方式中:选择策略是每条边选择重要程度最大的候选操作, 由此这些被选择的操作构成最终的网络架构,该步骤的实施方式如图4所示, 注意,重要程度矩阵的数值仅用于理解,而非方法必然产生的值
实施例2
本发明实施例还提供一种动态可微分空间和架构搜索的装置,该装置包括: 超网络生成模块21、子空间采样模块22、可微分优化模块23、评估模块24、 网络架构选择模块25。
其中超网络生成模块21,将所有待搜索的网络结构以权重共享方式集合 成一个超网络;子空间采样模块22,根据UCB值topK选择子空间;可微分优 化模块23,对生成的子网络中的权重参数、结构参数、空间参数进行可微分 优化;评估模块24用于评估候选操作重要程度和UCB值,前者用于网络架构 选择,后者用于指导下一次的子空间采样;网络架构选择模块25,根据重要 程度选择最终的网络结构。
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方 式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有 效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细 节也可应用在上述实施方式中。
本发明还提出了一种动态可微分空间和架构搜索的系统,包括:
模块1、用于集合多个待搜索的神经网络架构得到搜索空间,将该搜索空 间中所有神经网络架构通过权重共享生成超网络,将该超网络的有向无环图以 矩阵表示,得到空间矩阵,该空间矩阵的行数表示图的边,列表示候选操作;
模块2、用于对该空间矩阵的每一个元素计算上置信界值,将所有元素的 上置信界值进行排序,通过选择最大的topK个,生成子空间矩阵,该子空间 矩阵对应着采样的子空间;
模块3、用于反向传播算法优化该子空间矩阵中候选操作的权重参数、空 间参数和结构参数;
模块4、用于根据该空间参数和该结构参数得到该子空间矩阵中每条边的 所有候选操作的重要程度,以构建重要程度矩阵,判断当前迭代次数是否达到 预定次数,若否则再次运行该模块2,直到当前迭代次数达到预定次数,根据 该重要程度矩阵,选择每条边重要程度最大的候选操作,构成最终的神经网络 架构。
所述的动态可微分空间和架构搜索的系统,包括该超网络包括神经网络的 层数、通道数、步长、拓扑结构和节点间候选操作信息。
所述的动态可微分空间和架构搜索的系统,包括空间矩阵中元素的值为1 或0,用于表示边的操作是否是搜索空间的候选操作。
所述的动态可微分空间和架构搜索的系统,包括该模块4中每条边的所有 候选操作的重要程度为:
如果子空间矩阵对应位置的值为1则第i次迭代的重要程度=空间概率* 结构条件概率+第i-1次迭代的重要程度,否则第i次迭代的重要程度=第i-1 次迭代的重要程度,其中空间概率为该空间参数,结构条件概率为该结构参数;
该模块2中计算上置信界值具体过程为:
对该空间矩阵的每一个元素计算上置信界值,UCB=空间概率 +c*sqrt(lnT/t),其中UCB为该上置信界值,该空间概率在第一次迭代时来自 初始值,之后来自模块3的空间参数,c为置信系数,T为子空间总共采样次 数,t为该操作的子空间矩阵值为1的次数;
该模块3优化过程具体为:
该子空间矩阵中候选操作集合为O,o表示具体操作,
Figure BDA0002777885320000101
表示混合操作,ω, ζ,α为权重、空间、结构参数,k用来表示第k种操作,则在两个节点间混 合操作的计算为
Figure BDA0002777885320000102
其中,pk,qk分别表示第k种操作的 空间概率和在此空间下的条件结构概率,pk=sigmoid(ζk),
Figure BDA0002777885320000103
Figure BDA0002777885320000104
Zk为节点间第k种操作的子空间矩阵值,通过反向传播更新得 到权重、空间、结构参数。

Claims (2)

1.一种动态可微分空间和架构搜索的方法,其特征在于,包括:
步骤1、通过集合多个待搜索的图像分类神经网络架构得到搜索空间,将该搜索空间中所有图像分类神经网络架构通过权重共享生成超网络,将该超网络的有向无环图以矩阵表示,得到空间矩阵,该空间矩阵的行数表示图的边,列表示候选操作;
步骤2、对该空间矩阵的每一个元素计算上置信界值,将所有元素的上置信界值进行排序,通过选择最大的topK个,生成子空间矩阵,该子空间矩阵对应着采样的子空间;
步骤3、使用反向传播算法优化该子空间矩阵中候选操作的权重参数、空间参数和结构参数;
步骤4、根据该空间参数和该结构参数得到该子空间矩阵中每条边的所有候选操作的重要程度,以构建重要程度矩阵,判断当前迭代次数是否达到预定次数,若否则再次执行该步骤2,直到当前迭代次数达到预定次数,根据该重要程度矩阵,选择每条边重要程度最大的候选操作,构成最终的图像分类神经网络架构,以该最终的图像分类神经网络架构执行图像分类任务;
该超网络包括神经网络的层数、通道数、步长、拓扑结构和节点间候选操作信息,且步骤3中反向传播算法优化的迭代次数为M,用于控制子空间中参数的收敛程度;空间矩阵中元素的值为1或0,用于表示边的操作是否是搜索空间的候选操作;
该步骤4中每条边的所有候选操作的重要程度为:
如果子空间矩阵对应位置的值为1则第i次迭代的重要程度=空间概率*结构条件概率+第i-1次迭代的重要程度,否则第i次迭代的重要程度=第i-1次迭代的重要程度,其中空间概率为该空间参数,结构条件概率为该结构参数;
该步骤2中计算上置信界值具体过程为:
对该空间矩阵的每一个元素计算上置信界值,UCB=空间概率+c*sqrt(lnT/t),其中UCB为该上置信界值,该空间概率在第一次迭代时来自初始值,之后来自步骤3的空间参数,c为置信系数,T为子空间总共采样次数,t为该操作的子空间矩阵值为1的次数;
该步骤3优化过程具体为:
该子空间矩阵中候选操作集合为O,o表示具体操作,
Figure QLYQS_1
表示混合操作,ω,ζ,α为权重、空间、结构参数,k用来表示第k种操作,则在两个节点间混合操作的计算为
Figure QLYQS_2
其中,pk,qk分别表示第k种操作的空间概率和在此空间下的条件结构概率,pk=sigmoid(ζk),
Figure QLYQS_3
Figure QLYQS_4
Zk为节点间第k种操作的子空间矩阵值,通过反向传播更新得到权重、空间、结构参数。
2.一种动态可微分空间和架构搜索的系统,其特征在于,包括:
模块1、用于集合多个待搜索的图像分类神经网络架构得到搜索空间,将该搜索空间中所有图像分类神经网络架构通过权重共享生成超网络,将该超网络的有向无环图以矩阵表示,得到空间矩阵,该空间矩阵的行数表示图的边,列表示候选操作;
模块2、用于对该空间矩阵的每一个元素计算上置信界值,将所有元素的上置信界值进行排序,通过选择最大的topK个,生成子空间矩阵,该子空间矩阵对应着采样的子空间;
模块3、用于反向传播算法优化该子空间矩阵中候选操作的权重参数、空间参数和结构参数;
模块4、用于根据该空间参数和该结构参数得到该子空间矩阵中每条边的所有候选操作的重要程度,以构建重要程度矩阵,判断当前迭代次数是否达到预定次数,若否则再次运行该模块2,直到当前迭代次数达到预定次数,根据该重要程度矩阵,选择每条边重要程度最大的候选操作,构成最终的图像分类神经网络架构;
该超网络包括神经网络的层数、通道数、步长、拓扑结构和节点间候选操作信息,且模块3中反向传播算法优化的迭代次数为M,用于控制子空间中参数的收敛程度;空间矩阵中元素的值为1或0,用于表示边的操作是否是搜索空间的候选操作;
该模块4中每条边的所有候选操作的重要程度为:
如果子空间矩阵对应位置的值为1则第i次迭代的重要程度=空间概率*结构条件概率+第i-1次迭代的重要程度,否则第i次迭代的重要程度=第i-1次迭代的重要程度,其中空间概率为该空间参数,结构条件概率为该结构参数;
该模块2中计算上置信界值具体过程为:
对该空间矩阵的每一个元素计算上置信界值,UCB=空间概率+c*sqrt(lnT/t),其中UCB为该上置信界值,该空间概率在第一次迭代时来自初始值,之后来自模块3的空间参数,c为置信系数,T为子空间总共采样次数,t为该操作的子空间矩阵值为1的次数;
该模块3优化过程具体为:
该子空间矩阵中候选操作集合为O,o表示具体操作,
Figure QLYQS_5
表示混合操作,ω,ζ,α为权重、空间、结构参数,k用来表示第k种操作,则在两个节点间混合操作的计算为
Figure QLYQS_6
其中,pk,qk分别表示第k种操作的空间概率和在此空间下的条件结构概率,pk=sigmoid(ζk),
Figure QLYQS_7
Figure QLYQS_8
Zk为节点间第k种操作的子空间矩阵值,通过反向传播更新得到权重、空间、结构参数。
CN202011271696.3A 2020-11-13 2020-11-13 一种动态可微分的空间架构搜索方法与系统 Active CN112801264B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011271696.3A CN112801264B (zh) 2020-11-13 2020-11-13 一种动态可微分的空间架构搜索方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011271696.3A CN112801264B (zh) 2020-11-13 2020-11-13 一种动态可微分的空间架构搜索方法与系统

Publications (2)

Publication Number Publication Date
CN112801264A CN112801264A (zh) 2021-05-14
CN112801264B true CN112801264B (zh) 2023-06-13

Family

ID=75806168

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011271696.3A Active CN112801264B (zh) 2020-11-13 2020-11-13 一种动态可微分的空间架构搜索方法与系统

Country Status (1)

Country Link
CN (1) CN112801264B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851566A (zh) * 2019-11-04 2020-02-28 沈阳雅译网络技术有限公司 一种改进的可微分网络结构搜索的方法
WO2020046719A1 (en) * 2018-08-31 2020-03-05 D5Ai Llc Self-supervised back propagation for deep learning
CN111767983A (zh) * 2020-05-29 2020-10-13 中国科学院大学 基于熵损失函数的离散化可微分神经网络搜索方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889487A (zh) * 2018-09-10 2020-03-17 富士通株式会社 神经网络架构搜索装置和方法及计算机可读记录介质
EP3629246B1 (en) * 2018-09-27 2022-05-18 Swisscom AG Systems and methods for neural architecture search

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020046719A1 (en) * 2018-08-31 2020-03-05 D5Ai Llc Self-supervised back propagation for deep learning
CN110851566A (zh) * 2019-11-04 2020-02-28 沈阳雅译网络技术有限公司 一种改进的可微分网络结构搜索的方法
CN111767983A (zh) * 2020-05-29 2020-10-13 中国科学院大学 基于熵损失函数的离散化可微分神经网络搜索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
自动化所智能感知与计算研究中心团队提出多自由度网络架构协同搜索新方法.高科技与产业化.2020,(第08期),全文. *

Also Published As

Publication number Publication date
CN112801264A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
WO2022027937A1 (zh) 一种神经网络压缩方法、装置、设备及存储介质
CN112465120A (zh) 一种基于进化方法的快速注意力神经网络架构搜索方法
CN115546492B (zh) 一种图像实例分割方法、系统、设备以及存储介质
CN112381208B (zh) 一种基于神经网络架构搜索的图片分类方法与系统
Chen et al. You only search once: A fast automation framework for single-stage dnn/accelerator co-design
CN111275186A (zh) 一种基于分组分层机制的可微结构搜索方法
CN115437795B (zh) 一种异构gpu集群负载感知的显存重计算优化方法及系统
CN113344174A (zh) 基于概率分布的高效神经网络结构搜索方法
CN111767983A (zh) 基于熵损失函数的离散化可微分神经网络搜索方法
CN104484548A (zh) 一种改进的序贯故障诊断策略优化方法
WO2020248440A1 (zh) 一种机器学习方法与装置
CN115310355A (zh) 考虑多能耦合的综合能源系统多元负荷预测方法及系统
CN113780542B (zh) 一种面向fpga的多目标网络结构的构建方法
CN112801264B (zh) 一种动态可微分的空间架构搜索方法与系统
CN115953902B (zh) 一种基于多视图时空图卷积网络的交通流预测方法
CN112200208B (zh) 基于多维度特征融合的云工作流任务执行时间预测方法
CN113780146B (zh) 基于轻量化神经架构搜索的高光谱图像分类方法及系统
CN112270058A (zh) 一种基于回声状态网络的光网络多信道传输质量预测方法
CN113610350B (zh) 复杂工况故障诊断方法、设备、存储介质及装置
CN114742199A (zh) 一种基于注意力机制的神经网络宏架构搜索方法及系统
Wan et al. RSSM-Net: Remote sensing image scene classification based on multi-objective neural architecture search
CN115620807B (zh) 靶点蛋白分子与药物分子之间相互作用强度的预测方法
CN117058000B (zh) 用于图像超分辨率的神经网络架构搜索方法及装置
CN118196600B (zh) 基于差分进化算法的神经架构搜索方法和系统
CN113076962B (zh) 一种基于可微神经网络搜索技术的多尺度目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant