CN114707636A - 神经网络架构搜索方法、装置、电子设备及存储介质 - Google Patents

神经网络架构搜索方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114707636A
CN114707636A CN202210272479.9A CN202210272479A CN114707636A CN 114707636 A CN114707636 A CN 114707636A CN 202210272479 A CN202210272479 A CN 202210272479A CN 114707636 A CN114707636 A CN 114707636A
Authority
CN
China
Prior art keywords
unit
architecture
neural network
entropy
edges
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210272479.9A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Mingyan Technology Co ltd
Original Assignee
Beijing Zhongke Mingyan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Mingyan Technology Co ltd filed Critical Beijing Zhongke Mingyan Technology Co ltd
Priority to CN202210272479.9A priority Critical patent/CN114707636A/zh
Publication of CN114707636A publication Critical patent/CN114707636A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本申请提供了一种神经网络架构搜索方法、装置、电子设备及存储介质,涉及神经网络架构搜索技术领域。该方法包括构建超网络,超网络包括多个单元,每个单元均为包含多个节点的有向无环图;构建各单元的架构熵正则项,架构熵为单元中所有边的架构权重的信息熵平均值,边的架构权重为边上所有候选操作的操作强度的集合;基于各单元的架构熵正则项,建立各单元中的架构参数的损失函数;通过梯度下降算法优化各单元中的架构参数;基于各单元中优化后的架构参数以及超网络的各单元中每条边上的候选操作,构建神经网络架构。本申请提供的方法、装置、电子设备及存储介质可避免由于搜索初期的马太效应和搜索后期的离散差异导致神经网络性能下降。

Description

神经网络架构搜索方法、装置、电子设备及存储介质
技术领域
本申请涉及神经网络架构搜索技术领域,尤其涉及一种神经网络架构搜索方法、装置、电子设备及存储介质。
背景技术
神经架构搜索(Neural architecture search,NAS)作为一种重要的自动设计神经架构的方法,在深度学习领域迈出了重要的一步。早期的NAS算法通过强化学习和进化算法直接在离散的架构空间中搜索。这些算法需要大量的计算资源,因为独立地从头开始训练每一个候选架构是一个计算资源密集型任务。为降低搜索成本,在此基础上,可微分架构搜索(Differentiable Architecture Search,DARTS)进一步构建了架构的连续混合超网,将神经架构搜索问题松弛为学习可微的体系结构参数。
DARTS算法虽然具有较高的计算效率,但由于其稳定性和泛化性较差而受到诟病,大量研究人员发现并总结了两个导致DARTS稳定性和泛化性差的问题:(1)马太效应;(2)离散差异。同时,提出并证明了许多改进是有效的,包括逐步剪枝、搜索前预训练、候选操作分组、提前停止、限制跳过连接的数量等。然而,由于这两个问题解决的方案是不一致的,即架构参数公平训练(马太效应的解决方案)和高度自信选择(离散差异的解决方案)两者是相矛盾的,前者要求架构参数熵(即复杂程度)尽可能大,后者要求架构参数熵尽可能小,因此现有技术中的改进方案只能够间接弥补,而并不能有效改善由于搜索初期马太效应导致对网络参数的不公平学习和搜索后期离散差异导致离散化,进而导致神经网络性能下降。
因此,如何提供一种有效的方案,以避免由于搜索初期的马太效应和搜索后期的离散差异导致神经网络性能下降,已成为现有技术中一亟待解决的难题。
发明内容
第一方面,本申请实施例提供了一种神经网络架构搜索方法,包括:
构建用于神经网络架构搜索的超网络,所述超网络包括多个单元,所述多个单元中的每个单元均为包含多个节点的有向无环图;
构建各单元的架构熵正则项,所述架构熵为单元中所有边的架构权重的信息熵平均值,边的架构权重为边上所有候选操作的操作强度的集合;
基于各单元的架构熵正则项,建立各单元中的架构参数的损失函数;
通过梯度下降算法优化各单元中的架构参数;
基于各单元中优化后的架构参数以及所述超网络的各单元中每条边上的候选操作,构建神经网络架构。
在一个可能的设计中,所述多个单元包括第一单元和第二单元,所述第一单元的输出尺寸为所述第二单元的输出尺寸的一半,所述第一单元输出的通道数为所述第二单元输出的通道数的两倍。
在一个可能的设计中,任一单元的架构熵正则项为
Figure BDA0003554189420000021
其中H(α(i,j))表示所述任一单元中边(i,j)上的架构参数的信息熵,N表示所述任一单元中所有边的数量。
在一个可能的设计中,任一单元中的架构参数的损失函数为
Figure BDA0003554189420000022
其中ω*(α)=argminωLtrain(ω,α),λ表示正则项系数,α表示所述任一单元中所有边架构参数的集合,ω表示超网络中的神经网络参数,ω*(α)表示在α不变的情况下最优的ω,Lval()和Ltrain()均表示损失函数。
在一个可能的设计中,梯度下降算法的梯度为
Figure BDA0003554189420000023
其中ξ为0或1,
Figure BDA0003554189420000024
表示求梯度的算子。
在一个可能的设计中,所述候选操作包括深度可分离卷积操作、扩展可分离卷积操作、最大池化操作、平均池化操作以及恒等运算操作中的至少一种。
第二方面,本申请实施例提供了一种神经网络架构搜索装置,包括:
第一建立模块,用于构建用于神经网络架构搜索的超网络,所述超网络包括多个单元,所述多个单元中的每个单元均为包含多个节点的有向无环图;
第二建立模块,用于构建各单元的架构熵正则项,所述架构熵为单元中所有边的架构权重的信息熵平均值,边的架构权重为边上所有候选操作的操作强度的集合;
第三建立模块,用于基于各单元的架构熵正则项,建立各单元中的架构参数的损失函数;
优化模块,用于通过梯度下降算法优化各单元中的架构参数;
第四建立模块,用于基于各单元中优化后的架构参数以及所述超网络的各单元中每条边上的候选操作,构建神经网络架构。
在一个可能的设计中,所述多个单元包括第一单元和第二单元,所述第一单元的输出尺寸为所述第二单元的输出尺寸的一半,所述第一单元输出的通道数为所述第二单元输出的通道数的两倍。
第三方面,本申请实施例提供了一种电子设备,包括依次通信相连的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如上述任意一项所述的神经网络架构搜索方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行如上述任意一项所述的神经网络架构搜索方法。
本申请一个或多个实施例采用的上述至少一个技术方案能够达到以下有益效果:
通过构建用于神经网络架构搜索的超网络,构建超网络中各单元的架构熵正则项,基于各单元的架构熵正则项建立各单元中的架构参数的损失函数,并通过梯度下降算法优化各单元中的架构参数,然后基于各单元中优化后的架构参数以及超网络的各单元中每条边上的候选操作,构建神经网络架构。在此过程中由于引入架构熵正则项,基于构熵正则项建立各单元中的架构参数的损失函数,并通过梯度下降算法优化各单元中的架构参数,在神经网络搜索过程中可通过正则项系数的不同设置实现不同的效果,即当正则项系数小于零时,可按照架构熵增大方向学习架构参数,由于候选操作的架构参数是均匀随机初始化的,因此很难增加,通常保持不变或缓慢下降,此时所有的候选操作都被公平对待,可有效缓解搜索前期的马太效应,当正则项系数大于零时,可按照架构熵减小的方向学习架构参数,这加快了候选操作的主导表达,提高了搜索效率,在搜索结束时,每条边的架构权重(操作强度)将更接近one-hot向量,从而使得离散差异较小,如此通过在不同搜索期间调整正则项系数即可防止在搜索初期出现过强的优势表达,同时促进搜索后期的优势表达,从而避免由于搜索初期的马太效应和搜索后期的离散差异导致神经网络性能下降,可以很容易地适应于不同的可微分NAS算法,而不需要额外的时间和内存成本,搜索的神经网络架构具有更高的准确性和更好的鲁棒性。
附图说明
此处所说明的附图用来提供对本文件的进一步理解,构成本文件的一部分,本文件的示意性实施例及其说明用于解释本文件,并不构成对本文件的不当限定。在附图中:
图1为本申请一个实施例提供的神经网络架构搜索方法的流程图。
图2为本申请一个实施例提供的神经网络架构搜索装置的结构示意图。
图3为本申请一个实施例提供的电子设备的结构示意图。
具体实施方式
为了避免由于搜索初期的马太效应和搜索后期的离散差异导致神经网络性能下降,本申请实施例提供了一种神经网络架构搜索方法、装置、电子设备及存储介质,该神经网络架构搜索方法、装置、电子设备及存储介质可避免由于搜索初期的马太效应和搜索后期的离散差异导致神经网络性能下降。
本申请实施例提供的神经网络架构搜索方法可应用于用户终端或服务器,所述用户终端可以是,但不限于个人电脑、智能手机、平板电脑、个人数字助理(personal digitalassistant,PDA)等。可以理解,所述执行主体并不构成对本申请实施例的限定。
下面将对本申请实施例提供的神经网络架构搜索方法进行详细说明。
如图1所示,本申请实施例第一方面提供了一种神经网络架构搜索方法,该神经网络架构搜索方法可以包括如下步骤:
步骤S101,构建用于神经网络架构搜索的超网络。
其中,所述超网络包括多个单元,所述多个单元中的每个单元均为包含多个节点的有向无环图,单元中每个节点代表隐藏层表示向量,每条边表示一组候选操作。所述候选操作可以包括深度可分离卷积操作、扩展可分离卷积操作、最大池化操作、平均池化操作以及恒等运算操作中的至少一种。所述深度可分离卷积操作可以是3*3深度可分离卷积操作和/或5*5深度可分离卷积操作,所述扩展可分离卷积操作可以是3*3扩展可分离卷积操作和/或5*5扩展可分离卷积操作。
本申请实施例中,在构建用于神经网络架构搜索的超网络时,可遵循DARTS框架采用两种单元进行堆叠,即多个单元中包括第一单元和第二单元,第一单元和第二单元均可以为一个或多个。其中,第一单元的输出尺寸为第二单元的输出尺寸的一半,第一单元输出的通道数为第二单元输出的通道数的两倍。
神经架构搜索本质上是在找一些操作或连接的排列组合,这个搜索空间是离散的,可以称之为离散搜索空间。因此本申请实施例中,可将离散搜索空间松弛为连续的所有候选操作的加权和的形式,即离散搜索空间可以表示为
Figure BDA0003554189420000051
其中x(i)表示单元中第i个节点,o(i,j)表示边(i,j)所对应的一组候选操作,O表示候选操作空间(一单元中所有边的操作的集合),
Figure BDA0003554189420000061
表示示边(i,j)上操作o的强度。
步骤S102,构建各单元的架构熵正则项。
其中,所述架构熵为单元中所有边的架构权重的信息熵平均值,边的架构权重为边上所有候选操作的操作强度的集合。
通过观察DARTS的搜索过程,可以发现有两个问题会导致DARTS的性能不佳,即马太效应和离散差异。
马太效应:在搜索开始时,非参数化操作往往表现得更好,因为参数化操作没有学到任何知识,此外一些候选操作可以学习更快地表达所需的函数,这使得学习到更大的架构权重,获得更大的网络参数梯度,从而加速相关操作的参数更新,而过早的显性表达会导致不公平的训练,进一步强化显性表达,从而忽视这些弱势操作在开始阶段的表现,这是一个恶性循环,这种现象被概括为富人变得更富,也被称为马太效应。
离散差异:在DARTS的最后离散化阶段,总是存在较大的性能衰退,换句话说,架构混合的验证错误减少并不总是与最终体系结构的验证错误减少有关,在搜索的最后,体系结构权重会严重偏离我们预期的一个one-hot向量,导致了这种现象,称之为离散差异。
缓解马太效应,通过预计架构权重对于每个候选人的优势可以足够接近以便使用公平的梯度,更新他们的网络参数。但为了消除离散化的差异,则要求每个架构权重向量为一个one-hot向量,使某一候选操作的架构权重更为突出,即其操作表达占主导地位,这两个方面使DARTS陷入困境。
在信息论中,熵是不确定性的度量,随着熵的减小,随机事件变得更加明确。为解决上述问题,本申请实施例中,采用熵来衡量边上不同候选操作的架构参数的间距,并定义一个单元中所有边的架构权重的信息熵平均值作为该单元的架构熵,其中边的架构权重的信息熵为边上架构参数的复杂程度。
本申请实施例中,任一单元的架构熵正则项可以表示为
Figure BDA0003554189420000062
其中H(α(i,j))表示所述任一单元中边(i,j)上的架构参数的信息熵,N表示所述任一单元中所有边的数量。
步骤S103,基于各单元的架构熵正则项,建立各单元中的架构参数的损失函数。
任一单元中的架构参数的损失函数可表示为
Figure BDA0003554189420000071
其中ω*(α)=argminωLtrain(ω,α),λ表示正则项系数,α表示所述任一单元中所有边架构参数的集合,ω表示超网络中的神经网络参数,ω*(α)表示在α不变的情况下最优的ω,Lval()和Ltrain()均表示损失函数,其中Lval()表示验证损失函数,Ltrain()表示训练损失函数。
步骤S104,通过梯度下降算法优化各单元中的架构参数。
梯度下降算法的梯度可表示为
Figure BDA0003554189420000072
其中ξ为0或1,
Figure BDA0003554189420000073
表示求梯度的算子。具体的,当对架构参数一阶近似优化时,ξ的值可以取0,当对架构参数二阶近似优化时,ξ的值可以取1。
步骤S105,基于各单元中优化后的架构参数以及超网络的各单元中每条边上的候选操作,构建神经网络架构。
即根据各单元中优化后的架构参数以及超网络的各单元中每条边上的候选操作,重新构建一个新的神经网络架构。
综上所述,本申请实施例提供的神经网络架构搜索方法通过构建用于神经网络架构搜索的超网络,构建超网络中各单元的架构熵正则项,基于各单元的架构熵正则项建立各单元中的架构参数的损失函数,并通过梯度下降算法优化各单元中的架构参数,然后基于各单元中优化后的架构参数以及超网络的各单元中每条边上的候选操作,构建神经网络架构。在此过程中由于引入架构熵正则项,基于构熵正则项建立各单元中的架构参数的损失函数,并通过梯度下降算法优化各单元中的架构参数,在神经网络搜索过程中可通过正则项系数的不同设置实现不同的效果,即在搜索前期正则项系数取小于零的值,此时可按照架构熵增大方向学习架构参数,由于候选操作的架构参数是均匀随机初始化的,因此很难增加,通常保持不变或缓慢下降,此时所有的候选操作都被公平对待,可有效缓解搜索前期的马太效应。在搜索后期正则项系数取大于零的值,此时可按照架构熵减小的方向学习架构参数,这加快了候选操作的主导表达,提高了搜索效率,在搜索结束时,每条边的架构权重将更接近one-hot向量,从而使得离散差异较小,如此通过在不同搜索期间调整正则项系数即可防止在搜索初期出现过强的优势表达,同时促进搜索后期的优势表达,从而避免由于搜索初期的马太效应和搜索后期的离散差异导致神经网络性能下降,可以很容易地适应于不同的可微分NAS算法,而不需要额外的时间和内存成本,搜索的神经网络架构具有更高的准确性和更好的鲁棒性。
第二方面,请参阅图2,本申请实施例提供了一种神经网络架构搜索装置,所述神经网络架构搜索装置包括:
第一建立模块,用于构建用于神经网络架构搜索的超网络,所述超网络包括多个单元,所述多个单元中的每个单元均为包含多个节点的有向无环图;
第二建立模块,用于构建各单元的架构熵正则项,所述架构熵为单元中所有边的架构权重的信息熵平均值,边的架构权重为边上所有候选操作的操作强度的集合;
第三建立模块,用于基于各单元的架构熵正则项,建立各单元中的架构参数的损失函数;
优化模块,用于通过梯度下降算法优化各单元中的架构参数;
第四建立模块,用于基于各单元中优化后的架构参数以及所述超网络的各单元中每条边上的候选操作,构建神经网络架构。
在一个可能的设计中,所述多个单元包括第一单元和第二单元,所述第一单元的输出尺寸为所述第二单元的输出尺寸的一半,所述第一单元输出的通道数为所述第二单元输出的通道数的两倍。
在一个可能的设计中,任一单元的架构熵正则项为
Figure BDA0003554189420000081
其中H(α(i,j))表示所述任一单元中边(i,j)上的架构参数的信息熵,N表示所述任一单元中所有边的数量。
在一个可能的设计中,任一单元中的架构参数的损失函数为
Figure BDA0003554189420000091
其中ω*(α)=argminωLtrain(ω,α),λ表示正则项系数,α表示所述任一单元中所有边架构参数的集合,ω表示超网络中的神经网络参数,ω*(α)表示在α不变的情况下最优的ω值,Lval()和Ltrain()均表示损失函数。
在一个可能的设计中,梯度下降算法的梯度为
Figure BDA0003554189420000092
其中ξ为0或1,
Figure BDA0003554189420000093
表示求梯度的算子。
在一个可能的设计中,所述候选操作包括深度可分离卷积操作、扩展可分离卷积操作、最大池化操作、平均池化操作以及恒等运算操作中的至少一种。
本实施例第二方面提供的装置的工作过程、工作细节和技术效果,可以参见实施例第一方面,于此不再赘述。
如图3所示,本申请实施例第三方面提供了一种电子设备,包括依次通信相连的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如实施例第一方面所述的神经网络架构搜索方法。
具体举例的,所述存储器可以但不限于包括随机存取存储器(RAM)、只读存储器(ROM)、闪存(Flash Memory)、先进先出存储器(FIFO)和/或先进后出存储器(FILO)等等;所述处理器可以不限于采用型号为STM32F105系列的微处理器、ARM(Advanced RISCMachines)、X86等架构处理器或集成NPU(neural-network processing units)的处理器;所述收发器可以但不限于为WiFi(无线保真)无线收发器、蓝牙无线收发器、通用分组无线服务技术(General Packet Radio Service,GPRS)无线收发器、紫蜂协议(基于IEEE802.15.4标准的低功耗局域网协议,ZigBee)无线收发器、3G收发器、4G收发器和/或5G收发器等。
本实施例第三方面提供的电子设备的工作过程、工作细节和技术效果,可以参见实施例第一方面,于此不再赘述。
本实施例第四方面提供了一种存储包含有实施例第一方面所述的神经网络架构搜索方法的指令的计算机可读存储介质,即所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行如第一方面所述的神经网络架构搜索方法。其中,所述计算机可读存储介质是指存储数据的载体,可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等,所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。
本实施例第四方面提供的计算机可读存储介质的工作过程、工作细节和技术效果,可以参见实施例第一方面,于此不再赘述。
本实施例第五方面提供了一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行如实施例第一方面所述的神经网络架构搜索方法,其中,所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。
以上所描述的多个实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台仓库代码的合并装置执行各个实施例或者实施例的某些部分所述的方法。
本发明不局限于上述可选实施方式,任何人在本发明的启示下都可得出其他各种形式的产品,但不论在其形状或结构上作任何变化,凡是落入本发明权利要求界定范围内的技术方案,均落在本发明的保护范围之内。

Claims (10)

1.一种神经网络架构搜索方法,其特征在于,包括:
构建用于神经网络架构搜索的超网络,所述超网络包括多个单元,所述多个单元中的每个单元均为包含多个节点的有向无环图;
构建各单元的架构熵正则项,所述架构熵为单元中所有边的架构权重的信息熵平均值,边的架构权重为边上所有候选操作的操作强度的集合;
基于各单元的架构熵正则项,建立各单元中的架构参数的损失函数;
通过梯度下降算法优化各单元中的架构参数;
基于各单元中优化后的架构参数以及所述超网络的各单元中每条边上的候选操作,构建神经网络架构。
2.根据权利要求1所述的方法,其特征在于,所述多个单元包括第一单元和第二单元,所述第一单元的输出尺寸为所述第二单元的输出尺寸的一半,所述第一单元输出的通道数为所述第二单元输出的通道数的两倍。
3.根据权利要求1所述的方法,其特征在于,任一单元的架构熵正则项为
Figure FDA0003554189410000011
其中H(α(i,j))表示所述任一单元中边(i,j)上的架构参数的信息熵,N表示所述任一单元中所有边的数量。
4.根据权利要求3所述的方法,其特征在于,任一单元中的架构参数的损失函数为
Figure FDA0003554189410000012
其中ω*(α)=argminωLtrain(ω,α),λ表示正则项系数,α表示所述任一单元中所有边架构参数的集合,ω表示超网络中的神经网络参数,ω*(α)表示在α不变的情况下最优的ω,Lval()和Ltrain()均表示损失函数。
5.根据权利要求4所述的方法,其特征在于,梯度下降算法的梯度为
Figure FDA0003554189410000013
其中ξ为0或1,
Figure FDA0003554189410000014
表示求梯度的算子。
6.根据权利要求1所述的方法,其特征在于,所述候选操作包括深度可分离卷积操作、扩展可分离卷积操作、最大池化操作、平均池化操作以及恒等运算操作中的至少一种。
7.一种神经网络架构搜索装置,其特征在于,包括:
第一建立模块,用于构建用于神经网络架构搜索的超网络,所述超网络包括多个单元,所述多个单元中的每个单元均为包含多个节点的有向无环图;
第二建立模块,用于构建各单元的架构熵正则项,所述架构熵为单元中所有边的架构权重的信息熵平均值,边的架构权重为边上所有候选操作的操作强度的集合;
第三建立模块,用于基于各单元的架构熵正则项,建立各单元中的架构参数的损失函数;
优化模块,用于通过梯度下降算法优化各单元中的架构参数;
第四建立模块,用于基于各单元中优化后的架构参数以及所述超网络的各单元中每条边上的候选操作,构建神经网络架构。
8.根据权利要求7所述的神经网络架构搜索装置,其特征在于,所述多个单元包括第一单元和第二单元,所述第一单元的输出尺寸为所述第二单元的输出尺寸的一半,所述第一单元输出的通道数为所述第二单元输出的通道数的两倍。
9.一种电子设备,其特征在于,包括依次通信相连的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如权利要求1~6任意一项所述的神经网络架构搜索方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行如权利要求1~6任意一项所述的神经网络架构搜索方法。
CN202210272479.9A 2022-03-18 2022-03-18 神经网络架构搜索方法、装置、电子设备及存储介质 Pending CN114707636A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210272479.9A CN114707636A (zh) 2022-03-18 2022-03-18 神经网络架构搜索方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210272479.9A CN114707636A (zh) 2022-03-18 2022-03-18 神经网络架构搜索方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114707636A true CN114707636A (zh) 2022-07-05

Family

ID=82169179

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210272479.9A Pending CN114707636A (zh) 2022-03-18 2022-03-18 神经网络架构搜索方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114707636A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117077726A (zh) * 2023-10-17 2023-11-17 之江实验室 一种生成存内计算神经网络模型的方法、装置及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117077726A (zh) * 2023-10-17 2023-11-17 之江实验室 一种生成存内计算神经网络模型的方法、装置及介质
CN117077726B (zh) * 2023-10-17 2024-01-09 之江实验室 一种生成存内计算神经网络模型的方法、装置及介质

Similar Documents

Publication Publication Date Title
CN112181666B (zh) 一种基于边缘智能的设备评估和联邦学习重要性聚合方法
CN111353582A (zh) 一种基于粒子群算法的分布式深度学习参数更新方法
CN111882040A (zh) 基于通道数量搜索的卷积神经网络压缩方法
CN113098714A (zh) 一种基于深度强化学习的低时延网络切片的方法
CN106570250A (zh) 面向电力大数据的微电网短期负荷预测方法
CN111695696A (zh) 一种基于联邦学习的模型训练的方法及装置
Yang et al. Deep reinforcement learning based wireless network optimization: A comparative study
CN114707636A (zh) 神经网络架构搜索方法、装置、电子设备及存储介质
CN110600020B (zh) 一种梯度传输方法及装置
CN111324630A (zh) 基于mpi的神经网络架构搜索并行化方法和设备
CN110009048B (zh) 一种神经网络模型的构建方法以及设备
CN115473841A (zh) 网络路径的确定方法、装置及存储介质
CN113094180B (zh) 无线联邦学习调度优化方法及装置
CN116962176B (zh) 一种分布式集群的数据处理方法、装置、系统及存储介质
CN116938323A (zh) 一种基于强化学习的卫星转发器资源分配方法
WO2023071766A1 (zh) 模型压缩方法、模型压缩系统、服务器及存储介质
CN114465900B (zh) 基于联邦边缘学习的数据共享时延优化方法及装置
CN115456149A (zh) 脉冲神经网络加速器学习方法、装置、终端及存储介质
CN113033653B (zh) 一种边-云协同的深度神经网络模型训练方法
CN114492787A (zh) 自适应的神经网络训练方法、电子设备、介质和程序产品
CN113673693A (zh) 深度神经网络压缩的方法
US11195094B2 (en) Neural network connection reduction
CN114817315B (zh) 数据处理方法以及系统
CN117874241B (zh) 基于dram-pim查表式神经网络推理与调优的文本分类方法及系统
WO2021195932A1 (zh) 一种神经网络的训练系统、方法及其相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220705

RJ01 Rejection of invention patent application after publication