CN117688985A - 一种基于模型压缩思想的nas架构搜索方法 - Google Patents
一种基于模型压缩思想的nas架构搜索方法 Download PDFInfo
- Publication number
- CN117688985A CN117688985A CN202211028380.0A CN202211028380A CN117688985A CN 117688985 A CN117688985 A CN 117688985A CN 202211028380 A CN202211028380 A CN 202211028380A CN 117688985 A CN117688985 A CN 117688985A
- Authority
- CN
- China
- Prior art keywords
- architecture
- convolution
- model
- parameters
- cell
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000006835 compression Effects 0.000 title claims abstract description 19
- 238000007906 compression Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 title claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000010276 construction Methods 0.000 claims abstract description 7
- 239000000470 constituent Substances 0.000 claims abstract description 4
- 230000035945 sensitivity Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 abstract description 2
- 238000000605 extraction Methods 0.000 abstract 1
- 238000011176 pooling Methods 0.000 abstract 1
- 230000000052 comparative effect Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000010845 search algorithm Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于模型压缩思想的NAS架构搜索方法,具体包括以下:(1)构建搜索空间,这里搜索空间设置8个算子,如下:1*1卷积,3*3卷积,5*5卷积,1*1的DW卷积,3*3的DW卷积,5*5的DW卷积,skip‑connect,None;(2)构建可微分的网络架构,和先前的构建方式相同,需要构建一个supernet;这里先构建两个supernet的组成元素,一个提取特征的cell和一个特征池化的下采样的cell。本发明相比其他技术,最显著的优点如下:将模型架构参数构建成一个超级网络的W,然后通过压缩思路进行压缩,在模型训练完全收敛后进行有限制的参数压缩,经过实验得到了较优的架构,而且在训练后期也不会出现比较明显的架构性能崩溃的现象。
Description
技术领域
本发明涉及AutoML和NAS架构搜索领域,特别涉及一种基于模型压缩思想的NAS架构搜索方法。
背景技术
随着GPU硬件的发展和机器学习,深度学习技术的发展,一些学者开始考虑如何通过算法来实现像人一样自动学习的技术,从最初的类脑科学逐步发展成为对人工智能的研究。AutoML作为其中的一个研究分支,其目标在于通过设定一些简单规则,使得机器可以自动的搜索出我们需要的目标。AutoML主要有两个重要应用,第一个参数搜索,第二个架构搜索,两者都是通过设定搜索空间和搜索策略来让机器进行自动化的得到空间中的较优架构和参数,该技术的发展,将会大大的减少人工调参和设计神经网络的成本,是目前最为火热和最有研究前景的技术方向之一。
NAS架构搜索作为其中的一个重要分支,也是目前各大顶会的热点研究方向,NAS的搜索算法多种多样,其中较为主流的包括强化学习,进化算法,基于梯度下降的算法。目前基于梯度下降的算法,由于其可以所有参数以梯度下降的方式一起优化以及参数共享,所以大大减少了搜索时间,并且基于此的算法只需要在一张GPU上就可完成搜索,对于资源的消耗相对于其他算法来说具有巨大优势。所以目前越来越多的搜索算法是基于梯度算法改进。目前基于梯度算法存在三个问题:第一搜索稳定性问题,第二随着搜索训练后期的性能奔溃问题,第三就是尽量压缩搜索时间。
发明内容
本发明要解决的技术问题是克服现有技术的缺陷,提供一种基于模型压缩思想的NAS架构搜索方法,主要解决基于梯度的NAS搜索算法的搜索稳定性和后期性能奔溃问题。
本发明提供了如下的技术方案:
本发明提供一种基于模型压缩思想的NAS架构搜索方法,具体包括以下:
(1)构建搜索空间,这里搜索空间设置8个算子,如下:
1*1卷积,3*3卷积,5*5卷积,1*1的DW卷积,3*3的DW卷积,5*5的DW卷积,skip-connect,None;
(2)构建可微分的网络架构,和先前的构建方式相同,需要构建一个supernet;这里先构建两个supernet的组成元素,一个提取特征的cell和一个特征池化的下采样的cell;构建方式如下:
将0,1节点设置成网络的输入节点,将2,3,4节点的输出组合成一个map作为cell的特征输出值;
使用每个算子处理后的map1-map8和a1-a8对应相乘然后相加合成组合的map,其中a1-a8就是其中的架构参数,记为;这里一个cell有9个连接于是架构参数量为9*8,有两种类型的cell,那么参数有9*8*2=144.由于目前的搜索空间是离散的,不能通过梯度更新的方式进行优化;所以借用softmax来松弛成连续的空间;组合的map计算方式如下:
通过松弛后,modelα可以和model自身的W权重进行更新训练;更新方式如下:
随着网络更新到模型收敛之后,最后通过如下的方式来得到最后的离散架构:
a离散=argmaxa∈Aai,j
通过选取架构中的modelα的softmax值最大的对应的算子作为最优的算子用来构成最优架构的最优cell;通过这种最优cell堆叠来组成新的架构;但是通过这种方式发现训练极其不稳定,得到架构的准确率在训练后期会出现性能崩溃,受到模型压缩的启发,将选取算子的方法进行了优化,假设将所有的架构参数modelα作为网络训练的另一个W,而不是将它作为算子重要性的代表;于是定义了该模型参数的敏感度,通过敏感度来选取重要的算子,于是设计了如下的计算方法来衡量:
其中diag(*)代表去矩阵斜对角线的值,Hessian代表modelα的参数的海塞矩阵;通过不断去除敏感度低的参数使得架构参数不断稀疏化,但是这里和模型压缩不同的是,这里的参数稀疏是有限制的,对于9*8的cell参数的每一行都需要留下一个参数。
与现有技术相比,本发明的有益效果如下:
本发明相比其他技术,最显著的优点如下:将模型架构参数构建成一个超级网络的W,然后通过压缩思路进行压缩,在模型训练完全收敛后进行有限制的参数压缩,经过实验得到了较优的架构,而且在训练后期也不会出现比较明显的架构性能崩溃的现象。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明的cell结构图;
图2是本发明的两节点的算子组合连接示意图;
图3是本发明的seed实验和原本的梯度算法对比性能示意图之一;
图4是本发明的seed实验和原本的梯度算法对比性能示意图之二;
图5是本发明的seed实验和原本的梯度算法对比性能示意图之三;
图6是本发明的seed实验和原本的梯度算法对比性能示意图之四。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。其中附图中相同的标号全部指的是相同的部件。
实施例1
如图1-6,本发明提供一种基于模型压缩思想的NAS架构搜索方法,具体包括以下:
(1)构建搜索空间,这里搜索空间设置8个算子,如下:
1*1卷积,3*3卷积,5*5卷积,1*1的DW卷积,3*3的DW卷积,5*5的DW卷积,skip-connect,None;
(2)构建可微分的网络架构,和先前的构建方式相同,需要构建一个supernet;这里先构建两个supernet的组成元素,一个提取特征的cell和一个特征池化的下采样的cell;构建方式如下(图1所示):
如图1所示的结构,我们将0,1节点设置成网络的输入节点,将2,3,4节点的输出组合成一个map作为cell的特征输出值;每个节点的连线由搜索空间中的op组成如图3所示;
图1中的每两个节点之间都由图2的方式组成,我们使用每个算子处理后的map1-map8和a1-a8对应相乘然后相加合成组合的map,其中a1-a8就是其中的架构参数,记为;这里一个cell有9个连接于是架构参数量为9*8,有两种类型的cell,那么参数有9*8*2=144.由于目前的搜索空间是离散的,不能通过梯度更新的方式进行优化;所以借用softmax来松弛成连续的空间;组合的map计算方式如下:
通过松弛后,modelα可以和model自身的W权重进行更新训练;更新方式如下:
随着网络更新到模型收敛之后,最后通过如下的方式来得到最后的离散架构:
a离散=argmaxa∈Aai,j
通过选取架构中的modelα的softmax值最大的对应的算子作为最优的算子用来构成最优架构的最优cell;通过这种最优cell堆叠来组成新的架构;但是通过这种方式我们发现训练极其不稳定,得到架构的准确率在训练后期会出现性能崩溃,于是我们受到模型压缩的启发,将选取算子的方法进行了优化,我们假设将所有的架构参数modelα作为网络训练的另一个W,而不是将它作为算子重要性的代表;于是我们定义了该模型参数的敏感度,通过敏感度来选取重要的算子,于是设计了如下的计算方法来衡量:
其中diag(*)代表去矩阵斜对角线的值,Hessian代表modelα的参数的海塞矩阵;通过不断去除敏感度低的参数使得架构参数不断稀疏化,但是这里和模型压缩不同的是,这里的参数稀疏是有限制的,对于9*8的cell参数的每一行都需要留下一个参数。
进一步的,从图3至图6中可以明显的看出经过我们提出的优化后的选取方式,无论从准确率和稳定性上来说都具有很大的优势。
本发明中目前已经在nasbench-201搜索空间这一标准公开空间实验过,搜到的架构相对于其他基于梯度的算法来说具有较大的竞争优势。
本发明具备以下技术要点:
1.基于模型压缩思想的NAS架构搜索的整体技术方案;
2.通过构建架构参数作为模型权重参数,然后通过参数敏感度去衡量架构优劣的技术方案。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种基于模型压缩思想的NAS架构搜索方法,其特征在于,具体包括以下:
(1)构建搜索空间,这里搜索空间设置8个算子,如下:
1*1卷积,3*3卷积,5*5卷积,1*1的DW卷积,3*3的DW卷积,5*5的DW卷积,skip-connect,None;
(2)构建可微分的网络架构,和先前的构建方式相同,需要构建一个supernet;这里先构建两个supernet的组成元素,一个提取特征的cell和一个特征池化的下采样的cell;构建方式如下:
将0,1节点设置成网络的输入节点,将2,3,4节点的输出组合成一个map作为cell的特征输出值;
使用每个算子处理后的map1-map8和a1-a8对应相乘然后相加合成组合的map,其中a1-a8就是其中的架构参数,记为;这里一个cell有9个连接于是架构参数量为9*8,有两种类型的cell,那么参数有9*8*2=144.由于目前的搜索空间是离散的,不能通过梯度更新的方式进行优化;所以借用softmax来松弛成连续的空间;组合的map计算方式如下:
通过松弛后,modelα可以和model自身的W权重进行更新训练;更新方式如下:
随着网络更新到模型收敛之后,最后通过如下的方式来得到最后的离散架构:
a离散=argmaxa∈Aai,j
通过选取架构中的modelα的softmax值最大的对应的算子作为最优的算子用来构成最优架构的最优cell;通过这种最优cell堆叠来组成新的架构;但是通过这种方式发现训练极其不稳定,得到架构的准确率在训练后期会出现性能崩溃,受到模型压缩的启发,将选取算子的方法进行了优化,假设将所有的架构参数modelα作为网络训练的另一个W,而不是将它作为算子重要性的代表;于是定义了该模型参数的敏感度,通过敏感度来选取重要的算子,于是设计了如下的计算方法来衡量:
其中diag(*)代表去矩阵斜对角线的值,Hessian代表modelα的参数的海塞矩阵;通过不断去除敏感度低的参数使得架构参数不断稀疏化,但是这里和模型压缩不同的是,这里的参数稀疏是有限制的,对于9*8的cell参数的每一行都需要留下一个参数。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211028380.0A CN117688985A (zh) | 2022-08-25 | 2022-08-25 | 一种基于模型压缩思想的nas架构搜索方法 |
PCT/CN2022/136486 WO2024040792A1 (zh) | 2022-08-25 | 2022-12-05 | 一种基于模型压缩思想的nas架构搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211028380.0A CN117688985A (zh) | 2022-08-25 | 2022-08-25 | 一种基于模型压缩思想的nas架构搜索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117688985A true CN117688985A (zh) | 2024-03-12 |
Family
ID=90012285
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211028380.0A Pending CN117688985A (zh) | 2022-08-25 | 2022-08-25 | 一种基于模型压缩思想的nas架构搜索方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN117688985A (zh) |
WO (1) | WO2024040792A1 (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210073612A1 (en) * | 2019-09-10 | 2021-03-11 | Nvidia Corporation | Machine-learning-based architecture search method for a neural network |
CN111553480B (zh) * | 2020-07-10 | 2021-01-01 | 腾讯科技(深圳)有限公司 | 图像数据处理方法、装置、计算机可读介质及电子设备 |
CN114118403A (zh) * | 2021-10-19 | 2022-03-01 | 上海瑾盛通信科技有限公司 | 神经网络架构搜索方法、装置、存储介质及电子设备 |
CN114529325A (zh) * | 2021-12-28 | 2022-05-24 | 天翼电子商务有限公司 | 一种基于Darts的点击率预估模型自动化生成方法 |
CN114612761A (zh) * | 2022-03-04 | 2022-06-10 | 深圳信息职业技术学院 | 一种面向图像识别的网络架构搜索方法 |
-
2022
- 2022-08-25 CN CN202211028380.0A patent/CN117688985A/zh active Pending
- 2022-12-05 WO PCT/CN2022/136486 patent/WO2024040792A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2024040792A1 (zh) | 2024-02-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113076938B (zh) | 一种结合嵌入式硬件信息的深度学习目标检测方法 | |
CN104538968B (zh) | 自动电压控制系统电压无功灵敏度确定方法及装置 | |
CN112036512B (zh) | 基于网络裁剪的图像分类神经网络架构搜索方法和装置 | |
CN105243460B (zh) | 一种基于改进人工鱼群算法的输电塔塔腿辅材拓扑结构优化方法 | |
CN112381208B (zh) | 一种基于神经网络架构搜索的图片分类方法与系统 | |
CN115856633A (zh) | 基于图神经网络的锂离子电池容量估计方法 | |
CN111767983A (zh) | 基于熵损失函数的离散化可微分神经网络搜索方法 | |
CN116090517A (zh) | 模型训练方法、目标检测方法、装置以及可读存储介质 | |
CN105914752B (zh) | 基于快速搜索与密度峰值聚类的主导节点选择方法 | |
CN105809286B (zh) | 一种基于代表数据重构的增量svr负荷预测方法 | |
CN117688985A (zh) | 一种基于模型压缩思想的nas架构搜索方法 | |
He et al. | A fast simulated annealing strategy for community detection in complex networks | |
CN113780146B (zh) | 基于轻量化神经架构搜索的高光谱图像分类方法及系统 | |
CN114707636A (zh) | 神经网络架构搜索方法、装置、电子设备及存储介质 | |
CN117058000B (zh) | 用于图像超分辨率的神经网络架构搜索方法及装置 | |
Sun et al. | CellNet: An Improved Neural Architecture Search Method for Coal and Gangue Classification | |
CN114066726A (zh) | 一种图像处理方法、装置、设备及存储介质 | |
CN114239795A (zh) | 基于可微分采样器和渐进学习的卷积神经网络架构搜索方法 | |
CN106528984A (zh) | 径向点插值型无网格法形函数构造方法 | |
CN114490799A (zh) | 单个图的频繁子图挖掘方法及装置 | |
CN111723905A (zh) | 一种基于线性规划的卷积参数自动配置方法 | |
CN113673591B (zh) | 一种自调整采样优化的图像分类方法、设备及介质 | |
Fu et al. | Study of DNN Network Architecture Search for Robot Vision | |
Ding et al. | A Novel Performance Evaluation Strategy of Automatic Machine Learning on Electricity Services | |
KR102535636B1 (ko) | 뉴럴 네트워크 구조 탐색 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |