CN117688985A

CN117688985A - 一种基于模型压缩思想的nas架构搜索方法

Info

Publication number: CN117688985A
Application number: CN202211028380.0A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: China Telecom Bestpay Co Ltd
Current assignee: China Telecom Bestpay Co Ltd
Priority date: 2022-08-25
Filing date: 2022-08-25
Publication date: 2024-03-12
Also published as: WO2024040792A1

Abstract

本发明公开了一种基于模型压缩思想的NAS架构搜索方法，具体包括以下：(1)构建搜索空间，这里搜索空间设置8个算子，如下：1*1卷积，3*3卷积，5*5卷积，1*1的DW卷积，3*3的DW卷积，5*5的DW卷积，skip‑connect，None；(2)构建可微分的网络架构，和先前的构建方式相同，需要构建一个supernet；这里先构建两个supernet的组成元素，一个提取特征的cell和一个特征池化的下采样的cell。本发明相比其他技术，最显著的优点如下：将模型架构参数构建成一个超级网络的W，然后通过压缩思路进行压缩，在模型训练完全收敛后进行有限制的参数压缩，经过实验得到了较优的架构，而且在训练后期也不会出现比较明显的架构性能崩溃的现象。

Description

一种基于模型压缩思想的NAS架构搜索方法

技术领域

本发明涉及AutoML和NAS架构搜索领域，特别涉及一种基于模型压缩思想的NAS架构搜索方法。

背景技术

随着GPU硬件的发展和机器学习，深度学习技术的发展，一些学者开始考虑如何通过算法来实现像人一样自动学习的技术，从最初的类脑科学逐步发展成为对人工智能的研究。AutoML作为其中的一个研究分支，其目标在于通过设定一些简单规则，使得机器可以自动的搜索出我们需要的目标。AutoML主要有两个重要应用，第一个参数搜索，第二个架构搜索，两者都是通过设定搜索空间和搜索策略来让机器进行自动化的得到空间中的较优架构和参数，该技术的发展，将会大大的减少人工调参和设计神经网络的成本，是目前最为火热和最有研究前景的技术方向之一。

NAS架构搜索作为其中的一个重要分支，也是目前各大顶会的热点研究方向，NAS的搜索算法多种多样，其中较为主流的包括强化学习，进化算法，基于梯度下降的算法。目前基于梯度下降的算法，由于其可以所有参数以梯度下降的方式一起优化以及参数共享，所以大大减少了搜索时间，并且基于此的算法只需要在一张GPU上就可完成搜索，对于资源的消耗相对于其他算法来说具有巨大优势。所以目前越来越多的搜索算法是基于梯度算法改进。目前基于梯度算法存在三个问题：第一搜索稳定性问题，第二随着搜索训练后期的性能奔溃问题，第三就是尽量压缩搜索时间。

发明内容

本发明要解决的技术问题是克服现有技术的缺陷，提供一种基于模型压缩思想的NAS架构搜索方法，主要解决基于梯度的NAS搜索算法的搜索稳定性和后期性能奔溃问题。

本发明提供了如下的技术方案：

本发明提供一种基于模型压缩思想的NAS架构搜索方法，具体包括以下：

(1)构建搜索空间，这里搜索空间设置8个算子，如下：

1*1卷积，3*3卷积，5*5卷积，1*1的DW卷积，3*3的DW卷积，5*5的DW卷积，skip-connect，None；

(2)构建可微分的网络架构，和先前的构建方式相同，需要构建一个supernet；这里先构建两个supernet的组成元素，一个提取特征的cell和一个特征池化的下采样的cell；构建方式如下：

将0，1节点设置成网络的输入节点，将2，3，4节点的输出组合成一个map作为cell的特征输出值；

使用每个算子处理后的map1-map8和a1-a8对应相乘然后相加合成组合的map，其中a1-a8就是其中的架构参数，记为；这里一个cell有9个连接于是架构参数量为9*8，有两种类型的cell，那么参数有9*8*2＝144.由于目前的搜索空间是离散的，不能通过梯度更新的方式进行优化；所以借用softmax来松弛成连续的空间；组合的map计算方式如下：

通过松弛后，model_α可以和model自身的W权重进行更新训练；更新方式如下：

随着网络更新到模型收敛之后，最后通过如下的方式来得到最后的离散架构：

a_离散＝argmax_a∈Aa_i,j

通过选取架构中的model_α的softmax值最大的对应的算子作为最优的算子用来构成最优架构的最优cell；通过这种最优cell堆叠来组成新的架构；但是通过这种方式发现训练极其不稳定，得到架构的准确率在训练后期会出现性能崩溃，受到模型压缩的启发，将选取算子的方法进行了优化，假设将所有的架构参数model_α作为网络训练的另一个W，而不是将它作为算子重要性的代表；于是定义了该模型参数的敏感度，通过敏感度来选取重要的算子，于是设计了如下的计算方法来衡量：

其中diag(*)代表去矩阵斜对角线的值，Hessian代表model_α的参数的海塞矩阵；通过不断去除敏感度低的参数使得架构参数不断稀疏化，但是这里和模型压缩不同的是，这里的参数稀疏是有限制的，对于9*8的cell参数的每一行都需要留下一个参数。

与现有技术相比，本发明的有益效果如下：

本发明相比其他技术，最显著的优点如下：将模型架构参数构建成一个超级网络的W，然后通过压缩思路进行压缩，在模型训练完全收敛后进行有限制的参数压缩，经过实验得到了较优的架构，而且在训练后期也不会出现比较明显的架构性能崩溃的现象。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明的cell结构图；

图2是本发明的两节点的算子组合连接示意图；

图3是本发明的seed实验和原本的梯度算法对比性能示意图之一；

图4是本发明的seed实验和原本的梯度算法对比性能示意图之二；

图5是本发明的seed实验和原本的梯度算法对比性能示意图之三；

图6是本发明的seed实验和原本的梯度算法对比性能示意图之四。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。其中附图中相同的标号全部指的是相同的部件。

实施例1

如图1-6，本发明提供一种基于模型压缩思想的NAS架构搜索方法，具体包括以下：

(1)构建搜索空间，这里搜索空间设置8个算子，如下：

(2)构建可微分的网络架构，和先前的构建方式相同，需要构建一个supernet；这里先构建两个supernet的组成元素，一个提取特征的cell和一个特征池化的下采样的cell；构建方式如下(图1所示)：

如图1所示的结构，我们将0，1节点设置成网络的输入节点，将2，3，4节点的输出组合成一个map作为cell的特征输出值；每个节点的连线由搜索空间中的op组成如图3所示；

图1中的每两个节点之间都由图2的方式组成，我们使用每个算子处理后的map1-map8和a1-a8对应相乘然后相加合成组合的map，其中a1-a8就是其中的架构参数，记为；这里一个cell有9个连接于是架构参数量为9*8，有两种类型的cell，那么参数有9*8*2＝144.由于目前的搜索空间是离散的，不能通过梯度更新的方式进行优化；所以借用softmax来松弛成连续的空间；组合的map计算方式如下：

a_离散＝argmax_a∈Aa_i,j

通过选取架构中的model_α的softmax值最大的对应的算子作为最优的算子用来构成最优架构的最优cell；通过这种最优cell堆叠来组成新的架构；但是通过这种方式我们发现训练极其不稳定，得到架构的准确率在训练后期会出现性能崩溃，于是我们受到模型压缩的启发，将选取算子的方法进行了优化，我们假设将所有的架构参数model_α作为网络训练的另一个W，而不是将它作为算子重要性的代表；于是我们定义了该模型参数的敏感度，通过敏感度来选取重要的算子，于是设计了如下的计算方法来衡量：

进一步的，从图3至图6中可以明显的看出经过我们提出的优化后的选取方式，无论从准确率和稳定性上来说都具有很大的优势。

本发明中目前已经在nasbench-201搜索空间这一标准公开空间实验过,搜到的架构相对于其他基于梯度的算法来说具有较大的竞争优势。

本发明具备以下技术要点：

1.基于模型压缩思想的NAS架构搜索的整体技术方案；

2.通过构建架构参数作为模型权重参数，然后通过参数敏感度去衡量架构优劣的技术方案。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于模型压缩思想的NAS架构搜索方法，其特征在于，具体包括以下：

(1)构建搜索空间，这里搜索空间设置8个算子，如下：

a_离散＝argmax_a∈Aa_i,j