CN112036512A

CN112036512A - 基于网络裁剪的图像分类神经网络架构搜索方法和装置

Info

Publication number: CN112036512A
Application number: CN202011212294.6A
Authority: CN
Inventors: 庄越挺; 汤斯亮; 肖俊; 丁亚东; 郁强; 蒋忆
Original assignee: Zhejiang University ZJU; CCI China Co Ltd
Current assignee: Zhejiang University ZJU; CCI China Co Ltd
Priority date: 2020-11-03
Filing date: 2020-11-03
Publication date: 2020-12-04
Anticipated expiration: 2040-11-03
Also published as: CN112036512B

Abstract

本发明公开了一种基于网络裁剪的图像分类神经网络架构搜索方法和装置。该方法首先构建神经网络架构搜索的超网络，提出用非标准化的强度因子去拟合网络架构的参数进行学习；然后对学习到的非标准化的强度因子进行按照提供的标准进行网络裁剪，以得到最优的网络架构。本发明在图像分类任务中可以使用较少的参数达到到相对于其他方法更好的性能。

Description

基于网络裁剪的图像分类神经网络架构搜索方法和装置

技术领域

本发明涉及神经网络架构搜索，尤其涉及一种在图像分类任务上面基于网络裁剪的神经网络架构搜索方法。

背景技术

近年来，神经网络架构搜索（NAS，Neural Architecture Search），作为一种可以自动涉及神经网络结构的技术，引起了越来越多的研究者们的注意。NAS设计出来的最佳架构已经在多种任务，例如图像分类、语义分割、对象检测等等任务上面，取得了超越人类手工设计的网络架构的性能。常规的NAS方法，包括基于增强学习的或者进化算法。这些方法对候选的一些网络架构进行了艰难的选择，但是他们陷入了一个难题，即它们都需要大量的计算资源，促使研究者们开始转向基于梯度的神经网络架构搜索。

在以前的基于梯度的NAS方法中，以可微分网络架构搜索(DARTS，DifferentiableArchitecture Search),为例子，对所有候选的基础操作（例如，convolution或pooling等等）上面施加softmax，以放宽对特定操作的分类选择。softmax引入了对候选操作的attention，用于计算每层输出的期望值。在DARTS收敛时，仅选择具有相对最大attention值的操作，保留在最终模型中。其他候选操作将被删除。但是，DARTS中的softmax具有两个主要缺点。

首先，softmax操作可能会放大以下问题：类似DARTS的方法的skip-connection诅咒。如许多先前的工作中所报道的那样，类似DARTS的方法遭受了skip-connection诅咒，即搜索架构受skip-connection的支配。具体来说，随着搜索迭代的进行，派生架构中的skip-connection的数量迅速增长。对于类似DARTS的方法，最终搜素出来的网络架构中将近50％的基础操作为skip-connection，从而导致模型的性能崩溃。我们认为，softmax引入的竞争可能会加剧这个问题。原因在于，一方面，深度神经网络的训练趋向于更多的skip-connection。另一方面，DARTS中的softmax增强了具有最大attention值的候选操作并抑制了其他候选操作。

其次，由于两个节点之间的候选操作已通过softmax进行归一化，因此无法同时选择来自同一节点的两个不同候选操作。因此，DARTS应用了一种称为“本地选择”的标准，从不同的节点中选择了具有最大attention值的两个候选操作的结果以生成另一个节点。但是，“本地选择”极大地降低了派生架构的多样性和搜索空间的大小。DARTS无法找到在同一组候选操作中有两个操作的模型。

发明内容

本发明的目的在于解决现有技术中存在的问题，并提供一种基于网络裁剪的图像分类神经网络架构搜索方法和装置。

本发明具体是通过以下技术方案实现的：

第一方面，本发明提供了一种基于网络裁剪的图像分类神经网络架构搜索方法，其包括以下步骤：

S1：针对图像分类任务预先构建的超参数化网络，并在超参数化网络的每个候选操作上增加一个非标准化的架构权重参数，且架构权重参数与对应的候选操作重要性正相关；

S2：同时迭代训练超参数化网络的架构权重参数以及候选操作本身的参数，得到训练后的架构权重参数；

S3：基于S2中训练后得到的架构权重参数，对超参数化网络的所有中间节点进行全局裁剪，得到最终的最优网络架构；所述全局裁剪以每个中间节点为基准，将从前置节点连接到该中间节点的所有边中包含的候选操作组成一个集合，从集合中选取架构权重参数最大的两个候选操作保留于最优网络架构中，并删除集合中其余的候选操作；

S4：将裁剪出的最优网络架构，重新在图像分类任务中进行训练，训练完毕后用于对目标图像进行图像分类。

作为上述第一方面的优选，所述S1的具体实现步骤包括：

S11：通过对单元的重复叠加，构建出整个针对图像分类任务的超参数化网络；其中，每个所述单元为一个由多个有序的节点的序列组成的有向无环图，图中的每一条边由若干候选操作构成，每一个节点都是一个特征张量；

S12：在超参数化网络中的每个候选操作上面增加一个非标准化的架构权重参数，以衡量候选操作的重要性，且架构权重参数值与候选操作的重要性正相关；不同候选操作的架构权重参数初始值相等；超参数化网络中任意两个节点i和中间节点j之间的边(i,j)的输出为边(i,j)包含的所有候选操作变换输出的加权和：

其中

代表候选操作o的架构权重参数，

为边(i,j)包含的所有候选操作集合，

代表边(i,j)对x ^{( i )}进行的变换操作，x ^{( i )}为节点i的特征张量；

每个所述单元中，输入节点的特征张量由前面的单元的输出变换得到；输出节点的特征张量由所有中间节点的输出连接得到；每个中间节点j的特征张量x ^{( i )}由当前单元内中间节点j前面所有节点的特征张量通过候选操作变换并且求和得到：

。

作为上述第一方面的优选，所述针对图像分类任务的超参数化网络中，共含有7个节点，包含两个输入节点，4个中间节点和1个输出节点。

作为上述第一方面的优选，所述S2中，超参数化网络的迭代训练通过梯度下降算法进行。

作为上述第一方面的优选，所述S4中，所述最优网络架构在图像分类任务中进行训练时，采用梯度下降算法并使用交叉熵作为优化目标。

第二方面，本发明提供了一种基于网络裁剪的图像分类神经网络架构搜索装置，其包括：

超参数化网络构建模块，用于针对图像分类任务预先构建的超参数化网络，并在超参数化网络的每个候选操作上增加一个非标准化的架构权重参数，且架构权重参数与对应的候选操作重要性正相关；

训练模块，用于同时迭代训练超参数化网络的架构权重参数以及候选操作本身的参数，得到训练后的架构权重参数；

全局裁剪模块，用于基于训练模块中训练后得到的架构权重参数，对超参数化网络的所有中间节点进行全局裁剪，得到最终的最优网络架构；所述全局裁剪以每个中间节点为基准，将从前置节点连接到该中间节点的所有边中包含的候选操作组成一个集合，从集合中选取架构权重参数最大的两个候选操作保留于最优网络架构中，并删除集合中其余的候选操作；

图像分类模块，用于将裁剪出的最优网络架构，重新在图像分类任务中进行训练，训练完毕后用于对目标图像进行图像分类。

作为上述第二方面的优选，所述超参数化网络构建模块包括：

网络生成模块，用于通过对单元的重复叠加，构建出整个针对图像分类任务的超参数化网络；其中，每个所述单元为一个由多个有序的节点的序列组成的有向无环图，图中的每一条边由若干候选操作构成，每一个节点都是一个特征张量；

权重参数构建模块，用于在超参数化网络中的每个候选操作上面增加一个非标准化的架构权重参数，以衡量候选操作的重要性，且架构权重参数值与候选操作的重要性正相关；不同候选操作的架构权重参数初始值相等；超参数化网络中任意两个节点i和中间节点j之间的边(i,j)的输出为边(i,j)包含的所有候选操作变换输出的加权和：

其中

代表候选操作o的架构权重参数，

为边(i,j)包含的所有候选操作集合，

。

作为上述第二方面的优选，所述针对图像分类任务的超参数化网络中，共含有7个节点，包含两个输入节点，4个中间节点和1个输出节点。

作为上述第二方面的优选，所述训练模块中，超参数化网络的迭代训练通过梯度下降算法进行。

作为上述第二方面的优选，所述图像分类模块中，所述最优网络架构在图像分类任务中进行训练时，采用梯度下降算法并使用交叉熵作为优化目标。

相对于现有技术而言，本发明具有以下有益效果：

1）本发明提出了一种新颖的基于梯度的NAS方法，称为基于网络裁剪的神经结构搜索（NAP，Neural Architecture search with Pruning），该NAP方法减轻了以前的类似DARTS的方法中skip-connection诅咒。

2）本发明提出了在超参数化网络中选择候选操作的新标准，即采用全局裁剪的新准则来代替本地选择以生成另一个节点。本发明以架构权重参数为候选操作的强度概念，对超参数化的网络进行裁剪，只剩下两个强度最大的候选操作，而其他强度较弱的候选操作则从候选集中删除，由此形成最优网络架构。该全局裁剪的标准可以大大增加派生架构的多样性。

3）本发明通过NAP搜索的模型在图像分类任务中可以使用较少的参数达到到相对于其他方法更好的性能。

附图说明

图1为基于网络裁剪的图像分类神经网络架构搜索方法的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明进行进一步说明。

如图1所示，在本发明的一个较佳实施例中，提供了一种基于网络裁剪的图像分类神经网络架构搜索方法（简称NAP），其具体步骤如下：

S1：针对图像分类任务预先构建的超参数化网络，并在超参数化网络的每个候选操作上增加一个非标准化的架构权重参数，且架构权重参数与对应的候选操作重要性正相关。

在本发明中，S1的超参数化网络需要根据具体的任务进行构建，其网络的构建形式与传统的DARTS类似，是由单元（Cell）的重复叠加而成的。在本实施例中，S1的具体实现步骤如下：

S11：每个单元为一个由多个有序的节点的序列组成的有向无环图，图中的每一条边(i,j)由若干候选操作（例如卷积、池化等）构成，每一个节点x ⁽ⁱ⁾都是一个特征张量。通过对单元的重复叠加，即可构建出整个针对图像分类任务的超参数化网络。在本实施例中，针对图像分类任务的超参数化网络中，共含有7个节点，包含两个输入节点，4个中间节点和1个输出节点。

S12：在超参数化网络中的每个候选操作上面增加一个非标准化的架构权重参数，以衡量候选操作的重要性，且架构权重参数值与候选操作的重要性正相关，架构权重参数值越大，对应的候选操作越重要。由此，网络的架构进行了参数化，使超参数化网络的架构也能够参与梯度的反向传播。不同候选操作的架构权重参数初始值相等。超参数化网络中任意两个节点i和中间节点j之间的边(i,j)的输出为边(i,j)包含的所有候选操作变换输出的加权和：

其中

代表候选操作o的架构权重参数，

为边(i,j)包含的所有候选操作集合，

每个单元中，输入节点的特征张量由前面的单元的输出变换得到；输出节点的特征张量由所有中间节点的输出连接得到；每个中间节点j的特征张量x ^{( i )}由当前单元内中间节点j前面所有节点的特征张量通过候选操作变换并且求和得到：

。

需说明的是，此处“非标准化的架构权重参数”中所谓的非标准化，是相对于传统的标准化超参数化网络而言的。传统的超参数化网络中，并不含有架构权重参数，因此本发明中设置的架构权重参数相对于传统的超参数化网络而言是一种非标准化的网络参数。

S2：同时迭代训练超参数化网络的架构权重参数以及候选操作本身的参数，得到训练后的架构权重参数。此处超参数化网络的迭代可以通过梯度下降算法进行。

S3：基于S2中训练后得到的架构权重参数，对超参数化网络的所有中间节点进行全局裁剪，得到最终的最优网络架构。此处所说的全局裁剪以每个中间节点为基准，将从前置节点连接到该中间节点的所有边中包含的候选操作组成一个集合，从集合中选取架构权重参数最大的两个候选操作保留于最优网络架构中，并删除集合中其余的候选操作。

S4：将裁剪出的最优网络架构，重新在图像分类任务中进行训练，训练完毕后用于对目标图像进行图像分类。在此处的训练中，一般可采用梯度下降算法并使用交叉熵作为优化目标。

由此可见，本发明基于可微分的网络架构搜索DARTS，DARTS使用了选择性网络架构搜索空间，并且放宽了对候选基础操作的选择限制，以可微分的方式去学习网络的架构，而且本发明进一步拓展了搜索的空间，重新设定了最终网络架构的推导方式。本发明从网络裁剪中获取了灵感，用于处理网络架构搜索的问题，通过对每个候选操作设置架构权重参数形成强度因子的概念，通过学习在候选操作上的非正则化的强度因子，本发明可以进行网络的裁剪以获取最佳的网络架构。

同样的，在另一实施例中，还可以进一步提供一种基于网络裁剪的图像分类神经网络架构搜索装置，其包括：

同样的，超参数化网络构建模块可以包括如下子模块：

其中

代表候选操作o的架构权重参数，

为边(i,j)包含的所有候选操作集合，

。

下面将上述S1~S4的方法在具体的图像分类任务中进行应用，以展示其具体实现过程和技术效果。但是需要注意的是，在该实施例中为了便于理解，详细说明了大量DARTS的常规操作，这些做法为现有技术，并非对本发明的限定。

1.搜索设置

本实施例遵循在DARTS中的标准搜索设置，在较小的代理图像数据集（如CIFAR10）上学习具有移植性的网络架构，然后转移到较大的图像数据集上（如ImageNet）。

1）搜索Cells

Cell（即单元）是表示为一个由7个有序的计算节点的序列组成的有向无环图，图中的每一条边(i,j)由一些候选操作构成，如卷积、池化等等；而每一个节点x ⁽ⁱ⁾都是一个特征张量，由前面的Cell或者节点通过候选操作计算得出。

本实施例的Cell包含7个节点，前两个节点为输入节点，分别由前面的两个Cell的输出得来。接下来的4个节点是中间节点，每个中间节点由之前的所有节点计算结果。最后一个节点是输出节点，是中间节点的特征向量的连接，代表整个Cell的输出。各节点的特征张量的具体计算将在后续具体说明。

2）堆叠Cells获得整个超参数化网络

整个的针对图像分类任务的超参数化网络架构由Cell重复叠加获得。在本实施例中，分别针对CIFAR10和ImageNet任务构建了两个网络架构，CIFAR-10神经网络和ImageNet神经网络的结构如下：CIFAR10神经网络中，其架构包括8个顺次连接的子网络，依次为inputimage、cifar10 header、normal block、reduction cell、normal block、reduction cell、normal block、softmax。而在ImageNet神经网络中，其架构也包括8个顺次连接的子网络，依次为input image、ImageNet header、normal block、reduction cell、normal block、reduction cell、normal block、softmax。在两个网络中，normal cell里面的候选操作的步长为1，而reduction cell里面的步长为2。但两个网络中normal block的形式不同：在CIFAR10网络中，一个normal block由6个normal cell叠加构成，而在ImageNet中，这个数字被缩小为4，即一个normal block由4个normal cell叠加构成.显然，ImageNet比CIFAR10数据集具有更大的通道channel数目来适应分类数目的提升。

3）候选操作集合设置

在本实施例的超参数化网络架构的Cell中，边内总共包含8种供网络架构选择的候选操作，分别为：1）zero，即无连接操作；2）3*3 max pooling，即3*3大小的最大池化操作；3）3*3 avg pooling，即3*3大小的平均池化操作；4）skip-connection，跳接，即直接连接；5）3*3 depth-wise separate conv，3*3大小的深度可分离卷积；6）5*5 depth-wiseseparate conv，5*5大小的深度可分离卷积；7）3*3 dilated depth-wise separate conv，3*3大小的空洞卷积；8）5*5 dilated depth-wise separate conv，5*5大小的空洞卷积。这些候选操作也将构成最终的最优网络架构。

2.设置非标准化的架构权重参数用于剪枝

传统的DARTS使用softmax来松弛化模型的选择，整个的搜索过程对于候选操作的选择是可微的。完成整个的搜索过程以后，在每条边中的具有最大注意力权重的候选操作被保留，每个中间节点由两个最大的注意力权重的操作与前面的两个节点连接起来。

但在本实施例中，不同于DARTS中的使用的正则化的softmax，我们对架构搜索进行了重新建模，使用学习到的非标准化操作权重来进行剪枝。具体而言，本实施例在超参数化网络中的每个候选操作上面增加一个非标准化的架构权重参数，以衡量候选操作的重要性，且架构权重参数值与候选操作的重要性正相关。在学习训练开始前，架构权重参数需要预先赋值，且不同候选操作的架构权重参数初始值相同。将超参数化网络中任意两个节点，即节点i和中间节点j之间的边记为(i,j)，边(i,j)的输出为边(i,j)包含的所有候选操作变换输出的加权和，表达式为：

其中

代表候选操作

的架构权重参数，

为边(i,j)包含的所有候选操作集合，

代表边(i,j)对x ^{( i )}进行的变换操作，x ^{( i )}为节点i的特征张量。

每个Cell中，输入节点的特征张量由前面的Cell的输出变换得到；输出节点的特征张量由所有中间节点的输出连接得到；每个中间节点j的特征张量x ⁽ⁱ⁾由当前Cell内中间节点j前面所有节点的特征张量通过候选操作变换并且求和得到，其表示为：

。

由于在超参数化网络中，架构权重参数和网络的候选操作中自身参数均需要进行优化，因此两类参数之间的优化冲突产生了一个双层优化问题，上层问题为我们的优化目标，即优化网络架构参数，下层目标为优化网络中操作的参数，我们通过迭代更新两类参数来解决这个问题。具体而言，本发明在学习时，需要基于CIFAR10图像分类任务，同时迭代训练超参数化网络的架构权重参数以及候选操作本身的参数，由此得到训练后的架构权重参数。架构权重参数在本发明中可作为代表候选操作重要性高低的强度因子，后续可使用学习到的架构权重参数作为候选操作的强度因子用于后续的剪枝。

3.全局裁剪获得网络架构

当得到训练后的架构权重参数后，即可对超参数化网络的所有中间节点执行修剪策略，以获得最终的最优网络架构。与对每个中间节点j执行按同一组边内部强度选择的DARTS不同，本实施例对整个节点执行一次修剪，我们将该修剪标准称为全局裁剪。全局裁剪的具体做法是：以每个中间节点为基准，确定Cell中位于该中间节点前面的所有节点，记为前置节点；再确定从前置节点连接到该中间节点的所有边，每一条边中均包含有众多候选操作，将从前置节点连接到该中间节点的所有边中包含的候选操作全部组成一个集合，从集合中选取架构权重参数最大的两个候选操作保留于最优网络架构中，并删除集合中其余的候选操作，即可完成该节点的全局裁剪。每一个中间节点均按照该方式进行全局裁剪。

以第一个中间节点2为例，完成搜索过程后，通过修剪强度较弱的操作从最终的结构参数α中产生最终的架构。仅剩下K个候选操作即可生成一个中间节点。我们将获得两种Cell（normal cell 和 reduction cell），可以将其堆叠以构建深层神经网络。实际上，由于GPU，内存和时间的限制，我们只从一个中间节点的所有候选操作中选择K = 2个操作，这些操作的强度因子即架构权重参数最大。

因此，本实施例中可以从来自任何之前的节点的候选操作集合中选择任意两个候选操作，甚至可以从同一节点产生出另一个新节点，而传统的DARTS只能从不同的节点中选择两个运算。DARTS中一个Cell的搜索空间大小大约为1E9，而本发明的NAP中的搜索空间大于4E9。本发明设计的“全局裁剪”标准将搜索空间扩大了四倍，显着增加了所能找到模型的多样性。

4.最优网络架构的重训练

将裁剪出的最优网络架构，重新在图像分类任务CIFAR10和ImageNet上进行训练，训练完毕后即可用于对目标图像进行图像分类。

最终结果表明，基于本实施例的NAP搜索的模型在CIFAR-10图像数据集上仅使用3.07M的参数，即可实现2.48％的测试误差，达到当前所有方法的最好性能，并且可以移植到ImageNet图像数据集上面以获得跟目前表现最好的网络相匹配的性能。

以上所述的实施例只是本发明的部分较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于网络裁剪的图像分类神经网络架构搜索方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于网络裁剪的图像分类神经网络架构搜索方法，其特征在于，所述S1的具体实现步骤包括：

其中

代表候选操作o的架构权重参数，

为边(i,j)包含的所有候选操作集合，代表边(i,j)对x ^{( i )}进行的变换操作，x ^{( i )}为节点i的特征张量；

。

3.根据权利要求1所述的基于网络裁剪的图像分类神经网络架构搜索方法，其特征在于，所述针对图像分类任务的超参数化网络中，共含有7个节点，包含两个输入节点，4个中间节点和1个输出节点。

4.根据权利要求1所述的基于网络裁剪的图像分类神经网络架构搜索方法，其特征在于，所述S2中，超参数化网络的迭代训练通过梯度下降算法进行。

5.根据权利要求1所述的基于网络裁剪的图像分类神经网络架构搜索方法，其特征在于，所述S4中，所述最优网络架构在图像分类任务中进行训练时，采用梯度下降算法并使用交叉熵作为优化目标。

6.一种基于网络裁剪的图像分类神经网络架构搜索装置，其特征在于，包括：

7.根据权利要求6所述的基于网络裁剪的图像分类神经网络架构搜索装置，其特征在于，所述超参数化网络构建模块包括：

其中

代表候选操作o的架构权重参数，

为边(i,j)包含的所有候选操作集合，

。

8.根据权利要求6所述的基于网络裁剪的图像分类神经网络架构搜索装置，其特征在于，所述针对图像分类任务的超参数化网络中，共含有7个节点，包含两个输入节点，4个中间节点和1个输出节点。

9.根据权利要求6所述的基于网络裁剪的图像分类神经网络架构搜索装置，其特征在于，所述训练模块中，超参数化网络的迭代训练通过梯度下降算法进行。

10.根据权利要求6所述的基于网络裁剪的图像分类神经网络架构搜索装置，其特征在于，所述图像分类模块中，所述最优网络架构在图像分类任务中进行训练时，采用梯度下降算法并使用交叉熵作为优化目标。