CN112036512B - 基于网络裁剪的图像分类神经网络架构搜索方法和装置 - Google Patents

基于网络裁剪的图像分类神经网络架构搜索方法和装置 Download PDF

Info

Publication number
CN112036512B
CN112036512B CN202011212294.6A CN202011212294A CN112036512B CN 112036512 B CN112036512 B CN 112036512B CN 202011212294 A CN202011212294 A CN 202011212294A CN 112036512 B CN112036512 B CN 112036512B
Authority
CN
China
Prior art keywords
network
architecture
hyper
candidate
image classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011212294.6A
Other languages
English (en)
Other versions
CN112036512A (zh
Inventor
庄越挺
汤斯亮
肖俊
丁亚东
郁强
蒋忆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
CCI China Co Ltd
Original Assignee
Zhejiang University ZJU
CCI China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU, CCI China Co Ltd filed Critical Zhejiang University ZJU
Priority to CN202011212294.6A priority Critical patent/CN112036512B/zh
Publication of CN112036512A publication Critical patent/CN112036512A/zh
Application granted granted Critical
Publication of CN112036512B publication Critical patent/CN112036512B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于网络裁剪的图像分类神经网络架构搜索方法和装置。该方法首先构建神经网络架构搜索的超网络,提出用非标准化的强度因子去拟合网络架构的参数进行学习;然后对学习到的非标准化的强度因子进行按照提供的标准进行网络裁剪,以得到最优的网络架构。本发明在图像分类任务中可以使用较少的参数达到到相对于其他方法更好的性能。

Description

基于网络裁剪的图像分类神经网络架构搜索方法和装置
技术领域
本发明涉及神经网络架构搜索,尤其涉及一种在图像分类任务上面基于网络裁剪的神经网络架构搜索方法。
背景技术
近年来,神经网络架构搜索(NAS,Neural Architecture Search),作为一种可以自动涉及神经网络结构的技术,引起了越来越多的研究者们的注意。NAS设计出来的最佳架构已经在多种任务,例如图像分类、语义分割、对象检测等等任务上面,取得了超越人类手工设计的网络架构的性能。常规的NAS方法,包括基于增强学习的或者进化算法。这些方法对候选的一些网络架构进行了艰难的选择,但是他们陷入了一个难题,即它们都需要大量的计算资源,促使研究者们开始转向基于梯度的神经网络架构搜索。
在以前的基于梯度的NAS方法中,以可微分网络架构搜索(DARTS,DifferentiableArchitecture Search),为例子,对所有候选的基础操作(例如,convolution或pooling等等)上面施加softmax,以放宽对特定操作的分类选择。softmax引入了对候选操作的attention,用于计算每层输出的期望值。在DARTS收敛时,仅选择具有相对最大attention值的操作,保留在最终模型中。其他候选操作将被删除。但是,DARTS中的softmax具有两个主要缺点。
首先,softmax操作可能会放大以下问题:类似DARTS的方法的skip-connection诅咒。如许多先前的工作中所报道的那样,类似DARTS的方法遭受了skip-connection诅咒,即搜索架构受skip-connection的支配。具体来说,随着搜索迭代的进行,派生架构中的skip-connection的数量迅速增长。对于类似DARTS的方法,最终搜素出来的网络架构中将近50%的基础操作为skip-connection,从而导致模型的性能崩溃。我们认为,softmax引入的竞争可能会加剧这个问题。原因在于,一方面,深度神经网络的训练趋向于更多的skip-connection。另一方面,DARTS中的softmax增强了具有最大attention值的候选操作并抑制了其他候选操作。
其次,由于两个节点之间的候选操作已通过softmax进行归一化,因此无法同时选择来自同一节点的两个不同候选操作。因此,DARTS应用了一种称为“本地选择”的标准,从不同的节点中选择了具有最大attention值的两个候选操作的结果以生成另一个节点。但是,“本地选择”极大地降低了派生架构的多样性和搜索空间的大小。DARTS无法找到在同一组候选操作中有两个操作的模型。
发明内容
本发明的目的在于解决现有技术中存在的问题,并提供一种基于网络裁剪的图像分类神经网络架构搜索方法和装置。
本发明具体是通过以下技术方案实现的:
第一方面,本发明提供了一种基于网络裁剪的图像分类神经网络架构搜索方法,其包括以下步骤:
S1:针对图像分类任务预先构建的超参数化网络,并在超参数化网络的每个候选操作上增加一个非标准化的架构权重参数,且架构权重参数与对应的候选操作重要性正相关;
S2:同时迭代训练超参数化网络的架构权重参数以及候选操作本身的参数,得到训练后的架构权重参数;
S3:基于S2中训练后得到的架构权重参数,对超参数化网络的所有中间节点进行全局裁剪,得到最终的最优网络架构;所述全局裁剪以每个中间节点为基准,将从前置节点连接到该中间节点的所有边中包含的候选操作组成一个集合,从集合中选取架构权重参数最大的两个候选操作保留于最优网络架构中,并删除集合中其余的候选操作;
S4:将裁剪出的最优网络架构,重新在图像分类任务中进行训练,训练完毕后用于对目标图像进行图像分类。
作为上述第一方面的优选,所述S1的具体实现步骤包括:
S11:通过对单元的重复叠加,构建出整个针对图像分类任务的超参数化网络;其中,每个所述单元为一个由多个有序的节点的序列组成的有向无环图,图中的每一条边由若干候选操作构成,每一个节点都是一个特征张量;
S12:在超参数化网络中的每个候选操作上面增加一个非标准化的架构权重参数,以衡量候选操作的重要性,且架构权重参数值与候选操作的重要性正相关;不同候选操作的架构权重参数初始值相等;超参数化网络中任意两个节点i和中间节点j之间的边(i,j)的输出为边(i,j)包含的所有候选操作变换输出的加权和:
Figure 700665DEST_PATH_IMAGE001
其中
Figure 70335DEST_PATH_IMAGE002
代表候选操作o的架构权重参数,
Figure 318914DEST_PATH_IMAGE003
为边(i,j)包含的所有候选操作集 合,
Figure 182965DEST_PATH_IMAGE004
代表边(i,j)对x ( i )进行的变换操作,x ( i )为节点i的特征张量;
每个所述单元中,输入节点的特征张量由前面的单元的输出变换得到;输出节点的特征张量由所有中间节点的输出连接得到;每个中间节点j的特征张量x ( i )由当前单元内中间节点j前面所有节点的特征张量通过候选操作变换并且求和得到:
Figure 715446DEST_PATH_IMAGE005
作为上述第一方面的优选,所述针对图像分类任务的超参数化网络中,共含有7个节点,包含两个输入节点,4个中间节点和1个输出节点。
作为上述第一方面的优选,所述S2中,超参数化网络的迭代训练通过梯度下降算法进行。
作为上述第一方面的优选,所述S4中,所述最优网络架构在图像分类任务中进行训练时,采用梯度下降算法并使用交叉熵作为优化目标。
第二方面,本发明提供了一种基于网络裁剪的图像分类神经网络架构搜索装置,其包括:
超参数化网络构建模块,用于针对图像分类任务预先构建的超参数化网络,并在超参数化网络的每个候选操作上增加一个非标准化的架构权重参数,且架构权重参数与对应的候选操作重要性正相关;
训练模块,用于同时迭代训练超参数化网络的架构权重参数以及候选操作本身的参数,得到训练后的架构权重参数;
全局裁剪模块,用于基于训练模块中训练后得到的架构权重参数,对超参数化网络的所有中间节点进行全局裁剪,得到最终的最优网络架构;所述全局裁剪以每个中间节点为基准,将从前置节点连接到该中间节点的所有边中包含的候选操作组成一个集合,从集合中选取架构权重参数最大的两个候选操作保留于最优网络架构中,并删除集合中其余的候选操作;
图像分类模块,用于将裁剪出的最优网络架构,重新在图像分类任务中进行训练,训练完毕后用于对目标图像进行图像分类。
作为上述第二方面的优选,所述超参数化网络构建模块包括:
网络生成模块,用于通过对单元的重复叠加,构建出整个针对图像分类任务的超参数化网络;其中,每个所述单元为一个由多个有序的节点的序列组成的有向无环图,图中的每一条边由若干候选操作构成,每一个节点都是一个特征张量;
权重参数构建模块,用于在超参数化网络中的每个候选操作上面增加一个非标准化的架构权重参数,以衡量候选操作的重要性,且架构权重参数值与候选操作的重要性正相关;不同候选操作的架构权重参数初始值相等;超参数化网络中任意两个节点i和中间节点j之间的边(i,j)的输出为边(i,j)包含的所有候选操作变换输出的加权和:
Figure 6750DEST_PATH_IMAGE001
其中
Figure 742625DEST_PATH_IMAGE002
代表候选操作o的架构权重参数,
Figure 410367DEST_PATH_IMAGE003
为边(i,j)包含的所有候选操作集 合,
Figure 797354DEST_PATH_IMAGE004
代表边(i,j)对x ( i )进行的变换操作,x ( i )为节点i的特征张量;
每个所述单元中,输入节点的特征张量由前面的单元的输出变换得到;输出节点的特征张量由所有中间节点的输出连接得到;每个中间节点j的特征张量x ( i )由当前单元内中间节点j前面所有节点的特征张量通过候选操作变换并且求和得到:
Figure 259560DEST_PATH_IMAGE005
作为上述第二方面的优选,所述针对图像分类任务的超参数化网络中,共含有7个节点,包含两个输入节点,4个中间节点和1个输出节点。
作为上述第二方面的优选,所述训练模块中,超参数化网络的迭代训练通过梯度下降算法进行。
作为上述第二方面的优选,所述图像分类模块中,所述最优网络架构在图像分类任务中进行训练时,采用梯度下降算法并使用交叉熵作为优化目标。
相对于现有技术而言,本发明具有以下有益效果:
1)本发明提出了一种新颖的基于梯度的NAS方法,称为基于网络裁剪的神经结构搜索(NAP,Neural Architecture search with Pruning),该NAP方法减轻了以前的类似DARTS的方法中skip-connection诅咒。
2)本发明提出了在超参数化网络中选择候选操作的新标准,即采用全局裁剪的新准则来代替本地选择以生成另一个节点。本发明以架构权重参数为候选操作的强度概念,对超参数化的网络进行裁剪,只剩下两个强度最大的候选操作,而其他强度较弱的候选操作则从候选集中删除,由此形成最优网络架构。该全局裁剪的标准可以大大增加派生架构的多样性。
3)本发明通过NAP搜索的模型在图像分类任务中可以使用较少的参数达到到相对于其他方法更好的性能。
附图说明
图1为基于网络裁剪的图像分类神经网络架构搜索方法的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明进行进一步说明。
如图1所示,在本发明的一个较佳实施例中,提供了一种基于网络裁剪的图像分类神经网络架构搜索方法(简称NAP),其具体步骤如下:
S1:针对图像分类任务预先构建的超参数化网络,并在超参数化网络的每个候选操作上增加一个非标准化的架构权重参数,且架构权重参数与对应的候选操作重要性正相关。
在本发明中,S1的超参数化网络需要根据具体的任务进行构建,其网络的构建形式与传统的DARTS类似,是由单元(Cell)的重复叠加而成的。在本实施例中,S1的具体实现步骤如下:
S11:每个单元为一个由多个有序的节点的序列组成的有向无环图,图中的每一条边(i,j)由若干候选操作(例如卷积、池化等)构成,每一个节点x (i)都是一个特征张量。通过对单元的重复叠加,即可构建出整个针对图像分类任务的超参数化网络。在本实施例中,针对图像分类任务的超参数化网络中,共含有7个节点,包含两个输入节点,4个中间节点和1个输出节点。
S12:在超参数化网络中的每个候选操作上面增加一个非标准化的架构权重参数,以衡量候选操作的重要性,且架构权重参数值与候选操作的重要性正相关,架构权重参数值越大,对应的候选操作越重要。由此,网络的架构进行了参数化,使超参数化网络的架构也能够参与梯度的反向传播。不同候选操作的架构权重参数初始值相等。超参数化网络中任意两个节点i和中间节点j之间的边(i,j)的输出为边(i,j)包含的所有候选操作变换输出的加权和:
Figure 217151DEST_PATH_IMAGE001
其中
Figure 423005DEST_PATH_IMAGE002
代表候选操作o的架构权重参数,
Figure 664499DEST_PATH_IMAGE003
为边(i,j)包含的所有候选操作集 合,
Figure 563185DEST_PATH_IMAGE004
代表边(i,j)对x ( i )进行的变换操作,x ( i )为节点i的特征张量;
每个单元中,输入节点的特征张量由前面的单元的输出变换得到;输出节点的特征张量由所有中间节点的输出连接得到;每个中间节点j的特征张量x ( i )由当前单元内中间节点j前面所有节点的特征张量通过候选操作变换并且求和得到:
Figure 273652DEST_PATH_IMAGE005
需说明的是,此处“非标准化的架构权重参数”中所谓的非标准化,是相对于传统的标准化超参数化网络而言的。传统的超参数化网络中,并不含有架构权重参数,因此本发明中设置的架构权重参数相对于传统的超参数化网络而言是一种非标准化的网络参数。
S2:同时迭代训练超参数化网络的架构权重参数以及候选操作本身的参数,得到训练后的架构权重参数。此处超参数化网络的迭代可以通过梯度下降算法进行。
S3:基于S2中训练后得到的架构权重参数,对超参数化网络的所有中间节点进行全局裁剪,得到最终的最优网络架构。此处所说的全局裁剪以每个中间节点为基准,将从前置节点连接到该中间节点的所有边中包含的候选操作组成一个集合,从集合中选取架构权重参数最大的两个候选操作保留于最优网络架构中,并删除集合中其余的候选操作。
S4:将裁剪出的最优网络架构,重新在图像分类任务中进行训练,训练完毕后用于对目标图像进行图像分类。在此处的训练中,一般可采用梯度下降算法并使用交叉熵作为优化目标。
由此可见,本发明基于可微分的网络架构搜索DARTS,DARTS使用了选择性网络架构搜索空间,并且放宽了对候选基础操作的选择限制,以可微分的方式去学习网络的架构,而且本发明进一步拓展了搜索的空间,重新设定了最终网络架构的推导方式。本发明从网络裁剪中获取了灵感,用于处理网络架构搜索的问题,通过对每个候选操作设置架构权重参数形成强度因子的概念,通过学习在候选操作上的非正则化的强度因子,本发明可以进行网络的裁剪以获取最佳的网络架构。
同样的,在另一实施例中,还可以进一步提供一种基于网络裁剪的图像分类神经网络架构搜索装置,其包括:
超参数化网络构建模块,用于针对图像分类任务预先构建的超参数化网络,并在超参数化网络的每个候选操作上增加一个非标准化的架构权重参数,且架构权重参数与对应的候选操作重要性正相关;
训练模块,用于同时迭代训练超参数化网络的架构权重参数以及候选操作本身的参数,得到训练后的架构权重参数;
全局裁剪模块,用于基于训练模块中训练后得到的架构权重参数,对超参数化网络的所有中间节点进行全局裁剪,得到最终的最优网络架构;所述全局裁剪以每个中间节点为基准,将从前置节点连接到该中间节点的所有边中包含的候选操作组成一个集合,从集合中选取架构权重参数最大的两个候选操作保留于最优网络架构中,并删除集合中其余的候选操作;
图像分类模块,用于将裁剪出的最优网络架构,重新在图像分类任务中进行训练,训练完毕后用于对目标图像进行图像分类。
同样的,超参数化网络构建模块可以包括如下子模块:
网络生成模块,用于通过对单元的重复叠加,构建出整个针对图像分类任务的超参数化网络;其中,每个所述单元为一个由多个有序的节点的序列组成的有向无环图,图中的每一条边由若干候选操作构成,每一个节点都是一个特征张量;
权重参数构建模块,用于在超参数化网络中的每个候选操作上面增加一个非标准化的架构权重参数,以衡量候选操作的重要性,且架构权重参数值与候选操作的重要性正相关;不同候选操作的架构权重参数初始值相等;超参数化网络中任意两个节点i和中间节点j之间的边(i,j)的输出为边(i,j)包含的所有候选操作变换输出的加权和:
Figure 17617DEST_PATH_IMAGE001
其中
Figure 379197DEST_PATH_IMAGE002
代表候选操作o的架构权重参数,
Figure 183205DEST_PATH_IMAGE003
为边(i,j)包含的所有候选操作集 合,
Figure 380968DEST_PATH_IMAGE004
代表边(i,j)对x ( i )进行的变换操作,x ( i )为节点i的特征张量;
每个所述单元中,输入节点的特征张量由前面的单元的输出变换得到;输出节点的特征张量由所有中间节点的输出连接得到;每个中间节点j的特征张量x ( i )由当前单元内中间节点j前面所有节点的特征张量通过候选操作变换并且求和得到:
Figure 928624DEST_PATH_IMAGE006
下面将上述S1~S4的方法在具体的图像分类任务中进行应用,以展示其具体实现过程和技术效果。但是需要注意的是,在该实施例中为了便于理解,详细说明了大量DARTS的常规操作,这些做法为现有技术,并非对本发明的限定。
1.搜索设置
本实施例遵循在DARTS中的标准搜索设置,在较小的代理图像数据集(如CIFAR10)上学习具有移植性的网络架构,然后转移到较大的图像数据集上(如ImageNet)。
1)搜索Cells
Cell(即单元)是表示为一个由7个有序的计算节点的序列组成的有向无环图,图中的每一条边(i,j)由一些候选操作构成,如卷积、池化等等;而每一个节点x (i)都是一个特征张量,由前面的Cell或者节点通过候选操作计算得出。
本实施例的Cell包含7个节点,前两个节点为输入节点,分别由前面的两个Cell的输出得来。接下来的4个节点是中间节点,每个中间节点由之前的所有节点计算结果。最后一个节点是输出节点,是中间节点的特征向量的连接,代表整个Cell的输出。各节点的特征张量的具体计算将在后续具体说明。
2)堆叠Cells获得整个超参数化网络
整个的针对图像分类任务的超参数化网络架构由Cell重复叠加获得。在本实施例中,分别针对CIFAR10和ImageNet任务构建了两个网络架构,CIFAR-10神经网络和ImageNet神经网络的结构如下:CIFAR10神经网络中,其架构包括8个顺次连接的子网络,依次为input image、cifar10 header、normal block、reduction cell、normal block、reductioncell、normal block、softmax。而在ImageNet神经网络中,其架构也包括8个顺次连接的子网络,依次为input image、ImageNet header、normal block、reduction cell、normalblock、reduction cell、normal block、softmax。在两个网络中,normal cell里面的候选操作的步长为1,而reduction cell里面的步长为2。但两个网络中normal block的形式不同:在CIFAR10网络中,一个normal block由6个normal cell叠加构成,而在ImageNet中,这个数字被缩小为4,即一个normal block由4个normal cell叠加构成.显然,ImageNet比CIFAR10数据集具有更大的通道channel数目来适应分类数目的提升。
3)候选操作集合设置
在本实施例的超参数化网络架构的Cell中,边内总共包含8种供网络架构选择的候选操作,分别为:1)zero,即无连接操作;2)3*3 max pooling,即3*3大小的最大池化操作;3)3*3 avg pooling,即3*3大小的平均池化操作;4)skip-connection,跳接,即直接连接;5)3*3 depth-wise separate conv,3*3大小的深度可分离卷积;6)5*5 depth-wiseseparate conv,5*5大小的深度可分离卷积;7)3*3 dilated depth-wise separate conv,3*3大小的空洞卷积;8)5*5 dilated depth-wise separate conv,5*5大小的空洞卷积。这些候选操作也将构成最终的最优网络架构。
2.设置非标准化的架构权重参数用于剪枝
传统的DARTS使用softmax来松弛化模型的选择,整个的搜索过程对于候选操作的选择是可微的。完成整个的搜索过程以后,在每条边中的具有最大注意力权重的候选操作被保留,每个中间节点由两个最大的注意力权重的操作与前面的两个节点连接起来。
但在本实施例中,不同于DARTS中的使用的正则化的softmax,我们对架构搜索进行了重新建模,使用学习到的非标准化操作权重来进行剪枝。具体而言,本实施例在超参数化网络中的每个候选操作上面增加一个非标准化的架构权重参数,以衡量候选操作的重要性,且架构权重参数值与候选操作的重要性正相关。在学习训练开始前,架构权重参数需要预先赋值,且不同候选操作的架构权重参数初始值相同。将超参数化网络中任意两个节点,即节点i和中间节点j之间的边记为(i,j),边(i,j)的输出为边(i,j)包含的所有候选操作变换输出的加权和,表达式为:
Figure 144711DEST_PATH_IMAGE001
其中
Figure 385199DEST_PATH_IMAGE002
代表候选操作
Figure 70259DEST_PATH_IMAGE007
的架构权重参数,
Figure 156026DEST_PATH_IMAGE003
为边(i,j)包含的所有候选操作 集合,
Figure 492199DEST_PATH_IMAGE004
代表边(i,j)对x ( i )进行的变换操作,x ( i )为节点i的特征张量。
每个Cell中,输入节点的特征张量由前面的Cell的输出变换得到;输出节点的特征张量由所有中间节点的输出连接得到;每个中间节点j的特征张量x (i)由当前Cell内中间节点j前面所有节点的特征张量通过候选操作变换并且求和得到,其表示为:
Figure 903588DEST_PATH_IMAGE005
由于在超参数化网络中,架构权重参数和网络的候选操作中自身参数均需要进行优化,因此两类参数之间的优化冲突产生了一个双层优化问题,上层问题为我们的优化目标,即优化网络架构参数,下层目标为优化网络中操作的参数,我们通过迭代更新两类参数来解决这个问题。具体而言,本发明在学习时,需要基于CIFAR10图像分类任务,同时迭代训练超参数化网络的架构权重参数以及候选操作本身的参数,由此得到训练后的架构权重参数。架构权重参数在本发明中可作为代表候选操作重要性高低的强度因子,后续可使用学习到的架构权重参数作为候选操作的强度因子用于后续的剪枝。
3.全局裁剪获得网络架构
当得到训练后的架构权重参数后,即可对超参数化网络的所有中间节点执行修剪策略,以获得最终的最优网络架构。与对每个中间节点j执行按同一组边内部强度选择的DARTS不同,本实施例对整个节点执行一次修剪,我们将该修剪标准称为全局裁剪。全局裁剪的具体做法是:以每个中间节点为基准,确定Cell中位于该中间节点前面的所有节点,记为前置节点;再确定从前置节点连接到该中间节点的所有边,每一条边中均包含有众多候选操作,将从前置节点连接到该中间节点的所有边中包含的候选操作全部组成一个集合,从集合中选取架构权重参数最大的两个候选操作保留于最优网络架构中,并删除集合中其余的候选操作,即可完成该节点的全局裁剪。每一个中间节点均按照该方式进行全局裁剪。
以第一个中间节点2为例,完成搜索过程后,通过修剪强度较弱的操作从最终的结构参数α中产生最终的架构。仅剩下K个候选操作即可生成一个中间节点。 我们将获得两种Cell(normal cell 和 reduction cell),可以将其堆叠以构建深层神经网络。实际上,由于GPU,内存和时间的限制,我们只从一个中间节点的所有候选操作中选择K = 2个操作,这些操作的强度因子即架构权重参数最大。
因此,本实施例中可以从来自任何之前的节点的候选操作集合中选择任意两个候选操作,甚至可以从同一节点产生出另一个新节点,而传统的DARTS只能从不同的节点中选择两个运算。DARTS中一个Cell的搜索空间大小大约为1E9,而本发明的NAP中的搜索空间大于4E9。本发明设计的“全局裁剪”标准将搜索空间扩大了四倍,显着增加了所能找到模型的多样性。
4.最优网络架构的重训练
将裁剪出的最优网络架构,重新在图像分类任务CIFAR10和ImageNet上进行训练,训练完毕后即可用于对目标图像进行图像分类。
最终结果表明,基于本实施例的NAP搜索的模型在CIFAR-10图像数据集上仅使用3.07M的参数,即可实现2.48%的测试误差,达到当前所有方法的最好性能,并且可以移植到ImageNet图像数据集上面以获得跟目前表现最好的网络相匹配的性能。
以上所述的实施例只是本发明的部分较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (8)

1.一种基于网络裁剪的图像分类神经网络架构搜索方法,其特征在于,包括以下步骤:
S1:针对图像分类任务预先构建的超参数化网络,并在超参数化网络的每个候选操作上增加一个非标准化的架构权重参数,且架构权重参数与对应的候选操作重要性正相关;
S2:同时迭代训练超参数化网络的架构权重参数以及候选操作本身的参数,得到训练后的架构权重参数;
S3:基于S2中训练后得到的架构权重参数,对超参数化网络的所有中间节点进行全局裁剪,得到最终的最优网络架构;所述全局裁剪以每个中间节点为基准,将从前置节点连接到该中间节点的所有边中包含的候选操作组成一个集合,从集合中选取架构权重参数最大的两个候选操作保留于最优网络架构中,并删除集合中其余的候选操作;
S4:将裁剪出的最优网络架构,重新在图像分类任务中进行训练,训练完毕后用于对目标图像进行图像分类;
所述S1的具体实现步骤包括:
S11:通过对单元的重复叠加,构建出整个针对图像分类任务的超参数化网络;其中,每个所述单元为一个由多个有序的节点的序列组成的有向无环图,图中的每一条边由若干候选操作构成,每一个节点都是一个特征张量;
S12:在超参数化网络中的每个候选操作上面增加一个非标准化的架构权重参数,以衡量候选操作的重要性,且架构权重参数值与候选操作的重要性正相关;不同候选操作的架构权重参数初始值相等;超参数化网络中任意两个节点i和中间节点j之间的边(i,j)的输出为边(i,j)包含的所有候选操作变换输出的加权和:
Figure DEST_PATH_IMAGE002
其中
Figure DEST_PATH_IMAGE004
代表候选操作o的架构权重参数,
Figure DEST_PATH_IMAGE006
为边(i,j)包含的所有候选操作集合,
Figure DEST_PATH_IMAGE008
代表边(i,j)对x ( i )进行的变换操作,x ( i )为节点i的特征张量;
每个所述单元中,输入节点的特征张量由前面的单元的输出变换得到;输出节点的特征张量由所有中间节点的输出连接得到;每个中间节点j的特征张量x ( i )由当前单元内中间节点j前面所有节点的特征张量通过候选操作变换并且求和得到:
Figure DEST_PATH_IMAGE010
2.根据权利要求1所述的基于网络裁剪的图像分类神经网络架构搜索方法,其特征在于,所述针对图像分类任务的超参数化网络中,共含有7个节点,包含两个输入节点,4个中间节点和1个输出节点。
3.根据权利要求1所述的基于网络裁剪的图像分类神经网络架构搜索方法,其特征在于,所述S2中,超参数化网络的迭代训练通过梯度下降算法进行。
4.根据权利要求1所述的基于网络裁剪的图像分类神经网络架构搜索方法,其特征在于,所述S4中,所述最优网络架构在图像分类任务中进行训练时,采用梯度下降算法并使用交叉熵作为优化目标。
5.一种基于网络裁剪的图像分类神经网络架构搜索装置,其特征在于,包括:
超参数化网络构建模块,用于针对图像分类任务预先构建的超参数化网络,并在超参数化网络的每个候选操作上增加一个非标准化的架构权重参数,且架构权重参数与对应的候选操作重要性正相关;
训练模块,用于同时迭代训练超参数化网络的架构权重参数以及候选操作本身的参数,得到训练后的架构权重参数;
全局裁剪模块,用于基于训练模块中训练后得到的架构权重参数,对超参数化网络的所有中间节点进行全局裁剪,得到最终的最优网络架构;所述全局裁剪以每个中间节点为基准,将从前置节点连接到该中间节点的所有边中包含的候选操作组成一个集合,从集合中选取架构权重参数最大的两个候选操作保留于最优网络架构中,并删除集合中其余的候选操作;
图像分类模块,用于将裁剪出的最优网络架构,重新在图像分类任务中进行训练,训练完毕后用于对目标图像进行图像分类;
所述超参数化网络构建模块包括:
网络生成模块,用于通过对单元的重复叠加,构建出整个针对图像分类任务的超参数化网络;其中,每个所述单元为一个由多个有序的节点的序列组成的有向无环图,图中的每一条边由若干候选操作构成,每一个节点都是一个特征张量;
权重参数构建模块,用于在超参数化网络中的每个候选操作上面增加一个非标准化的架构权重参数,以衡量候选操作的重要性,且架构权重参数值与候选操作的重要性正相关;不同候选操作的架构权重参数初始值相等;超参数化网络中任意两个节点i和中间节点j之间的边(i,j)的输出为边(i,j)包含的所有候选操作变换输出的加权和:
Figure DEST_PATH_IMAGE012
其中
Figure 194012DEST_PATH_IMAGE004
代表候选操作o的架构权重参数,
Figure 477226DEST_PATH_IMAGE006
为边(i,j)包含的所有候选操作集合,
Figure 768530DEST_PATH_IMAGE008
代表边(i,j)对x ( i )进行的变换操作,x ( i )为节点i的特征张量;
每个所述单元中,输入节点的特征张量由前面的单元的输出变换得到;输出节点的特征张量由所有中间节点的输出连接得到;每个中间节点j的特征张量x ( i )由当前单元内中间节点j前面所有节点的特征张量通过候选操作变换并且求和得到:
Figure 753672DEST_PATH_IMAGE010
6.根据权利要求5所述的基于网络裁剪的图像分类神经网络架构搜索装置,其特征在于,所述针对图像分类任务的超参数化网络中,共含有7个节点,包含两个输入节点,4个中间节点和1个输出节点。
7.根据权利要求5所述的基于网络裁剪的图像分类神经网络架构搜索装置,其特征在于,所述训练模块中,超参数化网络的迭代训练通过梯度下降算法进行。
8.根据权利要求5所述的基于网络裁剪的图像分类神经网络架构搜索装置,其特征在于,所述图像分类模块中,所述最优网络架构在图像分类任务中进行训练时,采用梯度下降算法并使用交叉熵作为优化目标。
CN202011212294.6A 2020-11-03 2020-11-03 基于网络裁剪的图像分类神经网络架构搜索方法和装置 Active CN112036512B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011212294.6A CN112036512B (zh) 2020-11-03 2020-11-03 基于网络裁剪的图像分类神经网络架构搜索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011212294.6A CN112036512B (zh) 2020-11-03 2020-11-03 基于网络裁剪的图像分类神经网络架构搜索方法和装置

Publications (2)

Publication Number Publication Date
CN112036512A CN112036512A (zh) 2020-12-04
CN112036512B true CN112036512B (zh) 2021-03-26

Family

ID=73573660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011212294.6A Active CN112036512B (zh) 2020-11-03 2020-11-03 基于网络裁剪的图像分类神经网络架构搜索方法和装置

Country Status (1)

Country Link
CN (1) CN112036512B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112508104A (zh) * 2020-12-08 2021-03-16 浙江工业大学 一种基于快速网络架构搜索的跨任务图像分类方法
CN112685590B (zh) * 2020-12-29 2022-10-14 电子科技大学 一种基于卷积神经网络正则化处理的图像检索方法
CN112699957B (zh) * 2021-01-08 2024-03-29 北京工业大学 一种基于darts的图像分类优化方法
CN112819137A (zh) * 2021-01-22 2021-05-18 广东电网有限责任公司广州供电局 超轻量分类网络模型的获取方法
CN113034472B (zh) * 2021-03-25 2023-02-07 中山大学 一种基于梯度网络架构搜索的空域隐写分析方法及系统
CN113255892B (zh) * 2021-06-01 2023-09-05 上海交通大学烟台信息技术研究院 一种解耦合的网络结构搜索方法、设备及可读存储介质
CN113642611B (zh) * 2021-07-16 2024-04-12 重庆邮电大学 一种基于多粒度的胎儿心脏超声图像识别方法
CN113435590B (zh) * 2021-08-27 2021-12-21 之江实验室 面向边缘计算的重参数神经网络架构搜索方法
CN113780146B (zh) * 2021-09-06 2024-05-10 西安电子科技大学 基于轻量化神经架构搜索的高光谱图像分类方法及系统
CN114998648B (zh) * 2022-05-16 2024-07-23 电子科技大学 一种基于梯度架构搜索的表现预测压缩方法
CN115115873A (zh) * 2022-06-08 2022-09-27 中国船舶集团有限公司系统工程研究院 基于可微分网络结构搜索的图像分类方法及装置
CN117953296B (zh) * 2024-02-01 2024-09-24 华东交通大学 一种遥感图像分类的神经网络架构搜索方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334949A (zh) * 2018-02-11 2018-07-27 浙江工业大学 一种优化深度卷积神经网络结构的快速进化方法
CN111860495A (zh) * 2020-06-19 2020-10-30 上海交通大学 一种层级化网络结构搜索方法、设备及可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110476172B (zh) * 2017-07-21 2024-01-30 谷歌有限责任公司 用于卷积神经网络的神经架构搜索
CN110598731B (zh) * 2019-07-31 2021-08-20 浙江大学 一种基于结构化剪枝的高效图像分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334949A (zh) * 2018-02-11 2018-07-27 浙江工业大学 一种优化深度卷积神经网络结构的快速进化方法
CN111860495A (zh) * 2020-06-19 2020-10-30 上海交通大学 一种层级化网络结构搜索方法、设备及可读存储介质

Also Published As

Publication number Publication date
CN112036512A (zh) 2020-12-04

Similar Documents

Publication Publication Date Title
CN112036512B (zh) 基于网络裁剪的图像分类神经网络架构搜索方法和装置
CN109948029B (zh) 基于神经网络自适应的深度哈希图像搜索方法
CN111275172B (zh) 一种基于搜索空间优化的前馈神经网络结构搜索方法
CN113538689B (zh) 一种基于神经网络的特征融合的三维模型网格简化方法
CN113378913B (zh) 一种基于自监督学习的半监督节点分类方法
Bakhshi et al. Fast automatic optimisation of CNN architectures for image classification using genetic algorithm
CN111862140A (zh) 一种基于协同模块级搜索的全景分割网络及方法
CN114283320B (zh) 基于全卷积的无分支结构目标检测方法
CN111191785A (zh) 一种基于拓展搜索空间的结构搜索方法
CN111625998A (zh) 一种层叠太阳能电池结构优化方法
CN114090860A (zh) 一种加权网络节点重要性确定方法及系统
CN113821025A (zh) 一种神经网络优化启发函数的移动机器人路径规划方法
CN107169594B (zh) 一种车辆路径问题的优化方法及装置
CN116740562A (zh) 基于蛇群优化算法和cnn算法的人工林病虫害识别方法
CN113705724B (zh) 基于自适应l-bfgs算法的深度神经网络的批量学习方法
CN115796358A (zh) 一种碳排放预测的方法及终端
CN114399018A (zh) 一种基于轮转操控策略麻雀优化的EfficientNet陶瓷碎片分类方法
CN104598657B (zh) 一种基于memetic算法的基因模体重构方法
CN111291193B (zh) 一种知识图谱在零次学习上的运用方法
CN117610689A (zh) 基于信息熵的集成学习的动态神经网络模型的训练方法
WO2024168972A1 (zh) 一种目标检测模型训练方法、目标检测方法、设备及介质
CN109753836A (zh) 基于微分搜索算法的bp神经网络二维码区域提取方法
CN111104561B (zh) 启发式的无人平台信息感知网络拓扑生成方法和装置
CN113077003A (zh) 基于图采样的图注意力网络归纳学习方法
Zhao et al. An efficient and flexible automatic search algorithm for convolution network architectures

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant