CN114219964A

CN114219964A - 一种神经网络架构搜索方法、装置及电子设备和存储介质

Info

Publication number: CN114219964A
Application number: CN202111676417.6A
Authority: CN
Inventors: 温东超; 赵雅倩; 史宏志; 崔星辰; 葛沅; 赵健; 张英杰; 尹云峰
Original assignee: Inspur Beijing Electronic Information Industry Co Ltd
Current assignee: Inspur Beijing Electronic Information Industry Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-03-22

Abstract

本申请公开了一种神经网络架构搜索方法、装置及一种电子设备和计算机可读存储介质，该方法包括：获取图像分类任务的数据集；其中，数据集包含图像和对应的类别标签；构建图像分类任务的神经网络；其中，神经网络包括依次连接的多个结构单元，每个结构单元包括待搜索结构单元和梯度传输单元，待搜索结构单元包括多个内部节点，梯度传输单元包括跳转连接操作或1×1的卷积操作；定义待搜索结构单元中内部节点之间的操作集合；其中，操作集合不包含跳转连接；利用数据集搜索每个结构单元中待搜索结构单元的每两个内部节点之间的最佳操作，并确定梯度传输单元的结构。本申请提高了搜索到的图像分类的神经网络的最佳架构精度。

Description

一种神经网络架构搜索方法、装置及电子设备和存储介质

技术领域

本申请涉及图像分类技术领域，更具体地说，涉及一种神经网络架构搜索方法、装置及一种电子设备和一种计算机可读存储介质。

背景技术

在深度学习领域神经网络架构不断演化，神经网络架构搜索也即确定神经网络的最佳拓扑结构成为神经网络架构设计的主流方法，自动神经网络架构搜索(英文全称：Neural Architecture Search，英文简称：NAS)成为当前的热点研究方向。

在相关技术中，可微分网络架构搜索方法(英文全称：DifferentiableARchiTecture Search，英文简称：DARTS)使用梯度下降方法在可微分搜索空间进行架构搜索。但是，随着搜索迭代次数逐渐增加，DARTS在搜索的过程中会倾向于从搜索空间中优先选择跳转连接(skip connection)。当深度神经网络中包含很多的跳转连接的时候，神经网络的精度会降低，也即导致神经网络的崩塌。

因此，如何提高搜索到的神经网络的最佳架构精度是本领域技术人员需要解决的技术问题。

发明内容

本申请的目的在于提供一种神经网络架构搜索方法、装置及一种电子设备和一种计算机可读存储介质，提高了搜索到的图像分类的神经网络的最佳架构精度。

为实现上述目的，本申请提供了一种神经网络架构搜索方法，包括：

获取图像分类任务的数据集；其中，所述数据集包含图像和对应的类别标签；

构建图像分类任务的神经网络；其中，所述神经网络包括依次连接的多个结构单元，每个所述结构单元包括待搜索结构单元和梯度传输单元，所述待搜索结构单元包括多个内部节点，所述梯度传输单元包括跳转连接操作或1×1的卷积操作；

定义所述待搜索结构单元中内部节点之间的操作集合；其中，所述操作集合不包含跳转连接；

利用所述数据集搜索每个所述结构单元中待搜索结构单元的每两个内部节点之间的最佳操作，并确定所述梯度传输单元的结构。

其中，所述待搜索结构单元的输出为所述待搜索结构单元中所有内部节点的可分离拼接。

其中，所述确定所述梯度传输单元的结构，包括：

若输入所述结构单元的特征图的维度与所述结构单元中待搜索结构单元输出的特征图的维度相同，则所述结构单元中梯度传输单元具体为跳转连接；

若输入所述结构单元的特征图的维度与所述结构单元中待搜索结构单元输出的特征图的维度不同，则所述结构单元中梯度传输单元具体为1×1的卷积操作。

其中，所述结构单元的输出为所述结构单元中待搜索结构单元的输出和梯度传输单元的输出之和。

其中，所述神经网络中第

和

个结构单元为降分辨率结构单元，N为所述神经网络中结构单元的数量，所述降分辨率结构单元的步幅为2，其余结构单元的步幅为1。

其中，所述数据集包括训练集和验证集；利用所述数据集搜索每个所述结构单元中待搜索结构单元的每两个内部节点之间的最佳操作，包括：

利用所述训练集确定所述操作集合中每个操作的权重参数；

利用所述验证集确定每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构参数；

将每两个内部节点之间架构参数最大的操作确定为最佳操作。

其中，所述利用所述验证集确定每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构参数，包括：

将所述验证集的图像输入所述神经网络中，利用架构损失函数基于所述神经网络的输出和所述图像对应的类别标签计算每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构损失，并基于所述架构损失计算每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构损失梯度，基于所述架构损失梯度更新每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构参数；

其中，所述架构损失函数为：

其中，ω^*(α)为在训练集合上得到的最优权重参数，α为架构参数集合，L_val()为在验证集合上的损失值，ω_0-1为预定义的超参数，M为神经网络中全部待搜索结构单元中的全部待搜索连接总数，定义包含待搜索操作的两个内部节点为一个待搜索连接，

N为第m个待搜索连接的操作总数，σ()为softmax函数，α_n为第m个待搜索连接的第n个操作的架构参数，

O为操作集合，o_i，j和o′_i，j为中间节点i与中间节点j之间的操作的输出。

为实现上述目的，本申请提供了一种神经网络架构搜索装置，包括：

获取模块，用于获取图像分类任务的数据集；其中，所述数据集包含图像和对应的类别标签；

构建模块，用于构建图像分类任务的神经网络；其中，所述神经网络包括依次连接的多个结构单元，每个所述结构单元包括待搜索结构单元和梯度传输单元，所述待搜索结构单元包括多个内部节点，所述梯度传输单元包括跳转连接操作或1×1的卷积操作；

定义模块，用于定义所述待搜索结构单元中内部节点之间的操作集合；其中，所述操作集合不包含跳转连接；

搜索模块，用于利用所述数据集搜索每个所述结构单元中待搜索结构单元的每两个内部节点之间的最佳操作，并确定所述梯度传输单元的结构。

为实现上述目的，本申请提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述神经网络架构搜索方法的步骤。

为实现上述目的，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述神经网络架构搜索方法的步骤。

通过以上方案可知，本申请提供的一种神经网络架构搜索方法，包括：获取图像分类任务的数据集；其中，所述数据集包含图像和对应的类别标签；构建图像分类任务的神经网络；其中，所述神经网络包括依次连接的多个结构单元，每个所述结构单元包括待搜索结构单元和梯度传输单元，所述待搜索结构单元包括多个内部节点，所述梯度传输单元包括跳转连接操作或1×1的卷积操作；定义所述待搜索结构单元中内部节点之间的操作集合；其中，所述操作集合不包含跳转连接；利用所述数据集搜索每个所述结构单元中待搜索结构单元的每两个内部节点之间的最佳操作，并确定所述梯度传输单元的结构。

本申请为图像分类任务设计了新的神经网络，其包含多个结构单元，每个结构单元包括待搜索结构单元和梯度传输单元，待搜索结构单元中内部节点之间的操作集合不包含跳转连接，在待搜索结构单元中搜索每两个内部节点之间的最佳操作，可以使得内部节点之间不会搜索到跳转连接，避免神经网络搜索算法随着搜索迭代次数增多而精度下降。同时利用梯度传输单元稳定算法的搜索过程，确保深层网络的梯度被有效传输到浅层网络，进一步提高了搜索到的神经网络的最佳架构精度。由此可见，本申请提供的神经网络架构搜索方法，使得图像分类的神经网络随着搜索的迭代次数增加而精度增加，提高了搜索到的图像分类的神经网络的最佳架构精度。本申请还公开了一种神经网络架构搜索装置及一种电子设备和一种计算机可读存储介质，同样能实现上述技术效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1为根据一示例性实施例示出的一种神经网络架构搜索方法的流程图；

图2为根据一示例性实施例示出的一种图像分类任务的神经网络的结构图；

图3为根据一示例性实施例示出的另一种神经网络架构搜索方法的流程图；

图4为根据一示例性实施例示出的一种神经网络架构搜索装置的结构图；

图5为根据一示例性实施例示出的一种电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。另外，在本申请实施例中，“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例公开了一种神经网络架构搜索方法，提高了搜索到的图像分类的神经网络的最佳架构精度。

参见图1，根据一示例性实施例示出的一种神经网络架构搜索方法的流程图，如图1所示，包括：

S101：获取图像分类任务的数据集；其中，所述数据集包含图像和对应的类别标签；

本实施例的目的在于搜索用于图像分类的神经网络的最佳架构，在本步骤中，获取图像分类任务的数据集，其中图像和对应的类别标签，例如对于0到9的数字分类任务，输入数据集包括含有0到9的数字的图像，每个图像的类别标签为其包含的数字。

S102：构建图像分类任务的神经网络；其中，所述神经网络包括依次连接的多个结构单元，每个所述结构单元包括待搜索结构单元和梯度传输单元，所述待搜索结构单元包括多个内部节点，所述梯度传输单元包括跳转连接操作或1×1的卷积操作；

S103：定义所述待搜索结构单元中内部节点之间的操作集合；其中，所述操作集合不包含跳转连接；

需要说明的是，对于一般的残差神经网络，包括N个残差块组成，第i+1残差块的输出为X_i+1，X_i+1＝f_i+1(X_i，W_i+1)+X_i，其中，X_i是第i残差块的输出，W_i+1是第i+1残差块的权重，f_i+1指权重为W_i+1的第i+1残差块的操作。假设模型损失为L。可以证明

从这个式子中，可以看到浅层网络总是包含深层网络的梯度信息。残差网络的跳转连接缓解了梯度消失现象，使得深度神经网络更容易被训练。因此，当DARTS技术在包含跳转连接的搜索空间中搜索最佳操作(operation)的时候，跳转连接更容易被选中，从而导致搜索过程出现“崩塌”现象。

因此，本实施例构建的图像分类任务的神经网络如图2所示，包括依次连接的多个结构单元，每个结构单元包括待搜索结构单元和梯度传输单元。待搜索结构单元中内部节点之间的操作集合O，可以包括卷积(convolution)、最大值池化(max pooling)等操作，例如3×3可分离卷积、5×5可分离卷积、7×7可分离卷积、9×9可分离卷积、3×3卷积、3×3膨胀卷积、5×5膨胀卷积、3×3平均池化、“零”操作等，在此不进行具体限定。需要说明的是，本实施例中的操作集合中不包括跳转连接。

需要说明的是，本实施例对操作的通道数没有限制，既可以是16通道，也可以是32通道或者其他通道数。卷积特征图被补零来保持空间分辨率，本实施例使用ReLU-Conv-BN顺序操作，每个可分离卷积被应用两次。

每个待搜索结构单元是包含N个有序内部节点的有向无环图，其中，内部节点代表特征图，从内部节点i到达内部节点j的边e_i，j代表操作，操作的输出定义为o_i，j(x_i)。内部节点j的值是与之相连的边的输出和，定义为x_j＝∑_i＜jo_i，j(x_i)。在内部节点i和内部节点j之间，包含若干个操作，每个操作对应一个架构权重。待搜索结构单元的输出为其中所有内部节点的可分离拼接。梯度传输单元分支包含固定的跳转连接或1×1卷积操作。

神经网络由N个结构单元串联组成，结构单元k的输入节点是结构单元k-1的输出节点。结构单元的输出为其中待搜索结构单元的输出和梯度传输单元的输出之和。

作为一种优选实施方式，所述神经网络中第

和

个结构单元为降分辨率结构单元，N为所述神经网络中结构单元的数量，所述降分辨率结构单元的步幅为2，其余结构单元的步幅为1。在具体实施中，在神经网络的

和

处，为神经网络的降分辨率结构单元，在降分辨率结构单元中，连接输入节点的操作的步幅是2，

表示下取整。

S104：利用所述数据集搜索每个所述结构单元中待搜索结构单元的每两个内部节点之间的最佳操作，并确定所述梯度传输单元的结构。

本实施例提供的神经网络架构搜索方法在待搜索结构单元中搜索每两个内部节点之间的最佳操作，排除跳转连接操作，避免神经网络搜索算法随着搜索迭代次数增多而精度下降，即避免搜索过程出现“崩塌”现象。梯度传输单元用于稳定搜索方法的搜索过程，包括跳转连接操作或1×1的卷积操作，确保在梯度反向传播过程中深层网络的梯度可以被有效传输到浅层网络。

作为一种优选实施方式，所述确定所述梯度传输单元的结构，包括：若输入所述结构单元的特征图的维度与所述结构单元中待搜索结构单元输出的特征图的维度相同，则所述结构单元中梯度传输单元具体为跳转连接；若输入所述结构单元的特征图的维度与所述结构单元中待搜索结构单元输出的特征图的维度不同，则所述结构单元中梯度传输单元具体为1×1的卷积操作。在具体实施中，当输入特征图的维度和输出维度相同的时候，梯度传输单元为跳转连接。当特征图的维度和输出维度不同的时候，梯度传输单元为1×1的卷积操作。

本申请实施例为图像分类任务设计了新的神经网络，其包含多个结构单元，每个结构单元包括待搜索结构单元和梯度传输单元，待搜索结构单元中内部节点之间的操作集合不包含跳转连接，在待搜索结构单元中搜索每两个内部节点之间的最佳操作，可以使得内部节点之间不会搜索到跳转连接，避免神经网络搜索算法随着搜索迭代次数增多而精度下降。同时利用梯度传输单元稳定算法的搜索过程，确保深层网络的梯度被有效传输到浅层网络，进一步提高了搜索到的神经网络的最佳架构精度。由此可见，本申请实施例提供的神经网络架构搜索方法，使得图像分类的神经网络随着搜索的迭代次数增加而精度增加，提高了搜索到的图像分类的神经网络的最佳架构精度。

本申请实施例公开了一种神经网络架构搜索方法，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。具体的：

参见图3，根据一示例性实施例示出的另一种神经网络架构搜索方法的流程图，如图3所示，包括：

S201：获取图像分类任务的数据集；其中，所述数据集包括训练集和验证集，所述训练集和所述验证集包含图像和对应的类别标签；

在本实施例中，数据集合被划分为两个子集合：训练集和验证集，其中均包含图像和对应的类别标签，训练集用于训练神经网络的权重参数，验证集用于训练神经网络的架构参数，权重参数指神经网络的操作(例如：3×3卷积操作、5×5卷积操作、可分离卷积操作、膨胀卷积操作等)中的权重。架构参数指代表待搜索操作的重要程度的参数。

S202：构建图像分类任务的神经网络；其中，所述神经网络包括依次连接的多个结构单元，每个所述结构单元包括待搜索结构单元和梯度传输单元，所述待搜索结构单元包括多个内部节点，所述梯度传输单元包括跳转连接操作或1×1的卷积操作；

在本步骤中，构建图像分类任务的神经网络，初始化权重参数ω、架构参数α和搜索迭代总数E。

S203：定义所述待搜索结构单元中内部节点之间的操作集合；其中，所述操作集合不包含跳转连接；

S204：利用所述训练集确定所述操作集合中每个操作的权重参数；

S205：利用所述验证集确定每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构参数；

作为一种优选实施方式，所述利用所述验证集确定每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构参数，包括：将所述验证集的图像输入所述神经网络中，利用架构损失函数基于所述神经网络的输出和所述图像对应的类别标签计算每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构损失，并基于所述架构损失计算每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构损失梯度，基于所述架构损失梯度更新每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构参数；

其中，所述架构损失函数为：

为了使得搜索空间连续，本实施例可以将架构权重转化为分类概率：

其中，

表示混合概率，在训练结束的时候，

被

代替。进一步，定义如下的架构参数约束函数L_0-1推动架构参数的分类概率值

逼近0或者1，从而增加

的区分性。

在具体实施中，可以联合学习架构参数和权重参数。分别定义训练损失和评估损失，利用双层优化解下面问题：

s.t.ω^*(α)＝argmin_ωL_train(ω，α)；其中，L_train()为在训练集合上的损失值；

从第一次迭代开始，直到迭代数达到E为止，执行下列操作：依据训练集的损失计算梯度

更新权重参数ω，从训练集取一组数据(包括图像和类别标签)。这组数据的每个样本经过神经网络得到网络输出值。利用这些输出值和对应的类别标签计算L_train(ω，α)。然后，利用反向传播算法计算

并更新ω。依据验证集的损失计算梯度

更新架构参数α，从验证集取一组数据(包括图像和类别标签)。这组数据的每个样本经过神经网络得到网络输出值。利用这些输出值和对应的类别标签计算

然后，利用反向传播算法计算

并更新α。

S206：将每两个内部节点之间架构参数最大的操作确定为最佳操作，并确定所述梯度传输单元的结构。

在具体实施中，对于每两个内部节点之间操作，根据对应的架构参数α_n的数值，选择架构参数值最大的操作作为两个内部节点之间的操作。进一步的，当输入特征图的维度和输出维度相同的时候，梯度传输单元为跳转连接。当特征图的维度和输出维度不同的时候，梯度传输单元为1×1的卷积操作。

由此可见，本实施例通过架构参数的约束条件约束架构参数的更新步骤，使得架构参数具有更好的区分性，可以推动网络搜索到最优架构精度更高，解决了最优架构难以被选择的问题。

下面对本申请实施例提供的一种神经网络架构搜索装置进行介绍，下文描述的一种神经网络架构搜索装置与上文描述的一种神经网络架构搜索方法可以相互参照。

参见图4，根据一示例性实施例示出的一种神经网络架构搜索装置的结构图，如图4所示，包括：

获取模块401，用于获取图像分类任务的数据集；其中，所述数据集包含图像和对应的类别标签；

构建模块402，用于构建图像分类任务的神经网络；其中，所述神经网络包括依次连接的多个结构单元，每个所述结构单元包括待搜索结构单元和梯度传输单元，所述待搜索结构单元包括多个内部节点，所述梯度传输单元包括跳转连接操作或1×1的卷积操作；

定义模块403，用于定义所述待搜索结构单元中内部节点之间的操作集合；其中，所述操作集合不包含跳转连接；

搜索模块404，用于利用所述数据集搜索每个所述结构单元中待搜索结构单元的每两个内部节点之间的最佳操作，并确定所述梯度传输单元的结构。

本申请实施例为图像分类任务设计了新的神经网络，其包含多个结构单元，每个结构单元包括待搜索结构单元和梯度传输单元，待搜索结构单元中内部节点之间的操作集合不包含跳转连接，在待搜索结构单元中搜索每两个内部节点之间的最佳操作，可以使得内部节点之间不会搜索到跳转连接，避免神经网络搜索算法随着搜索迭代次数增多而精度下降。同时利用梯度传输单元稳定算法的搜索过程，确保深层网络的梯度被有效传输到浅层网络，进一步提高了搜索到的神经网络的最佳架构精度。由此可见，本申请实施例提供的神经网络架构搜索装置，使得图像分类的神经网络随着搜索的迭代次数增加而精度增加，提高了搜索到的图像分类的神经网络的最佳架构精度。

在上述实施例的基础上，作为一种优选实施方式，所述待搜索结构单元的输出为所述待搜索结构单元中所有内部节点的可分离拼接。

在上述实施例的基础上，作为一种优选实施方式，若输入所述结构单元的特征图的维度与所述结构单元中待搜索结构单元输出的特征图的维度相同，则所述结构单元中梯度传输单元具体为跳转连接；若输入所述结构单元的特征图的维度与所述结构单元中待搜索结构单元输出的特征图的维度不同，则所述结构单元中梯度传输单元具体为1×1的卷积操作。

在上述实施例的基础上，作为一种优选实施方式，所述结构单元的输出为所述结构单元中待搜索结构单元的输出和梯度传输单元的输出之和。

在上述实施例的基础上，作为一种优选实施方式，所述神经网络中第

和

个结构单元为降分辨率结构单元，所述降分辨率结构单元的步幅为2，其余结构单元的步幅为1。

在上述实施例的基础上，作为一种优选实施方式，所述数据集包括训练集和验证集；所述搜索模块404包括：

第一确定单元，用于利用所述训练集确定所述操作集合中每个操作的权重参数；

第二确定单元，用于利用所述验证集确定每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构参数；

第三确定单元，用于将每两个内部节点之间架构参数最大的操作确定为最佳操作。

在上述实施例的基础上，作为一种优选实施方式，所述第二确定单元具体为将所述验证集的图像输入所述神经网络中，利用架构损失函数基于所述神经网络的输出和所述图像对应的类别标签计算每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构损失，并基于所述架构损失计算每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构损失梯度，基于所述架构损失梯度更新每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构参数的单元；

其中，所述架构损失函数为：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

基于上述程序模块的硬件实现，且为了实现本申请实施例的方法，本申请实施例还提供了一种电子设备，图5为根据一示例性实施例示出的一种电子设备的结构图，如图5所示，电子设备包括：

通信接口1，能够与其它设备比如网络设备等进行信息交互；

处理器2，与通信接口1连接，以实现与其它设备进行信息交互，用于运行计算机程序时，执行上述一个或多个技术方案提供的神经网络架构搜索方法。而所述计算机程序存储在存储器3上。

当然，实际应用时，电子设备中的各个组件通过总线系统4耦合在一起。可理解，总线系统4用于实现这些组件之间的连接通信。总线系统4除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图5中将各种总线都标为总线系统4。

本申请实施例中的存储器3用于存储各种类型的数据以支持电子设备的操作。这些数据的示例包括：用于在电子设备上操作的任何计算机程序。

可以理解，存储器3可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random AccessMemory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本申请实施例描述的存储器3旨在包括但不限于这些和任意其它适合类型的存储器。

上述本申请实施例揭示的方法可以应用于处理器2中，或者由处理器2实现。处理器2可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器2中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器2可以是通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器2可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器3，处理器2读取存储器3中的程序，结合其硬件完成前述方法的步骤。

处理器2执行所述程序时实现本申请实施例的各个方法中的相应流程，为了简洁，在此不再赘述。

在示例性实施例中，本申请实施例还提供了一种存储介质，即计算机存储介质，具体为计算机可读存储介质，例如包括存储计算机程序的存储器3，上述计算机程序可由处理器2执行，以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种神经网络架构搜索方法，其特征在于，包括：

2.根据权利要求1所述神经网络架构搜索方法，其特征在于，所述待搜索结构单元的输出为所述待搜索结构单元中所有内部节点的可分离拼接。

3.根据权利要求1所述神经网络架构搜索方法，其特征在于，所述确定所述梯度传输单元的结构，包括：

4.根据权利要求2所述神经网络架构搜索方法，其特征在于，所述结构单元的输出为所述结构单元中待搜索结构单元的输出和梯度传输单元的输出之和。

5.根据权利要求1所述神经网络架构搜索方法，其特征在于，所述神经网络中第

和

6.根据权利要求1所述神经网络架构搜索方法，其特征在于，所述数据集包括训练集和验证集；利用所述数据集搜索每个所述结构单元中待搜索结构单元的每两个内部节点之间的最佳操作，包括：

利用所述训练集确定所述操作集合中每个操作的权重参数；

7.根据权利要求6所述神经网络架构搜索方法，其特征在于，所述利用所述验证集确定每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构参数，包括：

其中，所述架构损失函数为：

8.一种神经网络架构搜索装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述神经网络架构搜索方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述神经网络架构搜索方法的步骤。