CN112949832B

CN112949832B - 一种网络结构搜索方法、装置、电子设备及存储介质

Info

Publication number: CN112949832B
Application number: CN202110324260.4A
Authority: CN
Inventors: 李健铨; 刘小康; 李德彦
Original assignee: Dingfu Intelligent Technology Co ltd
Current assignee: Dingfu Intelligent Technology Co ltd
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2024-04-16
Anticipated expiration: 2041-03-25
Also published as: CN112949832A

Abstract

本申请提供一种网络结构搜索方法、装置、电子设备及存储介质，该方法包括：获得待搜索结构，待搜索结构包括：多个隐含层和多个梯度保持层，每个梯度保持层设置于隐含层的后面；对待搜索结构进行网络结构搜索，获得待搜索模型；对待搜索模型进行训练，获得搜索后的神经网络模型。在上述的实现过程中，通过将梯度保持层设置在待搜索结构中的隐含层后面，使用梯度保持层可以对隐含层输出的特征进行梯度保持操作，使得待搜索结构中的特征梯度得到有效地传递，从而保证了后续的网络结构搜索性能，减小了梯度消失的现象发生的概率。

Description

一种网络结构搜索方法、装置、电子设备及存储介质

技术领域

本申请涉及机器学习和深度学习的技术领域，具体而言，涉及一种网络结构搜索方法、装置、电子设备及存储介质。

背景技术

网络结构搜索(Network Architecture Search，NAS)，又被称为神经网络搜索或者神经网络结构搜索，是指自动生成神经网络结构的方法过程；由于绝大多数网络结构的设计都是根据先验知识进行人工设计的，因此，如果能够找到自动生成符合需求神经网络结构的方法，将极大地减轻在深度学习过程中获得可以使用的模型成本。

目前，在网络结构搜索(Network Architecture Search，NAS)的过程中发现，当搜索轮数(search epoch)过大时，通过网络结构搜索方法搜索出的神经网络网络结构中会包含很多的跳连接(skip-connect)；这些跳连接会导致后续的网络结构搜索性能会变得很差，这种现象被称作为梯度消失(Gradient Collapse)。

发明内容

本申请实施例的目的在于提供一种网络结构搜索方法、装置、电子设备及存储介质，用于改善在网络结构搜索过程中性能会变得很差甚至梯度消失的问题。

本申请实施例提供了一种网络结构搜索方法，包括：获得待搜索结构，待搜索结构包括：多个隐含层和多个梯度保持层，每个梯度保持层设置于隐含层的后面；对待搜索结构进行网络结构搜索，获得待搜索模型；对待搜索模型进行训练，获得搜索后的神经网络模型。在上述的实现过程中，通过将梯度保持层设置在待搜索结构中的隐含层后面，使用梯度保持层可以对隐含层输出的特征进行梯度保持操作，使得待搜索结构中的特征梯度得到有效地传递，从而保证了后续的网络结构搜索性能，减小了梯度消失的现象发生的概率。

可选地，在本申请实施例中，梯度保持层包括：加残差模块和正则化模块；对待搜索结构进行网络结构搜索，包括：针对多个隐含层中的每个隐含层，使用加残差模块对每个隐含层的输入特征和每个隐含层的输出特征进行融合，获得融合特征，并使用正则化模块对融合特征进行层正则化运算。在上述的实现过程中，通过在每一个隐含层都进行加残差模块中的残差连接操作，有效地减少了跳连接的数量，从而减小了梯度连乘导致梯度消失发生的概率。同时，使用正则化模块将融合特征进行层正则化运算，即对加残差模块输出的所有特征进行正则化，由于每个隐含层都会进行层正则化运算，始终让隐含层输出的特征均保持在0至1的范围中，从而有效地减小了梯度爆炸发生的概率。

可选地，在本申请实施例中，使用加残差模块对每个隐含层的输入特征和每个隐含层的输出特征进行融合，包括：将每个隐含层的输入特征的通道维度与每个隐含层的输出特征的通道维度对齐，获得对齐后的输入特征和输出特征；将对齐后的输入特征和输出特征进行相加融合。

可选地，在本申请实施例中，使用加残差模块对每个隐含层的输入特征和每个隐含层的输出特征进行融合，包括：对每个隐含层的输出特征进行卷积运算，获得卷积特征；将卷积特征的通道维度与每个隐含层的输出特征的通道维度对齐，获得对齐后的卷积特征和输出特征；将对齐后的卷积特征和输出特征进行相加融合。

可选地，在本申请实施例中，对待搜索模型进行训练，包括：获得多个样本数据和每个样本数据对应的样本标签；以多个样本数据为训练数据，以多个样本数据对应的样本标签为训练标签，对待搜索模型进行训练，获得神经网络模型。在上述的实现过程中，通过使用多个样本数据和多个样本数据对应的样本标签对包括梯度保持层的待搜索模型进行训练，由于在隐含层后面设置了梯度保持层，使用梯度保持层可以对隐含层输出的特征进行梯度保持操作，从而有效地缩短了训练时间。

可选地，在本申请实施例中，以多个样本数据为训练数据，以多个样本数据对应的样本标签为训练标签，对待搜索模型进行训练，包括：使用待搜索模型对样本数据的标签进行预测，获得预测标签；计算预测标签与样本标签之间的损失值；根据损失值更新待搜索模型的网络参数。在上述的实现过程中，通过使用多个样本数据和多个样本数据对应的样本标签对包括梯度保持层的待搜索模型进行训练，由于在隐含层后面设置了梯度保持层，使用梯度保持层可以对隐含层输出的特征进行梯度保持操作，从而有效地缩短了训练时间。

可选地，在本申请实施例中，在获得搜索后的神经网络模型之后，还包括：获得预设任务对应的训练数据；使用预设任务对应的训练数据对搜索后的神经网络模型进行微调，获得微调后的神经网络模型。

本申请实施例还提供了一种网络结构搜索装置，包括：搜索结构获得模块，用于获得待搜索结构，待搜索结构包括：多个隐含层和多个梯度保持层，每个梯度保持层设置于隐含层的后面；搜索模型获得模块，用于对待搜索结构进行网络结构搜索，获得待搜索模型；网络模型获得模块，用于对待搜索模型进行训练，获得搜索后的神经网络模型。

可选地，在本申请实施例中，梯度保持层包括：加残差模块和正则化模块；搜索模型获得模块，包括：特征融合正则化模块，用于针对多个隐含层中的每个隐含层，使用加残差模块对每个隐含层的输入特征和每个隐含层的输出特征进行融合，获得融合特征，并使用正则化模块对融合特征进行层正则化运算。

可选地，在本申请实施例中，特征融合正则化模块，包括：第一特征对齐模块，用于将每个隐含层的输入特征的通道维度与每个隐含层的输出特征的通道维度对齐，获得对齐后的输入特征和输出特征；第一相加融合模块，用于将对齐后的输入特征和输出特征进行相加融合。

可选地，在本申请实施例中，特征融合正则化模块，包括：卷积特征获得模块，用于对每个隐含层的输出特征进行卷积运算，获得卷积特征；第二特征对齐模块，用于将卷积特征的通道维度与每个隐含层的输出特征的通道维度对齐，获得对齐后的卷积特征和输出特征；第二相加融合模块，用于将对齐后的卷积特征和输出特征进行相加融合。

可选地，在本申请实施例中，网络模型获得模块，包括：数据标签获得模块，用于获得多个样本数据和每个样本数据对应的样本标签；搜索模型训练模块，用于以多个样本数据为训练数据，以多个样本数据对应的样本标签为训练标签，对待搜索模型进行训练，获得神经网络模型。

可选地，在本申请实施例中，搜索模型训练模块，包括：预测标签获得模块，用于使用待搜索模型对样本数据的标签进行预测，获得预测标签；标签损失计算模块，用于计算预测标签与样本标签之间的损失值；网络参数更新模块，用于根据损失值更新待搜索模型的网络参数。

可选地，在本申请实施例中，网络结构搜索装置，还包括：训练数据获得模块，用于获得预设任务对应的训练数据；网络模型微调模块，用于使用预设任务对应的训练数据对搜索后的神经网络模型进行微调，获得微调后的神经网络模型。

本申请实施例还提供了一种电子设备，包括：处理器和存储器，存储器存储有处理器可执行的机器可读指令，机器可读指令被处理器执行时执行如上面描述的方法。

本申请实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上面描述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出的本申请实施例提供的网络结构搜索方法的流程示意图；

图2示出的本申请实施例提供的待搜索结构的其中一种网络结果示意图；

图3示出的本申请实施例提供的两种示例性融合方式的示意图；

图4示出的本申请实施例提供的对待搜索模型进行微调的流程示意图；

图5示出的本申请实施例提供的网络结构搜索装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。

在介绍本申请实施例提供的网络结构搜索方法之前，先介绍本申请实施例中所涉及的一些概念：

批量正则化(Batch Normalization，BN)，又被称为批量归一化，是指在神经网络的计算过程中，对每一批数据进行归一化处理，对于训练中某一个批量(batch)的数据，注意这个数据是可以输入也可以是网络中间的某一层输出。

监督式学习(Supervised learning)，又被称为监督式训练，是机器学习的一种学习范式，可以由训练资料中学到或建立一个学习模式(learning model)或学习函数，并依此模式推测新的实例。

无监督学习(unsupervised learning)，又被称为无监督式训练，是指机器学习的一种方法学习方式，没有给定事先标记过的训练示例，自动对输入的数据进行分类或分群。

需要说明的是，本申请实施例提供的网络结构搜索方法可以被电子设备执行，这里的电子设备是指具有执行计算机程序功能的设备终端或者服务器，设备终端例如：智能手机、个人电脑(personal computer，PC)、平板电脑、个人数字助理(personal digitalassistant，PDA)或者移动上网设备(mobile Internet device，MID)等。服务器是指通过网络提供计算服务的设备，服务器例如：x86服务器以及非x86服务器，非x86服务器包括：大型机、小型机和UNIX服务器。

在介绍本申请实施例提供的网络结构搜索方法之前，先介绍该网络结构搜索方法适用的应用场景，这里的应用场景包括但不限于：基于深度学习的自然语言处理、图像识别和声音识别等等场景，具体例如：针对具体的任务使用该神经网络结构搜索方法获得搜索后的神经网络模型，并使用神经网络模型完成依存句法分析、命名实体识别和词性标注等等自然语言处理任务。

请参见图1示出的本申请实施例提供的网络结构搜索方法的流程示意图；该网络结构搜索方法的主要思路是，通过将梯度保持层设置在待搜索结构中的隐含层后面，使用梯度保持层可以对隐含层输出的特征进行梯度保持操作，使得待搜索结构中的特征梯度得到有效地传递，从而保证了后续的网络结构搜索性能，减小了梯度消失的现象发生的概率；上述的网络结构搜索方法可以包括：

步骤S110：获得待搜索结构，待搜索结构包括：多个隐含层和多个梯度保持层，每个梯度保持层设置于隐含层的后面。

请参见图2示出的本申请实施例提供的待搜索结构的其中一种网络结果示意图；图2中示出的是每个隐含层后面均设置了梯度保持层，但是在具体实践过程中，可以根据情况进行调整，例如：有些隐含层后面可以设置梯度保持层，有些隐含层后面也可以不设置梯度保持层；这正体现了每个梯度保持层设置于隐含层的后面的意思，也就是说，如果有梯度保持层，则该梯度保持层一定是设置于隐含层的后面的，但是隐含层后面却不一定设置有梯度保持层。该待搜索结构还可以包括：输入层和输出层，输入层可以与多个隐含层中任意一个隐含层连接，其中，上述的多个隐含层的数量可以是任意数量，为了便于理解和说明，图2中仅示出了四个隐含层：第一隐含层、第二隐含层、第三隐含层和第四隐含层，隐含层可以是包括多个神经网络节点，此处的神经网络节点是指基本的神经网络单元操作，神经网络节点包括但不限于：卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(Recurrent Neural Network,RNN)和注意力机制(Attention Mechanism，Attn)网络等等。待搜索结构中的每个隐含层后面均连接有梯度保持层，该梯度保持层与其它隐含层是否连接是由结构参数(又被称为连接权重决定的)，结构参数是需要经过下面的网络结构搜索操作才能够确定，因此，在图2中使用虚线表示该结构参数，该结构参数是表示两个神经网络结构之间的连接概率。

可以理解的是，输出层可以与任意一个隐含层或者任意一个梯度保持层连接，也就是说，输出层连接的隐含层可以不设置梯度保持层，直接将隐含层中的特征用于输出(例如分类预测)。上述的梯度保持层可以包括：加残差模块和正则化(Normalize)模块；其中，梯度保持层具体可以采用变形器(Transformer)机制的Add&Normalize，Add就是指加残差模块，Normalize就是指正则化模块，此处的正则化是指层正则化(Layer Normalization)，即对加残差模块输出的所有特征进行正则化，而不是指批量正则化(BN)；加残差模块的作用是将隐含层的输入特征和输出特征进行融合，此处的融合可以理解为在原来的输出特征的基础上增加残差连接(Residual Connection)，这种操作通常被称作捷径(shortcut)，从而获得融合特征。

由于在原来的输出特征的基础上增加了输入特征这个残差，在该层网络对求偏导时，求出的偏导数为常数项1，从而有效地在梯度反向传播(又称反馈传播)的过程中保持了梯度，在每一层都进行这样的操作时，有效地减少了跳连接(skip-connection)的数量，从而减小了梯度连乘导致梯度消失(collapse)发生的概率。上述的正则化模块的作用是将融合特征进行层正则化(Normalize)运算，即对加残差模块输出的所有特征进行正则化，由于每个隐含层都会进行层正则化运算，始终让隐含层输出的特征均保持在0至1的范围中，从而有效地减小了梯度爆炸(explosion)发生的概率。

步骤S120：对待搜索结构进行网络结构搜索，获得待搜索模型。

上述步骤S120的实施方式有很多种，包括但不限于如下几种：

第一种实施方式，先使用对每个隐含层的输入特征和每个隐含层的输出特征进行融合，然后再对融合特征进行层正则化运算，最后根据正则化运算的结果特征来更新隐含层的结构参数(即图2中用虚线表示的连接权重)；该实施方式具体例如：针对多个隐含层中的每个隐含层，使用加残差模块对该隐含层的输入特征和该隐含层的输出特征进行融合，获得融合特征，并使用正则化模块对融合特征进行层正则化运算，最后，根据正则化运算的结果特征来更新该隐含层的结构参数，从而获得最终的待搜索模型。

请参见图3示出的本申请实施例提供的两种示例性融合方式的示意图；上述的使用加残差模块对每个隐含层的输入特征和每个隐含层的输出特征进行融合的融合方式也有很多种，包括但不限于如下几种：

第一种融合方式，直接先对齐再融合，该实施方式具体例如：先将每个隐含层的输入特征的通道维度与每个隐含层的输出特征的通道维度对齐，获得对齐后的输入特征和输出特征，再将对齐后的输入特征和输出特征进行相加融合。如图2所示，上述过程可以使用公式表示，假设隐含层的输入特征使用X表示，该隐含层的输出特征使用F(X)表示，然后将X和F(X)的通道维度对齐(即让X和F(X)的通道数量相同)，再将对齐后的输入特征和输出特征进行相加融合，获得的融合特征可以表示为：X+F(X)，对融合特征进行层正则化运算可以表示为：LN(X+F(X))；其中，LN表示层正则化(Layer Normalization)运算。

第二种融合方式，先卷积对齐再融合，该实施方式具体例如：首先，对每个隐含层的输出特征进行卷积运算，获得卷积特征；然后，将卷积特征的通道维度与每个隐含层的输出特征的通道维度对齐，获得对齐后的卷积特征和输出特征；最后，将对齐后的卷积特征和输出特征进行相加融合。如图2所示，上述过程可以使用公式表示，假设隐含层的输入特征使用X表示，该隐含层的输出特征使用F(X)表示，获得的卷积特征可以表示conv(X)，获得的融合特征可以表示为：conv(X)+F(X)，其中，对齐再融合的实施原理与第一种融合方式的实施原理相同，此处便不再赘述。

第二种实施方式，使用可微分结构搜索(Differentiable Architecture Search，DARTS)算法或者渐进的可微分网络结构搜索(Progressive DifferentiableArchitecture Search，P-DARTS)算法对待搜索结构进行网络结构搜索，获得待搜索模型。

步骤S130：对待搜索模型进行训练，获得搜索后的神经网络模型。

上述步骤S130的训练方式有很多种，包括但不限于如下几种：

第一种训练方式，使用监督式学习的方式对待搜索模型进行训练，即使用样本数据和样本标签对待搜索模型进行训练，该训练方式可以包括：

步骤S131：获得多个样本数据和每个样本数据对应的样本标签。

上述步骤S131的实施方式例如：第一种实施方式，人工采集样本数据，并使用人工打标签的方式对样本数据打上样本标签，具体例如：如果是图像分类任务或者图像识别任务，那么可以使用摄像头采集图像，并框出目标对象在该图像中的位置(即回归边框)，并在打上类别标签(即回归边框中的目标对象的类别)。第二种实施方式，采用已经存在的训练数据集中的样本数据和样本标签对待搜索模型进行训练；具体例如：如果是图像分类任务或者图像识别任务，则可以使用从互联网上下载ImageNet图像数据集或者COCO图像数据集；其中，ImageNet是一个用于视觉对象识别软件研究的大型可视化数据集，COCO是一个用于图像识别研究的图像数据集。然后，从ImageNet图像数据集或者COCO图像数据集中获取图片数据作为样本数据，从ImageNet图像数据集或者COCO图像数据集中获取图片数据的分类标签或/和回归框作为样本标签。

步骤S132：以多个样本数据为训练数据，以多个样本数据对应的样本标签为训练标签，对待搜索模型进行训练，获得神经网络模型。

上述步骤S132的实施方式例如：使用待搜索模型对样本数据的标签进行预测，获得预测标签，此处的预测标签可以是预测样本数据的分类，例如是垃圾邮件的概率为0.7；使用损失函数计算预测标签与样本标签之间的损失值，此处的样本标签例如：1代表是垃圾邮件，0代表不是垃圾邮件；根据损失值更新待搜索模型的网络参数，直到神经网络的网络参数收敛时，即可获得训练好的神经网络模型；假设样本标签的值是1，那么可以计算出预测标签0.7与样本标签1之间的损失值，并根据该损失值计算出待搜索模型的反向传播(BackPropagation)梯度值，根据预先设置或者优化算法计算出的学习率(学习率是训练过程中的超参数)和反向传播梯度值来更新待搜索模型的网络参数。

其中，在上述使用损失函数计算预测标签与样本标签之间的损失值的过程中，可以使用的损失函数包括：交叉熵损失函数、平方损失函数、指数损失函数(exponentialloss)、绝对值损失函数和推土机距离(Earth Mover Distance，EMD)损失函数等等。此处的推土机距离又被称为Wasserstein距离，是指度量两个概率分布之间的距离，可以用于描述两个多维分布之间相似度的度量，Π(P1,P2)是P1和P2分布组合起来的所有可能的联合分布的集合；对于每一个可能的联合分布γ，可以从中采样(x,y)～γ得到一个样本x和y，并计算出这对样本的距离||x-y||，所以可以计算该联合分布γ下，样本对距离的期望值E(x,y)～γ[||x-y||]。

第二种训练方式，使用半监督式学习的方式对待搜索模型进行训练，半监督学习是介于监督式学习和无监督学习之间的一种学习方式；也就是说，在人工采集样本数据到达一定数量之后，可以使用训练了一段时间的待搜索模型对新的样本数据进行计算，从而获得该样本数据对应的样本标签。然后，新的样本数据和该样本数据对应的样本标签又可以作为新的训练数据，并使用新的训练数据对待搜索模型进行训练。

在上述的实现过程中，首先，获得设置有梯度保持层的待搜索结构；然后，对待搜索结构进行网络结构搜索，获得待搜索模型；最后，对待搜索模型进行训练，获得搜索后的神经网络模型。由于上述的梯度保持层包括：加残差模块和正则化(Normalize)模块；从而在每一个隐含层都进行加残差模块中的残差连接(Residual Connection)操作，有效地减少了跳连接(skip-connection)的数量，从而减小了梯度连乘导致梯度消失(collapse)发生的概率。也就是说，通过将梯度保持层设置在待搜索结构中的隐含层后面，使用梯度保持层可以对隐含层输出的特征进行梯度保持操作，使得待搜索结构中的特征梯度得到有效地传递，从而保证了后续的网络结构搜索性能，减小了梯度消失的现象发生的概率。

进一步地，在网络结构搜索的过程中，使用正则化模块将融合特征进行层正则化(Normalize)运算，即对加残差模块输出的所有特征进行正则化，由于每个隐含层都会进行层正则化运算，始终让隐含层输出的特征均保持在0至1的范围中，从而有效地减小了梯度爆炸(explosion)发生的概率。

请参见图4示出的本申请实施例提供的对待搜索模型进行微调的流程示意图；可选地，在获得待搜索模型之后，还可以根据具体任务对待搜索模型进行微调，并使用微调后的神经网络模型完成自然语言处理任务、语音处理任务或者图像处理任务，该实施方式可以包括：

步骤S210：获得预设任务对应的训练数据。

预设任务，是指根据具体情况设置的任务，具体可以是自然语言处理(NaturalLanguage Processing，NLP)相关的任务，常见的自然语言处理任务例如：依存句法分析、指代消解、命名实体识别和词性标注等等。

其中，该步骤S210的实施原理和实施方式与步骤S131的实施原理和实施方式是类似的，因此，这里不再说明其实施原理和实施方式，如有不清楚的地方，可以参考对步骤S131的描述。

步骤S220：使用预设任务对应的训练数据对搜索后的神经网络模型进行微调，获得微调后的神经网络模型。

上述的微调是指针对具体的深度学习任务，在对搜索后的神经网络模型进行微调时，可以保留之前训练的大多数参数，从而达到快速训练收敛的效果。

上述步骤S220的实施方式例如：使用预设任务对应的训练数据对搜索后的神经网络模型进行微调(fine-tuning)，获得微调后的神经网络模型；具体例如：将原来输出二维的全连接层替换为输出一维的全连接层，或者，将原来输出10个分类的softmax网络层替换为输出3个分类的softmax网络层。上述的微调又例如：搜索后的神经网络模型可以分类出2种文本、语音或者图像，需要增加1个新的分类从而使搜索后的神经网络模型可以分类出3种文本、语音或者图像，那么可以在训练数据中增加一个分类的文本或者图像，获得增加后的训练数据，并使用增加后的训练数据对搜索后的神经网络模型进行训练，从而获得微调后的神经网络模型；最后，使用微调后的神经网络模型完成自然语言处理任务、语音处理任务或者图像分类任务。

请参见图5示出的本申请实施例提供的网络结构搜索装置的结构示意图。本申请实施例提供了一种网络结构搜索装置300，包括：

搜索结构获得模块310，用于获得待搜索结构，待搜索结构包括：多个隐含层和多个梯度保持层，每个梯度保持层设置于隐含层的后面。

搜索模型获得模块320，用于对待搜索结构进行网络结构搜索，获得待搜索模型。

网络模型获得模块330，用于对待搜索模型进行训练，获得搜索后的神经网络模型。

可选地，在本申请实施例中，梯度保持层包括：加残差模块和正则化模块；搜索模型获得模块，包括：

特征融合正则化模块，用于针对多个隐含层中的每个隐含层，使用加残差模块对每个隐含层的输入特征和每个隐含层的输出特征进行融合，获得融合特征，并使用正则化模块对融合特征进行层正则化运算。

可选地，在本申请实施例中，特征融合正则化模块，可以包括：

第一特征对齐模块，用于将每个隐含层的输入特征的通道维度与每个隐含层的输出特征的通道维度对齐，获得对齐后的输入特征和输出特征。

第一相加融合模块，用于将对齐后的输入特征和输出特征进行相加融合。

可选地，在本申请实施例中，特征融合正则化模块，还可以包括：

卷积特征获得模块，用于对每个隐含层的输出特征进行卷积运算，获得卷积特征。

第二特征对齐模块，用于将卷积特征的通道维度与每个隐含层的输出特征的通道维度对齐，获得对齐后的卷积特征和输出特征。

第二相加融合模块，用于将对齐后的卷积特征和输出特征进行相加融合。

可选地，在本申请实施例中，网络模型获得模块，包括：

数据标签获得模块，用于获得多个样本数据和每个样本数据对应的样本标签。

搜索模型训练模块，用于以多个样本数据为训练数据，以多个样本数据对应的样本标签为训练标签，对待搜索模型进行训练，获得神经网络模型。

可选地，在本申请实施例中，搜索模型训练模块，包括：

预测标签获得模块，用于使用待搜索模型对样本数据的标签进行预测，获得预测标签。

标签损失计算模块，用于计算预测标签与样本标签之间的损失值。

网络参数更新模块，用于根据损失值更新待搜索模型的网络参数。

可选地，在本申请实施例中，网络结构搜索装置，还包括：

训练数据获得模块，用于获得预设任务对应的训练数据。

网络模型微调模块，用于使用预设任务对应的训练数据对搜索后的神经网络模型进行微调，获得微调后的神经网络模型。

应理解的是，该装置与上述的网络结构搜索方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。

本申请实施例提供的一种电子设备，包括：处理器和存储器，存储器存储有处理器可执行的机器可读指令，机器可读指令被处理器执行时执行如上的方法。

本申请实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上的方法。

其中，存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器，电可擦除可编程只读存储器，可擦除可编程只读存储器，可编程只读存储器，只读存储器，磁存储器，快闪存储器，磁盘或光盘。

以上的描述，仅为本申请实施例的可选实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种网络结构搜索方法，其特征在于，包括：

获得待搜索结构，所述待搜索结构包括：多个隐含层和多个梯度保持层，每个所述梯度保持层设置于所述隐含层的后面；

对所述待搜索结构进行网络结构搜索，获得待搜索模型；

对所述待搜索模型进行训练，获得搜索后的神经网络模型；

其中，所述梯度保持层包括：加残差模块和正则化模块；所述对所述待搜索结构进行网络结构搜索，包括：针对所述多个隐含层中的每个隐含层，使用所述加残差模块对所述每个隐含层的输入特征和所述每个隐含层的输出特征进行融合，获得融合特征，并使用所述正则化模块对所述融合特征进行层正则化运算。

2.根据权利要求1所述的方法，其特征在于，所述使用所述加残差模块对所述每个隐含层的输入特征和所述每个隐含层的输出特征进行融合，包括：

将所述每个隐含层的输入特征的通道维度与所述每个隐含层的输出特征的通道维度对齐，获得对齐后的输入特征和输出特征；

将所述对齐后的输入特征和输出特征进行相加融合。

3.根据权利要求1所述的方法，其特征在于，所述使用所述加残差模块对所述每个隐含层的输入特征和所述每个隐含层的输出特征进行融合，包括：

对所述每个隐含层的输出特征进行卷积运算，获得卷积特征；

将所述卷积特征的通道维度与所述每个隐含层的输出特征的通道维度对齐，获得对齐后的卷积特征和输出特征；

将所述对齐后的卷积特征和输出特征进行相加融合。

4.根据权利要求1所述的方法，其特征在于，所述对所述待搜索模型进行训练，包括：

获得多个样本数据和每个样本数据对应的样本标签；

以所述多个样本数据为训练数据，以所述多个样本数据对应的样本标签为训练标签，对所述待搜索模型进行训练，获得所述神经网络模型。

5.根据权利要求4所述的方法，其特征在于，所述以所述多个样本数据为训练数据，以所述多个样本数据对应的样本标签为训练标签，对所述待搜索模型进行训练，包括：

使用所述待搜索模型对所述样本数据的标签进行预测，获得预测标签；

计算所述预测标签与所述样本标签之间的损失值；

根据所述损失值更新所述待搜索模型的网络参数。

6.根据权利要求1-5任一所述的方法，其特征在于，在所述获得搜索后的神经网络模型之后，还包括：

获得预设任务对应的训练数据；

使用所述预设任务对应的训练数据对所述搜索后的神经网络模型进行微调，获得微调后的神经网络模型。

7.一种网络结构搜索装置，其特征在于，包括：

搜索结构获得模块，用于获得待搜索结构，所述待搜索结构包括：多个隐含层和多个梯度保持层，每个所述梯度保持层设置于所述隐含层的后面；

搜索模型获得模块，用于对所述待搜索结构进行网络结构搜索，获得待搜索模型；

网络模型获得模块，用于对所述待搜索模型进行训练，获得搜索后的神经网络模型；

8.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如权利要求1至6任一所述的方法。

9.一种存储介质，其特征在于，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至6任一所述的方法。