CN111612134B

CN111612134B - 神经网络结构搜索方法、装置、电子设备及存储介质

Info

Publication number: CN111612134B
Application number: CN202010433942.4A
Authority: CN
Inventors: 刘小康; 李健铨
Original assignee: Dingfu Intelligent Technology Co ltd
Current assignee: Dingfu Intelligent Technology Co ltd
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2024-04-12
Anticipated expiration: 2040-05-20
Also published as: CN111612134A

Abstract

本申请提供一种神经网络结构搜索方法、装置、电子设备及存储介质，该方法包括：从待搜索网络结构中获得多个任务对应的结构参数，待搜索网络结构由多个基础单元构成，基础单元包括多个节点，结构参数表征对应的任务在节点之间的连接概率；针对多个任务中的每个任务保留连接概率最大的结构参数，获得每个任务对应的预训练模型；对每个任务对应的预训练模型进行训练，获得搜索后的神经网络模型。在上述的实现过程中，通过结合神经网络架构搜索和多任务学习来有效地提高了搜索到有效地神经网络结构模型的速度。

Description

神经网络结构搜索方法、装置、电子设备及存储介质

技术领域

本申请涉及机器学习和深度学习的技术领域，具体而言，涉及一种神经网络结构搜索方法、装置、电子设备及存储介质。

背景技术

网络结构搜索(Network Architecture Search，NAS)，又被称为神经网络搜索或者神经网络结构搜索，是指自动生成神经网络结构的方法过程，是自动机器学习领域中的一个研究课题，与超参数学习和元学习有一定的关联；由于绝大多数网络结构的设计都是根据先验知识进行人工设计的，因此，如果能够找到自动生成符合需求神经网络结构的方法，将极大地减轻在深度学习过程中获得模型的成本。网络结构搜索的目的是要搜到一个性能优异的结构，评价一个结构的性能，最常用的方法就是使用这个结构，在标准的数据集上进行训练，收敛之后使用校验集来进行评价。

目前的网络结构搜索的方法大都是基于强化学习的结构搜索算法和基于进化算法的结构搜索方法；这里的基于强化学习的结构搜索算法是将神经网络结构设计看作一个强化学习问题，学习得到一个产生网络结构的最优策略；其中，智能体是设计神经网络结构的算法，用于输出神经网络结构描述，强化学习算法使得生成的神经网络的性能最优化。这里的基于进化算法的结构搜索方法是将子网络结构编码成二进制串，运行进化算法得到适应度函数值最大的网络结构。

基于强化学习的结构搜索方法和基于进化算法的结构搜索方法都是将网络结构搜索看作黑箱的优化问题，使用强化学习或者变异遗传的思路来找到较优的神经网络结构模型，然而在具体的实现过程中发现，使用上述的方法搜索到有效神经网络结构模型的速度非常慢。

发明内容

本申请实施例的目的在于提供一种神经网络结构搜索方法、装置、电子设备及存储介质，用于改善搜索到有效神经网络结构模型的速度非常慢的问题。

本申请实施例提供了一种神经网络结构搜索方法，包括：从待搜索网络结构中获得多个任务对应的结构参数，待搜索网络结构由多个基础单元构成，基础单元包括多个节点，结构参数表征对应的任务在节点之间的连接概率；针对多个任务中的每个任务保留连接概率最大的结构参数，获得每个任务对应的预训练模型；对每个任务对应的预训练模型进行训练，获得搜索后的神经网络模型。在上述的实现过程中，通过从待搜索网络结构中获得多个任务对应的结构参数，并针对多个任务中的每个任务保留连接概率最大的结构参数，获得每个任务对应的预训练模型；然后对每个任务对应的预训练模型进行训练，获得搜索后的神经网络模型；也就是说，通过结合神经网络架构搜索和多任务学习来有效地提高了搜索到有效地神经网络结构模型的速度。

可选地，在本申请实施例中，针对多个任务中的每个任务保留连接概率最大的结构参数，包括：计算多个任务中的每个任务运行时多个节点之间的连接概率；根据多个节点之间的连接概率从多个任务对应的结构参数中筛选出连接概率最大的结构参数。在上述的实现过程中，通过计算多个任务中的每个任务运行时多个节点之间的连接概率；根据多个节点之间的连接概率从多个任务对应的结构参数中筛选出连接概率最大的结构参数；有效地提高了获得连接概率最大的结构参数的速度，从而减少了搜索到有效地神经网络结构模型的时间。

可选地，在本申请实施例中，计算多个任务中的每个任务运行时多个节点之间的连接概率，包括：根据计算多个任务中的每个任务运行时多个节点之间的连接概率；其中，i和j分别表示基础单元中的第i个节点和第j个节点，O表示每个节点中的操作集合，o表示每个节点的操作集合中的具体操作，α表示结构参数。

可选地，在本申请实施例中，对每个任务对应的预训练模型进行训练，包括：获得训练数据和预先训练的指导网络模型，训练数据包括：训练样本和训练标签，指导网络模型是使用训练数据对神经网络进行训练获得的，指导网络模型的网络结构比预训练模型的网络结构复杂；使用指导网络模型对训练样本进行计算，获得第一输出标签，并使用预训练模型对训练样本进行计算，获得第二输出标签；根据训练标签、第一输出标签和第二输出标签计算预训练模型的综合损失；根据综合损失对每个任务对应的预训练模型进行训练。

在上述的实现过程中，通过获得训练数据和预先训练的指导网络模型；使用预先训练的指导网络模型对每个任务对应的预训练模型进行指导训练；从而减少了对每个任务对应的预训练模型进行训练的时间，提高了获得有效地神经网络结构模型的速度。

可选地，在本申请实施例中，根据训练标签、第一输出标签和第二输出标签计算预训练模型的综合损失，包括：分别计算第一输出标签和第二输出标签的第一交叉熵，以及训练标签和第二输出标签的第二交叉熵；对第一交叉熵和第二交叉熵进行加权融合，获得综合损失。在上述的实现过程中，通过分别计算第一输出标签和第二输出标签的第一交叉熵，以及训练标签和第二输出标签的第二交叉熵；对第一交叉熵和第二交叉熵进行加权融合，获得综合损失；从而减少了对每个任务对应的预训练模型进行训练的时间，提高了获得有效地神经网络结构模型的速度。

可选地，在本申请实施例中，根据综合损失对每个任务对应的预训练模型进行训练，包括：保持每个任务对应的预训练模型的结构参数不变；根据综合损失更新每个任务对应的预训练模型的网络参数，网络参数表征预训练模型的输入数据的权重。在上述的实现过程中，通过保持每个任务对应的预训练模型的结构参数不变；根据综合损失更新每个任务对应的预训练模型的网络参数，网络参数表征预训练模型的输入数据的权重；从而提高了更新每个任务对应的预训练模型的网络参数的速度，有效地减少了获得搜索后的神经网络结构模型的时间。

可选地，在本申请实施例中，在获得搜索后的神经网络模型之后，还包括：获得预设任务对应的训练数据；使用预设任务对应的训练数据对搜索后的神经网络模型进行微调，获得微调后的神经网络模型。在上述的实现过程中，通过获得预设任务对应的训练数据；使用预设任务对应的训练数据对搜索后的神经网络模型进行微调，获得微调后的神经网络模型；从而减少了获得微调后的神经网络模型的时间，有效地提高了对搜索后的神经网络模型进行微调的速度。

可选地，在本申请实施例中，对第一交叉熵和第二交叉熵进行加权融合，包括：根据对第一交叉熵和第二交叉熵进行加权融合；其中，Loss表示综合损失，α表示选择参数，task表示多个任务，t表示多个任务中的第t个任务，CE表示交叉熵，s表示第一输出标签，logits表示第二输出标签，y表示训练标签。

本申请实施例还提供了一种网络结构搜索装置，包括：结构参数获得模块，用于从待搜索网络结构中获得多个任务对应的结构参数，待搜索网络结构由多个基础单元构成，基础单元包括多个节点，结构参数表征对应的任务在节点之间的连接概率；结构参数保留模块，用于针对多个任务中的每个任务保留连接概率最大的结构参数，获得每个任务对应的预训练模型；网络模型获得模块，用于对每个任务对应的预训练模型进行训练，获得搜索后的神经网络模型。

可选地，在本申请实施例中，结构参数保留模块，包括：连接概率计算模块，用于计算多个任务中的每个任务运行时多个节点之间的连接概率；结构参数筛选模块，用于根据多个节点之间的连接概率从多个任务对应的结构参数中筛选出连接概率最大的结构参数。

可选地，在本申请实施例中，连接概率计算模块，包括；概率计算实现模块，用于根据计算多个任务中的每个任务运行时多个节点之间的连接概率；其中，，i和j分别表示基础单元中的第i个节点和第j个节点，O表示每个节点中的操作集合，o表示每个节点的操作集合中的具体操作，α表示结构参数。

可选地，在本申请实施例中，网络模型获得模块，包括；训练数据指导模块，用于获得训练数据和预先训练的指导网络模型，训练数据包括：训练样本和训练标签，指导网络模型是使用训练数据对神经网络进行训练获得的，指导网络模型的网络结构比预训练模型的网络结构复杂；训练样本计算模块，用于使用指导网络模型对训练样本进行计算，获得第一输出标签，并使用预训练模型对训练样本进行计算，获得第二输出标签；综合损失计算模块，用于根据训练标签、第一输出标签和第二输出标签计算预训练模型的综合损失；任务模型训练模块，用于根据综合损失对每个任务对应的预训练模型进行训练。

可选地，在本申请实施例中，综合损失计算模块，包括：交叉熵计算模块，用于分别计算第一输出标签和第二输出标签的第一交叉熵，以及训练标签和第二输出标签的第二交叉熵；加权融合计算模块，用于对第一交叉熵和第二交叉熵进行加权融合，获得综合损失。

可选地，在本申请实施例中，任务模型训练模块，包括：结构参数保持模块，用于保持每个任务对应的预训练模型的结构参数不变；网络参数更新模块，用于根据综合损失更新每个任务对应的预训练模型的网络参数，网络参数表征预训练模型的输入数据的权重。

可选地，在本申请实施例中，神经网络结构搜索装置，还包括：训练数据获得模块，用于获得预设任务对应的训练数据；网络模型微调模块，用于使用预设任务对应的训练数据对搜索后的神经网络模型进行微调，获得微调后的神经网络模型。

可选地，在本申请实施例中，加权融合计算模块，包括；加权融合模块，包括根据对第一交叉熵和第二交叉熵进行加权融合；其中，Loss表示综合损失，α表示选择参数，task表示多个任务，t表示多个任务中的第t个任务，CE表示交叉熵，s表示第一输出标签，logits表示第二输出标签，y表示训练标签。

本申请实施例还提供了一种电子设备，包括：处理器和存储器，存储器存储有处理器可执行的机器可读指令，机器可读指令被处理器执行时执行如上面描述的方法。

本申请实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上面描述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出的本申请实施例提供的神经网络结构搜索方法的流程示意图；

图2示出的本申请实施例提供的待搜索网络结构的结构变化示意图；

图3示出的本申请实施例提供的结合多任务学习的神经网络结构搜索方法的示意图；

图4示出的本申请实施例提供的结合蒸馏学习的神经网络结构搜索方法的示意图；

图5示出的本申请实施例提供的对神经网络模型进行微调的流程示意图；

图6示出的本申请实施例提供的神经网络结构搜索装置的结构示意图；

图7示出的本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。

在介绍本申请实施例提供的神经网络结构搜索方法之前，先介绍本申请实施例所涉及的一些概念：

机器学习(Machine Learning，ML)，是指人工智能领域中研究人类学习行为的一个分支。借鉴认知科学、生物学、哲学、统计学、信息论、控制论、计算复杂性等学科或理论的观点，通过归纳、一般化、特殊化、类比等基本方法探索人类的认识规律和学习过程，建立各种能通过经验自动改进的算法，使计算机系统能够具有自动学习特定知识和技能的能力。

深度学习(Deep Learning)，是机器学习中一种基于对数据进行表征学习的算法，深度学习是机器学习的分支，也是一种以人工神经网络为架构，对数据进行表征学习的算法。

卷积神经网络(Convolutional Neural Networks，CNN)，是一种人工神经网络，人工神经网络的人工神经元可以响应周围单元，可以进行大型图像处理；卷积神经网络可以包括卷积层和池化层。卷积神经网络包括一维卷积神经网络、二维卷积神经网络以及三维卷积神经网络。一维卷积神经网络常应用于序列类的数据处理；二维卷积神经网络常应用于图像类文本的识别；三维卷积神经网络主要应用于医学图像以及视频类数据识别。

循环神经网络(Recurrent Neural Network，RNN)，又称递归神经网络，是一类以序列数据为输入，在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)；循环神经网络的核心部分是一个有向图；该有向图展开中以链式相连的元素被称为循环单元(RNN cell)。

可微分结构搜索(Differentiable Architecture Search，DARTS)，是指将网络空间表示为一个有向无环图，其关键是将节点连接和激活函数通过一种巧妙的表示组合成了一个矩阵，其中每个元素代表了连接和激活函数的权重，在搜索时使用了Softmax函数，这样就将搜索空间变成了连续空间，目标函数成为了可微函数。在搜索时，DARTS会遍历全部节点，使用节点上全部连接的加权进行计算，同时优化结构权重和网络权重。搜索结束后，选择权重最大的连接和激活函数，形成最终的网络。

多任务学习(Multi Task Learning，MTL)，是一种归纳迁移方法，充分利用隐含在多个相关任务训练信号中的特定领域信息。在后向传播过程中，多任务学习允许共享隐层中专用于某个任务的特征被其他任务使用；多任务学习将可以学习到可适用于几个不同任务的特征，这样的特征在单任务学习网络中往往不容易学到。

归一化指数函数(Softmax)，又被称为softmax分类器、softmax层或Softmax函数，实际上是有限项离散概率分布的梯度对数归一化；在数学中，尤其是概率论和相关领域中，归一化指数函数，或称Softmax函数，是逻辑函数的一种推广；归一化指数函数能将一个含任意实数的K维向量z“压缩”到另一个K维实向量σ(z)中，使得每一个元素的范围都在(0,1)之间，并且所有元素的和为1。

服务器是指通过网络提供计算服务的设备，服务器例如：x86服务器以及非x86服务器，非x86服务器包括：大型机、小型机和UNIX服务器。当然在具体的实施过程中，上述的服务器可以具体选择大型机或者小型机，这里的小型机是指采用精简指令集计算(ReducedInstruction Set Computing，RISC)、单字长定点指令平均执行速度(MillionInstructions Per Second，MIPS)等专用处理器，主要支持UNIX操作系统的封闭且专用的提供计算服务的设备；这里的大型机，又名大型主机，是指使用专用的处理器指令集、操作系统和应用软件来提供计算服务的设备。

需要说明的是，本申请实施例提供的神经网络结构搜索方法可以被电子设备执行，这里的电子设备是指具有执行计算机程序功能的设备终端或者上述的服务器，设备终端例如：智能手机、个人电脑(personal computer，PC)、平板电脑、个人数字助理(personaldigital assistant，PDA)、移动上网设备(mobile Internet device，MID)、网络交换机或网络路由器等。

在介绍本申请实施例提供的神经网络结构搜索方法之前，先介绍该神经网络结构搜索方法适用的应用场景，这里的应用场景包括但不限于：基于深度学习的图像识别、自然语言处理和声音识别等等场景，例如：针对具体的任务使用该神经网络结构搜索方法获得搜索后的神经网络模型，并使用神经网络模型完成该任务等。

请参见图1示出的本申请实施例提供的神经网络结构搜索方法的流程示意图；该神经网络结构搜索方法可以包括如下步骤：

步骤S110：从待搜索网络结构中获得多个任务对应的结构参数。

待搜索网络结构，是指基于梯度的神经网络结构搜索方法获得的神经网络结构，待搜索网络结构由多个基础单元(cell)构成，基础单元包括多个节点，结构参数表征对应的任务在节点之间的连接概率。上述的基于梯度的神经网络结构搜索方法可以是DARTS方法，是指将网络结构搜索转化为连续空间的优化问题，采用梯度下降法求解的方法，该方法将网络空间表示为一个有向无环图，其关键是将节点连接和激活函数通过一种巧妙的表示组合成了一个矩阵，其中每个元素代表了连接和激活函数的权重，在搜索时使用了Softmax函数，这样就将搜索空间变成了连续空间，目标函数成为了可微函数，从而使得该方法可高效地搜索神经网络架构，同时得到网络的权重参数。

请参见图2示出的本申请实施例提供的待搜索网络结构的结构变化示意图；图中包括四个a、b、c和d子图，这四个子图均为待搜索网络结构中的基础单元，这里的a、b、c和d子图为基础单元的结构参数变化示意图。可以理解的是，待搜索网络结构可以由多个基础单元堆叠构成，也可以是多层基础单元堆叠构成，其中每层基础单元均包括至少一个基础单元；当然，这里的每层基础单元可以由多个基础单元构成，该每层基础单元也可以仅由一个基础单元构成；也就是说，上述的多个基础单元可以分为层次，也可以不分为层次来构成待搜索网络结构，当多个基础单元分为层次时，有利于对多层基础单元中的基础单元的查询、增加、删除和修改等管理操作，可以将功能不同的基础单元存放在同一层，也可以将功能相似的基础单元存放在同一层；为了便于操作和记忆，可以将构成每层的基础单元的功能设置为相同，也可以将每层的基础单元的功能设置为不相同，因此，待搜索网络结构的多个基础单元具体设置可以根据具体情况进行设置，其设置的具体方式不应理解为对本申请实施例的限制。

为了便于理解和说明，这以每层基础单元由一个基础单元构成一层基础单元，且由多层基础单元构成待搜索网络结构为例进行说明，图2中仅示出了待搜索网络结构的其中一层基础单元中的一个基础单元，其它层基础单元中的基础单元的运行原理可以参照图2，图2中的待搜索网络结构的其中一层基础单元中的一个基础单元包括0、1、2和3共四个节点，每个节点均可以包括多个操作，这里的操作是指神经网络的相关操作，具体例如：多个操作包括：卷积神经网络(Convolutional Neural Networks，CNN)和循环神经网络(Recurrent Neural Network，RNN)等操作；其中，这里的CNN是指使用卷积神经网络对输入数据进行卷积运算操作，RNN是指使用循环神经网络对输入数据进行循环运算操作或递归运算操作，这里的循环运算操作或递归运算操作是指解析出输入数据在时间维度或者语义维度上的相关性，具体例如：输入数据为一维的线性文本语料，使用预先训练的循环神经网络解析该文本语料中的指示代词的具体含义，即使用预先训练的循环神经网络处理文本分析中的指代消解任务；上述的CNN和RNN也可以理解为神经网络基本操作或者神经网络基础单元。图中的节点输入或输出有三条实线连接其它节点，这里的实线代表神经网络基本操作。

上述的基于梯度的结构搜索方法与基于强化学习的结构搜索方法和基于进化算法的结构搜索方法不同，基于强化学习的结构搜索方法和基于进化算法的结构搜索方法是将网络结构搜索问题看作为黑盒优化问题，也被称为黑箱优化问题，而基于梯度的结构搜索方法针对上述两种方法的黑箱优化问题作了调整；使用结构参数的方式来解决，并将以往离散的搜索空间松弛化(relaxation)，即对上述的结构搜索方法进行松弛(relaxation)，使得结构搜索工程实现可微分的效果，将网络结构搜索问题转化为连续变量优化问题；目标函数是可导的，能够用梯度下降法求解，同时得到网络结构和权重等参数；算法寻找计算单元作为最终网络结构的基本构建块；这些单元可以堆积形成卷积神经网络，递归连接形成循环神经网络。

上述步骤S110中的从待搜索网络结构中获得多个任务对应的结构参数的实施方式例如：从正在进行多任务学习(Multi Task Learning，MTL)的待搜索网络结构中获得多个任务对应的结构参数，这里使用上述的多任务学习的方式把多个相关(related)的任务放在一起学习，同时学习多个任务；现在大多数机器学习任务都是单任务学习；对于复杂的问题，也可以分解为简单且相互独立的子问题来单独解决，然后再合并结果，得到最初复杂问题的结果；这样是不合适的，因为现实世界中很多问题不能分解为一个一个独立的子问题，即使可以分解，各个子问题之间也是相互关联的，通过一些共享因素或共享表示联系在一起；把现实问题当作一个个独立的单任务处理，忽略了问题之间所蕴含的丰富的关联信息；多任务学习就是为了解决这个问题而诞生的；把多个相关的任务放在一起学习，多个任务之间共享一些因素，多个任务可以在学习过程中，共享它们所学到的信息，这是单任务学习所不具备的；相关联的多任务学习比单任务学习能去的更好的泛化效果。

在步骤S110之后，执行步骤S120：针对多个任务中的每个任务保留连接概率最大的结构参数，获得每个任务对应的预训练模型。

请参见图3示出的本申请实施例提供的结合多任务学习的神经网络结构搜索方法的示意图；图中一共包括三个节点，这三个节点分别为节点1、节点2和节点3，每个节点包括多个操作，多个操作例如：CNN、RNN、注意力(Attention，缩写为Attn)以及skip操作；当然在具体实践过程中，在节点3后面还可以对节点3输出的特征进行分类，例如在节点3后面加入softmax分类器。上述的步骤S120中的针对多个任务中的每个任务保留连接概率最大的结构参数的实施方式可以是直接计算并删除连接概率较小的，则保留到最后的肯定是连接概率最大的结构参数；当然，也可以是先计算出每个连接概率，再根据该连接概率进行筛选，以这种方式为例进行详细地说明，该方式可以包括如下步骤：

步骤S121：计算多个任务中的每个任务运行时多个节点之间的连接概率。

多个任务，是指多任务学习中的任务，其中，多个任务中的每个任务均包括表征节点之间的连接概率的结构参数，即所有操作中的其中一个操作执行的概率；具体例如：假如O表示所有操作的候选集，每一个操作用o表示；为了使得空间连续，将选择每一个操作的权重表示为α，若一个节点输出包括三个操作，即该节点与其它节点有三个连接线，那么上述α则是一个三维向量，该三维向量可以表示为[α₁,α₂,α₃]。

上述的步骤S121的实施方式例如：根据计算多个任务中的每个任务运行时多个节点之间的连接概率；其中，，i和j分别表示基础单元中的第i个节点和第j个节点，O表示每个节点中的操作集合，o表示每个节点的操作集合中的具体操作，α表示结构参数。

可以理解的是，上述的每个基础单元的输出是对所有中间节点做加和获得的，每个节点的输入都来自上个节点的输出，那么每个中间节点使用公式可以表示为：其中，x表示输入的数据，，i和j分别表示基础单元中的第i个节点和第j个节点，o表示每个节点的操作集合中的操作，即神经网络基本操作，o^i,j表示第i个基础单元中的第j个节点的具体操作。

步骤S122：根据多个节点之间的连接概率从多个任务对应的结构参数中筛选出连接概率最大的结构参数。

上述步骤S122中的根据多个节点之间的连接概率从多个任务对应的结构参数中筛选出连接概率最大的结构参数的实施方式例如：请参照图2中的(d)子图，若多个任务为三个任务，这里的三个任务包括：第一任务、第二任务和第三任务，根据第一任务、第二任务和第三任务对应的连接概率分别为10％、45％和53％，那么仅保留第三任务对应的结构参数；可以理解的是，待多任务学习执行完成后，即可获得每个任务对应的预训练模型。在上述的实现过程中，通过计算多个任务中的每个任务运行时多个节点之间的连接概率；根据多个节点之间的连接概率从多个任务对应的结构参数中筛选出连接概率最大的结构参数；有效地提高了获得连接概率最大的结构参数的速度，从而减少了搜索到有效地神经网络结构模型的时间。

在步骤S120之后，执行步骤S130：对每个任务对应的预训练模型进行训练，获得搜索后的神经网络模型。

上述步骤S130中的对每个任务对应的预训练模型进行训练有很多方式：第一种方式，监督式学习(Supervised learning)，又被称为监督式训练或者监督学习，具体例如：获得图像样本和图像样本对应的图像标签；以图像样本为训练数据，并以图像样本对应的图像标签为训练标签，对每个任务对应的预训练模型进行训练，获得搜索后的神经网络模型；第二种方式，无监督学习(unsupervised learning)方式，又被称为无监督式训练或者无监督学习，具体例如：采用聚类分析(cluster analysis)、关系规则(association rule)、维度缩减(dimensionality reduce)和生成对抗网络(Generative Adversarial Network，GAN)等方法对每个任务对应的预训练模型进行训练，获得搜索后的神经网络模型；第三种方式，介于监督学习与无监督学习之间的半监督学习，具体例如：结合蒸馏学习和神经网络结构搜索方法对每个任务对应的预训练模型进行训练，下面将详细介绍结合蒸馏学习和网络结构搜索的训练方法。

请参见图4示出的本申请实施例提供的结合蒸馏学习的神经网络结构搜索方法的示意图；为了加快训练，提高训练准确性，上述步骤S130中还可以使用蒸馏学习方法来指导上述的预训练模型的网络参数更新过程，这里的网络参数表征预训练模型的输入数据的权重，那么对每个任务对应的预训练模型进行训练的其中一种实施方式可以包括如下步骤：

步骤S131：获得训练数据和预先训练的指导网络模型。

训练数据，是指为了用于训练指导网络模型的训练数据，以及用该指导网络模型指导预训练模型的训练数据，这里的训练数据包括：训练样本和训练标签。

指导网络模型(teacher network model)，又被称为教师网络模型或者教师模型，是指使用训练数据对神经网络进行训练获得的，指导网络模型的网络结构比预训练模型的网络结构复杂；当然，这里的预训练模型也可以理解为将要被指导的网络模型，即学生网络模型(student network model)或者学生模型。

上述步骤S131中的训练数据的获得方式包括：第一种方式，收集训练样本，并对训练样本进行人工识别获得训练标签，将训练样本和训练标签作为训练数据；第二种方式，其他终端设备向电子设备发送训练数据，然后电子设备从其他终端设备接收训练数据；第三种方式，使用浏览器等软件获取互联网上的训练数据，或者使用其它应用程序访问互联网获得训练数据；第四种方式，获取预先存储的训练数据，从文件系统中获取训练数据，或者从数据库中获取训练数据。

上述步骤S131中的指导网络模型的获得方式包括：第一种方式，获取预先存储的指导网络模型，从文件系统中获取指导网络模型，或者从数据库中获取指导网络模型；第二种方式，其他终端设备向电子设备发送指导网络模型，然后电子设备从其他终端设备接收指导网络模型；第三种方式，使用浏览器等软件获取互联网上的指导网络模型，或者使用其它应用程序访问互联网获得指导网络模型；第四种方式，使用训练数据对从互联网上下载的神经网络进行训练，获得指导网络模型。

步骤S132：使用指导网络模型对训练样本进行计算，获得第一输出标签，并使用预训练模型对训练样本进行计算，获得第二输出标签。

步骤S133：根据训练标签、第一输出标签和第二输出标签计算预训练模型的综合损失。

上述步骤S132至步骤S133中的实施方式例如：分别计算第一输出标签和第二输出标签的第一交叉熵，以及训练标签和第二输出标签的第二交叉熵；对第一交叉熵和第二交叉熵进行加权融合，获得综合损失；该实施方式使用公式表示例如：

根据对第一交叉熵和第二交叉熵进行加权融合；其中，Loss表示综合损失，α表示选择参数，task表示多个任务，t表示多个任务中的第t个任务，CE表示交叉熵，s表示第一输出标签，logits表示第二输出标签，y表示训练标签；CE(logits_t,s_t)表示第一交叉熵，CE(logits_t,y_t)表示第二交叉熵，这里的可以理解为硬目标(hard target)，这里的/>可以理解为软目标(soft target)。

在上述的实现过程中，通过分别计算第一输出标签和第二输出标签的第一交叉熵，以及训练标签和第二输出标签的第二交叉熵；对第一交叉熵和第二交叉熵进行加权融合，获得综合损失；从而减少了对每个任务对应的预训练模型进行训练的时间，提高了获得有效地神经网络结构模型的速度。

步骤S134：根据综合损失对每个任务对应的预训练模型进行训练。

上述步骤S134中的根据综合损失对每个任务对应的预训练模型进行训练的实施方式例如：保持每个任务对应的预训练模型的结构参数不变，并根据综合损失更新每个任务对应的预训练模型的网络参数，网络参数表征预训练模型的输入数据的权重。在上述的实现过程中，通过保持每个任务对应的预训练模型的结构参数不变；根据综合损失更新每个任务对应的预训练模型的网络参数，网络参数表征预训练模型的输入数据的权重；从而提高了更新每个任务对应的预训练模型的网络参数的速度，有效地减少了获得搜索后的神经网络结构模型的时间。

当然，在具体的实施过程中，还可以保持每个任务对应的预训练模型的网络参数不变，并更新每个任务对应的预训练模型的结构参数；依次交替训练和更新结构参数和网络参数，从而使得搜索到的神经网络结构模型达到最优效果。使用上述交替训练或交替更新结构参数和网络参数的方式，有效地将模型结构搜索的任务转化为对连续变量的拟合学习，这种方式也是一种近似迭代优化的过程，同时，使用这种方式也有效地改善了难以提高计算双层优化准确度的问题，这里的双层优化问题是指同时优化结构参数和优化网络参数的问题。在上述的实现过程中，通过获得训练数据和预先训练的指导网络模型；使用预先训练的指导网络模型对每个任务对应的预训练模型进行指导训练；从而减少了对每个任务对应的预训练模型进行训练的时间，提高了获得有效地神经网络结构模型的速度。

在上述的实现过程中，通过从待搜索网络结构中获得多个任务对应的结构参数，并针对多个任务中的每个任务保留连接概率最大的结构参数，获得每个任务对应的预训练模型；然后对每个任务对应的预训练模型进行训练，获得搜索后的神经网络模型；也就是说，通过结合神经网络架构搜索和多任务学习来有效地提高了搜索到有效地神经网络结构模型的速度。

请参见图5示出的本申请实施例提供的对神经网络模型进行微调的流程示意图；可选地，在本申请实施例中，在获得搜索后的神经网络模型之后，还可以对神经网络模型进行微调后应用于具体的任务中，因此，上述的神经网络结构搜索方法可以包括如下步骤：

步骤S210：电子设备从待搜索网络结构中获得多个任务对应的结构参数。

步骤S220：电子设备针对多个任务中的每个任务保留连接概率最大的结构参数，获得每个任务对应的预训练模型。

步骤S230：电子设备对每个任务对应的预训练模型进行训练，获得搜索后的神经网络模型。

其中，上述步骤S210至步骤S230的实施原理和实施方式与步骤S110至步骤S130的实施原理和实施方式是相似或类似的，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤S110至步骤S130的描述。

步骤S240：电子设备获得预设任务对应的训练数据。

上述步骤S240中的电子设备获得预设任务对应的训练数据的实施方式包括：第一种方式，收集训练样本，并对训练样本进行人工识别获得训练标签，将训练样本和训练标签作为预设任务对应的训练数据；第二种方式，其他终端设备向电子设备发送预设任务对应的训练数据，然后电子设备从其他终端设备接收预设任务对应的训练数据；第三种方式，使用浏览器等软件获取互联网上的预设任务对应的训练数据，或者使用其它应用程序访问互联网获得预设任务对应的训练数据；第四种方式，获取预先存储的预设任务对应的训练数据，从文件系统中获取预设任务对应的训练数据，或者从数据库中获取预设任务对应的训练数据。

步骤S250：使用预设任务对应的训练数据对搜索后的神经网络模型进行微调，获得微调后的神经网络模型。

上述步骤S250中的使用预设任务对应的训练数据对搜索后的神经网络模型进行微调的实施方式例如：使用预设任务对应的训练数据对搜索后的神经网络模型进行微调(fine-tuning)，获得微调后的神经网络模型；这里的微调是指针对具体的深度学习任务，使用具体的训练数据更新神经网络模型的网络参数；具体例如：原神经网络可以分类出2种图像，需要增加1个新的分类从而使网络可以分类出3种图像；微调可以留用之前训练的大多数参数，从而达到快速训练收敛的效果；具体例如：保留各个卷积层，只重构卷积层后的全连接层与softmax层即可。

在上述的实现过程中，通过获得预设任务对应的训练数据；使用预设任务对应的训练数据对搜索后的神经网络模型进行微调，获得微调后的神经网络模型；从而减少了获得微调后的神经网络模型的时间，有效地提高了对搜索后的神经网络模型进行微调的速度。

请参见图6示出的本申请实施例提供的神经网络结构搜索装置的结构示意图；本申请实施例提供了一种神经网络结构搜索装置300，包括：

结构参数获得模块310，用于从待搜索网络结构中获得多个任务对应的结构参数，待搜索网络结构由多个基础单元构成，基础单元包括多个节点，结构参数表征对应的任务在节点之间的连接概率。

结构参数保留模块320，用于针对多个任务中的每个任务保留连接概率最大的结构参数，获得每个任务对应的预训练模型。

网络模型获得模块330，用于对每个任务对应的预训练模型进行训练，获得搜索后的神经网络模型。

可选地，在本申请实施例中，结构参数保留模块，包括：

连接概率计算模块，用于计算多个任务中的每个任务运行时多个节点之间的连接概率。

结构参数筛选模块，用于根据多个节点之间的连接概率从多个任务对应的结构参数中筛选出连接概率最大的结构参数。

可选地，在本申请实施例中，连接概率计算模块，包括。

概率计算实现模块，用于根据计算多个任务中的每个任务运行时多个节点之间的连接概率；其中，i和j分别表示基础单元中的第i个节点和第j个节点，O表示每个节点中的操作集合，o表示每个节点的操作集合中的具体操作，α表示结构参数。

可选地，在本申请实施例中，网络模型获得模块，包括。

训练数据指导模块，用于获得训练数据和预先训练的指导网络模型，训练数据包括：训练样本和训练标签，指导网络模型是使用训练数据对神经网络进行训练获得的，指导网络模型的网络结构比预训练模型的网络结构复杂。

训练样本计算模块，用于使用指导网络模型对训练样本进行计算，获得第一输出标签，并使用预训练模型对训练样本进行计算，获得第二输出标签。

综合损失计算模块，用于根据训练标签、第一输出标签和第二输出标签计算预训练模型的综合损失。

任务模型训练模块，用于根据综合损失对每个任务对应的预训练模型进行训练。

可选地，在本申请实施例中，综合损失计算模块，包括：

交叉熵计算模块，用于分别计算第一输出标签和第二输出标签的第一交叉熵，以及训练标签和第二输出标签的第二交叉熵。

加权融合计算模块，用于对第一交叉熵和第二交叉熵进行加权融合，获得综合损失。

可选地，在本申请实施例中，任务模型训练模块，包括：

结构参数保持模块，用于保持每个任务对应的预训练模型的结构参数不变。

网络参数更新模块，用于根据综合损失更新每个任务对应的预训练模型的网络参数，网络参数表征预训练模型的输入数据的权重。

可选地，在本申请实施例中，神经网络结构搜索装置，还包括：

训练数据获得模块，用于获得预设任务对应的训练数据。

网络模型微调模块，用于使用预设任务对应的训练数据对搜索后的神经网络模型进行微调，获得微调后的神经网络模型。

可选地，在本申请实施例中，加权融合计算模块，包括。

加权融合模块，包括根据对第一交叉熵和第二交叉熵进行加权融合；其中，Loss表示综合损失，α表示选择参数，task表示多个任务，t表示多个任务中的第t个任务，CE表示交叉熵，s表示第一输出标签，logits表示第二输出标签，y表示训练标签。

应理解的是，该装置与上述的神经网络结构搜索方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system，OS)中的软件功能模块。

请参见图7示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备400，包括：处理器410和存储器420，存储器420存储有处理器410可执行的机器可读指令，机器可读指令被处理器410执行时执行如上的方法。

本申请实施例还提供了一种存储介质430，该存储介质430上存储有计算机程序，该计算机程序被处理器410运行时执行如上的方法。

其中，存储介质430可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory,简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM)，可编程只读存储器(Programmable Red-Only Memory,简称PROM)，只读存储器(Read-Only Memory,简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

本申请实施例所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请实施例各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上的描述，仅为本申请实施例的可选实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种神经网络结构搜索方法，其特征在于，包括：

从正在进行多任务学习的待搜索网络结构中获得多个任务对应的结构参数，所述多个任务为多个机器学习任务，所述待搜索网络结构为基于梯度的神经网络结构搜索方法获得的神经网络结构，由多个基础单元构成，所述基础单元包括多个节点，所述结构参数表征对应的任务在节点之间的连接概率；

针对所述多个任务中的每个任务保留所述连接概率最大的结构参数，获得所述每个任务对应的预训练模型；

对所述每个任务对应的预训练模型进行训练，获得搜索后的神经网络模型，所述搜索后的神经网络模型用于完成图像识别任务、自然语言处理任务或声音识别任务；

其中，所述针对所述多个任务中的每个任务保留所述连接概率最大的结构参数，包括：计算所述多个任务中的每个任务运行时所述多个节点之间的连接概率；根据所述多个节点之间的连接概率从所述多个任务对应的结构参数中筛选出连接概率最大的结构参数；

所述计算所述多个任务中的每个任务运行时所述多个节点之间的连接概率，包括：根据计算所述多个任务中的每个任务运行时所述多个节点之间的连接概率；其中，i和j分别表示基础单元中的第i个节点和第j个节点，O表示每个节点中的操作集合，o表示每个节点的操作集合中的具体操作，α表示所述结构参数。

2.根据权利要求1所述的方法，其特征在于，所述对所述每个任务对应的预训练模型进行训练，包括：

获得训练数据和预先训练的指导网络模型，所述训练数据包括：训练样本和训练标签，所述指导网络模型是使用所述训练数据对神经网络进行训练获得的，所述指导网络模型的网络结构比所述预训练模型的网络结构复杂；

使用所述指导网络模型对所述训练样本进行计算，获得第一输出标签，并使用所述预训练模型对所述训练样本进行计算，获得第二输出标签；

根据所述训练标签、所述第一输出标签和所述第二输出标签计算所述预训练模型的综合损失；

根据所述综合损失对所述每个任务对应的预训练模型进行训练。

3.根据权利要求2所述的方法，其特征在于，所述根据所述训练标签、所述第一输出标签和所述第二输出标签计算所述预训练模型的综合损失，包括：

分别计算所述第一输出标签和所述第二输出标签的第一交叉熵，以及所述训练标签和所述第二输出标签的第二交叉熵；

对所述第一交叉熵和所述第二交叉熵进行加权融合，获得所述综合损失。

4.根据权利要求2所述的方法，其特征在于，所述根据所述综合损失对所述每个任务对应的预训练模型进行训练，包括：

保持所述每个任务对应的预训练模型的结构参数不变；

根据所述综合损失更新所述每个任务对应的预训练模型的网络参数，所述网络参数表征所述预训练模型的输入数据的权重。

5.根据权利要求1-4任一所述的方法，其特征在于，在所述获得搜索后的神经网络模型之后，还包括：

获得预设任务对应的训练数据；

使用所述预设任务对应的训练数据对所述搜索后的神经网络模型进行微调，获得微调后的神经网络模型。

6.一种神经网络结构搜索装置，其特征在于，包括：

结构参数获得模块，用于从正在进行多任务学习的待搜索网络结构中获得多个任务对应的结构参数，所述多个任务为多个机器学习任务，所述待搜索网络结构为基于梯度的神经网络结构搜索方法获得的神经网络结构，由多个基础单元构成，所述基础单元包括多个节点，所述结构参数表征对应的任务在节点之间的连接概率；

结构参数保留模块，用于针对所述多个任务中的每个任务保留所述连接概率最大的结构参数，获得所述每个任务对应的预训练模型；

网络模型获得模块，用于对所述每个任务对应的预训练模型进行训练，获得搜索后的神经网络模型，所述搜索后的神经网络模型用于完成图像识别任务、自然语言处理任务或声音识别任务；

7.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如权利要求1至5任一所述的方法。

8.一种存储介质，其特征在于，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至5任一所述的方法。