CN110851566A

CN110851566A - 一种改进的可微分网络结构搜索的方法

Info

Publication number: CN110851566A
Application number: CN201911067765.6A
Authority: CN
Inventors: 杜权; 许诺; 朱靖波; 肖桐; 张春良
Original assignee: SHENYANG YAYI NETWORK TECHNOLOGY Co Ltd
Current assignee: SHENYANG YAYI NETWORK TECHNOLOGY Co Ltd
Priority date: 2019-11-04
Filing date: 2019-11-04
Publication date: 2020-02-28
Anticipated expiration: 2039-11-04
Also published as: CN110851566B

Abstract

本发明涉及一种改进的可微分的网络结构搜索方法，步骤为：处理训练语料并对可微分网络结构搜索的方法进行建模并训练，在训练过程中对元结构进行选择；对训练过程中元结构的结构参数数值进行全局归一化操作；对元结构中的网络参数与结构参数进行双层优化，以训练集与校验集的损失值为优化过程的目标函数，通过反向传播梯度数值对网络参数与结构参数进行调整；对训练结束后的元结构的结构参数进行排序，保留权重最大的操作，该搜索结果作为搜索的元结构；对搜索得到的元结构进行循环展开进而生成模型，使用训练数据对模型进行训练直至收敛。本发明减少网络中局部偏置的影响，增大了搜索覆盖度，相较于现有的可微分结构搜索方法均取得了较好的结果。

Description

一种改进的可微分网络结构搜索的方法

技术领域

本发明涉及一种神经结构搜索技术，具体为一种改进的可微分网络结构搜索的方法。

背景技术

深度学习在自然语言处理、图像识别、语音识别等多个领域中都取得的巨大成功。这与深度神经网络结构的设计有着密不可分的关系，目前绝大多数网络结构的设计都是根据先验知识进行人工设计的。在这种情况下，自动生成神经网络结构的方法引起了大量研究人员的关注。人们通常把自动生成神经网络结构的方法叫做网络结构搜索，它也是自动机器学习领域中的一个研究课题，与超参数学习和元学习有一定的关联。结构搜索的研究大致可以分为搜索空间、搜索策略以及结构性能的质量评价三个方面。

搜索空间指的是网络结构搜索中结构的候选集合。通常来说，搜索空间越大，搜索过程越慢。人们可以通过外部先验知识指导搜索空间的设计，从而减小搜索空间，简化搜索过程。但是由于人类认知的限制，这样做也可能对发现新的网络结构造成限制。

搜索策略是指如何在庞大的搜索空间中进行有效快速的搜索。在搜索的过程中，人们需要考虑如何快速的搜索到最优的网络结构，同时需要避免在搜索过程中搜到局部最优的网络结构。

网络结构搜索的目的是要搜到一个性能优异的结构，评价一个结构的性能，最常用的方法就是使用这个结构，在标准的数据集上进行训练，收敛之后使用校验集来进行评价。但是对于搜索过程中的每一个结构都进行上述流程，需要耗费大量的计算资源。如何降低结构质量评价过程中的资源消耗，同时保证质量评价结果的可参考性也是人们正在研究的课题。

而进行结构搜索的方法也可以大致分为三种方法：基于强化学习的结构搜索方法、基于进化算法的结构搜索方法以及基于梯度的结构搜索方法。

基于强化学习的结构搜索算法将神经网络结构设计看作一个强化学习问题，学习得到一个产生网络结构的最优策略。其中智能体是设计神经网络结构的算法，用于输出神经网络结构描述，强化学习算法使得生成的神经网络的性能最优化。为了用强化学习求解，可以将神经网络的设计看做一个动作序列，每次执行动作确定网络的一部分结构如层。神经网络在验证集上的性能值是强化学习中的奖励值。

使用进化算法求解结构搜索的思路是将子网络结构编码成二进制串，运行进化算法得到适应度函数值(神经网络在验证集上的性能)最大的网络结构，即为最优解。首先随机初始化若干个子网络作为初始解。进化算法在每次迭代时首先训练所有子网络，然后计算适应度值。接下来随机选择一些子网络进行交叉操作或者突变操作，变异生成下一代子网络，然后训练这些子网络，重复这一过程，最后找到最优子网络。

基于梯度的结构搜索方法同样也被称为可微分的结构搜索方法，与上述的基于强化学习的结构搜索方法和基于进化算法的结构搜索方法不同，该方法针对上述两种方法的黑箱优化问题进行了调整。基于梯度的结构搜索方法将网络结构搜索转化为连续空间的优化问题，采用梯度下降法求解，可高效地搜索神经网络架构，同时得到网络的权重参数。对结构搜索问题进行松弛，转化为连续变量优化问题。目标函数是可导的，能够用梯度下降法求解，同时得到网络结构和权重等参数。算法寻找计算单元，作为最终网络结构的基本构建块。这些单元可以堆积形成卷积神经网络，递归连接形成循环神经网络。

尽管可微分的网络结构搜索在保证网络性能的前提下，大大提高了搜索效率，但该方法仍存在一定的问题。由于该方法搜索空间的定义，把搜索的单元看作是一个有向无环图，图中包含多个节点，每两个节点之间又包含多种线性变换、非线性变换，导致搜索中的网络结构异常复杂。因此，可微分的网络结构搜索方法表现不稳定，在联合训练过程中收敛速度较慢，甚至无法收敛，同时使用该方法搜索得到多个网络结构，性能差距较大。

发明内容

针对现有技术中网络结构异常复杂、可微分的网络结构搜索方法表现不稳定，在联合训练过程中收敛速度较慢，甚至无法收敛等不足，本发明要解决的技术问题是提供一种改进的可微分网络结构搜索的方法。

为解决上述技术问题，本发明采用的技术方案是：

本发明一种改进的可微分的网络结构搜索方法，包括以下步骤：

1)处理训练语料并对可微分网络结构搜索的方法进行建模，利用单语语料生成单语词表，使用处理后的语料对结构搜索模型进行训练，在训练过程中对元结构进行选择；

2)对训练过程中元结构的结构参数数值进行全局归一化操作；

3)对元结构中的网络参数与结构参数进行双层优化，以训练集与校验集的损失值作为优化过程的目标函数，通过反向传播梯度数值对网络参数与结构参数进行调整；

4)对训练结束后的元结构的结构参数进行排序，保留权重最大的操作，以此搜索结果作为搜索的元结构；

5)对搜索得到的元结构进行循环展开进而生成模型，使用训练数据对模型进行训练直至收敛。

步骤1)中，采用机器自主学习的方式对训练过程中的元结构进行选择，同时对元结构内部的离散操作赋予结构参数，使其性质由离散变为可微分，元结构内部节点输出结果计算公式为：

其中

为第i个节点与第j个节点间的第k个操作的结构权重，

为第i个节点与第j个节点间的第k个操作，s_j为第j个节点的输出，W_j为第j个节点的节点参数，s_i为第i个节点的输出结果。

步骤2)中对训练过程中元结构的结构参数数值进行全局归一化操作为：对所有节点先前的节点输出与其对应的操作进行全局归一化操作，其归一化结果计算公式如下：

步骤3)中，对元结构中的网络参数与结构参数进行双层优化为：计算元结构在训练数据与校验数据上的损失值，并以此对网络参数与结构参数使用梯度下降的方式进行双层优化，具体为：

301)根据节点输出计算公式，使用交叉熵公式计算元结构在训练数据上的损失值，交叉熵公式为：

其中p(i)为当前元结构的输出分布，q(i)为真实分布；

302)根据元结构的在训练数据集上的损失值对网络参数与结构参数进行双层优化，其中对于网络参数的优化公式为：

其中w为元结构的网络参数，α为元结构的结构参数；在训练数据集中对w进行调整，使训练集损失值最小的w作为元结构的网络参数的最优值，在第一轮训练过程中，各个节点间的结构权重平均分配，即：

其中

为第t个节点与第j个节点间的第k个操作的结构权重，n为当前节点与之前所有节点间的操作总数；

303)根据元结构的在训练数据集上的损失值对网络参数与结构参数进行双层优化，其中对于结构参数的优化公式为：

其中w为元结构的网络参数，α为元结构的结构参数；在训练数据集中对w进行调整，使训练集损失值

最小的w作为元结构的网络参数的最优值；然后固定网络参数w，在校验数据集上计算元结构的损失值

以此调整结构参数α使元结构在校验数据集上的损失值最小。

步骤4)中，对训练结束后的元结构的结构参数进行排序，在任意两个连接的节点间选择权重最大的操作，最终确定该搜索结构为神经网络搜索出的元结构。

步骤5)中，对搜索得到的结构进行循环展开进而生成模型，使用训练数据集对模型进行训练直至收敛，步骤为：

501)根据步骤4)中神经网络结构搜索出的元结构模型进行循环展开或者堆叠，作为单位结构生成针对任务需求相应的网络结构模型；

502)重置元结构的网络参数，将其全部进行初始化；

503)使用训练数据集对得到的网络结构模型进行训练，直至其收敛。

本发明具有以下有益效果及优点：

1.本发明针对现有的可微分的结构搜索方法进行改进，在网络中加入全局归一化操作，以相同的方式对所有可传入信息操作进行比较，而不是仅对单一节点进行局部决策。此改进不仅减少网络中‘局部偏置’的影响，同时增大了搜索覆盖度。该方法在语言模型任务与命名实体识别任务中，相较于现有的可微分结构搜索方法均取得了较好的结果。

附图说明

图1为本发明中结构搜索方法图示；

图2为本发明中可微分的结构搜索方法示意图；

图3为本发明中对可微分结构搜索方法的改进图示；

图4为本发明在命名实体识别任务中搜索出的元结构图示；

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

本发明改进的可微分的网络结构搜索方法对现有的可微分的网络结构搜索方法进行改进。在网络中加入全局归一化操作，减少网络中‘局部偏置’的影响。本方法提出的针对可微分结构搜索方法的改进，旨在保证网络性能的前提下，进一步提高网络搜索的效率以及稳定性。本发明从减少网络中‘局部偏置’的影响角度对可微分的结构搜索方法进行优化，在同样计算资源消耗和同样数据量的情况下，提升结构搜索性能。

其中为第i个节点与第j个节点间的第k个操作的结构权重，为第i个节点与第j个节点间的第k个操作，s_j为第j个节点的输出，W_j为第j个节点的节点参数，s_i为第i个节点的输出结果。

本步骤中，需要得到处理好的单语数据，然后需要对基于梯度神经结构搜索方法进行建模，可微分结构搜索方法建模如图1所示。

针对本发明进行结构搜索的循环神经网络其中的元结构，对于输入序列{x₁...x_L}，通过循环神经单元获得每个时刻的状态输出{h₁...h_L}。这样每个循环单元就可以表示成：h_t＝g(x_t，h_t-1)，其中t为时刻，g(·，·)为循环神经单元内部的变换操作。结构搜索的目的就是通过自动的方法找到一个性能优秀的g(·，·)。

现有的可微分结构搜索的方法如图2所示，该方法仅针对先前的单一节点进行归一化计算，该方法存在较强的“局部偏置”性，本发明对可微分的结构搜索方法进行改进，如图3所示，本发明使用全局归一化操作代替局部归一化操作，减少局部偏置的同时提升搜索空间覆盖度，使得网络推断更具全面性与科学性。

其中p(i)为当前元结构的输出分布，q(i)为真实分布；

其中

为第i个节点与第j个节点间的第k个操作的结构权重，n为当前节点与之前所有节点间的操作总数；

步骤303)的优化过程是在步骤302)的基础上进行，其中w为元结构的网络参数，α为元结构的结构参数；在训练数据集中对w进行调整，使训练集损失值

在实际操作中，为节省计算资源并提升效率，可微分的结构搜索方法对w采用局部最优解的方式，使用这种方式对w的全局最优解进行近似。

502)重置元结构的网络参数，将其全部进行初始化；

503)使用训练数据集对得到的网络结构模型进行训练，直至其收敛，并在校验数据集上对模型进行性能评估。

现有的可微分的神经结构搜索方法，放弃使用传统的基于强化学习的结构搜索方法与基于进化算法的结构搜索方法，此方法针对以往的黑箱优化问题，使用结构参数的方式予以解决，并将以往离散的搜索空间松弛化，使结构搜索工程实现可微分的效果，极大的节省了计算资源与搜索时间，然而现有的可微分的结构搜索方法存在较强局部偏置的影响，在搜索过程中仅对单一节点局部决策，影响最终搜索出的元结构性能。本发明针对现有的可微分的结构搜索方法进行改进，在网络中加入全局归一化操作，以相同的方式对所有可传入信息操作进行比较，而不是仅对单一节点进行局部决策。此改进不仅减少网络中‘局部偏置’的影响，同时增大了搜索覆盖度。该方法在语言模型任务与命名实体识别任务中，相较于现有的可微分结构搜索方法均取得了较好的结果。

在使用上述方法搜索出高性能的循环神经网络结构后，本实施例将其应用于命名实体识别任务。命名实体识别任务是对文本进行标注，识别出其中的专有词汇，如人名、地名和组织机构等。本发明在公开数据集CoNLL2003英语命名实体识别任务上进行了实验，该数据集中有四种实体，包括人名、地名、组织机构和未归类实体。下面对实验流程进行介绍，包括数据处理、模型训练和模型效果验证。

在命名实体识别任务中，最广泛的衡量指标包括：

(1)精确率(Precision)，即“正确被预测的结果”占“实际被预测到的”的比例，其定义见下式：

(2)召回率(Recall)，即“正确被检索的结果”占“应该检索到的结果”的比例，其定义见下式：

其中TP是被正确预测的结果数，TP与FN之和为应该被预测到的结果数。

(3)F₁值(F-Measure)，见下式：

F₁值就是精确值和召回率的调和均值，最大值为1，最小值为0。

将搜索到的循环神经网络结构应用于命名实体识别任务，处理训练数据，对模型进行训练直至收敛，步骤为：

A.准备训练数据和测试数据，具体为：将数据处理为“词语|标记”的格式，如原始文本“The European Commission”处理后变成“The|O”，“European|ORG”，“Commission|ORG”，代表其中的“European Commission”被标记为ORG，即组织机构的简称；

B.根据步骤4)中神经网络结构搜索出的元结构模型进行循环展开，作为单位结构生成针对命名实体识别任务需求相应的网络结构模型，如图4所示，x_t和h_t-1都是当前模型的输入，其中x_t为输入的文本，h_t-1为上一时刻模型的输出，图中的0-8号节点代表信息在模型中的转换过程，箭头代表了信息传递的方向，线条上的字母代表了不同的操作，如identity为恒等映射，relu为线性整流，最终得到模型的输出h_t。为了充分利用文本中的上下文以提升模型识别效果，本方法构造双向的循环神经网络作为最终的模型，包括从左到右的循环神经网络单元和从右到左的循环神经网络单元，其中从左到右指的是按照文本的原始顺序将其作为模型的输入，例如文本“The European Commission”就是按照原始顺序将每个单词进行输入：“The”-“European”-“Commission”；从右到左指的是将原始文本逆序作为模型的输入：“Commission”-“European”-“The”。

C.重置元结构的网络参数，将其全部进行初始化，本方法实验中使用均匀分布初始化方法，它是对称概率分布，在相同长度间隔的分布概率是等可能的。均匀分布由两个参数a和b定义，它们是数轴上的最小值和最大值，通常缩写为U(a，b)；

D.使用训练数据集对得到的网络结构模型进行训练，直到在测试数据上的得分，即F₁分数不再上升为止。本方法使用随机梯度下降法作为模型的优化方法，学习率设置为0.1，使用训练数据训练100轮，在训练过程中，每过5轮在测试数据上进行检验，得到其F₁分数。

本方法搜索出的结构如图4所示，最终在命名实体识别任务上取得了0.9347的F₁分数，而此前最好的结果为0.9318，本方法大幅度提高了现有的命名实体识别模型效果。

Claims

1.一种改进的可微分的网络结构搜索方法，其特征在于包括以下步骤：

2.按权利要求1所述的改进的可微分网络结构搜索的方法，其特征在于：步骤1)中，采用机器自主学习的方式对训练过程中的元结构进行选择，同时对元结构内部的离散操作赋予结构参数，使其性质由离散变为可微分，元结构内部节点输出结果计算公式为：

其中为第i个节点与第j个节点间的第k个操作的结构权重，

3.按权利要求1所述的改进的可微分网络结构搜索的方法，其特征在于步骤2)中对训练过程中元结构的结构参数数值进行全局归一化操作为：对所有节点先前的节点输出与其对应的操作进行全局归一化操作，其归一化结果计算公式如下：

4.按权利要求1所述的改进的可微分网络结构搜索的方法，其特征在于步骤3)中，对元结构中的网络参数与结构参数进行双层优化为：计算元结构在训练数据与校验数据上的损失值，并以此对网络参数与结构参数使用梯度下降的方式进行双层优化，具体为：

其中p(i)为当前元结构的输出分布，q(i)为真实分布；

其中

5.按权利要求1所述的改进的可微分网络结构搜索的方法，其特征在于：步骤4)中，对训练结束后的元结构的结构参数进行排序，在任意两个连接的节点间选择权重最大的操作，最终确定该搜索结构为神经网络搜索出的元结构。

6.按权利要求1所述的改进的可微分网络结构搜索的方法，其特征在于：步骤5)中，对搜索得到的结构进行循环展开进而生成模型，使用训练数据集对模型进行训练直至收敛，步骤为：

502)重置元结构的网络参数，将其全部进行初始化；