CN111191785A

CN111191785A - 一种基于拓展搜索空间的结构搜索方法

Info

Publication number: CN111191785A
Application number: CN201911324181.2A
Authority: CN
Inventors: 杜权; 朱靖波; 肖桐; 张春良
Original assignee: Shenyang Yaze Network Technology Co ltd
Current assignee: Shenyang Yaze Network Technology Co ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-05-22
Anticipated expiration: 2039-12-20
Also published as: CN111191785B

Abstract

本发明涉及一种基于拓展搜索空间的网络结构搜索方法，步骤为：处理训练数据并进行建模并训练；对训练过程中元结构内部以及元结构之间的结构参数数值进行归一化操作；对搜索的子空间结构参数以及模型参数进行优化和调优；得到根据调优后得到的不同操作的权重差异进一步得到离散化的最终结构，该搜索结果中包括元结构内部的操作以及元结构之间的操作；对搜索到的元结构使用元结构之间的连接方式循环展开得到整体的模型，再次进行参数调优，最终训练到收敛为止。本发明在原本仅面向元结构内部结构进行搜索的前提下，将元结构之间的连接也方式也纳入搜索空间中，提升了候选结构空间的大小，相较于普通的面向元结构内部的结构搜索而言取得更好的性能。

Description

一种基于拓展搜索空间的结构搜索方法

技术领域

本发明涉及一种神经结构搜索技术，具体为基于拓展搜索空间的结构搜索方法。

背景技术

与许多基于深度学习的系统一样，基于神经网络技术的自然语言处理任务的核心问题之一是就设计神经网络的结构。特别是对于翻译这种复杂的自然语言处理任务，神经机器翻译的网络结构往往非常复杂，网络结构的设计需要大量的技巧和工程经验。虽然科研人员不断提出新的网络结构来改善模型性能，但如何更加科学地对网络结构进行探索却仍没有一个十分完备的解决方案。在传统方法中，需要通过不断尝试新的网络以找到性能更加优异的网络结构，这种方式存在两个问题：其一是试错的时间周期过长。由于不同的网络结构的需要经过长时间的模型训练、解码等步骤才能评价其性能，不同网络结构的尝试并没有收到好的效果；另一个问题在于设计出模型结构中往往存在大量的参数冗余。人工设计出的模型很难在保证有效性的同时保证其结构上的低冗余，因此即使是许多性能优秀的模型本身仍存在着大量不必要的神经元连接，增大了模型在使用过程中计算和存储方面的开销。

针对上述问题，模型结构的学习就变得十分重要。对于目前的网络结构搜索方法而言主要包括三个子任务：搜索空间表示、结构搜索策略以及模型性能评价方法。

搜索空间定义了网络结构搜索任务上可以表示哪些结构。针对不同任务的特性，搜索空间可以通过先验知识进行一定程度的压缩，然而，过度依赖已知的经验对搜索空间进行限制同时也降低了网络结构搜索的候选丰富程度，可能会对网络结构搜索所得到的模型性能产生不良影响。目前对于面向自然语言处理任务的网络结构搜索往往针对循环神经网络结构进行搜索，具体来说，搜索空间集中在循环单元的有效构建，对于整个的模型结构将根据循环神经网络的特性按照时序对搜索到的循环单元进行展开。

目前面向自然语言处理任务的结构搜索任务往往采用循环神经网络模型结构进行探索，为保证搜索效率，搜索空间被限制在对循环单元内部结构(元结构)的学习，这大幅度限制了候选结构的表示空间。

发明内容

针对现有技术中面向自然语言处理任务的结构搜索任务采用循环神经网络模型结构进行探索大幅度限制了候选结构的表示空间等不足，本发明要解决的技术问题是提供一种基于拓展搜索空间的网络结构搜索方法，对搜索空间进行拓展。

为解决上述技术问题，本发明采用的技术方案是：

1)处理训练数据并对拓展的网络结构表示空间进行建模并训练，在训练过程中对元结构内部结构以及元结构之间的结构进行交替训练；

2)对训练过程中元结构内部以及元结构之间的结构参数数值进行归一化操作；

3)同时对搜索的子空间结构参数以及模型参数进行优化，以数据在训练集上的损失值作为优化过程中的目标，通过梯度下降法对网络结构以及目标参数进行调优；

4)得到根据不同操作的权重差异得到离散化的最终结构，该搜索结果中包括元结构内部的操作以及元结构之间的操作；

5)对搜索到的元结构使用元结构之间的连接方式循环展开，得到整体的模型，使用训练数据对该模型进行参数调优，最终训练到收敛为止。

步骤1)中，通过机器学习方法对元结构内部以及元结构之间神经元的连接方式进行搜索，将离散的网络结构通过赋予不同操作以权重来达到连续优化的目的，对于元结构内部和元结构之间的结构而言，其内部节点输出的计算公式如下：

其中W_j是线性变换的参数矩阵，

是根据当前位置操作重要性为每条边上操作

赋予的权重，下标k代表第k个操作，s_i和s_j分别为第i和第i个中间节点的输出。

对于元结构内部和元结构间的结构学习，由于其输入元素数量上的差异，使用一种更为通用的建模方式，元结构内部或元结构之间的结构最终输出为：

F(α，β)＝s^α⊙s^β

其中α和β分别为两组输入向量，分别基于它们对网络结构进行构建，s^α和s^β分别为两组网络内部最终的输出节点，将其通过点乘的方式组织起来。通过这种方式仅需对对应组别的输入进行建模即可，降低了对整个模型结构进行搜索的复杂性，同时门控机制的引入能够使用s^β作为一个门来控制允许多少s^α的信息从当前结构中流出。

对于元结构内部的结构搜索，其中α为集合

融合后的结果e₁，其中

为前一时刻的隐层状态，

为当前时刻的输入向量，此外β为1。e₁的计算公式如下：

这里W^(h)和W^(x)分别为隐层状态和输入向量的线性变换参数。

而对于元结构之间的结构搜索，则可以分为针对隐层状态的元结构间连接f(·)和针对输入的元结构间连接g(·)，其中针对隐层状态的元结构间连接学习而言，其中α为之前时刻的隐层状态h_[0，t-1]，β为之前时刻的输入向量x_[1，t-1]。而对于针对输入向量的元结构间结构学习，α为x_[1，t]，β为h_[0，t-1]。

二者实际计算方式可分别简化为：

f(h_[0，t-1]；x_[1，t-1])＝f′(h_t-1；x_[t-m，t-1])

g(x_[1，t]；h_[0，t-1])＝g′(x_t；h_[t-m，t-1])

其中m为决定查看多少历史状态的超参数。

步骤2)中，对训练过程中元结构内部以及元结构之间的结构参数数值进行归一化操作，该操作将对元结构内部和元结构之间结构中任一边上的所有潜在操作进行归一化操作，最终得到每个操作在该位置上的重要性权重，其计算公式如下：

其中

为计算操作重要性时的权重矩阵。通过这种方式，原本的离散网络结构即可通过对

的学习得到。这将使得通过梯度下降的方式对模型结构进行搜索成为可能。

步骤3)中，同时对搜索的子空间结构参数以及模型参数进行优化，以数据在训练集上的损失值作为优化过程中的目标，通过梯度下降法对网络结构以及目标参数进行调优。

之后通过对元结构内部以及元结构之间的结构交替进行搜索，最终获得整体的模型结构。整个过程流程如下：

301)当元结构内部结构尚未收敛，在相邻更新时刻依旧发生变化时根据损失值对元结构内部的连接w^(intra)和模型中参数W进行更新；

302)当元结构间结构尚未收敛，在相邻更新时刻依旧发生变化时根据损失值对元结构间的连接w^(inter)和模型中参数W进行更新；

303)当训练轮数尚未达到设定轮次时重复迭代301)和302)步骤。

步骤4)中，得到根据不同操作的权重差异得到离散化的最终结构，该搜索结果中包括元结构内部的操作以及元结构之间的操作。具体来说该过程对结构参数w中的值进行排序，得到相应边上最优操作，从而得到最终搜索到的模型结构。

步骤5)中，对搜索到的元结构使用元结构之间的连接方式循环展开，得到整体的模型，使用训练数据对该模型进行参数调优，最终训练到收敛为止，步骤为：

501)在步骤4)中已对元结构内部结构以及元结构间的网络结构进行了搜索，本步将对其按照时序进行展开，得到整体的网络结构；

502)对模型搜索过程中的网络参数进行重置，同时重新初始化；

503)使用全量参数对搜索到的模型结构进行训练，直至模型达到收敛状态为止。

本发明具有以下有益效果及优点：

1.本发明能够有效学习元结构之间的连接方式，更进一步能够通过联合学习的方式学习包括元结构内部在内的整个网络结构，这种方式能够大大提升模型结构最优解落在搜索结构的表示空间的可能性，从而提升网络结构搜索方法的有效性。

2.与此同时，本发明通过大规模单语数据搜索到的元结构间连接能够有效应用到其他序列到序列任务中，这个预搜索到的模型结构将使得在低资源任务上进行进行结构所搜成为可能。

附图说明

图1A为本发明中元结构内部结构搜索空间图示；

图1B为本发明中元结构之间结构搜索空间图示；

图2为本发明中通用的基于梯度网络结构搜索模型图示；

图3为本发明中面向元结构内部以及元结构之间连接搜索图示；

图4为本发明在语言模型任务中搜索出的元结构图示。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

本发明对传统面向自然语言处理任务的循环神经网络结构搜索空间进行拓展，提出一种面向元结构内部以及元结构之间网络结构的搜索方法。该方法将原有仅对循环单元进行搜索的模式拓展到对整个模型结构进行学习，通过联合训练的方式在保证搜索效率前提下提升命中最优结构的可能性，在不增加参数量的情况下提升模型搜索到的结构性能。

为解决上述技术问题，本发明采用的技术方案是：

1)处理训练数据并对拓展的网络结构表示空间进行建模并训练，在训练过程中对元结构的内部结构以及元结构之间的结构进行交替训练；

4)得到根据调优后得到的不同操作的权重差异进一步得到离散化的最终结构，该搜索结果中包括元结构内部的操作以及元结构之间的操作；

5)对搜索到的元结构使用元结构之间的连接方式循环展开，得到整体的模型，使用训练数据对该模型再次进行参数调优，最终训练到收敛为止。

步骤1)主要对网络结构搜索过程中的搜索空间进行建模，为后续结构搜索过程中的模型表示空间进行定义。为保证网络结构搜索过程能够快速高效进行，这里将基于循环神经网络的结构搜索定义为元结构内连接搜索和元结构间的连接搜索。元结构内的结构为网络中循环单元的结构，元结构间结构针对循环单元按照时序进行展开的模式。元结构间的结构定义了元结构的自身的输入，而元结构内的连接决定了元结构间连接的输入。二者的差异如图1A和图1B所示，图1A说明了在结构搜索过程中元结构内部的搜索空间，图1B说明了元结构之间结构搜索空间。

本发明使用通用的基于梯度的网络结构搜索方法对元结构内部以及元结构间连接进行学习。将离散的网络结构通过赋予不同操作以权重来达到连续优化的目的，对于元结构内部和元结构之间的结构而言，其内部节点输出的计算公式如下：

其中W_j是线性变换的参数矩阵，

是根据当前位置操作重要性为每条边上操作

F(α，β)＝s^α⊙s^β

其中α和β分别为两组输入向量，分别基于α和β对网络结构进行构建，和s^β分别为两组网络内部最终的输出节点，将其通过点乘的方式组织起来。如图2所示。通过这种方式仅需对对应组别的输入进行建模即可，降低了对整个模型结构进行搜索的复杂性，同时门控机制的引入能够使用s^β作为一个门来控制允许多少s^α的信息从当前结构中流出。这种方式通过分组的方式将输入信息进行区分，使得输入信息的增加仅仅带来线性的复杂度变化，而非原本的指数级别提升，该优势能够有效提升结构搜索过程中的表示空间，使得方法能够在有限的计算量情况下探索更多模型结构，提升最优结构命中概率。

对于元结构内部的结构搜索以及元结构间的搜索，这里均采用上述通用的基于梯度的结构搜索方式进行。对于元结构内部的结构搜索，其中α为集合

融合后的结果e₁，其中

为前一时刻的隐层状态，

为当前时刻的输入向量，此外β为1。e₁的计算公式如下：

其中W^(h)和W^(x)分别为隐层状态和输入向量的线性变换参数，搜索过程如图3中元结构内结构搜索所示。

而对于元结构之间的结构搜索，则可以分为针对隐层状态的元结构间连接f(·)和针对输入的元结构间连接g(·)，二者分别对隐层表示和输入信息进行调整，学习其与前序时刻元结构的连接方式。其中针对隐层状态的元结构间连接学习而言，其输入信息包括前序时刻的输入信息以及前序时刻的隐层状态，按此将送入元结构间结构的信息分为两类，其中α为之前时刻的隐层状态h_[0，t-1]，β为之前时刻的输入向量x_[1，t-1]。同理，而对于针对输入向量的元结构间结构学习输入信息同样为前序时刻的输入信息和隐层表示，α为x_[1，t]，β为h_[0，t-1]，搜索过程如图3中元结构间结构搜索所示。

为降低网络搜索过程的复杂度，将二者实际计算方式简化为：

f(h_[0，t-1]；x_[1，t-1])＝f′(h_t-1；x_[t-m，t-1])

g(x_[1，t]；h_[0，t-1])＝g′(x_t；h_[t-m，t-1])

其中m为决定查看多少历史状态的超参数，f′(·)和g′(·)分别为简化后的隐层状态连接计算方式和输入信息连接计算方式。

利用多时刻的输入表示作为门控信息对前一时刻的隐层信息进行调整。而对于针对输入信息的元结构间连接，则使用多时刻的隐藏层表示对输入信息进行调节。

步骤2)主要是对训练过程中元结构内部以及元结构之间的结构参数数值进行归一化操作，该操作将对元结构内部和元结构之间结构中任一边上的所有潜在操作进行归一化操作，最终得到每个操作在该位置上的重要性权重，其计算公式如下：

其中

步骤3)主要针对搜索的子空间结构参数以及模型参数进行优化。由于拓展的搜索空间中包括元结构内部结构和元结构之间的连接，因此方法采用联合训练的方式同时对二者进行结构上的优化。具体来说优搜索过程以数据在训练集上的损失值作为优化中的目标，通过梯度下降法对网络结构以及目标参数进行调优。

之后通过对元结构内部以及元结构之间的结构交替进行搜索，通过二者在结构搜索过程中的交互来最终获得整体最优的模型结构，过程如下：

303)当训练轮数尚未达到设定轮次时重复迭代301)和302)步骤。

步骤4)中将根据搜索到的连续空间结构得到根据不同操作的权重差异得到离散化的最终结构，该搜索结果中包括元结构内部的操作以及元结构之间的操作。具体来说该过程对结构参数w中的值进行排序，得到相应边上最优操作，从而得到最终搜索到的模型结构。

501)对步骤4)中搜索到的结构按照时序进行展开，得到整体的网络结构；

502)对模型搜索过程中的网络参数进行重置，同时对模型中的参数重新初始化；

为验证方法的有效性，将基于拓展空间的结构搜索方法在语言建模任务上进行实验。具体来说在WikiText-103单语语料库上对英文进行建模，使用5个激活函数(drop、identity、sigmoid、tanh以及relu)作为结构搜索过程中的候选操作，对于元结构内部结构采用12个中间节点进行搜索，而对于元结构之间的结构设置5个节点。搜索过程在NVIDIA1080Ti设备上进行实验。实验结果如下表所示。

实验表明基于拓展搜索空间的结构搜索方法能够在参数量变化不大的前提下大幅度提升模型性能(困惑度越低表示性能越好)，方法相较人工设计的网络结构以及受限空间内的搜索均获得了更好模型结构。此外，由于搜索空间的加大，网络结构搜索的耗时相对受限的方法有一定的增加，但由于搜索过程整体收敛较快，因此时间消耗上的增长在可接受范围内。将实验中搜索到的元结构内部链接方式使用有向无环图的方式描绘出来，如图4所示。

将大规模单语数据搜索到的模型结构应用到其他自然语言处理任务上同样可以获得较好性能，这里将WikiText-103集合上搜索到的结构应用到CoNLL-2003命名实体识别任务上，效果如下表所示。

实验结构表明将语言模型任务上搜索到的结构应用到命名实体识别任务上同样可以获得更优的效果(F1值越高表示性能越好)。这证明了基于拓展空间的结构搜索方法搜索到的结构具有较强鲁棒性，能够有效在不同任务之间进行迁移，这使得结构预搜索成为可能，为结构搜索方法在低资源任务上的应用提供可能。

本发明提出一种基于拓展搜索空间的结构搜索方法，能够有效学习元结构之间的连接方式，更进一步能够通过联合学习的方式学习包括元结构内部在内的整个网络结构，这种方式能够大大提升模型结构最优解落在搜索结构的表示空间的可能性，从而提升网络结构搜索方法的有效性。与此同时，通过大规模单语数据搜索到的元结构间连接能够有效应用到其他序列到序列任务中，这个预搜索到的模型结构将使得在低资源任务上进行进行结构所搜成为可能。在语言模型任务上进行结构搜索，相较于现有的可微分结构搜索方法获得更好的性能。与此同时，当将搜索到的模型结构应用到命名实体识别任务时，模型也获得了更好的结果。

Claims

1.一种基于拓展搜索空间的结构搜索方法，其特征在于包括以下步骤：

2.按权利要求1所述的基于拓展空间的网络结构搜索方法，其特征在于：步骤1)中，通过机器学习方法对元结构内部以及元结构之间神经元的连接方式进行搜索，将离散的网络结构通过赋予不同操作以权重来达到连续优化的目的，对于元结构内部和元结构之间的结构而言，其内部节点输出的计算公式如下：

其中W_j是线性变换的参数矩阵，

是根据当前位置操作重要性为每条边上操作

赋予的权重，下标k代表第k个操作，s_i和s_j分别为第i和第i个中间节点的输出；

对于元结构内部和元结构间的结构学习，使用一种更为通用的建模方式，元结构内部或元结构之间的结构最终输出为：

F(α_，β)＝s^α⊙s^β

其中α和β分别为两组输入向量，分别基于α和β对网络结构进行构建，和s^β分别为两组网络内部最终的输出节点，将其通过点乘的方式组织起来。

3.按权利要求2所述的基于拓展空间的网络结构搜索方法，其特征在于：对于元结构内部的结构搜索，其中α为集合

融合后的结果e₁，其中

为前一时刻的隐层状态，

为当前时刻的输入向量，此外β为1。e₁的计算公式如下：

这里W^(h)和W^(x)分别为隐层状态和输入向量的线性变换参数。

4.按权利要求2所述的基于拓展空间的网络结构搜索方法，其特征在于：对于元结构之间的结构搜索，分为针对隐层状态的元结构间连接f(·)和针对输入的元结构间连接g(·)，其中针对隐层状态的元结构间连接学习而言，其中α为之前时刻的隐层状态h_[0，t-1]，β为之前时刻的输入向量x_[1，t-1]；而对于针对输入向量的元结构间结构学习，α为x_[1，t]，β为h_[0，t-1]；

二者实际计算方式分别简化为：

f(h_[0，t-1]；x_[1，t-1])＝f′(h_t-1；x_[t-m，t-1])

g(x_[1，t]；h_[0，t-1])＝g′(x_t；h_[t-m，t-1])

5.按权利要求1所述的基于拓展空间的网络结构搜索方法，其特征在于：步骤2)中，对训练过程中元结构内部以及元结构之间的结构参数数值进行归一化操作，该操作将对元结构内部和元结构之间结构中任一边上的所有潜在操作进行归一化操作，最终得到每个操作在该位置上的重要性权重，其计算公式如下：

其中

为计算操作重要性时的权重矩阵。

6.按权利要求1所述的基于拓展空间的网络结构搜索方法，其特征在于步骤3)中，对搜索的子空间结构参数以及模型参数进行优化，以数据在训练集上的损失值作为优化过程中的目标，通过梯度下降法对网络结构以及目标参数进行调优；

之后通过对元结构内部以及元结构之间的结构交替进行搜索，最终获得整体的模型结构，过程如下：

303)当训练轮数尚未达到设定轮次时重复迭代301)和302)步骤。

7.按权利要求1所述的基于拓展空间的网络结构搜索方法，其特征在于：步骤4)中，得到根据不同操作的权重差异得到离散化的最终结构，该搜索结果中包括元结构内部的操作以及元结构之间的操作，该过程对结构参数w中的值进行排序，得到相应边上最优操作，从而得到最终搜索到的模型结构。

8.按权利要求1所述的基于拓展空间的网络结构搜索方法，其特征在于：步骤5)中，对搜索到的元结构使用元结构之间的连接方式循环展开，得到整体的模型，使用训练数据对该模型进行参数调优，最终训练到收敛为止，步骤为：