CN109923557A

CN109923557A - 使用连续正则化训练联合多任务神经网络模型

Info

Publication number: CN109923557A
Application number: CN201780068346.7A
Authority: CN
Inventors: 桥本和真; 熊蔡明; R·佐赫尔
Original assignee: Salesforce com Inc
Current assignee: Salesforce Inc
Priority date: 2016-11-03
Filing date: 2017-11-03
Publication date: 2019-06-21
Anticipated expiration: 2037-11-03
Also published as: US11783164B2; US20210042604A1; US20180121799A1; WO2018085729A1; CN110192204B; CA3039386A1; US20220083837A1; JP7035042B2; CA3039517A1; US11797825B2; US20180121788A1; CN110192204A; CA3039386C; JP2020500366A; JP7068296B2; JP2020501230A; US20180121787A1; JP2022097590A; WO2018085730A1; CA3039517C

Abstract

所公开的技术提供了所谓的“联合多任务神经网络模型”，以在单个端到端模型中使用不断增长的层深度来解决各种日益复杂的自然语言处理(NLP)任务。通过考虑语言层级，将词表示直接连接到所有模型层，明确地使用较低任务中的预测，并应用所谓的“连续正则化”技术来防止灾难性遗忘，来连续训练该模型。较低级模型层的三个示例是词性(POS)标注层、语块划分层和依赖性解析层。较高级模型层的两个示例是语义相关性层和文本蕴涵层。该模型实现了关于语块划分、依赖性解析、语义相关性和文本蕴涵的最先进的结果。

Description

使用连续正则化训练联合多任务神经网络模型

其他申请的交叉引用

本申请要求于2016年11月3日提交的、申请号为62/417,269的美国临时专利申请“联合多任务模型(JOINT MANY-TASK MODEL)”(代理人案卷号为SALE 1182-1/1948PROV1)的权益。该优先权临时申请出于所有目的通过参考合并于此。该临时申请包括一份提供发明人工作的其他细节的技术论文；

本申请要求于2016年11月4日提交的、申请号为62/418,070的美国临时专利申请“联合多任务模型(JOINT MANY-TASK MODEL)”(代理人案卷号为SALE 1182-2/1948PROV2)的权益。该优先权临时申请出于所有目的通过参考合并于此。该临时申请包括一份提供发明人工作的其他细节的技术论文；

本申请要求于2017年1月31日提交的、申请号为15/421,431的美国非临时专利申请“使用连续正则化训练联合多任务神经网络模型(TRAINING A JOINT MANY-TASK NEURALNETWORK MODEL USING SUCCESSIVE REGULARIZATION)”(代理人案卷号SALE 1182-5/1948US3)的权益。该优先权非临时申请出于所有目的通过参考合并于此；

本申请要求于2017年1月31日提交的、申请号为15/421,407的美国非临时专利申请“用于多个自然语言处理(NLP)任务的联合多任务神经网络模型(JOINT MANY-TASKNEURAL NETWORK MODEL FOR MULTIPLE NATURAL LANGUAGE PROCESSING(NLP)TASKS)”(代理人案卷号SALE 1182-3/1948US1)的权益。该优先权非临时申请出于所有目的通过参考合并于此；以及

本申请要求于2017年1月31日提交的、申请号为15/421,424的美国非临时专利申请“通过多个语言任务层级处理数据的深度神经网络模型(DEEP NEURAL NETWORK MODELFOR PROCESSING DATA THROUGH MUTLIPLE LINGUISTIC TASK HIERARCHIES)”(代理人案卷号SALE 1182-4/1948US2)的权益。该优先权非临时申请出于所有目的通过参考合并于此。

技术公开的技术领域

所公开的技术总地涉及使用深度神经网络进行自然语言处理(NLP)的架构，尤其涉及使用端到端可训练的联合多任务神经网络模型的多任务学习。该体系架构可扩展到其他多层分析框架和任务。

背景技术

不应仅仅因为在本节中提及本节中讨论的主题而将其假定为是现有技术。类似地，本节中提到的问题或与背景技术中提供的主题相关联的问题不应被假定为现有技术中之前已经认识到。本节中的主题仅表示不同的方法，这些方法本身也可以对应于所要求保护的技术的实现。

传输和多任务学习传统上集中在单个源-目标对或非常少的类似任务上。理想情况下，词法、语法和语义的语言水平将通过在单个模型中训练而彼此受益。所公开的技术提供了所谓的“联合多任务神经网络模型”，以在单个端到端模型中使用不断增长的层深度来解决各种日益复杂的自然语言处理(NLP)任务。该模型通过考虑语言层级结构，将词表示直接连接到所有模型层，明确地使用较低任务中的预测，以及应用所谓的“连续正则化”技术来防止灾难性遗忘来连续训练。较低级模型层的三个示例是词性(POS)标注层、语块划分层和依赖性解析层。较高级模型层的两个示例是语义相关性层和文本蕴涵层。该模型实现了关于语块划分、依赖性解析、语义相关性和文本蕴涵的最先进的结果。

附图的简要说明

在附图中，相同的附图标记在不同视图中通常指代相同的部分。而且，附图不一定按比例绘制，而是通常将重点放在说明所公开的技术的原理上。在以下描述中，参考以下附图描述所公开的技术的各种实施方式，其中：

图1A示出了在连续层处执行越来越复杂的NLP任务的联合多任务神经网络模型的各方面。

图1B和图1C示出了可用于实现联合多任务神经网络模型的各种模块。

图2A描绘了在本文中用于对输入词(尤其是未知词)进行鲁棒性编码的联合嵌入技术。

图2B示出了表明使用字符n-gram嵌入导致改善了对未知词的处理的各种表。

图3示出了维度投影的一种实现方式。

图4A示出了联合多任务神经网络模型的POS层的操作的一种实现方式。

图4B包括示出了联合多任务神经网络模型的POS标注结果的表。

图5A示出了联合多任务神经网络模型的语块划分层的操作的一种实现方式。

图5B包括示出了联合多任务神经网络模型的POS标注的结果的表。

图6A示出了依赖性解析层的操作的一种实现方式。

图6B、图6C、图6D、图6E和图6F示出了依赖性解析层的注意力编码器的操作的一种实现方式。

图6G示出了依赖性解析层的依赖性关系标签分类器的操作的一种实现方式。

图6H示出了模型在其上应用依赖性解析的两个示例语句。

图6I包括示出模型的依赖性解析层的结果的表。

图7A示出了语义相关性层的一种实现方式。

图7B包括示出语义相关性任务的结果的表。

图8A示出了蕴涵层的一种实现方式。

图8B包括示出蕴涵任务的结果的表。

图9A示出了训练堆叠的LSTM序列处理器的一种实现方式，该堆叠的LSTM序列处理器根据分析层级堆叠至少三层。

图9B包括表明连续正则化技术的有效性的表。

图10包括示出五个不同NLP任务上的测试集的结果的表。

图11是可用于实现联合多任务神经网络模型的计算机系统的简化框图。

详细描述

呈现以下讨论以使得本领域技术人员能够制造和使用所公开的技术，并且在特定应用及其要求的背景下提供以下讨论。对于本领域技术人员来说，所公开的实现的各种修改是显而易见的，并且在不脱离所公开的技术的精神和范围的情况下，这里定义的一般原理可以应用于其他实现和应用。因此，所公开的技术不旨在限于所示的实现方式，而是与符合本文公开的原理和特征的最宽范围相一致。

介绍

在自然语言处理(NLP)领域中以多种方式使用多个级别的语言表示。例如，词性(POS)标注由句法解析器应用。POS标注改进了较高级别的任务，例如自然语言推理，关系分类，情感分析或机器翻译。但是，较高级别的任务通常不能改进较低级别的任务，这通常是因为系统是单向传输管线而不是端到端的训练。

在深度学习中，受监督的词和语句语料库通常用于针对后续任务将循环神经网络(RNN)进行初始化。然而，由于没有经过联合训练，深度NLP模型尚未显示出堆叠越来越复杂的语言任务层的好处。相反，现有模型通常设计为完全单独或在相同深度预测不同任务，忽略语言层级结构。

所公开的技术的总体主题是所谓的“联合多任务神经网络模型”，其在连续层处执行越来越复杂的NLP任务。与传统的NLP管线系统不同，对联合多任务神经网络模型进行端到端地训练以用于POS标注、语块划分和依赖性解析。它可以进一步关于语义相关性、文本蕴涵和其他更高级别的任务进行端到端的训练。在单个端到端实现中，该模型获得关于语块划分、依赖性解析、语义相关性和文本蕴涵的最先进的(state-of-the-art)结果。它还在POS标注上具有竞争力。此外，模型的依赖性解析层依赖于单个前馈传递，并且不需要定向搜索(beam search)，这增加了并行化并提高了计算效率。

为了允许联合多任务神经网络模型在深度上增长的同时避免灾难性遗忘，我们还公开了所谓的“连续正则化(successive regularization)”技术。连续正则化允许模型权重的多层训练以改善一个NLP任务的损失，而不会表现出其他任务的灾难性干扰。通过避免任务之间的灾难性干扰，该模型允许较低和较高级别的任务受益于联合训练。

为了改善联合多任务神经网络模型中的泛化和减少过度拟合，我们进一步公开了所谓的“维度投影(dimensionality projection)”技术。维度投影包括将神经网络分类器的低维输出投影到高维向量空间中。从低维空间到高维空间的这种投影产生了维度瓶颈，从而减少了过度拟合。

为了对提供给联合多任务神经网络模型的输入词，特别是未知词，进行鲁棒性编码，我们公开了一种“联合嵌入(joint-embedding)”技术。联合嵌入包括使用词的词嵌入和词的字符n-gram嵌入的组合来表示输入词。联合嵌入有效地编码形态特征和关于未知词的信息。

联合多任务神经网络模型

图1示出了在连续层处执行越来越复杂的NLP任务的联合多任务神经网络模型100的各方面。在实现中，模型100是堆叠的长短期记忆(“LSTM”)语句处理器，其根据语义层级堆叠成层，具有旁路连接，其将下层的输入与下层的嵌入输出一起递送到叠加层(overlying layer)。语言层级从语句中的词(例如，语句₁，或语句₂)构建出词性、语句的语块(chunk)、词和它们的依赖性父项(dependency parent)之间的依赖性链接、依赖性链接上的标签。在图1所示的示例中，模型100包括具有类似架构的两个LSTM堆叠(即，堆叠a和堆叠b)。在一个实现中，模型100仅包括一个LSTM堆叠。在另一实现中，模型100包括两个以上的LSTM堆叠(例如，3、4、10个等)。

在模型100中，堆叠的层包括词性(POS)标签嵌入层(例如，104a或104b)，叠加(overlying)在POS标签嵌入层上的语块/语块划分标签嵌入层(例如，106a或106b)；以及叠加在语块标签嵌入层上的依赖性父项标识和依赖性关系标签嵌入层(例如，108a或108b)。

POS标签嵌入层实现为使用POS标签分类器的双向LSTM。它处理表示输入语句中的词的词嵌入向量(例如，102a或02b)，并针对每个词产生POS标签嵌入向量和POS状态向量。

语块标签嵌入层实现为使用语块标签分类器的双向LSTM。它至少处理词嵌入向量、POS标签嵌入向量和POS状态向量，以产生语块标签嵌入和语块状态向量。

依赖性父项标识和依赖性关系标签嵌入层被实现为使用一个或更多个分类器的双向LSTM。它处理词嵌入、POS标签嵌入、语块标签嵌入和语块状态向量，以识别语句中每个词的依赖性父项，以产生词和词的各自潜在父项之间的依赖性关系标签或关系的标签嵌入。

此外，POS标签嵌入向量、语块标签嵌入向量和依赖性关系标签嵌入向量的维度是相似的，在+/-10％之内。

在一些实现方式中，模型100包括输出处理器，该输出处理器至少输出反映依赖性父项的标识的结果以及用于语句中的词的依赖性关系标签嵌入的产生。在图1所示的示例中，可以将相关性编码器(例如，110a或110b)视为向相关性层(例如，112)提供依赖性关系标签嵌入的外部处理器。相关性层提供第一和第二语句之间的相关性的类别分类，并经由蕴涵编码器(例如，114a或114b)将分类递送给蕴涵层(例如，116)。蕴涵层输出第一和第二语句之间的蕴涵的类别分类。在实现中，相关性层和蕴涵层用作输出处理器。

关于旁路连接，旁路连接将下层使用的输入向量提供给叠加层而不进行修改。在图1所示的示例中，“类型2”旁路连接向模型100中的每个层直接提供词表示。在旁路连接的另一示例中，“类型3”旁路连接将在POS标签嵌入层处生成的POS标签嵌入向量提供给每个叠加层。在旁路连接的另一示例中，“类型4”旁路连接将在语块标签嵌入层处生成的语块标签嵌入提供给每个叠加层。

模型100还包括将来自下层的信息仅递送到连续的叠加层的连接。例如，“类型5”连接向蕴涵层提供在语义相关性层处计算的第一和第二语句之间的相关性的类别分类。“类型6”连接输出来自蕴涵层的第一和第二语句之间的蕴涵的类别分类。而且，“类型1”连接仅向连续的叠加层提供在给定层处生成的隐藏状态向量。

图1中的组件可以以硬件或软件实现，并且不需要以与图1所示的完全相同的框进行划分。一些组件也可以在不同的处理器或计算机上实现，或者在许多不同的处理器或计算机之间传播。另外，应当理解，一些组件可以组合、并行操作或以与图1所示不同的顺序操作，而不影响所实现的功能。同样如本文所用，术语“组件”可包括“子组件”，其本身在本文中可视为构成组件。例如，在此也可以将POS标签嵌入层和语块标签嵌入层认为是“词级处理器”组件的子组件。类似地，在此也可以将依赖性父项标识和依赖性关系标签嵌入层认为是“句法级处理器”组件的子组件。同样地，在本文中也可以将语义相关性层和蕴涵层认为是“语义级处理器”组件的子组件。此外，也可以将图1中的框认为是方法中的流程图步骤。组件或子组件也不一定必须将其所有代码连续地放置在存储器中；代码的某些部分可以用来自其他组件或子组件或其间设置的其他功能的代码与代码的其他部分分开。

在一些实现中，模型100是堆叠的LSTM词条(token)序列处理器，其根据分析层级堆叠成层，具有旁路连接，其将下层的输入与下层的嵌入输出一起递送到叠加层。在这样的实现中，模型100的堆叠的层包括第一嵌入层、叠加在第一嵌入层上的第二嵌入层以及叠加在第二嵌入层上的第三嵌入层。

在一个实现中，模型100的第一嵌入层(实现为双向LSTM和第一标签分类器)处理表示输入序列中的词条的词条嵌入，并产生词条的第一嵌入和第一状态向量。在一个实现中，模型100的第二嵌入层(实现为双向LSTM和第二标签分类器)至少处理词条嵌入、第一标签嵌入和第一状态向量，以产生第二标签嵌入和第二状态向量。在一个实现中，模型100的第三嵌入层(实现为双向LSTM)至少处理词条嵌入、第一标签嵌入、第二标签嵌入和第二状态向量，以产生第三标签嵌入和第三状态向量。在一个实现中，模型100的输出处理器至少输出反映输入序列中的词条的第三标签嵌入的结果。

在一些实现中，第一嵌入层通过第一状态向量的指数归一化进一步产生第一标签概率质量向量，并从第一标签概率质量向量产生第一标签嵌入向量。在一些实现中，第二嵌入层还通过第二状态向量的指数归一化产生第二标签概率质量向量，并从第二标签概率质量向量产生第二标签嵌入向量。在一些实现中，第三嵌入层还通过第三状态向量的指数归一化产生第三标签概率质量向量，并从第三标签概率质量向量产生第三标签嵌入向量。在实现中，第一标签嵌入向量、第二标签嵌入向量和第三标签嵌入向量的维度是相似的，在+/-10％之内。

在一个实现中，模型100包括在第一标签嵌入层下面的词条嵌入处理器，其包括词条嵌入器和分解的词条嵌入器。词条嵌入器在序列中的词条被识别出时将其映射到由词条嵌入向量表示的词条嵌入空间中。分解的词条嵌入器以多个尺度处理词条的词条分解，将每个经处理的词条分解映射到表示词条分解嵌入空间中的位置的中间向量，并且组合用于每个唯一经处理的词条分解的中间向量，以产生每个词条的词条分解嵌入向量。词条嵌入处理器组合词条嵌入器和分解的词条嵌入器的结果，由此先前未映射到词条嵌入空间的词条仍由词条分解嵌入向量表示。

联合嵌入

图2A描绘了用于对输入词，尤其是未知词，进行鲁棒性编码的联合嵌入技术200。联合嵌入包括，针对长度为L的输入序列S中的每个词w_t，通过串联(concatenating)词W_t的词嵌入210和词W_t的一个或更多个字符n-gram嵌入(在此也称为“n-character-gram”嵌入)来构造所谓的“词表示”222。在图2A中，串联操作由“+”符号表示。

关于词嵌入，模型100包括词嵌入器202，其训练词嵌入矩阵以创建词嵌入空间204。在一个实现中，词嵌入器202使用连续跳跃元语法(skip-gram)模型来训练词嵌入矩阵。在另一个实现中，它使用连续词袋(CBOW)模型来训练词嵌入矩阵。在实现中，词嵌入矩阵在模型100的所有NLP任务上共享。在一些实现中，将未包括在词汇表中的词映射到特殊的“UNK”词条。

关于字符n-gram嵌入，模型100包括字符嵌入器206，其训练字符嵌入矩阵以创建字符嵌入空间208。在一个实现中，字符嵌入器206使用skip-gram模型来训练词嵌入矩阵。在另一个实现中，它使用连续词袋(CBOW)模型来训练字符嵌入矩阵。在实现中，使用与词向量相同的skip-gram目标函数来学习字符n-gram嵌入。

字符嵌入器206，在此也称为“n-character-gram嵌入器”，构造训练数据中字符n-gram的词汇表，并为每个字符n-gram分配嵌入。在图2所示的示例中，字符嵌入空间208包括1-gram嵌入212，2-gram嵌入214，3-gram嵌入216和4-gram嵌入218。在其他实现中，它包括用于不同的、附加的和/或更少的n-grams的嵌入。

最终字符嵌入220逐元素地组合表示词w_t的唯一字符n-gram嵌入的向量。例如，词“Cat”的字符n-gram(n＝1，2，3)是{C，a，t，#BEGIN#C，Ca，at，t#END#，#BEGIN#Ca，Cat，at#END#}，其中“#BEGIN#”和“#END#”分别代表每个词的开头和结尾。表示这些子串的向量的逐元素组合可以是逐元素平均值或最大值。字符n-gram嵌入的使用有效地提供了关于未知词的形态特征和信息。因此，每个词被表示为词表示X_t222，其为对应的词嵌入210和字符嵌入220的串联。

在实现中，词嵌入器202和字符嵌入器206是所谓的“词嵌入处理器”的一部分。POS标签嵌入层叠加在词嵌入处理器上。当语句中的词被识别出时，词嵌入器202将其映射到由词嵌入向量表示的词嵌入空间204中。n-character-gram嵌入器206在子串长度的多个尺度下处理词的字符子串，将每个经处理的字符子串映射到表示字符嵌入空间208中的位置的中间向量，并组合每个唯一经处理的字符子串的中间向量，以为每个词产生字符嵌入向量。词嵌入处理器组合词嵌入器202和n-character-gram嵌入器206的结果，由此先前未映射到词嵌入空间的词由字符嵌入向量表示。对未知词或词汇表外(OoV)词的处理很好地适用于其他NLP任务，例如问答。

在一些实现中，n-character-gram嵌入器206组合中间向量以产生字符嵌入向量的逐元素的平均值。

除了词嵌入向量之外，POS标签嵌入层还进一步处理表示输入语句中的词的n-character-gram嵌入向量，并且旁路连接进一步将n-character-gram嵌入向量递送至语块标签嵌入层和依赖性父项和依赖性关系标签嵌入层，作为那些叠加层中的相应双向LSTM的输入。

关于训练，根据一种实现方式，使用具有负抽样的skip-gram或CBOW模型训练词嵌入。字符n-gram嵌入也类似地训练。在一些实现中，词嵌入的训练与字符n-gram嵌入之间的一个区别是将skip-gram模型中的每个输入词替换为其对应的字符n-gram嵌入的平均嵌入。而且，在模型100的联合训练期间微调这些嵌入，使得在反向传播期间，梯度用于更新相应的字符nH-gram嵌入。嵌入参数表示为“θ_e”。

在一个实现中，字符n-grams的词汇表建立在训练语料库，区分大小写的英语维基百科文本上。这种区分大小写的信息在处理某些类型的词(如命名实体)时很重要。假设词W_t具有其对应的K字符n-grams{cn₁,cn₂,.....,cn_K}，其中删除了任何重叠和未知条目。然后，用嵌入v_c(w)表示该词W_t，计算如下：

其中v(cn_i)是字符n-gram cn_i的参数化嵌入。

此外，对于训练语料库中的每个词-上下文对N个负上下文词被采样，目标函数定义如下：

其中σ(·)是逻辑sigmoid函数，是上下文词的权重向量，是负样本。

图2B示出了表明使用字符n-gram嵌入结果改进了对未知词的处理的各种表。这在图2B的表224中表明，其示出了具有和不具有预训练字符n-gram嵌入的三个单个任务(POS标注、语块划分和依赖性解析)的结果。“W&C”列对应于使用词和字符n-gram嵌入两者，而“Only W”对应于仅使用词嵌入。这些结果清楚地表明，联合使用预训练的词和字符n-gram嵌入有助于改善结果。字符n-gram嵌入的预训练也是有效的；例如，没有预训练的情况下，POS精度从97.52％下降到97.38％，语块精度从95.65％下降到95.14％，但它们仍然优于单独使用word2vec嵌入的情况。

图2B的表226示出了就未知词的准确性而言，词和字符n-gram嵌入的联合使用将得分提高了约19％。图2B的表228示出了在具有和不具有字符n-gram嵌入的开发集上的依赖性解析得分，其聚焦于未知词的UAS和LAS。UAS代表未加标签的附件得分。LAS代表加标签的附件得分。UAS研究依赖性树的结构，并评估输出是否具有正确的头部和依赖性关系。除了UAS中的结构得分之外，LAS还测量在每个依赖性关系上的依赖性标签的准确性。表228清楚地表明使用字符级信息是有效的，并且特别地，LAS得分的改善很大。

维度投影

图3示出了维度投影300的一种实现方式。维度投影包括将来自下层的中间结果传送到双向LSTM的神经网络堆栈中的叠加层，其中堆叠具有对应于处理词条序列的分析框架的层，并且下层产生每个词条的分析框架标签向量。

在图3中，隐藏状态向量314由神经网络(例如LSTM或双向LSTM)或者任何其他RNN生成。隐藏状态向量314在高维向量空间302中编码并且具有1×|E|的维数，其被逐元素地识别为{d₁,d₂,...,d_j,....,d_|E|,}，d表示个体维度并且子脚本表示维度的序数位置。在一个示例中，|E|＝200。在一个示例中，分类器304将隐藏状态向量314作为具有与可用框架标签的数目相同数量的维度的标签空间向量分类到分析框架签注空间306。分析框架标签空间306编码语言意义。例如，如果POS标签嵌入层具有二十个标签，则α＝20。在一个实现中，分类器304仅包括维数减少矩阵W_α。在另一实现中，除了维数减少权重矩阵W_α之外，分类器304包括指数归一化器308(例如，分类器(softmax))，它还对由维数减少权重矩阵W_α产生的标签空间向量进行归一化。

一旦创建，低维标签空间向量由维度增强权重矩阵W_l 310投影到扩展的维度标签空间312中，以产生扩展的词条标签向量316。扩展的维度标签空间312是高维向量空间。因此，与隐藏状态向量314一样，也将标签向量316映射到高维向量空间并且其具有1×|E|的维度，其被逐元素地识别为{l₁,l₂,...,l_j,....,l_|E|,}，l表示个体维度，子脚本表示维度的序数位置。注意，标签向量316具有与隐藏状态向量314的维度大致相同的维度。大致相同，我们的意思是在+/-10％以内。维度没有必要是相同的，但当它们是相同的时候编程可以更容易。

模型100在处理的各个阶段使用维度投影。在一个实现中，使用它来将POS标签嵌入投影在更高维空间中，使得低维POS分析标签空间向量投影到向量空间中，其中它们具有与用于生成它们的POS隐藏状态向量相同的维度。在另一实现中，模型100使用维度投影将语块标签嵌入投影在更高维空间中，使得低维语块分析标签空间向量被投影到向量空间中，其中它们与用于生成它们的语块隐藏状态向量具有相同的维度。同样，在其他实现中，其他层使用维度投影。

在一个实现中，当可用分析框架标签的数量是隐藏状态向量314的维度的五分之一或更小时，标签空间向量316用作维度瓶颈(dimensionality bottleneck)，其在训练模型100时减少过度拟合。在另一实现中，当可用分析框架标签的数量是隐藏状态向量314的维度的十分之一或更小时，标签空间向量316用作维度瓶颈，其在训练模型100时减少过度拟合。

维度瓶颈也可以改进其他NLP任务的处理，例如机器翻译。

词级任务-POS标注

图4A示出了模型100的POS层400的操作的一种实现。

POS标签嵌入层(在此也称为“POS层”)通过POS状态向量(例如，408)的指数归一化(例如，具有单个ReLU层的softmax 406)产生POS标签概率质量向量(例如，404)，并从POS标签概率质量向量产生POS标签嵌入向量(例如，402)。

在一个实现中，模型100的POS标签嵌入层400是双向LSTM 410，其隐藏状态用于预测POS标注。在一个实现中，以下LSTM单元用于前向传递方向：

i_t＝σ(W_ig_t+b_i),

f_t＝σ(W_tg_t+b_f),

o_t＝σ(W_og_t+b_o),

u_t＝tanh(W_ug_t+b_u),

c_t＝i_tu_t+f_tc_t-1,

h_t＝o_t tanh(c_t),

其中输入g_t定义为g_t＝[h_t-1；x_t]，即之前的隐藏状态和词表示x_t的串联。

LSTM在词上的后向传递以相同的方式扩展，但具有不同的权重集。

为了预测w_t的POS标注，前向和后向状态的串联用于对应于第t个词的一层双LSTM层：然后将每个h_t(1≤t≤L)馈送到具有单个ReLU层的指数归一化器，其输出每个POS标注的概率向量y^(pos)。

图4B包括示出模型100的POS标注的结果的表。模型100获得接近最先进结果的得分。

词级任务-语块划分

图5A示出了模型100的语块划分层500的操作的一种实现。

语块划分也是词级分类任务，其为每个词分配语块划分标注(B-NP，I-VP等)。标注指定语句中主要短语(或语块)的区域。

语块标签嵌入层500(在本文中也称为“语块划分层”)还通过语块标签状态向量(例如，508)的指数归一化器(例如，具有单个ReLU层的softmax506)产生语块标签概率质量向量(例如，504)，和从语块标签概率质量向量产生语块标签嵌入向量(例如，标签概率质量向量)。

在模型100中，使用POS层顶部上的第二双LSTM层510来执行语块划分。堆叠双LSTM层时，向LSTM单元提供以下输入：

其中是第一POS层的隐藏状态。权重标签嵌入的定义如下：

其中C是POS标注的数量，是第j个POS标注分配给词W_t的概率质量，以及l(j)是相应的标签嵌入。如前所述，标签嵌入可以处于比概率质量更高的维度。概率值由POS标签嵌入层自动预测，就像内置的POS标注器一样，因此在某些实现中不需要黄金(gold)POS标注。

为了预测语块划分标注，通过使用在语块划分层中串联的双向隐藏状态来采用与POS标注类似的策略。在一些实现中，在指数分类器之前使用单个ReLU隐藏层。

图5B包括示出模型100的POS标注的结果的表。模型100实现了最先进的结果，这表明除了更高级别的任务之外，还通过联合学习改进了较低级别的任务。

句法任务-依赖性解析

图6A示出了模型100的依赖性解析层600的操作的一种实现。

依赖性解析识别语句中的词对之间的句法关系(例如形容词修饰名词)。

依赖性父项标识和依赖性关系标签嵌入层600(在此也称为“依赖性层或依赖性解析层”)，通过由双向LSTM 604产生的父项标签状态向量602的指数归一化和分类产生父标签概率质量向量(在此也称为“依赖性父项分析器”)。依赖性解析层从父标签概率质量向量产生父标签嵌入向量，通过父标签状态向量和父标签嵌入向量的指数归一化和分类产生依赖性关系标签概率质量向量，并从依赖性关系标签概率质量向量产生依赖性关系标签嵌入向量。

依赖性父项分析器604处理输入语句中的词，包括针对每个词、词嵌入、POS标签嵌入、语块标签嵌入和语块状态向量进行处理，以累积表示语句中词之间的相互作用的前向和后向进展的前向和后向状态向量602。

图6B、图6C、图6D、图6E和图6F示出了依赖性解析层600的注意力编码器610的操作的一个实现。在将线性变换608应用于该词或另一词的前向和后向状态向量602之后，注意力编码器610处理语句中的每个相应词的前向和后向状态向量602，以将注意力编码为每个相应词与语句中的其他词之间的内积612，由此线性转换中的权重606是可训练的。在一些实现中，注意力编码器610使用哨兵向量622来对根词进行编码。

注意力编码器610还将指数归一化器614应用于内积612的向量616，以产生父标签概率质量向量618并投影父标签概率质量向量以根据父标签概率质量向量618通过混合或计算前向和后向状态向量602的线性变换的加权和620来产生父标签嵌入向量。

图6G示出了依赖性解析层的依赖性关系标签分类器626的操作的一种实现。依赖性关系标签分类器626，针对语句中的每个相应词，对前向和后向状态向量602和父标签嵌入向量624进行分类和归一化(使用诸如softmax 628的另一指数归一化器)，以产生依赖性关系标签概率质量向量630，并投影依赖性关系标签概率质量向量630以产生依赖性关系标签嵌入向量632。

如上所述，对于依赖性解析，模型100在POS和语块层之上使用第三双LSTM层604来对所有词对之间的关系进行分类。如图6A所示，用于依赖性解析LSTM的输入向量包括用于两个之前任务的隐藏状态、词表示102和标签嵌入402和502：

其中，以与上述等式(1)中的POS向量类似的方式计算语块划分向量。POS和语块划分标注402和502用于改进依赖性解析。

与哨兵标注任务类似，模型100针对语句中的每个词预测父节点，在此也称为“头部”。然后，为每个子父节点对预测依赖性标签。为了预测词W_t的第t个的父节点，模型100定义了词W_t和父节点的候选之间的匹配函数612(基于点积/内积或双线性乘积)：

其中W_d是参数矩阵。如上所述，对于根节点，模型100定义作为参数化的哨兵向量622。如上所述，为了计算W_j(或根节点)是W_t的父节点的概率，使用指数归一化器(例如，softmax 614)对得分进行归一化，如下所示：

其中L是语句长度。

接下来，使用作为另一个指数归一化器(例如，具有单个ReLU层的softmax 628)的输入来预测依赖性标签。在测试时间，在一个实现中，为语句中的每个词贪婪地选择父节点和依赖性标签。也就是说，模型100在POS标签嵌入层、语块标签嵌入层或依赖性父项标识和依赖性关系标签嵌入层中没有定向搜索的情况下操作。该结果是因为模型100逐字地计算标签嵌入，这增加了并行化并且改进了计算效率，因为它避免了通常由定向搜索引起的冗余和计算延迟。此外，在依赖性解析期间，逐字计算允许模型100校正任何错误加标签的根，使得如果词被预测为其自身的根，则模型100可以将其检测为不正确的预测并且可以自动计算该词的新正确预测。

在一个实现中，模型100假设语句中的每个词仅具有一个父节点。在另一实现中，模型100假设每个词可以具有多个父节点并使用类似循环图的计算产生依赖性标签。在训练时间，模型100使用黄金(gold)或地面实况(ground truth)子父对来训练标签预测器。

图6H示出了模型100对其应用依赖性解析的两个示例语句。在示例(a)中，将两个粗体字“劝告(counsels)”和“需要(need)”预测为根节点的子节点，并且带下划线的词“劝告(counsels)”是基于黄金注释的正确词。在示例(b)中，没有一个词连接到根节点，并且根的正确子节点是带下划线的词“董事长(chairman)”。模型100使用单个参数化向量r来表示每个语句的根节点并捕获各种类型的根节点。在一些实现中，模型100使用依赖于语句的根表示。

图61包括示出模型100的依赖性解析层的结果的表。Model 100实现了最先进的结果。注意，模型100的贪婪依赖性解析器优于基于具有全局信息的定向搜索的前期最新结果。这表明模型100的双-LSTM有效地捕获依赖性解析所需的全局信息。

语义任务-语义相关

图7A示出了模型100的语义相关性层700的操作的一种实现。

模型100的接下来的两个NLP任务对两个输入语句之间的语义关系进行编码。第一个任务是测量两个语句之间的语义相关性。语义相关性层的输出是输入语句对的实值相关性得分。第二项任务是文本蕴涵任务，其要求人们确定前提语句是否蕴涵假设语句。这些通常是三类：蕴涵、矛盾和中立。

这两个语义任务彼此密切相关。在实现中，良好的语义相关性由低语义相关性得分表示。因此，如果两个语句之间的语义相关性得分非常低，即两个语句具有高语义相关性，则它们可能彼此蕴涵。基于这种直觉并利用来自较低层的信息，模型100分别使用第四和第五双LSTM层用于相关性和蕴涵任务。

由于这些任务需要语句级表示而不是前面任务中使用的词级表示，因此模型100计算语句级表示作为在第四层中所有词级表示上的逐元素的最大值，如下：

其中L是语句的长度。

为了建模s和s’之间的语义相关性，将特征向量计算如下：

其中是逐元素相减的绝对值，以及是逐元素相乘。这两个操作都可以视为两个向量的两个不同的相似性度量。然后，将d₁(s,s')被馈送到具有单个Maxout隐藏层722的指数归一化器(例如，softmax)，以输出语句对的相关得分(例如，在1和5之间)。Maxout隐藏层722包括多个线性函数(例如，池大小为4)，每个线性函数生成d₁(s,s')的非线性投影，从而将最大非线性投影馈送到指数归一化器。

转到图7A，具有双向LSTM 702的语义相关性层700叠加在依赖性父项标识和依赖性关系标签嵌入层600上，还包括相关性向量计算器720和相关性分类器714。相关性向量计算器720计算第一和第二语句中的每一个的语句级表示708a和708b，包括针对各个语句中的每个词的前向和后向状态向量704的双向LSTM计算和针对各个语句中的词的前向和后向状态向量704的逐元素的最大池化计算706，以产生表示各个语句的语句级状态向量708a和708b。替代实现可以使用平均池化。然后，相关性向量计算器720进一步计算由相关性分类器714处理的逐元素的语句级相关性向量712，以导出第一和第二语句之间的相关性的类别分类。在一些实现中，相关性向量计算器报告类别分类以用于进一步处理，例如用于生成的相关性标签嵌入718。

相关性向量计算器720包括特征提取模块716，其计算第一和第二语句的语句级相关性向量708a和708b之间的逐元素的差，计算第一和第二语句的语句级相关性向量708a和708b之间的逐元素的乘积，以及使用逐元素的差的绝对值和逐元素的乘积的向量作为相关性分类器714的输入。

图7B包括示出语义相关性任务的结果的表。模型100实现了最先进的结果。

语义任务-文本蕴涵

对于两个语句之间的蕴涵分类，模型100还使用与语义相关的任务中的最大池化技术。为了将前提假设对(s，s')分类为三个类别之一，模型100计算特征向量d₂(s,s')，如等式(2)，除了它不使用逐元素相减的绝对值，以便识别哪个是前提(或假设)。然后，将d₂(s,s')馈送到具有多个Maxout隐藏层(例如，三个Maxout隐藏层)822的指数归一化器(例如，softmax)。

Maxout隐藏层将多个线性函数和非线性激活应用于输入并选择最佳结果。当多个Maxout隐藏层布置在堆栈中时，前一个Maxout隐藏层的最大输出将作为输入提供给连续的Maxout隐藏层。堆叠中的最后一个Maxout隐藏层的最大输出提供给指数归一化器以进行分类。注意，时间最大池化仅逐元素地评估多个输入向量的各个维度，并为每个序数位置选择最大维度值以在最大池化向量中编码。相比之下，Maxout隐藏层使输入向量经受多个非线性变换，并仅选择具有最大维度值的一个线性变换。

为了直接使用相关层的输出，模型100使用标签嵌入来进行相关性任务。模型100计算语义相关任务的类别标签嵌入，类似于等式(1)。串联并馈入蕴涵分类器的最终特征向量是加权相关性嵌入和特征向量d₂(s,s')。

转到图8A，蕴涵层800具有叠加在语义蕴涵层800上的双向LSTM802，还包括蕴涵向量计算器820和蕴涵分类器814。蕴涵向量计算器820计算第一和第二语句中的每一个的语句级表示808a和808b，包括针对各个语句中的每个词的前向和后向状态向量804的双向LSTM计算以及针对各个语句中的词的前向和后向状态向量804逐元素的最大池化计算806，以产生表示各个语句的语句级状态向量808a和808b。替代实现可以使用平均池化。然后，蕴涵向量计算器820还计算由蕴涵分类器814处理的逐元素的语句级蕴涵向量812，以导出第一和第二语句之间的蕴涵的类别分类。在一些实现方式中，蕴涵向量计算器报告用于进一步处理的类别分类，例如用于生成的蕴涵标签嵌入818。

蕴涵向量计算器820包括特征提取模块816，其计算第一和第二语句的语句级蕴涵向量808a和808b之间的逐元素的差，计算第一和第二语句的语句级蕴涵向量808a和808b之间的逐元素的乘积，并使用逐元素的差的绝对值和逐元素的乘积的向量作为蕴涵分类器814的输入。

图8B包括示出文本蕴涵任务的结果的表。Model 100实现了最先进的结果。

训练-连续正则化

在NLP任务中，多任务学习具有不仅可以改进较高级别的任务，还可以改进较低级别的任务的潜力。不是将预先训练的模型参数视为固定的，而是所公开的连续正则化允许模型100连续训练较低级别的任务而不会发生灾难性的遗忘。

模型100在所有数据集上联合训练。在每个时期期间，优化以与上述相应任务相同的顺序对每个完全训练的数据集进行迭代。

训练POS层

POS层400的一个训练语料库是Penn Treebank的华尔街日报(WSJ)部分。该语料库包括用POS标注标记的词条。在POS层400的训练期间，L2范数正则化应用于POS层400的层参数，因为它是当前层。连续正则化应用于仅一个下层的层参数，即嵌入层，其包括词嵌入空间204和字符嵌入空间208。

使θ_pos＝(W_pos,b_pos,θ_e)指示与POS层400相关联的模型参数集，其中W_pos是一组第一双LSTM和分类器中的权重矩阵，b_pos是一组偏置向量。优化θ_pos的目标函数定义如下：

其中是在语句S中将正确的标签α分配给W_t的概率值，λ||W_pos||²是L2范数的正则化项，以及λ是L2-范数正则化超参数。δ||θ_e-θ′_e||²是连续正则化项。该连续规则化防止了模型100中的灾难性遗忘并因此阻止了它忘记针对其他任务学到的信息。在POS标注的情况下，对θ_e应用正则化，以及θ_e'是在之前训练时期的最顶层中训练最后任务之后的嵌入参数。δ是连续正则化超参数，其对于模型100的不同层可以是不同的，并且还可以根据网络权重和偏差对其分配不同的值。

训练语块层

为了训练语块划分层500，使用WSJ语料库，其中标记了语块。在训练语块划分层500期间，因为它是当前层，L2范数正则化应用于语块划分层500的层参数。连续正则化应用于两个下层(即嵌入层和POS层400)的层参数。

语块划分层的目标函数定义如下：

这类似于POS标注的目标函数，θ_chk是(W_chk,b_chk,E_pos,θ_e)，其中W_chk和b_chk是包括θ_pos中的那些的权重和偏差参数，E_pos是一组POS标签嵌入。θ'_pos是在当前训练时期训练POS层400之后的POS参数。

训练依赖性层

为了训练依赖性解析层600，使用具有依赖性标签的WSJ语料库。在依赖性解析层600的训练期间，将L2范数正则化应用于依赖性解析层600的层参数，因为它是当前层。将连续正则化应用于三个下层的层参数，即嵌入层、POS层400和语块划分层500。

依赖性层的目标函数定义如下：

其中，是针对Wt分配给正确父节点标签α的概率值，以及是针对子-父对(w_t,α)分配给正确依赖性标签β的概率值。θ_dep定义为(W_dep,b_dep,W_d,r,E_pos,E_chk,θ_e),其中W_dep和b_dep是包括在θ_chk,中的那些的权重和偏置参数，以及E_chk是一组语块标签嵌入。

训练相关性层

在语义相关性层700处，训练所使用的SICK数据集。在语义相关性层700的训练期间，因为它是当前层，将L2范数正则化应用于语义相关性层700的层参数。将连续正则化应用于四个下层的层参数，即嵌入层、POS层400、语块划分层500和依赖性解析层600。

相关性层的目标函数定义如下：

其中p(s,s')是在定义的相关性得分上的黄金分布，是给定语句表示的预测分布，以及是两个分布之间的KL-散度。θ_rel定义为(W_rel,b_rel,E_pos,E_chk,θ_e)。

训练蕴涵层

为了训练蕴涵层800，我们还使用了SICK数据集。在蕴涵层800的训练期间，将L2范数正则化应用于蕴涵层800的层参数，因为它是当前层。连续正则化被应用于五个下层的层参数，即嵌入层、POS层400、语块划分层500、依赖性解析层600和语义相关性层。

用于蕴涵层的目标函数被定义如下：

其中，是将正确标签α分配给前提假设对(s,s')的概率值。θ_ent定义为(W_ent,b_ent,E_pos,E_chk,E_rel,θ_e)，其中E_rel是一组相关性标签嵌入。

训练的时期

转到图9A，图9A示出了训练堆叠的LSTM序列处理器的一种实现，该堆叠的LSTM序列处理器根据分析层级堆叠有至少三层。在图9A中，第一、第二和第三层(例如，POS层400、语块划分层500和依赖性层600)通过使用针对每个层的训练示例的后向传播来训练，其中在训练期间将训练正则化地向下传递到下层。训练包括使用第一层训练示例(例如，POS数据)训练第一层，使用第二层训练示例(例如，语块划分数据)训练第二层，其中将训练正则化地向下传递到第一层，以及使用第三层训练示例(例如，依赖性数据)训练第三层，其中将训练正则化地向下传递到第一和第二层。通过约束训练目标函数使正规化的传递训练正则化，该训练目标函数具有适应度函数(fitness function)，其具有至少两个正则化项。两个正则化项通过惩罚应用于下层的系数矩阵中的权重大小的增长来正则化化，并且对应用于下层的系数矩阵中的权重的所有变化进行连续正则化。在一个实现中，适应度函数是交叉熵损失。在另一实现中，适应度函数是KL-散度。在又一实现中，适应度函数是均方误差。

在图9A所示的示例中，描绘了单个时期的两个子时期。在一个实现中，模型100具有对应于五个NLP任务的五个子时期。在每个子时期中，处理与当前层的训练数据相对应的一批训练示例TE₁…TE_n。每当通过当前层处理训练示例时，下层的层参数θs_下层和当前层的层参数θs_当前层通过反向传播梯度来更新。θ_n下层表示下层的参数θ_n下层的更新值，作为当前层的给定训练示例的反向传播的结果。此外，在每个子时期的末尾，获取当前层的嵌入参数的当前状态和所有下层的嵌入参数的当前状态的“快照”。快照值在内存中保存为θ'_下层，并且在本文中称为“当前锚定值”。

在每个子时期结束时，连续的正则化项δ||θ-θ′||²确保更新值θ_n下层不会显著偏离层参数的当前锚定值θ'_下层。

在图9A中，POS层400处的第一子时期以嵌入层的当前锚定值开始，并且仅对嵌入层参数θ_e进行连续正则化。注意，连续正则化不应用于当前层的参数，即，POS层400的层参数θ_pos，并且只有L2范数正则化λ||W_pos||²应用于当前层的更新参数，以生成正则化的当前层参数θ_pos。连续正则化确保在POS层400的训练期间更新的下层的层参数值，即θ_e，不显著偏离当前锚定值θ_e'。这产生连续正则化的下层参数θ_e。在子时期结束时，最近正则化的当前层参数和最近连续正则化的下层参数经历快照操作并作为新的当前锚定值持久存储在存储器中。

在下一层，例如语块划分层500，下层参数现在包括嵌入层和POS层的参数。这些下层参数经历连续正则化，而语块划分层的当前层参数仅经历L2范数正则化。对于模型100的所有层，该过程持续进行。

图9B包括证明连续正则化技术的有效性的表。在图9B中，列“w/o SR”示出了在模型100中不使用连续正则化的结果。可以看出，通过连续正则化来提高语块划分的准确性，而其他结果不会受到太大影响。与其他低级任务、POS标注和依赖性解析相比，此处使用的语块划分数据集相对较小。因此，这些结果表明，当数据集大小不平衡时，连续正则化是有效的。

图10包括示出五个不同NLP任务上的测试集的结果的表。在图10中，列“Single”示出使用单层双-LSTM分别处理每个任务的结果，列“JMT_all”显示模型100的结果。单个任务设置仅使用自己任务的注释。例如，将依赖性解析作为单个任务处理时，不使用POS和语块划分标注。可以看出，在模型100中改进了五个不同任务的所有结果，这表明模型100在单个模型中处理五个不同的任务。模型100还允许访问从不同任务中学习的任意信息。例如，在一些实现中，为了将模型100用作POS标注器，可以使用来自第一双LSTM层的输出。输出可以是加权POS标签嵌入以及离散POS标注。

图10中的表还示出了不同任务的三个子集的结果。例如，在“JMTABC”的情况下，仅使用双LSTM的前三层来处理这三个任务。在“JMTDE”的情况下，通过省略前三层中的所有信息，仅使用顶部两层作为两层双LSTM。密切相关任务的结果表明，模型100不仅改善了高级任务，还改善了低级任务。

所公开的技术的其他实现包括使用与指数归一化器不同的、除指数归一化器之外的和/或与指数归一化器相结合的归一化器。一些例子包括基于sigmoid的归一化器(例如，多类sigmoid，分段斜坡)，基于双曲线切线的归一化器，基于整流线性单元(ReLU)的归一化器，基于识别的归一化器，基于逻辑的归一化器，基于正弦的归一化器，基于余弦的归一化器，基于单位和的归一化器和基于步骤的归一化器。其他示例包括分层级softmax，差分softmax，重要性采样，噪声对比估计，负采样，门控softmax球面softmax，泰勒(Taylor)softmax和sparsemax。在其他实现方式中，可以使用任何其他常规或未来开发的归一化器。

虽然这项技术是针对双向LSTM进行讨论的，但还有其他新兴形式的LSTM可能会发展为LSTM的替代品。在其他实现中，所公开的技术在模型100的一个或更多个或所有层中使用单向LSTM。LSTM的一些变体的示例包括无输入门(NIG)变体，无遗忘门(NFG)变体，无输出门(NOG)变体，无输入激活函数(NIAF)变体，无输出激活函数(NOAF)变体，耦合输入-遗忘门(CIFG)变体，窥视孔(PH)变体和全门递归(FGR)变体。其他实现包括使用门控递归单元(GRU)或任何其他类型的RNN，或任何其他常规或未来开发的神经网络。

在其他实施方式中，模型100的层以有向非循环图的形式堆叠。在这样的实现中，一些层可以不是连续地在其他层之上，而是可以是非周期性地布置的。

特别实现

我们描述了所谓的“联合多任务神经网络模型”的系统、方法和制品，使用单个端到端模型中的层的增长深度来解决各种日益复杂的自然语言处理(NLP)任务。教导了可以组合不相互排斥的实现。实现的一个或更多个特征可以与其他实现组合。本公开定期提醒用户这些选项。对重复这些选项的叙述的一些实现方式的省略不应被视为限制前面部分中教导的组合-这些叙述通过引用结合到以下每个实现方式中。

图1B和图1C示出了可用于实现联合多任务神经网络模型的各种模块。先前描述的模型100的模块或组件，诸如词表示层102ab，POS层104ab，语块划分层106ab，依赖性层108ab，相关性层110a和112以及蕴涵层114ab和116可以使用较小的模块化模块或组件来进行可替代地描述，而不改变其操作或模型100的原理。

图IB和图1C中的模块可以用硬件或软件实现，并且不需要精确分成如图IB和图1C所示的相同的块。一些模块也可以在不同的处理器或计算机上实现，或者在许多不同的处理器或计算机之间传播。另外，应当理解，一些模块可以组合、并行操作或以与图1A和图1B中所示的顺序不同的顺序操作，而不影响所实现的功能。同样如本文所用，术语“模块”可以包括“子模块”，可以认为这些子模块本身构成模块。例如，在此可以将词嵌入器模块1021和词n-character gram模块1022认为是词表示模块102ab的子模块。在另一示例中，在此可以将POS处理模块1041和POS产生模块1042认为是POS模块104ab的子模块。在又一示例中，在此可以将依赖性处理模块1081，依赖性身份模块1082，依赖性产生模块1083，嵌入处理模块1084，质量向量处理模块1085和父标签向量产生模块1086认为是依赖性模块108ab的子模块。在另一示例中，在此可以将注意力编码器1087，注意力编码器模块1087，父标签向量模块1089和父标注模块1086认为是依赖性模块108ab的子模块。在又一示例中，在此可以将依赖性父项分析器模块1180，嵌入模块1181，状态向量产生模块1182，归一化模块1184，依赖性关系标签向量产生模块1187和依赖性标签向量产生模块1188认为是依赖性模块108ab的子模块。在又一示例中，在此可以将语句输入模块1101，语句表示模块1102，相关性向量确定器模块1103和相关性分类器模块1104认为是相关性编码器模块110ab和/或相关性模块112的子模块。在又一示例中，在本文中可以将蕴涵向量确定器模块1141，池化模块1142和蕴涵分类器模块1143认为是蕴涵编码器模块114ab和/或蕴涵模块116的子模块。也可以认为图1B和图1C中被指定为模块的块是方法中的流程图步骤。模块也不一定必须将其所有代码连续地存储在存储器中；代码的某些部分可以采用来自其他模块的代码或存储在其之间的其他函数与代码的其他部分分开。

在一个实现中，描述了在处理输入语句中的词的硬件上运行的多层神经网络系统，其包括堆叠的长短期记忆(缩写为LSTM)语句处理器，其在硬件上运行，根据语言层级堆叠成层。堆叠的LSTM语句处理器可以体现在LSTM语句模块的堆叠中。堆叠的LSTM包括旁路连接，其将下层的输入与下层的嵌入输出一起递送到叠加层。堆叠的层包括(i)词性(缩写为POS)标签嵌入层，(ii)叠加在POS标签嵌入层上的语块标签嵌入层，以及(iii)叠加在语块标签嵌入层上的依赖性父项标识和依赖性关系标签嵌入层。POS标签嵌入层(被实现为双向LSTM和POS标签分类器)处理表示输入语句中的词的词嵌入向量，并为每个词产生POS标签嵌入向量和POS状态向量。POS标签嵌入层104的这些组件可以体现在用于处理表示输入语句中的词的词嵌入向量的POS处理模块1041中，，以及用于产生每个词的POS标签嵌入向量和POS状态向量的POS产生模块1042中。标签嵌入层标签嵌入

实现为双向LSTM和语块标签分类器的语块标签嵌入层106至少处理词嵌入向量，POS标签嵌入向量和POS状态向量，以产生语块标签嵌入和语块状态向量。语块标签嵌入层106的这些组件可以体现在用于至少处理词嵌入向量、POS标签嵌入向量和POS状态向量的语块处理模块1061中和用于产生语块标签嵌入和语块状态向量的语块产生模块1062中。

依赖性父项标识和依赖性关系标签嵌入层108(实现为双向LSTM和一个或更多个分类器)处理词嵌入、POS标签嵌入、语块标签嵌入和语块状态向量，以识别语句中的每个词的依赖性父项，以产生在词和词的相应潜在父项之间的依赖性关系标签或关系的标签嵌入。依赖性父项标识和依赖性关系标签嵌入层108的这些组件可以体现在用于处理词嵌入、POS标签嵌入、语块标签嵌入和语块状态向量的依赖性处理模块1081中，和用于识别语句中每个词的依赖性父项的依赖性标识模块1082中，以及用于产生或词和词的相应潜在父项之间的依赖性关系标签或关系的标签嵌入的依赖性产生模块1083。

多层神经网络系统还包括输出处理器，该输出处理器至少输出反映依赖性父项的标识和为语句中的词产生依赖性关系标签嵌入的结果。

，该系统和所公开的技术的其他实现各自可选地可以包括结合所公开的附加系统描述的以下特征中的一个或更多个。为了简明起见，本申请中公开的特征的组合不是单独列举的，并且不再针对每个基本特征集进行重复。读者将理解本节中标识的特征可以很容易地与标识为实现的基本特征集组合在一起。

在所公开的多层神经网络系统的实现中，语言层级结构从语句中的词构建语音部分、语句的语块、词及其依赖父项之间的依赖性链接，在依赖性链接上的标签。

旁路连接将下层使用的输入向量提供给上层而无需修改。

在一些实现中，除了词嵌入向量之外，POS标签嵌入层104还进一步处理表示输入语句中的词的n-character-gram嵌入向量。另外，旁路连接将n-character-gram嵌入向量递送给语块标签嵌入层和依赖性父项和依赖性关系标签嵌入层，作为那些叠加层中的相应双向LSTM的输入。词表示层102的这些其他组件可以体现在词嵌入器模块1021和n-character-gram嵌入器模块1022中。旁路连接可以与语块处理模块和依赖性处理模块结合体现。

POS标签嵌入层104还可以通过POS状态向量的指数归一化产生POS标签概率质量向量，并从POS标签概率质量向量中产生POS标签嵌入向量。该功能可以体现在POS模块104中。另外，语块标签嵌入层106通过缩放语块标签状态向量的归一化来产生语块标签概率质量向量，并从语块标签概率质量向量中产生语块标签嵌入向量。该功能可以在语块产生模块1062中体现。此外，依赖性父项标识和依赖性关系标签嵌入层108通过分类和缩放由双向LSTM产生的父标签状态向量的归一化来产生父标签概率质量向量。该功能可以在依赖性标识模块1082中实现。依赖性父项标识和依赖性关系标签嵌入层还从父标签概率质量向量产生父标签嵌入向量，通过父标签状态向量和父标签嵌入向量的指数归一化和分类产生依赖性关系标签概率质量向量，并从依赖性关系标签概率质量向量中产生依赖性关系标签嵌入向量。该功能可以体现在依赖性产生模块1083中。POS标签嵌入向量、语块标签嵌入向量和依赖性关系标签嵌入向量的维数相似，在+/-10％以内。

所公开的技术还可以包括在POS标签嵌入层下面的词嵌入层或处理器102。词嵌入处理器包括词嵌入器1021和n-character-gram嵌入器1022。词嵌入器在语句中的词被识别出时将其映射到由词嵌入向量表示的词嵌入空间中。另外，n-character-gram嵌入器(i)在子串长度的多个尺度下处理词的字符子串，(ii)将每个经处理的字符子串映射到表示字符嵌入空间中的位置的中间向量，以及(iii)组合每个唯一经处理的字符子串的中间向量，以产生每个词的字符嵌入向量。语句嵌入处理器还组合了词嵌入器和n-character-gram嵌入器的结果，由此先前未映射到词嵌入空间中的词由字符嵌入向量表示。词嵌入层102的这些组件可以体现在用于映射语句中的词的词嵌入器模块1021和用于映射词中不同尺寸的字符子串的n-character-gram嵌入器模块1022，以及POS处理模块1041进一步处理n-character-gram嵌入器模块的输出，以表示先前未映射到词嵌入空间的词。

n-character-gram嵌入器可以以至少两种方式组合中间向量。它可以在字符嵌入向量中产生逐元素的平均值，也可以选择逐元素的最大值。POS标签分类器可以包括softmax层，或者更一般地，指数归一化器。这些备选也适用于语块标签分类器。这些替代特征可以体现在n-character-gram嵌入器模块和/或语块处理或语块产生模块中。

所公开的技术在POS标签嵌入层、语块标签嵌入层或依赖性父项标识和依赖性关系标签嵌入层中没有定向搜索的情况下运行良好。它可以用具有窄跨度的定向搜索来实现。

依赖性父项标识和依赖性关系标签嵌入层还包括依赖性父项层和依赖性关系标签分类器。依赖性父项标识符层包括依赖性父项分析器，其实现为双向LSTM，其处理输入语句中的词。具体地，依赖性父项分析器针对每个词处理词嵌入、POS标签嵌入、语块标签嵌入和语块状态向量，以累积前向和后向状态向量，其表示在语句中的词之间的交互的向前和向后进展。依赖性父项标识符层还包括注意力编码器，其处理语句中的每个相应词的前向和后向状态向量，并且将注意力编码为每个相应词的嵌入与语句中的其他词之间的内积，其中在内积之前对该词或其他词的前向和后向状态向量应用线性变换。此外，注意力编码器将指数归一化应用于内积的向量以产生父标签概率质量向量并投影父标签概率质量向量以产生父标签嵌入向量。此外，所公开的技术包括依赖性关系标签分类器，其针对语句中的每个相应词，(i)对前向和后向状态向量以及父标签嵌入向量和父标签嵌入向量进行分类和归一化，以产生依赖性关系标签概率质量向量，以及(ii)投影依赖性关系标签概率质量向量以产生依赖性关系标签嵌入向量。依赖性父项标识和依赖性关系标签嵌入108的这些组件可以体现在用于处理输入语句中的词的依赖性父项分析器模块中，以及用于处理用于产生父标签概率质量向量和父标签嵌入向量的前向和后向状态向量的注意力编码器模块。

在一种实现中，所公开的多层神经网络系统还包括叠加在依赖性父项标识和依赖性关系标签嵌入层上的语义相关性层。语义相关性层包括相关性向量计算器和相关性分类器，并且对通过多层神经网络系统处理的第一和第二语句对进行操作。所公开的技术的相关性向量计算器确定第一和第二语句中的每一个的语句级表示。由相关性向量计算器执行的确定包括(i)各个语句中的每个词的前向和后向状态向量的双向LSTM计算，以及(ii)各个语句中的词的前向和后向状态向量的逐元素最大池化计算，以产生表示各个语句的语句级状态向量。相关性向量计算器还计算由相关性分类器处理的逐元素的语句级相关性向量，以导出第一和第二语句之间的相关性的类别分类。该层可以报告类别分类以供进一步处理。

语义相关性层110的组件可以体现在语句输入模块1101、语句表示模块1102、相关性向量确定器1103和相关性分类器1104中：用于输入通过语句模块的堆叠处理的第一和第二语句对的语句输入模块1101；用于确定第一和第二语句中的每一个的语句级表示的相关性向量确定器1102，包括用于确定各个语句中的每个词的前向和后向状态向量的双向LSTM以及对各个语句中的词的前向和后向状态向量的逐元素的最大池化的池化模块，以及用于产生表示各个语句的语句级状态向量的语句表示模块1103；和用于对第一和第二语句之间的关系进行类别分类的相关性分类器1104。

相关性向量计算器还可以(i)确定第一和第二语句的语句级相关性向量之间的逐元素的差，(ii)确定第一和第二语句的语句级相关性向量之间的逐元素的乘积，(iii)使用逐元素的差的绝对值和逐元素的乘积的向量作为相关性分类器的输入。

所公开的技术还可以包括叠加在语义相关性层上的蕴涵层。蕴涵层包括蕴涵向量计算器和蕴涵分类器。此外，蕴涵向量计算器计算第一和第二语句中的每一个的语句级表示。由蕴涵向量计算器执行的计算可以包括(i)针对各个语句中的每个词的前向和后向状态向量进行的双向LSTM计算，以及(ii)对各个语句中的词的前向和后向状态向量进行的逐元素的最大池化计算，以产生表示各个语句的语句级状态向量。蕴涵向量计算器还可以计算由蕴涵分类器处理的逐元素的语句级蕴涵向量，以导出第一和第二语句之间的蕴涵的类别分类。该层可以报告类别分类以供进一步处理。

蕴涵层114的组件可以体现在用于确定第一和第二语句中的每一个的语句级表示的蕴涵向量确定器1141中，，其包括用于确定各个语句中每个词的前向和后向状态向量的双向LSTM和用于对各个语句中的词的前向和后向状态向量进行逐元素的最大池化的池化模块1142，以及用于产生表示各个语句的语句级状态向量的语句表示模块102；以及用于对第一和第二语句之间的蕴涵进行类别分类的蕴涵分类器1143。

蕴涵向量确定器或计算器可以进一步(i)确定第一和第二语句的语句级相关性向量之间的逐元素的差，(ii)确定第一和第二语句的语句级相关性向量之间的逐元素的乘积，以及(iii)使用逐元素的差和逐元素乘积的向量作为相关性分类器的输入。

在另一实现中，提供了一种方法，其使用在硬件上运行的堆叠层长短期记忆(缩写为LSTM)语句处理器来处理输入语句中的词，所述LSTM语句处理器根据语言层级堆叠成层。该堆叠可以体现在LSTM词条序列模块的堆叠中。这些堆叠的层包括(i)词性(缩写为POS)标签嵌入层，(ii)叠加在POS标签嵌入层上的语块标签嵌入层，以及(iii)叠加在语块标签嵌入层上的依赖性父项标识和依赖性关系标签嵌入层。特别地，所公开的技术的该方法包括经由旁路连接将下层使用的输入与来自下层的嵌入输出一起递送到叠加层。该方法还包括在POS标签嵌入层中，应用双向LSTM和POS标签分类器来处理表示输入语句中的词的词嵌入向量，并为每个词产生POS标签嵌入向量和POS状态向量。另外，该方法包括，在语块标签嵌入层中，应用双向LSTM和语块标签分类器，以至少处理词嵌入向量、POS标签嵌入向量和POS状态向量，并产生语块标签嵌入和语块状态向量。根据该方法，在依赖性父项标识和依赖性关系标签嵌入层中，应用双向LSTM和一个或更多个分类器来处理词嵌入、POS标签嵌入、语块标签嵌入和语块状态向量。这样做是为了识别语句中每个词的依赖性父项，并产生词与词的相应潜在父项之间的依赖性关系标签或关系的标签嵌入。该方法还包括输出反映语句中词的依赖性关系标签或标签嵌入的结果。

所公开的技术的该方法和其他实现可以各自可选地包括以下特征和/或结合所公开的其他方法描述的特征中的一个或更多个。为了简明起见，本申请中公开的特征的组合不是单独列举的，并且不再对每个基本特征组进行重复描述。读者将理解本节中标识的特征可以很容易地与标识为实现的多组基本特征组合在一起。

在所公开方法的实现中，语言层级结构从语句中的词构建语音部分，语句的语块，词和它们的依赖性父项之间的依赖性链接，依赖性链接上的标签。

经由旁路连接该递送可以将下层使用的输入向量提供给上层而无需修改。

在一些实现方式中，除了词嵌入向量之外，POS标签嵌入层中的方法还处理表示输入语句中的词的n-character-gram嵌入向量。另外，旁路连接将n-character-gram嵌入向量递送给语块标签嵌入层和依赖性父项和依赖性关系标签嵌入层，作为那些叠加层中的相应双向LSTM的输入。

所公开的方法还可以包括在POS标签嵌入层中，通过POS状态向量的指数归一化来产生从POS标签概率质量向量，以及从POS标签概率质量向量产生POS标签嵌入向量标签概率质量向量。另外，在语块标签嵌入层中，该方法通过缩放语块标签状态向量的归一化来产生语块标签概率质量向量，并从语块标签概率质量向量产生语块标签嵌入向量。应用指数归一化的softmax函数可用于缩放归一化。此外，在依赖性父项标识和依赖性关系标签嵌入层中，所公开的技术(i)通过对由双向LSTM产生的父标签状态向量进行分类和缩放归一化来产生父标签概率质量向量，(ii)从父标签概率质量向量产生父标签嵌入向量，(iii)通过对父标签状态向量和父标签嵌入向量进行分类和缩放归一化来产生依赖性关系标签概率质量向量，以及(iv)从依赖性关系标签概率质量向量产生依赖性关系标签嵌入向量。

可选地，POS标签嵌入向量、语块标签嵌入向量和依赖性关系标签嵌入向量的维度可以是类似的，在+/-10％之内。

在一些实现中，堆叠的层可以包括在POS标签嵌入层下面的语句嵌入层。语句嵌入层可以包括词嵌入器和n-character-gram嵌入器。另外，该方法包括：在词嵌入器中当识别出语句中的词时将其映射到由词嵌入向量表示的词嵌入空间中。该方法还包括，在n-character-gram嵌入器中，(i)在子串长度的多个尺度下处理词的字符子串，(ii)将每个经处理的字符子串映射到表示字符嵌入空间中的位置的中间向量中，以及(iii)组合每个唯一经处理的字符子串的中间向量，以产生每个词的字符嵌入向量。语句嵌入层可以输出来自词嵌入器和n-character-gram嵌入器的向量，由此，先前未映射到词嵌入空间的词仍然由字符嵌入向量表示。语句嵌入层的这些组件可以体现在词嵌入器模块和n-character-gram嵌入器模块中，如所附权利要求中所述。

n-character-gram嵌入器可以以至少两种方式组合中间向量。它可以在字符嵌入向量中产生逐元素的平均值，也可以选择逐元素的最大值。POS标签分类器可以包括softmax层，或者更一般地，包括指数归一化器。这些替代方案也适用于语块标签分类器。

所公开的技术在POS标签嵌入层、语块标签嵌入层或依赖性父项标识和依赖性关系标签嵌入层中没有定向搜索的情况下运行良好。

依赖性父项标识和依赖性关系标签嵌入层还包括依赖性父项分析器，注意力编码器和依赖性关系标签分类器。所公开的方法在依赖性父项分析器中应用双向LSTM来处理输入语句中的词。对词的这种处理可以包括针对每个词，处理词和n-character-gram嵌入、POS标签嵌入、语块标签嵌入和语块状态向量，以累积表示语句中的词之间的相互作用的前向和后向进展的前向和后向状态向量。该方法还可以包括在注意力编码器中处理语句中的每个相应词的前向和后向状态向量，以在将线性变换应用于词或其他词的前向和后向状态向量之后将注意力编码为每个相应词的嵌入与语句中的其他词之间的内积，由此线性变换中的权重是可训练的。该方法还包括在注意力编码器中对内积的向量应用指数归一化以产生父标签概率质量向量并投影父标签概率质量向量以产生父标签嵌入向量。在依赖性关系标签分类器中并且针对语句中的每个相应词，方法(i)对前向和后向状态向量以及父标签嵌入向量和父标签嵌入向量进行分类和归一化，以产生依赖性关系标签概率质量向量和(ii)投影依赖性关系标签概率质量向量以产生依赖性关系标签嵌入向量。

在实现中，堆叠的层或模块的堆叠还包括语义相关性层，叠加在依赖性父项标识和依赖性关系标签嵌入层上。语义相关性层包括相关性向量计算器和相关性分类器。所公开的方法还包括在语义相关性层中对已经通过所公开的方法处理的第一和第二语句对进行操作。此外，在相关性向量计算器中，所公开的方法通过以下方式计算第一和第二语句中的每一个的语句级表示：(i)应用双向LSTM来计算各个语句中的每个词的前向和后向状态向量，以及(ii)计算每个相应语句的前向和后向状态向量的逐元素的最大值，以计算逐元素的语句级相关性向量。该方法还包括处理语句级相关性向量以导出第一和第二语句之间的相关性的类别分类。该方法可以包括报告类别分类或语句级相关性向量以进行进一步处理。

在相关性向量确定器或计算器112中，所公开的技术(i)确定第一和第二语句级相关性向量之间的逐元素的差，(ii)确定第一和第二语句级相关性向量之间的逐元素的乘积，和(iii)使用逐元素的差的绝对值和逐元素的乘积的向量作为相关性分类器的输入。

在一些实现方式中，堆叠的层还包括叠加在语义相关性层上的蕴涵层。蕴涵层114包括蕴涵向量确定器或计算器1141和蕴涵分类器1142。蕴涵向量确定器通过以下方式确定第一和第二语句中的每一个的语句级表示：(i)应用双向LSTM来确定各个语句中的每个词的前向和后向状态向量，以及(ii)确定每个相应语句的前向和后向状态向量的逐元素的最大值。所描述的方法还包括(i)在蕴涵向量确定器中确定逐元素的语句级蕴涵向量，以及(ii)处理语句级蕴涵向量以对第一和第二语句之间的蕴涵进行类别分类。

所公开的方法还可以包括蕴涵向量确定器(i)确定第一和第二语句的语句级相关性向量之间的逐元素的差，(ii)确定第一和第二语句的语句级相关性向量之间的逐元素的乘积，和(iii)使用逐元素的差和逐元素的乘积的向量作为相关性分类器的输入。

在另一实现中，描述了在硬件上运行的处理输入序列中的词条序列的多层神经网络系统，其包括在硬件上运行的根据分析层级堆叠成层的堆叠的LSTM词条序列处理器。该堆叠可以体现在LSTM词条序列模块的堆叠中。堆叠的LSTM包括旁路连接，其将下层的输入与下层的嵌入输出一起递送到叠加层。堆叠的层包括(i)第一嵌入层，(ii)叠加在第一嵌入层上的第二嵌入层，和(iii)叠加在第二嵌入层上的第三嵌入层。第一嵌入层(实现为双向LSTM和第一标签分类器)处理表示输入序列中的词条的词条嵌入，并产生词条的第一嵌入和第一状态向量。实现为双向LSTM和第二标签分类器的第二嵌入层至少处理词条嵌入、第一标签嵌入和第一状态向量，以产生第二标签嵌入和第二状态向量。实现为双向LSTM的第三嵌入层至少处理词条嵌入、第一标签嵌入、第二标签嵌入和第二状态向量，以产生第三标签嵌入和第三状态向量。如所附权利要求所述，三个嵌入层的组件可以体现在相应层的第一、第二和第三处理模块(例如，102、104、106)以及第一、第二和第三产生模块中。多层神经网络系统还包括输出处理器，其至少输出反映输入序列中的词条的第三标签嵌入的结果。

该系统和所公开的技术的其他实现可以各自可选地包括以下特征和/或结合所公开的附加系统描述的特征中的一个或更多个。为了简明起见，本申请中公开的特征组合不是单独列举的，并且不再对每个基本特征集重复。读者将理解本节中标识的特征如何可以很容易地与标识为实现的多组基本特征组合在一起。

旁路连接将下层使用的输入向量提供给上层而无需修改。

在所公开的多层神经网络系统的实现中，除了词条嵌入向量之外，第一嵌入层还进一步处理表示输入序列中的词条的词条分解嵌入向量。另外，旁路连接将词条分解嵌入向量递送到第二嵌入层和第三嵌入层，作为那些叠加层中的相应双向LSTM的输入。

在一些实现中，第一嵌入层还通过第一状态向量的指数归一化产生第一标签概率质量向量，并从第一标签概率质量向量产生第一标签嵌入向量。另外，第二嵌入层通过第二状态向量的指数归一化产生第二标签概率质量向量，并从第二标签概率质量向量产生第二标签嵌入向量。此外，第三嵌入层通过第三状态向量的指数归一化产生第三标签概率质量向量，并从第三标签概率质量向量产生第三标签嵌入向量。此外，第一标签嵌入向量、第二标签嵌入向量和第三标签嵌入向量的维度是相似的，在+/-10％之内。

所公开的技术还可以包括在第一标签嵌入层下面的词条嵌入处理器。词条嵌入处理器包括词条嵌入器和分解的词条嵌入器。词条嵌入器在序列中的词条被识别出时将其映射到由词条嵌入向量表示的词条嵌入空间中。此外，分解的词条嵌入器(i)以多个尺度处理词条的词条分解，(ii)将每个经处理的词条分解映射到表示词条分解嵌入空间中的位置的中间向量，以及(iii)组合用于每个唯一的经处理的词条分解的中间向量，以产生每个词条的词条分解嵌入向量。词条嵌入处理器还组合词条嵌入器和分解的词条嵌入器的结果，由此先前未映射到词条嵌入空间的词条仍由词条分解嵌入向量表示。

至少一个标签分类器可以包括softmax层，或者更一般地，指数归一化器。

所公开的技术在没有第一至第三标签嵌入层中的定向搜索的情况下也操作良好。

在一种实现中，所公开的多层神经网络系统还包括第四标签嵌入层，其叠加在第三标签嵌入层上。第四标签嵌入层可以实现为双向LSTM，以至少处理词条嵌入、第一标签嵌入、第二标签嵌入、第三标签嵌入和第三状态向量，以产生第四标签嵌入和第四状态向量。

所公开的技术还包括叠加在第四标签嵌入层上的第五标签嵌入层。第五标签嵌入层可以实现为双向LSTM，以至少处理词条嵌入、第一标签嵌入、第二标签嵌入、第三标签嵌入、第四标签嵌入和第四状态向量，以产生第五标签嵌入和第五状态向量。

在另一实现中，提供了一种方法，其使用堆叠层长短期记忆(缩写为LSTM)语句处理器来处理输入序列中的词条，所述LSTM语句处理器在硬件上运行，根据分析层级堆叠成层。该堆叠可以体现在LSTM词条序列模块的堆叠中。这些堆叠的层包括(i)第一嵌入层，(ii)叠加在第一嵌入层上的第二嵌入层，和(iii)叠加在第二嵌入层上的第三嵌入层。特别地，该方法包括经由旁路连接将下层使用的输入与下层的嵌入输出一起递送到叠加层。该方法还包括第一嵌入层应用双向LSTM和第一标签分类器来处理表示输入序列中的词条的词条嵌入，并产生词条的第一标签嵌入和第一状态向量。另外，该方法包括第二嵌入层应用双向LSTM和第二标签分类器来至少处理词条嵌入、第一标签嵌入和第一状态向量，以产生第二标签嵌入和第二状态向量。根据该方法，第三嵌入层应用双向LSTM来至少处理词条嵌入、第一标签嵌入、第二标签嵌入和第二状态向量，以产生第三标签嵌入和第三状态向量。此外，根据该技术公开了，该方法包括输出反映根据分析层级的堆叠的LSTM分析的结果，包括输入序列中的词条的第三标签嵌入。

所公开的技术的该方法和其他实现可以各自可选地包括以下特征和/或结合所公开的其他方法描述的特征中的一个或更多个。为了简明起见，本申请中公开的特征组合不是单独列举的，并且不再对每个基本特征组进行重复描述。读者将理解本节中标识的特征可以很容易地与标识为实现的多组基本特征组合在一起。

经由旁路连接的递送可以将下层使用的输入向量提供给叠加层而无需修改。

在一些实现中，除了词条嵌入向量之外，该方法在第一嵌入层中处理表示输入序列中的词条的词条分解嵌入向量。另外，旁路连接还将词条分解嵌入向量递送到第二嵌入层和第三嵌入层，作为那些叠加层中的相应双向LSTM的输入。

所公开的方法还可以包括：第一嵌入层通过第一状态向量的指数归一化产生第一标签概率质量向量，以及从第一标签概率质量向量产生第一标签嵌入向量。另外，第二嵌入层通过第二状态向量的指数归一化产生第二标签概率质量向量，并从第二标签概率质量向量产生第二标签嵌入向量。第三嵌入层还通过第三状态向量的指数归一化产生第三标签概率质量向量，并从第三标签概率质量向量产生第三标签嵌入向量。根据所公开的方法，第一标签嵌入向量、第二标签嵌入向量和第三标签嵌入向量的维度是相似的，在+/-10％之内。

所公开的方法还可以包括进一步调用在第一标签嵌入层下面的词条嵌入处理器，该词条嵌入处理器标签嵌入层包括词条嵌入器和分解的词条嵌入器。此外，该方法可以包括，在词条嵌入器中，当序列中的词条被识别出时，将其映射到由词条嵌入向量表示的词条嵌入空间中。另外，在分解的词条嵌入器中，方法(i)以多个尺度处理词条的词条分解，(ii)将每个经处理的词条分解映射到表示词条分解嵌入空间中的位置的中间向量，以及(iii)组合每个唯一经处理的词条分解的中间向量，以产生每个词条的词条分解嵌入向量。该方法还结合了词条嵌入器和分解的词条嵌入器的结果，由此先前未映射到词条嵌入空间的词条仍由词条分解嵌入向量表示。

根据所公开的技术，堆叠的层包括叠加在第三标签嵌入层上的第四标签嵌入层。该方法还包括在第四标签嵌入层中，应用双向LSTM以至少处理词条嵌入、第一标签嵌入、第二标签嵌入、第三标签嵌入和第三状态向量，以产生第四标签嵌入和第四状态向量。

在另一实现中，堆叠的层包括叠加在第四标签嵌入层上的第五标签嵌入层。此外，该方法包括，在第五标签嵌入层中，应用双向LSTM以至少处理词条嵌入、第一标签嵌入、第二标签嵌入、第三标签嵌入、第四标签嵌入和第四状态向量以产生第五标签嵌入和第五状态向量。

在另一实现中，提供了一种方法，其训练在硬件上运行的堆叠的LSTM序列处理器，其根据分析层级堆叠成至少三层。旁路连接将下层的输入与下层的嵌入输出一起递送到叠加层。该方法包括使用针对每个层的训练示例通过后向传播训练第一、第二和第三层，在训练期间将训练正则化地向下传递到下层。具体地，该训练包括(i)使用第一层训练示例训练第一层，(ii)使用第二层训练示例训练第二层，其中将训练正则化地向下传递到第一层，以及(iii)使用第三层训练示例训练第三层，其中将训练正则化地传递到第一层和第二层。通过约束训练目标函数使正则化的向下传递训练正则化，该训练目标函数具有适应度函数，该适应度函数具有至少两个正则化项。另外，根据所公开的技术，两个正则化项通过惩罚应用于下层的系数矩阵中的权重大小的增长来正则化，并且连续地正则化应用于下层的系数矩阵中的权重的所有变化。

所公开的技术的该方法和其他实现可以各自可选地包括以下特征和/或结合所公开的其他方法描述的特征中的一个或更多个。为了简明起见，本申请中公开的特征组合不是单独列举的，并且不再针对每个基本特征组进行重复描述。读者将理解本节中标识的特征如何可以很容易地与标识为实现的多组基本特征组合在一起。

适应度函数可以是基于负对数似然的交叉熵、均方误差或Kullback-Leibler散度(KL-散度)。此外，根据所公开的技术，适应度函数可以表示为

其中，(n)表示堆叠的LSTM的第n层，以及表示将正确的标签α分配给语句S中的W_t的概率值。

在一些实现中，对应用于下层的系数矩阵中的权重大小的增长进行惩罚的正则化项(regularization term)是λ||W_(m)||²，其中与n具有相同层的(m)表示堆叠的LSTM的1到m层，λ是L2范数正则化超参数，以及||W_(m)||将平方运算逐元素地应用于堆叠的LSTM的1至m层的加权矩阵的元素。

在所公开的方法的实现中，连续正则化项为δ||θ_(m-1)-θ′_(m-1)||²，其中与n-1具有相同层的(m-1)表示堆叠的LSTM的1到m-1层，δ是连续正则化超参数，θ_(m-1)表示一个或更多个下层的层参数，θ′_(m-1)表示在之前子时期中持续的一个或更多个下层的层参数，以及||θ_(m-1)-θ′_(m-1)||将平方运算逐元素地应用于堆叠的LSTM的1至m-1层的加权矩阵的元素。

此外，在所公开的方法中，堆叠的LSTM中的分析层级可包括至少五层或至少十层。另外，堆叠的LSTM下方的基底层(basement layer)可以与堆叠的LSTM分开训练，并且可以产生由堆叠的LSTM的最低层使用的输入。堆叠的LSTM上方的阁楼层(attic layer)也可以与堆叠的LSTM分开训练，并且可以消耗堆叠的LSTM的最上层的输出。训练方法可以包含训练堆叠中的五层或十层。基底层和阁楼层可以单独训练。

在另一实现中，提供了用于将中间结果从下层传送到双向LSTM的神经网络堆叠中的上层的方法。双向LSTM的神经网络堆叠包括对应于处理词条序列的分析框架的层。此外，下层为每个词条产生分析框架标签向量。具体地，该方法包括，对于序列，使用下层来分析词条。词条的分析可以包括(i)应用双向LSTM来计算每个词条的前向和后向状态向量，(ii)将分类器应用于前向和后向状态向量以将每个词条嵌入到分析框架标签空间，作为具有与可用分析框架标签的数目大致相同的维度的标签空间向量，以及(iii)将每个词条的标签空间向量投影到扩展维度标签空间中，其具有与前向和后向状态的维度大约相同的维度，以产生扩展的词条标签向量。另外，该方法包括从将前向状态、后向状态和扩展词条标签的向量从下层传送到上层，从而提供叠加层所需的输入以在分析框架中执行其角色以处理词条。

所公开的技术的该方法和其他实现可以各自可选地包括以下特征和/或结合所公开的其他方法描述的特征中的一个或更多个。为了简明起见，本申请中公开的特征组合不是单独列举的，并且不再针对每个基本特征组进行重复描述。读者将理解本节中标识的特征可以很容易地与标识为实现的多组基本特征组合在一起。

在一些实现中，所公开的方法包括通过旁路向叠加层传送除了状态向量之外的由下层接收的作为输入的向量。下层可以在两个更深的层之上。另外，所公开的方法可以包括通过旁路叠加层将由两个较深层接收的作为输入的向量和由两个较深层产生的作为输出的嵌入标签向量传送到叠加层。通过旁路的这种传送可以使所传送的向量在无需修改的情况下传送。

根据所公开的方法，可用分析框架标签的数量小于前向和后向状态的维度，从而形成维度瓶颈，其在训练双向LSTM的神经网络堆叠时减少过度拟合。在一些实现中，维度可以是前向和后向状态的维度的五分之一或十分之一或更小。

在另一实现中，描述了在处理输入序列中的词条序列的硬件上运行的多层神经网络系统，其包括在硬件上运行的堆叠的LSTM词条序列处理器，该LSTM词条序列处理器根据分析层级堆叠成层。堆叠的LSTM语句处理器可以体现在LSTM语句模块的堆叠中。堆叠的LSTM包括旁路连接，其将下层的输入与下层的嵌入输出一起递送到叠加层。堆叠的层包括(i)第一嵌入层和(ii)叠加在第一嵌入层上的第二嵌入层。第一嵌入层实现为双向LSTM和第一标签分类器，并处理表示输入序列中的词条的词条嵌入。第一嵌入层还为每个词条产生分析框架标签向量。此外，双向LSTM为每个词条计算前向和后向状态向量。第一嵌入层的该功能可以体现在嵌入处理模块中，用于处理表示输入序列中的词条的词条嵌入，以及用于产生分析框架标签向量的标签向量产生模块。另外，应用于前向和后向状态向量的分类器将每个词条嵌入到分析框架标签空间中，作为具有与可用分析框架标签的数目大致相同的维度的标签空间向量。第一嵌入层的该功能可以体现在输出端口中。

第一嵌入层还可以将每个词条的标签空间向量投影到具有与前向和后向状态的维度大致相同的维度的扩展维度标签空间中，以产生扩展的词条标签向量。该方法还包括第一嵌入层将前向状态、后向状态和扩展词条标签的向量发送至第二嵌入层，从而提供第二嵌入层所需的输入，以在分析框架中执行其角色以处理词条。

该系统和所公开的技术的其他实现方式可以各自可选地包括以下特征和/或结合所公开的附加系统描述的特征中的一个或更多个。为了简明起见，本申请中公开的特征组合不是单独列举的，并且不再针对每组基本特征进行重复描述。读者将理解本节中标识的特征可以很容易地与多组标识为实现的基本特征组合起来。

在一些实现中，该方法还包括到第二嵌入层的旁路，其传送由第一嵌入层接收的作为输入的向量，而不是状态向量。

在多层神经网络系统的实现中，第一嵌入层在两个更深的层之上。该系统通过旁路将由两个较深层接收的作为输入的向量和由两个较深层产生的作为输出的嵌入标签向量传送至第二嵌入层。旁路可以传送向量而无需修改。

可用分析框架标签的数目可以小于前向和后向状态的维度，从而形成维度瓶颈，其在训练双向LSTM的神经网络堆叠时减少过度拟合。在一些实现中，维度可以是前向和后向状态的维度的五分之一或十分之一或更小。

在另一实现中，描述了在处理输入语句中的词(包括先前未映射到词嵌入空间的词)的硬件上运行的多层神经网络系统，其包括词嵌入器或嵌入器模块以及子串嵌入器或嵌入器模块，两者都处理输入语句中的词。词嵌入器将先前识别的词映射到词嵌入空间中并识别先前未识别的词，以产生每个词的词嵌入向量。子串嵌入器(i)以子串长度的多个尺度处理词的字符子串，(ii)将每个经处理的字符子串映射到表示字符嵌入空间中的位置的中间向量，以及(iii)组合每个唯一经处理的字符子串的中间向量，以为每个词产生字符嵌入向量。多层神经网络系统还包括嵌入器组合器，该嵌入器组合器报告由进一步的过程或处理层使用的词嵌入向量和字符嵌入向量，由此先前未映射到词嵌入空间的词仍然由字符嵌入向量表示。

该系统和所公开的技术的其他实现方式可以各自可选地包括以下特征和/或结合所公开的附加系统描述的特征中的一个或更多个。为了简明起见，本申请中公开的特征组合不是单独列举的，并且不再针对每个基本特征组进行重复描述。读者将理解本节中标识的特征可以很容易地与标识为实现的多组基本特征组合在一起。

在所公开的多层神经网络系统的实现中，子串嵌入器或嵌入器模块(i)通过对每个唯一经处理的字符子串的中间向量进行逐元素的平均来组合中间向量，或者(ii)通过以下方式组合中间向量：从每个唯一经处理的字符子串的中间向量中逐元素地选择最大值。

在一些实现中，子串嵌入器或嵌入器模块使用子串长度来处理两个字符，三个字符和四个字符的字符子串，不考虑在词的开头和结尾处的哨兵。

中间向量的维度可以等于词嵌入向量的维度。

所公开的技术还可以将中间向量投影到具有维度的空间中，该空间的维度等于词嵌入向量的维度。

另外，多层神经网络系统可以包括将先前未识别的词嵌入到用于未知词的保留的词嵌入向量中的词嵌入器。

在另一实现中，提供了一种方法，用于准备输入语句中的词(包括先前未映射到词嵌入空间的词)，用于由在硬件上运行的多层神经网络系统进行处理。可以使用词嵌入器和子串嵌入器来执行处理，这两者都处理输入语句中的词。词和子串嵌入器可以分别体现在词嵌入器模块和串嵌入器模块中。该方法包括，在词嵌入器中，将先前识别的词映射到词嵌入空间中并识别先前未识别的词，以产生每个词的词嵌入向量。该方法还包括在子串嵌入器中并且对于输入语句中的每个词，(i)在子串长度的多个尺度下处理词的字符子串，(ii)将每个经处理的字符子串映射到表示字符嵌入空间中的位置的中间向量中，以及(iii)组合每个唯一经处理的字符子串的中间向量，以产生每个词的字符嵌入向量。另外，该方法包括输出词嵌入向量和字符嵌入向量，由此，先前未映射到词嵌入空间的词仍然由字符嵌入向量表示。

在一些实现中，子串嵌入器或嵌入器模块可以(i)通过对每个唯一经处理的字符子串的中间向量进行逐元素的平均来组合中间向量，或者(ii)通过从用于每个唯一经处理的字符子串的中间向量中逐元素地选择最大值来组合中间向量。

所公开的方法可以包括子串嵌入器或嵌入器模块，其使用两个字符、三个字符和四个字符的子串长度来处理字符子串，不考虑在词的开头和结尾处的哨兵。

中间向量的维度可以等于词嵌入向量的维度。

在一个实现中，所公开的方法可以包括(i)将中间向量投影到具有维度的空间，其空间的维度等于词嵌入向量的维度，和/或(ii)将先前未识别的词映射到用于未知词的保留的词嵌入向量的词嵌入器或嵌入器模块。

在另一实现中，描述了在硬件上运行的处理输入语句中的词的神经网络设备的依赖性解析层组件。依赖性解析层叠加在产生语块标签嵌入和语块状态向量的语块标签嵌入层上。此外，语块标签嵌入层又叠加在产生POS标签嵌入的POS标签嵌入层上。依赖性解析层组件包括依赖性父项层和依赖性关系标签分类器。此外，依赖性父项层包括双向LSTM和一个或更多个分类器，其处理词嵌入、POS标签嵌入、语块标签嵌入和语块状态向量，以通过由双向LSTM产生的父标签状态向量的指数归一化和分类产生父标签概率质量向量。依赖性父项层还从父标签概率质量向量产生父标签嵌入向量。依赖性关系标签分类器通过父标签状态向量和父标签嵌入向量的分类和指数归一化产生依赖性关系标签概率质量向量。此外，依赖性关系标签分类器从依赖性关系标签概率质量向量产生依赖性关系标签嵌入向量。POS标签嵌入向量、语块标签嵌入向量和依赖性关系标签嵌入向量的维度相似，在+/-10％之内。依赖性解析层组件还包括输出处理器，其基于此至少输出依赖性关系标签嵌入向量或依赖性关系标签。

依赖性解析层组件108的部分可以体现在嵌入处理模块1084、质量向量产生模块1085和父标签向量产生模块1086中：用于处理词嵌入、POS标签嵌入、语块标签嵌入和语块状态向量的嵌入处理模块；用于从双向LSTM产生的父标签状态向量产生父标签概率质量向量的质量向量产生模块；用于从父标签概率质量向量中产生父标签嵌入向量的父标签向量产生模块。依赖性关系标签分类器可以体现在归一化模块和依赖性标签向量产生模块中：用于对父标签状态向量和父标签嵌入向量进行缩放归一化的归一化模块；和用于从父关系标签概率质量向量中产生依赖性关系标签嵌入向量的依赖性标签向量产生模块。

所公开的技术的该组件和其他实现可以各自可选地包括以下特征和/或结合所公开的附加组件描述的特征中的一个或更多个。为了简明起见，本申请中公开的特征组合不是单独列举的，并且不再针对每个基本特征组进行重复描述。读者将理解本节中标识的特征可以很容易地与标识为实现的多组基本特征组合在一起。

在一些实现中，双向LSTM为语句中的每个相应词产生表示语句中的词之间的相互作用的前向和后向进展的前向和后向父标签状态向量，从该前向和后向父标签状态向量产生父标签概率质量向量。所公开的神经网络的依赖性解析层组件108还包括注意力编码器1087，其(i)处理语句中的每个相应词的前向和后向状态向量，(ii)将注意力编码为语句中的每个相应词和其他词的嵌入之间的内积的向量，其中线性变换应用于该词或内积之前的其他词的前向和后向状态向量，以及(iii)从编码的注意力向量产生父标签嵌入向量。注意力编码器组件可以体现在注意力编码器模块1088和父标签向量模块1089中，用于从编码的注意力向量产生父标签嵌入向量。

在内积之前应用的线性变换在训练依赖性父项层和依赖性关系分类器期间是可训练的。

根据所公开的依赖性解析层组件(i)通过其确定依赖性关系概率质量向量的可用分析框架标签的数目小于前向和后向状态的维度，从而训练双向LSTM的神经网络堆叠时形成减少过度拟合的维度瓶颈，或(ii)通过其计算依赖性关系概率质量向量的可用分析框架标签的数目是前向和后向状态的维度的十分之一或更小，从而形成在训练双向LSTM的神经网络堆叠时减少过度拟合的维数瓶颈。在一些实现中，维度可以是前向和后向状态的维度的五分之一或更小。

在一个实现中，描述了在硬件上运行的用于处理输入语句中的词的神经网络设备的依赖性解析层组件。依赖性解析层叠加在产生语块标签嵌入和语块状态向量的语块标签嵌入层上。语块标签嵌入层又叠加在产生POS标签嵌入和POS状态向量的POS标签嵌入层上。依赖性解析层组件包括依赖性父项层和依赖性关系标签分类器。另外，依赖性父项层包括依赖性父项分析器，其实现为双向LSTM，处理输入语句中的词。双向LSTM为每个词处理词嵌入、POS标签嵌入、语块标签嵌入和语块状态向量，以累积表示语句中词之间的交互的向前和向后进展的前向和后向状态向量。依赖性父项分析器1180组件可以体现在用于针对每个词处理词嵌入、POS标签嵌入、语块标签嵌入和语块状态向量的嵌入模块或处理器1181中，和用于产生表示语句中词之间的相互作用的前向和后向进展的前向和后向状态向量的状态向量产生模块1182。

依赖性父项层还包括注意力编码器，用于(i)处理语句中的每个相应词的前向和后向状态向量，(ii)将注意力编码为潜在的依赖性，以及(iii)将缩放归一化应用于内积的向量以产生父标签概率质量向量，并投影父标签概率质量向量以产生父标签嵌入向量。注意力编码器1087的这些组件的功能可以体现在用于应用缩放归一化以产生父标签概率质量向量并投影父标签概率质量向量的归一化模块1184和用于产生父标签嵌入向量的父标注模块1186中。

此外，针对语句中的每个相应词，依赖性关系标签分类器，(i)对前向和后向状态向量和父标签嵌入向量进行分类和归一化，以产生依赖性关系标签概率质量向量，(ii)投影依赖性关系标签概率质量向量以产生依赖性关系标签嵌入向量。依赖性解析层组件还包括输出处理器，其至少输出反映每个词的依赖性关系的分类标签、依赖性关系标签概率质量向量或依赖性关系标签嵌入向量的结果。依赖性关系标签分类器1186可以体现在用于从嵌入向量和父标签嵌入向量产生依赖性关系标签概率质量向量的依赖性关系标签向量产生模块1187中；和用于从依赖性关系标签概率质量向量产生依赖性关系标签嵌入向量的依赖性标签向量产生模块1188中。

可以将对潜在依赖性的注意力确定为每个相应词与语句中的其他词的嵌入之间的内积，其中在内积之前将线性变换应用于该词或者其他词的前向和后向状态向量。

所公开的技术的该组件和其他实现可以各自可选地包括以下特征和/或结合所公开的附加组件描述的特征中的一个或更多个。为了简明起见，本申请中公开的特征组合不是单独列举的，并且不再针对每个基本特征组进行重复描述。读者将理解本节中标识的特征可以轻松地与标识为实现的多组基本特征组合在一起。

在一些实现方式中，可以通过限制可用分析框架标签的数量来创建维度瓶颈，如上所述，其有利于在训练堆叠时减少过度拟合。在替代实现中，(i)通过其计算依赖性关系概率质量向量的可用分析框架标签的数目是前向和后向状态的维度的五分之一或更小，从而在训练双向LSTM的神经网络堆叠时形成减少过度拟合的维度瓶颈，或(ii)计算依赖性关系概率质量向量的可用分析框架标签的数量是前向和后向状态的维度的十分之一或更小，从而在训练双向LSTM的神经网络堆叠时形成减少过度拟合的维度瓶颈。

在另一实现中，提供了一种用于依赖性解析的方法，该方法使用在硬件上运行的神经网络系统或设备来处理输入语句中的词。依赖性解析层叠加在产生语块标签嵌入和语块状态向量的语块标签嵌入层上。语块标签嵌入层又叠加在产生POS标签嵌入的POS标签嵌入层上。此外，依赖性解析层包括依赖性父项层和依赖性关系标签分类器。所公开的方法包括在依赖性父项层中应用处理词嵌入、POS标签嵌入、语块标签嵌入和语块状态向量的双向LSTM和一个或更多个分类器，以通过由双向LSTM产生的父标签状态向量的分类和缩放归一化来产生父标签概率质量向量。可以使用执行指数归一化的softmax组件来实现缩放归一化。该方法还包括从父标签概率质量向量产生父标签嵌入向量。所公开的方法还包括，在依赖性关系标签分类器中，(i)通过父标签状态向量和父标签嵌入向量的分类和缩放归一化来产生依赖性关系标签概率质量向量，以及(ii)从依赖性关系标签概率质量向量产生依赖性关系标签嵌入。根据所公开的方法，基于此至少报告、输出或保持依赖性关系标签嵌入向量或依赖性关系标签。

可选地，POS标签嵌入向量、语块标签嵌入向量和依赖性关系标签嵌入向量的维度相似，在+/-10％之内。

在一些实现方式中，该方法包括双向LSTM为语句中的每个相应词产生表示语句中的词之间的相互作用的前向和后向进展的前向和后向父标签状态向量，从中产生父标签概率质量向量。该方法还包括，在用于处理语句中的每个相应词的前向和后向状态向量的注意力编码器中，将注意力编码为作为向量的潜在依赖性。

这可以包括确定每个相应词与语句中的其他词的嵌入之间的内积，并且在内积之前针对该词或其他词应用应用于前向和后向状态向量的线性变换，以及从经编码的注意力向量产生父标签嵌入向量。

在训练依赖性父项层和依赖性关系分类器期间，在内积之前可以应用的线性变换是可训练的。

根据所公开的方法，可以通过限制可用分析框架标签的数目来创建维度瓶颈，如上所述，有利于在训练堆叠时减少过度拟合。在替代的实现方式中，(i)通过其计算依赖性关系概率质量向量的可用分析框架标签的数目是前向和后向状态的维度的五分之一或更少，从而形成在训练双向LSTM的神经网络堆叠时减少过度拟合的维度瓶颈，或(ii)通过其计算依赖性关系概率质量向量的可用分析框架标签的数量是前向和后向状态的维度的十分之一或更小，从而形成在训练双向LSTM的神经网络堆叠时减少过度拟合的维度瓶颈。

在另一实现中，提供了一种方法，该方法使用在硬件上运行的处理输入语句中的词的神经网络设备来进行依赖性解析。依赖性解析层叠加在产生语块标签嵌入和语块状态向量的语块标签嵌入层上。语块标签嵌入层又叠加在产生POS标签嵌入的POS标签嵌入层上。此外，依赖性解析层包括依赖性父项层和依赖性关系标签分类器。所公开的方法包括在依赖性父项层中，在依赖性父项分析器中，应用双向LSTM来处理输入语句中的词。这些过程包括针对每个词处理词嵌入、POS标签嵌入、语块标签嵌入和语块状态向量以累积前向和后向状态向量，其表示语句中词之间的相互作用的前向和后向进展。所公开的方法还包括，在依赖性父项层中，在注意力编码器中处理语句中每个相应词的前向和后向状态向量，(i)将注意力编码为每个相应词和该语句中其他词的嵌入之间的内积，其中在内积之前对该词或其他词的前向和后向状态向量应用线性变换，以及(ii)将缩放归一化应用于内积的向量以产生父标签概率质量向量并投影父标签概率质量向量以生成父标签嵌入向量。此外，根据所公开的方法，在依赖性关系标签分类器中和针对语句中的每个相应词，(i)对前向和后向状态向量以及父标签嵌入向量和父标签嵌入向量进行分类和归一化，以产生依赖性关系标签概率质量向量，以及(ii)投影依赖性关系标签概率质量向量以产生依赖性关系标签嵌入向量。所公开的方法还包括至少输出反映每个词的依赖性关系的分类标签、依赖性关系标签概率质量向量或依赖性关系标签嵌入向量的结果。

根据所公开的方法，可以通过限制可用分析框架标签的数目来创建维度瓶颈，如上所述，有益于在训练堆叠时减少过度拟合。在替代实现中，(i)通过其计算依赖性关系概率质量向量的可用分析框架标签的数目是前向和后向状态的维度的五分之一或更小，从而在训练双向LSTM的神经网络堆叠时形成降低过度拟合的维度瓶颈，或(ii)通过其计算依赖性关系概率质量向量的可用分析框架标签的数量是前向和后向状态的维度的十分之一或更小，从而在训练双向LSTM的神经网络堆叠时形成减少过度拟合的维度瓶颈。

其他实现可以包括有形的非暂时性计算机可读介质，其具有可与处理器和耦合到处理器的存储器结合的指令。当在计算机设备和一个或更多个服务器上执行指令时，执行前面描述的任何方法。在其他实现方式中，具有可与处理器和耦合到处理器的存储器组合的指令的有形非暂时性计算机可读介质执行先前描述的系统。

又一实现可以包括计算系统，该计算系统包括至少一个服务器，该服务器包括一个或更多个处理器和耦合到处理器的存储器，存储器包含计算机指令，当在处理器上执行时，该计算机指令使计算系统执行前面描述的任何过程。

虽然所公开的技术是参考在上面详述的优选实施例和示例公开的，应理解这些示例旨在说明而不是限制。预期本领域技术人员将容易想到修改和组合，这些修改和组合将落入本发明的精神和所附权利要求的范围内。

计算机系统

图11是可用于实现联合多任务神经网络模型100的计算机系统1100的简化框图。计算机系统1100通常包括一个或更多个CPU处理器1120，其经由总线子系统1132与多个外围设备通信。这些外围设备可以包括存储器子系统1112，其包括例如存储器设备和文件存储子系统1118、用户接口输入设备1130、用户接口输出设备1124、网络接口子系统1122、以及具有多个GPU处理核的GPU 1126或GPU处理器1128。输入和输出设备允许用户与计算机系统1100交互。网络接口子系统1122提供到外部网络的接口，包括到其他计算机系统中的相应接口设备的接口。

根据一些实现，联合多任务神经网络模型100的操作由GPU处理核1128执行。

用户接口输入设备1130或客户端或客户端设备可包括键盘；定点向设备，如鼠标、轨迹球、触摸板或图形输入板；扫描仪；包含在显示器中的触摸屏；音频输入设备，诸如语音识别系统和麦克风；以及其他类型的输入设备。通常，术语“输入设备”的使用旨在包括所有可能类型的设备和将信息输入计算机系统1100的方式。

用户接口输出设备1124可以包括显示子系统、打印机、传真机或诸如音频输出设备的非可视显示器。显示子系统可包括阴极射线管(CRT)，诸如液晶显示器(LCD)的平板装置，投影装置或用于产生可见图像的一些其他机构。显示子系统还可以提供非可视显示，例如音频输出设备。通常，术语“输出设备”的使用旨在包括将信息从计算机系统1100输出到用户或另一个机器或计算机系统的所有可能类型的设备和方式。

存储子系统1110存储提供本文描述的一些或所有模块和方法的功能的编程和数据结构。这些软件模块通常由CPU处理器1120单独执行或与诸如GPU处理器1128的其他处理器组合执行。

存储子系统中的存储器子系统1112可包括多个存储器，包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)1116和存储固定指令的只读存储器(ROM)1114。文件存储子系统1118可以为程序和数据文件提供持久存储，并且可以包括硬盘驱动器、软盘驱动器以及相关的可移除介质，CD-ROM驱动器，光驱动器或可移除介质盒。实现某些实现的功能的模块可以由文件存储子系统1118或存储器子系统1112存储，或者存储在处理器可访问的其他机器中。

总线子系统1132提供用于使计算机系统1100的各种组件和子系统按预期彼此通信的机制。虽然将总线子系统1132示意性地示为单个总线，但总线子系统的替代实现方式可以使用多个总线。在一些实现中，应用服务器(未示出)可以是允许计算机系统1100的应用程序运行的框架，例如硬件和/或软件，例如操作系统。

计算机系统1100本身可以是各种类型，包括个人计算机、便携式计算机、工作站、计算机终端、网络计算机、电视、大型机、服务器群、广泛分布的一组松散联网的计算机，或者任何其他数据处理系统或用户设备。由于计算机和网络的不断变化的性质，图11中描绘的计算机系统1100的描述仅用于说明本发明优选实施例的具体示例。计算机系统1100的许多其他配置可能具有比图11中描绘的计算机系统更多或更少的组件。

提供前面的描述以使得能够制造和使用所公开的技术。对所公开的实现的各种修改将是显而易见的，并且在不脱离所公开的技术的精神和范围的情况下，本文定义的一般原理可以应用于其他实现和应用。因此，所公开的技术不旨在限于所示的实现方式，而是与符合本文公开的原理和特征的最宽范围相一致。所公开的技术的范围由所附权利要求限定。

联合多任务模型：针对多个NLP任务增长神经网络

桑原桥本(Kazuma Hashimoto^*)，熊蔡明(Caiming Xiong)，吉政鹤岗(YoshimasaTsuruoka)，

理查德佐赫尔(Richard Socher)

东京大学

{hassy,tsuruoka}@logos.t.u-tokyo.ac.jp

易享研究中心(Salesforce Research)

{cxiong,rsocher}@salesforce.com

摘要

传输和多任务学习传统上集中在单个源-目标对或非常少的类似任务上。理想情况下，词法、语法和语义的语言水平会通过在单一模型中训练互相受益。为了连续增长其深度，我们将这种联合多任务模型与策略一起引入以解决日益复杂的任务。所有层都包含与词表示和低级任务预测的快捷连接。我们使用简单的正则化术语来优化所有模型权重，以改善一项任务的损失，而不会显示其他任务的灾难性干扰。我们的单端到端可训练模型在语块划分、依赖性解析、语义相关性和文本蕴涵方面获得了最先进的结果。它还在POS标注上具有竞争力。我们的依赖性解析层仅依赖于单个前馈传递，并且不需要波束搜索。

1、介绍

利用多级表示的潜力已经在自然语言处理(NLP)领域中以各种方法得到证明。例如，词性(POS)标注用于训练句法解析器。解析器用于改进更高级别的任务，例如自然语言推理(Chen等，2016)，关系分类(Socher等，2012)，情感分析(Socher等，2013；Tai等，2015a)，或机器翻译(Erigucbi等，2016)。但是，更高级别的任务通常不能改进较低级别的任务，通常是因为系统是管线而不是端到端训练的。

在深度学习中，无监督的词向量是有用的表示，并且经常用于为后续任务初始化循环神经网络(Pennington等，2014)。然而，由于没有经过共同训练，深度NLP模型已经显示出从连续更深层预测许多(>4)日益复杂的语言任务中获益。相反，现有模型通常设计为完全单独地或在相同深度预测不同的任务(Collobert等，2011)，忽略语言层级结构。

我们引入了一个联合多任务(JMT)模型，如图1所示，它预测了连续更深层的越来越复杂的NLP任务。与传统的NLP管线系统不同，我们的单个JMT模型可以进行端到端的训练，用于POS标注、语块划分、依赖性解析、语义相关性和文本蕴涵。我们提出了一种适应性训练和正则化策略，以深入发展这一模型。在此策略的帮助下，我们避免了任务之间的灾难性干扰，而是表明较低级别和较高级别任务都可以从联合训练中受益。我们的模型受&Goldberg(2016)的评论影响，他们示出，预测两个不同的任务在不同的层中执行时比在同一层中执行更准确(Collobert等，2011)。

图1：联合多任务模型在连续地更深层处预测不同语言输出的概图

2联合多任务模型

在本节中，我们假设模型已经过训练并描述了其推理过程。我们从最低级开始，逐步完成更高层和更复杂的任务。

2.1词表示

对于每个词w_t，在长度为L的输入句子s中，我们通过串联词和字符嵌入来构造表示。

词嵌入：我们使用Skip-gram(Mikolov等，2013)来训练词嵌入矩阵，它将在所有任务中共享。将未包含在词汇表中的词映射到特殊的UNK词条。

字符n-gram嵌入：使用与词向量相同的skip-gram目标函数来学习字符n-gram嵌入。我们在训练数据中构造字符n-grams的词汇表，并为每个字符n-gram分配嵌入。最后一个字符嵌入是词w_t的唯一字符n-gram嵌入的平均值。¹例如，词“Cat”的字符n-gram(n＝1，2，3)为{C，a，t，#BEGIN#C，Ca，at，t#END#，#BEGIN#Ca，Cat，at#END#}，其中“#BEGIN#”和“#END#”分别代表每个词的开始和结束。字符n-gram嵌入的使用有效地提供了关于未知词的词法特征和信息。字符n-grams的训练过程在3.1节中描述。随后将每个词表示为x_t，其对应的词和字符向量的串联。

2.2词级任务：POS标注

该模型的第一层是双向LSTM(Graves&Schmidhuber，2005；Hochreiter&Schmidhuber，1997)，其隐藏状态用于预测POS标注。我们使用以下长短期记忆(LSTM)单元作为前进方向：

i_t＝σ(W_ig_t+b_i)，f_t＝σ(W_fg_t+b_f)，o_t＝σ(W_ogt+b_o)，

u_t＝tanh(W_ug_t+b_u)，c_t＝i_t⊙u_t+f_t⊙c_t-1，h_t＝o_t⊙tanh(c_t)， (1)

图2：在JMT模型中的第一和第二层中的POS标注和语块划分任务的概图

其中，我们将第一层gt定义为即wt的词表示和之前隐藏状态的串联。后向传递以相同的方式拓展，但是使用了不同组的权重。

针对预测w_t的POS标注，我们使用在对应于第t个词的一层双向LSTM层中的前向和后向状态的串联：然后将每个h_t(1≤t≤L)馈送到具有单个ReLU层的标准softmax分类器，其输出每个POS标注的可能性向量y⁽¹⁾。

2.3词级任务：语块划分

语块划分也是词级分类任务，其为每个词分配语块划分标注。当堆叠双向LSTM层时，我们使用具有输入的方程(1)，其中是所述第一(POS)层的隐藏状态。我们将加权的标签嵌入定义如下：

其中C是POS标注的数量，是分配给wt的第j个POS标注的概率值，以及l(j)是相应的标签嵌入。由POS层自动预测概率值，所述POS层与内置POS标注器一样工作，因而不需要黄金POS标注。这一输出嵌入可以认为是与已经在句法任务中有效示出的(Andor等,2016；Alberti等，2015)K-最佳POS标注特征相似的特征。为了预测语块划分标注，我们通过在语块划分层中使用串联的双向隐藏状态来采用与POS标注相同的策略。在分类器之前，我们还使用单个ReLU隐藏层。

2.4句法任务：依赖性解析

依赖性解析识别语句中的词对之间的句法关系(例如形容词修饰名词)。我们使用在POS顶部的第三双向LSTM层和语块划分层来对所有词对之间的关系进行分类。用于LSTM的输入向量包括隐藏状态、词表示和用于两个先前任务的标签嵌入：其中，我们以与计算方程(2)中的POS向量相似的方式计算语块划分向量。POS标注和语块划分标注通常用于改善依赖性解析(Attardi&DellOrletta,2008)。

像哨兵标注任务一样，我们只是预测语句中每个词的父节点(头部)。然后，为每个子父节点对预测依赖性标签。为了预测第t个词wt的父节点，我们将wt和父节点的候选之间的匹配函数定义为其中W_d是参数矩阵。对于根，我们定义为参数化向量。为了计算(或者根节点)是父项的概率，将得分归一化为：

其中L为语句长度。

图3：JMT模型的第三层中的依赖性解析的概图

图4：JMT模型的顶层中的语义任务的概图

接下来，采用[h_t；h_j]作为具有单一ReLU层的标准softmax分类器的输入来预测依赖性标签。在测试时间，我们贪婪地选择语句中每个词的父节点和依赖性标签。²在训练时间，我们使用黄金子-父对来训练标签预测器。

2.5语义任务：语义相关性

接下来的两个任务对两个输入语句之间的语义关系建模。第一任务测量两个语句之间的语义相关性。输出是输入语句对的实值相关性得分。第二任务是文本蕴涵任务，其要求人们确定前提语句是否蕴涵假设语句。通常有三个类：蕴涵、矛盾和中立。

这两个语义任务彼此密切相关。如果两个语句之间的语义相关性非常低，则它们不太可能彼此蕴涵。基于这种直觉并利用来自较低层的信息，我们分别使用第四和第五双LSTM层用于相关性和蕴涵任务。

现在需要获得语句级表示而不是前三个任务中使用的词级表示我们将语句级表示计算为第四层中所有词级表示的逐元素的最大值：

为了对s和s'之间的语义相关性建模，我们遵循Tai等(2015b)的观点。用于表示语义相关性的特征向量计算如下：

其中是逐元素相减的绝对值，以及是逐元素的相乘。它们都可以视为两个向量的两个不同的相似性度量。然后将d₁(s,s')馈送到具有单个Maxout隐藏层的softrnax分类器中(Goodfellow等，2013)，以输出语句对的相关性得分(在我们的案例中为1到5)。

2.6语义任务：文本蕴涵

对于两个语句之间的蕴涵分类，我们使用如语义相关性任务中使用的最大池化技术。为了将前提-假设对分类为三个类中的一个，我们如方程(5)中所示计算特征向量d₂(s，s′)，除了我们不使用逐元素相减的绝对值之外，因为我们需要识别哪个是前提(或假设)。然后将d₂(s，s′)馈送至标准的softrnax分类器。

为了直接使用相关性层的输出，我们使用相关性任务的标签嵌入。更具体地说，我们计算类似于方程(2)的语义相关性任务的类别标签嵌入。串联并馈入蕴涵分类器的最终特征向量是加权的相关性标签嵌入和特征向量d₂(s，s′)。³我们在分类器之前使用三个Maxout隐藏层。

3训练JMT模型

该模型在所有数据集上共同训练。在每个时期期间，优化以相同的顺序在每个完全训练数据集上迭代，在建模部分中描述相应的任务。

3.1预训练词表示

我们使用具有负采样的Skip-gram模型预训练词嵌入(Mikolov等，2013)。我们还使用Skip-gram预训练字符n-gram嵌入。唯一的区别是，Skip-gram模型中的每个输入词嵌入都替换为希望在第2.1节中描述的字符n-gram嵌入的相应的平均嵌入。在我们的JMT模型的训练期间将这些嵌入微调。我们将嵌入参数表示为θ_e。

3.2训练POS层

使θ_POS＝(W_POS，b_POS，θ_e)表示与POS层相关联的模型参数集，其中W_POS是第一双向LSTM和分类器中的一组权重矩阵，b_POS是一组偏置向量。优化θ_POS的目标函数定义如下：

其中时将正确标签α分配给语句s中的w_t的概率值，λ||W_POS||²是L2范数正则化项，以及λ是超参数。

我们称第二个正则化项δ||θ_e-θ′_e||²为一个连续的正则化项。连续的正则化基于我们不希望模型忘记针对其他任务学习的信息的想法。在POS标注的情况中，正则化应用于θ_e，并且θ′_e是在前一训练时期的最顶层中训练最终任务之后的嵌入参数。δ是超参数。

3.3训练语块划分层

目标函数定义如下：

它类似于POS层的目标函数，θ_chunk定义为(W_chunk，b_chunk，E_POS，θ_e)，其中W_chunk和b_chunk是权重和偏差参数，其包括θ_POS中的那些，以及E_POS是一组POS标签嵌入。θ′_POS是在当前训练时期训练POS层之后的一个。

3.4训练依赖性层

目标函数定义如下：

其中是分配给w_t的正确的父节点α的概率值，而是分配给子父对(w_t，α)的正确依赖性标签的概率值。θ_dep定义为(W_dep，b_dep，W_d，r，E_POS，E_chunk，θ_e)，其中W_dep和b_dep是权重和偏差参数，包括θ_chunk中的那些，以及E_chunk是语块划分标签嵌入的集合。

3.5训练相关性层

根据Tai等(2015b)，将目标函数定义如下：

其中是定义的相关性得分上的黄金分布，是给定语句表示时的预测分布，并且KL是这两个分布之间的KL散度。θ_rel定义为(W_rel，b_rel，E_POS，E_chunk，θ_e)。

3.6训练蕴涵层

目标函数定义如下：

其中是将正确标签α分配给前提-假设对(s，s')的概率值。θ_ent定义为(W_ent，b_ent，E_POS，E_chunk，θ_e)。

4相关工作

事实证明，许多深度学习方法在各种NLP任务中都是有效的，并且变得越来越复杂。它们通常设计为处理单个任务，或者其中一些设计为通用模型(Kumar等，2016；Sutskever等，2014)，但是独立地应用于不同的任务。

为了处理多个NLP任务，已经提出了具有深度神经网络的多任务学习模型(Collobert等，2011；Luong等，2016)，并且最近&Goldberg(2016)已经建议在联合学习密切相关的任务(诸如POS标注和语块划分)中针对不同的任务使用不同的层比使用同一层更有效。但是，任务数量有限或者它们具有非常相似的任务设置，如词级别标注，并且不清楚如何通过组合较高级别的任务来改善较低级别的任务。

在计算机视觉领域，也提出了一些转移和多任务学习方法(Li&Hoiem，2016；Misra等，2016)。例如，Misra等(2016)提出了一个多任务学习模型来处理不同的任务。但是，他们假设每个数据样本都有针对不同任务的注释，并且没有明确考虑任务层级结构。

最近，Rusn等(2016)已经提出了一种渐进式神经网络模型来处理多个强化任务，诸如Atari游戏。就像我们的JMT模型一样，在他们的文章中他们的模型也是根据使用称为列的不同层的不同任务连续训练的。在他们的模型中，一旦第一任务完成，第一任务的模型参数就固定了，然后通过添加新的模型参数来处理第二任务。因此，从未改进先前训练的任务的准确性。在NLP任务中，多任务学习不仅可以改进更高级别的任务，还可以改进更低级别的任务。我们的连续正则化不是固定预先训练的模型参数，而是允许我们的模型连续训练较低级别的任务，而不会出现明显的准确度下降。

5实验的设置

5.1数据集

POS标注：为了训练POS标注层，我们使用了Penn Treebank的华尔街日报(WSJ)部分，并遵循标准分割进行训练(第0-18节)，开发(第19-21节)和测试(第22-24节)组。评估度量是词级准确度。

语块划分：对于语块划分，我们还使用了WSJ语料库，并按照CoNLL 2000共享任务中的标准分割进行了训练(第15-18节)和测试(第20节)组。在&Goldberg(2016)之后，我们使用第19节作为开发集，并采用了IOBES标注方案。评估度量是共享任务中定义的F1得分。

依赖性解析：我们还使用WSJ语料库进行依赖性解析，并遵循标准分割进行训练(第2-21节)，开发(第22节)和测试(第23节)组。我们使用斯坦福转换器的3.3.0版本将树库数据转换为斯坦福风格的依赖性。评估度量是未标记的附件得分(UAS)和标记的附件得分(LAS)，并且评估中不包括标点符号。

语义相关性：对于语义相关性任务，我们使用SICK数据集(Marelli等，2014)，并遵循标准分割用于训练(SICK_train.txt)，开发(SICK_trial.txt)和测试(SICK_test_annotated.txt)组。评估度量是黄金和预测分数之间的均方误差(MSE)。

文本蕴涵：对于文本蕴涵，我们还使用了SICK数据集和精确相同的数据分割作为语义相关性数据集。评估度量是准确度。

5.2训练细节

预训练的嵌入：我们使用word2vec工具包预训练词嵌入。我们通过选择小写英语维基百科文本创建了我们的训练语料库，并获得了使用上下文窗口大小1、负采样方法(15个负样本)和子采样方法(10^-5子采样系数)进行训练的100维度的Skip-gram词嵌入。⁴我们还使用与区分大小写的维基百科文本相同的参数设置预先训练了字符n-gram嵌入。我们在预训练步骤中训练了n＝1，2，3，4的字符n-gram嵌入。

嵌入初始化：我们使用预训练的词嵌入来初始化词嵌入，并且基于五个任务的训练数据构建词的词汇表。训练数据中的所有词都包含在词的词汇表中，我们使用词丢弃方法(Kiperwasser&Goldberg，2016)来训练未知词的词嵌入。继Wieting等人(2016)之后，我们还建立了n＝2，3，4的字符n-gram词汇表，以及使用预训练的嵌入来初始化字符n-gram嵌入。所有标签嵌入都使用中的均匀随机值进行初始化，其中dim＝100是标签嵌入的维数，C是标签的数量。

权重初始化：双向LSTM中隐藏层的维度设置为100。我们将所有softmax参数和偏置向量(除了LSTM中的遗忘偏差之外)初始化为零，用于依赖性解析的权重矩阵Wd和根节点向量r也初始化为零。所有遗忘偏差都初始化为1。其他权重矩阵使用中的均匀随机值初始化，其中row和col分别是矩阵的行数和列数。

优化：在每个时期，我们按照POS标注、语块划分、依赖性解析、语义相关性和文本蕴涵的顺序训练我们的模型。我们使用迷你批随机梯度下降来训练我们的模型。对于POS标注、语块划分和SICK任务，迷你批的大小设置为25，对于依赖性解析，迷你批的大小设置为15。我们使用梯度裁剪策略，为不同的任务增加裁剪值；具体地说，我们采用了简单函数：min(3.0，depth)，其中depth是每个任务中涉及的双向LSTM层的数量，

3.0是最大值。第k个时期的学习率设置为其中ε是初始学习率，ρ是降低学习率的超参数。我们将ε设置为1.0，将ρ设置为0.3。在每个时期，所有任务共享相同的学习率。

正则化：对于LSTM权重矩阵，我们将正则化系数设置为10^-6，对于分类器中的权重矩阵，将正则化系数设置为10^-5，对于排除较低级别任务的分类器参数的连续正则化项，将正则化系数设置为10^-3。分类器参数的连续正则化系数设置为10^-2。我们还使用了临时删除(dropout)(Hinton等，2012)。对于多层双向LSTM中的垂直连接(Pham等，2014)，蕴涵层的词表示和标签嵌入，以及POS标注、语块划分、依赖性解析和蕴涵的分类器，临时删除率设置为0.2。对于词表示和POS、语块划分和依赖性层以及相关性层的分类器的标签嵌入，使用不同的临时删除率0.4。

6结果和讨论

6.1多任务结果概要

表1示出了针对五个不同任务的测试集结果的我们结果。⁵列“单个”示出了使用单个双向LSTM分别处理每个任务的结果，列“JMT_all”示出了我们的JMT模型的结果。单个任务设置仅使用其自己任务的注释。例如，将依赖性解析视为单个任务时，不使用POS标注和语块划分标注。我们可以看到，我们的JMT模型中改进了五个不同任务的所有结果，这表明我们的JMT模型可以在单个模型中处理五个不同的任务。我们的JMT模型允许我们访问从不同任务学习的任意信息。如果我们想要将模型用作POS标注器，我们可以使用第一双向LSTM层的输出。输出可以是加权POS标签嵌入以及离散POS标注。

表1还示出了不同任务的三个子集的结果。例如，在“JMT_ABC”的情况下，仅仅双向LSTM的前三层用于处理三个任务。在“JMT_DE”的情况下，通过省略前三层中的所有信息，仅将顶部两层用作双层双向LSTM。密切相关任务的结果表明，我们的JMT模型不仅改善了高级任务，还改善了低级任务。

表1：五个任务的测试集结果。在相关性任务中，越低的得分越好

表6：文本蕴涵结果

6.2与公开结果的比较

POS标注：表2示出了POS标注的结果，我们的JMT模型实现了接近最先进结果的得分。Ling等人(2015)已经取得了迄今为止最好的结果，它使用基于字符的LSTM。将基于字符的编码器合并到我们的JMT模型中将是一个有趣的方向，但我们已经表明，简单的预训练字符n-gram嵌入产生了有前景的结果。

语块划分：表3示出了语块划分的结果，我们的JMT模型实现了最先进的结果。&Goldberg(2016)提出在不同层中联合学习POS标注和语块划分，但它们只显示了语块划分的改进。相比之下，我们的结果表明，联合学习也改善了低级别的任务。

依赖性解析：表4示出了在依赖性注释方面仅使用WSJ语料库进行依赖性解析的结果，我们的JMT模型实现了最先进的结果。⁶值得注意的是，我们的简单贪婪依赖性解析器优于以前的基于采用全局信息的定向搜索的最先进的结果。结果表明双向LSTM有效地捕获依赖性解析所需的全局信息。而且，我们的单个任务结果已经达到了高准确度而没有POS和语块划分信息。

语义相关性：表5示出了语义相关性任务的结果，我们的JMT模型实现了最先进的结果。“JMT_DE”的结果已经比以前最先进的结果更好了。Zhou等人(2016)和Tai等人(2015b)都明确使用了句法树结构，同时Zhou等人(2016)依靠注意力机制。但是，我们的方法使用简单的最大池化策略，这表明在开发简单任务的复杂方法之前，值得研究这些简单的方法。目前，我们的JMT模型没有明确使用学习的依赖性结构，因此显式使用依赖性层的输出应该是未来工作的一个有趣方向。

表7：采用不同的联合训练策略的JMT_all的开发集结果。考虑使用连续正则化(SR)，快捷连接(SC)和标签嵌入(LE)。为了比较，还显示了单个任务结果。

语义蕴涵层：表6显示了文本蕴涵的结果，我们的JMT模型实现了最先进的结果。⁷Yin等人(2016)先前的最先进的结果依赖注意力机制和数据集特定的数据预处理和功能。同样，我们简单的最大池化策略实现了联合训练所带来的最先进结果。这些结果表明联合处理相关任务的重要性。

6.3对多任务学习架构的分析

在这里，我们首先研究针对五个不同单一任务使用更深层的效果。然后，我们展示了我们提出的模型和训练策略的有效性：连续正则化，词表示的快捷连接，输出标签的嵌入，字符n-gram嵌入，以及针对不同任务不同层的使用。本节中显示的所有结果都是开发集结果。

深度：表1中显示的单个任务设置是通过使用单层双向LSTM获得的，但在我们的JMT模型中，更高级别的任务使用连续更深层。为了研究每个任务的不同层数之间的差距，我们还在表7中的“单个+”列中显示了对单个任务设置使用多层双向LSTM的结果。更具体地说，我们在我们的JMT模型中使用相同的层数；例如，三层用于依赖性解析，五层用于文本蕴涵。如这些结果所示，更深层并不总能带来更好的结果，而联合学习比制作针对单个任务复杂的模型更加重要。

连续正则化：在表7中，“w/o SR”列显示省略第3节中描述的连续正则化项的结果。我们可以看到，通过连续正则化可以提高语块划分的准确性，而其他结果不会受到太多影响。与其他低级任务(POS标注和依赖性解析)相比，此处使用的语块划分数据集相对较小。因此，这些结果表明，当数据集大小不平衡时，连续正则化是有效的。

快捷连接：我们的JMT模型将词表示馈入到所有双向LSTM层，称为快捷连接。表7显示了具有和不具有快捷连接的“JMT_all”的结果。没有快捷连接的结果显示在“w/o SC”列中。这些结果清楚地表明，JMT模型中快捷连接的重要性，特别是较高层中的语义任务强烈依赖于快捷连接。也就是说，简单地堆叠LSTM层不足以在单个模型中处理各种NLP任务。在附录A中，我们展示了共享词表示如何根据每个任务(或层)而变化。

输出标签嵌入：

表7还显示了在“w/o LE”列中未使用POS、语块划分和相关性层的输出标签的结果。这些结果表明，明确使用来自较低层的分类器的输出信息对我们的JMT模型来说非常重要。“w/o SC&LE”的最后一列中的结果是没有快捷连接和标签嵌入两者的结果。

字符n-gram嵌入：表8显示了在具有和不具有预训练的字符n-gram嵌入的情况下三个单任务(POS标注、语块划分和依赖性解析)的结果。“C&W”列对应于使用词和字符n-gram嵌入两者，“仅词”对应于仅使用词嵌入。这些结果清楚地表明，联合使用预训练的词和字符n-gram嵌入有助于改善结果。字符n-gram嵌入的预训练也是有效的；例如，没有预训练，POS准确度从97.52％下降到97.38％，语块划分准确度从95.65％下降到95.14％，但它们仍然优于单独使用word2vec嵌入。

用于不同任务的不同层：表9显示了我们的“JMT_ABC”设置的三个任务的结果以及如表7所示不使用快捷连接和标签嵌入的结果。此外，在“全部-3”列中，我们显示在没有任何快捷方式连接和标签嵌入的情况下对所有三个任务使用最高(即第三个)层的结果，因此两个设置“w/o SC&LE”和“全部-3”需要完全相同数量的模型参数。结果表明，对于三个不同的任务使用相同的层会妨碍我们的JMT模型的有效性，并且模型的设计比模型参数的数量更重要。

7结论

我们提出了一个联合多任务模型来处理各种NLP任务，其中在单个端到端深度模型中增加层的深度。我们的模型通过考虑语言层级结构，直接将词表示连接到所有层，明确地使用较低任务中的预测，以及应用连续正则化来连续训练。在我们对五种不同类型的NLP任务的实验中，我们的单个模型在语块划分、依赖性解析、语义相关性和文本蕴涵方面实现了最先进的结果。

感谢

我们感谢易享研发中心团队成员的富有成效的评论和讨论。

参考文献

Chris Alberti,David Weiss,Greg Coppola和Slav Petrov。采用神经网络改进基于转变的解析和标注(Improved Transition-Based Parsing and Tagging withNeural Networks)。参见2015年度关于自然语言处理中的经验方法会议的会议记录第1354-1359页(In Proceedings of the 2015Conference on Empirical Methods inNatural Language Processing,pp.1354-1359,2015)。

Daniel Andor,Chris Alberti,David Weiss,Aliaksei Severyn,AlessandroPresta,Kuzman Ganchev,Slav Petrov和Michael Collins。基于全局归一化的转变的神经网络(Globally Normalized Transition-Based Neural Networks)。参见2016年关于计算语言的第54届协会年会的会议记录(卷1：长篇论文)第2442-2452页(In Proceedings ofthe 54th Annual Meeting of the Association for Computational Linguistics(volume 1:Long Papers),pp.2442-2452,2016)。

Giuseppe Attardi和Felice DellOrletta。语块划分和依赖性解析(Chunkingand Dependency Parsing)。参见2008年“LREC部分解析研讨会的会议记录(InProceedings of LREC 2008Workshop on Partial Parsing,2008)”。

Bernd Bohnet。最高准确性和快速依赖性解析并不矛盾(Top Accuracy and FastDependency Parsing is not a Contradiction).参见2010年第23届计算语言学国际会议的会议记录第89-97页(In Proceedings of the 23rd International Conference onComputational Linguistics,pp.89-97,2010)。

Qian Chen,Xiaodan Zhu,Zhenhua Ling,Si Wei和Hui Jiang。自然语言推理的序列和树LSTM的增强和组合(Enhancing and Combining Sequential and Tree LSTM forNatural Language Inference)。CoRR,abs/1609.06038,2016.

Do Rook Choe和Eugene Charniak。解析为语言建模(Parsing as LanguageModeling)。参见2016年自然语言处理经验方法会议的会议记录第2331-2336页(InProceedings of the 2016Conference on Empirical Methods in Natural LanguageProcessing,pp.2331-2336,2016)。

Ronan Collobert，Jason Weston，Leon Bottou，Michael Karlen和KorayKavukcuoglu以及Pavel Kuksa。(几乎)来自刮擦的自然语言处理(Natural LanguageProcessing(almost)from Scratch)。机器学习研究杂志(Journal of Machine LearningResearch)，12：2493-2537，2011。

Chris Dyer，Miguel Ballesteros，Wang Ling，Austin Matthews和NoahA.Smith。基于过渡的依赖解析与堆叠长短期记忆(Transition-Based DependencyParsing with Stack Long Short-Term Memory)。参见2015年计算语言学协会第53届年会和第七届自然语言处理国际联合会议的会议记录(第1卷：长篇论文)第334-343页(InProceedings of the 53^rd Annual Meeting of the Association for ComputationalLinguistics and the 7th International Joint Conference on Natural LanguageProcessing(volume 1:Long Papers),pp.334-343,2015)。

Akiko Eriguehi，Kazuma Hashimoto和Yoshimasa Tsuruoka.树-序列注意神经机器翻译(Tree-to-Sequence Attentional Neural Machine Translation)。参见2016年计算语言学协会第54届年会的会议记录(第1卷：长篇论文)第823-833页(In Proceedings ofthe 54th Annual Meeting of the Association for Computational Linguistics(volume 1:Long Papers),pp.823-833,2016)。

Ian J.Goodfellow，David Warde-Farley，Mehdi Mirza，Aaron Courville和Yoshua Bengio。最大输出网络(Maxout Networks)。参见2013年第30届国际机器学习会议的会议记录第1319-1327页(In Proceedings ofThe 30th International Conference onMachine Learning,pp.1319-1327,2013)。

Alex Graves和Jurgen Schmidhuber。具有双向LSTM和其他神经网络架构的逐帧音素分类(Framewise Phoneme Classification with Bidirectional LSTM and OtherNeural Network Architectures)。神经网络(Neural Networks),18(5):602—610,2005。

Geoffrey E，Hinton，Nitish Srivastava，Alex Krizhevsky，Ilya Sutskever和Ruslan Salakhutdinov。通过防止特征检测器的共同适应来改善神经网络(Improvingneural networks by preventing co-adaptation of feature detectors)。CoRR,abs/1207.0580,2012。

Sepp Hochreiter和Jurgen Schmidhuber。长短期记忆(Long short-termmemory)。神经计算(Neural Computation),9(8):1735-1780,1997。

Eliyahu Kiperwasser和Yoav Goldberg。具有分层树LSTM的容易优先的依赖性解析(Easy-First Dependency Parsing with Hierarchical Tree LSTMs)。计算语言学协会的交易(Transactions of the Association for Computational Linguistics),4:445-461,2016。

Taku Kudo和Yuji Matsumoto。采用支持向量机进行语块划分(Chunking withSupport Vector Machines)。参见2001年计算语言学协会北美分会第二次会议记录(InProceedings of the Second Meeting ofthe North American Chapter oftheAssociationfor Computational Linguistics,2001).

Ankit Kumar，Ozan Irsoy，Peter Ondruska，Mohit lyyer，James Bradbury，Ishaan Gulrajani，Victor Zhong，Romain Paulus和Richard Socher。问我任何事情：用于自然语言处理的动态存储网络(Ask Me Anything:Dynamic Memory Networks forNatural Language Processing)。参见2016年第33届国际机器学习会议论文集第1378-1387页(In Proceedings of The 33rd International Conference on MachineLearning,pp.1378-1387,2016)。

Alice Lai和Julia Hockenmaier。Ulinois-LH：一种语义学的指称和分布式方法(Ulinois-LH:A Denotational and Distributional Approach to Semantics)。参见2014年第8届国际语义评估研讨会的会议记录第329-334页(In Proceedings of the 8thInternational Workshop on Semantic Evaluation(SemEval 2014),pp.329-334,2014)。

Zhizhong Li和Derek Hoiem。不遗忘的学习(Learning without Forgetting)。CoRR,abs/1606.09282,2016。

Wang Ling,Chris Dyer,Alan W Black,Isabel Trancoso,Ramon Fermandez,Silvio Amir,Luis Marujo和Tiago Luis。在表单中查找功能：开放词汇表次表示的组合字符模型(Finding Function in Form:Compositional Character Models for OpenVocabulary Word Representation)。参见2015年自然语言处理经验方法会议的会议记录第1520-1530页(In Proceedings of the 2015Conference on Empirical Methods inNatural Language Processing,pp.1520-1530,2015)。

Minh-Thang Luong,Ilya Sutskever,Quoc V.Le,Oriol Vinyals和LukaszKaiser。多任务序列到序列学习(Multi-task Sequence to Sequence Learning)。参见2016年第四届国际学习代表会议的会议记录(Proceedings of the 4th InternationalConference on Learning Representations,2016)。

Xuezhe Ma和Lduard Hovy。通过双向LSTM-CNNs-CRF进行端到端序列标注(End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF)。参见2016年计算语言学协会第54届年会的会议记录(卷1：长篇论文)第1064-1074页(Proceedings of the 54thAnnual Meeting ofthe Associationfor Computational Linguistics(volume 1:LongPapers),pp.1064-1074,2016)。

Marco Marelli,Luisa Bentivogli,Marco Baroni,Raffaella Bernardi,Stefano Menini和Roberto Zamparelli。SemEval-2014任务1：通过语义相关性和文本蕴涵评估完整语句的组合分布语义模型(SemEval-2014Task 1:Evaluation of CompositionalDistributional Semantic Models on Full Sentences through Semantic Relatednessand Textual Entailment)。参见2014年第八届国际语义评估研讨会的会议记录第1-8页(In Proceedings of the 8th International Workshop on Semantic Evaluation(SemEval 2014),pp.1-8,2014)。

Tomas Mikolov,Ilya Sutskever,Kai Chen,Greg S Corrado和Jeff Dean。词和短语及其组合的分布式表示(Distributed Representations of Words and Phrases andtheir Compositionality)。参见2013年神经信息处理系统的发展第3111-3119页(InAdvances in Neural Information Processing Systems,pp.3111-3119.2013)。

Ishan Misra，Abhinav Shrivastava，Abhinav Gupta和Martial Hebert。多任务学习的十字针脚网络(Cross-stitch Networks for Multi-task Learning).CoBB,abs/1604.03539,2016.

Jeffrey Pennington，Richard Socher和Christopher Manning。手套：词表示的全局向量(Glove:Global Vectors for Word Representation)。参见2014年自然语言处理经验方法会议的会议记录第1532-1543页(In Proceedings of the 2014Conference onEmpirical Methods in Natural Language Processing,pp.1532-1543,2014)。

Vu Pham，Theodore Bluche，Christopher Kermorvant和Jerome Louradour。临时删除改进了手写识别的循环神经网络(Dropout improves Recurrent Neural Networksfor Handwriting Recognition)。CoBB,abs/1 3 12.4569,2014。

Andrei A，Rusu，Neil C.Rabinowitz，Guillaume Desjardins，Hubert Soyer，James Kirkpatrick，Koray Kavukcuoglu，Razvan Pascanu和Raia Hadsell。渐进神经网络(Progressive Neural Networks).CoRR,abs/1 606.04671,2016。

Richard Socher，Brody Huval，Christopher D.Manning和Andrew Y.Ng。通过递归矩阵-向量空间的语义成分(Semantic Compositionality through Recursive Matrix-Vector Spaces)。参见2012年自然语言处理和计算自然语言学习中经验方法联合会议的会议记录第1201-1211页(In Proceedings of the 2012Joint Conference on EmpiricalMethods in Natural Language Processing and Computational Natural LanguageLearning,pp.1201-1211,2012)。

Richard Socher，Alex Perelygin，Jean Wu，Jason Chuang，ChristopherD.Manning，Andrew Ng和Christopher Potts。基于情感树库的语义组合的递归深层模型(Recursive Deep Models for Semantic Compositionality Over a SentimentTreebank).参见2013年自然语言处理经验方法会议的会议记录第1631-1642页(InProceedings of the 2013Conference on Empirical Methods in Natural LanguageProcessing,pp.1631-1642,2013)。

Anders 用于词性标注的半监督精简最近邻(Semi-supervisedcondensed nearest neighbor for part-of-speech tagging)。参见2011年计算语言学协会第49届年会的会议记录：人类语言技术第48-52页(In Proceedings of the 49thAnnual Meeting of the Association for Computational Linguistics:HumanLanguage Technologies,pp.48-52,2011)。

Anders 和Yoav Goldberg。在较低层监督低级别任务的深度多任务学习(Deep multi-task learning with low level tasks supervised at lower layers)。参见2016年计算语言学协会第54届年会的会议记录(卷2：短论文)第231-235页(InProceedings of the 54th Annual Meeting of the Association for ComputationalLinguistics(Volume 2:Short Papers),pp.231-235,2016)。

Ilya Sutskever，Oriol Vinyals和Quoc V Le。神经网络的序列到序列学习(Sequence to Sequence Learning with Neural Networks)。参见2014年神经信息处理系统进展(Advances in Neural Information Processing Systems 27),第3104-3112页。

Jun Suzuki和Hideki Isozaki。使用千兆字量表未标记数据的半监督顺序标记和分割(Semi-Supervised Sequential Labeling and Segmentation Using Giga-WordScale Unlabeled Data)。参见2008年第46届计算语言学协会年会：人类语言技术(InProceedings of the 46th,Annual Meeting of the Associationfor ComputationalLinguistics:Human Language Technologies)，第665-673页。

K.S.Tai，R.Socher和C.D.Manning。改进的树状结构长短期记忆网络的语义表示(Improved semantic representations from tree-structured long short-termmemory networks).2015a。

Kai Sheng Tai，Richard Socher和Christopher D.Manning。从树结构的长短期记忆网络改进语义表示(Improved Semantic Representations From Tree-StructuredLong Short-Term Memory Network)。参见计算语言学协会第53届年会和第7届国际自然语言处理联合会议的会议记录(In Proceedings of the 53rd Annual Meeting of theAssociation for Computational Linguistics and the 7th International JointConference on Natural Language Processing)(卷1:长论文)第1556-1566页,2015b。

Krishna Toutanova，Dan Klein，Christopher D Manning和Yoram Singer。具有循环依赖关系网络的功能丰富的部分语音标记(Feature-Rich Partof-Speech Taggingwith a Cyclic Dependency Network)。参见2003年计算语言学协会北美分会2003人类语言技术会议的会议记录(In Proceedings of the 2003Human Language TechnologyConference of the North American Chapter of the Association for ComputationalLinguistics)第173-180页。

Yoshimasa Tsuruoka，Yusuke Miyao和Jun'ichi Kazama。使用Lookahead学习：基于历史的模型能否与全局优化的模型相媲美？(Learning with Lookahead:Can History-Based Models Rival Globally Optimized Models？)参见2011年计算自然语言学习第十五次会议的会议记录(In Proceedings of the Fifteenth Conference onComputational Natural Language Learning)第238-246页。

David Weiss，Chris Alberti，Michael Collins和Slav Petrov。基于神经网络转换的解析的结构化训练(Structured Training for Neural Network Transition-BasedParsing)。参见2015年在计算语言学协会第53届年会和第7届国际自然语言处理联合会议的会议记录(In Proceedings of the 53rd Annual Meeting of the Association forComputational Linguistics and the 7th International Joint Conference onNatural Language Processing)(卷1：长论文)第323-333页。

John Wieting，Mohit Bansal，Kevin Gimpel和Karen Livescu。CHARAGRAM：通过字符n-gram嵌入词和语句(CHARAGRAM:Embedding Words and Sentences via Charactern-grams)。参见2016年出版的自然语言处理经验方法会议的会议记录(In Proceedings ofthe 2016Conference on Empirical Meth ods in Natural Language Processing)。

Wenpeng Yin，Hinrich Schtze，Bing Xiang和Bowen Zhou。ABCNN：基于注意的卷积神经网络建模语句对(ABCNN:Attention-Based Convolulional Neural Network forModeling Sentence Pairs)。计算语言学协会的议事录(Transactions of theAssociation for Computational Linguistics),4:259-272,2016。

Yao Zhou,Cong Liu和Yan Pan。用树形结构的注意编码器建模语句对(ModellingSentence Pairs with Tree-structured Attentive Encoder)。参见2016出版的第26届计算语言学国际会议的会议记录(In Proceedings of the 26th InternationalConference on Computational Linguistics)。

附录

A共享嵌入如何变化

在我们的JMT模型中，词和字符n-gram嵌入矩阵在所有五个不同的任务中共享。为了更好地定性地解释表7中所示的快捷连接的重要性，我们检查了共享嵌入在馈入不同的双向LSTM层时如何变化。更具体地说，我们在馈入前向LSTM层之前和之后针对词表示的余弦相似性方面检查了最近邻居。特别是，我们在方程(1)中使用了W_u的相应部分以执行输入嵌入的线性变换，因为u_t直接影响LSTM的隐藏状态。因此，这是一种与上下文无关的分析。

表10显示了“standing”一词的例子。“嵌入”行显示使用共享嵌入的情况，其他行显示使用线性变换嵌入的结果。在“仅词”栏中，显示仅使用词嵌入的结果。在“嵌入”的情况下，最接近的邻居捕获语义相似性，但是在馈入POS层之后，语义相似性几乎被淘汰。这并不奇怪，因为它足以聚集相同POS标注的词：这里，NN、VBG等。在语块划分层中，捕获动词方面的相似性，这是因为它足以识别粗糙的语块划分标注：这里，VP。在依赖性层中，最接近的邻居是副词、动词的动名词和名词，并且所有这些邻居都可以是依赖树中动词的子节点。但是，此信息不足以进一步对依赖性标签进行分类。然后我们看到在“词和字符”栏中，联合使用字符n-gram嵌入添加词法信息，并且如表8所示，LAS得分得到显着改善。

在语义任务的情况下，所投影的嵌入不仅捕获句法，而且捕获语义相似性。这些结果表明，不同的任务需要词相似性的不同方面，我们的JMT模型通过简单的线性变换有效地转换了不同任务的共享嵌入。因此，在没有快捷连接的情况下，关于词表示的信息在较低层中被转换之后将其馈送到语义任务中，在较低层中语义相似性并不总是重要的。实际上，没有快捷连接，语义任务的结果非常差。

表10：在嵌入空间中“standing”这个词的最近邻居和在每个前向LSTM中的投影空间

Claims

1.一种在硬件上运行的堆叠的LSTM序列处理器的训练方法，所述堆叠的LSTM序列处理器根据分析层级堆叠成至少三层，所述训练方法包括：

使用针对每层的训练示例通过后向传播训练第一层、第二层和第三层，同时在训练期间具有至下层的正则化的向下传递，包括：

使用第一层训练示例训练所述第一层；

使用第二层训练示例训练所述第二层，同时具有至所述第一层的正则化的向下传递训练；以及

使用第三层训练示例训练所述第三层，同时具有至所述第一层和所述第二层的正则化的向下传递训练；以及

通过约束训练目标函数使正则化的向下传递训练正则化，所述训练目标函数具有适应度函数，所述适应度函数具有至少两个正则化项；以及

所述两个正则化项通过惩罚应用于所述下层的系数矩阵的权重大小的增长来正则化，并且对应用于所述下层的系数矩阵中权重的所有变化进行连续地正则化。

2.如权利要求1所述的训练方法，其中所述适应度函数是基于负对数似然的交叉熵。

3.如权利要求1-2中任一项所述的训练方法，其中所述适应度函数是Kullback-Leibler散度(KL-散度)。

4.如权利要求1-3中任一项所述的训练方法，其中所述适应度函数是均方误差。

5.如权利要求1-4中任一项所述的训练方法，进一步包括根据所述堆叠的LSTM中的所述分析层级训练至少五层。

6.如权利要求1-5中任一项所述的训练方法，进一步包括根据所述堆叠的LSTM中的所述分析层级训练至少十层。

7.如权利要求1-6中任一项所述的训练方法，进一步所述堆叠的LSTM下方的基底层，与所述堆叠的LSTM分开训练，并产生所述堆叠的LSTM的最低层使用的输入。

8.如权利要求1-7中任一项所述的训练方法，进一步所述堆叠的LSTM上方的阁楼层，与所述堆叠的LSTM分开训练，并消耗所述堆叠的LSTM的最上层的输出。

9.一种用于将中间结果从双向LSTM的神经网络堆叠中的下层传送到叠加层的方法，其中堆叠具有对应于处理词条序列的分析框架的层，并且所述下层为每个词条产生分析框架标签向量，所述方法包括：

针对所述序列，使用所述下层分析所述词条，包括：

应用所述双向LSTM来计算每个词条的前向状态向量和后向状态向量；

将分类器应用于所述前向状态向量和所述后向状态向量，以将每个词条嵌入到分析框架标签空间中作为标签空间向量，其维度与可用分析框架标签的数目大致相同；以及

将每个词条的标签空间向量投影到扩展的维度标签空间中以产生扩展的词条标签向量，所述扩展的维度标签空间的维度与前向状态和后向状态的维度大致相同；以及

从所述下层向所述叠加层传送所述前向状态、所述后向状态和所述扩展的词条标签的向量，从而提供所述叠加层所需的输入，以在用于处理词条的所述分析框架中执行其角色。

10.如权利要求9所述的方法，进一步包括除了状态向量之外，将由所述下层接收的作为输入的向量通过旁路传送到所述叠加层。

11.如权利要求9-10中任一项所述的方法，其中所述下层在两个更深的层之上，还包括将由所述两个更深的层接收的作为输入的向量和由所述两个更深的层产生的作为输出的嵌入的标签向量通过旁路传送到所述叠加层。

12.如权利要求9-11中任一项所述的方法，其中可用分析框架标签的数量小于所述前向状态和所述后向状态的维度，从而形成维度瓶颈，当训练双向LSTM的所述神经网络堆叠时，所述维度瓶颈减少过度拟合。

13.如权利要求9-12中任一项所述的方法，其中可用分析框架标签的数量小于所述前向状态和所述后向状态的维度，从而形成维度瓶颈，当训练双向LSTM的所述神经网络堆叠时，所述维度瓶颈减少过度拟合。

14.一种在硬件上运行的多层神经网络系统，用于处理输入序列中的词条序列，所述系统包括：

在硬件上运行的LSTM词条序列处理器模块的堆叠，所述堆叠根据分析层级堆叠成层，具有旁路连接，所述旁路连接将下层的输入与所述下层的嵌入输出一起递送到叠加层，所述堆叠的层包括：

第一嵌入层；以及

堆叠在所述第一嵌入层上的第二嵌入层；

所述第一嵌入层包括双向LSTM和第一标签分类器，具有嵌入处理模块和标签向量产生模块，所述嵌入处理模块用于处理表示所述输入序列中的词条的词条嵌入，所述标签向量产生模块针对每个词条产生分析框架标签向量，其中所述双向LSTM计算每个词条的前向状态向量和后向状态向量；

所述第一嵌入层还包括输出端口，用于向所述第二嵌入层发送所述前向状态、所述后向状态和扩展的词条标签的向量，从而提供所述第二嵌入层所需的输入，以在用于处理词条的所述分析框架中执行其角色。

15.如权利要求14所述的系统，用于进一步处理所述前向状态向量和所述后向状态向量的所述嵌入处理模块将每个词条嵌入分析框架标签空间中作为标签空间向量，所述标签空间向量的维度与可用分析框架标签的数目大致相同。

16.如权利要求15所述的系统，所述第一嵌入层还包括扩展的嵌入处理模块，用于将每个词条的标签空间向量投影到扩展的维度标签空间中以产生扩展的词条标签向量，所述扩展的维度标签空间的维度与前向和后向状态的维度大致相同。

17.如权利要求14-16中任一项所述的系统，进一步包括到所述第二嵌入层的旁路，除了状态向量之外，所述旁路还传送由所述第一嵌入层接收的作为输入的向量。

18.如权利要求14-17中任一项所述的系统，其中所述第一嵌入层在两个更深的层之上，进一步包括向所述第二嵌入层传送由所述两个更深的层接收的作为输入的向量和由所述两个更深的层产生的作为输出的嵌入的标签向量的旁路。

19.如权利要求17所述的系统，其中所述旁路无需修改即可传送向量。

20.如权利要求14-19中任一项所述的系统，其中可用分析框架标签的数量小于所述前向状态和所述后向状态的维度，从而形成维度瓶颈，在训练双向LSTM的所述神经网络堆叠时，所述维度瓶颈减少过度拟合。

21.如权利要求15所述的系统，其中可用分析框架标签的数量小于所述前向状态和后向状态的维度，从而形成维度瓶颈，在训练双向LSTM的所述神经网络堆叠时，所述维度瓶颈减少过度拟合。