CN109923557B

CN109923557B - 使用连续正则化训练联合多任务神经网络模型

Info

Publication number: CN109923557B
Application number: CN201780068346.7A
Authority: CN
Inventors: 桥本和真; 熊蔡明; R·佐赫尔
Original assignee: Shuo Power Co
Current assignee: Shuo Power Co
Priority date: 2016-11-03
Filing date: 2017-11-03
Publication date: 2024-03-19
Anticipated expiration: 2037-11-03
Also published as: US20180121788A1; US11222253B2; CA3039386C; CN110192204A; CA3039551A1; JP7035042B2; JP2022105126A; CA3039517C; CN110192203A; JP7068296B2; US20210042604A1; CN110192203B; EP3535698A1; JP2022097590A; US20180121787A1; EP3535703A1; CA3039551C; JP2020500366A; CN109923557A; US20220083837A1

Abstract

所公开的技术提供了所谓的“联合多任务神经网络模型”，以在单个端到端模型中使用不断增长的层深度来解决各种日益复杂的自然语言处理(NLP)任务。通过考虑语言层级，将词表示直接连接到所有模型层，明确地使用较低任务中的预测，并应用所谓的“连续正则化”技术来防止灾难性遗忘，来连续训练该模型。较低级模型层的三个示例是词性(POS)标注层、语块划分层和依赖性解析层。较高级模型层的两个示例是语义相关性层和文本蕴涵层。该模型实现了关于语块划分、依赖性解析、语义相关性和文本蕴涵的最先进的结果。

Description

使用连续正则化训练联合多任务神经网络模型

其他申请的交叉引用

本申请要求于2016年11月3日提交的、申请号为62/417,269的美国临时专利申请“联合多任务模型(JOINT MANY-TASK MODEL)”(代理人案卷号为SALE 1182-1/1948PROV1)的权益。该优先权临时申请出于所有目的通过参考合并于此。该临时申请包括一份提供发明人工作的其他细节的技术论文；

本申请要求于2016年11月4日提交的、申请号为62/418,070的美国临时专利申请“联合多任务模型(JOINT MANY-TASK MODEL)”(代理人案卷号为SALE 1182-2/1948PROV2)的权益。该优先权临时申请出于所有目的通过参考合并于此。该临时申请包括一份提供发明人工作的其他细节的技术论文；

本申请要求于2017年1月31日提交的、申请号为15/421,431的美国非临时专利申请“使用连续正则化训练联合多任务神经网络模型(TRAINING A JOINT MANY-TASK NEURALNETWORK MODEL USING SUCCESSIVE REGULARIZATION)”(代理人案卷号SALE 1182-5/1948US3)的权益。该优先权非临时申请出于所有目的通过参考合并于此；

本申请要求于2017年1月31日提交的、申请号为15/421,407的美国非临时专利申请“用于多个自然语言处理(NLP)任务的联合多任务神经网络模型(JOINT MANY-TASKNEURAL NETWORK MODEL FOR MULTIPLE NATURAL LANGUAGE PROCESSING(NLP)TASKS)”(代理人案卷号SALE 1182-3/1948US1)的权益。该优先权非临时申请出于所有目的通过参考合并于此；以及

本申请要求于2017年1月31日提交的、申请号为15/421,424的美国非临时专利申请“通过多个语言任务层级处理数据的深度神经网络模型(DEEP NEURAL NETWORK MODELFOR PROCESSING DATA THROUGH MUTLIPLE LINGUISTIC TASK HIERARCHIES)”(代理人案卷号SALE 1182-4/1948US2)的权益。该优先权非临时申请出于所有目的通过参考合并于此。

技术公开的技术领域

所公开的技术总地涉及使用深度神经网络进行自然语言处理(NLP)的架构，尤其涉及使用端到端可训练的联合多任务神经网络模型的多任务学习。该体系架构可扩展到其他多层分析框架和任务。

背景技术

不应仅仅因为在本节中提及本节中讨论的主题而将其假定为是现有技术。类似地，本节中提到的问题或与背景技术中提供的主题相关联的问题不应被假定为现有技术中之前已经认识到。本节中的主题仅表示不同的方法，这些方法本身也可以对应于所要求保护的技术的实现。

传输和多任务学习传统上集中在单个源-目标对或非常少的类似任务上。理想情况下，词法、语法和语义的语言水平将通过在单个模型中训练而彼此受益。所公开的技术提供了所谓的“联合多任务神经网络模型”，以在单个端到端模型中使用不断增长的层深度来解决各种日益复杂的自然语言处理(NLP)任务。该模型通过考虑语言层级结构，将词表示直接连接到所有模型层，明确地使用较低任务中的预测，以及应用所谓的“连续正则化”技术来防止灾难性遗忘来连续训练。较低级模型层的三个示例是词性(POS)标注层、语块划分层和依赖性解析层。较高级模型层的两个示例是语义相关性层和文本蕴涵层。该模型实现了关于语块划分、依赖性解析、语义相关性和文本蕴涵的最先进的结果。

附图的简要说明

在附图中，相同的附图标记在不同视图中通常指代相同的部分。而且，附图不一定按比例绘制，而是通常将重点放在说明所公开的技术的原理上。在以下描述中，参考以下附图描述所公开的技术的各种实施方式，其中：

图1A示出了在连续层处执行越来越复杂的NLP任务的联合多任务神经网络模型的各方面。

图1B和图1C示出了可用于实现联合多任务神经网络模型的各种模块。

图2A描绘了在本文中用于对输入词(尤其是未知词)进行鲁棒性编码的联合嵌入技术。

图2B示出了表明使用字符n-gram嵌入导致改善了对未知词的处理的各种表。

图3示出了维度投影的一种实现方式。

图4A示出了联合多任务神经网络模型的POS层的操作的一种实现方式。

图4B包括示出了联合多任务神经网络模型的POS标注结果的表。

图5A示出了联合多任务神经网络模型的语块划分层的操作的一种实现方式。

图5B包括示出了联合多任务神经网络模型的POS标注的结果的表。

图6A示出了依赖性解析层的操作的一种实现方式。

图6B、图6C、图6D、图6E和图6F示出了依赖性解析层的注意力编码器的操作的一种实现方式。

图6G示出了依赖性解析层的依赖性关系标签分类器的操作的一种实现方式。

图6H示出了模型在其上应用依赖性解析的两个示例语句。

图6I包括示出模型的依赖性解析层的结果的表。

图7A示出了语义相关性层的一种实现方式。

图7B包括示出语义相关性任务的结果的表。

图8A示出了蕴涵层的一种实现方式。

图8B包括示出蕴涵任务的结果的表。

图9A示出了训练堆叠的LSTM序列处理器的一种实现方式，该堆叠的LSTM序列处理器根据分析层级堆叠至少三层。

图9B包括表明连续正则化技术的有效性的表。

图10包括示出五个不同NLP任务上的测试集的结果的表。

图11是可用于实现联合多任务神经网络模型的计算机系统的简化框图。

详细描述

呈现以下讨论以使得本领域技术人员能够制造和使用所公开的技术，并且在特定应用及其要求的背景下提供以下讨论。对于本领域技术人员来说，所公开的实现的各种修改是显而易见的，并且在不脱离所公开的技术的精神和范围的情况下，这里定义的一般原理可以应用于其他实现和应用。因此，所公开的技术不旨在限于所示的实现方式，而是与符合本文公开的原理和特征的最宽范围相一致。

介绍

在自然语言处理(NLP)领域中以多种方式使用多个级别的语言表示。例如，词性(POS)标注由句法解析器应用。POS标注改进了较高级别的任务，例如自然语言推理，关系分类，情感分析或机器翻译。但是，较高级别的任务通常不能改进较低级别的任务，这通常是因为系统是单向传输管线而不是端到端的训练。

在深度学习中，受监督的词和语句语料库通常用于针对后续任务将循环神经网络(RNN)进行初始化。然而，由于没有经过联合训练，深度NLP模型尚未显示出堆叠越来越复杂的语言任务层的好处。相反，现有模型通常设计为完全单独或在相同深度预测不同任务，忽略语言层级结构。

所公开的技术的总体主题是所谓的“联合多任务神经网络模型”，其在连续层处执行越来越复杂的NLP任务。与传统的NLP管线系统不同，对联合多任务神经网络模型进行端到端地训练以用于POS标注、语块划分和依赖性解析。它可以进一步关于语义相关性、文本蕴涵和其他更高级别的任务进行端到端的训练。在单个端到端实现中，该模型获得关于语块划分、依赖性解析、语义相关性和文本蕴涵的最先进的(state-of-the-art)结果。它还在POS标注上具有竞争力。此外，模型的依赖性解析层依赖于单个前馈传递，并且不需要定向搜索(beam search)，这增加了并行化并提高了计算效率。

为了允许联合多任务神经网络模型在深度上增长的同时避免灾难性遗忘，我们还公开了所谓的“连续正则化(successive regularization)”技术。连续正则化允许模型权重的多层训练以改善一个NLP任务的损失，而不会表现出其他任务的灾难性干扰。通过避免任务之间的灾难性干扰，该模型允许较低和较高级别的任务受益于联合训练。

为了改善联合多任务神经网络模型中的泛化和减少过度拟合，我们进一步公开了所谓的“维度投影(dimensionality projection)”技术。维度投影包括将神经网络分类器的低维输出投影到高维向量空间中。从低维空间到高维空间的这种投影产生了维度瓶颈，从而减少了过度拟合。

为了对提供给联合多任务神经网络模型的输入词，特别是未知词，进行鲁棒性编码，我们公开了一种“联合嵌入(joint-embedding)”技术。联合嵌入包括使用词的词嵌入和词的字符n-gram嵌入的组合来表示输入词。联合嵌入有效地编码形态特征和关于未知词的信息。

联合多任务神经网络模型

图1A示出了在连续层处执行越来越复杂的NLP任务的联合多任务神经网络模型100的各方面。在实现中，模型100是堆叠的长短期记忆(“LSTM”)语句处理器，其根据语义层级堆叠成层，具有旁路连接，其将下层的输入与下层的嵌入输出一起递送到叠加层(overlying layer)。语言层级从语句中的词(例如，语句₁，或语句₂)构建出词性、语句的语块(chunk)、词和它们的依赖性父项(dependency parent)之间的依赖性链接、依赖性链接上的标签。在图1A所示的示例中，模型100包括具有类似架构的两个LSTM堆叠(即，堆叠a和堆叠b)。在一个实现中，模型100仅包括一个LSTM堆叠。在另一实现中，模型100包括两个以上的LSTM堆叠(例如，3、4、10个等)。

在模型100中，堆叠的层包括词性(POS)标签嵌入层(例如，104a或104b)，叠加(overlying)在POS标签嵌入层上的语块/语块划分标签嵌入层(例如，106a或106b)；以及叠加在语块标签嵌入层上的依赖性父项标识和依赖性关系标签嵌入层(例如，108a或108b)。

POS标签嵌入层实现为使用POS标签分类器的双向LSTM。它处理表示输入语句中的词的词嵌入向量(例如，102a或02b)，并针对每个词产生POS标签嵌入向量和POS状态向量。

语块标签嵌入层实现为使用语块标签分类器的双向LSTM。它至少处理词嵌入向量、POS标签嵌入向量和POS状态向量，以产生语块标签嵌入和语块状态向量。

依赖性父项标识和依赖性关系标签嵌入层被实现为使用一个或更多个分类器的双向LSTM。它处理词嵌入、POS标签嵌入、语块标签嵌入和语块状态向量，以识别语句中每个词的依赖性父项，以产生词和词的各自潜在父项之间的依赖性关系标签或关系的标签嵌入。

此外，POS标签嵌入向量、语块标签嵌入向量和依赖性关系标签嵌入向量的维度是相似的，在+/-10％之内。

在一些实现方式中，模型100包括输出处理器，该输出处理器至少输出反映依赖性父项的标识的结果以及用于语句中的词的依赖性关系标签嵌入的产生。在图1A所示的示例中，可以将相关性编码器(例如，110a或110b)视为向相关性层(例如，112)提供依赖性关系标签嵌入的外部处理器。相关性层提供第一和第二语句之间的相关性的类别分类，并经由蕴涵编码器(例如，114a或114b)将分类递送给蕴涵层(例如，116)。蕴涵层输出第一和第二语句之间的蕴涵的类别分类。在实现中，相关性层和蕴涵层用作输出处理器。

关于旁路连接，旁路连接将下层使用的输入向量提供给叠加层而不进行修改。在图1A所示的示例中，“类型2”旁路连接向模型100中的每个层直接提供词表示。在旁路连接的另一示例中，“类型3”旁路连接将在POS标签嵌入层处生成的POS标签嵌入向量提供给每个叠加层。在旁路连接的另一示例中，“类型4”旁路连接将在语块标签嵌入层处生成的语块标签嵌入提供给每个叠加层。

模型100还包括将来自下层的信息仅递送到连续的叠加层的连接。例如，“类型5”连接向蕴涵层提供在语义相关性层处计算的第一和第二语句之间的相关性的类别分类。“类型6”连接输出来自蕴涵层的第一和第二语句之间的蕴涵的类别分类。而且，“类型1”连接仅向连续的叠加层提供在给定层处生成的隐藏状态向量。

图1A中的组件可以以硬件或软件实现，并且不需要以与图1A所示的完全相同的框进行划分。一些组件也可以在不同的处理器或计算机上实现，或者在许多不同的处理器或计算机之间传播。另外，应当理解，一些组件可以组合、并行操作或以与图1A所示不同的顺序操作，而不影响所实现的功能。同样如本文所用，术语“组件”可包括“子组件”，其本身在本文中可视为构成组件。例如，在此也可以将POS标签嵌入层和语块标签嵌入层认为是“词级处理器”组件的子组件。类似地，在此也可以将依赖性父项标识和依赖性关系标签嵌入层认为是“句法级处理器”组件的子组件。同样地，在本文中也可以将语义相关性层和蕴涵层认为是“语义级处理器”组件的子组件。此外，也可以将图1A中的框认为是方法中的流程图步骤。组件或子组件也不一定必须将其所有代码连续地放置在存储器中；代码的某些部分可以用来自其他组件或子组件或其间设置的其他功能的代码与代码的其他部分分开。

在一些实现中，模型100是堆叠的LSTM词条(token)序列处理器，其根据分析层级堆叠成层，具有旁路连接，其将下层的输入与下层的嵌入输出一起递送到叠加层。在这样的实现中，模型100的堆叠的层包括第一嵌入层、叠加在第一嵌入层上的第二嵌入层以及叠加在第二嵌入层上的第三嵌入层。

在一个实现中，模型100的第一嵌入层(实现为双向LSTM和第一标签分类器)处理表示输入序列中的词条的词条嵌入，并产生词条的第一嵌入和第一状态向量。在一个实现中，模型100的第二嵌入层(实现为双向LSTM和第二标签分类器)至少处理词条嵌入、第一标签嵌入和第一状态向量，以产生第二标签嵌入和第二状态向量。在一个实现中，模型100的第三嵌入层(实现为双向LSTM)至少处理词条嵌入、第一标签嵌入、第二标签嵌入和第二状态向量，以产生第三标签嵌入和第三状态向量。在一个实现中，模型100的输出处理器至少输出反映输入序列中的词条的第三标签嵌入的结果。

在一些实现中，第一嵌入层通过第一状态向量的指数归一化进一步产生第一标签概率质量向量，并从第一标签概率质量向量产生第一标签嵌入向量。在一些实现中，第二嵌入层还通过第二状态向量的指数归一化产生第二标签概率质量向量，并从第二标签概率质量向量产生第二标签嵌入向量。在一些实现中，第三嵌入层还通过第三状态向量的指数归一化产生第三标签概率质量向量，并从第三标签概率质量向量产生第三标签嵌入向量。在实现中，第一标签嵌入向量、第二标签嵌入向量和第三标签嵌入向量的维度是相似的，在+/-10％之内。

在一个实现中，模型100包括在第一标签嵌入层下面的词条嵌入处理器，其包括词条嵌入器和分解的词条嵌入器。词条嵌入器在序列中的词条被识别出时将其映射到由词条嵌入向量表示的词条嵌入空间中。分解的词条嵌入器以多个尺度处理词条的词条分解，将每个经处理的词条分解映射到表示词条分解嵌入空间中的位置的中间向量，并且组合用于每个唯一经处理的词条分解的中间向量，以产生每个词条的词条分解嵌入向量。词条嵌入处理器组合词条嵌入器和分解的词条嵌入器的结果，由此先前未映射到词条嵌入空间的词条仍由词条分解嵌入向量表示。

联合嵌入

图2A描绘了用于对输入词，尤其是未知词，进行鲁棒性编码的联合嵌入技术200。联合嵌入包括，针对长度为L的输入序列S中的每个词w_t，通过串联(concatenating)词W_t的词嵌入210和词W_t的一个或更多个字符n-gram嵌入(在此也称为“n-character-gram”嵌入)来构造所谓的“词表示”222。在图2A中，串联操作由“+”符号表示。

关于词嵌入，模型100包括词嵌入器202，其训练词嵌入矩阵以创建词嵌入空间204。在一个实现中，词嵌入器202使用连续跳跃元语法(skip-gram)模型来训练词嵌入矩阵。在另一个实现中，它使用连续词袋(CBOW)模型来训练词嵌入矩阵。在实现中，词嵌入矩阵在模型100的所有NLP任务上共享。在一些实现中，将未包括在词汇表中的词映射到特殊的“UNK”词条。

关于字符n-gram嵌入，模型100包括字符嵌入器206，其训练字符嵌入矩阵以创建字符嵌入空间208。在一个实现中，字符嵌入器206使用skip-gram模型来训练词嵌入矩阵。在另一个实现中，它使用连续词袋(CBOW)模型来训练字符嵌入矩阵。在实现中，使用与词向量相同的skip-gram目标函数来学习字符n-gram嵌入。

字符嵌入器206，在此也称为“n-character-gram嵌入器”，构造训练数据中字符n-gram的词汇表，并为每个字符n-gram分配嵌入。在图2A所示的示例中，字符嵌入空间208包括1-gram嵌入212，2-gram嵌入214，3-gram嵌入216和4-gram嵌入218。在其他实现中，它包括用于不同的、附加的和/或更少的n-grams的嵌入。

最终字符嵌入220逐元素地组合表示词w_t的唯一字符n-gram嵌入的向量。例如，词“Cat”的字符n-gram(n＝1，2，3)是{C，a，t，#BEGIN#C，Ca，at，t#END#，#BEGIN#Ca，Cat，at#END#}，其中“#BEGIN#”和“#END#”分别代表每个词的开头和结尾。表示这些子串的向量的逐元素组合可以是逐元素平均值或最大值。字符n-gram嵌入的使用有效地提供了关于未知词的形态特征和信息。因此，每个词被表示为词表示X_t 222，其为对应的词嵌入210和字符嵌入220的串联。

在实现中，词嵌入器202和字符嵌入器206是所谓的“词嵌入处理器”的一部分。POS标签嵌入层叠加在词嵌入处理器上。当语句中的词被识别出时，词嵌入器202将其映射到由词嵌入向量表示的词嵌入空间204中。n-character-gram嵌入器206在子串长度的多个尺度下处理词的字符子串，将每个经处理的字符子串映射到表示字符嵌入空间208中的位置的中间向量，并组合每个唯一经处理的字符子串的中间向量，以为每个词产生字符嵌入向量。词嵌入处理器组合词嵌入器202和n-character-gram嵌入器206的结果，由此先前未映射到词嵌入空间的词由字符嵌入向量表示。对未知词或词汇表外(OoV)词的处理很好地适用于其他NLP任务，例如问答。

在一些实现中，n-character-gram嵌入器206组合中间向量以产生字符嵌入向量的逐元素的平均值。

除了词嵌入向量之外，POS标签嵌入层还进一步处理表示输入语句中的词的n-character-gram嵌入向量，并且旁路连接进一步将n-character-gram嵌入向量递送至语块标签嵌入层和依赖性父项和依赖性关系标签嵌入层，作为那些叠加层中的相应双向LSTM的输入。

关于训练，根据一种实现方式，使用具有负抽样的skip-gram或CBOW模型训练词嵌入。字符n-gram嵌入也类似地训练。在一些实现中，词嵌入的训练与字符n-gram嵌入之间的一个区别是将skip-gram模型中的每个输入词替换为其对应的字符n-gram嵌入的平均嵌入。而且，在模型100的联合训练期间微调这些嵌入，使得在反向传播期间，梯度用于更新相应的字符nH-gram嵌入。嵌入参数表示为“θ_e”。

在一个实现中，字符n-grams的词汇表建立在训练语料库，区分大小写的英语维基百科文本上。这种区分大小写的信息在处理某些类型的词(如命名实体)时很重要。假设词W_t具有其对应的K字符n-grams{cn1,cn2,.....,cnK}，其中删除了任何重叠和未知条目。然后，用嵌入v_c(w)表示该词W_t，计算如下：

其中v(cn_i)是字符n-gram cn_i的参数化嵌入。

此外，对于训练语料库中的每个词-上下文对N个负上下文词被采样，目标函数定义如下：

其中σ(·)是逻辑sigmoid函数，是上下文词的权重向量，/>是负样本。

图2B示出了表明使用字符n-gram嵌入结果改进了对未知词的处理的各种表。这在图2B的表224中表明，其示出了具有和不具有预训练字符n-gram嵌入的三个单个任务(POS标注、语块划分和依赖性解析)的结果。“W&C”列对应于使用词和字符n-gram嵌入两者，而“Only W”对应于仅使用词嵌入。这些结果清楚地表明，联合使用预训练的词和字符n-gram嵌入有助于改善结果。字符n-gram嵌入的预训练也是有效的；例如，没有预训练的情况下，POS精度从97.52％下降到97.38％，语块精度从95.65％下降到95.14％，但它们仍然优于单独使用word2vec嵌入的情况。

图2B的表226示出了就未知词的准确性而言，词和字符n-gram嵌入的联合使用将得分提高了约19％。图2B的表228示出了在具有和不具有字符n-gram嵌入的开发集上的依赖性解析得分，其聚焦于未知词的UAS和LAS。UAS代表未加标签的附件得分。LAS代表加标签的附件得分。UAS研究依赖性树的结构，并评估输出是否具有正确的头部和依赖性关系。除了UAS中的结构得分之外，LAS还测量在每个依赖性关系上的依赖性标签的准确性。表228清楚地表明使用字符级信息是有效的，并且特别地，LAS得分的改善很大。

维度投影

图3示出了维度投影300的一种实现方式。维度投影包括将来自下层的中间结果传送到双向LSTM的神经网络堆栈中的叠加层，其中堆叠具有对应于处理词条序列的分析框架的层，并且下层产生每个词条的分析框架标签向量。

在图3中，隐藏状态向量314由神经网络(例如LSTM或双向LSTM)或者任何其他RNN生成。隐藏状态向量314在高维向量空间302中编码并且具有1×|E|的维数，其被逐元素地识别为{d₁,d₂,...,d_j,....,d_|E|,}，d表示个体维度并且子脚本表示维度的序数位置。在一个示例中，|E|＝200。在一个示例中，分类器304将隐藏状态向量314作为具有与可用框架标签的数目相同数量的维度的标签空间向量分类到分析框架签注空间306。分析框架标签空间306编码语言意义。例如，如果POS标签嵌入层具有二十个标签，则α＝20。在一个实现中，分类器304仅包括维数减少矩阵W_α。在另一实现中，除了维数减少权重矩阵W_α之外，分类器304包括指数归一化器308(例如，分类器(softmax))，它还对由维数减少权重矩阵W_α产生的标签空间向量进行归一化。

一旦创建，低维标签空间向量由维度增强权重矩阵W_l 310投影到扩展的维度标签空间312中，以产生扩展的词条标签向量316。扩展的维度标签空间312是高维向量空间。因此，与隐藏状态向量314一样，也将标签向量316映射到高维向量空间并且其具有1×|E|的维度，其被逐元素地识别为{l₁,l₂,...,l_j,....,l_|E|,}，l表示个体维度，子脚本表示维度的序数位置。注意，标签向量316具有与隐藏状态向量314的维度大致相同的维度。大致相同，我们的意思是在+/-10％以内。维度没有必要是相同的，但当它们是相同的时候编程可以更容易。

模型100在处理的各个阶段使用维度投影。在一个实现中，使用它来将POS标签嵌入投影在更高维空间中，使得低维POS分析标签空间向量投影到向量空间中，其中它们具有与用于生成它们的POS隐藏状态向量相同的维度。在另一实现中，模型100使用维度投影将语块标签嵌入投影在更高维空间中，使得低维语块分析标签空间向量被投影到向量空间中，其中它们与用于生成它们的语块隐藏状态向量具有相同的维度。同样，在其他实现中，其他层使用维度投影。

在一个实现中，当可用分析框架标签的数量是隐藏状态向量314的维度的五分之一或更小时，标签空间向量316用作维度瓶颈(dimensionality bottleneck)，其在训练模型100时减少过度拟合。在另一实现中，当可用分析框架标签的数量是隐藏状态向量314的维度的十分之一或更小时，标签空间向量316用作维度瓶颈，其在训练模型100时减少过度拟合。

维度瓶颈也可以改进其他NLP任务的处理，例如机器翻译。

词级任务-POS标注

图4A示出了模型100的POS层400的操作的一种实现。

POS标签嵌入层(在此也称为“POS层”)通过POS状态向量(例如，408)的指数归一化(例如，具有单个ReLU层的softmax 406)产生POS标签概率质量向量(例如，404)，并从POS标签概率质量向量产生POS标签嵌入向量(例如，402)。

在一个实现中，模型100的POS标签嵌入层400是双向LSTM 410，其隐藏状态用于预测POS标注。在一个实现中，以下LSTM单元用于前向传递方向：

i_t＝σ(W_ig_t+b_i)，

f_t＝σ(W_tg_t+b_f)，

o_t＝σ(W_og_t+b_o)，

u_t＝tanh(W_ug_t+b_u)，

c_t＝i_t⊙u_t+f_t⊙c_t-1，

h_t＝o_t⊙tanh(c_t)，

其中输入g_t定义为g_t＝[h_t-1；x_t]，即之前的隐藏状态和词表示x_t的串联。LSTM在词上的后向传递以相同的方式扩展，但具有不同的权重集。

为了预测w_t的POS标注，前向和后向状态的串联用于对应于第t个词的一层双LSTM层：然后将每个h_t(1≤t≤L)馈送到具有单个ReLU层的指数归一化器，其输出每个POS标注的概率向量y^(pos)。

图4B包括示出模型100的POS标注的结果的表。模型100获得接近最先进结果的得分。

词级任务-语块划分

图5A示出了模型100的语块划分层500的操作的一种实现。

语块划分也是词级分类任务，其为每个词分配语块划分标注(B-NP，I-VP等)。标注指定语句中主要短语(或语块)的区域。

语块标签嵌入层500(在本文中也称为“语块划分层”)还通过语块标签状态向量(例如，508)的指数归一化器(例如，具有单个ReLU层的softmax 506)产生语块标签概率质量向量(例如，504)，和从语块标签概率质量向量产生语块标签嵌入向量(例如，标签概率质量向量)。

在模型100中，使用POS层顶部上的第二双LSTM层510来执行语块划分。堆叠双LSTM层时，向LSTM单元提供以下输入：

其中是第一POS层的隐藏状态。权重标签嵌入/>的定义如下：

其中C是POS标注的数量，是第j个POS标注分配给词W_t的概率质量，以及l(j)是相应的标签嵌入。如前所述，标签嵌入可以处于比概率质量更高的维度。概率值由POS标签嵌入层自动预测，就像内置的POS标注器一样，因此在某些实现中不需要黄金(gold)POS标注。

为了预测语块划分标注，通过使用在语块划分层中串联的双向隐藏状态来采用与POS标注类似的策略。在一些实现中，在指数分类器之前使用单个ReLU隐藏层。

图5B包括示出模型100的POS标注的结果的表。模型100实现了最先进的结果，这表明除了更高级别的任务之外，还通过联合学习改进了较低级别的任务。

句法任务-依赖性解析

图6A示出了模型100的依赖性解析层600的操作的一种实现。

依赖性解析识别语句中的词对之间的句法关系(例如形容词修饰名词)。

依赖性父项标识和依赖性关系标签嵌入层600(在此也称为“依赖性层或依赖性解析层”)，通过由双向LSTM 604产生的父项标签状态向量602的指数归一化和分类产生父标签概率质量向量(在此也称为“依赖性父项分析器”)。依赖性解析层从父标签概率质量向量产生父标签嵌入向量，通过父标签状态向量和父标签嵌入向量的指数归一化和分类产生依赖性关系标签概率质量向量，并从依赖性关系标签概率质量向量产生依赖性关系标签嵌入向量。

依赖性父项分析器604处理输入语句中的词，包括针对每个词、词嵌入、POS标签嵌入、语块标签嵌入和语块状态向量进行处理，以累积表示语句中词之间的相互作用的前向和后向进展的前向和后向状态向量602。

图6B、图6C、图6D、图6E和图6F示出了依赖性解析层600的注意力编码器610的操作的一个实现。在将线性变换608应用于该词或另一词的前向和后向状态向量602之后，注意力编码器610处理语句中的每个相应词的前向和后向状态向量602，以将注意力编码为每个相应词与语句中的其他词之间的内积612，由此线性转换中的权重606是可训练的。在一些实现中，注意力编码器610使用哨兵向量622来对根词进行编码。

注意力编码器610还将指数归一化器614应用于内积612的向量616，以产生父标签概率质量向量618并投影父标签概率质量向量以根据父标签概率质量向量618通过混合或计算前向和后向状态向量602的线性变换的加权和620来产生父标签嵌入向量。

图6G示出了依赖性解析层的依赖性关系标签分类器626的操作的一种实现。依赖性关系标签分类器626，针对语句中的每个相应词，对前向和后向状态向量602和父标签嵌入向量624进行分类和归一化(使用诸如softmax 628的另一指数归一化器)，以产生依赖性关系标签概率质量向量630，并投影依赖性关系标签概率质量向量630以产生依赖性关系标签嵌入向量632。

如上所述，对于依赖性解析，模型100在POS和语块层之上使用第三双LSTM层604来对所有词对之间的关系进行分类。如图6A所示，用于依赖性解析LSTM的输入向量包括用于两个之前任务的隐藏状态、词表示102和标签嵌入402和502：

其中，以与上述等式(1)中的POS向量类似的方式计算语块划分向量。POS和语块划分标注402和502用于改进依赖性解析。

与哨兵标注任务类似，模型100针对语句中的每个词预测父节点，在此也称为“头部”。然后，为每个子父节点对预测依赖性标签。为了预测词W_t的第t个的父节点，模型100定义了词W_t和父节点的候选之间的匹配函数612(基于点积/内积或双线性乘积)：

其中W_d是参数矩阵。如上所述，对于根节点，模型100定义作为参数化的哨兵向量622。如上所述，为了计算W_j(或根节点)是W_t的父节点的概率，使用指数归一化器(例如，softmax 614)对得分进行归一化，如下所示：

其中L是语句长度。

接下来，使用作为另一个指数归一化器(例如，具有单个ReLU层的softmax 628)的输入来预测依赖性标签。在测试时间，在一个实现中，为语句中的每个词贪婪地选择父节点和依赖性标签。也就是说，模型100在POS标签嵌入层、语块标签嵌入层或依赖性父项标识和依赖性关系标签嵌入层中没有定向搜索的情况下操作。该结果是因为模型100逐字地计算标签嵌入，这增加了并行化并且改进了计算效率，因为它避免了通常由定向搜索引起的冗余和计算延迟。此外，在依赖性解析期间，逐字计算允许模型100校正任何错误加标签的根，使得如果词被预测为其自身的根，则模型100可以将其检测为不正确的预测并且可以自动计算该词的新正确预测。

在一个实现中，模型100假设语句中的每个词仅具有一个父节点。在另一实现中，模型100假设每个词可以具有多个父节点并使用类似循环图的计算产生依赖性标签。在训练时间，模型100使用黄金(gold)或地面实况(ground truth)子父对来训练标签预测器。

图6H示出了模型100对其应用依赖性解析的两个示例语句。在示例(a)中，将两个粗体字“劝告(counsels)”和“需要(need)”预测为根节点的子节点，并且带下划线的词“劝告(counsels)”是基于黄金注释的正确词。在示例(b)中，没有一个词连接到根节点，并且根的正确子节点是带下划线的词“董事长(chairman)”。模型100使用单个参数化向量r来表示每个语句的根节点并捕获各种类型的根节点。在一些实现中，模型100使用依赖于语句的根表示。

图6I包括示出模型100的依赖性解析层的结果的表。Model 100实现了最先进的结果。注意，模型100的贪婪依赖性解析器优于基于具有全局信息的定向搜索的前期最新结果。这表明模型100的双-LSTM有效地捕获依赖性解析所需的全局信息。

语义任务-语义相关

图7A示出了模型100的语义相关性层700的操作的一种实现。

模型100的接下来的两个NLP任务对两个输入语句之间的语义关系进行编码。第一个任务是测量两个语句之间的语义相关性。语义相关性层的输出是输入语句对的实值相关性得分。第二项任务是文本蕴涵任务，其要求人们确定前提语句是否蕴涵假设语句。这些通常是三类：蕴涵、矛盾和中立。

这两个语义任务彼此密切相关。在实现中，良好的语义相关性由低语义相关性得分表示。因此，如果两个语句之间的语义相关性得分非常低，即两个语句具有高语义相关性，则它们可能彼此蕴涵。基于这种直觉并利用来自较低层的信息，模型100分别使用第四和第五双LSTM层用于相关性和蕴涵任务。

由于这些任务需要语句级表示而不是前面任务中使用的词级表示，因此模型100计算语句级表示作为在第四层中所有词级表示上的逐元素的最大值，如下：

其中L是语句的长度。

为了建模s和s’之间的语义相关性，将特征向量计算如下：

其中是逐元素相减的绝对值，以及/>是逐元素相乘。这两个操作都可以视为两个向量的两个不同的相似性度量。然后，将d₁(s,s')被馈送到具有单个Maxout隐藏层722的指数归一化器(例如，softmax)，以输出语句对的相关得分(例如，在1和5之间)。Maxout隐藏层722包括多个线性函数(例如，池大小为4)，每个线性函数生成d₁(s,s')的非线性投影，从而将最大非线性投影馈送到指数归一化器。

转到图7A，具有双向LSTM 702的语义相关性层700叠加在依赖性父项标识和依赖性关系标签嵌入层600上，还包括相关性向量计算器720和相关性分类器714。相关性向量计算器720计算第一和第二语句中的每一个的语句级表示708a和708b，包括针对各个语句中的每个词的前向和后向状态向量704的双向LSTM计算和针对各个语句中的词的前向和后向状态向量704的逐元素的最大池化计算706，以产生表示各个语句的语句级状态向量708a和708b。替代实现可以使用平均池化。然后，相关性向量计算器720进一步计算由相关性分类器714处理的逐元素的语句级相关性向量712，以导出第一和第二语句之间的相关性的类别分类。在一些实现中，相关性向量计算器报告类别分类以用于进一步处理，例如用于生成的相关性标签嵌入718。

相关性向量计算器720包括特征提取模块716，其计算第一和第二语句的语句级相关性向量708a和708b之间的逐元素的差，计算第一和第二语句的语句级相关性向量708a和708b之间的逐元素的乘积，以及使用逐元素的差的绝对值和逐元素的乘积的向量作为相关性分类器714的输入。

图7B包括示出语义相关性任务的结果的表。模型100实现了最先进的结果。

语义任务-文本蕴涵

对于两个语句之间的蕴涵分类，模型100还使用与语义相关的任务中的最大池化技术。为了将前提假设对(s，s')分类为三个类别之一，模型100计算特征向量d₂(s,s')，如等式(2)，除了它不使用逐元素相减的绝对值，以便识别哪个是前提(或假设)。然后，将d₂(s,s')馈送到具有多个Maxout隐藏层(例如，三个Maxout隐藏层)822的指数归一化器(例如，softmax)。

Maxout隐藏层将多个线性函数和非线性激活应用于输入并选择最佳结果。当多个Maxout隐藏层布置在堆栈中时，前一个Maxout隐藏层的最大输出将作为输入提供给连续的Maxout隐藏层。堆叠中的最后一个Maxout隐藏层的最大输出提供给指数归一化器以进行分类。注意，时间最大池化仅逐元素地评估多个输入向量的各个维度，并为每个序数位置选择最大维度值以在最大池化向量中编码。相比之下，Maxout隐藏层使输入向量经受多个非线性变换，并仅选择具有最大维度值的一个线性变换。

为了直接使用相关层的输出，模型100使用标签嵌入来进行相关性任务。模型100计算语义相关任务的类别标签嵌入，类似于等式(1)。串联并馈入蕴涵分类器的最终特征向量是加权相关性嵌入和特征向量d₂(s,s')。

转到图8A，蕴涵层800具有叠加在语义蕴涵层800上的双向LSTM 802，还包括蕴涵向量计算器820和蕴涵分类器814。蕴涵向量计算器820计算第一和第二语句中的每一个的语句级表示808a和808b，包括针对各个语句中的每个词的前向和后向状态向量804的双向LSTM计算以及针对各个语句中的词的前向和后向状态向量804逐元素的最大池化计算806，以产生表示各个语句的语句级状态向量808a和808b。替代实现可以使用平均池化。然后，蕴涵向量计算器820还计算由蕴涵分类器814处理的逐元素的语句级蕴涵向量812，以导出第一和第二语句之间的蕴涵的类别分类。在一些实现方式中，蕴涵向量计算器报告用于进一步处理的类别分类，例如用于生成的蕴涵标签嵌入818。

蕴涵向量计算器820包括特征提取模块816，其计算第一和第二语句的语句级蕴涵向量808a和808b之间的逐元素的差，计算第一和第二语句的语句级蕴涵向量808a和808b之间的逐元素的乘积，并使用逐元素的差的绝对值和逐元素的乘积的向量作为蕴涵分类器814的输入。

图8B包括示出文本蕴涵任务的结果的表。Model 100实现了最先进的结果。

训练-连续正则化

在NLP任务中，多任务学习具有不仅可以改进较高级别的任务，还可以改进较低级别的任务的潜力。不是将预先训练的模型参数视为固定的，而是所公开的连续正则化允许模型100连续训练较低级别的任务而不会发生灾难性的遗忘。

模型100在所有数据集上联合训练。在每个时期期间，优化以与上述相应任务相同的顺序对每个完全训练的数据集进行迭代。

训练POS层

POS层400的一个训练语料库是Penn Treebank的华尔街日报(WSJ)部分。该语料库包括用POS标注标记的词条。在POS层400的训练期间，L2范数正则化应用于POS层400的层参数，因为它是当前层。连续正则化应用于仅一个下层的层参数，即嵌入层，其包括词嵌入空间204和字符嵌入空间208。

使θ_pos＝(W_pos,b_pos,θ_e)指示与POS层400相关联的模型参数集，其中W_pos是一组第一双LSTM和分类器中的权重矩阵，b_pos是一组偏置向量。优化θ_pos的目标函数定义如下：

其中是在语句S中将正确的标签α分配给W_t的概率值，λ||W_pos||²是L2范数的正则化项，以及λ是L2-范数正则化超参数。δ||θ_e-θ′_e||²是连续正则化项。该连续规则化防止了模型100中的灾难性遗忘并因此阻止了它忘记针对其他任务学到的信息。在POS标注的情况下，对θ_e应用正则化，以及θ_e'是在之前训练时期的最顶层中训练最后任务之后的嵌入参数。δ是连续正则化超参数，其对于模型100的不同层可以是不同的，并且还可以根据网络权重和偏差对其分配不同的值。

训练语块层

为了训练语块划分层500，使用WSJ语料库，其中标记了语块。在训练语块划分层500期间，因为它是当前层，L2范数正则化应用于语块划分层500的层参数。连续正则化应用于两个下层(即嵌入层和POS层400)的层参数。

语块划分层的目标函数定义如下：

这类似于POS标注的目标函数，θ_chk是(W_chk,b_chk,E_pos,θ_e)，其中W_chk和b_chk是包括θ_pos中的那些的权重和偏差参数，E_pos是一组POS标签嵌入。θ'_pos是在当前训练时期训练POS层400之后的POS参数。

训练依赖性层

为了训练依赖性解析层600，使用具有依赖性标签的WSJ语料库。在依赖性解析层600的训练期间，将L2范数正则化应用于依赖性解析层600的层参数，因为它是当前层。将连续正则化应用于三个下层的层参数，即嵌入层、POS层400和语块划分层500。

依赖性层的目标函数定义如下：

其中，是针对Wt分配给正确父节点标签α的概率值，以及/>是针对子-父对(w_t,α)分配给正确依赖性标签β的概率值。θ_dep定义为(W_dep,b_dep,W_d,r,E_pos,E_chk,θ_e),其中W_dep和b_dep是包括在θ_chk,中的那些的权重和偏置参数，以及E_chk是一组语块标签嵌入。

训练相关性层

在语义相关性层700处，训练所使用的SICK数据集。在语义相关性层700的训练期间，因为它是当前层，将L2范数正则化应用于语义相关性层700的层参数。将连续正则化应用于四个下层的层参数，即嵌入层、POS层400、语块划分层500和依赖性解析层600。

相关性层的目标函数定义如下：

其中p(s,s')是在定义的相关性得分上的黄金分布，是给定语句表示的预测分布，以及/>是两个分布之间的KL-散度。θ_rel定义为(W_rel,b_rel,E_pos,E_chk,θ_e)。

训练蕴涵层

为了训练蕴涵层800，我们还使用了SICK数据集。在蕴涵层800的训练期间，将L2范数正则化应用于蕴涵层800的层参数，因为它是当前层。连续正则化被应用于五个下层的层参数，即嵌入层、POS层400、语块划分层500、依赖性解析层600和语义相关性层。

用于蕴涵层的目标函数被定义如下：

其中，是将正确标签α分配给前提假设对(s,s')的概率值。θ_ent定义为(W_ent,b_ent,E_pos,E_chk,E_rel,θ_e)，其中E_rel是一组相关性标签嵌入。

训练的时期

转到图9A，图9A示出了训练堆叠的LSTM序列处理器的一种实现，该堆叠的LSTM序列处理器根据分析层级堆叠有至少三层。在图9A中，第一、第二和第三层(例如，POS层400、语块划分层500和依赖性层600)通过使用针对每个层的训练示例的后向传播来训练，其中在训练期间将训练正则化地向下传递到下层。训练包括使用第一层训练示例(例如，POS数据)训练第一层，使用第二层训练示例(例如，语块划分数据)训练第二层，其中将训练正则化地向下传递到第一层，以及使用第三层训练示例(例如，依赖性数据)训练第三层，其中将训练正则化地向下传递到第一和第二层。通过约束训练目标函数使正规化的传递训练正则化，该训练目标函数具有适应度函数(fitness function)，其具有至少两个正则化项。两个正则化项通过惩罚应用于下层的系数矩阵中的权重大小的增长来正则化化，并且对应用于下层的系数矩阵中的权重的所有变化进行连续正则化。在一个实现中，适应度函数是交叉熵损失。在另一实现中，适应度函数是KL-散度。在又一实现中，适应度函数是均方误差。

在图9A所示的示例中，描绘了单个时期的两个子时期。在一个实现中，模型100具有对应于五个NLP任务的五个子时期。在每个子时期中，处理与当前层的训练数据相对应的一批训练示例TE₁…TE_n。每当通过当前层处理训练示例时，下层的层参数θs_下层和当前层的层参数θs_当前层通过反向传播梯度来更新。θ_n下层表示下层的参数θ_n下层的更新值，作为当前层的给定训练示例的反向传播的结果。此外，在每个子时期的末尾，获取当前层的嵌入参数的当前状态和所有下层的嵌入参数的当前状态的“快照”。快照值在内存中保存为θ'_下层，并且在本文中称为“当前锚定值”。

在每个子时期结束时，连续的正则化项确保更新值θ_n下层不会显著偏离层参数的当前锚定值θ'_下层。

在图9A中，POS层400处的第一子时期以嵌入层的当前锚定值开始，并且仅对嵌入层参数θ_e进行连续正则化。注意，连续正则化不应用于当前层的参数，即，POS层400的层参数θ_pos，并且只有L2范数正则化应用于当前层的更新参数，以生成正则化的当前层参数θ_pos。连续正则化确保在POS层400的训练期间更新的下层的层参数值，即θ_e，不显著偏离当前锚定值θ_e'。这产生连续正则化的下层参数/>在子时期结束时，最近正则化的当前层参数/>和最近连续正则化的下层参数/>经历快照操作并作为新的当前锚定值持久存储在存储器中。

在下一层，例如语块划分层500，下层参数现在包括嵌入层和POS层的参数。这些下层参数经历连续正则化，而语块划分层的当前层参数仅经历L2范数正则化。对于模型100的所有层，该过程持续进行。

图9B包括证明连续正则化技术的有效性的表。在图9B中，列“w/oSR”示出了在模型100中不使用连续正则化的结果。可以看出，通过连续正则化来提高语块划分的准确性，而其他结果不会受到太大影响。与其他低级任务、POS标注和依赖性解析相比，此处使用的语块划分数据集相对较小。因此，这些结果表明，当数据集大小不平衡时，连续正则化是有效的。

图10包括示出五个不同NLP任务上的测试集的结果的表。在图10中，列“Single”示出使用单层双-LSTM分别处理每个任务的结果，列“JMT_all”显示模型100的结果。单个任务设置仅使用自己任务的注释。例如，将依赖性解析作为单个任务处理时，不使用POS和语块划分标注。可以看出，在模型100中改进了五个不同任务的所有结果，这表明模型100在单个模型中处理五个不同的任务。模型100还允许访问从不同任务中学习的任意信息。例如，在一些实现中，为了将模型100用作POS标注器，可以使用来自第一双LSTM层的输出。输出可以是加权POS标签嵌入以及离散POS标注。

图10中的表还示出了不同任务的三个子集的结果。例如，在“JMTABC”的情况下，仅使用双LSTM的前三层来处理这三个任务。在“JMTDE”的情况下，通过省略前三层中的所有信息，仅使用顶部两层作为两层双LSTM。密切相关任务的结果表明，模型100不仅改善了高级任务，还改善了低级任务。

所公开的技术的其他实现包括使用与指数归一化器不同的、除指数归一化器之外的和/或与指数归一化器相结合的归一化器。一些例子包括基于sigmoid的归一化器(例如，多类sigmoid，分段斜坡)，基于双曲线切线的归一化器，基于整流线性单元(ReLU)的归一化器，基于识别的归一化器，基于逻辑的归一化器，基于正弦的归一化器，基于余弦的归一化器，基于单位和的归一化器和基于步骤的归一化器。其他示例包括分层级softmax，差分softmax，重要性采样，噪声对比估计，负采样，门控softmax球面softmax，泰勒(Taylor)softmax和sparsemax。在其他实现方式中，可以使用任何其他常规或未来开发的归一化器。

虽然这项技术是针对双向LSTM进行讨论的，但还有其他新兴形式的LSTM可能会发展为LSTM的替代品。在其他实现中，所公开的技术在模型100的一个或更多个或所有层中使用单向LSTM。LSTM的一些变体的示例包括无输入门(NIG)变体，无遗忘门(NFG)变体，无输出门(NOG)变体，无输入激活函数(NIAF)变体，无输出激活函数(NOAF)变体，耦合输入-遗忘门(CIFG)变体，窥视孔(PH)变体和全门递归(FGR)变体。其他实现包括使用门控递归单元(GRU)或任何其他类型的RNN，或任何其他常规或未来开发的神经网络。

在其他实施方式中，模型100的层以有向非循环图的形式堆叠。在这样的实现中，一些层可以不是连续地在其他层之上，而是可以是非周期性地布置的。

特别实现

我们描述了所谓的“联合多任务神经网络模型”的系统、方法和制品，使用单个端到端模型中的层的增长深度来解决各种日益复杂的自然语言处理(NLP)任务。教导了可以组合不相互排斥的实现。实现的一个或更多个特征可以与其他实现组合。本公开定期提醒用户这些选项。对重复这些选项的叙述的一些实现方式的省略不应被视为限制前面部分中教导的组合-这些叙述通过引用结合到以下每个实现方式中。

图1B和图1C示出了可用于实现联合多任务神经网络模型的各种模块。先前描述的模型100的模块或组件，诸如词表示层102ab，POS层104ab，语块划分层106ab，依赖性层108ab，相关性层110a和112以及蕴涵层114ab和116可以使用较小的模块化模块或组件来进行可替代地描述，而不改变其操作或模型100的原理。

图1B和图1C中的模块可以用硬件或软件实现，并且不需要精确分成如图1B和图1C所示的相同的块。一些模块也可以在不同的处理器或计算机上实现，或者在许多不同的处理器或计算机之间传播。另外，应当理解，一些模块可以组合、并行操作或以与图1A和图1B中所示的顺序不同的顺序操作，而不影响所实现的功能。同样如本文所用，术语“模块”可以包括“子模块”，可以认为这些子模块本身构成模块。例如，在此可以将词嵌入器模块1021和词n-character gram模块1022认为是词表示模块102ab的子模块。在另一示例中，在此可以将POS处理模块1041和POS产生模块1042认为是POS模块104ab的子模块。在又一示例中，在此可以将依赖性处理模块1081，依赖性身份模块1082，依赖性产生模块1083，嵌入处理模块1084，质量向量处理模块1085和父标签向量产生模块1086认为是依赖性模块108ab的子模块。在另一示例中，在此可以将注意力编码器1087，注意力编码器模块1087，父标签向量模块1089和父标注模块1086认为是依赖性模块108ab的子模块。在又一示例中，在此可以将依赖性父项分析器模块1180，嵌入模块1181，状态向量产生模块1182，归一化模块1184，依赖性关系标签向量产生模块1187和依赖性标签向量产生模块1188认为是依赖性模块108ab的子模块。在又一示例中，在此可以将语句输入模块1101，语句表示模块1102，相关性向量确定器模块1103和相关性分类器模块1104认为是相关性编码器模块110ab和/或相关性模块112的子模块。在又一示例中，在本文中可以将蕴涵向量确定器模块1141，池化模块1142和蕴涵分类器模块1143认为是蕴涵编码器模块114ab和/或蕴涵模块116的子模块。也可以认为图1B和图1C中被指定为模块的块是方法中的流程图步骤。模块也不一定必须将其所有代码连续地存储在存储器中；代码的某些部分可以采用来自其他模块的代码或存储在其之间的其他函数与代码的其他部分分开。

在一个实现中，描述了在处理输入语句中的词的硬件上运行的多层神经网络系统，其包括堆叠的长短期记忆(缩写为LSTM)语句处理器，其在硬件上运行，根据语言层级堆叠成层。堆叠的LSTM语句处理器可以体现在LSTM语句模块的堆叠中。堆叠的LSTM包括旁路连接，其将下层的输入与下层的嵌入输出一起递送到叠加层。堆叠的层包括(i)词性(缩写为POS)标签嵌入层，(ii)叠加在POS标签嵌入层上的语块标签嵌入层，以及(iii)叠加在语块标签嵌入层上的依赖性父项标识和依赖性关系标签嵌入层。POS标签嵌入层(被实现为双向LSTM和POS标签分类器)处理表示输入语句中的词的词嵌入向量，并为每个词产生POS标签嵌入向量和POS状态向量。POS标签嵌入层104的这些组件可以体现在用于处理表示输入语句中的词的词嵌入向量的POS处理模块1041中，，以及用于产生每个词的POS标签嵌入向量和POS状态向量的POS产生模块1042中。标签嵌入层标签嵌入

实现为双向LSTM和语块标签分类器的语块标签嵌入层106至少处理词嵌入向量，POS标签嵌入向量和POS状态向量，以产生语块标签嵌入和语块状态向量。语块标签嵌入层106的这些组件可以体现在用于至少处理词嵌入向量、POS标签嵌入向量和POS状态向量的语块处理模块1061中和用于产生语块标签嵌入和语块状态向量的语块产生模块1062中。

依赖性父项标识和依赖性关系标签嵌入层108(实现为双向LSTM和一个或更多个分类器)处理词嵌入、POS标签嵌入、语块标签嵌入和语块状态向量，以识别语句中的每个词的依赖性父项，以产生在词和词的相应潜在父项之间的依赖性关系标签或关系的标签嵌入。依赖性父项标识和依赖性关系标签嵌入层108的这些组件可以体现在用于处理词嵌入、POS标签嵌入、语块标签嵌入和语块状态向量的依赖性处理模块1081中，和用于识别语句中每个词的依赖性父项的依赖性标识模块1082中，以及用于产生或词和词的相应潜在父项之间的依赖性关系标签或关系的标签嵌入的依赖性产生模块1083。

多层神经网络系统还包括输出处理器，该输出处理器至少输出反映依赖性父项的标识和为语句中的词产生依赖性关系标签嵌入的结果。

，该系统和所公开的技术的其他实现各自可选地可以包括结合所公开的附加系统描述的以下特征中的一个或更多个。为了简明起见，本申请中公开的特征的组合不是单独列举的，并且不再针对每个基本特征集进行重复。读者将理解本节中标识的特征可以很容易地与标识为实现的基本特征集组合在一起。

在所公开的多层神经网络系统的实现中，语言层级结构从语句中的词构建语音部分、语句的语块、词及其依赖父项之间的依赖性链接，在依赖性链接上的标签。

旁路连接将下层使用的输入向量提供给上层而无需修改。

在一些实现中，除了词嵌入向量之外，POS标签嵌入层104还进一步处理表示输入语句中的词的n-character-gram嵌入向量。另外，旁路连接将n-character-gram嵌入向量递送给语块标签嵌入层和依赖性父项和依赖性关系标签嵌入层，作为那些叠加层中的相应双向LSTM的输入。词表示层102的这些其他组件可以体现在词嵌入器模块1021和n-character-gram嵌入器模块1022中。旁路连接可以与语块处理模块和依赖性处理模块结合体现。

POS标签嵌入层104还可以通过POS状态向量的指数归一化产生POS标签概率质量向量，并从POS标签概率质量向量中产生POS标签嵌入向量。该功能可以体现在POS模块104中。另外，语块标签嵌入层106通过缩放语块标签状态向量的归一化来产生语块标签概率质量向量，并从语块标签概率质量向量中产生语块标签嵌入向量。该功能可以在语块产生模块1062中体现。此外，依赖性父项标识和依赖性关系标签嵌入层108通过分类和缩放由双向LSTM产生的父标签状态向量的归一化来产生父标签概率质量向量。该功能可以在依赖性标识模块1082中实现。依赖性父项标识和依赖性关系标签嵌入层还从父标签概率质量向量产生父标签嵌入向量，通过父标签状态向量和父标签嵌入向量的指数归一化和分类产生依赖性关系标签概率质量向量，并从依赖性关系标签概率质量向量中产生依赖性关系标签嵌入向量。该功能可以体现在依赖性产生模块1083中。POS标签嵌入向量、语块标签嵌入向量和依赖性关系标签嵌入向量的维数相似，在+/-10％以内。

所公开的技术还可以包括在POS标签嵌入层下面的词嵌入层或处理器102。词嵌入处理器包括词嵌入器1021和n-character-gram嵌入器1022。词嵌入器在语句中的词被识别出时将其映射到由词嵌入向量表示的词嵌入空间中。另外，n-character-gram嵌入器(i)在子串长度的多个尺度下处理词的字符子串，(ii)将每个经处理的字符子串映射到表示字符嵌入空间中的位置的中间向量，以及(iii)组合每个唯一经处理的字符子串的中间向量，以产生每个词的字符嵌入向量。语句嵌入处理器还组合了词嵌入器和n-character-gram嵌入器的结果，由此先前未映射到词嵌入空间中的词由字符嵌入向量表示。词嵌入层102的这些组件可以体现在用于映射语句中的词的词嵌入器模块1021和用于映射词中不同尺寸的字符子串的n-character-gram嵌入器模块1022，以及POS处理模块1041进一步处理n-character-gram嵌入器模块的输出，以表示先前未映射到词嵌入空间的词。

n-character-gram嵌入器可以以至少两种方式组合中间向量。它可以在字符嵌入向量中产生逐元素的平均值，也可以选择逐元素的最大值。POS标签分类器可以包括softmax层，或者更一般地，指数归一化器。这些备选也适用于语块标签分类器。这些替代特征可以体现在n-character-gram嵌入器模块和/或语块处理或语块产生模块中。

所公开的技术在POS标签嵌入层、语块标签嵌入层或依赖性父项标识和依赖性关系标签嵌入层中没有定向搜索的情况下运行良好。它可以用具有窄跨度的定向搜索来实现。

依赖性父项标识和依赖性关系标签嵌入层还包括依赖性父项层和依赖性关系标签分类器。依赖性父项标识符层包括依赖性父项分析器，其实现为双向LSTM，其处理输入语句中的词。具体地，依赖性父项分析器针对每个词处理词嵌入、POS标签嵌入、语块标签嵌入和语块状态向量，以累积前向和后向状态向量，其表示在语句中的词之间的交互的向前和向后进展。依赖性父项标识符层还包括注意力编码器，其处理语句中的每个相应词的前向和后向状态向量，并且将注意力编码为每个相应词的嵌入与语句中的其他词之间的内积，其中在内积之前对该词或其他词的前向和后向状态向量应用线性变换。此外，注意力编码器将指数归一化应用于内积的向量以产生父标签概率质量向量并投影父标签概率质量向量以产生父标签嵌入向量。此外，所公开的技术包括依赖性关系标签分类器，其针对语句中的每个相应词，(i)对前向和后向状态向量以及父标签嵌入向量和父标签嵌入向量进行分类和归一化，以产生依赖性关系标签概率质量向量，以及(ii)投影依赖性关系标签概率质量向量以产生依赖性关系标签嵌入向量。依赖性父项标识和依赖性关系标签嵌入108的这些组件可以体现在用于处理输入语句中的词的依赖性父项分析器模块中，以及用于处理用于产生父标签概率质量向量和父标签嵌入向量的前向和后向状态向量的注意力编码器模块。

在一种实现中，所公开的多层神经网络系统还包括叠加在依赖性父项标识和依赖性关系标签嵌入层上的语义相关性层。语义相关性层包括相关性向量计算器和相关性分类器，并且对通过多层神经网络系统处理的第一和第二语句对进行操作。所公开的技术的相关性向量计算器确定第一和第二语句中的每一个的语句级表示。由相关性向量计算器执行的确定包括(i)各个语句中的每个词的前向和后向状态向量的双向LSTM计算，以及(ii)各个语句中的词的前向和后向状态向量的逐元素最大池化计算，以产生表示各个语句的语句级状态向量。相关性向量计算器还计算由相关性分类器处理的逐元素的语句级相关性向量，以导出第一和第二语句之间的相关性的类别分类。该层可以报告类别分类以供进一步处理。

语义相关性层110的组件可以体现在语句输入模块1101、语句表示模块1102、相关性向量确定器1103和相关性分类器1104中：用于输入通过语句模块的堆叠处理的第一和第二语句对的语句输入模块1101；用于确定第一和第二语句中的每一个的语句级表示的相关性向量确定器1102，包括用于确定各个语句中的每个词的前向和后向状态向量的双向LSTM以及对各个语句中的词的前向和后向状态向量的逐元素的最大池化的池化模块，以及用于产生表示各个语句的语句级状态向量的语句表示模块1103；和用于对第一和第二语句之间的关系进行类别分类的相关性分类器1104。

相关性向量计算器还可以(i)确定第一和第二语句的语句级相关性向量之间的逐元素的差，(ii)确定第一和第二语句的语句级相关性向量之间的逐元素的乘积，(iii)使用逐元素的差的绝对值和逐元素的乘积的向量作为相关性分类器的输入。

所公开的技术还可以包括叠加在语义相关性层上的蕴涵层。蕴涵层包括蕴涵向量计算器和蕴涵分类器。此外，蕴涵向量计算器计算第一和第二语句中的每一个的语句级表示。由蕴涵向量计算器执行的计算可以包括(i)针对各个语句中的每个词的前向和后向状态向量进行的双向LSTM计算，以及(ii)对各个语句中的词的前向和后向状态向量进行的逐元素的最大池化计算，以产生表示各个语句的语句级状态向量。蕴涵向量计算器还可以计算由蕴涵分类器处理的逐元素的语句级蕴涵向量，以导出第一和第二语句之间的蕴涵的类别分类。该层可以报告类别分类以供进一步处理。

蕴涵层114的组件可以体现在用于确定第一和第二语句中的每一个的语句级表示的蕴涵向量确定器1141中，，其包括用于确定各个语句中每个词的前向和后向状态向量的双向LSTM和用于对各个语句中的词的前向和后向状态向量进行逐元素的最大池化的池化模块1142，以及用于产生表示各个语句的语句级状态向量的语句表示模块102；以及用于对第一和第二语句之间的蕴涵进行类别分类的蕴涵分类器1143。

蕴涵向量确定器或计算器可以进一步(i)确定第一和第二语句的语句级相关性向量之间的逐元素的差，(ii)确定第一和第二语句的语句级相关性向量之间的逐元素的乘积，以及(iii)使用逐元素的差和逐元素乘积的向量作为相关性分类器的输入。

在另一实现中，提供了一种方法，其使用在硬件上运行的堆叠层长短期记忆(缩写为LSTM)语句处理器来处理输入语句中的词，所述LSTM语句处理器根据语言层级堆叠成层。该堆叠可以体现在LSTM词条序列模块的堆叠中。这些堆叠的层包括(i)词性(缩写为POS)标签嵌入层，(ii)叠加在POS标签嵌入层上的语块标签嵌入层，以及(iii)叠加在语块标签嵌入层上的依赖性父项标识和依赖性关系标签嵌入层。特别地，所公开的技术的该方法包括经由旁路连接将下层使用的输入与来自下层的嵌入输出一起递送到叠加层。该方法还包括在POS标签嵌入层中，应用双向LSTM和POS标签分类器来处理表示输入语句中的词的词嵌入向量，并为每个词产生POS标签嵌入向量和POS状态向量。另外，该方法包括，在语块标签嵌入层中，应用双向LSTM和语块标签分类器，以至少处理词嵌入向量、POS标签嵌入向量和POS状态向量，并产生语块标签嵌入和语块状态向量。根据该方法，在依赖性父项标识和依赖性关系标签嵌入层中，应用双向LSTM和一个或更多个分类器来处理词嵌入、POS标签嵌入、语块标签嵌入和语块状态向量。这样做是为了识别语句中每个词的依赖性父项，并产生词与词的相应潜在父项之间的依赖性关系标签或关系的标签嵌入。该方法还包括输出反映语句中词的依赖性关系标签或标签嵌入的结果。

所公开的技术的该方法和其他实现可以各自可选地包括以下特征和/或结合所公开的其他方法描述的特征中的一个或更多个。为了简明起见，本申请中公开的特征的组合不是单独列举的，并且不再对每个基本特征组进行重复描述。读者将理解本节中标识的特征可以很容易地与标识为实现的多组基本特征组合在一起。

在所公开方法的实现中，语言层级结构从语句中的词构建语音部分，语句的语块，词和它们的依赖性父项之间的依赖性链接，依赖性链接上的标签。

经由旁路连接该递送可以将下层使用的输入向量提供给上层而无需修改。

在一些实现方式中，除了词嵌入向量之外，POS标签嵌入层中的方法还处理表示输入语句中的词的n-character-gram嵌入向量。另外，旁路连接将n-character-gram嵌入向量递送给语块标签嵌入层和依赖性父项和依赖性关系标签嵌入层，作为那些叠加层中的相应双向LSTM的输入。

所公开的方法还可以包括在POS标签嵌入层中，通过POS状态向量的指数归一化来产生从POS标签概率质量向量，以及从POS标签概率质量向量产生POS标签嵌入向量标签概率质量向量。另外，在语块标签嵌入层中，该方法通过缩放语块标签状态向量的归一化来产生语块标签概率质量向量，并从语块标签概率质量向量产生语块标签嵌入向量。应用指数归一化的softmax函数可用于缩放归一化。此外，在依赖性父项标识和依赖性关系标签嵌入层中，所公开的技术(i)通过对由双向LSTM产生的父标签状态向量进行分类和缩放归一化来产生父标签概率质量向量，(ii)从父标签概率质量向量产生父标签嵌入向量，(iii)通过对父标签状态向量和父标签嵌入向量进行分类和缩放归一化来产生依赖性关系标签概率质量向量，以及(iv)从依赖性关系标签概率质量向量产生依赖性关系标签嵌入向量。

可选地，POS标签嵌入向量、语块标签嵌入向量和依赖性关系标签嵌入向量的维度可以是类似的，在+/-10％之内。

在一些实现中，堆叠的层可以包括在POS标签嵌入层下面的语句嵌入层。语句嵌入层可以包括词嵌入器和n-character-gram嵌入器。另外，该方法包括：在词嵌入器中当识别出语句中的词时将其映射到由词嵌入向量表示的词嵌入空间中。该方法还包括，在n-character-gram嵌入器中，(i)在子串长度的多个尺度下处理词的字符子串，(ii)将每个经处理的字符子串映射到表示字符嵌入空间中的位置的中间向量中，以及(iii)组合每个唯一经处理的字符子串的中间向量，以产生每个词的字符嵌入向量。语句嵌入层可以输出来自词嵌入器和n-character-gram嵌入器的向量，由此，先前未映射到词嵌入空间的词仍然由字符嵌入向量表示。语句嵌入层的这些组件可以体现在词嵌入器模块和n-character-gram嵌入器模块中，如所附权利要求中所述。

n-character-gram嵌入器可以以至少两种方式组合中间向量。它可以在字符嵌入向量中产生逐元素的平均值，也可以选择逐元素的最大值。POS标签分类器可以包括softmax层，或者更一般地，包括指数归一化器。这些替代方案也适用于语块标签分类器。

所公开的技术在POS标签嵌入层、语块标签嵌入层或依赖性父项标识和依赖性关系标签嵌入层中没有定向搜索的情况下运行良好。

依赖性父项标识和依赖性关系标签嵌入层还包括依赖性父项分析器，注意力编码器和依赖性关系标签分类器。所公开的方法在依赖性父项分析器中应用双向LSTM来处理输入语句中的词。对词的这种处理可以包括针对每个词，处理词和n-character-gram嵌入、POS标签嵌入、语块标签嵌入和语块状态向量，以累积表示语句中的词之间的相互作用的前向和后向进展的前向和后向状态向量。该方法还可以包括在注意力编码器中处理语句中的每个相应词的前向和后向状态向量，以在将线性变换应用于词或其他词的前向和后向状态向量之后将注意力编码为每个相应词的嵌入与语句中的其他词之间的内积，由此线性变换中的权重是可训练的。该方法还包括在注意力编码器中对内积的向量应用指数归一化以产生父标签概率质量向量并投影父标签概率质量向量以产生父标签嵌入向量。在依赖性关系标签分类器中并且针对语句中的每个相应词，方法(i)对前向和后向状态向量以及父标签嵌入向量和父标签嵌入向量进行分类和归一化，以产生依赖性关系标签概率质量向量和(ii)投影依赖性关系标签概率质量向量以产生依赖性关系标签嵌入向量。

在实现中，堆叠的层或模块的堆叠还包括语义相关性层，叠加在依赖性父项标识和依赖性关系标签嵌入层上。语义相关性层包括相关性向量计算器和相关性分类器。所公开的方法还包括在语义相关性层中对已经通过所公开的方法处理的第一和第二语句对进行操作。此外，在相关性向量计算器中，所公开的方法通过以下方式计算第一和第二语句中的每一个的语句级表示：(i)应用双向LSTM来计算各个语句中的每个词的前向和后向状态向量，以及(ii)计算每个相应语句的前向和后向状态向量的逐元素的最大值，以计算逐元素的语句级相关性向量。该方法还包括处理语句级相关性向量以导出第一和第二语句之间的相关性的类别分类。该方法可以包括报告类别分类或语句级相关性向量以进行进一步处理。

在相关性向量确定器或计算器112中，所公开的技术(i)确定第一和第二语句级相关性向量之间的逐元素的差，(ii)确定第一和第二语句级相关性向量之间的逐元素的乘积，和(iii)使用逐元素的差的绝对值和逐元素的乘积的向量作为相关性分类器的输入。

在一些实现方式中，堆叠的层还包括叠加在语义相关性层上的蕴涵层。蕴涵层114包括蕴涵向量确定器或计算器1141和蕴涵分类器1142。蕴涵向量确定器通过以下方式确定第一和第二语句中的每一个的语句级表示：(i)应用双向LSTM来确定各个语句中的每个词的前向和后向状态向量，以及(ii)确定每个相应语句的前向和后向状态向量的逐元素的最大值。所描述的方法还包括(i)在蕴涵向量确定器中确定逐元素的语句级蕴涵向量，以及(ii)处理语句级蕴涵向量以对第一和第二语句之间的蕴涵进行类别分类。

所公开的方法还可以包括蕴涵向量确定器(i)确定第一和第二语句的语句级相关性向量之间的逐元素的差，(ii)确定第一和第二语句的语句级相关性向量之间的逐元素的乘积，和(iii)使用逐元素的差和逐元素的乘积的向量作为相关性分类器的输入。

在另一实现中，描述了在硬件上运行的处理输入序列中的词条序列的多层神经网络系统，其包括在硬件上运行的根据分析层级堆叠成层的堆叠的LSTM词条序列处理器。该堆叠可以体现在LSTM词条序列模块的堆叠中。堆叠的LSTM包括旁路连接，其将下层的输入与下层的嵌入输出一起递送到叠加层。堆叠的层包括(i)第一嵌入层，(ii)叠加在第一嵌入层上的第二嵌入层，和(iii)叠加在第二嵌入层上的第三嵌入层。第一嵌入层(实现为双向LSTM和第一标签分类器)处理表示输入序列中的词条的词条嵌入，并产生词条的第一嵌入和第一状态向量。实现为双向LSTM和第二标签分类器的第二嵌入层至少处理词条嵌入、第一标签嵌入和第一状态向量，以产生第二标签嵌入和第二状态向量。实现为双向LSTM的第三嵌入层至少处理词条嵌入、第一标签嵌入、第二标签嵌入和第二状态向量，以产生第三标签嵌入和第三状态向量。如所附权利要求所述，三个嵌入层的组件可以体现在相应层的第一、第二和第三处理模块(例如，102、104、106)以及第一、第二和第三产生模块中。多层神经网络系统还包括输出处理器，其至少输出反映输入序列中的词条的第三标签嵌入的结果。

该系统和所公开的技术的其他实现可以各自可选地包括以下特征和/或结合所公开的附加系统描述的特征中的一个或更多个。为了简明起见，本申请中公开的特征组合不是单独列举的，并且不再对每个基本特征集重复。读者将理解本节中标识的特征如何可以很容易地与标识为实现的多组基本特征组合在一起。

旁路连接将下层使用的输入向量提供给上层而无需修改。

在所公开的多层神经网络系统的实现中，除了词条嵌入向量之外，第一嵌入层还进一步处理表示输入序列中的词条的词条分解嵌入向量。另外，旁路连接将词条分解嵌入向量递送到第二嵌入层和第三嵌入层，作为那些叠加层中的相应双向LSTM的输入。

在一些实现中，第一嵌入层还通过第一状态向量的指数归一化产生第一标签概率质量向量，并从第一标签概率质量向量产生第一标签嵌入向量。另外，第二嵌入层通过第二状态向量的指数归一化产生第二标签概率质量向量，并从第二标签概率质量向量产生第二标签嵌入向量。此外，第三嵌入层通过第三状态向量的指数归一化产生第三标签概率质量向量，并从第三标签概率质量向量产生第三标签嵌入向量。此外，第一标签嵌入向量、第二标签嵌入向量和第三标签嵌入向量的维度是相似的，在+/-10％之内。

所公开的技术还可以包括在第一标签嵌入层下面的词条嵌入处理器。词条嵌入处理器包括词条嵌入器和分解的词条嵌入器。词条嵌入器在序列中的词条被识别出时将其映射到由词条嵌入向量表示的词条嵌入空间中。此外，分解的词条嵌入器(i)以多个尺度处理词条的词条分解，(ii)将每个经处理的词条分解映射到表示词条分解嵌入空间中的位置的中间向量，以及(iii)组合用于每个唯一的经处理的词条分解的中间向量，以产生每个词条的词条分解嵌入向量。词条嵌入处理器还组合词条嵌入器和分解的词条嵌入器的结果，由此先前未映射到词条嵌入空间的词条仍由词条分解嵌入向量表示。

至少一个标签分类器可以包括softmax层，或者更一般地，指数归一化器。

所公开的技术在没有第一至第三标签嵌入层中的定向搜索的情况下也操作良好。

在一种实现中，所公开的多层神经网络系统还包括第四标签嵌入层，其叠加在第三标签嵌入层上。第四标签嵌入层可以实现为双向LSTM，以至少处理词条嵌入、第一标签嵌入、第二标签嵌入、第三标签嵌入和第三状态向量，以产生第四标签嵌入和第四状态向量。

所公开的技术还包括叠加在第四标签嵌入层上的第五标签嵌入层。第五标签嵌入层可以实现为双向LSTM，以至少处理词条嵌入、第一标签嵌入、第二标签嵌入、第三标签嵌入、第四标签嵌入和第四状态向量，以产生第五标签嵌入和第五状态向量。

在另一实现中，提供了一种方法，其使用堆叠层长短期记忆(缩写为LSTM)语句处理器来处理输入序列中的词条，所述LSTM语句处理器在硬件上运行，根据分析层级堆叠成层。该堆叠可以体现在LSTM词条序列模块的堆叠中。这些堆叠的层包括(i)第一嵌入层，(ii)叠加在第一嵌入层上的第二嵌入层，和(iii)叠加在第二嵌入层上的第三嵌入层。特别地，该方法包括经由旁路连接将下层使用的输入与下层的嵌入输出一起递送到叠加层。该方法还包括第一嵌入层应用双向LSTM和第一标签分类器来处理表示输入序列中的词条的词条嵌入，并产生词条的第一标签嵌入和第一状态向量。另外，该方法包括第二嵌入层应用双向LSTM和第二标签分类器来至少处理词条嵌入、第一标签嵌入和第一状态向量，以产生第二标签嵌入和第二状态向量。根据该方法，第三嵌入层应用双向LSTM来至少处理词条嵌入、第一标签嵌入、第二标签嵌入和第二状态向量，以产生第三标签嵌入和第三状态向量。此外，根据该技术公开了，该方法包括输出反映根据分析层级的堆叠的LSTM分析的结果，包括输入序列中的词条的第三标签嵌入。

所公开的技术的该方法和其他实现可以各自可选地包括以下特征和/或结合所公开的其他方法描述的特征中的一个或更多个。为了简明起见，本申请中公开的特征组合不是单独列举的，并且不再对每个基本特征组进行重复描述。读者将理解本节中标识的特征可以很容易地与标识为实现的多组基本特征组合在一起。

经由旁路连接的递送可以将下层使用的输入向量提供给叠加层而无需修改。

在一些实现中，除了词条嵌入向量之外，该方法在第一嵌入层中处理表示输入序列中的词条的词条分解嵌入向量。另外，旁路连接还将词条分解嵌入向量递送到第二嵌入层和第三嵌入层，作为那些叠加层中的相应双向LSTM的输入。

所公开的方法还可以包括：第一嵌入层通过第一状态向量的指数归一化产生第一标签概率质量向量，以及从第一标签概率质量向量产生第一标签嵌入向量。另外，第二嵌入层通过第二状态向量的指数归一化产生第二标签概率质量向量，并从第二标签概率质量向量产生第二标签嵌入向量。第三嵌入层还通过第三状态向量的指数归一化产生第三标签概率质量向量，并从第三标签概率质量向量产生第三标签嵌入向量。根据所公开的方法，第一标签嵌入向量、第二标签嵌入向量和第三标签嵌入向量的维度是相似的，在+/-10％之内。

所公开的方法还可以包括进一步调用在第一标签嵌入层下面的词条嵌入处理器，该词条嵌入处理器标签嵌入层包括词条嵌入器和分解的词条嵌入器。此外，该方法可以包括，在词条嵌入器中，当序列中的词条被识别出时，将其映射到由词条嵌入向量表示的词条嵌入空间中。另外，在分解的词条嵌入器中，方法(i)以多个尺度处理词条的词条分解，(ii)将每个经处理的词条分解映射到表示词条分解嵌入空间中的位置的中间向量，以及(iii)组合每个唯一经处理的词条分解的中间向量，以产生每个词条的词条分解嵌入向量。该方法还结合了词条嵌入器和分解的词条嵌入器的结果，由此先前未映射到词条嵌入空间的词条仍由词条分解嵌入向量表示。

根据所公开的技术，堆叠的层包括叠加在第三标签嵌入层上的第四标签嵌入层。该方法还包括在第四标签嵌入层中，应用双向LSTM以至少处理词条嵌入、第一标签嵌入、第二标签嵌入、第三标签嵌入和第三状态向量，以产生第四标签嵌入和第四状态向量。

在另一实现中，堆叠的层包括叠加在第四标签嵌入层上的第五标签嵌入层。此外，该方法包括，在第五标签嵌入层中，应用双向LSTM以至少处理词条嵌入、第一标签嵌入、第二标签嵌入、第三标签嵌入、第四标签嵌入和第四状态向量以产生第五标签嵌入和第五状态向量。

在另一实现中，提供了一种方法，其训练在硬件上运行的堆叠的LSTM序列处理器，其根据分析层级堆叠成至少三层。旁路连接将下层的输入与下层的嵌入输出一起递送到叠加层。该方法包括使用针对每个层的训练示例通过后向传播训练第一、第二和第三层，在训练期间将训练正则化地向下传递到下层。具体地，该训练包括(i)使用第一层训练示例训练第一层，(ii)使用第二层训练示例训练第二层，其中将训练正则化地向下传递到第一层，以及(iii)使用第三层训练示例训练第三层，其中将训练正则化地传递到第一层和第二层。通过约束训练目标函数使正则化的向下传递训练正则化，该训练目标函数具有适应度函数，该适应度函数具有至少两个正则化项。另外，根据所公开的技术，两个正则化项通过惩罚应用于下层的系数矩阵中的权重大小的增长来正则化，并且连续地正则化应用于下层的系数矩阵中的权重的所有变化。

所公开的技术的该方法和其他实现可以各自可选地包括以下特征和/或结合所公开的其他方法描述的特征中的一个或更多个。为了简明起见，本申请中公开的特征组合不是单独列举的，并且不再针对每个基本特征组进行重复描述。读者将理解本节中标识的特征如何可以很容易地与标识为实现的多组基本特征组合在一起。

适应度函数可以是基于负对数似然的交叉熵、均方误差或Kullback-Leibler散度(KL-散度)。此外，根据所公开的技术，适应度函数可以表示为

其中，(n)表示堆叠的LSTM的第n层，以及表示将正确的标签α分配给语句S中的W_t的概率值。

在一些实现中，对应用于下层的系数矩阵中的权重大小的增长进行惩罚的正则化项(regularization term)是λ||W_(m)||²，其中与n具有相同层的(m)表示堆叠的LSTM的1到m层，λ是L2范数正则化超参数，以及||W_(m)||将平方运算逐元素地应用于堆叠的LSTM的1至m层的加权矩阵的元素。

在所公开的方法的实现中，连续正则化项为δ||θ_(m-1)-θ′_(m-1)||²，其中与n-1具有相同层的(m-1)表示堆叠的LSTM的1到m-1层，δ是连续正则化超参数，θ_(m-1)表示一个或更多个下层的层参数，θ′_(m-1)表示在之前子时期中持续的一个或更多个下层的层参数，以及||θ_(m-1)-θ′_(m-1)||将平方运算逐元素地应用于堆叠的LSTM的1至m-1层的加权矩阵的元素。

此外，在所公开的方法中，堆叠的LSTM中的分析层级可包括至少五层或至少十层。另外，堆叠的LSTM下方的基底层(basement layer)可以与堆叠的LSTM分开训练，并且可以产生由堆叠的LSTM的最低层使用的输入。堆叠的LSTM上方的阁楼层(attic layer)也可以与堆叠的LSTM分开训练，并且可以消耗堆叠的LSTM的最上层的输出。训练方法可以包含训练堆叠中的五层或十层。基底层和阁楼层可以单独训练。

在另一实现中，提供了用于将中间结果从下层传送到双向LSTM的神经网络堆叠中的上层的方法。双向LSTM的神经网络堆叠包括对应于处理词条序列的分析框架的层。此外，下层为每个词条产生分析框架标签向量。具体地，该方法包括，对于序列，使用下层来分析词条。词条的分析可以包括(i)应用双向LSTM来计算每个词条的前向和后向状态向量，(ii)将分类器应用于前向和后向状态向量以将每个词条嵌入到分析框架标签空间，作为具有与可用分析框架标签的数目大致相同的维度的标签空间向量，以及(iii)将每个词条的标签空间向量投影到扩展维度标签空间中，其具有与前向和后向状态的维度大约相同的维度，以产生扩展的词条标签向量。另外，该方法包括从将前向状态、后向状态和扩展词条标签的向量从下层传送到上层，从而提供叠加层所需的输入以在分析框架中执行其角色以处理词条。

所公开的技术的该方法和其他实现可以各自可选地包括以下特征和/或结合所公开的其他方法描述的特征中的一个或更多个。为了简明起见，本申请中公开的特征组合不是单独列举的，并且不再针对每个基本特征组进行重复描述。读者将理解本节中标识的特征可以很容易地与标识为实现的多组基本特征组合在一起。

在一些实现中，所公开的方法包括通过旁路向叠加层传送除了状态向量之外的由下层接收的作为输入的向量。下层可以在两个更深的层之上。另外，所公开的方法可以包括通过旁路叠加层将由两个较深层接收的作为输入的向量和由两个较深层产生的作为输出的嵌入标签向量传送到叠加层。通过旁路的这种传送可以使所传送的向量在无需修改的情况下传送。

根据所公开的方法，可用分析框架标签的数量小于前向和后向状态的维度，从而形成维度瓶颈，其在训练双向LSTM的神经网络堆叠时减少过度拟合。在一些实现中，维度可以是前向和后向状态的维度的五分之一或十分之一或更小。

在另一实现中，描述了在处理输入序列中的词条序列的硬件上运行的多层神经网络系统，其包括在硬件上运行的堆叠的LSTM词条序列处理器，该LSTM词条序列处理器根据分析层级堆叠成层。堆叠的LSTM语句处理器可以体现在LSTM语句模块的堆叠中。堆叠的LSTM包括旁路连接，其将下层的输入与下层的嵌入输出一起递送到叠加层。堆叠的层包括(i)第一嵌入层和(ii)叠加在第一嵌入层上的第二嵌入层。第一嵌入层实现为双向LSTM和第一标签分类器，并处理表示输入序列中的词条的词条嵌入。第一嵌入层还为每个词条产生分析框架标签向量。此外，双向LSTM为每个词条计算前向和后向状态向量。第一嵌入层的该功能可以体现在嵌入处理模块中，用于处理表示输入序列中的词条的词条嵌入，以及用于产生分析框架标签向量的标签向量产生模块。另外，应用于前向和后向状态向量的分类器将每个词条嵌入到分析框架标签空间中，作为具有与可用分析框架标签的数目大致相同的维度的标签空间向量。第一嵌入层的该功能可以体现在输出端口中。

第一嵌入层还可以将每个词条的标签空间向量投影到具有与前向和后向状态的维度大致相同的维度的扩展维度标签空间中，以产生扩展的词条标签向量。该方法还包括第一嵌入层将前向状态、后向状态和扩展词条标签的向量发送至第二嵌入层，从而提供第二嵌入层所需的输入，以在分析框架中执行其角色以处理词条。

该系统和所公开的技术的其他实现方式可以各自可选地包括以下特征和/或结合所公开的附加系统描述的特征中的一个或更多个。为了简明起见，本申请中公开的特征组合不是单独列举的，并且不再针对每组基本特征进行重复描述。读者将理解本节中标识的特征可以很容易地与多组标识为实现的基本特征组合起来。

在一些实现中，该方法还包括到第二嵌入层的旁路，其传送由第一嵌入层接收的作为输入的向量，而不是状态向量。

在多层神经网络系统的实现中，第一嵌入层在两个更深的层之上。该系统通过旁路将由两个较深层接收的作为输入的向量和由两个较深层产生的作为输出的嵌入标签向量传送至第二嵌入层。旁路可以传送向量而无需修改。

可用分析框架标签的数目可以小于前向和后向状态的维度，从而形成维度瓶颈，其在训练双向LSTM的神经网络堆叠时减少过度拟合。在一些实现中，维度可以是前向和后向状态的维度的五分之一或十分之一或更小。

在另一实现中，描述了在处理输入语句中的词(包括先前未映射到词嵌入空间的词)的硬件上运行的多层神经网络系统，其包括词嵌入器或嵌入器模块以及子串嵌入器或嵌入器模块，两者都处理输入语句中的词。词嵌入器将先前识别的词映射到词嵌入空间中并识别先前未识别的词，以产生每个词的词嵌入向量。子串嵌入器(i)以子串长度的多个尺度处理词的字符子串，(ii)将每个经处理的字符子串映射到表示字符嵌入空间中的位置的中间向量，以及(iii)组合每个唯一经处理的字符子串的中间向量，以为每个词产生字符嵌入向量。多层神经网络系统还包括嵌入器组合器，该嵌入器组合器报告由进一步的过程或处理层使用的词嵌入向量和字符嵌入向量，由此先前未映射到词嵌入空间的词仍然由字符嵌入向量表示。

该系统和所公开的技术的其他实现方式可以各自可选地包括以下特征和/或结合所公开的附加系统描述的特征中的一个或更多个。为了简明起见，本申请中公开的特征组合不是单独列举的，并且不再针对每个基本特征组进行重复描述。读者将理解本节中标识的特征可以很容易地与标识为实现的多组基本特征组合在一起。

在所公开的多层神经网络系统的实现中，子串嵌入器或嵌入器模块(i)通过对每个唯一经处理的字符子串的中间向量进行逐元素的平均来组合中间向量，或者(ii)通过以下方式组合中间向量：从每个唯一经处理的字符子串的中间向量中逐元素地选择最大值。

在一些实现中，子串嵌入器或嵌入器模块使用子串长度来处理两个字符，三个字符和四个字符的字符子串，不考虑在词的开头和结尾处的哨兵。

中间向量的维度可以等于词嵌入向量的维度。

所公开的技术还可以将中间向量投影到具有维度的空间中，该空间的维度等于词嵌入向量的维度。

另外，多层神经网络系统可以包括将先前未识别的词嵌入到用于未知词的保留的词嵌入向量中的词嵌入器。

在另一实现中，提供了一种方法，用于准备输入语句中的词(包括先前未映射到词嵌入空间的词)，用于由在硬件上运行的多层神经网络系统进行处理。可以使用词嵌入器和子串嵌入器来执行处理，这两者都处理输入语句中的词。词和子串嵌入器可以分别体现在词嵌入器模块和串嵌入器模块中。该方法包括，在词嵌入器中，将先前识别的词映射到词嵌入空间中并识别先前未识别的词，以产生每个词的词嵌入向量。该方法还包括在子串嵌入器中并且对于输入语句中的每个词，(i)在子串长度的多个尺度下处理词的字符子串，(ii)将每个经处理的字符子串映射到表示字符嵌入空间中的位置的中间向量中，以及(iii)组合每个唯一经处理的字符子串的中间向量，以产生每个词的字符嵌入向量。另外，该方法包括输出词嵌入向量和字符嵌入向量，由此，先前未映射到词嵌入空间的词仍然由字符嵌入向量表示。

在一些实现中，子串嵌入器或嵌入器模块可以(i)通过对每个唯一经处理的字符子串的中间向量进行逐元素的平均来组合中间向量，或者(ii)通过从用于每个唯一经处理的字符子串的中间向量中逐元素地选择最大值来组合中间向量。

所公开的方法可以包括子串嵌入器或嵌入器模块，其使用两个字符、三个字符和四个字符的子串长度来处理字符子串，不考虑在词的开头和结尾处的哨兵。

中间向量的维度可以等于词嵌入向量的维度。

在一个实现中，所公开的方法可以包括(i)将中间向量投影到具有维度的空间，其空间的维度等于词嵌入向量的维度，和/或(ii)将先前未识别的词映射到用于未知词的保留的词嵌入向量的词嵌入器或嵌入器模块。

在另一实现中，描述了在硬件上运行的处理输入语句中的词的神经网络设备的依赖性解析层组件。依赖性解析层叠加在产生语块标签嵌入和语块状态向量的语块标签嵌入层上。此外，语块标签嵌入层又叠加在产生POS标签嵌入的POS标签嵌入层上。依赖性解析层组件包括依赖性父项层和依赖性关系标签分类器。此外，依赖性父项层包括双向LSTM和一个或更多个分类器，其处理词嵌入、POS标签嵌入、语块标签嵌入和语块状态向量，以通过由双向LSTM产生的父标签状态向量的指数归一化和分类产生父标签概率质量向量。依赖性父项层还从父标签概率质量向量产生父标签嵌入向量。依赖性关系标签分类器通过父标签状态向量和父标签嵌入向量的分类和指数归一化产生依赖性关系标签概率质量向量。此外，依赖性关系标签分类器从依赖性关系标签概率质量向量产生依赖性关系标签嵌入向量。POS标签嵌入向量、语块标签嵌入向量和依赖性关系标签嵌入向量的维度相似，在+/-10％之内。依赖性解析层组件还包括输出处理器，其基于此至少输出依赖性关系标签嵌入向量或依赖性关系标签。

依赖性解析层组件108的部分可以体现在嵌入处理模块1084、质量向量产生模块1085和父标签向量产生模块1086中：用于处理词嵌入、POS标签嵌入、语块标签嵌入和语块状态向量的嵌入处理模块；用于从双向LSTM产生的父标签状态向量产生父标签概率质量向量的质量向量产生模块；用于从父标签概率质量向量中产生父标签嵌入向量的父标签向量产生模块。依赖性关系标签分类器可以体现在归一化模块和依赖性标签向量产生模块中：用于对父标签状态向量和父标签嵌入向量进行缩放归一化的归一化模块；和用于从父关系标签概率质量向量中产生依赖性关系标签嵌入向量的依赖性标签向量产生模块。

所公开的技术的该组件和其他实现可以各自可选地包括以下特征和/或结合所公开的附加组件描述的特征中的一个或更多个。为了简明起见，本申请中公开的特征组合不是单独列举的，并且不再针对每个基本特征组进行重复描述。读者将理解本节中标识的特征可以很容易地与标识为实现的多组基本特征组合在一起。

在一些实现中，双向LSTM为语句中的每个相应词产生表示语句中的词之间的相互作用的前向和后向进展的前向和后向父标签状态向量，从该前向和后向父标签状态向量产生父标签概率质量向量。所公开的神经网络的依赖性解析层组件108还包括注意力编码器1087，其(i)处理语句中的每个相应词的前向和后向状态向量，(ii)将注意力编码为语句中的每个相应词和其他词的嵌入之间的内积的向量，其中线性变换应用于该词或内积之前的其他词的前向和后向状态向量，以及(iii)从编码的注意力向量产生父标签嵌入向量。注意力编码器组件可以体现在注意力编码器模块1088和父标签向量模块1089中，用于从编码的注意力向量产生父标签嵌入向量。

在内积之前应用的线性变换在训练依赖性父项层和依赖性关系分类器期间是可训练的。

根据所公开的依赖性解析层组件(i)通过其确定依赖性关系概率质量向量的可用分析框架标签的数目小于前向和后向状态的维度，从而训练双向LSTM的神经网络堆叠时形成减少过度拟合的维度瓶颈，或(ii)通过其计算依赖性关系概率质量向量的可用分析框架标签的数目是前向和后向状态的维度的十分之一或更小，从而形成在训练双向LSTM的神经网络堆叠时减少过度拟合的维数瓶颈。在一些实现中，维度可以是前向和后向状态的维度的五分之一或更小。

在一个实现中，描述了在硬件上运行的用于处理输入语句中的词的神经网络设备的依赖性解析层组件。依赖性解析层叠加在产生语块标签嵌入和语块状态向量的语块标签嵌入层上。语块标签嵌入层又叠加在产生POS标签嵌入和POS状态向量的POS标签嵌入层上。依赖性解析层组件包括依赖性父项层和依赖性关系标签分类器。另外，依赖性父项层包括依赖性父项分析器，其实现为双向LSTM，处理输入语句中的词。双向LSTM为每个词处理词嵌入、POS标签嵌入、语块标签嵌入和语块状态向量，以累积表示语句中词之间的交互的向前和向后进展的前向和后向状态向量。依赖性父项分析器1180组件可以体现在用于针对每个词处理词嵌入、POS标签嵌入、语块标签嵌入和语块状态向量的嵌入模块或处理器1181中，和用于产生表示语句中词之间的相互作用的前向和后向进展的前向和后向状态向量的状态向量产生模块1182。

依赖性父项层还包括注意力编码器，用于(i)处理语句中的每个相应词的前向和后向状态向量，(ii)将注意力编码为潜在的依赖性，以及(iii)将缩放归一化应用于内积的向量以产生父标签概率质量向量，并投影父标签概率质量向量以产生父标签嵌入向量。注意力编码器1087的这些组件的功能可以体现在用于应用缩放归一化以产生父标签概率质量向量并投影父标签概率质量向量的归一化模块1184和用于产生父标签嵌入向量的父标注模块1186中。

此外，针对语句中的每个相应词，依赖性关系标签分类器，(i)对前向和后向状态向量和父标签嵌入向量进行分类和归一化，以产生依赖性关系标签概率质量向量，(ii)投影依赖性关系标签概率质量向量以产生依赖性关系标签嵌入向量。依赖性解析层组件还包括输出处理器，其至少输出反映每个词的依赖性关系的分类标签、依赖性关系标签概率质量向量或依赖性关系标签嵌入向量的结果。依赖性关系标签分类器1186可以体现在用于从嵌入向量和父标签嵌入向量产生依赖性关系标签概率质量向量的依赖性关系标签向量产生模块1187中；和用于从依赖性关系标签概率质量向量产生依赖性关系标签嵌入向量的依赖性标签向量产生模块1188中。

可以将对潜在依赖性的注意力确定为每个相应词与语句中的其他词的嵌入之间的内积，其中在内积之前将线性变换应用于该词或者其他词的前向和后向状态向量。

所公开的技术的该组件和其他实现可以各自可选地包括以下特征和/或结合所公开的附加组件描述的特征中的一个或更多个。为了简明起见，本申请中公开的特征组合不是单独列举的，并且不再针对每个基本特征组进行重复描述。读者将理解本节中标识的特征可以轻松地与标识为实现的多组基本特征组合在一起。

在一些实现方式中，可以通过限制可用分析框架标签的数量来创建维度瓶颈，如上所述，其有利于在训练堆叠时减少过度拟合。在替代实现中，(i)通过其计算依赖性关系概率质量向量的可用分析框架标签的数目是前向和后向状态的维度的五分之一或更小，从而在训练双向LSTM的神经网络堆叠时形成减少过度拟合的维度瓶颈，或(ii)计算依赖性关系概率质量向量的可用分析框架标签的数量是前向和后向状态的维度的十分之一或更小，从而在训练双向LSTM的神经网络堆叠时形成减少过度拟合的维度瓶颈。

在另一实现中，提供了一种用于依赖性解析的方法，该方法使用在硬件上运行的神经网络系统或设备来处理输入语句中的词。依赖性解析层叠加在产生语块标签嵌入和语块状态向量的语块标签嵌入层上。语块标签嵌入层又叠加在产生POS标签嵌入的POS标签嵌入层上。此外，依赖性解析层包括依赖性父项层和依赖性关系标签分类器。所公开的方法包括在依赖性父项层中应用处理词嵌入、POS标签嵌入、语块标签嵌入和语块状态向量的双向LSTM和一个或更多个分类器，以通过由双向LSTM产生的父标签状态向量的分类和缩放归一化来产生父标签概率质量向量。可以使用执行指数归一化的softmax组件来实现缩放归一化。该方法还包括从父标签概率质量向量产生父标签嵌入向量。所公开的方法还包括，在依赖性关系标签分类器中，(i)通过父标签状态向量和父标签嵌入向量的分类和缩放归一化来产生依赖性关系标签概率质量向量，以及(ii)从依赖性关系标签概率质量向量产生依赖性关系标签嵌入。根据所公开的方法，基于此至少报告、输出或保持依赖性关系标签嵌入向量或依赖性关系标签。

可选地，POS标签嵌入向量、语块标签嵌入向量和依赖性关系标签嵌入向量的维度相似，在+/-10％之内。

在一些实现方式中，该方法包括双向LSTM为语句中的每个相应词产生表示语句中的词之间的相互作用的前向和后向进展的前向和后向父标签状态向量，从中产生父标签概率质量向量。该方法还包括，在用于处理语句中的每个相应词的前向和后向状态向量的注意力编码器中，将注意力编码为作为向量的潜在依赖性。

这可以包括确定每个相应词与语句中的其他词的嵌入之间的内积，并且在内积之前针对该词或其他词应用应用于前向和后向状态向量的线性变换，以及从经编码的注意力向量产生父标签嵌入向量。

在训练依赖性父项层和依赖性关系分类器期间，在内积之前可以应用的线性变换是可训练的。

根据所公开的方法，可以通过限制可用分析框架标签的数目来创建维度瓶颈，如上所述，有利于在训练堆叠时减少过度拟合。在替代的实现方式中，(i)通过其计算依赖性关系概率质量向量的可用分析框架标签的数目是前向和后向状态的维度的五分之一或更少，从而形成在训练双向LSTM的神经网络堆叠时减少过度拟合的维度瓶颈，或(ii)通过其计算依赖性关系概率质量向量的可用分析框架标签的数量是前向和后向状态的维度的十分之一或更小，从而形成在训练双向LSTM的神经网络堆叠时减少过度拟合的维度瓶颈。

在另一实现中，提供了一种方法，该方法使用在硬件上运行的处理输入语句中的词的神经网络设备来进行依赖性解析。依赖性解析层叠加在产生语块标签嵌入和语块状态向量的语块标签嵌入层上。语块标签嵌入层又叠加在产生POS标签嵌入的POS标签嵌入层上。此外，依赖性解析层包括依赖性父项层和依赖性关系标签分类器。所公开的方法包括在依赖性父项层中，在依赖性父项分析器中，应用双向LSTM来处理输入语句中的词。这些过程包括针对每个词处理词嵌入、POS标签嵌入、语块标签嵌入和语块状态向量以累积前向和后向状态向量，其表示语句中词之间的相互作用的前向和后向进展。所公开的方法还包括，在依赖性父项层中，在注意力编码器中处理语句中每个相应词的前向和后向状态向量，(i)将注意力编码为每个相应词和该语句中其他词的嵌入之间的内积，其中在内积之前对该词或其他词的前向和后向状态向量应用线性变换，以及(ii)将缩放归一化应用于内积的向量以产生父标签概率质量向量并投影父标签概率质量向量以生成父标签嵌入向量。此外，根据所公开的方法，在依赖性关系标签分类器中和针对语句中的每个相应词，(i)对前向和后向状态向量以及父标签嵌入向量和父标签嵌入向量进行分类和归一化，以产生依赖性关系标签概率质量向量，以及(ii)投影依赖性关系标签概率质量向量以产生依赖性关系标签嵌入向量。所公开的方法还包括至少输出反映每个词的依赖性关系的分类标签、依赖性关系标签概率质量向量或依赖性关系标签嵌入向量的结果。

根据所公开的方法，可以通过限制可用分析框架标签的数目来创建维度瓶颈，如上所述，有益于在训练堆叠时减少过度拟合。在替代实现中，(i)通过其计算依赖性关系概率质量向量的可用分析框架标签的数目是前向和后向状态的维度的五分之一或更小，从而在训练双向LSTM的神经网络堆叠时形成降低过度拟合的维度瓶颈，或(ii)通过其计算依赖性关系概率质量向量的可用分析框架标签的数量是前向和后向状态的维度的十分之一或更小，从而在训练双向LSTM的神经网络堆叠时形成减少过度拟合的维度瓶颈。

其他实现可以包括有形的非暂时性计算机可读介质，其具有可与处理器和耦合到处理器的存储器结合的指令。当在计算机设备和一个或更多个服务器上执行指令时，执行前面描述的任何方法。在其他实现方式中，具有可与处理器和耦合到处理器的存储器组合的指令的有形非暂时性计算机可读介质执行先前描述的系统。

又一实现可以包括计算系统，该计算系统包括至少一个服务器，该服务器包括一个或更多个处理器和耦合到处理器的存储器，存储器包含计算机指令，当在处理器上执行时，该计算机指令使计算系统执行前面描述的任何过程。

虽然所公开的技术是参考在上面详述的优选实施例和示例公开的，应理解这些示例旨在说明而不是限制。预期本领域技术人员将容易想到修改和组合，这些修改和组合将落入本发明的精神和所附权利要求的范围内。

计算机系统

图11是可用于实现联合多任务神经网络模型100的计算机系统1100的简化框图。计算机系统1100通常包括一个或更多个CPU处理器1120，其经由总线子系统1132与多个外围设备通信。这些外围设备可以包括存储器子系统1112，其包括例如存储器设备和文件存储子系统1118、用户接口输入设备1130、用户接口输出设备1124、网络接口子系统1122、以及具有多个GPU处理核的GPU 1126或GPU处理器1128。输入和输出设备允许用户与计算机系统1100交互。网络接口子系统1122提供到外部网络的接口，包括到其他计算机系统中的相应接口设备的接口。

根据一些实现，联合多任务神经网络模型100的操作由GPU处理核1128执行。

用户接口输入设备1130或客户端或客户端设备可包括键盘；定点向设备，如鼠标、轨迹球、触摸板或图形输入板；扫描仪；包含在显示器中的触摸屏；音频输入设备，诸如语音识别系统和麦克风；以及其他类型的输入设备。通常，术语“输入设备”的使用旨在包括所有可能类型的设备和将信息输入计算机系统1100的方式。

用户接口输出设备1124可以包括显示子系统、打印机、传真机或诸如音频输出设备的非可视显示器。显示子系统可包括阴极射线管(CRT)，诸如液晶显示器(LCD)的平板装置，投影装置或用于产生可见图像的一些其他机构。显示子系统还可以提供非可视显示，例如音频输出设备。通常，术语“输出设备”的使用旨在包括将信息从计算机系统1100输出到用户或另一个机器或计算机系统的所有可能类型的设备和方式。

存储子系统1110存储提供本文描述的一些或所有模块和方法的功能的编程和数据结构。这些软件模块通常由CPU处理器1120单独执行或与诸如GPU处理器1128的其他处理器组合执行。

存储子系统中的存储器子系统1112可包括多个存储器，包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)1116和存储固定指令的只读存储器(ROM)1114。文件存储子系统1118可以为程序和数据文件提供持久存储，并且可以包括硬盘驱动器、软盘驱动器以及相关的可移除介质，CD-ROM驱动器，光驱动器或可移除介质盒。实现某些实现的功能的模块可以由文件存储子系统1118或存储器子系统1112存储，或者存储在处理器可访问的其他机器中。

总线子系统1132提供用于使计算机系统1100的各种组件和子系统按预期彼此通信的机制。虽然将总线子系统1132示意性地示为单个总线，但总线子系统的替代实现方式可以使用多个总线。在一些实现中，应用服务器(未示出)可以是允许计算机系统1100的应用程序运行的框架，例如硬件和/或软件，例如操作系统。

计算机系统1100本身可以是各种类型，包括个人计算机、便携式计算机、工作站、计算机终端、网络计算机、电视、大型机、服务器群、广泛分布的一组松散联网的计算机，或者任何其他数据处理系统或用户设备。由于计算机和网络的不断变化的性质，图11中描绘的计算机系统1100的描述仅用于说明本发明优选实施例的具体示例。计算机系统1100的许多其他配置可能具有比图11中描绘的计算机系统更多或更少的组件。

提供前面的描述以使得能够制造和使用所公开的技术。对所公开的实现的各种修改将是显而易见的，并且在不脱离所公开的技术的精神和范围的情况下，本文定义的一般原理可以应用于其他实现和应用。因此，所公开的技术不旨在限于所示的实现方式，而是与符合本文公开的原理和特征的最宽范围相一致。所公开的技术的范围由所附权利要求限定。根据ICLR 2017在审核的会议论文《联合多任务模型：针对多个NLP任务增长神经网络》，桑原桥本(Kazuma Hashimoto)，熊蔡明(Caiming Xiong)，吉政鹤岗(YoshimasaTsuruoka)，理查德佐赫尔(Richard Socher)，东京大学，{hassy，tsuruoka}@logos.t.u-tokyo.ac.jp，易享研究中心(Salesforce Research)，{cxiong，rsocher}@salesforce.com，通过引用并入本文。

Claims

1.一种训练堆叠的长短期记忆(LSTM)序列处理器的方法，所述堆叠的LSTM序列处理器根据分析层级堆叠成处理词条序列的至少三层，训练方法包括：

使用针对每层的训练示例通过后向传播训练第一层、第二层和第三层，同时在训练期间具有至下层的正则化的向下传递，包括：

使用第一层训练示例训练所述第一层；

使用第二层训练示例训练所述第二层，同时具有至所述第一层的正则化的向下传递训练；以及

使用第三层训练示例训练所述第三层，同时具有至所述第一层和所述第二层的正则化的向下传递训练；

其中正则化的向下传递训练包括：

约束训练目标函数，所述训练目标函数具有适应度函数，

所述适应度函数具有至少两个正则化项；

使用所述至少两个正则化项中的第一正则化项将在所述三层中的当前层中的至少一个参数正则化；以及

使用所述至少两个正则化项中的第二正则化项、通过惩罚应用于所述下层的系数矩阵的权重大小的增长将下层正则化，所述至少两个正则化项将应用于所述下层的系数矩阵中权重的所有变化连续地正则化，以及

其中所述第二正则化项是连续正则化参数乘以至少一个下层的层参数与在先前子时期中的所述至少一个下层的层参数之间的差的平方。

2.如权利要求1所述的方法，其中所述适应度函数是基于负对数似然的交叉熵。

3.如权利要求1所述的方法，其中所述适应度函数是Kullback-Leibler散度(KL-散度)。

4.如权利要求1所述的方法，其中所述适应度函数是均方误差。

5.如权利要求1所述的方法，进一步包括根据所述堆叠的LSTM中的所述分析层级训练至少五层。

6.如权利要求1所述的方法，进一步包括根据所述堆叠的LSTM中的所述分析层级训练至少十层。

7.如权利要求1所述的方法，进一步包括所述堆叠的LSTM下方的基底层与所述堆叠的LSTM分开训练并产生所述堆叠的LSTM的最低层使用的输入。

8.如权利要求1所述的方法，进一步包括所述堆叠的LSTM上方的阁楼层与所述堆叠的LSTM分开训练并消耗所述堆叠的LSTM的最上层的输出。

9.一种用于将中间结果从双向长短期记忆(LSTM)的神经网络堆叠中的下层传送到叠加层的方法，其中堆叠具有对应于处理词条序列的分析框架的层，并且所述下层为每个词条产生分析框架标签向量，所述方法包括：

针对所述词条序列，使用所述下层分析所述词条，包括：

将表示所述词条序列中的所述词条的词条嵌入处理成第一嵌入；

应用所述双向LSTM来计算每个词条的前向状态向量和后向状态向量；

将分类器应用于所述前向状态向量和所述后向状态向量，以将每个词条嵌入到分析框架标签空间中作为标签空间向量，所述标签空间向量具有对应于可用分析框架标签的数目的维度，其中可用分析框架标签的数目小于所述前向状态向量和所述后向状态向量的维度；以及

将每个词条的标签空间向量投影到扩展的维度标签空间中以产生扩展的词条标签向量，所述扩展的维度标签空间的维度具有所述前向状态向量和所述后向状态向量的维度；以及

从所述下层向所述叠加层传送所述前向状态向量、所述后向状态向量和所述扩展的词条标签向量，从而所述第一嵌入提供所述叠加层所需的输入，以在用于处理词条的所述分析框架中执行其角色。

10.如权利要求9所述的方法，进一步包括除了状态向量之外，将由所述下层接收的作为输入的向量通过旁路传送到所述叠加层。

11.如权利要求9-10中任一项所述的方法，其中所述下层在两个更深的层之上，还包括将由所述两个更深的层接收的作为输入的向量和由所述两个更深的层产生的作为输出的嵌入的标签向量通过旁路传送到所述叠加层。

12.如权利要求9-10中任一项所述的方法，其中可用分析框架标签的数量是所述前向状态向量和所述后向状态向量的维度的五分之一或更小，从而形成维度瓶颈，当训练双向LSTM的所述神经网络堆叠时，所述维度瓶颈减少过度拟合。

13.如权利要求9-10中任一项所述的方法，其中可用分析框架标签的数量是所述前向状态向量和所述后向状态向量的维度的十分之一或更小，从而形成维度瓶颈，当训练双向LSTM的所述神经网络堆叠时，所述维度瓶颈减少过度拟合。

14.一种训练堆叠的长短期记忆(LSTM)序列处理器的系统，所述堆叠的LSTM序列处理器根据分析层级堆叠成处理词条序列的至少三层，所述系统包括：

处理器；

存储器，其耦合到所述处理器并且经配置以：

使用针对每层的训练示例通过后向传播训练第一层、第二层和第三层，同时在训练期间具有至下层的正则化的向下传递，所述训练包括：

使用第一层训练示例训练所述第一层；

其中正则化的向下传递训练包括：

约束训练目标函数，所述训练目标函数具有适应度函数，

所述适应度函数具有至少两个正则化项；

15.如权利要求14所述系统，其中所述适应度函数是基于负对数似然的交叉熵。

16.如权利要求14所述的系统，其中所述适应度函数是Kullback-Leibler散度(KL-散度)。

17.如权利要求14所述的系统，其中所述适应度函数是均方误差。

18.如权利要求14所述的系统，进一步包括根据所述堆叠的LSTM中的所述分析层级训练至少五层。

19.如权利要求14所述的系统，进一步包括根据所述堆叠的LSTM中的所述分析层级训练至少十层。

20.如权利要求14所述的系统，进一步包括所述堆叠的LSTM下方的基底层与所述堆叠的LSTM分开训练并产生所述堆叠的LSTM的最低层使用的输入。

21.如权利要求14所述的系统，进一步包括所述堆叠的LSTM上方的阁楼层与所述堆叠的LSTM分开训练并消耗所述堆叠的LSTM的最上层的输出。