CN112818670B

CN112818670B - 可分解变分自动编码器句子表示中的切分语法和语义

Info

Publication number: CN112818670B
Application number: CN202110267233.8A
Authority: CN
Inventors: 李定成; 任绍刚; 李平
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2020-08-05
Filing date: 2021-03-11
Publication date: 2023-10-27
Anticipated expiration: 2041-03-11
Also published as: CN112818670A; US20220043975A1

Abstract

本文描述了被称为可分解变分自动编码器(DecVAE)的框架的实施例，其通过使用Kullback‑Leibler(KL)分歧的总相关惩罚来对语法和语义进行解缠处理。原始VAE的KL发散项被分解，使得所生成的隐藏变量可以以清晰的、和可解释的方式被分离。对各种语义相似性和句法相似性数据集评估DecVAE模型的实施例。实验结果表明，DecVAE模型的实施例在句法表示和语义表示之间的解缠处理方面实现了现有技术(SOTA)的性能。

Description

可分解变分自动编码器句子表示中的切分语法和语义

技术领域

本公开总体上涉及用于计算机学习的系统和方法，其可以提供改进的计算机性能、特征和用途。更具体地，本公开涉及利用变分自动编码器(VAE)来对语法和语义进行解缠处理的系统和方法。

背景技术

深度神经网络在例如计算机视觉、自然语言处理、推荐系统等领域取得了巨大的成功。最近基于生成对手网络(Generative Adversarial Networks；GAN)或VAE的神经解缠模型，在计算机视觉和自然语言处理中显著促进了主题分割和对象/实体属性分离的任务。然而，当前的模型在对密切相关的属性(例如，人类语言中的语法和语义)进行解缠操作方面仍然处于粗略的层次。

因此，需要一种系统和方法来对语法和语义进行解缠操作以提高性能。

发明内容

本申请一个方面提供了一种用于对表示进行解缠处理的、计算机实现的方法，包括：接收令牌序列的输入；使用包括第一嵌入层和第一注意层的第一组合，基于所述令牌序列生成第一隐藏变量序列；使用包括第二嵌入层和第二注意层的第二组合，基于所述令牌序列生成第二隐藏变量序列；使用语义编码器基于所述第一隐藏变量序列生成语义隐藏变量序列；使用语法编码器基于所述第二隐藏变量序列生成语法隐藏变量序列；基于所述语义隐藏变量序列和所述语法隐藏变量序列，利用解码器生成重构令牌序列和对应的重构注意力权重序列；响应于训练处理，构造一个或多个损失函数，使用所述重构令牌序列和对应的所述重构注意力权重序列来训练所述第一嵌入层、所述第二嵌入层、所述第一注意层、所述第二注意层、所述语义编码器、所述语法编码器和所述解码器中的至少一个；以及响应于推断处理，为一个或多个自然语言处理(NLP)应用输出所述重构令牌序列和对应的所述重构注意力权重序列。

本申请的另一方面，提供了一种用于对表示进行解缠操作的系统，包括：一个或多个处理器；和包括一组或多组指令的非暂时性计算机可读介质，所述一组或多组指令在由所述一个或多个处理器中的至少一个执行时使得执行以下步骤，所述步骤包括：使用包括第一嵌入层和第一注意层的第一组合，基于令牌序列生成第一隐藏变量序列；使用包括第二嵌入层和第二注意层的第二组合，基于所述令牌序列生成第二隐藏变量序列；使用语义编码器基于第一隐藏变量序列生成语义隐藏变量序列；使用语法编码器基于第二隐藏变量序列生成语法隐藏变量序列；基于语义隐藏变量序列和语法隐藏变量序列，利用解码器生成重构令牌序列和对应的重构注意力权重序列；和响应于训练处理，构造一个或多个损失函数，使用重构令牌序列和对应的重构注意力权重序列，来训练所述第一嵌入层、所述第二嵌入层、所述第一注意层、所述第二注意层、所述语义编码器、所述语法编码器和所述解码器中的至少一个；响应于推断过程，为一个或多个自然语言处理(NLP)应用输出所述重构令牌序列和对应的所述重构注意力权重序列。

本申请的另一方面还提供了一种包括一个或多个指令序列的非暂时性计算机可读介质，所述一个或多个指令序列在由至少一个处理器执行时执行如上所述的方法。

本申请的另一方面还提供了一种计算机程序产品，包括计算机程序，所述计算机程序在由处理器执行时，执行如上所述方法。

附图说明

将参考本公开的、在附图中示出了其示例的实施方式。这些附图是说明性的，而不是限制性的。尽管在这些实施方式的上下文中一般性地描述了本公开，但是应当理解，其并不旨在将本公开的范围限制于这些特定实施方式。图中的特征也可能不是按比例绘制的。

图1示出了根据本公开的实施方式的可分解变分自动编码器(DecVAE；decomposable variational autoencoder)的结构。

图2示出了根据本公开实施方式的、用于对句子表示(representation)中的语法和语义进行解缠操作的过程。

图3示出了根据本公开实施方式的、用语义隐藏变量交换进行训练的过程图。

图4示出了根据本公开的实施方式的具有语义隐藏变量交换的训练过程的过程。

图5示出了根据本公开实施方式的、按句子长度分析F1分数的组成部分。

图6根据本公开的实施方式的通过句子长度用图形描述了语音部分标记的准确性。

图7示出了根据本公开实施方式的计算设备/信息处理系统的简化框图。

具体实施方式

在以下描述中，出于解释的目的，阐述了具体细节以提供对本公开内容的理解。然而，对于本领域的技术人员显而易见的是，可以在没有这些细节的情况下实践本公开的方案。此外，本领域技术人员应该认识到，以下描述的本公开实施方式可通过多种方式来实现，诸如在有形的计算机可读介质上的处理进程、设备、系统、装置或方法。

在图中示出的组件或模块是本公开示例性实施方式的示例，并有意地避免了对本公开内容的混淆。还应当理解，在整个讨论中，组件可以被描述为可包括子单元的单独的功能单元，但是本领域技术人员应该认识到，各种组件或其部分可被划分为单独的组件或者可被集成在一起，包括例如在单个系统或组件中。应注意，本文所论述的功能或操作可被实施为组件。这些组件可以用软件，硬件或其组合来实现。

此外，附图中的组件或系统之间的连接并不限于直接连接。相反，这些组件之间的数据可以由中间宿主组件修改、重新格式化或以其它方式改变。此外，可使用另外的或更少的连接。还应当注意，术语“耦合”、“连接”、“通信地耦合”、“接口”或它们的任何派生词应当被理解为包括直接连接、通过一个或多个中间宿主设备的间接连接、以及无线连接。还应当注意，诸如信号、响应、应答、确认、消息、查询等的任何通信可以包括一个或多个信息交换。

在说明书中提及“一个或多个实施方式”、“优选实施方式”、“实施方式”和“一些实施方式”等意味着结合实施方式描述的特定特征、结构、特性或功能被包括在本公开的至少一个实施方式中，并且可包括在多个实施方式中。此外，在说明书的各个地方出现的上述短语并不必然都指向相同的一个或多个实施方式。

在本说明书的各个地方使用某些术语是为了说明的目的，而不应被解释为限制。服务(service)、功能(function)或资源(resource)不限于单个服务、功能或资源；这些术语的使用可以指相关服务、功能或资源的分组，其可以是分布式的或专注式的。术语“包括”和“包含”应理解为开放式术语，并且其包括的任何特征都是示例，而非穷尽的。“层(layers)”可包括一个或多个操作。词语“最佳的”、“最佳化”、“最佳”等是指结果或过程的改进，并且不要求指定的结果或过程已经达到“最佳的”或峰值状态。存储器、数据库、信息库、数据存储、表(table)、硬件、高速缓存等的使用在这里可以被用于指代信息可以被输入或以其他方式被记录到其中的一个或多个系统组件。

在一个或多个实施方式中，停止条件可包括：(1)已经执行了设定的迭代次数；(2)已经达到处理时间的量；(3)收敛(例如，连续迭代之间的差小于第一阈值)；(4)发散(divergence)(例如，性能劣化)；(5)已经达到可接受的结果。

本领域技术人员应认识到：(1)可任选地进行某些步骤；(2)步骤可不限于本文所述的具体顺序；(3)某些步骤可以以不同的顺序进行；和(4)某些步骤可以同时进行。

本文所用的任何标题仅用于组织目的，而不是用来限制说明书或权利要求书的范围。在该专利文献中提及的每个参考文献/文献通过引用将其全文并入到本文中。

应注意的是，本文提供的任何实验和结果是通过举例说明的方式提供的，并且在使用具体实施方式的具体条件下进行这些实验；因此，这些实验和它们的结果都不应用于限制本专利文件的公开范围。

还应注意，尽管本文描述的实施方式可在自然语言处理的上下文内，但本发明的各个方面并不限于此。因此，本发明的各方面可用于或适于其它环境。

A.一般介绍

在机器学习、计算机视觉以及自然语言处理(NLP)中，人们对可解释的或解缠的潜在表示(representations)的学习产生了越来越多的兴趣。解缠操作(disentanglement)本质上是分离数据中变化的潜在因子并进一步学习可解释的语义信息的任务。具有统计独立变量的因子表示通常以无监督或半监督方式获得，并将信息提取成一种紧凑的形式，这在语义上是有意义的，并且对于各种应用是有用的。

在NLP中，解缠操作已经被用于将诸如情感(sentiment)的属性的表示与内容(contents)分开，理解主题建模中的子主题，学习句子表示以将句子的语法和语义分开。它们还被用于更好地控制文本生成或者用于计算句子之间的语义或语法相似性。

本公开的一个或多个实施方式专注于对句子内的语法和语义进行解缠操作，尽管解缠操作框架是通用的并且可以应用于其他任务。选择此任务的一个原因是由于对此方面的工作很少。同时，在自然语言理解或自然语言生成中，语法和语义的解缠在准确性(更多地理解各种隐藏语言结构和语义子实体)和效率(显着地降低了对注释数据的需求)上都会带来相当大的改进。

一些人提出了一种深度生成模型来对语法和语义声明进行解缠操作。该生成模型包括：语义和语法的潜在变量分别对应的VMF(von Mises Fisher)和Gaussian priors(高斯先验)、以及用于处理这些潜在变量的深度BOW(deep-bag-of-words)解码器。他们的工作最先提出了用解缠操作方法从隐藏变量中分离语法和语义。然而，它们的方法缺少精细的分解，因此有可能难以更细致地对语法和语义进行解缠操作。为了解决这一缺点，在本公开中公开了DecVAE的实施方式，以使得隐藏变量更可分解。具体地，将总相关(totalcorrelation)作为惩罚(penalty)引入到VAE中，从而可以获得更深且有意义的因子分解。为了进行比较，在一个或多个语义文本相似性(STS)数据集上评估所学习的语义表示。在一个或多个实施方式中，看不见的句子的语法结构被预测为与其最近的相邻句子相似的语法结构，其由注释句子的大数据专注的潜在语法表示来确定。实验表明，在所学习的表示(representations)被最多地解缠时，本公开实施方式在所有任务上都实现了最佳性能。

本公开的一些贡献如下。首先，公开了基于Kullback-Leibler(KL)分歧的总相关，对语言主题进行解缠操作的通用DecVAE的实施方式。其次，将多头(multi-head)注意力网络的实施方式引入到聚类嵌入向量中，以使得相应的字嵌入更具区别。第三，在从语义中解缠出语法的任务中并入了DecVAE，这实现了现有技术的性能，从而显示了DecVAE的实施方式的有效性。

B.一些相关工作

在本节中，简要回顾本领域过去几年中的解缠操作及其相关工作。回顾关于NLP中的解缠操作的一些相关工作，并讨论这些工作中的缺点以及如何使用本公开的实施方式来解决这些缺点。

1.学习经过解缠处理的表示

变分自动编码器(VAE)是将自顶向下的生成器与自底向上的推断网络配对的潜在变量模型。与传统的最大似然估计(MLE)方法不同的是，通过ELBO(evidence lower bound；证据下界)优化来进行VAE训练，以克服MLE的难解性。基本上，VAE的目标函数可以表示如下：

其中，＝1，它是标准VAE，当β＞1时，它是β-VAE。标准VAE优化在经验分布上被平均的ELBO。相反，当β＞1时，β-VAE试图通过优化严重惩罚的目标来学习被解缠的表示。这种编码器将被迫与因式分解的高斯先验相匹配，并在潜在瓶颈的容量上引入额外的约束。

通过进一步分解KL项，可以如下获得Pixel-GAN自动编码器：

其中，I(x；z)是联合分布p(x)q(z|x)下的相互信息。惩罚KL(q(z)‖p(z))项使得q(z)推向因子先验p(z)，从而鼓励在维度z上的独立性，从而解除缠结。

尽管相互信息惩罚鼓励解缠处理，但由于信息减少导致在潜在空间中观察的信息不足，使得不可能恢复真实因数，因此可能导致对高值β的重建不良。对于解缠处理，既不需要也不期望对I(x；z)的惩罚超过VAE。这在生成对手网络(InfoGAN，GAN的一个变体)的信息理论扩展中被示出。通过最大化观察(observation)和潜变量的小子集(表示为I(x；z))之间的相互信息，InfoGAN鼓励可解释的潜表示。

作为一种选择，FactorVAE(一种通过鼓励表示的分布在维度上因式分解并因此独立于维度的解缠处理方法)以总相关惩罚来解决这个问题。在保持良好的重建质量的同时，实现了类似的解缠好处理结果。它通过用于直接鼓励代码分布独立的因式分解项增强了VAE目标，达到了以下目标

其中，这也是边缘对数似然/>的下界。/>被称为TC(Total Correlation；总关联)，是对多个随机变量的依赖性的度量。

2.NLP中解缠处理

如“一般介绍”部分所述，NLP中的解缠处理涉及不同的应用。例如，它已经被用于句子情感分析和风格传递、形态恢复、语义分析、文本生成、顺序标记、基于文本的VAE、以及语法和语义的分离以及它们的交互。

最后的任务可能是非常有挑战性的，因为语法和语义在很大程度上是纠缠的。除了在没有歧义的情况下，例如一些唯一的固有名称，更经常地而不是没有歧义的情况下，很难找到字、短语或实体(entity)之间的绝对边界。

尽管在语法和语义分析方面已经做了许多工作，但是还没有对解缠语法和语义进行许多探索。一些人提出了一种VGVAE(vMF-Gaussian Variational Autoencoder)，其假设通过调节两个独立变量：语义变量z_sem和语法变量z_syn来产生句子。为了推断，VGVAE假设将产生因子分解的后验，并且在生成过程中将边缘对数似然的下限最大化。

在VGVAE中，相应的推断和生成模型是具有附加的线性前馈神经网络和前馈神经网络(输出是字包)的、两个独立的字平均编码器。作为一种选择，VGVAE还可考虑用基于RNN的序列模型代替生成模型和推断模型。在训练期间，通过依次最小化三个损失(参数重构损失、区别释义损失和字位置损失)来采用多任务训练。

与VGVAE相比，本公开的一个或多个实施方式旨在通过部署KL散度的可分解性来构造可分解的VAE，从而从隐藏变量中发现更细微的主题(topics)。因此，可分解的VAE框架的实施方式可实现具有精细分解主题的更好解缠处理。此外，在一个或多个实施方式中，可以灵活地添加规则以引导分解，从而可以从解码器生成更多可解释和可控的元素。

C.用于对语义和语法信息进行解缠操作的实施方式

尽管本公开可应用于NLP中的任何解缠任务，但一个或多个实施方式专注于从句子表示中解缠语义和语法信息。此外，为了公平比较，本公开的一个或多个实施方式由VGVAE递增地构造，尽管这些实施方式可以由任何基线模型构建。

1.可分解VAE模型的实施方式

公开了称为可分解VAE(DecVAE)的生成模型的一个或多个实施方式。DecVAE模型的一个或多个实施方式基本上基于VAE，该VAE包括在给定潜在变量的输入数据情况下计算对数似然的项，并且是计算给定输入数据时隐藏变量的后变分概率与隐藏变量的先前概率之间的KL差异的项，如等式1所示。根据NLP任务的上下文，DecVAE的实施方式可以更多域相关的方式来定义。

在一个或多个实施方式中，x₁，…，x_N被给出作为连续的潜在变量z为条件的个N令牌(字)的序列。在通常的实践中，例如，就像在LDA(Latent Dirichlet Allocations)中的假设，对于字z的条件独立性假设可以被描述为

在一个或多个实施方式中，可使用变分下限来学习模型参数：

其中，q_φ(z|x_n)是编码器(也称为识别模型或推断模型)，其由φ来参数化，即，是由难解的真实后验p_θ(z|x_n)近似。分布p_θ(z)是对z的先验。基于对句子中不同的词或短语代表扮演不同角色的不同实体(无论是语法的还是语义的)并且可能相互作用的观察，可以通过设计可分解的潜在变量的VAE，来引导VAE中的潜在变量的生成对应于句子中的实体。此外，重构网络可以顺序地生成字或短语。

在一个或多个实施方式中，DecVAE可分层地识别人类语言中的独立主题，因为它们是分层组织的，所以可被认为是流形状(manifold)，并且相应的语法和语义在缠接的空间中交互。DecVAE的实施方式可以使用将潜在空间(利用输入采样的编码器学习的)映射到该语言流形/>在一个或多个实施方式中，/>表示解码器的潜在变量，其中z_i表示潜在变量的第x_i主题。在一个或多个实施方式中，/>表示解码器输出的变量，其中变量/>表示K个主题，而不是连续的。z_i控制i-th个主题的属性。给定潜在变量的情况下(即，/>ifi≠j，z_k控制主题k的特定属性)，在一个或多个实施方式中假定了主题之间是特定条件下是彼此独立的。

在一个或多个实施方式中，DecVAE可以具有关于主题和潜在变量的以下独立假设：

x_i⊥z_j|z₀(j)，if i≠j (6)

其中，z₀(j)是全局潜在变量，即，对生成的句子的所有属性、以及不同语法和语义主题之间的相关性进行编码的特殊隐变量。应当注意，在等式(6)中，原始数据z₀被分成k个部分，每个部分对应于z₀(j)。在一个或多个实施方式中，生成句子的分布可以被导出为：

在一个或多个实施方式中，以此方式导出的DecVAE模型可以对每个主题的个体特征(个体令牌或字或短语)以及整个句子的全局潜在因子进行编码。

现有的VAE模型并入了语义编码器和语法编码器的输出中的KL发散和全局潜在因子的总相关，如2020年7月10日提交的、第16/926，525号(案号28888-2404)美国专利申请、题为“TOTAL CORRELATION VARIATIONAL AUTOENCODER STRENGTHENED WITH ATTENTIONSFOR SEGMENTING SYNTAX AND SEMANTICS(具有用于分割同步和SEMANTICS的注意力的总相关可变自动编码器串)”中所描述的那样。该申请的全部内容通过引用并入本文。前述专利文件中的实施方式在本文中可称为总相关变分自动编码器或TC_VAE。

2.目标函数实施方式

在一个或多个实施方式中，根据等式2计算KL发散的两个项被分解。同时，在C.1节中的DecVAE实施方式之后，添加全局控制器变量z₀。在一个或多个实施方式中，可以看出，对语言中的语法和语义进行解缠处理与计算机视觉中的主题分割具有一些相似性。一些最近的工作，例如，多对象网络(Monet；Multi-Object Network)，表明注意力网络层改善了主题分割以及主题解缠处理。在NLP社区中，也证明了注意层在提高性能方面起重要作用。在本公开的一个或多个实施方式中，将一个附加变量f添加到条件z中。在一个或多个实施方式中，基于潜在变量的可分解性质的语法方程可以定义如下：

在一个或多个实施方式中，基于潜在变量的可分解性质的语义方程可以定义如下：

在一个或多个实施方式中，总相关(TC)被惩罚以强制对潜在因子进行解缠处理。为了计算第二项，使用加权版本来估计q(z)的分布值。给最小尺寸M，即从大小为N的数组采样并且没有替换处理而获得的{x₁，…，x_M}，p(B_M)在大小为M最小批次上是均匀的，则下式满足：

3.网络结构实施方式

图1描述了根据本公开实施方式的DecVAE 100的网络结构。图2描绘了根据本公开实施方式的用于使用DecVAE 100对句子表示的语法和语义进行解缠处理的过程200。如图1所示，DecVAE包括两个嵌入层110和115、两个注意层120和125、语义编码器130、与语义编码器130分离的语法编码器135、以及解码器150。在一个或多个实施方式中，不同于通常的网络结构，前三层包括三个平行的独立层，其中这些层中的一组用于语义，另一组用于语法，第一组中的三个层包括第一嵌入层110、第一注意层120和语义编码器130，它们平行且独立于第二组包括的三个层，即，第二嵌入层115、第二注意力层125和语法编码器135。在一个或多个可选实施方式中，第一组合106的一个或多个层(包括第一嵌入层110和第一注意力层120)和第二组合108的一个或多个层(包括第二嵌入层115和第二注意力层125)可共享参数或者可以是共享层。例如，在一个或多个实施方式中，第一嵌入层和第二嵌入层可以共享参数(即，可以是语义和语法路径使用的同一层)。

由于第一组合主要或完全专注于语义、第二组合主要或完全专注于语法，DecVAE100可具有至少部分分离的结构组件，这些组件被指定用于分别提取语义和语法特征，而不需要在语义和语法之间进行包括。因此，输入到解码器的隐藏变量可被分解成具有清晰切割线的语义分量和语法分量。每个注意力层产生注意力权重，使得被K加权嵌入的集合在语义和语法编码器中都工作。

在一个或多个实施方式中，图1中所示的网络结构和图2中所示的过程可适用于模型训练和推断。响应于训练过程，可以在一个或多个损失函数中使用重构令牌序列155(例如字或短语序列)和/或相应的重构注意力权重序列156。响应于推断过程，在一个或多个NLP应用中，例如在可控文本生成中，可以使用重构令牌序列和/或相应的重构注意力权重序列，例如作为词和句子的精细表示。词和句子的精细表示可在自然语言理解或自然语言生成方面在准确性(更多地理解各种隐藏语言结构和语义细节)和效率(显著降低对注释数据的需求)方面带来相当大的改进。

给定包括令牌序列105(例如，字x₁，…，x_N，)的输入句子或表达式，第一嵌入层110将令牌转换(205)为第一嵌入向量序列emb_t112。在一个或多个实施方式中，第一嵌入层110并入了注意机制(attention mechanism)，并且还输出第一掩码序列m_t114，每个掩码m_t表示每个字或短语x_t是否出现在每个句子中。来自第一嵌入层的第一嵌入向量序列和第一掩码序列被输入到第一多头注意力层120中，以生成(210)第一注意力权重序列f_t122。在嵌入x_t和其注意力权重f_t之间实现逐元素乘法，以获得(215)第一隐藏变量序列124。在一个或多个实施方式中，使用包括第一嵌入层和第一注意层的第一组合来实现步骤205-215。语义编码器130接收第一隐藏变量序列124并生成(220)语义隐藏变量序列

在一个或多个实施方式中，第二嵌入层115并行地将令牌105转换(225)为第二嵌入向量序列emb_t116。在一个或多个实施方式中，第二嵌入层115包括注意机制，并且还输出第二序列掩码m_t118，其中每个掩码m_t示出每个字或短语x_t是否出现在每个句子中。来自第二嵌入层的第二嵌入向量序列和第二掩码序列被输入到第二多头注意力层125中，以生成(230)第二注意力权重序列f_t126。在嵌入x_t和其注意力权重f_t之间实现逐元素乘法，以获得(235)第二隐藏变量序列128。在一个或多个实施方式中，使用包括第二嵌入层和第二注意层的第二组合来实现步骤225-235。语法编码器135接收第二隐藏变量序列128，并生成(240)语法隐藏变量序列

如图1所示，由于输入句子的语义和语法都被建模，所以注意处理过程(attentionprocedure)以不同的和独立的初始化被处理两次，其结果被分别传递到语义编码器和语法编码器。每个编码器产生其隐藏变量，或/>

在DecVAE的一个或多个实施方式中，与用注意力网络顺序生成f_k的Monet不同，所有注意力122和126用多头注意力(multi-head attention)一次生成。在一个或多个实施方式中，多头注意力基本上可以是转换器模型。在一个或多个实施方式中，为了并入递归神经网络，DecVAE可具有其中来自转换器(transformer)的自注意机制与时间卷积相结合的结构。计算机视觉(CV)应用中的主题(topic)K看起来更像分段，而它更像NLP中的群集(cluster)或主题。在DecVAE的一个或多个实施方式中，嵌入向量与注意力掩码进行逐元素的相乘产生隐藏向量，这些隐藏向量又分别被放入语义编码器和语法编码器中以被编码为一对变量z_k，z₀(k)。

在一个或多个实施方式中，两组隐藏主题向量(也称为语义隐藏变量132和语法隐藏变量136)被级联到解码器中以生成(245)重构令牌序列(例如，字或短语)和对应的重构注意力权重序列/>(类似于主题分配)。

在一个或多个实施方式中，语义隐藏变量序列包括多个局部语义隐藏变量/>和多个全局隐藏变量/>语法隐藏变量序列/>包括多个局部语法隐藏变量/>和多个全局隐藏变量/>

在一个或多个实施方式中，全局潜在变量z₀是对所生成的句子的整体特性以及不同语法和语义主题之间的相关性进行编码的特殊潜在变量。在一个或多个实施方式中，可基于局部语义隐藏变量和局部语法隐藏变量/>来获得全局潜在变量序列z₀。在一个或多个实施方式中，全局潜在变量z₀可以是局部语义隐藏变量/>和局部语法隐藏变量/>的级联。在一个或多个实施方式中，语义隐藏变量序列中的全局隐藏变量可以与语法语义隐藏变量序列中的全局隐藏变量相同。在一个或多个实施方式中，语义隐藏变量序列中的全局隐藏变量可以与语法语义隐藏变量序列中的全局隐藏变量不同。为了区分的目的，语义隐藏变量序列中的全局隐藏变量可被识别为全局语义隐藏变量/>而语义隐藏变量序列中的全局隐藏变量可被识别为下文一些描述中的全局语法隐藏变量/>而这两个全局隐藏变量/>和/>可相同或不同。

4.训练和推断的实施方式

在本公开的一个或多个实施方式中，以嵌入向量(emb_t)和它们的相应焦点掩码(f_t)的乘积(h_t)作为语义编码器或语法编码器的输入，作为潜在变量和/>作为解码器的输出，主题k的损失可以由下式给出：

其中，a，e，和d分别指多头注意层、编码器(其可以是语义编码器和/或语法编码器)和解码器层，θ和φ分别是似然和变分分布的参数。本地隐藏变量z_k可以包括和全局隐藏变量/>可以包括/>和/>γ是非负值。

在一个或多个实施方式中，所有主题的损失可以表示为：

其中，a，e，和d分别是注意力(attention)、编码器和解码器的简称。下面将在章节D描述相应的损耗函数的细节。

在一个或多个实施方式中，除了多头注意力层、编码器层和解码器层之外，主题k的损失还可以是嵌入层(例如，嵌入层110和115)的函数，从而也可以训练嵌入层的参数。

D.损失函数组件的实施方式

从等式(11)可以看出，损耗函数由三个部分组成，它们可以借助于在等式4和等式5中描述的目标函数来扩展。具体地，可将损耗定义为三个函数。它们是释义重构损失(PRL；paraphrase reconstruction loss)、区别释义损失(DPL)和字位置损失(WPL)。

1.释义重构损失的实施方式

图3示出了根据本公开实施方式的具有语义隐藏变量交换的训练过程的图。图4示出了根据本公开实施方式的具有语义隐藏变量交换的训练处理的过程。

通常，训练损失可包括区别释义损失(DPL)和释义重构损失(PRL)。在本公开的一个或多个实施方式中，编码器的每个输入包括对输入句子中的字x_t及其注意力权重ts f^0…k的嵌入。编码器的每个输出包括隐藏变量(or/>)和/>解码器的每个输出包括每个句子/>和它们的预测权重/>的预测嵌入。由于DecVAE带来的变量的增加，可能涉及更复杂和更细微的相互作用。因此，可以获得更强的辨别力，并且可以相应地获得更好的结果。

如图3中的示例性实施方式所示，包括第一输入句子x₁及其注意力权重的嵌入的第一输入302被馈送到语法编码器312中以生成(405)包括隐藏变量/>和的第一语法输出322。将包括第一输入句子x₁及其注意力权重/>的嵌入的第二输入304馈送到语义编码器314以生成(410)包括隐藏变量的第一语义输出324。根据图1的描述，第一输入302和第二输入304可以并行地并且彼此独立地生成。然后，将包括第二输入句子x₂及其注意力权重/>的嵌入的第三输入306馈入语义编码器314，以生成(415)包括隐藏变量/>和/>的第二语义输出326。包括第二输入句子x₂及其注意力权重的嵌入的第四输入308被馈送到语法编码器312以生成(420)包括隐藏变量/>和/>的第二语法输出328。类似地，第三输入306和第四输入308可以并行地并且彼此独立地生成。在一个或多个实施方式中，句子x₁和x₂可具有短语关系，例如，x₁和x₂可以被建模为利用相同或相似的语义潜在变量但是利用不同的语法潜在变量来生成。/>

在一个或多个实施方式中，语义变量还被交换，同时保持语法变量以重构句子。如图3所示，包括第一重构句子和预测权重/>的预测嵌入的第一解码器输出340从第一语法输出322和第二语义输出326而不是从第一语法输出322和第一语义输出324生成(425)。换句话说，第一语义输出324和第二语义输出326被交换用于句子重构。类似地，从第二语法输出328和第一语义输出324而不是从第二语法输出328和第二语义输出326生成(430)包括第二重构句子/>和预测权重/>的预测嵌入的第二解码器输出350。

在一个或多个实施方式中，PRL可以包括更多的变量，包括全局潜在因子z₀和焦点掩码变量f^k。考虑到图3和图4中的描述，PRL可以被定义为：

其中，以及

2.释义损失(Paraphrase Loss)的实施方式

在一个或多个实施方式中，可使用区分性释义损失(DPL)来鼓励具有释义关系的句子具有更高的相似性，而不具有这种关系的句子具有更低的相似性。因为释义关系是以语义相似性的意义来定义的，所以DPL只用来自vMF分布的样本来计算。在一个或多个实施方案中，DPL可以定义为：

max(0；δ-dist(x₁，x₂)+dist(x₁，n₁))+max(0；δ-dist(x₁，x₂)+dist(x₂，n₂)) (14)

其中，dist指的是距离，x₁和x₂是具有释义关系的句子，x₁和n₁是没有释义关系的句子。在一个或多个实施方式中，相似性函数是来自两个句子dist(x₁，x₂)＝cosine(μ(x₁)，μ(x₂))的语义变量的平均方向之间的余弦相似性。

3.字位置损失的实施方式

DPL关注于计算语义建模的损失，因此不能处理字序关系。在一个或多个实施方式中，使用字位置损失(WPL)来指导对语法变量的表示学习。这弥补了字平均编码器的缺陷(因为编码器只考虑字包，因此损失了字次序信息)。WPL甚至可以帮助重建LSTMAVG，因为WPL有助于明确地重建顺序(order)。在一个或多个实施方式中，对于字平均编码器和LSTM编码器，WPL用三层前馈神经网络f(·)来参数化。将语法变量z_syn的样本与字位置i处的嵌入向量emb_i的级联形成用于网络的输入。在解码器级中，位置i处的位置表示被预测为一个one-hot向量。相应的等式被定义为：

其中，softmax(·)_i表示位置i处的概率。

E.一些实验结果

应注意的是，这些实验和结果是通过举例说明的方式提供的，并且使用一个或多个具体实施方案在具体条件下进行；因此，这些实验和它们的结果都不应用于限制本专利文件的公开范围。

在一个或多个实验中，通过从数据集(dataset)对释义对进行子采样，从而形成训练集，并且使用不同的数据集作为开发集。对于语义相似性评估，使用一些其它测试集。

1.开始设置

在实验开始时，需要建立一些相关的超参数(hyperparameter)，包括潜在变量的维度、字嵌入(word embedding)、学习速率和损失权重。释义数据集的规模可能不大，因此，隐藏变量和字嵌入的维度都被设置为50。有几个理由选择数字50作为两者的维度。首先，较大的维度不会对性能造成太大的损害，但是也没有发现额外的益处。此外，较小的尺寸可以加速实验。最后，更重要的是，DecVAE实施方式中的主题发现与字嵌入是相随的。

在一个或多个参数设置中，隐藏维度与字嵌入的维度对齐。为PRL、重建损失、注意力f^k和之间的KL差异调节权重(基于开发集性能以0.1的增量从0.1至1)。在训练期间会使用来自每个潜在变量的一个样本。当基于STS任务的模型对DecVAE进行评估时，使用语义变量的平均方向。相反，语法变量的平均向量被用于语法相似性任务。在一个或多个设置中，总相关主要应用于语法任务，因为发现将总相关应用于VMF分布使得模型太复杂。因此，该框架被简化，仅针对语义部分计算注意力的KL分歧。

2.基线(Baselines)

已经表明，当对短语进行训练时，简单的字平均(WORD_AVG)模型和双向LSTM平均(BLSTM_AVG)模型在建模语义相似性方面可能具有高竞争力。WORD_AVG取输入序列中的字嵌入的平均值以获得句子表示。BLSTM_AVG使用双向LSTM的平均隐藏状态作为句子表示，其中前向和后向隐藏状态被级联。为了进行比较，对语义相似度和语法相似度数据集进行了预训练嵌入进行了基准确定。采取一个或多个平均策略来形成句子嵌入或隐藏状态。在一个或多个实验设置中，使用来自最后注意块的平均隐藏状态。

3.语义相似度评估

语义相似性评估的结果显示在表1中。除了与DecVAE的行相关的条目外，表1中的结果来自Chen等人的“A multi-task approach for disentangling syntax andsemantics in sentence representations(用于将句子表示中的语法和语义解缠处理的多任务方式)”，该文章录取在Proceedings of the 2019Conference of the NorthAmerican Chapter of the Association for Computational Linguistics：HumanLanguage Technologies(计算语言学协会北美分会2019年会议论文集：人类语言技术)，并且其全部内容通过引用结合于此。具体地，较上面的行示出了在对释义(paraphrases)进行训练时如何建模相似性。这些模型的每个方向使用50维的字嵌入和50维的LSTM隐藏向量。DPL仅用于训练。如表1所示，DecVAE WORD_AVG实现了STS avg度量和STS bm度量的最佳语义得分。尽管如此，对于所有的VGVAE和DecVAE的结果，这些差异似乎有些微不足道。同时，基于LSTM的模型还没有表现出优势，这可能与考虑LSTMAVG相对于WORDAVG的复杂性的训练时期不足有关。从表1中可以看出，无论做出什么变化，基于VAE的语言建模都可以很好地捕获语义。

表1还显示了语义和语法度量之间的显著差异。这种差异表明语义变量能否比语法变量更好地捕捉语义信息。本公开的实施方案的结果列在与DecVAE行相关的条目中。如图所示，基本VGVAE模型的语义和语法变量在STS测试集上显示出类似的性能。随着增加更多的损失，这两个变量的性能逐渐不同，表明在这两个变量中捕获了不同的信息。可以看出，在VGVAE中，各种损失在语义和语法的解缠处理中扮演着至关重要的角色。最后两行是DecVAE模型，DecVAE+WORD_AVG和DecVAE+LSTMAVG的两个实施方式的初步结果。在一个或多个实施方式中，从解码器获得全局潜在变量、焦点掩码变量和条件概率。在一个或多个实施方式中，总相关和其它相关的KL差异被部分地部署。如表1所示，获得了本公开的实施方式的竞争性结果，即可以清晰地分别解缠语义和语法的能力。

随着目标句子长度的增加，DecVAE模型实施方式和基线的性能被绘制在图5和图6中。从图中可以看到类似的趋势，即句子越长，表现越差。图5描述了基于语义和语法变量，按照句子长度为1-最近的邻居分析器分析F1得分的成分部分。解析器包括ALL(“全部”)模型515，具有LSTM编码器520的ALL模型、具有LSTM编码器和LSTM解码器525的ALL模型、具有LSTM编码器和LSTM解码器530的DecVAE模型、随机基线510和Oracle最近邻解析器(“Best(最好)”)505。图6描述了基于语义和语法变量的，1-最近的邻居分析器的用句子长度表示的语音部分标记的准确性。解析器包括ALL(“全部”)模型615、具有LSTM编码器620的ALL模型、具有LSTM编码器和LSTM解码器625的ALL模型、具有LSTM编码器和LSTM解码器630的DecVAE模型、随机基线610和oracle最近邻解析器(“Best(最好)”)605。在图5和图6中ALL(“全部”)表示使用VGVAE模型的所有多任务损失。DecVAE框架530和630接近顶部并且具有更可预测的趋势。

表1：各种STS测试集的皮尔逊相关性(％)。bm：STS基准测试集。avg：：STS测试集的每个域的皮尔逊相关性的平均值。如果结果在“语义变量”列中最高或在“语法变量”列中最低，则结果是粗体。“ALL(全部)”表示使用VGVAE的所有多任务损失。最后一行示出DecVAE模型实施方式的结果。除了与DecVAE行相关的条目外，结果来自Chen等人的“A multi-taskapproach for disentangling syntax and semantics in sentence representations(用于将句子表示中的语法和语义解缠处理的多任务方式)”，该文章录取在Proceedingsof the 2019Conference of the North American Chapter of the Association forComputational Linguistics：Human Language Technologies(计算语言学协会北美分会2019年会议论文集：人类语言技术)，并且其全部内容通过引用结合于此。

4.语法相似性评价

在一个或多个实验设置中，利用语法变量来计算1-最近邻语法解析器或语音部分(POS)标记器的最近邻。然后使用几个度量来评估输出分析和标记序列的质量。值得提及的一点是，该评估没有显示解析是如何的好。与语义相似度相似，语法变量可以捕获比语义变量更多的语法信息。

在一个或多个实验设置中，报道了成分分析的标记F1和POS标记的准确性。表2包括来自VGVAE模型和DecVAE实施方式的结果。尽管仅测试字嵌入平均值，但DecVAE实施方式在解析和标记方面都优于VGVAE。对于表2中的较低部分，与语义相似性相反，语法变量被预期为可以促进两个任务，而语义变量则使它们恶化。VGVAE用作表2中的基线。VGVAE的语义和语法变量对于两个任务都具有类似的精确度。然后，随着各种损耗的增加，预期的性能差异显得更加明显。表2表明，与VGVAE的变化相比，DecVAE的语义变量和语法变量之间的差异大部分是显著的，尽管DecVAE的语义变量不是最坏的，DecVAE的语法变量却不是最佳的。这种最大差异显示了在DecVAE中学习的语法和语义的良好解缠。表2还表明语法评估结果通常不如语义评估结果明显。

表2：语法相似性评价，用于成分分析的标记F1分数，以及用于语音部分标记的准确性(％)。如果数字在“语义变量”列中最差或者在“语法变量”列中最好，则它们是粗体。“ALL(全部)”表示使用了所有的多任务损失。除了与DecVAE行相关的条目外，结果来自Chen等人的“Amulti-task approach for disentangling syntax and semantics insentence representations(用于将句子表示中的语法和语义解缠处理的多任务方式)”，该文章录取在Proceedings of the 2019Conference of the North American Chapterof the Association for Computational Linguistics：Human Language Technologies(计算语言学协会北美分会2019年会议论文集：人类语言技术)，并且其全部内容通过引用结合于此。

5.一些解码器质量分析

除了上述关于语义和语法相似性的定量结果之外，还对解码器结果进行了质量分析。在一个或多个设置中，采用余弦相似性度量来根据语义和语法表示找到测试集示例的最近相邻句子。研究发现，最近邻词具有相似的方法。同时，由于注意网络和总相关的集成，发现所提出的WORD_AVG的实施方式可以获得比LSTM_AVG更好的结果。这显示了这两种组分的组合的益处。

F.一些结论

在本公开中，提出了被称为可分解变分自动编码器(DecVAE)的方法的实施方式，以在句子中解缠语法和语义。实验结果表明，DecVAE的实施方式可以在语义相似性和语法相似性方面获得与SOTA相当的结果。

总之，本公开提供了分层地集成句子和字表示学习的实施方式。注意(attention)和分割(segmentation)机制提高了字和句子嵌入的可解释性。对于字和句子，可以进一步探索精细的表示学习。词和句子的精细表示对于诸如可控文本生成之类的许多应用可能是必要的。

另外，尽管在本公开的实施方式中没有明确地示出LSTM_AVG的优点，但是LSTM在理论上可以比WORD_AVG更能够捕捉语法特征，利用LSTM可以进一步改进DecVAE框架的实施方式。此外，DecVAE框架的实施方式可以利用总相关的不同变化来进一步扩展。这种扩展可以包括在从注意力网络获得的解码器和注意力的预测注意力之间实现更简单的KL分歧，以及在隐藏变量的分布和具有变分近似的那些变量的分布之间实现更深的相互信息。在一个或多个实施方式中，可以将总相关应用于用VMF分布建模的语义主题。在一个或多个实施方式中，语义可以进一步用流形变换来建模。

G.计算系统实施方式

在一个或多个实施方式中，本专利文献的方面可涉及、可包括一个或多个信息处理系统/计算系统，或者可在一个或多个信息处理系统(或计算系统)上实现。信息处理系统/计算系统可包括可操作来计算、运算、确定、分类、处理、传输、接收、检索、发起、路由、交换、存储、显示、通信、显现、检测、记录、再现、处理或利用任何形式信息、智能或数据的任何手段或手段的组合。例如，计算系统可以是或可包括个人计算机(例如，膝上型计算机)、平板电脑、移动设备(例如，个人数字助理(PDA)、智能手机、平板手机、平板等)、智能手表、服务器(例如，刀片式服务器或机架式服务器)、网络存储设备、摄像机或任何其它合适设备，并且可在大小、形状、性能、功能和价格方面改变。计算系统可包括随机存取存储器(RAM)、一个或多个处理资源(诸如中央处理单元(CPU)或硬件或软件控制逻辑)、只读存储器(ROM)和/或其它类型的存储器。计算系统的另外组件可包括一个或多个盘驱动器、用于与外部设备通信的一个或多个网络端口、以及各种输入和输出(I/O)设备(例如键盘、鼠标、手写笔、触摸屏和/或视频显示器)。计算系统还可包括可操作为在各种硬件组件之间传输通信的一个或多个总线。

图7描绘了根据本公开的实施方式的信息处理系统(或计算系统)的简化框图。应理解，计算系统可不同地配置并且包括不同组件，包括如图7中所示的更少或更多的部件，但应理解，针对系统700所示出的功能可操作为支持计算系统的各种实施方式。

如图7所示，计算系统700包括一个或多个中央处理单元(CPU)701，CPU 701提供计算资源并控制计算机。CPU 701可用微处理器等实现，并且还可包括一个或多个图处理单元(GPU)702和/或用于数学计算的浮点协处理器。在一个或多个实施方式中，一个或多个GPU702可并入显示控制器709内，诸如一个或多个图卡的一部分。系统700还可包括系统存储器719，系统存储器719可包括随机存取存储器(RAM)、只读存储器(ROM)或两者。

如图7中所示，还可提供多个控制器和外围设备。输入控制器703表示至各种输入设备704的接口，例如键盘、鼠标、触摸屏和/或触笔。计算系统700还可包括存储控制器707，该存储控制器707用于与一个或多个存储设备708对接，存储设备中的每个包括存储介质(诸如磁带或盘)或光学介质(其可用于记录用于操作系统、实用工具和应用程序的指令的程序，它们可包括实施本公开的各方面的程序的实施方式)。存储设备708还可用于存储经处理的数据或是将要根据本公开处理的数据。系统700还可包括显示控制器709，该显示控制器709用于为显示设备711提供接口，显示设备711可为阴极射线管(CRT)显示器、薄膜晶体管(TFT)显示器、有机发光二极管、电致发光面板、等离子面板或任何其它类型的显示器。计算系统700还可包括用于一个或多个外围设备706的一个或多个外围控制器或接口705。外围设备的示例可包括一个或多个打印机、扫描仪、输入设备、输出设备、传感器等。通信控制器714可与一个或多个通信设备715对接，这使系统700能够通过各种网络(包括互联网、云资源(例如以太云、经以太网的光纤通道(FCoE)/数据中心桥接(DCB)云等)、局域网(LAN)、广域网(WAN)、存储区域网络(SAN))中的任一网络，或通过任何合适电磁载波信号(包括红外信号)来连接至远程设备。如描绘的实施方式中所示，计算系统700包括一个或多个风扇或风扇盘718以及一个或多个冷却子系统控制器717，其监视系统700(或其组件)的热温度并操作风扇/风扇盘718以助于调节温度。

在示出的系统中，所有主要系统组件可连接至总线716，总线716可表示多于一个的物理总线。然而，各种系统组件可在物理上彼此接近或可不在物理上彼此接近。例如，输入数据和/或输出数据可远程地从一个物理位置传输到另一物理位置。另外，实现本公开的各方面的程序可经由网络从远程位置(例如，服务器)访问。此类数据和/或程序可通过各种机器可读介质中的任一机器可读介质来传送，机器可读介质包括例如：诸如硬盘、软盘和磁带的磁性介质；诸如CD-ROM和全息设备的光学介质；磁光介质；以及专门配置成存储或存储并执行程序代码的硬件设备，诸如专用集合成电路(ASIC)、可编程逻辑器件(PLD)、闪存设备、其它非易失性存储器(NVM)设备(诸如基于XPoint的3D设备)、以及ROM和RAM设备。

本公开的方面可利用用于一个或多个处理器或处理单元以使步骤执行的指令在一个或多个非暂态计算机可读介质上编码。应注意，一个或多个非暂态计算机可读介质应包括易失性存储器和/或非易失性存储器。应注意，替代实现方式是可能的，其包括硬件实现方式或软件/硬件实现方式。硬件实施的功能可使用ASIC、可编程的阵列、数字信号处理电路等来实现。因此，任何权利要求中的术语“手段”旨在涵盖软件实现方式和硬件实现方式两者。类似地，如本文使用的术语“计算机可读媒介或介质”包括具有实施在其上的指令程序的软件和/或硬件或它们的组合。利用所构想的这些替代实现方式，应理解，附图以及随附描述提供本领域的技术人员编写程序代码(即，软件)和/或制造电路(即，硬件)以执行所需处理所要求的功能信息。

应注意，本公开的实施方式还可涉及具有其上具有用于执行各种计算机实施的操作的计算机代码的非暂态有形计算机可读介质的计算机产品。介质和计算机代码可为出于本公开的目的而专门设计和构造的介质和计算机代码，或者它们可为相关领域中的技术人员已知或可用的。有形计算机可读介质的示例包括例如：诸如硬盘、软盘和磁带的磁性介质；诸如CD-ROM和全息设备的光学介质；磁光介质；以及专门配置成存储或存储并执行程序代码的硬件设备，诸如专用集成电路(ASIC)、可编程逻辑器件(PLD)、闪存设备、其它非易失性存储器(NVM)设备(诸如基于XPoint的3D设备)、以及ROM和RAM设备。计算机代码的示例包括机器代码(例如，编译器产生的代码)以及包含可由计算机使用解释器来执行的更高级代码的文件。本公开的实施方式可整体地或部分地实施为可在由处理设备执行的程序模块中的机器可执行指令。程序模块的示例包括库、程序、例程、对象、组件和数据结构。在分布的计算环境中，程序模块可物理上定位在本地、远程或两者的设定中。

本领域的技术人员将认识到，计算系统或编程语言对本公开的实践来说均不重要。本领域的技术人员将还将认识到，多个上述元件可物理地和/或在功能上划分成模块和/或子模块或组合在一起。

本领域技术人员将理解，前文的示例和实施方式是示例性的，并且不限制本公开的范围。旨在说明的是，在本领域的技术人员阅读本说明书并研究附图后将对本领域的技术人员显而易见的本公开的所有、置换、增强、等同、组合或改进包括在本公开的真实精神和范围内。还应注意，任何权利要求书的元素可不同地布置，包括具有多个从属、配置和组合。

Claims

1.一种用于对表示进行解缠处理的、计算机实现的方法，包括：

接收令牌序列的输入；

使用包括第一嵌入层和第一注意层的第一组合，基于所述令牌序列生成第一隐藏变量序列；

使用包括第二嵌入层和第二注意层的第二组合，基于所述令牌序列生成第二隐藏变量序列；

使用语义编码器基于所述第一隐藏变量序列生成语义隐藏变量序列；

使用语法编码器基于所述第二隐藏变量序列生成语法隐藏变量序列；

基于所述语义隐藏变量序列和所述语法隐藏变量序列，使用解码器生成重构令牌序列和对应的重构注意力权重序列；响应于训练处理，构造一个或多个损失函数，使用所述重构令牌序列和对应的所述重构注意力权重序列来训练所述第一嵌入层、所述第二嵌入层、所述第一注意层、所述第二注意层、所述语义编码器、所述语法编码器和所述解码器中的至少一个；以及

响应于推断处理，为一个或多个自然语言处理应用输出所述重构令牌序列和对应的所述重构注意力权重序列。

2.如权利要求1所述的计算机实现的方法，其中：

使用以下步骤基于所述令牌序列生成所述第一隐藏变量序列：

在所述第一嵌入层处，从所述令牌序列中生成第一嵌入向量序列和第一掩码序列；

利用所述第一注意层，基于所述第一嵌入向量序列和所述第一掩码序列生成第一注意力权重序列；

通过所述第一嵌入向量序列与所述第一注意力权重序列的逐元素相乘，得到所述第一隐藏变量序列；以及

使用以下步骤基于所述令牌序列生成所述第二隐藏变量序列：

在所述第二嵌入层处，从所述令牌序列生成第二嵌入向量序列和第二掩码序列；

利用所述第二注意层基于所述第二嵌入向量序列和所述第二掩码序列生成第二注意力权重序列；以及

通过第二嵌入向量序列和第二注意力权重序列之间的逐元素相乘获得第二隐藏变量序列。

3.如权利要求1所述的计算机实现的方法，其中，所述语义隐藏变量序列的每个语义隐藏变量包括局部语义隐藏变量和全局语义隐藏变量，所述语法隐藏变量序列的每个语法隐藏变量包括局部语法隐藏变量和全局语法隐藏变量。

4.如权利要求1所述的计算机实现的方法，其中，所述第一嵌入层和所述第二嵌入层共享参数。

5.如权利要求1所述的计算机实现的方法，其中，所述第一嵌入层还是所述第二嵌入层。

6.如权利要求1所述的计算机实现的方法，其中，至少一个或多个所述损失包括所述语义编码器的Kullback-Leibler发散和所述语法编码器的Kullback-Leibler发散。

7.如权利要求1所述的计算机实现的方法，其中，所述语义隐藏变量序列和所述语法隐藏变量序列被接连到所述解码器中，以生成所述重构令牌序列和对应的所述重构注意力权重序列。

8.如权利要求1所述的计算机实现的方法，其中，所述语义隐藏变量序列中的至少两个连续语义隐藏变量被交换以生成所述重构令牌序列和相应的所述重构注意力权重序列。

9.一种用于对表示进行解缠操作的系统，包括：

一个或多个处理器；以及

包括一组或多组指令的非暂时性计算机可读介质，所述一组或多组指令在由所述一个或多个处理器中的至少一个执行时使得执行以下步骤，所述步骤包括：

使用包括第一嵌入层和第一注意层的第一组合，基于令牌序列生成第一隐藏变量序列；

使用语义编码器基于第一隐藏变量序列生成语义隐藏变量序列；

使用语法编码器基于第二隐藏变量序列生成语法隐藏变量序列；

基于所述语义隐藏变量序列和所述语法隐藏变量序列，使用解码器生成重构令牌序列和对应的重构注意力权重序列；以及

响应于训练处理，构造一个或多个损失函数，使用重构令牌序列和对应的重构注意力权重序列，来训练所述第一嵌入层、所述第二嵌入层、所述第一注意层、所述第二注意层、所述语义编码器、所述语法编码器和所述解码器中的至少一个；

响应于推断过程，为一个或多个自然语言处理应用输出所述重构令牌序列和对应的所述重构注意力权重序列。

10.如权利要求9所述的系统，其中：

通过所述第一嵌入向量序列与所述第一注意力权重序列的逐元素相乘，得到第一隐藏变量序列；以及

通过所述第二嵌入向量序列和第二注意力权重序列之间的逐元素相乘获得第二隐藏变量序列。

11.如权利要求9所述的系统，其中，所述语义隐藏变量序列的每个语义隐藏变量包括局部语义隐藏变量和全局语义隐藏变量，所述语法隐藏变量序列的每个语法隐藏变量包括局部语法隐藏变量和全局语法隐藏变量。

12.如权利要求9所述的系统，其中，所述第一嵌入层和所述第二嵌入层共享参数。

13.如权利要求9所述的系统，其中，所述第一嵌入层也是所述第二嵌入层。

14.如权利要求9所述的系统，其中，至少一个或多个所述损失包括用于所述语义编码器的Kullback-Leibler发散和用于所述语法编码器的Kullback-Leibler发散。

15.一种包括一个或多个指令序列的非暂时性计算机可读介质，所述一个或多个指令序列在由至少一个处理器执行时执行如权利要求1-8中任一项所述的方法。

16.一种计算机程序产品，包括计算机程序，所述计算机程序在由处理器执行时，执行如权利要求1-8中任一项所述的方法。