CN112861514A

CN112861514A - 分割语法和语义的注意力增强的全相关变分自编码器

Info

Publication number: CN112861514A
Application number: CN202110274407.3A
Authority: CN
Inventors: 李定成; 任绍刚; 李平
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2020-07-10
Filing date: 2021-03-15
Publication date: 2021-05-28
Anticipated expiration: 2041-03-15
Also published as: US20220012425A1; US11748567B2

Abstract

本申请公开了分割语法和语义的注意力增强的全相关变分自编码器，涉及人工智能，尤其涉及NLP领域。本文中描述了被称为全相关变分自编码器(TC_VAE)的框架的实施方式，其通过利用KL差异的全相关惩罚来解缠语法和语义。分解变分自编码器的损失中的一个或多个库尔贝克‑莱不勒(KL)发散项，从而可以分离生成的隐藏变量。TC_VAE框架的实施方式用于语义相似性任务和语法相似性任务的检查。实验结果表明，与现有技术(SOTA)相比，在相同的数据集上，在相似的设置下，在语法表示和语义表示之间实现了更好的解缠。

Description

分割语法和语义的注意力增强的全相关变分自编码器

技术领域

本公开总体上涉及用于计算机学习的系统和方法，其可以提供改进的计算机性能、特征和用途。更具体地，本公开涉及使用变分自编码器来分割语法和语义的系统和方法。

背景技术

深度神经网络在诸如计算机视觉、自然语言处理、推荐系统等领域取得了巨大的成功。

在机器学习、计算机视觉以及自然语言处理(NLP)中，学习可解释或解缠(disentangled)的潜在表示的工作越来越多。解缠本质上是分离数据中变化的潜在因子并进一步学习可解释的语义信息的任务。通常以无监督或半监督的方式获得的具有统计独立变量的因子表示将信息提取为紧凑形式，这在语义上是有意义的，并且对于各种应用有用。在NLP中，解缠已被用于分离诸如情感与内容的属性表示，从而理解主题建模中的微妙之处并且学习将句子的语法和语义分开的句子表示。它们还用于更好地控制文本生成，从而计算句子之间的语义或语法相似性。

提出了一种深度生成模型，以将语义与语法分割。深度生成模型分别对语义和语法潜在变量使用von Mises Fisher(VMF)和Gaussian priors，并且包括以这些潜在变量为条件的深度词袋(BOW)解码器。深度生成模型集中在利用生成方法从隐藏变量中分割语法和语义。然而，这种方法缺少精细粒度的分解，且因此可能无法以细微的方式将语义与语法分割。

因此，需要用于分割语法和语义以提高性能的系统和方法。

发明内容

本申请的一个方面提供了用于分割潜在表示的计算机实现的方法，该方法可包括：使用嵌入层为符号序列生成嵌入序列；使用注意力层基于嵌入序列生成注意力掩码序列；基于嵌入序列和注意力掩码序列生成隐藏变量序列；分别使用第一编码器和第二编码器基于隐藏变量序列生成第一潜在变量序列和第二潜在变量序列；以及使用解码器至少基于第一潜在变量序列和第二潜在变量序列的信息来推断重构符号序列和重构注意力掩码序列。

本申请的另一方面提供了用于分割潜在表示的系统，该系统可包括：一个或多个处理器；以及一个或多个非暂时性计算机可读介质，包括一组或多组指令，一组或多组指令在由一个或多个处理器中的至少一个执行时使得执行步骤。该步骤可包括：为符号序列生成嵌入序列；基于嵌入序列生成注意力掩码序列；基于嵌入序列和注意力掩码序列生成隐藏变量序列；分别基于隐藏变量序列生成第一潜在变量序列和第二潜在变量序列；以及至少基于第一潜在变量序列和第二潜在变量序列的信息来推断重构符号序列和重构注意力掩码序列。

本申请的又一方面提供了一个或多个非暂时性计算机可读介质，其可包括一个或多个指令序列，一个或多个指令序列在由至少一个处理器执行时执行用于分割潜在表示的步骤。该步骤可包括：使用嵌入层为符号序列生成嵌入序列；使用注意力层基于嵌入序列生成注意力掩码序列；基于嵌入序列和注意力掩码序列生成隐藏变量序列；分别使用第一编码器和第二编码器基于隐藏变量序列生成第一潜在变量序列和第二潜在变量序列；以及使用解码器至少基于第一潜在变量序列和第二潜在变量序列的信息来推断重构符号序列和重构注意力掩码序列。

本申请的又一方面提供了一种计算机程序产品，其上存储有计算机程序，其中，当上述计算机程序在被处理器执行时，使得处理器：基于嵌入序列和注意力掩码序列生成隐藏变量序列；分别基于隐藏变量序列生成第一潜在变量序列和第二潜在变量序列；以及至少基于第一潜在变量序列和第二潜在变量序列的信息来推断重构符号序列和重构注意力掩码序列。

附图说明

将参考本公开的实施方式，附图中可以示出其示例。这些附图是说明性的，而不是限制性的。尽管在这些实施方式的上下文中一般性地描述了本公开，但是应当理解，其并不旨在将本公开的范围限制于这些特定实施方式。图中的项可不是按比例绘制的。

图1描绘根据本公开的实施方式的全相关变分自编码器(TC_VAE)的框架。

图2描绘根据本公开的实施方式的使用TC_VAE的单词重构和注意力标记重构的过程。

图3A以图形方式描绘了根据本公开的实施方式的基于语义和语法变量以及随机基线和oracle最近邻居分析器(“Best”)的1-最近邻居分析器的通过句子长度的成分分析F1得分。

图3B以图形方式描绘了根据本公开的实施方式的基于语义和语法变量以及随机基线和oracle最近邻居分析器(“Best”)的1-最近邻居分析器的通过句子的词性标注准确性。

图4描绘了根据本公开的实施方式的计算设备/信息处理系统的简化框图。

具体实施方式

在以下描述中，出于解释的目的，阐述了具体细节以提供对本公开的理解。然而，对于本领域的技术人员显而易见的是，可以在没有这些细节的情况下实践本公开。此外，本领域技术人员将认识到，以下描述的本公开的实施方式可以以多种方式来实现，诸如过程、装置、系统、设备或在具体计算机可读介质上的方法。

在图中示出的组件或模块是本公开的示例性实施方式的示例，并且旨在避免混淆本公开。还应当理解，在整个讨论中，组件可以被描述为单独的功能单元，其可以包括子单元，但是本领域技术人员将认识到，各种组件或其部分可以被划分为单独的组件或者可以集成在一起，包括例如在单个系统或组件中。应注意，本文中所讨论的功能或操作可实施为组件。组件可以用软件、硬件或其组合来实现。

此外，附图中的组件或系统之间的连接并不限于直接连接。相反，这些组件之间的数据可以通过中间组件修改、重新格式化或以其它方式改变。此外，可以使用附加的或更少的连接。还应当注意力，术语“联接”、“连接”、“通信地联接”、“接合”、“接口”或它们的任何派生词应当被理解为包括直接连接、通过一个或多个中间设备的间接连接以及无线连接。还应当注意力，诸如信号、响应、应答、确认、消息、查询等的任何通信可以包括一个或多个信息交换。

在说明书中提及“一个或多个实施方式”、“优选实施方式”、“一个实施方式”、“多个实施方式”等意味着结合实施方式描述的特定特征、结构、特性或功能包括在本公开的至少一个实施方式中，并且可以包括在多于一个实施方式中。此外，在说明书的各个地方出现的上述短语不一定都是指相同的一个或多个实施方式。

在本说明书的各个地方使用的某些术语是为了说明而不应被解释为限制。服务、功能或资源不限于单个服务、功能或资源；这些术语的使用可以指可以是分布式的或聚集的相关服务、功能或资源的分组。术语“包括(include)”、“包括(including)”、“包含(comprise)”和“包含(comprising)”应理解为开放式术语，并且以下的任何列表是示例的，而不意味着限于所列出的项目。“层”可以包括一个或多个操作。词语“最佳的(optimal)”、“最佳的(optimize)”、“最佳的(optimization)”等是指结果或过程的改进，并且不要求指定的结果或过程已经达到“最佳的”或峰值状态。存储器、数据库、信息库、数据储存、表、硬件、高速缓存等的使用可以在本文中用于指代信息可以被输入或以其他方式被记录到其中的一个或多个系统组件。

在一个或多个实施方式中，停止条件可以包括：(1)已经执行了设定的迭代次数；(2)已经达到处理时间的量；(3)收敛(例如，连续迭代之间的差小于第一阈值)；(4)发散(例如，性能劣化)；以及(5)已经达到可接受的结果。

本领域技术人员应认识到：(1)可选择性地执行某些步骤；(2)步骤可以不限于本文中所阐述的具体顺序；(3)可以以不同的顺序执行某些步骤；以及(4)可以同时完成某些步骤。

本文中所用的任何标题仅用于组织目的，不应用于限制说明书或权利要求书的范围。在本专利文献中提及的每个参考文献/文档通过引用以其整体并入本文中。

应注意的是，本文中提供的任何实验和结果通过举例说明的方式提供，并且使用一个或多个具体实施方式在具体条件下执行；因此，这些实验和它们的结果都不应用于限制本专利文件的公开范围。

还应注意，尽管本文中所描述的实施方式可在分割语法和语义的语境内，但本公开的方面不限于此。因此，本公开的各方面可应用于或适于其它语境中的对象和实体属性的分离。

A.一般性介绍

在机器学习、计算机视觉以及自然语言处理(NLP)中，学习可解释或解缠的潜在表示的工作越来越多。解缠本质上是分离数据中变化的潜在因子并进一步学习可解释的语义信息的任务。通常以无监督或半监督的方式获得的具有统计独立变量的因子表示将信息提取为紧凑形式，这在语义上是有意义的，并且对于各种应用有用。在NLP中，解缠已被用于分离诸如情感与内容的属性表示，从而理解主题建模中的微妙之处并且学习将句子的语法和语义分开的句子表示。它们还用于更好地控制文本生成，从而计算句子之间的语义或语法相似性。

提出了一种深度生成模型，以将语义与语法分割。深度生成模型分别对语义和语法潜在变量使用von Mises Fisher(VMF)和Gaussian priors，并且包括以这些潜在变量为条件的深度词袋(BOW)解码器。深度生成模型集中在使用生成方法从隐藏变量中分割语法和语义。然而，这种方法缺少精细粒度的分解，且因此可能无法以细微的方式将语义与语法分割。

为了弥补这一缺点，提出了全相关变分自编码器的实施方式，以使隐藏变量更可因子分解。具体地，在一个或多个实施方式中，将全相关作为惩罚引入到变分自编码器(VAE)中，从而可以获得更深和有意义的因子分解。

在一个或多个实施方式中，在语义评估(SemEval)语义文本相似性(STS)任务上评估所学习的语义表示。看不见的句子的语法结构被预测为与其最近的相邻句子的语法结构相似，这是由一大组带注释的句子中的潜在语法表示来确定的。实验表明，当学习的表示被大部分分割时，可以实现相当的性能。

B.TC_VAE框架实施方式

还应注意，尽管本文中描述的实施方式可以在句子表示内的将语义信息与语法信息分割的上下文内，但是本公开的方面可以应用于各个方面，包括NLP中的任何分割任务。

1.全相关VAE和目标函数的实施方式

在本公开中公开了称为TC_VAE的多任务生成模型的一个或多个实施方式。可以学习TC_VAE模型的参数，涉及计算给定潜在变量的输入数据的对数似然项以及计算隐藏变量的后变概率、给定输入数据和隐藏变量的先验概率之间的库尔贝克-莱不勒(Kullback-Leibler)(KL)差异的一个或多个项。

在一个或多个实施方式中，在NLP任务的环境下，可以以更多域相关的方式定义TC_VAE。，连续潜在变量z为条件，给出了x₁，...，x_N作为N个符号(例如，单词)的序列。

在一个或多个实施方式中，可使用变分下限来学习模型参数：

其中，q_φ(z|x_n)是通过φ参数化的编码器，p_θ(z|x_n)是真实的后验。分布p_θ(z)是z的先验模型。基于观察结果，句子中的不同单词或短语可能在语法或语义上代表针对不同角色的不同实体，并且可能彼此潜在交互，因此可以指导VAE中潜在变量的生成以对应于句子中的实体。在一个或多个实施方式中，潜在变量可以被设计为可分解的潜在变量。在一个或多个实施方式中，重构网络可以顺序地生成单词或短语。

在一个或多个实施方式中，潜在变量z可以包括多于一种类型的潜在因子，例如，如图1中所示的变量z_sem和z_syn。因此，等式(2)可以写为：

在一个或多个实施方式中，用于计算KL发散的等式(3)中的一个或多个项可以被进一步分解，使得解缠可以达到更精细的粒度水平。在一个或多个实施方式中，将全局潜在变量

和注意力网络层添加到TC_VAE模型。

在一个或多个实施方式中，等式(3)中的第二项可扩展为：

这里，k是潜在变量序列中的潜在变量的索引；β是系数。

是在联合分布下的(x，m_k)和

之间的相互信息。

在一个或多个实施方式中，等式(3)中的第三项可以扩展为：

罚以实施潜在因子的解缠。在一个或多个实施方式中，使用加权版本来估计分布值q(z)。在一个或多个实施方式中，TC项可以包括分别如等式(4)中所示的相互信息项

第一KL发散

和如等式(5)中所示的第二KL发散

第一KL发散是第一组合潜在变量序列

的分布与第一组合潜在变量序列

中的每个潜在变量

的因子分布

和每个潜在变量

的因子分布

的乘积之间的KL发散。类似地，第二KL发散是第二组合潜在变量序列

的分布与第二组合潜在变量序列

中的每个潜在变量

的因子分布

和每个潜在变量

的因子分布

的乘积之间的KL发散。

图1描绘根据本公开的实施方式的全相关变分自编码器(TC_VAE)的框架。TC_VAE网络100包括嵌入层110、包括第一编码器(例如，语义编码器)140和第二编码器(例如，语法编码器)150的编码器层以及解码器160。此外，TC_VAE网络100还包括多头注意力层120，其从输入符号(token)(例如，单词)105的嵌入115生成注意力125，从而可以突出语法标记。注意力125与嵌入115级联以获得隐藏变量130。通过语义编码器140和语法编码器150，分别生成第一潜在变量(例如，z_sem)序列145和第二潜在变量(例如，z_syn)序列155。将全局潜在变量(例如，z_0(k))序列146与第一潜在变量序列和第二潜在变量序列组合以分别产生第一组合潜在变量序列147和第二组合潜在变量序列157。在解码器级中，由解码器160推断重构的单词和注意力标记165。在一个或多个实施方式中，可以触发用于TC_VAE训练的反向传播，直到收敛。在一个或多个实施方式中，全局潜在变量z₀是对所生成的句子的整体性质以及不同语法和语义主题之间的相关性进行编码的特殊潜在变量。在一个或多个实施方式中，可以基于第一潜在变量(例如，z_sem)序列145和第二潜在变量(例如，z_syn)序列155来获得全局潜在变量z₀的序列。在一个或多个实施方式中，全局潜在变量z₀可以是潜在变量z_sem和潜在变量z_syn的级联。

图2描绘根据本公开的实施方式的使用TC_VAE从分割的语法和语义潜在变量重构单词和注意力标记的过程。根据输入符号(例如，单词)序列使用嵌入来生成嵌入序列(205)。基于嵌入序列使用多头注意力层来生成注意力掩码序列(210)。注意力掩码序列与嵌入序列级联以获得隐藏变量序列(215)。至少基于隐藏变量序列分别使用第一编码器(例如，语义编码器)和第二编码器(例如，语法编码器)来生成第一潜在变量(例如，变量z_sem)序列和第二潜在变量(例如，变量z_syn)序列(220)。将全局潜在变量序列与第一潜在变量序列和第二潜在变量序列组合，以分别生成第一组合潜在变量序列和第二组合潜在变量序列(225)。基于第一组合潜在变量序列和第二组合潜在变量序列，使用解码器推断重构的符号序列和重构的注意力掩码序列(230)。在一个或多个实施方式中，使用重构的符号和重构的注意力掩码的反向传播可用于TC_VAE训练(235)，直到满足一个或多个训练条件(例如，模型开始收敛)。

2.用于训练和推断的实施方式

在一个或多个实施方式中，嵌入矢量(emb_t)与其对应的注意力掩码(m_t)之间的具有多路输出的逐元素乘法被用于计算隐藏变量h_t。隐藏变量序列被传递到语义编码器和语法编码器两者以生成潜在变量。在一个或多个实施方式中，由于由全相关方法带来的分解，潜在变量包括z_k和z₀(k)。在一个或多个实施方式中，在给定解码器的输出

的情况下，分量k的损失由以下等式给出：

这里，a、e和d分别指多头注意力层、编码器和解码器层的参数；θ和φ分别是似然分布和变分分布的参数；局部潜在变量z_k包括

和

全局潜在变量z_0(k)包括

和

并且γ是非负值。

在一个或多个实施方式中，所有分量的损失可以如下给出：

在一个或多个实施方式中，除了上述标准损失函数之外，还可以使用一个或多个附加损失函数。附加损失函数可以包括短语重构损失(PRL)、区别短语损失(DPL)和单词位置损失(WPL)。在一个或多个实施方式中，语义变量可以交换，语法变量可以保持，并且句子可以相应地重构。此外，在一个或多个实施方式中，PRL可以包括更多的变量，包括共同的潜在因子z₀和焦点掩码变量m_k。因此，PRL可以限定为：

其中，

并且

在一个或多个实施方式中，DPL可以表示为：

这里，在表达式(9)中，dist指的是距离，x₁和x₂是具有副词关系的句子，同时x₁和n₁是没有副词关系的句子。

在一个或多个实施方式中，WPL可表达为：

这里，在表达式(10)中，softmax(·)_i表示i的概率。

C.实验结果

在一个或多个实验设置中，通过对多个短语进行二次抽样来形成训练集。使用与训练集不同的单独数据集作为开发集。对于语义相似性评估，使用各种其它测试集。

应注意的是，这些实验和结果是通过举例说明的方式提供的，并且使用一个或多个具体实施方式在具体条件下执行；因此，这些实验和它们的结果都不应该用于限制本专利文件的公开范围。

1.语义相似性

表1集中于使用各种方法的语义相似性评估。本公开的实施方式的结果在与可分解的VAE(DecVAE)相关的行中。

具体地，表1的上行示出了在对短语进行训练时如何对相似性进行建模。WORD_AVG对输入序列中的单词嵌入取平均值，以获得句子表示。BLSTM_AVG使用双向LSTM的平均隐藏状态作为句子表示，其中，前向和后向隐藏状态级联。这些模型在每个方向上使用多维单词嵌入和多维LSTM隐藏向量。DPL仅用于训练。如表1中所示，DecVAEWORD_AVG实现了STS平均度量的最佳语义得分，并且DecVAEBLSTTM_AVG实现了STS bm(其代表STS基准测试集)度量的最佳语义得分。尽管如此，对于所有VGVAE和DecVAE，这些差异对于结果都是微不足道的。表1还包括针对几个预先训练的嵌入的语义建模结果，所有这些都远低于VGVAE的结果。这意味着，无论做出什么变化，基于VAE的语言建模的实施方式都可以很好地捕获语义。

相反，下半行在语义和语法度量之间表现出显著的差异。本质上，这些行显示语义变量是否可以比语法变量更好地捕获语义信息。表1包括用于比较的一些先前的结果。来自本公开的实施方式的结果在最后两行中。如这里所示，基本VGVAE模型的语义和语法变量在STS测试集上显示出类似的性能。随着损失的增加，这两个变量的性能逐渐不同，表明在这两个变量中捕获了不同的信息。因此，可以看出，在VGVAE中，各种损失在语义和语法的解缠中扮演着重要的角色。最后一行是本公开的一个实施方式的初步结果，DecVAE+LSTM。在该实施方式中，在一个或多个实验设置中使用全局潜在变量z₀、可变聚焦掩码变量m_k和从解码器获得的条件概率p^d(x|z_k，z_o(k))。此外，全相关和其他相关的KL差异部分地被部署。

从表1可以看出，获得了竞争性结果。本公开的实施方式可以在清晰切割的行中解缠语义和语法。如图3A和图3B中所示，随着目标句子的长度增加，绘制本公开的实施方式的性能和基准线。图3A以图形方式描绘了针对各种模型(包括随机基准线305、“All”(例如，使用VGVAE的多任务损失)310、“A11+LSTM enc.”315、“A11+LSTMenc.+LSTM dec.”320、“DecVAE+LSTM enc.+LSTM dec.”325以及oracle最近邻居分析器(“Best”)330)的通过句子长度的成分分析F1得分。类似地，图3B以图形方式描绘了针对各种模型(包括随机基准线355、“All”(例如，使用VGVAE的多任务损失)360、“A11+LSTMenc.”365、“A11+LSTM enc.+LSTM dec.”370、“DecVAE+LSTM enc.+LSTM dec.”375以及oracle最近邻居分析器(“Best”)380)的通过句子的词性标注准确度。从两个图中可以看到类似的趋势，即，句子越长，表现越差。本框架的实施方式接近于顶部并且具有更可预测的趋势。

表1:STS测试集的皮尔逊相关性(％)

除了与DecVAE相关的结果之外，表1和表2中的数据来自Mingda Chen等人的《在句子表示中解缠语法和语义的多任务方法》，在计算语言学协会：人类语言技术的北美分会2019年会议的会议记录中，NAACL-HLT 2019，明尼阿波利斯，美国明尼苏达州，2019年6月2日至7日，第1卷(长篇和短篇论文)，2453–2464(Mingda Chen,et al.,A Multi-TaskApproach for Disentangling Syntax and Semantics in Sentence Representations,in Proceedings of the 2019Conference of the North American Chapter of theAssociation for Computational Linguistics:Human Language Technologies,NAACL-HLT 2019,Minneapolis,MN,USA,June2-7,2019,Volume 1(Long and Short Papers),2453–2464)，其通过引用以其整体并入本文中。

在表1中，“bm”代表STS基准测试集；“avg”代表从2012至2016的STS测试集中的每个域的皮尔逊相关性的平均值。如果数字在“语义变量”列中最高或在“语法变量”列中最低，则它们是粗体。“ALL”表示使用VGVAE的多任务损失中的全部；并且最后一行(DecVAE+LSTM enc)示出了本公开中的模型实施方式的结果。

2.语法相似性

有人提出使用语法变量来针对1-最近邻居句法分析器或词性(POS)标记器计算最近邻居。采用了几种度量来评估输出分析器和标记序列的质量。该评估的目的不在于示出分析和/或标记有多好。相反，类似于语义相似性，它的目标在于示出语法变量可能比语义变量捕获更多的语法信息。

在本公开的一个或多个实施方式中，报告了成分分析的标记F1和POS标记的准确性。如表2中所示，上部的三行中的两行是来自VGVAE的结果，并且最后一行是DecVAE的结果。尽管只测试字的平均值，但DecVAE在分析和标记方面都优于VGVAE。对于下部，与语义相似性相反，语法变量预期会促进这两个任务，而语义变量会使这两个任务劣化。作为基准，对于VGVAE，语义变量和语法变量对于两个任务具有类似的准确性。随着各种损失的增加，出现了预期的表现。最后一行来自DecVAE。与VGVAE的变化相比，两个变量之间的差异最大，这表明在DecVAE中已经学习到语法和语义的良好解缠。尽管如此，看起来语法评估结果一般不如对应的语义评估结果那么明显。

表2：语法相似性评价、用于成分分析的标记F1分数以及用于词性标注的准确性(％)。

在表2中，如果数字在“语义变量”(在表2中示为Semv)列中最差或在“语法变量”(在表2中示为synV)列中最好，则它们被标为粗体。与DecVAE相关的行示出了本公开中的模型实施方式的结果。

D.一些结论

在本公开中，利用全相关变分自编码器(TC_VAE)的一个或多个实施方式，在一个或多个句子中，将语义与语法分割。实验结果表明，TC_VAE的实施方式可以在语义相似性和语法相似性方面获得与现有技术(SOTA)结果相当的结果。

E.计算系统实施方式

在一个或多个实施方式中，本专利文件的方面可以针对，可以包括或者可以在一个或多个信息处理系统(或计算系统)上实现。信息处理系统/计算系统可以包括可操作来计算、核算、确定、分类、处理、发送、接收、检索、始发、路由、交换、存储、显示、通信、显现、检测、记录、再现、处理或利用任何形式的信息、情报或数据的任何工具或工具的集合。例如，计算系统可以是或可以包括个人计算机(例如，膝上型计算机)、平板计算机、移动设备(例如，个人数字助理(PDA)、智能电话、平板手机、平板等)、智能手表、服务器(例如，刀片服务器或机架服务器)、网络存储设备、相机或任何其它合适的设备，并且可以在尺寸、形状、性能、功能和价格上变化。计算系统可以包括随机存取存储器(RAM)、诸如中央处理单元(CPU)或者硬件或软件控制逻辑的一个或多个处理源、只读存储器(ROM)和/或其它类型的存储器。计算系统的附加组件可以包括一个或多个磁盘驱动器、用于与外部设备通信的一个或多个网络端口以及各种输入和输出(I/O)设备(诸如键盘、鼠标、触笔、触摸屏和/或视频显示器)。计算系统还可以包括用于在各种硬件组件之间传输通信的一个或多个总线。

图4示出了根据本公开的实施方式的信息处理系统(或计算系统)的简化框图。应当理解，系统400所示的功能可以用于支持计算系统的各种实施方式，尽管应当理解，计算系统可以被不同地配置并且包括不同的组件，包括比如图4中所示的组件更少或更多的组件。

如图4中所示，计算系统400包括一个或多个中央处理单元(CPU)401，其提供计算源并控制计算机。CPU 401可以用微处理器等来实现，并且还可以包括用于数学计算的一个或多个图形处理单元(GPU)402和/或浮点协处理器。在一个或多个实施方式中，一个或多个GPU 402可并入显示控制器409内，诸如一个或多个显卡的一部分。系统400还可包括系统存储器419，系统存储器419可包括RAM、ROM或两者。

如图4中所示，还可以设置多个控制器和外围设备。输入控制器403表示到诸如键盘、鼠标、触摸屏和/或触笔的各种输入设备404的接口。计算系统400还可以包括用于与一个或多个储存设备408接口的储存控制器407，一个或多个储存设备408中的每一个包括可以用于记录用于操作系统、实用程序和应用程序的指令的程序的诸如磁带或磁盘的储存介质或光学介质，操作系统、实用程序和应用程序可以包括实现本公开的各个方面的程序的实施方式。储存设备408还可以用于存储根据本公开处理的数据或要处理的数据。系统400还可以包括用于提供与显示设备411的接口的显示控制器409，显示设备411可以是阴极射线管(CRT)显示器、薄膜晶体管(TFT)显示器、有机发光二极管、电致发光面板、等离子体面板或任何其它类型的显示器。计算系统400还可以包括用于一个或多个外围设备406的一个或多个外围控制器或接口405。外围设备的示例可以包括一个或多个打印机、扫描仪、输入设备、输出设备、传感器等。通信控制器414可以与一个或多个通信设备415接口，这使得系统400能够通过多种网络中的任何一种或通过包括红外信号的任何合适的电磁载波信号连接到远程设备，所述网络包括因特网、云资源(例如，以太网云、以太网上的光纤信道(FCoE)/数据中心桥接(DCB)云等)、局域网(LAN)、广域网(WAN)、储存区域网络(SAN)。如所描绘的实施方式中所示，计算系统400包括一个或多个风扇或风扇盘418和一个或多个冷却子系统控制器417，其监视系统400(或其组件)的热温度并操作风扇/风扇盘418以帮助调节温度。

在所示的系统中，所有主要系统组件可以连接到总线416，总线416可以表示多于一个的物理总线。然而，各种系统组件可彼此物理接近或不物理接近。例如，输入数据和/或输出数据可以从一个物理位置远程传输到另一个物理位置。此外，可以通过网络从远程位置(例如，服务器)访问实现本公开的各个方面的程序。这种数据和/或程序可以通过多种机器可读介质中的任何一种来传送，机器可读介质例如包括：磁介质，诸如硬盘、软盘和磁带；光学介质，诸如CD-ROM和全息设备；磁光介质；以及专门配置为存储或者存储并执行程序代码的硬件设备，诸如专用集成电路(ASIC)、可编程逻辑设备(PLD)、闪存设备、其它非易失性存储器(NVM)设备(诸如基于3D XPoint的设备)以及ROM和RAM设备。

本公开的方面可以被编码在一个或多个非暂时性计算机可读介质上，该非暂时性计算机可读介质具有用于一个或多个处理器或处理单元的指令，以使得执行步骤。应当注意，一个或多个非暂时性计算机可读介质应当包括易失性存储器和/或非易失性存储器。应注意，替代实现方式是可能的，包括硬件实现或软件/硬件实现。硬件实现的功能可以使用ASIC、可编程阵列、数字信号处理电路等来实现。因此，任何权利要求中的“手段(means)”术语旨在覆盖软件实现和硬件实现。类似地，如本文中所使用的，术语“计算机可读介质”包括其上包含有指令程序的软件和/或硬件或其组合。考虑到这些实现替换，应当理解，附图和随附的描述提供了本领域技术人员将要求编写程序代码(即，软件)和/或制造电路(即，硬件)以执行所需处理的功能信息。

应当注意，本公开的实施方式还可以涉及具有非暂时性、有形的计算机可读介质的计算机产品，计算机可读介质在其上具有用于执行各种计算机实现的操作的计算机代码。介质和计算机代码可以是为了本公开的目的而专门设计和构造的介质和计算机代码，或者它们可以是相关领域的技术人员已知或可用的类型。有形计算机可读介质的示例包括，例如：磁介质，诸如硬盘、软盘和磁带；光学介质，诸如CD-ROM和全息设备；磁光介质；以及专门配置为存储或者存储并执行程序代码的硬件设备，诸如专用集成电路(ASIC)、可编程逻辑设备(PLD)、闪存设备、其它非易失性存储器(NVM)设备(诸如基于3D XPoint的设备)以及ROM和RAM设备。计算机代码的示例包括诸如由编译器产生的机器代码以及包含由使用解释器的计算机执行的更高级代码的文件。本公开的实施方式可以全部或部分地作为机器可执行指令来实现，机器可执行指令可以在由处理设备执行的程序模块中。程序模块的示例包括库、程序、例程、对象、组件和数据结构。在分布式计算环境中，程序模块可以物理地位于本地、远程或两者的设置中。

本领域的技术人员将认识到，对于本公开的实践，计算系统或编程语言是不关键的。本领域的技术人员还将认识到，上述的多个元件可以物理地和/或功能地分离成模块和/或子模块，或者上述的多个元件可以组合在一起。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

本领域技术人员应当理解，前述示例和实施方式是示例性的，而不是限制本公开的范围。其旨在使本领域技术人员在阅读本说明书和研究附图后对其显而易见的所有置换、增强、等同、组合和改进都包括在本公开的真实精神和范围内。还应当注意，任何权利要求的元素可以不同地布置，包括具有多个从属、配置和组合。

Claims

1.用于分割潜在表示的计算机实现的方法，包括：

使用嵌入层为符号序列生成嵌入序列；

使用注意力层基于所述嵌入序列生成注意力掩码序列；

基于所述嵌入序列和所述注意力掩码序列生成隐藏变量序列；

分别使用第一编码器和第二编码器基于所述隐藏变量序列生成第一潜在变量序列和第二潜在变量序列；以及

使用解码器至少基于所述第一潜在变量序列和所述第二潜在变量序列的信息来推断重构符号序列和重构注意力掩码序列。

2.如权利要求1所述的计算机实现的方法，其中，通过所述嵌入序列中的嵌入与所述注意力掩码序列中的相应注意力掩码之间的逐元素乘法来生成所述隐藏变量序列中的每个隐藏变量。

3.如权利要求1所述的计算机实现的方法，其中，至少基于所述第一潜在变量序列和所述第二潜在变量序列的信息来推断所述重构符号序列和所述重构注意力掩码序列包括：

将全局潜在变量序列与所述第一潜在变量序列和所述第二潜在变量序列组合，以分别生成第一组合潜在变量序列和第二组合潜在变量序列；

在所述解码器处接收所述第一组合潜在变量序列和所述第二组合潜在变量序列；以及

推断所述重构符号序列和所述重构注意力掩码序列。

4.如权利要求3所述的计算机实现的方法，还包括：

使用所述重构符号序列和所述重构注意力掩码序列来建立损失以至少训练所述注意力层、所述第一编码器、所述第二编码器和所述解码器。

5.如权利要求4所述的计算机实现的方法，其中，所述损失包括一个或多个全相关TC项以实施潜在变量的解缠。

6.如权利要求5所述的计算机实现的方法，其中，所述一个或多个TC项包括所述第一编码器的第一库尔贝克-莱不勒KL发散和所述第二编码器的第二KL发散。

7.根据权利要求6所述的计算机实现的方法，其中，所述第一KL发散是所述第一组合潜在变量序列的分布与所述第一潜在变量序列中的每个潜在变量的因子分布和所述第一组合潜在变量序列中的每个全局潜在变量的因子分布的乘积之间的KL发散，所述第二KL发散是所述第二组合潜在变量序列的分布与所述第二潜在变量序列中的每个潜在变量的因子分布和所述第二组合潜在变量序列中的每个全局潜在变量的因子分布的乘积之间的KL发散。

8.如权利要求1所述的计算机实现的方法，其中，所述第一编码器是语义编码器，所述第二编码器是语法编码器。

9.用于分割潜在表示的系统，包括：

一个或多个处理器；以及

一个或多个非暂时性计算机可读介质，包括一组或多组指令，所述一组或多组指令在由所述一个或多个处理器中的至少一个执行时使得执行以下步骤，所述步骤包括：

为符号序列生成嵌入序列；

基于所述嵌入序列生成注意力掩码序列；

分别基于所述隐藏变量序列生成第一潜在变量序列和第二潜在变量序列；以及

至少基于所述第一潜在变量序列和所述第二潜在变量序列的信息来推断重构符号序列和重构注意力掩码序列。

10.如权利要求9所述的系统，其中，通过所述嵌入序列中的嵌入与所述注意力掩码序列中的相应注意力掩码之间的逐元素乘法来生成所述隐藏变量序列中的每个隐藏变量。

11.如权利要求9所述的系统，其中，至少基于所述第一潜在变量序列和所述第二潜在变量序列的信息来推断所述重构符号序列和所述重构注意力掩码序列包括以下步骤：

推断所述重构符号序列和所述重构注意力掩码序列。

12.如权利要求11所述的系统，其中，所述一个或多个非暂时性计算机可读介质还包括一组或多组指令，所述一组或多组指令在由所述一个或多个处理器中的至少一个执行时使得执行以下步骤，所述步骤包括：

使用所述重构符号序列和所述重构注意力掩码序列来建立用于系统训练的损失。

13.如权利要求12所述的系统，其中，所述损失包括全相关TC项以实施潜在变量的解缠，所述一个或多个TC项包括所述第一编码器的第一库尔贝克-莱不勒KL发散和所述第二编码器的第二KL发散。

14.根据权利要求13所述的系统，其中，所述第一KL发散是所述第一组合潜在变量序列的分布与所述第一潜在变量序列中的每个潜在变量的因子分布和所述第一组合潜在变量序列中的每个全局潜在变量的因子分布的乘积之间的KL发散，所述第二KL发散是所述第二组合潜在变量序列的分布与所述第二潜在变量序列中的每个潜在变量的因子分布和所述第二组合潜在变量序列中的每个全局潜在变量的因子分布的乘积之间的KL发散。

15.一个或多个非暂时性计算机可读介质，包括一个或多个指令序列，所述一个或多个指令序列在由至少一个处理器执行时执行用于分割潜在表示的步骤，所述步骤包括：

使用嵌入层为符号序列生成嵌入序列；

使用注意力层基于所述嵌入序列生成注意力掩码序列；

16.如权利要求15所述的一个或多个非暂时性计算机可读介质，其中，通过所述嵌入序列中的嵌入与所述注意力掩码序列中的相应注意力掩码之间的逐元素乘法来生成所述隐藏变量序列中的每个隐藏变量。

17.如权利要求15所述的一个或多个非暂时性计算机可读介质，其中，至少基于所述第一潜在变量序列和所述第二潜在变量序列的信息来推断所述重构符号序列和所述重构注意力掩码序列包括以下步骤：

推断所述重构符号序列和所述重构注意力掩码序列。

18.如权利要求17所述的一个或多个非暂时性计算机可读介质，还包括一个或多个指令序列，所述一个或多个指令序列在由至少一个处理器执行时使得执行以下步骤，所述步骤包括：

19.如权利要求18所述的一个或多个非暂时性计算机可读介质，其中，所述损失包括全相关TC项以实施潜在变量的解缠，所述一个或多个TC项包括所述第一编码器的第一库尔贝克-莱不勒KL发散和所述第二编码器的第二KL发散。

20.根据权利要求19所述的一个或多个非暂时性计算机可读介质，其中，所述第一KL发散是所述第一组合潜在变量序列的分布与所述第一潜在变量序列中的每个潜在变量的因子分布和所述第一组合潜在变量序列中的每个全局潜在变量的因子分布的乘积之间的KL发散，所述第二KL发散是所述第二组合潜在变量序列的分布与所述第二潜在变量序列中的每个潜在变量的因子分布和所述第二组合潜在变量序列中的每个全局潜在变量的因子分布的乘积之间的KL发散。

21.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。