CN115310408A

CN115310408A - 结合元数据的基于变换器的编码

Info

Publication number: CN115310408A
Application number: CN202210472789.5A
Authority: CN
Inventors: 万晖; 崔晓东; L·A·拉斯特拉斯-蒙塔诺
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2021-05-05
Filing date: 2022-04-29
Publication date: 2022-11-08
Also published as: JP2022173132A; US20220358288A1; US11893346B2

Abstract

本公开涉及结合元数据的基于变换器的编码。从自然语言文本文档的语料库的元数据构造相关性矩阵，所述相关性矩阵中的行列交叉点对应一种类型的元数据的两个实例之间的关系。一种编码器模型被训练，生成经训练的编码器模型，以计算对应于所述语料库内的自然语言文本文档的令牌和所述相关性矩阵内的嵌入，所述编码器模型包括第一编码器层，所述第一编码器层包括令牌嵌入部分、相关性嵌入部分、令牌自关注部分、元数据自关注部分以及融合部分，所述训练包括调整所述编码器模型的参数集。

Description

结合元数据的基于变换器的编码

技术领域

本发明总体上涉及用于自动编码自然语言文本或非文本数据的方法、系统和计算机程序产品。更具体地，本发明涉及用于结合元数据的基于变换器的编码的方法、系统和计算机程序产品。

背景技术

基于变换器的自动编码器，也称为基于变换器的自动编码网络，或简称为变换器，具有编码器-解码器架构。变换器的编码器部分包括一层接一层地迭代地处理输入序列的一组编码层。每个编码器层生成编码(多维数，也称为向量)，其包含关于输入的哪些部分彼此相关的信息。变换器的解码器部分包括一层接一层地迭代地处理编码器的输出的一组解码层。每个解码器层使用编码的结合的上下文信息来生成与输入序列相对应的输出序列。为了结合上下文，编码器和解码器层包括关注机制，对于每个输入，该关注机制包括序列中的用其他输入的相关性加权的其他输入。解码器层还具有附加的关注机制，其从先前解码器层的输出以及从编码汲取信息。

如本文所使用的变换器指具有编码器-解码器架构的基于变换器的自动编码网络、包含所述组编码层但不包含该组解码器层的编码器、以及包含该组解码器层但不包含该组编码器层的解码器。例如，典型的文本分类实施例仅包含编码器层，随后是分类器层，且不包含解码器层。变换器可用于处理自然语言文本或非文本数据序列。

说明性实施例认识到，为了使用上下文对文本进行编码，关注机制通常将对应于令牌的嵌入(令牌嵌入)与位置嵌入(对文本的一部分或片段内的令牌的位置进行编码)和分段嵌入(对令牌位于文本的哪个片段中进行编码)组合。然而，位置嵌入和分段嵌入都仅基于文档内的文本。结果，元数据、关于文档内的文本的信息(诸如对话中的轮次(turn)和说话者信息)、讨论论坛的转录本中的线程信息、电影字幕、分割层级信息和结构化文本的其他元素，即使可用，在编码自然语言文本时也经常不被使用。

说明性实施例还认识到，即使在文本处理中使用元数据时，模型架构也不明确地考虑由元数据供应的令牌之间的关注或通过变换器的层对元数据的效果进行建模。相反，元数据的部分被编码为嵌入并且与现有关注机制中的令牌嵌入组合。例如，在会话转录本中，元数据可指示一些部分由参与者1口述或文本化，而一些部分由参与者2口述或文本化。因此，所有参与者1部分可被视为一个文本片段，并且所有参与者2部分可被视为第二文本片段，并且相应的分段嵌入被确定并合并到文本编码中。可替代地，系统可以计算对哪个说话者与令牌相关联进行编码的附加嵌入，并且该附加嵌入与现有关注机制中的令牌、位置、以及分段嵌入组合。然而，将特定部分或类型的元数据编码成特定嵌入不容易普遍适用于可在许多类型的文本和元数据上训练的模型，当在没有元数据的情况下处理文本时与现有模型同等地起作用，并且可用于各种下游任务。进一步地，用于处理非文本数据的模型架构未明确地解释由元数据供应的令牌之间的关注或通过变换器的层对元数据的效果进行建模。

因此，说明性实施例还认识到，对于基于变换器的自动编码器架构存在未满足的需要，该自动编码器架构包括专用于对归因于元数据的关注进行建模的参数，并且能够使用不需要将特定部分或类型的元数据编码成特定嵌入的元数据编码方案。

发明内容

说明性实施例提供了一种方法、系统和计算机程序产品。实施例包括一种方法，该方法从自然语言文本文档的语料库的元数据构建相关性矩阵，该相关性矩阵中的行列交叉点对应于一种类型的元数据的两个实例之间的关系。一实施例训练、生成经训练的编码器模型，编码器模型用于计算与该语料库内的自然语言文本文档的令牌和该相关性矩阵对应的嵌入，该编码器模型包括第一编码器层，该第一编码器层包括令牌嵌入部分、相关性嵌入部分、令牌自关注部分、元数据自关注部分以及融合部分，该训练包括调整该编码器模型的参数集。因此，该实施例提供结合元数据的基于变换器的编码。

在另一实施例中，该令牌嵌入部分计算令牌嵌入集，该令牌嵌入集中的令牌嵌入对应于该语料库内的自然语言文本文档的令牌。因此，该实施例提供计算令牌嵌入集的方法。

在另一实施例中，该令牌包括该自然语言文本文档的词语的一部分。因此，该实施例提供从自然语言文本文档的词语的一部分计算令牌嵌入的方法。

在另一实施例中，该令牌嵌入包括该令牌的多维数字表示。因此，该实施例提供计算包括多维数字表示的令牌嵌入的方法。

在另一实施例中，该令牌嵌入包括该令牌的多维数字表示、该令牌在该自然语言文本文档内的位置的多维数字表示以及该自然语言文本文档中该令牌所位于的片段的多维数字表示的组合。因此，该实施例提供计算包括多维数字表示的令牌嵌入的方法。

在另一实施例中，该相关性嵌入部分计算相关性嵌入集，该相关性嵌入集中的相关性嵌入包括该行-列交叉点的多维数字表示。因此，该实施例提供计算相关性嵌入集的方法。

在另一实施例中，该令牌自关注部分根据令牌关注权重集来调整输入令牌嵌入，该令牌关注权重集中的令牌关注权重对应于两个令牌之间的该自然语言文本文档内的关系，该令牌关注权重集在该训练期间计算。因此，该实施例提供根据令牌关注权重集调整输入令牌嵌入的方法。

在另一实施例中，该元数据自关注部分根据元数据关注权重集调整输入相关性嵌入，该元数据关注权重集在该训练期间计算。因此，该实施例提供根据元数据关注权重集调整输入相关性嵌入的方法。

在另一实施例中，该融合部分将该令牌自关注部分和该元数据自关注部分的输出组合。因此，该实施例还提供融合部分的细节。

在另一实施例中，该训练包括：将该令牌嵌入部分的参数集初始化为令牌嵌入参数基本集；将该令牌自关注部分的参数集初始化为令牌自关注参数基本集；第一训练，生成经部分训练的编码器模型，第一训练包括当该令牌嵌入部分的参数集被设置为该令牌嵌入参数基本集并且该令牌自关注部分的参数集合被设置为该令牌自关注参数基本集时，调整该相关性嵌入部分的参数集和该元数据自关注部分的参数集；以及第二训练，生成经训练的编码器模型，该第二训练包括调整该编码器模型的参数集。因此，该实施例提供训练编码器模型的更多细节。

在另一实施例中，该编码器模型进一步包括第一解码器层，该第一解码器层包括解码器令牌自关注部分、解码器元数据自关注部分、解码器融合部分以及解码器关注部分，该训练包括调整该第一解码器层的参数集。因此，该实施例提供第一解码器层的更多细节。

在另一实施例中，该解码器关注部分根据关注权重集调整编码器层的输出，该关注权重集在该训练期间计算。因此，该实施例提供解码器关注部分的更多细节。

实施例包括一种计算机可用程序产品。计算机可用程序产品包括一个或多个计算机可读存储设备，以及存储在该一个或多个计算机可读存储设备中的至少一者上的程序指令。

实施例包括一种计算机系统。计算机系统包括一个或多个处理器、一个或多个计算机可读存储器和一个或多个计算机可读存储设备，并且存储在该一个或多个存储设备中的至少一个上的程序指令，该程序指令用于经由该一个或多个存储器中的至少一个由该一个或多个处理器中的至少一个执行。

附图说明

在所附权利要求中阐述了被认为是本发明特征的某些新颖特征。然而，当结合附图阅读时，通过参考说明性实施例的以下详细描述，将最好地理解本发明本身以及使用的优选模式、其进一步的目的和优点，其中：

图1描绘了可以实现说明性实施例的数据处理系统的网络的框图；

图2描绘了可以实现说明性实施例的数据处理系统的框图；

图3描绘了根据说明性实施例的结合元数据的基于变换器的编码的示例配置的框图；

图4描绘了根据说明性实施例的结合元数据的基于变换器的编码的示例配置的框图；

图5描绘了根据说明性实施例的结合元数据的基于变换器的编码的示例配置的框图；

图6描绘了根据说明性实施例的结合元数据的基于变换器的编码的示例配置的框图；

图7描绘了根据说明性实施例的结合元数据的基于变换器的编码的示例配置的框图；

图8描绘了根据说明性实施例的结合元数据的基于变换器的编码的示例；

图9描绘了根据说明性实施例的结合元数据的基于变换器的编码的继续示例；

图10描绘了根据说明性实施例的结合元数据的基于变换器的编码的继续示例；

图11描绘了根据说明性实施例的结合元数据的基于变换器的编码的继续示例；

图12描绘了根据说明性实施例的结合元数据的基于变换器的编码的继续示例；

图13描绘了根据说明性实施例的结合元数据的基于变换器的编码的示例过程的流程图；

图14描绘了根据本发明的实施例的云计算环境；以及

图15描述了根据本发明实施例的抽象模型层。

具体实施方式

说明性实施例还认识到，存在对于基于变换器的自动编码器架构的未满足的需要，该自动编码器架构包括专用于对归因于元数据的关注进行建模的参数，并且能够使用不需要将特定部分或类型的元数据编码成特定嵌入的元数据编码方案。说明性实施例认识到，目前可用的工具或解决方案没有解决这些需要或为这些需要提供足够的解决方案。用于描述本发明的说明性实施例通常解决并解决上述问题和与结合元数据的基于变换器的编码相关的其他问题。

实施例可以实现为软件应用。实现一实施例的应用可被配置为现有自然语言文本处理系统或用于非文本数据的处理系统的修改，被配置为结合现有自然语言文本处理系统或用于非文本数据的处理系统操作的单独应用、独立应用或其某种组合。

具体地，一些说明性实施例提供了一种方法，该方法从非文本数据或自然语言文本文档的语料库的元数据构建相关性矩阵(relativity matrix)，并训练、生成经训练的编码模型，编码模型用于计算对应于该语料库内的文档或非文本数据的一部分和该相关性矩阵的嵌入。

实施例从非文本数据或自然语言文本文档的语料库的元数据构造相关性矩阵。相关性矩阵是存储一种类型的元数据的实例之间的关系的二维矩阵。具体地，相关性矩阵的行和列表示一种类型的元数据的实例，并且行-列交叉点存储一种类型的元数据的两个实例之间的关系的数据。

在相关性矩阵编码方案的一个非限制性示例中，如果在一种类型的元数据的两个实例之间存在关系，那么相关性矩阵中的条目被设置为1，如果不存在关系，那么相关性矩阵中的条目被设置为0。例如，在会话转录本中，元数据可以指示哪些部分由哪个参与者说出或编写。因此，相应的相关性矩阵的行和列可表示参与者。如果在由条目的行表示的参与者与由条目的列表示的参与者之间存在关系，则相关性矩阵中的条目被设置为1，如果没有关系，则被设置为0。

在相关性矩阵编码方案的另一非限制性示例中，相关性矩阵中的条目被设置为在元数据内的一种类型的元数据的两个实例之间的距离。例如，在会话转录本中，元数据可以指示哪些部分由哪个参与者说出或编写。由此，相应的相关性矩阵的行和列可以表示参与者，并且相关性矩阵中的条目可以被设置为由该条目的行表示的参与者和由该条目的列表示的参与者之间的会话轮次的数目。在会话转录物的另一示例中，元数据可记录对应于会话中的参与者或轮次的每一改变的时间戳。因此，相应的相关性矩阵的行和列可表示特定的轮次，且相关性矩阵中的条目可被设置为由该条目的行表示的轮次和由该条目的列表示的轮次之间过去的时间量。或者，相应的相关性矩阵的行和列可表示特定的轮次，且相关性矩阵中的条目可被设置为由该条目的行表示的轮次和由该条目的列表示的轮次之间的轮次数目。

在另一非限制性示例中，文档或对话转录本由元数据描述的树结构表示。相应的相关性矩阵的行和列可表示树结构的特定节点。相关性矩阵中的条目可以被设置为由该条目的行表示的节点与由该条目的列表示的节点之间的树链路的数量。在变形例中，如果节点i在树中是节点j的祖先，那么相关性矩阵中的条目可被设置为节点i与节点j之间的正距离；如果节点j在树中是节点i的祖先，那么相关性矩阵中的条目可被设置为节点i与节点j之间的负距离；否则，相关性矩阵中的条目可被设置为树的深度与节点i与节点j之间的距离之和。

以本文所述的方式，使用相关性矩阵表示元数据的实例之间的相对距离来编码元数据关系的其他非限制性示例包括字符、场景位置或文本、音频或视频内容(诸如转录本、脚本或电影)内的其他交互之间的关系、内容中表达的实体之间的关系、以及解析树、知识图、超链接或其他结构化信息关系的元素之间的关系。

实施例包括变换器模型。该模型接收令牌(token)序列和相关性矩阵作为输入，并且生成与输入的令牌对应并且根据包括该相关性矩阵的上下文调整的嵌入，也称为编码。当处理自然语言文本时，令牌是自然语言文本序列的词语、词语的一部分或其他部分(诸如文档内的句子)，并且输入序列通常是令牌化的句子或文本的其他令牌化部分，但不必是语法上正确的句子。当处理非文本数据时，令牌是非文本数据的一部分，例如视频的单个帧或视频数据的预定持续时间。该模型包括串联连接的一个或多个编码器层。在一个实施例中，最后一个编码器层之后是输出预测(诸如文本分类)的可选任务特定层。所述模型还包括嵌入部分，所述嵌入部分从模型输入生成嵌入并且将所生成的嵌入传递至所述第一编码器层以用于调整所生成的嵌入。

具体地，嵌入部分接收令牌序列作为输入。嵌入部分被配置在当前可用的神经网络配置中以生成对令牌进行编码的令牌嵌入。嵌入部分还可选地被配置在当前可用的神经网络配置中，以生成对文本的一部分或分段内的令牌的位置进行编码的位置嵌入以及对令牌位于哪个文本分段进行编码的分段嵌入。如果生成了位置嵌入和分段嵌入，则嵌入部分被配置在当前可用的神经网络配置中以将令牌嵌入、位置嵌入和分段嵌入组合成令牌嵌入。在一个实施方式中，令牌、位置和分割嵌入通过将它们加在一起而被组合。在另一个实施方式中，使用加权总和来组合令牌嵌入、位置嵌入、以及分割嵌入，其中，权重是在模型训练期间确定的模型参数。

嵌入部分还接收相关性矩阵作为输入。嵌入部分产生一组相关性嵌入，每个相关性嵌入对相关性矩阵中的条目进行编码。一实施使用被初始化为起始配置(例如，伪随机选择的值的集合)和经调整的模型训练的投影矩阵来生成该组相关性嵌入。另一个实施例使用一组启发法来生成该组相关性嵌入。用于生成该组相关性嵌入的其他技术也是可能的并且在说明性实施例的范围内被构想。

在一个实施例中，每个编码器层被相同地配置，并且包括令牌自关注部分、一个或多个元数据自关注部分、以及融合部分、前馈部分和可选的相加和标准化部分。在另一个实施例中，每个编码器层不是相同配置的。相反，一些编码器层不包括一个或多个元数据自关注部分或融合部分。在一个实施例中，仅最后六个编码器层包括元数据自关注部分和融合部分，相对于其中每个编码层被相同配置的实施例加快了模型训练时间。

在一种当前已知的技术中，令牌自关注部分由三个权重矩阵描述：查询权重W_Q、键权重W_K和值权重W_V。具体地，对于每个令牌i，输入嵌入x_i与每个权重矩阵相乘以产生查询向量q_i＝x_iW_Q、键向量k_i＝x_iW_K和值向量v_i＝x_iW_V。那么，A_i,j＝q_ik_j，q_i和k_j之间的点积，其中A_i,j是从令牌i到令牌j的关注权重。关注权重除以键向量的维度的平方根(以在训练期间稳定矩阵值之间的梯度)，并且通过softmax，其将权重标准化为总和为1。由此，令牌自关注部分根据关注权重A_i,j得到令牌i对令牌j的上下文关注。

元数据自关注部分计算一组元数据关注权重A^meta，该组元数据关注权重利用输入的一组相关性嵌入S^meta来计算。如果存在输入的一组以上的相关性嵌入，则每组馈送到单独的元数据自关注部分中。在一个实施例中，A^meta _ij＝(qi+B)S^metaT_ij，其中B是可学习偏差项，而S^metaT_ij是S^meta的转置版本。在另一实施例中，A^meta _ij＝(qi+B)S^metaT_ij+S^meta _ij(k_j+B’)^T，其中B和B’是可学习的偏差项，并且(k_j+B’)^T是(k_j+B’)的转置版本。另一实施例使用神经网络来将该组相关性嵌入S^meta与K(该组键向量的矩阵)相组合。然后，计算组合结果与Q、该组查询向量的矩阵和与B S^metaT_ij求和的结果之间的点积。用于从相关性嵌入S^meta计算元数据关注权重A^meta的其他技术也是可能的并在说明性实施例的范围内被构想。

融合部分将令牌自关注部分和一个或多个元数据自关注部分的结果组合。一实施例使用神经网络来组合令牌自关注部分和元数据自关注部分的结果。另一实施例计算A与A^meta的元素积。用于将令牌自关注部分和元数据自关注部分的结果组合的其他技术也是可能的，并在说明性实施例的范围内被构想。

在一个实施例中，相加和标准化部分将来自融合部分的输出和到令牌自关注部分的输入相加，然后将结果标准化并将标准化结果传递到前馈部分。在另一实施例中，相加和标准化部分不存在，并且融合部分的输出被直接传递到前馈部分。在一个实施例中，前馈部分使用具有由权重矩阵描述的权重的线性层来实现。在模型训练期间调整权重。在另一实施例中，每个元数据自关注部分之后是组合该特定元数据自关注部分的输入和输出的相加和标准化部分，并且不存在组合来自融合部分的输出和对令牌自关注部分的输入的相加和标准化部分。

在一个实施例中，将前馈部分的输出和对前馈部分的输入加在一起并标准化，并且将结果传递到第二编码器层的输入部分，用于附加处理。在另一实施例中，前馈部分的输出被传递到第二编码器层的输入部分，以用于附加处理。

在一个实施例中，变换器模型包括串联连接的一个或多个解码器层。每个解码器层接收令牌嵌入的序列和由嵌入部分生成的该组相关性嵌入作为输入。每个解码器层还从该系列编码器层中的最后一个编码器层接收输出作为输入。

在一个实施例中，每个解码器层被相同地配置，并且包括令牌自关注部分、一个或多个元数据自关注部分、以及融合部分、关注部分、前馈部分和可选的相加和标准化部分。在另一个实施例中，每个解码器层不是相同配置的。相反，一些解码器层不包括一个或多个元数据自关注部分或融合部分。

解码器层的令牌自关注部分、元数据自关注部分和融合部分与编码器层的那些类似地操作。在一个实施例中，相加和标准化部分将来自融合部分的输出和到令牌自关注部分的输入相加，然后将结果标准化并将标准化结果传递到关注部分。在另一个实施例中，不存在相加和标准化部分，并且融合部分的输出被直接传递到关注部分。

关注部分将来自融合部分或相加和标准化部分的输出与来自该组编码器层中的最后一个编码器层的输出进行组合。在一个实施例中，来自最后一个编码器层的输出采用键向量和值向量的形式，并且来自融合部分或相加和标准化部分的输出采用查询向量的形式。关注部分使用目前已知的技术组合输入。

在一个实施例中，相加和标准化部分将来自关注部分的输出和对关注部分的输入相加，然后将结果标准化并将标准化结果传递到前馈部分。在另一实施例中，相加和标准化部分不存在，并且关注部分的输出被直接传递到前馈部分。在一个实施例中，前馈部分使用具有由权重矩阵描述的权重的线性层来实现。在模型训练期间调整权重。在一个实施例中，将前馈部分的输出和对前馈部分的输入加在一起并标准化，并且将结果传递到第二解码器层的输入部分，用于附加处理。在另一实施例中，将前馈部分的输出传递到第二解码器层的输入部分以用于附加处理。

实施例训练变换器模型。在训练期间，该实施例学习将模型参数(包括查询权重、键权重、值权重、关注和元数据关注权重、一个或多个可学习的偏差项、以及嵌入部分的参数)设置为产生已经标记为正确的输出训练数据的值。一个实施例通过将模型参数初始化为基本参数集(例如，伪随机选择的参数集)并且通过使用一组训练数据调整该组参数来一次训练整个模型。

另一个实施例分阶段训练模型。该实施例将令牌嵌入和令牌自关注部分的参数设置为基本参数集。作为一个非限制性示例，基本参数集是伪随机选择的参数集。作为另一非限制性示例，基本参数集是已经使用当前可用技术训练的已经训练的令牌嵌入和令牌自关注部分的参数集。将已经训练的令牌嵌入和令牌自关注部分的那些参数用作参数的基本集合，通过从部分训练的状态开始，节省了训练时间。在第一训练阶段中，实施例保持令牌嵌入和令牌自关注部分的参数恒定，并且通过使用一组训练数据来调整相关性嵌入的参数、一个或多个元数据自关注部分和融合部分来训练模型。然后，在第二训练阶段中，该实施例通过调节整个参数集中的一个或多个参数来训练整个模型。

模型训练数据可基于模型的输出的最终使用来调整。该模型的输出的最终使用的一些非限制性示例是执行掩码语言建模(使用围绕掩码令牌的上下文词语或要被填充的空白，以尝试预测什么词语应当替换该掩码令牌)、掩码上下文回归(掩码处理随机选择的话语并预测该掩码处理的话语的编码向量)、分布式话语次序排序(将对话的随机混洗的话语组织成一致性对话上下文)、以及话语或句子次序选择。例如，对于要在纯文本(没有元数据)和具有伴随的元数据的自然语言文本两者上使用的一般模型，训练数据应当包括纯文本和具有伴随的元数据的不同文本流派两者。然而，对于在结合具有伴随的元数据的一种流派的文本的数据上使用的模型，例如，仅用于对话相关任务的模型，训练数据仅需要包括具有伴随的元数据(诸如对话轮次、讲话者、或时间戳数据)的特定于对话的文本。

一旦该模型已经被训练(一般地或针对特定流派)，一实施例任选地进一步训练该模型以执行特定下游任务。文档的下游任务的一些非限制性实例是结构化文档中的掩蔽句子选择、来自文档的问答和回答检索以及结构化文档概要。对话的下游任务的一些非限制性实例是下一话语选择、话语顺序选择(按顺序放置话语或对话的其他部分)、掩蔽话语选择、下一话语生成和会话问答。

本文中所描述的结合元数据的基于变换器的编码的方式在与自然语言文本处理有关的努力的技术领域中的目前可用的方法中是不可用的。本文所描述的实施例的方法，当被实现为在设备或数据处理系统上执行时，包括在以下对该设备或数据处理系统的功能性的实质改进：从非文本数据或自然语言文本文档的语料库的元数据构建相关性矩阵以及训练、生成经训练的编码模型，编码模型用于计算与所述语料库内的自然语言文本文档的令牌和所述相关性矩阵对应的嵌入。

仅作为示例，关于某些类型的令牌、嵌入、相关性、矩阵、编码部分、关注部分、融合部分、神经网络、调整、设备、数据处理系统、环境、组件和应用来描述说明性实施例。这些的任何具体表现和其他类似产物不旨在限制本发明。在说明性实施例的范围内，可以选择这些的任何合适的表现和其他类似产物。

此外，可以相对于任何类型的数据、数据源或通过数据网络对数据源的访问来实现说明性实施例。在本发明的范围内，任何类型的数据存储设备可以在数据处理系统本地或通过数据网络将数据提供给本发明的实施例。在说明性实施例的范围内，在使用移动设备描述实施例的情况下，适于与移动设备一起使用的任何类型的数据存储设备可在移动设备本地或通过数据网络将数据提供到此实施例。

仅使用具体代码、设计、架构、协议、布局、示意图和工具作为示例来描述说明性实施例，并且不限于说明性实施例。此外，为了描述的清楚，在一些实例中使用具体软件、工具和数据处理环境仅作为示例来描述说明性实施例。说明性实施例可以结合其他可比较的或相似用途的结构、系统、应用或架构使用。例如，在本发明的范围内，其他类似的移动设备、结构、系统、应用或架构可以与本发明的这种实施例结合使用。说明性实施例可以在硬件、软件或其组合中实现。

本公开中的示例仅用于描述的清晰，并且不限于说明性实施例。另外的数据、操作、动作、任务、活动和操纵将从本公开想到，并且在说明性实施例的范围内设想相同的数据、操作、动作、任务、活动和操纵。

在此列出的任何优点仅是实例并且不旨在限制这些说明性实施例。通过具体的说明性实施例可以实现另外的或不同的优点。此外，特定说明性实施例可具有上文所列的优点中的一些、全部或无优点。

应当理解，虽然本公开包括关于云计算的详细描述，但是本文所引用的教导的实现不限于云计算环境。相反，本发明的实施例能够结合现在已知的或以后开发的任何其他类型的计算环境来实现。

云计算是服务交付的模型，用于使得能够方便地、按需地网络访问可配置计算资源(例如，网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池，所述可配置计算资源可以以最小的管理努力或与所述服务的提供者的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。

特性如下：

按需自助服务：云消费者可以单方面地根据需要自动地提供计算能力，诸如服务器时间和网络存储，而不需要与服务的提供者的人类交互。

广泛的网络接入：能力可通过网络获得并且通过标准机制接入，该标准机制促进异构瘦客户机平台或厚客户机平台(例如，移动电话、膝上型计算机和PDA)的使用。

资源池化：提供者的计算资源被池化以使用多租户模型来服务于多个消费者，其中不同的物理和虚拟资源根据需要动态地指派和重新指派。存在位置独立性的感觉，因为消费者通常不具有对所提供的资源的确切位置的控制或了解，但可能能够以较高抽象级别(例如，国家、州或数据中心)指定位置。

快速弹性：能够快速和弹性地提供能力，在一些情况下自动地快速缩小和快速释放以快速放大。对于消费者而言，可用于供应的能力通常显得不受限制并且可以在任何时间以任何数量购买。

测量的服务：云系统通过在适合于服务类型(例如，存储、处理、带宽和活动用户账户)的某个抽象级别处利用计量能力来自动控制和优化资源使用。可以监视、控制和报告资源使用，为所利用的服务的提供者和消费者提供透明度。

服务模型如下：

软件即服务(SaaS)：提供给消费者的能力是使用在云基础设施上运行的提供者的应用。可通过诸如web浏览器(例如，基于web的电子邮件)之类的瘦客户端接口从不同客户端设备访问应用。消费者不管理或控制包括网络、服务器、操作系统、存储或甚至单独的应用能力的底层云基础设施，可能的例外是有限的用户特定应用配置设置。

平台即服务(PaaS)：提供给消费者的能力是将消费者创建的或获取的使用由提供商支持的编程语言和工具创建的应用部署到云基础设施上。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施，但是对所部署的应用和可能的应用托管环境配置具有控制。

基础设施即服务(IaaS)：提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其他基本计算资源，所述软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施，而是具有对操作系统、存储、所部署的应用的控制以及对所选联网组件(例如，主机防火墙)的可能受限的控制。

部署模型如下：

私有云：云基础架构仅为组织运作。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

社区云：云基础架构被若干组织共享并支持共享了关注(例如，任务、安全要求、策略、和合规性考虑)的特定社区。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

公共云：使云基础架构对公众或大型行业组可用，并且由出售云服务的组织拥有。

混合云：云基础架构是两个或更多个云(私有、社区或公共)的组合，这些云保持唯一实体但通过使数据和应用能够移植的标准化或专有技术(例如，云突发以用于云之间的负载平衡)绑定在一起。

云计算环境是面向服务的，集中于无状态、低耦合、模块化和语义互操作性。云计算的核心是包括互连节点网络的基础设施。

参考附图并且具体参考图1和图2，这些图是可以实现说明性实施例的数据处理环境的示例图。图1和图2仅是示例，并不旨在断言或暗示关于其中可以实现不同实施例的环境的任何限制。特定实现方式可以基于以下描述对所描绘的环境做出许多修改。

图1示出了可以实现说明性实施例的数据处理系统的网络的框图。数据处理环境100是其中可以实施说明性实施例的计算机网络。数据处理环境100包括网络102。网络102是用于提供在数据处理环境100内连接在一起的各种设备和计算机之间的通信链路的介质。网络102可以包括诸如有线、无线通信链路或光纤电缆之类的连接。

客户端或服务器仅是连接到网络102的某些数据处理系统的示例角色，并且不旨在排除这些数据处理系统的其他配置或角色。服务器104和服务器106与存储单元108一起耦合到网络102。软件应用可以在数据处理环境100中的任何计算机上执行。客户端110、112和114也耦合到网络102。数据处理系统(诸如服务器104或106或客户端110、112或114)可以包含数据并且可以具有在其上执行的软件应用或软件工具。

仅作为示例，并且不暗示对这种架构的任何限制，图1描述了在实施例的示例实施方式中可使用的某些部件。例如，服务器104和106以及客户端110、112、114仅作为示例被描绘为服务器和客户端，而不是暗示对客户端-服务器架构的限制。作为另一示例，实施例可以跨所示的若干数据处理系统和数据网络分布，而另一实施例可以在说明性实施例的范围内的单个数据处理系统上实现。数据处理系统104、106、110、112和114还表示集群、分区和适于实现实施例的其他配置中的示例节点。

设备132是本文描述的设备的示例。例如，设备132可以采取智能电话、平板计算机、膝上型计算机、固定或便携式形式的客户端110、可穿戴计算设备或任何其他合适的设备的形式。被描述为在图1中的另一数据处理系统中执行的任何软件应用可被配置成以类似方式在设备132中执行。在图1中的另一个数据处理系统中存储或产生的任何数据或信息可以被配置为以类似的方式在设备132中存储或产生。

应用105实现本文所描述的实施例。应用105在服务器104和106、客户端110、112和114以及设备132中的任一个中执行。

服务器104和106、存储单元108和客户端110、112和114和设备132可以使用有线连接、无线通信协议或其他合适的数据连接性耦合到网络102。客户端110、112和114可以是例如个人计算机或网络计算机。

在所描绘的示例中，服务器104可以向客户端110、112和114提供诸如引导文件、操作系统映像和应用之类的数据。在该示例中，客户端110、112和114可以是服务器104的客户端。客户端110、112、114或其某种组合可以包括它们自己的数据、引导文件、操作系统映像和应用。数据处理环境100可以包括附加的服务器、客户端和未示出的其他设备。

在所描绘的示例中，数据处理环境100可以是互联网。网络102可以表示使用传输控制协议/互联网协议(TCP/IP)和其他协议来彼此通信的网络和网关的集合。互联网的核心是主节点或主计算机(包括路由数据和消息的数千个商业、政府、教育和其他计算机系统)之间的数据通信链路的骨架。当然，数据处理环境100还可以被实现为许多不同类型的网络，诸如例如内联网、局域网(LAN)或广域网(WAN)。图1旨在作为示例，而不是作为对于不同说明性实施例的架构限制。

除了其他用途之外，数据处理环境100可以用于实现其中可以实现说明性实施例的客户端-服务器环境。客户机-服务器环境使得软件应用和数据能够跨网络分布，以使得应用通过使用客户机数据处理系统和服务器数据处理系统之间的交互来发挥功能。数据处理环境100还可以采用面向服务的架构，其中，跨网络分布的可互操作的软件组件可以被一起封装为一致的业务应用。数据处理环境100还可以采取云的形式，并且采用服务递送的云计算模型，用于使得能够方便地、按需地网络访问可配置计算资源(例如，网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池，所述可配置计算资源可以以最小的管理努力或与所述服务的提供者的交互被快速供应和释放。

参考图2，该图描绘了可以实现说明性实施例的数据处理系统的框图。数据处理系统200是计算机的示例，诸如图1中的服务器104和106或客户端110、112和114，或者对于说明性实施例实施过程的计算机可用程序代码或指令可以位于其中的另一类型的设备。

数据处理系统200还代表数据处理系统或其中的配置，诸如图1中的数据处理系统132，实施说明性实施例的处理的计算机可用程序代码或指令可以位于其中。数据处理系统200仅作为示例被描述为计算机，而不限于此。其他设备(诸如图1中的设备132)的形式的实现方式可以修改数据处理系统200，诸如通过添加触摸界面，并且甚至从数据处理系统200消除某些所描绘的组件，而不偏离本文描述的数据处理系统200的操作和功能的一般描述。

在所描绘的示例中，数据处理系统200采用包括北桥和存储器控制器中枢(NB/MCH)202和南桥和输入/输出(I/O)控制器中枢(SB/ICH)204的中枢架构。处理单元206、主存储器208和图形处理器210耦合到北桥和存储器控制器中枢(NB/MCH)202。处理单元206可以包含一个或多个处理器并且可以使用一个或多个异构处理器系统来实现。处理单元206可以是多核处理器。在某些实现方式中，图形处理器210可以通过加速图形端口(AGP)耦合到NB/MCH202。

在所描绘的示例中，局域网(LAN)适配器212耦合到南桥和I/O控制器中枢

(SB/ICH)204。音频适配器216、键盘和鼠标适配器220、调制解调器222、只读存储器(ROM)224、通用串行总线(USB)和其他端口232、以及PCI/PCIe设备234通过总线238耦合到南桥和I/O控制器中枢204。硬盘驱动器(HDD)或固态驱动器(SSD)226和CD-ROM230通过总线240耦合到南桥和I/O控制器中枢204。PCI/PCIe设备234可包括例如以太网适配器、插入卡和用于笔记本计算机的PC卡。PCI使用卡总线控制器，而PCIe不使用。ROM224可以是例如闪存二进制输入/输出系统(BIOS)。硬盘驱动器226和CD-ROM230可以使用例如集成驱动电子器件(IDE)、串行高级技术附件(SATA)接口或诸如外部SATA(eSATA)和微SATA(mSATA)的变体。超级I/O(SIO)设备236可以通过总线238耦合到南桥和I/O控制器中枢(SB/ICH)204。

诸如主存储器208、ROM 224或闪存(未示出)的存储器是计算机可用存储设备的一些示例。硬盘驱动器或固态驱动器226、CD-ROM230和其他类似可用的设备是包括计算机可用存储介质的计算机可用存储设备的一些示例。

操作系统运行在处理单元206上。操作系统协调并提供图2中的数据处理系统200内的各种组件的控制。操作系统可以是用于任何类型的计算平台的市售操作系统，包括但不限于服务器系统、个人计算机和移动设备。面向对象的或其他类型的编程系统可以与操作系统结合操作，并且提供从在数据处理系统200上执行的程序或应用对操作系统的调用。

操作系统、面向对象的编程系统和应用或程序(诸如图1中的应用105)的指令位于存储设备上(诸如以硬盘驱动器226上的代码226A的形式)，并且可被加载到一个或多个存储器(诸如主存储器208)中的至少一个中以供处理单元206执行。示例性实施方式的处理可以通过使用计算机实施的指令由处理单元206执行，这些指令可以位于存储器中，诸如，例如，主存储器208、只读存储器224、或者一个或多个外围设备中。

此外，在一种情况下，代码226A可通过网络201A从远程系统201B下载，其中类似代码201C被存储在存储设备201D上。在另一情况下，代码226A可通过网络201A被下载到远程系统201B，其中所下载的代码201C被存储在存储设备201D上。

图1-2中的硬件可取决于实施例而变化。除了或代替图1-2中所描绘的硬件，可使用其他内部硬件或外围设备，例如快闪存储器、等效非易失性存储器或光盘驱动器等。此外，说明性实施例的过程可以应用于多处理器数据处理系统。

在一些说明性示例中，数据处理系统200可以是个人数字助理(PDA)，其通常配置有闪速存储器以提供用于存储操作系统文件和/或用户生成的数据的非易失性存储器。总线系统可包括一条或多条总线，诸如系统总线、I/O总线和PCI总线。当然，总线系统可以使用在附接到结构或架构的不同组件或设备之间提供数据传送的任何类型的通信结构或架构来实现。

通信单元可包括用于发送和接收数据的一个或多个设备，诸如调制解调器或网络适配器。存储器可以是例如主存储器208或高速缓存，诸如在北桥和存储器控制器中枢202中发现的高速缓存。处理单元可包含或以上处理器或CPU。

图1-2中描绘的示例和上述示例不意味着暗示架构限制。例如，数据处理系统200除了采取移动或可穿戴设备的形式之外还可以是平板计算机、膝上型计算机或电话设备。

在计算机或数据处理系统被描述为虚拟机、虚拟设备或虚拟组件的情况下，虚拟机、虚拟设备或虚拟组件以数据处理系统200的方式使用数据处理系统200中描绘的一些或所有组件的虚拟化表现来操作。例如，在虚拟机、虚拟设备或虚拟组件中，处理单元206表现为主机数据处理系统中可用的所有或某些数量的硬件处理单元206的虚拟化实例，主存储器208表现为主机数据处理系统中可用的主存储器208的所有或某个部分的虚拟化实例，并且盘226表现为主机数据处理系统中可用的盘226的所有或某个部分的虚拟化实例。在这种情况下，主机数据处理系统由数据处理系统200表示。

参见图3，该图描绘了根据说明性实施例的结合元数据的基于变换器的编码的示例配置的框图。应用300是图1中的应用105的示例，并且在图1中的服务器104和106、客户端110、112和114以及设备132中的任一个中执行。

元数据相关性模块310从自然语言文本文档的语料库的元数据构建相关性矩阵。所述相关性矩阵的行和列表示一种类型的元数据的实例，并且行-列交叉点存储一种类型的元数据的两个实例之间的关系的数据。在一个示例相关性矩阵编码方案中，如果在一种类型的元数据的两个实例之间存在关系，那么相关性矩阵中的条目被设置为1，如果不存在关系，那么相关性矩阵中的条目被设置为0。在另一个实例相关性矩阵编码方案中，相关性矩阵中的条目被设置为在元数据内的一种类型的元数据的两个实例之间的距离。在另一个实例相关性矩阵编码方案中，文档或对话转录本用由元数据描述的树结构表示，并且可基于由条目的行表示的节点与由条目的列表示的节点之间的距离，设置相关性矩阵中的条目。以在本文中描述的方式使用相关性矩阵表示元数据的实例之间的相对距离来编码元数据关系的其他示例包括字符、场景位置、或文本、音频或视频内容(诸如，转录本、脚本或电影)内的其他交互之间的关系、内容中表达的实体之间的关系以及解析树、知识图、超链接或其他结构化信息关系的元素之间的关系。

编码器模块320实现变换器模型的编码器部分。模块320接收令牌序列和相关性矩阵作为输入，并且生成与输入令牌对应并且根据包括相关性矩阵的上下文进行调整的嵌入。参见图4和5呈现模块320的更多细节。

解码器模块325实现变换器模型的可选解码器部分，包括串联连接的一个或多个解码器层。每个解码器层接收由编码器模块320生成的令牌嵌入的序列和一组相关性嵌入作为输入。每个解码器层还从模块320内的一系列编码器层中的最后一个编码器层接收输出作为输入。参看图6和7呈现模块325的更多细节。

训练模块330训练变换器模型。在训练期间，模块330将模型参数(包括编码器和解码器部分内的查询权重、键权重、值权重、关注和元数据关注权重、一个或多个可学习偏差项、以及嵌入部分的参数)设置为产生已经被标记为正确的输出训练数据的值。模块330的一个实现方式通过将模型参数初始化为基本参数集(例如，伪随机选择的参数集)并且通过使用训练数据集调整该参数集来训练模型，以一次训练整个模型。

模块330的另一个实现方式分阶段训练模型。模块330将令牌嵌入和令牌自关注部分的参数设置成基本参数集。作为一个非限制性示例，基本参数集是伪随机选择的参数集。作为另一非限制性示例，基本参数集是已经使用当前可用技术训练的已经训练的令牌嵌入和令牌自关注部分的参数集。在第一训练阶段，模块330使令牌嵌入和令牌自关注部分的参数保持恒定，并且通过使用训练数据集调整相关性嵌入的参数、一个或多个元数据自关注部分、关注部分和融合部分来训练模型。然后，在第二训练阶段中，模块330通过调整整个参数集中的一个或多个参数来训练整个模型。

参见图4，该图描绘了根据说明性实施例的结合元数据的基于变换器的编码的示例配置的框图。编码器模块320与图3中的编码器模块320相同。

编码器模块320包括一组编码器层，包括编码器层410、编码器层420和编码器层430。编码器层串联连接，并且在编码器层420和430之间可以存在附加的编码器层。

参见图5，该图描绘了根据说明性实施例的结合元数据的基于变换器的编码的示例配置的框图。编码器层410与图4中的编码器层410相同。

在当前可用的神经网络配置中配置的令牌嵌入模块510生成对令牌进行编码的令牌嵌入。模块510还可选地被配置在当前可用的神经网络配置中，以生成对文本的一部分或分段内的令牌的位置进行编码的位置嵌入以及对令牌位于哪个文本分段进行编码的分段嵌入。如果生成了位置嵌入和分段嵌入，则模块510被配置在当前可用的神经网络配置中以将令牌嵌入、位置嵌入和分段嵌入组合成令牌嵌入。在模块510的一个实现方式中，令牌嵌入、位置嵌入和分段嵌入通过将它们加在一起而被组合。

在当前可用的神经网络配置中配置的元数据嵌入模块520生成一组相关性嵌入，每个嵌入编码相关性矩阵中的条目。

令牌自关注模块530由三个权重矩阵描述：查询权重W_Q、键权重W_K和值权重W_V。具体地，对于每个令牌i，输入嵌入x_i与每个权重矩阵相乘以产生查询向量q_i＝x_iW_Q、键向量k_i＝x_iW_K和值向量v_i＝x_iW_V。那么，A_i,j＝q_ik_j，q_i和k_j之间的点积，其中A_i,j是从令牌i到令牌j的关注权重。关注权重除以键向量的维度的平方根(以在训练期间稳定矩阵值之间的梯度)，并且通过将权重标准化为总和为1的softmax。

元数据自关注模块540计算一组元数据关注权重A^meta，该组元数据关注权重利用输入的一组相关性嵌入S^meta来计算。如果存在输入的一组以上的相关性嵌入，则每组相关性嵌入馈送到单独的元数据自关注部分中。在一个实施例中，A^meta _ij＝(q_i+B)S^metaT_ij，其中B是可学习偏差项，而S^metaT_ij是S^meta的转置版本。在另一实施例中，A^meta _ij＝(q_i+B)S^metaT_ij+S^meta _ij(k_j+B’)^T，其中B和B’是可学习的偏差项，并且(k_j+B’)^T是(k_j+B’)的转置版本。另一实施例使用神经网络来将该组相关性嵌入S^meta与K(该组键向量的矩阵)相组合。然后，计算组合结果与Q、该组查询向量的矩阵和与B S^metaT_ij求和的结果之间的点积。

融合模块550组合模块530和540的结果。模块550的一种实现方式使用神经网络来组合令牌自关注部分和元数据自关注部分的结果。模块550的另一实现方式计算A与A^meta的元素积。

参考图6，该图描绘了根据说明性实施例的结合元数据的基于变换器的编码的示例配置的框图。解码器模块325与图3中的编码器模块325相同。

解码器模块325包括一组解码器层，包括解码器层610、解码器层620和解码器层630。解码器层串联连接，并且在编码器层620和630之间可以存在附加的解码器层。每个解码器层接收由模块510和520生成的令牌嵌入的序列和一组相关性嵌入作为输入。每个解码器层还从编码器层430接收一系列编码器层中的最后一个编码器层作为输入。

参考图7，该图描绘了根据说明性实施例的结合元数据的基于变换器的编码的示例配置的框图。解码器层610与图6中的解码器层610相同。

如所描绘的，解码器层610包括令牌自关注模块710、一个或多个元数据自关注模块720、融合模块730和关注模块740。令牌自关注模块710、元数据自关注模块720和融合模块730类似于编码器层410的那些来操作。在层610的一种实现方式中，相加和标准化部分将来自融合模块730的输出和到令牌自关注模块710的输入相加，然后将结果标准化并将标准化结果传递到关注模块740。在层610的另一实现方式中，相加和标准化部分不存在，并且融合模块730的输出被直接传递到关注模块740。

关注模块740将来自融合模块730或者相加和标准化部分的输出与来自该组编码器层中的最后一个编码器层的输出进行组合。在层610的一种实现方式中，来自最后编码器层的输出是键矢量和查询矢量的形式，并且来自融合部分740或者相加和标准化部分的输出是查询矢量的形式。关注模块740使用当前已知的技术来组合输入。

在层610的一种实现方式中，第二相加和标准化部分将来自关注模块740的输出和到关注模块740的输入相加，然后将结果标准化并将标准化结果传递到前馈部分。在另一实施例中，相加和标准化部分不存在，并且关注模块740的输出被直接传递到前馈部分。在层610的一个实施例中，将前馈部分的输出和到前馈部分的输入相加在一起且正规化，且将结果传递到第二解码器层的输入部分以用于额外处理。在另一实施例中，将前馈部分的输出传递到第二解码器层的输入部分以用于额外处理。

参考图8，该图描绘了根据说明性实施例的结合元数据的基于变换器的编码的示例。该示例可使用图3中的应用300来执行。元数据相关性模块310与图3中的元数据相关性模块310相同。

具体而言，图8描述了从会话810的元数据构建相关性矩阵812。在矩阵812中，如果在一种类型的元数据的两个实例之间存在关系，则相关性矩阵中的条目被设置为1，如果不存在关系，则被设置为0。由此，因为会话810的元数据指示哪些部分被哪个参与者说出或编写，所以矩阵810的行和列表示参与者。如果在由条目的行表示的参与者和由条目的列表示的参与者之间存在关系，则相关性矩阵810中的条目被设置为1，如果没有关系，则被设置为0。

图8还描述了从加时间戳的会话820的元数据构建相关性矩阵822。在矩阵822中，相关性矩阵822中的条目被设置为元数据内的一种类型的元数据的两个实例之间的距离。由此，因为会话820的元数据记录了对应于会话中的参与者或轮次的每次改变的时间戳，所以相关性矩阵822的行和列表示特定轮次，并且矩阵822中的条目被设置为在由该条目的行表示的轮次和由该条目的列表示的轮次之间流逝的时间量。

参见图9，该图描绘了根据说明性实施例的结合元数据的基于变换器的编码的继续示例。令牌嵌入模块510和元数据嵌入模块520与图5中的令牌嵌入模块510和元数据嵌入模块520相同。矩阵812和822与图8中的矩阵812和822相同。

令牌嵌入模块510接收令牌序列作为输入。模块510生成对令牌进行编码的令牌嵌入。模块510还生成位置嵌入和分段或分段嵌入，并将令牌嵌入、位置嵌入和分段嵌入组合到令牌嵌入902中。

元数据嵌入模块520接收相关性矩阵812和822作为输入，并分别生成相关性嵌入912和922。

参见图10，该图描绘了根据说明性实施例的结合元数据的基于变换器的编码的继续示例。编码器模块320与图3中的编码器模块320相同。编码器层410、420和430与图4中的编码器层410、420和430相同。令牌自关注模块530、元数据自关注模块540和融合模块550与图5中的令牌自关注模块530、元数据自关注模块540和融合模块550相同。令牌嵌入902和相关性嵌入912和922与图9中的令牌嵌入902和相关性嵌入912和922相同。要注意的是，图10仅仅描述编码器层610的细节；未描述编码器层620和630的细节。

令牌自关注模块530根据一组关注权重来改变令牌嵌入902。元数据自关注模块540中的每一个根据对应的元数据关注权重集来分别更改相关性嵌入912和922。融合模块550组合模块530和540的结果。可选的相加和标准化模块1010将来自融合模块550的输出和嵌入902相加，然后将结果标准化并将标准化的结果传递到前馈1030。可选的相加和标准化模块1040将前馈1030的输出和前馈1030的输入相加并标准化，并将结果传递到编码器层420中。编码器层430(系列中的最后一个编码器层)生成编码器输出1050。

参见图11，该图描绘了根据说明性实施例的结合元数据的基于变换器的编码的继续示例。解码器模块325与图3中的解码器模块325相同。解码器层610、620和630与图6中的编码器层610、620和630相同。令牌自关注模块710、元数据自关注模块720、融合模块730和关注模块740与图7中的令牌自关注模块710、一个或多个元数据自关注模块720、融合模块730和关注模块740相同。令牌嵌入902和相关性嵌入912和922与图9中的令牌嵌入902和相关性嵌入912和922相同。编码器输出1050与图10中的编码器输出1050相同。要注意的是，图11仅仅描述解码器层610的细节；未描述解码器层620和630的细节。

令牌自关注模块710根据一组关注权重来改变令牌嵌入902。元数据自关注模块720中的每一个根据对应的元数据关注权重集分别更改相关性嵌入912和922。融合模块730组合模块710和720的结果。可选相加和标准化模块1110将来自融合模块730和嵌入902的输出相加，然后将结果标准化并将标准化结果传递给关注模块740。关注模块740将来自融合模块740或者相加和标准化模块1110的输出与编码器输出1050进行组合。可选的相加和标准化模块1120将来自关注模块740的输出和到关注模块740的输入相加，然后将结果标准化并将标准化结果传递到前馈1030。可选的相加和标准化模块1140将前馈1130的输出和前馈1130的输入相加并标准化，并将结果传递到解码器层令牌1150中。

参见图12，该图描绘了根据说明性实施例的结合元数据的基于变换器的编码的继续示例。训练模块330与图3中的训练模块330相同。

具体地，图12描述了特定下游任务的模型训练。由此，训练模块330使用对话训练语料库1210训练未经训练的编码器模型1220以产生经训练的编码器模型1230，然后使用特定于对话任务的训练数据1240进一步训练模型1230，从而产生经对话任务训练的编码器模型1250。类似地，训练模块330使用文档训练语料库1212训练未经训练的编码器模型1220，以产生经训练的编码器模型1232，然后使用特定于文档任务的训练数据1242进一步训练模型1232，得到经文档任务训练的对话模型1252。

参考图13，该图描绘了根据说明性实施例的结合元数据的基于变换器的编码的示例过程的流程图。过程1300可以在图3中的应用300中实施。

在框1302，该应用从非文本数据或自然语言文本文档的语料库的元数据构造相关性矩阵。在框1304中，应用将编码器模型的令牌嵌入部分的参数集初始化为令牌嵌入参数的基本集。在框1306，应用将模型的令牌自关注部分的参数集初始化成令牌自关注参数的基本集。在框1308，应用通过调整模型的相关性嵌入部分的参数集和模型的元数据自关注部分的参数集来部分地训练模型，而令牌嵌入部分的参数集被设置为令牌嵌入参数的基本集，并且令牌自关注部分的参数集被设置为令牌自关注参数的基本集。在框1310中，应用通过调整模型的参数集来训练经部分训练的模型。然后应用结束。

现在参见图14，描绘了说明性云计算环境50。如图所示，云计算环境50包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点10，本地计算设备诸如例如个人数字助理(PDA)或蜂窝电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机系统54N。节点10可彼此通信。它们可以物理地或虚拟地分组(未示出)在一个或多个网络中，诸如如上所述的私有云、社区云、公共云或混合云、或其组合。这允许云计算环境50提供基础设施、平台和/或软件作为云消费者不需要为其维护本地计算设备上的资源的服务。应当理解，所描绘的计算设备54A-N的类型仅旨在是说明性的，并且计算节点10和云计算环境50可通过任何类型的网络和/或网络可寻址连接(例如，使用网络浏览器)与任何类型的计算机化设备通信。

现在参见图15，示出了由云计算环境50(图14)提供的一组功能抽象层。应当提前理解，所描绘的部件、层和功能仅旨在是说明性的，并且本发明的实施例不限于此。如所描述，提供以下层和对应功能：

硬件和软件层60包括硬件和软件组件。硬件组件的示例包括：大型机61；基于RISC(精简指令集计算机)架构的服务器62；服务器63；刀片服务器64；存储设备65；以及网络和联网组件66。在一些实施例中，软件组件包括网络应用服务器软件67和数据库软件68。

虚拟化层70提供抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器71；虚拟存储器72；虚拟网络73，包括虚拟专用网络；虚拟应用和操作系统74；以及虚拟客户端75。

在一个示例中，管理层80可以提供以下描述的功能。资源供应81提供用于在云计算环境内执行任务的计算资源和其他资源的动态采购。计量和定价82在云计算环境内利用资源时提供成本跟踪，并为这些资源的消费开账单或发票。在一个示例中，这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证，以及为数据和其他资源提供保护。用户门户83为消费者和系统管理员提供对云计算环境的访问。服务水平管理84提供云计算资源分配和管理，使得满足所需的服务水平。服务水平协议(SLA)规划和履行85提供根据SLA预期未来需求的云计算资源的预安排和采购。

工作负载层90提供可以利用云计算环境的功能的示例。可以从该层提供的工作负荷和功能的示例包括：地图和导航91；软件开发和生命周期管理92；虚拟课堂教育交付93；数据分析处理94；事务处理95；以及基于累积弱点风险评估96的应用选择。

因此，在说明性实施例中提供了用于结合元数据和其他相关特征、功能或操作的基于变换器的编码的计算机实施的方法、系统或设备以及计算机程序产品。当关于设备的类型描述实施例或其部分时，计算机实施的方法、系统或设备、计算机程序产品或其部分被适配或配置用于与该类型设备的合适且相当的表现一起使用。

在实施例被描述为在应用中实现的情况下，软件即服务(SaaS)模型中的应用的传递构想在说明性实施例的范围内。在SaaS模型中，通过在云基础设施中执行应用来将实现实施例的应用的能力提供给用户。用户可通过诸如web浏览器(例如，基于web的电子邮件)或其他轻量级客户机应用之类的瘦客户机接口使用各种客户机设备来访问应用。用户不管理或控制包括网络、服务器、操作系统或云基础设施的存储的底层云基础设施。在一些情况下，用户甚至可能不管理或控制SaaS应用的能力。在一些其他情况下，应用的SaaS实现可允许有限的用户特定应用配置设置的可能异常。

本发明可以是任何可能的技术细节集成度的系统、方法和/或计算机程序产品。计算机程序产品可包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储媒质(或多个媒质)。

计算机可读存储媒体可为可保留和存储供指令执行设备使用的指令的有形设备。计算机可读存储媒质可以是，例如但不限于，电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储媒质的更具体示例的非穷尽列表包括以下各项：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、诸如穿孔卡之类的机械编码设备或具有记录在其上的指令的槽中的凸出结构、以及上述各项的任何合适的组合。如本文所使用的计算机可读存储媒体不应被解释为暂时性信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输媒体传播的电磁波(例如，穿过光纤电缆的光脉冲)或通过电线发射的电信号。

本文中所描述的计算机可读程序指令可以经由网络(例如，互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备，或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储媒质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据、或以一种或多种程序设计语言的任何组合编写的源代码或目标代码，这些程序设计语言包括面向对象的程序设计语言(诸如Smalltalk、C++等)和过程程序设计语言(诸如“C”程序设计语言或类似程序设计语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接至用户计算机，或者可连接至外部计算机(例如，使用互联网服务提供商通过互联网)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令，以便执行本发明的各方面。

下面将参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可被提供给计算机或其他可编程数据处理设备的处理器以产生机器，使得经由计算机或其他可编程数据处理设备的处理器执行的指令创建用于实现在流程图和/或框图的或多个框中指定的功能/动作的设备。也可以把这些计算机可读程序指令存储在计算机可读存储媒质中，这些指令使得计算机、可编程数据处理设备、和/或其他设备以特定方式工作，从而，其中存储有指令的计算机可读存储媒质包括包含实现流程图和/或框图中的或多个方框中规定的功能/动作的方面的指令的制造品。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理设备、或其他设备上，使得在计算机、其他可编程设备或其他设备上执行一系列操作步骤，以产生计算机实现的处理，使得在计算机、其他可编程设备或其他设备上执行的指令实现流程图和/或框图中的或多个方框中规定的功能/动作。

附图中的流程图和框图示出了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此，流程图或框图中的每个框可表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些备选实现中，框中标注的功能可以不按照图中标注的顺序发生。例如，连续示出的两个方框实际上可以作为一个步骤完成，同时、基本上同时、以部分或完全时间上重叠的方式执行，或者方框有时可以以相反的顺序执行，这取决于所涉及的功能。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。

Claims

1.一种计算机实现方法，包括：

从自然语言文本文档的语料库的元数据构建相关性矩阵，所述相关性矩阵中的行列交叉点对应于一种类型的元数据的两个实例之间的关系；以及

训练、生成经训练的编码器模型，编码器模型用于计算与所述语料库内的自然语言文本文档的令牌和所述相关性矩阵对应的嵌入，所述编码器模型包括第一编码器层，所述第一编码器层包括令牌嵌入部分、相关性嵌入部分、令牌自关注部分、元数据自关注部分以及融合部分，所述训练包括调整所述编码器模型的参数集。

2.根据权利要求1所述的计算机实现的方法，其中，所述令牌嵌入部分计算令牌嵌入集，所述令牌嵌入集中的令牌嵌入对应于所述语料库内的自然语言文本文档的令牌。

3.根据权利要求2所述的计算机实现的方法，其中，所述令牌包括所述自然语言文本文档的词语的一部分。

4.根据权利要求2所述的计算机实现的方法，其中，所述令牌嵌入包括所述令牌的多维数字表示。

5.根据权利要求2所述的计算机实现的方法，其中，所述令牌嵌入包括所述令牌的多维数字表示、所述令牌在所述自然语言文本文档内的位置的多维数字表示以及所述自然语言文本文档中所述令牌所位于的片段的多维数字表示的组合。

6.根据权利要求1所述的计算机实现的方法，其中，所述相关性嵌入部分计算相关性嵌入集，所述相关性嵌入集中的相关性嵌入包括所述行-列交叉点的多维数字表示。

7.根据权利要求1所述的计算机实现的方法，其中，所述令牌自关注部分根据令牌关注权重集来调整输入令牌嵌入，所述令牌关注权重集中的令牌关注权重对应于两个令牌之间的所述自然语言文本文档内的关系，所述令牌关注权重集在所述训练期间计算。

8.根据权利要求1所述的计算机实现的方法，其中，所述元数据自关注部分根据元数据关注权重集调整输入相关性嵌入，所述元数据关注权重集在所述训练期间计算。

9.根据权利要求1所述的计算机实现的方法，其中，所述融合部分将所述令牌自关注部分和所述元数据自关注部分的输出组合。

10.根据权利要求1所述的计算机实现的方法，其中，所述训练包括：

将所述令牌嵌入部分的参数集初始化为令牌嵌入参数基本集；

将所述令牌自关注部分的参数集初始化为令牌自关注参数基本集；

第一训练，生成经部分训练的编码器模型，第一训练包括当所述令牌嵌入部分的参数集被设置为所述令牌嵌入参数基本集并且所述令牌自关注部分的参数集合被设置为所述令牌自关注参数基本集时，调整所述相关性嵌入部分的参数集和所述元数据自关注部分的参数集；以及

第二训练，生成经训练的编码器模型，所述第二训练包括调整所述编码器模型的参数集。

11.根据权利要求1所述的计算机实现的方法，其中，所述编码器模型进一步包括第一解码器层，所述第一解码器层包括解码器令牌自关注部分、解码器元数据自关注部分、解码器融合部分以及解码器关注部分，所述训练包括调整所述第一解码器层的参数集。

12.根据权利要求11所述的计算机实现的方法，其中，所述解码器关注部分根据关注权重集调整编码器层的输出，所述关注权重集在所述训练期间计算。

13.一种用于基于变换器的自然语言文本自动编码的计算机程序产品，所述计算机程序产品包括：

一个或多个计算机可读存储介质，以及共同存储在所述一个或多个计算机可读存储介质上的程序指令，所述程序指令包括用于执行根据权利要求1至13中任一项所述的方法的程序指令。

14.一种计算机系统，包括一个或多个处理器、一个或多个计算机可读存储器和一个或多个计算机可读存储设备，以及存储在所述一个或多个存储设备中的至少一个上的程序指令，所述程序指令用于经由所述一个或多个存储器中的至少一个由所述一个或多个处理器中的至少一个执行，所存储的程序指令包括用于执行根据权利要求1至13中任一项所述的方法的程序指令。