CN113850392A

CN113850392A - 用于常识推理的对比自监督机器学习

Info

Publication number: CN113850392A
Application number: CN202110294546.2A
Authority: CN
Inventors: T.克莱因; M.纳比
Original assignee: SAP SE
Current assignee: SAP SE
Priority date: 2020-06-25
Filing date: 2021-03-19
Publication date: 2021-12-28
Also published as: US20210406478A1; US11687733B2; EP3929826A1

Abstract

在示例实施例中，使用自监督学习任务来以最低地监督方式训练常识感知表示，并且在表示学习期间使用对级别相互排斥损失来强制常识知识。这有助于利用常识推理语料库的训练样本的相互排斥性质。给定两个输入片段，其中它们之间的唯一不同是触发数据片段，则可以假定成对代词消歧是相互排斥的。使用对比损失以公式表示这一构思，并且随后将其用于更新语言模型。

Description

用于常识推理的对比自监督机器学习

技术领域

本文档大体上涉及机器学习。更具体而言，本文档涉及用于常识推理的对比自监督机器学习。

背景技术

机器学习可以用于各种计算机化任务中。自然语言处理(NLP)是包含处理及分析自然语言数据的机器学习的分支，并且用于语音识别、自然语言理解以及自然语言生成中。诸如根据转换器的双向编码器表示(BERT)之类的自然语言表示学习模型提供了NLP实施方式，但仍受害于技术缺陷。

附图说明

本公开是以示例的方式示出，而非局限于附图中的各图，在附图中相同的参考符号指示相同的元素。

图1是示出了在示例实施例中用于创建并利用常识模型的系统的框图。

图2是根据示例实施例更详细地示出了机器学习算法组件的框图。

图3是根据示例实施例示出了BERT的框图。

图4是示出了根据输入中的多个数据片段来预测模糊数据片段的解析的方法的流程图。

图5是示出了软件的体系结构的框图，该软件的体系结构可以安装在上述任一个或多个设备上。

图6示出了根据示例实施例的呈计算机系统形式的机器的图形表示，在该机器内，可以执行一组指令以使该机器执行本文所述的任一种或多种方法。

具体实施方式

以下描述论述了例示性系统、方法、技术、指令序列以及计算机器程序产品。在以下描述中，为了解释的目的，阐述了大量具体细节以便提供对本主题的各种示例实施例的理解。然而，对于本领域的技术人员将显而易见的是，可以在没有这些具体细节的情况下实践本主题的各种示例实施例。

尽管具体而言最近在机器学习以及自然语言处理(NLP)中取得了进展，但是当前的模型仍受害于常识推理的缺乏。在许多因素中，这可归因于可得准确度与训练语料库的数量及质量的强相关性。

例如，代词的意义是依赖于常识推理的事物。例如，确定句子“奖杯不适合手提箱，因为它太小了”以及“奖杯不适合手提箱，因为它太大了”中“它”意味着什么对于NLP来解析可能是困难的。对于人类，基于对什么是奖杯以及什么是手提箱的知识，这是简单明了的，但是没有常识推理能力的系统无法将内在关系概念化且因此无法将“手提箱”与替代选项“奖杯”区别开。

一种解决方案将是利用词嵌套(embedding)以及语言模型技术来进行常识推理。基本假设将为，由于可以在诸如在线百科全书之类的大文本语料库上学习此类模型，因此它们到某种程度上立即捕获常识知识。因此，这些模型将很可能允许在推理时间关于实体之间的复杂关系进行推理。然而，这些方法使用从初始自监督模型开始并且在后续微调阶段中获得常识感知词嵌套的两阶段学习流水线。微调强制(enforce)学习嵌套将下游任务仅作为普通指代消解(co-reference resolution)任务来解决。

然而，解决该任务利用的是不只是采用从大文本语料库学习的语言模型。诸如词嵌套阶段中所使用的下一句子预测以及掩蔽(masked)语言模型之类的当前自监督预训练任务太“简单”(即，关于它们的要求宽松)而无法强制模型捕获常识。因此，监督微调阶段既不足够也不足以用于学习以推理常识。这尤其是当在诸如在线百科全书之类的常识代表性不足的语料库上进行预训练时更加严重，其中由于此类信息微不足道，作者常常略过将它并入文本中。

在这种情况下，监督微调不足以解决任务，而只能学习以基于诸如数据集以及语言偏见之类的表面提示来人为地解析代词。

在示例实施例中，将最小的现有监督用于学习常识感知表示的机器。为此，引入了自监督预训练任务的概念，其仅使用仅在一个词(即，“触发”词)上不同的一对句子。不使用标签。所谓的触发词负责在问题之间切换正确的答案选择。在上述示例中，形容词“大”和“小”用作此类触发词。因此，候选答案A或者在第一句子中是正确的并且在第二句子中是错误的，或者反之亦然。从该示例中显而易见，触发词导致了训练对的相互排斥关系。

所提出的方法目标在于包括该成对关系作为训练阶段期间的唯一监督信号。为了实现这一点，使词在对比意义上结合。作为直接后果，分类器被强制为在其决策中更加严格且在各对上更加一致，同时具有判别力。以对比自监督方式训练允许更加深入地学习词关系，其为常识推理提供更好的泛化属性。

在示例实施例中，通过最大化两个有道理的候选项的相互排斥概率而在表示学习阶段期间包含相互排斥(MEx)损失。具体而言，给定一对训练句子，将要解析的代词从句子中掩去，并且使用语言模型来预测，使得在满足相互排斥性条件的同时，仅其中一个候选项可以填在掩蔽代词的位置。在该自监督任务中，标签(即，正确的候选项)无需为先验已知的。这通过利用数据是以成对方式提供的这一事实而允许以无监督方式学习。

因此，在示例实施例中，使用自监督学习任务来以最小地监督方式训练常识感知表示，并且在表示学习期间使用对级别相互排斥损失(pair level mutual-exclusiveloss)来强制常识知识。

所提出的响应的目标是利用常识推理语料库的训练样本的相互排斥性质。给定两个句子，其中它们之间的唯一不同是触发词，则可以假定成对代词消歧是相互排斥的。使用对比损失以公式表示这一构思，并且随后将其用于更新语言模型。因此，所提出的对比损失分解为两个分量：

其中f表示由θ参数化的语言模型。

第一项

强制在各对上的答案的相互排斥性。这样，它是关于候选项的异或(XOR)运算符的放宽(relaxation)。第二项

构成对比间隔(margin)。它在来自语言模型的候选项可能性之间强制间隔。然而，

在各对上运算，

考虑每一对的候选项。尽管这两项鼓励同一属性(其为答案的相互排斥性)，但是使用这两者促进稳定性。应注意，所提出的自监督方法未明确地利用任何类别标签信息。相反，它仅利用数据的结构信息。就语言模型而言，在一个示例实施例中，可以利用BERT来进行掩蔽标记(token)预测。这需要通过掩蔽替换代词。因此，语言模型得出每一句子的候选项的概率。

给定相关联的一对训练句子，即(s_j,s_j,+1)，其中句子对之间的不同为两个触发词，则使c_i以及c_i+1为掩蔽代词解析任务的两个答案候选项。用于掩蔽标记预测的BERT提供p(c_i|s_j)以及p(c_i+1|s_j)，即第一候选项及第二候选项分别在句子s_j中为真的可能性。应注意，如果候选项包括若干个标记，则向模型的输入标记的数量应等于输出标记的数量。

由于候选项不能为该对中第一句子及第二句子两者的正确答案，因此得出适用于切实可行的答案的逻辑项。值得注意的是，逻辑表达不是唯一的，因为存在多个逻辑等价式：

其中

表示XOR运算符，并且c_i,j∈{0,1}是对应于句子s_j中的候选项c_i的二元状态变量。

为了可区分，将上述方程式的离散逻辑项转换成软版本。为此目的，将二元变量替换为它们的对应概率。类似地，相应地替换逻辑运算符以适应概率等价式。其中：

XOR运算符的逻辑分解，

替换为乘积

替换为和

并且二进制变量的非运算

替换为1-x_i。因此，变换上述方程式的逻辑项，得出以下软损失分量：

在这里，p_i,j＝p(c_i|s_j)∈[0,1]表示候选项c_i为句子s_j中的正确答案的概率，并且N对应于训练样本的数量。直观地说，由于在训练期间未向模型提供标签，因此模型试图使答案概率较不模糊，即近似二元构成。由于模型被迫利用成对关系以便解析模糊，因此需要关于常识关系泛化。这样，与例如监督交叉熵最小化相比，该任务从根本上说更有挑战性。

为了获得稳定的最佳化并加速收敛，有利地用某种形式的正则化增强MEx损失。为此目的，可以添加对比间隔。这试图使语言模型的单独候选项概率之差最大化并且定义为：

其中α,β为超参数。

图1是示出了在示例实施例中用于创建并利用常识模型的系统100的框图。在这里，应用程序服务器102运行应用程序104，该应用程序可能会需要解析输入数据片段的意义中的模糊的能力。此类应用程序104的示例可以是聊天机器人。聊天机器人是利用模仿人类响应的响应自动响应于用户所输入的文本的应用程序。聊天机器人中出现的一个问题在于，可能难以知道用户所输入的文本中的模糊项的意义、以及具体地可以通过人类常识解析但可能无法容易地通过典型聊天机器人功能解析的项的意义，这可以在应用程序引擎106中实施。聊天机器人实施例中的应用程序引擎106的输出可以是对用户的文本输入的响应，但是在没有对模糊项的意义进行预测的情况下可能难以形成该响应。在示例实施例中，该模糊项是句子中的代词，其是具有多个名词的句子分组(即一个或多个句子)的一部分。

在示例实施例中，机器学习训练组件108获得句子分组的对比训练对，并且将这些对比训练对馈送(feed)到机器学习算法组件110中。该机器学习算法组件110运行上文详细描述的机器学习算法，并且形成经训练的常识模型112，其能够取得句子分组中具有模糊项的输入句子并输出解析模糊的预测。在代词实施例中，模糊项是在句子分组中的名词中无法解析的代词。

应注意，虽然上文就聊天机器人而言描述了示例，但是常识模型112实际上可以在可受益于将解析输入数据中的模糊数据片段的预测的任何应用程序中实施，因此本申请不应被解释为限于聊天机器人实施方式。实际上，根据应用程序104的目标以及实施方式，应用程序引擎106可以以各种不同的方式利用预测。

在一个示例实施例中，机器学习算法组件110实施具有句子编码器的神经网络，其中该神经网络被编程有相互排斥损失函数。图2是根据示例实施例更详细地示出了机器学习算法组件110的框图。训练对中的每一句子(或句子分组)被分成一系列标记202A-202N，并且标记202A-202N被传递到句子编码器204，该句子编码器204利用神经网络模型206。在示例实施例中，首先用一般任务对句子编码器进行预训练208，然后使用模板分类数据用多层感知器网络(MLP)对句子编码器204进行微调210。

在示例实施例中，在句子编码器204中使用双向转换器(BERT)将句子编码成嵌套。应注意，仅在某些示例实施例中使用BERT，而在其他示例实施例中，可以使用另一语言模型代替BERT。图3是根据示例实施例示出了BERT的框图。BERT使用(一个或多个)转换器层300来将输入句子编码成嵌套。每一转换器层被如下定义：

TFLayer(h^n-1)＝FC(MultiAttn(h^n-1))；

FC(x)＝relu(xW₁+b₁)W₂+b₂；

MultiAttn(h^n-1)＝concat(head₁(h^n-1),...,head_k(h^n-1))W^O，

其中h^n-1是先前转换器层的输出。在这里，使用具有8个转换器层的BERT模型，并且将输出句子嵌套z_sent定义为最后转换器层的输出的平均池化结果。为简单起见，在方程式中省去了批次归一化(batch normalization)以及残差连接(residual connection)。

再次参照图2，在获得句子嵌套z_sent之后，使它传递通过微调/推理组件210，该微调/推理组件210实施MLP，其中每一完全连接的层被定义为

f(x)＝relu(xW+b)，

并且MLP的最后一层被定义为

其中输出

是每一类别的分类概率分布。最后，选取最有可能的类别arg max

作为最终预测的模板标签。为了训练模型，可以使用二元交叉熵损失：

其中P是地面实况(ground truth)，pⁱ以及

分别是第i个模板的地面实况以及预测的概率。可以使用Adam优化器(自适应学习速率优化算法)来使模型参数最优化。

图4是示出了根据输入中的多个数据片段来预测模糊数据片段的解析的方法400的流程图。所谓解析是指预测选择输入中的所述多个数据片段中的一者作为模糊数据片段的意义的代表。应注意，虽然就一个或多个句子的分组中的模糊代词(其中分组中的多个名词中的一者应为预测的解析)而言这可能是最易于考虑的，但是可以存在可以应用上述方法及过程的其他类型的模糊数据片段。例如，除了仅代词之外，文本中还可以存在其他模糊言语形式。还可以存在图像的模糊元素，其可以从图像的其他部分进行解析。然而，为了便于论述，在适当时，已经描述了并将描述代词实施例。

方法400可分成两个阶段：训练阶段402以及运行阶段404。在训练阶段402期间，将训练常识模型以根据输入中的多个数据片段来提供模糊数据片段的解析的预测。在运行阶段404期间，使用常识模型来对具体输入做出此种预测。

以训练阶段402开始，在操作406处，获得训练数据对。这些训练数据对中的每一对反映两个数据分组(诸如两个句子分组)，这两个数据分组具有相互排斥关系并且除了触发数据片段之外相同。在代词实施例中，每一句子分组可以是一个或多个句子，并且触发数据片段是触发词，这意味着这些句子分组对除了触发词的改变之外相同。应注意，“相同”不仅意味着相同的词(除了触发词之外)以及标点符号出现在每一句子分组中，而且指它们在每一句子分组中以相同的顺序进行组织(因此，例如第二句子中的词不会从它们在第一句子中的定位进行重新布置)。

在操作408处，将这些训练数据对中的每一对馈送到具有相互排斥损失函数的机器学习算法中，该机器学习算法识别每一对中的触发数据片段并训练常识模型。

此时，常识模型被训练并且可以用于运行阶段404中。在操作410处，接收具有模糊数据片段的输入分组，该模糊数据片段需要根据分组中的多个数据片段进行解析。在代词实施例中，分组是一个或多个句子的句子分组，模糊数据片段是代词，并且所述多个数据片段是句子分组中的名词。在操作412处，用掩蔽替换分组中的模糊数据片段。在操作414处，将掩蔽分组馈送到常识模型中以预测模糊的解析。

示例：

示例1、一种系统，包括：

至少一个硬件处理器；以及

非瞬时性计算机可读介质，其存储指令，所述指令在被该至少一个硬件处理器执行时使该至少一个硬件处理器执行操作，所述操作包括：

获得训练数据对，每一训练数据对为具有相互排斥关系且除了触发数据片段之外彼此相同的数据分组的对；以及

将训练数据对中的每一对馈送到使用相互排斥损失函数的机器学习算法中以训练常识机器学习模型。

示例2、根据示例1所述的系统，其中，所述操作还包括：

接收具有模糊数据片段的输入数据分组，该模糊数据片段需要根据输入数据分组中的多个数据片段进行解析；

用掩蔽替换输入分组中的模糊数据片段；以及

将掩蔽输入分组馈送到常识机器学习模型中以输出模糊数据片段的解析的预测。

示例3、根据示例2所述的系统，其中每一数据分组为文本句子分组。

示例4、根据示例2或3所述的系统，其中模糊数据片段是代词，并且代词需要根据其进行解析的所述多个数据片段是文本句子分组中的名词。

示例5、根据示例1-4中任一个所述的系统，其中机器学习算法是神经网络。

示例6、根据示例5所述的系统，其中神经网络利用根据转换器的双向编码器表示(Bidirectional Encoder Representations from Transformers,BERT)句子编码器。

示例7、根据示例2-6中任一个所述的系统，还包括聊天机器人，其中该聊天机器人包括模型，该模型被训练为从常识机器学习模型取得模糊数据片段的解析的预测以及输入数据分组并响应于输入数据分组向用户输出文本输出。

示例8、一种方法，包括：

示例9、根据示例8所述的方法，其中所述操作还包括：

用掩蔽替换输入分组中的模糊数据片段；以及

示例10、根据示例9所述的方法，其中每一数据分组为文本句子分组。

示例11、根据示例9或10中任一个所述的方法，其中模糊数据片段是代词，并且代词需要根据其进行解析的所述多个数据片段是文本句子分组中的名词。

示例12、根据示例8-11中任一个所述的方法，其中机器学习算法是神经网络。

示例13、根据示例12所述的方法，其中神经网络利用根据转换器的双向编码器表示(BERT)句子编码器。

示例14、根据示例9-13中任一个所述的方法，还包括聊天机器人，其中该聊天机器人包括模型，该模型被训练为从常识机器学习模型取得模糊数据片段的解析的预测以及输入数据分组并响应于输入数据分组向用户输出文本输出。

示例15、一种非瞬时性机器可读介质，其存储指令，所述指令在被一个或多个处理器执行时使所述一个或多个处理器执行操作，所述操作包括：

示例16、根据示例15所述的非瞬时性机器可读介质，其中所述操作还包括：

用掩蔽替换输入分组中的模糊数据片段；以及

示例17、根据示例16所述的非瞬时性机器可读介质，其中每一数据分组为文本句子分组。

示例18、根据示例15或16所述的非瞬时性机器可读介质，其中该模糊数据片段是代词，并且代词需要根据其进行解析的所述多个数据片段是文本句子分组中的名词。

示例19、根据示例15-18中任一个所述的非瞬时性机器可读介质，其中机器学习算法是神经网络。

示例20、根据示例19所述的非瞬时性机器可读介质，其中神经网络利用根据转换器的双向编码器表示(BERT)句子编码器。

图5是示出了软件体系结构502的框图500，该软件体系结构502可以安装在上述任一个或多个设备上。图5仅仅是软件体系结构的非限制性示例，并且将理解，可以实施许多其他体系结构以利于本文所述的功能。在各种实施例中，软件体系结构502是由诸如图6的机器600之类的硬件实施的，该机器600包括处理器610、存储器630以及输入/输出(I/O)组件650。在该示例体系结构中，可将软件体系结构502概念化为层的堆栈，其中每一层可提供特定功能。例如，软件体系结构502包括诸如操作系统504、库506、框架508以及应用程序510之类的层。在操作上，与某些实施例一致，应用程序510通过软件堆栈启用(invoke)API调用512并响应于API调用512而接收消息514。

在各种实施方式中，操作系统504管理硬件资源并提供共用服务。操作系统504包括例如内核520、服务522以及驱动程序524。与某些实施例一致，内核520用作硬件与其他软件层之间的抽象层。例如，除了其他功能之外，内核520还提供存储器管理、处理器管理(例如调度)、组件管理、联网以及安全设置。服务522可为其他软件层提供其他共用服务。根据某些实施例，驱动程序524负责控制底层硬件或与底层硬件接口。例如，驱动程序524可包括显示驱动程序、照相机驱动程序、

或

低功耗驱动程序、闪存驱动程序、串行通信驱动程序(例如通用串行总线(USB)驱动程序)、

驱动程序、音频驱动程序、电源管理驱动程序等等。

在某些实施例中，库506提供由应用程序510利用的低级共用基础设施。库506可包括系统库530(例如C标准库)，其可提供诸如存储器分配功能、字符串处理功能(stringmanipulation functions)、数学功能等等之类的功能。另外，库506可包括API库532，诸如媒体库(例如，支持诸如运动图像专家组-4(MPEG4)、高级视频编码(H.264或AVC)、运动图像专家组层-3(MP3)、高级音频编码(AAC)、自适应多速率(AMR)音频编解码器、联合图像专家组(JPEG或JPG)或便携式网络图形(PNG)之类的各种媒体格式的展示及操作的库)、图形库(例如用于在显示器上在图形上下文中以2D及3D渲染的OpenGL框架)、数据库(例如提供各种相关数据库功能的SQLite)、web库(例如提供web浏览功能的WebKit)等等。库506还可包括各种各样的其他库534以向应用程序510提供许多其他API。

根据某些实施例，框架508提供可由应用程序510利用的高级共用基础设施。例如，框架508提供各种图形用户界面(GUI)功能、高级资源管理、高级定位服务等等。框架508可提供可由应用程序510利用的广泛的其他API，其中某些API可针对特定的操作系统504或平台。

在示例实施例中，应用程序510包括主页应用程序550、联系人应用程序552、浏览器应用程序554、图书阅读器应用程序556、位置应用程序558、媒体应用程序560、消息收发应用程序562、游戏应用程序564、以及各种各样的其他应用程序，诸如第三方应用程序566。根据某些实施例，应用程序510为执行程序中所定义的功能的程序。各种编程语言可以被采用来创建一个或多个应用程序510，其以各种方式被结构化，诸如面向对象编程语言(例如Objective-C、Java或C++)或过程型编程语言(例如C或汇编语言)。在具体示例中，第三方应用程序566(例如，由不是特定平台的供应商的实体使用ANDROID^TM或IOS^TM软件开发工具包(SDK)开发的应用程序)可以是在移动操作系统(诸如IOS^TM、ANDROID^TM、

电话或另一移动操作系统)上运行的移动软件。在该示例中，第三方应用程序566可以启用操作系统504所提供的API调用512以利于本文所述的功能。

图6示出了根据示例实施例的呈计算机系统形式的机器600的图形表示，在该机器600内，可以执行一组指令以使机器600执行本文所论述的任一种或多种方法。具体而言，图6示出了呈计算机系统的示例形式的机器600的图形表示，在该机器600内，可以执行用于使机器600执行本文所论述的任一种或多种方法的指令616(例如，软件、程序、应用程序、小应用程序、应用程式(app)、或其他可执行代码)。例如，指令616可以使机器600执行图4的方法。另外地或可替代地，指令616可以实施图1-4等等。指令616将通用非编程机器600变换成被编程为以所述方式执行所述及所示出的功能的特定机器600。在替代实施例中，机器600作为独立设备操作，或可以耦合(例如联网)至其他机器。在联网部署中，机器600可以在服务器客户端网络环境中以服务器机器或客户端机器的身份操作，或者作为对等(或分布式)网络环境中的对等机器操作。机器600可包括但不限于服务器计算机、客户端计算机、个人计算机(PC)、平板计算机、膝上型计算机、上网本、机顶盒(STB)、个人数字助理(PDA)、娱乐媒体系统、移动电话、智能手机、移动设备、可穿戴设备(例如智能手表)、智能家居设备(例如智能家电)、其他智能设备、web电器、网络路由器、网络交换机、网络桥接器、或能够按次序或以其他方式执行指令616(其指定了机器600所要采取的行动)的任何机器。进一步，虽然仅示出了单个机器600，但是术语“机器”还应被理解为包括许多机器600，这些机器各自地或联合地执行指令616以执行本文所论述的任一种或多种方法。

机器600可包括处理器610、存储器630以及I/O组件650，其可被配置成诸如经由总线602彼此通信。在示例实施例中，处理器610(例如，中央处理单元(CPU)、精简指令集计算(RISC)处理器、复杂指令集计算(CISC)处理器、图形处理单元(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、射频集成电路(RFIC)、另一处理器、或其任何适当组合)可包括例如可执行指令616的处理器612以及处理器614。术语“处理器”旨在包括多核处理器，其可包括可同时执行指令616的两个或更多个独立处理器(有时被称为“核心”)。尽管图6示出了多个处理器610，但是机器600可包括具有单个核心的单个处理器612、具有多个核心的单个处理器612(例如多核处理器612)、具有单个核心的多个处理器612、614、具有多个核心的多个处理器612、614、或其任何组合。

存储器630可包括主存储器632、静态存储器634以及存储单元636，其中每一者可诸如经由总线602由处理器610访问。主存储器632、静态存储器634以及存储单元636存储指令616，这些指令616体现了本文所述的任一种或多种方法或功能。在由机器600执行指令616期间，指令616还可以完全地或部分地存在于主存储器632内、静态存储器634内、存储单元636内、至少一个处理器610内(例如处理器的高速缓冲存储器内)、或其任何适当组合内。

I/O组件650可包括各种各样的组件以接收输入、提供输出、产生输出、发送信息、交换信息、获得测量等等。特定机器中所包括的具体I/O组件650将取决于机器的类型。例如，诸如移动电话之类的便携式机器将可能包括触摸输入设备或其他此类输入机构，而无头服务器机器将可能不包括此类触摸输入设备。将理解，I/O组件650可包括未在图6中示出的许多其他组件。仅为了简化以下论述，根据功能来对I/O组件650进行分组，并且分组绝不是限制性的。在各种示例实施例中，I/O组件650可包括输出组件652以及输入组件654。输出组件652可包括视觉组件(例如，显示器，诸如等离子体显示面板(PDP)、发光二极管(LED)显示器、液晶显示器(LCD)、投影仪或阴极射线管(CRT))、声学组件(例如扬声器)、触觉组件(例如振动马达、阻力机构(resistance mechanisms))、其他信号产生器等等。输入组件654可包括字母数字输入组件(例如，键盘、被配置成接收字母数字输入的触摸屏、光-光学键盘、或其他字母数字输入组件)、基于点的输入组件(例如，鼠标、触摸板、轨迹球、操纵杆、运动传感器、或另一指向仪器)、触觉输入组件(例如，物理按钮、提供触摸位置和/或力或触摸手势的触摸屏、或其他触觉输入组件)、音频输入组件(例如，麦克风)等等。

在进一步的示例实施例中，除了大量其他组件之外，I/O组件650还可包括生物测定组件656、运动组件658、环境组件660或定位组件662。例如，生物测定组件656可包括用于检测表达(例如手表达、面部表情、声音表达、身体姿势、或眼睛跟踪)、测量生物信号(例如血压、心率、体温、汗水、或脑波)、识别个人(例如语音识别、视网膜识别、面部识别、指纹识别、或基于脑电图的识别)等等的组件。运动组件658可包括加速度传感器组件(例如加速计)、引力(gravitation)传感器组件、旋转传感器组件(例如陀螺仪)等等。环境组件660可包括例如照度传感器组件(例如光度计)、温度传感器组件(例如检测环境温度的一个或多个温度计)、湿度传感器组件、压力传感器组件(例如气压计)、声学传感器组件(例如检测背景噪声的一个或多个麦克风)、接近传感器组件(例如检测附近对象的红外传感器)、气体传感器(例如用于检测危险气体浓度以保证安全或用于测量大气中的污染物的气体检测传感器)、或可提供对应于周围物理环境的指示、测量、或信号的其他组件。定位组件662可包括位置传感器组件(例如全球定位系统(GPS)接收器组件)、高度传感器组件(例如可导出高度的检测气压的高度计或气压计)、方位传感器组件(例如磁力计)等等。

可以使用各种各样的技术来实施通信。I/O组件650可包括通信组件664，这些通信组件664可操作以分别经由耦合682以及耦合672将机器600耦合到网络680或设备670。例如，通信组件664可包括网络接口组件或另一合适的设备以与网络680接口。在进一步的示例中，通信组件664可包括有线通信组件、无线通信组件、蜂窝通信组件、近场通信(NFC)组件、

组件(例如

低功耗)、

组件、以及其他通信组件以经由其他模式提供通信。设备670可以是另一机器或各种各样的外围设备中的任一者(例如经由USB耦合)。

此外，通信组件664可检测标识符或包括可操作以检测标识符的组件。例如，通信组件664可包括射频识别(RFID)标签阅读器组件、NFC智能标签检测组件、光阅读器组件(例如，用于检测诸如通用商品代码(UPC)条形码之类的一维条形码、诸如QR代码、Aztec代码、数据矩阵、Dataglyph、MaxiCode、PDF417、Ultra Code、UCC RSS-2D条形码之类的多维条形码以及其他光学代码的光学传感器)、或声学检测组件(例如，用于识别标记音频信号的麦克风)。另外，可以经由通信组件664导出各种信息，诸如经由互联网协议(IP)地理定位导出位置、经由

信号三角剖分导出位置、经由检测可指示特定位置的NFC信标信号导出位置等等。

各种存储器(即，630、632、634、和/或(一个或多个)处理器610的存储器)和/或存储单元636可以存储体现本文所述的任一种或多种方法或功能或由本文所述的任一种或多种方法或功能利用的一组或多组指令616以及数据结构(例如软件)。这些指令(例如指令616)在由(一个或多个)处理器610执行时使各种操作实施所公开的实施例。

如本文中所用，术语“机器存储介质”、“设备存储介质”以及“计算机存储介质”具有相同的意义并且可以可交换地使用。这些术语是指存储可执行指令和/或数据的单个或多个存储设备和/或介质(例如，集中式或分布式数据库、和/或相关联的高速缓冲存储器及服务器)。这些术语应相应地被理解为包括但不限于固态存储器、以及光学及磁性介质，包括处理器内部或外部的存储器。机器存储介质、计算机存储介质和/或设备存储介质的具体示例包括：非易失性存储器，包括例如半导体存储器设备，例如可擦可编程序只读存储器(EPROM)、电可擦可编程序只读存储器(EEPROM)、现场可编程门阵列(FPGA)以及闪存设备；磁盘，诸如内部硬盘以及可移动磁盘；磁光盘；以及CD-ROM及DVD-ROM盘。术语“机器存储介质”、“计算机存储介质”以及“设备存储介质”具体地不包括载波、已调数据信号以及其他此类介质，其中至少某些包括在以下论述的术语“信号介质”内。

在各种示例实施例中，网络680的一个或多个部分可以是自组织网络、内联网、外联网、虚拟专用网(VPN)、局域网(LAN)、无线LAN(WLAN)、广域网(WAN)、无线WAN(WWAN)、城域网(MAN)、互联网、互联网的一部分、公用电话交换网络(PSTN)的一部分、简易老式电话服务(POTS)网络、蜂窝电话网络、无线网络、

网络、另一种类型的网络、或两种或更多种此类网络的组合。例如，网络680或网络680的一部分可包括无线或蜂窝网络，并且耦合682可以是码分多址(CDMA)连接、全球移动通信系统(GSM)连接、或另一类型的蜂窝或无线耦合。在该示例中，耦合682可以实施各种类型的数据传送技术中的任一种，诸如单载波无线电传输技术(1xRTT)、演进数据优化(EVDO)技术、通用分组无线业务(GPRS)技术、GSM演进的增强型数据速率(EDGE)技术、第三代合作伙伴计划(3GPP)(包括3G)、第四代无线(4G)网络、通用移动电信系统(UMTS)、高速分组接入(HSPA)、全球微波接入互操作性(WiMAX)、长期演进(LTE)标准、由各种标准制定组织定义的其他技术、其他远程协议、或其他数据传送技术。

可以经由网络接口设备(例如，通信组件664中所包括的网络接口组件)并且利用许多已知传送协议(例如超文本传送协议(HTTP))中的任一种使用传输介质在网络680上发送或接收指令616。类似地，可以经由到设备670的耦合672(例如对等耦合)使用传输介质发送或接收指令616。术语“传输介质”以及“信号介质”具有相同的意义并且可以在本公开中可交换地使用。术语“传输介质”以及“信号介质”应被理解为包括能够存储、编码或携带指令616以由机器600执行的任何无形介质，并且包括数字或模拟通信信号或其他无形介质以利于此类软件的通信。因此，术语“传输介质”以及“信号介质”应被理解为包括任何形式的已调数据信号、载波等等。术语“已调数据信号”是指以对信号中的信息进行编码的方式设置或改变其一个或多个特性的信号。

术语“机器可读介质”、“计算机可读介质”以及“设备可读介质”具有相同的意义并且可以在本公开中可交换地使用。这些术语被定义成包括机器存储介质以及传输介质两者。因此，这些术语包括存储设备/介质以及载波/已调数据信号两者。

Claims

1.一种系统，包括：

至少一个硬件处理器；以及

非瞬时性计算机可读介质，其存储指令，所述指令在被所述至少一个硬件处理器执行时使所述至少一个硬件处理器执行操作，所述操作包括：

将所述训练数据对中的每一对馈送到使用相互排斥损失函数的机器学习算法中以训练常识机器学习模型。

2.根据权利要求1所述的系统，其中，所述操作还包括：

接收具有模糊数据片段的输入数据分组，所述模糊数据片段需要根据所述输入数据分组中的多个数据片段进行解析；

用掩蔽替换输入分组中的所述模糊数据片段；以及

将掩蔽输入分组馈送到所述常识机器学习模型中以输出所述模糊数据片段的解析的预测。

3.根据权利要求2所述的系统，其中，每一数据分组为文本句子分组。

4.根据权利要求2所述的系统，其中，所述模糊数据片段是代词，并且所述代词需要根据其进行解析的所述多个数据片段是文本句子分组中的名词。

5.根据权利要求2所述的系统，其中，所述机器学习算法是神经网络。

6.根据权利要求5所述的系统，其中，所述神经网络利用根据转换器的双向编码器表示(BERT)句子编码器。

7.根据权利要求3所述的系统，还包括聊天机器人，其中，所述聊天机器人包括模型，所述模型被训练为从所述常识机器学习模型取得所述模糊数据片段的解析的预测以及所述输入数据分组并响应于所述输入数据分组向用户输出文本输出。

8.一种方法，包括：

9.根据权利要求8所述的方法，其中，操作还包括：

用掩蔽替换输入分组中的所述模糊数据片段；以及

10.根据权利要求9所述的方法，其中，每一数据分组为文本句子分组。

11.根据权利要求9所述的方法，其中，所述模糊数据片段是代词，并且所述代词需要根据其进行解析的所述多个数据片段是文本句子分组中的名词。

12.根据权利要求9所述的方法，其中，所述机器学习算法是神经网络。

13.根据权利要求12所述的方法，其中，所述神经网络利用根据转换器的双向编码器表示(BERT)句子编码器。

14.根据权利要求10所述的方法，还包括聊天机器人，其中，所述聊天机器人包括模型，所述模型被训练为从所述常识机器学习模型取得所述模糊数据片段的解析的预测以及所述输入数据分组并响应于所述输入数据分组向用户输出文本输出。

15.一种非瞬时性机器可读介质，其存储指令，所述指令在被一个或多个处理器执行时使所述一个或多个处理器执行操作，所述操作包括：

16.根据权利要求15所述的非瞬时性机器可读介质，其中，所述操作还包括：

用掩蔽替换输入分组中的所述模糊数据片段；以及

17.根据权利要求16所述的非瞬时性机器可读介质，其中，每一数据分组为文本句子分组。

18.根据权利要求16所述的非瞬时性机器可读介质，其中，所述模糊数据片段是代词，并且所述代词需要根据其进行解析的所述多个数据片段是文本句子分组中的名词。

19.根据权利要求16所述的非瞬时性机器可读介质，其中，所述机器学习算法是神经网络。

20.根据权利要求19所述的非瞬时性机器可读介质，其中，所述神经网络利用根据转换器的双向编码器表示(BERT)句子编码器。