CN115398437A

CN115398437A - 改进的域外(ood)检测技术

Info

Publication number: CN115398437A
Application number: CN202180025213.8A
Authority: CN
Inventors: T·L·杜翁; M·E·约翰逊; V·比什诺伊; C·C·潘; V·布利诺夫; C·D·V·黄; E·L·贾拉勒丁; D·武; B·S·文纳科塔
Original assignee: Oracle International Corp
Current assignee: Oracle International Corp
Priority date: 2020-03-30
Filing date: 2021-03-30
Publication date: 2022-11-25
Also published as: JP2023520416A; US20230376696A1; US20210303798A1; US11763092B2; WO2021202552A1; US20240289555A1; US12014146B2

Abstract

本公开涉及用于识别域外话语的技术。一种特定技术包括接收话语和聊天机器人的目标域；为所述话语生成句子嵌入；获得与所述目标域相关联的域内话语的每个聚类的嵌入表示；使用度量学习模型基于所述句子嵌入与每个聚类的每个嵌入表示之间的相似度或差异来预测所述话语属于所述目标域的第一概率；使用异常值检测模型基于所确定的所述句子嵌入与相邻聚类的嵌入表示之间的距离或密度偏差来预测所述话语属于所述目标域的第二概率；评估所述第一概率和所述第二概率以确定最终概率；以及基于所述最终概率将所述话语分类为所述聊天机器人的域内或域外。

Description

改进的域外(OOD)检测技术

优先权要求

本申请是于2021年3月30日提交的美国临时申请号63/002,139的非临时申请并且要求所述美国临时申请的权益和优先权。出于所有目的，前述申请的全部内容通过援引并入本文。

技术领域

本公开总体上涉及聊天机器人系统，并且更具体地，涉及用于识别域外(OOD)话语的改进技术。

背景技术

为了获得即时反应，世界各地的许多用户使用即时消息传递或聊天平台。组织经常使用这些即时消息传递或聊天平台与客户(或最终用户)进行实时会话。然而，雇用服务人员与客户或最终用户进行实时交流对于组织来说会是非常昂贵的。已经开始开发聊天机器人或机器人来模拟与最终用户的会话，尤其是通过因特网。最终用户可以通过最终用户已经安装并使用的消息传递应用程序与机器人交流。智能机器人(通常通过人工智能(AI)提供动力)可以在实时会话中更智能地且根据上下文进行交流并且因此可以允许机器人与最终用户之间进行更加自然的会话以改善会话体验。不是最终用户去学习机器人知道如何作出回应的固定的一组关键词或命令，而是智能机器人可以能够基于自然语言的用户话语理解最终用户的意图并且相应地作出回应。

然而，聊天机器人很难构建，因为这些自动化解决方案需要某些领域中的特定知识和可能只在专业开发人员的能力范围内的某些技术的应用。作为构建这种聊天机器人的一部分，开发人员可以首先了解企业和最终用户的需求。开发人员然后可以分析并作出与例如以下各项有关的决策：选择要用于分析的数据集；准备用于分析的输入数据集(例如，在分析之前清理数据、提取、格式化和/或变换数据、执行数据特征工程等)；识别用于执行分析的适当的(多种)机器学习(ML)技术或(多个)ML模型；以及改善技术或模型以基于反馈改善结果/效果。识别适当的模型的任务可以包括开发多个模型(可能并行地)、迭代地对这些模型进行测试和实验、之后识别特定的模型(或多个模型)以供使用。进一步地，基于监督式学习的解决方案通常涉及训练阶段、随后是应用(即，推理)阶段和介于训练阶段与应用阶段之间的迭代循环。开发人员可以负责仔细地实施并监测这些阶段，以实现最佳解决方案。例如，为了训练(多种)ML技术或(多个)模型，需要精确的训练数据以使算法能够理解和学习某些模式或特征(例如，对于聊天机器人——需要意图提取和仔细的句法分析，而不仅仅是原始语言处理)，(这些)ML技术或模型将使用这些模式或特征来预测期望的结果(例如，从话语中推断出意图)。

发明内容

本文所公开的技术总体上涉及聊天机器人。更具体地且非限制性地，本文公开的技术涉及用于识别OOD话语的改进技术。聊天机器人(也称为机器人)配备了OOD检测器，所述OOD检测器使用一种或多种算法来确定提供给机器人的话语是否不在机器人(例如，技能机器人)的域中。当检测到这样的OOD话语时，机器人可以用适当的回应进行响应，比如向用户发出所述话语不是机器人可以处理或处置的话语的消息。在某些实施例中，使用各种基于聚类的算法和基于度量的算法及其组合的技术被用于OOD检测。

在各种实施例中，提供了一种方法，所述方法包括：接收话语和聊天机器人的目标域；为所述话语生成句子嵌入；获得与所述目标域相关联的域内话语的多个聚类的每个聚类的嵌入表示，其中，每个聚类的嵌入表示是所述聚类中每个域内话语的句子嵌入的平均值；将所述话语的所述句子嵌入和每个聚类的嵌入表示输入到具有已学习模型参数的度量学习模型中，所述度量学习模型被配置为提供关于所述话语是否属于所述目标域的第一概率；使用所述度量学习模型确定所述话语的所述句子嵌入与每个聚类的每个嵌入表示之间的相似度或差异；使用所述度量学习模型，基于所述确定的所述话语的所述句子嵌入与每个聚类的每个嵌入表示之间的相似度或差异来预测所述话语是否属于所述目标域的所述第一概率；将所述话语的所述句子嵌入和每个聚类的嵌入表示输入到使用距离或密度算法构建的异常值检测模型中，以用于异常值检测；使用所述异常值检测模型来确定所述话语的所述句子嵌入与相邻聚类的嵌入表示之间的距离或密度偏差；使用所述异常值检测模型，基于所述确定的距离或密度偏差来预测关于所述话语是否属于所述目标域的第二概率；评估所述第一概率和所述第二概率以确定关于所述话语是否属于所述目标域的最终概率；以及基于所述最终概率将所述话语分类为所述聊天机器人的域内或域外。

在一些实施例中，所述获得每个聚类的嵌入表示包括：基于所述目标域获得所述域内话语；为每个域内话语生成句子嵌入；将每个域内话语的句子嵌入输入到无监督聚类模型中，所述无监督聚类模型被配置为解释所述域内话语并识别所述域内话语的特征空间内的多个聚类；使用所述无监督聚类模型，基于所述句子嵌入的特征与每个聚类内的句子嵌入的特征之间的相似度和差异来将每个域内话语的句子嵌入分类为多个聚类之一；计算所述多个聚类中的每个聚类的质心(centroid)；以及输出所述多个聚类中的每个聚类的嵌入表示和质心。

在一些实施例中，所述方法进一步包括：基于所述话语的所述句子嵌入与所述相邻聚类的嵌入表示之间的距离或密度偏差，计算所述话语的z分数；以及通过将S形函数(sigmoid function)应用于所述z分数来确定关于所述话语是否属于所述目标域的第二概率。

在一些实施例中，所述话语的所述句子嵌入是使用嵌入模型生成的，所述嵌入模型将包括句子、单词和n元语法(n-gram)在内的自然语言元素映射到数字数组中，并且其中，所述自然语言元素中的每一个都表示为向量空间中的单个点。

在一些实施例中，所述确定所述话语的所述句子嵌入与每个聚类的每个嵌入表示之间的相似度或差异包括：(i)计算所述话语的所述句子嵌入与每个聚类的每个嵌入表示之间的绝对差，(ii)将所述绝对差、所述话语的所述句子嵌入、以及每个聚类的嵌入表示输入到宽且深的学习网络中，其中，所述宽且深的学习网络包括线性模型和深度神经网络，(iii)使用所述线性模型和所述绝对差来预测关于所述话语是否属于所述目标域的宽基概率，以及(iv)使用所述深度神经网络、所述话语的所述句子嵌入、以及每个聚类的嵌入表示来确定所述话语的所述句子嵌入与每个聚类的每个嵌入表示之间的相似度或差异；并且所述预测所述第一概率包括：使用所述宽且深的学习网络的最终层来评估所述宽度概率以及所述话语的所述句子嵌入与每个聚类的每个嵌入表示之间的相似度或差异。

在一些实施例中，所述线性模型包括使用训练数据集训练的多个模型参数；所述训练数据集包括话语的句子嵌入与来自多个域的域内话语的每个聚类的每个嵌入表示之间的绝对差；在使用所述训练数据集训练所述线性模型期间，使用假设函数来学习所述话语的句子嵌入与每个聚类的每个嵌入表示之间的线性关系；并且在所述学习所述线性关系期间，学习所述多个模型参数以最小化损失函数。

在一些实施例中，所述深度学习网络包括使用训练数据集训练的多个模型参数；所述训练数据集包括来自多个域的域内话语的句子嵌入；并且在使用所述训练数据集训练所述深度学习网络期间，将所述域内话语的句子嵌入的高维特征转换为较低维向量，所述较低维向量随后与所述域内话语的特征级联并馈入所述深度神经网络的隐藏层中，所述较低维向量的值被随机初始化并与所述多个模型参数一起被学习以最小化损失函数。

在各种实施例中，提供了一种计算机程序产品，所述计算机程序产品有形地体现在非暂态机器可读存储介质中并且包括被配置成使一个或多个数据处理器执行本文所公开的一种或多种方法的部分或全部的指令。

在各种实施例中，提供了一种系统，所述系统包括一个或多个数据处理器和包含指令的非暂态计算机可读存储介质，所述指令当在所述一个或多个数据处理器上执行时使所述一个或多个数据处理器执行本文所公开的一种或多种方法的部分或全部。

可以用多种方式并且在多种上下文中实施上文和下文所描述的技术。如下文更详细地描述的，参考以下附图提供了几种示例实施方式和上下文。然而，以下实施方式和上下文仅是许多实施方式和上下文中的一些。

附图说明

图1是并入了示例性实施例的分布式环境的简化框图。

图2是根据某些实施例的实施主机器人的计算系统的简化框图。

图3是根据某些实施例的实施技能机器人的计算系统的简化框图。

图4是根据各种实施例的聊天机器人训练和部署系统的简化框图。

图5图示了根据各种实施例的包括度量学习模型和异常值检测模型以用于识别OOD话语的集成架构。

图6图示了根据各种实施例的用于识别OOD话语的过程流程。

图7描绘了用于实施各种实施例的分布式系统的简化图。

图8是根据各种实施例的系统环境的一个或多个部件的简化框图，通过所述系统环境，由实施例系统的一个或多个部件提供的服务可以作为云服务提供。

图9图示了可以用于实施各种实施例的示例计算机系统。

具体实施方式

在以下描述中，出于解释的目的，阐述了具体细节以便提供对某些实施例的透彻理解。然而，将显而易见的是，可以在没有这些具体细节的情况下实践各个实施例。附图和描述不旨在是限制性的。词语“示例性”在本文中用来意指“用作示例、实例或说明”。在本文中被描述为“示例性”的任何实施例或设计不必被解释为比其他实施例或设计更优选或有利。

引言

数字助理是帮助用户在自然语言会话中完成各种任务的人工智能驱动接口。针对每个数字助理，客户可以组装一个或多个技能。技能(在本文中也描述为聊天机器人、机器人或技能机器人)是聚焦于如跟踪库存、提交时间卡和创建费用报告等特定类型的任务的单独机器人。当最终用户与数字助理接洽时，数字助理评估最终用户输入并且将会话路由到适当的聊天机器人并从适当的聊天机器人路由会话。可以通过如

Messenger(即时通)、SKYPE

messenger或短消息服务(SMS)等各种通道使数字助理对最终用户可用。通道使得聊天通过各种消息传递平台在最终用户与数字助理及其各聊天机器人之间来回地传送。通道还可以支持用户代理升级、事件发起的会话和测试。

意图允许聊天机器人理解用户想要聊天机器人做什么。意图包括典型的用户请求和陈述的排列，这也可以称为话语(例如，获得账户余额、进行购物等)。如本文所使用的，话语或消息可以指代在与聊天机器人的会话期间交换的一组词(例如，一个或多个句子)。意图可以通过提供说明某个用户行动的名称(例如，订披萨)并编译通常与触发行动相关联的一组现实生活用户陈述或话语来创建。因为聊天机器人的认知是源自这些意图，所以每个意图可以从稳健的数据集(一至两打话语)创建并且变化，使得聊天机器人可以解释不明确的用户输入。一组丰富的话语使聊天机器人能够理解在其接收到如“Forget this order！(忽略此订单！)”或“Cancel delivery！(取消派送！)”等消息(意指相同的事情但以不同的方式表达的消息)时用户想要什么。意图和属于意图的话语共同构成聊天机器人的训练语料库。通过用语料库训练模型，客户基本上可以将所述模型变成用于将最终用户输入解析成单个意图的参考工具。客户可以通过多轮意图测试和意图训练来提高聊天机器人的认知的敏锐度。

然而，构建可以基于用户话语确定最终用户的意图的聊天机器人在某种程度上是有挑战性的任务，这部分地是由于自然语言的微妙性和不明确性以及输入空间的维度(例如，可能的用户话语)和输出空间的大小(意图的数目)。这种困难的说明性示例来自自然语言的特性，比如采用委婉语、同义词或不合语法的言语来表达意图。例如，话语可能表达了订购披萨的意图，而没有明确提及披萨、订购或派送。例如，在某些地方白话中，“披萨(pizza)”被称为“派(pie)”。自然语言中的这些趋势(比如不精确或可变性)会产生不确定性，并引入置信度作为意图预测参数，而不是例如通过包含关键字来明确指示意图。这样，为了改善聊天机器人的性能和与聊天机器人的用户体验，可能需要训练、监测、调试和再训练聊天机器人。在传统系统中，提供了训练系统以用于在口语理解(SLU)和自然语言处理(NLP)中训练和再训练数字助理或聊天机器人的机器学习模型。传统上，用于聊天机器人系统的模型在NLP中使用针对任何意图“制造”的话语进行训练。例如，话语“Do you do pricechanges？(你做价格变动吗？)”可以用于训练聊天机器人系统的分类器模型，以将这种类型的话语分类为意图——“Do you offer a price match(你提供价格匹配吗)”。使用制造的话语来训练模型有助于最初训练聊天机器人系统以提供服务，然后一旦聊天机器人系统被部署并开始从用户那里获得真实话语，就可以重新训练聊天机器人系统。

文本分类模型的常规训练从用预定义意图(或类别或类)列表标记的训练话语数据集开始。例如，银行聊天机器人可以用预定义意图进行训练，比如“开立账户”、“查询余额”、“关闭账户”、“转账”等。这些意图通常被认为属于聊天机器人可以处理的同一个域(例如，银行域)。通常，聊天机器人的训练是使用训练数据来执行的，所述训练数据包括多个话语示例以及针对每个训练话语的与话语相关联的意图。一旦聊天机器人经过训练，聊天机器人就可以接收新的话语(例如，在真实世界或生产环境中)，并从预定义意图中推断出每个话语的意图。

然而，聊天机器人从真实世界环境中(例如，在生产环境中)的实际用户接收到的话语可能是多种多样且嘈杂的。其中一些接收到的话语可能与用于训练聊天机器人的话语非常不同，并且可能不属于聊天机器人被训练来推断和处置的意图。例如，银行聊天机器人可能会接收到如“How do I book a trip to Italy？(如何预订意大利之行？)”等与银行业务无关的话语。这样的话语被称为域外(OOD)话语，因为它们不在经训练的聊天机器人的意图域内。聊天机器人系统能够识别这样的OOD话语是非常重要的，这样就可以采取适当的响应动作。例如，在检测到OOD话语时，聊天机器人可以回应用户，表明所述话语不是机器人可以处理或处置的，而不是选择最接近的匹配意图。

因此，需要不同的方法来解决这些问题。本公开描述了用于通过识别域外话语来解决这些问题的各种实施例。在各种实施例中，基于聚类的技术和基于度量的技术的组合被用于OOD确定。一种示例性技术包括接收话语和聊天机器人的目标域；为所述话语生成句子嵌入；获得与所述目标域相关联的域内话语的每个聚类的嵌入表示；使用度量学习模型基于所述句子嵌入与每个聚类的每个嵌入表示之间的相似度或差异来预测所述话语属于所述目标域的第一概率；使用异常值检测模型基于所确定的所述句子嵌入与相邻聚类的嵌入表示之间的距离或密度偏差来预测所述话语属于所述目标域的第二概率；评估所述第一概率和所述第二概率以确定所述话语属于所述目标域的最终概率；以及基于所述最终概率将所述话语分类为所述聊天机器人的域内或域外。

在某些实施例中，提供了一种方法，所述方法包括：接收话语和聊天机器人的目标域；为所述话语生成句子嵌入；获得与所述目标域相关联的域内话语的多个聚类的每个聚类的嵌入表示，其中，每个聚类的嵌入表示是所述聚类中每个域内话语的句子嵌入的平均值；将所述话语的所述句子嵌入和每个聚类的嵌入表示输入到具有已学习模型参数的度量学习模型中，所述度量学习模型被配置为提供关于所述话语是否属于所述目标域的第一概率；使用所述度量学习模型确定所述话语的所述句子嵌入与每个聚类的每个嵌入表示之间的相似度或差异；使用所述度量学习模型，基于所述确定的所述话语的所述句子嵌入与每个聚类的每个嵌入表示之间的相似度或差异来预测所述话语是否属于所述目标域的所述第一概率；将所述话语的所述句子嵌入和每个聚类的嵌入表示输入到使用距离或密度算法构建的异常值检测模型中，以用于异常值检测；使用所述异常值检测模型来确定所述话语的所述句子嵌入与相邻聚类的嵌入表示之间的距离或密度偏差；使用所述异常值检测模型，基于所述确定的距离或密度偏差来预测关于所述话语是否属于所述目标域的第二概率；评估所述第一概率和所述第二概率以确定关于所述话语是否属于所述目标域的最终概率；以及基于所述最终概率将所述话语分类为所述聊天机器人的域内或域外。

机器人和分析系统

机器人(也称为技能、聊天机器人、交谈机器人或谈话机器人)是可以执行与最终用户的会话的计算机程序。机器人通常可以通过使用自然语言消息的消息传递应用程序(application)对自然语言消息(例如，问题或评论)作出回应。企业可以使用一个或多个机器人系统通过消息传递应用程序与最终用户交流。消息传递应用程序(所述消息传递应用程序可以被称为通道)可以是最终用户已经安装并且熟悉的最终用户优选的消息传递应用程序。因此，为了与机器人系统聊天，最终用户不需要下载并安装新的应用程序。消息传递应用程序可以包括例如过顶(OTT)消息传递通道(如Facebook Messenger、FacebookWhatsApp、微信、Line、Kik、Telegram、Talk、Skype、Slack或SMS)、虚拟私人助理(如AmazonDot、Echo或Show、Google Home、Apple HomePod等)、本地或混合扩展的移动和web应用程序扩展/具有聊天功能的响应式移动应用程序或web应用程序、或基于声音的输入(如具有使用Siri、微软小娜(Cortana)、谷歌之音(Google Voice)或用于交互的其他语音输入的设备或应用程序)。

在一些示例中，机器人系统可以与统一资源标识符(URI)相关联。URI可以使用一串字符标识机器人系统。URI可以用作一个或多个消息传递应用程序系统的webhook(网络挂接)。URI可以包括例如统一资源定位符(URL)或统一资源名称(URN)。机器人系统可以被设计成从消息传递应用程序系统接收消息(例如，超文本传送协议(HTTP)post调用消息)。HTTP post调用消息可以涉及来自消息传递应用程序系统的URI。在一些实施例中，消息可以不同于HTTP post调用消息。例如，机器人系统可以从短消息服务(SMS)接收消息。虽然本文的讨论可以将机器人系统接收到的通信称作消息，但是应理解，消息可以是HTTP post调用消息、SMS消息或两个系统之间的任何其他类型的通信。

最终用户可以通过会话式交互(有时称为会话式用户接口(UI))与机器人系统交互，正如人之间的交互那样。在一些情况下，交互可以包括最终用户对机器人说“Hello(你好)”以及机器人用“Hi(嗨)”回应并询问最终用户机器人可以如何提供帮助。在一些情况下，交互还可以是与例如银行业机器人的交易式交互，如将钱从一个账户转移到另一个账户；与例如HR机器人的信息式交互，如检查假期结余；或与例如零售机器人的交互，如讨论退回已购商品或寻求技术支持。

在一些实施例中，机器人系统可以在没有与机器人系统的管理员或开发人员交互的情况下智能地处置最终用户交互。例如，最终用户可以向机器人系统发送一个或多个消息以便实现期望的目标。消息可以包括某种内容，如文本、表情符号、音频、图像、视频或传达消息的其他方法。在一些实施例中，机器人系统可以将内容转换成标准化形式(例如，利用适当的参数针对企业服务的表述性状态转移(REST)调用)并且生成自然语言回应。机器人系统还可以提示最终用户输入另外的输入参数或请求其他另外的信息。在一些实施例中，机器人系统还可以发起与最终用户的交流，而不是被动地回应最终用户话语。本文所描述的是用于识别机器人系统的显式调用并确定被调用的机器人系统的输入的各种技术。在某些实施例中，显式调用分析是由主机器人基于检测到话语中的调用名称而执行的。响应于检测到调用名称，话语可以细化以供输入到与调用名称相关联的技能机器人。

与机器人的会话可以遵循包括多个状态的特定会话流。所述流可以基于输入来定义接下来会发生什么。在一些实施例中，可以使用包括用户定义的状态(例如，最终用户意图)和在状态中或状态之间要采取的动作的状态机来实施机器人系统。会话可以基于最终用户输入来采用不同的路径，这可能会影响机器人针对流作出的决定。例如，在每个状态下，基于最终用户输入或话语，机器人可以确定最终用户的意图以便确定要采取的下一个适当动作。如本文所使用的且在话语的上下文中，术语“意图”是指提供话语的用户的意图。例如，用户可以打算让机器人参与用于订购披萨的会话，使得用户的意图可以通过话语“Order pizza(订购披萨)”来表示。用户意图可以涉及用户希望聊天机器人代表用户执行的特定任务。因此，话语可以表达为反映用户的意图的问题、命令、请求等。意图可以包括最终用户想要完成的目标。

在聊天机器人的配置的上下中，本文所使用的术语“意图”是指用于将用户的话语映射到聊天机器人可以执行的特定任务/动作或特定种类的任务/动作的配置信息。为了区分话语的意图(即，用户意图)与聊天机器人的意图，本文中有时将后者称为“机器人意图”。机器人意图可以包括与意图相关联的一组一个或多个话语。例如，订购披萨的意图可以具有表达下订单购买披萨的期望的话语的各种排列。这些相关联的话语可以用于训练聊天机器人的意图分类器以使意图分类器能够随后确定来自用户的输入话语是否与订购披萨意图相匹配。机器人意图可以与用于启动与用户在某个状态中的会话的一个或多个对话流相关联。例如，针对订购披萨意图的第一消息可以是问题“What kind of pizza would youlike？(你想要哪种披萨？)”。除了相关联的话语之外，机器人意图可以进一步包括与意图有关的命名实体。例如，订购披萨意图可以包括用于执行订购披萨的任务的变量或参数，例如馅料1、馅料2、披萨类型、披萨大小、披萨数量等。实体的值通常是通过与用户交谈获得的。

图1是结合了根据某些实施例的聊天机器人系统的环境100的简化框图。环境100包括数字助理构建器平台(DABP)102，所述DABP使得DABP 102的用户能够创建并部署数字助理或聊天机器人系统。DABP 102可以用于创建一个或多个数字助理(或DA)或聊天机器人系统。例如，如图1所示，代表特定企业的用户104可以使用DABP 102来创建并部署用于特定企业的用户的数字助理106。例如，DABP 102可以被银行用来创建供银行的客户使用的一个或多个数字助理。多个企业可以使用同一个DABP 102平台来创建数字助理。作为另一示例，餐馆(例如，披萨店)的所有者可以使用DABP 102来创建并部署使餐馆的客户能够订购食物(例如，订购披萨)的数字助理。

出于本公开的目的，“数字助理”是通过自然语言会话帮助数字助理的用户完成各种任务的实体。可以仅使用软件(例如，数字助理是使用可由一个或多个处理器执行的程序、代码或指令实施的数字实体)、使用硬件、或使用硬件和软件的组合来实施数字助理。数字助理可以在如计算机、移动电话、手表、器具、车辆等各种物理系统或设备中体现或实施。数字助理有时也称为聊天机器人系统。因此，出于本公开的目的，术语数字助理和聊天机器人系统是可互换的。

数字助理(如使用DABP 102构建的数字助理106)可以用于经由数字助理与其用户108之间基于自然语言的会话来执行各种任务。作为会话的一部分，用户可以向数字助理106提供一个或多个用户输入110并从数字助理106获得返回的回应112。会话可以包括输入110和回应112中的一个或多个。经由这些会话，用户可以请求由数字助理执行一个或多个任务，并且作为回应，数字助理被配置为执行用户请求的任务并以适当的回应来回应用户。

用户输入110通常呈自然语言的形式并且被称为话语。用户话语110可以是文本形式，如当用户键入句子、问题、文本片段或甚至单个单词并将文本作为输入提供给数字助理106时。在一些实施例中，用户话语110可以是音频输入或语音的形式，如当用户讲出或说出某些内容作为输入提供给数字助理106时。话语通常呈用户108说出的语言的形式。例如，话语可以是英语或某种其他语言。当话语呈语音形式时，将语音输入转换成该特定语言的文本形式的话语，并且然后由数字助理106来处理文本话语。可以使用各种语音到文本处理技术将语音或音频输入转换成文本话语，所述文本话语然后由数字助理106来处理。在一些实施例中，语音到文本的转换可以由数字助理106自身完成。

话语(其可以是文本话语或语音话语)可以是片段、一个句子、多个句子、一个或多个单词、一个或多个问题、上述类型的组合等。数字助理106被配置为将自然语言理解(NLU)技术应用于话语以理解用户输入的含义。作为针对话语的NLU处理的一部分，数字助理106被配置成执行用于理解话语的含义的处理，所述处理涉及识别对应于话语的一个或多个意图和一个或多个实体。在理解话语的含义后，数字助理106可以响应于理解的含义或意图来执行一个或多个动作或操作。出于本公开的目的，假设这些话语是已经由数字助理106的用户108直接提供的文本话语，或者是将输入语音话语转换为文本形式的结果。然而，这并不旨在以任何方式进行限制或约束。

例如，用户108的输入可以通过提供如“I want to order a pizza(我想要订购披萨)”的话语来请求订购披萨。在接收到这种话语之后，数字助理106被配置为理解话语的含义并采取适当的动作。适当的动作可以涉及例如以请求关于用户期望订购的披萨的类型、披萨的大小、披萨的任何浇头等用户输入的问题来回应用户。由数字助理106提供的回应也可以是自然语言形式，并且通常以与输入话语相同的语言。作为生成这些回应的一部分，数字助理106可以执行自然语言生成(NLG)。为了用户能够经由用户与数字助理106之间的会话来订购披萨，数字助理可以引导用户提供用于披萨订购的所有必要信息，并且然后在会话结束时使披萨被订购。数字助理106可以通过向用户输出指示已经订购披萨的信息来结束会话。

在概念层级上，数字助理106响应于从用户接收的话语执行各种处理。在一些实施例中，该处理涉及一系列处理步骤或处理步骤流水线，包括例如理解输入话语的含义(有时称为自然语言理解(NLU)、确定响应于话语而要执行的动作、在适当的情况下使动作被执行、响应于用户话语生成要输出到用户的回应、向用户输出回应等。NLU处理可以包括对所接收的输入话语进行语法分析以理解话语的结构和含义、细化并重新形成所述话语以开发出所述话语的更好的可理解形式(例如，逻辑形式)或结构。生成回应可以包括使用NLG技术。

数字助理(如数字助理106)执行的NLU处理可以包括如句子语法分析(例如，标记化、按屈折变化形式进行归类、识别句子的词性标签、识别句子中的命名实体、生成依存树来表示句子结构、将句子分成子句、分析单独的子句、解析指代、执行组块等)等各种NLP有关处理。在某些实施例中，NLU处理或其部分是由数字助理106自身执行的。在一些其他实施例中，数字助理106可以使用其他资源来执行NLU处理的部分。例如，可以通过使用语法分析器、词性标记器和/或命名实体识别器处理句子来识别输入话语句子的句法和结构。在一种实施方式中，针对英语语言，使用由斯坦福自然语言处理(NLP)小组提供的语法分析器、词性标记器和命名实体识别器来分析句子结构和句法。这些是作为斯坦福CoreNLP工具包的一部分提供的。

虽然本公开中提供的各个示例示出了英语语言的话语，但是这仅意味着作为示例。在某些实施例中，数字助理106还能够处置除英语以外的语言的话语。数字助理106可以提供被配置用于针对不同语言执行处理的子系统(例如，实施NLU功能的部件)。这些子系统可以实施为可以使用服务调用从NLU核心服务器调用的可插单元。这使NLU处理对于每种语言而言是灵活且可扩展的，包括允许不同的处理顺序。可以为单独的语言提供语言包，其中，语言包可以登记可以从NLU核心服务器提供服务的子系统的列表。

可以通过各种不同的通道(如但不限于经由某些应用程序、经由社交媒体平台、经由各种消息传递服务和应用程序、以及其他应用程序或通道)使数字助理(如图1中描绘的数字助理106)对其用户108而言是可用的或可访问的。单个数字助理可以为自身配置几个通道，使得单个数字助理可以同时在不同的服务上运行并通过不同的服务进行访问。

数字助理或聊天机器人系统通常包含一个或多个技能或与一个或多个技能相关联。在某些实施例中，这些技能是被配置为与用户交互并完成特定类型的任务(如跟踪库存、提交时间卡、创建费用报告、订购食物、查询银行账户、进行预约、购买小部件等)的单独的聊天机器人(称为技能机器人)。例如，针对图1所描绘的实施例，数字助理或聊天机器人系统106包括技能116-1、116-2等。出于本公开的目的，术语“技能(skill)”和“技能(skills)”分别与术语“技能机器人(skill bot)”和“技能机器人(skill bots)”同义地使用。

与数字助理相关联的每个技能通过与用户的会话帮助数字助理的用户完成任务，其中，所述会话可以包括由用户提供的文本或音频输入与由技能机器人提供的回应的组合。这些回应可以呈以下形式：给用户的文本或音频消息和/或使用呈现给用户以供用户进行选择的简单的用户界面元素(例如，选择列表)。

存在各种方法可以将技能或技能机器人与数字助理相关联或将其添加到数字助理。在一些实例中，可以由企业开发技能机器人，并且然后将其添加到使用DABP 102的数字助理。在其他实例中，可以使用DABP 102开发并创建技能机器人，并且然后将其添加到使用DABP 102创建的数字助理。在又其他实例中，DABP 102提供在线数字商店(称为“技能商店”)，所述在线数字商店提供涉及各种各样的任务的多个技能。通过技能商店提供的技能还可以公开(expose)各种云服务。为了将技能添加到使用DABP 102生成的数字助理，DABP102的用户可以经由DABP 102访问技能商店、选择所需的技能、并指示将所选技能添加到使用DABP 102创建的数字助理。来自技能商店的技能可以按原样或以修改的形式添加到数字助理(例如，DABP 102的用户可以选择并复制技能商店提供的特定技能机器人、对所选技能机器人进行定制或修改并且然后将修改后的技能机器人添加到使用DABP 102创建的数字助理)。

可以使用各种不同的架构来实施数字助理或聊天机器人系统。例如，在某些实施例中，使用DABP 102创建并部署的数字助理可以使用主机器人/次(或子)机器人范式或架构来实施。根据该范式，数字助理被实施为与是技能机器人的一个或多个次机器人交互的主机器人。例如，在图1所描绘的实施例中，数字助理106包括主机器人114和是主机器人114的次机器人的技能机器人116-1、116-2等。在某些实施例中，数字助理106自身被认为充当主机器人。

根据主-次机器人架构实施的数字助理使数字助理的用户能够通过统一用户接口(即，经由主机器人)与多个技能交互。当用户与数字助理接洽时，主机器人会接收到用户输入。然后，主机器人执行用于确定用户输入话语的含义的处理。然后，主机器人确定用户的话语中所请求的任务是否可以由主机器人自身来处置，否则，主机器人选择用于处置用户请求的适当技能机器人并将会话路由到所选技能机器人。这使用户能够通过公共的单个接口与数字助理进行会话，并且仍然有能力使用被配置为执行特定任务的几个技能机器人。例如，针对为企业开发的数字助理，数字助理的主机器人可以与具有特定功能的技能机器人接口连接，这些技能机器人比如用于执行与客户关系管理(CRM)有关的功能的CRM机器人、用于执行与企业资源规划(ERP)有关的功能的ERP机器人、用于执行与人力资本管理(HCM)有关的功能的HCM机器人等。这样，数字助理的最终用户或消费者只需要知道如何通过公共的主机器人接口访问数字助理，而在后台提供了多个技能机器人来处置用户请求。

在某些实施例中，在主机器人/次机器人基础设施中，主机器人被配置为了解可用技能机器人的列表。主机器人可以访问识别了各种可用技能机器人的元数据，并且针对每个技能机器人，技能机器人的能力包括可以由技能机器人执行的任务。在接收到话语形式的用户请求之后，主机器人被配置为从多个可用技能机器人中识别或预测可以最好地服务或处置用户请求的特定技能机器人。然后，主机器人将话语(或话语的一部分)路由到该特定的技能机器人以进行进一步的处置。因此，控制从主机器人流动到技能机器人。主机器人可以支持多个输入通道和输出通道。在某些实施例中，可以借助于由一个或多个可用技能机器人执行的处理来执行路由。例如，如以下所讨论的，可以训练技能机器人以推断出话语的意图，并确定所推断出的意图是否与针对技能机器人所配置的意图相匹配。因此，由主机器人执行的路由可以涉及技能机器人向主机器人传送指示，所述指示表明技能机器人是否已经配置有适合于处置话语的意图。

虽然图1的实施例示出了数字助理106包括主机器人114以及技能机器人116-1、116-2和116-3，但这并不旨在是限制性的。数字助理可以包括提供数字助理的功能的各种其他部件(例如，其他系统和子系统)。这些系统和子系统可以仅以软件(例如，存储在计算机可读介质上并且可由一个或多个处理器执行的代码、指令)、仅以硬件或在使用软件和硬件的组合的实施方式中实施。

DABP 102提供了使DABP 102的用户能够创建数字助理(包括与数字助理相关联的一个或多个技能机器人)的基础设施以及各种服务和特征。在一些实例中，可以通过克隆现有技能机器人来创建技能机器人，例如，克隆由技能商店提供的技能机器人。如前所述，DABP 102提供技能商店或技能目录，所述技能商店或技能目录提供了用于执行各种任务的多个技能机器人。DABP 102的用户可以从技能商店克隆技能机器人。根据需要，可以对克隆的技能机器人进行修改或定制。在一些其他实例中，DABP 102的用户使用由DABP 102提供的工具和服务从头开始创建技能机器人。如前所述，DABP 102所提供的技能商店或技能目录提供了用于执行各种任务的多个技能机器人。

在某些实施例中，在高层级上，创建或定制技能机器人涉及以下步骤：

(1)为新技能机器人配置设置

(2)为技能机器人配置一个或多个意图

(3)针对一个或多个意图配置一个或多个实体

(4)训练技能机器人

(5)为技能机器人创建对话流

(6)根据需要将自定义部件添加到技能机器人

(7)测试并部署技能机器人

下文简要描述了上述每个步骤。

(1)为新技能机器人配置设置——可以针对技能机器人配置各种设置。例如，技能机器人设计者可以为正在创建的技能机器人指定一个或多个调用名称。然后，这些调用名称可以被数字助理的用户用来显式调用技能机器人。例如，用户可以在用户话语中输入调用名称，以显式调用对应的技能机器人。

(2)为技能机器人配置一个或多个意图和相关联的示例话语——技能机器人设计者为正在创建的技能机器人指定一个或多个意图(也称为机器人意图)。然后基于这些指定的意图来训练技能机器人。这些意图代表技能机器人被训练以针对输入话语推断出的类别或分类。在接收到话语之后，经训练的技能机器人会推断出所述话语的意图，其中，所推断出的意图是从用于训练技能机器人的预定义的意图集中选择的。然后，技能机器人基于针对该话语推断出的意图采取适当的动作以对话语作出回应。在一些实例中，技能机器人的意图代表技能机器人可以为数字助理的用户执行的任务。每个意图被赋予一个意图标识符或意图名称。例如，对于针对银行训练的技能机器人，为所述技能机器人指定的意图可以包括“CheckBalance(查询余额)”、“TransferMoney(转账)”、“DepositCheck(存款查询)”等。

对于为技能机器人定义的每个意图，技能机器人设计者还可以提供一个或多个示例话语，这些示例话语代表并说明了意图。这些示例话语旨在表示用户可以针对该意图向技能机器人输入的话语。例如，针对CheckBalance意图，示例话语可以包括“What's mysavings account balance？(我的储蓄账户余额是多少？)”、“How much is in mychecking account？(我的活期存款账户里有多少钱？)”、“How much money do I have inmy account(我的账户里有多少钱)”等。因此，可以将典型的用户话语的各种排列指定为意图的示例话语。

这些意图及其相关联的示例话语用作用于训练技能机器人的训练数据。可以使用各种不同的训练技术。作为该训练的结果，生成预测模型，所述预测模型被配置为将话语作为输入并输出所述预测模型针对所述话语推断出的意图。在一些实例中，将输入话语提供给意图分析引擎，所述引擎被配置为使用经训练的模型来预测或推断输入话语的意图。然后，技能机器人可以基于推断出的意图采取一个或多个动作。

(3)针对技能机器人的一个或多个意图配置实体——在一些实例中，可能需要另外的上下文来使技能机器人能够适当地回应用户话语。例如，可能存在其中用户输入话语解析成技能机器人中的相同意图的情况。例如，在以上示例中，话语“What’s my savingsaccount balance？”和“How much is in my checking account？”均解析成相同的CheckBalance意图，但是这些话语是请求不同事情的不同请求。为了阐明这种请求，将一个或多个实体添加到意图。使用银行业技能机器人的示例，被称为账户类型(AccountType)的实体(所述实体定义了被称为“checking(活期存款)”和“saving(储蓄)”的值)可以使技能机器人能够对用户请求进行语法分析并适当地作出回应。在上面的示例中，虽然这些话语解析为相同的意图，但是这两个话语的与AccountType实体相关联的值是不同的。这使技能机器人能够针对这两个话语执行可能不同的动作，尽管这两个话语解析为相同的意图。可以针对为技能机器人配置的某些意图指定一个或多个实体。因此，实体用于将上下文添加到意图自身。实体帮助更充分地描述意图并使技能机器人能够完成用户请求。

在某些实施例中，有两种类型的实体：(a)DABP 102提供的内置实体；以及(2)可以由技能机器人设计者指定的自定义实体。内置实体是可以与各种机器人一起使用的通用实体。内置实体的示例包括但不限于与时间、日期、地址、数字、电子邮件地址、持续时间、循环时间段、货币、电话号码、URL等有关的实体。自定义实体用于更多定制的应用程序。例如，针对银行业技能，账户类型实体可以被技能机器人设计者定义为通过检查用户输入的关键字(如活期存款、储蓄、信用卡等)来实现各种银行业交易。

(4)训练技能机器人——技能机器人被配置成接收呈话语形式的用户输入，语法分析或以其他方式处理接收到的输入并且识别或选择与接收到的用户输相关的意图。如以上所指示的，为此，必须对技能机器人进行训练。在某些实施例中，基于为技能机器人配置的意图和与意图相关联的示例话语(统称为训练数据)来训练技能机器人，使得技能机器人可以将用户输入话语解析成其所配置的意图中的一个意图。在某些实施例中，技能机器人使用预测模型，所述预测模型是使用训练数据训练的并且允许技能机器人辨别用户说出(或者在一些情况下，正试图说出)的内容。DABP 102提供可以被技能机器人设计者用于训练技能机器人的各种不同的训练技术，包括各种基于机器学习的训练技术、基于规则的训练技术和/或其组合。在某些实施例中，训练数据的一部分(例如，80％)用于训练技能机器人模型并且另一部分(例如，其余20％)用于测试或验证模型。一旦进行了训练，经训练的模型(有时也称为经训练的技能机器人)便可以用于处置用户的话语并对用户的话语作出回应。在某些情况下，用户的话语可以是仅需要单一的回答并且无需另外的会话的问题。为了处置这种情况，可以为技能机器人定义Q&A(问与答)意图。这使技能机器人能够在不必更新对话框定义的情况下输出对用户请求的回复。Q&A意图是以与常规意图类似的方式创建的。用于Q&A意图的对话流可能与用于常规意图的对话流不同。

(5)为技能机器人创建对话流——为技能机器人指定的对话流描述了在响应于接收到的用户输入来解析技能机器人的不同意图时，技能机器人如何反应。对话流定义了技能机器人将采取的操作或动作，例如，技能机器人如何回应用户话语、技能机器人如何提示用户进行输入、技能机器人如何返回数据。对话流像技能机器人所遵循的流程图一样。技能机器人设计者使用如markdown语言等语言指定对话流。在某些实施例中，可以使用被称为OBotML的YAML版本来指定技能机器人的对话流。针对技能机器人的对话流定义充当会话自身的模型，所述模型是使技能机器人设计者精心策划技能机器人与技能机器人所服务的用户之间的交互的模型。

在某些实施例中，技能机器人的对话流定义包含以下三个部分：

(a)上下文部分

(b)默认转变部分

(c)状态部分

上下文部分——技能机器人设计者可以在上下文部分中定义会话流中使用的变量。可以在上下文部分中命名的其他变量包括但不限于：针对错误处置的变量、针对内置实体或自定义实体的变量、使技能机器人能够识别并保存用户偏好的用户变量等。

默认转变部分——技能机器人的转变可以在对话流状态部分中或在默认转变部分中定义。在默认转变部分中定义的转变充当后备并且当状态内没有定义适用的转变或触发状态转变所需的条件无法得到满足时被触发。默认转变部分可以用于定义允许技能机器人得体地处置出乎意料的用户动作的路由。

状态部分——对话流及其有关操作被定义为管理对话流内的逻辑的暂时状态的序列。对话流定义内的每个状态节点都命名一个部件，所述部件提供所述对话中的那个时候所需的功能。因此，状态是围绕部件构建的。状态包含特定于部件的性质并且定义了在部件执行之后被触发的向其他状态的转变。

特殊情况场景可以使用状态部分来处置。例如，您有时可能想要为用户提供用于暂时让用户与之接洽的第一技能进行数字助理内的第二技能中的事情的选项。例如，如果用户忙于与购物技能进行会话(例如，用户已做出一些购买选择)，则用户可能想要跳转至银行业技能(例如，用户可能想要确保他/她有足够的钱用于购买)并且然后返回到购物技能以完成用户的订单。为了解决这一点，第一技能中的动作可以被配置成发起与相同数字助理中的第二不同技能的交互并且然后返回到原始流。

(6)将自定义部件添加到技能机器人——如上文所描述的，技能机器人的对话流中指定的状态对对应于状态提供所需的功能的部件进行了命名。部件使技能机器人能够执行功能。在某些实施例中，DABP 102提供了用于执行各种各样的功能的一组预先配置的部件。技能机器人设计者可以选择这些预先配置的部件中的一个或多个并且将其与技能机器人的对话流中的状态相关联。技能机器人设计者还可以使用DABP 102提供的工具创建自定义部件或新的部件并且将自定义部件与技能机器人的对话流中的一个或多个状态相关联。

(7)测试并部署技能机器人——DABP 102提供了使技能机器人设计者能够测试正在开发的技能机器人的几个特征。然后，可以将技能机器人部署并包括在数字助理中。

虽然以上描述描述了如何创建技能机器人，但是还可以使用类似的技术来创建数字助理(或主机器人)。在主机器人或数字助理层级，可以为数字助理配置内置系统意图。这些内置系统意图用于识别在不调用与数字助理相关联的技能机器人的情况下数字助理自身(即，主机器人)可以处置的一般任务。针对主机器人定义的系统意图的示例包括：(1)Exit(退出)：当用户发出想要退出数字助理中的当前会话或上下文的信号时适用；(2)Help(帮助)：当用户请求帮助或定向时适用；以及(3)UnresolvedIntent(未解析意图)：适用于与退出意图和帮助意图不太匹配的用户输入。数字助理还存储关于与数字助理相关联的一个或多个技能机器人的信息。该信息使主机器人能够选择用于处置话语的特定技能机器人。

在主机器人或数字助理层级，当用户向数字助理输入短语或话语时，数字助理被配置为执行用于确定如何路由话语和相关会话的处理。数字助理使用路由模型来确定这一点，所述路由模型可以是基于规则的、基于AI的或其组合。数字助理使用路由模型来确定对应于用户输入话语的会话是要被路由到特定技能以进行处置、要由数字助理或主机器人自身按照内置系统意图进行处置、还是要被处置为当前会话流中的不同状态。

在某些实施例中，作为此处理的一部分，数字助理确定用户输入话语是否使用其调用名称显式地识别技能机器人。如果调用名称存在于用户输入中，则所述调用名称被视为对应于调用名称的对技能机器人的显式调用。在这种场景下，数字助理可以将用户输入路由到显式调用的技能机器人以进行进一步处置。在某些实施例中，如果不存在特定调用或显式调用，则数字助理评估接收到的用户输入话语并针对与数字助理相关联的系统意图和技能机器人计算置信度得分。针对技能机器人或系统意图计算的得分表示用户输入代表技能机器人被配置为执行的任务或代表系统意图的可能性有多大。选择相关联的计算的置信度得分超过阈值(例如，置信度阈值路由参数)的任何系统意图或技能机器人作为候选以进行进一步的评估。然后，数字助理从所识别的候选中选择特定的系统意图或技能机器人用于对用户输入话语进行进一步的处置。在某些实施例中，在一个或多个技能机器人被识别为候选之后，对与那些候选技能相关联的意图进行评估(根据每个技能的意图模型)并且针对每个意图确定置信度得分。置信度得分超过阈值(例如，70％)的任何意图通常均被视为候选意图。如果选择了特定技能机器人，则将用户话语路由到该技能机器人以进行进一步的处理。如果选择了系统意图，则由主机器人自身根据所选系统意图执行一个或多个动作。

图2是根据某些实施例的主机器人(MB)系统200的简化框图。MB系统200可以仅以软件、仅以硬件、或以硬件和软件的组合实施。MB系统200包括预处理子系统210、多个意图子系统(MIS)220、显式调用子系统(EIS)230、技能机器人调用器240和数据存储250。图2所描绘的MB系统200仅仅是主机器人中的部件布置的示例。本领域普通技术人员将认识到许多可能的变型、替代方案和修改。例如，在一些实施方式中，MB系统200可以具有比图2所示的那些系统或部件更多或更少的系统或部件，可以组合两个或更多个子系统，或者可以具有不同的子系统配置或布置。

预处理子系统210从用户接收话语“A”202并通过语言检测器212和语言语法分析器214来处理话语。如上所述，可以以包括音频或文本的各种方式来提供话语。话语202可以是句子片段、完整句子、多个句子等。话语202可以包括标点符号。例如，如果话语202作为音频提供，则预处理子系统210可以使用将标点符号(例如，逗号、分号、句号等)插入到结果文本中的语音文本转换器(未示出)来将音频转换为文本。

语言检测器212基于话语202的文本来检测话语202的语言。话语202的处置方式取决于语言，因为每种语言都有其自己的语法和语义。在分析话语的句法和结构时，会考虑语言之间的差异。

语言语法分析器214对话语202进行语法分析以提取话语202中各个语言单元(例如，单词)的词性(POS)标签。POS标签包括例如名词(NN)、代词(PN)、动词(VB)等。语言语法分析器214还可以对话语202的语言单位进行标记化(例如，将每个单词转换为单独的记号)并对单词按屈折变化形式进行归类。词元是如在字典中表示的一组单词的主要形式(例如，“run”是run、runs、ran、running等的词元)。语言语法分析器214可以执行的其他类型的预处理包括复合表达式的组块，例如，将“credit(信用)”和“card(卡)”组合成单个表达式“credit card(信用卡)”。语言语法分析器214还可以识别话语202中的单词之间的关系。例如，在一些实施例中，语言语法分析器214生成依存树，所述依存树指示话语的哪一部分(例如，特定名词)是直接宾语、话语的哪一部分是介词等。由语言语法分析器214执行的处理的结果形成提取的信息205，并与话语202本身一起作为输入提供给MIS 220。

如上所述，话语202可以包括多于一个句子。为了检测多个意图和显式调用的目的，话语202可以被视为单个单元，即使它包括多个句子。然而，在某些实施例中，预处理可以例如由预处理子系统210执行，以识别多个句子中的单个句子以用于多个意图分析和显式调用分析。通常，无论话语202是在单个句子的级别上处理还是作为包括多个句子的单个单元处理，MIS 220和EIS 230产生的结果都基本相同。

MIS 220确定话语202是否表示多个意图。尽管MIS 220可以检测到话语202中存在多个意图，但MIS 220执行的处理不涉及确定话语202的意图是否与已为机器人配置的任何意图相匹配。相反，确定话语202的意图是否与机器人意图相匹配的处理可以由MB系统200的意图分类器242或(例如，如图3的实施例中所示的)技能机器人的意图分类器执行。MIS220执行的处理假设存在可以处置话语202的机器人(例如，特定技能机器人或主机器人本身)。因此，由MIS 220执行的处理不需要知道聊天机器人系统中有哪些机器人(例如，向主机器人注册的技能机器人的身份)，也不需要知道已经为特定机器人配置了什么意图。

为了确定话语202包括多个意图，MIS 220应用数据存储250中的一组规则252中的一个或多个规则。应用于话语202的规则取决于话语202的语言并且可以包括指示存在多个意图的句子模式。例如，句子模式可以包括连接句子的两个部分(例如，连词)的并列连接词，其中这两个部分对应于不同的意图。如果话语202与句子模式相匹配，则可以推断出话语202表示多个意图。应该注意的是，具有多个意图的话语不一定具有不同的意图(例如，涉及不同机器人的意图或同一机器人内的不同意图)。相反，话语可以有相同意图的不同实例，例如“Place a pizza order using payment account X,then place a pizza orderusing payment account Y(使用支付账户X下披萨订单，然后使用支付账户Y下披萨订单)”。

作为确定话语202表示多个意图的一部分，MIS 220还确定话语202的哪些部分与每个意图相关联。MIS 220针对包含多个意图的话语中表示的每个意图构建用于单独处理的新话语来代替原始话语，例如，如图2中所描绘的话语“B”206和话语“C”208。因此，原始话语202可以被分成两个或更多个单独的话语，每次处置一个。MIS 220使用提取的信息205和/或根据对话语202本身的分析来确定应该首先处置两个或更多个话语中的哪一个。例如，MIS 220可以确定话语202包含指示应该首先处置特定意图的标记词。与该特定意图相对应的新形成的话语(例如，话语206或话语208中的一个)将首先被发送以供EIS 230进一步处理。在由第一个话语触发的会话已经结束(或已被暂时暂停)之后，然后可以将下一个最高优先级的话语(例如，话语206或话语208中的另一个话语)发送到EIS 230进行处理。

EIS 230确定其接收的话语(例如，话语206或话语208)是否包含技能机器人的调用名称。在某些实施例中，聊天机器人系统中的每个技能机器人被指派唯一的调用名称，所述调用名称将技能机器人与聊天机器人系统中的其他技能机器人区分开来。调用名称列表可以作为技能机器人信息254的一部分保存在数据存储250中。当话语包含与调用名称相匹配的单词时，话语被视为显式调用。如果机器人未被显式调用，则EIS 230接收到的话语被视为是非显式调用话语234并且被输入到主机器人的意图分类器(例如，意图分类器242)以确定使用哪个机器人来处置话语。在一些实例中，意图分类器242将确定主机器人应该处置非显式调用话语。在其他实例中，意图分类器242将确定将话语路由到以进行处置的技能机器人。

EIS 230所提供的显式调用功能有几个优点。它可以减少主机器人不得不执行的处理量。例如，当存在显式调用时，主机器人可能不必(例如，使用意图分类器242)进行任何意图分类分析，或者可能不得不进行简化的意图分类分析以选择技能机器人。因此，显式调用分析可以在不借助意图分类分析的情况下实现对特定技能机器人的选择。

而且，可能存在多个技能机器人之间的功能重叠的情况。例如，如果两个技能机器人处置的意图重叠或彼此非常接近，则可能会发生这种情况。在这种情况下，主机器人可能难以仅基于意图分类分析来识别要选择多个技能机器人中的哪一个。在这种场景下，显式调用使得对于要使用的特定技能机器人没有歧义。

除了确定话语是显式调用之外，EIS 230还负责确定是否应该将话语的任何部分用作对被显式调用的技能机器人的输入。具体地，EIS 230可以确定话语的一部分是否与调用无关。EIS 230可以通过分析话语和/或分析提取的信息205来执行该确定。EIS 230可以将与调用无关的话语部分发送到被调用的技能机器人，而不是发送EIS 230所接收到的整个话语。在一些实例中，被调用的技能机器人的输入简单地通过删除与调用相关联的任何话语部分来形成。例如，“I want to order pizza using Pizza Bot(我想使用披萨机器人来订购披萨)”可以缩短为“I want to order pizza”，因为“using Pizza Bot”与披萨机器人的调用相关，但与要由披萨机器人执行的任何处理无关。在一些实例中，EIS 230可以重新格式化要发送到被调用机器人的部分，例如，以形成完整的句子。因此，EIS 230不仅确定存在显式调用，而且当存在显式调用时确定向技能机器人发送什么。在一些实例中，可能没有任何文本可以输入到被调用的机器人中。例如，如果话语是“Pizza Bot”，则EIS 230可以确定披萨机器人正在被调用，但没有要由披萨机器人处理的文本。在这样的场景下，EIS230可以向技能机器人调用器240指示没有要发送的内容。

技能机器人调用器240以各种方式调用技能机器人。例如，技能机器人调用器240可以响应于接收到作为显式调用的结果已经选择特定技能机器人的指示235来调用机器人。指示235可以由EIS 230连同显式调用的技能机器人的输入一起发送。在这种场景下，技能机器人调用器240会将会话的控制权交给显式调用的技能机器人。显式调用的技能机器人将通过将输入视为独立话语来确定对来自EIS 230的输入的适当回应。例如，回应可以是执行特定动作或在特定状态下开始新会话，其中新会话的初始状态取决于从EIS 230发送的输入。

技能机器人调用器240可以调用技能机器人的另一种方式是通过使用意图分类器242进行隐式调用。可以使用机器学习和/或基于规则的训练技术来训练意图分类器242，以确定话语代表特定技能机器人被配置为执行的任务的可能性。意图分类器242在不同的分类上进行训练，每个技能机器人一个分类。例如，每当向主机器人注册新技能机器人时，与新技能机器人相关联的示例话语列表可以用于训练意图分类器242以确定特定话语代表新技能机器人可以执行的任务的可能性。作为该训练的结果产生的参数(例如，机器学习模型的一组参数值)可以存储为技能机器人信息254的一部分。

在某些实施例中，意图分类器242是使用机器学习模型实施的，如本文进一步详细描述的。机器学习模型的训练可以涉及输入来自与各种技能机器人相关联的示例话语的至少一个话语子集，以生成关于哪个机器人是用于处置任何特定训练话语的正确机器人的推断作为机器学习模型的输出。对于每个训练话语，可以提供用于训练话语的正确机器人的指示作为基本事实信息。然后可以适配机器学习模型的行为(例如，通过反向传播)以最小化所生成的推断与基本事实信息之间的差异。

在某些实施例中，意图分类器242针对向主机器人注册的每个技能机器人确定指示技能机器人可以处置话语(例如，从EIS 230接收的非显式调用话语234)的可能性的置信度得分。意图分类器242还可以确定已配置的每个系统级意图(例如，帮助、退出)的置信度得分。如果特定置信度得分满足一个或多个条件，则技能机器人调用器240将调用与特定置信度得分相关联的机器人。例如，可能需要满足阈值置信度得分值。因此，意图分类器242的输出245是对系统意图的识别或对特定技能机器人的识别。在一些实施例中，除了满足阈值置信度得分值之外，置信度得分必须超过下一个最高置信度得分一定的裕量。当多个技能机器人的置信度得分均超过阈值置信度得分值时，施加这样的条件将能够路由到特定技能机器人。

在基于置信度得分的评估识别出机器人之后，技能机器人调用器240将处理移交给所识别的机器人。在系统意图的情况下，所识别的机器人是主机器人。否则，所识别的机器人是技能机器人。进一步地，技能机器人调用器240将确定提供什么作为所识别的机器人的输入247。如上所述，在显式调用的情况下，输入247可以基于与调用无关的话语部分，或者输入247可以是什么都没有(例如，空字符串)。在隐式调用的情况下，输入247可以是整个话语。

数据存储250包括一个或多个计算设备，其存储由主机器人系统200的各种子系统使用的数据。如以上所解释的数据存储250包括规则252和技能机器人信息254。规则252包括例如用于由MIS 220确定话语何时表示多个意图以及如何分割表示多个意图的话语的规则。规则252进一步包括用于由EIS 230确定要将显式调用技能机器人的话语的哪些部分发送到技能机器人的规则。技能机器人信息254包括聊天机器人系统中的技能机器人的调用名称，例如，向特定主机器人注册的所有技能机器人的调用名称列表。技能机器人信息254还可以包括意图分类器242用来确定聊天机器人系统中每个技能机器人的置信度得分的信息，例如机器学习模型的参数。

图3是根据某些实施例的技能机器人系统300的简化框图。技能机器人系统300是可以仅以软件实施、仅以硬件实施、或以硬件和软件的组合实施的计算系统。在某些实施例中，如图1所描绘的实施例中，技能机器人系统300可以用于在数字助理内实施一个或多个技能机器人。

技能机器人系统300包括MIS 310、意图分类器320和会话管理器330。MIS 310类似于图2中的MIS 220并提供类似的功能，包括可操作地使用数据存储350中的规则352来确定：(1)话语是否代表多个意图，以及如果是，(2)如何将话语拆分为针对多个意图中的每个意图的单独话语。在某些实施例中，由MIS 310应用的用于检测多个意图和用于分割话语的规则与MIS 220所应用的规则相同。MIS 310接收话语302和提取的信息304。提取的信息304类似于图1中的提取的信息205，并且可以使用语言语法分析器214或技能机器人系统300本地的语言语法分析器来生成。

意图分类器320可以以与以上结合图2的实施例讨论的意图分类器242类似的方式被训练，并在此进一步详细描述。例如，在某些实施例中，意图分类器320是使用机器学习模型来实施的。针对特定技能机器人，使用与该特定技能机器人相关联的示例话语的至少一个子集作为训练话语来训练意图分类器320的机器学习模型。每个训练话语的基本事实将是与训练话语相关联的特定机器人意图。

话语302可以直接从用户接收或通过主机器人提供。当通过主机器人提供话语302时，例如，作为通过图2中描绘的实施例中的MIS 220和EIS 230处理的结果，可以绕过MIS310以避免重复已经由MIS 220执行的处理。然而，如果直接从用户接收到话语302，例如，在路由到技能机器人之后发生的会话期间，则MIS 310可以处理话语302以确定话语302是否代表多个意图。如果是，则MIS 310应用一个或多个规则以将话语302拆分为针对每个意图的单独话语，例如话语“D”306和话语“E”308。如果话语302不代表多个意图，则MIS 310将话语302转发到意图分类器320以进行意图分类，而不拆分话语302。

意图分类器320被配置为将接收到的话语(例如，话语306或308)与同技能机器人系统300相关联的意图相匹配。如以上所解释的，技能机器人可以配置有一个或多个意图，每个意图包括与该意图相关联并用于训练分类器的至少一个示例话语。在图2的实施例中，主机器人系统200的意图分类器242被训练以确定各个技能机器人的置信度得分和针对系统意图的置信度得分。类似地，可以训练意图分类器320以确定针对与技能机器人系统300相关联的每个意图的置信度得分。由意图分类器242执行的分类是在机器人级别，而由意图分类器320执行的分类是在意图级别并且因此更细粒度。意图分类器320可以访问意图信息354。对于与技能机器人系统300相关联的每个意图，意图信息354包括代表意图并说明意图的含义并且通常与可由该意图执行的任务相关联的话语列表。意图信息354可以进一步包括作为在该话语列表上进行训练的结果而产生的参数。

会话管理器330接收特定意图的指示322作为意图分类器320的输出，所述指示由意图分类器320识别为与输入到意图分类器320的话语最佳匹配。在一些实例中，意图分类器320不能确定任何匹配。例如，如果话语涉及系统意图或不同技能机器人的意图，则由意图分类器320计算的置信度得分可能低于阈值置信度得分值。当这种情况发生时，技能机器人系统300可以将话语提交给主机器人以进行处置，例如，以路由到不同的技能机器人。然而，如果意图分类器320成功地识别技能机器人内的意图，则会话管理器330将发起与用户的会话。

由会话管理器330发起的会话是特定于由意图分类器320识别的意图的会话。例如，会话管理器330可以使用被配置为针对所识别的意图执行对话流的状态机来实施。状态机可以包括默认起始状态(例如，当在没有任何附加输入的情况下调用意图时)和一个或多个附加状态，其中每个状态与将由技能机器人执行的动作(例如，执行购买交易)和/或要呈现给用户的对话(例如，问题、回应)相关联。因此，会话管理器330可以在接收到识别到意图的指示322时确定动作/对话335，并且可以响应于在会话期间接收到的后续话语来确定附加动作或对话。

数据存储350包括一个或多个计算设备，其存储由技能机器人系统300的各种子系统使用的数据。如图3中所描绘的，数据存储350可以包括规则352和意图信息354。在某些实施例中，数据存储350可以集成到主机器人或数字助理的数据存储中，例如图2中的数据存储250。

OOD检测的系统和架构

当聊天机器人接收到话语时，聊天机器人必须准确地确定话语是域内话语还是域外话语。已经发现，用于将话语分类为意图的模型可能会过于自信，并且在OOD的文本上提供较差的结果。为了克服这个问题，各种实施例涉及使用基于聚类的方法和基于度量的方法来计算关于话语是否属于目标域(例如，给定技能机器人)的概率的技术。此后，从基于聚类的方法和基于度量的方法计算的概率被组合在集成方法中，以从基于聚类的方法和基于度量的方法两者中获得最好的结果。集成方法最终基于最终组合的概率将话语分类为目标域的域内或域外。

图4示出了说明被配置为基于文本数据405来训练和利用分类器(例如，关于图2和图3描述的意图分类器242或320)的聊天机器人系统400的方面的框图。如图4所示，由该示例中的聊天机器人系统400执行的文本分类包括各个阶段：预测模型训练阶段410；技能机器人调用阶段415，用于确定话语代表特定技能机器人被配置为执行的任务(例如，域内还是域外)的可能性；以及意图预测阶段420，用于将话语分类为一个或多个意图。预测模型训练阶段410建立和训练供其他阶段使用的一个或多个预测模型425a-425n(‘n’表示任何自然数)(所述预测模型在本文中可单独称为预测模型425或统称为预测模型425)。例如，预测模型425可以包括用于确定话语代表特定技能机器人被配置为执行的任务(例如，计算关于话语是否属于目标域的概率)的可能性的一个或多个模型(或模型的集成)、用于根据第一类型技能机器人的话语来预测意图的另一个模型、以及根据第二类型技能机器人的话语来预测意图的另一个模型。在根据本公开的其他示例中可以实施又其他类型的预测模型。

预测模型425可以是机器学习(“ML”)模型，如卷积神经网络(“CNN”)，例如，初始神经网络、残差神经网络(“Resnet”)；或递归神经网络，例如长短期记忆(“LSTM”)模型或门控递归单元(“GRU”)模型；深度神经网络(“DNN”)的其他变型网络(例如，堆叠式高速公路网络(stacked highway network)、具有线性模型和深度神经网络的宽且深的学习网络、用于单意图分类的多标签n分DNN分类器或多类DNN分类器)。预测模型425也可以是为自然语言处理而训练的任何其他合适的ML模型，如朴素贝叶斯分类器、线性分类器、支持向量机、如随机森林模型的装袋模型(Bagging Model)、提升模型(Boosting Model)、浅层神经网络、或这种技术中的一种或多种的组合——例如，CNN-HMM或MCNN(多尺度卷积神经网络)。聊天机器人系统400可以采用相同类型的预测模型或不同类型的预测模型来确定话语代表特定技能机器人被配置为执行的任务的可能性，根据第一类型技能机器人的话语来预测意图，以及根据第二类型技能机器人的话语来预测意图。在根据本公开的其他示例中可以实施又其他类型的预测模型。

为了训练各种预测模型425，训练阶段410由三个主要部分构成：数据集准备430、特征工程435和模型训练440。数据集准备430包括加载数据资产445、将数据资产445拆分成训练集和验证集445a-n使得系统可以训练和测试预测模型425、以及执行基本预处理的过程。数据资产445可以至少包括来自与各种技能机器人相关联的示例话语的话语子集。如上所述，可以以包括音频或文本的各种方式来提供话语。话语可以是句子片段、完整句子、多个句子等。例如，如果话语作为音频提供，则数据准备430可以使用将标点符号(例如，逗号、分号、句号等)插入到结果文本中的语音文本转换器(未示出)来将音频转换为文本。在一些实例中，示例话语由客户端或客户提供。在其他实例中，示例话语是从先前的话语库中自动生成的(例如，从库中识别特定于聊天机器人要学习的技能的话语)。预测模型425的数据资产445可以包括输入文本或音频(或者文本或音频帧的输入特征)和与输入文本或音频(或输入特征)相对应的作为矩阵或值表的标签450。例如，对于每个训练话语，可以提供用于训练话语的正确机器人的指示作为标签450的基本事实信息。然后可以适配预测模型425的行为(例如，通过反向传播)以最小化所生成的推断与基本事实信息之间的差异。可替代地，针对特定技能机器人，可以使用与该特定技能机器人相关联的示例话语的至少一个子集作为训练话语来训练预测模型425。每个训练话语的标签450的基本事实信息将是与训练话语相关联的特定机器人意图。

在各种实施例中，数据准备430包括OOD数据扩充455，数据资产445以包括各种上下文中的OOD话语示例，以使预测模型425对OOD话语更具弹性。通过用各种上下文中的OOD示例来扩充数据资产445，预测模型425变得更好地在示例和上下文的最重要部分上进行磨炼，以将它们与它们的分类(包括OOD分类)联系起来。扩充455可以使用OOD扩充技术来实施，以用于将各种上下文中的OOD话语与数据资产445的原始话语结合。OOD扩充技术通常可以包括四个操作：(i)生成包括多个OOD示例的数据集，(ii)滤除上下文与原始话语的上下文过于相似的OOD示例，以及(iii)在训练期间将OOD示例按批处理来馈送到模型中以平衡OOD示例和域内示例，因为与域内话语相比，OOD示例的数量可能要大得多，并且其中，批的馈送从包括更简单的OOD示例的批开始，并以包括更难的OOD示例的批继续。

在一些实例中，可以将附加扩充应用到数据资产445(使用OOD扩充)。例如，简单数据扩充(EDA)技术可以用于提高文本分类任务的性能。EDA包括四个操作：同义词替换、赎金插入、随机交换和随机删除，这些操作能够防止过拟合并帮助训练更稳健的模型。注意，与OOD扩充相比，EDA操作通常：(i)从原始文本中获得词，并且(ii)相对于原始文本将这些词合并到每个数据资产445中。例如，同义词替换操作包括从原始句子(例如，话语)中随机选择n个不是停用词的词，并将这些词中的每一个替换为其随机选择的同义词之一。随机插入操作包括——n次——找到原始句子中不是停用词的随机词的随机同义词，并将该同义词插入句子中的随机位置。随机交换操作包括——n次——随机选择句子中的两个词并交换它们的位置。随机删除操作包括以概率p随机删除句子中的每个单词。

在各种实施例中，特征工程435包括使用如多语言通用句子编码器(MUSE)等编码模型将数据资产445变换成特征向量和/或创建将使用数据资产445创建的新特征。编码模型是能够将像句子、单词和n元语法(n个字母/单词的集合)之类的自然语言元素映射到数字数组中的模型。以这种方式，每个自然语言元素都可以表示为向量空间中的单个点。目的是能够获得句子、单词和n元语法的表示，所述表示可以被计算设备用于数据处理而不会丢失太多信息。特征向量可以包括计数向量作为特征，词频-逆文档频率(TF-IDF)向量作为特征(如单词级别、n元级别或字符级别)、词嵌入作为特征、文本/NLP作为特征、主题模型作为特征、或其组合。计数向量是数据资产445的矩阵符号，其中每一行代表一个话语，每一列代表来自话语的一个词，并且每个单元格代表特定词在话语中的频率计数。TF-IDF得分代表某个词在话语中的相对重要性。词嵌入是一种使用密集向量表示来表示词和话语的形式。向量空间中单词的位置是从文本中学习的，并且基于使用该单词时围绕该单词的单词。基于文本/NLP的特征可以包括话语中的单词数、话语中的字符数、平均单词密度、标点符号数、大写字母数、标题单词数、词性标签(例如，名词和动词)的频率分布、或其任何组合。主题建模是一种从包含集合中的最佳信息的话语集合中识别词组(称为主题)的技术。

在各种实施例中，模型训练440包括使用句子嵌入以及在特征工程435中创建的特征向量和/或新特征来训练预测模型425。在一些实例中，训练过程包括迭代操作以找到预测模型425的一组参数，该组参数最小化预测模型425的损失或误差函数。每次迭代可以涉及找到预测模型425的一组参数，使得使用该组参数的损失或误差函数的值小于在先前迭代中使用另一组参数的损失或误差函数的值。可以构建损失或误差函数以衡量使用预测模型425预测的输出与数据资产445中包含的标签450之间的差异。一旦识别出该组参数，预测模型425就已经被训练并且可以根据设计用于预测。

除了数据资产445、标签450、特征向量和/或新特征之外，还可以采用其他技术和信息来细化预测模型425的训练过程。例如，可以将特征向量和/或新特征组合在一起以帮助提高分类器或模型的准确度。另外或可替代地，可以调整或优化超参数，例如，可以微调诸如树长度、叶、网络参数等多个参数以获得最佳拟合模型。尽管本文描述的训练机制主要集中于训练预测模型425。这些训练机制还可以用于微调从其他数据资产训练的现有预测模型425。例如，在一些情况下，预测模型425可能已经使用特定于另一个技能机器人的话语进行了预训练。在这些情况下，可以使用数据资产445(例如，使用OOD扩充)来再训练预测模型425。

预测模型训练阶段410输出经训练的预测模型425，包括任务预测模型460和意图预测模型465。任务预测模型460可以在技能机器人调用阶段415使用以确定话语代表特定技能机器人被配置为执行470的任务的可能性，并且意图预测模型465可以在意图预测阶段420使用以将话语分类为一个或多个意图475。在一些实例中，技能机器人调用阶段415和意图预测阶段420可以在一些示例中通过单独的模型独立地进行。例如，经训练的意图预测模型465可以在意图预测阶段420中用于预测技能机器人的意图，而无需首先在技能机器人调用阶段415中识别技能机器人。类似地，任务预测模型460可以在技能机器人调用阶段415中用于预测针对话语要使用的任务或技能机器人，而无需在意图预测阶段420中识别话语的意图。

可替代地，技能机器人调用阶段415和意图预测阶段420可以顺序进行，其中一个阶段使用另一个阶段的输出作为输入，或者针对特定技能机器人，一个阶段基于另一个阶段的输出以特定方式被调用。例如，对于给定的文本数据405，技能机器人调用器可以使用技能机器人调用阶段415和任务预测模型460通过隐式调用来调用技能机器人。可以使用机器学习和/或基于规则的训练技术来训练任务预测模型460，以确定话语代表特定技能机器人470被配置为执行的任务的可能性。然后对于识别或调用的技能机器人和给定文本数据405，意图预测阶段420和意图预测模型465可以用于将接收到的话语(例如，给定数据资产445内的话语)与同技能机器人相关联的意图475相匹配。如本文所解释的，技能机器人可以配置有一个或多个意图，每个意图包括与所述意图相关联并用于训练分类器的至少一个示例话语。在一些实施例中，技能机器人调用阶段415和在主机器人系统中使用的任务预测模型460被训练以确定各个技能机器人的置信度得分和系统意图的置信度得分。类似地，意图预测阶段420和意图预测模型465可以被训练以确定与技能机器人系统相关联的每个意图的置信度得分。由技能机器人调用阶段415和任务预测模型460执行的分类是在机器人级别，而由意图预测阶段420和意图预测模型465执行的分类是在意图级别并且因此更细粒度。

图5示出了说明模型架构500的各方面的框图，所述模型架构提供基于聚类的方法和基于度量的方法来计算关于话语是否属于目标域的概率(例如，关于图4描述的技能机器人调用阶段415)。模型架构500包括聚类部件505、分类部件510和集成部件515。聚类部件505包括两个阶段：(i)无监督聚类模型520和(ii)异常值检测模型525。无监督聚类模型520在基于聚类的方法与基于度量的方法之间共享，以用于确定域内数据535内的聚类530、计算质心540以及为所述聚类生成嵌入表示545。异常值检测模型525是使用距离或密度算法(例如，Z分数、K均值、DBSCAN、局部异常值检测(LOF)、孤立森林等)构建的，以提供关于输入话语555是否属于目标域的概率550(例如，第二概率)。分类部件510包括两个阶段：(i)无监督聚类模型520和(ii)度量学习模型560。度量学习模型560计算输入话语555的句子嵌入570与聚类的嵌入表示545之间的绝对差565，并且是由具有已学习模型参数的深度学习网络575构建的，所述深度学习网络被配置为提供关于输入话语555是否属于目标域的概率580(例如，第一概率)。集成部件515被配置为评估概率580和概率550以确定关于输入话语555是否属于目标域的最终概率585，并基于最终概率585将输入话语555分类为聊天机器人的域内或域外。

关于由聚类部件505实施的基于聚类的方法，用于训练无监督聚类算法的域内数据535包括与特定域或技能机器人相关联的域内话语(例如，仅披萨订购训练数据)。嵌入模型590(例如，MUSE)可以用于通过将包括句子、单词和n元语法在内的自然语言元素映射到数字数组来为每个域内话语生成句子嵌入。每个自然语言元素都表示为向量空间中的单个点。因此，每个句子嵌入都是代表自然语言元素的值的向量。无监督聚类算法(例如，K均值、仿射传播、凝聚聚类、平衡迭代约减和聚类(BIRCH)、DBSCAN、均值偏移、对点排序以识别聚类结构(OPTICS)等)获取数据点(即，每个域内话语的句子嵌入)作为输入并将它们分组到聚类中。该分组过程就是无监督聚类算法的训练阶段。结果将是将数据样本(例如，s个新的域内话语的句子嵌入)作为输入并根据无监督聚类模型520所经历的训练返回新数据点所属的聚类的无监督聚类模型520。一旦为域内数据535确定了聚类，就为每个聚类生成嵌入表示545。嵌入表示545是聚类中每个域内话语的句子嵌入的平均值。聚类过程将域内数据535缩小到聚类的更易于管理的大小的嵌入表示545(例如，等于或小于1000个嵌入表示、等于或小于500个嵌入表示、或等于或小于250个嵌入表示)。

异常值检测模型525可选地包括将数据点(即，通过质心计算535和聚类检测530确定的聚类的嵌入表示545和质心计算)作为输入并将它们进一步分组为细化聚类的无监督聚类算法(例如，K均值、仿射传播、凝聚聚类、BIRCH、DBSCAN、均值偏移、OPTICS等)。该分组过程就是无监督聚类算法的训练阶段。结果将是将数据样本(例如，聚类的嵌入表示和质心计算)作为输入并根据无监督聚类模型所经历的训练返回新数据点所属的细化聚类的无监督聚类模型。一旦为嵌入表示545确定了细化聚类，就为每个细化聚类生成细化嵌入表示。细化嵌入表示是每个细化聚类的嵌入表示545的平均值。异常值检测模型525包括距离或密度算法(例如，Z分数、K均值、DBSCAN、局部异常值检测(LOF)、孤立森林等)，所述距离或密度算法被配置为确定输入话语555的句子嵌入570与相邻聚类的嵌入表示(或修正的嵌入表示)之间的距离或密度偏差。异常值检测模型525基于所确定的距离或密度偏差来预测关于输入话语555是否属于目标域的概率525。例如，异常值检测模型525可以将与任何邻居有很大距离或密度大大低于任何邻居的输入话语555视为异常值，然后其可以用于提供关于输入话语555是否属于目标域的概率525。

关于由分类部件510实施的基于度量的方法，可以使用训练数据集来训练深度学习网络575，所述训练数据集包括(i)输入话语的句子嵌入，(ii)由域内数据的句子嵌入构成的每个聚类的嵌入表示，以及(iii)输入话语的句子嵌入与由域内数据的句子嵌入构成的每个聚类的每个嵌入表示之间的绝对差。用于训练深度学习网络575的域内数据535包括与各种域或技能机器人相关联的域内话语(例如，不仅是披萨订购训练数据，而且还包括来自任何其他可用域或机器人的训练数据，比如工资单机器人、天气机器人、银行账户机器人等)。

在一些实施例中，深度学习网络575是具有非线性变换作为门控函数的一部分的堆叠式高速公路网络。可以使用训练数据集来学习堆叠式高速公路网络的模型参数。在使用训练数据集训练度量学习模型560期间，将句子嵌入的高维特征和每个聚类的嵌入表示转换为较低维向量，所述较低维向量随后与域内话语的特征级联并馈入深度神经网络的隐藏层中，所述较低维向量的值被随机初始化并与模型参数一起被学习以最小化损失函数。

一旦经过训练，堆叠式高速公路网络就可以确定输入话语555的句子嵌入570与每个聚类的每个嵌入表示545之间的相似度或差异。嵌入模型595(例如，MUSE)可以用于通过将包括句子、单词和n元语法在内的自然语言元素映射到数字数组来为输入话语555生成句子嵌入570。每个自然语言元素都表示为向量空间中的单个点。因此，句子嵌入是代表自然语言元素的值的向量。

堆叠式高速公路网络可以表述如下：

·Probability(SAME_DOMAIN或NOT_SAME_DOMAIN|x，target_domain)～Probability(SAME_DOMAIN或NOT_SAME_DOMAIN|x，centroid(target_domain))

·Probability(SAME_DOMAIN或NOT_SAME_DOMAIN|x，centroid(target_domain))＝softmax(Φ(x，centroid(target_domain)))

·Φ(x，centroid(target_domain))＝highway_networkΩ(W*f(x，centroid(target_domain))+b)，其中，W、b分别是可学习的权重和偏置；Ω是指th f(x，centroid(target_domain))＝concatenation(MUSE(x)的可学习模型参数；

MUSE(centroid(target_domain))；|MUSE(x)-

·MUSE(centroid(target_domain))|；MUSE(x)*MUSE(centroid(target_domain)))。在这种实例中，MUSE用于形成用于成对排名的(u，v，|u-v|，u*v)的表示。

输入话语555的句子嵌入570与每个聚类的每个嵌入表示545之间的相似度或差异可以通过以下方式确定：(i)计算话语的句子嵌入与每个聚类的每个嵌入表示之间的绝对差565，(ii)将绝对差565、输入话语的句子嵌入570、以及每个聚类的嵌入表示545输入到堆叠式高速公路网络，以及(iii)使用堆叠式高速公路网络、绝对差565、输入话语555的句子嵌入570、以及每个聚类的嵌入表示545来确定输入话语555的句子嵌入570与每个聚类的每个嵌入表示545之间的相似度或差异。如图5所示，输入话语555的句子嵌入570与每个聚类的每个嵌入表示545之间的绝对差是通过取输入话语555的句子嵌入570的向量值(例如，V＝[0.1，0.4，-0.5])与由域内数据535的句子嵌入构成的每个聚类的每个嵌入表示545的向量值(例如，U＝[0.3，0.1，0.4])之间的差的绝对值(|U-V|＝[0.2，0.3，0.9]|)来计算的。关于输入话语555是否属于目标域的概率580可以由堆叠式高速公路网络基于所确定的输入话语555的句子嵌入570与每个聚类的每个嵌入表示545之间的相似度或差异来预测。

在其他实施例中，深度学习网络575是具有线性模型和深度神经网络的宽且深的学习网络。线性模型包括使用训练数据集训练的模型参数。训练数据集包括话语的句子嵌入与来自多个域的域内话语的每个聚类的每个嵌入表示之间的绝对差。在使用训练数据集训练线性模型期间，使用假设函数来学习话语的句子嵌入与每个聚类的每个嵌入表示之间的线性关系。在学习线性关系期间，学习多个模型参数以最小化损失函数。深度学习网络包括使用训练数据集训练的模型参数。训练数据集包括来自多个域的域内话语的句子嵌入。在使用训练数据集训练深度学习网络期间，将域内话语的句子嵌入的高维特征转换为较低维向量，所述较低维向量随后与域内话语的特征级联并馈入深度神经网络的隐藏层中，所述较低维向量的值被随机初始化并与多个模型参数一起被学习以最小化损失函数。

一旦经过训练，宽且深的学习网络就可以确定输入话语555的句子嵌入570与每个聚类的每个嵌入表示545之间的相似度或差异。嵌入模型595(例如，MUSE)可以用于通过将包括句子、单词和n元语法在内的自然语言元素映射到数字数组来为输入话语555生成句子嵌入570。每个自然语言元素都表示为向量空间中的单个点。因此，句子嵌入是代表自然语言元素的值的向量。

确定输入话语555的句子嵌入570与每个聚类的每个嵌入表示545之间的相似度或差异可以包括：(i)计算输入话语555的句子嵌入570与每个聚类的每个嵌入表示545之间的绝对差565，(ii)将绝对差565、输入话语565的句子嵌入570、以及每个聚类的嵌入表示545输入到宽且深的学习网络，(iii)使用线性模型和绝对差565来预测关于输入话语555是否属于目标域的宽基概率，以及(iv)使用深度神经网络、输入话语555的句子嵌入570、以及每个聚类的嵌入表示545来确定输入话语555的句子嵌入570与每个聚类的每个嵌入表示545之间的相似度或差异。关于输入话语555是否属于目标域的概率580可以通过使用宽且深的学习网络的最终层来评估宽度概率以及输入话语555的句子嵌入570与每个聚类的每个嵌入表示545之间的相似度或差异来预测。

集成部件515评估概率580和概率550以确定关于输入话语555是否属于目标域的最终概率585，并基于最终概率585将输入话语555分类为聊天机器人的域内或域外。在某些实例中，集成部件515使用以下in_domain_prob函数(in_domain_prob(ensemble,x)＝max(in_domain_prob(cluster-based,x),in_domain_prob(metric-based,x))，其中，in_domain_prob函数鉴于基于聚类的方法和基于度量的方法来返回话语x的域内概率。基本上，如果任一方法表明x在域中，则话语在目标域中；而如果这两种方法都表明x在域外(话语x在域内的一侧上出现错误)，则话语在目标域之外。

用于OOD确定的技术

图6是图示根据某些实施例的用于识别OOD话语的过程600的流程图。图6所描绘的处理可以以由相应系统的一个或多个处理单元(例如，处理器、核)执行的软件(例如，代码、指令、程序)、硬件或其组合实施。软件可以存储在非暂态存储介质上(例如，存储器设备上)。图6所呈现的且下文所描述的方法旨在是说明性的而非限制性的。尽管图6描绘了以特定序列或顺序发生的各个处理步骤，但这并不旨在是限制性的。在某些替代性实施例中，步骤可以以某种不同的顺序执行或者一些步骤还可以并行地执行。在某些实施例中，比如在图1至图5中描绘的实施例中，图6中描绘的处理可以由经训练的模型架构(例如，模型架构500)来执行以识别OOD话语。

在605处，接收话语和聊天机器人(例如，关于图1、图2和图3描述的技能或聊天机器人)的目标域。目标域是针对专注于特定类型任务(比如跟踪库存、提交考勤卡和创建费用报告)的聊天机器人定义的。

在610处，为话语生成句子嵌入。话语的句子嵌入可以使用嵌入模型来生成，所述嵌入模型将包括句子、单词和n元语法在内的自然语言元素映射到数字数组中。每个自然语言元素都表示为向量空间中的单个点。因此，每个句子嵌入都是代表自然语言元素的值的向量。

在615处，为与目标域相关联的域内话语的多个聚类中的每个聚类获得嵌入表示。每个聚类的嵌入表示是聚类中每个域内话语的句子嵌入的平均值。获得每个聚类的嵌入表示可以包括：基于目标域获得域内话语(例如，如果目标域是订购披萨，则域内话语都将涉及与如“I would like to order a cheese pizza(我想订购奶酪披萨)”等订购披萨相关联的话语)；为每个域内话语生成句子嵌入；将每个域内话语的句子嵌入输入到无监督聚类模型中，所述无监督聚类模型被配置为解释所述域内话语并识别所述域内话语的特征空间内的多个聚类；使用所述无监督聚类模型，基于所述句子嵌入的特征与每个聚类内的句子嵌入的特征之间的相似度和差异来将每个域内话语的句子嵌入分类为多个聚类之一；计算所述多个聚类中的每个聚类的质心；以及输出所述多个聚类中的每个聚类的嵌入表示和质心。无监督聚类模型可以是K均值、仿射传播、凝聚聚类、BIRCH、DBSCAN、均值偏移、OPTICS等。

每个域内话语的句子嵌入可以使用嵌入模型来生成，所述嵌入模型将包括句子、单词和n元语法在内的自然语言元素映射到数字数组中。每个自然语言元素都表示为向量空间中的单个点。因此，每个句子嵌入都是代表自然语言元素的值的向量。

在620处，将话语的句子嵌入和每个聚类的嵌入表示输入到具有已学习模型参数的度量学习模型中，所述度量学习模型被配置为提供关于话语是否属于目标域的第一概率。在625处，使用度量学习模型确定话语的句子嵌入与每个聚类的每个嵌入表示之间的相似度或差异。在630处，使用度量学习模型，基于所确定的话语的句子嵌入与每个聚类的每个嵌入表示之间的相似度或差异来预测关于话语是否属于目标域的第一概率。

在一些实施例中，度量学习模型包括具有非线性变换作为门控函数的一部分的堆叠式高速公路网络。确定话语的句子嵌入与每个聚类的每个嵌入表示之间的相似度或差异可以包括：(i)计算话语的句子嵌入与每个聚类的每个嵌入表示之间的绝对差，(ii)将绝对差、话语的句子嵌入、以及每个聚类的嵌入表示输入到堆叠式高速公路网络，以及(iii)使用堆叠式高速公路网络、绝对差、话语的句子嵌入、以及每个聚类的嵌入表示来确定话语的句子嵌入与每个聚类的每个嵌入表示之间的相似度或差异。

可以使用训练数据集来学习堆叠式高速公路网络的模型参数，所述训练数据集包括：(i)话语的句子嵌入，(ii)由来自多个域的域内话语的句子嵌入构成的每个聚类的嵌入表示，以及(iii)话语的句子嵌入与由域内话语的句子嵌入构成的每个聚类的每个嵌入表示之间的绝对差。在使用训练数据集训练度量学习模型期间，将句子嵌入的高维特征和每个聚类的嵌入表示转换为较低维向量，所述较低维向量随后与域内话语的特征级联并馈入深度神经网络的隐藏层中，所述较低维向量的值被随机初始化并与模型参数一起被学习以最小化损失函数。

在其他实施例中，度量学习模型包括具有线性模型和深度神经网络的宽且深的学习网络。确定话语的句子嵌入与每个聚类的每个嵌入表示之间的相似度或差异包括：(i)计算话语的句子嵌入与每个聚类的每个嵌入表示之间的绝对差，(ii)将绝对差、话语的句子嵌入、以及每个聚类的嵌入表示输入到宽且深的学习网络中，(iii)使用线性模型和绝对差来预测关于话语是否属于目标域的宽基概率，以及(iv)使用深度神经网络、话语的句子嵌入、以及每个聚类的嵌入表示来确定话语的句子嵌入与每个聚类的每个嵌入表示之间的相似度或差异。预测第一概率包括：使用宽且深的学习网络的最终层来评估宽度概率以及话语的句子嵌入与每个聚类的每个嵌入表示之间的相似度或差异。

线性模型包括使用训练数据集训练的模型参数。训练数据集包括话语的句子嵌入与来自多个域的域内话语的每个聚类的每个嵌入表示之间的绝对差。在使用训练数据集训练线性模型期间，使用假设函数来学习话语的句子嵌入与每个聚类的每个嵌入表示之间的线性关系。在学习线性关系期间，学习多个模型参数以最小化损失函数。

深度学习网络包括使用训练数据集训练的模型参数。训练数据集包括来自多个域的域内话语的句子嵌入。在使用训练数据集训练深度学习网络期间，将域内话语的句子嵌入的高维特征转换为较低维向量，所述较低维向量随后与域内话语的特征级联并馈入深度神经网络的隐藏层中，所述较低维向量的值被随机初始化并与多个模型参数一起被学习以最小化损失函数。

在635处，将话语的句子嵌入和每个聚类的嵌入表示输入到使用距离或密度算法构建的异常值检测模型中，以用于异常值检测。距离或密度算法可以是Z分数、K均值、DBSCAN、局部异常值检测(LOF)、孤立森林等。

在640处，使用异常值检测模型确定话语的句子嵌入与相邻聚类的嵌入表示之间的距离或密度偏差。在645处，使用异常值检测模型，基于所确定的距离或密度偏差，来预测关于话语是否属于目标域的第二概率。预测可以包括基于话语的句子嵌入与相邻聚类的嵌入表示之间的距离或密度偏差来计算话语的z分数，以及通过将S形函数应用于z分数来确定关于话语是否属于目标域的第二概率。

在650处，评估第一概率和第二概率以确定关于话语是否属于目标域的最终概率。在655处，基于最终概率将话语分类为聊天机器人的域内或域外。从基于聚类的方法和基于度量的方法计算的概率被组合为集成方法，以从基于聚类的方法和基于度量的方法两者中获得最好的结果。在某些实例中，集成方法包括(in_domain_prob(ensemble,x)＝max(in_domain_prob(cluster-based,x),in_domain_prob(metric-based,x))，其中，in_domain_prob函数鉴于基于聚类的方法和基于度量的方法来返回话语x的域内概率。基本上，如果任一方法表明x在域中，则话语在目标域中；而如果这两种方法都表明x在域外(话语x在域内的一侧上出现错误)，则话语在目标域之外。

说明性系统

图7描绘了分布式系统700的简化图。在图示的示例中，分布式系统700包括经由一个或多个通信网络710耦接到服务器712的一个或多个客户端计算设备702、704、706和708。客户端计算设备702、704、706和708可以被配置为执行一个或多个应用程序。

在各种示例中，服务器712可以被适配成运行实现本公开所描述的一个或多个实施例的一个或多个服务或软件应用程序。在某些示例中，服务器712还可以提供可以包括非虚拟环境和虚拟环境的其他服务或软件应用程序。在一些示例中，这些服务可以作为基于web的服务或云服务(如在软件即服务(SaaS)模型下)提供给客户端计算设备702、704、706和/或708的用户。操作客户端计算设备702、704、706和/或708的用户进而可以利用一个或多个客户端应用程序来与服务器712交互以利用这些部件所提供的服务。

在图7所描绘的配置中，服务器712可以包括实施由服务器712执行的功能的一个或多个部件718、720和722。这些部件可以包括可以由一个或多个处理器、硬件部件或其组合执行的软件部件。应了解，可以与分布式系统700不同的各种不同系统配置是可能的。因此，图7所示出的示例是用于实施示例系统的分布式系统的一个示例并且不旨在是限制性的。

用户可以使用客户端计算设备702、704、706和/或708来执行一个或多个应用程序、模型或聊天机器人，所述一个或多个应用程序、模型或聊天机器人可以生成然后可以根据本公开的传授内容实施或服务的一个或多个事件或模型。客户端设备可以提供使客户端设备的用户能够与客户端设备交互的接口。客户端设备还可以经由该接口向用户输出信息。尽管图7描绘了仅四个客户端计算设备，但是可以支持任何数量的客户端计算设备。

客户端设备可以包括各种类型的计算系统，如便携式手持设备、如个人计算机和膝上型计算机等通用计算机、工作站计算机、可穿戴设备、游戏系统、瘦客户端、各种消息传递设备、传感器或其他感测设备等。这些计算设备可以运行各种类型和版本的软件应用程序和操作系统(例如，Microsoft

Apple

或类UNIX操作系统、Linux或类Linux操作系统(如Google Chrome^TMOS))，包括各种移动操作系统(例如，Microsoft Windows

Windows

Android^TM、

Palm

)。便携式手持设备可以包括蜂窝电话、智能电话(例如，

)、平板计算机(例如，

)、个人数字助理(PDA)等。可穿戴设备可以包括Google

头戴式显示器以及其他设备。游戏系统可以包括各种手持游戏设备、支持因特网的游戏设备(例如，有或没有

姿势输入设备的Microsoft

游戏控制台、Sony

系统、由

提供的各种游戏系统、以及其他)等。客户端设备可以能够执行各种不同的应用程序，如各种因特网相关应用程序、通信应用程序(例如，电子邮件应用程序、短消息服务(SMS)应用程序)并可以使用各种通信协议。

(多个)网络710可以是本领域技术人员所熟悉的可以使用各种可用协议中的任何一种支持数据通信的任何类型的网络，所述可用协议包括但不限于TCP/IP(传输控制协议/因特网协议)、SNA(系统网络架构)、IPX(因特网分组交换)、

等。仅通过示例的方式，(多个)网络710可以是局域网(LAN)、基于以太网的网络、令牌环、广域网(WAN)、因特网、虚拟网络、虚拟私人网络(VPN)、内部网、外部网、公共交换电话网(PSTN)、红外线网、无线网(例如，根据电气与电子协会(IEEE)1002.11协议套件、

和/或任何其他无线协议中的任一种协议操作的网络)和/或这些网络和/或其他网络的任何组合。

服务器712可以由以下各项构成：一个或多个通用计算机、专用服务器计算机(通过示例的方式包括PC(个人计算机)服务器、

服务器、中档服务器、大型计算机、机架式服务器等)、服务器群、服务器集群、或任何其他适当的布置和/或组合。服务器712可以包括运行虚拟操作系统的一个或多个虚拟机或涉及虚拟化的其他计算架构，比如逻辑存储设备的可以被虚拟化以维护服务器的虚拟存储设备的一个或多个灵活池。在各种示例中，服务器712可以被适配成运行提供前述公开内容所描述的功能的一个或多个服务或软件应用程序。

服务器712中的计算系统可以运行一个或多个操作系统，所述一个或多个操作系统包括以上所讨论的那些操作系统中的任何一个操作系统以及任何可商购获得的服务器操作系统。服务器712也可以运行各种附加服务器应用程序和/或中间层应用程序中的任何一种应用程序，包括HTTP(超文本运输协议)服务器、FTP(文件传送协议)服务器、CGI(通用网关接口)服务器、

服务器、数据库服务器等。示例性数据库服务器包括但不限于可从

(国际商业机器公司)等商购获得的那些数据库服务器。

在一些实施方式中，服务器712可以包括一个或多个应用程序以分析并合并从客户端计算设备702、704、706和708的用户接收的数据馈送和/或事件更新。作为示例，数据馈送和/或事件更新可以包括但不限于

馈送、

更新或从一个或多个第三方信息源和连续数据流接收的实时更新，所述实时更新可以包括与传感器数据应用程序、财务收报机、网络性能测量工具(例如，网络监测和流量管理应用程序)、点击流分析工具、汽车交通监测等相关的实时事件。服务器712还可以包括一个或多个应用程序以经由客户端计算设备702、704、706和708的一个或多个显示设备来显示数据馈送和/或实时事件。

分布式系统700还可以包括一个或多个数据储存库714、716。在某些示例中，这些数据储存库可以用于存储数据和其他信息。例如，数据储存库714、716中的一个或多个可以用于存储信息(如与聊天机器人性能或生成的模型有关的信息)以供服务器712在执行根据各种实施例的各种功能时使用的聊天机器人使用。数据储存库714、716可以驻留在各种位置。例如，服务器712所使用的数据储存库可以在服务器712本地或者可以远离服务器712并经由基于网络的或专用的连接与服务器712通信。数据储存库714、716可以是不同类型。在某些示例中，服务器712所使用的数据储存库可以是数据库，例如关系数据库，如由Oracle

和其他供应商提供的数据库。这些数据库中的一个或多个数据库可以被适配成响应于SQL格式的命令来实现数据到以及从数据库的存储、更新和取得。

在某些示例中，数据储存库714、716中的一个或多个数据储存库还可以被应用程序用来存储应用程序数据。应用程序所使用的数据储存库可以是不同类型，如例如键值存储储存库、对象存储储存库或由文件系统支持的通用存储储存库。

在某些示例中，本公开所描述的功能可以通过云环境作为服务提供。图8是根据某些示例的各种服务在其中可以作为云服务提供的基于云的系统环境的简化框图。在图8所描绘的示例中，云基础设施系统802可以提供可以由用户使用一个或多个客户端计算设备804、806和808请求的一个或多个云服务。云基础设施系统802可以包括一个或多个计算机和/或服务器，所述一个或多个计算机和/或服务器可以包括以上针对服务器812所描述的那些计算机和/或服务器。云基础设施系统802中的计算机可以被组织成通用计算机、专用服务器计算机、服务器群、服务器集群或任何其他适当的布置和/或组合。

(多个)网络810可以促进客户端804、806和808与云基础设施系统802之间的数据通信和交换。(多个)网络810可以包括一个或多个网络。网络可以是相同或不同的类型。(多个)网络810可以支持一个或多个通信协议(包括有线和/或无线协议)以促进通信。

图8所描绘的示例仅是云基础设施系统的一个示例并且不旨在是限制性的。应了解，在一些其他示例中，云基础设施系统802可以具有比图8所描绘的那些部件更多或更少的部件、可以组合两个或更多个部件或者可以具有不同的部件配置或布置。例如，尽管图8描绘了三个客户端计算设备，但是在替代性示例中，可以支持任何数量的客户端计算设备。

术语云服务通常用于指代通过服务提供商的系统(例如，云基础设施系统802)按需且经由如因特网等通信网络变得可用于用户的服务。通常，在公共云环境中，构成云服务提供商的系统的服务器和系统与客户自身的室内服务器和系统不同。云服务提供商的系统由云服务提供商管理。因此，客户可以使自身利用由云服务提供商提供的云服务，而不必针对服务购买单独的许可证、支持或硬件和软件资源。例如，云服务提供商的系统可以托管应用程序，并且用户可以通过因特网按需订购并使用应用程序，而用户不必购买用于执行应用程序的基础设施资源。云服务被设计成提供对应用程序、资源和服务的容易的、可伸缩的访问。几个提供商提供云服务。例如，由加利福尼亚州红木海岸(Redwood Shores,California)的Oracle

提供如中间件服务、数据库服务、Java云服务以及其他服务等几种云服务。

在某些示例中，云基础设施系统802可以使用不同的模型(如在软件即服务(SaaS)模型、平台即服务(PaaS)模型、基础设施即服务(IaaS)模型和其他模型(包括混合服务模型)下)提供一个或多个云服务。云基础设施系统802可以包括实现对各种云服务的供给的一套应用程序、中间件、数据库和其他资源。

SaaS模型使应用程序或软件能够作为服务通过如因特网等通信网络输送给客户，而客户不必购买底层应用程序的硬件或软件。例如，可以使用SaaS模型为客户提供对由云基础设施系统802托管的按需应用程序的访问。Oracle

提供的SaaS服务的示例包括但不限于用于人力资源/资本管理、客户关系管理(CRM)、企业资源规划(ERP)、供应链管理(SCM)、企业绩效管理(EPM)、分析服务、社交应用程序以及其他等的各种服务。

IaaS模型通常用于将基础设施资源(例如，服务器、存储、硬件和联网资源)作为云服务提供给客户以提供弹性计算和存储能力。由Oracle

提供各种IaaS服务。

PaaS模型通常用于提供使客户能够开发、运行并管理应用程序和服务而客户不必采购、构建或维护这种资源的平台和环境资源作为服务。由Oracle

提供的PaaS服务的示例包括但不限于Oracle Java云服务(JCS)、Oracle数据库云服务(DBCS)、数据管理云服务、各种应用程序开发解决方案服务、以及其他服务。

云服务通常是以按需自助服务基础、基于订阅、可弹性伸缩、可靠、高度可用且安全的方式提供的。例如，客户可以经由订阅订单来订购由云基础设施系统802提供的一个或多个服务。然后，云基础设施系统802执行处理以提供客户的订阅订单中请求的服务。例如，用户可以使用话语来请求云基础设施系统采取如上文所描述的某个动作(例如，意图)和/或为如本文所描述的聊天机器人系统提供服务。云基础设施系统802可以被配置为提供一个或甚至多个云服务。

云基础设施系统802可以经由不同的部署模型提供云服务。在公共云模型中，云基础设施系统802可以由第三方云服务提供商拥有，并且云服务被提供给任何一般的公众客户，其中，所述客户可以是个人或企业。在某些其他示例中，在私有云模型下，云基础设施系统802可以在组织内(例如，在企业组织内)操作并且服务被提供给组织内的客户。例如，客户可以是如人力资源部门、薪资部门等企业的各个部门或甚至是企业内的个人。在某些其他示例中，在社区云模型下，云基础设施系统802和所提供的服务可以由有关的社区中的几个组织共享。也可以使用如以上所提到的模型的混合等各种其他模型。

客户端计算设备804、806和808可以是不同类型的(如图7所描绘的客户端计算设备702、704、706和708)并且可以能够操作一个或多个客户端应用程序。用户可以使用客户端设备与云基础设施系统802交互，如请求由云基础设施系统802提供的服务。例如，用户可以使用客户端设备从如本公开所描述的聊天机器人请求信息或动作。

在一些示例中，由云基础设施系统802执行的用于提供服务的处理可以涉及模型训练和部署。此分析可以涉及使用、分析并操纵数据集来训练并部署一个或多个模型。该分析可以由一个或多个处理器执行，从而可能并行地处理数据、使用数据执行模拟等。例如，大数据分析可以由云基础设施系统802执行以用于针对聊天机器人系统生成并训练一个或多个模型。用于该分析的数据可以包括结构化数据(例如，存储在数据库中或根据结构化模型结构化的数据)和/或非结构化数据(例如，数据块(二进制大对象))。

如图8中的示例所描绘的，云基础设施系统802可以包括被用于促进供给由云基础设施系统802提供的各种云服务的基础设施资源830。基础设施资源830可以包括例如处理资源、存储或存储器资源、联网资源等。在某些示例中，可用于服务从应用程序请求的存储的存储虚拟机可以是云基础设施系统802的一部分。在其他示例中，存储虚拟机可以是不同系统的一部分。

在某些示例中，为了促进这些资源的高效供给以支持由云基础设施系统802为不同客户提供的各种云服务，资源可以绑定到资源组或资源模块(也称为“群(pod)”)中。每个资源模块或群可以包括一种或多种类型的资源的预先集成且优化的组合。在某些示例中，可以针对不同类型的云服务预先供给不同的群。例如，可以针对数据库服务供给第一组群、可以针对Java服务供给第二组群(所述第二组群可以包括与第一组群中的群不同的资源组合)等。对于一些服务，被分配用于供给服务的资源可以在服务之间共享。

云基础设施系统802自身可以在内部使用由云基础设施系统802的不同部件共享并且促进云基础设施系统802供给服务的服务832。这些内部共享服务可以包括但不限于安全和身份服务、整合服务、企业储存库服务、企业管理器服务、病毒扫描和白名单服务、高度可用性、备份和恢复服务、用于实现云支持的服务、电子邮件服务、通知服务、文件传送服务等。

云基础设施系统802可以包括多个子系统。这些子系统可以以软件或硬件或其组合实施。如图8所描绘的，子系统可以包括使得云基础设施系统802的用户或客户能够与云基础设施系统802交互的用户接口子系统812。用户接口子系统812可以包括各种不同的接口，如web接口814、在线商店接口816(其中，广告并且客户可购买由云基础设施系统802提供的云服务)和其他接口818。例如，客户可以使用客户端设备请求(服务请求834)由云基础设施系统802使用接口814、816和818中的一个或多个接口提供的一个或多个服务。例如，客户可以访问在线商店、浏览由云基础设施系统802提供的云服务并且针对客户希望订阅的由云基础设施系统802提供的一个或多个服务下订阅订单。服务请求可以包括标识客户和客户期望订阅的一个或多个服务的信息。例如，客户可以针对由云基础设施系统802提供的服务下订阅订单。作为订单的一部分，客户可以提供识别服务要针对其提供的聊天机器人系统的信息并且可选地为聊天机器人系统提供一个或多个凭证。

在某些示例(如图8所描绘的示例)中，云基础设施系统802可以包括被配置成处理新订单的订单管理子系统(OMS)820。作为该处理的一部分，OMS 820可以被配置为：为客户创建账户(如果尚未创建的话)；从客户接收要用于向客户开具账单以向客户提供所请求的服务的账单和/或计费信息；验证客户信息；在验证之后，为客户预订订单；并且策划各种工作流程来准备订单以进行供给。

一旦被正确地验证，那么，OMS 820就可以调用被配置成为订单供给资源(包括处理资源、存储器资源和联网资源)的订单供给子系统(OPS)824。供给可以包括为订单分配资源并配置资源以促进客户订单所请求的服务。为订单供给资源的方式和所供给的资源的类型可以取决于客户已经订购的云服务的类型。例如，根据一个工作流程，OPS 824可以被配置为确定正在请求的特定云服务并且识别可能已经为所述特定云服务预先配置的群的数量。为订单分配的群的数量可以取决于所请求服务的大小/量/层级/范围。例如，要分配的群的数量可以基于服务所要支持的用户的数量、正在请求的服务的持续时间等来确定。然后，可以为特定的请求客户定制分配的群以用于提供所请求服务。

在某些示例中，如上文所描述的设置阶段处理可以作为供给过程的一部分由云基础设施系统802来执行。云基础设施系统802可以生成应用程序ID并从云基础设施系统802自身所提供的存储虚拟机中或从除云基础设施系统802以外的其他系统所提供的存储虚拟机中为应用程序选择存储虚拟机。

云基础设施系统802可以向请求客户发送回应或通知844，以指示何时所请求服务现在已准备好使用。在一些实例中，可以向客户发送使客户能够开始使用和利用所请求服务的益处的信息(例如，链接)。在某些示例中，对于请求服务的客户，回应可以包括由云基础设施系统802生成的聊天机器人系统ID和识别由云基础设施系统802对应于聊天机器人系统ID为聊天机器人系统选择的聊天机器人系统的信息。

云基础设施系统802可以向多个客户提供服务。对于每个客户，云基础设施系统802负责管理与从客户接收的一个或多个订阅订单有关的信息、维护与订单相关的客户数据并且向客户提供所请求服务。云基础设施系统802还可以收集关于客户使用所订阅服务的使用情况统计数据。例如，可以收集所使用的存储量、所传送的数据量、用户的数量以及系统开机时间量和系统停机时间量等的统计数据。可以使用该使用情况信息向客户开具账单。可以例如以月为周期完成开具账单。

云基础设施系统802可以并行地向多个客户提供服务。云基础设施系统802可以存储这些客户的信息(可能包括专有信息)。在某些示例中，云基础设施系统802包括被配置成管理客户信息并提供对所管理信息的分离使得与一个客户有关的信息不能被另一个客户访问的身份管理子系统(IMS)828。IMS 828可以被配置为提供如身份服务等各种安全有关服务，如信息访问管理、认证和授权服务、用于管理客户身份和角色以及相关功能的服务等。

图9图示了计算机系统900的示例。在一些示例中，计算机系统900可以用于实施分布式环境内的任何数字助理或聊天机器人系统以及上文所描述的各种服务器和计算机系统。如图9所示，计算机系统900包括各种子系统，包括经由总线子系统902与多个其他子系统通信的处理子系统904。这些其他子系统可以包括处理加速单元906、I/O子系统908、存储子系统918和通信子系统924。存储子系统918可以包括非暂态计算机可读存储介质，包括存储介质922和系统存储器910。

总线子系统902提供用于允许计算机系统900的各个部件和子系统按预期彼此通信的机构。虽然总线子系统902被示意性地示出为单个总线，但是总线子系统的替代性示例可以利用多个总线。总线子系统902可以是包括存储器总线或存储器控制器、外围总线、使用各种总线架构中的任何一种的局部总线等的若干种类型的总线结构中的任何一种。例如，这种架构可以包括工业标准架构(ISA)总线、微通道架构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线以及外围部件互连(PCI)总线(所述PCI总线可以被实施为被制造成IEEE P1386.1标准的夹层(Mezzanine)总线)等。

处理子系统904控制计算机系统900的操作并且可以包括一个或多个处理器、专用集成电路(ASIC)或现场可编程门阵列(FPGA)。处理器可以包括单核处理器或多核处理器。计算机系统900的处理资源可以被组织成一个或多个处理单元932、934等。处理单元可以包括一个或多个处理器、来自相同或不同处理器的一个或多个核、核和处理器的组合或核和处理器的其他组合。在一些示例中，处理子系统904可以包括如图形处理器、数字信号处理器(DSP)等一个或多个专用协处理器。在一些示例中，处理子系统904的处理单元中的一些或全部可以使用如专用集成电路(ASIC)或现场可编程门阵列(FPGA)等定制电路来实施。

在一些示例中，处理子系统904中的处理单元可以执行存储在系统存储器910内或计算机可读存储介质922上的指令。在各种示例中，处理单元可以执行各种程序或代码指令并且可以维护多个同时执行的程序或过程。在任何给定时间，要执行的程序代码中的一些或全部可以驻留在系统存储器910中和/或计算机可读存储介质922上(潜在地包括驻留在一个或多个存储设备上)。通过适合的编程，处理子系统904可以提供上文所描述的各种功能。在计算机系统900在执行一个或多个虚拟机的实例中，可以向每个虚拟机分配一个或多个处理单元。

在某些示例中，可以可选地提供处理加速单元906以用于执行定制处理或用于卸载处理子系统904所执行的处理中的一些处理，从而加速计算机系统900所执行的总体处理。

I/O子系统908可以包括用于向计算机系统900输入信息和/或用于从或经由计算机系统900输出信息的设备和机构。通常，使用术语输入设备旨在包括用于向计算机系统900输入信息的所有可能类型的设备和机构。用户接口输入设备可以包括例如键盘、如鼠标或轨迹球等指向设备、合并到显示器中的触摸板或触摸屏、滚轮、点击轮、拨号盘、按钮、开关、小键盘、具有话音命令识别系统的音频输入设备、麦克风以及其他类型的输入设备。用户接口输入设备还可以包括运动感测和/或姿势识别设备，如使用户能够控制输入设备并与输入设备交互的Microsoft

运动传感器、Microsoft

360游戏控制器、提供用于使用姿势和口述命令接收输入的界面的设备。用户接口输入设备还可以包括眼部姿势识别设备，如检测来自用户的眼部活动(例如，在拍照和/或进行菜单选择时“眨眼”)并将眼部姿势转化为到输入设备(如Google

)的输入的Google

眨眼检测器。另外，用户接口输入设备可以包括使用户能够通过声音命令与声音识别系统(例如，

导航器)交互的声音识别感测设备。

用户接口输入设备的其他示例包括但不限于三维(3D)鼠标、操纵杆或指向杆、游戏手柄和图形板、以及音频/视觉设备(如扬声器、数码相机、数码摄像机、便携式媒体播放器、网络摄像机、图像扫描仪、指纹扫描仪、条形码读取器3D扫描仪、3D打印机、激光测距仪、眼睛注视跟踪设备)。另外，用户接口输入设备可以包括例如医学成像输入设备，如计算机断层扫描、磁共振成像、正电子发射断层扫描和医学超声检查设备。用户接口输入设备还可以包括例如音频输入设备，如MIDI键盘、数码乐器等。

通常，使用术语输出设备旨在包括用于从计算机系统900向用户或其他计算机输出信息的所有可能类型的设备和机构。用户接口输出设备可以包括显示子系统、指示灯或如音频输出设备等非视觉显示器。显示子系统可以是阴极射线管(CRT)、平板设备(如使用液晶显示器(LCD)或等离子显示器的平板设备)、投影设备、触摸屏等。例如，用户接口输出设备可以包括但不限于在视觉上传达文本、图形和音频/视频信息的各种显示设备，如监视器、打印机、扬声器、头戴式耳机、汽车导航系统、绘图仪、话音输出设备和调制解调器。

存储子系统918提供用于存储计算机系统900所使用的信息和数据的储存库或数据存储。存储子系统918提供用于存储提供一些示例的功能的基本编程和数据构造的有形非暂态计算机可读存储介质。存储子系统918可以存储当由处理子系统904执行时提供以上所描述的功能的软件(例如，程序、代码模块、指令)。软件可以由处理子系统904的一个或多个处理单元执行。存储子系统918还可以根据本公开的传授内容提供认证。

存储子系统918可以包括一个或多个非暂态存储器设备，所述一个或多个非暂态存储器设备包括易失性存储器设备和非易失性存储器设备。如图9所示，存储子系统918包括系统存储器910和计算机可读存储介质922。系统存储器910可以包括多个存储器，包括用于在程序执行期间存储指令和数据的易失性主随机存取存储器(RAM)和其中存储有固定指令的非易失性只读存储器(ROM)或闪速存储器。在一些实施方式中，包含在启动期间帮助计算机系统900内的元件之间传送信息的基本例程的基本输入/输出系统(BIOS)通常可以存储在ROM中。RAM通常包含目前由处理子系统904操作并执行的数据和/或程序模块。在一些实施方式中，系统存储器910可以包括如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)等多种不同类型的存储器。

通过示例而非限制的方式，如图9所描绘的，系统存储器910可以加载正在执行的应用程序912(所述应用程序可以包括如Web浏览器、中间层应用程序、关系数据库管理系统(RDBMS)等各种应用程序)、程序数据914和操作系统916。通过示例的方式，操作系统916可以包括各种版本的Microsoft

Apple

和/或Linux操作系统、各种可商购获得的

或类UNIX操作系统(包括但不限于各种GNU/Linux操作系统、Google

OS等)和/或如iOS、

电话、

OS、

OS、

OS操作系统等移动操作系统、以及其他操作系统。

计算机可读存储介质922可以存储提供一些示例的功能的编程和数据构造。计算机可读介质922可以为计算机系统900提供对计算机可读指令、数据结构、程序模块和其他数据的存储。当由处理子系统904执行时提供以上所描述的功能的软件(程序、代码模块、指令)可以存储在存储子系统918中。通过示例的方式，计算机可读存储介质922可以包括如硬盘驱动器、磁盘驱动器、光盘驱动器(如CD ROM、DVD、

盘或其他光学介质)等非易失性存储器。计算机可读存储介质922可以包括但不限于

驱动器、闪速存储器卡、通用串行总线(USB)闪速存储器驱动器、安全数字(SD)卡、DVD盘、数字录像带等。计算机可读存储介质922还可以包括如基于闪速存储器的固态驱动器(SSD)、企业级闪速存储器驱动器、固态ROM等基于非易失性存储器的SSD、基于如固态RAM、动态RAM、静态RAM等易失性存储器的SSD、基于DRAM的SSD、磁阻RAM(MRAM)SSD以及使用DRAM和基于闪速存储器的SSD的组合的混合SSD。

在某些示例中，存储子系统918还可以包括可以进一步连接到计算机可读存储介质922的计算机可读存储介质读取器920。读取器920可以从如盘、闪速存储器驱动器等存储器设备接收数据并且被配置为从所述存储器设备读取数据。

在某些示例中，计算机系统900可以支持虚拟化技术，包括但不限于对处理和存储器资源的虚拟化。例如，计算机系统900可以提供对执行一个或多个虚拟机的支持。在某些示例中，计算机系统900可以执行如促进对虚拟机的配置和管理的管理程序等程序。每个虚拟机可以分配有存储器、计算(例如，处理器、核)、I/O和联网资源。每个虚拟机通常独立于其他虚拟机运行。虚拟机通常运行其自身的操作系统，所述操作系统可以与由计算机系统900所执行的其他虚拟机执行的操作系统相同或不同。因此，多个操作系统可以潜在地由计算机系统900同时运行。

通信子系统924提供到其他计算机系统和网络的接口。通信子系统924用作用于从其他系统接收数据并且从计算机系统900向其他系统传输数据的接口。例如，通信子系统924可以使得计算机系统900能够经由因特网构建到一个或多个客户端设备的通信通道以用于从客户端设备接收信息并向客户端设备发送信息。例如，当计算机系统900用于实施图1所描绘的机器人系统120时，通信子系统可以用于与针对应用程序选择的聊天机器人系统通信。

通信子系统924可以支持有线通信协议和/或无线通信协议两者。在某些示例中，通信子系统924可以包括用于访问无线声音和/或数据网络的射频(RF)收发器部件(例如，使用蜂窝电话技术、如3G、4G或EDGE(全球演进增强型数据速率)等先进的数据网络技术、WiFi(IEEE 802.XX家庭标准、或其他移动通信技术、或其任何组合)、全球定位系统(GPS)接收器部件和/或其他部件。在一些示例中，除了无线接口之外或替代无线接口，通信子系统924可以提供有线网络连接性(例如，以太网)。

通信子系统924可以接收并发射各种形式的数据。在一些示例中，除了其他形式之外，通信子系统924还可以接收结构化和/或非结构化数据馈送926、事件流928、事件更新930等形式的输入通信。例如，通信子系统924可以被配置成从社交媒体网络和/或其他通信服务的用户实时地接收(或发送)数据馈送926，如

馈送、

更新、web馈送(如丰富站点摘要(RSS)馈送)和/或来自一个或多个第三方信息源的实时更新。

在某些示例中，通信子系统924可以被配置成接收连续数据流形式的数据，所述连续数据流可以包括(可以没有显式结束的本质上连续的或无界的)实时事件的事件流928和/或事件更新930。生成连续数据的应用程序的示例可以包括例如传感器数据应用程序、财务收报机、网络性能测量工具(例如，网络监测和流量管理应用程序)、点击流分析工具、汽车交通监测等。

通信子系统924还可以被配置为将数据从计算机系统900传送到其他计算机系统或网络。可以将数据以如结构化和/或非结构化数据馈送926、事件流928、事件更新930等各种不同的形式传送到可以与耦接至计算机系统900的一个或多个流数据源计算机通信的一个或多个数据库。

计算机系统900可以是各种类型中的一种，包括手持便携式设备(例如，

蜂窝电话、

计算平板计算机、PDA)、可穿戴设备(例如，Google

头戴式显示器)、个人计算机、工作站、主机、自助服务终端、服务器机架、或任何其他数据处理系统。由于计算机和网络的不断变化的性质，对图9所描绘的计算机系统900的描述旨在仅作为具体示例。具有比图9所描绘的系统更多或更少的部件的许多其他配置是可能的。基于本公开和本文所提供的传授内容，应了解，有其他方式和/或方法来实施各种示例。

虽然已经描述了具体示例，但是各种修改、更改、替代性构造和等同物是可能的。示例不局限于在某些具体数据处理环境中的操作，而是自由地在多个数据处理环境中操作。另外，尽管已经使用特定系列的事务和步骤描述了某些示例，但是对于本领域技术人员而言应当显而易见的是，这不旨在是限制性的。虽然一些流程图将操作描述为顺序过程，但是许多操作可以并行地或同时地执行。另外，可以重新布置操作的顺序。过程可以具有图中未包括的另外的步骤。可以单独地或联合地使用上文所描述的示例的各种特征和方面。

进一步地，虽然已经使用硬件和软件的特定组合描述了某些示例，但是应当认识到，硬件和软件的其他组合也是可能的。某些示例可以仅以硬件或仅以软件或使用其组合实施。本文所描述的各种过程可以在相同处理器或不同处理器上以任何组合实施。

在将设备、系统、部件或模块描述为被配置成执行某些操作或功能的情况下，这种配置可以例如通过将电子电路设计成执行操作、通过对可编程电子电路(如微处理器)进行编程以执行操作(如通过执行计算机指令或代码)或通过被编程成执行存储在非暂态存储器介质上的代码或指令的处理器或核或其任何组合来完成。过程可以使用包括但不限于用于过程间通信的传统技术的各种技术进行通信，并且不同的过程对可以使用不同的技术，或者相同的过程对可以在不同的时间使用不同的技术。

本公开中给出了具体细节以提供对示例的透彻理解。然而，可以在没有这些具体细节的情况下实践示例。例如，已经示出了公知的电路、过程、算法、结构和技术，而没有不必要的细节，以避免模糊示例。此描述仅提供了示例示例并且不旨在限制其他示例的范围、适用性或配置。而是，先前对示例的描述将为本领域技术人员提供用于实施各种示例的使能描述。可以对元件的功能和布置作出各种改变。

因此，应当从说明性而非限制性意义上看待本说明书和附图。然而，将明显的是，在不脱离权利要求中阐述的更广泛的精神和范围的情况下，可以对其作出添加、减少、删除以及其他修改和改变。因此，虽然已经描述了具体示例，但是这些示例不旨在是限制性的。各种修改和等同物均在以下权利要求的范围内。

在前述说明书中，参考本公开的具体示例描述了本公开的各方面，但是本领域技术人员将认识到，本公开并不限于此。可以单独地或联合地使用上文所描述的公开的各种特征和方面。进一步地，在不脱离说明书的更广泛的精神和范围的情况下，可以在除了本文所描述的那些环境和应用程序外的任何数量的环境和应用环境中利用示例。因此，说明书和附图应被视为说明性的而非限制性的。

在前述描述中，出于说明的目的，以特定顺序描述了方法。应当了解，在替代性示例中，可以以与所描述的顺序不同的顺序来执行方法。还应当了解，上文所描述的方法可以由硬件部件执行或者可以体现在机器可执行指令的序列中，所述指令可以用于使机器(如用所述指令编程的通用或专用处理器或逻辑电路)执行所述方法。这些机器可执行指令可以存储在一个或多个机器可读介质上，如CD-ROM或其他类型的光盘、软盘、ROM、RAM、EPROM、EEPROM、磁卡或光卡、闪速存储器或适合于存储电子指令的其他类型的机器可读介质。可替代地，方法可以由硬件和软件的组合来执行。

在将部件描述为被配置成执行某些操作的情况下，这种配置可以例如通过设计用于执行操作的电子电路或其他硬件、通过对用于执行操作的可编程电子电路(例如，微处理器或其他适合的电子电路)进行编程或其任何组合来完成。

尽管本文已经详细描述了本申请的说明性示例，但是应当理解，可以以其他方式不同地体现并采用本发明概念，并且所附权利要求旨在被解释为包括这种变化，受现有技术限制的情况除外。

Claims

1.一种方法，所述方法包括：

接收话语和聊天机器人的目标域；

为所述话语生成句子嵌入；

获得与所述目标域相关联的域内话语的多个聚类的每个聚类的嵌入表示，其中，每个聚类的所述嵌入表示是所述聚类中每个域内话语的句子嵌入的平均值；

将所述话语的所述句子嵌入和每个聚类的所述嵌入表示输入到具有已学习模型参数的度量学习模型中，所述度量学习模型被配置为提供关于所述话语是否属于所述目标域的第一概率；

使用所述度量学习模型确定所述话语的所述句子嵌入与每个聚类的每个嵌入表示之间的相似度或差异；

使用所述度量学习模型，基于所确定的所述话语的所述句子嵌入与每个聚类的每个嵌入表示之间的相似度或差异来预测关于所述话语是否属于所述目标域的所述第一概率；

将所述话语的所述句子嵌入和每个聚类的所述嵌入表示输入到使用距离或密度算法构建的异常值检测模型中以进行异常值检测；

使用所述异常值检测模型来确定所述话语的所述句子嵌入与相邻聚类的嵌入表示之间的距离或密度偏差；

使用所述异常值检测模型，基于所确定的距离或密度偏差来预测关于所述话语是否属于所述目标域的第二概率；

评估所述第一概率和所述第二概率以确定关于所述话语是否属于所述目标域的最终概率；以及

基于所述最终概率将所述话语分类为所述聊天机器人的域内或域外。

2.如权利要求1所述的方法，其中，所述获得每个聚类的所述嵌入表示包括：

基于所述目标域获得所述域内话语；

为每个域内话语生成句子嵌入；

将每个域内话语的所述句子嵌入输入到无监督聚类模型中，所述无监督聚类模型被配置为解释所述域内话语并识别所述域内话语的特征空间内的所述多个聚类；

使用所述无监督聚类模型，基于所述句子嵌入的特征与每个聚类内的句子嵌入的特征之间的相似度和差异来将每个域内话语的所述句子嵌入分类为所述多个聚类之一；

计算所述多个聚类中的每个聚类的质心；以及

输出所述多个聚类中的每个聚类的所述嵌入表示和所述质心。

3.如权利要求1所述的方法，进一步包括：

基于所述话语的所述句子嵌入与所述相邻聚类的所述嵌入表示之间的所述距离或密度偏差，计算所述话语的z分数；以及

通过将S形函数应用于所述z分数来确定关于所述话语是否属于所述目标域的所述第二概率。

4.如权利要求1所述的方法，其中，所述话语的所述句子嵌入是使用嵌入模型生成的，所述嵌入模型将包括句子、单词和n元语法的自然语言元素映射到数字数组中，并且其中，所述自然语言元素中的每一个被表示为向量空间中的单个点。

5.如权利要求1所述的方法，其中：

所述确定所述话语的所述句子嵌入与每个聚类的每个嵌入表示之间的所述相似度或差异包括：(i)计算所述话语的所述句子嵌入与每个聚类的每个嵌入表示之间的绝对差，(ii)将所述绝对差、所述话语的所述句子嵌入、以及每个聚类的所述嵌入表示输入到宽且深的学习网络中，其中，所述宽且深的学习网络包括线性模型和深度神经网络，(iii)使用所述线性模型和所述绝对差来预测关于所述话语是否属于所述目标域的宽基概率，以及(iv)使用所述深度神经网络、所述话语的所述句子嵌入、以及每个聚类的所述嵌入表示来确定所述话语的所述句子嵌入与每个聚类的每个嵌入表示之间的所述相似度或差异；并且

所述预测所述第一概率包括：使用所述宽且深的学习网络的最终层来评估所述宽度概率以及所述话语的所述句子嵌入与每个聚类的每个嵌入表示之间的所述相似度或差异。

6.如权利要求5所述的方法，其中：

所述线性模型包括使用训练数据集训练的多个模型参数；

所述训练数据集包括话语的句子嵌入与来自多个域的域内话语的每个聚类的每个嵌入表示之间的绝对差；

在使用所述训练数据集训练所述线性模型期间，使用假设函数来学习所述话语的所述句子嵌入与每个聚类的每个嵌入表示之间的线性关系；以及

在所述学习所述线性关系期间，所述多个模型参数被学习以最小化损失函数。

7.如权利要求5所述的方法，其中：

所述深度学习网络包括使用训练数据集训练的多个模型参数；

所述训练数据集包括来自多个域的域内话语的句子嵌入；并且

在使用所述训练数据集训练所述深度学习网络期间，所述域内话语的所述句子嵌入的高维特征被转换为较低维向量，所述较低维向量随后与来自所述域内话语的特征级联并被馈入所述深度神经网络的隐藏层中，所述较低维向量的值被随机初始化并与所述多个模型参数一起被学习以最小化损失函数。

8.一种在非暂态机器可读存储介质中有形地体现的计算机程序产品，所述计算机程序产品包括被配置为使一个或多个数据处理器执行包括以下各项的动作的指令：

接收话语和聊天机器人的目标域；

为所述话语生成句子嵌入；

9.如权利要求8所述的计算机程序产品，其中，所述获得每个聚类的所述嵌入表示包括：

基于所述目标域获得所述域内话语；

为每个域内话语生成句子嵌入；

计算所述多个聚类中的每个聚类的质心；以及

10.如权利要求8所述的计算机程序产品，其中，所述动作进一步包括：

11.如权利要求8所述的计算机程序产品，其中，所述话语的所述句子嵌入是使用嵌入模型生成的，所述嵌入模型将包括句子、单词和n元语法的自然语言元素映射到数字数组中，并且其中，所述自然语言元素中的每一个被表示为向量空间中的单个点。

12.如权利要求8所述的方法，其中：

13.如权利要求12所述的方法，其中：

所述线性模型包括使用训练数据集训练的多个模型参数；

在使用所述训练数据集训练所述线性模型期间，使用假设函数来学习所述话语的所述句子嵌入与每个聚类的每个嵌入表示之间的线性关系；并且

14.如权利要求12所述的方法，其中：

15.一种系统，包括：

一个或多个数据处理器；以及

包含指令的非暂态计算机可读存储介质，所述指令当在所述一个或多个数据处理器上执行时，使所述一个或多个数据处理器执行包括以下各项的动作：

接收话语和聊天机器人的目标域；

为所述话语生成句子嵌入；

16.如权利要求15所述的系统，其中，所述获得每个聚类的所述嵌入表示包括：

基于所述目标域获得所述域内话语；

为每个域内话语生成句子嵌入；

计算所述多个聚类中的每个聚类的质心；以及

17.如权利要求15所述的系统，其中，所述动作进一步包括：

18.如权利要求15所述的系统，其中，所述话语的所述句子嵌入是使用嵌入模型生成的，所述嵌入模型将包括句子、单词和n元语法的自然语言元素映射到数字数组中，并且其中，所述自然语言元素中的每一个被表示为向量空间中的单个点。

19.如权利要求15所述的系统，其中：

20.如权利要求19所述的系统，其中：

所述线性模型包括使用训练数据集训练的多个模型参数；

在使用所述训练数据集训练所述线性模型期间，使用假设函数来学习所述话语的所述句子嵌入与每个聚类的每个嵌入表示之间的线性关系；

在所述学习所述线性关系期间，所述多个模型参数被学习以最小化第一损失函数；

所述深度学习网络包括使用所述训练数据集训练的多个模型参数；并且

在使用所述训练数据集训练所述深度学习网络期间，所述域内话语的所述句子嵌入的高维特征被转换为较低维向量，所述较低维向量随后与来自所述域内话语的特征级联并被馈入所述深度神经网络的隐藏层中，所述较低维向量的值被随机初始化并与所述多个模型参数一起被学习以最小化第二损失函数。