CN107004408A

CN107004408A - 用于基于将语义知识图的至少一部分转换为概率状态图来确定口语对话中的用户意图的方法和系统

Info

Publication number: CN107004408A
Application number: CN201580066990.1A
Authority: CN
Inventors: P·科洛克; R·萨里卡亚
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-12-09
Filing date: 2015-12-08
Publication date: 2017-08-01
Anticipated expiration: 2035-12-08
Also published as: WO2016094335A1; US9767800B2; US20160163311A1; US20160379637A1; CN107004408B; EP3230979B1; EP3230979A1; US9466297B2

Abstract

在此描述了用于对口头语言输入或多模态输入做出响应的系统和方法。更特别地，根据口头语言输入或多模态输入确定或推断一个或多个用户意图，以经由对话置信跟踪系统确定一个或多个用户目标。在此所公开的系统和方法利用对话置信跟踪系统以基于所确定的一个或多个用户目标来执行动作，并且允许设备在会话的多轮期间与用户参与类似人类的会话。防止用户必须明确地陈述每个意图和期望目标，同时仍然从设备接收到期望目标，这改进了用户完成任务、执行命令并且获得期望的产品和/或服务的能力。此外，对来自用户的口头语言输入的改进响应改进了与设备的用户交互。

Description

用于基于将语义知识图的至少一部分转换为概率状态图来确定口语对话中的用户意图的方法和系统

背景技术

各种口语对话系统已经被研发并且被设计为提供具有与用户会话的能力的机器。例如，移动设备当前利用口语对话系统与用户交互。交互包括取回数据、发送消息、对用户做出口头响应、以及基于从用户接收到的口头请求或输入来打电话。

关于这些和其他一般考虑，已经做出在此所公开的实施例。而且，虽然可以讨论相对特定的问题，但是应当理解，实施例不应当限于解决本公开中背景技术中或其他地方所标识的特定问题。

发明内容

总之，本公开总体上涉及用于对口头语言输入或多模态输入做出响应的系统和方法。更特别地，根据口头语言输入或多模态输入确定或推断一个或多个用户意图，以经由对话置信跟踪系统来确定一个或多个用户目标。在此所公开的系统和方法利用对话置信跟踪系统，以基于所确定的一个或多个用户目标执行动作，并且允许设备在会话的多轮期间与用户参与类似人类的会话。防止用户必须明确地陈述每个意图和期望目标，同时仍然从设备接收到期望目标，这改进了用户完成任务、执行命令并且获得期望的产品和/或服务的能力。此外，对来自用户的口头语言输入的改进的响应改进了与设备的用户交互。

本公开的一个方面涉及一种用于控制对口头语言输入的响应的方法。该方法包括从设备接收用户数据和第一口头语言输入并且标识第一口头语言输入内的标签。该方法还包括基于标签和用户数据来搜索知识库框架。知识库框架是包括多个实体、属性以及实体与属性之间的关系的数据库。此外，该方法包括标识知识库框架内的、与标签和用户数据中的至少一个匹配的实体、属性和关系，并且标识知识库框架内的、与标签和用户数据中的任一个不匹配的至少一个互连项以形成至少一个推断项。该方法还包括基于知识库框架中的、包括任何匹配的实体、匹配的属性、经标识的关系以及至少一个推断项的一部分并且基于标签来创建状态图。至少部分通过以下动作来创建状态图：通过利用加权连接替换所标识的关系并且将置信度指示符分配给状态图的每个节点来将知识库框架中的一部分转换为概率模型图。该方法还包括基于状态图来确定至少一个目标，并且基于至少一个目标、加权连接以及置信度指示符来将用于执行动作的指令发送到设备。

本公开的另一方面包括一种系统。该系统包括计算设备，其包括处理单元和存储器。处理单元实现口头语言系统和对话状态置信跟踪系统。口头语言系统可操作以接收口头语言输入、标识口头语言输入内的标签以及与对话状态置信跟踪系统通信。对话状态置信跟踪系统可操作以与口头语言系统通信并且基于由口头语言系统所标识的标签来搜索知识库框架。对话状态置信跟踪系统还可操作以标识知识库框架内的、与标签中的至少一些匹配的实体、属性以及关系，并且基于知识库框架中的、包括任何匹配的实体、匹配的属性和经标识的关系的一部分来创建状态图。通过将该一部分转换为概率模型图并且通过基于标签将证据节点添加到概率模型图，来形成状态图。状态图包括用于状态图的每个节点的置信度指示符。此外，对话状态置信跟踪系统可操作以对状态图的节点进行排名并且基于状态图的节点的排名来确定至少一个目标。对话状态置信跟踪系统还可操作以基于至少一个目标来发送用于执行动作的指令。

本公开的又一方面包括计算机可读存储介质，其包括存储在其上的计算机可执行指令。计算机可执行指令当由分布式网络中的计算系统执行时，使得计算系统执行方法。方法包括从设备接收用户数据和第二口头语言输入。方法还包括鉴于来自用户与设备之间的会话中的第一口头语言输入的先前确定的标签，来标识第二口头语言输入内的标签。方法还包括基于标签和用户数据来搜索知识库框架，并且标识知识库框架内的、与标签和用户数据中的至少一个匹配的实体、属性和关系。此外，方法包括通过将匹配的实体和匹配的属性中的任一个与所存储的状态图中的节点对齐，并且基于知识库框架中的、包括任何匹配的实体、匹配的属性和经标识的关系的一部分，来创建更新的状态图。至少部分地通过将知识库框架的一部分转换为概率模型图来形成经更新的状态图。此外，该方法包括基于经更新的状态图来确定至少一个用户目标并且基于至少一个用户目标和用于至少一个用户目标的置信度指示符来向设备发送用于执行动作的指令。

提供该概述以引入以在详细描述章节中下文进一步描述的简化形式的概念的选择。该概述不旨在标识所要求保护的主题的关键特征或基本特征，其也不旨在被用于限制所要求保护的主题的范围。

附图说明

参考以下附图描述非限制性和非排他性的示例。

图1是图示用于控制对口头语言输入的响应的系统的示例的框图。

图2是图示用于对口头语言输入做出响应的系统的一部分的示例的示意图。

图3A是图示知识库框架的示例部分的图示。

图3B至图3D图示了基于图3A中所示的知识库框架的一部分的不同的示例状态图。

图4A是图示知识库框架的示例部分的图示。

图4B图示了基于图4A中所示的知识库框架的一部分的示例状态图。

图4C是图示知识库框架的示例部分的图示。

图4D图示了基于图4A中所示的知识库框架的一部分的示例状态图。

图5A是图示用于对口头语言输入做出响应的方法的示例的流程图。

图5B是图示用于发送图5A中所示的动作的方法的示例的流程图。

图6是图示利用其可以实践本公开的实施例的计算设备的示例物理部件的框图。

图7A和图7B是利用其可以实践本公开的实施例的移动计算设备的简化框图。

图8是在其中可以实践本公开的实施例的分布式计算系统的简化框图。

具体实施方式

在以下详细描述中，对形成其一部分并且以图示的方式示出的特定实施例或示例的附图进行参考。在不脱离本公开的精神或范围的情况下，可以组合这些方面、可以利用其他方面、以及可以做出结构变化。因此，以下详细描述将不以限制性的意义理解，并且本公开的范围由权利要求和其等价物限制。

各种口语对话系统已经被研发并且被设计为提供具有与用户会话的能力的机器。例如，移动设备当前利用口语对话系统与用户交互。交互包括取回数据、发送消息、对用户做出口头响应、以及基于从用户接收到的口头请求或输入来打电话。然而，这些当前利用的对话系统仅足以解决小规模信息存储库中的面向特定任务或特定信息取回问题——这些系统未能在大的语料库信息存储库上很好地执行。当前对话系统基本上是其核心处的请求响应系统。换句话说，当前利用的对话系统固有地是面向目标或面向任务的请求响应系统，其提供但是每个请求响应对的会话的连续性的概念，但是每个响应独立于最后的响应。当前传统系统的其他示例是使用户走过定义明确并且常常预定的决策树路径的序列的那些示例以完成用户意图(诸如进行晚餐预定、预定航班等)。

通常不存在多轮期间与与用户真实参与会话的对话系统，其可以一致地并且有效地推断对大型多领域信息存储库上的用户目标或意图，甚至当该目标或意图未明确地由用户说明时，并且然后基于所确定的(一个或多个)用户目标来执行一个或多个期望的动作。虽然先前系统已经尝试推断用户意图，但是这些系统缺少由在此所公开的系统和方法所提供的准确性和多功能性。例如，在当前口语对话系统中，领域知识通过以下各项而被并入：(i)包括表示从数据库所获得的知识结果的特征；或(ii)将知识明确地手工编码为对话状态的设计(例如，并入手动设计的贝叶斯图形模型作为对话状态的一部分)。在应用(i)时，虽然从若干数据库查询所提取的特征的平面向量可以辅助解决模糊性和不确定性，但是这些向量不可能收集与由用户所提供的信息有关的可以做出的所有连接。在应用(ii)时，更新知识是困难的，这是因为新收集的知识要求作为对话引擎的核心并且许多其他部分进行引用的结构。因此，常常在抽象水平处表示贝叶斯图形对话状态模型中编码的知识，因此底层知识中的变化不需要对图形模型的变化。此外，(ii)要求针对每个新领域的图形模型的手动设计。

在此所公开的系统和方法通过将实体的大型多领域图形知识框架用作对话状态的核心部件来解决关于以上(i)和(ii)的问题。例如，在此所公开的系统和方法将对话状态映射到现有的图形知识框架，以利用实体之间的连接的完全丰富性并且推断缺少或相关的信息。

有利地，在此所描述的系统和方法表示对话状态并且直接地在现有的大型图形知识库上执行推断，其跨越多个领域，并且将图形知识框架用作会话的多轮期间的骨架来增量地且自动地构建对话状态图形模型。因此，在此所公开的系统和方法避免图形模型的手动设计，并且当更新图形知识库时挑选底层知识更新。对于现有技术而言难以处理但是通过利用图形知识库简单的示例场景是其中要求多步推断(诸如来自用户的以下口头请求“由罗伯·马歇尔导演的并且由来自剪刀手爱德华的演员主演的电影”)的那些示例，这是因为系统必须推断演员是约翰尼·德普，剪刀手爱德华是电影，并且所请求的数据是电影加勒比海盗-惊涛怪浪。此外，在此所描述的系统和方法自动地构建并且维持多轮期间的对话模糊性/不确定性的表示。如此，在此所描述的系统和方法不仅确定或推断多个用户意图并且使用户参与类似于人类交互的会话，但是这样做利用概率模型增加准确性和与用户的相关性。例如，在此所描述的系统和方法利用知识库框架的概率模型以：a)利用多个意图和/或意图描述来解决模糊性；b)维持描述跨越与用户会话的多个交换或轮次的意图的有效意图和/或实体/属性的状态，以便明确地推断指代会话中先前提到的项的、由用户做出的引用；c)每当应用匹配用户的偏好时；以及d)给定理解用户的意图的失败(例如，或者由于意图不能被发现或者其最好猜想的置信度得分小于阈值)，参与理解用户意图的对话。

这些改进确保由设备所执行的动作与用户相关。此外，在此所公开的系统和方法的会话能力防止用户必须明确地说明其意图、防止一次仅具有一个意图或防止必须通过名称列出所有主题。如此，在此所公开的系统和方法改进用户的与设备交互的能力，这节省用户时间并且改进用户的完成任务并且获得期望的信息的能力。此外，在此所公开的系统和方法利用二进制概率和加权连接以防止不想要的数据和动作被呈现或被执行，这改进了设备的可用性和与设备的用户交互。

图1总体图示了用于控制对口头语言输入106和其他模态输入的响应的系统100的示例。系统100允许用户102从用户设备104经由口头语言输入106和其他模态输入而请求动作。用户设备104(诸如移动计算机、游戏系统、台式计算机、移动电话、手表、个人计算机、智能电话，等等)与用户102相关联。从这些设备104中的一个或多个设备收集用户数据108。

用户设备104被配置为从用户102接收口头语言输入106和其他模态输入。在一些实施例中，用户设备104经由设备104上的传感器(诸如麦克风)接收口头语言输入。口头语言输入106是从用户102到设备104的口头通信。口头语言输出是从设备104到用户102的口头通信。用户设备104将口头语言输入106发送到口头语言系统114。在所图示的示例中，口头语言系统114将运行在远程计算系统(诸如被图示为运行在“云”110中运行的服务器)上。虽然被示出为在云110中，但是本领域的技术人员将理解到，口头语言系统114可以本地运行(例如，在设备104上)或运行在其他环境中。

在一些实施例中，在接收到口头语言输入106时，用户设备104将口头语言输入106发送到口头语言系统114。在其他实施例中，用户设备104被配置为周期性地(例如，以预定义时间间隔(诸如每小时一次))和/或当设备104被连接到wifi网络时，将口头语言输入106发送到口头语言系统114。从设备104到口头语言系统114的口头语言输入106的传输的频率可以改变。在一些实施例中，建立指定从设备104到口头语言系统114的口头语言输入106的传输的预定义规则。在备选实施例中，口头语言输入106被发送到数据收集器116，并且然后数据收集器116将口头语言输入106发送到口头语言系统114。如此，在一些实施例中，数据收集器116存储口头语言输入106。在其他实施例中，口头语言输入106被发送到DSBT系统112，并且然后DSBT系统112将口头语言输入106发送到口头语言系统114。

此外，用户设备104被配置为将用户数据108发送到对话状态置信(belief)跟踪系统112。用户数据108可以包括用户信号、用户信息、用户反馈、用户推断和/或由用户录入或由设备104确定的任何其他相关用户数据。在一些实施例中，可以从一个或多个模态(诸如点击、选择、文本、加亮、姿态、面部表情、眼球跟踪和在通信中使用的其他模态)收集用户数据。例如，如果用户设备104是游戏系统，则自然用户界面可以与用户交互并且收集所有这些模态作为用户数据。在进一步的实施例中，用户设备104运行多个应用，诸如一个或多个电子邮件应用、社交联网应用、全球定位系统(GPS)应用、日历应用、天气应用等。用户102与在设备104上操作的各种应用之间的交互生成与用户相关联的“用户信号”，其包含可以被收集并且被分析的各种主题中的信息。例如，经由电子邮件应用发送和/或接收到的电子邮件所生成的用户信号、经由社交网络应用张贴和/或读取的社交网络帖子、经由搜索应用提交的命令、搜索的语音识别、经由浏览器应用访问的网站等可以被评价以标识用户数据108。

用户数据108还包括由用户直接录入一个或多个设备104(诸如移动设备)中的信息。在一些实施例中，取代或者补充口头语言输入，从用户数据接收用户与设备104之间的会话的一部分或一轮会话。用户数据还包括用户反馈。用户反馈是直接地给定到设备的信息，其提供用户的特定偏好。可以由设备104直接或者间接地请求用户反馈。例如，用户数据108可以包括年龄、性别、喜欢、不喜欢、信用卡信息、活动水平、食物偏好、新闻偏好、社交偏好，等等。在一些实施例中，用户信息和用户反馈经由来自用户102的口头语言输入106和/或其他模态由设备104接收。用户数据108还包括用户推断。用户推断是可以基于用户数据108做出的关于用户的假定。推断可以被用于确定关于用户的附加相关数据。

所选择的用户数据108片段(诸如用户位置、用户喜欢和用户不喜欢)被发送到对话状态置信跟踪系统112。对话状态置信跟踪系统(DSBT系统)112可以将用户数据108发送到数据收集器116以用于存储。在备选实施例中，用户数据108被发送到数据收集器116，并且然后数据收集器116将用户数据发送到DSBT系统112。在所图示的示例中，DSBT系统112和数据收集器116将运行在远程计算系统(诸如被图示为运行在云110中的服务器)上。虽然被示出为在云110中，但是本领域的技术人员将理解到，数据收集器116和/或DSBT系统112可以本地运行(例如，在设备104上)或运行在其他环境中。

在一些实施例中，用户设备104被配置为周期性地(例如，在预定义时间间隔处(诸如每小时一次))和/或当设备104被连接到wifi网络时，将用户数据108发送到DSBT系统112。从设备104到DSBT系统112的用户数据108的传输的频率可以例如基于用户数据的类型而变化。在一些实施例中，建立指定从设备104到DSBT系统112的用户数据108的传输的预定义规则。例如，每次做出或改变日历条目时或者每次电子邮件被发送或被接收时，对应的用户数据108可以间接地被发送到DSBT系统112。其他用户数据108可以每小时或每天被发送，或者每次设备104被激活时被发送。

口头语言系统114从设备104接收口头语言输入106。口头语言系统114包括语音识别系统和自然语音理解系统。语音识别系统将口头语言输入106转换为文本或可搜索的数据。自然语言理解系统评价来自语音视频系统的文本或可搜索的数据并且标识或标记口头语言系统114内的用户意图、名词、形容词和其他项。在一些实施例中，口头语言系统114利用先前创建或存储的状态图信息和/或通过与DSBT系统112的通信接收到的用户数据，以标识一个或多个标签。例如，在一些实施例中，自然语言理解系统可以将文本“何时”解释为针对时间的请求并且将文本“何处”解释为针对位置的请求，即使用户未特定地说明“时间”或“位置”。自然语言理解系统理解这是用户如何理解这些术语并且因此对其进行解释。然而，语音识别系统和自然语言理解系统可能常常找到两个可行的解释并且因此不总是特定关于标签确定/标识。如此，自然语言理解系统给定权重或置信度水平到所标识的项或标签，以指示系统在标签和/或文本中多么可能或多么置信(例如，准确性评价或指示符)。例如，如果口头语言输入引用“沃尔沃斯”或“伍尔维奇”，则语音识别系统可以是不确定的。在其他实施例中，如果“王子”指代列出的联系人名字、歌手或皇家标签，自然语言理解系统可能是不确定的。在这些实例中，每个解释被评价和/或被标记并且然后被加权。口头语言系统114未解决所确定的标签的模糊性和/或不确定性。因此，在一些实施例中，自然语言理解系统创建矛盾的和/或备选地竞争的标签。口头语言系统114将所有所确定的标签(甚至矛盾的标签和/或备选的竞争标签和其对应的置信度水平)发送到DSBT系统112。虽然图1图示了与口头语言系统114分离的DSBT系统112，但是在一些实施例中，口头语言系统114是DSBT系统112的一部分或被包括在DSBT系统112内。

DSBT系统112从口头语言系统114接收标签。如上文所讨论的，在一些实施例中，DSBT系统112还从设备104接收用户数据108。DSBT系统112基于标签和/或用户数据108来搜索知识库框架118。知识库框架118是收集关于实体、属性以及实体和/或属性之间的关系的信息的一个或多个数据存储库。大型的图形知识库框架118覆盖各种各样的领域并且已经被创建以改进递送网络搜索结果中的相关性。示例知识库框架包括Freebase、谷歌的Knowledge Graph(知识图)和微软的Satory。DSBT系统112搜索这些和任何其他现有的服务，其允许现有的图形知识库框架118的大部分或全部在实时基础上交互。在一些实施例中，由DSBT系统112搜索的用户数据可以基于接收到的用户数据和接收到的标签而变化。在进一步的实施例中，DSBT系统112选择已知用户数据的一部分以在知识库框架118中进行搜索。在其他实施例中，DSBT系统112在知识库框架118中搜索由DSBT系统112接收到的任何用户数据。图2图示了实现DSBT系统112的服务器802的示例并且通过经由服务器803实现的知识库框架118的服务器802搜索标签和用户数据。

DSBT系统112将标签和/或用户数据108的至少一部分匹配到知识库框架中的实体、属性和关系。DSBT系统112复制包括这些匹配的知识库框架的一部分的图形结构(例如，图形的骨架)。在一些实施例中，框架的一部分包括互连项(或节点)，其不匹配标签和/或用户数据但是被定位在匹配的标签和/或用户数据之间。不匹配任何用户数据或标签的这些互连项在此被称为推断项。在附加的实施例中，框架的一部分可以包括边缘实体(或边缘节点)，其不匹配标签和/或用户数据，但是被定位脱离匹配的标签和/或用户数据的一个或两个关系。在一些实施例中，边缘实体可以是涉及、类似于或作为搜索的标签或用户数据的类型的属性、实体或关系。

例如，如果设备104从用户接收以下口头语言输入：“我想要寻找昂贵的美国餐馆”，设备104将该口头语言输入106发送到口头语言系统114。口头语言系统114可以将餐馆的实体和昂贵的属性和美国作为标签发送到DSBT系统112。DSBT系统112在一个或多个知识库框架上搜索所提供的标签连同附加的用户数据，诸如设备的位置和由用户常去的餐馆的列表。接下来，DSBT系统复制匹配这些标签和用户数据的知识库框架的一部分。例如，图3A图示了这些标签和用户数据的已知库框架的一部分302的示例。匹配的标签和用户数据在图3A中被示出为匹配的属性304和匹配的实体306。如在图3A中所图示的，多个不匹配的实体308和不匹配的属性310也由知识库图形的部分302提供。而且，部分302提供所有所选择的实体与属性之间的关系312。

DSBT系统112至少部分通过将知识库框架118的一部分的图形结构转换为概率模型图来创建状态图120。在一些实施例中，DSBT系统112通过利用加权连接替换在知识库框架上所提供的关系并且通过将置信度指示符分配给状态图120的每个节点，来将知识库框架118的一部分转换为概率模型图。在一些实施例中，状态图120是马尔可夫随机场(MRF)。在进一步的实施例中，置信度指示符是节点的二进制变量的概率。例如，每个节点指示节点通过被标记或者“开启”或“关闭”如何表示用户的目标。在一些实施例中，如果节点被分配小于0.5的概率，则节点被标记为“关闭”，并且如果节点的分配的概率大于0.5，则节点被标记为“开启”。在一些实施例中，分配的概率和加权连接至少部分地基于由口头语言系统114所提供的置信度水平。此外，DSBT系统112定义状态图中的节点和连接上的潜在的功能。在一些实施例中，加权连接具有不与知识库框架118的关系对齐(不具有一一对应)并且必须经由分离函数被表示在概率模型图中的概率关系。例如，图3C图示了标识这些分离的功能326的状态图320。

在一些实施例中，状态图的权重是通用数学函数并且不是奇异值。例如，状态图中的边缘上的权重可以被指定为编码连接的节点的状态之间的协方差的值的矩阵。这些“加权”函数可以被设置和/或被更新以不仅反映原始图形结构而且还编码附加信息，诸如其他辅助数据中所观察的关系的强度，例如与系统交互的用户的核对的日志或备选地用户偏好(明确地被表达或被推断)。权重可以手动地/以编程方式被预定义以编码期望的关系，或者使用计算最大化某个目标函数的加权值的标准图形优化技术来计算其值。

此外，DSBT系统112可以通过将具有针对每个匹配的标签和/或用户数据的置信度指示符和加权连接的证据节点328添加到知识库框架上的匹配的实体来创建状态图。在一些实施例中，DSBT系统112通过将具有针对每个不匹配的标签和/或用户数据的置信度指示符和加权连接的节点添加到概率模型图来创建状态图。在进一步的实施例中，用户偏好、喜欢和/或不喜欢被用于改变连接和/或节点的加权。在一些实施例中，当被添加到状态图时，用户喜欢/偏好将被标记为“开启”，而用户不喜欢将被标记为“关闭”。

图3B、图3C和图3D图示了基于图3A中所图示的知识库框架的示例部分302的转换的不同的示例状态图320。所有的状图320已经利用加权连接322来替换关系312。而且，通过使线条的厚度变化来图示加权连接322的强度。在这些示例中，连接越强，线路越厚，并且连接越弱，线路越薄。虽然未示出在状态图320中，状态图320的每个节点324具有分配的置信度指示符(诸如二进制变量的概率)。然而，具有大于0.5的概率或被标记为“开启”的节点324在图3D中是阴影的。节点324的阴影越暗，节点的概率越大。无阴影的节点具有小于0.5的概率并且因此被标记为“关闭”。图3D中所图示的状态图320包括作为证据节点328的添加的标签。图3B和图3B图示了具有一一对应的加权连接的状态图320。图3C图示了具有不存在一一对应的加权连接的状图320并且因此提供加权连接322内的因素部分326。图3B、图3C和图3D进一步示出边缘节点332。

DSBT系统112利用创建的状态图来确定一个或多个用户目标。DSBT系统112不要求状态图的手动编码或手动设计。而且，DSBT系统112不利用状态图确定标签的标识在每轮会话内是多么准确。相反，DSBT系统112可以利用标签的置信度水平来调节状态图的节点概率。DSBT系统112通过分析状态图内的加权连接、排名和/或概率来确定用户目标。如此，DSBT系统112可以确定导致一个或多个用户目标的多个意图。在一些实施例中，DSBT系统112基于其加权连接和/或置信度指示符对节点进行排名或排序，并且然后选择排名靠前的(一个或多个)节点作为用户的(一个或多个)目标。例如，在一些实施例中，DSBT系统112基于其“开启”的可能性，对节点进行排名。在一些实施例中，虽然未匹配到标签或用户数据，但是推断项可以是基于加权连接、置信度指示符和/或排名的所确定的用户目标。例如，图3D示出了约翰豪伊的推断项330(其未匹配到标签或用户数据)“开启”并且被定位在所有“开启”节点的中心处。如此，在图3D中所图示的实施例中，约翰豪伊可以由DSBT系统112选择为用户目标。备选地，用户数据可以包括约翰豪伊由用户常去，并且因此约翰豪伊节点是匹配的用户数据节点334并且给定基于该已知的用户偏好的状态图中的高置信度指示符，如在图3C中所图示的。在其他实施例中，用户数据(诸如用户位置(例如，设备104的位置))可以驱动来自知识库框架的所提供的餐馆的选择。

在其他实施例中，节点324可以包括意图。如上文所讨论的，由口头语言系统所确定的用户意图被发送到DSBT系统112作为标签。如此，这些意图被搜索并且有时被匹配到已知库框架内的项。如果在知识库框架内未找到标签(诸如意图)，则在最适当的情况下，DSBT系统112可以将该标签添加到具有置信度指示符和加权连接的状态图。

例如，如果口头语言系统114接收“订票以在附近电影院观看由约翰·麦克蒂尔南导演的电影”的口头语言输入106，则DSBT系统112可以从口头语言系统114接收以下标签：订票、观看、电影、约翰·麦克蒂尔南、电影院、位置。在该示例中，DSBT系统112基于上文接收到的标签来标识知识库框架的一部分402a，这些标签包括与接收到的标签和用户数据、不匹配的实体408、不匹配的属性410及其关系412匹配的实体406、属性404和意图405，如在图4A中所图示的。在该实施例中，意图标签“观看”被匹配到知识库框架。然而，意图标签“订票”未被匹配到知识库框架。DSBT系统112基于图4A中的部分402a创建状态图以形成状态图420a，如在图4B中所图示的。状态图通过利用加权连接422替换关系412并且通过添加或施加缺少的意图标签“订票”作为意图节点450来将部分402a转换到逻辑位置处的状态图420a。虽然未示出，图4B中所显示的状态图420a包括针对每个节点424和节点424之间的加权连接422的置信度指示符。此外，如由图4A和图4B所图示的，即使其是用户的意图，电影天罗地网和林肯广场电影院也未特别地由用户口述。在该实施例中，DSBT系统112基于未被匹配到标签或用户数据(例如，用户位置)的互连节点430的加权连接和/或置信度指示符，推断用户的关于天罗地网和林肯广场电影院的意图。

DSBT系统112通过与用户的多轮会话和/或响应于新的或附加的用户数据，来更新创建的状态图。例如，当DSBT系统112接收新的或附加的标签或用户数据时，DSBT系统112在实时基础上或者当DSBT系统112接收附加标签和用户数据时执行知识库框架118的另一搜索。DSBT系统112将附加标签和/或用户数据108的至少一部分匹配到知识库框架中的实体、属性和关系。DSBT系统112复制或者取回与附加标签和用户数据匹配的知识库框架的一部分。接下来，DSBT系统112确定知识库框架的一部分的任何实体或属性是否与先前创建的状态图上的节点对齐。如果任何实体或属性对齐，则知识库框架的新部分基于这些对齐的特征被施加并且被转换为概率模型图以形成更新的状态图。如果没有实体或属性对齐，则DSBT系统112可以将知识库框架的新部分转换为第二状态图并且维持该第二状态图形分离地形成第一状态图。在一些实施例中，如果搜索的标签和/或用户数据返回知识库框架的、不连接的两个分离的区段，则DSBT系统112可以复制知识库框架的一部分中的每个分离的区段，并且将知识库框架的这两个区段转换为两个分离的状态图，以及除非后续的搜索将两个分离的状态图链接在一起，否则分离地维持这两个状态图。因此，DSBT系统112是多功能的并且可以在与用户的会话内容易地改变到新话题，这是因为DSBT系统112可以同时地维持并且更新分离的状态图以达到一个或多个用户目标。例如，图2图示了全部通过由服务器802实现的DSBT系统112维持和更新的三个分离的状态图120。此外，图2中所示的状态图120列出针对所图示的节点的多个置信度指示符。而且，状态图120上的节点中的数个节点不是基于来自知识库框架118的匹配项或推断项，如图2所图示的。

此外，彼此分离地创建和维持知识库框架118和状态图。如此，可以彼此独立地并且分离地更新知识库框架118和任何创建的状态图120。状态图120与知识库框架118之间的分离创建更多功能的系统，其可以随着关系改变、随着用户数据改变和/或随着口头语言输入改变而更容易地适配。

DSBT系统112利用更新的状态图来确定一个或多个用户目标。DSBT系统112通过分析加权连接、置信度指示符(例如，更新的状态图内的概率)和/或节点的排名来确定一个或多个目标。如此，DSBT系统112可以确定导致一个或多个用户目标的多个意图。在一些实施例中，DSBT系统112基于其“开启”的可能性对更新的状态图的节点进行排名或排序，并且然后选择一个或多个排名靠前的节点作为一个或多个用户的(一个或多个)目标。

DSBT系统112可以将任何创建的状态图发送到数据收集器116以用于存储。DSBT系统112可以周期性地(例如，在预定义时间间隔(诸如每小时一次))和/或当设备104被连接到wifi网络时将任何创建的状态图120和/或用户数据108发送到数据收集器116以用于存储。将状态图120和/或用户数据108从DSBT系统112传输到数据收集器116的频率可以改变。在一些实施例中，建立指定将状态图120和/或用户数据108从DSBT系统112传输到数据收集器116的预定义规则。在进一步的实施例中，如果在预定时间量之后或在会话中的预定数目的轮次之后未利用状态图，则状态图120可以由DSBT系统112和/或数据收集器116删除。在一些实施例中，状态图的删除指示用户与设备之间的会话的结束或会话中的话题中的变化。在其他实施例中，基于用户喜欢、偏好和/或不喜欢由DSBT系统112创建的状态图120总是被维持并且被存储在数据收集器116内以用于更新。

DSBT系统112至少基于一个或多个用户目标，将动作(或者执行动作的指令)发送到设备。在一些实施例中，DSBT系统112发送提供用户目标的指令。在一些实施例中，提供使用目标需要执行所请求的动作、向用户提供所请求的数据、和/或改变设备上的设置。在附加的实施例中，除了基于来自DSBT系统112的指令执行动作以通知用户所执行的动作和/或维持与用户102的会话之外，还由设备生成口头响应和/或其他模态响应。在附加的实施例中，提供给用户的任何数据通过由设备所生成的口头语言输出而被提供到用户。在其他实施例中，可以由设备104显示或列出所提供的数据。在其他实施例中，DSBT系统112发送从用户请求附加数据(还被称为用户反馈)的指令。在一些实施例中，针对用户反馈的请求可以在由设备104所生成的口头语言输出中被提供给用户。在其他实施例中，可以由设备104显示或列出用于用户反馈的请求。被发送到设备104的动作可以基于置信度指示符和加权连接而发生变化。

例如，在一些实施例中，DSBT系统112将所确定的目标的加权连接和/或置信度指示符与置信度阈值相比较。如果所确定的目标的加权连接和/或置信度指示符不满足置信度阈值，则DSBT系统112可以发送请求附加的用户反馈的指令以便确定用户目标。如果所确定的目标的加权连接和/或置信度指示符满足置信度阈值，则DSBT系统112发送执行所确定的用户目标的指令。

下面所列出的表1提供了通过多轮利用DSBT系统与设备的用户会话的示例。表1所图示的会话提供DSBT系统112如何对通过多轮会话未明确列出的多个用户意图做出响应的示例。

表1：用户与利用DSBT系统的设备之间的示例会话

如上文所图示的，DSBT系统112不要求用户明确地说明他或她的意图并且可以推断多个用户意图确定用户的目标。例如，在用户的第一轮期间，DSBT系统112推断参考电影是天罗地网并且附近的电影院是林肯广场电影院，如参考图4A和图4B上文所讨论的。基于这些推断意图，用户的预定该推断电影院处的该推断电影的票的目标由DSBT系统112确定。

如果DSBT系统112基于用户的位置不确定用户在会话的第一轮中正参考哪个电影院，则DSBT系统可以将用户的位置和可能的电影院的列表包含到状态图中。例如，表示用户的位置的单个节点(或表示针对每个可能的电影院的用户位置的多个节点)，并且然后添加与每个电影院距用户的位置的距离成正比的加权连接可以被用于经由状态图确定期望的电影院。

DSBT系统112确定系统112不具有用于订票的足够信息，并且因此发送请求用户反馈的指令以对关于所确定的用户目标的已知模糊性进行澄清。DSBT系统112可以确定模糊性，这是因为用于观看表演的日期和时间存在于所确定的状态图上，但是没有所列出的时间满足必要的置信度阈值。因此，在一些实施例中，确定用户的目标(或者对于附加信息的需要)的模糊性，这是因为所确定的用户目标不满足置信度阈值。指令在系统的第一轮提供针对更多数据的口头语言请求。在第二轮期间，用户经由第二口头语言输入对所请求的信息做出响应，如由以上表1中的用户第二轮所图示的。

响应于以上表1中所图示的会话中的第二口头语言输入，设备104将接收到的第二口头语言输入发送到口头语言系统114。口头语言系统114鉴于对话的先前的状态来确定一个或多个标签(例如，先前确定的标签、推断的意图、用户目标、匹配的实体、匹配的属性、标识的关系、用户数据，等等)。因此，当其是分离的模块并且彼此不同时，口头语言系统114和DSBT模块112彼此通信。在一些实施例中，然而，口头语言系统114是DSBT系统112的一部分。

在该示例中，口头语言输入鉴于先前的所确定的标签和意图推断确定以下标签：林肯广场电影院、订票、天罗地网、11月1日、在下午7点附近。这些所确定的标签被发送到DSBT系统112，其搜索一个或多个知识库框架118并且将这些标签匹配到知识库框架118内的一个或多个实体、属性和/或关系。DSBT系统112复制/取回并且保存包括匹配的标签和任何互连的不匹配的节点的框架的一部分。DSBT系统112确定知识库框架的该新部分是否具有与先前地创建的状态图共同的任何节点，如在图4B中所图示的。DSBT系统112通过将共同节点对齐来将知识库框架的新部分施加到先前地创建的状态图上。一旦状态图和新部分被对齐，DSBT系统112将组合的图形转换为概率模型图以形成更新的状态图。如上文所讨论的，如果状态图和新部分未对齐，通过创建除了先前创建的状态图之外所维持的第二分离的状态图来更新状态图。在该示例中，状态图和新部分对齐。接下来，在该示例实施例中，DSBT系统112对被分配给更新的状态图的每个节点的置信度指示符进行排名。DSBT系统基于节点的排名，确定用户目标是针对在11月1日7:20上映的天罗地网订票。由于所确定的目标(包括置信度指示符)满足预定置信度阈值，因此DSBT系统112发送执行该目标并且通知用户的指令，如在以上表1中所示的系统第二轮中所图示的。在一些实施例中，来自第一口头输入的推断标签林肯广场电影院和天罗地网未由口头语言系统重新提供给DSBT系统，而是相反通过例如将第一轮状态图用作第二轮图形的基础或者通过将第一轮图形和第二轮图形对齐从先前轮次状态图而被直接并入。

在第三轮期间，用户利用另一口头语言输入对订好的票做出响应，与表1中的用户第三轮所示一样。响应于该会话中的第三口头语言输入，设备104将接收到的第三口头语言输入发送到口头语言系统114。口头语言系统114鉴于对话的先前的状态来确定一个或多个标签(例如，先前确定的标签、推断的意图、用户目标、匹配的实体、匹配的属性、标识的关系、用户数据，等等)。在该示例中，口头语言系统114可以鉴于先前所确定的标签和意图推断确定以下标签：林肯广场电影院、停车和停车花费。

接下来，在该示例实施例中，这些所确定的标签被发送到DSBT系统112，其搜索一个或多个知识库框架118并且将这些标签匹配到知识库框架118内的一个或多个实体、属性和/或关系。DSBT系统112复制或取回并且保存包括匹配的标签和任何互连的不匹配的节点的框架的第三部分402b，如在图4C中所图示的。接下来，DSBT系统112确定知识库框架的该新部分402b是否具有与先前创建的状态图上的节点324共同的任何实体或属性。出于简化示例目的，我们将假设先前创建的状态图是图4B中所图示的状态图420a而不是包括来自先前轮的电影日期和时间节点的图形。DSBT系统112通过将共同节点对齐来将新部分402b施加到在图4B中所图示的先前创建的状态图420a。例如，部分402b的林肯广场电影院实体与状态图420a的林肯广场电影院节点对齐，因此DSBT系统将这些共同节点对齐以形成组合的图形。接下来，在该示例实施例中，DSBT系统112通过利用加权连接422替换关系412赖将组合的图形转换为概率模型图以形成更新的状态图420b，如在图4D中所图示的。DSBT系统112然后对被分配给更新的状态图420b的每个节点424的置信度指示符进行排名以确定用户的目标是进行验证的钻石停车场价格。DSBT系统112发送执行该目标的指令，如在以上表3中的会话的系统第三轮中所图示的，这是因为所确定的目标(包括置信度指示符)满足预定的置信度阈值。

表1中上文所图示的会话内的对话状态和置信通过以下动作被DSBT系统跟踪：通过每轮维持并且更新状态图并且在新标记的标识期间参考状态图。此外，如果新会话对话由用户开始，则DSBT系统可以平滑并且迅速地转换到该新话题。例如，新话题将最可能地返回知识库框架中的、不与已经形成的状态图的任何节点对齐的一部分。在这些实施例中，新部分被转换为其自身的与先前的图形分离的状态图，并且被分析以由DSBT系统112确定用户目标，而不需要重新设计或重新创建任何先前地所确定的状态图。如上文所讨论的，如果任何所存储的状态图形在预定时间量或预定数目的轮次之后未由DSBT系统112利用，则DSBT系统112可以将状态图发送到数据收集器116以用于存储或者可以删除状态图。此外，多个状态图的使用还允许DSBT系统112通过简单地同时维持并且更新分离的状态图而在与用户的给定会话内的多个话题之间跳跃。如此，系统100防止用户必须明确地陈述每个意图和期望目标同时，仍然从设备接收期望目标，从而改进了用户完成任务、执行命令并且获得期望的产品和/或服务的能力。此外，系统100改进设备的对来自用户的口头语言输入的响应并且从而改进用户与设备的交互。

图5是概念地图示用于对口头语言输入做出响应的方法500的示例的流程图。在一些实施例中，通过包括口头语言系统的DSBT系统执行方法500。在其他实施例中，通过DSBT系统和分离的口头语言系统执行方法500。在进一步的实施例中，通过计算设备、移动计算设备或者经由远程服务器和/或远程计算设备的网络执行方法500。

在操作502处，接收口头语言输入和/或用户数据。用户数据包括任何相关用户数据(例如，用户信息、用户信号、用户位置、用户推断，等等)。如上文所指出的，可以根据与设备的用户交互和在设备上运行的应用来生成用户数据和/或口头语言输入。在一些实施例中，在各种时间(诸如在接收时、在预定义时间间隔处或当在操作502期间设备被连接到wifi网络时)，用户数据从设备被发送到DSBT系统或数据收集器。而且，如上文所讨论的，在一些实施例中，只要设备在操作502期间接收到口头语言输入，口头语言系统就从设备接收一个或多个口头语言输入。在其他实施例中，口头语言系统在各种时间(诸如预定义时间间隔或当在操作502期间设备被连接到wifi网络时)从设备接收一个或多个口头语言输入。

在附加的实施例中，在操作502处接收或者收集附加的用户数据。附加的用户信息是在先前接收到的用户数据之后被接收或被收集的、由用户录入和/或关于用户的信息。在一些实施例中，用户数据(初始的和/或附加的)包括用户反馈。在一些实施例中，初始用户数据是在操作502期间由DSBT系统接收到或收集的第一数据集。在一些实施例中，在操作502处连续地监测、接收和/或收集用户数据。在进一步的实施例中，在操作502处接收或收集附加的口头语言输入。附加的口头语言输入是在初始或先前的口头语言输入被接收之后由口头语言系统接收到或收集的任何附加的口头语言输入。在一些实施例中，初始口头语言输入是在操作502期间由DSBT系统或数据收集器接收到或收集的第一口头语言输入。在一些实施例中，多个口头语言输入各自是在操作502期间用户与设备之间的新会话的每轮。如此，在其他实施例中，初始口头语言输入是在操作502期间由DSBT系统或数据收集器被接收为会话的一部分的第一口头语言输入。在进一步的实施例中，口头语言输入(初始的和/或附加的)包括用户反馈。在其他实施例中，用户数据可以是操作502期间用户与设备之间的会话中的一轮或多轮。

与设备的用户相关联的各种用户数据的示例可以包括由用户录入的任何信息、会员信号(例如，健身房会员可以被用于标识用于用户的锻炼位置；电影俱乐部会员可以被用于标识用于用户的优选的电影院和/或优惠券，等等)、社交网络信号(例如，“我报名了马拉松”邮件可以被用于标识对健身或跑步的兴趣；“咱们见面吃晚餐吧”消息可以被用于标识优选的用餐位置或者厨房，等等)、设备上下文信号(例如，连接性状态和/或位置可以被用于确定唤醒或睡眠时间；用户数据(诸如电子邮件消息和任务列表可以被用于确定计划的未来的活动和位置，等等)、实时数据信号(例如，健身时间；估计旅行时间的交通状况；用户星期六通常去的咖啡店的关闭，等等)、活动数据信号(例如，在工作之前的咖啡的优选的停止可以基于与早晨时间相对应的、设备的设备位置而被标识；孩子的放学后活动可以基于与傍晚时间处的足球场相对应的、设备的设备位置而被标识，等等)、日历信号(例如，会议、约会等)，等等。而且，口头语言输入可以包括动作请求、数据请求、设置命令，等等。

在操作504处，根据接收到的口头语言输入标识一个或多个标签。在操作504处，所标识的标签可以被给定置信度水平。置信度水平指示标签多么可能是正确或准确的。在一些实例中，在操作504期间，根据口头语言输入确定矛盾和/或模糊的标签。每个解释在操作504期间被评价、被加权并且然后被标记。在操作504期间没有解决所确定的标签的模糊性和/或不确定性。

在一些实施例中，在操作504期间，口头语言系统标识来自接收到的口头语言输入内的一个或多个标签。在一些实施例中，在操作504期间，口头语言输入由语音识别系统被转换为文本并且然后标签通过自然语言理解系统从文本被标识。在一些实施例中，用户数据和先前创建的状态图信息被引用以根据接收到的口头语言输入确定/标识一个或多个标签。在一些实施例中，当标签被标识时，DSBT系统从口头语言系统接收一个或多个标签。在其他实施例中，在操作504期间，DSBT系统在各种时间(诸如预定义时间间隔或当设备被连接到wifi网络时)从口头语言系统接收一个或多个标签。在其他实施例中，在操作504期间，DSBT系统标识接收到的口头语言输入内的标签。在一些实施例中，在操作504期间，所标识的标签由数据收集器存储。

在操作506处，基于所标识的标签和/或用户数据，搜索一个或多个知识库框架。如上文所讨论的，知识库框架是包括多个实体、属性和实体和属性彼此的关系的数据库。大型的图形知识库框架覆盖各种各样的领域并且已经被创建以改进递送网络搜索结果中的相关性并且虑及实时交互。在一些实施例中，在操作506期间，DSBT系统搜索一个或多个知识库框架。

在操作508期间，知识库框架的一部分基于标签和/或用户数据被标识。该部分包括与标签和/或用户数据中的一个或多个匹配的至少一个实体(包括用户意图)或属性。在一些实施例中，在操作508期间，标识与标签和/或用户数据不匹配的互连的实体和/或边缘属性。如此，该部分可以包括不匹配的互连的实体或属性(还被称为推断项)和/或边缘属性和/或实体。此外，知识库框架的部分可以包括一个或多个知识库框架的两个分离的区段，其与一个或多个标签和/或用户数据匹配但是未连接到彼此。在操作508期间，复制、取回和/或存储知识库框架(或者部分的图形的骨架)的所标识的部分。

在操作510处，至少部分地基于知识库框架的所标识的部分，创建和/或更新至少一个状态图。在一些实施例中，在操作510处，至少部分通过以下操作来创建状态图：通过利用加权连接替换所标识的关系并且将置信度指示符分配给状态图的每个节点，来将知识库框架的部分转换为概率模型图。在进一步的实施例中，在操作510处，标签利用其自身的置信度指示符经由对概率模型图的加权连接被施加到其对应匹配的实体或属性作为证据节点。在一些实施例中，加权连接不具有一一对应，以及在状态图中表示或确定关系和这些功能。例如，图3C图示了其中示出这些功能326的状态图320。在一些实施例中，状态图是马尔可夫随机场(MRF)。在进一步的实施例中，在操作510处，每个节点的置信度指示符指示节点通过被标记或者“开启”或者“关闭”而表示用户目标多么可能。在一些实施例中，如果节点被分配小于0.5的概率，则节点被标记为“关闭”，并且如果节点的分配的概率大于0.5，则节点被标记为“开启”。然而，其他概率阈值可以被用于将节点标记为“开启”或“关闭”，如由本领域的技术人员将已知的。在一些实施例中，操作502处所标识的标签的置信度水平被评价以至少部分地确定分配的概率和加权连接。在一些实施例中，在操作510处，在知识库框架的两个分离的区段被包括在该部分中的情况下，基于知识库框架的分离的区段，创建两个分离的状态图。在一些实施例中，在操作510期间，存储一个或多个创建的状态图。

在一些实施例中，在操作510处，通过与用户的多轮会话和/或响应于新或附加的用户数据来更新创建的状态图。在这些实施例中，被包括在从新标签或用户数据所标识的知识库框架的部分中的实体和属性与任何已经创建的状态图中的匹配节点被对齐。在操作510处，如果任何实体或属性对齐，则知识库框架的新部分基于这些对齐的特征被施加并且被转换为概率模型图以形成更新的状态图。在一些实施例中，基于知识库框架的附加部分的对齐，两个分离的图形可以被分离地更新和/或被链接在一起。在操作510处，如果没有实体或属性对齐，则知识库框架的新部分可以被转换为第二状态图并且与第一状态图被分离地维持形成。在进一步的实施例中，在操作510处，如果在预定时间量之后或在会话中的预定数目的轮次之后未更新状态图，可以删除该先前地创建的状态图。在一些实施例中，状态图的删除指示用户与设备之间的会话的结束或会话中的话题中的变化。在其他实施例中，新的或附加的状态图的创建指示一个会话的结束以及在用户与设备之间的新话题的新会话的开始。在进一步的实施例中，如果在预定时间量之后或在预定数目轮次的会话之后未更新状态图，则操作510确定在用户与设备之间的该会话已经结束。在其他实施例中，在操作510处，总是维持、存储和/或更新基于用户喜欢、偏好和/或不喜欢的先前创建的状态图。

在操作512处，基于创建的状态图，确定至少一个用户目标。在一些实施例中，在操作512处，基于一个或多个状态图、加权连接和/或置信度指示符，确定用户目标。在附加的实施例中，在操作512处，基于加权连接和/或置信度指示符，对创建的状态图的每个节点进行排名。在这些实施例中，排名靠前的节点最可能是用户目标并且这些节点中的一个或多个被选择以确定一个或多个用户目标。

在操作514处，基于一个或多个所确定的用户目标来发送动作。动作是执行用户命令、满足用户请求或请求附加数据的指令。在操作514处发送的动作基于用户目标、用户目标的置信度指示符、对用户目标的加权连接和/或用户目标的上下文而发生变化。在一些实施例中，在操作516处，用户目标与置信度阈值相比较，如在图5B中所图示的。如果在操作512处基于其置信度指示符和/或加权连接的所确定的目标不满足置信度阈值，则执行操作520。如果在操作516处基于其加权连接和/或置信度指示符的所确定的目标满足置信度阈值，则执行操作518。在进一步的实施例中，在操作514处，基于跨越节点的概率分布来选择动作。例如，在操作514处，模型可以被训练以将跨越状态图中的节点和/或实体的置信度指示符的分布和/或散布与用于选择的适当的动作相关联。此外，在操作514处，模型可以被训练以学习置信度指示符与动作上的分布之间的映射和/或被训练以利用与每个分类标签相关联的动作对分布进行分类。例如，在操作514处，对动作映射或分类的分布的重复的系统性能可以被用于学习最好的映射和分类。如此，在一些实施例中，在操作514处，通过对利用机器学习模型的置信度指示符的模式进行分类来确定一个或多个用户目标。

如在图5B中所图示的，在操作518处，所确定的目标的上下文被评价，并且执行该上下文的指令被发送用于执行。例如，在操作518处，如果目标是购买电影票，则执行该任务的指令被发送到用户。在另一示例中，在操作518处，如果所确定的目标是改变设备上的设置，则指令被发送以改变所请求的设置。在附加的示例中，在操作518处，如果所确定的目标是针对信息的请求，则发送将信息取回并且提供给用户的指令。此外，经由机器生成的口头响应对用户做出响应的指令可以是在操作518处发送的指令的一部分。备选地或者附加地，在操作518处，经由其他模态对用户做出响应的指令可以是在操作518处所发送的指令的一部分。例如，口头通知用户购买票、做出设置改变或找到并且呈现该数据的指令可以被包括在指令中。由设备造成的口头语言输出和/或其他模态的执行可以构成用户与设备之间的会话中的系统轮次。通过设备从用户接收口头语言输入和/或其他模态可以构成用户与设备之间的对话中的用户轮次。

在操作520处，发送用户反馈(诸如附加的信息指令)。附加反馈将特定于一个或多个所确定的目标以便对用户意图或期望的目标进行澄清。例如，指令可以包括在两个不同的潜在的用户目标(诸如汽车出发时间或火车出发时间)之间进行区分的澄清。在一些实施例中，在操作512处，反馈指令是机器生成的口令响应和/或其他机器生成的模态。

因此，方法500迅速地适于用户数据、口头语言请求以及实体和/或属性之间的关系中的变化。例如，方法500可以维持同时地到达分离的用户目标的分离的状态图。此外，在实时基础上维持并且更新分离的状态图的方法500的能力允许多个意图被推断并且允许多个意图在接收到跨越多轮会话的附加的口头语言输入时被维持并且被更新。而且，状态图与知识库框架之间的分离允许各自在不影响另一个的情况下容易地被修改并且被更新。如此，方法500防止用户必须明确地陈述每个意图和期望目标，同时仍然从设备确定期望目标，以改进用户完成任务、执行命令并且获得期望的产品和/或服务的能力。此外，方法500提供对来自用户的口头语言输入的更好的响应以改进与设备的用户交互。

在一些实施例中，公开了用于对口头语言输入做出响应的方法。该方法包括用于从设备接收用户数据和第一口头语言输入的装置和用于标识第一口头语言输入内的标签的装置。方法还包括用于基于标签和用户数据来搜索知识库框架的装置。知识库框架是包括多个实体、属性以及实体与属性之间的关系的数据库。此外，方法包括用于标识知识库框架内的、与标签和用户数据中的至少一个匹配的实体、属性和关系的装置以及用于标识知识库框架内的、与标签和用户数据中的任一个不匹配的至少一个互连项以执行至少一个推断项的装置。方法还包括用于基于知识库框架中的、包括任何匹配的实体、匹配的属性、经标识的关系和至少一个推断项的一部分并且基于标签来创建状态图的装置。至少部分通过以下来创建状态图：通过利用加权连接替换所标识的关系并且通过将置信度指示符分配给状态图的每个节点来将知识库框架中的一部分转换为概率模型图。方法还包括用于基于状态图来确定至少一个目标的装置以及用于基于至少一个目标、加权连接和置信度指示符将执行动作的指令发送到设备的装置。

在一些实施例中，公开了用于对口头语言输入做出响应的方法。该方法包括用于从设备接收用户数据和第二口头语言输入的装置。方法还包括用于鉴于来自用户与设备之间的会话中的第一口头语言输入的先前确定的标签来标识第二口头语言输入内的标签的装置。方法还包括用于基于标签和用户数据来搜索知识库框架的装置以及用于标识知识库框架内的、与标签和用户数据中的至少一个匹配的实体、属性和关系的装置。此外，方法包括用于通过将匹配的实体和匹配的属性中的任一个与被存储的状态图中的节点对齐，并且基于知识库框架中的、包括任何匹配的实体、匹配的属性和经标识的关系的一部分来创建更新的状态图的装置。更新的状态图至少部分通过将知识库框架的一部分转换为概率模型图而被形成。而且，方法包括基于更新的状态图来确定至少一个用户目标的装置以及用于发送基于至少一个用户目标和用于至少一个用户目标的置信度指示符而向设备发送执行动作的指令的装置。

图6至图9和相关联的描述提供在其中可以实践本公开的实施例的各种操作环境的讨论。然而，关于图6至图9所图示和所讨论的设备和系统出于示例和说明的目的并且不是对可以被用于实践在此所描述的本公开的实施例的大量的计算设备配置的限制。

图6是图示利用其可以实践本公开的实施例的计算设备600的物理部件(例如，硬件)的框图。例如，可以由计算设备600实现被示出为在图1中的云110中操作的DSBT系统112和/或口头语言系统114。下面所描述的计算设备部件可以包括用于对话状态置信跟踪系统(DSBT)模块611的计算机可执行指令，其可以被执行以采用方法500并且实现在此所公开的系统100的部分。在基本配置中，计算设备600可以包括至少一个处理单元602和系统存储器604。取决于计算设备的配置和类型，系统存储器604可以包括但不限于易失性存储(例如，随机存取存储器)、非易失性存储(例如，只读存储器)、闪速存储器或者这样的存储器的任何组合。系统存储器604可以包括操作系统605以及适于运行软件应用620的一个或多个程序模块606(诸如DSBT模块611)。例如，操作系统605可以适于控制计算设备600的操作。而且，本公开的实施例可以结合图形库、其他操作系统或者任何其他应用程序被实践并且不限于任何特定应用或者系统。通过虚线608内的那些部件在图6中图示该基本配置。计算设备600可以具有附加的特征或功能。例如，计算设备600还可以包括附加的数据存储设备(可移除和/或不可移除的)，诸如例如磁盘、光盘或者磁带。通过可移除的存储设备609和不可移除的存储设备610在图6中图示这样的附加存储装置。例如，用户数据108、状态图120、口头语言输入106、标签等可以被存储在所图示的存储设备中的任一个存储设备上。

如上文所陈述的，若干程序模块和数据文件可以被存储在系统存储器604中。当在处理单元602上执行时，程序模块606(例如，DSBT模块611、口头语言模块612或电子邮件应用613)可以执行过程，包括但不限于用于对口头语言输入106做出响应的系统，如在此所描述的。例如，处理单元602可以实现口头语言模块612和/或对话状态置信跟踪模块611。在一些实施例中，DSBT模块611包括口头语言模块612。根据本公开的实施例并且特别地为了生成屏幕内容可以使用的其他程序模块可以包括电子邮件和联系人应用、字处理应用、电子表格应用、数据库应用、幻灯片演示应用、绘图、消息应用和/或计算机辅助应用程序等。

此外，本公开的实施例可以被实践在包括分离的电子元件的电路、包含逻辑门的封装或者集成电子芯片、利用微处理器的电路中或者包含电子元件或微处理器的单个芯片上。例如，本公开的实施例可以经由片上系统(SOC)被实践，其中图6中所图示的每个部件或许多部件可以被集成到单个集成电路上。这样的SOC设备可以包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元和全部被集成(或者“被烧制”)到芯片衬底上作为单个集成电路的各种应用功能。当经由SOC操作时，关于客户端切换协议的能力的在此所描述的功能可以经由与单个集成电路(芯片)上的计算设备600的其他部件集成的专用逻辑而被操作。本公开的实施例还可以使用能够执行逻辑操作(诸如例如AND、OR和NOT)的其他技术被实践，包括但不限于机械、光学、流体和量子技术。另外，本公开的实施例可以被实践在通用计算机内或在任何其他电路或系统中。

计算设备600还可以具有一个或多个输入设备612(诸如键盘、鼠标、笔、声音或语音输入设备、触摸输入设备等)。还可以包括(一个或多个)输出设备(诸如显示器、扬声器、打印机等)。前述设备是示例并且可以使用其他设备。计算设备600可以包括允许与其他计算设备(诸如用户设备104)通信的一个或多个通信连接616。适合的通信连接616的示例包括但不限于RF发射器、接收器和/或收发器电路；通用串行总线(USB)、并行和/或串行端口。

如在此所使用的术语计算机可读介质可以包括计算机存储介质。计算机存储介质可以包括以用于信息(诸如计算机可读指令、数据结构或者程序模块)的存储的任何方法或者技术中实现的易失性和非易失性、可移除和不可移除的介质。系统存储器604、可移除的存储设备609和不可移除的存储设备610全部是计算机存储介质示例(例如，存储器存储装置)。计算机存储介质可以包括RAM、ROM、电可擦只读存储器(EEPROM)、闪速存储器或者其他存储器技术、CD-ROM、数字多用光盘(DVD)或者其他光学存储装置、磁带盒、磁带、磁盘存储或者其他磁性存储设备或者可以被用于存储信息并且可以由计算设备600访问的任何其他制造品。任何这样的计算机存储介质可以是计算设备600的一部分。计算机存储介质不包括载波或者其他传播或者调制数据信号。

可以由计算机可读指令、数据结构、程序模块或者经调制的数据信号(诸如载波或者其他传输机制)中的其他数据实现通信介质，并且包括任何信息递送介质。术语“经调制的数据信号”可以描述具有以关于将信息编码在信号中的这样的方式设定或改变的一个或多个特性的信号。以示例而非限制的方式，通信介质包括有线介质(诸如有线网络或直接有线连接)和无线介质(诸如声学、射频(RF)、红外和其他无线介质)。

图7A和图7B图示了利用其可以实践本公开的实施例的移动计算设备700，例如，移动电话、智能电话、可穿戴计算机(诸如智能手表)、平板个人计算机、膝上型计算机等。例如，可以由移动计算设备700实现用户设备104。参考图7A，图示了适于实现实施例的移动计算设备700的一个实施例。在基本配置中，移动计算设备700是具有输入元件和输出元件二者的手持式计算机。移动计算设备700通常地包括显示器705和一个或多个输入按钮710，其允许用户将信息输入到移动计算设备700中。移动计算设备700的显示器705还可以用作输入设备(例如，触摸屏显示器)。

如果被包括的话，可选的侧输入元件715允许进一步的用户输入。侧输入元件715可以是旋转开关、按钮或者任何其他类型的手动输入元件。在备选示例中，移动计算设备700可以包含更多或更少的输入元件。例如，在一些示例中，显示器705可以不是触摸屏。在又一备选示例中，移动计算设备700是便携式电话系统(诸如蜂窝电话)。移动计算设备700还可以包括可选的小键盘735。可选的小键盘735可以是物理小键盘或触摸屏显示器上生成的“软”小键盘。

补充或者代替与显示器705和/或小键盘735相关联的触摸屏输入设备，自然用户界面(NUI)可以被包含在移动计算设备700中。如在此所使用的，NUI包括使得用户能够以没有由输入设备(诸如鼠标、键盘、遥控器等)强加的人工约束的“自然的”方式与设备交互的任何接口技术。NUI方法的示例包括依赖于语言识别、接触和触笔识别、在屏幕上和屏幕附近二者的姿态识别、空中姿态、头和眼跟踪、语音和语言、视觉、接触、姿态和机器智能的那些示例。

在各种实施例中，输出元件包括用于示出图形用户接口(GUI)的显示器705。在在此所公开的实施例中，各种用户信息集合可以被显示在显示器705上。进一步的输出元件可以包括视觉指示符720(例如，发光二极管)和/或音频换能器725(例如，扬声器)。在一些示例中，移动计算设备700包含用于向用户提供触觉反馈的振动换能器。在又一示例中，移动计算设备700包含输入和/或输出端口(诸如音频输入(例如，麦克风插孔))、音频输出(例如，头戴式耳机插孔)和用于将信号发送到外部设备或从外部设备接收信号的视频输出(例如，HDMI端口)。

图7B是图示移动计算设备的一个实施例的架构的框图。也即，移动计算设备700可以包含实现一些实施例的系统(例如，架构)702。在一个示例中，系统702被实现为能够运行一个或多个应用(例如，浏览器、电子邮件、日历、联系人管理器、消息客户端、游戏和媒体客户端/播放器)的“智能电话”。在一些示例中，系统702被集成为计算设备(诸如集成个人数字助理(PDA)和无线电话)。

一个或多个应用程序766和/或DSBT模块611可以被加载到存储器762中并且在操作系统764上运行或与操作系统764相关联。应用程序的示例包括电话拨号器程序、电子邮件程序、个人信息管理(PIM)程序、词语处理程序、电子表格程序、因特网浏览器程序、消息程序等。系统702还包括存储器762内的非易失性存储区域768。非易失性存储区域768可以被用于存储在系统702断电的情况下不应当丢失的持久性信息。应用程序766可以使用和存储非易失性存储区域768中的信息(诸如电子邮件或由电子邮件应用使用的其他消息等)。同步应用(未示出)还驻留在系统702上并且被编程为与驻留在主机计算机上的对应的同步应用交互，以保持被存储在非易失性存储区域768中的信息与存储在主机计算机处的对应的信息同步。如应当理解，其他应用可以被加载到存储器762中并且在移动计算设备700上运行，包括基于接收到的用户数据做出用户推断并且确定做出的用户偏好与相关信息(例如，天气信息、交通信息、广告等)之间的连接的指令，如在此所描述的(例如，DSBT模块611)。

系统702具有电源770，其可以被实现为一个或多个电池。电源770可能进一步包括外部电源(诸如对电池补充或者再充电的AC适配器或加电对接支架)。

系统702还可以包括无线电772，其执行发射和接收射频通信的功能。无线电772经由通信载波或者服务提供商促进系统702与“外部世界”之间的无线连接性。在操作系统764的控制下进行至和自无线电772的传输。换句话说，由无线电772所接收的通信可以经由操作系统764被传播到应用程序766，并且反之亦然。

视觉指示符720可以被用于提供视觉通知，和/或音频接口774可以被用于经由音频换能器725产生可听通知。在所图示的示例中，视觉指示符720是发光二极管(LED)，并且音频换能器725是扬声器。这些设备可以直接耦合到电源770，使得当被激活时，其即使处理器760和其他部件可能关闭以用于保存电池电量，其也保持由通知机制所指示的持续时间。LED可以被编程以保持无限，直到用户采取动作指示设备的加电状态。音频接口774被用于将可听信号提供给用户和从用户接收可听信号。例如，除了被耦合到音频换能器725之外，音频接口774还可以被耦合到麦克风以接收可听输入(诸如促进电话会话或通过系统702接收口头语言输入)。在一些实施例中，麦克风还可以用作促进通知的控制的音频传感器，如下面将描述的。系统702可以进一步包括视频接口776，其使得板上照相机730的操作能够记录静止图像、视频流等。在一些实施例中，照相机由移动计算设备700用于收集由用户所表达的非口头通信动作，出于将他们信号发送到口头语言模块612和/或DSBT模块611的目的，诸如面部表情、眼球凝视和姿态。

实现系统702的移动计算设备700可以具有附加的特征或功能。例如，移动计算设备700还可以包括附加的数据存储设备(可移除和/或不可移除的)，诸如磁盘、光盘或者磁带。通过非易失性存储区域768在图7B中图示这样的附加存储装置。

由移动计算设备700生成或收集并且经由系统702存储的数据/信息被本地存储在移动计算设备700上，如上文所描述的，或者数据可以被存储在可以经由无线电772或者经由移动计算设备700与关联于移动计算设备700(例如，分布式计算网络(诸如因特网)中的服务器计算机)的分离的计算设备之间的有线连接而由设备访问的任何数目的存储介质。如应当理解，可以通过移动计算设备700经由无线电772或者经由分布式计算网络访问这样的数据/信息。类似地，根据众所周知的数据/信息传送和存储装置(包括电子邮件和合作数据/信息共享系统)，这样的数据/信息可以在计算设备之间容易地传送以用于存储和使用。用户数据108和/或口头语言输入106可以以这种方式从用户设备104被提供到DSBT系统112和/或口头语言系统114。

图8图示了用于处理在计算设备处从远程源(诸如通用计算设备804、平板电脑806或移动设备808)接收到的数据的系统的架构的一个实施例，如上文所描述的。被显示在服务器设备802处的内容可以被存储在不同的通信信道或其他存储类型中。例如，可以使用目录服务822、WEB门户824、邮箱服务826、即时消息存储库828或社交联网站点830存储各种文档。通过示例，用户设备104可以被实现在通用计算设备804、平板计算设备806和/或移动计算设备808(例如，智能电话)中。用户数据108和/或口头语言输入106可以被发射到服务器设备802，其可以被配置为经由网络815实现DSBT模块611。而且，服务器802可以与服务器803通信，服务器803被配置为经由网络815创建、实现并且更新知识库框架。在一些实现中，用户数据108和/或口头语言输入106周期性地被传输到服务器设备802并且被存储在存储装置816的数据收集器116中。此外，知识库框架118的一部分可以经由网络815从服务器803被传输到服务器802或从服务器803由服务器802取回。在一些实施例中，响应于由服务器802接收到的口头语言输入，实时取回该部分。在进一步的实施例中，由DSBT模块的实现造成的任何创建的状态图120至少预定时间段被存储在存储器816装置的数据收集器116上。

例如，上文参考根据本公开的实施例的方法、系统和计算机程序产品的框图和/或操作图示描述了本公开的实施例。块中所指出的功能/动作可以脱离如任何流程图中所示的顺序而发生。例如，连续所示的两个框可以实际上基本上并发执行或可以有时以相反的顺序执行，这取决于所包含的功能/动作。

本公开参考在其中描述可能方面中的仅一些方面的附图来描述本技术的一些实施例。然而，可以以许多不同的形式实现其他方面，并且在此所公开的特定实施例不应当被解释为限于在此所阐述的本公开的各方面。相反，提供这些示范性实施例，使得本公开是透彻并且完整的，并且将其他可能的实施例的范围完全地传达给本领域的技术人员。例如，在不脱离本公开的范围的情况下，可以修改和/或组合在此所公开的各种实施例的方面。

虽然在此描述了特定实施例，但是本技术的范围不限于那些特定实施例。本领域的技术人员将认识到本技术的范围和精神内的其他实施例或改进。因此，特定结构、动作或介质仅被公开为说明性实施例。由以下权利要求和其中的任何等价物限定本技术的范围。

Claims

1.一种用于控制对口头语言输入的响应的方法，包括：

从设备接收用户数据；

从所述设备接收第一口头语言，其中所述设备从所述设备上的麦克风获得所述第一口头语言输入；

标识所述第一口头语言输入内的标签；

基于所述标签和所述用户数据来搜索知识库框架，其中所述知识库框架是包括多个实体、属性以及所述实体与所述属性之间的关系的数据库；

标识所述知识库框架内的、与所述标签和所述用户数据中的至少一个匹配的实体、属性以及关系；

标识所述知识库框架内的、与所述标签和所述用户数据中的任一个不匹配的至少一个互连项以形成至少一个推断项；

基于所述知识库框架中的、包括任何匹配的实体、匹配的属性、经标识的关系以及所述至少一个推断项的一部分并且基于所述标签来创建状态图，其中所述状态图至少部分地通过以下而被创建：通过利用加权连接替换经标识的所述关系并且向所述状态图的每个节点分配置信度指示符来将所述知识库框架中的所述一部分转换成概率模型图，

其中所述状态图包括证据节点和边缘节点，以及

其中所述置信度指示符考虑相关标签和已知用户偏好的置信度水平；

基于所述状态图来确定至少一个目标；以及

基于所述至少一个目标、所述加权连接以及所述置信度指示符，向所述设备发送用于执行动作的指令。

2.根据权利要求1所述的方法，还包括：

接收第二口头语言输入，其中所述设备从所述麦克风获得所述第二口头语言输入；

标识所述第二口头语言输入内的附加标签；

基于所述附加标签来搜索所述知识库框架；

标识所述知识库框架内的、与所述附加标签中的至少一些附加标签匹配的附加实体、附加属性以及附加关系；

标识所述知识库框架内的、与所述附加标签和所述用户数据中的任一个不匹配的至少一个附加互连项以形成至少一个附加推断项；

基于所述知识库框架中的、包括任何匹配的附加实体、匹配的附加属性、经标识的附加关系以及所述至少一个附加推断项的第二部分并且基于所述附加标签来更新所述状态图，其中所述状态图基于所述知识库框架中的所述第二部分和所述附加标签来更新所述加权连接和所述置信度指示符，以形成经更新的加权连接和经更新的置信度指示符；

基于经更新的状态图来确定至少一个附加目标；以及

基于所述至少一个附加目标、经更新的所述加权连接以及经更新的所述置信度指示符，向所述设备发送用于执行另一动作的附加指令。

3.根据权利要求1所述的方法，还包括：

将所述置信度指示符和所述加权连接与阈值相比较，

其中当所述置信度指示符和所述加权连接不满足所述阈值时，所述动作是对关于所述至少一个目标的用户反馈的请求；

从所述设备接收关于所述至少一个目标的用户反馈；以及

鉴于针对所述第一口头语言输入所标识的所述标签，标识所述用户反馈内的反馈标签；

基于所述反馈标签来搜索所述知识库框架；

标识所述知识库框架内的、与所述反馈标签中的至少一些反馈标签匹配的反馈实体、反馈属性以及反馈关系；

基于所述知识库框架中的、包括任何匹配的反馈实体、匹配的反馈属性以及经标识的反馈关系的第二部分并且基于所述反馈标签来更新所述状态图，其中所述状态图基于所述知识库框架中的所述第二部分和所述反馈标签来更新所述加权连接和所述置信度指示符，以形成经更新的加权连接和经更新的置信度指示符；

基于经更新的状态图来确定至少一个附加目标；以及

基于所述至少一个附加目标、经更新的所述加权连接以及经更新的所述置信度指示符，向所述设备发送用于执行附加动作的附加指令，

其中当针对所述至少一个目标的所述置信度指示符满足所述阈值时，所述附加动作向用户提供所述至少一个附加目标，并且其中所述动作经由机器生成的口头语言输出向所述用户提供信息。

4.根据权利要求1所述的方法，其中所述基于所述状态图来确定所述至少一个目标包括：

使用机器学习模型来对所述置信度指示符的模式进行分类。

5.根据权利要求1所述的方法，其中所述用户数据包括所述设备的位置和用户偏好，并且其中所述标签中的至少一个标签包括用户意图和矛盾标签。

6.根据权利要求1所述的方法，其中所述设备是以下各项中的至少一项：

移动电话；

智能电话；

平板电脑；

智能手表；

可穿戴计算机；

个人计算机；

台式计算机；

游戏系统；以及

膝上型计算机。

7.根据权利要求1所述的方法，其中所述一部分包括所述知识库框架的两个分离的段，并且所述状态图包括两个分离的概率模型图。

8.一种系统，包括：

计算设备，其包括处理单元和存储器，所述处理器单元实现口头语言系统和对话状态置信跟踪系统，所述口头语言系统可操作以：

从设备的麦克风接收口头语言输入，

标识所述口头语言输入内的标签，以及

与所述对话状态置信跟踪系统通信；以及

其中所述对话状态置信跟踪系统可操作以：

与所述口头语言系统通信，

基于由所述口头语言系统标识的所述标签来搜索知识库框架；

标识所述知识库框架内的、与所述标签中的至少一些标签匹配的实体、属性和关系；

基于所述知识库框架中的、包括任何匹配的实体、匹配的属性以及经标识的关系的一部分来创建状态图；

其中所述状态图通过以下而被形成：将所述一部分转换为概率模型图并且基于所述标签将证据节点添加到所述概率模型图，以及

其中所述状态图包括用于所述状态图的每个节点的置信度指示符；

对所述状态图的节点进行排名；

基于所述状态图的所述节点的所述排名来确定至少一个目标；以及

基于所述至少一个目标，发送用于在所述设备上执行动作的指令。

9.根据权利要求8所述的系统，其中所述动作将执行所述至少一个目标或将请求关于所述至少一个目标的用户反馈。

10.根据权利要求8所述的系统，其中所述对话状态置信跟踪系统还可操作以：

接收用户数据，其中所述用户数据是由全球定位系统确定的、用户设备的位置；

基于所述用户数据来搜索所述知识库框架；

标识与所述用户数据匹配的至少一个附加实体、附加属性以及附加关系；

标识所述知识库框架中的、包括与所述用户数据的任何匹配的附加实体、匹配的附加属性以及匹配的附加关系的第二部分；以及

基于所述知识库框架中的所述第二部分来更新所述状态图，其中所述第二部分通过对齐共同节点而被施加到所述状态图上。