CN107112016A

CN107112016A - 多模态状态循环

Info

Publication number: CN107112016A
Application number: CN201680005026.2A
Authority: CN
Inventors: 希尔·朱迪斯·叶霍舒亚; 戴维·克里格尔·艾尔森; 戴维·P·惠普
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2015-01-05
Filing date: 2016-01-05
Publication date: 2017-08-29
Anticipated expiration: 2036-01-05
Also published as: US10713005B2; CN107112016B; EP3243200B1; US20160196110A1; US20200341731A1; WO2016112005A1; US11379181B2; EP3243200A1

Abstract

方法、系统和装置，包括用于管理对话的在计算机存储介质上编码的计算机程序。一方面，一种方法包括：从用户设备接收对执行任务的请求；获取对应于该任务的对话；向用户设备提供多个协议缓冲；从所述用户设备接收语音输入和一个或多个注释协议缓冲，所述一个或多个注释协议缓冲识别对所述协议缓冲中的内容的对应非口头响应；并使用所接收到的协议缓冲来更新所述对话的状态并解释所述语音输入。

Description

多模态状态循环

背景技术

本说明书涉及对话。

传统的移动设备可以包括用于响应移动设备的用户的话音的软件。话音通常可以包括到移动设备的呼叫电话号码、文本电话号码或搜索移动设备或因特网上的信息的指令。该软件可以从移动设备提供确认指令的音频输出，或者可以要求澄清信息以完成指令。移动设备可以将接收到的话音提供给服务器系统进行处理，并且接收识别要执行的操作的信息。

发明内容

通常，本说明书中描述的主题的一个创新方面可以体现在下述方法中，所述方法包括下述动作：从用户设备接收对执行任务的请求；获取对应于所述任务的对话；向所述用户设备提供多个协议缓冲；从所述用户设备接收语音输入和一个或多个注释协议缓冲，所述一个或多个注释协议缓冲识别对在对应的协议缓冲中的内容的对应非口头响应；以及使用所接收到的协议缓冲更新对话的状态并解释语音输入。该方面的其他实施例包括对应的计算机系统、装置和记录在一个或多个计算机存储设备上的计算机程序，每个计算机系统、装置和计算机程序被配置为执行所述方法的动作。对于要被配置为执行特定操作或动作的一个或多个计算机的系统意味着系统已经在其上安装了软件、固件、硬件或它们的组合，它们在运行中使得系统执行所述操作或动作。对于要被配置为执行特定操作或动作的一个或多个计算机程序意味着一个或多个程序包括当由数据处理装置执行时使得所述装置执行操作或动作的指令。

上述和其它实施例可以每个选用地独立或组合地包括以下特征中的一个或多个。特别地，一个实施例包括组合的所有以下特征。每个协议缓冲都是DialogTurnIntent(DTI)。所接收到的协议缓冲识别问题和非口头响应的顺序。响应的顺序用于提供用以解释语音输入的场境。该方法包括响应于在语音输入之后更新对话的状态，向用户设备提供一个或多个附加协议缓冲。多个协议缓冲包含任务的整个对话。该方法包括一旦确定对话值就完成该任务。

通常，本说明书中描述的主题的一个创新方面可以体现在下述方法中，所述方法包括下述动作：接收用以执行任务的用户输入；向对话系统提供语音输入；接收用于对话的多个协议缓冲；向用户呈现第一协议缓冲的第一提示；收到对第一提示的非口头响应；用响应更新对话的状态，并向用户呈现下一个协议缓冲的第二提示；响应于第二提示接收语音输入；以及将语音输入和第一协议缓冲和第二协议缓冲提供给对话系统。该方面的其他实施例包括对应的计算机系统、装置和记录在一个或多个计算机存储设备上的计算机程序，每个计算机系统、装置和计算机程序被配置为执行所述方法的动作。对于要被配置为执行特定操作或动作的一个或多个计算机的系统意味着系统已经在其上安装了软件、固件、硬件或它们的组合，它们在运行中使得系统执行所述操作或动作。对于要被配置为执行特定操作或动作的一个或多个计算机程序意味着一个或多个程序包括当由数据处理装置执行时使得所述装置执行操作或动作的指令。

上述和其它实施例可以每个选用地独立或组合地包括以下特征中的一个或多个。特别地，一个实施例包括组合的所有以下特征。多个DTI作为指示替选DTI的顺序的资源集合的一部分被接收。呈现第一DTI的第一提示包括提供与第一提示相关联的用户界面，所述用户能够向所述用户界面输入所述非口头响应。更新对话的状态包括用所接收到的非口头响应来注释对应的DTI。

可以实现本说明书中描述的主题的特定实施例，以便实现以下优点中的一个或多个。用户可以利用语音响应和非口头输入二者来响应对话问题。在执行期间，可以在用户设备上本地维护对话的状态，并针对非口头响应更新该状态。将状态信息作为捆绑包发送到对话系统以更新对话的状态。在本地维护非口头响应的状态减少了去往和来自对话系统的数据传输的延迟和数量。此外，在对话过程中可以减少数据传输的大小。在一些实施方式中，在本地而不是在对话系统处维护和计算状态可以维护关于私有数据(例如联系人信息)的状态数据，而不会将数据实际发送到对话系统。当用户的对话系统访问在对话期间例如因为在驾驶时在蜂窝塔之间移动而可能改变时，本地维护状态对于维持对话中的一致性也是有用的。

本说明书中描述的主题的一个或多个实施例的细节在附图和下面的描述中阐述。通过描述、附图和权利要求，主题的其它特征、方面和优点将变得显而易见。

附图说明

图1是用于管理多模态对话的示例系统。

图2是用于管理多模态对话的示例过程的流程图。

图3是用于管理多模式对话的示例过程的流程图。

各附图中的相同附图标记和标号表示相同的元件。

具体实施方式

用户可以向设备提供语音指令以执行特定任务，例如生成日历项、发出呼叫或文本、或搜索特定信息。由设备或与设备通信的系统执行任务可以由会话对话来驱动，该会话对话向用户询问针对完成任务所需的一个或多个值的问题，类似于填写表单的字段。

例如，针对日历任务的示例对话可以是：

User(用户):[create a meeting with Dave(创建与大卫的会议)]

Device/system(设备/系统):What day(哪天)？

User/system(用户/系统):[tomorrow(明天)]

Device/system(设备/系统):What time(什么时间)？

User(用户):[Three O’clock(三点钟)]

Device/system(设备/系统):I’ve generated a meeting with Dave fortomorrow at 3:00(我已经生成了明天3:00与大卫的会议).

在一些实施方式中，给定对话是多模式的，使得用户可以响应于对话问题提供话音和一个或多个手动非口头输入的组合。可视用户界面可以被呈现给与从对话中呈现的口头问题相关联的用户设备的用户。例如，日历任务的示例对话可以是：

User(用户):[create a meeting with Dave(创建与大卫的会议)]

Device/system(设备/系统):What day(哪天)？

*User manually enters a date for tomorrow,e.g.,using a touch input(用户手动键入明天的日期，例如使用触摸输入)*

Device/system(设备/系统):What time(什么时间)？

User(用户):[Three O’clock(三点钟)]

可以例如使用触摸屏、鼠标、键盘或其他合适的输入以对用户设备的非口头交互来回答对话的一个或多个问题。语音命令和非口头命令可能重叠但不一定相同。例如，用户可以利用语音输入[cancel(取消)]或所呈现的用户界面中的特定的滑动动作取消命令。然而，对于对用户界面的每个可能的非口头输入，可能不存在等效的语音命令。

该对话具有特定状态，所述特定状态识别该对话中的当前位置。在一些实施方式中，该状态被维护在处理所接收到的语音输入的系统上。例如，用户设备可以例如使用一个或多个网络将语音输入从用户传送到系统。系统可以处理该语音输入以识别所接收到的命令并更新对话。因此，可以利用接收到的语音输入来更新状态。然而，与用户界面的非口头交互在用户设备上本地执行，并且可以不被立即提供给服务器。本说明书描述了管理多模式对话的技术，该对话接收对于对话的语音和非口头输入。

图1是用于管理多模态对话的示例性系统100。系统100包括用户102、用户设备104、和对话系统106。用户设备104和对话系统106通过网络103(例如互联网)进行通信。

用户设备104可以是包括移动设备、可穿戴式计算机、平板计算机、混合体(hybrid)、膝上型计算机、或桌面型计算机的许多合适的设备之一。用户设备104从用户102接收口头(例如语音输入)和非口头的交互。特别地，用户设备104包括被配置为从用户102接收语音输入的麦克风108。用户设备104可以还包括配置成响应于所接收到的用户请求而广播对话问题的一个或多个扬声器。为了清楚起见，仅示出单个用户设备。然而，可以存在与对应的不同用户相关联的许多用户设备。这些用户设备中的每一个可以通过网络103与对话系统106通信。

用户设备还包括用户界面110。用户界面110可以响应于用户请求向用户呈现与对话相关联的一些或全部内容的信息。对话112定义了执行用户所请求的任务所需的值的许多问题。在一些实施方式中，通过为该任务生成的框架来管理对话。对话112的特定问题或其他内容可以例如通过由一个或多个扬声器广播或显示在用户界面110中的一系列音频问题以特定顺序呈现给用户。对话112还维护对话的本地状态。这是指对话中的当前位置，例如，哪一个问题是询问用户102的。如下面更详细地讨论的，这可以或可以不匹配对话系统106上保持的对话的状态。

对话系统106可以是一个或多个计算资源，例如一个或多个计算系统或在一个或多个计算系统上执行的虚拟机，其通过网络103与用户设备104通信。对话系统106包括对话管理引擎114和话音分析引擎116。

话音分析引擎116可以使用合适的话音到文本处理来将接收的语音输入118转换成文本串。话音分析引擎116还可以例如通过生成解析树来解析音频以识别一个或多个含义。音频的含义可用于识别响应于所接收到的请求而执行的特定任务以及确定对于该任务的特定对话问题的回答的含义。

对话管理引擎114管理与所请求的任务相关联的一个或多个对话。这包括保持对话的状态，例如正在回答什么问题，使得话音分析引擎116可以正确地解释与对话相关联的接收到的音频。特别地，话音分析引擎116在正确解释所接收到的音频时的准确性可以通过知道向用户102询问什么类型的响应而得到改善。否则，话音分析引擎116可将接收到的话音解释为与对话不相关(在这种情况下，可以返回错误响应)或者与对新任务的请求(例如，基于所接收到的话音的内容的搜索)不相关。

为了维持状态，对话管理引擎114提供数据结构，该数据结构编码正在询问用户102的对话中的什么问题以及作为响应对话系统106正在从用户102请求的信息的类型。在一些实施方式中，该信息被编码在本说明书中称为DialogTurnIntent(“DTI”)的协议缓冲中。为了方便起见，DTI将被全文使用，但可以使用其他合适的编码数据结构。

例如，在用于撰写电子邮件消息的任务的对话中，对话的一个问题可以是对电子邮件的主题的请求。对话管理引擎114可以创建DTI，其中对用户的问题是对主题的提示。DTI被发送到用户设备104，其中可以将其向用户102呈现为例如用户界面中的可视问题，例如“主题是什么”，或呈现为从扬声器发出的音频问题，例如，“你想要主题是什么？”

对话管理引擎114可以向用户设备102发送120多于一个DTI。特别地，DTI可以不仅包括给用户的当前提示，而且可以包括与完成所请求任务的对话所需的其他字段相关的其他DTI。例如，当对话管理引擎114发送“对主题的提示”DTI时，它也可以在对话中发送用于随后的问题的DTI，例如“对消息主体的提示”DTI作为替选DTI。

在一些实施方式中，由对话系统106发送到用户设备104的包括用于填写表单的DTI(例如，具有要填充的字段的、呈现给用户102的可视界面)的封装被表示如下：

用户设备104不立即将一个或多个替选DTI提示中的一个呈现给用户102。相反，是否呈现替选DTI提示取决于在用户设备104处的对话112的本地状态。具体地，如果用户102使用非口头输入来回答第一个DTI，例如“对主题的提示”DTI，则将对话的本地状态更新为对话的下一个字段，并且可以呈现替选的DTI提示。由于替选DTI被提供有第一DTI，所以呈现替选DTI而无需到对话系统106的往返消息路径。

无论何时用户102响应于对话问题而提供语音输入，对应的一个或多个DTI被利用语音输入122来返回到对话系统106。DTI用用户响应和响应的方式(例如，声音与非口头)注释。因此，对话管理引擎114可以将对话状态更新为由语音输入正在回答的当前问题，并将正在回答的问题告知话音分析引擎116使得话音分析引擎116可以正确地解释话音输入并提供适当的响应。对话管理引擎114可以根据需要生成附加的DTI以发送给用户设备104。

在一些实施方式中，响应于用户语音输入而发送到对话系统106的内容的封装如下表示：

如果用户没有进行任何触摸交互，则用户设备104将仅回显“当前”状态(对话系统106已知的最近状态)而不是未被访问的“可能”状态。发送到用户设备的音频提示以及来自用户的语音输入的音频不是DTI本身的一部分。然而，在一些其他实施方式中，DTI可以包括附加内容，例如，表单本身、对话的特定字段等。

用户设备104上的对话112可以保存使用非口头输入回答的每个DTI，使得如果用户102稍后发出语音响应，则用户设备104可以发送自最近与对话系统106通信以来已被回答的一组DTI。该组DTI为用户的响应提供了一个命令，使得可以正确地理解依赖于先前响应的命令。例如，如果语音输入是用于校正先前响应的“撤销”或“更改为7”的命令，则有序的DTI允许对话系统106确定语音命令所指的是哪一个响应。

在一些实施方式中，如果用户通过触摸或其他非口头输入提供输入，则对话系统106以用户设备104应该提示用以提供对话字段的值的输入的顺序向用户设备104提供DTI列表。然后，用户设备104可以按照用户102已经回答的顺序捆绑DTI，以便利用下一个语音响应传送到对话系统106。例如，如果用户102响应于提示使用触摸输入来提供事件的结束时间，然后使用触摸输入来提供事件的主题，然后触摸麦克风以输入下一响应，则发送到对话系统106的一组DTI可以包括主题DTI，然后是结束时间DTI，然后是最后的“当前”DTI。DTI组提供了自上次查询对话系统以来用户访问的所有状态的列表，其中最新的状态在先，以对话系统知道的最新状态结束。排序有助于系统正确解释用户的输入。

在一些实施方式中，每次仅向用户设备102发送指定数目的替选DTI。这可以由发送到用户设备的ResourceSet描述，例如如下：

仅发送指定数目的DTI允许更多地控制一次发送的数据量，并且仅发送在非口头响应之后继续对话立即需要的DTI。

在一些其他实施方式中，用于整个对话的DTI被发送到用户设备102。这可以由发送到用户设备的ResourceSet描述，例如如下：

从最近传输到对话系统以来发送整个累积的DTI允许客户端侧更灵活地继续对话，特别是响应多于一个的非口头响应。

图2是用于管理多模态对话的示例过程200的流程图。为了方便，过程200将被描述为由位于一个或多个位置中并且根据本说明书适当地编程的一个或多个计算机的系统执行。例如，适当编程的对话系统，例如图1的对话系统106，可以执行过程200。

系统接收对执行任务的请求(202)。该请求可以作为由用户提供给用户设备的语音输入或对用户设备(例如，图1的用户设备104)的手动输入来接收。该任务可以是例如生成日历项、生成电子邮件、发出呼叫或文本、或搜索特定信息。

系统处理请求，并为对应的任务生成对话(202)。对于语音请求，系统可以处理语音输入以确定输入的含义，例如解析音频以识别特定请求。然后，该系统获取对应于任务的对话，例如来自特定于任务的对话的存储库或从模板生成的对话。该对话提供了用于确定完成任务所需的值的数目的结构。例如，日历会议任务可以包括会议的要邀请的人、日期、时间和地点的字段。根据对话请求这些的值。特别地，可以生成根据特定顺序请求值的DTI。

系统向用户设备发送多个DTI(206)。DTI可以被编码在识别DTI的顺序的数据结构中，所述DTI例如是主DTI和具有根据任务的对话的顺序的一个或多个替选DTI。可以响应于对在顺序上紧接在前的DTI作出响应的非口头用户输入，向用户呈现与特定替选DTI相关联的提示。

系统从用户设备接收语音输入加上一个或多个DTI(208)。该一个或多个DTI识别用户在与语音输入相关联的当前DTI之前响应的对话提示。因此，DTI提供对话的当前状态的记录，包括对早期提示的接收到的响应以及用户设备接收到响应的顺序和模式。

系统使用DTI更新对话的状态并解释语音输入(210)。例如，DTI用于更新系统中的对话的状态，使得系统可以确定要接收对其的响应的对话的下一部分或替选地要发送给用户设备的DTI的下一集合。此外，经更新的状态提供了对语音输入的分析的场境，使得其可以被正确解释。这包括对DTI的响应顺序，用于解释涉及先前响应的语音响应。

系统在对话中存储响应(212)。对于包括经分析的语音输入的每个完成的DTI，结果值可以存储在对话中。系统可以确定是否存在所需要的附加值或对话是否完成。如果存在所需要的附加值，则可以向用户设备发送一个或多个附加DTI，或者系统可以等待来自用户设备的附加响应。如果不存在所需要的附加值，则系统可以例如通过生成日历条目或电子邮件消息完成任务(214)。完成的任务可以在执行之前发送到用户设备进行审批，或者可以自动执行。

图3是用于管理多模态对话的示例过程300的流程图。为了方便起见，过程300将被描述为由设备执行并且根据本说明书适当地编程。例如，适当编程的用户设备(例如，图1的用户设备104)可以执行过程300。

设备接收用户语音输入以执行任务(302)。可以例如响应于与设备通话并由设备上的麦克风捕获的用户语音命令来接收输入。在一些实施方式中，用户向设备提供指示他们将要例如通过选择特定的用户界面元素提交语音命令的输入。

设备将语音输入发送到对话系统(304)，例如图1的对话系统106。在一些实施方式中，设备可以例如通过生成解析树来解析语音输入的音频以识别一个或多个含义，并将经解析的音频作为请求提供给对话系统。替选地，设备可以向对话系统提供语音输入，并且对话系统可以解析音频以识别请求。该请求识别该任务，例如，生成日历事件、生成提醒、并且向用户提供信息等等。

设备接收对话的多个DTI(306)。DTI可以被编码在识别DTI的顺序的数据结构中，该DTI例如是主DTI和具有根据任务的对话的顺序的一个或多个替选DTI。

设备向用户呈现用于第一DTI的对话提示(308)。提示是被设计成用来引出与对话的所需值对应的响应的特定问题。例如，当生成电子邮件消息时，第一DTI可以利用诸如“主题是什么”的问题来提示用户提供电子邮件消息的主题。提示可以呈现在用户界面中或作为设备的音频输出呈现。

设备接收对第一DTI的非口头响应(310)。例如，可以使用触摸屏、鼠标、键盘、或其他合适的输入来提供对设备的非口头响应。例如，用户可以键入电子邮件的主题，而不是提供语音响应。

设备更新对话的本地状态，并向用户显示下一个DTI的对话提示(312)。该设备存储回复并识别该对话中的下一个DTI，而不向该对话系统发送关于所接收到的回复的数据。

设备接收对下一个DTI的语音响应(314)。然后，设备随着自从上一次语音输入被发送到对话系统以来回答的在先的DTI一起提供对对话系统的语音响应(316)。DTI中的每一个包括它们相应的响应和响应的模式。虽然在这个例子中只有一个先前的DTI(第一个DTI)，但是可能存在在接收到语音输入之前用户所呈现和回答的若干DTI提示。这些可以捆绑在一起，并与语音响应一起发送给对话系统。

如果设备具有对提示用户可用的附加DTI，则设备向用户呈现下一个DTI的提示。如果不存在附加DTI可用，则设备可以等待来自对话系统的响应。来自对话系统的响应可以包括对话的附加DTI或完成的任务的指示。在一些实施方式中，设备向用户呈现完成的任务值的汇总，例如草稿电子邮件或日历条目，以在执行任务之前进行确认。

在本说明书中，术语“引擎”将广泛地用于指代可以执行一个或多个特定功能的基于软件的系统或子系统。通常，引擎将被实现为安装在一个或多个位置的一个或多个计算机上的一个或多个软件模块或组件。在某些情况下，一个或多个计算机将专用于特定引擎；在其他情况下，可以在相同的一个或多个计算机上安装并运行多个引擎。

在本说明书中描述的主题和操作的实施例可以在数字电子电路中、或在计算机软件、固件或硬件中实现，包括在本说明书中公开的结构及其结构等同物，或者在它们的一个或多个的组合中实现。在本说明书中描述的主题的实施例可以被实现为一个或多个计算机程序，即，计算机程序指令的一个或多个模块，其编码在计算机存储介质上以用于由数据处理装置执行或控制数据处理装置的操作。替选地或另外地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，其被生成以编码用于传输到合适的接收机设备以由数据处理装置执行的信息。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器阵列或它们中的一个或多个的组合，或者可以被包括在上述中。此外，虽然计算机存储介质不是传播信号，但是计算机存储介质可以是在人工生成的传播信号中编码的计算机程序指令的源或目的地。计算机存储介质还可以是或者包括在一个或多个分立的物理组件或介质(例如，多个CD、盘或其他存储设备)中。

在本说明书中描述的操作可以被实现为由数据处理装置对存储在一个或多个计算机可读存储设备上或从其他源接收的数据执行。

术语“数据处理装置”涵盖用于处理数据的各种装置、设备、和机器，包括但不限于可编程处理器、计算机、芯片上系统、或多个芯片上系统或者前述的组合。装置可以包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，装置还可以包括为所讨论的计算机程序创建执行环境的代码，例如构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时环境、虚拟机、或它们中的一个或多个的组合的代码。装置和执行环境可以实现各种不同的计算模型基础设施，诸如web服务、分布式计算和网格计算基础设施。

计算机程序(也称为程序、软件、软件应用、脚本、或代码)可以以任何形式的编程语言编写，包括编译或解释语言、声明性或过程语言，并且它可以以任何形式部署，包括作为独立程序或作为适于在计算环境中使用的电路、组件、子例程、对象或其它单元。计算机程序可以但不需要对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件(例如，存储在标记语言文档中的一个或多个脚本)的一部分中、专用于所讨论的程序的单个文件中、或者在多个协同文件中(例如，存储一个或多个模块、子程序或代码部分的文件)。计算机程序可以被部署为在一个计算机上或在位于一个地点或分布在多个地点并通过通信网络互连的多个计算机上执行。

本说明书中描述的过程和逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程处理器执行，以通过对输入数据进行操作并生成输出来执行动作。过程和逻辑流程也可以由专用逻辑电路(例如FPGA(现场可编程门阵列)或ASIC(专用集成电路))执行，并且装置也可以被实现为专用逻辑电路。

适合于执行计算机程序的处理器包括例如通用和专用微处理器二者，以及任何种类的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于根据指令执行动作的处理器和用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘，或者可操作地耦合以从其接收数据或向其传送数据。然而，计算机不需要具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器、或便携式存储设备(例如，通用串行总线(USB)闪存驱动器)，这里仅举几个例子。适合于存储计算机程序指令和数据的设备包括所有形式的非易失性存储器、介质和存储设备，包括例如半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动盘；磁光盘；和CD-ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。

为了提供与用户的交互，本说明书中描述的主题的实施例可以在具有显示设备(例如，CRT(阴极射线管)或LCD(液晶显示器)监视器)以用于向用户显示信息，以及键盘和例如鼠标或轨迹球的指示设备(用户可以通过它们向计算机提供输入)的计算机上实现。其他类型的设备也可以用于提供与用户的交互；例如，在大多数实施方式中，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈、或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声音、话音或触觉输入。此外，计算机可以通过向用户使用的设备发送文档并从其接收文档来与用户进行交互：例如，通过响应于从web浏览器接收的请求，将网页发送到用户的客户端设备上的web浏览器。

在本说明书中描述的主题的实施例可以实现在计算系统中，该计算系统包括例如作为数据服务器的后端组件，或者包括例如应用服务器的中间件组件，或者包括例如具有图形用户界面或Web浏览器的客户端计算机的前端组件，用户可以通过该Web浏览器与本说明书中描述的主题的实施方式交互，或者包括一个或多个这样的后端、中间件或前端组件的任何组合。系统的组件可以通过任何形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)、网络间网络(例如，互联网)和对等网络(例如，自组织对等网络)。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且通常通过通信网络交互。客户端和服务器的关系借助于在相应计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在一些实施例中，服务器向客户端设备传送数据(例如，HTML页面)(例如，为了向与客户端设备交互的用户显示数据和从该用户接收用户输入的目的)。可以在服务器处从客户端设备接收在客户端设备处生成的数据(例如，用户交互的结果)。

尽管本说明书包含许多具体实施细节，但是这些不应被解释为对任何发明或可以要求保护的范围的限制，而是被解释为特定于对特定发明的特定实施例的特征的描述。在分立实施例的场境中在本说明书中描述的某些特征也可以在单个实施例中组合实现。相反，在单个实施例的场境中描述的各种特征也可以在多个实施例中分立地或以任何合适的子组合来实现。此外，虽然特征可以在上面描述为在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合的一个或多个特征在一些情况下可以从组合中去除，并且所要求保护的组合可以针对子组合或子组合的变体。

类似地，虽然在附图中以特定顺序描绘操作，但是这不应被理解为要求这些操作以所示的特定顺序或以依序执行或者所有所图示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统组件的分离不应被理解为在所有实施例中需要这种分离，并且应当理解，所描述的程序组件和系统通常可以集成在单个软件产品中或封装到多个软件产品中。

因此，已经描述了主题的特定实施例。其他实施例在所附权利要求的范围内。在一些情况下，权利要求中所记载的动作可以以不同的顺序执行并且仍然实现期望的结果。另外，附图中描绘的过程不一定需要所示的特定顺序或依序以实现期望的结果。在某些实施方式中，多任务和并行处理可能是有利的。

Claims

1.一种方法，包括：

从用户设备接收对执行任务的请求；

获取对应于所述任务的对话；

向所述用户设备提供与所述对话相关联的多个协议缓冲；

从所述用户设备接收语音输入响应和一个或多个注释协议缓冲，所述一个或多个注释协议缓冲识别对在对应的协议缓冲中的内容的对应非口头响应；以及

使用所接收到的协议缓冲更新所述对话的状态并解释所述语音输入。

2.根据权利要求1所述的方法，其中，每个协议缓冲是DialogTurnIntent(DTI)。

3.根据权利要求1所述的方法，其中，所接收到的协议缓冲识别问题和非口头响应的顺序。

4.根据权利要求3所述的方法，其中，响应的顺序用于提供用以解释所述语音输入的场境。

5.根据权利要求1所述的方法，包括：响应于在所述语音输入之后更新所述对话的所述状态，向所述用户设备提供一个或多个附加协议缓冲。

6.根据权利要求1所述的方法，其中，所述多个协议缓冲包含所述任务的整个对话。

7.根据权利要求1所述的方法，包括：一旦所述对话的值被基于响应于由所述多个协议缓冲提供的问题的用户输入而确定，则完成所述任务。

8.根据权利要求7所述的方法，其中，完成所述任务包括提供使用所述对话的所述值生成的日历项。

9.根据权利要求1所述的方法，其中，所述对话指示完成所述任务所需的特定值，并且所述对话的所述状态识别所述对话中的当前位置。

10.一种方法，包括：

接收用以执行任务的用户输入；

向对话系统提供语音输入；

接收用于对话的多个协议缓冲；

向用户呈现第一协议缓冲的第一提示；

接收对所述第一提示的非口头响应；

用所述响应更新所述对话的本地状态，并向所述用户呈现下一个协议缓冲的第二提示；

响应于所述第二提示接收语音输入；以及

将所述语音输入以及所述第一协议缓冲和所述第二协议缓冲提供给所述对话系统。

11.根据权利要求10所述的方法，其中，所述多个协议缓冲作为指示替选协议缓冲的顺序的资源集合的一部分被接收。

12.根据权利要求10所述的方法，其中，呈现所述第一协议缓冲的所述第一提示包括提供与所述第一提示相关联的用户界面，所述用户能够向所述用户界面输入所述非口头响应。

13.根据权利要求10所述的方法，其中，更新所述对话的所述本地状态包括用所接收到的非口头响应来注释对应的协议缓冲。

14.根据权利要求10所述的方法，其中，用于执行任务的所述用户输入是用于生成日历项的用户输入。

15.根据权利要求10所述的方法，还包括：

接收日历项，所述日历项包括使用所接收到的语音输入和非口头响应填充的值。

16.根据权利要求10所述的方法，还包括：

从所述对话系统接收用于所述对话的一个或多个附加协议缓冲；以及

向所述用户呈现第一附加协议缓冲的第一提示。

17.一种系统，包括：

一个或多个计算机和存储指令的一个或多个存储设备，所述指令在被所述一个或多个计算机执行时能够操作为使所述一个或多个计算机执行操作，所述操作包括：

从用户设备接收对执行任务的请求；

获取对应于所述任务的对话；

向所述用户设备提供与所述对话相关联的多个协议缓冲；

18.一种系统，包括：

接收用以执行任务的用户输入；

向对话系统提供语音输入；

接收对话的多个协议缓冲；

向用户呈现第一协议缓冲的第一提示；

接收对所述第一提示的非口头响应；

用所述响应更新所述对话的状态，并向所述用户呈现下一个协议缓冲的第二提示；

响应于所述第二提示接收语音输入；以及

19.编码有指令的一个或多个计算机可读存储介质，所述指令在被一个或多个计算机执行时使所述一个或多个计算机执行操作，所述操作包括：

从用户设备接收对执行任务的请求；

获取对应于所述任务的对话；

向所述用户设备提供与所述对话相关联的多个协议缓冲；

20.编码有指令的一个或多个计算机可读存储介质，所述指令在被一个或多个计算机执行时使得所述一个或多个计算机执行操作，所述操作包括：

接收用以执行任务的用户输入；

向对话系统提供语音输入；

接收用于对话的多个协议缓冲；

向用户呈现第一协议缓冲的第一提示；

接收对所述第一提示的非口头响应；

响应于所述第二提示接收语音输入；以及