CN107850992A

CN107850992A - 自动批量语音命令

Info

Publication number: CN107850992A
Application number: CN201680041581.0A
Authority: CN
Inventors: 亚历山大·弗里德里希·库舍尔; 桑托什·巴拉苏布拉马尼亚; 査天添
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2015-10-13
Filing date: 2016-09-29
Publication date: 2018-03-27
Also published as: WO2017065985A1; US20170102915A1; US10891106B2; EP3362885A1

Abstract

本技术的方面涉及用于处理语音输入数据的系统和方法。语音输入数据从计算机接收。基于接收的语音输入数据来确定意图的任务。获得与意图的任务有关的场境信息。基于意图的任务和获得的场境信息来确定要在计算设备处访问的多个服务。提供与多个服务相关联的指令以用于传输到计算设备以在计算设备处执行。

Description

自动批量语音命令

背景技术

随着计算设备变得更加先进，用户可以能够执行更复杂的任务。在某些情况下，在不使用例如键盘的传统输入/输出外围设备的情况下与计算设备交互是更方便的。一种这样的方法是使用语音输入。语音输入可以被用于访问计算设备的特征。

发明内容

本技术的方面涉及用于利用用于在计算设备中发起批量处理的语音输入的计算机实现的方法。该方法包括从计算设备接收语音输入数据。该方法还包括基于接收的语音输入数据来确定意图的任务(intended task)。该方法还包括获得与意图的任务有关的场境信息(contextual information)。该方法还包括基于意图的任务和获得的场境信息来确定要在计算设备处访问的多个服务。该方法进一步包括提供与多个服务相关联的指令以用于传输到计算设备和在计算设备处执行。

本技术的方面还涉及一种系统。该系统包括一个或多个处理器以及非暂时性计算机可读介质，其包括存储在其中的指令，所述指令在由一个或多个处理器处理时使得该一个或多个处理器执行操作。所述操作包括从计算设备接收语音输入数据。操作还包括基于接收的语音输入数据来确定意图的任务。操作还包括获得与意图的任务有关的场境信息，其中场境信息包括社交图信息。操作还包括基于意图的任务和获得的场境信息来确定要在计算设备处访问的多个服务。操作还包括提供与多个服务相关联的指令以用于传输到计算设备并用于在计算设备处执行。

本技术的方面还涉及一种非暂时性机器可读介质，其包括存储在其中的指令，所述指令在由机器执行时使得该机器执行操作。该操作包括从计算设备接收语音输入数据。操作还包括基于接收的语音输入数据来确定意图的任务。操作还包括获得与意图的任务有关的场境信息。操作还包括基于意图的任务和获得的场境信息来确定要打开的多个标签页(tab)。操作还包括提供打开确定的多个标签页。

应当理解，根据下面的具体实施方式，本技术的其他配置对于本领域技术人员将变得显而易见，其中以示例的方式示出和描述了本技术的各个配置。将认识到的，本技术能够具有其他和不同的配置，并且其若干细节能够在各个其他方面进行修改，而全部不脱离本技术的范围。因此，附图和具体实施方式在本质上被认为是示例性的而不是限制性的。

附图说明

附图图示了所公开的方面并且与说明书一起用于解释所公开的方面的原理，附图被包括以提供进一步理解并被并入和构成本说明书的一部分。

图1图示了根据本技术的各个方面的示例网络环境。

图2示出了图示根据本技术的各个方面的用于处理语音命令的示例过程200的流程图。

图3示出了根据本技术的各个方面的示例界面。

图4概念性地图示了可以实现本技术的一些实施方式的示例电子系统。

具体实施方式

以下阐述的具体实施方式旨在作为对本技术的各个配置的描述，并且不旨在表示可实践本技术的唯一配置。附图并入本文并构成具体实施方式的一部分。具体实施方式包括用于提供对主题技术的透彻理解的具体细节。然而，主题技术不限于在此阐述的具体细节，并且可以在没有这些具体细节的情况下实践。在一些实例下，以框图形式示出结构和组件，以避免模糊本技术的概念。

本技术使得用户能够利用语音输入来在计算设备上发起批量处理。批量处理可以涉及访问计算设备上的一个或多个服务。访问一个或多个服务可以与使用计算设备上的应用或web服务的特征相关联。根据各个方面，计算设备可以与用户账户相关联。用户账户可以是用于访问各个web服务的基于云的用户账户。web服务的示例包括电子邮件、社交网络、操作系统、基于web的应用(例如，文本编辑器、电子表格应用、演示应用)等等。访问web服务可以通过用户账户凭证的认证来授予。用户认证可以通过例如通过web门户、web应用、应用登录页面等登录到用户账户来发起。

语音输入数据可以从计算设备接收。在一些实施例中，可以通过话音识别来处理语音输入数据以确定与语音输入数据相对应的一个或多个词并将其存储为文本。可以基于接收的语音输入数据来确定意图的任务。可以获得与意图的任务有关的场境信息。场境信息可以包括社交图信息和用户历史活动。可以基于意图的任务和场境信息来确定要在计算设备上访问的多个服务。该多个服务可以与应用或网站相关联。提供与该多个服务相关联的指令以用于传输到计算设备并用于在该计算设备处执行。

图1图示了语音命令可以用于在计算设备处访问多个服务的示例网络环境100。网络环境100可以包括一个或多个计算设备102、104和106、网络108和服务器110。计算设备102、104和106以及服务器110中的每一个可以通过网络108彼此通信。服务器110可以包括一个或多个计算设备112和一个或多个数据存储114。

计算设备102、104和106可以表示各种形式的处理设备。作为示例而非限制，处理设备可以包括台式计算机、膝上型计算机、手持式计算机、个人数字助理(PDA)、蜂窝电话、网络设备、相机、智能电话、增强通用分组无线电服务(EGPRS)移动电话、媒体播放器、导航设备、电子邮件设备、游戏控制台、智能电器或这些数据处理设备或其他数据处理设备中的任何一个的组合。诸如计算设备102、104和106的一些计算设备可以具有处理用户语音输入的能力。例如，计算设备102、104和106可以包括麦克风，并且可以具有存储在存储器中的指令，所述指令在被它们相应的处理器执行时允许计算设备102、104和106记录用户语音命令。另外，计算设备102、104和106可以包括用于话音识别和语音识别的处理电路。计算设备102、104和106还可以包括扬声器或音频输出连接。

根据各个实施方式，计算设备102、104和106可以与在线或基于云的用户账户相关联。用户账户可以是用于访问各个web服务的基于云的用户账户。web服务的示例包括电子邮件、社交网络、操作系统、基于web的应用(例如，文本编辑器、电子表格应用、演示应用)等等。访问web服务可以通过用户账户凭证的认证来授予。用户认证可以通过例如通过web门户、web应用、应用登录页面等登录到用户账户来发起。结合用户账户存储的信息可以位于与服务器110相关联的数据存储114中。在一些方面中，结合用户账户存储的信息可以位于单独的服务器(未绘出)上。

服务器110可以是具有处理器、存储器和用于与包括例如计算设备102、104和106的其他计算设备交换数据的通信能力的任何系统或设备。服务器110可以利用与基于云的用户账户相关联的凭证信息访问与基于云的用户账户相关联的各个web服务。在又一个实施方式中，服务器110可以是单个计算设备(例如，计算设备112)。在其他实施方式中，服务器110可以表示一起工作来执行计算机服务器(例如，服务器群)的动作的多于一个计算设备。此外，服务器110可以表示各个形式的服务器，包括但不限于web服务器、应用服务器、代理服务器、网络服务器或服务器群。

在示例方面中，服务器110可以处理语音输入数据以生成要发送到客户端设备(例如，计算设备102、104或106)的指令。例如，服务器110可以接收语音输入数据。语音输入数据可以是在客户端设备处捕获的来自用户的语音输入的原始音频记录。在一些实施方式中，语音输入数据可以包括与在客户端设备处捕获的语音输入相关联的附加数据，诸如客户端设备的位置以及语音输入被捕获的时间。基于该语音输入数据，服务器110可以确定意图的任务。服务器110可以基于该意图的任务来获得场境信息。场境信息可以从数据存储114中检索，并且也可以与用户账户相关联。基于意图的任务和获得的场境信息，服务器110可以确定要在客户端设备处访问的多个服务。服务器110可以提供与多个服务相关联的指令以用于传输到计算设备并用于在客户端设备处执行。

包括计算设备102、104和106以及服务器110的计算设备可以通过通信接口(未示出)进行无线通信，通信接口在必要时可以包括数字信号处理电路。通信接口可以在各个模式或协议下提供通信，例如全球移动通信系统(GSM)语音通话、短消息服务(SMS)、增强型消息收发服务(EMS)或多媒体消息收发服务(MMS)消息收发、码分多址(CDMA)、时分多址(TDMA)、个人数字蜂窝(PDC)、宽带码分多址(WCDMA)、CDMA2000或通用分组无线电系统(GPRS)等。例如，通信可以通过射频收发器(未示出)进行。另外，例如，可以使用蓝牙、WiFi或其他这样的收发器来进行短距离通信。

在一些方面，网络环境100可以是跨越一个或多个网络——诸如例如网络108——的分布式客户端/服务器系统。网络108可以是大型计算机网络，诸如连接任何数目的移动客户端、固定客户端和服务器的例如局域网络(LAN)、广域网(WAN)、互联网、蜂窝网络或其组合。此外，网络108可以包括但不限于以下网络拓扑中的任何一个或多个，包括总线网络、星形网络、环形网络、网状网络、星形总线网络、树状结构或分层网络等等。在一些方面中，每个客户端(例如，计算设备102、104和106)和服务器(例如，服务器110)之间的通信可以经由虚拟专用网络(VPN)、安全外壳(SSH)隧道或其他安全网络连接进行。在一些方面中，网络108可以进一步包括公司网络(例如，内联网)和一个或多个无线接入点。

图2示出了图示根据本技术的各个方面的，用于处理语音命令的示例过程200的流程图。过程200的步骤不需要按所示的顺序执行。应当理解，所描绘的顺序是一个或多个示例方法的例示，并且本技术并不意味着限于所呈现的特定顺序或层次。这些步骤可以重新排列，和/或所述步骤中的两个或更多个可以同时执行。将参照图3讨论图2。

在图2的框205中，从计算设备(例如，计算设备102)接收语音输入数据。语音输入数据可以包括例如在计算设备102处记录的原始音频文件、基于原始音频文件处理的词、计算设备102的位置、时间戳等。用户可以在计算设备102附近说出用于执行任务的语音输入。计算设备102可以总是监听语音输入并且可以检测通过计算设备102的麦克风输入的语音。例如，用户可以希望规划旅行，并且可以在计算设备102附近陈述“I want to plan a trip(我想规划旅行)”。计算设备102可以记录该语音输入(例如，“I want to plan a trip”)以创建原始音频文件并且将包括该原始音频文件的语音输入数据发送到服务器110。服务器110可以处理该原始音频文件以通过例如使用话音识别来确定与该音频相对应的词。在一些方面中，计算设备102可以创建语音输入的原始音频文件，并且可以处理该原始音频文件以确定对应的词。所确定的词可以作为文本存储，并且计算设备102可以将语音输入数据发送到服务器110，其中该语音输入数据包括与所确定的词相对应的文本。

在一些情况下，计算设备102可以与基于云的用户账户相关联。如前所述，用户账户可以与诸如电子邮件、社交网络、基于web的应用等的web服务相关联。当用户登录到用户账户时，计算设备102可以访问这些服务。

在一些实施方式中，当检测到用户意图使用语音命令时，计算设备102可以仅处理语音输入。在一些情况下，计算设备102可以不检测语音输入，直到检测到用户意图使用语音命令。使用语音命令的用户意图可以经过通过计算设备102上的按钮或计算设备102上显示的用户元素的用户输入来检测。在其他情况下，计算设备102可以总是监听语音输入。计算设备102可以检测通过计算设备102的麦克风的语音输入，并且可以将该语音输入与触发短语进行比较。该比较可以在计算设备102上完成。替选地，可以将检测到的语音输入发送到服务器110，并且服务器110可以将检测到的语音输入与触发短语进行比较。触发短语可以指示用户正意图使用语音命令。触发短语可以由用户预先确定，并且可以包括计算设备102的名称，诸如“Okay Device(好设备)”。例如，用户可以希望搜索度假地点并且可以在计算设备102附近陈述“Okay device,search vacations spots near me(好设备，搜索我附近的度假地点)”。计算设备102可以通过其麦克风检测短语“Okay Device”。计算设备102可以确定已经检测到触发短语并且开始记录语音输入的其余部分，例如“search vacationsspots near me”。包括语音输入的记录的语音输入数据可以从计算设备102被发送到服务器110。

在图2的框210中，基于语音输入数据来确定意图的任务。在一些实施方式中，在进行到过程200的其余部分之前，服务器110可以通过语音识别来确定语音输入数据与用户相关联。例如，服务器110可以访问与用户账户相关联的用户的样本语音记录，并且比较该样本语音记录和语音输入数据，以确定该语音输入数据与该用户相关联。服务器110可以忽略与用户不关联的语音输入数据。

服务器110可以通过将接收的语音输入数据与用户可用的多个任务进行比较来确定意图的任务。如前所述，语音输入数据可以包括在计算设备102处记录的语音输入的原始音频文件。服务器110可以处理该原始音频文件以确定对应的词。用户可用的多个任务可以存储在索引表中。接收的语音数据与用户可用的多个任务的比较可以通过在索引表中搜索每个确定的词来完成。搜索可以是线性搜索、二分搜索或本领域已知的任何其他搜索方法。在一些情况下，可以基于索引表中的条目与确定的词有多接近来计算置信值。置信值可以指示索引表的条目与确定的词有多接近并且可以基于例如与索引表中的条目的部分匹配的确定的词的数目。服务器110可以确定意图的任务对应于与确定的词匹配的任务。如果用户可用的多个任务中没有任务与所有确定的词匹配，则可以确定索引表中具有最高置信值的任务是意图的任务。

服务器110可以访问来自例如数据存储114的支持的任务的预定列表。支持的任务的列表可以包括服务器110可以识别的任务，并且具有要发送给计算机设备102的对应的指令。每个支持的任务可以与一个或多个服务相关联。在一些情况下，支持的任务列表中的一个或多个任务可能对计算设备102不可用，因为例如计算设备102可以无法访问某些特征或应用。可以通过将支持的任务的列表与用户在计算设备102上可用的多个服务进行比较来确定用户可用的多个任务。用户在计算设备102上可用的多个服务可以包括计算设备102能够通过安装在计算设备102上的应用或者通过与用户账户相关联的web服务来访问的服务。

服务器110可以通过与用户账户相关联的web服务来访问用户可用的任务。例如，用户可用的任务可以涉及打开计算设备102上的可以允许用户查看和编辑文本文档的基于云的文本编辑器。服务器110可以访问与基于云的文本编辑器相关联的用户可用的服务的列表，其可包括例如打开文档、共享文档或用先前保存的模板格式化文档等。在一些实施方式中，用户可以具有安装在计算设备102上的不与用户账户相关联的一个或多个应用。该一个或多个应用可以经由应用编程接口向服务器110传送与其能力相关联的信息，并且服务器110可以将该信息与用户账户相关联地存储在数据存储114中。

在另一个示例中，用户可用的任务可以涉及打开浏览器并导航到不同标签页或窗口中的一个或多个网站。用户可以希望规划旅行，并可在计算设备102附近陈述“I want toplan a trip”。如上所述，服务器110可以接收语音输入数据并处理原始音频文件以通过例如话音识别的使用来确定词。通过比较用户可用的多个任务和一个或多个确定的词，服务器110可以确定意图的任务是规划旅行。如前所述，服务器110可以在包括用户可用的多个任务的索引表中搜索一个或多个确定的词中的每一个，并且确定多个任务中的每一个的置信值。服务器110可以确定意图的任务可以是索引表中的具有最高置信值的条目。意图的任务可以与要访问的多个服务相关联，例如，与规划旅行有关的任务可以与航班预订网站、旅馆预约网站和一般搜索网站相关联。计算设备102可以通过为每个网站打开标签页或者开始与每个网站相关联的应用来访问这些网站。

在图2的框215中，可以获得与意图的任务有关的场境信息。场境信息可以是与意图的任务相关联的任何信息。在一些情况下，可以从用户获得场境信息。服务器110可以确定可以需要来自用户的附加信息来完成意图的任务。服务器110可以提供对与意图的任务相关联的信息的请求以用于传输到计算设备102。计算设备102可以显示对信息的请求。替选地，计算设备102可以提供与对信息的请求相对应的音频反馈(例如，通过扬声器或音频输出连接)。音频反馈可以在对信息的请求上使用文本转话音算法来提供。用户可以通过计算设备102上的第二语音输入或其他用户输入来响应对信息的请求。其他用户输入可以包括按压或触摸与对信息的请求的回答相对应的用户界面元素。计算设备102可以将用户输入数据发送到服务器110。

例如，用户可以希望规划旅行，并且可以在计算设备102附近陈述“I want toplan a trip”。如上所述，服务器110可以确定意图的任务正在规划旅行。服务器110可以进一步确定可以需要额外的信息来执行规划旅行的任务。这可以基于用户的历史活动来确定。在一些方面中，服务器110可以在接收到语音输入之后访问用户采取的先前的动作。服务器110可以提供对与意图的任务相关联的信息的请求用于传输到计算设备102。计算设备102可以通过使用文本转话音算法来提供与关于意图的旅行目的地的后续问题相对应的音频反馈。计算设备102的用户可以通过陈述“I want to go to Paris(我想去巴黎)”来响应后续问题。包括与用户响应有关的信息的用户输入数据可以被计算设备102捕获。计算设备102可以将用户输入数据发送到服务器110。

在一些方面中，场境信息可以是社交图信息、用户历史活动等。社交图信息可以是与描绘社交网络服务中的用户间的个人关系的图相关联的信息。服务器110可以访问来自与用户账户相关联的社交网络服务的社交图信息。社交图信息的示例包括联系人信息、联系程度(degrees of contact)或与用户的社交图中的其他用户的行为有关的信息。与用户相关联的联系人信息可以是联系用户必需的信息。例如，联系人信息可以包括手机号码、电子邮件地址、其他通信服务的用户标识等。与联系程度相关联的信息可以指示在社交图中一个用户与另一个用户有多接近。

当与意图的任务相关联的至少一个服务需要社交图信息时，社交图信息可以与意图的任务有关。与意图的任务相关联的多个服务可以包括使用联系人信息与社交网络的一个或多个用户进行通信。作为示例，当意图的任务涉及与第二用户交互时，服务器110可以搜索第二用户的联系人信息。用户可以希望与第二用户一起在项目上工作，并且可以在计算设备102附近陈述“I want to work on an essay with Bob(我想与Bob一起写文章)”。服务器110可以接收与第一语音输入相关联的语音输入数据，“I want to work on anessay with Bob”，并确定意图的任务是“work on an essay with[Contac](与[联系人]一起写文章)”。服务器110可以访问与用户相关联的社交图信息并搜索Bob的联系人信息。Bob的联系人信息可以被用来开始的在用户和Bob之间经由例如消息收发服务的通信。另外，Bob的联系人信息可以用于在可由Bob编辑的基于云的文本编辑器上开始新的文档。

用户历史活动可以是与意图的任务相关联的过去的用户活动并且可以与用户账户相关联。服务器110可以与意图的任务相关联地存储先前访问的服务的类型以及先前访问服务的顺序。服务器110可以基于服务的名称或由服务提供的内容来确定当前正被访问的服务与意图的任务相关联，并且与意图的任务相关联地存储用户活动。例如，用户可以正在浏览互联网来规划旅行。用户可以首先访问航班预订网站。用户可以预订航班，并且然后访问酒店预约网站来预约房间。可以与意图的任务相关联地存储用户访问的特定网站以及访问该网站的顺序。

在框220中，可以基于意图的任务和获得的场境信息来确定要在计算设备102处访问的多个服务。如前所述，服务器110可以能够访问计算设备102上的用户可用的多个任务的列表。用户可用的多个任务的列表可以通过访问关于与用户账户相关联的web服务的特征的信息来创建或者可以通过例如应用编程接口(API)来从安装在计算设备102上的应用获得。服务器110可以基于上述方法来在多个任务的列表当中选择意图的任务。意图的任务可以与要访问的预定义的多个服务相关联。服务器110可以使用场境信息来定制要访问的多个服务。例如，服务器110可以使用场境信息来发起服务的特征、选择与意图的任务相关联的多个服务的子集、确定访问和显示多个服务的顺序等。

场境信息可以用于发起服务的特征。一些服务可以需要发起一些信息，并且可以利用场境信息来提供所需的信息。如上所述，一些任务可以需要社交图信息。例如，当意图的任务涉及与第二用户交互时，与意图的任务相关联的一个服务可以是与第二用户的视频通话。服务器110可以根据场境信息确定第二用户的联系人信息。服务器110可以向计算设备102发送与和第二用户视频通话相关联的指令以用于在计算设备102处执行。

服务器110可以基于用户历史活动和社交图信息来对与意图的任务相关联的多个服务进行排名。服务器110可以基于针对与意图的任务相关联的多个服务中的每一个的所计算的分值来对多个服务进行排名。该分值可以通过用户历史活动和社交图信息的加权值来确定。一个示例计算可以处于下面提供的格式：

其中每个f_n是与用户历史活动或社交图信息相关联的因子，并且每个w_n是指派给因子的权重。与历史活动相关联的因子可以是与意图的任务相关联的用户进行的先前的活动。用户进行的先前的活动的示例可以是例如服务被访问的次数、服务器110提供的服务未被用户使用的次数、或者针对给定任务访问的服务的次序。服务器110可以具有每次访问服务时递增的计数器。与计数器相关联的数字可以被用作因子之一的值。在另一个示例中，如下面进一步讨论的，服务器110可以跟踪用户选择使用不同服务而不是服务器110提供的服务的次数。与社交图信息相关联的因子可以是在社交图中用户的联系人在关于某个服务发帖的次数。在一些情况下，将对与用户更密切有关的联系人所共享的帖子给予更大的权重。连接的程度可以由用户与联系人之间的连接类型或者用户与联系人之间的共享连接的数目来确定。虽然公开了基于加权和来计算相关性分值的方法，但也可以使用其他计算，诸如加权积模型。

基于针对与意图的任务相关联的多个服务中的每一个服务的所计算的相关性分值，服务器110可以选择与意图的任务相关联的多个服务的子集。例如，意图的任务可以是查看最新消息。服务器110可以获得与意图的任务有关的场境信息，诸如最流行的新闻站点。服务器110可以访问包括与新闻有关的最常访问的用户网站的用户历史活动。在一些情况下，服务器110可以接收社交图信息，该社交图信息可以包括用户的社交图中的人共享的新闻文章。社交图信息还可以包括关于联系程度的信息。意图的任务可以与要在计算设备102处执行的多个服务相关联。特别地，意图的任务可以与要打开的多个新闻网站相关联。服务器110可以基于各个因子——诸如用户访问新闻网站的频率以及新闻网站是否已经被用户的社交图中的联系人共享——来确定多个新闻网站的子集。由与用户更亲近的联系人(与社交网络中的用户具有更多数目共享连接的联系人)共享的或者更频繁地共享的新闻网站可以被给予更大的权重。服务器110可以选择预定数目的网站来打开。

在一些方面中，服务器110可以通过基于场境信息对多个服务进行排名来确定在计算设备上显示或访问多个服务的顺序。可以基于用户历史活动来确定排名，其中用户历史活动可以包括关于与意图的任务相关联地访问的服务次序的信息。所述服务可以按照其相应的排名的顺序显示。在一些情况下，服务可以被分类为多个类型的服务，并且服务器110可以确定显示在多个类型的服务中的每一个中的具有最高排名的服务。例如，意图的任务可以是规划旅行。服务器110可以获得与规划旅行有关的场境信息。这可以涉及访问用户历史活动。特别地，服务器110可以确定最频繁访问的旅行规划网站。服务器110可以确定要在计算设备102处访问的多个服务与三个不同类型的网站相关联。服务器102可以对与意图的任务相关联的所有网站进行排名，并且选择第一类型网站当中排名最高的网站、第二类型网站当中排名最高的网站以及第三类型网站当中排名最高的网站。计算设备102可以通过打开三个不同的标签页来访问这三个网站，其中三个标签页中的每一个都在访问网站。基于用户历史活动，服务器110可以确定要打开的标签页的顺序和数目。在一些情况下，服务器110可以确定要显示的标签页的位置。第一服务可以与航班预订网站相关联，第二服务可以与旅馆预约网站相关联，并且第三服务可以与基于与目的地有关的搜索查询的搜索结果页面相关联。显示在用户界面上的标签页的顺序可以对应于与意图的任务有关的过去用户活动的次序。

在框225中，提供与多个服务相关联的指令以用于传输到计算设备102以供在计算设备102处执行。图3示出了在框225中可作为由服务器110提供的指令的结果显示的示例界面。更具体地，图3示出了在计算设备102的屏幕上显示的界面305。界面305包括标签页310、315和320。

基于来自服务器110的指令，计算设备102可以显示具有标签页310、315和320的界面305。与要访问的多个服务相关联的指令可以包括打开多个标签页的指令，其中多个标签页中的每一个访问与多个服务中的相应服务相关联的网站。例如，标签页310可以显示航班预订网站，标签页315可以显示旅馆预约网站，并且标签页320可以是关于根据搜索查询生成的目的地的一般信息。特定网站和呈现标签页的顺序可以基于用户历史活动和社交图信息。虽然与打开多个标签页相关联地描述了要在计算设备102处访问的多个服务，但是访问多个服务不限于打开标签页。在一些实例中，访问多个服务可以与打开一个或多个新浏览器窗口或打开安装在计算设备102上的一个或多个应用相关联。与要访问的多个服务相关联的指令可以包括打开多个应用的指令，其中多个应用中的每一个对应于多个服务中的相应服务。

在一个或多个实施方式中，过程200可以与用户改变用户的信用卡信息相关联。例如，由于例如期满日期的改变，用户可能需要在一个或多个网站上更新该用户的信用卡信息。用户可以在计算设备102附近陈述“I want to change my credit card information(我想改变我的信用卡信息)”。计算设备102可以捕获如上所述的语音输入并且向服务器110发送语音输入数据。在框205中，服务器110可以接收语音输入数据，并且在框210中，服务器110可以确定意图的任务。意图的任务可以是更新用户的信用卡信息，并且可以通过将语音输入数据与如上所述的用户可用的多个任务进行比较来确定。在框215中，服务器110可以获得与意图的任务有关的场境信息。在这个示例中，服务器110可以获得用户历史活动。用户历史活动可以包括用户的过去浏览历史以及购物网站的用户账户。在框220中，服务器110可以基于意图的任务和获得的场境信息来确定要在计算设备105上访问的多个服务。例如，服务器110可以基于意图的任务和场境信息来确定要访问的多个网站，其中每个标签页可以对应于可以包括用户的信用卡信息的网站。在框225中，服务器110可以提供与多个服务相关联的指令以用于传输到计算设备并用于在计算设备102处执行。计算设备102可以使用标签页310、315和320来显示界面305，其中每个标签页对应于与改变信用卡信息相关联的页面。通过这个过程，用户可以快速访问多个网站来更新该用户的信用卡。

在一些方面中，服务器110可以从计算设备102接收用户反馈数据。用户反馈数据可以包括在服务器110向计算设备102提供指令之后在预定时间阈值内检测到的与计算设备102的任何用户交互。服务器110可以确定当用户访问不同的服务时用户不意图访问多个服务。如果计算设备102不响应于语音输入而执行用户意图的任务，则用户可以在与多个服务相关联的指令被提供用于传输到计算设备102之后不久与计算设备102交互。可以与用户历史活动相关联地存储语音输入数据、意图的任务、用户反馈数据以及多个服务不是用户所意图的确定。该信息可以在下一次从计算设备102接收到语音输入数据时被访问。

例如，意图的任务可以是规划旅行。使用上述方法，服务器110可以提供与第一多个服务相关联的指令以用于传输到计算设备102并用于在计算设备102处执行。第一服务可以与第一航班预订网站相关联，第二服务可以与旅馆预约网站相关联，并且第三服务可以与基于与目的地有关的搜索查询的搜索结果页面相关联。服务器110可以检测到计算设备102正在访问不同的服务，例如，第二航班预订网站。基于这个信息，服务器可以确定用户不意图访问第一航班预订网站。服务器110可以存储与语音输入数据、意图的任务、用户反馈数据以及多个服务不是用户所意图的确定相关联的信息。下次服务器确定意图的任务正在规划旅行时，服务器110可以访问所存储的信息以确定要在计算设备处访问的第二多个服务，其中第二多个服务包括第二航班预订网站。

图4概念性地示出了可以实现本技术的一些实施方式的示例电子系统。电子系统400可以是计算机、电话、PDA或任何其他类型的电子设备。这样的电子系统包括各个类型的计算机可读介质和针对各个其他类型的计算机可读介质的接口。电子系统400包括总线408、处理单元412、系统存储器404、只读存储器(ROM)410、持久性存储设备402、输入设备接口414、输出设备接口406以及网络接口416。

总线408共同表示通信地连接电子系统400的多个内部设备的所有系统、外围设备和芯片组总线。例如，总线408将处理单元412与ROM 410、系统存储器404以及持久性存储设备402通信地连接。

处理单元412从这些各个存储器单元中检索要执行的指令和要处理的数据以执行本公开的过程。在不同的实施方式中处理单元可以是单个处理器或多核处理器。

ROM410存储处理单元412和电子系统的其他模块所需的静态数据和指令。另一方面持久性存储设备402是读写存储器设备。该设备是非易失性存储器单元，其即使当电子系统400关闭时也存储指令和数据。本公开的一些实施方式使用大容量存储设备(例如，磁盘或光盘及其对应的磁盘驱动器)作为持久性存储设备402。

其他实施方式使用可移动存储设备(例如，软盘、闪速驱动器及其对应的磁盘驱动器)作为持久性存储设备402。与持久性存储设备402相似，系统存储器404是读写存储器设备。然而，与存储设备402不同，系统存储器404是易失性读写存储器，诸如随机存取存储器。系统存储器404存储处理器在运行时需要的一些指令和数据。在一些实施方式中，本公开的过程存储在系统存储器404、持久性存储设备402或ROM 410中。例如，根据一些实施方式，各个存储器单元包括显示网页、处理向网页的用户录入以及生成URL的指令。处理单元412从这些各个存储器单元中检索要执行的指令和要处理的数据，以便执行一些实施方式的过程。

总线408还连接到输入和输出设备接口414和406。输入设备接口414使得用户能够向电子系统传送信息和选择命令。与输入设备接口414一起使用的输入设备包括例如字母数字键盘和指示设备(也称为“光标控制设备”)。输出设备接口406例如使得能够显示由电子系统400生成的图像。与输出设备接口406一起使用的输出设备包括例如打印机和显示设备，例如，阴极射线管(CRT)或液晶显示器(LCD)。一些实施方式包括设备，例如用作输入和输出设备的触摸屏。

最后，如图4所示，总线408还通过网络接口416将电子系统400耦合到网络(未示出)。以这种方式，计算机可以是计算机网络(例如，局域网(LAN)、广域网(WAN)或内联网或网络的网络——例如互联网——)的一部分。电子系统400的任何或全部组件可以与本公开结合使用。

许多上述特征和应用被实现为被指定为记录在计算机可读存储介质(也被称为计算机可读介质)上的指令集的软件过程。当这些指令由一个或多个处理单元(例如，一个或多个处理器、处理器的内核或其他处理单元)执行时，它们使得处理单元执行在指令中指示的动作。计算机可读介质的示例包括但不限于CD-ROM、闪速驱动器、RAM芯片、硬盘驱动器、EPROM等。计算机可读介质不包括无线或经有线连接传递的载波和电子信号。

在本说明书中，术语“软件”意在包括驻留在只读存储器中的固件或存储在磁存储器中的应用，其可以被读入存储器以供处理器处理。而且，在一些实施方式中，本公开的多个软件方面可以被实现为较大程序的子部分，同时保持本公开的不同软件方面。在一些实施方式中，多个软件方面也可以被实现为单独的程序。最后，一起实现这里描述的软件方面的单独程序的任何组合都在本公开的范围内。在一些实施方式中，软件程序当被安装以在一个或多个电子系统上操作时限定执行和实施软件程序的操作的一个或多个特定机器实施方式。

计算机程序(也被称为程序、软件、软件应用、脚本或代码)可以以任何形式的编程语言来编写，包括编译或解释语言、声明性或过程性语言，并且其可以以任何形式部署，包括作为独立程序或作为模块、组件、子程序、对象或适用于计算环境的其他单元。计算机程序可以但不一定对应于文件系统中的文件。程序可以存储在保存其他程序或数据(例如，存储在标记语言文档中的一个或多个脚本)的文件的一部分中，存储在专用于所讨论的程序的单个文件中，或者存储在多个协调文件中(例如，存储一个或多个模块、子程序或代码部分的文件)。计算机程序可以被部署以在一个计算机上或在位于一个站点或跨多个站点分布并通过通信网络互连的多个计算机上执行。

上述这些功能可以用数字电子电路、计算机软件、固件或硬件来实现。这些技术可以使用一个或多个计算机程序产品来实现。可编程处理器和计算机可以包括在移动设备中或封装为移动设备。过程和逻辑流程可以由一个或多个可编程处理器以及一个或多个可编程逻辑电路来执行。通用和专用计算设备和存储设备可以通过通信网络互连。

一些实施方式包括电子组件，例如，微处理器、存储和存储器，其将计算机程序指令存储在机器可读或计算机可读介质(替选地被称为计算机可读存储介质、机器可读介质或者机器可读存储介质)中。这样的计算机可读介质的一些示例包括RAM、ROM、只读压缩盘(CD-ROM)、可记录压缩盘(CD-R)、可重写压缩盘(CD-RW)、只读数字通用盘(例如，DVD-ROM、双层DVD-ROM)、各个可记录/可重写DVD(例如，DVD-RAM、DVD-RW、DVD+RW等)、闪存(例如，SD卡、迷你SD卡、微型SD卡等)、磁性或固态硬盘驱动器、只读和可记录盘、超高密度光盘、任何其他光学或磁性介质以及软盘。计算机可读介质可以存储可由至少一个处理单元执行，并且包括用于执行各个操作的指令集合的计算机程序。计算机程序或计算机代码的示例包括例如由编译器生成的机器代码，以及包括由计算机、电子组件或微处理器使用解释器执行的更高级代码的文件。

虽然以上讨论主要涉及执行软件的微处理器或多内核处理器，但是一些实施方式由一个或多个集成电路——例如专用集成电路(ASIC)或现场可编程门阵列(FPGA)——来执行。在一些实施方式中，这样的集成电路执行存储在电路自身上的指令。

如在本说明书和本申请的任何权利要求中所使用的，术语“计算机”、“服务器”、“处理器”和“存储器”全部指代电子或其他技术的设备。这些术语不包括人或人群。为了说明的目的，术语显示意指显示在电子设备上。如在本说明书和本申请的任何权利要求中所使用的，术语“计算机可读介质”完全限于以计算机可读形式存储信息的有形的物理对象。这些术语不包括任何无线信号、有线下载信号以及任何其他短暂信号。

为了提供与用户的交互，本说明书中描述的主题的实施方式可以在具有以下的计算机上实现：用于向用户显示信息的显示设备——例如阴极射线管(CRT)或液晶显示器(LCD)监视器以及用户可以通过其向计算机提供输入的键盘和指示设备——例如鼠标或轨迹球。其他类型的设备也可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感官反馈，例如，视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声音、语音或触觉输入。此外，计算机可以通过向用户使用的设备发送文档和从该设备接收文档来与用户交互；例如通过响应于从web浏览器接收的请求，将网页发送到用户的客户端设备上的web浏览器。

本说明书中所描述的主题的实施例可以在包括后端组件——例如作为数据服务器，或者包括中间件组件——例如作为应用服务器，或者包括前端组件——例如具有用户可以通过其与本说明书中描述的主题的实施方式交互的图形用户界面或web浏览器的客户端计算机，或者一个或多个这样的后端、中间件或者前端组件的任何组合的计算系统中实现。系统的组件可以通过数字数据通信的任何形式或介质——例如通信网络——互连。通信网络的示例包括局域网(LAN)和广域网(WAN)、互连网络(例如，互联网)和对等网络(例如，点对点对等网络)。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络进行交互。客户端和服务器之间的关系是通过运行在各个计算机上并且彼此具有客户端-服务器关系的计算机程序产生。在一些实施例中，服务器向客户端设备发送数据(例如，HTML页面)(例如，用于向与客户端设备交互的用户显示数据和从该用户接收用户输入的目的)。可以在服务器处从客户端设备接收在客户端设备处生成的数据(例如，用户交互的结果)。

应该理解，所公开的过程中的步骤的任何特定顺序或层次是示例方法的图示。基于设计偏好，应该理解，可以重新排列过程中步骤的特定顺序或层次，或者执行所有示出的步骤。一些步骤可以同时执行。例如，在某些情况下，多任务和并行处理可以是有利的。此外，上述实施例中的各个系统组件的分离不应当被理解为在所有实施例中都需要这样的分离，并且应该理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中或者封装到多个软件产品中。

提供之前的描述是为了使得本领域的任何技术人员能够实践在此描述的各个方面。这些方面的各个修改对于本领域技术人员来说将是显而易见的，并且这里定义的一般原理可以应用于其它方面。因此，权利要求并不旨在限于本文所示的方面，而是要符合与语言权利要求相一致的全部范围，其中除非特别指出，以单数形式引用要素并非意在表示“一个且仅有一个”，而是“一个或多个”。除非另外特别指出，否则术语“一些”是指一个或多个。男性(例如他的)的代词包括女性和中性(例如她和她的)，反之亦然。标题和子标题(如果有)只是为了方便而使用，并不限制主题的公开。

诸如“方面”的短语并不暗示这样的方面对主题技术是必不可少的，或者这样的方面适用于主题技术的所有配置。涉及方面的公开可以适用于所有配置或一个或多个配置。诸如方面的短语可以指代一个或多个方面，反之亦然。诸如“配置”的短语并不暗示这样的配置对主题技术是必不可少的，或者这种配置适用于主题技术的所有配置。涉及配置的公开可以应用于所有配置或一个或多个配置。诸如配置的短语可以指代一个或多个配置，反之亦然。

Claims

1.一种计算机实现的方法，包括：

从计算设备接收语音输入数据；

基于所接收的语音输入数据来确定意图的任务；

获得与所述意图的任务有关的场境信息；

基于所述意图的任务和所获得的场境信息来确定要在所述计算设备处访问的多个服务；以及

提供与所述多个服务相关联的指令以用于传输到所述计算设备和用于在所述计算设备处执行。

2.根据权利要求1所述的方法，其中，确定所述意图的任务包括：

将所接收的语音输入数据与用户可用的多个任务进行比较；以及

基于所接收的语音输入数据与所述用户可用的所述多个任务的比较，从所述用户可用的所述多个任务中选择一任务以作为所述意图的任务。

3.根据权利要求1所述的方法，其中，获得与所述意图的任务有关的场境信息包括：

提供对与所述意图的任务相关联的信息的请求以用于传输到所述计算设备；以及

从所述计算设备接收响应于所述请求的用户输入数据，其中，所述场境信息包括所接收的用户输入数据。

4.根据权利要求1所述的方法，其中，所述场境信息包括社交图信息，并且其中，要访问的所述多个服务是基于所述社交图信息来确定的。

5.根据权利要求4所述的方法，其中，所述社交图信息包括来自社交网络的联系人信息，并且其中，要访问的所述多个服务包括使用所述联系人信息与所述社交网络的一个或多个用户进行通信。

6.根据权利要求1所述的方法，其中，所述场境信息包括用户历史活动，并且其中，确定要访问的所述多个服务是基于所述用户历史活动的。

7.根据权利要求6所述的方法，进一步包括：

从所述计算设备接收用户反馈数据；

基于所述用户反馈数据来确定所述多个服务不是所述用户所意图的；以及

与所述用户历史活动相关联地存储所述语音输入数据、所述意图的任务、所述用户反馈数据以及所述多个服务不是所述用户所意图的确定。

8.根据权利要求1所述的方法，其中，与要访问的所述多个服务相关联的指令包括打开多个标签页的指令，并且其中，所述多个标签页中的每一个访问与所述多个服务中的相应服务相关联的网站。

9.根据权利要求1所述的方法，其中，与要访问的所述多个服务相关联的指令包括打开多个应用的指令，并且其中，所述多个应用中的每一个对应于所述多个服务中的相应服务。

10.根据权利要求1所述的方法，进一步包括：

基于所述场境信息来对所述多个服务进行排名，

其中，与所述多个服务相关联的指令包括基于所述排名来在所述计算设备上排列所述多个服务的显示的指令。

11.根据权利要求1所述的方法，进一步包括：

基于至少第一加权值和第二加权值计算与所述意图的任务相关联的所述多个服务中的每一个的相关性分值，所述加权值中的每一个与所述场境信息相关联，

其中确定所述多个服务包括基于所计算的相关性分值来选择与所述意图的任务相关联的所述多个服务的子集。

12.一种系统，包括：

一个或多个处理器；以及

非暂时性计算机可读介质，所述非暂时性计算机可读介质包括存储在其中的指令，所述指令在由所述一个或多个处理器执行时使得所述一个或多个处理器执行操作，所述操作包括：

从计算设备接收语音输入数据；

基于所接收的语音输入数据来确定意图的任务；

获得与所述意图的任务有关的场境信息，所述场境信息包括社交图信息；

13.根据权利要求12所述的系统，其中，确定所述意图的任务包括：

基于所接收的语音输入数据与所述用户可用的多个任务的比较，从所述用户可用的所述多个任务中一选择任务以作为所述意图的任务。

14.根据权利要求12所述的系统，其中，获得与所述意图的任务有关的场境信息包括：

15.根据权利要求12所述的系统，其中，所述场境信息包括用户历史活动，并且其中，确定要访问的所述多个服务是基于所述用户历史活动的。

16.根据权利要求14所述的系统，所述操作进一步包括：

从所述计算设备接收用户反馈数据；

17.根据权利要求12所述的系统，所述操作进一步包括：

基于所述场境信息来对所述多个服务进行排名，

18.一种非暂时性机器可读介质，包括存储在其中的指令，所述指令在由机器执行时使得所述机器执行操作，所述操作包括：

从计算设备接收语音输入数据；

基于所接收的语音输入数据来确定意图的任务；

获得与所述意图的任务有关的场境信息；

基于所述意图的任务和所获得的场境信息来确定要打开的多个标签页；以及

提供与打开所确定的多个标签页相关联的指令以用于传输到所述计算设备以供在所述计算设备处执行。

19.根据权利要求18所述的非暂时性机器可读介质，其中，确定所述意图的任务包括：

20.根据权利要求18所述的非暂时性机器可读介质，还包括：

基于所述场境信息来对所述多个服务进行排名，

其中，与要打开的所述多个标签页相关联的指令包括基于所述排名来在所述计算设备上排列所述多个标签页的指令。