CN116758919A

CN116758919A - 从单个设备访问多个虚拟个人助理（vpa）

Info

Publication number: CN116758919A
Application number: CN202310923331.1A
Authority: CN
Inventors: N·B·佩蒂尔; A·托德曼; B·A·克莱默
Original assignee: Bose Corp
Current assignee: Bose Corp
Priority date: 2016-08-31
Filing date: 2017-08-31
Publication date: 2023-09-15
Also published as: JP2019534522A; US20180061420A1; US20220157319A1; US20180061418A1; US10685656B2; EP4231285A3; EP4231285A2; JP6886022B2; WO2018045119A1; CN116758920A; EP3507797B1; US20200312330A1; CN109844856B; CN109844856A; EP3507797A1; US10186270B2; US11250859B2

Abstract

本文中描述的技术可以以一种计算机实现的方法来体现，该计算机实现的方法包括：在第一设备上呈现第一用户界面，第一用户界面包括多个虚拟个人助理(VPA)服务提供者的用户可选择菜单；以及接收标识特定VPA服务提供者的用户选择。该方法还包括：接收表示输入语音数据的第一信号；以及处理第一信号以生成包括输入语音数据的至少一部分的第一电子文件，第一电子文件根据特定VPA服务提供者的规范被生成。该方法还包括：将第一电子文件传输到与特定VPA服务提供者相关联的一个或多个远程计算设备；接收包括对输入语音数据的响应的至少第二电子文件；以及使得声学换能器基于第二电子文件来生成声学输出。

Description

从单个设备访问多个虚拟个人助理(VPA)

相关专利申请

本申请是国际申请号为PCT/US2017/049518、国际申请日为2017年08月31日、进入中国国家阶段日为2019年4月15日、中国国家申请号为201780063587.2的发明专利申请的分案申请。

技术领域

本公开总体上涉及用于通过诸如头戴式耳机的声学设备提供基于声音的服务和控制的技术。

背景技术

各种虚拟个人助理(VPA)(也被称为智能个人助理(IPA))在移动设备和计算设备上可用于提供声音激活的服务和控制。VPA的示例包括(由华盛顿州西雅图的亚马逊公司提供的)(由华盛顿州山景城的谷歌公司提供的)/>(由韩国水原市的三星电子提供的)S/>(由韩国首尔市的LG电子提供的)Voice/>以及(由华盛顿州雷蒙德的微软公司提供的)/>

发明内容

在一个方面中，本文的特征在于一种计算机实现的方法，其包括：在第一设备上呈现第一用户界面，第一用户界面包括多个虚拟个人助理(VPA)服务提供者的用户可选择菜单；以及接收标识特定VPA服务提供者的用户选择。该方法还包括：在第一设备处接收表示输入语音数据的第一信号；使用第一设备的一个或多个处理器来处理第一信号以生成包括输入语音数据的至少一部分的第一电子文件，第一电子文件根据特定VPA服务提供者的规范被生成。该方法还包括：将第一电子文件传输到与特定VPA服务提供者相关联的一个或多个远程计算设备；接收包括对包括于第一电子文件中的输入语音数据的响应的至少第二电子文件；以及使得声学换能器基于第二电子文件来生成声学输出。

在另一方面中，本文的特征还在于一种系统，其包括显示设备以及包括一个或多个处理设备的控制器。控制器被配置为在显示设备上呈现第一用户界面，第一用户界面包括多个虚拟个人助理(VPA)服务提供者的用户可选择菜单，并且接收标识特定VPA服务提供者的用户选择。控制器还被配置为接收表示输入语音数据的第一信号，并且处理第一信号以生成包括输入语音数据的至少一部分的第一电子文件。第一电子文件根据特定VPA服务提供者的规范被生成。控制器还被配置为将第一电子文件传输到与特定VPA服务提供者相关联的一个或多个远程计算设备，接收包括对包括于第一电子文件中的输入语音数据的响应的至少第二电子文件，并且使得声学换能器基于第二电子文件来生成声学输出。

在另一方面中，本文的特征在于一个或多个机器可读存储设备，具有编码于其上的计算机可读指令，计算机可读指令用于使一个或多个处理器执行各种操作。操作包括：在第一设备上呈现第一用户界面，第一用户界面包括多个虚拟个人助理(VPA)服务提供者的用户可选择菜单；以及接收标识特定VPA服务提供者的用户选择。操作还包括接收表示输入语音数据的第一信号，并且处理第一信号以生成包括输入语音数据的至少一部分的第一电子文件。第一电子文件根据特定VPA服务提供者的规范被生成。操作还包括：将第一电子文件传输到与特定VPA服务提供者相关联的一个或多个远程计算设备；接收包括对包括于第一电子文件中的输入语音数据的响应的至少第二电子文件；以及使得声学换能器基于第二电子文件来生成声学输出。

在另一方面中，本文的特征在于一种计算机实现的方法，其包括：接收表示输入语音数据的第一信号；使用一个或多个处理设备来处理第一信号以检测输入语音数据中的一个或多个词；以及基于在输入语音数据中检测到的一个或多个词来从多个声音激活的虚拟个人助理(VPA)服务提供者的列表中选择特定虚拟个人助理(VPA)服务提供者。该方法还包括：生成包括输入语音数据的至少一部分的第一电子文件，第一电子文件根据特定VPA服务提供者的规范被生成；以及将电子文件传输到与特定VPA服务提供者相关联的一个或多个远程计算设备。

在另一方面中，本文的特征在于一种系统，其包括存储器以及包括一个或多个处理设备的控制器。控制器被配置为接收表示输入语音数据的第一信号，处理第一信号以检测输入语音数据中的一个或多个词；基于在输入语音数据中检测到的一个或多个词来从多个声音激活的虚拟个人助理(VPA)服务提供者的列表中选择特定虚拟个人助理(VPA)服务提供者；控制器还被配置为：生成包括输入语音数据的至少一部分的第一电子文件，第一电子文件根据特定VPA服务提供者的规范被生成；以及将电子文件传输到与特定VPA服务提供者相关联的一个或多个远程计算设备。

在另一方面中，本文的特征在于一个或多个机器可读存储设备，具有编码于其上的计算机可读指令，计算机可读指令用于使一个或多个处理器执行各种操作。操作包括：接收表示输入语音数据的第一信号；处理第一信号以检测输入语音数据中的一个或多个词；以及基于在输入语音数据中检测到的一个或多个词来从多个声音激活的虚拟个人助理(VPA)服务提供者的列表中选择特定虚拟个人助理(VPA)服务提供者。操作还包括：生成包括输入语音数据的至少一部分的第一电子文件，第一电子文件根据特定VPA服务提供者的规范被生成；以及将电子文件传输到与特定VPA服务提供者相关联的一个或多个远程计算设备。

以上方面的实施方式可以包括以下特征中的一个或多个。

一个或多个远程计算设备可以为特定VPA服务提供者提供基于云的服务。用户界面可以被呈现在第一设备的显示器上。响应于接收到标识特定VPA服务提供者的用户选择，第二用户界面被呈现，第二接口被配置用于接收用于使用特定VPA服务提供者的证书。证书可以被提供给特定VPA服务提供者，并且响应于证书被认证而与一个或多个远程计算设备建立通信通道。表示输入语音数据的第一信号可以使用与第一设备连接的声学设备或远程控制器的麦克风来捕获。声学设备可以是以下之一：头戴式受话器、耳机、便携式扬声器以及助听器。远程控制器可以控制以下之一：声学设备、媒体流传送设备、家庭影院系统、或者电视。第一设备可以是移动设备，并且输入语音数据可以使用移动设备的麦克风来捕获。处理第一信号可以包括：确定包括于输入语音数据中的请求可在第一设备处寻址；以及由第一设备的一个或多个处理器来处理请求。可以从包括于第一电子文件中的输入语音数据排除请求。请求可以包括查询。

至少可以响应于传输第一电子文件而接收至少第二电子文件，第二电子文件包括对包括于第一电子文件中的输入语音数据的响应。可以使声学换能器基于第二电子文件来生成声学输出。选择特定VPA服务提供者可以包括：检测一个或多个词包括与特定VPA服务提供者相关联的一组一个或多个关键词；以及响应于检测到一个或多个词包括一组一个或多个关键词而选择特定VPA服务提供者。选择特定VPA服务提供者可以包括：确定一个或多个词不包括与列表中的VPA服务提供者中的任何一个相关联的一组一个或多个关键词，并且作为响应选择默认VPA服务提供者作为特定VPA服务提供者。一个或多个远程计算设备可以为特定VPA服务提供者提供基于云的服务。输入语音数据可以使用与第一设备连接的声学设备或远程控制器的麦克风来捕获。第一输入语音数据可以使用移动设备的麦克风来捕获。与特定VPA服务提供者相关联的一组一个或多个关键词可以是用户定义的或用户定制的。

本文中的各种实施方式可以提供以下优点中的一个或多个。多个VPA可以通过单个设备来获得，由此允许用户选择优选VPA用于不同的任务。例如，用户可以选择第一VPA用于询问指示，选择第二个不同的VPA用于在线购物，并且选择另一第三VPA用于管理预约。在设备处接收的语音输入可以被处理以确定包括于语音输入中的请求是否可以在设备处本地寻址，并且被相应地寻址。这可以导致请求比当请求从设备传输到远程VPA服务提供者时被更快地处理。语音输入可以基于例如对语音输入内的一个或多个关键词的检测被自动地路由到合适的VPA服务提供者。在一些情况下，语音输入还可以基于语音输入的内容被路由到合适的VPA服务提供者。例如，如果用户询问指示，则对应的语音输入可以被路由到用户的用于询问指示的优选VPA的提供者。因此，本文中描述的技术允许用户从单个设备利用多个VPA，其可以在一些情况下改进与设备的口头交互相关联的用户体验。

本公开中描述的特征中的两个或更多个特征，包括本发明内容中描述的那些特征，可以被组合以形成本文中未具体描述的实施方式。

在附图和下面的描述中阐述一个或多个实施方式的细节。其他特征、目的和优点将从说明书和附图、并且从权利要求书变得显而易见。

附图说明

图1是其中一个或多个设备可以与多个基于云的VPA服务提供者交互的示例环境的框图。

图2示出了被配置为与多个VPA服务提供者交互的设备的示例框图。

图3A至图3C是与将声学设备配置为与多个VPA服务提供者交互的示例屏幕截图。

图4是用于与用户选择的VPA服务提供者交互的示例过程的流程图。

图5是基于在语音输入中检测到一个或多个词的存在来选择多个VPA服务提供者中的一个VPA服务提供者的示例过程的流程图。

具体实施方式

虚拟个人助理(VPA)(其还可以被称为智能个人助理(IPA)或知识导航器)越来越多地被用于移动设备和其他计算设备中，例如以促进与设备的免提交互。VPA可以被实施为运行于特定设备(例如，计算设备或移动设备)上的代理应用，并且与对应的VPA服务提供者相关联的一个或多个远程计算设备(例如，服务器)通信以执行任务并基于用户输入来提供响应和服务。例如，代理应用可以将用户输入(例如，语音输入)的至少一部分提供给与远程的基于云的VPA服务提供者相关联的一个或多个计算设备(例如，服务器)，基于云的VPA服务提供者然后处理用户输入的该部分以生成响应。响应被传输回到特定设备，该特定设备然后基于响应来运行一个或多个任务(例如，生成显示和/或播放音频文件)。VPA服务提供者可以使用来自各种其他来源的信息(例如，特定设备的位置信息、如可例如从各种数据库获得的关于天气、新闻、股票价格等等的信息、如可例如从用户账户获得的用户信息和日程、等等)用于生成响应。

VPA服务提供者通常将VPA服务提供给对应的特定设备或应用。例如，各种移动设备具有运行于设备上的专用VPA应用。在一些情况下，VPA服务提供者可以提供可以用于将对应的VPA集成到设备中的应用编程接口(API)。无论哪种方式，仅仅一个VPA可以可从特定设备获得。然而，在可从多个VPA服务提供者获得多个VPA的情况下，用户可能对利用VPA的选择感兴趣。例如，用户可能想要询问使用第一VPA(例如，由加利福尼亚州库比蒂诺的苹果公司提供的)来驱动指示，但是优选第二VPA(例如，由华盛顿州西雅图的亚马逊公司提供的/>)用于在线订购商品。本文中描述的技术允许从单个设备选择多个可用VPA(或VPA服务提供者)。该选择可以经由预先配置的用户设置例如基于用户输入中的一个或多个关键词的存在或者例如基于用户输入的内容自动地来做出。在一些实施方式中，该选择可以从诸如头戴式耳机或连接到源设备(例如，移动设备、媒体播放器、或流传输设备)的耳机个人声学设备做出，其转而可以允许用户通过个人声学设备访问它们喜欢的VPA服务而无需投资与对应的VPA服务相关联的设备。在一些实施方式中，本文中描述的技术还可以允许用户基于例如与不同查询和请求相关联的偏好在VPA选择之间无缝地切换。在其中个人声学设备具有用于与基于云的VPA服务提供者直接通信的一个或多个内置通信模块的实施方式中，源设备可能是不需要的。

图1是其中一个或多个设备可以与多个基于云的VPA服务提供者交互的示例环境100的框图。在示例环境100中，头戴式耳机102例如经由诸如连接或/>连接的无线连接被连接到移动设备105。此外，除非另行指出，否则如本文中所使用的术语头戴式耳机包括各种类型的个人声学设备，诸如耳罩式和入耳式头戴式受话器、耳机、耳塞、助听器、或其他启用了无线的声学设备。诸如智能手表103、便携式扬声器、对接扬声器、家庭影院系统、无线电收发装置、立体扬声器、或健身跟踪器的其他设备还可以用于与多个VPA服务提供者125通信。在一些实施方式中，可以与多个基于云的VPA服务提供者125通信的设备还可以包括被配置为控制媒体播放设备112的远程控制器110。媒体播放设备112可以包括例如媒体流传送设备、光盘播放器、家庭影院接收器、或可以连接到TV的扬声器设备。本文中主要使用连接到移动设备105的头戴式耳机102来描述技术。然而，该描述也适用于诸如远程控制器110、媒体播放设备112、智能手表103的其他设备或者诸如便携式扬声器、对接扬声器、家庭影院系统、无线电收发装置、立体扬声器、或健身跟踪器的其他设备。例如，远程控制器110或智能手表103可以包括被配置为接收输入语音数据并分别直接通过网络120或经由诸如媒体播放设备112或移动设备105的中介设备将输入语音数据传送到一个或多个VPA服务提供者125的麦克风。

头戴式耳机102和/或移动设备105可以被配置为与多个VPA服务提供者125a、125b和125c(总体上用125表示)中的每个相关联的一个或多个计算设备(例如，服务器130)通信。例如，由设备102、105、110和/或112接收的输入语音数据的至少一部分(基于例如用户101的语音)可以通过网络120被提供给VPA服务提供者125中的一个或多个，其然后处理输入语音数据的接收到的部分以生成响应。输入语音的部分可以根据特定目的VPA服务提供者125的规范而被封装成一个或多个电子文件。表示响应的信息然后通过网络120被传输回到移动设备105和/或个人声学设备102。信息然后在接收方设备处被处理以为用户101生成输出(例如，音频剪辑或视频显示)。在一些实施方式中，输入语音数据可以由第一声学设备(例如，智能手表103)处的麦克风捕获并且输出可以被路由到第二声学设备(例如，头戴式耳机102)。

在一些实施方式中，输入语音数据可以经由头戴式耳机102的麦克风104来捕获。在一些实施方式中，麦克风104可以由头戴式耳机的壳体支持(并且可以例如为与头戴式耳机中的有源降噪电路相关联的反馈或前馈麦克风)。输入语音数据还可以由诸如移动设备105或智能手表103的另一设备的麦克风捕获。在一些实施方式中，头戴式耳机102可以包括可以被激活以触发麦克风104捕获VPA服务提供者125期望的语音输入数据的VPA访问按钮。在一些实施方式中，麦克风104可以被配置为总是监听指示优选的VPA服务提供者的一个或多个关键词。例如，如果与VPA服务提供者A 125a相关联的关键词是“你好”并且被麦克风104检测到，则在检测到的关键词之后的词或短语被捕获为VPA服务提供者A 125a期望的输入语音数据。类似地，如果与VPA服务提供者B 125b相关联的关键词是“告诉我”并且被麦克风104检测到，则在检测到的关键词之后的词或短语被捕获为VPA服务提供者A 125b期望的输入语音数据。在一些实施方式中，这些关键词由VPA服务提供者指示。

在一些实施方式中，用户可以定制与特定VPA服务提供者相关联的关键词和/或短语。例如，如果用户对使用VPA服务提供者A用于指示感兴趣，则用户可以将个人声学设备102配置为标识将指示输入语音数据是VPA服务提供者A期望的定制的关键词和/或短语(例如，“给我指示”或“指示”)。类似地，如果用户对使用VPA服务提供者B用于在线购物感兴趣，则用户可以将个人声学设备102配置为标识将指示输入语音数据是VPA服务提供者B期望的定制的关键词和/或短语(例如，“我想购物”或“购物”)。用户可以经由声音和/或视觉用户界面(例如，如下面所描述的图3A-3C中示出的接口)来配置这些定制的关键词和/或短语。输入语音数据可以之后被提供给连接的移动设备105用于处理并随后封装以用于传输到目的VPA服务提供者125。这可以例如使用运行于移动设备105和/或个人声学设备上的应用程序来完成。在一些实施方式中，一旦麦克风104被触发以捕获输入语音数据，头戴式耳机102就可以与移动设备105建立连接(例如，无线连接)并开始将由麦克风捕获的数据流传输到运行于移动设备105上的应用程序。在一些实施方式中，应用可以已经在麦克风104被触发时运行于移动设备上。在一些情况下，在应用还没有运行的情况下，对麦克风104的触发可以引起应用被启动。在一些实施方式中，在对麦克风104的触发后对应用的启动可以要求(例如，经由移动设备105)指示启动应用的准许的用户输入。

应用程序可以被配置为基本上连续地记录来自麦克风104的传入数据，直到例如检测到语音中的间隙(其可能指示口头输入的结束)。应用可以然后被配置为根据如由用户选择或指示的目的VPA服务提供者的规范将记录的音频的至少一部分封装成一个或多个电子文件。例如，针对VPA服务提供者A 125a规定的文件格式可以是.wav，而针对VPA服务提供者125b和125c规定的文件格式分别是.mpg和.txt。在该示例中，分别取决于目的VPA服务提供者是125a还是125b，应用可以被配置为将输入语音的部分封装成.wav或.mpg文件。如果目的VPA服务提供者是125c，则应用还可以被配置为执行语言标识并根据VPA服务提供者C125c的规范将所标识的语音的部分包括在.txt文件内。

在一些实施方式中，头戴式耳机102可以直接将语音输入的至少一部分传送到目的VPA服务提供者125。例如，如果头戴式耳机102是启用了无线的(例如，具有IP地址的启用了的设备)，则头戴式耳机102可以直接通过网络120将语音输入的一部分传输到目的VPA服务提供者125。类似地，如果远程控制器110是启用了无线的，则远程控制器110可以直接通过网络120与VPA服务提供者125通信(例如，绕过对应的媒体播放设备112)。在这样的情况下，头戴式耳机102(或远程控制器110)上的一个或多个处理设备(例如，微处理器、微控制器、或数字信号处理器)可以被配置为运行根据目的VPA服务提供者125的规范来处理输入语音数据的应用程序。

图2示出了被配置为与多个VPA服务提供者交互的设备200的示例框图。设备200的示例可以包括头戴式耳机102、智能手表103、移动设备105、或者远程控制器110。在一些实施方式中，设备200包括用于捕获输入语音的一个或多个麦克风205和用于基于例如对输入语音数据的响应来生成语音输出的一个或多个声学换能器(例如，扬声器)。在一些实施方式中，设备200包括被配置为呈现例如与访问多个VPA服务提供者之一相关联的一个或多个用户界面的显示设备207。例如，显示设备207可以被配置为呈现包括多个VPA服务提供者的用户可选择菜单的用户界面。在一些实施方式中，显示设备207还可以别配置为呈现用于接收用于使用特定VPA服务提供者的证书(例如，用户名-密码对)的用户界面。在一些实施方式中，例如在设备200(例如，经由无线连接)被系链到移动设备(或包括显示器的另一设备)的情况下，设备200可以不包括显示设备207。在一些实施方式中，例如其中存在有限显示空间的入耳式头戴式耳机，一个或多个声学换能器可以用于将声音提示提供给用户，其可以用作用于配置多个VPA服务提供者的用户界面。在一些实施方式中，麦克风205和/或声学换能器210可以被设置在单独的设备中。例如，如果设备200是移动设备，则麦克风205和/或声学换能器210可以被设置在连接到移动设备的单独的设备(例如，头戴式耳机)中。

由麦克风205捕获(或从另一设备接收)的输入语音数据可以由设备200以各种方式来处理。在一些实施方式中，输入语音数据的至少一部分可以在设备200处本地处理以寻址包括于输入语音数据内的一个或多个请求或查询。例如，如果输入语音数据的一部分请求与设备200有关的基于产品的信息或控制，则输入语音数据的部分可以在设备200处或在连接的设备处本地处理和/或寻址。在一些实施方式中，设备200可以是声学设备(例如，头戴式受话器)被连接到的移动设备。在这样的情况下，通过头戴式受话器的麦克风接收的输入语音数据可以在移动设备处(例如，使用运行于移动设备上的应用)来解析，并且输入语音数据的至少一部分可以在移动设备处本地寻址/处理，例如以控制和/或提供关于声学设备的信息。这样的基于产品的信息和控制的示例包括关于声学设备的电池水平的查询以及用于改变声学设备的音量水平或其他回放控制参数的指令。在另一示例中，输入语音数据的一部分可以请求与应用生态系统有关的信息和/或控制。这样的信息和控制的示例包括关于哪些应用当前运行于连接的移动设备上(或设备200本身上，例如，在设备200能够运行应用的情况下)的查询、关于移动设备的剩余电池功率的查询、或者在移动设备上执行特定任务(例如，启动特定应用或提供特定信息)的请求。在这样的情况下，输入语音数据的部分还可以在本地处理和/或寻址，例如在设备200本身处，或者在连接到设备200的移动设备处(例如，在设备200是诸如头戴式受话器的声学设备的情况下)。

在一些实施方式中，对输入语音数据的至少部分的这样本地处理可以减少被传输到远程计算设备(例如，与基于云的VPA服务提供者相关联的一个或多个计算设备)的数据量和/或寻址请求的对应的部分所需要的时间。例如，关于设备200的剩余电池寿命的信息在本地可获得，并且可以被提供给用户而无需将信息传输到VPA服务提供者并基于从VPA服务提供者接收的响应来生成输出。在一些情况下，这样的本地处理可以减少将信息提供给用户的延时，由此潜在地改进总体用户体验。

在一些实施方式中，如果输入语音数据的一部分可以在本地处理和/或寻址，则该部分可以从被传输到VPA服务提供者的信息中排除。在一些实施方式中，即使输入语音数据的一部分在本地可寻址，该部分也不从被传输到VPA服务提供者的信息中排除。在这样的情况下，如果由VPA服务提供者生成的响应在本地生成的响应之前被接收到，则前者可以用于将对应的输出提供给用户。这样的冗余可以有用于例如利用可从VPA服务提供者获得的优越处理功率(或者补偿对本地可用的足够的处理功率的缺乏)，并且确保响应尽可能快地被提供给用户。

如果输入语音数据的一部分请求在本地不可用的信息和/或控制，则输入语音数据的部分被用于生成被传输到所选择的VPA服务提供者以用于处理的一个或多个电子文件。这样的信息和/或控制的示例可以包括可能在远程数据库中可获得的信息(例如，天气信息，“埃菲尔铁塔多高？”或者“下一个30B巴士什么时间到南站？”)，或者可能要求与第三方服务提供者的计算设备的通信的指令(例如，“打开我外面的灯”或者“将卧室恒温器在6:30PM设置为75度”。)。在这样的情况下，设备200根据所选择的VPA服务提供者的规范来处理输入语音数据以基于输入语音数据的至少一部分来生成一个或多个电子文件。

设备200包括控制器212，该控制器处理输入语音数据，例如，以确定输入语音数据的至少一部分可以在本地处理并且相应地生成要被传输到所选择的VPA服务提供者的一个或多个电子文件。控制器212可以包括可以用于实施控制器212的各种模块的一个或多个处理设备(例如，一个或多个微处理器、微控制器、或数字信号处理器)。在一些实施方式中，控制器可以在设备200上运行用于实施一个或多个模块的应用。在一些实施方式中，控制器212包括处理输入语音数据以确定输入语音数据的内容的语音识别引擎215。语音识别引擎的输出可以用于确定例如多个VPA服务提供者中的哪些已经被用户选择以处理输入语音数据内的请求。例如，语音识别引擎215的输出可以被分析以监视指示用户对VPA服务提供者的选择的一个或多个关键词。如果这样的关键词被检测到，则输入语音数据的至少部分被准备用于路由到所选择的VPA服务提供者。另一方面，如果没有关键词被检测到，则输入语音数据的相关部分可以被路由到默认VPA服务提供者(其还可以由用户预先选择)。

控制器212还可以包括基于要被传输到所选择的VPA服务提供者的输入语音数据的部分来生成数据分组的分组生成器225。例如，如果控制器确定输入语音数据的一部分可以在设备200处可本地寻址，则分组生成器225可以被配置为从为所选择的VPA服务提供者准备的数据分组中省略相关部分。在一些实施方式中，这样的部分可以甚至在这些部分可在设备200处本地寻址的情况下仍然被包括于数据分组中。

控制器212还包括根据所选择的VPA的规范来格式化信息以被传输到所选择的VPA的VPA特定处理程序230。例如，如果特定VPA服务提供者要求以.wav文件的形式的输入，则VPA特定处理程序230可以被配置为基于例如被确定为被传输到特定VPA服务提供者的输入语音数据的一部分来生成这样的波文件。在另一示例中，如果选择的VPA服务提供者要求以.txt文件的形式的输入，则VPA特定处理程序230可以在创建用于所选择的VPA服务提供者的这样的文件时与语音识别引擎协同。

控制器212可以响应于对输入语音数据的一部分的本地处理和/或将输入语音数据的一部分传输到远程VPA服务提供者而接收表示对包括于输入语音数据内的请求、查询等等的响应的一个或多个电子文件。在一些实施方式中，接收到的电子文件可以用于引起声学换能器生成声学输出。在一些实施方式中，这可以通过被配置为基于包括响应(本地生成的，或者是从远程VPA服务提供者接收的)的一个或多个电子文件来生成智能语音的文本到语音(TTS)引擎220来促进。在一些实施方式中，接收到的电子文件可以用于引起在与设备200相关联的显示器上或在连接到设备200的移动设备处的输出。

图3A至图3C是与将声学设备配置为与多个VPA服务提供者交互的示例屏幕截图。这些图中示出的屏幕截图可以被呈现在例如以上参考图2描述的显示设备207上。具体地，图3A示出了包括多个VPA服务提供者的用户可选择菜单的用户界面305。用户界面305可以用于例如设置默认VPA服务提供者(例如，当用户未采用口头输入指定VPA服务提供者时使用的VPA服务提供者)或者指定VPA服务提供者用于所有请求和查询。在一些实施方式中，用户界面305还可以用于配置包括于用户可选择菜单中的各种VPA服务提供者。

在一些实施方式中，响应于经由用户界面305接收到特定VPA服务提供者的用户选择，第二用户界面310(如图3B所示)被呈现在显示设备上用于接收用于使用特定VPA服务提供者的证书。例如，如果用户选择指示选择VPA 2作为VPA服务提供者，则第二用户界面310可以显示用于接收与设置用于使用VPA 2的账户相关联的证书(例如，电子邮件/用户名和密码对)的一个或多个文本框。在从用户接收到证书后，证书可以被提供给对应的VPA服务提供者用于认证，并且在对证书的认证后建立与对应的VPA服务提供者相关联的一个或多个计算设备的通信通道。在一些实施方式中，用于接收语音输入的第三用户界面315(如图3C所示)在证书被认证后被呈现。尽管图3A-3C中的示例描绘了用于配置一个或多个VPA服务提供者的视觉用户界面，但是在其他实施方式中，用户可以经由个人设备上(例如，以上参考图2描述的设备200上)的语音用户界面和/或可手动操作的控制来配置并建立到VPA服务提供者的连接。

图4示出了用于与用户选择的VPA服务提供者交互的示例过程400的流程图。在一些实施方式中，过程400的至少一部分可以运行于诸如以上所描述的设备200的设备上。例如，过程400可以至少部分地运行于移动设备、头戴式耳机、远程控制器或者智能手表上。在一些实施方式中，过程400的执行至少部分地通过运行于移动设备的应用来促进。

过程400的操作包括在第一设备上呈现第一用户界面，第一用户界面包括多个虚拟个人助理(VPA)服务提供者的用户可选择菜单(410)。用户界面可以被呈现在例如第一设备的显示设备上。第一设备可以为例如移动设备、头戴式耳机、智能手表或者远程控制器。在一些实施方式中，第一接口可以基本上类似于图3A中图示的用户界面305。过程400的操作还包括接收标识特定VPA服务提供者的用户选择(420)。用户选择可以经由诸如用户界面305的用户界面接收，或者作为口头输入被接收。

过程400的操作还包括在第一设备处接收表示输入语音数据的第一信号(430)。在一些实施方式中，表示输入语音数据的第一信号可以使用声学设备(例如，头戴式耳机、头戴式受话器、耳机、便携式扬声器、或者助听器)或智能手表的麦克风来捕获。输入语音数据还可以使用控制例如声学设备、媒体流传送设备、家庭影院系统或者电视的远程控制器的麦克风来捕获。在一些实施方式中，输入语音数据还可以是使用移动设备或者诸如膝上型或台式计算机的另一计算设备的麦克风来捕获，移动设备诸如为智能电话、平板电脑、或者电子阅读器。

过程400的操作还包括使用第一设备的一个或多个处理器来处理第一信号以生成包括输入语音数据的至少一部分的第一电子文件，第一电子文件是根据特定VPA服务提供者的规范来生成的(440)。在一些实施方式中，处理第一信号可以包括确定包括于输入语音数据中的请求是在第一设备处可本地寻址的，并且通过第一设备的一个或多个处理器来处理请求。在一些实施方式中，可本地寻址的请求可以从包括于第一电子文件中的输入语音数据排除。第一电子文件可以根据特定VPA服务的规范来生成，例如如以上参考图1和图2所描述的。

过程400的操作还包括将第一电子文件传输到与特定VPA服务提供者相关联的一个或多个远程计算设备(450)并接收包括对包括于第一电子文件中的输入语音数据的响应的第二电子文件(460)。一个或多个远程计算设备可以是为特定VPA服务提供者提供基于云的服务的一个或多个远程计算设备。操作还包括使声学换能器基于第二电子文件来生成声学输出(470)。如果过程400被运行于移动设备上，并且声学换能器在头戴式耳机上，则这可以包括将接收到的响应的表示从移动设备传输到头戴式耳机使得头戴式耳机中的声学换能器(例如，扬声器)可以用于回放响应的可听版本。

图5示出了用于基于在语音输入中检测到一个或多个词的存在来选择多个VPA服务提供者中的一个VPA服务提供者的示例过程500的流程图。在一些实施方式中，过程500的至少一部分可以运行于诸如以上所描述的设备200的设备上。例如，过程500可以至少部分地运行于移动设备、头戴式耳机、远程控制器或者智能手表上。在一些实施方式中，过程500的执行至少部分地通过运行于移动设备的应用来促进。

过程500的操作包括接收表示输入语音数据的第一信号(510)。在一些实施方式中，表示输入语音数据的第一信号可以使用声学设备(例如，头戴式耳机、头戴式受话器、耳机、便携式扬声器、或者助听器)或智能手表的麦克风来捕获。输入语音数据还可以使用控制例如声学设备、媒体流传送设备、家庭影院系统或者电视的远程控制器的麦克风来捕获。在一些实施方式中，输入语音数据还可以是使用移动设备或者诸如膝上型或台式计算机的另一计算设备的麦克风来捕获，移动设备诸如为智能电话、平板电脑、或者电子阅读器。

过程500的操作还包括处理第一信号以检测输入语音数据中的一个或多个词(520)。一个或多个词可以是与各种VPA服务提供者相关联的关键词。例如，关键词可以是由特定VPA服务提供者预先确定为触发该VPA服务提供者的词，或者关键词可以是用户已经定制为与特定VPA服务提供者相关联的词。在一些实施方式中，这可以例如使用以上参考图2描述的控制器212的语音识别引擎215来执行。

过程500的操作还包括基于在输入语音数据中检测到的一个或多个词来从多个声音激活的虚拟个人助理(VPA)服务提供者的列表中选择特定虚拟个人助理(VPA)服务提供者(530)。例如，设备200的控制器212可以被配置为检测一个或多个词包括与特定VPA服务提供者相关联的一组一个或多个关键词，并且作为响应，选择特定VPA服务提供者用于寻址/路由输入语音数据的至少一部分。在一些实施方式中，如果输入语音数据不包括与VPA服务提供者中的任何相关联的关键词，则默认VPA服务提供者可以被选择以寻址输入语音数据的至少一部分。

过程500的操作还包括生成包括输入语音数据的至少一部分的第一电子文件，第一电子文件是根据特定VPA服务提供者的规范来生成的(540)。在一些实施方式中，这可以包括确定包括于输入语音数据中的请求是在运行过程500的设备上可本地寻址的，并且通过该设备的一个或多个处理器来处理请求。在一些实施方式中，可本地寻址的请求可以从包括于第一电子文件中的输入语音数据排除。第一电子文件可以根据特定VPA服务的规范来生成，例如如以上参考图1和图2所描述的。

过程500的操作还包括将第一电子文件传输到与特定VPA服务提供者相关联的一个或多个远程计算设备(550)。一个或多个远程计算设备可以是为特定VPA服务提供者提供基于云的服务的一个或多个远程计算设备。第一电子文件可以经由与一个或多个远程计算设备建立的通信通道被传输。如果这样的通道还没有被建立，则用于使用特定VPA服务提供者的证书可以被获取(例如，从存储位置，或者经由如图3所示的用户界面从用户)，并且被提供给特定VPA服务提供者。之后响应于证书被VPA服务提供者认证，可以建立通信通道。

响应于将第一电子文件传输到VPA服务提供者，一个或多个电子文件可以从远程计算设备接收，这样的文件包括对包括于第一电子文件中的输入语音数据的响应。之后经由声学换能器至少部分地基于第二电子文件来生成声学输出。

本文中描述的功能或其部分以及其各种修改(下文中称为“功能”)可以至少部分地经由计算机程序产品来实施，计算机程序产品例如为有形地体现在诸如一个或多个非瞬态机器可读介质或存储设备的信息载体中的计算机程序，其用于由一个或多个数据处理装置运行或者控制一个或多个数据处理装置(例如，可编程处理器、计算机、多个计算机、和/或可编程逻辑部件)的操作。

计算机程序可以以任何形式的编程语言(包括编译语言或解释语言)来编写，并且其可以以任何形式来部署，包括独立程序或者作为模块、部件、子例程、或适合于使用在计算环境中的其他单元。计算机程序可以被部署为运行于一个计算机上或在一个站点处或跨多个站点分布并且通过网络相互连接的多个计算机上。

与实施功能中的全部或部分相关联的动作可以由运行一个或多个计算机程序以执行校准过程的功能的一个或多个可编程处理器执行。功能中的全部或部分可以被实施为专用逻辑电路，例如FPGA和/或ASIC(专用集成电路)。在一些实施方式中，功能的至少一部分还可以运行于浮点或定点数字信号处理器(DSP)(诸如由Analog Devices公司开发的超级哈佛架构单芯片计算机(SHARC))上。

适合于运行计算机程序的处理器包括例如通用微处理器和专用微处理器两者以及任何种类的数字计算机的任何一个或多个处理器。一般，处理器将从只读存储器或随机访问存储器或两者接收指令和数据。计算机的部件包括用于运行指令的处理器和用于存储指令和数据的一个或多个存储器设备。

本文中未具体描述的其他实施例和应用也在随附权利要求的范围内。例如，本文中描述的技术可以用于基于输入语音数据的内容对VPA服务提供者的自动化选择。例如，机器学习过程可以用于确定用户通常使用第一VPA服务提供者用于询问驱动指示，并且使用第二VPA服务提供者用于在线购物。因此，当输入语音数据被确定为包括购物请求时，请求可以甚至在用户还没有明确指出针对第二VPA的关键词的情况下被自动地路由到第二VPA。在一些实施方式中，用户可以例如经由用户界面指定不同的VPA服务提供者用于不同类型的请求，并且这样的偏好可以用于将输入语音数据自动路由到不同的VPA服务提供者。机器学习过程可以响应于特定VPA服务提供者被提供基于用户输入而更新和细化。例如，如果用户经由用户界面指示不同的VPA服务提供者应当已经针对被处理的特定请求被选择，则机器学习过程可以在处理未来请求时考虑该信息。

本文中描述的不同实施方式的元件可以被组合以形成以上未具体阐述的其他实施例。元件可以在没有不利地影响它们的操作的情况下从本文中描述的结构中忽略。另外，各种单独的元件可以被组合成一个或多个个体元件以执行本文中描述的功能。

Claims

1.一种计算机实现的方法，包括：

在第一设备上呈现第一用户界面，所述第一用户界面包括多个虚拟个人助理VPA服务提供者的用户可选择菜单；

经由在所述第一设备上被呈现的所述第一用户界面接收标识特定VPA服务提供者的用户选择；

在所述第一设备处接收表示输入语音数据的第一信号；

由所述第一设备的一个或多个处理器确定所述输入语音数据的第一部分在所述第一设备处可寻址，所述输入语音数据的所述第一部分表示请求；

响应于确定所述输入语音数据的所述第一部分在所述第一设备处可寻址，由所述第一设备的所述一个或多个处理器处理所述输入语音数据的所述第一部分；

使用所述第一设备的所述一个或多个处理器处理所述第一信号以生成第一电子文件，所述第一电子文件包括所述输入语音数据的至少第二部分，所述第一电子文件根据所述特定VPA服务提供者的规范而被生成，其中所述输入语音数据的所述第一部分从所述第一电子文件被排除；

将所述第一电子文件传输到与所述特定VPA服务提供者相关联的一个或多个远程计算设备；

接收至少第二电子文件，所述第二电子文件包括对被包括在所述第一电子文件中的所述输入语音数据的响应；以及

使得声学换能器基于所述第二电子文件来生成声学输出。

2.根据权利要求1所述的方法，其中所述一个或多个远程计算设备提供针对所述特定VPA服务提供者的基于云的服务。

3.根据权利要求1所述的方法，其中所述用户界面被呈现在所述第一设备的显示器上。

4.根据权利要求1所述的方法，还包括：

响应于接收到标识所述特定VPA服务提供者的所述用户选择，呈现第二用户界面，以用于接收用于使用所述特定VPA服务提供者的证书；

将所述证书提供给所述特定VPA服务提供者；以及

响应于所述证书被认证，利用所述一个或多个远程计算设备来建立通信通道。

5.根据权利要求1所述的方法，其中表示输入语音数据的所述第一信号使用与所述第一设备连接的声学设备或远程控制器的麦克风来捕获。

6.根据权利要求5所述的方法，其中所述输入语音数据使用所述声学设备的所述麦克风来捕获，并且所述声学设备是以下中的一项：头戴式受话器、耳机、便携式扬声器、以及助听器。

7.根据权利要求5所述的方法，其中所述输入语音数据使用所述远程控制器的所述麦克风来捕获，其中所述远程控制器控制以下中的一项：声学设备、媒体流传送设备、家庭影院系统或者电视。

8.根据权利要求1所述的方法，其中所述第一设备是移动设备，并且表示输入语音数据的所述第一信号使用所述移动设备的麦克风来捕获。

9.根据权利要求1所述的方法，其中所述请求包括查询。

10.一种系统，包括：

显示设备；以及

控制器，包括一个或多个处理设备，所述控制器被配置为：

在所述显示设备上呈现第一用户界面，所述第一用户界面包括多个虚拟个人助理VPA服务提供者的用户可选择菜单，

经由在所述显示设备上被呈现的所述第一用户界面接收标识特定VPA服务提供者的用户选择，

接收表示输入语音数据的第一信号，

确定所述输入语音数据的第一部分由所述控制器可寻址；

响应于确定所述输入语音数据的所述第一部分由所述控制器可寻址，处理所述输入语音数据的所述第一部分，所述输入语音数据的所述第一部分表示请求；

处理所述第一信号以生成第一电子文件，所述第一电子文件包括所述输入语音数据的至少一部分，所述第一电子文件根据所述特定VPA服务提供者的规范而被生成；

将所述第一电子文件传输到与所述特定VPA服务提供者相关联的一个或多个远程计算设备，其中所述输入语音数据的所述第一部分从所述第一电子文件被排除；

使得声学换能器基于所述第二电子文件来生成声学输出。

11.根据权利要求10所述的系统，其中所述控制器还被配置为：

将所述证书提供给所述特定VPA服务提供者；以及

12.根据权利要求10所述的系统，其中表示输入语音数据的所述第一信号使用声学设备或远程控制器的麦克风来捕获。

13.根据权利要求12所述的系统，其中所述输入语音数据使用所述声学设备的所述麦克风来捕获，并且所述声学设备是以下中的一项：头戴式受话器、耳机、便携式扬声器、以及助听器。

14.根据权利要求12所述的系统，其中所述输入语音数据使用所述远程控制器的所述麦克风来捕获，并且其中所述远程控制器控制以下中的一项：

声学设备、媒体流传送设备、家庭影院系统或者电视。

15.根据权利要求10所述的系统，其中所述输入语音数据使用移动设备的麦克风来捕获。

16.根据权利要求10所述的系统，其中所述请求包括查询。

17.一个或多个机器可读存储设备，具有编码于其上的计算机可读指令，所述计算机可读指令用于使得一个或多个处理设备执行操作，所述操作包括：

在所述第一设备处接收表示输入语音数据的第一信号；

确定所述输入语音数据的第一部分在所述第一设备处可寻址，所述输入语音数据的所述第一部分表示请求；

响应于确定所述输入语音数据的所述第一部分在所述第一设备处可寻址，在所述第一设备处处理所述输入语音数据的所述第一部分；

处理所述第一信号以生成第一电子文件，所述第一电子文件包括所述输入语音数据的至少第二部分，所述第一电子文件根据所述特定VPA服务提供者的规范而被生成，其中所述输入语音数据的所述第一部分从所述第一电子文件被排除；

使得声学换能器基于所述第二电子文件来生成声学输出。

18.根据权利要求17所述的一个或多个机器可读存储设备，其中所述一个或多个远程计算设备提供针对所述特定VPA服务提供者的基于云的服务。

19.根据权利要求17所述的一个或多个机器可读存储设备，其中所述用户界面被呈现在所述第一设备的显示器上。

20.根据权利要求17所述的一个或多个机器可读存储设备，还包括用于以下的指令：

将所述证书提供给所述特定VPA服务提供者；以及

21.根据权利要求17所述的一个或多个机器可读存储设备，其中表示输入语音数据的所述第一信号使用与所述第一设备连接的声学设备或远程控制器的麦克风来捕获。

22.根据权利要求21所述的一个或多个机器可读存储设备，其中所述输入语音数据使用所述声学设备的所述麦克风来捕获，并且所述声学设备是以下中的一项：头戴式受话器、耳机、便携式扬声器、以及助听器。

23.根据权利要求21所述的一个或多个机器可读存储设备，其中所述输入语音数据使用所述远程控制器的所述麦克风来捕获，其中所述远程控制器控制以下中的一项：声学设备、媒体流传送设备、家庭影院系统或者电视。

24.根据权利要求17所述的一个或多个机器可读存储设备，其中所述第一设备是移动设备，并且表示输入语音数据的所述第一信号使用所述移动设备的麦克风来捕获。