CN105264485B

CN105264485B - 在多个设备上提供内容

Info

Publication number: CN105264485B
Application number: CN201480015194.0A
Authority: CN
Inventors: 格雷戈里·迈克尔·哈特; 斯科特·伊恩·巴尔克斯蒂恩; 约翰·丹尼尔·蒂姆森; 艾伦·蒂莫西·林赛; 罗伯特·大卫·欧文; 查尔斯·彼得·霍普
Original assignee: Amazon Technologies Inc
Current assignee: Amazon Technologies Inc
Priority date: 2013-03-14
Filing date: 2014-03-13
Publication date: 2019-05-21
Anticipated expiration: 2034-03-13
Also published as: US20140278438A1; EP2973543B1; JP2016519805A; US10133546B2; JP6125088B2; CN105264485A; EP2973543A1; EP2973543A4; WO2014160327A1

Abstract

本发明公开了用于接收来自用户的语音命令以及作为响应使用第一设备向所述用户提供可听内容并且使用第二设备向所述用户提供视觉内容的技术。在一些实例中，所述第一设备包括用于产生包括用户话音的音频信号的麦克风、以及用于响应于识别到的来自所述话音的语音命令而输出可听内容的扬声器。然而，所述第一设备可能不包括用于显示图形内容的显示器。因此，所述第一设备可以被配置用于识别包括显示器且邻近所述第一设备的设备。所述第一设备随后可指示这些其他设备中的一个或多个输出与用户的语音命令相关联的视觉内容。

Description

在多个设备上提供内容

相关申请

本申请要求2013年3月14日提交的标题为“Providing Content on MultipleDevices(在多个设备上提供内容)”的美国专利申请号13/829,156的优先权，所述专利申请以引用方式整体并入本文。

发明背景

家庭与迅速增加的计算设备诸如台式机、平板电脑、娱乐系统和便携式通信设备的有线联系变得越来越紧密。随着计算设备的发展，已引用许多不同的方式以允许用户与这些设备进行交互，诸如通过机械装置(例如，键盘、鼠标等)、触摸屏、运动和手势。用于与计算设备进行交互的另一种方式是通过用户对设备讲话并且作为应答设备向用户输出音频。然而，在一些实例中，最佳的是以非单独音频的形式输出特定内容。

附图简述

参照附图描述具体实施方式。在图中，附图标记最左边的数字表示所述附图标记首次出现的图。在不同图中使用相同的附图标记指示类似或相同的组件或特征。

图1示出设置在家庭环境中的说明性语音交互计算体系结构。所述体系结构包括物理地位于家庭中的语音控制设备、连同能够向所述设备提供语音命令的用户。所述设备还能够将音频输出回至用户，并且指示在环境内的另一个设备为用户输出视觉内容。

图2描绘用于接收第一语音命令、作为响应在第一设备上输出音频内容、接收请求接收视觉内容的第二语音命令、以及响应于第二语音命令在第二设备上输出视觉内容的示例性过程的流程图。

图3A-3C描绘图1的语音控制设备可输出音频内容并且指示具有显示能力的另一个设备输出视觉内容的相应方式。

图4示出具有显示能力的设备可向图3A-3C的用户指示设备具有供用户查看的视觉内容的示例性方式。

图5描绘用于接收音频信号、识别其中的话音、以及作为响应致使第一设备输出第一内容并且致使第二设备输出第二内容的示例性过程的流程图。

图6描绘用于在第一设备上可听地输出内容以及响应于识别出请求转换具有显示能力的设备的内容输出的语音命令而在第二设备上视觉地输出内容的示例性过程的流程图。

图7描绘用于在第一设备处接收第一语音命令、在第一设备处输出可听内容、在第一设备处接收第二语音命令、以及作为响应指示存储在第二设备上的应用程序显示与第一语音命令相关联的视觉内容的示例性过程的流程图。

图8示出在图1的语音控制设备中实施的所选择功能组件的框图。

具体实施方式

本公开部分地描述用于接收来自用户的语音命令以及作为响应使用第一设备向用户提供可听内容并且使用第二设备向用户提供视觉内容的技术。在一些实例中，第一设备包括用于产生包括用户话音的音频信号的麦克风、和用于响应于识别到的所述话音中的语音命令而输出可听内容的扬声器。然而，第一设备可能不包括用于显示图形内容的显示器。因此，第一设备可以被配置用于识别包括显示器且邻近第一设备的设备。第一设备随后可指示这些其他设备中的一个或多个输出与用户的语音命令相关联的视觉内容。

例如，设想用户将以下语音命令提供至解码所述语音命令的第一设备：“谁是本杰明·富兰克林？”。作为响应，第一设备可获得关于本杰明·富兰克林的内容，诸如关于本杰明·富兰克林最著名事迹的概述。另外，第一设备或另一个中间设备可指示第二邻近的设备显示关于本杰明·富兰克林的另外信息，诸如详细说明关于本杰明·富兰克林的生平的另外细节的网页。第一设备可响应于用户的初始语音命令或响应于用户发出随后的语音(例如，“请将这个信息移动到我的平板电脑”)而提供这个指令。在一个实例中，第一设备可以识别具有显示能力、与发出语音命令的用户相关联并且与第一设备和用户在同一个环境内的一个或多个设备。例如，第一设备可以指示用户的电话、用户的平板电脑或膝上型计算机、用户的台式计算机、用户的电子书阅读器、或用户的任何其他客户端计算设备来显示关于本杰明·富兰克林的视觉内容。

在一些实例中，第一设备在用户发出语音命令时自动提供这种指令。例如，第一设备可仅指示用户的平板计算设备在第一设备输出可听内容之前、之后或同时显示关于本杰明·富兰克林的细节。在其他实例中，所述设备可响应于接收到来自用户的另外语音命令而提供这种指令。例如，在完成输出本杰明·富兰克林的概述之后，第一设备可以可听地输出以下询问：“您想要在您的平板电脑上看到另外的信息吗？”如果用户肯定地回答，那么所述设备可将显示另外内容的指令提供至第二设备。在另一个实例中，用户可以在第一设备输出可听内容之前、同时或之后仅发出请求。例如，用户可以陈述以下内容：“请将这个信息移动到我的平板电脑。”

另外，第二设备可以任意数量的方式显示这个信息。在一些实例中，第二设备存储专门配置用于与第一设备进行交互的应用程序(例如，“伴随应用程序”)。这个伴随应用程序因此被配置用于接收这些类型的指令并且显示与用户的指令相关联的适当信息。例如，这个应用程序可以显示导向到包括关于本杰明·富兰克林的信息的网站、应用程序或其他目的地的一个或多个链接。另外或作为替代，应用程序可直接引入并且显示这个信息，诸如关于本杰明·富兰克林的详细信息。

在一些实例中，所述应用程序还可显示如由第一设备或另一个设备所解码的语音命令的一个或多个解释。通过这样做，用户可以矫正语音命令，这可有助于训练用于对随后的音频信号(包括来自用户的话音)执行话音辨识的话音辨识模块。用户可以选择验证语音命令是否被正确地解释。在应用程序显示语音命令的一个或多个解释的实例中，应用程序还可以显示与每个解释相关联的相应搜索结果。所述搜索结果可包括网络链接、到本地存储在设备上内容或应用程序的链接、图像、视频等。

不管第二设备是否存储有专门配置用于与第一设备进行交互的应用程序，或第二设备是否使用浏览器或其他上下文特定的应用程序来显示信息，用户都可以多种方式访问这个信息。在一些实施方案中，第二设备在接收来自第一设备的指令时被唤醒并且直接致使显示信息(或如果第二设备已经被唤醒仅致使显示信息)。在其他实例中，第二设备可以在第二设备的“锁定屏幕”上显示与用户的语音命令相关联的内容(例如，关于本杰明·富兰克林的细节)。此后，当用户对设备解锁时，第二设备可显示关于主题的更多细节(例如，在上述应用程序上、在关于本杰明·富兰克林的网页上等)。在另一个实例中，第二设备可以仅在设备的通知区域或通知托盘中显示通知。例如，第二设备可以在设备接收文本消息、电子邮件、电话呼叫、语音邮件等时所显示的通知旁边显示通知。第二设备随后可以在用户从通知区域中选择通知时显示所有视觉信息。

虽然以上实例描述了从输出可听内容到输出视觉内容的转换，但本文所述的技术可以从显示视觉内容转换到输出可听内容、从在第一设备上显示视觉内容转换到在第二设备上显示视觉内容、或从在第一设备上输出可听内容转换到在第二设备上输出可听内容。在这些实例中，用户可通过语音命令、激活物理或软按钮、手势，通过鼠标点击等启动转换。

另外，虽然以上实例描述了用户将内容从与用户相关联的一个设备转换到与同一个用户相关联的另一个设备，但在其他实例中，用户可以将内容转换到与另一个用户相关联的设备。例如，设想第一用户正在通过第一设备收听或查看报纸中的文章。第一用户可以例如通过语音命令请求通过将文章转换到与第二用户相关联的设备来共享文章。该技术随后可以将内容或访问内容的通知提供到第二用户的设备，所述设备可以在第二用户的请求的情况下显示或以其他方式输出内容。

以上和以下描述的设备和技术可以在多种不同的体系结构和情境中实施。以下描述一个非限制性和说明性实施方案。应明确指出的是，虽然这些技术是参照语音控制设备进行描述的，但这些技术可以应用于任何其他类型的能够捕获音频的客户端计算设备。

图1示出设置在包括用户104的家庭环境102中的说明性语音交互计算体系结构100。体系结构100还包括用户104可与之进行交互的电子语音控制设备106。在所示的实施方案中，语音控制设备106定位在家庭环境102的房间内的桌子上。在其他实施方案中，可以将它放置或安装在任意数量的位置中(例如，天花板、墙壁、灯具中、桌子下面、椅子下方等)。此外，可以将多于一个设备106定位在单个房间中，或可以使用一个设备适应来自多于一个房间的用户交互。

一般来说，语音控制设备106包括具有至少一个麦克风108的麦克风单元和具有至少一个扬声器110的扬声器单元以便有利于与用户104和/或其他用户的音频交互。在一些实例中，语音控制设备106在没有触觉输入组件(例如，键盘、小键盘、触摸屏、操纵杆、控制按钮等)或显示器的情况下实施。在某些实施方案中，可以采用有限的一组一个或多个触觉输入组件(例如，用于启动配置的专用按钮、电源开/关等)。尽管如此，用户与电子设备106的交互作用的主要且潜在的唯一模式可以是通过语音输入和可听输出。以下参照图8更详细地提供语音控制设备106的一个示例性实施方案。

语音控制设备106的麦克风108检测来自环境102的音频(诸如用户104发出的声音)，并且产生对应的音频信号。如图所示，语音控制设备106包括处理器112和存储器114，所述存储器114存储或另外能够访问话音辨识引擎116。如本文所使用的，处理器可包括多个处理器和/或具有多个核心的处理器。话音辨识引擎116对由麦克风基于环境102内的声音(诸如由用户104说出的话语)而产生的信号执行音频辨识。例如，引擎116可以识别用户的话音(即，语音命令)和非话音命令(例如，用户鼓掌、轻敲桌子等)。语音控制设备106可以响应于辨识出这个音频(诸如来自用户104的话音)而执行特定动作。例如，用户可以说出预定义的命令(例如，“唤醒”、“休眠”等)，或可以在与设备106进行交互时使用更随意的会话风格(例如，“我想去看电影。请告诉我当地电影院正在放映什么。”)。

在一些实例中，语音控制设备106可以结合远离环境102的计算资源118进行操作或可以其他方式利用所述计算资源118。例如，语音控制设备106可以通过网络120连接到远程计算资源118。如图所示，远程计算资源118可以实施为一个或多个服务器122(1)、122(2)、……、122(P)，并且在一些实例中可以形成网络可访问计算平台的一部分，所述网络可访问计算平台实施为通过网络(诸如互联网)维护且可访问的处理器、存储装置、软件、数据存取等的计算基础设施。远程计算资源118并不要求终端用户了解递送服务的系统的物理位置和配置。用于这些远程计算资源118的相关联的常用表达包括“按需计算”、“软件即服务(SaaS)”、“平台计算”、“网络可访问平台”、“云服务”、“数据中心”等。

服务器122(1)-122(P)包括处理器124和存储器126，所述存储器126可以存储或另外能够访问参照语音控制设备106的存储器114所描述的部件中的一些或全部。在一些实例中，存储器126能够访问并且利用另一个话音辨识引擎128，用于从设备106接收音频信号、识别音频(例如，话音)以及潜在地作为响应致使动作执行。在一些实例中，语音控制设备106可以将音频数据加载到远程计算资源118以便进行处理，假定远程计算资源118可具有远远超过语音控制设备106的计算能力的计算能力。因此，语音控制设备106可以利用远程计算资源118处的话音辨识引擎128以便对从环境102捕获的音频执行相对复杂的分析。在一个实例中，话音辨识引擎116执行相对基本的音频辨识，诸如识别非话音命令以改变由设备输出的音频和识别预定义的语音命令，所述预定义的语音命令在获辨识时致使设备106将音频提供至远程计算资源118。远程计算资源118的话音辨识引擎128随后可对这些接收到的音频信号执行话音辨识以识别来自用户104的语音命令。例如，在一些实例中，引擎116可以仅充当用于识别一个或多个预定义话语的关键字测位仪，而引擎128可以识别由设备106产生的音频信号所代表的话音内的单词。在这些实例中，可减少语音控制设备106的成本，假定将音辨识引擎116提供在设备106上是相当简单且便宜的。

不管话音辨识发生在本地或远离环境102，语音控制设备106都可以接收来自用户104的人声输入并且设备106和/或资源118可以执行话音辨识以解释用户的操作请求或命令。请求可以是针对基本类型的操作，诸如认证、数据库查询、请求和消费娱乐(例如玩游戏，查找和播放音乐、电影或其他内容等)、个人信息管理(例如日历制定、便笺制作等)、在线购物、金融交易等。

语音控制设备106可通过有线技术(例如电线、USB、光纤电缆等)、无线技术(例如RF、WiFi、蜂窝、微型、蓝牙等)或其他连接技术以通信方式连接到网络120。网络120代表任何类型的通信网络，包括数据和/或语音网络，并且可以使用有线基础设施(例如电缆、CAT5、光纤电缆等)、无线基础设施(例如RF、WiFi、蜂窝、微波、卫星、蓝牙等)和/或其他连接技术来实施。

如图所示，语音控制设备106的存储器114存储或另外能够访问话音辨识引擎116，并且还可以包括媒体播放器。媒体播放器可作用来在设备106的任何类型的输出组件上输出任何类型的内容。例如，媒体播放器可通过扬声器110输出视频的音频或单独的音频。例如，用户104可以与设备106进行交互(例如，可听地)以指示媒体播放器致使输出特定的歌曲或其他音频文件。相反地，设备106可以利用媒体播放器在进行与用户的反复交互时向用户回放音频。

在一些实例中，并且如上所述，语音控制设备还可以与环境102内的其他设备(诸如所示的设备130)进行交互，以补充设备106的能力。例如，设备106可以利用其扬声器110来输出可听内容并且可以利用环境中的其他设备的显示器来提供补充内容。如图所示，设备106的存储器114还存储或能够访问内容转换引擎132。内容转换引擎132可作用来与在环境内的其他设备(诸如设备130)进行交互，以指示其他设备输出另外的内容。虽然图1将设备130示出为平板计算设备，但应当理解，这些其他设备可包括膝上型计算机、移动电话、台式计算机、电视机等。另外，虽然设备106可以利用这些其他设备来输出视觉内容，但另外或作为替代，所述设备可以利用这些设备来输出另外的可听内容。

在所示的实例中，用户104在134(1)处发出以下语音命令：“请告诉我关于本·富兰克林的情况”。设备108的麦克风108可以捕获这个音频并且产生对应的音频信号。设备106随后可以在本地(例如，在话音辨识引擎116上)执行话音辨识或可以将这个音频信号加载到远程计算资源118以便执行话音辨识(例如，在话音辨识引擎128上)。在任一实例中，设备106都可以响应于解码用户的话语而定位并接收内容以便输出给用户104。

因此，在134(2)处，设备106的扬声器110输出以下响应：“本杰明·富兰克林是美国的开国元勋之一。您想要在您的平板电脑上阅读另外的信息吗？”。作为响应，在134(3)处，用户104发出以下话音：“是的，请”。设备106再次产生包括这个话音的音频信号，并且在辨识出所述话音之后，内容转换引擎132可以指示另一个设备(诸如设备130)输出关于本杰明·富兰克林的视觉内容。

为了这样做，设备106、远程计算资源118或另一个实体可以识别邻近设备106和/或用户104的能显示设备。例如，设备106可以使用任何类型的无线网络或协议来检测能够诸如通过WiFi、蓝牙、RF信号等进行无线通信的其他设备的存在。设备106可以直接识别这些设备，或可以识别与设备106连接到同一个无线接入点(WAP)的设备。设备106还可以任何其他方式来识别邻近设备，诸如从其他设备接收全球定位(GPS)位置数据、通过使用照相机并且执行图像辨识技术、通过询问用户哪些设备在环境102中等。

另外，设备106可以识别不仅与用户邻近、而且与用户相关联的设备。在一些实例中，用户可以将他或她的设备注册到对设备106提供支持的实体。因此，设备106可以检查这个注册以识别哪些设备与用户104相关联。另外，作为替代，设备106可以任何其他方式做出这个确定，诸如通过直接询问用户等。

在这个实例中，设备106可以识别于用户104相关联的能显示设备130。作为响应，内容转换引擎132可以检索内容并且将这个内容提供至设备130，可以将检索特定内容的指令提供至设备130，或远程计算资源118可以将内容或检索内容的指令提供至设备130。在任一实例中，并且如图所示，设备130可以显示与用户的了解“本·富兰克林”的初始请求相关联的内容。如图所示，在这个实例中，设备上的内容比来自设备106的音频所提供的概述更详细。在一个特定实例中，由设备106输出的音频内容包括内容项目的概述(例如，关于本杰明·富兰克林的文章)，而在设备106的显示器上输出的内容包括另外部分或整个内容项目(例如，整个文章)。

如图1示出的，用户能够向语音控制设备106提供语音命令，并且作为响应，通过设备106本身可听地接收信息。另外，用户从邻近用户的一个或多个设备接收另外的视觉内容，从而为用户提供关于期望主题的更大量的信息。

图2描绘用于接收第一语音命令、作为响应在第一设备上输出音频内容、接收请求接收视觉内容的第二语音命令、以及响应于第二语音命令在第二设备上输出视觉内容的示例性过程200的流程图。虽然这个过程被描述为是由图1的语音控制设备106执行的，但应当理解，所述过程可以由远程计算资源118或一个或多个其他实体整体或部分地执行。

过程200(以及本文所述的每个过程)被示出为逻辑流程图，所述过程的每个操作代表可通过硬件、软件或其组合实施的操作序列。在软件的上下文中，操作代表存储在一个或多个计算机可读介质上的计算机可执行指令，所述计算机可执行指令在由一个或多个处理器执行时进行所陈述的操作。一般来说，计算机可执行指令包括执行特定功能或实施特定的抽象数据类型的例程、程序、对象、组件、数据结构等。

计算机可读介质可包括非暂时性计算机可读存储介质，其包括硬盘驱动器、软盘、光盘、CD-ROM、DVD、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、快闪存储器、磁卡或光卡、固态存储设备、或适于存储电子指令的其他类型的存储介质。另外，在一些实施例中，计算机可读介质可包括暂时性计算机可读信号(呈压缩或未压缩形式)。计算机可读信号(不管是否已使用载波调制)的实例包括但不限于寄存或运行计算机程序的计算机系统可被配置来访问的信号，包括通过互联网或其他网络下载的信号。最后，描述操作的次序并不意图被解释为限制性的，并且任意数量的所描述操作可以任何次序组合和/或并行地实施所述过程。

在202处，语音控制设备106接收来自用户104的第一语音命令。如上所述，设备106的麦克风108捕获音频并且产生对应的音频信号。此后，设备、远程计算资源118或另一个实体可对所述信号执行话音辨识以识别第一语音命令。

在204处，并且作为响应，设备106致使其扬声器输出与第一语音命令相关联的可听内容。在这个实例中，扬声器输出关于第一语音命令的主题，即本杰明·富兰克林的信息。

在206处，语音控制设备106接收来自用户104的请求在能显示设备上输出另外内容的第二语音命令。在这个实例中，第二语音命令是呈用户104对设备106输出的询问进行肯定地响应的形式，而在其他实例中，用户104可能仅发出这个命令而没有来自设备的提示(例如，在设备106在204处输出可听内容时或之后)。

在208处，语音控制设备106致使另一个设备的显示器输出与第一语音命令相关联的视觉内容。在这个实例中，这包括致使用户104的平板计算设备的显示器输出关于本杰明·富兰克林的视觉内容。

虽然图2示出第一设备输出可听内容并且此后第二设备输出视觉内容，但在其他实例中这个过程可以反转。例如，第一设备可以输出视觉内容，此时用户可以请求转换到在另一个设备上输出可听内容。作为响应，第二设备可输出可听内容。另外或在替代方案中，第一设备可输出可听内容，可接收来自用户的转换到第二设备的请求，并且作为响应，第二设备也可以输出可听内容。或者，第一设备可输出视觉内容，可接收来自用户的转换到第二设备的请求，并且作为响应，第二设备也可以输出视觉内容。

图3A-3C描绘图1的语音控制设备可输出音频内容并且指示具有显示能力的另一个设备输出视觉内容的相应方式。图3A示出设备106可以在向用户104输出咨询用户104是否想要在用户的平板计算设备上查看关于本杰明·富兰克林的另外信息的询问之前，首先输出以上所讨论的关于本杰明·富兰克林的可听内容。在这个实例中，用户104响应为他愿意，因此语音控制设备106指示设备130显示另外的信息。

同时，图3B示出用户104向语音控制设备106发出语音命令，而设备106输出以上讨论的可听内容。在这个实例中，用户104陈述以下内容：“请将这个信息移动到我的平板电脑”。响应于识别出这个话音，设备106指示设备130显示关于本杰明·富兰克林的信息。

图3C示出又一个实例。如图所示，语音控制设备106输出以上讨论的可听内容，并且此后告知用户设备106已在用户的平板电脑(即，设备130)上提供另外的信息。因此，用户104接收关于期望主题的另外信息而无需在请求关于本杰明·富兰克林的信息的初始语音命令之后发出语音命令。

图4示出具有显示能力的设备向用户104指示设备具有供用户104查看的视觉内容的三个示例性情境400。如图所示，第一情境402示出设备130在从语音控制设备106(或远程计算资源118)接收显示关于本杰明·富兰克林的内容的指示之后最初在设备130的“锁定屏幕”上显示信息。如图所示，设备130在锁定屏幕上示出第一有限量的信息，并且随后一旦用户将设备130解锁就在显示器上显示第二更大量的信息。

同时，第二情境404示出设备130可以仅在显示器的通知区域408中显示通知406。也就是说，响应于接收到用户想要接收关于通过语音控制设备106启动的交互的另外信息的指示，设备130可以显示通知406，所述通知406类似于用于接收到的文本消息的通知410、用于接收到的电子邮件的通知等。响应于用户104选择通知406，设备130可以显示另外的信息(例如，关于本杰明·富兰克林)。在这个实例中，通知包括“W”，用于示出设备将响应于接收到来自通知406的用户104的选择而显示关于本杰明·富兰克林的文章。当然，虽然图4示出一个实例，当应当理解，通知可以是任何其他图解说明。

最后，第三情境412示出以上参照图1-3C描述的情境，其中设备130直接显示关于期望主题的信息。如上所述，在一些实例中，语音控制设备106可唤醒设备130并且指示设备显示内容。唤醒设备可包括致使设备130从显示器关闭的状态转换到显示器开启的状态(以便显示内容)。当然，在其他实施方案中，唤醒设备可致使设备130从一种状态转换到任何其他状态。

图5描绘可使用以上所述的技术实施的示例性过程500的流程图。在502处，过程500接收由设备产生的音频信号，其中所述音频信号包括来自用户的话音。在504处，所述过程识别音频信号内的话音。在一些实例中，话音包括请求或发出关于特定信息的询问的用户命令。在506处，并且响应于识别出话音，过程500致使设备输出与语音命令相关联的第一内容，并且致使另一个设备输出与语音命令相关联的第二不同内容。在一些实例中，第一内容包括可听内容而第二内容包括视觉内容。

图6描绘另一个示例性过程600的流程图。在602处，过程600在第一设备的扬声器上可听地输出内容。在604处，过程600识别由用户发出的语音命令，所述语音命令请求内容输出转换到用于视觉消费的显示器。在606处，过程600通过识别在第一设备和/或用户的阈值距离内的设备来识别在其上输出内容的设备。在其他实例中，过程600基于设备的类型、关于设备是否开启的信息等来识别并且选择在其上输出内容的设备。过程600还可以确保这个其他设备与用户相关联。在608处，过程600在所识别的在阈值距离内的设备上视觉地输出内容。

图7描绘示例性过程700的流程图。在702处，过程700在第一设备处接收来自用户的第一语音命令。在704处，并且作为响应，过程700在第一设备的扬声器上输出与第一语音命令相关联的可听内容。在706处，过程700在第一设备处接收来自用户的第二语音命令。在708处，并且作为响应，过程700指示存储在第二设备上的应用程序在第二设备的显示器上输出与第一语音命令相关联的视觉内容。如上所述，应用程序可包括专门配置用于与语音控制设备106进行通信的“伴随应用程序”。例如，应用程序可以从语音控制设备接收内容并且将内容提供至语音控制设备。

图8示出在图1的语音控制设备中实施的所选择功能组件的框图。一般来说，语音控制设备106可以实施为单独的设备，就其功能能力而言是相对简单的，具有有限的输入/输出组件、存储和处理能力。例如，在一些实施方案中，语音控制设备106既不具有键盘、小键盘或其他形式的机械输入装置，也不具有有利于视觉呈现和用户触摸输入的显示器或触摸屏。替代地，设备106可实施为具有接收和输出音频的能力、网络接口(无线的或基于线的)以及有限的处理/存储能力。

在所示的实施方案中，语音控制设备106包括处理器112和存储器114。存储器114可包括计算机可读存储介质(“CRSM”)，所述CRSM可以是处理器112可访问以便执行存储在存储器上的指令的任何可用物理介质。在一个基本的实施方案中，CRSM可包括随机存储存储器(“RAM”)和快闪存储器。在其他实施方案中，CRSM可包括但不限于只读存储器(“ROM”)、电可擦除可编程只读存储器(“EEPROM”)、或可用于存储期望信息并且可由处理器112访问的任何其他介质。

语音控制设备106包括麦克风单元，所述麦克风单元包括用于接收音频输入(诸如用户语音输入)的一个或多个麦克风108。设备106还包括扬声器单元，所述扬声器单元包括用于输出音频声音的一个或多个扬声器110。一个或多个编解码器802连接到麦克风108和扬声器110以便对音频信号进行编码和/或解码。编解码器可以使音频数据在模拟格式与数字格式之间转换。用户可以通过对设备106讲话而与其交互，并且麦克风108捕获声音并且产生包括用户话音的音频信号。编解码器802对用户话音进行编码并且将音频数据转移到其他组件。设备106可通过经由扬声器110发出可听陈述而与用户进行反向通信。以这种方式，用户仅通过话音与语音控制设备进行交互，而不需要使用对其他类型的设备而言常见的键盘或显示器。

另外，在一些实例中，用户可以使用除设备106之外的设备与语音控制设备106进行交互。例如，用户可以利用以上讨论的伴随应用程序，通过所述伴随应用程序用户可以将请求提供至语音控制设备106并且从其接收响应。在一个特定实例中，伴随应用程序是基于网络的应用程序，其在任何客户端计算设备上都是可执行的。如上所述，伴随应用程序可以从语音控制设备106接收用于显示内容的请求，并且作为响应可以显示适当的内容。所述内容可包括网络链接、到本地应用程序的链接、图像、视频和/或任何其他类型的视觉内容。

在所示的实例中，语音控制设备106包括连接到一个或多个天线806以便有利于到网络的无线连接的一个或多个无线接口804。无线接口804可以实施各种无线技术中的一个或多个，诸如wifi、蓝牙、RF等。

可进一步被提供一个或多个设备接口808(例如，USB、宽带连接等)作为设备106的一部分以便有利于到网络、或与其他无线网络进行通信的插件网络设备的有线连接。进一步提供一个或多个功率单元810以便将功率分布到设备106上的各种组件。

语音控制设备106被设计用于支持与用户的音频交互，所述音频交互是呈接收来自用户的语音命令并将可听反馈提供至用户的形式。因此，在所示的实施方案中，不存在或存在极少的触觉输入设备，诸如导航按钮、小键盘、操纵杆、键盘、触摸屏等。此外，不存在用于文本或图形输出的显示器。在一个实施方案中，语音控制设备106可包括非输入控制机制，诸如用于增大/减小音量的基本音量控制按钮、以及电源按钮和复位按钮。还可以存在用于指示例如当电源接通时的状态或指示当接收到命令时的状态的一个或多个简单的光元件(例如，围绕设备的顶部周长的LED)。但是，另外，在一些实例中，设备106不使用或不需要使用任何输入设备或显示器。

若干模块诸如指令、数据库等可以存储在存储器114内并且被配置用于在处理器112上执行。操作系统模块812被配置用于管理设备106内的硬件和服务(例如，无线单元、代码等)并且连接到设备106以有益于其他模块。

另外，存储器114可包括话音辨识引擎116、连同一个或多个其他应用程序诸如媒体播放器等。在一些实例中，另外或作为替代，这些引擎、数据存储装置和组件中的一些或全部可驻留在远程计算资源118处。

虽然已经以特定于结构特征的语言描述了本发明的主题，但应当理解，限定在所附权利要求书中的主题不必限于所描述的具体特征。相反，具体特征作为实施权利要求书的说明性形式而公开。

条款

1.一种或多种计算设备，其包括：

一个或多个处理器；以及

存储计算机可执行指令的一个或多个计算机可读介质，所述计算机可读介质在由所述一个或多个处理器执行时致使所述一个或多个处理器执行包括以下的动作：

接收来自环境内的用户的第一语音命令；

至少部分地响应于接收到所述第一语音命令，致使在所述环境内的第一设备的扬声器输出与所述第一语音命令相关联的音频内容；

接收来自所述用户的第二语音命令，所述第二语音命令请求将与所述第一命令相关联的视觉内容发送到在所述环境内的第二设备，所述第二设备具有显示器；以及

至少部分地响应于接收到所述第二语音命令，致使所述第二设备的所述显示器输出与所述第一语音命令相关联的所述视觉内容。

2.如条款1所述的一种或多种计算设备，所述动作还包括至少部分地基于所述第二语音命令而从在所述环境内的除所述第一设备之外的至少两个设备中识别所述第二设备。

3.如条款1所述的一种或多种计算设备，在所述第一设备的所述扬声器输出与所述第一语音命令相关联的所述音频内容的同时所述第一设备接收所述第二语音命令。

4.如条款1所述的一种或多种计算设备，所述动作还包括在所述扬声器输出与所述第一语音命令相关联的所述音频内容之后致使所述扬声器向所述用户输出询问，所述询问咨询所述用户是否想要在所述第二设备上输出所述视觉内容。

5.一种计算机实施的方法，其包括：

接收由驻留在环境内的设备产生的音频信号，所述音频信号包括来自用户的话音；

对所述音频信号内的所述话音执行话音辨识以识别语音命令；以及

至少部分地响应于识别出所述语音命令：(i)致使所述设备输出与所述语音命令相关联的第一内容，以及(ii)在致使所述设备输出所述第一内容的至少一部分之后，致使在所述环境内的另一个设备输出与所述语音命令相关联的第二内容。

6.如条款5所述的计算机实施的方法，其中所述致使所述设备输出所述第一内容包括致使所述设备输出由所述设备的扬声器输出的可听内容，并且所述致使所述另一个设备输出所述第二内容包括致使所述另一个设备输出由所述另一个设备的显示器输出的视觉内容。

7.如条款5所述的计算机实施的方法，其中所述致使所述另一个设备输出所述第二内容包括通过致使所述另一个设备从所述另一个设备的显示器关闭的状态转换到所述另一个设备的所述显示器开启的状态，来唤醒所述另一个设备。

8.如条款5所述的计算机实施的方法，其中所述致使所述另一个设备输出所述第二内容包括向所述另一个设备发送指示所述另一个设备在由所述另一个设备显示的图形用户界面(GUI)的通知区域中显示通知的消息。

9.如条款5所述的计算机实施的方法，其中所述致使所述另一个设备输出所述第二内容包括致使所述另一个设备在所述另一个设备的锁定屏幕上输出所述第二内容。

10.如条款5所述的计算机实施的方法，其中至少部分地基于所述另一个设备到所述设备的邻近度、所述另一个设备与所述用户相关联、所述另一个设备的类型、或关于所述另一个设备是否开启的信息中的至少一个来选择所述另一个设备用于输出所述第二内容。

11.如条款5所述的计算机实施的方法，其中所述执行所述话音辨识包括对所述话音执行话音辨识以识别第一话音和继所述第一话音之后的第二话音，所述第二话音包括请求在所述另一个设备上输出内容的第二语音命令。

12.如条款11所述的计算机实施的方法，其中所述第二话音是在所述设备输出所述第一内容的同时发出的。

13.如条款11所述的计算机实施的方法，其中所述第二话音是在所述设备完成输出所述第一内容之后发出的。

14.如条款11所述的计算机实施的方法，其中所述第二话音是在所述设备完成输出所述第一内容之后发出的，所述第一内容包括咨询所述用户关于所述用户是否想要在不同设备上接收另外内容的询问。

15.如条款5所述的计算机实施的方法，其中所述第一内容包括特定内容项目的第一部分并且所述第二内容包括所述特定内容项目的另外部分。

16.如条款5所述的计算机实施的方法，其中所述第一内容包括特定内容项目的概述并且所述第二内容包括所述特定内容项目的另外部分。

17.如条款5所述的计算机实施的方法，其中所述第一内容包括特定内容项目的概述并且所述第二内容包括所述特定内容项目的整体。

18.如条款5所述的计算机实施的方法，其中所述设备和所述另一个设备两者均包括显示器。

19.一种方法，其包括：

在配置有可执行指令的一个或多个计算设备的控制下，

在驻留在环境中的第一设备的扬声器上可听地输出内容；以及

至少部分地响应于在所述环境内的用户发出将所述内容输出从所述第一设备的所述扬声器转换到第二设备的显示器的请求，在驻留在所述环境内的所述第二设备的所述显示器上视觉地输出内容。

20.如条款19所述的方法，其还包括识别由所述用户发出的语音命令，所述语音命令包括所述请求。

21.如条款20所述的方法，其中所述第一设备包括麦克风，并且从基于由所述第一设备的所述麦克风捕获的声音所产生的音频信号中识别所述语音命令。

22.如条款20所述的方法，其中所述识别所述语音命令包括在所述第一设备的所述扬声器输出内容的同时识别包括所述请求的所述语音命令。

23.如条款20所述的方法，其中所述识别所述语音命令包括在所述第一设备的所述扬声器完成输出内容之后识别包括所述请求的所述语音命令。

24.如条款19所述的方法，其中在所述第一设备的所述扬声器上输出的内容和在所述第二设备的所述显示器上输出的内容都与特定内容项目相关联。

25.如条款24所述的方法，其中在所述第一设备的所述扬声器上输出的内容包括所述特定内容项目的概述，并且在所述第二设备的所述显示器上输出的内容包括所述内容项目的另外部分。

26.如条款19所述的方法，其还包括通过识别在所述第一设备或所述用户的阈值距离内的一个或多个设备来识别用于在其上输出内容的所述第二设备。

27.如条款19所述的方法，其还包括通过识别以下一个或多个设备来识别用于在其上输出内容的所述第二设备：(i)在所述第一设备或所述用户的阈值距离内，并且(ii)与所述用户相关联。

28.如条款19所述的方法，其中所述用户通过向所述第一设备发出语音命令来选择用于在其上输出内容的所述第二设备。

Claims

1.一个或更多计算设备，其包括：

一个或更多处理器；以及

存储计算机可执行指令的一个或更多计算机可读介质，所述计算机可执行指令在由所述一个或更多处理器执行时，致使所述一个或更多处理器执行包括以下的动作：

在环境内的所述一个或更多计算设备的第一设备处，接收来自所述环境内的用户的第一语音命令；

至少部分地响应于接收到所述第一语音命令，致使在所述环境内的所述第一设备的扬声器输出与所述第一语音命令相关联的音频内容；

识别和选择所述环境内的第二设备，以用于输出视觉内容，所述第二设备具有显示器；

在所述第一设备处，接收来自所述用户的第二语音命令，所述第二语音命令请求将与所述第一语音命令相关联的视觉内容被显示在所述环境内；以及

2.如权利要求1所述的一个或更多计算设备，其中至少部分地基于所述第二语音命令，从在所述环境内的除所述第一设备之外的至少两个设备中识别所述第二设备。

3.如权利要求1所述的一个或更多计算设备，在所述第一设备的所述扬声器输出与所述第一语音命令相关联的所述音频内容的同时所述第一设备接收所述第二语音命令。

4.如权利要求1所述的一个或更多计算设备，所述动作还包括在所述扬声器输出与所述第一语音命令相关联的所述音频内容之后致使所述扬声器向所述用户输出询问，所述询问咨询所述用户是否想要在所述第二设备上输出所述视觉内容。

5.一种计算机实现的方法，其包括：

接收由驻留在环境内的第一设备产生的音频信号，所述音频信号包括来自用户的话音；

对所述音频信号内的所述话音执行话音辨识，以识别语音命令；以及

至少部分地响应于识别出所述语音命令：

(i)致使所述第一设备输出与所述语音命令相关联的第一内容，

(ii)识别和选择所述环境内的第二设备，以用于输出第二内容，以及

(iii)在致使所述第一设备输出所述第一内容的至少一部分之后，致使第二设备输出所述第二内容，其中所述第二内容是与所述语音命令相关联的视觉内容。

6.如权利要求5所述的计算机实现的方法，其中所述致使所述第一设备输出所述第一内容包括致使所述第一设备输出由所述第一设备的扬声器输出的可听内容。

7.如权利要求5所述的计算机实现的方法，还包括通过致使所述第二设备从所述第二设备的显示器关闭的状态转换到所述第二设备的所述显示器开启的状态，来唤醒所述第二设备。

8.如权利要求5所述的计算机实现的方法，还包括向所述第二设备发送指示所述第二设备在由所述第二设备显示的图形用户界面GUI的通知区域中显示通知的消息。

9.如权利要求5所述的计算机实现的方法，其中所述致使所述第二设备输出所述视觉内容包括致使所述第二设备在所述第二设备的锁定屏幕上输出所述视觉内容。

10.如权利要求5所述的计算机实现的方法，其中至少部分地基于所述第二设备到所述第一设备的邻近度、所述第二设备与所述用户相关联、所述第二设备的类型、或关于所述第二设备是否上电的信息中的至少一个来识别和选择所述第二设备，以用于输出所述第二内容。

11.如权利要求5所述的计算机实现的方法，其中所述执行所述话音辨识包括对所述话音执行话音辨识以识别第一话音和继所述第一话音之后的第二话音，所述第二话音包括请求在所述第二设备上输出所述第二内容的第二语音命令。

12.如权利要求11所述的计算机实现的方法，还包括：

在所述第一设备输出所述第一内容的同时由麦克风接收所述第二话音；

在所述第一设备完成输出所述第一内容之后由麦克风接收所述第二话音；

其中所述第一内容包括咨询关于用户是否想要在不同设备上接收另外内容的询问。

13.如权利要求5所述的计算机实现的方法，其中所述第一内容包括关于主题的第一信息，并且所述第二内容包括关于所述主题的第二信息。

14.如权利要求5所述的计算机实现的方法，其中所述第一内容包括关于主题的概述，并且所述第二内容包括关于所述主题的另外信息。

15.如权利要求5所述的计算机实现的方法，其中所述第一内容包括关于主题的概述。