CN113516979A

CN113516979A - 在语音接口设备处的服务器提供的视觉输出

Info

Publication number: CN113516979A
Application number: CN202110324676.6A
Authority: CN
Inventors: 肯尼斯·米克斯特; 袁媛
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-11-18
Filing date: 2017-11-20
Publication date: 2021-10-19
Anticipated expiration: 2037-11-20
Also published as: GB2559008B; GB2559008A; GB201719037D0; WO2018094254A1; GB2586184B; DE202017107010U1; US20230055223A1; US10854050B2; US11972678B2; DE102017127239A1; US10339769B2; CN108111948B; GB2586184A; GB202011451D0; US20210082258A1; CN108111948A; US20190385418A1; CN113516979B; US20180144590A1; US11521469B2

Abstract

本申请涉及在语音接口设备处服务器提供的视觉输出。一种在具有指示灯阵列的电子设备处的方法包括：获得存储在所述电子设备处的第一视觉输出指令，其中所述第一视觉输出指令基于所述电子设备的操作状态来控制所述指示灯阵列的操作；接收语音输入；从远程系统获得对所述语音输入的响应和第二视觉输出指令，其中所述第二视觉输出指令由所述远程系统依照所述语音输入满足一个或多个准则的确定而连同所述响应一起提供；执行所述响应；以及依照所述第二视觉输出指令在所述指示灯阵列上显示视觉输出，其中否则在不存在所述第二视觉输出指令的情况下，所述电子设备依照所述第一视觉输出指令在所述指示灯阵列上显示视觉输出。

Description

在语音接口设备处的服务器提供的视觉输出

分案说明

本申请属于申请日为2017年11月20日的中国发明专利申请201711160910.6的分案申请。

技术领域

所公开的实施方式一般地涉及语音接口和相关设备，包括但不限于用于指示语音接口设备依照远程提供的指令来显示视觉输出的方法和系统。

背景技术

具有语音接口的电子设备已广泛地用于从用户收集语音输入并根据语音输入执行不同的语音激活功能。这些语音激活功能可以包括指示或者命令目标设备执行操作。例如，用户可以向语音接口设备发出语音输入以指示目标设备打开或者关闭，或者以控制目标设备处的媒体重放。

具有语音接口的语音接口设备可以在操作期间显示各种视觉输出。语音接口设备可以在显示器上或者用灯显示信息。被显示的视觉输出基于情形可以是标准化或默认的。例如，每当状况生效时可以显示特定视觉输出以传达特定状况。然而，有时标准化或默认的视觉输出对用户而言可能是在审美上不令人满意的且不吸引人的。

发明内容

因此，需要具有语音辅助系统和/或语音辅助服务器系统的电子设备并入用于向语音接口设备提供替代视觉输出以供在某些情形下显示代替标准或默认视觉输出的方法和系统。在本申请中所描述的各种实施方式中，操作环境包括向语音辅助服务提供接口的语音激活电子设备，并且可选地包括可以经由所述语音辅助服务通过语音输入来控制的一个或多个设备(例如，投射设备、智能家居设备)。所述语音激活电子设备被配置成默认情况下在特定情形下显示特定视觉输出。如果语音输入满足特定准则，则可以显示非默认视觉输出来代替针对相同特定情形的默认视觉输出。对于非默认视觉输出的指令或信息由服务器系统(例如，语音辅助服务器系统)来提供。

依照一些实施方式，在具有一个或多个麦克风、扬声器、指示灯阵列、一个或多个处理器以及存储由所述一个或多个处理器执行的一个或多个程序的存储器的电子设备处的方法包括：获得存储在所述电子设备处的第一视觉输出指令，其中所述第一视觉输出指令基于所述电子设备的操作状态来控制所述指示灯阵列的操作，其中所述电子设备的操作状态包括在其上执行的应用的操作状态；接收语音输入；从远程系统获得对所述语音输入的响应和第二视觉输出指令，其中所述第二视觉输出指令由所述远程系统依照所述语音输入满足一个或多个准则的确定而连同所述响应一起提供；执行所述响应；以及依照所述第二视觉输出指令在所述指示灯阵列上显示视觉输出，其中否则在不存在所述第二视觉输出指令的情况下，所述电子设备依照所述第一视觉输出指令在所述指示灯阵列上显示视觉输出。

依照一些实施方式，电子设备包括一个或多个麦克风、扬声器、指示灯阵列、一个或多个处理器以及存储要由所述一个或多个处理器执行的一个或多个程序的存储器。所述一个或多个程序包括指令，所述指令用于：获得存储在所述电子设备处的第一视觉输出指令，其中所述第一视觉输出指令基于所述电子设备的操作状态来控制所述指示灯阵列的操作，其中所述电子设备的操作状态包括在其上执行的应用的操作状态；接收语音输入；从远程系统获得对所述语音输入的响应和第二视觉输出指令，其中所述第二视觉输出指令由所述远程系统依照所述语音输入满足一个或多个准则的确定而连同所述响应一起提供；执行所述响应；以及依照所述第二视觉输出指令在所述指示灯阵列上显示视觉输出，其中否则在不存在所述第二视觉输出指令的情况下，所述电子设备依照所述第一视觉输出指令在所述指示灯阵列上显示视觉输出。

依照一些实施方式，非暂时性计算机可读存储介质存储一个或多个程序，所述一个或多个程序包括指令，所述指令当由具有一个或多个麦克风、扬声器、指示灯阵列和一个或多个处理器的电子设备执行时，使所述电子设备执行包括以下各项的操作：获得存储在所述电子设备处的第一视觉输出指令，其中所述第一视觉输出指令基于所述电子设备的操作状态来控制所述指示灯阵列的操作，其中所述电子设备的操作状态包括在其上执行的应用的操作状态；接收语音输入；从远程系统获得对所述语音输入的响应和第二视觉输出指令，其中所述第二视觉输出指令由所述远程系统依照所述语音输入满足一个或多个准则的确定而连同所述响应一起提供；执行所述响应；以及依照所述第二视觉输出指令在所述指示灯阵列上显示视觉输出，其中否则在不存在所述第二视觉输出指令的情况下，所述电子设备依照所述第一视觉输出指令在所述指示灯阵列上显示视觉输出。

依照一些实施方式，在具有一个或多个麦克风、扬声器、指示灯阵列、一个或多个处理器以及存储由所述一个或多个处理器执行的一个或多个程序的存储器的电子设备处的方法包括：获得存储在所述电子设备处的第一视觉输出指令，其中所述第一视觉输出指令基于所述电子设备的操作状态来控制所述指示灯阵列的操作，其中所述电子设备的操作状态包括在其上执行的应用的操作状态；从远程系统获得第二视觉输出指令；执行操作；与执行所述操作相关联地，确定是否满足一个或多个替代视觉输出准则；依照满足所述替代视觉输出准则的确定，依照所述第二视觉输出指令在所述指示灯阵列上显示视觉输出；以及依照不满足所述替代视觉输出准则的确定，依照所述第一视觉输出指令在所述指示灯阵列上显示视觉输出。

依照一些实施方式，电子设备包括一个或多个麦克风、扬声器、指示灯阵列、一个或多个处理器以及存储要由所述一个或多个处理器执行的一个或多个程序的存储器。所述一个或多个程序包括指令，所述指令用于：获得存储在所述电子设备处的第一视觉输出指令，其中所述第一视觉输出指令基于所述电子设备的操作状态来控制所述指示灯阵列的操作，其中所述电子设备的操作状态包括在其上执行的应用的操作状态；从远程系统获得第二视觉输出指令；执行操作；与执行所述操作相关联地，确定是否满足一个或多个替代视觉输出准则；依照满足所述替代视觉输出准则的确定，依照所述第二视觉输出指令在所述指示灯阵列上显示视觉输出；以及依照不满足所述替代视觉输出准则的确定，依照所述第一视觉输出指令在所述指示灯阵列上显示视觉输出。

依照一些实施方式，非暂时性计算机可读存储介质存储一个或多个程序，所述一个或多个程序包括指令，所述指令当由具有一个或多个麦克风、扬声器、指示灯阵列和一个或多个处理器的电子设备执行时，使所述电子设备执行包括以下各项的操作：获得存储在所述电子设备处的第一视觉输出指令，其中所述第一视觉输出指令基于所述电子设备的操作状态来控制所述指示灯阵列的操作，其中所述电子设备的操作状态包括在其上执行的应用的操作状态；从远程系统获得第二视觉输出指令；执行操作；与执行所述操作相关联地，确定是否满足一个或多个替代视觉输出准则；依照满足所述替代视觉输出准则的确定，依照所述第二视觉输出指令在所述指示灯阵列上显示视觉输出；以及依照不满足所述替代视觉输出准则的确定，依照所述第一视觉输出指令在所述指示灯阵列上显示视觉输出。

附图说明

为了更好地理解各种描述的实施方式，应该结合以下附图参考下面的具体实施方式，在附图中相同的附图标记在所有图中指代对应的部分。

图1图示依照一些实施方式的示例操作环境。

图2A图示依照一些实施方式的示例语音激活电子设备。

图2B图示依照一些实施方式的对于LED输出指令的示例数据结构。

图3图示依照一些实施方式的示例语音辅助服务器系统。

图4图示依照一些实施方式的显示服务器提供的替代LED图案的示例过程的流程图。

图5图示依照一些实施方式的显示服务器提供的替代LED图案的示例过程的流程图。

图6A和图6B是依照一些实施方式的语音激活电子设备的前视图和后视图。

图6C是依照一些实施方式的语音激活电子设备的顶视图，并且图6D示出依照一些实施方式的通过用于指示语音处理状态的全色LED阵列所显示的视觉图案。

相同的附图标记在附图的全部数个视图中指代对应的部分。

具体实施方式

虽然数字革命已提供了从公开共享信息到全球社区意义的许多好处，但是新兴的新技术常常在消费者当中引发混淆、怀疑和恐惧，从而阻止消费者从本技术中受益。电子设备被方便地用作语音接口来从用户接收语音输入并发起语音激活功能，并且因此提供免视(eyes-free)和免手操(hands-free)解决方案以应对现有技术和新兴技术。具体地，即使用户的视线被遮挡并且他的双手不得闲，在电子设备处接收到的语音输入也可以承载指令和信息。为了使能免手操和免视体验，语音激活电子设备不断地或者仅在被触发时侦听环境(即，不断地对从环境收集到的音频信号进行处理)。

具有语音接口的设备，诸如扬声器或家庭自动化集线器或安全系统，可具有最小视觉表面。可以使用有限数目的发光二极管(LED)来实现这些表面。LED可以用于指示设备功能性状态，诸如侦听用户语音输入、对语音输入进行处理、响应于语音输入而获得信息或者对语音输入做出响应。针对特定查询，对于相同状态使用与默认视觉输出不同的视觉输出来指示状态可能是有用的。

在一些实施方式中，服务器系统(例如，语音辅助服务的语音辅助服务器系统)可以对包括在语音输入中的用户请求进行处理，并且语音激活电子设备具有内置的视觉输出。针对一些用户请求，非默认替代视觉输出是可用的并且被从服务器系统发送到语音激活电子设备(例如，连同由服务器系统生成的响应一起)。设备可以使用替代视觉输出来取代默认视觉输出。例如，在节日，当用户要求他的日程、说早上好或者要求节日特定歌曲时，设备示出包括节日特定照明的视觉输出。作为另一示例，游戏可用非默认视觉输出示出轮到谁了、响应是正确的还是错误的等。因为内置的默认视觉输出被用于语音激活电子设备的大多数视觉响应，所以在服务器系统与语音激活设备之间节省了通信带宽(因为服务器不需要连同对大多数用户请求的响应一起发送视觉输出)。

依照一些实施方式，语音激活电子设备可以依照语音输入满足一个或多个准则的确定来显示非默认替代视觉输出。当另外本来已显示默认视觉输出时，可以显示非默认替代视觉输出来代替默认视觉输出。用于显示非默认视觉输出的信息或指令由远程系统(例如，服务器系统)提供。

以这种方式，可以在设备上显示不同的视觉输出，以在视觉上迷人且令人回味的方式向用户提供信息。

语音辅助操作环境

图1是依照一些实施方式的示例操作环境。操作环境100包括一个或多个语音激活电子设备104(在下文中为“语音激活设备”)。所述一个或多个语音激活设备104可以位于一个或多个位置中(例如，全部在一结构的房间或空间中、遍布在一结构内的多个空间中或者遍布在多个结构中(例如，一个在房屋中并且一个在用户的汽车中))。为了简单起见，操作环境100被描绘为具有一个语音激活设备104。

可选地，环境100也包括一个或多个可控电子设备106(例如，电子设备106-1至106-N，在下文中被称为“可控设备”)。可控设备106的示例包括媒体设备(智能电视、扬声器系统、无线扬声器、机顶盒、媒体流设备、投射设备)和智能家居设备(例如、智能相机、智能恒温器、智能灯、智能危险检测器、智能门锁)。

语音激活设备104和可控设备106通过通信网络110通信地耦合到语音辅助服务140(例如，到语音辅助服务140的语音辅助服务器系统112)。在一些实施方式中，任何数目的语音激活设备104和可控设备106通信地耦合到本地网络108，所述本地网络108通信地耦合到通信网络110；语音激活设备104和/或可控设备106经由本地网络108通信地耦合到通信网络110(并且，通过通信网络110，耦合到语音辅助服务器系统112)。在一些实施方式中，本地网络108是在网络接口(例如，路由器)处实现的局域网。通信地耦合到本地网络108的语音激活设备104和可控设备106也可以通过本地网络108彼此通信。

可选地，语音激活设备104通信地耦合到通信网络110并且不在本地网络108上。例如，在操作环境100中的语音激活设备可以不在与本地网络108相对应的Wi-Fi网络上，但是仍然耦合到通信网络110(例如，通过蜂窝连接)。在一些实施方式中，在本地网络108上的语音激活设备与不在本地网络108上的语音激活设备之间的通信通过语音辅助服务器系统112来完成。语音激活设备104(无论在本地网络108上还是在网络110上)被注册在语音辅助服务140的设备注册表118中并且因此为语音辅助服务器系统112所知。类似地，不在本地网络108上的语音激活设备104可以通过语音辅助服务器系统112与可控设备106进行通信。可控设备106(无论在本地网络108还是在网络110上)也被注册在设备注册表118中。在一些实施方式中，语音激活设备104与可控设备106之间的通信经过语音辅助服务器系统112。

在一些实施方式中，环境100也包括一个或多个内容主机114。内容主机114可以是依照包括在用户语音输入或命令中的请求来流式传输或者以其它方式获得内容的远程内容源。内容主机114可以是语音辅助服务器系统112依照用户语音请求从其中检索信息的信息源。

在一些实施方式中，可控设备106能够接收执行指定操作或者转变到指定状态的命令或请求(例如，来自语音激活设备104和/或语音辅助服务器系统112)并且将依照所接收到的命令或请求来执行操作或转变状态。

在一些实施方式中，可控设备106中的一个或多个是被布置在操作环境100中以向一个或多个用户提供媒体内容、新闻和/或其它信息的媒体设备。在一些实施方式中，由媒体设备提供的内容被存储在本地内容源中，从远程内容源(例如，内容主机114)流式传输，或者在本地生成(例如，通过读取定制的新闻简报、电子邮件、文本、本地天气报告等给操作环境100的一个或多个占用者的本地文本到语音处理器)。在一些实施方式中，媒体设备包括将媒体内容直接输出给受众(例如，一个或多个用户)的媒体输出设备，以及被联网以将媒体内容流式传输到媒体输出设备的投射设备。媒体输出设备的示例包括但不限于电视(TV)显示设备和音乐播放器。投射设备的示例包括但不限于机顶盒(STB)、DVD播放器、TV盒和媒体流设备，诸如谷歌的Chromecast^TM媒体流设备。

在一些实施方式中，可控设备106也是语音激活设备104。在一些实施方式中，语音激活设备104也是可控设备106。例如，可控设备106可以包括到语音辅助服务140(例如，也可接收用户语音输入、对用户语音输入进行处理并且对用户语音输入做出响应的媒体设备)的语音接口。作为另一示例，语音激活设备104也可以依照语音输入中的请求或命令来执行特定操作并转变到特定状态(例如，也可播放流音乐、读出电子邮件、报时、运行定时器等的语音接口设备)。

在一些实施方式中，语音激活设备104和可控设备106与具有相应的账户的用户相关联，或者与在用户域中具有相应的用户账户的多个用户(例如，一组相关用户，诸如家庭中或组织中的用户；更一般地，主用户和一个或多个授权的附加用户)相关联。用户可以向语音激活设备104做出语音输入或语音命令。语音激活设备104从用户(例如，用户102)接收这些语音输入，并且语音激活设备104和/或语音辅助服务器系统112继而确定语音输入中的请求并且生成对该请求的响应。

在一些实施方式中，包括在语音输入中的请求是对可控设备106执行操作(例如，播放媒体、暂停媒体、快进或倒回媒体、改变音量、改变屏幕亮度、改变灯亮度)或者转变到另一状态(例如，改变操作模式、打开或关闭、进入睡眠模式或者从睡眠模式唤醒)的命令或请求。

在一些实施方式中，语音激活设备104通过以下步骤来对语音输入做出响应：生成并提供对语音命令的语音响应(例如，响应于问题“现在是什么时间？”而说出当前时间)；流式传输由用户请求的媒体内容(例如，“播放海滩男孩歌曲”)；朗读为用户准备的新闻故事或每日新闻简报；播放存储在个人辅助设备上或者在本地网络上的媒体项；改变状态或者操作操作环境100内的一个或多个其它连接的设备(例如，打开/关闭灯、器具或媒体设备、锁门/开锁、打开窗户等)；或者经由网络110向服务器发出对应的请求。

在一些实施方式中，语音激活设备104被布置在操作环境100中以收集用于发起各种功能(例如，媒体设备的媒体播放功能)的音频输入。在一些实施方式中，语音激活设备104被布置为与可控设备106(例如，媒体设备)接近，例如，在与投射设备和媒体输出设备相同的房间中。可替选地，在一些实施方式中，语音激活设备104被布置在具有一个或多个智能家居设备而不是任何媒体设备的结构中。可替选地，在一些实施方式中，语音激活设备104被布置在具有一个或多个智能家居设备和一个或多个媒体设备的结构中。可替选地，在一些实施方式中，语音激活设备104被布置在没有联网的电子设备的位置中。另外，在一些实施方式中，结构中的房间或空间可以具有多个语音激活设备104。

在一些实施方式中，语音激活设备104包括至少一个或多个麦克风、扬声器、处理器以及存储由该处理器执行的至少一个程序的存储器。扬声器被配置成允许语音激活设备104将语音消息和其它音频(例如，可听音调)递送到语音激活设备104位于操作环境100中所在的位置，从而广播音乐、报告音频输入处理的状态、与语音激活设备104的用户进行对话或者向其给予指令。除语音消息之外或者作为语音消息的替代方案，视觉信号可以用于向语音激活设备104的用户提供关于音频输入处理的状态、语音激活设备104的状态或状况或者在设备104上运行的应用或模块的状态或状况的反馈。当语音激活设备104是移动设备(例如，移动电话或平板计算机)时，其显示屏幕被配置成显示关于音频输入处理的状态、设备状态或状况或者应用状态或状况的通知。

在一些实施方式中，语音激活设备104是被连网以借助于语音辅助服务器系统112提供语音识别功能的语音接口设备。例如，语音激活设备104包括向用户提供音乐并且允许免视和免手操访问语音辅助服务(例如，Google Assistant)的智能扬声器。可选地，语音激活设备104是台式或膝上型计算机、平板、包括麦克风的移动电话、包括麦克风并可选择地包括扬声器的投射设备、包括麦克风和扬声器的音频系统(例如，立体声系统、扬声器系统、便携式扬声器)、包括麦克风和扬声器的电视、包括麦克风和扬声器并可选地包括显示器的与另一设备或器具集成的用户接口系统(例如，与冰箱集成的用户接口系统)、以及包括麦克风和扬声器并可选地包括显示器的汽车中的用户接口系统中的一个。可选地，语音激活设备104是简单且低成本的语音接口设备。一般地，语音激活设备104可以是能够网络连接并且包括麦克风、扬声器以及用于与语音辅助服务140交互的程序、模块和数据的任何设备。给定语音激活设备104的简单性和低成本，语音激活设备104包括发光二极管(LED)的阵列而不是全显示屏幕，并且在LED上显示视觉图案以指示音频输入处理的状态、设备状态或状况或者应用状态或状况。在一些实施方式中，LED是全色LED，并且可以采用LED的颜色作为待在LED上显示的视觉图案的一部分。例如，在下面参考图6描述使用LED来显示视觉图案以便传达信息或设备状况的多个示例。在一些实施方式中，指示语音处理操作的状态或设备状态/状况或应用状态/状况的视觉图案使用在与正在执行语音处理操作的语音激活设备相关联的常规显示器上示出的特征图像来显示。

在一些实施方式中，LED或其它视觉显示器用于传达多个参与电子设备的集体语音处理状态。例如，在存在多个语音处理或语音接口设备(例如，如图6A中所示出的多个电子设备600；图1的多个语音激活设备104)的操作环境中，与相应的电子设备相关联的成组的彩色LED(例如，如图6A中所示出的LED 604)可用于传达这些电子设备中的哪一个正在侦听用户。

更一般地，在下面参考图6A至图6D的讨论描述用于使用LED的合集来在视觉上指示电子设备的各种语音处理状态(诸如热词检测状态和侦听状态、思维模式、工作模式、响应模式和/或说话模式)的“LED设计语言”。在一些实施方式中，本文中所描述的语音处理操作的唯一状态是依照“LED设计语言”的一个或多个方面使用一组LED来表示的。这些视觉指示器也可与由正在执行语音处理操作的电子设备所生成的一个或多个可听指示器组合。结果得到的音频和/或视觉指示器将使得语音交互环境中的用户能够理解该环境中的各种语音处理电子设备的状态并且以自然直观的方式有效地与这些设备交互。

在一些实施方式中，当语音激活设备104的语音输入被用于经由投射设备来控制媒体输出设备时，语音激活设备104有效地使能对支持投射的媒体设备的新级别的控制。在特定示例中，语音激活设备104包括具有远场语音接入的休闲享受扬声器并且充当语音辅助服务的语音接口设备。语音激活设备104可以被布置在操作环境100中的任何区域中。当多个语音激活设备104分布在多个房间中时，它们变成被同步以从这些房间提供语音输入的投射音频接收器。

具体地，在一些实施方式中，语音激活设备104包括具有连接到语音激活语音辅助服务(例如，Google Assistant)的麦克风的Wi-Fi扬声器。用户(例如，用户102)可经由语音激活设备104的麦克风发出媒体播放请求，并且要求语音辅助服务140在语音激活设备104上或者在另一连接的媒体输出设备上播放媒体内容。例如，用户可通过向Wi-Fi扬声器说“OK Google,play cat videos on my Living room TV(OK Google，在我的客厅TV上播放猫视频)”来发出媒体播放请求。语音辅助服务然后通过使用默认或指定的媒体应用程序在所请求的设备上播放所请求的媒体内容来履行媒体播放请求。

在一些实施方式中，用户可经由语音激活设备104的麦克风发出关于在显示设备上已经播放或者正在播放的媒体内容的语音请求(例如，用户可要求关于媒体内容的信息，通过在线商店购买媒体内容，或者撰写并发出关于媒体内容的社交帖子)。

在一些实施方式中，用户可能想随着他们移动通过房屋而与他们进行当前媒体会话并且可从语音激活设备104中的一个或多个请求这样的服务。这需要语音辅助服务140将当前媒体会话从第一投射设备转移到未直接连接到第一投射设备或者不知道第一投射设备的存在的第二投射设备。继媒体内容转移之后，在媒体内容的播放在第一输出设备上被放弃的情况下，耦合到第二投射设备的第二输出设备继续从音乐乐曲或视频剪辑内的确切点起播放耦合到第一投射设备的第一输出设备先前播放的媒体内容。在一些实施方式中，接收到转移媒体会话的请求的语音激活设备104可满足该请求。在一些实施方式中，接收到转移媒体会话的请求的语音激活设备104将该请求中继到另一设备或系统(例如，语音辅助服务器系统112)以供处理。

另外，在一些实施方式中，用户可以经由语音激活设备104的麦克风发出对信息的或对动作或操作的执行的请求。所请求的信息可以是个人的(例如，用户的电子邮件、用户的日历事件、用户的航班信息等)、非个人的(例如，比赛分数、新闻故事等)或其之间的(例如，用户偏爱的团队或比赛的分数、来自用户的优选源的新闻故事等)。所请求的信息或动作/操作可以涉及对个人信息的访问(例如，利用由用户提供的支付信息购买数字媒体项、购买实物商品)。语音激活设备104和/或语音辅助服务140以对用户的语音消息响应对请求做出响应，其中响应可以包括例如对履行请求的附加信息的请求、已履行了请求的确认、不可履行请求的注意事项等。在一些实施方式中，对信息的请求是信息到语音(例如，文本到语音)请求，其中用户正在请求所请求的信息由语音激活设备104大声地读出(例如，作为语音)，或者更一般地，所请求的信息由语音激活设备104以可听且人类可理解的形式输出。在一些实施方式中，可以在语音激活设备104和/或语音辅助服务140上执行应用，并且语音激活设备104用作应用的接口。例如，语音激活设备104可以运行益智游戏应用，并且使用语音提示、语音输出及可选地视觉输出(例如，使用成组LED显示的灯图案)来与游戏参与者互动。

作为示例，用户可经由语音激活设备104的麦克风发出信息到语音(例如，文本到语音)请求，并且要求语音辅助服务140在语音激活设备104上大声朗读信息(例如，电子邮件、日历事件、新闻文章、比赛分数、当前时间、定时器上剩下的时间等)。例如，用户可通过向语音接口设备说“OK Google，在我的日历中今天我要做什么？”来发出信息到语音请求。语音辅助服务140通过在语音接口设备语音激活设备104上大声朗读所请求的信息来履行信息到语音请求。

在一些实施方式中，除语音激活设备104和可控设备106之中的媒体设备之外，操作环境100还可以包括可控设备106之中的一个或多个智能家居设备。集成智能家居设备包括在智能家居网络中与彼此并且/或者与中央服务器或云计算系统无缝地集成以提供各种有用的智能家居功能的智能多感测连网的设备。在一些实施方式中，智能家居设备被布置在操作环境100的与投射设备和/或输出设备相同的位置处，并且因此，位于与投射设备和输出设备接近或者相对于投射设备和输出设备在已知距离上。

操作环境100中的智能家居设备可以包括但不限于一个或多个智能多感测连网的恒温器、一个或多个智能连网的多感测危险检测器、一个或多个智能多感测连网的入口接口设备(在下文中被称为“智能门铃”和“智能门锁”)以及一个或多个智能多感测连网的警报系统、一个或多个智能多感测连网的相机系统、一个或多个智能多感测连网的墙壁开关、一个或多个智能多感测连网的电源插座和一个或多个智能多感测连网的灯。在一些实施方式中，图1的操作环境100中的智能家居设备包括多个智能多感测连网的器具(在下文中被称为“智能器具”)，诸如冰箱、电炉、烤箱、电视、洗衣机、烘干机、灯、立体声系统、对讲系统、车库门开启器、落地风扇、吊扇、壁挂式空调、泳池加热器、灌溉系统、安全系统、空间加热器、窗户AC(空调)单元、电动管道通风口等。在一些实施方式中，这些智能家居设备类型中的任何一种可配备有如本文中所描述的麦克风和一个或多个语音处理能力，以便整个地或部分地对来自占用者或用户的语音请求做出响应。

在一些实施方式中，可控设备104和语音激活设备104中的每一个能够与其它可控设备106、语音激活电子设备104、中央服务器或云计算系统和/或连网的其它设备(例如，客户端设备)进行数据通信和信息共享。可以使用各种定制或标准无线协议(例如，IEEE802.15.4、Wi-Fi、ZigBee、6LoWPAN、Thread、Z-Wave、Bluetooth Smart、ISA100.11a、WirelessHART、MiWi等)和/或各种定制或标准有线协议中的任一种(例如，以太网、HomePlug等)或者任何其它适合的通信协议(包括在本文档的提交日期时尚未开发的通信协议)来执行数据通信。

通过通信网络(例如，因特网)110，可控设备106和语音激活设备104可以与服务器系统(在本文中也被称作中央服务器系统和/或云计算系统)进行通信。可选地，服务器系统可以与和可控设备相关联的制造商、支持实体或服务提供者以及向用户显示的媒体内容相关联。因此，服务器系统包括对由语音激活设备104收集到的音频输入进行处理的语音辅助服务器系统112；提供所显示的媒体内容的一个或多个内容主机114，可选地基于分布式设备终端创建虚拟用户域的云投射服务服务器；以及保持虚拟用户环境中的分布式设备终端的记录的设备注册表118。分布式设备终端的示例包括但不限于可控设备106、语音激活设备104和媒体输出设备。在一些实施方式中，这些分布式设备终端链接到虚拟用户域中的用户账户(例如，谷歌用户账户)。应该了解，可在语音激活设备104处、在语音辅助服务器系统112处、在另一智能家居设备(例如，集线器设备)处或者在上述的全部或子集的某个组合处，本地地执行由语音激活设备104收集到的音频输入的处理。

应当了解，在一些实施方式中语音激活设备104也在不具有智能家居设备的环境中起作用。例如，即使在智能家居设备不存在的情况下，语音激活设备104也可对用户对信息的或动作的执行和/或发起或者控制各种媒体播放功能的请求做出响应。语音激活设备104也可在广泛的环境中起作用，包括但不限于车辆、船舶、企业或制造环境。

在一些实施方式中，语音激活设备104通过包括热词(也被称作“唤醒词”)的语音输入被“唤醒”(例如，以激活语音激活设备104上用于语音辅助服务的接口、以将语音激活设备104置于语音激活设备104准备好接收语音请求给语音请求服务的状态中)。在一些实施方式中，如果语音激活设备104相对于语音输入的接收在至少预定义量的时间(例如，5分钟)内一直空闲，则语音激活设备104需要唤醒；预定义量的时间对应于在语音接口会话或对话超时之前所允许的空闲时间的量。热词可以是词或短语，并且可以是预定义默认的和/或可以由用户定制(例如，用户可以将特定语音激活设备104的昵称设定为该设备的热词)。在一些实施方式中，可以存在可唤醒语音激活设备104的多个热词。用户可以说出热词，等待来自语音激活设备104的肯定应答响应(例如，语音激活设备104输出问候语)，并且然后做出第一语音请求。可替选地，用户可以在一个语音输入中组合热词和第一语音请求(例如，语音输入包括由语音请求紧接的热词)。

在一些实施方式中，语音激活设备104与依照一些实施方式的操作环境100的可控设备106(例如，媒体设备、智能家居设备)、客户端设备(例如，客户端设备103)或服务器系统(例如，语音辅助服务器系统112)交互。语音激活设备104被配置成从接近语音激活设备104的环境接收音频输入。可选地，语音激活设备104存储音频输入并且至少部分地本地地对这些音频输入进行处理。可选地，语音激活设备104经由通信网络110将所接收到的音频输入或部分地经处理的音频输入发送到语音辅助服务器系统112以用于进一步处理。语音激活设备104或语音辅助服务器系统112确定在音频输入中是否存在请求以及该请求是什么，确定并生成对该请求的响应，并且执行一个或多个操作以履行该请求(例如，获得请求的信息并且将该信息转换为可听语音输出，依照请求将响应发送到一个或多个可控设备106)。接收到可包括给可控设备106的一个或多个命令的响应的可控设备106被配置成依照响应执行操作或者改变状态。例如，媒体设备被配置成依照对音频输入中的请求的响应从一个或多个内容主机114获得媒体内容或因特网内容以供显示在耦合到该媒体设备的输出设备上。

在一些实施方式中，可控设备106和语音激活设备104在用户域中彼此链接，并且更具体地，经由用户域中的用户账户彼此相关联。关于(无论在本地网络108上还是在网络110上的)可控设备106和(无论在本地网络108上还是在网络110上的)语音激活设备104的信息被与用户账户相关联地存储在设备注册表118中。在一些实施方式中，存在用于可控设备106的设备注册表和用于语音激活设备104的设备注册表。可控设备注册表可以引用在用户域中相关联的语音激活设备注册表中的设备，并且反之亦然。

在一些实施方式中，语音激活设备104(和一个或多个投射设备)中的一个或多个以及可控设备106中的一个或多个经由客户端设备103被投用到语音辅助服务140。在一些实施方式中，语音激活设备104不包括任何显示屏幕，并且依靠客户端设备103来在投用过程期间提供用户界面，并且类似地对于可控设备106也一样。具体地，客户端设备103被安装有使得用户界面能够方便被布置为接近客户端设备的新语音激活设备104和/或可控设备106的投用的应用。用户可以在客户端设备103的用户界面上发送用于对需要被投用的新电子设备104或106发起投用过程的请求。在接收到投用请求之后，客户端设备103与需要被投用的新电子设备104或106建立短距离通信链路。可选地，该短距离通信链路是基于近场通信(NFC)、蓝牙、低功耗蓝牙(BLE)等而建立的。客户端设备103然后将与无线局域网(WLAN)(例如，本地网络108)相关联的无线配置数据传达给新电子设备104或106。无线配置数据包括至少WLAN安全代码(即，服务集标识符(SSID)口令)，并且可选地包括SSID、网际协议(IP)地址、代理配置和网关配置。在经由短距离通信链路接收到无线配置数据之后，新电子设备104/106对无线配置数据进行解码和恢复，并且基于无线配置数据加入WLAN。

在一些实施方式中，在客户端设备103上显示的用户界面上录入附加的用户域信息，并且用于将新电子设备104或106链接到用户域中的账户。可选地，附加用户域信息通过短距离通信链路与无线通信数据结合地被传送到新电子设备104或106。可选地，在新设备加入WLAN之后，附加的用户域信息经由WLAN被传送到新电子设备104或106。

一旦已经将电子设备104或106投用到用户域中，就可以经由多个控制路径来控制其它设备及其相关联的活动。依照一个控制路径，安装在客户端设备103上的应用被用于控制其它设备及其相关联的活动(例如，媒体播放活动)。可替选地，依照另一控制路径，电子设备104或106被用于使能对其它设备及其相关联的活动的免视和免手操控制。

在一些实施方式中，语音激活设备104的LED或其它视觉显示器用于传达在语音激活设备104和/或语音辅助服务器系统112处的语音处理的状态、设备状态或状况或者应用状态或状况。特定状态或状况可以与特定默认LED视觉图案相关联。在一些实施方式中，LED视觉图案包括要点亮哪些LED且什么时候点亮(例如，以便传达灯的图案和/或运动)以及要点亮的LED的颜色。一般地，每当状态或状况在语音激活装置104处生效时，语音激活装置104在成组LED上显示所对应的LED图案。在一些实施方式中，默认LED图案的指令或数据以及默认LED图案到特定状态或状况的映射被在本地存储在语音激活设备处。

在一些实施方式中，如果满足一个或多个准则，则由语音辅助服务140来提供当状态或状况生效时显示的替代LED图案。当默认LED图案将否则被显示时，替代LED图案由语音激活设备104显示来代替默认LED图案。在一些实施方式中，替代LED图案的信息或数据被连同由语音辅助服务器系统112响应于用户的语音输入而生成的任何响应或命令一起从语音辅助服务器系统112发送到语音激活设备104。在一些实施方式中，替代LED图案的信息或数据独立于来自用户的语音输入的接收或处理在某些时间被从语音辅助服务器系统112发送到语音激活设备104。在一些实施方式中，替代LED图案信息在语音激活设备104处被存储一段时间(例如，缓存在高速缓存中、存储在存储器中并且在一段时间之后从存储器移除)。

操作环境中的设备

图2是图示被作为语音接口应用来在依照一些实施方式的操作环境(例如，操作环境100)中收集用户语音命令的示例语音激活设备104的框图。语音激活设备104通常包括一个或多个处理单元(CPU)202、一个或多个网络接口204、存储器206以及用于互连这些组件(有时被称作芯片组)的一个或多个通信总线208。语音激活设备104包括方便用户输入的一个或多个输入设备210，诸如按钮212、(可选地)触摸感测阵列214和一个或多个麦克风216。语音激活设备104也包括一个或多个输出设备218，包括一个或多个扬声器220以及LED阵列222和/或显示器224。在一些实施方式中，LED阵列222是全色LED阵列。在一些实施方式中，语音激活设备104取决于该设备的类型而具有LED阵列222或显示器224或两者。在一些实施方式中，语音激活设备104也包括位置检测设备226(例如，GPS模块)和一个或多个传感器228(例如，加速度计、陀螺仪、光传感器等)。

存储器206包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM或其它随机存取固态存储器器件；并且可选地，包括非易失性存储器，诸如一个或多个磁盘存储设备、一个或多个光盘存储设备、一个或多个闪速存储器设备或一个或多个其它非易失性固态存储设备。存储器206可选地包括位于远离一个或多个处理单元202的一个或多个存储设备。存储器206或可替选地存储器206内的非易失性存储器包括非暂时性计算机可读存储介质。在一些实施方式中，存储器206或存储器206的非暂时性计算机可读存储介质存储以下程序、模块和数据结构，或者其子集或超集：

·包括用于处理各种基本系统服务并用于执行硬件相关任务的过程的操作系统232；

·用于经由一个或多个网络接口204(有线的或无线的)和一个或多个网络110(诸如因特网、其它广域网、局域网(例如，本地网络108)、城域网等)将语音激活设备104连接到其它设备(例如，语音辅助服务140、一个或多个可控设备106、一个或多个客户端设备103和其它语音激活设备104)的网络通信模块234；

·用于经由一个或多个输入设备接收输入并且使得能够经由一个或多个输出设备218在语音激活设备104处呈现信息的输入/输出控制模块236，包括：

ο用于对在语音激活设备104周围的环境中收集的音频输入或语音消息进行处理或者准备所收集到的音频输入或语音消息以供在语音辅助服务器系统112处处理的语音处理模块238；

ο用于根据语音激活设备104的设备状态并根据LED输出指令252和254在LED 222上生成视觉图案的LED控制模块240；以及

ο用于感测语音激活设备104的顶面(例如，在触摸传感器阵列214上)的触摸事件的触摸感测模块242；

·用于存储至少与语音激活设备104相关联的数据的语音激活设备数据244，包括：

ο用于存储与语音激活设备104它本身相关联的信息的语音设备设置246，包括公共设备设置(例如，服务层、设备模型、存储容量、处理能力、通信能力等)、用户域中的一个或多个用户账户的信息、设备昵称和设备组、有关在对待非注册用户时的局限的设置、以及与由LED 222显示的一个或多个视觉图案相关联的显示规格(例如，状态和状况到默认LED输出指令的映射)；以及

ο用于存储音频信号、语音消息、响应消息以及与语音激活设备104的语音接口功能有关的其它数据的语音控制数据248；

·用于执行包括在由语音辅助服务器系统112生成的语音请求响应中的指令并且在一些实施方式中生成对某些语音输入的响应的响应模块250；以及

·用于本地地存储对于LED图案的输出指令的本地LED输出指令252；

·用于存储从语音辅助服务器系统112接收到的LED图案的替代输出指令的接收到的LED输出指令254；

·用于执行特定操作或者获得特定信息的应用255。在一些实施方式中，应用255的示例包括定时器、闹钟、单位转换器等。

·在一些实施方式中，语音处理模块238包括以下模块(未示出)：

·用于识别向语音激活设备104提供语音输入并消除其歧义的用户的用户识别模块；

·用于确定语音输入是否包括用于唤醒语音激活设备104的热词并且在语音输入中识别此类热词的热词识别模块；以及

·用于确定包含在语音输入中的用户请求的请求识别模块。

图2B图示依照一些实施方式的本地LED输出指令252和接收到的LED输出指令254的示例数据结构。本地LED输出指令252存储用于每当某些状态或状况在语音激活设备104处生效时要显示的标准化或默认LED图案的输出指令。本地LED输出指令252被存储在存储器206中，并且包括相应的输出图案的输出指令的一个或多个集合(例如，集合252-1至252-3)。

在一些实施方式中，本地LED输出指令252的数据结构包括数据结构所设定的LED图案输出指令下列的：

·输出指令集标识符256，其可以包括字母数字标识符值和/或名称；以及

·输出指令258，其存储控制模块240用来显示LED图案的实际指令或信息LED；输出命令或信息包括诸如例如下列的信息：要点亮LED顺序以及什么时候点亮以及要点亮的LED的颜色。

接收到的LED输出指令254存储每当某些状态或状况在语音激活设备104处生效时要显示代替标准化或默认LED图案的替代LED图案的替代LED输出指令350(图3)。接收到的LED输出指令254包括已从语音辅助服务器系统112接收到的替代LED输出指令350。接收到的LED输出指令254被存储在存储器206中并且可以被从存储器中周期性地(例如，按照高速缓存替换策略)移除，并且包括相应的输出图案的输出指令的一个或多个集合(例如，集合254-1至254-3)。

在一些实施方式中，接收到的LED输出指令254的数据结构包括在数据结构中的用于LED图案输出指令集的下列内容：

·输出指令集标识符260，其可以包括字母数字标识符值和/或名称；

·到一个或多个本地LED图案的映射或对应262，其包括接收到的LED图案作为替代方案以供显示的本地LED图案的标识符；以及

·输出指令264，其存储LED控制模块240用来显示LED图案的实际指令或信息。输出指令或信息包括诸如例如下列的信息：要点亮LED的顺序以及什么时候点亮以及要点亮的LED的颜色。

上面标识的元素中的每一个可以被存储在先前提及的存储器设备中的一个或多个中，并且对应于用于执行上述的功能的指令集。上面标识的模块或程序(即，指令集)不必作为单独的软件程序、过程、模块或数据结构被实现，并且因此可以在各种实施方式中组合或者以其它方式重新安排这些模块的各个子集。在一些实施方式中，存储器206可选地存储上面所标识的模块和数据结构的子集。此外，存储器206可选地存储上面未描述的附加模块和数据结构。在一些实施方式中，存储在存储器206中的程序、模块和/或数据的子集可被存储在语音辅助服务器系统112上和/或由语音辅助服务器系统112执行。

在一些实施方式中，上述的存储器206中的模块中的一个或多个是模块的语音处理库的一部分。语音处理库可以被实现并嵌入在各式各样的设备上。

图3是图示依照一些实施方式的操作环境(例如，操作环境100)的语音辅助服务140的示例语音辅助服务器系统112的框图。服务器系统112通常包括一个或多个处理单元(CPU)302、一个或多个网络接口304、存储器306以及用于互连这些组件(有时被称作芯片组)的一个或多个通信总线308。服务器系统112可以包括方便用户输入的一个或多个输入设备310，诸如键盘、鼠标、语音命令输入单元或麦克风、触摸屏显示器、触敏输入板、手势捕获相机或其它输入按钮或控件。此外，服务器系统112可以使用麦克风和语音识别或相机和手势识别来补充或者替换键盘。在一些实施方式中，服务器系统112包括用于捕获例如印刷在电子设备上的图形系列代码的图像的一个或多个相机、扫描器或光传感器单元。服务器系统112也可以包括使得能够呈现用户界面和显示内容的一个或多个输出设备312，包括一个或多个扬声器和/或一个或多个视觉显示器。

存储器306包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM或其它随机存取固态存储器器件；并且可选地，包括非易失性存储器，诸如一个或多个磁盘存储设备、一个或多个光盘存储设备、一个或多个闪速存储器设备或一个或多个其它非易失性固态存储设备。存储器306可选地包括位于远离一个或多个处理单元302的一个或多个存储设备。存储器306或可替选地存储器306内的非易失性存储器包括非暂时性计算机可读存储介质。在一些实施方式中，存储器306或存储器306的非暂时性计算机可读存储介质存储以下程序、模块和数据结构，或者其子集或超集：

·包括用于处理各种基本系统服务并用于执行硬件相关任务的过程的操作系统316；

·用于经由一个或多个网络接口304(有线的或无线的)和一个或多个网络110(诸如因特网、其它广域网、局域网、城域网等)将服务器系统112连接到其它设备(例如，客户端设备103、可控设备106、语音激活设备104)的网络通信模块318；

·用于使能在客户端设备处呈现信息的用户界面模块320(例如，用于呈现应用322-328、微件、网站及其web页面和/或游戏、音频和/或视频内容、文本等的图形用户界面)；

·用于在服务器侧的执行的命令执行模块321(例如，游戏、社交网络应用、智能家居应用和/或用于控制客户端设备103、可控设备106、语音激活设备104和智能家居设备并且审查由此类设备所捕获的数据的其它基于web或非web的应用)，包括以下各项中的一个或多个：

ο投射设备应用322，其被执行来提供与投射设备相关联的设备投用、设备控制和用户账户管理的服务器侧功能性；

ο一个或多个媒体播放器应用324，其被执行来提供与对应的媒体源相关联的媒体显示和用户账户管理的服务器侧功能性；

ο一个或多个智能家居设备应用326，其被执行来提供对应的智能家居设备的设备提供、设备控制、数据处理和数据审查的服务器侧功能性；以及

ο语音辅助应用程序328，其被执行来安排从语音激活设备104接收到的语音消息的语音处理或者直接对语音消息进行处理以提取用户语音命令和该用户语音命令的一个或多个参数(例如，可控设备106设备或另一语音激活设备104的指定)，包括确定是否满足替代LED图案的一个或多个准则；以及

·存储至少与(例如，在自动媒体输出模式和跟随模式下)媒体显示的自动控制相关联的数据以及其它数据的服务器系统数据330，所述其它数据包括以下各项中的一个或多个：

ο用于存储与一个或多个客户端设备相关联的信息的客户端设备设置332，包括公共设备设置(例如，服务层、设备模型、存储容量、处理能力、通信能力等)以及用于自动媒体显示控制的信息；

ο用于存储与投射设备应用322的用户账户相关联的信息的投射设备设置334，包括账户访问信息、设备设置(例如，服务层、设备模型、存储容量、处理能力、通信能力等)的信息以及用于自动媒体显示控制的信息中的一个或多个；

ο用于存储与一个或多个媒体播放器应用324的用户账户相关联的信息的媒体播放器应用设置336，包括账户访问信息、媒体内容类型的用户偏好、审查历史数据以及用于自动媒体显示控制的信息中的一个或多个；

ο用于存储与智能家居应用326的用户账户相关联的信息的智能家居设备设置338，包括账户访问信息、一个或多个智能家居设备的信息(例如，服务层、设备模型、存储容量、处理能力、通信能力等)中的一个或多个；

ο用于存储与语音辅助应用328的用户账户相关联的信息的语音辅助数据340，包括账户访问信息、一个或多个语音激活设备104的信息(例如，服务层、设备模型、存储容量、处理能力、通信能力等)中的一个或多个；

ο用于存储与用户域中的用户相关联的信息的用户数据342，包括用户的订阅(例如，音乐流服务订阅、视频流服务订阅、时事通讯订阅)、用户设备(例如，在与相应的用户、设备昵称、设备组相关联的设备注册表118中注册的设备)、用户账户(例如，用户的电子邮件账户、日历账户、金融账户)和其它用户数据；

ο用于存储用户域中的用户的语音配置文件的用户语音配置文件344，包括例如用户的语音模型或语音指纹以及用户的舒适音量级阈值；以及

ο用于存储用于确定何时可以在语音激活设备104处显示替代LED图案来代替标准化或默认LED图案的准则信息的替代LED图案准则345；

·用于管理设备注册表118的设备注册模块348；

·用于对在电子设备104周围的环境中收集的音频输入或语音消息进行处理的语音处理模块350；以及

·用于存储可以在语音激活设备104显示来代替标准化或默认LED图案的LED图案的输出指令的替代LED输出指令350。

在一些实施方式中，替代LED输出指令350的数据结构与接收到的LED输出指令254的数据结构(图2B)类似，并且包括在数据结构中的用于LED图案输出指令集的下列内容：

·输出指令集标识符，其可以包括字母数字标识符值和/或名称；

·到一个或多个标准化/默认LED模式的映射或对应，其包括所接收到的LED图案作为替代方案以供显示的本地LED图案的标识符；以及

在一些实施方式中，语音辅助服务器系统112主要负责语音输入的处理，并且因此上面参考图2所描述的存储器206中的程序、模块和数据结构中的一个或多个被包括在存储器306中的相应的模块中(例如，与语音处理模块238包括在一起的程序、模块和数据结构被包括在语音处理模块350中)。语音激活设备104将捕获的语音输入发送到语音辅助服务器系统112以用于处理，或者首先对语音输入进行预处理并且将经预处理的语音输入发送到语音辅助服务器系统112以用于处理。在一些实施方式中，语音辅助服务器系统112和语音激活设备104具有有关语音输入的处理的一些共享的和一些划分的责任，并且图2所示的程序、模块和数据结构可以被包括在语音辅助服务器系统112和语音激活设备104两者中或者在语音辅助服务器系统112和语音激活设备104之间进行划分。图2所示的其它程序、模块和数据结构或其类似物也可以被包括在语音辅助服务器系统112中。

上面标识的元素中的每一个可以被存储在先前提及的存储器设备中的一个或多个中，并且对应于用于执行上述的功能的指令集。上面标识的模块或程序(即，指令集)不必作为单独的软件程序、过程、模块或数据结构被实现，并且因此可以在各种实施方式中组合或者以其它方式重新安排这些模块的各个子集。在一些实施方式中，存储器306可选地存储上面标识的模块和数据结构的子集。此外，存储器306可选地存储上面未描述的附加模块和数据结构。

在一些实施方式中，输出指令258和264以及对于替代LED输出350-1、350-2、350-3等的输出指令是依照LED设计语言来指定的，所述LED设计语言的示例在上面引用的‘566申请中被描述。

在一些实施方式中，语音辅助服务器系统112也存储与用于使用替代LED图案的准则相对应的信息。可以将该信息存储在例如存储器306中。这种信息包括例如可以显示替代LED图案的节日(节日的日期和适用节日的场所)以及所对应的替代LED图案的标识符、带具有相关联的替代LED图案的状态或状况的应用等。语音辅助服务器系统112可以使用此信息来确定是否满足用于使用替代LED图案的准则(例如，语音输入中的请求是否引用了正在发生的节日，语音输入是否被导向其状态和状况可以使用替代LED图案来指示的应用)。

示例过程

图4图示依照一些实施方式的显示服务器提供的替代LED图案的示例过程400的流程图。在一些实施方式中，过程400被实现在具有一个或多个麦克风、扬声器、指示灯阵列、一个或多个处理器以及存储由所述一个或多个处理器执行的一个或多个程序的存储器的电子设备(例如，语音激活设备104)处。

电子设备获得(402)存储在该电子设备处的第一视觉输出指令，其中第一视觉输出指令基于电子设备的操作状态，包括在其上执行的应用的操作状态，来控制指示灯阵列的操作。语音激活设备104访问存储在存储器206中的本地LED输出指令252。LED控制模块240基于这些本地LED输出指令252在LED阵列上显示LED灯图案；指令指示LED控制模块240要打开/关掉哪些LED以及什么时候打开/关掉以及要点亮的LED的颜色。

电子设备接收(404)语音输入。语音激活设备104检测并捕获来自用户102的语音输入的发言。语音激活设备104将所捕获的语音输入发送到语音辅助服务器系统112以供处理。

电子设备从远程系统获得(406)对语音输入的响应和第二视觉输出指令，其中第二视觉输出指令由远程系统依照语音输入满足一个或多个标准的确定连同响应一起提供。语音激活设备104从语音辅助服务器系统112接收对语音输入的响应以及语音激活设备104根据接收到的LED输出指令254存储在存储器206中的替代LED输出指令350。响应可以由语音辅助服务器112(例如，由语音处理模块248)来生成，并且可以包括可听输出和用于输出该可听输出的指令以及用于执行特定操作的指令。在一些实施方式中，响应也包括用于语音激活设备104使用替代LED输出指令而不是所对应的默认本地LED输出指令的指令。语音激活设备104依照语音输入满足一个或多个准则的确定连同响应一起从语音辅助服务器系统112接收替代LED输出指令350。

在一些实施方式中，语音辅助服务器系统112确定是否满足对于替代LED图案的一个或多个准则。该准则可以包括语音输入是否请求与节日相关的信息或内容等。

电子设备(408)执行响应。语音激活设备104依照包括在响应中的指令执行操作，并且依照响应输出输出(例如，可听输出)。

电子设备(410)依照第二视觉输出指令在指示灯阵列上显示视觉输出，其中否则在不存在第二视觉输出指令的情况下电子设备依照第一视觉输出指令在指示灯阵列上显示视觉输出。语音激活设备104依照从语音辅助服务器系统112接收到的替代LED输出指令在LED阵列上显示图案。在不存在替代LED输出指令或者响应于使用替代LED输出指令的指令的情况下，语音激活设备104依照本地LED输出指令在LED阵列上显示图案。

在一些实施方式中，语音激活设备104在某些时间下载替代LED输出指令(例如，在万圣节之前(例如，2周之前)某个时间下载万圣节相关的LED输出指令)，并且在万圣节，默认LED输出指令整日被用万圣节相关的LED输出指令取代。例如，在万圣节，当语音激活设备104在被唤醒之后说“早上好”时，以万圣节为主题的LED图案(例如，与默认的“早上好”图案相同序列的LED，但具有黑色和橙色灯)被显示代替默认的“早上好”图案。

在一些实施方式中，依照第二视觉输出指令在指示灯阵列上显示视觉输出与执行响应并发进行。

在一些实施方式中，电子设备从远程系统获得与第二视觉输出指令相关联的可听输出指令，并且依照可听输出指令在扬声器上输出可听输出，其中所述可听输出指令是对与对语音输入的响应相关联的可听输出的补充。特定或替代声音可以伴随替代LED输出图案。语音激活设备104连同替代LED输出指令一起接收替代声音的指令和数据，并且在输出替代LED图案时依照指令输出除对语音输入的响应的可听输出之外的替代声音。

在一些实施方式中，所述一个或多个准则包括：语音输入包括与该语音输入中所指定的节日相关联的请求。例如，如果语音输入包括播放圣诞歌曲的请求或者问询距圣诞节的天数，则当语音激活设备104处于文本到语音处理状态时，语音激活设备104可以用红色和绿色颜色而不是默认颜色来显示文本到语音状况LED图案。

在一些实施方式中，所述一个或多个准则包括：接收到语音输入的日期对应于节日。例如，如果语音激活设备104在圣诞节被唤醒，则当语音激活设备104响应于被用“早上好”可听输出唤醒时显示的LED图案可以具有红色和绿色颜色而不是默认颜色。

在一些实施方式中，所述一个或多个准则包括：语音输入与电子设备处的正在进行的游戏会话相关联。例如，如果语音激活设备104正在运行游戏应用，则为与游戏应用的未完成游戏会话交互的语音输入而显示的文本到语音处理状态LED图案对于每个用户玩家来说可以具有不同的图案和/或颜色来代替默认图案和颜色。

在一些实施方式中，用于显示替代LED图案(例如，针对文本到语音处理状态的替代图案而不是默认图案)的附加准则包括特定天气条件(当请求是针对天气报告时)、差交通条件(当请求是针对交通或通勤报告时)。

在一些实施方式中，指示灯阵列包括LED灯阵列。在一些实施方式中，指示灯阵列包括全色灯。指示灯阵列可以是LED灯，并且可以是全色灯(例如，全色LED灯)。

图5图示依照一些实施方式的显示服务器提供的替代LED图案的示例过程500的流程图。在一些实施方式中，过程500被实现在具有一个或多个麦克风、扬声器、指示灯阵列、一个或多个处理器以及存储由所述一个或多个处理器执行的一个或多个程序的存储器的电子设备(例如，语音激活设备104)处。

电子设备获得(502)存储在电子设备处的第一视觉输出指令，其中第一视觉输出指令基于电子设备的操作状态，包括在其上执行的应用的操作状态，来控制指示灯阵列的操作。语音激活设备104访问存储在存储器206中的本地LED输出指令252。LED控制模块240基于这些本地LED输出指令252在LED阵列上显示LED灯图案；指令指示LED控制模块240要打开/关掉哪些LED以及什么时候打开/关掉以及要点亮的LED的颜色。

电子设备从远程系统获得(504)第二视觉输出指令。语音激活设备104从语音辅助服务器系统112接收语音激活设备104根据接收到的LED输出指令254存储在存储器206中的替代LED输出指令350。语音激活设备104在某些时间(例如，周期性地；在与替代LED输出指令相关联的节日之前的预定义天数；连同对语音输入的响应一起)接收替代LED输出指令。

电子设备(506)执行操作。语音激活设备104可以依照对语音输入的响应或者作为运行应用程序的一部分来执行操作。

与执行操作相关联地，电子设备确定(508)是否满足一个或多个替代视觉输出准则。语音激活设备104确定与操作相关联的条件(例如，当接收到语音输入时触发了操作的语音输入的内容)是否满足用于使用替代LED输出指令的准则。例如，如果操作是输出可听问候，则语音激活设备104确定是否满足一个或多个准则(例如，今天是特定节日)。

依照满足替代视觉输出准则的确定，电子设备依照第二视觉输出指令在指示灯阵列上显示(510)视觉输出。如果满足一个或多个准则，则语音激活设备104依照替代LED输出指令在LED阵列上显示灯图案。

依照不满足替代视觉输出准则的确定，电子设备依照第一视觉输出指令在指示灯阵列上显示(512)视觉输出。如果满足一个或多个准则，则语音激活设备104依照本地LED输出指令在LED阵列上显示灯图案。

在一些实施方式中，如果语音输入涉及一组设备(例如，请求是针对要在一组设备上播放的圣诞歌曲)，则组中的设备依照替代LED输出指令显示灯图案。

表1图示由语音激活设备104进行的特定用户请求或输出的示例以及可以显示的对应LED灯图案。

表1

在一些实施方式中，针对状态或状况的替代LED图案具有与针对相同状态或状况的默认LED图案类似的特性，但是也具有将两个图案分开的不同特性。例如，针对状态的默认和替代图案可以具有相同的灯光运动或动画，但是具有不同的灯颜色。

语音激活电子设备的物理特征

图6A和图6B是依照一些实施方式的示例语音激活设备104的前视图600和后视图620。语音激活设备104被设计为温暖且诱人的，并且自然地适合家庭的许多区域。语音激活设备104包括一个或多个麦克风602和全色LED 604的阵列。全色LED 604可以被隐藏在语音激活设备104的顶表面下方并且在一些实施方式中在它们未点亮时对用户不可见。在一些实施方式中，全色LED 604的阵列按照环以物理方式排列。在一些实施方式中，全色LED阵列按照网格以物理方式排列。另外，语音激活设备104的后侧可选地包括被配置成耦合到电源的电源连接器608。在一些实施方式中，语音激活设备104也包括具有扬声器格栅610的基座，所述扬声器格栅610保护隐藏在该扬声器格栅下方的扬声器。

在一些实施方式中，语音激活设备104呈现没有可见按钮的干净外观，并且与语音激活设备104的交互基于语音和触摸手势(例如，利用语音激活设备104上的触敏表面(未示出))。可选地，在一些实施方式中，语音激活设备104包括有限数目的物理按钮(例如，在其后侧的按钮606)，并且与语音激活设备104的交互除了基于语音和触摸手势之外还基于对按钮的按压。

用于语音用户接口的视觉可视性的LED设计语言

在一些实施方式中，语音激活设备104包括全色发光二极管(LED)阵列而不是全显示屏幕。LED设计语言被采纳来配置全色LED阵列的照明并且使能指示语音激活设备104的不同的语音处理状态的不同的视觉图案模式。LED设计语言由应用于一组固定的全色LED的颜色、图案和特定运动的语法构成。语言中的元素被组合以在语音激活设备104的使用期间在视觉上指示特定设备状态。在一些实施方式中，全色LED的照明目的旨在清楚地描绘语音激活设备104的被动侦听和主动侦听状态以及其他重要状态。全色LED的放置遵守语音激活设备104的物理约束，并且全色LED阵列可以在由第三方原始设备制造商(OEM)基于特定技术(例如，Google Assistant)制造的扬声器中使用。

当全色LED阵列在由第三方OEM基于特定技术制造的扬声器中使用时，全色LED和LED设计语言被配置成适配OEM扬声器的对应物理用户接口。在这种情形下，OEM扬声器的设备状态保持不变，然而表示设备状态的特定视觉图案能够变化(例如，全色LED的颜色能够不同但是被显示有类似的动画效果)。

在语音激活设备104中，当语音激活设备104对从其周围环境收集的音频输入进行处理但是不存储音频输入或者将这些音频输入发送到任何远程服务器时，发生被动侦听。相比之下，当语音激活设备104存储从其周围环境收集的音频输入并且/或者与远程服务器共享这些音频输入时，发生主动侦听。依照本申请的一些实施方式，语音激活设备104仅被动地侦听其周围环境中的音频输入，而不会破坏语音激活设备104的用户的隐私。

图6C是依照一些实施方式的语音激活设备104的俯视图，并且图6D示出依照一些实施方式的通过用于指示语音处理状态的全色LED阵列所显示的视觉图案。在一些实施方式中，语音激活设备104不包括任何显示屏幕，并且与全显示屏幕相比，全色LED提供简单且低成本的视觉用户接口。全色LED可以被隐藏在电子设备的顶表面下方并且在它们未点亮时对用户不可见。在一些实施方式中，语音激活设备104的顶表面是触敏式的。参考图6C和图6D，在一些实施方式中，全色LED阵列按照环以物理方式排列。在一些实施方式中，灯跟踪用户与电子设备104的物理交互。例如，如图6D(6)中所示，全色LED 604阵列可以顺序地点亮以跟踪语音激活设备的触敏式顶表面上的顺时针或逆时针扫掠。在下面参考图6D(1)至图6D(8)说明关于与电子设备104的语音处理状态相关联的视觉图案的更多细节。

方法被实现在电子设备104处以用于在视觉上指示语音处理状态。电子设备104经由一个或多个麦克风602收集来自接近于电子设备的环境的音频输入，并且对这些音频输入进行处理。处理包括标识环境中的来自用户的语音输入以及对环境中的来自用户的语音输入做出响应中的一个或多个。电子设备104从多个预定义语音处理状态当中确定处理的状态。对于全色LED 604中的每一个，电子设备104标识与所确定的语音处理状态相关联的相应的预定LED照明规格。该照明规格包括LED照明持续时间、脉冲率、占空比、颜色序列和亮度中的一个或多个。在一些实施方式中，电子设备104确定语音处理状态与多个用户中的一个相关联，并且通过根据所述多个用户中的一个的身份来定制全色LED 604的预定LED照明规格(例如，颜色序列)来标识全色LED 604的预定LED照明规格。例如，LED照明规格可：(a)使所有的LED按照单一颜色脉动或者“呼吸”(例如，在不同的红色强度之间脉动，如图6D(1)中所示)；(b)使特定LED按照不同的颜色点亮(例如，分别按照蓝色、红色、黄色和绿色照亮顶部、右部、底部和左部单独的LED，如图6D(2)中所示，或者各自按照不同的颜色照亮所有的LED，如图6D(4)中所示)；(c)使所有的LED在不同的颜色之间闪烁(例如，在白色与不同的灰阶之间闪烁，如图6D(3)中所示)；或者使一组定义的LED闪光(例如，从白色向关闭闪光，如图6D(5)中所示)。

另外，在一些实施方式中，依照所确定的语音处理状态，全色LED的颜色包括一组预定颜色。例如，参考图6D(2)、图6D(4)和图6D(7)至图6D(10)，该组预定颜色包括包含蓝色、绿色、黄色和红色的Google品牌颜色，并且全色LED阵列被划分成各自与Google品牌颜色中的一种相关联的四个象限。

依照经标识的全色LED的LED照明规格，电子设备104使全色LED阵列的照明同步以提供指示所确定的语音处理状态的视觉图案。在一些实施方式中，指示语音处理状态的视觉图案包括多个分立的LED照明像素。在一些实施方式中，视觉图案包括开始段、循环段和终止段。循环段持续与全色LED的LED照明持续时间相关的时间长度并且被配置成与语音处理状态的长度匹配。

在一些实施方式中，电子设备104具有通过LED设计语言表示的多于二十个不同的设备状态(包括所述多个预定义语音处理状态)。可选地，所述多个预定义语音处理状态包括热词检测状态、侦听状态、思考状态和响应状态中的一个或多个。

如这里所描述的，依照一些实施方式，语音激活电子设备104可以依照电子设备104的语音输入或操作满足一个或多个准则来显示非默认替代视频输出。当否则本来已显示默认视觉输出时，可以显示非默认替代视觉输出来代替默认视觉输出(例如，参考图6D所描述的示例默认视觉输出颜色和/或图案/序列中的任一个)。如本文中所描述的，在一些实施方式中，用于显示非默认视觉输出的信息或指令由远程系统(例如，服务器系统)提供并且/或者被存储在电子设备104中以供在满足替代视觉输出准则时使用。如本文中所描述的，在一些实施方式中，可以在接收到的LED输出指令254(图2)中指定替代视觉输出特性，并且可以在本地LED输出指令252(图2)中指定默认或预定义视觉输出指令。

已经详细地参考了实施方式，其示例被图示在附图中。在上面的详细描述中，已经阐述了许多具体细节以便提供对各种描述的实施方式的透彻理解。然而，对于本领域的普通技术人员而言将显而易见的是，可以在没有这些具体细节的情况下实施各种描述的实施方式。在其它实例中，并未详细地描述众所周知的方法、过程、组件、电路和网络以免不必要地使实施方式的各方面混淆。

也应理解，尽管在一些实例中，在本文中使用术语第一、第二等来描述各种元素，然而这些元素不该应受这些术语限制。这些术语仅用于区分一个元素和另一元素。例如，在不脱离各种所描述的实施方式的范围的情况下，第一设备能被称作第二设备，并且类似地，第二设备能被称作第一设备。第一设备和第二设备是两种类型的设备，但是它们不是同一设备。

在本文的各种描述的实施方式的描述中使用的术语仅用于描述特定实施方式的目的，而不旨在为限制性的。如各种描述的实施方式和所附权利要求的描述中所使用的，除非上下文另外清楚地指示，否则单数形式“一”、“一个”和“该”也旨在包括复数形式。也应理解，如本文中所使用的术语“和/或”指代并包含相关联的列举项中的一个或多个的任何和所有可能的组合。还应理解，术语“包含”、“包含有”、“包括”和/或“包括有”当被用在本说明书中时，指定陈述的特征、整数、步骤、操作、元件和/或组件的存在，但是不排除一个或多个其它特征、整数、步骤、操作、元件、组件和/或其组的存在或添加。

如本文中所使用的，取决于上下文，术语“如果”被可选地解释成意指“当…时”或“在…时”或“响应于确定”或“响应于检测到”或“依照…的确定”。类似地，取决于上下文，短语“如果确定了”或“如果检测到[陈述的条件或事件]”被可选地解释成意指“在确定…时”或“响应于确定”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”或“依照检测到[陈述的条件或事件]的确定”。

对于上面所讨论的系统收集关于用户的信息的情形，可以给用户提供用于选择参加/退出可以收集个人信息(例如，关于用户的偏好或智能设备的使用的信息)的程序或特征的机会。此外，在一些实施方式中，某些数据可以在它被存储或者使用之前被以一个或多个方式匿名化，使得个人可识别的信息被移除。例如，可以使用户的身份匿名化，使得对于该用户来说不可确定个人可识别的信息或者个人可识别的信息不可与用户相关联，并且使得用户偏好或用户交互被广义化(例如，基于用户人口统计资料广义化)，而不是与特定用户相关联。

尽管各个附图中的一些以特定次序图示许多逻辑阶段，然而可以对不是次序相关的阶段重新排序并且可以组合或者分解出其它阶段。虽然特别提及了一些重新排序或其它分组，但是其余的对于本领域的普通技术人员而言将是显而易见的，所以本文中所呈现的排序和分组不是替代方案的详尽列表。此外，应该认识到，这些阶段能用硬件、固件、软件或其任何组合加以实现。

出于说明的目的，已经参考特定实施方式描述了上述描述。然而，上面的说明性讨论不旨在穷举或者将权利要求的范围限于所公开的精确形式。鉴于以上教导许多修改和变化是可能的。实施方式被选取以便最好地说明作为权利要求基础的原理及其实际应用，从而使得本领域的技术人员能够按如适于所设想的特定用途的各种修改而最佳地使用这些实施方式。

Claims

1.一种方法，包括：

在通信地耦合到具有一个或多个麦克风、扬声器和指示灯阵列的电子设备的服务器系统处：

在所述指示灯阵列的操作正由第一视觉输出指令基于所述电子设备的操作状态来控制的同时，从所述电子设备获得语音输入，所述电子设备的所述操作状态包括在其上执行的应用的操作状态，其中，所述第一视觉输出指令被存储在所述电子设备处并被配置为基于所述电子设备的操作状态来控制所述指示灯阵列的操作；

确定所述语音输入是否满足一个或多个准则；

根据所述语音输入满足所述一个或多个准则的确定，提供对所述语音输入的响应和第二视觉输出指令；以及

将所述响应与所述第二视觉输出指令一起发送给所述电子设备，从而使所述电子设备能够改变所述指示灯阵列的操作，以响应于所述第二视觉输出指令而不是所述第一视觉输出指令。

2.根据权利要求1所述的方法，其中，对所述语音输入的所述响应包括第一响应，还包括：

根据所述语音输入不满足所述一个或多个准则的确定，提供对所述语音输入的第二响应；以及

将所述第二响应发送给所述电子设备而没有所述第二视觉输出指令，其中，所述电子设备被配置为根据不存在所述第二视觉输出指令的确定，根据所述第一视觉输出指令在所述指示灯阵列上显示视觉输出。

3.根据权利要求1所述的方法，其中，视觉输出根据所述第二视觉输出指令被显示在所述指示灯阵列上在所述电子设备上与所述响应的执行并发进行。

4.根据权利要求1所述的方法，还包括：

向所述电子设备提供与所述第二视觉输出指令相关联的可听输出指令，从而使所述电子设备能够根据所述可听输出指令在所述扬声器上输出可听输出，其中，所述可听输出指令是对与对所述语音输入的所述响应相关联的可听输出的补充。

5.根据权利要求1所述的方法，其中所述一个或多个准则包括：所述语音输入包括与所述语音输入中所指定的节日相关联的请求。

6.根据权利要求1所述的方法，其中所述一个或多个准则包括：接收到所述语音输入的日期对应于节日。

7.根据权利要求1所述的方法，其中所述一个或多个准则包括：所述语音输入与在所述电子设备处正在进行的游戏会话相关联。

8.根据权利要求1所述的方法，所述电子设备包括第一电子设备，其中，所述服务器系统被配置为托管具有多个用户的用户域，并且所述第一电子设备与包括多个电子设备的设备组相关联，并且所述第二视觉输出指令与预定操作相关联，还包括：

确定所述预定操作针对所述设备组；和

使所述多个电子设备中的每个电子设备执行所述预定操作并根据所述第二视觉输出指令来显示灯图案。

9.根据权利要求8所述的方法，其中，所述服务器系统被配置为使所述多个电子设备执行所述预定操作并且通过所述第一电子设备根据所述第二视觉输出指令来显示灯图案。

10.根据权利要求8所述的方法，其中，所述第一电子设备被配置为：

执行所述预定操作；

确定是否满足一个或多个替代视觉输出准则；和

根据满足所述替代视觉输出准则的确定，使所述多个电子设备中的每个电子设备执行所述预定操作并根据所述第二视觉输出指令来显示灯图案。

11.一种服务器系统，其中，所述服务器系统通信地耦合到具有一个或多个麦克风、扬声器和指示灯阵列的电子设备，所述服务器系统包括：

一个或多个处理器；以及

具有存储在其上的指令的存储器，所述指令在被所述一个或多个处理器执行时，使所述处理器执行操作，所述操作包括：

确定所述语音输入是否满足一个或多个准则；

12.根据权利要求11所述的服务器系统，其中，所述第一输出指令和所述第二输出指令中的每一个包括相应的照明规格，所述相应的照明规格还包括针对所述指示灯阵列中的每个指示灯的照明持续时间、脉冲率、占空比、颜色序列和亮度中的一个或多个。

13.根据权利要求11所述的服务器系统，其中，所述一个或多个准则与天气条件和交通条件中的至少一个相关联。

14.根据权利要求11所述的服务器系统，其中，所述电子设备的所述指示灯阵列包括LED灯阵列。

15.根据权利要求11所述的服务器系统，其中，所述电子设备的所述指示灯阵列包括全色灯。

16.一种具有存储在其上的指令的非暂时性计算机可读介质，所述指令在被服务器系统的一个或多个处理器执行时，使所述处理器执行操作，所述操作包括：

在所述服务器系统处，其中所述服务器系统在通信地耦合到具有一个或多个麦克风、扬声器和指示灯阵列的电子设备：

确定所述语音输入是否满足一个或多个准则；

17.根据权利要求16所述的非暂时性计算机可读介质，其中，所述指示灯阵列被配置为提供视觉图案，所述视觉图案实时传达在所述电子设备上执行的所述应用的所述操作状态中的至少一个。

18.根据权利要求16所述的非暂时性计算机可读介质，其中，所述语音输入由所述电子设备捕获并由所述服务器系统接收而无需任何预处理。

19.根据权利要求16所述的非暂时性计算机可读介质，其中，所述语音输入在被所述服务器系统接收之前由所述电子设备根据由所述电子设备捕获的语音消息来预处理。

20.根据权利要求16所述的非暂时性计算机可读介质，其中，所述服务器系统被配置为托管具有多个用户的用户域，并且所述电子设备与所述用户域中的所述多个用户中的一个用户相关联，并且其中，所述一个或多个准则和所述第二视觉输出指令与所述多个用户中的所述一个用户相关联地存储。