CN114758655A

CN114758655A - 语音控制的隐藏字幕显示

Info

Publication number: CN114758655A
Application number: CN202210299423.2A
Authority: CN
Inventors: 劳纳克·沙阿; 托默·谢凯尔
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-05-13
Filing date: 2017-05-11
Publication date: 2022-07-15
Also published as: JP7293180B2; CN108604181B; US20170329848A1; US10402450B2; CN112947683A; KR102114003B1; EP3455722A1; EP3757753A1; EP3455720B1; JP2019526177A; EP3455747A1; CN108604178A; US20190391998A1; KR102177786B1; CN108604180A; EP3455721B1; CN108604178B; CN108604254B; EP3455720A1; KR20190006975A

Abstract

本公开涉及语音控制的隐藏字幕显示。一种方法在服务器系统上实现，用于通过语音来发起媒体内容的隐藏字幕(CC)的显示。服务器系统接收由电子设备记录的语音消息，并且确定语音消息是第一CC发起请求，该第一CC发起请求包括发起隐藏字幕的用户语音命令和对播放隐藏字幕将被激活的媒体内容的显示设备的用户语音指定。服务器系统识别在用户域中与电子设备相关联并耦合到指定的显示设备的投射设备，并且向投射设备发送第二CC发起请求，从而使投射设备能够执行媒体播放应用，该媒体播放应用控制指定显示设备打开并显示当前显示在指定显示设备上的媒体内容的隐藏字幕。

Description

语音控制的隐藏字幕显示

分案说明

本申请属于申请日为2017年5月11日的中国发明专利申请 201780011386.8的分案申请。

技术领域

本申请一般涉及计算机技术，包括但不限于用于使用语音激活电子设备来控制智能媒体环境中的隐藏字幕显示的方法和系统。

背景技术

集成有麦克风的电子设备已被广泛用于收集来自用户的语音输入并根据语音输入实现不同的语音激活功能。例如，许多先进的移动设备包括配置为使用语音输入来发起电话呼叫、进行餐馆搜索、在地图上开始路线选择、创建日历活动、向社交网络添加帖子、识别歌曲并完成许多其他任务的语音助理系统(例如，Siri和Google助理)。移动设备通常包括显示屏，其允许提供语音输入的用户检查通过语音输入请求的任务的状态。然而，当应用具有相对简单的结构并且以低成本制造的电子设备来实现与移动设备类似的语音激活功能时，使用显示屏将显著增加电子设备的成本。因此，需要使用简单且低成本的用户界面来指示包括一个或多个麦克风并且用作语音接口的电子设备中的语音输入处理的状态。

另外，当前在移动设备中实现的语音激活功能限于涉及远程服务器(例如，搜索引擎、社交网络服务器或语音辅助服务器)的基于互联网的功能。语音激活功能的结果显示在或用于控制移动设备本身，并且不影响用户可访问的任何其他远程或本地电子设备。鉴于语音输入对于用户来说是方便的，除了请求限制在远程服务器和移动设备之间的基于互联网的功能之外，允许用户使用语音输入来控制用户可访问的其他电子设备是有益的。

发明内容

因此，需要创建智能媒体环境或智能家庭环境，其中电子设备提供免视和免提语音界面以激活耦合在智能媒体或家庭环境内的其他媒体播放设备或智能家庭设备上的语音激活功能。在本申请的一些实施方式中，智能媒体环境包括一个或多个语音激活电子设备和多个媒体显示设备，每个媒体显示设备设置在不同的位置并耦合到投射设备(例如机顶盒)。每个语音激活电子设备被配置为记录由云投射服务服务器为其确定用户语音请求(例如，媒体播放请求、媒体传送请求或隐藏字幕发起请求)的语音消息。如由语音消息所指示的，云投射服务服务器然后将用户语音请求引导到目的地投射设备。语音激活电子设备还被配置为经由指示相应的语音处理状态的全色LED阵列来显示视觉图案。可以使用类似的布置来控制智能家庭设备以在智能家庭环境中实施语音激活功能。这些方法可选地补充或替代要求用户使用遥控器或客户端设备来控制智能媒体或家庭环境中的媒体设备或智能家庭设备的常规方法。

根据本申请的一个方面，一种方法在电子设备处实现，用于视觉地指示语音处理状态。电子设备包括全色LED阵列、一个或多个麦克风、扬声器、处理器和存储用于由处理器执行的至少一个程序的存储器。该方法包括经由一个或多个麦克风收集来自电子设备附近的环境的音频输入，并处理音频输入。处理包括识别和响应来自环境中的用户的语音输入中的一个或多个。该方法进一步包括从多个预定义的语音处理状态中确定处理的状态，并且对于每个全色LED识别与所确定的语音处理状态相关联的相应的预定LED照明规范。照明规范包括 LED照明持续时间、脉冲率、占空比、颜色顺序和亮度中的一个或多个。该方法还包括根据所识别的全色LED的LED照明规范，同步全色 LED阵列的照明以提供指示所确定的语音处理状态的视觉图案。

根据本申请的一个方面，在包括处理器和存储器的服务器系统处执行一种方法，该存储器存储由处理器执行的至少一个程序，用于在媒体输出设备上播放媒体内容。媒体内容播放方法包括接收电子设备记录的语音消息，并确定语音消息包括第一媒体播放请求。第一媒体播放请求包括播放目的地媒体输出设备上的媒体内容的用户语音命令和对媒体输出设备的用户语音指定，并且用户语音命令至少包括第一媒体播放应用的信息和需要播放的媒体内容。媒体内容播放方法还包括根据对媒体输出设备的语音指定，识别(例如，在设备注册表中) 在用户域中与电子设备关联并且耦合到媒体输出设备的投射设备。该投射设备被配置为执行一个或多个媒体播放应用，所述媒体播放应用用于控制媒体输出设备播放从一个或多个媒体内容托管(host)接收的媒体内容。媒体内容播放方法还包括向投射设备发送包括第一媒体播放应用的信息和需要播放的媒体内容的第二媒体播放请求，从而使投射设备能够执行控制媒体输出设备播放媒体内容的第一媒体播放应用。

根据本申请的另一方面，一种方法在包括处理器和存储器的服务器系统处执行，该存储器存储由处理器执行的至少一个程序，用于通过语音来发起对媒体内容的隐藏字幕(CC)的显示。CC显示媒体方法包括接收由电子设备记录的语音消息，并确定该语音消息是第一隐藏字幕发起请求。第一隐藏字幕发起请求包括发起隐藏字幕的用户语音命令和播放隐藏字幕将被激活的媒体内容的显示设备的用户语音指定。CC显示方法进一步包括根据对显示设备的指定，识别(例如，在设备注册表中)在用户域中与电子设备相关联与并且耦合到指定的显示设备的投射设备。投射设备被配置为执行媒体播放应用，媒体播放应用用于控制指定的显示设备显示从媒体内容托管接收的媒体内容。 CC显示方法进一步包括向耦合到指定显示设备的投射设备发送第二隐藏字幕发起请求，由此使得投射设备能够执行媒体播放应用，其根据第二隐藏字幕发起请求控制指定的显示设备打开当前显示在指定的显示设备上的媒体内容的隐藏字幕并且显示隐藏字幕。

根据本申请的另一方面，一种方法在包括处理器和存储器的服务器系统处执行，该存储器存储用于由处理器执行的至少一个程序，所述程序用于将媒体内容显示从源媒体输出设备移动到目的地媒体输出设备。媒体传送方法包括接收电子设备记录的语音消息，并确定语音消息包括媒体传送请求。媒体传送请求包括用于将正在播放的媒体内容传送到目的地媒体输出设备的用户语音命令和对目的地媒体输出设备的用户语音指定。媒体传送方法还包括从源投射设备获得当前正在播放的媒体内容的即时媒体播放信息。即时播放信息至少包括第一媒体播放应用的信息、当前播放的媒体内容以及与播放媒体内容相关的时间位置。该媒体传送方法还包括根据对目的地媒体输出设备的语音指定，识别(例如，在设备注册表中)在用户域中与电子设备相关联并且耦合到目的地媒体输出设备的目的地投射设备，并且目的地投射设备被配置为执行一个或多个媒体播放应用，用于控制目的地媒体输出设备播放从一个或多个媒体内容托管接收的媒体内容。媒体传送方法还包括向目的地投射设备发送包括即时媒体播放信息的媒体播放请求，由此使得目的地投射设备能够执行控制目的地媒体输出设备从时间位置播放媒体内容的第一媒体播放应用。

根据一些实施方式，投射设备包括用于执行上述任何方法的操作的装置。

附图说明

为了更好地理解各种所描述的实施方式，应结合以下附图参考下面的实施方式的描述，其中相同的附图标记在全部附图中表示相应的部分。

图1是根据一些实施方式的示例智能媒体环境。

图2A是根据一些实施方式的其中语音激活电子设备与智能媒体环境的投射设备、客户端设备或服务器系统交互的示例操作环境。

图2B是根据图2A中所示的控制路径B控制投射设备及其相关联的媒体播放活动的媒体播放控制过程的示例流程图。

图3是根据一些实施方式的其中投射设备与智能媒体环境的客户端设备、语音激活电子设备或服务器系统交互的另一示例操作环境。

图4A和图4B是根据一些实施方式的语音激活电子设备的前视图和后视图。

图4C是根据一些实施方式的以开放构造示出了包含在电子设备 190的底座中的扬声器的语音激活电子设备190的透视图。

图4D和图4E分别是根据一些实施方式的示出了包含在其中的电子组件的语音激活电子设备的侧视图和放大图。

图4F(1)-图4F(4)示出了根据一些实施方式在语音激活电子设备的触摸感测阵列上检测到的四个触摸事件。

图4F(5)根据一些实施方式示出了用户按压语音激活电子设备的后侧上的按钮。

图4G是根据一些实施方式的语音激活电子设备的顶视图，并且图4H示出了根据一些实施方式的由全色LED阵列显示的用于指示语音处理状态的六个示例视觉图案。

图5是示出根据一些实施方式的作为语音接口应用以在智能媒体环境中收集用户语音命令的示例电子设备的框图。

图6是示出根据一些实施方式的应用于智能媒体环境中的媒体内容的显示的自动控制的示例投射设备的框图。

图7是示出根据一些实施方式的智能媒体环境中的服务器系统 140中的示例服务器的框图。示例服务器是云投射服务服务器之一。

图8是示出根据一些实施方式的应用于智能媒体环境中的媒体显示的自动控制的示例客户端设备的框图。

图9是示出根据一些实施方式的智能媒体环境中的示例智能家庭设备的框图。

图10是示出根据一些实施方式的视觉指示语音处理状态的方法的流程图。

图11是示出根据一些实施方式的通过语音来发起显示媒体内容的隐藏字幕的方法的流程图。

图12是示出根据一些实施方式的通过媒体输出设备上的媒体内容的语音播放来发起的方法的流程图。

图13是示出根据一些实施方式的将媒体内容的播放从源媒体输出设备移动到目的地媒体输出设备的方法的流程图。

贯穿附图的多个视图，相似的附图标记指代对应的部分。

具体实施方式

虽然数字革命提供了从公开分享信息到全球社区意义的许多益处，但新兴技术经常引起消费者中的混淆、怀疑和恐惧，从而阻止消费者从技术中受益。电子设备可方便地用作语音接口，以接收来自用户的语音输入并发起语音激活功能，从而提供免视(eyes-free)和免提 (hands-free)的解决方案来处理现有技术和新兴技术。具体地，即使用户的视线被遮挡并且他的手已满，在电子设备处接收到的语音输入也可以携带指令和信息。为了实现免提和免视的体验，语音激活电子设备不断地或仅在被触发时收听环境(即，处理从环境收集的音频信号)。另一方面，用户身份与用户的语音和用户使用的语言链接。为了保护用户身份，语音激活电子设备通常用于受保护、受控和私密空间(如家庭和汽车)的非公共场所。

根据本发明的一些实施方式，语音激活电子设备包括全色发光二极管(LED)阵列。在电子设备处理从一个或多个麦克风收集的音频输入时，全LED的阵列被照明以根据根据处理状态确定的LED照明规范提供视觉图案。全色LED阵列被配置为提供各自对应于语音处理状态 (例如，热词检测、收听、思考和讲话)的多个视觉图案。这种用于创建视觉图案的LED设计语言应用于至少部分地解决用户困惑、忧虑和不安的问题，并促进对相应语音界面体验的理解、采用和享受。

此外，根据本发明的一些实施方式，语音激活电子设备使用语音输入来发起和控制显示设备上的视频回放。具体地，服务器系统(例如，云投射服务服务器)接收由语音激活电子设备记录的语音消息，并且确定语音消息包括进一步包括播放媒体输出设备上的媒体内容的用户语音命令(可选地包括语音激活电子设备本身)和对媒体输出设备的用户语音指定的媒体播放请求。用户语音命令至少包括第一媒体播放应用的信息和需要播放的媒体内容。根据对媒体输出设备的语音指定，服务器系统识别在用户域中与电子设备相关联并且耦合到媒体输出设备的投射设备，并且投射设备被配置为执行一个或多个媒体播放应用，用于控制媒体输出设备播放从一个或多个媒体内容托管接收的媒体内容。然后服务器系统向投射设备发送第一媒体播放应用的信息和需要播放的媒体内容，从而使投射设备能够执行控制媒体输出设备播放媒体内容的第一媒体播放应用。

在一些实施方式中，当媒体内容被显示在媒体输出设备上时，语音激活电子设备允许用户使用他们的语音打开和关闭电视上的字幕，而不涉及与遥控器或第二屏幕设备(例如，移动电话、平板计算机和膝上型计算机)的任何用户交互。具体地，服务器系统被配置为从语音消息中确定第一隐藏字幕发起请求，该第一隐藏字幕发起请求包括发起隐藏字幕的用户语音命令以及播放隐藏字幕将被激活的媒体内容的显示设备的用户语音指定。在识别在用户域中与电子设备相关联并且耦合到指定的显示设备的投射设备之后，服务器系统向投射设备发送第二隐藏字幕发起请求，从而使投射设备能够执行媒体播放应用，所述媒体播放应用控制指定的显示设备打开当前显示在指定的显示设备上的媒体内容的隐藏字幕，并根据第二隐藏字幕发起请求显示隐藏字幕。

此外，根据本发明的一些实施方式，当媒体内容被显示在第一媒体输出设备上时，语音激活电子设备允许用户使用他们的语音来发起媒体内容从第一媒体输出设备到第二媒体输出设备的媒体传送。至少通过在已经在第一媒体输出设备上播放的媒体内容的确切点处恢复第二媒体输出设备上的媒体内容，传送保持对应的媒体播放状态。

具体地，服务器系统被配置为从语音消息中确定媒体传送请求，该媒体传送请求包括将正在播放的媒体内容传送到目的地媒体输出设备的用户语音命令以及对目的地媒体输出设备的用户语音指定。然后服务器系统从源投射设备获取当前正在播放的媒体内容的即时媒体播放信息，该即时播放信息至少包括第一媒体播放应用的信息，当前正在播放的媒体内容以及与播放媒体内容有关的时间位置。在识别在用户域中与电子设备相关联并且耦合到指定的显示设备的目的地投射设备之后，服务器系统向目的地投射设备发送包括即时媒体播放信息的媒体播放请求，从而使目的地投射设备能够执行控制目的地媒体输出设备从该时间位置播放媒体内容的第一媒体播放应用。在一些实施方式中，目的地投射设备在设备注册表中被识别。

现在将详细参考实施例，其示例在附图中示出。在以下详细描述中，阐述了许多具体细节以便提供对各种所描述的实施方式的透彻理解。然而，对于本领域的普通技术人员来说显而易见的是，可以在没有这些具体细节的情况下实践各种所描述的实现。在其他情况下，没有详细描述公知的方法、过程、组件、电路和网络，以免不必要地模糊实施方式的各方面。

智能媒体/家庭环境

图1是根据一些实施方式的示例智能媒体环境100。智能媒体环境100包括具有各种集成设备的结构150(例如，房屋、办公楼、车库或移动房屋)。应该理解的是，设备也可以被集成到不包括整个结构 150的智能媒体环境100中，诸如公寓、共管公寓或办公空间。所描绘的结构150包括经由墙壁154彼此至少部分地分离的多个房间152。墙壁154可以包括内壁或外壁。每个房间还可以包括地板156和天花板 158。

一个或多个媒体设备被布置在智能媒体环境100中以提供存储在本地内容源处或从远程内容源(例如，内容托管114)流式传送的媒体内容。媒体设备可以分为两类：直接向观众输出媒体内容的媒体输出设备106，以及联网以将媒体内容流式传送到媒体输出设备108的投射设备108。媒体输出设备106的示例包括但不限于电视(TV)显示设备和音乐播放器。投射设备108的示例包括但不限于机顶盒(STB)、 DVD播放器和电视盒。在示例智能媒体环境100中，媒体输出设备106 被布置在多于一个位置中，并且每个媒体输出设备106被耦合到相应的投射设备108或者包括嵌入式投射单元。媒体输出设备106-1包括硬连线到DVD播放器或机顶盒108-1的电视显示器。媒体输出设备106-2 包括智能TV设备，该智能TV设备集成嵌入式投射单元以流式传送媒体内容以向其观众显示。媒体输出设备106-3包括耦合到电视盒108-3 (例如，Google TV或Apple TV产品)的常规TV显示器，并且这样的电视盒108-3流式传送从媒体内容托管服务器114接收的媒体内容并且提供对互联网的访问以在媒体输出设备106-3上显示基于互联网的内容。

除了媒体设备106和108之外，一个或多个电子设备190被布置在智能媒体环境100中以收集用于发起媒体设备的各种媒体播放功能的音频输入。在一些实施方式中，这些语音激活电子设备190(例如，设备1901-1、190-2和190-3)被布置在媒体设备附近，例如与投射设备108和媒体输出设备106相同的房间中。可替选地，在一些实施方式中，语音激活电子设备190-4被布置在具有一个或多个智能家庭设备而不是任何媒体设备的房间中。可替选地，在一些实施方式中，语音激活电子设备190被布置在没有联网的电子设备的位置。

电子设备190包括至少一个或多个麦克风、扬声器、处理器和存储至少一个用于由处理器执行的程序的存储器。扬声器被配置为允许电子设备190将语音消息传输到电子设备190在智能媒体环境100中所处的位置，从而广播音乐，报告音频输入处理的状态，与电子设备 190的用户对话或给出指令到电子设备190的用户。作为语音消息的替代，视频信号也可以用于向电子设备190的用户提供关于音频输入处理的状态的反馈。当电子设备190是传统的移动设备(例如，移动电话或平板计算机)时，其显示屏幕被配置为显示关于音频输入处理的状态的通知。

根据一些实施方式，电子设备190是语音接口设备，其被网络连接以借助云投射服务服务器116和/或语音辅助服务器112来提供语音识别功能。例如，电子设备190包括智能扬声器，其向用户提供音乐并且允许免视和免提访问语音助理服务(例如，Google助理)。可选地，电子设备190是包括麦克风的台式或膝上型计算机、平板计算机和移动电话中的一个。可选地，电子设备190是简单且低成本的语音接口设备。鉴于电子设备190的简单性和低成本，电子设备190包括全色发光二极管(LED)阵列而不是全显示屏，并且在全色LED上显示视觉图案以指示音频输入处理的状态。

当来自电子设备190的语音输入被用于经由投射设备108来控制媒体输出设备106时，电子设备190有效地实现了投射使能媒体设备的新级别的控制。在具体示例中，电子设备190包括具有远场语音访问的休闲享受扬声器并且用作Google助理的语音接口设备。电子设备 190可以布置在智能媒体环境100中的任何房间中。当多个电子设备190分布在多个房间中时，它们变成投射音频接收器，其被同步以提供来自所有这些房间的语音输入。

具体地，在一些实施方式中，电子设备190包括具有连接到语音激活的个人助理服务(例如Google助理)的麦克风的WiFi扬声器。用户可以通过电子设备190的麦克风发出媒体播放请求，并请求个人助理服务在电子设备190本身或另一个连接的媒体输出设备106上播放媒体内容。例如，用户可以通过对WiFi扬声器说“OK Google，在我的客厅电视上播放猫视频(OK Google,Play cat videos on my Living room TV.)”来发布媒体播放请求。然后个人助理服务通过使用默认或指定的媒体应用在所请求的设备上播放所请求的媒体内容来实现媒体播放请求。

用户还可以经由电子设备190的麦克风发出关于已经在显示设备上播放的媒体内容的语音请求。在一些实施方式中，当没有远程控制或第二屏幕设备对用户可用时，通过语音在显示设备上发起或停用当前显示的媒体内容的隐藏字幕。因此，用户可以在不涉及具有物理用户界面的任何其他设备的情况下通过免视和免提语音激活电子设备 190打开显示设备上的隐藏字幕，并且这种语音激活电子设备190满足对有听力残疾的用户的联邦辅助功能要求。

在一些实施方式中，用户可能想要在他们穿过房屋时与他们进行当前媒体会话。这需要个人助理服务将当前媒体会话从第一投射设备传送到第二投射设备，该第二投射设备不直接连接到第一投射设备或不知道第一投射设备的存在。在媒体内容传送之后，耦合到第二投射设备108的第二输出设备106继续从音乐轨道或视频剪辑内的确切点播放先前耦合到第一投射设备108的第一输出设备106的媒体内容，其中媒体内容的播放在第一输出设备106上被放弃。

在一些实施方式中，除了媒体设备(例如输出设备106和投射设备108)和语音激活电子设备190之外，智能家庭设备也可以通过智能媒体环境100的墙壁154、地板156或天花板158安装、集成和/或支持(鉴于智能家庭设备的存在而广泛称为智能家庭环境)。集成智能家庭设备包括智能多传感网络连接设备，其可以在智能家庭网络和/或中央服务器或云计算系统中相互无缝集成，以提供各种有用的智能家庭功能。在一些实施方式中，智能家庭设备被布置在与投射设备108 和/或输出设备106的智能家庭环境100的相同的位置处，并且因此相对于投射设备108和输出设备106位于附近或已知距离。

智能媒体环境100中的智能家庭设备可以包括但不限于一个或多个智能多传感网络连接的恒温器122、一个或多个智能网络连接的多传感危险检测器、一个或多个智能多传感网络连接的入口通道接口设备 126和128(以下称为“智能门铃126(smart doorbells126)”和“智能门锁128(smart door locks 128)”)、一个或多个智能多传感网络连接的报警系统130、一个或多个智能多传感网络连接的相机系统132 以及一个或多个智能多传感网络连接的墙壁开关136。在一些实施方式中，图1的智能媒体环境100中的智能家庭设备包括多个智能多传感网络连接设备138(以下称为“智能器具138(smart appliances 138)”)，诸如冰箱、炉子、烤箱、电视机、洗衣机、烘干机、灯、对讲系统阀杆、车库门开启器、落地风扇、吊扇、壁挂式空调、泳池加热器、灌溉系统、安全系统、空间加热器、车窗交流单元、机动管道通风口等等。

智能媒体环境100中的智能家庭设备可以附加地或可替选地包括一个或多个其他占用传感器(例如，触摸屏、IR传感器、环境光传感器和运动检测器)。在一些实施方式中，智能媒体环境100中的智能家庭设备包括基于位于占用者上或嵌入占用者的RFID标签来确定占用的射频识别(RFID)读取器(例如，在每个房间152或其一部分中)。例如，RFID读取器可以被集成到智能危险检测器104中。

在一些实施方式中，除了包含感测能力之外，设备122、124、126、 128、130、132、136和138(其统称为“智能家庭设备(the smart home devices)”或“智能家庭设备120(thesmart home devices 120)”) 能够与其他智能家庭设备、中央服务器或云计算系统和/或网络连接的其他设备(例如客户端设备104、投射设备108和语音激活电子设备 190)共享数据通信和信息。类似地，投射设备108和语音激活电子设备190中的每一个还能够与其他投射设备108、语音激活电子设备190、智能家庭设备、中央服务器或云计算系统和/或网络连接的其他设备(例如，客户端设备104)共享数据通信和信息140。数据通信可以使用各种定制或标准无线协议(例如，IEEE 802.15.4、Wi-Fi、ZigBee、 6LoWPAN、线程、Z-Wave、蓝牙智能、ISA100.11a、WirelessHART、 MiWi等等)和/或各种定制或标准有线协议(例如，以太网、HomePlug 等)或任何其他合适的通信协议(包括在本文档的提交日期之前尚未开发的通信协议)中的任何一种执行。

在一些实施方式中，投射设备108、电子设备190和智能家庭设备用作无线或有线中继器。在一些实施方式中，投射设备108中的第一投射设备经由无线路由器与投射设备108中的第二投射设备和智能家庭设备通信。投射设备108、电子设备190和智能家庭设备可进一步经由连接(例如，网络接口160)与诸如互联网110的网络彼此通信。投射设备108、电子设备190和智能家庭设备可以通过互联网110与智能服务器系统140(在本文中也称为中央服务器系统和/或云计算系统) 通信。可选地，智能服务器系统140可以与与投射设备108相关联的制造商、支持实体或服务提供商以及向用户显示的媒体内容相关联。

因此，智能服务器系统140可以包括处理由语音激活电子设备收集的音频输入的语音辅助服务器112、提供所显示的媒体内容的一个或多个内容托管104、创建基于分布式设备终端的虚拟用户域的云投射服务服务器以及保持虚拟用户环境中的分布式设备终端的记录的设备注册表118。分布式设备终端的示例包括但不限于投射设备108、媒体输出设备106、电子设备190和智能家庭设备。在一些实施方式中，这些分布式设备终端链接到虚拟用户域中的用户账户(例如，Google用户账户)。

在一些实施方式中，网络接口160包括常规网络设备(例如，路由器)。图1的智能媒体环境100还包括直接或经由网络接口160可通信地耦合到网络110的集线器设备180。集线器设备180进一步通信地耦合到以上智能多传感网络连接设备(例如，投射设备108、电子设备190、智能家庭设备和客户端设备104)。这些网络连接的设备中的每一个可选地使用至少在智能媒体环境100中可用的一个或多个无线电通信网络(例如ZigBee、Z-Wave、Insteon、蓝牙、Wi-Fi和其他无线电通信网络)与集线器设备180通信。在一些实施方式中，集线器设备180和与集线器设备耦合/耦合到集线器设备的设备可经由智能电话、家用控制器、膝上型计算机、平板计算机、游戏控制台或类似电子设备上运行的应用来控制和/或交互。在一些实施方式中，这样的控制器应用的用户可以查看集线器设备或耦合的网络连接设备的状态、将集线器设备配置为与新引入到家庭网络的设备互操作、调试新设备以及调整或查看所连接的设备的设置等。

图2A是根据一些实施方式的其中语音激活电子设备190与智能媒体环境100的投射设备108、客户端设备104或服务器系统140交互的示例操作环境。语音激活电子设备190被配置为从接近语音激活电子设备190的环境接收音频输入。可选地，电子设备190存储音频输入并至少部分地在本地处理音频输入。可选地，电子设备190经由通信网络110将接收到的音频输入或部分处理的音频输入发送到语音辅助服务器112以用于进一步处理。投射设备108被配置为从一个或多个内容托管114获得媒体内容或互联网内容以用于显示在耦合到投射设备108的输出设备106上。如上所述，投射设备108和语音激活电子设备190在用户域中彼此链接，并且更具体地，经由用户域中的用户账户彼此关联。投射设备108的信息和电子设备190的信息与用户账户相关联地存储在设备注册表118中。

在一些实施方式中，投射设备108和语音激活电子设备190不包括任何显示屏幕，并且必须依赖于客户端设备104在调试过程期间提供用户界面。具体地，客户端设备104安装有应用，该应用使得用户界面能够促进调适布置在客户端设备104附近的新的投射设备108或新的语音激活电子设备190。用户可以在客户端设备104的用户界面上发起对需要调适的新投射设备108或电子设备190的调适过程。在接收调适请求之后，客户端设备104建立与需要调适的新投射设备108 或电子设备190的短程通信链路。可选地，基于近场通信(NFC)、蓝牙、低功耗蓝牙(BLE)等建立短程通信链路。客户端设备104然后将与无线局域网(WLAN)相关联的无线配置数据传递到新投射设备108 或电子设备190。无线配置数据至少包括WLAN安全码(即，服务集识别符(SSID)密码)，并且可选地包括SSID、互联网协议(IP)地址、代理配置和网关配置。在经由短程通信链路接收到无线配置数据之后，新投射设备108或电子设备190解码并恢复无线配置数据，并且基于无线配置数据加入WLAN。

附加用户域信息被输入在客户端设备104上显示的用户界面上，并且用于将新投射设备108或电子设备190链接到用户域中的账户。可选地，附加用户域信息经由短程通信链路连同无线通信数据被传输到新投射设备108或电子设备190。可选地，在新设备已经加入WLAN 之后，附加用户域信息经由WLAN被传输到新投射设备108或电子设备190。

一旦投射设备108和电子设备190已被调适进入用户域，投射设备108、输出设备106及其相关联的媒体播放活动可以经由两个控制路径(控制路径A和控制路径B)控制。根据控制路径A，安装在客户端设备104上的投射设备应用或一个或多个媒体播放应用被用于控制投射设备108及其相关联的媒体播放活动。可替选地，根据控制路径B，电子设备190被用于实现投射设备108及其相关联的媒体播放活动的免视和免提控制(例如，在输出设备106上媒体内容播放的回放，以及激活当前显示在输出设备106上的媒体内容的隐藏字幕)。

图2B是媒体播放控制过程250的示例流程图，其根据图2A中所示的控制路径B控制投射设备108及其相关的媒体播放活动。助理服务器(例如语音辅助服务器112)被配置为支持语音激活电子设备190，控制与搜索栈的交互并且根据由电子设备190收集的未加工语音输入来解析需要执行哪个媒体动作。助理服务器向云投射服务服务器116 发送(202)请求，云投射服务服务器116将媒体动作转换为动作脚本，然后该动作脚本可以由目标投射设备108执行。动作脚本有两种可能的执行路径。根据第一执行路径A，它在对助理服务器的响应中返回。这是“本地路径(local path.)”。如果目标投射设备108是语音激活电子设备190本身，则动作脚本容易从助理服务器获得。可替选地，根据第二执行路径B，云投射服务服务器116经由云消息传递服务将动作脚本分派给设备。这是远程执行路径。在一些实施方式中，两个执行路径并行进行，并且目标投射设备108忽略第二个到达的动作脚本。 unique_command_id与每个ExecuteCloudCastCommand相关联。

在一些实施方式中，语音辅助服务器使用CloudCastCommand进行executeCastCommand的远程过程调用(RPC)，如下所示：

message CloudCastCommand{

optional string unique_command_id＝1；

optional string source_device_id＝2；

optional string target_device_id＝3；

optional string app_id＝4；

optional string content_id＝5；

optional string content_auth_token＝6；

}

message Execute CastCommandRequest{

optional CloudCastCommand cast_command＝1；

}

message ExecuteCastCommandResponse{

optional CloudCastCommand cast_command＝1；

optional string cast_action_script＝2；

}

一旦获得命令，云投射服务服务器116就将该CloudCastCommand 维护在由unique_command_id和target_device_id键控的永久存储中。当针对相同的目标投射设备108或电子设备190发出另一命令时或当/ executionReport端点接收到成功/错误状态时，CloudCastCommand将被替换或移除。云投射服务服务器116然后清理陈旧的(在特定时间段内尚未完成的)命令，并生成投射动作脚本(Cast Action Script)。一旦生成投射动作脚本，云投射服务服务器116在RPC响应中返回脚本，并且如果(source_device_id！＝target_device_id)则使用Google云消息服务发送响应。

在一些实施方式中，投射设备108在执行投射动作脚本期间和之后报告(204)其状态，如下：

message ReportExecutionStatusRequest{

enum StatusCode{

UNKNOWN＝0；

SUCCESS＝1；

ERROR＝2；

QUEUED＝3；

IN_PROGRESS＝4；

}

optional string device_id＝1；

optional string unique_command_id＝2；

optional StatusCode status_code＝3；

//在该请求中报告的动作脚本中的单个动作。

optional string last_action＝4；

//包含基于状态代码或错误代码的定制设备状态数据。

//例如，针对“CAST::EINJECTWRAPPED”错误代码将在本字节中设置定制错误字符串.

optional string custom_data＝5；

//错误代码是在go/castactionscript中定义的字符串。

optional string error_code＝6；

}

message ExecutionReportResponse{

//TBD

}

在一些实施方式中，只要其状态改变，投射设备108利用状态消息来更新其状态。在一些实施方式中，投射设备108周期性地发送心跳以通知云投射服务服务器116他们的存在，并且云投射服务服务器116将last_action_time字段更新为自时代以来的时间(秒)。云投射服务服务器116可选地经由云消息服务将执行状态消息发送到源设备(例如语音激活电子设备190)。语音激活电子设备190然后将针对TTS 和回放调用S3。

在媒体输出设备上的语音激活媒体播放

参照图2A，在投射设备108和语音激活电子设备190都被调适并链接到公共用户域之后，语音激活电子设备190可以被用作语音用户界面以启用将媒体内容流式传送到不涉及遥控器、客户端设备104或其他第二屏幕设备的投射设备108的免视和免提控制。例如，用户可以给出语音命令，诸如“在客厅扬声器上播放Lady Gaga(Play Lady Gaga on LivingRoom speakers.)”。Lady Gaga音乐曲目或视频剪辑被流式传送到与“客厅扬声器(LivingRoom speakers.)”相关联的投射设备108。不涉及客户端设备104，也不涉及在客户端设备104上加载的任何投射设备应用或媒体播放应用。

云投射服务116是代理服务，其将语音激活电子设备通信地链接到投射设备108，并且可以在不涉及客户端设备104上的任何应用的情况下投射到投射设备108。具体地，语音消息由电子设备190记录，并且语音消息被配置为请求在媒体输出设备106上的媒体播放。可选地，电子设备190在本地部分地处理语音消息。可选地，电子设备190经由通信网络110将语音消息或部分处理的语音消息发送到语音辅助服务器112以用于进一步处理。云投射服务服务器116确定语音消息包括第一媒体播放请求，并且第一媒体播放请求包括在媒体输出设备106 上播放媒体内容的用户语音命令和对媒体输出设备的用户语音指定 106。用户语音命令还至少包括需要播放的第一媒体播放应用(例如， YouTube和Netflix)的信息和媒体内容(例如Lady Gaga音乐)。

根据对媒体输出设备的语音指定，设备注册表118中的云投射服务服务器116包括在用户域中与电子设备190相关联并且耦合到媒体输出设备106的投射设备。投射设备108被配置为执行一个或多个媒体播放应用以用于控制媒体输出设备106播放从一个或多个媒体内容托管114接收的媒体内容。然后，云投射服务服务器116向投射设备 108发送第二媒体播放请求，其包括第一媒体播放应用的信息和需要播放的媒体内容。一旦接收到由云投射服务服务器116发送的信息，投射设备108执行第一媒体播放应用并控制媒体输出设备106播放所请求的媒体内容。

在一些实施方式中，对媒体输出设备106的用户语音指定包括目的地媒体输出设备的描述。云投射服务服务器116根据对目的地媒体输出设备的描述在注册表中识别多个媒体输出设备当中的目的地媒体输出设备。在一些实施方式中，目的地媒体输出设备的描述至少包括媒体输出设备106的品牌(“三星电视(Samsung TV)”)或位置(“我的客厅电视(Samsung TV)”)。

语音激活隐藏字幕显示

美国联邦无障碍法律要求电子通信和信息技术(诸如网站，电子邮件或网络文档)是可访问的，并且必须为失聪或听力不好的用户提供隐藏字幕选项。参考图2A，在投射设备108和语音激活电子设备190 都被调适并链接到公共用户域之后，语音激活电子设备190可以被用作语音用户界面以使得能够免视以及免提控制当前在媒体输出设备 106上显示的具有媒体内容的隐藏字幕。具体地，语音识别系统将语音命令翻译成将字幕打开为发送到云投射服务的可识别消息。云投射服务解释该消息并将命令发送到安装在投射设备上的媒体播放应用(例如，YouTube)。媒体播放应用接收该命令并基于该消息呈现字幕轨道。这样，用户就可以使用语音在媒体输出设备上打开和关闭字幕。隐藏字幕显示的这种控制不涉及任何遥控器、客户端设备104或其他第二屏幕设备，也不涉及加载在客户端设备104上的任何投射设备应用或媒体播放应用。因此，隐藏字幕显示的语音激活控制符合联邦无障碍要求，特别适用于聋人或听力障碍的用户。

当用户想要发起对当前显示的媒体内容的隐藏字幕的显示时，用户发送由电子设备190记录的语音消息(例如，“打开隐藏字幕(Turn on closed captioning.)”)。可选地，电子设备190部分地在本地处理语音消息。可选地，电子设备190将语音消息或部分处理的语音消息发送到语音辅助服务器112以供进一步处理。云投射服务服务器116 确定语音消息是第一隐藏字幕发起请求，并且第一隐藏字幕发起请求包括发起隐藏字幕的用户语音命令和播放为其要激活隐藏字幕的媒体内容的对显示设备106的用户语音指定。在一些实施方式中，电子设备190直接将所记录的语音消息发送到云投射服务服务器116。云投射服务服务器116通过将语音消息转发到语音辅助服务器112来解析语音消息并识别用户语音命令和对目的地媒体设备的用户语音指定来确定语音消息是第一隐藏字幕发起请求以及从语音辅助服务器112接收用户语音命令和对目的地媒体设备的用户语音指定。

根据对显示设备的指定，云投射服务服务器116在设备注册表118 中识别在用户域中与电子设备190相关联并且耦合到指定的显示设备 106的投射设备108。投射设备108被配置为执行媒体播放应用，用于控制指定的显示设备显示从媒体内容托管接收的媒体内容。在一些实施方式中，电子设备190和投射设备108都与用户域的用户账户相关联。用户帐户可以是Google用户帐户。

然后，云投射服务服务器116将第二隐藏字幕发起请求发送到与指定的显示设备耦合的投射设备。一旦接收到由云投射服务服务器116 发送的信息，投射设备108执行媒体播放应用以控制指定的显示设备 106打开当前显示在指定的显示设备106上的媒体内容的隐藏字幕并根据第二隐藏字幕发起请求显示隐藏字幕。在一些实施方式中，隐藏字幕根据默认隐藏字幕显示规范显示在指定的显示设备上。

在一些实施方式中，根据第一隐藏字幕发起请求，云投射服务服务器116确定隐藏字幕的显示规范。第二隐藏字幕发起请求包括隐藏字幕的显示规范，并且投射设备被配置为执行媒体播放应用以控制显示设备根据显示规范显示隐藏字幕。此外，在一些实施方式中，隐藏字幕的显示规范包括字体(例如Arial)、字体大小(例如12)、字体颜色(例如白色)和背景色(例如，黑色)中的至少一个。此外，在一些实施方式中，经由云投射服务服务器116发送隐藏字幕的显示规范允许用户通过将自定义语音命令(诸如“较大字幕(largercaptions)”或“将背景颜色改变为蓝色(change the background color to blue)”) 来调整其隐藏字幕的格式以更新发送到投射设备108的隐藏字幕发起请求。另外，隐藏字幕显示的这种语音激活控制允许具有麦克风(例如，移动电话)的任何电子设备发起媒体内容的回放并且调整媒体显示设备106上的隐藏字幕。

在一些实施方式中，电子设备、投射设备和指定的显示设备被布置为彼此接近，但位于远离云投射服务系统116、语音辅助服务器112 和设备注册表118。在一些实施方式中，云投射服务系统116、语音辅助服务器112和设备注册表118中的两个或更多个被集成在单个服务器中。在一些实施方式中，云投射服务系统116、语音辅助服务器112 和设备注册表118不同于内容托管114，内容托管114将媒体内容提供给投射设备108以用于显示在指定的显示设备106上。

在一些实施方式中，对媒体输出设备106的用户语音指定包括目的地媒体输出设备的描述。云投射服务服务器116根据目的地媒体输出设备的描述在注册表中识别多个媒体输出设备当中的目的地媒体输出设备。在一些实施方式中，目的地媒体输出设备的描述至少包括媒体输出设备106的品牌(“三星电视(Samsung TV)”)或位置(“我的客厅电视(myLiving Room TV)”)。

媒体输出设备之间的语音激活媒体传送

图3是根据一些实施方式的其中投射设备108与客户端设备104、语音激活电子设备190或智能媒体环境100的服务器系统交互的另一示例操作环境。智能媒体环境100包括第一投射设备108-1和耦合到第一投射设备的第一输出设备106-1。智能媒体环境100还包括第二投射设备108-2和耦合到第一投射设备的第二输出设备106-2。投射设备 108-1和108-2可选地位于与智能媒体环境100中的相同位置(例如客厅)或两个不同位置(例如两个房间)中。投射设备108-1和108-2中的每一个108-2被配置为从媒体托管114获得媒体内容或互联网内容以用于显示在耦合到相应投射设备108-1或108-2的输出设备106上。第一和第二投射设备都可通信地耦合到云投射服务服务器116和内容托管114。

智能媒体环境100还包括通信地耦合到云投射服务服务器116和语音协助服务器112的一个或多个语音激活电子设备190。在一些实施方式中，语音激活电子设备190被布置独立于投射设备108和输出设备106。例如，如图1所示，电子设备190-4布置在没有投射设备108 或输出设备106所在的房间中。在一些实施方式中，第一电子设备190-1 被布置为接近第一投射设备108-1和第一输出设备106-1，例如第一电子设备190-1，第一投射设备108-1和第一输出设备106-1位于相同房间中。可选地，第二电子设备190-2被布置独立于或接近第二投射设备 108-2和第二输出设备106-2。

当媒体内容在第一输出设备106-1上播放时，用户可以向任何电子设备190发送语音命令以请求播放要传送到第二输出设备106-2的媒体内容。语音命令包括媒体播放传送请求。在一种情况下，用户可以在用户移动到目的地位置之前向位于第一投射设备108-1附近的电子设备190-1发出语音命令。可替选地，在另一种情况下，用户可以在用户到达目的地位置之后向位于第二设备108-2附近的电子设备190-2发出语音命令。

语音命令被发送到云投射服务服务器116。云投射服务服务器116 向第一投射设备108-1发送媒体显示信息请求以请求在耦合到第一投射设备108-1的第一输出设备106-1上当前正在播放的媒体内容的即时媒体播放信息。第一投射设备108-1然后向云投射服务服务器116返回所请求的即时播放信息，其至少包括第一媒体播放应用的信息(例如，YouTube)、当前播放的媒体内容(例如“Lady Gaga-国歌-超级碗2016 (Lady Gaga–National Anthem–Super Bowl 2016)”)以及与播放媒体内容有关的时间位置。第二投射设备108-2然后从云投射服务服务器 116接收包括即时播放信息的媒体显示请求，并且根据即时播放信息，执行第一媒体播放应用，其控制第二输出设备106-2从时间位置播放媒体内容。

在具体示例中，当在第一输出设备106-1上播放音乐播放列表时，用户说“在我的客厅扬声器上播放(Play on my living room speakers.)”。第一输出设备106-1停止播放当前播放的歌曲，并且停止的歌曲在客厅扬声器上重新开始。当歌曲完成时，客厅扬声器继续播放先前在第一输出设备106-1上播放的音乐播放列表上的下一首歌曲。这样，当用户在智能家庭环境100中四处移动时，媒体内容的播放将无缝跟随用户，同时仅涉及有限的用户干预(即，给出语音命令)。媒体内容的这种无缝传送根据一个或多个以下操作来完成：

·语音助理服务(例如，语音辅助服务器112)识别出它是将媒体从一个输出设备(源)传送到另一个输出设备(目的地)的用户语音命令；

·助理服务将包括用户语音命令的消息传递给云投射服务服务器 116；

·云投射服务服务器116然后请求源输出设备106-1提供传送媒体流所需的数据块；

·数据块的内容依赖于合作伙伴，但通常包含正在播放的当前媒体内容、当前媒体内容的位置以及当前媒体内容的流量；

·可选地，数据块的内容包括当前媒体内容的容器(例如，媒体内容所属的播放列表)的信息以及当前媒体内容在播放列表内的位置；

·云投射服务服务器116通知源设备停止播放媒体内容；

·然后，云投射服务服务器116在目的地(即，在源输出设备上运行的相同的接收器应用)上加载适当的接收器应用(例如，媒体播放应用)。

·云投射服务服务器116将该数据块连同对接收器应用的指令一起发送到目的地投射设备108-2以重新开始媒体内容的传送；以及

·接收器应用解释数据块以相应地重新开始媒体内容。

具体地，在服务器端，由云投射服务服务器116实施用于将媒体内容显示的播放从源媒体输出设备移动到目的地媒体输出设备的方法。云投射服务服务器116接收由电子设备190-1或190-2记录的语音消息，并确定语音消息包括媒体传送请求。如上所解释的，电子设备可以被布置为位于第一位置处的源投射设备108-1附近，位于第二位置处的目的地投射设备108-2附近，或者独立于源和目的地投射设备两者。在一些实施方式中，电子设备190、源投射设备108-1和目的地投射设备108-2与由云投射服务服务器116管理的用户域中的用户账户相关联。用户账户可以是Google用户帐户。

用户语音命令中的媒体传送请求包括将正在播放的媒体内容传送到目的地媒体输出设备190-2的用户语音命令和对目的地媒体输出设备190-2的用户语音指定。在一些实施方式中，在接收到由电子设备 190-1或190-2记录的语音消息之后，云投射服务服务器116将语音消息转发到语音协助服务器112，语音协助服务器112解析语音消息并识别用户语音命令以及对目的地媒体输出设备的语音指定，并且从语音辅助服务器112接收用户语音命令和对目的地媒体输出设备106-2的语音指定。

云投射服务服务器116从源投射设备108-1获得当前正在播放的媒体内容的即时媒体播放信息。即时播放信息至少包括第一媒体播放应用的信息、当前播放的媒体内容以及与播放媒体内容相关的时间位置。当用户请求将媒体内容移动到目的地输出设备106-2时，可以记录时间位置。在一些实施方式中，云投射服务服务器116识别当前正在源媒体输出设备106-1处正在播放的媒体内容。云投射服务服务器116 在设备注册表118中识别在用户域中与电子设备190相关联并且耦合到源媒体输出设备106-1的源投射设备108-1。然后，云投射服务服务器116向源投射设备108-1发送媒体信息请求，从而从源投射设备108-1 接收即时媒体播放信息。

根据对目的地媒体输出设备的语音指定，云投射服务服务器116 在设备注册表118中识别在用户域中与电子设备相关联并且耦合到目的地媒体输出设备106-2的目的地投射设备108-2。目的地投射设备 108-2被配置为执行一个或多个媒体播放应用程序，用于控制目的地媒体输出设备106-2播放从一个或多个媒体内容托管114接收的媒体内容。在一些实施方式中，对目的地媒体输出设备106-2的用户语音指定包括目的地媒体输出设备106-2的描述(例如，输出设备106-2的品牌和位置)。根据目的地媒体输出设备106-2的描述，云投射服务服务器 116在注册表112中识别多个媒体输出设备中的目的地媒体输出设备 106-2。因此，用户不必提供与设备注册表112中的记录匹配的精确设备识别，并且云投射服务服务器116可以基于目的地媒体输出设备 106-2的描述来确定目的地媒体输出设备106-2。

在获得即时播放信息并识别目的地投射设备108-2之后，云投射服务服务器116向目的地投射设备108-2发送包括即时媒体播放信息的媒体播放请求，由此启用目的地投射设备108-2执行控制目的地媒体输出设备106-2从该时间位置播放媒体内容的第一媒体播放应用。在一些实施方式中，根据用户语音命令，云投射服务服务器116还将媒体停止请求发送到源投射设备108-1，从而使源投射设备108-1能够执行控制与其耦合的源投射设备108-1以放弃源媒体输出设备106-1上的媒体内容的播放的第一媒体播放应用。

该媒体传送方法抽取将媒体流传送离开服务所需的数据，并将其直接与流式传送服务提供商放置，以便它们可以定义传送当前正在播放的流所需的参数(例如，Google投射协议)。这使得本发明的设计非常灵活，以适应任何类型的媒体合作伙伴或媒体流。此外，它还利用云基础设施(通过云投射服务)传送消息并协调源设备和目的地设备之间的回放。这允许这种传送在没有彼此的任何知识或处于相同无线局域网的这些投射设备的情况下发生。

经由云投射服务服务器116的媒体传送还实现可伸缩性、灵活性和数据安全性。传送媒体所需的数据块特别松散地定义，以适应内容提供商合作伙伴的数量和流类型的数量。流可能是单个曲目、播放列表、直播流、广告、自动播放视频和许多其他内容格式。保持数据块的灵活性和合作伙伴的依赖性，可以允许单一方法适用于所有类型的媒体流。此外，通过让云投射服务独立地连接源和目的地投射设备，不需要这些设备彼此连接，处于相同的WLAN或者彼此具有知识。另外，CCS没有非中介化。在源和目的地上的接收器应用之间发送的数据对于云投射服务服务器116是不透明的。这允许关于传送的媒体会话的机密细节留给使用该云投射服务的合作伙伴。

语音激活电子设备的物理特征

图4A和图4B是根据一些实施方式的语音激活电子设备190的前视图400和后视图420。电子设备190被设计为温暖且诱人，并且自然地适合于家庭的许多区域。电子设备190包括一个或多个麦克风402 和全色LED404的阵列。全色LED404可隐藏在电子设备190的顶表面下方，并且当用户不点亮时对用户不可见。在一些实施方式中，全色 LED阵列404物理上排列成环状。此外，电子设备190的后侧可选地包括被配置为耦合到电源的电源连接器408。

在一些实施方式中，电子设备190呈现没有可见按钮的干净外观，并且与电子设备190的交互基于语音和触摸手势。可替选地，在一些实施方式中，电子设备190包括有限数量的物理按钮(例如，在其后侧的按钮406)，并且与电子设备190的交互进一步基于除了语音之外按下按钮和触摸手势。

一个或多个扬声器布置在电子设备190中。图4C是语音激活电子设备190的透视图440，其示出了根据一些实施方式的包含在电子设备 190的基座410中的处于开放构造的扬声器422。图4D和图4E分别是语音激活电子设备190的侧视图450和展开图460，其示出了根据一些实施方式的包含在其中的电子组件。电子设备190包括全色LED阵列 404、一个或多个麦克风402、扬声器422、双频带WiFi 802.11ac无线电、蓝牙LE无线电、环境光传感器、USB端口、处理器以及存储用于由处理器执行的至少一个程序的存储器。

此外，在一些实施方式中，电子设备190还包括被配置为检测电子设备190的顶表面上的触摸事件的触摸感测阵列424。触摸感测阵列 424被布置并隐藏在电子设备190的顶表面下方。在一些实施方式中，触摸感测阵列424设置在包括通孔阵列的电路板的顶表面上，并且全色LED布置在电路板的通孔内。当电路板位于电子设备190的顶表面正下方时，全色LED404和触摸感测阵列424也都布置在电子设备190 的顶表面的正下方。

图4F(1)-图4F(4)示出了根据一些实施方式在语音激活电子设备190的触摸感测阵列424上检测到的四个触摸事件。参考图4F(1) 和图4F(2)，触摸感测阵列424检测语音激活电子设备190的顶表面上的旋转滑动。响应于检测到顺时针滑动，语音激活电子设备190增加其音频输出的音量，并且响应于检测到逆时针滑动，语音激活电子设备190减小其音频输出的音量。参考图4F(3)，触摸感测阵列424 检测语音激活电子设备190的顶表面上的单击触摸。响应于检测到第一轻击触摸，语音激活电子设备190实施第一媒体控制操作(例如，播放特定媒体内容)，并且响应于检测到第二轻击触摸，语音激活电子设备190实施第二媒体控制操作(例如，暂停当前正在播放的特定媒体内容)。参考图4F(4)，触摸感测阵列424检测语音激活电子设备190的顶表面上的双击触摸(例如，两个连续触摸)。两个连续触摸分开的时间长度小于预定长度。然而，当它们以大于预定长度的持续时间分开时，两个连续触摸被认为是两次单击触摸。响应于检测到双击触摸，语音激活电子设备190发起热词检测状态，其中电子设备 190收听并识别一个或多个热词(例如，预定义的关键词)。在电子设备190识别出热词之前，电子设备190不向语音辅助服务器112或云投射服务服务器118发送任何音频输入。

在一些实施方式中，全色LED阵列404被配置为根据LED设计语言显示视觉图案集合，其指示检测到在语音激活电子设备190的顶表面上的顺时针滑动、逆时针滑动、单击或双击。例如，全色LED阵列404可以顺序点亮以分别跟踪如图4F(1)和图4F(2)所示的顺时针或逆时针滑动。下面参考图4G和图4H(1)-图4H(8)解释关于与电子设备190的语音处理状态相关联的视觉图案的更多细节。

图4F(5)示出了根据一些实施方式的在语音激活电子设备190 的后侧上的按钮406上的示例性用户触摸或按压。响应于第一用户触摸或按压按钮406，电子设备190的麦克风被静音，并且响应于第二用户触摸或按压按钮406，电子设备190的麦克风被激活。

用于语音用户界面的视觉效果的LED设计语言

在一些实施方式中，给定电子设备190的简单性和低成本，电子设备190包括全色发光二极管(LED)阵列而不是全显示屏幕。采用 LED设计语言来配置全色LED阵列的照明，并启用指示电子设备190 的不同语音处理状态的不同视觉图案。LED设计语言包括颜色、图案和特定运动的语法，其应用于全彩LED的固定集合。语言中的元素被组合以在使用电子设备190期间在视觉上指示特定的设备状态。在一些实施方式中，全色LED的照明旨在清楚地描绘在其他重要的状态中的电子设备190的被动收听和主动收听状态。全色LED的放置符合电子设备190的物理约束，并且全色LED阵列可以用于由第三方原始设备制造商(OEM)基于特定技术(例如，Google助理)制造的扬声器。

当基于特定技术在由第三方OEM制造的扬声器中使用全色LED 阵列时，全色LED和LED设计语言被配置为适合OEM扬声器的对应物理用户接口。在这种情况下，OEM扬声器的设备状态保持相同，而代表设备状态的特定视觉图案可能会有所不同(例如，全色LED的颜色可能不同，但会以相似的动画效果显示)。

在语音激活电子设备190中，当电子设备190处理从其周围环境收集的音频输入但不存储音频输入或将音频输入发送到任何远程服务器时，发生被动收听。相反，当电子设备190存储从其周围环境收集的音频输入和/或与远程服务器共享音频输入时，发生主动收听。根据本申请的一些实施方式，电子设备190在不会破坏电子设备190的用户的隐私的情况下仅被动地收听其周围环境中的音频输入。

图4G是根据一些实施方式的语音激活电子设备190的顶视图，并且图4H示出了根据一些实施方式的由全色LED阵列显示的用于指示语音处理状态的六个示例视觉图案。在一些实施方式中，电子设备190 不包括任何显示屏幕，并且与全显示屏幕相比，全色LED404提供简单且低成本的视觉用户界面。全色LED可以隐藏在电子设备的顶表面下方，并且当不被点亮时对用户不可见。参照图4G和图4H，在一些实施方式中，全色LED阵列404物理地设置在环中。例如，如图4H (6)所示，全色LED阵列404可以顺序点亮以分别跟踪图4F(1)和图4F(2)所示的顺时针或逆时针滑动。

一种方法在电子设备190处实现以用于视觉地指示语音处理状态。电子设备190经由一个或多个麦克风402收集来自电子设备附近的环境的音频输入，并处理音频输入。处理包括识别和响应来自环境中的用户的语音输入中的一个或多个。电子设备190从多个预定义的语音处理状态中确定处理的状态。对于全色LED 404中的每一个，电子设备190识别与所确定的语音处理状态相关联的相应的预定LED照明规范。照明规范包括LED照明持续时间、脉冲率、占空比、颜色顺序和亮度中的一个或多个。在一些实施方式中，电子设备190通过定制全色LED 404的至少一个预定LED照明规范(例如，颜色序列)根据多个用户中的一个的身份来确定语音处理状态与多个用户中的一个相关联，并且识别全色LED 404的预定LED照明规范。

此外，在一些实施方式中，根据所确定的语音处理状态，全色LED 的颜色包括颜色的预定集合。例如，参照图4H(2)、图4H(4)和图 4H(7)-(10)，颜色的预定集合包括Google品牌颜色，包括蓝色、绿色、黄色和红色，以及全色LED阵列分为四个象限，每个象限与 Google品牌颜色的一种相关联。

根据全色LED的所识别的LED照明规范，电子设备190同步全色LED阵列的照明以提供指示所确定的语音处理状态的视觉图案。在一些实施方式中，指示语音处理状态的视觉图案包括多个分立的LED 照明像素。在一些实施方式中，视觉图案包括开始片段、循环片段和终止片段。循环片段持续与全色LED的LED照明持续时间相关联的时间长度并被配置为匹配语音处理状态的长度。

在一些实施方式中，电子设备190具有由LED设计语言表示的多于二十个不同的设备状态(包括多个预定义的语音处理状态)。可选地，多个预定义的语音处理状态包括热词检测状态、收听状态、思考状态和响应状态中的一个或多个。

1.热词检测状态和收听状态

在一些实施方式中，电子设备190收听并识别热词检测状态中的一个或多个热词(例如，预定义的关键词)。在电子设备190识别出热词之前，电子设备190不向音频辅助服务器112或云投射服务服务器118发送任何音频输入。在检测到热词时，当麦克风记录进一步发送到云进行进一步处理的音频输入时电子设备190开始在收听状态中操作。在收听模式中，从预定时间位置(例如，在检测到热词之前两秒钟)开始的音频输入被发送到语音辅助服务器112或云投射服务服务器118，由此促进对于更自然谈话式流程的无缝查询。

因此，在一些实施方式中，根据确定所确定的语音处理状态是当检测到一个或多个预定热词时发生的热词检测状态，全彩LED的阵列被分为交替设置并配置为顺序点亮的多个二极管组，并且多个二极管组中的每一个中的二极管以不同颜色点亮。此外，在一些实施方式中，根据确定所确定的语音处理状态是当电子设备正在主动接收来自环境的语音输入并将接收到的语音输入提供给远程服务器时发生的收听状态，所有全彩LED以单一颜色点亮，并且每个全色LED以不同的和变化的亮度照明。

如图4H(1)、(3)和(5)所示，视觉图案可以被配置为与与语音处理状态相关联的人类反应(例如，呼吸、闪烁、眨眼和滑动) 一致。例如，使用Google品牌颜色的最具影响力的地方之一，柔和的呼吸动画之后的细心的唤醒旋转表示耐心、热切而恭敬地倾听。这些颜色本身让人联想到Google语音助理的品牌感和实施例。这些元素与设备的死角形成对比，以示出非常清晰的记录和记录状态。

2.思考模式或工作模式

具体地，在一些实施方式中，根据确定语音处理状态是当电子设备正在处理从用户接收到的语音输入时发生的思考状态，越来越多数量的RGB二极管在LED照明持续时间的第一照明周期被点亮，越来越少数量的RGB二极管在第一照明周期之后的第二照明周期期间被点亮。这种视觉图案与人们正在思考的人类反应一致。可选地，麦克风 402在思考模式中关闭。

参照图4H(3)、图4H(5)和图4H(6)，在视觉图案中使用与进度条和其他类型的数字等待信号最相似的运动来指示思考模式。在一些实施方式中，白色与追逐动画一起使用。品牌颜色故意在这里不使用以提供对于其他语音处理状态更好的区分对比度和突出显示。

3.响应模式或讲话模式

可替选地，在一些实施方式中，根据确定语音处理状态是当电子设备响应于从用户接收到的语音输入而广播语音消息时发生的响应状态，全色LED的子集以不同和变化亮度的单一颜色点亮，并且全色LED 的每个子集的亮度变化与与来自用户的语音输入相关联的语音速度一致。在一些实施方式中，讲话模式是语音助手示出其印章的地方。以视觉图案使用颜色集合(例如，Google品牌颜色)，使得全色LED在视觉上表示对语音查询的封闭，即该问题已被回答。

智能媒体环境中涉及的各个设备

图5是示出根据一些实施方式的作为语音接口应用以收集智能媒体环境100中的用户语音命令的示例电子设备190的框图。电子设备 190通常包括一个或多个处理单元(CPU)502、一个或多个网络接口 504、存储器506以及用于互连这些组件(有时称为芯片集)的一个或多个通信总线508。电子设备190包括便于用户输入的一个或多个输入设备510，诸如图4A-图4H所示的按钮406、触摸感测阵列和一个或多个麦克风402。电子设备190还包括一个或多个输出设备512，其包括一个或多个扬声器422和全色LED阵列404。

存储器506包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备；并且可选地包括非易失性存储器，诸如一个或多个磁盘存储设备、一个或多个光盘存储设备、一个或多个闪存设备或一个或多个其他非易失性固态存储器设备。存储器 506可选地包括远离一个或多个处理单元502的一个或多个存储设备。存储器506或可替选地存储器506内的非易失性存储器包括非临时性计算机可读存储介质。在一些实施方式中，存储器506或存储器506 的非暂时性计算机可读存储介质存储以下程序、模块和数据结构或其子集或超集：

·操作系统516，其包括用于处理各种基本系统服务并执行硬件相关任务的过程；

·网络通信模块518，用于经由一个或多个网络接口504(有线或无线)以及一个或多个网络110(诸如互联网、其他广域网、局域网、城域网等)将电子设备190连接到其他设备(例如，服务器系统140、投射设备108、客户端设备104、智能家庭设备120和其他电子设备190)；

·输入/输出控制模块，用于经由一个或多个输入设备510接收输入，经由一个或多个输出设备512在电子设备190处启用信息的呈现，包括：

о语音处理模块522，用于处理在电子设备190周围的环境中收集的音频输入或语音消息，或准备收集的音频输入或语音消息以用于在语音辅助服务器112或云投射服务服务器118处处理；

оLED控制模块524，用于根据电子设备190的设备状态在全色 LED 404上生成视觉图案；

о触摸感测模块526，用于感测电子设备190的顶表面上的触摸事件；以及

·至少存储与电子设备190相关联的数据的语音激活设备数据 530，包括：

о语音设备设置532，用于存储与电子设备190本身相关联的信息，包括公共设备设置(例如，服务层、设备型号、存储容量、处理能力、通信能力等)、用户域中的用户账户的信息以及与由全色LED 显示的一个或多个视觉图案相关联的显示规范536；以及

о语音控制数据534，用于存储与电子设备190的语音接口功能有关的音频信号、语音消息、响应消息和其他数据。

具体地，与由全色LED显示的一个或多个视觉图案相关联的显示规范536包括与一个或多个视觉图案中的每一个相关联的预定LED照明规范。对于全色LED中的每一个，照明规范包括与相应视觉图案相关联的LED照明持续时间、脉冲速率、占空比、颜色序列和亮度中的一个或多个。每个视觉图案对应于至少一个语音处理状态。

以上识别的元素中的每一个可以存储在前面提到的存储器设备中的一个或多个中，并且对应于用于执行上述功能的指令集合。以上识别的模块或程序(即，指令集合)不需要被实现为单独的软件程序、过程、模块或数据结构，并且因此这些模块的各种子集可以在各种实施方式中被组合或以其他方式重新布置。在一些实施方式中，存储器 506可选地存储以上识别的模块和数据结构的子集。此外，存储器506 可选地存储上面未描述的附加模块和数据结构。

图6是示出根据一些实施方式的应用于智能媒体环境100中的媒体内容的显示的自动控制的示例投射设备108的框图。典型地，投射设备108包括一个或多个处理单元(CPU)602、一个或多个网络接口 604、存储器606以及用于互连这些组件(有时称为芯片集)的一个或多个通信总线608。

存储器606包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备；并且可选地包括非易失性存储器，诸如一个或多个磁盘存储设备、一个或多个光盘存储设备、一个或多个闪存设备或一个或多个其他非易失性固态存储器设备。存储器 606可选地包括远离一个或多个处理单元602的一个或多个存储设备。存储器606或可替选地存储器606内的非易失性存储器包括非临时性计算机可读存储介质。在一些实施方式中，存储器606或存储器606 的非暂时性计算机可读存储介质存储以下程序、模块和数据结构或其子集或超集：

·操作系统616，其包括处理各种基本系统服务和执行硬件相关任务的过程；

·网络通信模块618，用于经由一个或多个网络接口604(有线或无线)和一个或多个网络110(诸如互联网、其他广域网、局域网、城域网、有线电视系统、卫星电视系统、IPTV系统等)将投射设备108 连接到其他计算机或系统(例如，服务器系统140、智能家庭设备120 和客户端设备104)；

·内容解码模块620，用于对从一个或多个内容源114接收的内容信号进行解码，并将解码后的信号中的内容输出到耦合到投射设备108 的输出显示设备106；

·自动媒体显示模块624，其包括一个或多个媒体播放应用624，用于控制媒体显示，例如根据从云投射服务服务器116接收到的即时媒体播放信息使媒体输出到输出设备106；以及

·投射设备数据626，其至少存储与媒体显示的自动控制相关联的数据(例如，以自动媒体输出模式和后续模式)，包括：

о投射设备设置628，用于存储与投射设备应用的用户账户相关联的信息，包括账户访问信息、用于设备设置的信息(例如，服务层、设备型号、存储容量、处理能力、通信能力等)和用于自动媒体显示控制的信息中的一个或多个；

о媒体播放器应用设置630，用于存储与一个或多个媒体播放器应用的用户帐户相关联的信息，包括帐户访问信息、媒体内容类型的用户偏好、评论历史数据和用于自动媒体显示控制的信息中的一个或多个。

每个以上识别的元素可以存储在一个或多个前述存储器设备中，并且对应于用于执行上述功能的指令集合。以上识别的模块或程序(即，指令集)不需要被实现为单独的软件程序、过程、模块或数据结构，并且因此这些模块的各种子集可以在各种实施方式中被组合或以其他方式重新布置。在一些实施方式中，存储器606可选地存储以上识别的模块和数据结构的子集。此外，存储器606可选地存储未在上文中描述的附加模块和数据结构。

图7是示出根据一些实施方式的智能媒体环境100的服务器系统140中的示例服务器的框图。示例服务器是云投射服务服务器116中的一个。服务器140通常包括一个或多个处理单元(CPU)702、一个或多个网络接口704、存储器706和用于互连这些组件(有时称为芯片组) 的一个或多个通信总线708。服务器140可以包括便于用户输入的一个或多个输入设备710，诸如键盘、鼠标、语音命令输入单元或麦克风、触摸屏显示器、触敏输入板、手势捕捉相机、或其他输入按钮或控件。此外，服务器140可以使用麦克风和语音识别或相机和手势识别来补充或替换键盘。在一些实施方式中，服务器140包括用于捕捉例如印刷在电子设备上的图形系列代码的图像的一个或多个相机、扫描仪或光传感器单元。服务器140还可以包括一个或多个输出设备712，其能够呈现用户界面和显示内容，包括一个或多个扬声器和/或一个或多个视觉显示器。

存储器706包括高速随机存取存储器，例如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备；并且可选地包括非易失性存储器，诸如一个或多个磁盘存储设备、一个或多个光盘存储设备、一个或多个闪存设备或一个或多个其他非易失性固态存储器设备。存储器 706可选地包括远离一个或多个处理单元702的一个或多个存储设备。存储器706或可替选地存储器706内的非易失性存储器包括非临时性计算机可读存储介质。在一些实施方式中，存储器706或存储器706 的非暂时性计算机可读存储介质存储以下程序、模块和数据结构或其子集或超集：

·操作系统716，其包括处理各种基本系统服务和执行硬件相关任务的过程；

·网络通信模块718，用于经由一个或多个网络接口704(有线或无线)以及一个或多个网络110(诸如互联网、其他广域网、局域网、城域网等)将服务器系统140连接到其他设备(例如，服务器系统140 中的各种服务器、投射设备108以及智能家庭设备120)；

·用户界面模块720，用于在客户端设备104处启用信息的呈现(例如，用于呈现应用826-830、小部件、其网站和网页、和/或游戏、音频和/或视频内容、文本等的图形用户界面)；

·用于在服务器端执行的命令执行模块721(例如，游戏、社交网络应用、智能家庭应用和/或其他基于web或非web的应用，用于控制客户端设备104、投射设备108、电子设备190和智能家庭设备120并且检查由这样的设备捕获的数据)，包括以下中的一个或多个：

о投射设备应用722，其被执行以提供用于设备提供、设备控制以及与投射设备108相关联的用户账户管理的服务器端功能；

о一个或多个媒体播放器应用724，其被执行以提供用于与对应媒体源相关联的媒体显示和用户帐户管理的服务器端功能；

о一个或多个智能家庭设备应用726，其被执行以提供用于对应的智能家庭设备120的设备提供、设备控制、数据处理和数据查看的服务器端功能；以及

о语音辅助应用728，其被执行以设置从电子设备190接收的语音消息的语音处理或者直接处理语音消息以提取用户语音命令以及投射设备108或另一电子设备190的指定；以及

·服务器系统数据730至少存储与媒体显示的自动控制(例如，在自动媒体输出模式和后续模式中)相关联的数据，包括以下中的一个或多个：

о客户端设备设置732，用于存储与客户端设备104相关联的信息(包括公共设备设置(例如，服务层、设备型号、存储容量、处理能力、通信能力等))以及用于自动媒体显示控制的信息；

о投射设备设置734，用于存储与投射设备应用722的用户账户相关联的信息，包括账户访问信息、用于设备设置的信息(例如，服务层、设备型号、存储容量、处理能力、通信能力等)以及用于自动媒体显示控制的信息中的一个或多个；

о媒体播放器应用设置736，用于存储与一个或多个媒体播放器应用724的用户账户相关联的信息，包括账户访问信息、媒体内容类型的用户偏好、评论历史数据以及用于自动媒体显示控制的信息中的一个或多个；

о智能家庭设备设置738，用于存储与智能家庭应用726的用户账户相关联的信息，包括账户访问信息、用于一个或多个智能家庭设备120的信息(例如，服务层、设备型号、存储容量、处理能力、通信能力等)中的一个或多个；以及

о语音辅助数据740，用于存储与语音辅助应用728的用户账户相关联的信息，包括账户访问信息、用于一个或多个电子设备190的信息(例如，服务层、设备型号、存储容量、处理能力、通信能力等) 中的一个或多个。

当服务器140包括云投射服务服务器116、存储器706或存储器 706的非暂时性计算机可读存储介质时，存储以下程序、模块和数据结构或其子集或超集：

·设备注册模块750，用于管理耦合到云投射服务服务器116的设备注册表118；

·云投射应用760，用于将在语音消息中识别的用户语音命令中继到在云投射用户域中耦合的投射设备180、电子设备190和智能家庭设备120中的一个或多个；和

·状态报告模块770，用于维护在云投射用户域中耦合的投射设备 180、电子设备190和智能家庭设备120的状态。

以上每个元素可以存储在一个或多个前述存储器设备中，并且对应于用于执行上述功能的指令集合。以上识别的模块或程序(即，指令集合)不需要被实现为单独的软件程序、过程、模块或数据结构，并且因此这些模块的各种子集可以在各种实施方式中被组合或以其他方式重新布置。在一些实施方式中，存储器706可选地存储以上识别的模块和数据结构的子集。此外，存储器706可选地存储以上未描述的附加模块和数据结构。

图8是示出根据一些实施方式的应用于智能媒体环境100中的媒体显示的自动控制的示例客户端设备104的框图。客户端设备的示例包括但不限于移动电话、平板计算机和可穿戴个人设备。客户端设备104通常包括一个或多个处理单元(CPU)802、一个或多个网络接口 804、存储器806以及用于互连这些组件(有时称为芯片集)的一个或多个通信总线808。客户端设备104包括便于用户输入的一个或多个输入设备810，诸如键盘、鼠标、语音命令输入单元或麦克风，触摸屏显示器，触敏输入板、手势捕捉相机、或其他输入按钮或控件。此外，一些客户端设备104使用麦克风和语音识别或相机和手势识别来补充或替换键盘。在一些实施方式中，客户端设备104包括用于捕获例如打印在电子设备上的图形系列代码的图像的一个或多个相机、扫描仪或光传感器单元。客户端设备104还包括一个或多个输出设备812，其允许呈现用户界面和显示内容，包括一个或多个扬声器和/或一个或多个视觉显示器。可选地，客户端设备104包括用于确定客户端设备104 的位置的位置检测设备814，诸如GPS(全球定位卫星)或其他地理位置接收器。

存储器806包含高速随机存取存储器，例如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备；并且可选地包括非易失性存储器，诸如一个或多个磁盘存储设备、一个或多个光盘存储设备、一个或多个闪存设备或一个或多个其他非易失性固态存储器设备。存储器 806可选地包括远离一个或多个处理单元802的一个或多个存储设备。存储器806或可替选地存储器806内的非易失性存储器包括非临时性计算机可读存储介质。在一些实施方式中，存储器806或存储器806 的非暂时性计算机可读存储介质存储以下程序、模块和数据结构或其子集或超集：

·操作系统816，其包括用于处理各种基本系统服务并执行硬件相关任务的过程；

·网络通信模块818，用于经由一个或多个网络接口804(有线或无线)和一个或多个网络110(例如互联网、其他广域网、局域网、城域网等)将客户端设备104连接到其他设备(例如，服务器系统140、投射设备108、电子设备190、智能家庭设备120和其他客户端设备104)；

·用户界面模块820，用于经由一个或多个输出设备812(例如，显示器、扬声器等)在客户端设备104处启用信息的呈现(例如，用于呈现应用826-830、小部件、其网站和网页、和/或游戏、音频和/或视频内容、文本等的图形用户界面)；

·输入处理模块822，用于检测来自一个或多个输入设备810的一个或多个用户输入或交互并解释检测到的输入或交互；

·Web浏览器模块824，用于导航、请求(例如，通过HTTP)以及显示其网站和网页，包括用于登录与投射设备108、电子设备190、媒体应用或智能家庭设备120，如果与用户账户相关联，则控制投射设备108、电子设备190或智能家庭设备120，以及编辑和查看与用户账户相关联的设置和数据；

·用于由客户端设备执行的一个或多个应用(例如游戏、社交网络应用、智能家庭应用和/或其他基于web或非web的应用，用于控制投射设备108、电子设备190和/或智能家庭设备120以及查看由这样的设备捕获的数据)，包括以下中的一个或多个：

о投射设备应用826，其被执行以提供客户端功能以用于与投射设备108相关联的设备提供、设备控制和用户账户管理；

о语音激活设备应用827，其被执行以提供客户端功能以用于与电子设备190相关联的设备提供、设备控制和用户账户管理；

о一个或多个媒体播放器应用828，其被执行以提供用于与对应媒体源相关联的媒体显示和用户帐户管理的客户端功能；以及

о一个或多个智能家庭设备应用830，其被执行以用于提供相应的智能家庭设备120的设备供应、设备控制、数据处理和数据查看的客户端功能；以及

·至少存储与媒体显示的自动控制(例如，在自动媒体输出模式或后续模式中)相关联的数据的客户端数据832，其包括：

о客户端设备设置834，用于存储与客户端设备104本身相关联的信息，包括常见的设备设置(例如，服务层、设备型号、存储容量、处理能力、通信能力等)以及用于自动媒体显示控制的信息；

о投射设备设置836，用于存储与投射设备应用826的用户账户相关联的信息，包括账户访问信息，用于设备设置的信息(例如，服务层，设备型号，存储容量，处理能力，通信能力，等等)以及用于自动媒体显示控制的信息；

о媒体播放器应用设置838，用于存储与一个或多个媒体播放器应用828的用户账户相关联的信息，包括账户访问信息、媒体内容类型的用户偏好、评论历史数据以及用于自动媒体显示控制的信息中的一个或多个；

о智能家庭设备设置840，用于存储与智能家庭应用830的用户账户相关联的信息，包括账户访问信息、用于智能家庭设备设置的信息(例如，服务层、设备型号、存储容量、处理能力、通信能力等)；以及

о语音激活设备设置842，用于存储与语音激活设备应用827的用户账户相关联的信息，包括账户访问信息、用于电子设备设置的信息(例如，服务层、设备型号、存储容量、处理能力、通信能力等)。

在一些实施方式中，投射设备应用826、语音激活设备应用827、媒体播放器应用828和智能家庭设备应用830中的每一个导致在客户端设备的输出设备812上显示相应的用户界面104。在一些实施方式中，与投射设备应用826、语音激活设备应用827、媒体播放器应用828和智能家庭设备应用830相关联的用户的用户账户链接到单个云投射服务账户。用户可以使用云投射服务账户信息来登录到所有投射设备应用826、语音激活设备应用827、媒体播放器应用828和智能家庭设备应用830。在一些实施方式中，存储器806或存储器806的非暂时性计算机可读存储介质存储云投射应用844，其被执行以提供与链接到相同的云投射服务帐户(例如，Google用户帐户)的投射设备108、智能家庭设备120和电子设备相关联的功能控制和用户账户管理的客户端功能190。

以上识别的元素中的每一个可以存储在一个或多个前述存储器设备中，并且对应于用于执行上述功能的指令集合。以上识别的模块或程序(即，指令集合)不需要被实现为单独的软件程序、过程、模块或数据结构，并且因此这些模块的各种子集可以在各种实施方式中被组合或以其他方式重新布置。在一些实施方式中，存储器806可选地存储以上识别的模块和数据结构的子集。此外，存储器806可选地存储上面未描述的附加模块和数据结构。

图9是示出根据一些实施方式方式的智能媒体环境100中的示例智能家庭设备120的框图。通常，智能家庭设备120包括一个或多个处理单元(CPU)902、一个或多个网络接口904、存储器906以及用于互连这些组件(有时称为芯片集)的一个或多个通信总线908。存储器906包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备；并且可选地包括非易失性存储器，诸如一个或多个磁盘存储设备、一个或多个光盘存储设备、一个或多个闪存设备或一个或多个其他非易失性固态存储器设备。存储器906可选地包括远离一个或多个处理单元902的一个或多个存储设备。存储器906或可替选地存储器906内的非易失性存储器包括非临时性计算机可读存储介质。在一些实施方式中，存储器906或存储器906的非暂时性计算机可读存储介质存储以下程序、模块和数据结构或其子集或超集：

·操作系统916，其包括用于处理各种基本系统服务和用于执行智能家庭设备120的硬件相关任务的过程；

·网络通信模块918，用于经由一个或多个网络接口904(有线或无线)以及一个或多个网络110(诸如互联网、其他广域网、局域网、城域网等)将智能家庭设备120连接到其他计算机或系统(例如服务器系统140、客户端设备104、投射设备108、电子设备190和其他智能家庭设备120)；

·智能家庭设备模块922，用于使智能家庭设备120能够实现其指定的功能(例如，当智能家庭设备120包括相机132时，用于捕获和生成多媒体数据流并将该多媒体数据流作为连续馈送或以短阵发发送给客户端设备104或服务器系统140)。

·至少存储与设备设置926相关联的数据的智能家庭设备数据 924。

在一些实施方式中，智能家庭设备120由语音来控制。具体地，云投射服务服务器116接收电子设备190记录的语音消息，并确定该语音消息包括智能设备控制请求(例如，放大或缩小相机，关闭虚假警报和询问从智能恒温器测量的温度)。智能设备控制请求包括控制智能家庭设备120的用户语音命令和对智能家庭设备的用户语音指定。根据对智能家庭设备的语音指定，云投射服务服务器116在设备注册表118中识别在用户域中与电子设备相关联的智能家庭设备120。云投射服务服务器116然后向智能家庭设备1290发送另一个设备控制请求，借此使智能家庭设备120的智能家庭设备模块922能够根据用户语音指令来控制智能家庭设备120。

以上识别的元素中的每一个可以存储在一个或多个前述存储器设备中，并且对应于用于执行上述功能的指令集合。以上识别的模块或程序(即，指令集合)不需要被实现为单独的软件程序、过程、模块或数据结构，并且因此这些模块的各种子集可以在各种实施方式中被组合或以其他方式重新布置。在一些实施方式中，存储器906可选地存储以上识别的模块和数据结构的子集。此外，存储器906可选地存储上面没有描述的附加模块和数据结构。

智能媒体环境中基于语音的LED显示和媒体控制方法

图10是示出根据一些实施方式的视觉地指示语音处理状态的方法1000的流程图。方法1000在具有全色LED阵列、一个或多个麦克风、扬声器、处理器和存储至少一个程序以供处理器执行的存储器的电子设备190处实现。电子设备190经由一个或多个麦克风402收集来自电子设备190附近的环境的音频输入(1002)，并且处理(1004) 音频输入。该处理在语音处理模块522处实现，并且包括识别和响应来自环境中的用户的语音输入中的一个或多个。电子设备190然后从多个预定义语音处理状态中确定(1006)处理的状态。对于全色LED 中的每一个，电子设备190识别(1008)与确定的语音处理状态相关联的相应的预定LED照明规范，并且相应的照明规范包括(1010)LED 照明持续时间、脉冲速率、占空比、颜色顺序和亮度中的一个或多个。根据全色LED的所识别的LED照明规范，电子设备190(具体地，LED 控制模块524)使全色LED阵列的照明同步，以提供指示所确定的语音处理状态的视觉图案。以上参照图4A-图4H和图5已经解释了关于方法1000的更多细节。

方法1000可选地由存储在非暂时性计算机可读存储介质中并由语音激活电子设备190的一个或多个处理器执行的指令来管理。图10 中所示的每个操作可对应于存储在计算机存储器或计算机可读存储介质(例如，图5中的电子设备190的存储器506)中的指令。计算机可读存储介质可以包括磁或光盘存储设备，诸如闪存的固态存储器设备，或其他非易失性存储器设备。存储在计算机可读存储介质上的计算机可读指令可以包括以下中的一个或多个：源代码、汇编语言代码、目标代码或由一个或多个处理器解释的其他指令格式。方法1000中的一些操作可以被组合和/或一些操作的顺序可以被改变。

图11是示出根据一些实施方式的通过语音来发起显示媒体内容的隐藏字幕的方法1100的流程图。方法1100在服务器系统(例如，云投射服务服务器116)处实现，该服务器系统包括处理器和存储用于由处理器执行的至少一个程序(例如，云投射应用760)的存储器。服务器系统接收(1102)由电子设备190记录的语音消息，并确定(1104) 该语音消息是第一隐藏字幕发起请求。第一隐藏字幕发起请求包括 (1106)发起隐藏字幕的用户语音命令以及播放隐藏字幕将被激活的媒体内容的对显示设备106的用户语音指定。根据对显示设备的指定，服务器系统在设备注册表118中识别(1108)在用户域中与电子设备 190相关联并且耦合到指定的显示设备106的投射设备108。投射设备 108被配置(1110)为执行媒体播放应用，用于控制指定的显示设备显示从媒体内容托管接收的媒体内容。然后，服务器系统(具体地，云投射应用760)向耦合到指定显示设备的投射设备发送(1112)第二隐藏字幕发起请求，从而使投射设备能够执行媒体播放应用，其控制指定显示设备打开当前显示在指定显示设备上的媒体内容的隐藏字幕，并根据第二隐藏字幕发起请求显示隐藏字幕。以上参考图2A、图2B 和图5-图7已经解释了关于方法1100的更多细节。

图12是示出根据一些实施方式的通过媒体输出设备上的媒体内容的语音播放来发起的方法1200的流程图。方法1200在服务器系统 (例如，云投射服务服务器116)处实现，该服务器系统包括处理器和存储由处理器执行的至少一个程序的存储器。服务器系统接收(1202) 由电子设备记录的语音消息，并且确定(1204)该语音消息包括第一媒体播放请求。第一媒体播放请求包括(1206)在媒体输出设备上播放媒体内容的用户语音命令和对媒体输出设备106的用户语音指定，并且用户语音命令至少包括第一媒体播放应用的信息和需要播放的媒体内容。根据对媒体输出设备的语音指定，服务器系统在设备注册表 118中识别(1208)在用户域中与电子设备190相关联并且耦合到媒体输出设备106的投射设备108。投射设备108被配置为(1210)执行一个或多个媒体播放应用，用于控制媒体输出设备106播放从一个或多个媒体内容托管接收的媒体内容。然后，服务器系统(具体地，云投射应用760)向投射设备108发送包括第一媒体播放应用的信息和需要播放的媒体内容的第二媒体播放请求(1212)，由此使投射设备108 能够执行控制媒体输出设备106播放媒体内容的第一媒体播放应用。以上参考图2A、图2B和图5-图7已经解释了关于方法1200的更多细节。

图13是示出根据一些实施方式的将媒体内容的播放从源媒体输出设备移动播放到目的地媒体输出设备的方法1300的流程图。方法 1200在服务器系统(例如，云投射服务服务器116)处实现，该服务器系统包括处理器和存储由处理器执行的至少一个程序的存储器。

服务器系统接收(1302)由电子设备190记录的语音消息，并且确定(1304)该语音消息包括媒体传送请求。媒体传送请求包括(1306) 将正在播放的媒体内容传送到目的地媒体输出设备的用户语音命令以及对目的地媒体输出设备的用户语音指定。服务器系统从源投射设备 (例如，图3的投射设备108-1)获得当前正在播放的媒体内容的即时媒体播放信息(1308)。即时播放信息包括(1310)至少第一媒体播放应用的信息、当前正播放的媒体内容以及与播放媒体内容有关的时间位置。

根据对目的地媒体输出设备的语音指定，服务器系统在设备注册表118中识别(1312)在用户域中与电子设备190相关联并且耦合到目的地媒体输出设备(例如，图3的输出设备106-2)的目的地投射设备(例如，图3的投射设备108-2)。目的地投射设备被配置为(1314) 执行一个或多个媒体播放应用，用于控制目的地媒体输出设备播放从一个或多个媒体内容托管接收的媒体内容。然后，服务器系统(具体地，云投射应用760)向目的地投射设备发送包括即时媒体播放信息的媒体播放请求(1316)，由此使目的地投射设备能够执行第一媒体播放应用，其控制目的地媒体输出设备从时间位置播放媒体内容。以上参照图3和图5-图7已经解释了关于方法1300的更多细节。

方法1100、1200和1300可选地由存储在非暂时性计算机可读存储介质中并由云投射服务服务器116的一个或多个处理器执行的指令来管理。图12-图13中所示出的每个操作可以对应于存储在计算机存储器或计算机可读存储介质(例如，图7中的服务器系统的存储器706) 中的指令。计算机可读存储介质可以包括磁或光盘存储设备，诸如闪存的固态存储器设备，或其他非易失性存储器设备。存储在计算机可读存储介质上的计算机可读指令可以包括以下中的一个或多个：源代码、汇编语言代码、目标代码或由一个或多个处理器解释的其他指令格式。方法1100、1200和1300中的每一个中的一些操作可以被组合和/或一些操作的顺序可以被改变。

在此描述的各种所描述的实施方式中使用的术语仅用于描述特定实施方式的目的，而不旨在限制。如在各种所描述的实施方式和所附权利要求的描述中所使用的，除非上下文另外清楚地指出，否则单数形式“一”、“一个”和“该”旨在也包括复数形式。还将理解的是，本文所使用的术语“和/或”是指并且包含一个或多个相关所列项目的任何和所有可能的组合。将进一步理解的是，当在本说明书中使用时，术语“包括”、“包含”、“包含”和/或“包含”指明所述特征、整体、步骤、操作、元件和/或部件，但不排除一个或多个其他特征、整体、步骤、操作、元件、部件和/或其组合的存在或添加。

如本文中所使用的，术语“如果”可选地被解释为取决于上下文意指“何时”或“之后”或“响应于确定”或“响应于检测”或“根据确定”。类似地，短语“如果确定”或“如果[检测到所述条件或事件]”被可选地解释为取决于上下文意指“确定”或“响应于确定”或“在检测到[所述状况或事件]”或“响应于检测到[所述状况或事件]”或“根据确定[所述状况或事件]被检测到”。

应该理解的是，“智能媒体环境”可以是指用于诸如单户住宅的家庭的智能环境，但是本教导的范围不限于此。本教导也适用于(但不限于)双工房、联排别墅、多单元公寓楼、宾馆、零售店、写字楼、工业建筑以及更普遍的任何生活空间或工作空间。

还应当认识到，尽管术语用户、顾客、安装者、房主、占有者、客人、租户、房东、维修人员等等可以用于指代在此描述的一些特别情况的场境中行动的一个或多个人，但是这些参考文献不限制对于正在执行这样的动作的一个或多个人的本教导的范围。因此，例如，在单户家庭住宅的情况下，用户、客户、购买者、安装者、订户和房主的用语通常可以指相同个人，因为家庭的主管通常是进行购买决定、购买设备、安装和配置设备，也是单元的用户之一。然而，在诸如房东租户环境的其他情况下，客户可能是购买该单元的房东，安装者可能是当地的公寓主管，第一用户可能是租户，并且第二用户可能在遥控功能方面再次是房东。重要的是，虽然执行动作的人的身份可能与一个或多个实施方式提供的特定优势有密切关系，但这样的身份不应被解释为必须将本教导的范围限制为那些具有这些特定身份的特定个人的随后的描述。

尽管各种附图以特定顺序示出了多个逻辑阶段，但不依赖顺序的阶段可以被重新排序并且其他阶段可以被组合或者分解。虽然具体提到了一些重新排序或其他分组，但是其他对于本领域的普通技术人员而言将是显而易见的，因此本文中呈现的排序和分组不是详尽的备选方案列表。此外，应该认识到，这些阶段可以用硬件、固件、软件或其任何组合来实现。

为了解释的目的，前面的描述已经参考具体实施方式进行了描述。然而，上面的说明性讨论并不是穷尽性的或将权利要求的范围限制为所公开的确切形式。鉴于上述教导，许多修改和变化是可能的。选择这些实施方式是为了最好地解释权利要求及其实际应用的基础原理，从而使本领域的其他技术人员能够最佳地使用具有适合于预期的特定用途的各种修改的实施方式。

应注意的是，在与本申请一起提交的附录中还公开了关于上述实施方式和替代实施方式的更多细节。在附录中，OOBE是指开箱即用的体验(out-of-box experience)。

Claims

1.一种通过语音发起媒体内容的播放的方法，包括：

在包括处理器和存储供所述处理器执行的至少一个程序的存储器的服务器系统处：

接收由电子设备记录的语音信息；

确定所述语音消息包括第一媒体播放请求，其中，所述第一媒体播放请求包括用于在媒体输出设备上播放媒体内容的用户语音命令和所述媒体输出设备的用户语音指定，所述用户语音命令至少包括第一媒体播放应用和请求被播放的所述媒体内容的信息；

根据所述媒体输出设备的所述用户语音指定，在设备注册表中识别与虚拟用户域中的所述电子设备相关联并且耦合到所述媒体输出设备的投射设备，其中，所述投射设备被配置为执行一个或多个媒体播放应用以播放从一个或多个媒体内容托管接收的媒体内容；和

向所识别的投射设备发送第二媒体播放请求，所述第二媒体播放请求包括所述第一媒体播放应用和请求被播放的所述媒体内容的所述信息，从而使所述投射设备能够执行控制所述媒体输出设备的所述第一媒体播放应用以播放所请求的媒体内容。

2.根据权利要求1所述的方法，其中，识别所述投射设备还包括：

根据所述媒体输出设备的所述用户语音指定，识别要播放所请求的媒体内容的所述媒体输出设备；和

在所述设备注册表中识别耦合到所述媒体输出设备的所述投射设备。

3.根据权利要求1所述的方法，其中，所述服务器系统被配置为管理所述虚拟用户域，所述电子设备和所识别的投射设备在所述虚拟用户域中被注册并经由用户账户彼此链接，并且其中，至少一个或多个其他客户端设备在所述虚拟用户域中被注册并链接到所述用户账户。

4.根据权利要求1所述的方法，还包括：

从所述用户语音命令中获取所述第一媒体播放应用的所述信息。

5.根据权利要求1所述的方法，还包括：

从不同于第二投射设备的第一投射设备获取即时播放信息，所述即时播放信息至少包括所述第一媒体播放应用的信息。

6.根据权利要求5所述的方法，其中，所述即时播放信息还包括与所请求的媒体内容的播放相关的时间位置，所述方法还包括：

响应于接收到所述语音消息，在所请求的媒体内容的所述时间位置处在所述第一投射设备处停止所请求的媒体内容的播放。

7.根据权利要求1所述的方法，其中，所述电子设备被布置在所述投射设备附近，并且所述电子设备和所述投射设备耦合到本地通信网络或耦合到两个不同的本地通信网络。

8.根据权利要求1所述的方法，其中，所述电子设备和所识别的投射设备在所述虚拟用户域中被注册并经由用户账户彼此链接，所述方法还包括：

确定所请求的媒体内容先前响应于由所述用户账户做出的请求而被播放；

获取包括时间位置的即时播放信息，所请求的媒体内容先前在所述时间位置处被停止；和

将所述即时播放信息与所述第二媒体播放请求一起发送到所识别的投射设备，从而使所述投射设备能够执行所述第一媒体播放应用以控制所述媒体输出设备根据所述即时播放信息来播放所请求的媒体内容。

9.根据权利要求1所述的方法，其中，所述电子设备和所识别的投射设备在所述虚拟用户域中被注册并且经由用户账户彼此链接，所述方法还包括：

确定所请求的媒体内容当前正在源投射设备上被播放；

根据所述设备注册表来确定所述源投射设备在所述用户域中与所述电子设备和所识别的投射设备相关联；

向所述源投射设备发送媒体信息请求；和

从所述源投射设备接收所述第一媒体播放应用的信息。

10.根据权利要求1所述的方法，还包括：

将所述语音消息转发到语音辅助服务器，所述语音辅助服务器解析所述语音消息并识别所述用户语音命令和所述媒体输出设备的所述用户语音指定；和

从所述语音辅助服务器接收所述用户语音命令和所述媒体输出设备的所述用户语音指定。

11.根据权利要求1所述的方法，其中，所述服务器系统不同于将所请求的媒体内容提供给所识别的投射设备以供所述媒体输出设备播放的内容托管，并且所述电子设备和所识别的投射设备是远离所述服务器系统的并经由一个或多个无线通信网络耦合到所述服务器系统。

12.根据权利要求1所述的方法，其中，所述电子设备是以下中的一个：

包括麦克风和扬声器的语音接口设备；和

被配置为执行语音助理程序的移动电话。

13.根据权利要求1-12中的任一项所述的方法，其中，所述媒体输出设备的所述用户语音指定包括所述媒体输出设备的描述，所述方法还包括：

根据所述媒体输出设备的所述描述来在所述设备注册表中识别多个媒体输出设备当中的所述媒体输出设备，其中，所述媒体输出设备的所述描述至少包括所述媒体输出设备的品牌或位置。

14.一种服务器系统，包括：

一个或多个处理器；以及

具有存储在其上的指令的存储器，所述指令在由所述一个或多个处理器执行时使所述处理器执行操作以实现根据权利要求1至13中的任一项所述的方法。

15.一种具有存储在其上的指令的非暂时性计算机可读存储介质，所述指令在由服务器系统的一个或多个处理器执行时，使得所述一个或多个处理器执行操作以实现根据权利要求1-13中的任一项所述的方法。