CN107003797A

CN107003797A - 媒体环境中的智能自动化助理

Info

Publication number: CN107003797A
Application number: CN201680003291.7A
Authority: CN
Inventors: L·T·纳波利塔诺; G·H·黄; H·D·彭哈; J·D·肖; J·S·菲诺
Original assignee: Apple Computer Inc
Current assignee: Apple Inc
Priority date: 2015-09-08
Filing date: 2016-08-16
Publication date: 2017-08-01
Anticipated expiration: 2036-08-16
Also published as: WO2017044257A1; US10956006B2; US20190310765A1; DK201970273A1; KR20210090727A; KR20220047896A; AU2022204891A1; AU2016247040B2; US20170068423A1; KR20170036805A; AU2017204359A1; US10331312B2; DK179111B1; AU2016247040A1; US11853536B2; DK178888B1; AU2018260958A1; JP2018502345A; US20210191603A1; AU2024201697A1

Abstract

本发明公开了一种用于在媒体环境中操作数字助理的系统和过程。在示例性实施方案中，用户可在内容被媒体设备显示时与媒体设备的数字助理进行交互。在一种方法中，可响应于检测到第一输入类型的用户输入而显示多个示例性自然语言请求。该多个示例性自然语言请求可与所显示的内容上下文相关。在另一种方法中，可响应于检测到第二输入类型的用户输入而接收用户请求。可执行至少部分地满足用户请求的任务。所执行的任务可取决于用户请求的性质以及正被媒体设备显示的内容。具体地，在减少用户消费媒体内容过程中的干扰时，可满足该用户请求。

Description

媒体环境中的智能自动化助理

相关专利申请的交叉引用

本专利申请要求于2015年9月8日提交的名称为“Intelligent AutomatedAssistant in a Media Environment”的美国临时序列号62/215,676和2015年12月8日提交的名称为“Intelligent Automated Assistant in a Media Environment”的临时序列号14/963,094的优先权，这两个专利申请据此全文以引用方式并入本文以用于所有目的。

本专利申请与以下共同未决的专利申请相关：于2015年12月8日提交的美国非临时专利申请序列号14/963,089，“Intelligent Automated Assistant for Media Searchand Playback”(代理人案卷号106842137900(P27499US1))；于2014年9月26日提交的美国非临时专利申请序列号14/498,503，“Intelligent Automated Assistant for TV UserInteractions”(代理人案卷号106842065100(P18133US1))；以及于2014年9月26日提交的美国非临时专利申请序列号14/498,391，“Real-time Digital Assistant KnowledgeUpdates”(代理人案卷号106842097900(P22498US1))，这三个申请据此全文以引用方式并入本文以用于所有目的。

技术领域

本发明整体涉及智能自动化助理，并且更具体地涉及正在媒体环境中操作的智能自动化助理。

背景技术

智能自动化助理(或数字助理)可提供用户与电子设备之间的直观界面。这些助理可允许用户使用自然语言以语音形式和/或文本形式与设备或系统进行交互。例如，用户可通过以自然语言形式将口头用户输入提供至与电子设备相关联的虚拟助理来访问电子设备的服务。该虚拟助理可对口头用户输入执行自然语言处理，以推断用户意图并且将用户意图实施到任务中。然后可通过执行电子设备的一种或多种功能来执行任务，并且在一些示例中，可将相关的输出以自然语言形式返回给用户。

期望将数字助理集成到媒体环境(例如，电视机、电视机顶盒、电缆盒、游戏设备、流媒体设备、数字视频录像机等)中，以帮助用户执行与媒体消费相关的任务。例如，可使用数字助理来帮助找到所需的媒体内容来消费。然而，与数字助理的用户交互可包括可能干扰媒体内容的消费的音频输出和视频输出。因此，将数字助理以一种方式集成到媒体环境中使得在使对媒体内容的消费的干扰最小化时向用户提供足够多的帮助具有挑战性。

发明内容

本发明公开了一种用于在媒体环境中操作数字助理的系统和过程。在一些示例性过程中，可在显示内容时检测用户输入。该过程可确定用户输入是否对应于第一输入类型。根据确定用户输入对应于第一输入类型，可显示多个示例性自然语言请求。该多个示例性自然语言请求可与所显示的内容上下文相关。

在一些实施方案中，根据确定用户输入不对应于第一输入类型，该过程可确定用户输入是否对应于第二输入类型。根据确定用户输入对应于第二输入类型，可对音频数据进行采样。该过程可确定音频数据是否包含用户请求。根据确定音频数据包含用户请求，可执行至少部分地满足用户请求的任务。在一些示例中，该任务可包括获取至少部分地满足用户请求的结果，并且显示具有结果的一部分的第二用户界面。可在显示第二用户界面时继续显示内容的一部分，并且第二用户界面的显示区域可小于内容的该一部分的显示区域。

在一些实施方案中，可在显示第二用户界面时检测第三用户输入。响应于检测到第三用户输入，可利用对具有结果的该一部分的第三用户界面的显示来替换对第二用户界面的显示。该第三用户界面可至少占据显示单元的大部分显示区域。此外，可获取至少部分地满足用户请求的第二结果。该第二结果可不同于该结果。该第三用户界面可包括第二结果的至少一部分。

在一些实施方案中，可在显示第三用户界面时检测第四用户输入。该第四用户输入可指示方向。响应于检测到第四用户输入，该第三用户界面的焦点可从第三用户界面中的第一项目切换至第三用户界面中的第二项目。该第二项目可相对于第一项目而被定位在所指示的方向上。

在一些实施方案中，可在显示第三用户界面时检测第五用户输入。响应于检测到第五用户输入，可显示搜索字段。此外，可显示虚拟键盘界面，其中经由虚拟键盘界面所接收的输入导致搜索字段中的文本输入。此外，在一些实施方案中，可使得得可选择示能表示出现在第二电子设备的显示器上，其中对示能表示的选择使得文本输入将能够由电子设备经由第二电子设备的键盘来接收。

在一些实施方案中，可在显示第三用户界面时检测第六用户输入。响应于检测到第六用户输入，可对包含第二用户请求的第二音频数据进行采样。该过程可确定第二用户请求是否为用于细化用户请求的结果的请求。根据确定第二用户请求是用于细化用户请求的结果的请求，可经由第三用户界面来显示结果的子组。根据确定第二用户请求不是用于细化用户请求的结果的请求，可获取至少部分地满足第二用户请求的第三结果。可经由第三用户界面来显示第三结果的一部分。

在一些实施方案中，经采样的音频数据可包括用户话语，并且可确定与用户话语对应的用户意图。该过程可确定用户意图是否包括用于调整应用程序的状态或设置的请求。根据确定用户意图包括用于调整应用程序的状态或设置的请求，可调整应用程序的状态或设置以满足用户意图。

在一些实施方案中，根据确定用户意图不包括用于调整电子设备上的应用程序的状态或设置的请求，该过程可确定用户意图是否是多个预先确定的请求类型中的一个预先确定的请求类型。根据确定用户意图是多个预先确定的请求类型中的一个预先确定的请求类型，可显示至少部分地满足用户意图的纯文本结果。

在一些实施方案中，根据确定用户意图不是多个预先确定的请求类型中的一个预先确定的请求类型，该过程可确定所显示的内容是否包括媒体内容。根据确定所显示的内容包括媒体内容，该过程可进一步确定媒体内容是否可被暂停。根据确定媒体内容可被暂停，使媒体内容暂停，并且可经由第三用户界面来显示至少部分地满足用户意图的结果。该第三用户界面可至少占据显示单元的大部分显示区域。根据确定媒体内容不可被暂停，在显示媒体内容时可经由第二用户界面来显示结果。第二用户界面所占据的显示区域可小于媒体内容所占据的显示区域。此外，在一些实施方案中，根据确定所显示的内容不包括媒体内容，可经由第三用户界面来显示结果。

附图说明

图1示出了根据各种示例的用于实现数字助理的系统和环境的框图。

图2示出了根据各种示例的媒体系统的框图。

图3示出了根据各种示例的用户设备的框图。

图4A示出了根据各种示例的数字助理系统或其服务器部分的框图。

图4B示出了根据各种示例的图4A所示的数字助理的功能。

图4C示出了根据各种示例的知识本体的一部分。

图5A至图5I示出了根据各种示例的用于操作媒体系统的数字助理的过程。

图6A至图6Q示出了根据各种示例的在图5A至图5I中所示过程的各个阶段中由媒体设备在显示单元上显示的屏幕截图。图6O被有意地省略，以避免大写字母O和数字0(零)之间的任何混淆。

图7A至图7C示出了根据各种示例的用于操作媒体系统的数字助理的过程。

图8A至图8W示出了根据各种示例的在图7A至图7C中所示过程的各个阶段中由媒体设备在显示单元上显示的屏幕截图。图8O被有意地省略，以避免大写字母O和数字0(零)之间的任何混淆。

图9示出了根据各种示例的用于操作媒体系统的数字助理的过程。

图10示出了根据各种示例的被配置为操作媒体系统的数字助理的电子设备的功能框图。

图11示出了根据各种示例的被配置为操作媒体系统的数字助理的电子设备的功能框图。

具体实施方式

在以下对示例的描述中将引用附图，在附图中以例示的方式示出了可被实施的特定示例。应当理解，在不脱离各个示例的范围的情况下，可使用其他示例并且可作出结构性变更。

本发明涉及一种用于在媒体环境中操作数字助理的系统和过程。在一个示例性过程中，可在显示内容时检测用户输入。该过程可确定用户输入是否对应于第一输入类型。根据确定用户输入对应于第一输入类型，可显示多个示例性自然语言请求。该多个示例性自然语言请求可与所显示的内容上下文相关。可期望上下文相关的示例性自然语言请求可方便地将与媒体设备上的用户的当前使用条件最相关的数字助理的能力告知用户。这可鼓励用户使用数字助理服务并且还可改善与数字助理的用户交互式体验。

在一些实施方案中，根据确定用户输入不对应于第一输入类型，该过程可确定用户输入是否对应于第二输入类型。根据确定用户输入对应于第二输入类型，可对音频数据进行采样。该过程可确定音频数据是否包含用户请求。根据确定音频数据包含用户请求，可执行至少部分地满足用户请求的任务。

在一些实施方案中，所执行的任务可取决于用户请求的性质以及在检测到第二输入类型的用户输入时所显示的内容。如果用户请求是用于调整电子设备上的应用程序的状态或设置的请求(例如，打开已显示的媒体内容的字幕)，则该任务可包括调整应用程序的状态或设置。如果用户请求是与纯文本输出(例如，对当前时间的请求)相关联的多个预先确定的请求类型中的一个预先确定的请求类型，则任务可包括显示满足用户请求的文本。如果所显示的内容包括媒体内容并且用户请求要求获取并显示结果，则该过程可确定是否媒体内容可被暂停。如果确定媒体内容可被暂停，则使媒体内容暂停，并且可在经扩展的用户界面(例如，图6H中所示的第三用户界面626)上显示满足该用户请求的结果。如果确定媒体内容不可被暂停，则在继续显示媒体内容时可将满足该用户请求的结果显示在经缩窄的用户界面(例如，图6G中所示的第二用户界面618)上。第二用户界面的显示区域可小于媒体内容的显示区域。此外，如果所显示的内容不包括媒体内容，则可在经扩展的用户界面上显示满足该用户请求的结果。根据所显示的内容和用户请求的类型来调整输出格式，数字助理可在使对媒体内容的用户消费的干扰最小化时通过提供全面的帮助来智能地取得平衡。这样可改善用户体验。

1.系统和环境

图1示出了根据各种示例的用于操作数字助理的示例性系统100。术语“数字助理”、“虚拟助理”、“智能自动化助理”或“自动数字助理”可指用于解译口头形式和/或文本形式的自然语言输入以推断用户意图并基于推断出的用户意图来执行动作的任何信息处理系统。例如，为了根据推断出的用户意图采取行动，系统可执行以下内容中的一者或多者：利用被设计以实现所推断出的用户意图的步骤和参数来识别任务流；将来自推断出的用户意图的具体要求输入到任务流中；通过调用程序、方法、服务、应用编程接口(API)等来执行任务流；以及生成对用户的听觉(例如，语音)和/或视觉形式的输出响应。

具体地，数字助理可能够接受至少部分地为自然语言命令、请求、声明、讲述和/或询问形式的用户请求。通常，用户请求可寻求数字助理作出信息性回答或者寻求数字助理执行任务。针对用户请求的令人满意的响应可以是提供所请求的信息性回答、执行所请求的任务或这两者的组合。例如，用户可向数字助理提问，诸如“Paris现在是几点？”数字助理可检索所请求的信息并回答“Paris现在是下午4:00。”。用户还可请求执行任务，例如“为我查找由Reese Witherspoon主演的电影。”。作为响应，数字助理可执行所请求的搜索查询，并显示相关电影名称以供用户从中选择。在执行所请求的任务期间，数字助理有时可在很长时间段内在涉及多次信息交换的持续对话过程中与用户进行交互。存在与数字助理进行交互以请求信息或执行各种任务的许多其他方法。除了提供文本响应和采取所编程的动作之外，数字助理还可提供其他视觉形式或音频形式的响应，例如言语、警报、音乐、图像、视频、动画等形式的响应。此外，如本文所讨论的，示例性数字助理可控制媒体内容的回放(例如，在电视机顶盒上)，并且将媒体内容或其他信息显示在显示单元(例如，电视机)上。

如图1中所示，在一些示例中，数字助理可根据客户端-服务器模型来实现。数字助理可包括在媒体设备104上执行的客户端侧部分102(后文称作“DA客户端102”)，以及在服务器系统108上执行的服务器侧部分106(后文称作“DA服务器106”)。此外，在一些示例中，客户端侧部分还可在用户设备122上执行。DA客户端102可通过一个或多个网络110来DA服务器106进行通信。DA客户端102可提供客户端侧功能，诸如面向用户的输入和输出处理，以及与DA服务器106的通信。DA服务器106可为各自驻留在相应设备(例如，媒体设备104和用户设备122)上的任意数量的DA客户端102提供服务器侧功能。

媒体设备104可以是被配置为管理和控制媒体内容的任何合适的电子设备。例如，媒体设备104可包括电视机顶盒，诸如电缆盒设备、卫星盒设备、视频播放器设备、视频流设备、数字视频录像机、游戏系统、DVD播放器、Blu-ray Disc^TM播放器、此类设备的组合等。如图1所示，媒体设备104可以是媒体系统128的一部分。除了媒体设备104之外，媒体系统128可包括遥控器124和显示单元126。媒体设备104可在显示单元126上显示媒体内容。显示单元126可以是任何类型的显示器，诸如电视显示器、监视器、投影仪等。在一些示例中，媒体设备104可连接到可与显示单元126集成或分开的音频系统(例如，音频接收器)和扬声器(未示出)。在其他示例中，显示单元126和媒体设备104可一起并入单个设备中，诸如具有高级处理能力和网络连接能力的智能电视。在此类示例中，媒体设备104的功能可作为组合设备上的应用程序来执行。

在一些示例中，媒体设备104可用作针对媒体内容的多种类型和来源的媒体控制中心。例如，媒体设备104可便于用户访问电视直播(例如，无线电视、卫星电视或有线电视)。因此，媒体设备104可包括电缆调谐器或卫星调谐器等。在一些示例中，媒体设备104还可记录电视节目以供稍后时移观看。在其他示例中，媒体设备104可提供对一个或多个流媒体服务的访问，诸如访问有线递送的点播电视节目、视频和音乐，以及互联网递送的电视节目、视频和音乐(例如，来自各种免费、付费和订阅式流服务)。在其他示例中，媒体设备104可方便回放或显示来自任何其他来源的媒体内容，诸如显示来自移动用户设备的照片，播放来自耦接的存储设备的视频，播放来自耦接的音乐播放器的音乐等。媒体设备104还可根据需要包括本文所讨论的媒体控制特征部的各种其他组合。下文参考图2详细描述了媒体设备104。

用户设备122可以是任何个人电子设备，诸如移动电话(例如智能电话)、平板电脑、便携式媒体播放器、台式计算机、膝上型计算机、PDA、可穿戴电子设备(例如，数字眼镜、腕带、手表、胸针、臂带等)，等等。下文参考图3详细描述了用户设备122。

在一些示例中，用户可通过用户设备122、遥控器124或与媒体设备104集成的接口元件(例如，按钮、麦克风、相机、操纵杆等)来与媒体设备104进行交互。例如，可在用户设备122和/或遥控器124处接收包括用于数字助理的媒体相关查询或命令的语音输入，并且该语音输入可用于使得媒体相关的任务将在媒体设备104上执行。同样，可在用户设备122和/或遥控器124(以及未示出的其他设备)处接收用于控制媒体设备104上的媒体的触觉命令。因此，可采用各种方式来控制媒体设备104的各种功能，从而给予用户控制来自多个设备的媒体内容的多种选择。

一个或多个通信网络110的示例可包括局域网(LAN)和广域网(WAN)，例如互联网。一个或多个通信网络110可使用任何已知的网络协议来实现，包括各种有线或无线协议，诸如例如以太网、通用串行总线(USB)、火线、全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、Wi-Fi、互联网语音协议(VoIP)、Wi-MAX、或任何其他合适的通信协议。

DA服务器106可包括面向客户端的输入/输出I/O接口112、一个或多个处理模块114、数据与模型116、以及至外部服务的I/O接口118。面向客户端的I/O接口112可有利于DA服务器106的面向客户端的输入和输出处理。一个或多个处理模块114可利用数据与模型116来处理语音输入，并基于自然语言输入来确定用户意图。此外，一个或多个处理模块114可基于推断出的用户意图来执行任务。在一些示例中，DA服务器106可通过一个或多个网络110来与外部服务120(诸如，电话服务、日历服务、信息服务、消息服务、导航服务、电视节目播放服务、流媒体服务、媒体搜索服务等)进行通信，以完成任务或获取信息。至外部服务的I/O接口118可促进此类通信。

服务器系统108可在计算机的一个或多个独立式数据处理装置或分布式网络上实现。在一些示例中，服务器系统108还可采用第三方服务提供方(例如，第三方云服务提供方)的各种虚拟设备和/或服务来提供服务器系统108的潜在计算资源和/或基础结构资源。

虽然图1中所示的数字助理可包括客户端侧部分(例如，DA客户端102)和服务器侧部分(例如，DA服务器106)两者，但在一些示例中，数字助理的功能可被实现为被安装在用户设备或媒体设备上的独立式应用程序。此外，数字助理的客户端部分与服务器部分之间的功能划分在不同的具体实施中可变化。例如，在一些示例中，在用户设备122或媒体设备104上执行的DA客户端可以是仅提供面向用户的输入和输出处理功能并且将数字助理的所有其他功能委派给后端服务器的瘦客户端。

2.媒体系统

图2示出了根据各种示例的媒体系统128的框图。媒体系统128可包括通信地耦接至显示单元126、遥控器124和扬声器268的媒体设备104。媒体设备104可经由遥控器124来接收用户输入。来自媒体设备104的媒体内容可被显示在显示单元126上。

在本示例中，如图2所示，媒体设备104可包括存储器接口202、一个或多个处理器204、和外围设备接口206。媒体设备104中的各种部件可通过一条或多条通信总线或信号线而被耦接在一起。媒体设备104还可包括耦接至外围设备接口206的各种子系统以及外围设备。子系统和外围设备可采集信息和/或促进媒体设备104的各种功能。

例如，媒体设备104可包括通信子系统224。可通过一个或多个有线和/或无线通信子系统224来促进通信功能，这些通信子系统可包括各种通信端口、射频接收器和发射器、和/或光学(例如，红外)接收器和发射器。

在一些示例中，媒体设备104还可包括耦接至外围设备接口206的I/O子系统240。I/O子系统240可包括音频/视频输出控制器270。音频/视频输出控制器270可耦接至显示单元126和扬声器268，或者能够以其他方式提供音频和视频输出(例如，经由音频/视频端口、无线传输等)。I/O子系统240还可包括远程控制器242。远程控制器242可通信地耦接至遥控器124(例如，经由有线连接、蓝牙、Wi-Fi等)。

遥控器124可包括用于捕获音频数据(例如，来自用户的语音输入)的麦克风272、用于捕获触觉输入的按钮274，以及用于促进经由远程控制器242与媒体设备104的通信的收发器276。此外，遥控器124可包括基于触觉和/或触感接触来接受来自用户的输入的触敏表面278、传感器或传感器组。触敏表面278和远程控制器242可检测触敏表面278上的接触(以及接触的任何移动或中断)，并将检测到的接触(例如，手势、接触动作等)转换成与被显示在显示单元126上的用户界面对象(例如，一个或多个软键、图标、网页或图像)的交互。在一些示例中，遥控器124还可包括其他输入机构，诸如键盘、操纵杆等。在一些示例中，遥控器124还可包括输出机构，诸如灯、显示器、扬声器等。在遥控器124处所接收的输入(例如，用户语音、按钮按压、接触动作等)可经由遥控器124而被传送到媒体设备104。I/O子系统240还可包括一个或多个其他输入控制器244。可将一个或多个其他输入控制器244耦接至其他输入/控制设备248，诸如一个或多个按钮、摇臂开关、拇指滚轮、红外端口、USB端口和/或指针设备(诸如触笔)。

在一些示例中，媒体设备104还可包括耦接至存储器250的存储器接口202。存储器250可包括任何电子、磁性、光学、电磁、红外或半导体系统、装置或设备；便携式计算机磁盘(磁性)；随机存取存储器(RAM)(磁性)；只读存储器(ROM)(磁性)；可擦除可编程只读存储器(EPROM)(磁性)；便携式光盘诸如CD、CD-R、CD-RW、DVD、DVD-R或DVD-RW；或闪存存储器诸如紧凑型闪存卡、安全数字卡、USB存储设备、记忆棒等。在一些示例中，存储器250的非暂态计算机可读存储介质可用于存储指令(例如，用于执行本文所述的各种过程的部分或全部)，以供指令执行系统、装置或设备诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备提取指令并且可执行该指令的其他系统使用或与其结合使用。在其他示例中，指令(例如，用于执行本文所描述的各种过程的部分或全部)可被存储在服务器系统108的非暂态计算机可读存储介质上，或者可在存储器250的非暂态计算机可读存储介质与服务器系统108的非暂态计算机可读存储介质之间被划分。在本文的上下文中，“非暂态计算机可读存储介质”可以是可包含或存储程序以供指令执行系统、装置和设备使用或与其结合的任何介质。

在一些示例中，存储器250可存储操作系统252、通信模块254、图形用户界面(GUI)模块256、设备内置媒体模块258、设备外置媒体模块260、和应用程序模块262。操作系统252可包括用于处理基础系统服务并且用于执行硬件相关任务的指令。通信模块254可促进与一个或多个附加设备、一个或多个计算机和/或一个或多个服务器的通信。图形用户界面模块256可促进图形用户界面处理。设备内置媒体模块258可促进在媒体设备104上本地存储的媒体内容的存储和回放。设备外置媒体模块260可促进从外部源(例如，在远程服务器上、在用户设备122上等)获取的媒体内容的流式回放或下载。此外，设备外置媒体模块260可促进接收广播和有线内容(例如，频道调谐)。应用程序模块262可促进媒体相关应用程序的各种功能，诸如网页浏览、媒体处理、游戏和/或其他过程和功能。

如本文所述，存储器250还可存储客户端侧数字助理指令(例如，在数字助理客户端模块264中)和各种用户数据266(例如，特定于用户的词汇数据、偏好数据，和/或其他数据诸如用户的媒体搜索历史、媒体观看列表、最近观看的列表、喜爱的媒体项等)，从而例如提供数字助理的客户端侧功能。用户数据266还可用于执行语音识别来支持数字助理或用于任何其他应用程序。

在各种示例中，数字助理客户端模块264可能够通过媒体设备104的各种用户界面(例如，I/O子系统240等)来接受声音输入(例如，语音输入)、文本输入、触摸输入和/或手势输入。数字助理客户端模块264还能够提供音频(例如，语音输出)、视觉和/或触觉形式的输出。例如，可将输出作提供为语音、声音、警报、文本消息、菜单、图形、视频、动画、振动、和/或以上两者或更多者的组合。在操作期间，数字助理客户端模块264可使用通信子系统224来与数字助理服务器(例如，DA服务器106)进行通信。

在一些示例中，数字助理客户端模块264可利用各种子系统和外围设备来从媒体设备104的周围环境收集与媒体设备104相关的附加信息，以建立与用户、当前用户交互和/或当前用户输入相关联的上下文。此类上下文还可包括来自其他设备的信息，诸如来自用户设备122的信息。在一些示例中，数字助理客户端模块264可将上下文信息或其子组与用户输入一起提供至数字助理服务器，以帮助推断用户的意图。数字助理还可使用上下文信息来确定如何准备输出并将该输出递送至用户。上下文信息还可由媒体设备104或服务器系统108用于支持准确的语音识别。

在一些示例中，伴随用户输入的上下文信息可包括传感器信息，诸如照明、环境噪声、环境温度、至另一个对象的距离等。上下文信息还可包括与媒体设备104的物理状态(例如，设备位置、设备温度、功率电平等)或媒体设备104的软件状态(例如，运行过程、已安装应用程序、过去和当前的网络活动、后台服务、错误日志、资源使用等)相关联的信息。上下文信息还可包括从用户接收的信息(例如，语音输入)、用户请求的信息、和呈现给用户的信息(例如，当前或先前由媒体设备显示的信息)。上下文信息还可包括与所连接的设备或与用户相关联的其他设备的状态相关联的信息(例如，在用户设备122上显示的内容、用户设备122上的可播放内容等)。这些类型的上下文信息中的任何一种上下文信息可作为与用户输入相关的上下文信息而被提供至DA服务器106(或用于媒体设备104本身)。

在一些示例中，数字助理客户端模块264可响应于来自DA服务器106的请求而选择性地提供被存储在媒体设备104上的信息(例如，用户数据266)。除此之外或作为另外一种选择，该信息可在媒体设备104本身上用于执行语音识别和/或数字助理功能。数字助理客户端模块264还可在由DA服务器106进行请求时经由自然语言对话或其他用户界面引出来自用户的附加输入。数字助理客户端模块264可将附加输入传送至DA服务器106，以帮助DA服务器106进行意图推断和/或满足在用户请求中表达的用户意图。

在各种示例中，存储器250可包括附加指令或更少的指令。此外，可在硬件和/或固件中(包括在一个或多个信号处理电路和/或专用集成电路中)实现媒体设备104的各种功能。

3.用户设备

图3示出了根据各种示例的示例性用户设备122的框图。如图所示，用户设备122可包括存储器接口302、一个或多个处理器304、以及外围设备接口306。用户设备122中的各种部件可通过一条或多条通信总线或信号线而被耦接在一起。用户设备122还可包括耦接至外围设备接口306的各种传感器、子系统、以及外围设备。传感器、子系统以及外围设备可采集信息和/促进用户设备122的各种功能。

例如，用户设备122可包括运动传感器310、光传感器312以及接近传感器314，这些传感器耦接至外围设备接口306，以促进取向、照明和接近感测功能。一个或多个其他传感器316(诸如定位系统(例如，GPS接收器)、温度传感器、生物识别传感器、陀螺仪、罗盘、加速度计等)也可连接至外围设备接口306以促进相关功能。

在一些示例中，相机子系统320和光学传感器322可用于促进相机功能，诸如拍摄照片和记录视频剪辑。可通过一个或多个有线和/或无线通信子系统324来促进通信功能，该无线通信子系统可包括各种通信端口、射频接收器和发射器、和/或光学(例如，红外)接收器和发射器。可将音频子系统326耦接至扬声器328和麦克风330，以促进支持语音的功能，诸如语音识别、语音复制、数字记录和电话功能。

在一些示例中，用户设备122还可包括耦接至外围设备接口306的I/O子系统340。I/O子系统340可包括触摸屏控制器342和/或一个或多个其他输入控制器344。触摸屏控制器342可耦接至触摸屏346。触摸屏346和触摸屏控制器342例如可使用多种触摸灵敏度技术(诸如电容技术、电阻技术、红外技术、表面声波技术、接近传感器阵列等)中的任一种触摸灵敏度技术来检测接触和移动或其中断。可将一个或多个其他输入控制器344耦接至其他输入/控制设备348，诸如一个或多个按钮、摇臂开关、拇指滚轮、红外端口、USB端口和/或指针设备(诸如触笔)。

在一些示例中，用户设备122还可包括耦接至存储器350的存储器接口302。存储器350可包括任何电子、磁性、光学、电磁、红外或半导体系统、装置或设备；便携式计算机磁盘(磁性)；随机存取存储器(RAM)(磁性)；只读存储器(ROM)(磁性)；可擦除可编程只读存储器(EPROM)(磁性)；便携式光盘诸如CD、CD-R、CD-RW、DVD、DVD-R或DVD-RW；或闪存存储器，诸如紧凑型闪存卡、安全数字卡、USB存储器设备、记忆棒等。在一些示例中，存储器350的非暂态计算机可读存储介质可用于存储指令(例如，用于执行本文所述的各种过程的部分或全部)，以供指令执行系统、装置或设备诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备提取指令并且可执行该指令的其他系统使用或与其结合使用。在其他示例中，指令(例如，用于执行本文所描述的各种过程的部分或全部)可被存储在服务器系统108的非暂态计算机可读存储介质上，或者可在存储器350的非暂态计算机可读存储介质与服务器系统108的非暂态计算机可读存储介质之间被划分。在本文的上下文中，“非暂态计算机可读存储介质”可以是可包含或存储程序以供指令执行系统、装置和设备使用或与其结合的任何介质。

在一些示例中，存储器350可存储操作系统352、通信模块354、图形用户界面(GUI)模块356、传感器处理模块358、电话模块360和应用程序模块362。操作系统352可包括用于处理基础系统服务并且用于执行硬件相关任务的指令。通信模块354可促进与一个或多个附加设备、一个或多个计算机和/或一个或多个服务器的通信。图形用户界面模块356可促进图形用户界面处理。传感器处理模块358可促进与传感器相关的处理和功能。电话模块360可促进与电话相关的过程和功能。应用程序模块362可促进用户应用程序的各种功能，诸如电子消息传送、网页浏览、媒体处理、导航、成像和/或其他过程和功能。

如本文所述，存储器350还可存储客户端侧数字助理指令(例如，存储在数字助理客户端模块364中)以及各种用户数据366(例如，特定于用户的词汇数据、偏好数据，和/或其他数据诸如用户的电子通讯录、待办事项列表、购物清单、电视节目收藏等)，从而例如提供数字助理的客户端侧功能。用户数据366还可用于执行语音识别来支持数字助理或用于任何其他应用程序。数字助理客户端模块364和用户数据366可分别与数字助理客户端模块264和用户数据266类似或相同，如上面参考图2所述。

在各种示例中，存储器350可包括附加指令或更少的指令。此外，可在硬件和/或固件中(包括在一个或多个信号处理和/或专用集成电路中)执行用户设备122的各种功能。

在一些示例中，用户设备122可被配置为控制媒体设备104的各个方面。例如，用户设备122可用作遥控器(例如，遥控器124)。经由用户设备122接收的用户输入可(例如，使用通信子系统)被传输到媒体设备104，以使得媒体设备104执行对应的动作。此外，用户设备122可被配置为从媒体设备104接收指令。例如，媒体设备104可将任务移交给用户设备122，以执行并使得对象(例如，可选择示能表示)被显示在用户设备122上。

应当理解，系统100和媒体系统128不限于图1和图2所示的部件和配置，并且用户设备122、媒体设备104和遥控器124同样不限于图2和图3中所示的部件和配置。在根据各种示例的多种配置中，系统100、媒体系统128、用户设备122、媒体设备104和遥控器124可全部包括更少的部件，或包括其他部件。

4.数字助理系统

图4A示出根据各种示例的数字助理系统400的框图。在一些示例中，数字助理系统400可在独立式计算机系统上实现。在一些示例中，数字助理系统400可跨多个计算机分布。在一些示例中，数字助理的一些模块和功能可被划分成服务器部分和客户端部分，其中客户端部驻留在一个或多个用户设备(例如，设备104或设备122)上并通过一个或多个网络与服务器部分(例如，服务器系统108)进行通信，例如如图1中所示。在一些示例中，数字助理系统400可以是图1中所示的服务器系统108(和/或DA服务器106)的具体实施。应当指出，数字助理系统400仅为数字助理系统的一个示例，并且该数字助理系统400可具有比所示更多或更少的部件、可组合两个或更多个部件，或者可具有部件的不同配置或布局。图4A中所示的各种部件可在硬件、用于由一个或多个处理器执行的软件指令、固件(包括一个或多个信号处理集成电路和/或专用集成电路)或者它们的组合中实现。

数字助理系统400可包括存储器402、一个或多个处理器404、I/O接口406、以及网络通信接口408。这些部件可通过一条或多条通信总线或者信号线410而彼此通信。

在一些示例中，存储器402可包括非暂态计算机可读介质，诸如高速随机存取存储器和/或非易失性计算机可读存储介质(例如，一个或多个磁盘存储设备、闪存存储器设备或其他非易失性固态存储器设备)。

在一些示例中，I/O接口406可将数字助理系统400的I/O设备416诸如显示器、键盘、触摸屏和麦克风耦接至用户界面模块422。与用户界面模块422结合的I/O接口406可接收用户输入(例如，声音输入、键盘输入、触摸输入等)并相应地对这些输入进行处理。在一些示例中，例如当数字助理在独立式用户设备上实现时，数字助理系统400可包括相对于图2或图3中各自的设备104或设备122所描述的部件和I/O通信接口中的任一者。在一些示例中，数字助理系统400可代表数字助理具体实施的服务器部分，并且可通过驻留在客户端设备(例如，设备104或设备122)上的客户端侧部分与用户进行交互。

在一些示例中，网络通信接口408可包括一个或多个有线通信端口412、和/或无线传输和接收电路414。一个或多个有线通信端口可经由一个或多个有线接口例如以太网、通用串行总线(USB)、火线等来接收和发送通信信号。无线电路414可从通信网络及其他通信设备接收RF信号和/或光学信号，并且将该RF信号和/或光学信号发送至通信网络和其他通信设备。无线通信可使用多种通信标准、协议和技术中的任一者，诸如GSM、EDGE、CDMA、TDMA、蓝牙、Wi-Fi、VoIP、Wi-MAX、或任何其他合适的通信协议。网络通信接口408可使数字助理系统400通过网络诸如互联网、内联网以及/或者无线网络诸如蜂窝电话网络、无线局域网(LAN)和/或城域网(MAN)来与其他设备之间的通信成为可能。

在一些示例中，存储器402或存储器402的计算机可读存储介质可存储程序、模块、指令和数据结构，其包括以下内容中的全部或其子组：操作系统418、通信模块420、用户界面模块422、一个或多个应用程序424和数字助理模块426。具体地，存储器402或存储器402的计算机可读存储介质可存储用于执行下文描述的过程800的指令。一个或多个处理器404可执行这些程序、模块和指令，并且可从数据结构读取数据或将数据写到数据结构。

操作系统418(例如，Darwin、RTXC、LINUX、UNIX、iOS、OS X、WINDOWS或者嵌入式操作系统诸如VxWorks)可包括用于控制和管理一般系统任务(例如，存储器管理、存储设备控制、功率管理等)的各种软件组件和/或驱动器，并且促进各种硬件、固件与软件组件之间的通信。

通信模块420可促进数字助理系统400与其他设备之间通过网络通信接口408进行的通信。例如，通信模块420可与电子设备(例如，104,122)的通信子系统(例如，224,324)进行通信。通信模块420还可包括用于处理由无线电路414和/或有线通信端口412所接收的数据的各种部件。

用户界面模块422可经由I/O接口406来从用户(例如，来自键盘、触摸屏、指向设备、控制器和/或麦克风)接收命令和/或输入，并在显示器上生成用户界面对象。用户界面模块422还可准备输出(例如，语音、声音、动画、文本、图标、振动、触觉反馈、光照等)，并经由I/O接口406(例如，通过显示器、音频通道、扬声器和触摸板等)将其递送至用户。

应用程序424可包括被配置为由一个或多个处理器404执行的程序和/或模块。例如，如果数字助理系统400在独立式用户设备上实现，则应用程序424可包括用户应用程序，诸如游戏、日历应用程序、导航应用程序、或电子邮件应用程序。如果数字助理系统400在服务器上实现，则应用程序424可包括例如资源管理应用程序、诊断应用程序、或调度应用程序。

存储器402还可存储数字助理模块426(或数字助理的服务器部分)。在一些示例中，数字助理模块426可包括以下子模块，或包括它们的子集或超集：I/O处理模块428、语音转文本(STT)处理模块430、自然语言处理模块432、对话流处理模块434、任务流处理模块436、服务处理模块438、以及语音合成模块440。这些模块中的每个模块可具有对以下数字助理模块426的系统或数据与模型中的一者或多者或者其子集或超集的访问权限：知识本体460、词汇索引444、用户数据448、任务流模型454、服务模型456、和自动语音识别(ASR)系统431。

在一些示例中，使用在数字助理模块426中实现的处理模块、数据和模型，该数字助理可执行以下操作中的至少一些操作：将语音输入转换成文本；识别从用户接收的在自然语言输入中表达的用户意图；主动引出并获取充分推断用户意图所需的信息(例如，通过对字词、游戏、意向等消歧)；确定用于满足推断出的意图的任务流；以及执行任务流以满足推断出的意图。

在一些示例中，如图4B中所示，I/O处理模块428可通过图4A中的I/O设备416与用户进行交互或通过图4A中的网络通信接口408与电子设备(例如，设备104或设备122)进行交互，以获取用户输入(例如，语音输入)并提供对用户输入的响应(例如，作为语音输出)。I/O处理模块428在接收到用户输入时或在接收到用户输入之后不久可以可选地获取与来自电子设备的用户输入相关联的上下文信息。该上下文信息可包括特定于用户的数据、词汇和/或与用户输入相关的偏好。在一些示例中，该上下文信息还包括在接收到用户请求时的电子设备的软件和硬件状态，和/或与在接收到用户请求时的用户的周围环境相关的信息。在一些示例中，I/O处理模块428还可向用户发送与用户请求有关的跟进问题，并从用户接收回答。在用户请求被I/O处理模块428接收并且用户请求可包括语音输入时，I/O处理模块428可将语音输入转发至STT处理模块430(或语音识别器)，以进行语音文本转换。

STT处理模块430可包括一个或多个ASR系统(例如，ASR系统431)。一个或多个ASR系统可处理通过I/O处理模块428所接收的语音输入，以产生识别结果。每个ASR系统可包括前端语音预处理器。前端语音预处理器可从语音输入中提取代表性特征。例如，前端语音预处理器可对语音输入执行傅里叶变换，以提取表征语音输入的光谱特征作为代表性多维向量的序列。此外，每个ASR系统可包括一个或多个语音识别模型(例如，声音模型和/或语言模型)，并且可实现一个或多个语音识别引擎。语音识别模型的示例可包括隐马尔可夫模型、高斯混合模型、深层神经网络模型、n元语言模型以及其他统计模型。语音识别引擎的示例可包括基于动态时间规整的引擎和基于加权有限状态变换器(WFST)的引擎。一个或多个语音识别模型和一个或多个语音识别引擎可用于处理前端语音预处理器的所提取的代表性特征，以产生中间识别结果(例如，音素、音素串和子字词)，并且最终产生文本识别结果(例如，字词、字词串或符号的序列)。在一些示例中，语音输入可至少部分地由第三方服务处理或在电子设备(例如，设备104设备122)上处理以产生识别结果。一旦STT处理模块430产生包含文本串(例如，字词、字词的序列或符号的序列)的识别结果，该识别结果便可被传送至自然语言处理模块432以供意图推断。

在一些示例中，一个或多个ASR系统的一个或多个语言模型可被配置为偏向于媒体相关结果。在一个示例中，可使用媒体相关的文本的语料库来训练一个或多个语言模型。在另一个示例中，ASR系统可被配置为有利于媒体相关的识别结果。在一些示例中，一个或多个ASR系统可包括静态语言模型和动态语言模型。静态语言模型可使用文本的一般语料库来训练，而动态语言模型可使用特定于用户的文本来训练。例如，可使用与从用户所接收的先前语音输入的文本来生成动态语言模型。在一些示例中，一个或多个ASR系统可被配置为基于静态语言模型和/或动态语言模型来生成识别结果。此外，在一些示例中，一个或多个ASR系统可被配置为有利于与最近接收的先前语音输入对应的识别结果。

有关语音转文本处理的更多细节在于2011年9月20日提交的名为“ConsolidatingSpeech Recognition Results”的美国实用新型专利申请序列号13/236,942中有所描述，其全部公开内容以引用方式并入本文。

在一些示例中，STT处理模块430可包括可识别字词的词汇和/或可经由语音字母转换模块431来访问词汇。每个词汇字词可与以语音识别语音字母表示的字词的一个或多个候选发音相关联。具体地，可识别字词的词汇可包括与多个候选发音相关联的字词。例如，该词汇可包括与和的候选发音相关联的字词“tomato”。此外，词汇字词可与基于来自用户的先前语音输入的自定义候选发音相关联。此类自定义候选发音可被存储在STT处理模块430中并且可经由设备上的用户配置文件而与特定用户相关联。在一些示例中，可基于字词的拼写以及一个或多个语言学和/或语音学规则来确定字词的候选发音。在一些示例中，候选发音可手动生成，例如，基于已知的标准发音而手动生成。

在一些示例中，可基于候选发音的普遍性来对候选发音进行排名。例如，候选发音可比排名更高，因为(例如，在所有用户中，对于特定地理区域的用户而言，或者对于任何其他合适的用户子组而言)前者是更常用的发音。在一些示例中，可基于候选发音是否为与用户相关联的自定义候选发音来对候选发音进行排名。例如，自定义候选发音的排名可高于标准候选发音。这可用于识别具有偏离标准发音的独特发音的专有名词。在一些示例中，候选发音可与一个或多个语音特征相关联，诸如地理起源、国家或种族。例如，候选发音可与美国相关联，而候选发音可与英国相关联。此外，候选发音的排名可基于被存储在设备上的用户配置文件中的用户的一个或多个特征(例如，地理起源、国家、种族等)。例如，可从用户配置文件确定该用户与美国相关联。基于该用户与美国相关联，候选发音(与美国相关联)可比候选发音(与英国相关联)排名高。在一些示例中，经排名的候选发音中的一个候选发音可被选作预测发音(例如，最可能的发音)。

在接收到语音输入时，STT处理模块430可用于(例如，使用声音模型)确定与该语音输入对应的音素，并且然后可尝试(例如，使用语言模型)确定与该音素匹配的字词。例如，如果STT处理模块430可首先识别与该语音输入的一部分对应的音素序列则其随后可基于词汇索引444来确定该序列对应于字词“tomato”。

在一些示例中，STT处理模块430可使用模糊匹配技术来确定话语中的字词。因此，例如，STT处理模块430可确定音素序列对应于字词“tomato”，即使该特定音素序列不是该字词的候选音素序列。

数字助理的自然语言处理模块432(“自然语言处理器”)可采用由STT处理模块430生成的字词或符号的序列(“符号序列”)，并尝试使该符号序列与由数字助理所识别的一个或多个“可执行意图”相关联。“可执行意图”可表示可由数字助理执行并且可具有在任务流模型454中实现的相关联的任务流的任务。相关联的任务流可以是数字助理为了执行任务而采取的一系列经编程的动作和步骤。数字助理的能力范围可取决于已在任务流模型454中实现并存储的任务流的数量和种类，或换言之，取决于数字助理所识别的“可执行意图”的数量和种类。然而，数字助理的有效性还可取决于助理从以自然语言表达的用户请求中推断出正确的“一个或多个可执行意图”的能力。

在一些示例中，除从STT处理模块430获取的字词或符号的序列之外，自然语言处理器432还可(例如，从I/O处理模块428)接收与用户请求相关联的上下文信息。自然语言处理模块432可以可选地使用上下文信息来明确、补充和/或进一步限定被包含在从STT处理模块430接收的符号序列中的信息。上下文信息可包括例如：用户偏好；用户设备的硬件和/或软件状态；在用户请求之前、期间或之后不久收集的传感器信息；数字助理与用户之间的先前交互(例如，对话)等。如本文所述，上下文信息可以是动态的，并且可随对话的时间、位置、内容以及其他因素而变化。

在一些示例中，自然语言处理可基于例如知识本体460。知识本体460可以是包含许多节点的分级结构，每个节点表示“可执行意图”或者与“可执行意图”或其他“属性”中的一者或多者相关的“属性”。如上所述，“可执行意图”可表示数字助理能够执行的任务，即该任务为“可执行的”或可被进行的。“属性”可表示与可执行意图或另一属性的子方面相关联的参数。知识本体460中的可执行意图节点与属性节点之间的连接可定义由属性节点表示的参数如何与由可执行意图节点表示的任务相关。

在一些示例中，知识本体460可由可执行意图节点和属性节点组成。在知识本体460内，每个可执行意图节点可直接连接至或通过一个或多个中间属性节点连接至一个或多个属性节点。类似地，每个属性节点可直接连接至或通过一个或多个中间属性节点连接至一个或多个可执行意图节点。例如，如图4C所示，知识本体460可包括“媒体”节点(即，可执行意图节点)。属性节点“一个或多个演员”、“媒体分类”和“媒体标题”可各自直接连接到可执行意图节点(即，“媒体搜索”节点)。另外，属性节点“名称”、“年龄”、“Ulmer scale排名”和“国籍”可以是属性节点“演员”的子节点。

在另一个示例中，如图4C所示，知识本体460还可包括“天气”节点(即，另一可执行意图节点)。属性节点“日期/时间”和“位置”可各自连接到“天气搜索”节点。应当认识到，在一些示例中，一个或多个属性节点可与两个或更多个可执行意图相关。在这些示例中，该一个或多个属性节点可连接到与知识本体460中的两个或更多个可执行意图对应的相应节点。

可执行意图节点连同其连接的概念节点一起可被描述为“域”。在本讨论中，每个域可与相应可执行意图相关联，并且可涉及与特定可执行意图相关联的一组节点(以及彼此间的关系)。例如，图4C中所示的知识本体460可包括知识本体460内的媒体域462的示例和天气域464的示例。媒体域462可包括可执行意图节点“媒体搜索”和属性节点“一个或多个演员”、“媒体分类”和“媒体标题”。天气域464可包括可执行意图节点“天气搜索”，以及属性节点“位置”和“日期/时间”。在一些示例中，知识本体460可由多个域组成。每个域可与一个或多个其他域共享一个或多个属性节点。

虽然图4C示出了知识本体460内的两个示例性域，但其他域可包括例如“运动员”、“股市”、“方向”、“媒体设置”、“运动队”、“时间”、以及“讲笑话”等。域“运动员”可与可执行意图节点“搜索运动员信息”相关联，并且可还包括属性节点诸如“运动员名称”、“运动员所属队”和“运动员统计信息”。

在一些示例中，知识本体460可包括数字助理能够理解并对其起作用的所有域(以及因此可执行的意图)。在一些示例中，知识本体460可诸如通过添加或移除整个域或节点或者通过修改知识本体460内的节点之间的关系而被修改。

在一些示例中，知识本体460中的每个节点可与和由节点表示的属性或可执行意图有关的一组字词和/或短语相关联。与每个节点相关联的相应组的字词和/或短语可以是与节点相关联的所谓的“词汇”。与每个节点相关联的相应组的字词和/或短语可被存储在词汇索引444中，该词汇索引与由节点表示的属性或可执行意图相关联。例如，返回图4C，与“演员”的属性的节点相关联的词汇可包括字词诸如“A列表”、“Reese Witherspoon”、“Arnold Schwarzenegger”、“Brad Pitt”等。在另一个示例中，与“天气搜索”的可执行意图的节点相关联的词汇可包括字词和短语诸如“天气”、“天气如何”、“预报”等。词汇索引444可以可选地包括不同语言的字词和短语。

自然语言处理模块432可从STT处理模块430接收符号序列(例如，文本串)，并确定符号序列中的字词牵涉哪些节点。在一些示例中，如果发现符号序列中的字词或短语(经由词汇索引444)与知识本体460中的一个或多个节点相关联，则该字词或短语可“触发”或“激活”这些节点。基于已激活节点的数量和/或相对重要性，自然语言处理模块432可选择可执行意图中的一个可执行意图作为用户意图使数字助理执行的任务。在一些示例中，可选择具有最多“已触发”节点的域。在一些示例中，可(例如，基于其各个已触发节点的相对重要性)选择具有最高置信度的域。在一些示例中，可基于已触发节点的数量和重要性的组合来选择域。在一些示例中，在选择节点的过程中还要考虑附加因素，诸如数字助理先前是否已正确解译来自用户的类似请求。

用户数据448可包括用户特定的信息，诸如用户特定的词汇、用户偏好、用户地址、用户的默认语言和第二语言、用户的联系人列表、以及每位用户的其他短期或长期信息。在一些示例中，自然语言处理模块432可使用用户特定的信息来补充被包含在用户输入中的信息，以进一步限定用户意图。例如，对于用户请求“本周天气如何”，自然语言处理模块432可访问用户数据448来确定用户位于何处，而不是要求用户在其请求中明确地提供此类信息。

基于符号串搜索知识本体的其他细节在于2008年12月22日提交的名为“Methodand Apparatus for Searching Using An Active Ontology”的美国实用新型专利申请序列号12/341,743中有所描述，其全部公开内容以引用方式并入本文。

在一些示例中，一旦自然语言处理模块432基于用户请求识别出可执行意图(或域)，自然语言处理模块432便可生成结构化查询来表示所识别的可执行意图。在一些示例中，结构化查询可包括域内针对可执行意图的一个或多个节点的参数，并且该参数中的至少一些参数填充有在用户请求中指定的特定信息和要求。例如，用户可以说“为我查找这个电视连续剧的其他几个季。”。在这种情况下，自然语言处理模块432可基于用户输入来将可执行意图正确地识别为“媒体搜索”。根据知识本体，用于“媒体”域的结构化查询可包括参数，诸如{媒体演员}、{媒体分类}、{媒体标题}等。在一些示例中，基于语音输入和使用STT处理模块430从语音输入得出的文本，自然语言处理模块432可针对餐厅预订域来生成部分结构化查询，其中该部分结构化查询包括参数{媒体分类＝“电视连续剧”}。然而，在该示例中，用户话语包含不足以完成与域相关联的结构化查询的信息。因此，基于当前可用信息，在结构化查询中可能未指定其他必要参数，诸如{媒体标题}。在一些示例中，自然语言处理模块432可使用所接收的上下文信息来填充结构化查询的一些参数。例如，当前在媒体设备上正在播放电视连续剧“Mad Men”。基于该上下文信息，自然语言处理模块432可使用“MadMen”来填充结构化查询中的{媒体标题}参数。

在一些示例中，自然语言处理模块432可将结构化查询(包括任何已完成的参数)传送至任务流处理模块436(“任务流处理器”)。任务流处理模块436可被配置为从自然语言处理模块432接收结构化查询，并且在必要时完成结构化查询，并且执行“完成”用户最终请求所需的动作。在一些示例中，可在任务流模型454中提供完成这些任务所必需的各种过程。在一些示例中，任务流模型454可包括用于获取来自用户的附加信息的过程，以及用于执行与可执行意图相关联的动作的任务流。

如上所述，为了完成结构化查询，任务流处理模块436可能需要发起与用户的附加对话，以便获取附加信息和/或对可能有歧义的话语进行消歧。当有必要进行此类交互时，任务流处理模块436可调用对话流处理模块434来参与和用户的对话。在一些示例中，对话流处理模块434可确定如何(和/或何时)向用户请求附加信息，并且可接收和处理用户响应。通过I/O处理模块428可将问题提供至用户并可从用户接收回答。在一些示例中，对话流处理模块434可经由音频和/或视频输出来向用户呈现对话输出，并且可接收经由口头或物理(例如，点击)响应的来自用户的输入。例如，用户可问“Paris的天气如何？”当任务流处理模块436调用对话流处理模块434来确定与域“天气搜索”相关联的结构化查询的“位置”信息时，对话流处理模块434可生成诸如“哪个Paris？”等问题传送给用户。此外，对话流处理模块434可使得与“得克萨斯州的Paris”和“法国的Paris”相关联的示能表示将被呈现，以供用户选择。一旦接收到来自用户的响应，对话流处理模块434便可利用缺失信息来填充结构化查询，或将信息传送给任务流处理模块436以来自完成结构化查询的缺失信息。

一旦任务流处理模块436已针对可执行意图完成结构化查询，任务流处理模块436便可开始执行与可执行意图相关联的最终任务。因此，任务流处理模块436可根据结构化查询中包含的特定参数来执行任务流模型454中的步骤和指令。例如，“媒体搜索”的可执行意图的任务流模型可包括用于执行媒体搜索查询以获取相关媒体项的步骤和指令。例如，通过使用结构化查询诸如：{媒体搜索，媒体分类＝电视连续剧，媒体标题＝Mad Men}，任务流处理模块436可执行以下步骤：(1)使用媒体数据库来执行媒体搜索查询以获取相关媒体项；(2)根据相关性和/或流行度来对所获取的媒体项进行排名，以及(3)根据相关性和/或流行度来显示经分类的媒体项。

在一些示例中，任务流处理模块436可在服务处理模块438(“服务处理模块”)的帮助下完成在用户输入中所请求的任务或提供在用户输入中所请求的信息性回答。例如，服务处理模块438可代表任务流处理模块436来执行媒体搜索、检索天气信息、调用被安装在其他用户设备上的应用程序或与其进行交互，并且调用第三方服务(例如，社交网站、媒体评论网站、媒体订阅服务等)或与所述第三方服务进行交互。在一些示例中，可通过服务模型456中的相应服务模型来指定每项服务所需的协议和API。服务处理模块438可针对服务来访问适当的服务模型，并依服务模型根据该服务所需的协议和API来生成针对该服务的请求。

例如，第三方媒体搜索服务可提交用于指定用于执行媒体搜索的必要参数的服务模型，以及用于将必要参数的值传送到媒体搜索服务的API。当任务流处理模块436发出请求时，服务处理模块438可建立与媒体搜索服务的网络连接，并且以根据媒体搜索服务的API的格式来向在线预订界面发送媒体搜索的必要参数(例如，媒体演员、媒体类型、媒体标题)。

在一些示例中，自然语言处理模块432、对话流处理模块434以及任务流处理模块436可被共同并且反复地使用，以推断并限定用户的意图、获取信息以进一步明确并细化用户意图，并且最终生成响应(即，输出至用户或完成任务)以满足用户的意图。所生成的响应可以是至少部分地满足用户的意图的对语音输入的对话响应。此外，在一些示例中，所生成的响应可被输出为语音输出。在这些示例中，所生成的响应可被发送至语音合成模块440(例如，语音合成器)，其中该响应可被处理，以将该对话响应合成为语音形式。在其他示例中，所生成的响应可以是与满足语音输入中的用户请求相关的数据内容。

语音合成模块440可被配置为合成语音输出，以供呈现给用户。语音合成模块440基于数字助理提供的文本来合成语音输出。例如，所生成的对话响应可为文本串的形式。语音合成模块440可将文本串转换成可听语音输出。语音合成模块440可使用任何适当的语音合成技术，以便从文本生成语音输出，该任何适当的语音合成技术包括但不限于：拼接合成、单位选择合成、双音子合成、域特定合成、格式合成、发音合成、基于隐马尔可夫模型(HMM)的合成、以及正弦波合成。在一些示例中，语音合成模块440可被配置为基于与字词对应的音素串来合成各个字词。例如，音素串可与所生成的对话响应中的字词相关联。音素串可被存储在与字词相关联的元数据中。语音合成模块440可被配置为直接处理元数据中的音素串，以合成语音形式的字词。

在一些示例中，替代使用语音合成模块440(或除此之外)，语音合成可在远程设备(例如，服务器系统108)上执行，并且合成的语音可发送至用户设备，以供输出给用户。例如，这可发生在一些具体实施中，其中在服务器系统处生成数字助理的输出。并且由于服务器系统通常比用户设备具有更强的处理能力或更多的资源，其有可能获取比客户端侧合成将实现的质量更高的语音输出。

有关数字助理的更多细节可见于2011年1月10日提交的名称为“IntelligentAutomated Assistant”的美国实用新型专利申请号12/987,982，以及2011年9月30日提交的名称为“Generating and Processing Task Items That Represent Tasks toPerform”的美国实用新型专利申请号13/251,088中，这两个专利申请的全部公开内容以引用方式并入本文。

4.用于在媒体环境中与数字助理进行交互的过程

图5A至图5I示出了根据各种示例的用于操作媒体系统的数字助理的过程500。可使用实现数字助理的一个或多个电子设备来执行过程500。例如，可使用上述系统100、媒体系统128、媒体设备104、用户设备122或数字助理系统400中的一者或多者来执行过程500。图6A至图6Q示出了根据各种示例的在过程500的各个阶段由媒体设备在显示单元上显示的屏幕截图。下面同时参考图5A至图5I和图6A至图6Q来对过程500进行描述。应当理解，过程500中的一些操作可组合，一些操作的顺序可改变，而一些操作可省略。

在过程500的框502处，可在显示单元(例如，显示单元126)上显示内容。在图6A所示的本示例中，所显示的内容可包括在媒体设备(例如，媒体设备104)上播放的媒体内容602(例如，电影、视频、电视节目、视频游戏等)。在其他示例中，所显示的内容可包括与媒体设备相关联的其他内容，诸如与媒体设备上运行的应用程序相关联的内容，或用于与媒体设备的数字助理进行交互的用户界面。具体地，所显示的内容可包括主菜单用户界面或包含用户先前请求的对象或结果的用户界面(例如，第二用户界面618或第三用户界面626)。

在过程500的框504处，可检测用户输入。可在显示框502的内容时检测用户输入。在一些示例中，可在媒体设备的遥控器(例如，遥控器124)上检测用户输入。具体地，用户输入可以是用户与遥控器的交互，诸如按压按钮(例如，按钮274)或接触遥控器的触敏表面(例如，触敏表面278)。在一些示例中，可经由被配置为与媒体设备进行交互的第二电子设备(例如，设备122)来检测用户输入。响应于检测到用户输入，可执行框506至框592中的一个或多个框。

在过程500的框506处，可确定用户输入是否对应于第一输入类型。第一输入类型可以是至媒体设备的预定义的输入。在一个示例中，第一输入类型可包括按压遥控器的特定按钮，并在按压该按钮的预先确定的持续时间内释放该按钮(例如，短按)。媒体设备可确定用户输入是否与第一输入类型相匹配。根据确定用户输入对应于第一输入类型，可执行框508至框514中的一个或多个框。

在过程500的框508处，并且参考图6B，可显示用于调用数字助理并与其进行交互的文本指令604。具体地，指令604可描述调用数字助理并与其交互所需的用户输入。例如，指令604可解释如何执行下面在框516处描述的第二输入类型。

在过程500的框510处，如图6B中所示，被动视觉指示符606可被显示在显示单元上。被动视觉指示符606可指示数字助理尚未被调用。具体地，媒体设备的麦克风(例如，麦克风272)可响应于检测到用户输入而不被激活。因此，被动视觉指示符606可用作数字助理并未正在处理音频输入的视觉信号。在本示例中，视觉指示符606可以是不响应于用户的语音的被动平坦波形。此外，被动视觉指示符606可包括中性色(例如，黑色、灰色等)，以指示其被动状态。应当认识到，对于被动视觉指示符可预期其他视觉图案或图像。被动视觉指示符606可与指令604同时被显示。此外，可在执行框512至框514中的一个或多个框时连续显示被动视觉指示符606。

在过程500的框512处，并且参考图6C，用于执行键入搜索的指令608可被显示在显示单元上。具体地，指令608可描述显示可用于执行键入搜索的虚拟键盘界面所需的用户输入。在一些示例中，用于调用数字助理并与其进行交互的指令604和用于执行键入搜索的指令608可按顺序在不同的时间被显示。例如，对指令608的显示可替换对指令604的显示，或反之亦然。在本示例中，指令604,608是文本形式。应当认识到，在其他示例中，指令604,608可以是图形形式(例如，图片、符号、动画等)。

在过程500的框514处，可在显示单元上显示一个或多个示例性自然语言请求。例如，图6D至图6E示出了显示在显示单元上的两种不同的示例性自然语言请求610,612。在一些示例中，示例性自然语言请求可经由显示单元上的第一用户界面而被显示。第一用户界面可被覆盖在所显示的内容上。示例性自然语言请求可向用户提供与数字助理进行交互的指导。此外，示例性自然语言请求可告知用户数字助理的各种能力。响应于接收到与示例性自然语言请求中的一个示例性自然语言请求对应的用户话语，数字助理可使得执行相应动作。例如，响应于媒体设备的数字助理被调用(例如，通过框504处的第二输入类型的用户输入)并且(例如，在框518处)提供有“向前跳30秒”的用户话语，数字助理可使得在媒体设备上播放的媒体内容向前跳30秒。

所显示的示例性自然语言请求可与正在显示的内容(例如，媒体内容602)上下文相关。例如，一组示例性自然语言请求可被存储在媒体设备上或独立的服务器上。该组示例性自然语言请求中的每个示例性自然语言请求可与一个或多个上下文属性(例如，正在播放的媒体内容、主页、iTunes媒体商店、演员、电影、天气、体育、股市等)相关联。在一些示例中，框514可包括从具有对应于与显示单元上的显示内容对应的上下文属性的该组示例性自然语言请求识别示例性自然语言请求。然后可在显示单元上显示所识别的示例性自然语言请求。因此，针对显示单元上的不同显示内容可显示不同的示例性自然语言请求。显示上下文相关的示例性自然语言请求可用于方便地告知用户与媒体设备上的用户的当前使用条件最相关的数字助理的能力。这样可改善整体用户体验。

在图6D至图6E所示的本示例中，示例性自然语言请求610和示例性自然语言请求612可各自与显示单元上的媒体内容602上下文相关。具体地，示例性自然语言请求610和示例性自然语言请求612可以是用于修改或控制与在媒体设备上播放的媒体内容相关联的一个或多个设置的请求。此类示例性自然语言请求可包括用于以下操作的请求：打开/关闭隐藏式字幕、打开特定语言的字幕、快退/向前跳、暂停播放媒体内容、重新开始播放媒体内容、减慢或加快播放媒体内容、提高/降低媒体内容的音量(例如，音频增益)等。此外，与媒体内容602上下文相关的其他示例性自然语言请求可包括用于以下操作的请求：向用户的观看列表添加与媒体内容602对应的媒体项、显示与媒体内容602相关的信息(例如，演员信息、剧情简介、发行日期等)、显示与媒体内容602相关的其他媒体项或内容(例如，同一系列、同一季、同一演员/导演、同一分类等)，等等。

在所显示的内容包括与媒体设备的应用程序相关联的内容的示例中，上下文相关的示例性自然语言请求可包括用于修改应用程序的一个或多个设置或状态的请求。具体地，示例性自然语言请求可包括用于打开或关闭应用程序或者操控应用程序的一个或多个特征的请求。

在一些示例中，所显示的内容可包括用于搜索、浏览或选择项目的用户界面(例如，第二用户界面618或第三用户界面626)。具体地，所显示的用户界面可包括一个或多个媒体项。此外，用户界面的焦点可位于一个或多个媒体项中的媒体项(例如，在图6G中由光标624突出显示的媒体项623)上。在这些示例中，上下文相关的示例性自然语言请求可包括对有关所显示的用户界面中的一个或多个媒体项的信息或其他媒体项的请求。具体地，示例性自然语言请求可包括与作为用户界面的焦点的媒体项相关的请求。在这些示例中，示例性自然语言请求可包括多个请求，诸如“它的内容是什么？”、“它排名多少？”、“其中有谁？”、“下一集何时出现？”、“为我显示更多这样的电影。”以及“为我显示由同一演员主演的电影。”。在特定示例中，可经由用户界面来显示与一个媒体项或一系列媒体项相关的信息，诸如电视连续剧Mad Men。在该示例中，上下文相关的示例性自然语言请求可包括基于媒体项或一系列媒体项(例如，January Jones参加的其他节目)的一个或多个属性(例如，阵容、情节、排名、发行日期、导演、提供方等)的要求。此外，上下文相关的示例性自然语言请求可包括用于播放、选择或获取所聚焦的媒体项或在用户界面中显示的另一媒体项的请求(例如，“租这个。”、“播放这个。”、“买这个。”或“播放How to Train Your Dragon 2。”)，或包括用于在用户界面中导航媒体项(例如，“转到喜剧。”或“跳转到恐怖电影。”)的请求。此外，在这些示例中，上下文相关的示例性自然语言请求可包括用于搜索其他媒体项的请求(例如，“查找新喜剧。”、“显示免费且好看的电影。”或“由Nicole Kidman主演的节目有哪些？”)。

在一些示例中，所显示的内容可包括根据特定类别或主题组织的媒体项。在这些示例中，上下文相关的示例性自然语言请求可包括与该特定类别或主题相关的请求。例如，在所显示的内容包括根据各种演员组织的媒体项的示例中，上下文相关的示例性自然语言请求可包括对与演员相关的信息或媒体项的请求(例如，“由Jennifer Lawrence主演的电影有哪些？”、“Scarlett Johansson年龄多大？”、“Brad Pitt的最新电影有哪些？”)。在所显示的内容包括根据节目频道或内容提供方(例如，频道页面或电视指南页面)组织的媒体项的另一示例中，上下文相关的示例性自然语言请求可包括对与节目频道或内容提供方相关的信息或媒体项的请求(例如，“一小时之后播放什么？”、“HBO在黄金时段播放什么？”、“调到ABC。”或“哪些频道正在播放篮球比赛？”)。在所显示的内容包括用户最近选择(例如，“最近播放”列表)的媒体项或被识别为用户感兴趣的媒体项(例如，“观看列表”)的另一示例中，上下文相关的示例性自然语言请求可包括用于观看或继续观看媒体项中的一者的请求(例如，“从上次停止的地方开始继续播放。”、“继续观看Birdman。”或“从头开始播放。”)。

在一些示例中，所显示的内容可包括包含与特定主题对应的结果或信息的用户界面。具体地，结果可与先前的用户请求(例如，对数字助理的请求)相关联，并且可包括与主题诸如天气、股市或体育对应的信息。在这些示例中，上下文相关的示例性自然语言请求可包括用于细化结果的请求或对有关特定主题的附加信息的请求。例如，在所显示的内容包括特定位置的天气信息的示例中，上下文相关的示例性自然语言请求可包括用于显示另一位置或不同的时间范围的附加天气信息的请求(例如，“在New York市如何？”、“下周是什么样？”、“Hawaii呢？”等)。在所显示的内容包括与运动队或运动员相关的信息的另一示例中，上下文相关的示例性自然语言请求可包括用于提供与运动队或运动员相关的附加信息的请求(例如，“Shaquille O’Neal有多高？”、“Tom Brady是什么时候出生的？”、“49ers的下一场比赛什么时候开始？”、“Manchester United在最后一场比赛中的表现如何？”、“LALakers的控球后卫是谁？”等)。在所显示的内容包括与股市相关的信息的另一示例中，上下文相关的示例性自然语言请求可包括对附加的股市相关信息的请求(例如，“S&P 500的开盘价是多少？”、“Apple的股价走势如何？”、“昨天的道琼斯指数收盘价是多少？”等)。此外，在一些示例中，所显示的内容可包括包含与先前的用户请求相关联的媒体搜索结果的用户界面。在这些示例中，上下文相关的示例性自然语言请求可包括用于细化所显示的媒体搜索结果的请求(例如，“只查找自去年上映的那些”、“只查找那些评级为G的”、“只查找免费的”)，或用于执行不同的媒体搜索的请求(例如，“查找好看的动作电影”、“为我显示一些成龙出演的电影”等)。

在一些示例中，所显示的内容可包括媒体设备的主菜单用户界面。主菜单用户界面可以是例如主屏幕或媒体设备的根目录。在这些示例中，上下文相关的示例性自然语言请求可包括表示数字助理的各种能力的请求。具体地，数字助理可具有与媒体设备相关联的一组核心竞争力，并且上下文相关的示例性自然语言请求可包括与数字助理的每个核心竞争力相关的请求(例如，“为我显示一些好看且免费的电影”、“天气怎么样”、“播放Breaking Bad的下一集”或“Apple的股价是多少？”)。

示例性自然语言请求可以是自然语言形式。这可用于告知用户数字助理能够理解自然语言请求。此外，在一些示例中，示例性自然语言请求可以是上下文模糊的，从而告知用户数字助理能够基于所显示的内容来推断与用户的请求相关联的正确的用户意图。具体地，如上述示例所示，示例性自然语言请求可包括上下文模糊的术语诸如“这个”或“一些”，或上下文模糊的短语诸如“只查找免费的。”或“在New York如何？”。这些示例性自然语言请求可告知用户数字助理能够基于所显示的内容来确定与此类请求相关联的正确的上下文。这将鼓励用户在与数字助理进行交互时依赖于所显示的内容的上下文，这样可促进与数字助理的更自然的交互式体验是可取的。

在一些示例中，框514可在框508至框512之后执行。具体地，在框506处确定用户输入对应于第一输入类型之后可在预先确定量的时间在显示单元上显示示例性自然语言请求。应当认识到，在一些示例中，可按任何顺序来执行框508至框514，并且在一些示例中，可同时执行框508至框514中的两个或更多个框。

在一些示例中，示例性自然语言请求按预先确定的顺序轮番显示。每个示例性自然语言请求可在不同的时间单独显示。具体地，可利用对后续示例性自然语言请求的显示来替换对当前示例性自然语言请求的显示。例如，如图6D中所示，可最先显示示例性自然语言请求610。在预先确定量的时间之后，可利用对示例性自然语言请求612(“播放下一集”)的显示来替换对示例性自然语言请求610(“向前跳30秒”)的显示，如图6E所示。因此，在该示例中，示例性自然语言请求610和示例性自然语言请求612一次显示一个，而不是同时显示。

在一些示例中，示例性自然语言请求可被分成多个列表，其中每个列表包括一个或多个示例性自然语言请求。在这些示例中，框514可包括在显示单元上显示示例性自然语言请求的列表。每个列表可按预先确定的顺序在不同的时间显示。此外，这些列表可轮番显示。

当执行框508至框514中的一个或多个框时，所显示的内容可继续在显示单元上显示。例如，如图6B至图6E所示，在执行框508至框512时，媒体内容602可继续在媒体设备上播放并在显示单元上显示。此外，在播放媒体内容时可由媒体设备输出与该媒体内容相关联的音频。在一些示例中，响应于检测到用户输入或根据确定用户输入对应于第一输入类型，不减小音频振幅。这样可减少对正在播放的媒体内容602的消费的干扰是可取的。因此，虽然元素604至元素612正在显示单元上显示，但用户仍然可经由音频输出来继续关注媒体内容602。

在一些示例中，如图6B至图6D中的媒体内容602的轮廓字体所表示的，响应于检测到用户输入或者根据确定用户输入对应于第一输入类型，可降低所显示的内容的亮度(例如，降低20％至40％)。在这些示例中，所显示的元素604至元素612可覆盖在所显示的媒体内容602上。降低亮度可用于突出显示所显示的元素604至元素612。与此同时，媒体内容602在显示单元上仍然是可辨别的，从而使得用户在元素604至元素612显示时能够继续消费媒体内容602。

在执行框508至框512中的一个框时，可(例如，通过在框504处检测第二输入类型的用户输入)调用数字助理，并且可(例如，在框518处)接收与示例性自然语言请求中的一个示例性自然语言请求对应的用户话语。然后，数字助理可(例如，在框532处)响应于所收到的请求来执行任务。下文参考图5B至图5I提供了关于调用数字助理并与其进行交互的更多细节。此外，在执行框508至框512中的一个框时，可(例如，通过在框558处检测第五用户输入)调用虚拟键盘界面来执行键入搜索。下文参考图5G提供了关于调用虚拟键盘界面并执行键入搜索的更多细节。

再次参考框506，根据确定用户输入不对应于第一输入类型，可执行图5B的框516至框530中的一个或多个框。在框516处，可确定用户输入是否对应于第二输入类型。第二输入类型可以是至媒体设备的不同于第一输入类型的预定义的输入。在一些示例中，第二输入类型可包括按压媒体设备的遥控器上的特定按钮，并按住该按钮超过预先确定的持续时间(例如，长按)。第二输入类型可与调用数字助理相关联。在一些示例中，可使用遥控器的相同按钮(例如，被配置为调用数字助理的按钮)来实现第一输入类型和第二输入类型。这样可将对数字助理的调用和提供用于调用数字助理并与其进行交互的指令直观地集成到单个按钮中是可取的。此外，缺乏经验的用户可直观地实现短按，而不是长按。因此，响应于检测到短按而提供指令可使得指令主要针对缺乏经验的用户，而不是有经验的用户。这可通过将指令轻松显示给最需要指导的缺乏经验的用户同时允许有经验的用户选择绕过指令的选项来改善用户体验。

根据确定框516处的用户输入对应于第二输入类型，可执行框518至框530中的一个或多个框。在一些示例中，在执行框518至框530中的一个或多个框时，可在媒体设备上继续播放媒体内容602。具体地，在框518处对音频数据进行采样以及在框528处执行任务时，媒体内容602可在媒体设备上继续播放并且在显示单元上继续显示。

在过程500的框518处，可对音频数据进行采样。具体地，可激活媒体设备的第一麦克风(例如，麦克风272)，以开始对音频数据进行采样。在一些示例中，经采样的音频数据可包括来自用户的用户话语。用户话语可表示针对数字助理的用户请求。此外，在一些示例中，用户请求可以是用于执行任务的请求。具体地，用户请求可以是媒体搜索请求。例如，参考图6F，经采样的音频数据可包括用户话语“查找由Reese Witherspoon主演的浪漫喜剧。”。在其他示例中，用户请求可以是用于播放媒体项或提供特定信息(例如，天气、股市、体育等)的请求。

经采样的音频数据中的用户话语可以是自然语言形式。在一些示例中，用户话语可表示部分指定的用户请求，其中通过该用户话语没有明确定义满足用户请求所需的所有信息。例如，用户话语可以是“播放下一集。”。在该示例中，用户请求没有明确定义要播放哪个媒体系列的下一集。此外，在一些示例中，用户话语可包括一个或多个模糊术语。

对音频数据进行采样的持续时间可基于对终点的检测。具体地，可在从最初检测到第二输入类型的用户输入的开始时间至检测到终点的结束时间对音频数据进行采样。在一些示例中，终点可基于用户输入。具体地，可在最初检测到第二输入类型的用户输入(例如，按压按钮超过预先确定的持续时间)时激活第一麦克风。在继续检测到第二输入类型的用户输入时，第一麦克风可保持激活状态以对音频数据进行采样。一旦检测不到第二输入类型的用户输入(例如，按钮被释放)，便可去激活第一麦克风。因此，在这些示例中，在检测到用户输入的结束时检测到终点。因此，在检测第二输入类型的用户输入时对音频数据进行采样。

在其他示例中，检测终点可基于经采样的音频数据的一个或多个音频特征。具体地，可监测经采样的音频数据的一个或多个音频特征，并且可在确定一个或多个音频特征不满足一个或多个预先确定标准之后的预先确定时间检测到终点。在其他示例中，可基于固定的持续时间来检测终点。具体地，可在最初检测到第二输入类型的用户输入之后在预先确定的持续时间检测到终点。

在一些示例中，在执行框504或框516时，可(例如，使用扬声器268)输出与所显示的内容相关联的音频。具体地，该音频可以是在媒体设备上播放并显示在显示单元上的媒体项的音频。可经由来自媒体设备的音频信号来输出音频。在这些示例中，在确定用户输入对应于第二输入类型并且在对音频数据进行采样时，可使与所显示的内容相关联的音频闪避(例如，减小音频的振幅)。例如，可通过减小与音频信号相关联的增益来使音频闪避。在其他示例中，在框518处对音频数据进行采样时，可停止与媒体内容相关联的音频的输出。例如，可通过阻止或干扰音频信号来停止音频输出。使音频输出闪避或停止可降低经采样的音频数据中的背景噪声，并增加与用户话语相关联的语音信号的相对强度。此外，音频的闪避或停止可用作提示用户开始向数字助理提供语音输入的音频提示。

在一些示例中，可在对音频数据进行采样时对背景音频数据进行采样，从而消除噪声。在这些示例中，遥控器或媒体设备可包括第二麦克风。第二麦克风可在不同于第一麦克风(例如，与第一麦克风相对)的方向上进行取向。可激活第二麦克风，以在对音频数据进行采样时对背景音频数据进行采样。在一些示例中，背景音频数据可用于消除音频数据中的背景噪声。在其他示例中，媒体设备可生成用于输出与所显示的内容相关联的音频的音频信号。所生成的音频信号可用于从音频数据中消除背景噪声。从音频信号中消除背景噪声可特别适合于媒体环境中的与数字助理的交互。这可能是由于消费媒体内容的公共性质，其中来自多个个体的话语可在音频数据中混合。通过消除音频数据中的背景噪声，可获取音频数据中更高的信噪比，这在处理用户请求的音频数据时是可取的。

在过程500的框520处并参考图6F，主动视觉指示符614可在显示单元上显示。主动视觉指示符614可向用户指示数字助理被调用且在主动收听。具体地，主动视觉指示符614可用作提示用户开始向数字助理提供语音输入的视觉提示。在一些示例中，主动视觉指示符614可包括颜色和/或视觉动画，以指示数字助理被调用。例如，如图6F所示，主动视觉指示符614可包括响应于由数字助理接收的音频数据的一个或多个特征(例如，振幅)的主动波形。例如，主动视觉指示符614响应于音频数据中较大声的部分而显示具有较大振幅的波形，并且响应于音频数据中较轻声的部分而显示具有较小振幅的波形。此外，在显示被动视觉指示符606(例如，图6E)时调用数字助理的示例中，可利用对主动视觉指示符614的显示来替换对视觉指示符606的显示。这样可提供从图6B至图6E中所示的用于演示如何调用数字助理并与其进行交互的指导性用户界面到图6F中所示的用于主动地与数字助理进行交互的主动用户界面的自然转换。

在过程500的框522处，可确定经采样的音频数据中的用户话语的文本表示。例如，可通过对经采样的音频数据执行语音转文本(STT)处理来确定文本表示。具体地，可使用STT处理模块(例如，STT处理模块430)来处理经采样的音频数据，以将经采样的音频数据中的用户话语转换成文本表示。文本表示可以是表示对应的文本串的符号串。

在一些示例中，可使STT处理偏向于媒体相关的文本结果。可通过利用使用媒体相关的文本的语料库训练的语言模型来实现偏置。除此之外或作为另外一种选择，可通过对与媒体相关的候选文本结果进行更重的加权来实现偏置。这样，与媒体相关的候选文本结果在利用偏置时可比没有偏置时排名更高。对于增加媒体相关用户话语(例如，电影名称、电影演员等)的STT处理的准确性，偏置可能是可取的。例如，在不偏向媒体相关文本结果的情况下，在典型的文本语料库中可能很少找到某些媒体相关的字词或短语，例如“JurassicPark”、“Arnold Schwarzenegger”和“Shrek”，并因此可能无法在STT处理期间成功地识别这些字词或短语。

在一些示例中，可从独立设备(例如，DA服务器106)获取文本表示。具体地，可将经采样的音频数据从媒体设备传输至独立设备，以执行STT处理。在这些示例中，媒体设备可(例如，通过被传输到具有经采样的音频数据的独立设备的数据)向独立设备指示经采样的音频数据与媒体应用程序相关联。该指示可使STT处理偏向于媒体相关的文本结果。

在一些示例中，文本表示可基于在对音频数据采样之前由媒体设备接收的先前用户话语。具体地，与先前用户话语的一个或多个部分对应的经采样的音频数据的候选文本结果可被更重地加权。在一些示例中，先前的用户话语可用于生成语言模型，并且所生成的语言模型可用于确定经采样的音频数据中的当前用户话语的文本表示。在接收和处理附加用户话语时，可动态地更新语言模型。

此外，在一些示例中，文本表示可基于在对音频数据采样之前接收到先前用户话语的时间。具体地，对与相对于经采样的音频数据更近期地接收的先前用户话语对应的候选文本结果的加权可重于对与相对于经采样的音频数据更早接收的先前用户话语对应的候选文本结果的加权。

在过程500的框524处，文本表示可在显示单元上显示。例如，图6F示出了与经采样的音频数据中的用户话语对应的文本表示616。在一些示例中，在对音频数据进行采样时可执行框522和框524。具体地，可通过流方式显示用户话语的文本表示616，使得在对音频数据进行采样以及对经采样的音频数据执行STT处理时，实时显示文本表示616。显示文本表示616可向用户提供数字助理正在正确处理用户请求的确认。

在过程500的框526处，可确定与用户话语对应的用户意图。可通过对框522的文本表示执行自然语言处理来确定用户意图。具体地，可使用自然语言处理模块(例如，自然语言处理模块432)来处理文本表示，以得到用户意图。例如，参考图6F，从与“查找由ReeseWitherspoon主演的浪漫喜剧”对应的文本表示616可确定用户意图是请求搜索分类为浪漫喜剧并且演员Reese Witherspoon出演的媒体项。在一些示例中，框526可还包括使用自然语言处理模块来生成用于表示所确定的用户意图的结构化查询。在“查找由ReeseWitherspoon主演的浪漫喜剧”的本示例中，可生成表示对于分类为浪漫喜剧并且演员Reese Witherspoon出演的媒体项的媒体搜索查询的结构化查询。

在一些示例中，用于确定用户意图的自然语言处理可偏向于媒体相关的用户意图。具体地，可训练自然语言处理模块来识别用于触发知识本体中的媒体相关的节点的媒体相关的字词和短语(例如，媒体标题、媒体分类、演员、MPAA电影评级标签等)。例如，自然语言处理模块可将文本表示中的短语“Jurassic Park”识别为电影标题，并由此触发与搜索媒体项的可执行意图相关联的知识本体中的“媒体搜索”节点。在一些示例中，可通过将知识本体中的节点限制于预先确定组的媒体相关的节点来实现偏置。例如，该组媒体相关的节点可以是与媒体设备的应用程序相关联的节点。此外，在一些示例中，相比于与媒体不相关的候选用户意图，可对与媒体相关的候选用户意图进行更重的加权来实现偏置。

在一些示例中，可从独立设备(例如，DA服务器106)获取用户意图。具体地，音频数据可被传输至独立设备以执行自然语言处理。在这些示例中，媒体设备可(例如，经由被传输至具有经采样的音频数据的独立设备的数据)向独立设备指示经采样的音频数据与媒体应用程序相关联。该指示可使自然语言处理偏向于媒体相关的用户意图。

在过程500的框528处，可确定经采样的音频数据是否包含用户请求。可根据框526的已确定用户意图来作出该确定。如果用户意图包括用于执行任务的用户请求，则可确定经采样的音频数据包含用户请求。相反，如果用户意图不包括用于执行任务的用户请求，则可确定经采样的音频数据不包含用户请求。此外，在一些示例中，如果在框526处不能从文本表示确定用户意图或者在框522处不能从经采样的音频数据确定文本表示，则可确定经采样的音频数据不包含用户请求。根据确定音频数据不包含用户请求，可执行框530。

在过程500的框530处，可在显示单元上显示用于澄清用户意图的请求。在一个示例中，用于澄清的请求可以是要求用户重复用户请求的请求。在另一个示例中，用于澄清的请求可以是数字助理无法理解用户话语的陈述。在又一示例中，可显示错误消息来指示无法确定用户的意图。此外，在一些示例中，根据确定音频数据不包含用户请求，可不提供响应。

参考图5C，根据在框528处确定经采样的音频数据包含用户请求，可执行框532。在过程500的框532处，可执行至少部分地满足用户请求的任务。例如，在框526处执行任务可包括执行在框526的所生成的结构化查询中定义的一个或多个任务。可使用数字助理的任务流处理模块(例如，任务流处理模块436)来执行一个或多个任务。在一些示例中，任务可包括改变媒体设备上的应用程序的状态或设置。更具体地，任务可包括例如选择或播放所请求的媒体项、打开或关闭所请求的应用程序，或以所请求的方式在所显示的用户界面中进行导航。在一些示例中，可在框532处执行任务并且不从媒体设备输出与任务相关的语音。因此，虽然在这些示例中用户可通过语音的形式向数字助理提供请求，但是数字助理可不以语音形式向用户提供响应。相反，数字助理可通过在显示单元上显示结果而仅在视觉上作出响应。这样可保留消费媒体内容的公共体验是可取的。

在其他示例中，任务可包括检索和显示所请求的信息。具体地，在框532处执行任务可包括执行框534至框536中的一个或多个框。在过程500的框534处，可获取至少部分地满足用户请求的结果。可从外部服务(例如，外部服务120)获取结果。在一个示例中，用户请求可以是执行媒体搜索查询的请求，诸如“查找由Reese Witherspoon主演的浪漫喜剧。”。在该示例中，框534可包括执行所请求的媒体搜索(例如，使用外部服务的媒体相关数据库)，以获取分类为浪漫喜剧并且具有演员Reese Witherspoon的媒体项。在其他示例中，用户请求可包括对其他类型的信息诸如天气、体育和股市的请求，并且可在框534处获取相应信息。

在过程500的框536处，可在显示单元上显示第二用户界面。第二用户界面可包括在框534处获取的结果的一部分。例如，如图6G所示，第二用户界面618可被显示在显示单元上。第二用户界面618可包括满足“为我查找由Reese Witherspoon主演的浪漫喜剧”的用户请求的媒体项622。在该示例中，媒体项622可包括一些媒体项，诸如“Legally Blonde”、“Legally Blonde 2”、“Hot Pursuit”和“This Means War”。第二用户界面618可还包括描述所获取的结果的文本标头620。文本标头620可改述用户请求的一部分，以传达用户的请求已被直接处理的印象。这提供了用户和数字助理之间更加人性化的交互式体验。在图6G中所示的本示例中，媒体项622跨第二用户界面618而被组织在单个行中。应当认识到，在其他示例中，媒体项622的组织和展示可变化。

第二用户界面618可还包括用于在第二用户界面618中导航和选择媒体项622的光标624。可通过相对于其他媒体项可视地突出显示光标所在的媒体项来指示光标的位置。例如，在本示例中，与第二用户界面618中显示的其他媒体项相比，光标624所在的媒体项623可更大且更粗。

在一些示例中，在显示第二用户界面时，可继续显示所显示的内容的至少一部分。例如，如图6G所示，第二用户界面618可以是在显示单元的基部显示的小窗格，而媒体内容602继续在媒体设备上播放并且在第二用户界面618上方的显示单元上显示。可将第二用户界面618覆盖在正在播放的媒体内容602上。在本示例中，显示单元上的第二用户界面618的显示区域可小于显示单元上的媒体内容602的显示区域。这样可减少在用户正在消费媒体内容时由数字助理显示的结果的干扰是可取的。应当认识到，在其他示例中，第二用户界面的显示区域相对于所显示的内容的显示区域可变化。此外，如图6G中的实心字体“MEDIAPLAYING”所示的，在显示第二用户界面618时，媒体内容602的亮度可恢复到正常亮度(例如，在检测用户输入之前的图6A处的亮度)。这可用于向用户指示与数字助理的交互已完成。因此，用户可在观看所请求的结果(例如，媒体项622)时继续消费媒体内容602。

在从媒体搜索获取的媒体项显示在第二用户界面上的示例中，可限制显示的媒体项的数量。这样可允许用户关注最相关的结果并且防止用户在进行选择时面对过多的选项是可取的。在这些示例中，框532可还包括确定所得结果中的媒体项的数量是否小于或等于预先确定数量(例如，30、28或25)。根据确定所得结果中的媒体项的数量小于或等于预先确定数量，所得结果中的所有媒体项可被包括在第二用户界面中。根据确定所得结果中的媒体项的数量大于预先确定数量，所得结果中只有预先确定数量的媒体项可被包括在第二用户界面中。

此外，在一些示例中，在第二用户界面中可仅显示所得结果中的与媒体搜索请求最相关的媒体项。具体地，所得结果中的媒体项中的每个媒体项可与相对于媒体搜索请求的相关性得分相关联。所显示的媒体项在所得结果中可具有最高的相关性得分。此外，可根据相关性得分来排列第二用户界面中的媒体项。例如，参考图6G，具有较高相关性得分的媒体项更可能接近第二用户界面618的一侧(例如，接近光标624的一侧)，而具有较低相关性得分的媒体项更可能接近用户界面618的相对侧(例如，远离光标624的一侧)。此外，所得结果中的每个媒体项可与流行度评级相关联。流行度评级可基于电影评论家的评级(例如，烂番茄评级(rotten tomatoes ratings))或基于已选择回放媒体项的用户的数量。在一些示例中，媒体项622在第二用户界面618中的布置可基于流行度评级。例如，具有较高流行度评级的媒体项更可能被定位在第二用户界面618的一侧，而具有较低流行度评级的媒体项更可能接近被定位在第二用户界面618的相对侧。

如图5C中继框532之后的不同流(例如，D、E、F和G)所示的，可在框532之后执行图5D的框538、图5E的框542、图5F的框550或图5I的框570中的一者。可在框536处显示第二用户界面时执行框538、框542、框550或框570。在一些示例中，过程500可另选地包括框536之后的确定步骤，以确定要执行的适当的流(例如，D、E、F或G)。具体地，可在框536之后检测用户输入，并且可确定检测到的用户输入是否对应于第二用户输入(例如，框538)、第三用户输入(例如，框542)、第四用户输入(例如，框550)或第六用户输入(例如，框570)。例如，根据确定用户输入对应于框542的第三用户输入，可执行框544至框546中的一个或多个框。在框546之后，还可包括类似的确定步骤。

在过程500的框538处并且参考图5D，可检测到第二用户输入。如上所述，在第二用户界面显示在显示单元上时可检测第二用户输入。可在媒体设备的遥控器上检测到第二用户输入。例如，第二用户输入可包括遥控器的触敏表面上的第一预先确定的动作模式。在一个示例中，第一预先确定的动作模式可包括从触敏表面上的第一接触点到第二接触点的第一方向上的连续接触动作。当以预期的方式握持遥控器时，第一方向可以是向下的方向或是朝向用户的方向。应当认识到，对于第二用户输入可预期其他形式的输入。响应于检测到第二用户输入，可执行框540。

在过程500的框540处，可消除第二用户界面，使得该第二用户界面不再显示。例如，参考图6G，响应于检测到第二用户输入，第二用户界面618可停止显示。在该示例中，在消除第二用户界面618时，可在显示单元上全屏显示媒体内容602。例如，在停止显示第二用户界面618时，可如图6A所示来显示媒体内容602。

在过程500的框542处并且参考图5E，可检测到第三用户输入。可在显示单元上显示第二用户界面时检测到第三用户输入。可在媒体设备的遥控器上检测到第三用户输入。例如，第三用户输入可包括遥控器的触敏表面上的第二预先确定的动作模式。第二预先确定的动作模式可包括从触敏表面上的第三接触点到第四接触点的第二方向上的连续接触动作。第二方向可与第一方向相反。具体地，当以预期的方式握持遥控器时，第二方向可以是向上的方向或是远离用户的方向。响应于检测到第三用户输入，可执行框544至框546中的一个或多个框。在一些示例中，如图6G所示，第二用户界面618可包括图形指示符621(例如，箭头)，以向用户指示可通过提供第三用户输入来扩展第二用户界面618。此外，图形指示符621可向用户指示与用于第三用户输入的触敏表面上的第二预先确定的动作模式相关联的第二方向。

在过程500的框544处，可获取第二结果。所得第二结果可类似于但不同于在框534处获取的结果。在一些示例中，所得的第二结果可至少部分地满足用户请求。例如，所得的第二结果可共享在框534处获取的结果的一个或多个特性、参数或属性。在图6F至图6G所示的示例中，框544可包括执行与在框534处执行的媒体搜索查询相关的一个或多个附加媒体搜索查询。例如，一个或多个附加媒体搜索查询可包括搜索分类为浪漫喜剧的媒体项或搜索由Reese Witherspoon主演的媒体项。因此，所得的第二结果可包括作为浪漫喜剧的媒体项(例如，媒体项634)和/或由Reese Witherspoon主演的媒体项(例如，媒体项636)。

在一些示例中，所得的第二结果可基于在框504处检测用户输入之前所接收的先前用户请求。具体地，所得的第二结果可包括先前用户请求的一个或多个特性或参数。例如，先前的用户请求可以是“为我显示在过去5年中发行的电影。”。在该示例中，所得的第二结果可包括在过去5年中发行的由Reese Witherspoon主演的作为浪漫喜剧片的媒体项。

此外，在一些示例中，框544可包括在检测到第三用户输入时获取与第二用户界面所聚焦的项目上下文相关的第二结果。例如，参考图6G，在检测到第三用户输入时，光标624可被定位在第二用户界面618中的媒体项623处。媒体项623可以是例如电影“LegallyBlonde”。在该示例中，所得的第二结果可共享与媒体项“Legally Blonde”相关联的一个或多个特性、属性或参数。具体地，所得的第二结果可包括像“Legally Blonde”的媒体项，其涉及就读法学院或涉及担任领导角色的职业女性。

在过程500的框546处，可在显示单元上显示第三用户界面。具体地，可利用对框546处的第三用户界面的显示来替换对框536处的第二用户界面的显示。在一些示例中，响应于检测到第三用户输入，可将第二用户界面扩展为第三用户界面。第三用户界面可至少占据显示单元的大部分显示区域。第三用户界面可包括框534的所得结果的一部分。此外，第三用户界面可包括框544的所获取的第二结果的一部分。

在一个示例中，如图6H所示，第三用户界面626可基本占据显示单元的整个显示区域。在该示例中，可利用对第三用户界面626的显示来替换对媒体内容602和第二用户界面618的先前显示。响应于检测到第三用户输入，可在媒体设备上暂停播放媒体内容。这可防止用户在第三用户界面626中浏览媒体项时丢失媒体内容602的任何部分是可取的。

第三用户界面626可包括满足“为我查找由Reese Witherspoon主演的浪漫喜剧。”的用户请求的媒体项622。此外，第三用户界面626可包括至少部分地满足相同用户请求的媒体项632。媒体项632可包括各自对应于不同的特性、属性或参数的多个媒体项组。在该示例中，媒体项632可包括作为浪漫喜剧的媒体项634和由Reese Witherspoon主演的媒体项636。每个媒体项组可使用文本标头(例如，文本标头628,630)来标记。文本标头可描述与相应组的媒体项相关联的一个或多个属性或参数。此外，每个文本标头可以是示例性用户话语，当其由用户提供至数字助理时，可使得数字助理获取类似组的媒体项。例如，参考文本标头628，响应于从用户收到用户话语“浪漫喜剧”，数字助理可获取并显示作为浪漫喜剧的媒体项(例如，媒体项634)。

虽然在图6H所示的示例中，媒体项622基于初始用户请求“查找由ReeseWitherspoon主演的浪漫喜剧”，但是应当认识到，在其他示例中，媒体项632可基于其他因素，诸如媒体选择历史、媒体搜索历史、接收先前媒体搜索的顺序、媒体相关属性之间的关系、媒体项的流行度等。

在用户请求是媒体搜索请求的示例中，所得的第二结果可基于框534的所得结果中的媒体项的数量。具体地，响应于检测到第三用户输入，可确定所得结果中的媒体项的数量是否小于或等于预先确定的数量。根据确定所得结果中的媒体项的数量小于或等于预先确定的数量，所得的第二结果可包括与第二用户界面中的媒体项不同的媒体项。所得的第二结果可至少部分地满足在框534处执行的媒体搜索请求。同时，所得的第二结果的范围可比先前所得结果的范围更宽，并且可与在框534处执行的媒体搜索请求中定义的参数中的部分参数相关联。这样可向用户提供范围更广的一组结果以及更多选项可供选择是可取的。

在一些示例中，根据确定框534的所得结果中的媒体项的数量小于或等于预先确定的数量，可确定媒体搜索请求是否包括多于一个搜索属性或参数。根据确定媒体搜索请求包括多于一个搜索属性或参数，所得的第二结果可包括与多于一个搜索属性或参数相关联的媒体项。此外，可根据多于一个搜索属性或参数来在第三用户界面中组织所获取的第二结果中的媒体项。

在图6F至图6H所示的示例中，媒体搜索请求“查找由Reese Witherspoon主演的浪漫喜剧”可被确定为包括多于一个搜索属性或参数(例如，“浪漫喜剧”和“ReeseWitherspoon”)。根据确定媒体搜索请求包括多于一个搜索属性或参数，所得的第二结果可包括与搜索参数“浪漫喜剧”相关联的媒体项634，以及与搜索参数“Reese Witherspoon出演的电影”相关联的媒体项636。如图6H所示，可将媒体项634按“浪漫喜剧”类别进行组织，并且可将媒体项636按“Reese Witherspoon”类别进行组织。

在一些示例中，根据确定框534的所得结果中的媒体项的数量大于预先确定的数量，第三用户界面可包括所得结果的第一部分和第二部分。所获取的结果的第一部分可包括预先确定数量的媒体项(例如，具有最高相关性得分)。所得结果的第二部分可不同于所得结果的第一部分，并且可包括比所得结果的第一部分更多的媒体项。此外，可确定所得结果中的媒体项是否包括多于一种媒体类型(例如，电影、电视节目、音乐、应用程序、游戏等)。响应于确定所得结果中的媒体项包括多于一种媒体类型，可根据媒体类型来组织所得结果的第二部分中的媒体项。

在图6I所示的示例中，在框534处获取的结果可包括由Reese Witherspoon主演的作为浪漫喜剧的媒体项。根据确定所得结果中的媒体项的数量大于预先确定的数量，可在第三用户界面626中显示所得结果的第一部分(媒体项622)和所得结果的第二部分(媒体项638)。响应于确定所得结果包括多于一种媒体类型(例如，电影和电视节目)，可根据媒体类型来组织媒体项638。具体地，可将媒体项640按“电影”类别进行组织，并且可将媒体项642按“电视节目”类别进行组织。此外，在一些示例中，与相应媒体类型(例如，电影、电视节目)对应的每个媒体项组(例如，媒体项640、媒体项642)可根据相应媒体项组内的最流行的分类、演员/导演或发行日期来排序。应当认识到，在其他示例中，响应于确定所得结果中的媒体项与多于一个媒体属性或参数相关联，可根据媒体属性或参数(而不是媒体类型)来组织所得结果的第二部分中的媒体项。

在一些示例中，可检测表示滚动命令的用户输入(例如，下面在框550处描述的第四用户输入)。响应于接收到表示滚动命令的用户输入，可使得经扩展的用户界面(或者更具体地，经扩展的用户界面中的项目)滚动。在滚动时，可确定经扩展的用户界面是否经滚动超出经扩展的用户界面中的预先确定的位置。响应于确定经扩展的用户界面已滚动超出经扩展的用户界面中的预先确定的位置，可在经扩展的用户界面上显示所得结果的第三部分中的媒体项。第三部分中的媒体项可根据与第三部分中的媒体项相关联的一个或多个媒体内容提供方(例如，iTunes、Netflix、HuluPlus、HBO等)来组织。应当认识到，在其他示例中，响应于确定经扩展的用户界面已滚动超出经扩展的用户界面中的预先确定的位置，可获取其他媒体项。例如，可获取流行媒体项或与所得结果相关的媒体项。

如从图5E中的框546开始的不同流(例如，B、F、G和H)所示的，可在框532之后执行图5F的框550、图5G的框558、图5H的框566或图5I的570。具体地，在一些示例中，可在框546处显示第三用户界面时执行框550、框560、框564或框570。

在过程500的框550处并且参考图5F，可检测到第四用户输入。可在显示单元上显示第二用户界面(例如，第二用户界面618)或第三用户界面(例如，第三用户界面626)时检测第四用户输入。在一些示例中，可在媒体设备的遥控器上检测第四用户输入。第四用户输入可指示显示单元上的方向(例如，向上、向下、向左、向右)。例如，第四用户输入可以是从遥控器触敏表面上的第一位置到触敏表面上的第一位置右侧的第二位置的接触动作。因此该接触动作可对应于显示单元上的向右的方向。响应于检测到第四用户输入，可执行框552。

在过程500的框552处，第二用户界面或第三用户界面的焦点可在第二用户界面或第三用户界面上从第一项目切换至第二项目。第二项目可被定位在相对于第一项目的方向(例如，与第四用户输入对应的相同方向)上。例如，在图6G中，第二用户界面618的焦点可在媒体项623上，其中光标624被定位在媒体项623处。响应于检测到与显示单元上的向右方向对应的第四用户输入，可将第二用户界面618的焦点从图6G中的媒体项623切换至图6J中的被定位在媒体项623右侧的媒体项625。具体地，光标624的位置可从媒体项623改变至媒体项625。在另一个示例中，参考图6H，第三用户界面626的焦点可位于媒体项623上。响应于检测到与显示单元上的向下方向对应的第四用户输入，可将第三用户界面626的焦点从图6H中的媒体项623切换至图6K中的相对于媒体项623被定位在其下方的媒体项627。具体地，光标624的位置可从媒体项623改变至媒体项627。

在过程500的框554处，可经由第二用户界面或第三用户界面来接收对一个或多个媒体项中的媒体项的选择。例如，参考图6J，可通过在光标624被定位在媒体项625处时检测与用户选择对应的用户输入经由第二用户界面618来接收对媒体项625的选择。类似地，参考图6K，可通过在光标624被定位在媒体项627处时检测与用户选择对应的用户输入经由第三用户界面626来接收对媒体项627的选择。响应于接收到对一个或多个媒体项中的媒体项的选择，可执行框556。

在过程500的框556处，可在显示单元上显示与所选择的媒体项相关联的媒体内容。在一些示例中，媒体内容可以是正在媒体设备上播放或流式传输的电影、视频、电视节目、动画等。在一些示例中，媒体内容可以是视频游戏、电子书、应用程序或在媒体设备上运行的程序。此外，在一些示例中，媒体内容可以是与媒体项相关的信息。该信息可以是描述所选择的媒体项的各种特性(例如，剧情简介、演员、导演、作者、发行日期、评级、持续时间等)的产品信息。

在过程500的框558处并且参考图5G，可检测第五用户输入。在一些示例中，可在显示第三用户界面(例如，第三用户界面626)时检测第五用户输入。在这些示例中，在第三用户界面的焦点在第三用户界面顶行中的媒体项上时(例如，图6H的第三用户界面626中的媒体项622中的一个媒体项)，可检测第五用户输入。在其他示例中，可在显示第一用户界面时检测第五用户输入。在这些示例中，可在执行框508至框514中的任一个框时检测第五用户输入。在一些示例中，可在媒体设备的遥控器上检测第五用户输入。第五用户输入可与第三用户输入相似或相同。例如，第五用户输入可包括触敏表面上的第二方向上的连续接触动作(例如，向上滑动接触动作)。在其他示例中，第五用户输入可以是对示能表示的激活。该示能表示可与虚拟键盘界面或键入搜索界面相关联。响应于检测到第五用户输入，可执行框560至框564中的一个或多个框。

在过程500的框560处，可显示被配置为接收键入搜索输入的搜索字段。例如，如图6L所示，搜索字段644可被显示在所显示的单元上。在一些示例中，搜索字段可被配置为接收键入搜索查询。键入搜索查询可以是媒体相关的搜索查询，诸如搜索媒体项。在一些示例中，搜索字段可被配置为基于经由搜索字段644输入的文本和与媒体项相关联的所存储文本之间的文本串匹配来执行媒体相关搜索。此外，在一些示例中，数字助理可不被配置为经由搜索字段644来接收输入。这样可鼓励用户经由语音界面而不是打字界面与数字助理进行交互，以促进媒体设备和用户之间的更加人性化的界面。应当认识到，在一些示例中，搜索字段可能已被显示在第二用户界面(例如，第二用户界面618)或第三用户界面(例如，第三用户界面626)中。在这些示例中，可不必执行框566。

在过程500的框562处，可在显示单元上显示虚拟键盘界面。例如，如图6L所示，可显示虚拟键盘界面646。虚拟键盘界面646可被配置为使得经由虚拟键盘界面646所接收的用户输入导致搜索字段中的文本输入。在一些示例中，虚拟键盘界面不可用于与数字助理进行交互。

在过程500的框564处，可将用户界面的焦点切换至搜索字段。例如，参考图6L，可在框568处突出显示搜索字段644。此外，文本输入光标可被定位在搜索字段644。在一些示例中，可在搜索字段中显示用于提示用户输入键入搜索的文本。如图6L所示，文本648包括提示“输入搜索”。

在过程500的框566处并且参考图5H，可检测第七用户输入。在一些示例中，可在显示第三用户界面(例如，第三用户界面626)时检测第七用户输入。在一些示例中，第七用户输入可包括按压电子设备的遥控器的按钮。该按钮可以是例如用于导航至电子设备的主菜单用户界面的菜单按钮。应当认识到，在其他示例中，第七用户输入可包括其他形式的用户输入。响应于检测到第七用户输入，可执行框568。

在过程500的框568处，可在显示单元上显示第三用户界面。具体地，第七用户输入可使得第三用户界面被消除。在一些示例中，第七用户输入可使得主菜单用户界面菜单将被显示，从而代替第三用户界面。作为另外一种选择，在显示第三用户界面(例如，第三用户界面626)之前显示媒体内容(例如，媒体内容602)并且在显示第三用户界面时暂停播放电子设备上的媒体内容(例如，响应于检测到第三用户输入而暂停)的示例中，可响应于检测到第七用户输入而恢复播放电子设备上的媒体内容。因此，可响应于检测到第七用户输入来显示媒体内容。

在过程500的框570处并且参考图5I，可检测到第六用户输入。如图6M所示，可在显示第三用户界面626时检测第六用户输入。然而，在其他示例中，可在显示第二用户界面(例如，第二用户界面618)时另选地检测第六用户输入。在检测到第六用户输入时，第二用户界面或第三用户界面可包括至少部分地满足用户请求的结果的一部分。第六用户输入可包括用于调用电子设备的数字助理的输入。具体地，第六用户输入可与上面参考框516描述的第二输入类型的用户输入相似或相同。例如，第六用户输入可包括按压媒体设备的遥控器上的特定按钮并按住按钮超过预先确定的持续时间(例如，长按)。响应于检测到第六用户输入，可执行框572至框592中的一个或多个框。

在过程500的框572处，可对第二音频数据进行采样。框572可与上述框518相似或相同。具体地，经采样的第二音频数据可包括来自第二用户的用户话语。第二用户话语可表示针对数字助理的第二用户请求。在一些示例中，第二用户请求可以是用于执行第二任务的请求。例如，参考图6M，经采样的第二音频数据可包括第二用户话语“仅需要Luke Wilson出演的那些电影。”。在该示例中，第二用户话语可表示第二用户请求以细化先前的媒体搜索，从而仅包括具有演员Luke Wilson的媒体项。在该示例中，第二用户话语是自然语言形式。此外，在第二用户话语没有明确指定定义用户请求所需的所有信息的情况下，可部分指定第二用户请求。例如，第二用户话语没有明确指定“那些”指的是什么。在其他示例中，第二用户请求可以是播放媒体项或提供特定信息(例如，天气、股市、体育等)的请求。

应当认识到，在一些示例中，可相对于第六用户输入类似地执行上述框520至框526。具体地，如图6M所示，当检测到第六用户输入时，可在显示单元上显示活动的视觉指示符614。可(例如，使用STT处理模块430)确定第二用户话语的第二文本表示650并将其显示在显示单元上。可基于第二文本表示(例如，使用自然语言处理模块432)来确定与第二用户话语对应的第二用户意图。在一些示例中，如图6M所示，响应于检测到第六用户输入，在检测到第六用户输入时被显示在显示单元上的内容可被淡化或降低亮度。这可用于突出显示活动的视觉指示符614和第二文本表示650。

在过程500的框574处，可确定经采样的第二音频数据是否包含第二用户请求。框574可与上述框528相似或相同。具体地，可基于从第二用户话语的第二文本表示确定的第二用户意图来作出框574处的确定。根据确定第二音频数据不包含用户请求，可执行框576。作为另外一种选择，根据确定第二音频数据包含第二用户请求，可执行框578至框592中的一个或多个框。

在过程500的框576处，可在显示单元上显示用于澄清用户意图的请求。框576可与上述框530相似或相同。

在过程500的框578处，可确定第二用户请求是否是用于细化用户请求的结果的请求。在一些示例中，可根据与第二用户话语对应的第二用户意图来作出确定。具体地，第二用户请求可被确定为是用于基于在第二用户话语中识别的所表达的指示来细化用户请求的结果的请求，以细化用户请求的结果。例如，参考图6M，可在自然语言处理期间解析第二文本表示650，以确定第二用户话语是否包括与细化媒体搜索结果的明确意图对应的预先确定的字词或短语。与细化媒体搜索结果的明确意图对应的字词或短语的示例可包括“仅”、“只”、“通过……筛选”等。因此，可基于第二文本表示650中的字“仅”来确定第二用户请求是用于细化与用户请求“查找由Reese Witherspoon主演的浪漫喜剧”相关联的媒体搜索结果的请求。应当认识到，可实现其他技术来确定第二用户请求是否为用于细化用户请求的结果的请求。根据确定第二用户请求是用于细化用户请求的结果的请求，可执行框580至框582中的一个或多个框。

在过程500的框580处，可获取至少部分地满足用户请求的结果的子组。在一些示例中，可通过根据第二用户请求中定义的附加参数筛选现有结果来获取结果的子组。例如，可筛选框534处的所获取的结果(例如，包括媒体项622)，使得识别具有演员Luke Wilson的媒体项。在其他示例中，可执行组合用户请求和第二用户请求的要求的新的媒体搜索查询。例如，新的媒体搜索查询可以是针对分类为浪漫喜剧并且具有演员Reese Witherspoon和Luke Wilson的媒体项的搜索查询。在该示例中，新的媒体搜索查询可得出媒体项，诸如“Legally Blonde”和“Legally Blonde 2”。

在显示第三用户界面时检测第六用户输入的示例中，可获取与用户请求和/或第二用户请求相关的附加结果。该附加结果可包括具有在用户请求和/或第二用户请求中描述的一个或多个属性或参数的媒体项。此外，附加结果可能不包括在用户请求和第二用户请求中描述的所有属性或参数。例如，参考图6H和图6M中描述的示例，附加结果可包括具有以下属性或参数中的至少一者(但不是全部)的媒体项：浪漫喜剧、Reese Witherspoon和Luke Wilson。附加结果可向用户提供范围更广的一组结果以及更多选项可供选择是可取的。此外，附加结果可以是很可能使用户感兴趣的相关结果。

在框582处，可在显示单元上显示结果的子组。例如，如图6N所示，结果的子组可包括媒体项652，该媒体项可包括电影，诸如“Legally Blonde”和“Legally Blonde 2”。在该示例中，媒体项652在第三用户界面626的顶行中显示。文本标头656可描述与所显示的媒体项652相关联的属性或参数。具体地，文本标头656可包括与第二用户话语相关联的用户意图的改述。在显示第二用户界面(例如，图6G中所示的第二用户界面618)时检测第六用户输入的示例中，媒体项652可替代地被显示在第二用户界面中。在这些示例中，媒体项652可跨第二用户界面而被显示为单行。应当认识到，媒体项652在第二用户界面或第三用户界面中被显示的方式可变化。

在显示第三用户界面时检测第六用户输入的示例中，可在第三用户界面中显示与所述用户请求和/或第二用户请求相关的附加结果。例如，参考图6N，附加结果可包括具有在用户请求和/或第二用户请求中描述的一个或多个参数的媒体项654。具体地，媒体项654可包括由Luke Wilson主演的作为浪漫喜剧的媒体项658，以及由Luke Wilson主演且在过去10年中发行的媒体项660。每个媒体项组(例如，媒体项658、媒体项660)可使用文本标头(例如，文本标头662、文本标头664)来标记。该文本标头可描述与相应组的媒体项相关联的一个或多个参数。文本标头可以是自然语言形式。此外，每个文本标头可以是示例性用户话语，当其由用户提供至数字助理时，可使得数字助理获取类似组的媒体项。例如，参考文本标头662，响应于收到来自用户的用户话语“由Luke Wilson主演的浪漫喜剧”，数字助理可获取并显示作为由Luke Wilson主演的浪漫喜剧的媒体项(例如，媒体项658)。

再次参考框578，可确定第二用户请求不是用于细化所述用户请求的结果的请求。可基于第二用户话语中没有任何明确指示要细化用户请求的结果来作出这样的确定。例如，在自然语言处理期间解析第二用户话语的第二文本表示时，可能识别不出与用于细化媒体搜索结果的明确意图对应的预先确定的字词或短语。这可能是因为第二用户请求是与先前用户请求无关的请求(例如，新请求)。例如，第二用户请求可以是“查找恐怖电影”，该第二用户请求是与先前的用户请求“查找由Reese Witherspoon主演的浪漫喜剧”无关的请求。作为另外一种选择，第二用户请求可包括可被解译为用于细化先前用户请求的结果的请求或与先前用户请求无关的新请求的模糊语言。例如，参考图6P，第二用户话语可以是“Luke Wilson”，其可被解译为是用于细化先前用户请求的结果的请求(例如，细化以仅包括具有演员Luke Wilson的媒体项)，或者可被解译为是与先前的用户请求无关的新请求(例如，对于具有演员Luke Wilson的媒体项的新媒体搜索)。在这些示例中，第二用户请求可被确定为不是用于细化所述用户请求的结果的请求。根据确定第二用户请求是用于细化用户请求的结果的请求，可执行框584至框592中的一个或多个框。

在过程500的框584处，可执行至少部分地满足第二用户请求的第二任务。框584可类似于上述框532，不同之处在于框584的第二任务可不同于框532的任务。框584可包括框586至框588中的一个或多个框。

在过程500的框586处，可获取至少部分地满足第二用户请求的第三结果。框586可类似于上述框534。参考图6P所示的示例，第二用户话语“Luke Wilson”可被解译为是执行新的媒体搜索查询以识别具有演员Luke Wilson的媒体项的请求。因此，在该示例中，框586可包括执行所请求的媒体搜索，以获取具有演员Luke Wilson的媒体项。应当认识到，在其他示例中，用户请求可包括对其他类型的信息(例如，天气、体育、股市等)的请求，并且可在框586处获取相应类型的信息。

在过程500的框588处，可在显示单元上显示第三结果的一部分。例如，参考图6Q，可在第三用户界面626中显示包括具有演员Luke Wilson的媒体项670(例如，电影诸如“Playing It Cool”、“The Skeleton Twins”和“You Kill Me”的第三结果。在该示例中，媒体项670可在第三用户界面626的顶行中显示。文本标头678可描述与所显示的媒体项670相关联的属性。具体地，文本标头678可包括与第二用户话语相关联的所确定的用户意图的改述。在显示第二用户界面(例如，图6G中所示的第二用户界面618)时检测第六用户输入的示例中，媒体项670可被显示在第二用户界面中。在这些示例中，媒体项670可跨第二用户界面以单行而被显示。应当认识到，在其他示例中，第二用户界面或第三用户界面中的媒体项670的组织或配置可变化。

在过程500的框590处，可获取至少部分地满足用户请求和/或第二用户请求的第四结果。具体地，第四结果可包括具有在用户请求和/或第二用户请求中定义的一个或多个属性或参数的媒体项。参考图6P和图6Q中所示的示例，第四结果可包括具有以下属性或参数中的一个或多个的媒体项：浪漫喜剧、Reese Witherspoon和Luke Wilson。例如，第四结果可包括分类为浪漫喜剧并且由Luke Wilson主演的媒体项676。所得的第四结果可向用户提供范围更广的一组结果并且因此提供更多选项可供选择是可取的。此外，第四结果可与源于第二用户请求和一个或多个先前用户请求的另选预测用户意图相关联，以便提高满足用户实际意图的可能性。这可用于提高返回给用户的结果的准确性和相关性，从而改善用户体验。

在一些示例中，第四结果的至少一部分可包括具有在用户请求和第二用户请求中定义的所有参数的媒体项。例如，第四结果可包括分类为浪漫喜剧并且由ReeseWitherspoon和Luke Wilson主演的媒体项674。媒体项674可与使用第二用户请求来细化先前用户请求的结果的另选意图相关联。在用户实际上希望第二请求是细化所得结果的请求的情况下获取媒体项674可提高满足用户实际意图的可能性是可取的。

在一些示例中，第四结果的一部分可基于检测到第六用户输入时的用户界面的焦点。具体地，当检测到第六用户输入时，用户界面的焦点可位于第三用户界面的一个或多个项目上。在该示例中，第四结果的一部分可与用户界面所聚焦的一个或多个项目上下文相关。例如，参考图6K，光标624可被定位在媒体项627上，并且因此第三用户界面626的焦点可位于媒体项627上。在该示例中，可利用与媒体项627相关联的属性或参数来获取第四结果的一部分。例如，与媒体项627相关联的“Reese Witherspoon出演的电影”的类别可用于获取第四结果的一部分，其中所得部分可包括由Reese Witherspoon和Luke Wilson主演的媒体项。在另一示例中，媒体项627可以是冒险电影，并且因此第四结果的一部分可包括作为由Luke Wilson主演的冒险电影的媒体项。

在过程500的框592处，可显示第四结果的一部分。在显示第三用户界面时检测第六用户输入的示例中，第四结果的一部分可被显示在第三用户界面中。例如，如图6Q所示，第四结果的一部分可包括在媒体项670之后的行中显示的媒体项672。媒体项672可与在第二用户请求和/或所述用户请求中定义的一个或多个属性或参数(例如，浪漫喜剧、ReeseWitherspoon和Luke Wilson)相关联。例如，媒体项672可包括作为由Luke Wilson主演的浪漫喜剧的媒体项676，以及作为由Reese Witherspoon和Luke Wilson主演的浪漫喜剧的媒体项674。每个媒体项组(例如，媒体项674、媒体项676)可使用文本标头(例如，文本标头680、文本标头682)来标记。文本标头可描述与相应组的媒体项相关联的一个或多个属性或参数。文本标头可以是自然语言形式。此外，每个文本标头可以是示例性用户话语，当其由用户提供至数字助理时，可使得数字助理获取具有类似属性的类似组的媒体项。

如上所述，第二用户话语“Luke Wilson”可与两个可能的用户意图相关联：执行新的媒体搜索的第一用户意图或细化先前用户请求的结果的第二用户意图。所显示的媒体项670可满足第一用户意图，并且所显示的媒体项674可满足第二用户意图。在该示例中，媒体项670和媒体项674被显示在前两行中。这样，可在第三用户界面626中突出显示(例如，前两行)与第二用户请求(例如，新搜索或对先前搜索的细化)相关联的两个最可能的用户意图的结果。这样可尽量减少用户在找到所需媒体项进行消费之前在第三用户界面中的滚动或浏览。应当认识到，在第三用户界面626中突出显示媒体项670和媒体项674以尽量减少滚动和浏览的方式可变化。

图7A至图7C示出了根据各种示例的用于操作媒体系统的数字助理的过程700。可使用实现数字助理的一个或多个电子设备来执行过程700。例如，可使用上述的系统100、媒体系统128、媒体设备104、用户设备122\或数字助理系统400中的一者或多者来执行过程700。图8A至图8W示出了根据各种示例的在过程700的各个阶段由媒体设备在显示单元上显示的屏幕截图。下面同时参考图7A至图7C和图8A至图8W对过程700进行描述。应当理解，过程700中的一些操作可组合，一些操作的顺序可改变，而一些操作可省略。

在过程700的框702处，可在显示单元(例如，显示单元126)上显示内容。框702可与上述框502相似或相同。参考图8A，所显示的内容可包括在媒体设备(例如，媒体设备104)上播放的媒体内容802(例如，电影、视频、电视节目、视频游戏等)。在其他示例中，所显示的内容可包括其他内容，诸如与媒体设备上运行的应用程序相关联的内容，或用于与媒体设备的数字助理进行交互的用户界面。具体地，所显示的内容可包括主菜单用户界面或包含用户先前请求的对象或结果的用户界面。

在过程700的框704处，可检测用户输入。框704可与上述框504相似或相同。用户输入可用于调用媒体设备的数字助理。在一些示例中，可在显示框702的内容时检测用户输入。可在媒体设备的遥控器(例如，遥控器124)上检测用户输入。例如，用户输入可对应于在过程500的框516中描述的第二输入类型。具体地，框704处的用户输入可包括按压媒体设备的遥控器上的特定按钮并按住按钮超过预先确定的持续时间(例如，长按)。响应于检测到用户输入，可执行框706至框746中的一个或多个框。

在过程700的框706处，可对音频数据进行采样。框706可与上述框518相似或相同。经采样的音频数据可包括用户话语。用户话语可表示针对媒体设备的数字助理的用户请求。例如，参考图8A中所示的示例，经采样的音频数据可包括用户话语“Paris现在是几点？”。用户话语可以是非结构化自然语言形式。在一些示例中，由用户话语表示的请求可以是部分指定的，其中执行请求所需的信息在用户话语中是缺失的或未被明确定义(例如，“播放这个”)。在其他示例中，用户话语可能不是显式请求，而是从其推断请求的间接问题或语句(例如，“他说了什么？”)。此外，如下面在框712中更详细的描述，用户话语可包括一个或多个模糊术语。

在过程700的框708处，可确定经采样的音频数据中的用户话语的文本表示。框708可与上述框522相似或相同。具体地，可通过对经采样的音频数据中的用户话语执行STT处理来确定该文本表示。例如，参考图8A，可从经采样的音频数据中的用户话语确定文本表示804“Paris现在是几点？”，并将其显示在显示单元上。如图所示，文本表示804可覆盖在媒体内容802上，而媒体内容802继续在媒体设备上播放。

在一些示例中，用于确定文本表示的STT处理可偏向于媒体相关的文本结果。除此之外或作为另外一种选择，文本表示可基于在对音频数据采样之前由媒体设备所接收的先前用户话语。此外，在一些示例中，文本表示可基于在对音频数据采样之前接收到先前用户话语的时间。在从独立设备(例如，DA服务器106)获取文本表示的示例中，媒体设备可向独立设备指示经采样的音频数据与媒体应用程序相关联，并且该指示可使独立设备上的STT处理偏向与媒体相关的文本结果。

在过程700的框710处，可确定对与用户话语对应的用户意图。框710可类似于上述框526。具体地，可使用自然语言处理(例如，利用自然语言处理模块432)来处理框708的文本表示以得到用户意图。例如，参考图8A，可从文本表示804“Paris现在是几点？”确定用户意图是在请求名为“Paris”的位置的时间。用于确定用户意图的自然语言处理可偏向于媒体相关的用户意图。在从独立设备(例如，DA服务器106)获取用户意图的示例中，媒体设备可向独立设备指示经采样的音频数据与媒体应用程序相关联，并且该指示可使独立设备上的自然语言处理偏向于媒体相关的用户意图。

在一些示例中，可基于源于经采样的音频数据中的用户话语的韵律信息来确定用户意图。具体地，可从用户话语得出韵律信息(例如，音调、节奏、音量、压力、语调、速度等)，从而确定用户的态度、心情、情感或情绪。然后可根据用户的态度、心情、情感或情绪来确定用户意图。例如，经采样的音频数据可包括用户话语“他说了什么？”。在该示例中，可基于在用户话语中检测到的高音量和压力来确定用户的不耐烦或沮丧。基于用户话语和所确定的用户情绪，可确定用户意图包括用于增加与正在媒体设备上播放的媒体内容相关联的音频的音量的请求。

如图7A所示，框710可包括框712至框718中的一个或多个框。具体地，当发现两个或更多个用户意图非常可能并且自然语言处理模块不能缩窄两个或更多个用户意图的范围使其成为单个用户意图时，可执行框712至框718中的一个或多个框。例如，当用户话语包含不可基于可用的上下文信息而消歧的模糊术语时，可能出现这种情况。

在过程700的框712处，可确定用户话语(或用户话语的文本表示)是否包括模糊术语。可在自然语言处理(例如，使用自然语言处理模块432)期间作出确定以确定用户意图。模糊术语可以是具有多于一个可能的解译的字词或短语。例如，参考图8A，用户话语“Paris现在是几点？”中的术语“Paris”可被解译为法国的“Paris”或是美国得克萨斯州的“Paris”。因此，用户话语中的术语“Paris”可被确定为是模糊术语。

在一些示例中，可(例如，由数字助理)检索上下文信息来对模糊术语潜在地消歧。如果成功消除歧义，则可确定用户话语不包括模糊术语。例如，可确定媒体内容802是将法国的“Paris”作为设置的电影(例如，“Ratatouille”)，因此用户更可能指的是法国的“Paris”，而不是得克萨斯州的“Paris”。在该示例中，术语“Paris”可被成功地消歧以指示法国的“Paris”，并且因此可确定用户话语不包括模糊术语。

在另一个示例中，用户话语可以是“播放这个。”。在该示例中，用户话语没有明确定义要播放的特定媒体项，因此单独解译的术语“这个”可以是能够指代媒体设备可访问的任何媒体项的模糊术语。可使用由媒体设备在显示单元上显示的上下文信息来消除该术语的歧义。例如，数字助理可确定所显示的用户界面的焦点是否位于一个媒体项上。根据确定用户界面的焦点位于媒体项上，数字助理可对术语“这个”消歧，并确定该术语指的是所显示的用户界面所聚焦的媒体项。基于该确定，可在框712处确定用户话语不包括模糊术语。因此，可将用户意图确定为用于播放所显示的用户界面所聚焦的媒体项的请求。

在不能消除术语歧义的示例中，可在框712处确定用户话语包含模糊术语。响应于确定用户话语包括模糊术语，可执行框714至框718中的一个或多个框。在过程700的框714处，可基于模糊术语来获取两个或更多个候选用户意图。该两个或更多个候选用户意图可以是从不能消歧的用户话语确定的最可能的候选用户意图。参考图8A所示的示例，两个或更多个候选用户意图可包括请求法国“Paris”的时间的第一候选用户意图，以及请求得克萨斯州“Paris”的时间的第二候选用户意图。

在过程700的框716处，可在显示单元上显示两个或更多个候选用户意图以供用户选择。例如，参考图8B，可显示第一候选用户意图810和第二候选用户意图808。此外，可提供文本提示806以通过在第一候选用户意图810和第二候选用户意图808之间进行选择，从而提示用户指示与用户话语对应的实际用户意图。文本提示806、第一候选用户意图810和第二候选用户意图808覆盖在媒体内容802上。

在过程700的框716处，可接收对两个或更多个候选用户意图中的一个候选用户意图的用户选择。在一些示例中，可通过选择与候选用户意图中的一个候选用户意图对应的示能表示来接收用户选择。具体地，如图8B所示，两个或更多个候选用户意图810,808中的每个候选用户意图可在显示单元上被显示为可选择示能表示。媒体设备可(例如，经由媒体设备的遥控器)从用户接收输入，以将显示器的焦点改变至示能表示中的一个示能表示。然后可(例如，经由媒体设备的遥控器)接收对与该示能表示对应的候选用户意图的用户选择。例如，如图8B所示，媒体设备可接收用户输入，以在与第一候选用户意图810(例如，法国的“Paris”)对应的示能表示上方移动光标812。然后可接收对第一候选用户意图810的用户选择。

在其他示例中，可经由与数字助理的语音交互来接收用户选择。例如，在显示两个或更多个候选用户意图时，可检测第二用户输入。第二用户输入可与框704的用户输入相似或相同。具体地，第二用户输入可以是调用数字助理的输入(例如，按压媒体设备的遥控器上的特定按钮，并按住按钮超过预先确定的持续时间)。响应于检测到第二用户输入，可对第二音频数据进行采样。第二音频数据可包括表示对两个或更多个解译中的一个解译的用户选择的第二用户话语。例如，参考图8C，第二音频数据可包括第二用户话语“法国的‘Paris’”。如图所示，第二用户话语“法国的‘Paris’”的文本表示814可被显示在显示单元上。在该示例中，第二用户话语“法国的‘Paris’”可表示对第一候选用户意图810(例如，法国的“Paris”)的用户选择。基于第二用户话语“法国的‘Paris’”，可确定第一候选用户意图810是与用户话语“Paris现在是几点？”对应的实际用户意图。因此，可在框710处确定用户意图是在请求法国的“Paris”的时间。在基于所接收的用户选择来确定用户意图时，可执行框720至框746中的一个或多个框。

在一些示例中，可在不输出来自媒体设备的语音的情况下执行框710至框718。具体地，在不输出与两个或更多个候选用户意图808,810相关联的语音的情况下，可显示文本提示806和候选用户意图808,810。因此，可通过语音的形式从用户接收输入，但是可在显示单元上向用户可视地(而不是以音频的形式)呈现来自数字助理的输出。这样可保持与消费媒体内容相关联的公共体验从而可改善媒体设备的用户体验是可取的。

再次参考框712，响应于确定用户话语不包括模糊术语，可执行框720至框746中的一个或多个框。在过程700的框720处，可确定用户意图是否对应于与媒体设备相关联的多个核心竞争力中的一个预先确定的核心竞争力。例如，媒体设备可与若干个预先确定的核心竞争力相关联，诸如例如搜索媒体项、播放媒体项，以及提供与媒体项、天气、股市和体育相关的信息。如果用户意图涉及执行与若干个预先确定的核心竞争力中的一个预先确定的核心竞争力相关的任务，则可确定用户意图对应于若干个预先确定的核心竞争力中的一个预先确定的核心竞争力。例如，如果用户意图是对由Reese Witherspoon主演的媒体项的请求，则可确定用户意图对应于若干个预先确定的核心竞争力中的一个预先确定的核心竞争力。响应于确定用户意图对应于与电子设备相关联的多个核心竞争力中的一个核心竞争力，可执行框724至框746中的一个或多个框。

相反，如果用户意图涉及执行若干个预先确定的核心竞争力之外的任务，则可确定用户意图不对应于若干个预先确定的核心竞争力中的一个预先确定的核心竞争力。例如，如果用户意图是对地图方向的请求，则可确定用户意图不对应于若干个预先确定的核心竞争力中的一个预先确定的核心竞争力。响应于确定用户意图不对应于与电子设备相关联的多个核心竞争力中的一个核心竞争力，可执行框722。

在过程700的框722处，可使得第二电子设备(例如，设备122)至少部分地满足用户意图。具体地，可使得第二电子设备执行促成满足用户意图的任务。在一个示例中，可确定媒体设备未被配置为满足请求地图方向的用户意图，并且因此用户意图可被传输至第二电子设备以满足该用户意图。在该示例中，第二用户设备可执行用于显示所请求的地图方向的任务。在其他示例中，用户意图之外的信息可被传输至第二电子设备，以使得第二电子设备执行用于促成满足用户意图的任务。例如，媒体设备的数字助理可确定(例如，使用自然语言处理模块432或任务流处理模块436)满足用户意图的任务流或结构化查询，并且可将该任务流或结构化查询传输至第二电子设备。然后，第二电子设备可执行任务流或结构化查询，以促成满足用户意图。

如在下面提供的描述中将变得显而易见的，与满足用户意图相关联的干扰水平可基于用户意图的性质。在某些情况下，可执行与满足用户意图相关联的任务，而不在显示器上显示任何附加响应或输出(例如，框726)。在其他情况下，仅提供文本响应(例如，没有对应的视觉或音频输出)来满足用户意图(例如，框732)。在其他情况下，可显示包含相关结果的用户界面来满足用户意图(例如，框738,742或746)。用户界面可占据显示单元的大部分面积或一小部分面积。因此，过程700可根据用户意图的性质来智能地调整输出的干扰水平。这使得能够方便地访问数字助理的服务，同时减少消费媒体内容期间的不期望的干扰，从而改善整体用户体验。

在过程700的框724处，可确定用户意图是否包括用于调整媒体设备上的应用程序的状态或设置的请求。响应于确定用户意图包括用于调整媒体设备上的应用程序的状态或设置的请求，可执行框726。在过程700的框726处，可调整应用程序的状态或设置来满足用户意图。

在一些示例中，状态或设置可与正在媒体设备上播放的所显示的媒体内容相关联。例如，用于调整应用程序的状态或设置的请求可包括用于控制媒体设备播放媒体内容的请求。具体地，其可包括用于使对媒体设备上的所显示的媒体内容的播放进行暂停、恢复、重新启动、停止、快退或快进的请求。其还可包括用于在媒体内容中向前或向后(例如，以指定的持续时间)跳过以便播放媒体内容的所需部分的请求。此外，用于调整应用程序的状态或设置的请求可包括用于打开/关闭与所显示的媒体内容相关联的(例如，指定语言的)字幕或隐藏式字幕的请求、用于增加/减少与所显示的媒体内容相关联的音频的音量的请求、用于使得与所显示的媒体内容相关联的音频静音/取消静音的请求，或者用于加快/减慢所显示的媒体内容播放的速率的请求。

图8E至图8F示出了包括用于控制媒体设备播放媒体内容的请求的用户意图的示例性示例。在该示例中，可在播放媒体内容802时调用数字助理(例如，在框704处)。可在最初不显示字幕的情况下显示媒体内容。经采样的音频数据(例如，在框706处)可包含用户话语“打开英文字幕。”。如图8E所示，可在显示单元上显示用户话语的文本表示816。基于该用户话语，可在框710处确定用户意图包括用于打开媒体内容802的英文字幕的显示的请求。此外，在框724处，可确定该用户意图是用于调整电子设备的应用程序的状态或设置的请求。响应于该确定，可打开媒体内容802的英文字幕。如图8F中的标签817所示，可发起对与媒体内容802相关联的英文字幕的显示，以满足用户意图。

在图8G至图8H中示出的另一示例性示例中，经采样的音频数据中的用户话语可以是自然语言表达，从而指示用户未听到与媒体内容相关联的音频的一部分。具体地，如图8G中的文本表示820所示，该用户话语可以是“他说了什么？”。在该示例中，可(例如，在框710处)确定用户意图包括用于重放与用户未听到的音频的一部分对应的媒体内容的一部分的请求。还可确定用户意图包括用于打开隐藏式字幕以对难以听到与媒体内容相关联的音频起辅助作用的请求。此外，基于用户话语中的韵律信息，可确定用户是沮丧的或不耐烦的，并且因此可基于用户情绪来确定用户意图包括用于增加与媒体内容相关联的音频的音量的请求。在框724处，可确定这些用户意图是用于调整电子设备的应用程序的状态或设置的请求。响应于该确定，可使媒体内容快退预先确定的持续时间(例如，15秒)到达媒体内容的先前部分，并且可从该先前部分(例如，图8H中的标签822所示)重新开始回放媒体内容。此外，在从先前部分重新开始回放媒体内容之前，可打开隐藏式字幕(例如，图8H中的标签824所示)。此外，在从先前部分重新开始回放媒体内容之前，可增加与媒体内容相关联的音频的音量。

应当理解，可从服务提供方(例如，有线提供方或媒体订阅服务)获取与媒体内容相关联的隐藏式字幕或字幕。然而，在无法从服务提供方获取隐藏式字幕或字幕的示例中，媒体设备可生成隐藏式字幕或字幕，以对难以听到与媒体内容相关联的音频起到辅助作用。例如，在接收经采样的音频数据中的用户话语之前以及在播放媒体内容时，可将与媒体内容相关联的音频中的语音(例如，使用STT处理模块730)连续地转换成文本并且与媒体内容相关联地存储。响应于用于重放用户未听到的媒体内容的先前部分的用户请求，可在重放媒体内容的先前部分时，检索并显示与正在重放的先前部分对应的文本。

在一些示例中，可调整与所显示的媒体内容相关联的状态或设置而不显示用于执行调整的附加用户界面，或者不提供用于表示确认正在调整状态或设置的任何文本或图形。例如，在图8E至图8H所示出的示例中，字幕(或隐藏式字幕)可简单地打开而不明确显示文本诸如“已打开字幕”，或不显示用于控制字幕显示的用户界面。此外，可调整状态或设置，而不输出与满足用户意图相关联的任何音频。例如，在图8E至图8H中，字幕(或隐藏式字幕)可打开，而无需输出用于确认字幕已打开的音频(例如，语音信号或非言语音频信号)。因此，可简单地执行所请求的动作，而不对媒体内容造成附加音频或视觉干扰。这样，过程700可使对用户对媒体内容的消费的干扰最小化，同时提供对数字助理服务的便捷访问，从而改善用户体验。

在其他示例中，用于调整媒体设备上的应用程序的状态或设置的请求可包括用于在媒体设备的用户界面(例如，第二用户界面818、第三用户界面826或主菜单用户界面)中进行导航的请求。在一个示例中，在用户界面中进行导航的请求可包括用于将用户界面的焦点从第一对象(例如，第一媒体项)切换至用户界面中的第二对象(例如，第二媒体项)的请求。图8I至图8K示出了此类请求的示例性示例。如图8I所示，所显示的内容可包括第三用户界面826，其具有按各种类别进行组织(例如，“浪漫喜剧”、“由Reese Witherspoon主演的浪漫喜剧”和“Luke Wilson出演的电影”)的多个媒体项。如光标828的位置所示，第三用户界面826的焦点可位于被归类为“浪漫喜剧”的第一媒体项830上。第二媒体项832的标题可为“Legally Blonde”，并且可被定位在“由Reese Witherspoon主演的浪漫喜剧”的类别中。如图8J中的文本表示834所示，经采样的音频数据中的用户话语(例如，在框706处)可以是“转到Legally Blonde。”。基于该用户话语，可(例如，在框710处)确定用户意图是用于将第三用户界面826的焦点从第一媒体项830切换至标题为“Legally Blonde”的第二媒体项832的请求。响应于(例如，在框724处)确定该用户意图是用于调整电子设备的应用程序的状态或设置的请求，可将第三用户界面826的焦点从第一媒体项830切换至第二媒体项832。例如，如图8K所示，光标828的位置可从第一媒体项830改变至第二媒体项832。

在另一示例中，用于在用户界面中导航的请求可包括用于将用户界面的焦点改变为在用户界面中显示的特定类别的结果的请求。例如，图8I包括与“浪漫喜剧”、“由ReeseWitherspoon主演的浪漫喜剧”和“Luke Wilson出演的电影”等类别相关联的媒体项。取代“转到Legally Blonde”，经采样的音频数据中的用户话语可以是“跳转到由ReeseWitherspoon主演的浪漫喜剧。”。基于该用户话语，可(例如，在框710处)确定“由ReeseWitherspoon主演的浪漫喜剧”定义了在第三用户界面826中显示的媒体项的类别，并且因此可确定用户意图是用于将用户界面的焦点改变为与该类别相关联的一个或多个媒体项的请求。响应于(例如，在框724处)确定该用户意图是用于调整电子设备的应用程序的状态或设置的请求，可将第三用户界面826的焦点转移至与类别相关联的一个或多个媒体项。例如，如图8K所示，光标828的位置可转移至与“由Reese Witherspoon主演的浪漫喜剧”相关联的第二媒体项832。

在其他示例中，用于在媒体设备的用户界面中进行导航的请求可包括用于在用户界面中选择对象的请求。对对象的选择可导致与将要执行的对象相关联的动作。例如，如图8K所示，光标828的位置位于标题为“Legally Blonde”的第二媒体项832上。如图8L所示，可(例如，在框704处)调用数字助理，并且经采样的音频数据中的用户话语(例如，在框706处)可以是“播放这个”(例如，显示为文本表示836)。基于该用户话语，可(例如，在框710处)确定用户意图是用于播放特定媒体项的请求。在该示例中，用户话语没有明确定义或识别要播放的特定媒体项。具体地，词语“这个”是模糊的。然而，数字助理可获取上下文信息以对用户意图消歧。例如，可确定在对音频数据进行采样时第三用户界面826的焦点位于第二媒体项832上。基于该确定，可识别第二媒体项832是要播放的媒体项。响应于(例如，在框724处)确定播放第二媒体项832的用户意图是用于调整电子设备的应用程序的状态或设置的请求，可执行用于促成播放第二媒体项832的动作。例如，关于第二媒体项832的预览信息可被显示在显示单元上。预览信息可包括例如简要的剧情摘要、演员列表、发行日期、用户评级等。除此之外或作为另外一种选择，第二媒体项832可在媒体设备上播放，并且与第二媒体项832相关联的媒体内容可被显示在显示单元上(例如，图8M中的文本838“正在播放Legally Blonde”所示)。应当认识到，在其他示例中，可明确识别要选择的媒体项。例如，除了“播放这个”之外，用户话语可具体声明“播放Legally Blonde”，并且可执行用于促成播放第二媒体项832的类似的动作。

在其他示例中，用于在媒体设备的用户界面中进行导航的请求可包括用于观看媒体设备的特定用户界面或应用程序的请求。例如，经采样的音频数据中的用户话语可以是“转到演员页面”，其中用户意图包括y'y根据特定演员来显示与浏览媒体项相关联的用户界面的请求。在另一示例中，经采样的音频数据中的用户话语可以是“返回主页”，其中用户意图包括用于显示媒体设备的主菜单用户界面的请求。在又一个示例中，用于在媒体设备的用户界面中进行导航的请求可包括用于在电子设备上启动应用程序的请求。例如，经采样的音频数据中的用户话语可以是“转到iTunes Store”，其中用户意图包括用于启动iTunes Store应用程序的请求。应当认识到，可预期用于调整媒体设备上的应用程序的状态或设置的其他请求。

再次参考框724，可确定用户意图不包括用于调整电子设备上的应用程序的状态或设置的请求。例如，用户意图可替代为用于呈现与一个或多个媒体项相关的信息的请求。响应于此类确定，可执行框728至框746中的一个或多个框。在过程700的框728处，可确定用户意图是否是多个预先确定的请求类型中的一个预先确定的请求类型。在一些示例中，多个预先确定的请求类型可以是与纯文本响应相关联的请求。更具体地，多个预先确定的请求类型可以是对被预先确定以要求纯文本响应的信息的请求。这与用于被预先确定以要求包括媒体对象(例如，图像、动画对象、视频等)的响应的请求形成对比。在一些示例中，多个预先确定的请求类型可包括对特定位置当前时间的请求(例如，“Paris现在是几点？”)、呈现笑话的请求(例如，“给我讲个有趣的笑话。”)，或对关于当前在电子设备上播放的媒体内容的信息的请求(例如，“这部电影是什么时候发行的？”)。响应于确定用户意图是多个预先确定的请求类型中的一个预先确定的请求类型，可执行框730至框732中的一个或多个框。

在过程700的框730处，可获取至少部分地满足用户意图的结果。例如，可通过执行任务流来从外部服务(例如，外部服务120)获取结果。在过程700的框732处，在框730处获取的结果可以文本形式而被显示在显示单元上。此外，可通过文本形式来显示结果，而不显示与结果对应的任何对应的图形或媒体相关的项目。

图8M至图8P示出了框728至框732的示例性示例。如图8M所示，电影“LegallyBlonde”最初可在媒体设备上播放并被显示在显示单元上。在播放“Legally Blonde”时，可(例如，在框704处)调用数字助理，并且经采样的音频数据中的用户话语可以是“女主演是谁？”。例如，如图8N所示，可在显示单元上显示用户话语的文本表示840。基于该用户话语，可(例如，在框710处)确定用户意图包括用于识别特定媒体项的女主演的请求。由于用户话语未指定任何特定媒体项，因此用户意图可能是模糊的。然而，基于在对音频数据进行采样时显示的电影“Legally Blonde”，可确定与用户意图相关联的媒体项是“LegallyBlonde”。在该示例中，可(例如，在框728处)确定用户意图是多个预先确定的请求类型中的一个预先确定的请求类型。具体地，可确定可提供纯文本响应来满足识别Legally Blonde中的女主演的用户意图。响应于确定用户意图是多个预先确定的请求类型中的一个预先确定的请求类型，可(例如，在框730处)在媒体相关数据库中执行搜索，以获取电影“LegallyBlonde”中的女主演是“Reese Witherspoon”的结果。如图8P所示，纯文本结果842“ReeseWitherspoon”可被显示在显示单元上，以满足用户意图。纯文本结果842可覆盖在所显示的“Legally Blonde”的媒体内容上。此外，在显示纯文本结果842时，“Legally Blonde”的媒体内容可继续播放。通过显示纯文本结果842(例如，不显示图形结果或附加的用户界面来满足用户意图)，可通过不惹眼的方式来满足用户意图，并且尽量减少干扰用户对媒体内容的消费。同时，向用户提供对数字助理服务的访问。这对于改善用户体验是可取的。

再次参考框728，可确定用户意图不是多个预先确定的请求类型中的一个预先确定的请求类型。具体地，用户意图可以是被预先确定为要求多于文本结果来进行满足的请求类型。例如，用户意图可以是用于执行媒体搜索查询并显示与媒体搜索查询对应的媒体项的请求。在其他示例中，用户意图可以是对除媒体项之外的信息的请求。例如，用户意图可以是对与以下各项相关联的信息的请求，包括：运动队(例如，“L.A.Lakers在他们的最后一场比赛中表现如何？”)、运动员(例如，“LeBron James有多高？”)、股市(例如，“昨天的道琼斯指数收盘价是多少？”)，或天气(例如，“法国‘Paris’下周的天气预报如何？”)。响应于确定用户意图不是多个预先确定的请求类型中的一个预先确定的请求类型，可执行框734至框746中的一个或多个框。

在过程700的框734处，可获取至少部分地满足用户意图的第二结果。框734可与上述框534相似或相同。在一个示例中，用户意图可包括用于执行媒体搜索查询的请求。在该示例中，可在框734处执行媒体搜索查询以获取第二结果。具体地，第二结果可包括与媒体搜索查询对应的媒体项。

在一些示例中，用户意图可以不是媒体搜索查询。例如，用户意图可以是用于提供法国“Paris”的天气预报的请求(例如，法国“Paris”的天气预报如何？)。在该示例中，在框734处获取的第二结果可包括法国“Paris”未来7天的天气预报。第二结果可包括至少部分地满足用户意图的非媒体数据。具体地，法国“Paris”未来7天的天气预报可包括文本数据(例如，日期、温度和天气状况的简要描述)和图形图像(例如，晴天、多云、有风或有雨的图像)。此外，在一些示例中，可在框710处扩展用户意图的范围，以包括对至少部分地满足用户意图的媒体项的请求。在这些示例中，在框734处获取的第二结果可还包括具有至少部分地满足用户意图的媒体内容的一个或多个媒体项。例如，在框734处可在相关时间段针对法国“Paris”的天气预报执行媒体搜索查询，并且可获取与法国“Paris”的天气预报相关的一个或多个媒体项。一个或多个媒体项可包括例如来自呈现法国“Paris”的天气预报的天气频道的视频剪辑。在这些示例中，非媒体数据和/或一个或多个媒体项可(例如，在下面描述的框738、框742或框746处)在所显示单元上的用户界面中显示。

在过程700的框736处，可确定所显示的内容是否包括在电子设备上播放的媒体内容。在一些示例中，可确定所显示的内容不包括在电子设备上播放的媒体内容。例如，所显示的内容可替代地包括用户界面，诸如主菜单用户界面或第三用户界面(例如，第三用户界面826)。第三用户界面可至少占据显示单元的大部分显示区域。此外，第三用户界面可包括与在框704处检测用户输入之前所接收的先前用户请求相关的先前结果。根据确定所显示的内容不包括媒体内容，可执行框738。

在过程700的框738处，可在显示单元上的第三用户界面中显示第二结果的一部分。在接收到框704处的用户输入时所显示的内容已包括第三用户界面的示例中，可利用对第三用户界面中的第二结果的一部分的显示来替换对与先前的用户请求相关的先前结果的显示。在接收到框704处的用户输入时所显示的内容不包括第三用户界面(例如，所显示的内容包括主菜单用户界面)的示例中，可显示第三用户界面并且第二结果可被包括在所显示的第三用户界面中。

在一些示例中，可确定第二结果是否包括预先确定类型的结果。预先确定类型的结果可与显示单元的一小部分显示区域相关联。预先确定类型的结果可包括例如与股市或天气相关的结果。应当认识到，在其他示例中，预先确定类型的结果可变化。响应于确定第二结果包括预先确定类型的结果，可在显示单元上的第二用户界面中显示第二结果的一部分。第二用户界面可占据显示单元的一小部分显示区域。在这些示例中，虽然在框736处确定所显示的内容不包括媒体内容，但在第二用户界面中可显示第二结果的一部分。

图8Q至图8S示出了框734至框738的示例性示例。在该示例中，如图8Q所示，所显示的内容最初可包括第三用户界面826。第三用户界面826可包括来自先前用户请求的先前结果。具体地，第三用户界面826包括来自先前请求的媒体搜索查询的媒体项844。如图8R所示，在显示第三用户界面826时，可(例如，在框704处)调用数字助理。经采样的音频数据中的用户话语可包括“为我显示由Luke Wilson主演的电影。”。用户话语的文本表示846可在显示单元上显示。在该示例中，可(例如，在框710处)确定用户意图是对Luke Wilson主演的电影执行媒体搜索查询的请求。可(例如，在框734处)执行媒体搜索查询来获取第二结果。具体地，第二结果可包括与由Luke Wilson主演的电影对应的媒体项848。此外，可获取与用户意图或先前的用户意图有关的附加结果(例如，媒体项850)。可通过与框544中描述的获取第二结果的方式类似的方式来获取这些附加结果。

在图8Q至图8S的本示例中，所显示的内容仅包括第三用户界面826，因此可(例如，在框736处)确定所显示的内容不包括在电子设备上播放的媒体内容。响应于该确定，第二结果可在第三用户界面826中显示。具体地，如图8S所示，可利用对第三用户界面826中的媒体项848的显示来替换对第三用户界面826中的媒体项844的显示。此外，媒体项850可在第三用户界面826中显示。

如该示例中所示，只有在确定媒体内容未在显示单元上显示之后，才可在第三用户界面中呈现第二结果。这允许在较大区域中显示范围较宽的结果，从而增加满足用户实际意图的概率。同时，通过确保在第三用户界面中呈现第二结果之前在显示单元上没有正在显示的媒体内容来避免干扰用户对媒体内容的消费。

再次参考框736，所显示的内容可包括正在媒体设备上播放的媒体内容。在这些示例中，可确定所显示的内容包括在媒体设备上播放的媒体内容。根据该确定，可执行框740至框746中的一个或多个框。

在过程700的框740处，可确定正在播放的媒体内容是否可被暂停。可被暂停的媒体内容的示例可包括点播的媒体项，诸如点播的电影和电视节目。不能被暂停的媒体内容的示例可包括广播或流服务的媒体节目和直播的媒体节目(例如，体育赛事、音乐会等)。因此，点播的媒体项可不包括广播或直播的节目。根据在框740处确定正在播放的媒体内容不能被暂停，可执行框742。在过程700的框742处，可在显示单元上显示具有第二结果的一部分的第二用户界面。框742可类似于上述框536。可在显示媒体内容时显示第二用户界面。第二用户界面在显示单元上占据的显示区域可小于媒体内容在显示单元上占据的显示区域。根据确定正在播放的媒体内容可被暂停，可执行框744至框746中的一个或多个框。在过程700的框744处，可在媒体设备上暂停正在播放的媒体内容。在过程700的框746处，可显示具有第二结果的一部分的第三用户界面。可在媒体内容暂停时显示第三用户界面。

图8T至图8W示出了框740至框746的示例性示例。如图8T所示，可在显示单元上显示在媒体设备上播放的媒体内容802。在显示媒体内容802时，可(例如，在框704处)激活数字助理。经采样的音频数据中的用户话语可以是“为我显示由Luke Wilson主演的电影。”。用户话语的文本c表示846可在显示单元上显示。如上所述，可(例如，在框710处)确定用户意图是用于获取由Luke Wilson主演的电影的媒体项的请求。可(例如，在框734处)执行对应媒体搜索查询来获取第二结果。第二结果可包括作为由Luke Wilson主演的电影的媒体项848。在(例如，在框744处)确定媒体内容802不能被暂停的示例中，可在第二用户界面818中显示媒体项848，同时在显示单元上继续显示媒体内容802(例如，图8U)。在第二用户界面818中显示媒体项848是可取的，使得在显示媒体项848时媒体内容802能够持续用于用户消费，从而满足用户意图。这防止用户错过不能被暂停或重放的媒体内容802的任何部分。作为另外一种选择，在(例如，在框744处)确定媒体内容802可被暂停的示例中，可暂停播放媒体设备上的媒体内容802，并且可在显示单元上的第三用户界面826中显示媒体项848(例如，图8S)。显示第三用户界面826是可取的，使得与各种另选用户意图(例如，媒体项850)相关联的范围更广的媒体项能够与所请求的媒体项(例如，媒体项848)一起显示，从而增加满足用户实际意图的可能性。同时，媒体内容802被暂停，使得用户不会错过媒体内容802的任何部分。通过基于媒体内容802是否可被暂停来改变用于显示媒体项848的用户界面可完全实现与用户话语相关联的用户意图，同时减少干扰用户对媒体内容802的消费。这样可改善整体用户体验。

在一些示例中，如图8V所示，除了在媒体设备上播放的媒体内容802之外，所显示的内容还可包括第二用户界面818。在这些示例中，第二用户界面818可包括与先前的用户请求(例如，对由Reese Witherspoon主演的浪漫喜剧的请求)相关的媒体项852。在显示媒体内容802和第二用户界面818时，可(例如，在框704处)调用数字助理。如图8W所示，经采样的音频数据可包括用户话语“为我显示由Luke Wilson主演的电影。”。用户话语的文本表示846可在显示单元上显示。基于该用户话语，可(例如，在框710处)确定用户意图是用于获取作为由Luke Wilson主演的电影的媒体项的请求。可(例如，在框734处)执行对应媒体搜索查询来获取第二结果(例如，媒体项848)。在这些示例中，第二用户界面818中的媒体项852的显示可被替换成媒体项848的显示(例如，图8U)。

图9示出了根据各种示例的用于与媒体系统的数字助理进行交互的过程900。可使用实现数字助理的一个或多个电子设备来执行过程900。例如，可使用上述系统100、媒体系统128、媒体设备104、用户设备122、或数字助理系统400中的一者或多者来执行过程900。应当理解，过程900中的一些操作可被组合、一些操作的顺序可被改变，并且一些操作可被省略。

在过程900的框902处，可在显示单元上显示内容。框902可与上述框502相似或相同。在一些示例中，所显示的内容可包括媒体内容(例如，电影、视频、电视节目、视频游戏等)。除此之外或作为另外一种选择，所显示的内容可包括用户界面。例如，所显示的内容可包括具有一个或多个示例性自然语言请求(例如，如图6D至图6E所示)的第一用户界面。在其他示例中，所显示的内容可包括具有来自先前用户请求的结果(例如，先前请求的媒体项)的第三用户界面(例如，第三用户界面626)。第三用户界面可至少占据显示单元的大部分显示区域。

在过程900的框904处，在显示框902的内容时可检测用户输入。该用户输入可与框558处描述的第五用户输入类似或相同。具体地，可在媒体设备的遥控器上检测用户输入。例如，用户输入可包括遥控设备的触敏表面上的预先确定的动作模式。在一些示例中，可经由不同于媒体设备的第二电子设备(例如，设备122)来检测用户输入。该第二电子设备可被配置为以无线方式来控制媒体设备。响应于检测到用户输入，可执行框906至框914中的一个或多个框。

在过程900的框906处，可在显示单元上显示虚拟键盘界面(例如，虚拟键盘界面646)。框906可与上述框562相似或相同。虚拟键盘界面可覆盖在第一用户界面或第三用户界面的至少一部分上。此外，可在显示单元上显示搜索字段(例如，搜索字段644)。虚拟键盘界面可被配置为使得经由虚拟键盘界面接收的用户输入导致搜索字段中的文本输入。

在过程900的框908处，可使可选择示能表示是被显示在第二电子设备上(例如，被显示在设备122的触摸屏346上)。第二电子设备可以是与媒体设备的遥控器不同的设备。对示能表示的选择可使得能够由媒体设备经由第二电子设备的键盘来接收文本输入。例如，对示能表示的选择可使得虚拟键盘界面(例如，类似于虚拟键盘界面646)在第二电子设备上显示。向第二电子设备的虚拟键盘界面的输入可使得在搜索字段(例如，搜索字段644)中输入对应文本。

在过程900的框910处，可经由第二电子设备的键盘(例如，虚拟键盘界面)来接收文本输入。具体地，用户可经由第二电子设备的键盘来输入文本，并且文本输入可被传输到媒体设备并由媒体设备接收。该文本输入可表示用户请求。例如，文本输入可以是可表示对与搜索字符串“Jurassic Park”相关联的媒体项执行搜索的请求的“Jurassic Park”。

在过程900的框912处，可获取至少部分地满足用户请求的结果。例如，可使用文本输入来执行媒体搜索，并且可获取对应媒体项。在文本输入是“Jurassic Park”的特定示例中，可获取标题为“Jurassic Park”或具有与电影“Jurassic Park”相同的演员或导演的媒体项。在文本输入是“Reese Witherspoon”的另一示例中，可获取其中具有女演员ReeseWitherspoon的媒体项。

在过程900的框914处，可在显示单元上显示用户界面。用户界面可包括结果的至少一部分。例如，用户界面可包括作为框912处执行的媒体搜索的结果而获取的媒体项。

虽然上面将过程500、过程700和过程900的某些框描述为由设备或系统(例如，媒体设备104、用户设备122或数字助理系统400)执行，但是应当认识到，在一些示例中，可将多于一个设备用于执行框。例如，在作出确定的框中，第一设备(例如，媒体设备104)可从第二设备(例如，服务器系统108)获取确定。类似地，在显示内容、对象、文本或用户界面的框中，第一设备(例如，媒体设备104)可使得内容、对象、文本或用户界面显示在第二设备上(例如，显示单元126)。

5.电子设备

根据一些示例，图10示出了电子设备1000的功能框图，该电子设备根据所描述的各种示例的原理进行配置，以便例如对媒体回放进行语音控制并实时更新虚拟助理的知识。设备的功能块可由执行各种所述示例的原理的硬件、软件、或硬件和软件的组合来实现。本领域的技术人员应当理解，图10中所述的功能块可被组合或被分离为子块，以便实现各种所述示例的原理。因此，本文的描述任选地支持本文所述的功能块的任何可能的组合或分离或进一步限定。

如图10所示，电子设备1000可包括：被配置为接收用户输入诸如触觉输入、手势输入的输入单元1003(例如，遥控器124等)；被配置为接收音频数据的音频输入单元1004(例如，麦克风272等)；被配置为输出音频的扬声器单元106(例如，扬声器268等)；以及被配置为经由网络来从外部设备发送和接收信息的通信单元1007(例如，通信子系统224等)。在一些示例中，电子设备1000可以可选地包括被配置为显示媒体、界面和其他内容的显示单元1002(例如，显示单元126等)。电子设备1000还可包括耦接至输入单元1003、音频输入单元1004、扬声器单元1006、通信单元1007、以及可选的显示单元1002的处理单元1008。在一些示例中，该处理单元1008可包括显示启用单元1010、检测单元1012、确定单元1014、采样单元1016、输出单元1018、执行单元1020、获取单元1022、和切换单元1024。

根据一些实施方案，该处理单元1008被配置为在显示单元(例如，显示单元1002或独立显示单元)上显示内容(例如，利用显示启用单元1010)。该处理单元1008被进一步配置为检测用户输入(例如，利用检测单元1012)。该处理单元1008被进一步配置为确定用户输入是否对应于第一输入类型(例如，利用确定单元1014)。该处理单元1008被进一步配置为根据确定用户输入对应于第一输入类型而在显示单元上显示多个示例性自然语言请求(例如，显示启用单元1010)。多个示例性自然语言请求与所显示的内容上下文相关，其中接收与多个示例性自然语言请求中的一个示例性自然语言请求对应的用户话语使得数字助理执行相应动作。

在一些示例中，在电子设备的遥控器上检测用户输入。在一些示例中，第一输入类型包括按压遥控器的按钮，并在预先确定的持续时间内释放按钮。在一些示例中，多个示例性自然语言请求经由第一用户界面而被显示在显示单元上，并且第一用户界面覆盖在所显示的内容上。在一些示例中，所显示的内容包括媒体内容，并且在显示多个示例性自然语言请求时媒体内容继续播放。

在一些示例中，该处理单元1008被进一步配置为根据确定用户输入对应于第一输入类型，在显示单元上显示视觉指示符(例如，利用显示启用单元1010)，从而指示数字助理并未正在处理音频输入。

在一些示例中，在确定用户输入对应于第一输入类型时，在预先确定量的时间之后在显示单元上显示多个示例性自然语言请求。在一些示例中，多个示例性自然语言请求中的每个示例性自然语言请求以预先确定的顺序在不同的时间单独显示。

在一些示例中，该处理单元1008被进一步配置为显示示例性自然语言请求的多个列(例如，利用显示启用单元1010)表，其中每个列表在不同的时间轮番显示。

在一些示例中，该处理单元1008被进一步配置为根据确定用户输入不对应于第一输入类型，确定用户输入是否对应于第二输入类型(例如，利用确定单元1014)。该处理单元1008被进一步配置为根据确定用户输入对应于第二输入类型，对音频数据进行采样(例如，利用采样单元1016和音频输入单元1004)。该处理单元1008被进一步配置为确定音频数据是否包含用户请求(例如，利用确定单元1014)。该处理单元1008被进一步配置为根据确定音频数据包含用户请求而执行至少部分地满足用户请求的任务(例如，利用执行单元1020)。

在一些示例中，第二输入类型包括按压电子设备遥控器的按钮并按住按钮超过预先确定的持续时间。

在一些示例中，该处理单元1008被进一步配置为根据确定音频数据不包含用户请求而在显示单元上显示用于澄清用户意图的请求(例如，利用显示启用单元1010)。

在一些示例中，所显示的内容包括媒体内容，并且在对音频数据进行采样以及在执行任务时该媒体内容在电子设备上继续播放。

在一些示例中，该处理单元1008被进一步配置为输出(例如，利用输出单元1018)与媒体内容相关联的音频(例如，使用扬声器单元1006)。该处理单元1008被进一步配置为根据确定用户输入对应于第二输入类型而减小音频振幅(例如，利用输出单元1018)。

在一些示例中，执行任务而不从电子设备输出与任务相关的语音。在一些示例中，在检测用户输入时对音频数据进行采样。在一些示例中，在检测到用户输入之后，在预先确定的持续时间内对音频数据进行采样。

在一些示例中，经由电子设备遥控器上的第一麦克风来对音频数据进行采样(例如，音频输入单元1004)。该处理单元1008被进一步配置为在对音频数据进行采样时经由遥控器上的第二麦克风(例如，电子设备1000的第二音频输入单元)来对背景音频数据进行采样(例如，利用采样单元1016和音频输入单元1004)。该处理单元1008被进一步配置为使用背景音频数据来消除音频数据中的背景噪声(例如，利用输出单元1018)。

在一些示例中，与所显示的内容相关联的音频经由来自电子设备的音频信号而被输出。该处理单元1008被进一步配置为使用音频信号来消除音频数据中的背景噪声(例如，利用输出单元1018)。

在一些示例中，该处理单元1008被进一步配置为响应于检测到用户输入而在显示单元上显示用于提示用户提供口头请求的视觉提示(例如，利用显示启用单元1010)。

在一些示例中，该处理单元1008被进一步配置为(例如，利用获取单元1022)获取至少部分地满足用户请求的结果。该处理单元1008被进一步配置为在显示单元上显示第二用户界面(例如，利用显示启用单元1010)。该第二用户界面包括结果的一部分，其中在显示第二用户界面时继续显示内容的至少一部分，并且其中显示单元上的第二用户界面的显示区域小于显示单元上的内容的至少一部分的显示区域。在一些示例中，第二用户界面覆盖在所显示的内容上。

在一些示例中，该结果的该一部分包括一个或多个媒体项。该处理单元1008被进一步配置为经由第二用户界面来接收对一个或多个媒体项中的媒体项的选择(例如，利用检测单元1012)。该处理单元1008被进一步配置为在显示单元上显示与所选择的媒体项相关联的媒体内容(例如，利用显示启用单元1010)。

在一些示例中，该处理单元1008被进一步配置为在显示第二用户界面时检测第二用户输入(例如，利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到第二用户输入而停止显示第二用户界面(例如，利用显示启用单元1010)。

在一些示例中，在电子设备的遥控器上检测第二用户输入。该第二用户输入包括遥控器触敏表面上的第一预先确定的动作模式。

在一些示例中，该处理单元1008被进一步配置为在显示第二用户界面时检测第三用户输入(例如，利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到第三用户输入而利用对第三用户界面的显示来替换对显示单元上的第二用户界面的显示(例如，利用显示启用单元1010)。第三用户界面包括结果的至少一部分，并且第三用户界面占据显示单元的至少大部分显示区域。

在一些示例中，在电子设备的遥控器上检测第三用户输入，并且第三用户输入包括遥控器触敏表面上的第二预先确定的动作模式。

在一些示例中，该处理单元1008被进一步配置为响应于检测到第三用户输入而获取与该结果不同的第二结果(例如，利用获取单元1022)。该第二结果至少部分地满足用户请求，并且第三用户界面包括第二结果的至少一部分。

在一些示例中，第二结果基于在检测用户输入之前所接收的用户请求。在一些示例中，在检测到第三用户输入时，第二用户界面的焦点在结果的一部分的项目上，并且第二结果与该项目上下文相关。

在一些示例中，所显示的内容包括媒体内容。该处理单元1008被进一步配置为响应于检测到第三用户输入而暂停播放电子设备上的媒体内容(例如，利用执行单元1020)。

在一些示例中，结果的至少一部分包括一个或多个媒体项。该处理单元1008被进一步配置为经由第三用户界面来接收对一个或多个媒体项中的媒体项的选择(例如，利用检测单元1012)。该处理单元1008被进一步配置为在显示单元上显示与媒体项相关联的媒体内容(例如，利用显示启用单元1010)。

在一些示例中，该处理单元1008被进一步配置为在显示第三用户界面时检测与显示单元上的方向相关联的第四用户输入(例如，利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到第四用户输入而将第三用户界面的焦点从第一项目切换至第三用户界面上的第二项目(例如，利用切换单元1024)。该第二项目可被定位在相对于第一项目的方向上。

在一些示例中，该处理单元1008被进一步配置为在显示第三用户界面时检测第五用户输入(例如，利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到第五用户输入而显示搜索字段(例如，利用显示启用单元1010)。该处理单元1008被进一步配置为在显示单元显示虚拟键盘界面上(例如，利用显示启用单元1010)，其中经由虚拟键盘界面接收的输入导致搜索字段中的文本输入。

在一些示例中，该处理单元1008被进一步配置为在显示第三用户界面时检测第六用户输入(例如，利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到第六用户输入而对第二音频数据进行采样(例如，利用采样单元1016和音频输入单元1004)。该第二音频数据包含第二用户请求。该处理单元1008被进一步配置为确定第二用户请求是否是有用于细化用户请求的结果的请求(例如，利用确定单元1014)。该处理单元1008被进一步配置为根据确定第二用户请求是用于细化用户请求的结果的请求，经由第三用户界面来显示结果的子组(例如，利用显示启用单元1010)。

在一些示例中，结果的子组被显示在第三用户界面的顶行处。该处理单元1008被进一步配置为根据确定第二用户请求不是用于细化用户请求的结果的请求，取至少部分地满足第二用户请求的第三结果(例如，利用获取单元1018)获。该处理单元1008被进一步配置为经由第三用户界面来显示第三结果的一部分(例如，利用显示启用单元101)。在一些示例中，该第三结果的一部分被显示在第三用户界面的顶行处。

在一些示例中，该处理单元1008被进一步配置为获取至少部分地满足用户请求或第二用户请求的第四结果(例如，利用获取单元1022)。该处理单元1008被进一步配置为经由第三用户界面来显示第四结果的一部分(例如，利用显示启用单元1010)。

在一些示例中，该第四结果的一部分被显示在第三用户界面顶行之后的行处。

在一些示例中，在检测到第六用户输入时，该第三用户界面的焦点位于第三用户界面的一个或多个项目上，并且第四结果与一个或多个项目上下文相关。

在一些示例中，该处理单元1008被进一步配置为在显示第三用户界面时检测第七用户输入(例如，利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到第七用户输入而停止显示第三用户界面(例如，利用显示启用单元1010)。

在一些示例中，所显示的内容是媒体内容，并且响应于检测到第三用户输入而暂停播放电子设备上的媒体内容。该处理单元1008被进一步配置为响应于检测到第七用户输入而恢复播放电子设备上的媒体内容(例如，利用执行单元1020)。在一些示例中，该第七用户输入包括按压电子设备的遥控器的菜单按钮。

根据一些实施方案，该处理单元1008被进一步配置为在显示单元上显示内容(例如，利用显示启用单元1010)。该处理单元1008被进一步配置为在显示内容时检测用户输入(例如，利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到用户输入而在显示单元上显示用户界面(例如，利用显示启用单元1010)。该用户界面包括与所显示的内容上下文相关的多个示例性自然语言请求，其中接收与多个示例性自然语言请求中的一个示例性自然语言请求对应的用户话语使得数字助理执行相应动作。

在一些示例中，所显示的内容包括媒体内容。在一些示例中，多个示例性自然语言请求包括用于修改与媒体内容相关联的一个或多个设置的自然语言请求。在一些示例中，在显示用户界面时媒体内容继续播放。

在一些示例中，该处理单元1008被进一步配置为输出与媒体内容相关联的音频。响应于检测到用户输入(例如，利用输出单元1018)，不减小音频的振幅。在一些示例中，所显示的内容包括主菜单用户界面。

在一些示例中，多个示例性自然语言请求包括与数字助理的多个核心竞争力中的每个核心竞争力相关的示例性自然语言请求。在一些示例中，所显示的内容包括具有与先前用户请求相关联的结果的第二用户界面。在一些示例中，多个示例性自然语言请求包括用于细化结果的自然语言请求。在一些示例中，该用户界面包括用于调用数字助理并与其进行交互的文本指令。在一些示例中，该用户界面包括指示数字助理未在接收音频输入的视觉指示符。在一些示例中，该用户界面覆盖在所显示的内容上。

在一些示例中，该处理单元1008被进一步配置为响应于检测到用户输入而降低所显示的内容的亮度以突出显示用户界面(例如，利用显示启用单元1010)。

在一些示例中，在电子设备的遥控器上检测用户输入。在一些示例中，用户输入包括按压遥控设备的按钮并在按压按钮之后的预先确定的持续时间内释放按钮。在一些示例中，该按钮被配置为调用数字助理。在一些示例中，该用户界面包括用于显示虚拟键盘界面的文本指令。

在一些示例中，该处理单元1008被进一步配置为在显示用户界面之后检测第二用户输入(例如，利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到第二用户输入而在显示单元上显示虚拟键盘界面(例如，利用显示单元1012)。

在一些示例中，该处理单元1008被进一步配置为将用户界面的焦点改变至用户界面上的搜索字段(例如，利用显示启用单元1010)。在一些示例中，该搜索字段被配置为经由虚拟键盘界面来接收文本搜索查询。在一些示例中，该虚拟键盘界面不可用于与数字助理进行交互。在一些示例中，该第二用户输入包括电子设备的遥控设备触敏表面上的预先确定的动作模式。

在一些示例中，多个示例性自然语言请求在检测到用户输入之后的预先确定量的时间被显示。在一些示例中，该处理单元1008被进一步配置为以预先确定的顺序一次一个地显示多个示例性自然语言请求中的每个示例性自然语言请求(例如，利用显示启用单元1010)。在一些示例中，该处理单元1008被进一步配置为利用多个示例性自然语言请求中的随后的示例性自然语言请求来替换对多个示例性自然语言请求中的先前显示的示例性自然语言请求的显示(例如，利用显示启用单元1010)。

在一些示例中，内容包括具有一个或多个项目的第二用户界面。当检测到用户输入时，该第二用户界面的焦点位于一个或多个项目中的项目上。多个示例性自然语言请求与一个或多个项目中的所述项目上下文相关。

根据一些实施方案，该处理单元1008被进一步配置为在显示单元上显示内容(例如，利用显示启用单元1010)。该处理单元1008被进一步配置为检测用户输入(例如，利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到用户输入而显示自然语言话语的一个或多个所建议的示例(例如，利用显示启用单元1010)。该一个或多个所建议的示例与所显示的内容上下文相关，并且当由用户说出时，使得数字助理执行对应动作。

在一些示例中，该处理单元1008被进一步配置为检测第二用户输入(例如，利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到第二用户输入而对音频数据进行采样(例如，利用采样单元1016)。该处理单元1008被进一步配置为(例如，利用确定单元1014)来确定经采样的音频数据是否包含自然语言话语的一个或多个所建议的示例中的一个所建议的示例。该处理单元1008被进一步配置为根据确定经采样的音频数据包含自然语言话语的一个或多个所建议的示例中的一个所建议的示例而执行针对话语的对应动作(例如，利用执行单元1020)。

根据一些实施方案，该处理单元1008被进一步配置为在显示单元上显示内容(例如，利用显示启用单元1010)。该处理单元1008被进一步配置为在显示内容时检测用户输入(例如，利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到用户输入而对音频数据进行采样(例如，利用采样单元1016)。该音频数据包括表示媒体搜索请求的用户话语。该处理单元1008被进一步配置为获取满足媒体搜索请求的多个媒体项(例如，利用获取单元1022)。该处理单元1008被进一步配置为经由用户界面在显示单元上来显示多个媒体项的至少一部分(例如，利用显示启用单元1010)。

在一些示例中，在显示多个媒体项的至少一部分时，内容继续显示在显示单元上。用户界面所占据的显示区域小于内容所占据的显示区域。

在一些示例中，该处理单元1008被进一步配置为确定多个媒体项中的媒体项的数量是否小于或等于预先确定的数量(例如，利用确定单元1014)。根据确定多个媒体项中的媒体项的数量小于或等于预先确定的数量，多个媒体项的至少一部分包括多个媒体项。

在一些示例中，根据确定多个媒体项中的媒体项的数量大于预先确定的数量，多个媒体项的至少一部分中的媒体项的数量等于预先确定的数量。

在一些示例中，多个媒体项中的每个媒体项与相对于媒体搜索请求的相关性得分相关联，并且多个媒体项的至少一部分的相关性得分在多个媒体项中是最高的。

在一些示例中，多个媒体项的至少一部分中的每个媒体项与流行度评级相关联，并且多个媒体项的至少一部分基于流行度评级而被布置在用户界面中。

在一些示例中，该处理单元1008被进一步配置为在显示多个媒体项的至少一部分时检测第二用户输入(例如，利用检测单元1012)。处理单元1008被进一步配置为响应于检测到第二用户输入而扩展用户界面(例如，利用显示启用单元1010)，从而至少占据显示单元的大部分显示区域。

在一些示例中，该处理单元1008被进一步配置为响应于检测到第二用户输入而确定多个媒体项中的媒体项的数量是否小于或等于预先确定的数量(例如，利用确定单元1014)。该处理单元1008被进一步配置为根据确定多个媒体项中的媒体项的数量小于或等于预先确定的数量而获取至少部分地满足媒体搜索请求的第二多个媒体项，该第二多个媒体项不同于媒体项的至少一部分。该处理单元1008被进一步配置为经由经扩展的用户界面来在显示单元上显示第二多个媒体项(例如，利用显示启用单元101)。

在一些示例中，该处理单元1008被进一步配置为确定媒体搜索请求是否包括多于一个搜索参数(例如，利用确定单元1014)。根据确定媒体搜索请求包括多于一个搜索参数，在经扩展的用户界面中根据媒体搜索请求的多于一个搜索参数来组织第二多个媒体项。

在一些示例中，该处理单元1008被进一步配置为根据确定多个媒体项中的媒体项的数量大于预先确定的数量，经由经扩展的用户界面来显示多个媒体项的至少第二部分(例如，利用显示启用单元1010)。多个媒体项的至少第二部分不同于多个媒体项的至少一部分。

在一些示例中，多个媒体项的至少第二部分包括两个或更多个媒体类型，并且多个媒体项的至少第二部分根据两个或更多个媒体类型中的每个媒体类型而在经扩展的用户界面中进行组织。

在一些示例中，该处理单元1008被进一步配置为检测第三用户输入(例如，利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到第三用户输入而使得经扩展的用户界面滚动(例如，利用显示启用单元1010)。该处理单元1008被进一步配置为确定经扩展的用户界面是否已滚动超过扩展的用户界面上的预先确定的位置(例如，利用确定单元1014)。该处理单元1008被进一步配置为响应于确定经扩展的用户界面已滚动超过扩展的用户界面上的预先确定的位置而在经扩展的用户界面上显示多个媒体项的至少第三部分(例如，利用显示启用单元1010)。根据与第三多个媒体项相关联的一个或多个媒体内容提供方来将多个媒体项的至少第三部分组织在经扩展的用户界面上。

以上参考图5A至图5I所述的操作任选地由图1至图3和图4A至图4B中所示的部件来实现。例如，显示操作502,508-514,520,524,530,536,546,556,560,562,576,582,588,592、检测操作504,538,542,550,558,566,570、确定操作506,516,522,526,528,574,578、采样操作518,572、执行操作532,584、获取操作534,544,580,586,590、暂停操作540,568、接收操作554，以及切换操作552,564可由操作系统252、GUI模块256、应用程序模块262、数字助理模块426和一个或多个处理器204,404中的一者或多者来实现。本领域的技术人员会清楚地知道可如何基于图1至图3和图4A至图4B中所示的部件来实现其他过程。

根据一些示例，图11示出了电子设备1100的功能框图，该电子设备根据所描述的各种示例的原理进行配置，以便例如对媒体回放进行语音控制并实时更新虚拟助理的知识。设备的功能块可由执行各种所述示例的原理的硬件、软件、或硬件和软件的组合来实现。本领域的技术人员应当理解，图11中所述的功能块可被组合或被分离为子块，以便实现各种所述示例的原理。因此，本文的描述任选地支持本文所述的功能块的任何可能的组合或分离或进一步限定。

如图11所示，电子设备1100可包括：被配置为接收用户输入诸如触觉输入、手势输入的输入单元1103(例如，遥控器124等)；被配置为接收音频数据的音频输入单元1104(例如，麦克风272等)；被配置为输出音频的扬声器单元116(例如，扬声器268等)；以及被配置为经由网络从外部设备发送和接收信息的通信单元1107(例如，通信子系统224等)。在一些示例中，电子设备1100可以可选地包括被配置为显示媒体、界面和其他内容的显示单元1102(例如，显示单元126等)。电子设备1100还可包括耦接至输入单元1103、音频输入单元1104、扬声器单元1106、通信单元1107、以及可选的显示单元1102的处理单元1108。在一些示例中，处理单元1108可包括显示启用单元1110、检测单元1112、确定单元1114、采样单元1116、输出单元1118、执行单元1120、获取单元1122、识别单元1124、和传输单元1126。

根据一些实施方案，该处理单元1108被配置为在显示单元(例如，显示单元1102或独立显示单元)上显示内容(例如，利用显示启用单元1110)。该处理单元1108被进一步配置为在显示内容时检测用户输入(例如，利用检测单元1112)。该处理单元1108被进一步配置为响应于检测到用户输入而对音频数据进行采样(例如，利用采样单元1016和音频输入单元1104)。该音频数据包括用户话语。该处理单元1108被进一步配置为获取对与用户话语对应的用户意图的确定(例如，利用获取单元1122)。该处理单元1108被进一步配置为获取对用户意图是否包括调整电子设备上的应用程序的状态或设置的请求的确定(例如，利用获取单元1122)。该处理单元1108被进一步配置为响应于获取用户意图包括调整电子设备上的应用程序的状态或设置的请求的确定，调整应用程序的状态或设置以满足用户意图(例如，利用任务执行单元1120)。

在一些示例中，用于调整电子设备上的应用程序的状态或设置的请求包括用于播放特定媒体项的请求。调整应用程序的状态或设置以满足用户意图包括播放特定媒体项。

在一些示例中，所显示的内容包括具有媒体项的用户界面，并且用户话语没有明确定义要播放的特定媒体项。该处理单元1108被进一步配置为确定用户界面的焦点是否位于媒体项上(例如，利用确定单元1114)。该处理单元1108被进一步配置为根据确定用户界面的焦点位于媒体项上，将该媒体项识别为是要播放的特定媒体项(例如，利用识别单元1124)。

在一些示例中，用于调整电子设备上的应用程序的状态或设置的请求包括用于启动电子设备上的应用程序的请求。在一些示例中，所显示的内容包括在电子设备上播放的媒体内容，并且状态或设置与在电子设备上播放的媒体内容有关。在一些示例中，用于调整电子设备上的应用程序的状态或设置的请求包括用于使电子设备上播放的媒体内容快进或快退的请求。在一些示例中，用于调整电子设备上的应用程序的状态或设置的请求包括用于在媒体内容中向前或向后跳转以播放媒体内容的特定部分的请求。在一些示例中，用于调整电子设备上的应用程序的状态或设置的请求包括用于使电子设备上播放的媒体内容暂停的请求。在一些示例中，用于调整电子设备上的应用程序的状态或设置的请求包括用于打开或关闭媒体内容的字幕的请求。

在一些示例中，所显示的内容包括具有第一媒体项和第二媒体项的用户界面。

在一些示例中，用于调整电子设备上的应用程序的状态或设置的请求包括用于将用户界面的焦点从第一媒体项切换至第二媒体项的请求。调整应用程序的状态或设置以满足用户意图包括将用户界面的焦点从第一媒体项切换至第二媒体项。

在一些示例中，所显示的内容包括正在媒体设备上播放的媒体内容。用户话语是指示用户未听到与媒体内容相关联的音频的一部分的自然语言表达。用于调整电子设备上的应用程序的状态或设置的请求包括用于重新播放媒体内容的一部分的请求，该媒体内容的一部分对应于用户未听到的音频的一部分。该处理单元1108被进一步配置为使媒体内容向媒体内容的先前部分快退预先确定的量(例如，利用任务执行单元1120)；以及从先前部分重新开始播放媒体内容(例如，利用任务执行单元1120)。

在一些示例中，该处理单元1108被进一步配置为在从先前部分重新开始播放媒体内容之前打开隐藏式字幕(例如，利用任务执行单元1120)。

在一些示例中，用于调整电子设备上的应用程序的状态或设置的请求还包括用于增大与媒体内容相关联的音频的音量的请求。调整应用程序的状态或设置还包括在从先前部分重新开始播放媒体内容之前增加与媒体内容相关联的音频的音量。

在一些示例中，将与媒体内容相关联的音频中的语音转换成文本。调整应用程序的状态或设置还包括在从先前部分重新开始播放媒体内容时显示文本的一部分。

在一些示例中，该处理单元1108被进一步配置为获取对与用户话语相关联的用户情绪的确定(例如，利用获取单元1122)。基于所确定的用户情绪来确定用户意图。

在一些示例中，该处理单元1108被进一步配置为响应于获取用户意图不包括调整电子设备上的应用程序的状态或设置的请求的确定而获取对用户意图是否是多个预先确定的请求类型中的一个预先确定的请求类型的确定(例如，利用获取单元1122)。该处理单元1108被进一步配置为响应于获取用户意图是多个预先确定的请求类型中的一个预先确定的请求类型的确定而获取至少部分地满足用户意图的结果(例如，利用获取单元1122)，并且将结果以文本形式显示在显示单元上(例如，利用显示启用单元1110)。

在一些示例中，多个预先确定的请求类型包括对特定位置处的当前时间的请求。在一些示例中，多个预先确定的请求类型包括用于呈现笑话的请求。在一些示例中，多个预先确定的请求类型包括对关于在电子设备上播放的媒体内容的信息的请求。在一些示例中，文本形式的结果覆盖在所显示的内容上。在一些示例中，所显示的内容包括在电子设备上播放的媒体内容，并且在显示文本形式的结果时媒体内容继续播放。

在一些示例中，该处理单元1108被进一步配置为响应于获取用户意图不是多个预先确定的请求类型中的一个预先确定的请求类型的确定，获取至少部分地满足用户意图的媒体内容(例如，利用获取单元1122)，并且确定所显示的内容是否包括在电子设备上播放的媒体内容(例如，利用确定单元1114)。该处理单元1108被进一步配置为根据确定所显示的内容包括媒体内容而确定媒体内容是否可被暂停(例如，确定单元1114)。该处理单元1108被进一步配置为根据确定媒体内容不可被暂停而在显示单元上显示包含第二结果的一部分的第二用户界面(例如，显示启用单元1110)。第二用户界面在显示单元上占据的显示区域小于媒体内容在显示单元上占据的显示区域。

在一些示例中，该用户意图包括对特定位置的天气预报的请求。该用户意图包括对与运动队或运动员相关联的信息的请求。在一些示例中，该用户意图不是媒体搜索查询，并且其中第二结果包括具有至少部分地满足用户意图的媒体内容的一个或多个媒体项。在一些示例中，该第二结果还包括至少部分地满足用户意图的非媒体数据。在一些示例中，该用户意图是媒体搜索查询，并且第二结果包括与媒体搜索查询对应的多个媒体项。

在一些示例中，该处理单元1108被进一步配置为根据确定所显示的内容不包括在电子设备上播放的媒体内容而在显示单元上显示包含第二结果的一部分的第三用户界面(例如，利用显示启用单元1110)，其中第三用户界面占据显示单元的大部分显示区域。

在一些示例中，该显示内容包括主菜单用户界面。

在一些示例中，所显示的内容包括具有先前结果的第三用户界面，该先前结果与在检测用户输入之前所接收的先前用户请求相关。根据确定所显示的内容不包括在电子设备上播放的媒体内容，利用对第二结果的显示来替换对第三用户界面中的先前结果的显示。

在一些示例中，该处理单元1108被进一步配置为根据确定所显示的内容包括在电子设备上播放的媒体内容而确定所显示的内容是否包括具有来自先前用户请求的先前结果的第二用户界面(例如，利用确定单元1114)。根据确定所显示的内容包括具有来自先前用户请求的先前结果的第二用户界面，利用第二结果来替换先前结果。

在一些示例中，该处理单元1108被进一步配置为根据确定媒体内容可被暂停，暂停播放电子设备上的媒体内容(例如，利用任务执行单元1120)，并且在显示单元上显示包含第二结果的一部分的第三用户界面(例如，利用显示启用单元1110)，其中第三用户界面占据显示单元的大部分显示区域。

在一些示例中，该处理单元1108被进一步配置为将音频数据传输至服务器以执行自然语言处理(例如，利用传输单元1126并使用通信单元1107)，并且向服务器指示音频数据与媒体应用程序相关联(例如，利用传输单元1126)。该指示使自然语言处理偏向与媒体相关的用户意图。

在一些示例中，该处理单元1108被进一步配置为将音频数据传输至服务器以执行语音转文本处理(例如，传输单元1126)。

在一些示例中，该处理单元1108被进一步配置为向服务器指示音频数据与媒体应用程序相关联(例如，利用传输单元1126)。该指示将语音转文本处理偏向于与媒体相关的文本结果。

在一些示例中，该处理单元1108被进一步配置为获取用户话语的文本表示(例如，利用获取单元1122)，其中该文本表示基于在对音频数据进行采样之前所接收的先前用户话语。

在一些示例中，文本表示基于在对音频数据进行采样之前接收到先前用户话语的时间。

在一些示例中，该处理单元1108被进一步配置为(例如，利用获取单元1122)获取用户意图不对应于与电子设备相关联的多个核心竞争力中一个核心竞争力的确定。该处理单元1108被进一步配置为使得第二电子设备执行促成满足用户意图的任务(例如，利用任务执行单元1120)。

在一些示例中，该处理单元1108被进一步配置为获取用户话语是否包括模糊术语的确定(例如，利用获取单元1122)。该处理单元1108被进一步配置为响应于获取用户话语包括模糊术语的确定而基于模糊术语获取两个或更多个候选用户意图(例如，利用获取单元1122)来；以及在显示单元上显示两个或更多个候选用户意图(例如，利用显示启用单元1110)。

在一些示例中，该处理单元1108被进一步配置为在显示两个或更多个候选用户意图时，接收对两个或更多个候选用户意图中的一个候选用户意图的用户选择(例如，利用检测单元1112)。基于用户选择来确定用户意图。

在一些示例中，该处理单元1108被进一步配置为检测第二用户输入(例如，利用检测单元)。该处理单元1108被进一步配置为响应于检测到第二用户输入而对第二音频数据进行采样(例如，利用采样单元1116)。该第二音频数据包括表示用户选择的第二用户话语。

在一些示例中，显示两个或更多个解译，而无需输出与两个或更多个候选用户意图相关联的语音。

根据一些实施方案，该处理单元1108被进一步配置为在显示单元(例如，显示单元1102或独立显示单元)上显示内容(例如，利用显示启用单元1110)。该处理单元1108被进一步配置为在显示内容时检测用户输入(例如，利用检测单元1112)。该处理单元1108被进一步配置为响应于检测到用户输入而在显示单元上显示虚拟键盘界面(例如，利用显示启用单元1110)。该处理单元1108被进一步配置为使得可选择示能表示出现在第二电子设备的显示器上(例如，利用任务执行单元1120)。对示能表示的选择使得电子设备经由第二电子设备的键盘来接收文本输入(例如，使用通信单元1107)。

在一些示例中，该处理单元1108被进一步配置为经由第二电子设备的键盘来接收文本输入(例如，利用检测单元1112)，其中该文本输入表示用户请求。该处理单元1108被进一步配置为获取至少部分地满足用户请求的结果(例如，利用获取单元1122)，并在显示单元上显示用户界面且(例如，利用显示启用单元1110)，其中该用户界面包括该结果的至少一部分。

在一些示例中，所显示的内容包括具有多个示例性自然语言请求的第二用户界面。在一些示例中，所显示的内容包括媒体内容。在一些示例中，所显示的内容包括具有来自先前用户请求的结果的第三用户界面，其中第三用户界面占据显示单元的至少大部分显示区域。在一些示例中，该虚拟键盘界面覆盖在第三用户界面的至少一部分上。在一些示例中，经由电子设备的遥控器来检测用户输入，并且遥控器和第二电子设备是不同的设备。在一些示例中，该用户输入包括遥控设备的触敏表面上的预先确定的动作模式。在一些示例中，经由第二电子设备来检测用户输入。

以上参考图7A至图7C和图9所述的操作任选地由图1至图3和图4A中所示的部件来实现。以上参考图7A至图7C和图9所述的操作任选地由图1至图3和图4A至图4B所示的部件来实现。例如，显示操作702,716,732,736,738,742,746,902,906,914、检测操作704,718,904,910、确定操作708,710,712,714,720,724,728,736,740、采样操作706、执行操作722,726,744,908、获取操作730,734,912，以及切换操作552,564可由操作系统252,352、GUI模块256,356、应用程序模块262,362、数字助理模块426和一个或多个处理器204,304,404中的一者或多者来实现。本领域的技术人员将清楚地知道可如何基于图1至图3和图4A至图4B中所示的部件来实现其他过程。

根据一些具体实施，提供了一种计算机可读存储介质(例如，非暂态计算机可读存储介质)，该计算机可读存储介质存储供电子设备的一个或多个处理器执行的一个或多个程序，该一个或多个程序包括用于执行本文所述的任何方法的指令。

根据一些具体实施，提供了一种包括用于执行本文所述的任何方法的装置的电子设备(例如，便携式电子设备)。

根据一些具体实施，提供了一种包括被配置为执行本文所述的任何方法的处理单元的电子设备(例如，便携式电子设备)。

根据一些具体实施，提供了一种电子设备(例如，便携式电子设备)，该电子设备包括一个或多个处理器和存储有供一个或多个处理器执行的一个或多个程序的存储器，该一个或多个程序包括用于执行本文所述的任何方法的指令。

在以下项目中陈述了示例性方法、非暂态计算机可读存储介质、系统和电子设备：

1.一种用于操作媒体系统的数字助理的方法，所述方法包括：

在具有存储器和一个或多个处理器的电子设备处：

在显示单元上显示内容；

检测用户输入；

确定用户输入是否对应于第一输入类型；以及

根据确定用户输入对应于第一输入类型：

在显示单元上显示多个示例性自然语言请求，多个示例性自然语言请求与所显示的内容上下文相关，其中接收与多个示例性自然语言请求中的一个示例性自然语言请求对应的用户话语使得数字助理执行相应动作。

2.根据项目1所述的方法，其中在电子设备的遥控器上检测用户输入。

3.根据项目2所述的方法，其中第一输入类型包括按压遥控器的按钮并在预先确定的持续时间内释放按钮。

4.根据项目1至项目3中任一项所述的方法，其中多个示例性自然语言请求经由第一用户界面而被显示在显示单元上，并且其中第一用户界面覆盖在所显示的内容上。

5.根据项目1至项目4中任一项所述的方法，其中所显示的内容包括媒体内容，并且其中在显示多个示例性自然语言请求时，媒体内容继续播放。

6.根据项目1至项目5中任一项所述的方法，还包括：

根据确定用户输入对应于第一输入类型，在显示单元上显示用于指示数字助理并未正在处理音频输入的视觉指示符。

7.根据项目1至项目6中任一项所述的方法，其中在确定用户输入对应于第一输入类型之后，在预先确定量的时间之后在显示单元上显示多个示例性自然语言请求。

8.根据项目1至项目7中任一项所述的方法，其中多个示例性自然语言请求中的每个示例性自然语言请求以预先确定的顺序并且在不同的时间单独显示。

9.根据项目1至项目8中任一项所述的方法，其中显示多个示例性自然语言请求包括：

显示示例性自然语言请求的多个列表，其中每个列表在不同的时间并且轮番被显示。

10.根据项目1至项目9中任一项所述的方法，还包括：

根据确定用户输入不对应于第一输入类型：

确定用户输入是否对应于第二输入类型；以及

根据确定用户输入对应于第二输入类型：

对音频数据进行采样；

确定音频数据是否包含用户请求；以及

根据确定音频数据包含用户请求，执行至少部分地满足用户请求的任务。

11.根据项目10所述的方法，其中第二输入类型包括按压电子设备的遥控器的按钮并按住按钮超过预先确定的持续时间。

12.根据项目10至项目11中任一项所述的方法，还包括：

根据确定音频数据不包含用户请求，在显示单元上显示用于澄清用户意图的请求。

13.根据项目10至项目12中任一项所述的方法，其中所显示的内容包括媒体内容，并且其中在对音频数据进行采样时以及在执行任务时，媒体内容在电子设备上继续播放。

14.根据项目13所述的方法，还包括：

输出与媒体内容相关联的音频；以及

根据确定用户输入对应于第二输入类型，减小音频的振幅。

15.根据项目10至项目14中任一项所述的方法，其中任务被执行，而无需从电子设备输出与任务相关的语音。

16.根据项目10至项目15中任一项所述的方法，其中在检测到用户输入时对音频数据进行采样。

17.根据项目10至项目15中任一项所述的方法，其中在检测到用户输入之后，在预先确定的持续时间内对音频数据进行采样。

18.根据项目10至项目17中任一项所述的方法，其中经由电子设备的遥控器上的第一麦克风来对音频数据进行采样，并且还包括：

在对音频数据进行采样时，经由遥控器上的第二麦克风来对背景音频数据进行采样；以及

使用背景音频数据来消除音频数据中的背景噪声。

19.根据项目10至项目18中任一项所述的方法，其中与所显示的内容相关联的音频经由来自电子设备的音频信号而被输出，并且还包括：

使用音频信号来消除音频数据中的背景噪声。

20.根据项目10至项目19中任一项所述的方法，还包括：

响应于检测到用户输入，在显示单元上显示用于提示用户提供口头请求的视觉提示。

21.根据项目10至项目20中任一项所述的方法，其中所执行的任务包括：

获取至少部分地满足用户请求的结果；以及

在显示单元上显示第二用户界面，第二用户界面包括结果的一部分，其中在显示第二用户界面时继续显示内容的至少一部分，并且其中显示单元上的第二用户界面的显示区域小于显示单元上的内容的至少一部分的显示区域。

22.根据项目21所述的方法，其中第二用户界面覆盖在所显示的内容上。

23.根据项目21至项目22中任一项所述的方法，其中结果的一部分包括一个或多个媒体项，并且还包括：

经由第二用户界面来接收对一个或多个媒体项中的媒体项的选择；以及

在显示单元上显示与所选择的媒体项相关联的媒体内容。

24.根据项目21至项目22中任一项所述的方法，还包括：

在显示第二用户界面时，检测第二用户输入；以及

响应于检测到第二用户输入，停止显示第二用户界面。

25.根据项目24所述的方法，其中在电子设备的遥控器上检测第二用户输入，并且其中第二用户输入包括遥控器的触敏表面上的第一预先确定的动作模式。

26.根据项目21至项目22中任一项所述的方法，还包括：

在显示第二用户界面时，检测第三用户输入；以及

响应于检测到第三用户输入，利用对显示单元上的第三用户界面的显示来替换对第二用户界面的显示，第三用户界面包括结果的至少一部分，其中第三用户界面占据显示单元的至少大部分显示区域。

27.根据项目26所述的方法，其中在电子设备的遥控器上检测第三用户输入，并且其中第三用户输入包括遥控器的触敏表面上的第二预先确定的动作模式。

28.根据项目26至项目27中任一项所述的方法，还包括：

响应于检测到第三用户输入：

获取与结果不同的第二结果，其中第二结果至少部分地满足用户请求，并且其中第三用户界面包括第二结果的至少一部分。

29.根据项目28所述的方法，其中第二结果基于在检测到用户输入之前所接收的用户请求。

30.根据项目28至项目29中任一项所述的方法，其中在检测到第三用户输入时，第二用户界面的焦点位于结果的一部分的项目上，并且其中第二结果与项目上下文相关。

31.根据项目26至项目30中任一项所述的方法，其中所显示的内容包括媒体内容，并且其中响应于检测到第三用户输入，暂停播放电子设备上的媒体内容。

32.根据项目26至项目31中任一项所述的方法，其中结果的至少一部分包括一个或多个媒体项，并且还包括：

经由第三用户界面来接收对一个或多个媒体项中的媒体项的选择；以及

在显示单元上显示与媒体项相关联的媒体内容。

33.根据项目26至项目32中任一项所述的方法，还包括：

在显示第三用户界面时，检测与显示单元上的方向相关联的第四用户输入；

响应于检测到第四用户输入：

在第三用户界面上将第三用户界面的焦点从第一项目切换至第二项目，第二项目被定位在相对于第一项目的方向上。

34.根据项目26至项目33中任一项所述的方法，还包括：

在显示第三用户界面时，检测第五用户输入；以及

响应于检测到第五用户输入：

显示搜索字段；以及

在显示单元上显示虚拟键盘界面，其中经由虚拟键盘界面所接收的输入导致搜索字段中的文本输入。

35.根据项目26至项目34中任一项所述的方法，还包括：

在显示第三用户界面时，检测第六用户输入；以及

响应于检测到第六用户输入：

对第二音频数据进行采样，第二音频数据包含第二用户请求；

确定第二用户请求是否是用于细化用户请求的结果的请求；以及

根据确定第二用户请求是用于细化用户请求的结果的请求：

经由第三用户界面来显示结果的子组。

36.根据项目35所述的方法，其中结果的所述子组被显示在第三用户界面的顶行处。

37.根据项目35至项目36中任一项所述的方法，还包括：

根据确定第二用户请求不是用于细化用户请求的结果的请求：

获取至少部分地满足第二用户请求的第三结果；以及

经由第三用户界面来显示第三结果的一部分。

38.根据项目37所述的方法，其中第三结果的一部分被显示在第三用户界面的顶行处。

39.根据项目35至项目38中任一项所述的方法，还包括：

获取至少部分地满足用户请求或第二用户请求的第四结果；以及

经由第三用户界面来显示第四结果的一部分。

40.根据项目39所述的方法，其中第四结果的一部分被显示在第三用户界面的顶行之后的行处。

41.根据项目39至项目40中任一项所述的方法，其中在检测到第六用户输入时，第三用户界面的焦点位于第三用户界面的一个或多个项目上，并且其中第四结果与一个或多个项目上下文相关。

42.根据项目26至项目41中任一项所述的方法，还包括：

在显示第三用户界面时，检测第七用户输入；

响应于检测到第七用户输入，停止显示第三用户界面。

43.根据项目42所述的方法，其中所显示的内容是媒体内容，其中响应于检测到第三用户输入而暂停播放电子设备上的媒体内容，并且其中响应于检测到第七用户输入而恢复播放电子设备上的媒体内容。

44.根据项目42至项目43中任一项所述的方法，其中第七用户输入包括按压电子设备的遥控器的菜单按钮。

45.一种用于操作媒体系统的数字助理的方法，所述方法包括：

在具有存储器和一个或多个处理器的电子设备处：

在显示单元上显示内容；

在显示内容时，检测用户输入；

响应于检测到所述用户输入：

在显示单元上显示用户界面，用户界面包括与所显示的内容上下文相关的多个示例性自然语言请求，其中接收与多个示例性自然语言请求中的一个例性自然语言请求对应的用户话语使得数字助理执行相应动作。

46.根据项目45所述的方法，其中所显示的内容包括媒体内容。

47.根据项目46所述的方法，其中多个示例性自然语言请求包括用于修改与媒体内容相关联的一个或多个设置的自然语言请求。

48.根据项目46至项目47中任一项所述的方法，其中在显示用户界面时，媒体内容继续播放。

49.根据项目46至项目41中任一项所述的方法，还包括：

输出与媒体内容相关联的音频，其中音频的振幅不响应于检测到用户输入而减小。

50.根据项目45所述的方法，其中所显示的内容包括主菜单用户界面。

51.根据项目50所述的方法，其中多个示例性自然语言请求包括与数字助理的多个核心竞争力中的每个核心竞争力相关的示例性自然语言请求。

52.根据项目45所述的方法，其中所显示的内容包括具有与先前用户请求相关联的结果的第二用户界面。

53.根据项目52所述的方法，其中多个示例性自然语言请求包括用于细化结果的自然语言请求。

54.根据项目45至项目53中任一项所述的方法，其中用户界面包括用于调用数字助理并与其进行交互的文本指令。

55.根据项目45至项目54中任一项所述的方法，其中用户界面包括指示数字助理并未正在接收音频输入的视觉指示符。

56.根据项目45至项目55中任一项所述的方法，其中用户界面覆盖在所显示的内容上。

57.根据项目45至项目56中任一项所述的方法，还包括：

响应于检测到用户输入，减小所显示的内容的亮度以突出显示用户界面。

58.根据项目45至项目57中任一项所述的方法，其中在电子设备的遥控器上检测用户输入。

59.根据项目58所述的方法，其中用户输入包括按压遥控设备的按钮并且在按压按钮之后的预先确定的持续时间内释放按钮。

60.根据项目59所述的方法，其中按钮被配置为调用数字助理。

61.根据项目45至项目60中任一项所述的方法，其中用户界面包括用于显示虚拟键盘界面的文本指令。

62根据项目45至项目61中任一项所述的方法，还包括：

在显示用户界面之后，检测第二用户输入；以及

响应于检测到第二用户输入，在显示单元上显示虚拟键盘界面。

63.根据项目62所述的方法，还包括：

将用户界面的焦点改变到用户界面上的搜索字段。

64.根据项目63所述的方法，其中搜索字段被配置为经由虚拟键盘界

面来接收文本搜索查询。

65.根据项目45至项目64中任一项所述的方法，其述虚拟键盘界面不可用于与数字助理进行交互。

66.根据项目45至项目65中任一项所述的方法，其中第二用户输入包括电子设备的遥控设备的触敏表面上的预先确定的动作模式。

67.根据项目45至项目66中任一项所述的方法，其中多个示例性自然语言请求在检测到用户输入之后的预先确定量的时间被显示。

68.根据项目45至项目67中任一项所述的方法，其中显示多个示例性自然语言请求进一步包括：

以预先确定的顺序一次一个地显示多个示例性自然语言请求中的每个示例性自然语言请求。

69.根据项目68所述的方法，其中按顺序显示进一步包括：

利用多个示例性自然语言请求中的后续示例性自然语言请求来替换对多个示例性自然语言请求中的先前所显示的示例性自然语言请求的显示。

70.根据项目45至项目69中任一项所述的方法，其中内容包括具有一个或多个项目的第二用户界面，其中在检测到用户输入时，第二用户界面的焦点位于一个或多个项目中的项目上，并且其中多个示例性自然语言请求与一个或多个项目中的项目上下文相关。

71.一种用于操作媒体系统的数字助理的方法，所述方法包括：

在具有存储器和一个或多个处理器的电子设备处：

在显示单元上显示内容；

检测用户输入；以及

响应于检测到用户输入：

显示自然语言话语的一个或多个所建议的示例，一个或多个所建议的示例与所显示的内容上下文相关并且当由用户说出时使得数字助理执行对应动作。

72.根据项目71所述的方法，还包括：

检测第二用户输入；

响应于检测到第二用户输入：

对音频数据进行采样；

确定经采样的音频数据是否包含自然语言话语的一个或多个所建议的示例中的一个所建议的示例；以及

根据确定经采样的音频数据包含自然语言话语的一个或多个所建议的示例中的一个所建议的示例，对话语执行对应动作。

73.一种用于操作媒体系统的数字助理的方法，所述方法包括：

在具有存储器和一个或多个处理器的电子设备处：

在显示单元上显示内容；

在显示内容时，检测用户输入；

响应于检测到用户输入，对音频数据进行采样，其中音频数据包括用户话语；

获取对与用户话语对应的用户意图的确定；

获取对用户意图是否包括用于调整电子设备上的应用程序的状态或设置的请求的确定；以及

响应于获取用户意图是否包括用于调整电子设备上的应用程序的状态或设置的请求的确定，调整应用程序的状态或设置以满足用户意图。

74.根据项目73所述的方法，其中用于调整电子设备上的应用程序的状态或设置的请求包括用于播放特定媒体项的请求，并且其中调整应用程序的状态或设置以满足用户意图包括播放特定媒体项。

75.根据项目74所述的方法，其中所显示的内容包括具有媒体项的用户界面，其中用户话语未明确定义要播放的特定媒体项，并且还包括：

确定用户界面的焦点是否位于媒体项上；以及

根据确定用户界面的焦点位于媒体项上，将媒体项识别为要播放的特定媒体项。

76.根据项目73所述的方法，其中用于调整电子设备上的应用程序的状态或设置的请求包括用于启动电子设备上的应用程序的请求。

77.根据项目73所述的方法，其中所显示的内容包括正在电子设备上播放的媒体内容，并且其中状态或设置与正在电子设备上播放的媒体内容相关。

78.根据项目77所述的方法，其中用于调整电子设备上的应用程序的状态或设置的请求包括用于使正在电子设备上播放的媒体内容快进或快退的请求。

79.根据项目77所述的方法，其中用于调整电子设备上的应用程序的状态或设置的请求包括用于在媒体内容中向前或向后跳转以播放媒体内容的特定部分的请求。

80.根据项目77所述的方法，其中用于调整电子设备上的应用程序的状态或设置的请求包括用于暂停播放电子设备上的媒体内容的请求。

81.根据项目77所述的方法，其中用于调整电子设备上的应用程序的状态或设置的请求包括用于打开或关闭媒体内容的字幕的请求。

82.根据项目73所述的方法，其中：

所显示的内容包括具有第一媒体项和第二媒体项的用户界面；

用于调整电子设备上的应用程序的状态或设置的请求包括用于将用户界面的焦点从第一媒体项切换至第二媒体项的请求；并且

调整应用程序的状态或设置以满足用户意图包括将用户界面的焦点从第一媒体项切换至第二媒体项。

83.根据项目73所述的方法，其中：

所显示的内容包括正在媒体设备上播放的媒体内容；

用户话语是指示用户未听到与＝媒体内容相关联的音频的一部分的自然语言表达；

用于调整电子设备上的应用程序的状态或设置的请求包括用于重放与用户未听到的音频的所述一部分对应的媒体内容的一部分的请求；并且

调整应用程序的状态或设置包括：

使媒体内容向媒体内容的先前部分快退预先确定的量；以及

从先前部分重新开始播放媒体内容。

84.根据项目83所述的方法，其中调整应用程序的状态或设置进一步包括：

在从先前部分重新开始播放媒体内容之前打开隐藏式字幕。

85.根据项目83至项目84中任一项所述的方法，其中：

用于调整电子设备上的应用程序的状态或设置的请求进一步包括用于增大与媒体内容相关联的音频的音量的请求；并且

调整应用程序的状态或设置进一步包括在从先前部分重新开始播放媒体内容之前，增大与媒体内容相关联的音频的音量。

86.根据项目83至项目84中任一项所述的方法，其中：

与媒体内容相关联的音频中的语音被转换成文本；并且

调整应用程序的状态或设置进一步包括在从先前部分重新开始播放媒体内容时，显示文本的一部分。

87.根据项目73至项目85中任一项所述的方法，其中获取对与用户话语对应的用户意图的确定进一步包括：

获取对与用户话语相关联的用户情绪的确定，其中基于所确定的用户情绪来确定用户意图。

88.根据项目73至项目87中任一项所述的方法，还包括：

响应于获取用户意图不包括调整电子设备上的应用程序的状态或设置的请求的确定，获取对用户意图是否是多个预先确定的请求类型中的一个预先确定的请求类型的确定；以及

响应于获取用户意图是多个预先确定的请求类型中的一个预先确定的请求类型的确定：

获取至少部分地满足用户意图的结果；以及

在显示单元上以文本形式显示结果。

89.根据项目88所述的方法，其中多个预先确定的请求类型包括对特定位置处的当前时间的请求。

90.根据项目88所述的方法，其中多个预先确定的请求类型包括用于呈现笑话的请求。

91.根据项目88所述的方法，其中所述多个预先确定的请求类型包括对关于正在电子设备上播放的媒体内容的信息的请求。

92.根据项目88至项目91中任一项所述的方法，其中文本形式的结果覆盖在所显示的内容上。

93.根据项目88至项目92中任一项所述的方法，其中所显示的内容包括正在电子设备上播放的媒体内容，并且其中在显示文本形式的结果时，媒体内容继续播放。

94.根据项目88至项目93中任一项所述的方法，还包括：

响应于获取用户意图不是多个预先确定的请求类型中的一种的确定：

获取至少部分地满足用户意图的第二结果；

确定所显示的内容是否包括正在电子设备上播放的媒体内容；以及

根据确定所显示的内容包括媒体内容：

确定媒体内容是否可被暂停；以及

根据确定媒体内容不可被暂停，在显示单元上显示具有第二结果的一部分的第二用户界面，其中第二用户界面在显示单元上占据的显示区域小于媒体内容在显示单元上占据的显示区域。

95.根据项目94所述的方法，其中用户意图包括对特定位置处的天气预报的请求。

96.根据项目94所述的方法，其中用户意图包括对与运动队或运动员相关联的信息的请求。

97.根据项目94至项目96中任一项所述的方法，其中用户意图不是媒体搜索查询，并且其中第二结果包括具有至少部分地满足用户意图的媒体内容的一个或多个媒体项。

98.根据项目97中的任一项所述的方法，其中第二结果进一步包括至少部分地满足用户意图的非媒体数据。

99.根据项目94所述的方法，其中用户意图是媒体搜索查询，并且第二结果包括与媒体搜索查询对应的多个媒体项。

100.根据项目94至项目99中任一项所述的方法，还包括：

根据确定所显示的内容不包括正在电子设备上播放的媒体内容，在显示单元上显示具有第二结果的一部分的第三用户界面，其中第三用户界面占据显示单元的大部分显示区域。

101.根据项目100所述的方法，其中显示内容包括主菜单用户界面。

102.根据项目100所述的方法，其中：

所显示的内容包括具有先前结果的所述第三用户界面，先前结果与在检测到用户输入之前所接收的先前用户请求相关；并且

根据确定所显示的内容不包括正在电子设备上播放的媒体内容，利用对第二结果的显示来替换对第三用户界面中的先前结果的显示。

103.根据项目94至项目102中任一项所述的方法，还包括：

根据确定所显示的内容包括正在电子设备上播放的媒体内容：

确定所显示的内容是否包括具有来自先前用户请求的先前结果的第二用户界面，其中根据确定所显示的内容包括具有来自先前用户请求的先前结果的第二用户界面，利用第二结果来替换先前结果。

104.根据项目94至项目103中任一项所述的方法，还包括：

根据确定媒体内容可被暂停：

暂停播放电子设备上的媒体内容；

在显示单元上显示具有第二结果的一部分的第三用户界面，其中第三用户界面占据显示单元的大部分显示区域。

105.根据项目73至项目104中任一项所述的方法，还包括：

将音频数据传输至服务器，以执行自然语言处理；以及

向服务器指示音频数据与媒体应用程序相关联，其中指示使自然语言处理偏向于媒体相关的用户意图。

106.根据项目73至项目105中任一项所述的方法，还包括：

将音频数据传输至服务器，以执行语音转文本处理。

107.根据项目106所述的方法，还包括：

向服务器指示所述音频数据与媒体应用程序相关联，其中指示使语音转文本处理偏向于媒体相关的文本结果。

108.根据项目106至项目107中任一项所述的方法，还包括：

获取用户话语的文本表示，文本表示基于在对音频数据进行采样之前所接收的先前用户话语。

109.根据项目108所述的方法，其中文本表示基于在对音频数据进行采样之前接收先前用户话语的时间。

110.根据项目73至项目109中任一项所述的方法，还包括：

获取用户意图不对应于与电子设备相关联的多个核心竞争力中的一个核心竞争力的确定；以及

使得第二电子设备执行促成满足用户意图的任务。

111.根据项目73至项目110中任一项所述的方法，其中获取对用户意图的确定进一步包括：

获取对用户话语是否包括模糊术语的确定；

响应于获取用户话语包括模糊术语的确定：

基于模糊术语来获取两个或更多个候选用户意图；以及

在显示单元上显示两个或更多个候选用户意图。

112.根据项目111所述的方法，还包括：

在显示两个或更多个候选用户意图时，接收对两个或更多个候选用户意图中的一个候选用户意图的用户选择，并且其中基于所用户选择来确定用户意图。

113.根据项目112所述的方法，其中接收用户选择还包括：

检测第二用户输入；以及

响应于检测到第二用户输入，对第二音频数据进行采样，其中第二音频数据包括表示用户选择的第二用户话语。

114.根据项目111至项目113中任一项所述的方法，其中两个或更多个解译被显示，而无需输出与两个或更多个候选用户意图相关联的语音。

115.一种用于操作媒体系统的数字助理的方法，所述方法包括：

在具有存储器和一个或多个处理器的电子设备处：

在显示单元上显示内容；

在显示内容时，检测用户输入；

响应于检测到用户输入，对音频数据进行采样，其中音频数据包括表示媒体搜索请求的用户话语；

获取满足媒体搜索请求的多个媒体项；以及

经由用户界面来在所述显示单元上显示所述多个媒体项的至少一部分。

116.根据项目115所述的方法，其中在显示多个媒体项的至少一部分时，内容继续被显示在显示单元上，并且其中用户界面所占据的显示区域小于内容所占据的显示区域。

117.根据项目115至项目116中任一项所述的方法，还包括：

确定多个媒体项中的媒体项的数量是否小于或等于预先确定的数量，其中根据确定多个媒体项中的媒体项的数量小于或等于预先确定的数量，多个媒体项的至少一部分包括多个媒体项。

118.根据项目117所述的方法，其中根据确定多个媒体项中的媒体项的数量大于预先确定的数量，多个媒体项的至少一部分中的媒体项的数量等于预先确定的数量。

119.根据项目115至项目118中任一项所述的方法，其中多个媒体项中的每个媒体项与相对于媒体搜索请求的相关性得分相关联，并且其中多个媒体项的至少一部分的相关性得分在多个媒体项中是最高的。

120.根据项目115至项目119中任一项所述的方法，其中多个媒体项的至少一部分中的每个媒体项与流行度评级相关联，并且其中多个媒体项的至少一部分基于流行度评级而被布置在用户界面中。

121.根据项目115至项目120中任一项所述的方法，还包括：

在显示多个媒体项的至少一部分时，检测第二用户输入；以及

响应于检测到第二用户输入，扩展用户界面以占据显示单元的至少大部分显示区域。

122.根据项目121所述的方法，还包括：

响应于检测到第二用户输入：

确定多个媒体项中的媒体项的数量是否小于或等于预先确定的数量；以及

根据确定多个媒体项中的媒体项的数量小于或等于预先确定数量：

获取至少部分地满足媒体搜索请求的第二多个媒体项，第二多个媒体项不同于媒体项的至少一部分；以及

经由经扩展的用户界面来在显示单元上显示第二多个媒体项。

123.根据项目122所述的方法，还包括：

确定媒体搜索请求是否包括多于一个搜索参数，其中根据确定媒体搜索请求包括多于一个搜索参数，第二多个媒体项在经扩展的用户界面中根据媒体搜索请求的多于一个搜索参数而被组织。

124.根据项目122至项目123中任一项所述的方法，还包括：

根据确定多个媒体项中的媒体项的数量大于预先确定的数量：

经由经扩展的用户界面来显示多个媒体项的至少第二部分，其中多个媒体项的至少第二部分不同于多个媒体项的至少一部分。

125.根据项目124所述的方法，其中多个媒体项的至少第二部分包括两个或更多个媒体类型，并且其中多个媒体项的至少第二部分在经扩展的用户界面中根据两个或更多个媒体类型中的每个媒体类型而被组织。

126.根据项目122至项目125中任一项所述的方法，还包括：

检测第三用户输入；

响应于检测到第三用户输入，使得经扩展的用户界面滚动；

确定经扩展的用户界面是否已滚动超过经扩展的用户界面上的预先确定的位置；以及

响应于确定经扩展的用户界面已滚动超过经扩展的用户界面上的预先确定的位置，在经扩展的用户界面上显示多个媒体项的至少第三部分，其中多个媒体项的至少第三部分在经扩展的用户界面上根据与第三多个媒体项相关联的一个或多个媒体内容提供方而被组织。

127.一种用于操作媒体系统的数字助理的方法，所述方法包括：

在具有存储器和一个或多个处理器的电子设备处：

在显示单元上显示内容；

在显示内容时，检测用户输入；以及

响应于检测到用户输入：

在显示单元上显示虚拟键盘界面；以及

使得可选择示能表示出现在第二电子设备的显示器上，其中对示能表示的选择使得文本输入将由电子设备经由第二电子设备的键盘接收。

128.根据项目127所述的方法，还包括：

经由所述第二电子设备的键盘来接收文本输入，文本输入表示用户请求；

获取至少部分地满足用户请求的结果；以及

在显示单元上显示用户界面，用户界面包括结果的至少一部分。

129.根据项目127至项目128中任一项所述的方法，其中所显示的内容包括具有多个示例性自然语言请求的第二用户界面。

130.根据项目129所述的方法，其中所显示的内容包括媒体内容。

131.根据项目127至项目128中任一项所述的方法，其中所显示的内容包括具有来自先前用户请求的结果的第三用户界面，第三用户界面占据显示单元的至少大部分显示区域。

132.根据项目131所述的方法，其中虚拟键盘界面覆盖在第三用户界面的至少一部分上。

133.根据项目127至项目132中任一项所述的方法，其中经由电子设备的遥控器来检测用户输入，并且其中遥控器和第二电子设备是不同的设备。

134.根据项目133所述的方法，其中用户输入包括遥控设备的触敏表面上的预先确定的动作模式。

135.根据项目127至项目132中任一项所述的方法，其中经由第二电子设备来检测用户输入。

136.一种非暂态计算机可读存储介质，非暂态计算机可读存储介质包含用于执行根据项目1至项目135中任一项所述的方法的计算机可执行指令。

137.一种系统，包括：

根据项目136所述的非暂态计算机可读存储介质；以及

被配置为执行计算机可执行指令的处理器。

138.一种装置，装置包括用于执行根据项目1至项目135中任一项所述的方法的部件。

139.一种电子设备，包括：

被配置为接收用户输入的输入单元；

耦接至输入单元的处理单元，其中处理单元被配置为：

在显示单元上显示内容；

经由输入单元来检测用户输入；

确定用户输入是否对应于第一输入类型；以及

根据确定用户输入对应于第一输入类型：

140.根据项目139所述的电子设备，还包括耦接至处理单元的音频输入单元，其中处理单元被进一步配置为：

根据确定用户输入不对应于第一输入类型：

确定用户输入是否对应于第二输入类型；以及

根据确定用户输入对应于第二输入类型：

使用音频输入单元来对音频数据进行采样；

确定音频数据是否包含用户请求；

141.根据项目139至项目140中任一项所述的电子设备，其中处理单元被进一步配置为：

获取至少部分地满足用户请求的结果；以及

142.根据项目141所述的电子设备，其中处理单元被进一步配置为：

在显示第二用户界面时，经由输入单元来检测第二用户输入；以及

响应于检测到第二用户输入，停止显示第二用户界面。

143.根据项目141至项目142中任一项所述的电子设备，其中处理单元被进一步配置为：

在显示第二用户界面时，经由输入单元来检测第三用户输入；以及

144.根据项目143所述的电子设备，其中处理单元被进一步配置为：

在显示第三用户界面时，经由输入单元来检测与显示单元上的方向相关联的第四用户输入；以及

响应于检测到第四用户输入：

145.根据项目143至项目144中任一项所述的电子设备，其中处理单元被进一步配置为：

在显示第三用户界面时，经由输入单元来检测第五用户输入；以及

响应于检测到第五用户输入：

显示搜索字段；以及

146.根据项目143至项目145中任一项所述的电子设备，其中处理单元被进一步配置为：

在显示第三用户界面时，经由输入单元来检测第六用户输入；以及

响应于检测到第六用户输入：

对第二音频数据进行采样，该第二音频数据包含第二用户请求；

根据确定第二用户请求是用于细化所述用户请求的结果的请求：

经由第三用户界面来显示结果的子组。

147.一种电子设备，包括：

被配置为接收用户输入的输入单元；

被配置为接收音频数据的音频输入单元；

耦接至输入单元和音频输入单元的处理单元，其中处理单元被配置为：

在显示单元上显示内容；

在显示内容时，经由输入单元来检测用户输入；

响应于检测到用户输入，使用音频输入单元来对音频数据进行采样，其中经采样的音频数据包括用户话语；

获取对与用户话语对应的用户意图的确定；

148.根据项目147所述的电子设备，其中处理单元被进一步配置为：

响应于获取用户意图不包括用于调整电子设备上的应用程序的状态或设置的请求的确定，获取对用户意图是否是多个预先确定的请求类型中的一个预先确定的请求类型的确定；以及

获取至少部分地满足用户意图的结果；以及

在显示单元上以文本形式显示结果。

149.根据项目148所述的电子设备，其中处理单元被进一步配置为：

获取至少部分地满足用户意图的第二结果；

根据确定所显示的内容包括媒体内容：

确定媒体内容是否可被暂停；以及

150.根据项目149所述的电子设备，其中处理单元被进一步配置为：

151.根据项目149所述的电子设备，其中处理单元被进一步配置为：

根据确定媒体内容可被暂停：

暂停播放电子设备上的媒体内容；

152.一种电子设备，包括：

被配置为接收用户输入的输入单元；

耦接至输入单元的处理单元，其中处理单元被配置为：

在显示单元上显示内容；

在显示内容时，经由输入单元来检测用户输入；以及

响应于检测到用户输入：

在显示单元上显示虚拟键盘界面；以及

153.根据项目152所述的电子设备，其中处理单元被进一步配置为：

经由第二电子设备的键盘来接收文本输入，文本输入表示用户请求；

获取至少部分地满足用户请求的结果；以及

虽然以上描述使用“第一”、“第二”等术语来描述了各种元件，但是这些元件不应受到这些术语的限制。这些术语只是用于将一个元件与另一元件区分开。例如，在不脱离各种所描述的实施方案的范围的情况下，第一用户输入可被命名为第二用户输入，并且类似地第二用户输入可被命名为第一用户输入。第一用户输入和第二用户输入都是用户输入，但它们不是相同的触摸。

在本文中对各种所描述的实施方案的描述中所使用的术语只是为了描述特定实施方案的目的，而并非旨在进行限制。如在对各种所述实施方案中的描述和所附权利要求书中所使用的那样，单数形式“一个”(“a”、“an”)和“该”旨在也包括复数形式，除非上下文另外明确地指示。还将理解的是，本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是，术语“包括”(“includes”、“including”、“comprises”和/或“comprising”)在本说明书中使用时是指定存在所陈述的特征、整数、步骤、操作、元件和/或部件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、部件和/或其分组。

根据上下文，术语“如果”可被解释为意指“当...时”(“when”或“upon”)或“响应于确定”或“响应于检测到”。类似地，根据上下文，短语“如果确定...”或“如果检测到[所陈述的条件或事件]”可被解释为意指“在确定...时”或“响应于确定...”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。

此外，出于解释的目的，前面的描述是参考具体的实施方案来描述的。然而，上面的示例性讨论并非旨在是穷尽的或将本发明限制为所公开的精确形式。根据以上教导内容，很多修改形式和变型形式都是可能的。选择并描述这些实施方案是为了最好地解释这些技术的原理及其实际应用。本领域的其他技术人员由此能够最好地利用这些技术以及具有适合于所预期的特定用途的各种修改的各种实施方案。

虽然参照附图对本公开以及示例进行了全面的描述，但应当注意，各种变化和修改对于本领域内的技术人员而言将变得显而易见。应当理解，此类变化和修改被认为被包括在由权利要求书所限定的本公开和示例的范围内。

此外，在本文所讨论的各种示例中的任何一个示例中，各个方面可针对特定用户可被个性化定制。包括联系人、偏好、位置、喜爱的媒体等的用户数据可用于解译语音命令，并促进用户与本文所讨论的各种设备的交互。还可根据用户偏好、联系人、文本、使用历史、简介数据、年龄段数据等以各种其他方式来修改本文所讨论的各种过程。此外，此类偏好和设置可基于用户交互(例如，频繁发出的命令、频繁选择的应用程序等)而随时间更新。可利用收集和使用可从各种源获取的用户数据来改进向用户递送邀请内容或者他们感兴趣的任何其他内容。本公开预期，在一些示例中，这些所收集的数据可包括唯一地识别或可用于联系或定位特定人员的个人信息数据。此类个人信息数据可包括人口数据、基于位置的数据、电话号码、电子邮件地址、家庭地址、或任何其他识别信息。

本公开认识到在本发明技术中使用此类个人信息数据可用于使用户受益。例如，该个人信息数据可用于递送用户较感兴趣的目标内容。因此，使用此类个人信息数据使得能够对所递送的内容进行有计划的控制。此外，本公开还预期个人信息数据有益于用户的其他用途。

本公开还预期负责此类个人信息数据的收集、分析、公开、发送、存储或其他用途的实体将遵守已确立的隐私政策和/或隐私实践。具体地，此类实体应当实行并坚持使用被公认为满足或超出对维护个人信息数据的隐私性和安全性的行业或政府要求的隐私政策和实践。例如，来自用户的个人信息应当被收集用于实体的合法且合理的用途，并且不在这些合法使用之外共享或出售。另外，此类收集应当仅在用户知情同意之后进行。另外，此类实体应采取任何所需的步骤，以保障和保护对此类个人信息数据的访问，并且确保能够访问个人信息数据的其他人遵守他们的隐私政策和程序。另外，这种实体可使其本身经受第三方评估以证明其遵守广泛接受的隐私政策和实践。

不管前述情况如何，本公开还预期用户选择性地阻止使用或访问个人信息数据的示例。即本公开预期可提供硬件元件和/或软件元件，以防止或阻止对此类个人信息数据的访问。例如，就广告递送服务而言，本发明的技术可被配置为在注册服务期间允许用户选择“加入”或“退出”参与对个人信息数据的收集。在另一个示例中，用户可选择不为目标内容递送服务提供位置信息。再如，用户可选择不提供精确的位置信息，但准许传输位置区域信息。

因此，虽然本公开广泛地覆盖了使用个人信息数据来实现一个或多个各种所公开的示例，但本公开还预期各种示例也可在无需访问此类个人信息数据的情况下被实现。即，本发明技术的各种示例不会由于缺少此类个人信息数据的全部或一部分而无法正常呈现。例如，可通过基于非个人信息数据或绝对最低限度的个人信息(例如，由与用户相关联的设备所请求的内容、对内容递送服务可用的其他非个人信息、或公开可用信息)来推断偏好，从而选择内容并递送给用户。

用于媒体搜索和回放的智能自动化助理

相关专利申请的交叉引用

本专利申请要求于2014年6月30日提交的名称为“INTELLIGENT AUTOMATEDASSISTANT FOR TV USER INTERACTIONS”的美国临时序列号62/019,312的优先权，该专利申请据此全文以引用方式并入本文以用于所有目的。

本专利申请还与以下共同未决的临时专利申请相关：于2014年6月30日提交的美国专利申请序列号62/019,292，“Real-time Digital Assistant Knowledge Updates”(代理人案卷号106843097900(P22498USP1))，该专利申请据此全文以引用方式并入本文。

技术领域

本发明整体涉及控制电视用户交互，并且更具体地涉及处理用于虚拟助理的语音以控制电视用户交互。

背景技术

智能自动化助理(或虚拟助理)提供用户与电子设备之间的直观界面。这些助理可允许用户使用自然语言以语音形式和/或文本形式与设备或系统进行交互。例如，用户可通过将自然语言形式的口头用户输入提供至与电子设备相关联的虚拟助理来访问电子设备的服务。该虚拟助理可对口头用户输入执行自然语言处理，以推断用户意图并且将用户意图实施到任务中。然后可通过执行电子设备的一种或多种功能来执行任务，并且在一些示例中，可将相关的输出以自然语言形式返回给用户。

尽管移动电话(例如，智能电话)、平板电脑等已从虚拟助理控制中获取益处，然而许多其他用户设备仍缺乏这种便利的控制机制。例如，用户与媒体控制设备(例如，电视、电视机顶盒、电缆盒、游戏设备、流媒体设备、数字视频录像机等)的交互可能是复杂且难懂的。此外，随着可由这些设备(例如，无线电视、电视订阅服务、流视频服务、有线视频点播服务、基于网络的视频服务等)提供的媒体源的不断增加，对一些用户来说，找到想要的媒体内容来消费可能会很繁琐，甚至面对海量内容无从下手。因此，许多媒体控制设备能够提供的用户体验较差，可能会令许多用户感到失望。

发明内容

本发明公开了一种用于使用虚拟助理来控制电视交互的系统和过程。在一个示例中，可从用户接收语音输入。可基于语音输入来确定媒体内容。可显示具有第一尺寸的第一用户界面，并且第一用户界面可包括至媒体内容的可选链接。可接收对可选链接中的一个可选链接的选择。响应于该选择，可显示第二用户界面，该第二用户界面具有大于第一尺寸的第二尺寸，并且该第二用户界面可包括与该选择相关联的媒体内容。

在另一示例中，可在具有第一显示器的第一设备处从用户接收语音输入。可基于在第一显示器上显示的内容来确定语音输入的用户意图。可基于用户意图来确定媒体内容。该媒体内容可在与第二显示器相关联的第二设备上播放。

在另一示例中，可从用户接收语音输入，并且语音输入可包括与电视显示器上所示的内容相关联的查询。可基于电视显示器上所示的内容和/或媒体内容的观看历史来确定查询的用户意图。可基于所确定的用户意图来显示查询的结果。

在另一示例中，可在显示器上显示媒体内容。可从用户接收输入。可基于媒体内容和/或媒体内容的观看历史来确定虚拟助理查询。虚拟助理查询可被显示在显示器上。

附图说明

图1示出了用于使用虚拟助理控制电视用户交互的示例性系统。

图2示出了根据各种示例的示例性用户设备的框图。

图3示出了用于控制电视用户交互的系统中的示例性媒体控制设备的框图。

图4A至图4E示出了视频内容上的示例性语音输入界面。

图5示出了视频内容上的示例性媒体内容界面。

图6A至图6B示出了视频内容上的示例性媒体详情界面。

图7A至图7B示出了示例性媒体过渡界面。

图8A至图8B示出了菜单内容上的示例性语音输入界面。

图9示出了菜单内容上的示例性虚拟助理结果界面。

图10示出了使用虚拟助理来控制电视交互并使用不同界面来显示相关联的信息的示例性过程。

图11示出了移动用户设备上的示例性电视媒体内容。

图12示出了使用虚拟助理的示例性电视控制。

图13示出了移动用户设备上的示例性图片和视频内容。

图14示出了使用虚拟助理的示例性媒体显示控制。

图15示出了示例性虚拟助理交互，其中结果在移动用户设备和媒体显示设备上。

图16示出了示例性虚拟助理交互，其中媒体结果在媒体显示设备和移动用户设备上。

图17示出了基于接近度的示例性媒体设备控制。

图18示出了使用虚拟助理和多个用户设备来控制电视交互的示例性过程。

图19示出了具有关于背景视频内容的虚拟助理查询的示例性语音输入界面。

图20示出了视频内容上的示例性信息性虚拟助理响应。

图21示出了具有针对与背景视频内容相关联的媒体内容的虚拟助理查询的示例性语音输入界面。

图22示出了具有可选媒体内容的示例性虚拟助理响应界面。

图23A至图23B示出了节目菜单的示例性页面。

图24示出了被划分为多个类别的示例性媒体菜单。

图25示出了使用媒体内容观看历史和在显示器上所示的媒体内容来控制电视交互的示例性过程。

图26示出了具有基于背景视频内容的虚拟助理查询建议的示例性界面。

图27示出了用于确认对所建议的查询的选择的示例性界面。

图28A至图28B示出了基于所选择的查询的示例性虚拟助理回答界面。

图29示出了媒体内容通知和具有基于该通知的虚拟助理查询建议的示例性界面。

图30示出了具有能够在媒体控制设备上播放的示例性图片和视频内容的移动用户设备。

图31示出了具有基于可播放用户设备内容并且基于在独立显示器上所示的视频内容的虚拟助理查询建议的示例性移动用户设备界面。

图32示出了具有基于来自独立用户设备的可播放内容的虚拟助理查询建议的示例性界面。

图33示出了用于建议用于控制媒体内容的虚拟助理交互的示例性过程。

图34示出了根据各种示例的被配置为使用虚拟助理来控制电视交互并使用不同界面来显示相关联的信息的电子设备的功能框图。

图35示出了根据各种示例的被配置为使用虚拟助理和多个用户设备来控制电视交互的电子设备的功能框图。

图36示出了根据各种示例的被配置为使用显示器上所示的媒体内容和媒体内容观看历史来控制电视交互的电子设备的功能框图。

图37示出了根据各种示例的被配置为建议用于控制媒体内容的虚拟助理交互的电子设备的功能框图。

具体实施方式

本发明涉及一种使用虚拟助理来控制电视用户交互的系统和过程。在一个示例中，虚拟助理可用于与媒体控制设备(诸如，控制电视显示器上所示的内容的电视机顶盒)进行交互。可使用移动用户设备或带有麦克风的遥控器接收用于虚拟助理的语音输入。可从该语音输入确定用户意图，并且虚拟助理可根据用户意图来执行任务，包括使得媒体在连接的电视上回放以及控制电视机顶盒或类似设备的任何其他功能(例如，管理视频记录、搜索媒体内容、对菜单进行导航等)。

虚拟助理交互可在连接的电视或其他显示器上示出。在一个示例中，可基于从用户处接收的语音输入来确定媒体内容。可显示具有第一小尺寸的第一用户界面，该第一用户界面该包括至所确定的媒体内容的可选链接。在接收到对媒体链接的选择之后，可显示具有第二较大尺寸的第二用户界面，该第二用户界面包括与选择相关联的媒体内容。在其他示例中，用于传达虚拟助理交互的界面可展开或收缩，以在传达所需信息时占据最小量的空间。

在一些示例中，与多个显示器相关联的多个设备可用于从语音输入确定用户意图，并且以不同的方式来向用户传达信息。例如，可在具有第一显示器的第一设备处从用户接收语音输入。可基于第一显示器上所显示的内容来从语音输入确定用户意图。可基于用户意图来确定媒体内容，并且可在与第二显示器相关联的第二设备上播放媒体内容。

电视显示内容还可用作用于从语音输入确定用户意图的上下文输入。例如，可从用户接收语音输入，该语音输入包括与电视显示器上所示的内容相关联的查询。可基于在电视显示器上所示的内容以及电视显示器上的媒体内容观看历史来确定查询的用户意图(例如，基于正在播放的电视节目中的人物来对查询消歧)。然后，可基于所确定的用户意图来显示查询的结果。

在一些示例中，可向用户提供虚拟助理查询建议(例如，以使用户熟悉可用命令、建议有趣的内容等)。例如，媒体内容可被显示在显示器上，并且可从请求虚拟助理查询建议的用户接收输入。可基于显示器上所示媒体内容和显示器上所示媒体内容的观看历史来确定虚拟助理查询建议(例如，建议与正在播放的电视节目有关的查询)。然后，所建议的虚拟助理查询可被显示在显示器上。

根据本文所讨论的各种示例使用虚拟助理来控制电视用户交互可提供有效且令人愉快的用户体验。通过使用能够接收自然语言查询或命令的虚拟助理，用户可简单直观地与媒体控制设备进行交互。可根据需要来向用户建议可用的功能(包括基于播放内容的有意义的查询建议)，这可帮助用户了解控制能力。此外，可使用直观的口头命令来轻易地访问可用媒体。然而，应当理解，根据本文所讨论的各种示例，还可实现许多其他优点。

图1示出了用于使用虚拟助理来控制电视用户交互的示例性系统100。应当理解，如本文所讨论的控制电视用户交互仅仅是采用某种类型的显示技术来控制媒体的一个示例并且仅用于参考，本文所讨论的概念通常可用于控制任何媒体内容交互，包括控制各种设备和相关联显示器(例如，监视器、膝上型显示器、台式计算机显示器、移动用户设备显示器、投影仪显示器等)中的任一者上的媒体内容交互。因此，术语“电视”可指与各种设备中的任一种设备相关联的任何类型的显示器。此外，术语“虚拟助理”、“数字助理”、“智能自动化助理”或“自动数字助理”可指可解译语音形式和/或文本形式的自然语言输入以推断用户意图并基于推断出的用户意图来执行动作的任何信息处理系统。例如，为了根据推断出的用户意图采取行动，系统可执行以下内容中的一者或多者：通过设计以实现所推断出的用户意图的步骤和参数来识别任务流；将来自推断出的用户意图的具体要求输入到任务流中；通过调用程序、方法、服务、API等来执行任务流；以及生成对用户的听觉(例如，语音)和/或视觉形式的输出响应。

虚拟助理可能够接受至少部分地为自然语言命令、请求、声明、讲述和/或询问的形式的用户请求。通常，用户请求要么寻求虚拟助理作出信息性回答，要么寻求虚拟助理执行任务(例如，使得显示特定媒体)。对用户请求的令人满意的响应可包括提供所请求的信息性回答、执行所请求的任务、或这两者的组合。例如，用户可向虚拟助理提出问题，诸如：“我现在在哪里？”基于用户的当前位置，虚拟助理可回答：“你在中央公园。”用户还可请求执行任务，例如：“请在今天下午4点提醒我给妈妈打电话。”作为响应，虚拟助理可确认该请求，并且然后在用户的电子日程表中创建适当的提醒项目。在执行所请求的任务期间，虚拟助理有时可在很长时间段内在涉及多次信息交换的持续对话中与用户进行交互。存在与虚拟助理进行交互以请求信息或执行各种任务的许多其他方法。除提供言语响应并采取经编程的动作之外，虚拟助理还可提供其他视觉形式或音频形式(例如，作为文本、警报、音乐、视频、动画等)的响应。此外，如本文所述，示例性虚拟助理可控制媒体内容(例如，电视上正在播放的视频)的回放，并使信息被显示在显示器上。

虚拟助理的示例在于2011年1月10日提交的名称为“Intelligent AutomatedAssistant”的申请人的美国实用新型专利申请序列号12/987,982中有所描述，该专利申请的全部公开内容以引用方式并入本文。

如图1中所示，在一些示例中，虚拟助理可根据客户端-服务器模型来实现。虚拟助理可包括在用户设备102上执行的客户端侧部分和在服务器系统110上执行的服务器侧部分。可与遥控器106结合的客户端侧部分还在电视机顶盒104上被执行。用户设备102可包括任何电子设备，诸如移动电话(例如智能电话)、平板电脑、便携式媒体播放器、台式计算机、膝上型计算机、PDA、可穿戴电子设备(例如，数字眼镜、腕带、手表、胸针、臂带等)，等等。电视机顶盒104可包括任何媒体控制设备，诸如电缆盒、卫星盒、视频播放器、视频流设备、数字视频录像机、游戏系统、DVD播放器、Blu-ray Disc^TM播放器、此类设备的组合等。电视机顶盒104可经由有线连接或无线连接而被连接至显示器112和扬声器111。显示器112(具有或不具有扬声器111)可以是任何类型的显示器，诸如电视显示器、监视器、投影仪等。在一些示例中，电视机顶盒104可连接到音频系统(例如，音频接收器)，并且扬声器111可与显示器112分开。在其他示例中，显示器112、扬声器111和电视机顶盒104可一起并入单个设备中，诸如具有高级处理能力和网络连接能力的智能电视。在此类示例中，电视机顶盒104的功能可作为组合设备上的应用程序来执行。

在一些示例中，电视机顶盒104可用作针对多种类型和来源的媒体内容的媒体控制中心。例如，电视机顶盒104可使用户便于访问电视直播(例如，无线电视、卫星电视或有线电视)。因此，电视机顶盒104可包括电缆调谐器或卫星调谐器等。在一些示例中，电视机顶盒104还可录下电视节目以供稍后时移观看。在其他示例中，电视机顶盒104可提供对一个或多个流媒体服务的访问，诸如访问有线递送的点播电视节目、视频和音乐，以及互联网递送的电视节目、视频和音乐(例如，来自各种免费、付费和订阅式流服务)。在其他示例中，电视机顶盒104可方便回放或显示来自任何其他源的媒体内容，诸如显示来自移动用户设备的照片，播放来自耦接的存储设备的视频，播放来自耦接的音乐播放器的音乐等。电视机顶盒104还可根据需要包括本文所讨论的媒体控制特征的各种其他组合。

用户设备102和电视机顶盒104可通过一个或多个网络108与服务器系统110进行通信，该网络可包括互联网、内联网或任何其他有线或无线的公共网络或专用网络。另外，用户设备102可通过网络108或直接通过任何其他有线或无线通信机构(例如，蓝牙、Wi-Fi、射频、红外传输等)来与电视机顶盒104进行通信。如图所示，遥控器106可使用任何类型的通信方式诸如有线连接或任何类型的无线通信(例如，蓝牙、Wi-Fi、射频、红外传输等)(包括经由网络108)来与电视机顶盒104进行通信。在一些示例中，用户可通过用户设备102、遥控器106或集成在电视机顶盒104内的接口元件(例如，按钮、麦克风、相机、操纵杆等)来与电视机顶盒104进行交互。例如，可在用户设备102和/或遥控器106处接收语音输入，该语音输入包括用于虚拟助理的媒体相关的查询或命令，并且该语音输入可用于使得媒体相关的任务在电视机顶盒104上执行。同样，可在用户设备102和/或遥控器106(以及未示出的其他设备)处接收用于控制电视机顶盒104上的媒体的触觉命令。因此，可采用各种方式来控制电视机顶盒104的各种功能，从而为用户提供从多个设备控制媒体内容的多种选项。

在用户设备102和/或具有遥控器106的电视机顶盒104上执行的示例性虚拟助理的客户端侧部分可提供客户端侧功能，诸如面向用户的输入和输出处理以及与服务器系统110的通信。服务器系统110可为驻留在相应用户设备102或相应电视机顶盒104上的任何数量的客户端提供服务器侧功能。

服务器系统110可包括一个或多个虚拟助理服务器114，该一个或多个虚拟助理服务器可包括面向客户端的I/O接口122、一个或多个处理模块118、数据与模型存储器120、以及至外部服务的I/O接口116。面向客户端的I/O接口122可有利于虚拟助理服务器114的面向客户端的输入和输出处理。一个或多个处理模块118可利用数据与模型储存器120基于自然语言输入来确定用户的意图，并可基于推断出的用户意图来进行任务执行。在一些示例中，虚拟助理服务器114可通过一个或多个网络108来与外部服务124(诸如，电话服务、日历服务、信息服务、消息服务、导航服务、电视节目播放服务、流媒体服务等)进行通信，以用于完成任务或获取信息。至外部服务的I/O接口116可促成此类通信。

服务器系统110可在计算机的一个或多个独立式数据处理设备或分布式网络上实现。在一些示例中，服务器系统110可采用第三方服务提供方(例如，第三方云服务提供方)的各种虚拟设备和/或服务来提供服务器系统110的潜在计算资源和/或基础结构资源。

虽然图1中所示的虚拟助理的功能包括客户端侧部分和服务器侧部分两者，但在一些示例中，助理的功能(或者一般来讲，语音识别和媒体控制)可被实现为被安装在用户设备、电视机顶盒、智能电视等上的独立式应用程序。此外，虚拟助理的客户端部分与服务器部分之间的功能划分在不同的示例中可以是不同的。例如，在一些示例中，在用户设备102或电视机顶盒104上执行的客户端可以是仅提供面向用户的输入和输出处理功能并且将虚拟助理的所有其他功能委派给后端服务器的瘦客户端。

图2示出了根据各种示例的示例性用户设备102的框图。如图所示，用户设备102可包括存储器接口202、一个或多个处理器204、以及外围设备接口206。用户设备102中的各种部件可通过一条或多条通信总线或信号线而被耦接在一起。用户设备102可还包括耦接至外围设备接口206的各种传感器、子系统和外围设备。传感器、子系统以及外围设备可采集信息和/或促进用户设备102的各种功能。

例如，用户设备102可包括耦接至外围设备接口206以方便取向、照明和接近感测功能的运动传感器210、光传感器212、以及接近传感器214。一个或多个其他传感器216，诸如定位系统(例如，GPS接收器)、温度传感器、生物识别传感器、陀螺仪、罗盘、加速度计等也可连接至外围设备接口206，以促进相关功能。

在一些示例中，相机子系统220和光学传感器222可用于促进相机功能，诸如拍摄照片和记录视频剪辑。可通过一个或多个有线和/或无线通信子系统224来促进通信功能，该无线通信子系统可包括各种通信端口、射频接收器与发射器、和/或光学(例如，红外)接收器与发射器。可将音频子系统226耦接至扬声器228和麦克风230以方便支持语音的功能，诸如语音识别、语音复制、数字记录和电话功能。

在一些示例中，用户设备102还可包括耦接至外围设备接口206的I/O子系统240。I/O子系统240可包括触摸屏控制器242和/或一个或多个其他输入控制器244。触摸屏控制器242可耦接至触摸屏246。触摸屏246和触摸屏控制器242例如可使用多种触摸灵敏度技术(诸如电容技术、电阻技术、红外技术、表面声波技术、接近传感器阵列等)中的任一种触摸灵敏度技术来检测接触和移动或其中断。可将其他输入控制器244耦接至其他输入/控制设备248，诸如一个或多个按钮、摇臂开关、拇指滚轮、红外端口、USB端口、和/或指针设备(诸如触笔)。

在一些示例中，用户设备102还可包括耦接至存储器250的存储器接口202。存储器250可包括任何电子、磁性、光学、电磁、红外或半导体系统、装置或设备；便携式计算机磁盘(磁性)；随机存取存储器(RAM)(磁性)；只读存储器(ROM)(磁性)；可擦除可编程只读存储器(EPROM)(磁性)；便携式光盘诸如CD、CD-R、CD-RW、DVD、DVD-R或DVD-RW；或闪存存储器，诸如紧凑型闪存卡、安全数字卡、USB存储器设备、记忆棒等。在一些示例中，存储器250的非暂态计算机可读存储介质可用于存储指令(例如，用于执行本文所述的各种过程的部分或全部)，以供指令执行系统、装置或设备，诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备提取指令并且可执行该指令的其他系统使用或与它们结合使用。在其他示例中，指令(例如，用于执行本文所描述的各种过程的部分或全部)可被存储在服务器系统110的非暂态计算机可读存储介质上，或者可在存储器250的非暂态计算机可读存储介质与服务器系统110的非暂态计算机可读存储介质之间被划分。在本文的上下文中，“非暂态计算机可读存储介质”可以是可包含或存储程序以供指令执行系统、装置和设备使用或与其结合的任何介质。

在一些示例中，存储器250可存储操作系统252、通信模块254、图形用户界面模块256、传感器处理模块258、电话模块260和应用程序262。操作系统252可包括用于处理基础系统服务以及用于执行硬件相关任务的指令。通信模块254可促进与一个或多个附加设备、一个或多个计算机和/或一个或多个服务器的通信。图形用户界面模块256可促进图形用户界面处理。传感器处理模块258可促进与传感器相关的处理和功能。电话模块260可促进与电话相关的过程和功能。应用程序模块262可促进用户应用程序的各种功能，诸如电子消息传送、网页浏览、媒体处理、导航、成像和/或其他过程和功能。

如本文所述，存储器250还可存储客户端侧虚拟助理指令(例如，存储在虚拟助理客户端模块264中)以及各种用户数据266(例如，特定于用户的词汇数据、偏好数据，和/或其他数据诸如用户的电子通讯录、待办事项列表、购物清单、电视节目收藏等)，从而例如提供虚拟助理的客户端侧功能。用户数据266还可用于执行支持虚拟助理或用于任何其他应用程序的语音识别。

在各种示例中，虚拟助理客户端模块264可能够通过用户设备102的各种用户界面(例如，I/O子系统240、音频子系统226等)来接受声音输入(例如，语音输入)、文本输入、触摸输入、和/或手势输入。虚拟助理客户端模块264还能够提供音频(例如，语音输出)、视觉和/或触觉形式的输出。例如，可将输出提供为语音、声音、警报、文本消息、菜单、图形、视频、动画、振动、和/或以上两者或更多者的组合。在操作期间，虚拟助理客户端模块264可使用通信子系统224来与虚拟助理服务器进行通信。

在一些示例中，虚拟助理客户端模块264可利用各种传感器、子系统和外围设备lai从用户设备102的周围环境采集附加信息，以建立与用户、当前用户交互和/或当前用户输入相关联的上下文。此类上下文还可包括来自其他设备的信息，诸如来自电视机顶盒104的信息。在一些示例中，虚拟助理客户端模块264可将上下文信息或其子集与用户输入一起提供至虚拟助理服务器，以帮助推断用户的意图。虚拟助理还可使用上下文信息来确定如何准备输出并将其递送给用户。上下文信息还可被用户设备102或服务器系统110用于支持准确的语音识别。

在一些示例中，伴随用户输入的上下文信息可包括传感器信息，诸如照明、环境噪声、环境温度、周围环境的图像或视频、到另一个对象的距离等。该上下文信息还可包括与用户设备102的物理状态(例如，设备取向、设备位置、设备温度、功率电平、速度、加速度、运动模式、蜂窝信号强度等)或者用户设备102的软件状态(例如，运行过程、已安装程序、过去和当前的网络活动、后台服务、错误日志、资源使用等)相关联的信息。上下文信息还可包括与所连接的设备或与用户相关联的其他设备的状态相关联的信息(例如，由电视机顶盒104显示的媒体内容、电视机顶盒104可用的媒体内容等)。这些类型的上下文信息中的任一种上下文信息可作为与用户输入相关联的上下文信息而被提供至虚拟助理服务器114(或用于用户设备102本身)。

在一些示例中，虚拟助理客户端模块264可响应于来自虚拟助理服务器114的请求而选择性地提供被存储在用户设备102上的信息(例如，用户数据266)(或者该虚拟助理客户端模块可在用户设备102本身上用于执行语音识别和/或虚拟助理功能)。虚拟助理客户端模块264还可在虚拟助理服务器114请求时引出来自用户经由自然语言对话或其他用户界面的附加输入。虚拟助理客户端模块264可将附加输入传送至虚拟助理服务器114，以帮助虚拟助理服务器114进行意图推断和/或满足在用户请求中表达的用户意图。

在各种示例中，存储器250可包括附加指令或更少的指令。此外，可在硬件和/或固件中(包括在一个或多个信号处理和/或专用集成电路中)执行用户设备102的各种功能。

图3示出了用于控制电视用户交互的系统300中的示例性电视机顶盒104的框图。系统300可包括系统100的元件的子集。在一些示例中，系统300可单独执行某些功能，并且也可与系统100的其他元件一起运行来执行其他功能。例如，系统300的元件可在不与服务器系统110进行交互的情况下处理某些媒体控制功能(例如，回放本地存储的媒体、记录功能、频道调谐等)，并且系统300可结合服务器系统110和系统100的其他元件来处理其他媒体控制功能(例如，回放远程存储的媒体、下载媒体内容、进行某些虚拟助理查询等)。在其他示例中，系统300的元件可执行较大系统100的功能，包括通过网络来访问外部服务124。应当理解，可通过各种其他方式来在本地设备和远程服务器设备之间划分功能。

如图3所示，在一个示例中，电视机顶盒104可包括存储器接口302、一个或多个处理器304、和外围设备接口306。电视机顶盒104中的各种部件可通过一条或多条通信总线或信号线而被耦接在一起。电视机顶盒104还可包括耦接至外围设备接口306的各种子系统以及外围设备。子系统和外围设备可采集信息和/或促进电视机顶盒104的各种功能。

例如，电视机顶盒104可包括通信子系统324。可通过一个或多个有线和/或无线通信子系统324来促进通信功能，这些通信子系统可包括各种通信端口、射频接收器与发射器、和/或光学(例如，红外)接收器与发射器。

在一些示例中，电视机顶盒104还可包括耦接至外围设备接口306的I/O子系统340。I/O子系统340可包括音频/视频输出控制器370。音频/视频输出控制器370可耦接至显示器112和扬声器111，或者能够以其他方式提供音频和视频输出(例如，经由音频/视频端口、无线传输等)。I/O子系统340还可包括远程控制器342。远程控制器342可(例如，经由有线连接、蓝牙、Wi-Fi等)通信地耦接至遥控器106。遥控器106可包括用于捕获音频输入(例如，来自用户的语音输入)的麦克风372、用于捕获触觉输入的一个或多个按钮374、以及用于促进经由远程控制器342与电视机顶盒104进行通信的收发器376。遥控器106还可包括其他输入机构，诸如键盘、操纵杆、触摸板等。遥控器106还可包括输出机构，诸如灯、显示器、扬声器等。在遥控器106处接收的输入(例如，用户语音、按钮按压等)可经由远程控制器342而被传送到电视机顶盒104。I/O子系统340还可包括一个或多个其他输入控制器344。可将一个或多个其他输入控制器344耦接至其他输入/控制设备348，诸如一个或多个按钮、摇臂开关、拇指滚轮、红外端口、USB端口和/或指针设备(诸如触笔)。

在一些示例中，电视机顶盒104还可包括耦接至存储器350的存储器接口302。存储器350可包括任何电子、磁性、光学、电磁、红外或半导体系统、装置或设备；便携式计算机磁盘(磁性)；随机存取存储器(RAM)(磁性)；只读存储器(ROM)(磁性)；可擦除可编程只读存储器(EPROM)(磁性)；便携式光盘诸如CD、CD-R、CD-RW、DVD、DVD-R或DVD-RW；或闪存存储器，诸如紧凑型闪存卡、安全数字卡、USB存储器设备、记忆棒等。在一些示例中，存储器350的非暂态计算机可读存储介质可用于存储指令(例如，用于执行本文所述的各种过程的部分或全部)，以供指令执行系统、装置或设备诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备提取指令并且可执行该指令的其他系统使用或与其结合使用。在其他示例中，指令(例如，用于执行本文所描述的各种过程的部分或全部)可被存储在服务器系统110的非暂态计算机可读存储介质上，或者可在存储器350的非暂态计算机可读存储介质与服务器系统110的非暂态计算机可读存储介质之间被划分。在本文的上下文中，“非暂态计算机可读存储介质”可以是可包含或存储程序以供指令执行系统、装置和设备使用或与其结合的任何介质。

在一些示例中，存储器350可存储操作系统352、通信模块354、图形用户界面模块356、设备内置媒体模块358、设备外置媒体模块360和应用程序362。操作系统352可包括用于处理基础系统服务并且用于执行硬件相关任务的指令。通信模块354可促进与一个或多个附加设备、一个或多个计算机和/或一个或多个服务器的通信。图形用户界面模块356可促进图形用户界面处理。设备内置的媒体模块358可促进在电视机顶盒104上本地存储的媒体内容以及本地可用的其他媒体内容(例如，有线频道调谐)的存储和回放。设备外置媒体模块360可促进远程存储(例如，在远程服务器上、在用户设备102上等)的媒体内容的流回放或下载。应用程序模块362可促进用户应用程序的各种功能，诸如电子消息传送、网页浏览、媒体处理、游戏和/或其他过程和功能。

如本文所述，存储器350还可存储客户端侧虚拟助理指令(例如，存储在虚拟助理客户端模块364中)以及各种用户数据366(例如，特定于用户的词汇数据、偏好数据，和/或其他数据诸如用户的电子通讯录、待办事项列表、购物清单、电视节目收藏等)，从而例如提供虚拟助理的客户端侧功能。用户数据366还可用于执行语音识别来支持虚拟助理或用于任何其他应用程序。

在各种示例中，虚拟助理客户端模块364能够通过电视机顶盒104的各种用户界面(例如，I/O子系统340等)来接受声音输入(例如，语音输入)、文本输入、触摸输入和/或手势输入。虚拟助理客户端模块364还能够提供音频(例如，语音输出)、视觉和/或触觉形式的输出。例如，可将输出提供为语音、声音、警报、文本消息、菜单、图形、视频、动画、振动、和/或以上两者或更多者的组合。在操作期间，虚拟助理客户端模块364可使用通信子系统324来与虚拟助理服务器进行通信。

在一些示例中，虚拟助理客户端模块364可利用各种子系统和外围设备来从电视机顶盒104的周围环境采集附加信息，以建立与用户、当前用户交互和/或当前用户输入相关联的上下文。此类上下文还可包括来自其他设备的信息，诸如来自用户设备102的信息。在一些示例中，虚拟助理客户端模块364可将上下文信息或其子集与用户输入一起提供至虚拟助理服务器，以帮助推断用户的意图。虚拟助理还可使用上下文信息来确定如何准备输出并将其递送给用户。上下文信息还可被电视机顶盒104或服务器系统110用于支持准确的语音识别。

在一些示例中，伴随用户输入的上下文信息可包括传感器信息，诸如照明、环境噪声、环境温度、到另一个对象的距离等。上下文信息还可包括与电视机顶盒104的物理状态(例如，设备位置、设备温度、功率电平等)或电视机顶盒104的软件状态(例如，运行过程、已安装的应用程序、过去和当前的网络活动、后台服务、错误日志、资源使用等)相关联的信息。上下文信息可还包括与所连接的设备或与用户相关联的其他设备的状态相关联的信息(例如，在用户设备102上显示的内容、用户设备102上的可播放内容等)。这些类型的上下文信息中的任一种上下文信息可作为与用户输入相关联的上下文信息而被提供至虚拟助理服务器114(或用于电视机顶盒104本身)。

在一些示例中，虚拟助理客户端模块364可响应于来自虚拟助理服务器114的请求，选择性地提供被存储在电视机顶盒104上的信息(例如，用户数据366)(或者该虚拟助理客户端模块可在电视机顶盒104本身上，以用于执行语音识别和/或虚拟助理功能)。虚拟助理客户端模块364还可在虚拟助理服务器114请求时引出来自用户的经由自然语言对话或其他用户界面的附加输入。虚拟助理客户端模块364可将附加输入传送至虚拟助理服务器114，以帮助虚拟助理服务器114进行意图推断和/或满足在用户请求中表达的用户意图。

在各种示例中，存储器350可包括附加指令或更少的指令。此外，可在硬件和/或固件中(包括在一个或多个信号处理和/或专用集成电路中)执行电视机顶盒104的各种功能。

应当理解，系统100和系统300不限于图1和图3中所示的部件和配置，并且用户设备102、电视机顶盒104和遥控器106同样不限于图2和图3中所示的部件和配置。在根据各种示例的多种配置中，系统100、系统300、用户设备102、电视机顶盒104和遥控器106全部可包括更少部件，或包括其他部件。

通览本公开内容，对“系统”进行引用，该系统可包括系统100、系统300、或系统100或系统300的一个或多个元件。例如，本文中提到的典型系统可至少包括从遥控器106和/或用户设备102接收用户输入的电视机顶盒104。

图4A至图4E示出了可在显示器(例如，显示器112)上示出以向用户传达语音输入信息的示例性语音输入界面484。在一个示例中，语音输入界面484可在视频480上示出，该视频可包括任何移动图像或暂停视频。例如，视频480可包括电视直播、正在播放的视频、流电影、录制节目的回放等。语音输入界面484可被配置为占据最小量的空间，以免显著干扰用户观看视频480。

在一个示例中，可触发虚拟助理监听包含命令或查询的语音输入(或开始记录语音输入以用于后续处理，或开始实时处理语音输入)。可以各种方式来触发监听，包括指示，诸如：用户按压遥控器106上的物理按钮，用户按压用户设备102上的物理按钮，用户按压用户设备102上的虚拟按钮，用户说出可被始终监听的设备识别的触发短语(例如，说出“嘿，助理”以开始监听命令)，用户执行可被传感器检测的手势(例如，在相机前面做动作)等。在另一示例中，用户可按压并保持遥控器106或用户设备102上的物理按钮以发起监听。在其他示例中，用户可在说出查询或命令时按压并保持遥控器106或用户设备102上的物理按钮，并且可在完成时释放该按钮。同样可接收各种其他指示，以发起从用户接收语音输入。

响应于接收到监听语音输入的指示，可显示语音输入界面484。图4A示出了从显示器112的底部部分向上展开的通知区域482。在接收到监听语音输入的指示时，可在通知区域482中显示语音输入界面484，并且如图所示，界面可以动画方式从显示器112的观看区域的底部边缘向上滑动。图4B示出了在向上滑入视图之后的语音输入界面484。语音输入界面484可被配置为在显示器112的底部占据最小量的空间，以避免显著干扰视频480。响应于接收到监听语音输入的指示，可显示准备就绪确认486。准备就绪确认486可包括如图所示的麦克风符号，或者可包括任何其他图像、图标、动画或符号，以传达系统(例如，系统100的一个或多个元件)准备好捕获来自用户的语音输入。

当用户开始讲话时，可显示图4C所示的正在监听确认487，以确认系统正在捕获语音输入。在一些示例中，可响应于接收到语音输入(例如，捕获语音)来显示正在监听确认487。在其他示例中，准备就绪确认486可显示预先确定量的时间(例如，500毫秒、1秒、3秒等)，在其之后可显示正在监听确认487。听力确认487可包括如图所示的波形符号，或者可包括响应于用户语音而移动(例如，改变频率)的活动波形动画。在其他示例中，正在监听确认487可包括任何其他图像、图标、动画或符号，以传达系统正在捕获来自用户的语音输入。

在(例如，基于暂停、指示查询结束的语音解译或任何其他端点检测方法)检测到用户已完成讲话时，可显示图4D所示的正在处理确认488，以确认系统已完成捕获语音输入并且正在处理语音输入(例如，解译语音输入、确定用户意图、和/或执行相关联的任务)。正在处理确认488可包括如图所示的沙漏符号，或者可包括任何其他图像、图标、动画或符号，以传达系统正在处理所捕获的语音输入。在另一示例中，正在处理确认488可包括旋转圆圈或彩色/发光点围绕圆圈移动的动画。

在所捕获的语音输入被解译成文本之后(或响应于将语音输入成功地转换成文本)，可显示图4E中所示的命令接收确认490和/或转录492，以确认系统已接收并解译语音输入。转录492可包括所接收的语音输入的转录(例如，“现在正在进行的体育赛事有哪些？”)。在一些示例中，转录492可以动画形式从显示器112的底部向上滑动，可在图4E所示的位置暂时显示(例如，几秒)，并且然后可在从视图中消失之前向上滑动到语音输入界面484的顶部(例如，如同文本向上滚动并最终离开视图)。在其他示例中，可不显示转录，并且可处理用户的命令或查询并可在不显示经转录的情况下执行相关联的任务(例如，可立即执行简单的频道改变而不显示用户语音的转录)。

在其他示例中，可在用户讲话时实时地执行语音转录。转录出字词时，可将其显示在语音输入界面484中。例如，字词可被显示在正在监听确认487旁边。在用户完成讲话之后，可在执行与用户命令相关联的任务之前简要地显示命令接收确认490。

此外，在其他示例中，命令接收确认490可传达关于所接收和理解的命令的信息。例如，对于改变到另一个频道的简单请求，当频道改变时，与频道相关联的标志或数字可短暂地被显示为命令接收确认490(例如，几秒钟)。在另一个示例中，对于暂停视频(例如，视频480)的请求，可显示暂停符号(例如，两个垂直平行条)作为命令接收确认490。暂停符号可保持在显示器上，直到例如用户执行另一动作(例如，发出播放命令以恢复回放)。对于任何其他命令，同样可显示符号、标志、动画等(例如，用于快退、快进、停止、播放等的符号)。因此，命令接收确认490可用于传送命令特定信息。

在一些示例中，语音输入界面484可在接收到用户查询或命令之后隐藏。例如，语音输入界面484可被动画表示为向下滑动，直到其从显示器112的底部离开视图。在不需要向用户显示进一步的信息的情况下，可隐藏语音输入界面484。例如，对于通用或直接的命令(例如，换成频道十、换成体育频道、播放、暂停、快进、快退等)，语音输入界面484可在确认命令接收之后立即隐藏，并且可立即执行相关联的一个或多个任务。尽管本文的各种示例示出和描述了显示器的底部或顶部边缘处的界面，但是应当理解，各种界面中的任何界面可位于显示器周围的其他位置。例如，语音输入界面484可出现自显示器112的侧边缘、在显示器112的中心、在显示器112的角落里等。类似地，本文描述的各种其他界面示例可在显示器上的多种不同位置中以多种不同的取向进行布置。此外，虽然本文所述的各种界面被示为不透明的，但是各种界面中的任何界面可以是透明的，或者允许透过界面来观看图像(模糊或全部)(例如，将界面内容覆盖在媒体内容上，而无需完全遮蔽下面的媒体内容)。

在其他示例中，查询的结果可被显示在语音输入界面484内或不同的界面中。图5示出了具有图4E的经转录的查询的示例性结果的视频480上的示例性媒体内容界面510。在一些示例中，虚拟助理查询的结果可包括代替文本内容或除文本内容之外的媒体内容。例如，虚拟助理查询的结果可包括电视节目、视频、音乐等。一些结果可包括立即可用于回放的媒体，而其他结果可包括可用于购买的媒体等。

如图所示，媒体内容界面510的尺寸可比语音输入界面484的尺寸大。在一个示例中，语音输入界面484可具有较小的第一尺寸以适应语音输入信息，而媒体内容界面510可具有较大的第二尺寸以适应查询结果，其可包括文本、静止图像和移动图像。这样，用于传达虚拟助理信息的界面可根据要传达的内容来缩放尺寸，从而限制所占用的屏幕实际使用空间(例如，最低限度地阻挡其他内容，诸如视频480)。

如图所示，媒体内容界面510可包括(作为虚拟助理查询的结果)可选视频链接512、可选文本链接514和附加内容链接513。在一些示例中，可通过将焦点、光标等导航到特定元素并使用遥控器(例如，遥控器106)进行选择来选择链接。在其他示例中，可使用对虚拟助理的语音命令来选择链接(例如，观看足球比赛，显示关于篮球比赛的详情等)。可选视频链接512可包括静止或移动图像，并且可以可选择以使得回放相关联的视频。在一个示例中，可选视频链接512可包括相关联的视频内容的正在播放的视频。在另一示例中，可选视频链接512可包括电视频道的实况馈送。例如，作为关于当前在电视上进行的体育赛事的虚拟助理查询的结果，可选视频链接512可包括体育频道上的足球比赛的实况馈送。可选视频链接512还可包括任何其他视频、动画、图像等(例如，三角形播放符号)。此外，链接512可链接到任何类型的媒体内容，诸如电影、电视节目、体育赛事、音乐等。

可选文本链接514可包括与可选视频链接512相关联的文本内容，或者可包括虚拟助理查询的结果的文本表示。在一个示例中，可选文本链接514可包括对得自虚拟助理查询的媒体的描述。例如，可选文本链接514可包括电视节目的名称、电影的标题、体育赛事的描述、电视频道名称或号码等。在一个示例中，对文本链接514的选择可使得回放相关联的媒体内容。在另一示例中，对文本链接514的选择可提供关于媒体内容或其他虚拟助理查询结果的附加详细信息。附加内容链接513可链接到虚拟助理查询的附加结果并使其被显示。

虽然在图5中示出了某些媒体内容示例，但应当理解，可包括任何类型的媒体内容作为对媒体内容的虚拟助理查询的结果。例如，可作为虚拟助理的结果返回的媒体内容可包括视频、电视节目、音乐、电视频道等。另外，在一些示例中，可在本文所述的界面中的任一种界面中提供类别筛选器，以允许用户筛选搜索或查询结果或者所显示的媒体选项。例如，可提供可选筛选器以按类型(例如，电影、音乐专辑、书籍、电视节目等)来筛选结果。在其他示例中，可选筛选器可包括分类描述符或内容描述符(例如喜剧、访谈、特定节目等)。在其他示例中，可选筛选器可包括时间(例如，本周、上周、去年等)。应当理解，可在本文所述的各种界面中的任一种界面中提供筛选器，以允许用户基于与所显示的内容相关的类别来筛选结果(例如，在媒体结果具有不同类型的情况下按类型进行筛选，在媒体结果具有不同分类的情况下按分类进行筛选，在媒体结果具有不同的时间的情况下按时间进行筛选，等等)。

在其他示例中，除媒体内容结果之外，媒体内容界面510还可包括查询的改述。例如，可在媒体内容结果上方(可选视频链接512和可选文本链接514上方)显示用户查询的改述。在图5的示例中，用户查询的此类改述可包括以下内容：“这是一些现在正进行的体育赛事。”同样可显示介绍媒体内容结果的其他文本。

在一些示例中，在显示任何界面(包括界面510)之后，用户可使用新的查询(与先前的查询可相关或可不相关)来发起对附加语音输入的捕获。用户查询可包括作用于界面元素的命令，诸如选择视频链接512的命令。在另一示例中，用户语音可包括与所显示的内容相关联的查询，诸如所显示的菜单信息、正在播放的视频(例如，视频480)等。可基于所示信息(例如，所显示的文本)和/或与所显示的内容相关联的元数据(例如，与正在播放的视频相关联的元数据)来确定对此类查询的响应。例如，用户可询问界面(例如，界面510)中所示的媒体结果，并且可搜索与该媒体相关联的元数据以提供回答或结果。然后，可在另一界面中或在同一界面内(例如，在本文所讨论的界面中的任一界面中)提供此类回答或结果。

如上所述，在一个示例中，可响应于对文本链接514的选择来显示关于媒体内容的附加详细信息。图6A和图6B示出了选择文本链接514之后的视频480上的示例性媒体详情界面618。在一个示例中，在提供附加详细信息时，媒体内容界面510可扩展成媒体详情界面618，如图6A的界面扩展过渡616所示的。具体地，如图6A所示，可扩展所选择的内容的大小并且可通过在显示器112上向上展开界面以占据更多的屏幕实际使用空间来提供附加文本信息。界面可被展开以适应用户所需的附加详细信息。这样，界面的尺寸可与用户所需的内容量成比例，从而在仍然传达所需内容时使所占用的屏幕实际使用空间最小化。

图6B示出了完全展开之后的详情界面618。如图所示，详情界面618可具有比媒体内容界面510或语音输入界面484更大的尺寸，以适应所需的详细信息。详情界面618可包括详细媒体信息622，该详细媒体信息622可包括与媒体内容或虚拟助理查询的另一结果相关联的各种详细信息。详细媒体信息622可包括节目标题、节目描述、节目开播时间、频道、剧集概要、电影描述、演员名称、人物名称、体育赛事参与者、制作人名称、导演名称、或与虚拟助理查询结果相关联的任何其他详细信息。

在一个示例中，详情界面618可包括可选视频链接620(或用于播放媒体内容的另一链接)该可选视频链接620可包括相应可选视频链接512的较大版本。因此，可选视频链接620可包括静止或移动图像，并且可以可选择以使得回放相关联的视频。可选视频链接620可包括相关联的视频内容的正在播放的视频、电视频道的实况馈送(例如，体育频道上的足球比赛的实况馈送)等。可选视频链接620还可包括任何其他视频、动画、图像等(例如，三角形播放符号)。

如上所述，可响应于对视频链接(诸如视频链接620或视频链接512)的选择来播放视频。图7A和图7B示出了可响应于对视频链接的选择(或其他播放视频内容的命令)而显示的示例性媒体过渡界面。如图所示，可将视频480替换为视频726。在一个示例中，可展开视频726来代替或覆盖视频480，如图7A中的界面扩展过渡724所示的。过渡的结果可包括图7B的扩展媒体界面728。与其他界面一样，扩展媒体界面728的尺寸可足以向用户提供所需的信息；在此，可包括扩展到填满显示器112。因此，扩展媒体界面728可大于任何其他界面，因为所需信息可包括跨整个显示器的正在播放的媒体内容。尽管未示出，但在一些示例中，描述性信息可简略地(例如，沿屏幕的底部)覆盖在视频726上。此类描述性信息可包括相关联的节目、视频、频道等的名称。然后可(例如，在几秒钟之后)从视图中隐藏描述性信息。

图8A和图8B示出了可在显示器112上示出以向用户传达语音输入信息的示例性语音输入界面836。在一个示例中，语音输入界面836可被显示在菜单830上。菜单830可包括各种媒体选项832，并且语音输入界面836可类似地被显示在任何其他类型的菜单(例如，内容菜单、类别菜单、控制菜单、设置菜单、程序菜单等)上。在一个示例中，语音输入界面836可被配置为占据显示器112的相对较大量的屏幕实际使用空间。例如，语音输入界面836可大于上文所讨论的语音输入界面484。在一个示例中，可基于背景内容来确定要使用的语音输入界面的尺寸(例如，较小界面484或较大界面836)。当背景内容包括移动图像时，例如，可显示小尺寸的语音输入界面(例如，界面484)。另一方面，当背景内容包括静止图像(例如，暂停的视频)或菜单时，例如可显示大尺寸的语音输入界面(例如，界面836)。这样，如果用户正在观看视频内容，则可显示较小语音输入界面，其仅最低限度地占用屏幕实际使用空间；而如果用户正在导航菜单或者观看暂停的视频或其他静止图像，则可显示较大语音输入界面，其可通过占据附加实际使用空间来传达更多信息或起到更深远的影响。同样可基于背景内容以不同方式来确定本文中讨论的其他界面的尺寸。

如上所述，可触发虚拟助理监听包含命令或查询的语音输入(或开始记录语音输入以用于后续处理，或开始实时处理语音输入)。可以各种方式来触发监听，包括指示，诸如：用户按压遥控器106上的物理按钮，用户按压用户设备102上的物理按钮，用户按压用户设备102上的虚拟按钮，用户说出可被始终监听的设备识别的触发短语(例如，说出“嘿，助理”以开始监听命令)，用户执行可被传感器检测的手势(例如，在相机前面做动作)等。在另一示例中，用户可按压并保持遥控器106或用户设备102上的物理按钮以发起监听。在其他示例中，用户可在说出查询或命令时按压并保持遥控器106或用户设备102上的物理按钮，并且可在完成时释放该按钮。同样可接收各种其他指示，以发起从用户接收语音输入。

响应于接收到监听语音输入的指示，可在菜单830上显示语音输入界面836。图8A示出了从显示器112的底部部分向上展开的大的通知区域834。在接收到监听语音输入的指示时，可在大的通知区域834中显示语音输入界面836，并且如图所示，界面可以动画方式从显示器112的观看区域的底部边缘向上滑动。在一些示例中，当(例如，响应于接收到监听语音输入的指示)显示重叠界面时，背景菜单、暂停的视频、静止图像或其他背景内容可在z方向上收缩和/或向后移动(好像进一步进入显示器112中)。背景界面收缩过渡831和相关联的向内指向的箭头示出背景内容(例如，菜单830)可如何收缩(缩窄所显示的菜单、图像、文本等)。这可提供看起来像背景内容远离用户移动的视觉效果，使新的前景界面(例如，界面836)显露出来。图8B示出了包括收缩(缩窄)版本的菜单830的收缩的背景界面833。如图所示，收缩的背景界面833(其可包括边框)可在将焦点转移到前景界面836时显得进一步远离用户。当显示重叠界面时，本文所讨论的其他示例中的任一个示例中的背景内容(包括背景视频内容)可类似地在z方向上收缩和/或向后移动。

图8B示出了在向上滑入视图之后的语音输入界面836。如上所述，可在接收语音输入时显示各种确认。尽管在此未示出，但语音输入界面836可以与上面参考图4B、图4C和图4D所讨论的语音输入界面484相似的方式，类似地显示准备就绪确认486、正在监听确认487、和/或正在处理确认488的较大版本。

如图8B所示，可示出命令接收确认838(如上面讨论的较小尺寸的命令接收确认490)，以确认系统接收和解译的语音输入。还可示出转录840，并且该转录可包括所接收的语音输入的转录(例如，“New York的天气如何？”)。在一些示例中，转录840可以动画形式从显示器112的底部向上滑动，可在图8B所示的位置暂时显示(例如，几秒)，并且然后可在从视图中消失之前向上滑动到语音输入界面836的顶部(例如，如同文本向上滚动并最终离开视图)。在其他示例中，可不显示转录，并且可处理用户的命令或查询并可在不显示经转录的情况下执行相关联的任务。

在其他示例中，可在用户讲话时实时地执行语音转录。转录出字词时，可将其显示在语音输入界面836中。例如，字词可被显示在上述较大版本的正在监听确认487旁边。在用户完成讲话之后，可在执行与用户命令相关联的任务之前简要地显示命令接收确认838。

此外，在其他示例中，命令接收确认838可传达关于所接收和理解的命令的信息。例如，对于调谐到特定频道的简单请求，当对频道进行调谐时，与频道相关联的标志或数字可短暂地被显示为命令接收确认838(例如，几秒钟)。在另一个示例中，对于选择所显示菜单项(例如，媒体选项832中的一个)的请求，与所选择的菜单项相关联的图像可被显示为命令接收确认838。因此，命令接收确认838可用于传送命令特定信息。

在一些示例中，语音输入界面836可在接收到用户查询或命令之后隐藏。例如，语音输入界面836可被动画表示为向下滑动，直到其从显示器112的底部离开视图。在不需要向用户显示进一步信息的情况下，可隐藏语音输入界面836。例如，对于通用或直接的命令(例如，换成频道十、换成体育频道、播放该电影等)，语音输入界面836可在确认命令接收之后立即隐藏，并且可立即执行相关联的一个或多个任务。

在其他示例中，查询的结果可被显示在语音输入界面836内或不同的界面中。图9示出了菜单830上(具体地，收缩的背景界面833上)的具有图8B中经转录的查询的示例性结果的示例性虚拟助理结果界面942。在一些示例中，虚拟助理查询结果可包括文本回答，诸如文本回答944。虚拟助理查询的结果还可包括解决用户查询的媒体内容，诸如与可选视频链接946和购买链接948相关联的内容。具体地，在该示例中，用户可请求New York指定位置的天气信息。虚拟助理可提供直接回答用户查询的文本回答944(例如，表示天气看起来很好并提供温度信息)。作为文本回答944的替代或补充，虚拟助理可将可选视频链接946连同购买链接948和相关联的文本一起提供。与链接946和948相关联的媒体还可提供对用户查询的响应。在此，与链接946和948相关联的媒体可包括指定位置处天气信息的十分钟剪辑(具体地，来自被称为天气预报频道的电视频道的New York的未来五天的天气预报)。

在一个示例中，解决用户查询的剪辑可包括先前所播内容(其可从记录或从流服务获取)的时间提示部分。在一个示例中，虚拟助理可基于与语音输入相关联的用户意图并通过搜索关于可用媒体内容的详细信息(例如，包括录制节目的元数据、以及详细定时信息、或关于流内容的详细信息)来识别此类内容。在一些示例中，用户对某些内容可不具有访问权限或者可没有订阅。在这种情况下，可例如经由购买链接948来提供内容以供购买。在选择购买链接948或视频链接946时，内容的费用可从用户帐户中自动扣除或者记入用户帐户的账目。

图10示出了使用虚拟助理来控制电视交互并使用不同界面来显示相关联的信息的示例性过程1000。在框1002处，可从用户接收语音输入。例如，可在系统100的用户设备102或遥控器106处接收语音输入。在一些示例中，语音输入(或者语音输入中的一些或全部的数据表示)可被传输到服务器系统110和/或电视机顶盒104并且由该服务器系统和/或电视机顶盒接收。响应于用户发起对语音输入的接收，可在显示器(诸如显示器112)上显示各种通知。例如，可如上文参考图4A至图4E所讨论的那样，显示准备就绪确认、正在监听确认、正在处理确认、和/或命令接收确认。此外，可转录所接收的用户语音输入并且可显示转录。

再次参考图10的过程1000，在框1004处，可基于语音输入来确定媒体内容。例如，可(例如，通过搜索可用媒体内容等)确定用于解决在虚拟助理处引导的用户查询的媒体内容。例如，可确定与图4E的转录492相关的媒体内容(“现在正进行的体育赛事有哪些？”)。此类媒体内容可包括在可供用户观看的一个或多个电视频道上显示的直播体育赛事。

在框1006处，可显示具有可选媒体链接的第一尺寸的第一用户界面。例如，具有可选视频链接512和可选文本链接514的媒体内容界面510可被显示在显示器112上，如图5所示。如上所述，媒体内容界面510可具有较小尺寸，以避免干扰背景视频内容。

在框1008处，可接收对链接中的一个链接的选择。例如，可接收对链接512和/或链接514中的一个链接的选择。在框1010处，可显示具有与选择相关联的媒体内容的较大第二尺寸的第二用户界面。例如，可显示具有可选视频链接620和详细媒体信息622的详情界面618，如图6B所示。如上所述，详情界面618可具有较大尺寸，以传达所需的附加详细媒体信息。类似地，在选择视频链接620时，扩展媒体界面728可与视频726一起显示，如图7B所示。如上所述，扩展媒体界面728可具有较大尺寸，以向用户提供所需的媒体内容。这样，本文所讨论的各种界面可调节尺寸以适应所需的内容(包括扩展成较大尺寸的界面或收缩成较小尺寸的界面)，而另一方面占据有限的屏幕实际使用空间。因此，过程1000可用于使用虚拟助理控制电视交互，并使用不同界面显示相关联的信息。

在另一个示例中，可在控制菜单上显示尺寸比背景视频内容上的界面的尺寸更大的界面。例如，如图8B所示，语音输入界面836可被显示在菜单830上方，并且如图9所示，助理结果界面942可被显示在菜单830上方，而如图5所示，较小媒体内容界面510可被显示在视频480上方。这样，可至少部分地通过背景内容的类型来确定界面的尺寸(例如，由界面占据的屏幕实际使用空间量)。

图11示出了用户设备102上的示例性电视媒体内容，该用户设备102可包括具有触摸屏246(或另一显示器)的移动电话、平板电脑、遥控器等。图11示出了包括具有多个电视节目1152的电视列表的界面1150。界面1150可例如对应于用户设备102上的特定应用程序，诸如电视控制应用程序、电视内容列表应用程序、互联网应用程序等。在一些示例中，在用户设备102上(例如，触摸屏246上)所示的内容可用于从与该内容相关的语音输入确定用户意图，并且用户意图可用于使内容在另一设备和显示器上(例如，在电视机顶盒104和显示器112和/或扬声器111上)播放或显示。例如，在用户设备102上的界面1150中所示的内容可用于对用户请求进行消歧，并且从语音输入确定用户意图，并且然后可使用所确定的用户意图经由电视机顶盒104来播放或显示媒体。

图12示出了使用虚拟助理的示例性电视控制。图12示出了可包括被格式化为助理和用户之间的会话式对话的虚拟助理界面的界面1254。例如，界面1254可包括提示用户作出请求的助理问候1256。然后，可转录随后接收的用户语音诸如经转录的用户语音1258，从而显示来回会话。在一些示例中，响应于触发发起对语音输入(触发例如按钮按压、关键短语等)的接收，界面1254可出现在用户设备102上。

在一个示例中，用于经由电视机顶盒104(例如，在显示器112和扬声器111上)播放内容的用户请求可包括对用户设备102上所示的某些内容的模糊引用。例如，经转录的用户语音1258包括对“那个”足球比赛的引用(“播放那个足球比赛。”)。单从语音输入来看，所期望的特定足球比赛可能并不清楚。然而，在一些示例中，在用户设备102上所示的内容可用于对用户请求进行消歧并确定用户意图。在一个示例中，在用户发出请求之前(例如，在界面1254出现在触摸屏246上之前)，在用户设备102上所示的内容可用于确定用户意图(如可以是在界面1254内出现的内容，诸如先前的查询和结果)。在例示的示例中，在图11的界面1150中所示的内容可用于从播放“那个”足球比赛的命令确定用户意图。电视节目1152的电视列表包括各种不同的节目，其中的一个节目标题为出现在第5频道上的“足球”。足球列表的出现可用于根据说出“那个”足球比赛来确定用户的意图。具体地，用户对“那个”足球比赛的引用可被解析为出现在界面1150的电视列表中的足球节目。因此，虚拟助理可(例如，通过使电视机顶盒104调谐到适当的频道并显示比赛)使得回放用户所期望的特定足球比赛。

在其他示例中，用户可以各种其他方式引用在界面1150中所示的电视节目(例如，频道八上的节目、新闻、戏剧节目、广告、第一节目等)，并且可类似地基于所显示的内容来确定用户意图。应当理解，与所显示的内容相关联的元数据(例如，电视节目描述)、模糊匹配技术、同义词匹配等还可与所显示的内容结合用于确定用户意图。例如，可(例如，使用同义词和/或模糊匹配技术)将术语“广告”与描述“付费节目”匹配，以从显示“广告”的请求来确定用户意图。同样，可在确定用户意图时分析对特定电视节目的描述。例如，可在法庭剧的详细描述中识别术语“法律”，并且可基于与界面1150中所示的内容相关联的详细描述来从观看“法律”节目的用户请求确定用户意图。因此，所显示的内容和与其相关联的数据可用于对用户请求消歧并确定用户意图。

图13示出了用户设备102上的示例性图片和视频内容，该用户设备可包括具有触摸屏246(或另一显示器)的移动电话、平板电脑、遥控器等。图13示出了包括照片和视频列表的界面1360。界面1360可例如对应于用户设备102上的特定应用程序，诸如媒体内容应用程序、文件导航应用程序、存储应用程序、远程存储管理应用程序、相机应用程序等。如图所示，界面1360可包括视频1362、相册1364(例如，一组多张照片)和照片1366。如上面参考图11和图12所讨论的，在用户设备102上所示的内容可用于从与该内容相关的语音输入确定用户意图。然后，可将用户意用于使内容在另一设备和显示器上(例如，在电视机顶盒104和显示器112和/或扬声器111上)回放或显示。例如，在用户设备102上的界面1360中所示的内容可用于对用户请求消歧，并且用于从语音输入确定用户意图，并且然后可使用所确定的用户意图经由电视机顶盒104来播放或显示媒体。

图14示出了使用虚拟助理的示例性媒体显示控制。图14示出了可包括被格式化为助理和用户之间的会话式对话的虚拟助理界面的界面1254。如图所示，界面1254可包括提示用户作出请求的助理问候1256。然后，可在对话内转录用户语音，如图14的示例所示的。在一些示例中，响应于触发发起对语音输入(触发例如按钮按压、关键短语等)的接收，界面1254可出现在用户设备102上。

在一个示例中，用于经由电视机顶盒104(例如，在显示器112和扬声器111上)播放媒体内容或显示媒体的用户请求可包括对用户设备102上所示的某些内容的模糊引用。例如，经转录的用户语音1468包括对“那个”视频的引用(“显示那个视频。”)。单从语音输入来看，所引用的具体视频可能并不清楚。然而，在一些示例中，在用户设备102上所示的内容可用于对用户请求进行消歧并确定用户意图。在一个示例中，在用户发出请求之前(例如，在界面1254出现在触摸屏246上之前)，在用户设备120上所示的内容可用于确定用户意图(如可以是在界面1254内出现的内容，诸如先前的查询和结果)。在用户语音1468的示例中，在图13的界面1360中所示的内容可用于从显示“那个”视频的命令确定用户意图。界面1360中的照片和视频列表包括多种不同的照片和视频，包括视频1362、相册1354和照片1366。当界面1360中仅出现一个视频(例如，视频1362)时，界面1360中视频1362的出现可用于根据说出“那个”视频来确定用户的意图。具体地，用户对“那个”视频的引用可被解析为出现在界面1360中的视频1362(标题为“毕业视频”)。因此，虚拟助理可(例如，通过使视频1362从用户设备102或远程存储器传输到电视机顶盒104并且使重放开始)使视频1362重放。

在另一个示例中，经转录的用户语音1470包括对“那个”相册的引用(“播放那个相册的幻灯片。”)。单从语音输入来看，所引用的具体相册可能并不清楚。在用户设备102上所示的内容可再次用于对用户请求进行消歧。具体地，在图13的界面1360中所示的内容可用于从播放“那个”相册的幻灯片的命令确定用户意图。界面1360中的照片和视频列表包括相册1354。界面1360中相册1364的出现可用于根据说出“那个”相册来确定用户的意图。具体地，用户对“那个”相册的引用可被解析为出现在界面1360中的相册1364(标题为“毕业相册”)。因此，响应于用户语音1470，虚拟助理可(例如，通过使相册1364的照片从用户设备102或远程存储器传输到电视机顶盒104并使照片的幻灯片放映开始)使包括来自相册1364的照片的幻灯片将被显示。

在又一示例中，经转录的用户语音1472包括对“最后”一张照片的引用(“在厨房电视上显示最后一张照片”)。单从语音输入来看，所引用的具体照片可能并不清楚。在用户设备102上所示的内容可再次用于对用户请求进行消歧。具体地，在图13的界面1360中所示的内容可用于从显示“最后”一张照片的命令确定用户意图。界面1360中的照片和视频列表包括两张单独的照片1366。界面1360中的照片1366的出现(特别是界面内的照片1366的出现的顺序)可用于根据说出“最后”一张照片来确定用户的意图。具体地，用户对“最后”一张照片的引用可被解析为出现在界面1360底部的照片1366(日期为2014年6月21日)。因此，响应于用户语音1472，虚拟助理可(例如，通过使最后一张照片1366从用户设备102或远程存储器传输到电视机顶盒104并使照片将被显示)使在界面1360中所示的最后一张照片1366将被显示。

在其他示例中，用户可以各种其他方式来引用在界面1360中所示的媒体内容(例如，最后一对照片、所有视频、所有照片、毕业专辑、毕业视频、从6月21日起的照片等)，并且可类似地基于所显示的内容来确定用户意图。应当理解，与所显示的内容相关联的元数据(例如，时间戳、位置信息、标题、描述等)、模糊匹配技术、同义词匹配等还可与所显示的内容结合，以确定用户意图。因此，所显示的内容和与其相关联的数据可用于对用户请求消歧并确定用户意图。

应当理解，任何应用程序的任何应用界面中的任何类型的是所显示的内容可用于确定用户意图。例如，可在语音输入中引用在互联网浏览器应用程序中的网页上显示的图像，并且可分析所显示的网页内容以识别所需的图像。类似地，可按标题、流派、艺术家、乐队名等在语音输入中引用音乐应用程序中的音乐列表中的音乐曲目，并且可将音乐应用中的所显示的内容(并且在一些示例中，相关联的元数据)用于从语音输入确定用户意图。如上所述，然后可经由另一设备(例如，经由电视机顶盒104来)将所确定的用户意图用于使得显示或回放媒体。

在一些示例中，可采用用户识别、用户认证和/或设备认证来确定是否可允许媒体控制、确定可用于显示的媒体内容、确定访问许可等。例如，可确定特定用户设备(例如，用户设备102)是否被授权控制例如电视机顶盒104上的媒体。可基于注册、配对、信任确定、密码、安全问题、系统设置等来对用户设备进行授权。响应于确定特定用户设备已被授权，可允许尝试控制电视机顶盒104(例如，可响应于确定请求设备被授权控制媒体而播放媒体内容)。相反，可忽略来自未授权设备的媒体控制命令或请求，和/或可提示这些设备的用户注册其设备以用于控制特定电视机顶盒104。

在另一个示例中，可识别特定用户，并且可使用与该用户相关联的个人数据来确定请求的用户意图。例如，可基于语音输入来识别用户，诸如通过使用用户声纹的语音识别来识别用户。在一些示例中，用户可说出被分析用于语音识别的特定短语。在其他示例中，可使用语音识别来分析针对虚拟助理的语音输入请求，以识别讲话者。还可基于语音输入样本的源(例如，在用户的个人设备102上)来识别用户。还可基于口令、密码、菜单选择等来识别用户。然后，可基于所识别的用户的个人数据来解译从用户处接收的语音输入。例如，可基于来自用户的先前请求、用户拥有的媒体内容、被存储在用户设备上的媒体内容、用户偏好、用户设置、用户人口统计学特征(例如，所用语言等)、用户个人资料信息、用户支付方法或者与特定识别用户相关联的各种其他个人信息来确定语音输入的用户意图。例如，可基于个人数据来对引用收藏列表等的语音输入进行消歧，并且可识别用户的个人收藏列表。同样可基于用户识别来对引用“我的”照片、“我的”视频、“我的”节目等语音输入进行消歧，以正确地识别与所识别的用户相关联的照片、视频和演出(例如，被存储在个人用户设备上的照片等)。类似地，可对请求购买内容的语音输入进行消歧，以确定所识别的用户的支付方法(而不是另一用户的支付方法)应当为购买付费。

在一些示例中，用户认证可用于确定是否允许用户访问媒体内容、购买媒体内容等。例如，语音识别可用于(例如，使用用户的声纹)验证特定用户的身份，以允许用户使用用户的支付方法来进行购买。类似地，口令等可用于验证用户以允许购买。在另一个示例中，语音识别可用于验证特定用户的身份，以确定是否允许用户观看特定节目(例如，具有特定家长指导评级的节目、具有特定年龄适合性评级的电影等)。例如，可基于指示请求者不是能够查看此类内容的授权用户(例如，父母)的语音识别来拒绝孩子对特定节目的请求。在其他示例中，语音识别可用于确定用户是否能够访问特定订阅内容(例如，基于语音识别限制对优质频道内容的访问)。在一些示例中，用户可说出被分析用于语音识别的特定短语。在其他示例中，可使用语音识别来分析针对虚拟助理的语音输入请求，以识别讲话者。因此，可响应于首先确定用户以多种方式中的任一种方式被授权来播放某些媒体内容。

图15示出了示例性虚拟助理交互，其中结果在移动用户设备和媒体显示设备上。在一些示例中，虚拟助理可在多于一个设备上提供信息和控制，诸如在用户设备102上以及在电视机顶盒104上提供信息和控制。此外，在一些示例中，用于用户设备102上的控制和信息的虚拟助理界面同样可用于发出控制电视机顶盒104上的媒体的请求。因此，虚拟助理系统可确定是在用户设备102上还是在电视机顶盒104上显示结果或执行任务。在一些示例中，当采用用户设备102来控制电视机顶盒104时，可通过在用户设备102(例如，在触摸屏246上)上显示信息来使虚拟助理界面在与电视机顶盒104相关联的显示器(例如，显示器112)上占用的空间最小化。在其他示例中，虚拟助理信息可单独被显示在显示器112上，或者虚拟助理信息可被显示在用户设备102和显示器112两者上。

在一些示例中，可确定虚拟助理查询的结果是应当直接被显示在用户设备102上还是被显示在与电视机顶盒104相关联的显示器112上。在一个示例中，响应于确定查询的用户意图包括对信息的请求，可在用户设备102上显示信息性响应。在另一示例中，响应于确定查询的用户意图包括用于播放媒体内容的请求，可经由电视机顶盒104来播放响应于查询的媒体内容。

图15示出了包含虚拟助理和用户之间的会话式对话示例的虚拟助理界面1254。助理问候1256可提示用户作出请求。在第一查询中，经转录的用户语音1574(其也可被键入或以其他方式输入)包括对与所显示媒体内容相关联的信息性回答的请求。具体地，经转录的用户语音1574询问正在进行足球比赛的是谁，该足球比赛例如可能被显示在用户设备102上的界面上(例如，在图11的界面1150中列出)或被显示在在显示器112上(例如，在图5的界面510中列出，或作为图7B中显示器112上的视频726播放)。可基于所显示的媒体内容来确定经转录的用户语音1574的用户意图。例如，可基于用户设备102上或显示器112上所示的内容来识别所讨论的特定足球比赛。经转录的用户语音1574的用户意图可包括获取详细说明正在进行足球比赛的球队的信息性回答，该正在进行足球比赛的球队基于所显示的内容而被识别。响应于确定用户意图包括对信息性回答的请求，系统可确定在图15中的界面1254内(而不是在显示器112上)显示响应。在一些示例中，可基于与所显示的内容相关联的元数据(例如，基于电视列表中足球比赛的描述)来确定对查询的响应。如图所示，助理响应1576因此可在界面1254中在用户设备102的触摸屏246上被显示，从而将Alpha队和Zeta队识别为正在进行比赛的球队。因此，在一些示例中，可基于确定查询包括信息性请求而在用户设备102上的界面1254内显示信息性响应。

然而，界面1254中的第二查询包括媒体请求。具体地，经转录的用户语音1578请求将显示的媒体内容改为“比赛”。可基于所显示的内容来确定经转录的用户语音1578的用户意图(例如，以识别用户期望的是哪个比赛)，诸如在图5的界面510中列出的比赛、在图11的界面1150中列出的比赛、在先前查询中(例如，在经转录的用户语音1574中)引用的比赛等。因此，经转录的用户语音1578的用户意图可包括将所显示的内容改为特定比赛(在此是有Alpha队和Zeta队参加的足球比赛)。在一个示例中，比赛可被显示在用户设备102上。然而，在其他示例中，基于包括请求播放媒体内容的查询，比赛可经由电视机顶盒104而被示出。具体地，响应于确定用户意图包括播放媒体内容的请求，系统可确定经由电视机顶盒104来在显示器112上(而不是在图15中的界面1254内)显示媒体内容结果。在一些示例中，确认虚拟助理的预期动作的响应或改述可在界面1254中或在显示器112上示出(例如，“改为足球比赛。”)。

图16示出了示例性虚拟助理交互，其中媒体结果在媒体显示设备和移动用户设备上。在一些示例中，虚拟助理可提供对用户设备102和电视机顶盒104两者上的媒体的访问。此外，在一些示例中，用于用户设备102上的媒体的虚拟助理界面同样可用于发出对电视机顶盒104上的媒体的请求。因此，虚拟助理系统可确定是在用户设备102上还是经由电视机顶盒104在显示器112上显示媒体结果。

在一些示例中，可基于媒体结果格式、用户偏好、默认设置、请求本身中的表达命令等来确定是在设备102上还是在显示器112上显示媒体。例如，查询的媒体结果的格式可用于(例如，在没有具体指令的情况下)确定默认在哪个设备上显示媒体结果。电视节目可更适合于在电视上显示，大格式视频可更适合于在电视上显示，缩略图照片可更适合于在用户设备上显示，小格式网络视频可更适合于在用户设备上显示，而各种其他媒体格式可更适合于在相对较大的电视屏幕或相对较小的用户设备显示器上显示。因此，响应于(例如，基于媒体格式)确定媒体内容应当被显示在特定显示器上，可默认在该特定显示器上显示媒体内容。

图16示出了虚拟助理界面1254，其中查询的示例与正在播放或正在显示的媒体内容相关。助理问候1256可提示用户作出请求。在第一查询中，经转录的用户语音1680包括用于显示足球比赛的请求。如在上文所讨论的示例中，可基于所显示的内容来确定经转录的用户语音1680的用户意图(例如，以识别用户期望的是哪个比赛)，诸如在图5的界面510中列出的比赛、在图11的界面1150中列出的比赛、先前查询中引用的比赛等。因此，经转录的用户语音1680的用户意图可包括显示可例如在电视上播出的特定足球比赛。响应于确定用户意图包括用于显示被格式化以适于电视的媒体(例如，电视播放的足球比赛)的请求，系统可自动确定经由电视机顶盒104在显示器112上(而不是在用户设备102本身上)显示期望的媒体。然后，虚拟助理系统可(例如，通过执行必要的任务和/或发送适当的命令)使电视机顶盒104调谐到足球比赛并在显示器112上显示该足球比赛。

然而，在第二查询中，经转录的用户语音1682包括显示球队队员图片的请求(例如，“Alpha队”的图片)。如在上文所讨论的示例中，可确定经转录的用户语音1682的用户意图。经转录的用户语音1682的用户意图可包括对与“Alpha队”相关联的图片执行搜索(例如，网络搜索)以及显示所得到的图片。响应于确定用户意图包括用于显示可以缩略图格式呈现的媒体或者与网络搜索相关联的媒体或者不具有特定格式的其他非特定媒体的请求，系统可自动确定在界面1254中在用户设备102的触摸屏246上显示期望的媒体结果(而不是经由电视机顶盒104在显示器112上显示所得到的图片)。例如，如图所示，可响应于用户查询而在用户设备102上的界面1254内显示缩略图照片1684。因此，虚拟助理系统可使得特定格式的媒体或者可以特定格式(例如，在一组缩略图中)呈现的媒体被默认显示在用户设备102上。

应当理解，在一些示例中，在用户语音1680中所引用的足球比赛可被显示在用户设备102上，并且照片1684可经由电视机顶盒104而被显示在显示器112上。然而，可基于媒体格式来自动确定用于进行显示的默认设备，从而简化用户的媒体命令。在其他示例中，可基于用户偏好、默认设置、最近用于显示内容的设备、识别用户和与该用户相关联的设备的语音识别等，来确定用于显示所请求的媒体内容的默认设备。例如，用户可设置偏好或者可设置默认配置，以经由电视机顶盒104来在显示器112上显示某些类型的内容(例如，视频、幻灯片、电视节目等)并在用户设备102的触摸屏246上显示其他类型的内容(例如，缩略图、照片、网络视频等)。类似地，可设置偏好或默认配置，以通过在一个设备或另一设备上显示内容来对某些查询进行响应。在另一个示例中，所有内容可被显示在用户设备102上，除非用户另有指示。

在其他示例中，用户查询可包括在特定显示器上显示内容的命令。例如，图14的用户语音1472包括在厨房电视上显示照片的命令。因此，系统可使照片在与用户厨房相关联的电视显示器上显示，而不是在用户设备102上显示照片。在其他示例中，用户可以多种其他方式来指示使用哪个显示设备(例如，在电视上、在大屏幕上、在客厅中、在卧室中、在我的平板电脑上、在我的电话上等)。因此，可以多种不同方式来确定用于显示虚拟助理查询的媒体内容结果的显示设备。

图17示出了基于接近度的示例性媒体设备控制。在一些示例中，用户在同一家庭内或在同一网络上可具有多个电视和电视机顶盒。例如，家庭可将电视和机顶盒设置在客厅中，另一个设置在卧室中，并且又一个设置在厨房中。在其他示例中，多个机顶盒可连接到同一网络，诸如公寓或办公楼中的公共网络。尽管用户可针对特定机顶盒对遥控器106和用户设备102进行配对、连接或以其他方式授权以避免未经授权的访问，但在其他示例中，遥控器和/或用户设备可用于控制多于一个机顶盒。用户可例如使用单个用户设备102来控制卧室、客厅和厨房中的机顶盒。用户还可例如使用单个用户设备102来控制其自己公寓中的自己的机顶盒，并且控制邻居公寓中的邻居的机顶盒(例如，与邻居共享来自用户设备102的内容，诸如在邻居的电视上显示被存储在用户设备102上的照片的幻灯片)。因为用户可使用单个用户设备102来控制多个不同的机顶盒，因此系统可确定向多个机顶盒中的哪个机顶盒发送命令。同样，因为家庭可具有可操作多个机顶盒的多个遥控器106，所以系统可类似地确定向多个机顶盒中的哪个机顶盒发送命令。

在一个示例中，设备的接近度可用于确定向多个机顶盒中的哪个机顶盒发送命令(或在哪个显示器上显示所请求的媒体内容)。可在用户设备102或遥控器106与多个机顶盒中的每个机顶盒之间确定接近度。然后，可将发出的命令发送到最近的机顶盒(或者可在最近的显示器上显示所请求的媒体内容)。可以多种方式中的任一种方式来确定(或至少估计)接近度，该方式诸如飞行时间测量(例如，使用射频)、蓝牙LE、电子脉冲信号、接近传感器、声路测量等。然后，可比较测量的或估计的距离，并且可向距离最短的设备(例如，最近的机顶盒)发出命令。

图17示出了包括具有第一显示器1786的第一机顶盒1792和具有第二显示器1788的第二机顶盒1794的多设备系统1790。在一个示例中，用户可从用户设备102发出显示媒体内容的命令(例如，而不必指定在哪儿或在哪个设备上进行显示)。然后，可确定(或估计)到第一机顶盒1792的距离1795和到第二机顶盒1794的距离1796。如图所示，距离1796可大于距离1795。基于接近度，来自用户设备102的命令可被发至第一机顶盒1792，该第一机顶盒为最近的设备并且最有可能匹配用户的意图。在一些示例中，单个遥控器106还可用于控制多于一个机顶盒。可基于接近度来确定用于在给定时间进行控制的所需设备。可确定(或估计)到第二机顶盒1794的距离1797和到第一机顶盒1792的距离1798。如图所示，距离1798可大于距离1797。基于接近度，来自遥控器106的命令可被发至第二机顶盒1794，该第二机顶盒为最近的设备并且最有可能匹配用户的意图。可定期地或用每个命令刷新距离测量结果，以适应例如用户移动到不同的房间以及期望控制不同的设备。

应当理解，用户可针对命令指定不同的设备，在一些情况下覆写接近度。例如，可在用户设备102上显示可用显示设备的列表(例如，通过设置名称、指定房间等列出第一显示器1786和第二显示器1788，或通过设置名称、指定房间等列出第一机顶盒1792和第二机顶盒1794)。用户可从列表中选择设备中的一个设备，并且然后可将命令发送到所选择的设备。然后，可通过在所选择的设备上显示期望的媒体来处理在用户设备102处发出的对媒体内容的请求。在其他示例中，用户可讲出期望的设备作为口头命令的一部分(例如，在厨房电视上显示比赛，变化到客厅中的卡通频道等)。

在其他示例中，可基于与特定设备相关联的状态信息来确定用于显示所请求的媒体内容的默认设备。例如，可确定耳机(或头戴式耳机)是否附接到用户设备102。响应于确定当接收到显示媒体内容的请求时耳机附接到用户设备102，可默认(例如，假设用户正在用户设备102上而不是在电视上消费内容)在用户设备102上显示所请求的内容。响应于确定当接收到显示媒体内容的请求时耳机未附接到用户设备102，可根据本文所讨论的各种确定方法中的任一种方法来在用户设备102上或在电视机上显示所请求的内容。可类似地使用其他设备状态信息来确定所请求的媒体内容是应该在用户设备102上还是机顶盒104上显示，该其他设备状态信息诸如用户设备102或机顶盒104周围的环境照明、其他设备到用户设备102或机顶盒104的接近度、用户设备102的取向(例如，横向取向更可能指示期望在用户设备102上观看)、机顶盒104的显示状态(例如，处于休眠模式)、自特定设备上最后一次交互以来的时间、或者用于用户设备102和/或机顶盒104的各种其他状态指示符中的任一状态指示符。

图18示出了使用虚拟助理和多个用户设备来控制电视交互的示例性过程1800。在框1802处，可在具有第一显示器的第一设备处从用户接收语音输入。例如，可在系统100的用户设备102或遥控器106处从用户接收语音输入。在一些示例中，第一显示器可包括用户设备102的触摸屏246或与遥控器106相关联的显示器。

在框1804处，可基于第一显示器上所显示的内容来从语音输入确定用户意图。例如，可对内容(诸如图11的界面1150中的电视节目1152或者图13的界面1360中的照片和视频)进行分析，并将其用于确定用于语音输入的用户意图。在一些示例中，用户可以模糊的方式引用在第一显示器上所示的内容，并且可通过分析在第一显示器上所示的内容来对引用进行消歧，以解析引用(例如，确定“那个”视频、“那个”相册、“那个”比赛等的用户意图)，如上面参考图12和图14所讨论的。

再次参考图18的过程1800，在框1806处，可基于用户意图来确定媒体内容。例如，可基于用户意图来识别特定视频、照片、相册、电视节目、体育赛事、音乐曲目等。在上文所讨论的图11和图12的示例中，例如可基于用户意图是指图11的界面1150中所示的“那个”足球比赛来识别在频道五上所示的特定足球比赛。在上文所讨论的图13和图14的示例中，可基于从图14的语音输入示例确定的用户意图来识别标题为“毕业视频”的特定视频1362、标题为“毕业相册”的特定相册1364或特定照片1366。

再次参考图18的过程1800，在框1808处，可在与第二显示器相关联的第二设备上播放媒体内容。例如，可经由电视机顶盒104在具有扬声器111的显示器112上播放所确定的媒体内容。播放媒体内容可包括在电视机顶盒104或另一装置上调谐到特定电视频道、播放特定视频、显示照片幻灯片、显示特定照片、播放特定音轨等。

在一些示例中，可确定对针对虚拟助理的语音输入的响应是应当被显示在与第一设备(例如，用户设备102)相关联的第一显示器上还是应当被显示在与第二设备(例如，电视机顶盒104)相关联的第二显示器上。例如，如上面参考图15和图16所讨论的，适于在较小屏幕上显示的信息性回答或媒体内容可被显示在用户设备102上，而适于在较大屏幕上显示的媒体响应或媒体内容可被显示在与机顶盒104相关联的显示器上。如上面参考图17所讨论的，在一些示例中，用户设备102和多个机顶盒之间的距离可用于确定在哪个机顶盒上播放媒体内容或者向哪个机顶盒发出命令。类似地，可作出各种其他确定，以提供可多个设备交互的方便且用户友好的体验。

在一些示例中，由于在用户设备102上所示的内容可如上所述用于告知对语音输入的解译，因此在显示器112上所示的内容同样可用于告知对语音输入的解译。具体地，在与电视机顶盒104相关联的显示器上所示的内容可连同与该内容相关联的元数据一起用于从语音输入确定用户意图、对用户查询进行消歧、对内容相关的查询进行响应等。

图19示出了具有关于在背景中所示的视频480的虚拟助理查询的示例性语音输入界面484(如上所述)。在一些示例中，用户查询可包括关于在显示器112上所示的媒体内容的问题。例如，转录1916包括请求识别女演员的查询(“那些女演员是谁？”)。在显示器112上所示的内容(连同关于内容的元数据或其他描述性信息)可用于从与该内容相关的语音输入确定用户意图，还可用于确定对查询的响应(响应包括信息性响应以及向用户提供媒体选择的媒体响应)。例如，可使用视频480、对视频480的描述、视频480的人物和演员列表、视频480的评级信息、视频480的分类信息、以及与视频480相关联的多种其他描述性信息来对用户请求进行消歧并确定对用户查询的响应。相关联的元数据可包括例如人物1910、人物1912和人物1914的识别信息(例如，人物名称以及扮演人物的女演员的名称)。任何其他内容的元数据可类似地包括与显示器上所示内容相关联的标题、描述、人物列表、演员列表、队员列表、分类、制作人名称、导演名称或显示时间表，或者显示器上的媒体内容的观看历史(例如，最近显示的媒体)。

在一个示例中，针对虚拟助理的用户查询可包括对在显示器112上所示的某些内容的模糊引用。例如，转录1916包括对“那些”女演员的引用(“那些女演员是谁？”)。单从语音输入来看，用户正在询问的具体女演员可能并不清楚。然而，在一些示例中，在显示器112上所示的内容和相关联的元数据可用于对用户请求进行消歧并确定用户意图。在例示的示例中，在显示器112上所示的内容可用于从对“那些”女演员的引用来确定用户意图。在一个示例中，电视机顶盒104可识别正在播放的内容以及与内容相关联的详情。在这种情况下，电视机顶盒104可识别视频480的标题以及多种描述性内容。在其他示例中，可示出可与相关联的元数据结合以用于确定用户意图的电视节目、体育赛事或其他内容。另外，在本文所讨论的各种示例中的任一个示例中，相比于另选项，语音识别结果和意图确定可给予与所显示的内容相关联的项更高的权重。例如，屏幕人物的演员名称在那些演员出现在屏幕上时(或者在有他们出现的节目正在播放时)可被加以更高的权重，这可提供以用于对与所显示的内容相关联的可能的用户请求进行准确的语音识别和意图确定。

在一个示例中，与视频480相关联的人物和/或演员列表可用于识别视频480中出现的所有或最突出的女演员，其可包括女演员1910,1912和1914。可返回所识别的女演员作为可能的结果(如果元数据分辨率粗糙，则包括较少或更多的女演员)。然而，在另一示例中，与视频480相关联的元数据可包括对在给定时间在屏幕上出现哪些演员和女演员的识别，并且可从该元数据确定在查询的时间出现的女演员(例如，具体识别的女演员1910,1912和1914)。在又一示例中，可将面部识别应用程序用于从显示器112上所示的图像识别女演员1910,1912和1914。在其他示例中，可将与视频480和各种其他识别方法相关联的各种其他元数据用于识别用户引用“那些”女演员的可能意图。

在一些示例中，在显示器112上所示的内容可在提交查询和确定响应的过程中改变。如此，可将媒体内容的观看历史用于确定用户意图并确定对查询的响应。例如，如果视频480在生成对查询的响应之前移动到(例如，具有其他人物的)另一视图，则可基于用户在说出查询时的视图来确定查询的结果(例如，用户发起查询时屏幕上显示的人物)。在某些情况下，用户可暂停播放媒体以发出查询，并且在暂停时示出的内容可与相关联的元数据一起用于确定用户意图和对查询的响应。

给定所确定的用户意图之后，则可向用户提供查询的结果。图20示出了包括助理响应2020的示例性助理响应界面2018，该助理响应可包括从图19的转录1916的查询确定的响应。如图所示，助理响应2020可包括视频480中的每个女演员的名称及其相关人物的列表(“女演员Jennifer Jones扮演人物Blanche；女演员Elizabeth Arnold扮演人物Julia；并且女演员Whitney Davidson扮演人物Melissa。”)。在响应2020中所列出的女演员和人物可对应于出现在显示器112上的人物1910,1912和1914。如上所述，在一些示例中，在显示器112上所示的内容可在提交查询和确定响应的过程中改变。因此，响应2020可包括关于可能不会再出现在显示器112上的内容或人物的信息。

如被显示在显示器112上的其他界面一样，助理响应界面2018可占据最小量的屏幕实际使用空间，同时提供足够的空间来传达所需信息。在一些示例中，如在显示器112上的界面中显示的其他文本一样，助理响应2020可从显示器112的底部向上滚动到图20所示的位置，显示一定量的时间(例如，基于响应长度的延迟)，并且向上滚动到视图外。在其他示例中，界面2018可在延迟之后向下滑动到视图之外。

图21和图22示出了基于在显示器112上所显示的内容来确定用户意图和响应查询的另一示例。图21示出了包含针对与视频480相关联的媒体内容的虚拟助理查询的示例性语音输入界面484。在一些示例中，用户查询可包括对与在显示器112上所示的媒体相关联的媒体内容的请求。例如，用户可基于例如人物、演员、分类等来请求与特定媒体相关联的其他电影、电视节目、体育赛事等。例如，转录2122包括请求与视频480中的女演员相关联的其他媒体的查询，其中通过该女演员在视频480中的人物名称来对其进行引用(“Blanche还出演过什么？”)。在显示器112上所示的内容(连同关于内容的元数据或其他描述性信息)可再次用于从与该内容相关的语音输入确定用户意图，还可用于确定对查询的响应(信息性响应或导致媒体选择的响应)。

在一些示例中，针对虚拟助理的用户查询可包括使用人物名称、演员名称、节目名称、队员名称等进行的模糊引用。在没有在显示器112上所示的内容及其相关联元数据的上下文，此类引用可难以精确解析。例如，转录2122包括对来自视频480的名为“Blanche”的人物的引用。单从语音输入来看，用户正在询问的具体女演员或其他个体可能并不清楚。然而，在一些示例中，在显示器112上所示的内容和相关联的元数据可用于对用户请求进行消歧并确定用户意图。在例示的示例中，在显示器112上所示的内容和相关联的元数据可用于从人物名称“Blanche”确定用户意图。在这种情况下，与视频480相关联的人物列表可用于确定“Blanche”可能指代视频480中的人物“Blanche”。在另一示例中，可将详细的元数据和/或面部识别用于确定具有名称“Blanche”的人物出现在屏幕上(或者在用户查询发起时在屏幕上出现过)，使得与那个人物相关联的女演员为最可能的用户查询意图。例如，可确定人物1910,1912和1914出现在显示器112上(或者在用户查询发起时在显示器112上出现过)，并且然后可引用其相关联的人物名称来确定引用人物Blanche的查询的用户意图。然后，可使用演员列表来识别扮演Blanche的女演员，并且可进行搜索以识别有所识别的女演员出现的其他媒体。

给定所确定的用户意图(例如，对人物引用“Blanche”的解析)和查询结果确定(例如，与扮演“Blanche”的女演员相关联的其他媒体)之后，可向用户提供响应。图22示出了包括助理文本响应2226和可选视频链接2228的示例性助理响应界面2224，其可响应于对图21的转录2122的查询。如图所示，助理文本响应2226可包括对引入可选视频链接2228的用户请求的改述。助理文本响应2226还可包括对用户查询进行消歧的指示(具体地，将女演员Jennifer Jones识别为扮演视频480中的人物Blanche)。此类改述可向用户确认虚拟助理正确地解译了用户查询并且正在提供期望的结果。

助理响应界面2224还可包括可选视频链接2228。在一些示例中，可将各种类型的媒体内容提供为虚拟助理查询的结果，其包括电影(例如，界面2224的电影A和电影B)。作为查询的结果而显示的媒体内容可包括可供用户消费(免费、购买或作为订阅的一部分)的媒体。用户可选择所显示的媒体来观看或消费所得到的内容。例如，用户可(例如，使用遥控器、语音命令等)选择可选视频链接2228中的一个可选视频链接以观看有演员JenniferJones在其中出现的其他电影中的一个电影。响应于对可选视频链接2228中的一个可选视频链接的选择，可播放与该选择相关联的视频，从而替换显示器112上的视频480。因此，所显示的媒体内容和相关联的元数据可用于从语音输入确定用户意图，并且在一些示例中，可提供可播放媒体作为结果。

应当理解，用户可在形成查询时引用演员、队员、人物、位置、团队、体育赛事详情、电影主题、或者与所显示的内容相关联的各种其他信息，并且虚拟助理系统可类似地对此类请求进行消歧并基于所显示的内容和相关联元数据来确定用户意图。同样地，应当理解，在一些示例中，结果可包括与查询相关联的媒体建议，诸如与作为查询的主题的人相关联的电影、电视节目、或体育赛事(无论用户是否特别地请求此类媒体内容)。

此外，在一些示例中，用户查询可包括对与媒体内容本身相关联的信息的请求，诸如关于人物、剧集、电影剧情、先前场景等的查询。与上面所讨论的示例一样，所显示的内容和相关联的元数据可用于从此类查询确定用户意图并确定响应。例如，用户可请求对人物的描述(例如，“Blanche在这部电影中是做什么的？”)。然后，虚拟助理系统可从与所显示的内容相关联的元数据识别关于人物的所请求的信息，诸如人物描述或角色(例如，“Blanche是一群律师中的一个律师并且被称为Hartford的麻烦制造者。”)。类似地，用户可请求剧集概要(例如，“在上一集中发生了什么？”)，而虚拟助理系统可搜索并提供对情节的描述。

在一些示例中，被显示在显示器112上的内容可包括菜单内容，并且此类菜单内容可类似地用于确定语音输入的用户意图和对用户查询的响应。图23A至图23B示出了节目菜单830的示例性页面。图23A示出了媒体选项832的第一页面，并且图23B示出了媒体选项832的第二页面(其可包括延伸超出单个页面的内容列表中的连续的下一页)。

在一个示例中，用于播放内容的用户请求可包括对在菜单830中显示器112上所示的某些内容的模糊引用。例如，用于查看菜单830的用户可请求观看“那个”足球比赛、“那个”篮球比赛、真空吸尘器广告、法律节目等。单从语音输入来看，所期望的特定节目可能并不清楚。然而，在一些示例中，在显示器112上所示的内容可用于对用户请求进行消歧并确定用户意图。在例示的示例中，菜单830中的媒体选项(在一些示例中，以及与媒体选项相关联的元数据)可用于从包括模糊引用的命令确定用户意图。例如，“那个”足球比赛可被解析为体育频道上的足球比赛。“那个”篮球比赛可被解析为大学体育频道上的篮球比赛。真空吸尘器广告可(例如，基于与描述真空吸尘器的节目相关联的元数据)被解析为付费播出的节目。法律节目可基于与节目相关联的元数据和/或同义词匹配、模糊匹配或其他匹配技术而被解析为法庭剧。因此，显示器112上的菜单830中的各种媒体选项832的出现可用于对用户请求进行消歧。

在一些示例中，所显示的菜单可利用光标、操纵杆、箭头、按钮、手势等来进行导航。在此类情况下，可在所选择的项目上显示焦点。例如，可通过以粗体、带下划线、以边界勾勒、以大于其他菜单项的尺寸、带阴影、带倒影、发光和/或带任何其他特征显示所选择的项目来强调被选中并具有焦点的菜单项。例如，图23A中的所选择的媒体选项2330作为当前选择的媒体选项可具有焦点，并且利用大号、带下划线的字体以及边框来显示。

在一些示例中，用于播放内容或选择菜单项的请求可包括对具有焦点的菜单项的模糊引用。例如，观看图23A所示菜单830的用户可请求播放“那个”节目(例如，“播放那个节目。”)。类似地，用户可请求与具有焦点的菜单项相关联的各种其他命令，诸如播放、删除、隐藏、提醒我观看、记录等。单从语音输入来看，所期望的特定菜单项或节目可能并不清楚。然而，在显示器112上所示的内容可用于对用户请求进行消歧并确定用户意图。具体地，所选择的媒体选项2330在菜单830中具有焦点的事实可用于识别以下命令中的任一种命令所期望的媒体主题：引用“那个”项目的命令、没有主题的命令(例如，播放、删除、隐藏等)、或者引用具有焦点的媒体内容的任何其他模糊命令。因此，具有焦点的菜单项可用于从语音输入确定用户意图。

如可用于对用户请求进行消歧的媒体内容的观看历史(例如，在用户发起请求时显示但是后来已经过去的内容)一样，先前显示的菜单或搜索结果内容可类似地用于在继续移动(例如，移动至稍后的菜单或搜索结果内容)之后可用于对稍后用户请求进行消歧。例如，图23B示出了具有附加媒体选项832的菜单830的第二页面。用户可前进到图23B所示的第二页面，但回头引用在图23A所示的第一页面中所示出的内容(例如，图23A中所示媒体选项832)。例如，尽管已移动到菜单830的第二页面，但用户可请求观看“那个”足球比赛、“那个”篮球比赛或法律节目，所有这些都是最近显示在菜单830的前一页面上的媒体选项832。这种引用可以是模糊的，但是可使用来自菜单830第一页面的最近显示的菜单内容来确定用户意图。具体地，可分析图23A的最近显示的媒体选项832，以识别在模糊示例请求中引用的特定足球比赛、篮球比赛或法庭剧。在一些示例中，可基于内容是多久显示的来偏置结果(例如，对最近查看的结果页面的加权超过较早查看的结果)。这样，最近在显示器112上所示的内容的观看历史可用于确定用户意图。应当理解，可使用任何最近显示的内容，诸如先前显示的搜索结果、先前显示的节目、先前显示的菜单等。这可允许用户返回到他们之前看到的某些内容而不必找到并导航到他们看到该内容的特定视图。

在其他示例中，显示器112上的菜单或结果列表中所示的各种显示提示可用于对用户请求进行消歧并确定用户意图。图24示出了被划分为多个类别的示例性媒体菜单，其中一个类别的示例性媒体菜单具有焦点(电影)。图24示出了可包括经归类的媒体选项的旋转台式界面的类别界面2440，该经归类的媒体选项包括电视选项2442、电影选项2444和音乐选项2446。如图所示，音乐类别仅被部分地显示，并且可偏移旋转台界面以向右显示附加内容(例如，如箭头所示)，就像在旋转台中旋转媒体一样。在例示的示例中，电影类别具有由带下划线的标题和边框所指示的焦点，但是可以多种其他方式中的任一种方式来指示焦点(例如，使得该类别比其他类别更大，以显得接近用户、发光等)。

在一些示例中，用于播放内容或选择菜单项的请求可包括对一组项目(例如类别)中的菜单项的模糊引用。例如，查看类别界面2440的用户可请求播放足球节目(“播放足球节目。”)。单从语音输入来看，所期望的特定菜单项或节目可能并不清楚。此外，查询可解析为在显示器112上显示的多于一个节目。例如，对足球节目的请求可指在电视节目类别中所列出的足球比赛或在电影类别中所列出的足球电影。在显示器112上所示的内容(包括显示提示)可用于对用户请求进行消歧并确定用户意图。具体地，电影类别在类别界面2440中具有焦点的事实可用于识别所期望的特定足球节目，如果焦点在电影类别上，则所期望的特定足球节目很可能是足球电影。因此，具有如在显示器112上所示焦点的媒体类别(或任何其他媒体分组)可用于从语音输入确定用户意图。还应当理解，用户可作出与类别相关联的各种其他请求，诸如请求显示某些类别内容(例如，为我显示喜剧电影，为我显示恐怖电影，等等)。

在其他示例中，用户可以各种其他方式来引用在显示器112上所示的菜单或媒体项，并且可类似地基于所显示的内容来确定用户意图。应当理解，与显示内容相关联的元数据(例如，电视节目描述、电影描述等)、模糊匹配技术、同义词匹配等还可与所显示的内容结合以从语音输入确定用户意图。因此，可适应各种形式的用户请求(包括自然语言请求)，并且可根据本文所讨论的各种示例来确定用户意图。

应当理解，在确定用户意图时，在显示器112上所显示的内容可单独使用，或者与在用户设备102上或在与遥控器106相关联的显示器上所显示的内容结合使用。同样地，应当理解，可在通信地耦接至电视机顶盒104的各种设备中的任一设备处接收虚拟助理查询，并且不管是哪个设备接收查询，均可使用被显示在显示器112上的内容来确定用户意图。查询结果同样可被显示在显示器112上或另一显示器上(例如，在用户设备102上)。

另外，在本文所讨论的各种示例中的任一个示例中，虚拟助理系统可在不需要用户特别地打开菜单并导航到菜单项的情况下对菜单进行导航并选择菜单选项。例如，选项菜单可在选择媒体内容或菜单按钮(诸如选择图24中的电影选项2444)之后出现。菜单选项可包括播放媒体以及简单地播放媒体的另选形式，诸如设置提醒稍后观看媒体、建立媒体记录、将媒体添加到收藏列表、从另外的视图隐藏媒体等。用户在查看具有子菜单选项的菜单或内容上的内容时，可发出虚拟助理命令，否则将需要导航到菜单或子菜单以进行选择。例如，查看图24的类别界面2440的用户可发出与电影选项2444相关联的任何菜单命令，而无需手动打开相关联的菜单。例如，用户可请求将足球电影添加到收藏列表、记录夜间新闻以及设置提醒以观看电影B，而无需导航到与那些媒体选项相关联的菜单或子菜单(此类命令在其中可能可用)。因此，虚拟助理系统可导航菜单和子菜单，以便代表用户来执行命令，而无论这些菜单选项是否出现在显示器112上。这可简化用户请求并减少用户必须进行以实现所需菜单功能的点击或选择的数量。

图25示出了使用显在示器上所示的媒体内容和媒体内容观看历史来控制电视交互的示例性过程2500。在框2502处，可接收从用户接收语音输入，该语音输入包括与在电视显示器上所示的内容相关联的查询。例如，语音输入可包括关于出现在系统100的显示器112(由电视机顶盒104示出)上的人物、演员、电影、电视节目、体育赛事、队员等的查询。图19的转录1916例如包括与在显示器112上的视频480中所示的女演员相关联的查询。类似地，图21的转录2122包括与在显示器112上所示的视频480中的人物相关联的查询。语音输入还可包括与出现在显示器112上的菜单或搜索内容相关联的查询，诸如用于选择特定菜单项或获取关于特定搜索结果的信息的查询。例如，所显示的菜单内容可包括图23A和图23B中的菜单830的媒体选项832。所显示的菜单内容同样可包括出现在图24的类别界面2440中的电视选项2442、电影选项2444和/或音乐选项2446。

再次参考图25的过程2500，在框2504处，可基于所示的内容和媒体内容的观看历史来确定查询的用户意图。例如，可基于电视节目、体育赛事、电影等所显示或最近显示的场景来确定用户意图。还可基于所显示或最近显示的菜单或搜索内容来确定用户意图。还可将所显示的内容连同与该内容相关联的元数据一起进行分析，以确定用户意图。例如，参考图19、图21、图23A、图23B和图24所示和所述的内容可单独使用，或者结合与所显示的内容相关联的元数据一起使用，以确定用户意图。

在框2506处，可基于所确定的用户意图来显示查询的结果。例如，与图20所示的助理响应界面2018中的助理响应2020相似的结果可被显示在显示器112上。在另一个示例中，可提供文本和可选媒体作为结果，诸如图22所示的助理响应界面2224中的助理文本响应2226和可选视频链接2228。再如，显示查询结果可包括显示或播放所选择的媒体内容(例如，经由电视机顶盒104在显示器112上播放所选择的视频)。因此，可使用所显示的内容和相关联的元数据作为上下文以各种方式从语音输入确定用户意图。

在一些示例中，可向用户提供虚拟助理查询建议，以例如告知用户可用的查询、建议用户可能喜欢的内容、教导用户如何使用系统、鼓励用户查找附加媒体消费的内容，等等。在一些示例中，查询建议可包括可能命令的通用建议(例如，查找喜剧，为我显示电视指南，搜索动作电影，打开隐藏式字幕，等等)。在其他示例中，查询建议可包括与所显示的内容相关的目标建议(例如，将该节目添加到观看列表，通过社交媒体分享该节目，为我显示该电影的原声带，为我显示该嘉宾正在出售的书，为我显示那个嘉宾正在推荐的电影的预告片等)、用户偏好(例如，隐藏式字幕使用等)、用户拥有的内容、被存储在用户设备上的内容、通知、警报、媒体内容的观看历史(例如，最近显示的菜单项、最近显示的演出场景、演员最近的出场等)等。可在任何设备上显示建议，包括经由电视机顶盒104来在显示器112上、在用户设备102上、或在与遥控器106相关联的显示器上显示建议。另外，可基于在特定时间哪些设备在附近并/或与电视机顶盒104进行通信来确定建议(例如，从在特定时间在房间中观看电视的用户的设备建议内容)。在其他示例中，可基于各种其他上下文信息来确定建议，该其他上下文信息包括一天中的时间、源自群众的信息(例如，在给定时间观看的流行节目)、直播的节目(例如，直播体育赛事)、媒体内容的观看历史(例如，观看的最后几个节目、最近观看的搜索结果组、最近观看的媒体选项组等)、或多种其他上下文信息中的任一种其他上下文信息。

图26示出了包括基于内容的虚拟助理查询建议2652的示例性建议界面2650。在一个示例中，可在界面(诸如界面2650)中响应于从请求建议的用户处接收的输入来提供查询建议。可例如从用户设备102或遥控器106接收用于请求查询建议的输入。在一些示例中，输入可包括在用户设备102或遥控器106处接收的按钮按压、按钮双击、菜单选择、语音命令(例如，为我显示一些建议，你能为我做什么，有些什么选项等)等。例如，用户可双击遥控器106上的物理按钮来请求查询建议，或者可在查看与电视机顶盒104相关联的界面时双击用户设备102上的物理或虚拟按钮来请求查询建议。

建议界面2650可被显示在移动图像诸如视频480上方，或可被显示在任何其他背景内容(例如，菜单、静止图像、暂停的视频等)上方。如本文所讨论的其他界面一样，建议界面2650可以动画形式从显示器112的底部向上滑动，并且可在充分传达所需信息时占据最小量的空间，以便限制对背景中的视频480的干扰。在其他示例中，当背景内容静止时(例如，暂停的视频、菜单、图像等)，可提供更大的建议界面。

在一些示例中，可基于所显示的媒体内容或媒体内容的观看历史(例如，电影、电视节目、体育赛事、最近观看的节目、最近查看的菜单、最近观看的电影场景、正在播放的电视剧的最近场景等)来确定虚拟助理查询建议。例如，图26示出了可基于在背景中示出的所显示视频480来确定的基于内容的建议2652，其中人物1910,1912和1914出现在显示器112上。与所显示的内容相关联的元数据(例如，媒体内容的描述性详情)也可用于确定查询建议。元数据可包括与所显示的内容相关联的各种信息，其包括节目标题、人物列表、演员列表、剧集描述、团队名单、团队排名、节目概要、电影详情、剧情描述、导演名称、制作人名称、演员出场时间、体育比赛、体育比分、分类、季集列表、相关媒体内容、或各种其他相关联的信息。例如，与视频480相关联的元数据可包括人物1910,1912和1914的人物名称以及扮演这些人物的女演员。元数据还可包对视频480的剧情描述、对前一集或下一集的描述(其中视频480是电视连续剧中的一集)等。

图26示出了可基于视频480和与视频480相关联的元数据在建议界面2650中示出的各种基于内容的建议2652。例如，视频480的人物1910可被命名为“Blanche”，并且人物名称可用于制定关于人物Blanche或扮演该人物的女演员的信息的查询建议(例如，“扮演Blanche的女演员是谁？”)。可根据与视频480相关联的元数据(例如，人物列表、演员列表、与演员出场相关联的时间等)来识别人物1910。在其他示例中，面部识别可用于识别在给定时间出现在显示器112上的女演员和/或人物。可提供与媒体本身中的人物相关联的各种其他查询建议，诸如与人物角色、个人资料信息、与其他人物的关系等相关的查询。

在另一示例中，可(例如，基于元数据和/或面部识别)识别出现在显示器112上的演员或女演员，并且可提供与该演员或女演员相关联的查询建议。此类查询建议可包括所扮演的一个或多个角色、表演奖项、年龄、有其出现的其他媒体、历史、家庭成员、人际关系或者关于演员、或女演员的各种其他详情中的任一个其他详情。例如，人物1914可由名为Whitney Davidson的女演员扮演，并且女演员的名称Whitney Davidson可用于制定查询建议以识别有女演员Whitney Davidson出现的其他电影、电视节目或其他媒体(例如，“Whitney Davidson还出演过什么？”)。

在其他示例中，关于节目的详情可用于制定查询建议。可使用剧集概要、剧情简介、剧集列表、剧集标题、系列标题等制定查询建议。例如，可提供建议以描述在电视节目的上一集中发生的事件(例如，“上一集中发生了什么？”)，虚拟助理系统可向其提供前一集的剧集概要作为响应，该前一集是基于当前显示器112上显示的剧集(及其相关联的元数据)识别的。在另一个示例中，可提供建议以设置记录下一集，这可通过系统基于在显示器112上所示的当前播放剧集识别下一集来实现。再如，可提供建议以获取关于出现在显示器112上的当前剧集或节目的信息，并且可使用从元数据获取的节目的标题来制定查询建议(例如，“这集‘Their Show’的内容是什么？”或“‘Their Show’的内容是什么？”)。

在另一示例中，可使用与所显示的内容相关联的类别、分类、评级、奖项、描述等来制定查询建议。例如，视频480可对应于被描述为具有女性主角的喜剧的电视节目。可根据该信息来制定查询建议，以识别具有类似特征的其他节目(例如，“为我查找有女主角的其他喜剧。”)。在其他示例中，可基于用户订阅、可用于回放的内容(例如，电视机顶盒104上的内容、用户设备102上的内容、可用于流传输的内容等)等来确定建议。例如，可基于信息性或媒体结果是否可用来筛选可能的查询建议。可排除可能不会得到可播放媒体内容或信息性回答的查询建议，和/或可提供具有易得信息性回答或可播放媒体内容的查询建议(或在确定要提供哪些建议时更重地加权)。因此，可以多种方式使用所显示的内容和相关联的元数据来确定查询建议。

图27示出了用于确认对所建议查询的选择的示例性选择界面2754。在一些示例中，用户可通过说出查询、利用按钮选择查询、利用光标导航到查询等来选择所显示的查询建议。响应于选择，可在确认界面(诸如选择界面2754)中简要地显示所选择的建议。在一个示例中，所选择的建议2756可以动画形式从其在建议界面2650中出现的任何位置移动到图27所示的命令接收确认490旁边的位置(例如，如箭头所示)，并且可从显示器中隐藏其他未选择的建议。

图28A至图28B示出了基于所选择的查询的示例性虚拟助理回答界面2862。在一些示例中，对所选择的查询的信息性回答可被显示在回答界面诸如回答界面2862中。在从建议界面2650或选择界面2754切换时，可示出如图28A所示的过渡界面2858。具体地，当下一内容从显示器112的底部向上滚动时，界面内的先前所显示的内容可向上滚动离开界面。例如，所选择的建议2756可向上滑动或向上滚动，直到其在虚拟助理界面的顶部边缘消失，并且助理结果2860可从显示器112的底部向上滑动或滚动，直到其到达如图28B所示的位置。

回答界面2862可包括响应于所选择的查询建议(或响应于任何其他查询)的信息性回答和/或媒体结果。例如，响应于所选择的查询建议2756，可确定和提供助理结果2860。具体地，响应于对先前剧集概要的请求，可基于所显示的内容来识别先前剧集，并且可识别相关联的描述或概要并将其提供至用户。在例示的示例中，助理结果2860可描述与显示器112上的视频480对应的节目的上一集(例如，“在第203集‘Their Show’中，Blanche受邀作为嘉宾到大学心理学课程上演讲，Julia和Melissa突然露面，引起骚动。”)。信息性回答和媒体结果(例如，可选视频链接)也可以本文所讨论的任何其他方式呈现，或者结果可以各种其他方式呈现(例如，大声朗读回答、立即播放内容、显示动画、显示图像等)。

在另一示例中，可使用通知或警报来确定虚拟助理查询建议。图29示出了媒体内容通知2964(但在确定建议时可考虑任何通知)和建议界面2650，该建议界面具有基于通知的建议2966和基于内容的建议2652两者(其可包括与上面参考图26所讨论的相同的一些概念)。在一些示例中，可分析通知的内容以识别相关媒体的相关名称、标题、主题、动作等。在例示的示例中，通知2964包括通知用户关于可用于显示的另选媒体内容的警报——具体地，体育赛事是直播的，并且比赛的内容可能是用户感兴趣的(例如，“比赛还剩五分钟，Zeta队和Alpha队打成平局。”)。在一些示例中，可在显示器112的顶部暂时显示通知。通知可从显示器112的顶部向下滑动(如箭头所示)到图29所示的位置，显示一段时间，并且滑回到显示器112的顶部再次消失。

通知或警报可向用户通知各种信息，诸如可用的另选媒体内容(例如，当前可在显示器112上示出的替代物)、可用的直播电视节目、新下载的媒体内容、最近添加的订阅内容、从朋友处接收的建议、从另一设备发送的对媒体的接收等。还可基于家庭或所识别的用户观看媒体(例如，基于使用帐户选择的用户认证、语音识别、口令等来识别)来使通知个性化。在一个示例中，系统可中断显示并基于可能期望的内容来显示通知，诸如基于用户个人资料信息、喜爱的一个或多个团队、偏好的一种或多种体育运动、观看历史等为可能期望通知内容的用户显示通知2964。例如，可从体育数据馈送、新闻发布、社交媒体讨论等获取体育赛事得分、比赛状态、剩余时间等，并且可用于识别可能的另选媒体内容以通知用户。

在其他示例中，可经由警报或通知来提供(例如，在多名用户中)流行的媒体内容，以建议当前所观看内容的替代物(例如，通知用户流行的节目或用户喜欢的分类中刚刚开始的节目或以其他方式可用于观看的节目)。在例示的示例中，用户可追踪Zeta队和Alpha队中的一者或两者(或者可追踪足球或特定的运动、联盟等)。系统可确定可用的直播内容匹配用户的偏好(例如，另一频道上的比赛匹配用户的偏好，比赛几乎没有剩余时间，并且比分接近)。然后，系统可确定经由通知2964警告用户可能期望的内容。在一些示例中，用户可(例如，使用遥控按钮、光标、语音请求等)选择通知2964(或通知2964内的链接)来切换到建议的内容。

可通过分析通知内容来基于通知确定虚拟助理查询建议，以识别相关媒体的相关术语、名称、标题、主题、动作等。然后，可使用所识别的信息制定适当的虚拟助理查询建议，诸如基于通知2964的基于通知的建议2966。例如，可显示关于令人兴奋的直播体育赛事结尾的通知。然后，如果用户请求查询建议，则可显示建议界面2650，包括观看体育赛事、查询团队统计数据或者查找与通知相关的内容(例如，换到Zeta/Alpha比赛，Zeta队的统计数据如何，另外还有哪些足球比赛在进行，等等)的查询建议。基于在通知中识别的感兴趣的特定术语，同样可确定各种其他查询建议并将其提供至用户。

还可从用户设备上的内容确定与媒体内容相关的虚拟助理查询建议(例如，用于经由电视机顶盒104消费)，并且还可在用户设备上提供建议。在一些示例中，可在连接到电视机顶盒104或与该电视机顶盒通信的用户设备上识别可播放设备内容。图30示出了界面1360中具有示例性图片和视频内容的用户设备102。可确定什么内容可用于在用户设备上回放，或者可能期望回放什么内容。例如，可基于活动应用程序(例如，照片和视频应用程序)来识别可播放媒体3068，或者可基于存储的内容来识别该可播放媒体是否显示在界面1360上(例如，在一些示例中可根据活动应用程序识别内容，或者在其他示例中在给定时间不显示)。可播放媒体3068可包括例如视频1362、相册1364和照片1366，其中每一者可包括可被传输到电视机顶盒104以用于显示或回放的个人用户内容。在其他示例中，存储或显示在用户设备102上的任何照片、视频、音乐、游戏界面、应用界面或其他媒体内容可被识别并用于确定查询建议。

在识别出可播放媒体3068的情况下，可确定虚拟助理查询建议并将其提供至用户。图31示出了用户设备102上的示例性电视助理界面3170，其包含基于可播放用户设备内容并且基于独立显示器(例如，与电视机顶盒104相关联的显示器112)上所示视频内容的虚拟助理查询建议。电视助理界面3170可包括专门用于与媒体内容和/或电视机顶盒104交互的虚拟助理界面。用户可通过例如在查看界面3170时双击物理按钮来请求用户设备102上的查询建议。其他输入可类似地用于指示对查询建议的请求。如图所示，助理问候3172可介绍所提供的查询建议(例如，“这是一些对于控制您电视体验的建议。”)。

用户设备102上所提供的虚拟助理查询建议可包括基于各种源设备的建议以及一般建议。例如，基于设备的建议3174可包括基于用户设备102上所存储内容(包括用户设备102上所显示的内容)的查询建议。基于内容的建议2652可基于与电视机顶盒104相关联的显示器112上所显示的内容。一般建议3176可包括可不与特定媒体内容或带有媒体内容的特定设备相关联的一般建议。

基于设备的建议3174可例如基于用户设备102上所识别的可播放内容(例如，视频、音乐、照片、游戏界面、应用界面等)来确定。在例示的示例中，可基于图30所示的可播放媒体3068来确定基于设备的建议3174。例如，假定相册1364被识别为可播放媒体3068，则可使用相册1364的详情制定查询。系统可将内容识别为可在幻灯片中显示的多张照片的相册，并且然后可(在一些情况下)使用相册的标题来制定查询建议，以示出特定相册的幻灯片，(例如，“通过幻灯片放映显示您照片中的‘毕业相册’”。)。在一些示例中，建议可包括内容来源的指示(例如，“您照片中的”，“Jennifer电话中的”，“Daniel平板电脑中的”等)。该建议还可使用其他详情来引用特定内容，例如查看特定日期以后的照片的建议(例如，显示您从6月21日起的照片)。在另一示例中，视频1362可被识别为可播放媒体3068，并且视频的标题(或其他识别信息)可用于制定播放视频的查询建议(例如，显示您视频中的“毕业视频”。)。

在其他示例中，可识别在其他连接的设备上可用的内容并将其用于制定虚拟助理查询建议。例如，可识别来自连接到公共电视机顶盒104的两个用户设备102中的每个用户设备的内容并将其用于制定虚拟助理查询建议。在一些示例中，用户可选择使哪些内容对于系统可见以供共享，并且可从系统中隐藏其他内容，以便不将其包括在查询建议中或以其他方式使其可用于回放。

在图31的界面3170中所示的基于内容的建议2652可例如基于在与电视机顶盒104相关联的显示器112上所显示的内容来确定。在一些示例中，基于内容的建议2652可以与上面参考图26所描述的相同的方式来确定。在例示的示例中，图31中所示的基于内容的建议2652可基于显示器112上所示的视频480(例如，如图26所示)。这样，可基于在任何数量的连接的设备上显示或可用的内容来导出虚拟助理查询建议。除了目标建议之外，可预先确定和提供一般建议3176(例如，为我显示指南，在进行的体育比赛有哪些，频道三在演什么，等等)。

图32示出了示例性建议界面2650，其包含在与电视机顶盒104相关联的显示器112上示出的基于所连接设备的建议3275以及基于内容的建议2652。在一些示例中，基于内容的建议2652可以与上面参考图26所描述的相同的方式来确定。如上所述，可基于任何数量的所连接设备上的内容来制定虚拟助理查询建议，并且可在任何数量的所连接设备上提供建议。图32示出了可从用户设备102上的内容导出的基于所连接设备的建议3275。例如，可在用户设备102上识别可播放内容，诸如图30中在界面1360中显示为可播放媒体3068的照片和视频内容。然后，可使用用户设备102上的所识别的可播放内容制定可在与电视机顶盒104相关联的显示器112上显示的建议。在一些示例中，基于所连接设备的建议3275可以与上面参考图31所描述的基于设备的建议3174相同的方式来确定。此外，如上所述，在一些示例中，识别源信息可包括在建议中，诸如在基于所连接设备的建议3275中所示的“Jake电话中的”。因此，可基于来自另一设备的内容(例如，所显示的内容、所存储的内容等)导出在一个设备上提供的虚拟助理查询建议。应当理解，所连接设备可包括电视机顶盒104和/或用户设备102能够访问的远程存储设备(例如，访问存储在云中的媒体内容以制定建议)。

应当理解，响应于对建议的请求，可提供来自各种源的虚拟助理查询建议的任何组合。例如，可随机组合来自各种源的建议，或者可基于流行度、用户偏好、选择历史等来呈现。此外，可以各种其他方式确定查询并且基于各种其他因素(诸如查询历史、用户偏好、查询流行度等)来呈现查询。另外，在一些示例中，可通过在延迟之后将显示的建议替换为新的另选建议来自动地循环查询建议。还应当理解，用户可通过例如轻击触摸屏、说出查询、使用导航键选择查询、使用按钮选择查询、使用光标选择查询等来选择任何界面上显示的建议，并且然后可提供相关联的响应(例如，信息和/或媒体响应)。

在各种示例中的任一个示例中，还可基于可用内容来筛选虚拟助理查询建议。例如，将得到不可用媒体内容(例如，没有有线电视订阅)或可不具有相关联的信息性回答的可能查询建议可被取消作为建议的资格并阻止显示。另一方面，将得到用户有权访问的可立即播放的媒体内容的可能查询建议可相对于其他可能建议被更重地加权或以其他方式被偏置以用于显示。这样，用于用户观看的媒体内容的可用性还可用于确定用于显示的虚拟助理查询建议。

另外，在各种示例中的任一个示例中，可替代建议或者除建议之外(例如，在建议界面2650中)提供预加载的查询回答。可基于个人使用和/或当前上下文来选择和提供这种预加载的查询回答。例如，观看特定节目的用户可轻击按钮、双击按钮、长按按钮等以接收建议。作为查询建议的替代或补充，可自动提供基于上下文的信息，诸如识别正在播放的歌曲或原声带(例如，“这首歌是Performance Piece”)、识别当前播放的剧集的演员成员(例如，“女演员Janet Quinn扮演Genevieve”)、识别类似媒体(例如，“节目Q与这个相似”)或提供本文所讨论的其他查询中的任何查询的结果。

此外，可在各种界面中的任一个界面中为用户提供对媒体内容进行评级的示能表示(例如，可选评级量表)，以向虚拟助理告知用户偏好。在其他示例中，用户可将评级信息作为自然语言命令讲出(例如，“我爱这个”、“我讨厌这个”、“我不喜欢这个节目”等)。在其他示例中，在本文所示和所述的各种界面中的任一者中，可提供各种其他功能性和信息性元素。例如，界面还可包括至重要功能和位置的链接，诸如搜索链接、购买链接、媒体链接等。在另一个示例中，界面还可包括基于当前播放内容(例如，选择类似内容)的对下一个要观看的其他内容的推荐。再如，界面还可包括基于个性化品味和/或近期活动(例如，基于用户评级、用户输入的偏好、最近观看的节目等选择内容)的对下一个要观看的其他内容的推荐。再如，界面还可包括用于用户交互的指令(例如，“按压并保持可与虚拟助理通话”、“轻击一次可获取建议”等)。在一些示例中，提供预加载的回答、建议等可提供愉快的用户体验，同时使得内容对于各种各样的用户(例如，不论语言或其他控制障碍，对于各种技能水平的用户)来说都是易得的。

图33示出了建议用于控制媒体内容的虚拟助理交互(例如，虚拟助理查询)的示例性过程3300。在框3302处，可在显示器上显示媒体内容。例如，如图26所示，可经由电视机顶盒104在显示器112上显示视频480，或者可如图30所示在用户设备102的触摸屏246上显示界面1360。在框3304处，可从用户接收输入。输入可包括对虚拟助理查询建议的请求。输入可包括按钮按压、按钮双击、菜单选择、对于建议的口头查询等。

在框3306处，可基于媒体内容和/或媒体内容的观看历史来确定虚拟助理查询。例如，可基于所显示的节目、菜单、应用程序、媒体内容列表、通知等来确定虚拟助理查询。在一个示例中，基于内容的建议2652可基于视频480和相关联的元数据来确定，如参考图26所述。在另一示例中，基于通知的建议2966可基于通知2964来确定，如参考图29所述。在又一示例中，基于设备的建议3174可基于用户设备102上的可播放媒体3068来确定，如参考图30和图31所述。在其他示例中，基于所连接设备的建议3275可基于用户设备102上的可播放媒体3068来确定，如参考图32所述。

再次参考图33的过程3300，在框3308处，可在显示器上显示虚拟助理查询。例如，可显示所确定的查询建议，如参考图26、图27、图29、图31和图32所示和所述。如上所述，可基于各种其他信息来确定和显示查询建议。此外，可基于来自具有另一显示器的另一设备的内容来导出在一个显示器上提供的虚拟助理查询建议。因此，可向用户提供定向的虚拟助理查询建议，从而帮助用户了解可能的查询以及提供所需内容建议，还有其他益处。

此外，在本文所讨论的各种示例中的任何一个示例中，可以为特定用户而个性化定制各个方面。包括联系人、偏好、位置、喜爱的媒体等的用户数据可用于解译语音命令，并促进用户与本文所讨论的各种设备的交互。还可根据用户偏好、联系人、文本、使用历史、简介数据、年龄段数据等，以各种其他方式修改本文所讨论的各种过程。此外，基于用户交互(例如，频繁说出的命令、频繁选择的应用程序等)，此类偏好和设置可以随时间更新。可得自各种来源的用户数据的收集和使用可用于改善将邀请内容或用户可能感兴趣的任何其他内容传送到用户。本公开预期，在一些示例中，这些经采样的数据可包括唯一地识别或可用于联系或定位特定人员的个人信息数据。此类个人信息数据可包括人口数据、基于位置的数据、电话号码、电子邮件地址、家庭地址或任何其他识别信息。

因此，虽然本公开广泛地覆盖了使用个人信息数据来实现一个或多个各种所公开的示例，但本公开还预期各种示例也可在无需访问此类个人信息数据的情况下被实现。即，本发明技术的各种示例不会由于缺少此类个人信息数据的全部或一部分而无法正常进行。例如，可通过基于非个人信息数据或绝对最低限度的个人信息(例如，与用户相关联的设备所请求的内容、对内容递送服务可用的其他非个人信息或公开可用信息)来推断偏好，从而选择内容并递送给用户。

根据一些示例，图34示出了电子设备3400的功能框图，所述电子设备根据各种所述示例的原理配置，以便例如使用虚拟助理控制电视交互并使用不同的界面显示相关联的信息。设备的功能块可由执行各种所述示例的原理的硬件、软件、或硬件和软件的组合来实现。本领域的技术人员应当理解，图34中所述的功能块可被组合或被分离为子块，以便实现各种所述示例的原理。因此，本文的描述任选地支持本文所述功能块的任何可能的组合或分离或进一步限定。

如图34所示，电子设备3400可包括被配置为显示媒体、界面和其他内容的显示单元3402(例如，显示器112、触摸屏246等)。电子设备3400还可包括输入单元3404，该输入单元被配置为接收信息，诸如语音输入、触觉输入、手势输入等(例如，麦克风、接收器、触摸屏、按钮等)。电子设备3400还可包括耦接至显示单元3402和输入单元3404的处理单元3406。在一些示例中，处理单元3406可包括语音输入接收单元3408、媒体内容确定单元3410、第一用户界面显示单元3412、选择接收单元3414和第二用户界面显示单元3416。

处理单元3406可被配置为(例如，经由输入单元3404)从用户接收语音输入。处理单元3406可被进一步配置为(例如，使用媒体内容确定单元3410)基于语音输入来确定媒体内容。处理单元3406可被进一步配置为使用具有第一尺寸的第一用户界面(例如，使用第一用户界面显示单元3412在显示单元3402上)显示，其中第一用户界面包括至媒体内容的一个或多个可选链接。处理单元3406可被进一步配置为(例如，使用选择接收单元3414从输入单元3404)接收对一个或多个可选链接中的一个可选链接的选择。处理单元3406可被进一步配置为响应于该选择，(例如，使用第二用户界面显示单元3416在显示单元3402上)显示具有第二尺寸的第二用户界面，该第二尺寸大于第一尺寸，其中第二用户界面包括与所述选择相关联的媒体内容。

在一些示例中，响应于(例如，选择接收单元3414的)选择，(例如，第一用户界面显示单元3412的)第一用户界面扩展成(例如，第二用户界面显示单元3416的)第二用户界面。在其他示例中，第一用户界面覆盖在正在显示的内容上。在一个示例中，第二用户界面覆盖在正在显示的内容上。在另一示例中，(例如，来自输入单元3404的语音输入接收单元3408的)语音输入包括查询，并且(例如，媒体内容确定单元3410的)媒体内容包括查询的结果。在又一个示例中，第一用户界面包括到查询结果的链接，该链接在至媒体内容的一个或多个可选链接之外。在其他示例中，查询包括关于天气的查询，并且第一用户界面包括到与关于天气的查询相关联的媒体内容的链接。在另一示例中，查询包括位置，并且到与关于天气的查询相关联的媒体内容的链接包括到与该位置处的天气相关联的媒体内容的一部分的链接。

在一些示例中，响应于选择，处理单元3406可被配置为播放与该选择相关联的媒体内容。在一个示例中，媒体内容包括电影。在另一示例中，媒体内容包括电视节目。在另一示例中，媒体内容包括体育赛事。在一些示例中，(例如，第二用户界面显示单元3416的)第二用户界面包括与选择相关联的媒体内容的描述。在其他示例中，第一用户界面包括购买媒体内容的链接。

处理单元3406可被进一步配置为(例如，经由输入单元3404)从用户接收附加语音输入，其中附加语音输入包括与所显示的内容相关联的查询。处理单元3406可被进一步配置为基于与所显示的内容相关联的元数据来确定对与所显示的内容相关联的查询的响应。处理单元3406可被进一步配置为响应于接收到附加语音输入，(例如，在显示单元3402上)显示第三用户界面，其中第三用户界面包括对与所显示的内容相关联的查询的所确定的响应。

处理单元3406可被进一步配置为接收用于发起(例如，经由输入单元3404)对语音输入的接收的指示。处理单元3406可被进一步配置为响应于接收到指示，(例如，在显示单元3402上)显示准备就绪确认。处理单元3406可被进一步配置为响应于接收到语音输入，显示正在监听确认。处理单元3406可被进一步配置为检测语音输入的结束，并且响应于检测到语音输入的结束，显示正在处理确认。在一些示例中，处理单元3406可被进一步配置为显示语音输入的转录。

在一些示例中，电子设备3400包括电视。在其他示例中，电子设备3400包括电视机顶盒。在其他示例中，电子设备3400包括遥控器。在其他示例中，电子设备3400包括移动电话。

在一个示例中，(例如，第一用户界面显示单元3412的)第一用户界面中的一个或多个可选链接包括与媒体内容相关联的移动图像。在一些示例中，与媒体内容相关联的移动图像包括媒体内容的实况馈送。在其他示例中，第一用户界面中的一个或多个可选链接包括与媒体内容相关联的静止图像。

在一些示例中，处理单元3406可被进一步配置为确定当前显示的内容是包括移动图像还是控制菜单；响应于确定当前显示的内容包括移动图像，选择小尺寸作为(例如，第一用户界面显示单元3412的)第一用户界面的第一尺寸；而响应于确定当前显示的内容包括控制菜单，选择大于小尺寸的大尺寸作为(例如，第一用户界面显示单元3412的)第一用户界面的第一尺寸。在其他示例中，处理单元3406可被进一步配置为基于用户偏好、节目流行度和直播体育赛事的状态中的一者或多者来确定用于显示的另选媒体内容，并且显示包括所确定的另选媒体内容的通知。

根据一些示例，图35示出了电子设备3500的功能框图，所述电子设备根据各种所述示例的原理配置，以便例如使用虚拟助理和多个用户设备控制电视交互。设备的功能块可由执行各种所述示例的原理的硬件、软件、或硬件和软件的组合来实现。本领域的技术人员应当理解，图35中所述的功能块可被组合或被分离为子块，以便实现各种所述示例的原理。因此，本文的描述任选地支持本文所述功能块的任何可能的组合或分离或进一步限定。

如图35所示，电子设备3500可包括被配置为显示媒体、界面和其他内容的显示单元3502(例如，显示器112、触摸屏246等)。电子设备3500还可包括输入单元3504，该输入单元被配置为接收信息，诸如语音输入、触觉输入、手势输入等(例如，麦克风、接收器、触摸屏、按钮等)。电子设备3500还可包括耦接至显示单元3502和输入单元3504的处理单元3506。在一些示例中，处理单元3506可包括语音输入接收单元3508、用户意图确定单元3510、媒体内容确定单元3512和媒体内容播放单元3514。

处理单元3506可被配置为在具有第一显示器(例如，在一些示例中，显示单元3502)的第一设备(例如，设备3500)处(例如，利用语音输入接收单元3508从输入单元3504)从用户接收语音输入。处理单元3506可被进一步配置为基于第一显示器上所显示的内容(例如，使用用户意图确定单元3510)来确定语音输入的用户意图。处理单元3506可被进一步配置为(例如，使用媒体内容确定单元3512)基于用户意图来确定媒体内容。处理单元3506可被进一步配置为在与第二显示器(例如，在一些示例中，显示单元3502)相关联的第二装置上(例如，使用媒体内容播放单元3514)播放媒体内容。

在一个示例中，第一设备包括遥控器。在另一示例中，第一设备包括移动电话。在另一示例中，第一设备包括平板电脑。在一些示例中，第二设备包括电视机顶盒。在其他示例中，第二显示器包括电视。

在一些示例中，显示在第一显示器上的内容包括应用界面。在一个示例中，(例如，来自输入单元3504的语音输入接收单元3508的)语音输入包括显示与应用界面相关联的媒体的请求。在一个示例中，媒体内容包括与应用界面相关联的媒体。在另一示例中，应用界面包括相册，并且媒体包括相册中的一张或多张照片。在又一示例中，应用界面包括一个或多个视频的列表，并且媒体包括一个或多个视频中的一个。在其他示例中，应用界面包括电视节目列表，并且媒体包括电视节目列表中的电视节目。

在一些示例中，处理单元3506可被进一步配置为确定第一设备是否被授权；其中响应于确定第一设备被授权，在第二设备上播放媒体内容。处理单元3506可被进一步配置为基于语音输入来识别用户，并且基于与所识别用户相关联的数据(例如，使用用户意图确定单元3510)来确定语音输入的用户意图。处理单元3506可被进一步配置为基于语音输入来确定用户是否被授权；其中响应于确定用户是授权用户，在第二设备上播放媒体内容。在一个示例中，确定用户是否被授权包括使用语音识别来分析语音输入。

在其他示例中，处理单元3506可被进一步配置为响应于确定用户意图包括对信息的请求，在第一设备的第一显示器上显示与媒体内容相关联的信息。处理单元3506可被进一步配置为响应于确定用户意图包括播放媒体内容的请求，在第二设备上播放媒体内容。

在一些示例中，语音输入包括在第二设备上播放内容的请求，并且响应于在第二设备上播放内容的请求，在第二设备上播放媒体内容。处理单元3506可被进一步配置为基于媒体格式、用户偏好或默认设置来确定所确定的媒体内容是应当显示在第一显示器还是第二显示器上。在一些示例中，响应于确定所确定的媒体内容应当显示在第二显示器上，在第二显示器上显示媒体内容。在其他示例中，响应于确定所确定的媒体内容应当显示在第一显示器上，在第一显示器上显示媒体内容。

在其他示例中，处理单元3506可被进一步配置为确定两个或更多个装置(包括第二装置和第三装置)中的每个装置的接近度。在一些示例中，基于相对于第三设备接近度的第二设备接近度，在与第二显示器相关联的第二设备上播放媒体内容。在一些示例中，确定两个或更多个设备中的每个设备的接近度包括基于蓝牙LE确定接近度。

在一些示例中，处理单元3506可被进一步配置为显示包括与第二显示器相关联的第二设备的显示设备列表，并且接收对显示设备列表中的第二设备的选择。在一个示例中，响应于接收到对第二设备的选择，在第二显示器上显示媒体内容。处理单元3506可被进一步配置为确定耳机是否附接到第一设备。处理单元3506可被进一步配置为响应于耳机附接到第一设备的确定，在第一显示器上显示媒体内容。处理单元3506可被进一步配置为响应于耳机未附接到第一设备的确定，在第二显示器上显示媒体内容。在其他示例中，处理单元3506可被进一步配置为基于用户偏好、节目流行度和直播体育赛事的状态中的一者或多者来确定用于显示的另选媒体内容，并且显示包括所确定的另选媒体内容的通知。

根据一些示例，图36示出了电子设备3600的功能框图，所述电子设备根据各种所述示例的原理配置，以便例如使用显示器上所显示的媒体内容和媒体内容的观看历史来控制电视交互。设备的功能块可由执行各种所述示例的原理的硬件、软件、或硬件和软件的组合来实现。本领域的技术人员应当理解，图36中所述的功能块可被组合或被分离为子块，以便实现各种所述示例的原理。因此，本文的描述任选地支持本文所述功能块的任何可能的组合或分离或进一步限定。

如图36所示，电子设备3600可包括被配置为显示媒体、界面和其他内容的显示单元3602(例如，显示器112、触摸屏246等)。电子设备3600还可包括输入单元3604，该输入单元被配置为接收信息，诸如语音输入、触觉输入、手势输入等(例如，麦克风、接收器、触摸屏、按钮等)。电子设备3600还可包括耦接至显示单元3602和输入单元3604的处理单元3606。在一些示例中，处理单元3606可包括语音输入接收单元3608、用户意图确定单元3610和查询结果显示单元3612。

处理单元3606可被配置为(例如，利用语音输入接收单元3608从输入单元3604)从用户接收语音输入，其中语音输入包括与电视显示器(例如，在一些示例中，显示单元3602)上所显示的内容相关联的查询。处理单元3606可被进一步配置为基于电视显示器上所示的内容和媒体内容观看历史中的一者或多者(例如，使用用户意图确定单元3610)来确定查询的用户意图。处理单元3606可被进一步配置为基于所确定的用户意图(例如，使用查询结果显示单元3612)显示查询的结果。

在一个示例中，在遥控器处接收语音输入。在另一示例中，在移动电话处接收语音输入。在一些示例中，在电视显示器上显示查询的结果。在另一示例中，在电视显示器上示出的内容包括电影。在又一示例中，在电视显示器上示出的内容包括电视节目。在又一示例中，在电视显示器上示出的内容包括体育赛事。

在一些示例中，查询包括对关于与电视显示器上所示内容相关联的人的信息的请求，并且查询的(例如，查询结果显示单元3612的)结果包括关于人的信息。在一个示例中，查询的结果包括与人相关联的媒体内容。在另一示例中，媒体内容包括与人相关联的电影、电视节目或体育赛事中的一者或多者。在一些示例中，查询包括对关于电视显示器上所示内容中人物的信息的请求，并且查询的结果包括关于人物的信息或关于扮演人物的演员的信息。在一个示例中，查询的结果包括与扮演人物的演员相关联的媒体内容。在另一示例中，媒体内容包括与扮演人物的演员相关联的电影、电视节目或体育赛事中的一者或多者。

在一些示例中，处理单元3606可被进一步配置为基于与电视显示器上所示内容或媒体内容观看历史相关联的元数据来确定查询的结果。在一个示例中，元数据包括与电视显示器上所示内容或媒体内容观看历史相关联的标题、描述、人物列表、演员列表、队员列表、分类或显示时间表中的一者或多者。在另一示例中，电视显示器上所示出的内容包括媒体内容的列表，并且查询包括显示列表中的项目中的一个项目的请求。在又一示例中，电视显示器上所示出的内容还包括具有焦点的媒体内容列表中的项目，并且(例如，使用用户意图确定单元3610)确定查询的用户意图包括识别具有焦点的项目。在一些示例中，处理单元3606可被进一步配置为基于最近在电视显示器上显示的菜单或搜索内容(例如，使用用户意图确定单元3610)来确定查询的用户意图。在一个示例中，电视显示器上所示出的内容包括所列媒体的页面，并且最近显示的菜单或搜索内容包括所列媒体的前一页面。在另一示例中，在电视显示器上示出的内容包括一个或多个类别的媒体，并且一个或多个类别的媒体中的一个具有焦点。在一个示例中，处理单元3606可被进一步配置为基于一个或多个媒体类别中具有焦点的一个(例如，使用用户意图确定单元3610)来确定查询的用户意图。在另一示例中，媒体的类别包括电影、电视节目和音乐。在其他示例中，处理单元3606可被进一步配置为基于用户偏好、节目流行度和直播体育赛事的状态中的一者或多者来确定用于显示的另选媒体内容，并且显示包括所确定的另选媒体内容的通知。

根据一些示例，图37示出了电子设备3700的功能框图，所述电子设备根据各种所述示例的原理配置，以便例如建议用于控制媒体内容的虚拟助理交互。设备的功能块可由执行各种所述示例的原理的硬件、软件、或硬件和软件的组合来实现。本领域的技术人员应当理解，图37中所述的功能块可被组合或被分离为子块，以便实现各种所述示例的原理。因此，本文的描述任选地支持本文所述功能块的任何可能的组合或分离或进一步限定。

如图37所示，电子设备3700可包括被配置为显示媒体、界面和其他内容的显示单元3702(例如，显示器112、触摸屏246等)。电子设备3700还可包括输入单元3704，该输入单元被配置为接收信息，诸如语音输入、触觉输入、手势输入等(例如，麦克风、接收器、触摸屏、按钮等)。电子设备3700还可包括耦接至显示单元3702和输入单元3704的处理单元3706。在一些示例中，处理单元3706可包括媒体内容显示单元3708、输入接收单元3710、查询确定单元3712和查询显示单元3714。

处理单元3706可被配置为在显示器(例如，显示单元3702)上(例如，使用媒体内容显示单元3708)显示媒体内容。处理单元3706可被进一步配置为(例如，使用输入接收单元3710从输入单元3704)从用户接收输入。处理单元3706可被进一步配置为基于媒体内容和媒体内容观看历史中的一个或多个(例如，使用查询确定单元3712)来确定一个或多个虚拟助理查询。处理单元3706可被进一步配置为在显示器上(例如，使用查询显示单元3714)显示一个或多个虚拟助理查询。

在一个示例中，在遥控器上从用户接收输入。在一个示例中，在移动电话上从用户接收输入。在一些示例中，一个或多个虚拟助理查询覆盖在移动图像上。在另一示例中，输入包括双击按钮。在一个示例中，媒体内容包括电影。在另一示例中，媒体内容包括电视节目。在又一示例中，媒体内容包括体育赛事。

在一些示例中，一个或多个虚拟助理查询包括关于出现在媒体内容中的人的查询。在其他示例中，一个或多个虚拟助理查询包括关于出现在媒体内容中的人物的查询。在另一示例中，一个或多个虚拟助理查询包括对与出现在媒体内容中的人相关联的媒体内容的查询。在一些示例中，媒体内容或媒体内容观看历史包括一集电视节目，并且一个或多个虚拟助理查询包括关于另一集电视节目的查询。在一些示例中，媒体内容或媒体内容观看历史包括一集电视节目，并且一个或多个虚拟助理查询包括设置提醒观看或记录媒体内容后续剧集的请求。在又一示例中，一个或多个虚拟助理查询包括对媒体内容的描述性详情的查询。在一个示例中，描述性详情包括节目标题、人物列表、演员列表、剧集描述、团队名册、团队排名或者节目概要中的一者或多者。

在一些示例中，处理单元3706可被进一步配置为接收对一个或多个虚拟助理查询中的一个虚拟助理查询的选择。处理单元3706可被进一步配置为显示在一个或多个虚拟助理查询中所选择的一个虚拟助理查询的结果。在一个示例中，确定一个或多个虚拟助理查询包括基于查询历史、用户偏好或查询流行度中的一者或多者来确定一个或多个虚拟助理查询。在另一示例中，确定一个或多个虚拟助理查询包括基于可供用户观看的媒体内容来确定一个或多个虚拟助理查询。在又一示例中，确定一个或多个虚拟助理查询包括基于所接收的通知确定一个或多个虚拟助理查询。在又一示例中，确定一个或多个虚拟助理查询包括基于活动应用程序确定一个或多个虚拟助理查询。在其他示例中，处理单元3706可被进一步配置为基于用户偏好、节目流行度和直播体育赛事的状态中的一者或多者来确定用于显示的另选媒体内容，并且显示包括所确定的另选媒体内容的通知。

虽然已参考附图完整地描述了示例，但是需注意，对于本领域技术人员来说，各种变化和修改将是显而易见的(例如，根据本文所描述的与本文所讨论的任何其他系统或过程有关的概念，修改本文所讨论的任一系统或过程)。应当理解，此类变化和修改被认为包括在由所附权利要求所限定的各种示例的范围内。

实时数字助理知识更新

Claims

在具有存储器和一个或多个处理器的电子设备处：

在显示单元上显示内容；

检测用户输入；

确定所述用户输入是否对应于第一输入类型；以及

根据确定所述用户输入对应于所述第一输入类型：

在所述显示单元上显示多个示例性自然语言请求，所述多个示例性自然语言请求与所显示的内容上下文相关，其中接收与所述多个示例性自然语言请求中的一个示例性自然语言请求对应的用户话语使得所述数字助理执行相应动作。

2.根据权利要求1所述的方法，其中在所述电子设备的遥控器上检测所述用户输入。

3.根据权利要求2所述的方法，其中所述第一输入类型包括按压所述遥控器的按钮并在预先确定的持续时间内释放所述按钮。

4.根据权利要求1所述的方法，其中所述多个示例性自然语言请求经由第一用户界面而被显示在所述显示单元上，并且其中所述第一用户界面覆盖在所显示的内容上。

5.根据权利要求1所述的方法，其中所显示的内容包括媒体内容，并且其中在显示所述多个示例性自然语言请求时，所述媒体内容继续播放。

6.根据权利要求1所述的方法，还包括：

根据确定所述用户输入对应于第一输入类型，在所述显示单元上显示用于指示所述数字助理并未正在处理音频输入的视觉指示符。

7.根据权利要求1所述的方法，其中在确定所述用户输入对应于第一输入类型之后，在预先确定量的时间之后在所述显示单元上显示所述多个示例性自然语言请求。

8.根据权利要求1所述的方法，其中所述多个示例性自然语言请求中的每个示例性自然语言请求以预先确定的顺序并且在不同的时间单独显示。

9.根据权利要求1所述的方法，其中显示所述多个示例性自然语言请求包括：

10.根据权利要求1所述的方法，还包括：

根据确定所述用户输入不对应于第一输入类型：

确定所述用户输入是否对应于第二输入类型；以及

根据确定所述用户输入对应于所述第二输入类型：

对音频数据进行采样；

确定所述音频数据是否包含用户请求；以及

根据确定所述音频数据包含所述用户请求，执行至少部分地满足所述用户请求的任务。

11.根据权利要求10所述的方法，其中所述第二输入类型包括按压所述电子设备的遥控器的按钮并按住所述按钮超过预先确定的持续时间。

12.根据权利要求10所述的方法，还包括：

根据确定所述音频数据不包含用户请求，在所述显示单元上显示用于澄清用户意图的请求。

13.根据权利要求10所述的方法，其中所显示的内容包括媒体内容，并且其中在对所述音频数据进行采样时以及在执行所述任务时，所述媒体内容在所述电子设备上继续播放。

14.根据权利要求13所述的方法，还包括：

输出与所述媒体内容相关联的音频；以及

根据确定所述用户输入对应于第二输入类型，减小所述音频的振幅。

15.根据权利要求10所述的方法，其中所述任务被执行，而无需从所述电子设备输出与所述任务相关的语音。

16.根据权利要求10所述的方法，其中在检测到所述用户输入时对所述音频数据进行采样。

17.根据权利要求10所述的方法，其中在检测到所述用户输入之后，在预先确定的持续时间内对所述音频数据进行采样。

18.根据权利要求10所述的方法，其中经由所述电子设备的遥控器上的第一麦克风来对所述音频数据进行采样，并且还包括：

在对所述音频数据进行采样时，经由所述遥控器上的第二麦克风来对背景音频数据进行采样；以及

使用所述背景音频数据来消除所述音频数据中的背景噪声。

19.根据权利要求10所述的方法，其中与所显示的内容相关联的音频经由来自所述电子设备的音频信号而被输出，并且还包括：

使用所述音频信号来消除所述音频数据中的背景噪声。

20.根据权利要求10所述的方法，还包括：

响应于检测到所述用户输入，在所述显示单元上显示用于提示用户提供口头请求的视觉提示。

21.根据权利要求10所述的方法，其中所执行的任务包括：

获取至少部分地满足所述用户请求的结果；以及

在所述显示单元上显示第二用户界面，所述第二用户界面包括所述结果的一部分，其中在显示所述第二用户界面时继续显示所述内容的至少一部分，并且其中所述显示单元上的所述第二用户界面的显示区域小于所述显示单元上的所述内容的所述至少一部分的显示区域。

22.根据权利要求21所述的方法，其中所述第二用户界面覆盖在所显示的内容上。

23.根据权利要求21所述的方法，其中所述结果的所述一部分包括一个或多个媒体项，并且还包括：

经由所述第二用户界面来接收对所述一个或多个媒体项中的媒体项的选择；以及

在所述显示单元上显示与所选择的媒体项相关联的媒体内容。

24.根据权利要求21所述的方法，还包括：

在显示所述第二用户界面时，检测第二用户输入；以及

响应于检测到所述第二用户输入，停止显示所述第二用户界面。

25.根据权利要求24所述的方法，其中在所述电子设备的遥控器上检测所述第二用户输入，并且其中所述第二用户输入包括所述遥控器的触敏表面上的第一预先确定的动作模式。

26.根据权利要求21所述的方法，还包括：

在显示所述第二用户界面时，检测第三用户输入；以及

响应于检测到所述第三用户输入，利用对所述显示单元上的第三用户界面的显示来替换对所述第二用户界面的显示，所述第三用户界面包括所述结果的至少所述一部分，其中所述第三用户界面占据所述显示单元的至少大部分显示区域。

27.根据权利要求26所述的方法，其中在所述电子设备的遥控器上检测所述第三用户输入，并且其中所述第三用户输入包括所述遥控器的触敏表面上的第二预先确定的动作模式。

28.根据权利要求26所述的方法，还包括：

响应于检测到所述第三用户输入：

获取与所述结果不同的第二结果，其中所述第二结果至少部分地满足所述用户请求，并且其中所述第三用户界面包括所述第二结果的至少一部分。

29.根据权利要求28所述的方法，其中所述第二结果基于在检测到所述用户输入之前所接收的用户请求。

30.根据权利要求28所述的方法，其中在检测到所述第三用户输入时，所述第二用户界面的焦点位于结果的所述一部分的项目上，并且其中所述第二结果与所述项目上下文相关。

31.根据权利要求26所述的方法，其中所显示的内容包括媒体内容，并且其中响应于检测到所述第三用户输入，暂停播放所述电子设备上的所述媒体内容。

32.根据权利要求26所述的方法，其中所述结果的至少所述一部分包括一个或多个媒体项，并且还包括：

经由所述第三用户界面来接收对所述一个或多个媒体项中的媒体项的选择；以及

在所述显示单元上显示与所述媒体项相关联的媒体内容。

33.根据权利要求26所述的方法，还包括：

在显示所述第三用户界面时，检测与所述显示单元上的方向相关联的第四用户输入；

响应于检测到所述第四用户输入：

在所述第三用户界面上将所述第三用户界面的焦点从第一项目切换至第二项目，所述第二项目被定位在相对于所述第一项目的所述方向上。

34.根据权利要求26所述的方法，还包括：

在显示所述第三用户界面时，检测第五用户输入；以及

响应于检测到所述第五用户输入：

显示搜索字段；以及

在所述显示单元上显示虚拟键盘界面，其中经由所述虚拟键盘界面所接收的输入导致所述搜索字段中的文本输入。

35.根据权利要求26所述的方法，还包括：

在显示所述第三用户界面时，检测第六用户输入；以及

响应于检测到所述第六用户输入：

对第二音频数据进行采样，所述第二音频数据包含第二用户请求；

确定所述第二用户请求是否是用于细化所述用户请求的所述结果的请求；以及

根据确定所述第二用户请求是用于细化所述用户请求的所述结果的请求：

经由所述第三用户界面来显示所述结果的子组。

36.根据权利要求35所述的方法，其中所述结果的所述子组被显示在所述第三用户界面的顶行处。

37.根据权利要求35所述的方法，还包括：

根据确定所述第二用户请求不是用于细化所述用户请求的所述结果的请求：

获取至少部分地满足所述第二用户请求的第三结果；以及

经由所述第三用户界面来显示所述第三结果的一部分。

38.根据权利要求37所述的方法，其中所述第三结果的所述一部分被显示在所述第三用户界面的顶行处。

39.根据权利要求35所述的方法，还包括：

获取至少部分地满足所述用户请求或所述第二用户请求的第四结果；以及

经由所述第三用户界面来显示所述第四结果的一部分。

40.根据权利要求39所述的方法，其中所述第四结果的所述一部分被显示在所述第三用户界面的所述顶行之后的行处。

41.根据权利要求39所述的方法，其中在检测到所述第六用户输入时，所述第三用户界面的焦点位于所述第三用户界面的一个或多个项目上，并且其中所述第四结果与所述一个或多个项目上下文相关。

42.根据权利要求26所述的方法，还包括：

在显示所述第三用户界面时，检测第七用户输入；

响应于检测到所述第七用户输入，停止显示所述第三用户界面。

43.根据权利要求42所述的方法，其中所显示的内容是媒体内容，其中响应于检测到所述第三用户输入而暂停播放所述电子设备上的所述媒体内容，并且其中响应于检测到所述第七用户输入而恢复播放所述电子设备上的媒体内容。

44.根据权利要求42所述的方法，其中所述第七用户输入包括按压所述电子设备的遥控器的菜单按钮。

在具有存储器和一个或多个处理器的电子设备处：

在显示单元上显示内容；

在显示所述内容时，检测用户输入；

响应于检测到所述用户输入：

在所述显示单元上显示用户界面，所述用户界面包括与所显示的内容上下文相关的多个示例性自然语言请求，其中接收与所述多个示例性自然语言请求中的一个例性自然语言请求对应的用户话语使得所述数字助理执行相应动作。

46.根据权利要求45所述的方法，其中所显示的内容包括媒体内容。

47.根据权利要求46所述的方法，其中所述多个示例性自然语言请求包括用于修改与所述媒体内容相关联的一个或多个设置的自然语言请求。

48.根据权利要求46所述的方法，其中在显示所述用户界面时，所述媒体内容继续播放。

49.根据权利要求46所述的方法，还包括：

输出与所述媒体内容相关联的音频，其中所述音频的振幅不响应于检测到所述用户输入而减小。

50.根据权利要求45所述的方法，其中所显示的内容包括主菜单用户界面。

51.根据权利要求50所述的方法，其中所述多个示例性自然语言请求包括与所述数字助理的多个核心竞争力中的每个核心竞争力相关的示例性自然语言请求。

52.根据权利要求45所述的方法，其中所显示的内容包括具有与先前用户请求相关联的结果的第二用户界面。

53.根据权利要求52所述的方法，其中所述多个示例性自然语言请求包括用于细化所述结果的自然语言请求。

54.根据权利要求45所述的方法，其中所述用户界面包括用于调用所述数字助理并与其进行交互的文本指令。

55.根据权利要求45所述的方法，其中所述用户界面包括指示所述数字助理并未正在接收音频输入的视觉指示符。

56.根据权利要求45所述的方法，其中所述用户界面覆盖在所显示的内容上。

57.根据权利要求45所述的方法，还包括：

响应于检测到所述用户输入，减小所显示的内容的亮度以突出显示所述用户界面。

58.根据权利要求45所述的方法，其中在所述电子设备的遥控器上检测所述用户输入。

59.根据权利要求58所述的方法，其中所述用户输入包括按压遥控设备的按钮并且在按压所述按钮之后的预先确定的持续时间内释放所述按钮。

60.根据权利要求59所述的方法，其中所述按钮被配置为调用所述数字助理。

61.根据权利要求45所述的方法，其中所述用户界面包括用于显示虚拟键盘界面的文本指令。

62.根据权利要求45所述的方法，还包括：

在显示所述用户界面之后，检测第二用户输入；以及

响应于检测到所述第二用户输入，在所述显示单元上显示虚拟键盘界面。

63.根据权利要求62所述的方法，还包括：

将所述用户界面的焦点改变到所述用户界面上的搜索字段。

64.根据权利要求63所述的方法，其中所述搜索字段被配置为经由所述虚拟键盘界面来接收文本搜索查询。

65.根据权利要求45所述的方法，其中所述虚拟键盘界面不可用于与所述数字助理进行交互。

66.根据权利要求45所述的方法，其中所述第二用户输入包括所述电子设备的遥控设备的触敏表面上的预先确定的动作模式。

67.根据权利要求45所述的方法，其中所述多个示例性自然语言请求在检测到所述用户输入之后的预先确定量的时间被显示。

68.根据权利要求45所述的方法，其中显示所述多个示例性自然语言请求进一步包括：

以预先确定的顺序一次一个地显示所述多个示例性自然语言请求中的每个示例性自然语言请求。

69.根据权利要求68所述的方法，其中按顺序显示进一步包括：

利用所述多个示例性自然语言请求中的后续示例性自然语言请求来替换对所述多个示例性自然语言请求中的先前所显示的示例性自然语言请求的显示。

70.根据权利要求45所述的方法，其中所述内容包括具有一个或多个项目的第二用户界面，其中在检测到所述用户输入时，所述第二用户界面的焦点位于所述一个或多个项目中的项目上，并且其中所述多个示例性自然语言请求与所述一个或多个项目中的所述项目上下文相关。

在具有存储器和一个或多个处理器的电子设备处：

在显示单元上显示内容；

检测用户输入；以及

响应于检测到所述用户输入：

显示自然语言话语的一个或多个所建议的示例，所述一个或多个所建议的示例与所显示的内容上下文相关并且当由所述用户说出时使得所述数字助理执行对应动作。

72.根据权利要求71所述的方法，还包括：

检测第二用户输入；

响应于检测到所述第二用户输入：

对音频数据进行采样；

确定经采样的音频数据是否包含自然语言话语的所述一个或多个所建议的示例中的一个所建议的示例；以及

根据确定经采样的音频数据包含自然语言话语的所述一个或多个所建议的示例中的一个所建议的示例，对所述话语执行所述对应动作。

在具有存储器和一个或多个处理器的电子设备处：

在显示单元上显示内容；

在显示所述内容时，检测用户输入；

响应于检测到所述用户输入，对音频数据进行采样，其中所述音频数据包括用户话语；

获取对与所述用户话语对应的用户意图的确定；

获取对所述用户意图是否包括用于调整所述电子设备上的应用程序的状态或设置的请求的确定；以及

响应于获取所述用户意图是否包括用于调整所述电子设备上的应用程序的状态或设置的请求的确定，调整所述应用程序的所述状态或所述设置以满足所述用户意图。

74.根据权利要求73所述的方法，其中用于调整所述电子设备上的应用程序的状态或设置的所述请求包括用于播放特定媒体项的请求，并且其中调整所述应用程序的所述状态或所述设置以满足所述用户意图包括播放所述特定媒体项。

75.根据权利要求74所述的方法，其中所显示的内容包括具有媒体项的用户界面，其中所述用户话语未明确定义要播放的所述特定媒体项，并且还包括：

确定所述用户界面的焦点是否位于所述媒体项上；以及

根据确定所述用户界面的焦点位于所述媒体项上，将所述媒体项识别为要播放的所述特定媒体项。

76.根据权利要求73所述的方法，其中用于调整所述电子设备上的应用程序的状态或设置的所述请求包括用于启动所述电子设备上的所述应用程序的请求。

77.根据权利要求73所述的方法，其中所显示的内容包括正在所述电子设备上播放的媒体内容，并且其中所述状态或所述设置与正在所述电子设备上播放的所述媒体内容相关。

78.根据权利要求77所述的方法，其中用于调整所述电子设备上的应用程序的状态或设置的所述请求包括用于使正在所述电子设备上播放的所述媒体内容快进或快退的请求。

79.根据权利要求77所述的方法，其中用于调整所述电子设备上的应用程序的状态或设置的所述请求包括用于在所述媒体内容中向前或向后跳转以播放所述媒体内容的特定部分的请求。

80.根据权利要求77所述的方法，其中用于调整所述电子设备上的应用程序的状态或设置的所述请求包括用于暂停播放所述电子设备上的所述媒体内容的请求。

81.根据权利要求77所述的方法，其中用于调整所述电子设备上的应用程序的状态或设置的所述请求包括用于打开或关闭所述媒体内容的字幕的请求。

82.根据权利要求73所述的方法，其中：

用于调整所述电子设备上的应用程序的状态或设置的所述请求包括用于将所述用户界面的焦点从所述第一媒体项切换至所述第二媒体项的请求；并且

调整所述应用程序的所述状态或所述设置以满足所述用户意图包括将所述用户界面的焦点从所述第一媒体项切换至所述第二媒体项。

83.根据权利要求73所述的方法，其中：

所显示的内容包括正在所述媒体设备上播放的媒体内容；

所述用户话语是指示用户未听到与所述媒体内容相关联的音频的一部分的自然语言表达；

用于调整所述电子设备上的应用程序的状态或设置的所述请求包括用于重放与所述用户未听到的所述音频的所述一部分对应的所述媒体内容的一部分的请求；并且

调整所述应用程序的所述状态或所述设置包括：

使所述媒体内容向所述媒体内容的先前部分快退预先确定的量；以及

从所述先前部分重新开始播放所述媒体内容。

84.根据权利要求83所述的方法，其中调整所述应用程序的所述状态或所述设置进一步包括：

在从所述先前部分重新开始播放所述媒体内容之前打开隐藏式字幕。

85.根据权利要求83所述的方法，其中：

用于调整所述电子设备上的应用程序的状态或设置的所述请求进一步包括用于增大与所述媒体内容相关联的所述音频的音量的请求；并且

调整所述应用程序的所述状态或所述设置进一步包括在从所述先前部分重新开始播放所述媒体内容之前，增大与所述媒体内容相关联的所述音频的所述音量。

86.根据权利要求83所述的方法，其中：

与所述媒体内容相关联的所述音频中的语音被转换成文本；并且

调整所述应用程序的所述状态或所述设置进一步包括在从所述先前部分重新开始播放所述媒体内容时，显示所述文本的一部分。

87.根据权利要求73所述的方法，其中获取对与所述用户话语对应的用户意图的确定进一步包括：

获取对与所述用户话语相关联的用户情绪的确定，其中基于所确定的用户情绪来确定所述用户意图。

88.根据权利要求73所述的方法，还包括：

响应于获取所述用户意图不包括调整所述电子设备上的应用程序的状态或设置的请求的确定，获取对所述用户意图是否是多个预先确定的请求类型中的一个预先确定的请求类型的确定；以及

响应于获取所述用户意图是多个预先确定的请求类型中的一个预先确定的请求类型的确定：

获取至少部分地满足所述用户意图的结果；以及

在所述显示单元上以文本形式来显示所述结果。

89.根据权利要求88所述的方法，其中所述多个预先确定的请求类型包括对特定位置处的当前时间的请求。

90.根据权利要求88所述的方法，其中所述多个预先确定的请求类型包括用于呈现笑话的请求。

91.根据权利要求88所述的方法，其中所述多个预先确定的请求类型包括对关于正在所述电子设备上播放的媒体内容的信息的请求。

92.根据权利要求88所述的方法，其中文本形式的所述结果覆盖在所显示的内容上。

93.根据权利要求88所述的方法，其中所显示的内容包括正在所述电子设备上播放的媒体内容，并且其中在显示文本形式的所述结果时，所述媒体内容继续播放。

94.根据权利要求88所述的方法，还包括：

响应于获取用户意图不是多个预先确定的请求类型中的一个预先确定的请求类型的确定：

获取至少部分地满足用户意图的第二结果；

确定所显示的内容是否包括正在所述电子设备上播放的媒体内容；以及

根据确定所显示的内容包括媒体内容：

确定所述媒体内容是否可被暂停；以及

根据确定所述媒体内容不可被暂停，在所述显示单元上显示具有所述第二结果的一部分的第二用户界面，其中所述第二用户界面在所述显示单元上占据的显示区域小于所述媒体内容在所述显示单元上占据的显示区域。

95.根据权利要求94所述的方法，其中所述用户意图包括对特定位置处的天气预报的请求。

96.根据权利要求94所述的方法，其中所述用户意图包括对与运动队或运动员相关联的信息的请求。

97.根据权利要求94所述的方法，其中所述用户意图不是媒体搜索查询，并且其中所述第二结果包括具有至少部分地满足所述用户意图的媒体内容的一个或多个媒体项。

98.根据权利要求97所述的方法，其中所述第二结果进一步包括至少部分地满足所述用户意图的非媒体数据。

99.根据权利要求94所述的方法，其中所述用户意图是媒体搜索查询，并且所述第二结果包括与所述媒体搜索查询对应的多个媒体项。

100.根据权利要求94所述的方法，还包括：

根据确定所显示的内容不包括正在所述电子设备上播放的媒体内容，在所述显示单元上显示具有所述第二结果的一部分的第三用户界面，其中所述第三用户界面占据所述显示单元的大部分所述显示区域。

101.根据权利要求100所述的方法，其中显示内容包括主菜单用户界面。

102.根据权利要求100所述的方法，其中：

所显示的内容包括具有先前结果的所述第三用户界面，所述先前结果与在检测到所述用户输入之前所接收的先前用户请求相关；并且

根据确定所显示的内容不包括正在所述电子设备上播放的媒体内容，利用对所述第二结果的所述显示来替换对所述第三用户界面中的所述先前结果的显示。

103.根据权利要求94所述的方法，还包括：

根据确定所显示的内容包括正在所述电子设备上播放的媒体内容：

确定所显示的内容是否包括具有来自先前用户请求的先前结果的所述第二用户界面，其中根据确定所显示的内容包括具有来自先前用户请求的先前结果的所述第二用户界面，利用所述第二结果来替换所述先前结果。

104.根据权利要求94所述的方法，还包括：

根据确定所述媒体内容可被暂停：

暂停播放所述电子设备上的所述媒体内容；

在所述显示单元上显示具有所述第二结果的一部分的所述第三用户界面，其中所述第三用户界面占据所述显示单元的大部分所述显示区域。

105.根据权利要求73所述的方法，还包括：

将所述音频数据传输至服务器，以执行自然语言处理；以及

向所述服务器指示所述音频数据与媒体应用程序相关联，其中所述指示使所述自然语言处理偏向于媒体相关的用户意图。

106.根据权利要求73所述的方法，还包括：

将所述音频数据传输至服务器，以执行语音转文本处理。

107.根据权利要求106所述的方法，还包括：

向所述服务器指示所述音频数据与媒体应用程序相关联，其中所述指示使所述语音转文本处理偏向于媒体相关的文本结果。

108.根据权利要求106所述的方法，还包括：

获取所述用户话语的文本表示，所述文本表示基于在对所述音频数据进行采样之前所接收的先前用户话语。

109.根据权利要求108所述的方法，其中所述文本表示基于在对所述音频数据进行采样之前接收所述先前用户话语的时间。

110.根据权利要求73所述的方法，还包括：

获取所述用户意图不对应于与所述电子设备相关联的多个核心竞争力中的一个核心竞争力的确定；以及

使得第二电子设备执行促成满足所述用户意图的任务。

111.根据权利要求73所述的方法，其中获取对所述用户意图的确定进一步包括：

获取对所述用户话语是否包括模糊术语的确定；

响应于获取所述用户话语包括模糊术语的确定：

基于所述模糊术语来获取两个或更多个候选用户意图；以及

在所述显示单元上显示所述两个或更多个候选用户意图。

112.根据权利要求111所述的方法，还包括：

在显示所述两个或更多个候选用户意图时，接收对所述两个或更多个候选用户意图中的一个候选用户意图的用户选择，并且其中基于所述用户选择来确定所述用户意图。

113.根据权利要求112所述的方法，其中接收所述用户选择进一步包括：

检测第二用户输入；以及

响应于检测到所述第二用户输入，对第二音频数据进行采样，其中所述第二音频数据包括表示所述用户选择的第二用户话语。

114.根据权利要求111所述的方法，其中所述两个或更多个解译被显示，而无需输出与所述两个或更多个候选用户意图相关联的语音。

在具有存储器和一个或多个处理器的电子设备处：

在显示单元上显示内容；

在显示所述内容时，检测用户输入；

响应于检测到所述用户输入，对音频数据进行采样，其中所述音频数据包括表示媒体搜索请求的用户话语；

获取满足所述媒体搜索请求的多个媒体项；以及

116.根据权利要求115所述的方法，其中在显示所述多个媒体项的所述至少一部分时，所述内容继续被显示在所述显示单元上，并且其中所述用户界面所占据的显示区域小于所述内容所占据的显示区域。

117.根据权利要求115所述的方法，还包括：

确定所述多个媒体项中的媒体项的数量是否小于或等于预先确定的数量，其中根据确定所述多个媒体项中的媒体项的数量小于或等于预先确定的数量，所述多个媒体项的所述至少一部分包括所述多个媒体项。

118.根据权利要求117所述的方法，其中根据确定所述多个媒体项中的媒体项的数量大于预先确定的数量，所述多个媒体项的所述至少一部分中的媒体项的数量等于所述预先确定的数量。

119.根据权利要求115所述的方法，其中所述多个媒体项中的每个媒体项与相对于所述媒体搜索请求的相关性得分相关联，并且其中所述多个媒体项的所述至少一部分的所述相关性得分在所述多个媒体项中是最高的。

120.根据权利要求115所述的方法，其中所述多个媒体项的所述至少一部分中的每个媒体项与流行度评级相关联，并且其中所述多个媒体项的所述至少一部分基于所述流行度评级而被布置在所述用户界面中。

121.根据权利要求115所述的方法，还包括：

在显示所述多个媒体项的所述至少一部分时，检测第二用户输入；以及

响应于检测到所述第二用户输入，扩展所述用户界面以占据所述显示单元的至少大部分显示区域。

122.根据权利要求121所述的方法，还包括：

响应于检测到所述第二用户输入：

确定所述多个媒体项中的媒体项的数量是否小于或等于预先确定的数量；以及

根据确定所述多个媒体项中的媒体项的数量小于或等于预先确定的数量：

获取至少部分地满足所述媒体搜索请求的第二多个媒体项，所述第二多个媒体项不同于所述媒体项的所述至少一部分；以及

经由经扩展的用户界面来在所述显示单元上显示所述第二多个媒体项。

123.根据权利要求122所述的方法，还包括：

确定所述媒体搜索请求是否包括多于一个搜索参数，其中根据确定所述媒体搜索请求包括多于一个搜索参数，所述第二多个媒体项在经扩展的用户界面中根据所述媒体搜索请求的所述多于一个搜索参数而被组织。

124.根据权利要求122所述的方法，还包括：

根据确定所述多个媒体项中的媒体项的数量大于所述预先确定的数量：

经由经扩展的用户界面来显示所述多个媒体项的至少第二部分，其中所述多个媒体项的所述至少第二部分不同于所述多个媒体项的所述至少一部分。

125.根据权利要求124所述的方法，其中所述多个媒体项的所述至少第二部分包括两个或更多个媒体类型，并且其中所述多个媒体项的所述至少第二部分在经扩展的用户界面中根据所述两个或更多个媒体类型中的每个媒体类型而被组织。

126.根据权利要求122所述的方法，还包括：

检测第三用户输入；

响应于检测到所述第三用户输入，使得经扩展的用户界面滚动；

响应于确定经扩展的用户界面已滚动超过经扩展的用户界面上的预先确定的位置，在经扩展的用户界面上显示所述多个媒体项的至少第三部分，其中所述多个媒体项的所述至少第三部分在经扩展的用户界面上根据与第三多个媒体项相关联的一个或多个媒体内容提供方而被组织。

在具有存储器和一个或多个处理器的电子设备处：

在显示单元上显示内容；

在显示所述内容时，检测用户输入；以及

响应于检测到所述用户输入：

在所述显示单元上显示虚拟键盘界面；以及

使得可选择示能表示出现在第二电子设备的显示器上，

其中对所述示能表示的选择使得文本输入将由所述电子设备经由所述第二电子设备的键盘接收。

128.根据权利要求127所述的方法，还包括：

经由所述第二电子设备的所述键盘来接收文本输入，所述文本输入表示用户请求；

获取至少部分地满足所述用户请求的结果；以及

在所述显示单元上显示用户界面，所述用户界面包括所述结果的至少一部分。

129.根据权利要求127所述的方法，其中所显示的内容包括具有多个示例性自然语言请求的第二用户界面。

130.根据权利要求129所述的方法，其中所显示的内容包括媒体内容。

131.根据权利要求127所述的方法，其中所显示的内容包括具有来自先前用户请求的结果的第三用户界面，所述第三用户界面占据所述显示单元的至少大部分显示区域。

132.根据权利要求131所述的方法，其中所述虚拟键盘界面覆盖在所述第三用户界面的至少一部分上。

133.根据权利要求127所述的方法，其中经由所述电子设备的遥控器来检测所述用户输入，并且其中所述遥控器和所述第二电子设备是不同的设备。

134.根据权利要求133所述的方法，其中所述用户输入包括所述遥控设备的触敏表面上的预先确定的动作模式。

135.根据权利要求127所述的方法，其中经由所述第二电子设备来检测所述用户输入。

136.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质包含用于执行根据权利要求1至135中任一项所述的方法的计算机可执行指令。

137.一种系统，包括：

根据权利要求136所述的非暂态计算机可读存储介质；和

被配置为执行所述计算机可执行指令的处理器。

138.一种设备，所述装置包括用于执行根据权利要求1至135中任一项所述的方法的装置。

139.一种电子设备，包括：

输入单元，所述输入单元被配置为接收用户输入；

耦接至所述输入单元的处理单元，其中所述处理单元被配置为：

在显示单元上显示内容；

经由所述输入单元来检测用户输入；

确定所述用户输入是否对应于第一输入类型；以及

根据确定所述用户输入对应于第一输入类型：

140.根据权利要求139所述的电子设备，还包括耦接至所述处理单元的音频输入单元，其中所述处理单元被进一步配置为：

根据确定所述用户输入不对应于第一输入类型：

确定所述用户输入是否对应于第二输入类型；以及

根据确定所述用户输入对应于第二输入类型：

使用所述音频输入单元来对音频数据进行采样；

确定所述音频数据是否包含用户请求；

根据确定所述音频数据包含用户请求，执行至少部分地满足所述用户请求的任务。

141.根据权利要求139所述的电子设备，其中所述处理单元被进一步配置为：

获取至少部分地满足所述用户请求的结果；以及

142.根据权利要求141所述的电子设备，其中所述处理单元被进一步配置为：

在显示所述第二用户界面时，经由所述输入单元来检测第二用户输入；以及

143.根据权利要求141所述的电子设备，其中所述处理单元被进一步配置为：

在显示所述第二用户界面时，经由所述输入单元来检测第三用户输入；以及

144.根据权利要求143所述的电子设备，其中所述处理单元被进一步配置为：

在显示所述第三用户界面时，经由所述输入单元来检测与所述显示单元上的方向相关联的第四用户输入；以及

响应于检测到所述第四用户输入：

145.根据权利要求143所述的电子设备，其中所述处理单元被进一步配置为：

在显示所述第三用户界面时，经由所述输入单元来检测第五用户输入；以及

响应于检测到所述第五用户输入：

显示搜索字段；以及

146.根据权利要求143所述的电子设备，其中所述处理单元被进一步配置为：

在显示所述第三用户界面时，经由所述输入单元来检测第六用户输入；以及

响应于检测到所述第六用户输入：

经由所述第三用户界面来显示所述结果的子组。

147.一种电子设备，包括：

输入单元，所述输入单元被配置为接收用户输入；

音频输入单元，所述音频输入单元被配置为接收音频数据；

耦接至所述输入单元和所述音频输入单元的处理单元，其中所述处理单元被配置为：

在显示单元上显示内容；

在显示所述内容时，经由所述输入单元来检测用户输入；

响应于检测到所述用户输入，使用所述音频输入单元来对音频数据进行采样，其中经采样的音频数据包括用户话语；

获取对与所述用户话语对应的用户意图的确定；

148.根据权利要求147所述的电子设备，其中所述处理单元被进一步配置为：

响应于获取所述用户意图不包括用于调整所述电子设备上的应用程序的状态或设置的请求的确定，获取对所述用户意图是否是多个预先确定的请求类型中的一个预先确定的请求类型的确定；以及

获取至少部分地满足所述用户意图的结果；以及

在所述显示单元上以文本形式显示所述结果。

149.根据权利要求148所述的电子设备，其中所述处理单元被进一步配置为：

响应于获取所述用户意图不是多个预先确定的请求类型中的一个预先确定的请求类型的确定：

获取至少部分地满足所述用户意图的第二结果；

根据确定所显示的内容包括媒体内容：

确定所述媒体内容是否可被暂停；以及

150.根据权利要求149所述的电子设备，其中所述处理单元被进一步配置为：

151.根据权利要求149所述的电子设备，其中所述处理单元被进一步配置为：

根据确定所述媒体内容可被暂停：

暂停播放所述电子设备上的所述媒体内容；

152.一种电子设备，包括：

输入单元，所述输入单元被配置为接收用户输入；

在显示单元上显示内容；

在显示所述内容时，经由所述输入单元来检测用户输入；以及

响应于检测到所述用户输入：

在所述显示单元上显示虚拟键盘界面；以及

使得可选择示能表示出现在第二电子设备的显示器上，

153.根据权利要求152所述的电子设备，其中所述处理单元被进一步配置为：

获取至少部分地满足所述用户请求的结果；以及