CN115917477A

CN115917477A - 使用可穿戴设备数据的助理设备仲裁

Info

Publication number: CN115917477A
Application number: CN202180044891.9A
Authority: CN
Inventors: 亚历山大·舒; 雅兰·佩雷斯
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2021-02-03
Filing date: 2021-12-06
Publication date: 2023-04-04
Also published as: AU2024200648B2; US20220244786A1; AU2021426284A1; WO2022169502A1; AU2021426284B2; KR20230017299A; US11966518B2; US20230018208A1; AU2024200648A1; US11449149B2; JP2023534901A; EP4147117A1

Abstract

本文陈述的实施方式涉及使用从诸如计算机化眼镜的可穿戴计算设备可用的数据在多设备环境中实现设备仲裁。所述计算机化眼镜可以包括相机，所述相机可以被用于提供图像数据以解决与设备仲裁相关的问题。在一些实施方式中，用户正在引导其计算机化眼镜和/或引导其注视的方向(如在来自所述用户的先前许可下由所述计算机化眼镜检测到的)可以被用于在多设备环境中优先考虑特定设备。检测到的所述计算机化眼镜的定向也可以被用于确定如何在所述计算机化眼镜的图形显示器与另一个客户端设备的另一个图形显示器之间同时分配内容。当内容被分配给所述计算机化眼镜时，内容特定手势可以在所述计算机化眼镜处被启用和可行动。

Description

使用可穿戴设备数据的助理设备仲裁

背景技术

人类可以参与和本文中称为“自动化助理”(也称为“数字代理”、“聊天机器人”、“交互式个人助理”、“智能个人助理”、“助理应用”、“会话代理”等)的交互式软件应用的人机对话。例如，人类(当他们与自动化助理交互时，可以被称为“用户”)可以使用在一些情况下可以被转换为文本然后被处理的口头自然语言输入(即，话语)和/或通过提供文本的(例如键入的)自然语言输入来向自动化助理提供命令/请求。

用户可以使用多个客户端设备与自动化助理互动。例如，一些用户可能拥有客户端设备的协调“生态系统”，其包含一个或多个智能电话、一个或多个平板计算机、一个或多个车辆计算系统、一个或多个可穿戴计算设备、一个或多个智能电视和/或一个或多个独立交互式扬声器以及其他客户端设备的组合。用户可以使用这些客户端设备中的任何一个(假设自动化助理客户端被安装)参与与自动化助理的人机对话。在一些情况下，这些客户端设备可以被分散在用户的主要居所、第二居所、工作地点和/或其他结构周围。例如，诸如智能电话、平板计算机、智能手表等的移动客户端设备可以在用户身上和/或用户最后放置它们的任何地方。诸如传统台式计算机、智能电视和独立交互式扬声器的其他客户端设备可以更固定，但可能位于用户家里或工作地点内的各种地点(例如房间)处。

当用户在其家里具有多个自动化助理设备时，作为执行不同的动作的结果，每个相应的助理设备可能具有不同的操作状态。在这时，用户可以请求修改在助理设备处正在进行的特定动作，但无意中导致不同的助理设备修改不同的动作。这能够部分是因为一些助理设备可能仅依赖于相应的助理设备是否听到用户说出修改特定动作的命令。因此，当用户不直接与他们旨在交互的助理设备说话时，助理设备对某些多助理环境的适应性能够受到限制。例如，用户可以意外地在助理设备处初始化动作，从而潜在地要求用户重复先前的口头话语以在期望的设备处重新调用动作。

因此，响应于意外调用特定助理设备，特定助理设备的存储器和处理带宽可能会被暂时消耗。这样的看似冗余的后果能够浪费网络资源，因为例如一些助理输入可能由仅经由网络连接可访问的自然语言模型处理。此外，与无意中受影响的动作相关的任何数据都将必须被重新下载到期望设备，以促进完成受影响的动作，并且取消能量密集型动作(例如控制显示器背光、加热元件和/或机动设备)所浪费的任何能量都可能不是可恢复的。

发明内容

本文陈述的实施方式涉及设备仲裁技术，它涉及处理来自由用户穿戴的计算机化眼镜的数据，以标识用户输入被引导到的合适客户端设备。允许设备仲裁利用来自计算机化眼镜的数据来被执行可以最小化其中客户端设备被意外激活的实例数量。以该方式，存储器、功率和网络带宽可以针对最容易被某些检测到的用户输入意外激活的那些设备而被保留。

在一些实施方式中，用户可以被定位于包括多个助理启用设备的环境中，诸如位于用户家的客厅中。助理启用设备可以响应于诸如口头话语的用户输入来被激活。此外，助理启用设备可以辅助设备仲裁，以标识用户可能已旨在利用用户输入调用的特定计算设备。当提供口头话语时，用户可以正在穿戴计算机化眼镜，并且计算机化眼镜可以包括可以提供用于检测用户可能正在面向的方向的图像数据的一个或多个相机。所标识的方向然后可以在设备仲裁期间使用，以基于用户正在面向的方向使特定设备优先于其他设备。

在一些实施方式中，计算机化眼镜可以包括用于检测用户瞳孔位置的电路系统，以确定用户相对于环境中的区域和/或对象的注视。例如，计算机化眼镜可以包括可以被用于标识用户正在面向的区域的前面向相机和可以被用于标识该用户的注视的逆面向相机。当用户向经由环境中的多个设备可访问的自动化助理提供输入时，计算机化眼镜可以提供关于用户注视的信息以辅助设备仲裁。例如，当用户正在面向包括多个助理启用设备的环境区域时，用户可以向自动化助理提供口头话语。在计算机化眼镜处生成的数据可以被用于确定与其他助理启用设备相比，用户的注视是否更被引导向特定助理启用设备。当特定设备基于用户的注视被选择时，自动化助理可以响应用户在特定设备处的口头话语。

在一些实施方式中，包括相机的助理启用设备可以提供可以被处理的图像数据以及来自计算机化眼镜的其他图像数据，以执行设备仲裁。例如，用户和/或环境的视觉特征可以从与计算机化眼镜分离的一个或多个相机确定，以确定在设备仲裁期间是否优先考虑特定设备。作为示例，用户的附肢可以被引导向特定设备，但该附肢在计算机化眼镜的相机的查看窗中可能不可见。然而，附件的定向可以在另一计算设备(例如独立显示设备)的相机的查看窗内可见。在一些实例中，用户可能正在面向包括两个或更多个助理启用设备的特定区域，并且可以提供口头话语。当用户正在提供口头话语时，用户可以并发地具有被引导向两个或更多个助理启用设备中的特定设备的附肢(例如手部/或足部)。在这样的实例中，来自其他计算设备(例如来自独立显示设备的相机)的图像数据和来自计算机化眼镜的其他图像数据可以被处理，以选择用于响应口头话语的特定设备。

在一些实施方式中，计算机化眼镜可以检测来自一个或多个不同的助理启用设备的一个或多个不同输出(例如第一输出、第二输出等)，以确定计算机化眼镜相对于一个或多个不同设备的地点和/或布置。例如，为了为特定用户校准计算机化眼镜，用户可以在注视其厨房中的计算设备的显示界面时提供诸如“Assistant,I’m looking at the kitchendisplay(助理，我正在观看厨房显示器)”的口头话语。作为响应，经由厨房计算设备的相机捕获的图像数据和/或经由计算机化眼镜捕获的其他图像数据可以被处理，以为该特定用户校准计算机化眼镜。

在一些实例中，该校准操作可以加强计算机化眼镜和/或其他助理启用设备的施行，特别是当用户正在注视助理启用设备时，用户通常可能不会将其头部和/或面部完全朝向助理启用设备来布置。附加地，该校准操作可以加强用户和其他助理启用设备之间的交互，所述助理启用设备可能不具有集成的相机，并且因此可能无法在设备仲裁期间提供图像数据。例如，用户可能正在注视特定的助理启用设备，但助理启用设备可能不在计算机化眼镜的外面向相机的查看窗内。在设备仲裁期间，在具有来自用户的先前许可的情况下，由计算机化眼镜的内面向相机检测到的注视可以被使用，以使用户正在注视的助理启用设备优先于其他设备(例如可能在外面向相机的查看窗中的另一个设备)。

在一些实施方式中，校准和/或设备仲裁可以使用一个或多个助理启用设备和计算机化眼镜之间的通信经由一个或多个不同的模态来执行。例如，独立扬声器设备可以包括可以为计算机化眼镜的前面向相机照明以检测独立扬声器相对于计算机化眼镜的地点的灯。可替代地或附加地，超声的声音可以由诸如计算机化眼镜和/或一个或多个其他助理启用设备的一个或多个设备发射，以确定设备相对于其他设备的地点。在一些实施方式中，设备上的一个或多个灯可以由计算机化眼镜的相机检测，以确定设备是否：已失去连接、不再与另一个设备同步和/或正在以其他方式展示出可以经由所述一个或多个灯进行通信的特定状态。以该方式，当用户正在穿戴计算机化眼镜时，计算机化眼镜可以检测一个或多个设备的相应状态的变化。

在一些实施方式中，设备相对于计算机化眼镜的地点可以被用于控制计算机化眼镜和/或一个或多个助理启用设备的某些特征。例如，在计算设备(例如电视)处正在被查看的内容可以与在计算机化眼镜的显示界面处正在被渲染的内容相关联。在一些实例中，用户可以正在在他们的电视上查看体育赛事的直播流，并且还可以正在在计算机化眼镜的显示界面中查看来自朋友的评论。当用户离开电视附近和/或以其他方式将其注视从电视移开时，根据用户的偏好，在电视处正在被渲染的内容可以在计算机化眼镜的显示界面处被渲染。例如，当用户离开其客厅中的电视附近以在其家的另一个房间中改变其洗衣物时，计算机化眼镜的相对地点的改变和/或用户的注视的改变可以被检测到。基于用户位置的这个改变，附加的内容数据可以在计算机化眼镜的显示界面处被渲染。可替代地或附加地，基于用户位置的这个改变，内容的减少可以在电视处实现，以保留功率和其他计算资源，诸如网络带宽。

以上描述被提供为本公开的一些实施方式的概述。那些实施方式和其他实施方式的进一步描述在下面更详细地描述。

其他实施方式可以包括存储指令的非暂时性计算机可读存储介质，该指令可由一个或多个处理器(例如中央处理单元(CPU)、图形处理单元(GPU)和/或张量处理单元(TPU))执行，以执行诸如上面和/或本文其他地方描述的一个或多个方法的方法。而其他实施方式可以包括一个或多个计算机的系统，该系统包括一个或多个处理器，所述一个或多个处理器可操作以执行存储的指令以执行诸如上面和/或本文其他地方描述的一个或多个方法的方法。

应该了解，本文更详细地描述的前述概念和附加概念的所有组合被设想为本文公开的主题的一部分。例如，出现在本公开的结尾处的要求保护的主题的所有组合都被设想为本文公开的主题的一部分。

附图说明

图1A和1B图示了用户调用自动化助理同时穿戴可以辅助设备仲裁的计算机化眼镜的视图。

图2图示了用户穿戴根据本文讨论的一些实施方式的计算机化眼镜的视图。

图3A、图3B、图3C、图3D和图3E图示了用户与能够依赖于用于设备仲裁的计算机化眼镜的自动化助理交互的视图。

图4图示了用于使用从诸如计算机化眼镜的设备可用的数据执行设备仲裁的系统，该设备具有用于执行增强现实的功能性。

图5图示了用于使用从诸如计算机化眼镜的可穿戴计算设备可用的数据在多设备环境中实现设备仲裁的方法。

图6是示例计算机系统的框图。

具体实施方式

图1A和1B分别图示了用户102调用自动化助理同时穿戴可以辅助设备仲裁的计算机化眼镜104的视图100和视图102。计算机化眼镜104可以通过至少提供表征用户102和/或计算机化眼镜104的视场112和/或表征用户102的注视的图像数据来辅助设备仲裁。以该方式，当助理输入在多个设备处被检测到时，来自计算机化眼镜104的数据可以被用于标识用户102正在向其引导助理输入的特定设备。例如，用户102可以在坐在诸如用户102的客厅的环境108中时正在看电视106。在看电视106时，用户102的视场112可以包括电视106、显示设备118和平板设备110。在一些实施方式中，电视106可以包括提供对自动化助理的访问的计算设备，或者可替代地，电子狗126(即，可拆卸的附件设备)可以被附接至电视106，以使某些内容在电视106处被渲染。显示设备118和平板设备110还可以向用户104提供对自动化助理的访问。

当穿戴计算机化眼镜104时，用户102可以提供口头话语114，诸如“Assistant,play the movie I was watching last night(助理，播放我昨晚看的电影)”。用户102可以提供口头话语114来修改电视106和/或电子狗126的操作。然而，由于用户102位于具有多个助理启用设备(例如平板设备110和显示设备118)的环境108中，多个不同设备可以检测来自用户102的口头话语114。例如，平板设备110、显示设备118、电视106和计算机化眼镜104中的每一个可以检测来自用户102的口头话语114。因此，设备仲裁过程可以在一个或多个设备和/或远程计算设备处被初始化，以便标识用户102正在引导口头话语114的特定设备。

在一些实施方式中，设备仲裁过程可以包括标识检测到来自用户102的口头话语114的设备，并且还确定所标识的设备中的任何一个是否与用户102的视场112相关联。例如，正在执行仲裁过程的计算设备可以确定电视106、显示设备118、电子狗126和/或平板设备110与用户102的视场112相关联。该确定可以基于由计算机化眼镜104的一个或多个相机生成的图像数据。计算设备然后可以确定电视106占据视场112的一部分，与平板设备110和显示设备118相比，该部分离视场112的外围或外边界更远。可替代地或附加地，正在执行仲裁过程的计算设备可以确定来自电视106和/或平板设备110的另一相机的图像数据指示：与平板设备110和显示设备118相比，用户102的定向被更多地引导向电视106。

基于这些确定中的一个或多个，执行设备仲裁过程的计算设备可以确定电视106是用户102正在将口头话语114引导到的设备，代替显示设备118。在一些实施方式中，当电视106由于电子狗126受到自动化助理输入的影响时，设备仲裁过程可以导致将电子狗126选择为受口头话语114的影响。因此，即使电子狗126可以对用户102不可见和/或可能被电视106隐藏了视场112，当用户102提供助理输入时，当用户102正在在电子狗126的方向上引导其注视时，电子狗126也可以响应于口头话语114。例如，与口头话语114相对应的音频数据可以由平板设备110的麦克风和显示设备118的另一个麦克风捕获，但是由用户102请求的操作可以基于来自计算机化眼镜104的图像数据在电视106和/或电子狗126处执行。例如，基于标识特定的计算设备以响应于口头话语114，电视106可以执行根据来自用户102的口头话语114播放电影而不是在显示设备118或平板设备110处播放电影的操作116。

图1B图示了用户102改变其视场124以面向位于环境108的不同区域中的计算设备122的视图120。用户102可以改变其定向，以将口头话语从电视106引导到不同设备。例如，当用户最初提供先前的口头话语114时，计算设备122可以正在执行播放音乐的操作128。因此，为了在不影响电视106处的电影的情况下关闭音乐，用户102可以将他们的面部和计算机化眼镜104更多地引导向计算设备122而不是电视106。在一些实施方式中，计算机化眼镜104可以包括具有视场124(即，查看窗或视觉视角)的外面向相机，并且外面向相机可以生成可以在设备仲裁过程期间使用的图像数据。可替代地或附加地，计算机化眼镜104可以包括内面向相机，并且内面向相机还可以生成可以在设备仲裁过程期间使用的图像数据。

例如，使用内面向相机生成的图像数据可以表征用户102的注视被稍微向上地引导向计算设备122的方向并且远离平板设备110。以该方式，尽管计算设备122的麦克风没有像平板设备110或显示设备118那样清晰地检测到口头输入(至少当用户102如图1B所描绘那样被放置时)，来自内面向相机的图像数据可以指示用户102的注视在计算设备122处被引导。例如，当电视106正在播放电影并且计算设备122正在播放音乐时，用户102可以提供口头话语130，诸如“Assistant,stop(助理，停止)”。为了确定计算设备122旨在成为口头话语130的目标，来自计算机化眼镜104的一个或多个相机的图像数据和/或来自一个或多个其他设备的数据可以在设备仲裁过程期间被处理。

在一些实施方式中，在设备仲裁过程期间，启发式过程和/或一个或多个经训练的机器学习模型可以被使用，以选择特定设备来响应于来自用户的输入。例如，一个或多个经训练的机器学习模型可以被用于处理来自内面向相机的图像数据和来自外面向相机的其他图像数据，以标识用户输入被引导到的设备。可替代地或附加地，启发式过程可以被用于基于来自一个或多个源的数据来确定是否使特定设备优先于其他候选设备。例如，不被定位于用户和/或计算机化眼镜的视场中的设备可以被认为具有比被确定在用户和/或者计算机化眼镜的视场内的另一设备更低的优先级。例如，当计算设备122优先于环境108中的其他设备时，一个或多个操作可以在计算设备122处被执行，以满足口头话语130中体现的用户请求。例如，计算设备122可以执行操作132以使音乐不再在计算设备122处播放。

图2图示了用户202穿戴根据本文讨论的一些实施方式的计算机化眼镜204的视图200。计算机化眼镜204可以包括计算机208，该计算机208可以包括一个或多个处理器和/或一个或多个存储器设备，并且可以从一个或多个能量源(例如电池、无线电力传送等)接收电力。计算机208可以至少部分地由外壳214实施和/或可以与外壳214分离。外壳214可以类似于一个或多个不同样式的眼镜的框架，并且可以具有附接至外壳214的一个或多个镜片206。在一些实施方式中，计算机化眼镜204可以包括一个或多个前面向相机210，其可以被布置为具有与用户202的视场相对应的视场。在一些实施方式中，计算机化眼镜204可以包括一个或多个内面向相机212，其可以被布置为具有包括用户202的一个或多个眼睛的另一个视场。例如，一个或多个内面向相机212可以被布置为捕获表征用户202的左眼和/或右眼的位置的图像数据。在一些实施方式中，计算机208可以被连接至一个或多个天线和/或允许计算机208与一个或多个其他计算设备通信的其他通信硬件。例如，计算机化眼镜204可以连接至Wi-Fi网络、LTE网络，和/或可以经由蓝牙协议和/或任何其他通信模态进行通信。

在一些实施方式中，所述一个或多个镜片206可以作为显示界面操作，用于渲染正在穿戴计算机化眼镜204的用户可见的图形内容。在镜片206处渲染的图形内容可以响应于多个设备检测到来自用户202的输入而辅助设备仲裁。例如，用户202可以将他们的头部和计算机化眼镜204引导向导致第一计算设备和第二计算设备处于前面向相机210的视场中的方向。当用户202在该方向上引导计算机化眼镜204时，用户可以提供口头话语，以例如使特定计算设备播放来自音乐应用的音乐。自动化助理可以检测口头话语，并且作为响应，使音乐应用的图标的多个实例在镜片206中被渲染。例如，音乐应用图标的第一实例可以在第一计算设备上方的镜片206中被渲染，并且音乐应用图标的第二实例可以在第二计算设备上方的镜片206中被渲染。

在一些实施方式中，音乐应用图标的每个实例都可以以向用户指示特定设备尚未被选择来响应口头话语的方式被渲染。例如，音乐应用图标的每个实例都可以“变灰”、模糊、闪烁和/或以其他方式具有指示设备中的一个设备应该由用户选择的一个或多个特征。为了选择所述设备中的一个设备，用户202可以更朝向第一计算设备或第二计算设备调整他们的注视和/或计算机化眼镜204的方向。作为响应，自动化助理可以检测用户的注视和/或面向方向的调整，并且使音乐应用图标的第一实例或第二实例提供已被选择的反馈。例如，当用户202将他们的注视和/或计算机化眼镜204更多地引导向第一计算设备时，音乐应用的第一实例可以图标闪烁，抖动，变为空闲，不再变灰，不再模糊和/或以其他方式指示第一计算设备已被选择。以该方式，用户202可以接收他们已经选择了特定设备的反馈，并且如果他们更喜欢第二计算设备，则重定向他们的注视和/或计算机化眼镜204。在一些实施方式中，如果用户202对他们的选择感到满意，则用户202可以在阈值时间段内继续观看第一计算设备，或者远离这两个计算设备，以便确认他们的选择并且使第一计算设备响应于口头话语。

在一些实施方式中，在镜片206处渲染的图形内容可以辅助阐明用户向自动化助理和/或另一个应用提交的特定请求的参数。例如，用户202可以提供诸如“Play somemusic(播放一些音乐)”的口头话语，并且作为响应，自动化助理可以使第一音乐应用的第一图标和第二音乐应用的第二图标在镜片206中被渲染。图标可以在用户202正在将其注意力引导向的特定计算设备处或其附近被渲染，并且图标可以被渲染以提供反馈以鼓励用户202选择用于渲染音乐的特定音乐应用。在一些实施方式中，定时器也可以在镜片206处被渲染，以便指示用户在特定音乐应用被选择之前所具有的时间量。例如，如果用户202没有提供指示他们是否偏好一个应用而不是另一个应用的附加输入，则自动化助理可以使特定图标被渲染以提供视觉反馈，该视觉反馈指示与该特定图标相对应的音乐应用默认被选择。

在一些实施方式中，在镜片206处渲染的图形内容可以与响应于来自用户202的助理输入而被提供给应用的参数相对应。例如，响应于口头话语“Play the new song(播放新歌)”，自动化助理可以使第一图形元素和第二图形元素在特定音频设备处或其附近的镜片206中被渲染。第一图形元素可以包括标识第一首歌的名称的文本，并且第二图形元素可以包括标识第二首歌的名称的文本。以该方式，可以使用户202注意到他们所提供的口头话语存在一些歧义，并且可能需要附加的输入以使特定歌被选择。用户202可以然后提供附加输入(例如调整他们的注视、旋转他们的头部、执行手势、在注视特定图标时轻敲外壳214、提供另一口头话语和/或提供任何其他输入)以指定特定歌曲。在一些实施方式中，当用户202的定向的改变被检测到时，在镜片206中渲染的图形内容可以根据定向改变来被调整。例如，被渲染为出现在用户202观看的计算设备上方的图标可以在镜片206中以相对于用户202已经旋转其头部的方向相反的方向被移位。类似地，当计算设备不再处于用户202和/或计算机化眼镜204的视场中时，图标不再能够在镜片206中被渲染。

图3A、图3B、图3C、图3D和图3E分别图示了用户302与自动化助理交互的视图300、视图320、视图340、视图360和视图380，该自动化助理可以依赖于计算机化眼镜304进行设备仲裁。这些附图至少图示了以下实例：在该实例中用户302使某些操作在房间中的计算设备处被执行，并且然后重新定位到分开的房间，但维持向计算机化眼镜304提供助理输入以控制操作的能力。例如，用户302可以提供口头话语312，诸如“Assistant,play footagefrom the security camera from last night(助理，播放来自昨晚的安全相机的片段镜头)”。口头话语312可以包括对自动化助理访问安全应用并且在自动化助理可访问的显示设备处渲染来自安全应用的视频数据的请求。

在一些实施方式中，为了确定用户302正在打算视频数据被渲染所在的特定设备，自动化助理可以使一个或多个设备分别提供一个或多个不同的输出。当用户提供口头话语312时，输出可以通过由用户302穿戴的计算机化眼镜304来检测。例如，自动化助理可以标识检测到口头话语312的一个或多个候选设备。在一些实施方式中，自动化助理可以使每个候选设备提供输出。被用于在每个候选设备处提供的输出可以相对于被用于在其他候选设备处提供的输出不同。换句话说，候选设备中的每个候选设备可以被用于提供对应的唯一输出。在一些实施方式中，自动化助理使候选设备处的输出在候选设备处被渲染一次或多次，并且使每次呈现的持续时间小于给定持续时间，诸如小于十分之一秒或小于五十毫秒。在那些和/或其他实施方式中的一些实施方式中，在候选设备处渲染的输出可以是在没有人工模态的情况下可能无法由人类检测到的输出。例如，自动化助理可以使电视306和平板设备310将图像并入到分别在电视306和平板设备310处被渲染的一个或多个图形内容帧中。包括图像的帧可以以大于人类可检测的帧频率(例如大于或等于每秒60帧)的频率来被渲染。以该方式，如果用户302在他们提供口头话语312时正在面向电视306，则计算机化眼镜304的前面向相机可以在一个或多个帧中检测图像，而用户302不会被打断。可替代地或附加地，当电视306和平板设备310两者都在前面向相机和/或用户302的视场内时，自动化助理可以确定电视306比平板设备310占据更多的用户302和/或计算机化眼镜304的焦点。

在一些实施方式中，当用户302提供口头话语时，自动化助理可以确定电视306和平板设备310靠近计算机化眼镜304和/或用户302。基于该确定，自动化助理可以使电视306和平板设备310呈现不同的图像，以标识处于相机和/或计算机化眼镜304的视场中的设备。自动化助理然后可以确定计算机化眼镜304的一个或多个相机是否已经检测到一个图像而不是另一个图像，以便标识用户302正在引导其输入的特定设备。

在一些实施方式中，环境中的一个或多个设备可以包括LED，这些LED可以在设备仲裁期间由每个对应设备和/或自动化助理控制。然后从LED发射的光可以被检测，以便选择将响应于来自用户302的输入的特定设备。例如，响应于在第一设备和第二设备处检测到来自用户302的口头话语，自动化助理可以使第一设备的第一LED和第二设备的第二LED来照明。当自动化助理确定从第一LED而不是第二LED发射的光正在由计算机化眼镜304检测到时，自动化助理可以选择第一设备以响应于口头话语。可替代地或附加地，自动化助理可以使每个LED来照明以展示出某些特性，以便于辅助设备仲裁。例如，第一LED可以照明，使得由第一LED发射的光的特性与由第二LED发射的其他光的特性不同。这样的特性可以包括颜色、幅度、持续时间、频率和/或可以由应用和/或设备控制的光的任何其他特性。例如，自动化助理可以使第一LED每0.5秒照明0.1秒，并且第二LED每0.35秒照明0.05秒。以该方式，计算机化眼镜304的一个或多个相机可以检测光的这些图案，并且自动化助理可以将每个检测到的图案关联到每个相应的设备。自动化助理可以然后标识用户302将他们的注视和/或计算机化眼镜304引导向的LED，以便选择将响应于用户输入的特定设备。

在一些实例中，自动化助理可以确定口头话语312被引导到电视306，并且可以使电视306执行在电视306处播放来自安全相机的相机片段镜头的操作314。例如，自动化助理可以使安全应用在电视306处被访问，以渲染用户302正在请求的安全片段镜头。当安全应用被启动时，标识安全应用和可选GUI元素332(即，图形元素)的图标330可以在电视306处被渲染。为了标识相机片段镜头的某些特征，用户302可以收听来自电视306的音频316并且查看在电视306的显示界面处渲染的视频。此外，用户302可以经由计算机化眼镜304执行各种物理手势以控制电视306和/或安全应用。例如，计算机化眼镜304可以包括外面向相机322，该外面向相机322可以捕获图像数据以供自动化助理处理。例如，当用户302执行滑动手势326时，自动化助理可以检测滑动手势326，并且使安全应用执行与滑动手势326相对应的特定操作(例如快进)。

在一些实施方式中，该用户302可以重新定位到他们家中的另一房间，以使计算机化眼镜304以反映用户302的重新定位344的方式操作。例如，如图3C和图3D所图示的，用户302可以从环境308重新定位到分开的环境362，以改变他们的衣物364，同时还收听来自安全应用的音频316。计算机化眼镜304可以提供用于响应于用户302重新定位离开电视306而控制安全应用和/或自动化助理的界面。在一些实施方式中，用户302已重新定位的确定可以基于在计算机化眼镜和/或环境308中的一个或多个其他设备处生成的数据。在一些实施方式中，计算机化眼镜304可以指示用户302可以控制他们先前通过计算机化眼镜304观察的应用和/或设备。例如，表示安全应用的图标330可以在计算机化眼镜304的显示界面中被渲染。可替代地或附加地，响应于用户302将他们的注视和/或面部重定向为远离电视306，在电视306处渲染的可选GUI元素332和图形元素384可以在计算机化眼镜304的显示界面处被渲染。

在一些实施方式中，当用户302可能没有正在观看设备和/或以其他方式将其注意力引导向另一个计算机设备时，设备仲裁可以使用计算机化眼镜304来被执行。例如，并且如图3E所提供的，用户302可以执行手势382以向自动化助理、特定应用和/或特定计算设备提供输入。计算机化眼镜的一个或多个相机(例如外面向相机322)可以检测物理手势，该物理手势可以是用户302将其手部从左侧位置368向右移动的物理手势。响应于检测到物理手势382，自动化助理可以操作以标识检测到物理手势的一个或多个设备。在一些实例中，自动化助理可以确定只有计算机化眼镜304检测到物理手势382。无论如何，自动化助理都可以确定物理手势382是否旨在初始化计算机化眼镜304和/或分开的设备处的一个或多个操作。

在一些实例中，用户302可能正在计算机化眼镜304的显示界面处查看来自安全应用的内容。在这样的实例中，自动化助理可以确定物理手势382旨在影响安全应用的操作。响应于物理手势382，自动化助理可以使安全应用快速转发在计算机化眼镜304处正在被渲染的某些内容。可替代地或附加地，自动化助理可以执行启发式过程，以用于标识用户302正在向其引导物理手势382的应用和/或设备。在一些实施方式中，并且利用来自用户302的先前许可，自动化助理可以确定用户302最近正在注视着电视306，并且在注视电视306之前，用户302正在注视着平板设备310。该确定可以使得自动化助理在选择将响应于物理手势382的设备时使电视306优先于平板设备310。

可替代地或附加地，自动化助理可以基于来自计算机化眼镜304的内面向相机324的图像数据确定用户302最近正在注视电视306处的安全应用，并且在注视安全应用之前，用户302正在注视着平板设备310处的社交媒体应用。基于标识安全应用和社交媒体应用，自动化助理可以确定物理手势382作为安全应用的输入而不是作为社交媒体应用的输入是可接受的。因此，根据该过程，自动化助理可以选择安全应用以响应于来自用户302的物理手势输入。

在一些实施方式中，设备仲裁可以使用一个或多个经训练的机器学习模型来执行，该机器学习模型可以被用于处理应用数据和/或场境数据。例如，当用户302提供物理手势382时，应用数据可以表征可能与用户302相关联的一个或多个应用的操作状态。可替代地或附加地，场境数据可以表征用户302提供了物理手势382的场境的特征。这样的特征可以包括但不限于用户302的地点、一天中的时间、用户的一个或多个活动(具有来自用户的先前许可)和/或当用户302提供物理手势382时可以与用户302相关联的任何其他信息。例如，由计算机化眼镜304的一个或多个麦克风和/或一个或多个其他设备捕获的音频数据可以被处理，以在具有来自用户302的先前许可的情况下标识环境的场境特征。例如，从电影中捕获声音的音频数据可以被使用以辅助自动化助理确定物理手势382是否应该影响正在渲染电影的应用。当自动化助理确定物理手势382旨在影响电影(例如通过用户302不想听到的电影的一部分快进电影)时，自动化助理可以生成命令数据，该命令数据可以被传递给正在渲染电影的应用，而用户不必注视正在显示电影的电视306。

图4图示了用于使用从诸如计算机化眼镜的设备可用的数据执行设备仲裁的系统400，该设备具有用于执行增强现实的功能性。自动化助理404可以作为在诸如计算设备402和/或服务器设备的一个或多个计算设备处提供的助理应用的一部分来操作。用户可以经由助理界面420与自动化助理404交互，该助理界面420可以是麦克风、相机、触摸屏显示器、用户界面和/或能够在用户和应用之间提供界面的任何其他装置。例如，用户可以通过向助理界面420提供语言、文本和/或图形输入来初始化自动化助理404，以使自动化助理404初始化一个或多个动作(例如提供数据、控制外围设备、访问代理、生成输入和/或输出等)。可替代地，自动化助理404可以基于使用一个或多个经训练的机器学习模型对场境数据436的处理来被初始化。场境数据436可以表征自动化助理404可访问的环境的一个或多个特征和/或被预测为旨在与自动化助理404交互的用户的一个或多个特征。

计算设备402可以包括显示设备，该显示设备可以是包括用于接收触摸输入和/或手势的触摸界面的显示面板，以允许用户经由触摸界面控制计算设备402的应用434。在一些实施方式中，计算设备402能够缺少显示设备，由此提供可听的用户界面输出，而不提供图形用户界面输出。此外，计算设备402可以提供用户界面，诸如麦克风，以用于从用户接收口头自然语言输入。在一些实施方式中，计算设备402可以包括触摸界面，并且可以没有相机，但可以可选地包括一个或多个其他传感器。在一些实施方式中，计算设备402可以提供增强现实功能性和/或可以是可穿戴设备，诸如但不限于计算机化眼镜、隐形镜片、手表、衣物和/或任何其他可穿戴设备。因此，尽管各种实施方式在本文中相对于计算机化眼镜描述，但是本文公开的技术可以结合其他电子设备来实施，所述电子设备包括增强现实功能性，诸如不是计算机化眼镜的其他可穿戴设备。

计算设备402和/或其他第三方客户端设备可以通过诸如互联网的网络与服务器设备通信。附加地，计算设备402和任何其他计算设备可以通过诸如Wi-Fi网络的局域网(LAN)彼此通信。计算设备402可以将计算任务卸载到服务器设备，以节省计算设备402处的计算资源。例如，服务器设备可以托管自动化助理404，和/或计算设备402可以将在一个或多个助理界面420处接收的输入传输给服务器设备。然而，在一些实施方式中，自动化助理404可以被托管在计算设备402处，并且与自动化助理操作相关联的各种过程可以在计算设备402处被执行。

在各种实施方式中，自动化助理404的所有方面或少于所有方面可以被实施在计算设备402上。在那些实施方式中的一些实施方式中，自动化助理404的方面经由计算设备402实施，并且可以与服务器设备接口连接，该服务器设备可以实施自动化助理404的其他方面。服务器设备可以可选地经由多个线程服务于多个用户及其相关联的助理应用。在自动化助理404的所有方面或少于所有方面经由计算设备402实施的实施方式中，自动化助理404可以是与计算设备402的操作系统分离的应用(例如被安装在操作系统的“顶部”)，或者可以可替代地由计算设备402的操作系统直接实施(例如被认为是操作系统的应用，但与操作系统集成)。

在一些实施方式中，自动化助理404可以包括输入处理引擎406，它可以采用多个不同的模块来处理计算设备402和/或服务器设备的输入和/或输出。例如，输入处理引擎406可以包括语音处理引擎408，它可以处理在助理界面420处接收的音频数据，以标识在音频数据中体现的文本。音频数据可以从例如计算设备402传输到服务器设备，以保留计算设备402处的计算资源。附加地或者可替代地，音频数据可以在计算设备402处被排他地处理。

用于将音频数据转换为文本的过程可以包括语音辨识算法，该语音辨识算法可以采用神经网络和/或统计模型来标识与词语或短语相对应的音频数据组。从音频数据转换的文本可以由数据解析引擎410解析，并且作为可以被用于生成和/或标识命令短语、意图、动作、槽值和/或由用户指定的任何其他内容的文本数据使其对自动化助理404可用。在一些实施方式中，由数据解析引擎410提供的输出数据可以被提供给参数引擎412，以确定用户是否提供了与能够由自动化助理404执行的特定意图、动作和/或例程和/或能够经由自动化助理404访问的应用或代理相对应的输入。例如，助理数据438可以被存储在服务器设备和/或计算设备402处，并且可以包括定义能够由自动化助理404执行的一个或多个动作的数据以及执行动作所必需的参数。参数引擎412可以生成意图、动作和/或槽值的一个或多个参数，并且将所述一个或多个参数提供给输出生成引擎414。输出生成引擎414可以使用一个或多个参数来与自动化助理420通信以向用户提供输出，和/或与一个或多个应用434通信以向一个或多个应用434提供输出。

在一些实施方式中，自动化助理404可以是可以被安装在计算设备402的操作系统“顶部”的应用，和/或可以自身形成计算设备402的操作系统的一部分(或全部)。自动化助理应用包括和/或具有对设备上语音辨识、设备上自然语言理解和设备上履行的访问。例如，设备上语音辨识可以使用设备上语音辨识模块来执行，该设备上语音辨识模块使用本地存储在计算设备402处的端到端语音辨识机器学习模型来处理(由麦克风检测的)音频数据。设备上语音辨识为音频数据中所存在的口头话语(如果有的话)生成辨识文本。而且，例如设备上自然语言理解(NLU)可以使用设备上NLU模块来执行，该设备上NLU模块处理使用设备上语音辨识生成的辨识文本以及可选地场境数据，以生成NLU数据。

NLU数据可以包括与口头话语相对应的意图以及可选地包括意图的参数(例如槽值)。设备上履行可以使用设备上履行模块来执行，该设备上履行模块利用NLU数据(来自设备上NLU)和可选地利用其他本地数据来确定要采取的动作，以解决口头话语的意图(以及可选地解决意图的参数)。这可以包括确定对口头话语的本地和/或远程响应(例如答案)、将基于口头话语执行的与本地安装的应用的交互、基于口头话语(直接地或经由对应的远程系统)传输给物联网(IoT)设备的命令和/或基于口头话语执行的其他解决动作。设备上履行然后可以发起确定的动作的本地和/或远程施行/执行，以解决口头话语。

在各种实施方式中，远程语音处理、远程NLU和/或远程履行可以被至少选择性地被使用。例如，识别的文本可以至少选择性地被传输到远程自动化助理组件，用于远程NLU和/或远程履行。例如，识别的文本可以可选地与设备上施行并行地传输用于远程施行，或者响应于设备上NLU和/或设备上履行的故障。然而，设备上语音处理、设备上NLU、设备上履行和/或设备上执行可以至少由于它们在解决口头话语时提供的时延减少(由于没有客户端-服务器往返被需要来解决口头话语)来被优先考虑。进一步地，设备上功能性可以是在没有网络连接性或网络连接性有限的情况下可用的仅有功能性。

在一些实施方式中，计算设备402可以包括可以由与提供计算设备402和/或自动化助理404的实体不同的第三方实体提供的一个或多个应用434。自动化助理404和/或计算设备402的应用状态引擎可以访问应用数据430，以确定能够由一个或多个应用434执行的一个或多个动作以及所述一个或多个应用434中的每个应用的状态和/或与计算设备402相关联的相应设备的状态。自动化助理404和/或计算设备402的设备状态引擎可以访问设备数据432，以确定能够由计算设备402和/或与计算设备402相关联的一个或多个设备执行的一个或多个动作。此外，应用数据430和/或任何其他数据(例如设备数据432)可以由自动化助理404访问以生成场境数据436，该场境数据436可以表征其中特定应用434和/或设备正在执行的场境和/或特定用户正在访问计算设备402、访问应用434和/或任何其他设备或模块的场境。

当一个或多个应用434在计算设备402处正在执行时，设备数据432可以表征在计算设备402处正在执行的每个应用434的当前操作状态。此外，应用数据430可以表征执行应用434的一个或多个特征，诸如在一个或多个应用434的方向处被渲染的一个或多个图形用户界面的内容。可替代地或附加地，应用数据430可以表征动作模式，该动作模式可以基于相应应用的当前操作状态由相应应用和/或自动化助理404更新。可替代地或附加地，一个或多个应用434的一个或多个动作模式可以保持静态，但可以由应用状态引擎访问，以确定要经由自动化助理404初始化的合适动作。

计算设备402可以进一步包括助理调用引擎422，该助理调用引擎422可以使用一个或多个经训练的机器学习模型来处理应用数据430、设备数据432、场境数据436和/或计算设备402可访问的任何其他数据。助理调用引擎422可以处理该数据，以确定是否等待用户显式地说出调用短语来调用自动化助理404，或者认为数据指示用户调用自动化助理的意图——代替要求用户显式地说出调用短语。例如，所述一个或多个经训练的机器学习模型可以使用基于其中用户处于多个设备和/或应用展示出各种操作状态的环境中的场景的训练数据的实例来被训练。训练数据的实例可以被生成以捕获训练数据，该训练数据表征其中用户调用自动化助理的场境和用户不调用自动化助理的其他场境。

当所述一个或多个经训练的机器学习模型根据训练数据的这些实例被训练时，助理调用引擎422可以使自动化助理404基于场境和/或环境的特征检测或限制检测来自用户的口头调用短语。附加地或可替代地，助理调用引擎422可以使自动化助理404基于场境和/或环境的特征来检测或限制检测来自用户的一个或多个助理命令。在一些实施方式中，助理调用引擎422可以基于计算设备402检测到来自另一计算设备的助理抑制输出来被禁用或限制。以该方式，当计算设备402正在检测助理抑制输出时，自动化助理404将不会基于场境数据436来被调用——否则如果助理抑制输出没有正在被检测，则会导致自动化助理404被调用。

在一些实施方式中，系统400可以包括设备仲裁引擎416，当一个或多个设备和/或应用检测到来自用户的输入时，该设备仲裁引擎416可以辅助执行设备仲裁。例如，在一些实施方式中，设备仲裁引擎416可以处理来自一个或多个不同设备的数据，以确定是否初始化设备仲裁过程。在一些实施方式中，数据可以经由网络连接、系统400的一个或多个接口和/或计算设备可以通过其接收数据的任何其他模态来接收。例如，设备仲裁引擎416可以确定响应于助理输入，多个不同的设备正在投射超声的声音和/或光。基于该确定，设备仲裁引擎416可以初始化用于选择将响应于来自用户的助理输入的多个不同设备中的特定设备的过程。

在一些实施方式中，系统400可以包括注视检测引擎418，其可以确定用户相对于用户环境中的一个或多个不同对象的注视。例如，系统400可以是计算机化眼镜，其包括被引导到用户的一个或多个眼睛的内面向相机。基于使用内面向相机生成的图像数据，系统400可以标识用户正在将其眼睛引导向的环境中的特定区域。在一些实施方式中，注视检测引擎418可以基于来自诸如包括相机的分开的计算设备的一个或多个不同设备的数据来确定用户的注视方向。来自分开的计算设备的图像数据可以在具有用户的先前许可的情况下指示用户的姿势和/或用户引导其一个或多个附属物的方向。以该方式，注视检测引擎418可以确定在用户向自动化助理404提供输入之前、期间和/或之后用户正在引导其注意力的方向。

在一些实施方式中，系统400包括视场引擎426，它可以处理表征用户和/或设备的一个或多个相机的视场的数据。例如，视场引擎426可以处理来自计算机化眼镜的一个或多个相机的图像数据，以便标识在一个或多个时间实例处位于相机视场中的一个或多个对象和/或设备。在一些实施方式中，视场引擎426还可以处理设备数据432，以便标识可以与用户视场中的某些设备相关联的某些对象。例如，厨房水槽可以是与用户的独立显示设备相关联的对象。因此，当用户提供用户输入时，当厨房水槽在用户的视场中被标识时，视场引擎426可以确定独立计算设备受到用户输入的影响。

在一些实施方式中，系统400可以包括界面内容引擎424，用于使系统400的一个或多个界面根据来自设备仲裁引擎416的输出来渲染内容。例如，当设备仲裁引擎416标识受来自用户的输入影响的计算设备402时，界面内容引擎424可以使内容在计算设备402的一个或多个界面(例如计算机化眼镜的显示界面)处被渲染。当设备仲裁引擎416确定用户将输入引导到分开的计算设备，并且分开的计算设备处于用户的视场中时，界面内容引擎424可以使通知针对分开的计算设备来被渲染。例如，当计算设备402是计算机化眼镜时，界面内容引擎424可以使图形内容在计算设备402的显示界面处被渲染。图形内容可以被渲染为使得图形内容在用户的视场中(例如在与分开的设备的地点相对应的眼镜镜片的区域中)出现在分开的计算设备的“顶部”和/或附近。图形内容可以包括但不限于一个或多个图标、颜色和/或其他图形特征，其可以指示设备仲裁引擎416已经选择了分开的计算设备作为对来自用户的输入的响应。

在一些实施方式中，设备仲裁引擎416可以请求来自用户的附加输入，以便辅助标识用户旨在受输入影响的特定设备。设备仲裁引擎416可以将候选设备的标识符和/或地点传递到界面内容引擎424，该界面内容引擎424可以在候选设备的相对地点处或附近在计算机化眼镜的镜片中渲染图形指示。例如，第一可选元素可以在计算机化眼镜的显示界面的最左侧部分处被渲染，以便指示用户视场的最左侧部分中的计算设备是候选设备。第二可选元素可以与第一可选元素同时在显示界面的更中心地点中被渲染，以指示用户视场的中心部分中的另一个计算设备也是候选设备。用户然后可以在他们的面部前面执行手势(例如举起他们的食指)，以使计算机化眼镜的一个或多个相机将捕获该手势。该手势可以向自动化助理404指示特定设备(例如最中心设备)是用户旨在响应于用户输入的设备。

图5图示了用于使用从诸如计算机化眼镜的可穿戴计算设备可用的数据在多设备环境中实现设备仲裁的方法500。方法500可以由一个或多个计算设备、应用和/或可以与自动化助理相关联的任何其他装置或模块执行。方法500可以包括确定助理输入是否已被检测到的操作502。助理输入可以是由用户提供给一个或多个计算设备的用户输入，所述一个或多个计算设备提供对自动化助理的访问。在一些实施方式中，助理输入可以被提供给具有增强现实功能性的计算设备，诸如计算机化眼镜、计算机化隐形镜片、电话、平板设备、便携式计算设备、智能手表和/或可以增强一个或多个用户的感知的任何其他计算设备。应该注意的是，在本文讨论的包括计算机化眼镜的实施方式中，计算机化眼镜可以是提供增强现实功能性的任何计算机设备。当助理输入被检测到时，方法500可以从操作502进行到操作504。否则，自动化助理可以继续确定用户是否已向自动化助理提供输入。

操作504可以是包括确定助理输入是否在多个设备处被检测到的可选操作。例如，用户可以正在穿戴一对计算机化眼镜，同时注视提供对自动化助理的访问的独立扬声器设备。因此，当用户提供助理输入时，助理输入可以在计算机化眼镜、独立扬声器设备和用户环境中的一个或多个其他设备处被检测到。当单个计算设备已经专门检测到助理输入时，方法500可以从操作504进行到操作512，其中检测到助理输入的特定计算设备被用于初始化一个或多个操作的施行。然而，当多个设备已检测到助理输入时，方法500可以从操作504进行到操作506，以初始化设备仲裁用于选择一个或多个设备来响应助理输入。

操作506可以包括标识检测到来自用户的助理输入的候选设备。例如，当助理输入是口头话语时，自动化助理可以标识捕获与口头话语相对应的音频数据的多个设备。在一些实施方式中，每个候选设备可以捕获音频数据，并且处理音频数据以生成助理输入的分数。当每个候选设备上的每个分数满足阈值时，设备仲裁可以针对那些候选设备来被初始化。例如，候选设备可以包括计算机化眼镜、独立扬声器设备和用户可能已经放在用户附近的桌子上的平板设备。方法500可以从操作506进行到操作508，以进一步确定助理输入是否被引导到特定计算设备。

操作508可以包括处理在候选设备和/或计算机化眼镜处生成的数据。例如，计算机化眼镜可以包括可以被用于生成图像数据以标识用户可能正在引导助理输入的特定设备的外面向的相机和/或内面向的相机。使用外面向相机生成的图像数据可以捕获包括候选设备中的一个候选设备和/或与候选设备相关联的对象的图像。例如，独立扬声器设备可以由在用户提供助理信息时用户正在观看的装饰性桌子支撑。因此，当装饰性桌子和/或独立扬声器设备被确定为位于用户和/或计算机化眼镜的查看窗中时，自动化助理可以确定助理输入被引导到独立扬声器设备。可替代地或附加地，候选设备中的一个或多个可以提供可以由计算机化眼镜的一个或多个传感器检测的输出。因此，当计算机化眼镜检测到来自候选设备中的特定设备的输出时，自动化助理可以确定该助理输入被引导到该特定设备。

方法500可以进行到操作510，它可以包括基于操作508处的处理来确定助理输入是否被引导到特定候选设备。当自动化助理确定助理输入被引导到除计算机化眼镜之外的特定候选设备时，方法500可以从操作510进行到操作512。可替代地，当自动化助理和/或另一个应用确定助理输入未被引导到特定候选设备时，方法500可以从操作510进行到操作514。

操作514可以包括确定系统输入是否被引导到计算机化眼镜和/或提供增强现实功能性的另一计算设备。例如，当用户戴着计算机化眼镜时正在在笔记本上手写时，用户可以提供口头话语。因此，尽管其他候选设备可能已经检测到来自用户的口头话语，但是在计算机化眼镜的查看窗中没有其他候选设备可以是可见的。因此，自动化助理可以确定用户意图自动化助理经由计算机化眼镜来响应口头话语。例如，当用户正在注视着笔记本并且戴着计算机化眼镜时，用户可以请求自动化助理检查写在笔记本中的词语的拼写。作为响应，自动化助理可以使计算机化眼镜渲染一个或多个图形元素，所述一个或多个图形元素指示该词语是否经由增强现实在笔记本中正确被拼写和/或经由计算机化眼镜的一个或多个扬声器提供可听输出。

当自动化助理确定助理输入被引导到计算机化眼镜时，方法500可以从操作514进行到操作512。否则，方法500可以从操作514进行到操作516。操作516可以是可选操作，其包括请求来自用户的附加输入以辅助自动化助理标识用户意图助理输入被引导到的特定计算设备。此后，方法500可以从操作516进行到操作502和/或操作504。

图6是示例计算机系统610的框图600。计算机系统610通常包括经由总线子系统612与多个外围设备通信的至少一个处理器614。这些外围设备可以包括存储子系统624，包括例如存储器625和文件存储子系统626、用户界面输出设备620、用户界面输入设备622和网络接口子系统616。输入和输出设备允许用户与计算机系统610交互。网络接口子系统616将接口提供给外部网络，并且被耦合至其他计算机系统中的对应接口设备。

用户界面输入设备622可以包括键盘、诸如鼠标、轨迹球、触摸板或者绘图板的指点设备、扫描仪、被并入到显示器中的触摸屏、诸如话音辨识系统、麦克风的音频输入设备和/或其他类型的输入设备。通常，术语“输入设备”的使用旨在包括用于将信息输入到计算机系统610中或者输入到通信网络上的所有可能类型的设备和方式。

用户界面输出设备620可以包括显示子系统、打印机、传真机或者诸如音频输出设备的非视觉显示器。显示子系统可以包括阴极射线管(CRT)、诸如液晶显示器(LCD)的平板设备、投影设备或者用于创建可见图像的一些其他机构。显示子系统还可以提供非视觉显示器，诸如经由音频输出设备。通常，术语“输出设备”的使用旨在包括用于将来自计算机系统610的信息输出至用户或者输出至另一个机器或者计算机系统的所有可能类型的设备和方式。

存储子系统624存储提供本文描述的一些或者所有模块的功能性的编程和数据构造。例如，存储子系统624可以包括执行方法500的所选方面和/或实施系统400、计算机化眼镜104、电视106、平板设备110、计算设备122、计算机化眼镜204、电视306、计算机化眼镜304、平板设备310、计算设备342和/或本文讨论的任何其他应用、设备、装置和/或模块中的一个或多个的逻辑。

这些软件模块通常由处理器614单独地执行或者与其他处理器组合来执行。用于存储子系统624中的存储器625可以包括多个存储器，所述多个存储器包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)630和固定指令被存储在其中的只读存储器(ROM)632。文件存储子系统626可以为程序和数据文件提供持久存储装置，并且可以包括硬盘驱动器、连同关联的可移除介质的软盘驱动器、CD-ROM驱动器、光学驱动器或者可移除介质盒。实施特定实施方式的功能性的模块可以由文件存储子系统626存储在存储子系统624中，或者存储在由处理器614可访问的其他机器中。

总线子系统612提供用于允许计算机系统610的各种组件和子系统按照意图来与彼此通信的机构。虽然总线子系统612被示意性地示出为单个总线，但是总线子系统的替代实施方式可以使用多个总线。

计算机系统610可以具有不同的类型，包括工作站、服务器、计算集群、刀片式服务器、服务器场或者任何其他数据处理系统或者计算设备。由于计算机和网络的不断改变的性质，出于图示一些实施方式的目的，图6中描绘的计算机系统610的描述仅旨在作为具体示例。与图6中描绘的计算机系统相比，计算机系统610的具有更多或者更少组件的许多其他配置是可能的。

在本文描述的系统收集关于用户(或者通常在本文中称为“参与者”)的个人信息或者可以利用个人信息的情况下，用户可以被提供有以下机会：控制程序或者特征是否收集用户信息(例如关于用户的社交网络、社交动作或者活动、职业、用户的偏好或者用户的当前地理地点的信息)或者控制是否和/或如何从内容服务器接收可能与用户更相关的内容。而且，在特定数据被存储或者使用之前，所述特定数据可以以一个或多个方式来被处置，使得个人可标识信息被移除。例如，用户的标识可以被处置，使得没有个人可标识信息能够针对用户被确定，或者地理地点信息从中被获得的用户的地理地点可以被概括(诸如到城市、邮政编码或者州级)，使得用户的特定地理地点无法被确定。因此，用户可以具有对信息如何关于用户被收集和/或被使用的控制。

虽然若干实施方式已经在本文中描述和图示，但是用于执行功能和/或获得结果和/或本文描述的优点中的一个或多个的各种其他部件和/或结构可以被利用，并且这样的变化和/或修改中的每一个被视为在本文描述的实施方式的范围内。更一般地，本文描述的所有参数、尺寸、材料和配置旨在是示例性的，并且实际参数、尺寸、材料和/或配置将取决于教导被使用的一个或多个具体应用。本领域技术人员使用不多于常规实验将认识到或者能够确定本文描述的具体实施方式的许多等效物。因此，要理解的是，前述实施方式仅通过示例呈现，并且在所附权利要求及其等效物的范围内，实施方式可以按照与具体描述和要求保护的方式不同的方式来实践。本公开的实施方式针对本文描述的每个单独特征、系统、物品、材料、套件和/或方法。另外，如果这样的特征、系统、物品、材料、套件和/或方法不互相矛盾，那么两个或更多个这样的特征、系统、物品、材料、套件和/或方法的任何组合都被包括在本公开的范围内。

在一些实施方式中，由一个或多个处理器实施的方法被陈述为包括操作：诸如确定用户已经将助理输入引导到自动化助理，该自动化助理可经由被连接至网络的多个计算设备中的任何一个计算设备访问，其中用户正在穿戴计算机化眼镜，所述计算机化眼镜是包括一个或多个相机的计算设备，并且其中用户位于包括多个计算设备的环境中。该方法可以进一步包括以下操作：基于来自用户的助理输入，标识多个计算设备中的检测到来自用户的助理输入的两个或更多个候选设备，其中所述两个或更多个候选设备与计算机化眼镜分离。该方法可以进一步包括以下操作：基于处理使用计算机化眼镜的所述一个或多个相机生成的图像数据，确定助理输入被引导到所述两个或更多个候选设备中的特定计算设备还是计算机化眼镜。在一些实施方式中，该方法可以进一步包括以下操作：当助理输入被确定为被引导到所述两个或更多个候选设备中的特定计算设备时：使特定计算设备执行与助理输入相对应的一个或多个操作。

在一些实施方式中，确定助理输入被引导到所述两个或更多个候选设备中的特定计算设备还是计算机化眼镜包括：基于图像数据，确定所述两个或更多个候选设备中的特定计算设备是否被定位于所述一个或多个相机的查看窗中。在一些实施方式中，计算机化眼镜的所述一个或多个相机中的相机被引导向用户的眼睛，并且确定所述两个或更多个候选设备中的特定计算设备与用户的视觉视角相关联包括：确定与被引导向所述两个或更多个候选设备中的任何其他设备相比，用户的注视被更多地引导向特定计算设备。

在一些实施方式中，确定助理输入被引导到所述两个或更多个候选设备中的特定计算设备还是计算机化眼镜包括：确定所述一个或多个相机的查看窗中的特定对象是否与所述两个或更多个候选设备中的特定计算设备的相对位置相关联。在一些实施方式中，特定计算设备不被定位于计算机化眼镜的所述一个或多个相机的查看窗中。在一些实施方式中，助理输入是由用户执行的物理手势，并且物理手势由计算机化眼镜检测。在一些实施方式中，计算机化眼镜包括在用户提供助理输入时正在渲染内容的图形显示界面，并且其中该方法进一步包括：当助理输入被确定为被引导到计算机化眼镜时：使在计算机化眼镜的图形显示界面处正在被渲染的内容根据物理手势来被修改。

在一些实施方式中，该方法进一步包括：当助理输入被确定为被引导到计算机化眼镜和特定计算设备时：使内容的第一部分在特定计算设备处被渲染，并且使内容的第二部分在计算机化眼镜的显示界面处被渲染。在一些实施方式中，特定计算设备是被连接至显示设备的可拆卸附件设备，并且特定计算设备在计算机化眼镜的一个或多个相机的查看窗中不可见。在一些实施方式中，计算机化眼镜包括在图形显示界面正在渲染内容时是至少部分地透明的图形显示界面，并且其中该方法进一步包括：当助理输入被确定为被引导到所述两个或更多个候选设备中的特定计算设备时：使图形元素在图形显示界面中的与特定计算设备相对应的位置处被渲染。

在一些实施方式中，助理输入包括自动化助理初始化特定应用的请求，并且图形元素基于特定应用。在一些实施方式中，标识多个计算设备中的检测到来自用户的助理输入的所述两个或更多个候选设备包括：确定特定计算设备正在渲染第一输出，并且多个计算设备中的另一个计算设备正在渲染第二输出，其中第一输出和第二输出由计算机化眼镜检测。

在一些实施方式中，特定计算设备包括图形显示界面，并且第一输出包括在图形显示界面处渲染的图形元素，并且图形元素被体现在一个或多个图形内容帧中，所述一个或多个图形内容帧以大于或等于每秒60帧的频率来被渲染。在一些实施方式中，第一输出与第二输出不同，并且确定助理输入被引导到所述两个或更多个候选设备中的特定计算设备还是计算机化眼镜包括：确定第一输出在计算机化眼镜的查看窗内被检测到，并且第二输出在计算机化眼镜的查看窗内未被检测到。

在其他实施方式中，由一个或多个处理器实施的方法被陈述为包括操作：诸如由计算设备确定用户已向自动化助理提供输入，该自动化助理可经由一个或多个计算设备访问，所述一个或多个计算设备被定位于具有用户的环境中，其中输入与自动化助理为用户提供内容的请求相对应，并且其中所述一个或多个计算设备包括当用户提供输入时用户正在穿戴的计算机化眼镜。该方法可以进一步包括以下操作：基于来自用户的输入，标识为用户渲染内容的特定设备，其中特定设备与计算机化眼镜分离。该方法可以进一步包括以下操作：基于标识特定设备，使特定设备为用户渲染内容。该方法可以进一步包括以下操作：处理由当用户提供输入时在用户的环境中的所述一个或多个计算设备提供的场境数据。该方法可以进一步包括以下操作：基于场境数据，确定是否向用户提供与请求相关联的附加内容。该方法可以进一步包括以下操作：当自动化助理确定向用户提供附加内容时：使计算机化眼镜执行一个或多个附加操作，以促进经由计算机化眼镜的一个或多个界面渲染附加内容。

在一些实施方式中，场境数据包括由计算机化眼镜的一个或多个相机提供的图像数据，并且确定是否向用户提供与请求相关联的附加内容包括：当特定设备正在执行所述一个或多个操作时，确定用户是否正在观看特定设备。在一些实施方式中，使计算机化眼镜渲染附加内容包括：使计算机化眼镜经由网络连接访问内容数据，并且使计算机化眼镜的显示界面基于内容数据来渲染一个或多个图形元素。

仍然在其他实施方式中，由一个或多个处理器实施的方法被陈述为包括操作：诸如由计算设备确定用户将输入提供给自动化助理，该自动化助理可经由计算设备访问，其中输入与自动化助理执行一个或多个操作的请求相对应。该方法可以进一步包括以下操作：由计算设备接收指示用户正在穿戴计算机化眼镜的场境数据，其中计算机化眼镜与计算设备分离。该方法可以进一步包括以下操作：基于场境数据，使计算设备的界面渲染输出，该输出可以在计算机化眼镜的另一个界面处被检测到。该方法可以进一步包括以下操作：确定计算机化眼镜是否检测到来自计算设备的输出。该方法可以进一步包括以下操作：当计算设备确定计算机化眼镜检测到输出时：使计算设备执行所述一个或多个操作，以促进履行请求。

在一些实施方式中，确定计算机化眼镜是否检测到来自计算设备的输出包括：处理指示计算机化眼镜的一个或多个相机是否检测到来自计算设备的输出的其他场境数据。在一些实施方式中，该方法可以进一步包括以下操作：当计算设备确定计算机化眼镜检测到输出时：使计算机化眼镜渲染一个或多个图形元素，所述一个或多个图形元素可以响应于来自用户的物理手势来被选择。

Claims

1.一种由一个或多个处理器实施的方法，所述方法包括：

确定用户已将助理输入引导到自动化助理，所述自动化助理可经由被连接至网络的多个计算设备中的任何一个计算设备访问，

其中，所述用户正在穿戴计算机化眼镜，所述计算机化眼镜是包括一个或多个相机的计算设备，以及

其中，所述用户被定位于包括所述多个计算设备的环境中；

基于来自所述用户的所述助理输入，标识所述多个计算设备中的检测到来自所述用户的所述助理输入的两个或更多个候选设备，

其中，所述两个或更多个候选设备与所述计算机化眼镜分离；

基于处理使用所述计算机化眼镜的所述一个或多个相机生成的图像数据，确定所述助理输入被引导到所述两个或更多个候选设备中的特定计算设备还是所述计算机化眼镜；

当所述助理输入被确定为被引导到所述两个或更多个候选设备中的所述特定计算设备时：

使所述特定计算设备执行与所述助理输入相对应的一个或多个操作。

2.根据权利要求1所述的方法，其中，确定所述助理输入被引导到所述两个或更多个候选设备中的所述特定计算设备还是所述计算机化眼镜包括：

基于所述图像数据，确定所述两个或更多个候选设备中的所述特定计算设备是否被定位于所述一个或多个相机的查看窗中。

3.根据权利要求1所述的方法，

其中，所述计算机化眼镜的所述一个或多个相机中的相机被引导向所述用户的眼睛，以及

其中，确定所述两个或更多个候选设备中的所述特定计算设备与所述用户的视觉视角相关联包括：

确定与被引导向所述两个或更多个候选设备中的任何其他设备相比，所述用户的注视被更多地引导向所述特定计算设备。

4.根据权利要求1所述的方法，其中，确定所述助理输入被引导到所述两个或更多个候选设备中的所述特定计算设备还是所述计算机化眼镜包括：

确定所述一个或多个相机的查看窗中的特定对象是否与所述两个或更多个候选设备中的所述特定计算设备的相对位置相关联。

5.根据权利要求4所述的方法，其中，所述特定计算设备未被定位于所述计算机化眼镜的所述一个或多个相机的所述查看窗中。

6.根据权利要求1所述的方法，其中，所述助理输入是由所述用户执行的物理手势，并且所述物理手势由所述计算机化眼镜检测。

7.根据权利要求6所述的方法，

其中，所述计算机化眼镜包括在所述用户提供所述助理输入时正在渲染内容的图形显示界面，以及

其中，所述方法进一步包括：

当所述助理输入被确定为被引导到所述计算机化眼镜时：

使在所述计算机化眼镜的所述图形显示界面处正在被渲染的所述内容根据所述物理手势来被修改。

8.根据权利要求1所述的方法，进一步包括：

当所述助理输入被确定为被引导到所述计算机化眼镜和所述特定计算设备时：

使内容的第一部分在所述特定计算设备处被渲染，以及

使内容的第二部分在所述计算机化眼镜的显示界面处被渲染。

9.根据权利要求1所述的方法，

其中，所述特定计算设备是被连接至显示设备的可拆卸附件设备，以及

其中，所述特定计算设备在所述计算机化眼镜的所述一个或多个相机的查看窗中不可见。

10.根据权利要求1所述的方法，

其中，所述计算机化眼镜包括在图形显示界面正在渲染内容时是至少部分地透明的所述图形显示界面，以及

其中，所述方法进一步包括：

使图形元素在所述图形显示界面中的与所述特定计算设备相对应的位置处被渲染。

11.根据权利要求10所述的方法，

其中，所述助理输入包括所述自动化助理初始化特定应用的请求，以及

其中，所述图形元素基于所述特定应用。

12.根据权利要求1所述的方法，其中，标识所述多个计算设备中的检测到来自所述用户的所述助理输入的所述两个或更多个候选设备包括：

确定所述特定计算设备正在渲染第一输出，并且所述多个计算设备中的另一个计算设备正在渲染第二输出，

其中，所述第一输出和所述第二输出由所述计算机化眼镜检测。

13.根据权利要求12所述的方法，

其中，所述特定计算设备包括图形显示界面，并且所述第一输出包括在所述图形显示界面处渲染的图形元素，以及其中，所述图形元素被体现在一个或多个图形内容帧中，所述一个或多个图形内容帧以大于或等于每秒60帧的频率来被渲染。

14.根据权利要求12所述的方法，

其中，所述第一输出与所述第二输出不同，以及

其中，确定所述助理输入被引导到所述两个或更多个候选设备中的所述特定计算设备还是所述计算机化眼镜包括：

确定所述第一输出在所述计算机化眼镜的查看窗内被检测到，并且所述第二输出在所述计算机化眼镜的所述查看窗内未被检测到。

15.一种由一个或多个处理器实施的方法，所述方法包括：

由计算设备确定用户已经向自动化助理提供输入，所述自动化助理可经由被定位于具有所述用户的环境中的一个或多个计算设备访问，

其中，所述输入与所述自动化助理为所述用户提供内容的请求相对应，以及

其中，所述一个或多个计算设备包括在所述用户提供所述输入时所述用户正在穿戴的计算机化眼镜；

基于来自所述用户的所述输入，标识为所述用户渲染所述内容的特定设备，

其中，所述特定设备与所述计算机化眼镜分离；

基于标识所述特定设备，使所述特定设备为所述用户渲染所述内容；

处理由所述一个或多个计算设备提供的场境数据，当所述用户提供所述输入时，所述一个或多个计算设备在所述用户的所述环境中；

基于所述场境数据，确定是否向所述用户提供与所述请求相关联的附加内容；

当所述自动化助理确定向所述用户提供所述附加内容时：

使所述计算机化眼镜执行一个或多个附加操作，以促进经由所述计算机化眼镜的一个或多个界面渲染所述附加内容。

16.根据权利要求15所述的方法，

其中，所述场境数据包括由所述计算机化眼镜的一个或多个相机提供的图像数据，以及

其中，确定是否向所述用户提供与所述请求相关联的所述附加内容包括：

当所述特定设备正在执行所述一个或多个操作时，确定所述用户是否正在观看所述特定设备。

17.根据权利要求15所述的方法，其中，使所述计算机化眼镜渲染所述附加内容包括：

使所述计算机化眼镜经由网络连接访问内容数据，以及

使所述计算机化眼镜的显示界面基于所述内容数据来渲染一个或多个图形元素。

18.一种由一个或多个处理器实施的方法，所述方法包括：

由计算设备确定用户向自动化助理提供输入，所述自动化助理可经由所述计算设备访问，

其中，所述输入与所述自动化助理执行一个或多个操作的请求相对应；

由所述计算设备接收指示所述用户正在穿戴计算机化眼镜的场境数据，

其中，所述计算机化眼镜与所述计算设备分离；

基于所述场境数据，使所述计算设备的界面渲染能够在所述计算机化眼镜的另一个界面处被检测到的输出；

确定所述计算机化眼镜是否检测到来自所述计算设备的所述输出；以及

当所述计算设备确定所述计算机化眼镜检测到所述输出时：

使所述计算设备执行所述一个或多个操作，以促进履行所述请求。

19.根据权利要求18所述的方法，其中，确定所述计算机化眼镜是否检测到来自所述计算设备的所述输出包括：

处理指示所述计算机化眼镜的一个或多个相机是否检测到来自所述计算设备的所述输出的其他场境数据。

20.根据权利要求18所述的方法，进一步包括：

当所述计算设备确定所述计算机化眼镜检测到所述输出时：

使所述计算机化眼镜渲染一个或多个图形元素，所述一个或多个图形元素能够响应于来自所述用户的物理手势来被选择。

21.一种包括指令的计算机程序，所述指令在由计算系统的一个或多个处理器执行时，使所述计算系统执行任何前述权利要求所述的方法。

22.一种计算系统，所述计算系统被配置为执行权利要求1至20中的任一项所述的方法。

23.根据权利要求22所述的计算系统，其中，所述计算系统包括计算机化眼镜。