CN115686333A

CN115686333A - 用于控制物联网设备的方法、系统和计算机可读介质

Info

Publication number: CN115686333A
Application number: CN202211276901.4A
Authority: CN
Inventors: 倪宇钊
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-09-24
Filing date: 2018-09-24
Publication date: 2023-02-03
Also published as: KR102460511B1; US20230273716A1; AU2022271496A1; JP7266619B2; AU2018443902A1; EP4145775A1; KR20210010522A; US11644964B2; AU2021205110A1; EP3656094A1; JP2021533439A; US11256405B2; EP3866402B1; AU2022271496B2; EP3866402A1; WO2020068040A1; US20220107725A1; CN112313907B; AU2018443902B2; AU2021205110B2

Abstract

本发明涉及用于控制物联网设备的方法、系统和计算机可读介质。可以响应于用户经由便携式电子设备访问相机应用并将便携式电子设备的相机对准IoT设备而将图形相机界面呈现在便携式电子设备处。可以处理从相机的输出生成的一个或多个图像，以识别用户正打算控制的IoT设备。可以使用与用户将其相机瞄准IoT设备的场境相关的信息来帮助缩窄从可能与用户和/或由相机捕获到的图像相关联的多个不同IoT设备中选择IoT设备。

Description

用于控制物联网设备的方法、系统和计算机可读介质

分案说明

本申请属于申请日为2018年9月24日的中国发明专利申请No.201880094614.7的分案申请。

背景技术

个人可以在其家中具有能够由各种应用控制的许多连接设备。这样的连接设备可以包括例如智能灯泡、智能插头、智能锁、智能恒温器、智能安全系统、智能家电等。在一些情况下，可以提供特定应用来控制特定连接设备。然而，必须在客户端设备处安装特定应用。此外，为了控制特定连接设备，用户必须从安装在客户端设备处的一系列应用当中识别出特定应用，选择要在客户端设备处执行的应用，然后在特定应用内浏览以识别并控制特定连接设备。除了需要相对大量的用户输入来控制特定连接设备之外，还可能通过用户识别特定应用、通过执行特定应用和/或通过随着用户在特定应用内浏览以识别并控制特定设备而渲染来自特定应用的内容而消耗了相当多的客户端设备资源(例如，处理器和/或电池)。附加地，这样的特定应用可能消耗客户端设备的存储器。在客户端设备具有有限的存储器资源的许多情形下和/或在客户端设备被用来控制各自具有用于控制相应的连接设备的相应的特定应用的许多根本不同的连接设备的情形下，这样的存储器消耗加剧。

发明内容

本公开总体上涉及用于经由便携式客户端设备的界面来控制一个或多个设备的方法、装置、计算机可执行指令、计算机可执行程序和计算机可读介质(暂时性和非暂时性)。具体地，用户可以激活图形相机界面并将便携式客户端设备的相机对准特定连接设备，以便初始化用于控制该特定连接设备的界面。至少部分地基于处理来自相机的图像数据以及确定图像数据捕获特定连接设备和/或该特定连接设备的安装环境，可以经由界面来控制特定连接设备。特定连接设备可以为例如智能灯泡、智能电视和/或其他智能设备，并且用户可以使用便携式客户端设备的相机和便携式客户端设备的一个或多个界面来控制和/或配置设备。以这种方式，用户不一定必须依靠各种单独的应用来控制其家中的各种设备，而是，可以采用其相机来向其便携式客户端设备指示他们希望控制特定可控设备。由于不一定必需需要用户安装、打开已经由各种可控设备的制造商所提供的每一个应用或者在其之间切换以便控制设备，这能够允许用户释放其便携式客户端设备处的空间和处理带宽。例如，在用户希望控制两个或更多个可控设备的场景中，用户不一定必需需要依靠安装在他/她的客户端设备处的两个或更多个单独的应用来控制可控设备。替代地，可以向用户提供经由客户端设备处的相机相关用户界面来控制两个或更多个可控设备的设施，从而避免客户端设备在与每一个可控设备相关联的不同的应用之间切换的任何需要。将认识到，这能够节省处理负担并减少客户端设备处的电力使用。此外，本文中所公开的各种实施方式减少了控制可控设备所需的用户输入的量。例如，那些实施方式中的一些实施方式使得用户能够在捕获可控设备和/或这些设备的安装环境的图形相机界面处或重叠在该图形相机界面上的图形元素处提供单个输入(例如，轻敲、长轻敲、轻敲并拖曳等)，并且使得能够响应于单个输入而控制可控设备。例如，用户可以将便携式客户端设备的相机对准要控制的目标设备，并且向便携式客户端设备的界面提供输入(例如，轻敲)以便控制目标设备。当控制目标设备时，对目标设备的这种流线化控制改进了用户与客户端设备之间的交互。

在一些实施方式中，用户可以从其便携式客户端设备访问自动助理和/或相机应用，并且将其便携式客户端设备的相机对准特定可控设备，以指示用户对控制该特定可控设备感兴趣。例如，可控设备可以为诸如烤箱的家电。可以将相机的输出转换成图像数据，以在便携式客户端设备和/或能够通过网络(例如，互联网)从便携式客户端设备访问的计算设备处进行处理。图像数据可以在便携式客户端设备和/或另一个计算设备处经历图像辨识处理，以识别可控设备是否被图形化表示在图像数据中(即，用户将其相机对准可控设备)。

在一些实施方式中，根据图像数据识别可控设备可以基于在用户与便携式客户端设备或其他计算设备之间的交互期间生成的数据。附加地或可替换地，根据图像数据识别可控设备可以基于由可控设备的制造商和/或相对于自动助理的提供商的另一个第三方所提供的数据。基于对图像数据的处理，可以将一个或多个候选设备识别为用户通过将他们的相机对准可控设备而将其已经作为目标的可控设备。可以为每一个候选设备指派度量，该度量表征候选设备是用户正打算作为目标的、由图像数据表示的和/或是位于用户的家内的特定可控设备的可控设备的概率和/或置信度。当为特定候选设备指派了指示候选设备是可控设备的较大概率或置信度的度量时，与其他候选设备相比，便携式客户端设备可以确定特定候选设备是可控设备。

附加地或可替换地，一种用于识别可控设备的过程可以包括提供用于可控设备的身份的识别符和/或表征可控设备的特征、可控设备的可调设定和/或可控设备的一种或多种操作状态的数据。当便携式客户端设备正在图形化表示可控设备时，便携式客户端设备可以将前述数据用于解释对便携式客户端设备的界面的输入。例如，可控设备可以具有可以为打开或关闭的可调设定，并且可控设备的当前操作状态或状况可以为“关闭”。当触摸屏显示器正在图形化表示可控设备时，便携式客户端设备可以使用此数据来处理在便携式客户端设备的触摸屏显示器处接收到的轻敲手势，并且使便携式设备具有“打开”状态。

在一些实施方式中，触摸屏显示器可以继续基于相机的输出来显示图像，从而图形化表示设置有可控设备的环境。然而，与显示那些图像同时地，便携式客户端设备可以使得触摸屏显示器能够接收一种或多种不同类型的触摸手势，诸如轻敲、扫掠、多指手势、基于用户的一个或多个肢体的移动的手势和/或能够在触摸屏显示器处接收到的任何其他手势。以这种方式，将不会有重叠的图形用户界面，而是，用户实际上能够在可控设备的图形表示上轻敲。在一些实施方式中，便携式客户端设备可以识别可控设备的图形表示在触摸屏显示器内的位置并且将用于控制可控设备的手势限制到触摸屏显示器的该部分。附加地或可替换地，便携式客户端设备可以识别设置在环境内的多个不同的可控设备，并且在触摸屏显示器处图形化描绘多个不同的可控设备。此外，便携式客户端设备可以使得触摸屏显示器能够接收在触摸屏显示器的描绘有每一个可控设备的每一个图形表示的各部分处的一种或多种不同类型的手势，并且能够经由在触摸屏显示器的相应部分处的一个或多个手势来控制每一个相应的可控设备。例如，当用户正在将其相机对准灯和电视并且在触摸屏显示器处同时显示灯和电视中的每一个时，用户可以在灯的图形表示上轻敲以关闭灯并在电视的图形表示上轻敲以打开电视。此外，触摸屏显示器的每一个部分可以接收一种或多种不同类型的手势，诸如用于打开电视的轻敲手势和用于降低灯的亮度的滑动手势。

在一些实施方式中，可以在触摸屏显示器处呈现可选元素以用于控制可控设备。可以基于已经被识别为与可控设备相对应的一种或多种可调设定来生成可选元素。例如，取决于要控制的灯的操作状态，可选元素可以包括文本“打开”或“关闭”，并且可以响应于用户轻敲可选元素而修改灯的操作状态。可选元素的坐标可以远离要控制的设备的图形表示，以便不干扰能够经由触摸屏显示器查看设备的用户。例如，如果灯的光被图形化表示在触摸屏显示器的顶部处，则可以在触摸屏显示器的底部处提供用于转换灯的操作状态的可选元素。附加地或可替换地，当也启用了用于经由触摸屏显示器控制可控设备的手势时，便携式客户端设备可以允许相机控件仍然可用。以这种方式，如果用户期望与拍摄图片同时地修改可控设备的操作状态，则用户可以例如在可控设备的图形表示上轻敲以控制可控设备，然后提供另一个输入来使相机捕获图像。

在一些实施方式中，当在触摸屏显示器处图形化表示可控设备的同时，用户可以向诸如麦克风的自动助理界面提供口头话语，以便修改可控设备的可调设定。这可以允许自动助理区分可能是要根据口头话语来控制的候选者的其他可控设备。例如，在科学实验室中工作的用户可以使多个灯能够由他/她用于提供实验室中的具体照明状态，例如提供特定波长的EM辐射来测试样品。诸如“Assistant,turn on the lamp(助理，打开灯)”的口头话语可能未提供用来帮助识别用户所指的灯的更多场境。然而，当用户正在将其便携式客户端设备的相机对准特定灯时，在说出“Assistant,turn on the lamp(助理，打开灯)”的同时，自动助理可以基于场境数据和口头话语来确定用户想要打开该特定灯。在另一个示例中，用户可以在其家中具有多个电视，因此诸如“Assistant,turn on the television(助理，打开电视)”的口头话语可能未提供用来帮助识别用户所指的电视的更多场境。然而，当用户正在将其便携式客户端设备的相机对准特定电视时，在说出“Assistant,turnon the television(助理，打开电视)”的同时，自动助理可以基于场境数据和口头话语来确定用户想要打开该特定电视。场境数据可以包括但不限于便携式客户端设备的位置、由便携式客户端设备的一个或多个传感器所指示的便携式客户端设备的方向、用户提供口头话语时的时间、与用户相关联的信息和/或能够表征用户提供命令的场境的任何其他信息。

在一些实施方式中，在当用户将其相机对准可控设备的同时确定用户正打算经由其触摸屏显示器来控制的可控设备时可以使用场境数据以及本文中所讨论的图像处理技术。这样的场境数据可以包括但不限于表征与用户相关联的位置(例如，家)内的房间的布局的房间邻接数据。当用户在其家(或其他位置)内进行活动、提供房间数据(例如，用于房间的标签，诸如“起居室”、“卧室”等或“实验室1”、“实验室2”等)和/或以其他方式行动以提供关于特定房间在其家(或其他位置)内的位置的推断时，可以随着时间的推移而生成房间邻接数据。在一些实施方式中，可以与房间邻接数据关联地存储网络路由器的位置，以便自动助理可以基于能够由特定设备使用的信号强度来确定特定设备在哪里。例如，与设备位于不同的楼层(例如，地下室楼层)上的情况相比，位于与网络路由器相同的楼层(例如，第一楼层)上的设备可以具有更多的网络连接。其他场境数据也可以用于确定用户正在将其相机对准的可控设备，诸如但不限于全球定位系统(GPS)数据、陀螺仪传感器数据、图像数据、温度数据(例如，用于将设备处的温度与一个或多个房间的已知温度进行比较)、轨迹数据和/或能够用于确定便携式客户端设备在特定房间内的位置的任何其他位置数据。在一些实施方式中，场境数据可以用于确定特定可控设备是多个候选设备中的目标设备，从而打破在计算度量时可能表现出的“平局”。例如，可以为两个或更多个候选设备指派相同的度量或均在公差内的度量。为了将候选设备进一步限于单个候选设备，可以使用场境数据来将候选设备的数目减少到单个候选设备。

在一些实施方式中，图像数据和场境数据可以用于从用户的家内的多个类似设备中识别出用户正打算将其作为目标的特定可控设备。例如，用户可能在其家的不同部分中具有两个相同类型的灯。诸如便携式客户端设备的网络连接和/或相机的方向的场境数据可以与图像数据相结合地使用，以确定用户正在将其相机对准的特定灯。例如，当用户正在将其相机对准两个灯中的第一灯时，包括相机的便携式客户端设备可以具有第一Wi-Fi网络强度，并且便携式客户端设备的方向传感器可以指示便携式计算机客户端设备正被指向第一方向。此外，当用户正在将其相机对准两个灯中的第二灯时，便携式客户端设备可以具有第二Wi-Fi网络强度并指向第二方向。被派有识别目标灯的任务的应用或设备可以使用此场境数据(例如，Wi-Fi信号强度和/或相机方向)以及这些灯中的一个灯的一个或多个图像来确定用户正打算控制两个灯中的一个灯。以这种方式，当用户向其便携式客户端设备提供输入手势时，当在便携式客户端设备的触摸屏显示器处提供这些灯中的一个灯的图形表示时，可以向已经根据图像数据和场境数据识别出的灯传送与输入手势相对应的命令。

以上描述作为本公开的一些实施方式的概述而提供。下文更详细地描述对那些实施方式和其他实施方式的进一步描述。

在一些实施方式中，一种由一个或多个处理器实现的方法被阐述为包括如下操作，诸如：通过便携式客户端设备，使图形相机界面被提供在便携式客户端设备的触摸屏显示器处，其中，图形相机界面提供便携式客户端设备的相机所对准的环境的图形表示。该方法可以进一步包括：基于由相机在该相机被对准环境时所提供的图像数据并基于对由相机提供的图像数据的处理，确定环境的图形表示刻画位于环境内的可控电子设备。

该方法可以进一步包括：响应于确定了环境的图形表示刻画可控电子设备，确定可控电子设备的可调设定，其中，可调设定在被修改时更改可控电子设备的至少一种状态。该方法可以进一步包括：在便携式客户端设备的触摸屏显示器处，接收在图形相机界面处的选择；以及响应于接收到图形相机界面处的选择，使可控电子设备的可调设定被修改。

在一些实施方式中，确定环境的图形表示刻画可控电子设备包括：使用训练后的机器学习模型来处理图像数据，以生成输出的一个或多个相应实例；以及确定输出的一个或多个相应实例最指示可控电子设备。在一些实施方式中，输出的一个或多个相应实例中的每一个相应实例是相应嵌入，并且其中，确定输出的一个或多个相应实例最指示可控电子设备包括：将相应嵌入中的一个或多个相应嵌入与多个候选嵌入进行比较，所述多个候选嵌入包括用于可控电子设备的给定嵌入以及用于一个或多个另外的可控电子设备的一个或多个另外的嵌入。在一些实施方式中，用于可控电子设备的给定嵌入专属于便携式客户端设备相关联的账户，并且其中，给定嵌入是基于由便携式客户端设备或与账户相关联的另一个便携式客户端先前捕获的多个在前图像而先前生成的，并且其中，基于使对在前图像的捕获与可控电子设备相关联的先前用户界面输入，给定嵌入先前与可控电子设备相关联。

在一些实施方式中，确定环境的图形表示刻画位于环境内的可控电子设备进一步基于来自便携式客户端设备的另外的传感器的传感器数据，所述另外的传感器是非视觉传感器。在一些实施方式中，该方法可以包括：基于便携式客户端设备的传感器的传感器输出，确定当相机被对准环境时便携式客户端设备的定向。在一些实施方式中，至少部分地基于便携式客户端设备的网络连接以及识别网络路由器相对于便携式客户端设备的具体位置的合并布局数据来确定定向。在一些实施方式中，该方法可以包括：将可调设定的控制指派给图形相机界面的正在刻画可控电子设备的部分的特定区域，其中，在被指派了可调设定的特定区域处接收在图形相机界面处的选择。

在一些实施方式中，该方法可以包括：基于确定了可控电子设备的可调设定，生成可选元素，该可选元素被配置成当图形相机界面正在刻画可控电子设备时由触摸显示面板呈现，其中，在可选元素处接收在图形相机界面处的选择。在一些实施方式中，该方法可以包括：响应于接收到在正在刻画可控电子设备的图形相机界面处的选择，确定当用户在图形相机界面的特定部分处提供选择时由用户执行的输入手势的类型。在一些实施方式中，确定可控电子设备的可调设定包括确定可控电子设备的多个不同的可调设定，并且确定输入手势的类型包括确定来自多种不同类型的输入手势的手势的类型，所述多种不同类型的输入手势中的每一个手势被指派给所述多个不同的可调设定中的特定可调设定。在一些实施方式中，使可调设定被修改包括从便携式客户端设备传送与所述选择相对应的至少一个命令。

在其他实施方式中，一种由一个或多个处理器实现的方法被阐述为包括如下操作，诸如：从便携式客户端设备接收表征环境内的可控电子设备的位置的图像数据，其中，所述图像数据是当用户正在将便携式客户端设备的相机对准环境时基于该相机的输出而生成的。该方法也可以包括：基于对从便携式客户端设备接收到的图像数据的处理，确定表征可控电子设备是目标可控电子设备的置信度的度量，其中，目标可控电子设备被预先配置成经由便携式客户端设备被远程地控制。该方法可以进一步包括，当所述度量指示可控电子设备排名优先于与能够经由便携式客户端设备被远程地控制的另一个可控设备相对应的另一个度量时：基于可控电子设备是目标可控电子设备的置信度分值，识别目标可控电子设备的可调设定；基于识别出可调设定，向便携式客户端设备提供控制数据，其中，所述控制数据表征目标可控电子设备的可调设定；以及使便携式客户端设备提供图形用户界面，该图形用户界面能够经由便携式客户端设备的触摸屏显示器来访问，并且被配置成与便携式客户端在图形相机界面处刻画环境同时地接收用户输入手势，用于修改所确定的可控电子设备的可调设定。

在一些实施方式中，该方法可以包括：从便携式客户端设备接收表征便携式客户端设备的操作特征的场境数据，其中，识别目标可控电子设备的可调设定进一步基于所述场境数据。在一些实施方式中，图像数据表征目标可控电子设备相对于另一个可控电子设备的布置，所述另一个可控电子设备位于环境内并且也被预先配置成经由便携式客户端设备被远程地控制。该方法可以进一步包括，当度量指示可控电子设备排名优先于其他度量分值时：接收用户输入数据，该用户输入数据表征由用户在触摸屏显示器的正在刻画可控电子设备的图形表示的部分处提供的特定用户输入手势。

在一些实施方式中，便携式客户端设备包括自动助理应用，该自动助理应用被配置成与便携式客户端设备提供能够经由触摸屏显示器访问的图形用户界面同时地实现相机对另一个输入手势的响应性。在一些实施方式中，确定度量包括根据基于训练数据的操作来处理图像数据，该训练数据与包括了可控电子设备的图形表示的至少一个先前接收到的图像相对应。

在又一些实施方式中，一种由一个或多个处理器实现的方法被阐述为包括如下操作，即包括：在相机提供输出时接收与所述相机的所述输出相对应的图像数据，该相机被集成到便携式客户端设备并且被对准环境，该环境包括多个可控电子设备，其中，便携式客户端设备包括自动助理界面，该自动助理界面被配置成在用户与自动助理之间提供界面。该方法可以进一步包括：确定在自动助理界面处接收到用户输入，其中，用户输入与用于修改多个可控电子设备中的目标可控电子设备的可调设定的动作相关联。该方法可以进一步包括：基于对图像数据的处理来确定多个度量，其中，所述多个度量中的每一个度量表征所述多个可控电子设备中的对应的可控电子设备是用户正打算经由自动助理界面控制的目标可控电子设备的概率。该方法可以进一步包括，当所述多个度量中的具体度量指示所述多个可控制电子设备中的特定可控制电子设备是目标可控制电子设备时：至少基于图像数据，确定特定可调电子设备的可调设定；以及依照在自动助理界面处接收到的用户输入，使特定可控电子设备的可调设定被修改。

在一些实施方式中，该方法可以进一步包括，当所述多个度量未指示至少一个可控电子设备是目标可控电子设备时：基于表征多个可控电子设备中的每一个可控电子设备的操作状态的场境数据来确定其他多个度量。在一些实施方式中，场境数据也表征所述多个可控电子设备中的每一个可控电子设备相对于环境的特定位置。在一些实施方式中，由场境数据表征的特定位置至少部分地基于在用户与所述多个可控电子设备中的至少一个可控电子设备之间的在前交互期间用户的位置，并且该方法进一步包括，当所述多个度量未指示至少一个可控电子设备是目标可控电子设备时：确定所述其他多个度量指示该特定可控电子设备是目标可控电子设备。

在一些实施方式中，用户输入是与在特定可控电子设备被图形化表示在便携式客户端设备的触摸屏显示器处的同时地提供的口头话语。在一些实施方式中，用户输入是与便携式客户端设备的触摸屏显示器图形化表示特定可控电子设备同时地在该触摸屏显示器处提供的手势。在一些实施方式中，手势是包括肢体在一个或多个维度上靠在触摸屏显示器的表面上滑动的滑动手势。

在又一些实施方式中，一种由一个或多个处理器实现的方法被阐述为包括如下操作，诸如：确定用户正在请求将设置在用户的环境内的可控设备配置成对输入手势做出响应，其中，输入手势是当在计算设备的触摸屏显示器处刻画可控设备的图形表示时提供给计算设备的触摸屏显示器的用户输入。该方法可以进一步包括：处理从计算设备接收到的图像数据，其中，图像数据基于当计算设备的相机被对准可控设备时该相机的输出。该方法可以进一步包括：基于处理图像数据，确定可控设备的可调设定，其中，可调设定在被修改时更改可控设备的至少一种状态。该方法可以进一步包括：基于确定可控设备的可调设定，使与用户相关联的数据表征输入手势与可控设备的可调设定之间的相关性，其中，计算设备被配置成接收触摸屏显示器处的输入手势并且使命令被提供给可控设备，以修改可控设备的至少一种状态。

在一些实施方式中，该方法可以进一步包括：响应于确定了用户正在请求将可控设备配置成对输入手势做出响应，使能够由计算设备访问的自动助理提供自然语言输出，该自然语言输出请求用户使用计算设备的相机来捕获可控设备的一个或多个图像。在一些实施方式中，处理从计算设备接收到的图像数据包括将图像数据应用于机器学习模型并且基于机器学习模型的输出来确定表征可控设备的设备类型，其中，确定可调设定进一步基于所述设备类型。在一些实施方式中，处理从计算设备接收到的图像数据进一步包括基于机器学习模型的输出而生成用于嵌入空间的嵌入。在一些实施方式中，基于被应用于机器学习模型的图像数据以及能够由计算设备访问的场境数据来生成嵌入。在一些实施方式中，嵌入空间包括与一个或多个其他可控设备相对应的一个或多个其他候选嵌入。

其他实施方式可以包括一种非暂时性计算机可读存储介质，该非暂时性计算机可读存储介质存储指令，这些指令能够由一个或多个处理器(例如，中央处理器(CPU)、图形处理单元(GPU)和/或张量处理单元(TPU))执行，以执行诸如上文描述的和/或在本文中别处描述的方法中的一种或多种的方法。又一些实施方式可以包括一个或多个计算机和/或一个或多个机器人的系统，其包括一个或多个处理器，所述一个或多个处理器能够操作以执行所存储的指令以执行诸如上文描述的和/或在本文中别处描述的方法中的一种或多种的方法。

应认识到，在本文中更详细地描述的前述构思和附加构思的所有组合均被认为是本文中所公开的主题的一部分。例如，在本公开结尾处出现的要求保护的主题的所有组合都被认为是本文中所公开的主题的一部分。

附图说明

图1示出了用户经由计算设备的触摸屏显示器来修改第一可控设备的可调设定的视图。

图2示出了计算设备与在计算设备的界面处呈现的一个或多个可控设备的图形表示同时地提供一个或多个可选元素的实施方式的视图。

图3示出了用于向客户端设备提供控制特定可控设备的能力的系统，该特定可控设备可以被图形化表示在客户端设备的显示面板上。

图4A和图4B分别示出了用户使用计算设备的相机来设定可控设备的透视图和透视图。

图5示出了用于当触摸屏显示器正在提供可控设备的实时图形表示时确定可控设备的可调设定的方法。

图6示出了用于当在触摸屏显示器处提供可控设备的图形表示时经由触摸屏显示器来修改可控设备的可调设定的方法。

图7是示例计算机系统的框图。

具体实施方式

图1示出了用户112经由计算设备110的触摸屏显示器118来修改第一可控设备106的可调设定的视图100。作为非限制性示例，用户112可能期望观看环境102中的电视108，然而，用户112的移动可能暂时受到诸如以下因素中的一个或多个因素的妨碍：发生在环境102内的紧急情况、用户112的健康相关状态、用户112当前忙于的另一个任务、环境102内的障碍物和/或可能妨碍移动的任何其他特征。由于对移动的这种限制，用户112可能无法在特定时间(例如在用户112正在观看电视108时)执行某些任务。当环境102内的另一个设备正在干扰用户112正在执行的任务时，这可能是成问题的。然而，本文中所讨论的实施方式涉及使用户112可以在用户112正在将计算设备的相机对准要控制的设备时通过向计算设备提供输入来控制某些设备。

在一些实施方式中，用户112可能正在观看电视108(或者以其他方式与第二可控设备接洽)并期望关闭灯，使得来自电视108的光将较少受到由灯(即，第一可控设备106)发出的光的干扰。为了控制灯的可调设定，根据本文中所讨论的实施方式，用户112可以将其计算设备110的相机对准在灯的方向上。可以将相机对准环境102的包括第一可控设备106和第二可控设备的部分104，以便使第一可控设备106和第二可控设备被图形化表示在计算设备110的触摸屏显示器118处。

计算设备110可以正在操作相机相关应用，诸如但不限于提供对相机的访问以便引导自动助理执行特定动作的助理应用。在一些实施方式中，计算设备110可以包括用于捕获图像的相机应用，并且计算设备110可以允许用户112当在计算设备110处打开相机应用的同时控制特定可控设备。当用户112已经将相机对准环境102的部分104并且在触摸屏显示器118处呈现至少第一可控设备106的图形表示116时，用户112可以用其手120提供手势122以便控制第一可控设备106。可以在触摸屏显示器118的正在显示第一可控设备106的图形表示116的部分处接收手势122，从而指示用户112正在将第一可控设备106作为目标以便调整第一可控设备106的设定。

响应于接收到手势122，计算设备110可以使命令被传送到第一可控设备106以便修改第一可控设备106的可调设定。可调设定可以为例如用于打开或关闭第一可控设备106的光的控制。因此，如果当用户112提供手势122时第一可控设备106的光是打开的，则计算设备110可以将“关闭”命令提供给第一可控设备106以便使光关闭。如触摸屏显示器118的第一界面124中所示，第一可控设备106可以处于“打开”状态，并且，响应于用户112在第一界面124处提供手势122，可以使第一可控设备106转变成“关闭”状态，如触摸屏显示器118的第二界面126中所示。在一些实施方式中，可以识别用于第一可控设备106和电视108中的每一个的可调设定，并且计算设备110可以被配置成允许用户112从相同的界面修改电视108和第一可控设备106的可调设定。例如，当触摸屏显示器正在提供电视108的图形表示114和第一可控设备106的图形表示116时，当用户112提供手势122来修改第一可控设备106的可调设定时，用户112此后可以提供另一个手势来修改电视108的可调设定(例如，音量、频道、亮度等)。

图2示出了计算设备110与在计算设备110的界面处呈现的一个或多个可控设备的图形表示同时地提供一个或多个可选元素的实施方式的视图200。具体地，在一些实施方式中，基于以来自计算设备110的相机的输出为基础的正在触摸屏显示器118处图形化表示的可控设备的类型和/或与在触摸屏显示器118处图形化表示的可控设备相关联的一个或多个可调设定，可以在触摸屏显示器118处提供可选元素。例如，当用户112正在将计算设备110的相机对准环境102的部分104时，可以在触摸屏显示器118处呈现图形表示114和图形表示116。图形表示114可以对应于由相机捕获的表征或以其他方式刻画电视108的至少一部分的一个或多个图像、图像数据和/或图像流。图形表示116可以对应于由相机捕获的表征或以其他方式刻画第一可控设备106的至少一部分的一个或多个图像、图像数据和/或图像流。

当用户112正在将计算设备110的相机对准环境102的部分104时，计算设备110可以处理相机的输出(例如，图像数据)，以便识别对象在环境102内和/或环境102的部分104的图形表示内所在的地方。附加地或可替换地，可以处理相机的输出，以便对在环境102和/或环境102的部分104的图形表示内识别出的对象进行分类。例如，可以将相机的输出和/或基于相机的输出的一个或多个图像作为输入应用于机器学习模型。机器学习模型可以生成能够被映射到嵌入空间的一个或多个值以作为输出。可以根据由相机捕获的一个或多个图像而先前生成嵌入空间，以便训练机器学习模型来对特定对象进行分类。当已经在嵌入空间中映射了一个或多个值(例如，矢量)时，可以测量一个或多个映射值与嵌入空间中的一个或多个位置之间的距离。嵌入空间内的每一个位置可以对应于针对特定对象的分类，因此，当值(例如，矢量)的映射较接近嵌入空间中的一个位置而不是任何其他位置时，可以将在图像内识别出的对象分类为与该最近位置相对应的对象。

在一些实施方式中，可以确定与从映射到与对象分类相对应的位置的两个或更多个距离之间的差相对应的度量并将其与其他度量进行比较，以便确定如何对图像内的特定对象进行分类。在一些实施方式中，当两个或更多个度量在彼此的阈值容限内时，可以使用场境数据来打破两个或更多个度量之间的“平局”并且最终根据特定对象分类来对图像中的对象进行分类。例如，场境数据可以包括当用户112正在将相机对准环境102的部分104时来自计算设备110的一个或多个传感器的数据。这样的数据可以表征信号强度、方向、倾斜度、亮度、仰角、温度、音频属性和/或可以与对象的场境相关联的任何其他属性。

当对象已经被分类时，然后可以基于对象的身份或分类来识别与对象相关联的可调设定。例如，灯可以与“打开/关闭”可调设定相关联，而电视108可以与“频道+/-”可调设定和“音量+/-”可调设定相关联。可以将用于每一个分类对象的可调设定指示给计算设备110，并且计算设备110可以基于每一个可调设定来生成供用户112选择的可选元素。例如，响应于确定了电视和灯由计算设备110的相机的输出来表征和/或图形化表示在触摸屏显示器118处，计算设备110可以在触摸屏显示器118处呈现第一可选元素210和第二可选元素206。用户112可以提供手势208来选择第一可选元素210的一部分，以便修改第一可控设备106的操作状态(例如，关闭灯)，如第一图形用户界面202中所提供的那样。同时，只要用户112正在将相机对准环境10的部分104并且用户尚未选择第一可选元素210，则第一可选元素210就可以保持在触摸屏显示器118处，如作为第二图形用户界面204所提供的那样。在一些实施方式中，可以在用户112提供手势208之后将第二可选元素206从触摸屏显示器118移除，或者只要用户112正在将相机对准环境102的部分104，则第二可选元素206就可以保留在触摸屏显示器118处。

图3示出了用于给客户端设备提供控制特定可控设备的能力的系统300，该特定可控设备可以被图形化表示在客户端设备的显示面板处。系统300可以包括与服务器计算设备326和/或可控设备336通信的客户端计算设备302。客户端计算设备302可以包括自动助理318，该自动助理318可以作为在一个或多个计算设备处提供的自动助理的一部分来操作，所述一个或多个计算设备诸如：第一客户端设备(例如，蜂窝电话)、第二客户端设备(例如，独立扬声器设备)和/或远程计算设备(诸如服务器计算设备326)。用户可以经由一个或多个助理界面306与自动助理318交互，所述一个或多个助理界面可以包括麦克风、相机、触摸屏显示器、用户界面和/或能够在用户与应用之间提供界面的任何其他设备。例如，用户可以通过向助理界面提供言语、文本和/或图形输入来初始化自动助理318，以使自动助理318执行功能(例如，提供数据、控制外围设备、访问代理商等)。提供了自动助理318的至少一部分的客户端计算设备302可以包括显示设备，该显示设备可以为显示面板，该显示面板包括用于接收触摸输入和/或手势的触摸界面，用于允许用户经由该触摸界面控制客户端计算设备302的应用。在一些实施方式中，客户端计算设备302可以缺少显示设备，从而提供可听用户界面输出，而不是提供图形用户界面输出。此外，客户端计算设备302可以提供用于接收来自用户的口头自然语言输入的用户界面，诸如麦克风。

客户端计算设备302可以通过诸如互联网的网络与服务器计算设备326通信。客户端计算设备302可以将诸如语音处理任务的计算任务卸载到服务器计算设备326，以便保持客户端计算设备302处的计算资源。例如，在一些实施方式中，服务器计算设备326可以托管自动助理318，并且客户端计算设备302可以将在一个或多个助理界面306处接收到的输入传送到服务器计算设备326。然而，在一些实施方式中，自动助理318可以被托管在客户端计算设备302处。在各种实施方式中，可以在客户端计算设备302上实现自动助理318的所有方面或少于所有方面。在那些实施方式中的一些实施方式中，自动助理318的各方面是经由客户端计算设备302的本地自动助理来实现的，并且与实现自动助理318的其他方面的服务器计算设备326对接。服务器计算设备326可以可任选地经由多个线程为多个用户及其关联的自动助理服务。在经由客户端计算设备302的本地自动助理来实现自动助理318的所有方面或少于所有方面的实施方式中，本地自动助理可以是与客户端计算设备302的操作系统分离(例如，安装“在”操作系统“之上”)的应用，或者可替换地，可以由客户端计算设备302的操作系统来直接实现(例如，被认为是操作系统的应用，但是与操作系统集成)。

在一些实施方式中，客户端计算设备302可以包括语音处理模块312，该语音处理模块312可以处理在助理界面306处接收到的音频数据，以识别该音频数据中体现的文本。用于将音频数据转换为文本的过程可以包括语音辨识算法，该语音辨识算法可以采用神经网络、word2vec算法和/或统计模型来识别与单词或短语相对应的音频数据组。从音频数据转换的文本可以由数据解析模块314解析并且能够作为文本数据由自动助理318使用，该文本数据可以用于生成和/或识别来自用户的命令短语。在一些实施方式中，可以将由数据解析模块提供的输出数据提供给参数引擎316，以确定用户是否已经提供了与能够由自动助理和/或能够由自动助理访问的应用或代理执行的特定动作相对应的输入。例如，助理数据322可以被存储在客户端计算设备302处，并且包括定义能够由自动助理318执行的一个或多个动作的数据以及执行这些动作所必需的参数。输入处理引擎310可以确定用户已经请求了执行特定动作，参数引擎316可以确定用于该特定动作的一个或多个参数，并且输出生成引擎320可以基于该特定动作和/或一个或多个参数向用户提供输出。例如，在一些实施方式中，响应于用户输入(诸如提供给客户端计算设备302的触摸屏显示器的手势)，自动助理318可以根据本文中所讨论的一些实施方式来向可控设备336传送命令。

在一些实施方式中，客户端计算设备302控制可控设备336的能力可以取决于训练机器学习模型，该机器学习模型可以根据图像数据324识别可控设备336和/或对可控设备336进行分类。可以使用由一个或多个相机先前捕获的图像和/或由一个或多个计算设备的一个或多个传感器提供的其他数据来训练机器学习模型。例如，当用户获取可控设备并试图配置该可控设备时，用户可以调用自动助理以得到帮助。用户可以向自动助理界面306提供口头话语，诸如“Assistant,help me configure my device(助理，帮助我配置我的设备)”。作为响应，自动助理318可以提供自然语言输出，诸如“Ok,please take a pictureof the device(好的，请拍摄设备的照片)”或“Ok,from a variety of perspectives,please direct your camera at the device(好的，请将你的相机从各个视角对准设备)”。此后，自动助理318可以根据用于指明对象在图像中所在的地方的对象检测过程来处理由用户例如经由用户的客户端设备的相机提供的任何图像。此后，可以根据对象分类过程来处理每一个图像。最初，对象分类过程可以基于由用户和/或设备的制造商显式地提供的设备数据。例如，当设备在配置之前从未连接到客户端计算设备302时，自动助理318可以请求用户使用其相机(例如客户端计算设备302的相机)来扫描UPC、条形码和/或位于设备或设备的包装上的其他识别标签。在使用来自扫描的所得图像的情况下，自动助理318可以执行查询，以识别设备的身份和/或与设备相对应的任何其他特征或操作数据。

当设备已经被识别时，可以生成和/或修改嵌入空间，以包括与设备的身份和/或设备的类别相对应的嵌入。此外，可以使用运用环境(如用户的家或用户的家中的房间)内的设备的其他图像所获得的信息来进一步定义嵌入空间内的嵌入。也可以使用当用户捕获图像时获得的其他信息来确定经由客户端计算设备的相机提供的图像是否包括特定设备。例如，诸如Wi-Fi信号强度、倾斜度、方向、温度、仰角、行进距离、来自其他另一个相机的视图、一天中的时间、位置和/或可以与设备相关联的任何其他数据的信息可以由场境数据来表征，该场境数据可以用于针对可控设备在嵌入空间内发展嵌入。

在一些实施方式中，能够从服务器计算设备326访问的对象检测引擎332和/或对象分类引擎334可以访问嵌入空间。对象检测引擎332和对象分类引擎334可以访问一个或多个嵌入空间，以便将来自机器学习模型的输出的实例与嵌入空间的候选嵌入进行比较。每一个候选嵌入可以与不同的可控设备相对应。

在一些实施方式中，对象分类引擎334可以将基于客户端计算设备302的相机的输出而生成的图像数据324作为输入应用于机器学习模型。可以将基于将图像应用于机器学习模型而生成的输出的实例映射到嵌入空间，以便确定输出的实例最接近的候选嵌入。在一些实施方式中，输出的实例可以为能够被映射到嵌入空间的矢量，并且该矢量与嵌入空间中的候选嵌入的距离可以指示图像数据324是否包括表征与候选嵌入相对应的可控设备的至少一部分的图像的数据。可以为每一个候选嵌入生成此距离(即，度量)，并且可以比较每一个距离，以识别与已经根据图像数据324映射的输出的实例具有最短距离的候选嵌入。

在一些实施方式中，服务器计算设备326可以存储和/或访问已经为与用户相对应的特定账户生成的嵌入空间和/或已经为与多个用户相对应的多个账户生成的嵌入空间。例如，可以基于由用户和/或与该用户的账户相关联的一个或多个设备所提供的图像和其他设备信息来生成嵌入空间。以这种方式，嵌入空间可以被适配于辨识被设置在该用户已经先前所位于的环境周围的特定设备。

当已经训练了机器学习模型并且已经生成了嵌入空间时，用户可以将一个或多个传感器308(例如，相机)对准特定可控设备336以便被提供有用于控制可控设备336的界面。诸如相机的传感器308可以提供输出，该输出可以作为传感器数据304被存储在客户端计算设备302处。可以使用客户端计算设备302的一个或多个处理器和存储器来将传感器数据304转换成图像数据324。然后可以通过诸如互联网的网络将图像数据324传递到服务器计算设备326，使得图像数据324由对象检测引擎332和对象分类引擎334处理。当可控设备336的图形表示已经位于图像数据324内并且可控设备336已经被分类和/或以其他方式识别时，服务器计算设备326可以识别与可控设备336相关联的操作数据330。例如，当可控设备336是灯时，与该灯相对应的设备操作数据330可以表征灯的不同模式(例如，打开、关闭、低亮度、高亮度等)和/或灯的操作状态(例如，当前打开)。

可以将与所识别的可控设备336相关联的这种操作数据330传送回到客户端计算设备302，并且客户端计算设备302可以生成至少部分地基于设备操作数据330的界面。例如，客户端计算设备302可以使触摸屏显示器118接受在正在提供可控设备336的图形表示的触摸屏显示器118的部分处的输入手势。可以在触摸屏显示器的所述部分处接收诸如轻敲的输入手势，以便使可控设备336的可调设定338被修改。可调设定338可以为例如可控设备336的“打开”设定，其可以响应于在触摸屏显示器处接收到的手势而被修改为“关闭”。在一些实施方式中，当在客户端计算设备302的触摸屏显示器处接收到手势时，虽然触摸屏显示器正在图形化表示可控设备336，但是可以向可控设备336和/或向服务器计算设备326直接传送命令。在手势使命令被直接发送到可控设备336的实施方式中，可控设备336的控制模块340可以接收该命令，并且使与该命令相对应的可调设定338被调整。可控设备336因此可以处理命令，以便确定如何调整可控设备336的操作状态以便履行命令。在手势使命令被提供给服务器计算设备326的实施方式中，服务器计算设备326可以接收该命令，并且访问设备命令库328以便确定用户正打算采用的命令。此后，服务器计算设备326可以向可控设备336提供命令，以便根据所确定的命令来修改可控设备336的可调设定。此外，可以更新由设备操作数据330表征的操作状态，以反映对可控设备336的可调设定338的修改。附加地或可替换地，可控设备336可以响应于可控设备336的可调设定被调整而与客户端计算设备302进行通信，以便向客户端计算设备302指示可控设备336的操作状态。

在一些实施方式中，可以在客户端计算设备302的触摸屏显示器处接收一种或多种不同类型的手势，以便修改可控设备336的可调设定338。例如，当可控设备336包括扬声器时，可调设定338可以是音量设定，并且能够用于控制音量的手势的类型可以为二维手势(例如，扫掠触摸屏显示器)或三维手势(例如，使两根手指在触摸屏显示器上旋转)。

图4A和图4B分别示出了用户406使用计算设备408的相机来设定可控设备404的立体图400和立体图402。通常，例如在用户的家内，用户必须直接与其设备交互，以便配置它们以进行操作。然而，根据本文中所讨论的一些实施方式，用户406可以使用其计算设备408的相机和可任选的自动助理来配置其设备。用户406可以最初通过提供诸如“Assistant,setup my new device(助理，设定我的新设备)”的口头话语410来向自动助理指示他们希望助理配置其可控设备404。可以在计算设备408的诸如麦克风的自动助理界面处接收口头话语410，并且作为响应，自动助理可以提供诸如“Ok,please direct the camera at thedevice(好的，请将相机对准设备)”的自然语言输出412。

如图4B中所示，用户406可以将计算设备408的相机对准可控设备404。具体地，用户406可以将相机对准其家内的环境414，并且环境414的部分416可以由基于相机的输出而生成的图像数据来表征。然后可以处理图像数据，以便识别是否由图像数据表征了一个或多个对象，如果是这样的话，则识别针对由图像数据所表征的每一个对象的分类。该分类可以指示可控设备的身份，从而允许确定与可控设备404相关联的操作数据。根据本文中所讨论的实施方式，自动助理然后可以使用操作数据来配置用户406的家内的可控设备404，使得用户406此后可以经由计算设备408的触摸屏显示器来控制可控设备404。

图5示出了用于当触摸屏显示器正在提供可控设备的实时图形表示时使用触摸屏显示器来修改可控设备的可调设定的方法500。方法500可以由一个或多个设备、应用和/或能够与电子设备交互的任何其他装置或模块来执行。方法500可以包括接收表征环境内的可控设备的位置的图像数据的操作502。图像数据可以由诸如蜂窝电话的便携式客户端设备传送，并且可以基于便携式客户端设备的相机的输出。诸如用户的家的环境可以包括多个相同和/或不同的可控设备。当用户正在试图控制其具有的多个这样的特定可控设备时可能出现问题。例如，用户可以具有多个相同的助理设备(例如，提供对自动助理设备的访问的计算设备)，因此，当在图像中捕获到特定助理设备时，在从其他助理设备中识别出该特定助理设备时可能有困难。

方法500可以进一步包括确定表征可控设备是目标可控设备的置信度的度量的操作504。具体地，可以基于根据对象检测过程和/或对象分类过程生成的输出来确定度量。可以为多个候选设备确定多个不同的度量，然而，可以将已经被指派了与指派给其他候选可控设备的其他度量区分开(例如，高于、低于或超出特定容限)的度量的候选可控设备识别为已经由用户作为目标的可控设备。例如，尽管接收到的图像数据可以用于识别用户在其整个房屋中散布有多个可控设备中的特定可控设备(例如，智能灯泡)，但是根据图像数据确定的其他场境数据和/或能够由便携式客户端设备访问的其他数据也可以用于识别在家内用户旨在控制的特定可控设备。

方法500也可以包括确定度量是否指示特定可控设备是目标可控设备的操作506。当度量未指示特定可控设备是目标可控设备时，方法500可以行进到操作508。方法500在操作508处可以包括确定与客户端计算设备相关联的场境数据。可以从提供了图像数据的客户端计算设备和/或能够与客户端计算设备一起连接到网络的任何其他设备提供场境数据。在一些实施方式中，场境数据可以包括基于客户端计算设备和/或任何其他设备的一个或多个传感器的输出的数据。传感器可以包括麦克风、相机、方位传感器、传送的GPS、蓝牙传送器、温度传送器、湿度传感器和/或能够连接到电子设备的任何其他传感器。

方法500可以进一步包括至少基于场境数据确定另一个度量的操作510。所述另一个度量可以基于图像数据和场境数据，并且可以为在操作504处确定的度量的修改或者为不是在操作504处确定的度量的修改的单独的度量。在一些实施方式中，可以为每一个候选可控设备确定度量，以便确定在图像数据中图形化表示的可控设备是否是用户正打算作为目标的特定可控设备。方法500可以返回到操作506以便做出此确定，或者访问其他场境数据以便打破候选可控设备之间的“平局”。

当在操作506处度量或其他度量指示可控设备是目标可控设备时，方法500可以行进到操作512。方法500在操作512处可以包括识别目标可控设备的可调设定。具体地，当已经识别了目标可控设备时，可以确定目标可控设备的操作特性。例如，可以根据能够由自动助理访问的和/或由用户和/或目标可控设备的制造商提供的数据来确定目标可控设备的功能。这些功能可以用于修改目标可控设备的特定可调设定。例如，功能可以包括打开或关闭目标可控设备，因此目标可控设备的可调设定可以为“打开/关闭”电源设定。附加地或可替换地，功能可以包括修改目标可控设备的输出，因此目标可控设备的可调设定可以为音量设定、亮度设定、警报设定、锁定设定、计费设定、位置设定、账户设定和/或能够与电子设备相关联的任何其他设定。

方法500也可以包括提供表征目标可控设备的可调设定的控制数据的操作514。控制数据可以由服务器计算设备提供给客户端计算设备。然而，在一些实施方式中，客户端计算设备可以确定用于修改可控设备的可调设定的控制数据。控制数据然后可以由客户端计算设备使用来解释来自用户的用于控制目标可控设备和/或修改目标可控设备的一个或多个可调设定的一个或多个输入。可任选地，在一些实施方式中，方法500可以包括提供图形用户界面以用于修改可控设备的可调设定的操作516。图形用户界面可以包括随着用户正在将客户端计算设备的相机对准目标可控设备而流式传输目标可控设备的图像。图形用户界面可以被配置成接收一个或多个不同的输入手势，其可以由客户端计算设备处理、基于命令数据被转换成命令并且被传送到目标可控设备以用于修改可控设备的一个或多个可调设定。以这种方式，即使设备的图形表示是大致类似的，客户端计算设备也具有区分家内的多个相同设备的能力。

图6示出了用于当在触摸屏显示器处提供可控设备的图形表示时经由触摸屏显示器修改可控设备的可调设定的方法600。方法600可以由一个或多个计算设备、应用和/或能够与电子设备交互的任何其他设备或模块执行。方法600可以包括使图形相机界面提供便携式客户端设备的相机所对准的环境的图形表示的操作602。图形表示可以为环境的数字表示，并且可以使用由便携式客户端设备的相机所输出的图像相关数据来生成数字表示。

方法600可以进一步包括基于当相机被对准环境时相机的输出来确定环境的图形表示刻画设置在环境内的可控电子设备的操作604。便携式客户端设备可以通过使对象辨识过程和/或对象分类过程被应用于与图形表示相对应的图像数据来确定环境的图形表示刻画可控设备。在一些实施方式中，可以将图像数据应用于训练后的机器学习模型，并且可以将机器学习模型的输出的实例映射到嵌入空间，以确定与图像数据最紧密相关或对应的候选嵌入。当识别出最相关的候选嵌入时，可以将与该候选嵌入相对应的可控设备指明为用户正打算用他们的便携式客户端设备的相机将其作为目标的可控设备。

方法600可以进一步包括响应于确定了环境的图形表示刻画可控电子设备而确定可控设备的可调设定的操作606。当可控设备已经被识别时，关于该特定可控设备的信息可以由便携式客户端设备访问，并且可以根据该信息来确定可控设备的各种操作特性。这样的操作特性可以包括可以由与可控设备分离的设备修改的一个或多个可调设定。在一些实施方式中，可调设定可以是与可控设备的当前操作直接有关的设定和/或与可控设备的操作间接有关的设定。这样的与可控设备的操作间接有关的设定可以是与和该可控设备相关联的账户相对应的用户权限、与该可控设备相关联的安全参数和/或能够与设备相关联的任何其他设定。

方法600也可以包括在便携式客户端设备的触摸屏显示器处接收在正在刻画可控设备的图形相机界面的特定部分处的选择的操作608。图形相机界面的特定部分可以描绘基于当相机被对准可控设备时相机的输出的图像流。当便携式客户端设备确定可控设备的身份时，便携式客户端设备可以实时地指派图形相机界面的一部分用于接收来自用户的用于控制可控设备的输入手势。在可控设备包括多个部分、按钮、装置和/或能够被单独地修改或控制的任何其他部分的一些实施方式中，便携式客户端设备可以将图形相机界面的多个不同部分中的每一个部分指派给可控设备的每一个相应的可控部分。以这种方式，用户可以向可控设备的图形表示的特定部分提供单独的手势，以便修改与可控设备的特定部分相对应的可调设定。

方法600可以进一步包括响应于接收到对图形相机界面的特定部分的选择而使可控设备的可调设定被修改的操作610。例如，便携式客户端设备和可控设备可以经由诸如两个或更多个设备之间的蓝牙、LTE、Zigbee、Wi-Fi、有线和/或任何其他通信模式的通信协议来连接。响应于接收到对图形相机界面的特定部分的选择，便携式客户端设备可以向可控设备发送信号和/或命令以用于修改可调设定。例如，当可控设备是电视并且便携式客户端设备是蜂窝电话时，可以在便携式客户端设备处生成命令并通过能够由该电视和便携式客户端设备访问的Wi-Fi网络将其传送到电视。

图7是示例计算机系统710的框图。计算机系统710通常包括经由总线子系统712与许多外围设备进行通信的至少一个处理器714。这些外围设备可以包括存储子系统724(该存储子系统724包括例如存储器725和文件存储子系统726)、用户界面输出设备720、用户界面输入设备722和网络接口子系统716。输入和输出设备允许用户与计算机系统710交互。网络接口子系统616提供到外部网络的接口并且被联接到其他计算机系统中的对应接口设备。

用户界面输入设备722可以包括键盘、指点设备(诸如鼠标、轨迹球、触摸板或图形输入板)、扫描仪、并入到显示器中的触摸屏、音频输入设备(诸如话语辨识系统、麦克风)和/或其他类型的输入设备。通常，术语“输入设备”的使用旨在包括用于将信息输入到计算机系统710或输入到通信网络上的所有可能类型的设备和方式。

用户界面输出设备720可以包括显示子系统、打印机、传真机或诸如音频输出设备的非视觉显示器。显示子系统可以包括阴极射线管(CRT)、平板设备(诸如液晶显示器(LCD))、投影设备或用于创建可见图像的某种其他机制。显示子系统也可以例如经由音频输出设备提供非视觉显示。通常，术语“输出设备”的使用旨在包括用于从计算机系统710向用户或另一个机器或计算机系统输出信息的所有可能类型的设备和方式。

存储子系统724存储提供本文中所描述的模块中的一些或全部的功能的程序和数据构造。例如，存储子系统724可以包括用于执行方法500、方法600的所选方面并且/或者实现以下各项中的一个或多个的逻辑：计算设备110、客户端计算设备302、服务器计算设备326、可控设备336、计算设备408、可控设备404和/或本文中所讨论的任何其他应用或装置。

这些软件模块通常由处理器714单独执行或与其他处理器相结合地执行。存储子系统724中所使用的存储器725可以包括许多存储器，包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)730)以及存储有固定指令的只读存储器(ROM)732。文件存储子系统726可以为程序和数据文件提供持久存储，并且可以包括硬盘驱动器、软盘驱动器以及关联的可移动介质、CD-ROM驱动器、光驱或可移动介质盒。实现某些实施方式的功能的模块可以由文件存储子系统726存储在存储子系统724中，或者存储在能够由处理器714访问的其他机器中。

总线子系统712提供了用于让计算机系统710的各种组件和子系统按预期彼此通信的机制。尽管总线子系统712被示意性地示出为单条总线，但是总线子系统的替代实施方式可以使用多条总线。

计算机系统710可以是各种类型，包括工作站、服务器、计算集群、刀片式服务器、服务器机群或任何其他数据处理系统或计算设备。由于计算机和网络的不断变化的性质，对图7中所描绘的计算机系统710的描述仅旨在作为用于示出一些实施方式的目的的具体示例。计算机系统710的许多其他配置可以具有比图7中所描绘的计算机系统更多或更少的组件。

在本文中所描述的系统收集关于用户的个人信息(或在本文中常常被称为“参与者”)或者可以利用个人信息的情形下，可以给用户提供控制程序或特征是否收集用户信息(例如，关于用户的社交网络、社交动作或活动、职业、用户的偏好或用户的当前地理位置的信息)或者控制是否和/或如何从内容服务器接收可能与用户更相关的内容的机会。另外，某些数据可以在其被存储或使用之前被以一种或多种方式处理，使得个人可识别信息被去除。例如，可以处理用户的身份，使得不能确定针对该用户的个人可识别信息，或者可以在获得地理位置信息的情况下使用户的地理位置一般化(诸如到城市、邮政编码或州级别)，使得不能确定用户的特定地理位置。因此，用户可以控制如何关于用户而收集和/或使用信息。

虽然本文中已经描述并示出了若干实施方式，但是可以利用用于执行功能和/或获得结果和/或本文中所描述的优点中的一个或多个的各种其他手段和/或结构，并且每一个这样的变化和/或修改均被视为在本文中所描述的实施方式的范围内。更一般地，本文中所描述的所有参数、尺寸、材料和配置都意在为示例性的，并且实际的参数、尺寸、材料和/或配置将取决于使用这些教导的一个或多个具体应用。本领域的技术人员将认识到或可以使用不止例行试验来探知本文中所描述的具体实施方式的许多等同物。因此，应当理解，上述实施方式仅作为示例被给出，并且在所附权利要求及其等同物的范围内，可以以除所具体描述和要求保护的方式之外的其他方式来实践实施方式。本公开的实施方式针对本文中所描述的每一个单独的特征、系统、物品、材料、套件和/或方法。另外，如果这样的特征、系统、物品、材料、套件和/或方法不是相互矛盾的，则两个或更多个这样的特征、系统、物品、材料、套件和/或方法的任何组合均被包括在本公开的范围内。

Claims

1.一种由一个或多个处理器实现的方法，所述方法包括：

确定用户正在请求将设置在所述用户的环境内的可控设备配置成对输入手势做出响应，其中所述输入手势是当在计算设备的触摸屏显示器处刻画所述可控设备的图形表示时提供给所述计算设备的所述触摸屏显示器的用户输入；

处理从所述计算设备接收的图像数据，其中所述图像数据基于当所述计算设备的相机被对准所述可控设备时所述相机的输出；

基于处理所述图像数据，确定所述可控设备的可调设定，其中所述可调设定在被修改时更改所述可控设备的至少一个状态；以及

基于确定所述可控设备的所述可调设定，使与所述用户相关联的数据表征所述输入手势与所述可控设备的所述可调设定之间的相关性，

其中所述计算设备被配置成接收在所述触摸屏显示器处的所述输入手势并且使命令被提供给所述可控设备，以修改所述可控设备的至少一个状态。

2.根据权利要求1所述的方法，进一步包括：

响应于确定所述用户正在请求将所述可控设备配置成对所述输入手势做出响应：

使能够由所述计算设备访问的自动助理提供自然语言输出，所述自然语言输出请求所述用户使用所述计算设备的所述相机来捕获所述可控设备的一个或多个图像。

3.根据权利要求2所述的方法，其中，处理从所述计算设备接收的所述图像数据包括：

将所述图像数据应用于机器学习模型；以及

基于所述机器学习模型的输出来确定表征所述可控设备的设备类型；

其中，确定所述可调设定进一步基于所述设备类型。

4.根据权利要求3所述的方法，其中，处理从所述计算设备接收的所述图像数据进一步包括基于所述机器学习模型的所述输出来生成用于嵌入空间的嵌入。

5.根据权利要求4所述的方法，其中，基于被应用于所述机器学习模型的所述图像数据以及能够由所述计算设备访问的场境数据来生成所述嵌入。

6.根据权利要求5所述的方法，其中，所述嵌入空间包括与一个或多个其他可控设备相对应的一个或多个其他候选嵌入。

7.根据权利要求1所述的方法，其中，处理从所述计算设备接收的所述图像数据包括：

将所述图像数据应用于机器学习模型；以及

其中，确定所述可调设定进一步基于所述设备类型。

8.根据权利要求7所述的方法，其中，处理从所述计算设备接收的所述图像数据进一步包括基于所述机器学习模型的所述输出来生成用于嵌入空间的嵌入。

9.根据权利要求8所述的方法，其中，基于被应用于所述机器学习模型的所述图像数据以及能够由所述计算设备访问的场境数据来生成所述嵌入。

10.根据权利要求8所述的方法，其中，所述嵌入空间包括与一个或多个其他可控设备相对应的一个或多个其他候选嵌入。

11.一种系统，包括：

触摸屏显示器；

相机；

存储指令的存储器；

一个或多个处理器，所述一个或多个处理器执行所述指令以使所述至少一个处理器：

确定用户正在请求将设置在所述用户的环境内的可控设备配置成对输入手势做出响应，其中所述输入手势是当在计算设备的触摸屏显示器处刻画所述可控设备的图形表示时提供给所述触摸屏显示器的用户输入；

处理图像数据，所述图像数据基于当所述相机被对准所述可控设备时所述相机的输出；

其中，表征所述相关性的所述数据使得响应于随后在所述触摸屏显示器处检测到所述输入手势而将命令提供给所述可控设备，以修改所述可控设备的至少一个状态。

12.根据权利要求11所述的系统，所述处理器中的一个或多个在执行所述指令时进一步用于：

使自动助理提供自然语言输出，所述自然语言输出请求所述用户使用所述相机来捕获所述可控设备的一个或多个图像。

13.根据权利要求12所述的系统，其中，处理从所述计算设备接收的所述图像数据，所述处理器中的一个或多个用于：

将所述图像数据应用于机器学习模型；以及

其中，在确定所述可调设定中，所述处理器中的一个或多个用于进一步基于所述设备类型来确定所述可调设定。

14.根据权利要求13所述的系统，其中，在处理所述图像数据中，所述处理器中的一个或多个进一步用于基于所述机器学习模型的所述输出来生成用于嵌入空间的嵌入。

15.根据权利要求14所述的系统，其中，基于被应用于所述机器学习模型的所述图像数据以及能够由所述系统访问的场境数据来生成所述嵌入。

16.根据权利要求15所述的系统，其中，所述嵌入空间包括与一个或多个其他可控设备相对应的一个或多个其他候选嵌入。

17.根据权利要求11所述的系统，其中，在处理所述图像数据中，所述处理器中的一个或多个用于：

将所述图像数据应用于机器学习模型；以及

其中，在确定所述可调设定中，所述处理器中的一个或多个进一步用于基于所述设备类型来确定所述可调设定。

18.根据权利要求17所述的系统，其中，在处理所述图像数据中，所述处理器中的一个或多个进一步用于基于所述机器学习模型的所述输出来生成用于嵌入空间的嵌入。

19.根据权利要求18所述的系统，其中，基于被应用于所述机器学习模型的所述图像数据以及能够由所述系统访问的场境数据来生成所述嵌入。

20.根据权利要求18所述的系统，其中，所述嵌入空间包括与一个或多个其他可控设备相对应的一个或多个其他候选嵌入。