CN111052043B

CN111052043B - 使用现实界面控制外部设备

Info

Publication number: CN111052043B
Application number: CN201880052303.4A
Authority: CN
Inventors: J·D·斯托伊雷斯; M·库恩
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2017-09-29
Filing date: 2018-09-28
Publication date: 2022-04-12
Anticipated expiration: 2038-09-28
Also published as: US20200225746A1; CN111052046B; EP4325278A2; EP4325278A3; US20210365228A1; CN114924651A; US20220083303A1; US20230376261A1; JP2021193585A; US20230393796A1; US11762620B2; KR102417968B1; US11132162B2; US20220012002A1; EP4235263A3; US11137967B2; JP2020532796A; US20230325140A1; EP4235263A2; US11762619B2

Abstract

在使用计算机生成现实界面来控制外部设备的一些示例性过程中，从外部设备接收指定外部设备的功能的信息。利用一个或多个图像传感器来获得包括外部设备的物理环境的第一图像数据。在显示器上显示根据第一图像数据的物理环境的表示。在显示物理环境的表示的同时，利用一个或多个图像传感器来获得第二图像数据，所述第二图像数据识别显示器与物理环境中的外部设备之间发生的手势。进行确定以确定所识别的手势是否满足与功能相关联的一个或多个预定标准。根据确定所识别的手势满足与功能相关联的一个或多个预定标准，使外部设备执行所述功能。

Description

使用现实界面控制外部设备

相关申请的交叉引用

本专利申请要求以下美国专利申请的优先权：于2017年9月29日提交的专利申请序列号为62/566,080，名称为“使用现实界面控制外部设备”的美国专利申请；于2017年9月29日提交的专利申请序列号为62/566,073，名称为“利用现实界面访问外部设备的功能”的美国专利申请；于2017年9月29日提交的专利申请序列号为62/566,206，名称为“基于视线的用户交互”的美国专利申请；以及于2018年9月21日提交的专利申请序列号为62/734,678，名称为“基于视线的用户交互”的美国专利申请；这些专利申请各自出于所有目的而通过引用整体并入本文。

技术领域

本公开整体涉及现实界面，且更具体地，涉及使用现实界面来控制外部设备的技术。

发明内容

期望的是用于在使用计算机生成的诸如虚拟现实或混合现实系统的现实系统的同时与外部设备进行交互的技术。本公开描述了使用计算机生成现实界面(在本文中也被称为现实界面)来控制外部设备的技术。在使用现实界面来控制外部设备的一些示例性过程中，从外部设备接收用于指定外部设备的功能的信息。利用一个或多个图像传感器来获得包括外部设备的物理环境的第一图像数据。在显示器上显示根据该第一图像数据的物理环境的表示。在显示物理环境的表示的同时，利用一个或多个图像传感器来获得第二图像数据，该第二图像数据识别显示器与物理环境中的外部设备之间发生的手势。该过程确定所识别的手势是否满足与功能相关联的一个或多个预定标准。根据确定所识别的手势满足与功能相关联的一个或多个预定标准，使外部设备执行该功能。

附图说明

图1A至图1B示出了包括虚拟现实和混合现实的各种计算机生成现实技术中使用的示例性系统。

图1C至图1E示出了移动设备形式的系统的示例。

图1F至图1H示出了头戴式显示器设备形式的系统的示例。

图1I示出了平视显示器设备形式的系统的示例。

图2示出了实现使用现实界面来控制外部设备的各种技术的示例性系统。

图3A示出了包括外部设备的物理环境。

图3B示出了显示具有物理环境的表示的现实界面的用户设备。

图3C示出了在现实界面中同时显示物理环境的表示和与该物理环境中的外部设备的功能相对应的示能表示的用户设备。

图3D示出了用户通过提供手势来与用户设备的现实界面进行交互。

图4A和图4B示出了使用现实界面来控制外部设备的示例性过程的流程图。

具体实施方式

本发明描述了与各种计算机生成现实技术有关的使用此类系统的电子系统和技术的各种实施方案，包括虚拟现实和混合现实(其结合了来自物理环境的感官输入)。

计算机生成现实环境(例如，虚拟现实或混合现实环境)可具有不同程度的虚拟内容和/或物理内容。在一些实施方案中，现实环境为用户提供与他/她的物理环境进行交互的直观界面。例如，使用显示用户物理环境的表示的现实界面，用户可控制物理环境中的一个或多个外部设备。具体地，使用现实界面，用户能够获得关于一个或多个外部设备的信息(例如，操作状态)或控制一个或多个外部设备的功能。在一些实施方案中，用户可提供手势以与现实界面进行交互，并且使一个或多个外部设备中的外部设备执行功能。根据本文所述的一些实施方案，从外部设备接收用于指定外部设备的功能的信息。利用一个或多个图像传感器来获得包括外部设备的物理环境的第一图像数据。在显示器上显示根据该第一图像数据的物理环境的表示。在显示物理环境的表示的同时，利用一个或多个图像传感器来获得第二图像数据，该第二图像数据识别显示器与物理环境中的外部设备之间发生的手势。进行确定以确定所识别的手势是否满足与功能相关联的一个或多个预定标准。根据确定所识别的手势满足与功能相关联的一个或多个预定标准，使外部设备执行该功能。

物理环境(或真实环境)是指人们在没有电子系统帮助的情况下能够感测和/或交互的物理世界。物理环境诸如物理公园包括物理物品(或物理对象或真实对象)，诸如物理树木、物理建筑物和物理人。人们能够诸如通过视觉、触觉、听觉、味觉和嗅觉来直接感测物理环境和/或与物理环境交互。

相反，计算机生成现实(CGR)环境是指人们经由电子系统感知和/或交互的完全或部分模拟的环境。在CGR中，跟踪人的物理运动的一个子集或其表示，并且作为响应，以符合至少一个物理定律的方式调节在CGR环境中模拟的一个或多个虚拟对象的一个或多个特征。例如，CGR系统可以检测人的头部转动，并且作为响应，以与此类视图和声音在物理环境中变化的方式类似的方式调节呈现给人的图形内容和声场。在一些情况下(例如，出于可达性原因)，对CGR环境中虚拟对象的特征的调节可以响应于物理运动的表示(例如，声音命令)来进行。

人可以利用其感官中的任一者来感测CGR对象和/或与CGR对象交互，包括视觉、听觉、触觉、味觉和嗅觉。例如，人可以感测音频对象和/或与音频对象交互，音频对象创建3D或空间音频环境，3D或空间音频环境提供3D空间中点音频源的感知。又如，音频对象可以使能音频透明度，该音频透明度在有或者没有计算机生成的音频的情况下选择性地引入来自物理环境的环境声音。在某些CGR环境中，人可以感测和/或只与音频对象交互。

CGR的示例包括虚拟现实和混合现实。

虚拟现实(VR)环境(虚拟环境)是指被设计成对于一个或多个感官完全基于计算机生成的感官输入的模拟环境。VR环境包括人可以感测和/或交互的多个虚拟对象。例如，树木、建筑物和代表人的化身的计算机生成的图像是虚拟对象的示例。人可以通过在计算机生成的环境内人的存在的模拟、和/或通过在计算机生成的环境内人的物理运动的一个子组的模拟来感测和/或与VR环境中的虚拟对象交互。

与被设计成完全基于计算机生成的感官输入的VR环境相比，混合现实(MR)环境是指被设计成除了包括计算机生成的感官输入(例如，虚拟对象)之外还引入来自物理环境的感官输入或其表示的模拟环境。在虚拟连续体上，混合现实环境是完全物理环境作为一端和虚拟现实环境作为另一端之间的任何状况，但不包括这两端。

在一些MR环境中，计算机生成的感官输入可以对来自物理环境的感官输入的变化进行响应。另外，用于呈现MR环境的一些电子系统可以跟踪相对于物理环境的位置和/或取向，以使虚拟对象能够与真实对象(即，来自物理环境的物理物品或其表示)交互。例如，系统可以导致运动使得虚拟树木相对于物理地面看起来是静止的。

混合现实的示例包括增强现实和增强虚拟。

增强现实(AR)环境是指其中一个或多个虚拟对象叠加在物理环境或其表示之上的模拟环境。例如，用于呈现AR环境的电子系统可具有透明或半透明显示器，人可以透过该显示器直接查看物理环境。该系统可以被配置成在透明或半透明显示器上呈现虚拟对象，使得人利用该系统感知叠加在物理环境之上的虚拟对象。另选地，系统可以具有不透明显示器和一个或多个成像传感器，成像传感器捕获物理环境的图像或视频，这些图像或视频是物理环境的表示。系统将图像或视频与虚拟对象组合，并在不透明显示器上呈现组合物。人利用系统经由物理环境的图像或视频而间接地查看物理环境，并且感知叠加在物理环境之上的虚拟对象。如本文所用，在不透明显示器上显示的物理环境的视频被称为“透传视频”，意味着系统使用一个或多个图像传感器捕获物理环境的图像，并且在不透明显示器上呈现AR环境时使用那些图像。进一步另选地，系统可以具有投影系统，该投影系统将虚拟对象投射到物理环境中，例如作为全息图或者在物理表面上，使得人利用该系统感知叠加在物理环境之上的虚拟对象。

增强现实环境也是指其中物理环境的表示被计算机生成的感官信息进行转换的模拟环境。例如，在提供透传视频中，系统可以对一个或多个传感器图像进行转换以施加与成像传感器所捕获的视角不同的选择视角(例如，视点)。又如，物理环境的表示可以通过图形地修改(例如，放大)其部分而进行转换，使得经修改部分可以是原始捕获图像的代表性的但不是真实的版本。再如，物理环境的表示可以通过以图形方式消除其部分或将其部分进行模糊处理而进行转换。

增强虚拟(AV)环境是指其中虚拟或计算机生成的环境结合来自物理环境的一个或多个感官输入的模拟环境。感官输入可以是物理环境的一个或多个特征的表示。例如，AV公园可以具有虚拟树木和虚拟建筑物，但人的脸部是从对物理人拍摄的图像逼真再现的。又如，虚拟对象可以采用一个或多个成像传感器所成像的物理物品的形状或颜色。再如，虚拟对象可以采用符合太阳在物理环境中的位置的阴影。

有许多不同类型的电子系统使人能够感测和/或与各种CGR环境交互。示例包括头戴式系统、基于投影的系统、平视显示器(HUD)、集成有显示能力的车辆挡风玻璃、集成有显示能力的窗户、被形成为被设计用于放置在人眼睛上的透镜的显示器(例如，类似于隐形眼镜)、耳机/听筒、扬声器阵列、输入系统(例如，具有或没有触觉反馈的可穿戴或手持控制器)、智能电话、平板电脑、和台式/膝上型计算机。头戴式系统可以具有一个或多个扬声器和集成的不透明显示器。另选地，头戴式系统可以被配置成接受外部不透明显示器(例如，智能电话)。头戴式系统可以结合用于捕获物理环境的图像或视频的一个或多个成像传感器、和/或用于捕获物理环境的音频的一个或多个麦克风。头戴式系统可以具有透明或半透明显示器，而不是不透明显示器。透明或半透明显示器可以具有媒介，代表图像的光通过该媒介被引导到人的眼睛。显示器可以利用数字光投影、OLED、LED、uLED、硅基液晶、激光扫描光源或这些技术的任意组合。媒介可以是光学波导、全息图媒介、光学组合器、光学反射器、或它们的任意组合。在一个实施方案中，透明或半透明显示器可被配置成选择性地变得不透明。基于投影的系统可以采用将图形图像投影到人的视网膜上的视网膜投影技术。投影系统也可以被配置成将虚拟对象投影到物理环境中，例如作为全息图或在物理表面上。

图1A和图1B示出了包括虚拟现实和混合现实的各种计算机生成现实技术中使用的示例性系统100。

在一些实施方案中，如图1A所示，系统100包括设备100a。设备100a包括各种部件，诸如处理器102、RF电路104、存储器106、图像传感器108、取向传感器110、麦克风112、位置传感器116、扬声器118、显示器120和触敏表面122。这些部件任选地通过设备100a的通信总线150进行通信。

在一些实施方案中，系统100的元件在基站设备(例如，计算设备，诸如远程服务器、移动设备或膝上型计算机)中实现，并且系统100的其他元件在设计成由用户佩戴的头戴式显示器(HMD)设备中实现，其中HMD设备与基站设备通信。在一些示例中，设备100a在基站设备或HMD设备中实现。

如图1B所示，在一些实施方案中，系统100包括两个(或更多个)通信中的设备，诸如通过有线连接或无线连接。第一设备100b(例如，基站设备)包括处理器102、RF电路104和存储器106。这些部件可选地通过设备100b的通信总线150进行通信。第二设备100c(例如，头戴式设备)包括各种部件，诸如处理器102、RF电路104、存储器106、图像传感器108、取向传感器110、麦克风112、位置传感器116、扬声器118、显示器120和触敏表面122。这些部件可选地通过设备100c的通信总线150进行通信。

在一些实施方案中，系统100是移动设备，诸如在关于图1C至图1E中的设备100a描述的实施方案中。在一些实施方案中，系统100是头戴式显示器(HMD)设备，诸如在关于图1F至图1H中的设备100a描述的实施方案中。在一些实施方案中，系统100是可穿戴HUD设备，诸如在关于图1I中的设备100a描述的实施方案中。

系统100包括处理器102和存储器106。处理器102包括一个或多个通用处理器、一个或多个图形处理器、和/或一个或多个数字信号处理器。在一些实施方案中，存储器106是存储计算机可读指令的一个或多个非暂态计算机可读存储介质(例如，闪存存储器，随机存取存储器)，所述计算机可读指令被配置为由处理器102执行以执行下述技术。

系统100包括RF电路104。RF电路104可选地包括用于与电子设备、网络(诸如互联网、内联网)和/或无线网络(诸如蜂窝网络和无线局域网(LAN))通信的电路。RF电路104可选地包括用于使用近场通信和/或短程通信(诸如

)进行通信的电路。

系统100包括显示器120。在一些示例中，显示器120包括第一显示器(例如，左眼显示器面板)和第二显示器(例如，右眼显示器面板)，每个显示器用于向用户的相应眼睛显示图像。对应的图像同时显示在第一显示器和第二显示器上。可选地，对应的图像包括来自不同视点的相同虚拟对象和/或相同物理对象的表示，从而产生视差效应，该视差效应向用户提供显示器上对象的立体感效应。在一些示例中，显示器120包括单个显示器。对于用户的每只眼睛，对应的图像同时显示在单个显示器的第一区域和第二区域上。可选地，对应的图像包括来自不同视点的相同虚拟对象和/或相同物理对象的表示，从而产生视差效应，该视差效应向用户提供单个显示器上对象的立体感效应。

在一些实施方案中，系统100包括用于接收用户输入的触敏表面122，诸如轻击输入和轻扫输入。在一些示例中，显示器120和触敏表面122形成触敏显示器。

系统100包括图像传感器108。图像传感器108可选地包括一个或多个可见光图像传感器(诸如电荷耦合设备(CCD)传感器)和/或可操作以从真实环境获得物理对象的图像的互补金属氧化物半导体(CMOS)传感器。图像传感器还可选地包括一个或多个红外(IR)传感器，诸如无源IR传感器或有源IR传感器，用于检测来自真实环境的红外光。例如，有源IR传感器包括IR发射器，诸如IR点发射器，用于将红外光发射到真实环境中。图像传感器108还可选地包括一个或多个事件相机，这些事件相机被配置为捕获真实环境中的物理对象的移动。图像传感器108还可选地包括一个或多个深度传感器，这些深度传感器被配置为检测物理对象与系统100的距离。在一些示例中，系统100组合使用CCD传感器、事件相机和深度传感器来检测系统100周围的物理环境。在一些示例中，图像传感器108包括第一图像传感器和第二图像传感器。第一图像传感器和第二图像传感器可选地被配置为从两个不同的视角捕获真实环境中的物理对象的图像。在一些示例中，系统100使用图像传感器108来接收用户输入，诸如手势。在一些示例中，系统100使用图像传感器108来检测系统100和/或显示器120在真实环境中的位置和取向。例如，系统100使用图像传感器108来跟踪显示器120相对于真实环境中的一个或多个固定对象的位置和取向。

在一些实施方案中，系统100可选地包括图像传感器124。图像传感器124类似于图像传感器108，不同的是图像传感器124在与图像传感器108相对的方向上取向。例如，图像传感器108和图像传感器124设置在设备100a或100c的相对侧上。在一些示例中，图像传感器124获得用户的图像，而图像传感器108获得用户视线中物理对象的图像。

在一些实施方案中，系统100包括麦克风112。系统100使用麦克风112来检测来自用户和/或用户的真实环境的声音。在一些示例中，麦克风112包括麦克风阵列(包括多个麦克风)，其任选地串联操作，以便识别环境噪声或在真实环境的空间中定位声源。

系统100包括用于检测系统110和/或显示器100的取向和/或移动的取向传感器120。例如，系统100使用取向传感器110来跟踪系统100和/或显示器120的位置和/或取向的变化，诸如关于真实环境中的物理对象。取向传感器110可选地包括一个或多个陀螺仪和/或一个或多个加速度计。

图1C至图1E示出了设备100a形式的系统100的示例。在图1C至1E中，设备100a是移动设备，诸如蜂窝电话。图1C示出了执行虚拟现实技术的设备100a。设备100a在显示器120上显示虚拟环境160，该虚拟环境包括虚拟对象，诸如太阳160a、鸟160b和海滩160c。所显示的虚拟环境160和虚拟环境160的虚拟对象(例如，160a、160b、160c)都是计算机生成的图像。需注意，图1C中示出的虚拟现实环境不包括来自真实环境180的物理对象的表示，诸如人180a和树180b，即使真实环境180的这些元素在设备100a的图像传感器108的视野内。

图1D示出了使用透传视频执行混合现实技术，特别是增强现实技术的设备100a。设备100a正在显示器120上显示具有虚拟对象的真实环境180的表示170。真实环境180的表示170包括人180a的表示170a和树180b的表示170b。例如，该设备使用图像传感器108来捕获真实环境180的图像，这些图像经透传以在显示器120上显示。设备100a在人180a的表示170a的头部上覆盖帽子160d，该帽子是由设备100a生成的虚拟对象。设备100a相对于设备100a的位置和/或取向来跟踪物理对象的位置和/或取向，以使虚拟对象能够与来自增强现实环境中的真实环境的物理对象进行交互。在该示例中，设备100a考虑设备100a和人180a的移动，以将帽子160d显示为在人180a的表示170a的头部上，即使设备100a和人180a相对于彼此移动也是如此。

图1E示出了执行混合现实技术，特别是增强虚拟技术的设备100a。设备100a在显示器120上显示具有物理对象的表示的虚拟环境160。虚拟环境160包括虚拟对象(例如，太阳160a、鸟160b)和人180a的表示170a。例如，设备100a使用图像传感器108来捕获真实环境180a中的人180的图像。设备100a将人180a的表示170a放置在虚拟环境160中，以在显示器120上显示。设备100a相对于设备100a的位置和/或取向任选地跟踪物理对象的位置和/或取向，以使虚拟对象能够与来自真实环境180的物理对象进行交互。在该示例中，设备100a考虑设备100a和人180a的移动，以将帽子160d显示为在人180a的表示170a的头部上。值得注意的是，在该示例中，在执行混合现实技术时，即使树180b也在设备100a的图像传感器的视野内，设备100a也不显示树180b的表示。

图1F至图1H示出了设备100a形式的系统100的示例。如图1F至1H所示，设备100a是被配置为佩戴在用户头部上的HMD设备，其中用户的每只眼睛观看相应的显示器120a和120b。图1F示出了执行虚拟现实技术的设备100a。设备100a在显示器120a和显示器120b上显示虚拟环境160，该虚拟环境包括虚拟对象，诸如太阳160a、鸟160b和海滩160c。所显示的虚拟环境160和虚拟对象(例如，160a、160b、160c)是计算机生成的图像。在该示例中，设备100a同时在显示器120a和显示器120b上显示对应的图像。对应的图像包括来自不同视点的相同虚拟环境160和虚拟对象(例如，160a、160b、160c)，从而产生视差效应，该视差效应向用户提供显示器上对象的立体感效应。需注意，图1F中示出的虚拟现实环境不包括来自真实环境的物理对象的表示，诸如人180a和树180b，即使人180a和树180b在执行虚拟现实技术时位于设备100a的图像传感器的视野内。

图1G示出了使用透传视频执行增强现实技术的设备100a。设备100a正在显示器120a和120b上显示具有虚拟对象的真实环境180的表示170。真实环境180的表示170包括人180a的表示170a和树180b的表示170b。例如，设备100a使用图像传感器108来捕获真实环境120b的图像，这些图像经透传以在显示器180和120a上显示。设备100a将计算机生成的帽子160d(虚拟对象)覆盖在人180a的表示170a的头部上，以在每个显示器120a和120b上显示。设备100a相对于设备100a的位置和/或取向来跟踪物理对象的位置和/或取向，以使虚拟对象能够与来自真实环境180的物理对象进行交互。在该示例中，设备100a考虑设备100a和人180a的移动，以将帽子160d显示为在人180a的表示170a的头部上。

图1H示出了使用透传视频执行混合现实技术，特别是增强虚拟技术的设备100a。设备100a在显示器120a和120b上显示具有物理对象的表示的虚拟环境160。虚拟环境160包括虚拟对象(例如，太阳160a、鸟160b)和人180a的表示170a。例如，设备100a使用图像传感器108来捕获人180的图像。设备100a将人180a的表示170a放置在虚拟环境中，以在显示器120a和120b上显示。设备100a相对于设备100a的位置和/或取向任选地跟踪物理对象的位置和/或取向，以使虚拟对象能够与来自真实环境180的物理对象进行交互。在该示例中，设备100a考虑设备100a和人180a的移动，以将帽子160d显示为在人180a的表示170a的头部上。值得注意的是，在该示例中，在执行混合现实技术时，即使树180b也在设备100a的图像传感器108的视野内，设备100a也不显示树180b的表示。

图1I示出了设备100a形式的系统100的示例。在图1I中，设备100a是被配置为佩戴在用户头上的HUD设备(例如，眼镜设备)，其中用户的每只眼睛观看相应的平视显示器120c和120d。图1I示出了使用平视显示器120c和120d执行增强现实技术的设备100a。平视显示器120c和120d是(至少部分地)透明显示器，因此允许用户结合平视显示器120c和120d观看真实环境180。设备100a在每个平视显示器120c和120d上显示虚拟帽子160d(虚拟对象)。设备100a相对于设备100a的位置和/或取向以及相对于用户眼睛的位置来跟踪真实环境中的物理对象的位置和/或取向，以使虚拟对象能够与来自真实环境180的物理对象进行交互。在该示例中，设备100a考虑设备100a的移动、用户眼睛相对于设备100a的移动，以及人180a在显示器120c和120d上的位置处至显示帽子160d的移动，使得用户看来帽子160d位于人180a的头部。

图2示出了实现使用现实界面来控制外部设备的各种技术的示例性系统200。系统200包括被配置为与外部设备228、230和232进行交互的用户设备202。用户设备202与系统100a中的设备100a、b或c中的一个或多个类似或相同(图1A至图1B)。在一些实施方案中，用户设备202被配置为经由无线通信连接与外部设备228、230和232进行交互。无线通信连接例如经由一个或多个网络226建立。网络226可包括WiFi^TM网络或任何其他有线或无线公共或专用本地网络。附加地或另选地，用户设备202可使用例如短程通信协议、Bluetooth^TM、视线、对等或另外基于无线电或其他无线通信来直接与外部设备228、230或232建立无线通信连接。因此，在所示的实施方案中，用户设备202可位于外部设备228、230和232附近，使得该用户设备与这些外部设备直接通信或通过相同的本地网络通信。例如，用户设备202以及外部设备228、230和232位于相同的物理环境(例如，家庭或建筑物的房间)内，并且网络226包括家庭或建筑物的Wi-Fi^TM网络。外部设备228、230和232可包括任何类型的遥控外部设备，诸如灯泡、车库门、门锁、恒温器、音频播放器、电视机等。

现在参考图3A至图3D，描述了使用现实界面来控制外部设备的示例性技术。图3A示出了包括外部设备304、306和308的物理环境302。物理环境302是例如用户的物理环境。例如，用户可坐在他的客厅中，并且物理环境302是用户客厅的直接位于该用户前方的至少一部分。用户可能希望控制外部设备304、306和308中的一个。如下面更详细描述的，用户可利用由用户设备(例如，用户设备312)提供的现实界面来控制外部设备304、306和308中的一个。

图3B示出了显示物理环境302的表示314的用户设备312。在本实施方案中，用户设备312是独立设备(例如，设备100a)，诸如手持式移动设备或独立的头戴式设备。应当认识到，在其他实施方案中，用户设备312可以能够通信的方式联接到另一设备，诸如基站设备。例如，用户设备312可以是以能够通信的方式联接到诸如包含CPU的基站设备的另一设备(例如，设备100b)的头戴式显示设备(例如，设备100c)。在这些实施方案中，下面描述的通过现实界面访问外部设备的功能的操作可以任何方式在用户设备312和另一设备之间进行划分。

此外，在本实施方案中，用户设备312的显示器313是不透明的，其中用户无法通过显示器313看到物理环境302。例如，从物理环境302的物理对象发射或反射的可见光基本上无法通过显示器313透射(例如，小于5％透射)。在其他实施方案中，显示器313是透明的，其中用户能够通过显示器313看到物理环境302。例如，从物理环境302的物理对象发射或反射的可见光基本上能够通过显示器313透射(例如，大于40％透射)。在一个实施方案中，显示器313是透明LCD(液晶显示器)或LED(发光二极管)显示器。在另一实施方案中，用户设备312是具有集成显示器的一对透视近眼显示眼镜。

用户设备312被配置为提供现实界面。例如，使用现实界面来控制外部设备304、306和308中的一个。外部设备304、306和308类似于上述图2的外部设备228、230和232。具体地，外部设备304、306和308是能够被用户设备312无线控制的设备。例如，外部设备304是具有诸如电源通/断、音量、频道、隐藏式字幕等功能的电视机。外部设备306是具有诸如电源通/断、音量、无线电调谐、播放列表选择等功能的音频系统。外部设备308是具有诸如通/断和亮度调节(例如，调光)功能的灯。外部设备304、306和308的这些示例性功能中的每一个被配置为使用由用户设备312提供的现实界面来控制。虽然仅示出了三个外部设备304、306和308，但是应当理解，在其他实施方案中，物理环境可包括任何数量的外部设备。

用户设备312检测物理环境302中的外部设备304、306和308。在该实施方案中，该检测基于用户设备312与外部设备304、306和308之间的无线通信(如图3B中的线310所示)进行。无线通信是例如近场或短程无线通信(例如，NFC、Bluetooth^TM等)。用户设备312在经由无线通信从外部设备304、306和308接收信息时检测外部设备304、306和308。在一些实施方案中，用户设备312传输请求和/或广播查询(例如，发现信号)以使外部设备304、306和308传输信息。在一些实施方案中，用户设备312响应于确定外部设备很可能处于用户设备312的图像传感器的视野中(例如，高于置信度)而传输请求和/或广播查询。在其他实施方案中，外部设备304、306和308独立于来自用户设备312的任何查询而周期性地自动广播信息。用户设备312在经由无线通信从外部设备304、306和308接收信息时检测外部设备304、306和308。例如，基于所接收的信息，用户设备312识别出外部设备304、306和308邻近用户设备312(例如，处于通信范围内)。在一些实施方案中，所接收的信息包括识别外部设备304、306和308的信息，诸如设备标识符。在一些实施方案中，所接收的信息指定外部设备304、306和308的一个或多个功能。

在一些实施方案中，响应于检测外部设备304、306和308，用户设备312与外部设备304、306和308中的一个或多个建立无线通信连接(例如，近场或短程直接无线通信连接)。无线通信连接是例如无线网络连接(例如，经由Wi-Fi^TM网络的连接)。在一些实施方案中，无线通信连接是直接对等无线通信连接(例如，Bluetooth^TM连接)，其各自启用跨安全无线通信信道的单跳点对点通信。例如，用户设备312获得与外部设备304、306和308中的一个或多个相关联的连接信息(例如，连接地址、认证信息等)，并且使用该连接信息来与外部设备304、306和308中的一个或多个建立无线通信连接。在一些实施方案中，在建立无线通信连接之后，用户设备312通过无线通信连接从外部设备304、306和308中的一个或多个接收信息。所接收的信息指定例如外部设备304、306和308的一个或多个功能。在本实施方案中，用户设备312与外部设备304建立无线通信连接，并且通过所建立的无线通信连接从外部设备304接收指示该外部设备304具有电源ON/OFF功能的信息。

用户设备312获得物理环境302的第一图像数据。例如，用户设备312的一个或多个图像传感器(例如，图像传感器108)捕获物理环境302的第一图像数据。第一图像数据包括例如由图像传感器捕获的物理环境302的图像和/或视频。具体地，在一个实施方案中，第一图像数据包括由图像传感器捕获的物理环境的至少一部分的实时视频预览。用户设备312根据所获得的第一图像数据来生成物理环境302的表示314。在一些实施方案中，该表示包括由图像传感器捕获的实时视频预览的至少一部分。在一些实施方案中，组合物理环境302的被捕获的图像和/或视频以组成物理环境302的表示314。

如图3B所示，用户设备312在显示器313上显示物理环境302的表示314作为由用户设备312提供的现实界面的一部分。在本实施方案中，由表示314提供的视野仅表示从用户的视线位置观察到的物理环境302的一部分。具体地，表示314包括外部设备304的表示(其位于设备312上的图像传感器的视野内)，但不包括外部设备306和308的表示。应当认识到，在其他实施方案中，视野可以变化。用户设备312所显示的视野例如基于所确定的用户视线方向而变化。此外，在显示器313是透明的实施方案中，应当认识到，物理环境302的表示314未显示在用户设备312上。相反，由于从物理环境302发射或反射的光通过显示器313透射到用户的眼睛中，因此用户可直接观察到物理环境302。

参考图3C，用户设备312在其显示器313上同时显示物理环境302的表示314和与外部设备304的功能(例如，外部设备304的电源ON/OFF功能)相对应的示能表示316。示能表示316是物理环境302中不存在的虚拟对象，即使示能表示316的功能与物理电源按钮332的功能类似。在本实施方案中，由示能表示316表示的功能与从外部设备304接收的信息中指定的功能相同。当被用户激活时，示能表示316使外部设备312将外部设备304通电(如果外部设备304处于断电)或断电(如果外部设备304处于通电)。因此，示能表示316使用户能够使用由用户设备312提供的现实界面来控制外部设备304的电源ON/OFF功能。

参考图3D，用户在用户设备312与外部设备304之间的区域中提供手势334。具体地，用户使用手势334来与在用户设备312上显示的现实界面进行交互。在显示物理环境302的表示314的同时，用户设备312获得手势334的第二图像数据。例如，用户设备312的一个或多个图像传感器(例如，图像传感器108)捕获手势334的第二图像数据，其中物理环境302处于背景中。第二图像数据包括例如由图像传感器捕获的手势334的图像和/或视频。如图3D所示，用户设备312根据所获得的第二图像数据来显示手势334的表示336。在该实施方案中，手势334的表示336与物理环境302的表示314以及示能表示316同时显示。

应当认识到，在用户设备312的显示器313是透明的实施方案中，示能表示316被显示在显示器313上，而无需显示物理环境302的实时图像(例如，表示314)，因为该物理环境对用户是直接可见的。因此，从用户的角度来看，所显示的示能表示看起来被覆盖在通过透明显示器在背景中可见的物理环境中。在一些实施方案中，示能表示316相对于用户眼睛的视线方向(例如，视线)显示在显示器313上对应于外部设备304的位置处。例如，示能表示316被定位在显示器313上，使得从用户的角度看，示能表示看起来覆盖外部设备304的相应物理视图的至少一部分。此外，在这些实施方案中，手势334的表示336不显示在显示器313上。

用户设备312基于第二图像数据来确定手势334是否满足与外部设备304的电源通/断功能相关联的一个或多个预定标准。该确定建立例如用户是否意图使外部设备304执行电源ON/OFF功能。例如，该确定包括确定手势334是否激活示能表示316以使外部设备304执行电源ON/OFF功能。在一些实施方案中，通过分析在第二图像数据中识别的手势并确定所识别的手势是否对应于与电源ON/OFF功能相关联的预定类型的手势来执行该确定。在一些实施方案中，执行图像识别以确定在第二图像数据中识别的手势是否对应于预定类型的手势。例如，用户设备312确定捕获手势334的第二图像数据的部分和与电源ON/OFF功能相关联的预定类型的手势的一个或多个所存储的图像之间的相似性测量。如果相似性测量大于预定阈值，则确定在第二图像数据中识别的手势对应于与电源ON/OFF功能相关联的预定类型的手势。在这些实施方案中，确定手势334满足与外部设备304的电源通/断功能相关联的一个或多个预定标准。相反地，如果相似性测量不大于预定阈值，则确定在第二图像数据中识别的手势并不对应于与电源ON/OFF功能相关联的预定类型的手势。在这些实施方案中，确定手势334不满足与外部设备304的电源ON/OFF功能相关联的一个或多个预定标准。如下面更详细描述的，可使用诸如三维对象识别、机器学习等附加技术来确定手势334是否满足与外部设备304的电源ON/OFF功能相关联的一个或多个预定标准。

根据确定手势满足与该功能相关联的一个或多个预定标准，用户设备312使外部设备304执行电源ON/OFF功能。例如，用户设备312通过所建立的无线通信连接向外部设备304发送请求以执行电源ON/OFF功能。外部设备304在接收请求时通电(如果外部设备304断电)或断电(如果外部设备304通电)。

现在转向图4A至图4B，示出了使用现实界面来控制外部设备的示例性过程400的流程图。在下面的描述中，过程400被描述为使用用户设备(例如，设备100a)来执行。用户设备例如是手持式移动设备或头戴式设备。应当认识到，在其他实施方案中，使用两个或更多个电子设备来执行过程400，电子设备诸如以能够通信的方式联接到诸如基站设备的另一设备(例如，设备100b)的用户设备(例如，设备100c)。在这些实施方案中，过程400的操作以任何方式分布在用户设备与另一设备之间。此外，应当理解，用户设备的显示器可以是透明的或不透明的。尽管在图4A至图4B中以特定顺序示出了过程400的框，但是应当理解，可以以任何顺序来执行这些框。此外，过程400的一个或多个框可以是任选的和/或可以执行附加框。

在框402处，检测物理环境(例如，物理环境302)的一个或多个外部设备(例如，外部设备304、306和308)。在一些实施方案中，该检测基于用户设备与一个或多个外部设备之间的无线通信(例如，近场或短程无线通信，诸如Bluetooth^TM或Wi-Fi Direct^TM)进行。具体地，用户设备检测处于该用户设备的无线范围内(例如，处于预定距离内)的一个或多个外部设备。在一个实施方案中，用户设备以无线方式传输(例如，广播)被物理环境中的一个或多个外部设备接收的请求和/或查询信号。当被一个或多个外部设备接收到时，查询信号使该一个或多个外部设备向用户设备发送响应。在该实施方案中，用户设备在从一个或多个外部设备接收响应时检测该一个或多个外部设备。在一些实施方案中，该响应包括识别信息，诸如一个或多个外部设备中的每个相应外部设备的标识符。该标识符是例如表示相应外部设备的一系列字符。应当理解，在一些实施方案中，该响应中包括附加信息。

在一些实施方案中，一个或多个外部设备中的每一个向周围区域以无线方式广播信息。例如，一个或多个外部设备周期性地并独立于来自用户设备的任何查询信号而自动广播信息。在这些实施方案中，用户设备在接收广播信息时检测一个或多个外部设备。

在框404处，与一个或多个外部设备中的第一外部设备建立无线通信连接。例如，在用户设备与第一外部设备之间建立无线通信连接。在一些实施方案中，无线通信连接是近场或短程无线通信连接(例如，Bluetooth^TM、Wi-Fi Direct^TM等)。在一些实施方案中，无线通信连接是用户设备与第一外部设备之间的直接(例如，对等)无线通信连接。无线通信连接启用例如用户设备与第一外部设备之间的单跳点对点无线通信。在一些实施方案中，响应于在框402处检测第一外部设备而执行框404。在这些实施方案中，在检测第一外部设备时，用户设备发起建立该用户设备与第一外部设备之间的无线通信连接的连接过程。在这些实施方案中，在框406之前执行框404。

建立无线通信连接的过程包括例如在用户设备与第一外部设备之间交换连接信息。在一些实施方案中，预先授权用户设备和/或第一外部设备以建立无线通信连接。例如，用户设备和第一外部设备预先(例如，在框402之前)交换认证信息(例如，配对信息)，因此在框404处建立无线通信连接而无需交换认证信息。在其他实施方案中，用户设备和/或第一外部设备需要授权以建立无线通信连接。在这些实施方案中，建立无线通信连接的过程包括在用户设备与第一外部设备之间(例如，经由配对)交换认证信息并且使用所交换的认证信息来建立无线通信连接。

在框406处，从第一外部设备接收到用于指定该第一外部设备的功能的信息。在一些实施方案中，通过在框404处建立的无线通信连接来接收指定第一外部设备的功能的信息。例如，第一外部设备在建立无线通信连接时自动向用户设备发送信息。另选地，用户设备请求来自第一外部设备的信息，并且作为响应，该第一外部设备通过所建立的无线通信连接来向用户设备发送信息。在一些实施方案中，在检测一个或多个外部设备中的第一外部设备时，在框402处接收到信息。例如，该信息包括在第一外部设备对由用户设备广播的查询信号的响应中。

所指定的功能是例如第一外部设备能够执行的任何功能。在第一外部设备是电视机(例如，图3A至图3D的外部设备304)的实施方案中，该功能是电源ON/OFF功能、音量调节功能、信道切换功能等。在第一外部设备是手表或时钟的实施方案中，该功能是例如计时功能、闹钟功能、电池寿命功能等。在第一外部设备是例如电话的实施方案中，该功能是通讯录功能、呼叫功能、语音信箱回放功能等。在第一外部设备是个人计算设备(例如，平板电脑、膝上型电脑等)的实施方案中，该功能是例如消息显示功能(例如，电子邮件、文本消息等)或网络浏览功能。在第一外部设备是媒体设备的实施方案中，该功能是例如媒体搜索/浏览功能、媒体播放功能、媒体文件传输功能等。在第一外部设备是照明设备的实施方案中，该功能是例如电源ON/OFF功能、调光器功能等。

在框408处，确定用户视线方向。例如，使用用户设备的一个或多个第一图像传感器(例如，图像传感器124)来获得用户的图像数据。一个或多个第一图像传感器例如指向用户的眼睛。在一些实施方案中，一个或多个第一图像传感器包括可见光图像传感器和/或IR传感器。用户的图像数据包括例如用户眼睛的图像数据(例如，图像和/或视频)。使用用户眼睛的图像数据来确定用户眼睛中的每一只眼睛的用户视线方向。例如，确定用户角膜的中心、用户瞳孔的中心以及用户眼球的旋转中心，以确定用户眼睛的视轴位置。用户眼睛中的每一只眼睛的视轴限定用户视线方向。视线方向也可称为视线矢量或视线。在一些实施方案中，确定视线方向包括确定用户的视野位置和用户相对于物理环境的视角。

在一些实施方案中，使用用户的深度信息来确定视线方向。例如，使用一个或多个第一图像传感器(例如，使用一个或多个第一图像传感器的深度传感器)来确定用户眼睛的深度信息。例如，深度信息用于更准确地确定用户角膜的中心、用户瞳孔的中心以及用户眼球的旋转中心。

在用户设备是头戴式设备的实施方案中，使用来自用户设备的其他传感器的数据来确定视线方向。例如，获得来自用户设备的陀螺仪和/或加速度计的传感器数据并将其用于确定视线方向。在一些实施方案中，诸如视觉惯性测量的三维位置跟踪算法利用传感器数据来确定用户设备的位置和取向，作为用户的视野位置和视角的代替。在一些实施方案中，在执行框404和/或406的同时执行框408。

在框410处，获得物理环境的至少一部分的第一图像数据。该物理环境包括第一外部设备。在一些实施方案中，所获得的第一图像数据由用户设备的一个或多个第二图像传感器(例如，图像传感器108)捕获。一个或多个第二图像传感器包括例如可见光图像传感器或IR传感器。在一些实施方案中，一个或多个第二图像传感器以与框408中所讨论的一个或多个第一图像传感器相对的方向指向物理环境。在一些实施方案中，第一图像数据基本上对应于从用户的视线位置观察到的物理环境的一部分。在一些实施方案中，第一图像数据包括由第二图像传感器捕获的物理环境的一系列图像和/或视频预览。该物理环境是围绕用户或用户设备的任何物理环境。例如，该物理环境包括用户家庭的区域(例如，厨房、客厅、卧室、车库等)、用户工作场所环境的一部分(例如，办公室、会议室、会客室等)、学校环境(例如，教室)或公共环境(例如，餐厅、图书馆等)。

应当理解，在一些实施方案中，在框410处使用一个或多个第二图像传感器来获得该物理环境的至少一部分的附加数据。例如，使用一个或多个第二图像传感器(例如，图像传感器108的深度传感器或IR传感器)来获得该物理环境的至少一部分的第一深度信息。第一深度信息用于例如生成该物理环境的三维表示。在一些实施方案中，生成该物理环境的三维表示包括生成该物理环境的深度标测图。深度标测图的每个像素与由对应像素表示的一个或多个第二图像传感器与物理环境的表面之间的相应距离信息相关联。

在一些实施方案中，使用渡越时间分析来获得第一深度信息。具体地，用户设备的IR光源(例如，IR发射器)将IR光发射到物理环境，并且一个或多个第二图像传感器的IR传感器检测来自该物理环境中的对象表面的反向散射光。在一些实施方案中，所发射的IR光是IR光脉冲，并且测量发射IR光脉冲与检测相应的反向散射光脉冲之间的时间，以确定从IR传感器到物理环境中的对象表面的物理距离。

在一些实施方案中，通过使用光源(例如，可见光源或不可见光源)来将光图案投影到物理环境来获得第一深度信息。该光图案是例如具有已知间距的点或线的网格。然后使用图像传感器(例如，光传感器，诸如图像传感器或IR传感器)捕获所投影的光图案。所投影的光图案在物理环境中的一个或多个对象表面上的变形用于确定IR传感器与该物理环境中的一个或多个对象的表面之间的物理距离。

在一些实施方案中，使用物理环境的第一图像数据获得第一深度信息，该物理环境的第一图像数据是使用第二图像传感器中被间隔了已知距离的两个第二图像传感器所捕获的。这两个图像传感器捕获物理环境的第一图像数据。在这些实施方案中，物理环境的第一深度信息由两个图像传感器的立体效应确定。具体地，使用两个图像传感器的所捕获的第一图像数据中的公共对象之间的距离偏移(例如，视差差值)来确定物理环境的第一深度信息。

在一些实施方案中，使用物理环境的第一图像数据来获得第一深度信息，该物理环境的第一图像数据是使用一个图像传感器捕获的。例如，将视觉惯性测量(VIO)技术应用于图像数据中以确定第一深度信息。

在框412处，根据框410的所获得的第一图像数据，在显示器(例如，显示器120)上显示物理环境的表示(例如，表示314)。该物理环境的表示是由用户设备提供的现实界面的一部分，并且是使用所获得的图像数据来创建的。具体地，物理环境的表示包括该物理环境中物理对象(例如，外部设备304)的表示。在一些实施方案中，物理环境的表示包括由第二图像传感器捕获的物理环境的实时视频预览。在一些实施方案中，实时视频预览的图像特征(例如，对比度、亮度、阴影等)未经实质性修改。另选地，对实时视频预览的图像特征进行修改以改善图像清晰度或突显现实环境中的相关特征。在一些实施方案中，物理环境的表示是所生成的对应于物理环境的虚拟环境。

在一些实施方案中，基于框408的所确定的视线方向来显示物理环境的表示。例如，所显示的物理环境的表示的视野可根据所确定的视线方向而变化。对应于物理环境的表示的视角和视野位置也可根据所确定的视线方向而变化。

在一些实施方案中，在框412之前执行框408和410。此外，在一些实施方案中，在框406处显示物理环境的表示的同时，执行框408和410。在使用具有透明显示器的用户设备执行过程400的实施方案中，框412是可选的。

在框414处，在显示器(显示器120)上显示对应于第一外部设备的功能(例如，在框406处接收的信息中所指定的功能)的示能表示(例如，示能表示316)。如本文所用，术语“示能表示”是指用户交互式图形用户界面对象。例如，图像或虚拟按钮各自任选地构成示能表示。所显示的示能表示由用户设备生成，并且在物理环境中是不存在的。在一些实施方案中，该示能表示与物理环境的表示同时显示(框410)。

在一些实施方案中，该示能表示显示在物理环境的表示中对应于第一外部设备的位置处。例如，如图3C所示，示能表示316显示在与第一外部设备的表示的一部分重叠的位置处。在一些实施方案中，该示能表示显示在对应于第一外部设备的与在框406处接收的信息中指定的功能相对应的一部分的位置处。在这些实施方案中，框416包括基于第一图像数据来确定第一外部设备是否包括被配置为执行该功能的物理接口(例如，按钮、开关等)。在确定第一外部设备包括被配置为执行该功能的物理接口时，示能表示显示在所显示的物理环境的表示中对应于外部设备的物理接口的位置处。例如，如图3C所示，示能表示316显示在对应于外部设备304的物理电源ON/OFF按钮332的位置处。

示能表示被配置为使得检测用户激活所显示的示能表示而使第一外部设备执行对应于该功能的动作。例如，响应于检测用户激活所显示的示能表示，用户设备(例如，经由框404的已建立的无线通信连接)向第一外部设备发送指令，在第一外部设备接收到该指令时，使得第一外部设备执行该功能。

在一些实施方案中，在显示示能表示之前，框416包括基于从第一外部设备接收的信息来从多个候选示能表示中确定示能表示。该确定基于例如在框406处接收的信息中指定的功能。在这些实施方案中，从多个候选示能表示中选择对应于指定功能的示能表示，并将其显示在显示器上。

应当认识到，在使用具有透明显示器的用户设备执行过程400的实施方案中，在该透明显示器上显示对应于第一外部设备的功能的示能表示，而不显示物理环境的表示。因此，从用户的角度来看，所显示的示能表示看起来被覆盖在通过透明显示器在背景中可见的物理环境中。在一些实施方案中，示能表示显示在透明显示器上对应于第一外部设备且相对于用户眼睛的视线方向(例如，视线)的位置处。例如，示能表示被定位在透明显示器上，使得从用户的角度看，示能表示看起来覆盖通过透明显示器在背景中可见的第一外部设备的至少一部分。

在框416处，利用一个或多个第二图像传感器(例如，在框410处用于获得第一图像数据的相同图像传感器)来获得手势的第二图像数据(例如，图3D中的手势334)。手势是例如在显示器(例如，显示器120)与在物理环境中的第一外部设备之间提供的手势。在一些实施方案中，手势由用户的末端做出，诸如用户的手或手指。在其他实施方案中，手势由用户控制的对象做出，诸如铅笔或指针。在一些实施方案中，在框412处显示物理环境的表示的同时，执行框416。

在一些实施方案中，框416包括使用一个或多个第二图像传感器(例如，图像传感器108的深度传感器或IR传感器)获得手势的第二深度信息。第二深度信息以与上述框410处的第一深度信息相似的方式获得。第二深度信息用于例如生成手势的三维表示。在一些实施方案中，生成手势的三维表示包括生成手势的深度标测图。

在框418处，根据第二图像数据来显示手势的表示(例如，表示336)。具体地，使用在框416处获得的第二图像数据和/或第二深度信息来生成手势的表示。框418类似于框412，不同的是该表示是手势而非物理环境，并且该表示是根据第二图像数据而非第一图像数据生成的。在一些实施方案中，手势的表示与物理环境的表示(框412)以及示能表示(框414)同时显示。所显示的手势的表示用于将用户的手势集成到由用户设备提供的现实界面中。在使用具有透明显示器的用户设备执行过程400的实施方案中，框418是可选的。

在框420处，确定手势是否满足与第一外部设备的功能相关联的一个或多个预定标准。该确定例如建立由用户提供的手势是否表示用户激活第一外部设备的功能的意图。

在一些实施方案中，一个或多个预定标准基于手势与用户设备之间的物理距离。例如，使用在框416处获得的手势的第二深度信息，确定手势与用户设备之间的物理距离。在这些实施方案中，一个或多个预定标准包括以下标准：手势与用户设备之间的物理距离小于预定距离。这种标准可用于确认手势是用户的手势还是仅是视野中独立于用户移动的对象。例如，如果手势与用户设备之间的物理距离显著大于人类手臂的平均长度，则该手势不太可能表示用户激活第一外部设备的功能的意图。

在一些实施方案中，一个或多个预定标准基于使用在框416处获得的手势的第二图像数据来执行二维识别。例如，将对应于该手势的第二图像数据的部分与多个所存储的图像进行比较。多个所存储的图像是例如与第一外部设备的功能相对应的已知手势的图像。在这些实施方案中，过程400确定对多个所存储的图像中的一个或多个所存储的图像的相似性测量。对一个或多个所存储的图像的相似性测量表示第二图像数据的部分与一个或多个所存储的图像的匹配程度。在一些实施方案中，一个或多个预定标准包括以下标准：对多个所存储的图像中的一个或多个所存储的图像的相似性测量大于预定阈值。

在一些实施方案中，一个或多个预定标准基于使用在框416处获得的手势的第二图像数据和/或第二深度信息来执行三维识别。例如，如上所述，使用框416的第二图像数据和/或第二深度信息来生成手势的三维表示。在这些实施方案中，所生成的手势的三维表示的部分与对应于第一外部设备的功能的多个所存储的手势的三维表示进行比较。过程400确定例如对多个所存储的手势的三维表示中的一个或多个的相似性测量。相似性测量表示手势的三维表示的部分与多个所存储的手势的三维表示中的一个或多个的匹配程度。在一些实施方案中，一个或多个预定标准包括以下标准：对多个所存储的手势的三维表示中的一个或多个的相似性测量大于预定阈值。

在一些实施方案中，一个或多个预定标准基于确定由用户提供的手势表示用户激活第一外部设备的功能的意图的概率。该概率例如使用经机器学习的分类器(例如，经训练的神经网络模型)根据第二图像数据和/或第二深度信息确定。在这些实施方案中，处理第二图像数据和/或第二深度信息以确定该第二图像数据和/或该第二深度信息的矢量表示。经机器学习的分类器被配置为接收矢量表示并基于所接收的矢量表示来确定一组概率。该组概率中的每个概率对应于相应外部设备的相应功能。具体地，该组概率包括由用户提供的手势表示用户激活第一外部设备的功能的意图的概率。在这些实施方案中，一个或多个预定标准包括以下标准：所确定的由用户提供的手势表示用户激活第一外部设备的功能的意图的概率大于预定阈值。

在一些实施方案中，一个或多个预定标准基于手势与所显示的示能表示之间的重叠程度。在一些实施方案中，使用在框416处获得的第二图像数据和/或第二深度信息来确定该重叠程度。在一些实施方案中，基于用户的视线方向来确定该重叠程度。例如，重叠程度基于所显示的示能表示沿用户的视线方向与手势的一部分(例如，手势的末端)对准的程度。在一些实施方案中，一个或多个预定标准包括以下标准：所确定的距离小于预定阈值距离的程度。

在一些实施方案中，一个或多个预定标准基于在框414处显示的示能表示的类型。例如，过程400基于第二图像数据和/或第二深度信息来确定手势是否对应于用于激活所显示的示能表示的预定手势。在这些实施方案中，如果确定该手势对应于用于激活所显示的示能表示的预定手势，则满足一个或多个预定标准。以举例的方式，如果所显示的示能表示是虚拟滑动条，则一个或多个预定标准包括以下标准：从用户的视野位置的角度来看，手势的末端沿大致平行于滑动条的方向从第一位置移动到第二位置。在另一实施方案中，如果所显示的示能表示是虚拟转盘，则一个或多个预定标准包括以下标准：从用户的视野位置的角度来看，手势的末端围绕与虚拟转盘的中心轴线相对应的轴线旋转。

根据确定所识别的手势满足与功能相关联的一个或多个预定标准，执行框422和424中的一个或多个。根据确定所识别的手势未满足与功能相关联的一个或多个预定标准，过程400例如放弃执行框422和424。过程400回到框416，并且获得手势的附加图像数据和/或深度信息，以基于附加的所获得的图像数据和/或深度信息来确定是否满足与功能相关联的一个或多个预定标准。

在框422处，使第一外部设备执行该功能。例如，在确定手势满足与该功能相关联的一个或多个预定标准时，用户设备向第一外部设备发送请求以执行该功能。在一些实施方案中，通过在框404处建立的无线通信连接来发送该请求。响应于从用户设备接收请求，第一外部设备执行该功能。

在一些实施方案中，使该功能执行包括使第一外部设备调节设备设置或设备操作状态。例如，如果第一外部设备是电视机(例如，图3A至图3D的外部设备304)，并且功能是电源ON/OFF功能、音量调节功能或信道切换功能，则框422包括使电视机分别改变：电源状态(例如，从ON到OFF，或者从OFF到ON)、音量设置(例如，从第一值到第二值)或信道(例如，从第一信道到第二信道)。在第一外部设备是手表或时钟并且功能是闹钟功能的一些实施方案中，框422包括使手表或时钟设置闹钟。在第一外部设备是电话并且功能是呼叫功能的一些实施方案中，框422包括使电话拨打电话号码。在第一外部设备是媒体设备并且功能是媒体播放功能的一些实施方案中，框422包括使媒体设备开始或停止播放媒体项。

在一些实施方案中，使该功能执行包括使第一外部设备提供对应于该功能的信息。在一些实施方案中，该信息包括指定设备的设置或操作状态的信息。在一些实施方案中，该信息包括媒体项或消息项。第一外部设备例如向用户设备发送该信息，并且用户设备向用户呈现该信息。在一些实施方案中，将该信息呈现为视觉输出并显示在显示器(显示器120)上。该信息例如与物理环境的表示同时显示。在一些实施方案中，该信息在物理环境的表示中对应于第一外部设备的位置处被显示为虚拟对象。在一些实施方案中，该信息被呈现为音频输出(例如，使用扬声器118)。在这些实施方案中，用户设备提供对应于该信息的音频输出。

以举例的方式，如果第一外部设备是手表或时钟并且功能正提供时间或电池寿命，则框422包括使手表或时钟向用户设备提供时间信息或电池寿命信息以供显示。在第一外部设备是电话并且功能是通讯录或语音信箱功能的实施方案中，框422包括使电话向用户设备提供通讯录信息或语音信箱消息项以供显示或回放。在第一外部设备是个人计算设备并且功能是即时消息功能(例如，电子邮件、文本消息等)或网络浏览功能的实施方案中，框422包括使个人计算设备向用户设备提供消息项(例如，未读的电子邮件、消息等)或网页项(例如，网页地址或内容)以供显示。在第一外部设备是媒体设备并且功能是媒体播放功能的实施方案中，框422包括使媒体设备向用户设备提供用于播放的当前播放媒体项的媒体信息或当前播放媒体项的副本以供在用户设备上回放。

在一些实施方案中，使该功能执行包括使第一外部设备与用户设备建立无线通信连接。以举例的方式，用户设备检测第一外部设备(框402)，并且从第一外部设备接收信息，该信息指定建立无线通信连接的功能(框406)。然而，在一些实施方案中，在框422之前未建立用户设备与第一外部设备之间的无线通信连接。在这些实施方案中，在确定手势满足与功能相关联的一个或多个预定标准时，用户设备使第一外部设备建立无线通信连接。例如，用户设备使第一外部设备与用户设备交换连接信息(例如，配对信息)以建立无线通信连接。

在框424处，显示示能表示的视觉反馈(例如，在显示器120上)。例如，该视觉反馈对应于示能表示的激活。具体地，该视觉反馈向用户指示示能表示已被激活。例如，参考图3D，根据确定手势334满足与外部设备304的电源ON/OFF功能相关联的一个或多个预定标准，用户设备312提供视觉反馈，该视觉反馈示出示能表示316朝向外部设备304的表示314按压，这指示示能表示316已被激活。

应当理解，所显示的视觉反馈的类型可根据在框414处显示的示能表示的类型而变化。例如，在所显示的示能表示是虚拟滑动条的实施方案中，所显示的视觉反馈包括显示虚拟滑动条从第一位置平移到第二位置的指示标识。在所显示的示能表示是虚拟转盘的实施方案中，所显示的视觉反馈包括显示虚拟转盘从第一位置旋转到第二位置。

出于例示和描述的目的呈现了具体实施方案的前述描述。它们并非旨在穷举或将权利要求的范围限制于所公开的精确形式，并且应当理解，鉴于上述教导，许多修改和变型是可能的。

Claims

1.一种用于控制外部设备的方法，所述方法包括：

在具有处理器和存储器的电子设备处：

从外部设备接收指定所述外部设备的功能的信息；

利用一个或多个图像传感器来获得包括所述外部设备的物理环境的第一图像数据；

在显示器上同时显示：

根据所述第一图像数据的所述物理环境的表示，其中所述物理环境的所显示的所述表示包括所述外部设备的表示；以及

与覆盖在所述外部设备的所述表示上的功能相对应的示能表示；

在同时显示所述物理环境的所述表示和与所述功能相对应的所述示能表示的同时，利用所述一个或多个图像传感器来获得识别手势的第二图像数据，所述手势发生在所述显示器和所述物理环境中的所述外部设备之间；

确定所识别的手势是否满足与所述功能相关联的一个或多个预定标准；以及

根据确定所识别的手势满足与所述功能相关联的一个或多个预定标准，使所述外部设备执行所述功能。

2.根据权利要求1所述的方法，还包括：

与所显示的所述物理环境的表示同时在所述显示器上显示所述手势的表示。

3.根据权利要求1至2中任一项所述的方法，还包括：

在获得所述物理环境的所述第一图像数据的同时，获得用户的由一个或多个第二图像传感器捕获的第三图像数据；以及

基于所述第三图像数据来确定所述用户相对于所述物理环境的所述表示的视线方向，其中所述物理环境的所述表示根据所确定的视线方向来显示。

4.根据权利要求3所述的方法，还包括：

在获得所述用户的所述第三图像数据的同时，使用深度传感器来获得所述用户的深度信息，其中基于所述深度信息来确定所述视线方向。

5.根据权利要求3所述的方法，还包括：

在获得所述物理环境的所述第一图像数据的同时，从陀螺仪和加速度计中的至少一个获得传感器数据，其中基于所述传感器数据和所述第三图像数据来确定所述视线方向。

6.根据权利要求1至2中任一项所述的方法，还包括：

在获得所述第二图像数据的同时，使用所述一个或多个图像传感器来获得所述手势的第二深度信息，其中确定所识别的手势是否满足与所述功能相关联的一个或多个预定标准还基于所述第二深度信息。

7.根据权利要求6所述的方法，还包括：

使用所述第二图像数据和所述第二深度信息来生成所述手势的三维表示，其中确定所识别的手势是否满足与所述功能相关联的一个或多个预定标准还包括将所述手势的所述三维表示与多个所存储的手势的三维表示进行比较。

8.根据权利要求1至2中任一项所述的方法，还包括：

在显示所述物理环境的所述表示之前，响应于检测所述外部设备，自动建立与所述外部设备的无线通信连接。

9.根据权利要求8所述的方法，其中使用在接收指定所述外部设备的所述功能的所述信息之前获得的连接信息来建立所述无线通信连接。

10.根据权利要求8所述的方法，其中使所述外部设备执行所述功能还包括使用所建立的无线通信连接来向所述外部设备发送请求，其中所述请求在被所述外部设备接收到时使所述外部设备执行所述功能。

11.根据权利要求1至2中任一项所述的方法，其中使所述外部设备执行所述功能还包括使所述外部设备与所述电子设备交换连接信息以在所述外部设备与所述电子设备之间建立无线通信连接。

12.根据权利要求1至2中任一项所述的方法，其中使所述外部设备执行所述功能还包括使所述外部设备调节所述外部设备的设置或操作状态。

13.根据权利要求1至2中任一项所述的方法，其中使所述外部设备执行所述功能还包括使所述外部设备向所述电子设备提供指定所述外部设备的设置或操作状态的信息，并且其中所述方法还包括在所述显示器上显示所述信息。

14.根据权利要求1至2中任一项所述的方法，其中使所述外部设备执行所述功能还包括使所述外部设备向所述电子设备传输媒体项或消息项。

15.根据权利要求1至2中任一项所述的方法，还包括：

在所述显示器上同时显示：

对应于所述功能的示能表示；和

所述物理环境的所述表示。

16.根据权利要求15所述的方法，其中所述示能表示显示在所显示的所述物理环境的表示上对应于所述外部设备的表示的位置处。

17.根据权利要求15所述的方法，还包括：

基于所述第一图像数据来确定所述外部设备包括被配置为执行所述功能的物理接口，其中所述示能表示显示在所显示的所述物理环境的表示上对应于所述外部设备的所述物理接口的位置处。

18.根据权利要求15所述的方法，还包括：

确定所识别的手势与所述物理环境的所述表示上所显示的示能表示之间的距离，其中所述一个或多个预定标准包括所确定的距离小于预定阈值距离的标准。

19.根据权利要求15所述的方法，还包括：

根据确定所识别的手势满足与所述功能相关联的一个或多个预定标准，在所述显示器上显示所述示能表示的视觉反馈。

20.一种计算机可读存储介质，所述计算机可读存储介质存储被配置为由一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行以下操作的指令：

从外部设备接收指定所述外部设备的功能的信息；

在显示器上同时显示：

21.根据权利要求20所述的计算机可读存储介质，所述一个或多个程序包括用于执行以下操作的指令：

22.根据权利要求20至21中任一项所述的计算机可读存储介质，所述一个或多个程序包括用于执行以下操作的指令：

23.根据权利要求22所述的计算机可读存储介质，所述一个或多个程序包括用于执行以下操作的指令：

24.根据权利要求22所述的计算机可读存储介质，所述一个或多个程序包括用于执行以下操作的指令：

25.根据权利要求20至21中任一项所述的计算机可读存储介质，所述一个或多个程序包括用于执行以下操作的指令：

26.根据权利要求25所述的计算机可读存储介质，所述一个或多个程序包括用于执行以下操作的指令：

27.根据权利要求20至21中任一项所述的计算机可读存储介质，所述一个或多个程序包括用于执行以下操作的指令：

28.根据权利要求27所述的计算机可读存储介质，其中使用在接收指定所述外部设备的所述功能的所述信息之前获得的连接信息来建立所述无线通信连接。

29.根据权利要求27所述的计算机可读存储介质，其中使所述外部设备执行所述功能还包括使用所建立的无线通信连接来向所述外部设备发送请求，其中所述请求在被所述外部设备接收到时使所述外部设备执行所述功能。

30.根据权利要求20-21中任一项所述的计算机可读存储介质，其中使所述外部设备执行所述功能还包括使所述外部设备与电子设备交换连接信息以在所述外部设备与所述电子设备之间建立无线通信连接。

31.根据权利要求20-21中任一项所述的计算机可读存储介质，其中使所述外部设备执行所述功能还包括使所述外部设备调节所述外部设备的设置或操作状态。

32.根据权利要求20-21中任一项所述的计算机可读存储介质，其中使所述外部设备执行所述功能还包括使所述外部设备向电子设备提供指定所述外部设备的设置或操作状态的信息，并且其中所述一个或多个程序还包括用于在所述显示器上显示所述信息的指令。

33.根据权利要求20-21中任一项所述的计算机可读存储介质，其中使所述外部设备执行所述功能还包括使所述外部设备向电子设备传输媒体项或消息项。

34.根据权利要求20至21中任一项所述的计算机可读存储介质，所述一个或多个程序包括用于执行以下操作的指令：

在所述显示器上同时显示：

对应于所述功能的示能表示；以及

所述物理环境的所述表示。

35.根据权利要求34所述的计算机可读存储介质，其中所述示能表示显示在所显示的所述物理环境的表示上对应于所述外部设备的表示的位置处。

36.根据权利要求34所述的计算机可读存储介质，所述一个或多个程序包括用于执行以下操作的指令：

37.根据权利要求34所述的计算机可读存储介质，所述一个或多个程序包括用于执行以下操作的指令：

38.根据权利要求34所述的计算机可读存储介质，所述一个或多个程序包括用于执行以下操作的指令：

39.一种用于控制外部设备的系统，包括：

一个或多个处理器；以及

存储器，所述存储器存储被配置为由所述一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行以下操作的指令：

从所述外部设备接收指定所述外部设备的功能的信息；

在显示器上同时显示：

40.根据权利要求39所述的系统，所述一个或多个程序包括用于执行以下操作的指令：

41.根据权利要求39至40中任一项所述的系统，所述一个或多个程序包括用于执行以下操作的指令：

42.根据权利要求41所述的系统，所述一个或多个程序包括用于执行以下操作的指令：

43.根据权利要求41所述的系统，所述一个或多个程序包括用于执行以下操作的指令：

44.根据权利要求39至40中任一项所述的系统，所述一个或多个程序包括用于执行以下操作的指令：

45.根据权利要求44所述的系统，所述一个或多个程序包括用于执行以下操作的指令：

46.根据权利要求39至40中任一项所述的系统，所述一个或多个程序包括用于执行以下操作的指令：

47.根据权利要求46所述的系统，其中使用在接收指定所述外部设备的所述功能的所述信息之前获得的连接信息来建立所述无线通信连接。

48.根据权利要求46所述的系统，其中使所述外部设备执行所述功能还包括使用所建立的无线通信连接来向所述外部设备发送请求，其中所述请求在被所述外部设备接收到时使所述外部设备执行所述功能。

49.根据权利要求39-40中任一项所述的系统，其中使所述外部设备执行所述功能还包括使所述外部设备与电子设备交换连接信息以在所述外部设备与所述电子设备之间建立无线通信连接。

50.根据权利要求39-40中任一项所述的系统，其中使所述外部设备执行所述功能还包括使所述外部设备调节所述外部设备的设置或操作状态。

51.根据权利要求39-40中任一项所述的系统，其中使所述外部设备执行所述功能还包括使所述外部设备向电子设备提供指定所述外部设备的设置或操作状态的信息，并且其中所述一个或多个程序还包括用于在所述显示器上显示所述信息的指令。

52.根据权利要求39-40中任一项所述的系统，其中使所述外部设备执行所述功能还包括使所述外部设备向电子设备传输媒体项或消息项。

53.根据权利要求39至40中任一项所述的系统，所述一个或多个程序包括用于执行以下操作的指令：

在所述显示器上同时显示：

对应于所述功能的示能表示；以及

所述物理环境的所述表示。

54.根据权利要求53所述的系统，其中所述示能表示显示在所显示的所述物理环境的表示上对应于所述外部设备的表示的位置处。

55.根据权利要求53所述的系统，所述一个或多个程序包括用于执行以下操作的指令：

56.根据权利要求53所述的系统，所述一个或多个程序包括用于执行以下操作的指令：

57.根据权利要求53所述的系统，所述一个或多个程序包括用于执行以下操作的指令：

58.一种电子设备，所述电子设备包括用于执行根据权利要求1-2中任一项所述的方法的装置。