CN114402290A

CN114402290A - 用于与三维环境进行交互的设备、方法和图形用户界面

Info

Publication number: CN114402290A
Application number: CN202080064539.7A
Authority: CN
Inventors: J·M·福克纳; I·帕斯特拉纳文森特; P·洛克尔; W·M·霍尔德; P·P·I·康内萨; N·W·亨德森; R·T·蒂尔顿; R·R·德林格; S·O·勒梅; W·A·索伦帝诺三世; G·耶基斯; P·马里; K·E·S·鲍尔利
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2019-09-28
Filing date: 2020-09-25
Publication date: 2022-04-26
Also published as: JP2022547930A; EP4010789A1; AU2020356572B2; AU2024202670A1; KR20220045977A; CN114721470A; AU2020356572A1; WO2021062148A1; US20210097776A1

Abstract

当在三维环境中用第一空间位置显示虚拟对象时，计算机系统检测由用户执行的第一手部移动。根据确定该第一手部移动满足第一手势标准，该计算机系统根据该第一手部移动执行第一操作，而不将该虚拟对象移动远离该第一空间位置；以及根据确定该第一手部移动满足第二手势标准，该计算机系统显示该虚拟对象已经转变为重新配置模式的第一视觉指示，并且进一步检测由该用户执行的第二手部移动。根据确定该第二手部移动满足该第一手势标准，该计算机系统根据该第二手部移动将该虚拟对象从该第一空间位置移动到第二空间位置。

Description

用于与三维环境进行交互的设备、方法和图形用户界面

相关专利申请

本专利申请要求2019年9月28日提交的美国临时专利申请号62/907,614和2020年9月23日提交的美国专利申请号17/030,219的优先权，并且是2020年9月23日提交的美国专利申请号17/030,219的延续。

技术领域

本公开整体涉及具有显示生成部件和提供计算机生成的体验的一个或多个输入设备(包括但不限于经由显示器提供虚拟现实和混合现实体验的电子设备)的计算机系统。

背景技术

近年来，用于增强现实的计算机系统的发展显著增加。示例增强现实环境包括至少一些替换或增强物理世界的虚拟元素。用于计算机系统和其他电子计算设备的输入设备(诸如相机、控制器、操纵杆、触敏表面和触摸屏显示器)用于与虚拟/增强现实环境进行交互。示例性虚拟元素包括虚拟对象(包括数字图像、视频、文本、图标、控制元素(诸如按钮)，以及其他图形)。

但用于与包括至少一些虚拟元素的环境(例如，应用程序、增强现实环境、混合现实环境和虚拟现实环境)进行交互的方法和界面麻烦、低效且受限。例如，提供用于执行与虚拟对象相关联的动作的不足反馈的系统、需要一系列输入来在增强现实环境中实现期望结果的系统，以及虚拟对象操纵复杂、繁琐且容易出错的系统，会给用户造成巨大的认知负担，并且减损虚拟/增强现实环境的体验感。此外，这些方法花费比所需时间更长的时间，从而浪费能量。这后一考虑在电池驱动的设备中是特别重要的。

发明内容

因此，需要具有改进的方法和界面的计算机系统来向用户提供计算机生成的体验，从而使得用户与计算机系统的交互对用户来说更高效且更直观。此类方法和界面任选地补充或替换用于向用户提供计算机生成的现实体验的常规方法。此类方法和界面通过帮助用户理解所提供的输入与设备对这些输入的响应之间的联系，减少了来自用户的输入的数量、程度和/或性质，从而形成了更有效的人机界面。

所公开的系统减少或消除了与用于计算机系统的用户界面相关联的上述缺陷和其他问题，这些计算机系统具有显示生成部件和一个或多个输入设备。在一些实施方案中，计算机系统是具有相关联显示器的台式计算机。在一些实施方案中，计算机系统是便携式设备(例如，笔记本电脑、平板电脑或手持式设备)。在一些实施方案中，计算机系统是个人电子设备(例如，可穿戴电子设备，诸如手表或头戴式设备)。在一些实施方案中，计算机系统具有触控板。在一些实施方案中，计算机系统具有一个或多个相机。在一些实施方案中，计算机系统具有触敏显示器(也称为“触摸屏”或“触摸屏显示器”)。在一些实施方案中，计算机系统具有一个或多个眼睛跟踪部件。在一些实施方案中，计算机系统具有一个或多个手部跟踪部件。在一些实施方案中，除显示生成部件之外，计算机系统还具有一个或多个输出设备，这些输出设备包括一个或多个触觉输出发生器和一个或多个音频输出设备。在一些实施方案中，计算机系统具有图形用户界面(GUI)、一个或多个处理器、存储器和一个或多个模块、存储在存储器中用于执行多个功能的程序或指令集。在一些实施方案中，用户通过触控笔和/或手指在触敏表面上的接触和手势、用户的眼睛和手部在相对于GUI或用户身体的空间中的移动(如由相机和其他移动传感器捕获的)以及语音输入(如由一个或多个音频输入设备捕获的)与GUI进行交互。在一些实施方案中，通过交互执行的功能任选地包括图像编辑、绘图、演示、文字处理、电子表格制作、玩游戏、接打电话、视频会议、收发电子邮件、即时通讯、测试支持、数字摄影、数字视频录制、网页浏览、数字音乐播放、记笔记和/或数字视频播放。用于执行这些功能的可执行指令任选地被包括在被配置用于由一个或多个处理器执行的非暂态计算机可读存储介质或其他计算机程序产品中。

需要具有改进的方法和界面的电子设备来与三维环境进行交互。此类方法和界面可以补充或替换用于与三维环境进行交互的常规方法。此类方法和界面减少了来自用户的输入的数量、程度和/或性质，并且产生更高效的人机界面。

需要具有改进的方法和界面的电子设备来生成计算机生成环境。此类方法和界面可以补充或替换用于生成计算机生成环境的常规方法。此类方法和界面产生更高效的人机界面，并允许用户对设备进行更多控制，允许用户使用更安全、认知负担减少且用户体验改善的设备。

根据一些实施方案，在包括显示生成部件和一个或多个输入设备的计算机系统处执行一种方法，该方法包括：在三维环境中用第一空间位置显示虚拟对象；当在三维环境中用第一空间位置显示虚拟对象时，检测由用户执行的第一手部移动；响应于检测到由用户执行的第一手部移动：根据确定第一手部移动满足第一手势标准，根据第一手部移动执行第一操作，而不将虚拟对象移动远离第一空间位置；以及根据确定第一手部移动满足第二手势标准，显示虚拟对象已经转变为重新配置模式的第一视觉指示；当显示具有虚拟对象已经转变为重新配置模式的第一视觉指示的虚拟对象时，检测由用户执行的第二手部移动；响应于检测到由用户执行的第二手部移动：根据确定第二手部移动满足第一手势标准，根据第二手部移动将虚拟对象从第一空间位置移动到第二空间位置。

根据一些实施方案，在包括显示生成部件和一个或多个输入设备的计算机系统处执行一种方法，该方法包括：经由显示生成部件显示三维场景，该三维场景至少包括在第一位置处的第一虚拟对象和在与第一位置分开的第二位置处的第一物理表面，其中第一虚拟对象以第一显示特性的与第一虚拟对象的第一部分对应的第一值和第一显示特性的与第一虚拟对象的第二部分对应的第二值来显示，第一显示特性的第二值不同于第一显示特性的第一值；以及当显示包括第一虚拟对象和第一物理表面的三维场景时，经由显示生成部件在三维场景的第二位置处生成第一视觉效应，其中生成第一视觉效应包括：根据第一显示特性的与第一虚拟对象的第一部分对应的第一值来修改三维场景中第一物理表面的第一部分的视觉外观；以及根据第一显示特性的与第一虚拟对象的第二部分对应的第二值来修改三维场景中第一物理表面的第二部分的视觉外观，其中由于第一虚拟对象的第一部分和第二部分中的第一显示特性的第一值和第二值的差异，第一物理表面的第一部分的视觉外观和第一物理表面的第二部分的视觉外观被不同地修改。

根据一些实施方案，在包括显示生成部件和一个或多个输入设备的计算机系统处执行一种方法，该方法包括：经由显示生成部件显示三维场景，该三维场景包括第一组物理元素和第一数量的虚拟元素，其中第一组物理元素至少包括与第一类物理对象对应的物理元素和与第二类物理对象对应的物理元素；当经由显示生成部件显示具有第一数量的虚拟元素的三维场景时，检测两个或更多个用户输入的序列；以及响应于检测到该两个或更多个用户输入的序列中的连续用户输入，根据该两个或更多个用户输入的序列中的连续输入相继增加在三维场景中显示的虚拟元素的数量，包括：响应于检测到该两个或更多个用户输入的序列中的第一用户输入，以及根据确定第一用户输入满足第一标准，显示具有至少第一组一个或多个物理元素的第一子集和第二数量的虚拟元素的三维场景，第二数量的虚拟元素与第一数量的虚拟元素相比占据三维场景的更大部分，包括三维场景的在检测到第一用户输入之前被第一类物理元素占据的第一部分；以及响应于检测到该两个或更多个用户输入的序列中的第二用户输入，以及根据确定第二用户输入在第一用户输入之后并且满足第一标准，显示具有至少第一组一个或多个物理元素的第二子集和第三数量的虚拟元素的三维场景，第三数量的虚拟元素与第二数量的虚拟元素相比占据三维场景的更大部分，包括三维场景的在检测到第一用户输入之前被第一类物理元素占据的第一部分，以及三维场景的在检测到第二用户输入之前被第二类物理元素占据的第二部分。

根据一些实施方案，在包括显示生成部件和一个或多个输入设备的计算机系统处执行一种方法，该方法包括：经由显示生成部件显示三维场景，该三维场景至少包括第一物理对象或该第一物理对象的表示，其中第一物理对象具有至少第一物理表面，并且其中第一物理对象或该第一物理对象的表示在三维场景中的相应位置对应于该第一物理对象在该显示生成部件周围的物理环境中的相应位置；当显示三维场景时，检测是否满足第一交互标准，其中第一交互标准包括当检测到用户和第一物理对象之间的第一用户交互水平时满足的第一标准；响应于检测到满足第一交互标准，经由显示生成部件在与第一物理对象的第一物理表面在三维场景中的位置对应的位置处显示第一用户界面；当在与第一物理对象的第一物理表面或该第一物理表面的表示在三维场景中的位置对应的位置处显示第一用户界面时，检测是否满足第二交互标准，其中第二交互标准包括当检测到第二用户交互水平时满足的第二标准，该第二用户交互水平大于用户和第一物理对象之间的第一用户交互水平；以及响应于检测到满足第二交互标准，在与第一物理对象的第一物理表面或该第一物理表面的表示在三维场景中的位置对应的位置处用第二用户界面的显示替换第一用户界面的显示。

根据一些实施方案，在包括显示生成部件和一个或多个输入设备的计算机系统处执行一种方法，该方法包括：经由显示生成部件显示三维场景，该三维场景至少包括具有第一物理表面的第一物理对象并且至少包括具有第一虚拟表面的第一虚拟对象；当显示包括第一物理对象和第一虚拟对象的三维场景时，检测激活基于语音的虚拟助手的请求；响应于检测到激活基于语音的虚拟助手的请求：激活被配置为接收语音命令的基于语音的虚拟助手；在三维场景中显示基于语音的虚拟助手的视觉表示，包括以视觉表示的第一显示特性的第一组值显示基于语音的虚拟助手的视觉表示；以及根据基于语音的虚拟助手的视觉表示的第一显示特性的第一组值来修改第一物理对象的第一物理表面的至少一部分和第一虚拟对象的第一虚拟表面的至少一部分的视觉外观。

根据一些实施方案，计算机系统包括显示生成部件(例如，显示器、投影仪、头戴式显示器等)、一个或多个输入设备(例如，一个或多个相机、触敏表面、任选地用于检测与触敏表面的接触强度的一个或多个传感器)、任选地一个或多个触觉输出发生器、一个或多个处理器，以及存储一个或多个程序的存储器；一个或多个程序被配置为由一个或多个处理器执行，并且一个或多个程序包括用于执行或引起执行本文所述方法中的任一种方法的操作的指令。根据一些实施方案，非暂态计算机可读存储介质在其中存储有指令，这些指令当由具有显示生成部件、一个或多个输入设备(例如，一个或多个相机、触敏表面、任选地用于检测与触敏表面的接触强度的一个或多个传感器)以及任选地一个或多个触觉输出发生器的计算机系统执行时，使得该设备执行本文所述的方法中的任一种方法的操作或使得执行本文所述的方法中的任一种方法的操作。根据一些实施方案，具有显示生成部件、一个或多个输入设备(例如，一个或多个相机、触敏表面、任选地用于检测与触敏表面的接触强度的一个或多个传感器)、任选地一个或多个触觉输出发生器、存储器以及用于执行存储在存储器中的一个或多个程序的一个或多个处理器的计算机系统的图形用户界面包括在本文所述的方法中的任一种方法中显示的元素中的一个或多个元素，该一个或多个元素响应于输入而进行更新，如本文所述的方法中的任一种方法中所述。根据一些实施方案，计算机系统包括：显示生成部件、一个或多个输入设备(例如，一个或多个相机、触敏表面、任选地用于检测与触敏表面的接触强度的一个或多个传感器)以及任选地一个或多个触觉输出发生器；以及用于执行或导致执行本文所述的方法中的任一种方法的操作的装置。根据一些实施方案，用于具有显示生成部件、一个或多个输入设备(例如，一个或多个相机、触敏表面、任选地用于检测与触敏表面的接触强度的一个或多个传感器)以及任选地一个或多个触觉输出发生器的计算机系统中的信息处理装置包括用于执行或使得执行本文所述的方法中的任一种方法的操作的设备。

因此，为具有显示生成部件的计算机系统提供了改进的方法和界面，以用于与三维环境进行交互并且有利于用户在与三维环境进行交互时使用计算机系统，从而提高此类计算机系统的有效性、效率，以及用户安全性和满意度。此类方法和界面可以补充或替换用于与三维环境进行交互并且有利于用户在与三维环境进行交互时使用计算机系统的常规方法。

需注意，上述各种实施方案可与本文所述任何其他实施方案相结合。本说明书中描述的特征和优点并不全面，具体来说，根据附图、说明书和权利要求书，许多另外的特征和优点对本领域的普通技术人员将是显而易见的。此外，应当指出，出于可读性和指导性目的，在原则上选择了本说明书中使用的语言，并且可以不这样选择以描绘或界定本发明的主题。

附图说明

为了更好地理解各种所述实施方案，应结合以下附图参考下面的具体实施方式，其中类似的附图标号在所有附图中指示对应的部分。

图1是示出根据一些实施方案的用于提供CGR体验的计算机系统的操作环境的框图。

图2是示出根据一些实施方案的计算机系统的被配置为管理和协调用户的CGR体验的控制器的框图。

图3是示出根据一些实施方案的计算机系统的被配置为向用户提供CGR体验的视觉组成部分的显示生成部件的框图。

图4是示出根据一些实施方案的计算机系统的被配置为捕获用户的手势输入的手部跟踪单元的框图。

图5是示出根据一些实施方案的计算机系统的被配置为捕获用户的注视输入的眼睛跟踪单元的框图。

图6是示出根据一些实施方案的闪光辅助的注视跟踪管道的流程图。

图7A至图7B是示出根据一些实施方案的用户与计算机生成的三维环境的交互(例如，包括重新配置和其他交互)的框图。

图7C至图7F是示出根据一些实施方案的用于生成计算机生成的三维环境(例如，包括模拟物理对象和虚拟对象之间的视觉相互作用)的方法的框图。

图7G至图7L是示出根据一些实施方案的用于生成计算机生成的三维环境并且有利于用户与三维环境的交互(例如，包括基于用户输入逐渐调整计算机生成体验的沉浸感程度)的方法的框图。

图7M至图7R是示出根据一些实施方案的用于有利于用户与计算机生成环境的交互(例如，利用与物理表面的交互来控制设备或与计算机生成环境进行交互)的方法的框图。

图7S至图7X是示出根据一些实施方案的用于生成计算机生成的三维环境(例如，包括模拟环境中基于语音的虚拟助手与物理对象和虚拟对象之间的视觉相互作用)的方法的框图。

图8是根据一些实施方案的与计算机生成的三维环境进行交互(例如，包括重新配置和其他交互)的方法的流程图。

图9是根据一些实施方案的生成计算机生成的三维环境(例如，包括模拟物理对象和虚拟对象之间的视觉相互作用)的方法的流程图。

图10是根据一些实施方案的生成计算机生成的三维环境并且有利于用户与三维环境的交互(例如，包括基于用户输入逐渐调整计算机生成体验的沉浸感程度)的方法的流程图。

图11是根据一些实施方案的有利于用户与计算机生成环境的交互(例如，利用与物理表面的交互来控制设备或与计算机生成环境进行交互)的方法的流程图。

图12是根据一些实施方案的生成计算机生成的三维环境(例如，包括模拟环境中基于语音的虚拟助手与物理对象和虚拟对象之间的视觉相互作用)的方法的流程图。

具体实施方式

根据一些实施方案，本公开涉及用于向用户提供计算机生成的现实(CGR)体验的用户界面。

本文所述的系统、方法和GUI以多种方式改进与虚拟/增强现实环境进行的用户界面交互。

在一些实施方案中，计算机系统允许用户通过使用各种手势输入在与计算机生成的三维环境中的虚拟对象进行交互。第一预定义手势(例如，轻扫手势、轻击手势、捏合和拖动手势等)使得计算机系统执行与虚拟对象对应的第一操作，而当相同的预定义手势与特定修改手势(例如，重新配置手势)组合(例如，接在其后、与其同时，或在其完成后进行)时，该相同的预定义手势使得计算机系统将计算机生成的三维环境中的虚拟对象从一个位置移动到另一个位置。具体地，在一些实施方案中，预定义的重新配置手势使得虚拟对象进入重新配置模式。当处于重新配置模式时，对象响应于第一相应手势而在计算机生成环境中从一个位置移动到另一个位置，该第一相应手势被配置为当虚拟对象未处于重新配置模式时触发与虚拟对象的第一类型的交互(例如，激活、导航或旋转虚拟对象))。在一些实施方案中，重新配置手势不是移动虚拟对象的手势的一部分；并且在已经响应于检测到先前的重新配置手势而进入重新配置模式之后，虚拟对象任选地保持为重新配置模式。当虚拟对象处于重新配置模式时，计算机系统任选地响应指向计算机生成环境的其他手势输入，而不会导致虚拟对象退出重新配置模式。计算机系统根据第一相应手势移动虚拟对象，该第一相应手势还被配置为当虚拟对象未处于重新配置模式时触发与虚拟对象的第一类型的交互。提供对虚拟对象进入和保持为重新配置模式的视觉指示，以帮助用户了解计算机生成环境和虚拟对象的内部状态，并且提供适当的输入以实现期望结果。使用特定重新配置手势来使得虚拟对象进入重新配置模式、利用通常触发另一个操作的手势来重新配置环境并移动虚拟对象，以及响应于特定重新配置手势而提供对虚拟对象进入和保持为重新配置模式的视觉指示，减少了来自用户的输入的数量、程度和/或性质，并产生了更高效的人机界面。

在一些实施方案中，计算机系统生成三维环境，该三维环境包括物理对象(例如，透过显示生成部件的透明或半透明部分出现在三维环境中，或者出现在物理环境的相机视图中)和虚拟对象(例如，用户界面对象、模拟物理对象的计算机生成的虚拟对象和/或真实世界中不具有物理类似物的对象)两者。计算机系统根据光传播的模拟物理规律在虚拟对象和物理对象之间生成模拟视觉相互作用。具体地，从虚拟对象发出的光(例如，包括亮度、颜色、色调、时间变化、空间图案等)看起来照亮了在其环境中的物理对象和虚拟对象两者。计算机系统在物理表面的不同部分和虚拟表面的不同部分中生成由从虚拟对象发出的虚拟光造成的模拟照明和阴影。生成照明和阴影考虑了以下几点：光传播的物理规律，以及虚拟对象相对于环境内其他物理表面和虚拟表面的空间位置、虚拟表面的模拟物理特征(例如，表面纹理、光学特性、形状和尺寸等)，以及物理表面的实际物理特征(例如，表面纹理、光学特性、形状和尺寸等)。从虚拟对象的不同部分发出的光对环境中其他虚拟对象的不同部分和其他物理对象的不同部分产生的影响不同，这是因为这些对象的位置和物理特征的差异。通过在虚拟对象和物理对象之间生成逼真且详细的视觉相互作用，以及使虚拟对象和物理对象对来自虚拟对象的照明做出类似响应，计算机系统可以使三维环境更加逼真，这有助于用户更好地让他/她自己在计算机生成的三维环境中取向，并且在用户与计算机生成的三维环境进行交互时减少用户错误。

在一些实施方案中，用户提供两个或更多个预定义输入的序列以使得计算机系统相继增加由计算机系统提供的计算机生成体验的沉浸感程度。当用户将计算机系统的显示生成部件相对于用户放置在预定义位置中(例如，将显示器放置在他/她的眼睛前方，或者将头戴式设备放置在他/她的头部上)时，用户看真实世界的视野被显示生成部件阻挡，并且由显示生成部件呈现的内容主导用户的视野。有时，用户会受益于用于从真实世界转变为计算机生成体验的更加渐进且受控的过程。这样，当通过显示生成部件向用户显示内容时，计算机系统显示透传部分(该透传部分包括用户周围的真实世界的至少一部分的表示)，并逐渐增加虚拟元素的数量，这些虚拟元素替换透过显示生成部件可见的物理元素。具体地，响应于该两个或更多个用户输入的序列中的每个连续输入，从视图中移除不同类别的物理元素并用新显示的虚拟元素替换这些物理元素(例如，扩展现有虚拟元素或新添加的虚拟元素)。如由用户输入控制的进入和退出沉浸式环境的分阶段转变对用户来说是直观且自然的，并且提高了用户在使用计算机系统进行计算机生成的沉浸式体验时的体验和舒适度。将物理元素划分成不同类别的物理元素(其响应于相应输入而作为整体被替换)减少了转变为越来越有沉浸感的计算机生成环境所需的用户输入总数量，同时允许用户控制多个渐进转变。

在一些实施方案中，当计算机系统显示包括物理对象(例如，该物理对象透过显示生成部件可见(例如，透过显示生成部件的透明透传部分可见、在由显示生成部件示出的物理环境的相机视图中，或者作为由显示生成部件渲染的模拟现实环境中的物理对象的虚拟表示))的三维环境时，该物理对象具有物理表面(例如，平坦表面或平滑表面)。当物理对象和用户之间的交互水平处于第一预定义水平时，计算机系统在与物理对象在三维环境中的位置对应的位置处显示第一用户界面(例如，使得第一用户界面看起来覆盖在物理表面上面或位于该物理表面上)。当物理对象和用户之间的交互水平处于第二水平时(例如，高于第一交互水平)，计算机系统显示第二用户界面，该第二用户界面在与物理对象在三维环境中的位置对应的位置处替换第一用户界面(例如，使得第二用户界面看起来覆盖在物理表面上面或位于该物理表面上)。第二用户界面比第一用户界面提供与物理对象相关联的更多信息和/或功能。计算机系统允许用户使用各种装置与第一用户界面和第二用户界面进行交互，以接收信息并控制第一物理对象。该技术允许用户借助在计算机生成环境中的位置处提供的更多信息和控制来与物理对象进行交互。在计算机生成环境中的交互位置对应于在真实世界中的物理对象的物理位置。通过根据检测到的用户和物理对象之间的交互水平调整(例如，在不同用户界面中提供的)信息量和控制水平，计算机系统不会不必要地提供信息或扰乱计算机生成的三维环境，从而在用户与计算机生成环境进行交互时，减少用户混淆和用户错误。根据一些实施方案，该技术还允许用户利用附近的物理表面来远程控制物理对象。在一些实施方案中，用户可从远处控制物理对象或获得关于该物理对象的信息，使得用户与物理对象和/或三维环境的交互更高效。

在一些实施方案中，计算机系统生成三维环境，该三维环境包括物理对象(例如，透过显示生成部件的透明或半透明部分出现在三维环境中，或者出现在物理环境的相机视图中)和虚拟对象(例如，用户界面对象、模拟物理对象的计算机生成的虚拟对象和/或真实世界中不具有物理类似物的对象)两者。计算机系统还提供基于语音的虚拟助手。当基于语音的虚拟助手被激活时，计算机系统显示激活的虚拟助手的视觉表示。计算机系统还根据虚拟助手的视觉表示的显示特性的值来修改环境中的物理对象和虚拟对象的外观，并且有时修改用户的视野或屏幕的外围区域的背景。具体地，从虚拟助手的视觉表示发出的光(例如，包括亮度、颜色、色调、时间变化、空间图案等)看起来照亮了在其环境中的物理对象和虚拟对象两者，并且任选地照亮了用户的视野或屏幕的外围区域的背景。计算机系统在物理表面的不同部分和虚拟表面的不同部分中生成由从虚拟助手的视觉表示发出的虚拟光造成的模拟照明和阴影。生成照明和阴影考虑了以下几点：光传播的物理规律，以及虚拟助手的视觉表示相对于计算机生成环境内其他物理表面和虚拟表面的空间位置、虚拟表面的模拟物理特征(例如，表面纹理、光学特性、形状和尺寸等)，以及物理表面的实际物理特征(例如，表面纹理、光学特性、形状和尺寸等)。与虚拟助手相关联的灯光效应向用户提供了关于基于语音的虚拟助手的状态(例如，活动或睡眠、正在监听和/或正在响应)的连续且动态的反馈。通过在计算机生成环境中在虚拟助手的视觉表示与其他虚拟对象和物理对象之间生成逼真且详细的视觉相互作用，计算机系统可以使计算机生成的三维环境更加逼真且信息丰富，这有助于用户更好地让他/她自己在计算机生成的三维环境中取向，并且在用户与计算机生成的三维环境进行交互时减少用户错误。

图1至图6提供了对用于向用户提供CGR体验的示例性计算机系统的描述。图7A至图7B是示出根据一些实施方案的用户与计算机生成的三维环境的交互(例如，包括重新配置和其他交互)的框图。图7C至图7F是示出根据一些实施方案的用于生成计算机生成的三维环境(例如，包括模拟物理对象和虚拟对象之间的视觉相互作用)的方法的框图。图7G至图7L是示出根据一些实施方案的用于生成计算机生成的三维环境并且有利于用户与三维环境的交互(例如，包括基于用户输入逐渐调整计算机生成体验的沉浸感程度)的方法的框图。图7M至图7R是示出根据一些实施方案的用于有利于用户与计算机生成环境的交互(例如，利用与物理表面的交互来控制设备或与计算机生成环境进行交互)的方法的框图。图7S至图7X是示出根据一些实施方案的用于生成计算机生成的三维环境(例如，包括模拟环境中基于语音的虚拟助手与物理对象和虚拟对象之间的视觉相互作用)的方法的框图。图8是根据一些实施方案的与计算机生成的三维环境进行交互(例如，包括重新配置和其他交互)的方法的流程图。图9是根据一些实施方案的生成计算机生成的三维环境(例如，包括模拟物理对象和虚拟对象之间的视觉相互作用)的方法的流程图。图10是根据一些实施方案的生成计算机生成的三维环境并且有利于用户与三维环境的交互(例如，包括基于用户输入逐渐调整计算机生成体验的沉浸感程度)的方法的流程图。图11是根据一些实施方案的有利于用户与计算机生成环境的交互(例如，利用与物理表面的交互来控制设备或与计算机生成环境进行交互)的方法的流程图。图12是根据一些实施方案的生成计算机生成的三维环境(例如，包括模拟环境中基于语音的虚拟助手与物理对象和虚拟对象之间的视觉相互作用)的方法的流程图。图7A至图7X中的用户界面分别用于示出图8至图12中的过程。

在一些实施方案中，如图1中所示，经由包括计算机系统101的操作环境100向用户提供CGR体验。计算机系统101包括控制器110(例如，便携式电子设备的处理器或远程服务器)、显示生成部件120(例如，头戴式设备(HMD)、显示器、投影仪、触摸屏等)、一个或多个输入设备125(例如，眼睛跟踪设备130、手部跟踪设备140、其他输入设备150)、一个或多个输出设备155(例如，扬声器160、触觉输出发生器170和其他输出设备180)、一个或多个传感器190(例如，图像传感器、光传感器、深度传感器、触觉传感器、取向传感器、接近传感器、温度传感器、位置传感器、运动传感器、速度传感器等)，以及任选地一个或多个外围设备195(例如，家用电器、可穿戴设备等)。在一些实施方案中，输入设备125、输出设备155、传感器190和外围设备195中的一者或多者与显示生成部件120集成(例如，在头戴式设备或手持式设备中)。

在描述CGR体验时，各种术语用于区别地指代用户可以感测并且/或者用户可以与其进行交互(例如，利用由生成CGR体验的计算机系统101检测到的输入进行交互，这些输入使得生成CGR体验的计算机系统生成与提供给计算机系统101的各种输入对应的音频、视觉和/或触觉反馈)的若干相关但不同的环境。以下是这些术语的子集：

物理环境：物理环境是指人们在没有电子系统帮助的情况下能够感测和/或交互的物理世界。物理环境诸如物理公园包括物理物品，诸如物理树木、物理建筑物和物理人。人们能够诸如通过视觉、触觉、听觉、味觉和嗅觉来直接感测物理环境和/或与物理环境交互。

计算机生成的现实：相反地，计算机生成的现实(CGR)环境是指人们经由电子系统进行感测和/或交互的完全或部分模拟环境。在CGR中，跟踪人的物理运动的一个子集或其表示，并且作为响应，以符合至少一个物理定律的方式调节在CGR环境中模拟的一个或多个虚拟对象的一个或多个特征。例如，CGR系统可以检测人的头部转动，并且作为响应，以与此类视图和声音在物理环境中变化的方式类似的方式调节呈现给人的图形内容和声场。在一些情况下(例如，出于可达性原因)，对CGR环境中虚拟对象的特征的调节可以响应于物理运动的表示(例如，声音命令)来进行。人可以利用其感觉中的任一者来感测CGR对象和/或与CGR对象交互，包括视觉、听觉、触觉、味觉和嗅觉。例如，人可以感测音频对象和/或与音频对象交互，该音频对象创建3D或空间音频环境，该3D或空间音频环境提供3D空间中点音频源的感知。又如，音频对象可以使能音频透明度，该音频透明度在有或者没有计算机生成的音频的情况下选择性地引入来自物理环境的环境声音。在某些CGR环境中，人可以感测和/或只与音频对象交互。

CGR的示例包括虚拟现实和混合现实。

虚拟现实：虚拟现实(VR)环境是指被设计成对于一个或多个感官完全基于计算机生成的感官输入的模拟环境。VR环境包括人可以感测和/或交互的多个虚拟对象。例如，树木、建筑物和代表人的化身的计算机生成的图像是虚拟对象的示例。人可以通过在计算机生成的环境内人的存在的模拟和/或通过在计算机生成的环境内人的物理移动的一个子组的模拟来感测和/或与VR环境中的虚拟对象交互。

混合现实：与被设计成完全基于计算机生成的感官输入的VR环境相比，混合现实(MR)环境是指被设计成除了包括计算机生成的感官输入(例如，虚拟对象)之外还引入来自物理环境的感官输入或其表示的模拟环境。在虚拟连续体上，混合现实环境是完全物理环境作为一端和虚拟现实环境作为另一端之间的任何状况，但不包括这两端。在一些MR环境中，计算机生成的感官输入可以对来自物理环境的感官输入的变化进行响应。另外，用于呈现MR环境的一些电子系统可以跟踪相对于物理环境的位置和/或取向，以使虚拟对象能够与真实对象(即，来自物理环境的物理物品或其表示)交互。例如，系统可以导致移动使得虚拟树木相对于物理地面看起来是静止的。

混合现实的示例包括增强现实和增强虚拟。

增强现实：增强现实(AR)环境是指其中一个或多个虚拟对象叠加在物理环境或物理环境的表示上方的模拟环境。例如，用于呈现AR环境的电子系统可具有透明或半透明显示器，人可以透过该显示器直接查看物理环境。该系统可以被配置为在透明或半透明显示器上呈现虚拟对象，使得人利用该系统感知叠加在物理环境之上的虚拟对象。另选地，系统可以具有不透明显示器和一个或多个成像传感器，该成像传感器捕获物理环境的图像或视频，这些图像或视频是物理环境的表示。系统将图像或视频与虚拟对象组合，并在不透明显示器上呈现组合物。人利用系统经由物理环境的图像或视频而间接地查看物理环境，并且感知叠加在物理环境之上的虚拟对象。如本文所用，在不透明显示器上显示的物理环境的视频被称为“透传视频”，意味着系统使用一个或多个图像传感器捕获物理环境的图像，并且在不透明显示器上呈现AR环境时使用那些图像。进一步另选地，系统可以具有投影系统，该投影系统将虚拟对象投射到物理环境中，例如作为全息图或者在物理表面上，使得人利用该系统感知叠加在物理环境之上的虚拟对象。增强现实环境也是指其中物理环境的表示被计算机生成的感官信息进行转换的模拟环境。例如，在提供透传视频中，系统可以对一个或多个传感器图像进行转换以施加与成像传感器所捕获的视角不同的选择视角(例如，视点)。又如，物理环境的表示可以通过图形地修改(例如，放大)其部分而进行转换，使得经修改部分可以是原始捕获图像的代表性的但不是真实的版本。再如，物理环境的表示可以通过以图形方式消除其部分或将其部分进行模糊处理而进行转换。

增强虚拟：增强虚拟(AV)环境是指其中虚拟环境或计算机生成环境结合了来自物理环境的一项或多项感官输入的模拟环境。感官输入可以是物理环境的一个或多个特性的表示。例如，AV公园可以具有虚拟树木和虚拟建筑物，但人的脸部是从对物理人拍摄的图像逼真再现的。又如，虚拟对象可以采用一个或多个成像传感器所成像的物理物品的形状或颜色。再如，虚拟对象可以采用符合太阳在物理环境中的定位的阴影。

硬件：有许多不同类型的电子系统使人能够感测各种CGR环境和/或与各种CGR环境进行交互。示例包括头戴式系统、基于投影的系统、平视显示器(HUD)、集成有显示能力的车辆挡风玻璃、集成有显示能力的窗户、被形成为被设计用于放置在人眼睛上的透镜的显示器(例如，类似于隐形眼镜)、耳机/听筒、扬声器阵列、输入系统(例如，具有或没有触觉反馈的可穿戴或手持控制器)、智能电话、平板电脑、和台式/膝上型计算机。头戴式系统可以具有一个或多个扬声器和集成的不透明显示器。另选地，头戴式系统可以被配置成接受外部不透明显示器(例如，智能电话)。头戴式系统可以结合用于捕获物理环境的图像或视频的一个或多个成像传感器、和/或用于捕获物理环境的音频的一个或多个麦克风。头戴式系统可以具有透明或半透明显示器，而不是不透明显示器。透明或半透明显示器可以具有媒介，代表图像的光通过该媒介被引导到人的眼睛。显示器可以利用数字光投影、OLED、LED、uLED、硅基液晶、激光扫描光源或这些技术的任意组合。媒介可以是光学波导、全息图媒介、光学组合器、光学反射器、或它们的任意组合。在一个实施方案中，透明或半透明显示器可被配置为选择性地变得不透明。基于投影的系统可以采用将图形图像投影到人的视网膜上的视网膜投影技术。投影系统还可以被配置为将虚拟对象投影到物理环境中例如作为全息图，或者投影在物理表面上。在一些实施方案中，控制器110被配置为管理和协调用户的CGR体验。在一些实施方案中，控制器110包括软件、固件和/或硬件的合适组合。下文参考图2更详细地描述控制器110。在一些实施方案中，控制器110是相对于场景105(例如，物理布景/环境)处于本地或远程的计算设备。例如，控制器110是位于场景105内的本地服务器。又如，控制器110是位于场景105之外的远程服务器(例如，云服务器、中央服务器等)。在一些实施方案中，控制器110经由一个或多个有线或无线通信通道144(例如，蓝牙、IEEE 802.11x、IEEE 802.16x、IEEE 802.3x等)与显示生成部件120(例如，HMD、显示器、投影仪、触摸屏等)通信地耦接。在另一个示例中，控制器110包括在显示生成部件120(例如，HMD或包括显示器和一个或多个处理器的便携式电子设备等)、输入设备125中的一个或多个输入设备、输出设备155中的一个或多个输出设备、传感器190中的一个或多个传感器和/或外围装设备195中的一个或多个外围装设备的壳体(例如，物理外壳)内，或者与上述设备中的一者或多者共享相同的物理壳体或支撑结构。

在一些实施方案中，显示生成部件120被配置为向用户提供CGR体验(例如，至少CGR体验的视觉组成部分)。在一些实施方案中，显示生成部件120包括软件、固件和/或硬件的合适组合。下文相对于图3更详细地描述了显示生成部件120。在一些实施方案中，控制器110的功能由显示生成部件120提供和/或与该显示生成部件组合。

根据一些实施方案，当用户虚拟地和/或物理地存在于场景105内时，显示生成部件120向用户提供CGR体验。

在一些实施方案中，显示生成部件穿戴在用户身体的一部分上(例如，他/她的头部上、他/她的手部上等)。这样，显示生成部件120包括被提供用于显示CGR内容的一个或多个CGR显示器。例如，在各种实施方案中，显示生成部件120包围用户的视场。在一些实施方案中，显示生成部件120是被配置为呈现CGR内容的手持式设备(诸如智能电话或平板电脑)，并且用户握持具有朝向用户的视场的显示器和朝向场景105的相机的设备。在一些实施方案中，手持式设备被任选地放置在穿戴在用户的头部上的壳体内。在一些实施方案中，手持式设备被任选地放置在用户前面的支撑件(例如，三脚架)上。在一些实施方案中，显示生成部件120是被配置为呈现CGR内容的CGR室、壳体或房间，其中用户不穿戴或握持显示生成部件120。参考用于显示CGR内容的一种类型的硬件(例如，手持式设备或三脚架上的设备)描述的许多用户界面可以在用于显示CGR内容的另一种类型的硬件(例如，HMD或其他可穿戴计算设备)上实现。例如，示出基于发生在手持式设备或三脚架安装的设备前面的空间中的交互而触发的与CGR内容的交互的用户界面可以类似地用HMD来实现，其中交互发生在HMD前面的空间中，并且对CGR内容的响应经由HMD来显示。类似地，示出基于手持式设备或三脚架安装的设备相对于物理环境(例如，场景105或用户身体的一部分(例如，用户的眼睛、头部或手部))的移动而触发的与CRG内容的交互的用户界面可以类似地用HMD来实现，其中移动是由HMD相对于物理环境(例如，场景105或用户身体的一部分(例如，用户的眼睛、头部或手部))的移动引起的。

尽管在图1中示出了操作环境100的相关特征，但本领域的普通技术人员将从本公开中认识到，为了简洁起见并且为了不模糊本文所公开的示例性实施方案的更多相关方面，未示出各种其他特征。

图2是根据一些实施方案的控制器110的示例的框图。尽管示出了一些具体特征，但本领域的技术人员将从本公开中认识到，为简洁起见并且为了不使本文所公开的实施方案的更多相关方面晦涩难懂，未示出各种其他特征。出于该目的，作为非限制性示例，在一些实施方案中，控制器110包括一个或多个处理单元202(例如，微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、图形处理单元(GPU)、中央处理单元(CPU)、处理核心等)、一个或多个输入/输出(I/O)设备206、一个或多个通信接口208(例如，通用串行总线(USB)、FIREWIRE、THUNDERBOLT、IEEE 802.3x、IEEE 802.11x、IEEE802.16x、全球移动通信系统(GSM)、码分多址(CDMA)、时分多址(TDMA)、全球定位系统(GPS)、红外(IR)、BLUETOOTH、ZIGBEE和/或类似类型接口)、一个或多个编程(例如，I/O)接口210、存储器220，以及用于互连这些部件和各种其他部件的一条或多条通信总线204。

在一些实施方案中，一条或多条通信总线204包括互连和控制系统部件之间的通信的电路。在一些实施方案中，一个或多个I/O设备206包括键盘、鼠标、触控板、操纵杆、一个或多个麦克风、一个或多个扬声器、一个或多个图像传感器、一个或多个显示器等中的至少一种。

存储器220包括高速随机存取存储器，诸如动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、双倍数据速率随机存取存储器(DDR RAM)或者其他随机存取固态存储器设备。在一些实施方案中，存储器220包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存存储器设备或其他非易失性固态存储设备。存储器220任选地包括远离一个或多个处理单元202定位的一个或多个存储设备。存储器220包括非暂态计算机可读存储介质。在一些实施方案中，存储器220或者存储器220的非暂态计算机可读存储介质存储下述程序、模块和数据结构或者它们的子集，其中包括任选的操作系统230和CGR体验模块240。

操作系统230包括用于处理各种基础系统服务和用于执行硬件相关任务的指令。在一些实施方案中，CGR体验模块240被配置为管理和协调一个或多个用户的单重或多重CGR体验(例如，一个或多个用户的单重CGR体验，或一个或多个用户的相应群组的多重CGR体验)。为此，在各种实施方案中，CGR体验模块240包括数据获取单元242、跟踪单元244、协调单元246和数据传输单元248。

在一些实施方案中，数据获取单元242被配置为从图1的至少显示生成部件120，以及任选地从输入设备125、输出设备155、传感器190和/或外围设备195中的一者或多者获取数据(例如，呈现数据、交互数据、传感器数据、位置数据等)。出于该目的，在各种实施方案中，数据获取单元242包括指令和/或用于指令的逻辑以及启发法和用于启发法的元数据。

在一些实施方案中，跟踪单元244被配置为映射场景105，并且跟踪至少显示生成部件120相对于图1的场景105的位置，以及任选地跟踪输入设备125、输出设备155、传感器190和/或外围设备195中的一者或多者的位置。出于该目的，在各种实施方案中，跟踪单元244包括指令和/或用于指令的逻辑以及启发法和用于启发法的元数据。在一些实施方案中，跟踪单元244包括手部跟踪单元243和/或眼睛跟踪单元245。在一些实施方案中，手部跟踪单元243被配置为跟踪用户的手部的一个或多个部分的位置，以及/或者用户的手部的一个或多个部分相对于图1的场景105的、相对于显示生成部件120和/或相对于坐标系(该坐标系是相对于用户的手部定义的)的运动。下文相对于图4更详细地描述了手部跟踪单元243。在一些实施方案中，眼睛跟踪单元245被配置为跟踪用户注视(或更广泛地，用户的眼睛、面部或头部)相对于场景105(例如，相对于物理环境和/或相对于用户(例如，用户的手部))或相对于经由显示生成部件120显示的CGR内容的位置或移动。下文相对于图5更详细地描述了眼睛跟踪单元245。

在一些实施方案中，协调单元246被配置为管理和协调由显示生成部件120，以及任选地由输出设备155和/或外围装设备195中的一者或多者呈现给用户的CGR体验。出于该目的，在各种实施方案中，协调单元246包括指令和/或用于指令的逻辑以及启发法和用于启发法的元数据。

在一些实施方案中，数据传输单元248被配置为将数据(例如，呈现数据、位置数据等)传输到至少显示生成部件120，并且任选地传输到输入设备125、输出设备155、传感器190和/或外围设备195中的一者或多者。出于该目的，在各种实施方案中，数据传输单元248包括指令和/或用于指令的逻辑以及启发法和用于启发法的元数据。

尽管数据获取单元242、跟踪单元244(例如，包括眼睛跟踪单元243和手部跟踪单元244)、协调单元246和数据传输单元248被示为驻留在单个设备(例如，控制器110)上，但应当理解，在其他实施方案中，数据获取单元242、跟踪单元244(例如，包括眼睛跟踪单元243和手部跟踪单元244)、协调单元246和数据传输单元248的任何组合可以位于单独计算设备中。

此外，图2意在更多地用作对可存在于特定具体实施中的各种特征的功能描述，而不是本文所述的实施方案的结构示意图。如本领域的普通技术人员将认识到的，单独显示的项目可以组合，并且一些项目可以分开。例如，图2中单独示出的一些功能模块可在单个模块中实现，并且单个功能块的各种功能可在各种实施方案中通过一个或多个功能块来实现。模块的实际数量和特定功能的划分以及如何在其中分配特征将根据具体实施而变化，并且在一些实施方案中，部分地取决于为特定具体实施选择的硬件、软件和/或固件的特定组合。

图3是根据一些实施方案的显示生成部件120的示例的框图。尽管示出了一些具体特征，但本领域的技术人员将从本公开中认识到，为简洁起见并且为了不使本文所公开的实施方案的更多相关方面晦涩难懂，未示出各种其他特征。出于该目的，作为非限制性示例，在一些实施方案中，HMD 120包括一个或多个处理单元302(例如，微处理器、ASIC、FPGA、GPU、CPU、处理核心等)、一个或多个输入/输出(I/O)设备和传感器306、一个或多个通信接口308(例如，USB、FIREWIRE、THUNDERBOLT、IEEE 802.3x、IEEE 802.11x、IEEE 802.16x、GSM、CDMA、TDMA、GPS、IR、BLUETOOTH、ZIGBEE和/或类似类型的接口)、一个或多个编程(例如，I/O)接口310、一个或多个CGR显示器312、一个或多个任选的面向内部和/或面向外部的图像传感器314、存储器320，以及用于互连这些部件和各种其他部件的一条或多条通信总线304。

在一些实施方案中，一条或多条通信总线304包括互连和控制系统部件之间的通信的电路。在一些实施方案中，一个或多个I/O设备和传感器306包括以下项中的至少一者：惯性测量单元(IMU)、加速度计、陀螺仪、温度计、一个或多个生理传感器(例如，血压监测仪、心率监测仪、血液氧传感器、血糖传感器等)、一个或多个麦克风、一个或多个扬声器、触觉引擎、一个或多个深度传感器(例如，结构光、飞行时间等)等。

在一些实施方案中，一个或多个CGR显示器312被配置为向用户提供CGR体验。在一些实施方案中，一个或多个CGR显示器312对应于全息、数字光处理(DLP)、液晶显示器(LCD)、硅上液晶(LCoS)、有机发光场效应晶体管(OLET)、有机发光二极管(OLED)、表面传导电子发射显示器(SED)、场发射显示器(FED)、量子点发光二极管(QD-LED)、微机电系统(MEMS)和/或类似的显示器类型。在一些实施方案中，一个或多个CGR显示器312对应于衍射、反射、偏振、全息等波导显示器。例如，HMD 120包括单个CGR显示器。又如，HMD 120包括针对用户的每只眼睛的CGR显示器。在一些实施方案中，一个或多个CGR显示器312能够呈现MR和VR内容。在一些实施方案中，一个或多个CGR显示器312能够呈现AR或VR内容。

在一些实施方案中，一个或多个图像传感器314被配置为获取与用户面部的包括用户的眼睛的至少一部分对应的图像数据(并且可被称为眼睛跟踪相机)。在一些实施方案中，一个或多个图像传感器314被配置为获取与用户的手部以及任选地用户的手臂的至少一部分对应的图像数据(并且可被称为手部跟踪相机)。在一些实施方案中，一个或多个图像传感器314被配置为面向前方，以便获取与在不存在HMD 120的情况下用户将会看到的场景对应的图像数据(并且可被称为场景相机)。一个或多个任选图像传感器314可包括一个或多个RGB相机(例如，具有互补金属氧化物半导体(CMOS)图像传感器或电荷耦合器件(CCD)图像传感器)、一个或多个红外(IR)相机以及/或者一个或多个基于事件的相机等。

存储器320包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备。在一些实施方案中，存储器320包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存存储器设备或其他非易失性固态存储设备。存储器320任选地包括远离一个或多个处理单元302定位的一个或多个存储设备。存储器320包括非暂态计算机可读存储介质。在一些实施方案中，存储器320或存储器320的非暂态计算机可读存储介质存储下述程序、模块和数据结构或者它们的子集，包括任选的操作系统330和CGR呈现模块340。

操作系统330包括用于处理各种基础系统服务和用于执行硬件相关任务的指令。在一些实施方案中，CGR呈现模块340被配置为经由一个或多个CGR显示器312向用户呈现CGR内容。出于该目的，在各种实施方案中，CGR呈现模块340包括数据获取单元342、CGR呈现单元344、CGR映射生成单元346和数据传输单元348。

在一些实施方案中，数据获取单元342被配置为至少从图1的控制器110获取数据(例如，呈现数据、交互数据、传感器数据、位置数据等)。出于该目的，在各种实施方案中，数据获取单元342包括指令和/或用于这些指令的逻辑以及启发法和用于这些启发法的元数据。

在一些实施方案中，CGR呈现单元344被配置为经由一个或多个CGR显示器312呈现CGR内容。出于该目的，在各种实施方案中，CGR呈现单元344包括指令和/或用于这些指令的逻辑以及启发法和用于这些启发法的元数据。

在一些实施方案中，CGR映射生成单元346被配置为基于媒体内容数据生成CGR映射图(例如，混合现实场景的3D映射图或可以在其中放置计算机生成对象的物理环境以生成计算机生成现实的映射图)。出于该目的，在各种实施方案中，CGR映射生成单元346包括指令和/或用于这些指令的逻辑以及启发法和用于这些该启发法的元数据。

在一些实施方案中，数据传输单元348被配置为将数据(例如，呈现数据、位置数据等)传输到至少控制器110，以及任选地输入设备125、输出设备155、传感器190和/或外围设备195中的一者或多者。出于该目的，在各种实施方案中，数据传输单元348包括指令和/或用于这些指令的逻辑以及启发法和用于这些启发法的元数据。

尽管数据获取单元342、CGR呈现单元344、CGR映射生成单元346和数据传输单元348被示出为驻留在单个设备(例如，图1B的显示生成部件120)上，但应当理解，在其他实施方案中，数据获取单元342、CGR呈现单元344、CGR映射生成单元346和数据传输单元348的任何组合可位于单独计算设备中。

此外，图3意在更多地用作对可存在于特定实施方案中的各种特征的功能描述，而不是本文所述的实施方案的结构示意图。如本领域的普通技术人员将认识到的，单独显示的项目可以组合，并且一些项目可以分开。例如，图3中单独示出的一些功能模块可在单个模块中实现，并且单个功能块的各种功能可在各种实施方案中通过一个或多个功能块来实现。模块的实际数量和特定功能的划分以及如何在其中分配特征将根据具体实施而变化，并且在一些实施方案中，部分地取决于为特定具体实施选择的硬件、软件和/或固件的特定组合。

图4是手部跟踪设备140的示例性实施方案的示意性图解。在一些实施方案中，手部跟踪设备140(图1)由手部跟踪单元243控制(图2)来跟踪用户的手部的一个或多个部分的位置，以及/或者用户的手部的一个或多个部分相对于图1的场景105(例如，相对于用户周围的物理环境的一部分、相对于显示生成部件120，或者相对于用户的一部分(例如，用户的面部、眼睛或头部)，以及/或者相对于坐标系(该坐标系是相对于用户的手部定义的))的运动。在一些实施方案中，手部跟踪设备140是显示生成部件120的一部分(例如，嵌入头戴式设备中或附接到头戴式设备)。在一些实施方案中，手部跟踪设备140与显示生成部件120分开(例如，位于单独的外壳中或者附接到单独的物理支撑结构)。

在一些实施方案中，手部跟踪设备140包括捕获至少包括人类用户的手部406的三维场景信息的图像传感器404(例如，一个或多个IR相机、3D相机、深度相机和/或彩色相机等)。图像传感器404以足够的分辨率捕获手部图像，以使手指及其相应位置能够被区分。图像传感器404通常捕获用户身体的其他部分、还或可能捕获身体的所有部分的图像，并且可以具有缩放能力或具有增大放大率的专用传感器以用期望分辨率捕获手部的图像。在一些实施方案中，图像传感器404还捕获手部406的2D彩色视频图像和场景的其他元素。在一些实施方案中，图像传感器404与其他图像传感器结合使用以捕获场景105的物理环境，或者用作捕获场景105的物理环境的图像传感器。在一些实施方案中，以将图像传感器404或其一部分的视场用于限定交互空间的方式相对于用户或用户的环境定位图像传感器，在该交互空间中，由图像传感器捕获的手部移动被视为到控制器110的输入。

在一些实施方案中，图像传感器404将包含3D映射数据(以及此外，可能的彩色图像数据)的帧序列输出到控制器110，该控制器从映射数据提取高级信息。该高级信息通常经由应用程序接口(API)提供给在控制器上运行的应用程序，该应用程序相应地驱动显示生成部件120。例如，用户可以通过移动他的手部408并改变他的手部姿势来与在控制器110上运行的软件交互。

在一些实施方案中，图像传感器404将斑点图案投影到包含手部406的场景上并且捕获所投影图案的图像。在一些实施方案中，控制器110基于图案中斑点的横向偏移来通过三角测量计算场景中的点(包括用户的手部的表面上的点)的3D坐标。这种方法是有利的，因为该方法不需要用户握持或穿戴任何种类的信标、传感器或其他标记。该方法给出了场景中的点在距图像传感器404的特定距离处相对于预先确定的参考平面的深度坐标。在本公开中，假设图像传感器404限定x轴、y轴、z轴的正交集合，使得场景中的点的深度坐标对应于由图像传感器测量的z分量。另选地，手部跟踪设备440可基于单个或多个相机或其他类型的传感器而使用其他3D映射方法，诸如立体成像或飞行时间测量。

在一些实施方案中，手部跟踪设备140在用户移动他的手部(例如，整个手部或一根或多根手指)时捕获并处理包含用户的手部的深度映射图的时间序列。在图像传感器404和/或控制器110中的处理器上运行的软件处理3D映射数据以提取这些深度映射图中手部的图像块描述符。软件可基于先前的学习过程将这些描述符与存储在数据库408中的图像块描述符匹配，以便估计每个帧中手部的位姿。位姿通常包括用户的手部关节和手指尖端的3D位置。

软件还可以分析手部和/或手指在序列中的多个帧上的轨迹以识别手势。本文所述的位姿估计功能可以与运动跟踪功能交替，使得每两个(或更多个)帧仅执行一次基于图像块的位姿估计，而跟踪用于找到在剩余帧上发生的位姿的变化。经由上述API向在控制器110上运行的应用程序提供位姿、运动和手势信息。该程序可以例如响应于位姿和/或手势信息而移动和修改呈现在显示生成部件120上的图像，或者执行其他功能。

在一些实施方案中，软件可以例如通过网络以电子形式下载到控制器110，或者可以另选地在有形非暂态介质诸如光学、磁性或电子存储器介质上提供。在一些实施方案中，数据库408同样存储在与控制器110相关联的存储器中。另选地或除此之外，计算机的所描述的功能中的一些或全部可以在专用硬件(诸如，定制或半定制集成电路或可编程数字信号处理器(DSP))中实现。尽管在图4中示出了控制器110，但是举例来说，作为与图像传感器440分开的单元，控制器的处理功能中一些或全部可以由合适的微处理器和软件或由手部跟踪设备402的外壳内的专用电路或与图像传感器404相关联的其他设备执行。在一些实施方案中，这些处理功能中的至少一些可由与显示生成部件120(例如，在电视接收机、手持式设备或头戴式设备中)集成或与任何其他合适的计算机化设备(诸如，游戏控制台或媒体播放器)集成的合适处理器执行。图像传感器404的感测功能同样可以集成到将由传感器输出控制的计算机或其他计算机化装置中。

图4还包括根据一些实施方案的由图像传感器404捕获的深度映射图410的示意图。如上所述，深度图包括具有相应深度值的像素的矩阵。与手部406对应的像素412已经从该映射图中的背景和手腕分割出来。深度映射图410内的每个像素的亮度与其深度值(即，测量的距图像传感器404的z距离)成反比，其中灰色阴影随着深度的增加而变得更暗。控制器110处理这些深度值以便识别和分割图像的具有人类手部特征的组成部分(即，一组相邻像素)。这些特征可包括例如总体大小、形状和从深度映射图序列中的帧到帧的运动。

图4还示意性地示出了根据一些实施方案的控制器110最终从手部406的深度映射图410提取的手部骨骼414。在图4中，骨骼414叠加在已经从原始深度映射图分割出来的手部背景416上。在一些实施方案中，手部的以及任选地在连接到手部的手腕或手臂上的关键特征点(例如，与指关节、手指尖端、手掌中心、手部的连接到手腕的端部等对应的点)被识别并位于手部骨骼414上。在一些实施方案中，控制器110使用这些关键特征点在多个图像帧上的位置和移动来根据一些实施方案确定由手部执行的手势或手部的当前状态。

图5示出了眼睛跟踪设备130(图1)的示例性实施方案。在一些实施方案中，眼睛跟踪设备130由眼睛跟踪单元245(图2)控制来跟踪用户注视相对于场景105或相对于经由显示生成部件120显示的CGR内容的位置和移动。在一些实施方案中，眼睛跟踪设备130与显示生成部件120集成。例如，在一些实施方案中，当显示生成部件120是头戴式设备(诸如，头戴式耳机、头盔、护目镜或眼镜)或放置在可穿戴框架中的手持式设备时，该头戴式设备包括生成CGR内容以供用户观看的部件以及用于跟踪用户相对于CGR内容的注视的部件两者。在一些实施方案中，眼睛跟踪设备130与显示生成部件120分开。例如，当显示生成部件是手持式设备或CGR室时，眼睛跟踪设备130任选地是与手持式设备或CGR室分开的设备。在一些实施方案中，眼睛跟踪设备130是头戴式设备或头戴式设备的一部分。在一些实施方案中，头戴式眼睛跟踪设备130任选地与也是头戴式的显示生成部件或不是头戴式的显示生成部件结合使用。在一些实施方案中，眼睛跟踪设备130不是头戴式设备，并且任选地与头戴式显示生成部件结合使用。在一些实施方案中，眼睛跟踪设备130不是头戴式设备，并且任选地是非头戴式显示生成部件的一部分。

在一些实施方案中，显示生成部件120使用显示机构(例如，左近眼显示面板和右近眼显示面板)来在用户眼睛前面显示包括左图像和右图像的帧，从而向用户提供3D虚拟视图。例如，头戴式显示生成部件可包括位于显示器和用户眼睛之间的左光学透镜和右光学透镜(在本文中被称为眼睛透镜)。在一些实施方案中，显示生成部件可包括或耦接到一个或多个外部摄像机，该一个或多个外部摄像机捕获用户的环境的视频以用于显示。在一些实施方案中，头戴式显示生成部件可具有透明或半透明显示器，并且在该透明或半透明显示器上显示虚拟对象，用户可以透过该透明或半透明显示器直接观看物理环境。在一些实施方案中，显示生成部件将虚拟对象投影到物理环境中。虚拟对象可例如被投影在物理表面上或作为全息图被投影，使得个体使用系统观察叠加在物理环境上方的虚拟对象。在这种情况下，可能不需要用于左眼和右眼的单独的显示面板和图像帧。

如图5中所示，在一些实施方案中，注视跟踪设备130包括至少一个眼睛跟踪相机(例如，红外(IR)或近红外(NIR)相机)，以及朝向用户眼睛发射光(例如，IR或NIR光)的照明源(例如，IR或NIR光源，诸如LED的阵列或环)。眼睛跟踪相机可指向用户眼睛以接收光源直接从眼睛反射的IR或NIR光，或者另选地可指向位于用户眼睛和显示面板之间的“热”镜，这些热镜将来自眼睛的IR或NIR光反射到眼睛跟踪相机，同时允许可见光通过。注视跟踪设备130任选地捕获用户眼睛的图像(例如，作为以每秒60帧-120帧(fps)捕获的视频流)，分析这些图像以生成注视跟踪信息，并将注视跟踪信息传送到控制器110。在一些实施方案中，用户的两只眼睛通过相应的眼睛跟踪相机和照明源来单独地跟踪。在一些实施方案中，通过相应的眼睛跟踪相机和照明源来跟踪用户的仅一只眼睛。

在一些实施方案中，使用设备特定的校准过程来校准眼睛跟踪设备130以确定用于特定操作环境100的眼睛跟踪设备的参数，例如LED、相机、热镜(如果存在的话)、眼睛透镜和显示屏的3D几何关系和参数。在将AR/VR装备递送给终端用户之前，可以在工厂或另一个设施处执行设备特定的校准过程。设备特定的校准过程可以是自动校准过程或手动校准过程。根据一些实施方案，用户特定的校准过程可以包括对特定用户的眼睛参数的估计，例如瞳孔位置、中央凹位置、光轴、视轴、眼睛间距等。根据一些实施方案，一旦针对眼睛跟踪设备130确定了设备特定参数和用户特定参数，就可以使用闪光辅助方法来处理由眼睛跟踪相机捕获的图像，以确定当前视轴和用户相对于显示器的注视点。

如图5中所示，眼睛跟踪设备130(例如，130A或130B)包括眼睛透镜520和注视跟踪系统，该注视跟踪系统包括定位在用户面部的被执行眼睛跟踪的一侧上的至少一个眼睛跟踪相机540(例如，红外(IR)或近红外(NIR)相机)，以及朝向用户眼睛592发射光(例如，IR或NIR光)的照明源530(例如，IR或NIR光源，诸如NIR发光二极管(LED)的阵列或环)。眼睛跟踪相机540可指向位于用户眼睛592和显示器510(例如，头戴式显示器的左显示器面板或右显示器面板，或者手持式设备的显示器、投影仪等)之间的镜子550(这些镜子反射来自眼睛592的IR或NIR光，同时允许可见光通过)(例如，如图5的顶部部分所示)，或者另选地可指向用户眼睛592以接收来自眼睛592的反射IR或NIR光(例如，如图5的底部部分所示)。

在一些实施方案中，控制器110渲染AR或VR帧562(例如，用于左显示面板和右显示面板的左帧和右帧)并且将帧562提供给显示器510。控制器110将来自眼睛跟踪相机540的注视跟踪输入542用于各种目的，例如用于处理帧562以用于显示。控制器110任选地基于使用闪光辅助方法或其他合适的方法从眼睛跟踪相机540获取的注视跟踪输入542来估计用户在显示器510上的注视点。根据注视跟踪输入542估计的注视点任选地用于确定用户当前正在看向的方向。

以下描述了用户当前注视方向的几种可能的使用案例，并且不旨在进行限制。作为示例性使用案例，控制器110可以基于所确定的用户注视的方向不同地渲染虚拟内容。例如，控制器110可以在根据用户当前注视方向确定的中央凹区域中以比在外围区域中的分辨率更高的分辨率生成虚拟内容。作为另一个示例，控制器可至少部分地基于用户当前注视方向来在视图中定位或移动虚拟内容。作为另一个示例，控制器可至少部分地基于用户当前注视方向来在视图中显示特定虚拟内容。作为AR应用程序中的另一个示例性使用案例，控制器110可引导用于捕获CGR体验的物理环境的外部相机在所确定方向上聚焦。然后，外部相机的自动聚焦机构可以聚焦于显示器510上用户当前正看向的环境中的对象或表面上。作为另一个示例性使用案例，眼睛透镜520可以是可聚焦透镜，并且控制器使用注视跟踪信息来调整眼睛透镜520的焦点，使得用户当前正看向的虚拟对象具有适当的聚散度以匹配用户眼睛592的会聚。控制器110可以利用注视跟踪信息来引导眼睛透镜520调整焦点，使得用户正看向的靠近的对象出现在正确距离处。

在一些实施方案中，眼睛跟踪设备是头戴式设备的一部分，该部分包括安装在可穿戴外壳中的显示器(例如，显示器510)、两个眼睛透镜(例如，眼睛透镜520)、眼睛跟踪相机(例如，眼睛跟踪相机540)，以及光源(例如，光源530(例如，IR或NIR LED))。光源朝向用户眼睛592发射光(例如，IR或NIR光)。在一些实施方案中，光源可围绕透镜中的每个透镜布置成环或圆圈，如图5中所示。在一些实施方案中，例如，八个光源530(例如，LED)围绕每个透镜520布置。然而，可使用更多或更少的光源530，并且可使用光源530的其他布置和位置。

在一些实施方案中，显示器510发射可见光范围内的光，并且不发射IR或NIR范围内的光，并且因此不会在注视跟踪系统中引入噪声。需注意，眼睛跟踪相机540的位置和角度以举例的方式给出，并且不旨在进行限制。在一些实施方案中，单个眼睛跟踪相机540位于用户面部的每一侧上。在一些实施方案中，可在用户面部的每一侧上使用两个或更多个NIR相机540。在一些实施方案中，可在用户面部的每一侧上使用具有较宽视场(FOV)的相机540和具有较窄FOV的相机540。在一些实施方案中，可在用户面部的每一侧上使用以一个波长(例如，850nm)操作的相机540和以不同波长(例如，940nm)操作的相机540。

如图5中所示的注视跟踪系统的实施方案可以例如用于计算机生成的现实(例如，包括虚拟现实和/或混合现实)应用程序，以向用户提供计算机生成的现实(例如，包括虚拟现实、增强现实和/或增强虚拟)体验。

图6示出了根据一些实施方案的闪光辅助的注视跟踪管道。在一些实施方案中，注视跟踪管道通过闪光辅助的注视跟踪系统(例如，如图1和图5中所示的眼睛跟踪设备130)来实现。闪光辅助的注视跟踪系统可保持跟踪状态。最初，跟踪状态为关闭或“否”。当处于跟踪状态时，当分析当前帧以跟踪当前帧中的瞳孔轮廓和闪光时，闪光辅助的注视跟踪系统使用来自先前帧的先前信息。当未处于跟踪状态时，闪光辅助的注视跟踪系统尝试检测当前帧中的瞳孔和闪光，并且如果成功，则将跟踪状态初始化为“是”并且在跟踪状态下继续下一个帧。

如图6中所示，注视跟踪相机可捕获用户左眼和右眼的左图像和右图像。然后将所捕获的图像输入到注视跟踪管道以用于在610处开始处理。如返回到元素600的箭头所指示的，注视跟踪系统可例如以每秒60至120帧的速率继续捕获用户眼睛的图像。在一些实施方案中，可以将每组所捕获的图像输入到管道以用于处理。然而，在一些实施方案中或在一些条件下，不是所有所捕获的帧都由管道处理。

在610处，对于当前所捕获的图像，如果跟踪状态为是，则方法前进到元素640。在610处，如果跟踪状态为否，则如620处所指示的，分析图像以检测图像中的用户瞳孔和闪光。在630处，如果成功检测到瞳孔和闪光，则方法前进到元素640。否则，方法返回到元素610以处理用户眼睛的下一个图像。

在640处，如果从元素410前进，则分析当前帧以部分地基于来自先前帧的先前信息来跟踪瞳孔和闪光。在640处，如果从元素630前进，则基于当前帧中检测到的瞳孔和闪光来初始化跟踪状态。检查元素640处的处理结果以验证跟踪或检测的结果可以是可信的。例如，可检查结果以确定是否在当前帧中成功跟踪或检测到用于执行注视估计的瞳孔和足够数量的闪光。在650处，如果结果不可能是可信的，则跟踪状态被设置为否，并且方法返回到元素610以处理用户眼睛的下一个图像。在650处，如果结果是可信的，则方法前进到元素670。在670处，跟踪状态被设置为YES(如果尚未为是)，并且瞳孔和闪光信息被传递到元素680以估计用户的注视点。

图6旨在用作可用于特定具体实施的眼睛跟踪技术的一个示例。如本领域普通技术人员所认识到的，根据各种实施方案，在用于向用户提供CGR体验的计算机系统101中，当前存在或未来开发的其他眼睛跟踪技术可用于取代本文所述的闪光辅助的眼睛跟踪技术或与该闪光辅助的眼睛跟踪技术组合使用。

在本公开中，相对于与计算机系统的交互来描述各种输入方法。当使用一个输入设备或输入方法来提供示例，并且使用另一个输入设备或输入方法来提供另一个示例时，应当理解，每个示例可与相对于另一个示例描述的输入设备或输入方法兼容并且任选地利用该输入设备或输入方法。类似地，相对于与计算机系统的交互来描述各种输出方法。当使用一个输出设备或输出方法来提供示例，并且使用另一个输出设备或输出方法来提供另一个示例时，应当理解，每个示例可与相对于另一个示例描述的输出设备或输出方法兼容并且任选地利用该输出设备或输出方法。类似地，相对于通过计算机系统与虚拟环境或混合现实环境进行的交互来描述各种方法。当使用与虚拟环境的交互来提供示例时，并且使用混合现实环境来提供另一个示例时，应当理解，每个示例可与相对于另一个示例描述的方法兼容并且任选地利用这些方法。因此，本公开公开了作为多个示例的特征的组合的实施方案，而无需在每个示例性实施方案的描述中详尽地列出实施方案的所有特征。

用户界面和相关联的过程

现在将注意力转向可在具有显示生成部件、一个或多个输入设备以及(任选)一个或多个相机的计算机系统(诸如，便携式多功能设备或头戴式设备)上实现的用户界面(“UI”)和相关联过程的实施方案。

图7A至图7B是根据一些实施方案说明用户与计算机生成的三维环境交互(例如，包括重新配置和其他交互)的框图。图7A至图7B用于示出下文描述的过程，包括图8中的过程。

在一些实施方案中，关于图7A至图7B描述的输入手势通过分析由传感器系统(例如，传感器190，图1；图像传感器314，图3)捕获的数据或信号来检测。在一些实施方案中，传感器系统包括一个或多个成像传感器(例如，一个或多个相机，诸如运动RGB相机、红外相机、深度相机等)。例如，该一个或多个成像传感器是计算机系统(例如，图1中的计算机系统101(例如，如图7A至图7B中所示的便携式电子设备7100或HMD))的部件或者向该计算机系统提供数据，该计算机系统包括显示生成部件(例如，图1、图3和图4中的显示生成部件120(例如，用作显示器和触敏表面的触摸屏显示器、立体显示器、具有透传部分的显示器等))。在一些实施方案中，该一个或多个成像传感器在设备的与设备的显示器相反的一侧上包括一个或多个后向相机。在一些实施方案中，由头戴式系统的传感器系统(例如，包括立体显示器的VR头戴式耳机，该立体显示器为用户的左眼提供左图像并为用户的右眼提供右图像)检测输入手势。例如，为头戴式系统的部件的一个或多个相机安装在该头戴式系统的前部和/或下侧上。在一些实施方案中，一个或多个成像传感器位于其中使用头戴式系统的空间中(例如，在房间中的各个位置中围绕头戴式系统排列)，使得成像传感器捕获该头戴式系统和/或该头戴式系统的用户的图像。在一些实施方案中，由平视设备(诸如，平视显示器、具有显示图形的能力的汽车挡风玻璃、具有显示图形的能力的窗户、具有显示图形的能力的透镜)的传感器系统检测输入手势。例如，一个或多个成像传感器附接到汽车的内部表面。在一些实施方案中，传感器系统包括一个或多个深度传感器(例如，传感器阵列)。例如，该一个或多个深度传感器包括一个或多个基于光的(例如，红外)传感器和/或一个或多个基于声音的(例如，超声)传感器。在一些实施方案中，传感器系统包括一个或多个信号发射器，诸如光发射器(例如，红外发射器)和/或声音发射器(例如，超声发射器)。例如，在光(例如，来自具有预先确定图案的红外光发射器阵列的光)被投影到手部(例如，如关于图7A至图7B描述的手部7200)上时，由该一个或多个相机捕获在光的照明下的手部的图像，并且所捕获的图像被分析以确定手部的位置和/或构造。使用来自指向手部的图像传感器的信号来确定输入手势，而不是使用触敏表面或其他直接接触机构或基于接近的机构的信号，允许用户自由选择在利用他/她的手部提供输入手势时是执行大幅运动还是保持相对静止，而不经受由特定输入设备或输入区域施加的限制。

在一些实施方案中，多个用户界面对象7208、7210和7212(例如，其在菜单或任务栏中，或彼此独立)显示在计算机生成的三维环境(例如，虚拟环境或混合现实环境)中。该多个用户界面对象任选地被显示为在三维环境中漂浮在空间中或物理对象上方。用户界面对象中的每个用户界面对象任选地具有一个或多个对应操作，该一个或多个对应操作可在三维环境内执行或者在与计算机系统通信的物理环境中引起一定效应(例如，控制与设备7100通信的另一个设备(例如，扬声器或智能灯))。在一些实施方案中，由计算机系统(例如，设备7100(图7A至图7B)或HMD)的显示器将用户界面对象7208、7210和7212与由计算机系统(例如，设备7100)的一个或多个后向相机捕获的物理环境的视图的至少一部分一起显示(例如，这些用户界面对象被显示为覆盖在该至少一部分上面或替换该至少一部分)。在一些实施方案中，用户界面对象7208、7210和7212显示在计算机系统(例如，平视显示器或HMD)的透明或半透明显示器上，物理环境透过该透明或半透明显示器可见。在一些实施方案中，用户界面对象7208、7210和7212显示在包括被虚拟内容包围的透传部分(例如，物理周围环境透过其可见的透明或半透明部分，或者显示周围物理环境的相机视图的一部分)的用户界面中。在一些实施方案中，用户界面对象7208、7210和7212显示在虚拟现实环境中(例如，悬停在虚拟空间中，或者覆盖在虚拟表面上面)。

在一些实施方案中，手部7200的表示在虚拟现实环境中可见(例如，在虚拟现实布景中渲染由一个或多个相机捕获的手部7200的图像)。在一些实施方案中，在虚拟现实布景中渲染手部7200的表示7200’(例如，手部7200的卡通版本)。在一些实施方案中，手部7200或该手部的表示在虚拟现实环境中不可见(例如，从虚拟现实环境中省略)。在一些实施方案中，设备7100(图7C)在虚拟现实环境中不可见(例如，当设备7100是HMD时)。在一些实施方案中，设备7100的图像或设备7100的表示在虚拟现实环境中可见。

在一些实施方案中，用户界面对象7208、7210和7212中的一者或多者是应用程序启动图标(例如，以用于执行启动对应应用程序的操作，以及显示与相应应用程序对应的快速动作菜单的操作等)。在一些实施方案中，用户界面对象7208、7210和7212中的一者或多者是用于在应用程序内执行相应操作(例如，增大音量、减小音量、播放、暂停、快进、后退、发起与远程设备的通信、终止与远程设备的通信、向远程设备传输通信、启动游戏等)的控件。在一些实施方案中，用户界面对象7208、7210和7212中的一者或多者是远程设备的用户的相应表示(例如，化身)(例如，以用于执行发起与远程设备的相应用户的通信的操作)。在一些实施方案中，用户界面对象7208、7210和7212中的一者或多者是媒体项目(例如，图像、虚拟对象、音频文件和/或视频文件)的表示(例如，缩略图、二维图像或专辑封面)。例如，激活为图像的表示的用户界面对象使得该图像被显示(例如，在与由一个或多个相机检测到的表面对应的位置处)，并且被显示在计算机生成的现实视图中(例如，在与物理环境中的表面对应的位置处或在与在虚拟空间中显示的表面对应的位置处)。在为专辑(例如，音乐专辑、图册、翻页书册等)的用户界面对象内进行导航使得当前播放或显示的项目被切换为该专辑中的另一个项目。

如图7A中所示，在没有为任何用户界面对象激活重新配置模式时，响应于手部7200提供的不同类型的手势输入，相对于三维环境中的用户界面对象7208、7210和7212执行两个不同操作。

在图7A(a-1)中至图7A(a-3)中，手部7200的拇指通过沿着竖直轴线向下移动、触压食指的一侧并且向上移动以抬离食指的该侧来执行轻击手势。在当前选择指示符(例如，选择器对象或可移动视觉效应，诸如通过对象的轮廓或外观变化来突出显示该对象)位于用户界面对象7208上时执行轻击手势，从而指示用户界面对象7208的当前选定状态。在一些实施方案中，响应于检测到手部7200的轻击输入，计算机系统(例如，设备7100)执行第一操作(例如，激活用户界面对象7208)，该第一操作使得显示虚拟对象7202(例如，其作为由用户界面对象7208表示的应用程序的用户界面的一部分，或者作为由用户界面对象7208表示的内容等)。用户界面对象7208的视觉外观指示执行了第一操作(例如，其已经被激活但未被移动)。

在图7A(a-4)之前的图7A(a-1)至图7A(a-5)中，手部7200通过在手部的拇指触压食指的该侧之后横向移动来执行拖动手势。在当前选择指示符(例如，选择器对象或可移动视觉效应，诸如通过对象的轮廓或外观变化来突出显示该对象)位于用户界面对象7208上时执行拖动手势，从而指示用户界面对象7208的当前选定状态。在一些实施方案中，响应于检测到由手部7200进行的拖动输入，计算机系统(例如，设备7100)相对于用户界面对象7208执行第二操作(例如，从用户界面对象7208导航到用户界面对象7210，或者在用户界面对象7208内导航等)。用户界面对象的视觉外观指示执行了第二操作(例如，在用户界面对象的内容内导航或导航离开用户界面对象已经发生，但是对象在三维环境内未移动)。

图7B示出了与图7A中所示的那些场景相反的场景，其中执行(例如，与其他手势输入(例如，图7A中所示的那些手势)组合地执行)了重新配置手势，并且因此(例如，利用用户界面对象7208在三维环境中的移动)重新配置三维环境。

如图7B(a-1)至图7B(a-4)的序列中所示，在用户界面对象7208处于当前选定状态时，手部7200提供了手腕轻弹(wrist flick)手势。在该示例中，手腕轻弹手势是预定义的重新配置手势，该预定义的重新配置手势使得当前选定用户界面对象进入重新配置模式。在一些实施方案中，检测手腕轻弹手势包括：检测拇指在食指的该侧上的触压，接在其后的手部围绕手腕的向上旋转。任选地，在手腕轻弹手势结束时，拇指被抬离食指的该侧。响应于在(例如，通过先前输入，或者通过聚焦于用户界面对象7208上的注视输入)选择用户界面对象7208时检测到手腕轻弹手势，计算机系统(例如，设备7100)激活用户界面对象7208的重新配置模式。计算机系统还显示向用户通知用户界面对象7208现在处于重新配置模式的视觉指示。在一些实施方案中，如图7B(b-3)中所示，用户界面对象从其原始位置移出，并且任选地以改变(例如，变成半透明、放大和/或悬停等)的外观显示以指示用户界面对象7208处于重新配置模式。在一些实施方案中，在重新配置手势的终止之后，用户界面对象7208保持为重新配置模式，并且视觉指示保持在三维环境中显示。在一些实施方案中，当用户界面对象7208保持为重新配置模式(例如，在原始位置上方悬停并且具有改变的外观)时，计算机系统任选地响应其他用户输入并且根据其他用户输入提供与三维环境的交互。在一些实施方案中，当用户界面对象7208保持为重新配置模式时，计算机系统任选地允许用户使用第二手腕轻弹手势来使得另一个当前选定用户界面对象(例如，用户任选地利用注视或轻击输入选择另一个对象)进入重新配置模式。在一些实施方案中，当一个或多个用户界面对象(例如，用户界面对象7208)保持为重新配置模式时，计算机系统允许用户将目光转向并且/或者导航到三维环境的其他部分，而不移动处于重新配置模式的用户界面对象或与该用户界面对象进行交互。在一些实施方案中，与图7A(a-4)至图7A(a-5)中所示的相比，随后的拖动手势(例如，其由手部7200在手部的拇指触压食指的该侧之后横向移动来执行)使得处于重新配置模式的用户界面对象7208根据手部的移动在三维环境中从其当前位置移动到另一个位置(例如，如图7B(a-5)至图7B(a-6)中所示)。在一些实施方案中，根据拖动手势移动用户界面对象7208不会使得用户界面对象退出重新配置模式。当用户界面对象7208保持为重新配置模式时，任选地使用一个或多个附加拖动手势来将用户界面对象7208重新定位在三维环境中。在一些实施方案中，预定义的终止手势(例如，向下手腕轻弹手势(例如，在拖动手势结束时执行的向下手腕轻弹手势，或者不是另一个手势的一部分的独立向下手腕轻弹手势))使得用户界面对象7208退出重新配置模式。在一些实施方案中，一旦用户界面对象7208退出重新配置模式，其外观就恢复到其原始状态，并且该用户界面对象稳定在重新配置模式期间由指向用户界面对象的拖动输入指定的目的地位置中。

如在图7B(a-1)至图7B(a-2)之后的图7B(a-5)至图7B(a-6)的序列中所示，手部7200提供的手腕轻弹手势是结束于手部7200提供的拖动手势的组合手势的开始部分。在用户界面对象7208处于当前选定状态时，检测手腕轻弹手势。在该示例中，手腕轻弹手势使得当前选定用户界面对象进入重新配置模式并且根据拖动手势的移动而移动到不同位置。在一些实施方案中，在用户界面对象(例如，用户界面对象7208)进入重新配置模式之后，该用户界面对象任选地在通过拖动输入从环境中的一个位置移动到另一位置之后保持为重新配置模式。

在一些实施方案中，任选地使用其他类型的手势作为用于激活当前选定用户界面对象的重新配置模式的重新配置手势。在一些实施方案中，预定义手势任选地被配置为激活三维环境中的相应类别的用户界面对象的重新配置模式(例如，允许相同类别(例如，应用程序图标类别、内容项目类别、表示物理对象的对象类别等)的多个用户界面对象一起进入重新配置模式)，从而允许该相应类别的用户界面对象根据后续的移动输入(例如，拖动输入)在三维环境中单独或同步地移动。在一些实施方案中，计算机系统响应于在用户界面对象被选择(例如，通过先前输入或通过注视输入)时(例如，在手指或控制器上)检测到轻击输入而激活用户界面对象的重新配置模式。在一些实施方案中，计算机系统响应于在用户界面对象被选择(例如，通过先前输入或通过注视输入)时(例如，在手指或控制器上)检测到轻扫输入而激活用户界面对象的重新配置模式。

在一些实施方案中，当用户界面对象处于重新配置模式时，计算机系统显示视觉指示符(例如，用户界面对象的阴影图像或半透明图像)，该视觉指示符跟随用户的注视或手指的移动以指定用户界面对象在三维环境中的目的地位置。响应于检测到后续确认输入(例如，向下手腕轻弹手势，或者手指或控制器上的轻击输入)，计算机系统将用户界面对象放置在视觉指示符的当前位置处。

在一些实施方案中，图7A和图7B中所示的拖动输入被手指或控制器上的轻扫输入替换，以使得执行对应功能。

在一些实施方案中，用户界面对象在三维环境中的移动模拟真实世界中的物理对象的移动，并且受到三维环境中的虚拟表面和物理表面的限制。例如，在当虚拟对象处于重新配置模式时虚拟对象响应于拖动输入而移动时，虚拟对象跨三维环境中表示的物理平面滑动，并且任选地还在三维环境中跨虚拟表面滑动。在一些实施方案中，用户界面对象当在三维环境中表示的物理平面之间切换时向上飞。

在一些实施方案中，计算机系统任选地当用户界面对象处于重新配置模式时生成音频输出(例如，连续的或一个或多个离散的音频输出)。

图7C至图7F是示出根据一些实施方案的用于生成计算机生成的三维环境(例如，包括模拟物理对象和虚拟对象之间的视觉相互作用)的方法的框图。图7C至图7F用于示出下文描述的过程，包括图9中的过程。

图7D至图7F示出了与图7C中所示的物理环境对应的示例性计算机生成环境。如本文参考图7D至图7F所述，根据一些实施方案，计算机生成环境任选地是增强现实环境，该增强现实环境包括物理环境的相机视图或计算机生成环境，该计算机生成环境在显示器上被显示为使得该计算机生成环境叠加在透过显示器的透明部分可见的物理环境的视图上方。如图7C中所示，用户7302正站在物理环境(例如，场景105)中并操作计算机系统(例如，计算机系统101)(例如，握持设备7100或穿戴HMD)。在一些实施方案中，如在图7C至图7F中所示的示例中，设备7100是包括显示器、触敏显示器等的手持式设备(例如，蜂窝电话、平板电脑或其他移动电子设备)。在一些实施方案中，设备7100表示可穿戴头戴式耳机并且任选地被可穿戴头戴式耳机替换，该可穿戴头戴式耳机包括平视显示器、头戴式显示器等。在一些实施方案中，物理环境包括用户7302周围的一个或多个物理表面和物理对象(例如，房间的壁(例如，前壁7304和侧壁7306)、地板7308、家具7310)。在一些实施方案中，环境中的物理对象的一个或多个物理表面(例如，家具7310的前表面8312)透过计算机系统的显示生成部件(例如，在设备7100的显示器上或经由HMD)可见。

在图7D至图7F中所示的示例中，与物理环境(例如，物理环境的在设备7100的一个或多个相机的视场内或透过设备7100的显示器的透明部分可见的部分)对应的计算机生成的三维环境显示在设备7100上。物理环境包括在由计算机系统的显示生成部件示出的计算机生成的三维环境中具有对应表示的物理对象。例如，在显示器上示出的计算机生成环境中，前壁7304由前壁表示7304’表示，侧壁7306由侧壁表示7306’表示，地板7308由地板表示7308’表示，家具7310由家具表示7310’表示，并且家具7310的前表面7312由前表面表示7312’表示(例如，计算机生成环境是增强现实环境，该增强现实环境包括作为设备7100的一个或多个相机的实时视图的一部分的物理对象的表示7304’、7306’、7308’、7310’和7312’或透过设备7100的显示器的透明部分可见的物理对象)。在一些实施方案中，显示器上示出的计算机生成环境还包括虚拟对象。在一些实施方案中，当设备7100相对于物理环境的成视图角度改变时(例如，当设备7100或设备7100的一个或多个相机相对于物理环境的视角响应于设备7100在物理环境中的移动和/或旋转而改变时)，设备7100上显示的计算机生成环境的成视图角度被相应地改变(例如，根据一些实施方案，包括改变物理表面和对象(例如，壁、地板、家具等)的成视图角度)。

如图7E中所示，例如，响应于在三维环境中添加虚拟内容的用户输入，在第一位置(例如，三维环境中与在物理环境中的侧壁7306上的位置对应的位置)处显示第一虚拟对象(例如，虚拟窗户7332)。第一虚拟对象(例如，虚拟窗户7332)在三维环境中相对于物理对象的表示(例如，前壁表示7304’、家具表示7310’、物理表面表示7312’和地板表示7308’)具有相应空间关系，这些空间关系通过侧壁7306和其他物理对象(例如，前壁7304、家具7310、物理表面7312和地板7308)之间的相应空间关系来确定。如图7E中所示，第一虚拟对象(例如，虚拟窗户7332)以第一外观(例如，其中第一虚拟对象的第一部分7332-b和7332-c具有第一亮度值和/或颜色值，并且第二部分7332-a和7332-d具有第二亮度值和/或颜色值)显示。在一些实施方案中，第一虚拟对象的不同部分内的显示特性的这些内部变化反映了第一虚拟对象中所示的内容，该内容可随外部因素、预设条件或时间而改变。

如图7E中所示，计算机系统基于从虚拟对象7332的不同部分发出的虚拟光来在三维环境中的物理对象的表示上生成模拟照明图案。根据一些实施方案，模拟照明图案根据三维环境中虚拟对象和物理对象的表示的相对空间位置以及虚拟对象和物理对象的物理特征(例如，表面形状、纹理和光学特性等)来生成。如图7E中所示，在物理对象的表示上生成的照明图案遵守了光传播的模拟物理规律。例如，在物理对象的表示(例如，表示7304’、7310’、7312’和7308’)上的照明图案(例如，照明图案7334、7336和7340)的形状、亮度、颜色、色调等模拟物理对象(例如，物理对象/表面7304、7310、7312和7308)上将通过侧壁7306上具有与虚拟窗户7332相似的特征的真实窗户来获得的照明图案。

如图7E中所示，在一些实施方案中，计算机系统通过根据第一虚拟对象7332的第一部分7332-b和7332-c的亮度值和颜色值修改三维场景中的前壁表示7304’的第一部分7334-b和7334-c的视觉外观(例如，亮度值和颜色值)来生成针对前壁7304的模拟照明图案7334。类似地，计算机系统通过根据第一虚拟对象7332的第一部分7332-b和7332-c的亮度值和颜色值修改三维场景中的物理表面表示7312’的第一部分7336-b和7336-c的视觉外观(例如，亮度值和颜色值)来生成针对物理表面7312的模拟照明图案7336。类似地，计算机系统通过根据第一虚拟对象7332的第一部分7332-b和7332-c的亮度值和颜色值修改三维场景中的地板表示7308’的第一部分7340-b和7340-c的视觉外观(例如，亮度值和颜色值)来生成针对地板7308的模拟照明图案7340。

如图7E中所示，物理表面的第一部分的视觉外观和物理表面的第二部分的视觉外观被不同地修改，例如，根据第一虚拟对象和不同物理表面之间的模拟空间关系、虚拟对象和不同物理表面的真实物理特性和模拟物理特性，以及第一虚拟对象的不同部分中的亮度值和颜色值的差异进行修改。

如图7E中所示，除了在三维环境中与物理表面(例如，前壁7304、家具7310的物理表面7312和地板7308)在物理环境中的位置对应的位置处添加模拟照明图案7334、7336和7340之外，计算机系统还在三维环境中(例如，在地板表示7338’上)与真实阴影(例如，在地板7308上)的位置对应的位置处生成模拟阴影7338，家具7310在被具有与虚拟对象7332相同的位置和特征的真实光源(例如，侧壁7306上的真实窗户)照亮的情况下将投射出该真实阴影。

在与图7E相比时，图7F示出了虚拟对象的不同部分中的动态变化不同地影响物理环境的不同部分的表示。例如，与图7F中所示的那些相比，在图7E中，第一虚拟对象的大小和内部内容已经改变了。第一虚拟对象现在被表示为虚拟对象7332’。图7E中的第一虚拟对象的第一部分7332-b和7332-c已经分别变成了图7F中的第一部分7332-b’和7332-c’。图7E中的第二部分7332-a和7332-d已经分别变成了图7F中的第二部分7332-a’和7332-d’。图7F中的第一部分7332-b’和7332-c’以及第二部分7332-a’和7332-d’的中心位置也已经分别相对于图7E中所示的那些偏移。因此，对于侧壁表示7306’上的许多位置，第一虚拟对象7332上的对应位置的亮度值和颜色值已经改变(例如，从图7E中所示的那些值改变为图7F中所示的那些值)。类似地，对于投射在表示7304’、7312’和7308’上的照明图案7334、7336和7340上的许多位置，照明图案的亮度值和颜色值也已经改变(例如，从图7E中所示的那些值改变为图7F中所示的那些值)。例如，对于侧壁表示7306’上的第一位置，第一虚拟对象(例如，虚拟窗户或虚拟电影屏幕)上的对应位置的亮度值和颜色值可能已经分别从1切换为0.5并且从黄色切换为蓝色；对于侧壁表示7306’上的第二位置，第一虚拟对象上的对应位置的亮度值和颜色值分别可能从0.5切换为1并且从蓝色切换为黄色。在一些实施方案中，由于第一虚拟对象的大小改变或第一虚拟对象的移动，因此对于侧壁表示7306’上的一些位置，与那些位置对应的亮度和颜色将由于第一虚拟对象现在已经扩展或移动到该位置而改变；然而对于侧壁表示7306’上的一些其他位置，与那些位置对应的亮度和颜色也将由于第一虚拟对象现在已经远离那些位置移动或收缩而改变。另外，在一些实施方案中，来自第一虚拟对象的不同部分的光的方向也任选地改变(例如，光方向根据当天时间或根据虚拟窗户中所示的场景而改变)。因此，第一虚拟对象上的不同位置中的亮度和颜色改变引起附近物理表面的表示上的不同位置上的照明的不同改变；并且不同的关系用于基于第一虚拟对象的外观来修改附近物理表面的表示的外观。

如图7F中所示，第一部分7332-b’在前壁表示7304’上引起照明7334-b’，但是不再在前表面表示7312’上引起任何照明，并且由第二部分7332-a’引起的照明7336-a’现在覆盖先前被由第一部分7332-b引起的照明7334-b覆盖的区域(图7E)。类似地，第二部分7332-d’在前壁表示7304’上引起照明7334-d’，但是不再在前表面表示7312’上引起任何照明，并且由第一部分7332-c’引起的照明7336-c’现在覆盖先前被由第二部分7332-d引起的照明7334-d覆盖的区域(图7E)。类似地，在前壁表示7304’上，先前被由第一部分7332-c引起的照明7334-c和被由第二部分7332-a引起的照明7334-a覆盖的一些部分不再被任何照明覆盖。类似地，在地板表示7308’上，先前被由第一部分7332-c引起的照明7334-c和由第二部分7332-a引起的照明7334-a覆盖的一些部分不再被任何照明覆盖，因为第一虚拟对象已经收缩。地板表示7308’上先前被较高照明覆盖的一些位置现在被较低照明覆盖，而地板表示7308’上先前被较低照明覆盖的其他位置现在被较高照明覆盖。在图7F中，由于来自大小减小的第一虚拟对象7332的照明量减少，因此与图7E中的阴影7308相比，投射在地板表示7308’上的阴影7338也看起来不那么暗。

在一些实施方案中，第一虚拟对象是示出虚拟场景的虚拟窗户。从虚拟窗户发出的光基于虚拟窗户中所示的虚拟场景。在一些实施方案中，虚拟窗户在三维环境中以模拟来自真实窗户的光如何照亮附近物理表面的方式(例如，基于窗户与物理表面之间的空间关系、物理表面的物理特性和光传播的物理规律)在附近物理表面的表示上投射照明图案。在一些实施方案中，在虚拟窗户中显示的虚拟场景基于参数诸如当天时间、场景的位置和虚拟窗户的大小等而改变。

在一些实施方案中，第一虚拟对象是放映电影的虚拟屏幕或全息图。随着电影回放的进行，从虚拟屏幕或全息图发出的虚拟光随着电影的场景改变而改变。在一些实施方案中，虚拟屏幕或全息图在三维环境中以模拟来自真实电影屏幕或全息图的光如何照亮附近物理表面的方式(例如，基于屏幕或全息图与物理表面之间的空间关系、物理表面的物理特性和光传播的物理规律)在附近物理表面的表示上投射照明图案。

在一些实施方案中，第一虚拟对象是虚拟助手，并且从虚拟助手发出的光在用户和虚拟助手之间的不同交互模式期间改变。例如，虚拟助手的视觉表示在首次被用户激活时以第一颜色和强度发光，在询问问题或响应问题时改变为不同颜色，并且在执行任务或等待任务完成或来自用户的答案时改变为不同颜色。在一些实施方案中，虚拟助手在三维环境中以模拟来自真实光源的光如何照亮附近物理表面的方式(例如，基于光源与物理表面之间的空间关系、物理表面的物理特性和光传播的物理规律)在附近物理表面的表示上投射照明图案。相对于图7S至图7X和图12描述了在三维环境中虚拟助手的视觉表示如何影响附近物理对象和虚拟对象的外观的附加方面。

在一些实施方案中，计算机系统还基于从物理表面附近的虚拟对象发出的光来在物理表面的表示上生成虚拟反射和虚拟阴影。

图7G至图7L是示出根据一些实施方案的用于生成计算机生成的三维环境并且有利于用户与三维环境的交互(例如，包括基于用户输入逐渐调整计算机生成体验的沉浸感程度)的方法的框图。图7G至图7L用于示出下文描述的过程，包括图10中的过程。

图7G示出了与物理环境对应的示例性计算机生成环境。如本文参考图7G所述，计算机生成环境可以是增强现实环境或计算机生成环境，该计算机生成环境在显示器上被显示为使得该计算机生成环境叠加在透过显示器的透明部分可见的物理环境的视图上方。如图7G中所示，用户7302存在于物理环境(例如，场景105)中并操作计算机系统(例如，计算机系统101)(例如，握持设备7100或穿戴HMD)。在一些实施方案中，如在图7G中所示的示例中，设备7100是包括显示器、触敏显示器等的手持式设备(例如，蜂窝电话、平板电脑或其他移动电子设备)。在一些实施方案中，设备7100表示可穿戴头戴式耳机并且任选地被可穿戴头戴式耳机替换，该可穿戴头戴式耳机包括平视显示器、头戴式显示器等。在一些实施方案中，物理环境包括用户周围的一个或多个物理表面和物理对象(例如，房间的壁(例如，由前壁表示7304’、侧壁表示7306’表示)、地板(例如，由地板表示7308’表示)、家具(例如，由家具表示7310表示)，以及家具的物理表面7312(例如，由物理表面表示7312’表示))。

在图7G至图7L中所示的示例中，与物理环境(例如，物理环境的在设备7100的一个或多个相机的视场内或透过设备7100的显示器的透明部分可见的部分)对应的计算机生成的三维环境显示在设备7100上。设备7100中所示的计算机生成环境是三维环境：当设备7100相对于物理环境的成视图角度改变时(例如，当设备7100或设备7100的一个或多个相机相对于物理环境的视角响应于设备7100在物理环境中的移动和/或旋转而改变时)，设备7100上显示的计算机生成环境的成视图角度被相应地改变(例如，根据一些实施方案，包括改变物理表面和对象(例如，壁、地板、家具等)的成视图角度)。

如图7G中所示，最初三维环境被示出为具有第一组物理元素，包括前壁7304、侧壁7306、地板7308和家具7310的表示。任选地，三维环境可包括第一数量的虚拟元素。例如，当最初显示三维环境时，或者当计算机系统的显示生成部件首次打开或放在用户头部上或用户眼睛前面时，在三维环境中不显示虚拟元素或显示最小量的虚拟元素。这允许用户从三维环境的视图开始，该三维环境非常类似于在没有显示生成部件阻挡用户眼睛的情况下的真实世界的直接视图。

如图7G和图7H中所示，计算机系统检测用于增加三维环境的沉浸感的第一预定义手势输入(例如，由显示生成部件上的表示7200’表示的手部7200执行的拇指轻弹手势或轻扫手势、空气中的向上挥动手势、控制器上的轻扫手势等)。响应于检测到第一预定义手势，计算机系统显示虚拟元素7402(例如，虚拟场景或虚拟窗户)，该虚拟元素阻挡三维环境中的前壁7304的视图(例如，虚拟元素7402替换显示器上的前壁7304的表示7304’的显示，或者虚拟元素7402显示在阻挡前壁7304的视图透过显示器的先前透明部分(例如，现在显示虚拟元素7402的部分)的位置处)。在一些实施方案中，如图7H中所示，即使前壁7304的视图被虚拟元素7402的显示阻挡，位于前壁7304前面的家具7310的视图也不受影响。换句话说，第一预定义手势仅使得第一类物理对象或表面(例如，前壁)被新显示的虚拟元素或现有虚拟元素的新显示部分替换或阻挡。在一些实施方案中，显示动画转变以示出虚拟元素7402逐渐扩展(例如，在图7H中示出)或变得更不透明且更饱和以覆盖或阻挡前壁7304的视图(例如，替换三维环境中的表示7304’)。

在一些实施方案中，响应于第一预定义手势，计算机系统还任选地将另一个虚拟元素(例如，虚拟对象7404)添加到三维环境，而不替换任何整个类别的物理元素。虚拟对象7404任选地是用户界面对象，诸如菜单(例如，应用程序的菜单、文档等)、控件(例如，显示亮度控件、显示聚焦控件等)，或者可以由用户输入操纵或者在三维环境中提供信息或反馈的其他对象(例如，虚拟助手、文档、媒体项目等)。在一些实施方案中，如图7I中所示，虚拟对象7404被添加到三维环境(例如，阻挡地板7308的一部分或替换地板表示7308’的一部分)，而没有获得输入焦点和/或被专门插入到三维环境中(例如，从菜单拖动，或者由绘图工具绘制等)。在一些实施方案中，计算机系统允许用户使用当前在三维环境中提供的用户界面来将相应虚拟元素单独地引入三维环境中(例如，添加新的家具，将虚拟五彩纸屑撒入房间等)，但是这种类型的输入不会改变三维环境的沉浸感程度，并且不会在单个动作中替换整个类别的物理元素的视图。

图7I在图7H之后，示出了已经被虚拟元素7402完全阻挡或替换的前壁7304的视图。仍然在三维环境中示出位于前壁7304前面的家具7310的视图。虚拟元素7404阻挡地板表示7308’的一部分。在响应于第一预定义手势输入而将虚拟元素7402和7404添加到三维环境之后，侧壁7306的表示7306’和地板7308的表示7308’在三维环境中可见。

如图7I和图7J中所示，在检测到第一预定义手势输入(例如，在图7G中示出)之后，计算机系统检测用于增加三维环境的沉浸感的第二预定义手势输入(例如，由显示生成部件上的表示7200’表示的手部7200执行的拇指轻弹手势或轻扫手势、空气中的向上挥动手势、控制器上的轻扫手势等)。响应于检测到第二预定义手势，计算机系统保持阻挡三维环境中的前壁7304的视图的虚拟元素7402(例如，虚拟场景或虚拟窗户)的显示，并且显示虚拟元素7406。虚拟元素7406阻挡三维环境中的侧壁7306的视图(例如，虚拟元素7406替换显示器上的侧壁7306的表示7306’的显示，或者虚拟元素7406显示在阻挡侧壁7306的视图透过显示器的先前透明部分(例如，现在显示虚拟元素7406的部分)的位置处)。在图7I至图7J中，第二预定义手势使得另外类别的物理对象或表面(例如，侧壁)被新显示的虚拟元素或现有虚拟元素的新显示部分替换或阻挡。在一些实施方案中，显示动画转变以示出虚拟元素7406逐渐扩展或变得更不透明且更饱和以覆盖或阻挡侧壁7306的视图(例如，替换三维环境中的表示7306’)。

图7K在图7J之后，示出了已经被虚拟元素7402和7406完全阻挡或替换的前壁7304和侧壁7306的视图。仍然在三维环境中示出位于前壁7304前面的家具7310的视图。虚拟元素7404阻挡地板表示7308’的一部分。在响应于第一预定义手势输入和第二预定义手势输入而将虚拟元素7402、7404和7406添加到三维环境之后，地板7308的表示7308’在三维环境中仍然可见。

如图7K和图7L中所示，在检测到第一预定义手势输入和第二预定义手势输入(例如，在图7G和图7I中示出)之后，计算机系统检测用于增加三维环境的沉浸感的第三预定义手势输入(例如，由显示生成部件上的表示7200’表示的手部7200执行的拇指轻弹手势或轻扫手势、空气中的向上挥动手势、控制器上的轻扫手势等)。响应于检测到第三预定义手势输入，计算机系统保持阻挡三维环境中的前壁7304和侧壁7306的视图的虚拟元素7402和7406(例如，虚拟场景或虚拟窗户)的显示，并且显示虚拟元素7408和7410。虚拟元素7408阻挡三维环境中的地板7308的视图(例如，虚拟元素7408替换显示器上的地板7308的表示7308’的显示，或者虚拟元素7408显示在阻挡地板7306的视图透过显示器的先前透明部分(例如，现在显示虚拟元素7408的部分)的位置处)。在图7K至图7L中，第三预定义手势使得另外类别的物理对象或表面(例如，地板)被新显示的虚拟元素或现有虚拟元素的新显示部分替换或阻挡。在一些实施方案中，显示动画转变以示出虚拟元素7408逐渐扩展或变得更不透明且更饱和以覆盖或阻挡地板7308的视图(例如，替换三维环境中的表示7308’)。

在一些实施方案中，响应于第三预定义手势，计算机系统还任选地将另一个虚拟元素(例如，虚拟元素7410)添加到三维环境，而不替换任何整个类别的物理元素。虚拟元素7410任选地是用户界面对象，诸如菜单(例如，应用程序的菜单、文档等)、控件(例如，显示亮度控件、显示聚焦控件等)，或者可以由用户输入操纵或者在三维环境中提供信息或反馈的其他对象(例如，虚拟助手、文档、媒体项目等)，或者改变物理对象的外观的纹理(例如，装饰特征，照片等)。在一些实施方案中，如图7L中所示，虚拟对象7410被添加到三维环境(例如，覆盖在家具7310的前表面7312的一部分上面，或者替换物理表面表示7312’的一部分)。

在一些实施方案中，在进行了用于增加三维环境的沉浸感的预定义手势类型的连续输入手势之后，另外量的虚拟元素被任选地引入三维环境中，从而替换或阻挡在三维环境中先前可见的另外类别的物理元素的视图。在一些实施方案中，用虚拟元素替换整个三维环境，并且关于物理世界的视图被三维环境中的虚拟元素的视图完全替换。

在一些实施方案中，虚拟元素7402和7406是虚拟窗户，这些虚拟窗户被显示为取代前壁表示7304’和侧壁表示7306’的相应部分。在一些实施方案中，从虚拟窗户发出的光将模拟照明图案透射到在三维环境中仍然可见或表示的其他物理表面(例如，地板或家具)上。根据一些实施方案，相对于图7C至图7F和图9描述了来自周围物理表面上的虚拟元素的光的影响的附加细节。

在一些实施方案中，虚拟元素7402和7406(例如，虚拟窗户或虚拟屏幕)的内容或外观响应于附加手势输入(例如，手部在空气中的水平轻扫，或者围绕手指在预定义方向上的轻扫)而改变。在一些实施方案中，虚拟元素的大小、在虚拟元素内部显示的虚拟场景的位置、在虚拟元素内部显示的媒体项目等响应于附加手势输入而改变。

在一些实施方案中，用于增加或减少三维环境的沉浸感程度的手势输入是具有相反方向(例如，向上以增加虚拟元素的沉浸感/数量，并且向下以减少虚拟元素的沉浸感/数量)的竖直轻扫手势。在一些实施方案中，用于改变虚拟元素的内容的手势是水平轻扫手势(例如，向后和/或向前切换通过要在虚拟元素中显示内容的多个位置或当天时间的水平轻扫手势)。

在一些实施方案中，用于增加三维环境的沉浸感的第一预定义手势输入、第二预定义手势输入和第三预定义手势输入的序列任选地被用于在多个沉浸感程度之间改变的一个连续输入替换。根据一些实施方案，该连续输入的每个连续部分对应于图7G至7L中描述的第一预定义手势输入、第二预定义手势输入和第三预定义手势输入中的相应一者。

在一些实施方案中，即使当其他物理表面诸如壁已经被虚拟元素替换或覆盖时，地板7308或地板表示7308’也始终在三维环境中保持可见。这有助于确保用户在通过在物理世界中四处行走来三维环境内进行导航时感觉安全且踏实。

在一些实施方案中，即使当其他物理表面诸如壁和地板等已经被虚拟元素替换或覆盖时，一些家具或家具表面的部分也始终保持可见。这有助于确保用户在沉浸于三维环境中时与其环境保持熟悉的连接。

在该示例中，在图7G、图7I和图7K中，手部7200的表示7200’显示在计算机生成环境中。计算机生成环境不包括用户右手的表示(例如，因为右手不在设备7100的一个或多个相机的视场内)。另外，在一些实施方案中，例如在图7I中所示的示例中，在设备7100是手持式设备的情况下，用户能够独立于在设备7100上显示的物理环境的任何表示而看到周围物理环境的部分。例如，用户的手部的部分在设备7100的显示器之外对用户可见。在一些实施方案中，这些示例中的设备7100表示具有显示器(例如，头戴式显示器)的头戴式耳机并且被该头戴式耳机替换，该显示器完全阻挡了用户看周围物理环境的视野。在一些此类实施方案中，物理环境的部分不直接对用户可见；相反，物理环境通过该物理环境的由设备显示的部分的表示对用户可见。在一些实施方案中，用户的手部不管是直接还是经由设备7100的显示器都对用户不可见，而用户的手部的当前状态由设备连续或周期性地监测，以确定用户的手部是否已经进入提供手势输入的准备状态。在一些实施方案中，设备显示对用户的手部是否处于提供输入手势的准备状态的指示符，以向用户提供反馈并且在他/她希望提供输入手势的情况下警示用户调整他/她的手部位置。

图7M至图7R是示出根据一些实施方案的用于有利于用户与计算机生成环境的交互(例如，利用与物理表面的交互来控制设备或与计算机生成环境进行交互)的方法的框图。图7M至图7R用于示出下文描述的过程，包括图11中的过程。

图7N示出了与图7M中所示的物理环境对应的示例性计算机生成环境。如本文参考图7M至图7R所述，根据一些实施方案，计算机生成环境任选地是增强现实环境，该增强现实环境包括物理环境的相机视图或计算机生成环境，该计算机生成环境在显示器上被显示为使得该计算机生成环境叠加在透过显示器的透明部分可见的物理环境的视图上方。如图7M中所示，用户7302正站在物理环境(例如，场景105)中并操作计算机系统(例如，计算机系统101)(例如，握持设备7100或穿戴HMD)。在一些实施方案中，如在图7M至图7R中所示的示例中，设备7100是包括显示器、触敏显示器等的手持式设备(例如，蜂窝电话、平板电脑或其他移动电子设备)。在一些实施方案中，设备7100表示可穿戴头戴式耳机并且任选地被可穿戴头戴式耳机替换，该可穿戴头戴式耳机包括平视显示器、头戴式显示器等。在一些实施方案中，物理环境包括用户7302周围的一个或多个物理表面和物理对象(例如，房间的壁(例如，前壁7304、侧壁7306)、地板7308和箱状物7502和7504(例如，桌子、扬声器、灯、家用电器等))。在一些实施方案中，环境中的物理对象的一个或多个物理表面透过计算机系统的显示生成部件(例如，在设备7100的显示器上或经由HMD)可见。

在图7M至图7R中所示的示例中，与物理环境(例如，物理环境的在设备7100的一个或多个相机的视场内或透过设备7100的显示器的透明部分可见的部分)对应的计算机生成的三维环境显示在设备7100上。物理环境包括在由计算机系统的显示生成部件示出的计算机生成的三维环境中具有对应表示的物理对象。例如，在显示器上示出的计算机生成环境中，前壁7304由前壁表示7304’表示，侧壁7306由侧壁表示7306’表示，地板7308由地板表示7308’表示，箱状物7502和7504由箱状物表示7502’和7504’表示(例如，计算机生成环境是增强现实环境，该增强现实环境包括作为设备7100的一个或多个相机的实时视图的一部分的物理对象的表示7304’、7306’、7308’、7502’和7504’或透过设备7100的显示器的透明部分可见的物理对象)。在一些实施方案中，显示器上示出的计算机生成环境还包括虚拟对象。在一些实施方案中，当设备7100相对于物理环境的成视图角度改变时(例如，当设备7100或设备7100的一个或多个相机相对于物理环境的视角响应于设备7100在物理环境中的移动和/或旋转而改变时)，设备7100上显示的计算机生成环境的成视图角度被相应地改变(例如，根据一些实施方案，包括改变物理表面和对象(例如，壁、地板、家具等)的成视图角度)。

在一些实施方案中，当用户7302和三维环境之间的交互水平低于第一预定义水平(例如，用户仅看向三维环境而不聚焦于三维环境中的特定位置上)时，计算机系统显示三维环境的初始状态，在该初始状态下，箱状物7502和7504的表示7502’和7504’不与任何对应的用户界面或虚拟对象一起显示，如图7N所示。

在图7O和图7P中，计算机系统检测到用户和三维环境之间的交互水平已经增加到高于第一预定义水平。具体地，在图7O中，在没有任何并发手势输入或将要提供手势输入的指示(例如，用户的手部未处于提供手势输入的准备状态)的情况下，在箱状物7502(例如，扬声器或桌面)的表示7502’上检测注视输入。响应于检测到三维环境中的箱状物7502的表示7502’上的注视输入，计算机系统确定用户和箱状物7502或表示7502’之间的交互水平已经达到第一预定义水平(但尚未达到高于第一预定义水平的第二预定义水平)。响应于确定相对于箱状物7502或表示7502’的交互水平已经达到第一预定义水平，计算机系统在三维环境中与箱状物7502在物理环境中的位置对应的位置处显示与箱状物7502对应的第一用户界面7510。例如，如图7O所示，多个用户界面对象(例如，用户界面对象7506和7508)以为了使其看起来覆盖在箱状物7502的顶表面上面或替换表示7502’的一部分的方式显示。在一些实施方案中，箱状物7502是桌子，并且用户界面对象7506和7508包括虚拟报纸、虚拟屏幕、来自应用程序或通信信道的通知、键盘和显示器以及速写本等。在一些实施方案中，箱状物7502是扬声器，并且用户界面对象7506和7508包括音量指示符、播放/暂停控件、当前播放的歌曲/专辑的名称、当日的天气预报等。在一些实施方案中，箱状物7502是智能灯或家用电器，并且用户界面对象7506和7508包括亮度或温度控件、开始/停止或开/关按钮以及定时器等中的一者或多者。

在图7P中，在没有任何并发手势输入或将要提供手势输入的指示(例如，用户的手部未处于提供手势输入的准备状态)的情况下，注视输入已经从箱状物7502的表示7502’(例如，桌面、扬声器、智能灯或家用电器)移位到箱状物7504的表示7504’(例如，智能医药柜)。响应于检测到注视输入在三维环境中从箱状物7502的表示7502’移位到箱状物7504的表示7504’，计算机系统确定用户和箱状物7504或表示7504’之间的交互水平已经达到第一预定义水平(但尚未达到高于第一预定义水平的第二预定义水平)，并且确定用户和箱状物7502或表示7502’之间的交互水平下降到低于第一预定义水平。根据确定用户和箱状物7502或表示7502’之间的交互水平已经下降到低于第一预定义水平，计算机系统停止显示与箱状物7502对应的第一用户界面7510。响应于确定相对于箱状物7504或表示7504’的交互水平已经达到第一预定义水平，计算机系统在三维环境中与箱状物7504在物理环境中的位置对应的位置处显示与箱状物7504对应的第一用户界面7512。例如，如图7P所示，多个用户界面对象(例如，用户界面对象7514和7516)以为了使其看起来覆盖在箱状物7504的前表面上面或替换表示7504’的一部分的方式显示。在一些实施方案中，箱状物7504是智能医药柜，并且该多个用户界面对象(例如，用户界面对象7514和7516)包括医药柜的状态中的一个或多个状态(例如，某个医药或储备即将用尽并且需要重新填充的指示符，或者对当天的药物是否已经服用的提醒)。

在图7Q和图7R中，计算机系统检测到用户和三维环境之间的交互水平已经增加到超过高于第一预定义水平的第二预定义水平。具体地，在图7Q中，除了检测箱状物7502(例如，扬声器或桌面)的表示7502’上的注视输入之外，计算机系统还检测将要提供手势输入的指示(例如，用户的手部被发现处于提供手势输入的准备状态)。响应于用户和箱状物7502或表示7502’之间的交互水平已经达到第二预定义水平，计算机系统显示第二用户界面7510’，该第二用户界面任选地是与箱状物7502对应的第一用户界面7510的增强版本。与箱状物7502对应的第二用户界面7510’显示在三维环境中与箱状物7502在物理环境中的位置对应的位置处。例如，如图7Q所示，多个用户界面对象(例如，用户界面对象7506、7518、7520、7522和7524)以其看起来覆盖在箱状物7502的顶表面上面或替换表示7502’的一部分的方式显示。在一些实施方案中，箱状物7502是桌子，并且用户界面对象7506、7518、7520、7522和7524包括第一用户界面7510中所示的用户界面对象中的一个或多个用户界面对象，以及第一用户界面7510中不包括的其他用户界面对象中的一个或多个用户界面对象(例如，扩展显示器、具有在第一用户界面7510中不可用的附加键的完整键盘、具有应用程序图标和文档列表的虚拟桌面等)。在一些实施方案中，箱状物7502是扬声器，并且用户界面对象7506、7518、7520、7522和7524包括第一用户界面7510中所示的用户界面对象中的一个或多个用户界面对象，以及第一用户界面7510中不包括的其他用户界面对象中的一个或多个用户界面对象(例如，输出路由控件、可浏览媒体数据库、具有对应虚拟键盘的搜索输入字段等)。在一些实施方案中，箱状物7502是智能灯或家用电器，并且用户界面对象7506、7518、7520、7522和7524包括第一用户界面7510中所示的用户界面对象中的一个或多个用户界面对象，以及第一用户界面7510中不包括的其他用户界面对象中的一个或多个用户界面对象(例如，用于智能灯或家用电器的各种设置、颜色控件、时间安排控件等)。

在一些实施方案中，图7Q在图7O之后，并且在用户的注视聚焦于箱状物7502上时，响应于用户将他/她的手部置于准备状态而显示第二用户界面7510’。在一些实施方案中，图7Q在图7P之后，并且响应于用户将他/她的手部置于准备状态并且将他/她的注视从箱状物7504移位到箱状物7502而显示用户界面(例如，在注视输入移动远离箱状物7504之后，停止显示第一用户界面7512)。

在图7R中，在用户的手部处于提供手势输入的准备状态时，注视输入已经从箱状物7502的表示7502’(例如，桌面、扬声器、智能灯或家用电器)移位到箱状物7504的表示7504’(例如，智能医药柜)。响应于检测到注视输入在三维环境中从箱状物7502的表示7502’移位到箱状物7504的表示7504’，计算机系统确定用户和箱状物7504或表示7504’之间的交互水平已经达到第二预定义水平，并且确定用户和箱状物7502或表示7502’之间的交互水平下降到低于第二预定义水平和第一预定义水平。根据确定用户和箱状物7502或表示7502’之间的交互水平已经下降到低于第一预定义水平，计算机系统停止显示与箱状物7502对应的第二用户界面7510’。响应于确定相对于箱状物7504或表示7504’的交互水平已经达到第二预定义水平，计算机系统在三维环境中与箱状物7504在物理环境中的位置对应的位置处显示与箱状物7504对应的第二用户界面7512’。例如，如图7R中所示，多个用户界面对象(例如，用户界面对象7514、7516、7526、7528和7530)以其看起来覆盖在箱状物7504的前表面上面或替换表示7504’的一部分的方式显示。在一些实施方案中，箱状物7504是智能医药柜，并且该多个用户界面对象(例如，用户界面对象7514和7516)包括第一用户界面7510中所示的用户界面对象中的一个或多个用户界面对象，以及第一用户界面7510中不包括的其他用户界面对象中的一个或多个用户界面对象，诸如医药柜中的医药或储备的列表、针对当天的药物的时间安排设置、针对医药柜的温度和认证设置等。

在一些实施方案中，图7R在图7Q之后，并且响应于用户将他/她的手部保持在准备状态并且将他/她的视线从箱状物7502移位到箱状物7504而显示用户界面7512(例如，在注视输入移动远离箱状物7502之后，停止显示第二用户界面7512’)。在一些实施方案中，图7R在图7P之后，并且在用户的注视聚焦于箱状物7504上时，响应于用户将他/她的手部置于准备状态而显示第二用户界面7512’。在一些实施方案中，图7R在图7O之后，并且响应于用户将他/她的手部置于准备状态并且将他/她的注视从箱状物7502移位到箱状物7504而显示用户界面7512’(例如，在注视输入移动远离箱状物7502之后，停止显示第一用户界面7510)。

在一些实施方案中，当计算机系统检测到用户的手部在物理对象(例如，箱状物7502或7504)上方悬停(例如，用户的手指和物理对象之间的距离在阈值距离内)时，计算机系统确定达到第三交互水平，并且显示与物理对象(例如，箱状物7502或7504)对应的第三用户界面，该第三用户界面具有甚至比与物理对象对应的第二用户界面更多的信息和/或用户界面对象。在一些实施方案中，第三用户界面响应于用户的手部移动远离物理对象(例如，用户的手指和物理对象之间的距离增加到大于阈值距离)而收缩并且恢复到与物理对象对应的第二用户界面。

在一些实施方案中，计算机系统响应于在物理对象(例如，箱状物7502或7504)上的物理表面上提供的触摸输入而执行操作。例如，触摸输入任选地由传感器诸如计算机系统的一个或多个相机检测，而不是物理对象上的物理表面上的触摸传感器。在一些实施方案中，物理表面上的输入的位置被映射到与物理对象对应的第一/第二/第三用户界面中的用户界面对象的位置，使得计算机系统可以根据触摸输入在物理表面上的位置来确定执行哪个操作。

在一些实施方案中，用户利用他/她的注视在第一/第二/第三用户界面内选择与物理对象(例如，箱状物7502或7504)对应的第一/第二/第三用户界面中的用户界面对象。计算机响应于在注视输入在当前选定用户界面对象上时检测到的用于激活用户界面对象的手势输入而执行与当前选定用户界面对象对应的操作。

在一些实施方案中，用户任选地利用附近的物理表面来控制更远离用户的物理对象。例如，用户可以在附近的物理表面上(例如，用户的手部的手背或手掌、桌面、扶手椅的扶手、控制器等)轻扫，并且用户的手势输入由一个或多个传感器(例如，计算机系统的一个或多个相机)检测，并且用于与当前显示的第一/第二/第三用户界面进行交互。

在该示例中，在图7G和图7R中，手部7200的表示7200’显示在计算机生成环境中。计算机生成环境不包括用户右手的表示(例如，因为右手不在设备7100的一个或多个相机的视场内)。另外，在一些实施方案中，例如在图7I和图7R中所示的示例中，在设备7100是手持式设备的情况下，用户能够独立于在设备7100上显示的物理环境的任何表示而看到周围物理环境的部分。例如，用户的手部的部分在设备7100的显示器之外对用户可见。在一些实施方案中，这些示例中的设备7100表示具有显示器(例如，头戴式显示器)的头戴式耳机并且被该头戴式耳机替换，该显示器完全阻挡了用户看周围物理环境的视野。在一些此类实施方案中，物理环境的部分不直接对用户可见；相反，物理环境通过该物理环境的由设备显示的部分的表示对用户可见。在一些实施方案中，用户的手部不管是直接还是经由设备7100的显示器都对用户不可见，而用户的手部的当前状态由设备连续或周期性地监测，以确定用户的手部是否已经进入提供手势输入的准备状态。在一些实施方案中，设备显示对用户的手部是否处于提供输入手势的准备状态的指示符，以向用户提供反馈并且在他/她希望提供输入手势的情况下警示用户调整他/她的手部位置。

图7S至图7X是示出根据一些实施方案的用于生成计算机生成的三维环境(例如，包括模拟环境中基于语音的虚拟助手与物理对象和虚拟对象之间的视觉相互作用)的方法的框图。图7S至图7X用于示出下文描述的过程，包括图12中的过程。

图7T至图7X示出了与图7S中所示的物理环境对应的示例性计算机生成环境。如本文参考图7T至图7X所述，根据一些实施方案，计算机生成环境任选地是增强现实环境，该增强现实环境包括物理环境的相机视图或计算机生成环境，该计算机生成环境在显示器上被显示为使得该计算机生成环境叠加在透过显示器的透明部分可见的物理环境的视图上方。如图7T中所示，用户7302正站在物理环境(例如，场景105)中并操作计算机系统(例如，计算机系统101)(例如，握持设备7100或穿戴HMD)。在一些实施方案中，如在图7T至图7X中所示的示例中，设备7100是包括显示器、触敏显示器等的手持式设备(例如，蜂窝电话、平板电脑或其他移动电子设备)。在一些实施方案中，设备7100表示可穿戴头戴式耳机并且任选地被可穿戴头戴式耳机替换，该可穿戴头戴式耳机包括平视显示器、头戴式显示器等。在一些实施方案中，物理环境包括用户7302周围的一个或多个物理表面和物理对象(例如，房间的壁(例如，前壁7304、侧壁7306)、地板7308和家具7310)。在一些实施方案中，环境中的物理对象的一个或多个物理表面透过计算机系统的显示生成部件(例如，在设备7100的显示器上或经由HMD)可见。

在图7T至图7X中所示的示例中，与物理环境(例如，物理环境的在设备7100的一个或多个相机的视场内或透过设备7100的显示器的透明部分可见的部分)对应的计算机生成的三维环境显示在设备7100上。物理环境包括在由计算机系统的显示生成部件示出的计算机生成的三维环境中具有对应表示的物理对象。例如，在显示器上示出的计算机生成环境中，前壁7304由前壁表示7304’表示，侧壁7306由侧壁表示7306’表示，地板7308由地板表示7308’表示，家具7310由家具表示7310’表示，并且家具7310的前表面7312由前表面表示7312’表示(例如，计算机生成环境是增强现实环境，该增强现实环境包括作为设备7100的一个或多个相机的实时视图的一部分的物理对象的表示7304’、7306’、7308’、7310’和7312’或透过设备7100的显示器的透明部分可见的物理对象)。在一些实施方案中，显示器上示出的计算机生成环境还包括虚拟对象(例如，虚拟对象7404搁置在显示器的与地板7308的地板表示7308’的一部分对应的一部分上方)。在一些实施方案中，当设备7100相对于物理环境的成视图角度改变时(例如，当设备7100或设备7100的一个或多个相机相对于物理环境的视角响应于设备7100在物理环境中的移动和/或旋转而改变时)，设备7100上显示的计算机生成环境的成视图角度被相应地改变(例如，根据一些实施方案，包括改变物理表面和对象(例如，壁、地板、家具等)的成视图角度)。

在图7T中，计算机系统检测与激活基于语音的虚拟助手的请求对应的输入。例如，用户向计算机系统提供基于语音的唤醒命令“助手！”。在一些实施方案中，用户任选地转为看向三维环境中与基于语音的虚拟助手的起源位置对应的预定义位置，并且/或者提供激活输入(例如，用户的手指或控制器上的轻击输入、注视输入等)。

在图7U和图7W中，响应于检测到与在三维环境中激活基于语音的虚拟助手的请求对应的输入，计算机系统在三维环境中显示虚拟助手的视觉表示。在一些实施方案中，虚拟助手的视觉表示是虚拟对象7602。例如，虚拟对象7602是虚拟助手的化身(例如，发光椭圆体或动画角色等)。在一些实施方案中，视觉指示不一定是具有虚拟表面的对象，而是视觉效应，诸如围绕显示器的外围区域、用户的视野的外围区域或注视输入的目标区域的外围区域的照明。在一些实施方案中，结合显示对虚拟助手的视觉指示来显示其他视觉效应(例如，使虚拟助手或整个显示器的背景暗化或遮挡该背景)。

如图7U和图7W中所示，在虚拟助手被激活时，该虚拟助手的视觉表示具有视觉表示的第一显示特性(例如，亮度、颜色)的第一组值。例如，视觉表示是发光椭圆体，该发光椭圆体跨视觉表示的不同部分具有第一亮度值分布和第一颜色值分布。计算机系统根据第一显示特性的第一组值修改三维环境中的物理对象7310的第一物理表面7312或该第一物理表面的表示7312’的视觉外观，以及在三维环境中的虚拟对象7404的第一虚拟表面的视觉外观。例如，如图7U和图7W中所示，计算机系统在三维环境中映射到物理世界中的物理对象7310的表面的位置处生成模拟照明，并且照明的第一显示特性的值考虑了三维世界中虚拟对象7602和表示7310’之间的空间关系、物理对象7310的表面特征和光传播的模拟物理规律。在图7U和图7W中，家具表示7310’的前表面表示7312’看起来被虚拟对象7602照亮，并且前表面表示7312’的左侧看起来比前表面表示7312’的右侧获得更多照明(例如，从虚拟对象7602获得更大的亮度和更饱和的颜色)，这是因为虚拟对象7602在三维环境中更靠近前表面表示7312’的左侧。类似地，如图7U和图7W中所示，计算机系统在三维环境中映射到三维环境中的虚拟对象7404的表面的位置处生成模拟照明，并且照明的第一显示特性的值考虑了三维世界中虚拟对象7602和虚拟对象7404之间的空间关系、虚拟对象7404的表面特征和光传播的模拟物理规律。在图7U和图7W中，虚拟对象7404的顶表面看起来被虚拟助手(例如，虚拟对象7602)的视觉表示照亮，并且虚拟对象7404的表面的中间区域看起来比虚拟对象7404的顶表面获得更少照明(例如，从虚拟对象7602获得更小的亮度和更不饱和的颜色)，这是因为虚拟助手(例如，虚拟对象7602)的视觉表示在三维环境中比起靠近虚拟对象7404的表面的中间部分而言更靠近顶部部分。

在一些实施方案中，如图7U和图7W中所示，计算机系统还针对物理对象和虚拟对象生成在虚拟助手的视觉表示的照明下的模拟阴影。例如，计算机基于三维环境中虚拟对象7602和家具表示7310’之间的空间关系、家具7310的表面特征和光传播的模拟物理规律来在三维环境中的家具表示7310’后面生成阴影7606。另外，计算机基于三维世界中虚拟对象7602和虚拟对象7404之间的空间关系、虚拟对象7404的模拟表面特征和光传播的模拟物理规律来在三维环境中的虚拟对象7404下方生成阴影7604。

如在图7U之后的图7V中所示，在一些实施方案中，虚拟助手(例如，虚拟对象7602)的视觉指示的位置相对于显示器(例如，触敏显示器)或用户的头部(例如，由HMD表示)固定，并且根据显示器相对于物理世界的移动或者根据用户的头部(或HMD)相对于物理世界的移动而相对于三维环境移动。在图7V中，当用户的头部(例如，通过HMD示出三维环境)或显示器(例如，触敏显示器)在物理环境中移动时，由于三维环境中虚拟助手(例如，虚拟对象7602)的视觉表示与物理对象(例如，家具表示7310’)和虚拟对象(例如，虚拟对象7404)的表示之间的空间关系已经响应于该移动而改变，调整三维环境中的物理对象和虚拟对象上的模拟照明。例如，家具表示7310’的前表面表示7312’获得更多照明(例如，从虚拟助手(例如，虚拟对象7602)的视觉表示获得更高的亮度和颜色饱和度)，这是因为视觉表示(例如，虚拟对象7602)现在比移动之前更靠近前表面表示7312’。对应地，虚拟对象7404的顶表面获得更少照明(例如，从虚拟助手(例如，虚拟对象7602)的视觉表示获得更低的亮度和颜色饱和度)，这是因为视觉表示(例如，虚拟对象7602)现在比在移动之前更远离虚拟对象7404。

与图7V中所示的示例相反，在一些实施方案中，虚拟助手(例如，虚拟对象7602)的视觉指示的位置相对于三维环境固定，而不是相对于显示器(例如，触敏显示器)或用户的头部(例如，由HMD表示)固定。因此，虚拟助手的视觉表示(例如，视觉表示7602)与在三维环境中表示的物理对象(例如，家具表示7310’)和虚拟对象(例如，虚拟对象7404)之间的空间关系不随着显示器相对于物理世界移动或者不随着用户相对于物理世界移动他/她的头部(或HMD)而改变。在图7V中，当用户的头部(例如，通过HMD示出三维环境)或显示器(例如，触敏显示器)在物理环境中移动时，由于三维环境中虚拟助手的视觉表示与物理对象和虚拟对象的表示之间的空间关系尚未响应于该移动而改变，不改变三维环境中的物理对象和虚拟对象上的模拟照明。然而，显示器上示出的三维世界的成视图角度由于该移动而改变。

在一些实施方案中，根据一些实施方案，在本文所述的各种示例和实施方案中使用的输入手势任选地包括离散的小运动手势(这些离散的小运动手势通过将用户的手指相对于用户的手部的其他手指或部分移动来执行)，而任选地，不需要主要移动用户的整个手部或手臂使其远离其自然位置和姿势来在进行用于与虚拟或混合现实环境进行交互的手势之前或期间立即执行操作。

在一些实施方案中，输入手势通过分析由传感器系统(例如，传感器190，图1；图像传感器314，图3)捕获的数据或信号来检测。在一些实施方案中，传感器系统包括一个或多个成像传感器(例如，一个或多个相机，诸如运动RGB相机、红外相机、深度相机等)。例如，该一个或多个成像传感器是计算机系统(例如，图1中的计算机系统101(例如，便携式电子设备7100或HMD))的部件或者向该计算机系统提供数据，该计算机系统包括显示生成部件(例如，图1、图3和图4中的显示生成部件120(例如，用作显示器和触敏表面的触摸屏显示器、立体显示器、具有透传部分的显示器等))。在一些实施方案中，该一个或多个成像传感器在设备的与设备的显示器相反的一侧上包括一个或多个后向相机。在一些实施方案中，由头戴式系统的传感器系统(例如，包括立体显示器的VR头戴式耳机，该立体显示器为用户的左眼提供左图像并为用户的右眼提供右图像)检测输入手势。例如，为头戴式系统的部件的一个或多个相机安装在该头戴式系统的前部和/或下侧上。在一些实施方案中，一个或多个成像传感器位于其中使用头戴式系统的空间中(例如，在房间中的各个位置中围绕头戴式系统排列)，使得成像传感器捕获该头戴式系统和/或该头戴式系统的用户的图像。在一些实施方案中，由平视设备(诸如，平视显示器、具有显示图形的能力的汽车挡风玻璃、具有显示图形的能力的窗户、具有显示图形的能力的透镜)的传感器系统检测输入手势。例如，一个或多个成像传感器附接到汽车的内部表面。在一些实施方案中，传感器系统包括一个或多个深度传感器(例如，传感器阵列)。例如，该一个或多个深度传感器包括一个或多个基于光的(例如，红外)传感器和/或一个或多个基于声音的(例如，超声)传感器。在一些实施方案中，传感器系统包括一个或多个信号发射器，诸如光发射器(例如，红外发射器)和/或声音发射器(例如，超声发射器)。例如，在光(例如，来自具有预先确定图案的红外光发射器阵列的光)被投影到手部(例如，手部7200)上时，由该一个或多个相机捕获在光的照明下的手部的图像，并且所捕获的图像被分析以确定手部的位置和/或构造。使用来自指向手部的图像传感器的信号来确定输入手势，而不是使用触敏表面或其他直接接触机构或基于接近的机构的信号，允许用户自由选择在利用他/她的手部提供输入手势时是执行大幅运动还是保持相对静止，而不经受由特定输入设备或输入区域施加的限制。

在一些实施方案中，微轻击输入是用户的手部的拇指在食指上方(例如，在与拇指相邻的食指的一侧上)的轻击输入。在一些实施方案中，在不需要将拇指从食指的该侧面抬起的情况下检测轻击输入。在一些实施方案中，根据确定拇指的向下移动之后是拇指的向上移动来检测轻击输入，其中拇指与食指的该侧接触小于阈值量的时间。在一些实施方案中，根据确定拇指从抬起位置移动到触压位置并且保持在触压位置至少第一阈值量的时间(例如，轻击时间阈值或长于轻击时间阈值的另一个时间阈值)来检测轻击-保持输入。在一些实施方案中，计算机系统要求手部作为整体在位置中保持基本上静止达至少第一阈值量的时间，以便检测拇指在食指上进行的轻击-保持输入。在一些实施方案中，在不需要手部作为整体保持基本上静止(例如，手部作为整体可以在拇指搁置在食指的该侧上时移动)的情况下检测触摸保持输入。在一些实施方案中，当拇指触压食指的该侧并且手部作为整体在拇指搁置在食指的该侧上时移动时检测轻击-保持-拖动输入。

在一些实施方案中，微轻弹手势是通过拇指跨食指(例如，从食指的手掌侧到背侧)的移动进行的推动或轻弹输入。在一些实施方案中，拇指的伸展移动伴随着远离食指的该侧的向上移动，例如，如在由拇指进行的向上轻弹输入中。在一些实施方案中，在拇指的向前移动和向上移动期间，食指在与拇指的方向相反的方向上移动。在一些实施方案中，通过拇指从伸展位置移动到回缩位置来执行反向轻弹输入。在一些实施方案中，在拇指的向后移动和向下移动期间，食指在与拇指的方向相反的方向上移动。

在一些实施方案中，微轻扫手势是通过拇指沿着食指(例如，沿着与拇指相邻或手掌的该侧上的食指的一侧)的移动进行的轻扫输入。在一些实施方案中，食指任选地处于伸展状态(例如，基本上笔直)或卷曲状态。在一些实施方案中，在轻扫输入手势中拇指的移动期间，食指在伸展状态和卷曲状态之间移动。

在一些实施方案中，各种手指的不同的指骨对应于不同的输入。拇指在各种手指(例如，食指、中指、无名指，以及任选地，小拇指)的各种指骨上方的微轻击输入任选地映射到不同操作。类似地，在一些实施方案中，不同的推动或点击输入可由拇指跨不同手指和/或手指的不同部分执行，以在相应用户界面上下文中触发不同操作。类似地，在一些实施方案中，由拇指沿着不同手指和/或在不同方向上(例如，朝向手指的远侧端部或近侧端部)执行的不同轻扫输入在相应用户界面上下文中触发不同操作。

在一些实施方案中，计算机系统基于拇指的移动类型而将轻击输入、轻弹输入和轻扫输入视为不同类型的输入。在一些实施方案中，计算机系统将具有被拇指轻击、触摸或轻扫的不同手指位置的输入视为给定输入类型(例如，轻击输入类型、轻弹输入类型、轻扫输入类型等)的不同子输入类型(例如，近侧、中间、远侧子类型，或者食指、中指、无名指或小拇指子类型)。在一些实施方案中，通过移动手指(例如，拇指)执行的移动量和/或与手指的移动相关联的其他移动度量(例如，速度、初始速度、结束速度、持续时间、方向、移动模式等)用于定量地影响通过手指输入触发的操作。

在一些实施方案中，计算机系统识别组合输入类型，这些组合输入类型组合由拇指进行的一系列移动，诸如轻击-轻扫输入(例如，拇指在手指上的触压，然后是沿着手指的该侧的轻扫)、轻击-轻弹输入(例如，拇指在手指上方的触压，接着是跨手指从手指的手掌侧到背侧的轻弹)、双击输入(例如，在大约相同位置处在手指的该侧上的两次连续轻击)等。

在一些实施方案中，手势输入由食指而不是拇指执行(例如，食指在拇指上执行轻击或轻扫，或者拇指和食指朝向彼此移动以执行捏合手势等)。在一些实施方案中，与不具有通过手腕移动进行的修改输入的手指移动输入相比，手腕移动(例如，手腕在水平方向或竖直方向上的轻弹)在手指移动输入之前执行，在手指移动输入之后(例如，在阈值量的时间内)执行或与手指移动输入同时执行，以在当前用户界面上下文中触发附加操作、不同操作或经修改操作。在一些实施方案中，用面向用户面部的用户手掌执行的手指输入手势被视为与用背对用户面部的用户手掌执行的手指输入手势不同类型的手势。例如，与响应于用背对用户面部的用户手掌执行的轻击手势而执行的操作(例如，相同操作)相比，用面向用户的用户手掌执行的轻击手势执行的操作具有增加(或减少)的隐私保护。

尽管在本公开中提供的示例中，可以使用一种类型的手指输入来触发某种类型的操作，但是在其他实施方案中，其他类型的手指输入任选地用于触发相同类型的操作。

下文参考相对于下面的图8至图12描述的方法8000、9000、10000、11000和12000提供了关于图7A至图7X的附加描述。

图8是根据一些实施方案的与计算机生成的三维环境进行交互(例如，包括重新配置和其他交互)的方法8000的流程图。在一些实施方案中，方法8000在计算机系统(例如，图1中的计算机系统101)处执行，该计算机系统包括显示生成部件(例如，图1、图3和图4中的显示生成部件120)(例如，平视显示器、显示器、触摸屏、投影仪等)和一个或多个输入设备(例如，一个或多个相机(例如，向下指向用户的手部的相机(例如，颜色传感器、红外传感器和其他深度感测相机)或从用户头部向前指向的相机)、控制器、触敏表面、操纵杆、按钮等)。在一些实施方案中，方法8000通过存储在非暂态计算机可读存储介质中并由计算机系统的一个或多个处理器诸如计算机系统101的一个或多个处理器202(例如，图1A中的控制单元110)执行的指令来管理。方法8000中的一些操作任选地被组合，并且/或者一些操作的次序任选地被改变。

在方法8000中，计算机系统在三维环境中(例如，通过显示生成部件看到的物理环境、模拟现实环境、虚拟现实环境、增强现实环境、混合现实环境等)用第一空间位置显示(8002)虚拟对象(例如，图7A(a-1)和7B(a-1)中的虚拟对象7208))。当在三维环境中用第一空间位置显示虚拟对象(例如，虚拟对象7208)时，计算机系统检测(8004)由用户执行的第一手部移动(例如，检测满足一个或多个手势识别标准的用户手指和/或手腕的移动)。响应于检测到由用户执行的第一手部移动(8006)：根据确定第一手部移动满足第一手势标准(例如，第一手部移动是捏合和拖动手势(例如，由于整个手部横向移动而造成捏合手指的移动)或轻扫手势(例如，手指跨另一根手指或控制器的表面进行的微轻扫手势))，计算机系统根据第一手部移动执行第一操作(例如，旋转虚拟对象、调整与虚拟对象相关联的控件、在虚拟对象内导航(例如，翻动虚拟书籍的书页)等)，而不将虚拟对象移动远离第一空间位置(例如，在进入重新配置模式之前的捏合和拖动手势不会将对象从一个位置移动到另一个位置)。例如，这在图7A(a-1)至图7A(a-3)以及在图7A(a-4)之前的图7A(a-1)至图7A(a-5)中示出。响应于检测到由用户执行的第一手部移动(8006)：根据确定第一手部移动满足第二手势标准(例如，在手腕轻弹手势之前的捏合手势(例如，由于手部围绕手腕旋转(例如，向上或斜向一边轻弹)而造成捏合手指的移动)))，计算机系统显示虚拟对象已经转变为重新配置模式的第一视觉指示(例如，设备激活虚拟对象的重新配置模式，虚拟对象从原始位置移出并且/或者变成半透明并悬停在原始位置上方)。例如，这在图7B(a-1)至图7B(a-3)中示出。当显示具有虚拟对象已经转变为重新配置模式的第一视觉指示的虚拟对象时，计算机系统检测(8008)由用户执行的第二手部移动。响应于检测到由用户执行的第二手部移动：根据确定第二手部移动满足第一手势标准(例如，第一手部移动是捏合和拖动手势(例如，由于整个手部横向移动而造成捏合手指的移动))，计算机系统根据第二手部移动将虚拟对象从第一空间位置移动(8010)到第二空间位置(例如，而不执行第一操作)(例如，一旦进入重新配置模式，就不再需要继续进行手腕轻弹，并且简单的捏合和拖动手势会将对象从一个位置移动到另一个位置)。例如，这在图7B(a-3)至7B(a-6)或在图7B(a-2)之后的图7B(a-5)和7B(a-6)中示出。

在一些实施方案中，在方法8000中，响应于检测到由用户执行的第一手部移动：根据确定第一手部移动满足第三手势标准(例如，第一手部移动是微轻击手势，不具有手部作为整体的横向和旋转移动)，计算机系统执行与虚拟对象对应的第二操作(例如，激活于虚拟对象对应的功能(例如，启动应用程序、通信会话、显示内容等))。在一些实施方案中，响应于检测到由用户执行的第二手部移动：根据确定第二手部移动满足第三手势标准(例如，第二手部移动是微轻击手势，不具有手部作为整体的横向和旋转移动)，设备停止显示虚拟对象已经转变为重新配置模式的第一视觉指示，以指示虚拟对象已经退出重新配置模式(例如，设备停用虚拟对象的重新配置模式，在虚拟对象尚未移动的情况下将虚拟对象返回到其原始位置，或者在虚拟对象已经被用户输入移动的情况下将虚拟对象稳定在新位置中，并且恢复虚拟对象的原始外观)。在一些实施方案中，响应于检测到由用户执行的第二手部移动：根据确定第二手部移动不满足第一手势标准(例如，第二手部移动是自由手部移动，而无需将手指捏合在一起或者无需满足其他预定义手势标准)，设备将虚拟对象保持为重新配置模式而不移动该虚拟对象。换句话说，当虚拟对象处于重新配置模式时，允许用户以不对应于移动虚拟对象的手势并且不会使得虚拟对象退出重新配置模式的方式移动用户的手部。例如，用户可以使用该机会来探索三维环境，并且准备用于随后将虚拟对象移动到的合适位置。

在一些实施方案中，第二手部移动不满足第二手势标准(例如，第二手部移动不是在手腕轻弹手势之前的捏合手势(例如，由于手部围绕手腕旋转(例如，向上或斜向一边轻弹)而造成捏合手指的移动))。

在一些实施方案中，第二手势标准包括由在手腕轻弹手势之前的捏合手势满足的要求(例如，当手部的拇指和食指朝向彼此移动并且在三维空间中与虚拟对象的位置对应的位置处与彼此接触，接着在拇指和食指保持与彼此接触时整个手部围绕手腕旋转时，相对于虚拟对象满足第二手势标准)。

在一些实施方案中，第二手势标准包括由在满足对象选择标准时检测到的手腕轻弹手势满足的要求(例如，当在虚拟对象当前被选择(例如，通过先前的选择输入(例如，指向虚拟对象的注视输入、指向虚拟对象的捏合手势、指向虚拟对象的双指轻击手势))时整个手部围绕手腕快速旋转(例如，轻弹手势)时，相对于虚拟对象满足第二手势标准))。在一些实施方案中，当检测到手腕轻弹手势时，先前的选择输入可能正在进行(例如，就捏合手势或注视输入而言)或者已经结束(例如，就用于选择虚拟对象的双指轻击手势而言)。

在一些实施方案中，第一手势标准包括由通过手部的一根或多根手指(例如，单根手指或多根手指一致地横向移动)提供的移动输入(例如，手指跨空气或跨表面的横向移动(例如，控制器的表面或手部或另一根手指的表面)，或者手指在空气中或表面(例如，控制器的表面或手部或另一根手指的表面)上的轻击移动)满足的要求。

在一些实施方案中，当显示具有虚拟对象已经转变为重新配置模式的第一视觉指示的虚拟对象时，计算机系统检测指定虚拟对象在三维环境中的目的地位置的预定义输入(例如，检测预定义输入包括检测用户注视从第一空间位置到第二空间位置的移动，或者检测在用户注视聚焦于三维空间中的第二空间位置上时由手部的手指进行的轻击输入(例如，在空气中或控制器或同一手部的表面上的轻击))。响应于检测到指定虚拟对象在三维环境中的目的地位置的预定义输入，计算机系统在将虚拟对象从第一空间位置移动到目的地位置(例如，第二空间位置或不同于第二空间位置的位置)之前在目的地位置处显示第二视觉指示(例如，发光或阴影叠加(例如，其为虚拟对象的形状))。在一些实施方案中，响应于在检测到实际移动虚拟对象的第二手部移动之前检测到预定义输入，在目的地位置处显示第二视觉指示。在一些实施方案中，满足第一手势标准的第二手部移动是在虚拟对象的目的地位置已由在虚拟对象处于重新配置模式时提供的预定义输入(例如，注视输入、轻击输入)指定之后检测到的轻击输入、手指轻弹输入、手部轻扫输入或捏合和拖动输入等。在一些实施方案中，在检测到第二手部移动之前检测到预定义输入(例如，在预定输入是选择虚拟对象的目的地位置的注视输入或轻击输入(例如，用户可在提供预定义输入之后从目的地位置移开目光)，并且第二手部移动是微小的手指轻弹或手指轻击而不是发起虚拟对象朝向目的地位置移动的整个手部移动的情况下)。在一些实施方案中，预定义输入与第二手部移动同时被检测到(例如，在预定义输入是聚焦于虚拟对象的目的地位置上的注视输入的情况下(例如，在第二移动(例如，微小的手指轻弹或手指轻击，而不是整个手部移动)发起虚拟对象朝向目的地位置的移动时，用户保持在目的地位置处的注视))。在一些实施方案中，预定义输入是第二手部移动(例如，预定义输入是抓取虚拟对象并将虚拟对象拖动到目的地位置的捏合手势)。

在一些实施方案中，检测指定虚拟对象在三维环境中的目的地位置的预定义输入包括检测预定义输入中的移动(例如，注视输入的移动，或者在手指的轻击之前手指的移动)，并且其中在目的地位置处显示第二视觉指示(例如，发光或阴影叠加(例如，其为虚拟对象的形状))包括基于预定义输入的移动来更新第二视觉指示的位置(例如，发光或阴影叠加(例如，其为虚拟对象的形状)的位置根据注视输入的移动和/或在输入的轻击之前手指的位置来连续且动态地改变)。

在一些实施方案中，在满足第一手势标准的第二手部移动终止之后，并且当虚拟对象保持为重新配置模式时(例如，在对象已经根据第二手部移动来移动之后，并且当虚拟对象被显示为具有虚拟对象已经转变为重新配置模式的第一视觉指示时)，计算机系统检测满足第一手势标准的第三手部移动(例如，拇指跨同一手部的食指的该侧轻扫的微轻扫手势，或者由手指在控制器的触敏表面上进行的轻扫手势)。响应于检测到第三手部移动，计算机系统根据第三手部移动将虚拟对象从虚拟对象的当前位置移动到第三空间位置。

在一些实施方案中，三维环境包括一个或多个平面(例如，物理对象的表面、虚拟对象的模拟表面、表示物理对象的虚拟对象的表面等)，并且根据第二手部移动将虚拟对象从第一空间位置移动到第二空间位置包括：在虚拟对象根据第二手部移动进行的移动期间将虚拟对象的移动路径限制到该一个或多个平面中的第一平面(例如，如果第一空间位置和第二空间位置在同一平面上，则即使当第二手部移动的移动路径不严格遵循该平面时，虚拟对象也沿着该平面滑动)。

根据权利要求1至10中任一项所述的方法，在一些实施方案中，三维环境至少包括第一平面和第二平面(例如，物理对象的表面、虚拟对象的模拟表面、表示物理对象的虚拟对象的表面等)，并且根据第二手部移动将虚拟对象从第一空间位置移动到第二空间位置包括：在虚拟对象根据第二手部移动进行的移动的第一部分期间将虚拟对象的移动路径限制到第一平面，在虚拟对象根据第二手部移动进行的移动的第二部分期间将虚拟对象的移动路径限制到第二平面，以及在虚拟对象的移动的第一部分和虚拟对象的移动的第二部分之间的虚拟对象的移动的第三部分期间增加虚拟对象的标高(elevation)(例如，对象当在真实世界中的平面之间切换时向上飞)。

在一些实施方案中，响应于检测到由用户执行的第一手部移动：根据确定第一手部移动满足第二手势标准(例如，在手腕轻弹手势之前的捏合手势(例如，由于手部围绕手腕旋转(例如，向上或斜向一边轻弹)而造成捏合手指的移动)))，计算机系统结合显示用于指示虚拟对象已经转变为重新配置模式的第一视觉指示来生成音频输出(例如，设备生成提供虚拟对象已经从其原始位置移出的指示的离散音频输出(例如，哔哔声或唧唧声)，并且/或者在虚拟对象保持为重新配置模式时生成连续音频输出(例如，连续音乐或声波))。

在一些实施方案中，当虚拟对象处于重新配置模式时，计算机系统在检测到第二手部移动并且根据第二移动来移动虚拟对象之后检测第四手部移动。响应于检测到第四手部移动：根据确定第四手部移动满足第一手势标准，计算机系统根据第四手部移动将虚拟对象从第二空间位置移动到第三空间位置；并且根据确定第四手部移动满足第四手势标准(例如，在手腕轻弹手势之前的捏合手势(例如，由于手部围绕手腕旋转(例如，向下轻弹)而造成捏合手指的移动)))，计算机系统停止显示第一视觉指示以指示虚拟对象已经退出重新配置模式。在一些实施方案中，设备显示动画，同时停止显示第一视觉指示(例如，恢复虚拟对象的正常外观)，该动画示出虚拟对象稳定在三维环境中的第三空间位置中。

应当理解，对图8中的操作进行描述的特定次序仅仅是示例性的，并非旨在表明所述次序是可以执行这些操作的唯一次序。本领域的普通技术人员会想到多种方式来对本文所述的操作进行重新排序。另外，应当注意，本文相对于本文所述的其他方法(例如，方法9000、10000、11000和12000)所述的其他过程的细节同样以类似的方式适用于上文相对于图8所述的方法8000。例如，上文参考方法8000所述的手势、注视输入、物理对象、用户界面对象和/或动画任选地具有本文参考本文所述的其他方法(例如，方法9000、10000、11000和12000)所述的手势、注视输入、物理对象、用户界面对象和/或动画的特征中的一个或多个特征。为了简明起见，此处不再重复这些细节。

图9是根据一些实施方案的生成计算机生成的三维环境(例如，包括模拟物理对象和虚拟对象之间的视觉相互作用)的方法9000的流程图。在一些实施方案中，方法9000在计算机系统(例如，图1中的计算机系统101)处执行，该计算机系统包括显示生成部件(例如，图1、图3和图4中的显示生成部件120)(例如，平视显示器、显示器、触摸屏、投影仪等)和一个或多个输入设备(例如，相机(例如，向下指向用户的手部的相机(例如，颜色传感器、红外传感器和其他深度感测相机)或从用户头部向前指向的相机)、控制器、触敏表面、操纵杆、按钮等)。在一些实施方案中，方法9000通过存储在非暂态计算机可读存储介质中并由计算机系统的一个或多个处理器诸如计算机系统101的一个或多个处理器202(例如，图1A中的控制单元110)执行的指令来管理。方法9000中的一些操作任选地被组合，并且/或者一些操作的次序任选地被改变。

在方法9000中，计算机系统经由显示生成部件显示(9002)三维场景，该三维场景至少包括在第一位置(例如，壁上的虚拟窗户、壁上显示电影的虚拟屏幕)处的第一虚拟对象(例如，图7E和图7F中的虚拟对象7332)和在与第一位置分开(例如，第一虚拟对象和第一物理表面被真实或模拟自由空间分开)的第二位置(例如，房间中远离壁的书柜、壁或房间的地板)处的第一物理表面(例如，前壁7304、侧壁7306、地板7308、家具7310或它们的相应表示)，其中虚拟对象以第一显示特性的与第一虚拟对象的第一部分对应的第一值(例如，第一部分7332-b和7332-c和7332-b’和7332-c’中的亮度值和颜色值)和第一显示特性的与第一虚拟对象的第二部分对应的第二值(例如，第二部分7332-a和7332-d和7332-a’和7332-d’中的亮度值和颜色值)来显示(例如，虚拟对象在虚拟对象的不同部分中具有不同的亮度值或颜色，并且第一显示特性与虚拟对象的形状和尺寸无关)，第一显示特性的第二值不同于第一显示特性的第一值。当显示包括第一虚拟对象和第一物理表面的三维场景时，计算机系统经由显示生成部件在三维场景的第二位置(例如，物理表面在该场景中的位置)处生成(9004)第一视觉效应。生成第一视觉效应包括：根据第一显示特性的与第一虚拟对象的第一部分对应的第一值来修改三维场景中第一物理表面的第一部分的视觉外观；以及根据第一显示特性的与第一虚拟对象的第二部分对应的第二值来修改三维场景中第一物理表面的第二部分的视觉外观，其中由于第一虚拟对象的第一部分和第二部分中的第一显示特性的第一值和第二值的差异，第一物理表面的第一部分的视觉外观和第一物理表面的第二部分的视觉外观被(例如，根据虚拟对象和物理表面之间的模拟空间关系、虚拟对象和物理表面的真实物理特性和模拟物理特性，以及模拟物理规律)不同地修改(例如，由于虚拟对象的不同部分和物理表面的不同部分之间的空间关系，虚拟对象的不同部分的不同颜色和亮度值不同地改变物理表面的不同部分的颜色和亮度)。例如，这在图7E至图7F中示出。

在一些实施方案中，计算机系统检测第一虚拟对象的外观变化，包括第一虚拟对象的第一部分和第二部分中的第一显示特性的值变化。响应于检测到第一虚拟对象的外观变化，计算机系统根据第一虚拟对象的外观变化来在第一物理表面的不同部分处修改第一物理表面的视觉外观。该修改包括：根据第一显示特性和第一物理表面的第一部分的视觉外观之间的第一关系来修改第一物理表面的第一部分的视觉外观；以及根据第一显示特性和第一虚拟对象的第二部分的视觉外观之间的第二关系来修改第一物理表面的第二部分的视觉外观，其中第一关系和第二关系对应于第一物理表面的第一部分和第二部分的不同物理特征。例如，第一关系和第二关系都基于从与第一物理表面交互的虚拟对象发出的光的模拟物理规律，但是由于与第一物理表面的不同部分对应的距离、形状、表面纹理和光学特性以及/或者第一物理表面的不同部分和第一虚拟对象的每个相应部分之间的不同空间关系而有所不同。

在一些实施方案中，第一虚拟对象包括在第二物理表面(例如，壁)上与三维场景中的第一位置对应的位置处的虚拟叠加(例如，显示虚拟场景(例如，如从窗户看的)的虚拟窗户)(例如，第一虚拟对象是虚拟窗户，该虚拟窗户显示在与真实世界中的物理窗户或物理壁的一部分对应的位置处)，并且其中计算机系统根据包括当天时间、位置和虚拟叠加的大小中的至少一者的一个或多个参数的相应值的变化来改变虚拟叠加的外观(例如，改变虚拟叠加中所示的场景的外观)。例如，在当天时间在真实世界中或由用户设置的布景中改变时，设备根据当天时间的变化来改变虚拟叠加(例如，虚拟窗户)中所示的虚拟场景(例如，城市、大自然、风景、植物等的视图)。在另一个示例中，用户或设备指定虚拟叠加中所示的虚拟场景的场景位置，并且该虚拟场景是基于场景位置从场景数据库中选择的。在另一个示例中，用户请求计算机系统增大或减小虚拟叠加的大小(例如，从小虚拟窗户转变为大虚拟窗户，以用虚拟窗户替换整个壁等)，并且计算机系统改变通过虚拟叠加呈现的虚拟场景的量。

在一些实施方案中，生成第一视觉效应包括：根据虚拟叠加的第一部分中所示的内容的变化来修改第一物理表面(例如，真实世界中的相对的壁或地板)的第一部分的视觉外观；以及根据虚拟叠加的第二部分中所示的内容的变化来修改第一物理表面的第二部分的视觉外观。例如，在真实世界的地板表面上，来自覆盖在物理壁上面的虚拟窗户的不同部分的光的量、光的颜色以及光的方向(例如，取决于当天时间)在虚拟窗户前面的地板表面上造成不同的模拟照明。计算机系统针对地板表面生成第二虚拟叠加，该第二虚拟叠加在第二虚拟叠加的不同部分中模拟与地板表面的不同部分对应的不同量的照明、不同颜色的照明和不同方向的照明。例如，在当天时间改变时，与虚拟窗户对应的光的量和光的方向相应地改变，并且地板上的第二虚拟叠加中所示的模拟照明的量也改变(例如，光的方向在早晨、中午和傍晚不同，并且光的颜色和明暗也不同)。

在一些实施方案中，第一虚拟对象包括在与三维场景中的第一位置对应的位置处的显示媒体内容的虚拟屏幕(例如，显示电影或视频的平坦虚拟屏幕、从用户的视点显示三维电影或沉浸式全息体验的三维空间或圆顶表面)(例如，虚拟屏幕是独立式的并且不附接到任何物理表面，或者覆盖在物理表面诸如壁或TV屏幕上面)，并且计算机系统根据媒体项目的回放进度来改变虚拟屏幕上所示的内容。例如，随着电影或视频回放的进行，根据电影或视频的当前回放位置来改变虚拟屏幕(例如，2D或3D或沉浸式虚拟屏幕)上所示的内容。

根据权利要求18所述的方法，在一些实施方案中，生成第一视觉效应包括：根据虚拟屏幕的第一部分中所示的内容的变化来修改第一物理表面(例如，真实世界中的相对的壁或地板)的第一部分的视觉外观；以及根据虚拟屏幕的第二部分中所示的内容的变化来修改第一物理表面的第二部分的视觉外观。例如，在周围环境中的物理对象的表面(例如，地板、壁、沙发和用户身体的表面等)上，来自虚拟屏幕的不同部分的光的量、光的颜色以及光的方向在周围环境中的物理对象的表面上造成不同的模拟照明。设备针对周围物理表面生成虚拟叠加，这些虚拟叠加在虚拟叠加的不同部分中模拟与物理表面的不同部分对应的不同量的照明、不同颜色的照明和不同方向的照明。在电影场景改变时，光的量、光的颜色和光的方向也改变，并且这也改变了覆盖在周围物理表面上面的模拟照明。

在一些实施方案中，第一虚拟对象是经由语音与用户进行交互的虚拟助手(例如，虚拟助手在各种上下文中激活并且向用户提供关于各种任务和与电子设备的交互的辅助)，并且计算机系统根据虚拟助手的操作模式来改变虚拟助手的外观。例如，虚拟助手的颜色、大小、色调、亮度等随着虚拟助手执行不同任务或处于各种操作模式(例如，处于休眠状态、监听用户的指令、从一个位置移动到另一个位置、在根据用户的命令执行任务的过程中、完成任务、执行不同类型的任务等)而改变。由于虚拟助手的外观变化，设备在物理表面上与虚拟助手周围的位置对应的位置处生成模拟照明。

在一些实施方案中，生成第一视觉效应包括根据第一虚拟对象在第一物理表面(例如，反射式物理表面)的第一部分上的模拟反射来修改第一物理表面的第一部分的视觉外观(例如，由设备根据以下项来生成模拟反射：第一物理表面的第一部分的表面特性、三维场景中第一虚拟对象相对于第一物理表面的第一部分的相对位置、从第一虚拟对象发出的光的模拟物理特性，以及光传播的物理规律，该物理规控制光如何被反射、透射以及对象如何被真实世界中的这种光照亮)。在一些实施方案中，生成第一视觉效应还包括根据第一虚拟对象在第一物理表面(例如，反射式物理表面)的第二部分上的模拟反射来修改第一物理表面的第二部分的视觉外观(例如，由设备根据以下项来生成模拟反射：第一物理表面的第二部分的表面特性、三维场景中第一虚拟对象相对于第一物理表面的第二部分的相对位置、从第一虚拟对象发出的光的模拟物理特性，以及光传播的物理规律，该物理规控制光如何被反射、透射以及对象如何被真实世界中的这种光照亮)。

在一些实施方案中，生成第一视觉效应包括根据第一虚拟对象投射在第一物理表面(例如，非反射式物理表面)的第一部分上的模拟阴影来修改第一物理表面的第一部分的视觉外观(例如，由设备根据以下项来生成模拟阴影：第一物理表面的第一部分的表面特性、三维场景中第一虚拟对象相对于第一物理表面的第一部分的相对位置、第一虚拟对象的模拟物理特性(例如，形状、大小等)、真实光源、三维场景中存在的模拟光源，以及光传播和折射的物理规律)。在一些实施方案中，生成第一视觉效应还包括根据第一虚拟对象在第一物理表面(例如，非反射式物理表面)的第二部分上的模拟阴影来修改第一物理表面的第二部分的视觉外观(例如，由设备根据以下项来生成模拟阴影：第一物理表面的第二部分的表面特性、三维场景中第一虚拟对象相对于第一物理表面的第二部分的相对位置、第一虚拟对象的模拟物理特性(例如，形状、大小等)、真实光源、三维场景中存在的模拟光源，以及光传播的物理规律，该光传播的物理规律控制光如何被反射、透射以及对象如何被真实世界中的这种光照亮)。

应当理解，对图9中的操作进行描述的特定次序仅仅是示例性的，并非旨在表明所述次序是可以执行这些操作的唯一次序。本领域的普通技术人员会想到多种方式来对本文所述的操作进行重新排序。另外，应当指出的是，本文相对于本文所述的其他方法(例如，方法8000、10000、11000和12000)所述的其他过程的细节同样以类似的方式适用于上文相对于图9所述的方法9000。例如，上文参考方法9000所述的手势、注视输入、物理对象、用户界面对象和/或动画任选地具有本文参考本文所述的其他方法(例如，方法8000、10000、11000和12000)所述的手势、注视输入、物理对象、用户界面对象和/或动画的特征中的一个或多个特征。为了简明起见，此处不再重复这些细节。

图10是根据一些实施方案的生成计算机生成的三维环境并且有利于用户与三维环境的交互(例如，包括基于用户输入逐渐调整计算机生成体验的沉浸感程度)的方法10000的流程图。在一些实施方案中，方法10000在计算机系统(例如，图1中的计算机系统101)处执行，该计算机系统包括显示生成部件(例如，图1、图3和图4中的显示生成部件120)(例如，平视显示器、显示器、触摸屏、投影仪等)和一个或多个输入设备(例如，相机(例如，向下指向用户的手部的相机(例如，颜色传感器、红外传感器和其他深度感测相机)或从用户头部向前指向的相机)、控制器、触敏表面、操纵杆、按钮等)。在一些实施方案中，方法10000通过存储在非暂态计算机可读存储介质中并由计算机系统的一个或多个处理器诸如计算机系统101的一个或多个处理器202(例如，图1A中的控制单元110)执行的指令来管理。方法10000中的一些操作任选地被组合，并且/或者一些操作的次序任选地被改变。

在方法10000中，计算机系统经由显示生成部件显示(10002)三维场景，该三维场景包括第一组物理元素(例如，图7G中所示的物理对象或这些物理对象的表示)(例如，透过显示生成部件的透明部分看见的物理对象，或者在物理对象的物理环境的相机视图中由其图像表示的物理对象，其中三维场景中的物理元素的相应位置对应于物理对象在显示生成部件周围的物理环境中的相应位置)和第一数量的虚拟元素(例如，无虚拟对象或仅简单的虚拟对象表示用户界面元素和控件)。第一组物理元素至少包括与第一类物理对象对应的物理元素(例如，壁或直接面向显示生成部件的壁、窗户等)和与第二类物理对象对应的物理元素(例如，与直接面向显示生成部件的壁区分开的侧壁、与壁区分开的天花板和地板、与窗户区分开的壁、房间内部的物理对象、房间内部的竖直物理表面、房间内部的水平表面、大于预设阈值的表面、房间中的真实家居的表面)。当经由显示生成部件显示具有第一数量的虚拟元素的三维场景时，计算机系统检测(10004)两个或更多个用户输入的序列(例如，两个或更多个轻扫输入的序列、两个或更多个搭扣的序列、与用户将HMD放置在他/她的头部上对应的输入、接着是与用户将他/她的手部从HMD拿开对应的输入、接着是与用户在HMD在他/她的头部上的情况下不采取行动对应的输入(例如，该两个或更多个用户输入不同于(例如，在输入聚焦于特定虚拟对象上的情况下)将特定虚拟对象拖动到和/或丢到三维场景中的用户输入)。响应于检测到该两个或更多个用户输入的序列中的连续用户输入，计算机系统根据该两个或更多个用户输入的序列中的连续输入相继增加(10006)三维场景中显示的虚拟元素的数量(例如，响应于相同类型的连续用户输入或相关输入的序列中的连续用户输入，通过替换三维场景中的另外类别的物理元素来相继增加三维场景的沉浸感程度)。具体地，响应于检测到该两个或更多个用户输入的序列中的第一用户输入(例如，图7G中由手部7200进行的输入)，以及根据确定第一用户输入满足第一标准(例如，用于检测增加计算机生成体验的沉浸感程度的手势的标准)，计算机系统显示具有至少第一组一个或多个物理元素的第一子集(例如，一个或多个物理元素的一些而不是全部变成被新添加的虚拟元素遮挡或阻挡)和第二数量的虚拟元素(例如，图7H和图7I中的虚拟对象7402)的三维场景。第二数量的虚拟元素与第一数量的虚拟元素相比占据三维场景的较大部分，包括三维场景的在检测到第一用户输入之前被第一类物理元素(例如，壁)占据的第一部分(例如，显示虚拟元素，诸如阻挡三维场景中的第一组物理表面(例如，壁等)的视图的虚拟场景或虚拟窗户)。另外，响应于检测到该两个或更多个用户输入的序列中的第二用户输入(例如，图7I中由手部7200进行的输入)，以及根据确定第二用户输入在第一用户输入之后并且满足第一标准，计算机系统显示具有至少第一组一个或多个物理元素的第二子集(例如，第一组一个或多个物理元素中的多个或全部变成被新添加虚拟元素遮挡或阻挡)和第三数量的虚拟元素(例如，图7J和7K中的虚拟对象7402和7406)的三维场景。第三数量的虚拟元素与第二数量的虚拟元素相比占据三维场景的更大部分，包括三维场景的在检测到第一用户输入之前被第一类物理元素占据的第一部分，以及三维场景的在检测到第二用户输入之前被第二类物理元素占据的第二部分(例如，继续显示虚拟元素，诸如阻挡三维场景中的第一组物理表面(例如，壁等)的虚拟场景或虚拟窗户，以及显示附加虚拟元素，诸如阻挡第二组物理表面(例如，桌面、书架和家用电器的表面等)的视图的虚拟装饰和虚拟表面)。例如，这在图7G至图7L中示出。

在一些实施方案中，响应于检测到该两个或更多个用户输入的序列中的第一用户输入而显示第二数量的虚拟元素包括显示第一动画转变，该第一动画转变用虚拟元素(例如，新的虚拟元素和/或现有虚拟元素的扩展)逐渐替换三维场景中增加量的第一类物理元素(例如，替换通过视频可见的对象的显示，或者遮挡透过透明或部分透明显示器直接可见的对象)。响应于检测到该两个或更多个用户输入的序列中的第二用户输入而显示第三数量的虚拟元素包括显示第二动画转变，该第二动画转变用虚拟元素(例如，新的虚拟元素和/或现有虚拟元素的扩展)逐渐替换三维场景中增加量的第二类物理元素，而第一类物理元素被显示为取代三维场景中的现有虚拟元素(例如，第二数量的虚拟元素)。例如，响应于第一输入(例如，控制器或用户的手部上的第一轻扫输入)，设备用森林的虚拟场景替换在三维场景中可见的第一物理壁(例如，直接面向显示生成部件的壁)的视图，而使其他物理壁、物理天花板和物理地板在三维场景中可见。当替换第一物理壁的视图时，设备显示在森林的虚拟场景中逐渐淡入的动画转变。响应于第二输入(例如，控制器或用户的手部上的第二轻扫输入)，设备用从三维场景中已经可见的部分延伸的森林的虚拟场景替换在三维场景中可见的剩余物理壁(例如，不直接面向显示生成部件的壁)的视图，而仅使物理天花板和物理地板在三维场景中可见。当替换剩余物理壁的视图时，设备显示使虚拟森林的现有视图从第一物理壁的位置逐渐扩展到其余壁的动画转变。在一些实施方案中，响应于第三输入(例如，在控制器或用户的手部上的第三轻扫输入)，设备用森林的虚拟场景替换在三维场景中仍然可见的天花板(以及任选地，地板)的视图，该虚拟场景从虚拟森林的现有视图从周围物理壁的位置朝向天花板的中心逐渐延伸(例如，示出从虚拟森林中的空地观看的虚拟天空的一部分)(以及任选地，朝向地板的中心逐渐延伸(例如，示出虚拟森林中的虚拟空地的地面))。响应于第四输入(例如，控制器或用户的手部上的第四轻扫输入)，设备用逐渐在物理对象的表面上淡入并且变得越来越不透明且越来越饱和的虚拟叠加替换在三维场景中仍然可见的其他物理对象的视图。

在一些实施方案中，当根据该两个或更多个用户输入的序列中的连续输入相继增加虚拟元素的数量时，计算机系统进行以下操作：响应于检测到两个或更多个用户输入的序列中的第三用户输入，以及根据确定第三用户输入在第二用户输入之后并且满足第一标准，显示具有第四数量的虚拟元素的三维场景。第四数量的虚拟元素与第三数量的虚拟元素相比占据三维场景的更大部分(例如，第四数量的虚拟元素占据所有三维场景)，包括三维场景的在检测到第一用户输入之前被第一类物理元素(例如，物理窗户或面向显示生成部件的壁)占据的第一部分，三维场景的在检测到第二用户输入之前被第二类物理元素(例如，壁或不面向显示生成部件的壁)占据的第二部分，以及三维场景的在检测到第三用户输入之前被第三类物理元素(例如，房间内的物理对象)占据的第三部分。

在一些实施方案中，响应于检测到该两个或更多个用户输入的序列中的第二用户输入，以及根据确定第二用户输入在第一用户输入之后并且满足第一标准，计算机系统显示在显示第二数量的虚拟元素和显示第三数量的虚拟元素之间的第三动画转变。在一些实施方案中，第二数量的虚拟元素的渲染更假且更不逼真，并且第三数量的虚拟元素(包括先前显示的第二数量的虚拟元素和附加虚拟元素)的渲染更逼真并且表示更具有沉浸感的计算机生成现实体验。

在一些实施方案中，第二数量的虚拟元素包括关于第一虚拟环境(例如，示出不同地理位置(例如，实时视频馈送或模拟场景)的场景的虚拟窗户)的视图，该视图被显示为具有至少第一组一个或多个物理元素的第一子集。关于第一虚拟环境的视图具有视图中表示的第一虚拟环境的一部分的第一显示特性(例如，亮度分布、颜色、色调等)的第一组值(例如，虚拟窗户示出从雪山的顶部反射的粉色晨光)。计算机系统根据关于第一虚拟环境的视图中表示的第一虚拟环境的一部分的第一显示特性的第一组值来修改第一组一个或多个物理元素的第一子集的至少一部分的视觉外观(例如，虚拟窗户中所示的第一虚拟环境的视图的第一物理特性的第一组值和第一物理元素子集的视觉外观的变化之间的对应关系基于：模拟物理规律(诸如光传播规律，该光传播规律控制光如何被反射、透射，以及对象如何被真实世界中的这种光照亮)、第一物理元素子集的真实表面特性或模拟表面特性，以及三维场景中虚拟窗户相对于第一虚拟元素子集的相对位置)。

在一些实施方案中，当显示包括关于第一虚拟环境(例如，示出不同地理位置的场景(例如，实时视频馈送或模拟场景)的虚拟窗户)的视图的第二数量的虚拟元素，其中该视图被显示为具有至少第一组一个或多个物理元素的第一子集时，计算机系统检测满足第二标准(例如，用于显示用于改变关于虚拟环境的视图而不改变沉浸感程度的导航菜单的标准)(例如，用于检测由用户的手指或手部进行的长按压手势的标准)的输入。响应于检测到满足与第一标准不同的第二标准的输入(例如，保持至少相应时间阈值的长按压输入)，计算机系统显示用于改变关于第一虚拟环境的视图的多个可选选项(例如，包括用于改变虚拟窗户中表示的虚拟环境(例如，通过改变位置、当天时间、灯光、天气状况、缩放级别、成视图角度、季节、日期等)的菜单选项)。在一些实施方案中，计算机系统检测选择所显示的可选择选项中的一个可选择选项的输入，并且作为响应，计算机系统用关于与第一虚拟环境不同的第二视觉环境(例如，海洋或洞穴等)的视图替换关于第一虚拟环境的视图，或者更新视图以示出具有改变第一虚拟环境的外观的至少一个改变的参数(例如，当天时间、季节、日期、位置、缩放级别、视角等)的第一虚拟环境。

在一些实施方案中，当显示包括关于第一虚拟环境(例如，示出不同地理位置的场景(例如，实时视频馈送或模拟场景)的虚拟窗户)的视图的第二数量的虚拟元素，其中该视图被显示为具有至少第一组一个或多个物理元素的第一子集时，计算机系统检测满足第三标准(例如，用于改变关于虚拟环境的视图而不改变沉浸感程度的标准)(例如，用于检测由用户的手指或手部进行的轻扫手势的标准)的输入。响应于检测到满足第三标准的输入，计算机系统用关于与第一虚拟环境不同的第二虚拟环境(例如，海洋或洞穴等)的视图替换关于第一虚拟环境的视图。在一些实施方案中，当视图的内容改变(例如，随着当天时间、位置、缩放级别、视角、季节等的改变而改变)时，计算机系统也根据视图的内容中表示的虚拟环境的一部分的第一显示特性的改变的值来修改第一组一个或多个物理元素的第一子集的至少一部分的视觉外观(例如，虚拟窗户中所示的虚拟环境的视图的第一物理特性的第一组值和第一物理元素子集的视觉外观的变化之间的对应关系基于：模拟物理规律(诸如光传播规律，该光传播规律控制光如何被反射、透射，以及对象如何被真实世界中的这种光照亮)、第一物理元素子集的真实表面特性或模拟表面特性，以及三维场景中虚拟窗户相对于第一虚拟元素子集的相对位置)。

在一些实施方案中，当显示包括关于第一虚拟环境(例如，示出不同地理位置的场景(例如，实时视频馈送或模拟场景)的虚拟窗户)的视图的第二数量的虚拟元素，其中该视图被显示为具有至少第一组一个或多个物理元素的第一子集时，计算机系统检测满足第三标准(例如，用于改变关于虚拟环境的视图而不改变沉浸感程度的标准)(例如，用于检测由用户的手指或手部进行的轻扫手势的标准)的输入。响应于检测到满足第三标准的输入，计算机系统更新视图以示出具有改变第一虚拟环境的外观的至少一个改变的参数(例如，当天时间、季节、日期、位置、缩放级别、视角等)的第一虚拟环境。在一些实施方案中，当视图的内容改变(例如，随着当天时间、位置、缩放级别、视角、季节等的改变而改变)时，计算机系统也根据视图的内容中表示的虚拟环境的一部分的第一显示特性的改变的值来修改第一组一个或多个物理元素的第一子集的至少一部分的视觉外观(例如，虚拟窗户中所示的虚拟环境的视图的第一物理特性的第一组值和第一物理元素子集的视觉外观的变化之间的对应关系基于：模拟物理规律(诸如光传播规律，该光传播规律控制光如何被反射、透射，以及对象如何被真实世界中的这种光照亮)、第一物理元素子集的真实表面特性或模拟表面特性，以及三维场景中虚拟窗户相对于第一虚拟元素子集的相对位置)。

在一些实施方案中，第一标准包括第一定向标准(例如，输入是水平轻扫输入)，并且第二标准包括与第一定向标准不同的第二定向标准(例如，输入是竖直轻扫输入)。例如，在一些实施方案中，水平轻扫手势改变虚拟窗户内部表示的视图而不改变窗户的大小或改变沉浸感程度(例如，而不改变三维场景中虚拟元素的数量)，而竖直轻扫手势增加或减少沉浸感程度(例如，增加或减少三维场景中虚拟元素的数量)。

在一些实施方案中，显示第一数量的虚拟元素包括显示三维场景中的第一虚拟窗户，显示第二数量的虚拟元素包括扩展三维场景中的第一虚拟窗户，并且显示第三数量的虚拟元素包括用虚拟元素替换一个或多个物理壁的视图。在一些实施方案中，该两个或更多个用户输入的序列中的附加用户输入使得另外量的虚拟元素被引入三维场景中，占据该场景的先前被物理元素占据的部分。例如，满足第一标准的第三输入用虚拟元素替换多个剩余壁和天花板。满足第一标准的第四输入用虚拟元素替换地板。

在一些实施方案中，该两个或更多个用户输入的序列包括第一输入类型(例如，相同输入类型，诸如竖直/向上轻扫输入)的重复输入。

在一些实施方案中，该两个或更多个用户输入的序列包括连续输入(例如，从第一位置开始并且包括在预定义方向上的经过多个阈值位置/距离的连续移动的竖直/向上轻扫输入，或者具有超过多个强度阈值的连续增加的强度的按压输入等)的连续部分，并且连续输入的每个部分对应于该两个或更多个用户输入的序列中的相应用户输入(例如，通过满足多个输入阈值中的相应输入阈值)。

在一些实施方案中，第一组一个或多个物理元素的第一子集至少包括物理环境的壁和地板，并且第一组一个或多个物理元素的第二子集包括物理环境的地板，而不包括物理环境的壁。例如，在一些实施方案中，虚拟元素替换三维场景中表示的物理环境的一个或多个壁，但不替换物理环境的地板。

在一些实施方案中，第一组一个或多个物理元素的第一子集至少包括物理环境中的壁和一个或多个家具，并且第一组一个或多个物理元素的第二子集包括物理环境中的一个或多个家具，而不包括物理环境的壁。例如，在一些实施方案中，虚拟元素替换三维场景中表示的物理环境的一个或多个壁，但不替换物理环境中的家具中的至少一些家具。

应当理解，对图10中的操作进行描述的特定次序仅仅是示例性的，并非旨在表明所述次序是可以执行这些操作的唯一次序。本领域的普通技术人员会想到多种方式来对本文所述的操作进行重新排序。另外，应当指出的是，本文相对于本文所述的其他方法(例如，方法8000、9000、11000和12000)所述的其他过程的细节同样以类似的方式适用于上文相对于图10所述的方法10000。例如，上文参考方法10000所述的手势、注视输入、物理对象、用户界面对象和/或动画任选地具有本文参考本文所述的其他方法(例如，方法8000、9000、11000和12000)所述的手势、注视输入、物理对象、用户界面对象和/或动画的特征中的一个或多个特征。为了简明起见，此处不再重复这些细节。

图11是根据一些实施方案的有利于用户与计算机生成环境的交互(例如，利用与物理表面的交互来控制设备或与计算机生成环境进行交互)的方法11000的流程图。在一些实施方案中，方法11000在计算机系统(例如，图1中的计算机系统101)处执行，该计算机系统包括显示生成部件(例如，图1、图3和图4中的显示生成部件120)(例如，平视显示器、显示器、触摸屏、投影仪等)和一个或多个输入设备(例如，相机(例如，向下指向用户的手部的相机(例如，颜色传感器、红外传感器和其他深度感测相机)或从用户头部向前指向的相机)、控制器、触敏表面、操纵杆、按钮等)。在一些实施方案中，方法11000通过存储在非暂态计算机可读存储介质中并由计算机系统的一个或多个处理器诸如计算机系统101的一个或多个处理器202(例如，图1A中的控制单元110)执行的指令来管理。方法11000中的一些操作任选地被组合，并且/或者一些操作的次序任选地被改变。

在方法11000中，计算机系统经由显示生成部件显示(11002)三维场景，该三维场景至少包括第一物理对象(例如，图7M中的箱状物7502或箱状物7504)或该第一物理对象的表示(例如，图7N中的表示7502’或表示7504’)。第一物理对象至少具有第一物理(基本上平坦和/或平滑的)表面(例如，第一物理对象被使得通过相机或透明显示器在三维场景中可见)。第一物理对象或该第一物理对象的表示在三维场景中的相应位置对应于第一物理对象在显示生成部件周围的物理环境中的相应位置(例如，第一物理对象透过平视显示器或HMD的透明透传部分可见，或者第一物理对象的表示包括在显示器或HMD上显示的物理环境的相机视图中的第一物理对象的图像)。当显示三维场景时，计算机系统检测(11004)是否满足第一交互标准，其中第一交互标准包括当检测到用户和第一物理对象之间的第一用户交互水平时(例如，当在不具有指示用户希望相对于第一物理对象执行操作的任何其他手势或动作(例如，手部移动、口头命令等)的情况下用户注视指向第一物理对象时)满足的第一标准。响应于检测到满足第一交互标准，计算机系统经由显示生成部件在与第一物理对象(例如，箱状物7502或箱状物7504)的第一物理表面在三维场景中的位置对应的位置处显示(11006)第一用户界面(例如，图7O中的第一用户界面7510或图7P中的第一用户界面7516)(例如，简化的用户界面或信息界面)(例如，第一用户界面显示在第一物理对象的第一物理表面或该第一物理表面的表示的顶部上，或者覆盖在第一物理对象的第一物理表面或该第一物理表面的表示的至少一部分上面)。当在与第一物理对象的第一物理表面或该第一物理表面的表示在三维场景中的位置对应的位置处显示第一用户界面时，计算机系统检测(11008)是否满足第二交互标准，其中第二交互标准包括当检测到第二用户交互水平时(例如，当用户或用户的手部移动得更靠近第一物理对象时，当用户注视仍然在第一物理对象上时)满足的第二标准，该第二用户交互水平大于用户和第一物理对象之间的第一用户交互水平(例如，满足第二标准的用户交互水平也满足第一标准，但是满足第一标准的用户交互水平不满足第二标准)。响应于检测到满足第二交互标准，计算机系统在与第一物理对象的第一物理表面或该第一物理表面的表示在三维场景中的位置对应的位置处用第二用户界面(例如，图7Q中的第二用户界面7510’或图7R中的第二用户界面7512’)(例如，增强型用户界面或具有控制元素的用户界面)的显示替换(11010)第一用户界面的显示(例如，与第一物理对象相比，第二用户界面对应于与第一物理对象对应的增强型用户界面)。在一些实施方案中，当在第一物理对象附近检测到用户的手部(例如，检测到悬停输入)时，计算机系统在替换第二用户界面的第三用户界面中显示甚至更多信息(过去播放的/将来播放的歌曲、扩展控件)。在一些实施方案中，第一用户界面包括对键盘的指示，并且第二用户界面包括具有用于文本输入的键的键盘，并且第一物理表面是物理桌子的桌面。当用户看向桌面时显示对键盘的指示，并且当用户看向桌面并将其手部以用于键入的姿势悬停在桌面上方时显示键盘。在一些实施方案中，当用户将其手部悬停在桌面上方时，键盘的键从三维场景中与桌面对应的位置弹出。在一些实施方案中，当用户手指朝向桌面推动或触摸桌面时，在与桌面上的触摸位置对应的位置处的键看起来被向下推动并任选地变得更大。一旦用户手指从桌面抬起，键就恢复到原始大小。

在一些实施方案中，当在与第一物理对象的第一物理表面或该第一物理表面的表示在三维场景中的位置对应的位置处显示第二用户界面时，计算机系统检测是否满足第一交互标准(例如，用户交互水平降回第一用户交互水平)。响应于在显示第二用户界面之后检测到满足第一交互标准，计算机系统在与第一物理对象的第一物理表面或该第一物理表面的表示在三维场景中的位置对应的位置处用第二用户界面的显示替换第一用户界面的显示。例如，一旦用户交互水平下降到低于用于显示扩展用户界面所需的阈值水平，就停止显示扩展用户界面。在一些实施方案中，如果用户交互水平进一步下降，并且还不满足第一交互标准，则计算机系统也停止显示第一用户界面。

在一些实施方案中，当在与第一物理对象(例如，扬声器)的第一物理表面或该第一物理表面的表示在三维场景中的位置对应的位置处显示第一用户界面(例如，媒体回放用户界面)时，计算机检测是否满足第三交互标准，其中第三交互标准包括当检测到用户和与第一物理对象不同的第二物理对象(例如，智能灯)之间的第一用户交互水平时(例如，当用户或用户的手部不移动，但用户注视从第一物理对象移动到第二物理对象时)满足的第三标准。响应于检测到第三交互标准：计算机系统停止在与第一物理对象(例如，扬声器)的第一物理表面或该第一物理表面的表示在三维场景中的位置对应的位置处显示第一用户界面(例如，媒体回放用户界面)；以及计算机系统在与第二物理对象(例如，智能灯)的第二物理表面或该第二物理表面的表示在三维场景中的位置对应的位置处显示第三用户界面(例如，灯光控制用户界面)。例如，当用户注视从第一物理对象移位到第二物理对象时，当用户的手部在空气中悬停而没有在第一物理对象和第二物理对象两者附近移动时，计算机系统停止显示与第一物理对象对应的用户界面(其覆盖在第一物理对象的表面上面的)，而是显示与第二物理对象对应的用户界面(其在三维场景中覆盖在第二物理对象的表面上面)。

在一些实施方案中，当在与第一物理对象的第一物理表面或该第一物理表面的表示在三维场景中的位置对应的位置处显示第一用户界面时，计算机系统检测满足第一动作标准的第一输入，其中第一动作标准对应于第一用户界面中包括的第一选项的激活(例如，第一激活标准是用于检测轻击输入的标准)。响应于在显示第一用户界面时检测到满足第一动作标准的第一输入，计算机系统执行与第一用户界面中包括的第一选项对应的第一操作(例如，激活与第一物理对象(例如，扬声器或立体声音响设备)相关联的媒体播放器的播放/暂停功能)。在一些实施方案中，当在与第一物理对象的第一物理表面或该第一物理表面的表示在三维场景中的位置对应的位置处显示第一用户界面时，计算机系统检测满足第二动作标准的第二输入，其中第二动作标准对应于第一用户界面中包括的第二选项的激活(例如，第二动作标准是用于检测轻扫输入的标准或用于检测扭转输入的标准)；以及响应于在显示第一用户界面时检测到满足第二动作标准的第二输入，计算机系统执行与第一用户界面中包括的第二选项对应的第二操作(例如，激活与第一物理对象(例如，扬声器或立体声音响设备)相关联的媒体播放器的快进或后退功能)，或者调整第一物理对象的音量或输出水平)。

在一些实施方案中，当在与第一物理对象的第一物理表面或该第一物理表面的表示在三维场景中的位置对应的位置处显示第二用户界面时，计算机系统检测满足第三动作标准的第二输入，其中第三动作标准对应于第二用户界面中包括的第三选项的激活(例如，第三动作标准是用于检测指向第二用户界面中包括的第一用户界面对象的轻击输入以及注视输入的标准)。响应于在显示第二用户界面时检测到满足第三动作标准的第一输入，计算机系统执行与第二用户界面中包括的第三选项对应的第三操作(例如，切换到与第一物理对象(例如，扬声器或立体声音响设备)相关联的媒体播放器的不同专辑)。在一些实施方案中，当在与第一物理对象的第一物理表面或该第一物理表面的表示在三维场景中的位置对应的位置处显示第二用户界面时，计算机系统检测满足第四动作标准的第四输入，其中第四动作标准对应于第二用户界面中包括的第四选项的激活(例如，第四动作标准是用于检测指向第二用户界面中包括的第二用户界面对象的轻扫输入以及注视输入的标准)；并且响应于在显示第二用户界面时检测到满足第四动作标准的第四输入，计算机系统执行与第二用户界面中包括的第四选项对应的第四操作(例如，激活第一物理对象的一个或多个其他相关物理对象(例如，激活一个或多个其他相关扬声器)，或者将第一物理对象的输出传递到另一个物理对象)。

在一些实施方案中，第一物理对象是扬声器，并且其中第一用户界面提供与扬声器相关联的第一组一个或多个回放控制功能(例如，播放/暂停控制功能、快进功能、后退功能、停止功能等)。在一些实施方案中，第一用户界面包括与这些控制功能对应的用户界面对象。在一些实施方案中，第一用户界面不包括与在给定时间在第一用户界面中提供的控制功能中的至少一些控制功能对应的用户界面对象，并且根据在显示第一用户界面时检测到的用户输入，选择在第一用户界面上显示的用户界面对象。例如，当用户在显示第一用户界面时提供轻扫输入时，第一用户界面根据轻扫输入的方向显示快进或后退符号。当用户在显示第一用户界面时提供轻击输入时，第一用户界面根据回放的当前状态显示播放/暂停指示符。当用户利用他/她的手指提供捏合和扭转输入时，第一用户界面显示根据扭转输入的方向调整扬声器的音量水平的音量控件。在一些实施方案中，第一用户界面还提供信息，诸如用户可以从其中选择的最近播放或即将播放的歌曲/专辑的列表。

在一些实施方案中，第一用户界面包括与第一物理对象对应的一个或多个通知。例如，当用户具有与第一物理对象的第一交互水平(例如，用户看向扬声器或智能灯)时，计算机系统显示覆盖在第一物理对象的第一物理表面上面的一个或多个通知(例如，和与扬声器或智能灯对应的状态或警示相关的通知(例如，“电池电量低”、“定时器被设置为20分钟”等))。

在一些实施方案中，第二用户界面包括键盘，该键盘包括用于文本输入的多个字符键。例如，当用户具有与第一物理对象的第二交互水平(例如，用户看向扬声器并抬高他的两只手)时，计算机显示具有供用户用于输入搜索关键字以搜索与扬声器相关联的音乐数据库的键盘的搜索界面。

在一些实施方案中，第一用户界面显示对第一物理对象的内部状态的指示。例如，当用户具有与第一物理对象的第一交互水平(例如，用户看向扬声器或智能灯)时，计算机系统显示第一物理对象的覆盖在第一物理对象的第一物理表面上面的内部状态(例如，当前播放的专辑/歌曲的名称、“电池电量低”、“定时器被设置为20分钟”等)。

在一些实施方案中，第二用户界面至少提供在第一用户界面中提供的功能或信息的子集，并且包括在第一用户界面中不可用的至少一个功能或信息项。例如，当用户具有与第一物理对象的第一交互水平(例如，用户看向扬声器或智能灯)时，计算机系统显示第一物理对象的覆盖在第一物理对象的第一物理表面上面的内部状态(例如，当前播放的专辑/歌曲的名称、“电池电量低”、“定时器被设置为20分钟”等)；并且当用户具有与第一物理对象的第二交互水平(例如，用户看向扬声器或智能灯，并将他/她的手部抬高成提供输入的准备手势，或者移动得更靠近第一物理对象)时，计算机系统显示用户界面，该用户界面显示第一物理对象的内部状态以及用于改变第一物理对象的内部状态的一个或多个控件(例如，用于改变当前播放的歌曲/专辑的控件、用于将输出路由到相关扬声器的控件等)。

在一些实施方案中，当在与第一物理对象的第一物理表面在三维场景中的位置对应的位置处显示第一用户界面时(例如，第一用户界面显示在第一物理对象的第一物理表面或该第一物理表面的表示的顶部上，或者覆盖在第一物理对象的第一物理表面或该第一物理表面的表示的至少一部分上面)，计算机系统检测满足第五标准(例如，用于在注视输入聚焦于第一用户界面上时检测轻扫输入的标准)的用户输入，该用户输入对应于消除第一用户界面的请求。响应于检测到满足第五标准的用户输入，计算机系统停止显示第一用户界面(例如，不用第二用户界面替换第一用户界面)。类似地，在一些实施方案中，当在与第一物理对象的第一物理表面在三维场景中的位置对应的位置处显示第二用户界面时(例如，第二用户界面显示在第一物理对象的第一物理表面或该第一物理表面的表示的顶部上，或者覆盖在第一物理对象的第一物理表面或该第一物理表面的表示的至少一部分上面)，计算机系统检测满足第六标准(例如，用于在注视输入聚焦于第二用户界面上时检测轻扫输入的标准)的用户输入，该用户输入对应于消除第二用户界面的请求；并且响应于检测到满足第六标准的用户输入，计算机系统停止显示第二用户界面(例如，不用第一用户界面替换第二用户界面)。

在一些实施方案中，当在与第一物理对象的第一物理表面在三维场景中的位置对应的位置处显示第一用户界面或第二用户界面时(例如，第一/第二用户界面显示在第一物理对象的第一物理表面或该第一物理表面的表示的顶部上，或者覆盖在第一物理对象的第一物理表面或该第一物理表面的表示的至少一部分上面)，计算机系统(例如，利用物理表面上的一个或多个传感器，诸如触摸传感器或接近传感器，以及/或者设备上的一个或多个传感器，诸如相机或深度传感器)检测第一物理对象的第一物理表面上的用户输入。响应于检测到第一物理对象的第一物理表面上的用户输入：根据确定第一物理对象的第一物理表面上的用户输入满足第六标准(例如，用于检测轻扫输入、轻击输入、长按压输入或双击输入等的相应多组标准中的第一组标准)，计算机系统执行与第一物理对象对应的第一操作。根据确定第一物理对象的第一物理表面上的用户输入满足第六标准(例如，用于检测轻扫输入、轻击输入、长按压输入或双击输入等的相应多组标准中的第二组标准)，计算机系统执行与第一物理对象对应的第二操作，该第二操作不同于第一操作。

在一些实施方案中，当在与第一物理对象的第一物理表面在三维场景中的位置对应的位置处显示第一用户界面或第二用户界面时(例如，第一/第二用户界面显示在第一物理对象的第一物理表面或该第一物理表面的表示的顶部上，或者覆盖在第一物理对象的第一物理表面或该第一物理表面的表示的至少一部分上面)，计算机系统在注视输入指向第一物理对象的第一物理表面时检测手势输入(例如，在空气中、在控制器上或用户的手部上的手势)。响应于在注视输入指向第一物理对象的第一物理表面时检测到手势输入：根据确定手势输入和注视输入满足第七标准(例如，手势是在注视输入在用户界面中的按钮上时的轻击输入)，计算机系统执行与第一物理对象对应的第三操作(例如，与按钮相关联的功能)。根据确定手势输入和注视输入满足第八标准(例如，手势是在注视输入在用户界面中的滑动条上时的轻扫输入时)，计算机系统执行与第一物理对象对应的第四操作(例如，调整与滑动条相关联的值)，该第四操作不同于第三操作。

在一些实施方案中，当在与第一物理对象的第一物理表面在三维场景中的位置对应的位置处显示第一用户界面或第二用户界面时(例如，第一/第二用户界面显示在第一物理对象的第一物理表面或该第一物理表面的表示的顶部上，或者覆盖在第一物理对象的第一物理表面或该第一物理表面的表示的至少一部分上面)，计算机系统在注视输入指向第一物理对象(例如，第一物理对象远离用户的手部)的第一物理表面时(例如，利用物理表面上的一个或多个传感器，诸如触摸传感器或接近传感器，以及/或者设备上的一个或多个传感器，诸如相机或深度传感器)检测与第一物理对象不同的第二物理对象(例如，第二物理对象是用户的手部附近的桌面或控制器)的第二物理表面上的手势输入。响应于在注视输入指向第一物理对象的第一物理表面时检测到第二物理对象的第二物理表面上的手势输入：根据确定手势输入和注视输入满足第九标准(例如，手势是在注视输入在用户界面中的按钮上时的轻击输入)，计算机系统执行与第一物理对象对应的第五操作(例如，与按钮相关联的功能)；以及根据确定手势输入和注视输入满足第十标准(例如，手势是在注视输入在用户界面中的滑动条上时的轻扫输入时)，计算机系统执行与第一物理对象对应的第六操作(例如，调整与滑动条相关联的值)，该第六操作不同于第五操作。

应当理解，对图11中的操作进行描述的特定次序仅仅是示例性的，并非旨在表明所述次序是可以执行这些操作的唯一次序。本领域的普通技术人员会想到多种方式来对本文所述的操作进行重新排序。另外，应当指出的是，本文相对于本文所述的其他方法(例如，方法8000、9000、10000和12000)所述的其他过程的细节同样以类似的方式适用于上文相对于图11所述的方法11000。例如，上文参考方法11000所述的手势、注视输入、物理对象、用户界面对象和/或动画任选地具有本文参考本文所述的其他方法(例如，方法8000、9000、10000和12000)所述的手势、注视输入、物理对象、用户界面对象和/或动画的特征中的一个或多个特征。为了简明起见，此处不再重复这些细节。

图12是根据一些实施方案的生成计算机生成的三维环境(例如，包括模拟环境中基于语音的虚拟助手与物理对象和虚拟对象之间的视觉相互作用)的方法12000的流程图。在一些实施方案中，方法12000在计算机系统(例如，图1中的计算机系统101)处执行，该计算机系统包括显示生成部件(例如，图1、图3和图4中的显示生成部件120)(例如，平视显示器、显示器、触摸屏、投影仪等)和一个或多个输入设备(例如，相机(例如，向下指向用户的手部的相机(例如，颜色传感器、红外传感器和其他深度感测相机)或从用户头部向前指向的相机)、控制器、触敏表面、操纵杆、按钮等)。在一些实施方案中，方法12000通过存储在非暂态计算机可读存储介质中并由计算机系统的一个或多个处理器诸如计算机系统101的一个或多个处理器202(例如，图1A中的控制单元110)执行的指令来管理。方法12000中的一些操作任选地被组合，并且/或者一些操作的次序任选地被改变。

在方法12000中，计算机系统经由显示生成部件显示(12002)三维场景，该三维场景至少包括具有第一物理表面(例如，图7T中的家居7310的前表面7312)的第一物理对象(例如，图7T中的家具7310)(例如，第一物理对象被使得通过相机或透明显示器在三维场景中可见，并且具有固有光学特性，诸如颜色、纹理、反射率和透明度等)，并且至少包括具有第一虚拟表面的第一虚拟对象(例如，图7T中的虚拟对象7404)(例如，具有计算机生成表面的计算机渲染的三维对象(其具有模拟表面光学特性(例如，模拟反射率、模拟表面纹理等))，诸如计算机生成的三维瓶饰或桌面)。当显示包括第一物理对象和第一虚拟对象的三维场景时，计算机系统检测(12004)激活基于语音的虚拟助手的请求，例如，如图7T所示。响应于检测到激活基于语音的虚拟助手的请求(12006)：计算机系统激活被配置为接收语音命令的基于语音的虚拟助手(例如，用于与三维场景进行交互)。计算机系统还在三维场景中显示基于语音的虚拟助手的视觉表示(例如，图7U和图7W中的发光椭圆体7602)，包括以视觉表示的第一显示特性(例如，颜色或亮度)的第一组值(例如，单个值、视觉表示的不同部分的连续范围的值，或者视觉表示的不同部分的不同且离散的值)显示基于语音的虚拟助手的视觉表示(例如，发光椭圆体7602具有第一范围的亮度水平和第一颜色)。计算机系统根据基于语音的虚拟助手的虚拟表示的第一显示特性的第一组值来修改第一物理对象的第一物理表面(例如，图7U和图7W中的家具7310的前表面7312或该前表面的表示)的至少一部分和第一虚拟对象的第一虚拟表面(例如，图7U和图7W中的虚拟对象7404的顶表面)的至少一部分的视觉外观(例如，基于语音的虚拟助手的视觉表示的第一显示特性的第一组值与第一物理表面和第一虚拟表面的视觉外观的变化之间的对应关系基于：模拟物理规律(诸如光传播规律，该光传播规律控制光如何被反射、透射，以及对象如何被真实世界中的这种光照亮)、第一物理表面和第一虚拟表面的真实表面特性或模拟表面特性，以及虚拟助手相对于第一物理表面和第一虚拟表面的相对位置)。例如，如图7U所示，当基于语音的助手的表示开始以第一亮度水平发光时，家具7310的前表面的外观被修改为看起来被从基于语音的助手的发光表示发射的模拟照明点亮。矩形箱状物的前表面上的模拟照明在更靠近基于语音的助手的发光表示的位置处更强烈/更明亮，并且在远离基于语音的助手的发光表示的位置处更微弱/更黯淡。在一些实施方案中，根据真实世界中矩形箱状物的前表面的物理特性(例如，表面纹理、反射率等)以及三维场景中基于语音的助手的发光表示和矩形箱状物之间的模拟距离来生成模拟照明。在一些实施方案中，设备还通过在矩形箱状物旁边添加在基于语音的虚拟助手的发光表示产生的模拟照明下由矩形箱状物(例如，在矩形箱状物后面的物理壁上)投射的模拟阴影来修改三维场景的外观。在一些实施方案中，除了修改矩形箱状物的前表面的外观之外(例如，在与物理表面对应的位置处使用半透明叠加，或者直接修改物理表面的表示的显示像素值)，设备还修改虚拟椭圆形对象的顶表面的外观，使其看起来被从基于语音的助手的发光表示发射的模拟照明点亮。虚拟椭圆形对象的顶表面上的模拟照明在更靠近基于语音的助手的发光表示的位置处更强烈/更明亮，并且在远离基于语音的助手的发光表示的位置处更微弱/更黯淡。在一些实施方案中，根据虚拟椭圆形对象的顶表面的模拟物理特性(例如，表面纹理、反射率等)以及三维场景中基于语音的助手的发光表示和虚拟椭圆形对象之间的模拟距离来生成模拟照明。在一些实施方案中，设备还通过根据基于语音的助手的发光表示产生的模拟照明在虚拟椭圆形对象旁边添加模拟阴影或者修改由虚拟椭圆形对象投射的现有模拟阴影来修改三维场景的外观。

在一些实施方案中，根据基于语音的虚拟助手的视觉表示的第一显示特性的第一组值来修改第一虚拟对象的第一虚拟表面(例如，图7U和图7W中的虚拟对象7404的顶表面)的至少一部分的视觉外观包括：根据基于语音的虚拟助手的视觉表示的增加的亮度值(例如，根据与基于语音的虚拟助手的视觉表示的面向第一虚拟对象的第一虚拟表面的该部分的一部分(例如，该部分可能在显示生成部件上对用户不可见)对应的增加的亮度值)来增加第一虚拟对象的第一虚拟表面的至少一部分的相应亮度。

在一些实施方案中，根据基于语音的虚拟助手的视觉表示的第一显示特性的第一组值来修改第一虚拟对象的第一虚拟表面(例如，图7U和图7W中的虚拟对象7404的顶表面)的至少一部分的视觉外观包括：根据基于语音的虚拟助手的视觉表示的改变的颜色值(例如，根据与基于语音的虚拟助手的视觉表示的面向第一虚拟对象的第一虚拟表面的该部分的一部分(例如，该部分可能在显示生成部件上对用户不可见)对应的改变的颜色值)来改变第一虚拟对象的第一虚拟表面的至少一部分的相应颜色。

在一些实施方案中，根据基于语音的虚拟助手的视觉表示的第一显示特性的第一组值来修改第一物理对象的第一物理表面的至少一部分的视觉外观(例如，图7U和图7W中的家具7310的前表面7312或该前表面的表示)包括：根据基于语音的虚拟助手的视觉表示的增加的亮度值(例如，根据与基于语音的虚拟助手的视觉表示的面向第一物理对象的第一物理表面的该部分的一部分(例如，该部分可能在显示生成部件上对用户不可见)对应的增加的亮度值)来增加三维场景的与第一物理对象的第一物理表面的至少一部分对应的一部分的相应亮度。

在一些实施方案中，根据基于语音的虚拟助手的视觉表示的第一显示特性的第一组值来修改第一物理对象的第一物理表面的至少一部分的视觉外观(例如，图7U和图7W中的家具7310的前表面7312或该前表面的表示)包括：根据基于语音的虚拟助手的视觉表示的改变的颜色值(例如，根据与基于语音的虚拟助手的视觉表示的面向第一物理对象的第一物理表面的该部分的一部分(例如，该部分可能在显示生成部件上对用户不可见)对应的改变的颜色值)来改变三维场景的与第一物理对象的第一物理表面的至少一部分对应的一部分的相应颜色。

在一些实施方案中，响应于检测到激活基于语音的虚拟助手的请求：计算机系统根据基于语音的虚拟助手的视觉表示的第一显示特性的第一组值来修改当前经由显示生成部件显示的三维场景的一部分的外围区域的视觉外观(例如，增加该外围区域亮度或改变该外围区域的颜色和色调)。例如，如果虚拟助手在三维场景中由发光紫色椭圆体表示，则用户的视野的外围区域被显示为具有紫色色调的模糊发光边缘，以指示将相对于当前在用户的视野内的三维场景的一部分内的一个或多个对象执行对基于语音的虚拟助手的语音命令。例如，当用户环顾房间四周时，用户的视野的中心区域清晰并且被紫色晕影包围，用户的视野的中心区域内的对象是语音命令的目标或者提供由基于语音的虚拟助手检测到的语音命令的上下文(例如，“把这个打开”或“改变这张照片”)。

在一些实施方案中，检测激活基于语音的虚拟助手的请求包括检测满足第一标准的注视输入，其中第一标准包括当注视输入指向与三维场景中的基于语音的虚拟助手的视觉表示对应的位置时满足的标准(例如，当用户注视着虚拟助手的视觉表示时激活虚拟助手)。在一些实施方案中，第一标准还包括当注视输入满足预设注视稳定性和持续时间阈值时满足的标准。在一些实施方案中，激活基于语音的虚拟助手的请求包括预设触发命令“嘿，助手！”。

在一些实施方案中，响应于检测到激活基于语音的虚拟助手的请求(例如，响应于检测到满足第一标准的注视输入)而在三维场景中显示基于语音的虚拟助手的视觉表示(例如，图7U和图7W中的发光椭圆体7602)包括：将基于语音的虚拟助手的视觉表示从三维场景中的第一位置移动到第二位置(例如，当用户注视着睡眠的虚拟助手时，虚拟助手从其原始位置弹出(例如，进入用户的视场的中心或稍微远离原始位置以指示其被激活))。

在一些实施方案中，响应于检测到激活基于语音的虚拟助手的请求(例如，响应于检测到满足第一标准的注视输入)而在三维场景中显示基于语音的虚拟助手的视觉表示(例如，图7U和图7W中的发光椭圆体7602)包括：改变三维场景中的基于语音的虚拟助手的视觉表示的大小(例如，当用户注视着睡眠的虚拟助手时，虚拟助手增大其大小，然后恢复到其原始大小，或者保持放大的大小直到其再次变成去激活)。

在一些实施方案中，响应于检测到激活基于语音的虚拟助手的请求(例如，响应于检测到满足第一标准的注视输入)而在三维场景中显示基于语音的虚拟助手的视觉表示(例如，图7U和图7W中的发光椭圆体7602)包括：改变三维场景中的基于语音的虚拟助手的视觉表示的第一显示特性的第一组值(例如，当用户注视着睡眠的虚拟助手时，虚拟助手发光并且/或者呈现不同的颜色或色调)。

在一些实施方案中，响应于检测到激活基于语音的虚拟助手的请求(例如，响应于检测到满足第一标准的注视输入)，计算机系统改变三维场景的在基于语音的虚拟助手的视觉表示周围的位置处的一部分的第一显示特性的第二组值(例如，当调用虚拟助手时遮挡(模糊化、暗化等)(例如，在虚拟助手周围或整个屏幕周围的区域中的)背景)。

在一些实施方案中，检测激活基于语音的虚拟助手的请求包括检测满足第一标准的注视输入和满足第二标准的语音输入，其中第一标准包括当注视输入指向与三维场景中的基于语音的虚拟助手的视觉表示对应的位置时满足的标准，并且其中第二标准包括当在注视输入满足第一标准时检测到语音输入时满足的标准(例如，当用户注视着虚拟助手的视觉表示并且说出语音命令时激活虚拟助手)。在一些实施方案中，设备在基于语音的虚拟助手被激活之后处理语音输入以确定用于语音助手的用户命令，并将该用户命令作为输入提供给该虚拟助手以触发该虚拟助手执行对应操作。在一些实施方案中，如果注视输入不满足第一标准或语音输入不满足第二标准，则虚拟助手不执行与语音输入中的语音命令对应的操作。

在一些实施方案中，当在三维场景中显示基于语音的虚拟助手(的视觉表示例如，图7K和图7L中的发光椭圆体7602)时，计算机系统检测与使基于语音的助手执行第一操作(例如，改变场景中的虚拟图片帧中的照片、启动通信会话、启动应用程序等)的请求对应的第一输入，其中第一输入延续第一持续时间(例如，第一输入是语音输入、注视输入、手势输入或上述输入中的两者或更多者的组合)。响应于检测到第一输入，计算机系统在第一输入期间将基于语音的虚拟助手的视觉表示的第一显示特性从第一组值(例如，单个值、视觉表示的不同部分的连续范围的值，或者视觉表示的不同部分的不同且离散的值)改变为与第一组值不同的第二组值。在一些实施方案中，当基于语音的虚拟助手的视觉表示的第一显示特性的值在第一输入期间改变时，设备还根据基于语音的虚拟助手的视觉表示的第一显示特性的第二组值来修改第一物理对象的第一物理表面(例如，图7U和图7W中的家具7310的前表面或该前表面的表示)的至少一部分和第一虚拟对象的第一虚拟表面(例如，图7U和图7W中的虚拟对象7602的顶表面)的至少一部分的视觉外观。例如，当用户对虚拟助手讲话时，该虚拟助手的视觉表示以脉动光、变化的颜色或动态颜色/光图案发光。

在一些实施方案中，当在三维场景中显示基于语音的虚拟助手的视觉表示(例如，图7U和图7W中的发光椭圆体7602)时，计算机系统检测与基于语音的助手执行第二操作的请求对应的第二输入(例如，改变场景中的虚拟图片帧中的照片、启动通信会话、启动应用程序等)(例如，第二输入是语音输入、注视输入、手势输入或上述输入中的两者或更多者的组合)。响应于检测到第二输入：计算机系统发起第二操作的执行(例如，启动应用程序、播放媒体文件、生成音频输出，诸如对问题的附加信息或答案的请求)。计算机系统还在第二操作的执行期间将基于语音的虚拟助手的视觉表示的第一显示特性从第一组值(例如，单个值、视觉表示的不同部分的连续范围的值，或者视觉表示的不同部分的不同且离散的值)改变为与第一组值不同的第三组值。在一些实施方案中，当基于语音的虚拟助手的视觉表示的第一显示特性的值在第二操作由虚拟助手执行期间改变时，设备还根据基于语音的虚拟助手的视觉表示的第一显示特性的第三组值来修改第一物理对象的第一物理表面(例如，图7U和图7W中的家具7310的前表面7312或该前表面的表示)的至少一部分和第一虚拟对象的第一虚拟表面(例如，图7U和图7W中的虚拟对象7404的顶表面)的至少一部分的视觉外观。例如，当用户对虚拟助手讲话，该虚拟助手的视觉表示不会改变或以第一方式改变；一旦虚拟助手开始执行在从用户接收到的语音命令中请求的操作，虚拟助手就以第二方式改变(例如，以不同脉动光、不同颜色或动态颜色/光模式发光)。在一些实施方案中，第二操作任选地是虚拟助手响应于用户的第二输入而做出的语音响应(例如，回答问题、询问说明问题、提供状态、告知虚拟助手能够做什么、通知虚拟助手已经理解请求并且将执行所请求的操作、请求用户确认命令等)。

在一些实施方案中，基于语音的虚拟助手的视觉表示在包括第一虚拟对象和第一物理对象的三维环境中具有预定义位置(例如，三维环境是增强现实环境)，并且激活基于语音的虚拟助手的请求包括指向该预定义位置的输入(例如，注视输入、手势输入或两者的组合)。(例如，如果虚拟助手的视觉表示未处于用户的当前视野中，则用户可以转向并看向虚拟助手的预定义位置并提供必要的输入(例如，满足预设标准的注视输入，或者当用户的注视聚焦于预设位置时唤醒虚拟助手的语音输入)来激活虚拟助手)。

在一些实施方案中，当经由显示生成部件在包括第一物理对象和第一虚拟对象的三维场景中显示基于语音的虚拟助手的视觉表示时，计算机系统检测显示生成部件(例如，显示器、投影仪、平视显示器或HMD)的移动，其中在显示生成部件的移动开始时，在三维场景中与显示生成部件的第一部分对应的第一位置处显示基于语音的虚拟助手的视觉表示(例如，虚拟助手的视觉表示的位置和取向在穿戴HMD的用户的视野的左半部分的中心中或者在显示器的下半部分的中心中等，或者用户的视场的周边(例如，显示器的至少一部分的边缘，该边缘当用户说话时或当虚拟助手响应时改变形状或颜色或亮度)周围存在发光效应)。响应于检测到显示生成部件的移动，计算机系统将基于语音的虚拟助手的视觉表示移动到三维场景中与第一位置不同的第二位置，其中根据显示生成部件的移动来更新三维场景中的第二位置以对应于显示生成部件的第一部分(例如，在显示生成部件的移动期间连续更新虚拟助手相对于三维场景的位置，使得虚拟助手的位置/姿势相对于显示生成部件(例如，相对于用户的头部/眼睛)保持不变)。在一些实施方案中，当基于语音的虚拟助手的视觉表示在三维场景中的位置在显示生成部件的移动期间改变时，该视觉表示相对于三维场景中的第一虚拟对象和第一物理对象的位置也改变。响应于三维场景中的相对位置的这些变化，设备调整虚拟助手的第一显示特性用于修改第一虚拟对象的第一虚拟表面和第一物理对象的第一物理表面的外观的方式(例如，用于模拟虚拟表面和物理表面上的光反射和阴影形成的参数)(例如，基于语音的虚拟助手的视觉表示的第一显示特性的第一组值与第一物理表面和第一虚拟表面的视觉外观的变化之间的对应关系基于：模拟物理规律(诸如光传播规律，该光传播规律控制光如何被反射、透射，以及对象如何被真实世界中的这种光照亮)、第一物理表面和第一虚拟表面的真实表面特性或模拟表面特性，以及虚拟助手相对于第一物理表面和第一虚拟表面的相对位置)。

在一些实施方案中，当经由显示生成部件在包括第一物理对象和第一虚拟对象的三维场景中显示基于语音的虚拟助手的视觉表示时，计算机系统检测显示生成部件(例如，显示器、投影仪、平视显示器或HMD)的移动，其中在显示生成部件的移动开始时，相对于第一虚拟对象和第一物理对象在三维场景中的第一位置处显示基于语音的虚拟助手的视觉表示(例如，虚拟助手的视觉表示的位置和取向在第一虚拟对象上方，并且比起靠近第一物理对象而言更靠近第一虚拟对象)。响应于检测到显示生成部件的移动：计算机系统根据显示生成部件的移动来改变显示生成部件相对于三维场景的视点，同时将基于语音的虚拟助手的视觉表示保持在三维场景中的第一位置处(例如，虚拟助手相对于三维场景的位置被固定到该环境，并且在显示生成部件的移动期间连续更新三维环境的视图。在一些实施方案中，由于基于语音的虚拟助手的视觉表示在三维场景中的位置在显示生成部件的移动期间不改变，因此设备保持虚拟助手的第一显示特性用于修改第一虚拟对象的第一虚拟表面和第一物理对象的第一物理表面的外观的方式(例如，用于模拟虚拟表面和物理表面上的光反射和阴影形成的参数)(例如，基于语音的虚拟助手的视觉表示的第一显示特性的第一组值与第一物理表面和第一虚拟表面的视觉外观的变化之间的对应关系基于：模拟物理规律(诸如光传播规律，该光传播规律控制光如何被反射、透射，以及对象如何被真实世界中的这种光照亮)、第一物理表面和第一虚拟表面的真实表面特性或模拟表面特性，以及虚拟助手相对于第一物理表面和第一虚拟表面的相对位置)。然而，由于显示生成部件相对于三维场景的视点在显示生成部件的移动期间变化，因此第一物理对象和第一虚拟对象的外观在显示生成部件的移动期间(例如，基于成视图角度的变化，而非基于对对象和其表面特性的改变等)可以看起来不同。

应当理解，对图12中的操作进行描述的特定次序仅仅是示例性的，并非旨在表明所述次序是可以执行这些操作的唯一次序。本领域的普通技术人员会想到多种方式来对本文所述的操作进行重新排序。另外，应当指出的是，本文相对于本文所述的其他方法(例如，方法8000、9000、10000和11000)所述的其他过程的细节同样以类似的方式适用于上文相对于图12所述的方法12000。例如，上文参考方法12000所述的手势、注视输入、物理对象、用户界面对象和/或动画任选地具有本文参考本文所述的其他方法(例如，方法8000、9000、10000和11000)所述的手势、注视输入、物理对象、用户界面对象和/或动画的特征中的一个或多个特征。为了简明起见，此处不再重复这些细节。

上文参考图8、图9、图10、图11和图12所述的操作任选地由图1至图6所描绘的部件来实现。在一些实施方案中，方法8000、9000、10000、11000和12000的方面/操作可在这些方法之间互换、替换和/或添加。为了简明起见，此处不再重复这些细节。

出于解释的目的，前面的描述是通过参考具体实施方案来描述的。然而，上面的例示性论述并非旨在是穷尽的或将本发明限制为所公开的精确形式。根据以上教导内容，很多修改形式和变型形式都是可能的。选择和描述实施方案是为了最佳地阐明本发明的原理及其实际应用，以便由此使得本领域的其他技术人员能够最佳地使用具有适合于所构想的特定用途的各种修改的本发明以及各种所描述的实施方案。

Claims

1.一种方法，包括：

在包括显示生成部件和一个或多个输入设备的计算机系统处：

在三维环境中用第一空间位置显示虚拟对象；

当在所述三维环境中用所述第一空间位置显示所述虚拟对象时，检测由用户执行的第一手部移动；

响应于检测到由所述用户执行的所述第一手部移动：

根据确定所述第一手部移动满足第一手势标准，根据所述第一手部移动执行第一操作，而不将所述虚拟对象移动远离所述第一空间位置；以及

根据确定所述第一手部移动满足第二手势标准，显示所述虚拟对象已经转变为重新配置模式的第一视觉指示；

当显示具有所述虚拟对象已经转变为所述重新配置模式的所述第一视觉指示的所述虚拟对象时，检测由所述用户执行的第二手部移动；

响应于检测到由所述用户执行的所述第二手部移动：

根据确定所述第二手部移动满足所述第一手势标准，根据所述第二手部移动将所述虚拟对象从所述第一空间位置移动到第二空间位置。

2.根据权利要求1所述的方法，包括：

响应于检测到由所述用户执行的所述第一手部移动：

根据确定所述第一手部移动满足第三手势标准，执行与所述虚拟对象对应的第二操作。

3.根据权利要求1至2中任一项所述的方法，其中所述第二手部移动不满足所述第二手势标准。

4.根据权利要求1至3中任一项所述的方法，其中所述第二手势标准包括由捏合手势之后是手腕轻弹手势来满足的要求。

5.根据权利要求1至3中任一项所述的方法，其中所述第二手势标准包括由在满足对象选择标准时检测到的手腕轻弹手势而满足的要求。

6.根据权利要求1至5中任一项所述的方法，其中所述第一手势标准包括由一根或多根手指提供的移动输入而满足的要求。

7.根据权利要求1至6中任一项所述的方法，包括：

当显示具有所述虚拟对象已经转变为所述重新配置模式的所述第一视觉指示的所述虚拟对象时，检测指定所述虚拟对象在所述三维环境中的目的地位置的预定义输入；以及

响应于检测到指定所述虚拟对象在所述三维环境中的所述目的地位置的所述预定义输入，在将所述虚拟对象从所述第一空间位置移动到所述目的地位置之前，在所述目的地位置处显示第二视觉指示。

8.根据权利要求7所述的方法，其中检测指定所述虚拟对象在所述三维环境中的所述目的地位置的所述预定义输入包括检测所述预定义输入中的移动，并且其中在所述目的地位置处显示所述第二视觉指示包括基于所述预定义输入的所述移动来更新所述第二视觉指示的位置。

9.根据权利要求1至8中任一项所述的方法，包括：

在满足所述第一手势标准的所述第二手部移动终止之后，并且当所述虚拟对象保持为所述重新配置模式时，检测满足所述第一手势标准的第三手部移动；以及

响应于检测到所述第三手部移动，根据所述第三手部移动将所述虚拟对象从所述虚拟对象的当前位置移动到第三空间位置。

10.根据权利要求1至9中任一项所述的方法，其中所述三维环境包括一个或多个平面，并且其中根据所述第二手部移动将所述虚拟对象从所述第一空间位置移动到所述第二空间位置包括：在所述虚拟对象根据所述第二手部移动进行的所述移动期间将所述虚拟对象的移动路径限制到所述一个或多个平面中的第一平面。

11.根据权利要求1至10中任一项所述的方法，其中所述三维环境至少包括第一平面和第二平面，并且其中根据所述第二手部移动将所述虚拟对象从所述第一空间位置移动到所述第二空间位置包括：在所述虚拟对象根据所述第二手部移动进行的所述移动的第一部分期间将所述虚拟对象的移动路径限制到所述第一平面，

在所述虚拟对象根据所述第二手部移动进行的所述移动的第二部分期间将所述虚拟对象的所述移动路径限制到所述第二平面，以及

在所述虚拟对象的所述移动的所述第一部分和所述虚拟对象的所述移动的所述第二部分之间的所述虚拟对象的所述移动的第三部分期间增加所述虚拟对象的标高。

12.根据权利要求1至11中任一项所述的方法，包括：

响应于检测到由所述用户执行的所述第一手部移动：

根据确定所述第一手部移动满足所述第二手势标准，结合显示用于指示所述虚拟对象已经转变为所述重新配置模式的所述第一视觉指示来生成音频输出。

13.根据权利要求1至12中任一项所述的方法，包括：

当所述虚拟对象处于所述重新配置模式时，在检测到所述第二手部移动并且根据所述第二移动来移动所述虚拟对象之后检测第四手部移动；以及

响应于检测到所述第四手部移动：

根据确定所述第四手部移动满足所述第一手势标准，根据所述第四手部移动将所述虚拟对象从所述第二空间位置移动到第三空间位置；以及

根据确定所述第四手部移动满足第四手势标准，停止显示所述第一视觉指示以指示所述虚拟对象已经退出所述重新配置模式。

14.一种存储可执行指令的计算机可读存储介质，所述可执行指令当由具有一个或多个处理器和显示生成部件的计算机系统执行时，使得所述计算机系统执行根据权利要求1至13中任一项所述的方法。

15.一种计算机系统，包括：

一个或多个处理器；

显示生成部件；和

存储器，所述存储器存储被配置用于由所述一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行根据权利要求1至13中任一项所述的方法的指令。

16.一种具有一个或多个处理器和显示生成部件的计算机系统，所述计算机系统包括：

用于执行根据权利要求1至13中任一项所述的方法的装置。

17.一种用于具有一个或多个处理器和显示生成部件的计算机系统中的信息处理装置，所述信息处理装置包括：

用于执行根据权利要求1至13中任一项所述的方法的装置。

18.一种方法，包括：

经由所述显示生成部件显示三维场景，所述三维场景至少包括在第一位置处的第一虚拟对象和在与所述第一位置分开的第二位置处的第一物理表面，其中所述第一虚拟对象以第一显示特性的与所述第一虚拟对象的第一部分对应的第一值和所述第一显示特性的与所述第一虚拟对象的第二部分对应的第二值来显示，所述第一显示特性的所述第二值不同于所述第一显示特性的所述第一值；以及

当显示包括所述第一虚拟对象和所述第一物理表面的所述三维场景时，经由所述显示生成部件在所述三维场景的所述第二位置处生成第一视觉效应，其中生成所述第一视觉效应包括：

根据所述第一显示特性的与所述第一虚拟对象的所述第一部分对应的所述第一值来修改所述三维场景中所述第一物理表面的第一部分的视觉外观；以及

根据所述第一显示特性的与所述第一虚拟对象的所述第二部分对应的所述第二值来修改所述三维场景中所述第一物理表面的第二部分的视觉外观，其中由于所述第一虚拟对象的所述第一部分和所述第二部分中的所述第一显示特性的所述第一值和所述第二值的差异，所述第一物理表面的所述第一部分的所述视觉外观和所述第一物理表面的所述第二部分的所述视觉外观被不同地修改。

19.根据权利要求18所述的方法，包括：

检测所述第一虚拟对象的外观变化，包括所述第一虚拟对象的所述第一部分和所述第二部分中的所述第一显示特性的值变化；以及

响应于检测到所述第一虚拟对象的所述外观变化，根据所述第一虚拟对象的所述外观变化来在所述第一物理表面的不同部分处修改所述第一物理表面的所述视觉外观，包括：

根据所述第一显示特性和所述第一物理表面的所述第一部分的所述视觉外观之间的第一关系来修改所述第一物理表面的所述第一部分的所述视觉外观；以及

根据所述第一显示特性和所述第一虚拟对象的所述第二部分的所述视觉外观之间的第二关系来修改所述第一物理表面的所述第二部分的所述视觉外观，其中所述第一关系和所述第二关系对应于所述第一物理表面的所述第一部分和所述第二部分的不同物理特征。

20.根据权利要求18至19中任一项所述的方法，其中所述第一虚拟对象包括在第二物理表面上与所述三维场景中的所述第一位置对应的位置处的虚拟叠加，并且其中所述计算机系统根据一个或多个参数的相应值的变化来改变所述虚拟叠加的外观，所述一个或多个参数包括当天时间、位置和所述虚拟叠加的大小中的至少一者。

21.根据权利要求20所述的方法，其中生成所述第一视觉效应包括：

根据所述虚拟叠加的第一部分中所示的内容的变化来修改所述第一物理表面的所述第一部分的所述视觉外观；以及

根据所述虚拟叠加的第二部分中所示的内容的变化来修改所述第一物理表面的所述第二部分的所述视觉外观。

22.根据权利要求18至19中任一项所述的方法，其中所述第一虚拟对象包括虚拟屏幕，所述虚拟屏幕在与所述三维场景中的所述第一位置对应的所述位置处显示媒体内容，并且其中所述计算机系统根据媒体项目的回放进度来改变所述虚拟屏幕上所示的内容。

23.根据权利要求22所述的方法，其中生成所述第一视觉效应包括：

根据所述虚拟屏幕的第一部分中所示的内容的变化来修改所述第一物理表面的所述第一部分的所述视觉外观；以及

根据所述虚拟屏幕的第二部分中所示的内容的变化来修改所述第一物理表面的所述第二部分的所述视觉外观。

24.根据权利要求18至19中任一项所述的方法，其中所述第一虚拟对象是经由语音与用户进行交互的虚拟助手，并且其中所述计算机系统根据所述虚拟助手的操作模式来改变所述虚拟助手的所述外观。

25.根据权利要求18至24中任一项所述的方法，其中生成所述第一视觉效应包括：

根据所述第一虚拟对象在所述第一物理表面的所述第一部分上的模拟反射来修改所述第一物理表面的所述第一部分的所述视觉外观；以及

根据所述第一虚拟对象在所述第一物理表面的所述第二部分上的模拟反射来修改所述第一物理表面的所述第二部分的所述视觉外观。

26.根据权利要求18至25中任一项所述的方法，其中生成所述第一视觉效应包括：

根据所述第一虚拟对象投射在所述第一物理表面的所述第一部分上的模拟阴影来修改所述第一物理表面的所述第一部分的所述视觉外观；以及

根据所述第一虚拟对象在所述第一物理表面的所述第二部分上的模拟阴影来修改所述第一物理表面的所述第二部分的所述视觉外观。

27.一种存储可执行指令的计算机可读存储介质，所述可执行指令当由具有一个或多个处理器和显示生成部件的计算机系统执行时，使得所述计算机系统执行根据权利要求18至26中任一项所述的方法。

28.一种计算机系统，包括：

一个或多个处理器；

显示生成部件；和

存储器，所述存储器存储被配置用于由所述一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行根据权利要求18至26中任一项所述的方法的指令。

29.一种具有一个或多个处理器和显示生成部件的计算机系统，所述计算机系统包括：

用于执行根据权利要求18至26中任一项所述的方法的装置。

30.一种用于具有一个或多个处理器和显示生成部件的计算机系统中的信息处理装置，所述信息处理装置包括：

用于执行根据权利要求18至26中任一项所述的方法的装置。

31.一种方法，包括：

经由所述显示生成部件显示三维场景，所述三维场景包括第一组物理元素和第一数量的虚拟元素，其中所述第一组物理元素至少包括与第一类物理对象对应的物理元素和与第二类物理对象对应的物理元素；

当经由所述显示生成部件显示具有所述第一数量的虚拟元素的所述三维场景时，检测两个或更多个用户输入的序列；以及

响应于检测到两个或更多个用户输入的所述序列中的连续用户输入，根据两个或更多个用户输入的序列中的所述连续输入相继地增加在所述三维场景中显示的虚拟元素的数量，包括：

响应于检测到两个或更多个用户输入的所述序列中的第一用户输入，以及根据确定所述第一用户输入满足第一标准，显示具有至少所述第一组一个或多个物理元素的第一子集和第二数量的虚拟元素的所述三维场景，所述第二数量的虚拟元素与所述第一数量的虚拟元素相比占据所述三维场景的更大部分，所述更大部分包括所述三维场景的在检测到所述第一用户输入之前被第一类物理元素占据的第一部分；以及

响应于检测到两个或更多个用户输入的所述序列中的第二用户输入，以及根据确定所述第二用户输入在所述第一用户输入之后并且满足所述第一标准，显示具有至少所述第一组一个或多个物理元素的第二子集和第三数量的虚拟元素的所述三维场景，所述第三数量的虚拟元素与所述第二数量的虚拟元素相比占据所述三维场景的更大部分，所述更大部分包括所述三维场景的在检测到所述第一用户输入之前被所述第一类物理元素占据的所述第一部分，以及所述三维场景的在检测到所述第二用户输入之前被第二类物理元素占据的第二部分。

32.根据权利要求31所述的方法，其中：

响应于检测到两个或更多个用户输入的所述序列中的所述第一用户输入而显示所述第二数量的虚拟元素包括显示第一动画转变，所述第一动画转变用虚拟元素逐渐替换所述三维场景中增加量的所述第一类物理元素；并且

响应于检测到两个或更多个用户输入的所述序列中的所述第二用户输入而显示所述第三数量的虚拟元素包括显示第二动画转变，所述第二动画转变用虚拟元素逐渐替换所述三维场景中增加量的所述第二类物理元素，而所述第一类物理元素被显示为取代所述三维场景中的现有虚拟元素。

33.根据权利要求31至32中任一项所述的方法，其中根据两个或更多个用户输入的所述序列中的所述连续输入相继地增加虚拟元素的所述数量包括：

响应于检测到两个或更多个用户输入的所述序列中的第三用户输入，以及根据确定所述第三用户输入在所述第二用户输入之后并且满足所述第一标准，显示具有第四数量的虚拟元素的所述三维场景，所述第四数量的虚拟元素与所述第三数量的虚拟元素相比占据所述三维场景的更大部分，所述更大部分包括所述三维场景的在检测到所述第一用户输入之前被所述第一类物理元素占据的所述第一部分，所述三维场景的在检测到所述第二用户输入之前被所述第二类物理元素占据的所述第二部分，以及所述三维场景的在检测到所述第三用户输入之前被第三类物理元素占据的第三部分。

34.根据权利要求31至33中任一项所述的方法，包括：

响应于检测到两个或更多个用户输入的所述序列中的所述第二用户输入，以及根据所述确定所述第二用户输入在所述第一用户输入之后并且满足所述第一标准，在显示所述第二数量的虚拟元素和显示所述第三数量的虚拟元素之间显示第三动画转变。

35.根据权利要求32至34中任一项所述的方法，其中所述第二数量的虚拟元素包括关于第一虚拟环境的视图，所述视图被显示为具有至少所述第一组一个或多个物理元素的第一子集，并且其中关于所述第一虚拟环境的所述视图具有所述视图中表示的所述第一虚拟环境的一部分的第一显示特性的第一组值，并且所述方法包括：

根据关于所述第一虚拟环境的所述视图中表示的所述第一虚拟环境的所述部分的所述第一显示特性的所述第一组值来修改所述第一组一个或多个物理元素的所述第一子集的至少一部分的视觉外观。

36.根据权利要求35所述的方法，包括：

当显示包括关于所述第一虚拟环境的所述视图的所述第二数量的虚拟元素时，检测满足第二标准的输入，其中所述视图被显示为具有至少所述第一组一个或多个物理元素的所述第一子集；以及

响应于检测到满足与所述第一标准不同的所述第二标准的所述输入，显示用于改变关于所述第一虚拟环境的所述视图的多个可选择选项。

37.根据权利要求35至36中任一项所述的方法，包括：

当显示包括关于所述第一虚拟环境的所述视图的所述第二数量的虚拟元素时，检测满足第三标准的输入，其中所述视图被显示为具有至少所述第一组一个或多个物理元素的所述第一子集；以及

响应于检测到满足所述第三标准的所述输入，用关于与所述第一虚拟环境不同的第二虚拟环境的视图替换关于所述第一虚拟环境的所述视图。

38.根据权利要求35至36中任一项所述的方法，包括：

响应于检测到满足所述第三标准的所述输入，更新所述视图以示出具有改换所述第一虚拟环境的所述外观的至少一个改变的参数的所述第一虚拟环境。

39.根据权利要求37或38中任一项所述的方法，其中所述第一标准包括第一定向标准，并且所述第二标准包括与所述第一定向标准不同的第二定向标准。

40.根据权利要求37至39中任一项所述的方法，其中显示所述第一数量的虚拟元素包括显示所述三维场景中的第一虚拟窗户，显示所述第二数量的虚拟元素包括扩展所述三维场景中的所述第一虚拟窗户，并且显示所述第三数量的虚拟元素包括用虚拟元素替换一个或多个物理壁的视图。

41.根据权利要求31至40中任一项所述的方法，其中两个或更多个用户输入的所述序列包括第一输入类型的重复输入。

42.根据权利要求31至40中任一项所述的方法，其中两个或更多个用户输入的所述序列包括连续输入的连续部分，并且所述连续输入的每个部分对应于两个或更多个用户输入的所述序列中的相应用户输入。

43.根据权利要求31到42中任一项所述的方法，其中所述第一组一个或多个物理元素的所述第一子集至少包括物理环境的壁和地板，并且所述第一组一个或多个物理元素的所述第二子集包括所述物理环境的所述地板，而不包括所述物理环境的所述壁。

44.根据权利要求31到43中任一项所述的方法，其中所述第一组一个或多个物理元素的所述第一子集至少包括物理环境中的壁和一个或多个家具，并且所述第一组一个或多个物理元素的所述第二子集包括所述物理环境中的所述一个或多个家具，而不包括所述物理环境的所述壁。

45.一种存储可执行指令的计算机可读存储介质，所述可执行指令当由具有一个或多个处理器和显示生成部件的计算机系统执行时，使得所述计算机系统执行根据权利要求31至44中任一项所述的方法。

46.一种计算机系统，包括：

一个或多个处理器；

显示生成部件；和

存储器，所述存储器存储被配置用于由所述一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行根据权利要求31至44中任一项所述的方法的指令。

47.一种具有一个或多个处理器和显示生成部件的计算机系统，所述计算机系统包括：

用于执行根据权利要求31至44中任一项所述的方法的装置。

48.一种用于具有一个或多个处理器和显示生成部件的计算机系统中的信息处理装置，所述信息处理装置包括：

用于执行根据权利要求31至44中任一项所述的方法的装置。

49.一种方法，包括：

经由所述显示生成部件显示三维场景，所述三维场景至少包括第一物理对象或所述第一物理对象的表示，其中所述第一物理对象至少具有第一物理表面，并且其中所述第一物理对象或所述第一物理对象的所述表示在所述三维场景中的相应位置对应于所述第一物理对象在所述显示生成部件周围的物理环境中的相应位置；

当显示所述三维场景时，检测第一交互标准被满足，其中所述第一交互标准包括当检测到用户和所述第一物理对象之间的第一用户交互水平时被满足的第一标准；

响应于检测到满足所述第一交互标准，经由所述显示生成部件在与所述第一物理对象的所述第一物理表面在所述三维场景中的位置对应的位置处显示第一用户界面；

当在与所述第一物理对象的所述第一物理表面或所述第一物理表面的表示在所述三维场景中的所述位置对应的所述位置处显示所述第一用户界面时，检测第二交互标准被满足，其中所述第二交互标准包括当检测到第二用户交互水平时被满足的第二标准，所述第二用户交互水平大于所述用户和所述第一物理对象之间的所述第一用户交互水平；以及

响应于检测到满足所述第二交互标准，在与所述第一物理对象的所述第一物理表面或所述第一物理表面的所述表示在所述三维场景中的所述位置对应的所述位置处用第二用户界面的显示替换所述第一用户界面的显示。

50.根据权利要求49所述的方法，包括：

当在与所述第一物理对象的所述第一物理表面或所述第一物理表面的表示在所述三维场景中的所述位置对应的所述位置处显示所述第二用户界面时，检测第一交互标准被满足；以及

响应于检测到在显示所述第二用户界面之后满足所述第一交互标准，在与所述第一物理对象的所述第一物理表面或所述第一物理表面的表示在所述三维场景中的所述位置对应的所述位置处用所述第一用户界面的显示替换所述第二用户界面的显示。

51.根据权利要求49至50中任一项所述的方法，包括：

当在与所述第一物理对象的所述第一物理表面或所述第一物理表面的表示在所述三维场景中的所述位置对应的所述位置处显示所述第一用户界面时，检测第三交互标准被满足，其中所述第三交互标准包括当检测到所述用户和与所述第一物理对象不同的第二物理对象之间的所述第一用户交互水平时被满足的第三标准；以及

响应于检测到满足所述第三交互标准：

停止在与所述第一物理对象的所述第一物理表面或所述第一物理表面的表示在所述三维场景中的所述位置对应的所述位置处显示所述第一用户界面；以及

在与所述第二物理对象的第二物理表面或所述第二物理表面的表示在所述三维场景中的位置对应的位置处显示第三用户界面。

52.根据权利要求49至51中任一项所述的方法，包括：

当在与所述第一物理对象的所述第一物理表面或所述第一物理表面的所述表示在所述三维场景中的所述位置对应的所述位置处显示所述第一用户界面时，检测满足第一动作标准的第一输入，其中所述第一动作标准对应于所述第一用户界面中包括的第一选项的激活；以及

响应于在显示所述第一用户界面时检测到满足所述第一动作标准的所述第一输入，执行与所述第一用户界面中包括的所述第一选项对应的第一操作。

53.根据权利要求52所述的方法，包括：

当在与所述第一物理对象的所述第一物理表面或所述第一物理表面的表示在所述三维场景中的所述位置对应的所述位置处显示所述第二用户界面时，检测满足第三动作标准的第二输入，其中所述第三动作标准对应于所述第二用户界面中包括的第三选项的激活；以及

响应于在显示所述第二用户界面时检测到满足所述第三动作标准的所述第一输入，执行与所述第二用户界面中包括的所述第三选项对应的第三操作。

54.根据权利要求49至53中任一项所述的方法，其中所述第一物理对象是扬声器，并且其中所述第一用户界面提供与所述扬声器相关联的第一组一个或多个回放控制功能。

55.根据权利要求49至54中任一项所述的方法，其中所述第一用户界面包括与所述第一物理对象对应的一个或多个通知。

56.根据权利要求49至55中任一项所述的方法，其中所述第二用户界面包括键盘，所述键盘包括用于文本输入的多个字符键。

57.根据权利要求49至56中任一项所述的方法，其中所述第一用户界面显示对所述第一物理对象的内部状态的指示。

58.根据权利要求49至57中任一项所述的方法，其中所述第二用户界面至少提供在所述第一用户界面中提供的功能或信息的子集，并且所述第二用户界面包括在所述第一用户界面中不可用的至少一个功能或信息项。

59.根据权利要求49至58中任一项所述的方法，包括：

当在与所述第一物理对象的所述第一物理表面在所述三维场景中的所述位置对应的所述位置处显示所述第一用户界面时，检测满足第五标准的用户输入，所述用户输入对应于消除所述第一用户界面的请求；以及

响应于检测到满足所述第五标准的所述用户输入，停止显示所述第一用户界面。

60.根据权利要求49至59中任一项所述的方法，包括：

当在与所述第一物理对象的所述第一物理表面在所述三维场景中的所述位置对应的所述位置处显示所述第一用户界面或所述第二用户界面时，检测所述第一物理对象的所述第一物理表面上的用户输入；以及

响应于检测到所述第一物理对象的所述第一物理表面上的所述用户输入：

根据确定所述第一物理对象的所述第一物理表面上的所述用户输入满足第六标准，执行与所述第一物理对象对应的第一操作；以及

根据确定所述第一物理对象的所述第一物理表面上的所述用户输入满足第六标准，执行与所述第一物理对象对应的第二操作，所述第二操作不同于所述第一操作。

61.根据权利要求49至59中任一项所述的方法，包括：

当在与所述第一物理对象的所述第一物理表面在所述三维场景中的所述位置对应的所述位置处显示所述第一用户界面或所述第二用户界面时，在注视输入指向所述第一物理对象的所述第一物理表面时；以及

响应于在所述注视输入指向所述第一物理对象的所述第一物理表面时检测到所述手势输入：

根据确定所述手势输入和所述注视输入满足第七标准，执行与所述第一物理对象对应的第三操作；以及

根据确定所述手势输入和所述注视输入满足第八标准，执行与所述第一物理对象对应的第四操作，所述第四操作不同于所述第三操作。

62.根据权利要求49至59中任一项所述的方法，包括：

当在与所述第一物理对象的所述第一物理表面在所述三维场景中的所述位置对应的所述位置处显示所述第一用户界面或所述第二用户界面时，在注视输入指向所述第一物理对象的所述第一物理表面时检测与所述第一物理对象不同的第二物理对象的第二物理表面上的手势输入；以及

响应于在所述注视输入指向所述第一物理对象的所述第一物理表面时检测到所述第二物理对象的所述第二物理表面上的所述手势输入：

根据确定所述手势输入和所述注视输入满足第九标准，执行与所述第一物理对象对应的第五操作；以及

根据确定所述手势输入和所述注视输入满足第十标准，执行与所述第一物理对象对应的第六操作，所述第六操作不同于所述第五操作。

63.一种存储可执行指令的计算机可读存储介质，所述可执行指令当由具有一个或多个处理器和显示生成部件的计算机系统执行时，使得所述计算机系统执行根据权利要求49至62中任一项所述的方法。

64.一种计算机系统，包括：

一个或多个处理器；

显示生成部件；和

存储器，所述存储器存储被配置用于由所述一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行根据权利要求49至62中任一项所述的方法的指令。

65.一种具有一个或多个处理器和显示生成部件的计算机系统，所述计算机系统包括：

用于执行根据权利要求49至62中任一项所述的方法的装置。

66.一种用于具有一个或多个处理器和显示生成部件的计算机系统中的信息处理装置，所述信息处理装置包括：

用于执行根据权利要求49至62中任一项所述的方法的装置。

67.一种方法，包括：

经由所述显示生成部件显示三维场景，所述三维场景至少包括具有第一物理表面的第一物理对象并且至少包括具有第一虚拟表面的第一虚拟对象；

当显示包括所述第一物理对象和所述第一虚拟对象的所述三维场景时，检测激活基于语音的虚拟助手的请求；

响应于检测到激活所述基于语音的虚拟助手的所述请求：

激活被配置为接收语音命令的所述基于语音的虚拟助手；

在所述三维场景中显示所述基于语音的虚拟助手的视觉表示，包括以所述视觉表示的第一显示特性的第一组值显示所述基于语音的虚拟助手的所述视觉表示；以及

根据所述基于语音的虚拟助手的所述视觉表示的所述第一显示特性的所述第一组值来修改所述第一物理对象的所述第一物理表面的至少一部分和所述第一虚拟对象的所述第一虚拟表面的至少一部分的视觉外观。

68.根据权利要求67所述的方法，其中根据所述基于语音的虚拟助手的所述视觉表示的所述第一显示特性的所述第一组值来修改所述第一虚拟对象的所述第一虚拟表面的至少一部分的所述视觉外观包括：

根据所述基于语音的虚拟助手的所述视觉表示的增加的亮度值来增加所述第一虚拟对象的所述第一虚拟表面的至少一部分的相应亮度。

69.根据权利要求67至68中任一项所述的方法，其中根据所述基于语音的虚拟助手的所述视觉表示的所述第一显示特性的所述第一组值来修改所述第一虚拟对象的所述第一虚拟表面的至少一部分的所述视觉外观包括：

根据所述基于语音的虚拟助手的所述视觉表示的改变的颜色值来改变所述第一虚拟对象的所述第一虚拟表面的至少一部分的相应颜色。

70.根据权利要求67至69中任一项所述的方法，其中根据所述基于语音的虚拟助手的所述视觉表示的所述第一显示特性的所述第一组值来修改所述第一物理对象的所述第一物理表面的至少一部分的视觉外观包括：

根据所述基于语音的虚拟助手的所述视觉表示的增加的亮度值来增加所述三维场景的与所述第一物理对象的所述第一物理表面的至少一部分对应的一部分的相应亮度。

71.根据权利要求67至70中任一项所述的方法，其中根据所述基于语音的虚拟助手的所述视觉表示的所述第一显示特性的所述第一组值来修改所述第一物理对象的所述第一物理表面的至少一部分的视觉外观包括：

根据所述基于语音的虚拟助手的所述视觉表示的改变的颜色值来改变所述三维场景的与所述第一物理对象的所述第一物理表面的至少一部分对应的一部分的相应颜色。

72.根据权利要求67至71中任一项所述的方法，还包括：

响应于检测到激活所述基于语音的虚拟助手的所述请求：

根据所述基于语音的虚拟助手的所述视觉表示的所述第一显示特性的所述第一组值来修改当前经由所述显示生成部件显示的所述三维场景的一部分的外围区域的视觉外观。

73.根据权利要求67至72中任一项所述的方法，其中检测激活所述基于语音的虚拟助手的所述请求包括：

检测满足第一标准的注视输入，其中所述第一标准包括当所述注视输入指向与所述三维场景中的所述基于语音的虚拟助手的所述视觉表示对应的位置时被满足的标准。

74.根据权利要求67至73中任一项所述的方法，其中响应于检测到激活所述基于语音的虚拟助手的所述请求而在所述三维场景中显示所述基于语音的虚拟助手的所述视觉表示包括：

将所述基于语音的虚拟助手的所述视觉表示从所述三维场景中的第一位置移动到第二位置。

75.根据权利要求67至74中任一项所述的方法，其中响应于检测到激活所述基于语音的虚拟助手的所述请求而在所述三维场景中显示所述基于语音的虚拟助手的所述视觉表示包括：

改变所述三维场景中的所述基于语音的虚拟助手的所述视觉表示的大小。

76.根据权利要求67至75中任一项所述的方法，其中响应于检测到激活所述基于语音的虚拟助手的所述请求而在所述三维场景中显示所述基于语音的虚拟助手的所述视觉表示包括：

改变所述三维场景中的所述基于语音的虚拟助手的所述视觉表示的所述第一显示特性的所述第一组值。

77.根据权利要求67至76中任一项所述的方法，包括：

响应于检测到激活所述基于语音的虚拟助手的所述请求，改变所述三维场景的在所述基于语音的虚拟助手的所述视觉表示周围的位置处的一部分的所述第一显示特性的第二组值。

78.根据权利要求67至77中任一项所述的方法，其中检测激活所述基于语音的虚拟助手的所述请求包括：

检测满足第一标准的注视输入和满足第二标准的语音输入，其中所述第一标准包括当所述注视输入指向与所述三维场景中的所述基于语音的虚拟助手的所述视觉表示对应的位置时被满足的标准，并且其中所述第二标准包括当在所述注视输入满足所述第一标准时检测到所述语音输入时被满足的标准。

79.根据权利要求67至78中任一项所述的方法，包括：

当在所述三维场景中显示所述基于语音的虚拟助手的所述视觉表示时，检测与使所述基于语音的助手执行第一操作的请求对应的第一输入，其中所述第一输入延续第一持续时间；以及

响应于检测到所述第一输入，在所述第一输入期间将所述基于语音的虚拟助手的所述视觉表示的所述第一显示特性从所述第一组值改变为与所述第一组值不同的第二组值。

80.根据权利要求67至79中任一项所述的方法，包括：

当在所述三维场景中显示所述基于语音的虚拟助手的所述视觉表示时，检测与使所述基于语音的助手执行第二操作的请求对应的第二输入；以及

响应于检测到第二输入：

发起所述第二操作的执行；以及

在所述第二操作的执行期间将所述基于语音的虚拟助手的所述视觉表示的所述第一显示特性从所述第一组值改变为与所述第一组值不同的第三组值。

81.根据权利要求67至80中任一项所述的方法，其中所述基于语音的虚拟助手的所述视觉表示在包括所述第一虚拟对象和所述第一物理对象的三维环境中具有预定义位置，并且激活所述基于语音的虚拟助手的所述请求包括指向所述预定义位置的输入。

82.根据权利要求67至81中任一项所述的方法，包括：

当经由所述显示生成部件在包括所述第一物理对象和所述第一虚拟对象的所述三维场景中显示所述基于语音的虚拟助手的所述视觉表示时，检测所述显示生成部件的移动，其中在所述显示生成部件的所述移动开始时，在所述三维场景中与所述显示生成部件的第一部分对应的第一位置处显示所述基于语音的虚拟助手的所述视觉表示；

响应于检测到所述显示生成部件的所述移动，将所述基于语音的虚拟助手的所述视觉表示移动到所述三维场景中与所述第一位置不同的第二位置，其中根据所述显示生成部件的所述移动来更新所述三维场景中的所述第二位置以对应于所述显示生成部件的所述第一部分。

83.根据权利要求67至81中任一项所述的方法，包括：

当经由所述显示生成部件在包括所述第一物理对象和所述第一虚拟对象的所述三维场景中显示所述基于语音的虚拟助手的所述视觉表示时，检测所述显示生成部件的移动，其中在所述显示生成部件的所述移动开始时，在所述三维场景中相对于所述第一虚拟对象和所述第一物理对象的第一位置处显示所述基于语音的虚拟助手的所述视觉表示；

响应于检测到所述显示生成部件的所述移动：

根据所述显示生成部件的所述移动来改变所述显示生成部件相对于所述三维场景的视点，同时将所述基于语音的虚拟助手的所述视觉表示保持在所述三维场景中的所述第一位置处。

84.一种存储可执行指令的计算机可读存储介质，所述可执行指令当由具有一个或多个处理器和显示生成部件的计算机系统执行时，使得所述计算机系统执行根据权利要求67至83中任一项所述的方法。

85.一种计算机系统，包括：

一个或多个处理器；

显示生成部件；和

存储器，所述存储器存储被配置用于由所述一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行根据权利要求67至83中任一项所述的方法的指令。

86.一种具有一个或多个处理器和显示生成部件的计算机系统，所述计算机系统包括：

用于执行根据权利要求67至83中任一项所述的方法的装置。

87.一种用于具有一个或多个处理器和显示生成部件的计算机系统中的信息处理装置，所述信息处理装置包括：

用于执行根据权利要求67至83中任一项所述的方法的装置。