CN117882033A

CN117882033A - 用于调用写入表面的方法和设备

Info

Publication number: CN117882033A
Application number: CN202280058245.2A
Authority: CN
Inventors: J·S·诺里斯; M·J·洛克威尔
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2021-08-30
Filing date: 2022-08-23
Publication date: 2024-04-12
Also published as: WO2023034070A1

Abstract

在一个具体实施中，一种用于调用写入表面的方法。该方法包括：检测物理环境的图像流内的物理平面，其中该图像流与一个或多个面向外部的图像传感器的视场(FOV)相关联；响应于检测到该图像流内的该物理平面：获取该物理平面的姿态值；以及在第一位置处呈现被提供为显示标记的扩展现实(XR)表面，其中该第一位置基于该物理平面的这些姿态值；以及响应于该物理平面的移动，维持该XR表面在该第一位置处的呈现。

Description

用于调用写入表面的方法和设备

技术领域

本公开整体涉及与用户界面交互，并且具体地，涉及用于调用写入表面的系统、设备和方法。

背景技术

用户可通过启动适当的应用程序来调用便签或空白文本输入文档。然而，应用程序启动过程可包括可使用户从其工作流程分心的若干步骤。

附图说明

因此，本公开可被本领域的普通技术人员理解，更详细的描述可参考一些例示性具体实施的方面，其中一些具体实施在附图中示出。

图1是根据一些具体实施的示例性操作架构的框图。

图2是根据一些具体实施的示例性控制器的框图。

图3是根据一些具体实施的示例性电子设备的框图。

图4A是根据一些具体实施的示例性内容递送架构的第一部分的框图。

图4B示出了根据一些具体实施的示例性数据结构。

图4C是根据一些具体实施的示例性内容递送架构的第二部分的框图。

图5A至图5T示出了根据一些具体实施的内容递送场景的实例的序列。

图6A和图6B示出了根据一些具体实施的调用XR表面的方法的流程图表示。

图7示出了根据一些具体实施的响应于检测到添加到物理环境的物理平面而调用XR表面的方法的流程图表示。

图8A和图8B示出了根据一些具体实施的响应于检测到添加到物理环境的物理平面并且根据满足接近条件的确定来调用XR表面的方法的流程图表示。

根据通常的做法，附图中示出的各种特征部可能未按比例绘制。因此，为了清楚起见，可以任意地扩展或减小各种特征部的尺寸。另外，一些附图可能未描绘给定的系统、方法或设备的所有部件。最后，在整个说明书和附图中，类似的附图标号可用于表示类似的特征部。

发明内容

本文所公开的各种具体实施包括用于调用写入表面的设备、系统和方法。根据一些具体实施，该方法在包括非暂态存储器和一个或多个处理器的计算系统处执行，其中该计算系统通信地耦接到显示设备、一个或多个面向外部的图像传感器和一个或多个输入设备。该方法包括：检测物理环境的图像流内的物理平面，其中该图像流与一个或多个面向外部的图像传感器的视场(FOV)相关联；响应于检测到该图像流内的该物理平面：获取该物理平面的姿态值；以及在第一位置处呈现被提供为显示标记的扩展现实(XR)表面，其中该第一位置基于该物理平面的这些姿态值；以及响应于该物理平面的移动，维持该XR表面在该第一位置处的呈现。

根据一些具体实施，一种电子设备包括一个或多个显示器、一个或多个处理器、非暂态存储器和一个或多个程序；该一个或多个程序被存储在非暂态存储器中并且被配置为由一个或多个处理器执行，并且该一个或多个程序包括用于执行或使得执行本文所述的方法中的任一种方法的指令。根据一些具体实施，一种非暂态计算机可读存储介质中存储有指令，这些指令在由设备的一个或多个处理器执行时使该设备执行或使执行本文所述方法中的任一种。根据一些具体实施，一种设备包括：一个或多个显示器、一个或多个处理器、非暂态存储器以及用于执行或使得执行本文所述的方法中的任一种方法的构件。

根据一些具体实施，一种计算系统包括一个或多个处理器、非暂态存储器、用于与显示设备和一个或多个输入设备通信的接口、以及一个或多个程序；该一个或多个程序被存储在非暂态存储器中并且被配置为由一个或多个处理器执行，并且该一个或多个程序包括用于执行或使得执行本文所述的方法中的任一种方法的操作的指令。根据一些实施方案，一种非暂态计算机可读存储介质具有存储在其中的指令，这些指令当由具有与显示设备和一个或多个输入设备通信的接口的计算系统的一个或多个处理器执行时，使得该计算系统执行或使得执行本文所述的方法中的任一种方法的操作。根据一些具体实施，一种计算系统包括一个或多个处理器、非暂态存储器、用于与显示设备和一个或多个输入设备通信的接口、以及用于执行或使得执行本文所述的方法中的任一种方法的操作的构件。

具体实施方式

描述了许多细节以便提供对附图中所示的示例具体实施的透彻理解。然而，附图仅示出了本公开的一些示例方面，因此不应被视为限制。本领域的普通技术人员将理解，其他有效方面和/或变体不包括本文所述的所有具体细节。此外，没有详尽地描述众所周知的系统、方法、部件、设备和电路，以免模糊本文所述的示例性具体实施的更多相关方面。

所描述的技术可采集和使用来自各种源的信息。在一些情况下，该信息可包括标识或可用于定位或联系特定个体的个人信息。该个人信息可包括人口统计数据、位置数据、电话号码、电子邮件地址、出生日期、社交媒体账户名称、工作住址或家庭地址、与用户的健康或健身水平相关联的数据或记录、或其他个人或标识信息。

个人信息的收集、存储、传递、公开、分析或其他用途应当遵守既定的隐私政策或实践。应当实施并使用一般被认为满足或超过工业或政府要求的隐私政策和实践。个人信息应当被收集用于合法且合理的用途，并且不在这些用途之外共享或出售。信息的收集或共享应当在接收到用户的知情同意之后发生。

可设想，在一些情况下，用户可选择性地阻止使用或访问个人信息。可提供硬件或软件特征，以防止或阻止对个人信息的访问。应当处理个人信息以降低无意或未授权访问或使用的风险。通过一旦不再需要就限制数据的收集和删除数据可降低风险。当适用时，数据去标识可用于保护用户的隐私。

尽管所描述的技术可广泛地包括个人信息的使用，但是可在不访问这种个人信息的情况下实施本技术。换句话讲，本技术不会由于缺少一些或所有这种个人信息而被致使不可操作。

图1是根据一些具体实施的示例性操作架构100的框图。尽管示出了相关特征，但本领域的普通技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的示例性具体实施的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，操作架构100包括任选的控制器110和电子设备120。

在一些具体实施中，控制器110被配置为管理和协调用户149以及任选地其他用户的扩展现实(XR)体验(在本文中有时也称为“XR环境”或“虚拟环境”或“图形环境”)。在一些具体实施中，控制器110包括软件、固件和/或硬件的合适组合。下文参考图2更详细地描述控制器110。在一些具体实施中，控制器110是相对于物理环境105位于本地或远程位置的计算设备。例如，控制器110是位于物理环境105内的本地服务器。在另一个示例中，控制器110是位于物理环境105之外的远程服务器(例如，云服务器、中央服务器等)。在一些具体实施中，控制器110经由一个或多个有线或无线通信信道144(例如，蓝牙、IEEE 802.11x、IEEE802.16x、IEEE 802.3x等)与电子设备120通信地耦接。在一些具体实施中，控制器110的功能由电子设备120提供。这样，在一些具体实施中，控制器110的部件集成到电子设备120中。

在一些具体实施中，电子设备120被配置为向用户149呈现音频和/或视频(A/V)内容。在一些具体实施中，电子设备120被配置为向用户149呈现用户界面(UI)和/或XR环境128。在一些具体实施中，电子设备120包括软件、固件和/或硬件的合适组合。下文参考图3更详细地描述电子设备120。XR环境可以是指人们可使用电子设备120感测或交互的部分或完全模拟的环境。XR环境可包括虚拟现实(VR)内容、混合现实(MR)内容、增强现实(AR)内容等。

根据一些具体实施，当用户149物理地存在于物理环境105内时，电子设备120向用户149呈现XR体验，其中物理环境105包括处于电子设备120的视场(FOV)111内的桌子107。因此，在一些具体实施中，用户149将电子设备120握持在其右手152中，如图1所示。在一些具体实施中，在呈现XR体验时，电子设备120被配置为呈现XR内容(在本文中有时也称为“图形内容”或“虚拟内容”)，包括XR圆柱体109，并且使得能够实现显示器122上物理环境105(例如，包括桌子107或其表示)的视频透传。例如，包括XR圆柱体109的XR环境128是立体的或三维的(3D)。

在一个示例中，XR圆柱体109对应于头部/显示器锁定的内容，使得当FOV 111由于电子设备120的平移和/或旋转移动而改变时，XR圆柱体109保持呈现在显示器122上的相同位置处。作为另一示例，XR圆柱体109对应于世界/对象锁定的内容，使得当FOV 111由于电子设备120的平移和/或旋转移动而改变时，XR圆柱体109保持呈现在其原始位置处。因此，在该示例中，如果FOV 111不包括原始位置，则XR环境128将不包括XR圆柱体109。例如，电子设备120对应于近眼系统、移动电话、平板电脑、膝上型电脑、可穿戴计算设备等。

在一些具体实施中，显示器122对应于使得能够实现物理环境105(包括桌子107)的光学透传的加成显示器。例如，显示器122对应于透明透镜，并且电子设备120对应于用户149佩戴的一副眼镜。因此，在一些具体实施中，电子设备120通过将XR内容(例如，XR圆柱体109)投影到加成显示器上而呈现用户界面，其继而从用户149的角度叠置在物理环境105上。在一些具体实施中，电子设备120通过将XR内容(例如，XR圆柱体109)呈现在加成显示器上而呈现用户界面，其继而从用户149的角度叠置在物理环境105上。

在一些具体实施中，用户149穿戴电子设备120，诸如近眼系统。因此，电子设备120包括被提供以显示XR内容的一个或多个显示器(例如，单个显示器或每只眼睛一个显示器)。例如，电子设备120包围用户149的FOV。在此类具体实施中，电子设备120通过在一个或多个显示器上呈现对应于XR环境128的数据或者通过将对应于XR环境128的数据投影到用户149的视网膜上来呈现XR环境128。

在一些具体实施中，电子设备120包括呈现XR环境128的集成显示器(例如，内置显示器)。在一些具体实施中，电子设备120包括可头戴式壳体。在各种具体实施中，头戴式壳体包括附接区，具有显示器的另一设备可附接到该附接区。例如，在一些具体实施中，电子设备120可附接到可头戴式壳体。在各种具体实施中，可头戴式壳体被成形为形成用于接收包括显示器的另一设备(例如，电子设备120)的接收器。例如，在一些具体实施中，电子设备120滑动/卡扣到可头戴式壳体中或以其他方式附接到该可头戴式壳体。在一些具体实施中，附接到可头戴式壳体的设备的显示器呈现(例如，显示)XR环境128。在一些具体实施中，将电子设备120替换成被配置为呈现XR内容的XR室、壳体或房间，在其中用户149不穿戴电子设备120。

在一些具体实施中，控制器110和/或电子设备120使得用户149的XR表示基于来自电子设备120和/或物理环境105内的任选的远程输入设备的移动信息(例如，身体姿态数据、眼睛跟踪数据、手部/肢体/手指/四肢跟踪数据等)在XR环境128内移动。在一些具体实施中，可选的远程输入设备对应于物理环境105内的固定或可移动的感官设备(例如，图像传感器、深度传感器、红外(IR)传感器、事件相机、麦克风等)。在一些具体实施中，每个远程输入设备被配置为在用户149物理地在物理环境105内时收集/捕获输入数据，并且将输入数据提供给控制器110和/或电子设备120。在一些具体实施中，远程输入设备包括麦克风，并且输入数据包括与用户149相关联的音频数据(例如，语音样本)。在一些具体实施中，远程输入设备包括图像传感器(例如，相机)，并且输入数据包括用户149的图像。在一些具体实施中，输入数据表征用户149在不同时间的身体姿态。在一些具体实施中，输入数据表征用户149在不同时间的头部姿态。在一些具体实施中，输入数据表征在不同时间与用户149的手相关联的手跟踪信息。在一些具体实施中，输入数据表征用户149的身体部分诸如他们的手部的速度和/或加速度。在一些具体实施中，输入数据指示用户149的关节定位和/或关节取向。在一些具体实施中，远程输入设备包括反馈设备，诸如扬声器、灯等。

图2是根据一些具体实施的控制器110的示例的框图。尽管示出了一些具体特征，但本领域的技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的具体实施的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，在一些具体实施中，控制器110包括一个或多个处理单元202(例如，微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、图形处理单元(GPU)、中央处理单元(CPU)、处理内核等)、一个或多个输入/输出(I/O)设备206、一个或多个通信接口208(例如，通用串行总线(USB)、IEEE 802.3x、IEEE 802.11x、IEEE 802.16x、全球移动通信系统(GSM)、码分多址(CDMA)、时分多址(TDMA)、全球定位系统(GPS)、红外(IR)、蓝牙、ZIGBEE和/或类似类型的接口)、一个或多个编程(例如，I/O)接口210、存储器220以及用于互连这些部件和各种其他部件的一条或多条通信总线204。

在一些具体实施中，该一条或多条通信总线204包括互连系统部件和控制系统部件之间的通信的电路。在一些具体实施中，一个或多个I/O设备206包括键盘、鼠标、触控板、触摸屏、操纵杆、一个或多个麦克风、一个或多个扬声器、一个或多个图像传感器、一个或多个显示器等中的至少一者。

存储器220包括高速随机存取存储器，诸如动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、双倍数据速率随机存取存储器(DDR RAM)或者其他随机存取固态存储器设备。在一些具体实施中，存储器220包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存存储器设备或其他非易失性固态存储设备。存储器220任选地包括远离该一个或多个处理单元202定位的一个或多个存储设备。存储器220包括非暂态计算机可读存储介质。在一些具体实施中，存储器220或存储器220的非暂态计算机可读存储介质存储下文参照图2所述的下述程序、模块和数据结构或者它们的子集。

操作系统230包括用于处理各种基础系统服务和用于执行硬件相关任务的过程。

在一些具体实施中，数据获取器242被配置为从控制器110的I/O设备206、电子设备120的I/O设备和传感器306以及任选的远程输入设备中的至少一者获取数据(例如，所捕获的物理环境105的图像帧、呈现数据、输入数据、用户交互数据、相机姿态跟踪信息、眼睛跟踪信息、头部/身体姿态跟踪信息、手部/肢体/手指/四肢跟踪信息、传感器数据、位置数据等)。为此，在各种具体实施中，数据获取器242包括指令和/或用于这些指令的逻辑，以及启发法和用于该启发法的元数据。

在一些具体实施中，映射器和定位器引擎244被配置为映射物理环境105并至少跟踪电子设备120或用户149相对于物理环境105的定位/位置。为此，在各种具体实施中，映射器和定位器引擎244包括指令和/或用于这些指令的逻辑，以及启发法和用于该启发法的元数据。

在一些具体实施中，数据传输器246被配置为至少向电子设备120和任选地一个或多个其他设备传输数据(例如，呈现数据，诸如与XR环境相关联的经渲染的图像帧、相机姿态跟踪信息、眼睛跟踪信息、头部/身体姿态跟踪信息、手部/肢体/手指/四肢跟踪信息、位置数据等)。为此，在各种具体实施中，数据传输器246包括指令和/或用于指令的逻辑，以及启发法和用于启发法的元数据。

在一些具体实施中，隐私架构408被配置为摄取数据，并且基于一个或多个隐私过滤器来过滤该数据内的用户信息和/或标识信息。下文参考图4A更详细地描述隐私架构408。为此，在各种具体实施中，隐私架构408包括指令和/或用于指令的逻辑以及启发法和用于启发法的元数据。

在一些具体实施中，对象跟踪引擎410被配置为基于输入数据来获取(例如，接收、检索或确定/生成)与物理环境105内正被跟踪的一个或多个物理对象(例如，图5E和图5R中的控制设备552，图5G、图5H和图5L至图5Q中的便笺簿572，图5M至图5Q中的物理代理对象5132等)相关联的对象跟踪向量411，并且随时间推移而更新对象跟踪向量411。例如，如图4B所示，对象跟踪向量411包括一个或多个物理对象的平移值472(例如，与相对于物理环境105或整个世界的x坐标、y坐标和z坐标相关联)、一个或多个物理对象的旋转值474(例如，翻滚、俯仰和偏航)、与一个或多个物理对象相关联的一个或多个压力值476、与一个或多个物理对象相关联的任选触摸输入信息478等。下面参考图4A更详细地描述对象跟踪引擎410。为此，在各种具体实施中，对象跟踪引擎410包括指令和/或用于这些指令的逻辑部件以及启发法和用于该启发法的元数据。

在一些具体实施中，眼睛跟踪引擎412被配置为基于输入数据来获取(例如，接收、检索或确定/生成)如图4B所示的眼睛跟踪向量413(例如，具有注视方向)并且随时间推移而更新眼睛跟踪向量413。例如，注视方向指示用户149当前正在查看的物理环境105中的点(例如，与相对于物理环境105或整个世界的x坐标、y坐标和z坐标相关联)、物理对象或感兴趣区域(ROI)。作为另一示例，注视方向指示用户149当前正在查看的XR环境128中的点(例如，与相对于XR环境128的x坐标、y坐标和z坐标相关联)、XR对象或感兴趣区域(ROI)。下文参考图4A更详细地描述眼睛跟踪引擎412。为此，在各种具体实施中，眼睛跟踪引擎412包括指令和/或用于这些指令的逻辑以及启发法和用于该启发法的元数据。

在一些具体实施中，身体/头部/四肢姿态跟踪引擎414被配置为基于输入数据来获取(例如，接收、检索或确定/生成)姿态表征向量415，并且随时间推移而更新姿态表征向量415。例如，如图4B所示，姿态表征向量415包括头部姿态描述符492A(例如，向上、向下、中性等)、头部姿态的平移值492B、头部姿态的旋转值492C、身体姿态描述符494A(例如，站立、坐着、俯卧等)、身体部位/四肢/肢体/关节的平移值494B、身体部位/四肢/肢体/关节的旋转值494C等等。下文参考图4A更详细地描述身体/头部/四肢姿态跟踪引擎414。为此，在各种具体实施中，身体/头部/四肢姿态跟踪引擎414包括指令和/或用于这些指令的逻辑部件以及启发法和用于该启发法的元数据。在一些具体实施中，作为控制器110的补充或替代，运动状态估计器410、眼睛跟踪引擎412和身体/头部/四肢姿态跟踪引擎414可位于电子设备120上。

在一些具体实施中，表征引擎418被配置为基于对象跟踪向量411、眼睛跟踪向量413和姿态表征向量415中的至少一者来确定/生成表征向量419，如图4A所示。在一些具体实施中，表征引擎418还被配置为随时间推移而更新姿态表征向量419。如图4B所示，表征向量419包括对象跟踪信息4102、注视方向信息4104、头部姿态信息4106A、身体姿态信息4106B、四肢跟踪信息4106C、位置信息4108等。下文参考图4A更详细地描述表征引擎418。为此，在各种具体实施中，表征引擎442包括指令和/或用于这些指令的逻辑部件以及启发法和用于该启发法的元数据。

在一些具体实施中，平面检测器440被配置为检测/标识物理环境105的图像流435内的平面(及其边界)集合。在一些具体实施中，平面检测器440被配置为连续地更新与物理环境105相关联的平面集合。下文参考图4A更详细地描述平面检测器440。为此，在各种具体实施中，平面检测器440包括指令和/或用于这些指令的逻辑部件以及启发法和用于该启发法的元数据。

在一些具体实施中，比较器444被配置为将在物理环境105内检测到的初始平面集合与在物理环境105内的检测到的当前平面集合进行比较。在一些具体实施中，比较器444还被配置为在当前平面集合包括不被包括在初始平面集合中的一个或多个平面时提供指示符。下文参考图4A更详细地描述比较器444。为此，在各种具体实施中，比较器444包括指令和/或用于这些指令的逻辑部件以及启发法和用于该启发法的元数据。

在一些具体实施中，确定器248被配置为确定平面检测器440是否正以初始化模式操作。在一些具体实施中，确定器248还被配置为确定比较器444是否已提供表示不被包括在初始平面集合中的一个或多个平面的检测/标识的指示符。下文参考图4A更详细地描述平面确定器248。为此，在各种具体实施中，确定器248包括指令和/或用于这些指令的逻辑部件以及启发法和用于该启发法的元数据。

在一些具体实施中，内容管理器430被配置为管理和更新XR环境128的布局、设置、结构等，包括VA、XR内容、与XR内容相关联的一个或多个用户界面(UI)元素等中的一者或多者。下文参考图4C更详细地描述内容管理器430。为此，在各种具体实施中，内容管理器430包括指令和/或用于这些指令的逻辑部件以及启发法和用于该启发法的元数据。在一些具体实施中，内容管理器430包括缓冲器434、内容更新器436和反馈引擎438。在一些具体实施中，缓冲器434包括针对一个或多个过去实例和/或帧的XR内容、来自图像流435的先前帧、经渲染的图像帧、与初始平面集合相关联的信息、与当前平面集合相关联的信息等。

在一些具体实施中，内容更新器436被配置为基于电子设备120或物理环境128内的物理对象的平移或旋转移动、用户输入(例如，情境的变化、手部/四肢跟踪输入、眼睛跟踪输入、触摸输入、语音命令、对物理对象的修改/操纵输入、标记输入、指向XR环境128或用户界面的其他交互输入等)等来随时间推移而修改XR环境105。为此，在各种具体实施中，内容更新器436包括指令和/或用于这些指令的逻辑部件以及启发法和用于该启发法的元数据。

在一些具体实施中，反馈引擎438被配置为生成与XR环境128相关联的感官反馈(例如，视觉反馈(诸如文本或照明变化)、音频反馈、触觉反馈等)。为此，在各种具体实施中，反馈引擎438包括指令和/或用于这些指令的逻辑部件以及启发法和用于该启发法的元数据。

在一些具体实施中，渲染引擎450被配置为渲染XR环境128(有时也称为“图形环境”或“虚拟环境”)或与该XR环境相关联的图像帧以及VA、XR内容、与XR内容相关联的一个或多个UI元素等。为此，在各种具体实施中，渲染引擎450包括指令和/或用于这些指令的逻辑部件以及启发法和用于该启发法的元数据。在一些具体实施中，渲染引擎450包括姿态确定器452、渲染器454、任选的图像处理架构462和任选的合成器464。本领域的普通技术人员将理解，对于视频透传配置，可存在任选的图像处理架构462和任选的合成器464，但对于完全VR或光学透传配置，可移除该任选的图像处理架构和该任选的合成器。

在一些具体实施中，姿态确定器452被配置为确定电子设备120和/或用户149相对于A/V内容和/或XR内容的当前相机姿态。下文参考图4A更详细地描述姿态确定器452。为此，在各种具体实施中，姿态确定器452包括指令和/或用于这些指令的逻辑部件以及启发法和用于该启发法的元数据。

在一些具体实施中，渲染器454被配置为根据与其相关的当前相机姿态来渲染A/V内容和/或XR内容。下文参考图4A更详细地描述渲染器454。为此，在各种具体实施中，渲染器454包括指令和/或用于这些指令的逻辑部件以及启发法和用于该启发法的元数据。

在一些具体实施中，图像处理架构462被配置为从电子设备120和/或用户149的当前相机姿态获取(例如，接收、检索或捕获)包括物理环境105的一个或多个图像的图像流435(如图4A所示)。在一些具体实施中，图像处理架构462还被配置为对图像流435执行一个或多个图像处理操作，诸如扭曲、颜色校正、γ校正、锐化、降噪、白平衡等。下文参考图4A更详细地描述图像处理架构462。为此，在各种具体实施中，图像处理架构462包括指令和/或用于这些指令的逻辑部件以及启发法和用于该启发法的元数据。

在一些具体实施中，合成器464被配置为将经渲染的A/V内容和/或XR内容与来自图像处理架构462的物理环境105的经处理的图像流合成，以产生XR环境128的经渲染的图像帧以供呈现。下文参考图4A更详细地描述合成器464。为此，在各种具体实施中，合成器464包括指令和/或用于这些指令的逻辑部件以及启发法和用于该启发法的元数据。

尽管数据获取器242、映射器和定位器引擎244、数据传输器246、隐私架构408、对象跟踪引擎410、眼睛跟踪引擎412、身体/头部/四肢姿态跟踪引擎414、表征引擎418、平面检测器440、比较器444、确定器248、内容管理器430以及渲染引擎450被示出为驻留在单个设备(例如，控制器110)上，但应当理解，在其他具体实施中，数据获取器242、映射器和定位器引擎244、数据传输器246、隐私架构408、对象跟踪引擎410、眼睛跟踪引擎412、身体/头部/四肢姿态跟踪引擎414、表征引擎418、平面检测器440、比较器444、确定器248、内容管理器430以及渲染引擎450的任何组合可位于单独的计算设备中。

在一些具体实施中，控制器110的功能和/或部件与下文在图3所示的电子设备120组合或由其提供。此外，图2更多地用作可存在于特定具体实施中的各种特征部的功能描述，而不是本文所述的具体实施的结构示意。如本领域的普通技术人员将认识到的，单独显示的项目可以组合，并且一些项目可以分开。例如，图2中单独示出的一些功能模块可以在单个模块中实现，并且单个功能块的各种功能可在各种具体实施中通过一个或多个功能块来实现。模块的实际数量和特定功能的划分以及如何在其中分配特征将根据具体实施而变化，并且在一些具体实施中，部分地取决于为特定实施方案选择的硬件、软件和/或固件的特定组合。

图3是根据一些具体实施的电子设备120(例如，移动电话、平板电脑、膝上型电脑、近眼系统、可穿戴计算设备等)的示例的框图。尽管示出了一些具体特征，但本领域的技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的具体实施的更多相关方面，未示出各种其他特征。出于该目的，作为非限制性示例，在一些具体实施中，电子设备120包括一个或多个处理单元302(例如，微处理器、ASIC、FPGA、GPU、CPU、处理核心等)、一个或多个输入/输出(I/O)设备及传感器306、一个或多个通信接口308(例如，USB、IEEE802.3x、IEEE 802.11x、IEEE 802.16x、GSM、CDMA、TDMA、GPS、IR、蓝牙、ZIGBEE和/或类似类型的接口)、一个或多个编程(例如，I/O)接口310、一个或多个显示器312、图像捕获设备370(一个或多个任选的面向内部和/或面向外部的图像传感器)、存储器320以及用于互连这些部件和各种其他部件的一条或多条通信总线304。

在一些具体实施中，一条或多条通信总线304包括互连和控制系统部件之间的通信的电路。在一些具体实施中，一个或多个I/O设备和传感器306包括惯性测量单元(IMU)、加速度计、陀螺仪、磁力仪、温度计、一个或多个生理传感器(例如，血压监测仪、心率监测仪、血氧饱和度监测仪、血糖监测仪等)、一个或多个麦克风、一个或多个扬声器、触觉引擎、加热和/或冷却单元、皮肤剪切引擎、一个或多个深度传感器(例如，结构化光、飞行时间、LiDAR等)、定位和映射引擎、眼睛跟踪引擎、身体/头部姿态跟踪引擎、手部/肢体/手指/四肢跟踪引擎、相机姿态跟踪引擎等中的至少一者。

在一些具体实施中，一个或多个显示器312被配置为向用户呈现XR环境。在一些具体实施中，一个或多个显示器312也被配置为向用户呈现平面视频内容(例如，与电视剧或电影相关联的二维或“平面”AVI、FLV、WMV、MOV、MP4等文件，或物理环境105的实时视频透传)。在一些具体实施中，一个或多个显示器312对应于触摸屏显示器。在一些具体实施中，一个或多个显示器312对应于全息、数字光处理(DLP)、液晶显示器(LCD)、硅上液晶(LCoS)、有机发光场效应晶体管(OLET)、有机发光二极管(OLED)、表面传导电子发射器显示器(SED)、场发射显示器(FED)、量子点发光二极管(QD-LED)、微机电系统(MEMS)和/或相似显示器类型。在一些具体实施中，一个或多个显示器312对应于衍射、反射、偏振、全息等波导显示器。例如，电子设备120包括单个显示器。又如，电子设备120包括针对用户的每只眼睛的显示器。在一些具体实施中，一个或多个显示器312能够呈现AR和VR内容。在一些具体实施中，一个或多个显示器312能够呈现AR或VR内容。

在一些具体实施中，图像捕获设备370对应于一个或多个RGB相机(例如，具有互补金属氧化物半导体(CMOS)图像传感器或电荷耦合器件(CCD)图像传感器)、IR图像传感器、基于事件的相机等。在一些具体实施中，图像捕获设备370包括透镜组件、光电二极管和前端架构。在一些具体实施中，图像捕获设备370包括面向外部和/或面向内部的图像传感器。

存储器320包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备。在一些具体实施中，存储器320包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存存储器设备或其他非易失性固态存储设备。存储器320任选地包括远离一个或多个处理单元302定位的一个或多个存储设备。存储器320包括非暂态计算机可读存储介质。在一些具体实施中，存储器320或者存储器320的非暂态计算机可读存储介质存储下述程序、模块和数据结构或者它们的子集，其中包括可选的操作系统330和呈现引擎340。

操作系统330包括用于处理各种基础系统服务和用于执行硬件相关任务的过程。在一些具体实施中，呈现引擎340被配置为经由一个或多个显示器312向用户呈现媒体项和/或XR内容。为此，在各种具体实施中，呈现引擎340包括数据获取器342、呈现器470、交互处理程序420和数据传输器350。

在一些具体实施中，数据获取器342被配置为从电子设备120的I/O设备和传感器306、控制器110以及远程输入设备中的至少一者获取数据(例如，呈现数据，诸如与用户界面或XR环境相关联的经渲染的图像帧、输入数据、用户交互数据、头部跟踪信息、相机姿态跟踪信息、眼睛跟踪信息、手部/肢体/手指/四肢跟踪信息、传感器数据、位置数据等)。为此，在各种具体实施中，数据获取器342包括指令和/或用于这些指令的逻辑，以及启发法和用于该启发法的元数据。

在一些具体实施中，交互处理程序420被配置为检测指向所呈现的A/V内容和/或XR内容的用户交互(例如，经由手部/四肢跟踪检测的手势输入、经由眼睛跟踪检测的眼睛注视输入、语音命令、触摸输入等)。为此，在各种具体实施中，交互处理程序420包括指令和/或用于这些指令的逻辑部件以及启发法和用于该启发法的元数据。

在一些具体实施中，呈现器470被配置为经由一个或多个显示器312呈现和更新A/V内容和/或XR内容(例如，与用户界面或XR环境128相关联的经渲染的图像帧，包括VA、XR内容、与XR内容相关联的一个或多个UI元素等)。为此，在各种具体实施中，呈现器470包括指令和/或用于这些指令的逻辑部件以及启发法和用于该启发法的元数据。

在一些具体实施中，数据传输器350被配置为至少向控制器110传输数据(例如，呈现数据、位置数据、用户交互数据、头部跟踪信息、相机姿态跟踪信息、眼睛跟踪信息、手部/肢体/手指/四肢跟踪信息等)。为此，在各种具体实施中，数据传输器350包括指令和/或用于这些指令的逻辑，以及启发法和用于该启发法的元数据。

尽管数据获取器342、交互处理程序420、呈现器470和数据传输器350被示出为驻留在单个设备(例如，电子设备120)上，但应当理解，在其他具体实施中，数据获取器342、交互处理程序420、呈现器470和数据传输器350的任何组合可以位于单独的计算设备中。

此外，图3更多地用作可存在于特定具体实施中的各种特征部的功能描述，而不是本文所述的具体实施的结构示意。如本领域的普通技术人员将认识到的，单独显示的项目可以组合，并且一些项目可以分开。例如，图3中单独示出的一些功能模块可以在单个模块中实现，并且单个功能块的各种功能可在各种具体实施中通过一个或多个功能块来实现。模块的实际数量和特定功能的划分以及如何在其中分配特征将根据具体实施而变化，并且在一些具体实施中，部分地取决于为特定实施方案选择的硬件、软件和/或固件的特定组合。

图4A是根据一些具体实施的示例性内容递送架构的第一部分400A的框图。尽管示出了相关特征，但本领域的普通技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的示例性具体实施的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，内容递送架构包括在计算系统中，诸如图1和图2所示的控制器110；图1和图3所示的电子设备120；和/或它们的合适组合。

如图4A所示，控制器110、电子设备120和/或它们的组合的一个或多个本地传感器402获取与物理环境105相关联的本地传感器数据403。例如，本地传感器数据403包括物理环境105的图像或其流、物理环境105的同时定位与地图构建(SLAM)信息以及电子设备120或用户149相对于物理环境105的位置、物理环境105的环境照明信息、物理环境105的环境音频信息、物理环境105的声学信息、物理环境105的维度信息、物理环境105内的对象的语义标签等。在一些具体实施中，本地传感器数据403包括未处理的或后处理的信息。

类似地，如图4A所示，与物理环境105内的可选远程输入设备相关联的一个或多个远程传感器404获取与物理环境105相关联的远程传感器数据405。例如，远程传感器数据405包括物理环境105的图像或其流、物理环境105的SLAM信息以及电子设备120或用户149相对于物理环境105的位置、物理环境105的环境照明信息、物理环境105的环境音频信息、物理环境105的声学信息、物理环境105的维度信息、物理环境105内的对象的语义标签等。在一些具体实施中，远程传感器数据405包括未处理的或后处理的信息。

如图4A所示，跟踪数据401由控制器110、电子设备120等中的至少一者获取，以便定位和跟踪物理环境105内的一个或多个物理对象。作为一个示例，跟踪数据401包括由电子设备120的面向外部的图像传感器捕获的物理环境105的图像或其流，该物理环境包括一个或多个物理对象。作为另一示例，跟踪数据401对应于一个或多个物理对象的来自集成传感器的IMU信息、加速度计信息、陀螺仪信息、磁力仪信息等。

根据一些具体实施，隐私架构408摄取本地传感器数据403、远程传感器数据405和跟踪数据401。在一些具体实施中，隐私架构408包括与用户信息和/或标识信息相关联的一个或多个隐私过滤器。在一些具体实施中，隐私架构408包括选择加入特征部，其中电子设备120通知用户149正在监视哪些用户信息和/或标识信息以及将如何使用这些用户信息和/或标识信息。在一些具体实施中，隐私架构408选择性地防止和/或限制内容递送架构400A/400B或其部分获取和/或传输用户信息。为此，隐私架构408响应于提示用户149进行用户偏好和/或选择来接收来自用户149的用户偏好和/或选择。在一些具体实施中，隐私架构408防止内容递送架构400A/400B获取和/或传输用户信息，除非并且直到隐私架构408从用户149获取到知情同意。在一些具体实施中，隐私架构408匿名化(例如，加扰、模糊化、加密等)某些类型的用户信息。例如，隐私架构408接收指定隐私架构408将哪些类型的用户信息匿名化的用户输入。作为另一示例，隐私架构408独立于用户指定(例如，自动地)匿名化可能包括敏感和/或标识信息的某些类型的用户信息。

根据一些具体实施，对象跟踪引擎410在跟踪数据401已经过隐私架构408处理之后获取该跟踪数据。在一些具体实施中，对象跟踪引擎410基于跟踪数据401来确定/生成对象跟踪向量411，并且随时间推移而更新对象跟踪向量411。

图4B示出了根据一些具体实施的对象跟踪向量411的示例性数据结构。如图4B所示，对象跟踪向量411可对应于N-元组表征向量或表征张量，其包括时间戳471(例如，对象跟踪向量411最近更新的时间)、一个或多个物理对象的一个或多个平移值472(例如，相对于物理环境105、整个世界等的x、y和z值)、一个或多个物理对象的一个或多个旋转值474(例如，翻滚、俯仰和偏航值)、与一个或多个物理对象相关联的一个或多个压力值476(例如，与相应物理对象的端部和表面之间的接触相关联的第一压力值、与在由用户149抓握时施加于相应物理对象的主体上的压力的量相关联的第二压力值等)、任选的触摸输入信息478(例如，与指向一个或多个物理对象的用户触摸输入相关联的信息)和/或杂项信息479。本领域的普通技术人员将理解，图5B中的对象跟踪向量411的数据结构仅仅是一个示例，该示例可在各种其他具体实施中包括不同的信息部分，并且可在各种其他具体实施中以多种方式被构造。

根据一些具体实施，眼睛跟踪引擎412在经受隐私架构408之后获取本地传感器数据403和远程传感器数据405。在一些具体实施中，眼睛跟踪引擎412基于输入数据来获取(例如，接收、检索或确定/生成)眼睛跟踪向量413并且随时间推移而更新眼睛跟踪向量413。

图4B示出了根据一些具体实施的用于眼睛跟踪向量413的示例性数据结构。如图4B所示，眼睛跟踪向量413可以对应于N-元组表征向量或表征张量，其包括时间戳481(例如，眼睛跟踪向量413最近更新的时间)、当前注视方向的一个或多个角度值482(例如，翻滚、俯仰和偏航值)、当前注视方向的一个或多个平移值484(例如，相对于物理环境105、整个世界等的x、y和z值)和/或杂项信息486。本领域的普通技术人员将理解，图4B中的眼睛跟踪向量413的数据结构仅仅是一个示例，该示例可以在各种其他具体实施中包括不同的信息部分，并且可以在各种其他具体实施中以多种方式被构造。

例如，注视方向指示用户149当前正在查看的物理环境105中的点(例如，与相对于物理环境105或整个世界的x坐标、y坐标和z坐标相关联)、物理对象或感兴趣区域(ROI)。作为另一示例，注视方向指示用户149当前正在查看的XR环境128中的点(例如，与相对于XR环境128的x坐标、y坐标和z坐标相关联)、XR对象或感兴趣区域(ROI)。

根据一些具体实施，身体/头部/四肢姿态跟踪引擎414在本地传感器数据403和远程传感器数据405已经过隐私架构408处理之后获取该本地传感器数据和该远程传感器数据。在一些具体实施中，身体/头部/四肢姿态跟踪引擎414基于输入数据来获取(例如，接收、检索或确定/生成)姿态表征向量415并且随时间推移而更新姿态表征向量415。

图4B示出了根据一些具体实施的用于姿态表征向量415的示例性数据结构。如图4B所示，姿态表征向量415可以对应于N-元组表征向量或表征张量，其包括时间戳491(例如，姿态表征向量415最近更新的时间)、头部姿态描述符492A(例如，向上、向下、中性等)、头部姿态的平移值492B、头部姿态的旋转值492C、身体姿态描述符494A(例如，站立、坐着、俯卧等)、身体部位/四肢/肢体/关节的平移值494B、身体部位/四肢/肢体/关节的旋转值494C和/或杂项信息496。在一些具体实施中，姿态表征向量415还包括与手指/手部/四肢跟踪相关联的信息。本领域的普通技术人员将理解，图4B中的姿态表征向量415的数据结构仅仅是一个示例，该示例可以在各种其他具体实施中包括不同的信息部分，并且可以在各种其他具体实施中以多种方式被构造。根据一些具体实施，运动状态向量411、眼睛跟踪向量413和姿态表征向量415被统称为输入向量419。

根据一些具体实施，表征引擎418获取对象跟踪向量411、眼睛跟踪向量413和姿态表征向量415。在一些具体实施中，表征引擎418基于对象跟踪向量411、眼睛跟踪向量413和姿态表征向量415来获取(例如，接收、检索或确定/生成)表征向量419。

图4B示出了根据一些具体实施的用于表征向量419的示例性数据结构。如图4B所示，表征向量419可对应于N-元组表征向量或表征张量，其包括时间戳4101(例如，表征向量419最近更新的时间)、对象跟踪信息4102(例如，基于正由控制器110、电子设备120和/或它们的组合跟踪的一个或多个物理对象的对象跟踪向量411内的平移值472和旋转值474)、注视方向信息4104(例如，基于眼睛跟踪向量413内的一个或多个角度值482和一个或多个平移值484)、头部姿态信息4106A(例如，头部姿态描述符492A)、身体姿态信息4106B(例如，基于姿态表征向量415内的身体姿态描述符494A)、四肢跟踪信息4106C(例如，基于与正由控制器110、电子设备120和/或它们的组合跟踪的用户149的四肢相关联的姿态表征向量415内的身体姿态描述符494A)、位置信息4108(例如，家庭位置(诸如厨房或客厅)、车辆位置(诸如汽车、飞机等)等)和/或杂项信息4109。

图4C是根据一些具体实施的示例性内容递送架构的第二部分400B的框图。尽管示出了相关特征，但本领域的普通技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的示例性具体实施的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，内容递送架构包括在计算系统中，诸如图1和图2所示的控制器110；图1和图3所示的电子设备120；和/或它们的合适组合。图4C类似于图4A并且改编自图4A。因此，图4A和图4C中使用了类似的参考标号。因此，为了简明起见，下文仅描述图4A和图4C之间的差异。

在一些具体实施中，图像捕获设备370经由一个或多个面向外部的图像传感器来捕获物理环境105的图像流435。在一些具体实施中，确定器248获取图像流435并且确定(439)平面检测器440是否应当以初始化模式操作。例如，如果平面检测器440尚未检测到/标识出物理环境的初始平面集合，则确定器248确定平面检测器440应当以初始化模式操作(“是”分支)。继续该示例，如果平面检测器440已检测到/标识出物理环境的初始平面集合，则确定器248确定平面检测器440不应当以初始化模式操作(“否”分支)。

在一些具体实施中，平面检测器440根据平面检测器440应当以初始化模式操作的确定来检测/标识物理环境内的初始平面集合441(例如，与时间T相关联)。在一些具体实施中，平面检测器440根据平面检测器440不应当以初始化模式操作的确定来检测/标识物理环境内的当前平面集合443(例如，与时间T+1相关联)。例如，初始平面集合441和当前平面集合443可包括竖直平面、水平平面、倾斜平面等。

在一些具体实施中，比较器444将初始平面集合441与当前平面集合443进行比较，并且在当前平面集合443包括不被包括在初始平面集合441中的一个或多个平面时输出指示符447。在一些具体实施中，确定器248从比较器444获取输出并且确定(445)该输出是否包括指示符447。例如，如果来自比较器444的输出包括指示符447(“是”分支)，则确定器248将指示符447提供给内容管理器430。继续该示例，如果来自比较器444的输出不包括指示符447(“否”分支)，则确定器248循环回到确定(439)。

在一些具体实施中，交互处理程序420获取(例如，接收、检索或检测)由用户149提供的一个或多个用户输入421，该一个或多个用户输入同与A/V内容、XR环境128、XR环境128内的一个或多个VA和/或XR环境128内的XR内容的交互相关联。在一些具体实施中，交互处理程序420获取(例如，接收、检索或检测)由用户149提供的一个或多个用户输入421(例如，指向XR环境128内的XR内容或VA的旋转和/或平移移动)，该一个或多个用户输入与修改或操纵XR环境128内的XR内容或VA相关联。在一些具体实施中，交互处理程序420获取(例如，接收、检索或检测)由用户149提供的一个或多个用户输入421，该一个或多个用户输入与在XR环境128内创建标记和/或内容相关联。例如，一个或多个用户输入421对应于经由手部/四肢跟踪检测的手势输入、经由眼睛跟踪检测的眼睛注视输入、经由麦克风检测的语音命令等。

在一些具体实施中，内容管理器430基于表征向量419、添加到物理环境105的一个或多个平面的指示447、(任选地)用户输入421等来管理和更新XR环境128的布局、设置、结构等，该XR环境包括VA、XR内容、与XR内容相关联的一个或多个UI元素等中的一者或多者。为此，内容管理器430包括帧缓冲器434、内容更新器436和反馈引擎438。

在一些具体实施中，缓冲器434包括针对一个或多个过去实例和/或帧的XR内容、经渲染的图像帧、与初始平面集合441相关联的信息、与当前平面集合443相关联的信息等。在一些具体实施中，内容更新器436基于表征向量419、与修改和/或操纵XR环境128内的XR内容或VA相关联的用户输入421、物理环境105内的对象的平移或旋转移动、电子设备120(或用户149)的平移或旋转移动等来随时间推移而修改XR环境128。在一些具体实施中，反馈引擎438生成与XR环境128相关联的感官反馈(例如，视觉反馈(诸如文本或照明变化)、音频反馈、触觉反馈等)。

根据一些具体实施，姿态确定器452至少部分地基于姿态表征向量415来确定电子设备120和/或用户149相对于XR环境128和/或物理环境105的当前相机姿态。在一些具体实施中，渲染器454根据相对于其的当前相机姿态，渲染VA、XR内容427、与XR内容相关联的一个或多个UI元素等。

根据一些具体实施，任选的图像处理架构462从图像捕获设备370获取图像流435，该图像流包括来自电子设备120和/或用户149的当前相机姿态的物理环境105的一个或多个图像。在一些具体实施中，图像处理架构462还对图像流435执行一个或多个图像处理操作，诸如扭曲、颜色校正、γ校正、锐化、降噪、白平衡等。在一些具体实施中，任选的合成器464将经渲染的XR内容与来自图像处理架构462的物理环境105的经处理的图像流合成，以产生XR环境128的经渲染的图像帧。在各种具体实施中，呈现器470经由一个或多个显示器312向用户149呈现XR环境128的经渲染的图像帧。本领域的普通技术人员将理解，任选的图像处理架构462和任选的合成器464可能不适用于完全虚拟环境(或光学透传场景)。

图5A至图5T示出了根据一些具体实施的内容递送场景的实例510至5200的序列。尽管示出了一些具体特征，但本领域的技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的具体实施的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，实例510至5200的序列由计算系统渲染和呈现，该计算系统为诸如图1和图2所示的控制器110；图1和图3所示的电子设备120；和/或它们的合适组合。

如图5A至图5T所示，内容递送场景包括物理环境105和呈现在电子设备120的显示器122上(例如，与用户149相关联)的XR环境128。当用户149物理地存在于物理环境105内时，电子设备120向用户149呈现XR环境128，该物理环境包括当前位于电子设备120的面向外部的图像传感器的FOV 111内的桌子107和门115。因此，在图5A至图5T中的一些图中，用户149将电子设备120握持在其右手152中，类似于图1中的操作环境100。

换句话讲，在一些具体实施中，电子设备120被配置为在显示器122上呈现XR内容，并且实现物理环境105的至少一部分的光学透传或视频透传(例如，在电子设备120的FOV111内的桌子107的表示108和门115的表示116)。例如，电子设备120对应于移动电话、平板电脑、膝上型电脑、近眼系统、可穿戴计算设备等。

如图5A所示，在内容递送场景的实例510(例如，与时间T₁相关联)期间，电子设备120呈现XR环境128，该XR环境包括虚拟代理(VA)506、电子设备120的FOV 111内的桌子107的表示108、以及电子设备120的FOV 111内的门115的表示116。此外，电子设备120检测/标识物理环境105内的初始平面集合，该初始平面集合包括桌子107的表面、门115、物理环境105的墙壁和物理环境105的地板。

图5B至图5D示出了电子设备120响应于检测到物理环境105内的第一物理平面而在XR环境128内呈现第一XR表面532的序列。如图5B所示，在内容递送场景的实例520(例如，与时间T₂相关联)期间，电子设备120在电子设备120的FOV 111内检测到用户149的左手150，其中用户149的左手150的手掌正面向电子设备120的面向外部的图像传感器。如图5B所示，在实例520期间，电子设备120还在XR环境128内呈现用户149的左手150的表示151。此外，电子设备120检测/标识物理环境105内的当前平面集合，该当前平面集合包括桌子107的表面、门115、物理环境105的墙壁、物理环境105的地板以及用户149的左手150的手掌。因此，相比于图5A中的初始平面集合(例如，与时间T₁相关联)，图5B中的当前平面集合(例如，与时间T₂相关联)包括至少一个附加平面(例如，用户149的左手150的手掌)。

如图5C所示，在内容递送场景的实例530(例如，与时间T₃相关联)期间，电子设备120响应于检测到/标识出图5B中的相比于图5A中的初始平面集合的至少一个附加平面(例如，用户149的左手150的手掌)而在第一位置处呈现与用户149的左手150的表示151共面的第一XR表面532。如图5D所示，在内容递送场景的实例540(例如，与时间T₄相关联)期间，电子设备120在检测到用户149的左手150从电子设备120的FOV 111移除之后维持第一XR表面532在第一位置处的呈现。在一些具体实施中，如图5B至图5D所示，在用户149的左手150从FOV 111移除之后，第一XR表面532保持在适当位置。在各种具体实施中，第一XR表面532可跟随用户149的左手150，直到电子设备120检测到输入(例如，触摸输入、语音输入、手部/四肢跟踪输入等)，此时第一XR表面532被锁定在适当位置。

图5E和图5F示出了电子设备120响应于检测到利用控制设备552指向第一XR表面532的标记输入554(例如，直接标记输入)而在XR环境128内的第一XR表面532上呈现标记562的序列。如图5E所示，在内容递送场景的实例550(例如，与时间T₅相关联)期间，电子设备120经由对象跟踪和/或手部/四肢跟踪来检测利用控制设备552的标记输入554。例如，控制设备552对应于与控制器110和/或电子设备120通信的触笔等。例如，控制设备552包括一个或多个处理器、非暂态存储器、通信接口、触敏表面、一个或多个集成压力传感器、磁力仪、加速度计、IMU、陀螺仪等。如图5E所示，电子设备120还在XR环境128内呈现正由用户149的左手150的表示151以写入抓持姿态握持的控制设备552的表示553。在图5E中，控制设备552的表示553指向XR环境128内的第一XR表面532。

如图5F所示，在内容递送场景的实例560(例如，与时间T₆相关联)期间，电子设备120响应于检测到图5E中的标记输入554而在第一XR表面532上呈现标记562。例如，标记562的形状、深度、长度、角度等对应于标记输入554的空间参数(例如，与标记输入相关联的位置值、旋转值、位移、空间加速度、空间速度、角加速度、角速度等)。

图5F和图5G示出了电子设备120响应于经由手部/四肢跟踪检测到操纵输入564而在XR环境128内平移第一XR表面532的序列。如图5F所示，在内容递送场景的实例560(例如，与时间T₆相关联)期间，电子设备120还经由手部/四肢跟踪来检测利用用户149的左手150的操纵输入564。如图5G所示，在内容递送场景的实例570(例如，与时间T₇相关联)期间，电子设备120响应于检测到图5F中的操纵输入564而将第一XR表面532从第一位置平移到XR环境128内的第二位置。例如，XR环境128内的第一XR表面532的平移移动的方向性和位移对应于图5F中的操纵输入564的空间参数(例如，位置值的变化、旋转值的变化、位移、空间加速度、空间速度、角加速度、角速度等)。本领域的普通技术人员将理解，第一XR表面532可类似地旋转。

图5G至图5I示出了电子设备120响应于检测到物理环境105内的第二物理平面而在XR环境128内呈现第二XR表面582的序列。如图5G所示，在内容递送场景的实例570(例如，与时间T₇相关联)期间，电子设备120在电子设备120的FOV 111内还检测到正由用户149的左手150握持的便笺簿572。如图5G所示，电子设备120还在XR环境128内呈现正由用户149的左手150的表示151握持的便笺簿572的表示573。此外，电子设备120检测/标识物理环境105内的当前平面集合，该当前平面集合包括桌子107的表面、门115、物理环境105的墙壁、物理环境105的地板以及便笺簿572。因此，相比于图5A中的初始平面集合(例如，与时间T₁相关联)或图5F中的与先前时间段相关联的平面集合，图5G中的当前平面集合(例如，与时间T₇相关联)包括至少一个附加平面(例如，便笺簿572)。

如图5H所示，在内容递送场景的实例580(例如，与时间T₈相关联)期间，电子设备120响应于检测到/标识出相比于图5A中的初始平面集合或图5F中的与先前时间段相关联的平面集合的至少一个附加平面(例如，便笺簿572)而在可在至少一个空间维度(例如，x、y和/或z)上相对于便笺簿572的表示573偏移的位置处呈现第二XR表面582。如图5H所示，电子设备120以纹理呈现第二XR表面582，以指示相比于第一XR表面532，第二XR表面582当前在XR环境128内被选择或聚焦。如图5I所示，在内容递送场景的实例590(例如，与时间T₉相关联)期间，电子设备120在检测到便笺簿572从电子设备120的FOV 111移除之后维持第二XR表面582在其初始位置处的呈现。本领域的普通技术人员将理解，对第二XR表面582的外观的视觉改变在各种其他具体实施中可以是不同的，诸如颜色变化、亮度变化、形状变化、添加的边框或边界、添加的辉光或高亮等。本领域的普通技术人员将理解，电子设备120可提供不同或附加内容以指示当前所选择的XR内容，诸如听觉反馈等。

在一些具体实施中，如图5G至图5I所示，在便笺簿572从FOV 111移除之后，第二XR表面582保持在适当位置。在各种具体实施中，第二XR表面582可跟随便笺簿572，直到电子设备120检测到输入(例如，触摸输入、语音输入、手部/四肢跟踪输入等)，此时第二XR表面582被锁定在适当位置。

图5I和图5J示出了电子设备120响应于检测到口述输入592而在XR环境128内的第二XR表面582上呈现文本5102的序列。如图5I所示，在内容递送场景的实例590(例如，与时间T₉相关联)期间，当第二XR表面582当前在XR环境128内被选择或聚焦时，电子设备120经由一个或多个麦克风来检测口述输入592(例如，语音命令、语音输入等)。例如，电子设备120基于一种或多种语音到文本技术来将口述输入592转换成文本。如图5J所示，在内容递送场景的实例5100(例如，与时间T₁₀相关联)期间，电子设备120响应于检测到图5I中的口述输入592而在第二XR表面582上呈现文本5102(例如，“Hello,world！”)。

图5J和图5K示出了电子设备120响应于检测到指向第一XR表面582的注视方向达至少预先确定的或非确定性时间段而在XR环境128内将焦点从第二XR表面532改变到第一XR表面532的序列。如图5J所示，在内容递送场景的实例5100(例如，与时间T₁₀相关联)期间，电子设备120还在第一XR表面531上呈现与用户149的注视方向5104相关联的指示符5106。在一个示例中，指示符5106对应于用户149的眼睛的焦点。在另一示例中，指示符5106对应于从用户149的眼睛发出的光线和第一XR表面532之间的重合点。在一些具体实施中，电子设备120在XR环境128内可视化用户149的注视方向5104。在一些具体实施中，电子设备120不在XR环境128内可视化用户149的注视方向5104。

根据一些具体实施，当注视方向5104指向相应XR内容达至少预先确定的时间段时，电子设备120将焦点选择或改变到相应XR内容。根据一些具体实施，当注视方向5104指向相应XR内容达至少非确定性时间段时，电子设备120将焦点选择或改变到相应XR内容，其中该非确定性时间段基于用户偏好、使用历史、频繁选择的XR内容、最近选择的XR内容和/或其他情境信息。本领域的普通技术人员将理解，可使用其他输入模态来在XR内容或XR对象之间选择或切换焦点，诸如触摸输入、语音命令/输入、手部/四肢跟踪等。

如图5K所示，在内容递送场景的实例5110(例如，与时间T₁₁相关联)期间，电子设备120从第二XR表面582移除纹理，并且响应于检测到用户149的注视方向5104指向第一XR表面532达至少预先确定的或非确定性时间段，以纹理呈现第一XR表面532以指示第一XR表面532当前在XR环境128内被选择或聚焦。

图5L至图5O示出了电子设备120响应于检测到物理环境105内的与便笺簿572相关联的平面并且根据物理代理对象5132突破相对于便笺簿572的表示573的预先确定的或非确定性距离阈值(在本文中也称为“接近条件”)的确定来在XR环境128内呈现XR表面5152的序列。如图5L所示，在内容递送场景的实例5120(例如，与时间T₁₂相关联)期间，电子设备120在电子设备120的FOV 111内检测到正由用户149的右手152握持的便笺簿572。如图5L所示，在实例5120期间，电子设备120还在XR环境128内呈现正由用户149的右手152的表示153握持的便笺簿572的表示573。

如图5M所示，在内容递送场景的实例5130(例如，与时间T₁₃相关联)期间，电子设备120经由对象跟踪和/或手部/四肢跟踪来在电子设备120的FOV 111内检测到正由用户149的左手150握持的物理代理对象5132。如图5M所示，在实例5130期间，电子设备120还在XR环境128内呈现正由用户149的左手150的表示151握持的物理代理对象5132的表示5133。在图5M中，由用户149的左手150握持的物理代理对象5132(或其表示)未能突破相对于便笺簿572的预先确定的或非确定性距离阈值5134(例如，围绕便笺簿572的Xcm半径)。换句话讲，在图5M中不满足接近条件。例如，物理代理对象5132对应于不与控制器110和/或电子设备120通信的标尺、棒状物等。继续该示例，控制器110和/或电子设备120经由利用一种或多种计算机视觉(CV)技术的对象跟踪来跟踪物理代理对象5132。作为另一示例，如果物理代理对象5132对应于具有集成IMU、磁力仪或其他传感器的触笔或电子手持设备，则控制器110和/或电子设备120可基于来自物理代理对象5132的传感器数据来定位物理代理对象5132。

如图5N所示，在内容递送场景的实例5140(例如，与时间T₁₄相关联)期间，电子设备120经由对象跟踪和/或手部/四肢跟踪来确定由用户149的左手150握持的物理代理对象5132突破相对于便笺簿572的预先确定的或非确定性距离阈值5134。换句话讲，在图5N中满足接近条件。如图5O所示，在内容递送场景的实例5150(例如，与时间T₁₅相关联)期间，电子设备120响应于检测到/标识出相比于图5A中的初始平面集合的至少一个附加平面(例如，便笺簿572)并且根据由用户149的左手150握持的物理代理对象5132(或其表示)在图5N中突破相对于便笺簿572的预先确定的或非确定性距离阈值5134的确定来在与便笺簿572的表示573基本上共面的位置处呈现XR表面5152。

图5P和图5Q示出了电子设备120呈现指示物理代理对象5132接触便笺簿572的反馈(例如，音频和视觉)的序列。如图5P所示，在内容递送场景的实例5160(例如，与时间T₁₆相关联)期间，电子设备120经由对象跟踪和/或手部/四肢跟踪来确定由用户149的左手150握持的物理代理对象5132接触便笺簿572。如图5Q所示，在内容递送场景的实例5170(例如，与时间T₁₇相关联)期间，电子设备120响应于确定由用户149的左手150握持的物理代理对象5132在图5P中接触便笺簿572而改变XR表面5152的外观(例如，从白色填充改变为纹理填充)。如图5Q所示，电子设备120还响应于确定由用户149的左手150握持的物理代理对象5132在图5P中接触便笺簿572而提供音频反馈5174。例如，音频反馈5174对应于指示由用户149的左手150握持的物理代理对象5132已接触便笺簿572的单个音调、多音调序列、歌曲、语音输出等。本领域的普通技术人员将理解，对XR表面5152的外观的视觉改变在各种其他具体实施中可以是不同的，诸如颜色变化、亮度变化、形状变化、添加的边框或边界、添加的辉光或高亮等。本领域的普通技术人员将理解，电子设备120可提供不同或附加反馈，诸如触觉反馈等。

图5Q和图5R示出了电子设备120在于电子设备120的FOV 111内检测到便笺簿572到桌子107的表面的平移移动5176之后维持XR表面5152在其初始位置处的呈现的序列。如图5Q所示，在内容递送场景的实例5170(例如，与时间T₁₇相关联)期间，电子设备120检测便笺簿572到桌子107的表面的平移移动5176。如图5R所示，在内容递送场景的实例5180(例如，与时间T₁₈相关联)期间，电子设备120在检测到图5Q中的便笺簿572的平移移动5176之后维持XR表面5152在其初始位置处的呈现。

在一些具体实施中，如图5Q和图5R所示，在便笺簿572移动到桌子107的表面之后，XR表面5152保持在适当位置。在各种具体实施中，XR表面5152可跟随便笺簿572，直到电子设备120检测到输入(例如，触摸输入、语音输入、手部/四肢跟踪输入等)，此时XR表面5152被锁定在适当位置。

图5R和图5S示出了电子设备120响应于检测到利用控制设备552指向便笺簿572的标记输入(例如，间接标记输入)而在XR环境128内的XR表面5152上呈现文本5192的序列。如图5R所示，在内容递送场景的实例5180(例如，与时间T₁₈相关联)期间，电子设备120还经由对象跟踪和/或手部/四肢跟踪来检测利用控制设备552指向便笺簿572的标记输入。如图5R所示，电子设备120还在XR环境128内呈现正由用户149的左手150的表示151以写入抓持姿态握持的控制设备552的表示553。在图5R中，控制设备552的表示553指向XR环境128内的便笺簿572的573的表示。

如图5S所示，在内容递送场景的实例5190(例如，与时间T₁₉相关联)期间，电子设备120响应于检测到图5R中的标记输入而在XR表面5152上呈现文本5192(例如，“Hello,world！”)。例如，电子设备120基于光学字符识别技术等来将用户149在便笺簿572上做出的写入转换为文本。

图5S和图5T示出了电子设备120响应于检测到指向XR表面5152的操纵输入5194(例如，撕开手势)而呈现第一XR表面5152A和第二XR表面5152B的序列。如图5S所示，在内容递送场景的实例5190(例如，与时间T₁₉相关联)期间，电子设备120还经由手部/四肢跟踪来检测利用用户149的右手152的表示153指向XR表面5152的操纵输入5194。例如，操纵输入5194对应于类似于从其簿剥离顶部粘性便签或从其簿撕下纸张的拉和撕手势。

如图5T所示，在内容递送场景的实例5200(例如，与时间T₂₀相关联)期间，电子设备120响应于检测到图5S中的指向XR表面5152的操纵输入5194而呈现包括文本5192的第一XR表面5152A和第二XR表面5152B。在一些具体实施中，电子设备120还呈现与操纵输入5194相关联的动画，类似于从粘性便签簿剥离顶部粘性便签或从便笺簿撕下纸张。如图5T所示，电子设备120以纹理呈现第一XR表面5152A，以指示相比于第二XR表面5152B，第一XR表面5152A当前在XR环境128内被选择或聚焦。

图6A和图6B示出了根据一些具体实施的调用XR表面的方法600的流程图表示。在各种具体实施中，方法600在包括非暂态存储器和一个或多个处理器的计算系统处执行，其中该计算系统通信地耦接到显示设备、一个或多个面向外部的图像传感器和一个或多个输入设备(例如，图1和图3所示的电子设备120；图1和图2中的控制器110；或它们的合适组合)。在一些具体实施中，方法600由处理逻辑部件(包括硬件、固件、软件或其组合)执行。在一些具体实施中，方法600由执行存储在非暂态计算机可读介质(例如，存储器)中的代码的处理器执行。在一些具体实施中，计算系统对应于平板电脑、膝上型电脑、移动电话、近眼系统、可穿戴计算设备等中的一者。在一些具体实施中，一个或多个输入设备对应于使用来自一个或多个面向外部的图像传感器的图像流的计算机视觉(CV)引擎、对象跟踪引擎、头部/身体姿态跟踪引擎、手指/手部/四肢跟踪引擎、眼睛跟踪引擎、触敏表面、一个或多个麦克风等。

如上所讨论，用户可通过启动适当的应用程序来调用便签或空白文本输入文档。然而，应用程序启动过程可包括可使用户从其工作流程分心的若干步骤。因此，在各种具体实施中，用户可通过简单地将物理平坦表面诸如便笺簿或用户的手掌保持在面向外部的图像传感器的视场内来调用写入表面。

如框602所表示，方法600包括：检测物理环境的图像流内的物理平面，其中该图像流与一个或多个面向外部的图像传感器的视场(FOV)相关联。在一些具体实施中，计算系统或其部件(例如，图2和图4C中的平面检测器440)使用平面检测和/或对象识别来检测物理环境内的物理平面。作为一个示例，用户将物理平面保持在相对于物理环境的空间中的FOV内。例如，物理平面对应于用户的手掌、纸张、拍纸簿、剪贴板、书本等。在一些具体实施中，计算系统获取(例如，接收、检索或捕获)物理环境的图像流。在一些具体实施中，物理平面先前未呈现在面向外部的图像传感器的FOV内。

例如，参考图5B，电子设备120在电子设备120的FOV 111内检测到用户149的左手150，其中用户149的左手150的手掌正面向电子设备120的面向外部的图像传感器。如图5B所示，在实例520期间，电子设备120还在XR环境128内呈现用户149的左手150的表示151。此外，电子设备120检测/标识物理环境105内的当前平面集合，该当前平面集合包括桌子107的表面、门115、物理环境105的墙壁、物理环境105的地板以及用户149的左手150的手掌。因此，相比于图5A中的初始平面集合(例如，与时间T₁相关联)，图5B中的当前平面集合(例如，与时间T₂相关联)包括至少一个附加平面(例如，用户149的左手150的手掌)。

在一些具体实施中，物理平面对应于(604)在物理环境内检测到的纸张、便笺簿、剪贴板、人的手掌或书本中的一者。作为一个示例，图5B和图5C示出了电子设备120响应于检测到物理环境105内的与用户149的左手150的手掌相对应的第一物理平面而在XR环境128内呈现第一XR表面532的序列。作为另一示例，图5G和图5H示出了电子设备120响应于检测到物理环境105内的与正由用户149的左手150握持的便笺簿572相对应的第二物理平面而在XR环境128内呈现第二XR表面582的序列。

如框606所表示，响应于检测到图像流内的物理平面，方法600包括：获取(例如，接收、检索或确定)物理平面的姿态值(例如，平移值和旋转值)；以及在第一位置处呈现被提供为经由显示设备呈现标记的扩展现实(XR)表面，其中该第一位置基于物理平面的姿态值。在一些具体实施中，计算系统或其部件(例如，图2和图4A中的对象跟踪引擎510)获取(例如，接收、检索或确定)物理平面的姿态值。在一些具体实施中，计算系统或其部件(例如，图2和图4C中的渲染引擎450)基于物理平面的姿态值来在XR环境内的第一位置处呈现XR表面。因此，根据一些具体实施，计算系统包括用于检测图像流内的平面并且随后经由CV等以六个自由度(6DOF)跟踪所检测的平面的逻辑部件。作为一个示例，XR表面与物理平面共面。作为另一示例，XR表面可在至少一个平移维度上从物理平面偏移Xcm。作为又一示例，XR表面可在至少一个旋转维度上从物理平面偏移Y°。

作为一个示例，图5B和图5C示出了电子设备120响应于检测到物理环境105内的与用户149的左手150的手掌相对应的第一物理平面而在XR环境128内呈现第一XR表面532的序列。作为另一示例，图5G和图5H示出了电子设备120响应于检测到物理环境105内的与正由用户149的左手150握持的便笺簿572相对应的第二物理平面而在XR环境128内呈现第二XR表面582的序列。

在一些具体实施中，显示设备对应于透明透镜组件，并且其中XR表面被投影到透明透镜组件上。在一些具体实施中，显示设备对应于近眼系统，并且其中呈现XR表面包括将XR表面与由一个或多个面向外部的图像传感器捕获的物理环境的一个或多个图像合成。

在一些具体实施中，XR表面与物理平面共面(608)。在一些具体实施中，XR表面的空间维度(例如，深度、高度和宽度)基于物理平面的维度。作为一个示例，XR表面和物理平面具有相同的空间维度。在另一示例中，相比于物理平面，XR表面具有至少一个更大的空间维度。在又一示例中，相比于物理平面，XR表面具有至少一个更小的空间维度。例如，参考图5C，电子设备120在与用户149的左手150的表示151共面的位置处呈现第一XR表面532。

在一些具体实施中，XR表面是(610)基本上平坦的，并且XR表面可在至少一个空间维度上相对于物理平面偏移。作为一个示例，XR表面可在x、y和/或z维度上相对于物理平面偏移Xcm。例如，参考图5H，电子设备120在可在至少一个空间维度(例如，x、y和/或z)上相对于便笺簿572的表示573偏移的位置处呈现第二XR表面582。

如框612所表示，响应于物理平面的移动，方法600包括：维持XR表面在第一位置处的呈现。在一些具体实施中，计算系统或其部件(例如，图2和图4A中的对象跟踪引擎510)检测物理平面在物理环境105内的移动。作为一个示例，在物理平面在面向外部的图像传感器的FOV内移动之后，XR表面保持呈现在其初始位置处。例如，参考图5R，电子设备120在检测到图5Q中的便笺簿572的平移移动5176之后维持XR表面5152在其初始位置处的呈现。作为另一示例，在物理平面从面向外部的图像传感器的FOV撤回之后，XR表面保持呈现在其初始位置处。参考图5D，电子设备120在检测到用户149的左手150从电子设备120的FOV 111移除之后维持第一XR表面532在其初始位置处的呈现。

在一些具体实施中，方法600包括：检测物理平面到物理环境内的第二位置的移动(例如，第二位置与物理平面相对于物理环境内的物理表面的共面取向相对应)；在检测到物理平面到第二位置的移动之后：维持XR表面在第一位置处的呈现；检测指向物理平面的标记输入；以及响应于检测到标记输入，基于标记输入的空间参数来在XR表面上呈现一个或多个标记。例如，物理表面对应于在一个或多个面向外部的图像传感器的FOV内的桌面、书桌、工作台面等。例如，用户将其手掌放到桌面上并且继续在其上写入，或者替代地在桌面上写入。

例如，图5Q和图5R示出了电子设备120在于电子设备120的FOV 111内检测到便笺簿572到桌子107的表面的平移移动5176之后维持XR表面5152在其初始位置处的呈现的序列。在一些具体实施中，当FOV保持恒定时，计算系统检测物理平面到第二位置的移动。在一些具体实施中，标记输入对应于间接标记输入。在一些具体实施中，除在XR表面上呈现一个或多个标记之外，计算系统还呈现叠置在桌面或用户的手掌上的一个或多个标记。

在一些具体实施中，方法600包括：检测物理平面在一个或多个面向外部的图像传感器的FOV之外的移动；以及响应于检测到物理平面在一个或多个面向外部的图像传感器的FOV之外的移动，维持XR表面在第一位置处的呈现。例如，参考图5I，电子设备120在检测到便笺簿572从电子设备120的FOV 111移除之后维持第二XR表面582在第一位置处的呈现。

在一些具体实施中，如框614所表示，方法600包括：在呈现XR表面之后，检测指向XR表面的标记输入；以及响应于检测到标记输入，基于标记输入的空间参数来在XR表面上呈现一个或多个标记。根据一些具体实施，空间参数包括与标记输入相关联的位移、与标记输入相关联的平移坐标的变化、与标记输入相关联的旋转坐标的变化、与标记输入相关联的平移坐标的变化速率、与标记输入相关联的旋转坐标的变化速率等。在一些具体实施中，如框616所表示，方法600包括：根据标记输入的量值超过XR表面的至少一个空间维度的确定，随着一个或多个标记被呈现在XR表面上，在至少一个空间维度上扩展XR表面。

作为一个示例，图5E和图5F示出了电子设备120响应于检测到利用控制设备552(或其表示)指向第一XR表面532的标记输入554(例如，直接标记输入)而在XR环境128内的第一XR表面532上呈现标记562的序列。作为另一示例，图5R和图5S示出了电子设备120响应于检测到利用控制设备552指向便笺簿572的标记输入(例如，间接标记输入)而在XR环境128内的XR表面5152上呈现文本5192的序列。

在一些具体实施中，如框618所表示，方法600包括：在呈现XR表面之后，检测语音输入；以及响应于检测到语音输入：基于语音输入来生成文本；以及在XR表面上呈现文本。例如，图5I和图5J示出了电子设备120响应于检测到口述输入592而在XR环境128内的第二XR表面582上呈现文本5102的序列。

在一些具体实施中，如框620所表示，方法600包括：根据文本的字符计数使得文本超过XR表面的至少一个空间维度的确定，随着文本被呈现在XR表面上，在至少一个空间维度上扩展XR表面。在一些具体实施中，用户可基于注视方向、语音命令、指向手势、手部/四肢接近等来在第一XR表面和第二XR表面之间切换。例如，图5J和图5K示出了电子设备120响应于检测到指向第一XR表面532的注视方向达至少预先确定的或非确定性时间段而在XR环境128内将焦点从第二XR表面582改变到第一XR表面532的序列。

在一些具体实施中，如框622所表示，方法600包括：检测指向移动XR表面的操纵输入；以及响应于检测到操纵输入，通过在一个或多个维度上平移XR表面或旋转XR表面中的至少一者来修改XR表面。例如，图5F和图5G示出了电子设备120响应于经由手部/四肢跟踪检测到操纵输入564而在XR环境128内平移第一XR表面532的序列。

在一些具体实施中，如框624所表示，方法600包括：检测物理环境的图像流内的第二物理平面；响应于检测到图像流内的第二物理平面：确定第二物理平面的姿态值；并且在第二位置处呈现被提供为呈现标记的第二XR表面，其中第二位置基于第二物理平面的姿态值。例如，图5G至图5I示出了电子设备120响应于检测到物理环境105内的第二物理平面而在XR环境128内呈现第二XR表面582的序列。在一些具体实施中，用户能够基于注视方向、语音命令、指向手势、手部/四肢接近等来在第一XR表面和第二XR表面之间切换。

在一些具体实施中，方法600包括：在检测到该检测图像流内的物理平面之后，检测物理环境内的物理对象朝向物理平面的移动，并且其中响应于检测到图像流内的物理平面并且响应于检测到物理对象的移动，并且根据物理对象的移动使得物理对象突破相对于物理平面的距离阈值的确定，获取物理平面的姿态值并且在第一位置处呈现XR表面(例如，框606)。作为一个示例，物理对象对应于在物理环境内检测到的缺少到计算系统的通信信道的物理代理对象，诸如铅笔、钢笔等。作为另一示例，物理对象对应于具有到计算系统的有线或无线通信信道的电子设备，诸如触笔、手指可穿戴设备、手持设备等。在一些具体实施中，与物理对象朝向物理平面的移动相关联的基于接近度的确认输入被替换成基于在XR表面处的注视持续时间的确认输入。

在一些具体实施中，方法600包括：检测物理环境内的物理对象朝向物理平面的移动；响应于检测到物理对象的移动并且根据物理对象的移动使得物理对象突破相对于物理平面的距离阈值的确定，呈现与XR表面相关联的反馈；以及响应于检测到物理对象的移动并且根据物理对象的移动未使得物理对象突破相对于物理平面的距离阈值的确定，放弃呈现与XR表面相关联的反馈。作为一个示例，物理对象对应于在物理环境内检测到的缺少到计算系统的通信信道的物理代理对象，诸如铅笔、钢笔等。作为另一示例，物理对象对应于具有到计算系统的有线或无线通信信道的电子设备，诸如触笔、手指可穿戴设备、手持设备等。根据一些具体实施，反馈对应于XR表面准备好并且可供用于检测和呈现标记的至少一个视觉反馈、音频反馈、触觉反馈等，诸如通知或其他警报。在一些具体实施中，与物理对象朝向物理平面的移动相关联的基于接近度的确认输入被替换成基于在XR表面处的注视持续时间的确认输入。

在一些具体实施中，距离阈值对应于预定义距离值或基于当前情境信息的非确定性距离值。在一些具体实施中，距离阈值对应于Xcm的预定义距离。在一些具体实施中，距离阈值对应于基于平面的维度、平面和计算系统或用户之间的距离、情境信息等的非确定性值。

在一些具体实施中，物理对象对应于通信地耦接到计算系统的电子设备。例如，物理对象对应于手指可穿戴设备、可穿戴设备、触笔、手持设备等。在一些具体实施中，物理对象对应于不通信地耦接到计算系统的物理代理对象。例如，物理代理对象对应于钢笔、铅笔、标尺等。

在一些具体实施中，方法600包括：获取(例如，接收、检索或确定)物理对象的姿态值，其中检测物理对象的移动对应于检测对物理对象的平移值或旋转值中的一者的改变。在一些具体实施中，计算系统或其部件(例如，图2和图4A中的对象跟踪引擎510)经由CV、磁传感器等来跟踪物理对象。作为一个示例，物理对象对应于不具有到计算系统的通信信道的物理代理对象，诸如铅笔、钢笔等。作为另一示例，物理对象对应于具有到计算系统的有线或无线通信信道的电子设备，诸如触笔、手指可穿戴设备等，该电子设备包括用于6DOF跟踪的IMU、加速度计、磁力仪、陀螺仪等。在一些具体实施中，获取物理对象的姿态值包括：基于来自物理对象的IMU数据、包括物理对象的物理环境的一个或多个图像、磁跟踪数据等中的至少一者来确定物理对象的姿态值。

图7示出了根据一些具体实施的响应于检测到添加到物理环境的物理平面而调用XR表面的方法700的流程图表示。在各种具体实施中，方法700在包括非暂态存储器和一个或多个处理器的计算系统处执行，其中该计算系统通信地耦接到显示设备、一个或多个面向外部的图像传感器和一个或多个输入设备(例如，图1和图3所示的电子设备120；图1和图2中的控制器110；或它们的合适组合)。在一些具体实施中，方法700由处理逻辑部件(包括硬件、固件、软件或其组合)执行。在一些具体实施中，方法700由执行存储在非暂态计算机可读介质(例如，存储器)中的代码的处理器执行。在一些具体实施中，计算系统对应于平板电脑、膝上型电脑、移动电话、近眼系统、可穿戴计算设备等中的一者。在一些具体实施中，一个或多个输入设备对应于使用来自一个或多个面向外部的图像传感器的图像流的计算机视觉(CV)引擎、对象跟踪引擎、头部/身体姿态跟踪引擎、手指/手部/四肢跟踪引擎、眼睛跟踪引擎、触敏表面、一个或多个麦克风等。图7类似于并改编自图6A和图6B。因此，图6A、图6B和图7中使用了共同的参考标号，并且为了简明起见，本文仅描述差异。

如框702所表示，方法700包括：获取(例如，接收、检索或捕获)物理环境的图像流内的物理平面，其中图像流与一个或多个面向外部的图像传感器的视场(FOV)相关联。在一些具体实施中，计算系统或其部件(例如，图3和图4C中的图像捕获设备370)经由一个或多个面向外部的图像传感器来捕获物理环境105的图像流435。

如框704所表示，方法700包括：基于图像流来检测与物理环境相关联的初始平面集合。在一些具体实施中，计算系统或其部件(例如，图2和图4C中的平面检测器440)使用平面检测和/或对象识别来基于图像流435检测物理环境105内的初始平面集合。在一些具体实施中，计算系统基于图像流来生成物理环境的网格，并且基于该网格来检测与物理环境相关联的初始平面集合。

如框706所表示，方法700包括：检测图像流内的物理平面，其中所检测的物理平面不被包括在与物理环境相关联的初始平面集合之中。在一些具体实施中，计算系统或其部件(例如，图2和图4C中的平面检测器440)使用平面检测和/或对象识别来检测物理环境105内的当前平面集合，该当前平面集合包括不被包括在初始平面集合中的至少一个物理平面。

例如，参考图5B，电子设备120在电子设备120的FOV 111内检测到用户149的左手150，其中用户149的左手150的手掌正面向电子设备120的面向外部的图像传感器。因此，在图5B中，相比于图5A中的初始平面集合，电子设备120检测/标识至少一个附加平面(例如，用户149的左手150的手掌)。参考图5G，电子设备120在电子设备120的FOV 111内检测到正由用户149的左手150握持的便笺簿572。因此，在图5G中，电子设备120检测/标识相比于图5A中的初始平面集合或图5F中的与先前时间段相关联的平面集合的至少一个附加平面(例如，便笺簿572)。

如框606所表示，响应于检测到图像流内的物理平面，方法700包括：获取(例如，接收、检索或确定)物理平面的姿态值(例如，平移值和旋转值)；以及在第一位置处呈现被提供为经由显示设备呈现标记的扩展现实(XR)表面，其中该第一位置基于物理平面的姿态值。在一些具体实施中，计算系统或其部件(例如，图2和图4A中的对象跟踪引擎510)获取(例如，接收、检索或确定)物理平面的姿态值。在一些具体实施中，计算系统或其部件(例如，图2和图4C中的渲染引擎450)基于物理平面的姿态值来在XR环境内的第一位置处呈现XR表面。根据一些具体实施，当FOV保持恒定时，计算系统检测到用户将物理平面添加到场景，这继而触发XR表面的呈现。

如框612所表示，响应于物理平面的移动，方法700包括：维持XR表面在第一位置处的呈现。在一些具体实施中，计算系统或其部件(例如，图2和图4A中的对象跟踪引擎510)检测物理平面在物理环境105内的移动。例如，参考图5R，电子设备120在检测到图5Q中的便笺簿572的平移移动5176之后维持XR表面5152在其初始位置处的呈现。参考图5D，电子设备120在检测到用户149的左手150从电子设备120的FOV 111移除之后维持第一XR表面532在其初始位置处的呈现。

图8A和图8B示出了根据一些具体实施的响应于检测到添加到物理环境的物理平面并且根据满足接近条件的确定来调用XR表面的方法800的流程图表示。在各种具体实施中，方法800在包括非暂态存储器和一个或多个处理器的计算系统处执行，其中该计算系统通信地耦接到显示设备、一个或多个面向外部的图像传感器和一个或多个输入设备(例如，图1和图3所示的电子设备120；图1和图2中的控制器110；或它们的合适组合)。在一些具体实施中，方法800由处理逻辑部件(包括硬件、固件、软件或其组合)执行。在一些具体实施中，方法800由执行存储在非暂态计算机可读介质(例如，存储器)中的代码的处理器执行。在一些具体实施中，计算系统对应于平板电脑、膝上型电脑、移动电话、近眼系统、可穿戴计算设备等中的一者。在一些具体实施中，一个或多个输入设备对应于使用来自一个或多个面向外部的图像传感器的图像流的计算机视觉(CV)引擎、对象跟踪引擎、头部/身体姿态跟踪引擎、手指/手部/四肢跟踪引擎、眼睛跟踪引擎、触敏表面、一个或多个麦克风等。图8A和图8B类似于并改编自图6A、图6B和图7。因此，图6A、图6B、图7、图8A和图8B中使用了共同的参考标号，并且为了简明起见，本文仅描述差异。

如框702所表示，方法800包括：获取(例如，接收、检索或捕获)物理环境的图像流内的物理平面，其中图像流与一个或多个面向外部的图像传感器的视场(FOV)相关联。在一些具体实施中，计算系统或其部件(例如，图3和图4C中的图像捕获设备370)经由一个或多个面向外部的图像传感器来捕获物理环境105的图像流435。

如框704所表示，方法800包括：基于图像流来检测与物理环境相关联的初始平面集合。在一些具体实施中，计算系统或其部件(例如，图2和图4C中的平面检测器440)使用平面检测和/或对象识别来基于图像流435检测物理环境105内的初始平面集合。在一些具体实施中，计算系统基于图像流来生成物理环境的网格，并且基于该网格来检测与物理环境相关联的初始平面集合。

如框706所表示，方法800包括：检测图像流内的物理平面，其中所检测的物理平面不被包括在与物理环境相关联的初始平面集合之中。在一些具体实施中，计算系统或其部件(例如，图2和图4C中的平面检测器440)使用平面检测和/或对象识别来检测物理环境105内的当前平面集合，该当前平面集合包括不被包括在初始平面集合中的至少一个物理平面。

如框802所表示，方法800包括：检测物理环境内的物理对象朝向物理平面的移动。在一些具体实施中，计算系统或其部件(例如，图2和图4A中的对象跟踪引擎510)检测物理平面在物理环境105内的移动。

在一些具体实施中，方法800包括：获取(例如，接收、检索或确定)物理对象的姿态值(例如，平移值和旋转值)，其中检测物理对象的移动对应于检测对物理对象的平移值或旋转值中的一者的改变。在一些具体实施中，计算系统或其部件(例如，图2和图4A中的对象跟踪引擎510)经由CV、磁传感器等来跟踪物理对象。作为一个示例，物理对象对应于不具有到计算系统的通信信道的物理代理对象，诸如铅笔、钢笔等。作为另一示例，物理对象对应于具有到计算系统的有线或无线通信信道的电子设备，诸如触笔、手指可穿戴设备等，该电子设备包括用于6DOF跟踪的IMU、加速度计、磁力仪、陀螺仪等。在一些具体实施中，获取物理对象的姿态值包括：基于来自物理对象的IMU数据、包括物理对象的物理环境的一个或多个图像、磁跟踪数据等中的至少一者来确定物理对象的姿态值。

在一些具体实施中，如框804所表示，物理对象对应于通信地耦接到计算系统的电子设备。例如，物理对象对应于手指可穿戴设备、可穿戴设备、触笔、手持设备等。例如，参考图5E，电子设备120经由对象跟踪和/或手部/四肢跟踪来在电子设备120的FOV 111内检测到正由用户149的左手150握持的控制设备552。例如，控制设备552对应于与控制器110和/或电子设备120通信的触笔等。例如，控制设备552包括一个或多个处理器、非暂态存储器、通信接口、触敏表面、一个或多个集成压力传感器、磁力仪、加速度计、IMU、陀螺仪等。

在一些具体实施中，如框806所表示，物理对象对应于不通信地耦接到计算系统的物理代理对象。例如，物理代理对象对应于钢笔、铅笔、标尺等。例如，参考图5M，电子设备120经由对象跟踪和/或手部/四肢跟踪来在电子设备120的FOV 111内检测到正由用户149的左手150握持的物理代理对象5132。例如，物理代理对象5132对应于不与控制器110和/或电子设备120通信的标尺、棒状物等。

如框808所表示，响应于检测到物理对象的移动并且根据物理对象的移动使得物理对象突破相对于物理平面的距离阈值的确定(例如，接近条件的满足)，方法800包括：获取物理平面的姿态值；以及在第一位置处呈现被提供为经由显示设备呈现标记的扩展现实(XR)表面，其中该第一位置基于物理平面的姿态值。例如，图5L至图5O示出了电子设备120响应于检测到物理环境105内的与便笺簿572相关联的平面并且根据物理代理对象5132(或其表示)突破相对于便笺簿572的表示573的预先确定的或非确定性距离阈值的确定来在XR环境128内呈现XR表面5152的序列。换句话讲，在图5N中满足接近条件。

在一些具体实施中，如框810所表示，方法800包括：根据物理对象接触物理平面的确定来呈现与XR表面相关联的反馈。例如，图5P和图5Q示出了电子设备120呈现指示物理代理对象5132接触便笺簿572的反馈(例如，音频和视觉)的序列。

在一些具体实施中，距离阈值对应于(812)预定义距离值或基于当前情境信息的非确定性距离值。在一些具体实施中，距离阈值对应于Xcm的预定义距离。在一些具体实施中，距离阈值对应于基于平面的维度、平面和计算系统或用户之间的距离、情境信息等的非确定性值。

如框612所表示，响应于物理平面的移动，方法800包括：维持XR表面在第一位置处的呈现。在一些具体实施中，计算系统或其部件(例如，图2和图4A中的对象跟踪引擎510)检测物理平面在物理环境105内的移动。例如，参考图5R，电子设备120在检测到图5Q中的便笺簿572的平移移动5176之后维持XR表面5152在其初始位置处的呈现。参考图5D，电子设备120在检测到用户149的左手150从电子设备120的FOV 111移除之后维持第一XR表面532在其初始位置处的呈现。

如框814所表示，响应于检测到物理对象的移动并且根据物理对象的移动未使得物理对象突破相对于物理平面的距离阈值的确定，方法800包括：放弃XR表面的呈现。例如，参考图5M，响应于经由对象跟踪和/或手部/四肢跟踪确定由用户149的左手150握持的物理代理对象5132(或其表示)未突破相对于便笺簿572的预先确定的或非确定性距离阈值5134，电子设备120放弃呈现XR表面。换句话讲，在图5M中不满足接近条件。

虽然上文描述了在所附权利要求书范围内的具体实施的各个方面，但是应当显而易见的是，上述具体实施的各种特征可通过各种各样的形式体现，并且上述任何特定结构和/或功能仅是例示性的。基于本公开，本领域的技术人员应当理解，本文所述的方面可以独立于任何其他方面来实现，并且这些方面中的两个或更多个可以采用各种方式组合。例如，可以使用本文阐述的任何数量的方面来实现装置和/或可以实践方法。另外，除了本文阐述的一个或多个方面之外或者不同于本文阐述的一个或多个方面，可以使用其他结构和/或功能来实现这样的装置和/或可以实践这样的方法。

还将理解的是，虽然术语“第一”、“第二”等可能在本文中用于描述各种元素，但是这些元素不应当被这些术语限定。这些术语只是用于将一个元件与另一元件区分开。例如，第一媒体项可以被称为第二媒体项，并且类似地，第二媒体项可以被称为第一媒体项，这改变描述的含义，只要出现的“第一媒体项”被一致地重命名并且出现的“第二媒体项”被一致地重命名。该第一媒体项和该第二媒体项都是媒体项，但它们不是相同的媒体项。

本文中所使用的术语仅仅是为了描述特定具体实施并非旨在对权利要求进行限制。如在本具体实施的描述和所附权利要求书中所使用的那样，单数形式的“一个”、“一”和“该”旨在也涵盖复数形式，除非情境清楚地另有指示。还将理解的是，本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是，术语“包括”在本说明书中使用时是指定存在所陈述的特征、整数、步骤、操作、元件和/或部件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、部件，和/或其分组。

如本文所用，术语“如果”可以被解释为表示“当所述先决条件为真时”或“在所述先决条件为真时”或“响应于确定”或“根据确定”或“响应于检测到”所述先决条件为真，具体取决于情境。类似地，短语“如果确定[所述先决条件为真]”或“如果[所述先决条件为真]”或“当[所述先决条件为真]时”被解释为表示“在确定所述先决条件为真时”或“响应于确定”或“根据确定”所述先决条件为真或“当检测到所述先决条件为真时”或“响应于检测到”所述先决条件为真，具体取决于情境。

Claims

1.一种方法，所述方法包括：

在包括非暂态存储器和一个或多个处理器的计算系统处，其中所述计算系统通信地耦接到显示设备、一个或多个面向外部的图像传感器和一个或多个输入设备：

检测物理环境的图像流内的物理平面，其中所述图像流与所述一个或多个面向外部的图像传感器的视场(FOV)相关联；

响应于检测到所述图像流内的所述物理平面：

获取所述物理平面的姿态值；以及

在第一位置处呈现被提供为经由所述显示设备呈现标记的扩展现实(XR)表面，其中所述第一位置基于所述物理平面的所述姿态值；以及

响应于所述物理平面的移动，维持所述XR表面在所述第一位置处的呈现。

2.根据权利要求1所述的方法，所述方法还包括：

在检测所述物理平面之前，获取所述物理环境的与所述一个或多个面向外部的图像传感器的所述FOV相关联的所述图像流；

基于所述物理环境的所述图像流来检测与所述物理环境相关联的初始平面集合，其中所检测的物理平面不被包括在与所述物理环境相关联的所述初始平面集合之中。

3.根据权利要求1至2中任一项所述的方法，所述方法还包括：

检测所述物理平面到所述物理环境内的第二位置的移动；以及

在检测到所述物理平面到所述第二位置的所述移动之后：

维持所述XR表面在所述第一位置处的呈现；

检测指向所述物理平面的标记输入；以及

响应于检测到所述标记输入，经由所述显示设备基于所述标记输入的空间参数来在所述XR表面上呈现一个或多个标记。

4.根据权利要求1至2中任一项所述的方法，所述方法还包括：

检测所述物理平面在所述一个或多个面向外部的图像传感器的所述FOV之外的移动；以及

响应于检测到所述物理平面在所述一个或多个面向外部的图像传感器的所述FOV之外的所述移动，维持所述XR表面在所述第一位置处的呈现。

5.根据权利要求1至4中任一项所述的方法，所述方法还包括：

在呈现所述XR表面之后，检测指向所述XR表面的标记输入；以及

响应于检测到所述标记输入，基于所述标记输入的空间参数来在所述XR表面上呈现一个或多个标记。

6.根据权利要求5所述的方法，所述方法还包括：

根据所述标记输入的量值超过所述XR表面的至少一个空间维度的确定，随着所述一个或多个标记被呈现在所述XR表面上，在至少所述一个空间维度上扩展所述XR表面。

7.根据权利要求1至6中任一项所述的方法，所述方法还包括：

在呈现所述XR表面之后，检测语音输入；以及

响应于检测到所述语音输入：

基于所述语音输入生成文本；以及

在所述XR表面上呈现所述文本。

8.根据权利要求7所述的方法，所述方法还包括：

根据所述文本的字符计数使得所述文本超过所述XR表面的至少一个空间维度的确定，随着所述文本被呈现在所述XR表面上，在至少所述一个空间维度上扩展所述XR表面。

9.根据权利要求1至8中任一项所述的方法，所述方法还包括：

检测指向移动所述XR表面的操纵输入；以及

响应于检测到所述操纵输入，通过在一个或多个维度上平移所述XR表面或旋转所述XR表面中的至少一者来修改所述XR表面。

10.根据权利要求1至9中任一项所述的方法，所述方法还包括：

检测所述物理环境的所述图像流内的第二物理平面；以及

响应于检测到所述图像流内的所述第二物理平面：

确定所述第二物理平面的姿态值；以及

在第二位置处呈现被提供为呈现标记的第二XR表面，其中所述第二位置基于所述第二物理平面的所述姿态值。

11.根据权利要求1至10中任一项所述的方法，其中所述物理平面对应于在所述物理环境内检测到的纸张、便笺簿、剪贴板、人的手掌或书本中的一者。

12.根据权利要求1至11中任一项所述的方法，其中所述XR表面与所述物理平面共面。

13.根据权利要求1至11中任一项所述的方法，其中所述XR表面是基本上平坦的，并且其中所述XR表面相对于所述物理平面在至少一个空间维度上偏移。

14.根据权利要求1至13中任一项所述的方法，其中所述显示设备对应于透明透镜组件，并且其中呈现XR内容包括将所述XR内容投影到所述透明透镜组件上。

15.根据权利要求1至13中任一项所述的方法，其中所述显示设备对应于近眼系统，并且其中呈现XR内容包括将所述XR内容与由面向外部的图像传感器捕获的物理环境的一个或多个图像合成。

16.根据权利要求1至15中任一项所述的方法，所述方法还包括：

在检测到所述检测所述图像流内的所述物理平面之后，检测所述物理环境内的物理对象朝向所述物理平面的移动，并且

其中响应于检测到所述图像流内的所述物理平面并且响应于检测到所述物理对象的所述移动，并且根据所述物理对象的所述移动使得所述物理对象突破相对于所述物理平面的距离阈值的确定，获取所述物理平面的所述姿态值并且在所述第一位置处呈现所述XR表面。

17.根据权利要求1至16中任一项所述的方法，所述方法还包括：

检测所述物理环境内的物理对象朝向所述物理平面的移动；

响应于检测到所述物理对象的所述移动并且根据所述物理对象的所述移动使得所述物理对象突破相对于所述物理平面的距离阈值的确定，呈现与所述XR表面相关联的反馈；以及

响应于检测到所述物理对象的所述移动并且根据所述物理对象的所述移动未使得所述物理对象突破相对于所述物理平面的所述距离阈值的确定，放弃呈现与所述XR表面相关联的所述反馈。

18.根据权利要求16至17中任一项所述的方法，其中所述距离阈值对应于预定义距离值或基于当前情境信息的非确定性距离值。

19.根据权利要求16至18中任一项所述的方法，其中所述物理对象对应于通信地耦接到所述计算系统的电子设备。

20.根据权利要求16至18中任一项所述的方法，其中所述物理对象对应于不通信地耦接到所述计算系统的物理代理对象。

21.根据权利要求16至20中任一项所述的方法，所述方法还包括：

获取所述物理对象的姿态值，其中检测所述物理对象的所述移动对应于检测对所述物理对象的所述姿态值中的一个姿态值的改变。

22.根据权利要求21所述的方法，其中获取所述物理对象的所述姿态值包括：基于来自所述物理对象的惯性测量单元(IMU)数据、物理环境的包括所述物理对象的一个或多个图像、磁跟踪数据等中的至少一者来确定所述物理对象的姿态值。

23.一种设备，所述设备包括：

一个或多个处理器；

非暂态存储器；

用于与显示设备、一个或多个面向外部的图像传感器和一个或多个输入设备通信的接口；以及

存储在所述非暂态存储器中的一个或多个程序，所述一个或多个程序当由所述一个或多个处理器执行时，使得所述设备执行根据权利要求1至22所述的方法中的任一种方法。

24.一种存储一个或多个程序的非暂态存储器，所述一个或多个程序当由具有用于与显示设备、一个或多个面向外部的图像传感器和一个或多个输入设备通信的接口的设备的一个或多个处理器执行时，使得所述设备执行根据权利要求1至22所述的方法中的任一种方法。

25.一种设备，所述设备包括：

一个或多个处理器；

非暂态存储器；

用于使得所述设备执行根据权利要求1至22所述的方法中的任一种方法的构件。