CN112116716A

CN112116716A - 基于检测到的对象来定位的虚拟内容

Info

Publication number: CN112116716A
Application number: CN202010486219.2A
Authority: CN
Inventors: A·格伦德赫费尔; R·耐尔
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2019-06-19
Filing date: 2020-06-01
Publication date: 2020-12-22
Also published as: DE102020116144A1; US20200401804A1; US11710310B2

Abstract

本公开涉及基于检测到的对象来定位的虚拟内容。本文所公开的各种具体实施包括使用对象作为虚拟内容的背景的设备、系统和方法。一些具体实施涉及获得物理环境的图像。基于该图像来检测对象的表面的位置。确定用于显示虚拟内容的虚拟内容位置，其中该虚拟内容位置与该对象的表面的位置对应。然后，提供物理环境和在虚拟内容位置处显示的虚拟内容的视图。

Description

基于检测到的对象来定位的虚拟内容

相关申请的交叉引用

本申请要求2019年6月19日提交的美国临时申请序列62/863,359号的权益，该申请全文以引用方式并入本文。

技术领域

本公开整体涉及电子设备，并且具体地涉及用于显示虚拟内容的系统、方法和设备。

背景技术

包括在虚拟内容中的文本、图像和其他虚拟增强内容可能难以让人看到或理解。例如，虚拟内容可与跟其一起被显示的周围物理环境部分地或完全地混合。就光学透视显示器而言，透明显示器的有限动态范围、物理环境中的照明条件(例如，明亮的阳光)或观察到的物理环境的空间频率(例如，亮度或色度)可使得难以让人看到或理解虚拟内容。例如，在其中物理环境被明亮照明或包含不同颜色、深度或高频对比度边缘的情况下，虚拟内容可能难以让人看到或理解。

发明内容

本文所公开的各种具体实施包括用于提供计算机生成现实(CGR)内容的设备、系统和方法，该CGR内容包括基于具体检测到的对象(诸如用户的手部)的表面而显示的虚拟内容。在光学透视头戴式设备(HMD)中的各种具体实施中，虚拟内容(例如，文本)的背景是直接通过HMD的透视部分看到的物理环境。HMD可对物理环境的外观具有很少的控制(如果有的话)，如通过HMD的透视部分所看到的。此外，该虚拟内容可被用户视为背景物理环境、环境光源(例如，淡红阳光)和虚拟内容的实际颜色的组合。在一些具体实施中，除了物理环境提供的光之外，还通过在透视显示器处添加光来将该虚拟内容作为覆盖层而提供。结合物理环境(例如，由用户)看到虚拟内容。在这些和其他情况下，通过在相对于表面的位置中选择性地显示虚拟内容来改善虚拟内容的可视性，该表面具有可使得虚拟内容更易于看到或理解的特征。例如，在用户的手部的相对一致且平坦的表面上显示虚拟内容可使得虚拟对象比在具有可变颜色和移动叶子的树前面显示该虚拟内容更容易看到。

本文所公开的各种具体实施包括使用用户的手部作为能够在CGR环境中渲染增强内容(例如，虚拟内容)的可检测且相对明确定义的背景的设备、系统和方法。在一些具体实施中，使用手部(例如，手掌、拳头、手背、或它们的表面)作为背景具有优势。该手部可具有一致的形状、颜色、亮度或位置，假设用户相对静止地保持他或她的手部。此外，所渲染的虚拟内容可基于在该HMD处相对于当前照明条件(例如，其可由传感器诸如环境光传感器或任何其他相机传感器感测到)的用户的手部反射(例如，其颜色)来显示(例如，在视觉上优化)。

一些具体实施使用位于HMD处或与HMD通信的传感器来检测和跟踪手部相对于HMD的位置。在各种具体实施中，使用基于同时定位和映射(SLAM)的技术或基于RGB-D的技术来执行检测和跟踪。在各种具体实施中，检测和跟踪手部的位置涉及将手部颜色或手部模型与深度映射图等相关联以检测和跟踪手部的形状以及相对于HMD的姿态(例如，取向和位置)。

在一些具体实施中，在检测到手部之后，增强内容(例如，虚拟内容覆盖层)相对于手部表面(例如，手部表面前方的平面或拟合到手部表面的平面)定位。在一些具体实施中，根据手部的颜色以及照明条件来修改或校正虚拟内容的外观(例如，针对可视性或对比度)。一般来讲，以手部作为背景的虚拟内容对于HMD用户来将可能更易看见或可理解，因为手部的皮肤可能包含很少的高频纹理变化。

在一些具体实施中，可通过将固定的标度应用到所检测到的手部尺寸来容易地放大虚拟内容，例如，可通过将手部移动得更靠近HMD来直接放大虚拟内容，并且可通过将手部移动得更远离HMD来减小虚拟内容的尺寸。

尽管本文所述的具体实施主要将用户的手部称为能够在光学透视CGR环境中渲染增强内容(例如，虚拟内容)的可检测背景或相对明确定义的背景，但本申请并非旨在限于此，因为可使用任何检测到的用户身体部位或者由用户的手部或其他身体部位保持的对象(例如，书籍、钱包等)。

在一些具体实施中，在具有处理器和传感器具体实施的电子设备处，一种方法包括获得物理环境的图像。基于该图像来检测对象的表面的位置，其中该对象是用户的身体的一部分(例如，手部)，或者该对象由用户的身体的该部分保持。确定用于显示虚拟内容的虚拟内容位置。该虚拟内容位置与对象的表面的位置对应。然后，提供物理环境和定位在该虚拟内容位置处的虚拟内容的视图。

根据一些具体实施中，非暂态计算机可读存储介质中存储有指令，所述指令是计算机可执行的以执行或使得执行本文所述的任何方法。根据一些具体实施，一种设备包括一个或多个处理器、非暂态存储器以及一个或多个程序；该一个或多个程序被存储在非暂态存储器中并且被配置为由一个或多个处理器执行，并且该一个或多个程序包括用于执行或使得执行本文所述方法中的任一种的指令。

附图说明

因此，本公开可被本领域的普通技术人员理解，更详细的描述可参考一些例示性具体实施的方面，其中一些具体实施在附图中示出。

图1是根据一些具体实施的示例性操作环境的框图。

图2是根据一些具体实施的示例性控制器的框图。

图3是根据一些具体实施的示例性电子设备的框图。

图4A是示出根据一些具体实施的设备向用户提供CGR环境的第一时间时的物理环境的框图。

图4B是示出根据一些具体实施的该设备向用户继续提供CGR环境的第二时间时的图4A的物理环境的框图。

图5是示出根据一些具体实施的确定物理环境中的合适背景条件或位置以覆盖CGR环境中的虚拟内容的示例性方法的流程图。

根据通常的做法，附图中示出的各种特征部可能未按比例绘制。因此，为了清楚起见，可以任意地扩展或减小各种特征部的尺寸。另外，一些附图可能未描绘给定的系统、方法或设备的所有部件。最后，在整个说明书和附图中，类似的附图标号可用于表示类似的特征部。

具体实施方式

描述了许多细节以便提供对附图中所示的示例具体实施的透彻理解。然而，附图仅示出了本公开的一些示例方面，因此不应被视为限制。本领域的普通技术人员将会知道，其他有效方面或变体不包括本文所述的所有具体细节。此外，没有详尽地描述众所周知的系统、方法、部件、设备和电路，以免模糊本文所述的示例性具体实施的更多相关方面。尽管图1-图3描绘了涉及手持式电子设备的示例性具体实施，但其他具体实施不一定涉及手持式电子设备，并且可涉及其他类型的设备，包括但不限于手表和其他可穿戴电子设备、移动设备、膝上型计算机、台式计算机、游戏设备、家庭自动化设备、头戴式设备(HMD)、具有透明或附加显示器的设备以及包括或使用图像捕获设备的其他设备。

图1是根据一些具体实施的示例性操作环境100的框图。尽管示出了相关特征，但本领域的普通技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的示例性具体实施的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，操作环境100包括控制器110和电子设备120，该控制器和该电子设备中的一者或两者可处于物理环境中。物理环境是指人们在没有电子系统帮助的情况下能够感测和/或交互的物理世界。物理环境诸如物理公园包括物理物品，诸如物理树木、物理建筑物和物理人。人们能够诸如通过视觉、触觉、听觉、味觉和嗅觉来直接感测物理环境和/或与物理环境交互。

在一些具体实施中，控制器110被配置为管理和协调用户的计算机生成现实(CGR)环境。在一些具体实施中，控制器110包括软件、固件或硬件的合适组合。下文参考图2更详细地描述控制器110。在一些具体实施中，控制器110是相对于物理环境105处于本地或远程位置的计算设备。

在一个示例中，控制器110是位于物理环境105内的本地服务器。在另一个示例中，控制器110是位于物理环境105之外的远程服务器(例如，云服务器、中央服务器等)。在一些具体实施中，控制器110经由一个或多个有线或无线通信信道144(例如，蓝牙、IEEE802.11x、IEEE 802.16x、IEEE 802.3x等)与电子设备120通信地耦接。

在一些具体实施中，控制器110和电子设备120被配置为一起向用户呈现CGR环境。

在一些具体实施中，电子设备120被配置为向用户呈现CGR环境。在一些具体实施中，电子设备120包括软件、固件或硬件的合适组合。下文参考图3更详细地描述电子设备120。在一些具体实施中，控制器110的功能由电子设备120提供或与电子设备120组合，例如，在用作独立单元的电子设备的情况下。

根据一些具体实施，当用户出现在物理环境105内时，电子设备120向用户呈现CGR环境。CGR环境是指人们经由电子系统感测和/或交互的完全或部分模拟的环境。在CGR中，跟踪人的物理运动的一个子集或其表示，并且作为响应，以符合至少一个物理定律的方式调节在CGR环境中模拟的一个或多个虚拟对象的一个或多个特征。例如，CGR系统可以检测人的头部转动，并且作为响应，以与此类视图和声音在物理环境中变化的方式类似的方式调节呈现给人的图形内容和声场。在一些情况下(例如，出于可达性原因)，对CGR环境中虚拟对象的特征的调节可以响应于物理运动的表示(例如，声音命令)来进行。

人可以利用其感官中的任一者来感测CGR对象和/或与CGR对象交互，包括视觉、听觉、触觉、味觉和嗅觉。例如，人可以感测音频对象和/或与音频对象交互，该音频对象创建3D或空间音频环境，该3D或空间音频环境提供3D空间中点音频源的感知。又如，音频对象可以使能音频透明度，该音频透明度在有或者没有计算机生成的音频的情况下选择性地引入来自物理环境的环境声音。在某些CGR环境中，人可以感测和/或只与音频对象交互。

CGR的示例包括虚拟现实和混合现实。虚拟现实(VR)环境是指被设计成对于一个或多个感官完全基于计算机生成的感官输入的模拟环境。VR环境包括人可以感测和/或与之交互的虚拟对象。例如，树木、建筑物和代表人的化身的计算机生成的图像是虚拟对象的示例。人可以通过在计算机生成的环境内人的存在的模拟、和/或通过在计算机生成的环境内人的物理运动的一个子组的模拟来感测和/或与VR环境中的虚拟对象交互。

与被设计成完全基于计算机生成的感官输入的VR环境相比，混合现实(MR)环境是指被设计成除了包括计算机生成的感官输入(例如，虚拟对象)之外还引入来自物理环境的感官输入或其表示的模拟环境。在虚拟连续体上，混合现实环境是完全物理环境作为一端和虚拟现实环境作为另一端之间的任何状况，但不包括这两端。

在一些MR环境中，计算机生成的感官输入可以对来自物理环境的感官输入的变化进行响应。另外，用于呈现MR环境的一些电子系统可以跟踪相对于物理环境的位置和/或取向，以使虚拟对象能够与真实对象(即，来自物理环境的物理物品或其表示)交互。例如，系统可以导致运动使得虚拟树木相对于物理地面看起来是静止的。

混合现实的示例包括增强现实和增强虚拟。增强现实(AR)环境是指其中一个或多个虚拟对象叠加在物理环境或其表示之上的模拟环境。例如，用于呈现AR环境的电子系统可具有透明或半透明显示器，人可以透过该显示器直接查看物理环境。该系统可以被配置成在透明或半透明显示器上呈现虚拟对象，使得人利用该系统感知叠加在物理环境之上的虚拟对象。另选地，系统可以具有不透明显示器和一个或多个成像传感器，成像传感器捕获物理环境的图像或视频，这些图像或视频是物理环境的表示。系统将图像或视频与虚拟对象组合，并在不透明显示器上呈现组合物。人利用系统经由物理环境的图像或视频而间接地查看物理环境，并且感知叠加在物理环境之上的虚拟对象。如本文所用，在不透明显示器上显示的物理环境的视频被称为“透传视频”，意味着系统使用一个或多个图像传感器捕获物理环境的图像，并且在不透明显示器上呈现AR环境时使用那些图像。进一步另选地，系统可以具有投影系统，该投影系统将虚拟对象投射到物理环境中，例如作为全息图或者在物理表面上，使得人利用该系统感知叠加在物理环境之上的虚拟对象。

增强现实环境也是指其中物理环境的表示被计算机生成的感官信息进行转换的模拟环境。例如，在提供透传视频中，系统可以对一个或多个传感器图像进行转换以施加与成像传感器所捕获的视角不同的选择视角(例如，视点)。又如，物理环境的表示可以通过图形地修改(例如，放大)其部分而进行转换，使得经修改部分可以是原始捕获图像的代表性的但不是真实的版本。再如，物理环境的表示可以通过以图形方式消除其部分或将其部分进行模糊处理而进行转换。

增强虚拟(AV)环境是指其中虚拟或计算机生成的环境结合来自物理环境的一个或多个感官输入的模拟环境。感官输入可以是物理环境的一个或多个特征的表示。例如，AV公园可以具有虚拟树木和虚拟建筑物，但人的脸部是从对物理人拍摄的图像逼真再现的。又如，虚拟对象可以采用一个或多个成像传感器所成像的物理物品的形状或颜色。再如，虚拟对象可以采用符合太阳在物理环境中的位置的阴影。

有许多不同类型的电子系统使人能够感测和/或与各种CGR环境交互。示例包括头戴式系统、基于投影的系统、平视显示器(HUD)、集成有显示能力的车辆挡风玻璃、集成有显示能力的窗户、被形成为被设计用于放置在人眼睛上的透镜的显示器(例如，类似于隐形眼镜)、耳机/听筒、扬声器阵列、输入系统(例如，具有或没有触觉反馈的可穿戴或手持控制器)、智能电话、平板电脑、和台式/膝上型计算机。头戴式系统可以具有一个或多个扬声器和集成的不透明显示器。另选地，头戴式系统可以被配置成接受外部不透明显示器(例如，智能电话)。头戴式系统可以结合用于捕获物理环境的图像或视频的一个或多个成像传感器、和/或用于捕获物理环境的音频的一个或多个麦克风。头戴式系统可以具有透明或半透明显示器，而不是不透明显示器。透明或半透明显示器可以具有媒介，代表图像的光通过该媒介被引导到人的眼睛。显示器可以利用数字光投影、OLED、LED、uLED、硅基液晶、激光扫描光源或这些技术的任意组合。媒介可以是光学波导、全息图媒介、光学组合器、光学反射器、或它们的任意组合。在一个实施方案中，透明或半透明显示器可被配置成选择性地变得不透明。基于投影的系统可以采用将图形图像投影到人的视网膜上的视网膜投影技术。投影系统也可以被配置成将虚拟对象投影到物理环境中，例如作为全息图或在物理表面上。

图2是根据一些具体实施的控制器110的示例的框图。尽管示出了一些具体特征，但本领域的技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的具体实施的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，在一些具体实施中，控制器110包括一个或多个处理单元202(例如，微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、图形处理单元(GPU)、中央处理单元(CPU)、处理核心等)、一个或多个输入/输出(I/O)设备206、一个或多个通信接口208(例如，通用串行总线(USB)、FIREWIRE、THUNDERBOLT、IEEE 802.3x、IEEE 802.11x、IEEE 802.16x、全球移动通信系统(GSM)，码分多址(CDMA)、时分多址(TDMA)、全球定位系统(GPS)、红外(IR)、蓝牙、ZIGBEE或相似类型接口)、一个或多个编程(例如，I/O)接口210、存储器220以及用于互连这些部件和各种其他部件的一条或多条通信总线204。

在一些具体实施中，所述一条或多条通信总线204包括互连系统部件和控制系统部件之间的通信的电路。在一些具体实施中，一个或多个I/O设备206包括键盘、鼠标、触控板、操纵杆、一个或多个麦克风、一个或多个扬声器、一个或多个图像捕获设备或其他传感器、一个或多个显示器等中的至少一者。

存储器220包括高速随机存取存储器，诸如动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、双倍数据速率随机存取存储器(DDR RAM)或者其他随机存取固态存储器设备。在一些具体实施中，存储器220包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存存储器设备或其他非易失性固态存储设备。存储器220任选地包括远离所述一个或多个处理单元202定位的一个或多个存储设备。存储器220包括非暂态计算机可读存储介质。在一些具体实施中，存储器220或者存储器220的非暂态计算机可读存储介质存储下述程序、模块和数据结构或者它们的子集，其中包括任选的操作系统230和计算机生成现实(CGR)体验模块240。

操作系统230包括用于处理各种基础系统服务和用于执行硬件相关任务的过程。

在一些具体实施中，CGR模块240被配置为创建、编辑、呈现或体验CGR环境。在一些具体实施中，CGR模块240包括CGR虚拟内容位置单元242和CGR呈现单元244。CGR虚拟内容位置单元242被配置为基于检测到的身体部位或由身体部位保持的对象来确定用于放置虚拟内容的虚拟内容位置。CGR呈现单元244被配置为呈现将被用作一个或多个用户的CGR环境的一部分的虚拟内容(例如，3D内容)。例如，用户可查看并以其他方式体验基于CGR的用户界面，该用户界面允许用户例如经由手势、语音命令、输入设备输入等基于该虚拟内容位置来选择、放置、移动以及以其他方式呈现CGR环境。

尽管这些模块和单元被示出为驻留在单个设备(例如，控制器110)上，但应当理解，在其他具体实施中，这些模块和单元的任何组合可位于单独的计算设备中。此外，图2更多地用作存在于特定具体实施中的各种特征部的功能描述，与本文所述的具体实施的结构示意图不同。如本领域的普通技术人员将认识到的，单独显示的项目可以组合，并且一些项目可以分开。例如，图2中单独示出的一些功能模块可以在单个模块中实现，并且单个功能块的各种功能可在各种具体实施中通过一个或多个功能块来实现。模块的实际数量和特定功能的划分以及如何在其中分配特征部将根据具体实施而变化，并且在一些具体实施中，部分地取决于为特定具体实施选择的硬件、软件或固件的特定组合。

图3是根据一些具体实施的电子设备120的示例的框图。尽管示出了一些具体特征，但本领域的技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的具体实施的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，在一些具体实施中，电子设备120包括一个或多个处理单元302(例如，微处理器、ASIC、FPGA、GPU、CPU、处理核心等)、一个或多个输入/输出(I/O)设备及传感器306、一个或多个通信接口308(例如，USB、FIREWIRE、THUNDERBOLT、IEEE 802.3x、IEEE 802.11x、IEEE 802.16x、GSM、CDMA、TDMA、GPS、IR、BLUETOOTH、ZIGBEE、SPI、I2C或类似类型的接口)、一个或多个编程(例如，I/O)接口310、一个或多个显示器312、一个或多个面向内部或面向外部的图像传感器314、存储器320以及用于互连这些部件和各种其他部件的一条或多条通信总线304。

在一些具体实施中，一条或多条通信总线304包括互连和控制系统部件之间的通信的电路。在一些具体实施中，一个或多个I/O设备及传感器306包括惯性测量单元(IMU)、加速度计、磁力计、陀螺仪、温度计、一个或多个生理传感器(例如，血压监测仪、心率监测仪、血液氧传感器、血糖传感器等)、一个或多个传声器、一个或多个扬声器、触觉引擎或者一个或多个深度传感器(例如，结构光、飞行时间等)等。

在一些具体实施中，一个或多个显示器312被配置为向用户呈现CGR环境。在一些具体实施中，一个或多个显示器312对应于全息、数字光处理(DLP)、液晶显示器(LCD)、硅上液晶(LCoS)、有机发光场效应晶体管(OLET)、有机发光二极管(OLED)、表面传导电子发射器显示器(SED)、场发射显示器(FED)、量子点发光二极管(QD-LED)、微机电系统(MEMS)或者类似显示器类型。在一些具体实施中，一个或多个显示器312对应于衍射、反射、偏振、全息等波导显示器。例如，电子设备120包括单个显示器。又如，电子设备120包括针对用户的每只眼睛的显示器。

在一些具体实施中，一个或多个面向内部或面向外部的传感器系统314包括捕获图像数据的图像捕获设备或阵列或者捕获音频数据的音频捕获设备或阵列(例如，麦克风)。该一个或多个图像传感器系统314可以包括一个或多个RGB相机(例如，具有互补金属氧化物半导体(CMOS)图像传感器或电荷耦合器件(CCD)图像传感器)、单色相机、IR相机或者基于事件的相机等。在各种具体实施中，该一个或多个图像传感器系统314还包括发射光的照明源，诸如闪光灯。在一些具体实施中，该一个或多个图像传感器系统314还包括相机上图像信号处理器(ISP)，其被配置为对图像数据执行多个处理操作。

存储器320包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备。在一些具体实施中，存储器320包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存存储器设备或其他非易失性固态存储设备。存储器320任选地包括远离所述一个或多个处理单元302定位的一个或多个存储设备。存储器320包括非暂态计算机可读存储介质。在一些具体实施中，存储器320或者存储器320的非暂态计算机可读存储介质存储下述程序、模块和数据结构或者它们的子集，其中包括任选的操作系统330和CGR模块340。

操作系统330包括用于处理各种基础系统服务和用于执行硬件相关任务的过程。

在一些具体实施中，CGR模块340被配置为创建、编辑、呈现或体验CGR环境。在一些具体实施中，CGR模块340包括CGR虚拟内容位置单元342和CGR呈现单元344。CGR虚拟内容位置单元342被配置为基于检测到的身体部位或由身体部位保持的对象来确定用于放置虚拟内容的虚拟内容位置。CGR呈现单元344被配置为呈现将被用作一个或多个用户的CGR环境的一部分的虚拟内容(例如，3D内容)。例如，用户可查看并以其他方式体验基于CGR的用户界面，该用户界面允许用户例如经由手势、语音命令、输入设备输入等基于虚拟内容位置来选择、放置、移动以及以其他方式呈现CGR环境。尽管这些模块和单元被示出为驻留在单个设备(例如，电子设备120)上，但应当理解，在其他具体实施中，这些模块和单元的任何组合可位于单独的计算设备中。

此外，图3更多地用作存在于特定具体实施中的各种特征部的功能描述，与本文所述的具体实施的结构示意图不同。如本领域的普通技术人员将认识到的，单独显示的项目可以组合，并且一些项目可以分开。例如，图3中单独示出的一些功能模块可以在单个模块中实现，并且单个功能块的各种功能可在各种具体实施中通过一个或多个功能块来实现。模块的实际数量和特定功能的划分以及如何在其中分配特征部将根据具体实施而变化，并且在一些具体实施中，部分地取决于为特定具体实施选择的硬件、软件或固件的特定组合。

在各种具体实施中，用户或HMD可能无法控制的物理环境对用户来说是可见的。例如，对于光学透视头戴式显示器，下层的物理环境可能使得令人难以看到或理解添加到光学透视HMD的虚拟内容。又如，即使添加到CGR环境的明确定义的虚拟文本也可能令人难以阅读或不可读。光学透视头戴式显示器可不提供用于添加虚拟内容的均一显示条件或可控显示条件。此外，无法预先确定(或者一旦选择就保持)在光学透视头戴式显示器上显示虚拟内容的优先位置，因为物理环境独立于CGR环境并且还基于HMD用户的可变视点。

许多物理环境为CGR环境提供包括移动或相异颜色像素的背景。例如，在用户正从移动的公共汽车的窗口向外看或沿街道往下行走时观察到的物理环境呈现杂乱、快速变化的背景。此外，诸如观看直播体育运动(例如，棒球比赛)或玩体育运动(例如，在晴天滑雪)之类的情况可呈现杂乱或变化的背景。即使在具有整齐外观的物理环境中，用户的可移动凝视仍然呈现虚拟内容的变化的不可控背景。

在各种具体实施中，电子设备确定当前物理环境中的适当背景条件或位置以覆盖CGR环境中的虚拟内容。在一些具体实施中，电子设备诸如HMD(包括用于光学透视CGR环境的系统、方法和设备)使用用户的身体部位或用户的身体部位所保持的对象作为背景或位置来在CGR环境中显示虚拟内容。

在一些具体实施中，用户的手部是能够在HMD的光学透视CGR环境中渲染增强内容(例如，虚拟内容)的可检测背景或相对明确定义的背景。在一些具体实施中，使用HMD用户的手部(例如，身体部位)(例如，手掌、拳头、手背或它们的表面)具有优点，包括所渲染的虚拟内容可根据在物理环境中用户的手部反射(例如，其颜色)而被显示(例如，可见或视觉优化)。在一些具体实施中，使用手部具有包括可根据物理环境中的周边环境或当前照明来显示(例如，可见或视觉优化)所渲染的虚拟内容的优点。在一些具体实施中，使用手部具有包括可根据光学透视设备的显示器的色调来显示(例如，可见或视觉优化)所渲染的虚拟内容的优点。在一些具体实施中，使用由HMD用户的手部(例如，身体部位)保持的对象用于CGR环境具有包括可根据对象的反射(例如，其颜色)、当前周边环境照明条件或物理环境中的光学透视设备显示器的色调来准确显示(例如，可见或视觉优化)所渲染的虚拟内容的优点。在一些具体实施中，所保持的对象为图书、手机等。在一些具体实施中，所保持的对象的可被虚拟内容覆盖在其上的一个或多个表面中的一些或全部表面上具有一致的颜色。在一些具体实施中，所保持的对象是提供对虚拟内容的期望视觉对比度的颜色。在一些具体实施中，所保持的对象具有增加其视觉可检测性(例如，形状或颜色)的特征。

在各种具体实施中，HMD检测或跟踪物理环境中用户的手部。在各种具体实施中，HMD检测或跟踪用户的手部在物理环境中的姿势。在一些具体实施中，HMD包括获取物理环境的图像(例如，表示)的传感器(例如，相机)。在一些具体实施中，HMD跟踪图像中用户的手部(例如，参见图5，本文所述的框520)，并相对于HMD用户的视点(例如，眼睛)在手部的轮廓内的虚拟内容位置处显示虚拟内容。在一些具体实施中，在所显示的虚拟内容和用户的手部的轮廓之间存在缓冲区(例如，规定的空间距离)。在一些具体实施中，在虚拟内容周围存在可见边界。

在一些具体实施中，HMD检测图像中用户的手部，确定手部在物理环境中的位置，以及基于该手部来识别平面。可基于该平面基本上正交于朝向手部的注视方向来选择平面。该虚拟内容显示在该平面上的虚拟内容位置处。在一些具体实施中，该平面距手部的前面规定距离、在手部的表面处或穿过手部的一部位。在一些具体实施中，该平面距手部的一部位(例如，手掌)的前面规定距离、在手部的该部位的表面处或穿过手部的该部位的一部分。在一些具体实施中，对象的表面的手部的一部分满足一个或多个预先确定的标准。例如，手部的一部分是至少特定尺寸、连续的、有色的，或者是手指等。在一些具体实施中，平面是连续的、可变形的、弯曲的或包括各自对应于所检测到的手部的部位的一组平面。

在一些具体实施中，使用基于用户的手部的颜色、环境光或可穿戴显示器的颜色(色调)选择的颜色(例如，文本颜色)来显示虚拟内容。在一些具体实施中，可见的所显示的虚拟内容作为光学透视CGR环境中的组合颜色(例如，累积颜色)被用户看见。在一些具体实施中，虚拟内容的所选择的颜色渲染具有对HMD用户来说足够的对比度的虚拟内容。在一些具体实施中，虚拟内容的所选择的颜色准确地渲染虚拟内容(例如，品牌X苏打水可始终为红色)。在一些具体实施中，虚拟内容的所选择的颜色增加了其对HMD用户的可见度或可读性。

图4A是例示提供在第一时间时的描绘物理环境405的CGR环境430的电子设备的框图。在一些具体实施中，使用HMD作为电子设备120将CGR环境430呈现给用户。虽然在图4A中CGR环境430被讨论为是使用光学透视显示器420提供的，但在其他具体实施中，CGR体验不是经由光学透视显示器提供的(例如，CGR环境可作为视频直通而被提供)。

如图4A所示，在物理环境405中示出(并且可在其中检测到)对象414和保持对象414的用户的臂410。在一些具体实施中，一个或多个面向外的附加传感器(例如，图像捕获设备或阵列(例如，相机))捕获可用于检测物理环境405中的对象414和用户的保持对象414的臂410的图像数据。在一些具体实施中，对象414具有增加其视觉可检测性(例如，形状或颜色)的特征。

图4B是例示提供在稍后的第二时间时的CGR环境430的电子设备的框图。如图4B所示，在CGR环境430中在对象414的前面向用户显示虚拟内容470。在一个示例中，虚拟内容470可识别或提供关于物理环境405中的事物的信息。在另一个示例中，虚拟内容470可涉及与物理环境405无关的事物。在一个示例中，在接收到虚拟内容470(例如，生日图标)时，该虚拟内容470在CGR环境430中在对象414的前面被显示给用户。在另一个示例中，在接收到文本消息时，虚拟内容470可包括在CGR环境430中在对象414的表面上显示给用户的文本消息的文本。在一些具体实施中，可任选地围绕虚拟内容470来提供边界。

一些具体实施涉及设置或初始化模式。在一些具体实施中，初始化模式设置用于在CGR环境中显示虚拟内容的一个或多个标准。例如，在初始化模式下，可以检测并存储用户的肤色。附加标准诸如但不限于文本大小、优选文本颜色(例如，当识别多个颜色时)、发起语音命令以及终止语音命令(例如，用于开始和结束利用HMD用户的手部、环境光检测、对象识别等显示CGR虚拟内容)。在一些具体实施中，初始化模式中包括字体、字体样式、文本效果和其他用户定制。在一些具体实施中，虚拟home屏幕提供了对初始化模式的访问，以用于在CGR环境中覆盖物理环境中用户的手部中的虚拟内容。

在一些具体实施中，HMD处的手部跟踪功能还支持手势识别。在一些具体实施中，使用了使用机器学习(ML)或其他基于图像的识别技术的手势识别。在各种具体实施中，使用用户的手部作为合适的背景或背景位置的系统、方法或设备在CGR环境中为HMD提供与虚拟内容的直观交互。

在一些具体实施中，手势识别提供具有各种CGR虚拟内容显示操作的直接用户界面。例如，可能难以(例如，即使在初始化或定制的情况下)为HMD适当地设定CGR环境中的重叠虚拟内容的尺寸。因此，在一个具体实施中，在虚拟内容的显示期间移动得更靠近HMD的手部的检测到的手势增加虚拟内容的尺寸(例如，被识别为“放大”或增加虚拟内容的显示尺寸的命令)。类似地，在虚拟内容的显示期间移动得远离HMD的手部的检测到的手势减小虚拟内容的尺寸(例如，被识别为“缩小”或减小虚拟内容的显示尺寸的命令)。

在一些具体实施中，手势用于在HMD处发起或终止在用户的手部处显示虚拟内容的功能。例如，闭合的第一顺时针或逆时针的旋转开启或关闭在HMD处的用户的手部处的虚拟内容的显示。在另一个具体实施中，用户的手部的竖直移动或水平移动(例如，竖直或水平头部抖动)开启或关闭在HMD处的用户的手部处的虚拟内容的显示。在一些具体实施中，在用户视图中在预设时间间隔内顺序地检测到用户的手部(或手部颜色)静止不动将虚拟内容的显示切换为在用户的手部处“开启”，然后在HMD处“关闭”。

在一些具体实施中，物理环境(例如，上下文)发起或终止在HMD用户的手处显示CGR虚拟内容。例如，存在这样的情况，其中由于用户的一只或多只手部以其他方式被占用(例如，做体育运动或驾驶汽车)而关闭在用户的手部处显示虚拟内容。在一些具体实施中，用户可基于物理环境来控制(例如，允许或阻止)在HMD用户的手部处显示可用虚拟内容(例如，在购物时显示广告，或者在观光时显示博物馆/历史信息)。在一些具体实施中，用户基于物理环境来控制用于在用户的手部处显示的可用虚拟内容中的选择。例如，当沿街道向下行走时，仅允许在用户的手部处显示涉及食物或餐厅的广告。

在一些具体实施中，可根据需要操纵HMD用户可见的各个CGR虚拟内容。例如，选择(例如，用手指环绕)在HMD处可见的虚拟内容，使得在HMD用户的手部处重新显示所选择的虚拟内容(例如，远距、小的或以其他方式难以辨认的虚拟内容)。另选地，用左手“抓住”可见虚拟内容的手势使得在用户的右手处重新显示该虚拟内容。

在一些具体实施中，HMD用户可用的虚拟内容可包括其使用时的查看约束(例如，所有权或内容提供商限制)。例如，在剧院处显示的电影海报，以及附加的虚拟内容(例如，与电影、广告或预告片相关的角色动作)是可用的并且通过光学透视HMD可见。在这种情况下，内容提供商可能不允许在电影海报之外(例如，在HMD用户的手部处)选择或重新显示该虚拟内容(例如，以不同的背景、着色或图像质量显示)。

在一些具体实施中，提供光学透视CGR环境的HMD使用透明显示器以用于CGR环境的增强内容(例如，虚拟内容)。在一些具体实施中，透明显示器包括色调或浅色。在一些具体实施中，光学透视HMD被提供为具有用于每只眼睛的单独透明镜片的可佩戴眼镜。在一些具体实施中，光学透视HMD被提供为具有用于每只眼睛的单独覆盖虚拟内容的单个透明显示器，以提供立体CGR环境。

尽管本文所述的具体实施主要将用户的手部称为能够在光学透视CGR环境中渲染增强内容(例如，虚拟内容)的可检测且相对明确定义的背景，但本申请并非旨在限于此，因为在本文所述的各种具体实施中可使用任何检测到的用户身体部位或由用户的手部或其他身体部位保持的对象。

图5是示出根据一些具体实施的确定当前物理环境中的合适背景条件或背景位置以覆盖CGR环境中的虚拟内容的示例性方法的流程图。在一些具体实施中，方法500由设备(例如，图1-图3的控制器100或电子设备120)执行。可使用HMD或由彼此通信的多个设备来为光学透视CGR环境执行方法500。在一些具体实施中，方法500由处理逻辑部件(包括硬件、固件、软件或其组合)执行。在一些具体实施中，方法500由执行存储在非暂态计算机可读介质(例如，存储器)中的代码的处理器执行。

在框510处，方法500获得物理环境的图像。在一些具体实施中，使用HMD上的传感器(例如，相机)来获得物理环境的图像。在一些具体实施中，相机可以是RGB相机、深度相机、RGB-D相机、一个或多个2D相机、热相机等。在一些具体实施中，传感器用于估计HMD用户的手部(例如，其他身体部位或者由该其他身体部位保持的对象)的形状、取向和位置。在一些具体实施中，传感器安装在作为光学透视头戴式显示器的电子设备上。

在框520处，方法500基于图像来检测对象(例如，对象的表面)的位置。在一些具体实施中，对象是手部、手部和臂的一部分、身体部位或由HMD用户的身体部位保持的对象。在一些具体实施中，对象的位置包括对象的深度(例如，距HMD的距离)。在一些具体实施中，对象的表面是对应于所检测到的对象的3D区域。在一些具体实施中，对象的表面是对应于所检测到的对象的2D区域。在一些具体实施中，对象的表面用于确定显示平面(例如，平坦的或可变形的)，该显示平面位于对象的前面的规定距离处、穿过该对象等。

在一些具体实施中，在框520处，检测或跟踪对象(例如，HMD用户的手部)。例如，深度传感器可用于构造和分析深度映射图以重建HMD用户的手部并跟踪手部的移动和姿势(例如，位置和取向)。在一些具体实施中，可使用生成物理环境的3D映射图的两个或更多个相机(例如，立体渲染)来检测和跟踪手部。另选地，在一些具体实施中，可使用同时定位和映射(SLAM)过程和对应的传感器来跟踪手部。在一些具体实施中，可使用事件相机和对应的过程来跟踪手部。在一个具体实施中，2D相机可使用机器学习技术来将手部模型拟合到2D图像以用于检测和跟踪手部。在一些具体实施中，HMD用户的手部的预扫描几何表示(例如，没有重建)可与物理环境的视频流一起使用，以检测和跟踪视频流中的手部。在一些具体实施中，使用运动预测方法来准确地预测在由相机读出或数据处理引起的延迟期间发生的手部运动。在一些具体实施中，活动传感器跟踪HMD用户的手部，例如，使用来自HMD用户的手部处的发射器的信号，该信号由HMD处的对应接收器检测以检测并跟踪HMD用户的手部。在一些具体实施中，可使用彩色图像。另选地，在一些具体实施中，可使用灰度图像。此外，在一些具体实施中，使用这些跟踪技术的组合。

在一些具体实施中，检测对象的表面可涉及首先检测对象(例如，手部)，其次检测对象的表面(例如，手掌)。在一些具体实施中，手部的检测到的表面还满足特定标准(例如，大致平坦、连续、规定的颜色、形状)。在一些具体实施中，检测对象涉及检测该对象由HMD用户的身体部位保持。

在一些具体实施中，检测特定类型(例如，手部)并具有特定表面特征(例如，可见的平坦手掌)的对象可以是用于基于对象的表面来显示CGR虚拟内容的触发条件。在一些具体实施中，附加地或另选地，可使用其他触发条件(例如，手势)发起CGR虚拟内容在HMD用户的手部处的显示(例如，手掌面向右侧并向右侧环绕)或终止CGR虚拟内容在HMD用户的手部处的显示(例如，手掌面向左侧并向左侧环绕)。

在框530处，方法500确定虚拟内容位置以显示CGR虚拟内容(例如，增强文本、内容)，其中该虚拟内容位置与对象的位置(例如，对象的表面)对应。在一些具体实施中，确定虚拟内容位置，使得对象(例如，手部)为CGR虚拟内容提供随后显示给HMD用户的已知背景(例如，颜色)。在一些具体实施中，确定虚拟内容位置，使得对象(例如，手部)为CGR虚拟内容提供随后显示给HMD用户的已知空间位置(例如，HMD用户知道其手部的位置)。

在一些具体实施中，在框530处，确定虚拟内容位置可涉及确定对象的3D表示以及识别与对象对准或在对象的前面的平面。在一些具体实施中，确定虚拟内容位置可涉及确定对象的边界，将在该边界前面呈现CGR虚拟内容。

在框530处，方法500可基于对象或物理环境的其他方面(例如，背景颜色、环境光或HMD的显示器的色调(例如，如果有的话))来确定要显示的虚拟内容的特征(例如，颜色)。在一些具体实施中，光学透视头戴式显示器显示CGR环境，其中所生成的CGR虚拟内容被HMD用户视为物理环境中的背景颜色、环境光的颜色和CGR虚拟内容的颜色的组合。因此，当在虚拟内容位置处(例如，在手部处或在手部前面)显示虚拟文本时，该虚拟文本能够以被确定为对HMD用户的可见性(例如，可读性)具有足够的对比度的颜色来提供。

在框540处，方法500提供物理环境和定位在该虚拟内容位置处的虚拟内容的视图。在一些具体实施中，CGR环境是光学透视AR。在一些具体实施中，CGR环境是视频直通AR。

如本文所述的能够在虚拟内容位置处显示的虚拟内容旨在包括由CGR环境实现的任何虚拟对象。在一些具体实施中，能够显示的虚拟内容包括关于CGR环境中的对象的信息、所接收的虚拟内容(例如，文本消息)、创建的虚拟内容、选择的虚拟内容(例如，由相机捕获的选择的图像)等。例如，该能够显示的虚拟内容可以是由相关联的相机捕获并增强的对象或视图，例如，由相机看到的小文本/图像可被放大并覆盖在用户的手部上。在一些具体实施中，响应于规定手势或当用户的手部足够靠近(例如，在阈值距离下)要增强的文本/图像时，该增强的文本/图像虚拟内容显示在用户的手部处。例如，响应于可选文本/图像附近的手势，在用户的手部处显示增强的文本/图像(例如，手掌面朝小文本/图像附近的用户抬起手部使得在用户的手部处显示文本/图像的放大版本)。

本文阐述了许多具体细节以提供对要求保护的主题的全面理解。然而，本领域的技术人员将理解，可以在没有这些具体细节的情况下实践要求保护的主题。在其他实例中，没有详细地介绍普通技术人员已知的方法、设备或系统，以便不使要求保护的主题晦涩难懂。

在一些具体实施中，系统包括非暂态计算机可读存储介质；以及一个或多个处理器，所述一个或多个处理器耦接至所述非暂态计算机可读存储介质，其中所述非暂态计算机可读存储介质包括程序指令，所述程序指令在所述一个或多个处理器上执行时，使所述系统执行本文公开的示例性方法。在一些具体实施中，非暂态计算机可读存储介质存储能够在计算机上执行以执行本文公开的示例性方法的操作的程序指令。

除非另外特别说明，否则应当理解，在整个说明书中，利用诸如“处理”、“计算”、“计算出”、“确定”和“识别”等术语的论述是指计算设备的动作或过程，诸如一个或多个计算机或类似的电子计算设备，其操纵或转换表示为计算平台的存储器、寄存器或其他信息存储设备、传输设备或显示设备内的物理电子量或磁量的数据。

本文论述的一个或多个系统不限于任何特定的硬件架构或配置。计算设备可以包括部件的提供以一个或多个输入为条件的结果的任何合适的布置。合适的计算设备包括基于多用途微处理器的计算机系统，其访问存储的软件，该软件将计算系统从通用计算设备编程或配置为实现本发明主题的一种或多种具体实施的专用计算设备。可以使用任何合适的编程、脚本或其他类型的语言或语言的组合来在用于编程或配置计算设备的软件中实现本文包含的教导内容。

本文所公开的方法的具体实施可以在这样的计算设备的操作中执行。上述示例中呈现的框的顺序可以变化，例如，可以将框重新排序、组合或者分成子框。某些框或过程可以并行执行。

本文中“适用于”或“被配置为”的使用意味着开放和包容性的语言，其不排除适用于或被配置为执行额外任务或步骤的设备。另外，“基于”的使用意味着开放和包容性，因为“基于”一个或多个所述条件或值的过程、步骤、计算或其他动作在实践中可以基于额外条件或超出所述的值。本文包括的标题、列表和编号仅是为了便于解释而并非旨在为限制性的。

还将理解的是，虽然术语“第一”、“第二”等可能在本文中用于描述各种对象，但是这些对象不应当被这些术语限定。这些术语只是用于将一个对象与另一对象区分开。例如，第一节点可以被称为第二节点，并且类似地，第二节点可以被称为第一节点，其改变描述的含义，只要所有出现的“第一节点”被一致地重命名并且所有出现的“第二节点”被一致地重命名。第一节点和第二节点都是节点，但它们不是同一个节点。

本文中所使用的术语仅仅是为了描述特定具体实施并非旨在对权利要求进行限制。如在本具体实施的描述和所附权利要求中所使用的那样，单数形式的“一个”和“该”旨在也涵盖复数形式，除非上下文清楚地另有指示。还将理解的是，本文中所使用的术语“或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是，术语“包括”或“包含”在本说明书中使用时指定存在所陈述的特征、整数、步骤、操作、对象或部件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、对象、部件或其分组。

如本文所使用的，术语“如果”可以被解释为表示“当所述先决条件为真时”或“在所述先决条件为真时”或“响应于确定”或“根据确定”或“响应于检测到”所述先决条件为真，具体取决于上下文。类似地，短语“如果确定[所述先决条件为真]”或“如果[所述先决条件为真]”或“当[所述先决条件为真]时”被解释为表示“在确定所述先决条件为真时”或“响应于确定”或“根据确定”所述先决条件为真或“当检测到所述先决条件为真时”或“响应于检测到”所述先决条件为真，具体取决于上下文。

本发明的前述具体实施方式和发明内容应被理解为在每个方面都是例示性和示例性的，而非限制性的，并且本文所公开的本发明的范围不仅由例示性具体实施的详细描述来确定，而是根据专利法允许的全部广度。应当理解，本文所示和所述的具体实施仅是对本发明原理的说明，并且本领域的技术人员可以在不脱离本发明的范围和实质的情况下实现各种修改。

Claims

1.一种方法，包括：

在具有处理器的电子设备处：

获得物理环境的图像；

基于所述图像来检测对象的表面的位置，其中所述对象是用户的身体的部分或者所述对象由所述用户保持；

确定虚拟内容位置以显示虚拟内容，所述虚拟内容位置对应于所述对象的所述表面的所述位置；以及

提供所述物理环境和定位在所述虚拟内容位置处的所述虚拟内容的视图。

2.根据权利要求1所述的方法，其中所述电子设备是光学透视头戴式显示器。

3.根据权利要求1所述的方法，其中所述对象是由所述用户的手部保持的图书或手机。

4.根据权利要求1所述的方法，其中检测对象的表面的位置包括在所述图像中检测所述用户的手部，并且其中提供所述物理环境和定位在所述虚拟内容位置处的所述虚拟内容的所述视图包括在所述手部的轮廓内在所述虚拟内容位置处显示所述虚拟内容。

5.根据权利要求4所述的方法，其中提供所述物理环境和定位在所述虚拟内容位置处的所述虚拟内容的所述视图包括使用基于所述手部的颜色、环境光或所述可穿戴显示器的颜色而选择的颜色来显示所述虚拟内容。

6.根据权利要求4所述的方法，还包括：

根据确定所述手部移动得更靠近所述电子设备来增大所述虚拟内容的尺寸；或者

根据确定所述手部移动得更远离所述电子设备来减小所述虚拟内容的所述尺寸。

7.根据权利要求1所述的方法，其中检测对象的表面的位置包括：

检测所述图像中的所述用户的手部；

确定所述手部在所述物理环境中的位置；

基于所述手部来识别平面，其中所述平面基本上正交于朝向所述手部的注视方向；以及

在所述平面上设置所述虚拟内容位置，其中提供所述物理环境和定位在所述虚拟内容位置处的所述虚拟内容的所述视图包括在所述手部的前面在所述虚拟内容位置处显示所述虚拟内容。

8.根据权利要求1所述的方法，其中所述虚拟内容位置是所述对象的所述表面的满足预先确定的标准的部分。

9.根据权利要求1所述的方法，还包括：

检测第一手势作为第一触发条件以开始在所述虚拟内容位置处提供所述虚拟内容；以及

检测第二手势作为第二触发条件以终止在所述虚拟内容位置处提供所述虚拟内容。

10.根据权利要求1所述的方法，其中所述虚拟内容包括文本、图像或视频内容。

11.根据权利要求1所述的方法，其中基于所述物理环境来选择所述虚拟内容。

12.根据权利要求1所述的方法，其中提供所述物理环境和定位在所述虚拟内容位置处的所述虚拟内容的视图包括使用基于所述对象的颜色、环境光或所述可穿戴显示器的颜色而选择的颜色来显示所述虚拟内容。

13.根据权利要求1所述的方法，其中所述虚拟内容是来自所述图像的增强内容。

14.一种系统，包括：

非暂态计算机可读存储介质；以及

一个或多个处理器，所述一个或多个处理器耦接至所述非暂态计算机可读存储介质，其中所述非暂态计算机可读存储介质包括程序指令，所述程序指令在所述一个或多个处理器上执行时，使所述系统执行包括以下操作的操作：

获得物理环境的图像；