CN117897680A

CN117897680A - 基于物理动作的增强现实通信交换

Info

Publication number: CN117897680A
Application number: CN202280059505.8A
Authority: CN
Inventors: 陈天英; 蒂莫西·庄; 斯文·克拉茨; 范妮·刘; 安德烈斯·蒙罗伊-赫尔南德斯; 奥利维亚·萧; 谭煜强; 拉詹·瓦伊什; 张磊
Original assignee: Snap Inc
Current assignee: Snap Inc
Priority date: 2021-09-01
Filing date: 2022-08-15
Publication date: 2024-04-16
Also published as: KR20240049629A; WO2023034010A1; US20230060150A1; EP4396646A1

Abstract

描述了用于基于/响应于与物理世界的交互来发送和接收增强现实(AR)对象(例如，定制的AR对象)的AR系统、设备、媒体和方法。AR虚拟递送路线覆盖响应于所选的虚拟递送路线来生成，并且包括AR对象和与虚拟递送路线相对应的递送模式(空中、隧道等)。与递送模式相关联的物理世界动作(靠近AR设备吹气或刮擦表面)导致发送与用于递送给接收者的AR对象相对应的通信，并且生成包括根据递送模式正在运动的AR对象的AR发送覆盖。

Description

基于物理动作的增强现实通信交换

相关申请的交叉引用

本申请要求2021年9月1日提交的美国临时申请序列号63/239,869的优先权，其内容通过引用完全并入本文。

技术领域

本公开中阐述的示例涉及增强现实(augmented reality，AR)设备(包括移动设备和诸如眼睛佩戴物的可穿戴设备)的领域。更特别地，但不作为限制，本公开描述了例如用于分享手工制作的AR体验的通信交换。

背景技术

当今可用的许多类型的计算机和电子设备，诸如移动设备(例如，智能手机、平板电脑和膝上型电脑)、手持设备和可穿戴设备(例如，智能眼镜、数字眼睛佩戴物、头部佩戴物、头套和头戴式显示器)包括各种各样的相机、传感器、无线收发器、输入系统和显示器。图形用户界面允许用户与显示的内容交互，这些显示的内容包括虚拟对象和图形元素(诸如图标、任务栏、列表框、菜单、按钮)以及选择控制元素(如光标、指针、手柄和滑块)。

虚拟现实(virtual reality，VR)技术生成完整的虚拟环境，包括具有真实感的图像，有时会在VR耳麦或其他头戴式显示器上呈现。VR体验允许用户在虚拟环境中移动并与虚拟对象交互。AR是VR技术的一种，其将物理环境中的真实对象与虚拟对象组合起来，并将该组合显示给用户。组合的显示给人的印象是虚拟对象真实地存在于环境中。

附图说明

从以下参照附图的详细描述中，将容易地理解所描述的各种示例的特征。在描述和整篇附图的若干个视图中，每个元件都使用附图标记。当存在多个相似元件时，单个附图标记可以被分配给类似元件，其中附加的字母指代具体元件。

除非另有指示，否则图中显示的各个元件不按比例绘制。为了清楚起见，各个元件的尺寸可以放大或缩小。这几幅图描绘了一个或多个实施方式，并且仅作为示例呈现，而不应被解释为限制性的。附图中包括以下各图：

图1A是适合于在手工制作的AR系统中使用的眼睛佩戴设备的示例硬件配置的侧(右)视图；

图1B是图1A的眼睛佩戴设备的右镜角(corner)的透视局部剖视图，描绘了右可见光相机和电路板；

图1C是图1A的眼睛佩戴设备的示例硬件配置的侧(左)视图，其示出了左可见光相机；

图1D是图1C的眼睛佩戴设备的左镜角的透视局部剖视图，描绘了左可见光相机和电路板；

图2A和图2B是手工制作的AR系统中利用的眼睛佩戴设备的示例硬件配置的后视图；

图3是三维场景、由左可见光相机捕获的左原始图像和由右可见光相机捕获的右原始图像的图形描绘；

图4是包括经由各种网络连接的可穿戴设备(例如，眼睛佩戴设备)和服务器系统的示例手工制作的AR系统的功能框图；

图5是用于图4的手工制作的AR系统的移动设备的示例硬件配置的图形表示；

图6A是用户在用于使用眼睛佩戴设备描述同时定位与地图构建的示例环境中的示意图；

图6B是用户在用于使用眼睛佩戴设备描述同时定位与地图构建的示例环境中的示意图；

图7A是在眼睛佩戴设备的显示器上控制AR对象的示例手势的透视图；

图7B是在眼睛佩戴设备的显示器上控制AR对象的另一个示例手势的透视图；

图8是示例AR主要对象(例如，图示示例中的小熊)的前视图；

图9A、图9B、图9C、图9D、图9E和图9F是用于创建和分享手工制作的AR体验的示例步骤的流程图；

图10A、图10B和图10C是包括用于AR主要对象的示例动作的显示器的透视图；

图11A、图11B和图11C是包括用于AR主要对象的示例动作的显示器的透视图；

图12A和图12B是包括用于定制AR主要对象、服饰或场景的示例图形用户界面(graphical user interface，GUI)的显示器的透视图；

图13A、图13B和图13C是包括用于发送AR主要对象的示例GUI的显示器的透视图；

图13D和图13E是包括用于接收AR主要对象的示例GUI的显示器的透视图；

图14是描绘在用户之间延伸的虚拟管道(virtual tube)的图示；以及

图15是包括用于通过虚拟隧道发送和接收AR主要对象的示例GUI的显示器的透视图。

具体实施方式

本公开内容包括用于基于/响应于与物理世界的交互来发送和接收AR对象(例如，定制的AR对象)的示例。AR虚拟递送路线覆盖响应于所选的虚拟递送路线来生成，并且包括AR对象和与虚拟递送路线相对应的递送模式。与递送模式相关联的物理世界动作导致发送与用于递送给接收者的AR对象相对应的通信，并且生成包括根据递送模式正在运动的AR对象的AR发送覆盖。

在一个示例中，用户经由虚拟载体(诸如虚拟纸飞机)发送AR对象。根据本示例，为了发送AR对象，用户可以对移动设备的屏幕吹气(这通过移动设备的传感器(诸如麦克风)检测到)，并且作为响应，虚拟载体飞走(例如，通过打开的窗口)。接收AR对象的用户可以观察到虚拟载体上的AR对象从窗户进入，并且可以通过轻击AR对象上方的屏幕上的AR对象，或者在通过增强现实设备观看时轻击AR对象来启动AR对象以供查看。

在另一个示例中，用户可以响应于用户的动作经由被定位在用户环境中的虚拟传送门(例如，管道)发送AR对象。根据本示例，用户可以用他们的食指(无论是在移动设备上显示的表面上还是由增强现实设备的相机捕获到的表面上)进行挖掘动作以产生AR管道入口。AR对象可以在AR管道入口出现在环境中时进入该AR管道入口，并且响应于用户随后轻击AR对象上方的屏幕或者在通过增强现实设备观看时轻击AR对象而被发送。在一个示例中，接收消息的用户看到带有AR盖子的AR管道出口出现。用户(例如，通过在盖子上做出滑动动作)移除AR盖子以露出AR对象。然后，用户可以通过轻击AR对象上方的屏幕上的AR对象或者在通过增强现实设备观看时轻击AR对象来启动AR对象以供查看。

以下详细描述包括说明本公开中阐述的示例的系统、方法、技术、指令序列和计算机器程序产品。出于提供对所公开主题及其相关教导的透彻理解的目的，包括了许多细节和示例。然而，相关领域的技术人员可以理解如何在没有这些细节的情况下应用相关教导。所公开主题的各方面不限于所描述的具体设备、系统和方法，因为相关教导可以以各种方式应用或实践。本文中使用的术语和命名仅是出于描述特定方面的目的，并非旨在是限制性的。一般而言，众所周知的指令实例、协议、结构和技术不一定会详细显示。

如本文中使用的术语“耦合”和“连接”是指包括链路或类似物的任何逻辑连接、光学连接、物理连接或电气连接，通过该连接，由一个系统元件产生或供应的电信号或磁信号被传递到另一个耦合或连接的系统元件。除非另有描述，否则耦合或连接的元件或设备不一定直接相互连接，并可以由中间部件、元件或通信介质分隔开，其中的一个或多个可以修改、操纵或携带电信号。术语“在……上”意味着由一个元件直接支撑，或者由元件通过集成到该元件中或被其支撑的另一个元件间接支撑。

术语“近侧”用于描述坐落在与物体或人附近、邻近或靠近的项目或项目的一部分；或者其相对于项目的另一部分更接近，这可以被描述为“远侧”。例如，项目最接近物体的一端可以被称为近侧端，而大致相对的一端可以被称为远侧端。

出于图示和讨论的目的，眼镜佩戴设备、相关联的部件以及结合相机、惯性测量单元或两者的任何其他设备(诸如附图中任一个所示的那些)的取向仅通过示例的方式给出。在操作中，眼睛佩戴设备可以在适合于眼睛佩戴设备的特定应用的任何其他方向(例如，向上、向下、侧向或任何其他取向)取向。另外，在本文中使用的范围内，任何方向性术语，诸如前、后、向内、向外、朝向、左、右、横向、纵向、向上、向下、上、下、顶、底、侧、水平、竖直和对角线，仅通过示例的方式使用，并且不限制关于如本文中构造的或以其他方式描述的任何相机或惯性测量单元的方向或取向。

先进的AR技术，诸如计算机视觉和对象跟踪，可以用于产生感知丰富的沉浸式体验。计算机视觉算法从数字图像或视频中捕获的数据中提取关于物理世界的三维数据。对象识别与跟踪算法用于检测数字图像或视频中的对象，估计其取向或位姿(pose)，并跟踪其随时间推移的运动。

术语“位姿”是指对象在特定时刻的静态位置和取向。术语“手势”是指对象(诸如手)通过一系列位姿的主动运动，有时是为了传达信号或想法。术语位姿和手势在计算机视觉和增强现实领域中有时可互换地使用。如本文中使用的，术语“位姿”或“手势”(或它们的变型)旨在包括位姿和手势两者；换言之，使用一个术语并不排除另一个术语。

各示例的额外目的、优点和新颖特征将在以下描述中部分地阐述，并且在检验以下内容和附图时对本领域技术人员而言将部分地变得显而易见，或者可以通过示例的生产或操作来获知。本主题的目的和优点可以借助于所附权利要求中特别指出的方法、工具和组合来实现和达到。

现在详细地参照附图中示出的和下面讨论的示例。

图1A是眼睛佩戴设备100的示例硬件配置的侧(右)视图，该眼睛佩戴设备100包括触摸感应输入设备或触摸板181。如图所示，触摸板181可以具有细微且不易看清的边界；可替选地，该边界可以是清晰可见的，或者包括凸起的或以其他方式的触觉边缘，该边缘向用户提供关于触摸板181的位置和边界的反馈。在其他实施方式中，眼睛佩戴设备100可以包括左侧上的触摸板。

触摸板181的表面被配置为检测手指触摸、轻击(tap)和手势(例如，移动触摸)以供与由眼睛佩戴设备在图像显示器上显示的GUI一起使用，从而允许用户以直观的方式浏览和选择菜单选项，这提高和简化了用户体验。

对触摸板181上的手指输入的检测可以启用多种功能。例如，在触摸板181上触摸任意位置可以使GUI在图像显示器上显示或高亮项目，该图像显示器可以被投射到光学组件180A、180B中的至少一个上。在触摸板181上双击可以选择项目或图标。在特定方向上(例如，从前到后、从后到前、从上到下或从下到上)滑动或轻扫手指可以使项目或图标在特定方向上滑动或滚动；例如，移动至下一个项目、图标、视频、图像、页面或幻灯片。在另一个方向上滑动手指可以在相反方向上滑动或滚动；例如，移动至上一个项目、图标、视频、图像、页面或幻灯片。触摸板181实际上可以是在眼睛佩戴设备100上的任何地方。

在一个示例中，所识别的在触摸板181上单击的手指手势发起选择或按压光学组件180A、180B的图像显示器上呈现的图像中的图形用户界面元素。基于所识别的手指手势对光学组件180A、180B的图像显示器上呈现的图像的调整可以是选择或提交光学组件180A、180B的图像显示器上的图形用户界面元素以供进一步显示或执行的主要动作。

如图所示，眼睛佩戴设备100包括右可见光相机114B。如本文中进一步描述的，两个相机114A、114B从两个单独的视点(viewpoint)捕获用于场景的图像信息。这两个捕获到的图像可以用于将三维显示投射到图像显示器上，以供用3D眼镜观看。

眼睛佩戴设备100包括具有呈现图像(诸如深度图像)的图像显示器的右光学组件180B。如图1A和图1B所示，眼睛佩戴设备100包括右可见光相机114B。眼睛佩戴设备100可以包括多个可见光相机114A、114B，其构成无源型三维相机，诸如立体相机，其中的右可见光相机114B位于右镜角110B上。如图1C-图1D所示，眼睛佩戴设备100还包括左可见光相机114A。

左可见光相机114A和右可见光相机114B对可见光范围波长敏感。可见光相机114A、114B中的每一个都具有不同的朝前面向的视场，这些视场是重叠的以使能够生成三维深度图像，例如，右可见光相机114B描绘了右视场111B。一般而言，“视场(field ofview)”是在空间中的特定位置和取向通过相机可见的场景的一部分。视场111A和视场111B具有重叠视场304(图3)。当可见光相机捕获图像时，视场111A、111B之外的对象或对象特征不会被记录在原始图像(例如，照片或图片)中。视场描述了可见光相机114A、114B的图像传感器在捕获到的给定场景的图像中拾取给定场景的电磁辐射的角度范围或程度。视场可以被表述为视锥(view cone)的角度大小；即视角。视角可以被水平、竖直或对角线地测量。

在示例配置中，一个或两个可见光相机114A、114B具有110°的视场，和480×480像素的分辨率。“覆盖角”描述了可见光相机114A、114B或红外相机410(参见图2A)的透镜能够有效成像的角度范围。典型地，相机透镜产生的像圈(image circle)足够大到完全覆盖相机的胶片或传感器，可能包括一些暗角(vignetting)(例如，与中心相比时，图像朝向边缘变暗)。如果相机透镜的覆盖角没有填满传感器，则像圈将是可见的，典型地朝向边缘具有强烈的暗角，并且有效视角将受限于覆盖角。

这样的可见光相机114A、114B的示例包括高分辨率互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)图像传感器和数字VGA(videographic array，视频图形阵列)相机，其能够具有480p(例如，640×480像素)、720p、1080p或更高的分辨率。其他示例包括能够以高帧速率(例如，每秒三十至六十帧或更高)捕获高清晰度(high-definition，HD)视频并以1216×1216像素(或更高)的分辨率存储该记录的可见光相机114A、114B。

眼睛佩戴设备100可以从可见光相机114A、114B捕获图像传感器数据连同地理位置数据，这些数据由图像处理器数字化以存储在存储器中。可见光相机114A、114B在二维空间域中捕获相应的左原始图像和右原始图像，这些图像包括二维坐标系上的像素矩阵，该二维坐标系包括用于水平位置的X轴和用于竖直位置的Y轴。每个像素包括颜色属性值(例如，红色像素光值、绿色像素光值或蓝色像素光值)；和位置属性(例如，X轴坐标和Y轴坐标)。

为了捕获立体图像以供稍后显示为三维投影，图像处理器412(图4所示)可以被耦合到可见光相机114A、114B，以接收和存储视觉图像信息。图像处理器412或另一个处理器控制可见光相机114A、114B的操作，以充当模拟人类双眼视觉的立体相机，并且可以将时间戳添加到每幅图像。每对图像上的时间戳允许将图像一起显示为三维投影的一部分。三维投影产生沉浸式逼真体验，这种体验在包括虚拟现实(VR)和视频游戏的各种情境下都是期望的。

图1B是图1A的眼睛佩戴设备100的右镜角110B的透视横剖面视图，描绘了相机系统的右可见光相机114B和电路板。图1C是图1A的眼睛佩戴设备100的示例硬件配置的侧(左)视图，其示出了相机系统的左可见相机114A。图1D是图1C的眼睛佩戴设备的左镜角110A的透视横剖面视图，描绘了三维相机的左可见光相机114A和电路板。

左可见光相机114A的构造和放置与右可见光相机114B基本上相似，除了连接和耦合是在左横向侧170A上。如图1B的示例所示，眼睛佩戴设备100包括右可见光相机114B和电路板140B，该电路板140B可以是柔性印刷电路板(flexible printed circuit，PCB)。右铰链126B将右镜角110B连接到眼睛佩戴设备100的右镜腿125B。在一些示例中，右可见光相机114B、柔性PCB 140B或其他电连接器或触点的部件可以位于右镜腿125B或右铰链126B上。左铰链126B将左镜角110A连接到眼睛佩戴设备100的左镜腿125A。在一些示例中，左可见光相机114A、柔性PCB 140A或其他电连接器或触点的部件可以位于左镜腿125A或左铰链126A上。

右镜角110B包括镜角体190和镜角帽，图1B的横剖面中省略了镜角帽。设置在右镜角110B内部的是各种互连的电路板，诸如PCB或柔性PCB，其包括用于右可见光相机114B、(一个或多个)麦克风、低功率无线电路系统(例如用于经由Bluetooth^TM的无线短程网络通信)、高速无线电路系统(例如用于经由Wi-Fi的无线局域网通信)的控制器电路。

右可见光相机114B被耦合到或设置在柔性PCB 140B上，并且由可见光相机盖透镜覆盖，该可见光相机盖透镜通过镜架105中形成的(一个或多个)开口对准。例如，图2A所示的镜架105的右镜缘107B被连接到右镜角110B，并且包括用于可见光相机盖透镜的(一个或多个)开口。镜架105包括配置为面向外部并远离用户眼睛的前侧。用于可见光相机盖透镜的开口形成在镜架105的前侧或面向外部的一侧上并穿过该侧。在示例中，右可见光相机114B具有面向外部的视场111B(如图3所示)，其视线或视角与眼睛佩戴设备100的用户的右眼相关。可见光相机盖透镜也可以被粘附到右镜角110B的前侧或面向外部的表面，其中开口被形成有面向外部的覆盖角，但是在不同的向外方向上。该耦合也可以是经由中介部件的间接耦合。

如图1B所示，柔性PCB 140B被设置在右镜角110B内部并被耦合到容纳在右镜角110B中的一个或多个其他部件。尽管显示为被形成在右镜角110B的电路板上，但是右可见光相机114B还可以被形成在左镜角110A、镜腿125A、125B或镜架105的电路板上。

图2A和图2B是包括两种不同类型的图像显示器的眼睛佩戴设备100的示例硬件配置的从后面看的透视图。眼睛佩戴设备100的尺寸和形状被设计成配置以供用户佩戴的形式；示例中显示的是眼镜的形式。眼睛佩戴设备100还可以采取其他形式，并且可以结合其他类型的框架，例如，头套、耳机或头盔。

在眼镜示例中，眼睛佩戴设备100包括镜架105，该镜架105包括左镜缘107A，该左镜缘107A经由适于由用户鼻子支撑的鼻梁架(bridge)106被连接到右镜缘107B。左镜缘107A和右镜缘107B包括相应的孔口175A、175B，其保持相应的光学元件180A、180B，诸如透镜和显示器设备。如本文中使用的术语“透镜”意指包括透明或半透明的玻璃片或塑料片，其具有弯曲和平坦表面使光会聚/发散，或很少或没有会聚/发散。

尽管显示为具有两个光学元件180A、180B，但是取决于眼睛佩戴设备100的应用或预期用户，眼睛佩戴设备100可以包括其他布置，诸如单个光学元件(或者它可以不包括任何光学元件180A、180B)。如进一步所示，眼睛佩戴设备100包括与镜架105的左横向侧170A相邻的左镜角110A和与镜架105的右横向侧170B相邻的右镜角110B。镜角110A、110B可以在相应侧170A、170B上被集成到镜架105中(如图所示)，也可以被实施为在相应侧170A、170B上附接到镜架105的单独部件。可替选地，镜角110A、110B可以被集成到附接到镜架105的镜腿(未示出)中。

在一个示例中，光学组件180A、180B的图像显示器包括集成图像显示器。如图2A所示，每个光学组件180A、180B包括合适的显示器矩阵177，诸如液晶显示器(liquid crystaldisplay，LCD)、有机发光二极管(organic light-emitting diode，OLED)显示器或任何其他这样的显示器。每个光学组件180A、180B还包括一个或多个光学层176，该光学层176可以包括透镜、光学涂层、棱镜、反射镜、波导、光学条和其他任意组合的光学部件。光学层176A、176B、……、176N(在图2A和本文中显示为176A-N)可以包括棱镜，该棱镜具有合适的尺寸和构造，并且包括用于从显示器矩阵接收光线的第一表面和用于向用户眼睛发射光线的第二表面。光学层176A-176N的棱镜在左镜缘107A和右镜缘107B中形成的相应孔口175A、175B的全部或至少一部分上方延伸，以允许用户在用户眼睛通过对应的左镜缘107A和右镜缘170B观看时看到该棱镜的第二表面。光学层176A-176N的棱镜的第一表面从镜架105面向上并且显示器矩阵177覆盖在棱镜上，以便由显示器矩阵177发射的光子和光线撞击第一表面。棱镜的尺寸和形状被设计成使得光线在棱镜内折射并由光学层176A-176N的棱镜的第二表面引导朝向用户眼睛。在这方面，光学层176A-176N的棱镜的第二表面可以是凸面，以将光线引导朝向眼睛的中心。可选地，棱镜的尺寸和形状被设计成放大由显示器矩阵177投射的图像，并且光线行进穿过棱镜，以便从第二表面观看的图像在一个或多个维度上比从显示器矩阵177发射的图像更大。

在一个示例中，光学层176A-176N可以包括LCD层，该层是透明的(保持透镜开启)，除非并直到施加电压使该层不透明(关闭或阻挡透镜)。眼睛佩戴设备100上的图像处理器412可以执行编程以将电压施加到LCD层，以便产生主动快门(active shutter)系统，使得眼睛佩戴设备100适合于当显示为三维投影时观看视觉内容。除LCD以外的技术可用于主动快门模式，包括响应电压或另一种类型输入的其他类型的反应层。

在另一个示例中，光学组件180A、180B的图像显示器设备包括如图2B所示的投影图像显示器。每个光学组件180A、180B包括激光投影仪150，该激光投影仪150是使用扫描镜或振镜(galvanometer)的三色激光投影仪。在操作期间，光源诸如激光投影仪150被设置在眼睛佩戴设备100的镜腿125A、125B中的一个中或其上。本示例中的光学组件180B包括一个或多个光学条155A、155B、……、155N(在图2B中显示为155A-N)，这些光学条被间隔开，并跨过每个光学组件180A、180B的透镜宽度，或跨过该透镜的前表面与后表面之间的透镜深度。

在由激光投影仪150投射的光子行进穿过每个光学组件180A、180B的透镜时，光子遇到光学条155A-155N。当特定光子遇到特定光学条时，该光子转向用户的眼睛，或传到下一个光学条。对激光投影仪150的调制和对光学条的调制的组合可以控制具体的光子或光束。在示例中，处理器通过起动机械信号、声学信号或电磁信号来控制光学条155A-155N。尽管显示为具有两个光学组件180A、180B，但是眼睛佩戴设备100可以包括其他布置，诸如单个或三个光学组件，或者取决于眼睛佩戴设备100的应用或预期用户，每个光学组件180A、180B可以具有布置不同的布置。

如图2A和图2B进一步所示，眼睛佩戴设备100包括与镜架105的左横向侧170A相邻的左镜角110A和与镜架105的右横向侧170B相邻的右镜角110B。镜角110A、110B可以在相应横向侧170A、170B上被集成到镜架105中(如图所示)，也可以被实施为在相应侧170A、170B上附接到镜架105的单独部件。可替选地，镜角110A、110B可以被集成到附接到镜架105的镜腿125A、125B中。

在另一个示例中，图2B所示的眼睛佩戴设备100可以包括两个投影仪，左投影仪(未示出)和右投影仪150。左光学组件180A可以包括左显示器矩阵177或左光学条集合(未示出)，其被配置为与来自左投影仪的光线相互作用。相似地，右光学组件180B可以包括右显示器矩阵(未示出)或右光学条集合155A、155B、……、155N(未示出)，它们被配置为与来自右投影仪150的光线相互作用。在本示例中，眼睛佩戴设备100包括左显示器和右显示器。

图3是三维场景306、由左可见光相机114A捕获的左原始图像302A以及由右可见光相机114B捕获的右原始图像302B的图形描绘。如图所示，左视场111A可以与右视场111B重叠。重叠视场304表示由两个相机114A、114B捕获的图像的那部分。当提到视场时，术语“重叠”意味着所生成的原始图像中的像素矩阵重叠了百分之三十(30％)或更多。“基本重叠”意味着所生成的原始图像或场景的红外图像中的像素矩阵重叠了百分之五十(50％)或更多。如本文中描述的，两个原始图像302A、302B可以被处理以包括时间戳，这允许将图像作为三维投影的一部分一起显示。

对于立体图像的捕获，如图3所示，在给定时刻捕获真实场景306的一对原始红、绿和蓝(red,green,and blue，RGB)图像——由左相机114A捕获的左原始图像302A和由右相机114B捕获的右原始图像302B。当(例如，由图像处理器412)处理这对原始图像302A、302B时，生成深度图像。所生成的深度图像可以在眼睛佩戴设备的光学组件180A、180B上、在另一个显示器(例如，移动设备401上的图像显示器580)上或在屏幕上观看。同样地，移动设备401的相机570(图5)可以用于捕获真实场景306的图像以供(例如，由CPU 530)处理以生成深度图像。

所生成的深度图像在三维空间域中，并可以包括三维位置坐标系上的顶点矩阵，该坐标系包括用于水平位置(例如，长度)的X轴、用于竖直位置(例如，高度)的Y轴和用于深度(例如，距离)的Z轴。每个顶点可以包括颜色属性(例如，红色像素光值、绿色像素光值、或蓝色像素光值)；位置属性(例如，X位置坐标、Y位置坐标和Z位置坐标)；纹理属性；反射率属性；或它们的组合。纹理属性量化深度图像的感知纹理，诸如深度图像的顶点区域中的颜色或强度的空间布置。

在一个示例中，手工制作的AR系统400(图4)包括眼睛佩戴设备100，该眼睛佩戴设备100包括镜架105以及从镜架105的左横向侧170A延伸的左镜腿125A和从镜架105的右横向侧170B延伸的右镜腿125B。眼睛佩戴设备100还可以包括至少两个具有重叠视场的可见光相机114A、114B。在一个示例中，如图3所示，眼睛佩戴设备100包括具有左视场111A的左可见光相机114A。左相机114A被连接到镜架105或左镜腿125A以从场景306的左侧捕获左原始图像302A。眼睛佩戴设备100还包括具有右视场111B的右可见光相机114B。右相机114B被连接到镜架105或右镜腿125B以从场景306的右侧捕获右原始图像302B。

图4是示例手工制作的AR系统400的功能框图，该系统400包括经由各种网络495(诸如互联网)连接的可穿戴设备(例如，眼睛佩戴设备100)、移动设备401和服务器系统498。手工制作的AR系统400包括眼睛佩戴设备100与移动设备401之间的低功率无线连接425和高速无线连接437。

如图4所示，眼睛佩戴设备100包括一个或多个可见光相机114A、114B，其捕获静态图像、视频图像、或静态图像和视频图像两者，如本文中描述的那样。相机114A、114B可以具有对高速电路系统430的直接存储器访问(direct memory access，DMA)并充当立体相机。相机114A、114B可以用于捕获初始深度图像，该图像可以被渲染成三维(three-dimensional，3D)模型，该三维模型是红色、绿色和蓝色(RGB)成像场景的纹理映射的图像。设备100还可以包括深度传感器213，其使用红外信号来估计对象相对于设备100的位置。在一些示例中，深度传感器213包括一个或多个红外发射器215和一个或多个红外相机410。

眼睛佩戴设备100还包括(每个光学组件180A、180B的)两个图像显示器(一个与左侧170A相关联，一个与右侧170B相关联)。眼睛佩戴设备100还包括图像显示器驱动器442、图像处理器412、低功率电路系统420以及高速电路系统430。每个光学组件180A、180B的图像显示器用于呈现图像，包括静态图像、视频图像、或静态和视频图像。图像显示器驱动器442被耦合到每个光学组件180A、180B的图像显示器，以便控制图像的显示。

此外，眼睛佩戴设备100包括一个或多个扬声器440(例如，一个与眼睛佩戴设备的左侧相关联，另一个与眼睛佩戴设备的右侧相关联)。扬声器440可以被结合到眼睛佩戴设备100的镜架105、镜腿125或镜角110中。一个或多个扬声器440在低功率电路系统420、高速电路系统430或两者的控制下由音频处理器443驱动。扬声器440用于呈现音频信号，包括例如节拍音轨。音频处理器443被耦合到扬声器440以便控制声音的呈现。

图4所示的用于眼睛佩戴设备100的部件位于一个或多个电路板上，例如位于镜缘或镜腿中的印刷电路板(PCB)或柔性印刷电路(FPC)上。另外地或可替选地，所描绘的部件可以位于眼睛佩戴设备100的镜角、镜架、铰链或鼻梁架中。左可见光相机114A和右可见光相机114B可以包括数码相机元件，诸如互补金属-氧化物-半导体(CMOS)图像传感器、电荷耦合器件、透镜、或者可以用于捕获数据(包括具有未知对象的场景的静态图像或视频)的任何其他相应的可见光或光捕获元件。

如图4所示，高速电路系统430包括高速处理器432、存储器434和高速无线电路系统436。在本示例中，图像显示器驱动器442被耦合到高速电路系统430，并由高速处理器432操作，以便驱动每个光学组件180A、180B的左图像显示器和右图像显示器。高速处理器432可以是能够管理眼睛佩戴设备100所需的任何通用计算系统的高速通信和操作的任何处理器。高速处理器432包括使用高速无线电路系统436管理到无线局域网(wireless localarea network，WLAN)的高速无线连接437上的高速数据传输所需的处理资源。

在一些示例中，高速处理器432执行操作系统(诸如LINUX操作系统或眼睛佩戴设备100的其他这样的操作系统)，并且操作系统被存储在存储器434中以供执行。除了任何其他职责以外，高速处理器432还执行用于眼睛佩戴设备100的软件架构，该软件架构用于管理与高速无线电路系统436的数据传输。在一些示例中，高速无线电路系统436被配置为实施电气与电子工程师协会(Electrical and Electronic Engineers，IEEE)802.11通信标准，本文中也被称为Wi-Fi。在其他示例中，其他高速通信标准可以由高速无线电路系统436实施。

低功率电路系统420包括低功率处理器422和低功率无线电路系统424。眼睛佩戴设备100的低功率无线电路系统424和高速无线电路系统436可以包括短程收发器(Bluetooth^TM或蓝牙低能量(Bluetooth Low-Energy，BLE))以及无线广域网、局域网或广域网收发器(例如，蜂窝或Wi-Fi)。移动设备401(包括经由低功率无线连接425和高速无线连接437进行通信的收发器)可以使用眼睛佩戴设备100的架构的细节来实施，网络495的其他元件也可以如此。

存储器434包括能够存储各种数据和应用的任何存储设备，其中除了别的以外，还包括由左可见光相机114A、右可见光相机114B、(一个或多个)红外相机410和图像处理器412生成的相机数据，以及由图像显示器驱动器442生成以供在每个光学组件180A、180B的图像显示器上显示的图像。虽然存储器434被显示为与高速电路系统430集成，但是在其他示例中，存储器434可以是眼睛佩戴设备100的独立的单独元件。在某些这样的示例中，电气路由线路可以提供通过包括高速处理器432的芯片从图像处理器412或低功率处理器422到存储器434的连接。在其他示例中，高速处理器432可以管理存储器434的寻址，使得低功率处理器422将在需要涉及存储器434的读取或写入操作的任何时候启动高速处理器432。

如图4所示，眼睛佩戴设备100的高速处理器432可以被耦合到相机系统(可见光相机114A、114B)、图像显示器驱动器442、用户输入设备491和存储器434。如图5所示，移动设备401的CPU 530可以被耦合到相机系统570、移动显示器驱动器582、用户输入层591和存储器540A。

服务器系统498可以是作为服务或网络计算系统的一部分的一个或多个计算设备，例如，这些计算设备包括处理器、存储器和网络通信接口，以通过网络495与眼睛佩戴设备100和移动设备401通信。

眼睛佩戴设备100的输出部件包括视觉元件，诸如与如图2A和图2B中描述的每个透镜或光学组件180A、180B相关联的左图像显示器和右图像显示器(例如，显示器，诸如液晶显示器(LCD)、等离子体显示面板(plasma display panel，PDP)、发光二极管(LED)显示器、投影仪或波导)。眼睛佩戴设备100可以包括面向用户的指示器(例如，LED、扩音器或振动致动器)，或面向外部的信号(例如，LED、扩音器)。每个光学组件180A、180B的图像显示器都由图像显示器驱动器442驱动。在一些示例配置中，眼睛佩戴设备100的输出部件还包括额外的指示器，诸如听觉元件(例如，扩音器)、触觉部件(例如，产生触觉反馈的致动器诸如振动马达)和其他信号发生器。例如，设备100可以包括面向用户的指示器集合和面向外部的信号集合。面向用户的指示器集合被配置为由设备100的用户看到或以其他方式感知到。例如，设备100可以包括定位成使得用户能看到它的LED显示器，定位成产生用户能听到的声音的一个或多个扬声器，或提供用户能感觉到的触觉反馈的致动器。面向外部的信号集合被配置为由设备100附近的观察者看到或以其他方式感知到。相似地，设备100可以包括被配置和定位成由观察者感知到的LED、扩音器或致动器。

眼睛佩戴设备100的输入部件可以包括字母数字输入部件(例如，被配置为接收字母数字输入的触摸屏或触摸板、光电键盘、或其他字母数字配置的元件)，基于指针的输入部件(例如，鼠标、触摸板、轨迹球、操纵杆、运动传感器、或其他指向工具)、触觉输入部件(例如，按钮开关、感测触摸或触摸手势的位置、力度或位置和力度的触摸屏或触摸板、或其他触觉配置的元件)、以及音频输入部件(例如，麦克风)等。移动设备401和服务器系统498可以包括字母数字输入部件、基于指针的输入部件、触觉输入部件、音频输入部件和其他输入部件。

在一些示例中，眼睛佩戴设备100包括运动感测部件的集合(被称为惯性测量单元472)。运动感测部件可以是具有微小移动零件(通常小到足以成为微芯片的一部分)的微机电系统(micro-electro-mechanical system，MEMS)。在一些示例配置中，惯性测量单元(inertial measurement unit，IMU)472包括加速度计、陀螺仪和磁力计。加速度计感测到设备100相对于三个正交轴(x，y，z)的线性加速度(包括重力加速度)。陀螺仪感测到设备100围绕三个旋转轴(俯仰，滚转，偏航)的角速度。加速度计和陀螺仪可以共同提供该设备相对于六个轴(x，y，z，俯仰，滚动，偏航)的位置、取向和运动数据。磁力计(如果存在的话)感测到设备100相对于磁北(magnetic north)的航向。设备100的位置可以由位置传感器确定，诸如GPS单元、一个或多个用于生成相对位置坐标的收发器、高度传感器或气压计以及其他取向传感器。这样的定位系统坐标也可以经由低功率无线电路系统424或高速无线电路系统436从移动设备401通过无线连接425、437接收。

IMU 472可以包括数字运动处理器或编程，或者与其协作，该数字运动处理器或编程从各部件收集原始数据，并计算关于设备100的位置、取向和运动的许多有用值。例如，从加速度计收集到的加速度数据可以被积分以获得相对于每个轴(x，y，z)的速度；再次积分以获得设备100的位置(在线性坐标x、y和z中)。来自陀螺仪的角速度数据可以被积分以获得设备100的位置(在球坐标中)。用于计算这些有用值的编程可以被存储在存储器434中，并由眼睛佩戴设备100的高速处理器432执行。

可选地，眼睛佩戴设备100可以包括额外的外围传感器，诸如生物识别传感器、专业传感器、或与眼睛佩戴设备100集成的显示器元件。例如，外围设备元件可以包括任何I/O部件，包括本文中描述的输出部件、运动部件、位置部件或任何其他这样的元件。例如，生物识别传感器可以包括用于检测表情(例如，手部表情、面部表情、声音表情、身体姿势、或眼睛跟踪)，测量生物信号(例如，血压、心率、体温、汗液、或脑波)，识别个人(例如，基于声音、视网膜、面部特征、指纹、或电生物信号诸如脑电图数据的标识)和类似物的部件。

移动设备401可以是智能手机、平板电脑、膝上型计算机、接入点、或能够使用低功率无线连接425和高速无线连接437两者与眼睛佩戴设备100连接的任何其他这样的设备。移动设备401被连接到服务器系统498和网络495。网络495可以包括有线连接和无线连接的任何组合。

如图4所示，手工制作的AR系统400包括通过网络耦合到眼睛佩戴设备100的计算设备，诸如移动设备401。手工制作的AR系统400包括用于存储指令的存储器和用于执行指令的处理器。由处理器432执行手工制作的AR系统400的指令将眼睛佩戴设备100配置为与移动设备401协作。手工制作的AR系统400可以利用眼睛佩戴设备100的存储器434或移动设备401的存储器元件540A、540B、540C(图5)。另外，手工制作的AR系统400还可以利用眼睛佩戴设备100的处理器元件432、422或移动设备401的中央处理单元(central processingunit，CPU)530(图5)。此外，手工制作的AR系统400还可以利用服务器系统498的存储器元件和处理器元件。在这方面，手工制作的AR系统400的存储器和处理功能可以跨眼睛佩戴设备100、移动设备401和服务器系统498的处理器和存储器共享或分布。

在一些示例实施方式中，存储器434包括手势库480或者与其耦合。手势的库480包括大量的位姿和手势，手处于各种位置和取向。存储的位姿和手势适合于随时与在图像中检测到的手形进行比较。库480包括用于从手腕到指尖的大量标志点(landmark)的三维坐标。例如，存储在库480中的手势记录可以包括手势标识符(例如，指向手指、拇指和手指做出L形、握紧拳头、张开手掌、放松状态的手、抓握物体、捏紧、摊开)、视点或方向基准(例如，手掌侧可见、手背、侧向)以及关于取向的其他信息，连同用于手腕、十五个指间关节、五个指尖和其他骨骼或软组织标志点的三维坐标。在一些实施方式中，检测手形的过程涉及将一个或多个捕获到的视频数据帧中的像素级数据与存储在库480中的手势进行比较，直到找到良好的匹配为止。

此外，在一些示例实施方式中，存储器434包括对象控制应用481、定位系统482和图像处理系统483。在相机正在捕获视频数据的帧的手工制作的AR系统400中，对象控制应用481将处理器432配置为响应于例如经由相机系统或在显示器的用户输入层上检测到一个或多个手形或手势而控制AR对象608在显示器上的运动。定位系统482将处理器432配置为获得用于确定眼睛佩戴设备100相对于物理环境的位置的定位数据。该定位数据可以从一系列图像、IMU单元472、GPS单元、或它们的组合中推导出来。图像处理系统483将处理器432配置为与图像显示器驱动器442和图像处理器412协作在光学组件180A、180B的显示器上呈现捕获到的静态图像。

图5是示例移动设备401的高级功能框图。移动设备401包括闪存540A，其存储要由CPU 530执行的编程以实施本文中描述的所有功能或功能子集。移动设备可以包括一个或多个扬声器。一个或多个扬声器在CPU 530的控制下由音频处理器驱动。扬声器用于呈现音频信号，包括例如音频节拍。音频处理器443被耦合到扬声器440以便控制声音的呈现。

移动设备401可以包括相机570，该相机570包括至少两个可见光相机(具有重叠视场的第一可见光相机和第二可见光相机)或至少一个可见光相机，以及具有基本重叠视场的深度传感器。闪存540A还可以包括经由相机570生成的多个图像或视频。

如图所示，移动设备401包括图像显示器580、控制图像显示器580的移动显示器驱动器582、和显示器控制器584。在图5的示例中，图像显示器580包括用户输入层591(例如，触摸屏)，该用户输入层591被层叠在由图像显示器580使用的屏幕之上或以其他方式集成到该屏幕中。

可使用的触摸屏型移动设备的示例包括(但不限于)智能手机、个人数字助理(personal digital assistant，PDA)、平板计算机、膝上型计算机或其他便携式设备。然而，触摸屏型设备的结构和操作是作为示例提供的；如本文中描述的主题技术并不旨在限于此。因此，出于该讨论的目的，图5提供了具有用户界面的示例移动设备401的框图图示，该用户界面包括用于接收输入(通过用手、触控笔或其他工具的触摸、多点触摸或手势等)的触摸屏输入层891和用于显示内容的图像显示器580。

如图5所示，移动设备401包括至少一个数字收发器(transceiver，XCVR)510，示出为WWAN XCVR，以用于经由广域无线移动通信网络进行数字无线通信。移动设备401还包括额外的数字或模拟收发器，诸如用于短程网络通信(诸如经由NFC、VLC、DECT、ZigBee、Bluetooth^TM或Wi-Fi)的短程收发器(XCVR)520。例如，短程XCVR 520可以采取任何可用的双向无线局域网(WLAN)收发器的形式，其类型与无线局域网中实施的一个或多个标准通信协议兼容，诸如IEEE 802.11下的Wi-Fi标准中的一者。

为了生成用于定位移动设备401的位置坐标，移动设备401可以包括全球定位系统(global positioning system，GPS)接收器。可替选地或另外地，移动设备401可以利用短程XCVR 520和WWAN XCVR 510中的任一者或两者，以生成位置坐标进行定位。例如，基于蜂窝网络、Wi-Fi或Bluetooth^TM的定位系统可以生成非常准确的位置坐标，特别是在结合使用时。这样的位置坐标可以经由XCVR 510、520通过一个或多个网络连接被传送到眼睛佩戴设备。

在一些示例中，客户端设备401包括运动感测部件的集合(被称为惯性测量单元(IMU)572)以用于感测客户端设备401的位置、取向和运动。运动感测部件可以是具有微小移动零件(通常小到足以成为微芯片的一部分)的微机电系统(MEMS)。在一些示例配置中，惯性测量单元(IMU)572包括加速度计、陀螺仪和磁力计。加速度计感测到客户端设备401相对于三个正交轴(x，y，z)的线性加速度(包括重力加速度)。陀螺仪感测到客户端设备401围绕三个旋转轴(俯仰，滚动，偏航)的角速度。加速度计和陀螺仪可以共同提供设备相对于六个轴(x，y，z，俯仰，滚动，偏航)的位置、取向和运动数据。磁力计(如果存在的话)感测到客户端设备401相对于磁北的航向。

IMU 572可以包括数字运动处理器或编程，或者与其协作，该数字运动处理器或编程从各部件收集原始数据，并计算关于客户端设备401的位置、取向和运动的许多有用值。例如，从加速度计收集到的加速度数据可以被积分以获得相对于每个轴(x，y，z)的速度；再次积分以获得客户端设备401的位置(在线性坐标x、y和z中)。来自陀螺仪的角速度数据可以被积分以获得客户端设备401的位置(在球坐标中)。用于计算这些有用值的编程可以被存储在一个或多个存储器元件540A、540B、540C中，并由客户端设备401的CPU 530执行。

收发器510、520(即，网络通信接口)符合由现代移动网络利用的各种数字无线通信标准中的一种或多种标准。WWAN收发器510的示例包括(但不限于)配置为根据码分多址(Code Division Multiple Access，CDMA)和第三代合作伙伴计划(3rd GenerationPartnership Project，3GPP)网络技术(例如，包括但不限于3GPP类型2(或3GPP2)和LTE，有时被称为“4G”)进行操作的收发器。例如，收发器510、520提供信息(包括数字化音频信号、静态图像和视频信号、用于显示的web页面信息以及与web相关的输入)的双向无线通信，以及去往/来自移动设备401的各种类型的移动消息通信。

移动设备401还包括充当中央处理单元(CPU)的微处理器；如图4中的CPU 530所示。处理器是具有以下这样的元件的电路，这些元件被结构化和布置为执行一个或多个处理功能，典型地执行各种数据处理功能。尽管可以使用分立逻辑部件，但是示例利用构成可编程CPU的部件。例如，微处理器包括一个或多个集成电路(integrated circuit，IC)芯片，该IC芯片结合执行CPU功能的电子元件。例如，CPU 530可以基于任何已知或可用微处理器架构，诸如使用ARM架构的精简指令集计算(Reduced Instruction Set Computing，RISC)，正如当今在移动设备和其他便携式电子设备中常用的。当然，处理器电路系统的其他布置可以用于构成智能手机、膝上型计算机和平板电脑中的CPU 530或处理器硬件。

CPU 530用作用于移动设备401的可编程主控制器，通过将移动设备401配置为例如根据可由CPU 530执行的指令或编程来执行各种操作。例如，这样的操作可以包括移动设备的各种通用操作，以及与用于移动设备上的应用的编程相关的操作。尽管处理器可以通过使用硬连线逻辑来配置，但是移动设备中典型的处理器是通过执行编程来配置的通用处理电路。

移动设备401包括用于存储编程和数据的存储器或存储系统。在示例中，根据需要，存储器系统可以包括闪存540A、随机存取存储器(random-access memory，RAM)540B和其他存储器部件540C。RAM 540B用作由CPU 530处理的指令和数据的短期存储，例如，作为工作数据处理存储器。闪存540A典型地提供长期存储。

因此，在移动设备401的示例中，闪存540A用于存储由CPU 530执行的编程或指令。取决于设备的类型，移动设备401存储并运行移动操作系统，通过该移动操作系统执行具体应用。移动操作系统的示例包括Google Android、Apple iOS(针对iPhone或iPad设备)、Windows Mobile、Amazon Fire OS、RIM BlackBerry OS或类似系统。

此外，在一些示例实施方式中，存储器540可以包括对象控制应用481、定位系统482和图像处理系统483，这些在上面参照眼镜佩戴设备100讨论过。在相机570正在捕获视频数据的帧的移动设备401中，对象控制应用481将CPU 530配置为响应于例如在显示器的用户输入层上检测到一个或多个手势而控制AR对象608在显示器上的运动。定位系统482将CPU 530配置为获得用于确定移动设备401相对于物理环境的位置的定位数据。该定位数据可以从一系列图像、IMU单元572、GPS单元、或它们的组合中推导出来。图像处理系统483将CPU 530配置为与图像显示器驱动器582协作在显示器上呈现捕获到的静态图像。

眼睛佩戴设备100内的处理器432或移动设备401内的CPU 530构建相应的眼睛佩戴设备100或移动设备401周围的环境的地图，确定眼睛佩戴设备/移动设备在地图环境内的地点，并且确定眼睛佩戴设备/移动设备与地图环境中的一个或多个AR或物理对象的相对位置。处理器432/530使用应用于从一个或多个传感器接收到的数据的同时定位与地图构建(simultaneous localization and mapping，SLAM)算法来构建地图并确定地点和位置信息。传感器数据包括从相机114A、114B、570中的一者或两者接收到的图像、从激光测距仪接收到的(一个或多个)距离、从GPS单元接收到的位置信息、从IMU 472/572接收到的运动和加速度数据、或者来自这样的传感器的或来自提供在确定位置信息方面有用的数据的其他传感器的数据的组合。

在AR的情境下，SLAM算法用于构建和更新环境的地图，同时跟踪和更新设备(或用户)在地图环境内的地点。数学解(solution)可以使用各种统计方法来近似，诸如粒子滤波、卡尔曼滤波、扩展卡尔曼滤波和协方差交集。在一个示例中，系统包括以高帧速率(例如，每秒三十帧)捕获视频的高清晰度(HD)摄像机，SLAM算法更新地图和对象地点的频率至少与帧速率相同；换言之，每秒计算和更新地图构建与定位三十次。

传感器数据包括从一个或两个相机114A、114B、570接收到的(一个或多个)图像，从激光测距仪接收到的(一个或多个)距离，从GPS单元接收到的位置信息，从IMU 472/572接收到的运动和加速度数据，或者来自这样的传感器的或来自提供在确定位置信息方面有用的数据的其他传感器的数据的组合。

图6A描绘了示例物理环境600以及在将SLAM应用和其他类型的跟踪应用(例如，自然特征跟踪(natural feature tracking，NFT))与AR设备诸如眼镜佩戴设备100一起使用时有用的元素。眼睛佩戴设备100的用户602出现在示例物理环境600中(在图6中，该物理环境是室内房间)。眼睛佩戴设备100的处理器432使用捕获到的图像确定其相对于环境600内的一个或多个对象604的位置，使用针对环境600的坐标系(x，y，z)构建环境600的地图，并确定其在坐标系内的位置。此外，处理器432通过使用与单个对象604a相关联的两个或更多个位置点(例如，三个位置点606a、606b和606c)或者通过使用与两个或更多个对象604a、604b、604c相关联的一个或多个位置点606，来确定眼睛佩戴设备100在环境内的头部位姿(滚动、俯仰和偏航)。眼睛佩戴设备100的处理器432可以将AR对象608(诸如图6A和图6B所示的小熊)定位在环境600内，以供在AR体验期间观看。AR对象608可以例如基于位置坐标与环境600中的表面(诸如桌子609的桌面611)相关联。

在一些示例中，定位系统482将虚拟标记610a与环境600中的AR对象608关联起来。在AR中，标记被登记在环境中的位置处，以协助设备完成跟踪和更新用户、设备和对象(虚拟对象和物理对象)在地图环境中的位置的任务。标记有时被登记为高对比度物理对象，诸如安装在浅色墙壁上的相对较暗的对象(诸如带框图片604a)，以协助相机和其他传感器完成检测标记的任务。标记可以被预先分配，也可以在进入环境时由眼睛佩戴设备100分配。

标记可以用信息编码或以其他方式链接到信息。标记可能包括位置信息、物理代码(诸如条形码或QR码；对用户可见或隐藏)或它们的组合。与标记相关联的数据集合被存储在眼睛佩戴设备100的存储器434中。数据集合包括关于标记610a、标记位置(地点和取向)、一个或多个虚拟对象或它们的组合的信息。该标记位置可以包括针对一个或多个标记标志点616a的三维坐标，诸如图6A所示的大致矩形标记610a的拐角。标记位置可以相对于真实世界地理坐标、标记坐标系、眼睛佩戴设备100的位置或其他坐标系来表示。与标记610a相关联的一个或多个虚拟对象可以包括各种素材中的任何一种，包括静态图像、视频、音频、触觉反馈、可执行应用、交互式用户界面和体验以及这样的素材的组合或序列。在这种情境下，能够存储在存储器中并在遇到标记610a或与所分配的标记相关联时检索的任何类型的内容都可以被归类为虚拟对象。例如，图6A所示的小熊608是在标记位置处显示的2D或3D虚拟对象。

在一个示例中，标记610a可以在存储器中被登记为位于物理对象604a(例如，图6A所示的有框艺术品)附近并与其相关联。在另一个示例中，该标记可以在存储器中被登记为相对于眼睛佩戴设备100的特定位置。

图6B描绘了另一个示例物理环境600以及在将SLAM应用和其他类型的跟踪应用(例如，自然特征跟踪(NFT))与AR设备诸如移动设备401一起使用时有用的元素。与眼睛佩戴设备100的处理器432相似，移动设备401的CPU 530使用捕获的图像确定其相对于环境600内的一个或多个对象604的位置，使用针对环境600的坐标系(x，y，z)构建环境600的地图，并确定其在坐标系内的位置。此外，CPU 530通过使用与单个对象604a相关联的两个或更多个位置点(例如，三个位置点606a、606b和606c)或者通过使用与两个或更多个对象604a、604b、604c相关联的一个或多个位置点606，来确定移动设备401在环境内的位姿(滚动、俯仰和偏航)。移动设备401的CPU 530可以将AR对象608(诸如图6B所示的小熊)定位在环境600内，以供在AR体验期间观看。

图7A是在示例显示器180B上控制AR对象的示例手势的透视图。在本示例中，眼睛佩戴设备包括半透明图像显示器180B，如本文中描述的，该半透明图像显示器180B可以包括半透明透镜层和显示器矩阵层，其被配置为在该眼睛佩戴设备的透镜上呈现图像。AR对象608被呈现为相对于物理环境600的覆盖(overlay)。如图所示，该效果允许观察者看到AR对象608并与其交互，同时周围环境600(包括桌子609)也通过显示器180B保持可见。在本示例中，AR对象608被锚定到物理环境600(即在桌面上)，而不是出现在显示器180B上的某个固定位置。

手650和手形在通过半透明显示器180B观看并由相机系统114捕获时被检测到并与物理环境600中的其他元素区分开。例如，伸出食指621的手650可以导致虚拟元素608移动到物理对象的表面上从食指伸出的向量与该表面相交的位置。在其他示例中，第一手势或第一系列手势(诸如伸出食指621向右/向左/向上/向下轻扫)可以被解释为在选择选项中移动，而第二手势或第二系列手势(诸如握紧拳头)可以被解释为最终选择。当然，物理环境600可能比所示的简单房间要复杂得多。相机系统114典型地具有捕获超出显示器180B的界限的图像和视频的相机视场。在这方面，图像处理系统483检测可能位于通过显示器180B的视图之外但在相机视场内的手形。

图7B是用于在示例显示器580上控制AR对象608的示例控件(control)的透视图。在本示例中，移动设备401包括显示器580，该显示器580具有响应于人类触摸的用户输入层591。AR对象608被呈现为相对于物理环境600的覆盖。如图所示，该效果允许观察者看到AR对象608并与其交互，同时周围环境600也在显示器180B上保持可见。在本示例中，AR对象608被锚定到物理环境600(即在桌面上)，而不是出现在显示器180B上的某个固定位置。

用户可以通过按压用户输入层591上的选择区域来与AR对象608交互。例如，在表面(诸如桌面)上方的用户输入层上拖动手指可以导致AR对象608沿着手指做出的路径移动。在所示的示例中，选择区域在显示器580上被呈现在用户输入层591与特定动作相对应的区域中。例如，按压右选择区域750可以使第一动作发生(例如，举起小熊的左臂)，按压左选择区域752可以使第二动作发生(例如，举起小熊的右臂)，以及按压顶部选择区域754可以使第三动作发生(例如，小熊跳跃)。当然，物理环境600可能比所示的简单房间要复杂得多。

图8描绘了以小熊形式的示例AR主要对象608。主要对象具有头部802、右臂804、右肩关节806、左臂808、左肩关节810、右腿812、右髋关节814、左腿816和左髋关节818。在示例中，AR主要对象与x-y-z坐标820相关联，以用于定义该AR主要对象在环境600中的位置。AR主要对象可以与分配给该AR主要对象的不同部位(例如，左臂808)的附加x-y-z坐标相关联，以用于响应于用户动作而在环境600中定位那些部位。

尽管在整个示例中已经使用小熊作为AR主要对象，但是实际上可以选择任何2D或3D对象作为AR主要对象。例如，该AR主要对象可以是另一种预定义的动物(例如，小鸡)、用户从其环境中选择的某样东西(例如，咖啡杯)、或者用户从其他用户接收到的某样东西。

图9A、图9B、图9C、图9D、图9E和图9F分别是描绘生成和分享AR对象(诸如手工制作的对象)的示例方法的流程图900、930、940、950、970和990。尽管参照本文中描述的眼睛佩戴设备100和移动设备401描述了各步骤，但是本领域技术人员将从本文的描述中理解针对其他类型的设备所描述的步骤的其他实施方式。所示和所描述的一个或多个步骤可以同时执行、连续执行、以不同于所示和所描述的顺序执行，或者与附加步骤结合执行。一些步骤可以省略，或者在一些应用中重复。

在框902处，捕获场景的图像。相机系统(例如，眼镜佩戴设备或相机570的可见光相机114A-114B和图像处理器412以及移动设备401的图像处理器)在系统相机的视场内捕获场景的图像。在一个示例中，该相机系统捕获视频数据的帧。在一些实施方式中，当佩戴者/用户在物理环境600中移动时，眼睛佩戴设备100的高速处理器432或移动设备401的CPU530存储捕获到的视频数据的帧。

在一些实施方式中，相机系统包括一个或多个配备有CMOS图像传感器的高分辨率数码相机，能够以相对较高的帧速率(例如，每秒三十帧或更高)捕获高清晰度静态图像和高清晰度视频。数字视频的每一帧都包括针对图像中多个像素的深度信息。在这方面，该相机系统通过捕获物理环境的详细输入图像而用作高清晰度扫描仪。在一些实施方式中，相机系统包括一对间隔开的高分辨率数码相机，以获取左相机原始图像和右相机原始图像。当组合时，原始图像形成包括三维像素位置矩阵的输入图像。

在框904处，识别对象接收表面。处理系统(包括处理器(例如，HS处理器432或CPU530))识别环境中的对象接收表面。在一个示例中，该处理系统将最靠近视场中心点的预定义尺寸(例如，大于1英尺乘1英尺)的平坦水平表面识别为对象接收表面。记录下与识别出的对象接收表面相对应的坐标，以用于相对于对象接收表面定位物体。

处理系统通过将机器视觉技术应用于捕获到的图像来识别平坦的水平表面(框902)。尽管对象接收表面在本文的示例中被描述为预定尺寸的平坦水平表面，但是实质上，该对象接收表面可以是由设计者或用户所期望用于放置AR主要对象的任何表面(例如，平坦的垂直表面、天花板、地板等)。

在框906处，识别可定制AR主要对象/活动。在一个示例中，用户经由用户输入系统(例如，由眼睛佩戴设备401或移动设备401的用户层591捕获到和处理的手势)从预定义的可定制AR主要对象/活动中进行选择。在其他示例中，可定制AR主要对象/活动可以由用户生成。例如，用户可以捕获对象的图像(例如，朋友送给她的咖啡杯)并将该对象指定为可定制AR主要对象。

可定制AR主要对象与至少一组主要对象坐标相关联，以用于在环境600中定位AR主要对象。AR主要对象的坐标可以被设置为与对象接收表面的中心坐标匹配。用户可以在AR设备的显示器上看到预定义的可定制AR主要对象/活动。图10A-图10C描绘了用于在移动设备401的显示器上呈现的示例预定义的AR主要对象/活动。本领域技术人员将从本文的描述中理解用于在眼睛佩戴设备100的显示器呈现上的适当修改。

图10A描绘了与手工类活动1010相关联的小熊AR主要对象608，图10B描绘了与安慰类活动1012相关联的小熊AR主要对象608，以及图10C描绘了与表演类活动1014相关联的小熊AR主要对象608。用户可以向左轻扫或轻击左箭头1002以移动至先前的AR主要对象/活动，并且可以向右轻扫或轻击右箭头1004以移动至下一个先前的AR主要对象/活动。用户可以轻击显示器的中心或使用预定义的手势以选择AR主要对象/活动。

在框908处，生成AR覆盖。在一个示例中，图像处理系统(例如，眼睛佩戴设备100的图像处理器412或移动设备401的CPU 530)生成AR覆盖。该AR覆盖包括定位在环境600内与对象接收表面相邻(例如，在其上)的已识别的可定制AR主要对象。图像处理系统响应于可定制AR主要对象的相应坐标而相对于对象接收表面对其进行定位。

在框910处，呈现AR覆盖。显示系统(例如，眼睛佩戴设备100的图像显示器驱动器442和显示器180或移动设备401的驱动器582和显示器580)在处理系统的控制下呈现AR覆盖。显示系统具有与相机系统的视场相对应的观看区域。在一个示例中，观看区域与视场大小相同。在另一个示例中，观看区域小于视场。

在框912处，接收定制命令。在一个示例中，用户经由用户输入系统从预定义的定制命令中进行选择。定制命令可以通过与可定制AR主要对象/活动中的每一者相关联的预定义的可选动作进行征求。根据本示例，用户在AR设备的显示器上看到预定义的可选动作。图11A-图11C、图12A和图12B描绘了用于在移动设备401的显示器上呈现的示例预定义的可选动作。在完成可选动作之后，用户具有以下选项，用于通过选择发送1101B来发送按定制的可定制AR主要对象，或者用于通过选择保存1101A来保存(例如，稍后发送或添加其他可选动作)。本领域技术人员从本文的描述中将理解用于在眼睛佩戴设备100的显示器上呈现的适当修改。是否呈现对应的声响通过致动响声选择1101C来控制。

图11A描绘了用于手工类活动1010(图10A)的预定义的定制命令。在一个示例中，可定制AR主要对象包括图像接收区域1102。图像接收区域1102的轮廓线可以是如图所示可见的，也可以是不可见的。预定义的定制命令包括绘图1104A、媒体1104B和语音1104C。对绘图1104A的选择导致显示用户可以使用他们的手指或与设备相兼容的电子笔在其上“绘制”的画板。在完成绘图时，该绘图被添加到图像接收区域或由用户预定义或定义的另一个区域。对媒体1104B的选择导致用户能够选择相机(例如，以在环境600中捕获图像)或者从存储的媒体(例如，从相机相册)中选择。在选择期望的媒体时，该媒体被添加到图像接收区域或由用户预定义或定义的另一个区域。对语音1104C的选择导致用户能够选择麦克风(例如，以捕获口语消息)或从存储的媒体(例如，从歌曲列表)中选择。在选择期望的媒体时，该媒体被添加到与可定制AR主要对象相关联的文件中。流程图930(图9B)描绘了用于使用处理系统添加图像的示例步骤。在框932处，接收针对图像选择区域的图像选择。在框934处，从相机或从存储器中获得图像。在框936处，可选地修改图像(例如，通过裁剪或旋转)。在框938处，将(按可选地修改后的)图像应用于图像接收区域。

图11B描绘了用于安慰类活动1012(图10B)的预定义的定制命令。在一个示例中，可定制AR主要对象与道具对象配对。该道具对象可以是由用户指定的环境中的另一个虚拟对象或物理对象。可定制AR主要对象相对于道具对象的定位通过其相应的坐标进行管理(例如，由处理系统)。

该预定义的定制命令包括拥抱1106A、亲吻1106B和举高1106C。对拥抱1106A的选择导致显示AR主要对象608拥抱道具对象。拥抱选择1106A可以包括滑动刻度1008，其中滑动刻度1008上的指示符1110表示拥抱的强度(例如，AR主要对象和道具对象的相应坐标更接近)。对亲吻1106B的选择导致显示AR主要对象608亲吻道具对象。对举高1106C的选择导致显示AR主要对象608举起道具对象(并且可选地旋转)。流程图940(图9C)描绘了用于执行动作(可选地与道具一起)的示例步骤。在框942处，接收针对可定制AR主要对象的动作选择。在框944处，识别(物理的或虚拟的)道具。在框946处，响应于动作选择和可选道具而调整AR主要对象。

图11C描绘了用于表演类活动1014(图10C)的预定义的定制命令。在一个示例中，可定制AR主要对象与活动道具对象(例如，用于击鼓的架子鼓)配对。该活动道具对象是另一个虚拟对象。针对架子鼓道具的预定义的定制命令包括镲片(hi-hat)1108A、小军鼓(snare)1108B和脚踏鼓(kick)1108C。对镲片1108A的选择导致显示AR主要对象608敲击架子鼓的镲片并经由扬声器呈现相应的响声。对小军鼓1108B的选择导致AR主要对象608敲击架子鼓的小军鼓并呈现相应的响声。对低音鼓1108C的选择导致显示AR主要对象608踩动低音鼓并呈现相应的响应。

该活动可以进一步使用图12A和图12B中描绘的特征进行定制。图12A描绘了选择区域1202所示的预定义的彩饰选项1204A、1204B、1204C和1204D。这些彩饰选项可以通过在移动设备的显示器上轻击场景进行访问。一旦选择了彩饰选项，它将被定位在与轻击屏幕的位置相对应的场景中。例如，如图12B所示，对于架子鼓表演类活动，用户轻击屏幕，在该屏幕上就会呈现定制彩饰选项。对特定彩饰(例如，太阳1204C)的选择导致该彩饰被定位在屏幕上用户轻击过的区域中。用户可以通过轻击后退1201返回到没有添加彩饰的活动。

在框914处，响应于定制命令而生成包括定制的手工制作的AR覆盖。在一个示例中，图像处理系统(例如，眼睛佩戴设备100的图像处理器412或移动设备401的CPU 530)生成手工制作的AR覆盖。手工制作的AR覆盖包括已识别的可定制AR主要对象，应用的定制被定位在环境600内与对象接收表面相邻(例如，在其上)。图像处理系统响应于手工制作的AR主要对象的相应坐标而相对于对象接收表面对其进行定位。

在框916处，呈现手工制作的AR覆盖。显示系统(例如，眼睛佩戴设备100的图像显示器驱动器442和显示器180或移动设备401的驱动器582和显示器580)在处理系统的控制下呈现手工制作的AR覆盖。

在框918处，记录手工制作的AR覆盖。处理系统将手工制作的AR覆盖记录在存储器(例如，眼睛佩戴设备100的存储器434或移动设备401的存储器540)中。

在框920处，生成手工制作的AR文件。处理系统将手工制作的AR覆盖组合成文件，以将其传送到另一个增强现实设备并在其上回放。合适的文件格式包括3D文件格式诸如USDZ、FBX等。

在框922处，传送手工制作的AR文件。处理系统通过收发器经由有线或无线连接传送该文件，以用于由另一个设备的收发器接收。

在接收到手工制作的AR文件时，其他设备经由另一个相机系统捕获其他设备的视场中的另一个场景的图像(例如，如参照框902所述)；识别其他场景内的另一个对象接收表面和对应的表面坐标(例如，如参照框904所述)；响应于主要对象坐标和其他场景内的表面坐标，从包括与用于定位成与其他对象接收表面相邻的可定制AR主要对象相关联的定制的手工制作的AR覆盖的手工制作的AR文件中生成手工制作的AR覆盖(例如，如参照框914所述)；以及经由另一个显示系统呈现手工制作的AR覆盖(例如，如参照框916所述)。

流程图950描绘了用于将音轨(soundtrack)添加到手工制作的AR文件中的示例步骤。在框952处，接收音频个性化选择。处理器系统可以经由选择显示器上呈现的选项而接收音频个性化选择。在框954处，处理器系统在显示器上呈现音频选项。在决策框956处，处理器确定是否选择现场录制。如果选择了现场录制，则在框958处，现场音频经由麦克风录制，并将其作为音轨存储在存储器中。在框960处，呈现(例如，从存储器中检索到的)预先录制的音轨选择选项。在框962处，从呈现的选项中接收音轨选择，并将其识别为音轨。在框964处，可选地接收音轨调整(例如，只是从一首歌曲中选择副歌)。在框966处，将(按照可选地调整后的)音轨添加到手工制作的AR文件中，以供与手工制作的AR覆盖的视觉方面一起回放。

流程图970描绘了用于使用AR设备发送AR对象的示例步骤。

在框972处，AR设备捕获场景的图像。如上面参照框902(图9A)所描述的，相机系统可以捕获场景的图像。

在框974处，AR设备选择用于向接收者(即，另一AR设备)发送AR对象的虚拟递送路线。每条虚拟递送路线都具有对应的递送模式和相关联的物理世界发送动作。示例虚拟递送路线包括空中旅行(诸如通过如参照图13A-图13E所示和所描述的虚拟纸飞机1300)和地下旅行(例如通过如参照图14和图15所示和所描述的虚拟管道1400)。

在所示的示例空中旅行虚拟递送路线中，该递送模式是纸飞机1300，并且相关联的物理世界发送动作可以是吹气声。音频系统(包括麦克风和音频处理器诸如音频处理器443)可以在AR设备处捕获音频信号，并且AR设备的处理器432/530可以(例如，通过应用音频信号分析算法)检测吹气声。

在所示的示例地下旅行递送路线中，该递送模式是虚拟管道1400，并且相关联的物理世界发送动作可以是对定位在虚拟管道1400的入口点1400A处的虚拟对象608(参见图15(C))的轻击。在所示的示例中，轻击是用手650的食指621在AR对象608附近的虚拟轻击。在另一个示例中，轻击是对例如显示器580上呈现的AR对象608附近的显示器580的用户输入层591的物理轻击。

在框976处，AR设备至少响应于所选的虚拟递送路线，生成AR虚拟递送路线覆盖。覆盖包括AR对象和与虚拟递送路线相对应的递送模式。图像处理系统(例如，眼睛佩戴设备100的图像处理器412或移动设备401的CPU 530)可以生成覆盖。

在一个示例中，覆盖响应于所选的虚拟递送路线来生成，而无需进一步的用户输入。根据本示例，如果虚拟递送路线是空中旅行，则该覆盖可以包括以对象接收表面(例如，桌面611)为中心的纸飞机。处理器412/530可以使用计算机视觉来识别桌面611，该计算机视觉被编程或训练为识别捕获到的图像内的平坦表面，并且生成描绘桌面611的中心的纸飞机1300上的AR对象608的覆盖(图13A)。

在另一个示例中，覆盖响应于所选的虚拟递送路线和用户输入来生成。根据本示例，如果虚拟递送路线是地下旅行，则该覆盖可以进一步基于用户动作，诸如刮擦(scratch)场景中的平坦表面1500(图15(A))，这导致虚拟管道入口点1400A出现在用户正在刮擦的位置附近(图15(B))。在出现虚拟管道入口点1400A时，覆盖可以描绘小熊608在虚拟入口点1400A处进入虚拟管道1400的动画。在所示的示例中，刮擦是用手650的食指621在桌面611附近的虚拟摩擦(例如，来回运动)。处理器412/530可以使用计算机视觉来识别桌面611，该计算机视觉被编程或训练为识别捕获到的图像内的平坦表面和手势。在另一个示例中，刮擦是例如对显示器580上呈现的桌面611附近的显示器580的用户输入层591的物理摩擦(来回运动)。处理器530可以使用被编程或训练为识别平坦表面的计算机视觉来识别桌面611。

在框978处，AR设备呈现AR虚拟递送路线覆盖。显示系统(例如，眼睛佩戴设备100的图像显示器驱动器442和显示器180或移动设备401的驱动器582和显示器580)在处理系统的控制下呈现该覆盖。

在框980处，在呈现AR虚拟递送路线覆盖期间，AR设备经由用户输入系统接收与递送模式相关联的物理世界动作。在所示的示例空中旅行虚拟递送路线中(图13A-图13E)，相关联的物理世界发送动作可以是吹气声(图13B)。在所示的示例地下旅行递送路线中，相关联的物理世界发送动作可以是将AR对象608拖放到虚拟管道入口点1400A附近，随后轻击定位在虚拟管道1400的入口点1400A处的虚拟对象608(参见图15(C))。

在框982处，AR设备响应于接收到的物理世界动作，发送与用于递送给接收者的AR对象相对应的通信。在一个示例中，该通信包括虚拟递送路线的标识符。AR设备可以经由社交媒体应用、电子邮件、文本等发送常规电子通信，以使用该设备的电子地址向另一AR设备进行递送。

在框984处，AR设备响应于接收到的物理世界动作，生成AR发送覆盖，该AR发送覆盖包括根据该递送模式正在运动的AR对象。在一个示例中，图像处理系统(例如，眼睛佩戴设备100的图像处理器412或移动设备401的CPU 530)生成覆盖。

在所示的示例空中旅行虚拟递送路线中，AR发送覆盖可以产生描绘载有AR对象608的纸飞机1300飞向出口(诸如打开的门或窗户1302；图13C)的动画。处理器412/530可以使用计算机视觉来识别窗户1302，该计算机视觉被编程或训练为识别指示窗户1302的天空1304或窗户本身。

在所示的示例地下旅行递送路线中，AR发送覆盖可以产生描绘AR对象下落进入虚拟管道入口点1400A并消失的动画。

在框986处，AR设备呈现AR发送覆盖。显示系统(例如，眼睛佩戴设备100的图像显示器驱动器442和显示器180或移动设备401的驱动器582和显示器580)在处理系统的控制下呈现覆盖。

流程图990描绘了用于在AR设备处接收AR对象的示例步骤。该AR设备可以是与发送AR对象的AR设备不同的AR设备(其中该AR对象是被发送的AR对象)或者可以是从另一AR设备接收另一AR对象的同一AR设备。

在框992处，AR设备捕获场景的图像。如上面参照框902(图9A)所描述的，相机系统可以捕获场景的图像。

在框994处，AR设备从发送者接收与AR对象相对应的通信，该通信识别虚拟递送路线。AR设备通过经由社交媒体应用、电子邮件、文本等的常规电子通信接收与AR对象相对应的通信，以使用该设备的电子地址向另一AR设备进行递送。该通信可以是在框982处由AR设备发送并在另一AR设备处接收到的通信，或者由AR设备从另一AR设备接收到的另一通信。

在框996处，AR设备生成包括根据递送模式正在运动的AR对象的AR接收覆盖。在一个示例中，图像处理系统(例如，眼睛佩戴设备100的图像处理器412或移动设备401的CPU530)生成覆盖。

在所示的示例空中旅行虚拟递送路线中，AR接收覆盖可以产生描绘载有AR对象608的纸飞机1300从入口(诸如打开的门或窗户1352；图13D)飞入并降落在桌子1356的桌面1358上的动画。处理器412/530可以使用计算机视觉来识别窗户1352和桌面1358，该计算机视觉被编程或训练以分别识别指示窗户1352或窗户本身和平坦表面的天空1354。

在所示的示例地下旅行递送路线中，AR接收覆盖产生描绘AR对象608从虚拟管道出口点1400B上升的动画(图15(E))。在所示的示例地下旅行递送路线中，AR覆盖可以首先产生在开口上方带有盖子1502的虚拟管道出口点1400B(图15(D))。将关闭的盖子1502A移至打开的盖子1502B(例如，基于用户用他们的食指621在盖子1502附近进行滑动运动；例如，如在相机图像中或显示器的用户输入层上检测到的)露出AR对象608。然后，用户可以轻击AR对象608(例如，响应于用户用他们的食指621在AR对象608附近做出轻击动作；例如，如在相机图像中或显示器的用户输入层上检测到的)以在对象接收表面1358上放出AR对象608(图15(F))。

在一个示例中，虚拟管道出口点1400出现在平坦表面1358上与诸如刮擦平坦表面1358(例如，响应于他们已经接收到消息的通知)的用户动作相对应的位置，这导致虚拟管道出口点1400B出现在用户正在刮擦的位置附近。在虚拟管道出口点1400B出现时，覆盖可以描绘带有盖子1502的虚拟管道出口点1402B的动画。

在框998处，AR设备呈现AR接收覆盖。显示系统(例如，眼睛佩戴设备100的图像显示器驱动器442和显示器180或移动设备401的驱动器582和显示器580)在处理系统的控制下呈现覆盖。

在框999处，AR设备启动AR对象。在一个示例中，该AR对象是手工制作的AR对象，并且该AR设备向AR设备的用户呈现手工制作的AR对象。

本文中针对眼睛佩戴设备100、移动设备401和服务器系统498所描述的任何功能都可以体现在一个或多个计算机软件应用或编程指令集合中，如本文中描述的那样。根据一些示例，“一个功能”、“多个功能”、“一个应用”、“多个应用”、“一个指令”、“多个指令”或“编程”是执行程序中定义的功能的(一个或多个)程序。可以采用各种编程语言，以创建按各种方式结构化的一个或多个应用，诸如面向对象的编程语言(例如，Objective-C、Java或C++)或过程式编程语言(例如，C或汇编语言)。在具体示例中，第三方应用(例如，由除特定平台的供应商以外的实体使用ANDROID^TM或IOS^TM软件开发工具包(software developmentkit，SDK)开发的应用)可以包括在移动操作系统(诸如IOS^TM、ANDROID^TM、Phone或其他移动操作系统)上运行的移动软件。在本示例中，第三方应用可以调用由操作系统提供的API调用，以促进本文中描述的功能。

因此，机器可读介质可以采取许多种形式的有形存储介质。非易失性存储介质包括例如光盘或磁盘，诸如任何计算机设备或类似物中的任何存储设备，诸如可用于实现如图所示的客户端设备、媒体网关、代码转换器等。易失性存储介质包括动态存储器，诸如这样的计算机平台的主存储器。有形传输介质包括同轴电缆；铜线和光纤，包括构成计算机系统内总线的电线。载波传输介质可以采取电信号或电磁信号或声波或光波的形式，诸如射频(radio frequency，RF)和红外(infrared，IR)数据通信期间生成的那些。因此，计算机可读介质的常见形式包括例如：软盘、软磁盘、硬盘、磁带、任何其他磁性介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡纸带、任何其他带孔图案的物理存储介质、RAM、PROM和EPROM、FLASH-EPROM、任何其他存储芯片或盒式磁带、传输数据或指令的载波、传输这样的载波的电缆或链路、或计算机可以从中读取编程代码和/或数据的任何其他介质。许多这些形式的计算机可读介质可以涉及将一个或多个指令的一个或多个序列携带到处理器以供执行。

除了上面刚刚陈述的，已经陈述或示出的任何内容都不旨在或不应该被解释为致使将任何部件、步骤、特征、目的、益处、优点或等同物奉献给公众，无论其是否在权利要求中被陈述。

将理解，本文中使用的术语和表述具有如这样的术语和表述相对于其对应的各自探究和研究领域所赋予的普通含义，除非本文中另外已经阐述了其中的具体含义。关系术语(诸如第一和第二等)可以仅用于将一个实体或动作与另一个实体或动作区分开，而不一定要求或暗示这样的实体或动作之间的任何实际的这种关系或顺序。术语“包括”、“包含”、“含有”、“涵盖”或其任何其他变型旨在涵盖非排他性的包含，使得包括或包含一系列元素或步骤的过程、方法、物品或装置不仅包括那些元素或步骤，还可以包括未明确列出的或这样的过程、方法、物品或装置固有的其他元素或步骤。在没有进一步约束的情况下，以“一”或“一个”开头的元素并不排除在包括该元素的过程、方法、物品或装置中存在额外的相同元素。

除非另有说明，否则本说明书(包括随后的权利要求)中阐述的任何及所有测量结果、值、额定值、位置、幅值、尺寸和其他规格都是近似的，而不是精确的。这些量旨在具有合理的范围，即与它们所涉及的功能以及它们所属领域的惯例一致。例如，除非另有明确说明，否则参数值或类似值可能与所述量相差多达正负百分之十。

此外，在前面的详细描述中，可以看到，出于精简本公开的目的，各个特征在各种示例中被组合在一起。公开内容的这种方法不应当被解释为反映这样的意图，即所要求保护的示例要求比每个权利要求中明确陈述的特征更多。相反，正如以下权利要求所反映的，要被保护的主题在于少于任何单个所公开示例的所有特征。因此，以下权利要求由此并入详细描述中，其中每项权利要求作为单独所要求保护的主题独立存在。

尽管前面已经描述了被认为是最佳模式和其他示例的内容，但是可以理解的是，可以在其中进行各种修改，并且本文中公开的主题可以以各种形式和示例实施，并且它们可以应用于众多应用中，本文中仅已经描述了其中的一些应用。以下权利要求旨在要求保护属于本概念的真实范围内的任何及所有修改和变型。

Claims

1.一种用于传递增强现实(AR)对象的AR设备，所述AR设备包括：

相机系统，所述相机系统被配置为捕获视场内的场景的图像；

显示系统，所述显示系统被配置为在显示器上呈现AR覆盖，所述显示器具有与相机系统视场相对应的观看区域；

用户输入系统，所述用户输入系统被配置为接收来自用户的输入；以及

耦合到所述相机系统、所述显示系统和所述用户输入系统的处理器，所述处理器被配置为：

响应于经由所述用户输入系统接收到的输入，选择用于向接收者发送AR对象的虚拟递送路线，每条虚拟递送路线具有对应的递送模式和相关联的物理世界发送动作；

至少响应于所选的虚拟递送路线，生成AR虚拟递送路线覆盖，所述AR虚拟递送路线覆盖包括所述AR对象和与所述虚拟递送路线相对应的递送模式；

经由所述显示系统呈现所述AR虚拟递送路线覆盖；

在呈现所述AR虚拟递送路线覆盖期间，经由所述用户输入系统接收与所述递送模式相关联的物理世界动作；

响应于接收到的物理世界动作，发送与用于递送给所述接收者的AR

对象相对应的通信；

响应于接收到的物理世界动作，生成AR发送覆盖，所述AR发送覆盖包括根据所述递送模式正在运动的AR对象；

经由所述显示系统呈现所述AR发送覆盖。

2.根据权利要求1所述的AR设备，其中，所述用户输入系统包括：

音频系统，所述音频系统被配置为捕获所述AR设备附近的音频信号；

其中，所述相关联的物理世界发送动作是发送音频信号。

3.根据权利要求2所述的AR设备，其中，所述发送音频信号是由所述音频系统捕获到的吹气声。

4.根据权利要求1所述的AR设备，其中，所述处理器还被配置为：

在捕获到的图像中检测来自所述场景的出口位置；

其中，为了生成所述AR发送覆盖，所述处理器被配置为响应于接收到的物理世界动作而生成所述AR发送覆盖，所述AR发送覆盖包括根据所述递送模式正在运动的AR对象和检测到的来自场景的出口位置。

5.根据权利要求4所述的AR设备，其中，所述出口位置是所述场景内的打开的门或天空中的至少一者。

6.根据权利要求1所述的AR设备，其中，所述AR路线递送覆盖被生成以呈现所述场景中的对象接收表面上的所述AR对象，并且其中所述处理器还被配置为：

检测所述对象接收表面；并且

检测与所述对象接收表面的交互；

其中，为了生成所述AR虚拟递送路线覆盖，所述处理器被配置为：至少响应于所选的虚拟递送路线而生成所述AR递送路线覆盖，所述AR递送路线覆盖包括所述AR对象、与所述虚拟递送路线相对应的递送模式、所述对象接收表面和检测到的交互。

7.根据权利要求6所述的AR设备，其中，检测到的交互是在所述对象接收表面附近的来回运动。

8.根据权利要求7所述的AR设备，其中，检测到的交互是虚拟交互，并且其中为了检测所述虚拟交互，所述处理器被配置为：

在捕获到的场景的图像中检测食指在所述对象接收表面附近来回运动。

9.根据权利要求7所述的AR设备，其中，所述显示系统包括具有用户输入层的显示器，并且其中检测到的交互是与所述对象接收表面附近的所述用户输入层的物理交互。

10.根据权利要求1所述的AR设备，其中，所述处理器还被配置为：

接收与另一AR对象相对应的另一通信，所述另一通信识别另一虚拟递送路线；

生成AR接收覆盖，所述AR接收覆盖包括根据与所述另一虚拟递送路线相对应的递送模式正在运动的另一AR对象；

呈现所述AR接收覆盖；并且

启动所述AR对象。

11.一种包括根据权利要求1所述的AR设备的AR系统，所述AR系统还包括：

另一相机系统，所述另一相机系统被配置为捕获所述另一相机系统的视场内的另一场景的图像；

另一显示系统，所述另一显示系统被配置为在所述另一显示系统的显示器上呈现AR覆盖，所述另一显示系统的显示器具有与另一相机系统视场相对应的观看区域；

耦合到所述另一相机系统和所述另一显示系统的另一处理器，所述处理器被配置为：

经由所述另一相机系统捕获所述另一场景的图像；

接收与AR对象相对应的通信，所述通信识别虚拟递送路线；

生成AR接收覆盖，所述AR接收覆盖包括根据所述递送模式正在运动的AR对象；

呈现所述AR接收覆盖；并且

启动所述AR对象。

12.一种用于传递增强现实(AR)对象的方法，所述方法包括：

响应于经由AR设备的用户输入系统接收到的输入，选择用于向接收者发送AR对象的虚拟递送路线，每条虚拟递送路线具有对应的递送模式和相关联的物理世界发送动作；

至少响应于所选的虚拟递送路线，生成AR虚拟递送路线覆盖，所述AR虚拟递送路线覆盖包括所述AR对象和与所述虚拟递送路线相对应的所述递送模式；

经由所述显示系统呈现所述AR虚拟递送路线覆盖；

响应于接收到的物理世界动作，发送与用于递送给所述接收者的AR对象相对应的通信；

响应于接收到的物理世界动作，生成AR发送覆盖，所述AR发送覆盖包括根据所述递送模式正在运动的AR对象；以及

经由所述显示系统呈现所述AR发送覆盖。

13.根据权利要求12所述的方法，其中，所述用户输入系统包括音频输入系统，所述方法还包括：

用所述音频输入系统捕获所述AR设备附近的音频信号；以及

识别捕获到的音频信号内的发送音频信号；

其中，所述相关联的物理世界发送动作是所述发送音频信号。

14.根据权利要求12所述的方法，还包括：

捕获视场内的场景的图像；

在捕获到的图像中检测所述场景内的出口位置；

其中，生成所述AR发送覆盖包括：响应于接收到的物理世界动作而生成所述AR发送覆盖，所述AR发送覆盖包括根据所述递送模式正在运动的AR对象和检测到的场景内的出口位置。

15.根据权利要求14所述的方法，其中，所述出口位置是所述场景中的打开的门或天空中的至少一者。

16.根据权利要求12所述的方法，其中，所述AR路线递送覆盖被生成以呈现场景中的对象接收表面上的所述AR对象，所述方法还包括：

捕获所述场景的图像；

检测所述对象接收表面；以及

检测与所述对象接收表面的交互；

其中，生成所述AR虚拟递送路线覆盖包括：至少响应于所选的虚拟递送路线而生成所述AR递送路线覆盖，所述AR递送路线覆盖包括所述AR对象、与所述虚拟递送路线相对应的递送模式、所述对象接收表面和检测到的交互。

17.根据权利要求16所述的方法，其中，所述检测到的交互是虚拟交互，并且其中检测所述虚拟交互包括：

18.根据权利要求12所述的方法，还包括：

生成AR接收覆盖，所述AR接收覆盖包括根据与所述另一虚拟递送路线相对应的递送模式正在运动的所述另一AR对象；

呈现所述AR接收覆盖；以及

启动所述AR对象。

19.一种非暂时性计算机可读介质，存储程序代码，所述程序代码包括指令，所述指令在被执行时，操作为致使电子处理器执行以下步骤：

响应于经由用户输入系统接收到的输入，选择用于向接收者发送AR对象的虚拟递送路线，每条虚拟递送路线具有对应的递送模式和相关联的物理世界发送动作；

经由显示系统呈现所述AR虚拟递送路线覆盖；

经由所述显示系统呈现所述AR发送覆盖。

20.根据权利要求19所述的介质，还包括：

接收与另一AR对象相对应的另一通信，通信识别另一虚拟递送路线；

经由相机系统捕获场景的图像；

生成AR接收覆盖，所述AR接收覆盖包括根据与所述另一虚拟递送路线相对应的另一递送模式正在运动的所述另一AR对象；

呈现所述AR接收覆盖；以及

启动所述另一AR对象。