CN117677918A

CN117677918A - 增强现实体验的虚拟品尝和导览

Info

Publication number: CN117677918A
Application number: CN202280048492.4A
Authority: CN
Inventors: 梅根·洪
Original assignee: Snap Inc
Current assignee: Snap Inc
Priority date: 2021-05-07
Filing date: 2022-05-05
Publication date: 2024-03-08
Also published as: EP4334804A1; WO2022235886A1; US20220358729A1; KR20240004999A

Abstract

描述了用于在增强现实体验中在眼镜设备的显示器中呈现虚拟导览的示例系统、设备、介质和方法。导览应用实施并控制对相机视场内视频数据的帧的捕获。图像处理系统在所捕获的视频数据的帧中检测物理环境中的一个或多个容器。该方法包括从库和因特网搜索中检索与检测到的容器及其内容物相关联的数据。基于检索到的数据的情境叠加与用于播放消息、使用语音识别响应命令和询问以及呈现导览的化身一起被呈现在显示器上。体验包括虚拟产品品尝和通过农场及相关设施导览。

Description

增强现实体验的虚拟品尝和导览

相关申请的交叉引用

本申请要求于2021年5月7日提交的美国临时申请序列号63/185,406的优先权，其内容通过引用完全并入本文。

技术领域

本公开中阐述的示例涉及电子设备(包括诸如眼镜的可佩戴设备)的增强现实体验的领域。更特别地，但不是通过限制的方式，本公开描述了在增强现实中呈现虚拟产品品尝和相关设施的导览(guided tour)。

背景技术

当今可用的许多类型的计算机和电子设备，诸如移动设备(例如智能手机、平板电脑和笔记本电脑)、手持设备和可佩戴设备(例如，智能眼镜、数字眼镜、头饰、头套和头戴式显示器)，包括各种相机、传感器、无线收发器、输入系统和显示器。

虚拟现实(Virtual reality，VR)技术生成完整的虚拟环境，包括逼真的图像，有时呈现在VR耳机或其他头戴式显示器上。VR体验允许用户移动通过虚拟环境并与虚拟对象交互。增强现实(Augmented reality，AR)是一种将物理环境中的真实对象与虚拟对象组合并向用户显示组合的VR技术。组合显示给人的印象是虚拟对象真实地存在于环境中，尤其是当虚拟对象看起来和表现得像真实对象时。交叉现实(Cross reality，XR)通常被理解为总括术语，是指包括或组合来自AR、VR和MR(mixed realit，混合现实)环境的元素的系统。

图形用户界面允许用户与显示的内容(包括虚拟对象和图形元素，诸如图标、任务栏、列表框、菜单、按钮，以及选择控制元素，如光标、指针、手柄和滑块)进行交互。

自动语音识别(Automatic speech recognition，ASR)是计算机科学、人工智能和语言学的领域，其涉及接收口语并将口语转换成适合由计算设备处理的音频数据。经处理的音频数据的帧可以被用于将接收到的口语翻译成文本，或将口语转换成用于控制各种软件应用和与各种软件应用交互的命令。ASR处理可由计算机、手持设备、可佩戴设备、电话系统、汽车和各种各样的其他设备使用，以促进人机交互。

附图说明

所描述的各种示例的特征将从以下具体实施方式(其中参考附图)容易理解。在描述中以及贯穿附图的几个视图，每个元素都使用附图标记。当存在多个类似的元素时，可以将单个附图标记分配给相似的元素，其中添加的小写字母是指特定的元素。

除非另有指示，否则附图中所示的各种元素均未按比例绘制。为了清楚起见，各种元素的尺寸可以被放大或缩小。几个附图描绘了一种或多种实施方式，并且仅通过示例的方式呈现，并且而不应被解释为限制。图纸中包括的是以下附图：

图1A是适于在示例虚拟导览系统中使用的眼镜设备的示例硬件配置的侧视图(右)；

图1B是图1A的眼镜设备的右角部分的透视、部分横截面视图，描绘了右可见光相机和电路板；

图1C是图1A的眼镜设备的示例硬件配置的侧视图(左)，其示出了左可见光相机；

图1D是图1C的眼镜设备的左角部分的透视、部分横截面视图，描绘了左可见光相机和电路板；

图2A和图2B是示例虚拟导览系统中利用的眼镜设备的示例硬件配置的后视图；

图3是三维场景、由左可见光相机捕获的左原始图像和由右可见光相机捕捉的右原始图像的图解描绘；

图4是包括经由各种网络连接的眼镜设备和服务器系统的示例虚拟导览系统的功能框图；

图5是适于在图4的示例虚拟导览系统中使用的移动设备的示例硬件配置的图解表示；

图6是在描述同步定位和映射时使用的示例环境中的用户的示意图；

图7是显示器上的示例化身(avatar)和情境叠加(contextual overlay)的透视图；

图8是在显示器上呈现虚拟导览的化身的示例的透视图；

图9是列出在显示器上呈现虚拟导览体验的示例方法中的步骤的流程图；以及

图10是列出响应于检测到显示器上的动作而呈现虚拟导览体验的示例方法中的步骤的流程图。

具体实施方式

参考用于在增强现实中呈现虚拟产品品尝和产品相关设施的虚拟导览的示例来描述了各种实施方式和细节。例如，在由眼镜设备使用计算机视觉和机器训练的分类模型捕获的视频数据中检测到容器(container)(诸如酒瓶)。从图书馆和因特网搜索中检索到有关检测到的容器(及其内容物)的相关数据。基于检索到的数据的情境叠加连同用于播放消息和呈现导览的化身一起被呈现在显示器上。

示例方法包括响应于利用眼镜设备检测到在物理环境中的容器而呈现情境叠加并启动虚拟游览(tour)体验。眼镜设备包括相机系统、麦克风、扬声器、导览应用、图像处理系统和显示器。该方法包括在所捕获的视频数据帧中检测第一动作，并且作为响应，开始虚拟游览体验，该虚拟游览体验包括在显示器上与通过化身呈现的讲座(lecture)相关地呈现视频。虚拟游览体验还包括使化身动画化为与课程(lesson)相关地执行一个或多个演示。图形控制元素控制游览体验的进度。在传统制作的饮料的情境中，检测到的容器容纳饮料产品，诸如葡萄酒、啤酒、烈酒(liquor)或苹果酒。虚拟导览体验与诸如葡萄酒厂、啤酒厂、酿酒厂(distillery)或苹果酒厂的地点相关联，并且可以包括农场游览和工厂或设施游览。

尽管本文参考容器和饮料描述了各种系统和方法，但所描述的技术可以应用于检测物理环境中的任何类型的容器或产品，检索有关检测到的产品的数据，并且在显示器上呈现虚拟导览。

以下具体实施方式包括说明本公开中阐述的示例的系统、方法、技术、指令序列和计算机程序产品。为了提供对所公开的主题及其相关教导的透彻理解，包括了许多细节和示例。然而，相关领域的技术人员可以理解如何在没有这些细节的情况下应用相关教导。所公开的主题的各方面不限于所描述的具体设备、系统和方法，因为相关教导可以以各种方式应用或实践。本文使用的术语和命名法仅用于描述特定方面的目的，而不旨在进行限制。通常，众所周知的指令实例、协议、结构和技术不一定被详细示出。

如本文使用的术语“耦合”或“连接”是指任何逻辑、光学、物理或电气连接，包括链路或类似物，通过它们，由一个系统元件产生或供应的电气信号或磁信号被传递到另一个耦合或连接的系统元件。除非另有描述，否则耦合或连接的元件或设备不一定彼此直接连接，并且可以由中间部件、元件或通信介质分开，其中一个或多个可以修改、操纵或携带电气信号。术语“在…上”意指由元件直接支撑，或者由元件通过集成到该元件中或由该元件支撑的另一元件间接支撑。

术语“近侧”被用于描述位于对象或人附近、邻近或旁边的物品或物品的一部分；或者相对于物品的其他部分更近，其可以被描述为“远侧”。例如，最靠近对象的物品的一端可以被称为近端，而通常相对的一端可以称为远端。

眼镜设备、其他移动设备、耦合部件和任何其他设备(诸如任何附图中所示的那些)的取向仅以示例的方式给出，用于说明和讨论目的。在操作中，眼镜设备可以在适合眼镜设备的特定应用的任何其他方向上被定向；例如，向上、向下、侧向或任何其他取向。此外，在本文使用的范围内，任何方向术语，诸如前、后、向内、向外、朝向、左、右、横向、纵向、上、下、上部、下部、顶部、底部、侧面、水平、竖直和对角线，仅以示例的方式被使用，而不限制如本文所构造或以其他方式描述的任何相机、惯性测量单元或显示器的方向或取向。

先进的AR技术(诸如计算机视觉和对象跟踪)，可以被用于产生感知丰富和身临其境的体验。计算机视觉算法从在数字图像或视频中捕获的数据中提取关于物理世界的三维数据。对象识别和跟踪算法被用于检测数字图像或视频中的对象，估计其取向或姿势，并且跟踪其随时间的移动。手和手指的实时识别和跟踪是计算机视觉领域中最具挑战性和处理密集型的任务中的一个。

术语“姿势”是指对象在特定时刻的静态定位和取向。术语“手势”是指对象(诸如手)通过一系列姿势的主动运动，有时是为了传达信号或想法。在计算机视觉和增强现实领域中，术语，姿势和手势有时可以互换使用。如本文所使用的，术语“姿势”或“手势”(或其变体)旨在包括姿势和手势两者；换言之，一个术语的使用并不排除另一个术语。

示例的另外目的、优点和新颖特征将在以下描述中部分阐述，并且在检查以下和附图时，对于本领域技术人员将部分地变得显而易见，或者可以通过示例的生产或操作来了解。本主题的目的和优点可以通过所附权利要求中特别指出的方法、工具和组合来实现和获得。

现在详细参考附图中示出并在下面讨论的示例。

图1A是包括诸如触摸板181的触敏输入设备的眼镜设备100的示例硬件配置的侧视图(右)。如图所示，触摸板181可以具有清晰可见的边界，或者包括向用户提供关于触摸板181的位置和边界的反馈的凸起或其他方式触觉的边缘；可替选地，边界可能是微妙的并且不容易被看到或感觉到。在其他实施方式中，眼镜设备100可以包括左侧上的触摸板181，该触摸板181独立地或与右侧上的触摸板181结合地操作。

触摸板181的表面被配置为检测手指触摸、轻击和手势(例如，移动触摸)，用以与眼镜设备在图像显示器上显示的GUI一起使用，以允许用户以直观的方式浏览和选择菜单选项，这增强并简化了用户体验。

检测触摸板181上的手指输入可以启用多种功能。例如，触摸触摸板181上的任何位置可以致使GUI在图像显示器上显示或突出显示项目，其可以被投影到光学组件180A、180B中的至少一个上。在触摸板181上轻击或双击可以选择项目或图标。手指以特定方向(例如，从前到后、从后到前、从上到下或向下到)滑动或轻扫可以致使项目或图标在特定方向滑动或滚动；例如，移动到下一个项目、图标、视频、图像、页面或幻灯片。在另一个方向上滑动手指可以在相反的方向上滑动或滚动；例如，移动到上一个项目、图标、视频、图像、页面或幻灯片。触摸板181实际上可以位于眼镜设备100上的任何位置。

在一个示例中，触摸板181上的单次轻击的识别的手指手势启动对光学组件180A、180B的图像显示器上呈现的图像中的图形用户界面元素的选择或按压。基于所识别的手指手势对光学组件180A、180B的图像显示器上呈现的图像的调整可以是选择或提交光学组件180A、180B的图像显示器上的图形用户界面元素以供进一步显示或执行的主要动作。

如图所示，眼镜设备100包括右可见光相机114B。如本文中进一步描述的，两个相机114A、114B从两个独立的视点捕获场景的图像信息。两个所捕获的图像可以被用于将三维显示投影到图像显示器上以用于用3D眼镜观看。

眼镜设备100包括具有图像显示器的右光学组件180B，以呈现图像，诸如深度图像。如图1A和1B所示，眼镜设备100包括右可见光相机114B。眼镜设备100可以包括多个可见光相机114A、114B，它们形成无源类型的三维相机，诸如立体相机，其右可见光相机114位于右角部分110B上。如图1C-D所示，眼镜设备100还包括左可见光相机114A。

左可见光相机和右可见光相机114A、114B对可见光范围波长敏感。可见光相机114A、114B中的每一个都具有不同的向前面向的视场，视场重叠以使得能够生成三维深度图像，例如，右可见光相机114描绘了右视场111B。通常，“视场”是通过相机在空间中特定定位和取向可见的场景部分。视场111A和111B具有重叠的视场304(图3)。当可见光相机捕获图像时，视场111A、111B之外的对象或对象特征没有被记录在原始图像(例如，照片或图片)中。视场描述了可见光相机114A、114B的图像传感器在给定场景的捕获图像中拾取给定场景的电磁辐射的角度范围或程度。视场可以被表述为视锥的角度大小；即视角。视角可以水平、竖直或对角测量。

在示例配置中，可见光相机114A、114B中的一个或两者具有100°的视场，以及480x480像素的分辨率。“覆盖角”描述了可见光相机114A、114B或红外相机410(见图2A)的透镜可以有效成像的角度范围。通常，相机透镜产生图像圆，其足够大以完全覆盖相机的胶片或传感器，可能包括一些渐晕(例如，与中心相比时，图像朝向边缘变暗)。如果相机透镜的覆盖角没有填满传感器，则图像圆将是可见的，通常具有朝向边缘的强渐晕，并且有效视角将被限制为覆盖角。

这种可见光相机114A、114B的示例包括高分辨率互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)图像传感器和数字VGA相机(videographic array，视频图形阵列)，其能够实现480p(例如，640x 480像素)、720p、1080p或更高分辨率。其他示例包括可见光相机114A、114B，其可以以高帧速率(例如，每秒三十到六十帧，或更高)捕获高清晰度(high-definition，HD)视频，并且以1216乘1216像素(或更大)的分辨率存储记录。

眼镜设备100可以从可见光相机114A、114B捕获图像传感器数据以及由图像处理器数字化的地理定位数据，以存储在存储器中。可见光相机114A、114B在二维空间域中捕获相应的左原始图像和右原始图像，这些图像包括二维坐标系上的像素矩阵，该二维坐标系包括用于水平定位的X轴线和用于竖直定位的Y轴线。每个像素包括颜色属性值(例如，红色像素光值、绿色像素光值或蓝色像素光值)；以及定位属性(例如X轴线坐标和Y轴线坐标)。

为了捕获立体图像以供稍后显示为三维投影，图像处理器412(如图4所示)可以被耦合到可见光相机114A、114B以接收和存储视觉图像信息。图像处理器412或另一处理器控制可见光相机114A、114B的操作以充当模拟人类双眼视觉的立体相机，并且可以向每个图像添加时间戳。每对图像上的时间戳允许将图像一起显示为三维投影的一部分。三维投影可以产生身临其境的、栩栩如生的体验，这在包括虚拟现实(VR)和视频游戏在内的各种情境中都是可取的。

图1B是图1A的眼镜设备100的右角部分110B的透视横截面视图，描绘了相机系统的右可见光相机114B和电路板。图1C是图1A的眼镜设备100的示例硬件配置的侧视图(左)，其示出了相机系统的左可见光相机114A。图1D是图1C的眼镜设备的左角部分110A的透视横截面视图，描绘了三维相机的左可见光相机114A和电路板。

左可见光相机114A的构造和放置基本上类似于右可见光相机114，除了连接和耦合在左横向侧170A上之外。如图1B的示例中所示，眼镜设备100包括右可见光相机114B和电路板140B，电路板140B可以是柔性印刷电路板(printed circuit board，PCB)。右铰链126B将右角部分110B连接到眼镜设备100的右镜腿125B。在一些示例中，右可见光相机114B的部件、柔性PCB 140B或其他电气连接器或触点可以位于右镜腿125B或右铰链126B上。左铰链126B将左角部分110A连接到眼镜设备100的左镜腿125A。在一些示例中，左可见光相机114A的部件、柔性PCB 140A或其他电气连接器或触点可以位于左镜腿125A或左铰链126A上。

右角部分110B包括角体190和角帽，在图1B的横截面中省略了角帽。设置在右角部分110B内部的是各种互连电路板(诸如PCB或柔性PCB)，其包括用于右可见光相机114B的控制器电路、一个或多个麦克风139、一个或多个扬声器191、低功率无线电路系统(例如，用于经由蓝牙^TM的无线短程网络通信)，高速无线电路系统(例如用于经由Wi-Fi的无线局域网通信)。

右可见光相机114B被耦合到柔性PCB 140B或设置在柔性PCB 140B上，并由可见光相机盖透镜覆盖，该盖透镜通过在框架105中形成的一个或多个开口对准。例如，如图2A所示，框架105的右轮缘107B被连接到右角部分110B，并且包括用于可见光相机盖透镜的一个或多个开口。框架105包括前侧，该前侧被配置为面向外部并且远离用户的眼睛。用于可见光相机盖透镜的开口被形成在框架105的前侧或面向外部的侧面上并穿过其。在该示例中，右可见光相机114B具有面向外部的视场111B(如图3所示)，其具有与眼镜设备100的用户的右眼相关的视线或视角。可见光相机盖透镜也可以被粘附到右角部分110B的前侧或面向外部的表面，其中开口被形成有面向外部的覆盖角，但在不同的朝外方向上。耦合也可以经由介入的部件是间接的。

如图1B所示，柔性PCB 140B被设置在右角部分110B内部，并且被耦合到容纳在右角部分110B中的一个或多个其他部件。尽管示出为被形成在右角部分110B的电路板上，但是右可见光相机114B可以被形成在左角部分110A的电路板、镜腿125A、125B或框架105上。

图2A和图2B是包括两种不同类型的图像显示器的眼镜设备100的示例硬件配置的从后面看的透视图。眼镜设备100被定尺寸和成形为构造成供用户佩戴的形式；眼镜的形式在该示例中被示出。眼镜设备100可以采取其他形式，并且可以包含其他类型的框架；例如，头套、头戴式耳机或头盔。

在眼镜示例中，眼镜设备100包括框架105，框架105包括经由适于由用户的鼻子支撑的桥接件106被连接到右轮缘107B的左轮缘107A。左轮缘和右轮缘107A、107B包括各自的孔175A、175B，其保持各自的光学元件180A、180B，诸如透镜和显示设备。如本文所用，术语“透镜”意指包括透明或半透明的玻璃或塑料片，这些玻璃或塑料片具有弯曲或平坦的表面，这些表面致使光会聚或发散，或者致使很少或没有会聚或发散。

图2A是眼镜设备100的示例硬件配置，其中右角部分110B支撑麦克风139和扬声器191。麦克风139包括将声音转换成对应的电气音频信号的换能器。如图所示，在该示例中，麦克风139被定位成具有向内朝向佩戴者的开口，以便于接收声波，诸如包括口头命令和问题的人类语音。可以实施附加的或不同定向的开口。在其他示例配置中，眼镜设备100被耦合到一个或多个麦克风139，麦克风被配置为一起操作或独立地操作，并且被定位在眼镜设备100上的各个位置。

扬声器191包括将电气音频信号转换成对应声音的电声换能器。扬声器191由处理器422、432中的一个控制或由音频处理器413(图4)控制。该示例中的扬声器191包括一系列长方形孔，如图所示，这些孔面向内部以将声音引导向佩戴者。可以实施附加的或不同定向的孔。在其他示例配置中，眼镜设备100被耦合到一个或多个扬声器191，扬声器被配置为一起操作(例如，在立体声中，在产生环绕声的区域中)或独立地操作，并且被定位在眼镜设备100上的各个位置。例如，一个或多个扬声器191可以被结合到眼镜设备100的框架105、镜腿125或角部部分110A、110B中。

尽管在图2A和图2B中示出为具有两个光学元件180A、180B，但根据眼镜设备100的应用或预期用户，眼镜设备100可以包括其他布置，诸如单个光学元件(或者其可以不包括任何光学元件180A、180B)。如进一步所示，眼镜设备100包括邻近框架105的左横向侧170A的左角部分110A和邻近框架105右横向侧170B的右角部分110B。角部110A、110B可以在各自侧面170A、170B上被集成到框架105中(如图所示)，或者实施为在各自侧面170A、170B上附接到框架105的独立部件。可替选地，角部110A、110B可以被集成到附接到框架105的镜腿(未示出)中。

在一个示例中，光学组件180A、180B的图像显示器包括集成图像显示器。如图2A所示，每个光学组件180A、180B包括合适的显示矩阵177，诸如液晶显示器(liquid crystaldisplay，LCD)、有机发光二极管(organic light-emitting diode，OLED)显示器或任何其他这种显示器。每个光学组件180A、180B还包括一个或多个光学层176，其可以包括透镜、光学涂层、棱镜、反射镜、波导、光学带以及任意组合的其他光学部件。光学层176A、176B、…176N(在图2A和本文中示出为176A-N)可以包括棱镜，该棱镜具有合适的尺寸和配置并且包括用于接收来自显示矩阵的光的第一表面和用于将光发射到用户眼睛的第二表面。光学层176A-N的棱镜在形成在左轮缘和右轮缘107A、107B中的各自的孔175A、175B的全部或至少一部分上延伸，以允许当用户的眼睛通过对应的左轮缘和右轮缘107A、107B观看时用户看到棱镜的第二表面。光学层176A-N的棱镜的第一表面从框架105朝上面向，并且显示矩阵177覆盖棱镜，使得由显示矩阵177发射的光子和光撞击第一表面。棱镜被定尺寸和成形为使得光在棱镜内被折射并且通过光学层176A-N的棱镜的第二表面被引导向用户的眼睛。在这方面，光学层176A-N的棱镜的第二表面可以是凸面，以将光引导向眼睛的中心。棱镜可以可选地被定尺寸和成形为放大由显示矩阵177投影的图像，并且光行进通过棱镜，使得从第二表面观看的图像在一个或多个维度上大于从显示矩阵177发射的图像。

在一个示例中，光学层176A-N可以包括透明的LCD层(保持透镜打开)，除非并且直到施加使该层不透明(关闭或阻挡透镜)的电压为止。眼镜设备100上的图像处理器412可以执行编程以将电压施加到LCD层，以便产生主动式快门系统，使得眼镜设备100适合于在显示为三维投影时观看视觉内容。除了LCD之外的技术可以被用于主动式快门模式，包括响应于电压或另一类型的输入的其他类型的反应层。

在另一示例中，光学组件180A、180B的图像显示设备包括如图2B所示的投影图像显示器。每个光学组件180A、180B包括激光投影仪150，激光投影仪是使用扫描镜或电流计的三色激光投影仪。在操作期间，光源(诸如激光投影仪150)被设置在眼镜设备100的镜腿125A、125B中的一个中或其上。在该示例中，光学组件180B包括一个或多个光学带155A、155B、…155N(如图2B中的155A-N所示)，它们间隔开并且跨越每个光学组件180A、180B的透镜的宽度或者跨越透镜的前表面和后表面之间的透镜的深度。

当激光投影仪150投影的光子行进穿过每个光学组件180A、180B的透镜时，光子遇到光学带155A-N。当特定光子遇到特定的光带时，该光子要么被重定向朝向用户的眼睛，要么其传递到下一个光学带。激光投影仪150的调制和光学带的调制的组合可以控制特定的光子或光束。在示例中，处理器通过启动机械、声学或电磁信号来控制光学带155A-N。尽管示出为具有两个光学组件180A、180B，但根据眼镜设备100的应用或预期用户，眼镜设备100可以包括其他布置，诸如单个或三个光学组件，或者每个光学组件180A、180B可以布置不同的布置。

如图2A和图2B进一步所示，眼镜设备100包括邻近框架105的左横向侧170A的左角部分110A和邻近框架105右横向侧170B的右角部分110B。角部110A、110B可以在各自的横向侧170A、170B上被集成到框架105中(如图所示)，或者实施为在各自侧面170A、170B上附接到框架105的独立部件。可替选地，角部110A、110B可以被集成到附接到框架105的镜腿125A、125B中。

在另一示例中，图2B所示的眼镜设备100可以包括两个投影仪，左投影仪(未示出)和右投影仪150。左光学组件180A可以包括左显示矩阵(未示出)或左组光学带(未示示出)，其被配置为与来自左投影仪的光相互作用。类似地，右光学组件180B可以包括右显示矩阵(未示出)或右组光学带155A-N，其被配置为与来自右投影仪150的光相互作用。在该示例中，眼镜设备100包括左显示器和右显示器。

图3是三维场景306、由左可见光相机114A捕获的左原始图像302A和由右可见光相机114B捕获的右原始图像302B的图解描绘。如图所示，左视场111A可以与右视场111B重叠。重叠视场304表示由相机114A、114B两者捕获的图像的那部分。当提及视场时，术语“重叠”意指生成的原始图像中的像素矩阵重叠百分之三十(30％)或更多。“基本上重叠”意指生成的原始图像中的像素矩阵—或场景的红外图像中的像素矩阵—重叠百分之五十(50％)或更多。如本文所述，两个原始图像302A、302B可以被处理为包括时间戳，该时间戳允许将图像一起显示为三维投影的一部分。

对于立体图像的捕获，如图3所示，在给定时刻捕获真实场景306的一对原始红色、绿色和蓝色(red,green,and blue，RGB)图像—由左相机114A捕获的左原始图像302A和由右相机114B捕获的右原始图像302B。当(例如，由图像处理器412)处理该对原始图像302A、302B时，生成深度图像。生成的深度图像可以在眼镜设备的光学组件180A、180B上、在另一显示器(例如，移动设备401上的图像显示器580)上或在屏幕上观看。

生成的深度图像在三维空间域中，并且可以包括三维位置坐标系上的顶点矩阵，该坐标系包括用于水平定位(例如长度)的X轴线、用于竖直定位(例如高度)的Y轴线和用于深度(例如距离)的Z轴线。每个顶点可以包括颜色属性(例如，红色像素光值、绿色像素光值或蓝色像素光值)；定位属性(例如，X位置坐标、Y位置坐标和Z位置坐标)；纹理属性；反射率属性；或其组合。纹理属性量化深度图像的感知纹理，诸如深度图像的顶点区域中的颜色或强度的空间排列。

在一个示例中，虚拟导览系统400(图4)包括眼镜设备100，该眼镜设备包括框架105和从框架105的左横向侧170A延伸的左镜腿125A以及从框架105的右横向侧170B延伸的右镜腿125B。眼镜设备100还可以包括具有重叠视场的至少两个可见光相机114A、114B。在一个示例中，眼镜设备100包括具有左视场111A的左可见光相机114A，如图3所示。左相机114A被连接到框架105或左镜腿125A以从场景306的左侧捕获左原始图像302A。眼镜设备100还包括具有右视场111B的右可见光相机114B。右相机114B被连接到框架105或右镜腿125B以从场景306的右侧捕获右原始图像302B。

图4是包括眼镜设备100)、移动设备401和经由诸如因特网的各种网络495连接的服务器系统498的示例虚拟导览系统400的功能框图。如图所示，虚拟导览系统400包括眼镜设备100和移动设备401之间的低功率无线连接425和高速无线连接437。

如图4所示，眼镜设备100包括一个或多个可见光相机114A、114B，其捕获静止图像、视频图像或者静止图像和视频图像两者，如本文所述。相机114A、114B可以具有对高速电路系统430的直接存储器访问(direct memory access，DMA)，并且用作立体相机。相机114A、114B可以被用于捕获初始深度图像，该初始深度图像可以被渲染成三维(three-dimensional，3D)模型，该三维模型是红色、绿色和蓝色(RGB)成像场景的纹理映射图像。设备100还可以包括深度传感器，该深度传感器使用红外信号来估计对象相对于设备100的定位。在一些示例中，深度传感器包括一个或多个红外发射器和一个或多个红外相机410。

眼镜设备100还包括每个光学组件180A、180B的两个图像显示器(一个与左侧170A相关联以及一个与右侧170B相关联)。眼镜设备100还包括图像显示驱动器442、图像处理器412、低功率电路系统420和高速电路系统430。每个光学组件180A、180B的图像显示器用于呈现图像，包括静止图像、视频图像或者静止和视频图像两者。图像显示驱动器442被耦合到每个光学组件180A、180B的图像显示器，以便控制图像的显示。

眼镜设备100的图4中所示的部件位于一个或多个电路板上，例如位于轮缘或镜腿中的印刷电路板(PCB)或柔性印刷电路(flexible printed circuit，FPC)。可替选地或附加地，所描绘的部件可以位于眼镜设备100的角部、框架、铰链或桥接件中。左可见光相机和右可见光相机114A、114B可以包括数字相机元件，诸如互补金属氧化物半导体(CMOS)图像传感器、电荷耦合器件、透镜或任何其他相应的可见光或光捕获元件，其可以被用于捕获数据，包括具有未知对象的场景的静止图像或视频。

如图4所示，高速电路系统430包括高速处理器432、存储器434和高速无线电路系统436。在示例中，图像显示驱动器442被耦合到高速电路系统430并且由高速处理器432操作，以便驱动每个光学组件180A、180B的左图像显示器和右图像显示器。高速处理器432可以是能够管理眼镜设备100所需的任何通用计算系统的高速通信和操作的任何处理器。高速处理器432包括使用高速无线电路系统436来管理到无线局域网(wireless local areanetwork，WLAN)的高速无线连接437上的高速数据传递所需的处理资源。

在一些示例中，高速处理器432执行操作系统，诸如LINUX操作系统或眼镜设备100的其他这种操作系统，并且该操作系统被存储在存储器434中以供执行。除了任何其他职责之外，高速处理器432执行眼镜设备100的软件架构，该软件架构被用于管理与高速无线电路系统436的数据传递。在一些示例中，高速无线电路系统436被配置为实施电气与电子工程师协会(Institute of Electrical and Electronic Engineers，IEEE)802.11通信标准，在本文中也被称为Wi-Fi。在其他示例中，可以通过高速无线电路系统436来实施其他高速通信标准。

低功率电路系统420包括低功率处理器422和低功率无线电路系统424。眼镜设备100的低功率无线电路系统424和高速无线电路系统436可以包括短程收发器(蓝牙^TM或蓝牙低能耗(Bluetooth Low-Energy，BLE))和无线广域网、局域网或广域网收发器(例如，蜂窝或Wi-Fi)。移动设备401(包括经由低功率无线连接425和高速无线连接437进行通信的收发器)可以使用眼镜设备100的体系结构的细节来实施，网络495的其他元件也可以如此。

存储器434包括能够存储各种数据和应用(除其他外，包括由左可见光相机和右可见光相机114A、114B，一个或多个红外相机410、图像处理器412生成的相机数据，以及由图像显示驱动器442在每个光学组件180A、180B的图像显示器上生成用于显示的图像)的任何存储设备。尽管存储器434被示出为与高速电路系统430集成，但是在其他示例中，存储器434可以是眼镜设备100的独立的、单独的元件。在某些这种示例中，电气路由线路可以提供通过包括高速处理器432的芯片从图像处理器412或低功率处理器422到存储器434的连接。在其他示例中，高速处理器432可以管理存储器434的寻址，使得低功率处理器422将在需要涉及存储器434的读取或写入操作的任何时间启动高速处理器432。

如图4所示，眼镜设备100的各种元件可以被耦合到低功率电路系统420、高速电路系统430或两者。例如，红外相机410(在一些实施方式中包括红外发射器)、用户输入设备491(例如，触摸板181)、麦克风139和IMU 472可以被耦合到低功率电路系统420、高速电路系统430或两者。

如图5所示，移动设备401的CPU 540可以被耦合到相机系统570、移动显示驱动器582、用户输入层591和存储器540A。

服务器系统498可以是作为服务或网络计算系统的一部分的一个或多个计算设备，例如，包括处理器、存储器和网络通信接口，以通过网络495与眼镜设备100和移动设备401通信。

眼镜设备100的输出部件包括视觉元件，诸如与如图2A和图2B中所述的每个透镜或光学组件180A、180B相关联的左图像显示器和右图像显示器(例如，诸如液晶显示器(LCD)、等离子显示器(plasma display panel，PDP)、发光二极管(light emitting diode，LED)显示器、投影仪或波导之类的显示器)。眼镜设备100可以包括面向用户的指示器(例如，LED、扬声器191或振动致动器)，或面向外部的信号(例如，LED、扬声器191)。每个光学组件180A、180B的图像显示器由图像显示驱动器442驱动。在一些示例配置中，眼镜设备100的输出部件还包括附加指示器，诸如可听元件(例如扬声器191)、触觉部件(例如致动器，诸如振动马达，以产生触觉反馈)和其他信号发生器。例如，设备100可以包括面向用户的一组指示器和面向外部的一组信号。面向用户的一组指示器被配置为被设备100的用户看到或以其他方式感测到。例如，设备100可以包括被定位成使得用户能够看到其的LED显示器、被定位成产生用户能够听到的声音的一个或多个扬声器191、或者提供用户能够感觉到的触觉反馈的致动器。面向外部的一组信号被配置为被设备100附近的观察者看到或以其他方式感测到。类似地，设备100可以包括LED、扬声器191或致动器，其被配置和定位为被观察者感测到。

眼镜设备100的输入部件可以包括字母数字输入部件(例如，被配置为接收字母数字输入的触摸屏或触摸板181、光电键盘或其他字母数字配置的元件)、基于指针的输入组件(例如，鼠标、触摸板181，轨迹球、操纵杆、运动传感器或其他指向仪器)，触觉输入部件(例如，按钮开关、感测触摸或触摸手势的位置、力或者位置和力的触摸屏或触摸板181，或者其他触觉配置的元件)和音频输入部件(例如麦克风139)和类似物。移动设备401和服务器系统498可以包括字母数字、基于指针、触觉、音频和其他输入部件。

在一些示例中，眼镜设备100包括被称为惯性测量单元472的运动感测部件的集合。运动感测部件可以是具有微观运动零件的微电子机械系统(micro-electro-mechanical system，MEMS)，该微观运动零件通常小到足以成为微芯片的一部分。在一些示例配置中，惯性测量单元(inertial measurement unit，IMU)472包括加速度计、陀螺仪和磁力计。加速度计感测相对于三个正交轴线(x，y，z)的设备100的线性加速度(包括由于重力引起的加速度)。陀螺仪感测设备100围绕三个旋转轴线(俯仰、滚转、偏航)的角速度。加速度计和陀螺仪一起可以提供关于设备相对于六个轴线(x、y、z、俯仰、滚转、偏航)的定位、取向和运动数据。磁力计(如果存在的话)感测设备100相对于磁北的航向。设备100的定位可以由位置传感器(诸如GPS单元)、产生相对定位坐标的一个或多个收发器、高度传感器或气压计以及其他取向传感器来确定。这种定位系统坐标也可以通过无线连接425、437经由低功率无线电路系统424或高速无线电路系统436从移动设备401接收。

IMU 472可以包括数字运动处理器或编程，或者与之协作，该数字运动处理器或编程从部件收集原始数据，并计算关于设备100的定位、取向和运动的多个有用值。例如，可以对从加速度计收集的加速度数据进行积分，以获得相对于每个轴线(x，y，z)的速度；并且再次积分以获得设备100的定位(在线性坐标x、y和z中)。可以对来自陀螺仪的角速度数据进行积分以获得设备100的定位(在球坐标中)。用于计算这些有用值的编程可以被存储在存储器434中，并且由眼镜设备100的高速处理器432执行。

眼镜设备100可以可选地包括附加的外围传感器，诸如生物特征识别传感器、特殊传感器，或与眼镜设备100集成的显示元件。例如，外围设备元件可以包括任何I/O部件，包括输出部件、运动部件、定位部件或本文所述的任何其他这种元件。例如，生物特征识别传感器可以包括检测表情(例如，手部表情、面部表情、声音表情、身体姿势或眼睛跟踪)、测量生物信号(例如，血压、心率、体温、汗液或脑电波)、或者识别人(例如，基于语音、视网膜、面部特征、指纹或诸如脑电图数据的电生物信号的识别)及诸如此类的部件。

移动设备401可以是智能手机、平板电脑、笔记本电脑、接入点或能够使用低功率无线连接425和高速无线连接437两者与眼镜设备100连接的任何其他这种设备。移动设备401被连接到服务器系统498和网络495。网络495可以包括有线和无线连接的任何组合。

虚拟导览系统400(如图4所示)包括通过网络耦合到眼镜设备100的计算设备，诸如移动设备401。虚拟导览系统400包括用于存储指令的存储器和用于执行指令的处理器。通过处理器432执行虚拟导览系统400的指令将眼镜设备100配置为与移动设备401协作。虚拟导览系统400可以利用眼镜设备100的存储器434或移动设备401的存储器元件540A、540B、540C(图5)。此外，虚拟导览系统400可以利用眼镜设备100的处理器元件432、422或移动设备401的中央处理单元(central processing unit，CPU)540(图5)。另外，虚拟导览系统400还可以利用服务器系统498的存储器和处理器元件。在该方面中，虚拟导览系统400的存储器和处理功能可以跨眼镜设备100、移动设备401和服务器系统498的处理器和存储器共享或分布。

在一些实施方式中，存储器434包括或被耦合到活动库480、对象数据库482和游览库484。活动库480包括并存储多个预定义的活动850，如本文所述，它们在确定在物理环境中检测到的动作是否与如活动库480中定义并存储的预定义活动850中的一个基本上匹配时是有用的。对象数据库482包括并存储多个预定义对象，诸如容器和器皿，如本文所述，这些预定义对象在确定物理环境中检测到的容器是否与如对象数据库482中定义并存储的预定义对象中的一个基本上匹配时是有用的。

游览库484包括并存储多个预定义的导览。例如，在一些实施方式中，与游览相关联的数据记录包括标题、一个或多个片段标题、化身710；与情境叠加725相关联的内容，包括交互式元素730和到附加内容726的链接734；与视频750相关联的内容，包括视频片段、静止照片和幻灯片演示；以及讲座872，包括解说、课程和指南(文本和音频格式两者)。

在一些实施方式中，存储器434包括或被耦合到导览应用910、定位系统915、图像处理系统920、语音识别模块925和化身动画引擎930。在其中相机正在捕获视频数据900的帧的虚拟导览系统400中，导览应用910将处理器432配置为检测一个或多个容器或物品，检索与检测到的容器相关联的数据850，并且呈现情境叠加725，如本文所述。定位系统915将处理器432配置为获得定位数据，用于在确定眼镜设备100相对于物理环境的定位时使用。定位数据可以从一系列图像、IMU单元472、GPS单元或其组合中导出。图像处理系统920将处理器432配置为与图像显示驱动器442和图像处理器412协作在光学组件180A、180B的显示器上呈现情境叠加725、化身710和各种图形元素712、720、711、721、750。

语音识别模块925将处理器432配置为感知人类语音，将接收到的语音转换为音频数据905的帧，基于音频数据905识别询问，并且组装(assemble)与响应于识别出的询问相关的答复(response)。

化身动画引擎930将处理器432配置为将化身710渲染为静止图像或渲染为运动图像(例如，部分或完全动画化)，以与图像显示驱动器442和图像处理器412协作在光学组件180A、180B的显示器上呈现。在一些实施方式中，化身710是被称为的卡通样角色，其被渲染为看起来是三维的。预定义和可配置的/>化身可通过网络495访问，并且在一些实施方式中，被存储在本文所述的游览库484中。

图5是示例移动设备401的高级功能框图。移动设备401包括闪存540A，该闪存存储要由CPU 540执行以执行本文所述功能的全部或子集的编程。

移动设备401可以包括相机570，相机570包括至少两个可见光相机(具有重叠视场的第一可见光相机和第二可见光相机)或具有基本上重叠视场的至少一个可见光相机和深度传感器。闪存540A还可以包括经由相机570生成的多个图像或视频。

如图所示，移动设备401包括图像显示器580、控制图像显示器580的移动显示驱动器582以及显示控制器584。在图5的示例中，图像显示器580包括用户输入层591(例如，触摸屏)，该用户输入层被分层放置在图像显示器580所使用的屏幕的顶部上或以其他方式集成到该屏幕中。

可以被使用的触摸屏型移动设备的示例包括(但不限于)智能手机、个人数字助理(personal digital assistant，PDA)、平板电脑、笔记本电脑或其他便携式设备。然而，触摸屏型设备的结构和操作通过示例的方式被提供；如本文所描述的主题技术不旨在限于此。出于该讨论的目的，图5因此提供了具有用户界面的示例移动设备401的框图说明，该用户界面包括用于接收输入(通过触摸、多点触摸或手势和类似方式，通过手、触笔或其他工具)的触摸屏输入层591和用于显示内容的图像显示器580。

如图5所示，移动设备401包括至少一个数字收发器(XCVR)510，示出为WWAN XCVR，用于经由广域无线移动通信网络进行数字无线通信。移动设备401还包括附加的数字或模拟收发器，诸如用于短程网络通信的短程收发器(XCVR)520，诸如经由NFC、VLC、DECT、ZigBee、蓝牙^TM，或Wi-Fi。例如，短程XCVR520可以采取与在无线局域网中实施的一个或多个标准通信协议(诸如IEEE 802.11下的Wi-Fi标准中的一个)兼容的类型的任何可用的双向无线局域网(WLAN)收发器的形式。

为了生成用于移动设备401的定位的位置坐标，移动设备401可以包括全球定位系统(global positioning system，GPS)接收器。可替选地或附加地，移动设备401可以利用短程XCVR 520和WWAN XCVR 510中的一个或两者来生成用于定位的位置坐标。例如，基于蜂窝网络、Wi-Fi或蓝牙^TM的定位系统可以生成非常精确的位置坐标，特别是在组合使用时。这种位置坐标可以经由XCVR 510、520通过一个或多个网络连接被发送到眼镜设备。

在一些示例中，客户端设备401包括被称为惯性测量单元(IMU)572的运动感测部件的集合，用于感测客户端设备401的定位、取向和运动。运动感测部件可以是具有微观运动零件的微电子机械系统(MEMS)，该微观运动零件通常小到足以成为微芯片的一部分。在一些示例配置中，惯性测量单元(IMU)572包括加速度计、陀螺仪和磁力计。加速度计感测相对于三个正交轴线(x，y，z)的客户端设备401的线性加速度(包括由于重力引起的加速度)。陀螺仪感测客户端设备401关于三个旋转轴线(俯仰、滚转、偏航)的角速度。加速度计和陀螺仪一起可以提供关于设备相对于六个轴线(x、y、z、俯仰、滚转、偏航)的定位、取位和运动数据。磁力计(如果存在)感测客户端设备401相对于磁北的航向。

IMU 572可以包括数字运动处理器或编程，或者与之协作，该数字运动处理器或编程从部件收集原始数据，并计算关于客户端设备401的定位、取向和运动的多个有用值。例如，可以对从加速度计收集的加速度数据进行积分，以获得相对于每个轴线(x，y，z)的速度；并且再次积分以获得客户端设备401的定位(在线性坐标x、y和z中)。可以对来自陀螺仪的角速度数据进行积分以获得客户端设备401的定位(在球坐标中)。用于计算这些有用值的编程可以被存储在一个或多个存储器元件540A、540B、540C中，并且由客户端设备401的CPU 540执行。

收发器510、520(即，网络通信接口)符合现代移动网络所利用的各种数字无线通信标准中的一个或多个。WWAN收发器510的示例包括(但不限于)被配置为根据码分多址(Code Division Multiple Access，CDMA)和第三代合作伙伴计划(3rd GenerationPartnership Project，3GPP)网络技术(包括例如且不限于3GPP类型2(或3GPP2)和LTE，有时被称为“4G”)操作的收发器。例如，收发器510、520提供信息(包括数字化音频信号、静止图像和视频信号、用于显示的网页信息以及与网络相关的输入，以及到/来自移动设备401的各种类型的移动消息通信)的双向无线通信。

移动设备401还包括用作中央处理单元(CPU)的微处理器；示出为图4中的CPU540。处理器是具有被构造和布置为执行一个或多个处理功能(典型地，各种数据处理功能)的元件的电路。尽管可以使用分立的逻辑部件，但是示例利用形成可编程CPU的部件。微处理器例如包括一个或多个集成电路(integrated circuit，IC)芯片，该集成电路芯片包含电子元件以执行CPU的功能。例如，CPU 540可以基于任何已知或可用的微处理器架构，诸如使用ARM架构的精简指令集计算机(Reduced Instruction Set Computing，RISC)，如当今在移动设备和其他便携式电子设备中常用的。当然，处理器电路系统的其他布置可以被用于在智能手机、笔记本电脑和平板电脑中形成CPU 540或处理器硬件。

CPU 540通过将移动设备401配置为执行各种操作，例如，根据CPU 540可执行的指令或编程，来用作移动设备401的可编程主机控制器。例如，这种操作可以包括移动设备的各种一般操作，以及与针对移动设备上的应用的编程相关的操作。尽管可以通过使用硬连线逻辑来配置处理器，但是移动设备中的典型处理器是通过执行编程配置的通用处理电路。

移动设备401包括用于存储编程和数据的存储器或存储系统。在该示例中，根据需要，存储器系统可以包括闪存540A、随机存取存储器(random-access memory，RAM)540B和其他存储器部件540C。RAM 540B用作由CPU 540正在处理的指令和数据的短期存储，例如用作工作数据处理存储器。闪存540A典型地提供较长期的存储。

因此，在移动设备401的示例中，闪存540A被用于存储由CPU 540执行的编程或指令。根据设备的类型，移动设备401存储并运行移动操作系统，通过该移动操作系统执行特定应用。移动操作系统的示例包括Google Android、Apple iOS(用于iPhone或iPad设备)、Windows Mobile、Amazon Fire OS、RIM BlackBerry OS或类似物。

眼镜设备100内的处理器432可以构建眼镜设备100周围环境的地图，确定眼镜设备在映射的环境内的位置，并且确定眼镜设备与映射的环境中的一个或多个对象的相对定位。处理器432可以使用应用于从一个或多个传感器接收到的数据的同步定位与地图构建(simultaneous localization and mapping，SLAM)算法来构建地图并确定位置和定位信息。传感器数据包括从相机114A、114B中的一个或两者接收到的图像、从激光测距仪接收到的一个或多个距离、从GPS单元接收到的定位信息、从IMU 572接收到的运动和加速度数据、或者来自这种传感器或来自其他传感器(提供在确定定位信息时有用的数据)的数据的组合。在增强现实的情境中，SLAM算法被用于构建和更新环境的地图，同时同步跟踪和更新设备(或用户)在映射的环境内的位置。可以使用各种统计方法(诸如粒子滤波器、卡尔曼滤波器、扩展卡尔曼滤波器和协方差交集)来近似数学解。在包括以高帧速率(例如，每秒30帧)捕获视频的高清晰度(HD)摄像机的系统中，SLAM算法至少与帧速率一样频繁地更新地图和对象的位置；换句话说，每秒计算和更新映射和定位三十次。

传感器数据包括从相机114A、114B中的一个或两者接收到的一个或多个图像、从激光测距仪接收到的一个或多个距离、从GPS单元接收到的定位信息、从IMU 472接收到的运动和加速度数据、或者来自这种传感器或来自其他传感器(提供在确定定位信息时有用的数据)的数据的组合。

图6描绘了示例物理环境600以及当使用SLAM应用和其他类型的跟踪应用(例如自然特征跟踪(natural feature tracking，NFT))时有用的元素。眼镜设备100的用户602存在于示例物理环境600(在图6中，该物理环境是内部房间)中。眼镜设备100的处理器432使用所捕获的图像来确定其相对于环境600内的一个或多个对象604的定位，使用环境600的坐标系(x，y，z)来构建环境600的地图，并且确定其在坐标系内的定位。另外，处理器432通过使用与单个对象604a相关联的两个或多个位置点(例如，三个位置点606a、606b和606c)，或者通过使用与两个或更多个对象604a、604b、604c相关联的一个或多个位置点606，来确定眼镜设备100在环境内的头部姿态(滚转、俯仰和偏航)。眼镜设备100的处理器432可以将虚拟对象608(诸如图6中所示的钥匙)定位在环境600内，用于在增强现实体验期间观看。

定位系统915在一些示例中是与环境600中的虚拟对象608相关联的虚拟标记610a。在增强现实中，标记被注册在环境中的位置，以协助设备完成跟踪和更新用户、设备和对象(虚拟和物理)在映射环境中的位置的任务。标记有时被注册到高对比度的物理对象，诸如相对暗的对象，诸如安装在浅色墙上的带框图片604a，以协助相机和其他传感器完成检测标记的任务。标记可以被预先分配，或者可以在进入环境时由眼镜设备100分配。

标记可以与信息一起编码或以其他方式链接到信息。标记可能包括定位信息、物理代码(诸如条形码或QR码；或用户可见或隐藏)或者其组合。与标记相关联的一组数据被存储在眼镜设备100的存储器434中。该组数据包括关于标记610a、标记的定位(位置和取向)、一个或多个虚拟对象或其组合的信息。标记定位可以包括一个或多个标记地标616a的三维坐标，诸如图6所示的大致矩形标记610a的角。标记位置可以相对于真实世界的地理坐标、标记坐标系、眼镜设备100的定位或其他坐标系来表示。与标记610a相关联的一个或多个虚拟对象可以包括各种材料中的任何一种，包括静止图像、视频、音频、触觉反馈、可执行应用、交互式用户界面和体验以及这些材料的组合或序列。能够被存储在存储器中并在标记610a被遇到或与所分配的标记相关联时被检索的任何类型的内容在该情境中都可以被分类为虚拟对象。例如，图6中所示的钥匙608是在标记位置处显示为静止图像(2D或3D)的虚拟对象。

在一个示例中，标记610a可以在存储器中被注册为位于物理对象604a(例如，图6中所示的带框艺术品)附近并且与物理对象604a相关联。在另一示例中，标记可以在存储器中被注册为相对于眼镜设备100的特定定位。

图9是列出在眼镜设备100的显示器180B上呈现虚拟游览体验700的示例方法中的步骤的流程图940。尽管参考本文描述的眼镜设备100描述了这些步骤，但是本领域技术人员从本文的描述中将理解所描述的步骤的其他实施方式(对于其他类型的设备)。示出和描述的步骤中的一个或多个可以同步、以一系列、以除示出和描述之外的顺序、或者结合附加步骤来执行。一些步骤可以省略，或者在一些应用中可以被重复。

在一些实施方式中，本文描述的导览应用910响应于通过用户界面(例如，从菜单中进行选择、按下按钮)或通过一些其他输入手段(例如，手势、语音命令)接收到选择而开始。在其他示例中，导览应用910响应于检测到容器650而开始，如本文所述。

图9中的框942描述了捕获眼镜设备100的相机114B的视场904内的视频数据900的帧的示例步骤。该示例中的眼镜设备100包括相机114B、麦克风139、扬声器191、导览应用910和显示器180B。在一些实施方式中，眼镜设备100包括一个或多个相机114A、114B，如本文所述，用于捕获静止图像或视频数据900的帧。该示例中的眼镜设备100包括图像处理系统920和一个或多个显示器180A、180B。例如，如图7和图8所示，眼镜设备100包括半透明图像显示器180B，如本文所述，该半透明图像显示器可以包括半透明透镜层和显示矩阵层，该显示矩阵层被配置为在眼镜设备的透镜上呈现图像。图形和虚拟元素是情境叠加725的一部分，该情境叠加作为相对于周围物理环境600的叠加呈现在显示器180B上。如图所示，该效果允许观看者看到所呈现的情境叠加725并与之交互，同时周围环境600也通过显示器180B保持可见。

在一些实施方式中，当佩戴者移动通过物理环境600时，眼镜设备100的高速处理器432用相机114B存储所捕获的视频数据900的帧。如本文所述并如图7所示，相机114B典型地具有相机视场904，其可以捕获超出显示器180B的限制的环境的图像和视频。

在一些实施方式中，相机系统包括一个或多个高分辨率数字相机，该相机配备有CMOS图像传感器，能够以相对高的帧速率(例如，每秒30帧或更多)捕获高清晰度静止图像和高清晰度视频。数字视频的每一帧包括图像中多个像素的深度信息。在该方面中，相机系统通过捕获物理环境的详细输入图像而用作高清晰度扫描仪。在一些实施方式中，相机系统包括一对高分辨率数字相机114A、114B，它们被耦合到眼镜设备100并且间隔开以获取左相机原始图像和右相机原始图像，如本文所述。当组合时，原始图像形成包括三维像素位置的矩阵的输入图像。在一些实施方式中，在框942处，该示例方法包括将所捕获的视频数据900的帧至少暂时存储在眼镜设备100上的存储器434中，使得这些帧可用于分析。

在一些实施方式中，本文描述的捕获视频数据900的帧的过程在眼镜设备100的主动使用期间进行。在其他示例中，捕获过程响应于通过用户界面(例如，从菜单中进行选择、按下按钮)或通过一些其他输入手段(例如，手势、语音命令)接收到选择而开始。

框944描述了利用图像处理系统920在所捕获的视频数据900的帧中检测容器650的示例步骤。检测容器650的过程包括检测相对于显示器180B，或者可替选地，相对于另一已知定位(诸如眼镜位置840)的三维坐标中的当前容器定位705。在一些示例实施方式中，图像处理系统920分析所捕获的视频数据900的帧中的像素级数据，以确定该帧是否包括一个或多个容器650。

图7是在物理环境600中由手10握持的示例容器650的透视图。在该示例中，导览应用910在检测到的容器650的侧面附近检测并设置当前容器定位705，如图所示。在其他情境中，容器定位705可以被设置在检测到的容器650的中心附近，或者设置在相对于检测到的容器650的尺寸和形状的一些其他预定义或可配置的定位处。

如本文所用，术语容器650是指并且包括封闭容器(诸如瓶子、金属罐、罐子和烧瓶)；敞口器皿(诸如壶、大水罐、醒酒器、玻璃瓶、杯子、马克杯、水箱、大桶和篮子)；以及用于保持物品的其他贮器(包括但不限于碗、盘、碟、勺子、袋子、小袋和人手)。

本领域技术人员将理解，当眼镜设备100移动通过物理环境600时，检测容器650和容器定位705的过程随着时间的推移连续地发生。随着时间的推移，可以在相机114B的视场904内检测到另外的容器650，而停止检测其他容器。此外，一个或多个检测到的容器650可以被移动到物理环境600中的新位置，并且然后在不同的或更新的当前容器定位705处被检测到。在该方面中，检测过程正在进行并且基本上连续的，其中图像处理系统920分析所捕获的视频数据900的帧中的像素级数据，以检测后续容器定位处的后续容器。

在框944处的示例过程包括确定所捕获的视频数据900的帧是否包括容器650。在一些实施方式中，图像处理系统920将所捕获的视频数据900的帧中的像素级数据与存储在对象数据库482中的、关于多个预定义容器和其他对象中的每一个的数据进行比较。例如，关于对象的数据记录包括名称或其他标识符(例如，瓶子、金属罐、自行车、人、马克杯、酒杯)、包括一个或多个对象地标的三维坐标的形状和尺寸、视点(例如，侧面、顶部、底部)、方向参考(例如，竖直、水平)以及与每个对象相关的其他数据和描述符。

在框944处的示例过程当然包括在所捕获的视频数据900的帧中检测两个或更多个容器。在该方面中，随着时间的推移，该过程包括检测后续容器，检索与检测到的后续容器相关联的数据，基于后续检索到的数据呈现后续情境叠加和后续开始消息。

图9中的框946描述了利用导览应用910检索与检测到的容器650相关联的数据850的示例步骤。检索到的数据850至少暂时被存储在眼镜设备100的存储器434中。在一些示例实施方式中，如在图9的框946处所描述的，检索数据850的过程包括从一个或多个源(包括对象数据库482或游览库484)收集关于检测到的容器650及其内容物的信息，并且可以进一步包括因特网上的一个或多个网站。在该方面中，检索数据850的过程包括组装搜索词、执行搜索以及获取与检测到的容器650及其内容物相关的信息。在一些实施方式中，导览应用910被配置为访问一个或多个优选的搜索引擎、网站和其他基于因特网的资源。在一些实施方式中，使用因特网搜索来检索数据850的框946处的过程涉及使用机器学习算法来选择最有可能快速且有效地检索相关容器信息的搜索引擎、网络资源和网站数据。

图9中的框948描述了在显示器180B上呈现情境叠加725的示例步骤。情境叠加725基于关于检测到的容器650检索的数据850。情境叠加725被呈现在邻近检测到的容器定位705或以其他方式与检测到的容器定位705相关联的定位处，如图7所示。在一些实施方式中，情境叠加725在尺寸和形状方面根据其内容进行呈现，最大到将适合于显示器180B的可配置的最大尺寸。在其他实施方式中，情境叠加725的内容根据情境叠加725的尺寸和形状在尺寸上受到限制。

当眼镜设备100移动通过物理环境600时，在一些实施方式中，使用称为定位的过程，情境叠加725将看起来保持在当前容器定位705附近。在一些实施方式中，眼镜设备100上的定位系统915将眼镜100上的处理器432配置为获得定位数据，用于在确定相对于当前容器定位705的当前眼镜位置840时使用。定位数据可以从捕获的视频数据900的帧、IMU单元472、GPS单元或其组合中导出。定位系统915可以使用SLAM算法来构建相机视场904内的各种元素的虚拟地图，如本文所述，至少与相机114B的帧速率一样频繁地更新地图和对象的位置(例如，与每秒30次一样频繁地、或更多地计算和更新映射和当前眼镜位置840的定位)。

在一些实施方式中，定位过程包括计算检测到的容器定位705和当前眼镜位置840之间的相关性。术语相关性是指并且包括足以根据当前眼镜位置840定义检测到的容器定位705和眼镜显示器180B之间的三维距离的一个或多个向量、矩阵、公式或其他数学表达式。当然，当前眼镜位置840被绑定到由眼镜设备100的框架支撑的显示器180B或与显示器180B持久地相关联。在该方面中，相关性执行将眼镜100的运动与检测到的容器650的表观运动进行校准的功能。因为定位过程连续且频繁地发生，所以相关性被连续且频繁地计算，从而导致检测到的当前容器定位705相对于当前眼镜位置840的精确且接近实时的跟踪。

因为定位过程连续且频繁地发生，所以相关性被连续且频繁地计算，从而导致容器650的当前位置相对于当前眼镜位置840的精确且接近实时的跟踪。

情境叠加725基于检索到的数据850(关于检测到的容器650及其内容物检索到)。根据一个示例，其中容器650是一瓶葡萄酒，图7中所示的情境叠加725包括葡萄酒的名称、酿酒师和生产葡萄酒的区域。如图所示的情境叠加725还包括评级、品尝笔记和食物搭配推荐。

在一些实施方式中，情境叠加725包括一个或多个交互式图形元素730，每个交互式图形元素与附加内容726相关联。例如，如图7所示，情境叠加725包括滑块元素730和滚动条732。例如，使用滚动条732可以揭示附加内容726，包括附加或不同的特征、评级、笔记和信息。在一些实施方式中，使用交互式图形元素730将揭示与检测到的容器650相关联的内容的替代品(例如，类似的葡萄酒)。此外，情境叠加725的一个或多个文本元素被加下划线，指示要跟随的可点击链接。例如，与柑橘香相关联的第一链接734A(当被选择时)揭示了关于容器650的内容物的味道、风味和其他特征的附加细节。与食物搭配相关联的第二链接734B(当被选择时)揭示了关于与容器650的内容物良好搭配的推荐食物的附加细节。链接(当被选择时)可以致使情境叠加725的全部或部分被新的和不同的内容替换或更新。各种其他图形元素730中的任何一个都可以被包括在情境叠加725中。如本文所使用的，一个或多个交互式元素730意指并且包括呈现在显示器上的图形元素的任何集合，包括但不限于与VR体验相关联的虚拟对象和图形元素(诸如图标、缩略图、任务栏和菜单项)。

在一些实施方式中，交互式图形元素730包括呈现在相对于显示器的当前元素定位740处的可移动元素711(例如，光标，如图7所示)。在一些实施方式中，与光标711交互包括检测相对于耦合到眼镜设备的触摸板181的当前指尖位置681，如图所示；并且然后根据检测到的当前指尖位置681在显示器上的当前元素定位740处呈现光标711。在该示例中，可以通过将光标711移动到显示器上的图形元素中的一个来执行导航动作。例如，导航动作包括将光标711放置在滚动条732附近、链接734A、734B中的一个附近或可选图形元素720附近，以及轻击、按压、双击或以其他方式选择附近的元素。

如图7所示，在一些实施方式中，虚拟游览体验700包括可选择的图形元素720(例如，开始游览按钮)。可选择的图形元素720被呈现在显示器上的相对于显示器的按钮定位702。在一些实施方式中，按钮定位702是关于显示器180B定义的，使得可选图形元素720将被呈现在显示器上的一致定位处(例如，在左上角中)。在一些实施方式中，检测到选择动作(例如，将光标711放置在元素720附近并轻击)致使导览应用910开始呈现虚拟游览体验700。在一些实施方式中，选择动作包括接收语音命令以开始游览。

图9中的框950描述了在相对于显示器的化身定位701处将化身710呈现在显示器上的示例步骤。化身710基于关于检测到的容器650及其内容物检索到的数据850。根据一个示例，其中容器650是一瓶葡萄酒，图7中所示的化身710看起来拿着一杯葡萄酒。

化身710在相对于显示器的化身定位701处被呈现在显示器上。在一些实施方式中，化身定位701是关于显示器180B定义的，使得化身710将被呈现在显示器上的一致定位处(例如，在右上角中)。

图9中的框950还描述了呈现基于关于检测到的容器650及其内容物检索到的数据850的开始消息871的示例步骤。根据一个示例，其中容器650是一瓶葡萄酒，开始消息871可以包括化身名称(例如，“梅根，侍酒师”)、欢迎词(例如“很棒的选择！干杯！”)和关于情境叠加725的一个或多个元素的笔记(例如，“这杯葡萄酒与贝类搭配得很好”或者“赫什菲尔德葡萄园被评为2024年最佳葡萄酒商”)。

开始消息871以及本文所述的其他消息和答复可以以文本形式呈现(例如，如图7所示，在邻近化身710的语音气泡712内，或者在显示器上的任何地方)，或者通过扬声器191可听地播放，或者两者。在一些实施方式中，播放消息或答复包括使化身710动画化，使得化身710看起来正在说出消息或答复。

在一些实施方式中，语音气泡712在尺寸方面根据消息或答复的内容进行呈现，最大到将适合显示器180B的可配置的最大尺寸。在其他实施方式中，消息或答复的长度根据语音气泡712的尺寸和形状在尺寸上受到限制。在该方面中，本文所描述的任何消息或答复可以按顺序分段地呈现。

图9中的框952描述了利用语音识别模块925基于麦克风139接收到的音频数据905的帧来识别第一询问860的示例步骤。语音识别模块925被耦合到眼镜设备100或者以其他方式可由眼镜设备100访问。识别第一询问860的过程包括通过麦克风139接收人类语音，并且然后将语音转换成音频数据905的帧。语音识别模块925使用自动语音识别处理来分析音频数据905的帧，以识别第一询问860的内容。在一些实施方式中，自动语音识别涉及使用机器学习算法，该算法已被训练为快速且有效地检测、破译和识别人类语音的内容。

框954描述了响应于识别的第一询问860播放第一答复870的示例步骤。与本文所描述的其他消息和答复一样，第一答复870可以以文本形式呈现(例如，在语音气泡712内)，或者通过扬声器191可听地播放，或者两者。语音识别模块925组装和播放第一答复870的过程包括将第一答复870中的内容与第一询问860中的内容相关。

图9中的框952和954描述了用于与化身710进行交互式问答会话的示例过程，其中导览应用910提供与询问相关并响应于询问的答复。在一些实施方式中，这种基于语音的交互式会话在本文所述的虚拟游览体验700期间的任何时间都是激活的且可用的。

图10是列出响应于检测到显示器上的动作而呈现虚拟导览体验700的示例方法中的步骤的流程图960。

图10中的框962描述了利用图像处理系统920在所捕获的视频数据900的帧中检测第一动作801的示例步骤。在示例实施方式中，第一动作801与检测到的容器650和第二容器660相关联。在该方面中，检测过程包括在所捕获的视频数据900的帧中检测第二容器660。

图8是具有中心轴线651的示例容器650(例如酒瓶)和第二容器660(例如酒杯)的透视图。图8所示的第一动作801包括将容器650的内容物倒入第二容器660中。检测第一动作801的过程包括将瓶子容器650的中心轴线651与第二容器660的取向进行比较。在该示例中，倒酒的第一动作801开始虚拟导览体验700。

图10中的框964描述了确定检测到的第一动作801是否与来自存储在活动库480中的多个预定义活动850中的第一预定义活动851(例如，将内容物倒入第二容器中)相匹配的示例步骤。可以在活动库480中建立、定义和存储各种预定义活动850中的任一种。

在图8所示的示例中，图像处理系统920分析所捕获的视频数据900的帧中的像素级数据，以确定容器650是否以与如活动库480中定义和存储的第一预定义活动851相匹配的方式相对于第二容器660正在执行第一动作801(例如，倾倒)。在一些示例实施方式中，关于预定义活动的数据记录包括名称或其他标识符(例如，打开、倾倒、啜饮)、表示运动中的容器的一系列形状，包括一个或多个容器地标的三维坐标、视点(例如，侧面、顶部、底部)、方向参考(例如，竖直、水平)、以及与每个活动相关的其他数据和描述符。

在一些实施方式中，导览应用700被配置为检测一个或多个其他动作，每个动作都可以与如存储在活动库480中的对应预定义活动配对。例如，应用700可以被配置为检测打开动作(例如，从容器650移除软木塞、瓶子、塞子或其他盖)。在某些情境中，诸如葡萄酒和某些酒，容器650的打开可以与一个或多个相关活动(例如，允许葡萄酒呼吸预定的持续时间)相关联。对应的预定义打开活动可以被定义并存储在活动库480中。

在另一示例中，应用700可以被配置为检测品尝动作(例如，消耗容器650或第二容器660的内容物)。对应的预定义品尝活动(例如，其特征在于将容器650或第二容器660带到嘴的预定义阈值距离内)可以被定义并存储在活动库480中。

图10中的框966描述了响应于检测到在检测到的第一动作801和第一预定义活动851之间的匹配而在显示器上呈现虚拟导览体验700的示例步骤。

在一些实施方式中，虚拟导览体验700包括在显示器上呈现的视频750，如图8所示，在邻近化身定位701或以其他方式与之相关联的定位处。视频750与讲座872相关地呈现，使得讲座872在时间上与视频750的内容相对应。讲座872通过化身710被呈现。与其他消息和答复一样，讲座872可以以文本形式呈现(例如，在邻近化身710的语音气泡712内或显示器上的任何地方)，或者通过扬声器191可听地播放，或者两者。在一些实施方式中，播放讲座872包括使用本文所述的化身动画引擎930来动画化化身710，使得化身710看起来正在讲讲座872的内容。

讲座872包括与容器650、其内容物、检索到的数据850以及本文所述的任何其他元素相关的各种主题中的任何一个。在传统制作的葡萄酒、啤酒、烈酒、苹果酒、茶、咖啡、巧克力、农产品、坚果、奶酪和其他产品的情境中。讲座872可能包括农业、园艺、农场管理、土壤制备和保存、收获、储存、调配和混合、碳酸化、香料和添加剂、防腐剂、陈化、装瓶、贴标签、包装、营销、销售、食品和饮料的搭配、服务方法和推荐、历史、品尝程序和协议以及游览体验的一般主题。化身710可以被呈现为工匠、农民、历史学家、企业主、实验室技术人员、受过训练的向导或熟悉特定产品或操作的另一人员。

根据其中容器650是一瓶葡萄酒的一个示例，讲座872可能包括诸如葡萄酒、葡萄栽培、葡萄酒酿造、酿造工艺、酿酒学、碾压、压榨、发酵、单宁、用软木塞封和装瓶的主题。该示例中的化身710可以被呈现为侍酒师、厨师、葡萄园主或经验丰富的酿酒师。

在啤酒的情境中，讲座872可能包括啤酒、啤酒酿造、谷物和谷物收获、啤酒花、浸泡、糖化、麦芽、过滤、喷浆、封盖和装瓶。该示例中的化身710可以被呈现为酿酒大师、啤酒厂所有者或受过训练的向导。

在烈酒和蒸馏酒的情境中，讲座872可能包括烈酒、谷物和谷物收获、蒸馏、发酵、过滤、陈化和装瓶。该示例中的化身710可以被呈现为蒸馏酿酒大师、酿酒厂所有者或受过训练的向导。

在苹果酒的情境中，讲座872可能包括苹果酒、苹果酒制作、果园、水果收获、压榨、糖化、发酵和装瓶。该示例中的化身710可以被呈现为苹果酒制造者、果园经理、苹果酒厂所有者或受过训练的向导。

在茶叶的情境中，讲座872可能包括茶叶、茶叶种植、种植园管理、茶叶混合和添加剂、装袋、浸泡和仪式。该示例中的化身710可以被呈现为茶叶专家、茶园主或受过训练的向导。

在咖啡的情境中，讲座872可能包括咖啡、咖啡豆种植、种植园管理、豆分级、烘焙、混合、酿造和制备方法。该示例中的化身710可以被呈现为咖啡师、咖啡专家、种植园主或受过训练的向导。

图10中的框968描述了使化身710动画化为在显示器上与课程873相关地执行演示760的示例步骤。在一些实施方式中，演示760包括示出倾倒和供应容器650的内容物的一种或多种方式(例如，将内容物倒入或注入第二容器660中的优选方式)、品尝内容物的一种或多种方式(例如，使内容物打旋)、以及实现与容器650或其内容物相关的任务的各种其他示例或优选方法中的任何一种。在一些实施方式中，化身动画引擎930以各种姿势(例如，保持、倾倒、打旋)和用各种道具(例如，醒酒器、酒杯、马克杯)在显示器上渲染和呈现化身710，以执行演示760。课程873是指并且包括与演示760直接相关的演讲，其可以是或可以不是讲座872的一部分。

图10中的框970描述了在显示器上呈现图形控制元素721，用于控制虚拟导览体验700的进度的示例步骤。图形控制元素721可以被呈现在显示器上与化身定位702相关或邻近化身定位702的定位处、视频750附近的定位处或另一个选择的定位处。

图形控制元素721可以被配置为控制视频750的进度。例如，如图8所示，示例图形控制元素721包括用于播放、返回、暂停、向前跳过和停止的可选择按钮。如本文所述，可以使用触摸板181和光标711来选择图形控制元素721的部件。

在一些实施方式中，图形控制元素721被配置为返回(并重复部分)或向前跳过(省略部分)虚拟导览体验700。例如，虚拟导览体验700可以以农场或收获的游览开始；控制元件721可以被用于向前跳到工厂或其他设施的游览。

附加的或不同的图形控制元素721可以被呈现在显示器上，并且被配置为执行其他活动，诸如记录、保存、与朋友共享、删除以及适合于操纵或处理体验的各种其他活动中的任何一个。

图10中的框972和974描述了用于在讲座872或课程873期间与化身710进行交互式问答会话的示例过程。在一些实施方式中，在这种交互式会话期间，游览700被自动暂停。

图10中的框972描述了利用语音识别模块925识别游览询问865(例如，在游览700期间，在演示760期间)的示例步骤。如本文所述的语音识别模块925将语音转换成音频数据905的帧。语音识别模块925使用自动语音识别处理来分析音频数据905的帧，以识别游览询问865的内容。

框974描述了响应于所识别的游览询问865而播放游览答复875的示例步骤。与本文所描述的其他消息和答复一样，游览答复875可以以文本形式呈现(例如，在语音气泡712内)，或者通过扬声器191可听地播放，或者两者。由语音识别模块925组装和播放游览答复875的过程包括将游览答复875的内容与游览询问865的内容相关。

尽管本文参考容器和饮料(诸如葡萄酒、啤酒、烈酒或苹果酒)描述了各种系统和方法，但所描述的技术可应用于检测物理环境中的任何类型的容器或产品，检索关于检测到的产品的数据，并且在显示器上呈现虚拟导览。

在一些示例实施方式中，如本文所述的容器650可以包括选择性可移除的盖，诸如软木塞、螺旋式盖、瓶盖或塞子。容器650可以容纳各种产品中的任何一种，包括但不限于葡萄酒、啤酒、烈酒或苹果酒。虚拟游览体验700可以与一个或多个地点(包括但不限于葡萄酒厂、啤酒厂、酿酒厂和苹果酒屋)相关联。

在一些实施方式中，虚拟游览体验700包括农场部分和工厂部分。农场部分与一个或多个农场(包括但不限于葡萄园、谷物农场、啤酒花农场和果园)相关联。工厂部分与一个或多个房间、空间或其他区域(包括但不限于谷仓、收获区、压榨室、混合室、实验室、发酵室、蒸馏室、苹果酒屋、水壶室(kettle room)、桶室(barrel room)、木桶室(cask room)和地窖、装瓶设施、仓库、零售店和品尝区)相关联。

在一些实施方式中，本文描述的几个过程涉及使用计算机视觉系统和机器学习算法，它们被训练为分析所捕获的视频数据900的帧中包含的像素级信息。机器训练的对象分类算法被用于识别在视频数据900的帧中检测到的对象，并且顾名思义，将对象分类为属于一个或多个离散类别(例如，容器、瓶子、杯子、马克杯、家具)。例如，分类算法可以被用于促进检测容器650(以及后续容器)、检测导航动作、选择动作或其他动作的过程。

类似地，在一些实施方式中，将检测到的动作与一个或多个预定义活动相匹配的过程(如本文所述)涉及使用机器训练的算法来将捕获的视频数据900与多个预定义的活动进行比较，目的是找到匹配。

如本文所用，术语匹配意指包括基本上匹配或接近匹配，其可以由与可能的或候选匹配相关联的预定置信度值支配。检测到的物品或动作可以包括各种位置和地标的三维坐标，如在所捕获的视频数据900的帧中发现的。在一些示例中，检测和匹配过程包括计算检测到的物品或动作与针对物品或对象(如存储在对象数据库482中)或针对预定义活动(如存储在活动库480中)定义和存储的一组坐标之间的测地距离之和。在该方面中，落在可配置的阈值准确度值内的总和表示匹配。

此外，在一些实施方式中，本文所述的语音识别过程涉及使用基于计算机的语音识别系统(包括自然语言理解(natural language understanding，NLU)技术)和机器学习算法，它们被训练为分析人类语音、将语音转换成音频数据以及在情境中组装答复。

机器学习是指通过经验逐步改进的算法。通过处理大量不同的输入数据集(例如，各种环境中的各种对象、容器和活动的照片)，机器学习算法可以开发关于特定数据集的改进的泛化，并且然后在处理新数据集时使用这些泛化来产生准确的输出或解决方案。广义上讲，机器学习算法包括一个或多个参数，这些参数将响应于新体验而调整或改变，从而逐步改进算法；类似于学习的过程。

在计算机视觉的情境中，数学模型试图模仿人类视觉系统完成的任务，目的是使用计算机从图像中提取信息，并且实现对图像内容的准确理解。计算机视觉算法已被开发用于各种领域，包括人工智能和自主导航，以提取和分析数字图像和视频中的数据。

深度学习是指基于或仿照人工神经网络的一类机器学习方法。人工神经网络是由许多简单、高度互联的处理元件(节点)组成的计算系统，它们通过对外部输入的动态响应来处理信息。大型人工神经网络可能有数百或数千个节点。

卷积神经网络(convolutional neural network，CNN)是一种经常应用于分析视觉图像(包括数字照片和视频)的神经网络。CNN中节点之间的连接模式典型地仿照人类视觉皮层的组织，其包括被排列为响应视场中的重叠区域的单独神经元。适于在本文所述的确定过程中使用的神经网络基于以下架构中的一个：VGG16、VGG19、ResNet50、InceptionV3、Xception或其他CNN兼容架构。

在一个示例实施方式中，经训练的物品分类模型接收包含检测到的物品的视频数据帧，并且将帧中的图像抽象成层进行分析。基于经训练的分类模型，逐层地将每一层中的数据与存储在对象数据库482中的物品和对象进行比较，直到识别出良好的匹配为止。

在一个示例中，使用卷积神经网络执行逐层图像分析。在第一卷积层中，CNN识别所学习的特征(例如，葡萄酒瓶特征、葡萄酒标签、葡萄酒瓶描述符和类似物)。在第二卷积层中，图像被转换成多个图像，其中所学习的特征在相应的子图像中各自被强调。在池化层中，图像和子图像的尺寸和分辨率被减小，以便隔离每个图像的包括可能的感兴趣的特征(例如，容器、器皿)的部分。来自非输出层的图像的值和比较被用于对帧中的图像进行分类。

如本文所述，本文中针对眼镜设备100、移动设备401和服务器系统498描述的任何功能都可以被体现在一个或多个计算机软件应用或编程指令集中。根据一些示例，“函数”、“多个函数”、“应用”、“多个应用”、“指令”、“多个指令”或“编程”是执行程序中定义的功能的一个或多个程序。可以采用各种编程语言来开发一个或多个应用，以各种方式结构化，诸如面向对象的编程语言(例如，Objective-C、Java或C++)或过程编程语言(例如，C或汇编语言)。在特定示例中，第三方应用(例如，由特定平台的供应商以外的实体使用ANDROID^TM或IOS^TM软件开发工具包(software development kit，SDK)开发的应用)可以包括在移动操作系统(诸如IOS^TM、ANDROID^TM、Phone或另一移动操作系统)上运行的移动软件。在该示例中，第三方应用可以调用由操作系统提供的API调用，以促进本文描述的功能。

因此，机器可读介质可以采取多种形式的有形存储介质。非易失性存储介质包括例如光盘或磁盘，诸如任何计算机设备中的任何存储设备或类似物，诸如可以被用于实施图中所示的客户端设备、媒体网关、代码转换器等。易失性存储介质包括动态存储器，诸如这样的计算机平台的主存储器。有形传输介质包括同轴电缆；铜线和光纤，包括导线(包括在计算机系统内的总线)。载波传输介质可以采取电信号或电磁信号的形式，或者声波或光波的形式，诸如在射频(radio frequency，RF)和红外(infrared，IR)数据通信期间产生的那些。因此，计算机可读介质的常见形式包括例如：软盘、柔性盘、硬盘、磁带、任何其他磁介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡纸带、任何其他具有孔图案的物理存储介质、RAM、PROM和EPROM、FLASH-EPROM、任何其他存储芯片或磁带盒，传输数据或指令的载波、传输这种载波的电缆或链路，或者计算机可以从中读取编程代码或数据的任何其他介质。许多这些形式的计算机可读介质可以涉及将一个或多个指令的一个或多个序列携带到处理器以供执行。

除如紧接在上面所陈述的外，所陈述或说明的任何内容均不旨在或不应被解释为致使向公众奉献任何部件、步骤、特征、目的、益处、优势或等效物，无论其是否在权利要求中叙述。

将理解，本文中使用的术语和表达具有如这种术语和表达相对于它们对应的各自调查和研究领域被赋予的普通含义，除非其中本文另外阐述了具体含义。关系术语(诸如第一和第二以及类似等)可以仅被用于区分一个实体或动作与另一个，而不必要求或暗示这种实体或动作之间的任何实际的这种关系或顺序。术语“包括”、“包含”、“含有”、“涵盖”或其任何其他变型旨在涵盖非排他性包含，使得包含或包括元件或步骤的列表的过程、方法、物品或装置不仅包括那些元件或步骤，还可以包括未明确列出或这种过程、方法、物品或装置固有的其他元件或步骤。在没有进一步限制的情况下，以“一”或“一个”开头的元件并不排除在包括该元件的过程、方法、物品或装置中存在附加的相同元件。

除非另有说明，否则本说明书(包括随后的权利要求书)中阐述的任何和所有测量值、数值、评级、定位、幅度、尺寸和其他规格都是近似的，而不是精确的。这种数额旨在具有合理的范围，该范围与它们涉及的功能以及它们所属于的领域的惯例一致。例如，除非另有明确说明，否则参数值或类似值可能与说明的量或范围相差多达正或负百分之十。

另外，在前述具体实施方式中，可以看出，出于简化本公开的目的，在各种示例中将各种特征分组在一起。本公开的该方法不应被解释为反映所要求保护的示例需要比每个权利要求中明确叙述的更多特征的意图。相反，如以下权利要求所反映的，要保护的主题在于少于任何单个公开的示例的所有特征。因此，以下权利要求在此并入到具体实施方式中，每个权利要求作为单独要求保护的主题独立存在。

虽然前面已经描述了被认为是最佳模式和其他示例的内容，但是应该理解，可以在其中进行各种修改，并且可以以各种形式和示例实施本文公开的主题，并且它们可以在许多应用中应用，本文仅描述了其中的一些。以下权利要求旨在要求落入本概念的真实范围内的任何和所有修改和变型。

Claims

1.一种利用眼镜设备呈现虚拟游览体验的方法，所述眼镜设备包括相机、麦克风、扬声器、导览应用、图像处理系统和显示器，所述方法包括：

捕获所述相机的视场内的视频数据的帧；

利用所述图像处理系统在所捕获的视频数据的帧中检测相对于所述显示器的当前容器定位处的容器；

检索与检测到的容器相关联的数据；

基于检索到的数据，在所述显示器上邻近所述当前容器定位呈现情境叠加；

在相对于所述显示器的化身定位处呈现化身；并且

通过所述化身基于所述检索到的数据播放开始消息。

2.根据权利要求1所述的方法，还包括：

检测后续当前容器定位处的后续容器；

检索与检测到的后续容器相关联的数据；

基于后续检索到的数据来呈现后续情境叠加；并且

基于所述后续检索到的数据播放后续开始消息。

3.根据权利要求1所述的方法，其中，呈现情境叠加的过程还包括：

呈现一个或多个交互式元素，每个交互式元素与附加内容相关联；

检测相对于耦合到所述眼镜设备的触摸板的当前指尖位置；

根据检测到的当前指尖位置在所述显示器上的当前元素定位处呈现可移动元素；

在所捕获的视频数据的帧中，检测相对于定位在所述显示器上最靠近所述当前元素定位的第一交互式元素的导航动作；并且

响应于检测到的导航动作在所述显示器上呈现所述附加内容。

4.根据权利要求1所述的方法，其中所述眼镜设备还包括语音识别模块，并且其中所述方法还包括：

利用所述麦克风接收人类语音；

将接收到的语音转换成音频数据的帧；

利用所述语音识别模块基于所述音频数据的帧来识别第一询问；并且

响应于所识别的第一询问，通过所述扬声器播放第一答复。

5.根据权利要求1所述的方法，还包括：

在所述显示器上的按钮定位处呈现可选择的图形元素；

检测与所述图形元素相关联的选择动作；并且

根据检测到的选择动作在所述显示器上呈现虚拟游览体验。

6.根据权利要求1所述的方法，还包括：

在所捕获的视频数据的帧中检测与所述容器和第二容器相关联的第一动作；

确定检测到的第一动作是否与来自存储在活动库中的多个预定义活动中的第一预定义活动相匹配；并且

根据所述第一预定义活动在所述显示器上呈现虚拟游览体验，包括在所述显示器上邻近所述化身定位并且与通过所述化身呈现的讲座相关地呈现视频。

7.根据权利要求6所述的方法，还包括：

检测后续动作；

确定检测到的后续动作是否与来自多个预定义活动中的后续预定义活动相匹配；并且

根据所述后续预定义活动在所述显示器上呈现虚拟游览体验。

8.根据权利要求1所述的方法，还包括：

使所述化身动画化为在所述显示器上邻近所述化身定位与课程相关地执行演示。

9.根据权利要求1所述的方法，还包括：

在所述显示器上呈现图形控制元素，所述图形控制元素包括从由播放、暂停、后退、下一个和停止组成的组中选择的一个或多个控件；并且

根据所述图形控制元素来控制所述虚拟游览体验的进度。

10.根据权利要求1所述的方法，还包括：

在所述显示器上呈现虚拟游览体验包括与通过所述化身呈现的讲座相关地呈现视频，

其中所述容器包括可选择性地移除的盖，并且容纳从由葡萄酒、啤酒、烈酒和苹果酒组成的组中选择的产品，

其中所述虚拟游览体验与从由葡萄酒厂、啤酒厂、酿酒厂和苹果酒厂组成的组中选择的地点相关联，

其中所述虚拟游览体验包括农场部分和工厂部分，

其中所述农场部分与从由葡萄园、大麦农场、啤酒花农场、谷物农场和果园组成的组中选择的农场相关联，并且

其中所述工厂部分与从由谷仓、收获区、压榨室、混合室、实验室、发酵室、蒸馏室、苹果酒屋、水壶室、桶室、木桶室、装瓶室、品尝区和零售店组成的组中选择的房间相关联。

11.一种虚拟导览系统，包括：

眼镜设备，其包括相机、麦克风、扬声器、导览应用、图像处理系统、存储器、处理器和显示器；和

在所述存储器中的编程，其中由所述处理器执行所述编程将所述眼镜设备配置为执行功能，包括以下功能：

捕获所述相机的视场内的视频数据的帧；

检索与检测到的容器相关联的数据；

在相对于所述显示器的化身定位处呈现化身；并且

通过所述化身基于所述检索到的数据播放开始消息。

12.根据权利要求11所述的虚拟导览系统，其中，呈现情境叠加的功能还包括以下功能：

检测相对于耦合到所述眼镜设备的触摸板的当前指尖位置；

13.根据权利要求11所述的虚拟导览系统，其中，所述眼镜设备还包括语音识别模块，以及

其中所述编程的执行进一步将所述眼镜设备配置为执行以下功能：

利用所述麦克风接收人类语音；

将接收到的语音转换成音频数据的帧；

响应于所识别的第一询问，通过所述扬声器播放第一答复。

14.根据权利要求11所述的虚拟导览系统，其中，由所述处理器执行所述编程进一步将所述眼镜设备配置为执行附加功能，包括以下功能：

检测后续当前容器定位处的后续容器；

检索与检测到的后续容器相关联的数据；

基于后续检索到的数据来呈现后续情境叠加；并且

基于所述后续检索到的数据播放后续开始消息。

15.根据权利要求11所述的虚拟导览系统，其中，所述编程的执行进一步将所述眼镜设备配置为执行以下功能：

根据所述第一预定义活动在所述显示器上呈现虚拟游览体验，其中所述虚拟游览体验包括在所述显示器上邻近所述化身定位并且与通过所述化身呈现的讲座相关地呈现的视频。

16.根据权利要求11所述的虚拟导览系统，其中，所述编程的执行进一步将所述眼镜设备配置为执行以下功能：

17.一种存储程序代码的非暂时性计算机可读介质，所述程序代码在执行时可操作以致使电子处理器执行以下步骤：

捕获眼镜设备的相机的视场内的视频数据的帧，所述眼镜设备还包括麦克风、扬声器、导览应用、图像处理系统和显示器；

检索与检测到的容器相关联的数据；

在相对于所述显示器的化身定位处呈现化身；并且

通过所述化身基于所述检索到的数据播放开始消息。

18.根据权利要求17所述的存储程序代码的非暂时性计算机可读介质，其中，呈现情境叠加的步骤还包括：

检测相对于耦合到所述眼镜设备的触摸板的当前指尖位置；

19.根据权利要求17所述的存储程序代码的非暂时性计算机可读介质，其中所述程序代码在执行时可操作以致使电子处理器执行以下进一步的步骤：

利用所述麦克风接收人类语音；

将接收到的语音转换成音频数据的帧；

利用耦合到所述眼镜设备的语音识别模块，基于所述音频数据的帧来识别第一询问；并且

响应于所识别的第一询问，通过所述扬声器播放第一答复。

20.根据权利要求17所述的存储程序代码的非暂时性计算机可读介质，其中所述程序代码在执行时可操作以致使电子处理器执行以下进一步的步骤：

确定检测到的第一动作是否与来自存储在活动库中的多个预定义活动中的第一预定义活动相匹配；

根据所述第一预定义活动在所述显示器上呈现虚拟游览体验，其中呈现过程还包括呈现在所述显示器上邻近所述化身定位并且与通过所述化身呈现的讲座相关地呈现的视频；并且