CN117337426A

CN117337426A - 音频加强的增强现实

Info

Publication number: CN117337426A
Application number: CN202280036539.5A
Authority: CN
Inventors: 阿什瓦尼·阿里亚
Original assignee: Snap Inc
Current assignee: Snap Inc
Priority date: 2021-05-18
Filing date: 2022-05-13
Publication date: 2024-01-02
Also published as: KR20240008359A; EP4341797A1; US11729573B2; WO2022245642A1; US20220377486A1; US20230362573A1

Abstract

提供了用于使用眼镜设备的音频加强的增强现实(AR)体验的设备、媒体和方法。眼镜设备具有麦克风系统、呈现系统、被配置为戴在用户头上的支撑结构以及处理器。支撑结构支撑麦克风系统和呈现系统。眼镜设备被配置成利用麦克风系统捕获眼镜设备周围环境的音频信息，识别音频信息中的音频信号，检测音频信号相对于眼镜设备的方向，对音频信号进行分类，并通过呈现系统呈现与音频信号的类别相关联的应用。

Description

音频加强的增强现实

相关申请的交叉引用

本申请要求于2021年5月18日提交的第17/323,511号美国临时申请的优先权，其内容通过引用完全并入本文。

技术领域

本公开中阐述的示例涉及便携式电子设备，包括诸如眼镜之类的可穿戴设备，其具有用于检测音频、处理音频、呈现音频和触发应用的音频加强功能。

背景技术

由于当今可用的许多类型的计算机和电子设备，例如移动设备(例如智能手机、平板电脑和笔记本电脑)、手持设备(例如，智能环、专用配件)和可穿戴设备(例如，智能眼镜、数字眼镜、头饰、头盔和头戴式显示器)，包括各种传感器、无线收发器、输入系统(例如，触摸感应表面、指针)、外围设备和输出设备。

虚拟现实(VR)技术生成一个完整的虚拟环境，包括逼真的图像，有时呈现在VR耳机或其他头戴式显示器上。VR体验允许用户在虚拟环境中移动并与虚拟对象交互。增强现实(AR)是一种将物理环境中的真实对象与虚拟对象相结合并向用户显示组合的VR技术。组合显示给人的印象是虚拟对象真实地存在于环境中，尤其是当虚拟对象看起来和行为像真实对象时。交叉现实(XR)通常被理解为一个总括术语，指的是包括或组合来自AR、VR和MR(混合现实)环境的元素的系统。

附图说明

通过阅根据下面参考附图的详细描述，将容易理解所描述的各种示例的特征。描述中以及整个附图的多个视图中的每个元素都使用了附图标记。当存在多个类似元素时，可以将单个参考数字分配给类似元素，并添加指示特定元素的小写字母。

除非另有说明，否则图中所示的各种元素未按比例绘制。为了清楚起见，可以放大或缩小各种元素的尺寸。多幅图描绘了一个或多个非限制性示例。附图中包括下列附图：

图1A是适用于增强现实系统中的眼镜设备的示例性硬件配置的侧视图(右)；

图1B是图1A的眼镜设备的右角部的俯视部分剖视图，描绘了右可见光相机和电路板；

图1C是图1A的眼镜设备的示例性硬件配置的侧视图(左)，其示出了左可见光相机；

图1D是图1C的眼镜设备的左角部的俯视部分剖视图，描绘了左可见光相机和电路板；

图2A和2B是增强现实系统中使用的眼镜设备的示例性硬件配置的后视图；

图3是三维场景、由左可见光相机捕获的左原始图像和由右可见光相机捕获的右原始图像的示意图；

图4是示例性音频加强的增强现实系统的功能框图，该系统包括经由各种网络连接的可穿戴设备(例如，眼镜设备)、另一电子设备和服务器系统；

图5是图4的增强现实系统的移动设备的示例性硬件配置的示意图；

图6A和6B是用于描述特征跟踪、同步定位和地图构建以及空间音频的图示；

图6C是用于描述定向音频和音频区域的图示；

图7A、7B、7C、7D、7E、7F和7G是用于用眼镜设备提供音频加强的增强现实的示例性方法的流程图；

图8A、8B和8C是描绘眼镜设备的示例性使用的图示；

图9A和9B是描绘眼镜设备的另一示例性使用的图示；

图10是在眼镜设备的显示器上呈现的虚拟对象的透视图。

具体实施方式

给出了使用眼镜设备的音频加强AR体验的设备、方法和媒体的示例。眼镜设备具有麦克风系统和呈现系统(例如，扬声器、显示器或其组合)。眼镜设备被配置成利用麦克风系统捕获眼镜设备周围环境的音频信息，识别音频信息中的音频信号(例如，狗叫声、儿童笑声、鸟叫声、汽车噪音)，检测音频信号相对于眼镜设备的方向，对音频信号进行分类，并通过呈现系统呈现与音频信号的分类相关联的应用(例如，视觉叠加、增强音频、)。

以下详细描述包括说明本公开中阐述的示例的系统、方法、技术、指令序列和计算机器程序产品。为了提供对所公开的主题及其相关教导的彻底理解，包括了许多细节和示例。然而，相关领域的技术人员可以理解如何在没有这些细节的情况下应用相关的教导。所公开的主题的方面不限于所描述的特定设备、系统和方法，因为相关的教导可以以多种方式应用或实践。这里使用的术语和命名法仅用于描述特定方面的目的，并不打算进行限制。通常，众所周知的指令实例、协议、结构和技术不一定要详细示出。

这里使用的术语“耦合”或“连接”是指任何逻辑、光学、物理或电连接，包括链路等，通过该链路，由一个系统元件产生或提供的电或磁信号被传递给另一个耦合或连接的系统元件。除非另有说明，耦合或连接的元件或设备不一定彼此直接连接，并且可以由中间组件、元件或通信介质分开，其中一个或多个可以修改、操纵或传送电信号。术语“在…上”是指由一个元件直接支撑，或通过集成到该元件中或由该元件支撑的另一个元件间接支撑。

眼镜设备、手持设备、相关组件以及诸如任何附图中所示的包含相机和/或惯性测量单元的任何其他完整设备的定向仅作为示例给出，用于说明和讨论目的。在操作中，眼镜设备可以朝向适于眼镜设备的特定应用的任何其他方向；例如，向上、向下、侧向或任何其他定向。此外，在本文使用的范围内，任何方向术语，例如前、后、向内、向外、朝向、左、右、横向、纵向、上、下、侧、水平、垂直和对角线，仅作为示例使用，并且不限于如本文所述构造的任何相机和/或惯性测量单元的方向或定向。

实施例的附加目的、优点和新颖特征将在以下描述中部分阐述，并且部分将在检查以下附图和附图后对本领域技术人员变得显而易见，或者可以通过实施例的生产或操作来了解。本主题的目的和优点可以通过在所附权利要求中特别指出的方法、工具和组合来实现和获得。现在详细参考附图中所示并在下面讨论的示例。

图1A是眼镜设备100的示例硬件配置的侧视图(右)，其包括触摸感应输入设备或触摸板181。如图所示，触摸板181可以具有微妙且不易看到的边界；或者，边界可以清晰可见和/或包括凸起的或其他触觉边缘，其向用户提供关于触摸板181的位置和边界的反馈。在其他示例中，眼镜100可以包括左侧的触摸板。

触摸板181的表面被配置为检测与眼镜在图像显示器上显示的GUI一起使用的手指触摸、轻击和手势(例如，移动触摸)，以允许用户以直观的方式浏览和选择菜单选项，这增强并简化了用户体验。

对触摸板181上的手指输入的检测可以实现多种功能。例如，触摸触摸板181上的任何位置可以使得GUI在图像显示器上显示和/或高亮显示项目，该项目可以被投影到光学组件180A、180B中的至少一个上。双击触摸板181可以选择项目或图标。在特定方向上滑动或滑动手指(例如，从前到后、从后到前、从上到下或向下)可以导致项目或图标在特定方向滑动或滚动；例如，移动到下一个项目、图标、视频、图像、页面或幻灯片。向另一个方向滑动手指可能会向相反方向滑动或滚动；例如，移至上一个项目、图标、视频、图像、页面或幻灯片。触摸板181实际上可以在眼镜设备100上的任何地方。

在一个示例中，所识别的触摸板181上单击的手指手势启动对光学组件180A、180B的图像显示器上呈现的图像中的图形用户界面元素的选择或按压。基于所识别的手指手势对呈现在光学组件180A、180B的图像显示器上的图像进行调整可以是选择或提交光学组件180A、180B的图像显示器上的图形用户界面元素以供进一步显示或执行的主要动作。

如图所示，眼镜设备100包括右可见光相机114B。如本文中进一步描述的，两个相机114A、114B从两个单独的视点捕获场景的图像信息。所捕获的两个图像可用于将三维显示器投影到图像显示器上以供用3D眼镜观看。

另外，眼镜设备100包括至少两个扬声器，例如，眼镜设备的左侧的一个或多个扬声器(左扬声器191A和191C)和眼镜设备100的右侧的一个或者多个扬声器(右扬声器191B和191D)，用于分别向佩戴者的左耳和右耳呈现音频信号。立体声扬声器系统的音频处理器413(图4)将音频信号传送到扬声器191。扬声器191可以结合到眼镜设备100的框架105、镜腿125或角部110中。扬声器191由音频处理器413在低功率电路420、高速电路430或两者的控制下驱动。扬声器191用于呈现音频信号，该音频信号包括例如与虚拟对象或虚拟对象主题相关联的音轨。音频处理器413耦合到扬声器191，以便控制声音的呈现(例如，根据头部相关传递功能、头部相关传输函数(HRTF)、建模)，以提供与在光学组件180A-B的图像显示器上呈现的虚拟对象的位置相对应的声学位置信息。音频处理器413可以是能够管理眼镜设备100所需的音频处理的任何处理器(例如，能够进行HRTF和波束成形建模)。

在一个示例中，眼镜设备100包括左前扬声器191A、右前扬声器191B、左后扬声器191C和右后扬声器191D。扬声器191位于眼镜100周围的各个位置，以呈现用于引导佩戴眼镜设备100的用户的定向音频区域。例如，呈现来自两个后扬声器191C、191D的音频信号产生指示虚拟对象在佩戴者后方的后定向音频区域，呈现来自右后扬声器191D的声音信号产生指示在佩戴者右侧后方的虚拟对象的右后定向音频区域，并且呈现来自右前扬声器191B和右后扬声器191D的音频信号产生指示虚拟对象在佩戴者右侧的右侧定向音频区域。音频信号的音量可以被调节以指示接近对象，音量随着佩戴物越来越接近对象而增加。此外，扬声器之间的相对音量可以被设置为提供更多的区域。例如，呈现来自右前扬声器191B和右后扬声器191D的音频信号(其中来自右后扬声器的音量更大)产生右侧和后部定向音频区域，该音频区域指示虚拟对象在佩戴者的右侧和后部，但不像仅由右后扬声器191D呈现信号时那样在佩戴者后方那么远。在另一示例中，眼镜设备100包括与左耳相邻的左前扬声器191A和与右耳相邻的右前扬声器191B。根据该示例，音频处理器将HRTF建模应用于音频信号，以便为两个扬声器提供方向信息。

另外，眼镜设备100包括至少四个麦克风，例如，眼镜设备100左侧的两个或多个麦克风(左麦克风192A和192C)和眼镜设备100右侧的两个或多个麦克风(右麦克风192B和192D)，用于分别捕获包括在佩戴者的左耳和右耳附近接收的音频信号的音频信息。眼镜设备100可以包括更多或更少的麦克风。在一个示例中，眼镜设备包括六个麦克风，例如，每侧三个。在另一个示例中，眼镜设备包括十二个麦克风，例如，以大约30度的间隔围绕用户的头部径向定位。根据该示例，眼镜设备100可以包括带子，该带子被配置为在镜腿125之间并围绕用户的后脑延伸，以便于麦克风的间隔。

音频处理器413(图4)接收来自麦克风192的音频信号。麦克风192可以结合到眼镜设备100的框架105、镜腿125或角部110中。音频处理器413在低功率电路420、高速电路430或两者的控制下处理音频信息以检测音频信号(例如，通过应用音频辨别滤波器)。麦克风192接收音频信息，该音频信息包括例如与环境中的真实对象相关联的音频信号(例如，狗叫声、儿童笑声、汽车喇叭、瀑布飞溅声等)。音频处理器413耦合到麦克风192，以便处理接收到的音频信息(例如，根据波束成形算法和分类引擎)，以确定与环境中对象的位置相对应的声学位置信息，并对这些对象进行分类。

在一个示例中，眼镜设备100包括左前麦克风192A、右前麦克风192B、左后麦克风192C和右后麦克风192D。麦克风192位于眼镜设备100周围的各个位置，以从佩戴眼镜设备100的用户周围的位置接收音频信息。例如，主要从两个后麦克风192C、192D接收音频信号指示对象在佩戴者后方的后定向音频区域，主要从右后麦克风192D接收到音频信号指示对象在佩戴者后方的右后定向音频区域，并且主要从右前麦克风192B和右后麦克风192D接收音频信号指示对象在佩戴者右侧的右侧定向音频区域。音频信号的音量可用于确定与对象的接近度，音量随着佩戴物离对象越来越近而增加。在另一示例中，眼镜设备100将波束成形算法应用于来自所有麦克风192的音频信号，以便确定方向信息。尽管这里示出和描述了四个麦克风192，但是可以设想，可以存在更少的麦克风(例如，两个麦克风)或更多的麦克风(如，六个或更多)来检测音频信息。

眼镜设备100包括右光学组件180B，该右光学组件具有用于呈现诸如深度图像之类图像的图像显示器。如图1A和1B所示，眼镜设备100包括右可见光相机114B。眼镜设备100可以包括多个可见光相机114A、114B，其形成无源类型的三维相机，例如立体相机，其中右可见光相机114位于右角部110B上。如图1C-D所示，眼镜设备100还包括左可见光相机114A。

左和右可见光相机114A、114B对可见光范围波长敏感。可见光相机114A、114B中的每一个都具有不同的面向前方的视场，该视场重叠以使得能够生成三维深度图像，例如，右可见光相机114描绘了右视场111B。通常，“视场”是通过相机在空间中的特定位置和定向上可见的场景部分。视场111A和111B具有重叠的视场304(图3)。当可见光相机捕获图像时，视场111A、111B之外的对象或对象特征没有被记录在原始图像(例如，照片或图片)中。视场描述了可见光相机114A、114B的图像传感器在给定场景的捕获图像中拾取给定场景的电磁辐射的角度范围或范围。视场可以表示为视锥的角度大小，即视角。视角可以水平、垂直或对角测量。

在一个示例中，可见光相机114A、114B具有视角在15°到110°之间(例如24°)的视场，并且具有480x 480像素或更高的分辨率。“覆盖角”描述了可见光相机114A、114B或红外相机410(见图4)的镜片可以有效成像的角度范围。通常，相机镜片产生的图像圆足够大，足以完全覆盖相机的胶片或传感器，可能包括一些渐晕(例如，与中心相比，图像向边缘变暗)。如果相机镜片的覆盖角没有填满传感器，则图像圈将可见，通常具有朝向边缘的强渐晕，并且有效视角将限于覆盖角。

这种可见光相机114A、114B的示例包括高分辨率互补金属氧化物半导体(CMOS)图像传感器和能够具有640p(例如，640x 480像素，总共30万像素)、720p或1080p分辨率的数字VGA(视频图形阵列)相机。可见光相机114A、114B的其他示例，其可以捕获高清晰度(HD)静态图像并以1642乘1642像素(或更高)的分辨率存储它们；和/或以高帧速率(例如每秒30到60帧或更高)记录高清晰度视频并以1216乘1216像素(或更大)的分辨率存储记录。

眼镜设备100可以捕获来自可见光相机114A、114B的图像传感器数据以及由图像处理器数字化的地理定位数据，以存储在存储器中。可见光相机114A、114B捕获二维空间域中的相应左原始图像和右原始图像，所述二维空间域包括二维坐标系上的像素矩阵，所述二维坐标系包括用于水平位置的X轴和用于垂直位置的Y轴。每个像素包括颜色属性值(例如，红色像素光值、绿色像素光值和/或蓝色像素光值)；以及位置属性(例如X轴坐标和Y轴坐标)。

为了捕获立体图像以便稍后显示为三维投影，图像处理器412(如图4所示)可以耦合到可见光相机114A、114B以接收和存储视觉图像信息。控制可见光相机114A、114B的操作以充当模拟人类双眼视觉的立体相机的图像处理器412或另一处理器可以向每个图像添加时间戳。每对图像上的时间戳允许将图像一起显示为三维投影的一部分。三维投影可产生身临其境、栩栩如生的体验，这在虚拟现实(VR)和视频游戏等各种环境中都是理想的体验。

图3是三维场景306、由左可见光相机114A捕获的左原始图像302A和由右可见光相机114捕获的右原始图像302B的图示。如图所示，左视场111A可以与右视场111B重叠。重叠视场304表示由两个相机114A、114B捕获的图像的那部分。当涉及视场时，术语“重叠”是指生成的原始图像中的像素矩阵重叠百分之三十(30％)或更多。“基本重叠”是指生成的原始图像或场景的红外图像中的像素矩阵重叠百分之五十(50％)或更多。如本文所述，两个原始图像302A、302B可以被处理为包括时间戳，该时间戳允许将图像一起显示为三维投影的一部分。

对于立体图像的捕获，如图3所示，在给定时刻捕获真实场景306的一对原始红色、绿色和蓝色(RGB)图像——由左相机114A捕获的左原始图像302A和由右相机114B捕获的右原始图像302B。当(例如，由图像处理器412)处理一对原始图像302A、302B时，生成深度图像。生成的深度图像可以在眼镜设备的光学组件180A、180B上、在另一显示器(例如，移动设备401上的图像显示器580)上或在屏幕上观看。

生成的深度图像在三维空间域中，并且可以包括三维位置坐标系上的顶点矩阵，该坐标系包括用于水平位置(例如长度)的X轴、用于垂直位置(例如高度)的Y轴和用于深度(例如距离)的Z轴。每个顶点可以包括颜色属性(例如，红色像素光值、绿色像素光值和/或蓝色像素光值)；位置属性(例如，X位置坐标、Y位置坐标和Z位置坐标)；纹理属性和/或反射率属性。纹理属性量化深度图像的感知纹理，例如深度图像的顶点区域中的颜色或强度的空间排列。

在一个示例中，眼镜设备100包括框架105、从框架105的左侧边170A延伸的左镜腿110A和从框架105右侧边170B延伸的右镜腿125B。左相机114A连接到框架105、左镜腿125A或左角部110A，以从场景306的左侧捕获左原始图像302A。右相机114B连接到框架105、右角部110A或右镜腿125B，以从场景306的右侧捕获右原始图像302B。

左镜腿110A具有与框架105的第一侧相邻的近端和远端。右镜腿110B具有与框架105的第二侧相邻的近端和远端。左前扬声器191A和左前麦克风192A邻近左镜腿110A的近端定位(例如，如图所示，在左镜腿110上，在框架105的第一/左侧，或在左角部110A上)。右前扬声器191B和右前麦克风192B邻近右镜腿110B的近端定位(例如，如图所示，在右镜腿110上、在框架105的第二/右侧、或在右角部110B上)。左后扬声器191C和左后麦克风192C被定位为邻近左镜腿110A的远端(例如，如图所示在左镜腿110A上)。右后扬声器191D和右后麦克风192D被定位为邻近右镜腿110B的远端(例如，如图所示在右镜腿110B上)。

图1B是图1A的眼镜设备100的右角部110B的俯视剖视图，描绘了相机系统的右可见光相机114B和电路板。图1C是图1A的眼镜设备100的示例硬件配置的侧视图(左)，其示出了相机系统的左可见光相机114A。图1D是图1C的眼镜设备的左角部110A的俯视剖视图，描绘了三维相机的左可见光相机114A和电路板。左可见光相机114A的构造和放置基本上类似于右可见光相机114，除了连接和耦合在左侧边170A上。如图1B的示例中所示，眼镜设备100包括右可见光相机114B和电路板140B，电路板可以是柔性印刷电路板(PCB)。左铰链126A将左角部110A连接到眼镜设备100的左镜腿125A。在一些示例中，左可见光相机114A的组件、柔性PCB 140A或其他电连接器或触点可以位于左镜腿125A或左铰链126A上。右铰链126B将右角部110B连接到眼镜设备100的右镜腿125B。在一些示例中，右可见光相机114B的组件、柔性PCB 140B或其他电连接器或触点可以位于右镜腿125B或右铰链126B上。

右角部110B包括角部主体190和角部帽，其中在图1B的横截面中省略了角部帽。布置在右角部110B内部的是各种互连电路板，例如PCB或柔性PCB，其包括用于右可见光相机114B的控制器电路、麦克风、低功率无线电路(例如，用于经由Bluetooth^TM的无线短程网络通信)、高速无线电路(例如用于经由WiFi的无线局域网通信)。

右可见光相机114B耦合到柔性PCB 140B或设置在柔性PCB 140B上，并由可见光相机盖镜片覆盖，该可见光相机通过形成在框架105中的开口瞄准。例如，如图2A所示，框架105的右边缘107B连接到右角部110B，并且包括用于可见光相机盖镜片的开口。框架105包括前侧，该前侧被配置为面向外部并且远离用户的眼睛。用于可见光相机盖镜片的开口形成在框架105的正面或朝外侧上并穿过该正面或朝外侧。在该示例中，右可见光相机114B具有向外的视场111B(如图3所示)，其具有与眼镜设备100的用户的右眼相关联的视线或视角。可见光相机盖镜片也可以粘附到右角部110B的前侧或面向外的表面，其中开口形成为具有面向外的覆盖角，但在不同的向外方向上。耦合也可以通过中间组件间接进行。

如图1B所示，柔性PCB 140B设置在右角部110B内部，并且耦合到容纳在右角部110中的一个或多个其它组件。尽管示出为形成在右角部110B的电路板上，但是右可见光相机114B可以形成在左角部110A的电路板、镜腿125A、125B或框架105上。

图2A和2B是眼镜设备100的示例性硬件配置的后方透视图，包括两种不同类型的图像显示。眼镜设备100的尺寸和形状被配置为供用户佩戴的形式；在该示例中示出了眼镜的形式。眼镜设备100可以采用其他形式，并且可以包括其他类型的框架；例如，头盔、头戴式耳机或面罩。

在眼镜示例中，眼镜设备100包括框架105，框架105包括经由适于由用户的鼻子支撑的鼻桥106连接到右边缘107B的左边缘107A。左边缘107A和右边缘107B包括相应的孔175A、175B，其保持相应的光学元件180A、180B，例如镜片和显示设备。如本文所用，术语“镜片”是指包括透明或半透明的玻璃或塑料片，这些玻璃或塑料具有弯曲和/或平坦的表面，这些表面导致光会聚/发散，或者导致很少或根本不会聚或发散。

尽管示出为具有两个光学元件180A、180B，但是根据眼镜设备100的应用或预期用户，眼镜设备100可以包括其他布置，例如单个光学元件(或者它可以不包括任何光学元件180A、180B)。如进一步所示，眼镜设备100包括与框架105的左侧边170A相邻的左角部110A和与框架105右侧边170B相邻的右角部110B。角部110A、110B可以在相应侧边170A、170B上集成到框架105中(如图所示)，或者实现为附接到相应侧边170、170B的框架105的单独组件。或者，角部110A、110B可以集成到附接到框架105的镜腿(未示出)中。

在一个示例中，光学组件180A、180B的图像显示器包括集成图像显示器。如图2A所示，每个光学组件180A、180B包括合适的显示矩阵177，例如液晶显示器(LCD)、有机发光二极管(OLED)显示器或任何其他这样的显示器。每个光学组件180A、180B还包括一个或多个光学层176，光学层176可以包括镜片、光学涂层、棱镜、反射镜、波导、光条和任何组合的其他光学部件。光学层176A、176B、…176N(在图2A和本文中显示为176A-N)可以包括具有合适尺寸和配置的棱镜，并且包括用于接收来自显示矩阵的光的第一表面和用于将光发射到用户眼睛的第二表面。光学层176A-N的棱镜在形成于左边缘107A和右边缘107B中的相应孔175A、175B的全部或至少一部分上延伸，以允许用户在用户的眼睛通过相应的左边缘107B和右边缘107观看时看到棱镜的第二表面。光学层176A-N的棱镜的第一表面从框架105面朝上，并且显示矩阵177覆盖棱镜，使得由显示矩阵177发射的光子和光入射到第一表面。棱镜的尺寸和形状使得光在棱镜内折射，并且通过光学层176A-N的棱镜的第二表面朝向用户的眼睛。在这点上，光学层176A-N的棱镜的第二表面可以是凸起的，以将光引导向眼睛的中心。棱镜的尺寸和形状可以可选地被设置为放大由显示矩阵177投影的图像，并且光穿过棱镜，使得从第二表面观看的图像在一个或多个维度上大于从显示矩阵177发射的图像。

在一个示例中，光学层176A-N可以包括透明的LCD层(保持镜片打开)，除非并且直到施加使该层不透明的电压(关闭或阻挡镜片)。眼镜设备100上的图像处理器412可以执行程序以将电压施加到LCD层，以便产生主动快门系统，使得眼镜设备100适于在显示为三维投影时观看视觉内容。除了LCD之外的技术可以用于主动快门模式，包括响应电压或另一类型的输入的其他类型的反应层。

在另一示例中，光学组件180A、180B的图像显示装置包括如图2B所示的投影图像显示器。每个光学组件180A、180B包括激光投影仪150，激光投影仪150是使用扫描镜或电流计的三色激光投影仪。在操作期间，诸如激光投影仪150的光源被设置在眼镜设备100的镜腿125A、125B之一中或之一上。在该示例中，光学组件180B包括一个或多个光条155A、155B、…155N(在图2B中显示为155A-N)，其间隔开并且跨越每个光学组件180A、180B的镜片的宽度和/或跨越镜片的前表面和后表面之间的镜片深度。

当激光投影仪150投影的光子穿过每个光学组件180A、180B的镜片时，光子遇到光条155A-N。当特定光子遇到特定的光条时，该光子要么被重定向到用户的眼睛，要么被传递到下一个光条。激光投影仪150的调制和光条的调制的组合可以控制特定的光子或光束。在一个示例中，处理器通过启动机械、声学或电磁信号来控制光条155A-N。尽管示出为具有两个光学组件180A、180B，但是眼镜设备100可以包括其他布置，例如单个或三个光学组件，或者根据眼镜设备100的应用或预期用户，每个光学组件180A、180B可以具有不同的布置。

如图2A和2B进一步所示，眼镜设备100包括与框架105的左侧边170A相邻的左角部110A和与框架105右侧边170B相邻的右角部110B。角部110A、110B可以在相应侧边170A、170B上集成到框架105中(如图所示)，或者实现为附接到各个侧边170、170B的框架105的单独部件。或者，角部110A、110B可以集成到附接到框架105的镜腿125A、125B中。

在另一示例中，图2B所示的眼镜设备100可以包括两个投影仪：左投影仪(未示出)和右投影仪150。左光学组件180A可以包括左显示矩阵177和/或左光条组(未示出)，其被配置为与来自左投影仪的光相互作用。类似地，右光学组件180B可以包括右显示矩阵177和/或右光条组155A、155B、…155N，它们被配置为与来自右投影仪150的光相互作用。在该示例中，眼镜设备100包括左显示器和右显示器。

图4是示例增强现实系统400的功能框图，该系统包括经由诸如互联网的各种网络495连接的可穿戴设备(例如，眼镜设备100)、另一电子设备402、移动设备401和服务器系统498。系统400包括眼镜设备100和移动设备401之间，以及在一些示例中，如图所示，眼镜设备100与其他电子设备402之间的低功率无线连接425和高速无线连接437。增强现实系统400还包括眼镜设备100上的扬声器191A-D和麦克风192A-D，用于呈现和接收音频信息。扬声器191A-D和麦克风192A-D可以经由处理器432直接控制，或者经由诸如音频处理器413的一个或多个音频处理器间接控制。

如图4所示，眼镜设备100包括一个或多个可见光相机114A、114B，其捕获静止图像和/或视频，如本文所述。相机114A、114B可以具有对高速电路430的直接存储器访问(DMA)，并且用作立体相机。相机114A、114B可用于捕获初始深度图像，以用于渲染三维(3D)模型，所述三维模型是红色、绿色和蓝色(RGB)成像场景的纹理映射图像。设备100还可以包括深度传感器，该深度传感器使用红外信号来估计对象相对于设备100的位置。在一些示例中，深度传感器包括一个或多个红外发射器415和红外相机410。相机和深度传感器是眼镜设备100中的传感器的非限制性示例。

眼镜设备100还包括每个光学组件180A、180B的两个图像显示器(一个与左侧边170A相关联，另一个与右侧边170B相关联)。眼镜设备100还包括图像显示驱动器442、图像处理器412、低功率电路420和高速电路430。每个光学组件180A、180B的图像显示器用于呈现图像，包括静止图像和/或视频。图像显示驱动器442耦合到每个光学组件180A、180B的图像显示器，以便控制图像的显示。

图4所示的眼镜设备100的部件位于一个或多个电路板上，例如，位于边缘或镜腿中的印刷电路板(PCB)或柔性印刷电路(FPC)。替代地，或附加地，所描绘的部件可以位于眼镜设备100的角部、框架、铰链或鼻桥中。左可见光相机114A和右可见光相机114B可以包括数码相机元件，例如互补金属氧化物半导体(CMOS)图像传感器、电荷耦合器件、镜片或可用于捕获数据的任何其他相应的可见光或光捕获元件，包括具有未知对象的场景的静止图像或视频。

如图4所示，高速电路430包括高速处理器432、存储器434和高速无线电路436。在该示例中，图像显示驱动器442耦合到高速电路430，并由高速处理器432操作，以便驱动每个光学组件180A、180B的左图像显示器和右图像显示器。。高速处理器432可以是能够管理眼镜设备100所需的任何通用计算系统的高速通信和操作的任何处理器。高速处理器432包括使用高速无线电路436来管理到无线局域网(WLAN)的高速无线连接437上的高速数据传输所需的处理资源。

在一些示例中，高速处理器432执行眼镜设备100的诸如LINUX操作系统或其他这样的操作系统之类的操作系统，并且该操作系统被存储在存储器434中以供执行。除了任何其他职责之外，高速处理器432执行眼镜设备100的软件架构，该软件架构用于管理与高速无线电路436的数据传输。在一些示例中，高速无线电路436被配置为实现电气和电子工程师协会(IEEE)802.11通信标准，在本文中也称为Wi-Fi。在其他示例中，可以通过高速无线电路436来实现其他高速通信标准。

低功率电路420包括低功率处理器422和低功率无线电路424。眼镜设备100的低功率无线电路424和高速无线电路436可以包括短程收发器(Bluetooth^TM或蓝牙低能耗(BLE))和无线广域网、局域网或广域网收发器(例如，蜂窝或WiFi)。移动设备401，包括经由低功率无线连接425和高速无线连接437进行通信的收发器，可以使用眼镜设备100的体系结构的细节来实现，网络495的其他元件也是如此。

存储器434包括能够存储各种数据和应用程序的任何存储设备，其中包括由左和右可见光相机114A、114B、红外相机410、图像处理器412生成的相机数据，以及由图像显示驱动器442生成以在每个光学组件180A、180B的图像显示器上显示的图像。尽管存储器434被示为与高速电路430集成，但是在其他示例中，存储器434可以是眼镜设备100的独立的元件。在某些这样的示例中，电路由线路可以提供通过包括高速处理器432的芯片从图像处理器412或低功率处理器422到存储器434的连接。在其它示例中，高速处理器432可管理存储器434的寻址，使得低功率处理器422将在需要涉及存储器434之读取或写入操作的任何时间引导高速处理器432。

如图4所示，眼镜设备100的高速处理器432可以连接到相机系统(可见光相机114A、114B)、图像显示驱动器442、用户输入装置491和存储器434。如图5所示，移动设备401的CPU 530可以耦合到相机系统570、移动显示驱动器582、用户输入层591和存储器540A。

服务器系统498可以是作为服务或网络计算系统的一部分的一个或多个计算设备，例如，其包括处理器、存储器和网络通信接口，以通过网络495与眼镜设备100和移动设备401通信。

眼镜设备100的输出组件包括视觉元件，例如与图2A和2B中所描述的每个镜片或光学组件180A、180B相关联的左图像显示器和右图像显示器(例如，诸如液晶显示器(LCD)、等离子体显示面板(PDP)、发光二极管(LED)显示器、投影仪或波导管的显示器)。图像显示器中的每一个可以具有与由相机114获得的视场相对应的显示区域。

眼镜设备100可以包括面向用户的指示器(例如，LED、扬声器或振动致动器)和/或面向外部的信号(例如，LED、扬声器)。每个光学组件180A、180B的图像显示器由图像显示驱动器442驱动。在一些示例性配置中，眼镜设备100的输出组件还包括附加指示器，例如可听元件(例如扬声器)、触觉组件(例如致动器，例如振动马达，用于产生触觉反馈)和其他信号发生器。例如，设备100可以包括面向用户的指示器集合和面向外部的信号集合。面向用户的指示器集合被配置为被设备100的用户看到或以其他方式感测。例如，设备100可以包括定位为使得用户可以看到它的LED显示器、定位为产生用户可以听到的声音的一个或多个扬声器、或者提供用户可以感觉到的触觉反馈的致动器。面向外部的信号集合被配置为被设备100附近的观察者看到或以其他方式感测。类似地，设备100可以包括LED、扬声器或致动器，其被配置和定位为被观察者感测。

眼镜设备100的输入组件可以包括字母数字输入组件(例如，被配置为接收字母数字输入的触摸屏或触摸板、光电键盘或其他字母数字配置元件)、基于指针的输入组件(如，鼠标、触摸板、轨迹球、操纵杆、运动传感器或其他指向工具)、触觉输入组件(例如，按钮开关、感测触摸或触摸手势的位置、力或位置和力的触摸屏或触摸板，或其他触觉配置的元件)、视觉输入(例如，通过相机114A-B捕获的手势)和音频输入组件(例如，麦克风)等。移动设备401和服务器系统498可以包括字母数字、基于指针、触觉、音频、视觉和其他输入组件。

在一些示例中，眼镜设备100包括被称为惯性测量单元472的运动感测组件的集合。运动感测组件可以是具有微观运动部件的微机电系统(MEMS)，该微观运动部件通常小到足以成为微芯片的一部分。在一些示例性配置中，惯性测量单元(IMU)472包括加速度计、陀螺仪和磁力计。加速度计感测设备100相对于三个正交轴(x、y、z)的线性加速度(包括由于重力引起的加速度)。陀螺仪感测设备100围绕三个旋转轴(俯仰、滚转、偏航)的角速度。加速度计和陀螺仪一起可以提供关于设备相对于六个轴(x、y、z、俯仰、滚转、偏航)的位置、定向和运动数据。磁力计(如果存在)感测设备100相对于磁北的航向。附加地，或替代地，眼镜设备100的位置可以通过比较由例如相机114拍摄的图像并将这些图像与具有已知位置信息的先前拍摄的图像进行比较来确定。因此，设备100的位置可以由位置传感器来确定，例如由相机114、GPS接收器、用于生成相对位置坐标的一个或多个收发器、海拔传感器或气压计和/或其他定向传感器收集的图像信息。这样的定位系统坐标也可以通过无线连接425、437经由低功率无线电路424或高速无线电路436从移动设备401接收。

IMU 472可以包括或与数字运动处理器或程序协作，该数字运动处理器或者程序从组件收集原始数据并计算关于设备100的位置、定向和运动的多个有用值。例如，可以对从加速度计收集的加速度数据进行积分，以获得相对于每个轴(x、y、z)的速度；并且再次积分以获得设备100的位置(线性坐标x、y和z)。来自陀螺仪的角速度数据可以被积分以获得设备100的位置(球坐标)。用于计算这些有用值的程序可以存储在存储器434中，并由眼镜设备100的高速处理器432执行。

眼镜设备100可以可选地包括附加的外围传感器，例如生物传感器、专业传感器或与眼镜设备100集成的显示元件。例如，外围设备元件可以包括任何I/O元件，包括输出元件、运动元件、位置元件或这里描述的任何其他这样的元件。例如，生物识别组件包括用于检测表情(例如，手部表情、面部表情、声音表情、身体姿势或眼睛跟踪)的组件、测量生物信号(例如，血压、心率、体温、排汗或脑电波)组件，或识别人(例如，基于声音、视网膜、面部特征、指纹或脑电图数据等电生物信号的识别)的组件等。

移动设备401可以是智能手机、平板电脑、膝上型计算机、接入点或能够使用低功率无线连接425和高速无线连接437与眼镜设备100连接的任何其他此类设备。移动设备401连接到服务器系统498和网络495。网络495可以包括有线和无线连接的任何组合。

在一些示例性实施方式中，存储器434包括手势库480。手势库480包括姿势和手势，手处于各种位置和定向。所存储的姿势和手势适合于与在图像中检测到的手形进行比较。库480包括用于匹配的手的标志的三维坐标，例如，从手腕到指尖。例如，存储在库480中的手势记录可以包括手势标识符(例如，指向手指、闭合的拳头、张开的手掌、放松的手、抓住对象、捏、展开)、视点或方向参考(例如，可见的手掌侧、背侧、侧向)、以及其他关于定向的信息，以及手腕、十五个指间关节、五个指尖和其他骨骼或软组织标志的三维坐标。在一些实施方式中，检测手形的过程包括将视频数据的一个或多个捕获帧中的像素级数据与库480中存储的手势进行比较，直到例如通过应用机器视觉算法找到匹配。当超过在机器视觉算法中设置的预定置信度阈值时，可以确定匹配。

在一些示例性实施方式中，存储器434另外包括音频滤波器481、虚拟对象数据库482、对象数据库483、虚拟对象处理系统484、对象处理系统485、音频区域检测系统486、音频处理系统488和动画引擎490。

虚拟对象数据库482包括与虚拟对象相关联的信息。在一个示例中，虚拟对象数据库482包括音频信息(例如音轨)和视觉信息(例如用于产生外观的图像)。

对象数据库483包括与物理对象相关联的信息。在一个示例中，对象数据库483包括与物理对象相关联的音频信息(例如，音频信号)和视觉信息(例如，图像)，用于识别周围环境中的物理对象。音频信息、视觉信息或两者可用于训练CNN以用于识别环境中的物理对象。例如，如果物理对象是狗，则对象数据库483中的音频信息可以包括狗吠叫的各种声音的音轨，并且对象数据库483中的视觉信息可以包括狗的图像。这些声音可以用来进一步训练CNN识别特定种类的狗。

虚拟对象处理系统484生成用于在光学组件180A-B的图像显示器上呈现虚拟对象并控制虚拟对象的移动的指令。虚拟对象处理系统484另外计算与虚拟对象相关联的信息，例如其位置、方向速度和相对于用户的距离。

对象处理系统485生成用于处理音频信息、视频信息或两者的指令，以识别对应的物理对象。在一个示例中，对象处理系统485将CNN分类应用于音频信息、视频信息或两者以识别物理对象。对象处理系统485可以使用对象数据库483中的音频信息和视觉信息来训练CNN。

音频区域检测系统486生成用于检测虚拟对象当前相对于用户的头部处于哪个区域的指令。在一个示例中，音频区域检测系统484维护表示用户头部周围的区域的地图(见图6C)以用于区域检测。

音频处理系统488生成指令，用于响应于虚拟对象的当前位置，将头部相关传输函数(HRTF)滤波器应用于虚拟对象的音轨，并经由音频处理器413和扬声器191向用户呈现声音。在一个示例中，基于对象的声音方向，处理器432创建动态应用对象(例如，用于创建包括虚拟对象的AR图像叠加的应用)和相应的音频。当对象/虚拟对象的方向改变时，HRTF被应用到相应的音频。此外，波束成形算法可以应用于来自麦克风192和音频处理器412的输入音频信号，以确定音频信号来自哪个方向或区域。

存储器434还可以包括图像捕获应用、定位系统和图像处理系统。在眼镜设备100的相机正在捕获视频数据帧的情况下，图像捕获应用将处理器432配置为检测手形(例如，指向的食指)。定位系统配置处理器432以获得用于确定眼镜设备100相对于物理环境的位置的定位数据。定位数据可以从一系列图像、IMU 472、GPS单元或其组合中导出。图像处理系统将处理器432配置为与图像显示驱动器442和图像处理器412合作，在光学组件180A-B的显示器上呈现捕获的静止图像。

在一些示例中，图4所示的设备100、401、402被配置成在执行这里描述的任何功能时协作并共享处理需求。例如，另一电子设备402可以被配置成检测交互，例如来自设备100的无线信号，并处理交互以确定相对接近度。如果在预定范围内，电子设备402向眼镜设备100发送应用编程接口(API)，此时眼镜设备100接管执行附加功能的任务。附加功能也可以由移动设备401执行。在这方面，增强现实系统400分发、共享和管理处理需求，使得这里描述的功能被高效和有效地执行。

如图4所示，增强现实系统400包括通过网络耦合到眼镜设备100和另一远程电子设备402的计算设备，例如移动设备401。增强现实系统400包括用于存储指令的存储器和用于执行指令的处理器。处理器432对增强现实系统400的指令的执行将眼镜设备100配置为与其他电子设备402和/或移动设备401协作。系统400可以利用眼镜设备100的存储器434和/或移动设备401的存储元件540A、540B、540C(图5)和/或其他电子设备402的存储器。此外，系统400可以利用眼镜设备100的处理器元件432、422和/或移动设备401的中央处理单元(CPU)53图0(图5)和/或其他电子设备402的微处理器。此外，系统400可以进一步利用服务器系统498的存储器和处理器。在这方面，增强现实系统400的存储和处理功能可以在眼镜设备100、移动设备401、其他电子设备402和/或服务器系统498之间共享或分布。

在一些示例中，存储器434的一部分用于存储对象数据库482/483，而存储器434的另一部分存储有程序，当程序由处理器432执行时，提供对象处理系统484/485。在一些示例中，对象数据库482/483最初存储在服务器系统498的存储器中，并且存储器434包括编程指令，当由处理器432执行时，编程指令使得眼镜设备100访问服务器系统498，从服务器系统498检索对象数据库482/483的全部或一部分，并且将检索到的对象数据库482/483存储在存储器434中。

图5是示例性移动设备401的高级功能框图。移动设备401包括闪存540A，其存储将由CPU 530执行以执行这里描述的功能的全部或子集的程序。

移动设备401可以包括相机570，其包括至少两个可见光相机(具有重叠视场的第一和第二可见光相机)或至少一个可见光相机和具有基本重叠视场的深度传感器。闪存540A还可以包括经由相机570生成的多个图像或视频。

如图所示，移动设备401包括图像显示器580、控制图像显示器580的移动显示驱动程序582，以及控制器584。在图5的示例中，图像显示器580包括用户输入层591(例如，触摸屏)，该用户输入层被层叠在图像显示器580使用的屏幕之上或以其他方式集成到图像显示器580使用的屏幕中。

可以使用的触摸屏型移动设备的示例包括(但不限于)智能电话、个人数字助理(PDA)、平板电脑、膝上型电脑或其他便携式设备。触摸屏型设备的结构和操作是通过示例的方式提供的，本文所描述的主题技术并不限于此。出于该讨论的目的，图5因此提供了具有用户界面的示例性移动设备401的框图说明，该用户界面包括用于接收输入(通过触摸、多点触摸或手势等，通过手、手写笔或其他工具)的触摸屏输入层591和用于显示内容的图像显示器580。

如图5所示，移动设备401包括至少一个数字收发器(XCVR)510，示为WWAN XCVR，用于经由广域无线移动通信网络进行数字无线通信。移动设备401还包括附加的数字或模拟收发器，例如用于例如经由NFC、VLC、DECT、ZigBee、Bluetooth^TM或WiFi进行短程网络通信的短程收发器(XCVR)520。例如，短程XCVR 520可以采用任何可用的双向无线局域网(WLAN)收发器的形式，该收发器的类型与在无线局域网中实现的一个或多个标准通信协议兼容，例如IEEE 802.11下的Wi-Fi标准之一。

为了生成用于定位移动设备401的位置坐标，移动设备401可以包括基于图像的定位系统和全球定位系统(GPS)接收器。替代地，或附加地，移动设备可以利用短程XCVR 520和WWAN XCVR 510中的一个或两者来生成用于定位的位置坐标。例如，基于蜂窝网络、Wi-Fi或Bluetooth^TM的定位系统可以生成非常精确的位置坐标，特别是在组合使用时。这样的位置坐标可以通过XCVR 510、520通过一个或多个网络连接发送到眼镜设备。

收发器510、520(即，网络通信接口)符合现代移动网络所使用的各种数字无线通信标准中的一个或多个。WWAN收发器510的示例包括(但不限于)被配置为根据码分多址(CDMA)和第三代合作伙伴计划(3GPP)网络技术操作的收发器，所述网络技术包括但不限于3GPP Type2(或3GPP2)和LTE，有时被称为“4G”。例如，收发器510、520提供信息的双向无线通信，所述信息包括数字化音频信号、静止图像和视频信号、用于显示的网页信息以及与网络相关的输入，以及去往/来自移动设备401的各种类型的移动消息通信。

移动设备401还包括微处理器，该微处理器用作中央处理单元(CPU)；如图5中的CPU 530所示。处理器是具有被构造和布置为执行一个或多个处理功能(通常是各种数据处理功能)的元件的电路。虽然可以使用分立逻辑组件，但是这些示例利用形成可编程CPU的组件。例如，微处理器包括一个或多个集成电路(IC)芯片，该集成电路(IC)芯片结合电子元件来执行CPU的功能。例如，CPU 530可以基于任何已知或可用的微处理器体系结构，例如使用ARM体系结构的精简指令集计算(RISC)，如今天在移动设备和其他便携式电子设备中常用的。当然，处理器电路的其他布置可以用于在智能手机、膝上型计算机和平板电脑中形成CPU 530或处理器硬件。

CPU 530通过将移动设备401配置为例如根据可由CPU 530执行的指令或程序来执行各种操作，从而用作移动设备401的可编程主机控制器。例如，这样的操作可以包括移动设备的各种一般操作，以及与移动设备上的应用程序的程序相关的操作。尽管可以通过使用硬连线逻辑来配置处理器，但是移动设备中的典型处理器是通过执行程序来配置的通用处理电路。

移动设备401包括存储器或存储系统，用于存储程序和数据。在该示例中，存储器系统可以根据需要包括闪存540A、随机存取存储器(RAM)540B和其他存储器组件540C。RAM540B用作由CPU 530处理的指令和数据的短期存储器，例如用作工作数据处理存储器。闪存540A通常提供长期存储。

因此，在移动设备401的示例中，闪存540A用于存储供CPU 530执行的程序或指令。根据设备的类型，移动设备401存储并运行移动操作系统，通过该操作系统执行特定的应用程序。移动操作系统的示例包括Google Android、Apple iOS(用于iPhone或iPad设备)、Windows Mobile、Amazon Fire OS、RIM BlackBerry OS等。

眼镜设备100内的处理器432可以构建眼镜设备100周围的环境的地图，确定眼镜设备在映射环境中的位置，并确定眼镜设备相对于映射环境中的一个或多个对象的相对位置。处理器432可以使用应用于从一个或多个传感器接收的数据的同步定位和地图构建(SLAM)算法来构建地图并确定位置和位置信息。合适的算法包括粒子滤波器、卡尔曼滤波器、扩展卡尔曼滤波器和协方差交集方法。在SLAM中应用机器学习的算法也在这些教导的范围之内。此外，处理器432可以识别对象位置(与位置、物理对象或虚拟对象相关联)，并使用由眼镜设备100的扬声器呈现的音频信号将眼镜设备100的用户引导向对象位置。

传感器数据包括从相机114A-B中的一个或两个接收的图像、从激光测距仪接收的距离、从GPS单元或两个或多个这样的传感器或提供用于确定位置信息的数据的其他传感器的组合接收的位置信息。

图6A从后视角描绘了用于实现自然特征跟踪(NFT)和SLAM处理的示例性环境600。眼镜设备100的用户602存在于环境600(其是图6A中的房间)中。眼镜设备100的处理器432使用捕获的图像确定其相对于环境600内的一个或多个物理对象604的位置，使用环境600的坐标系(x、y、z)构建环境600的地图，并确定其在坐标系内的位置。此外，处理器432通过使用一个或多个物理对象604上的两个或多个定位点(例如，三个定位点606a、606b和606c)或者通过使用两个或多个物理对象604上的一个或多个定位点606来确定眼镜设备100在环境中的头部姿态(位置、滚转、俯仰和偏航)。眼镜设备100的处理器432可以定位环境中的虚拟对象(例如，钥匙608)，用于经由图像显示器180进行增强现实观看。

图6B从顶部透视图描绘了添加有物理对象(鸟609)的示例性环境600。如顶部透视图所示，物理保险箱604c位于佩戴眼镜设备100的用户的右前侧，鸟609位于用户的右后侧。当基本上沿着x轴面对时，两个对象604c/609都在眼镜设备100的视场/显示区域之外。如下所述，眼镜设备100经由麦克风192从鸟609获得包括音频信号的音频信息，该音频信息被处理以从眼镜设备100确定鸟609的方向。

图6C是表示区域地图620的图示，其中对象(图6C中的36个对象)定位在围绕用户的对象的多个区域(例如，36个区域；未示出)中的每一个区域中，用于选择HRTF滤波器以应用于音轨以在用户的耳朵623处呈现。区域地图定义了每个区域的边界。在示例中，用户头部622周围的空间被定义为36个区域：围绕头部旋转的12个扇区(像时钟一样)，每个扇区被分成3个垂直区域：耳朵上方628、耳朵水平624处和耳朵下方632。对象626a-n位于耳朵水平624处的用户周围的相应区域内，对象630a-n位于耳朵水平628上方的用户周围的相应区域内，对象634a-n位于耳朵水平812下方的用户周围的相应区域内。

图7A-7G示出了描述使用眼镜设备实现音频加强的增强现实体验的示例性方法的流程图700、720、740、750、760、780和790。尽管如本文所述，参考眼镜设备100描述了这些步骤，但是对于其他类型的设备，本领域技术人员将从本文的描述中理解所描述的步骤的其他实现。此外，可以设想，图7A-7G中所示并在此描述的一个或多个步骤可以省略，同时和/或串联执行，以不同于图示和描述的顺序执行，和/或与附加步骤结合执行。

在流程图700中描绘的示例性方法中，眼镜设备100捕获眼镜设备周围环境的信息(例如，图像和音频)，并且可以通过处理来自物理对象的音频信号来识别该环境中的物理对象。一旦识别，眼镜设备监控其相对于物理对象的位置。此外，眼镜设备100可以生成用于在环境中呈现的虚拟对象。

在框702，眼镜设备100捕获眼镜设备100周围的环境600的信息(例如，图像和音频)。眼镜设备100使用至少一个传感器(例如可见光相机114)捕获图像。眼镜设备100使用麦克风192捕获环境600内的音频信息。处理器432可以从可见光相机114和麦克风192连续接收图像和音频信息，并将图像和音频信息存储在存储器434中以供处理。此外，眼镜设备可以捕获来自其他传感器的信息，例如来自GPS传感器的位置信息和/或来自激光距离传感器的距离信息。

在框704，眼镜设备100的处理器432使用捕获的图像、音频信息或其组合来识别环境600中的一个或多个对象604的位置。处理器432可以实现对象处理系统484/485，以将存储在存储器434中的捕获图像中的对象图像数据或音频数据与对象数据库482/483(图4)中已知对象的相应对象图像数据或音频数据进行比较，例如，实现传统的对象识别算法或训练成识别对象的神经网络。在一个示例中，处理器432被编程为识别预定义的特定对象(例如，挂在墙上已知位置的特定图片604a、另一面墙上的窗户604b、诸如位于地板上的保险箱604c之类的重物、狗叫声、儿童笑声、汽车喇叭等)。诸如GPS数据的其他传感器数据可用于缩小用于比较的已知对象的数量(例如，仅通过GPS坐标识别的与房间相关联的对象或与公园相关联的动物)。在另一个示例中，处理器432被编程为识别预定义的一般对象(例如公园内的一棵或多棵树)。

在识别对象之后，眼镜设备100确定其相对于对象的位置(即，位置和可选的定向)。眼镜设备100可以确定其相对于对象的位置。在一个示例中，眼镜设备100仅基于由麦克风192接收的音频信息来确定位置，例如，通过将飞行时间/波束成形算法应用于音频信息中的音频信号。在其他示例中，除了音频信息之外或代替音频信息，使用图像信息来确定方向，例如，通过比较和处理捕获图像中的两个或多个点之间的距离(例如，一个对象604上的两个或多个定位点之间或两个对象604中的每一个上的定位点606之间的距离)与识别的对象中相应点之间的已知距离。所捕获图像的点之间大于所识别对象的点的距离指示眼镜设备100比捕获包括所识别对象的图像的成像器更接近所识别对象。另一方面，小于所识别对象的点的所捕获图像的点之间的距离指示眼镜设备100比捕获包括所识别对象的图像的成像器离所识别对象更远。通过处理相对距离，处理器432能够确定相对于对象的位置(即，位置和定向)。替代地，或附加地，其他传感器信息，例如激光距离传感器信息，可以用于确定相对于对象的位置。对于定位，眼镜设备100构建眼镜设备100周围的环境600的地图，并确定其在环境中的位置。在一个示例中，其中所识别对象(块704)具有预定义的坐标系(x，y，z)，眼镜设备100的处理器432使用该预定义的坐标系构建地图，并周期性地确定其在该坐标系内相对于所识别对象的位置。在另一示例中，眼镜设备使用环境(例如，公园内的树或公园长凳)内的永久或半永久对象604的图像来构建地图。根据该示例，眼镜设备100可以定义用于环境的坐标系(x′、y′、z′)。眼镜设备100可以通过NFT和SLAM处理周期性地确定其位置。附加地，或替代地，可以使用其他技术来确定位置，例如由GPS接收器接收的GPS信号。对于定向，眼镜设备100确定眼镜设备100在环境中的头部姿态(滚转、俯仰和偏航)，例如也通过SLAM处理。处理器432可以通过使用一个或多个对象604上的两个或多个定位点(例如，三个定位点606a、606b和606c)或者通过使用两个或多个对象604上的一个或多个定位点606来确定头部姿势。使用传统的图像处理算法，处理器432通过比较捕获图像和已知图像的定位点之间延伸的线的角度和长度来确定滚转、俯仰和偏航。眼镜设备100可以通过NFT和SLAM处理周期性地确定其方向。附加地，或者替代地，可以使用其他技术来确定定向，例如通过从IMU 472接收的信号。

在框706，将对象(物理的、虚拟的或两者)与对象位置相关联，并且可选地，确定对象位置何时在设备的视场/显示区域内。处理器432可以通过将角位置与与设备的视场相关联的范围(例如-15度至+15度)进行比较来确定对象位置何时在眼镜设备100的视场内。当对象位置在眼镜设备100的视场内时，处理器432可以使用图像处理器412和眼镜设备100的图像显示驱动器442经由眼镜设备100的显示器呈现包括虚拟对象的图像叠加。处理器响应于眼镜设备100在环境600中的位置，经由图像显示器显影和呈现视觉图像。当眼镜设备100在环境中移动时，处理器432更新光学组件180上的图像叠加，使得虚拟对象出现在对象位置，而对象位置在视场内。在一个示例中，当对象位置移出视场时，虚拟对象不再呈现。在另一个示例中，当对象位置移出视场时，虚拟对象可以呈现在视场的边缘，在视场的周长上最接近对象位置的位置。所呈现的虚拟对象具有三维空间中的虚拟位置，虚拟对象处理系统484相对于所识别对象的位置来跟踪该虚拟位置。在一个示例中，用户基本上感知到三维空间中的虚拟位置与看起来位于表面(例如，地面、地板、台面等)上的x-y平面相关联。在一个示例中，视觉图像包括手1002的图像，用于操纵GUI的特征(图10)，或与诸如虚拟鸟906A的虚拟对象(图10)或与该对象相关联的显示信息(例如，特性和特征的列表)交互。

在一个示例中，基于真实手1000在眼镜设备100的视场中的运动来控制手1002的运动。通过将眼镜设备100的相机捕获的图像中的手的特征与手势库480中的特征进行比较来检测真实手1000的运动，以识别匹配。一旦识别出匹配，眼镜设备100的处理器432在连续图像中监控真实手1000的运动，并将监控的运动应用于虚拟手1002。

在框708，处理器432响应于图像信息、音频信息或其组合来监视眼镜设备100相对于对象位置的位置。该设备确定对象相对于用户头部的当前位置(方向和可选的距离)。当前位置包括相对于用户头部的方向。当前位置还可以包括相对于用户头部的距离。在一个示例中，方向和距离由对象处理系统485计算的向量表示，该向量与和用户头部相关联的位置和由对象处理系统485跟踪的对象的位置相交。

处理器432可以如上所述监控眼镜设备100的定向，以确定定向作为确定位置的一部分，并使用几何算法将当前定向与对象位置进行比较，以获得角位置。角位置表示眼镜设备100相对于对象位置的相对位置，并且与方向相关联，例如，对象位置在眼镜设备的右侧(例如，67.5度至112.5度的角位置；定向音频区域1)、在眼镜设备100的右侧和后面(例如，112.5度到167.5度的角位置；定向音频区域2)、或在眼镜设备100后面(例如，167.5度到102.5度的角位置；定向音频区域3)。处理器432将角范围的定向音频区域存储在存储器434中，例如存储在查找表中。

在一些示例中，眼镜设备100例如经由移动设备401和网络495通过无线连接425、437可操作地连接到服务器系统498，并且被监控的位置或虚拟位置、虚拟对象或其组合被存储在服务器系统中的另一存储器中，以供一个或多个其他用户检索。在另一示例中，虚拟对象的位置可以经由眼镜设备100的无线连接425、437共享，例如经由其他用户佩戴的眼镜设备100之间的短程收发器(Bluetooth^TM或Bluetooth Low-Energy(BLE))或无线广域网、局域网或广域网收发器(例如，蜂窝或WiFi)。

在框710，眼镜设备100响应于其在环境中的位置呈现音频和视频信号。处理器432基于眼镜设备100相对于对象位置的当前方向，选择性地通过眼镜设备100的扬声器191呈现音频信号。此外，处理器432可以经由图像显示驱动器442在图像显示光学组件180上呈现视频信号。在一个示例中，处理器432确定眼镜设备100的当前定向。当前定向可以表示为角位置。处理器432例如通过将角位置与与每个定向音频区域相关联的角度范围进行比较，并选择与包含角位置的范围相关联的定向音频区域，来选择定向音频区域之一。例如，如果角位置是90度(指示对象位置在眼镜设备100的右侧)，处理器432将选择音频区域1。处理器432响应于定向，通过经由扬声器191选择性地呈现音频信号来呈现音频信号。例如，如果由于90度的角位置而选择了定向音频区域1，则处理器432经由眼镜设备100右侧的两个扬声器发射音频信号。

此外，处理器432或音频处理器413可以响应于眼镜设备100的当前位置和虚拟对象位置之间的相对位置来调节音频信号的音量。例如，如果对象位置相对较远，例如20英尺，则音量可以减小，使得音量非常低或听不见。随着眼镜设备100移动到更接近虚拟对象位置，处理器432增加音量，从而向用户提供他们正在更接近对象位置的指示。随着眼镜设备100远离对象位置移动，处理器432减小音量，从而向用户提供他们正在远离对象位置的指示。在一个示例中，随着眼镜设备的被监控位置接近对象，音频信号的分贝水平或音量呈指数增加。在另一个示例中，随着眼镜设备的被监控位置远离虚拟对象，音频信号的分贝电平以对数方式降低。

重复上面参照框702-710描述的步骤，以更新眼镜设备100的位置，并随着眼镜设备100在环境600中移动而调整音频信号和虚拟对象的呈现。

在图7B的流程图720中描绘的示例性方法中，眼镜设备100呈现响应于眼镜设备从其接收音频信号的方向的应用。在框722，眼镜设备100捕获音频信息。在示例中，眼镜设备100利用包括麦克风192A-D和音频处理器413的麦克风系统捕获音频信息。音频信息包括来自环境中的对象(例如，动物、小孩、瀑布、应急车辆等)的音频信号。

在框724，眼镜设备100识别音频信息中的音频信号。在示例中，眼镜设备100的音频处理器413将音频信号辨别滤波器应用于由环境中的麦克风拾取的音频信息，以从各个对象分离出音频信号。

在框726，眼镜设备100检测每个音频信号相对于眼镜设备100的方向。在一个示例中，眼镜设备的音频处理器413将飞行时间和波束成形算法应用于来自各个对象的每个音频信号，以检测各个音频信号来源的方向。

在框728，眼镜设备100将音频信号分类为预定义类别。在示例中，眼镜设备的音频处理器413将CNN应用于音频信号以识别已知对象(例如，对象数据库483中的对象)。在识别出多个已知对象的情况下，眼镜设备对对象进行排序(例如，基于邻近性或存储在存储器中的预定顺序)。

在框730，眼镜设备在呈现系统上呈现应用。在示例中，呈现系统包括图像呈现系统、音频呈现系统或两者。图像呈现系统可以包括图像处理器412、图像显示驱动器442和光学组件180A-B的图像显示。音频呈现系统可以包括音频处理器413和扬声器191A-D。

呈现系统呈现与音频信号的分类相关联的应用(框728)。例如，如果分类与狗吠叫相关联，则该应用可以是与狗相关的应用(例如，用于在光学组件180A-B上呈现的叠加)。在另一示例中，如果分类与瀑布相关联，则应用可以是与瀑布相关的应用(例如，包括用于在光学组件180A-B上呈现的瀑布的叠加和放大来自瀑布的音频信号以经由扬声器191A-D呈现的音频加强)。

在一些示例中，呈现系统还响应于音频信号的来源方向呈现应用。基于该方向，可以调整应用叠加，使得它呈现在光学组件180A-B上对应于音频信号来源方向的位置。在一个示例中，当方向在光学组件180A-B的视场内时，叠加在音频信号来源方向上呈现。在另一个示例中，当方向在光学组件180A-B的视场之外时，叠加被呈现在光学组件180A-B的周边附近，该周边最接近音频信号来源方向。类似地，呈现系统可以使用音频处理器413和扬声器191A-D呈现其他音频信号，使得这些其他信号看起来源自音频信号来源的方向。

在图7C的流程图740中描绘的示例性方法中，眼镜设备100呈现包括放大音频信号的应用。当检测对应于用户感兴趣的对象(例如，基于环境或预定义的偏好)的微弱音频信号时，可以应用该方法。例如，如果用户在以其瀑布而闻名的国家公园中(例如，基于GPS位置检测)，则可以检测远处的瀑布，并且来自远处瀑布的音频可以被放大，从而用户可以更好地体验瀑布。类似地，来自应急车辆对象的音频信号可以被放大，以使用户更加意识到环境中的潜在危险。

在框742，眼镜设备100响应于音频信号的方向产生空间滤波器。在一个示例中，眼镜设备的音频处理器413响应于检测来自麦克风192A-D的输入音频信号的方向的飞行时间和波束成形算法来选择或生成空间滤波器。

在框744，眼镜设备100将空间滤波器应用于音频信号。在一个示例中，音频处理器413将产生的空间滤波器应用于音频信号，使得呈现给用户的声音看起来源自对象的方向。

在框746，眼镜设备100放大音频信号。在一个示例中，音频处理器413通过调整音频信号的幅度来放大音频信号。

在框748，眼镜设备呈现应用了空间滤波器的放大音频信号。在一个示例中，音频处理器413经由扬声器191A-D呈现应用了空间滤波器的放大音频信号。

在图7D的流程图750中描绘的示例性方法中，眼镜设备100呈现应用了空间滤波器的音轨。当检测对应于用户感兴趣的对象(例如，基于环境或预定义的偏好)的音频信号时，可以应用该方法。例如，如果用户在动物园中(例如，基于GPS位置检测)，则可以检测特定动物的声音，并且可以向用户呈现与该动物相关的信息音轨。类似地，可以检测来自特定应急车辆对象的音频信号，并且可以呈现具有关于该车辆的信息的音轨(例如，“救护车在您的右侧”)，以使用户更加意识到环境中的潜在危险。

在框754，眼镜设备100生成音轨。在一个示例中，处理器432通过选择存储在存储器434中的预先录制的消息来生成音轨。在另一个示例中，处理器432通过将存储的文本转换为语音来生成音轨，以便呈现给用户。

在框756，眼镜设备100将空间滤波器应用于音轨。在一个示例中，音频处理器413将产生的空间滤波器应用于音轨，使得呈现给用户的声音看起来源自对象的方向。

在框748，眼镜设备呈现应用了空间滤波器的音轨。在一个示例中，音频处理器413经由扬声器191A-D呈现应用了空间滤波器的音轨。

在图7E的流程图760中描绘的示例性方法中，眼镜设备100随着输入音频信号的方向改变而修改视觉叠加的位置。这允许所呈现的叠加改变位置，以提供更身临其境的体验，并且可选地，将用户引导向可以听到但看不到的对象。

在框762，眼镜设备100产生包括虚拟对象的视觉叠加。在一个示例中，图像处理器412和虚拟对象处理系统484响应于对象的分类产生包括从虚拟对象数据库482检索的虚拟对象的视觉叠加。

在框764，眼镜设备100将虚拟对象登记到检测到的方向。在一个示例中，图像处理器412将虚拟对象登记到对象的检测方向。

在框766，眼镜设备100呈现视觉叠加。在一个示例中，图像处理器412经由图像显示驱动器442在光学组件180A-B的图像显示上呈现视觉叠加。

在框768，眼镜设备100检测音频信号的后续方向。在示例中，眼镜设备100的音频处理器413周期性地将波束成形算法应用于来自相应对象的音频信号，以检测相应音频信号来源的方向的变化。

在框770，眼镜设备100产生后续视觉叠加。在一个示例中，图像处理器412通过使用音频信号的后续方向产生如上所述参照框762描述的新的视觉叠加来更新视觉叠加。这允许用户基于由对象产生的音频信号可视地跟踪对象。

在图7F的流程图780中描绘的示例性方法中，眼镜设备100基于对象是否在眼镜设备100的相机的视场内来呈现虚拟对象。这提供了一种沉浸式音频体验，它响应于来自对象的视觉信息而被改进。

在框782，眼镜设备100在音频信号的方向上呈现放大或生成的音频信号或音轨。在一个示例中，音频处理器413经由扬声器191A-D呈现放大或生成的音频信号或音轨，使得它们看起来源自产生音频信号的对象。

在判定框784，眼镜设备100确定对应于音频信号的对象是否在眼镜设备的视场中。在一个示例中，眼镜设备100通过将基于音频信号的分类的对象与可见光相机114A-B收集的图像中检测到的对象进行比较来确定对象是否在视场内。眼镜设备100还将音频信号的方向与图像中对象的位置进行比较。如果存在对象匹配和方向/位置匹配，则确定该对象在视场内。如果对象不在视场内，处理在框786进行。否则，如果对象在视场内，处理在框788进行。

在框786，眼镜设备100在与音频信号的方向相对应的方向上呈现视场中的虚拟对象。在一个示例中，在虚拟对象处理系统484的控制下，图像处理器412在光学组件180A-B的图像显示器上对应于音频信号的方向的位置呈现虚拟对象。

在框788，眼镜设备100在对象上呈现虚拟对象。在一个示例中，在虚拟对象处理系统484和对象处理系统485的控制下，图像处理器412将虚拟对象呈现在光学组件180A-B的图像显示器上在该对象上或邻近该对象的位置处。

在图7G的流程图790中描绘的示例性方法中，眼镜设备100基于来自对象的音频信号的强度来确定到对象的距离。在框792，眼镜设备100确定音频信号的强度。眼镜设备100可以基于音频处理器413输出的分贝读数来确定强度。在框794，眼镜设备100将音频信号分类为强度类别等级。在一个示例中，眼镜设备100通过将分贝读数与预定阈值进行比较来对音频信号进行分类。通常，较高的分贝水平与较近的距离相关，而较低的分贝水平与较远的对象相关。

图6A、6B、8A、8B和8C是用于描述一个示例的图像。在图6A、6B、8A、8B和8C所示的示例中，佩戴眼镜设备100的用户602进入环境(例如，所示示例中的房间)。眼镜设备100捕获环境内的图像。眼镜设备100识别图像中的对象/特征，例如图片604a和窗口604b。此外，眼镜设备100基于来自对象的音频信号来识别房间内的另一对象(鸟609)。使用NFT和SLAM处理，眼镜设备100确定其在环境中相对于对象/特征的位置(位置/定向)。眼镜设备100另外确定鸟609相对于眼镜设备100的方向。眼镜设备100响应于所识别的对象启动用于在眼镜设备上显示内容的应用。在一个示例中，该应用是在显示器上呈现虚拟鸟的图形应用，虚拟鸟对应于不在视场中的所识别的鸟。

在图8B中，定向位置直接位于眼镜设备100的右侧。眼镜设备100通过应用波束成形算法来确定眼镜设备100相对于虚拟对象位置的角位置。眼镜设备100可以例如通过将虚拟鸟移动到显示器的另一部分来更新显示的内容。

在图8C中，对象位置在眼镜设备100的后部和左侧。眼镜设备100确定眼镜设备100相对于虚拟对象位置的角位置。此外，因为图8C中的对象位置比图8B中的更靠近眼镜设备100，所以音频信号800c的音量可以更大，以指示眼镜设备100现在更靠近虚拟对象位置。

图9A描绘了另一个示例。在图9A中，鸟900位于眼镜设备的环境中。在该示例中，麦克风192检测包括来自鸟900的音频信号的音频信息。眼镜设备100识别音频信息中的音频信号，检测音频信号来源方向，并对音频信号进行分类。在该示例中，眼镜设备100将对象分类为鸟900(基于CNN的训练的一般或特定类型的鸟)。眼镜设备100呈现与分类相关联的应用(例如，创建鸟的虚拟图像的应用)，其中该应用响应于鸟900相对于眼镜设备的方向。如图9B所示，当鸟从第一物理鸟位置609a移动到第二物理鸟位置609b时，相应的虚拟图像从第一虚拟鸟位置904a/906a移动到第二虚拟鸟位置904b/906b。

在一个示例中，鸟900被遮挡而不能被眼镜设备100的相机观察到(例如，被树叶遮挡，在相机的视场之外，或者太远)，并且鸟的识别和鸟的方向仅仅基于音频信号。因此，即使眼镜设备的相机看不到鸟，也可以获得和呈现关于鸟的信息。在另一个示例中，鸟900通过眼镜设备的相机是可见的，并且计算机视觉可以用于补充音频信息，以用于识别对象并确定其方向。在该示例中，鸟的虚拟图像可以放置在实际鸟900上。

在一些实施方式中，确定检测到的手形是否匹配预定义手势的过程包括将视频数据的一个或多个捕获帧中关于手形的像素级数据与存储在手势库480中的手势集合进行比较。检测到的手形数据可以包括手腕、多达十五个指间关节、多达五个指尖以及在捕获的帧中发现的其他骨骼或软组织标志的三维坐标。将这些数据与存储在手势库480中的手势数据进行比较，直到找到最佳匹配。在一些示例中，该过程包括计算检测到的手形指尖坐标与存储在库480中的每个手势的一组指尖坐标之间的测地距离之和。在可配置的阈值精度值内的和表示匹配。

在另一个示例性实施方式中，确定检测到的手形是否与预定义手势匹配的过程涉及使用机器学习算法来将一个或多个捕获的视频数据帧中的关于手形的像素级数据与包括手势的图像集合进行比较。

在另一个示例性实施方式中，识别物理对象是否与对象数据库483中的对象匹配的过程涉及使用机器学习算法来将视频数据的一个或多个捕获帧中的关于物理对象的像素级数据与包括物理对象的图像集合进行比较。

在另一个示例性实施方式中，基于与已知对象的音频信号匹配的音频信号来识别对象的过程涉及使用机器学习算法来将音频信号与和已知对象相关联的音频信号的集合进行比较。

机器学习是指一种通过经验逐步改进的算法。通过处理大量不同的输入数据集，机器学习算法可以开发出关于特定数据集的改进的泛化，然后在处理新数据集时使用这些泛化来产生准确的输出或解决方案。广义上讲，机器学习算法包括一个或多个参数，这些参数将根据新体验进行调整或改变，从而逐步改进算法；类似于学习的过程。

在计算机感知的背景下，数学模型试图模拟人类视觉系统和人类听觉系统完成的任务，目的是使用计算机从图像和音频信号中提取信息，以实现对图像和音频的内容的准确理解。计算机视觉算法已被开发用于多个领域，包括人工智能和自主导航，以提取和分析数字图像和视频中的数据。同样，计算机听力算法已被开发用于包括人工智能在内的多个领域，以提取和分析数字音频信号中的数据。

深度学习是指一类基于人工神经网络或以人工神经网络为模型的机器学习方法。人工神经网络是由许多简单、高度互联的处理元件(节点)组成的计算系统，这些处理元件通过对外部输入的动态响应来处理信息。一个大型人工神经网络可能有数百或数千个节点。

卷积神经网络(CNN)是一种经常应用于分析视觉图像(包括数字照片和视频)和音频信息(包括数字音频信号)的神经网络。CNN中节点之间的连接模式通常以人类视觉皮层的组织为模型，视觉皮层包括被安排对视场或音频范围中的重叠区域做出反应的单个神经元。适合在本文所述的确定过程中使用的神经网络基于以下架构之一：VGG16、VGG19、ResNet50、Inception V3、Xception或其他CNN兼容架构。

在机器学习示例中，处理器432使用被称为手部特征模型的机器训练算法来确定检测到的手形是否与预定义手势基本匹配。处理器432被配置为访问通过机器学习训练的手部特征模型，并应用手部特征模型来识别和定位视频数据的一个或多个帧中的手形的特征。尽管参考检测手形来描述示例，但是类似的技术可以用于基于用已知对象训练的模型来识别其他物理对象，以及基于用来自已知对象的音频信号训练的模型通过其音频信号来识别对象。

在一个示例性实施方式中，经过训练的手部特征模型接收包含检测到的手形的视频数据帧，并将帧中的图像抽象成层以供分析。基于训练的手部特征模型，将每层中的数据与存储在手势库480中的手势数据逐层进行比较，直到识别出良好匹配。

在一个示例中，使用卷积神经网络执行逐层图像分析。在第一卷积层中，CNN识别学习的特征(例如，手部标志、关节坐标集等)。在第二卷积层中，将图像转换为多个图像，其中所学习的特征均在相应的子图像中得到强调。在池化层中，图像和子图像的大小和分辨率按照每个图像的包括可能的感兴趣特征(例如，可能的手掌形状、可能的手指关节)的隔离部分的顺序减小。来自非输出层的图像的值和比较用于对帧中的图像进行分类。如本文所用，分类是指使用训练过的模型根据检测到的手形对图像进行分类的过程。例如，如果检测到的手形与库480中的指针手势匹配，则图像可以被分类为“存在指针手势”。

在一些示例性实施方式中，处理器432响应于检测到指示手势，在显示器180A-B上呈现指示器1002(见图10)。指示器1002通知佩戴者已经检测到预定义的手势。在一个示例中，指示器1002是诸如图10中所示的指向手指之类的对象。指示器1002可以包括一个或多个可见、可听、触觉和其他元素，以通知或提醒佩戴者已经检测到指针手势。用户可以通过在眼镜设备100的视场内移动检测到的手势来移动指示器1002。

如本文所述，本文所述的眼镜设备100、移动设备401、远程设备402和服务器系统498的功能可以体现在一个或多个计算机软件应用程序或编程指令集中。根据一些示例，“功能”、“应用程序”、“指令”、或“程序”是执行程序中定义的功能的程序。可以采用各种编程语言来产生一个或多个应用程序，这些应用程序以各种方式结构化，例如面向对象编程语言(例如，Objective-C、Java或C++)或过程编程语言(如，C或汇编语言)。在特定示例中，第三方应用程序(例如，由除特定平台的供应商之外的实体使用ANDROID^TM或IOS^TM软件开发工具包(SDK)开发的应用程序)可以包括诸如IOS^TM、ANDROID^TM、手机之类的移动操作系统或另一移动操作系统上运行的移动软件。在该示例中，第三方应用程序可以调用由操作系统提供的API调用，以促进这里描述的功能。

因此，机器可读介质可以采用多种形式的有形存储介质。非易失性存储介质包括例如光盘或磁盘，例如任何计算机设备中的任何存储设备等，例如可以用于实现图中所示的客户端设备、媒体网关、代码转换器等。易失性存储介质包括动态存储器，例如这种计算机平台的主存储器。有形传输介质包括同轴电缆；铜线和光纤，包括在计算机系统内构成总线的导线。载波传输介质可以采用电信号或电磁信号的形式，或者声波或光波的形式，例如在射频(RF)和红外(IR)数据通信期间产生的声波或光波。因此，计算机可读介质的常见形式包括例如：软盘、可折叠磁盘、硬盘、磁带、任何其他磁介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡片纸带、任何其他具有孔图案的物理存储介质、RAM、PROM和EPROM、FLASH-EPROM、任何其他存储芯片或盒式存储器、传输数据或指令的载波、传输这种载波的电缆或链路，或者计算机可以从中读取编程代码和/或数据的任何其他介质。许多这些形式的计算机可读介质可涉及将一个或多个指令的一个或多个序列传送到处理器以供执行。

除上文所述外，所陈述或说明的任何内容均无意或不应被解释为导致向公众奉献任何组件、步骤、特征、对象、利益、优势或等效物，无论其是否在权利要求中陈述。

应当理解，本文所使用的术语和表达具有与这些术语和表达相对于它们各自相应的探究和研究领域一致的普通含义，除非本文另外阐述了具体含义。诸如第一和第二之类的关系术语可以仅用于将一个实体或动作与另一个实体或动作区分开，而不必要求或暗示此类实体或动作之间的任何实际的此类关系或顺序。术语“包括”、“包含”或其任何其他变体旨在涵盖非排他性包含，使得包含或包括元素或步骤列表的过程、方法、物品或装置不仅包括那些元素或步骤，还可以包括未明确列出的或此类过程、方法、物品或装置固有的其他元素或步骤。在没有进一步限制的情况下，前面带有“一”或“一个”的元素并不排除在包括该元素的过程、方法、物品或装置中存在附加的相同元素。

除非另有说明，否则本说明书，包括以下权利要求书中规定的任何和所有测量值、额定值、位置、幅度、尺寸和其他规格都是近似的，而不是精确的。这些量旨在具有与它们所涉及的功能以及它们所属领域中的惯例一致的合理范围。例如，除非另外明确说明，否则参数值等可以与所述量或范围相差百分之十正负之多。

另外，在前面的具体实施方式中，可以看出，为了简化本公开的目的，在各种示例中将各种特征分组在一起。本公开的方法不应被解释为反映了所要求保护的示例需要比每项权利要求中明确记载的特征更多的特征的意图。相反，如所附权利要求所反映的，要保护的主题不在于任何单个公开示例的所有特征。因此，以下权利要求特此并入具体实施方式中，其中每个权利要求独立地作为单独要求保护的主题。

虽然前面已经描述了被认为是最佳模式和其他示例，但是应当理解，可以在其中做出各种修改，并且本文公开的主题可以以各种形式和示例来实现，并且它们可以应用于许多应用中，本文仅描述了其中的一些。所附权利要求旨在要求保护落入本概念的真实范围内的任何和所有修改和变化。

Claims

1.一种眼镜设备，包括：

麦克风系统；

呈现系统；

被配置成戴在用户头上的支撑结构，所述支撑结构支撑所述麦克风系统和所述呈现系统；和

处理器、存储器和所述存储器中的程序，其中由所述处理器对所述程序的执行将所述眼镜设备配置为：

利用所述麦克风系统捕获所述眼镜设备周围环境的音频信息；

识别所述音频信息中的音频信号；

检测所述音频信号相对于所述眼镜设备的方向；

将所述音频信号分类为多个预定义类别之一，所述多个预定义类别中的每个与用于由所述呈现系统呈现的相应应用相关联；和

响应于所述音频信号的方向，由所述呈现系统呈现与所述多个预定义类别之一相关联的相应应用。

2.根据权利要求1所述的眼镜设备，其中所述呈现系统包括扬声器系统，并且其中为了呈现相应应用，所述处理器将所述眼镜设备配置为：

响应于所述音频信号的方向产生空间滤波器；

将所述空间滤波器应用于所述音频信号；

放大所述音频信号；和

通过所述扬声器系统呈现应用了所述空间滤波器的放大音频信号。

3.根据权利要求1所述的眼镜设备，其中所述呈现系统包括扬声器系统，并且其中为了呈现相应应用，所述处理器将所述眼镜设备配置为：

响应于所述音频信号的方向产生空间滤波器；

生成与所述多个预定义类别之一相对应的音轨；

将所述空间滤波器应用于所述音轨；和

通过所述扬声器系统呈现应用了所述空间滤波器的音轨。

4.根据权利要求1所述的眼镜设备，其中所述呈现系统包括显示系统，并且其中为了呈现相应应用，所述处理器将所述眼镜设备配置为：

产生包括与所述多个预定义类别之一相对应的虚拟对象的视觉叠加；和

在所述显示系统上呈现所述视觉叠加。

5.根据权利要求4所述的眼镜设备，其中为了呈现所述视觉叠加，所述处理器将所述眼镜设备配置为：

将所述虚拟对象登记到相对于所述眼镜设备的检测到的方向；

其中为了产生和呈现所述视觉叠加，所述处理器将所述眼镜设备配置为在所述视觉叠加中在与所述检测到的方向相对应的位置中包括所述虚拟对象。

6.根据权利要求5所述的眼镜设备，其中由所述处理器对所述程序的执行进一步将所述眼镜设备配置为：

检测所述音频信号的后续方向；和

产生在与后续检测到的方向相对应的另一位置中包括虚拟对象的后续视觉叠加，以呈现在所述显示系统上。

7.根据权利要求1所述的眼镜设备，其中所述呈现系统包括扬声器系统和显示系统，并且其中为了呈现相应应用，所述处理器将所述眼镜设备配置为：

利用所述扬声器系统在所述音频信号的方向上呈现音轨；和

利用所述显示系统在与所述音频信号的方向相对应的方向上呈现虚拟对象。

8.根据权利要求1所述的眼镜设备，其中所述呈现系统包括扬声器系统和显示系统，并且所述眼镜设备还包括：

相机系统，所述相机系统具有视场并且由所述支撑结构支撑，其中由所述处理器对所述程序的执行进一步配置所述眼镜设备以捕获视场内的图像；

其中，为了呈现所述相应应用，所述处理器将所述眼镜设备配置为：

利用所述扬声器系统在所述音频信号的方向上呈现音轨；

当与所述音频信号相对应的对象不在所述视场内时，利用所述显示系统在与所述音频信号的方向相对应的方向上呈现虚拟对象；和

当与所述音轨相对应的对象在所述视场内时，利用所述显示系统将所述虚拟对象呈现在所述对象之上。

9.根据权利要求1所述的眼镜设备，其中为了检测所述音频信号相对于所述眼镜设备的方向，所述处理器应用波束成形算法；为了将所述音频信号分类为多个预定义类别之一，所述处理器将训练的卷积神经网络(CNN)应用于所述音频信号；并且为了识别所述音频信息中的音频信号，所述处理器将信号辨别滤波器应用于所述音频信息。

10.根据权利要求9所述的眼镜设备，其中由所述处理器对所述程序的执行进一步将所述眼镜设备配置为：

监视与检测所述音频信号的方向相对应的方向处理时间戳；

监视与将所述训练的CNN应用于所述音频信号相对应的CNN处理时间戳；和

将所述方向处理时间戳与所述CNN处理时间戳相关联；

其中呈现与所述多个预定义类别之一相关联的相应应用进一步响应于相关联的CNN处理时间戳和方向处理时间戳。

11.根据权利要求1所述的眼镜设备，其中由所述处理器对所述程序的执行进一步将所述眼镜设备配置为：

确定所述音频信号的强度；和

将所述音频分类为至少两个强度类别等级之一；

其中所述相应应用的呈现另外响应于所述强度类别等级。

12.一种通过眼镜设备使用的方法，所述眼镜设备包括麦克风系统、呈现系统和被配置为戴在用户头上的支撑结构，所述方法包括：

识别所述音频信息中的音频信号；

通过应用波束成形算法来检测所述音频信号相对于所述眼镜设备的方向；

13.根据权利要求12所述的方法，其中所述呈现系统包括扬声器系统，并且其中所述呈现包括：

响应于所述音频信号的方向产生空间滤波器；

将所述空间滤波器应用于所述音频信号；

放大所述音频信号；和

14.根据权利要求12所述的方法，其中所述呈现系统包括扬声器系统，并且其中所述呈现包括：

响应于所述音频信号的方向产生空间滤波器；

生成与所述多个预定义类别之一相对应的音轨；

将所述空间滤波器应用于所述音轨；和

通过所述扬声器系统呈现应用了所述空间滤波器的音轨。

15.根据权利要求12所述的方法，其中所述呈现系统包括显示系统，并且其中所述呈现包括：

将虚拟对象登记到相对于所述眼镜设备的检测到的方向；

响应于检测到的方向，产生包括与多个预定义类别之一相对应的虚拟对象的视觉叠加；和

在所述显示系统上呈现所述视觉叠加。

16.根据权利要求12所述的方法，其中所述呈现系统包括扬声器系统和显示系统，并且其中为了呈现相应应用，所述方法包括：

利用所述扬声器系统在所述音频信号的方向上呈现音轨；和

17.根据权利要求12所述的方法，其中所述眼镜设备包括具有视场的相机系统，所述呈现系统包括扬声器系统和显示系统，并且所述呈现包括：

利用所述扬声器系统在所述音频信号的方向上呈现音轨；

18.根据权利要求12所述的方法，其中检测所述音频信号相对于所述眼镜设备的方向包括应用波束成形算法，将所述音频信号分类为多个预定义类别之一包括将训练的卷积神经网络(CNN)应用于所述音频信号，并且识别所述音频信息中的音频信号包括将信号辨别滤波器应用于所述音频信息。

19.根据权利要求12所述的方法，还包括：

确定所述音频信号的强度；和

将所述音频分类为至少两个强度类别等级之一；

其中所述相应应用的呈现另外响应于所述强度类别等级。

20.一种存储程序代码的非暂时性计算机可读介质，所述程序代码通过被配置为戴在用户头上的眼镜设备使用，所述眼镜设备包括处理器、存储器、麦克风系统和呈现系统，所述程序代码在被执行时可操作以使电子处理器：

识别所述音频信息中的音频信号；

检测所述音频信号相对于所述眼镜设备的方向；