CN110646938A

CN110646938A - 近眼显示器系统

Info

Publication number: CN110646938A
Application number: CN201910333823.9A
Authority: CN
Inventors: 阿尔贝特·彼得·黄; 金振国
Original assignee: Facebook Technologies LLC
Current assignee: Meta Platforms Technologies LLC
Priority date: 2018-06-27
Filing date: 2019-04-24
Publication date: 2020-01-03
Anticipated expiration: 2039-04-24
Also published as: US10783712B2; CN110646938B; US20200005539A1

Abstract

一种近眼显示器系统，被配置为向用户呈现增强现实环境。此外，NED系统使用成像装置来检测局部区域内的个体，并且识别NED系统能够检测一个或多个执行手势的个体的手部的位置。响应于检测到预定手势，NED系统在与个体的身体的预定部分相关联的位置处向NED的用户显示对应于识别的第一手势的一个或多个虚拟对象。所显示的虚拟对象可以被称为“视觉风格”并用于突出、风格化或强调由局部区域内的个体执行的手势。

Description

近眼显示器系统

技术领域

本公开总体上涉及手势和眼睛跟踪系统，并且具体地涉及用于在人工现实环境中强调手势的视觉风格(visual flair)。

背景技术

增强现实系统通常依赖于具有比经典的虚拟现实(VR)头戴式装置更小的形状因数的可穿戴装置。增强现实系统的使用给用户交互带来了新的挑战。在增强现实系统中，用户与局部区域交互的先前方法可能不充分或不是最佳的。例如，在不使用增强现实的情况下，用户可能需要与局部区域中的装置进行物理交互，以便能够改变该装置。然而，对于增强现实的用户，可以升级装置和用户体验以允许用户使用除简单的物理交互之外的方法来引起装置的改变。然而，用户体验的这种改变应该是直观的以便用户理解，并且应该是技术上可行的。增强现实中的当前用户交互方法不容易直观，并且不利用增强现实系统的技术能力，并且因此不是最佳使用。

发明内容

实施方式涉及一种近眼显示器(NED)系统，该系统被配置为向用户呈现增强现实环境。NED系统包括具有光学组件的NED，该光学组件具有：电子显示器，被配置为根据显示指令来显示对应于虚拟对象的图像；以及成像装置，被配置为捕获NED的局部区域的一部分的一个或多个图像。使用由成像装置捕获的图像，NED系统能够检测局部区域内的个体，并识别个体的手部的位置。基于所识别的手部位置，NED系统能够检测由局部区域中的个体执行的一个或多个手势。

例如，NED系统可以基于手部的第一组确定位置来识别由个体的手部执行的第一手势，第一手势对应于一个或多个手部移动或手部位置的预定序列，并且作为响应，更新显示指令，以使电子显示器在经由电子显示器呈现给NED的用户的增强现实环境中，在与第一手势相关联的个体的身体的预定部分相关联的位置处至少显示指示所识别的第一手势的第一虚拟对象。所显示的虚拟对象可以被称为“视觉风格”并可以用于突出、风格化或强调由局部区域内的个体执行的手势。

附图说明

图1是根据一个或多个实施方式的眼镜装置的图。

图2是根据一个或多个实施方式的图1的眼镜装置的横截面。

图3是根据一个或多个实施方式的具有眼睛跟踪器的NED系统的框图。

图4示出了根据一个或多个实施方式的可以由眼镜装置向用户显示的虚拟菜单的实例。

图5是根据一个或多个实施方式的用于基于所识别的手势来操纵人工现实环境的示例过程的流程图。

图6A示出了根据一个或多个实施方式的基于与局部区域中的对象交互的局部区域内的个体的手势来显示用于展示撞击的视觉风格。

图6B示出了根据一个或多个实施方式的可以响应于其他类型的手势来显示的视觉风格的实例。

图7是根据一个或多个实施方式的用于显示视觉风格的示例处理的流程图。

附图仅出于说明的目的描绘了本公开的实施方式。本领域技术人员将从以下描述中容易地认识到，在不背离本文中所述的本公开的原理或推崇的益处的情况下，可以采用本文中所示的结构和方法的替代实施方式。

具体实施方式

本发明的实施方式可以包括人工现实系统或者与人工现实系统结合实现。人工现实是在呈现给用户之前已经以某种方式调整的现实形式，其可以包括例如虚拟现实(VR)、增强现实(AR)、混合(mixed)现实(MR)、混和(bybrid)现实、或其某种组合和/或衍生物。人工现实内容可以包括完全生成的内容或与捕获的(例如，真实世界)内容结合所生成的内容。人工现实内容可以包括视频、音频、触觉反馈或其某种组合，并且其中的任一项可以在单个频道或多个频道中呈现(诸如向观看者生成三维效果的立体视频)。另外，在一些实施方式中，人工现实还可以与用于例如在人工现实中创建内容和/或以其他方式用于人工现实(例如，执行人工现实中的活动)的应用、产品、附件、服务或其某种组合相关联。提供人工现实内容的人工现实系统可以在各种平台上实现，包括连接到主机计算机系统的头戴式显示器(HMD)、独立HMD、移动装置或计算系统，或能够向一个或多个观看者提供人工现实内容的任何其他硬件平台。

在一些实施方式中，近眼显示器(NED)系统被配置为将人工现实内容投影给NED系统的用户。NED系统进一步包括手部姿势和手势跟踪系统，以确定手部位置和/或由NED系统的用户和/或NED系统的局部区域内的其他个体执行的手势。基于所识别的手势，NED系统能够呈现可以用于增强或强调所识别的手势的不同类型的AR内容。例如，NED系统的手势跟踪系统可以识别局部区域中的个体已经执行了特定类型的手势(诸如拍打桌子的表面)，使NED系统向用户显示从撞击点散发的多个撞击星，其可以用于向NED系统的用户强调所执行的手势。这样，NED系统能够向AR环境添加不同类型的视觉元素(称为“风格”)以强调、风格化或突出由环境中的个体执行的各种手势。

如本文中所使用的，NED系统的局部区域可以指NED系统的NED周围的区域。在一些实施方式中，NED系统的局部区域可以指围绕NED系统的NED的位置的360°区域，该区域对于在该位置处的NED的用户潜在可见。另外，虽然以下讨论主要涉及AR内容，但是应当理解，在其他实施方式中，NED系统可以在VR环境中向用户显示VR内容。

近眼显示器系统概述

图1是根据一个或多个实施方式的眼镜装置100的图。在一些实施方式中，眼镜装置100是用于向用户呈现媒体的近眼显示器(NED)。由眼镜装置100呈现的媒体的实例包括一个或多个图像、文本、视频、音频或其某种组合。在一些实施方式中，经由从眼镜装置100、控制台(未示出)或两者接收音频信息的外部装置(例如，扬声器和/或耳机)呈现音频，并基于音频信息呈现音频数据。眼镜装置100可以被配置为作为人工现实NED操作。在一些实施方式中，眼镜装置100可以利用计算机生成的元素(例如，图像、视频、声音等)来增强物理的真实世界环境的视图。

图1中所示的眼镜装置100包括框架105和被边缘115包围的光学组件110。光学元件110在可见光谱中基本上是透明的(例如，允许百分比透射率)，并且还可以包括基本上透明的电子显示器。框架105耦接到一个或多个光学元件。在一些实施方式中，框架105可以表示眼镜的框架。光学组件110可以被配置用于用户观看由眼镜装置100呈现的内容。例如，眼镜装置110可以包括用于将一个或多个图像光引导到用户的眼睛的至少一个波导显示组件(未示出)。波导显示组件包括例如波导显示器、堆叠波导显示器、堆叠波导和动力光学元件、变焦波导显示器、或其某种组合。例如，波导显示器可以是单色的并且包括单个波导。在一些实施方式中，波导显示器可以是多色的并且包括单个波导。在其他实施方式中，波导显示器是多色的并且包括单色波导的堆叠阵列，每个单色波导与不同的光带相关联，即，每个光源具有不同的颜色。变焦波导显示器是可以调整从波导显示器发射的图像光的焦点位置的显示器。在一些实施方式中，波导显示组件可以包括一个或多个单色波导显示器(即，单色波导显示器或堆叠的多色波导显示器)和变焦波导显示器的组合。在美国专利申请第15/495,373号中详细描述了波导显示器，其通过引用以其全文结合于此。

在一些实施方式中，光学组件110可以包括一个或多个镜片或其他层，诸如，用于过滤紫外光的镜片(即，太阳镜镜片)、偏振镜片、矫正或处方镜片、安全镜片、3D镜片、有色镜片(例如，黄色有色眼镜)、互反焦平面镜片、或不改变用户视野的透明镜片。光学组件110可以包括一个或多个附加层或涂层(诸如，保护涂层)或用于提供任何上述镜片功能的涂层。在一些实施方式中，光学组件110可以包括一个或多个波导显示组件、一个或多个镜片和/或一个或多个其他层或涂层的组合。

图2是根据一个或多个实施方式的图1的眼镜装置100的横截面200。光学组件110容纳在框架105中，框架在围绕光学组件110的部分中呈阴影状。示出了用户的眼睛220，其中虚线从眼睛220的瞳孔引出并向外延伸以示出眼睛的视场。眼箱(eyebox)230示出了如果用户佩戴眼镜装置100则眼睛220所定位在的位置。眼镜装置100包括眼睛跟踪系统。

眼睛跟踪系统确定用户眼睛220的眼睛跟踪信息。所确定的眼睛跟踪信息可以包括关于用户眼睛220在眼箱230中的位置的信息，例如，关于眼睛注视的角度的信息。眼箱表示显示器的输出处的三维体积，用户的眼睛位于该体积中以接收图像光。

在一个实施方式中，眼睛跟踪系统包括以特定波长或在特定波长(例如，红外)带内照亮眼睛的一个或多个光源。光源可以放置在框架105上，使得来自光源的照明被引导到用户的眼睛(例如，眼箱230的位置)。光源可以是能够产生可见光或红外光的任何装置，诸如，发光二极管。光源对用户眼睛的照明可以帮助眼睛跟踪器240更详尽地捕获用户眼睛的图像。眼睛跟踪器240接收从光源发射并从眼睛220反射的光。眼睛跟踪器240捕获用户眼睛的图像，并且眼睛跟踪器240或外部控制器可以分析捕获的图像以测量用户的注视点(即，眼睛位置)、用户眼睛220的运动(即，眼睛移动)或二者。眼睛跟踪器240可以是位于框架105上的相机或其他成像装置(例如，数字相机)，其在能够捕获用户眼睛220(或两个眼睛)的无障碍图像的位置。

在一个实施方式中，眼睛跟踪系统部分地基于光源的反射位置来确定眼睛220的深度信息。关于眼睛跟踪器240如何确定深度信息的附加讨论在例如美国申请第15/456,383号和美国申请第15/335,634号中发现，这两者通过引用结合于此。在另一实施方式中，眼睛跟踪器240不包括光源，而是在没有额外照明的情况下捕获用户眼睛220的图像。

眼睛跟踪器240可以嵌入框架105的上部，但是可以位于它可以捕获用户眼睛的图像的框架的任何部分。虽然图2中仅示出了一个眼睛跟踪器240，但是眼镜装置100可以包括每个眼睛220的多个眼睛跟踪器240。

通过跟踪用户的注视，眼睛跟踪器240可以用于确定用户正在看哪里。这可以与下面描述的系统结合，该系统确定同一用户的手部的手势。注视和特定手势的组合可以被系统检测到，并且作为响应，系统可以基于手势和注视的组合执行一些动作。

图3是根据一个或多个实施方式的NED系统300的框图。图3所示的NED系统300包括耦接到控制器310的NED 305，其中控制器310耦接到成像装置315。虽然图3示出了包括一个NED 305和一个成像装置315的示例NED系统300，但是在其他实施方式中，NED系统300中可以包括任何数量的这些部件。在替代配置中，在NED系统300中可以包括不同的和/或附加的部件。类似地，一个或多个部件的功能可以以与此处描述的方式不同的方式分布在部件之间。例如，控制器310的一些或所有功能可以包含在NED 305内。NED系统300可以在人工现实环境中操作。

NED 305向用户呈现内容。在一些实施方式中，NED 305是眼镜装置100。由NED 305呈现的内容的实例包括一个或多个图像、视频、音频、文本或其某种组合。在一些实施方式中，经由从NED 305、控制器310或两者接收音频信息的外部装置(例如，扬声器和/或耳机)呈现音频，并基于音频信息呈现音频数据。在一些实施方式中，NED 305作为人工现实NED操作。在一些实施方式中，NED 305可以利用计算机生成的元素(例如，图像、视频、声音等)来增强物理的真实世界环境的视图。

NED 305包括用于每个眼睛的光学组件320、眼睛跟踪器325、惯性测量单元(IMU)330、一个或多个位置传感器335和深度相机阵列(DCA)340。NED 305的一些实施方式具有与这里描述的部件不同的部件。类似地，功能可以以与此处描述的方式不同的方式在NED系统300中的其他部件之间分布。在一些实施方式中，光学组件320根据从控制器310接收的数据向用户显示图像。在一个实施方式中，光学组件320对可见光谱中的电磁辐射基本上是透明的(例如，通过一定程度的透射率)。

眼睛跟踪器325跟踪用户眼睛的移动。眼睛跟踪器325包括用于捕获用户眼睛的图像的相机。眼睛跟踪器的放置的实例在如关于图2所描述的眼睛跟踪器240中示出。基于检测到的眼睛移动，眼睛跟踪器325可以与控制器310通信以进行进一步处理。

在一些实施方式中，眼睛跟踪器325允许用户基于检测到的眼睛移动来与控制器310呈现给用户的内容交互。用户与呈现的内容的示例交互包括：选择由控制器310呈现的内容的一部分(例如，选择呈现给用户的对象)、移动由控制器310呈现的光标或指针、导航通过由控制器310呈现的内容、基于用户的注视位置向用户呈现内容、或者与呈现给用户的内容的任何其他合适的交互。

在一些实施方式中，NED 305(单独地或与控制器310或另一装置结合)可以被配置为利用从眼睛跟踪器325获得的眼睛跟踪信息用于各种显示和交互应用。各种应用包括但不限于提供用户界面(例如，基于注视的选择)、注意力估计(例如，用于用户安全)、注视跟随(gaze-contingent)显示模式、用于深度和视差校正的度量尺度等。在一些实施方式中，基于从眼睛跟踪单元接收的关于用户眼睛的位置和取向的信息，控制器(例如，控制器310)确定提供给NED 305以用于在光学组件320上呈现给用户的内容的分辨率。光学组件320可以在用户注视的中央凹区域中提供内容(并且可以在该区域以更高的质量或分辨率提供内容)。

在另一实施方式中，从眼睛跟踪器325获得的眼睛跟踪信息可以用于确定用户在局部区域中的注视的位置。这可以与手势检测系统结合使用，以允许系统检测用户的手势和注视的各种组合。如下面进一步详细描述的，用户的注视和手势的不同组合在被控制器310检测到时，可以使控制器310将进一步的指令发送到局部区域中的装置或其他对象，或者响应于这些不同的组合来执行附加指令。

在一些实施方式中，眼睛跟踪器325包括用于将光投影到用户的眼睛或用户眼睛的一部分上的光源。光源是从眼睛反射并由眼睛跟踪器325捕获的光的源。

IMU 330是基于从一个或多个位置传感器335接收的测量信号生成IMU跟踪数据的电子装置。位置传感器335响应于NED 305的运动来生成一个或多个测量信号。位置传感器335的实例包括：一个或多个加速度计、一个或多个陀螺仪、一个或多个磁力计、检测运动的另一种合适类型的传感器、用于IMU 330的误差校正的一种类型的传感器、或其某种组合。位置传感器335可以位于IMU 330外部、IMU 330的内部、或其某种组合。

基于来自一个或多个位置传感器335的一个或多个测量信号，IMU 330生成指示相对于NED 305的初始位置的NED 305的估计位置的IMU跟踪数据。例如，位置传感器335包括多个加速度计以测量平移运动(前/后、上/下、左/右)和多个陀螺仪以测量旋转运动(例如，俯仰、偏转和滚动)。在一些实施方式中，IMU 330快速采样测量信号并根据采样的数据计算NED 305的估计位置。例如，IMU 330对从加速度计接收的测量信号随时间进行积分以估计速度矢量，并且对速度矢量随时间进行积分以确定NED 305上的参考点的估计位置。替代地，IMU 330将采样的测量信号提供给控制器310，控制器确定IMU跟踪数据。参考点是可以用于描述NED 305的位置的点。虽然参考点通常可以被定义为空间中的一个点；然而，在实践中，参考点被定义为NED 305内的点(例如，IMU 330的中心)。

深度相机组件(DCA)340捕获描述围绕NED 305中的一些或全部的局部区域的深度信息的数据。可以捕获的数据可以包括从投影在局部区域上的结构化光图案捕获的信息、立体图像、飞行时间数据或使用其他深度测量技术捕获的深度信息。DCA 340可以使用该数据(例如，基于结构化光图案的捕获部分)来计算深度信息，或者DCA 340可以将该信息发送到可以使用来自DCA 340的该数据确定深度信息的其他装置，诸如控制器710。

DCA 340包括光发生器、成像装置和控制器。DCA 340的光发生器被配置为根据发射指令用照明光照亮局部区域。DCA 340的成像装置包括镜片组件和检测器。镜片组件被配置为从成像装置周围的局部区域接收光并将至少一部分接收的光引导至检测器。DCA 340的控制器生成发射指令并将发射指令提供给光发生器。DCA 340的控制器进一步部分地基于捕获的一个或多个图像来确定一个或多个对象的深度信息。

成像装置315可以用于捕获用户的手部随时间的表示以用于跟踪用户的手部(例如，通过捕获用户手部的每秒多个图像)。为了实现更准确的捕获，成像装置315能够捕获局部区域或环境的深度数据。这可以通过各种手段来实现，诸如，通过使用计算机视觉算法，该算法通过发射网格图案(例如，经由发射红外激光网格)并且从来自网格图案的反射的变化、从反射辐射的飞行时间的计算(例如，被反射的所发射的红外辐射)、和/或从多个相机的用户(例如，双目视觉、立体摄影测量)来检测深度，而经由对场景中的移动的检测来生成3D数据。成像装置315可以被定位成捕获大的空间区域，使得该空间区域内的所有手部移动都被捕获。在一个实施方式中，使用一个以上的成像装置315来捕获用户手部的图像。如下面进一步详细描述的，用户手部的捕获图像可以用于识别用户的各种手势。在检测到这些手势并结合其他条件的满足时，控制器可以执行某些相关联的动作。

在另一实施方式中，成像装置315还可以捕获局部区域中的一个或多个对象的图像，并且尤其是包括佩戴NED 305的眼镜装置的用户的视场的区域。成像装置315还可以根据上述任何方法来捕获局部区域中的这些一个或多个对象的深度数据。

尽管图3中成像装置315示出为与NED 305是分开的，但是在一些实施方式中，成像装置附接到NED 305(例如附接到框架105)并且还可以是DCA 340的一部分。

成像装置315可以包括一个或多个相机、成像传感器、一个或多个视频相机、能够捕获图像的任何其他装置、或其某种组合。另外，成像装置315可以包括一个或多个硬件和软件滤波器(例如，用于增加信噪比)。图像跟踪数据从成像装置315传送到控制器310，并且成像装置315从控制器310接收一个或多个校准参数以调整一个或多个成像参数(例如，焦距、焦点、帧速率、ISO、传感器温度、快门速度、光圈等)。

在一些实施方式中，NED 305可以进一步包括音频传感器345。音频传感器345可以包括被配置为从NED 305周围的局部区域捕获音频数据的麦克风或其他类型的传感器。音频数据可以包括NED系统300的用户或局部区域内的其他个体的语音、局部区域内的其他类型的噪声等等。在一些实施方式中，音频传感器345可以与NED 305分开地定位。

控制器310根据从成像装置315或NED 305接收的信息向NED 305提供内容以呈现给用户。在图3中所示的实例中，控制器310包括输入界面350、应用存储器355、跟踪模块360、手势识别(ID)模块365、语音识别模块370、以及通信模块375、用户简档存储器380和执行引擎385。控制器310的一些实施方式具有与本文中描述的模块不同的模块。类似地，下面进一步描述的功能可以以与本文中描述的方式不同的方式在控制器310的部件之间分布。在一个实施方式中，控制器310是NED 305内的部件。

在一个实施方式中，控制器310包括输入界面350以接收附加的外部输入。这些外部输入可以是动作请求。动作请求是执行特定动作的请求。例如，动作请求可以是开始或结束应用或在应用内执行特定动作。输入界面350可以从一个或多个输入装置接收输入。示例输入装置包括：键盘、鼠标、游戏控制器或用于接收动作请求的任何其他合适的装置。在另一实施方式中，输入界面350接收来自一个或多个射频(RF)信号接收器的输入。这些可以用于从局部区域中的RF标识器接收无线电信号，并且在一些情况下用于确定RF标识器的距离(基于信号强度)和位置(基于三角测量或其他方法)。在接收到动作请求之后，控制器310执行对应于动作请求的动作。在一些实施方式中，控制器310执行的动作可以包括触觉反馈，触觉反馈可以经由输入界面350发送到触觉反馈装置。在一些实施方式中，输入界面350可以包括与控制器310通信的单独部件，诸如，能够与控制器310无线通信的移动装置。

应用存储器355存储用于由控制器310执行的一个或多个应用。应用是一组指令，该组指令在由处理器执行时生成用于呈现给用户的内容。由应用生成的内容可以响应于经由NED 305的移动、输入界面350、眼睛跟踪器325和/或音频传感器345而从用户接收的输入。应用的实例包括：游戏应用、会议应用、视频回放应用或其他合适的应用。在一些实施方式中，应用存储器355可以进一步存储由一个或多个应用生成的内容。在其他实施方式中，生成的内容可以存储在作为控制器310的一部分、或者作为与控制器310通信的外部装置来实现的单独的内容数据存储器(未示出)中。

跟踪模块360跟踪NED 305的移动和佩戴NED 305的用户的手部的移动。为了跟踪NED 305的移动，跟踪模块360使用来自DCA 340、成像装置315、一个或多个位置传感器335、IMU 330或其某种组合的信息。例如，跟踪模块360基于来自NED 305的信息确定NED 305的参考点在局部区域的映射中的位置。跟踪模块360还可以使用来自IMU 330的指示NED 305的位置的数据来确定NED 305的参考点的位置。另外，在一些实施方式中，跟踪模块360可以使用来自IMU 330的指示NED 305的位置的数据的部分以及来自DCA 340的对局部区域的表示来预测NED 305的未来位置。跟踪模块360可以将估计或预测的NED 305的未来位置提供给执行引擎385。

如上所述，跟踪模块360还跟踪用户的手部和用户手部的指头，以便识别用户手部的各种姿势。每个姿势指示用户手部的位置。通过检测多个姿势随时间的组合，跟踪模块360能够确定用户手部的手势。这些手势进而可以转化为系统的各种输入。例如，使用单个指头在一个方向上的移动可以转化为系统中的按钮按压输入。

在一个实施方式中，跟踪模块360使用深度学习模型来确定用户手部的姿势。深度学习模型可以是神经网络，诸如，卷积神经网络或残余神经网络。神经网络可以将从来自手部的成像装置315的原始数据中提取的特征数据(例如，用户手部的深度信息)或关于在用户的手部上佩戴的任何输入装置上的定位器的位置的数据作为输入。神经网络可以输出用户手部处于的最可能的姿势。替代地，神经网络可以输出用户的手部的关节的最可能位置的指示。关节是用户手部的位置，并且可以对应于用户手部中的实际物理关节，以及用户手部上的可能被需要以在模拟中充分再现用户手部的运动的其他点。

如果神经网络输出关节的位置，则跟踪模块360另外将关节数据(例如，使用逆运动学原理)转换为姿势。例如，用户手部的各种关节的位置以及用户手部的关节和骨骼位置的自然和已知约束(例如，角度、长度等)允许跟踪模块360使用逆运动学基于关节信息来确定用户手部的最有可能的姿势。姿势数据还可以包括用户手部的近似结构，例如，呈骨架、点网或其他格式的形式。

神经网络使用训练数据来训练。在一个实施方式中，训练数据是从多个相机阵列(诸如多个成像装置315)生成的，相机阵列利用来自不同用户的不同手部和/或不同手部佩戴的输入装置上的定位器来捕获不同姿势的手部移动。该训练数据的基本事实指示手部的关节位置和/或姿势，并且可以使用人工验证来生成。

在一个实施方式中，跟踪模块360用于跟踪用户的手部的指头和手部本身的移动，以便识别用户手部的各种手势和姿势。每个姿势指示用户手部的位置。通过随时间检测多个姿势的组合，跟踪模块360能够确定用户手部的手势。这些手势进而可以转化为系统的各种输入。例如，使用单个指头在一个方向上的移动可以转化为系统中的按钮按压输入。

跟踪模块360可以使用另外的神经网络根据一系列特定姿势来确定手势。可以使用计算的姿势(或关节)作为输入数据来类似地训练这样的神经网络，并且输出数据指示最有可能的姿势。跟踪模块360可以使用其他方法从姿势来确定手势，诸如，对手部的指头之间的距离和位置以及3D空间中的一系列姿势的位置的测量。如果每个姿势的这些距离和位置落入特定阈值内，则跟踪模块360可以指示存在特定手势。

使用这样的方法，跟踪模块360能够确定用户手部的可能姿势，并且通过对姿势的确定，跟踪模块360能够将用户手部的移动与预定义的手势相匹配。这些手势可以用于指示增强现实环境中的各种动作。

手势ID模块365基于由跟踪模块360确定的姿势来识别用户手部的手势。手势ID模块365可以利用神经网络从一系列特定姿势来确定手势。可以使用计算的姿势(或关节)作为输入数据来训练这样的神经网络，并且输出数据指示最有可能的姿势。手势ID模块365可以使用其他方法来从姿势确定手势，诸如，对手部的指头之间的距离和位置以及3D空间中的一系列姿势的位置的测量。如果每个姿势的这些距离和位置落入特定阈值内，则手势ID模块365可以指示存在特定手势。在一个实施方式中，手势ID模块365识别用户的捏合手势。当用户的一只手上的用户的食指和拇指的远端在彼此的阈值距离内移动时，形成捏合手势。当手势ID模块365识别出形成该手势的一系列姿势时，手势ID模块365确定形成了捏合手势。如下面进一步详细描述的，控制器310可以在检测到识别的手势以及其他条件时执行某些动作，诸如，由眼睛跟踪器325确定的用户眼睛的特定注视方向、由音频传感器345捕获的音频数据等等。

使用这样的方法，跟踪模块360能够确定用户手部的可能姿势，并且通过对姿势的确定，手势ID模块365将用户手部的移动与预定义的手势相匹配。这些手势可以用于指示人工现实环境中的各种动作。

关于使用成像装置和输入装置跟踪和确定手部位置的其他细节在2016年10月7日提交的美国申请第15/288,453号和2017年8月3日提交的美国申请第15/668,418号中描述，这两者引用以其全文结合于此。

在另一实施方式中，跟踪模块360还被配置为识别由成像装置315捕获的图像中的对象。为了执行该功能，可以首先在大的标记对象数据集上训练跟踪模块360，或者可以将跟踪模块耦接到可以在在线系统上的预训练图像识别系统。在前一种情况下，跟踪模块360包括机器学习模型(例如，卷积神经网络)并且在标准图像-对象库(例如，ImageNet)上训练，或者在来自在线系统的一组大量的用户提供的图像上训练。这些用户提供的图像可以包括大量的对象的图像，以及这些对象的标记(例如，使用字幕等)。可替代地，在后一种情况下，在线系统本身已经包括在上述用户提供和标记的图像上训练的机器学习模型。例如，在线系统可能已经具有接收图像并为每个图像输出标签的对象识别系统。在这种情况下，使用在线系统上的模型代替控制器310上的任何模型来执行对象识别。在识别对象之后，跟踪模块360能够跟踪NED 305向用户提供的视场中的对象的位置。这可以通过连续识别由成像装置315捕获的每一帧中的用户来实现。一旦识别出对象，跟踪模块360就可以在捕获的图像中指示对象的位置以及对象的边界(例如，与识别的对象相对应的像素)。这可以被转化为由NED 305通过光学组件310提供的用户视场中的对象的位置。

在一些实施方式中，控制器310包括语音识别模块370，语音识别模块被配置为转录经由一个或多个音频传感器345接收的音频数据。在一些实施方式中，音频传感器345能够记录与NED系统300的用户或NED 305的局部区域内的其他个体的语音相对应的音频数据。语音识别模块370使用一个或多个音频转录算法来解析接收的音频数据并转录检测的语音的转录。在一些实施方式中，转录可用于创建或操纵一个或多个内容项、向NED 305的用户显示一个或多个虚拟对象、映射为可执行命令等。

在一些实施方式中，控制器310包括用于与其他系统(诸如，其他NED系统)通信的通信模块375，从而允许NED系统300通过通信模块375来与其他系统发送和接收命令和/或内容项。例如，不同NED系统的不同用户能够访问和查看其相应的AR环境中的不同内容项。通信模块375可以允许第一NED系统300的第一用户与第二NED系统(其可以具有与第一NED系统300的结构类似的结构)的第二用户发送和共享一个或多个内容项，从而允许两个用户查看相同的内容。在一些实施方式中，通信模块375可以基于从用户接收的输入(例如，通过输入界面350、或通过执行一个或多个手势)将一个或多个命令发送到外部系统。

在一些实施方式中，NED系统300可以由多个不同的用户使用。NED系统300的每个用户可以与存储在用户简档存储器380中的帐户或用户简档相关联。用户简档存储器380存储与每个用户相对应的用户信息，诸如，用户属性、用户偏好、与用户相关联的内容等。在一些实施方式中，用户简档存储器380存储指示可以由NED系统300的不同用户查看和/或修改的内容的许可信息。这样，NED系统300的不同用户能够通过NED 305查看不同的内容。例如，NED系统300的第一用户能够通过由NED 305投影的AR环境来查看描绘与第一用户的用户简档相关联的图像的虚拟对象，该虚拟对象对于NED系统300的与不同的用户简档相关联的第二用户将是不可见的。

在一些实施方式中，代替将用户简档信息存储在用户简档存储器380中，NED系统300可以使用通信模块375访问诸如社交网络平台的在线系统，以便访问与不同的用户相关联的用户简档信息。在一些实施方式中，NED系统300访问社交网络平台以识别NED系统300的不同用户之间的社交网络连接。基于社交网络连接，NED系统300可以确定哪些类型的内容可以显示给哪些用户(例如，与第一用户相关联的内容可以由与第一用户具有“好友”关系的第二用户查看，但是不可以由与第一用户没有社交网络连接的第三用户查看)。

在一些实施方式中，不同用户可以经由不同的NED 305来同时使用NED系统300。例如，控制器310可以将显示指令发送到第一NED 305以向第一用户显示第一AR环境，并且将显示指令发送到第二NED以向第二用户显示第二AR环境。这样，第一用户和第二用户中的每一者可以能够通过其相应的AR环境来查看不同的虚拟对象。在一些实施方式中，响应于检测到由第一用户和/或第二用户执行的一个或多个预定手势，NED系统300可以使得在第一AR环境或第二AR环境中显示不同的内容。例如，如下面更详细讨论的，NED系统300可以响应于检测到第一用户的特定手势，在第二AR环境中向第二用户显示强调该手势的视觉风格。在一些实施方式中，NED系统300可以响应于第一用户的手势来改变内容项的许可，使得第二用户可以在第二AR环境中查看该内容项。

在一个实施方式中，控制器310另外包括执行引擎385。执行引擎385执行NED系统300内的应用，并从NED 305、输入界面350和/或跟踪模块360接收位置信息、加速度信息、速度信息、预测的未来位置或其某种组合。基于所接收的信息，执行引擎385确定要提供给NED305以向用户呈现/显示的内容。例如，如果所接收的信息指示用户已向左看，则执行引擎385基于用户在人工现实环境中的移动来生成用于NED 305的内容。类似地，如果从跟踪模块360接收的信息指示用户的手部做出特定手势，则执行引擎385基于所识别的手势生成内容。另外，如果从NED 305接收的信息指示用户的特定注视，则执行引擎385可以基于该注视生成内容。该内容可以包括对NED 305中的光学组件320的更新，使得显示给佩戴NED 305的用户的内容改变。

执行引擎385还可以响应于从输入界面350接收的动作请求在控制器310上执行的应用内执行动作，并向用户提供执行动作的反馈。所提供的反馈可以是经由NED 305的视觉或听觉反馈。例如，执行引擎385可以从输入界面350接收动作以打开应用，并且作为响应，执行引擎385打开应用并经由NED 305将来自应用的内容呈现给用户。

在一个实施方式中，执行引擎370基于从跟踪模块360接收的原始关节数据确定用户手部的当前姿势。在另一实施方式中，执行引擎370基于姿势数据检测用户手部的手势。执行引擎370确定姿势和手势的方法类似于上面针对跟踪模块360描述的方法。在一个实施方式中，执行引擎370执行类似于上述用于跟踪模块360的方法的对象识别。

除了确定用户手部的当前姿势之外，执行引擎385还可以根据一组显示指令(例如，像素数据、矢量数据等)向光学组件320提供输出。这种到光学组件320的电子显示器的输出可以包括用户手部的虚拟重建(使用计算机图形)以及其他对象(虚拟或其他)，诸如，局部区域中的对象轮廓、文本、图形、与佩戴NED 305的用户的视场内的对象一致的其他元素等等。在一些实施方式中，执行引擎385向光学组件320提供输出，以使光学组件320在对应于用户手部位置的位置处显示要显示给用户的一个或多个虚拟对象。例如，如果用户用他们的手部执行“捏合”手势，则执行引擎385可以向光学组件320提供指令以显示特定虚拟对象，使得虚拟对象的角保持在用户手部的拇指与食指之间，即使用户移动他们的手部也一样。

执行引擎385可以从跟踪模块360接收被跟踪对象的指示。跟踪模块360可以被预先配置为识别和跟踪某些对象。这些对象可以提供一些控制功能，或者可以与其他细节或信息相关联。在接收到被跟踪对象的指示时，执行引擎385将显示指令发送到光学组件320，以使光学组件320将各种元素显示给用户，诸如，背景菜单、控制用户界面元素、信息菜单等等。当由用户在NED 305呈现的增强或人工现实环境中观看时，这些显示的元素可以被示出在距被跟踪对象的阈值距离处。

在一个实施方式中，执行引擎385可以首先识别由成像装置315捕获的局部区域中的可识别对象。可以根据预编程的识别模式识别对象。识别模式可以包括由跟踪模块360的对象识别系统生成的对象的唯一标识符。识别模式可以包括由使得跟踪模块360识别对象的对象识别系统生成的输出参数的值(例如，由对象识别系统生成的置信度权重)。在另一实施方式中，识别图案可以是一些其他的指纹、图案、标识符或能够用于在不同取向和照明下再次识别对象的其他数据。当遇到对象时，跟踪模块360的对象识别系统可以基于对象的特性生成另一标识符。将该标识符与存储的对象识别图案进行比较，并且如果发生匹配，则将对象识别为与存储的识别图案相关联的对象。

另外，在一些实施方式中，执行引擎385进一步利用局部区域中的附加跟踪指示符来帮助识别对象。如上所述，环境中的对象可以具有RF标识符，其可以由输入界面350经由一个或多个RF接收器接收。经由从RF接收器接收的信号并且通过各种信号源定位机制(例如，三角测量、飞行时间、多普勒频移)，执行引擎385可以使用来自对象的RF信号来确定具有RF标识符的对象的位置。该信息可以用于增强(例如，调整误差)基于图像的对象识别系统，或者可以用于代替基于图像的对象识别系统(例如，在基于图像的对象识别系统失败或具有高误差/不确定性的情况下)。执行引擎385还可以使用其他跟踪指示器(诸如，后向反射器(其可以响应来自眼镜装置100的不可见光信号))、高对比度定位器、QR码、条形码、识别图像图案等来帮助识别对象，并且该信息可以存储在对象的识别图案中。在识别出增强对象时，执行引擎385可以更新光学组件320的显示指令，以呈现与NED系统300呈现的人工现实环境中的增强对象相关的附加模拟或虚拟元素。虚拟元素可以定位在人工现实环境中距增强对象的阈值距离(例如，1cm)处。执行引擎385可以计算增强对象在3D空间中的位置，并将虚拟元素投影在显示器上，使得它们看起来在3D空间内并且靠近增强对象(在阈值距离内)。在检测到增强对象的移动时，执行引擎385可以提交更新的显示指令以基于增强对象的移动来使虚拟元素移动。

在一些实施方式中，一个或多个被跟踪对象可以对应于局部区域内的其他个体，诸如，其他NED的用户。作为跟踪其他个体的一部分，执行引擎385可以识别由其他个体执行的手势，并且基于所识别的手势更新光学组件320的显示指令。例如，执行引擎385可以指示光学组件320显示与所识别的手势相对应的视觉风格。在其他个体是其他NED系统的用户的一些实施方式中，执行引擎385可以基于由NED系统300的用户或由其他NED系统的用户执行的所识别的手势来与其他NED系统发送或接收内容。

响应于从跟踪模块360接收某些手势的指示，执行引擎385可以执行与一个或多个识别的对象相关的某些指令。这可以允许用户通过使用手势来直观地选择和操纵AR环境中的各种虚拟对象。例如，用户可以使用捏合或抓取手势来选择与AR环境内的内容项相对应的虚拟对象，将虚拟对象投掷到AR环境的不同位置上，与其他用户共享与虚拟对象相关联的内容，和/或使用一个或多个虚拟界面元素操纵虚拟对象。在一些实施方式中，指令可以进一步基于用户的眼睛注视方向(如由眼睛跟踪器325确定的)、用户或局部区域中的其他个体的转录语音(如由语音识别模块370确定的)和/或其某种组合。下面参考图4至图7进一步详细描述这种手势的附加实例。图4和图5描述了用于在所显示的虚拟菜单上选择虚拟界面对象的手势。图6A、图6B和图7描述了可以执行以使得显示“视觉风格”的不同手势。

尽管下面的描述主要是参考人工现实(例如，增强现实)环境来作出的，但是本文中描述的方法也可以应用于虚拟现实环境。在虚拟现实环境中，用户佩戴具有电子显示器的头戴式装置，其不允许来自局部区域的光照射到用户的眼睛。而是，用户的视野仅包括电子显示器显示的内容。在这种情况下，用户的眼睛注视可以朝向虚拟对象而不是局部区域中的对象，并且用户可以在虚拟现实环境中看到他或她的手部的虚拟表示而不是他或她的实际手部。

AR中的虚拟界面

在一些实施方式中，具有对象识别和手势跟踪能力的近眼显示器(NED)系统(例如，NED系统300)可以允许NED系统300基于检测到的用户手部手势来执行对AR环境的操纵。在一些实施方式中，NED 305向NED系统的用户呈现AR环境中的虚拟界面，虚拟界面可以由用户使用手势来操纵。

图4示出了根据实施方式的可以由眼镜装置410向用户显示的虚拟菜单的实例。图4中的视图是眼镜装置410和AR环境。在一个实施方式中，眼镜装置410包括参考图3描述的NED系统300，并且因此包括控制器310、光学组件365等。在其他实施方式中，眼镜装置410对应于图3中所示的NED 305，并且不包括控制器310。眼镜装置410的光学组件365可以在人工环境中向用户显示虚拟菜单430。虚拟菜单430在此由一圈圆形对象表示，其中每个圆表示虚拟菜单选项。然而，在其他实施方式中，它们可以采用其他的形状和特征。例如，它们可以是球体、立方体、文本或成形(例如，拟物地)类似于真实世界的对象，诸如按钮等。

控制器310可以进一步检测用户手部440正在利用虚拟菜单选项之一执行触摸手势。当控制器310检测到用户的一个手指的远端在人工现实环境中的虚拟菜单选项之一的阈值距离(例如，2mm)内时，检测到触摸手势。在检测到触摸手势时，控制器310可以执行与所选择或触摸的虚拟菜单选项相对应的选项。

在一些实施方式中，控制器310被配置为能够识别可以由用户执行的不同类型的手势。如本文中所使用的，“手势”可以指代能够由控制器310识别或分类的用户手部440的一个或多个移动或位置的任何系列。在一些实施方式中，手势包括用户手部440的多个动作的序列。在一些实施方式中，手势还对应于用户手部440的特定位置或取向。响应于所识别的手势，控制器310可以基于所识别的特定手势来执行操纵人工现实环境的一个或多个操作。如本文中所使用的，用户手部的运动或位置可以包含用户手部的手指/指头的特定运动或位置。

在一些实施方式中，控制器310利用虚拟菜单选项之一检测捏拉手势。当用户的食指和拇指的远端在彼此的阈值距离(例如，5mm)内并且它们围绕虚拟菜单选项之一时，检测到捏拉手势。此外，用户手部在朝向眼镜装置410的方向上移动(即，减小用户手部与眼镜装置之间的距离)。这种类型的手势可以用于指示用户的状态指示符的虚拟菜单选项。在检测到这样的手势时，控制器310可以将由所选择的虚拟菜单选项所指示的状态指示符应用于用户。例如，虚拟菜单选项可以指示“忙碌”的状态指示符。如果用户捏住该选项并将其拉向用户，则控制器310可以将“忙碌”状态指示符应用于用户，并将该状态发送到在线系统。在一些实施方式中，具有眼镜装置的其他用户随后可以看到该用户的更新状态(状态可以实时更新)。在其他实施方式中，虚拟菜单选项用于操纵显示给用户的AR环境(诸如通过显示与虚拟菜单选项相对应的内容项)、对显示的内容项执行与虚拟菜单选项相对应的操作等等。

图5是根据一个或多个实施方式的用于基于所识别的手势来操纵人工现实环境的示例过程的流程图。如上所述，在一些实施方式中，NED系统(例如，NED系统300)可以包括成像装置(例如，成像装置315)或能够随时间捕获用户手部的表示的其他类型的传感器以用于跟踪用户手部。控制器(例如，控制器310)可以基于用户手部的跟踪位置和移动(例如，使用跟踪模块360)，对通过眼镜装置向用户显示的人工现实环境执行一个或多个操纵。

控制器确定510与NED系统相关联的用户的手部的位置。在一些实施方式中，由控制器确定的手部的位置可以包括用户手部相对于用户身体的位置、用户手部相对于他们的另一手部的位置、用户的手部的手指的位置、或其任何组合。

控制器基于第一组确定的手部位置识别520第一手势。在一些实施方式中，控制器随时间跟踪用户手部的位置以确定用户手部的移动。第一手势可以对应于用户手部的一个或多个确定的移动的序列。在一些实施方式中，当控制器检测到用户手部在朝向或远离用户身体的路径上的移动时，控制器分别识别拉动手势或推动手势。

可以基于确定的用户手部的位置或姿势来识别第一手势。在实施方式中，响应于确定用户手部在其身体的两侧，其手掌向上翻转，控制器识别耸肩姿势。

在一些实施方式中，识别第一手势包括识别到用户手部在手势的特定部分期间相对于真实世界对象(例如，用户身体或局部区域内的一些其他对象)或人工现实环境中显示的虚拟对象移动到特定位置，和/或在特定位置处实现特定姿势。在一些实施方式中，作为识别拉动手势的一部分，控制器确定在拉动手势开始时用户手部的位置对应于特定显示的虚拟对象。

控制器基于所识别的手势执行530对人工现实环境的操纵。在一些实施方式中，控制器使眼镜装置显示新的虚拟对象作为人工现实环境的一部分、改变现有的虚拟对象(例如，如何显示虚拟对象和/或虚拟对象的设置)等等。在一些实施方式中，响应于所识别的手势，控制器改变与NED系统300相关联的设置(例如，用户的状态、与用户相关联的一条数据的设置等等)、(例如，通过通信模块375)与另一系统(诸如，与局部区域中的真实世界对象相关联的控制器或另一NED系统300)通信等等。在一些实施方式中，操纵是基于用户手部在手势(例如，关于虚拟对象、真实世界对象等等)期间的特定时间点的位置。下面更详细地描述特定手势及其效果的实例。

响应于检测到的手势而显示视觉风格

在一些实施方式中，控制器可以被配置为响应于检测到的由用户和/或其他个体做出的手势来显示某些类型的视觉风格。如本文中所使用的，“视觉风格”可以指代响应于检测到局部区域内的个体的特定手势而向近眼显示器的佩戴者显示的一个或多个非交互式虚拟对象。可以显示视觉风格以突出、风格化或强调由局部区域内的个体(例如，NED的佩戴者或局部区域中的其他个体)执行的手势、为手势提供附加的背景等等、并且通常仅在手势的持续时间期间或在手势完成之后的短时间内显示。不同的视觉风格可以被映射到不同类型的手势，并且可以基于检测到的手势的一个或多个属性(例如，手势的速度、手势的移动范围等)来有属性地(例如，对象的数量、对象的移动等)显示。

图6A和图6B示出了根据一个或多个实施方式的可以响应于不同类型的手势来显示的不同类型的视觉风格。图6A和图6B中所示的场景对应于被佩戴者(未示出)佩戴的NED的视角。

图6A示出了根据一些实施方式的基于与局部区域中的对象交互的局部区域内的个体的手势来显示用于展示撞击的视觉风格。NED系统300可以检测NED 305的视场内的个体605的存在。在一些实施方式中，可以基于由NED系统300捕获的图像的一个或多个面部识别和/或对象识别算法来识别个体605。在其他实施方式中，基于与个体605(未示出)相关联的传感器或发射器识别个体605，诸如，个体605佩戴的另一NED、被配置为发送指示个体605的存在的NED系统300可接收的信号的手表或其他可穿戴设备等等。

NED系统300跟踪个体手部610的位置以确定手部610的移动615(例如，使用跟踪模块360)。另外，NED系统300可以识别局部区域中的一个或多个对象(诸如，桌子620)并确定手部610与识别的对象之间的交互。图6A示出了个体605执行“拍打表面”手势，其中他们(a)以至少阈值速度在至少阈值距离上执行他们的手部610的移动615，使得(b)他们的手部610在与局部区域中的对象(例如，桌子620)的表面相交的路径上移动。另外，手部610在与桌子620的表面的撞击点附近行进的移动615的路径可能需要与桌子620的表面基本正交。在一些实施方式中，手部610还必须定向成使得手部610的手掌侧击中桌子620的表面，而不是手部610的手背侧或手部610的边缘(即，手部610的与手掌和手背侧正交的表面)。这样，NED系统300可以基于检测到手部610的移动615(具有至少阈值距离和/或速度)以及手部610(以正确的取向)击中桌子620的表面的撞击来确定个体605执行了“拍打表面”手势。

响应于识别出手势，NED系统300的控制器310将显示指令发送到NED系统300的光学组件320，以在与所识别的手势相关联的位置处基于所识别的手势向佩戴NED 305的用户显示AR环境内的视觉风格。如图6A中所示，响应于识别出“拍打表面”手势，NED系统显示视觉风格625，视觉风格包括从于手部605击中桌子表面620的位置相对应的位置散发的多个撞击星。在一些实施方式中，视觉风格625的撞击星可以行进特定距离和/或在它们从撞击位置进一步行进时淡去。

所显示的视觉风格625的一个或多个属性可以基于所识别的手势的一个或多个参数。在图6A所示的实施方式中，撞击星的数量和/或尺寸、撞击星散发的速度或撞击星行进的距离可以基于移动615的速度(例如成比例)。在一些实施方式中，撞击星散发的方向可以基于桌子620的表面(例如，基本上平行于表面)。

图6B示出了根据一个或多个实施方式的可以响应于其他类型的手势来显示的视觉风格的实例。如上所述，可以基于个体的手部的相对位置来识别某些类型的手势。例如，如图6B中所示，个体605的手部610和630位于个体身体的两侧(即，左侧和右侧)的特定高度范围内(例如，在个体的胃与肩部之间)，其中肘部朝下并且手掌朝上(即，朝着个体的头部)。NED系统300可以响应于手部610和630在该位置的阈值接近度内保持至少阈值时间量来确定“耸肩”手势。在一些实施方式中，响应于手部610和630在小于阈值距离的情况下从所识别的位置执行上下垂直移动来识别“耸肩”手势。

响应于检测到“耸肩”手势，NED系统300在个体头部640上方的阈值距离内的位置处显示对应于手势的视觉风格635，诸如，字母“IDK”(“我不知道”)。

在一些实施方式中，由NED系统300显示的视觉风格基于在检测到手势的同时(即，在阈值延迟内)由音频传感器345捕获的一个或多个声音的检测。在图6A所示的实施方式中，如果手部610撞击桌子620的声音产生与击中硬表面一致的声音，则可以显示第一类型的视觉风格，其不同于可以响应于检测到与撞击在软表面上一致的声音而显示的一种类型的视觉风格。

在其他实施方式中，NED系统300的语音识别模块370基于音频传感器345的声音来转录语音，并且NED系统300基于转录的语音来显示视觉风格。个体605可以在说话的同时还执行手势。NED系统300的语音识别模块370可以转录语音并基于转录和识别的手势显示视觉风格。在一些实施方式中，个体605在说话时可以执行“下划线”手势，包括至少在阈值距离内在用户的胃与肩高之间的直线水平路径(平行于地球表面)上移动他们的手部610，并且其中用户手部在特定速度范围内移动。在一些实施方式中，“下划线”手势可以进一步包括个体眼睛的注视方向基于个体手部610的移动而改变(例如，在手势执行期间与个体手部上方的阈值距离内的位置相交)。作为响应，当个体手部继续沿着水平路径移动时，NED系统300可以在对应于手势的位置处显示个体说出的一个或多个单词的转录。该位置可以对应于个体的手部所经过的水平路径上方的预定距离，并且当其继续沿着水平路径移动时可以跟随个体的手部，从而在个体的手部上方显示转录文本(例如，每次一个字母或一个单词)。在一些实施方式中，可以基于个体在讲话时的至少阈值持续时间的一个或多个暂停、用户的语音的音调或音高、和/或在执行“下划线”手势时手部610行进的距离来确定转录和显示的个体语音的部分。虽然图6A和图6B示出了在由NED的佩戴者的局部区域内基于其他个体执行的手势来显示的视觉风格，但是在一些实施方式中，NED系统300还被配置为基于佩戴者执行的手势向NED的佩戴者显示视觉风格。例如，响应于检测到NED的佩戴者已经执行类似于图6A中所示的“拍打表面”手势，NED系统300可以在AR环境中显示包括撞击星的视觉风格625。

在一些实施方式中，视觉风格还可以包括一个或多个音频效果。例如，佩戴者佩戴的NED 305可以包括被配置为向佩戴者播放音频内容的一个或多个扬声器或其他音频装置。响应于识别特定手势，NED系统可以结合显示视觉风格向佩戴者播放音频内容，其中音频内容可以用于突出或强调所执行的手势或所显示的风格。例如，响应于检测到由个体605执行的耸肩手势，NED系统除了显示视觉风格635之外还可以播放与耸肩手势相关联的声音。

图7是根据一个或多个实施方式的用于显示视觉风格的示例处理的流程图。NED系统300确定710在NED系统300的局部区域内的手部的位置。在一些实施方式中，手部对应于NED系统300的用户的手部。在其他实施方式中(例如，如图6A和图6B中所示)，手部可以对应于局部区域内的另一个体的手部。例如，NED系统300可以包括能够识别局部区域内的除NED系统300的用户之外的个体的存在的成像装置。响应于识别到个体(例如，使用对象识别和/或面部识别算法)，NED系统300识别个体的手部的位置。

NED系统300基于第一组确定的手部位置识别720第一手势。在一些实施方式中，手势对应于手部的特定位置(例如，相对于个体的身体、个体的另一手部和/或局部区域中的一个或多个其他对象)。NED系统300可以基于确定个体的手部已经在特定位置维持了至少阈值时间段来识别特定手势。在一些实施方式中，NED系统基于第一组位置来确定手部的一个或多个移动，并至少基于所确定的移动的一部分来识别手势。在一些实施方式中，所识别的手势可以对应于所识别的移动和维持的位置的组合。

NED系统300在与第一组确定的位置中的一个位置相关联的位置处基于所识别的第一手势在AR环境中显示730一个或多个虚拟对象。在一些实施方式中，一个或多个虚拟对象可以被称为视觉风格。NED系统300可以将不同类型的手势映射到不同类型的虚拟风格，使得所显示的虚拟风格将对应于特定检测到的手势。可以选择对应于特定手势的每个虚拟风格，以便强调手势、向手势提供附加背景、和/或以其他方式向AR环境添加美化局部区域内的个体的手势的视觉新鲜物。虚拟风格在基于检测到的手势的位置处显示，并且可以具有基于手势的一个或多个参数的一个或多个属性(例如，所显示的视觉风格的强度可以基于与该手势相关联的移动速度)。在一些实施方式中，虚拟风格可以进一步基于与执行的手势同时捕获的一个或多个传感器读数(例如，捕获的声音、语音)。

其他配置信息

本公开实施方式的前述描述仅出于说明的目的而呈现，并且不旨在穷尽或者将本公开局限于所公开的确切形式。相关领域的技术人员可以理解的是，根据上述公开内容可以有多种修改和变化。

本说明书的一些部分根据对信息的操作的算法和符号表示来描述本公开的实施方式。数据处理领域的技术人员通常使用这些算法描述和表示来有效地将其工作的实质传达给本领域其他技术人员。这些操作虽然在功能上、计算上或逻辑上进行描述，但应理解为由计算机程序或等效电路、微代码等实现。此外，在不失一般性的情况下，将这些操作安排称为模块有时也证明是方便的。所描述的操作及其相关联的模块可以在软件、固件、硬件或其任何组合中体现。

本文中描述的任何步骤、操作或过程可以单独地或与其他装置组合地用一个或多个硬件或软件模块来执行或实现。在一个实施方式中，软件模块用计算机程序产品实现，该计算机程序产品包括含有计算机程序代码的计算机可读介质，该计算机程序代码可以由计算机处理器执行以执行所描述的任何或所有步骤、操作或过程。

本公开的实施方式还可以涉及用于执行本文中操作的设备。该设备可以针对所需目的而专门构造，和/或它可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算装置。这样的计算机程序可以存储在非暂时性的有形计算机可读存储介质中或者适合于存储电子指令的任何类型的介质中，该介质可以耦接到计算机系统总线。此外，说明书中提到的任何计算系统可以包括单个处理器，或者可以是采用多个处理器设计以提高计算能力的架构。

本公开的实施方式还可以涉及通过本文中描述的计算过程产生的产品。这样的产品可以包括由计算过程产生的信息，其中信息被存储在非暂时性的有形计算机可读存储介质上，并且可以包括本文中描述的计算机程序产品或其他数据组合的任何实施方式。

最后，说明书中使用的语言主要是出于可读性和指导目的而选择的，并且可能未被选择为划定或者限制本发明的主题。因此，本公开的范围旨在不由具体实施方式来限制，而是由基于具体实施方式在本申请上发布的任何权利要求来限制。因此，实施方式的公开内容旨在说明而非限制本公开的范围，本公开的范围在所附权利要求中阐述。

Claims

1.一种近眼显示器系统，包括：

近眼显示器，包括：

光学组件，具有被配置为根据显示指令显示对应于虚拟对象的图像的电子显示器；

图像装置，被配置为捕获所述近眼显示器的局部区域的一部分的一个或多个图像；以及

控制器，被配置为：

使用所捕获的一个或多个图像确定位于所述局部区域内的个体的手部的位置；

基于所述手部的第一组确定位置来识别由所述个体的所述手部执行的第一手势，所述第一手势对应于一个或多个手部移动或手部位置的预定序列；并且

更新所述显示指令，以使所述电子显示器在经由所述电子显示器呈现给所述近眼显示器的用户的增强现实环境中，在与和所述第一手势相关联的所述个体的身体的预定部分相关联的位置处至少显示指示所识别的第一手势的第一虚拟对象。

2.根据权利要求1所述的系统，其中，所述个体是所述近眼显示器的所述用户。

3.根据权利要求1所述的系统，其中，所述第一手势包括所述个体的第一手部在与所述局部区域内的对象表面相交的路径中的移动。

4.根据权利要求1所述的系统，其中，所述第一手势包括手部位置，在所述手部位置中所述个体的所述手部位于相对于彼此的预定位置并且将它们的位置保持至少阈值时间段。

5.根据权利要求1所述的系统，进一步包括音频传感器，所述音频传感器被配置为检测局部环境中的音频信息，并且其中，所述控制器被进一步配置为更新所述显示指令，以使所述电子显示器基于检测到的音频信息来显示所述第一虚拟对象。

6.根据权利要求5所述的系统，其中，所述第一虚拟对象包括基于检测到的音频信息的转录的内容。

7.根据权利要求1所述的系统，进一步包括音频装置，所述音频装置被配置为向所述用户播放音频内容，并且所述控制器被进一步配置为使所述音频装置与所述电子显示器显示所述第一虚拟对象同时地基于所述第一手势向所述用户播放所述音频内容。

8.根据权利要求1所述的系统，其中，所述控制器被进一步配置为：

使用训练的模型分析一个或多个所捕获的图像，以识别与位于所述局部区域内的个体的手部相关联的多个手部姿势；并且

基于多个所识别的手部姿势来识别由所述个体的所述手部执行的所述第一手势，其中，所述第一手势对应于手部姿势随时间的预定序列。

9.根据权利要求8所述的系统，其中，所述控制器被进一步配置为：

使用所述训练的模型分析所述一个或多个所捕获的图像，以识别与所述个体的所述手部相关联的一个或多个关节位置；并且

将所识别的一个或多个关节位置转换为手部姿势。

10.根据权利要求1所述的系统，其中，所述第一手势对应于手部姿势随时间的预定序列，在所述预定序列中所述手部的移动超过阈值速度。

11.根据权利要求1所述的系统，其中，所述控制器被进一步配置为基于由多个手部姿势所指示的所述个体的所述手部相对于所述个体的身体的位置，来识别所述第一手势。

12.根据权利要求1所述的系统，其中，基于所述手部的移动速度来选择所述第一虚拟对象，所述手部的移动速度基于多个手部姿势而确定。

13.根据权利要求1所述的系统，其中，所述第一虚拟对象被显示的速率或所述第一虚拟对象的移动速率基于所述手部的移动速度，所述手部的移动速度基于多个手部姿势而确定。

14.根据权利要求1所述的系统，其中，所述局部区域内的所述个体对应于与佩戴所述近眼显示器的个体不同的个体。