CN110018736A

CN110018736A - 人工现实中的经由近眼显示器界面的对象增强

Info

Publication number: CN110018736A
Application number: CN201910020122.XA
Authority: CN
Inventors: 肯里克·政-国·金; 阿尔贝特·彼得·黄
Original assignee: Oculus VR Inc
Current assignee: Meta Platforms Technologies LLC
Priority date: 2018-01-10
Filing date: 2019-01-09
Publication date: 2019-07-16
Anticipated expiration: 2039-01-09
Also published as: CN110018736B; US20190212828A1

Abstract

本发明公开了人工现实中的经由近眼显示器界面的对象增强。一种系统包括被配置为根据显示指令显示图像的近眼显示器(NED)。该系统还包括被配置为捕捉图像的成像传感器。该系统进一步包括控制器，该控制器被配置为使用一个或多个识别图案识别所捕捉的图像中的对象，并且基于所捕捉的图像确定用户的手的姿势，其中所确定的姿势指示对于所识别的对象的触摸姿势。该控制器还更新显示指令以使得电子显示器显示人工现实环境中的虚拟菜单，其中，虚拟菜单在人工现实环境中的对象的位置的阈值距离内。

Description

人工现实中的经由近眼显示器界面的对象增强

技术领域

本公开内容大体上涉及对象和眼睛跟踪，并且具体地涉及人工现实系统中的对象增强。

背景技术

增强现实系统通常依靠具有比典型的虚拟现实(VR)头戴装置更小的形状因子的可穿戴装置。增强现实系统的使用对用户交互提出新的挑战。在增强现实系统中，用户与局部区域交互的先前方法可能是不充分的或者不是最佳的。例如，在不使用增强现实的情况下，用户可能需要与局部区域中的装置进行物理交互，以便能够改变该装置。然而，对于增强现实的用户，可以升级装置和用户体验这两者以允许用户使用除了简单的物理交互之外的方法改变装置。然而，用户体验中的此类变化应该是直观的，以便用户理解并且在技术上应当是可行的。增强现实中的用户交互的当前方法尚不是直观的并且未开拓增强现实系统的技术能力，因此对于使用而言不是最佳的。

发明内容

近眼显示器(NED)系统提供图形元素(例如，覆盖图)以增强作为人工现实环境的一部分的物理对象。该系统包括近眼显示器(NED)、成像传感器和控制器。NED具有被配置为根据显示指令显示图像的电子显示器。成像传感器被配置为捕捉局部区域的图像。图像包括对象的至少一个图像和用户的手的至少一个图像。在一些实施方式中，成像传感器可以是NED的一部分。控制器被配置为使用一个或多个识别图案识别通过成像传感器捕捉的至少一个图像中的对象。控制器被配置为使用至少一个图像确定用户的手的姿势。例如，所确定的姿势可以指示用户对于所识别的对象正在执行触摸姿势。触摸姿势例如可以通过用户的食指沿朝向所识别的对象的方向的移动而形成，使得用户的食指和对象的位置之间的距离在阈值内。该控制器被配置为更新显示指令以使得电子显示器在人工现实环境中显示虚拟菜单，该虚拟菜单在人工现实环境中的对象的位置的阈值距离内。

附图说明

图1是根据实施方式的眼镜装置的示图。

图2是根据实施方式的图1的眼镜装置的截面图。

图3是根据实施方式的具有眼睛跟踪器的NED系统的框图。

图4A示出了根据实施方式的应用于NED的示例性NED显示滤波器，用于利用虚拟元素增强物理对象。

图4B示出了根据实施方式的图4A的应用于NED的示例性NED显示滤波器，用于在与增强对象交互时提供虚拟菜单。

图4C示出了根据实施方式的图4B的应用于NED的示例性NED显示滤波器，用于在与增强对象的虚拟菜单交互时提供二级虚拟上下文菜单。

图5是示出了根据实施方式的提供NED中的对象增强的方法的流程图。

附图仅为了说明的目的描述了本公开内容的实施方式。本领域技术人员从下列描述中容易认识到，在不背离本文中描述的本公开内容的原理或推崇的益处的情况下，可以采用本文中示出的结构和方法的替换实施方式。

具体实施方式

本发明的实施方式可包括人工现实系统或者可结合人工现实系统实现。人工现实是在呈现给用户之前已经按照某种形式调整的现实形式，例如，可包括虚拟现实(VR)、增强现实(AR)、混合现实(MR)、混合性现实、或者它们的某种组合和/或衍生。人工现实内容可包括完全生成的内容或者与捕捉的(例如，现实世界)内容结合的生成内容。人工现实内容可包括视频、音频、触觉反馈或者它们的某种组合，并且其中的任一个可能在单个渠道或者多个渠道中(诸如，给观看者产生三维效果的立体视频)呈现。另外，在一些实施方式中，人工现实还可以与例如用于创建人工现实中的内容和/或以其他方式在人工现实中使用(例如，在人工现实中执行活动)的应用程序、产品、配件、服务或者它们的某种组合相关联。提供人工现实内容的人工现实系统可以在各个平台上实现，该平台包括连接至主计算机系统的头戴式显示器(HMD)、独立的HMD、移动装置或计算系统、或者能够向一个或多个观看者提供人工现实的任何其他硬件平台。

另外，在一些实施方式中，眼镜装置包括眼睛跟踪系统。眼睛跟踪系统包括一个或多个光源和相机。眼镜装置还包括光学组件，该光学组件可包括电子显示器或显示路径元件(诸如，波导显示器)、镜片或者镜片堆栈(诸如，供电的光学元件(powered opticalelement)、矫正镜片或者UV镜片)、或者显示器和/或镜片的组合。

眼睛跟踪系统可以与跟踪局部区域中的一个或多个对象的系统组合使用，以便经由眼镜装置(例如，经由眼镜装置的光学元件)向用户显示关于对象(诸如，其他用户)的附加信息。这个信息可包括从在线系统接收的关于局部区域中的其他用户的信息。该系统可另外包括手势和姿势跟踪系统，以允许眼镜装置的用户从虚拟或模拟的上下文菜单中选择，以便更新用于该用户的信息，以便具有类似眼镜装置的其他用户可以看见关于该用户的更新信息。

近眼显示器系统(NED)概述

图1是根据实施方式的眼镜装置100的示图。在一些实施方式中，眼镜装置100是用于向用户呈现媒体的近眼显示器(NED)。由眼镜装置100呈现的媒体的实例包括一个或多个图像、文本、视频、音频、或它们的某种组合。在一些实施方式中，经由从眼镜装置100、操纵台(未示出)或者这两者接收音频信息并且基于音频信息呈现音频数据的外部装置(例如，扬声器和/或头戴耳机)呈现音频。眼镜装置100可以被配置为操作为人工现实NED。在一些实施方式中，眼镜装置100可以利用计算机生成元素(例如，图像、视频、声音等)增强物理的、真实世界环境的视图。

在图1中示出的眼镜装置100包括镜架105以及由镜框围绕的光学组件110。光学元件110在可见光谱中基本上是透明的(例如，允许百分比透射率)，并且还可包括基本上透明的电子显示器。镜架105耦接至一个或多个光学元件。在一些实施方式中，镜架105可以表示眼镜的镜架。光学组件110可被配置为让用户看到由眼镜装置100呈现的内容。例如，眼镜装置110可以包括用于将一个或多个图像光引导至用户的眼睛的至少一个波导显示器组件(未示出)。波导显示器组件例如包括波导显示器、堆叠的波导显示器、堆叠的波导和供电的光学元件、变焦波导显示器或者它们的某种组合。例如，波导显示器可以是单色的并且包括单个波导。在一些实施方式中，波导显示器可以是多色的并且包括单个波导。在其他实施方式中，波导显示器是多色的并且包括单色波导的层叠阵列，每个单色波导与光的不同频带相关联，即，每个是不同颜色的光源。变焦波导显示器是可以调整从波导显示器发射的图像光的焦点位置的显示器。在一些实施方式中，波导显示器组件可包括一个或多个单色波导显示器(即，单色波导显示器或者层叠的多色波导显示器)和变焦波导显示器的结合。在美国专利申请第15/495,373中详细描述了波导显示器，其全部内容通过引证结合于本文中。

在一些实施方式中，光学组件110可包括一个或多个镜片或其他层，诸如用于过滤紫外光的镜片(即，太阳镜镜片)、偏振镜片、矫正的或处方镜片、安全镜片、3D镜片、着色镜片(例如，黄色着色眼镜)、倒数焦平面镜片(reciprocal focal-plane lenses)、或者不会改变用户的观看的无色镜片。光学组件110可包括一个或多个附加层或涂层，诸如，防护性涂层，或者用于提供上述镜片功能中的任一个的涂层。在一些实施方式中，光学组件110可包括一个或多个波导显示器组件、一个或多个镜片、和/或一个或多个其他层或涂层的组合。

图2是根据实施方式的图1中示出的眼镜装置100的截面图200。光学组件110容纳在镜架105中，在围绕光学组件110的部分中镜架是阴影。示出了用户的眼睛220，其中虚线从眼睛220的瞳孔引出并且向外延伸以显示眼睛的视野。如果用户佩戴眼镜装置100，眼动范围(eyebox)230示出了眼睛220所在的位置。眼镜装置100包括眼睛跟踪系统。

眼睛跟踪系统确定用户的眼睛220的眼睛跟踪信息。所确定的眼睛跟踪信息可包括有关用户的眼睛220在眼动范围230中的位置的信息，例如，有关眼睛凝视的角度的信息。眼动范围表示显示器的输出处的三维体积，用户的眼睛位于该三维体积中以接收图像光。

在一个实施方式中，眼睛跟踪系统包括一个或多个光源以特定波长或特定的波长频带内(例如，红外线)照射眼睛。光源可以位于镜架105上，使得来自光源的照射被引导至用户的眼睛(例如，眼动范围230的位置)。光源可以是能够产生可见的或红外光的任何装置，诸如，发光二极管。由光源照射用户的眼睛可以辅助眼睛跟踪器240更详细地捕捉用户的眼睛的图像。眼睛跟踪器240接收从光源发射并且从眼睛220反射的光。眼睛跟踪器240捕捉用户的眼睛的图像，并且眼睛跟踪器240或外部控制器可以分析所捕捉的图像以测量用户的凝视点(即，眼睛位置)、用户的眼睛220的运动(即，眼睛运动)、或者这两者。眼睛跟踪器240可以是相机或位于镜架105上的能够捕捉用户的眼睛220(或者两只眼睛)的没有遮挡的图像的位置处的其他成像装置(例如，数码相机)。

在一个实施方式中，眼睛跟踪系统部分地基于光源的反射位置确定眼睛220的深度信息。例如，在美国申请第15/456,383号和美国申请第15/335,634中找到了关于眼睛跟踪器240如何确定深度信息的另外讨论，它们的全部内容通过引证结合于本文中。在另一个实施方式中，眼睛跟踪器240不包括光源，而是在没有额外照明的情况下捕捉用户的眼睛220的图像。

眼睛跟踪器240可以嵌入镜架105的上部，但是可以位于镜架的可以捕捉用户的眼睛的图像的任何部分处。尽管在图2中仅示出了一个眼睛跟踪器240，但是眼镜装置100可包括多个眼睛跟踪器240用于每个眼睛220。

图3是根据实施方式的具有眼睛跟踪器的NED系统300的框图。图3示出的NED系统300包括耦接至控制器310的NED 305，其中控制器310耦接至成像装置315。尽管图3示出了包括一个NED 305和一个成像装置315的示例性NED系统300，但是在其他实施方式中，在NED系统300中可包括任意数量的这些部件。在可替换配置中，NED系统300中可包括不同的和/或附加部件。类似地，一个或多个部件的功能可以按照不同于本文中描述的方式在这些部件中分配。例如，在NED 305内可以包含控制器310的一些或者所有功能。NED系统300可以在人工现实环境中运行。

NED 305向用户呈现内容。在一些实施方式中，NED 305是眼镜装置100。由NED 305呈现的内容的实例包括一个或多个图像、视频、音频、文本、或它们的某些组合。在一些实施方式中，经由从NED 305、控制器310或者这两者接收音频信息并且基于音频信息呈现音频数据的外部装置(例如，扬声器和/或头戴耳机)呈现音频。在一些实施方式中，NED 305操作为人工现实NED。在一些实施方式中，NED 305可以利用计算机生成元素(例如，图像、视频、声音等)增强物理的、真实世界环境的视图。

NED 305包括：用于每个眼睛的光学组件320，眼睛跟踪器325，惯性测量单元(IMU)330，一个或多个位置传感器335，以及深度相机阵列(DCA)340。NED 305的一些实施方式具有与本文中描述的那些部件不同的部件。类似地，功能可以与本文中描述的方式不同的方式在NED系统300中的其他部件中分配。在一些实施方式中，光学组件320根据从控制器310接收的数据向用户显示图像。在一个实施方式中，光学组件320对可见光谱中的电磁辐射基本上是透明的(例如，按照透光程度)。

眼睛跟踪器325跟踪用户的眼睛运动。眼睛跟踪器325包括用于捕捉用户的眼睛的图像的相机。如关于图2描述的，眼睛跟踪器240中示出了眼睛跟踪器的放置的实例。基于检测到的眼睛运动，眼睛跟踪器325可以与控制器310通信以用于进一步处理。

在一些实施方式中，眼睛跟踪器325基于检测到的眼睛运动允许用户与通过控制器310呈现给用户的内容交互。用户与呈现内容的示例性交互包括：选择由控制器310呈现的内容的一部分(例如，选择呈现给用户的对象)，移动由控制器310呈现的光标或指针，导航通过由控制器310呈现的内容，基于用户的凝视位置将内容呈现给用户，或者与呈现给用户的内容的任何其他合适的交互。

在一些实施方式中，NED 305单独地或者与控制器310或另一个装置结合地可以被配置为利用从眼睛跟踪器325获得的眼睛跟踪信息以用于各种显示和交互应用程序。各种应用程序包括但不限于提供用户界面(例如，基于凝视的选择)、注意力估计(例如，为了用户安全)、暂时凝视的显示模式、用于深度和视差校正的度量标度等。在一些实施方式中，基于有关从眼睛跟踪单元接收的用户的眼睛的位置和方位的信息，控制器(例如，控制器310)确定提供给NED 305的内容的分辨率以用于在光学组件320上呈现给用户。光学组件320可以在用户的凝视的中央凹区域中提供内容(并且可以在该区域提供更高质量或分辨率的内容)。

在另一个实施方式中，从眼睛跟踪器325获得的眼睛跟踪信息可以用于确定用户的凝视在局部区域中的位置。其可以结合姿势检测系统使用以允许该系统检测用户姿势和凝视的不同组合。如以下进一步详细描述的，根据控制器310的检测，用户凝视和姿势的不同组合可以使得控制器310将进一步的指令传输至局部区域中的装置或其他对象，或者响应于这些不同的组合执行额外指令。

在一些实施方式中，眼睛跟踪器325包括用于将光投射到用户的眼睛或用户的眼睛的一部分上的光源。光源是从眼睛反射并且由眼睛跟踪器325捕捉的光的源。

IMU 330是基于从一个或多个位置传感器335接收的测量信号生成IMU跟踪数据的电子装置。位置传感器325响应于NED 305的运动生成一个或多个测量信号。位置传感器335的实例包括：一个或多个加速计、一个或多个陀螺仪、一个或多个磁力计、检测运动的其他合适类型的传感器、用于IMU 330的误差校正的传感器类型、或者它们的某种组合。位置传感器335可以位于IMU 330的外部、IMU 330的内部、或它们的某种组合。

基于来自一个或多个位置传感器335的一个或多个测量信号，IMU330生成指示NED305相对于NED 305的初始位置的估计位置的IMU跟踪数据。例如，位置传感器335包括多个加速计以测量平移运动(前/后、上/下、左/右)和多个陀螺仪以测量旋转运动(例如，倾斜、偏转和滚动)。在一些实施方式中，IMU 330对测量信号进行快速采样并且根据采样数据计算NED 305的估计位置。例如，IMU 330对从加速计接收的测量信号在时间上求积分，以估计速度矢量，并且对速度矢量在时间上求积分，以确定NED 305上的参考点的估计位置。可替换地，IMU 330将采样的测量信号提供至控制器310，控制器3确定IMU跟踪数据。参考点是可以用于描述NED 305的位置的点。尽管参考点通常可以定义为空间中的点；然而，实际上，参考点被定义为NED 305内的点(例如，IMU 330的中心)。

深度相机阵列(DCA)340捕捉描述围绕NED 305一些或全部的局部区域的深度信息的数据。DCA 340可以使用数据(例如，基于捕捉的一部分结构光图案)计算深度信息，或者DCA 340可以将该信息发送至诸如控制器的另一个装置，该控制器可以使用来自DCA 340的数据确定深度信息。

DCA 340包括光发生器、成像装置和控制器。DCA 340的光发生器被配置为根据发射指令利用照明光照射局部区域。DCA 340的成像装置包括镜片组件、过滤元件和检测器。镜片组件被配置为接收来自围绕成像装置的局部区域的光并且将所接收的光的至少一部分引导至检测器。过滤元件可以放置在镜片组件内的成像装置中，使得在角度范围内的光入射在过滤元件的表面处，其中，通过过滤元件被设计成过滤光的设计角度范围确定角度范围。检测器被配置为捕捉局部区域的包括过滤的光的一个或多个图像。在一些实施方式中，镜片组件使用所接收的光生成准直光，准直光由基本上平行于光轴的光线组成。过滤元件的表面垂直于光轴，并且准直光入射在过滤元件的表面上。过滤元件可以被配置为减少准直光的一部分的强度以生成过滤的光。DCA 340的控制器生成发射指令并且将发射指令提供至光发生器。DCA340的控制器部分地基于所捕捉的一个或多个图像进一步确定用于一个或多个对象的深度信息。

成像装置315可以用于捕捉用户的手随着时间推移的表现以用于跟踪用户的手(例如，通过每秒捕捉用户的手的多个图像)。为了实现更精确的捕捉，成像装置315也许能捕捉局部区域或环境的深度数据。这可以通过各种方式实现，诸如，通过使用经由场景中的移动检测生成3D数据的计算机视觉算法，通过发射网格图案(例如，发射红外线激光网格)并且从网格图案反射中的变化的深度、从反射辐射(例如，作为被反射的发射红外辐射)的飞行时间的计算和/或从多个相机(例如，双目视觉/立体摄影测量)的用户检测深度。成像装置315可以放置为捕捉大的空间区域，使得捕捉空间区域内的全部手移动。在一个实施方式中，多于一个成像装置315用于捕捉用户的手。

在另一个实施方式中，成像装置315还可以捕捉局部区域中的一个或多个对象的图像，并且具体地，该区域包含穿戴包括NED 305的眼镜装置的用户的视野。成像装置315还可以根据以上描述的方法中的任一个捕捉局部区域中的一个或多个对象的深度数据。

尽管在图3中示出了与NED 305分离的成像装置315，但是在一些实施方式中，成像装置附接至NED 305，例如，附接至镜架105。

成像装置315可包括一个或多个相机、成像传感器、一个或多个摄像机、能够捕捉图像的任何其他装置、或者它们的某种组合。此外，成像装置315可包括一个或多个硬件和软件滤波器(例如，用于增大信噪比)。图像跟踪数据从成像设置315传送到控制器310，并且成像装置315从控制器310接收一个或多个校准参数来调节一个或多个成像参数(例如，焦距、焦点、帧速率、ISO、传感器温度、快门速度、光圈等)。

控制器310将内容提供至NED 305以用于根据从成像装置315或NED305接收的信息呈现给用户。在图3中示出的实例中，控制器310包括输入接口345、应用存储器350、跟踪模块355、姿势ID模块360和执行引擎365。控制器310的一些实施方式具有与本文中描述的那些模块不同的模块。类似地，可以按照与本文中描述的方式不同的方式在控制器310的部件中分配下面进一步描述的功能。在一个实施方式中，控制器310是NED 305内的部件。

在一个实施方式中，控制器310包括接收额外的外部输入的输入接口345。这些外部输入可以是动作请求。动作请求是执行特定动作的请求。例如，动作请求可以是开始或结束应用程序或者在应用程序内执行特定动作。输入接口345可以从一个或多个输入装置接收输入。示例性输入装置包括：键盘、鼠标、游戏控制器、或者用于接收动作请求的任何其他合适的装置。在另一个实施方式中，输入接口345从一个或多个射频(RF)信号接收器接收输入。这些可以用于从局部区域中的RF标识符接收无线电信号，并且在一些情况下，确定RF标识符的距离(基于信号强度)和位置(基于三角测量或其他方法)。在接收动作请求之后，控制器310执行对应于动作请求的动作。在一些实施方式中，通过控制器310执行的动作可包括触觉反馈，该触觉反馈可以经由输入接口345传输至触觉反馈装置。

应用存储器350存储由控制器310执行的一个或多个应用程序。应用程序是一组指令，当由处理器执行时，生成用于呈现给用户的内容。应用程序生成的内容可以响应于经由NED 305的移动、输入接口345或者眼睛跟踪器325从用户接收的输入。应用程序的实例包括：游戏应用程序、会议应用程序、视频播放应用程序、或其他合适的应用程序。

跟踪模块355跟踪NED 305的移动以及穿戴NED 305的用户的手。为了跟踪NED 305的移动，跟踪模块355使用来自DCA 340、一个或多个位置传感器335、IMU 330或者它们的某种组合的信息。例如，跟踪模块355基于来自NED 305的信息确定在局部区域的绘制中NED305的参考点的位置。跟踪模块355还可以使用来自IMU 330的表明NED 305的位置的数据确定NED 305的参考点的位置。另外，在一些实施方式中，跟踪模块355可以使用来自IMU 330的表明NED 305的位置的数据的一部分以及来自DCA 340的局部区域的表示，预测NED 305的未来位置。跟踪模块355可以将估计的或预测的NED 305的未来位置提供至执行引擎365。

如所述，跟踪模块355还跟踪用户的手、以及用户的手的手指，以便识别用户的手的各种手势。每个手势指示用户的手的位置。通过随着时间推移检测多个手势的结合，跟踪模块355能够确定用户的手的姿势。这些姿势接着可以转化成到系统的各种输入。例如，使用单个手指沿一个方向的移动可以转化成该系统中的按钮按压输入。

在一个实施方式中，跟踪模块355使用深度学习模型确定用户的手的手势。深度学习模型可以是神经网络，诸如，卷积神经网络或者残余神经网络。神经网络可以将从手的成像装置315的原始数据提取的特征数据(例如，用户的手的深度信息)、或者关于在佩戴在用户的手上的任何输入装置上的定位器的位置的数据作为输入。神经网络可以输出用户的手处于的最有可能的手势。可替换地，神经网络可以输出用户的手的关节最有可能的位置的指示。关节是用户的手的位置，并且可以对应于用户的手中的实际的物理关节，以及在充分再现用户的手的运动的模拟中可能需要的用户的手上的其他点。

如果神经网络输出关节的位置，则跟踪模块355例如使用逆运动学原理将关节数据另外转换为手势。例如，用户的手的各个关节的位置、以及用户的手的关节和骨骼位置的固有和已知的限制(例如，角度、长度等)允许跟踪模块355使用逆运动学基于关节信息确定用户的手的最有可能的手势。手势数据还可包括例如以骨架、点网格或其他格式的用户的手的近似结构。

使用训练数据训练神经网络。在一个实施方式中，训练数据从诸如多个成像装置315的多个相机阵列和/或由不同手穿戴的输入装置上的定位器生成，该成像装置对于不同用户的不同手捕捉不同手势的手移动。该训练数据的基础事实指示手的关节位置和/或手势，并且可以使用人类验证生成。

姿势ID模块360基于通过跟踪模块355确定的手势识别用户的手的姿势。姿势ID模块360可以利用神经网络从具体的一系列手势中确定姿势。可以使用作为输入数据的所计算的手势(或者关节)并且利用指示最可能的姿势的输出数据训练此类神经网络。可以通过姿势ID模块360使用其他方法确定手势中的姿势，诸如，手的手指与3D空间中的一系列手势的位置之间的距离和位置的测量。如果每个手势的这些距离和位置落入某阈值内，则姿势ID模块360可以指示呈现的是特定姿势。

使用此类方法，跟踪模块355能够确定用户的手的最有可能的手势，并且利用手势的确定，姿势ID模块360也许能将用户的手的移动与预定义的姿势匹配。这些姿势可以用于指示增强现实环境中的各种动作。

在2016年10月7日提交的美国申请第15/288,453号和2016年9月28日提交的美国申请第62/401,090号中描述了关于使用成像装置和输入装置跟踪和确定手位置的其他详情，它们的全部内容通过引证结合于本文中。

在另一个实施方式中，跟踪模块355还被配置为识别通过成像装置315捕捉的图像中的对象。为了执行这个功能，跟踪模块355首先可以在标记的对象数据的大语料库上训练，或者耦接至预训练的图像识别系统(其可以是在线系统上)。在前一种情况下，跟踪模块355包括机器学习模型(例如，卷积神经网络)，并且在标准图像对象库(例如，ImageNet)上训练，或者在来自在线系统的用户提供的图像的大集合上训练。这些用户提供的图像可包括对象的大量图像、以及这些对象的标记(例如，使用字幕等)。可替换地，在后一种情况下，在线系统本身已经包括在上述用户提供且标记的对象上训练的机器学习模型。例如，在线系统可以具有接收图像并且输出用于每个图像的标记的对象识别系统。在这种情况下，使用在线系统上的模型代替控制器310上的任意模型以执行对象识别。在识别对象之后，跟踪模块355也许能跟踪在由NED 305向用户提供的视野中的对象的位置。这个可以通过连续识别通过成像装置315捕捉的每个帧中的用户而实现。一旦识别到对象，跟踪模块355可以指示对象的位置、以及对象在所捕捉的图像中的边界(例如，对应于识别的对象的像素)。这可以通过光学组件310转化为在由NED 305提供的用户的视野中的对象的位置。

在一个实施方式中，控制器310另外包括执行引擎365。执行引擎365执行NED系统300内的应用程序，并且从NED 305、输入接口345和/或跟踪模块355接收位置信息、加速度信息、速度信息、预测的未来位置、或它们的某种组合。基于所接收的信息，执行引擎365确定内容以提供至NED 305以呈现/显示给用户。例如，如果所接收的信息指示用户看向左边，则执行引擎365基于用户在人工现实环境中的移动生成用于NED 305的内容。类似地，如果从跟踪模块355接收的信息指示用户的手做出特定姿势，则执行引擎365基于所识别的姿势生成内容。此外，如果从NED 305接收的信息指示用户的特定凝视，则执行引擎365可以基于该凝视生成内容。这个内容可包括更新NED 305中的光学组件320，使得显示给佩戴NED 305的用户的内容改变。

执行引擎365还可以响应于从输入接口345接收的动作请求在控制器310上执行的应用程序内执行动作并且将执行该动作的反馈提供给用户。提供的反馈可以是经由NED305的视觉或听觉反馈。例如，执行引擎365可以从输入接口345接收打开应用程序的请求，并且作为响应，执行引擎365打开应用程序并且将内容从应用程序经由NED 305呈现给用户。

除了确定用户的手的当前手势之外，执行引擎365还可以根据一组显示指令(例如，像素数据、矢量数据等)提供到光学组件320的输出。到光学组件320的电子显示器的这个输出可包括用户的手、以及其他对象(虚拟的或其他方式的)，诸如，局部区域中的对象的轮廓、文本、图形、与佩戴NED 305的用户的视野内的对象一致的其他元素等的虚拟再造(使用计算机图形)。

执行引擎365可以从跟踪模块355接收被跟踪的对象的指示。用户经由输入接口345可以预先选择此类对象以增强。一旦接收到被跟踪的对象的指示，执行引擎365将显示指令传输至光学组件320以使得光学组件320向用户显示各种元素，诸如，上下文菜单、信息菜单等。当用户在通过NED 305呈现的增强或人工现实环境中观看时，可以在距被跟踪的对象的阈值距离处示出这些显示的元素。

在一个实施方式中，执行引擎365可以首先识别通过成像装置315捕捉的局部区域中的可识别的对象。如果首先由用户识别对象，则认出该对象。为此，用户可以经由姿势或其他动作激活以识别局部区域中的对象(例如，非虚拟对象)，以便增强。这个姿势可以是对于对象的触摸姿势，当用户的一个手指在处于局部区域中的对象的阈值距离内时，通过姿势ID模块360认出该对象。如果提前通过执行引擎365认出该对象，则执行引擎365可以存储对象的识别图案。识别图案可包括通过跟踪模块355的对象识别系统生成的、对象的唯一标识符。识别图案可包括使得跟踪模块355识别对象的对象识别系统生成的输出参数的值(例如，通过对象识别系统生成的置信度权重)。在另一个实施方式中，识别图案可以是一些其他指纹、图案、标识符、或能够用于在不同方位和照明下再次识别对象的其他数据。当再次遇到对象时，跟踪模块355的对象识别系统可以基于对象的特性生成另一个标识符。这个标识符与用于对象所存储的识别图案进行比较，并且如果出现匹配，则对象被识别为与所存储的识别图案相关联的对象。

在一个实施方式中，根据接收到对于增强对象的请求，执行引擎365将显示指令传输至光学组件320以向用户显示提示。该提示请求用户进入对象捕捉模式，因此用户被要求将对象放置在NED的成像装置315的前方并且将其沿着不同轴旋转，以便执行引擎365生成对象的模型。该模型可包括对象的三维表示(例如，使用点网格、多边形数据等)。该模型还可以用作用于对象的识别图案。在另一个实施方式中，对象的各种捕捉图像被提供为机器学习模型的训练数据，用于识别对的。这些图像用作机器学习模型的识别图案，并且该模型随后可以用于再次识别对象。

另外，在一些实施方式中，执行引擎365进一步利用局部区域中的其他跟踪指示器以帮助识别增强对象。如上所述，环境中的对象可具有RF标识符，该RF标识符可以经由一个或多个RF接收器通过输入接口345接收。执行引擎365经由从RF接收器接收的信号并且通过各种信号源定位机制(例如，三角测量、飞行时间、多普勒位移)可以使用来自对象的RF信号确定具有RF标识符的对象的位置。该信息可用于增强(例如，误差调整)基于图像的对象识别系统，或者可以该信息可以用于代替基于图像的对象识别系统(例如，在基于图像的对象识别系统出故障或者具有高误差/不确定性的情况下)。还可以通过执行引擎365使用其他跟踪指示器，诸如，反向反射器(可响应于来自眼镜装置100的非可见光信号)、高反差定位器、QR码、条型码、识别图像图案等，以便帮助识别对象，并且该信息可存储在用于对象的识别图案中。

在设置要被增强的对象之后，执行引擎365随后可以通过使用为该增强对象生成的识别图案来识别通过成像装置315(和/或经由描述的其他跟踪机制)捕捉的图像中的增强对象。一旦识别增强对象，执行引擎365可以更新光学组件320的显示指令以呈现与由NED呈现的增强现实环境中的增强对象有关的其他模拟或虚拟元素。虚拟元素可以位于增强现实环境中的距增强对象的阈值距离(例如，1cm)。执行引擎365可以计算3D空间中的增强对象的位置并且将虚拟元素投射在显示器上，使得它们仿佛在3D空间内并且靠近增强对象(在阈值距离内)。一旦检测到增强对象的移动，执行引擎365可以提交更新的显示指令以基于增强对象的移动来移动虚拟元素。

可以仅在激活姿势(诸如，之前描述的触摸姿势)之后，可以呈现在检测到增强对象时呈现的相关的虚拟元素。可替换地，在检测到增强对象时自动呈现虚拟元素。关于增强对象选择所呈现的虚拟元素。它们可以由用户(经由图形界面)单独选择或者通过执行引擎365基于增强对象的类型自动确定。执行引擎365利用的对象识别系统可以识别所识别的对象的类型。执行引擎365可进一步包括对象-虚拟元素关联的数据库，其用于在识别特定的对象类型时选择将呈现的特定的虚拟元素。以下参考图4A至图5描述关于该对象增强的其他详情。

对象增强

以下附图示出了具有对象识别和手势跟踪能力的NED系统(例如，系统300)，这些能力允许NED(例如，NED 305)增强局部区域中的对象，从而用户的交互(使用各种姿势)使得NED系统的控制器(例如，控制器310)更新NED系统的NED以向用户显示各种交互式和/或信息元素。

图4A示出了根据实施方式的利用虚拟元素增强物理对象的应用于NED的示例性NED显示滤波器。图4A中的透视图是用户在通过NED 305观看局部区域。在示出的实例中，增强的对象是用户的手410上的戒指414，并且控制器310响应于识别该戒指而呈现虚拟菜单416(通过更新显示指令)。因为当增强对象是戒指时，控制器310被配置为呈现个人备忘记事本类型的虚拟菜单选项的菜单，因此可选择虚拟菜单416。虚拟菜单416中的菜单选项包括代办事项424、相册426、聊天应用428、电话应用430、日历应用432、社交网络应用434等。然而，在其他实施方式中，在虚拟菜单416中可以示出不同的选项。

图4B示出了根据实施方式的图4A的应用于NED的示例性NED显示滤波器，用于在与增强对象交互时提供虚拟菜单。图4B中示出的场景从图4A中的场景继续。

在图4B示出的场景中，控制器310检测用户的另一只手418对于与戒指414相关联的虚拟菜单416中的上下文菜单项中的一个的触摸姿势。当用户的手形成一系列手势时，其中，用户的手指在元素的阈值距离内移动，检测对于元素的触摸姿势。在另一个实施方式中，控制器310检测对于虚拟菜单416中的上下文菜单项中的一个的捏手势。当用户的食指和拇指的远端部在彼此的阈值距离内，并且用户的食指和拇指的远端之间的点在元素的阈值距离内时，检测到捏手势。在此，元素是虚拟菜单416的上下文菜单项420、日历图标。作为响应，控制器310可以提供更新的显示指令，该指令使得NED将上下文菜单项420的选择的指示呈现给用户。这可以通过改变所选择的上下文菜单项等的颜色、高亮、移动来表示。

图4C示出了根据实施方式的图4B的应用于NED的示例性NED显示滤波器，用于在与增强对象的虚拟菜单的交互时提供二级虚拟的上下文菜单。图4C中示出的场景从图4B中的场景继续。

在图4C示出的场景中，控制器310之前检测到对于上下文菜单项420(日历图标)的触摸姿势(或者捏手势)。尽管在示出的实例中选择了日历图标，但是在其他情况下，可以(从对于虚拟菜单416中的图标的触摸或捏手势的检测)选择虚拟菜单416中的其他图标中的任一个。

在检测与上下文菜单图标420的交互之后，控制器310将额外的显示指令发送至光学组件110以显示二级虚拟上下文菜单422。这个二级虚拟上下文菜单可以与所选择的上下文菜单选项420有关，并且可以与使用之前的触摸或捏手势选择的上下文菜单选项420的设定距离或阈值距离处显示。例如，在此，二级虚拟上下文菜单422是显示当前月份的日历。该日历可以显示约会，具有设置约会的选项，并且具有涉及日历应用的其他特征和标准功能。如果上下文菜单选项420是一些其他应用或选项，则二级虚拟上下文菜单422因此可能不同。控制器310可以进一步检测对于二级虚拟上下文菜单422中的一个选项的触摸或捏手势，并且执行关于检测触摸或捏手势的某动作。

在一些实施方式中，经由NED系统300的无线接口，控制器310可以将信号传输至也包括无线接口的增强对象。控制器310可以传输指令，以便响应于用户针对与增强对象相关联的虚拟元素的动作，允许增强对象处的交互或反馈水平。例如，增强对象可包括触觉反馈、视觉反馈和/或音频反馈机制(例如，线性致动器、显示器或光、扬声器等)，它们允许控制器310响应于用户对与增强对象相关联的虚拟元素执行某些姿势将指令发送至这些反馈机制。例如，当控制器310检测对于与增强对象相关联的虚拟菜单的上下文菜单选项的触摸或捏手势时，控制器310可以将消息发送至增强对象以使得增强对象经由触觉反馈机构振动。如另一实例，该反馈可以是音频反馈，该音频反馈被配置为发出好像来自增强对象的声音。

在一个实施方式中，控制器310从用户接收针对对象的去增强请求(de-enhancement request)。这可以经由与对象相关联的虚拟菜单的交互执行，或者经由由用户执行的针对对象的检测到的姿势执行。响应于此类请求，控制器310禁用针对该对象的增强特征，即，关于该对象的虚拟菜单的呈现，并且还可以去除用于对象的识别图案。

尽管利用半空中的虚拟菜单416和其他虚拟菜单示出了上述实例，但是在其他实施方式中，虚拟菜单416可以出现在AR环境中，以在局部区域中的对象的表面上。在一些情况下，如果增强对象具有容纳虚拟菜单416的面积的足够大的表面，则这个对象可以是增强对象本身。控制器310可以基于由用户表示的设置确定是否将虚拟菜单416呈现在半空中或对象上。可替换地，控制器310可以确定增强对象上的表面是否足够大以将虚拟菜单416放置在该表面上，并且如果是这样的话，则控制器310将虚拟菜单416放置在表面上。如上所述，用户然后可以与虚拟菜单416交互。

示例性流程

图5是示出了根据实施方式的提供NED中的对象增强的方法的流程图。在一个实施方式中，可以通过控制器310执行流程图中的步骤。在另一个实施方式中，可以通过系统300中描述的另一个部件执行步骤。尽管流程图暗示了特定顺序，但是在其他实施方式中，可以不同顺序执行流程图中的步骤。

控制器310使用一个或多个识别图案识别510通过成像传感器捕捉的图像中的对象。例如，控制器310可以使用从成像装置(例如，成像装置315)所捕捉的局部区域的图像。使用对象识别系统，诸如，由在线系统提供的系统，控制器310识别所捕捉的图像中的、匹配先前生成的识别图案的对象。

控制器310确定520用户的手的手势指示对于所识别的对象的触摸姿势。触摸姿势例如可以通过用户的食指沿朝向所识别的对象的方向的移动而形成，使得用户的食指和对象的位置之间的距离在阈值内。

控制器310更新530显示指令使得NED系统300显示内容，诸如，图4A至图4C中描述的虚拟菜单416。显示指令可以进一步指示显示器在增强现实环境中的对象的位置的阈值距离内呈现虚拟菜单。虚拟菜单的实例可包括指示为用户定制的各种选项的图标和文本，诸如，日历、联系人等。

附加配置信息

已经出于说明的目的呈现了本公开的实施方式的以上描述；它不旨在穷举的或者也不是将本公开内容限制为所公开的精确形式。相关领域的技术人员应理解，根据上述公开内容，可以做出许多修改和变化。

本说明书的一些部分从信息运算的算法和符号表示法的角度描述了本公开内容的实施方式。这些算法描述和表示通常由数据处理领域的技术人员使用，以便将他们的工作实质有效传达给本领域的其他技术人员。当被描述为功能性的、计算性的或逻辑性的时，这些运算被理解为由计算机程序或等同电路、微码等实现。例如，在一些实施方式中，传感器模块142可包括用于成像的设计硬件以及计算光流信息的图像处理。此外，有时把这些运算的安排称为模块也是方便的，并且不失其一般性。运算及其关联模块可体现在软件、固件、硬件或它们的任意组合中。

本文中描述的任何步骤、操作或过程可利用一个或多个硬件或软件模块单独或与其他装置组合执行或实现。在一个实施方式中，软件模块利用计算机程序产品实现，该计算机程序产品包括包含计算机程序代码的计算机可读介质，该程序代码可通过用于执行描述的任何或所有步骤、操作或过程的计算机处理器执行。

本公开内容的实施方式还可涉及一种用于执行本文中的操作的设备。出于需要之目的，可特别构造该设备，和/或该设备可包括由存储在计算机中的计算机程序选择性激活或者重新配置的通用计算装置。这种计算机程序可被存储在非易失性的、有形的计算机可读存储介质中或者适用于存储电子指令的可藕耦接至计算机系统总线的任何类型的介质中。此外，本说明书中所提及的任何计算系统可包括单个处理器或者可以是采用多处理器设计以增强计算能力的结构。

本公开内容的实施方式还可以涉及由本文中所描述的计算过程产生的产品。这种产品可包括由计算过程产生的信息，其中，信息存储在非易失性的、有形的计算机可读存储介质中并且可包括本文中描述的计算机程序产品或其他数据组合的任何实施方式。

最后，主要出于可读性和指导性之目的选择本说明书中使用的语言，并且选择其不是为了划定或者限制本发明的主题。因此，本公开内容的范围并不旨在由具体实施方式来限定，而是由基于具体实施方式的本申请所发布的任何权利要求来限定。因此，本公开内容的实施方式的公开内容旨在是说明性的，而非限制所附权利要求中阐述的本公开内容的范围。

Claims

1.一种系统，包括：

近眼显示器(NED)，被配置为根据显示指令显示图像；

成像传感器，被配置为捕捉图像，所述图像包括对象的至少一个图像以及用户的手的至少一个图像；以及

控制器，被配置为：

使用一个或多个识别图案识别所捕捉的图像中的所述对象；

基于所捕捉的图像确定所述用户的手的手势，所确定的手势表明对于所识别的所述对象的触摸姿势，通过所述用户的食指沿朝向所识别的所述对象的方向移动使得所述用户的食指与所述对象的位置之间的距离在阈值内来形成所述触摸姿势；并且

更新所述显示指令使得电子显示器在人工现实环境中显示虚拟菜单，所述虚拟菜单处于所述人工现实环境中的所述对象的位置的阈值距离内。

2.根据权利要求1所述的系统，其中，所述控制器进一步被配置为：

确定所述用户的手的所述手势表明对于所述虚拟菜单的上下文菜单选项中的一者的触摸姿势；

执行与所述上下文菜单选项中的所述一者对应的指令；并且

更新所述显示指令以使得所述电子显示器显示激活所述上下文菜单选项中的所述一者的指示。

3.根据权利要求2所述的系统，其中，激活所述上下文菜单选项中的所述一者的所述指示包括：与所述上下文菜单选项中的所述一者对应的二级上下文菜单。

4.根据权利要求1所述的系统，其中，所述控制器进一步被配置为：

从所述成像传感器接收额外捕捉的图像；

基于所述一个或多个识别图案检测所述额外捕捉的图像中的所述对象；

确定所述额外捕捉的图像中的所述对象相对于先前捕捉的图像中的所述对象的所述位置的移动；

基于所确定的移动确定所述对象的新位置；并且

更新所述显示指令以使得基本上透明的电子显示器在新位置显示所述虚拟菜单，其中，显示所述虚拟菜单的所述新位置在所述增强现实环境中的所述对象的所述新位置的阈值距离内。

5.根据权利要求1所述的系统，其中，所述对象是可穿戴的戒指。

6.根据权利要求1所述的系统，其中，射频(RF)标识符附接至所述对象，并且其中，所述控制器进一步被配置为：

从所述RF标识符接收包括用于所述对象的标识符的无线电信号；

更新所述一个或多个识别图案以包括所述标识符；并且

基于所述无线电信号的方向和信号延迟确定所述对象的位置。

7.根据权利要求1所述的系统，其中，标记附接至所述对象，并且所述控制器进一步被配置为：

检测附接至一个或多个所捕捉的图像中的所述对象的所述标记；并且

更新所述一个或多个识别图案以包括所述标记。

8.根据权利要求1所述的系统，其中，标记包括编码识别信息的图案，并且其中，所述控制器进一步被配置为：

从包括有标记的所述图案解码标识符；

更新所述一个或多个识别图案以包括所述标识符；并且

进一步基于检测到与所述对象上的所述标识符对应的所述图案，确定所述对象的位置。

9.根据权利要求1所述的系统，其中，对象增强请求包括由所述用户的手针对所述对象做出的所述触摸姿势。

10.根据权利要求1所述的系统，其中，由所述控制器基于所述对象的类型选择所述虚拟菜单中的所述上下文菜单选项。

11.根据权利要求1所述的系统，其中，所述控制器进一步被配置为：

接收针对所述对象的对象增强请求；

访问所述对象的一个或多个图像；并且

基于所访问的图像生成所述对象的所述一个或多个识别图案。

12.一种近眼显示器(NED)，包括：

电子显示器，被配置为根据显示指令显示图像；

控制器，被配置为：

使用一个或多个识别图案识别所捕捉的一个或多个图像中的所述对象；

基于所捕捉的一个或多个图像确定所述用户的手的手势，所确定的手势表明对于所识别的所述对象的触摸姿势，通过所述用户的食指沿朝向所识别的所述对象的方向移动使得所述用户的食指与所述对象的位置之间的距离在阈值内来形成所述触摸姿势；并且

更新所述显示指令使得所述电子显示器在人工现实环境中显示虚拟菜单，所述虚拟菜单处于所述人工现实环境中的所述对象的位置的阈值距离内。

13.根据权利要求12所述的NED，其中，所述控制器进一步被配置为：

执行与所述上下文菜单选项中的所述一者对应的指令；并且

14.根据权利要求12所述的NED，其中，激活所述上下文菜单选项中的所述一者的所述指示包括：与所述上下文菜单选项中的所述一者对应的二级上下文菜单。

15.根据权利要求12所述的NED，其中，所述控制器进一步被配置为：

从所述成像传感器接收额外捕捉的图像；

基于所确定的移动确定所述对象的新位置；并且

更新所述显示指令以使得基本上透明的所述电子显示器在新位置显示所述虚拟菜单，其中，显示所述虚拟菜单的所述新位置在所述增强现实环境中的所述对象的所述新位置的阈值距离内。

16.根据权利要求12所述的NED，其中，射频(RF)标识符附接至所述对象，并且其中，所述控制器进一步被配置为：

更新所述一个或多个识别图案以包括所述标识符；并且

17.根据权利要求12所述的NED，其中，标记附接至所述对象，并且其中，所述控制器进一步被配置为：

检测附接至所捕捉的图像中的所述对象的所述标记；并且

更新所述一个或多个识别图案以包括所述标记。

18.根据权利要求12所述的NED，其中，标记包括编码识别信息的图案，并且其中，所述控制器进一步被配置为：

从包括有标记的所述图案解码标识符；

更新所述一个或多个识别图案以包括所述标识符；并且

19.根据权利要求12所述的NED，其中，所述控制器进一步被配置为：

接收针对所述对象的对象去增强请求，从所述虚拟菜单中的上下文菜单选项激活所述对象去增强请求。

20.根据权利要求12所述的NED，其中，由所述控制器基于所述对象的类型选择所述虚拟菜单中的所述上下文菜单选项。