CN117616367A - 增强现实体验的策展的情境叠加 - Google Patents

增强现实体验的策展的情境叠加 Download PDF

Info

Publication number
CN117616367A
CN117616367A CN202280048161.0A CN202280048161A CN117616367A CN 117616367 A CN117616367 A CN 117616367A CN 202280048161 A CN202280048161 A CN 202280048161A CN 117616367 A CN117616367 A CN 117616367A
Authority
CN
China
Prior art keywords
display
overlay
current
contextual
contextual overlay
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280048161.0A
Other languages
English (en)
Inventor
泰贾斯·巴胡尔加
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Snap Inc
Original Assignee
Snap Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Snap Inc filed Critical Snap Inc
Publication of CN117616367A publication Critical patent/CN117616367A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/68Food, e.g. fruit or vegetables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback

Abstract

描述了用于在增强现实体验中策展和呈现包括图形元素和虚拟元素的情境叠加的示例系统、设备、介质和方法。情境叠加应用实施并控制在相机视场内视频数据的帧的捕获。图像处理系统在所捕获的视频数据的帧中检测物理环境中的一个或多个食物物品。检测食物物品可能涉及计算机视觉和机器训练的分类模型。该方法包括检索与检测到的食物物品相关联的数据,基于检索到的数据和可配置的简档来策展情境叠加,并且在显示器上呈现情境叠加。

Description

增强现实体验的策展的情境叠加
相关申请的交叉引用
本申请要求于2021年5月5日提交的美国临时申请号63/184,448的优先权,其内容通过引用完全并入本文。
技术领域
本公开中阐述的示例涉及电子设备(包括诸如眼镜的可佩戴设备)的增强现实体验的领域。更特别地,但不是通过限制的方式,本公开描述了在显示器上策展(curating)和呈现情境叠加(contextual overlay)。
背景技术
当今可用的许多类型的计算机和电子设备,诸如移动设备(例如智能手机、平板电脑和笔记本电脑)、手持设备和可佩戴设备(例如,智能眼镜、数字眼镜、头饰、头套和头戴式显示器),包括各种相机、传感器、无线收发器、输入系统和显示器。
虚拟现实(Virtual reality,VR)技术生成完整的虚拟环境,包括逼真的图像,有时呈现在VR耳机或其他头戴式显示器上。VR体验允许用户移动通过虚拟环境并与虚拟对象交互。增强现实(Augmented reality,AR)是一种将物理环境中的真实对象与虚拟对象组合并向用户显示组合的VR技术。组合显示给人的印象是虚拟对象真实地存在于环境中,尤其是当虚拟对象看起来和表现得像真实对象时。交叉现实(Cross reality,XR)通常被理解为指代包括或组合来自AR、VR和MR(mixed realit,混合现实)环境的元素的系统的总称。
图形用户界面允许用户与显示的内容(包括虚拟对象和图形元素,诸如图标、任务栏、列表框、菜单、按钮,以及选择控制元素,如光标、指针、手柄和滑块)进行交互。
附图说明
所描述的各种示例的特征将从以下具体实施方式(其中参考附图)容易理解。在描述中以及贯穿附图的几个视图,每个元素都使用附图标记。当存在多个类似的元素时,可以将单个附图标记分配给相似的元素,其中添加的小写字母是指特定的元素。
除非另有指示,否则附图中所示的各种元素均未按比例绘制。为了清楚起见,各种元素的尺寸可以被放大或缩小。几个附图描绘了一种或多种实施方式,并且仅通过示例的方式呈现,并且而不应被解释为限制。图纸中包括的是以下附图:
图1A是适于在示例情境叠加系统中使用的眼镜设备的示例硬件配置的侧视图(右);
图1B是图1A的眼镜设备的右角部分的透视、部分横截面视图,描绘了右可见光相机和电路板;
图1C是图1A的眼镜设备的示例硬件配置的侧视图(左),其示出了左可见光相机;
图1D是图1C的眼镜设备的左角部分的透视、部分横截面视图,描绘了左可见光相机和电路板;
图2A和图2B是示例情境叠加系统中利用的眼镜设备的示例硬件配置的后视图;
图3是三维场景、由左可见光相机捕获的左原始图像和由右可见光相机捕捉的右原始图像的图解描绘;
图4是包括经由各种网络连接的眼镜设备和服务器系统的示例情境叠加系统的功能框图;
图5是适于在图4的示例情境叠加系统中使用的移动设备的示例硬件配置的图解表示;
图6是在描述同步定位和映射时使用的示例环境中的用户的示意图;
图7是显示器上的示例情境叠加的透视图;
图8是列出呈现情境叠加的示例方法中的步骤的流程图;以及
图9是列出策展情境叠加的可选择元素并与之交互的示例方法中的步骤的流程图。
具体实施方式
参考用于在增强现实体验中策展和呈现包括图形元素和虚拟元素的情境叠加的示例来描述各种实施方式和细节。例如,使用计算机视觉和机器训练的分类模型,在眼镜设备捕获的视频数据中检测食物物品。相关数据从库和因特网搜索中检索。情境叠加使用检索到的数据来策展并且被呈现在显示器上。可以打开、保存或共享情境叠加的选定元素。
示例包括响应于在物理环境中利用眼镜设备检测到的物品(item)来呈现情境叠加的方法。眼镜设备包括相机系统、麦克风、扬声器、情境叠加应用、图像处理系统和显示器。该方法包括利用麦克风感知开始命令,并且作为响应,通过扬声器播放确认消息。情境叠加应用捕获摄像机视场内的视频数据的帧。图像处理系统在所捕获的视频数据的帧中检测相对于显示器的当前物品定位处的食物物品。该方法还包括检索与检测到的食物物品相关联的数据,基于检索到的数据策展情境叠加,以及在显示器上呈现情境叠加。
尽管本文参考食物物品和食物信息描述了各种系统和方法,但所描述的技术可以应用于检测物理环境中的任何类型或类别的物品,检索关于检测到的物品的数据,并在显示器上呈现情境叠加。
以下具体实施方式包括说明本公开中阐述的示例的系统、方法、技术、指令序列和计算机程序产品。为了提供对所公开的主题及其相关教导的透彻理解,包括了许多细节和示例。然而,相关领域的技术人员可以理解如何在没有这些细节的情况下应用相关教导。所公开的主题的各方面不限于所描述的具体设备、系统和方法,因为相关教导可以以各种方式应用或实践。本文使用的术语和命名法仅用于描述特定方面的目的,而不旨在进行限制。通常,众所周知的指令实例、协议、结构和技术不一定被详细示出。
如本文使用的术语“耦合”或“连接”是指任何逻辑、光学、物理或电气连接,包括链路或类似物,通过它们,由一个系统元件产生或供应的电气信号或磁信号被传递到另一个耦合或连接的系统元件。除非另有描述,否则耦合或连接的元件或设备不一定彼此直接连接,并且可以由中间部件、元件或通信介质分开,其中一个或多个可以修改、操纵或携带电气信号。术语“在…上”意指由元件直接支撑,或者由元件通过集成到该元件中或由该元件支撑的另一元件间接支撑。
术语“近侧”被用于描述位于对象或人附近、邻近或旁边的物品或物品的一部分;或者相对于物品的其他部分更近,其可以被描述为“远侧”。例如,最靠近对象的物品的一端可以被称为近端,而通常相对的一端可以称为远端。
眼镜设备、其他移动设备、耦合部件和任何其他设备(诸如任何附图中所示的那些)的取向仅以示例的方式给出,用于说明和讨论目的。在操作中,眼镜设备可以在适合眼镜设备的特定应用的任何其他方向上被定向;例如,向上、向下、侧向或任何其他取向。此外,在本文使用的范围内,任何方向术语,诸如前、后、向内、向外、朝向、左、右、横向、纵向、上、下、上部、下部、顶部、底部、侧面、水平、竖直和对角线,仅以示例的方式被使用,而不限制如本文所构造或以其他方式描述的任何相机、惯性测量单元或显示器的方向或取向。
先进的AR技术(诸如计算机视觉和对象跟踪),可以被用于产生感知丰富和身临其境的体验。计算机视觉算法从在数字图像或视频中捕获的数据中提取关于物理世界的三维数据。对象识别和跟踪算法被用于检测数字图像或视频中的对象,估计其取向或姿势,并且跟踪其随时间的移动。手和手指的实时识别和跟踪是计算机视觉领域中最具挑战性和处理密集型的任务中的一个。
术语“姿势”是指对象在特定时刻的静态定位和取向。术语“手势”是指对象(诸如手)通过一系列姿势的主动运动,有时是为了传达信号或想法。在计算机视觉和增强现实领域中,术语姿势和手势有时可以互换使用。如本文所使用的,术语“姿势”或“手势”(或其变体)旨在包括姿势和手势两者;换言之,一个术语的使用并不排除另一个术语。
示例的另外目的、优点和新颖特征将在以下描述中部分阐述,并且在检查以下和附图时,对于本领域技术人员将部分地变得显而易见,或者可以通过示例的生产或操作来了解。本主题的目的和优点可以通过所附权利要求中特别指出的方法、工具和组合来实现和获得。
现在详细参考附图中示出并在下面讨论的示例。
图1A是包括诸如触摸板181的触敏输入设备的眼镜设备100的示例硬件配置的侧视图(右)。如图所示,触摸板181可以具有清晰可见的边界,或者包括向用户提供关于触摸板181的位置和边界的反馈的凸起或其他方式触觉的边缘;可替选地,边界可能是微妙的并且不容易被看到或感觉到。在其他实施方式中,眼镜设备100可以包括左侧上的触摸板181,该触摸板181独立地或与右侧上的触摸板181结合地操作。
触摸板181的表面被配置为检测手指触摸、轻击和手势(例如,移动触摸),用以与眼镜设备在图像显示器上显示的GUI一起使用,以允许用户以直观的方式浏览和选择菜单选项,这增强并简化了用户体验。
检测触摸板181上的手指输入可以启用多种功能。例如,触摸触摸板181上的任何位置可以致使GUI在图像显示器上显示或突出显示项目(item),其可以被投影到光学组件180A、180B中的至少一个上。在触摸板181上轻击或双击可以选择项目或图标。手指以特定方向(例如,从前到后、从后到前、从上到下或向下到)滑动或轻扫可以致使项目或图标在特定方向滑动或滚动;例如,移动到下一个项目、图标、视频、图像、页面或幻灯片。在另一个方向上滑动手指可以在相反的方向上滑动或滚动;例如,移动到上一个项目、图标、视频、图像、页面或幻灯片。触摸板181实际上可以位于眼镜设备100上的任何位置。
在一个示例中,触摸板181上的单次轻击的识别的手指手势启动对光学组件180A、180B的图像显示器上呈现的图像中的图形用户界面元素的选择或按压。基于所识别的手指手势对光学组件180A、180B的图像显示器上呈现的图像的调整可以是选择或提交光学组件180A、180B的图像显示器上的图形用户界面元素以供进一步显示或执行的主要动作。
如图所示,眼镜设备100包括右可见光相机114B。如本文中进一步描述的,两个相机114A、114B从两个独立的视点捕获场景的图像信息。两个所捕获的图像可以被用于将三维显示投影到图像显示器上以用于用3D眼镜观看。
眼镜设备100包括具有图像显示器的右光学组件180B,以呈现图像,诸如深度图像。如图1A和1B所示,眼镜设备100包括右可见光相机114B。眼镜设备100可以包括多个可见光相机114A、114B,它们形成无源类型的三维相机,诸如立体相机,其右可见光相机114位于右角部分110B上。如图1C-D所示,眼镜设备100还包括左可见光相机114A。
左可见光相机和右可见光相机114A、114B对可见光范围波长敏感。可见光相机114A、114B中的每个都具有不同的向前面向的视场,视场重叠以使得能够生成三维深度图像,例如,右可见光相机114描绘了右视场111B。通常,“视场”是通过相机在空间中特定定位和取向可见的场景部分。视场111A和111B具有重叠的视场304(图3)。当可见光相机捕获图像时,视场111A、111B之外的对象或对象特征没有被记录在原始图像(例如,照片或图片)中。视场描述了可见光相机114A、114B的图像传感器在给定场景的捕获图像中拾取给定场景的电磁辐射的角度范围或程度。视场可以被表述为视锥的角度大小;即视角。视角可以水平、竖直或对角测量。
在示例配置中,一个或两个可见光相机114A、114B具有100°的视场,以及480x 480像素的分辨率。“覆盖角”描述了可见光相机114A、114B或红外相机410(见图2A)的透镜可以有效成像的角度范围。通常,相机透镜产生图像圆,其足够大以完全覆盖相机的胶片或传感器,可能包括一些渐晕(例如,与中心相比时,图像朝向边缘变暗)。如果相机透镜的覆盖角没有填满传感器,则图像圆将是可见的,通常具有朝向边缘的强渐晕,并且有效视角将被限制为覆盖角。
这种可见光相机114A、114B的示例包括高分辨率互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)图像传感器和数字VGA相机(videographic array,视频图形阵列),其能够实现480p(例如,640x 480像素)、720p、1080p或更高分辨率。其他示例包括可见光相机114A、114B,其可以以高帧速率(例如,每秒三十到六十帧,或更高)捕获高清晰度(high-definition,HD)视频,并且以1216乘1216像素(或更大)的分辨率存储记录。
眼镜设备100可以从可见光相机114A、114B捕获图像传感器数据以及由图像处理器数字化的地理定位数据,以存储在存储器中。可见光相机114A、114B在二维空间域中捕获相应的左原始图像和右原始图像,这些图像包括二维坐标系上的像素矩阵,该二维坐标系包括用于水平定位的X轴线和用于竖直定位的Y轴线。每个像素包括颜色属性值(例如,红色像素光值、绿色像素光值或蓝色像素光值);以及定位属性(例如X轴线坐标和Y轴线坐标)。
为了捕获立体图像以供稍后显示为三维投影,图像处理器412(如图4所示)可以被耦合到可见光相机114A、114B以接收和存储视觉图像信息。图像处理器412或另一处理器控制可见光相机114A、114B的操作以充当模拟人类双眼视觉的立体相机,并且可以向每个图像添加时间戳。每对图像上的时间戳允许将图像一起显示为三维投影的一部分。三维投影可以产生身临其境的、栩栩如生的体验,这在包括虚拟现实(VR)和视频游戏在内的各种情境中都是可取的。
图1B是图1A的眼镜设备100的右角部分110B的透视横截面视图,描绘了相机系统的右可见光相机114B和电路板。图1C是图1A的眼镜设备100的示例硬件配置的侧视图(左),其示出了相机系统的左可见光相机114A。图1D是图1C的眼镜设备的左角部分110A的透视横截面视图,描绘了三维相机的左可见光相机114A和电路板。
左可见光相机114A的构造和放置基本上类似于右可见光相机114,除了连接和耦合在左横向侧170A上之外。如图1B的示例中所示,眼镜设备100包括右可见光相机114B和电路板140B,电路板140B可以是柔性印刷电路板(printed circuit board,PCB)。右铰链126B将右角部分110B连接到眼镜设备100的右镜腿125B。在一些示例中,右可见光相机114B的部件、柔性PCB 140B或其他电气连接器或触点可以位于右镜腿125B或右铰链126B上。左铰链126A将左角部分110A连接到眼镜设备100的左镜腿125A。在一些示例中,左可见光相机114A的部件、柔性PCB 140A或其他电气连接器或触点可以位于左镜腿125A或左铰链126A上。
右角部分110B包括角体190和角帽,在图1B的横截面中省略了角帽。设置在右角部分110B内部的是各种互连电路板(诸如PCB或柔性PCB),其包括用于右可见光相机114B的控制器电路、一个或多个麦克风139、一个或多个扬声器191、低功率无线电路系统(例如,用于经由蓝牙TM的无线短程网络通信),高速无线电路系统(例如用于经由Wi-Fi的无线局域网通信)。
右可见光相机114B被耦合到柔性PCB 140B或设置在柔性PCB 140B上,并由可见光相机盖透镜覆盖,该盖透镜通过在框架105中形成的一个或多个开口对准。例如,如图2A所示,框架105的右轮缘107B被连接到右角部分110B,并且包括用于可见光相机盖透镜的一个或多个开口。框架105包括前侧,该前侧被配置为面向外部并且远离用户的眼睛。用于可见光相机盖透镜的开口被形成在框架105的前侧或面向外部的侧面上并穿过其。在该示例中,右可见光相机114B具有面向外部的视场111B(如图3所示),其具有与眼镜设备100的用户的右眼相关的视线或视角。可见光相机盖透镜也可以被粘附到右角部分110B的前侧或面向外部的表面,其中开口被形成有面向外部的覆盖角,但在不同的朝外方向上。耦合也可以经由介入的部件是间接的。
如图1B所示,柔性PCB 140B被设置在右角部分110B内部,并且被耦合到容纳在右角部分110B中的一个或多个其他部件。尽管示出为被形成在右角部分110B的电路板上,但是右可见光相机114B可以被形成在左角部分110A的电路板、镜腿125A、125B或框架105上。
图2A和图2B是包括两种不同类型的图像显示器的眼镜设备100的示例硬件配置的从后面看的透视图。眼镜设备100被定尺寸和成形为构造成供用户佩戴的形式;眼镜的形式在该示例中被示出。眼镜设备100可以采取其他形式,并且可以包含其他类型的框架;例如,头套、头戴式耳机或头盔。
在眼镜示例中,眼镜设备100包括框架105,框架105包括经由适于由用户的鼻子支撑的桥接件106被连接到右轮缘107B的左轮缘107A。左轮缘和右轮缘107A、107B包括各自的孔175A、175B,其保持各自的光学元件180A、180B,诸如透镜和显示设备。如本文所用,术语“透镜”意指包括透明或半透明的玻璃或塑料片,这些玻璃或塑料片具有弯曲或平坦的表面,这些表面致使光会聚或发散,或者致使很少或没有会聚或发散。
图2A是眼镜设备100的示例硬件配置,其中右角部分110B支撑麦克风139和扬声器191。麦克风139包括将声音转换成对应的电气音频信号的换能器。如图所示,在该示例中,麦克风139被定位成具有向内朝向佩戴者的开口,以便于接收声波,诸如由佩戴者说出的口头命令。可以实施附加的或不同定向的开口。在其他示例配置中,眼镜设备100被耦合到一个或多个麦克风139,麦克风被配置为一起操作或独立地操作,并且被定位在眼镜设备100上的各个位置。
扬声器191包括将电气音频信号转换成对应声音的电声换能器。扬声器191由处理器422、432中的一个控制或由音频处理器413(图4)控制。该示例中的扬声器191包括一系列长方形孔,如图所示,这些孔面向内部以将声音引导向佩戴者。可以实施附加的或不同定向的孔。在其他示例配置中,眼镜设备100被耦合到一个或多个扬声器191,扬声器被配置为一起操作(例如,在立体声中,在产生环绕声的区域中)或独立地操作,并且被定位在眼镜设备100上的各个位置。例如,一个或多个扬声器191可以被结合到眼镜设备100的框架105、镜腿125或角部部分110A、110B中。
尽管在图2A和图2B中示出为具有两个光学元件180A、180B,但根据眼镜设备100的应用或预期用户,眼镜设备100可以包括其他布置,诸如单个光学元件(或者其可以不包括任何光学元件180A、180B)。如进一步所示,眼镜设备100包括与框架105的左横向侧170A相邻的左角部分110A和与框架105右横向侧170B相邻的右角部分110B。角部110A、110B可以在各自侧面170A、170B上被集成到框架105中(如图所示),或者实施为在各自侧面170A、170B上附接到框架105的独立部件。可替选地,角部110A、110B可以被集成到附接到框架105的镜腿(未示出)中。
在一个示例中,光学组件180A、180B的图像显示器包括集成图像显示器。如图2A所示,每个光学组件180A、180B包括合适的显示矩阵177,诸如液晶显示器(liquid crystaldisplay,LCD)、有机发光二极管(organic light-emitting diode,OLED)显示器或任何其他这种显示器。每个光学组件180A、180B还包括一个或多个光学层176,其可以包括透镜、光学涂层、棱镜、反射镜、波导、光学带以及任意组合的其他光学部件。光学层176A、176B、…176N(在图2A和本文中示出为176A-N)可以包括棱镜,该棱镜具有合适的尺寸和配置并且包括用于接收来自显示矩阵的光的第一表面和用于将光发射到用户眼睛的第二表面。光学层176A-N的棱镜在形成在左轮缘和右轮缘107A、107B中的各自的孔175A、175B的全部或至少一部分上延伸,以允许当用户的眼睛通过对应的左轮缘和右轮缘107A、107B观看时用户看到棱镜的第二表面。光学层176A-N的棱镜的第一表面从框架105朝上面向,并且显示矩阵177覆盖棱镜,使得由显示矩阵177发射的光子和光撞击第一表面。棱镜被定尺寸和成形为使得光在棱镜内被折射并且通过光学层176A-N的棱镜的第二表面被引导向用户的眼睛。在这方面,光学层176A-N的棱镜的第二表面可以是凸面,以将光引导向眼睛的中心。棱镜可以可选地被定尺寸和成形为放大由显示矩阵177投影的图像,并且光行进通过棱镜,使得从第二表面观看的图像在一个或多个维度上大于从显示矩阵177发射的图像。
在一个示例中,光学层176A-N可以包括透明的LCD层(保持透镜打开),除非并且直到施加使该层不透明(关闭或阻挡透镜)的电压为止。眼镜设备100上的图像处理器412可以执行编程以将电压施加到LCD层,以便产生主动式快门系统,使得眼镜设备100适合于在显示为三维投影时观看视觉内容。除了LCD之外的技术可以被用于主动式快门模式,包括响应于电压或另一类型的输入的其他类型的反应层。
在另一示例中,光学组件180A、180B的图像显示设备包括如图2B所示的投影图像显示器。每个光学组件180A、180B包括激光投影仪150,激光投影仪是使用扫描镜或电流计的三色激光投影仪。在操作期间,光源(诸如激光投影仪150)被设置在眼镜设备100的镜腿125A、125B中的一个中或其上。在该示例中,光学组件180B包括一个或多个光学带155A、155B、…155N(如图2B中的155A-N所示),它们间隔开并且跨越每个光学组件180A、180B的透镜的宽度或者跨越透镜的前表面和后表面之间的透镜的深度。
当激光投影仪150投影的光子行进穿过每个光学组件180A、180B的透镜时,光子遇到光学带155A-N。当特定光子遇到特定的光带时,该光子要么被重定向朝向用户的眼睛,要么其传递到下一个光学带。激光投影仪150的调制和光学带的调制的组合可以控制特定的光子或光束。在示例中,处理器通过启动机械、声学或电磁信号来控制光学带155A-N。尽管示出为具有两个光学组件180A、180B,但根据眼镜设备100的应用或预期用户,眼镜设备100可以包括其他布置,诸如单个或三个光学组件,或者每个光学组件180A、180B可以布置不同的布置。
如图2A和图2B进一步所示,眼镜设备100包括与框架105的左横向侧170A相邻的左角部分110A和与框架105右横向侧170B相邻的右角部分110B。角部110A、110B可以在各自的横向侧170A、170B上被集成到框架105中(如图所示),或者实施为在各自侧面170A、170B上附接到框架105的独立部件。可替选地,角部110A、110B可以被集成到附接到框架105的镜腿125A、125B中。
在另一示例中,图2B所示的眼镜设备100可以包括两个投影仪,左投影仪(未示出)和右投影仪150。左光学组件180A可以包括左显示矩阵(未示出)或左组光学带(未示示出),其被配置为与来自左投影仪的光相互作用。类似地,右光学组件180B可以包括右显示矩阵(未示出)或右组光学带155A,155B,…155N,其被配置为与来自右投影仪150的光相互作用。在该示例中,眼镜设备100包括左显示器和右显示器。
图3是三维场景306、由左可见光相机114A捕获的左原始图像302A和由右可见光相机114B捕获的右原始图像302B的图解描绘。如图所示,左视场111A可以与右视场111B重叠。重叠视场304表示由两个相机114A、114B捕获的图像的那部分。当提及视场时,术语“重叠”意指生成的原始图像中的像素矩阵重叠百分之三十(30%)或更多。“基本上重叠”意指生成的原始图像中的像素矩阵—或场景的红外图像中的像素矩阵—重叠百分之五十(50%)或更多。如本文所述,两个原始图像302A、302B可以被处理为包括时间戳,该时间戳允许将图像一起显示为三维投影的一部分。
对于立体图像的捕获,如图3所示,在给定时刻捕获真实场景306的一对原始红色、绿色和蓝色(red,green,and blue,RGB)图像—由左相机114A捕获的左原始图像302A和由右相机114B捕获的右原始图像302B。当(例如,由图像处理器412)处理该对原始图像302A、302B时,生成深度图像。生成的深度图像可以在眼镜设备的光学组件180A、180B上、在另一显示器(例如,移动设备401上的图像显示器580)上或在屏幕上观看。
生成的深度图像在三维空间域中,并且可以包括三维位置坐标系上的顶点矩阵,该坐标系包括用于水平定位(例如长度)的X轴线、用于竖直定位(例如高度)的Y轴线和用于深度(例如距离)的Z轴线。每个顶点可以包括颜色属性(例如,红色像素光值、绿色像素光值或蓝色像素光值);定位属性(例如,X位置坐标、Y位置坐标和Z位置坐标);纹理属性;反射率属性;或其组合。纹理属性量化深度图像的感知纹理,诸如深度图像的顶点区域中的颜色或强度的空间排列。
在一个示例中,情境叠加系统400(图4)包括眼镜设备100,该眼镜设备包括框架105和从框架105的左横向侧170A延伸的左镜腿125A以及从框架105的右横向侧170B延伸的右镜腿125B。眼镜设备100还可以包括具有重叠视场的至少两个可见光相机114A、114B。在一个示例中,眼镜设备100包括具有左视场111A的左可见光相机114A,如图3所示。左相机114A被连接到框架105或左镜腿125A以从场景306的左侧捕获左原始图像302A。眼镜设备100还包括具有右视场111B的右可见光相机114B。右相机114B被连接到框架105或右镜腿125B以从场景306的右侧捕获右原始图像302B。
图4是包括眼镜设备100)、移动设备401和经由诸如因特网的各种网络495连接的服务器系统498的示例情境叠加系统400的功能框图。如图所示,情境叠加系统400包括眼镜设备100和移动设备401之间的低功率无线连接425和高速无线连接437。
如图4所示,眼镜设备100包括一个或多个可见光相机114A、114B,其捕获静止图像、视频图像或者静止图像和视频图像两者,如本文所述。相机114A、114B可以具有对高速电路系统430的直接存储器访问(direct memory access,DMA),并且用作立体相机。相机114A、114B可以被用于捕获初始深度图像,该初始深度图像可以被渲染成三维(three-dimensional,3D)模型,该三维模型是红色、绿色和蓝色(RGB)成像场景的纹理映射图像。设备100还可以包括深度传感器,该深度传感器使用红外信号来估计对象相对于设备100的定位。在一些示例中,深度传感器包括一个或多个红外发射器和一个或多个红外相机410。
眼镜设备100还包括每个光学组件180A、180B的两个图像显示器(一个与左侧170A相关联以及一个与右侧170B相关联)。眼镜设备100还包括图像显示驱动器442、图像处理器412、低功率电路系统420和高速电路系统430。每个光学组件180A、180B的图像显示器用于呈现图像,包括静止图像、视频图像或者静止和视频图像两者。图像显示驱动器442被耦合到每个光学组件180A、180B的图像显示器,以便控制图像的显示。
眼镜设备100的图4中所示的部件位于一个或多个电路板上,例如位于轮缘或镜腿中的印刷电路板(PCB)或柔性印刷电路(flexible printed circuit,FPC)。可替换地或附加地,所描绘的部件可以位于眼镜设备100的角部、框架、铰链或桥接件中。左可见光相机和右可见光相机114A、114B可以包括数字相机元件,诸如互补金属氧化物半导体(CMOS)图像传感器、电荷耦合器件、透镜或任何其他相应的可见光或光捕获元件,其可以被用于捕获数据,包括具有未知对象的场景的静止图像或视频。
如图4所示,高速电路系统430包括高速处理器432、存储器434和高速无线电路系统436。在示例中,图像显示驱动器442被耦合到高速电路系统430并且由高速处理器432操作,以便驱动每个光学组件180A、180B的左图像显示器和右图像显示器。高速处理器432可以是能够管理眼镜设备100所需的任何通用计算系统的高速通信和操作的任何处理器。高速处理器432包括使用高速无线电路系统436来管理到无线局域网(wireless local areanetwork,WLAN)的高速无线连接437上的高速数据传递所需的处理资源。
在一些示例中,高速处理器432执行操作系统,诸如LINUX操作系统或眼镜设备100的其他这种操作系统,并且该操作系统被存储在存储器434中以供执行。除了任何其他职责之外,高速处理器432执行眼镜设备100的软件架构,该软件架构被用于管理与高速无线电路系统436的数据传递。在一些示例中,高速无线电路系统436被配置为实施电气与电子工程师协会(Institute of Electrical and Electronic Engineers,IEEE)802.11通信标准,在本文中也被称为Wi-Fi。在其他示例中,可以通过高速无线电路系统436来实施其他高速通信标准。
低功率电路系统420包括低功率处理器422和低功率无线电路系统424。眼镜设备100的低功率无线电路系统424和高速无线电路系统436可以包括短程收发器(蓝牙TM或蓝牙低能耗(Bluetooth Low-Energy,BLE))和无线广域网、局域网或广域网收发器(例如,蜂窝或Wi-Fi)。移动设备401(包括经由低功率无线连接425和高速无线连接437进行通信的收发器)可以使用眼镜设备100的体系结构的细节来实施,网络495的其他元件也可以如此。
存储器434包括能够存储各种数据和应用(除其他外,包括由左可见光相机和右可见光相机114A、114B,一个或多个红外相机410、图像处理器412生成的相机数据,以及由图像显示驱动器442在每个光学组件180A、180B的图像显示器上生成用于显示的图像)的任何存储设备。尽管存储器434被示出为与高速电路系统430集成,但是在其他示例中,存储器434可以是眼镜设备100的独立的、单独的元件。在某些这种示例中,电气路由线路可以提供通过包括高速处理器432的芯片从图像处理器412或低功率处理器422到存储器434的连接。在其他示例中,高速处理器432可以管理存储器434的寻址,使得低功率处理器422将在需要涉及存储器434的读取或写入操作的任何时间启动高速处理器432。
如图4所示,眼镜设备100的各种元件可以被耦合到低功率电路系统420、高速电路系统430或两者。例如,红外相机410(在一些实施方式中包括红外发射器)、用户输入设备491(例如,触摸板181)、一个或多个麦克风139和IMU 472可以被耦合到低功率电路系统420、高速电路系统430或两者。
如图5所示,移动设备401的CPU 530可以被耦合到相机系统570、移动显示驱动器582、用户输入层591和存储器540A。
服务器系统498可以是作为服务或网络计算系统的一部分的一个或多个计算设备,例如,包括处理器、存储器和网络通信接口,以通过网络495与眼镜设备100和移动设备401通信。
眼镜设备100的输出部件包括视觉元件,诸如与如图2A和图2B中所述的每个透镜或光学组件180A、180B相关联的左图像显示器和右图像显示器(例如,诸如液晶显示器(LCD)、等离子显示器(plasma display panel,PDP)、发光二极管(light emitting diode,LED)显示器、投影仪或波导之类的显示器)。眼镜设备100可以包括面向用户的指示器(例如,LED、扬声器191或振动致动器),或面向外部的信号(例如,LED、扬声器191)。每个光学组件180A、180B的图像显示器由图像显示驱动器442驱动。在一些示例配置中,眼镜设备100的输出部件还包括附加指示器,诸如可听元件(例如扬声器191)、触觉部件(例如致动器,诸如振动马达,以产生触觉反馈)和其他信号发生器。例如,设备100可以包括面向用户的一组指示器和面向外部的一组信号。面向用户的一组指示器被配置为被设备100的用户看到或以其他方式感测到。例如,设备100可以包括被定位成使得用户能够看到其的LED显示器、被定位成产生用户能够听到的声音的一个或多个扬声器191、或者提供用户能够感觉到的触觉反馈的致动器。面向外部的一组信号被配置为被设备100附近的观察者看到或以其他方式感测到。类似地,设备100可以包括LED、扬声器191或致动器,其被配置和定位为被观察者感测到。
眼镜设备100的输入部件可以包括字母数字输入部件(例如,被配置为接收字母数字输入的触摸屏或触摸板181、光电键盘或其他字母数字配置的元件)、基于指针的输入组件(例如,鼠标、触摸板181,轨迹球、操纵杆、运动传感器或其他指向仪器),触觉输入部件(例如,按钮开关、感测触摸或触摸手势的位置、力或者位置和力的触摸屏或触摸板181,或者其他触觉配置的元件)和音频输入部件(例如麦克风139)和类似物。移动设备401和服务器系统498可以包括字母数字、基于指针、触觉、音频和其他输入部件。
在一些示例中,眼镜设备100包括被称为惯性测量单元472的运动感测部件的集合。运动感测部件可以是具有微观运动零件的微电子机械系统(micro-electro-mechanical system,MEMS),该微观运动零件通常小到足以成为微芯片的一部分。在一些示例配置中,惯性测量单元(inertial measurement unit,IMU)472包括加速度计、陀螺仪和磁力计。加速度计感测相对于三个正交轴线(x,y,z)的设备100的线性加速度(包括由于重力引起的加速度)。陀螺仪感测设备100围绕三个旋转轴线(俯仰、滚转、偏航)的角速度。加速度计和陀螺仪一起可以提供关于设备相对于六个轴线(x、y、z、俯仰、滚转、偏航)的定位、取向和运动数据。磁力计(如果存在的话)感测设备100相对于磁北的航向。设备100的定位可以由位置传感器(诸如GPS单元)、产生相对定位坐标的一个或多个收发器、高度传感器或气压计以及其他取向传感器来确定。这种定位系统坐标也可以通过无线连接425、437经由低功率无线电路系统424或高速无线电路系统436从移动设备401接收。
IMU 472可以包括数字运动处理器或编程,或者与之协作,该数字运动处理器或编程从部件收集原始数据,并计算关于设备100的定位、取向和运动的多个有用值。例如,可以对从加速度计收集的加速度数据进行积分,以获得相对于每个轴线(x,y,z)的速度;并且再次积分以获得设备100的定位(在线性坐标x、y和z中)。可以对来自陀螺仪的角速度数据进行积分以获得设备100的定位(在球坐标中)。用于计算这些有用值的编程可以被存储在存储器434中,并且由眼镜设备100的高速处理器432执行。
眼镜设备100可以可选地包括附加的外围传感器,诸如生物特征识别传感器、特殊传感器,或与眼镜设备100集成的显示元件。例如,外围设备元件可以包括任何I/O部件,包括输出部件、运动部件、定位部件或本文所述的任何其他这种元件。例如,生物特征识别传感器可以包括检测表情(例如,手部表情、面部表情、声音表情、身体姿势或眼睛跟踪)、测量生物信号(例如,血压、心率、体温、汗液或脑电波)、或者识别人(例如,基于语音、视网膜、面部特征、指纹或诸如脑电图数据的电生物信号的识别)及诸如此类的部件。
移动设备401可以是智能手机、平板电脑、笔记本电脑、接入点或能够使用低功率无线连接425和高速无线连接437与眼镜设备100连接的任何其他这种设备。移动设备401被连接到服务器系统498和网络495。网络495可以包括有线和无线连接的任何组合。
情境叠加系统400(如图4所示)包括通过网络耦合到眼镜设备100的计算设备,诸如移动设备401。情境叠加系统400包括用于存储指令的存储器和用于执行指令的处理器。通过处理器432执行情境叠加系统400的指令将眼镜设备100配置为与移动设备401协作。情境叠加系统400可以利用眼镜设备100的存储器434或移动设备401的存储器元件540A、540B、540C(图5)。此外,情境叠加系统400可以利用眼镜设备100的处理器元件432、422或移动设备401的中央处理单元(central processing unit,CPU)540(图5)。另外,情境叠加系统400还可以利用服务器系统498的存储器和处理器元件。在该方面中,情境叠加系统400的存储器和处理功能可以跨眼镜设备100、移动设备401和服务器系统498的处理器和存储器共享或分布。
在一些示例实施方式中,如本文所述,存储器434包括或被耦合到食物数据库480和食谱库482。
在一些示例实施方式中,存储器434包括情境叠加应用910、定位系统915、图像处理系统920和语音命令模块925。在其中相机正在捕获视频数据900的帧的情境叠加系统400中,情境叠加应用910将处理器432配置为检测一个或多个物品,检索与检测到的物品相关联的数据850,并且在显示器上呈现情境叠加725。定位系统915将处理器432配置为获得定位数据,用于在确定眼镜设备100相对于物理环境的定位时使用。定位数据可以从一系列图像、IMU单元472、GPS单元473或其组合中导出。图像处理系统920将处理器432配置为与图像显示驱动器442和图像处理器412协作在光学组件180A、180B的显示器上呈现情境叠加725。语音命令模块925将处理器432配置为利用麦克风感知命令,通过扬声器播放消息。
图5是示例移动设备401的高级功能框图。移动设备401包括闪存540A,该闪存存储要由CPU 540执行以执行本文所述功能的全部或子集的编程。
移动设备401可以包括相机570,相机570包括至少两个可见光相机(具有重叠视场的第一可见光相机和第二可见光相机)或具有基本上重叠视场的至少一个可见光相机和深度传感器。闪存540A还可以包括经由相机570生成的多个图像或视频。
如图所示,移动设备401包括图像显示器580、控制图像显示器580的移动显示驱动器582以及显示控制器584。在图5的示例中,图像显示器580包括用户输入层591(例如,触摸屏),该用户输入层被分层放置在图像显示器580所使用的屏幕的顶部上或以其他方式集成到该屏幕中。
可以被使用的触摸屏型移动设备的示例包括(但不限于)智能手机、个人数字助理(personal digital assistant,PDA)、平板电脑、笔记本电脑或其他便携式设备。然而,触摸屏型设备的结构和操作通过示例的方式被提供;如本文所描述的主题技术不旨在限于此。出于该讨论的目的,图5因此提供了具有用户界面的示例移动设备401的框图说明,该用户界面包括用于接收输入(通过触摸、多点触摸或手势和类似方式,通过手、触笔或其他工具)的触摸屏输入层591和用于显示内容的图像显示器580。
如图5所示,移动设备401包括至少一个数字收发器(XCVR)510,示出为WWAN XCVR,用于经由广域无线移动通信网络进行数字无线通信。移动设备401还包括附加的数字或模拟收发器,诸如用于短程网络通信的短程收发器(XCVR)520,诸如经由NFC、VLC、DECT、ZigBee、蓝牙TM,或Wi-Fi。例如,短程XCVR520可以采取与在无线局域网中实施的一个或多个标准通信协议(诸如IEEE 802.11下的Wi-Fi标准中的一个)兼容的类型的任何可用的双向无线局域网(WLAN)收发器的形式。
为了生成用于移动设备401的定位的位置坐标,移动设备401可以包括全球定位系统(global positioning system,GPS)接收器。可替换地或附加地,移动设备401可以利用短程XCVR 520和WWAN XCVR 510中的一个或两者来生成用于定位的位置坐标。例如,基于蜂窝网络、Wi-Fi或蓝牙TM的定位系统可以生成非常精确的位置坐标,特别是在组合使用时。这种位置坐标可以经由XCVR 510、520通过一个或多个网络连接被发送到眼镜设备。
在一些示例中,客户端设备401包括被称为惯性测量单元(IMU)572的运动感测部件的集合,用于感测客户端设备401的定位、取向和运动。运动感测部件可以是具有微观运动零件的微电子机械系统(MEMS),该微观运动零件通常小到足以成为微芯片的一部分。在一些示例配置中,惯性测量单元(IMU)572包括加速度计、陀螺仪和磁力计。加速度计感测相对于三个正交轴线(x,y,z)的客户端设备401的线性加速度(包括由于重力引起的加速度)。陀螺仪感测客户端设备401关于三个旋转轴线(俯仰、滚转、偏航)的角速度。加速度计和陀螺仪一起可以提供关于设备相对于六个轴线(x、y、z、俯仰、滚转、偏航)的定位、取位和运动数据。磁力计(如果存在)感测客户端设备401相对于磁北的航向。
IMU 572可以包括数字运动处理器或编程,或者与之协作,该数字运动处理器或编程从部件收集原始数据,并计算关于客户端设备401的定位、取向和运动的多个有用值。例如,可以对从加速度计收集的加速度数据进行积分,以获得相对于每个轴线(x,y,z)的速度;并且再次积分以获得客户端设备401的定位(在线性坐标x、y和z中)。可以对来自陀螺仪的角速度数据进行积分以获得客户端设备401的定位(在球坐标中)。用于计算这些有用值的编程可以被存储在一个或多个存储器元件540A、540B、540C中,并且由客户端设备401的CPU 540执行。
收发器510、520(即,网络通信接口)符合现代移动网络所利用的各种数字无线通信标准中的一个或多个。WWAN收发器510的示例包括(但不限于)被配置为根据码分多址(Code Division Multiple Access,CDMA)和第三代合作伙伴计划(3rd GenerationPartnership Project,3GPP)网络技术(包括例如且不限于3GPP类型2(或3GPP2)和LTE,有时被称为“4G”)操作的收发器。例如,收发器510、520提供信息(包括数字化音频信号、静止图像和视频信号、用于显示的网页信息以及与网络相关的输入,以及到/来自移动设备401的各种类型的移动消息通信)的双向无线通信。
移动设备401还包括用作中央处理单元(CPU)的微处理器;示出为图4中的CPU540。处理器是具有被构造和布置为执行一个或多个处理功能(典型地,各种数据处理功能)的元件的电路。尽管可以使用分立的逻辑部件,但是示例利用形成可编程CPU的部件。微处理器例如包括一个或多个集成电路(integrated circuit,IC)芯片,该集成电路芯片包含电子元件以执行CPU的功能。例如,CPU 540可以基于任何已知或可用的微处理器架构,诸如使用ARM架构的精简指令集计算机(Reduced Instruction Set Computing,RISC),如当今在移动设备和其他便携式电子设备中常用的。当然,处理器电路系统的其他布置可以被用于在智能手机、笔记本电脑和平板电脑中形成CPU 540或处理器硬件。
CPU 540通过将移动设备401配置为执行各种操作,例如,根据CPU 540可执行的指令或编程,来用作移动设备401的可编程主机控制器。例如,这种操作可以包括移动设备的各种一般操作,以及与针对移动设备上的应用的编程相关的操作。尽管可以通过使用硬连线逻辑来配置处理器,但是移动设备中的典型处理器是通过执行编程配置的通用处理电路。
移动设备401包括用于存储编程和数据的存储器或存储系统。在该示例中,根据需要,存储器系统可以包括闪存540A、随机存取存储器(random-access memory,RAM)540B和其他存储器部件540C。RAM 540B用作由CPU 540正在处理的指令和数据的短期存储,例如用作工作数据处理存储器。闪存540A典型地提供较长期的存储。
因此,在移动设备401的示例中,闪存540A被用于存储由CPU 540执行的编程或指令。根据设备的类型,移动设备401存储并运行移动操作系统,通过该移动操作系统执行特定应用。移动操作系统的示例包括Google Android、Apple iOS(用于iPhone或iPad设备)、Windows Mobile、Amazon Fire OS、RIM BlackBerry OS或类似物。
眼镜设备100内的处理器432可以构建眼镜设备100周围环境的地图,确定眼镜设备在映射的环境内的位置,并且确定眼镜设备与映射的环境中的一个或多个对象的相对定位。处理器432可以使用应用于从一个或多个传感器接收到的数据的同步定位与地图构建(simultaneous localization and mapping,SLAM)算法来构建地图并确定位置和定位信息。传感器数据包括从相机114A、114B中的一个或两个接收到的图像、从激光测距仪接收到的一个或多个距离、从GPS单元473接收到的定位信息、从IMU 572接收到的运动和加速度数据、或者来自这种传感器或来自其他传感器(提供在确定定位信息时有用的数据)的数据的组合。在增强现实的情境中,SLAM算法被用于构建和更新环境的地图,同时同步跟踪和更新设备(或用户)在映射的环境内的位置。可以使用各种统计方法(诸如粒子滤波器、卡尔曼滤波器、扩展卡尔曼滤波器和协方差交集)来近似数学解。在包括以高帧速率(例如,每秒30帧)捕获视频的高清晰度(HD)摄像机的系统中,SLAM算法至少与帧速率一样频繁地更新地图和对象的位置;换句话说,每秒计算和更新映射和定位三十次。
传感器数据包括从一个或两个相机114A、114B接收到的一个或多个图像、从激光测距仪接收到的一个或多个距离、从GPS单元473接收到的定位信息、从IMU 472接收到的运动和加速度数据、或者来自这种传感器或来自其他传感器(提供在确定定位信息时有用的数据)的数据的组合。
图6描绘了示例物理环境600以及当使用SLAM应用和其他类型的跟踪应用(例如自然特征跟踪(natural feature tracking,NFT))时有用的元素。眼镜设备100的用户602存在于示例物理环境600(在图6中,该物理环境是内部房间)中。眼镜设备100的处理器432使用所捕获的图像来确定其相对于环境600内的一个或多个对象604的定位,使用环境600的坐标系(x,y,z)来构建环境600的地图,并且确定其在坐标系内的定位。另外,处理器432通过使用与单个对象604a相关联的两个或多个位置点(例如,三个位置点606a、606b和606c),或者通过使用与两个或更多个对象604a、604b、604c相关联的一个或多个位置点606,来确定眼镜设备100在环境内的头部姿态(滚转、俯仰和偏航)。眼镜设备100的处理器432可以将虚拟对象608(诸如图6中所示的钥匙)定位在环境600内,用于在增强现实体验期间观看。
定位系统915在一些示例中是与环境600中的虚拟对象608相关联的虚拟标记610a。在增强现实中,标记被注册在环境中的位置,以协助设备完成跟踪和更新用户、设备和对象(虚拟和物理)在映射环境中的位置的任务。标记有时被注册到高对比度的物理对象,诸如相对暗的对象,诸如安装在浅色墙上的带框图片604a,以协助相机和其他传感器完成检测标记的任务。标记可以被预先分配,或者可以在进入环境时由眼镜设备100分配。
标记可以与信息一起编码或以其他方式链接到信息。标记可能包括定位信息、物理代码(诸如条形码或QR码;或用户可见或隐藏)或者其组合。与标记相关联的一组数据被存储在眼镜设备100的存储器434中。该组数据包括关于标记610a、标记的定位(位置和取向)、一个或多个虚拟对象或其组合的信息。标记定位可以包括一个或多个标记地标616a的三维坐标,诸如图6所示的大致矩形标记610a的角。标记位置可以相对于真实世界的地理坐标、标记坐标系、眼镜设备100的定位或其他坐标系来表示。与标记610a相关联的一个或多个虚拟对象可以包括各种材料中的任何一种,包括静止图像、视频、音频、触觉反馈、可执行应用、交互式用户界面和体验以及这些材料的组合或序列。能够被存储在存储器中并在标记610a被遇到或与所分配的标记相关联时被检索的任何类型的内容在该情境中都可以被分类为虚拟对象。例如,图6中所示的钥匙608是在标记位置处显示为静止图像(2D或3D)的虚拟对象。
在一个示例中,标记610a可以在存储器中被注册为位于物理对象604a(例如,图6中所示的带框艺术品)附近并且与物理对象604a相关联。在另一示例中,标记可以在存储器中被注册为相对于眼镜设备100的特定定位。
图8是列出在眼镜设备100的显示器180B上呈现情境叠加725的示例方法中的步骤的流程图800。尽管参考本文描述的眼镜设备100描述了这些步骤,但是本领域技术人员从本文的描述中将理解所描述的步骤的其他实施方式(对于其他类型的设备)。示出和描述的步骤中的一个或多个可以同步、以一系列、以除示出和描述之外的顺序、或者结合附加步骤来执行。一些步骤可以省略,或者在一些应用中可以被重复。
图8中的框802描述了利用眼镜设备100的麦克风139感知开始命令861的示例步骤。该示例中的眼镜设备100包括麦克风139、相机114B、显示器180B、扬声器191和情境叠加应用910。可听开始命令861的声音由麦克风139感知,麦克风139将声波转换成对应的电气信号,如本文所述。情境叠加应用910可以被配置为感知多个预定义的或示例开始命令861(诸如“请用一些晚餐想法启发我”、“向我展示食谱”或“查找营养数据”)并据此采取行动。
一些示例实施方式还包括唤醒命令(例如,“请呈现情境”),该唤醒命令将激活情境叠加应用910,使其可操作并准备好接收开始命令861。在该方面中,计算资源被保存,直到接收到唤醒命令为止。
图8中的框804描述了响应于感知到开始命令861而通过扬声器191播放确认消息871的示例步骤。情境叠加应用910可以被配置为播放多个预定义的或示例确认消息871,包括声音、嘟嘟声或者诸如“当然。我看到蔬菜了。让我来找一些食谱。给我一点时间”、“正在寻找食谱”或“正在搜索营养数据”的消息。确认消息871可以使用本文所述的音频处理器413和一个或多个扬声器191来播放,或者作为文本呈现在显示器180B上,或者两者。
图8中的框806描述了捕获眼镜设备100的相机114B的视场904内的视频数据900的帧的示例步骤。在一些实施方式中,眼镜设备100包括一个或多个相机114A、114B,如本文所述,用于捕获静止图像或视频数据900的帧。该示例中的眼镜设备100包括图像处理系统920和一个或多个显示器180A、180B。例如,如图7所示,眼镜设备100包括半透明图像显示器180B,如本文所述,该半透明图像显示器可以包括半透明透镜层和显示矩阵层,该显示矩阵层被配置为在眼镜设备的透镜上呈现图像。图形和虚拟元素710、720、711(参见图7)是情境叠加725的一部分,该情境叠加作为相对于周围物理环境600的叠加呈现在显示器180B上。如图所示,该效果允许观看者看到所呈现的情境叠加725并与之交互,同时周围环境600也通过显示器180B保持可见。
在一些实施方式中,当佩戴者移动通过物理环境600时,眼镜设备100的高速处理器432存储利用相机114B捕获的视频数据900的帧。如本文所述并如图7所示,相机114B典型地具有相机视场904,其可以捕获超出显示器180B的限制的环境的图像和视频。
在一些实施方式中,相机系统包括一个或多个高分辨率数字相机,该相机配备有CMOS图像传感器,能够以相对高的帧速率(例如,每秒30帧或更多)捕获高清晰度静止图像和高清晰度视频。数字视频的每一帧包括图像中多个像素的深度信息。在该方面中,相机系统通过捕获物理环境的详细输入图像而用作高清晰度扫描仪。在一些实施方式中,相机系统包括一对高分辨率数字相机114A、114B,它们被耦合到眼镜设备100并且间隔开以获取左相机原始图像和右相机原始图像,如本文所述。当组合时,原始图像形成包括三维像素位置的矩阵的输入图像。在一些实施方式中,在框806处,该示例方法包括将所捕获的视频数据900的帧至少暂时存储在眼镜设备100上的存储器434中,使得这些帧可用于分析。
框808描述了利用图像处理系统920在所捕获的视频数据900的帧中检测食物物品650的示例步骤。在一些示例实施方式中,图像处理系统920分析所捕获的视频数据900的帧中的像素级数据,以确定该帧是否包括一个或多个食物物品650。检测食物物品650的过程包括检测相对于显示器180B(或者可替选地,相对于另一已知定位,诸如眼镜位置840)的三维坐标中的当前食物物品定位705,如图所示。
图7是在诸如户外市场或杂货店的物理环境600中的桌子或架子上的示例食物物品650A、650B、650C的透视图。如图所示,每个检测到的食物物品650A、650B、650C分别与检测到的当前物品定位705A、705B、705C相关联。在该示例中,如图所示,情境叠加应用910沿着检测到的食物物品650A、650B、650C的上边缘检测并设置当前物品定位705A、705B、705C。在其他情境中,物品定位750可以设置在检测到的食物物品650的中心附近,或者设置在相对于检测到的食物物品650的尺寸和形状的一些其他预定义或可配置的定位处。
本领域技术人员将理解,当眼镜设备100移动通过物理环境600时,检测食物物品650和定位705的过程随着时间的推移连续地发生。随着时间的推移,可以在相机114B的视场904内检测到另外的食物物品650,而停止检测其他食物物品。此外,一个或多个检测到的食物物品650可以被移动到物理环境中的新位置,并且然后在不同的当前物品定位705处被检测到。在该方面中,检测过程正在进行并且基本上连续的,其中图像处理系统920分析所捕获的视频数据900的帧中的像素级数据,以检测后续物品定位处的后续食物物品。
在一些实施方式中,在所捕获的视频数据900的帧中检测食物物品650的框808处的过程涉及使用计算机视觉系统和机器学习算法来将关于一个或多个所捕获的视频数据的帧中的检测到的物品(例如,食物物品和非食物物品)的像素级数据与包括食物物品的存储图像的集合进行比较。
机器学习是指通过经验逐步改进的算法。通过处理大量不同的输入数据集(例如,各种环境中的各种食物物品的照片),机器学习算法可以开发关于特定数据集的改进的泛化,并且然后在处理新数据集时使用这些泛化来产生准确的输出或解决方案。广义上讲,机器学习算法包括一个或多个参数,这些参数将响应于新体验而调整或改变,从而逐步改进算法;类似于学习的过程。
在计算机视觉的情境中,数学模型试图模仿人类视觉系统完成的任务,目的是使用计算机从图像中提取信息,并且实现对图像内容的准确理解。计算机视觉算法已被开发用于各种领域,包括人工智能和自主导航,以提取和分析数字图像和视频中的数据。
深度学习是指基于或仿照人工神经网络的一类机器学习方法。人工神经网络是由许多简单、高度互连的处理元件(节点)组成的计算系统,它们通过对外部输入的动态响应来处理信息。大型人工神经网络可能有数百或数千个节点。
卷积神经网络(convolutional neural network,CNN)是一种经常应用于分析视觉图像(包括数字照片和视频)的神经网络。CNN中节点之间的连接模式典型地仿照人类视觉皮层的组织,其包括被排列为响应视场中的重叠区域的单独神经元。适于在本文所述的确定过程中使用的神经网络基于以下架构中的一个:VGG16、VGG19、ResNet50、InceptionV3、Xception或其他CNN兼容架构。
在机器学习示例中,在框808处,处理器432使用机器训练的算法(诸如,物品分类模型)来确定检测到的物品(例如,食物物品和非食物物品)是否与食物物品的预定义集合中的任何一个基本上相匹配。处理器432被配置为访问(通过机器学习训练的)物品分类模型,并且应用分类模型来将视频数据的帧中检测到的物品识别和分类为食物物品和非食物物品。
在一个示例实施方式中,经训练的物品分类模型接收包含检测到的物品的视频数据的帧,并且将帧中的图像抽象成层进行分析。基于经训练的手部特征模型,逐层地将每一层中的数据与存储在食物数据库480中的食物物品进行比较,直到识别出良好的匹配为止。
在一个示例中,使用卷积神经网络执行逐层图像分析。在第一卷积层中,CNN识别所学习的特征(例如,生食特征、罐头食物标签、熟食描述符和类似物)。在第二卷积层中,图像被转换成多个图像,其中所学习的特征在相应的子图像中各自被强调。在池化层中,图像和子图像的尺寸和分辨率被减小,以便隔离每个图像的包括可能的感兴趣的特征(例如,生食形状、食物标签上的文本)的部分。来自非输出层的图像的值和比较被用于对帧中的图像进行分类。
图8中的框810描述了利用情境叠加应用910检索与一个或多个检测到的食物物品650相关联的数据850的示例步骤。检索到的数据850至少暂时地被存储在眼镜设备100的存储器434中。
在一些示例实施方式中,如图9的框822所描述的,检索数据850的过程包括从一个或多个来源(包括食物数据库480、食谱库482和因特网上的一个或多个网站)收集食物信息855。在该方面中,检索数据850的过程包括组装搜索术语(例如,包括一个或多个检测到的食物物品650的列表)、执行搜索以及获取与检测到的食物物品650相关的食物信息855。在一些实施方式中,情境叠加应用910被配置为访问一个或多个优选搜索引擎、网站和其他基于因特网的资源。
在一些实施方式中,食物数据库480包括关于食物的信息集合,包括对各种食物物品的描述。所存储的数据适于与在图像或视频数据的帧中检测到的物品进行现成的比较。存储在食物数据库480中的食物物品记录可以包括文本标识符(例如,西兰花、豆类、大米)、状况参考(例如,生的、熟的、罐装的、冷冻的)以及与每个食物物品相关的其他数据和描述符。
在一些实施方式中,食谱库482包括关于食谱的信息的集合。存储在食谱库482中的食谱项目记录可以包括文本标识符(例如,卷心菜沙拉、蔬菜沙拉、汤)、配料列表、烹饪过程(例如,生的、蒸的、烘焙的、烤的)、烹饪持续时间、准备时间以及与每个食谱相关的其他数据和描述符。当策展包括食谱信息的情境叠加725时,所存储的信息适合于快速检索。
在一些实施方式中,使用因特网搜索收集食物信息855的框822处的过程涉及使用机器学习算法来选择最有可能快速且有效地检索相关食物信息855的搜索引擎、网络资源和网站数据。
图8中的框812描述了基于检索到的数据850来策展情境叠加725的示例步骤。如本文所使用的,术语策展是指并且包括根据如本文所述的一个或多个参数来选择、组织、优先排列信息。例如,如在图9的框824处所描述的,策展情境叠加725的过程包括在简档880中维持这样的参数。简档880及其参数是可配置的,并且可以以默认设置开始。在一些实施方式中,简档880与特定设备或用户相关联。
在示例实施方式中,简档880包括与情境叠加应用910相关联的活动881、地点882和内容设置883。活动881是指并且包括主题或目的,诸如烹饪、营养、购物、定价等。在一些实施方式中,活动881还包括用户历史、习惯、最近的目的和最频繁的目的等等。地点882是指并且包括环境或设置,诸如农场摊位、户外市场、杂货店、冰箱或厨房台面。内容设置883是指并且包括特定于用户或设备的任何类型的偏好或设置,诸如食谱、营养数据、价格和来源。
简档880通知本文所述的各种过程。例如,图9中的框826描述了根据所维持的简档880和检索到的数据850(例如,包括收集到的食物信息855)来填充情境叠加725的示例步骤。例如,当活动881是烹饪,地点882是户外市场,以及内容设置883是食谱时,检索数据850和策展情境叠加725的过程将指向收集和呈现食谱。在另一示例中,当活动881是营养,地点882是杂货店,并且内容设置883是营养数据时,检索数据850和策展情境叠加725的过程将指向(例如,针对某些饮食限制)收集和呈现营养数据。在该方面中,简档880便于呈现针对特定用户或设备定制的情境叠加725。
图8中的框814描述了在显示器180B上呈现情境叠加725的示例步骤。情境叠加725被呈现在叠加定位701处,如图7所示。在一些实施方式中,叠加定位701是关于显示器180B定义的,使得情境叠加725呈现在显示器上的一致定位处。例如,在一些实施方式中,情境叠加725包括一个或多个图形元素720,其位于离叠加定位701预定默认距离处。
在一些实施方式中,情境叠加725包括一个或多个图形元素720,其中一个或多个可以是可选的,如图9的框828中一般描述的。例如,如图7所示,图形元素720A、720B、720C的集合相对于叠加定位701呈现在显示器上。图形元素720A、720B、720C可以包括标签,如图所示,连同视觉图标和暗示关于每个元素的附加细节的其他标记。
如本文所用,一个或多个图形元素720意指并且包括呈现在显示器上的图形元素的任何集合,包括但不限于与VR体验相关联的虚拟对象和图形元素,诸如图标、缩略图、任务栏和菜单项。例如,图7中的图形元素720A、720B、720C表示可选择的项目,其包括照片、总结和完整食谱的链接。
在一些实施方式中,情境叠加725包括与当前食物物品定位705相邻呈现的标签710。当前食物物品定位705是关于并且根据检测到的食物物品650在物理环境600中的位置定义的,使得当眼镜设备100移动通过物理环境600时,标签710看起来移动(相对于显示器180B)。例如,如图7所示,标签710A、710B、710C分别邻近或靠近当前食物物品定位705A、705B、705C呈现。
当眼镜设备100移动通过物理环境600时,标签710A、710B、710C将使用称为定位的过程分别看起来保持在当前食物物品定位705A、705B、705C附近。在一些实施方式中,眼镜设备100上的定位系统915将眼镜100上的处理器432配置为获得定位数据,用于在相对于当前食物物品定位705A、705B、705C确定当前眼镜位置840时使用。定位数据可以从所捕获的视频数据900的帧、IMU单元472、GPS单元473或其组合中导出。定位系统915可以使用SLAM算法来构建相机视场904内的各种元素的虚拟地图,如本文所述,至少与相机114B的帧速率一样频繁地更新地图和对象的位置(例如,与每秒30次一样频繁地、或更多地计算和更新映射和当前眼镜位置840的定位)。
在一些实施方式中,定位过程包括计算检测到的当前食物物品定位705A、705B、705C与当前眼镜位置840之间的相关性。术语相关性是指并且包括足以根据当前眼镜位置840定义检测到的当前食物物品定位705A、705B、705C和眼镜显示器180B之间的三维距离的一个或多个向量、矩阵、公式或其他数学表达式。当然,当前眼镜位置840被绑定到由眼镜设备100的框架支撑的显示器180B或与显示器180B持续相关联。在该方面中,相关性执行将眼镜100的运动与检测到的当前食物物品定位705A、705B、705C的表观运动进行校准的功能。因为定位过程连续且频繁地发生,所以相关性被连续且频繁地计算,从而导致检测到的当前食物物品定位705A、705B、705C相对于当前眼镜位置840的精确且接近实时的跟踪。
因为定位过程连续且频繁地发生,所以相关性被连续且频繁地计算,从而导致当前手部位置681相对于当前眼镜位置840的精确且接近实时的跟踪。
在一些实施方式中,情境叠加725,如图9的框828中一般描述,包括通过扬声器191播放呈现消息872。情境叠加应用910可以被配置为播放多个预定义的或示例呈现消息871,包括声音、嘟嘟声或诸如“我找到了几个食谱”、“这里有几个晚餐想法”或“看看这个营养数据”的消息。呈现消息872可以使用本文所述的音频处理器413和一个或多个扬声器191来播放,或者作为文本呈现在显示器180B上,或者两者。
图9是列出策展情境叠加725的可选择元素并与之交互的示例方法中的步骤的流程图820。
图9中的框830描述了在显示器180B上呈现可移动元素711(诸如图7中所示的光标)的示例步骤。在该示例中,根据检测到的相对于触摸板181的当前指尖位置681,光标711被呈现在显示器上的当前元素定位740处,如图7所示。在该方面中,指尖相对于触摸板181的运动被实时跟踪并相关,以驱动光标711相对于显示器180B的表观运动。在其他示例实施方式中,可移动元素711通过由图像处理系统920在所捕获的视频数据900的帧中检测到的一个或多个手势来控制。
图9中的框832描述了基于检测到的当前指尖位置681来检测相对于触摸板811的轻击手势851的示例步骤。在其他示例实施方式中,由图像处理系统920在所捕获的视频数据900的帧中检测到选择动作(例如,诸如轻扫或轻击的手势)。
图9中的框834描述了根据检测到的轻击手势851和当前元素定位740执行选择动作801的示例步骤。在该示例中,执行选择动作801包括识别最靠近光标711的当前元素定位740的图形元素(例如,720A或720B或720C);并且然后相对于所识别的最靠近的图形元素执行选择动作801。例如,如果当检测到轻击手势851时光标711最靠近第一图形元素720A,则在第一图形元素720上执行选择动作801。在相关方面中,突出显示或其他标记可以呈现在所识别的最靠近图形元素周围或附近。
如本文所述,情境叠加725的一个或多个图形元素720是可选择的。在该方面中,图形元素720可以包括或被耦合到各种内容中的任何内容,包括静止图像、视频、音频、可执行应用、菜单项以及这些内容的组合或序列。在该方面中,相对于与所识别的最靠近光标711的图形元素相关联的内容的选择动作801在一些实施方式中包括打开、保存、共享或移除内容。“打开”选择动作801可以包括在显示器上呈现内容或者打开菜单项的列表。“保存”选择动作801可以包括将内容保存在存储器中或者将内容发送到指定的或者附近的设备以进行保存。“共享”选择动作801可以包括将内容发送到一个或多个指定的或附近的设备。“移除”选择动作801可以包括从显示器移除内容并在其位置呈现后续图形元素720。在一些实施方式中,选择动作801由本文所述的维持的简档880的一个或多个参数来引导或控制。
如本文所述,本文中针对眼镜设备100、移动设备401和服务器系统498描述的任何功能都可以被体现在一个或多个计算机软件应用或编程指令集中。根据一些示例,“函数”、“多个函数”、“应用”、“多个应用”、“指令”、“多个指令”或“编程”是执行程序中定义的功能的一个或多个程序。可以采用各种编程语言来开发一个或多个应用,以各种方式结构化,诸如面向对象的编程语言(例如,Objective-C、Java或C++)或过程编程语言(例如,C或汇编语言)。在特定示例中,第三方应用(例如,由特定平台的供应商以外的实体使用ANDROIDTM或IOSTM软件开发工具包(software development kit,SDK)开发的应用)可以包括在移动操作系统(诸如IOSTM、ANDROIDTMPhone或另一移动操作系统)上运行的移动软件。在该示例中,第三方应用可以调用由操作系统提供的API调用,以促进本文描述的功能。
因此,机器可读介质可以采取多种形式的有形存储介质。非易失性存储介质包括例如光盘或磁盘,诸如任何计算机设备中的任何存储设备或类似物,诸如可以被用于实施图中所示的客户端设备、媒体网关、代码转换器等。易失性存储介质包括动态存储器,诸如这样的计算机平台的主存储器。有形传输介质包括同轴电缆;铜线和光纤,包括导线(包括在计算机系统内的总线)。载波传输介质可以采取电信号或电磁信号的形式,或者声波或光波的形式,诸如在射频(radio frequency,RF)和红外(infrared,IR)数据通信期间产生的那些。因此,计算机可读介质的常见形式包括例如:软盘、柔性盘、硬盘、磁带、任何其他磁介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡纸带、任何其他具有孔图案的物理存储介质、RAM、PROM和EPROM、FLASH-EPROM、任何其他存储芯片或磁带盒,传输数据或指令的载波、传输这种载波的电缆或链路,或者计算机可以从中读取编程代码或数据的任何其他介质。许多这些形式的计算机可读介质可以涉及将一个或多个指令的一个或多个序列携带到处理器以供执行。
除如紧接在上面所陈述的外,所陈述或说明的任何内容均不旨在或不应被解释为致使向公众奉献任何部件、步骤、特征、目的、益处、优势或等效物,无论其是否在权利要求中叙述。
将理解,本文中使用的术语和表达具有如这种术语和表达相对于它们对应的各自调查和研究领域被赋予的普通含义,除非其中本文另外阐述了具体含义。关系术语(诸如第一和第二以及类似等)可以仅被用于区分一个实体或动作与另一个,而不必要求或暗示这种实体或动作之间的任何实际的这种关系或顺序。术语“包括”、“包含”、“含有”、“涵盖”或其任何其他变型旨在涵盖非排他性包含,使得包含或包括元件或步骤的列表的过程、方法、物品或装置不仅包括那些元件或步骤,还可以包括未明确列出或这种过程、方法、物品或装置固有的其他元件或步骤。在没有进一步限制的情况下,以“一”或“一个”开头的元件并不排除在包括该元件的过程、方法、物品或装置中存在附加的相同元件。
除非另有说明,否则本说明书(包括随后的权利要求书)中阐述的任何和所有测量值、数值、评级、定位、幅度、尺寸和其他规格都是近似的,而不是精确的。这种数额旨在具有合理的范围,该范围与它们涉及的功能以及它们所属于的领域的惯例一致。例如,除非另有明确说明,否则参数值或类似值可能与说明的量或范围相差多达正或负百分之十。
另外,在前述具体实施方式中,可以看出,出于简化本公开的目的,在各种示例中将各种特征分组在一起。本公开的该方法不应被解释为反映所要求保护的示例需要比每个权利要求中明确叙述的更多特征的意图。相反,如以下权利要求所反映的,要保护的主题在于少于任何单个公开的示例的所有特征。因此,以下权利要求在此并入到具体实施方式中,每个权利要求作为单独要求保护的主题独立存在。
虽然前面已经描述了被认为是最佳模式和其他示例的内容,但是应该理解,可以在其中进行各种修改,并且可以以各种形式和示例实施本文公开的主题,并且它们可以在许多应用中应用,本文仅描述了其中的一些。以下权利要求旨在要求落入本概念的真实范围内的任何和所有修改和变型。

Claims (20)

1.一种响应于在物理环境中利用眼镜设备检测到的物品来呈现情境叠加的方法,所述眼镜设备包括相机、麦克风、扬声器、情境叠加应用、图像处理系统和显示器,所述方法包括:
利用所述麦克风感知开始命令;
响应于感知到的开始命令,通过所述扬声器播放确认消息;
捕获所述相机的视场内的视频数据的帧;
利用所述图像处理系统,在所捕获的视频数据的帧中检测相对于所述显示器的当前物品定位处的食物物品;
利用所述情境叠加应用检索与检测到的食物物品相关联的数据;
基于检索到的数据来策展情境叠加;并且
在所述显示器上在相对于所述显示器的叠加定位处呈现所述情境叠加。
2.根据权利要求1所述的方法,还包括:
检测后续的食物物品;
检索与检测到的后续食物物品相关联的后续数据;并且
基于检索到的后续数据进一步策展所述情境叠加。
3.根据权利要求1所述的方法,其中,检索数据的过程还包括:
从选自由食物数据库、食谱库和因特网上的一个或多个网站组成的组的源收集食物信息。
4.根据权利要求1所述的方法,其中,策展情境叠加的过程还包括:
维持包括活动、地点和内容设置的简档;并且
根据所维持的简档和所述检索到的数据来填充所述情境叠加。
5.根据权利要求1所述的方法,其中,呈现情境叠加的过程还包括:
在所述显示器上呈现一个或多个图形元素,每个图形元素与所述检索到的数据相关联;
在显示器上邻近所述当前物品定位来呈现与所述检测到的食物物品相关联的标签;并且
通过所述扬声器播放与所呈现的情境叠加相关联的呈现消息。
6.根据权利要求1所述的方法,其中,检测食物物品的过程还包括:
访问分类模型以在所捕获的视频数据的帧中的多个其他物品中识别所述食物物品。
7.根据权利要求1所述的方法,其中,所述眼镜设备还包括定位系统,其中所述方法还包括:
利用所述定位系统确定相对于所述当前物品定位的当前眼镜位置;
根据所述当前眼镜位置来计算所述当前物品定位与所述显示器之间的相关性;并且
根据所计算的相关性来呈现所述情境叠加,使得当眼镜移动通过所述物理环境时,所述情境叠加持续邻近所述当前物品定位而被呈现。
8.根据权利要求1所述的方法,其中,所述眼镜设备还包括触摸板,并且其中,呈现所述情境叠加的过程还包括:
检测相对于所述触摸板的当前指尖位置;
根据检测到的当前指尖位置在所述显示器上的当前元素定位处呈现可移动元素;
邻近定位在所述显示器上最靠近所述当前元素定位的第一图形元素来呈现突出显示;
基于所述检测到的当前指尖位置检测相对于所述触摸板的轻击手势;并且
根据检测到的轻击手势和所述当前元素定位来执行选择动作。
9.根据权利要求8所述的方法,其中,执行选择动作的过程还包括:
识别定位在所述显示器上最靠近所述当前元素定位的所选择的图形元素,其中,相对于所述第一图形元素的所述选择动作是选自由打开、保存、共享和移除组成的组的过程。
10.一种情境叠加系统,包括:
眼镜设备,其包括相机、麦克风、扬声器、情境叠加应用、图像处理系统、存储器、处理器和显示器;和
在所述存储器中的编程,其中由所述处理器执行所述编程将所述眼镜设备配置为执行功能,包括以下功能:
利用所述麦克风感知开始命令;
响应于感知到的开始命令,通过所述扬声器播放确认消息;
捕获所述相机的视场内的视频数据的帧;
利用所述图像处理系统,在所捕获的视频数据的帧中检测相对于所述显示器的当前物品定位处的食物物品;
利用所述情境叠加应用检索与检测到的食物物品相关联的数据;
基于检索到的数据来策展情境叠加;并且
在所述显示器上在相对于所述显示器的叠加定位处呈现所述情境叠加。
11.根据权利要求10所述的情境叠加系统,其中,检索数据的功能还包括以下功能:
从选自由食物数据库、食谱库和因特网上的一个或多个网站组成的组的源收集食物信息。
12.根据权利要求10所述的情境叠加系统,其中,策展情境叠加的功能还包括:
维持包括活动、地点和内容设置的简档;并且
根据所维持的简档和所述检索到的数据来填充所述情境叠加。
13.根据权利要求10所述的情境叠加系统,其中,在所述显示器上呈现情境叠加的功能还包括以下功能:
在所述显示器上呈现一个或多个图形元素,每个图形元素与所述检索到的数据相关联;
在显示器上邻近所述当前物品定位来呈现与所述检测到的食物物品相关联的标签;并且
通过所述扬声器播放与所呈现的情境叠加相关联的呈现消息。
14.根据权利要求10所述的情境叠加系统,其中,检测食物物品的功能还包括以下功能:
访问分类模型以在所捕获的视频数据的帧中的多个其他物品中识别所述食物物品。
15.根据权利要求10所述的情境叠加系统,其中,所述眼镜设备还包括触摸板,并且在所述显示器上呈现所述情境叠加的功能还包括以下功能:
检测相对于所述触摸板的当前指尖位置;
根据检测到的当前指尖位置在所述显示器上的当前元素定位处呈现可移动元素;
邻近定位在所述显示器上最靠近所述当前元素定位的第一图形元素来呈现突出显示;
基于所述检测到的当前指尖位置检测相对于所述触摸板的轻击手势;并且
根据检测到的轻击手势和所述当前元素定位来执行选择动作,其中相对于所述第一图形元素的所述选择动作是选自由打开、保存、共享和移除组成的组的过程。
16.一种存储程序代码的非暂时性计算机可读介质,所述程序代码在执行时可操作以致使电子处理器执行以下步骤:
利用眼镜设备的麦克风感知开始命令,所述眼镜设备还包括相机、扬声器、情境叠加应用、图像处理系统和显示器;
响应于感知到的开始命令,通过所述扬声器播放确认消息;
捕获所述相机的视场内的视频数据的帧;
利用所述图像处理系统,在所捕获的视频数据的帧中检测相对于所述显示器的当前物品定位处的食物物品;
利用所述情境叠加应用检索与检测到的食物物品相关联的数据;
基于检索到的数据来策展情境叠加;并且
在所述显示器上在相对于所述显示器的叠加定位处呈现所述情境叠加。
17.根据权利要求16所述的存储程序代码的非暂时性计算机可读介质,其中检索数据的步骤还包括:
从选自由食物数据库、食谱库和因特网上的一个或多个网站组成的组的源收集食物信息。
18.根据权利要求16所述的存储程序代码的非暂时性计算机可读介质,其中策展情境叠加的步骤还包括:
维持包括活动、地点和内容设置的简档;并且
根据所维持的简档和所述检索到的数据来填充所述情境叠加。
19.根据权利要求16所述的存储程序代码的非暂时性计算机可读介质,其中,呈现情境叠加的步骤还包括:
在所述显示器上呈现一个或多个图形元素,每个图形元素与所述检索到的数据相关联;
在显示器上邻近所述当前物品定位来呈现与所述检测到的食物物品相关联的标签;并且
通过所述扬声器播放与所呈现的情境叠加相关联的呈现消息。
20.根据权利要求16所述的存储程序代码的非暂时性计算机可读介质,其中,呈现所述情境叠加的步骤还包括:
检测相对于耦合到所述眼镜设备的触摸板的当前指尖位置;
根据检测到的当前指尖位置在所述显示器上的当前元素定位处呈现可移动元素;
邻近定位在所述显示器上最靠近所述当前元素定位的第一图形元素来呈现突出显示;
基于所述检测到的当前指尖位置检测相对于所述触摸板的轻击手势;并且
根据检测到的轻击手势和所述当前元素定位来执行选择动作,其中相对于所述第一图形元素的所述选择动作是选自由打开、保存、共享和移除组成的组的过程。
CN202280048161.0A 2021-05-05 2022-05-04 增强现实体验的策展的情境叠加 Pending CN117616367A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163184448P 2021-05-05 2021-05-05
US63/184,448 2021-05-05
PCT/US2022/027577 WO2022235729A1 (en) 2021-05-05 2022-05-04 Curated contextual overlays for augmented reality experiences

Publications (1)

Publication Number Publication Date
CN117616367A true CN117616367A (zh) 2024-02-27

Family

ID=81750562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280048161.0A Pending CN117616367A (zh) 2021-05-05 2022-05-04 增强现实体验的策展的情境叠加

Country Status (5)

Country Link
US (1) US20220358689A1 (zh)
EP (1) EP4334805A1 (zh)
KR (1) KR20240004873A (zh)
CN (1) CN117616367A (zh)
WO (1) WO2022235729A1 (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9606992B2 (en) * 2011-09-30 2017-03-28 Microsoft Technology Licensing, Llc Personal audio/visual apparatus providing resource management
US9053483B2 (en) * 2011-09-30 2015-06-09 Microsoft Technology Licensing, Llc Personal audio/visual system providing allergy awareness
US10509487B2 (en) * 2016-05-11 2019-12-17 Google Llc Combining gyromouse input and touch input for navigation in an augmented and/or virtual reality environment
US20180101986A1 (en) * 2016-10-10 2018-04-12 Aaron Mackay Burns Drawing in a 3d virtual reality environment
US10311874B2 (en) * 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device

Also Published As

Publication number Publication date
EP4334805A1 (en) 2024-03-13
WO2022235729A1 (en) 2022-11-10
US20220358689A1 (en) 2022-11-10
KR20240004873A (ko) 2024-01-11

Similar Documents

Publication Publication Date Title
US11531402B1 (en) Bimanual gestures for controlling virtual and graphical elements
CN117178247A (zh) 用于动画化及控制虚拟和图形元素的手势
CN116724285A (zh) 用于控制虚拟和图形元素的微手势
CN117120962A (zh) 用于控制虚拟和图形元素的映射手部区域之间的双手交互
CN116324677A (zh) 响应于检测到的手势的非接触式照片捕获
KR20230025914A (ko) 음성 및 텍스트 캡션들을 사용한 증강 현실 경험들
CN117356116A (zh) 用于定位可穿戴设备和向可穿戴设备递送内容的信标
KR20230025909A (ko) 증강 현실 안경류 3d 페인팅
WO2022006116A1 (en) Augmented reality eyewear with speech bubbles and translation
KR20230113374A (ko) 머리-관련 전달 함수
CN115735174A (zh) 使用保持社交距离的增强现实体验
WO2022005715A1 (en) Augmented reality eyewear with 3d costumes
CN117321537A (zh) 眼睛佩戴设备动态功率配置
CN117916777A (zh) 手工制作的增强现实努力证据
CN115735179A (zh) 增强现实眼戴器与情绪共享
CN115812189A (zh) 用于视觉惯性里程计系统的动态传感器选择
US20220358689A1 (en) Curated contextual overlays for augmented reality experiences
US20240071020A1 (en) Real-world responsiveness of a collaborative object
US20240069642A1 (en) Scissor hand gesture for a collaborative object
CN117940877A (zh) 增强现实道具交互
CN117940964A (zh) 手工制作的增强现实体验
WO2024049577A1 (en) Selective collaborative object access based on timestamp
WO2024049573A1 (en) Selective collaborative object access
WO2024049575A1 (en) Revealing collaborative object using countdown timer
CN117897680A (zh) 基于物理动作的增强现实通信交换

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination