CN113168526B

CN113168526B - 用于虚拟和增强现实的系统和方法

Info

Publication number: CN113168526B
Application number: CN201980080840.4A
Authority: CN
Inventors: A·拉比诺维奇; J·蒙诺什
Original assignee: Magic Leap Inc
Current assignee: Magic Leap Inc
Priority date: 2018-10-09
Filing date: 2019-10-08
Publication date: 2024-08-27
Anticipated expiration: 2039-10-08
Also published as: EP3864575A4; EP3864575A1; JP2022504516A; CN113168526A; JP7448530B2; US20240087260A1; US20220215640A1; US20200111262A1; US11948256B2; US11315325B2; JP2024069276A; WO2020076867A1

Abstract

本公开的示例描述了用于生成和显示虚拟同伴的系统和方法。在示例方法中，在第一时间经由头戴式设备上的第一传感器来接收来自用户的环境的第一输入。基于第一输入来确定环境中事件的发生。经由头戴式设备上的第二传感器接收来自用户的第二输入，并且基于第二输入来识别用户的情绪反应。确定情绪反应与事件之间的关联。在第一时间之后的第二时间，经由头戴式设备的透视显示器呈现环境的视图。通过经由透视显示器所显示的虚拟同伴在第二时间呈现刺激，其中，基于所确定的情绪反应与事件之间的关联来确定该刺激。

Description

用于虚拟和增强现实的系统和方法

相关申请的交叉引用

本申请要求于2018年10月9日提交的美国临时申请62/743,492的优先权，其全部内容通过引用合并于此。

技术领域

本发明涉及移动计算系统、方法和配置，并且更具体地涉及以至少一个可用于虚拟和/或增强现实操作的可穿戴部件为特征的移动计算系统、方法和配置。

背景技术

人工智能或“AI”的一个目标是执行人类定义的任务，但以达到或超过人类执行任务的能力的方式进行。无人驾驶汽车、音乐推荐系统、和其他复杂的计算系统可以成为AI在许多人类喜爱和享受的成功中做出巨大贡献的示例。这样的人工智能系统可被配置为模仿人脑的功能，并且经常在某些任务(例如面部识别或信息检索的某些方面，仅举一些示例)上超越人脑的性能。人工智能可以是一种计算模型，旨在实现人类可以定义为奖励的结果(其他示例包括在Jeopardy游戏或Alpha Go游戏中获胜)。这样的系统可以不是“有意识的(conscious)”或“有觉察的(aware)”；它们可以称为模式匹配机(pattern matchingmachine)。

以人为中心的人工智能系统或配置可以包括大脑(brain)和头脑(mind)二者，并且可以包括捕获两者的计算模型。头脑可以是大脑和负责任的自我意识(self-awareness)的双重。头脑可以是人类的思想、感觉、记忆和/或体验的同义词，并且是人类行为的来源。通过捕获这种双重性(duality)，本文描述的实施例可以利用主题系统及其配置来使AI人性化。用著名厨师安东尼·布尔登(Anthony Bourdain)的话来形容，完美的一餐在环境中出现并留下了记忆；它通常与食物本身几乎没有关系。大脑处理食物，其余部分则由头脑负责。对于用户而言，用心的体验(mindful experience)可以更令人向往和难忘。

发明内容

本公开的示例描述了用于生成和显示虚拟同伴(virtual companion)的系统和方法。在示例方法中，在第一时间经由头戴式设备上的第一传感器来接收来自用户的环境的第一输入。基于第一输入来确定该环境中事件的发生。来自该用户的第二输入经由该头戴式设备上的第二传感器被接收，并且基于该第二输入来识别该用户的情绪反应。确定该情绪反应与该事件之间的关联。经由该头戴式设备的透视(see-through)显示器在该第一时间之后的第二时间呈现该环境的视图。在第二时间，通过经由该透视显示器显示的虚拟同伴来呈现刺激(stimulus)，其中，基于所确定的该情绪反应与该事件之间的关联来确定该刺激。

附图说明

图1示出了根据本公开的一个或多个实施例的示例计算平台。

图2A-2C示出了根据本公开的一个或多个实施例的示例混合现实环境。

图3A-3D示出了根据本公开的一个或多个实施例可用于生成混合现实环境并与之交互的示例混合现实系统的部件。

图4A示出了根据本公开的一个或多个实施例可用于向混合现实环境提供输入的示例混合现实手持式控制器。

图4B示出了根据本公开的一个或多个实施例的可以与示例混合现实系统一起使用的示例辅助单元。

图5示出了根据本公开的一个或多个实施例的示例混合现实系统的示例功能框图。

图6示出了根据本公开的一个或多个实施例的用于可穿戴计算的示例的以人为中心的AI配置。

图7示出了根据本公开的一个或多个实施例的用于生成记忆(memory)图的示例系统。

图8示出了根据本公开的一个或多个实施例的用于在混合现实环境中呈现虚拟同伴的示例系统。

图9A至9J示出了根据本公开的一个或多个实施例的在混合现实环境中呈现虚拟同伴的示例。

图10A至10B示出了根据本公开的一个或多个实施例的虚拟同伴的示例特征。

具体实施方式

在解决该以人为中心的AI挑战时，可能有许多问题和变化需要解决。例如，对于特定的人或群体，最佳体验是什么？基于通常可用的系统(例如上述包含的应用中描述的那些，或被配置用于人机交互的其他可用计算系统)和此类系统的人为使用，对此有一些现成的答案：与屏幕有关的用途，例如在二维监控器上看电视或传统计算、参与游戏、网络浏览等。这些体验在任何现代计算平台上都是预期的，包括诸如图1中所示的那些的系统。利用诸如图1所示的系统，一个人具有收集有关其周围世界的许多信息的系统，但是，而且可以更重要的是，这种系统可被配置为收集许多有关用户的信息。用户可以处于许多混合现实体验的中心，并且世界可以成为这些体验的画布(canvas)。一些最有吸引力的混合现实体验可以是其中为用户显示的内容是“智能的(intelligent)”并且基于上下文的体验。换句话说，利用这种配置，可以存在因果关系，其中，用户做某事并且该体验响应该输入。该体验中的“智能(intelligence)”不仅来自该体验本身，还可以来自平台。例如，在系统级别上具有有关该人在环境中的位置、他们被什么包围或被谁包围的某些信息/知识可以非常有用。该系统还可被配置为推断或回想有关用户的情绪和相关关联(association)的信息。该系统可被配置为收集有关谁在说话和在说什么的信息。这些可以是以人为中心的AI挑战的基本问题。在发展体验时要回答的一个重要问题可以是“我们正在努力满足什么需求？”各种答案可以包括娱乐、交流、对信息或知识的理解。这些需求中的每一个都可以受感知、感觉和思想的驱动。有很多AI表现得非常“像机器”的示例。许多人能够获取大量数据并基于该数据创建结果模型。通常人们不充分理解这是如何工作的。相反，计算机通常不“理解”人类是如何工作的。通常，AI系统可被配置为基于训练它们的数据有效地得出准确的答案。一个挑战可以是采用机器学习，再加上计算系统的丰富输出，并使用它们来满足人类在混合现实体验中的需求。可以期望这样做，使AI消失或集成到计算活动中。因此，目的是设计如下的系统：易于被人们理解，或者更好地，变得对人们透明(例如，完全集成到用户的体验中，从而使用户不会明显注意到系统的存在)，以及着重于提供总体上更好的体验。

期望混合现实或增强现实的近眼显示器轻巧，成本低，具有小的外形尺寸，具有宽的虚拟图像视场并且尽可能透明。另外，在某些实施例中，期望具有在多个焦平面(例如，两个或多个)中呈现虚拟图像信息以便在不超出聚散-调节不匹配(vergence-accommodationmismatch)的可接受容差(allowance)的情况下适用于多种用例的配置。参考图1，示出了增强现实系统，其特征在于头戴式观看部件(2)、手持式控制器部件(4)、以及互连的辅助计算或控制器部件(6)，它们可被配置为作为腰包或类似物穿戴在用户上。这些部件中的每一个可以经由有线或无线通信配置(诸如由IEEE 802.11、蓝牙(RTM)、和其他连接标准和配置指定的那些)可操作地耦接(10、12、14、16、17、18)到彼此以及到其他连接资源(8)(诸如云计算或云存储资源之类)。如例如在其每一个通过引用整体结合到本文中的美国专利申请序列号14/555,585、14/690,401、14/331,218、15/481,255、以及62/518,539中所述，描述了这种部件的各个方面，诸如两个所描绘的光学元件(20)的各种实施例，用户可以通过该光学元件(20)看到他们周围的世界以及可以由相关联的系统部件产生的视觉部分，以用于增强现实体验。需要优化用于可穿戴计算系统的高性能系统和组件。在某些实施例中，这样的系统和子系统可被配置用于某些“人工智能”相关任务并用于这些任务。

可以结合向用户提供增强现实或混合现实体验来使用各种部件。例如，如图1所示，透视可穿戴显示系统能够以感知上有意义的方式向用户呈现用户周围的物理世界的视图的组合以及用户视场中组合的虚拟内容。利用相同的系统(例如，如图1所示)，可以使用空间计算平台来同时接收关于或“感知”与环境和观看者有关的各种物理方面的信息。通过将可穿戴计算显示器与机器学习驱动的空间计算平台相结合，可以在用户与体验之间建立反馈回路。

混合现实环境

像所有人一样，混合现实系统的用户也存在于真实环境中，也就是说，用户可以感知“真实世界”的三维部分及其所有内容。例如，用户使用普通人类感官(视觉、声音、触觉、味道、气味)来感知真实环境，并通过在真实环境中移动自己的身体来与真实环境进行交互。真实环境中的位置可以描述为坐标空间中的坐标；例如，坐标可以包括纬度、经度和相对于海平面的海拔；在三个正交维度中距参考点的距离；或其它合适的值。同样，矢量可以描述在坐标空间中具有方向和大小的量。

计算设备可以在例如与设备相关联的存储器中保持对虚拟环境的表示。如在此所使用的，虚拟环境是三维空间的计算表示。虚拟环境可以包括与该空间相关联的任何对象、动作、信号、参数、坐标、矢量或其它特征的表示。在一些示例中，计算设备的电路(例如，处理器)可以保持和更新虚拟环境的状态；也就是说，处理器可以在第一时间t0基于与虚拟环境相关联的数据和/或由用户提供的输入来确定在第二时间t1的虚拟环境的状态。例如，如果虚拟环境中的对象在时间t0位于第一坐标，并且具有某些已编程的物理参数(例如，质量、摩擦系数)；以及从用户接收到的输入指示应该在方向矢量上向对象施加力；处理器可以应用运动学定律使用基本力学来确定在时间t1的对象的位置。处理器可以使用关于虚拟环境的任何合适的已知信息和/或任何合适的输入来确定在时间t1的虚拟环境的状态。在保持和更新虚拟环境的状态时，处理器可以执行任何合适的软件，包括与在虚拟环境中创建和删除虚拟对象有关的软件；用于定义虚拟环境中虚拟对象或角色行为的软件(例如脚本)；用于定义虚拟环境中信号(例如音频信号)行为的软件；用于创建和更新与虚拟环境相关联的参数的软件；用于在虚拟环境中生成音频信号的软件；用于处理输入和输出的软件；用于实现网络操作的软件；用于应用资产数据(例如动画数据，以随着时间推移移动虚拟对象)的软件；或许多其它可能性。

输出设备(诸如显示器或扬声器)可以向用户呈现虚拟环境的任何或所有方面。例如，虚拟环境可以包括可以呈现给用户的虚拟对象(其可以包括无生命的对象、人、动物、灯光等的表示)。处理器可以确定虚拟环境的视图(例如，与具有原始坐标、视图轴和视锥(frustum)的“相机”对应)；并将与该视图对应的虚拟环境的可视场景渲染给显示器。任何合适的渲染技术都可以用于该目的。在一些示例中，可视场景可以仅包括虚拟环境中的一些虚拟对象，并且排除某些其它虚拟对象。类似地，虚拟环境可以包括可以作为一个或多个音频信号呈现给用户的音频方面。例如，虚拟环境中的虚拟对象可以生成源自对象的位置坐标的声音(例如，虚拟角色可以说话或引起声音效果)；或虚拟环境可能与可能会或可能不会与特定位置相关联的音乐提示或环境声音相关联。处理器可以确定与“收听者”坐标对应的音频信号，例如，与虚拟环境中的声音合成对应的音频信号，并进行混合和处理以模拟收听者会在收听者坐标处听到的音频信号，并经由一个或多个扬声器将音频信号呈现给用户。

因为虚拟环境仅以计算结构的形式存在，所以用户无法使用自己的常识直接感知虚拟环境。相反，用户只能例如通过显示器、扬声器、触觉输出设备等间接地感知到如呈现给用户的虚拟环境。类似地，用户无法直接触摸、操纵或以其它方式与虚拟环境交互；但是可以经由输入设备或传感器将输入数据提供给处理器，该处理器可以使用设备或传感器数据来更新虚拟环境。例如，相机传感器可以提供指示用户正试图在虚拟环境中移动对象的光学数据，并且处理器可以使用该数据来使对象在虚拟环境中做出相应的响应。

混合现实系统可以例如使用透射式显示器和/或一个或多个扬声器(其例如可以结合到可穿戴头部设备中)向用户呈现结合了真实环境和虚拟环境的各个方面的混合现实环境(“MRE”)。在一些实施例中，一个或多个扬声器可以在头戴式可穿戴单元的外部。如在此所使用的，MRE是真实环境和对应的虚拟环境的同时表示。在一些示例中，对应的真实和虚拟环境共享单个坐标空间；在一些示例中，真实坐标空间和对应的虚拟坐标空间通过变换矩阵(或其它合适的表示)彼此相关。因此，单个坐标(在一些示例中，连同变换矩阵)可以定义真实环境中的第一位置，并且还定义虚拟环境中的第二对应位置；反之亦然。

在MRE中，虚拟对象(例如，在与MRE相关联的虚拟环境中)可以对应于真实对象(例如，在与MRE相关联的真实环境中)。例如，如果MRE的真实环境在位置坐标处包括真实灯柱(真实对象)，则MRE的虚拟环境可以在对应位置坐标处包括虚拟灯柱(虚拟对象)。如在此所使用的，真实对象与其对应的虚拟对象结合在一起构成“混合现实对象”。虚拟对象不必与对应的真实对象完美匹配或对齐。在一些示例中，虚拟对象可以是对应的真实对象的简化版本。例如，如果真实环境包括真实灯柱，则对应的虚拟对象可以包括与真实灯柱具有大致相同的高度和半径的圆柱体(反映出灯柱的形状可以大致为圆柱体)。以该方式简化虚拟对象可以允许计算效率，并且可以简化要在此类虚拟对象上所执行的计算。此外，在MRE的一些示例中，并非真实环境中的所有真实对象都可以与对应的虚拟对象相关联。同样，在MRE的一些示例中，并非虚拟环境中的所有虚拟对象都可以与对应的真实对象相关联。也就是说，一些虚拟对象可以仅在MRE的虚拟环境中，而没有任何真实世界的对应物。

在一些示例中，虚拟对象可以具有与对应的真实对象的特征有时甚至完全不同的特征。例如，尽管MRE中的真实环境可包括绿色的两臂仙人掌-多刺的无生命对象，但MRE中的对应虚拟对象可具有带有人脸特征功能且风度翩翩的绿色的两臂虚拟角色的特征。在该示例中，虚拟对象在某些特征(颜色、臂数)上类似于其对应的真实对象；但在其它特征(面部特征、个性)上与真实对象不同。这样，虚拟对象就有可能以创造性的、抽象的、夸张的或幻想的方式表示真实对象，或赋予行为(例如人格特质)给其它无生命的真实对象。在一些示例中，虚拟对象可以是纯粹的幻想创造，而没有真实世界的对应物(例如，虚拟环境中的虚拟怪物，可能位于与真实环境中的空白空间相对应的位置)。

与向用户呈现虚拟环境同时遮蔽真实环境的VR系统相比，呈现MRE的混合现实系统具有以下优点：当呈现虚拟环境时，真实环境仍可感知。因此，混合现实系统的用户能够使用与真实环境相关联的视觉和音频提示来体验对应的虚拟环境并与之交互。例如，尽管VR系统的用户可能难以感知虚拟环境中所显示的虚拟对象或与之交互，因为如上所述，用户无法直接感知虚拟环境或与之交互，但是MR系统的用户通过在他或她自己的真实环境中看到、听到和触摸对应的真实对象，可以发现与虚拟对象进行交互是直观而自然的。该水平的互动性可以增强用户对虚拟环境的沉浸感、连接感和参与感。类似地，通过同时呈现真实环境和虚拟环境，混合现实系统可以减少与VR系统相关联的负面心理感觉(例如，认知失调)和负面生理感觉(例如，运动病)。混合现实系统进一步为可能增加或改变我们对真实世界的体验的应用提供了许多可能性。

图2A示出示例真实环境200，其中用户210使用混合现实系统212。混合现实系统212可以包括显示器(例如，透射显示器)和一个或多个扬声器，以及一个或多个传感器(例如相机)，例如如下所述。所示的真实环境200包括矩形房间204A，用户210站在该矩形房间中；以及真实对象222A(灯)、224A(桌子)、226A(沙发)和228A(绘画)。房间204A进一步包括位置坐标，该位置坐标可以被认为是真实环境200的原点。如图2A中所示，其原点在点206(世界坐标)处的环境/世界坐标系208(包括x轴208X、y轴208Y和z轴208Z)可以定义真实环境200的坐标空间。在一些实施例中，环境/世界坐标系208的原点可以对应于混合现实系统212已上电的位置。在一些实施例中，可以在操作期间重置环境/世界坐标系208的原点。在一些示例中，用户210可被视为真实环境200中的真实对象；类似地，用户210的身体部分(例如手、脚)可被视为真实环境200中的真实对象。在一些示例中，其原点在点215(例如，用户/收听者/头部坐标)处的用户/收听者/头部坐标系214(包括x轴214X、y轴214Y以及z轴214Z)可以定义混合现实系统212所位于的用户/收听者/头部的坐标空间。可以相对于混合现实系统212的一个或多个组件来定义用户/收听者/头部坐标系214的原点215。例如，诸如在混合现实系统212的初始校准期间，相对于混合现实系统212的显示器可以定义用户/收听者/头部坐标系214的原点215。矩阵(其可以包括平移矩阵和四元数矩阵或其它旋转矩阵)或其它合适的表示可以表征用户/收听者/头部坐标系214空间与环境/世界坐标系208空间之间的变换。在一些实施例中，可以相对于用户/收听者/头部坐标系214的原点215来定义左耳坐标216和右耳坐标217。矩阵(其可以包括平移矩阵和四元数矩阵或其它旋转矩阵)或其它合适的表示可以表征左耳坐标216和右耳坐标217与用户/收听者/头部坐标系214空间之间的变换。用户/收听者/头部坐标系214可以简化相对于用户头部或相对于头戴式设备(例如相对于环境/世界坐标系208)的位置表示。使用同时定位和地图绘制(SLAM)、视觉测距或其它技术，可以实时确定和更新用户坐标系214与环境坐标系208之间的变换。

图2B示出与真实环境200对应的示例虚拟环境230。所示的虚拟环境230包括与真实矩形房间204A对应的虚拟矩形房间204B；与真实对象222A对应的虚拟对象222B；与真实对象224A对应的虚拟对象224B；以及与真实对象226A对应的虚拟对象226B。与虚拟对象222B、224B、226B相关联的元数据(metadata)可以包括从对应的真实对象222A、224A、226A导出的信息。虚拟环境230另外包括虚拟怪物，该虚拟怪物不对应于真实环境200中的任何真实对象。真实环境200中的真实对象228A不对应于虚拟环境230中的任何虚拟对象。其原点在点234(持久(persistent)坐标)处的持久坐标系233(包括x轴233X、y轴233Y和z轴233Z)可以定义虚拟内容的坐标空间。可以相对于/关于一个或多个真实对象(诸如真实对象226A)来定义持久坐标系233的原点234。矩阵(其可以包括平移矩阵和四元数矩阵或其它旋转矩阵)或其它合适的表示可以表征持久坐标系233空间与环境/世界坐标系208空间之间的变换。在一些实施例中，虚拟对象222B、224B、226B和232中的每一个可以相对于持久坐标系233的原点234具有它们自己的持久坐标点。在一些实施例中，可以存在多个持久坐标系，并且虚拟对象222B、224B、226B和232中的每一个可以相对于一个或多个持久坐标系具有它们自己的持久坐标点。

关于图2A和图2B，环境/世界坐标系208为真实环境200和虚拟环境230二者定义了共享坐标空间。在所示的示例中，坐标空间具有在点206处的其原点。此外，坐标空间由相同的三个正交轴(208X、208Y、208Z)定义。因此，可以关于相同的坐标空间描述真实环境200中的第一位置和虚拟环境230中的第二对应位置。因为可以使用相同的坐标来识别两个位置，所以这简化了在真实和虚拟环境中识别和显示对应的位置。然而，在一些示例中，对应的真实和虚拟环境不需要使用共享的坐标空间。例如，在一些示例(未示出)中，矩阵(其可以包括平移矩阵和四元数矩阵或其它旋转矩阵)或其它合适的表示可以表征真实环境坐标空间与虚拟环境坐标空间之间的变换。

图2C示出示例MRE 250，该示例MRE 250经由混合现实系统212同时向用户210呈现真实环境200和虚拟环境230的各个方面。在所示的示例中，MRE 250同时向用户210呈现来自真实环境200的真实对象222A、224A、226A和228A(例如，经由混合现实系统212的显示器的透射部分)；以及呈现来自虚拟环境230的虚拟对象222B、224B、226B和232(例如，经由混合现实系统212的显示器的有源显示部分)。如上所述，原点用作与MRE 250相对应的坐标空间的原点，并且坐标系208为该坐标空间定义了x轴、y轴和z轴。

在所示的示例中，混合现实对象包括在坐标空间中占据对应位置的真实对象和虚拟对象(即，222A/222B、224A/224B、226A/226B)的对应对。在一些示例中，真实对象和虚拟对象二者可能同时对用户210可见。例如，在虚拟对象呈现设计为增强对应真实对象视图的信息的情况下(诸如，在博物馆应用中，其中虚拟对象呈现古代受损雕塑的缺失部分)，这可能是期望的。在一些示例中，可以显示虚拟对象(222B、224B和/或226B)(例如，经由使用像素化遮挡快门的有源像素遮挡)，以便遮挡对应的真实对象(222A、224A和/或226A)。例如，在虚拟对象充当对应真实对象的可视替换的情况下(诸如，在无生命的真实对象成为“活物”角色的交互式讲故事应用中)，这可能是期望的。

在一些示例中，真实对象(例如，222A、224A、226A)可以与不一定构成虚拟对象的虚拟内容或辅助数据相关联。虚拟内容或辅助数据可以促进在混合现实环境中对虚拟对象的处理或操纵。例如，此类虚拟内容可以包括对应的真实对象的二维表示；与对应的真实对象相关联的自定义资产类型；或与对应的真实对象相关联的统计数据。该信息可以启用或促进涉及真实对象的计算，而不会引起不必要的计算开销。

在一些示例中，上述呈现还可以包括音频方面。例如，在MRE 250中，虚拟怪物可以与一个或多个音频信号(诸如当怪物在MRE 250周围走动时生成的脚步声效果)相关联。如下面进一步描述的，混合现实系统212的处理器可计算与MRE 250中所有此类声音的混合和处理的合成对应的音频信号，并经由混合现实系统212中包括的一个或多个扬声器和/或一个或多个外部扬声器将音频信号呈现给用户210。

示例混合现实系统

示例混合现实系统212可包括：可穿戴头部设备(例如，可穿戴增强现实或混合现实头部设备)，其包括显示器(该显示器可包括左和右透射显示器，其可以是近眼显示器)以及用于将光从显示器耦合到用户的眼睛的相关联组件)；左和右扬声器(例如，分别与用户的左耳和右耳相邻定位)；惯性测量单元(IMU)(例如，安装到头部设备的镜腿)；正交线圈电磁接收器(例如，安装到左镜腿件)；左和右相机(例如，深度(飞行时间)相机)，其远离用户取向；以及朝向用户取向的左眼和右眼相机(例如，用于检测用户的眼睛运动)。然而，混合现实系统212可以结合任何合适的显示技术和任何合适的传感器(例如，光学、红外、声学、LIDAR、EOG、GPS、磁性)。另外，混合现实系统212可以结合联网特征(例如，Wi-Fi能力)以与包括其它混合现实系统的其它设备和系统通信。混合现实系统212可以进一步包括电池(其可以安装在辅助单元中，诸如设计成可围绕用户腰部佩戴的腰带包)、处理器和存储器。混合现实系统212的可穿戴头部设备可包括跟踪组件，诸如IMU或其它合适的传感器，其被配置为输出可穿戴头部设备相对于用户环境的一组坐标。在一些示例中，跟踪组件可以向执行同步定位和地图绘制(SLAM)和/或视觉测距算法的处理器提供输入。在一些示例中，混合现实系统212还可以包括手持式控制器400和/或辅助单元420，它们可以是可穿戴腰包，如下面进一步描述的。

图3A-3D示出示例混合现实系统300(其可以对应于混合现实系统212)的组件，该示例混合现实系统300可以用于向用户呈现MRE(其可以对应于MRE 250)或其它虚拟环境。图3A示出示例混合现实系统300中包括的可穿戴头部设备2102的透视图。图3B示出佩戴在用户的头部2202上的可穿戴头部设备2102的顶视图。图3C示出可穿戴头部设备2102的前视图。图3D示出可穿戴头部设备2102的示例目镜2110的边缘视图。如图3A至图3C中所示，示例可穿戴头部设备2102包括示例左目镜(例如，左透明波导组(set)目镜)2108和示例右目镜(例如，右透明波导组目镜)2110。每个目镜2108和2110可包括通过其真实环境可以可见的透射元件，以及用于呈现与真实环境重叠的显示(例如，经由逐图像调制光)的显示元件。在一些示例中，此类显示元件可以包括用于控制逐图像调制光的流动的表面衍射光学元件。例如，左目镜2108可以包括左入耦合光栅组2112、左正交光瞳扩展(OPE)光栅组2120和左出射(输出)光瞳扩展(EPE)光栅组2122。类似地，右目镜2110可以包括右入耦合光栅组2118、右OPE光栅组2114和右EPE光栅组2116。可以经由入耦合光栅2112和2118、OPE 2114和2120、以及EPE 2116和2122将逐图像调制的光传输到用户的眼睛。每个入耦合光栅组2112、2118可以被配置为将光朝向其对应的OPE光栅组2120、2114偏转。每个OPE光栅组2120、2114可以被设计为朝向其关联的EPE 2122、2116逐渐向下偏转光，从而在水平延伸所形成的出射光瞳。每个EPE 2122、2116可以被配置为将从其对应的OPE光栅组2120、2114接收的至少一部分光逐渐地向外重定向到在目镜2108、2110后面定义的用户眼箱(eyebox)范围位置(未显示)，垂直延伸在眼箱处所形成的出射光瞳。可替代地，代替入耦合光栅组2112和2118、OPE光栅组2114和2120、以及EPE光栅组2116和2122，目镜2108和2110可以包括光栅和/或折射和反射特征的其它布置，以控制逐图像调制光到用户的眼睛的耦合。

在一些示例中，可穿戴头部设备2102可包括左镜腿臂2130和右镜腿臂2132，其中，左镜腿臂2130包括左扬声器2134，而右镜腿臂2132包括右扬声器2136。正交线圈电磁接收器2138可以位于左镜腿件中，或位于可穿戴头部单元中的另一个合适位置中。惯性测量单元(IMU)2140可以位于右镜腿臂2132中，或者位于可穿戴头部设备2102中的另一合适位置中。可穿戴头部设备2102还可以包括左深度(例如，飞行时间)相机2142和右深度相机2144。深度相机2142、2144可以适当地取向在不同的方向中，以便一起涵盖更广阔的视野。

在图3A-3D中所示的示例中，可以通过左入耦合光栅组2112将逐图像调制光的左源2124光学耦合到左目镜2108，并且可以通过右入耦合光栅组2118将逐图像调制光的右源2126光学耦合到右目镜2110。逐图像调制光的源2124、2126可以包括例如光纤扫描仪；包括电子光调制器的投影仪，诸如数字光处理(DLP)芯片或硅上液晶(LCoS)调制器；或诸如微型发光二极管(μLED)或微型有机发光二极管(μOLED)面板的发光显示器，它们每侧使用一个或多个透镜被耦合到入耦合光栅组2112、2118中。输入耦合光栅组2112、2118可以将来自逐图像调制光的源2124、2126的光偏转到目镜2108、2110的全内反射(TIR)的临界角以上的角度。OPE光栅组2114、2120将通过TIR传播的光逐渐向下朝向EPE光栅组2116、2122偏转。EPE光栅组2116、2122将光逐渐朝向用户的面部(包括用户眼睛的瞳孔)耦合。

在一些示例中，如图3D中所示，左目镜2108和右目镜2110中的每一个目镜都包括多个波导2402。例如，每个目镜2108、2110可以包括多个单独的波导，每个波导专用于相应的颜色通道(例如，红色、蓝色和绿色)。在一些示例中，每个目镜2108、2110可以包括多组此类波导，每组被配置为向所发射的光赋予不同的波前曲率(wavefront curvature)。波前曲率可以相对于用户的眼睛凸出，例如以呈现位于用户前方一距离(例如，与波前曲率的倒数相对应的距离)的虚拟对象。在一些示例中，EPE光栅组2116、2122可以包括弯曲的光栅凹槽，以通过改变跨每个EPE的出射光的坡印亭(Poynting)矢量来实现凸波前曲率。

在一些示例中，为了创建所显示的内容是三维的感觉，可以通过逐图像光调制器和目镜2108、2110向用户呈现立体调节的左眼图像和右眼图像。可以通过选择波导(并因此对应于波前曲率)来增强呈现三维虚拟对象的真实感，使得以接近由立体左和右图像所指示的距离的距离来显示虚拟对象。该技术还可以减少一些用户所经历的晕动病，这可能是由于立体左眼和右眼图像所提供的深度感知提示与人眼的自主适应(例如，与对象距离有关的焦点)之间的差异而引起的。

图3D示出从示例可穿戴头部设备2102的右目镜2110的顶部起的边缘视图。如图3D中所示，多个波导2402可包括三个波导2404的第一子集和三个波导2406的第二子集。波导2404、2406的两个子集可以通过不同EPE光栅来区分，不同EPE光栅具有不同光栅线曲率(line curvature)以将不同的波前曲率赋予出射光。在波导2404、2406的子集中的每个子集内，每个波导可用于将不同的光谱通道(例如，红色、绿色和蓝色光谱通道之一)耦合到用户的右眼2206(尽管未在图3D中示出，但是左目镜2108的结构类似于右目镜2110的结构)。

图4A示出混合现实系统300的示例手持式控制器组件。在一些示例中，手持式控制器400包括握持部分446和沿顶表面448设置的一个或多个按钮450。在一些示例中，按钮450可以被配置为用作光学跟踪目标，例如，与相机或其它光学传感器(其可以安装在混合现实系统300的头部单元(例如可穿戴头部设备2102)中)一起来跟踪手持式控制器400的六自由度(6DOF)运动。在一些示例中，手持式控制器400包括用于检测位置或取向(诸如相对于可穿戴头部设备2102的位置或取向)的跟踪组件(例如，IMU或其它合适的传感器)。在一些示例中，此类跟踪组件可以被定位在手持式控制器400的手柄中，和/或可以被机械地耦接到手持式控制器。手持式控制器400可以被配置为提供与一个或多个按钮的按下状态相对应的一个或多个输出信号；或手持式控制器400的位置、取向和/或运动(例如，经由IMU)。此类输出信号可以用作混合现实系统300的处理器的输入。此类输入可以对应于手持式控制器的位置、取向和/或运动(并且通过扩展而对应于握持控制器的用户的手的位置、取向和/或运动)。此类输入还可以对应于用户按下按钮450。

图4B示出混合现实系统300的示例辅助单元420。辅助单元420可以包括电池以提供能量来操作系统300，并且可以包括用于执行程序以操作系统300的处理器。如图所示，示例辅助单元420包括夹子(clip)2128，例如用于将辅助单元420附接到用户的皮带。其它形状因数适合于辅助单元420并且将是显而易见的，包括不涉及将该单元安装到用户的皮带的形状因数。在一些示例中，辅助单元420通过多导管电缆耦接到可穿戴头部设备2102，该多导管电缆可以包括例如电线和光纤。还可以使用辅助单元420与可穿戴头部设备2102之间的无线连接。

在一些示例中，混合现实系统300可以包括一个或多个麦克风以检测声音并向混合现实系统提供对应的信号。在一些示例中，麦克风可以被附接到可穿戴头部设备2102或与可穿戴头部设备2102集成，并且可以被配置为检测用户的语音。在一些示例中，麦克风可以被附接到手持式控制器400和/或辅助单元420或与手持式控制器400和/或辅助单元420集成。此类麦克风可以被配置为检测环境声音、环境噪声、用户或第三方的声音、或其它声音。

图5示出了可以对应于示例混合现实系统的示例功能框图，诸如上述混合现实系统300(其可以对应于关于图2A的混合现实系统212)。如图5所示，示例手持式控制器500B(其可以对应于手持式控制器400(“图腾(totem)”))包括图腾到可穿戴头部设备六自由度(6DOF)图腾子系统504A，并且示例可穿戴头部设备500A(其可以对应于可穿戴头部设备2102)包括图腾到可穿戴头部设备6DOF子系统504B。在该示例中，6DOF图腾子系统504A和6DOF子系统504B共同确定手持式控制器500B相对于可穿戴头部设备500A的六个坐标(例如，三个平移方向中的偏移和沿三个轴的旋转)。六个自由度可以相对于可穿戴头部设备500A的坐标系表达。在此类坐标系中，三个平移偏移量可以表达为X、Y和Z偏移量，可以表达为平移矩阵、或为一些其它表示。旋转自由度可以表达为一序列的偏航、俯仰和滚动旋转，表达为旋转矩阵，表达为四元数，或表达为一些其它表示。在一些示例中，可穿戴头部设备500A；可穿戴头部设备500A中包括的一个或多个深度相机544(和/或一个或多个非深度相机)；和/或一个或多个光学瞄准(例如，如上所述的手持式控制器500B的按钮450、或手持式控制器500B中包括的专用光学瞄准)可用于6DOF跟踪。在一些示例中，如上所述，手持式控制器500B可以包括相机；并且可穿戴头部设备500A可包括与相机一起用于光学跟踪的光学瞄准。在一些示例中，可穿戴头部设备500A和手持式控制器500B各自包括一组三个正交取向的螺线管，其用于无线地发送和接收三个可区分的信号。通过测量在用于接收的每个线圈中所接收到的三个可区分信号的相对幅度，可以确定可穿戴头部设备500A相对于手持式控制器500B的6DOF。附加地，6DOF图腾子系统504A可以包括惯性测量单元(IMU)，该惯性测量单元可用于提供有关快速运动的手持式控制器500B的改进的精度和/或更及时的信息。

在一些示例中，可以有必要将坐标从局部坐标空间(例如，相对于可穿戴头部设备500A固定的坐标空间)变换为惯性坐标空间(例如，相对于现实环境固定的坐标空间)，例如以补偿可穿戴头部设备500A相对于坐标系208的运动。例如，这种变换对于可穿戴头部设备500A的显示器可能是必要的，以在相对于现实环境的预期位置和取向呈现虚拟对象(例如，虚拟人坐在现实椅子上，面向前方，而不考虑可穿戴头部设备的位置和取向)而不是在显示器上的固定位置和取向呈现虚拟对象(例如，在显示器右下角的相同位置)，以保持虚拟对象存在于现实环境中的错觉(并且不会例如在可穿戴头部设备500A移动和旋转时出现在现实环境中不自然的位置)。在一些示例中，可以使用SLAM和/或视觉测距过程通过处理来自深度相机544的图像来确定坐标空间之间的补偿变换，以便确定可穿戴头部设备500A相对于坐标系208的变换。在图5中所示的示例中，深度相机544被耦合到SLAM/视觉测距模块506，并且可以向模块506提供图像。SLAM/视觉测距模块506的实现方式可以包括处理器，该处理器被配置为处理该图像并确定用户的头部的位置和取向，该位置和取向然后可以用于识别头部坐标空间与另一坐标空间(例如，惯性坐标空间)之间的变换。类似地，在一些示例中，关于用户的头部姿势和位置的附加信息源从IMU 509获得。来自IMU 509的信息可以与来自SLAM/视觉测距模块506的信息集成在一起，以提供关于用户的头部姿势和位置的快速调节的改进的准确性和/或更及时的信息。

在一些示例中，深度相机544可以将3D图像提供给手势跟踪器511，这可以在可穿戴头部设备500A的处理器中实现。手势跟踪器511可以例如通过将从深度相机544接收的3D图像与表示手势的存储图案(pattern)进行匹配来识别用户的手势。识别用户手势的其它合适技术将显而易见。

在一些示例中，一个或多个处理器516可以被配置为从可穿戴头部设备的6DOF头盔子系统504B、IMU 509、SLAM/视觉测距模块506、深度相机544、和/或手势跟踪器511接收数据。处理器516还可以发送和接收来自6DOF图腾系统的控制信号。诸如在手持式控制器500B不受束缚的示例中，处理器516可以无线地耦合到6DOF图腾系统。处理器516可以进一步与附加组件通信，诸如视听内容存储器518、图形处理单元(GPU)520和/或数字信号处理器(DSP)音频声场定位器(spatializer)522。DSP音频声场定位器522可以耦合到头部相关传输函数(HRTF)存储器525。GPU 520可以包括耦合到逐图像调制光的左源524的左通道输出和耦合到逐图像调制光的右源526的右通道输出。GPU 520可将立体图像数据输出到逐图像调制光的源524、526，例如以上关于图3A至3D所描述。DSP音频声场定位器522可以将音频输出到左扬声器512和/或右扬声器514。DSP音频声场定位器522可以从处理器519接收指示从用户到虚拟声源的方向矢量的输入(该虚拟声源可以由用户例如经由手持控制器来移动)。基于方向矢量，DSP音频声场定位器522可以确定对应的HRTF(例如，通过访问HRTF，或者通过内插多个HRTF)。然后，DSP音频声场定位器522可以将所确定的HRTF应用于音频信号，诸如与由虚拟对象生成的虚拟声音相对应的音频信号。通过在混合现实环境中结合用户相对于虚拟声音的相对位置和取向，也就是说，通过呈现与虚拟声音听起来像是在真实环境中的真实声音的用户期望相匹配的虚拟声音，可以增强虚拟声音的可信度和真实性。

在一些示例中，诸如图5中所示，处理器516、GPU 520、DSP音频声场定位器522、HRTF存储器525、和音频/视频内容存储器中的一个或多个可以被包括在辅助单元500C(其可以对应于上述辅助单元420)中。辅助单元500C可以包括电池527，以对其组件供电和/或向可穿戴头部设备500A或手持式控制器500B供电。将此类组件包括在可以安装到用户腰部的辅助单元中，可以限制可穿戴头部设备500A的大小和重量，这进而可以减少用户头部和颈部的疲劳。

尽管图5呈现了与示例混合现实系统的各个组件相对应的元件，但是这些组件的各种其它合适的布置对于本领域技术人员而言将变得显而易见。例如，与辅助单元500C相关联的图5中呈现的元件可以替代地与可穿戴头部设备500A或手持式控制器500B相关联。此外，一些混合现实系统可以完全放弃手持式控制器500B或辅助单元500C。此类改变和修改应被理解为包括在所公开的示例的范围内。

以人为中心的AI

为了在更深刻和个人层面上增强现实世界并与之交互，用户可以将其关于环境和自身的数据暴露给平台(其可以对应于MR系统212、300)。在各种实施例中，用户拥有他们的数据，但是至少一个重要的用途可以是增强用户对系统的体验，因此系统可被配置为允许用户控制谁可以访问此信息以及何时可以访问此信息，从而允许用户共享他们的虚拟和物理数据。

参考图6，在各种实施例中，用于可穿戴计算的以人为中心的AI配置可以建立在三个基本支柱上：用户602、用户的AI同伴604、以及用户周围的环境或空间606(其可以是MRE并且包括用户的物理环境和用户的虚拟环境)。由于主题AI系统及其配置可以以人为中心，因此用户可以成为这种配置的主要焦点。在各个实施例中，可以通过用户的行为、情绪、偏好、社交图、气质和物理属性来表征用户。在一个实施例中，虚拟AI同伴可以通过类似的一组属性来表征，以“使”其更加人性化。这些可以包括个性(personality)、记忆、知识、状态、动作、以及与人以及机器交互的能力(其可以称为“Oz”，并可以与“可通行的世界”或其部分的概念相关联，如在上述合并的参考文献中描述的)。此外，类似于“根据广义相对论，没有以太的空间是不可想象的(According to the general theory of relativity spacewithout ether is unthinkable)”，在没有环境的情况下，用户与AI之间的交互可能是不可想象的。环境可用来指示上下文并提供体验的边界。可以通过3D重建和场景理解以及对人类及其交互的理解来对用户周围的环境进行参数化。上述三个支柱之间的交互促进了以人为中心的AI作为平台。

记忆图

图7描绘了用于创建示例记忆图701的示例系统700。记忆图701可以包括一个或多个节点716，其可以具有与其他节点的一个或多个关联。在一些实施例中，记忆图701可以表示关于由MR系统(例如，MR系统212、300)捕获的用户的所有信息。在一些实施例中，记忆图701可以从至少三个源接收输入：环境观察模块702、用户观察模块708、和外部资源714。

示例环境观察模块702可以接收一个或多个传感器输入704a至704n。传感器输入704a至704n可以包括用于SLAM的输入。MR系统(例如，MR系统212、300)可以使用SLAM来识别物理环境中的物理特征并且相对于物理环境并且相对于彼此定位那些物理特征。同时，MR系统(例如，MR系统212、300)可以在物理环境内并且相对于物理特征定位自身。SLAM可以构建对用户的物理环境的理解，这可以使MR系统(例如MR系统212、300)创建尊重用户的物理环境并与之交互的虚拟环境。例如，为了使MR系统(例如，MR系统212、300)在用户附近显示虚拟AI同伴，可以期望MR系统识别用户的物理环境的物理地板并显示虚拟人化身就像站在物理地板上一样。在一些实施例中，当用户在房间周围走动时，虚拟人化身可以与用户一起移动(像物理同伴)，并且期望虚拟人化身识别物理障碍(例如，桌子)使得虚拟人化身看起来不行走穿过桌子。在一些实施例中，当用户坐下时，期望虚拟人化身看起来像是坐下。因此，对于SLAM而言，将物理对象识别为椅子并识别该椅子的尺寸，以使MR系统(例如，MR系统212、300)可以将虚拟人化身显示为坐在该椅子上是有益的。将显示给用户的虚拟环境与用户的物理环境集成在一起，可以创建使用户感到自然就像用户正在与物理实体进行交互一样的无缝体验。

SLAM可以依靠来自例如一个或多个使用视觉测距的相机的视觉输入。相机可以捕获用户的环境的图像，而安装在MR系统(例如MR系统212、300)上的相机可以在用户看向的方向上捕获图像。由SLAM相机捕获的图像可被馈送到计算机视觉模块中，计算机视觉模块可以识别由SLAM相机捕获的特征。可以跨多个图像跟踪识别的特征，以确定特征在物理环境中的位置以及用户相对于该特征和/或物理环境的位置和取向。利用至少两个彼此分开放置的SLAM相机可能会有所帮助，这样每个SLAM相机都可以从不同的角度捕获图像。这种立体成像可以提供有关特征在物理环境中的位置和取向的附加深度信息。

其他传感器输入也可以协助SLAM。例如，可以使用视觉惯性测距将来自IMU的传感器数据用于SLAM。IMU可以提供诸如MR系统(例如，MR系统212、300)以及对应地穿戴MR系统的用户的加速度和旋转速度的信息。IMU信息可以与视觉信息耦合(couple)，以确定识别的特征在物理环境中的位置和/或取向。例如，IMU信息和视觉信息可用于确定重力矢量，其可以锚定物理环境的构造图。IMU信息还可用于确定用户在捕获的视觉帧之间移动和/或旋转了多远，从而提供了用于在物理环境中定位(locating)和放置(positioning)特征的附加信息。可以协助SLAM的附加传感器输入可以包括来自例如深度传感器、LIDAR传感器和/或飞行时间传感器的深度信息。这些传感器可以提供在物理环境中定位和取向特征的附加信息。当视觉传感器捕获相对较少的特征(例如空白墙的图像)时，深度信息可以特别有用，以在多个图像之间进行跟踪。

在一些示例中，传感器输入704a至704n可以包括其他方法来创建用户的环境的地图。例如，传感器输入704a至704n可以包括来自可以对MR系统(例如，MR系统212、300)进行地理定位的GPS传感器和/或Wi-Fi芯片的输入。然后，地理定位的MR系统可以基于其位置信息从服务器下载有关其位置和环境的预先存在的信息。例如，MR系统可以基于其位置从在线地图服务下载3D地图。可以基于来自传感器输入704a至704n的观察来修改或覆盖预先存在的信息。尽管使用了特定示例，但是可以预期，可由MR系统(例如MR系统212、300)捕获并用于确定用户的环境的任何传感器输入都在本公开的范围内。传感器输入704a至704n可用于在框706中创建用户的物理环境的地图，并且该信息可被馈送到记忆图701中。

示例用户观察模块708可以接收一个或多个传感器输入710a至710n(其可以对应于传感器输入704a至704n)。传感器输入710a至710n可以捕获关于用户以及用户对MRE中各种刺激的响应的信息。在一些实施例中，传感器输入710a至710n可以捕获用户对MRE中各种刺激的显式(explicit)响应。例如，传感器输入710a至710n可以包括由MR系统(例如，MR系统212、300)上的一个或多个麦克风捕获的音频信号。在一些实施例中，用户可以大声说出“我喜欢那个”，其可以由MR系统(例如，MR系统212、300)上的一个或多个麦克风记录。该一个或多个麦克风可以处理该音频信号来转录(transcribe)用户的语音，并且可以将该转录馈送到例如自然语言处理单元中，以确定口语词(spoken word)背后的含义。在一些实施例中，MR系统(例如，MR系统212、300)可以确定该音频信号源自穿戴该MR系统的用户。例如，可以对该音频信号进行处理，并将其与该用户的语音的一个或多个先前已知的记录进行比较，以确定该用户是否是该说话者。在其他实施例中，位于MR系统(例如，MR系统212、300)上的两个麦克风可以与用户的嘴等距；因此，由该两个麦克风捕获的音频信号可以包含大约相同振幅的大约相同的语音信号，并且该信息可用于确定该用户是该说话者。

在一些实施例中，传感器输入710a至710n可以捕获用户可以用来显式指示对一个或多个刺激的响应的其他方法。例如，用户可以执行“竖起大拇指(thumbs-up)”手势，MR系统(例如，MR系统212、300)可以经由一个或多个相机捕获该手势。可以使用计算机视觉方法来处理所捕获的图像以确定用户执行了竖起大拇指手势，并且MR系统(例如，MR系统212、300)可以确定用户正在通过该手势指示赞成(approval)。该手势可以由该系统提示或不提示。提示的手势可以包括指示如果用户喜欢刺激则该用户可以执行特定手势的系统。在另一个示例中，用户可以按下控制器上的按钮，该控制器可以是MR系统(例如，MR系统212、300)的一部分。在另一个示例中，用户可以点头。MR系统(例如，MR系统212、300)可以使用例如相机和/或IMU来捕获该信息，并且确定用户正在指示赞成。尽管使用了特定示例，但是可以预期，可由MR系统(例如MR系统212、300)捕获的任何显式响应都在本公开的范围内。

传感器输入710a至710n还可以捕获用户对MRE中各种刺激的隐式(implicit)响应。例如，传感器输入710a至710n可以捕获关于用户的注视的信息以确定用户感兴趣的范围(例如，眼睛跟踪传感器可以确定用户的注视的方向，确定用户正在看什么对象，和/或确定用户的注视的持续时间)。传感器输入710a至710n可以包括来自安装在MR系统(例如MR系统212、300)上的一个或多个可以捕获关于用户的视场中的物理对象的信息的面向外相机(outward facing camera)的输入。传感器输入710a至710n可以进一步包括来自安装在MR系统(例如，MR系统212、300)上的一个或多个可以捕获关于用户的眼睛运动的信息的面向内相机(inward facing camera)的输入。可以组合这些输入以确定用户的注视以及用户正在看MRE中的什么内容(例如，用户正在看的物理和/或虚拟对象)。在一些实施例中，MR系统(例如，MR系统212、300)可以确定用户正在看物理或虚拟对象多长时间并确定感兴趣水平。例如，如果用户长时间注视物理或虚拟对象，则MR系统(例如，MR系统212、300)可以确定高水平感兴趣。在另一示例中，安装在MR系统(例如，MR系统212、300)上的一个或多个面向内相机可以捕获关于用户的嘴部运动的信息。如果用户在微笑，则MR系统(例如，MR系统212、300)可以基于用户的嘴部运动来确定亲和(affinity)水平。在另一示例中，安装在MR系统(例如MR系统212、300)上的一个或多个面向内相机可以捕获关于用户的肤色(complexion)的信息。如果用户的肤色变红，则MR系统(例如MR系统212、300)可以确定情绪强度水平，并且适当的情绪可以使用其他传感器输入710a至710n来确定(例如，用户是否在微笑，用户是否在说话(包括用户在说什么以及用户说话的音量)，和/或用户是否在笑)。隐式响应还可以包括用户发出的声音，例如大笑、喘气(gasping)、呻吟(groaning)等，这些声音可被捕获为传感器输入并被解释为确定用户的情绪状态。尽管使用了特定示例，但是可以预期，可由MR系统(例如MR系统212、300)捕获的任何隐式响应都在本公开的范围内。在框712处，传感器输入710a至710n可用于确定用户响应，并且该信息可被馈送到记忆图701。

外部资源714可以向记忆图701提供进一步的信息。例如，外部资源714可以包括预先存在的社交图。社会图可以表示实体之间的关系。例如，社交图可以将各种文学作品链接到同一个作者，社交图可以将各种声音链接到同一个艺术家，社交图可以将人链接在一起(例如，作为同事，朋友或家人)，社交图可以将图像链接在一起(例如，作为华盛顿纪念碑的所有图像、或狗的所有图像)等。可以从社交媒体网站、网络爬行算法、或任何可用源中提取社交图。社交图也可以由MR系统(例如，MR系统212、300)使用传感器输入(例如，传感器输入704a至704n和/或传感器输入710a至710n)来创建和/或修改。外部资源也可以包括其他形式的信息。例如，外部资源714可以包括连接的电子邮件帐户，其可以提供对用户的电子邮件内容的访问。可以将外部资源714馈送到记忆图701中。

如图7所示，环境观察模块702、用户观察模块708、和外部资源714可用于创建示例记忆图701。示例记忆图701可以包括一个或多个节点716。节点716可以表示物理对象、虚拟对象、事件、动作、声音、用户响应、和/或通常用户可以遇到的任何体验。节点716可以被连接到一个或多个节点，并且这些连接可以表示节点可以彼此链接的任何方式。连接可以表示空间连接(例如，桌子和椅子彼此靠近放置)、时间连接(例如，雨停下来并且用户不久之后去跑步了)、语义连接(例如，所识别的人是用户的同事)或任何其他连接。

记忆图可以表示关于用户的所有已知和/或学习的信息，以及该信息如何与自身和其他信息相关。例如，节点716c可以表示用户先前到伦敦的假期。节点716c可以使用传感器输入704a至704n(例如，GPS传感器识别出穿戴MR系统的用户在伦敦，和/或相机识别出如白金汉宫的伦敦地标)和/或外部资源714(例如，连接的电子邮件帐户包含包括往返伦敦的航班的旅行行程和/或伦敦的酒店行程)来生成。节点716e可以表示用户在其伦敦旅行期间所住的酒店，并且节点716e可以经由空间(例如，酒店位于伦敦)、时间(例如，当用户访问伦敦时用户在该酒店)、语义(例如，该酒店名称中带有单词“伦敦”)、和/或其他连接被连接到节点716c。节点716d可以表示用户在伦敦旅行期间参加的足球比赛，而节点716f可以表示用户在该足球比赛期间踢的球队。节点716d可以经由空间(例如，体育场位于伦敦)、时间(例如，用户在访问伦敦时用户在该体育场)、语义、和/或其他连接而被连接到节点716c。节点716d可以经由空间(例如，该球队曾在伦敦)、时间(例如，该球队在该比赛期间在伦敦)、语义(例如，该球队就在伦敦)和/或其他连接被连接到节点716f。类似地，节点716f可以经由空间(例如，用户曾与该球队在同一城市)、时间(例如，用户在访问伦敦时观看球队比赛)、语义和/或其他连接被连接到节点716c。

每个节点可以具有相关联的用户反应，其可以根据传感器输入710a至710n确定，并且该关联可以从环境观察模块702和/或外部资源714生成。例如，MR系统(例如MR系统212、300)可以观察到用户微笑了(例如，使用面向内相机)，并且用户观察模块可以确定用户反应(例如，该用户是高兴的)。环境观察模块702和/或外部资源714可以观察到用户已经进入他们的酒店房间(例如，使用GPS和/或WiFi信息来确定用户在酒店中，并且使用视觉相机来确定用户已经进入房间，其中，该门上的门号与用户的电子邮件中提供的房间号匹配)。由用户观察模块708提供的信息可以基于例如它们的时间关系与由环境观察模块702和/或外部资源714提供的信息相关联。如果确定当用户进入他们的房间时微笑了，则可以确定用户对酒店感到满意。用户反应与节点之间的关联可以是时间关联(例如，该反应在时间上邻近节点所表示的事件而发生)、空间关联(例如，该反应在用户在物理上与由节点所表示的位置邻近时或用户物理上靠近由节点所表示的对象时而发生)、或任何其他关联或关联的组合。

节点之间的连接可以基于节点的连接程度进行加权，和/或可以基于用户对关联节点的反应进行加权。例如，如果确定用户特别喜欢由节点表示的事件，则连接的节点的连接权重可以更高。在一些实施例中，用户的负面反应可以导致一个或多个关联连接的权重变得更高(例如，虚拟同伴推荐用户应避免某个对象/事件/体验)或更低(例如，避免推荐用户应尝试某个对象/事件/体验)。

在MRE中呈现虚拟同伴

图8示出了用于在MRE中向用户呈现虚拟同伴的示例系统800。向用户呈现虚拟同伴可以使用来自数据库802、环境观察模块808(其可以对应于环境观察模块702)、和/或用户观察模块814(其可以对应于用户观察模块708)的信息。可能需要利用来自MR系统(例如MR系统212、300)的信息来呈现逼真的虚拟同伴，该虚拟同伴尊重、占据并与用户的物理环境进行交互，以与虚拟内容创建无缝交互，该虚拟内容复制与物理内容的交互。无缝性(seamlessness)可以是可能存在于MR系统(例如MR系统212、300)上的数量众多和种类繁多的传感器，再加上MR系统“始终在线(always-on)”性质(例如用户不需要故意与MR系统交互，以使MR系统接收有关用户和用户的环境的输入)。

数据库802可用于在MRE中呈现虚拟同伴，数据库802可包括各种信息。例如，数据库802可以包括记忆图804a(其可以对应于记忆图701)，并且记忆图804a可以表示关于用户的所有(或至少一部分)已知和/或学习的信息。数据库802还可以包括脚本化(script)信息804b。脚本化信息804b可以包括脚本化动画和/或姿势，MR系统(例如，MR系统212、300)可以使用该脚本化动画和/或姿势来将虚拟同伴渲染为人类化身。例如，脚本化信息804b可以包括人类行动者行走、坐着和奔跑的记录，其可被动画化(例如，成网格动画)。脚本化信息804b还可以包括人类行动者的语音记录，其可被分解为语言构建块，并用于为虚拟同伴合成人类语音。数据库802还可以包括学习的信息804c。在一些实施例中，学习的信息804c可以补充和/或覆盖脚本化信息804b。例如，学习的信息804c可以包括用户以特定的自然语言和/或特定的口音讲话的信息。MR系统(例如，MR系统212、300)可以通过用户讲话的音频记录(例如，通过机器学习)来学习该语言和/或口音，并且可以修改脚本化的语音记录和/或生成新的语音记录以以适当的语言和/或口音将其合成为人类语音。数据库802可以进一步包括来自用户提示804d的信息。用户提示804d可以包括直接从用户获得的信息。例如，虚拟同伴可以向用户提问作为初始化过程的一部分(例如，虚拟同伴可以向用户“介绍”自己，并提出可以是典型的介绍的问题)。在一些实施例中，包含在804b至804d中的一些或全部信息也可以在记忆图804a中表示。

数据库802中存储的信息可用于向用户呈现大量的详细和个性化信息。例如，用户可以问虚拟同伴“去年我去伦敦时我住哪儿？”可以查询数据库802和/或记忆图804a，并且虚拟同伴可以基于收集到的关于用户的信息来告诉用户该用户住过哪家酒店。

环境模块还可以用于以无缝方式在MRE中呈现虚拟同伴，使得虚拟同伴表现为现实环境中的现实同伴。例如，环境模块可以确定用户附近空椅子的存在。当用户坐下时，MR系统(例如，MR系统212、300)可以在与用户占据在相同空间并且还坐在空椅子上的情况下显示人类化身。类似地，当用户到处走动时，人类化身可被显示为与用户一起移动，并且人类化身可被显示为避开诸如椅子之类的物理障碍，并且通常尊重物理环境(例如，爬(traverse)一组楼梯而不是行走穿过(walkthrough)它们)。

用户观察模块814还可用于以无缝方式在MRE中呈现虚拟同伴，使得呈现的虚拟同伴的情绪状态镜像(mirror)(或至少近似)用户的情绪状态，如上基于用户的显式和/或隐式提示描述的。例如，用户观察模块814可以确定用户的总体情绪(例如，基于捕获关于用户微笑的信息的面向内相机来确定用户是高兴的)，并且虚拟同伴可以镜像用户的行为(例如，虚拟同伴也可被显示为在微笑)。

在一些实施例中，数据库802、环境观察模块808、和用户观察模块814可以提供可被组合以在用户所占据的MRE中呈现无缝的虚拟同伴体验的信息。在一些实施例中，在某些情况下，MR系统(例如，MR系统212、300)上的传感器允许虚拟同伴在用户的MRE中呈现信息，而无需用户的任何提示。例如，MR系统(例如MR系统212、300)可以确定用户正在与另一人讨论伦敦的住宿情况(例如MR系统上的麦克风检测到被转录并发送给自然语言处理器的音频信号，并且MR系统上的相机检测并识别了用户的视场中的人)，并且用户正在尝试回想信息(例如，MR系统上的面向内相机检测到用户的眼睛向上看)。然后数据库802可以被访问，并且来自环境观察模块808和用户观察模块814的上下文信息可被用来确定用户在他们先前的伦敦旅行期间所住的酒店。然后，该信息可以以不显眼且可访问的方式实时地呈现给用户(例如，经由显示给用户的虚拟文本气泡，或经由虚拟同伴持有的信息卡)。在其他实施例中，虚拟同伴可以通过用户的显式提示(例如，用户可以问虚拟同伴他们在伦敦住过的地方)在其MRE中向用户呈现信息(显式和/或隐式学习的)。

在某些实施例中，虚拟同伴可以与用户以及用户的MRE交互。例如，虚拟同伴可以将自己呈现为狗的虚拟化身，而用户可以与虚拟同伴玩取回游戏。用户可以扔出虚拟的或物理的棍子，并且虚拟同伴可被呈现为在用户占据的物理环境中移动并尊重物理环境中的障碍(例如，通过在障碍周围移动)。在另一个示例中，MR系统(例如，MR系统212、300)可以连接到其他设备(例如，智能灯泡)，并且用户可以请求虚拟同伴打开灯。可以访问由MR系统(例如，MR系统212、300)提供的数据的虚拟同伴具有许多益处。例如，信息可以由MR系统连续记录，而无需用户干预(当前是否正在显示虚拟同伴)。类似地，基于连续记录的信息，可以在没有用户干预的情况下向用户呈现信息。

虚拟同伴的示例

参考图9A，示出了人类用户(“Alex”)坐在他的现实客厅中的沙发上；他穿着可穿戴计算系统(例如，MR系统212、300)，并且该系统创建了该房间和他周围对象的网格，如图9B所示。还参考图9B，虚拟同伴(其可被称为“Aya”)在所描绘的图示中看起来像全息图。参考图9C至9E，在该实施例中，Aya注意到对Alex的偏好的观察(例如，在记忆图701、804a中存储和关联的观察)，房间异常暗(例如，经由MR系统212、300上的相机)，并为Alex打开该房间中的实际/物理灯(例如，通过与智能灯泡的无线连接)。Aya继续扫描该环境并了解其环境(例如，使用SLAM和MR系统212、300上的传感器)。该场景被分割，对象被检测并被存储在Aya的记忆中，其可被称为“生命流”，在图9C至9I的右侧被描绘为信息节点的关联。生命流可以对应于记忆图701、804a。在一个实施例中，生命流可被定义为捕获人的包括物理和虚拟观察和体验的总体验流(例如，从出生到死亡)的理论完美数据集。

参考图9F，Alex看着Aya，问道：“Aya，去年夏天在Pink Floyd演唱会上我喜欢什么歌？”参考图9G，Aya询问生命流并检索演唱会的回忆，并回复说：“墙上的另一块砖(Anotherbrick in the wall)”。参考图9H，Alex评论：“哇，太神奇了！没有您的帮助，我永远不会想起。可以在电视上播放吗？”Aya可以在房间中的实际电视上播放该音乐视频，或者替代地可以经由的增强现实电视为Alex呈现该视频。例如，可以通过他的耳机或其他扬声器将音频呈现给Alex。

参考图9I，在他们对话之后，另一个现实的人(“Erica”)进入房间并向Alex致意。Aya扫描Erica的脸并认出她。Aya通过在可穿戴计算机系统部件(例如MR系统212、300)上与Alex眼睛邻近定位的相机来感知Alex对Erica的反应，并“看到”他很高兴看到Erica。Aya创建另一个记忆快照，并将其存储在生命流中。

参考图9J，在Alex向Erica打招呼之后，他让她知道Aya刚使他想起了他在PinkFloyd演唱会上喜欢的一首歌。Erica回答说她想听，所以Alex要求Aya通过房间中的物理扬声器播放这首歌，以便Erica也能听到。Aya打开这首歌让所有人听，告诉John她以后再和他说话并消失。

参考图10A和10B，虚拟的、数字的和/或混合的或增强的现实助手或同伴，例如在此强调的实施例，被称为“Mica”，优选地可配置为具有某些能力和特征，例如可接近性、同理心、理解、记忆和表情。各种因素可以为这种AI助手或同伴的呈现提供输入，例如照明和逼真的发光、逼真的运动模型、基于用户的反应模型、以及注意力模型。计算机图形、动画、捕获和扫描系统对于创建栩栩如生的虚拟同伴至关重要，并且细致入微的细节对于获得引人入胜的体验可能是必需的。它可能需要来自各个学科的专家紧密合作。一件事弄错了，角色可以会变得与众不同-但是，当你把事情弄对时，就可以实现存在和代理。相对于任何其他类型的角色，数字人无疑是最困难的，但它也是用户最熟悉的东西，并且因此可以成为开发平易近人的AI的最令人满意的手段。在混合现实中，与运动图片(motion picture)相比，条形可以说更高。与角色的交互不能脚本化；通过定义，用户应影响角色的响应方式。例如，在开发了精确的合成眼睛表示系统之后，角色和AI系统可被设置来跟踪用户的注视。用户可以对角色有强烈的见解，例如以描述人类的方式发表评论。这对于开发以人为中心的AI界面很重要。随着这些发展，重要的属性可能需要特别关注与AI相关的系统的设计和发展。如上所述，期望该系统向用户呈现平易近人、富有同情心、持久(即具有记忆并利用生命流的概念)并且知识渊博且有帮助的角色。这些发展可以成为使AI减少疏远感和使用户更加自然的门户。尽管表示人类或角色的挑战很多，但角色实施例也充分发挥了所有人所拥有的知识和理解的细微差别。

上下文、细节和细微差别可以很关键，而且智能并不存在于真空中。就像在人类智能中一样，AI不仅可以从一个系统中出现，而且可以从多个部件和代理的交互中出现。可能需要将主题系统及其配置开发为以人为中心的AI界面与混合现实的重要基准，并且还可能需要开发软件系统帮助创作者和开发人员创造以人为中心的体验。可能需要帮助开发人员创建和构建由人性化AI驱动的体验-这些体验会调用现实的感觉和情绪，并促进信息和计算系统的非常有效的使用。

在此描述了本发明的各种示例性实施例。在非限制性意义上参考这些示例。提供它们是为了说明本发明的更广泛适用的方面。在不脱离本发明的真实精神和范围的情况下，可以对所描述的本发明进行各种改变，并且可以替换等同物。另外，可以做出许多修改以使特定情况、材料、物质组成、过程、过程动作或步骤适应本发明的目的、精神或范围。此外，如本领域技术人员将理解的是，在此描述和示出的每个单独变体具有离散的组件和特征，其可以容易地与其它几个实施例中的任何一个的特征分离或组合，而不脱离本发明的范围或精神。所有此类修改旨在落入与本公开相关联的权利要求的范围内。

本发明包括可以使用主题设备来执行的方法。该方法可以包括提供此类合适设备的动作。此类提供可以由终端用户执行。换句话说，“提供”动作仅要求终端用户获得、访问、接近、定位、设置、激活、加电或者以其它方式运作以提供本主题方法中的必要设备。可以以逻辑上可能的所叙述事件的任何顺序以及所叙述事件的顺序来执行在此所叙述的方法。

上面已经阐述了本发明的示例性方面以及有关材料选择和制造的细节。至于本发明的其它细节，可以结合以上引用的专利和出版物以及本领域技术人员通常已知或理解的这些来理解。就本发明的基于方法的方面而言，就通常或逻辑上采用的附加动作而言，这同样适用。

另外，尽管已经参考可选地包含各种特征的几个示例描述了本发明，但是本发明不限于关于本发明的每个变型所描述或指示的内容。在不脱离本发明的真实精神和范围的情况下，可以对所描述的本发明进行各种改变，并且可以替换等同物(无论是在本文中引用还是为了简洁起见不包括在内)。另外，在提供值的范围的情况下，应理解，在该范围的上限和下限与该规定范围内的任何其它所述或中间值之间的每个中间值都包括在本发明内。

同样，可以预期，可以独立地或与在此描述的特征中的任何一个或多个相结合地阐述和要求保护所描述的发明变型的任何可选特征。提及单个项目，包括存在多个相同项目的可能性。更具体地，如在此和在其相关联的权利要求中所使用的，单数形式“一”、“一个”、“所述”和“该”包括复数指示物，除非另有具体说明。换句话说，冠词的使用允许以上描述以及与本公开相关联的权利要求中的主题项目的“至少一个”。还应注意，可以将此类权利要求草拟为排除任何可选要素。这样，该陈述旨在作为与权利要求要素的叙述相关联地使用诸如“只”、“仅”等排他性术语的先行基础，或使用“负”限制。

在不使用此类排他性术语的情况下，与本公开内容相关联的权利要求中的术语“包括”应允许包括任何附加要素，而不管这些权利要求中是否列举了给定数量的要素，或者特征的添加可以被认为是改变了此类权利要求中提出的要素的性质。除本文中明确定义外，在保持权利要求有效性的同时，在此使用的所有技术和科学术语应尽可能广泛地赋予通常理解的含义。

本发明的范围不限于所提供的示例和/或本说明书，而是仅限于与本公开相关的权利要求语言的范围。

Claims

1.一种用于虚拟和增强现实的方法，包括：

在第一时间，经由头戴式设备上的第一传感器接收来自用户的环境的第一输入；

基于所述第一输入，确定所述环境中事件的发生；

经由所述头戴式设备上的第二传感器，接收来自所述用户的第二输入；

基于所述第二输入，识别所述用户的情绪反应，其中，从两个或多个不同类型的情绪反应的组中识别所述情绪反应；

确定所述情绪反应与所述事件之间的关联；

在比所述第一时间晚的第二时间，接收所述用户试图回忆与所述事件相关联的信息的指示，所述指示经由所述第二传感器接收；

基于所述指示，构建查询；

在所述第二时间，通过所述头戴式设备的透视显示器呈现所述环境的视图；以及

在所述第二时间，经由通过所述透视显示器所显示的虚拟同伴来呈现对所述查询的响应，其中，基于所确定的所述情绪反应与所述事件之间的关联来确定所述响应。

2.根据权利要求1所述的方法，其中，所述第一输入包括物理对象的图像。

3.根据权利要求1所述的方法，其中，所述第一输入包括音频信号。

4.根据权利要求1所述的方法，其中，所述第二输入包括来自所述用户的语音，以及其中，识别所述用户的情绪反应包括：确定所述语音的至少一部分的内容。

5.根据权利要求1所述的方法，其中，所述第二输入包括所述用户的眼睛运动，以及其中，识别所述用户的情绪反应包括：确定所述用户的注视方向。

6.根据权利要求1所述的方法，其中，所述第二输入包括所述用户的视场，以及其中，识别所述用户的情绪反应包括：识别所述视场内的至少一个对象。

7.根据权利要求1所述的方法，所述方法还包括确定所述情绪反应的强度，其中，刺激基于所述强度来确定。

8.根据权利要求1所述的方法，其中，所述情绪反应与所述事件之间的所述关联是时间关联。

9.根据权利要求1所述的方法，其中，所述情绪反应与所述事件之间的所述关联是空间关联。

10.根据权利要求1所述的方法，其中，所述事件是第一事件，所述方法还包括将所述情绪反应与所述第一事件之间的所述关联存储在记忆图中，其中，所述记忆图包括所述第一事件与第二事件之间的关联。

11.一种用于虚拟和增强现实的系统，包括：

头戴式设备上的第一传感器；

所述头戴式设备上的第二传感器；

所述头戴式设备的透视显示器；

一个或多个处理器，其被配置为执行一种方法，所述方法包括：

在第一时间，经由所述头戴式设备上的所述第一传感器接收来自用户的环境的第一输入；

基于所述第一输入，确定所述环境中事件的发生；

经由所述头戴式设备上的所述第二传感器，接收来自所述用户的第二输入；

确定所述情绪反应与所述事件之间的关联；

基于所述指示，构建查询；

在所述第二时间，通过所述头戴式设备的所述透视显示器呈现所述环境的视图；以及

12.根据权利要求11所述的系统，其中，所述第一输入包括物理对象的图像。

13.根据权利要求11所述的系统，其中，所述第一输入包括音频信号。

14.根据权利要求11所述的系统，其中，所述第二输入包括来自所述用户的语音，以及其中，识别所述用户的情绪反应包括：确定所述语音的至少一部分的内容。

15.根据权利要求11所述的系统，其中，所述第二输入包括所述用户的眼睛运动，以及其中，识别所述用户的情绪反应包括：确定所述用户的注视方向。

16.根据权利要求11所述的系统，其中，所述第二输入包括所述用户的视场，以及其中，识别所述用户的情绪反应包括：识别所述视场内的至少一个对象。

17.根据权利要求11所述的系统，所述方法还包括确定所述情绪反应的强度，其中，刺激基于所述强度来确定。

18.根据权利要求11所述的系统，其中，所述情绪反应与所述事件之间的所述关联是时间关联。

19.根据权利要求11所述的系统，其中，所述情绪反应与所述事件之间的所述关联是空间关联。

20.根据权利要求11所述的系统，其中，所述事件是第一事件，所述方法还包括将所述情绪反应与所述第一事件之间的所述关联存储在记忆图中，其中，所述记忆图包括所述第一事件与第二事件之间的关联。