CN115398935A

CN115398935A - 延迟音频跟随

Info

Publication number: CN115398935A
Application number: CN202180027858.5A
Authority: CN
Inventors: A·A·塔吉克
Original assignee: Magic Leap Inc
Current assignee: Magic Leap Inc
Priority date: 2020-02-14
Filing date: 2021-02-12
Publication date: 2022-11-25
Also published as: EP4104457A4; WO2021163573A1; JP2023514571A; EP4104457A1

Abstract

本文公开了用于呈现混合现实音频的系统和方法。在示例方法中，向可穿戴头部设备的用户呈现音频。基于可穿戴头部设备的一个或多个传感器确定用户头部在第一时间的第一位置。基于一个或多个传感器确定用户头部在比第一时间晚的第二时间的第二位置。基于第一位置与第二位置之间的差，确定音频信号。经由可穿戴头部设备的扬声器向用户呈现音频信号。确定音频信号包括：确定虚拟环境中的音频信号的原点。向用户呈现音频信号包括：将音频信号呈现为就像源自所确定的原点。确定音频信号的原点包括：将偏移应用于用户头部的位置。

Description

延迟音频跟随

相关申请的交叉引用

本申请要求于2020年2月14日提交的美国临时NO.62/976,986的权益，该申请的全部内容通过引用并入本文。

技术领域

本公开大体涉及用于向用户呈现音频的系统和方法，并且特别地，涉及用于在混合现实环境中向用户呈现音频的系统和方法。

背景技术

虚拟环境在计算环境中是普遍存在的，虚拟环境应用于视频游戏(其中，虚拟环境可表示游戏世界)；地图(其中，虚拟环境可表示待导航的地形)；模拟(其中，虚拟环境可模拟真实环境)；数字叙事(其中，虚拟角色可在虚拟环境中彼此交互)；和许多其他应用。现代计算机用户通常舒适感知虚拟环境并且与虚拟环境交互。然而，关于虚拟环境的用户的体验可能由用于呈现虚拟环境的技术限制。例如，常规显示器(例如，2D显示屏)和音频系统(例如，固定扬声器)可能不能够以产生令人信服、逼真并且沉浸式体验的方式实现虚拟环境。

虚拟现实(“VR”)、增强现实(“AR”)、混合现实(“MR”)、和相关技术(统称为“XR”)共享向XR系统的用户呈现与由计算机系统中的数据表示的虚拟环境相对应的感觉信息。这样的系统可通过将虚拟视觉和音频线索与真实视线和声音组合来提供唯一升高的沉浸感和逼真感。因此，可能希望以这样的方式向XR系统的用户呈现数字声音：声音好像自然地且与用户在用户的真实环境中对声音的期望一致地发生。一般而言，用户期望虚拟声音将呈现听到他们的真实环境的声学特性。例如，大型音乐厅中的XR系统的用户将期望XR系统的虚拟声音具有大的、海绵状的音质；相反，小公寓中的用户将期望声音更衰减、接近和即时。除了将虚拟声音与真实和/或虚拟环境的声学特性相匹配之外，通过空间化虚拟声音进一步增强了真实感。例如，虚拟对象可能从后面在视觉上飞过用户，并且用户可能期望对应的虚拟声音类似地反映虚拟对象相对于用户的空间运动。

现有技术往往达不到这些期望，诸如通过呈现不考虑用户周围环境或不与虚拟对象的空间运动相对应的虚拟音频，导致可能损害用户体验的不真实的感觉。对XR系统用户的观察表明，虽然用户可能对虚拟内容和现实环境之间的视觉失配(例如，照明不一致)相对宽容；用户可能对听觉失配更敏感。我们自己的听觉体验，在我们的一生中不断完善，可以使我们敏锐地意识到我们的物理环境如何影响我们听到的声音；我们可以高度感知与那些期望不一致的声音。利用XR系统，这样的不一致可能是刺耳的，并且可能将身临其境且引人入胜的体验变为花哨的模仿体验。在极端示例中，听觉不一致可能导致晕动病和其他不良影响，因为内耳无法将听觉刺激与其对应的视觉线索相协调。

由于我们对我们的音频场景的敏感性，沉浸式音频体验可能与沉浸式视觉体验同等重要，甚至更不重要。由于XR系统可用的各种感测和计算能力，XR系统可以被定位为提供比传统音频系统更沉浸式的音频体验，传统音频系统可以通过将声音分成一个或多个通道来使声音空间化。例如，立体声耳机可以使用左声道和右声道向用户呈现音频，以给出来自不同方向的声音的外观。一些立体声耳机可以模拟附加声道(如5.1声道)以进一步增强音频空间化。然而，传统系统可能遭受空间化声音位置相对于用户是静态的这一事实。例如，当用户旋转其头部时，呈现给用户作为源自距用户的左耳5英尺的吉他声音相对于用户可能不是动态变化的。这样的静态行为可能不反映“真实”环境中的音频行为。例如，参加现场管弦乐队的人可能在他们的基于小头部运动的音频体验中经历轻微的变化。这些小的声学行为可能累积并增加沉浸式音频体验。因此，期望为XR系统开发音频系统和方法以增强用户的音频体验。

通过考虑用户物理环境的特性，本文所描述的系统和方法可以模拟如果虚拟声音是在该环境中自然生成的真实声音，用户将听到什么。通过以忠实于声音在现实世界中表现方式的方式呈现虚拟声音，用户可以体验与混合现实环境的高度关联感。类似地，通过呈现响应于用户运动和环境的位置感知虚拟内容，内容变得更主观、互动和真实——例如，用户在A点处的体验可能与他或她在B点处的体验完全不同。这种增强的逼真感和交互性可以为混合现实的新应用提供基础，诸如使用空间感知音频来使能新颖形式的游戏玩法、社交特征或交互行为的应用。

发明内容

本公开的示例描述了用于呈现混合现实音频的系统和方法。根据本公开的示例，向可穿戴头部设备的用户呈现音频。基于可穿戴头部设备的一个或多个传感器确定用户头部在第一时间的第一位置。基于一个或多个传感器确定所述用户头部在比第一时间晚的第二时间的第二位置。基于所述第一位置与所述第二位置之间的差，确定音频信号。经由所述可穿戴头部设备的扬声器向所述用户呈现所述音频信号。确定所述音频信号包括：确定虚拟环境中的所述音频信号的原点。向所述用户呈现所述音频信号包括：将所述音频信号呈现为就像源自所确定的原点。确定所述音频信号的所述原点包括：将偏移应用于所述用户头部的位置。

附图说明

图1A至图1C示出了根据一些实施例的示例混合现实环境。

图2A至图2D示出了根据一些实施例的可用于生成混合现实环境并且与混合现实环境相互作用的示例混合现实环境的部件。

图3A示出了根据一些实施例的可用于向混合现实环境提供输入的示例混合现实手持式控制器。

图3B示出了根据一些实施例的可与示例混合现实系统一起使用的示例辅助单元。

图4示出了根据一些实施例的用于示例混合现实系统的示例功能框图。

图5示出了根据一些实施例的混合现实空间化音频的示例。

图6A至图6C示出了根据一些实施例的混合现实空间化音频的示例。

具体实施方式

在示例的以下描述中，对形成其一部分并且在其中通过图示的方式示出可以实践的示例的附图进行参考。应理解，在不脱离所公开的示例的范围的情况下，可以使用其他示例并且可以做出结构改变。

混合现实环境

像所有人一样，混合现实系统的用户存在于真实环境中——即，“真实世界”的三维部分和其内容的全部可由用户感知。例如，用户使用个人的普通人类感觉感知真实世界——视线、声音、触碰、味道、气味——并且通过在真实环境中移动自己的身体与真实环境交互。真实环境中的位置可被描述为坐标空间中的坐标；例如，坐标可包括纬度、经度和相对于海平面的海拔；在三个正交维度上距参考点的距离；或其他适合的值。同样地，矢量可描述具有坐标空间中的方向和大小的数量。

计算设备可例如在与设备相关联的存储器中维护虚拟环境的表示。如本文所使用的，虚拟环境是三维空间的计算表示。虚拟环境可包括与该空间相关联的任何对象、动作、信号、参数、坐标、矢量、或其他特性的表示。在一些示例中，计算设备的电路(例如，处理器)可以维护和更新虚拟环境的状态；即，处理器可以在第一时间t0处基于与虚拟环境相关联的数据和/或由用户提供的输入来确定虚拟环境在第二时间t1处的状态。例如，如果虚拟环境中的对象在时间t0处位于第一坐标处，并且具有某个编程的物理参数(例如，质量、摩擦系数)；以及从用户接收的输入指示力应当以方向矢量施加到该对象；处理器可应用运动学定律来使用基础力学确定对象在时间t1处的位置。处理器可以使用关于虚拟环境已知的任何适合的信息和/或任何适合的输入来确定虚拟环境在时间t1处的状态。在维护和更新虚拟环境的状态时，处理器可执行任何适合的软件，包括与虚拟环境中的虚拟对象的创建和删除有关的软件；用于定义虚拟环境中的虚拟对象或角色的行为的软件(例如，脚本)；用于定义虚拟环境中的信号(例如，音频信号)的行为的软件；用于创建和更新与虚拟环境相关联的参数的软件；用于生成虚拟环境中的音频信号的软件；用于处理输入和输出的软件；用于实现网络操作的软件；用于应用资产数据(例如，随时间移动虚拟对象的动画数据)的软件；或许多其他可能性。

输出设备(诸如显示器或者扬声器)可以向用户呈现虚拟环境的任何或所有方面。例如，虚拟环境可包括可以向用户呈现虚拟对象(其可包括无生命对象；人；动物；光；等的表示)。处理器可以确定虚拟环境的视图(例如，与具有坐标原点、视轴和视锥的“相机”相对应)；以及向显示器渲染与该视图相对应的虚拟环境的可视场景。出于该目的，可以使用任何适合的渲染技术。在一些示例中，可视场景可以仅包括虚拟环境中的一些虚拟对象，并且不包括某些其他虚拟对象。类似地，虚拟环境可包括可向用户呈现为一个或多个音频信号的音频方面。例如，虚拟环境中的虚拟对象可生成起源于对象的位置坐标的声音(例如，虚拟角色可以说话或引起声音效果)；或者虚拟环境可以与可以或可以不与特定位置相关联的音乐线索或环境声音相关联。处理器可确定与“听众”坐标相对应的音频信号——例如，与虚拟环境中的声音的复合相对应的音频信号，并且被混合并处理以模拟将由听众坐标处的听众听到的音频信号——并且经由一个或多个扬声器向用户呈现音频信号。

由于虚拟环境仅存在作为计算结构，所以用户不能使用个人的普通感觉直接感知虚拟环境。相反，用户可以仅间接地感知如呈现给用户的虚拟环境，例如通过显示器、扬声器、触觉输出设备等。类似地，用户不能直接触碰、操控、或以其他方式与虚拟环境交互；但是可以经由输入设备或传感器将输入数据提供给可使用设备或传感器数据来更新虚拟环境的处理器。例如，相机传感器可提供指示用户正试图移动虚拟环境中的对象的光学数据，并且处理器可使用该数据使得对象因此在虚拟环境中作出反应。

混合现实系统可以向用户呈现组合真实环境和虚拟环境的各方面的混合现实环境(“MRE”)，例如使用透射式显示器和/或一个或多个扬声器(其可以例如被并入可穿戴头部设备中)。在一些实施例中，一个或多个扬声器可以在头戴式可穿戴单元的外部。如本文所使用的，MRE是真实环境和对应的虚拟环境的同时表示。在一些示例中，对应的真实环境和虚拟环境共享单个坐标空间；在一些示例中，真实坐标空间和对应的虚拟坐标空间通过变换矩阵(或其他适合的表示)彼此相关。因此，单个坐标(在一些示例中，连同变换矩阵一起)可以定义真实环境中的第一位置，以及虚拟环境中对应的第二位置；反之亦然。

在MRE中，虚拟对象(例如，在与MRE相关联的虚拟环境中)可以对应于真实对象(例如，在与MRE相关联的真实环境中)。例如，如果MRE的真实环境包括位置坐标处的真实灯杆(真实对象)，则MRE的虚拟环境可包括对应的位置坐标处的虚拟灯杆(虚拟对象)。如本文所使用的，真实对象与其对应的虚拟对象一起组合构成“混合现实对象”。不需要虚拟对象与对应的真实对象完美匹配或者对准。在一些示例中，虚拟对象可以是对应的真实对象的简化版本。例如，如果真实环境包括真实灯杆，则对应的虚拟对象可以包括具有与真实灯杆粗略地相同高度和半径的圆柱体(可以在形状方面反映该灯杆是粗略地圆柱形)。以这种方式简化虚拟对象可以允许计算效率，并且可以简化将在这样的虚拟对象上执行的计算。进一步地，在MRE的一些示例中，并非所有真实环境中的真实对象可以与对应的虚拟对象相关联。同样地，在MRE的一些示例中，并非所有虚拟环境中的虚拟对象可以与对应的真实对象相关联。即，一些虚拟对象可以仅在MRE的虚拟环境中而没有任何现实世界配对物。

在一些示例中，虚拟对象可以具有与对应的真实对象的特性不同(有时急剧地)的特性。例如，虽然MRE中的真实环境可以包括绿色双臂仙人掌——多刺无生命对象——MRE中的对应的虚拟对象可以包括具有人类面部特征和粗暴行为的绿色双臂虚拟角色的特性。在该示例中，虚拟对象在某些特性(颜色、臂数)方面类似其对应的真实对象；但是在其他特性(面部特征、个性)方面与真实对象不同。以这种方式，虚拟对象具有以创造性、抽象、夸大、或想象的方式表示真实对象的潜在性；或者向其他无生命真实对象给予行为(例如，人类个性)。在一些示例中，虚拟对象可以是纯想象创造而没有现实世界配对物(例如，虚拟环境中的虚拟怪物，也许在与真实环境中的空白空间相对应的位置处)。

与VR系统相比较，该VR系统向用户呈现虚拟环境同时模糊真实环境，呈现MRE的混合现实系统提供在虚拟环境被呈现时真实环境保持可感知的优点。因此，混合现实系统的用户能够使用与真实环境相关联的视觉和音频线索来体验对应的虚拟环境并且与该对应的虚拟环境交互。作为示例，当VR系统的用户可以努力感知或与虚拟环境中显示的虚拟对象交互时——因为如上所述，用户不能直接感知或与虚拟环境交互——MR系统的用户可以发现通过看到、听到和触碰他或她自己的真实环境中的对应的真实对象来与虚拟对象交互是直观并且自然的。该交互性水平可以提高用户与虚拟环境的沉浸感、连接感和接合感。类似地，通过同时呈现真实环境和虚拟环境，混合现实系统可以减少与VR系统相关联的负面心理感觉(例如，认知失调)和负面身体感觉(例如，运动病)。混合现实系统进一步为可以增加或更改我们的真实世界的体验的应用提供许多可能性。

图1A示出了用户110使用混合现实系统112的示例真实环境100。混合现实系统112可以包括显示器(例如，透射式显示器)及一个或多个扬声器、以及一个或多个传感器(例如，相机)，例如如下文所描述的。示出的真实环境100包括用户110正站在的矩形房间104A；以及真实对象122A(灯)、124A(桌子)、126A(沙发)和128A(油画)。房间104A还包括位置坐标106，其可以被称为是真实环境100的原点。如图1A所示，具有在点106(世界坐标)处的原点的环境/世界坐标系108(包括x轴108X、y轴108Y和z轴108Z)可以定义用于真实环境100的坐标空间。在一些实施例中，环境/世界坐标系108的原点106可以与混合现实环境112被供电的位置相对应。在一些实施例中，环境/世界坐标系108的原点106可以在操作期间被重置。在一些示例中，用户110可以被认为是真实环境100中的真实对象；类似地，用户110的身体部分(例如，手部、脚部)可以被认为是真实环境100中的真实对象。在一些示例中，具有在点115(例如，用户/听众/头部坐标)处的原点的用户/听众/头部坐标系114(包括x轴114X、y轴114Y和z轴114Z)可以定义针对混合现实系统112所在的用户/听众/头部的坐标空间。用户/听众/头部坐标系114的原点115可以相对于混合现实系统112的一个或多个部件来定义。例如，用户/听众/头部坐标系114的原点115可以相对于混合现实系统112的显示器来定义，诸如在混合现实系统112的初始校准期间。矩阵(其可以包括平移矩阵和四元数矩阵或其他旋转矩阵)或其他适合的表示可以表征用户/听众/头部坐标系114空间与环境/世界坐标系108空间之间的变换。在一些实施例中，左耳坐标116和右耳坐标117可以相对于用户/听众/头部坐标系114的原点115来定义。矩阵(其可以包括平移矩阵和四元数矩阵或其他旋转矩阵)或其他合适的表示可以表征左耳坐标116和右耳坐标117与用户/听众/头部坐标系114空间之间的变换。用户/听众/头部坐标系114可以简化相对于用户的头部或头戴式设备(例如，相对于环境/世界坐标系108)的位置的表示。使用同时定位和地图创建(SLAM)、视觉里程计或其他技术，用户坐标系114与环境坐标系108之间的变换可以被实时确定和更新。

图1B示出了与真实环境100相对应的示例虚拟环境130。示出的虚拟环境130包括与真实矩形房间104A相对应的虚拟矩形房间104B；与真实对象122A相对应的虚拟对象122B；对应于真实对象124A的虚拟对象124B；以及与真实对象126A相对应的虚拟对象126B。与虚拟对象122B、124B、126B相关联的元数据可以包括从对应的真实对象122A、124A、126A导出的信息。虚拟环境130附加地包括虚拟怪物132，该虚拟怪物132不与真实环境100中的任何真实对象相对应。真实环境100中的真实对象128A不与虚拟环境130中的任何虚拟对象相对应。具有点134(持久坐标)处的原点的持久坐标系133(包括x轴133X、y轴133Y和z轴133Z)可以定义用于虚拟内容的坐标空间。持久坐标系133的原点134可以相对于/关于一个或多个真实对象，诸如真实对象126A，来定义。矩阵(其可以包括平移矩阵和四元数矩阵或其他旋转矩阵)或其他适合的表示可以表征持久坐标系133空间与环境/世界坐标系108空间之间的变换。在一些实施例中，虚拟对象122B、124B、126B和132中的每个虚拟对象可以具有其自己相对于持久坐标系133的原点134的持久坐标点。在一些实施例中，可以存在多个持久坐标系，并且虚拟对象122B、124B、126B和132中的每个虚拟对象可以具有其自己相对于一个或多个持久坐标系的持久坐标点。

相对于图1A和图1B，环境/世界坐标系108定义用于真实环境100和虚拟环境130的共享坐标空间。在示出的示例中，坐标空间具有点106处的原点。进一步地，坐标空间由相同的三个正交轴(108X、108Y、108Z)来定义。因此，真实环境100中的第一位置和对应的虚拟环境130中的第二位置可以相对于相同坐标系来描述。这简化了标识和显示真实环境和虚拟环境中的对应的位置，因为相同坐标可以用于标识这两个位置。然而，在一些示例中，对应的真实环境和虚拟环境不需要使用共享坐标空间。例如，在一些示例中(未示出)，矩阵(其可以包括平移矩阵和四元数矩阵或其他旋转矩阵)或其他适合的表示可以表征真实环境坐标空间与虚拟环境坐标空间之间的变换。

图1C示出了经由混合现实系统112同时向用户呈现真实环境100和虚拟环境130的各方面的示例MRE 150。在示出的示例中，MRE 150同时向用户110呈现来自真实环境100的真实对象122A、124A、126A和128A(例如，经由混合现实系统112的显示器的透射部分)；以及来自虚拟环境130的虚拟对象122B、124B、126B和132(例如，经由混合现实系统112的显示器的有源显示部分)。如上文，原点106充当用于与MRE 150相对应的坐标空间的原点，并且坐标系108定义用于坐标空间的x轴、y轴和z轴。

在示出的示例中，混合现实对象包括占用坐标空间108中的对应位置的对应的真实对象和虚拟对象对(即，122A/122B、124A/124B、126A/126B)。在一些示例中，真实对象和虚拟对象二者可以对用户110同时可见。这可以在例如虚拟对象呈现被设计为增加对应的真实对象的视图的信息的实例中(诸如在虚拟对象呈现缺失的古代损坏雕塑件的博物馆应用中)是期望的。在一些示例中，虚拟对象(122B、124B和/或126B)可以被显示(例如，经由使用像素化遮挡快门的有源像素化遮挡)以便遮挡对应的真实对象(122A、124A和/或126A)。这可以在例如虚拟对象充当用于对应的真实对象的视觉替换的实例中(诸如在无生命真实对象变为“活的”角色的交互式叙事应用中)是期望的。

在一些示例中，真实对象(例如，122A、124A、126A)可以与虚拟内容或可以不必构成虚拟对象的辅助数据(helper data)相关联。虚拟内容或辅助数据可以促进混合现实环境中的虚拟对象的处理或处置。例如，这样的虚拟内容可以包括以下各项的二维表示：对应的真实对象；与对应的真实对象相关联的自定义资产类型；或与对应的真实对象相关联的统计数据。该信息可以使能或者促进涉及真实对象的计算而不招致不必要的计算开销。

在一些示例中，上文所描述的呈现还可以包含音频方面。例如，在MRE 150中，虚拟怪物132可以与一个或多个音频信号相关联，诸如当怪物在MRE 150到处走时生成的脚步声效果。如下文进一步描述的，混合现实系统112的处理器可以计算对应于MRE 150中的所有此类声音的混合和处理复合的音频信号，并且经由被包括在混合现实系统112中的一个或多个扬声器和/或一个或多个外部扬声器向用户110呈现音频信号。

示例混合现实系统

示例混合现实系统112可以包括可穿戴头部设备(例如，可穿戴增强现实或混合现实头部设备)，其包括：显示器(其可以包括左透射式显示器和右透射式显示器，其可以是近眼显示器，以及用于将来自显示器的光耦合到用户的眼睛的相关联的部件)；左扬声器和右(例如，其分别邻近用户的左和右耳被定位)；惯性测量单元(IMU)(例如，其被安装到头部设备的支撑臂)；正交线圈电磁接收器(例如，其被安装到左支撑件)；左相机和右相机(例如，深度(飞行时间)相机)，其被远离用户取向；以及左眼相机和右眼相机，其朝向用户取向(例如，用于检测用户的眼运动)。然而，混合现实系统112可以包含任何适合的显示技术，以及任何适合的传感器(例如，光学、红外、声学、LIDAR、EOG、GPS、磁性)。另外，混合现实系统112可以包含与其他设备和系统(包括其他混合现实系统)通信的网络特征(例如，Wi-Fi能力)。混合现实系统112还可以包括电池(其可以被安装在辅助单元中，诸如被设计为穿戴在用户的腰部周围的腰带包)、处理器和存储器。混合现实系统112的可穿戴头部设备可以包括跟踪部件，诸如IMU或其他适合的传感器，其被配置为输出可穿戴头部设备相对于用户的环境的一组坐标。在一些示例中，跟踪部件可以向执行同时定位和地图创建(SLAM)和/或视觉里程计算法的处理器提供输入。在一些示例中，混合现实系统112还可以包括手持式控制器300和/或辅助单元320，其可以是可穿戴腰带包，如下文进一步描述的。

图2A-2D示出了可以用于向用户呈现MRE(其可以对应于MRE 150)或其他虚拟环境的示例混合现实系统200(其可以对应于混合现实系统112)的部件。图2A示出了在示例混合现实系统200中包括的可穿戴头部设备2102的透视图。图2B示出了在用户的头部2202上穿戴的可穿戴头部设备2102的俯视图。图2C示出了可穿戴头部设备2102的前视图。图2D示出了可穿戴头部设备2102的示例目镜2110的侧视图。如图2A-2C所示，示例可穿戴头部设备2102包括示例左目镜(例如，左透明波导集目镜)2108和示例右目镜(例如，右透明波导集目镜)2110。每个目镜2108和2110可以包括：透射元件，通过该透射元件，真实环境可以是可见的；以及显示元件，其用于呈现重叠真实环境的显示(例如，经由成像调制光)。在一些示例中，这样的显示元件可以包括用于控制成像调制光流的表面衍射光学元件。例如，左目镜2108可以包括左耦入光栅集2112、左正交光瞳扩展(OPE)光栅集2120和左出射(输出)光瞳扩展(EPE)光栅集2122。类似地，右目镜2110可以包括右耦入光栅集2118、右OPE光栅集2114和右EPE光栅集2116。成像调制光可以经由耦入光栅2112和2118、OPE2114和2120、和EPE2116和2122传递到用户的眼睛。每个耦入光栅集2112、2118可以被配置为朝向其对应的OPE光栅集2120、2114偏转光。每个OPE光栅集2120、2114可以被设计为朝向其相关联的EPE2122、2116向下递增地偏转光，从而水平延伸形成的出射光瞳。每个EPE 2122、2116可以被配置为将从其对应的OPE光栅集2120、2114接收的光的至少一部分向外递增地重引导到定义在目镜2108、2110后面的用户眼动范围(eyebox)位置(未示出)，垂直延伸在眼动范围处形成的出射光瞳。可替代地，代替耦入光栅集2112和2118、OPE光栅集2114和2120、和EPE光栅集2116和2122，目镜2108和2110可以包括光栅和/或用于控制将成像调制光耦合到用户的眼睛的折射和反射特征的其他布置。

在一些示例中，可穿戴头部设备2102可以包括左支撑臂2130和右支撑臂2132，其中，左支撑臂2130包括左扬声器2134并且右支撑臂2132包括右扬声器2136。正交线圈电磁接收器2138可以被定位在左支撑件中，或者在可穿戴头部单元2102中的另一适合的位置中。惯性测量单元(IMU)2140可以被定位在右边撑臂2132中，或者在可穿戴头部设备2102中的另一适合的位置中。可穿戴头部设备2102还可以包括左深度(例如，飞行时间)相机2142和右深度相机2144。深度相机2142、2144可以在不同的方向上适合地取向以便一起覆盖更宽的视场。

在图2A-2D中示出的示例中，左成像调制光源2124可以通过左耦入光栅集2112被光学耦合到左目镜2108中，并且右成像调制光源2126可以通过右耦入光栅集2118被光学耦合到右目镜2110中。成像调制光源2124、2126可以包括例如光纤扫描器；投影仪，包括电子光调制器，诸如数字光处理(DLP)芯片或硅上液晶(LCoS)调制器；或发射显示器，诸如微发光二极管(μLED)或微有机发光二极管(μOLED)面板，其每侧使用一个或多个透镜被耦合到耦入光栅集2112、2118中。输入耦合光栅集2112、2118可以将来自成像调制光源2124、2126的光偏转到大于针对目镜2108、2110的全内反射(TIR)的临界角的角。OPE光栅集2114、2120朝向EPE光栅集2116、2122递增地偏转通过TIR传播的光。EPE光栅集2116、2122将光朝向用户的面部，包括用户的眼睛的瞳孔，递增地耦合。

在一些示例中，如图2D所示，左目镜2108和右目镜2110中的每一个包括多个波导2402。例如，每个目镜2108、2110可以包括多个单独波导，每个波导专用于相应的颜色通道(例如，红色、蓝色和绿色)。在一些示例中，每个目镜2108、2110可以包括这样的波导的多个集，其中，每个集被配置为向发射光赋予不同的波前曲率。波前曲率可以相对于用户的眼睛是凸的，例如以呈现定位在用户的前面一定距离的虚拟对象(例如，通过对应于波前曲率的倒数的距离)。在一些示例中，EPE光栅集2116、2122可以包括通过变更跨每个EPE出射光的坡印廷矢量来实现凸波前曲率的弯曲光栅凹陷。

在一些示例中，为了创建所显示的内容是三维的感知，可以通过成像光调制器2124、2126和目镜2108、2110向用户呈现立体调节的左眼影像和右眼影像。三维虚拟对象的呈现的感知的逼真感可以通过选择波导(以及因此对应的波前曲率)增强，使得虚拟对象在近似由立体的左右图像指示的距离的距离处被显示。该技术还可以减少一些用户经历的运动病，其可以由立体的左右眼影像提供的深度感知线索与人眼的自动调节(例如，对象距离-相关焦点)之间的差引起。

图2D示出了从示例可穿戴头部设备2102的右目镜2110的顶部的面向边缘的视图。如图2D所示，多个波导2402可以包括三个波导2404的第一子集和三个波导2406的第二子集。波导2404、2406的两个子集可以通过向出射光给予不同波前曲率的不同光栅线曲率为特征的不同EPE光栅来区分。在波导2404、2406的子集中的每一个内，每个波导可以用于将不同光谱信道(例如，红色、绿色和蓝色光谱信道之一)耦合到用户的右眼2206。(虽然未在图2D中示出，但是左目镜2108的结构类似于右目镜2110的结构。)

图3A示出了混合现实系统200的示例手持式控制器部件300。在一些示例中，手持式控制器300包括柄部346和沿着顶部表面348设置的一个或多个按钮350。在一些示例中，按钮350可以被配置用于用作光学跟踪目标，例如，用于结合相机或其他光学传感器(其可以被安装在混合现实系统200的头部单元(例如，可穿戴头部设备2102)中)跟踪手持式控制器300的六自由度(6DOF)运动。在一些示例中，手持式控制器300包括用于检测位置或取向(诸如相对于可穿戴头部设备2102的位置或取向)的跟踪部件(例如，IMU或其他适合的传感器)。在一些示例中，这样的跟踪部件可以被定位在手持式控制器300的手柄中，和/或可以被机械耦合到手持式控制器。手持式控制器300可以被配置为提供与按钮的按压状态中的一个或多个相对应的一个或多个输出信号；或手持式控制器300的位置、取向和/或运动(例如，经由IMU)。这样的输出信号可以用作混合现实系统200的处理器的输入。这样的输入可以与手持式控制器的位置、取向和/或运动(例如，通过扩展，握持控制器的用户的手部的位置、取向和/或运动)。这样的输入还可以对应于用户按钮350。

图3B示出了混合现实系统200的示例辅助单元320。辅助单元320可以包括提供操作系统200的能量的电池，并且可以包括用于执行操作系统200的程序的处理器。如图所示，示例辅助单元320包括芯片2128，诸如用于将辅助单元320附接到用户的腰带。其他形状因子适合于辅助单元320并且将是明显的，包括不涉及将单元安装到用户的腰带的形状因子。在一些示例中，辅助单元320通过多导管电缆耦合到可穿戴头部设备2102，该多导管电缆可以包括例如电线和光纤。还可以使用辅助单元320与可穿戴头部设备2102之间的无线连接。

在一些示例中，混合现实系统200可以包括检测声音并且将对应的信号提供给混合现实系统的一个或多个麦克风。在一些示例中，麦克风可以被附接到可穿戴头部设备2102或与其集成，并且被配置为检测用户的语音。在一些示例中，麦克风可以被附接到手持式控制器300和/或辅助单元320或与其集成。这样的麦克风可以被配置为检测环境声音、环境噪声、用户或第三方的语音或其他声音。

图4示出了可以对应于示例混合现实系统，诸如上文所描述的混合现实系统200(其可以对应于相对于图1的混合现实系统112)，的示例功能框图。如图4所示，示例手持式控制器400B(其可以对应于手持式控制器300(“图腾”))包括图腾到可穿戴头部设备六自由度(6DOF)图腾子系统404A，并且示例可穿戴头部设备400A(其可以对应于可穿戴头部设备2102)包括图腾到可穿戴头部设备6DOF子系统404B。在示例中，6DOF图腾子系统404A和6DOF子系统404B合作确定手持式控制器400B相对于可穿戴头部设备400A的六个坐标(例如，在三个平移方向上的偏移和沿着三个轴的旋转)。六个自由度可以相对于可穿戴头部设备400A的坐标系表示。三个平移偏移可以表示为这样的坐标系中的X、Y和Z偏移、平移矩阵、或某种其他表示。旋转自由度可以表示为偏航、俯仰和滚动旋转的序列、旋转矩阵、四元数或某种其他表示。在一些示例中，可穿戴头部设备400A；包括在可穿戴头部设备400A中的一个或多个深度相机444(和/或一个或多个非深度相机)；和/或一个或多个光学目标(例如，如上文所描述的手持式控制器400B的按钮450，或包括在手持式控制器400B中的专用光学目标)可以用于6DOF跟踪。在一些示例中，手持式控制器400B可以包括如上文所描述的相机；并且可穿戴头部设备400A可以包括用于结合相机光学跟踪的光学目标。在一些示例中，可穿戴头部设备400A和手持式控制器400B各自包括一组三个正交取向的螺线管，其用于无线地发送和接收三个可区分的信号。通过测量用于接收的线圈中的每一个中接收的三个可区分信号的相对大小，可以确定可穿戴头部设备400A相对于手持式控制器400B的6DOF。此外，6DOF图腾子系统404A可以包括惯性测量单元(IMU)，该惯性测量单元(IMU)可用于提供关于手持式控制器400B的快速运动的经改进的准确度和/或更及时的信息。

在一些示例中，可能变得需要将来自局部坐标空间(例如，相对于可穿戴头部设备400A固定的坐标空间)的坐标变换到惯性坐标空间(例如，相对于真实环境固定的坐标空间)，例如以便补偿可穿戴头部设备400A相对于坐标系108的运动。例如，这样的变换可能为可穿戴头部设备400A的显示器进行以下内容所必需：将虚拟对象呈现在相对于真实环境的期望位置和取向处(例如，坐在真实椅子中、面向前的虚拟人，而不管可穿戴头部设备的位置和取向)，而不是在显示器上的固定位置和取向处(例如，在显示器的右下角的相同位置处)，以保持虚拟对象存在于真实环境中的错觉(并且例如当可穿戴头部设备400A移动和旋转时不显得不自然地定位在真实环境中)。在一些示例中，坐标空间之间的补偿变换可以通过使用SLAM和/或视觉里程计程序处理来自深度相机444的影像确定以便确定可穿戴头部设备400A相对于坐标系108的变换。在图4所示的示例中，深度相机444被耦合到SLAM/视觉里程计块406并且可以向块406提供影像。SLAM/视觉里程计块406实施方式可以包括处理器，该处理器被配置为处理该影像并且确定用户的头部的位置和取向，其然后可以用于标识头部坐标空间与另一坐标空间(例如，惯性坐标空间)之间的变换。类似地，在一些示例中，从IMU 409获得关于用户的头部姿势和位置的信息的附加源。来自IMU 409的信息可以与来自SLAM/视觉里程计块406的信息集成以提供关于用户的头部姿势和位置的快速调节的经改进的准确度和/或更及时的信息。

在一些示例中，深度相机444可以将3D影像供应到手势跟踪器411，该手势跟踪器411可以被实现在可穿戴头部设备400A的处理器中。手势跟踪器411可以标识用户的手势，例如通过将从深度相机444接收的3D影像与表示手势的存储的图案匹配。标识用户的手势的其他适合的技术将是明显的。

在一些示例中，一个或多个处理器416可以被配置为从可穿戴头部设备的6DOF头盔子系统404B、IMU 409、SLAM/视觉里程计块406、深度相机444和/或手势跟踪器411接收数据。处理器416还可以发送和接收来自6DOF图腾系统404A的控制信号。处理器416可以被无线耦合到6DOF图腾系统404A，诸如在不限于手持式控制器400B的示例中。处理器416还可以与附加部件通信，诸如音频-视觉内容存储器418、图形处理单元(GPU)420、和/或数字信号处理器(DSP)音频空间化器。DSP音频空间化器422可以被耦合到头部相关传递函数(HRTF)存储器425。GPU 420可以包括被耦合到左成像调制光源424的左信道输出和被耦合到右成像调制光源426的右信道输出。GPU 420可以将立体图像数据输出到成像调制光源424、426，例如如上文相对于图2A-2D所描述的。DSP音频空间化器422可以向左扬声器412和/或右扬声器414输出音频。DSP音频空间化器422可以从处理器419接收指示从用户到虚拟声源(其可以由用户移动，例如，经由手持式控制器320)的方向矢量的输入。基于该方向矢量，DSP音频空间化器422可以确定对应的HRTF(例如，通过访问HRTF、或通过内插多个HRTF)。DSP音频空间化器然后可以将所确定的HRTF应用到音频信号，诸如与由虚拟对象生成的虚拟声音相对应的音频信号。这可以通过内插用户相对于混合现实环境中的虚拟声音的相对位置和取向——即，通过呈现匹配该虚拟声音将听起来就像真实环境中的真实声音的用户的期望的虚拟声音——来提高虚拟声音的可信度和逼真感。

在一些示例中，诸如图4所示，处理器416、GPU 420、DSP音频空间化器422、HRTF存储器425和音频/视觉内容存储器418中的一个或多个可以被包括在辅助单元400C中(其可以对应于上文所描述的辅助单元320)。辅助单元400C可以包括对其部件供电和/或向可穿戴头部设备400A或手持式控制器400B供电的电池427。将这样的部件包括在可被安装到用户的腰部的辅助单元中可以限制可穿戴头部设备400A的大小和重量，其进而可以减少用户的头部和颈部的疲劳。

虽然图4呈现了与示例混合现实系统的各种部件相对应的元件，但是这些部件的各种其他适合的布置将对于本领域技术人员来说变得明显。例如，在图4中呈现为与辅助单元400C相关联的元件可以相反地与可穿戴头部设备400A或手持式控制器400B相关联。此外，一些混合现实系统可以完全放弃手持式控制器400B或辅助单元400C。这样的改变和修改将被理解为被包括在所公开的示例的范围内。

延迟音频跟随

MR系统可以被很好地定位以利用感测和/或计算来提供沉浸式音频体验。特别地，MR系统可以提供将声音空间化的独特方式，以将用户沉浸在MRE中。MR系统可以包括用于向用户呈现音频信号的扬声器，诸如上文关于扬声器412和414所描述的。MR系统可以基于虚拟环境(例如，MRE)确定待播放的音频信号；例如，音频信号可以采用取决于虚拟环境中的位置(例如，虚拟环境中的声音的原点)和用户在虚拟环境中的位置的某些特性。类似地，音频信号可以采用模拟在虚拟环境中以一速度或以一取向行进的声音的效果的音频特性。这些特性可以包括在立体场中的放置。一些音频系统(例如，耳机)将音轨划分为一个或多个通道，以将音频呈现为源自不同的位置。例如，耳机可以利用两个通道，一个通道用于用户的每只耳朵。如果音轨伴随着虚拟对象在屏幕上移动(例如，飞机在电影中飞过屏幕)，则伴随的声音(例如，引擎噪音)可能被呈现为从用户左侧移动到用户右侧。因为音频模拟了一个人如何感知在现实世界中移动的真实对象，所空间化的音频增加了虚拟体验的沉浸感。

一些音频系统在它们提供沉浸式空间化音频的能力方面可能遭受限制。例如，一些耳机系统可以通过向用户的左耳和右耳分别呈现左声道和右声道来呈现立体声场中的声音；但是在不知道用户头部的位置(例如，位置和/或取向)的情况下，可以听到声音相对于用户头部是静态固定的。例如，通过左声道呈现给用户左耳的声音可能继续呈现给用户的左耳，而不管用户是否转动他们的头部，向前、向后、左右移动等。该静态行为对于MR系统可能是不期望的，因为它可能与用户对声音在真实环境中如何动态表现的期望不一致。例如，在具有固定位置的声源的真实环境中，根据用户如何相对于该声源的位置移动和旋转，听众将期望由该声源发出的声音以及由听众左右耳听到的声音变得更响亮或更柔和，或者表现出其他动态音频特性(例如，多普勒效应)。例如，如果静态声源最初位于用户的左侧，则与用户的右耳相比较，由该声源发出的声音可能在用户的左耳中占主导地位。但是如果用户旋转180度，使得声源现在位于用户的右侧，用户将期望声音在用户的右耳中占主导地位。类似地，当用户移动时，声源可能持续看起来是相对于用户的变化位置(例如，微小的位置变化可能导致每只耳朵处检测到的音量的微小但可感知的变化)。在虚拟或混合现实环境中，当声音根据用户的期望表现时，基于真实世界的音频体验，可以增强用户的地方感和沉浸感。此外，用户可以利用逼真的音频线索来标识和放置环境内的声源。

MR系统(例如，MR系统112、200)可以通过适应真实世界的音频行为来增强空间化音频的沉浸感。例如，MR系统可以利用MR系统的一个或多个相机和/或一个或多个惯性测量单元传感器来执行SLAM计算。使用SLAM技术，MR系统可以构建其周围环境的三维地图和/或标识MR系统在周围环境内的位置。在一些实施例中，MR系统可以利用SLAM来估计头部姿势，该头部姿势可以包括关于用户头部在三维空间中的位置(例如，位置和/或取向)的信息。在一些实施例中，MR系统可以利用一个或多个坐标系以“绝对”意义标识对象和/或MR系统的位置(例如，虚拟对象的位置可以被绑定到真实环境的真实位置，而不是简单地相对于MR系统或屏幕锁定)。

图5示出了根据一些实施例的混合现实空间化音频的示例。在一些实施例中，MR系统可以使用SLAM技术将一个或多个虚拟对象504a和504b放置在MRE中，以使得虚拟对象相对于环境固定，而不是相对于用户固定。在一些实施例中，虚拟对象504a和504b可以被配置为声源。虚拟对象504a和/或504b对于用户502可能是可见的(例如，作为虚拟吉他)，或者虚拟对象504a和/或504b对于用户可能是不可见的(例如，作为声音从其辐射的不可见点)。使用SLAM技术，MR系统可以在用户502周围放置多个虚拟声源(例如，虚拟对象504a和/或504b)以呈现空间化音频。当用户502旋转他们的头部时，用户502可能能够感知虚拟对象504a和504b的位置(例如，通过观察虚拟对象504a在用户502处于第一取向时更响亮并且在用户502处于第二取向时更柔和)。该方法可以具有允许用户502基于用户502的运动感知空间化的动态变化的优点。这可以创建比不适应用户502的位置的固定声音更沉浸式的音频体验。

然而，在一些实施例中，图5所示的示例性方法可能存在一些缺点。在一些应用中，诸如谱出的乐谱，声音设计师可能希望限制声音表现出空间化行为的程度。进一步地，在一些情况下，空间化音频可能导致刺耳或不愉快的结果。例如，相对于MRE中的位置固定虚拟对象504b可能意味着当用户502接近虚拟对象504b时，从虚拟对象504b辐射的声音可能变得比预期的更响。如果虚拟对象504b对应于大提琴的声音并且是虚拟管弦乐队的一部分，那么如果用户502站得离虚拟对象504b太近，则管弦乐声音对于用户502来说可能听起来失真。可能不希望允许用户(例如，用户502)走得太靠近声源(例如，虚拟对象504b)，因为它可能偏离设计的体验。例如，虚拟大提琴的强劲声音可能淹没来自虚拟小提琴的声音。

除了可能偏离设计体验之外，允许用户接近虚拟声源可能使用户感到困惑或不安-特别是在极端示例中，诸如用户的位置几乎与声源的位置重叠，或者用户的头部相对于声源高速移动或旋转。在一些实施例中，虚拟对象504b可以是声音从其辐射的不可见点。如果用户502接近虚拟对象504b，则用户502可以感知声音明显地从不可见点辐射。例如，如果声音引起对虚拟对象504b的不需要的注意(例如，如果虚拟对象504b被配置为不可见以避免吸引用户的注意力)，这可能是不希望的。在一些实施例中，用户的预期中心焦点可以是视觉和/或叙事故事，并且空间化音频可用于增强用户对视觉和/或叙事故事的沉浸感。例如，MR系统可以向用户呈现三维“电影”，用户可以在其中四处走动并从不同的角度观察角色和/或对象。在这样的应用中，对于用户来说，感知正从其辐射声音的位于混合现实场景中的不可见点是令人不安的。例如，在战斗场景中，可能不希望允许用户接近正在播放不可见吉他音轨的点。声音设计师和故事创作者可能希望获得对空间化音频体验的附加控制，以保留预期的叙述。因此，可能希望开发提供沉浸式、空间化音频的附加方法。例如，可能希望允许音频设计师创建可以与单独的声音相关联的自定义音频行为(例如，由脚本引擎执行的脚本控制)。在一些情况下，可以应用默认音频行为，除非由自定义音频行为覆盖。在一些情况下，自定义音频行为可以包括操纵声音的原点以产生期望的音频体验。

图6A至6C示出了根据一些实施例的混合现实空间化音频的示例。空间化音频可以以与持久视觉内容类似的方式创建合理的三维MRE(例如，MRE 150)体验。当用户在真实环境(例如，真实环境100)周围走动时，用户可能期望看到持久虚拟内容表现得像真实对象(例如，持久虚拟内容在用户接近它时显得更大，而在用户离开时变得更小)。类似地，当用户四处移动时，用户可能期望声源表现得就像声源存在于真实环境中(例如，当用户接近它时，声源可能听起来更响亮，而当用户离开时可能听起来更柔和)。在一些实施例中，可以通过相对于用户的头部操纵声源来控制沉浸式、空间化的音频——例如，通过“延迟跟随”效果。例如，一个或多个声源可以围绕第一位置的用户的头部间隔开和/或绑定到第一位置的用户的头部。在第一位置处，一个或多个声源可以位于指定位置，该指定位置可以是(例如，由开发者或音频设计师)用于声源以产生特定音频体验的位置。声源的位置可以对应于声源的原点——例如，声音似乎源自其的MRE中的坐标。声源原点可以被表示为距用户头部(或其他听众位置)的偏移(例如，向量偏移)；也就是说，向用户呈现声音可以包括：确定与用户头部的偏移，并将该偏移应用于用户头部以到达声源原点。用户头部在第一时间的第一位置可以例如通过可穿戴头部设备的一个或多个传感器来确定，诸如上文所描述的(例如，关于可穿戴头部设备401A)。然后可以确定用户头部在第二稍后时间的第二位置。头部的第一位置与第二位置之间的差可用于操纵音频信号。例如，在一些情况下，当用户将他们的头部移动到第二位置时，可以指示一个或多个声源“跟踪”头部的运动，以使得声源的位置可能偏离它们的指定位置，该指定位置可以围绕用户头部间隔开和/或被绑定到用户头部(例如，围绕用户头部间隔开和/或被绑定到用户头部的指定位置可能相对于用户头部移动/改变，并且声源可能不再位于它们围绕用户头部间隔开和/或被绑定到用户头部的指定位置)。例如，可以通过将声源原点从第一位置移动小于头部的第一位置与第二位置之间的差的量来实现对声源的这种操纵。在一些实施例中，指定位置可以相对于用户的头部位置保持固定，但是对应的虚拟声源可以被“弹性地”绑定到用户的头部位置，并且可以在对应的指定位置后面拖曳。在一些实施例中，声源可以在用户头部已经到达第二位置之后的某个点处返回到其围绕用户头部间隔开和/或绑定到用户头部的指定位置(例如，旨在产生特定音频体验的相同位置)。声源原点的其他操纵，诸如基于头部的第一位置与第二位置之间的差，确定原点的其他操纵，被构想并且在本公开的范围内。更一般地，可以通过相对于用户头部或MRE中的某个其他对象(包括移动对象)来操纵声源的原点来创建自定义音频动态。例如，声源原点可以被定义为用户头部位置和取向的函数，或头部位置或取向随时间的变化或累积的函数(例如，头部位置或取向的积分或导数的函数)。这样的函数可用于创造效果，诸如模拟以特定速度或在特定方向上行进的声音。例如，可以确定用户头部运动的速度(例如，作为头部运动的导数，由如上文所描述的可穿戴头部设备的一个或多个传感器确定)，并且可以呈现声音，就像声音原点以该相同的速度(或基于头部速度的不同速度)行进。作为另一示例，可以确定用户头部取向的变化，诸如经由诸如上文所描述的可穿戴头部设备的一个或多个传感器，并且可以呈现声音，就像声音原点以基于用户头部取向的变化的取向移动。将声音原点表达为用户头部位置或取向的函数也可以适于优雅地处理将以其他方式导致不希望的音频结果的情况。例如，通过定义限制声源相对于用户头部移动程度的函数，可以限制或避免来自这些声源的极端或不需要的音频效果。例如，这可以通过建立用户头部位置的阈值变化率来实现；如果变化率超过阈值，则可以相应地限制声源原点的位置变化(例如，通过如果超过阈值，则将原点设置为第一坐标，并且如果未超过阈值，则将原点设置为不同的坐标)。作为避免不需要的音频效果的另一示例，声源原点可以被配置为始终与用户保持至少最小距离；例如，如果声源原点与用户头部之间的偏移的大小降到最小阈值以下，则可以将原点重新定位到距用户头部至少最小距离的替代位置。

如图6A所示，在一些实施例中，虚拟对象604a和/或604b可以围绕中心602间隔开和/或被绑定到中心602。虚拟对象604a和/或604b可以是可见的(例如，显示给用户)或不可见的(例如，不显示给用户)。在一些实施例中，虚拟对象604a和/或604b可以不与其他虚拟对象交互。例如，虚拟对象604a和/或604b可以不与其他虚拟对象碰撞；虚拟对象604a和/或604b可以不反射/吸收/透射来自其他虚拟对象的光；和/或虚拟对象604a和/或604b可以不反射/吸收/透射来自其他虚拟对象的声音。在一些实施例中，虚拟对象604a和/或604b可以与其他虚拟对象交互。

在一些实施例中，虚拟对象604a和/或604b可以与一个或多个声源相关联。在一些情况下，每个虚拟对象可以对应于一个声源。例如，虚拟对象604a和/或604b可以被配置为从它们在MRE中的位置虚拟地辐射声音。可以使用任何适合的方法来配置声源使得其可以被感知为从特定位置辐射。例如，头部相关传递函数(“HRTF”)可被用于模拟源自特定位置的声音。在一些实施例中，可以使用通用HRTF。在一些实施例中，例如，用户耳朵周围的一个或多个麦克风(例如，MR系统的一个或多个麦克风)可用于确定一个或多个用户专用HRTF。在一些实施例中，可以使用适合的方法(例如，响度衰减、高频衰减、直接和混响声音的混合、运动视差等)来模拟用户与虚拟声源之间的距离。在一些实施例中，虚拟对象604a和/或604b可以被配置为作为点源辐射声音。在一些实施例中，虚拟对象604a和/或604b可以包括声源的物理三维模型，并且可以通过对与声源的交互进行建模来生成声音。例如，虚拟对象604a可以包括虚拟吉他，其包括木体、弦、调音栓等。可以通过对弹拨一根或多根弦以及动作如何与虚拟吉他的其他部件交互进行建模来生成声音。

在一些实施例中，虚拟对象604a和/或604b可以全向地辐射声音。在一些实施例中，虚拟对象604a和/或604b可以定向地辐射声音。在一些实施例中，虚拟对象604a和/或604b可以被配置为包括声源，其中每个声源可以包括音乐分轨。在一些实施例中，音乐分轨可以是整个音乐声音的任意子集。例如，管弦乐音轨可以包括小提琴分轨、大提琴分轨、贝斯分轨、小号分轨、定音鼓分轨等。在一些实施例中，多声道音轨的声道可以表示为分轨。例如，双声道音轨可以包括左分轨和右分轨。在一些实施例中，混合的单个轨道可以表示为分轨。在一些实施例中，音乐音轨可以根据频带被分成各分轨。分轨可以表示整个声音的任何任意子集。

在一些实施例中，虚拟对象604a和/或604b可以被绑定到一个或多个对象(例如，中心602和/或向量606)。例如，虚拟对象604a可以被分配到指定位置608a。在一些实施例中，指定位置608a可以是相对于向量606和/或中心602的固定点。在一些实施例中，虚拟对象604b可以被分配给指定位置608b。在一些实施例中，指定位置608b可以是相对于向量606和/或中心602的固定点。中心602可以是点和/或三维对象。在一些实施例中，虚拟对象604a和/或604b可以绑定到三维对象的点(例如，中心点或三维对象表面上的点)。在一些实施例中，中心602可以对应于任何适合的点(例如，用户头部的中心)。可以使用头戴式MR系统的中心(其可能具有已知尺寸)和平均头部尺寸，或使用其他适合的方法来估计用户头部的中心。在一些实施例中，虚拟对象604a和/或604b可以被绑定到方向指示符(例如，向量606)。在一些实施例中，虚拟对象604a和/或604b可以被放置在指定位置，该指定位置可以包括和/或由其相对于中心602和/或向量606的位置定义(例如，使用球坐标系)。在一些实施例中，如果中心602和/或向量606改变位置(例如，位置和/或取向)，则虚拟对象604a和/或604b可能偏离它们的指定位置。在一些实施例中，虚拟对象604a和/或604b可以在中心602和/或向量606停止改变位置之后返回到它们的指定位置，例如在中心602和/或向量606具有固定位置/值预定时间段(例如，5秒)之后。

如图6B所示，向量606可以改变方向。在一些实施例中，指定位置608a和/或608b可以对应地移动。例如，指定位置608a和/或608b可以相对于图6B中的中心602和/或向量606处于与它们在图6A中相同的位置。在一些实施例中，虚拟对象604a和/或604b可以拖曳指定位置608a和/或608b的运动。例如，当向量606从图6A中的第一位置移动到图6B中的第二位置(例如，以反映用户头部的旋转)时，虚拟对象604a和/或604b可以保持在图6A和图6B两者中的相同位置(即使当指定位置608a和/或608B移动时)。在一些实施例中，虚拟对象604a和/或604b可以在向量606和/或中心602已经移动和/或开始移动之后开始移动。在一些实施例中，虚拟对象604a和/或604b可以在向量606和/或中心602已经停止移动之后，例如预定时间段后，开始移动。在图6C中，虚拟对象604a和/或604b可以返回到它们相对于向量606和/或中心602的指定位置。例如，虚拟对象604a和/或604b可以相对于图6C中的向量606和/或中心602占据与它们在图6A中所在的相同的位置。

虚拟对象604a和/或604b可以偏离它们的指定位置608a和/或608b一段时间。在一些实施例中，当向量606和/或中心602改变方向时，虚拟对象604a和/或604b可以分别“跟踪”指定位置608a和/或608b的运动路径。在一些实施例中，虚拟对象604a和/或604b可以分别遵循从其当前位置到指定位置608a和/或608b的插入的路径。在一些实施例中，一旦中心602和/或向量606完全停止加速和/或移动(例如，线性和/或角加速度)，则虚拟对象604a和/或604b可以返回到它们的指定位置。例如，中心602可以保持静止点并且向量606可以围绕中心602以恒定速度旋转(例如，因为用户正在旋转他们的头部)。在一段时间之后，虚拟对象604a和/或604b可以返回到它们的指定位置，尽管事实上向量606保持以恒定速度移动。类似地，在一些实施例中，中心602可以以恒定速度移动(并且向量606可以保持静止或者也可以以恒定速度移动)，并且虚拟对象604a和/或604b可以在初始加速度停止之后返回到它们的指定位置。在一些实施例中，一旦中心602和/或向量606停止移动，则虚拟对象604a和/或604b可以返回到它们的指定位置。例如，如果用户的头部以恒定速度旋转，则虚拟对象604a和/或604b可能继续“落后”于它们的指定位置，直到用户停止旋转它们的头部。在一些实施例中，一旦中心602和/或向量606停止加速，则虚拟对象604a和/或604b可以返回到它们的指定位置。例如，如果用户的头部开始旋转，并且然后继续以恒定速度旋转，则虚拟对象604a和/或604b最初可能落后于它们的指定位置，并且然后在用户的头部已经达到恒定速度之后(例如，阈值时间段之后)到达它们的指定位置。

在一些实施例中，一个或多个声源可以移动，就像它们被“弹性地”绑定到用户的头部。例如，当用户将他们的头部从第一位置旋转到第二位置时，一个或多个声源可能不以与用户的头部相同的角速度旋转。在一些实施例中，一个或多个声源可以在它们接近它们相对于用户头部的初始位置时以加速角速度、比用户的头部更慢的角速度和减速角速度开始旋转。角速度的变化率可以被限制在例如由声音设计师预设的水平。这可以在允许声源移动过快(这可能导致不需要的音频效果，诸如上文所描述的)与完全防止声源移动(这可能不带来空间化音频的益处)之间取得平衡。

在一些实施例中，使一个或多个空间化声源执行延迟跟随可以具有若干优点。例如，允许用户在相对位置上偏离空间化声源可以允许用户感知声音的差。用户可能注意到，随着用户远离空间化声音，空间化声音稍微安静，增强了用户在MRE中的沉浸感。在一些实施例中，延迟跟随也可以保持期望的音频体验。例如，可以防止用户通过接近声源并且保持非常靠近声源而无意地扭曲音频体验。如果声源被相对于环境静态放置，则用户可能接近声源，并且由于用户的接近(特别是当用户与声源之间的距离接近零时)，空间化器可能不期望地将声源呈现为压倒其他声源。在一些实施例中，延迟跟随可以在延迟之后将声源相对于用户移动到设定位置，使得用户可以体验增强的空间化而不损害总体音频效果(例如，因为每个声源通常可以彼此和/或与用户保持期望的距离)。

在一些实施例中，虚拟对象604a和/或604b可以具有动态指定位置。例如，即使中心602和向量606保持静止，指定位置608a也可以被配置为移动(例如，环绕用户的头部或更靠近和/或更远离用户的头部移动)。在一些实施例中，可以相对于中心和/或向量(例如，移动中心和/或向量)来确定动态指定位置，并且虚拟对象可以以延迟跟随方式(例如，通过跟踪指定位置的运动和/或插入路径)朝向其指定位置移动。

在一些实施例中，虚拟对象604a和/或604b可以使用用于游戏引擎的资产设计工具(例如，Unity)被放置在它们的指定位置。在一些实施例中，虚拟对象604a和/或604b可以包括游戏引擎对象，其可以被放置在三维环境中(例如，由游戏引擎支持的MRE)。在一些实施例中，虚拟对象604a和/或604b可以是父对象(parent object)的部件。在一些实施例中，父对象可以包括用于将虚拟对象放置在指定位置的参数，诸如对应的中心和/或向量。在一些实施例中，父对象可以包括延迟跟随参数，诸如用于虚拟对象应多快返回其指定位置和/或在什么情况下(例如，恒定速度或无运动)虚拟对象应返回其指定位置的参数。在一些实施例中，父对象可以包括用于虚拟对象追逐其指定位置的速度的参数(例如，虚拟对象是否应当以恒定速度移动、加速和/或减速移动)。在一些实施例中，父对象可以包括确定虚拟对象可以从其当前位置到其指定位置采取的路径的参数(例如，使用线性和/或指数插值)。在一些实施例中，虚拟对象(例如，虚拟对象604a和604b)可以包括它自己的这样的参数。

在一些实施例中，游戏引擎可以保持虚拟对象604a和604b的一些或全部特性(例如，虚拟对象604a和604b的当前和/或指定位置)。在一些实施例中，虚拟对象604a和604b的当前位置(例如，直接通过父对象的位置和/或特性或虚拟对象604和604b的位置和/或特性)可以被传递到空间化引擎和/或渲染引擎。例如，空间化引擎和/或渲染引擎可以接收从虚拟对象604a发出的声音以及虚拟对象604a的当前位置。空间化引擎和/或渲染引擎可以处理输入并且产生可以包括空间化声音的输出，该空间化声音可以被配置为将声音感知为源自虚拟对象604a的位置。空间化引擎和/或渲染引擎可以使用任何适合的技术来渲染空间化声音，包括但不限于头部相关传递函数和/或距离衰减技术。

在一些实施例中，空间化引擎和/或渲染引擎可以接收数据结构以渲染延迟跟随空间化声音。例如，延迟跟随数据结构可以包括具有关于相对于头部姿势和/或延迟跟随参数的位置的参数和/或元数据的数据格式。在一些实施例中，在MR系统上运行的应用可以向空间化引擎和/或渲染引擎发送一个或多个延迟跟随数据结构，以渲染延迟跟随空间化声音。

在一些实施例中，音轨可以被处理为延迟跟随数据结构。例如，5.1声道音轨可以被分成六个分轨，并且每个分轨可以被分配给一个或多个虚拟对象(例如，虚拟对象604a和604b)。每个分轨/虚拟对象可以被放置在5.1声道环绕声的预配置取向(例如，中心扬声器分轨可以被直接放置在用户前面约20英尺的用户面部前面)。在一些实施例中，延迟跟随数据结构然后可以由空间化引擎和/或渲染引擎用于渲染延迟跟随空间化声音。

在一些实施例中，可以为多于一个用户呈现延迟跟随空间化声音。例如，被配置为围绕第一用户的一组虚拟对象对于第二用户来说可能是可感知的。第二用户可以以延迟的方式观察跟随第一用户的虚拟对象/声源。在一些实施例中，一组虚拟对象/声源可以被配置为围绕多于一个用户。例如，中心点可以被计算为第一用户的头部与第二用户的头部之间的中心点。向量可以被计算为表示每个用户面向方向的向量之间的平均向量。一个或多个虚拟对象/声源可以相对于动态计算的中心点和/或向量放置。

尽管在图6A至图6C中示出了两个虚拟对象，但是，应预期到，可以使用任何数量的虚拟对象和/或声源。在一些实施例中，每个虚拟对象和/或声源可以具有其自己的、单独的参数。尽管中心点/对象和向量用于定位虚拟对象，但是可以使用任何适当的坐标系(例如，笛卡尔坐标系、球坐标系等)。

公开了系统、方法和计算机可读介质。根据一些示例，一种系统：可穿戴头部设备，其具有扬声器和一个或多个传感器；以及一个或多个处理器，其被配置为执行一种方法，该方法包括：基于一个或多个传感器，确定用户头部在第一时间的第一位置；基于一个或多个传感器，确定用户头部在比第一时间晚的第二时间的第二位置；基于第一位置与第二位置之间的差，确定音频信号；以及经由扬声器向用户呈现音频信号，其中：确定音频信号包括：确定虚拟环境中的音频信号的原点；向用户呈现音频信号包括：将音频信号呈现为就像源自所确定的原点；以及确定音频信号的原点：包括将偏移应用于用户头部的位置。在一些示例中，确定音频信号的原点进一步包括：基于用户头部的位置的变化率，确定音频信号的原点。在一些示例中，确定音频信号的原点进一步包括：根据变化率超过阈值的确定，确定原点包括第一原点；以及根据变化率不超过阈值的确定，确定原点包括与第一原点不同的第二原点。在一些示例中，确定音频信号的原点进一步包括：根据偏移的大小低于阈值的确定，确定原点包括第一原点；以及根据偏移的大小不低于阈值的确定，确定原点包括与第一原点不同的第二原点。在一些示例中，确定音频信号进一步包括：确定虚拟环境中的速度；以及向用户呈现音频信号进一步包括：将音频信号呈现为就像原点以所确定的速度运动。在一些示例中，确定速度包括：基于用户头部的第一位置与用户头部的第二位置之间的差，确定速度。在一些示例中，偏移是基于用户头部的第一位置确定的。

根据一些示例，一种向可穿戴头部设备的用户呈现音频的方法包括：基于可穿戴头部设备的一个或多个传感器，确定用户头部在第一时间的第一位置；基于一个或多个传感器，确定用户头部在比第一时间晚的第二时间的第二位置；基于第一位置与第二位置之间的差，确定音频信号；以及经由可穿戴头部设备的扬声器向用户呈现音频信号，其中：确定音频信号包括：确定虚拟环境中的音频信号的原点；向用户呈现音频信号包括：将音频信号呈现为就像源自所确定的原点；以及确定音频信号的原点包括：将偏移应用于用户头部的位置。在一些示例中，确定音频信号的原点进一步包括：基于用户头部位置的变化率，确定音频信号的原点。在一些示例中，确定音频信号的原点进一步包括：根据变化率超过阈值的确定，确定原点包括第一原点；以及根据变化率不超过阈值的确定，确定原点包括与第一原点不同的第二原点。在一些示例中，确定音频信号的原点进一步包括：根据偏移的大小低于阈值的确定，确定原点包括第一原点；以及根据偏移的大小不低于阈值的确定，确定原点包括与第一原点不同的第二原点。在一些示例中，确定音频信号进一步包括：确定虚拟环境中的速度；以及向用户呈现音频信号进一步包括：将音频信号呈现为就像原点以所确定的速度运动。在一些示例中，确定速度包括：基于用户头部的第一位置与用户头部的第二位置之间的差，确定速度。在一些示例中，偏移是基于用户头部的第一位置确定的。

根据一些示例，一种存储指令的非暂态计算机可读介质，该指令在由一个或多个处理器执行时使得一个或多个处理器执行向可穿戴头部设备的用户呈现音频的方法，该方法包括：基于可穿戴头部设备的一个或多个传感器，确定用户头部在第一时间的第一位置；基于一个或多个传感器，确定用户头部在比第一时间晚的第二时间的第二位置；基于第一位置与第二位置之间的差，确定音频信号；以及经由可穿戴头部设备的扬声器向用户呈现音频信号，其中：确定音频信号包括：确定虚拟环境中的音频信号的原点；向用户呈现音频信号包括：将音频信号呈现为就像源自所确定的原点；以及确定音频信号的原点包括：将偏移应用于用户头部的位置。在一些示例中，确定音频信号的原点进一步包括：基于用户头部位置的变化率，确定音频信号的原点。在一些示例中，确定音频信号的原点进一步包括：根据变化率超过阈值的确定，确定原点包括第一原点；以及根据变化率不超过阈值的确定，确定原点包括与第一原点不同的第二原点。在一些示例中，确定音频信号的原点进一步包括：根据偏移的大小低于阈值的确定，确定原点包括第一原点；以及根据偏移的大小不低于阈值的确定，确定原点包括与第一原点不同的第二原点。在一些示例中，确定音频信号进一步包括：确定虚拟环境中的速度；以及向用户呈现音频信号进一步包括：将音频信号呈现为就像原点以所确定的速度运动。在一些示例中，确定速度包括基于用户头部的第一位置与用户头部的第二位置之间的差，确定速度。在一些示例中，基于用户头部的第一位置，确定偏移。

虽然所公开的示例已经参考附图充分描述，但是，应注意到，各种改变和修改对于本领域技术人员来说将变得明显。例如，一个或多个实施方式的元素可以组合、删除、修改、或补充以形成进一步的实施方式。这样的改变和修改将被理解为包括在如由附加的权利要求限定的所公开的示例的范围内。

Claims

1.一种系统，包括：

可穿戴头部设备，其具有扬声器和一个或多个传感器；以及

一个或多个处理器，其被配置为执行一种方法，所述方法包括：

基于所述一个或多个传感器，确定用户头部在第一时间的第一位置；

基于所述一个或多个传感器，确定所述用户头部在比所述第一时间晚的第二时间的第二位置；

基于所述第一位置与所述第二位置之间的差，确定音频信号；以及

经由所述扬声器向所述用户呈现所述音频信号，

其中：

确定所述音频信号包括：确定虚拟环境中的所述音频信号的原点；

向所述用户呈现所述音频信号包括：将所述音频信号呈现为就像源自所确定的原点；以及

确定所述音频信号的所述原点包括：将偏移应用于所述用户头部的位置。

2.根据权利要求1所述的系统，其中，确定所述音频信号的所述原点进一步包括：基于所述用户头部的位置的变化率，确定所述音频信号的所述原点。

3.根据权利要求2所述的系统，其中，确定所述音频信号的所述原点进一步包括：

根据所述变化率超过阈值的确定，确定所述原点包括第一原点；以及

根据所述变化率不超过所述阈值的确定，确定所述原点包括与所述第一原点不同的第二原点。

4.根据权利要求1所述的系统，其中，确定所述音频信号的所述原点进一步包括：

根据所述偏移的大小低于阈值的确定，确定所述原点包括第一原点；以及

根据所述偏移的所述大小不低于所述阈值的确定，确定所述原点包括与所述第一原点不同的第二原点。

5.根据权利要求1所述的系统，其中：

确定所述音频信号进一步包括：确定所述虚拟环境中的速度；以及

向所述用户呈现所述音频信号进一步包括：将所述音频信号呈现为就像所述原点以所确定的速度运动。

6.根据权利要求5所述的系统，其中：

确定所述速度包括：基于所述用户头部的所述第一位置与所述用户头部的所述第二位置之间的差，确定所述速度。

7.根据权利要求1所述的系统，其中，所述偏移是基于所述用户头部的所述第一位置确定的。

8.一种向可穿戴头部设备的用户呈现音频的方法，所述方法包括：

基于所述可穿戴头部设备的一个或多个传感器，确定所述用户头部在第一时间的第一位置；

经由所述可穿戴头部设备的扬声器向所述用户呈现所述音频信号，其中：

9.根据权利要求8所述的方法，其中，确定所述音频信号的所述原点进一步包括：基于所述用户头部的位置的变化率，确定所述音频信号的所述原点。

10.根据权利要求9所述的方法，其中，确定所述音频信号的所述原点进一步包括：

11.根据权利要求8所述的方法，其中，确定所述音频信号的所述原点进一步包括：

12.根据权利要求8所述的方法，其中：

13.根据权利要求12所述的方法，其中：

14.根据权利要求8所述的方法，其中，所述偏移是基于所述用户头部的所述第一位置确定的。

15.一种存储指令的非暂态计算机可读介质，所述指令在由一个或多个处理器执行时使得所述一个或多个处理器执行向可穿戴头部设备的用户呈现音频的方法，所述方法包括：

16.根据权利要求15所述的非暂态计算机可读介质，其中，确定所述音频信号的所述原点进一步包括：基于所述用户头部的位置的变化率，确定所述音频信号的所述原点。

17.根据权利要求16所述的非暂态计算机可读介质，其中，确定所述音频信号的所述原点进一步包括：

18.根据权利要求15所述的非暂态计算机可读介质，其中，确定所述音频信号的所述原点进一步包括：

19.根据权利要求15所述的非暂态计算机可读介质，其中：

20.根据权利要求19所述的非暂态计算机可读介质，其中：