CN111213082A

CN111213082A - 混合现实空间音频

Info

Publication number: CN111213082A
Application number: CN201880067405.3A
Authority: CN
Inventors: B·L·施密特; J·塔吉克; J-M·约特
Original assignee: Magic Leap Inc
Current assignee: Magic Leap Inc
Priority date: 2017-10-17
Filing date: 2018-10-17
Publication date: 2020-05-29
Anticipated expiration: 2038-10-17
Also published as: AU2018353008A1; CN111213082B; CA3078420A1; IL297445A; JP2024074889A; KR20200071099A; CN115175064A; IL297445B2; WO2019079523A1; AU2018353008B2; IL297445B1; KR20240019392A; IL273755A; US20240137725A1; EP3698201A1; JP7449856B2; KR102633727B1; US20200196087A1; EP3698201A4; IL273755B

Abstract

公开了一种向混合现实环境的用户呈现音频信号的方法。根据该方法的示例，检测与混合现实环境相关联的音频事件。音频事件与第一音频信号相关联。确定用户相对于混合现实环境的位置。识别与用户的位置相关联的声学区域。确定与第一声学区域相关联的第一声学参数。使用第一声学参数确定传递函数。将传递函数应用于第一音频信号以产生第二音频信号，然后向用户呈现第二音频信号。

Description

混合现实空间音频

相关申请的交叉引用

本申请根据35 U.S.C.§119(e)要求2017年10月17日提交的序列号为62/573,448的美国临时专利申请和2018年2月15日提交的序列号为62/631,418的美国临时专利申请的优先权益，这两个申请的全部内容为所有目的通过引用并入本文中。

技术领域

本公开一般地涉及用于呈现音频信号的系统和方法，更具体地，涉及用于向混合现实环境的用户呈现音频信号的系统和方法。

背景技术

虚拟环境在计算环境中普遍存在，可用于视频游戏(其中虚拟环境可以表示游戏世界)；地图(其中虚拟环境可以表示要导航的地形)；模拟(其中虚拟环境可以模拟真实环境)；数字叙事(其中虚拟角色可以在虚拟环境中彼此交互)；以及许多其它应用。现代计算机用户通常舒适地感知虚拟环境并与之交互。然而，用于呈现虚拟环境的技术可能会限制用户在虚拟环境中的体验。例如，传统的显示器(例如，2D显示屏)和音频系统(例如，固定扬声器)可能无法通过创建引人注目的、逼真的沉浸式体验的方式来实现虚拟环境。

虚拟现实(“VR”)、增强现实(“AR”)、混合现实(“MR”)以及相关技术(统称为“XR”)共享向XR系统的用户呈现感官信息的能力，这些感官信息对应于由计算机系统中的数据表示的虚拟环境。通过将虚拟的视觉和音频提示与真实的景象和声音进行结合，此类系统能够提供独特地增强的沉浸感和真实感。因此，可能希望以声音听上去像在用户的真实环境中——自然地并且与用户对声音的期望一致地——发生的方式向XR系统的用户呈现数字声音。一般来说，用户希望虚拟声音具有在其被听到的真实环境的声学特性。例如，在大型音乐厅中的XR系统的用户期望XR系统的虚拟声音具有巨大的洞穴似的声音品质；相反，小公寓中的用户期望声音更加减弱、接近和直接。

现有技术经常达不到这些期望，例如所呈现的虚拟音频未考虑用户的周围环境，从而导致会影响用户体验的不真实感。对XR系统用户的观察表明，虽然用户可能对虚拟内容与真实环境之间的视觉失配(例如，照明不一致)的容忍度相对较高；但是可能对听觉失配更为敏感。我们自己的听觉体验在一生中是不断完善的，可以使我们敏锐地意识到我们的物理环境如何影响我们听到的声音；而且我们对与期望不一致的声音高度敏感。对于XR系统，这种不一致会是不和谐的，会使引人注目的沉浸式体验变得花哨、极具模仿意味。在极端的例子中，听觉不一致会导致晕动和其它不良作用，因为内耳无法调和听觉刺激与其相应的视觉提示。

本发明旨在通过向用户呈现虚拟声音来解决这些缺点，其中声音的呈现基于用户真实环境的各方面而包含一个或多个回放参数。例如，呈现可以包含模拟的混响效果，其中混响的一个或多个参数取决于用户真实环境的属性，例如房间的立方体积或房间墙壁的材料。通过将用户物理环境特性考虑进去，本文描述的系统和方法可以模拟将用户听到的内容，使得虚拟声音就像是在该环境中自然生成的真实声音。通过以忠于声音在真实世界中的行为的方式呈现虚拟声音，用户可以体验到与混合现实环境的增强的联系感。类似地，通过呈现对用户的移动和环境做出响应的位置感知虚拟内容，该内容变得更主观，更具互动性和更真实，例如，用户在A点的体验可能与他或她在B点的体验完全不同。这种增强的真实感和交互性可以为新的混合现实应用(例如，使用空间感知音频实现新颖形式的游戏玩法、社交功能或交互行为的那些应用)提供基础。

发明内容

公开了向混合现实环境的用户呈现音频信号的系统和方法。根据一种示例方法，检测与所述混合现实环境相关联的音频事件。所述音频事件与第一音频信号相关联。确定所述用户相对于所述混合现实环境的位置。识别与所述用户的位置相关联的声学区域。确定与所述第一声学区域相关联的第一声学参数。使用所述第一声学参数确定传递函数(transfer function)。将所述传递函数应用于所述第一音频信号以产生第二音频信号，然后向所述用户呈现所述第二音频信号。

附图说明

图1A至1C示出了根据本公开的一个或多个示例的示例混合现实环境。

图2示出了根据本公开的一个或多个示例的示例混合现实系统的示例可穿戴头部单元。

图3A示出了根据本公开的一个或多个示例的可用于向混合现实环境提供输入的示例混合现实手持式控制器。

图3B示出了根据本公开的一个或多个示例的可以被包括在示例混合现实系统中的示例辅助单元。

图4示出了根据本公开的一个或多个示例的示例混合现实系统的示例功能框图。

图5示出了根据本公开的一个或多个示例的示例混合现实系统的部件的示例配置。

图6示出了根据本公开的一个或多个示例的用于在混合现实系统中呈现音频信号的示例过程的流程图。

图7至8示出了根据本公开的一个或多个示例的用于确定混合现实系统的房间的声学参数的示例过程的流程图。

图9示出了根据本公开的一个或多个示例的在混合现实环境中在声学上耦合的房间的示例。

图10示出了根据本公开的一个或多个示例的声学图结构的示例。

图11示出了根据本公开的一个或多个示例的用于确定混合现实系统的声学环境的复合声学参数的示例过程的流程图。

图12至14示出了根据本公开的一个或多个示例的示例可穿戴混合现实系统的部件。

图15示出了根据本公开的一个或多个示例的示例混合现实系统的部件的示例配置。

图16至20示出了根据本公开的一个或多个示例的用于向混合现实系统的用户呈现音频信号的示例过程的流程图。

图21示出了根据本公开的一个或多个示例的用于确定混合现实系统的用户的位置的示例过程的流程图。

具体实施方式

在对示例的以下描述中，参考形成其一部分的附图，并且在附图中通过图示的方式示出了可以实践的具体示例。应当理解，在不脱离所公开的示例的范围的情况下，可以使用其它示例并且可以做出结构改变。

混合现实环境

像所有人一样，混合现实系统的用户存在于真实环境中，即，用户可以感知的“真实世界”的三维部分及其所有内容。例如，用户使用普通的人类感觉(视觉、听觉、触觉、味觉、嗅觉)感知真实环境，并通过在真实环境中移动自己的身体来与真实环境互动。真实环境中的位置可以被描述为坐标空间中的坐标；例如，坐标可以包括纬度、经度和相对于海平面的高度；三个正交维度中的与参考点的距离；或其它合适的值。同样，矢量可以描述坐标空间中具有方向和大小的量。

计算设备可以在例如与该设备相关联的存储器中维护虚拟环境的表示。如本文所使用的，虚拟环境是三维空间的计算表示。虚拟环境可以包括对象、动作、信号、参数、坐标、矢量或与该空间相关联的其它特性的表示。在一些示例中，计算设备的电路(例如，处理器)可以维持和更新虚拟环境的状态；例如，处理器可以在第一时间t0处基于与虚拟环境相关联的数据和/或由用户提供的输入，确定第二时间t1处的虚拟环境的状态。例如，如果虚拟环境中的对象在时间t0处位于第一坐标，并且具有某些编程的物理参数(例如，质量、摩擦系数)；从用户处接收到的输入指示应该在方向矢量上向对象施加力；处理器可以运用运动学定律来使用基础力学确定对象在时间t1处的位置。处理器可以使用关于虚拟环境的任何合适的已知信息和/或任何合适的输入来确定虚拟环境在时间t1处的状态。在维持和更新虚拟环境的状态时，处理器可以执行任何合适的软件，其中包括与在虚拟环境中虚拟对象的创建和删除有关的软件；用于定义虚拟环境中虚拟对象或角色的行为的软件(例如，脚本)；用于定义虚拟环境中信号(例如，音频信号)的行为的软件；用于创建和更新与虚拟环境相关联的参数的软件；用于在虚拟环境中生成音频信号的软件；用于处理输入和输出的软件；用于实施网络操作的软件；用于应用资源数据(例如，在一段时间内移动虚拟对象的动画数据)的软件；或许多其它可能性。

诸如显示器或扬声器之类的输出设备可以向用户呈现虚拟环境的各方面。例如，虚拟环境可以包括可以可视地呈现给用户的虚拟对象(其可以包括物体；人；动物；灯等的表示)。处理器可以确定虚拟环境的视图(例如，对应于具有原点坐标、视图轴和平截头体的相机)；并将与该视图对应的虚拟环境的可视场景呈现给显示器。任何合适的渲染技术都可用于此目的。在一些示例中，可视场景可以仅包括虚拟环境中的虚拟对象的子集，并且不包括某些其它虚拟对象。类似地，虚拟环境可以包括可以作为一个或多个音频信号呈现给用户的音频方面。例如，虚拟环境中的虚拟对象可以生成源自对象的位置坐标的空间化声音(例如，虚拟角色可以说话或引起声音效果)；或者虚拟环境可以与音乐提示或环境声音(这些音乐提示或环境声音可能与特定位置相关联，也可能不与特定位置相关联)相关联。处理器可以确定对应于“用户”坐标的音频信号(例如这样的音频信号：该音频信号对应于虚拟环境中的声音合成，并且被渲染以模拟将由用户在用户坐标处听到的音频信号)，并经由一个或多个扬声器向用户呈现音频信号。在一些示例中，用户可以与两个或更多个听者坐标相关联(例如，分别对应于用户的左耳和右耳的第一和第二听者坐标)，并且可以相对于每个听者坐标单独渲染音频信号。

因为虚拟环境仅作为计算结构存在，所以用户无法使用其普通感觉直接感知虚拟环境。相反，用户可以例如通过显示器、扬声器、触觉反馈设备等间接地感知到呈现给用户的虚拟环境。类似地，用户不能直接触摸、操纵虚拟环境或以其它方式与虚拟环境交互；但可以经由输入设备或传感器将输入数据提供给处理器，处理器可以使用设备或传感器数据更新虚拟环境。例如，相机传感器可以提供指示用户正尝试触摸虚拟环境中的对象的光学数据，并且处理器可以使用该数据来使对象在虚拟环境中做出相应的响应。

混合现实系统例如可以使用透射显示器和/或被并入到头戴式可穿戴单元中的一个或多个扬声器向用户呈现结合了真实环境和虚拟环境的方面的混合现实环境(“MRE”)。如本文所使用的，MRE是对真实环境和相应的虚拟环境的同时表示。在一些示例中，相应的真实和虚拟环境共享一个坐标空间；在一些示例中，真实坐标空间和相应的虚拟坐标空间通过变换矩阵(或其它合适的表示)彼此相关。因此，单个坐标(在一些示例中，连同变换矩阵)可以定义真实环境中的第一位置，也可以定义虚拟环境中相应的第二位置；反之亦然。

在MRE中，虚拟对象(例如，在与MRE相关联的虚拟环境中)可对应于真实对象(例如，在与MRE相关联的真实环境中)。例如，如果MRE的真实环境在一位置坐标处包括真实的灯柱(真实对象)，则MRE的虚拟环境可以在相应的位置坐标处包括虚拟灯柱(虚拟对象)。如本文所使用的，真实对象与其相应的虚拟对象组合在一起构成“混合现实对象”。虚拟对象不必与相应的真实对象完美匹配或对齐。在一些示例中，虚拟对象可以是相应的真实对象的简化版本。例如，如果真实环境包括真实的灯柱，则相应的虚拟对象可以包括具有与真实灯柱大致相同的高度和半径的圆柱体(反映出灯柱的形状可以大致为圆柱体)。以这种方式简化虚拟对象可以提高计算效率，并且可以简化对此类虚拟对象执行的计算。此外，在MRE的一些示例中，并非真实环境中的所有真实对象都与相应的虚拟对象相关联。同样，在MRE的一些示例中，并非虚拟环境中的所有虚拟对象都与相应的真实对象相关联。也就是说，一些虚拟对象可能仅位于MRE的虚拟环境中，而没有任何对应的真实对象。

在一些示例中，虚拟对象可以具有与相应的真实对象的特性不同(有时显著不同)的特性。例如，当MRE中的真实环境包括绿色双臂仙人掌(一种多刺的静物)时，MRE中的相应虚拟对象可能具有绿色双臂虚拟角色的特征，具有人脸特征，并且具有无礼的举止。在该示例中，虚拟对象在某些特征(颜色、臂数)上类似于其对应的真实对象；但是在其它特征(面部特征、个性)上与真实对象不同。这样，虚拟对象就有可能以创造性的抽象、夸张的或幻想的方式表示真实对象，或者将行为(例如，人的个性)赋予无生命的真实对象。在一些示例中，虚拟对象可以是没有真实世界对应物的纯粹幻想的创造(例如，在与真实环境中的空白空间对应的位置处虚拟环境中的虚拟怪兽)。

与向用户呈现虚拟环境的同时遮蔽真实环境的VR系统相比，呈现MRE的混合现实系统允许在呈现虚拟环境的同时保持真实环境可被感知。因此，混合现实系统的用户能够使用与真实环境相关联的视觉和音频提示来体验相应的虚拟环境并与之交互。例如，VR系统的用户努力感知虚拟环境中显示的虚拟对象或与之交互(因为如上所述，用户无法直接感知虚拟环境或与之交互)，而MR系统的用户可以通过在他或她自己的真实环境中看到、听到和触摸相应的真实对象来直观、自然地与虚拟对象进行交互。该交互水平可以增强用户对虚拟环境的沉浸感、联系感和参与感。类似地，通过同时呈现真实环境和虚拟环境，混合现实系统可以减少与VR系统相关的负面心理感觉(例如，认知失调)和负面身体感觉(例如，晕动)。混合现实系统还为可能增强或改变我们对真实世界的体验的应用提供了许多可能性。

图1A示出了示例真实环境100，其中用户110使用混合现实系统112。混合现实系统112例如可以包括在下文描述的显示器(例如，透射显示器)、一个或多个扬声器以及一个或多个传感器(例如，相机)。所示的真实环境100包括：长方形房间104A，用户110站在该长方形房间中；真实对象122A(灯)、124A(桌子)、126A(沙发)和128A(油画)。房间104A还包括拐角106A，拐角106A可以被认为是真实环境100的原点。如图1A所示，原点位于拐角106A处的环境坐标系108(包括x轴108X、y轴108Y和z轴108Z)可以定义真实环境100的坐标空间。在一些示例中，用户110可被视为真实环境100中的真实对象；类似地，用户110的身体部位(例如，手、脚)可以被视为真实环境100中的真实对象。在一些示例中，可以定义相对于混合现实系统112的用户坐标系114。这可以简化相对于用户头部或头戴设备的位置表示。使用SLAM、视觉测距法或其它技术，可以实时地确定和更新用户坐标系114和环境坐标系108之间的变换。

图1B示出了对应于真实环境100的示例虚拟环境130。所示的虚拟环境130包括对应于现实长方形房间104A的虚拟长方形房间104B；对应于真实对象122A的虚拟对象122B；对应于真实对象124A的虚拟对象124B；以及对应于真实对象126A的虚拟对象126B。与虚拟对象122B、124B、126B相关联的元数据可以包括从相应的真实对象122A、124A、126A导出的信息。虚拟环境130另外包括虚拟怪兽132，其不与真实环境100中的任何真实对象相对应。类似地，真实环境100中的真实对象128A不与虚拟环境130中的任何虚拟对象相对应。虚拟房间104B包括拐角106B，拐角106B对应于现实房间104A的拐角106A，并且可以被视为虚拟环境130的原点。如图1B所示，原点位于拐角106B处的坐标系108(包括x轴108X、y轴108Y和z轴108Z)可以定义虚拟环境130的坐标空间。

关于图1A至图1B，坐标系统108定义真实环境100和虚拟环境130两者的共享坐标空间。在所示的示例中，坐标空间在真实环境100中的原点位于拐角106A处，在虚拟环境130中的原点位于拐角106B处。此外，在真实环境100和虚拟环境130中，坐标空间由相同的三个正交轴(108X、108Y、108Z)定义。因此，可以关于相同的坐标空间描述真实环境100中的第一位置和虚拟环境130中的相应的第二位置。这简化了在真实和虚拟环境中相应位置的识别和显示，因为可以使用相同的坐标来识别这两种位置。然而，在一些示例中，对应的真实和虚拟环境不需要使用共享坐标空间。例如，在一些示例(未示出)中，矩阵(或其它合适的表示)可以表征真实环境坐标空间和虚拟环境坐标空间之间的变换。

图1C示出了经由混合现实系统112向用户110同时呈现真实环境100和虚拟环境130的方面的示例MRE 150。在所示的示例中，MRE 150向用户110同时呈现来自真实环境100的真实对象122A、124A、126A和128A(例如，经由混合现实系统112的显示器的透射部分)；以及来自虚拟环境130的虚拟对象122B、124B、126B和132(例如，经由混合现实系统112的显示器的有源(active)显示部分)。如上所述，房间拐角106A/106B用作对应于MRE 150的坐标空间的原点，并且坐标系108定义该坐标空间的x轴、y轴和z轴。

在所示的示例中，混合现实对象包括在坐标空间108中占据相应位置的真实对象和虚拟对象的相应对(即，122A/122B、124A/124B、126A/126B)。在一些示例中，真实对象和虚拟对象可能同时对用户110可见。这在例如以下情况下是所希望的：其中，虚拟对象呈现旨在增强相应真实对象的视图的信息(例如，在其中虚拟对象呈现受损古雕塑的缺失部分的博物馆应用中)。在一些示例中，可以显示虚拟对象(122B、124B和/或126B)(例如，经由使用像素化遮挡光阀的有源像素化遮挡)，以便遮挡相应的真实对象(122A、124A和/或126A)。这在例如以下情况下是所希望的：其中，虚拟对象充当相应真实对象的可视替换(例如，在其中无生命的真实对象成为“活”角色的交互式讲故事应用中)。

在一些示例中，真实对象(例如，122A、124A，126A)可以与不一定构成虚拟对象的虚拟内容或辅助数据相关联。虚拟内容或辅助数据可以便于处理或处置混合现实环境中的虚拟对象。例如，这种虚拟内容可以包括相应真实对象的二维表示；与相应真实对象相关联的自定义资源类型；或与相应真实对象相关联的统计数据。该信息允许或便于涉及真实对象的计算，而不产生与创建和关联对应于真实对象的虚拟对象相关的计算开销。

在一些示例中，上述呈现还可以包括音频方面。例如，在MRE 150中，虚拟怪兽132可以与一个或多个音频信号相关联，例如当怪兽在MRE 150内四处行走时产生的脚步声效果。如下文进一步所述，混合现实系统112的处理器可以计算与MRE 150中所有这些声音的混合和处理合成相对应的音频信号，并经由混合现实系统112中包括的扬声器将音频信号呈现给用户110。

示例混合现实系统

示例混合现实系统112可以包括可穿戴头戴单元(例如，可穿戴增强现实或混合现实头戴单元)，该头戴单元包括：显示器(其可以包括左右透射显示器和用于将来自显示器的光耦合到用户眼睛的相关部件，显示器可以是近眼显示器)；左右扬声器(例如，分别位于用户的左耳和右耳附近)；惯性测量单元(IMU)(例如，安装在装置的镜腿上)；正交线圈电磁接收器(例如，安装在左镜腿件上)；背离用户取向的左右相机(例如，深度(飞行时间)相机)；以及面向用户取向的左右眼相机(例如，用于检测用户的眼睛运动)。然而，混合现实系统112可以包含任何合适的显示技术和任何合适的传感器(例如，光、红外、声、LIDAR、EOG、GPS、磁)。另外，混合现实系统112可以包含联网特征(例如，Wi-Fi功能)以与包括其它混合现实系统的其它装置和系统通信。混合现实系统112可以进一步包括电池(其可以安装在辅助单元中，例如被设计成围绕用户腰部穿戴的腰包中)、处理器和存储器。混合现实系统112的头戴单元可以包括跟踪部件，例如IMU或其它合适的传感器，其被配置为输出头戴单元相对于用户环境的一组坐标。在一些示例中，跟踪部件可以向处理器提供输入，从而执行即时定位和地图构建(SLAM)和/或视觉测距算法。在一些示例中，混合现实系统112还可以包括手持式控制器300和/或辅助单元320，其可以是可穿戴的腰包，如下面进一步描述的。

图2、3A和3B一起示出了可用于向用户呈现MRE(其可对应于MRE 150)的示例混合现实系统(其可对应于混合现实系统112)。图2示出了示例混合现实系统的示例可穿戴头部单元200，该头部单元可以是被配置为穿戴在用户头部上的可头戴系统。在所示的示例中，可穿戴头部单元200(其可以是例如可穿戴增强现实或混合现实头戴单元)包括显示器(其可以包括左右透射显示器，以及用于将来自显示器的光耦合到用户眼睛的相关部件)；左右声学结构(例如，分别位于用户的左耳和右耳附近的扬声器)；一个或多个传感器，例如雷达传感器(包括发射和/或接收天线)、红外传感器、加速计、陀螺仪、磁力计、GPS单元、惯性测量单元(IMU)、声学传感器；正交线圈电磁接收器(例如，安装在左镜腿件上)；背向用户取向的左右相机(例如，深度(飞行时间)相机)；以及面向用户取向的左右眼相机(例如，用于检测用户的眼睛运动)。然而，可穿戴头部单元200可以包含任何合适的显示技术，以及任何合适的数量、类型的部件或这些部件的组合，而不脱离本发明的范围。在一些示例中，可穿戴头部单元200可以包含一个或多个麦克风，所述麦克风被配置为检测由用户的语音生成的音频信号；此类麦克风可以被放置在可穿戴头部单元中且邻近用户的嘴部。在一些示例中，可穿戴头部单元200可以包含联网或无线特征(例如，Wi-Fi功能、蓝牙)以与包括其它可穿戴系统的其它装置和系统通信。可穿戴头部单元200还可以包括电池(其可以安装在辅助单元中，例如被设计成围绕用户腰部穿戴的腰包中)、处理器和存储器。在一些示例中，可穿戴头部单元200的跟踪部件可以向处理器提供输入，从而执行即时定位和地图构建(SLAM)和/或视觉测距算法。可穿戴头部单元200可以是包括附加系统部件的混合现实系统的第一部件。在一些示例中，此类可穿戴系统还可以包括手持式控制器300和/或辅助单元320，其可以是可穿戴的腰包，如下文进一步描述的。

图3A示出了示例混合现实系统的示例手持式控制器部件300。在一些示例中，手持式控制器300包括握持部分346和沿顶表面348设置的一个或多个按钮350。在一些示例中，按钮350可以被配置为用作光学跟踪目标，例如，用于结合相机或其它光学传感器(其在一些示例中可以安装在可穿戴头部单元200中)跟踪手持式控制器300的六自由度(6DOF)运动。在一些示例中，手持式控制器300包括跟踪部件(例如，IMU、雷达传感器(包括发射和/或接收天线)或其它合适的传感器或电路)，用于检测位置或取向，例如相对于可穿戴头部单元或腰包的位置或取向。在一些示例中，此类跟踪部件可以位于手持式控制器300的手柄中并从手持式控制器300的表面(例如，握持部分346、顶表面348和/或底表面352)朝外，和/或可以机械地耦合到手持式控制器。手持式控制器300可以被配置为提供与以下一者或多者对应的一个或多个输出信号：按钮的按下状态；或手持式控制器300的位置、取向和/或运动(例如，经由IMU)。此类输出信号可用作向可穿戴头部单元200的处理器、手持式控制器300的处理器、或混合现实系统(例如，可穿戴混合现实系统)的另一部件的处理器的输入。此类输入可对应于手持式控制器的位置、取向和/或运动(并且通过扩展，对应于保持控制器的用户的手的位置、取向和/或运动)。此类输入还可对应于用户按下按钮350。在一些示例中，手持式控制器300可以包括处理器、存储器或其它合适的计算机系统部件。例如，手持式控制器300的处理器可用于执行本文公开的任何合适的过程。

图3B示出了诸如可穿戴混合现实系统之类的混合现实系统的示例辅助单元320。辅助单元320可以包括例如一个或多个电池，以提供能量来操作可穿戴头部单元200和/或手持式控制器300，其中包括这些部件内的显示器和/或声学结构；处理器(其可以执行本文公开的任何合适的过程)；存储器；或可穿戴系统的任何其它合适部件。与头戴单元(例如，可穿戴头部单元200)或手持式单元(例如，手持式控制器300)相比，辅助单元320可能更适合于容纳大型或重型部件(例如，电池)，因为它可以更容易定位在用户身体的相对强壮、较不容易被重物压疲劳的部位(例如，腰部或背部)上。

在一些示例中，感测和/或跟踪部件可以定位在辅助单元320中。此类部件可以包括例如一个或多个IMU和/或雷达传感器(包括发射和/或接收天线)。在一些示例中，辅助单元320可以使用此类部件来确定手持式控制器300、可穿戴头部单元200、或辅助单元本身的位置和/或取向(例如，6DOF位置)。如示例中所示，辅助单元320可以包括用于将辅助单元320附接到用户腰带上的夹子2128。其它形状因素适用于辅助单元320，并且将是显而易见的，包括不涉及将该单元安装到用户腰带上的形状因素。在一些示例中，辅助单元320可以通过多导管线缆(其可包括例如电线和光纤)而被耦合到可穿戴头部单元200。也可以使用与辅助单元320的无线连接(例如，蓝牙、Wi-Fi或任何其它合适的无线技术)。

图4示出了可对应于示例混合现实系统(例如，包括以上关于图2、3A、3B描述的部件中的一者或多者的混合现实系统)的示例功能框图。如图4所示，示例手持式控制器400B(其可对应于手持式控制器300(“图腾(totem)”))可以包括图腾到头戴部六自由度(6DOF)图腾子系统404A和传感器407；并且示例增强现实头戴部400A(其可对应于可穿戴头部单元200)可以包括图腾到头戴部6DOF头戴部子系统404B。在该示例中，6DOF图腾子系统404A和6DOF头戴部子系统404B可以分别或共同确定手持式控制器400B相对于增强现实头戴部400A(例如，相对于增强现实头戴部400A的坐标系)的三个位置坐标和三个旋转坐标。在此类坐标系中，这三个位置可以表示为X、Y和Z值；表示为转换矩阵；或表示为某种其它表示形式。可以通过任何合适的定位技术来确定位置坐标，例如涉及雷达、声纳、GPS或其它传感器。旋转坐标可以表示为一系列偏航、俯仰和翻滚旋转；表示为旋转矩阵；表示为四元数；或表示为某种其它表示形式。

在一些示例中，可穿戴头部单元400A；可穿戴头部单元400A中包括的一个或多个深度相机444(和/或一个或多个非深度相机)；和/或一个或多个光学目标(例如，如上所述的手持式控制器400B的按钮350，或手持式控制器400B中包括的专用光学目标)可用于6DOF跟踪。在一些示例中，如上所述，手持式控制器400B可以包括相机；而且可穿戴头部单元400A可以包括结合相机一起进行光学跟踪的光学目标。

在一些示例中，可能有必要将坐标从局部坐标空间(例如，相对于可穿戴头部单元400A固定的坐标空间)变换为惯性坐标空间(例如，相对于真实环境固定的坐标空间)。例如，对于在相对于真实环境的预期位置和取向处呈现虚拟对象(例如，真实环境中坐在真实的椅子上、面向前方的虚拟人，不考虑头戴部的位置和取向)，而不是在显示器上的固定位置和取向(例如，在显示器右下角的相同位置)处呈现虚拟对象的可穿戴头部单元400A的显示器而言，此类变换可能是有必要的。这可以保留虚拟对象存在于真实环境中的错觉(并且例如不会随着可穿戴头部单元400A的移位和旋转而在真实环境中不自然地移位或旋转)。在一些示例中，可以通过处理来自深度相机444的图像(例如，使用SLAM和/或视觉测距技术)来确定坐标空间之间的补偿变换，以便确定头戴部相对于坐标系的变换。在图4所示的示例中，深度相机444可以耦合到SLAM/视觉测距块406，并且可以向块406提供图像。SLAM/视觉测距块406的实现可以包括处理器，该处理器被配置为处理该图像并确定用户头部的位置和取向，然后可以使用用户头部的位置和取向来识别头部坐标空间和真实坐标空间之间的变换。类似地，在一些示例中，从IMU 409(或其它合适的传感器，诸如加速度计或陀螺仪)获得关于用户的头部姿势和位置的另外的信息源。来自IMU 409的信息可以与来自SLAM/视觉测距块406的信息整合在一起，以提供改进的准确性和/或关于用户的头部姿势和位置的快速调整的更及时的信息。

在一些示例中，深度相机444可以将3D图像提供给手势跟踪器411，该手势跟踪器411可以在可穿戴头部单元400A的处理器中实现。手势跟踪器411例如可以通过将从深度相机444接收到的3D图像与所存储的表示手势的图样(pattern)进行匹配，来识别用户的手势。识别用户手势的其它合适的技术将是显而易见的。

在一些示例中，一个或多个处理器416可以被配置为接收来自可穿戴头部单元的头戴部子系统404B、雷达传感器408、IMU 409、SLAM/视觉测距块406、深度相机444、麦克风450和/或手势跟踪器411的数据。处理器416还可以向图腾系统404A发送控制信号以及从图腾系统404A接收控制信号。处理器416可以以无线的方式耦合到图腾系统404A，例如在手持式控制器400B未绑到其它系统部件的示例中。处理器416可以进一步与其它部件通信，例如视听内容存储器418、图形处理单元(GPU)420和/或数字信号处理器(DSP)音频声场定位器422。DSP音频声场定位器422可以耦合到头部相关传递函数(HRTF)存储器425。GPU 420可以包括耦合到按图像调制的光的左源424的左通道输出和耦合到按图像调制的光的右源426的右通道输出。GPU 420可以将立体图像数据输出到按图像调制的光的源424、426。DSP音频声场定位器422可以将音频输出到左扬声器412和/或右扬声器414。DSP音频声场定位器422可以从处理器419接收指示从用户到虚拟声源(其可以由用户例如经由手持式控制器320移动)的方向矢量的输入。基于方向矢量，DSP音频声场定位器422可以确定相应的HRTF(例如，通过访问HRTF，或者通过内插多个HRTF)。然后，DSP音频声场定位器422可以将所确定的HRTF应用于音频信号，诸如与由虚拟对象生成的虚拟声音对应的音频信号。这可以通过在混合现实环境中包含用户相对于虚拟声音的相对位置和取向，即，通过呈现与用户期望(期望虚拟声音听上去就像真实环境中的真实声音)相匹配的虚拟声音，来增强虚拟声音的可信度和逼真度。

在一些示例中，诸如图4中所示，处理器416、GPU 420、DSP音频声场定位器422、HRTF存储器425和视/听内容存储器418中的一者或多者可以被包括在辅助单元400C(其可对应于上述辅助单元320)中。辅助单元400C可以包括电池427，以为其部件供电和/或为诸如可穿戴头部单元400A和/或手持式控制器400B之类的另一系统部件供电。将此类部件包括在可以安装到用户腰部的辅助单元中，可以限制可穿戴头部单元400A的尺寸和重量，进而可以减轻用户的头部和颈部的疲劳。

尽管图4呈现了对应于示例混合现实系统的各个部件的元件，但是对于本领域技术人员而言，这些部件的各种其它合适的布置将是显而易见的。例如，图4中呈现的与辅助单元400C相关联的元件可以替代地与可穿戴头部单元400A和/或手持式控制器400B相关联。而且，可穿戴头部单元400A、手持式控制器400B和辅助单元400C中的一者或多者可以包括能够执行本文公开的一种或多种方法的处理器。此外，一些混合现实系统可以完全放弃手持式控制器400B或辅助单元400C。此类改变和修改应被理解为包括在所公开的示例的范围内。

图5示出了其中客户端设备510(其可以是混合现实系统的部件，包括可穿戴混合现实系统)经由通信网络530与服务器520通信的示例配置。客户端设备510例如可以包括诸如上面描述的可穿戴头部单元200、手持式控制器300和辅助单元320中的一者或多者。服务器520可以包括一个或多个专用服务器机器(其例如可以包括一个或多个云服务器)；但是，在一些示例中，可以包括可充当服务器的可穿戴头部单元200、手持式控制器300和/或辅助单元320中的一者或多者。服务器520可以经由通信网络530(例如，经由因特网和/或经由无线网络)与包括客户端部件510的一个或多个客户端设备通信。服务器520可以维持与一个或多个用户交互(例如，经由对应于每个用户的客户端设备)的持久世界状态。另外，服务器520可以执行计算密集型操作，计算密集型操作被禁止对“瘦”客户端硬件执行。图5所示的示例之外的其它客户端-服务器拓扑将是显而易见的；例如，在一些示例中，可穿戴系统可以充当相对于其它可穿戴系统客户端的服务器。另外，在一些示例中，可穿戴系统可以经由对等网络传送和共享信息。本公开不限于网络部件的任何特定拓扑。此外，本文公开的示例可以在客户端和/或服务器部件的任何合适的组合上实现，其中包括属于客户端和服务器设备的处理器。

虚拟声音

如上所述，MRE(诸如经由混合现实系统体验，该混合现实系统例如是混合现实系统112，其可以包括诸如上述可穿戴头部单元200、手持式控制器300或辅助单元320之类的部件)可以向MRE的用户呈现音频信号，这些音频信号听起来源自MRE中具有原点坐标的声源并在MRE中沿取向矢量的方向行进。也就是说，用户可以将这些音频信号感知为就像它们是源自声源的原点坐标并沿取向矢量行进的真实音频信号一样。

在某些情况下，音频信号可以被认为是虚拟的，因为它们对应于虚拟环境中的计算信号。虚拟音频信号可以如同人耳可检测到的真实音频信号那样呈现给用户，例如，如经由图2中的可穿戴头部单元200的扬声器2134和2136生成的那样。

声源可对应于真实对象和/或虚拟对象。例如，虚拟对象(例如，图1C的虚拟怪兽132)可以在MRE中发出音频信号，该音频信号在MRE中表示为虚拟音频信号，并且如真实音频信号一样呈现给用户。例如，图1C的虚拟怪兽132可以发出对应于怪兽的语音(例如，对话)或音效的虚拟声音。类似地，可以使真实对象(例如，图1C的真实对象122A)看起来像在MRE中发出虚拟音频信号，该信号在MRE中表示为虚拟音频信号，并如真实音频信号一样呈现给用户。例如，真实的灯122A可以发出对应于打开或关闭灯的音效的虚拟声音，即使在真实环境中没有打开或关闭灯。虚拟声音可对应于声源(无论是真实的还是虚拟的)的位置和取向。例如，如果虚拟声音如真实音频信号一样呈现给用户(例如，经由扬声器2134和2136)，则用户可以将该虚拟声音感知为源自声源的位置并且沿声源的取向方向传播。声源在本文中被称为“虚拟声源”，即使明显发出声音的潜在对象本身可能对应于诸如上面描述的真实或虚拟对象。

一些虚拟或混合现实环境会遭受被感知为环境不够真实或逼真。这种感知的一个原因是，在这种环境下，音频和视觉提示并不总是相互匹配。例如，如果用户位于MRE中的大砖墙后面，则用户可能预期从砖墙后面传来的声音比直接在用户旁边发出的声音更安静且更低沉。这种预期基于用户在真实世界中的听觉体验，当声音通过大型致密物体时会变得安静、低沉。当向用户呈现据称从砖墙后面发出的，但是却没有消音且具有全音量的音频信号时，就会使该声音源自砖墙后面的错觉受损。整个虚拟体验可能让人感到虚假和不真实，部分原因是它与用户基于真实世界交互的预期不一致。此外，在某些情况下，会出现“诡异谷”问题，其中甚至虚拟体验与真实体验之间微妙的差别也会引起增强的不舒服感觉。需要通过在MRE中呈现看起来与用户环境中的对象进行逼真交互(甚至以微妙的方式)的音频信号来改善用户的体验。基于真实世界体验，此类音频信号与用户的预期越一致，用户在MRE中的体验就越有沉浸感和参与感。

用户感知和理解其周围环境的一种方式是通过音频提示。在真实世界中，用户听到的真实音频信号会受到这些音频信号源自哪里、这些音频信号沿什么方向传播、以及与这些音频信号交互的对象等的影响。例如，在所有其它因素相同的情况下，源自与用户距离较远的地方的声音(例如，远处的狗叫声)听起来比源自与用户距离较近的地方的相同声音(例如，与用户在同一房间里的狗叫声)更安静。因此，用户可以部分地基于感知到狗叫声的音量来识别狗在真实环境中的位置。同样，在所有其它因素相同的情况下，远离用户传播的声音(例如，背对用户的人的语音)与朝着用户传播的相同声音(例如，面对用户的人的语音)相比将听起来较不清晰，且更低沉(即，被低通滤波)。因此，用户可以基于感知到的那个人的语音的特征来识别人在真实环境中的取向。

用户对真实音频信号的感知也会受到环境中与音频信号交互的对象的存在的影响。也就是说，用户不仅可以感知由声源生成的音频信号，而且还可以感知该音频信号碰到附近对象的混响(reverberation)。例如，如果某人在具有封闭墙壁的小房间里讲话，那么当该人的声音从墙壁反射时，这些墙壁可能导致生成短而自然的混响信号。用户可以从这些混响中推断出他们处在具有封闭墙壁的小房间中。同样，大型音乐厅或大教堂可能导致较长的混响，用户可以从中推断出他们处于宽敞的大房间中。类似地，音频信号的混响可以基于反射这些信号的表面的位置或取向，或者基于这些表面的材料而呈现各种声音特性。例如，瓷砖墙壁反射的混响听起来与砖、地毯、石膏板或其它材料反射的混响不同。用户可以使用这些混响特性从听觉上了解他们所居住的空间的大小、形状和材料组成。

上面的示例示出了音频提示如何告知用户对其周围环境的感知。这些提示可以与视觉提示结合作用：例如，如果用户看到远处的狗，则用户可能预期狗吠声与该距离一致(如果不一致，则会感到困惑或迷惑，如在某些虚拟环境中)。在一些示例中，例如在光线较暗的环境中，或者相对于视障用户，视觉提示可能会受到限制或不可用；在这种情况下，音频提示将显得尤为重要，并且可作为用户了解其环境的主要手段。

希望基于MRE中的对象，以包含逼真混响效果的方式向用户呈现MRE中的虚拟音频信号，以便用户可以了解虚拟音频信号逼真地呈现于他们的物理空间中。某些混合现实系统可产生MRE中的用户听觉体验与真实世界中的用户听觉体验之间的不一致，从而使MRE中的音频信号听起来不太对(例如，“诡异谷”问题)。与其它混合现实音频系统相比，本公开可以通过将用户的位置、取向、用户环境中对象的特性、用户环境的特性、以及相对于音频信号和环境的其它特性考虑进去，来允许更细致、更可信地呈现音频信号。通过为MRE用户呈现唤起其日常生活的音频体验，MRE可以在用户与MRE互动时增强用户的沉浸感和联系感。

图6描述了根据一些实施例的向混合现实环境(例如，图1C的混合现实环境150)的用户呈现虚拟音频信号的示例过程600。用户可以使用可穿戴混合现实系统，例如以上关于图1至图4所述。根据过程600，可以识别音频事件610。音频事件610可以与一个或多个音频资源(audio asset)(例如，来自麦克风或来自网络的波形音频文件或现场音频流)相关联，并且可以具有在MRE的坐标系中的位置和取向。可以经由诸如可穿戴头部单元200的扬声器2134和2136之类的扬声器向用户呈现位于用户的声学空间内(例如，距离用户足够近以被听到)的音频事件。

根据示例过程600，此类音频事件可以通过下面的方式呈现给可穿戴混合现实系统的用户。在阶段620，可以将与音频事件610相关联的一个或多个原始音频资源加载到可穿戴系统的存储器中，或者以其它方式准备以便经由可穿戴系统进行呈现(例如，通过将音频流的一部分加载到流音频缓冲区中)。原始音频资源可以包含一个或多个静态音频文件或此类音频文件的一部分(例如，文件的一个或多个样本)；和/或可以包括实时音频馈送(诸如麦克风的输出)或通过因特网接收的音频流。在一些示例中，此类原始音频资源优选地为“干的(dry)”，其中对原始音频资源应用最小的效果或处理。

在阶段630，可以确定一个或多个声学参数，当在阶段640将这些声学参数应用于原始音频资源以创建经处理的音频信号时，可以通过添加与用户当前声学环境(例如，当前的“房间”)一致的声音特性来增强音频资源。这些声学参数可对应于房间将赋予在该房间内产生的基本声音的声学效果。此类声学参数可以包括对应于例如基本声音衰减(例如，音量下降)；基本声音的滤波(例如，低通滤波)；基本声音的相移；基本声音的音高调制；或其它声音效果的参数。声学参数还可以包括用于将混响和回声效果应用于基本声音的混响引擎的输入参数(例如，湿/干水平、起音(attack)/延迟时间)。因此，由阶段640输出的经处理的音频信号可以包含对混响、衰减、滤波或房间的墙壁、表面和/或对象赋予原始音频资源的其它效果的模拟。可以将阶段640处的声学参数的应用描述为基于声学参数的一个或多个传递函数(例如，传递函数H(t))与原始音频资源做卷积，以生成经处理的音频信号。该过程可以由可包括混响引擎的音频引擎执行，其中原始音频资源和适当的输入参数被提供给该引擎。下面更详细地描述阶段630处的声学参数确定。

在阶段640处生成的音频信号可以是这样的虚拟音频信号：该虚拟音频信号不能由用户直接感知，但是可以由一个或多个扬声器(例如，扬声器2134和/或2136)转换为真实音频信号，以便其可以被用户听到。例如，音频信号可以是：计算表示，其包括在混合现实环境中经处理的音频信号所源于的坐标；MRE中经处理的音频信号的传播所沿着的矢量；经处理的音频信号产生的时间；经处理的音频信号传播的速度；或其它合适的特征。在阶段650，可以将一个或多个虚拟音频信号混音(mix down)到一个或多个通道中，例如与可穿戴头部单元200的扬声器配置相对应。例如，在阶段650，可以将虚拟音频信号混音到立体声扬声器配置的左右声道。在阶段660，这些混音的信号是经由扬声器的输出；例如，这样的数字音频数据：该数字音频数据可经由数模转换器(例如，作为图4的DSP音频声场定位器422的一部分)而被转换为模拟信号；且然后被放大并用于驱动扬声器，从而产生用户可感知的声音。

图7描述了用于确定音频事件的声学参数的示例过程700，例如以上关于示例过程600的阶段630所述。示例过程700例如可以在可穿戴头部单元200和/或服务器(诸如上述服务器520)的一个或多个处理器上执行。如上所述，此类声学参数可以表示发生音频事件的房间的声学特性。这些声学特性以及由此而来的声学参数很大程度上基于/关于该房间的物理尺寸、房间中存在的对象以及这些对象的大小和形状、房间表面和房间内任何对象的材料等等而被确定。由于房间的这些特性随着时间的推移保持不变，因此将MRE中的单个房间与描述该房间的声学特性的一组声学参数(“声学指纹”)相关联是有益的。这种配置具有若干个潜在的优点。通过基于每个房间创建、存储和检索声学指纹，可以容易且有效地管理、交换和更新声学参数，而不必在每次用户进入房间时重新创建这样的参数。另外，如下所述，该配置可以简化产生描述两个或更多个房间的组合的声学参数的过程。此外，允许房间的声学参数随着时间的推移持续可以增强沉浸感，因为一个人对MRE中物理空间的听觉体验随着时间的推移保持一致(就像在真实世界听觉空间中一样)。而且，由于可以将同一组声学参数提供给多个用户，因此，单个共享空间中的多个用户可以经历共同的听觉体验，从而增强了这些用户之间的联系感。

示例过程700描述了这样的系统：其中，基于每个房间存储声学参数(尽管其它合适的配置也是可能的，并且在本公开的范围内)。在过程700的阶段710，针对音频事件识别房间；该房间可以确定应当应用于该音频事件的一组音频参数。可以使用混合现实系统的一个或多个传感器(例如，可穿戴头部单元200的传感器)来识别房间。例如，可穿戴头部单元200的GPS模块可以识别用户的位置，该位置可用于确定对应于该位置的房间。在一些示例中，可以基于附近的Wi-Fi接收器或蜂窝天线的位置，通过三角测量来确定用户的位置。在一些示例中，诸如LIDAR、深度相机、RGB相机和/或类似物之类的传感器可用于识别用户的当前周围环境，并且可以将传感器输出与房间数据库进行比较以识别对应于传感器输出的房间。可以基于地图绘制数据和/或建筑记录(例如，楼层平面图记录)根据用户的位置确定房间，在一些示例中，这些数据和/或记录可被存储在服务器上，例如上述服务器520上。用于识别对应于用户当前位置的房间的其它技术对于本领域的普通技术人员将是显而易见的。

在示例过程700中，可以查询一组声学参数是否存在且可被检索。在阶段720，可以查询客户端设备(例如，上述客户端设备510，其可以包括可穿戴头部单元)以获取对应于当前房间的声学参数。如果确定这样的一组声学参数存储在客户端设备上(阶段730)，则可以检索并输出该组声学参数(阶段770)以供使用。如果该组声学参数未存储在客户端设备上，则可以在阶段740查询服务器(例如，上述服务器520)以获取声学参数。如上所述，如果确定该组声学参数存储在服务器上(阶段750)，则可以检索并输出它们(阶段770)以供使用。如果客户端设备或服务器上都没有当前房间的一组声学参数，则可以在阶段760为该房间创建一组新的声学参数，如下面更详细描述的那样，其中所得到的声学参数被输出(阶段770)以供使用；而且，如下所述，可能被存储在客户端设备或服务器设备上以供后续检索。

图8描述了诸如可以在示例过程700的阶段760执行的，用于确定房间的一组声学参数的示例过程800。示例过程800可以采用适当技术的任意组合来确定这种声学参数。一种这样的技术包括基于来自可穿戴设备(诸如可穿戴头部单元200)的传感器的数据来确定声学参数。在阶段810，可以将此类传感器数据提供作为示例过程的输入。传感器数据可以包括来自深度相机(例如，深度相机444)、RGB相机、LIDAR模块、声纳模块、雷达模块、GPS接收器、取向传感器(例如，IMU、陀螺仪或加速度计)、和/或麦克风(例如，麦克风450)的数据。在阶段820，根据传感器输入，可以确定当前房间的几何结构。此类几何结构可以包括房间中的一个或多个表面(例如，墙壁、地板、天花板)和/或对象的尺寸、形状、位置和/或取向。该数据可影响房间中声音的声学特性。例如，与较小的空间相比，巨大的洞穴似的空间会产生更长、更显著的混响。类似地，充满声学抑制对象(例如，窗帘、沙发)的房间可以抑制这些房间中的声音。

可以基于传感器输入(例如，显示由几何结构反射的光的相机图像；提供对应于该几何结构的空间坐标的LIDAR数据)，并且通过利用本领域普通技术人员熟悉的技术来确定房间的几何结构信息。在一些示例中，房间几何结构可以从关联房间几何结构与地理坐标(例如可以在阶段810由GPS接收器提供)的数据库中检索。类似地，在一些示例中，GPS坐标可用于检索对应于GPS坐标的建筑数据(例如，楼层平面图)，并且房间几何结构可以使用建筑数据来确定。

除了在阶段820确定的房间几何结构外，还可以在阶段830确定对应于该几何结构的材料。此类材料可以表现出影响房间内声音的声学特性。例如，由瓷砖制成的墙为声学反射性的，并会呈现鲜明的混响；而铺有地毯的地板将展示出抑制效果。可以使用在阶段810提供的传感器输入来确定此类材料。例如，可以使用RGB相机，基于其视觉外观来识别表面材料。其它合适的技术对于本领域普通技术人员将是显而易见的。如上所述，在一些示例中，表面材料可以从关联表面材料与地理坐标的数据库中检索，例如可以在阶段810由GPS接收器提供，或从对应于这些坐标的建筑数据中检索。

在阶段840，可以使用在阶段820确定的房间几何结构和/或在阶段830确定的表面材料来确定房间的相应声学参数，表示房间几何结构和/或表面材料可以对房间中的声音产生的声学效果。可以使用各种技术来确定此类声学参数。作为一个示例，可以基于与房间的立方体积的已知关系确定混响引擎输入参数(例如，衰减时间、混合水平、起音时间、或混响算法的选择索引)。作为另一示例，可以基于传感器输入构造房间的物理表示，其中房间的声学响应模型根据该表示从数学上确定。作为另一示例，可以维持查找表，该查找表将混响参数或滤波器参数与表面材料类型相关联。在房间包括具有不同声学参数的多种材料的情况下，例如可以通过基于房间中被每种相应的材料覆盖的相对表面积混合参数来确定声学参数的复合组。其它合适的示例技术在例如L.Savioja等人的“Creating InteractiveVirtual Acoustic Environments(创建交互式虚拟声学环境)，47 J.Audio Eng.Soc.675，705 n.9(1999)”中进行了描述，并且是本领域普通技术人员熟知的。

用于确定房间的声学特性的另一技术包括经由房间中的扬声器呈现已知的测试音频信号；经由房间中的麦克风记录“湿”测试信号；并在阶段840呈现用于比较的测试信号(850)和湿信号(860)。测试信号和湿信号的比较可以产生传递函数，该传递函数表征房间对测试信号的声学影响。例如，如A.Deb等人在ANALYSIS AND IDENTIFICATION OF TIME-INVARIANT SYSTEMS,TIME-VARYING SYSTEMS,AND MULTI-DELAY SYSTEMS USINGORTHOGONAL HYBRID FUNCTIONS(《使用正交混合函数对时不变系统、时变系统和多时滞系统的分析和识别》)中的“Time Invariant System Identification:Via‘Deconvolution’(时不变系统识别：经由“反卷积”)”，319-330(Springer，第一版，2016年)中所述。在一些示例中，可以采用“盲”估计技术来通过仅记录湿信号检索房间声学参数，例如，如J.Jot等人的“Blind Estimation of the Reverberation Fingerprint of Unknown AcousticEnvironments(未知声学环境的混响指纹的盲估计)”，Audio Engineering SocietyConvention Paper 9905，2017年10月18-21日中所述。

在一些示例中，诸如示例过程800，可以组合多种用于确定声学参数的技术。例如，可以分别使用在阶段820和830确定的房间几何结构和表面材料来细化根据测试信号和湿信号(例如以上关于阶段850和860所述)确定的声学参数，和/或反之亦然。

在阶段840确定房间的一组声学参数之后，可以存储该组声学参数以供以后检索，从而避免需要重新计算此类参数(重新计算会导致大量的计算开销)。该组声学参数可以存储在客户端设备(例如，客户端设备510，如以上关于过程700的阶段720所描述的那样被检索)上；存储在服务器设备(例如，服务器设备520，如以上关于过程700的阶段740所描述的那样被检索)上；存储在另一合适的存储位置上；或存储在以上各项的某一组合处。

在一些示例中，可能希望通过将与多于一个房间相关联的声学参数应用于音频信号(例如，在示例过程600的阶段640)来获得更逼真的声学模型。例如，在包括多于一个声学区域或房间的声学环境中，音频信号可以呈现出多个房间的声学特性。而且，在MRE中，这些房间中的一个或多个可以是虚拟房间，对应于真实环境中不一定存在的声学区域。

图9示出了包括多个声学连接区域的示例内部900。在图9中，区域910对应于房间中具有各种对象的起居室。门廊914连接起居室910与第二房间(餐厅960)。声源964位于餐厅960中。在这种真实环境中，由餐厅960中的声源964产生并被起居室中910的用户听到的声音将同时具有餐厅960和起居室910的声学特性。在对应于内部场景900的MRE中，如果虚拟声音类似地采用这些多个房间的声学特性，则将产生更逼真的声学体验。

多房间声学环境(诸如图9中的示例内部900)可以通过描述环境中各房间之间的声学关系的声学图结构来表示。图10示出了示例声学图结构1000，其可以描述对应于示例内部场景900的房屋中的房间。声学图结构中的每个房间可以具有其自己的声学特性。在一些示例中，声学图结构1000可以存储在诸如服务器520之类的服务器上，其中诸如客户端设备510之类的一个或多个客户端设备可以从服务器访问声学图结构。在示例声学图结构1000中，图9所示的起居室910由相应的房间数据结构1010表示。房间数据结构1010可以与描述起居室910的各方面(例如，房间的大小和形状、房间中的对象等)的一个或多个数据元素相关联。在该示例中，声学参数数据结构1012与房间数据结构1010相关联，并且可以描述与相应的起居室910相关联的一组声学参数。该组声学参数例如可对应于诸如以上关于图6、图7和图8所述的一组声学参数。

在声学图结构1000中，房屋中的各个房间可以进行声学连接(例如，经由窗户、门廊或声波可以传播通过的对象)。这些声学连接经由连接声学图结构1000中的房间数据结构的线示出。例如，声学图结构1000包括对应于图9中餐厅960的房间数据结构1060。在图中，餐厅数据结构1060通过线连接到起居室数据结构1010；这反映出，如图9所示，餐厅960和起居室910经由门廊964进行声学耦合。类似于起居室数据结构1010，餐厅数据结构1060与声学参数数据结构1062相关联，该声学参数数据结构1062可以描述与相应的餐厅960相关联的一组声学参数。类似地，声学图结构1000包括房屋中其它房间的表示(例如，地下室1030、厨房1040、书房1050、卧室1020、浴室1070、车库1080、办公室1090)及其相关联的声学参数(例如，1032、1042、1052、1022、1072、1082和1090，它们分别对应于地下室1030、厨房1040、书房1050、卧室1020、浴室1070、车库1080和办公室1090)。如图所示，可以使用哈希表(hash table)来表示这些房间及其相关联的数据。连接房间数据结构的线表示房间之间的声学连接。描述房间之间的声学连接的参数例如可以通过与线相关联的数据结构来表示；在上述声学参数数据结构(例如1012、1062)中表示；或经由某种其它数据结构表示。此类参数例如可以包括房间之间的开口(例如，门廊914)的尺寸；房间之间的墙壁的厚度和材料等等。该信息可用于确定一个房间的声学特性影响在声学相连的房间中产生或听到的声音的程度。

可以使用任何合适的技术来创建或修改诸如示例声学图结构1000之类的声学图结构。在一些示例中，可以基于来自可穿戴系统的传感器输入(例如，来自诸如深度相机、RGB相机、LIDAR、声纳、雷达和/或GPS之类的传感器的输入)将房间添加到声学图结构中。传感器输入可用于识别诸如上面描述的房间、房间几何结构、房间材料、对象、对象材料等，并确定房间是否(以及以什么方式)进行声学连接。在一些示例中，可以手动修改声学图结构，例如当混合现实设计者希望将一虚拟房间(可能没有真实世界的对应物)添加到一个或多个现有房间时。

图11示出了针对在第一房间中(由声源)呈现并且可以在不同于第一房间的第二房间中被(用户)听到的声音，确定与两个或更多个声学连接的房间相关联的一组复合声学参数的示例过程1100。示例过程1100可用于检索应用于音频信号的声学参数，并且可以在例如上述示例过程600的阶段630执行。在阶段1110，可以识别对应于用户位置的房间，例如上面关于示例过程700的阶段710所述。该用户房间例如可对应于上述起居室910。在阶段1120，确定用户房间的声学参数，例如，如以上关于图7至8和阶段720至760所述。在上述示例中，这些参数可以由声学参数1012来描述。

在阶段1130，可以识别对应于声音位置的房间，诸如以上关于示例过程700的阶段710所述。例如，该声源可对应于上述声源964；并且声源房间可对应于上述餐厅960(其在声学上连接到起居室910)。在阶段1140，确定声源房间的声学参数，例如，如以上关于图7至8和阶段720至760所述。在上述示例中，这些参数可以由声学参数1062来描述。

在示例过程1100的阶段1150，可以确定描述用户房间和声源房间之间的声学关系的声学图。该声学图可对应于上述声学图结构1000。在一些示例中，可以通过类似于关于图7描述的检索声学参数的过程的方式来检索该声学图；例如，可以基于传感器输入，从可以存储在客户端设备和/或服务器上的一组声学图中选择该声学图。

在确定声学图之后，可以从声学图确定哪些房间可以声学地连接到源房间和/或用户房间，以及这些房间可能对所呈现的声音产生什么声学影响。例如，以声学图结构1000为例，该声学图指示起居室1010和餐厅1060通过第一路径直接相连；并且该声学图进一步指示起居室1010和餐厅1060也经由包括厨房1040的第二路径间接相连。在阶段1160，可以确定此类中间房间的声学参数(例如，如以上关于7至8和阶段720至760所述)。另外，诸如如上所述，阶段1160可以确定描述这些房间之间的声学关系的参数(诸如房间之间的通道或对象的尺寸和形状)。

阶段1120、1140和1160的输出(即，分别对应于用户房间、声源房间和任何中间房间的声学参数，以及描述上述房间的声学连接的参数)可以呈现给阶段1170，在该点，可以将这些参数组合成可应用于声音的单个声学参数复合集，如在例如J.Jot等人在“BinauralSimulation of Complex Acoustic Scenes for Interactive Audio(交互式音频的复杂声学场景的双声道模拟)”，Audio Engineering Society Convention Paper 6950(2006年10月1日)中所述。在一些示例中，可以基于房间之间的声学关系确定复合参数集，例如可以由声学图表示。例如，在一些示例中，如果用户房间和声源房间被厚墙壁隔开，则相对于声源房间的声学参数，用户房间的声学参数可能在复合声学参数集中占主导地位。然而，在一些示例中，如果房间被大门廊隔开，则声源房间的声学参数可能更占优。还可以基于用户相对于房间的位置来确定复合参数；例如，与用户远离隔壁房间的情况相比，当用户靠近隔壁房间时，该房间的声学参数可能更占优。在确定复合声学参数集时，可以将该复合集应用于声音，以赋予不仅单个房间的声学特性，而且赋予由声学图描述的整个连接的声学环境的声学特性。

图12、13和14描述了可对应于上述一个或多个示例的示例可穿戴系统的部件。例如，图12所示的示例可穿戴头部单元12-100、图13所示的示例可穿戴头部单元13-100，和/或图14所示的示例可穿戴头部单元14-100可对应于可穿戴头部单元200；图12所示的示例手持式控制器12-200可对应于手持式控制器300；图12所示的示例辅助单元12-300可对应于辅助单元320。如图12所示，可穿戴头部单元12-100(也被称为增强现实眼镜)可以包括目镜、相机(例如，深度相机、RGB相机等)、立体图像源、惯性测量单元(IMU)和扬声器。简要地参考图13，可穿戴头部单元13-100(也被称为增强现实眼镜)可以包括左右目镜、图像源(例如，投影仪)、左右相机(例如，深度相机、RGB相机等)以及左右扬声器。可穿戴头部单元13-100可以戴在用户的头上。简要地参考图14，可穿戴头部单元14-100(也被称为增强现实眼镜)可以包括左右目镜，每个目镜包括一个或多个耦入(in-coupling)光栅、正交光瞳扩展光栅和出射光瞳扩展光栅。返回参考图12，可穿戴头部单元12-100可以例如通过有线或无线连接而通信地耦合到辅助单元12-300(也被称为电池/计算机)。手持式控制器12-200例如可以通过有线或无线连接通信地耦合到可穿戴头部单元12-100和/或辅助单元12-300。

图15描述了可对应于上述一个或多个示例的示例可穿戴系统的示例配置。例如，示例增强现实用户设备15-100可以包括可穿戴头部单元，并且可对应于以上关于图5描述的客户端设备510；云服务器15-200可对应于以上关于图5描述的服务器设备520；通信网络15-300可对应于以上关于图5描述的通信网络530。除其它部件/元件/模块之外，云服务器15-200还可以包括音频混响分析引擎。通信网络15-300例如可以是因特网。增强现实用户设备15-100例如可以包括可穿戴头部单元200。增强现实用户设备15-100可以包括视觉系统、音频系统和定位系统。视觉系统可以包括分别向左右增强现实目镜提供图像的左右立体图像源。视觉系统可以进一步包括一个或多个相机(例如，深度相机、RGB相机和/或类似物)。音频系统可以包括一个或多个扬声器和一个或多个麦克风。定位系统可以包括传感器，诸如一个或多个相机，以及Wi-Fi、GPS和/或其它无线接收器。

图16示出了可对应于上述一个或多个示例的用于向混合现实系统的用户呈现音频信号的示例过程16-100的流程图。例如，示例过程16-100的一个或多个方面可对应于以上关于图6、7和/或8描述的示例过程中的一者或多者。示例过程16-100所指的混合现实系统可以包括混合现实设备。在开始示例过程之后，确定房间的标识。确定房间的混响特性/参数是否被存储在本地，例如被存储在混合现实设备(有时被称为客户端设备)上。如果房间的混响特性/参数被存储在本地，则访问本地存储的混响特性/模式，并且处理与具有该房间的混响特性/参数的虚拟内容相关联的音频。如果该房间的混响特性/参数未存储在本地，则将该房间的标识与对该房间的混响特性/参数的请求一起发送到云服务器。确定该房间的混响特性/参数是否可立即从云服务器获得。如果可以从云服务器立即获得该房间的混响特性/参数，则从云服务器接收该房间的房间混响特性/参数，并处理与具有该房间的混响特性/参数的虚拟内容相关联的音频。如果不能从云服务器立即获得该房间的混响特性/参数，则绘制该房间的几何结构，检测影响该房间中的音频的材料，并记录该房间中的音频信号。房间的标识、绘制的房间几何结构、影响房间中音频的材料以及记录的房间中的音频信号被发送到云服务器。从云服务器接收该房间的混响特性/参数，并且处理与具有该房间的混响特性/参数的虚拟内容相关联的音频。在处理与具有该房间的混响特性/参数的虚拟内容相关联的音频之后，通过混合现实系统(例如，经由混合/增强现实用户设备)输出与虚拟内容相关联的音频。

图17至19分别示出了可对应于上述一个或多个示例的用于向混合现实系统的用户呈现音频信号的示例过程17-100、18-100和19-100的流程图。例如，示例过程17-100、18-100和/或19-100的一个或多个方面可对应于以上关于图6、7和/或8描述的示例过程中的一者或多者。

在一些示例中，图17的过程17-100的一个或多个步骤可以由云服务器执行。在开始示例过程17-100之后，接收房间标识以及对房间的混响特性/参数的请求。房间的混响特性/参数被发送到第一混合/增强现实用户设备。

在一些示例中，图18的过程18-100的一个或多个步骤可以由云服务器执行。在开始示例过程18-100之后，接收特定房间的标识。检查持久的世界模型图以识别相邻连接的房间。访问任何相邻连接的房间的混响特性/参数。任何相邻连接的房间的混响特性/参数都被发送到混合/增强现实用户设备。

在一些示例中，图19的过程19-100的一个或多个步骤可以由云服务器执行。在开始示例过程19-100之后，从第一混合/增强现实用户设备接收房间标识以及房间数据。房间数据例如可以包括绘制的房间几何结构、影响房间中音频的材料以及记录的房间中的音频信号。在一些示例中，基于房间几何结构和影响房间中音频的材料，计算混响特性/参数。在一些示例中，处理记录的房间中的音频信号以提取房间的混响特性/参数。与房间标识相关联的房间的混响特性/参数被存储在云服务器中。房间的混响特性/参数被发送到第一混合/增强现实用户设备。

图20示出了可对应于上述一个或多个示例的用于基于声学连接的空间的参数而向混合现实系统的用户呈现音频信号的示例过程20-100的流程图。例如，示例过程20-100的一个或多个方面可对应于以上关于图11描述的示例过程。在开始示例过程20-100之后，接收其中正在操作混合/增强现实用户设备的空间的声学参数。使用在其中正在操作混合/增强现实用户设备的空间的声学参数，在其中正在操作混合/增强现实用户设备的空间中生成可视和/或音频发射虚拟内容。访问世界图信息以识别相邻连接的空间。接收相邻连接的空间的声学参数。将虚拟内容移到相邻连接的空间中。使用相邻连接的空间的声学参数，处理虚拟内容的音频片段(audio segment)。然后可以将处理后的音频片段作为输出呈现。

图21示出了可对应于上述一个或多个示例的用于确定混合现实系统的用户的位置的示例过程21-100的流程图。例如，示例过程21-100可以在以上关于图7所述的示例过程700的阶段710执行。在该示例中，开始之后，确定是否有足够数量的GPS卫星在范围内。如果有足够数量的GPS卫星在范围内，则操作GPS接收器以确定位置。如果确定没有足够数量的GPS卫星在范围内，则接收附近Wi-Fi接收器的标识。访问所存储的关于附近Wi-Fi接收器的定位的信息。捕获设备所在空间的一个或多个图像。将这些图像组合成复合图像(composition)。确定复合图像的像素强度直方图。将所确定的直方图与一组预存的直方图进行匹配，每个预存的直方图与世界图中的一位置节点相关联。基于可访问的Wi-Fi网络的标识、GPS网络和/或直方图匹配，可以估计混合/增强现实用户设备的当前位置。

在一些示例中，增强现实用户设备可以包括：用于确定增强现实用户设备所在空间的标识的定位子系统；用于传送增强现实用户设备所在空间的标识以接收与该空间的标识相关联的至少一个音频参数的通信子系统；以及用于基于至少一个参数处理音频片段并输出音频片段的音频输出子系统。作为上述内容的替代或补充，在一些示例中，增强现实用户设备可以包括：用于获得承载在增强现实设备所在的第一空间的声学特性上的信息的传感器子系统；用于基于承载在第一空间的声学特性上的信息而处理音频片段的音频处理子系统，其中音频处理子系统通信地耦合到传感器子系统；以及用于输出音频片段的音频扬声器，音频扬声器被耦合到音频处理子系统以接收音频片段。作为上述内容的替代或补充，在一些示例中，传感器子系统被配置为获得第一空间的几何结构信息。作为上述内容的替代或补充，在一些示例中，传感器子系统包括相机。作为上述内容的替代或补充，在一些示例中，相机包括深度相机。作为上述内容的替代或补充，在一些示例中，传感器系统包括立体相机。作为上述内容的替代或补充，在一些示例中，传感器子系统包括对象识别器，该对象识别器被配置为识别具有独特声学吸收特性的独特对象。作为上述内容的替代或补充，在一些示例中，对象识别器被配置为识别选自地毯、窗帘和沙发的至少一个对象。作为上述内容的替代或补充，在一些示例中，传感器子系统包括麦克风。作为上述内容的替代或补充，在一些示例中，增强现实设备进一步包括：用于确定增强现实用户设备所在的第一空间的标识的定位子系统；以及用于传送增强现实设备所在的第一空间的标识，并且用于传送承载在增强现实设备所在的第一空间的声学特性上的信息的通信子系统。作为上述内容的替代或补充，在一些示例中，通信子系统还被配置为接收从第二空间的声学特性导出的信息。作为上述内容的替代或补充，在一些示例中，增强现实设备还包括用于确定虚拟声源位于第二空间中的定位子系统，以及用于基于承载在第二空间的声学特性上的信息，处理与虚拟声源相关联的音频片段的音频处理子系统。

尽管已经参考附图充分描述了所公开的示例，但是应当注意，各种改变和修改对于本领域技术人员而言将是显而易见的。例如，可以组合、删除、修改或增补一种或多种实施方式的元素以形成进一步的实施方式。这样的改变和修改应被理解为包括在由所附权利要求限定的所公开的示例的范围内。

Claims

1.一种向混合现实环境的用户呈现音频信号的方法，所述方法包括：

检测与所述混合现实环境相关联的音频事件，其中所述音频事件与第一音频信号相关联；

确定所述用户相对于所述混合现实环境的位置；

识别与所述用户的位置相关联的第一声学区域；

确定与所述第一声学区域相关联的第一声学参数；

使用所述第一声学参数确定传递函数；

将所述传递函数应用于所述第一音频信号以产生第二音频信号；以及

向所述用户呈现所述第二音频信号。

2.根据权利要求1所述的方法，其中，所述第一音频信号包括波形音频文件。

3.根据权利要求1所述的方法，其中，所述第一音频信号包括现场音频流。

4.根据权利要求1所述的方法，其中：

所述用户与可穿戴系统相关联，所述可穿戴系统包括一个或多个传感器以及被配置为呈现所述混合现实环境的视图的显示器；并且

识别所述第一声学区域包括检测来自所述一个或多个传感器的第一传感器输入，以及基于所述第一传感器输入识别所述第一声学区域。

5.根据权利要求4所述的方法，其中，确定所述第一声学参数包括检测来自所述一个或多个传感器的第二传感器输入，以及基于所述第二传感器输入确定所述第一声学参数。

6.根据权利要求5所述的方法，其中，确定所述第一声学参数进一步包括基于所述第二传感器输入识别所述声学区域的几何特性，以及基于所述几何特性确定所述第一声学参数。

7.根据权利要求5所述的方法，其中，确定所述第一声学参数进一步包括基于所述第二传感器输入识别与所述声学区域相关联的材料，以及基于所述材料确定所述第一声学参数。

8.根据权利要求4所述的方法，其中，所述可穿戴系统进一步包括麦克风，所述麦克风位于所述第一声学区域中，并且基于由所述麦克风检测到的信号确定所述第一声学参数。

9.根据权利要求1所述的方法，其中，所述第一声学参数对应于混响参数。

10.根据权利要求1所述的方法，其中，所述第一声学参数对应于滤波参数。

11.根据权利要求1所述的方法，进一步包括：

识别第二声学区域，所述第二声学区域在声学上耦合到所述第一声学区域；以及

确定与所述第二声学区域相关联的第二声学参数，

其中使用所述第二声学参数确定所述传递函数。

12.一种系统，包括：

可穿戴头部单元，其包括：

显示器，其被配置为呈现混合现实环境的视图；

扬声器；

一个或多个传感器；以及

电路，其被配置为执行方法，所述方法包括：

基于所述一个或多个传感器，确定所述可穿戴头部单元相对于所述混合现实环境的位置；

识别与所述用户的位置相关联的第一声学区域；

确定与所述第一声学区域相关联的第一声学参数；

使用所述第一声学参数确定传递函数；

经由所述扬声器向所述用户呈现所述第二音频信号。

13.根据权利要求12所述的系统，其中，所述第一音频信号包括波形音频文件。

14.根据权利要求1所述的系统，其中，所述第一音频信号包括现场音频流。

15.根据权利要求1所述的系统，其中：

16.根据权利要求15所述的系统，其中，确定所述第一声学参数包括检测来自所述一个或多个传感器的第二传感器输入，以及基于所述第二传感器输入确定所述第一声学参数。

17.根据权利要求16所述的系统，其中，确定所述第一声学参数进一步包括基于所述第二传感器输入识别所述声学区域的几何特性，以及基于所述几何特性确定所述第一声学参数。

18.根据权利要求16所述的系统，其中，确定所述第一声学参数进一步包括基于所述第二传感器输入识别与所述声学区域相关联的材料，以及基于所述材料确定所述第一声学参数。

19.根据权利要求15所述的系统，其中，所述第一声学参数基于由所述麦克风检测到的信号而被确定。

20.根据权利要求12所述的系统，其中，所述第一声学参数对应于混响参数。

21.根据权利要求12所述的系统，其中，所述第一声学参数对应于滤波参数。

22.根据权利要求12所述的系统，进一步包括：

确定与所述第二声学区域相关联的第二声学参数，

其中使用所述第二声学参数确定所述传递函数。

23.一种增强现实系统，包括：

定位子系统，其被配置为确定所述增强现实系统所位于的第一空间的标识；

通信子系统，其被配置为传送所述增强现实系统所位于的所述第一空间的标识，并且被进一步配置为接收与所述第一空间相关联的音频参数；以及

音频输出子系统，其被配置为基于所述音频参数处理音频片段，并且被进一步配置为输出所述音频片段。

24.一种增强现实系统，包括：

传感器子系统，其被配置为确定与第一空间的声学特性相关联的信息，所述第一空间对应于所述增强现实系统的位置；

音频处理子系统，其被配置为基于所述信息处理音频片段，所述音频处理子系统在通信上耦合到所述传感器子系统；以及

扬声器，其用于呈现所述音频片段，所述扬声器被耦合到所述音频处理子系统。

25.根据权利要求24所述的增强现实系统，其中，所述传感器子系统被进一步配置为确定所述第一空间的几何结构信息。

26.根据权利要求24所述的增强现实系统，其中，所述传感器子系统包括相机。

27.根据权利要求24所述的增强现实系统，其中，所述传感器子系统包括对象识别器，所述对象识别器被配置为识别具有独特声学吸收特性的对象。

28.根据权利要求24所述的增强现实系统，其中，所述传感器子系统包括麦克风。