CN116325808B

CN116325808B - 沉浸式音频平台

Info

Publication number: CN116325808B
Application number: CN202180032102.XA
Authority: CN
Inventors: J-M·约特; M·米尼克; D·帕斯托琴科; M·A·西蒙; J·E·斯科特三世; R·S·C·贝莉; S·巴拉苏布拉曼亚姆; H·阿加迪
Original assignee: Magic Leap Inc
Current assignee: Magic Leap Inc
Priority date: 2020-03-02
Filing date: 2021-03-02
Publication date: 2023-12-22
Anticipated expiration: 2041-03-02
Also published as: EP4115633A1; CN116325808A; US20220386065A2; JP2023515886A; CN117714967A; US11800313B2; US20240015465A1; US20210185471A1; US20230128286A1; US11627428B2; WO2021178454A1; EP4115633A4

Abstract

本文公开了用于在混合现实环境中呈现音频内容的系统和方法。一种方法可包括：从应用程序接收第一输入；响应于接收到所述第一输入，经由第一服务接收编码音频流；基于所述编码音频流，经由所述第一服务生成解码音频流；经由第二服务接收所述解码音频流；从所述可穿戴头部设备的一个或多个传感器接收第二输入；经由第二服务从所述应用程序接收第三输入，其中，所述第三输入与一个或多个虚拟扬声器的位置相对应；基于所述解码音频流、所述第二输入和所述第三输入，经由所述第二服务生成空间化音频流；经由可穿戴头部设备的所述一个或多个扬声器呈现所述空间化音频流。

Description

沉浸式音频平台

相关申请的交叉引用

本申请要求于2020年3月2日提交的美国临时申请No.62/984,198和于2020年6月8日提交的美国临时申请No.63/036,270的权益，其全部内容通过引用并入本文。

技术领域

本公开一般涉及用于呈现沉浸式音频内容的系统和方法，并且特别地涉及用于在混合现实环境中呈现沉浸式音频内容的系统和方法。

背景技术

虚拟环境在计算环境中是普遍存在的，虚拟环境应用于视频游戏(其中，虚拟环境可表示游戏世界)；地图(其中，虚拟环境可表示待导航的地形)；模拟(其中，虚拟环境可模拟现实环境)；数字故事(其中，虚拟角色可在虚拟环境中彼此交互)；和许多其他应用。现代计算机用户通常舒适感知虚拟环境并且与虚拟环境交互。然而，关于虚拟环境的用户的体验可能由用于呈现虚拟环境的技术限制。例如，常规显示器(例如，2D显示屏)和音频系统(例如，固定扬声器)可能不能够以产生令人信服、逼真并且沉浸式体验的方式实现虚拟环境。

虚拟现实(“VR”)、增强现实(“AR”)、混合现实(“MR”)、和相关技术(统称为“XR”)共享向XR系统的用户呈现与由计算机系统中的数据表示的虚拟环境相对应的感觉信息。这样的系统可通过将虚拟视觉和音频线索与现实视线和声音组合来提供唯一升高的沉浸感和真实性。因此，可能希望以这样的方式向XR系统的用户呈现数字声音：声音似乎在用户的现实环境中自然地且与用户对声音的期望一致地发生。一般而言，用户期望虚拟声音将呈现听到他们的现实环境的声学特性。例如，大型音乐厅中的XR系统的用户将期望XR系统的虚拟声音具有大的、海绵状的音质；相反，小公寓中的用户将期望声音更衰减、接近和即时。除了将虚拟声音与现实和/或虚拟环境的声学特性相匹配之外，通过空间化虚拟声音进一步增强了逼真感。例如，虚拟对象可能从后面在视觉上飞过用户，并且用户可能期望对应的虚拟声音类似地反映虚拟对象相对于用户的空间运动。

现有技术往往达不到这些期望，诸如通过呈现不考虑用户周围环境或不与虚拟对象的空间运动相对应的虚拟音频，导致可能损害用户体验的不真实的感觉。对XR系统用户的观察表明，虽然用户可能对虚拟内容和现实环境之间的视觉失配(例如，照明不一致)相对宽容；用户可能对听觉失配更敏感。我们自己的听觉体验，在我们的一生中不断完善，可以使我们敏锐地意识到我们的物理环境如何影响我们听到的声音；我们可以高度感知与那些期望不一致的声音。利用XR系统，这样的不一致可能是刺耳的，并且可以将身临其境且引人入胜的体验变为花哨的模仿体验。在极端示例中，听觉不一致可能导致晕动病和其他不良影响，因为内耳无法将听觉刺激与其对应的视觉线索相协调。

使用传感器、透射式显示器和扬声器，XR系统可以向用户呈现沉浸式视觉和音频内容。这样的能力可以将他们自己提供给娱乐方面。例如，XR电影可包括围绕用户环境三维显示的虚拟内容。XR电影还可包括音频内容，该音频内容可被配置为在多通道扬声器阵列中播放。对可能促进可能比简单立体声更复杂的音频内容的容易播放的系统和方法进行开发可能是期望的。在一些情况下，音频内容可能是高保真度，这可能增加在播放音频内容中处理的数据量。可以对大量数据进行压缩和/或编码，以最小化带宽和/或处理要求。因此，对可以播放压缩音频内容的系统和方法进行开发可能是期望的。

发明内容

本公开的示例描述了用于在混合现实环境中呈现音频内容的系统和方法。根据本公开的示例，一种方法可以包括：从应用程序接收第一输入；响应于接收到所述第一输入，经由第一服务接收编码音频流；基于所述编码音频流，经由所述第一服务生成解码音频流；经由第二服务接收所述解码音频流；从所述可穿戴头部设备的一个或多个传感器接收第二输入；经由所述第二服务从所述应用程序接收第三输入，其中，所述第三输入与一个或多个虚拟扬声器的位置相对应；基于所述解码音频流、所述第二输入和所述第三输入，经由所述第二服务生成空间化音频流；经由所述可穿戴头部设备的所述一个或多个扬声器呈现所述空间化音频流。

在一些实施例中，一种方法包括：从应用程序接收第一输入；响应于接收到所述第一输入，经由第一服务接收编码音频流；基于所述编码音频流，经由所述第一服务生成解码音频流；经由第二服务接收所述解码音频流；从所述可穿戴头部设备的一个或多个传感器接收第二输入；经由所述第二服务从所述应用程序接收第三输入，其中，所述第三输入与一个或多个虚拟扬声器的位置相对应；基于所述解码音频流、所述第二输入和所述第三输入，经由所述第二服务生成空间化音频流；以及经由所述可穿戴头部设备的所述一个或多个扬声器呈现所述空间化音频流。

在一些实施例中，所述第二输入与所述可穿戴头部设备的位置相对应。

在一些实施例中，所述一个或多个虚拟扬声器的所述位置基于所述可穿戴头部设备的所述位置。

在一些实施例中，所述第二输入与现实环境中的物理对象的位置相对应。

在一些实施例中，所述一个或多个虚拟扬声器的所述位置基于所述物理对象的所述位置。

在一些实施例中，所述编码音频流是从远程服务器接收的。

在一些实施例中，所述第一服务是与所述第二服务不同的服务。

在一些实施例中，所述空间化音频流包括六个音频通道，其中，所述六个音频通道中的一个音频通道包括超低音通道。

在一些实施例中，所述空间化音频流包括八个音频通道，其中，所述八个音频通道中的一个音频通道包括超低音通道。

在一些实施例中，呈现所述空间化音频流是基于所述可穿戴头部设备相对于虚拟屏幕的位置和距离，所述虚拟屏幕被配置为呈现在所述可穿戴头部设备的显示器上显示的虚拟内容。

在一些实施例中，基于用户空间化音频、每屏幕的空间化音频、以及每房间的空间化音频中的至少一个，呈现所述空间化音频流。

在一些实施例中，所述空间化音频流是基于所述每屏幕的空间化音频来呈现的，所述空间化音频流与静态模式和动态模式中的一个相关联，以及所述可穿戴头部设备处于第一位置。所述方法进一步包括：将所述可穿戴头部设备从所述第一位置移动到与所述第一位置不同的第二位置；根据所述空间化音频流与所述静态模式相关联的确定，基于从所述第一位置到一个或多个虚拟扬声器的所述位置中的至少一个位置的第一距离，呈现所述第一空间化音频；以及根据所述空间化音频流与所述动态模式相关联的确定，基于从所述第二位置到一个或多个虚拟扬声器的所述位置中的至少一个位置的第二距离，呈现所述第二空间化音频。

在一些实施例中，基于每房间的空间化音频，呈现所述空间化音频流。所述方法进一步包括：根据所述可穿戴头部设备的位置在第一房间中的确定，呈现所述空间化音频流包括：呈现与所述第一房间相关联的第一空间化音频；以及根据所述可穿戴头部设备的位置在第二房间中的确定，呈现所述空间化音频流包括：呈现与所述第二房间相关联的第二空间化音频。所述第一空间化音频与所述第二空间化音频不同，以及所述第一房间与所述第二房间不同。

在一些实施例中，所述空间化音频流的所述呈现是基于用户设置。

在一些实施例中，所述空间化音频流的所述呈现是基于所述应用程序的设置。

在一些实施例中，所述第一空间化音频流与集中式设置相关联。所述方法进一步包括：从第二应用程序接收第四输入；以及经由所述可穿戴头部设备的所述一个或多个扬声器呈现与所述集中式设置相关联的第二空间化音频流。

在一些实施例中，一种系统包括：可穿戴头部设备，其包括一个或多个传感器和一个或多个扬声器；以及一个或多个处理器，其被配置为执行一种方法，所述方法包括：从应用程序接收第一输入；响应于接收到所述第一输入，经由第一服务接收编码音频流；基于所述编码音频流，经由所述第一服务生成解码音频流；经由第二服务接收所述解码音频流；从所述可穿戴头部设备的一个或多个传感器接收第二输入；经由所述第二服务从所述应用程序接收第三输入，其中，所述第三输入与一个或多个虚拟扬声器的位置相对应；基于所述解码音频流、所述第二输入和所述第三输入，经由所述第二服务生成空间化音频流；以及经由所述可穿戴头部设备的所述一个或多个扬声器呈现所述空间化音频流。

在一些实施例中，所述一个或多个虚拟扬声器的所述位置是基于所述可穿戴头部设备的所述位置。

在一些实施例中，所述一个或多个虚拟扬声器的所述位置是基于所述物理对象的所述位置。

在一些实施例中，所述编码音频流是从远程服务器接收的。

在一些实施例中，所述空间化音频流是基于所述每屏幕的空间化音频来呈现的，所述空间化音频流与静态模式和动态模式中的一个相关联，所述可穿戴头部设备处于第一位置，以及所述方法进一步包括：将所述可穿戴头部设备从所述第一位置移动到与所述第一位置不同的第二位置；根据所述空间化音频流与所述静态模式相关联的确定，基于从所述第一位置到一个或多个虚拟扬声器的所述位置中的至少一个位置的第一距离呈现所述第一空间化音频；以及根据所述空间化音频流与所述动态模式相关联的确定，基于从所述第二位置到一个或多个虚拟扬声器的所述位置中的至少一个位置的第二距离，呈现所述第二空间化音频。

在一些实施例中，基于所述每房间的空间化音频，呈现所述空间化音频流，以及所述方法进一步包括：根据所述可穿戴头部设备的位置在第一房间中的确定，呈现所述空间化音频流包括：呈现与所述第一房间相关联的第一空间化音频；以及根据所述可穿戴头部设备的位置在第二房间中的确定，呈现所述空间化音频流包括：呈现与所述第二房间相关联的第二空间化音频。所述第一空间化音频与所述第二空间化音频不同，以及所述第一房间与所述第二房间不同。

在一些实施例中，所述第一空间化音频流与集中式设置相关联，以及所述方法进一步包括：从第二应用程序接收第四输入；以及经由所述可穿戴头部设备的所述一个或多个扬声器呈现与所述集中式设置相关联的第二空间化音频流。

在一些实施例中，一种存储指令的非暂态计算机可读介质，所述指令在由一个或多个处理器执行时使得一个或多个处理器执行一种方法，所述方法包括：从应用程序接收第一输入；响应于接收到所述第一输入，经由第一服务接收编码音频流；基于所述编码音频流，经由所述第一服务生成解码音频流；经由第二服务接收所述解码音频流；从可穿戴头部设备的一个或多个传感器接收第二输入；经由所述第二服务从所述应用程序接收第三输入，其中，所述第三输入与一个或多个虚拟扬声器的位置相对应；基于所述解码音频流、所述第二输入和所述第三输入，经由所述第二服务生成空间化音频流；以及经由可穿戴头部设备的一个或多个扬声器呈现所述空间化音频流。

在一些实施例中，所述编码音频流是从远程服务器接收的。

附图说明

图1A至图1C示出了根据一些实施例的示例混合现实环境。

图2A至图2D示出了根据一些实施例的可用于生成混合现实环境并且与混合现实环境相互作用的示例混合现实环境的部件。

图3A示出了根据一些实施例的可用于向混合现实环境提供输入的示例混合现实手持式控制器。

图3B示出了根据一些实施例的可与示例混合现实系统一起使用的示例辅助单元。

图4示出了根据一些实施例的用于示例混合现实系统的示例功能框图。

图5示出了根据一些实施例的沉浸式音频内容的示例显示。

图6示出了根据一些实施例的示例沉浸式音频平台。

图7示出了根据一些实施例的用于呈现音频内容的示例过程。

具体实施方式

在示例的以下描述中，对形成其一部分并且在其中通过图示的方式示出可以实践的示例的附图进行参考。应理解，在不脱离所公开的示例的范围的情况下，可以使用其他示例并且可以做出结构改变。

混合现实环境

像所有人一样，混合现实系统的用户存在于现实环境中——即，“现实世界”的三维部分和所有其内容可由用户感知。例如，用户使用个人的普通人类感觉感知现实世界——视线、声音、触觉、味道、气味——并且通过在现实环境中移动个人自己的身体与真实环境交互。真实环境中的位置可被描述为坐标空间中的坐标；例如，坐标可包括纬度、经度和相对于海平面的海拔；在三个正交维度上距参考点的距离；或其他适合的值。同样地，矢量可描述具有坐标空间中的方向和幅度的数量。

计算设备可例如在与设备相关联的存储器中维护虚拟环境的表示。如本文所使用的，虚拟环境是三维空间的计算表示。虚拟环境可包括任何对象、动作、信号、参数、坐标、矢量、或与该空间相关联的其他特性的表示。在一些示例中，计算设备的电路(例如，处理器)可以维护和更新虚拟环境的状态；即，处理器可以在第一时间t0处基于与虚拟环境相关联的数据和/或由用户提供的输入来确定第二时间t1处的虚拟环境的状态。例如，如果虚拟环境中的对象在时间t0处位于第一坐标处，并且具有某个编程的物理参数(例如，质量、摩擦系数)；以及从用户接收的输入指示力应当以方向矢量被施加到该对象；处理器可应用运动学定律以使用基础力学确定对象在时间t1处的位置。处理器可以使用关于虚拟环境已知的任何适合的信息和/或任何适合的输入来确定虚拟环境在时间t1处的状态。在维护和更新虚拟环境的状态时，处理器可执行任何适合的软件，包括与虚拟环境中的虚拟对象的创建和删除有关的软件；用于定义虚拟环境中的虚拟对象或角色的行为的软件(例如，脚本)；用于定义虚拟环境中的信号(例如，音频信号)的行为的软件；用于创建和更新与虚拟环境相关联的参数的软件；用于生成虚拟环境中的音频信号的软件；用于处理输入和输出的软件；用于实现网络操作的软件；用于应用资产数据(例如，随时间移动虚拟对象的动画数据)的软件；或许多其他可能性。

输出设备(诸如显示器或者扬声器)可以向用户呈现虚拟环境的任何或所有方面。例如，虚拟环境可包括可以向用户呈现的虚拟对象(其可包括无生命对象；人；动物；光；等的表示)。处理器可以确定虚拟环境的视图(例如，对应于具有坐标原点、视图轴和视锥的“相机”)；以及向显示器渲染对应于该视图的虚拟环境的可视场景。出于该目的，可以使用任何适合的渲染技术。在一些示例中，可视场景可以仅包括虚拟环境中的一些虚拟对象，并且不包括某些其他虚拟对象。类似地，虚拟环境可包括可作为一个或多个音频信号向用户呈现的音频方面。例如，虚拟环境中的虚拟对象可生成起源于对象的位置坐标的声音(例如，虚拟角色可以说话或引起声音效果)；或者虚拟环境可以与可以或可以不与特定位置相关联的音乐线索或环境声音相关联。处理器可确定与“听众”坐标相对应的音频信号——例如，与虚拟环境中的声音的复合相对应的音频信号，并且被混合并处理以模拟将由听众坐标处的听众听到的音频信号——并且经由一个或多个扬声器将音频信号呈现给用户。

由于虚拟环境仅作为计算结构存在，所以用户不能使用个人的普通感觉直接感知虚拟环境。相反，用户可以仅间接地感知如例如通过显示器、扬声器、触觉输出设备等向用户呈现虚拟环境。类似地，用户不能直接接触、操控、或以其他方式与虚拟环境交互；但是可以经由输入设备或传感器将输入数据向可使用设备或传感器数据来更新虚拟环境的处理器提供。例如，相机传感器可提供指示用户试图移动虚拟环境中的对象的光学数据，并且处理器可使用该数据使得对象因此在虚拟环境中作出反应。

混合现实系统可以向用户呈现组合现实环境和虚拟环境的各方面的混合现实环境(“MRE”)，例如使用透射式显示器和/或一个或多个扬声器(其可以例如并入可穿戴头部设备中)。在一些实施例中，一个或多个扬声器可以在头戴式可穿戴单元的外部。如本文所使用的，MRE是现实环境和对应的虚拟环境的同时表示。在一些示例中，对应的现实环境和虚拟环境共享单个坐标空间；在一些示例中，现实坐标空间和对应的虚拟坐标空间通过变换矩阵(或其他适合的表示)彼此相关。因此，单个坐标(在一些示例中，连同变换矩阵一起)可以定义现实环境中的第一位置，以及虚拟环境中的对应的第二位置；反之亦然。

在MRE中，虚拟对象(例如，在与MRE相关联的虚拟环境中)可以对应于现实对象(例如，在与MRE相关联的现实环境中)。例如，如果MRE的现实环境包括位置坐标处的现实灯杆(现实对象)，则MRE的虚拟环境可包括对应的位置坐标处的虚拟灯杆(虚拟对象)。如本文所使用的，现实对象组合其对应的虚拟对象一起构成“混合现实对象”。不需要虚拟对象与对应的现实对象完美匹配或者对准。在一些示例中，虚拟对象可以是对应的现实对象的简化版本。例如，如果现实环境包括现实灯杆，则对应的虚拟对象可以包括具有与现实灯杆粗略地相同高度和半径的圆柱体(反映该灯杆可以在形状方面是粗略地圆柱形的)。以这种方式简化虚拟对象可以允许计算效率，并且可以简化将在这样的虚拟对象上执行的计算。进一步地，在MRE的一些示例中，现实环境中的并非所有现实对象可以与对应的虚拟对象相关联。同样地，在MRE的一些示例中，虚拟环境中的并非所有虚拟对象可以与对应的现实对象相关联。即，一些虚拟对象可以仅在MRE的虚拟环境中而没有任何现实世界配对物。

在一些示例中，虚拟对象可以具有与对应的现实对象的特性不同(有时急剧地)的特性。例如，虽然MRE中的现实环境可以包括绿色双臂仙人掌——多刺无生命对象——MRE中的对应的虚拟对象可以包括具有人类面部特征和粗暴行为的绿色双臂虚拟角色的特性。在该示例中，虚拟对象在某些特性(颜色、臂数)方面类似其对应的现实对象；但是在其他特性(面部特征、个性)方面与现实对象不同。以这种方式，虚拟对象具有以创造性、抽象、夸大、或想象的方式表示现实对象的潜在性；或者以其他方式向无生命现实对象赋予行为(例如，人类个性)。在一些示例中，虚拟对象可以是纯想象创造而没有现实世界配对物(例如，虚拟环境中的虚拟怪物，也许在与现实环境中的空白空间相对应的位置处)。

与VR系统相比较，该VR系统向用户呈现虚拟环境同时模糊现实环境，呈现MRE的混合现实系统提供当虚拟环境被呈现时现实环境保持可感知的优点。因此，混合现实系统的用户能够使用与现实环境相关联的视觉和音频线索来体验并且与对应的虚拟环境交互。作为示例，当VR系统的用户可以尽力感知在虚拟环境中显示的虚拟对象或与该虚拟环境中显示的虚拟对象交互时——因为如上所述，用户不能直接感知或与虚拟环境交互——MR系统的用户可以通过看到、听到和触摸他或她自己的现实环境中的对应的现实对象来发现与虚拟对象交互直观并且自然。该交互性水平可以提高用户与虚拟环境沉浸、连接和接合的感觉。类似地，通过同时呈现现实环境和虚拟环境，混合现实系统可以减少与VR系统相关联的负面心理感觉(例如，认知失调)和负面身体感觉(例如，运动病)。混合现实系统进一步为可以增加或更改我们的现实世界的体验的应用提供许多可能性。

图1A示出了用户110使用混合现实系统112的示例现实环境100。混合现实系统112可以包括显示器(例如，透射式显示器)和一个或多个扬声器，以及一个或多个传感器(例如，相机)，例如如下文所描述的。示出的现实环境100包括用户110站立的矩形房间104A；以及现实对象122A(灯)、124A(桌子)、126A(沙发)和128A(油画)。房间104A还包括位置坐标106，其可以被称为是现实环境100的原点。如图1A所示，具有其点106(世界坐标)处的原点的环境/世界坐标系108(包括x轴108X、y轴108Y和z轴108Z)可以定义用于现实环境100的坐标空间。在一些实施例中，环境/世界坐标系108的原点106可以与在何处混合现实环境112被上电相对应。在一些实施例中，环境/世界坐标系108的原点106可以在操作期间被重置。在一些示例中，用户110可以被认为是现实环境100中的现实对象；类似地，用户110的身体部分(例如，手、脚)可以被认为是现实环境100中的现实对象。在一些示例中，具有其点115(例如，用户/听众/头部坐标)处的原点的用户/听众/头部坐标系114(包括x轴114X、y轴114Y和z轴114Z)可以定义针对混合现实系统112位于其上的用户/听众/头部的坐标空间。用户/听众/头部坐标系114的原点115可以相对于混合现实系统112的一个或多个部件来定义。例如，用户/听众/头部坐标系114的原点115可以相对于混合现实系统112的显示器来定义，诸如在混合现实系统112的初始校准期间。矩阵(其可以包括平移矩阵和四元数矩阵或其他旋转矩阵)或其他适合的表示可以表征用户/听众/头部坐标系114空间与环境/世界坐标系108空间之间的变换。在一些实施例中，左耳坐标116和右耳坐标117可以相对于用户/听众/头部坐标系114的原点115来定义。矩阵(其可以包括平移矩阵和四元数矩阵或其他旋转矩阵)可以表征左耳坐标116和右耳坐标117与用户/听众/头部坐标系114空间之间的变换。用户/听众/头部坐标系114可以简化相对于用户的头部或头戴式设备(例如，相对于环境/世界坐标系108)的位置的表示。使用同时定位和建图(SLAM)、视觉里程计或其他技术，可以实时确定和更新用户坐标系114与环境坐标系108之间的变换。

图1B示出了对应于现实环境100的示例虚拟环境130。示出的虚拟环境130包括对应于现实矩形房间104A的虚拟矩形房间104B；对应于现实对象122A的虚拟对象122B；对应于现实对象124A的虚拟对象124B；以及对应于现实对象126A的虚拟对象126B。与虚拟对象122B、124B、126B相关联的元数据可以包括从对应的现实对象122A、124A、126A导出的信息。虚拟环境130附加地包括虚拟怪物132，该虚拟怪物132不对应于现实环境100中的任何现实对象。现实环境100中的现实对象128A不对应于虚拟环境130中的任何虚拟对象。其原点在点134(持久坐标)处的持久坐标系133(包括x轴133X、y轴133Y和z轴133Z)可以定义用于虚拟内容的坐标空间。持久坐标系133的原点134可以相对于/关于一个或多个现实对象来定义，诸如现实对象126A。矩阵(其可以包括平移矩阵和四元数矩阵或其他旋转矩阵)或其他适合的表示可以表征持久坐标系133空间与环境/世界坐标系108空间之间的变换。在一些实施例中，虚拟对象122B、124B、126B和132中的每个虚拟对象可以具有其自己相对于持久坐标系133的原点134的持久坐标点。在一些实施例中，可以存在多个持久坐标系，并且虚拟对象122B、124B、126B和132中的每个虚拟对象可以具有其自己相对于一个或多个持久坐标系的持久坐标点。

持久坐标数据可以是相对于物理环境持久的坐标数据。持久坐标数据可以由MR系统(例如，MR系统112、200)用于放置持久虚拟内容，该持久虚拟内容可以不绑定到显示虚拟对象的显示器的运动。例如，二维屏幕可以仅相对于屏幕上的位置显示虚拟对象。随着二维屏幕移动，虚拟内容可以随着屏幕移动。在一些实施例中，持久虚拟内容可以被显示在房间的角落。MR用户可能查看角落，看到虚拟内容，看着远离角落(虚拟内容可能不再可见，因为虚拟内容可能由于用户头部的运动而从用户视场内移动到用户视场外的位置)，并且回头查看角落中的虚拟内容(类似于现实对象如何表现)。

在一些实施例中，持久坐标数据(例如，持久坐标系和/或持久坐标系)可包括原点和三个轴。例如，可以通过MR系统向房间的中心分配持久坐标系。在一些实施例中，用户可以在房间周围移动、走出房间、重新进入房间等，并且持久坐标系可以保持在房间的中心(例如，因为它相对于物理环境持续存在)。在一些实施例中，可以使用对持久坐标数据的转换来显示虚拟对象，这可以使能显示持久虚拟内容。在一些实施例中，MR系统可使用同时定位和映射来生成持久坐标数据(例如，MR系统可向空间中的点分配持久坐标系)。在一些实施例中，MR系统可通过以规则间隔生成持久坐标数据来映射环境(例如，MR系统可在网格中分配持久坐标系，其中持久坐标系可至少在另一持久坐标系的五英尺范围内)。

在一些实施例中，持久坐标数据可以由MR系统生成并发送到远程服务器。在一些实施例中，远程服务器可被配置为接收持久坐标数据。在一些实施例中，远程服务器可被配置为同步来自多个观察实例的持久坐标数据。例如，多个MR系统可以用持久坐标数据对同一房间建图，并将该数据发送到远程服务器。在一些实施例中，远程服务器可以使用该观察数据来生成规范持久坐标数据，该数据可以基于一个或多个观察。在一些实施例中，规范持久坐标数据可能比持久坐标数据的单个观察更准确和/或更可靠。在一些实施例中，规范持久坐标数据可被发送到一个或多个MR系统。例如，MR系统可以使用图像识别和/或位置数据来识别它位于具有对应规范持久坐标数据的房间中(例如，因为其他MR系统先前已经对房间建图)。在一些实施例中，MR系统可以从远程服务器接收对应于其位置的规范持久坐标数据。

相对于图1A和图1B，环境/世界坐标系108定义用于现实环境100和虚拟环境130二者的共享坐标空间。在示出的示例中，坐标空间具有其点106处的原点。进一步地，坐标空间由相同的三个正交轴(108X、108Y、108Z)定义。因此，现实环境100中的第一位置和虚拟环境130中的对应的第二位置可以相对于相同坐标系来描述。这简化标识并显示现实环境和虚拟环境中的对应的位置，因为相同坐标可以用于标识这两个位置。然而，在一些示例中，对应的现实环境和虚拟环境不需要使用共享坐标空间。例如，在一些示例中(未示出)，矩阵(其可以包括平移矩阵和四元数矩阵或其他旋转矩阵)或其他适合的表示可以表征现实环境坐标空间与虚拟环境坐标空间之间的变换。

图1C示出了经由混合现实系统112将现实环境100和虚拟环境130的各方面同时呈现给用户110的示例MRE 150。在示出的示例中，MRE 150同时向用户110呈现来自现实环境100的现实对象122A、124A、126A和128A(例如，经由混合现实系统112的显示器的透射部分)；以及来自虚拟环境130的虚拟对象122B、124B、126B和132(例如，经由混合现实系统112的显示器的有源显示部分)。如上文，原点106充当用于与MRE 150相对应的坐标空间的原点，并且坐标系108定义用于坐标空间的x轴、y轴和z轴。

在示出的示例中，混合显示对象包括占用坐标空间108中的对应位置的对应的现实对象和虚拟对象对(即，122A/122B、124A/124B、126A/126B)。在一些示例中，现实对象和虚拟对象二者可以对用户110同时可见。这可以在例如虚拟对象呈现被设计为增加对应的现实对象的视图的信息的实例中(诸如在虚拟对象呈现古代损坏雕塑丢失件的博物馆应用中)是期望的。在一些示例中，虚拟对象(122B、124B和/或126B)可以显示(例如，经由使用像素化遮挡快门的有源像素化遮挡)以便遮挡对应的现实对象(122A、124A和/或126A)。这可以在例如虚拟对象充当用于对应的现实对象的视觉替换的实例中(诸如在无生命现实对象变为“活的”角色的交互式故事应用中)是期望的。

在一些示例中，现实对象(例如，122A、124A、126A)可以与虚拟内容或可以不必构成虚拟对象的辅助数据(helper data)相关联。虚拟内容或辅助数据可以促进混合现实环境中的虚拟对象的处理或处置。例如，这样的虚拟内容可以包括以下各项的二维表示：对应的现实对象；与对应的现实对象相关联的自定义资产类型；或与对应的现实对象相关联的统计数据。该信息可以使能或者促进涉及现实对象的计算而不招致不必要的计算负担。

在一些示例中，上文所描述的呈现还可以包含音频方面。例如，在MRE 150中，虚拟怪物132可以与一个或多个音频信号相关联，诸如当怪物在MRE 150四周走动时生成的脚步声效果。如下文进一步描述的，混合现实系统112的处理器可以计算与MRE 150中的所有此类声音的混合和处理相对应复合的音频信号，并且经由包括在混合现实系统112中的一个或多个扬声器和/或一个或多个外部扬声器将音频信号呈现给用户110。

示例混合现实系统

示例混合现实系统112可以包括可穿戴头部设备(例如，可穿戴增强现实或混合现实头部设备)，其包括：显示器(其可以包括左透射式显示器和右透射式显示器，其可以是近眼显示器，以及用于将来自显示器的光耦合到用户的眼睛的相关联的部件)；左扬声器和右扬声器(例如，其分别邻近用户的左耳和右定位)；惯性测量单元(IMU)(例如，其安装到头部设备的边撑臂)；正交线圈电磁接收器(例如，其被安装到左边撑件)；左相机和右相机(例如，深度(飞行时间)相机)，其远离用户取向；以及左眼相机和右眼相机，其朝向用户取向(例如，用于检测用户的眼运动)。然而，混合现实系统112可以包含任何适合的显示技术，以及任何适合的传感器(例如，光学、红外、声学、LIDAR、EOG、GPS、磁性)。另外，混合现实系统112可以包含与其他设备和系统(包括其他混合现实系统)通信的网络特征(例如，Wi-Fi能力)。混合现实系统112可以进一步包括电池(其可以被安装在辅助单元中，诸如被设计为穿戴在用户的腰部周围的腰带包)、处理器和存储器。混合现实系统112的可穿戴头部设备可以包括跟踪部件，诸如IMU或其他适合的传感器，其被配置为输出可穿戴头部设备相对于用户的环境的一组坐标。在一些示例中，跟踪部件可以向执行同时定位和建图(SLAM)和/或视觉里程计算法的处理器提供输入。在一些示例中，混合现实系统112还可以包括手持式控制器300和/或辅助单元320，其可以是可穿戴腰带包，如下文进一步描述的。

图2A-2D示出了可以用于将MRE(其可以对应于MRE 150)或其他虚拟环境呈现给用户的示例混合现实系统200(其可以对应于混合现实系统112)的部件。图2A示出了在示例混合现实系统200中包括的可穿戴头部设备2102的透视图。图2B示出了在用户的头部2202上穿戴的可穿戴头部设备2102的俯视图。图2C示出了可穿戴头部设备2102的前视图。图2D示出了可穿戴头部设备2102的示例目镜2110的边视图。如图2A-2C所示，示例可穿戴头部设备2102包括示例左目镜(例如，左透明波导集目镜)2108和示例右目镜(例如，右透明波导集目镜)2110。每个目镜2108和2110可以包括：透射元件，通过该透射元件，现实环境可以是可见的；以及显示元件，其用于呈现重叠现实环境的显示(例如，经由成像调制光)。在一些示例中，这样的显示元件可以包括用于控制成像调制光的流的表面衍射光学元件。例如，左目镜2108可以包括左耦入光栅集2112、左正交光瞳扩展(OPE)光栅集2120和左出射(输出)光瞳扩展(EPE)光栅集2122。类似地，右目镜2110可以包括右耦入光栅集2118、右OPE光栅集2114和右EPE光栅集2116。成像调制光可以经由耦入光栅2112和2118、OPE 2114和2120、和EPE2116和2122传递到用户的眼睛。每个耦入光栅集2112、2118可以被配置为朝向其对应的OPE光栅集2120、2114偏转光。每个OPE光栅集2120、2114可以被设计为朝向其相关联的EPE2122、2116向下递增地偏转光，从而水平延伸形成的出射光瞳。每个EPE 2122、2116可以被配置为将从其对应的OPE光栅集2120、2114接收的光的至少一部分向外递增地重引导到定义在目镜2108、2110后面的用户眼动范围(eyebox)位置(未示出)，垂直延伸在眼动范围形成的出射光瞳。可替代地，代替耦入光栅集2112和2118、OPE光栅集2114和2120、和EPE光栅集2116和2122，目镜2108和2110可以包括光栅和/或用于控制将成像调制光耦合到用户的眼睛的折射和反射特征的其他布置。

在一些示例中，可穿戴头部设备2102可以包括左边撑臂2130和右边撑臂2132，其中，左边撑臂2130包括左扬声器2134，右边撑臂2132包括右扬声器2136。正交线圈电磁接收器2138可以被定位在左边撑件中，或者在可穿戴头部单元2102中的另一适合的位置。惯性测量单元(IMU)2140可以被定位在右边撑臂2132中，或者在可穿戴头部设备2102中的另一适合的位置。可穿戴头部设备2102还可以包括左深度(例如，飞行时间)相机2142和右深度相机2144。深度相机2142、2144可以在不同的方向上适合地取向以便一起覆盖更宽的视场。

在图2A-2D中示出的示例中，左成像调制光源2124可以通过左耦入光栅集2112被光学耦合到左目镜2108中，并且右成像调制光源2126可以通过右耦入光栅集2118光学耦合到右目镜2110中。成像调制光源2124、2126可以包括例如光纤扫描器；投影仪，包括电子光调制器，诸如数字光处理(DLP)芯片或硅上液晶(LCoS)调制器；或发射显示器，诸如微发光二极管(μLED)或微有机发光二极管(μOLED)面板，其使用每侧一个或多个透镜耦合到耦入光栅集2112、2118中。输入耦合光栅集2112、2118可以将来自成像调制光源2124、2126的光偏转到大于目镜2108、2110的全内反射(TIR)的临界角的角。OPE光栅集2114、2120向下朝向EPE光栅集2116、2122递增地偏转通过TIR传播的光。EPE光栅集2116、2122将光递增地耦合向用户的面部，包括用户的眼睛的瞳孔。

在一些示例中，如图2D所示，左目镜2108和右目镜2110中的每一个目镜包括多个波导2402。例如，每个目镜2108、2110可以包括多个单独波导，每个波导专用于相应的颜色通道(例如，红色、蓝色和绿色)。在一些示例中，每个目镜2108、2110可以包括这样的波导的多个集合，其中，每个集合被配置为向发射光赋予不同的波前曲率。波前曲率可以相对于用户的眼睛是凸的，例如以呈现定位在用户的前面一定距离的虚拟对象(例如，通过对应于波前曲率的倒数的距离)。在一些示例中，EPE光栅集2116、2122可以包括通过变更跨每个EPE出射光的坡印廷矢量实现凸波前曲率的弯曲光栅凹陷。

在一些示例中，为了创建所显示的内容是三维的感知，立体调节的左眼影像和右眼影像可以通过成像光调制器2124、2126和目镜2108、2110呈现给用户。三维虚拟对象的呈现的感知的逼真性可以通过选择波导(并且因此对应的波前曲率)增强，以使得虚拟对象在与由立体左和右图像指示的距离近似的距离处被显示。该技术还可以减少由一些用户经历的运动病，其可以通过由立体左眼影像和右眼影像提供的深度感知线索与人眼的自动调节(例如，对象距离-相关焦点)之间的差异引起。

图2D示出了从示例可穿戴头部设备2102的右目镜2110的顶部的面向边缘的视图。如图2D所示，多个波导2402可以包括三个波导2404的第一子集和三个波导2406的第二子集。波导2404、2406的两个子集可以通过以向出射光赋予不同波前曲率的不同光栅线曲率为特征的不同EPE光栅来区分。在波导2404、2406的子集中的每一个内，每个波导可以用于将不同光谱通道(例如，红色、绿色和蓝色光谱信道之一)耦合到用户的右眼2206。(虽然未示出在图2D中，但是左目镜2108的结构类似于右目镜2110的结构。)

图3A示出了混合现实系统200的示例手持式控制器部件300。在一些示例中，手持式控制器300包括柄部346和沿着顶面348设置的一个或多个按钮350。在一些示例中，按钮350可以被配置用于用作光学跟踪目标，例如，用于结合相机或其他光学传感器(其可以被安装在混合现实系统200的头部单元(例如，可穿戴头部设备2102)中)跟踪手持式控制器300的六自由度(6DOF)运动。在一些示例中，手持式控制器300包括用于检测位置或取向(诸如相对于可穿戴头部设备2102的位置或取向)的跟踪部件(例如，IMU或其他适合的传感器)。在一些示例中，这样的跟踪部件可以被定位在手持式控制器300的手柄中，和/或可以被机械耦合到手持式控制器。手持式控制器300可以被配置为提供与按钮的按压状态中的一个或多个相对应的一个或多个输出信号；或手持式控制器300的位置、取向和/或运动(例如，经由IMU)。这样的输出信号可以用作混合现实系统200的处理器的输入。这样的输入可以与手持式控制器的位置、取向和/或运动(并且，通过扩展，握持控制器的用户的手的位置、取向和/或运动)。这样的输入还可以对应于用户按压按钮350。

图3B示出了混合现实系统200的示例辅助单元320。辅助单元320可以包括提供操作系统200的能量的电池，并且可以包括用于执行操作系统200的程序的处理器。如图所示，示例辅助单元320包括芯片2128，诸如用于将辅助单元320附接到用户的腰带。其他形状因子适合于辅助单元320并且将是明显的，包括不涉及将单元安装到用户的腰带的形状因子。在一些示例中，辅助单元320通过多导管光缆耦合到可穿戴头部设备2102，该多导管光缆可以包括例如电线和光纤。还可以使用辅助单元320与可穿戴头部设备2102之间的无线连接。

在一些示例中，混合现实系统200可以包括检测声音并且将对应的信号提供给混合现实系统的一个或多个麦克风。在一些示例中，麦克风可以被附接到可穿戴头部设备2102或与可穿戴头部设备2102集成，并且被配置为检测用户的语音。在一些示例中，麦克风可以被附接到手持式控制器300和/或辅助单元320或与手持式控制器300和/或辅助单元320集成。这样的麦克风可以被配置为检测环境声音、环境噪声、用户或第三方的语音或其他声音。

图4示出了可以与示例混合现实系统对应的示例功能框图，诸如上文所描述的混合现实系统200(其可以对应于相对于图1的混合现实系统112)。如图4所示，示例手持式控制器400B(其可以对应于手持式控制器300(“图腾”))包括图腾到可穿戴头部设备六自由度(6DOF)图腾子系统404A，并且示例可穿戴头部设备400A(其可以对应于可穿戴头部设备2102)包括图腾到可穿戴头部设备6DOF子系统404B。在示例中，6DOF图腾子系统404A和6DOF子系统404B协作确定手持式控制器400B相对于可穿戴头部设备400A的六个坐标(例如，在三个平移方向上的偏移和沿着三个轴的旋转)。六个自由度可以相对于可穿戴头部设备400A的坐标系表示。三个平移偏移可以被表示为这样的坐标系中的X、Y和Z偏移、平移矩阵、或某种其他表示。旋转自由度可以被表示为偏转、俯仰和滚动旋转的序列、旋转矩阵、四元数或某种其他表示。在一些示例中，可穿戴头部设备400A；包括在可穿戴头部设备400A中的一个或多个深度相机444(和/或一个或多个非深度相机)；和/或一个或多个光学目标(例如，如上文所描述的手持式控制器400B的按钮450，或包括在手持式控制器400B中的专用光学目标)可以用于6DOF跟踪。在一些示例中，手持式控制器400B可以包括相机，如上文所描述的；并且可穿戴头部设备400A可以包括用于结合相机光学跟踪的光学目标。在一些示例中，可穿戴头部设备400A和手持式控制器400B各自包括一组三个正交取向的螺线管，其用于无线地发送和接收三个可区分的信号。通过测量用于接收的线圈中的每一个线圈中接收的三个可区分信号的相对幅度，可以确定可穿戴头部设备400A相对于手持式控制器400B的6DOF。此外，6DOF图腾子系统404A可以包括惯性测量单元(IMU)，该惯性测量单元(IMU)可用于提供关于手持式控制器400B的快速运动的经改进的准确度和/或更及时的信息。

在一些实施例中，可穿戴系统400可包括麦克风阵列407，麦克风阵列407可包括被布置在头戴设备400A上的一个或多个麦克风。在一些实施例中，麦克风阵列407可包括四个麦克风。两个麦克风可被放置在头戴设备400A的前面，以及两个麦克风可放置在头戴设备400A的后面(例如，一个位于左后以及一个位于右后)。在一些实施例中，由麦克风阵列407接收的信号可以被发送到DSP 408。DSP 408可被配置为对从麦克风阵列407接收的信号执行信号处理。例如，DSP 408可被配置为对从麦克风阵列407接收的信号执行噪声降低、声学回波消除和/或波束形成。DSP 408可被配置为向处理器416发送信号。

在一些示例中，可能变得需要将来自局部坐标空间(例如，相对于可穿戴头部设备400A固定的坐标空间)的坐标变换到惯性坐标空间(例如，相对于现实环境固定的坐标空间)，例如以便补偿可穿戴头部设备400A相对于坐标系108的运动。例如，这样的变换可能为可穿戴头部设备400A的显示器进行以下内容所必需：将虚拟对象呈现在相对于现实环境的期望位置和取向处(例如，坐在现实椅子中、面向前的虚拟人，而不管可穿戴头部设备的位置和取向)，而不是在显示器上的固定位置和取向处(例如，在显示器的右下角的相同位置处)，以保持虚拟对象存在于现实环境中的错觉(并且例如当可穿戴头部设备400A移动和旋转时不显得不自然地定位在现实环境中)。在一些示例中，坐标空间之间的补偿变换可以通过使用SLAM和/或视觉里程计程序处理来自深度相机444的影像确定以便确定可穿戴头部设备400A相对于坐标系108的变换。在图4所示的示例中，深度相机444被耦合到SLAM/视觉里程计块406并且可以向块406提供影像。SLAM/视觉里程计块406实施方式可以包括处理器，该处理器被配置为处理该影像并且确定用户的头部的位置和取向，其然后可以用于标识头部坐标空间与另一坐标空间(例如，惯性坐标空间)之间的变换。类似地，在一些示例中，从IMU 409获得关于用户的头部姿势和位置的信息的附加源。来自IMU 409的信息可以与来自SLAM/视觉里程计块406的信息集成以提供关于用户的头部姿势和位置的快速调节的经改进的准确度和/或更及时的信息。

在一些示例中，深度相机444可以将3D影像供应到手势跟踪器411，该手势跟踪器411可以被实现在可穿戴头部设备400A的处理器中。手势跟踪器411可以标识用户的手势，例如通过将从深度相机444接收的3D影像与表示手势的存储的图案匹配。标识用户的手势的其他适合的技术将是明显的。

在一些示例中，一个或多个处理器416可以被配置为从可穿戴头部设备的6DOF头戴设备系统404B、IMU 409、SLAM/视觉里程计块406、深度相机444和/或手势跟踪器411接收数据。处理器416还可以发送和接收来自6DOF图腾系统404A的控制信号。处理器416可以被无线耦合到6DOF图腾系统404A，诸如在手持式控制器400B不受限的示例中。处理器416还可以与附加部件通信，诸如音频-视觉内容存储器418、图形处理单元(GPU)420、和/或数字信号处理器(DSP)音频空间化器。DSP音频空间化器422可以被耦合到头部相关传递函数(HRTF)存储器425。GPU 420可以包括耦合到左成像调制光源424的左通道输出和耦合到右成像调制光源426的右通道输出。GPU 420可以将立体图像数据输出到成像调制光源424、426，例如如上文相对于图2A-2D所描述的。DSP音频空间化器422可以向左扬声器412和/或右扬声器414输出音频。DSP音频空间化器422可以从处理器419接收指示从用户到虚拟声源(其可以由用户移动，例如，经由手持式控制器320)的方向矢量的输入。基于方向矢量，DSP音频空间化器422可以确定对应的HRTF(例如，通过访问HRTF、或通过插值多个HRTF)。DSP音频空间化器然后可以将所确定的HRTF应用到音频信号，诸如与由虚拟对象生成的虚拟声音相对应的音频信号。这可以通过插值用户相对于混合现实环境中的虚拟声音的相对位置和取向——即，通过呈现与该虚拟声音将听起来像什么(如果其是现实环境中的现实声音)的用户的期望匹配的虚拟声音来增强虚拟声音的可信度和逼真度。

在一些示例中，诸如图4所示，处理器416、GPU 420、DSP音频空间化器422、HRTF存储器425和音频/视觉内容存储器418中的一个或多个可以被包括在辅助单元400C中(其可以对应于上文所描述的辅助单元320)。辅助单元400C可以包括对其部件供电和/或向可穿戴头部设备400A或手持式控制器400B供电的电池427。将这样的部件包括在可安装到用户的腰部的辅助单元中可以限制可穿戴头部设备400A的大小和重量，其进而可以减少用户的头部和颈部的疲劳。

虽然图4呈现了与示例混合现实系统的各种部件相对应的元件，但是这些部件的各种其他适合的布置将对于本领域技术人员来说变得明显。例如，在图4中呈现为与辅助单元400C相关联的元件可以相反与可穿戴头部设备400A或手持式控制器400B相关联。此外，一些混合现实系统可以完全放弃手持式控制器400B或辅助单元400C。这样的改变和修改将被理解为包括在所公开的示例的范围内。

沉浸式音频平台

XR系统可以利用独特的能力为沉浸式应用在用户的现实环境中显示虚拟内容。例如，单个XR系统可能接近、匹配或甚至超过由大型电视屏幕和昂贵的多通道扬声器设置所提供的体验。XR系统可以向用户显示虚拟屏幕，并且可以使虚拟屏幕与用户期望一样大或一样小。利用相对于现实环境的虚拟对象持久性，XR系统甚至可以在沙发对面的空墙上的固定位置处呈现虚拟屏幕，这可以在功能上模拟物理安装的电视。用户可以坐在沙发上并且在50”屏幕、100”屏幕、200”屏幕或用户期望的任何大小屏幕上消费娱乐。

作为虚拟显示的一部分，XR系统可以从向用户呈现音频中受益。例如，许多可以购买和/或流媒体播放的电影可包括多通道环绕声音频(轨道)。这样的音频轨道可以被配置为在立体声通道扬声器、5.1通道扬声器、7.1通道扬声器、或扬声器的任何其他配置上播放。类似于虚拟屏幕，XR系统可以利用计算工程向用户呈现可以接近、匹配或甚至超过由物理体验/扬声器设置所提供的体验的模拟体验/扬声器设置。例如，XR系统可以围绕用户的现实环境布置虚拟扬声器，以模拟物理5.1通道扬声器布置。如果用户希望模拟物理布置，则虚拟扬声器可能保持在相对于用户环境的固定位置(就好像它们被物理安装一样)。在一些实施例中，用户可以利用XR系统的灵活性，以及将虚拟扬声器重新布置到不同的位置，添加扬声器，减去扬声器，让虚拟扬声器跟随它们等。

因此，开发处理音频内容的系统和方法可能是期望的。在一些实施例中，音频内容可包括被配置为通过多个扬声器通道播放的多个音轨。在一些实施例中，音频内容可以是高保真度(例如，高比特率)，这可能增加存储音频内容所需的数据量和/或处理(例如，解码、解压缩等)音频内容所需的处理量。因此，发送和/或存储音频内容可能具有挑战性。例如，在线流媒体服务可能需要向单个用户发送大量数据，使得用户可以享受高清晰度视频和/或高清晰度音频。当数百万同步用户开始播放时，以原始质量发送这样的大数据内容可能不可行。

在一些实施例中，编解码器可用于帮助有效发送和/或存储媒体(例如，视频和/或音频)内容。编解码器可包括可以被配置为以特定方式编码和/或压缩数据的计算机指令。在一些实施例中，未压缩数据可包括脉冲编码调制(“PCM”)，其可以以数字表示模拟信号(例如，通过采样)。压缩数据可能在大小方面明显更小并且比原始未压缩数据需要明显更少的带宽来传输。在一些实施例中，一些保真度可能由于压缩而丢失，但是这样的权衡对于可行地发送和/或存储大量数据可能是必要的。在一些实施例中，编解码器可包括可以被配置为解码和/或解压缩数据的计算机指令。在一些实施例中，编码数据可能无法在设备上直接播放，并且编码媒体数据可能被解码，使得信息可以以可读格式呈现给在设备上运行的系统和/或应用程序。解码可以包括基于最初编码数据使用的编码标准，重建原始未压缩数据。音频编解码器的示例可包括MP3、WMA、WAV、AAC、AC3、FLAC、ALAC等。

由于编解码器可被广泛使用和采用，因此开发用于XR系统(例如，MR系统112、200)的系统和方法以为在XR系统上运行的应用程序提供音频平台可能是期望的。在一些实施例中，音频平台可以使得应用开发者能够在没有开发者的部分上的很大努力的情况下容易实现音频播放特征(例如，处理编码音频流)。在一些实施例中，提供平台级音频解决方案可以使能跨多个应用的一致播放，这些应用可能已由多个开发者开发。平台级音频解决方案还可以从与XR系统的其他平台级特征连接中受益，这可以允许应用容易利用更复杂的XR功能。

例如，解码音频流可以包括多个通道，该通道可能是空间化的。空间化音频可以包括呈现的音频，就好像它源自用户现实和/或虚拟环境周围空间中的一个或多个点。取代简单的通道音频，空间化音频可以对用户在环境中的定位作出反应。例如，立体声音频可以以由音频流指定的音量播放来自左通道和右通道的声音，并且音量可能无法解释用户的运动。如果用户向左移动，则简单的立体声音频可能不增加左扬声器处播放的音量。然而，空间化音频可以将左通道呈现为源自用户左侧的空间中的点(就好像物理左通道扬声器被安装在那里一样)。在一些实施例中，用户可能向空间中的该点移动，并且空间化的左信道声音可能根据声源与用户之间减少的距离而增大音量。

因此，音频平台解决方案可以向开发者和用户提供显著的益处。开发者可以容易访问平台功能而不必包含应用空间中的重要特征。相反，使用抽象，开发者可以使用应用空间与一个或多个平台服务之间的接口来利用平台级功能。例如，由开发者实现的应用可以控制本机平台级功能。用户可以从附加的开发者灵活性中受益，例如，开发者可以利用其他平台特征，例如空间化音频，以有效且容易地交付沉浸式音频体验。

图5示出了根据一些实施例的沉浸式音频内容的示例显示。在一些实施例中，用户502可以通过XR系统504体验沉浸式音频内容，该系统可以对应于MR系统112、200。在一些实施例中，可以使用其他XR系统(例如，VR系统)。XR系统504可用于呈现可能不是已经特别为XR用途设计的媒体内容。例如，数字电影可以已经被设计用于在具有物理扬声器布置(例如，五个通道和朝低音通道)的二维屏幕上播放。在一些实施例中，数字内容可以以可以使能跨不同设备播放的一个或多个标准配置来配置。例如，视频和/或音频内容可以使用编解码器进行编码，编解码器可以将数据压缩到更易管理的大小，以促进存储和传输。在一些实施例中，视频和/或音频内容可以包括容器，容器可以包括与存储在容器中的数据相关的一个或多个数据结构。

对于XR系统504来说包括用于接收以标准格式编码音频内容的系统和方法可能是有益的。例如，用户502可能希望使用XR系统504从一个或多个远程服务器流式传输数字电影。在一些实施例中，一个或多个远程服务器可以编码与数字电影相关联的音频内容，并将编码音频内容传输到XR系统504(例如，因为音频内容在编码之后可以更有效地存储和/或传输)。XR系统504可以从一个或多个服务器接收编码音频内容。在一些实施例中，XR系统504可以解码接收到的编码音频内容。在一些实施例中，解码音频内容可以包括：将音频内容转换为PCM数据。在一些实施例中，编码音频内容可以包括多个(例如，六个)音频内容通道，这些通道可以被配置为在不同的扬声器位置处呈现。在图5中，六个通道可以采用这样的配置：扬声器放置在屏幕的左侧、屏幕的右侧、屏幕下方、用户的左后侧和用户的右后侧，并且低音炮(未示出)可以被放置在例如屏幕附近或用户附近。

在一些实施例中，XR系统504可以解析音频内容，以确定它应该如何向用户502呈现音频内容。例如，由XR系统504接收的音频内容可包括指示扬声器布置的元数据。在一些实施例中，XR系统504可以解码音频内容并将音频内容空间化以模拟扬声器布置。例如，XR系统504可以渲染六个音频通道用于播放，其可包括将一个或多个音频通道空间化。在一些实施例中，左前音频通道可以被空间化到扬声器位置508a，该位置可以在虚拟屏幕506的左侧。在一些实施例中，右前音频通道可以被空间化到扬声器位置508b，该位置可以在虚拟屏幕506的右侧。在一些实施例中，中心通道可以被空间化到扬声器位置508c，该位置可以在虚拟屏幕506下方。在一些实施例中，左后信道可以被空间化到扬声器位置508d，该位置可以在用户502的后面和左侧。在一些实施例中，右后通道可以被空间化到扬声器位置508e，该位置可以在用户502的后面和右侧。

XR系统504可以使用持久坐标数据来确定现实环境中的扬声器位置(例如，508a、508b、508c、508d和/或508e)。例如，扬声器位置508a、508b、508c、508d和/或508e可能位于用户502客厅中的物理沙发周围。用户502的位置可以使用XR系统504的传感器确定(例如，使用MR系统112或200的传感器确定与现实环境、IMU、相机相关的信息)。如果用户502离开客厅，从这些扬声器位置呈现的空间化音频可能出现消音和/或闭塞，这可能模拟位于相同物理位置的物理扬声器的行为。在一些实施例中，扬声器位置可能未绑定到现实环境。例如，当用户502在现实环境周围移动时，扬声器位置508a、508b、508c、508d和/或508e(和/或虚拟屏幕506)可能动态地重新定位，以相对于用户502的位置保持在固定位置。尽管本文描述了六个通道配置并且图5示出了五个通道配置，但是应预期可以使用任何适合的扬声器布置。例如，可以使用更多或更少的扬声器通道。在一些实施例中，扬声器布置还可以指示比简单的相对于用户和/或屏幕的关系定位更详细或更具体的定位(例如，扬声器位置508d可能正好位于用户502后面1英尺、用户502上方1英尺和用户502左侧1英尺)。例如，可以为扬声器布置中的扬声器位置指定绝对位置。扬声器布置可以使用XR系统504的传感器(例如，MR系统112或200的传感器、IMU、相机)确定。例如，使用传感器确定与现实环境相关的信息，扬声器可能位于与现实环境的特征相对应的位置(例如，墙上的位置、天花板上的位置、柱子上的位置)。在一些实施例中，音频呈现(例如，使用扬声器)可以使用XR系统504的传感器(例如，MR系统112或200的传感器、IMU、相机)确定。例如，可以基于现实环境的特征呈现音频(例如，可以基于使用来自传感器的信息确定的环境的声学，向音频添加附加的回声或混响)。

图6示出了根据一些实施例的示例性沉浸式音频平台。在一些实施例中，XR系统602(其可以对应于MR系统112、200)可以包括被配置为执行计算机指令的一个或多个计算机系统。在一些实施例中，XR系统602可以包括被配置为存储一个或多个数据结构的一个或多个计算机系统。在一些实施例中，XR系统602可以被配置为运行应用程序604。应用程序604可以在一个或多个应用开发框架(例如Unity、Unreal Engine等)中配置和/或开发。在一些实施例中，应用程序604可以由第三方(例如，由未开发XR系统602的实体)开发。在一些实施例中，XR系统602(其可对应于MR系统112、200)包括用于确定如何向用户呈现音频内容的传感器(例如，MR系统122或200的传感器、IMU、相机)。例如，XR系统602的元件(例如，应用程序604、多媒体服务606、音频渲染服务608)可以从传感器接收信息(例如，关于XR系统602的环境的信息)，并且基于该信息，元件更新如何呈现音频内容。

在一些实施例中，应用程序604可以被配置为播放数字内容(例如，视频和/或音频内容)。例如，应用程序604可以被配置为数字流服务的客户端，该客户端可以将内容数字流式传输到终端用户设备(例如XR系统602)。在一些实施例中，应用程序604可以被配置为与一个或多个远程服务器通信，远程服务器可以存储待流式传输到终端用户设备的数字内容。应用程序604可以引用可用于从一个或多个远程服务器流式传输的内容，并且应用程序604可以将该数据呈现给终端用户。在一些实施例中，应用程序604可以将流式传输指定数字内容的请求传输到一个或多个远程服务器，并且应用程序605可能不接收数字内容(例如，数字内容可以直接从一个或多个远程服务器传递到多媒体服务606)。绕过应用程序604可以具有在如何跨平台或跨应用程序呈现媒体内容方面保持一致性的优点。从安全和/或隐私角度，绕过应用程序604也可能是期望的，因为可能不需要应用程序604来处理数字内容(相反，系统级平台可以直接从源管理数字内容)。

在一些实施例中，XR系统602可以接收编码数字内容(例如，由于由例如应用程序604请求流式传输指定的数字内容)。在一些实施例中，可以通过多媒体服务606(由实线表示)接收编码数字内容，该服务606可以被配置为解码编码内容。例如，多媒体服务606可以使用一个或多个编解码器，该编解码器可以被配置为将编码数据转换为未压缩数据(例如，转换为PCM数据)。在一些实施例中，多媒体服务606可以与应用程序604通信。例如，应用程序604可以向多媒体服务606传输控制数据(由虚线表示)。控制数据可包括用于在多媒体服务606处接收的每个音频通道的格式和/或音频句柄(audio handle)。在一些实施例中，控制数据可包括许可和/或数字权限管理信息。在一些实施例中，多媒体服务606可以从一个或多个远程服务器接收控制数据(由虚线表示)，控制数据包括格式数据、数据内容、数字权限管理、适当的编解码器等。在一些实施例中，多媒体服务606可以向应用程序604传输格式数据。在一些实施例中，多媒体服务606可以被配置为操作系统服务，并且可以用于在XR系统602上运行的一个或多个应用程序(例如，应用程序604)。在一些实施例中，在XR系统602上运行的应用(例如，应用程序604)可以使用应用编程接口(“API”)和/或软件开发工具包(“SDK”)与多媒体服务606通信。

在一些实施例中，多媒体服务606可以被配置为直接从一个或多个远程服务器接收编码音频内容，并且基于编码音频内容生成解码音频内容。例如，多媒体服务606可包括一个或多个编解码器，该编解码器可以将编码音频流转换为解码音频流。在一些实施例中，多媒体服务606可包括多种不同的编解码器，该编解码器可以支持多种不同的媒体内容。在一些实施例中，多媒体服务606可包括对自适应比特率流(例如，MPEG-DASH)的支持。在一些实施例中，应用程序604可以将包括网络信息(例如，网络端口)的控制数据(由虚线表示)传输到一个或多个远程服务器，并且一个或多个远程服务器可以使用提供的端口将编码音频(由实线表示)传输到多媒体服务606。在一些实施例中，多媒体服务606可以被配置为从一个或多个远程服务器接收编码音频。在一些实施例中，多媒体服务606可以被配置为从XR系统602上运行的一个或多个应用程序(例如，应用程序604)接收编码音频，这些应用程序可能已经从一个或多个远程服务器或任何形式的数字存储(图6未描绘)接收编码音频。

多媒体服务606和/或音频渲染服务608可包括被配置为执行指令和/或存储一个或多个数据结构的一个或多个计算机系统。在一些实施例中，多媒体服务606和/或音频渲染服务608可以被配置为执行可以在一个或多个计算机系统上运行的进程、子进程、线程和/或服务。在一些实施例中，多媒体服务606和/或音频渲染服务608可包括进程，该进程可以在运行时环境中运行。在一些实施例中，多媒体服务606和/或音频渲染服务608可包括父进程的子进程。由多媒体服务606和/或音频渲染服务608执行的指令可包括一个或多个部件。在一些实施例中，由多媒体服务606和/或音频渲染服务608执行的指令可以在通用处理器中运行，并且在一些实施例中，由多媒体服务606或音频渲染服务608执行的指令可以在音频特定处理器(例如DSP)中运行。在一些实施例中，由多媒体服务606和/或音频渲染服务608执行的指令可以在与其他部件和/或服务不同的进程地址空间和/或存储器空间中运行。在一些实施例中，由多媒体服务606和/或音频渲染服务608执行的指令可以作为一个或多个线程运行。在一些实施例中，由多媒体服务606和/或音频渲染服务608执行的指令可以与其他部件和/或服务共享进程地址和/或存储器空间。

在一些实施例中，音频渲染服务608可以被配置为接收解码音频(由实线表示)，并且对解码音频进行空间化和/或渲染。例如，多媒体服务606可以被配置为将解码音频传输到音频渲染服务608。在一些实施例中，音频渲染服务608可以从多媒体服务606接收解码音频。例如，多媒体服务606可以对接收到的音频数据进行解码，并且将解码音频数据发送到音频渲染服务608。在一些实施例中，音频渲染服务608可以与应用程序604通信。例如，应用程序604可以向音频渲染服务608传输控制数据(由虚线表示)。控制数据可包括与一个或多个音频通道相对应的一个或多个句柄，并且应用程序604可以将一个或多个句柄传递给音频渲染服务608。然后，音频渲染服务608可以将接收到的解码音频空间化。在一些实施例中，音频渲染服务608可以根据可以与音频流一起包括的数据将解码音频空间化(例如，音频流元数据可以指示什么通道布置应当用于空间化)。在一些实施例中，音频渲染服务608可以被配置为根据音频场景将数据空间化。例如，应用程序604可以将音频场景数据传输到音频渲染服务608。在一些实施例中，音频场景数据可包括关于声源应相对于用户、现实/虚拟环境和/或现实/虚拟环境内的对象放置在何处的数据。在一些实施例中，音频渲染服务608可以被配置为操作系统服务，并且可以用于在XR系统602上运行的一个或多个应用程序(例如，应用程序604)。在一些实施例中，在XR系统602上运行的应用(例如，应用程序604)可以使用应用编程接口(“API”)和/或软件开发工具包(“SDK”)与音频渲染服务608通信。在一些实施例中，音频渲染服务608可以被配置为从XR系统602接收未压缩音频和/或在XR系统602上运行的一个或多个应用程序(例如，应用程序604)。例如，可以在XR系统602和/或以未压缩格式在XR系602上运行的一个或多个应用程序上生成音频内容，并且未压缩的音频可以直接传送到音频渲染服务608而不要求编码/解码过程(例如，因为音频不需要从远程位置传输)。在一些实施例中，音频渲染服务608可以将音频内容空间化和/或渲染，音频内容可以经由XR系统602的一个或多个扬声器呈现给用户。例如，音频渲染服务608可以将空间化音频发送到扬声器610。扬声器610可以被配置为接收一个或多个音频信号并向XR系统602的用户输出音频。

可以使用任何适合的方法来完成空间化声音(例如，配置声源使得其可以被感知为从特定位置辐射)。例如，头部相关传递函数(“HRTF”)可用于模拟源自特定位置的声音。在一些实施例中，可以使用通用HRTF。在一些实施例中，用户耳朵周围的一个或多个麦克风(例如，XR系统的一个或多个麦克风)可用于确定一个或多个用户特定HRTF。在一些实施例中，可以使用适合的方法(例如，响度衰减、高频衰减、直接和混响声音的混合、运动视差等)来模拟用户与虚拟声源之间的距离。下文描述了声音空间化的其他示例。

在一些实施例中，扬声器布置影响声音如何空间化(例如，如何感知虚拟扬声器与听众之间的距离)，并且可以使用XR系统602的传感器(例如，MR系统112或200的传感器、XR系统502的传感器、IMU、相机)确定扬声器布置。例如，使用传感器确定与现实环境相关的信息，扬声器可能位于与现实环境特征对应的位置(例如，墙上的位置、天花板上的位置、柱子上的位置)。在一些实施例中，音频呈现(例如，使用扬声器)可以使用XR系统602的传感器(例如，MR系统112或200的传感器、XR系统502的传感器、IMU、相机)确定。例如，可以基于现实环境的特征，呈现音频(例如，可以基于使用来自传感器的信息确定的环境的声学，向音频添加附加的回声或混响)，有利地进一步将呈现的音频空间化并且向听众提供更沉浸式的体验。

构建沉浸式音频平台使得应用程序可以利用/控制本机OS功能可能是有益的。例如，允许应用程序604使编码音频直接发送到多媒体服务606(或促进从一个或多个远程服务器发送到多媒体服务60)，并将音频场景指定给音频渲染服务608，然后音频渲染服务608可以用于呈现给用户将音频空间化和/或渲染，可能比要求应用程序604本身执行这样的功能更好。要求应用程序604包含各种库(或其他方法)可能导致对应用程序604的开发者的部分的不需要的努力。在一些实施例中，将可以由多个应用程序使用的功能(例如，编解码器)集中在系统级别处可能进一步更有效。集中化可以计算上更有效和/或节省电力。在一些实施例中，将音频平台功能构建到XR系统602的操作系统中并将功能暴露给应用程序也可以使能灵活的未来开发。例如，XR系统602可以添加、改变和/或移除与多媒体服务606相关联的功能(例如，添加附加的编解码器支持)和/或音频渲染服务608，并且更新的功能可以立即可用于应用程序，诸如被配置为在XR系统602上运行的应用程序604，而不要求对应用程序的进行任何修改。

图7示出了根据一些实施例的用于呈现音频内容的示例性过程。在步骤702处，可以初始化媒体流。例如，应用程序(例如，被配置为在XR系统上运行的应用程序604)可以与一个或多个远程服务器通信并请求媒体内容。在一些实施例中，媒体流可以在应用程序(例如，应用程序604)内初始化，该应用程序可以本地存储媒体内容(在应用程序本身内或在运行应用程序的一个或多个计算机系统内)。

在步骤704处，可以接收编码音频流。在一些实施例中，可以由XR系统(例如XR系统602)接收编码音频流。可以在被配置为在XR系统上运行的一个或多个应用程序(例如，应用程序604)的方向上接收编码音频流。例如，应用程序(例如，应用程序604)可以将网络信息发送到一个或多个远程服务器(例如，网络端口)，并且应用程序可以向XR系统上的一个或多个服务指示编码音频流可能正在传入。在一些实施例中，编码音频流可以由被配置为作为XR系统的操作系统的一部分运行的一个或多个服务(例如，多媒体服务606)接收。

在步骤706处，可以基于编码音频流生成解码音频流。在一些实施例中，可以使用一个或多个编解码器生成解码音频流，该编解码器可以被配置为解压缩编码音频流。在一些实施例中，解码音频流可以由被配置为作为XR系统的操作系统的一部分运行的一个或多个服务(例如，多媒体服务606)生成。在一些实施例中，解码音频流可包括PCM数据。在一些实施例中，可以由被配置为作为XR系统的操作系统的一部分运行的一个或多个服务接收解码音频流。在一些实施例中，解码音频流可以从被配置为作为XR系统的操作系统的一部分运行的一个或多个服务(例如，音频渲染服务608)接收。

在步骤708处，可以接收音频场景数据(例如，通过音频渲染服务608)。音频场景数据可包括用于声音应如何呈现的参数。例如，音频场景数据可以指定应呈现多少通道、通道应位于何处、通道应如何相对于用户、现实/虚拟环境和/或现实/虚拟环境内的对象定位(例如，定位和/或取向)。在一些实施例中，音频场景数据可以将音频内容与MRE中的一个或多个现实和/或虚拟对象相关联。例如，XR系统的一个或多个传感器可以使用同时定位和建图(SLAM)和/或持久坐标数据将音频通道与三维空间中的位置相关联(例如，音频通道可以与用户现实环境中的位置相关联，诸如用户沙发的左侧)。在一些实施例中，音频场景数据可包括音频内容(例如，音频信道)与现实/虚拟对象之间的关联。例如，音频通道可能看起来从现实/虚拟对象辐射，并且如果现实/虚拟对象移动，那么音频通道也可能看起来对应地移动。在一些实施例中，音频场景数据可包括参数，诸如用于音频内容应该如何与现实和/或虚拟对象交互的参数。例如，音频场景数据可包括可以管理虚拟声源是否应被现实/虚拟对象遮挡、是否应该从现实/虚拟对象反射、和/或虚拟声源是否应该混响现实/虚拟对象的参数。在一些实施例中，可以从被配置为在XR系统上运行的一个或多个应用接收音频场景数据。在一些实施例中，可以从一个或多个远程服务器接收音频场景数据。在一些实施例中，音频场景数据可以伴随音频流(例如，作为元数据的一部分)。

在一些实施例中，使用传感器(例如，MR系统112或200的传感器、XR系统502的传感器、XR系统602的传感器、IMU、相机)来确定音频场景数据。例如，使用传感器确定与现实环境相关的信息，扬声器或通道可能位于与现实环境特征相对应的位置(例如，墙上的位置、天花板上的位置、柱子上的位置)。在一些实施例中，场景数据包括与音频呈现相关联的数据(例如，使用扬声器)，并且可以使用传感器(例如，MR系统112或200的传感器、XR系统502的传感器、XR系统602的传感器、IMU、相机)来确定与音频呈现相关联的数据。例如，可以基于现实环境的特征呈现音频(例如，可以基于使用来自传感器的信息来确定的环境的声学，向音频添加附加的回声或混响)，有利地进一步将呈现的音频空间化并且向听众提供更沉浸式的体验。

在一些实施例中，音频场景数据可包括可由应用程序和/或用户调整的参数。例如，5.1通道音频系统可包括左后通道和右后通道。在一些实施例中，应用程序和/或用户可以指示左后和右后通道应位于何处和/或向后多远。在一些实施例中，可以沿着一个或多个预定义向量放置后通道，并且沿着向量多远定位它们可以通过标量乘法器调整。在一些实施例中，应用程序和/或用户也可以调整其他虚拟扬声器通道(例如，左前、右前和/或中央扬声器通道)布置。在一些实施例中，虚拟扬声器通道布置可以由上下文定制。例如，用户可以为观看电影分配第一扬声器通道布置，为新闻分配第二布置，为体育分配第二布置，等等。在一些实施例中，扬声器通道布置可以与专用程序相关联。

在一些实施例中，扬声器通道布置可以与物理环境相关联。例如，用户可以将扬声器通道分配给特定房间中的特定位置。作为另一示例，由传感器提供的信息可以将扬声器通道分配给特定房间中的特定位置，如本文所描述的。当用户将来进入该房间时，XR系统可能识别该房间(例如，使用图像识别和/或位置数据；使用XR系统的传感器，如本文所描述的)，并根据预定的扬声器通道布置和/或其他音频场景数据自动呈现音频。在一些实施例中，音频场景数据可以被发送到远程服务器并由XR系统接收(例如，用户可以将定制的音频场景数据导出给XR系统的其他用户和/或音频场景数据可以由XR系统存储在远程服务器上并且稍后由同一XR系统接收)。

音频场景数据可以支持多种音频通道配置(例如，5.1通道、7.1通道和7.1.4通道)。在一些实施例中，音频场景数据可以支持至少三种音频空间化场景：用户空间化、每个屏幕空间化和每个房间空间化。应理解，这些空间化场景不需要相互排斥；可以一起定义多于一个空间化场景。特定HRTF可以与空间化设置相关联；更新空间化设置可以包括更新与先前空间化设置相关联的HRTF。可以使用本文所公开的方法和/或硬件来确定相关联的HRTF。开发者可以具有将音频空间化添加到他们的混合媒体空间体验中的能力，并且在XR设备(例如，XR系统602)上运行的一个或多个服务可以允许用户取决于可用选项选择他或她想要的哪种音频空间化用于该体验。在一些示例中，应用的开发者可以为应用选择特定音频空间化设置来优化用户体验。可以支持各种标准格式、编解码器和/或通道配置，包括AC3编解码器、MPEG-DASH、Dolby Atmos格式媒体等。

用户空间化音频可以基于用户相对于屏幕的位置。例如，如果虚拟屏幕(例如，虚拟屏幕506)朝向用户的左侧，则音频可以来自XR系统的左侧(例如，声音似乎来自与扬声器位置508a相关联的虚拟扬声器)。也可以取决于用户到屏幕的距离来调整音频。例如，当用户离开屏幕时，音频可能更柔和。用户将音频空间化到屏幕上可能是跨不同应用程序的选项(例如，在观看视频时在浏览器中的音频空间化)。可以在XR系统的传感器(例如，MR系统112或200的传感器、XR系统502的传感器、XR系统602的传感器、IMU、相机)期间确定用户相对于屏幕的位置。

也可以支持每屏幕的空间化音频。例如，与5.1通道音频相对应的屏幕可以具有左、中、右、左后和右后通道，以及中低音(类似的对应通道布置也可以用于7.X.X通道环绕声支持)。这些通道可以定制，并且可以根据期望使用尽可能多或尽可能少的这些通道(例如，用户可以定义通道数；应用的开发者可以定义用于应用的通道数；通道数可以由XR设备的传感器确定)(例如，与特征环境和/或环境中的特征数量相关联的感测信息)。可以相对于虚拟屏幕(例如，虚拟屏幕506)放置前扬声器通道。后扬声器通道(例如，与扬声器位置508d和508e相关联的虚拟扬声器)可以是静态的或动态的。例如，如果后通道是静态的，那么它们可以在屏幕后的固定距离(例如，虚拟屏幕宽度的倍数)并且可以保持在该位置。例如，如果后通道是动态的(例如，与用户一起向前和/或向后移动)，则它们可以相对于用户后面保持一定距离。在动态后扬声器的情况下，用户可以具有调整乘法器以调整后通道距离的选项。用户还可能能够取决于用户正在观看的内容定义和选择定制空间模式。例如，用户可以对电影、新闻和体育具有不同的扬声器配置和/或空间模式。例如，用户可以将后扬声器通道针对电影和新闻设置(例如，使用XR系统的图形接口)为静态的，并且针对体育设置为动态的。

也可以支持每房间的空间化音频。例如，用户可以为特定房间定义虚拟扬声器通道(例如，对于5.X.X通道、7.X.X.通道)。XR系统的图形用户接口可以被配置为从用户接收输入以设置虚拟扬声器通道。在用户为给定房间设置虚拟扬声器的配置之后，如果房间被识别为已知房间(例如，经由位置数据和/或图像识别)，则可以保存并自动加载配置。这样，用户可以在卧室中具有第一环绕声/音频空间化配置并且在厨房中具有第二配置，用于他们优选的声音。在一些示例中，可穿戴头部设备(诸如本文所描述的)的传感器(诸如相机、GPS、声传感器、LIDAR)可用于识别房间并触发加载特定于该房间的配置。每个房间空间化可包括对应的每个屏幕空间化。例如，用户可以取决于用户正在观看的内容定义和/或选择自定义空间模式。例如，用户可以对电影、新闻和体育具有不同的扬声器配置。例如，用户可以将后扬声器通道针对厨房中的活动设置(例如，使用XR系统的图形接口)为静态的，并且针对卧室中的活动设置为动态的。

在步骤710处，可以基于解码音频流和音频场景数据生成空间化音频(例如，使用音频渲染服务608)。例如，解码音频流可包括六个通道，并且音频场景数据可以指定六个通道应如何相对于虚拟屏幕布置。在一些实施例中，解码音频可以被空间化，使得每个通道看起来源自虚拟屏幕周围空间中的点。在一些实施例中，可以对空间化音频进行渲染并呈现给XR系统的用户。

根据一些实施例，一种方法包括：从应用程序接收第一输入；响应于接收到所述第一输入，经由第一服务接收编码音频流；基于所述编码音频流，经由所述第一服务生成解码音频流；经由第二服务接收所述解码音频流；从所述可穿戴头部设备的一个或多个传感器接收第二输入；经由所述第二服务从所述应用程序接收第三输入，其中，所述第三输入与一个或多个虚拟扬声器的位置相对应；基于所述解码音频流、所述第二输入和所述第三输入，经由所述第二服务生成空间化音频流；以及经由所述可穿戴头部设备的所述一个或多个扬声器呈现所述空间化音频流。

根据一些实施例，所述第二输入与可穿戴头部设备的位置相对应。

根据一些实施例，所述一个或多个虚拟扬声器的所述位置基于所述可穿戴头部设备的所述位置。

根据一些实施例，所述第二输入与现实环境中的物理对象的位置相对应。

根据一些实施例，所述一个或多个虚拟扬声器的所述位置基于所述物理对象的所述位置。

根据一些实施例，所述编码音频流是从远程服务器接收的。

根据一些实施例，所述第一服务是与所述第二服务不同的服务。

根据一些实施例，所述空间化音频流包括六个音频通道，其中，六个音频通道中的一个音频通道包括超低音通道。

根据一些实施例，所述空间化音频流包括八个音频通道，其中，八个音频通道中的一个音频通道包括超低音炮通道。

根据一些实施例，呈现所述空间化音频流是基于所述可穿戴头部设备相对于虚拟屏幕的位置和距离，所述虚拟屏幕被配置为呈现在所述可穿戴头部设备的显示器上显示的虚拟内容。

根据一些实施例，基于用户空间化音频、每屏幕的空间化音频、以及每房间的空间化音频中的至少一个，呈现所述空间化音频流。

根据一些实施例，所述空间化音频流是基于所述每屏幕空间化音频来呈现的，所述空间化音频流与静态模式和动态模式中的一个相关联，以及所述可穿戴头部设备处于第一位置。所述方法进一步包括：将所述可穿戴头部设备从所述第一位置移动到与所述第一位置不同的第二位置；根据所述空间化音频流与所述静态模式相关联的确定，基于从所述第一位置到一个或多个虚拟扬声器的所述位置中的至少一个位置的第一距离，呈现所述第一空间化音频；以及根据所述空间化音频流与所述动态模式相关联的确定，基于从所述第二位置到一个或多个虚拟扬声器的所述位置中的至少一个位置的第二距离，呈现所述第二空间化音频。

根据一些实施例，基于所述每房间的空间化音频，呈现所述空间化音频流。所述方法进一步包括：根据所述可穿戴头部设备的位置在第一房间中的确定，呈现所述空间化音频流包括：呈现与所述第一房间相关联的第一空间化音频；以及根据所述可穿戴头部设备的位置在第二房间中的确定，呈现所述空间化音频流包括：呈现与所述第二房间相关联的第二空间化音频。所述第一空间化音频与所述第二空间化音频不同，以及所述第一房间与所述第二房间不同。

根据一些实施例，所述空间化音频流的所述呈现是基于用户设置。

根据一些实施例，所述空间化音频流的所述呈现是基于应用程序的设置。

根据一些实施例，所述第一空间化音频流与集中式设置相关联。所述方法进一步包括：从第二应用程序接收第四输入；以及经由所述可穿戴头部设备的所述一个或多个扬声器呈现与所述集中式设置相关联的第二空间化音频流。

根据一些实施例，一种系统包括：可穿戴头部设备，其包括一个或多个传感器和一个或多个扬声器；以及一个或多个处理器，其被配置为执行一种方法，所述方法包括：从应用程序接收第一输入；响应于接收到所述第一输入，经由第一服务接收编码音频流；基于所述编码音频流，经由所述第一服务生成解码音频流；经由第二服务接收所述解码音频流；从所述可穿戴头部设备的一个或多个传感器接收第二输入；经由所述第二服务从所述应用程序接收第三输入，其中，所述第三输入与一个或多个虚拟扬声器的位置相对应；基于所述解码音频流、所述第二输入和所述第三输入，经由所述第二服务生成空间化音频流；以及经由所述可穿戴头部设备的所述一个或多个扬声器呈现所述空间化音频流。

根据一些实施例，所述第二输入与所述可穿戴头部设备的位置相对应。

根据一些实施例，所述编码音频流是从远程服务器接收的。

根据一些实施例，所述空间化音频流包括六个音频通道，其中，所述六个音频通道中的一个音频通道包括超低音通道。

根据一些实施例，所述空间化音频流包括八个音频通道，其中，所述八个音频通道中的一个音频通道包括超低音通道。

根据一些实施例，呈现所述空间化音频流是基于所述可穿戴头部设备相对于虚拟屏幕的位置和距离，呈现虚拟屏幕被配置为呈现在可穿戴头部设备的显示器上显示的虚拟内容。

根据一些实施例，呈现空间化音频流是基于所述每屏幕的空间化音频来呈现的，所述空间化音频流与静态模式和动态模式中的一个相关联，所述可穿戴头部设备处于第一位置，以及所述方法进一步包括：将所述可穿戴头部设备从所述第一位置移动到与所述第一位置不同的第二位置；根据所述空间化音频流与所述静态模式相关联的确定，基于从所述第一位置到一个或多个虚拟扬声器的所述位置中的至少一个的第一距离，呈现所述第一空间化音频；以及根据所述空间化音频流与所述动态模式相关联的确定，基于从所述第二位置到一个或多个虚拟扬声器的所述位置中的至少一个位置的第二距离，呈现所述第二空间化音频。

根据一些实施例，基于所述每房间的空间化音频，呈现所述空间化音频流，以及所述方法进一步包括：根据所述可穿戴头部设备的位置在第一房间中的确定，呈现所述空间化音频流包括：呈现与所述第一房间相关联的第一空间化音频；以及根据所述可穿戴头部设备的位置在第二房间中的确定，呈现所述空间化音频流包括：呈现与所述第二房间相关联的第二空间化音频。所述第一空间化音频与所述第二空间化音频不同，以及所述第一房间与所述第二房间不同。

根据一些实施例，所述空间化音频流的所述呈现是基于所述应用程序的设置。

根据一些实施例，所述第一空间化音频流与集中式设置相关联，以及所述方法进一步包括：从第二应用程序接收第四输入；以及经由所述可穿戴头部设备的所述一个或多个扬声器呈现与所述集中式设置相关联的第二空间化音频流。

根据一些实施例，一种存储指令的非暂态计算机可读介质，所述指令在由一个或多个处理器执行时使得一个或多个处理器执行一种方法，所述方法包括：从应用程序接收第一输入；响应于接收到所述第一输入，经由第一服务接收编码音频流；基于所述编码音频流，经由所述第一服务生成解码音频流；经由第二服务接收所述解码音频流；从可穿戴头部设备的一个或多个传感器接收第二输入；经由所述第二服务从所述应用程序接收第三输入，其中，所述第三输入与一个或多个虚拟扬声器的位置相对应；基于所述解码音频流、所述第二输入和所述第三输入，经由所述第二服务生成空间化音频流；以及经由可穿戴头部设备的一个或多个扬声器呈现空间化音频流。

根据一些实施例，所述编码音频流是从远程服务器接收的。

根据一些实施例，所述空间化音频流是基于所述每屏幕的空间化音频来呈现的，所述空间化音频流与静态模式和动态模式中的一个相关联，所述可穿戴头部设备处于第一位置，以及所述方法进一步包括：将所述可穿戴头部设备从所述第一位置移动到与所述第一位置不同的第二位置；根据所述空间化音频流与所述静态模式相关联的确定，基于从所述第一位置到一个或多个虚拟扬声器的所述位置中的至少一个位置的第一距离，呈现所述第一空间化音频；以及根据所述空间化音频流与所述动态模式相关联的确定，基于从所述第二位置到一个或多个虚拟扬声器的所述位置中的至少一个位置的第二距离，呈现第二空间化音频。

虽然所公开的示例已经参考附图充分描述，但是，应注意到，各种改变和修改对于本领域技术人员来说将变得显而易见。例如，可以对一个或多个实施方式的元素组合、删除、修改、或补充以形成进一步的实施方式。这样的改变和修改将被理解为被包括在如由附加的权利要求限定的所公开的示例的范围内。

Claims

1.一种系统，包括：

可穿戴头部设备，其包括一个或多个传感器和一个或多个扬声器，所述可穿戴头部设备处于第一位置；以及

一个或多个处理器，其被配置为执行一种方法，所述方法包括：

从应用程序接收第一输入；

响应于接收到所述第一输入，经由第一服务接收编码音频流；

基于所述编码音频流，经由所述第一服务生成解码音频流；

经由第二服务接收所述解码音频流；

从所述可穿戴头部设备的一个或多个传感器接收第二输入；

经由所述第二服务从所述应用程序接收第三输入，其中，所述第三输入与一个或多个虚拟扬声器的位置相对应；

基于所述解码音频流、所述第二输入和所述第三输入，经由所述第二服务生成空间化音频流；

根据所述空间化音频流与每屏幕的空间化音频相关联的确定；

经由所述可穿戴头部设备的所述一个或多个扬声器呈现所述空间化音频流，其中：

所述空间化音频流与静态模式和动态模式中的一个相关联；

将所述可穿戴头部设备从所述第一位置移动到与所述第一位置不同的第二位置；以及

根据所述空间化音频流与所述静态模式相关联的确定，基于从所述第一位置到所述一个或多个虚拟扬声器的所述位置的第一距离，呈现第一空间化音频流；以及

根据所述空间化音频流与所述动态模式相关联的确定，基于从所述第二位置到所述一个或多个虚拟扬声器的所述位置的第二距离，呈现第二空间化音频流。

2.根据权利要求1所述的系统，其中，所述第二输入与所述可穿戴头部设备的位置相对应。

3.根据权利要求2所述的系统，其中，所述一个或多个虚拟扬声器的所述位置基于所述可穿戴头部设备的所述位置。

4.根据权利要求1所述的系统，其中，所述第二输入与现实环境中的物理对象的位置相对应。

5.根据权利要求4所述的系统，其中，所述一个或多个虚拟扬声器的所述位置基于所述物理对象的所述位置。

6.根据权利要求1所述的系统，其中，所述编码音频流是从远程服务器接收的。

7.根据权利要求1所述的系统，其中，所述第一服务是与所述第二服务不同的服务。

8.根据权利要求1所述的系统，其中，所述空间化音频流包括六个音频通道，其中，所述六个音频通道中的一个音频通道包括超低音通道。

9.根据权利要求1所述的系统，其中，所述空间化音频流包括八个音频通道，其中，所述八个音频通道中的一个音频通道包括超低音通道。

10.根据权利要求1所述的系统，其中，呈现所述空间化音频流是基于所述可穿戴头部设备相对于虚拟屏幕的位置和距离，所述虚拟屏幕被配置为呈现在所述可穿戴头部设备的显示器上显示的虚拟内容。

11.根据权利要求1所述的系统，其中，

将所述可穿戴头部设备从所述第一位置移动到与所述第一位置不同的第二位置，以及所述方法进一步包括：

根据所述空间化音频流与每屏幕的空间化音频相关联的确定：

经由所述可穿戴头部设备的所述一个或多个扬声器，呈现所述空间化音频流；

根据所述第二位置在第一房间中的确定，呈现与所述第一房间相关联的第三空间化音频；以及

根据所述第二位置在第二房间中的确定，呈现与所述第二房间相关联的第四空间化音频，

其中：

所述第三空间化音频与所述第四空间化音频不同，以及

所述第一房间与所述第二房间不同。

12.根据权利要求1所述的系统，其中，所述空间化音频流的所述呈现是基于用户设置。

13.根据权利要求1所述的系统，其中，所述空间化音频流的所述呈现是基于所述应用程序的设置。

14.根据权利要求1所述的系统，其中，所述第一空间化音频流与集中式设置相关联，以及所述方法进一步包括：

从第二应用程序接收第四输入；以及

经由所述可穿戴头部设备的所述一个或多个扬声器呈现与所述集中式设置相关联的第二空间化音频流。

15.一种方法，包括：

从应用程序接收第一输入；

基于所述编码音频流，经由所述第一服务生成解码音频流；

经由第二服务接收所述解码音频流；

从可穿戴头部设备的一个或多个传感器接收第二输入；

经由所述可穿戴头部设备的一个或多个扬声器呈现所述空间化音频流，其中：

所述空间化音频流与静态模式和动态模式中的一个相关联；

将所述可穿戴头部设备从第一位置移动到与所述第一位置不同的第二位置；以及

16.根据权利要求15所述的方法，其中，所述第二输入与所述可穿戴头部设备的位置相对应。

17.根据权利要求15所述的方法，其中，所述第二输入与现实环境中的物理对象的位置相对应。

18.一种存储指令的非暂态计算机可读介质，所述指令在由一个或多个处理器执行时使得所述一个或多个处理器执行一种方法，所述方法包括：

从应用程序接收第一输入；

基于所述编码音频流，经由所述第一服务生成解码音频流；

经由第二服务接收所述解码音频流；

从可穿戴头部设备的一个或多个传感器接收第二输入；

经由可穿戴头部设备的一个或多个扬声器呈现所述空间化音频流，其中：

所述空间化音频流与静态模式和动态模式中的一个相关联；

将所述可穿戴头部设备从第一位置移动到与所述第一位置的第二位置移动；以及