CN112954510A

CN112954510A - 以计算机为中介的现实系统的混阶立体混响(moa)音频数据

Info

Publication number: CN112954510A
Application number: CN202110211833.2A
Authority: CN
Inventors: 尼尔斯·京特·彼得斯; 迪帕简·森; 托马斯·斯托克哈默
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2017-06-30
Filing date: 2018-05-23
Publication date: 2021-06-11
Also published as: EP3646619B1; SG11201910908VA; CN110832883B9; US20190387348A1; EP3646619C0; US20190007781A1; WO2019005342A1; US10405126B2; CN110832883A; EP3646619A1; CN110832883B

Abstract

本申请涉及以计算机为中介的现实系统的混阶立体混响(MOA)音频数据。实例装置包含存储器装置，以及耦合到所述存储器装置的处理器。所述存储器被配置成存储声场的多个表示。所述处理器被配置成跟踪由与所述装置相关联的一或多个角度提供的导引角度，以及基于所述导引角度，从存储到所述存储器装置的所述多个表示中选择所述声场的表示。

Description

以计算机为中介的现实系统的混阶立体混响(MOA)音频数据

本申请是申请日为2018年05月23日，发明名称为“以计算机为中介的现实系统的混阶立体混响(MOA)音频数据”，申请号为201880042853.8 的专利申请的分案申请。

本申请案主张2017年6月30日申请的美国临时申请案第62/527,769 号的权益，所述申请案的全部内容在此以引用的方式并入本文中。

技术领域

本公开涉及例如音频数据等媒体数据的处理。

背景技术

高阶立体混响(HOA)信号(常常由多个球面谐波系数(SHC)或其它分层元素表示)是声场的三维表示。所述HOA或SHC表示可以与用以播放从 SHC信号呈现的多通道音频信号的局部扬声器几何布置无关的方式来表示声场。SHC信号还可有助于向后兼容性，这是因为SHC信号可呈现为众所周知的且被高度采用的多通道格式(例如，5.1音频通道格式或7.1音频通道格式)。因此，SHC表示可实现也适应向后兼容性的对声场的更好表示。

发明内容

本公开大体上涉及以计算机为中介的现实系统的用户体验的听觉方面，所述以计算机为中介的现实系统包含虚拟现实(VR)、混合现实(MR)、扩增现实(AR)、计算机视觉和图形系统。在一些特定实例中，本公开的各方面是针对伴随以计算机为中介的现实系统的以计算机为中介的感测输入数据的对应视频内容的音频内容的选择、流式传输和重放。

在一个实例中，一种装置包含被配置成存储声场的多个表示的存储器装置。在此实例中，所述装置还包含耦合到所述存储器装置的处理器。所述处理器被配置成跟踪由与所述装置相关联的一或多个角度提供的导引角度，以及基于所述导引角度，从存储到所述存储器装置的所述多个表示中选择所述声场的表示。

在另一实例中，一种方法包含通过处理器跟踪由与装置相关联的一或多个角度提供的导引角度。所述方法另外包含通过所述处理器并且基于所述导引角度，从存储到与所述处理器耦合的存储器装置的声场的多个表示中选择声场的表示。

在另一实例中，一种设备包含用于存储声场的多个表示的装置；用于跟踪由与所述设备相关联的一或多个角度提供的导引角度的装置；和用于基于所述导引角度，从所述所存储的多个表示中选择所述声场的表示的装置。

在另一实例中，使用指令编码非暂时性计算机可读存储媒体，所述指令在被执行时致使装置的处理器跟踪由与所述装置相关联的一或多个角度提供的导引角度；和基于所述导引角度，从存储到所述非暂时性计算机可读存储媒体的声场的多个表示中选择声场的表示。

在附图和以下描述中阐明本发明的一或多个实例的细节。其它特征、目标和优势将从所述描述和图式以及从权利要求书中显而易见。

附图说明

图1是说明具有各种阶数和子阶数的球面谐波基底函数的图式。

图2是说明可执行本公开中描述的技术的各个方面的系统的图式。

图3是说明声场的混阶立体混响表示的不均匀空间分辨率分布的方面的图式。

图4A是说明声场的全三阶HOA表示与相同声场的混阶立体混响表示之间的差异的图式，在所述混阶立体混响表示中，水平区与其余的区相比具有较高空间分辨率。

图4B是说明可如何根据声场的基于对象的表示在多通道音频数据的前景和背景中呈现各个音频对象的图式。

图5是说明相同声场的各个混阶立体混响表示的空间分辨率与对应 VR导引角度之间的关系的图式，内容消费者装置14可将每一MOA表示与所述对应VR导引角度相关联。

图6A和6B说明本公开的内容消费者装置可基于头戴装置的导引角度选择的相同声场的不同混阶立体混响表示。

图7A和7B是说明流式传输服务器或虚拟现实(VR)装置可响应于从流式传输客户端接收的请求而提供声场的特定混阶立体混响表示所依据的本公开的各方面的图式。

图8是说明可由图7的音频流选择器执行以便请求基于头戴装置的导引角度的特定声场表示的流式传输的算法的图式。

图9A和9B是说明用以展现全景视频数据的显示器的模型表示的图式。

图10是说明柱面全景视频数据的实例的图式。

图11是说明划分成区的实例画布的图式。

图12是说明实例画布与对应立方体图视图之间的对应关系的图式。

图13是说明本公开的一或多个以计算机为中介的现实系统可使用的头戴装置的实例的图式。

图14是说明可执行本公开中描述的技术的各个方面的系统的另一实例的图式。

图15是说明根据本公开的一或多个方面的以计算机为中介的现实装置可执行的实例过程的流程图。

具体实施方式

一般来说，本公开是针对用于在以计算机为中介的现实系统的用户体验期间选择用于重放的声场表示的技术。以计算机为中介的现实技术包含各种类型的内容产生和内容消费系统，例如虚拟现实(VR)、混合现实(MR)、扩增现实(AR)、计算机视觉和图形系统。虽然为易于论述借助于实例关于虚拟现实系统描述本公开的数个方面，但应了解，本公开的技术还适用于其它类型的以计算机为中介的现实技术，例如混合现实、扩增现实、计算机视觉和图形系统。

虚拟现实系统可利用用户的视场(FoV)信息编辑和输出为服务用户的 FoV定制的球面视频数据。球面视频数据是指例如针对虚拟现实应用或其中用户可移动其头部以看见当将焦点指向画布的单个点处时无法看见的图像画布的不同部分的其它类似情境，部分或完全环绕观看者的头部的视频数据。具体来说，可当观看者将视觉焦点指向例如部分或完全包围观看者的头部的三维画布的大画布的特定部分时应用这些技术。可使用屏幕的组合(例如，一组环绕用户的屏幕)或经由头戴式光学器件提供包围用户的头部的球面视频数据。

可提供头戴式光学器件的硬件的实例包含VR头戴装置、MR头戴装置、AR头戴装置和各种其它装置。可使用感测数据和/或测试数据确定用户的的FoV。作为感测数据的一个实例，与VR头戴装置的定位相关联的一或多个角度形成头戴装置的“导引角度”并且可指示用户的FoV。作为感测数据的另一实例，用户的注视角度(例如经由虹膜检测感测到)可指示用户的FoV。

可使用一组特性编码和准备(例如，用于存储和/或发射)球面视频数据和对应音频数据。关于球面视频数据，可使用例如画布的不同区的空间分辨率、3D画布的不同区的位速率(可使用各个量化参数达成)等特性编码和准备所述数据。举例来说，可在3D画布的处于用户的FoV中的一或多个表面处对球面视频数据进行升取样，以增强用户体验的视觉方面。

然而，现有VR系统不会为了符合用户的FoV而编码对应声场的不同表示。举例来说，多个“目前最先进的水平”VR系统在整个VR体验中呈现和重放3D声场的全HOA表示。因而，现有VR系统在整个VR体验中提供全定向3D音频。因此，虽然现有VR系统在VR用户体验的整个持续时间内提供高质量定向音频重放，但现有VR系统在VR体验的整个持续时间内可消耗较大计算资源来维持全定向3D音频馈给。此外，现有VR系统不会在任何时间为了符合用户的FoV而定制音频重放。

本公开是针对用于基于用户的FoV选择声场表示的技术。本公开的系统可存储或以其它方式存取相同声场的与当前VR体验相关联的多个表示。继而，本公开的系统可检测用户的FoV并且选择特定声场表示，所述特定声场表示提供与处于用户的FoV中的视频对象相关联的音频对象的全定向音频数据，并且提供与在用户的FoV外部的视频对象相关联的音频对象的较低定向性音频数据。

本公开的技术可以结合与在重放媒体数据所在的不同区的各个质量水平下译码的媒体数据(例如视频数据和音频数据)的传输(例如，发送和/或接收)有关的技术使用。举例来说，包含全景显示器(例如，部分或完全包围观看者的显示器)和环绕声扬声器的客户端装置可使用本公开的技术。一般来说，显示器经配置以使得用户的视觉焦点在给定时间仅指向显示器的一部分。本公开的系统可经由环绕声扬声器呈现和输出音频数据，使得与显示器上的焦点的当前区域相关联的音频对象与其余的音频对象相比以较大定向性输出。

图1是说明从零阶(n＝0)到四阶(n＝4)的球面谐波基底函数的图式。如可见，对于每一阶，存在子阶数m的扩展，出于易于说明的目的，在图 1的实例中展示所述子阶数但未明确注解。

可由各种麦克风阵列配置物理获取(例如，记录)，或替代地，可从声场的基于通道或基于对象的描述导出。SHC表示基于场景的音频，其中SHC可输入到音频编码器以获得经编码SHC，所述经编码SHC 可促进更高效的传输或存储。举例来说，可使用涉及(1+4)²个(25，且因此为四阶)系数的四阶表示。

如上文所提到，可使用麦克风阵列从麦克风记录导出SHC。可如何从麦克风阵列导出SHC的各种实例描述于Poletti,M.的“基于球面谐波的三维环绕声系统(Three-Dimensional Surround Sound Systems Based on Spherical Harmonics)”(听觉工程学协会会刊(J.Audio Eng.Soc.)，第53卷，第11期，2005年11月，第1004到1025页)中。

为说明可如何从基于对象的描述导出SHC，考虑以下等式。对应于个别音频对象的声场的系数

可表达为：

其中i是

是阶数n的(第二种)球面汉克尔函数，且

是对象的方位。已知随频率而变的对象源能量g(ω)(例如，使用时间-频率分析技术，例如对PCM流执行快速傅里叶变换)允许将每一PCM对象和对应方位转换成SHC

另外，可展示(由于以上是线性和正交分解)每一对象的

系数是可加的。以此方式，可通过

系数表示许多 PCM对象(例如，个别对象的系数向量的总和)。基本上，所述系数含有关于声场的信息(随3D坐标而变的压力)，且上文表示从个别对象到观察点

附近的总声场的表示的变换。下文在基于对象和基于SHC的音频译码的上下文中描述其余各图。

图2是说明可执行本公开中描述的技术的各个方面的系统10的图式。如图2的实例中所示，系统10包含源装置12和内容消费者装置14。虽然在源装置12和内容消费者装置14的上下文中进行描述，但所述技术可实施于其中编码声场的任何分层表示以形成表示音频数据的位流的任何上下文中。此外，源装置12可表示任何形式的能够产生声场的分层表示的计算装置，且本文在是VR内容创建者装置的上下文中进行大体描述。同样地，内容消费者装置14可表示任何形式的能够实施本公开中描述的声场表示选择技术以及音频重放的计算装置，且本文在是VR客户端装置的上下文中进行大体描述。

娱乐公司或可产生多通道音频内容以供例如内容消费者装置14的内容消费者装置的操作者消费的其它实体可操作源装置12。在多个VR情境中，源装置12产生音频内容以及视频内容。源装置12包含内容捕获装置 300和内容捕获辅助装置302。内容捕获装置300可被配置成与麦克风5介接或以其它方式通信。麦克风5可表示能够捕获声场并且将其表示为HOA 系数11的

或其它类型的3D音频麦克风。在一些实例中，内容捕获装置300可包含集成到内容捕获装置300的壳体中的集成式麦克风5。在一些实例中，内容捕获装置300可无线地或经由有线连接与麦克风5介接。在其它实例中，内容捕获装置300可处理在HOA系数11之后经由某一类型的可去除的存储装置输入的HOA系数11。内容捕获装置300和麦克风5的各个组合根据本公开是可能的。

内容捕获装置300还可以被配置成与声场表示产生器302介接或以其它方式通信。声场表示产生器302可包含能够与内容捕获装置300介接的任何类型的硬件装置。声场表示产生器302可使用内容捕获装置300提供的HOA系数11产生由HOA系数11表示的相同声场的各个表示。举例来说，为使用HOA系数11产生声场的不同表示，声场表示产生器302可使用用于声场的立体混响表示的译码方案，所述立体混响表示被称为混阶立体混响(MOA)。

为产生声场的特定MOA表示，声场表示产生器302可产生HOA系数11的全集的部分子集。举例来说，声场表示产生器302产生的每一MOA 表示可提供关于声场的一些区域的精确度，但在其它区域中的精确度较小。在一个实例中，声场的MOA表示可包含HOA系数11的八(8)个未经压缩 HOA系数，而相同声场的三阶HOA表示可包含HOA系数11的十六(16) 个未经压缩HOA系数。因而，作为HOA系数11的部分子集产生的声场的每一MOA表示与从HOA系数11产生的相同声场的对应三阶HOA表示相比可为较小存储密集型且较小带宽密集型(在作为位流21的部分经由所说明的传输通道传输的情况下)。

声场表示产生器302产生的声场的MOA表示在VR内容产生、传输和消费的上下文中可能特别适用。举例来说，例如内容消费者装置14的 VR客户端装置可提供关于对应于与用户的FoV的方向对应的视频视口的声场区域的较大精确度。举例来说，内容消费者装置14可使用VR头戴装置的导引角度确定用户的FoV，且进而确定将以较大精确度提供的声场内的方位。在本公开的各种实例中，源装置12和/或内容消费者装置14中的一个或两个可存储如由声场表示产生器302产生的声场的多个MOA表示。

在一些实例中，内容捕获装置300可被配置成与声场表示产生器302 无线通信。在一些实例中，内容捕获装置300可经由无线连接或有线连接中的一个或两个与声场表示产生器302通信。经由内容捕获装置300和声场表示产生器302之间的连接，内容捕获装置300可提供呈各种内容形式的内容，所述内容形式出于论述的目的在本文中描述为HOA系数11的部分。

在一些实例中，内容捕获装置300可利用声场表示产生器302的各个方面(依据声场表示产生器302的硬件或软件能力)。举例来说，声场表示产生器302可包含专用硬件，其被配置成(或专门化软件，其在被执行时致使一或多个处理器)执行心理声学音频编码(例如标示为由动画专家组 (MPEG)或MPEG-H 3D音频译码标准阐述的“USAC”的统一语音和音频译码器)。内容捕获装置300可不包含心理声学音频编码器专用硬件或专门化软件，且取而代之，以非心理声学音频译码形式提供内容301的音频方面。声场表示产生器302可通过至少部分地执行关于内容301的音频方面的心理声学音频编码来辅助捕获内容301。

声场表示产生器302还可通过至少部分地基于从HOA系数11产生的音频内容(例如，MOA表示和/或三阶HOA表示)产生一或多个位流21来辅助内容捕获和传输。位流21可表示HOA系数11(和/或其用以形成声场的MOA表示的部分子集)和任何其它不同类型的内容301(例如球面视频数据、图像数据或文本数据的经压缩版本)的经压缩版本。作为一个实例，声场表示产生器302可产生位流21以供跨可为有线或无线通道的传输通道、数据存储装置等进行传输。位流21可表示HOA系数11(和/或其用以形成声场的MOA表示的部分子集)的经编码版本并且可包含主要位流和另一旁侧位流，所述侧位流可以被称作旁侧通道信息。

在多个实例中，内容消费者装置14可由个体操作，并且可表示VR 客户端装置。内容消费者装置14可包含音频重放系统16，其可指能够呈现 SHC(不考虑呈三阶HOA表示和/或MOA表示的形式)以供作为多通道音频内容重放的任何形式的音频重放系统。

虽然在图2中展示为直接传输到内容消费者装置14，但源装置12可将位流21输出到定位于源装置12与内容消费者装置14之间的中间装置。所述中间装置可存储位流21以用于稍后传递到可能请求所述位流的内容消费者装置14。所述中间装置可包括文件服务器、网络服务器、台式计算机、手提式计算机、平板计算机、移动电话、智能电话，或能够存储位流21以供音频解码器稍后检索的任何其它装置。中间装置可驻存在能够将位流21 流式传输(且可能结合传输对应视频数据位流)到请求位流21的订户(例如，内容消费者装置14)的内容递送网络中。

替代地，源装置12可将位流21存储到存储媒体，例如压缩光盘、数字视频光盘、高清视频光盘或其它存储媒体，其大部分能够被计算机读取且因此可以被称作计算机可读存储媒体或非暂时性计算机可读存储媒体。在此上下文中，传输通道可指传输存储到媒体的内容所借助的通道(且可包含零售店和其它基于商店的递送机构)。在任何情况下，本公开的技术不应就此受到图2的实例的限制。

如图2的实例中进一步展示，内容消费者装置14包含音频重放系统 16。音频重放系统16可表示能够重放多通道音频数据的任何音频重放系统。音频重放系统16可包含多个不同的呈现器(renderer)22。呈现器22可各自提供不同形式的呈现，其中所述不同形式的呈现可包含执行基于向量的幅度平移(VBAP)的各种方式中的一或多种和/或执行声场合成的各种方式中的一或多种。如本文所使用，“A和/或B”意味着“A或B”或“A和B” 两者。

音频重放系统16可另外包含音频解码装置24。音频解码装置24可表示被配置成解码来自位流21的立体混响系数15(其可形成全三阶HOA表示或其子集以形成相同声场的MOA表示)。因而，立体混响系数15可类似于HOA系数11的全集或部分子集，但可归因于有损操作(例如，量化)和/ 或所述传输通道的传输而为不同的。音频重放系统16可在解码位流21之后以获得立体混响系数15并且呈现立体混响系数15以输出扩音器馈给25。扩音器馈给25可驱动一或多个扩音器(为易于说明目的在图2的实例中未示出)。可以包含N3D、SN3D、FuMa、N2D或SN2D的数种方式归一化声场的立体混响表示。

为了选择适当的呈现器或在一些情况下产生适当的呈现器，音频重放系统16可获得指示扩音器的数目和/或扩音器的空间几何布置的扩音器信息13。在一些情况下，音频重放系统16可使用参考麦克风且以使得动态地确定扩音器信息13的方式驱动扩音器来获得所述扩音器信息13。在其它情况下或结合扩音器信息13的动态确定，音频重放系统16可提示用户与音频重放系统16介接并输入扩音器信息13。

音频重放系统16接着可基于扩音器信息13选择音频呈现器22中的一个。在一些情况下，当没有音频呈现器22在对在扩音器信息13中指定的扩音器几何布置的某一阈值类似性量度(按照扬声器几何布置)内时，音频重放系统16可基于扩音器信息13产生音频呈现器22中的一个。在一些情况下，音频重放系统16可基于扩音器信息13产生音频呈现器22中的一个且无需首先尝试选择音频呈现器22中的现有音频呈现器。一或多个扬声器接着可重放呈现的扩音器馈给25。

根据本公开的一些实例，内容消费者装置14可存储相同声场的多个 MOA表示，使得每一MOA表示突出不同方位或方位集处的精确度。在本公开的其它实例中，内容消费者装置14可存取可从内容创建者装置12请求的相同声场的MOA表示的列表。在这些实例中的任一个中，内容消费者装置14可使用与之配对的VR头戴装置的导引角度选择符合用户的当前 FoV的特定MOA表示。基于可从VR头戴装置获得的最新导引角度信息，内容消费者装置14可选择或请求符合用户的当前观看取向的特定MOA表示。即，内容消费者装置14可选择或请求特定MOA表示，其根据对应球面视频数据提供关于具有在用户的FoV内的方位的音频对象的精确度。导引角度参数的实例包含关于VR头戴装置的取向的一或多个角度，例如VR 头戴装置的定位和取向的俯仰、偏航或横摇角中的一或多个。

图3是说明声场的MOA表示的不均匀空间分辨率分布的方面的图式。虽然全球面HOA在所有方向上具有均匀的高空间分辨率，但相同声场的 MOA表示具有可变空间分辨率。在许多情况下，如在图3的实例中，声场的MOA表示在仅水平区中包含高分辨率空间音频数据，且在声场的其余的区中包含较低分辨率空间音频数据。在图3中说明的实例中，声场的MOA 表示包含水平区(由白色条带指示)的三阶表示，和所有其它区(由暗阴影部分所示)的一阶表示。即，根据图3的MOA表示，一旦声源离开声场的中纬线，关于出自声源的音频对象的高质量重构的锐度和面积便快速降低。

图4A是说明声场的全三阶HOA表示与相同声场的MOA表示之间的差异的图式，在所述MOA表示中，水平区与其余的区相比具有较高空间分辨率。如图4中所示出，全三阶HOA表示包含表示声场的十六(16)个未经压缩HOA系数。通过关于全三阶HOA表示的整个3轴曲线图为白色(或看起来是空白的)来展示全HOA表示的均匀空间分辨率。

相比之下，MOA表示包含关于相同声场的八(8)个未经压缩HOA系数(或系数通道)。此外，与全三阶HOA表示展现的均匀空间分辨率相反， MOA表示展示不均匀空间分辨率，其中沿着3D声场的中纬线发生高空间分辨率，而以较低空间分辨率表示声场的其余的区。图4A中说明的MOA 表示描述为“3H1P”MOA表示，其指示MOA表示包含水平区的三阶表示和声场的其余的区的一阶表示。

图4B是说明可如何根据声场的基于对象的表示在多通道音频数据的前景和背景中呈现各个音频对象126A-126K的图式。图4B的图式指定展示根据自上而下视角或鸟瞰视野通常被称作“甜点(sweet spot)”的视图120。所述甜点指代当扩音器恰当地配置成用于5.1或更高阶环绕声重放时房间中环绕声体验最为理想的方位。图4B说明声场的各个前景对象和背景对象。一般来说，前景对象比背景对象更突出。本公开的技术利用MOA表示强调更突出的前景对象，同时减少用于较不突出背景对象的译码和带宽。

在图4B的实例中，将视图120分段成两个部分，标示为前景部分 122A和背景部分122B。在圆圈内，收听者124位于甜点的中间并在分离前景部分122A与背景部分122B的水平通路上。在多通道音频数据40重放期间，收听者124可在视图120中所呈现的声场中听到音频对象126A-126K。即，音频对象126A-126D从收听者124的视角看起来是来源于更遥远的前景。对象关联单元26可能已以上文关于图2所描述的方式处理了音频对象 126A-126D，结果由于没有任何音频元数据，被辅助的音频呈现单元28A 将这些音频对象作为更为分散的音频对象呈现于远前景中。

音频对象126E-126G从收听者124的视角可看起来如同更聚焦的对象一样来源于更近前景中。对象关联单元26可能已以上文关于图2所描述的方式处理了音频对象126E-126G，结果由于对象关联单元26的提供具有高音频和视频元数据相关性的扩增元数据的能力，被辅助的音频呈现单元 28A将这些音频对象呈现于更聚焦的前景中。

音频对象126A-126G中的一或多个可为以上文关于以计算机为中介的现实系统所描述的方式(例如关于声场表示产生器302或音频重放系统16 描述的功能性)从参考库检索的参考音频对象。在此意义上，对象关联单元 26可识别视频对象32中的那些不匹配音频对象34中的任一个的视频对象，从而将视频对象32中的这些视频对象作为视频对象32’传送到扩增现实音频呈现单元28C。扩增现实音频呈现单元28C随后可检索对应或匹配视频对象32’中的一个的参考音频对象34”’中的一个并基于包含在视频对象32’ 中的关联视频对象内的视频元数据呈现参考音频对象34”’中的此参考音频对象。

音频对象126H-126K从收听者124的视角可看起来来源于背景中。对象关联单元26可能已以上文关于图2所描述的方式处理了音频对象 126H-126K，结果由于对象关联单元26不能使这些音频对象34”与视频对象32中的任一个相关联，无辅助音频呈现单元28B将这些音频对象呈现于背景中。即，因为听觉场景分析在定位声音的起源方面通常不如视觉场景分析精确，所以无辅助音频呈现单元28B可能不能够精确定位音频对象34” 的来源。无辅助音频呈现单元28B可最多基于对应音频元数据54而仅呈现音频对象34”，这可导致音频呈现单元28B将所述音频对象34”作为更扩散对象呈现在背景中。

与在包含音频对象126A-126K的所说明圆形平面(或可包含音频对象 126A-126K的水平面)“上方”收听有关的潜在问题还可在呈现声场的基于对象的表示的情况下出现因而，本公开的系统还可在以计算机为中介的现实系统也使用声场的基于对象的表示的情况下改进以计算机为中介的现实系统的用户体验。举例来说，音频重放系统16可使用与内容消费者装置14 配对的VR头戴装置的导引角度，使用声场的视图120中所说明的各个旋转和取向，以便选择当前导引角度的适当视图。音频对象架构的方面在 https://en.wikipedia.org/wiki/Digital_audio处可得。

图5是说明相同声场的各个MOA表示的空间分辨率与对应VR导引角度之间的关系的图式，内容消费者装置14可将每一MOA表示与所述对应VR导引角度相关联。如所示出，内容消费者装置14可使直视的导引角度与在水平区中具有较大空间精确度的MOA表示相关联。还如图5中说明，内容消费者装置14有效地将高分辨率区从竖直区(用于向下注视)逐步移动到水平区(用于直视)再逐步移动到竖直区(用于向上注视)。

图6A和6B说明内容消费者装置14可基于头戴装置的导引角度选择的相同声场的不同MOA表示。头戴装置可表示VR头戴装置、AR头戴装置、MR头戴装置或用于以计算机为中介的现实系统的其它类型的头戴装置中的任一或多个。图6A说明在VR头戴装置的导引角度从向下注视转变为直视时，内容消费者装置14可选择或请求的单个声场的各个MOA表示。图6B说明在VR头戴装置的导引角度从直视转变为向上注视时，内容消费者装置14可选择或请求的相同声场的各个MOA表示。

如图6A和6B中所示，内容消费者装置14可通过有效地将高分辨率区从竖直区(用于向下注视)逐步移动到水平区(用于直视)再逐步移动到竖直区(用于向上注视)来迎合导引角度的转变。如上文所论述，图6A和6B的所有MOA表示可从全HOA声场表示(例如，通过图2的声场表示产生器302)产生。再次，MOA表示具有匹配或大致映射到可能的观看方向(FoV) 的高分辨率区域和低分辨率区域的不同分布。

图7A和7B是说明流式传输服务器或虚拟现实(VR)装置或其它以计算机为中介的现实系统可提供呈音频流形式的声场的各个表示所依据的本公开的各方面的图式。在各种实例中，流式传输服务器可响应于从流式传输客户端接收的请求，在音频流中提供声场的特定混阶立体混响表示。图 7A是说明流式传输服务器可响应于从流式传输客户端接收的请求而提供声场的特定表示(例如，MOA表示和/或全HOA表示)所依据的本公开的各方面的图式。图7A的流式传输服务器是图2的源装置12的实例，而图7A 的流式传输客户端是图2的内容消费者装置14的实例。基于用户的头部旋转，流式传输客户端的音频流选择器可选择可从流式传输服务器获得的特定MOA流。

流式传输服务器还可响应于来自流式传输客户端的这类请求而提供各种类型的流或流组合。举例来说，可作为由流式传输客户端请求的选项，流式传输服务器还可提供全阶HOA流式传输。在其它实例中，流式传输服务器可提供以下中的一或多个：声场的基于对象的表示、声场的高阶立体混响表示、声场的混阶立体混响表示、声场的基于对象的表示与声场的高阶立体混响表示的组合、声场的基于对象的表示与声场的混阶立体混响表示的组合，或声场的混阶表示与声场的高阶立体混响表示的组合。

图7A还说明双声道化过程，其可经局部处理以提供或在一些情况下确保VR头戴装置处的低运动到声音时延。在各种实例中，流式传输服务器可提供音频流作为提供VR体验、AR体验、MR体验、扩展现实(XR)体验的媒体流的部分。在一些此类实例中，流式传输服务器可提供与对应流相关联的音频流。在一些实例中，流式传输客户端可使用网络接口传送来往于流式传输服务器的交换消息，其中所述交换消息与可从流式传输服务器获得的声场的表示相关联。网络接口可耦合到流式传输客户端的一或多个处理器和/或耦合到流式传输客户端的一或多个存储器装置。在一些实例中，流式传输客户端可使用耦合到网络接口的天线接收无线信号，所述无线信号包含与可从流式传输服务器获得的声场的表示相关联的数据包、音频包、视频包或传输协议数据。在一些实例中，流式传输服务器可另外包含或耦合到捕获声场的一或多个部分的一或多个麦克风阵列(例如，通过

技术提供)。

图7B说明VR装置可例如借助于与VR头戴装置的直接配对局部存储表情进而提供声场的特定音频表示(例如，MOA表示和/或全HOA表示) 所依据的本公开的各方面。图7B的VR装置是图2的内容消费者装置14 的实例。基于用户的头部旋转，VR装置的音频流选择器可选择局部可得的特定音频表示(例如特定MOA表示或全HOA表示)。在一个实例中，VR装置可使用局部可得的音频表示的清单确定局部可得的表示中的一或多个的可行性，并且接着使用提供于所述清单中的信息选择适当的声场表示。

VR装置可包含一或多个存储器装置，例如随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、压缩光盘只读存储器(CD-ROM)或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、闪存存储器，或可用以存储可被计算装置存取、检索和处理的数据、指令或数据结构的任何其它媒体。VR装置还可包含处理器(或多个处理器)，例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)，或其它等效的集成式或离散逻辑电路。VR装置的处理器例如经由逻辑和/或物理通道耦合到存储器装置。

因而，图7B的VR装置的处理器可使用与头部旋转信息相关联的一或多个角度，跟踪导引角度。继而，图7B的VR装置可使用导引角度从存储到VR装置的存储器装置的VR音频声场的多个表示中选择相同声场的特定表示。VR装置的处理器还可经由一或多个扩音器(例如头戴装置200的扬声器)使用所选择的表示再现声场。在一些实例中，VR装置的处理器可使用一或多个传感器和/或相机(例如，头戴装置200的传感器和/或相机)捕获指示佩戴头戴装置200的用户的注视角度的图像。举例来说，VR装置的处理器可使用注视角度确定导引角度。VR装置的处理器还可基于导引角度表示观察角度处的图像序列。举例来说，VR装置的处理器可在符合头戴装置200的当前导引角度的特定观看角度处，经由头戴装置200的显示器硬件输出图像序列的部分。

VR装置的存储器装置还可响应于由VR装置的处理器执行的音频流选择器做出的这类选择，局部存储各种类型的表示或其组合。举例来说，如上文所论述，可作为音频流选择器所选的选项，VR装置的处理器还可提供全阶HOA流式传输。在其它实例中，VR装置的处理器可经由头戴装置 200的扬声器硬件，输出以下中的一或多个：声场的基于对象的表示、声场的高阶立体混响表示、声场的混阶立体混响表示、声场的基于对象的表示与声场的高阶立体混响表示的组合、声场的基于对象的表示与声场的混阶立体混响表示的组合，或声场的混阶表示与声场的高阶立体混响表示的组合。在一些实例中，存储到VR装置的存储器装置的声场表示中的一或多个可包含至少一个高分辨率区和至少一个较低分辨率区，且其中基于导引角度的所选择的展现提供关于至少一个高分辨率区的较大空间精确度和关于较低分辨率区的较小空间精确度。图7B还说明双声道化过程，其可经局部处理以提供或在一些情况下确保VR头戴装置处的低运动到声音时延。

图8是说明可由图7的音频流选择器执行以便请求基于头戴装置的导引角度的特定声场表示的流式传输的算法的图式。头戴装置可表示VR 头戴装置、AR头戴装置、MR头戴装置或用于以计算机为中介的现实系统的其它类型的头戴装置中的任一或多个。如所说明，流式传输客户端(例如， VR客户端装置)可存取提供可从流式传输服务器(例如，VR服务器)获得的流的分辨率信息的清单。可得的流可包含各个表示，例如具有集中于不同区中的精确度的MOA表示，并且可任选地包含声场的全三阶HOA表示和 /或基于对象的表示。继而，音频流选择器可选择可得流，例如声场的特定 MOA表示(或全HOA表示或基于对象的表示)，以适应VR头戴装置的最后检测到的导引角度。继而，流式传输客户端可从流式传输服务器请求所选择的流。举例来说，流式传输客户端可使用可从清单获得的识别信息识别请求的流。虽然

图9A和9B是说明用以展现全景视频数据的显示器的模型表示的图式。图9A说明立方体图投影100的实例，而图9B说明等矩形投影110。

在图9A中，立方体104的6个面102A-102F(面102)中的每一个划分成四个拼片(tile)(总计24个拼片)。可见面(即，面102A、102B和102C) 的拼片标记为拼片106A-106L。具体来说，面102C划分成拼片106A-106D，面102B划分成拼片106E-106H，且面102A划分成拼片106I-106L。出于可读性的目的在图9A中未标记隐藏面(即，面102D、102E和102F)的拼片，但应理解，面102D-102F也划分成拼片。“拼片”也可被称作区。图9A中的立方体面102中的每一个对应于90度乘90度视场(FoV)。球体的任一个任意90×90度拼片可需要以高分辨率解码全景的1/3。FoV很少跨越大于八个拼片。因此，高分辨率解码的跨度可以被限制为八个或更少的拼片，以便不会损失视觉质量。

图9B说明画布118，其划分成八个拼片116A-116H。在此实例中，当用户查看球体的“极点”(例如，北极点112，其中当查看北极点112，用户的视场由灰色阴影区域114表示时)时，画布118的整个上半部(即，拼片 116A-116D)将需要以高分辨率解码。将拼片116A-116D分解成更多竖直拼片不会有助于解决问题。因此，在这个实例中，将需要以高分辨率对全景的一半进行解码。这是比图9A的实例中明显更高分辨率的数据。因此，本公开的技术可以使用立方体图投影模型100来进行显示。

参考上文关于图1论述的其中以包含6k、4k、HD(1080p)和720p的分辨率对视频数据进行译码的实例，在图9A中，可以6k分辨率对正面四个拼片106A-106D(也称为“区”)进行解码，可以4k分辨率对相邻八个拼片(例如，拼片106E、106G、106K和106L以及面102D和102F的与拼片 106A、106C和106D相邻的未标记拼片)进行解码，可以HD(1080p)分辨率对与这八个拼片相邻的八个拼片(即，拼片106F、106H、106I、106J以及与拼片106A、106C和106D相邻的拼片所邻接的其它未标记拼片)进行解码，并且可以720p分辨率对背面的四个拼片进行解码。在此实例中，此类视频数据的总带宽要求是每帧6.5MP。在分辨率上以递减顺序存在8-4-4-8拼片分布的更糟糕的情况下，每帧将有8.17MP。应了解，上文所描述的视频分辨率/速率是非限制性实例，且其它视频分辨率/速率也与本公开的各个方面兼容。还应了解，视频分辨率/速率必然会随着技术和标准演变而改变。

图10是说明柱面全景视频数据120的实例的图式。柱面全景视频数据120分割成拼片122-130。对于某些用途，位速率减少与解码器复杂性减少相比，如果没有更重要那可能就是同等重要的。举例来说，一些报告表明美国的平均互联网连接速度为5mbps，而常规高质量全景视频数据需要 30mbps。从全景图中分割出多个小的拼片可能会降低压缩效率。也就是说，时间预测效率可能会有一些损失。

在图10的实例中，服务器(例如，图1的源装置12或图2的源装置 50)可存储12×90度的拼片122-130(等效于全景的三个副本)。此实例可以用于避开小的拼片，这意味着压缩效率不会受损。此外，还可以存储12× 30度的拼片。任意90度视图将需要最多四个30度的拼片，其中一个30度拼片和一个90度拼片可以用于构成任意90度视图。

可以使用本公开的技术来实现球面全景视频数据120的位速率优化。折衷存储空间以节省位速率的想法可以推广到其它情况。举例来说，不必在所有视角处具有相同的拼片粒度。与柱面全景情况不同，用相同的拼片粒度覆盖所有视点对于球面全景图来说并不简单。

一般来说，图2的源装置12可以多个拼片粒度保存球面全景视频数据120的副本。比拼片122-130更大的拼片(未示出)可以在它们之间的一些地方具有重叠的视场以便更好地覆盖。举例来说，源装置12可编码较大拼片大小处最受关注的视点(如由例如准备内容的管理员的用户确定)。以此方式，源装置12可以发送多个大小的拼片的组合，例如针对用户的视觉焦点所指向的区的大拼片(例如，拼片122-130中的一个的拼片大小的四倍)，以及针对其它其余的区的较小拼片(对于图9A的实例，总计21个拼片)。

立方体投影中的实例拼片译码可如下：立方体面可为形成水平环的A、 B、C和D，顶部的E，以及底部的F。最小拼片可为A1、A2、A3、A4、 B1、B2、……、F1、F2、F3和F4(总计24个拼片)。较大拼片可为A、B、 C、D、E和F(其中拼片A覆盖拼片A1、A2、A3和A4跨越的区域，B覆盖拼片B1、B2、B3和B4跨越的区域，且类推到拼片C-F中的每一个)。在一些实例中，仅那些更可能被观看到的视点在较大拼片大小处被译码。因此，如果用户不大可能向上看或向下看，那么仅A、B、C和D可经译码为大拼片。任选地，这些拼片中的每一个可具有立体声视频数据的左右视图。

源装置12可以针对立体声视频情况准备视频数据以改进目的地装置 14从低分辨率流切换到高分辨率流时的时延。本公开的技术可以避免将额外运动引入光子(m2p)时延。一般来说，在从例如低分辨率到高分辨率(当用户移动其头部时)的转变期间的时延可能较大。最大时延等于从抬头显示器 (HUD)到服务器并返回的时延(例如，目的地装置14与服务器装置12之间的往返时延)加上GOP结构的长度或直到下一个I帧被解码的时间。然而，在HUD处可获得不同分辨率的内容(本地存储在文件中或流式传输)的情境导致网络延迟部分在以上最大时延的计算中为0。

虽然关于图1的源装置12进行大体论述，但应理解，图2的源装置 50可执行关于图10所论述的大体上类似技术。

图11是说明划分成区142A-142F(区142)的实例画布140的图式。出于论述的目的，将矩形的画布140划分成矩形区142，但是应理解，此论述可适用于类似于图9A所示的立方体图投影100的立方体图投影。

根据本公开的技术，可提供区142中的每一个的各个视频数据集。在图11的实例中，提供区142A的视频数据144A，提供区142B的视频数据144B，提供区142C的视频数据144C，提供区142D的视频数据144D，提供区142E的视频数据144E，并且提供区142F的视频数据144F。视频数据144A-144F中的每一个可包含以例如空间分辨率的多个质量水平编码的视频数据。举例来说，视频数据144A-144F中的每一个可包含以成比例的 6K分辨率(即，具有6K分辨率的像素密度)、4K分辨率、1080P分辨率和 720P分辨率编码的视频数据。

在一些实例中，可提供覆盖多个区域142的视频数据。在图11的实例中，提供覆盖区142A、142B、142D和142E的视频数据146。因此，如果用户的焦点指向包含区142A、142B、142D和142E的视场，那么目的地装置14可简单地检索视频数据146，而非从视频数据144A、144B、144D、 144E检索各个视频数据集。在一些实例(例如图11中示出的实例)中，仅提供覆盖多个区的单个质量(例如，空间分辨率)，不过在其它实例中，可提供针对多个区的多个质量。

图12是说明实例画布180与对应立方体图视图182A、182B之间的对应关系的图式。具体来说，画布180包含以不同方式加阴影的多个拼片，其中不同阴影表示请求的不同质量水平(例如，空间分辨率)。立方体图视图 182A、182B表示其中将显示画布180的拼片中的每一个。立方体图视图 182A示出立方体图的前视图的前透视图，而立方体图视图182B示出立方体图的后部拼片的剖视前透视图。白色拼片表示最高质量水平(例如，最高空间分辨率)，用对角线加阴影的拼片表示第二高的质量水平，用交叉影线加阴影的拼片表示第三高的质量水平，且纯黑色阴影拼片表示最低质量水平。所述质量水平也可被称作“层”。

在一个实例中，为实现较低质量水平，对空间分辨率进行降取样。举例来说，层1可为全空间分辨率，层2可在空间上沿水平和竖直方向减小二分之一(总计四分之一空间分辨率)，层3可在空间上沿水平和竖直方向减小三分之一(总计九分之一空间分辨率)，且层4可在空间上沿水平和竖直方向减小四分之一(总计十六分之一空间分辨率)。

图13是说明本公开的一或多个以计算机为中介的现实系统可使用的头戴装置200的实例的图式。在各种实例中，头戴装置200可表示VR头戴装置、AR头戴装置、MR头戴装置或扩展现实(XR)头戴装置。如所示出，头戴装置200包含后置相机、一或多个定向扬声器、一或多个跟踪和/或记录相机和一或多个发光二极管(LED)灯。在一些实例中，LED灯可以被称作 “超亮”LED灯。另外，头戴装置200包含一或多个眼睛跟踪相机、高敏感性音频麦克风，以及光学/投影硬件。头戴装置200的光学/投影硬件可包含耐久的半透明显示器技术和硬件。

头戴装置200还包含连接性硬件，其可表示支持例如4G通信、5G 通信等多模连接性的一或多个网络接口。头戴装置200还包含环境光传感器，以及骨导换能器。在一些情况下，头戴装置200还可包含具有鱼眼镜头和/或摄远镜头的一或多个无源和/或有源相机。根据本公开的各种技术，本公开的各个装置，例如图2的内容消费者装置14可使用头戴装置200的导引角度选择声场的音频表示经由头戴装置200的定向扬声器输出。应了解，头戴装置200可展现多种不同的外观尺寸。

图14是说明可执行本公开中描述的技术的各个方面的系统的另一实例的图式。图14说明其中源装置12另外包含相机200的实例。相机200 可被配置成捕获视频数据，并且将所捕获的原始视频数据提供到内容捕获装置300。内容捕获装置300可将视频数据提供到源装置12的另一组件(图 14中未示出)，以用于进一步处理成视口划分的部分，例如图9B中说明的拼片116。

在图14的实例中，内容消费者装置14还包含头戴装置200。应理解，在各种实施方案中，头戴装置200可包含在内容消费者装置14中，或在外部耦合到内容消费者装置14。如上文关于图13所论述，头戴装置200包含显示器硬件和扬声器硬件以用于输出视频数据(例如，与各个视点相关联) 并且用于呈现音频数据。

图15是说明根据本公开的方面的VR装置可执行的实例过程220的流程图。在各种实例中，图7A的流式传输客户端或图7B的VR装置可执行过程220，而不管其是作为独立过程还是作为更大过程的部分。过程220 可当VR装置跟踪由装置的一或多个角度提供的导引角度(222)时开始。举例来说，VR装置可跟踪图13中说明的头戴装置200的导引角度。继而，VR装置可基于跟踪的导引角度从(相同声场的)多个可得表示中选择声场表示(224)。举例来说，VR装置可选择如图7B中所示局部存储的立体混响(例如，MOA或HOA)表示中的一个。

应认识到，依据实例，本文中所描述的技术中的任一个的某些动作或事件可以按不同顺序执行，可以添加、合并或完全省略(例如，所描述的动作或事件并非全部都是实践所述技术所必需的)。此外，在某些实例中，动作或事件可例如通过多线程处理、中断处理或多个处理器同时执行，而不是依序执行。

在一些实例中，头戴装置200可使用相机硬件捕获包含与佩戴头戴装置200的用户相关联的注视角度的图像。在一些实例中，VR装置可使用一或多个处理器确定与用户相关联的注视角度，并且可基于注视角度跟踪导引角度。在一些实例中，头戴装置200的显示器可表示基于导引角度的观看角度处的图像序列。

在一些实例中，VR装置(或流式传输装置)可使用耦合到VR/流式传输装置的存储器的网络接口将交换消息传送到外部装置(例如，图7A的流式传输服务器)，其中所述交换消息与声场的多个可得表示相关联。在一些实例中，VR装置可使用耦合到网络接口的天线接收无线信号，所述无线信号包含与声场的多个可得表示相关联的数据包、音频包、视频包或传输协议数据。在一些实例中，一或多个麦克风阵列可捕获声场。

在一些实例中，存储到存储器装置的声场的多个可得表示可包含以下多个：声场的基于对象的表示、声场的高阶立体混响表示、声场的混阶立体混响表示、声场的基于对象的表示与声场的高阶立体混响表示的组合、声场的基于对象的表示与声场的混阶立体混响表示的组合，或声场的混阶表示与声场的高阶立体混响表示的组合。

在一些实例中，声场的多个可得表示中的声场表示中的一或多个可包含至少一个高分辨率区和至少一个较低分辨率区，且其中基于导引角度的所选择的展现提供关于至少一个高分辨率区的较大空间精确度和关于较低分辨率区的较小空间精确度。

在一或多个实例中，所描述的功能可用硬件、软件、固件或其任何组合来实施。如果在软件中实施，那么所述功能可作为一或多个指令或代码在计算机可读媒体上存储或传输，并且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体，其对应于例如数据存储媒体或通信媒体的有形媒体，通信媒体包含例如根据通信协议有助于将计算机程序从一处传送到另一处的任何媒体。以此方式，计算机可读媒体通常可对应于(1)非暂时性的有形计算机可读存储媒体，或(2)通信媒体，例如信号或载波。数据存储媒体可以是可由一或多个计算机或一或多个处理器存取以检索用于实施本公开中描述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可以包含计算机可读媒体。

通过举例而非限制的方式，这种计算机可读存储媒体可以包括RAM、 ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、闪存存储器，或可以用于以指令或数据结构的形式存储期望的程序代码并且可以被计算机存取的任何其它媒体。并且，恰当地将任何连接称作计算机可读媒体。举例来说，如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源传输指令，那么所述同轴电缆、光纤电缆、双绞线、 DSL或例如红外线、无线电和微波等无线技术包含在媒体的定义中。然而，应理解，所述计算机可读存储媒体和数据存储媒体并不包含连接、载波、信号或其它暂时性媒体，而是实际上针对于非暂时性有形存储媒体。如本文中所使用，磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘，其中磁盘通常以磁性方式再现数据，而光盘用激光以光学方式再现数据。以上各个的组合也应包含在计算机可读媒体的范围内。

指令可由一或多个处理器执行，例如一或多个数字信号处理器 (DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或其它等效的集成或离散逻辑电路。因此，如本文中所使用的术语“处理器”可指代上述结构或适合于实施本文中所描述的技术的任何其它结构中的任一个。此外，在一些方面中，本文中所描述的功能性可在经配置以用于编码和解码或并入在组合编解码器中的专用硬件和/或软件模块内提供。并且，所述技术可完全实施于一或多个电路或逻辑元件中。

本公开的技术可实施于多种装置或设备中，包含无线手持机、集成电路(IC)或一组IC(例如，芯片组)。本公开中描述各种组件、模块或单元是为了强调经配置以执行所公开的技术的装置的功能方面，但未必需要通过不同硬件单元实现。确切地，如上文所描述，各种单元可结合合适的软件和/或固件组合在编解码器硬件单元中，或由互操作硬件单元的集合来提供，所述硬件单元包含如上文所描述的一或多个处理器。

已描述了各种实例。这些和其它实例在所附权利要求书的范围内。

Claims

1.一种装置，包括：

存储器，其被配置成存储声场的多个表示，所述声场的每个表示包括表示同一声场在同一时间段的不同立体混响系数集；以及

处理器，其耦合到所述存储器，所述处理器被配置成：基于视场并且基于来自所述多个表示的所述声场的特定表示，执行音频重放。

2.根据权利要求1所述的装置，其中，所述视场是基于注视角度的。

3.根据权利要求2所述的装置，还包括相机，所述相机被配置为捕获包括所述注视角度的图像。

4.根据权利要求3所述的装置，其中，所述处理器耦接到所述相机，并且其中，所述处理器被配置为确定所述注视角度并基于所述注视角度来跟踪导引角度。

5.根据权利要求1所述的装置，其中，所述视场是基于导引角度的。

6.根据权利要求5所述的装置，其中，所述处理器被配置为：

跟踪由与注视角度相关联的一个或多个角度所提供的所述导引角度；以及

基于所述导引角度，来从所述多个表示中选择所述声场的所述特定表示。

7.根据权利要求5所述的装置，还包括显示器，所述显示器被配置为表示基于所述导引角度的观看角度处的图像序列。

8.根据权利要求5所述的装置，其中，存储到所述存储器的所述声场的所述多个表示中的一个或多个表示包括至少一个高分辨率区和至少一个较低分辨率区，并且其中，基于所述导引角度而选择的所述特定表示提供了关于所述至少一个高分辨率区的较大空间精确度和关于所述较低分辨率区的较小空间精确度。

9.根据权利要求5所述的装置，其中，所述装置被配置为：随着所述装置从向下注视转变为直视，选择所述装置的所述导引角度，其中，与所述向下注视相关联的竖直区相比，所述直视是与在水平区中具有更大空间精确度的立体混响表示相关联的。

10.根据权利要求5所述的装置，其中，所述装置被配置为：随着所述装置从直视转变为向上注视，所述装置被配置为选择所述装置的所述导引角度，其中，与所述直视相关联的水平区相比，所述向上注视是与在竖直区中具有更大空间精确度的立体混响表示相关联的。

11.根据权利要求1所述的装置，还包括耦合到所述处理器的一个或多个扩音器，所述一个或多个扩音器被配置成基于从所述多个表示所选择的所述声场的所述特定表示来再现所述声场。

12.根据权利要求1所述的装置，还包括耦合到所述存储器的网络接口，所述网络接口被配置成将交换消息传送到与所述声场的所述多个表示相关联的外部装置。

13.根据权利要求12所述的装置，还包括耦合到所述网络接口的天线，所述天线被配置成接收包含与所述声场的所述多个表示相关联的数据包、音频包、视频包或传输协议数据的无线信号。

14.根据权利要求1所述的装置，其中，存储到所述存储器装置的所述声场的所述多个表示包括以下中的一个或多个：所述声场的高阶立体混响表示、所述声场的混阶立体混响表示、以及所述声场的混阶表示与所述声场的高阶立体混响表示的组合。

15.根据权利要求1所述的装置，其中，所述装置包括虚拟现实头戴装置、混合现实头戴装置或扩增现实头戴装置中的一个。

16.根据权利要求1所述的装置，还包括：被配置成捕获所述声场的一个或多个麦克风阵列。

17.根据权利要求1所述的装置，

其中，所述不同立体混响系数集在不同空间位置均具有不同的精确度，并且

其中，所述处理器被配置为从所述多个表示中选择所述声场的所述特定表示，其中，所述不同立体混响系数集中的相应一个在与所述视场最密切一致的所述空间位置具有最高精确度。

18.一种方法，包括：

存储到存储器的声场的多个表示，其中，所述声场的每个表示包括表示同一声场在同一时间段的不同立体混响系数集；以及

执行基于视场并且基于来自所述多个表示的所述声场的特定表示而定制的音频重放。

19.根据权利要求18所述的方法，其中，所述视场是基于注视角度的。

20.根据权利要求19所述的方法，其中，所述视场是基于导引角度的。

21.根据权利要求20所述的方法，还包括：

由与所述存储器进行通信的处理器来跟踪由与注视角度相关联的一个或多个角度所提供的所述导引角度；以及

由所述处理器并且基于所述导引角度，来从所述多个表示中选择所述声场的所述特定表示。

22.根据权利要求20所述的方法，还包括：在基于所述导引角度的观看角度处显示图像序列。

23.一种利用指令进行编码的非暂时性计算机可读存储介质，当所述指令被装置的处理器执行时用于：

将声场的多个表示存储到所述非暂时性计算机可读存储介质，其中，所述声场的每个表示包括表示同一声场在同一时间段的不同立体混响系数集；以及

基于视场并且基于来自所述多个表示的所述声场的特定表示，来执行音频重放。

24.根据权利要求23所述的利用指令进行编码的非暂时性计算机可读存储介质，当所述指令被所述装置的所述处理器执行时用于确定导引角度，其中，所述导引角度是所述视场。