CN113196804B

CN113196804B - 用于高效的编码和/或取回的声场建模

Info

Publication number: CN113196804B
Application number: CN201980080005.0A
Authority: CN
Inventors: S·G·斯瓦米纳坦; S·M·A·萨尔辛; D·森; M·艾里克松
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2018-12-13
Filing date: 2019-12-12
Publication date: 2022-03-01
Anticipated expiration: 2039-12-12
Also published as: EP3895452A1; US10728689B2; CN113196804A; WO2020123856A1; US20200196086A1

Abstract

提出了用于表征声场的部分的方法、系统、计算机可读介质和装置。一些配置包括：估计与场景空间相关联的声场的总能量；以及针对场景空间的多个区域中的至少一些区域中的每个区域，估计声场的与该区域相对应的一部分的能量，并且创建对应的元数据字段，该元数据字段指示该区域在空间内的位置以及所估计的总能量和所估计的与该区域相对应的能量之间的关系。

Description

用于高效的编码和/或取回的声场建模

依据35U.S.C.§119要求优先权

本专利申请要求享受于2018年12月13日递交的、名称为“SOUNDFIELD MODELINGFOR EFFICIENT ENCODING AND/OR RETRIEVAL”的非临时申请No.16/219,714的优先权，该非临时申请被转让给本专利申请的受让人并且据此通过引用被明确地并入本文中。

技术领域

本公开内容的各方面涉及音频信号处理。

背景技术

用于虚拟现实(VR)的硬件可以包括用于向用户呈现视觉场景的一个或多个屏幕、用于提供对应的音频环境的一个或多个声音发射换能器(例如，扬声器阵列或头戴式换能器阵列)、以及用于确定用户的位置、方位和/或运动的一个或多个传感器。图1示出了VR耳机的示例。为了支持沉浸式体验，这样的耳机可以在三个自由度(3DOF)中检测用户的头部的方位(头部绕上下轴的旋转(偏航)、头部在前后平面中的倾斜(俯仰)、以及头部在侧对侧平面中的倾斜(滚动))并且相应地调整所提供的音频环境。

发明内容

一种根据通用配置来表征声场的部分的方法包括：估计与场景空间相关联的声场的总能量；以及针对所述场景空间的多个区域中的至少一些区域中的每个区域，估计所述声场的与该区域相对应的一部分的能量，并且创建对应的元数据字段，所述元数据字段指示该区域在空间内的位置以及所估计的总能量和所估计的与该区域相对应的能量之间的关系。在所述方法中，另外的元数据字段指示所述场景空间到所述多个区域的定义的分割。还公开了包括代码的计算机可读存储介质，所述代码在由至少一个处理器执行时使得所述至少一个处理器执行这样的方法。

一种根据通用配置的装置包括计算器，所述计算器被配置为：估计与场景空间相关联的声场的总能量。所述计算器还被配置为：针对所述场景空间的多个区域中的至少一些区域中的每个区域，估计所述声场的与该区域相对应的一部分的能量。所述装置还包括元数据创建器，所述元数据创建器被配置为：针对所述场景空间的多个区域中的所述至少一些区域中的每个区域，创建对应的元数据字段，所述元数据字段指示该区域在空间内的位置以及所估计的总能量和所估计的与该区域相对应的能量之间的关系。在该装置中，另外的元数据字段指示所述场景空间到所述多个区域的定义的分割。还公开了一种装置，包括：存储器，其被配置为存储计算机可执行指令；以及处理器，其耦合到所述存储器并且被配置为执行所述计算机可执行指令以执行这样的估计和创建操作。

一种根据通用配置来选择区域声场的方法包括：接收用户在与声场相关联的场景空间内的位置；针对所述场景空间的多个区域中的每个区域，接收指示该区域在所述场景空间内的位置的信息；针对所述场景空间的所述多个区域中的每个区域，接收估计的所述声场的总能量和估计与该区域相对应的区域声场的能量之间的关系的值，其中，所述区域声场是所述声场的一部分；以及针对所述场景空间的所述多个区域中的每个区域，决定是否获得对所述对应的区域声场的描述，其中，所述决定是基于所接收的与该区域相对应的值以及基于所接收的所述用户的位置和所指示的所述区域的位置之间的关系的。还公开了包括代码的计算机可读存储介质，所述代码在由至少一个处理器执行时使得所述至少一个处理器执行这样的方法。

一种用于根据通用配置来选择区域声场的装置包括：存储器，其被配置为存储计算机可执行指令；以及处理器，其耦合到所述存储器并且被配置为执行所述计算机可执行指令以进行以下操作：接收用户在与声场相关联的场景空间内的位置；针对所述场景空间的多个区域中的每个区域，接收指示该区域在所述场景空间内的位置的信息；针对所述场景空间的所述多个区域中的每个区域，接收估计的所述声场的总能量和估计的与该区域相对应的区域声场的能量之间的关系的值，其中，所述区域声场是所述声场的一部分；以及针对所述多个区域中的每个区域，决定是否获得对所述对应的区域声场的描述，其中，所述决定是基于所接收的与该区域相对应的值以及基于所接收的所述用户的位置和所指示的所述区域的位置之间的关系的。

附图说明

通过示例说明了本公开内容的各方面。在附图中，相似的附图标记指示相似的元素。

图1示出了支持在3DOF中检测运动的VR耳机的示例。

图2示出了由6DOF指示的六个度。

图3示出了用户在VR中可以出席的体育事件的示例。

图4A示出了根据通用配置的方法M100的流程图。

图4B示出了任务T200的实现T200A的流程图。

图4C示出了任务T240的实现T240A的流程图。

图5示出了将足球场分割为九个区域的示例。

图6示出了将篮球场分割为九个区域的示例。

图7示出了将棒球场分割为八个区域的示例。

图8示出了区分声场的选定区域的示例。

图9A示出了包括区域元数据的字段和对应的区域声场的帧的数据结构的示例。

图9B示出了包括区域元数据的字段和对应的区域声场的帧的数据结构的另一示例。

图9C示出了产生区域声场流和单独的对应的区域元数据流的示例。

图10A示出了根据通用配置的装置F100的框图。

图10B示出了单元MF200的实现MF200A的框图。

图10C示出了单元MF240的实现MF240A的框图。

图11A示出了根据通用配置的装置A100的框图。

图11B示出了声场鉴别器200的实现200A的框图。

图11C示出了声场表征器240的实现240A的框图。

图12示出了声场鉴别器200A的实现200B的示例，该声场鉴别器200A被配置为产生区域声场流和单独的对应的区域元数据流。

图13示出了根据通用配置来选择区域声场的方法M500的流程图。

图14示出了场景空间SC100的示例。

图15示出了用于根据通用配置来选择区域声场F500的装置的框图。

图16示出了VR设备的示例400。

图17是示出了可穿戴设备的实现800的示例的示意图。

图18示出了可以在设备内实现的系统900的框图。

具体实施方式

为了支持沉浸式VR体验，可能期望响应于听者的虚拟位置的变化来调整提供的音频环境。例如，可能期望支持六个自由度(6DOF)的虚拟运动。如图2中所示，6DOF包括3DOF的三个旋转运动以及三个平移运动：向前/向后(喘振)、向上/向下(起伏)以及向左/向右(摇摆)。

6DOF应用的示例包括远程用户对观众事件的虚拟出席，诸如体育事件(例如，棒球比赛，如图3中所示)。6DOF应用可以记录来自多个分布式换能器阵列(例如，麦克风)的音频，以便在大场景空间(例如，棒球场、足球场、板球场等)上捕获空间音频。在如此大的区域上表示声场(即，空气压力在空间和时间上的分布)可能涉及可伸缩性和有效压缩的问题。

一种方法将是定位、跟踪和记录声音产生对象(例如，运动场上的运动员)，并且单独地压缩带有表示对象的位置的元数据的每个所得的音频流。然而，这样的方法可能不适合现场事件和实时压缩。通常，定位和跟踪许多对象是麻烦的且昂贵的；声音捕捉装置可能无法分离聚集在空间中的对象；并且基于对象的表示可能仅考虑点源而忽略方向性模式(例如，关于由例如喊叫播放器或小号手发出的声音的方向的变化)。

如本文描述的区域分割方法可以用于支持大声场的基于区域的表示。产生大声场的音频源的基于区域的表示的潜在优点可以包括对在场景空间上捕获的空间音频的高效压缩和/或来自分布式麦克风阵列的音频信号之间的减少的依赖性和信息冗余。这样的格式还可以允许更容易地实现6DOF回放、低复杂度6DOF回放和/或额外的音频效果(例如，音频信号的操纵和/或交互)。

可以实现这样的方法以允许灵活地分割场景空间和对应的声场。还可以支持诸如根据用户需求和兴趣来选择区域和/或分配编码带宽之类的特征。这样的方法也可以被实现为沉浸式环境(例如，MPEG-H(例如，如在高级电视系统委员会(ATSC)Doc.A/342-3:2017中描述的)、MPEG-I(例如，如在ISO/IEC 23090中描述的))的标准化表示的一部分。

现在将关于构成本文一部分的附图来描述若干说明性配置。虽然下文描述了可以在其中实现本公开内容的一个或多个方面的特定配置，但是在不脱离本公开内容的范围或所附权利要求书的精神的情况下，可以使用其它配置并且可以进行各种修改。

除非明确地受到其上下文的限制，否则本文使用术语“信号”来指示其普通含义中的任何一个，包括如在电线、总线或其它传输介质上表示的存储器位置(或存储器位置集合)的状态。除非明确地受到其上下文的限制，否则本文使用术语“生成”来指示其普通含义中的任何一个，诸如计算或以其它方式生成。除非明确地受到其上下文的限制，否则本文使用术语“计算”来指示其普通含义中的任何一个，诸如计算、评估、估计和/或从多个值中选择。除非明确地受到其上下文的限制，否则使用术语“获得”来指示其普通含义中的任何一个，诸如计算、推导、接收(例如，从外部设备)和/或取回(例如，从存储元件阵列)。除非明确地受到其上下文的限制，否则使用术语“选择”来指示其普通含义中的任何一个，诸如识别、指示、应用和/或使用两个或更多个的集合中的至少一个并且少于全部。除非明确地受到其上下文的限制，否则使用术语“确定”来指示其普通含义中的任何一个，诸如决定、建立、作结论、计算、选择和/或评估。在本描述和权利要求书中使用术语“包括”的情况下，不排除其它元素或操作。使用术语“基于”(如在“A是基于B的”中)来指示其普通含义中的任何一个，包括情况(i)“从……中推导出”(例如，“B是A的前导”)，(ii)“至少基于”(例如，“A是至少基于B的”)以及如果在特定上下文中合适的话，(iii)“等于”(例如，“A等于B”)。类似地，使用术语“响应于”来指示其普通含义中的任何一个，包括“至少响应于”。除非另有指示，否则术语“A、B和C中的至少一个”、“A、B和C中的一个或多个”、“A、B和C当中的至少一个”以及“A、B和C当中的一个或多个”指示A和/或B和/或C。除非另有指示，否则术语“A、B和C中的每一个”和“A、B和C当中的每一个”指示“A和B和C”。

除非另有指示，否则对具有特定特征的装置的操作的任何公开也明确地旨在公开具有类似特征的方法(反之亦然)，并且对根据特定配置的装置的操作的任何公开也明确地旨在公开根据类似配置的方法(反之亦然)。术语“配置”可以用于参考如由其特定上下文指示的方法、装置和/或系统。除非由特定上下文另有指示，否则术语“方法”、“过程”、“步骤”和“技术”是一般地且可互换地使用的。具有多个子任务的“任务”也是一种方法。除非由特定上下文另有指示，否则术语“装置”和“设备”也可以是一般地和可互换地使用的。通常使用术语“元素”和“模块”来指示更大配置的一部分。除非明确地受到其上下文的限制，否则本文使用术语“系统”来指示其普通含义中的任何一个，包括“为共同目的服务而相互作用的一组元素”。

除非最初由定冠词引入，否则用于修改权利要求元素的序数术语(例如，“第一”、“第二”、“第三”等)本身并不指示权利要求元素相对于另一权利要求元素的任何优先级或顺序，而仅仅是将权利要求元素与具有相同名称(但是使用序数术语)的另一权利要求元素区分开。除非明确地受到其上下文的限制，否则本文使用术语“多个”和“集合”中的每一个来指示大于一的整数数量。

图4A示出了根据通用配置的方法M100的流程图，方法M100包括任务T100、T200和T300。任务T100捕获在场景空间内产生的声场，任务T200产生多个区域声场，并且任务T300对所产生的区域声场中的至少多个区域声场进行编码。

捕获任务T100可以使用位于场景空间外部(例如，沿着场景空间的外围)的声传感换能器(例如，麦克风)的一个或多个阵列来执行。一个或多个阵列可以包括换能器的线性阵列。另外或替代地，一个或多个阵列可以包括换能器的球形阵列。也可以将一个或多个阵列放置在场景空间内，并且这样的阵列可以包括具有固定位置的阵列和/或具有在事件期间可能改变的位置的阵列(例如，安装在人、电线或无人机上)。例如，场景空间内的一个或多个阵列可以被安装在参与事件的人上，诸如体育事件中的运动员和/或官员(例如，裁判)、音乐事件中的表演者和/或管弦乐队指挥等。

可以将阵列放置(例如，定向和/或分布)为使得声场的某些区域比其它区域更密集地或不太密集地采样(例如，取决于感兴趣的区域的重要性)。这样的定位可能随着时间的推移而改变(例如，与兴趣焦点的变化相对应)。布置可以根据场地的大小/场地的类型而改变，或以具有最大的覆盖并且减少盲点。

任务T200产生多个区域声场。多个区域声场可以包括与所捕获的声场的部分相对应的声场。替代地或另外，可以生成区域声场。生成的区域声场可以包括已经从另一源(例如，广播亭内的评论员)捕获并且正在被添加到场景空间的声场的音频。替代地或另外，生成的区域声场可以包括合成的声音(即，被合成的而不是被捕获的声音)。

图4B示出了包括子任务T220、T240和T260的任务T200的实现T200A的流程图。子任务T220将捕获的声场建模为多个区域声场的组合，并且子任务T240表征区域声场。该建模对应于将场景空间分割成可以具有均匀的或非均匀的大小的区域。基于感兴趣的区域的各种预定义的均匀分割方案可以包括分割成均匀六边形、正方形或其它多边形。可能期望根据均匀性(其可能限制灵活性)和非均匀性(其可能增加对各种分割的描述的复杂性)之间的期望的权衡来选择分割方案。

可能期望使用适合事件期间场景空间内的声源的预期分布和类型的分割。例如，对于运动场类型(例如，足球、板球、橄榄球、棒球、篮球)、管弦乐池或管弦乐台，可以采用标准的对应的分割方案。替代地或另外，对于特定场地(例如，特定体育场(例如，SDCCU体育场)、特定棒球场(例如，花旗球场)、特定音乐厅(例如，卡内基音乐厅))，可以采用默认的分割方案。图5-7示出了用于足球场、篮球场和棒球场的分割方案的示例。可能期望针对场景空间的表演区域(例如，运动场或球场、管弦乐台)和场景空间的观众区域使用不同的分割方案。可能期望实现任务T220以允许分割方案响应于例如关于区域声场包含太少或太多的源(例如，如由场景空间的视频信息指示的)或太多或太少的能量的指示而动态地改变。

分割拓扑可以根据场景空间的各方面(例如，场的几何结构)和/或偏好而被改变。例如，广播者可以选择与用于其它用户的方案不同的分割方案。替代地或另外，可能期望允许用户选择或修改分割方案：例如，应用不同的分割方案，扩展或收缩区域，选择或排除区域，在空间上重新布置区域(具有或不具有类似的视觉重新布置)等等。可以例如使用移动设备(例如，智能手机)、平板电脑或一种或多种任何其它交互设备来执行这样的用户选择或修改。

可以使用空间选择性处理操作(诸如波束成形)来执行根据场景空间的选定分割的声场的建模T220。图8示出了使用选定阵列来区分声场的选定区域的示例。在该示例中，场景空间SC100内的声场是使用多麦克风阵列的六个实例A10A-A10F来捕获的。为了区分与感兴趣区域ROI100相对应的声场，对由阵列A10A、A10B、A10E和A10F捕获的信号执行空间选择性处理操作。在该示例中，空间选择性处理操作包括在区域ROI100的方向上定向波束。对声场的建模T220可以包括以这样的方式将捕获的声场分解成区域声场和/或可以包括将特定麦克风指派给特定区域声场。例如，任务T220可以被实现为将由播放者佩戴的麦克风产生的信号指派给与播放者当前所位于的区域相对应的区域声场(如由例如播放者上的GPS接收机和/或场景空间的视频信息指示的)。

图4C示出了包括子任务T242和T244的区域声场表征任务T240的实现T240A的流程图。子任务T242估计区域声场中的至少一些区域声场中的每个区域声场的能量。在一个示例中，子任务T242通过将用于记录区域声场的麦克风的信号的单个能量和被添加到区域声场的任何其它信号的单个能量相加来估计区域声场的能量。例如，可以将n个样本的帧上的信号的能量计算为n个样本值的平方和。典型的采样率包括(但不限于)44.1、48和96千赫兹，并且典型的帧长度包括(但不限于)576、1024和1152个样本。

子任务T242还针对区域声场中的至少一些区域声场中的每个区域声场来计算所估计的区域声场能量和估计的声场的总能量之间的关系(例如，作为所估计的区域声场能量与估计的声场的总能量的比率)。声场的总能量可以被估计为例如用于记录声场的所有麦克风的信号的单个能量和被添加到声场的任何其它信号的单个能量的总和。替代地，声场的总能量可以被估计为区域声场的估计的能量的总和。例如，如由子任务T242计算的关系可以被用在例如编码(例如，为了更高效的比特分配)和/或渲染(例如，为了指示区域声场在用户的位置处是否将是可听的)期间。

可能期望实现子任务T242来估计区域声场的一个或多个其它特性(诸如熵和/或波场集中)，以便在编码和/或渲染期间使用。例如，可以实现任务T242，以通过使用奇异值分解(SVD)确定特征值的数量来从区域声场的HOA表示估计熵，和/或针对高能区域声场假设更多的熵。

子任务T244针对区域声场中的至少一些区域声场中的每个区域声场创建元数据字段，该元数据字段指示对应区域在场景空间中的位置并且包括对应的计算的能量关系。如图9A和9B中所示，这样的元数据可以是分组的一部分，该分组还包括用于对应的区域声场的一个或多个信道中的每个信道的帧(例如，为48kHz的采样率的1024个样本)。图9A示出了其中区域的位置由索引指示的示例(例如，对于解码器已知和/或在元数据流中的其它地方携带的分割方案的情况)，并且图9B示出了其中区域的位置由描述指示的示例(例如，区域的角的空间坐标)。图9C示出了替代布置的示例，其中区域声场流和对应的区域元数据流是作为单独的流产生的。例如，单独的音频和元数据流可以被格式化为符合国际电信联盟建议(ITU-R)BS 2076-1(音频定义模型，2017年6月)。

任务T300对所产生的区域声场中的至少多个区域声场进行编码。在一个示例中，任务T300使用分层方案，诸如高阶环境立体声(HOA)。不同的编码HOA阶数可以用于不同的区域(例如，取决于音频熵(区域中的源的数量)和/或重要性)。在另一示例中，任务T300被实现为使用基于对象的方案(例如，将区域声场编码为点源)。在另外的示例中，任务T300被实现为将区域声场编码为平面波扩展(例如，在给定方向上传播而不衰减的远场源)。

替代地或另外，任务T300可以被实现为基于例如场内的预先确定的感兴趣区域来将不同的方案用于不同的区域(例如，用于一些区域的基于对象的方案和用于其它区域的HOA方案)。例如，可能期望利用基于对象的方案或HOA方案来对具有高程度的大波场集中的区域进行编码，以及将具有低程度的波场集中(例如，环境、人群噪声、拍击)的区域编码为HOA或平面波扩展。

与基于对象的方案相比，HOA方案在对大量声源进行编码方面通常是高效的(例如，与基于对象的方案相比，可以通过更小的HOA系数来表示更多的对象)。使用HOA方案的好处可以包括能够评估和/或表示不同听者位置处的声场，而不需要检测和跟踪单个对象。对经HOA编码的音频的渲染对于扬声器配置通常是灵活的且是不可知的。HOA编码在自由场条件下通常也是有效的，使得可以在接近最近源的有效区域内执行对用户的虚拟监听位置的平移。

对如由任务T300编码的声场的渲染可以通过再现区域声场中的每个区域声场对用户的虚拟位置处的声场的贡献的总和来执行。可以响应于用户的虚拟位置的改变(例如，用户的平移)和/或方位的改变来更新所渲染的声场。可能还期望支持用户选择的将区域声场到不同的空间布置的重新布置。例如，增强现实(AR)或VR世界中的用户可能发现，当可以将其移动到用户的当前位置附近时，导航到遥远的感兴趣区域更容易。替代地或另外，用户可能希望将相似但彼此距离较远的区域(例如，足球场的门柱区域)聚集以同时地和/或仿佛彼此接近地听到场景。

图10A示出了根据通用配置的装置F100的框图，装置F100包括用于捕获声场的单元MF100(例如，如本文参照任务T100描述的)、用于产生区域声场的单元MF200(例如，如本文参照任务T200描述的)、以及用于对区域声场进行编码的单元MF300(例如，如本文参照任务T300描述的)。

图10B示出了单元MF200的实现MF200A的框图，单元MF200包括用于将捕获的声场建模为多个区域声场的组合的单元MF220(例如，如本文参照任务T220描述的)和用于表征区域声场的单元MF240(例如，如本文参照任务T240描述的)。

图10C示出了单元MF240的实现MF240A的框图，单元MF240包括包括用于估计能量的单元MF242(例如，如本文参照任务T242描述的)和用于创建区域元数据字段的单元MF244(例如，如本文参照任务T244描述的)。

图11A示出了根据通用配置的装置A100的框图，装置A100包括被配置为捕获声场的记录器100(例如，如本文参照任务T100描述的)、被配置为产生区域声场的声场鉴别器(例如，如本文参照任务T200描述的)、以及被配置为对区域声场进行编码的编码器300(例如，如本文参照任务T300描述的)。

图11B示出了声场鉴别器200的实现A200A的框图，声场鉴别器200包括被配置为将所捕获的声场建模为多个区域声场的组合的声场建模器220(例如，如本文参照任务T220描述的)和被配置为表征区域声场的声场表征器240(例如，如本文参照任务T240描述的)。图12示出了声场鉴别器200A的实现200B的示例，声场鉴别器200A被配置为产生区域声场流和单独的对应的区域元数据流。在该示例中，声场编码器300被实现为根据区域元数据流来对区域声场流进行编码(例如，通过分配更多比特和/或选择更高的HOA阶数来对具有与其它区域声场相比更多的能量和/或熵的区域声场进行编码)。

图11C示出了声场表征器240的实现A240A的框图，声场表征器240包括被配置为估计能量的计算器242(例如，如本文参照任务T242描述的)和被配置为创建区域元数据字段的元数据创建器244(例如，如本文参照任务T244描述的)。

如上所述，可以使用关于区域声场的位置和相对能量(例如，如通过子任务T242估计的)的信息来提高编码过程和/或渲染过程的效率。图13示出了根据通用配置来选择区域声场的方法M500的流程图，方法M500包括任务T500、T600、T700和T800。任务T500接收用户在与声场相关联的场景空间内的位置。该位置可以是基于来自例如跟踪用户在物理世界中的位置的一个或多个传感器、输入控制器和/或模拟用户在虚拟空间中的运输的渲染程序的数据的。方法M500可以使用例如如本文描述的增强现实(AR)、虚拟现实(VR)和/或混合现实(MR)设备(诸如例如，可穿戴设备)来实现。

针对场景空间的多个区域中的每个区域，任务T600接收指示该区域在场景空间内的位置的信息，并且任务T700接收作为声场的一部分并且与该区域相对应的区域声场的相对能量的值。任务T700可以接收例如估计的区域声场的能量和估计的声场的总能量之间的关系的值，诸如估计的区域声场的能量与估计的声场的总能量的比率。如上所述，任务T600和T700可以例如从由任务T244创建的元数据中获得该信息。

描述大声场的数据流的量可能是巨大的，并且很可能包含该声场的一些或甚至许多区域声场在任何单个用户的位置处将是无法听到的。因此，可能期望(例如，对于渲染过程)仅获得很可能对用户的体验有贡献的那些区域声场的描述。可以预期这样的剔除以提高处理效率和/或减少带宽消耗。

关于区域声场将对用户的体验有贡献的可能性取决于区域声场的相对能量并且还(至少对于未被建模为平面波扩展的源)取决于用户与该区域声场所对应的区域之间的距离。可以预期在空气中传播的声音的能量减小距离平方的因子。对于场景空间的多个区域中的每个区域，任务T800决定是否获得对应区域声场的描述，其中，该决定是基于所接收的与该区域相对应的值以及基于所接收的用户的位置与所指示的区域的位置之间的关系的。例如，任务T800可以被实现为：通过所接收的用户的位置与所指示的区域的位置(例如，质量中心)之间的距离的平方的倒数来对每个区域声场的相对能量值进行加权；以及决定仅获得其加权的相对能量值超过(替代地，不小于)门限值的区域声场的描述。

图14示出了场景空间SC100的示例，其中分别指示了用户UL10的位置和三个区域LA10、LB10和LC10的位置，并且其中围绕区域的位置的虚线指示对应的区域声场的加权相对能量值的相对大小。在该示例中，可以看出，与区域C相对应的区域声场的加权相对能量值相对非常小，使得该区域声场不太可能对用户的听觉体验有贡献并且可以被剔除。

另外或替代地，任务T800可以被实现为对区域声场的加权相对能量值进行排序(例如，按递减顺序)并且决定获得具有最大加权相对能量值的区域声场的描述。任务T800可以被实现为继续进行这样的选择，直到选定区域声场的加权相对能量值的总和超过(替代地，不小于)(例如，所有区域声场的加权相对能量值的总和)预先确定的量或比例为止。

另外或替代地，任务T800可以被实现为决定不获取很可能被另一区域声场掩盖的区域声场的描述。图14还示出了一个示例，在其中区域A和B相对于用户的位置UL10的方向是相对接近的，并且与区域A相对应的加权相对能量值远大于与区域B相对应的加权相对能量值。在这样的情况下，很可能与区域B相对应的区域声场将被与区域A相对应的区域声场掩盖，并且任务T800可以被实现为决定不获得与区域B相对应的区域声场的描述。

在一个示例中，执行方法M500的装置或设备(例如，渲染器)还被配置为取回其已经决定获得的区域声场中的每个区域声场的描述的存储的副本。在另一示例中，执行方法M500的装置或设备(例如，渲染器，其可以是用户佩戴的耳机)还被配置为(例如，从服务器)请求其已经决定获得的区域声场中的每个区域声场的描述。例如，这样的装置或设备可以被配置为通过无线连接(例如，Wi-Fi(根据例如IEEE标准802.11-2012)或另一无线网络连接和/或长期演进(LTE)或其它蜂窝数据网络连接)从服务器请求对应的区域声场(例如，实时音频流)。

图15示出了用于根据通用配置来选择区域声场的装置F500的框图。装置F500包括：用于接收用户在与声场相关联的场景空间内的位置的单元MF500(例如，如本文参照任务T500描述的)。装置F500还包括：用于针对场景空间的多个区域中的每个区域，接收指示该区域在场景空间内的位置的信息的单元MF600(例如，如本文参照任务T600描述的)。装置F500还包括：用于针对场景空间的多个区域中的每个区域，接收估计的声场的总能量和估计的与该区域相对应的区域声场的能量之间的关系的值的单元MF700，其中，区域声场是该声场的一部分(例如，如本文参照任务T700描述的)。装置F100还包括：用于针对场景空间的多个区域中的每个区域，决定是否获得对应的区域声场的描述的单元MF800，其中，该决定是基于所接收的与该区域相对应的值以及基于所接收的用户的位置和所指示的区域的位置之间的关系的(例如，如本文参照任务T800描述的)。

正在开发计算机介导的现实系统，以允许计算设备增强或添加、移除或减去、替换或代替、或通常修改如由用户体验的现有现实。作为几个示例，计算机介导的现实系统可以包括虚拟现实(VR)系统、增强现实(AR)系统和混合现实(MR)系统。计算机介导的现实系统的感知成功通常与这样的系统提供视频和音频两者方面的现实沉浸式体验的能力有关，使得视频和音频体验以用户感知为自然和期望的方式对齐。尽管人类视觉系统比人类听觉系统更敏感(例如，在场景内的各种对象的感知定位方面)，但是确保充分的听觉体验是确保现实沉浸式体验的越来越重要的因素，尤其是随着视频体验的改进，以允许视频对象的更好定位，其使得用户能够更好地识别音频内容的源。

在VR技术中，可以使用头戴式显示器将虚拟信息呈现给用户，使得用户可以在其眼前的屏幕上在视觉上体验到人工世界。在AR技术中，真实世界被可视对象增强，该可视对象可以被叠加(例如，覆盖)在真实世界中的物理对象上。增强可以在真实世界环境中插入新的视觉对象和/或掩盖视觉对象。在MR技术中，真实或合成/虚拟的内容与用户在视觉上的体验的内容之间的界限变得难以辨别。如本文描述的技术(例如，方法M500)可以使用如图16中示出的VR设备400来实现，以经由该设备的耳机404改善该设备的用户402的体验。

视频、音频和其它感官数据可能在VR体验中发挥重要作用。为了参与VR体验，用户402可以佩戴VR设备400(其也可以被称为VR耳机400)或其它可穿戴电子设备。VR客户端设备(诸如VR耳机400)可以跟踪用户402的头部运动，并且调整经由VR耳机400显示的视频数据以说明头部运动，从而提供沉浸式体验，在其中用户402可以在视觉三维中体验视频数据中示出的虚拟世界。

虽然VR(以及其它形式的AR和/或MR)可以允许用户402在视觉上驻留在虚拟世界中，但是经常VR耳机400可能缺乏在听觉上将用户置于虚拟世界中的能力。换句话说，VR系统(其可以包括负责渲染视频数据和音频数据的计算机(为了便于说明，在图16的示例中未示出)和VR耳机400)可能无法在听觉上(并且在一些情况下，以反映经由VR耳机400向用户显示的虚拟场景的方式真实地)支持全三维沉浸。

尽管全三维听觉渲染仍然形成挑战，但是本公开内容中的技术使得能够朝着这一目标更进一步。AR、MR和/或VR的音频方面可以被分类为三个独立的沉浸类别。第一类别提供最低级别的沉浸并且被称为三个自由度(3DOF)。3DOF是指考虑头部在三个自由度(偏航、俯仰和滚动)中的运动的音频渲染，从而允许用户在任何方向上自由地环顾四周。然而，3DOF不能考虑平移(和方位性)头部运动，在其中头部不被居中在声场的光学和声学中心。

第二类别(被称为3DOF plus(或“3DOF+”))提供三个自由度(偏航、俯仰和滚动)，此外，由于远离声场内的光学中心和声学中心的头部运动，还提供有限的空间平移(和方位性)运动。3DOF+可以提供对感知效果的支持，诸如运动视差，这可以增强沉浸感。

第三类别(被称为六个自由度(6DOF))以如下的方式来渲染音频数据：该方式考虑头部运动方面的三个自由度(偏航、俯仰和滚动)，而且还考虑人在空间中的平移(x、y和z平移)。可以例如通过跟踪人在物理世界中的位置的传感器、通过输入控制器、和/或通过模拟用户在虚拟空间中的运输的渲染程序来引起空间平移。

VR的音频方面可能比视频方面更缺乏沉浸感，从而潜在地减少由用户体验的整体沉浸感。然而，随着处理器和无线连接性的发展，可能利用可穿戴AR、MR和/或VR设备来实现6DOF渲染。此外，将来可能考虑具有AR、MR和/或VR设备的能力的车辆的运动并且提供沉浸式音频体验。另外，普通技术人员将认识到移动设备(例如，手机、智能手机、平板电脑)也可以实现VR、AR和/或MR技术。

根据本公开内容中描述的技术，通过其调整音频数据(无论是音频通道格式、音频对象格式和/或基于音频场景的格式)的各种方式可以允许6DOF音频渲染。6DOF渲染通过以如下的方式渲染音频数据来提供更沉浸式的聆听体验：该方式考虑头部运动方面的三个自由度(偏航、俯仰和滚动)并且还考虑平移运动(例如，在空间三维坐标系–x、y、z中)。在实现中，在头部运动可能不在光学和声学中心的情况下，可以进行调整以提供6DOF渲染，而不一定限于空间二维坐标系。如本文所公开的，以下附图和描述允许6DOF音频渲染。

图17是示出了可以根据在本公开内容中描述的技术的各个方面进行操作的可穿戴设备的实现800的示例的示意图。在各种示例中，可穿戴设备800可以表示VR耳机(诸如上文描述的VR耳机400)、AR耳机、MR耳机或扩展现实(XR)耳机。增强现实“AR”可以是指覆盖在用户实际所在的真实世界上的经计算机渲染的图像或数据。混合现实“MR”可以是指被锁定在真实世界中的特定位置的世界的经计算机渲染的图像或数据，或者可以是指VR上的变体，在其中部分经计算机渲染的三维元素和部分拍摄的真实元素被组合成模拟在环境中的用户的物理存在的沉浸式体验。扩展现实“XR”可以是指用于VR、AR和MR的笼统术语。

可穿戴设备800可以表示其它类型的设备，诸如手表(包括所谓的“智能手表”)、眼镜(包括所谓的“智能眼镜”)、耳机(包括所谓的“无线耳机”和“智能耳机”)、智能服装、智能珠宝等。无论是表示VR设备、手表、眼镜和/或耳机，可穿戴设备800都可以经由有线连接或无线连接与支持可穿戴设备800的计算设备进行通信。

在一些情况下，支持可穿戴设备800的计算设备可以被集成在可穿戴设备800内，并且因此，可穿戴设备800可以被视为与支持可穿戴设备800的计算设备相同的设备。在其它情况下，可穿戴设备800可以与可以支持可穿戴设备800的单独的计算设备进行通信。在这方面中，术语“支持”不应当被理解为要求单独的专用设备，但是被配置为执行在本公开内容中描述的技术的各个方面的一个或多个处理器可以被集成在可穿戴设备800内或者被集成在与可穿戴设备800分离的计算设备内。

例如，当可穿戴设备800表示VR设备400时，单独的专用计算设备(诸如包括一个或多个处理器的个人计算机)可以渲染音频和视觉内容，而可穿戴设备800可以确定平移的头部移动，其中专用计算设备可以根据在本公开内容中描述的技术的各个方面，基于平移的头部运动来渲染音频内容(作为扬声器馈送)。作为另一示例，当可穿戴设备800表示智能眼镜时，可穿戴设备800可以包括处理器(例如，一个或多个处理器)，该处理器既确定平移的头部运动(通过在可穿戴设备800的一个或多个传感器内进行交互)，又基于所确定的平移的头部运动来渲染扬声器馈送。

如示出的，可穿戴设备800包括后摄像头、一个或多个定向扬声器、一个或多个跟踪和/或记录摄像头以及一个或多个发光二极管(LED)灯。在一些示例中，LED灯可以被称为“超亮”LED灯。此外，可穿戴设备800包括一个或多个眼睛跟踪摄像头、高灵敏度音频麦克风和光学/投影硬件。可穿戴设备800的光学/投影硬件可以包括耐用的半透明显示技术和硬件。

可穿戴设备800还包括连接硬件，其可以表示支持多模式连接(诸如4G通信、5G通信等)的一个或多个网络接口。可穿戴设备800还包括环境光传感器和骨导传感器。在一些情况下，可穿戴设备800还可以包括一个或多个具有鱼眼透镜和/或长焦透镜的无源和/或有源摄像头。根据本公开内容的各种技术，可穿戴设备800的转向角可以被用于选择声场的音频表示(例如，混合阶环境立体声(MOA)表示之一)以经由可穿戴设备800的定向扬声器(耳机404)输出。将意识到的是，可穿戴设备800可以表现出各种不同的形状因子。

尽管在图17的示例中未示出，但是可穿戴设备800可以包括方位/平移传感器单元，诸如用于感测的微电子机械系统(MEMS)或能够提供信息以支持头部和/或身体跟踪的任何其它类型的传感器的组合。在一个示例中，方位/平移传感器单元可以表示用于感测平移运动的MEMS，类似于在诸如所谓的“智能手机”之类的蜂窝电话中使用的MEMS。

尽管关于可穿戴设备的特定示例进行了描述，但是本领域的普通技术人员将意识到的是，与图16和17相关的描述可以应用于可穿戴设备的其它示例。例如，诸如智能眼镜之类的其它可穿戴设备可以包括通过其获得平移的头部运动的传感器。作为另一示例，诸如智能手表之类的其它可穿戴设备可以包括通过其获得平移运动的传感器。因此，在本公开内容中描述的技术不应当限于特定类型的可穿戴设备，但是任何可穿戴设备可以被配置为执行在本公开内容中描述的技术(例如，方法M500)。

图18示出了可以在设备(例如，可穿戴设备400或800)内实现的系统900的框图。系统900可以被实现为包括如本文描述的装置(例如，装置F500)的实现。系统900包括处理器402(例如，一个或多个处理器)，其可以被配置为例如执行如本文描述的方法M500。系统900还包括耦合到处理器402的存储器120、传感器110(例如，设备800的环境光传感器、方位和/或跟踪传感器)、视觉传感器130(例如，夜视传感器、跟踪和记录摄像头、眼睛跟踪摄像头和设备800的后摄像头)、显示设备100(例如，设备800的光学/投影)、音频捕获设备112(例如，设备800的高灵敏度麦克风)、扬声器470(例如，设备400的耳机404、设备800的定向扬声器)、收发机480和天线490。

如本文公开的装置或系统(例如，装置A100、F100或F500)的实现的各种元件可以被体现在被认为适合预期应用的硬件与软件和/或与固件的任何组合中。例如，这些元件可以被制造成例如驻留在同一芯片上或芯片组中的两个或更多个芯片之间的电子和/或光学设备。这样的设备的一个示例是诸如晶体管或逻辑门之类的逻辑元件的固定或可编程阵列，并且这些元件中的任何一个可以被实现为一个或多个这样的阵列。这些元件中的任何两个或更多个或者甚至全部可以在相同的一个或多个阵列内实现。这样的一个或多个阵列可以在一个或多个芯片内(例如，在包括两个或更多个芯片的芯片组内)实现。

如本文公开的用于处理的处理器或其它单元可以被制造成例如驻留在同一芯片上或芯片组中的两个或更多个芯片之间的一个或多个电子和/或光学设备。这样的设备的一个示例是诸如晶体管或逻辑门之类的逻辑元件的固定或可编程阵列，并且这些元件中的任何一个可以被实现为一个或多个这样的阵列。这样的一个或多个阵列可以在一个或多个芯片内(例如，在包括两个或更多个芯片的芯片组内)实现。这样的阵列的示例包括逻辑元件的固定或可编程阵列，诸如微处理器、嵌入式处理器、IP核、DSP(数字信号处理器)、FPGA(现场可编程门阵列)、ASSP(专用标准产品)和ASIC(专用集成电路)。如本文公开的用于处理的处理器或其它单元也可以被体现为一个或多个计算机(例如，包括被编程为执行一个或多个指令集或指令序列的一个或多个阵列的机器)或其它处理器。可能使如本文描述的处理器用于执行任务或执行与方法M100或M500的实现的过程(或如参照本文描述的装置或系统的操作而公开的另一方法)(诸如与在其中嵌入处理器的设备或系统(例如，语音通信设备，诸如智能电话或智能扬声器)的另一操作相关的任务)不直接相关的其它指令集。还可能使如本文公开的方法的一部分在一个或多个其它处理器的控制下执行。

本文公开的方法(例如，方法M100、M500)的任务中的每个任务可以被直接地体现在硬件中、由处理器执行的软件模块中或两者的组合中。在如本文公开的方法的实现的典型应用中，逻辑元件(例如，逻辑门)的阵列被配置为执行该方法的各种任务中的一个、一个以上或甚至全部任务。任务中的一个或多个(可能全部)任务还可以被实现为被体现在计算机程序产品(例如，一个或多个数据存储介质，诸如磁盘、闪存或其它非易失性存储器卡、半导体存储器芯片等)中的代码(例如，一个或多个指令集)，该代码可由包括逻辑元件(例如，处理器、微处理器、微控制器或其它有限状态机)的阵列的机器(例如，计算机)读取和/或执行。如本文公开的方法的实现的任务也可以由一个以上这样的阵列或机器来执行。在这些或其它实现中，任务可以在用于无线通信的设备(诸如蜂窝电话或具有这样的通信能力的其它设备)内执行。这样的设备可以被配置为与电路交换和/或分组交换网络进行通信(例如，使用一种或多种协议，诸如VoIP)。例如，这样的设备可以包括被配置为接收和/或发送经编码的帧的RF电路。

在一个或多个示例性实施例中，本文描述的操作可以在硬件、软件、固件或其任何组合中实现。如果在软件中实现，则这样的操作可以作为一个或多个指令或代码被存储在计算机可读介质上或通过计算机可读介质发送。术语“计算机可读介质”包括计算机可读存储介质和通信(例如，传输)介质两者。通过举例而非限制性的方式，计算机可读存储介质可以包括存储元件的阵列，诸如半导体存储器(其可以包括但不限于动态或静态RAM、ROM、EEPROM和/或闪速RAM)或铁电、磁阻、双向的、聚合的、或相变存储器；CD-ROM或其它光盘存储装置；和/或磁盘存储装置或其它磁存储设备。这样的存储介质可以以可以由计算机访问的指令或数据结构的形式存储信息。通信介质可以包括可以用于以指令或数据结构的形式携带期望的程序代码并且可以由计算机访问的任何介质，包括促进将计算机程序从一个地方传输到另一个地方的任何介质。此外，任何连接被适当地称为计算机可读介质。例如，如果使用同轴电缆、光纤光缆、双绞线、数字用户线(DSL)或无线技术(诸如红外线、无线电和/或微波)从网站、服务器或其它远程源发送软件，则同轴电缆、光纤光缆、双绞线、DSL或无线技术(诸如红外线、无线电和/或微波)被包括在介质的定义中。如本文所使用的，磁盘和光盘包括压缩光盘(CD)、激光光盘、光盘、数字多功能光盘(DVD)、软盘和蓝光光盘^TM(蓝光光盘协会，加利福尼亚州环球城)，其中，磁盘通常磁性地复制数据，而光盘则利用激光来光学地复制数据。上述的组合也应当被包括在计算机可读介质的范围内。

在一个示例中，非暂时性计算机可读存储介质包括代码，该代码在由至少一个处理器执行时使得至少一个处理器执行如本文描述的表征声场的部分的方法。这样的存储介质的另外的示例包括：进一步包括代码的介质，该代码在由至少一个处理器执行时使得至少一个处理器基于对场景空间的定义分割来将声场建模为与区域相对应的部分的组合(例如，如本文参照任务T220描述的)；进一步包括代码的介质，该代码在由至少一个处理器执行时使得至少一个处理器记录声场(例如，如本文参照任务T100描述的)；以及进一步包括代码的介质，该代码在由至少一个处理器执行时使得至少一个处理器针对场景空间的多个区域中的至少一些区域中的每个区域，基于对应的创建的元数据字段来对声场的与该区域相对应的一部分进行编码(例如，如本文参照任务T300描述的)，其中，这样的编码可以包括：将部分中的至少一个部分编码为高阶环境立体声表示。在另一示例中，非暂时性计算机可读存储介质包括代码，该代码在由至少一个处理器执行时使得至少一个处理器执行如本文描述的选择区域声场的方法(例如，方法M500)。

提供前述描述，以使本领域的技术人员能够实现或使用所公开的实现。对这些实现的各种修改对于本领域技术人员而言将是显而易见的，以及在不脱离本公开内容的范围的情况下，本文所定义的原理可以被应用于其它实现。因此，本公开内容并不旨在限于本文示出的实现，而是要被赋予与如由所附权利要求书定义的原理和新颖特征相一致的可能的最宽的范围。

Claims

1.一种表征声场的部分的方法，所述方法包括：

估计与场景空间相关联的声场的总能量；以及

针对所述场景空间的多个区域中的每个区域：

估计所述声场的与该区域相对应的一部分的能量；以及

创建对应的元数据字段，所述对应的元数据字段指示该区域在所述场景空间内的位置以及所估计的总能量与所估计的与该区域相对应的能量之间的关系，

其中，另外的元数据字段指示所述场景空间到至少所述多个区域的定义的分割。

2.根据权利要求1所述的方法，其中，所述方法还包括：基于所述场景空间的所述定义的分割来将所述声场建模为与所述区域相对应的所述部分的组合。

3.根据权利要求1所述的方法，其中，所述方法还包括：捕获所述声场。

4.根据权利要求1所述的方法，其中，所述方法还包括：针对所述场景空间的所述多个区域中的每个区域，基于对应的创建的元数据字段来对所述声场的与该区域相对应的所述一部分进行编码。

5.根据权利要求4所述的方法，其中，所述编码包括：将所述部分中的至少一个部分编码为高阶环境立体声表示。

6.一种用于表征声场的部分的装置，所述装置包括：

用于估计与场景空间相关联的声场的总能量的单元；

用于针对所述场景空间的多个区域中的每个区域，估计所述声场的与该区域相对应的一部分的能量的单元；以及

用于针对所述场景空间的所述多个区域中的每个区域，创建对应的元数据字段的单元，所述对应的元数据字段指示该区域在所述场景空间内的位置以及所估计的总能量与所估计的与该区域相对应的能量之间的关系，

7.一种用于表征声场的部分的装置，所述装置包括：

存储器，其被配置为存储计算机可执行指令；以及

处理器，其耦合到所述存储器并且被配置为执行所述计算机可执行指令，以进行以下各项：

估计与场景空间相关联的声场的总能量；

针对所述场景空间的多个区域中的每个区域，估计所述声场的与该区域相对应的一部分的能量；以及

针对所述场景空间的所述多个区域中的每个区域，创建对应的元数据字段，所述对应的元数据字段指示该区域在所述场景空间内的位置以及所估计的总能量与所估计的与该区域相对应的能量之间的关系，

8.根据权利要求7所述的装置，其中，所述处理器还被配置为：基于对所述场景空间的所述定义的分割来将所述声场建模为与所述区域相对应的所述部分的组合。

9.根据权利要求7所述的装置，其中，所述处理器还被配置为执行所述计算机可执行指令以捕获所述声场。

10.根据权利要求7所述的装置，其中，所述处理器还被配置为执行所述计算机可执行指令，以针对所述场景空间的所述多个区域中的每个区域，基于对应的创建的元数据字段来对所述声场的与该区域相对应的所述一部分进行编码。

11.根据权利要求10所述的装置，其中，所述处理器还被配置为：将所述部分中的至少一个部分编码为高阶环境立体声表示。

12.一种包括代码的非暂时性计算机可读存储介质，所述代码在由至少一个处理器执行时使得所述至少一个处理器执行一种表征声场的部分的方法，所述方法包括：

估计与场景空间相关联的声场的总能量；以及

针对所述场景空间的多个区域中的每个区域：

估计所述声场的与该区域相对应的一部分的能量；以及

13.一种选择区域声场的方法，所述方法包括：

接收用户在与声场相关联的场景空间内的位置；

针对所述场景空间的多个区域中的每个区域，接收指示该区域在所述场景空间内的位置的信息；

针对所述场景空间的所述多个区域中的每个区域，接收估计的所述声场的总能量和估计的与该区域相对应的区域声场的能量之间的关系的值，其中，所述区域声场是所述声场的一部分；以及

针对所述场景空间的所述多个区域中的每个区域，决定是否获得对所述对应的区域声场的描述，其中，所述决定是基于所接收的与该区域相对应的值以及基于所接收的所述用户的位置与所指示的所述区域的位置之间的关系的。

14.根据权利要求13所述的方法，其中，所述接收用户的位置包括：从由所述用户佩戴的设备接收所述用户的所述位置。

15.根据权利要求13所述的方法，其中，针对所述多个区域中的至少一个区域，所述决定是否获得对所述对应的区域声场的描述包括：决定获得对所述对应的区域声场的描述，并且

其中，所述方法还包括：针对所述多个区域中的所述至少一个区域中的每个区域并且响应于所述决定获得对所述对应的区域声场的描述，取回存储的所述描述的副本。

16.根据权利要求13所述的方法，其中，针对所述多个区域中的至少一个区域，所述决定是否获得对所述对应的区域声场的描述包括：决定获得对所述对应的区域声场的描述，并且

其中，所述方法还包括：针对所述多个区域中的所述至少一个区域中的每个区域并且响应于所述决定获得对所述对应的区域声场的描述，从服务器请求对所述区域声场的所述描述。

17.一种用于选择区域声场的装置，所述装置包括：

存储器，其被配置为存储计算机可执行指令；以及

接收用户在与声场相关联的场景空间内的位置；

针对所述多个区域中的每个区域，决定是否获得对所述对应的区域声场的描述，其中，所述决定是基于所接收的与该区域相对应的值以及基于所接收的所述用户的位置与所指示的所述区域的位置之间的关系的。

18.根据权利要求17所述的装置，其中，所述接收用户的位置包括：从由所述用户佩戴的设备接收所述用户的所述位置。

19.根据权利要求17所述的装置，其中，针对所述多个区域中的至少一个区域，所述决定是否获得对所述对应的区域声场的描述包括：决定获得对所述对应的区域声场的描述，并且

其中，所述处理器还被配置为执行所述计算机可执行指令，以针对所述多个区域中的所述至少一个区域中的每个区域并且响应于所述决定获得对所述对应的区域声场的描述，取回存储的所述描述的副本。

20.根据权利要求17所述的装置，其中，针对所述多个区域中的至少一个区域，所述决定是否获得对所述对应的区域声场的描述包括：决定获得对所述对应的区域声场的描述，并且

其中，所述处理器还被配置为执行所述计算机可执行指令，以针对所述多个区域中的所述至少一个区域中的每个区域并且响应于所述决定获得对所述对应的区域声场的描述，从服务器请求对所述区域声场的所述描述。