CN114424587A

CN114424587A - 控制音频数据的呈现

Info

Publication number: CN114424587A
Application number: CN202080062647.0A
Authority: CN
Inventors: S·M·A·萨尔辛; N·G·彼得斯; S·G·斯瓦米纳坦; I·G·穆诺茨
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2019-10-01
Filing date: 2020-10-01
Publication date: 2022-04-29
Also published as: US20210099825A1; EP4038907A1; TW202131707A; WO2021067555A1; US11356793B2

Abstract

一种设备可以被配置为根据本文中所描述的技术来处理一个或多个音频流。该设备可以包括一个或多个处理器和存储器。该一个或多个处理器可被配置为：获得关于将内部区域与外部区域分开的边界的指示，并且获得指示该设备相对于内部区域的位置的收听者位置。该一个或多个处理器可被配置为：基于该边界和收听者位置，获得作为被配置为针对内部区域来呈现音频数据的内部呈现器或被配置为针对外部区域来呈现音频数据的外部呈现器的当前呈现器，并且将当前呈现器应用于音频数据以获得一个或多个扬声器馈送。存储器可以被配置为存储该一个或多个扬声器馈送。

Description

控制音频数据的呈现

本申请要求2020年9月30日提交的题为“CONTROLLING RENDERING OF AUDIODATA”的美国专利申请No.17/038,618的优先权，该专利申请要求享有于2019年10月1日提交的题为“CONTROLLING RENDERING OF AUDIO DATA”的美国临时申请序列号No.62/909,104的权益，这两个申请中每个申请的全部内容都通过引用的方式并入本文，如在本文中完整地阐述一样。

技术领域

本公开内容涉及音频数据的处理。

背景技术

正在开发以计算机为媒介的现实系统以允许计算设备对用户体验的现有现实进行增强或添加、移除或删减或更一般的修改。以计算机为媒介的现实系统(其也可以被称为“扩展现实系统”或“XR系统”)可以包括例如虚拟现实(VR)系统、增强现实(AR)系统和混合现实(MR)系统。以计算机为媒介的现实系统的感知到的成功通常涉及这样的以计算机为媒介的现实系统在视频和音频体验两方面提供逼真的沉浸式体验的能力，其中视频和音频体验符合用户期望的方式。尽管人类视觉系统比人类听觉系统更敏感(例如，在场景内的各种对象的感知定位方面)，但是确保足够的听觉体验在确保逼真的沉浸式体验方面是越来越重要的因素，特别是随着视频体验改进以允许视频对象的更好定位，这使得用户能够更好地识别音频内容的源。

发明内容

本公开内容总体上涉及用于控制音频回放系统处的音频呈现的技术。该技术可使音频回放系统能够在复杂度(如由处理器周期、存储器和/或所消耗的带宽所定义的复杂度)方面执行灵活的呈现，同时还允许按照由将内部区域与外部区域分开的边界所定义的，进行XR体验的内部和外部呈现。此外，音频回放系统可以利用在表示音频数据的位流中指定的元数据或其他指示来配置音频呈现器，同时还参考收听者相对于该边界的位置来生成音频呈现器以应对内部区域或外部区域。

因此，该技术可改进音频回放系统的操作，因为当音频回放系统被配置为执行低复杂度呈现时，音频回放系统可减少处理器周期、存储器和/或所消耗的带宽的数量。当执行高复杂度呈现时，音频回放系统可提供更沉浸式XR体验，这可导致音频回放系统的用户的更逼真地置于XR体验中。

在一个示例中，该技术针对被配置为处理一个或多个音频流的设备，该设备包括：一个或多个处理器，被配置为：获得关于将内部区域与外部区域分开的边界的指示；获得指示该设备相对于内部区域的位置的收听者位置；基于该边界和收听者位置，获得作为被配置为针对内部区域来呈现音频数据的内部呈现器或被配置为针对外部区域来呈现音频数据的外部呈现器的当前呈现器；将当前呈现器应用于音频数据以获得一个或多个扬声器馈送；以及存储器，耦合到该一个或多个处理器并且被配置为存储该一个或多个扬声器馈送。

在另一示例中，该技术针对一种处理一个或多个音频流的方法，该方法包括：由一个或多个处理器获得关于将内部区域与外部区域分开的边界的指示；由一个或多个处理器获得指示设备相对于内部区域的位置的收听者位置；由一个或多个处理器基于该边界和收听者位置，获得作为被配置为针对内部区域来呈现音频数据的内部呈现器或被配置为针对外部区域来呈现音频数据的外部呈现器的当前呈现器；以及由一个或多个处理器将当前呈现器应用于音频数据以获得一个或多个扬声器馈送。

在另一示例中，该技术针对一种被配置为处理一个或多个音频流的设备，该设备包括：用于获得关于将内部区域与外部区域分开的边界的指示的单元；用于获得指示该设备相对于内部区域的位置的收听者位置的单元；用于基于该边界和收听者位置，获得作为被配置为针对内部区域来呈现音频数据的内部呈现器或被配置为针对外部区域来呈现音频数据的外部呈现器的当前呈现器的单元；以及用于将当前呈现器应用于音频数据以获得一个或多个扬声器馈送的单元。

在另一示例中，该技术针对一种其上存储有指令的非暂时性计算机可读存储介质，所述指令在被执行时使一个或多个处理器：获得关于将内部区域与外部区域分开的边界的指示；获得指示设备相对于内部区域的位置的收听者位置；基于该边界和收听者位置，获得作为被配置为针对内部区域来呈现音频数据的内部呈现器或被配置为针对外部区域来呈现音频数据的外部呈现器的当前呈现器；以及将当前呈现器应用于音频数据以获得一个或多个扬声器馈送。

在另一示例中，该技术针对一种被配置为生成表示音频数据的位流的设备，该设备包括：存储器，被配置为存储音频数据；以及一个或多个处理器，耦合到存储器并且被配置为：基于音频数据来获得表示音频数据的位流；在位流中指定将内部区域与外部区域分开的边界；在位流中指定用于控制针对内部区域或外部区域的对音频数据的呈现的一个或多个指示；以及输出位流。

在另一示例中，该技术针对一种生成表示音频数据的位流的方法，该方法包括：基于音频数据来获得表示音频数据的位流；在位流中指定将内部区域与外部区域分开的边界；在位流中指定控制针对内部区域或外部区域的对音频数据的呈现的一个或多个指示；以及输出位流。

在另一示例中，该技术针对一种被配置为生成表示音频数据的位流的设备，该设备包括：用于基于音频数据来获得表示音频数据的位流的单元；用于在位流中指定将内部区域与外部区域分开的边界的单元；用于在位流中指定控制针对内部区域或外部区域的对音频数据的呈现的一个或多个指示的单元；以及用于输出位流的单元。

在另一示例中，该技术针对一种其上存储有指令的非暂时性计算机可读存储介质，所述指令在被执行时使一个或多个处理器：基于音频数据来获得表示音频数据的位流；在位流中指定将内部区域与外部区域分开的边界；在位流中指定针对控制内部区域或外部区域的对音频数据的呈现的一个或多个指示；以及输出位流。

在附图和以下说明书中阐述了本公开内容的一个或多个示例的细节。根据说明书和附图以及根据权利要求，本技术的各个方面的其它特征、目的和优点将是显而易见的。

附图说明

图1A和1B是示出可以执行本公开内容中所描述的技术的各个方面的系统的图。

图2是示出根据本公开内容中所描述的技术的各个方面的用于扩展现实(XR)场景的低复杂度呈现的示例的图。

图3是示出根据本公开内容中所描述的技术的各个方面的包括用于XR场景的距离缓冲的高复杂度呈现的示例的图。

图4A和4B是示出VR设备的示例的图。

图5A和5B是示出可以执行本公开内容中所描述的技术的各个方面的示例系统的图。

图6A-6F是示出图1A和1B的示例中所示的音频回放设备在执行本公开内容中所描述的技术的各个方面时的各个示例的方框图。

图7示出了根据本公开内容各方面的支持音频流传输的无线通信系统的示例。

图8是示出图1A中所示的源设备在执行本公开内容中所描述的技术的各个方面时的示例操作的流程图。

图9是示出了图1A中所示的内容消费者设备在执行本公开内容中所描述的技术的各个方面时的示例操作的流程图。

具体实施方式

存在许多不同的方式来表示声场。示例格式包括基于声道的音频格式、基于对象的音频格式和基于场景的音频格式。基于声道的音频格式是指5.1环绕声格式、7.1环绕声格式、22.2环绕声格式或将音频声道定位到收听者周围的特定位置以便重新创建声场的任何其它基于声道的格式。

基于对象的音频格式可以指其中指定音频对象以便表示声场的格式，音频对象经常使用脉冲编码调制(PCM)进行编码并且被称为PCM音频对象。这种音频对象可以包括标识在声场中的音频对象相对于收听者或其它参考点的位置的元数据，使得可以将音频对象呈现到一个或多个扬声器声道以供回放以努力重新生成声场。本公开内容中所描述的技术可应用于前述格式中的任一种格式，包括基于场景的音频格式、基于声道的音频格式、基于对象的音频格式或其任何组合。

基于场景的音频格式可以包括在三个维度中定义声场的元素的分层集合。元素的分层集合的一个示例是球面谐波系数(SHC)集合。以下表达式演示了使用SHC对声场的描述或表示：

该表达式示出了在声场的任何点

处的压力p_i在时间t可由SHC

唯一地表示。此处，

c是声速(～343m/s)，

是参考点(或观测点)，j_n(·)是n阶的球面贝塞尔函数，并且

是n阶和m子阶的球面谐波基函数(也可以称为球面基函数)。可以认识到方括号中的项是信号(即，

)的频域表示，其可以通过各种时间-频率变换来近似，诸如离散傅立叶变换(DFT)、离散余弦变换(DCT)或小波变换。分层集合的其它示例包含小波变换系数集合和多分辨率基函数的其它系数集合。

SHC

可由各种麦克风阵列配置物理地获取(例如，记录)，或可替换地，其可从声场的基于声道或基于对象的描述导出。SHC(其也可被称为立体混响声(ambisonic)系数)表示基于场景的音频，其中可以将SHC输入到音频编码器以获得可促进更有效的发送或存储的经编码SHC。例如，可以使用涉及(1+4)²(25，因此是四阶)系数的四阶表示。

如上所述，SHC可以从使用麦克风阵列的麦克风记录中导出。在Poletti,M的“Three-Dimensional Surround Sound Systems Based on Spherical Harmonics”(J.Audio Eng.Soc.,Vol.53,No.11,2005年11月,1004-1025页)中描述了如何从麦克风阵列物理地获取SHC的各种示例。

以下等式可以说明如何从基于对象的描述中导出SHC。用于对应于单个音频对象的声场的系数

可表达为：

其中i是

是n阶的(第二类的)球面Hankel函数，并且

是对象的位置。已知作为频率的函数的对象源能量g(ω)(例如，使用时间-频率分析技术，诸如对脉冲编码调制-PCM-流执行快速傅立叶变换)可以使得能够将每个PCM对象和对应的位置转换为SHC

此外，可以示出(由于以上是线性和正交分解)每个对象的

系数是加性的。以这种方式，多个PCM对象可以由

系数表示(例如，作为各个对象的系数向量之和)。所述系数可以包含关于声场(作为3D坐标的函数的压力)的信息，并且以上表示在观测点

附近从各个对象到整个声场的表示的变换。

正在开发以计算机为媒介的现实系统(其也可被称为“扩展现实系统”或“XR系统”)以利用由立体混响声系数提供的许多潜在益处。例如，立体混响声系数可以以潜在地实现声场内的声源的准确三维(3D)定位的方式，来以三维表示声场。因此，XR设备可将立体混响声系数呈现到扬声器馈送，所述扬声器馈送在经由一个或多个扬声器播放时准确地再现声场。

将立体混响声系数用于XR可实现依赖于由立体混响声系数提供的更沉浸式声场的许多使用情况的开发，尤其是用于计算机游戏应用和现场视频流传输应用。在依赖于声场的低延迟再现的这些高度动态的使用情况中，XR设备可相对于更难以操纵或涉及复杂呈现的其它表示而优选立体混响声系数。关于这些使用情况的更多信息在下面参考图1A和1B提供。

虽然在本公开内容中关于VR设备进行描述，但该技术的各个方面可在例如移动设备的其它设备的上下文中执行。在这种情况下，移动设备(诸如所谓的智能电话)可以经由屏幕呈现所显示的世界，该屏幕可以安装到用户102的头部或者如在正常使用移动设备时将进行的那样地观看。这样，屏幕上的任何信息可以是移动设备的一部分。移动设备能够提供跟踪信息41，从而允许以VR体验(当头戴式时)和正常体验来观看所显示的世界，其中正常体验仍可以允许用户观看所显示的世界，从而展示VR-lite类型的体验(例如，拿起设备并旋转或平移设备来观看所显示的世界的不同部分)。

本公开内容可以提供不透声(opacity)属性和内插距离属性的各种组合，以呈现用于6个DoF(和其他)使用情况的内部立体混响声声场。另外，本公开内容论述用于内部立体混响声场的低复杂度和高复杂度呈现解决方案的示例，其可由单个二进制位指定。在一个示例编码器输入格式中，可存在指示立体混响声声场描述是内部场还是外部场的属性。在内部声场中，声源在由网格或简单几何对象描述的指定边界内，而对于外部声场，声源被描述为在边界之外。内部声场的不透声属性可以指定不具有到收听者的直接视线的贡献是否对收听者在边界之外时为收听者呈现声场有贡献。此外，距离的属性可以指定围绕该边界的缓冲区域，在缓冲区域中，使用了用于外部收听者的内部场的呈现到内部收听者之间的内插。

因此，本文描述的技术的各个方面可以使得能够在VR或其他XR设置中导航时确定用户的收听者位置，确定收听者位置是否位于几何边界内，其中在几何边界内无障碍的情况下所有声源都朝向收听者辐射，并且确定收听者位置是否位于几何边界之外。该技术的各个方面还可使得能够在确定收听者位置在几何边界之外时针对相对于所述收听者被阻挡的每个声源指派不透声属性，且在收听者位置指示收听者在几何边界之外时基于不透声属性执行在几何边界内的声场的内插，以及呈现内插的声场。

图1A和1B是示出可以执行本公开内容中所描述的技术的各个方面的系统的图。如图1A的示例所示，系统10包括源设备12和内容消费者设备14。虽然在源设备12和内容消费者设备14的上下文中进行描述，但该技术可在其中对声场的任何分层表示进行编码以形成表示音频数据的位流的任何上下文中实施。此外，源设备12可表示能够生成声场的分层表示的任何形式的计算设备，且在本文中在作为VR内容创建者设备的上下文中进行总体描述。同样，内容消费者设备14可以表示能够实施本公开内容中描述的音频流内插技术以及音频回放的任何形式的计算设备，并且本文中在作为VR客户端设备的上下文中进行总体描述。

源设备12可以由娱乐公司或其他实体操作，其可以生成供内容消费者设备(例如内容消费者设备14)的操作者消费的多声道音频内容。在许多VR场景中，源设备12结合视频内容生成音频内容。源设备12包括内容捕获设备300和内容声场表示生成器302。

内容捕获设备300可以被配置为与一个或多个麦克风5A-5N(“麦克风5”)对接或以其它方式通信。麦克风5可表示

或能够捕获声场且将声场表示为对应的基于场景的音频数据11A到11N(其也被称为立体混响声系数11A到11N或“立体混响声系数11”)的其它类型的3D音频麦克风。在基于场景的音频数据11(其是指代立体混响声系数11的另一种方式)的上下文中，麦克风5中的每一个可表示根据有利于生成立体混响声系数11的集合几何形状而布置在单个外壳内的麦克风的群集。这样，术语麦克风可以指代麦克风的集群(其实际上是几何布置的换能器)或单个麦克风(其可以被称为点麦克风)。

立体混响声系数11可表示音频流的一个示例。因此，立体混响声系数11还可被称为音频流11。尽管主要针对立体混响声系数11进行描述，但所述技术可针对其它类型的音频流执行，包括脉冲编码调制(PCM)音频流、基于声道的音频流、基于对象的音频流、等等。

在一些示例中，内容捕获设备300可以包括集成到内容捕获设备300的外壳中的集成麦克风。内容捕获设备300可无线地或经由有线连接与麦克风5对接。并非经由麦克风5捕获音频数据或与经由麦克风5捕获音频数据结合，在经由某一类型的可移除存储装置、无线地、和/或经由有线输入过程、或替代地或与前述内容结合来输入立体混响声系数11、生成立体混响声系数11或以其它方式创建(从所存储的声音样本，诸如在游戏应用程序中常见的方式、等等)立体混响声系数11之后，内容捕获装置300可处理立体混响声系数11。这样，内容捕获设备300和麦克风5的各种组合是可能的。

内容捕获设备300还可被配置为对接声场表示生成器302或以其它方式与其通信。声场表示生成器302可以包括能够与内容捕获设备300对接的任何类型的硬件设备。声场表示生成器302可使用由内容捕获设备300提供的立体混响声系数11来生成由立体混响声系数11表示的相同声场的各种表示。

例如，为了使用立体混响声系数(其同样为音频流的一个示例)生成声场的不同表示，声场表示生成器24可使用用于声场的立体混响声表示的译码方案，其被称为混合阶立体混响声(Mix Order Ambisonics，MOA)，如于2017年8月8日提交并作为美国专利公开No.20190007781于2019年1月3日公开的题为“MIXED-ORDER AMBISONICS(MOA)AUDIO DATAFO COMPUTER-MEDIATED REALITY SYSTEMS”的美国申请序列号No.15/672,058中更详细论述的。

为了生成声场的特定MOA表示，声场表示生成器24可生成立体混响声系数全集的部分子集。例如，由声场表示生成器24生成的每个MOA表示可以针对声场的一些区域提供精确度，但在其它区域中的精确度较低。在一个示例中，声场的MOA表示可以包括八(8)个未压缩的立体混响声系数，而同一声场的三阶立体混响声表示可以包括十六(16)个未压缩的立体混响声系数。因此，作为立体混响声系数的部分子集而生成的声场的每个MOA表示与从立体混响声系数生成的相同声场的对应三阶立体混响声表示相比，可以存储密集性较低且带宽密集性较低(如果且当在所示的传输信道上作为位流27的一部分而传送时)。

虽然针对MOA表示进行描述，但本公开内容的技术还可针对一阶立体混响声(FOA)表示来执行，在FOA表示中，与一阶球面基函数和零阶球面基函数相关联的所有立体混响声系数都被用于表示声场。即，声场表示生成器302可使用给定阶N的所有立体混响声系数来表示声场，而不是使用立体混响声系数的部分非零子集来表示声场，从而导致立体混响声系数的总和等于(N+1)²。

在此方面，立体混响声音频数据(其是指代MOA表示或全阶表示(例如上文所述的一阶表示)中的立体混响声系数的另一方式)可以包括：与具有一阶或更小阶的球面基函数相关联的立体混响声系数(其可被称为“1阶立体混响声音频数据”)、与具有混合阶和子阶的球面基函数相关联的立体混响声系数(其可被称为上文所论述的“MOA表示”)、或与具有大于一的阶数的球面基函数相关联的立体混响声系数(其在上文被称为“全阶表示”)。

在一些示例中，内容捕获设备300可被配置为与声场表示生成器302进行无线通信。在一些示例中，内容捕获设备300可经由无线连接或有线连接中的一者或两者与声场表示生成器302进行通信。经由内容捕获设备300与声场表示生成器302之间的连接，内容捕获设备300可提供呈各种形式内容的内容，出于论述的目的，所述内容在本文中被描述为立体混响声系数11的部分。

在一些示例中，内容捕获设备300可利用声场表示生成器302的各种方面(在声场表示生成器302的硬件或软件能力方面)。例如，声场表示生成器302可以包括被配置为执行心理声学音频编码的专用硬件(或当被执行时使得一个或多个处理器执行心理声学音频编码的专用软件)(心理声学音频编码诸如：由运动图像专家组(MPEG)、MPEG-H 3D音频译码标准、MPEG-I沉浸式音频标准或专有标准阐述的表示为“USAC”的统一语音和音频译码器，所述专有标准诸如AptX^TM(包括AptX的各种版本，诸如增强型AptX即E-AptX、AptX live、AptXstereo和AptX high definition即AptX-HD)、高级音频译码(AAC)、音频编解码器3(AC-3)、Apple无损音频编解码器(ALAC)、MPEG-4音频无损流传输(ALS)、增强型AC-3、自由无损音频编解码器(FLAC)、Monkey’s Audio、MPEG-1音频层II(MP2)、MPEG-1音频层III(MP3)、Opus和Windows Media Audio(WMA))。

内容捕获设备300可不包括心理声学音频编码器专用硬件或专用软件，而是以非心理声学音频译码形式提供内容301的音频方面。声场表示生成器302可至少部分地通过针对内容301的音频方面执行心理声学音频编码来辅助内容301的捕获。

声场表示生成器302还可通过至少部分地基于从立体混响声系数11生成的音频内容(例如，MOA表示、三阶立体混响声表示和/或一阶立体混响声表示)来生成一个或多个位流21，来辅助内容捕获和传输。位流21可表示立体混响声系数11的经压缩版本(和/或其用于形成声场的MOA表示的部分子集)和任何其它不同类型的内容301(例如球面视频数据、图像数据或文本数据的经压缩版本)。

声场表示生成器302可生成位流21以供(作为一个示例)跨越传输信道进行传输，所述传输信道可以是有线或无线信道、数据存储装置等等。位流21可表示立体混响声系数11(和/或其用于形成声场的MOA表示的部分子集)的经编码版本，且可以包括主要位流和可称为侧声道信息的另一侧位流。在一些情况下，表示立体混响声系数11的经压缩版本的位流21可以符合根据MPEG-H 3D音频译码标准生成的位流。

内容消费者设备14可以由个人操作，并且可以表示VR客户端设备。尽管针对VR客户端设备进行了描述，但是内容消费者设备14可以表示其他类型的设备，例如增强现实(AR)客户端设备、混合现实(MR)客户端设备(或任何其他类型的头戴式显示设备或扩展现实-XR-设备)、标准计算机、头戴式耳机、耳机、或能够跟踪操作客户端消费者设备14的个人的头部移动和/或一般平移移动的任何其他设备。如图1A的示例中所示，内容消费者设备14包括音频回放系统16A，其可以指能够呈现立体混响声系数(无论是以一阶、二阶和/或三阶立体混响声表示和/或MOA表示的形式)以供作为多声道音频内容回放的任何形式的音频回放系统。

内容消费者设备14可以直接从源设备12提取位流21。在一些示例中，内容消费者设备12可与网络(包括第五代(5G)蜂窝网络)对接以提取位流21或以其它方式使源设备12将位流21传送到内容消费者设备14。

虽然在图1A中被示为被直接发送到内容消费者设备14，但是源设备12可以将位流21输出到位于源设备12和内容消费者设备14之间的中间设备。中间设备可存储位流21以供稍后传递到可请求该位流的内容消费者设备14。中间设备可以包括文件服务器、网络服务器、台式计算机、膝上型计算机、平板计算机、移动电话、智能电话或能够存储位流21以供音频解码器稍后提取的任何其它设备。中间设备可以存在于能够将位流21(并且可能与发送对应的视频数据位流一起)流传输到请求位流21的订户(诸如内容消费者设备14)的内容递送网络中。

可替换地，源设备12可将位流21存储到存储介质，诸如压缩光盘、数字视频光盘、高清晰度视频光盘或其它存储介质，其大部分能够由计算机读取且因此可称为计算机可读存储介质或非暂时性计算机可读存储介质。在这种情况下，传输信道可以指通过其发送存储到介质的内容的信道(并且可以包括零售店和其它基于商店的递送机制)。在任何情况下，本公开内容的技术因此不应限于关于图1A的示例。

如上所述，内容消费者设备14包括音频回放系统16。音频回放系统16可以表示能够回放多声道音频数据的任何系统。音频回放系统16A可以包括多个不同的音频呈现器22。呈现器22可各自提供不同形式的音频呈现，其中该不同形式的呈现可以包括执行向量基振幅平移(VBAP)的各种方式中的一种或多种和/或执行声场合成的各种方式中的一种或多种。如本文所用，“A和/或B”是指“A或B”，或“A和B”两者。

音频回放系统16A可进一步包括音频解码设备24。音频解码设备24可表示被配置为解码位流21以输出经重构立体混响声系数11A'-11N'(其可形成完整的一阶、二阶和/或三阶立体混响声表示或其子集，其形成相同声场的MOA表示或其分解，诸如MPEG-H 3D音频译码标准和/或MPEG-I沉浸式音频标准中所描述的主要音频信号、环境立体混响声系数及基于向量的信号)的设备。

因此，立体混响声系数11A'-11N'(“立体混响声系数11”)可类似于立体混响声系数11的全集或部分子集，但可由于有损操作(例如，量化)和/或经由传输信道的传输而不同。音频回放系统16可在解码位流21以获得立体混响声系数11'之后，从立体混响声系数11'的不同流中获得立体混响声音频数据15，并呈现立体混响声音频数据15以输出扬声器馈送25。扬声器馈送25可以驱动一个或多个扬声器(为了便于说明，在图1A的示例中未示出)。声场的立体混响声表示可以以多种方式进行归一化，这些方式包括N3D、SN3D、FuMa、N2D或SN2D。

为了选择适当的呈现器，或在一些情况下生成适当的呈现器，音频回放系统16A可获得指示扩音器的数量和/或扩音器的空间几何形状的扩音器信息13。在一些示例中，音频回放系统16A可以以经由参考麦克风动态确定扩音器信息13的方式，使用参考麦克风并输出信号以启动(或换言之，驱动)扩音器以获得扩音器信息13。在其他示例中，或者结合扩音器信息13的动态确定，音频回放系统16A可以提示用户与音频回放系统16A对接并输入扩音器信息13。

音频回放系统16A可以基于扩音器信息13来选择音频呈现器22之一。在一些示例中，当没有任何一个音频呈现器22处于与扩音器信息13中指定的扩音器几何形状的某个阈值相似性度量(就扩音器几何形状而言)内时，音频回放系统16A可基于扩音器信息13生成音频呈现器22之一。在一些情况下，音频回放系统16A可以基于扩音器信息13生成音频呈现器22之一，而不首先尝试选择音频呈现器22中现有的一个。

当将扬声器馈送25输出到耳机时，音频回放系统16A可以利用呈现器22中的一个呈现器，该呈现器使用头部相关传递函数(HRTF)或能够呈现到左和右扬声器馈送25以用于耳机扬声器回放的其他函数，来提供双耳呈现。术语“扬声器”或“换能器”通常可以指任何扬声器，包括扩音器、耳机扬声器等。一个或多个扬声器然后可以回放经呈现的扬声器馈送25。

虽然描述为从立体混响声音频数据15呈现扬声器馈送25，但对呈现扬声器馈送25的提及可指代其它类型的呈现，例如直接并入到来自位流21的立体混响声音频数据15的解码中的呈现。作为替代的呈现的示例可在MPEG-H 3D音频译码标准的附录G中找到，其中呈现发生在声场的合成之前的主要信号形成和背景信号形成期间。因此，对呈现立体混响声音频数据15的提及应被理解为指代实际立体混响声音频数据15的呈现或立体混响声音频数据15的分解或其表示(例如上文提及的主要音频信号、环境立体混响声系数和/或基于向量的信号，其也可被称为V向量)两者。

如上所述，内容消费者设备14可以表示VR设备，其中，人类可穿戴显示器安装在操作VR设备的用户的眼睛前方。图4A和4B是示出VR设备400A和400B的示例的图。在图4A的示例中，VR设备400A耦合到或以其它方式包括头戴式耳机404，其可通过回放扬声器馈送25而再现由立体混响声音频数据15(其为指代立体混响声系数15的另一方式)表示的声场。扬声器馈送25可以表示能够使头戴式耳机404的换能器内的膜以各种频率振动的模拟或数字信号。这种过程通常被称为驱动头戴式耳机404。

视频、音频和其它感觉数据在VR体验中可能扮演重要角色。为了参与VR体验，用户402可以佩戴VR设备400A(其也可以被称为VR头戴式耳机400A)或其他可穿戴电子设备。VR客户端设备(例如VR头戴式耳机400A)可以跟踪用户402的头部移动，并且调整经由VR头戴式耳机400A显示的视频数据以应对该头部移动，从而提供沉浸式体验，其中用户402可以体验以视觉三维在视频数据中显示的虚拟世界。

虽然VR(以及通常可以被称为以计算机为媒介的现实设备的其他形式的AR和/或MR)可以允许用户402视觉上存在于虚拟世界中，但是VR头戴式耳机400A经常可能缺乏将用户在听觉上置于虚拟世界中的能力。即，VR系统(其可以包括负责呈现视频数据和音频数据的计算机，为了便于说明，其在图4A的示例中未示出，以及VR头戴式耳机400A)可能不能支持听觉上的完全三维沉浸。

图4B是示出可以根据本公开中描述的技术的各个方面进行操作的可穿戴设备400B的示例的图。在各种示例中，可穿戴设备400B可以表示VR头戴式耳机(诸如，上述VR头戴式耳机400A)、AR头戴式耳机、MR头戴式耳机或任何其他类型的XR头戴式耳机。增强现实“AR”可以指覆盖在用户实际所处的现实世界上的计算机呈现的图像或数据。混合现实“MR”可以指被世界锁定到现实世界中的特定位置的计算机呈现的图像或数据，或者可以指VR的变体，其中部分计算机呈现的3D元素和部分拍摄的现实元素被组合成模拟用户在环境中的物理存在的沉浸式体验。扩展现实“XR”可以表示针对VR、AR和MR的通用术语。关于XR的术语的更多信息可以在Jason Peterson的题为“Virtual Reality,Augmented Reality,andMixed Reality Definitions”的日期为2017年7月7日的文献中找到。

可穿戴设备400B可以表示其他类型的设备，诸如手表(包括所谓的“智能手表”)、眼镜(包括所谓的“智能眼镜”)、头戴式耳机(包括所谓的“无线头戴式耳机”和“智能头戴式耳机”)、智能服装、智能珠宝等。无论表示VR设备、手表、眼镜和/或耳机，可穿戴设备400B可以经由有线连接或无线连接与支持可穿戴设备400B的计算设备进行通信。

在一些示例中，支持可穿戴设备400B的计算设备可以集成在可穿戴设备400B内，并且因此，可穿戴设备400B可以被认为是与支持可穿戴设备400B的计算设备相同的设备。在其他示例中，可穿戴设备400B可以与可以支持可穿戴设备400B的单独计算设备通信。在这方面，术语“支持”不应被理解为需要单独的专用设备，而是被配置为执行本公开中描述的技术的各个方面的一个或多个处理器可以被集成在可穿戴设备400B内或者被集成在与可穿戴设备400B分离的计算设备内。

例如，当可穿戴设备400B表示VR设备400B的示例时，根据本公开中描述的技术的各个方面，单独的专用计算设备(诸如包括该一个或多个处理器的个人计算机)可以呈现音频和视觉内容，而可穿戴设备400B可以基于平移头部移动来确定专用计算设备可以在其时刻呈现音频内容(作为扬声器馈送)的平移头部移动。作为另一示例，当可穿戴设备400B表示智能眼镜时，可穿戴设备400B可以包括该一个或多个处理器，该一个或多个处理器既确定平移头部移动(通过在可穿戴设备400B的一个或多个传感器对接)又基于所确定的平移头部移动来呈现扬声器馈送。

如图所示，可穿戴设备400B包括一个或多个定向扬声器以及一个或多个跟踪和/或记录相机。另外，可穿戴设备400B包括一个或多个惯性、触觉和/或健康传感器、一个或多个眼睛跟踪相机、一个或多个高灵敏度音频麦克风和光学/投影硬件。可穿戴设备400B的光学/投影硬件可以包括耐用的半透明显示技术和硬件。

可穿戴设备400B还包括连接硬件，其可以表示支持多模式连接的一个或多个网络接口，例如4G通信、5G通信、蓝牙等。可穿戴设备400B还包括一个或多个环境光传感器和骨传导换能器。在一些示例中，可穿戴设备400B还可以包括具有广角镜头和/或远摄镜头的一个或多个无源和/或有源相机。尽管在图4B中未示出，但是可穿戴设备400B还可以包括一个或多个发光二极管(LED)灯。在一些示例中，(一个或多个)LED灯可以被称为(一个或多个)“超亮”LED灯。在一些实施方式中，可穿戴设备400B还可以包括一个或多个后置相机。将理解，可穿戴设备400B可以呈现各种不同的形状因子。

此外，跟踪和记录相机及其他传感器可以便于确定平移距离。尽管在图4B的示例中未示出，但是可穿戴设备400B可以包括用于检测平移距离的其他类型的传感器。

尽管针对可穿戴设备的特定示例进行了描述，诸如以上针对图4B的示例讨论的VR设备400B和在图1A和图1B的示例中阐述的其他设备，但是本领域普通技术人员将理解，与图1A-图4B相关的描述可以应用于可穿戴设备的其他示例。例如，诸如智能眼镜的其他可穿戴设备可以包括用于获得平移头部移动的传感器。作为另一示例，诸如智能手表的其他可穿戴设备可以包括用于获得平移移动的传感器。因此，本公开内容中描述的技术不应限于特定类型的可穿戴设备，而是任何可穿戴设备可被配置为执行本公开内容中描述的技术。

在任何情况下，可以将VR的音频方面分成三种独立的沉浸感类别。第一类提供最低的沉浸水平，并且被称为三个自由度(3DOF)。3DOF指的是在三个自由度(偏摆(yaw)、俯仰(pitch)和滚转(roll))上应对头部移动的音频呈现，由此允许用户在任何方向上自由地环顾。然而，3DOF不能应对平移头部移动，其中头部不以声场的光学和声学中心为中心。

第二类，称为3DOF加(3DOF+)，提供了三个自由度(偏摆、俯仰和滚转)加上由于在声场内远离光学中心和声学中心的头部移动而导致的有限的空间平移移动。3DOF+可以提供对诸如运动视差的感知效果的支持，这可以增强沉浸感。

第三类，称为六个自由度(6DOF)，以应对头部移动方面的三个自由度(偏摆、俯仰和滚转)并且还应对用户在空间中的平移(x、y和z平移)的方式，来呈现音频数据。空间平移可以由跟踪用户在物理世界中的位置的传感器或通过输入控制器来引起。

3DOF呈现是用于VR的音频方面的现有技术。这样，VR的音频方面比视频方面的沉浸感小，从而潜在地减少了用户体验的整体沉浸感，并且引入了定位误差(例如，诸如当听觉回放与视觉场景不匹配或不准确相关时)。

尽管3DOF呈现是当前状态，但是诸如3DOF+和6DOF呈现之类的更沉浸式音频呈现可能导致在扩展的处理器周期、所消耗的存储器和带宽等方面的更高的复杂度。在努力降低复杂性的过程中，音频回放系统16A可以包括内插设备30(“INT设备30”)，其可选择立体混响声系数11'的子集作为立体混响声音频数据15。内插设备30随后可以对所选择的立体混响声系数11'的子集进行内插，应用各种权重(如由所测量的对听觉场景的重要性所定义的权重-例如，依据增益分析或其它分析(诸如方向性分析)等等来定义权重)，随后对经加权的立体混响声系数11'求和以形成立体混响声音频数据15。内插设备30可选择立体混响声系数的子集，借此减少在呈现立体混响声音频数据15时执行的运算的数量(因为增加立体混响声系数11'的数量同样增加为了从立体混响声音频数据15呈现扬声器馈送25而执行的运算的数量)。

因此，可能存在其中高复杂度音频呈现在提供沉浸式体验方面可能是重要的实例，以及其中低复杂度音频呈现可能足以提供相同沉浸式体验的其他实例。此外，具有提供高复杂度音频呈现同时还支持低复杂度音频呈现的能力可使得具有不同处理能力的设备能够执行音频呈现，从而潜在地加速对XR设备的采用，因为低成本设备(与较高成本设备相比具有可能较低处理能力)可允许更多的人购买并体验XR。

根据本公开中描述的技术，描述了各种方式，通过这些方式来在具有用于控制音频回放系统16A处的音频呈现的附加元数据或其他指示的情况下，实现低复杂度音频呈现，同时提供用于高复杂度音频呈现的选项。这些技术可使音频回放系统16A能够在复杂度(如由处理器周期、消耗的存储器和/或带宽所定义的复杂度)方面执行灵活的呈现，同时还按照将内部区域与外部区域分开的边界所定义的，允许XR体验的内部和外部呈现。此外，音频回放系统16A可利用表示音频数据的位流中指定的元数据或其他指示来配置音频呈现器22，同时还参考相对于边界的收听者位置17来生成音频呈现器22以应对内部区域或外部区域。

因此，该技术可改进音频回放系统的操作，因为当被配置为执行低复杂度呈现时，音频回放系统16A可以减少处理器周期、所消耗的存储器和/或带宽的数量。当执行高复杂度呈现时，音频回放系统16A可提供更沉浸式XR体验，这可使得音频回放系统16A的用户更真实地置于XR体验中。

如图1A的示例中所示，音频回放系统16A可以包括呈现器生成单元32，其表示根据本公开内容中所描述的技术的各个方面被配置为生成或以其它方式获得所述音频呈现器22中的一个或多个音频呈现器22的单元。在一些示例中，呈现器生成单元32可执行上述过程以基于收听者位置17和扬声器几何形状13生成音频呈现器22。

然而，另外，呈现器生成单元32可从位流21(其可由音频解码设备24解析)获得各种指示31(例如，语法元素或其它类型的元数据)。如此，声场表示生成器302可在将位流21发送给音频回放设备16A之前指定位流21中的指示31。作为一个示例，声场表示生成器302可从内容捕获设备300接收指示31。操作者、编辑者或其他个人可通过与内容捕捉设备300或诸如内容编辑设备之类的某个其他设备的交互来指定该指示31。

一个或多个指示31可以包括：指示要由音频回放系统16A执行的呈现的复杂度的指示、关于用于呈现存在于立体混响声系数s中的次级源的不透声性的指示、和/或关于围绕内部区域的缓冲距离的指示，其中在内部呈现与外部呈现之间对呈现进行内插。指示复杂度的指示可以将复杂度指示为低复杂度或高复杂度(作为布尔值，其中“真”用于低复杂度，而“假”用于高复杂度)。指示不透声性的指示可以指示不透声或非不透声(作为布尔值，其中“真”指示不透声，“假”指示非不透声，尽管不透声性可以被定义为值为零到一之间的浮点数)。指示距离缓冲的指示可以将距离指示为一个值。

声场表示生成器302还可在位流21中指定分离内部区域与外部区域的边界。如上文所提及，声场表示生成器302还可指定用于控制针对内部区域和外部区域的对立体混响声系数11的呈现的一个或多个指示31。声场表示生成器302可输出位流21以供递送(经由网络流传输等以近实时的方式递送或如上文所述的稍后递送)。

音频回放系统16A可获得位流21并调用音频解码设备24来解压缩位流以获得立体混响声音频系数11'，以及从位流21中解析出指示31。音频解码设备24可将指示31连同关于边界的指示一起输出到呈现器生成单元32。音频回放系统16A还可以与跟踪设备306对接以获得收听者位置17，其中将边界、收听者位置17和指示31提供给呈现器生成单元32。

这样，呈现器生成单元32可获得关于将内部区域与外部区域分开的边界的指示。呈现器生成单元32还可以获得指示内容消费者设备14相对于内部区域的位置的收听者位置17。

呈现器生成单元32可接着基于边界和收听者位置17，来获得在将立体混响声音频数据15呈现到一个或多个扬声器馈送25时要使用的当前呈现器22。当前呈现器22可被配置为针对内部区域来呈现立体混响声音频数据25(且从而作为内部呈现器操作)或被配置为针对外部区域来呈现音频数据(且从而作为外部呈现器操作)。

确定是将当前呈现器22配置为内部呈现还是外部呈现器，可取决于在XR场景中内容消费者设备14相对于边界位于何处。例如，当内容消费者设备14在XR场景中并且按照收听者位置17在由边界限定的内部区域之外时，呈现器生成单元32可以将当前呈现器22配置为作为外部呈现器操作。当内容消费者设备14在XR场景中并且按照收听者位置17在由边界限定的内部区域之内时，呈现器生成单元32可以将当前呈现器22配置为作为内部呈现器操作。呈现器生成单元32可输出当前呈现器22，其中音频回放系统16A可将当前呈现器22应用于立体混响声音频数据15以获得扬声器馈送25。

将在下面针对图2和3的示例来描述有关关于复杂度的指示、关于不透声性的指示和关于距离缓冲的指示的更多信息。

图2是示出根据本公开内容中所描述的技术的各个方面的用于扩展现实(XR)场景的低复杂性呈现的示例的图。如图2的示例所示，XR场景200包括操作内容消费者设备14A(为了便于说明而未示出)的操作者202。XR场景200还包括将内部区域206与外部区域208分开的边界204。

尽管在图2的示例中示出了单个边界204，XR场景200可以包括将不同的内部区域与外部区域208分开的多个边界。此外，尽管被示为单个边界204，但是边界可以存在于其他边界内、与其他边界重叠、等等。当边界存在于其它边界内时，由较大边界界定的内部区域可相对于由外边界(outer boundary)内的边界所界定的内部区域的呈现而作为外部边界操作(出于呈现的目的)。

在任何情况下，首先假设操作者202在相对于边界204的外部区域208中，则(内容消费者设备14A的)呈现器生成单元32可以首先确定关于复杂度的指示是指示高复杂度还是低复杂度。出于说明的目的，假设关于复杂度的指示指出低复杂度，呈现器生成单元32可以确定在收听者位置17与内部区域206的中心210之间的第一距离(作为一个示例，基于边界204计算，其可以被表示为形状、点列表、样条或任何其他几何表示)。呈现器生成单元32接下来可以确定边界204与中心210之间的第二距离。

呈现器生成单元32然后可以将第一距离与第二距离进行比较，以确定操作者202存在于边界204之外。即，当第一距离大于第二距离时，呈现器生成单元32可确定操作者202位于边界204之外。对于低复杂度配置，呈现器生成单元32可生成当前呈现器22以针对内部区域206来呈现立体混响声音频数据15，使得由立体混响声音频数据15表示的声场源自内部区域206的中心210。呈现器生成单元32可将立体混响声音频数据15呈现为与操作者202正面对的方向成theta(θ)度定位。

使声场看起来源自单个点，即，在该示例中是中心210，可以降低处理周期、存储器和带宽消耗方面的复杂度，因为这可以导致较少的扬声器馈送被用于表示声场(并且潜在地减少平移、混合和其他音频操作)，同时还潜在地保持沉浸式体验。当呈现器生成单元32仅利用立体混响声音频数据15的单个立体混响声系数(例如对应于具有零阶的球面基函数的立体混响声系数，对应于具有零阶的球面基函数的立体混响声系数表示声场的增益，且不提供太多的空间信息(如果存在任何空间信息的话)，且因此不需要复杂的呈现)而不是处理来自立体混响声音频数据15的多个立体混响声系数时，可以实现处理器周期、存储器和带宽消耗的进一步减少。

接下来，假定操作者202移动到内部区域206中。呈现器生成单元32可以接收更新的收听者位置17，并且执行上述相同的处理以确定(由于第一距离小于第二距离)操作者202位于内部区域206中。对于低复杂度指示且响应于确定操作者202存在于内部区域中，呈现器生成单元206可输出经更新的当前呈现器22，其被配置为呈现立体混响声音频数据15，使得由立体混响声音频数据15表示的声场出现在整个内部区域206中(其可被称为完全或正常呈现，因为可以呈现所有立体混响声音频数据15，使得声场内的音频源被准确地放置在操作者202周围)。

这样，当内部场被指定为使用低复杂度呈现器来呈现以用于低延迟应用或用于艺术意图时，则在生成当前呈现器22时不使用缓冲区距离或不透声性的属性。在此情况下，当收听者202(其为指代操作者202的另一种方式)在内场区域206(其为指代内部区域206的另一种方式)外部时，从内场区域206的中心210朝向收听者202播放W立体混响声声道(对应于球面谐波函数α₀₀(t)的零阶和子阶的音频数据)。当收听者202位于内场区域206内时，通常从所有方向回放立体混响声声场。

图3是示出根据本发明中所描述的技术的各个方面的针对XR场景的包括距离缓冲的高复杂度呈现的示例的图。XR场景220类似于图2的示例中所示的XR场景200，接受假设关于复杂度的指示指出高复杂度。响应于该指示指出高复杂度，呈现器生成单元32可以利用关于距离缓冲(其被示出为“距离缓冲222”)的指示，从而生成过渡区224(其也可以被称为“内插区224”)。

首先假设操作者202存在于外部区域208中，呈现器生成单元32可以以上面针对图2的示例描述的方式来确定操作者202存在于外部区域208中。响应于确定操作者202存在于外部区域208中，呈现器生成单元32接下来可以确定关于复杂度的指示是指示高复杂度还是低复杂度。为了说明的目的，假设关于复杂度的指示指出高复杂度，呈现器生成单元32可以确定关于不透声性的指示是指示不透声还是非不透声。

当关于不透声性的指示指出不透声时，呈现器生成单元32可配置当前呈现器22丢弃由立体混响声音频数据15表示的声场中存在的不直接在操作者202的视线中的次级音频源。即，呈现器生成单元32可以基于收听者位置17和边界204来配置当前呈现器22，以排除对收听者位置17指示为不直接在视线中的次级音频源的添加。当关于不透声性的指示指出非不透声时，呈现器生成单元32恢复到考虑所有次级源的正常呈现。

当使用高复杂度配置当前呈现器22以用于外部呈现时，呈现器生成单元32可在所有情况下(例如，不透声或非不透声)配置当前呈现器22以呈现立体混响声音频数据15，使得立体混响声音频数据15所表示的声场根据收听者位置17与边界204之间的距离而展开(spread out)。在图1的示例中，展开角度表示为theta(θ)度。该距离由两条虚线226A和226B示出，从而生成θ度的展开。

当操作者202移动到过渡区域224中时，响应于确定收听者位置17在边界204的距离缓冲222内，呈现器生成单元32可以更新当前呈现器22以在外部呈现器和内部呈现器之间进行内插。内插的示例可以是(1-a)*internal_rendering+a*external_rendering，其中，a是基于收听者202与声场边界204(其为指代边界204的另一种方式)的接近程度的分数。音频回放系统16A随后可以应用经更新的当前呈现器22以获得一个或多个经更新的扬声器馈送25。

当操作者202完全移动到内部区域206内时，呈现器生成单元32可以生成当前呈现器22以正常地呈现。即，呈现器生成单元32可生成当前呈现器22，以使用立体混响声音频数据15的所有立体混响声系数且以将每一个音频源正确地放置在声场中的方式(例如，不将所有源定位在相同位置，例如图2的示例中所示的内部区域206的中心210)来完全呈现存在于内部区域206内的立体混响声音频数据15。

即，以立体混响声格式表示的内部声场206允许边界上的次级源，且这些次级源根据Huygen原理对收听者202处的声音有贡献。当不透声性属性为真时，呈现器生成单元32可以不添加收听者202不具有到其的直接视线的次级源的贡献。

在高复杂度呈现器中，收听者202可以根据其距内部声场206的距离，作为展开源而收听到内部声场206。当收听者202从外部声场208(其是指代外部区域208的另一种方式)移动到内部声场206(其是指代内部区域206的另一种方式)时，呈现可以改变并且该移动可平滑地进行。Buffer_Distance属性指定当执行用于外部和内部收听者202的呈现之间的内插时的距离。一个示例内插方案包括(1-a)*internal_rendering+a*external_rendering。该变量可以表示基于收听者与声场边界204的接近程度的分数。

例如，管弦乐队可以被表示为内部立体混响声声场。在这种情况下，收听者202应当具有来自所有乐器的贡献，因此不透声性为假。在内部场表示人群并且意图是随着收听者围绕边界204的外部移动而改变收听体验的情况下，可以将不透声性设置为真。

因此，可指定添加不透声性属性、内插缓冲距离属性和复杂性属性(其为指代指示31的另一种方式)，以支持将内部立体混响声声场呈现为MPEG-I编码器输入格式。几个使用场景可以例示这些属性的有用性。这些属性可以促进针对6DOF(和其他)使用情况的对在收听者位置处的内部声场的呈现的控制。

图1B是示出被配置为执行本发明中所描述的技术的各个方面的另一示例系统100的方框图。系统100类似于图1A中所示的系统10，除了将图1A中所示的音频呈现器22替换为双耳呈现器102，双耳呈现器102能够使用一个或多个HRTF或者能呈现到左和右扬声器馈送103的其他功能来执行双耳呈现。

音频回放系统16B可以将左和右扬声器馈送103输出到耳机104，耳机104可以表示可穿戴设备的另一示例并且其可以耦合到附加可穿戴设备以有利于声场的再现，这些额外可穿戴设备诸如手表、上文提到的VR头戴式耳机、智能眼镜、智能服装、智能戒指、智能手镯或任何其他类型的智能珠宝(包括智能项链)、等等。耳机104可以无线地或经由有线连接耦合到附加可穿戴设备。

另外，耳机104可以经由有线连接(诸如标准3.5mm音频插孔、通用系统总线(USB)连接、光学音频插孔或其他形式的有线连接)或无线地(诸如通过蓝牙^TM连接、无线网络连接等)耦合到音频回放系统16。耳机104可基于左和右扬声器馈送103重新创建由立体混响声系数11表示的声场。耳机104可以包括由对应的左和右扬声器馈送103供电(或者，换言之，驱动)的左耳机扬声器和右耳机扬声器。

尽管针对如图4A和4B的示例中所示的VR设备进行了描述，但是这些技术可以由其他类型的可穿戴设备执行，包括手表(诸如所谓的“智能手表”)、眼镜(诸如所谓的“智能眼镜”)、耳机(包括经由无线连接耦合的无线耳机，或者经由有线或无线连接耦合的智能耳机)以及任何其他类型的可穿戴设备。由此，这些技术可由任何类型的可穿戴设备来执行，通过这些任何类型的可穿戴设备，用户可在用户穿戴可穿戴设备时与可穿戴设备进行交互。

图5A和5B是示出可执行本公开内容中所描述的技术的各个方面的示例系统的图。图5A说明其中源设备12进一步包括相机200的示例。相机200可被配置为捕获视频数据，并将捕获的原始视频数据提供给内容捕获设备300。内容捕获设备300可将视频数据提供到源设备12的另一组件以供进一步处理成经视口划分的部分(viewport-divided portions)。

在图5A的示例中，内容消费者设备14还包括可穿戴设备800。将理解，在各种实施方式中，可穿戴设备800可以被包括在内容消费者设备14中或者外部耦合到内容消费者设备14。如上文针对图4A和4B所讨论的，可穿戴设备800包括用于输出视频数据(例如，如与各种视口相关联的)和用于呈现音频数据的显示器硬件和扬声器硬件。

图5B示出了与图5A所示的示例类似的示例，除了将图5A所示的音频呈现器22替换为双耳呈现器102，双耳呈现器102能够使用一个或多个HRTF或能呈现到左和右扬声器馈送103的其他功能来执行双耳呈现。音频回放系统16可以将左和右扬声器馈送103输出到耳机104。

耳机104可以经由有线连接(诸如标准3.5mm音频插孔、通用系统总线(USB)连接、光学音频插孔或其他形式的有线连接)或无线地(诸如通过蓝牙^TM连接、无线网络连接等)耦合到音频回放系统16。耳机104可基于左和右扬声器馈送103重新创建由立体混响声系数11表示的声场。耳机104可以包括由对应的左和右扬声器馈送103供电(或者，换言之，驱动)的左耳机扬声器和右耳机扬声器。

图6A是在执行本公开内容中所描述的技术的各个方面时图1A和1B的示例中所示的音频回放设备的方框图。音频回放设备16C可以表示音频回放设备16A和/或音频回放设备16B的示例。音频回放系统16可以包括与6DOF音频呈现器22A结合的音频解码设备24，该音频呈现器22A可以表示图1A的示例中所示的音频呈现器22的一个示例。

音频解码设备24可以包括低延迟解码器900A、音频解码器900B和本地音频缓冲器902。低延迟解码器900A可对XR音频位流21A进行处理以获得音频流901A，其中低延迟解码器900A可执行相对低复杂度的解码(与音频解码器900B相比)以便于音频流901A的低延迟重构。音频解码器900B可针对音频位流21B执行相对较高复杂度的解码(与音频解码器900A相比)以获得音频流901B。音频解码器900B可执行符合MPEG-H 3D音频译码标准的音频解码。本地音频缓冲器902可以表示被配置为缓冲本地音频内容的单元，本地音频缓冲器902可将本地音频内容作为音频流903输出。

位流21(包括XR音频位流21A和/或音频位流21B中的一个或多个)还可以包括XR元数据905A(其可以包括上述麦克风位置信息)和6DOF元数据905B(其可指定与6DOF音频呈现相关的各种参数)。6DOF音频呈现器22A可以获得来自缓冲器910的音频流901A和/或901B和/或音频流903以及XR元数据905A、6DOF元数据905B、收听者位置17和HRTF 23，并基于收听者位置和麦克风位置呈现扬声器馈送25和/或103。在图6A的示例中，6DOF音频呈现器22A包括内插设备30A，其可以执行上面更详细描述的音频流选择和/或内插技术的各个方面以便于6DOF音频呈现。在图6A的示例中，6DOF音频呈现器22A还包括控制器920，其可以将适当的元数据和音频信号传递到内插设备30A。内插设备30A可以对来自缓冲器910中的两个或更多个源的立体混响声系数进行内插，或对来自音频对象呈现器和/或6DOF音频呈现器22A的双声道化的音频进行内插。虽然被示为6DOF的一部分，但是在一些示例中，控制器920可以位于音频回放设备16C中的其他位置。在一些示例中，低延迟解码器900A、音频解码器900B、本地音频缓冲器902、缓冲器910和6DOF音频呈现器22A中的任何一个可以在一个或多个处理器中实现。

图6B是在执行本公开内容中所描述的技术的各个方面时图1A和1B的示例中所示的音频回放设备的方框图。图6B的示例音频回放设备16D类似于图6A的音频回放设备16C，然而，音频回放设备16D还包括音频对象呈现器912和3DOF音频呈现器914。音频对象呈现器912、3DOF音频呈现器914和6DOF音频呈现器22B中的每一个可以接收收听者位置17和HRTF23。在该示例中，音频对象呈现器912、3DOF音频呈现器914的输出，或者6DOF音频呈现器的输出可以被发送到双声道化器916，双声道化器916可以执行双耳呈现。在一些示例中，音频对象呈现器912、3DOF音频呈现器914和6DOF音频呈现器22B的每一个可以输出立体混响声。可以将双声道化器916的输出发送到内插设备30B。内插设备30B可以包括控制器918。虽然示出了来自音频解码设备24的单个输出，但是在一些示例中，低延迟解码器900A、音频解码器900B和本地音频缓冲器902可以各自具有到音频对象呈现器912、3DOF音频呈现器914和6DOF音频呈现器22A中的每一个的单独连接。在图6B的示例中，内插设备30B可以对来自双声道化器916的双声道化的音频进行内插。在图6B的示例中，内插设备30B还包括控制器918，其可以控制内插设备30B的功能。虽然被示为内插设备30的一部分，但是在一些示例中，控制器918可以位于音频回放设备16D中的其他位置。在一些示例中，低延迟解码器900A、音频解码器900B、本地音频缓冲器902、缓冲器910、音频对象呈现器912、3DOF音频呈现器914、6DOF音频呈现器22B、双声道化器916和内插设备30B中的任何一个可以在一个或多个处理器中实现。

图6C是在执行本公开内容中所描述的技术的各个方面时图1A和1B的示例中所示的音频回放设备的方框图。图6C的示例音频回放设备16E类似于图6B的音频回放设备16D，然而，不是音频对象呈现器912、3DOF音频呈现器914或6DOF音频呈现器22A将它们的输出发送到双声道化器916，而是音频对象呈现器912、3DOF音频呈现器914或6DOF音频呈现器22A将它们的输出发送到内插设备30B，内插设备30B又将输出发送到双声道化器916。在一些示例中，音频对象呈现器912、3DOF音频呈现器914和6DOF音频呈现器22B的每一个可以输出立体混响声。在图6C的示例中，内插设备30B可以对来自音频对象呈现器912、3DOF音频呈现器914或6DOF音频呈现器22B中的两个或更多个的立体混响声系数进行内插。在图6C的示例中，内插设备30B还包括控制器918，其可以控制内插设备30B的功能。虽然被示为内插设备30B的一部分，但是在一些示例中，控制器918可以位于音频回放设备16E中的其他位置。在一些示例中，低延迟解码器900A、音频解码器900B、本地音频缓冲器902、缓冲器910、音频对象呈现器912、3DOF音频呈现器914、6DOF音频呈现器22B、双声道化器916和内插设备30B中的任何一个可以在一个或多个处理器中实现。

图6D是在执行本公开内容中所描述的技术的各个方面时图1A和1B的示例中所示的音频回放设备的方框图。图6D的示例音频回放设备16F类似于图6C的音频回放设备16E，然而音频回放设备16G不包括双声道化器916。在一些示例中，音频对象呈现器912、3DOF音频呈现器914和6DOF音频呈现器22B的每一个可以输出立体混响声。在图6D的示例中，内插设备30B可以对来自音频对象呈现器912、3DOF音频呈现器914或6DOF音频呈现器22B中的两个或更多个的立体混响声系数进行内插，或对来自音频对象呈现器912、3DOF音频呈现器914和/或6DOF音频呈现器22B的双声道化的音频进行内插。在图6D的示例中，内插设备30B还包括控制器918，其可以控制内插设备30B的功能。虽然被示为内插设备30的一部分，但是在一些示例中，控制器918可以位于音频回放设备16F中的其他位置。在一些示例中，低延迟解码器900A、音频解码器900B、本地音频缓冲器902、缓冲器910、音频对象呈现器912、3DOF音频呈现器914、6DOF音频呈现器22B、双声道化器916和内插设备30B中的任何一个可以在一个或多个处理器中实现。

图6E是在执行本公开内容中所描述的技术的各个方面时图1A和1B的示例中所示的音频回放设备的方框图。图6E的示例音频回放设备16G类似于图6D的音频回放设备16F，然而3DOF音频呈现器914是6DOF音频呈现器22C的一部分，而不是单独的设备。在一些示例中，音频对象呈现器912、3DOF音频呈现器914和6DOF音频呈现器22C中的每一个可以输出立体混响声。在图6E的示例中，内插设备30B可以对来自音频对象呈现器912、3DOF音频呈现器914或6DOF音频呈现器22B中的两个或更多个的立体混响声系数进行内插，或对来自音频对象呈现器912、3DOF音频呈现器914和/或6DOF音频呈现器22B的双声道化的音频进行内插。在图6E的示例中，内插设备30B还包括控制器918，其可以控制内插设备30B的功能。虽然被示为内插设备30B的一部分，但是在一些示例中，控制器918可以位于音频回放设备16G中的其他位置。在一些示例中，低延迟解码器900A、音频解码器900B、本地音频缓冲器902、缓冲器910、音频对象呈现器912、6DOF音频呈现器22C和内插设备30B中的任何一个可以在一个或多个处理器中实现。

图6F是在执行本公开内容中所描述的技术的各个方面时图1A和1B的示例中所示的音频回放设备的方框图。图6F的示例音频回放设备16H类似于图6A的音频回放设备16C，然而音频解码器900C包括音频对象呈现器912、HOA呈现器922和双声道化器916，并且内插设备30C是一个独立的设备并包括控制器918和6DOF音频呈现器22A。在图6F的示例中，内插设备30C可以对来自缓冲器910中的两个或更多个源的立体混响声系数进行内插，或对来自双声道化器916的双声道化的音频进行内插。在图6F的示例中，内插设备30C还包括控制器918，其可以控制内插设备30C的功能。虽然被示为内插设备30C的一部分，但是在一些示例中，控制器918可以位于音频回放设备16H中的其他位置。虽然在图6A-6F中已经阐述了音频回放设备的几个示例，但是包括图6A-6F的各种元件的其他组合的其他示例可以属于本公开内容的范围内。在一些示例中，低延迟解码器900A、音频解码器900C、本地音频缓冲器902、缓冲器910和内插设备30B中的任何一个可以在一个或多个处理器中实现。

图7示出了根据本公开内容的各方面的支持音频流传输的无线通信系统100的示例。无线通信系统100包括基站105、UE 115和核心网络130。在一些示例中，无线通信系统100可以是长期演进(LTE)网络、高级LTE(LTE-A)网络、LTE-A Pro网络或新无线电(NR)网络。在一些情况下，无线通信系统100可以支持增强宽带通信、超可靠(例如，关键任务)通信、低延迟通信、或与低成本和低复杂度设备的通信。

基站105可以经由一个或多个基站天线与UE 115进行无线通信。本文描述的基站105可以包括或者可以被本领域技术人员称为基站收发台、无线电基站、接入点、无线电收发机、节点B、eNodeB(eNB)、下一代节点B或千兆节点B(其中任一个可以被称为gNB)、家庭节点B、家庭eNodeB或某个其它适当的术语。无线通信系统100可以包括不同类型的基站105(例如，宏小区基站或小型小区基站)。本文描述的UE 115能够与各种类型的基站105和网络设备进行通信，包括宏eNB、小型小区eNB、gNB、中继基站等。

每个基站105可以与其中支持与各个UE 115的通信的特定地理覆盖区域110相关联。每个基站105可以经由通信链路125提供针对相应地理覆盖区域110的通信覆盖，并且基站105和UE 115之间的通信链路125可以利用一个或多个载波。无线通信系统100中所示的通信链路125可以包括从UE 115到基站105的上行链路传输，或者从基站105到UE 115的下行链路传输。下行链路传输也可被称为前向链路传输，而上行链路传输也可被称为反向链路传输。

可以将基站105的地理覆盖区域110划分成构成地理覆盖区域110的一部分的扇区，并且每个扇区可以与小区相关联。例如，每个基站105可以为宏小区、小型小区、热点或其他类型的小区或其各种组合提供通信覆盖。在一些示例中，基站105可以是可移动的，并且因此为移动的地理覆盖区域110提供通信覆盖。在一些示例中，与不同技术相关联的不同地理覆盖区域110可以重叠，并且与不同技术相关联的重叠地理覆盖区域110可以由相同基站105或不同基站105支持。无线通信系统100可以包括例如异构LTE/LTE-A/LTE-A Pro或NR网络，其中不同类型的基站105为各种地理覆盖区域110提供覆盖。

UE 115可以分散在整个无线通信系统100中，并且每个UE 115可以是静止的或移动的。UE 115还可以被称为移动设备、无线设备、远程设备、手持设备或订户设备，或者某个其它适当的术语，其中“设备”还可以被称为单元、站、终端或客户端。UE 115还可以是个人电子设备，例如蜂窝电话、个人数字助理(PDA)、平板计算机、膝上型计算机或个人计算机。在本公开内容的示例中，UE 115可以是本公开内容中描述的音频源中的任何一个，包括VR头戴式耳机、XR头戴式耳机、AR头戴式耳机、车辆、智能电话、麦克风、麦克风阵列、或者包括麦克风或者能够发送所捕获的和/或所合成的音频流的任何其它设备。在一些示例中，合成音频流可以是存储在存储器中或先前被创建或合成的音频流。在一些示例中，UE 115还可以指无线本地环路(WLL)站、物联网(IoT)设备、万物联网(IoE)设备或MTC设备等，其可以在诸如电器、车辆、仪表等的各种制品中实现。

一些UE 115(诸如MTC或IoT设备)可以是低成本或低复杂度设备，并且可以提供机器之间的自动通信(例如，经由机器对机器(M2M)通信)。M2M通信或MTC可指允许设备彼此通信或与基站105通信而无需人为干预的数据通信技术。在一些示例中，M2M通信或MTC可以包括来自如下设备的通信：这些设备交换和/或使用指示隐私限制和/或基于口令的隐私数据的音频元数据，以切换、屏蔽和/或无效化各种音频流和/或音频源，如将在下面更详细地描述的。

在一些情况下，UE 115还能够直接与其它UE 115通信(例如，使用对等(P2P)或设备到设备(D2D)协议)。利用D2D通信的UE 115的组中的一个或多个UE 115可以在基站105的地理覆盖区域110内。该组中的其它UE 115可以在基站105的地理覆盖区域110之外，或者由于其它原因不能从基站105接收传输。在一些情况下，经由D2D通信进行通信的UE 115的组可以利用一对多(1：M)系统，其中每个UE 115向组中的每个其他UE 115进行发送。在一些情况下，基站105促进用于D2D通信的资源的调度。在其他情况下，在UE 115之间执行D2D通信，而不涉及基站105。

基站105可以与核心网络130通信并且彼此通信。例如，基站105可以通过回程链路132(例如，经由S1、N2、N3或其他接口)与核心网络130对接。基站105可以在回程链路134上(例如，经由X2、Xn或其他接口)直接(例如，在基站105之间直接)或间接(例如，经由核心网络130)彼此通信。

在一些情况下，无线通信系统100可以利用授权和非授权无线电频谱频带两者。例如，无线通信系统100可在诸如5GHz ISM频带的非授权频带中采用授权辅助接入(LAA)、LTE非授权(LTE-U)无线电接入技术或NR技术。当在非授权无线电频谱频带中操作时，诸如基站105和UE 115之类的无线设备可以采用通话前监听(LBT)过程来确保在发送数据之前频率信道是空闲的。在一些情况下，非授权频带中的操作可以基于载波聚合配置结合在授权频带中操作的分量载波(例如，LAA)。非授权频谱中的操作可以包括下行链路传输、上行链路传输、对等传输、或这些的组合。非授权频谱中的双工可以基于频分双工(FDD)、时分双工(TDD)或两者的组合。

图8是示出图1A中所示的源设备在执行本公开内容中所描述的技术的各个方面时的示例操作的流程图。源设备12可以以上文所描述的方式获得表示基于场景的音频数据11的位流21(800)。源设备12的声场表示生成器302可在位流21中指定将内部区域与外部区域分开的边界(802)。

如上文所提及的，声场表示生成器302还可指定用于控制针对内部区域和外部区域的对立体混响声系数11的呈现的一个或多个指示31(804)。声场表示生成器302可输出位流21以供递送(经由网络流传输等以近实时的方式递送或如上文所述稍后递送)(806)。

图9是示出了图1A中所示的内容消费者设备在执行本公开内容中所描述的技术的各个方面时的示例操作的流程图。音频回放系统16A可获得位流21且调用音频解码设备24来解压缩位流以获得立体混响声音频系数11'，以及从位流21中解析出指示31。音频解码设备24可将指示31连同关于边界的指示一起输出到呈现器生成单元32。音频回放系统16A还可以与跟踪设备306对接以获得收听者位置17，其中边界、收听者位置17和指示31被提供给呈现器生成单元32。

这样，呈现器生成单元32可获得关于将内部区域与外部区域分开的边界的指示(950)。呈现器生成单元32还可以获得指示内容消费者设备14相对于内部区域的位置的收听者位置17(952)。

呈现器生成单元32随后可以基于边界和收听者位置17获得在将立体混响声音频数据15呈现到一个或多个扬声器馈送25时要使用的当前呈现器22。当前呈现器22可被配置为针对内部区域来呈现立体混响声音频数据25(从而作为内部呈现器操作)或被配置为针对外部区域来呈现音频数据(从而作为外部呈现器操作)(954)。呈现器生成单元32可输出当前呈现器22，其中音频回放系统16A可将当前呈现器22应用于立体混响声音频数据15以获得扬声器馈送25(956)。

在这方面，本公开内容中所描述的技术的各个方面可实现以下条款。

条款1A.一种处理一个或多个音频流的设备，所述设备包括：一个或多个处理器，其被配置为：获得关于将内部区域与外部区域分开的边界的指示；获得指示所述设备相对于所述内部区域的位置的收听者位置；基于所述边界和所述收听者位置，获得作为被配置为针对所述内部区域来呈现音频数据的内部呈现器或被配置为针对所述外部区域来呈现音频数据的外部呈现器的当前呈现器；将所述当前呈现器应用于所述音频数据以获得一个或多个扬声器馈送；以及存储器，其耦合到所述一个或多个处理器，并且被配置为存储所述一个或多个扬声器馈送。

条款2A.根据条款1A所述的设备，其中，所述一个或多个处理器被配置为：确定所述收听者位置与所述内部区域的中心之间的第一距离；确定所述边界与所述内部区域的中心之间的第二距离；以及基于所述第一距离和所述第二距离来获得所述当前呈现器。

条款3A.根据条款1A和2A的任何组合所述的设备，其中，所述音频数据包括与具有零阶的球面基函数相关联的立体混响声音频数据，且其中，所述外部呈现器被配置为呈现所述立体混响声音频数据，使得由所述立体混响声音频数据表示的声场源自所述内部区域的中心。

条款4A.根据条款1A和2A的任何组合所述的设备，其中，所述音频数据包括与具有零阶的球面基函数相关联的立体混响声音频数据，且其中，所述内部呈现器被配置为呈现所述立体混响声音频数据，使得由所述立体混响声音频数据表示的声场出现在整个所述内部区域中。

条款5A.根据条款1A和2A的任何组合所述的设备，其中，所述音频数据包括表示主要音频源和次级音频源的立体混响声音频数据，其中，所述一个或多个处理器还被配置为：获得关于所述次级音频源的不透声性的指示，且其中，所述一个或多个处理器被配置为：基于所述收听者位置、所述边界和所述指示来获得所述当前呈现器。

条款6A.根据条款5A所述的设备，其中，所述一个或多个处理器被配置为：从表示所述音频数据的位流获得关于所述次级音频源的不透声性的所述指示。

条款7A.根据条款5A和6A的任何组合所述的设备，其中，所述一个或多个处理器还被配置为：当关于所述不透声性的所述指示被启用时并且基于所述收听者位置和所述边界，获得所述当前呈现器，所述当前呈现器排除对所述收听者位置指示为不直接在视线中的所述次级音频源的添加。

条款8A.根据条款5A-7A的任何组合所述的设备，其中，所述外部呈现器被配置为呈现所述音频数据，使得由所述音频数据表示的声场根据所述收听者位置与所述边界之间的距离而展开。

条款9A.根据条款5A-8A的任何组合所述的设备，其中，所述一个或多个处理器还被配置为：响应于确定所述收听者位置在距所述边界的缓冲距离内，更新所述当前呈现器以在所述外部呈现器和所述内部呈现器之间进行内插，以便获得经更新的当前呈现器；以及将所述当前呈现器应用于所述音频数据以获得一个或多个经更新的扬声器馈送。

条款10A.根据条款9A所述的设备，其中，所述一个或多个处理器还被配置为：从表示所述音频数据的位流获得关于所述缓冲距离的指示。

条款11A.根据条款1A到10A的任何组合所述的设备，其中，所述一个或多个处理器还被配置为：从表示所述音频数据的位流获得关于所述当前呈现器的复杂度的指示，且其中，所述一个或多个处理器被配置为：基于所述边界、所述收听者位置和关于所述复杂度的指示来获得所述当前呈现器。

条款12A.根据条款11A所述的设备，其中，所述音频数据包括与具有零阶的球面基函数相关联的立体混响声音频数据，且其中，所述一个或多个处理器被配置为：当所述收听者位置在所述边界外部时且当关于所述复杂度的所述指示指出低复杂度时，获得所述外部呈现器，使得所述外部呈现器被配置为呈现所述立体混响声音频数据，以使得由所述立体混响声音频数据表示的声场源自所述内部区域的中心。

条款13A.根据条款11A所述的设备，其中，所述音频数据包括与具有零阶的球面基函数相关联的立体混响声音频数据，且其中，所述一个或多个处理器被配置为：当所述收听者位置在所述边界外部时且当关于所述复杂度的所述指示指出低复杂度时，获得所述外部呈现器，使得所述外部呈现器被配置为呈现所述音频数据，以使得由所述音频数据表示的声场根据所述收听者位置与所述边界之间的距离而展开。

条款14A.一种处理一个或多个音频流的方法，所述方法包括：由一个或多个处理器获得关于将内部区域与外部区域分开的边界的指示；由一个或多个处理器获得指示所述设备相对于所述内部区域的位置的收听者位置；由一个或多个处理器基于所述边界和所述收听者位置，获得作为被配置为针对所述内部区域来呈现音频数据的内部呈现器或被配置为针对所述外部区域来呈现音频数据的外部呈现器的当前呈现器；以及由一个或多个处理器将所述当前呈现器应用于所述音频数据以获得一个或多个扬声器馈送。

条款15A.根据条款14A所述的方法，其中，获得所述当前呈现器包括：确定所述收听者位置与所述内部区域的中心之间的第一距离；确定所述边界与所述内部区域的中心之间的第二距离；以及基于所述第一距离和所述第二距离来获得所述当前呈现器。

条款16A.根据条款14A和15A的任何组合所述的方法，其中，所述音频数据包括与具有零阶的球面基函数相关联的立体混响声音频数据，且其中，所述外部呈现器被配置为呈现所述立体混响声音频数据，使得由所述立体混响声音频数据表示的声场源自所述内部区域的中心。

条款17A.根据条款14A和15A的任何组合所述的方法，其中，所述音频数据包括与具有零阶的球面基函数相关联的立体混响声音频数据，且其中，所述内部呈现器被配置为呈现所述立体混响声音频数据，使得由所述立体混响声音频数据表示的声场出现在整个所述内部区域中。

条款18A.根据条款14A和15A的任何组合所述的方法，其中，所述音频数据包括表示主要音频源和次级音频源的立体混响声音频数据，其中，所述方法还包括：获得关于所述次级音频源的不透声性的指示，且其中，获得所述当前呈现器包括：基于所述收听者位置、所述边界和所述指示来获得所述当前呈现器。

条款19A.根据条款18A所述的方法，其中，获得关于所述不透声性的所述指示包括：从表示所述音频数据的位流获得关于所述次级音频源的所述不透声性的所述指示。

条款20A.根据条款18A和19A的任何组合所述的方法，还包括：当关于所述不透声性的所述指示被启用时并且基于所述收听者位置和所述边界，获得所述当前呈现器，所述当前呈现器排除对所述收听者位置指示为不直接在视线中的所述次级音频源的添加。

条款21A.根据条款18A-20A的任何组合所述的方法，其中，所述外部呈现器被配置为呈现所述音频数据，使得由所述音频数据表示的声场根据所述收听者位置与所述边界之间的距离而展开。

条款22A.根据条款18A-21A的任何组合所述的方法，还包括：响应于确定所述收听者位置在距所述边界的缓冲距离内，更新所述当前呈现器以在所述外部呈现器和所述内部呈现器之间进行内插，以便获得经更新的当前呈现器；以及将所述当前呈现器应用于音频数据以获得一个或多个经更新的扬声器馈送。

条款23A.根据条款22A所述的方法，还包括：从表示所述音频数据的位流获得关于所述缓冲距离的指示。

条款24A.根据条款14A到23A的任何组合所述的方法，还包括：从表示所述音频数据的位流获得关于所述当前呈现器的复杂度的指示，且其中，获得所述当前呈现器包括：基于所述边界、所述收听者位置和关于所述复杂度的指示来获得所述当前呈现器。

条款25A.根据条款24A所述的方法，其中，所述音频数据包括与具有零阶的球面基函数相关联的立体混响声音频数据，且其中，获得所述当前呈现器包括：当所述收听者位置在所述边界外部时且当关于所述复杂度的所述指示指出低复杂度时，获得所述外部呈现器，使得所述外部呈现器被配置为呈现所述立体混响声音频数据，以使得由所述立体混响声音频数据表示的声场源自所述内部区域的中心。

条款26A.根据条款24A所述的方法，其中，所述音频数据包括与具有零阶的球面基函数相关联的立体混响声音频数据，且其中，获得所述当前呈现器包括：当所述收听者位置在所述边界外部时且当关于所述复杂度的所述指示指出低复杂度时，获得所述外部呈现器，使得所述外部呈现器被配置为呈现所述音频数据，使得由所述音频数据表示的声场根据所述收听者位置与所述边界之间的距离而展开。

条款27A.一种被配置为处理一个或多个音频流的设备，所述设备包括：用于获得关于将内部区域与外部区域分开的边界的指示的单元；用于获得指示所述设备相对于所述内部区域的位置的收听者位置的单元；用于基于所述边界和所述收听者位置，获得作为被配置为针对所述内部区域来呈现音频数据的内部呈现器或被配置为针对所述外部区域来呈现音频数据的外部呈现器的当前呈现器的单元；以及用于将所述当前呈现器应用于所述音频数据以获得一个或多个扬声器馈送的单元。

条款28A.根据条款27A所述的设备，其中，用于获得所述当前呈现器的单元包括：用于确定所述收听者位置与所述内部区域的中心之间的第一距离的单元；用于确定所述边界与所述内部区域的中心之间的第二距离的单元；以及用于基于所述第一距离和所述第二距离来获得所述当前呈现器的单元。

条款29A.根据条款27A和28A的任何组合所述的设备，其中，所述音频数据包括与具有零阶的球面基函数相关联的立体混响声音频数据，且其中，所述外部呈现器被配置为呈现所述立体混响声音频数据，以使得由所述立体混响声音频数据表示的声场源自所述内部区域的中心。

条款30A.根据条款27A和28A的任何组合所述的设备，其中，所述音频数据包括与具有零阶的球面基函数相关联的立体混响声音频数据，且其中，所述内部呈现器被配置为呈现所述立体混响声音频数据，使得由所述立体混响声音频数据表示的声场出现在整个所述内部区域中。

条款31A.根据条款27A和28A的任何组合所述的设备，其中，所述音频数据包括表示主要音频源和次级音频源的立体混响声音频数据，其中，所述设备还包括：用于获得关于所述次级音频源的不透声性的指示的单元，且其中，用于获得所述当前呈现器的单元包括：用于基于所述收听者位置、所述边界和所述指示来获得所述当前呈现器的单元。

条款32A.根据条款31A所述的设备，其中，用于获得关于所述不透声性的所述指示的单元包括：用于从表示所述音频数据的位流获得关于所述次级音频源的所述不透声性的所述指示的单元。

条款33A.根据条款31A和32A的任何组合所述的设备，还包括：用于当指示所述不透声性的所述指示被启用时并且基于所述收听者位置和所述边界来获得所述当前呈现器的单元，所述当前呈现器排除对所述收听者位置指示为不直接在视线中的所述次级音频源的添加。

条款34A.根据条款31A-33A的任何组合所述的设备，其中，所述外部呈现器被配置为呈现所述音频数据，使得由所述音频数据表示的声场根据所述收听者位置与所述边界之间的距离而展开。

条款35A.根据条款31A-34A的任何组合所述的设备，还包括：用于响应于确定所述收听者位置在距所述边界的缓冲距离内，更新所述当前呈现器以在所述外部呈现器和所述内部呈现器之间进行内插，以便获得经更新的当前呈现器的单元；以及用于将所述当前呈现器应用于音频数据以获得一个或多个经更新的扬声器馈送的单元。

条款36A.根据条款35A所述的设备，还包括：用于从表示所述音频数据的位流获得关于所述缓冲距离的指示的单元。

条款37A.根据条款27A到36A的任何组合所述的设备，还包括：用于从表示所述音频数据的位流获得关于所述当前呈现器的复杂度的指示的单元，且其中，用于获得所述当前呈现器的单元包括：用于基于所述边界、所述收听者位置和关于所述复杂度的指示来获得所述当前呈现器的单元。

条款38A.根据条款37A所述的设备，其中，所述音频数据包括与具有零阶的球面基函数相关联的立体混响声音频数据，且其中，用于获得所述当前呈现器的单元包括：用于当所述收听者位置在所述边界外部时且当关于所述复杂度的所述指示指出低复杂度时获得所述外部呈现器，使得所述外部呈现器被配置为呈现所述立体混响声音频数据，以使得由所述立体混响声音频数据表示的声场源自所述内部区域的中心的单元。

条款39A.根据条款37A所述的设备，其中，所述音频数据包括与具有零阶的球面基函数相关联的立体混响声音频数据，且其中，用于获得所述当前呈现器的单元包括：用于当所述收听者位置在所述边界外部时且当关于所述复杂度的所述指示指出低复杂度时获得所述外部呈现器，使得所述外部呈现器被配置为呈现所述音频数据，以使得由所述音频数据表示的声场根据所述收听者位置与所述边界之间的距离而展开的单元。

条款40A.一种其上存储有指令的非暂时性计算机可读存储介质，所述指令在被执行时使一个或多个处理器：获得关于将内部区域与外部区域分开的边界的指示；获得指示所述设备相对于所述内部区域的位置的收听者位置；基于所述边界和所述收听者位置，获得作为被配置为针对所述内部区域来呈现音频数据的内部呈现器或被配置为针对所述外部区域来呈现音频数据的外部呈现器的当前呈现器；以及将所述当前呈现器应用于所述音频数据以获得一个或多个扬声器馈送。

条款1B.一种被配置为生成表示音频数据的位流的设备，所述设备包括：存储器，其被配置为存储所述音频数据；以及一个或多个处理器，其耦合到所述存储器并且被配置为：基于所述音频数据来获得表示所述音频数据的位流；在所述位流中指定将内部区域与外部区域分开的边界；在所述位流中指定用于控制针对所述内部区域或所述外部区域的对所述音频数据的呈现的一个或多个指示；以及输出所述位流。

条款2B.根据条款1B所述的设备，其中，所述一个或多个指示包括用于指示所述呈现的复杂度的指示。

条款3B.根据条款2B所述的设备，其中，用于指示复杂度的指示指出低复杂度或高复杂度。

条款4B.根据条款1B-3B的任何组合所述的设备，其中，所述一个或多个指示包括用于指示针对在所述音频数据中存在的次级源的呈现的不透声性的指示。

条款5B.根据条款4B所述的设备，其中，用于指示不透声性的所述指示将不透声性指示为不透声或非不透声。

条款6B.根据条款1B-5B的任何组合所述的设备，其中，所述一个或多个指示包括用于指示围绕所述内部区域的缓冲距离的指示，在所述缓冲距离中，在内部呈现和外部呈现之间对呈现进行内插。

条款7B.根据条款1B-6B的任何组合所述的设备，其中，所述音频数据包括立体混响声音频数据。

条款8B.一种生成表示音频数据的位流的方法，所述方法包括：基于所述音频数据获得表示所述音频数据的所述位流；在所述位流中指定将内部区域与外部区域分开的边界；在所述位流中指定用于控制针对所述内部区域或所述外部区域的对所述音频数据的呈现的一个或多个指示；以及输出所述位流。

条款9B.根据条款8B所述的方法，其中，所述一个或多个指示包括用于指示所述呈现的复杂度的指示。

条款10B.根据条款9B所述的方法，其中，用于指示复杂度的指示指出低复杂度或高复杂度。

条款11B.根据条款8B-10B的任何组合所述的方法，其中，所述一个或多个指示包括用于指示针对在所述音频数据中存在的次级源的呈现的不透声性的指示。

条款12B.根据条款11B所述的方法，其中，用于指示不透声性的所述指示将不透声性指示为不透声或非不透声。

条款13B.根据条款8B-12B的任何组合所述的设备，其中，所述一个或多个指示包括用于指示围绕所述内部区域的缓冲距离的指示，在所述缓冲距离中，在内部呈现和外部呈现之间对呈现进行内插。

条款14B.根据条款8B-13B的任何组合所述的方法，其中，所述音频数据包括立体混响声音频数据。

条款15B.一种被配置为生成表示音频数据的位流的设备，所述设备包括：用于基于所述音频数据来获得表示所述音频数据的位流的单元；用于在所述位流中指定将内部区域与外部区域分开的边界的单元；用于在所述位流中指定用于控制针对所述内部区域或所述外部区域的对所述音频数据的呈现的一个或多个指示的单元；以及用于输出所述位流的单元。

条款16B.根据条款15B所述的设备，其中，所述一个或多个指示包括用于指示所述呈现的复杂度的指示。

条款17B.根据条款16B所述的设备，其中，用于指示复杂度的指示指出低复杂度或高复杂度。

条款18B.根据条款15B-17B的任何组合所述的设备，其中，所述一个或多个指示包括用于指示针对在所述音频数据中存在的次级源的呈现的不透声性的指示。

条款19B.根据条款18B所述的设备，其中，用于指示不透声性的所述指示将不透声性指示为不透声或非不透声。

条款20B.根据条款15B-19B的任何组合所述的设备，其中，所述一个或多个指示包括用于指示围绕所述内部区域的缓冲距离的指示，在所述缓冲距离中，在内部呈现和外部呈现之间对呈现进行内插。

条款21B.根据条款15B到20B的任何组合所述的设备，其中，所述音频数据包括立体混响声音频数据。

条款22B.一种其上存储有指令的非暂时性计算机可读存储介质，所述指令在被执行时使一个或多个处理器：基于所述音频数据来获得表示所述音频数据的位流；在所述位流中指定将内部区域与外部区域分开的边界；在所述位流中指定用于控制针对所述内部区域或所述外部区域的对所述音频数据的呈现的一个或多个指示；以及输出所述位流。

应认识到，根据示例，本文中所描述的任何技术的某些操作或事件可以不同序列执行，可以被添加、合并或完全省去(例如，并非所有所描述的操作或事件对于实践所述技术来说都是必要的)。此外，在某些示例中，操作或事件可以例如通过多线程处理、中断处理或多个处理器并发地执行，而不是顺序地执行。

在一些示例中，VR设备(或流传输设备)可使用耦合到VR/流传输设备的存储器的网络接口来将交换消息传送到外部设备，其中交换消息与声场的多个可用表示相关联。在一些示例中，VR设备可使用耦合到网络接口的天线接收包括与声场的多个可用表示相关联的数据分组、音频分组、视频分组或传输协议数据的无线信号。在一些示例中，一个或多个麦克风阵列可以捕获声场。

在一些示例中，被存储到存储器设备的声场的多个可用表示可以包括：声场的多个基于对象的表示、声场的更高阶立体混响声表示、声场的混合阶立体混响声表示、声场的基于对象的表示与声场的更高阶立体混响声表示的组合、声场的基于对象的表示与声场的混合阶立体混响声表示的组合、或声场的混合阶表示与声场的更高阶立体混响声表示的组合。

在一些示例中，声场的多个可用表示中的声场表示中的一个或多个可以包括至少一个高分辨率区域和至少一个较低分辨率区域，且其中基于转向角的所选择的呈现提供相对于至少一个高分辨率区域的更大空间精度和相对于较低分辨率区域的更小空间精度。

在一个或多个示例中，所描述的功能可以硬件、软件、固件或其任何组合来实施。如果以软件实施，那么所述功能可作为一个或多个指令或代码而存储在计算机可读介质上或经由计算机可读介质发送，且由基于硬件的处理单元执行。计算机可读介质可以包括对应于例如数据存储介质等实体介质的计算机可读存储介质，或包括有利于例如根据通信协议将计算机程序从一处传送到另一处的任何介质的通信介质。以这种方式，计算机可读介质通常可以对应于(1)非暂时性的实体计算机可读存储介质或(2)诸如信号或载波的通信介质。数据存储介质可以是可由一个或多个计算机或一个或多个处理器存取以检索用于实施本公开内容中所描述的技术的指令、代码和/或数据结构的任何可用介质。计算机程序产品可以包括计算机可读介质。

作为示例而非限制，此类计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备、闪存或可用以存储呈指令或数据结构形式的所需程序代码且可由计算机存取的任何其它介质。此外，任何连接都被适当地称为计算机可读介质。例如，如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源发送指令，则同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电和微波等无线技术包括在介质的定义中。然而，应当理解，计算机可读存储介质和数据存储介质不包括连接、载波、信号或其他暂时性介质，而是改为针对非暂时性实体存储介质。如本文所使用的，磁盘和光盘包括压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘和蓝光光盘，其中磁盘通常磁性地再现数据，而光盘用激光光学地再现数据。以上的组合也应包括在计算机可读介质的范围内。

指令可由一个或多个处理器执行，所述处理器包括固定功能处理电路和/或可编程处理电路，例如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它等效集成或分立逻辑电路。因此，如本文中所使用的术语“处理器”可指代前述结构中的任一个或适合于实施本文中所描述的技术的任何其它结构。另外，在一些方面，本文中描述的功能可以在被配置用于编码和解码的专用硬件和/或软件模块内提供，或并入组合编解码器中。而且，所述技术可完全在一个或多个电路或逻辑元件中实施。

本公开内容的技术可以在广泛的多种装置或设备中实施，包括无线手持机、集成电路(IC)或IC组(例如，芯片组)。在本公开内容中描述了各种组件、模块或单元以强调被配置为执行所公开技术的设备的功能方面，但不一定需要由不同硬件单元实现。相反，如上所述，各种单元可结合合适的软件和/或固件组合在编解码器硬件单元中或由互操作硬件单元的集合提供，包括如上所述的一个或多个处理器。

已经描述了各种示例。这些和其它示例在所附权利要求的范围内。

Claims

1.一种被配置为处理一个或多个音频流的设备，所述设备包括：

一个或多个处理器，其被配置为：

获得关于将内部区域与外部区域分开的边界的指示；

获得指示所述设备相对于所述内部区域的位置的收听者位置；

基于所述边界和所述收听者位置，获得作为被配置为针对所述内部区域来呈现音频数据的内部呈现器或被配置为针对所述外部区域来呈现所述音频数据的外部呈现器的当前呈现器；

将所述当前呈现器应用于所述音频数据以获得一个或多个扬声器馈送；以及

存储器，其耦合到所述一个或多个处理器并且被配置为存储所述一个或多个扬声器馈送。

2.根据权利要求1所述的设备，其中，所述一个或多个处理器被配置为：

确定所述收听者位置与所述内部区域的中心之间的第一距离；

确定所述边界与所述内部区域的所述中心之间的第二距离；以及

基于所述第一距离和所述第二距离来获得所述当前呈现器。

3.根据权利要求1所述的设备，

其中，所述音频数据包括与具有零阶的球面基函数相关联的立体混响声音频数据，以及

其中，所述外部呈现器被配置为呈现所述立体混响声音频数据，使得由所述立体混响声音频数据表示的声场源自所述内部区域的中心。

4.根据权利要求1所述的设备，

其中，所述内部呈现器被配置为呈现所述立体混响声音频数据，使得由所述立体混响声音频数据表示的声场出现在整个所述内部区域中。

5.根据权利要求1所述的设备，

其中，所述音频数据包括表示主要音频源和次级音频源的立体混响声音频数据，

其中，所述一个或多个处理器还被配置为：获得关于所述次级音频源的不透声性的指示，以及

其中，所述一个或多个处理器被配置为：基于所述收听者位置、所述边界和所述指示来获得所述当前呈现器。

6.根据权利要求5所述的设备，其中，所述一个或多个处理器被配置为：从表示所述音频数据的位流中获得关于所述次级音频源的所述不透声性的所述指示。

7.根据权利要求5所述的设备，其中，所述一个或多个处理器还被配置为：当关于所述不透声性的所述指示被启用时并且基于所述收听者位置和所述边界，获得所述当前呈现器，所述当前呈现器排除对所述收听者位置指示为未直接在视线中的所述次级音频源的添加。

8.根据权利要求5所述的设备，其中，所述外部呈现器被配置为：呈现所述音频数据，使得由所述音频数据表示的声场根据所述收听者位置与所述边界之间的距离而展开。

9.根据权利要求5所述的设备，其中，所述一个或多个处理器还被配置为：

响应于确定所述收听者位置在距所述边界的缓冲距离内，更新所述当前呈现器以在所述外部呈现器和所述内部呈现器之间进行内插，以便获得经更新的当前呈现器；以及

将所述当前呈现器应用于所述音频数据以获得一个或多个经更新的扬声器馈送。

10.根据权利要求9所述的设备，其中，所述一个或多个处理器还被配置为：从表示所述音频数据的位流中获得关于所述缓冲距离的指示。

11.根据权利要求1所述的设备，

其中，所述一个或多个处理器还被配置为：从表示所述音频数据的位流中获得关于所述当前呈现器的复杂度的指示，以及

其中，所述一个或多个处理器被配置为：基于所述边界、所述收听者位置和关于所述复杂度的所述指示来获得所述当前呈现器。

12.根据权利要求11所述的设备，

其中，所述一个或多个处理器被配置为：当所述收听者位置在所述边界外部时且当关于所述复杂度的所述指示指出低复杂度时，获得所述外部呈现器，使得所述外部呈现器被配置为呈现所述立体混响声音频数据，以便使得由所述立体混响声音频数据表示的声场源自所述内部区域的中心。

13.根据权利要求11所述的设备，

其中，所述一个或多个处理器被配置为：当所述收听者位置在所述边界外部时且当关于所述复杂度的所述指示指出低复杂度时，获得所述外部呈现器，使得所述外部呈现器被配置为呈现所述音频数据，以便使得由所述音频数据表示的声场根据所述收听者位置与所述边界之间的距离而展开。

14.一种处理一个或多个音频流的方法，所述方法包括：

由一个或多个处理器获得关于将内部区域与外部区域分开的边界的指示；

由所述一个或多个处理器获得指示设备相对于所述内部区域的位置的收听者位置；

由所述一个或多个处理器基于所述边界和所述收听者位置，获得作为被配置为针对所述内部区域来呈现音频数据的内部呈现器或被配置为针对所述外部区域来呈现所述音频数据的外部呈现器的当前呈现器；以及

由所述一个或多个处理器将所述当前呈现器应用于所述音频数据以获得一个或多个扬声器馈送。

15.根据权利要求14所述的方法，其中，获得所述当前呈现器包括：

基于所述第一距离和所述第二距离获得所述当前呈现器。

16.根据权利要求14所述的方法，

17.根据权利要求14所述的方法，

18.根据权利要求14所述的方法，

其中，所述方法还包括：获得关于所述次级音频源的不透声性的指示，以及

其中，获得所述当前呈现器包括：基于所述收听者位置、所述边界和所述指示来获得所述当前呈现器。

19.根据权利要求18所述的方法，其中，获得关于所述不透声性的所述指示包括：从表示所述音频数据的位流中获得关于所述次级音频源的所述不透声性的所述指示。

20.根据权利要求18所述的方法，还包括：当关于所述不透声性的所述指示被启用时并且基于所述收听者位置和所述边界，获得所述当前呈现器，所述当前呈现器排除对所述收听者位置指示为未直接在视线中的所述次级音频源的添加。

21.根据权利要求18所述的方法，其中，所述外部呈现器被配置为呈现所述音频数据，使得由所述音频数据表示的声场根据所述收听者位置与所述边界之间的距离而展开。

22.根据权利要求18所述的方法，还包括：

23.根据权利要求22所述的方法，还包括：从表示所述音频数据的位流中获得关于所述缓冲距离的指示。

24.根据权利要求14所述的方法，还包括：从表示所述音频数据的位流中获得关于所述当前呈现器的复杂度的指示，以及

其中，获得所述当前呈现器包括：基于所述边界、所述收听者位置和关于所述复杂度的所述指示来获得所述当前呈现器。

25.根据权利要求24所述的方法，

其中，获得所述当前呈现器包括：当所述收听者位置在所述边界外部时且当关于所述复杂度的所述指示指出低复杂度时，获得所述外部呈现器，使得所述外部呈现器被配置为呈现所述立体混响声音频数据，以便使得由所述立体混响声音频数据表示的声场源自所述内部区域的中心。

26.根据权利要求24所述的方法，

其中，获得所述当前呈现器包括：当所述收听者位置在所述边界外部时且当关于所述复杂度的所述指示指出低复杂度时，获得所述外部呈现器，使得所述外部呈现器被配置为呈现所述音频数据，以便使得由所述音频数据表示的声场根据所述收听者位置与所述边界之间的距离而展开。

27.一种被配置为生成表示音频数据的位流的设备，所述设备包括：

存储器，其被配置为存储所述音频数据；以及

一个或多个处理器，其耦合到所述存储器并且被配置为：

基于所述音频数据来获得表示所述音频数据的所述位流；

在所述位流中指定将内部区域与外部区域分开的边界；

在所述位流中指定控制针对所述内部区域或所述外部区域的对所述音频数据的呈现的一个或多个指示；以及

输出所述位流。

28.根据权利要求27所述的设备，其中，所述一个或多个指示包括用于指示所述呈现的复杂度的指示。

29.根据权利要求28所述的设备，其中，用于指示所述复杂度的所述指示指出低复杂度或高复杂度。

30.一种生成表示音频数据的位流的方法，所述方法包括：

基于所述音频数据来获得表示所述音频数据的所述位流；

在所述位流中指定将内部区域与外部区域分开的边界；

输出所述位流。