CN114072761A

CN114072761A - 用于控制针对扩展现实体验的音频渲染的用户接口

Info

Publication number: CN114072761A
Application number: CN202080047184.0A
Authority: CN
Inventors: I.G.穆诺兹; S.G.斯瓦米纳坦; N.G.彼得斯; S.M.A.萨利辛
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2019-07-03
Filing date: 2020-07-02
Publication date: 2022-02-18
Also published as: US20210006925A1; TWI838554B; US11432097B2; WO2021003376A1; US11812252B2; BR112021026213A2; TW202109244A; US20220377490A1; EP3994565A1

Abstract

设备可以被配置为播放多个音频流中的一个或多个。设备可以包括被配置为存储多个音频流的存储器，音频流中的每一个表示声场。设备还可以包括一个或多个处理器，该一个或多个处理器耦合到存储器，并且被配置为向用户呈现用户接口，经由用户接口从用户获得表示期望收听定位的指示；以及基于该指示来选择多个音频流中的至少一个音频流。

Description

用于控制针对扩展现实体验的音频渲染的用户接口

相关申请的交叉引用

本申请要求2020年7月1日提交的美国专利申请16/918,492和2019年7月3日提交的美国临时专利申请62/870,577和2020年3月20日提交的美国临时专利申请62/992,624的优先权，其中每一项的全部内容以引用方式并入。

技术领域

本公开涉及媒体数据(诸如音频数据)的处理。

背景技术

计算机介导的(computer-mediated)现实系统正在被开发，以允许计算设备对用户体验的现有现实进行增强或添加、删除或减去，或者一般修改。计算机介导的现实系统(也可以被称为“扩展现实系统”或“XR系统”)可以包括例如虚拟现实(VR)系统、增强现实(AR)系统和混合现实(MR)系统。计算机介导的现实系统的感知成功通常与这样的计算机介导的现实系统在视频和音频体验两方面提供逼真的沉浸式体验(其中视频和音频体验以用户期望的方式对准)的能力有关。尽管人类视觉系统比人类听觉系统更为敏感(例如，在对场景内各种对象的感知定位(localization)方面)，但确保足够的听觉体验是确保逼真的沉浸式体验的越来越重要的因素，尤其是随着视频体验改进以允许更好地定位(localization)视频对象，使得用户能够更好地识别音频内容的来源。

发明内容

本公开总体上涉及计算机介导的现实系统(包括虚拟现实(VR)、混合现实(MR)、增强现实(AR)、计算机视觉和图形系统)的用户体验的听觉方面。该技术的各个方面可以提供用于扩展现实系统的声学空间的音频渲染(rendering)的用户控制。如本文所使用的，声学环境被表示为室内环境或室外环境，或者室内环境和室外环境两者。声学环境可以包括一个或多个子声学空间，该子声学空间可以包括各种声学元素。室外环境的示例可以包括汽车、建筑物、墙壁、森林等。声学空间可以是声学环境的示例并且可以是室内空间或室外空间。如本文所使用的，音频元素是由麦克风捕获的声音(例如，直接从近场源捕获或来自远场源的反射(无论是真实的还是合成的))、或先前合成的声场、或从文本到语音合成的单声道(mono)声音、或来自声学环境中的对象的虚拟声音的反射。

在一个示例中，该技术的各个方面涉及一种被配置为播放多个音频流中的一个或多个的设备，该设备包括：存储器，该存储器被配置为存储多个音频流，音频流中的每一个表示声场；以及一个或多个处理器，该一个或多个处理器耦合到存储器并被配置为：向用户呈现用户接口；经由用户接口从用户获得表示期望收听定位(position)的指示；以及基于该指示来选择多个音频流中的至少一个音频流。

在另一示例中，该技术的各个方面涉及一种方法，包括：由存储器存储多个音频流，音频流中的每一个表示声场，该存储器通信地耦合到一个或多个处理器；由一个或多个处理器呈现用户接口；由一个或多个处理器经由用户接口获得表示期望收听定位的指示；由一个或多个处理器并基于该指示来选择多个音频流中的至少一个音频流。

在另一示例中，该技术的各个方面涉及一种被配置为播放多个音频流中的一个或多个的设备，该设备包括：用于存储多个音频流的装置，音频流中的每一个表示声场；用于呈现用户接口的装置；用于经由用户接口获得表示期望收听定位的指示的装置；以及用于基于该指示来选择多个音频流中的至少一个音频流的装置。

在另一示例中，该技术的各个方面涉及一种其上存储有指令的非暂时性计算机可读存储介质，指令在被执行时使得一个或多个处理器：存储多个音频流，音频流中的每一个表示声场；呈现用户接口；经由用户接口获得表示期望收听定位的指示；以及基于该指示来选择多个音频流中的至少一个音频流。

在下文的附图和描述中阐述了本公开的一个或多个示例的细节。该技术的各个方面的其他特征、目的和优点将从描述和附图以及从权利要求中显而易见。

附图说明

图1A-图1C是图示出可以执行本公开中描述的技术的各个方面的系统的图。

图2是图示出用户佩戴的VR设备的示例的图。

图3A-图3D是更详细地图示出图1A-图1C的示例中所示的流选择单元的示例操作的图。

图4A-图4E是更详细地图示出图1A-图1C的示例中所示的内容消费者设备的用户接口的示例操作的图。

图5A-图5C是图示出根据本公开的技术的贴合(snapping)的示例的概念图。

图5D和图5E是图示出根据本公开的技术的音乐会的示例的概念图。

图5F和图5G是图示出根据本公开的示例用户接口技术的流程图。

图6是图示出可以根据本公开中描述的技术的各个方面操作的可穿戴设备的示例的图。

图7A和图7B是图示出可以执行本公开中描述的技术的各个方面的其他示例系统的图。

图8是图示出图1A-图1C的示例中所示的源设备和内容消费者设备中的一个或多个的示例组件的框图。

图9A-9C是图示出图1A-图1C的示例中所示的流选择单元在执行流选择技术的各个方面时的示例操作的流程图。

图10图示出根据本公开的方面的无线通信系统的示例。

具体实施方式

AR/VR/MR世界中的用户无法选择期望的收听定位，例如，在何处获取(一个或多个)音频流。本公开的技术可以使用户能够向设备的用户接口指示期望的收听定位，并且设备可以基于该指示来选择多个音频流中的至少一个音频流。以此方式，本公开的技术可以实现增强的音频体验，其中用户可以选择期望的收听定位并且设备可以为用户提供如同用户位于期望的收听定位一样的音频体验。例如，本公开的技术可以在音乐会或体育赛事环境中提供增强的音频体验，其中用户可以选择舞台附近、远离舞台、主队的替补席上、记者席上等等的期望的收听定位。

有多种不同的方式来表示声场。示例格式包括基于通道(channel)的音频格式、基于对象的音频格式和基于场景的音频格式。基于通道的音频格式是指5.1环绕声格式、7.1环绕声格式、22.2环绕声格式或任何其他基于通道的格式，这些格式将音频通道定位(localize)到收听者周围的特定位置以便重新创建声场。

基于对象的音频格式可以指其中通常使用脉冲编解码调制(PCM)进行编码并被称为PCM音频对象的音频对象被指定以便表示声场的格式。这样的音频对象可以包括标识音频对象相对于收听者或声场中的其他参考点的位置的元数据，使得音频对象可以被渲染到一个或多个扬声器通道以供回放，努力重新创建声场。本公开中描述的技术可以被应用于以下格式中的任一者，包括基于场景的音频格式、基于通道的音频格式、基于对象的音频格式或其任何组合。

基于场景的音频格式可以包括在三个维度中定义声场的元素的分层集合。元素的分层集合的一个示例是球谐系数(spherical harmonic coefficient，SHC)的集合。以下表达式示出了使用SHC的对声场的描述或表示：

表达式示出，在时间t处，声场的任意点

处的压力p_i可以通过SHC

唯一表示。此处，

c是声速(～343m/s)，

是参考点(或观察点)，j_n(·)是n阶的球面贝塞尔函数，并且

是阶数为n且子阶数(suborder)为m的球谐基函数(也可以被称为球基函数)。可以看出，方括号中的项是信号(例如，

)的频域表示，其可以通过各种时频变换(诸如离散傅里叶变换(DFT)、离散余弦变换(DCT)或小波变换)来近似。分层集合的其他示例包括小波变换系数的集合以及多分辨率基函数的系数的其他集合。

SHC

可以通过各种麦克风阵列配置而被物理获取(例如，记录)，或者可替代地，它们可以从声场的基于通道或基于对象的描述中导出。SHC(也可以被称为立体混响系数)表示基于场景的音频，其中SHC可以被输入到音频编码器以获得可以促进更高效发送或存储的经编码SHC。例如，可以使用涉及(1+4)²(25，因此是四阶)系数的四阶表示。

如上所述，可以使用麦克风阵列从麦克风记录导出SHC。如何从麦克风阵列物理地获取SHC的各种示例被描述于Poletti,M.在2005年11月的J.Audio Eng.Soc.第53卷第11号第1004-1025页的“Three-Dimensional Surround Sound Systems Based on SphericalHarmonics”中。

以下等式可以说明如何从基于对象的描述中导出SHC。用于声场的对应于单独音频对象的系数

可以被表达为：

其中i是

是n阶的球面汉克尔函数(spherical Hankel function)(第二种)，并且

是对象的位置。知道作为频率的函数的对象源能量g(ω)(例如，使用时频分析技术，诸如对脉冲编解码调制—PCM—的流执行快速傅里叶变换)可以实现每个PCM对象和对应位置到SHC

的转换。此外，可以证明(因为上面是线性和正交分解)用于每个对象的

系数是可加的。以这种方式，多个PCM对象可以由

系数表示(例如，作为用于单独对象的系数向量的总和)。系数可以包含关于声场的信息(作为三维(3D)坐标的函数的压力)，并且上文表示从单独对象到观测点

附近的整体声场的表示的变换。

计算机介导的现实系统(其也可以被称为“扩展现实系统”或“XR系统”)正在被开发，以利用立体混响系数所提供的许多潜在益处。例如，立体混响系数可以以潜在地实现声场内声源的准确3D定位的方式，在三个维度上表示声场。如此以来，XR设备可以将立体混响系数渲染到扬声器馈送，该扬声器馈送在经由一个或多个扬声器被播放时，可以准确地再现声场。

作为另一示例，立体混响系数可以被转换(例如，旋转)以在没有过于复杂的数学运算的情况下考虑用户移动，从而潜在地适应XR的低延迟要求。此外，立体混响系数是分层的，并且因此通过降阶(这可以消除与更高阶数相关联的立体混响系数)而自然地适应可伸缩性(scalability)，并且因此潜在地实现声场的动态适应以适应XR设备的延迟和/或电池要求。

将立体混响系数用于XR设备可以实现对许多用例的开发，这些用例依赖于立体混响系数所提供的更具沉浸式的声场，尤其对于计算机游戏应用和实况视频流式传输应用。在依赖于声场的低延迟再现的这些高动态用例中，XR设备可能更喜欢立体混响系数而不是更难以操纵或涉及复杂渲染的其他表示。下文关于图1A-图1C提供关于这些用例的更多信息。

虽然在本公开中关于VR设备进行了描述，但是可以在诸如移动设备之类的其他设备的上下文中执行这些技术的各个方面。在这种情况下，移动设备(诸如所谓的智能电话)可以经由屏幕来呈现显示世界，该屏幕可以被安装在用户的头部或者按照正常使用移动设备时的方式被观看。如此以来，屏幕上的任何信息都可以是移动设备的部分。移动设备可以能够提供跟踪信息，并且因此允许观看显示世界的VR体验(当头戴式时)和正常体验两者，其中正常体验可能仍然允许用户观看提供轻型VR(VR-lite-type)体验的显示世界(例如，举起设备并旋转或平移设备以观看显示世界的不同部分)。另外，虽然在本公开的各种示例中提到了显示世界，但是本公开的技术也可以与不对应于显示世界或其中没有显示世界的声学空间一起使用。

图1A-图1C是图示出可以执行本公开中描述的技术的各个方面的系统的图。如图1A的示例中所示的，系统10包括源设备12A和内容消费者设备14A。虽然在源设备12A和内容消费者设备14A的上下文中进行了描述，但是这些技术可以在其中声场的任何表示被编码以形成表示音频数据的比特流的任何上下文中被实施。此外，源设备12A可以表示能够生成声场的表示的任何形式的计算设备，并且在本文中通常在作为VR内容创建者设备的上下文中被描述。同样，内容消费者设备14A可以表示能够实施本公开中描述的渲染元数据技术以及音频回放的任何形式的计算设备，并且在本文中通常在作为VR客户端设备的上下文中被描述。

源设备12A可以由娱乐公司或可以生成单声道和/或多通道音频内容以供内容消费者设备(诸如内容消费者设备14A)的操作者消费的其他实体操作。在某些VR场景中，源设备12A生成结合视频内容的音频内容。源设备12A包括内容捕获设备20、内容编辑设备22和声场表示生成器24。内容捕获设备20可以被配置为与麦克风18接口或以其他方式通信。

麦克风18可以表示

或能够捕获声场并将声场表示为音频数据19的其他类型的3D音频麦克风，音频数据19可以指上述基于场景的音频数据(诸如立体混响系数)、基于对象的音频数据和基于通道的音频数据中的一个或多个。尽管被描述为3D音频麦克风，麦克风18也可以表示被配置为捕获音频数据19的其他类型的麦克风(诸如全向麦克风、点麦克风、单向麦克风等)。音频数据19可以表示音频流或包括音频流。

在某些示例中，内容捕获设备20可以包括集成到内容捕获设备20的外壳中的集成麦克风18。在其他示例中，麦克风18是与内容捕获设备20物理分离的设备。内容捕获设备20可以与麦克风18无线接口(例如，经由Wi-Fi、蓝牙^TM或移动连接)或经由有线连接与麦克风18接口。代替捕获音频数据19(经由麦克风18)或与捕获音频数据19相结合，内容捕获设备20可以在音频数据19经由某种类型的可移除存储、无线和/或经由有线输入过程被输入之后处理音频数据19。如此以来，根据本公开，内容捕获设备20和麦克风18的各种组合是可能的。

内容捕获设备20还可以被配置为与内容编辑设备22接口或以其他方式通信。在某些情况下，内容捕获设备20可以包括内容编辑设备22(在某些情况下，其可以表示软件或者软件和硬件的组合，包括由内容捕获设备20执行以将内容捕获设备20配置为执行特定形式的内容编辑的软件)。在其他示例中，内容编辑设备22是与内容捕获设备20物理分离的设备。内容编辑设备22可以表示被配置为编辑或以其他方式改变从内容捕获设备20接收的内容21(包括音频数据19)的单元。内容编辑设备22可以向声场表示生成器24输出经编辑内容23和相关联的元数据25。

声场表示生成器24可以包括能够与内容编辑设备22(或内容捕获设备20)接口的任何类型的硬件设备。尽管未在图1A的示例中示出，但声场表示生成器24可以使用由内容编辑设备22提供的经编辑内容23(包括音频数据19)和元数据25来生成一个或多个比特流27。在图1A的示例中，其专注于音频数据19，声场表示生成器24可以生成由音频数据19表示的相同声场的一个或多个表示，以获得比特流27，其包括声场的表示和音频元数据25。

例如，为了使用立体混响系数(这也是音频数据19的一个示例)生成声场的不同表示，声场表示生成器24可以使用用于声场的立体混响表示的编解码方案，该编解码方案被称为混合阶立体混响(MOA)，如在2017年8月8日提交并在2019年1月3日作为美国专利出版物第20190007781号出版的标题为“MIXED-ORDER AMBISONICS(MOA)AUDIO DATA FORCOMPUTER-MEDIATED REALITY SYSTEMS”的序列号为15/672,058的美国申请中有更详细的讨论。

为了生成声场的特定MOA表示，该声场表示生成器24可以生成立体混响系数的完整集合的部分子集。例如，由声场表示生成器24生成的每个MOA表示可以提供针对声场的一些区域的精度，但是在其他区域中的精度较低。在一个示例中，声场的MOA表示可以包括八(8)个未压缩的立体混响系数，而同一声场的三阶立体混响表示可以包括十六(16)个未压缩的立体混响系数。如此以来，作为立体混响系数的部分子集而生成的声场的每个MOA表示可能比相同声场的从立体混响系数生成的对应的三阶立体混响表示的存储密集性和带宽密集性低(如果并且当作为通过所示出的传输通道的比特流27中的一部分发送时)。

尽管关于MOA表示进行了描述，但是本公开的技术也可以针对一阶立体混响(FOA)表示来执行，其中与一阶球基函数和零阶球基函数相关联的所有立体混响系数被用于表示声场。换句话说，声场表示生成器302可以使用给定阶数N的所有立体混响系数来表示声场，而不是使用立体混响系数的部分非零子集来表示声场，从而使得总立体混响系数等于(N+1)²。

在这方面，立体混响音频数据(这是在MOA表示或全阶表示中指代立体混响系数的另一方式，诸如上面提到的一阶表示)可以包括与具有一或更少阶的球基函数相关联的立体混响系数(其可以称为“一阶立体混响音频数据”)、与具有混阶和子阶的球基函数相关联的立体混响系数(其可以称为上述的“MOA表示”)、或与具有大于一阶的球基函数相关联的立体混响系数(其在上面被称为“全阶表示”)。

在一些示例中，该内容捕获设备20或该内容编辑设备22可以被配置为与该声场表示生成器24进行无线通信。在一些示例中，该内容捕获设备20或该内容编辑设备22可以经由无线连接或有线连接中的一者或两者与该声场表示生成器24进行通信。经由该内容捕获设备20或该内容编辑设备22与该声场表示生成器24之间的连接，该内容捕获设备20或该内容编辑设备可以以各种形式来提供内容，为了进行讨论，本文将其描述为音频数据19的一部分。

在一些示例中，内容捕获设备20可以利用声场表示生成器24的各个方面(就声场表示生成器24的硬件或软件能力而言)。例如，该声场表示生成器24可以包括专用硬件，其被配置为(或专用软件，其在执行时使一个或多个处理器)执行心理声学音频编码(诸如由运动图像专家组(MPEG)提出的表示为“USAC”的统一语音和音频编码器、MPEG-H 3D音频编码标准、MPEG-I沉浸式音频标准、或专有标准，诸如AptX^TM(包括各种版本的AptX，诸如增强型AptX-E-AptX、现场AptX、AptX立体声和AptX高清晰度-AptX-HD)、高级音频编码(AAC)、音频编解码器3(AC-3)、苹果无损音频编解码器(ALAC)、MPEG-4音频无损流媒体(ALS)、增强型AC-3、自由无损音频编解码器(FLAC)、Monkey's Audio、MPEG-1音频层II(MP2)、MPEG-1音频层III(MP3)、Opus和Windows媒体音频(WMA)。

内容捕获设备20可以不包括心理声学的音频编码器专用硬件或专门软件，而是可以以非心理声学的音频编码的形式提供内容21的音频方面。声场表示生成器24可以通过至少部分地针对内容21的音频方面执行心理声学的音频编码来辅助内容21的捕获。

该声场表示生成器24还可通过至少部分地基于从该音频数据19生成的音频内容(例如，MOA表示和/或一阶立体混响表示)(在该音频数据19包括基于场景的音频数据的情况下)生成一个或多个比特流27，来辅助内容捕获和传输。比特流27可以表示音频数据19的压缩版本和任何其他不同类型的内容21(诸如球形视频数据、图像数据或文本数据的压缩版本)。

作为一个示例，声场表示生成器24可以生成比特流27以用于跨传输通传输，该传输通道可以是有线或无线信道、数据存储设备等。该比特流27可以表示该音频数据19的编码版本，并且可以包括主要比特流和另一侧比特流，这可以被称为侧通道信息或元数据。在一些情况下，表示音频数据19的压缩版本的比特流27(其也可以表示基于场景的音频数据、基于对象的音频数据、基于通道的音频数据或其组合)可以符合根据MPEG-H 3D音频编码标准和/或MPEG-I沉浸式音频标准产生的比特流。

该内容消费者设备14A可以由个人操作并且可以表示VR客户端设备。尽管关于VR客户端设备进行了描述，但内容消费者设备14A可以表示其他类型的设备，诸如增强现实(AR)客户端设备、混合现实(MR)客户端设备(或其他XR客户端设备)、标准计算机、头戴式装置、耳机、移动设备(包括所谓的智能手机)或能够跟踪操作该内容消费者设备14A的个体的头部运动和/或一般平移运动的任何其他设备。如图1A的示例中所示，该内容消费者设备14A包括音频回放系统16A，其可以指能够渲染音频数据以作为单信道和/或多信道音频内容回放的任何形式的音频回放系统。

内容消费者设备14A可以包括用户接口(UI)36。用户接口36可以包括一个或多个输入设备和一个或多个输出设备。输出设备可以包括例如被配置为输出用于用户感知的信息的一个或多个扬声器、一个或多个显示设备、一个或多个触觉设备等。输出设备可以与内容消费者设备14A集成或者可以是耦合到内容消费者设备的单独设备。

一个或多个输入设备可以包括用户可以与之交互以向内容消费者设备14A提供输入的任何合适的设备。例如，一个或多个输入设备可以包括麦克风、鼠标、指针、游戏控制器、遥控器、触摸屏、线性滑块电位计、摇臂开关、按钮、滚轮、旋钮等等。在其中一个或多个用户输入设备包括触摸屏的示例中，触摸屏可以允许基于单点触摸输入(例如，触摸、滑动、敲击、长按、和/或圈出图形用户接口的区域)选择一个或多个捕捕获设备表示。在某些实施方式中，触摸屏可以允许多点触摸输入。在这些示例中，触摸屏可以允许基于多个触摸输入来选择图形用户接口的多个区域。

虽然在图1A中被示为直接发送到内容消费者设备14A，但源设备12A可以向位于源设备12A与内容消费者设备14A之间的中间设备输出比特流27。中间设备可以存储比特流27以供稍后递送给内容消费者设备14A，内容消费者设备14A可以请求比特流27。中间设备可以包括文件服务器、网络服务器、台式计算机、膝上型计算机、平板计算机、移动电话、智能电话或能够存储比特流27以供音频解码器稍后检索的任何其他设备。中间设备可以驻留在能够向请求比特流27的订户(诸如内容消费者设备14A)流式传输比特流27(并且可能结合发送对应的视频数据比特流)的内容递送网络中。

可替代地，源设备12A可以将比特流27存储至存储介质，诸如紧凑盘、数字视频盘、高清晰度视频盘或其他存储介质，其中大部分能够被计算机读取，并且因此可以被称为计算机可读存储介质或非暂时性计算机可读存储介质。在此上下文中，传输通道可以指通过其发送存储到介质的内容(例如，以一个或多个比特流27的形式)的通道(并且可以包括零售商店和其他基于商店的递送机制)。在任何情况下，本公开的技术在这方面不应因此限于图1A的示例。

如上所述，内容消费者设备14A包括音频回放系统16A。音频回放系统16A可以表示能够回放单声道和/或多通道音频数据的任何系统。音频回放系统16A可以包括多个不同的音频渲染器32。音频渲染器32可以各自提供不同形式的渲染，其中不同形式的渲染可以包括执行基于向量的幅度平移(vector-base amplitude panning，VBAP)的各种方式中的一个或多个，和/或执行声场合成的各种方式中的一个或多个。如本文所使用的，“A和/或B”意指“A或B”，或“A和B两者”。

音频回放系统16A还可以包括音频解码设备34。音频解码设备34可以表示被配置为对比特流27进行解码以输出音频数据19’的设备(其中撇号可以表示音频数据19’由于音频数据19的有损压缩(诸如量化)而不同于音频数据19)。音频解码设备34可以是与音频渲染器32相同的物理设备的部分，或者可以是物理上分离并且被配置为经由无线或有线连接与音频渲染器32通信的设备的部分。再次，音频数据19’可以包括：在某些示例中可以形成完全一阶(或更高)阶立体混响表示的基于场景的音频数据或者形成相同声场的MOA表示的它的子集、它的分解(诸如主要音频信号、环境立体混响系数和MPEG-H 3D音频编解码标准中描述的基于向量的信号)、或者其他形式的基于场景的音频数据。

其他形式的基于场景的音频数据包括根据HOA(高阶立体混响)传送格式(HTF)定义的音频数据。有关HTF的更多信息可以在欧洲电信标准协会(ETSI)的日期为2018年6月(2018-06)的ETSI TS 103 589V1.1.1中的标题为“高阶立体混响(HOA)传输格式(HigherOrder Ambisonics(HOA)Transport Format)”的技术规范(TS)中，以及在2018年12月20日提交的标题为“高阶立体混响音频数据的优先级信息(PRIORITY INFORMATION FOR HIGHERORDER AMBISONIC AUDIO DATA)”的美国专利申请公开号2019/0918028中找到。在任何情况下，该音频数据19’可能类似于音频数据19’的完整集合或部分子集，但可能由于有损操作(例如，量化)和/或经由传输通道的传输而不同。

音频数据19’可以包括基于通道的音频数据，作为基于场景的音频数据的替代或与基于场景的音频数据结合。音频数据19’可以包括基于对象的音频数据或基于通道的音频数据，作为基于场景的音频数据的替代或与基于场景的音频数据结合。如此以来，音频数据19’可以包括基于场景的音频数据、基于对象的音频数据和基于通道的音频数据的任何组合。

音频回放系统16A的音频渲染器32可以在音频解码设备34已经对比特流27进行解码以获得音频数据19’之后，渲染音频数据19’以输出扬声器馈送35。扬声器馈送35可以驱动一个或多个扬声器(为了便于说明的目的，其在图1A的示例中未被示出)。包括声场的基于场景的音频数据(以及可能的基于通道的音频数据和/或基于对象的音频数据)的各种音频表示可以通过多种方式(包括N3D、SN3D、FuMa、N2D或SN2D)被归一化。

为了选择合适的渲染器，或者在某些情况下，生成合适的渲染器，音频回放系统16A可以获得指示扬声器(例如，扩音器或耳机扬声器)的数量和/或扬声器的空间几何形状的扬声器信息37。在某些情况下，音频回放系统16A可以使用参考麦克风获得扬声器信息37，并且可以以动态确定扬声器信息37的方式驱动扬声器(这可以指电信号的输出以引起换能器振动)。在其他情况下，或者结合扬声器信息37的动态确定，音频回放系统16A可以提示用户与音频回放系统16A接口并输入扬声器信息37。

音频回放系统16A可以基于扬声器信息37选择音频渲染器32中的一个。在某些情况下，当音频渲染器32中没有一个在扬声器信息37中指定的扬声器几何形状的某个阈值相似性度量(就扬声器几何而言)之内时，音频回放系统16A可以基于扬声器信息37生成音频渲染器32中的一个。在某些情况下，音频回放系统16A可以基于扬声器信息37生成音频渲染器32中的一个，而无需首先尝试选择音频渲染器32中的现有一个。

当将该扬声器馈送35输出到耳机时，该音频回放系统16A可以利用该渲染器32中的一个渲染器，该一个渲染器使用头部相关传递函数(HRTF)或能够渲染到左右扬声器馈送35用于耳机扬声器回放的其他功能来提供双耳渲染，诸如双耳房间脉冲响应渲染器。术语“扬声器”或“换能器”通常可以指任何扬声器，包括扩音器、耳机扬声器、骨传导扬声器、耳塞式扬声器、无线耳机扬声器等。一个或多个扬声器然后可以回放渲染的扬声器馈送35以再现声场。

尽管被描述为从音频数据19’渲染扬声器馈送35，但对扬声器馈送的渲染的引用可以指其他类型的渲染，诸如被直接并入到来自比特流27的音频数据的解码中的渲染。可在MPEG-H 3D音频标准的附录G中找到替代渲染的示例，其中渲染发生在声场组成之前的主要信号形成期间以及背景信号形成期间。如此以来，对音频数据19’的渲染的引用应被理解为指代实际音频数据19’的渲染或音频数据19’的分解或表示，诸如上述主要音频信号、环境立体混响系数，和/或基于向量的信号——其也可以被称为V向量或立体混响空间向量。

音频回放系统16A还可以基于跟踪信息41来适配(adapt)音频渲染器32。即，音频回放系统16A可以与跟踪设备40接口，跟踪设备40被配置为跟踪VR设备的用户的头部移动和可能的平移移动。跟踪设备40可以表示一个或多个传感器(例如，相机——包括深度相机、陀螺仪、磁力计、加速度计、发光二极管——LED等)，其被配置为跟踪VR设备的用户的头部移动和可能的平移移动。音频回放系统16A可以基于跟踪信息41适配音频渲染器32，使得扬声器馈送35反映用户头部的改变和可能的平移移动，以正确再现响应于这样的移动的声场。

图1B是图示出被配置为执行本公开中描述的技术的各个方面的另一示例系统50的框图。系统50类似于图1所示的系统10，除了图1A中所示的音频渲染器32被能够使用一个或多个头部相关传递函数(HRTF)或能够渲染到左右扬声器馈送43的其他函数执行双声道渲染的双耳渲染器42替换。

音频回放系统16B可以向耳机48输出左右扬声器馈送43，耳机48可以表示可穿戴设备的另一示例并且可以耦合到附加的可穿戴设备以促进声场的再现，诸如手表、上述VR头戴装置、智能眼镜、智能服装、智能戒指、智能手环或任何其他类型的智能首饰(包括智能项链)等。耳机48可以无线地或经由有线连接耦合到附加的可穿戴设备。

另外，耳机48可以经由有线连接(诸如标准3.5mm音频插孔、通用系统总线(USB)连接、光学音频插孔或其他形式的有线连接)或无线地(诸如通过蓝牙^TM连接、无线网络连接等)耦合到音频回放系统16B。耳机48可以基于左右扬声器馈送43重新创建由音频数据19’表示的声场。耳机48可以包括左耳机扬声器和右耳机扬声器，它们由对应的左右扬声器馈送43供电(或换言之，驱动)。

图1C是图示出另一示例系统60的框图。示例系统60类似于图1A的示例系统10，但系统60的源设备12B不包括内容捕获设备。源设备12B包含合成设备29。内容开发者可以使用合成设备29来生成合成的音频源。合成音频源可以具有与其相关联的位置信息，该位置信息可以标识音频源相对于收听者或声场中的其他参考点的位置，使得音频源可以被渲染到一个或更多扬声器信道进行回放，以试图重新创建声场。在某些示例中，合成设备29还可以合成视觉或视频数据。

例如，内容开发者可以生成用于视频游戏的合成音频流。虽然图1C的示例被示为具有图1A的示例的内容消费者设备14A，但图1C的示例的源设备12B也可以与图1B的内容消费者设备14B一起使用。在某些示例中，图1C的源设备12B还可以包括内容捕获设备，使得比特流27可以包含(一个或多个)捕获的音频流和(一个或多个)合成音频流两者。

如上所述，内容消费者设备14A或14B(为简单起见，下文中可以将任一者称为内容消费者设备14)可以表示VR设备，其中人类可穿戴显示器(其也可以被称为“头戴式显示器”)被安装在操作VR设备的用户眼前。图2是图示出用户1102穿戴的VR头戴装置(headset)1100的示例的图。VR头戴装置1100耦合到或以其他方式包括耳机1104，其可以通过扬声器馈送35的回放再现由音频数据19’表示的声场。扬声器馈送35可以表示模拟或数字信号，该模拟或数字信号能够使耳机1104的换能器内的膜以各种频率振动，其中这样的过程通常被称为驱动耳机1104。

视频、音频和其他感官数据可能在VR体验中发挥重要作用。为了参与VR体验，用户1102可以穿戴VR头戴装置1100(其也可以被称为VR客户端设备1100)或其他可穿戴电子设备。VR客户端设备(诸如VR头戴装置1100)可以包括跟踪设备(例如，跟踪设备40)，该跟踪设备被配置为跟踪用户1102的头部移动，并且适配经由VR头戴装置1100显示的视频数据以考虑到头部移动，提供沉浸式的体验，其中用户1102可以体验以视频数据在视觉三维中示出的显示世界。显示世界可以指虚拟世界(其中世界的全部都是模拟的)、增强世界(其中世界的部分由虚拟对象增强)或物理世界(其中真实世界图像被虚拟导航)。

虽然VR(和其他形式的AR和/或MR)可以允许用户1102在视觉上驻留在虚拟世界中，但是VR头戴装置1100常常可能缺乏将用户可听地置于显示世界中的能力。换言之，VR系统(其可以包括负责渲染视频数据和音频数据的计算机——为了便于说明的目的未在图2的示例中示出，以及VR头戴装置1100)可能无法可听地(并且在某些情况下，以反映经由VR头戴装置1100呈现给用户的显示场景的方式逼真地)支持全三维沉浸感。

虽然在本公开中关于VR设备进行了描述，但是可以在诸如移动设备之类的其他设备的上下文中执行这些技术的各个方面。在这种情况下，移动设备(诸如所谓的智能电话)可以经由屏幕来呈现显示世界，该屏幕可以被安装在用户1102的头部或者按照正常使用移动设备时的方式被观看。如此以来，屏幕上的任何信息都可以是移动设备的部分。移动设备可以能够提供跟踪信息41，并且因此允许观看显示世界的VR体验(当头戴式时)和正常体验两者，其中正常体验可能仍然允许用户观看提供轻型VR体验的显示世界(例如，举起设备并旋转或平移设备以观看显示世界的不同部分)。

在任何情况下，回到VR设备上下文，VR的音频方面已被分为三个单独的沉浸类别。第一类别提供最低级别的沉浸感，并且被称为三自由度(3DOF)。3DOF是指将三个自由度(偏斜、俯仰和翻滚)中的头部移动考虑在内的音频渲染，从而允许用户在任何方向上自由地环顾四周。然而，3DOF无法考虑到头部不以声场的光学和声学中心为中心的平移头部移动。

第二类别，被称为3DOF加(3DOF+)，除了由于远离声场内的光学中心和声学中心的头部移动而导致的有限空间平移移动，还提供三个自由度(偏斜、俯仰和翻滚)。3DOF+可以提供对诸如运动视差之类的感知效果的支持，这可以加强沉浸感。

第三类别，被称为六自由度(6DOF)，以考虑头部移动(偏斜、俯仰和翻滚)方面的三个自由度而且考虑用户在空间中的平移(x、y和z平移)的方式渲染音频数据。可以由跟踪用户在物理世界中的位置的传感器或通过输入控制器引入空间平移。

3DOF渲染是用于VR的音频方面的当前技术。如此以来，VR的音频方面的沉浸感不如视频方面的沉浸感，并且因此潜在地降低了用户体验的整体沉浸感。然而，VR正在迅速转变，并且可能会迅速发展为同时支持3DOF+和6DOF，这可能会为附加的用例提供机会。

例如，交互式游戏应用可以利用6DOF来促进完全沉浸式的游戏，其中用户自己在VR世界中移动，并且可以通过走到虚拟对象来与虚拟对象进行交互。此外，交互式实况流式传输应用可以利用6DOF来允许VR客户端设备体验音乐会或体育赛事的实况流，就好像自己出现在音乐会上一样，允许用户从音乐会或体育赛事内的一个位置移动到另一位置。在某些示例中，当用户从一个位置移动到另一位置时，流选择单元44可以选择至少一个与先前选择的流不同的音频流。

存在与这些用例相关联的许多困难。在完全沉浸式游戏的情况下，延迟可能需要保持较低，以实现不会导致恶心或眩晕的游戏玩法。此外，从音频的角度来看，导致与视频数据失去同步的音频回放的延迟可能会降低沉浸感。此外，对于某些类型的游戏应用，空间精度对于允许准确响应而言可能很重要，包括关于用户如何感知声音，因为这允许用户预测当前不在视野中的动作。

在实况流式传输应用的上下文中，大量的源设备12A或12B(为了简单起见，在下文中将两者都称为源设备12)可以流式传输内容21，其中源设备12可以具有广泛不同的能力。例如，一个源设备可能是带有数字固定镜头相机和一个或多个麦克风的智能电话，而另一源设备可能是能够获得比智能电话更高的分辨率和质量的视频的生产级(productionlevel)电视装备。然而，在实况流式传输应用的上下文中，所有源设备都可以提供不同质量的流，VR设备可能会尝试从中选择合适的流来提供预期的体验。

此外，与游戏应用类似，使得发生与视频数据失去同步的音频数据的延迟可能会导致较低的沉浸感。此外，空间精度可能也很重要，以便用户可以更好地理解不同音频源的上下文或位置。此外，当用户使用相机和麦克风进行实况流式传输时，隐私可能会成为问题，因为用户可能不希望实况流对公众完全可用。

在流式传输应用(实况或记录)的上下文中，可能存在与不同级别的质量和/或内容相关联的大量音频流。音频流可以表示任何类型的音频数据，包括基于场景的音频数据(例如，立体混响音频数据，包括FOA音频数据、MOA音频数据和/或HOA音频数据)、基于通道的音频数据和基于对象的音频数据。仅从中选择潜在的大量音频流中的一个来重新创建声场可能无法提供确保足够沉浸感级别的体验。然而，由于多个音频流之间的不同空间定位，选择多个音频流可能会产生干扰，从而潜在地降低沉浸感。

根据本公开中描述的某些技术，音频解码设备34可以在经由比特流27可用的音频流(其由比特流27表示并且因此比特流27还可以被称为“音频流27”)之间自适应地选择。音频解码设备34可以基于可以被存储在存储器中并且在某些示例中可以被包括为伴随音频流27的元数据的音频位置信息(ALI)(例如，图1A-图1C中的45A)在音频流27的不同音频流之间进行选择。ALI 45A可以表示其中音频流27中的对应一个被例如麦克风18捕获的显示世界或听觉空间中的捕获位置，或者其中音频流被合成的虚拟坐标。在某些示例中，ALI45A可以与显示世界或听觉空间的坐标相关联。音频解码设备34可以基于ALI 45A选择音频流27的子集，其中音频流27的子集排除音频流27中的至少一个。音频解码设备34可以将音频流27的子集输出为音频数据19’(其也可以被称为“音频数据19’”)。

另外，音频解码设备34可以获得跟踪信息41，内容消费者设备14可以将其转换为设备位置信息(DLI)(例如，图1A-图1C中的45B)。DLI 45B可以表示内容消费者设备14在显示世界或听觉空间中的虚拟位置或实际位置。在某些示例中，DLI 45B可以与显示世界或听觉空间的坐标相关联。内容消费者设备14可以向音频解码设备34提供DLI 45B。音频解码设备34随后可以基于ALI 45A和DLI 45B从音频流27中选择音频数据19’。音频回放系统16A然后可以基于音频数据19’再现对应的声场。

在此方面，音频解码设备34可以自适应地选择音频流27的子集以获得可以导致(与选择单个音频流或所有音频数据19’相比)更加沉浸式的体验的音频数据19’。如此以来，本公开中描述的技术的各个方面可以通过可能地使音频解码设备34更好地空间化声场内的声源来改进音频解码设备34(以及音频回放系统16A或16B和内容消费者设备14)本身的操作，从而改进沉浸感。

在操作中，音频解码设备34可以与一个或多个源设备12接口以确定用于音频流27中的每一个的ALI 45A。如图1A的示例中所示，音频解码设备34可以包括流选择单元44，其可以表示被配置为执行本公开中描述的音频流选择技术的各个方面的单元。

流选择单元44可以基于ALI 45A生成群集图(constellation map，CM)47。CM 47可以为音频流27中的每一个定义ALI 45A。流选择单元44还可以针对音频流27中的每一个执行能量分析以确定用于音频流27中的每一个的能量图，将能量图与ALI 45A一起存储在CM47中。能量图可以共同定义由音频流27表示的公共声场的能量。

流选择单元44接下来可以确定DLI 45B所表示的位置与和音频流27中的至少一个和可能的每一个相关联的ALI 45A所表示的捕获位置或合成位置之间的距离。流选择单元44然后可以基于(一个或多个)距离中的至少一个以及可能的每一个来从音频流27中选择音频数据19’，如下文关于图3A-图3D更详细地讨论的那样。

此外，在某些示例中，流选择单元44还可以基于被存储到CM 47的能量图、ALI 45A和DLI 45B(其中ALI 45A和DLI 45B以上面提到的距离——其也可以被称为“相对距离”——的形式被共同呈现)来从音频流27选择音频数据19’。例如，流选择单元44可以分析在CM 47中呈现的能量图以确定发射被麦克风(诸如麦克风18)捕获并由音频流27表示的声音的公共声场中的音频源的音频源位置(ASL)49。流选择单元44然后可以基于ALI 45A、DLI45B和ASL 49从音频流27确定音频数据19’。关于流选择单元44可以如何选择流的更多信息在下面关于图3A-图3D来进行讨论。

根据本公开中描述的某些技术，内容消费者设备14可以被配置为经由用户接口36输出以显示图形用户接口(GUI)。GUI可以包括CM 47的视觉表示。用户接口36可以使用户能够选择和控制声场的各个方面或参数，并且流选择单元44可以被配置为基于用户输入来选择音频流27中的至少一个音频流。例如，用户接口36可以显示包括与显示世界或听觉空间的坐标相关联的音频元件表示的GUI。音频元件表示可以是内容捕获设备20、麦克风18、合成声场或其组合的指示，并且可以基于ALI 45A。例如，音频元件表示可以包括表示音频元件的图标、图像、字母数字表示或其组合。

用户接口36还可以被配置为获得或检测表示选择音频元件表示中的一个或多个的用户输入的指示。在某些示例中，用户输入可以指示对一个或多个音频元件表示的直接选择。在其他示例中，用户输入可以指示对一个或多个音频元件表示的间接选择，例如，通过在包围音频元件表示中的一个或多个的GUI上定义区域的用户输入。用户可以使用用户输入定义任意区域(例如，该区域可以具有任何形状和/或尺寸)，或者可以操纵预定区域(例如，通过调整具有预定和固定形状的区域的尺寸)。由区域包围的任何音频元件表示可以被解释为被选择并且区域外的任何音频元件表示可以被解释为未被选择。

流选择单元44可以被配置为基于表示用户输入的指示来选择音频流27中的至少一个音频流。在某些示例中，流选择单元44可以选择至少两个音频流并且可以被配置为组合至少两个音频流以形成第三音频流。流选择单元44可以使用混合、内插等来组合至少两个音频流，并且至少两个音频流中的每一个的相对贡献可以基于例如与相应音频流27相关联的ALI 45A、DLI 45B、DLI 45B所表示的位置与和音频流27中的至少一个和可能每一个相关联的ALI 45A所表示的捕获位置或合成位置之间的距离，和/或元数据25。

音频解码设备34可以被配置为然后基于选择来输出音频数据19’。音频解码设备34可以向集成音频渲染器32、作为物理分离设备的部分的音频渲染器32或存储设备输出音频数据19’。以此方式，通过可能地使用户能够通过选择贡献于声场的内容设备和相关联的音频流来控制声场的方面，本公开中描述的技术的各个方面可以改进音频解码设备34(以及音频回放系统16A和内容消费者设备14)本身的操作。关于流选择单元44可以如何基于用户输入选择流的更多信息在下面关于图4A-图4E来进行讨论。

图3A-图3D是更详细地图示出图1A的示例中所示的流选择单元44的示例操作的图。如图3A的示例中所示，流选择单元44可以确定DLI 45B指示内容消费者设备14(被示为VR头戴装置1100)在虚拟位置300A处。流选择单元44接下来可以确定用于音频元件302A-302J(统称为音频元件302)中的一个或多个的ALI 45A，音频元件302A-302J可以不仅仅表示麦克风，诸如图1A中所示的麦克风18，还表示其他类型的捕获设备，包括其他XR设备、移动电话——包括所谓的智能电话——等，或者合成声场)。

流选择单元44接下来可以以上述方式获得能量图，分析能量图以确定音频源位置304，其可以表示图1A的示例中所示的ASL 49的一个示例。能量图可以标示(denote)音频源位置304，因为音频源位置304处的能量可能高于周围区域。给定能量图中的每一个都可以标示此更高的能量，流选择单元44可以基于能量图中的更高能量对音频源位置304进行三角测量。

接下来，流选择单元44可以将音频源距离306A确定为音频源位置304与VR头戴装置1100的虚拟位置300A之间的距离。流选择单元44可以将音频源距离306A与音频源距离阈值进行比较。在某些示例中，流选择单元44可以基于音频源308的能量导出音频源距离阈值。也就是说，当音频源308具有较高的能量时(或换言之，当音频源308的声音较大时)，流选择单元44可以增加音频源距离阈值。当音频源308具有较低的能量时(或换言之，当音频源308较安静时)，流选择单元44可以减小音频源距离阈值。在其他示例中，流选择单元44可以获得静态定义的音频源距离阈值，其可以由用户1102静态定义或指定。

在任何情况下，当音频源距离306A大于(在此示例中为了说明的目的而假设的)音频源距离阈值时，流选择单元44可以选择音频元件302A-302J(“音频元件302”)的音频流27中的单个音频流(例如，图3A的示例中的音频元件302A的音频流)。流选择单元44可以输出音频流27中的对应一个，音频解码设备34可以将其解码并输出为音频数据19’。

假设用户从虚拟位置300A向虚拟位置300B移动，流选择单元44可以将音频源距离306B确定为音频源位置304和虚拟位置300B之间的距离。流选择单元44可以再次将音频源距离306B与音频源距离阈值进行比较。当音频源距离306小于或等于(在本示例中为了说明的目的而假设的)音频源距离阈值时，流选择单元44可以选择音频元件302A-302J(“音频元件302”)的音频流27中的多个音频流。流选择单元44可以输出对应的音频流27，音频解码设备34可以将其解码并输出为音频数据19’。

流选择单元44还可以确定虚拟位置300A与ALI 45A所表示的捕获位置中的一个或多个(并且可能每一个)之间的接近距离以获得一个或多个接近距离。流选择单元44然后可以将一个或多个接近距离与阈值接近距离进行比较。当一个或多个接近距离大于阈值接近距离时，流选择单元44可以选择与接近距离小于或等于阈值接近距离时相比更少数量的音频流27以获得音频数据19’。然而，当邻近距离中的一个或多个小于或等于阈值邻近距离时，流选择单元44可以选择与邻近距离小于或等于阈值接近距离时相比更多数量的音频流27以获得音频数据19’。

换言之，流选择单元44可以尝试选择音频流27中使得音频数据19’最靠近地对准虚拟位置300B并且围绕虚拟位置300B的那些音频流。接近距离阈值可以定义这样的阈值：用户1100可以设置或者流选择单元44可以再次基于音频元件302F-302J的质量、音频源308的增益或响度、跟踪信息41(例如，以确定用户是否面对音频源308)或任何其他因素来动态地确定该阈值。

接下来参考图3B的示例，流选择单元44可以确定音频元件302A的音频流被破坏、嘈杂或不可用。给定音频源距离306A大于音频源距离阈值，流选择单元44可以从CM 47移除音频流并且根据以上更详细描述的技术反复(reiterate)通过音频流27以选择音频流27中的单个音频流(例如，图3B的示例中的音频元件302B的音频流)。

接下来参考图3C的示例，流选择单元44可以获得新的音频流(音频元件302K的音频流)以及包括ALI 45A的对应的新音频元数据。流选择单元44可以将新的音频流添加到表示音频流27的CM 47。给定音频源距离306A大于音频源距离阈值，流选择单元44然后可以根据以上更详细描述的技术反复通过音频流27以选择音频流27中的单个音频流(例如，图3C的示例中的音频元件302B的音频流)。

在图3D的示例中，音频元件302被特定示例设备320A-320J(“设备320”)替换，其中设备320A表示专用麦克风320A，而设备320B、320C、320D、320G、320H和320J表示智能电话。设备320E、320F和320I可以表示VR设备。设备320中的每一个可以包括麦克风，其捕获根据本公开中描述的流选择技术的各个方面而选择的音频流27。

图4A-图4E是更详细地图示出图1A的示例中所示的内容消费者设备14的示例操作的图。在某些示例中，用户接口36可以包括用于在显示设备404处显示的图形用户接口(GUI)402A。虽然用户接口36在本文中主要被讨论为GUI，但是根据本公开的技术可以使用任何类型的用户接口。例如，用户接口36可以包括基于触摸的用户接口、基于话音命令的用户接口、基于手势的用户接口、鼠标、键盘、操纵杆或任何其他类型的用户接口。显示设备404可以是内容消费者设备14的用户接口36的部分(例如，显示设备404可以是图2的VR头戴装置1100或移动计算设备的部分)或者可以是单独的设备(例如，显示设备404可以是经由有线或无线连接连接到内容消费者设备14的监视器)。

在某些示例中，显示设备404可以包括可以检测触摸输入(例如，单点触摸输入或多点触摸输入)的触摸传感器。在某些配置中，触摸传感器可以与显示设备404集成。在其他配置中，触摸传感器可以被单独实施在内容消费者设备14中或者可以耦合到内容消费者设备14和/或显示设备404。

GUI 402A可以包括CM 47的二维或三维表示，其可以包括多个音频元件表示406A-406H(统称为“音频元件表示406”)。在某些示例中，音频元件表示406中的一个或多个可以表示合成音频流，而不是捕获的音频流。音频元件表示406可以是内容捕获设备20、麦克风18、合成声场或其组合的指示，并且可以基于ALI 45A。例如，音频元件表示406可以包括表示音频元件的图标、图像、字母数字表示或其组合。在某些示例中，GUI 402A包括图例(legend)408，其将图标或图像与标签相关联以辅助用户理解音频元件表示406的图标或图像的含义。如图4A所示，与音频元件表示406相关联的音频元件可以包括麦克风、带有麦克风的移动设备、带有麦克风的XR头戴装置、带有麦克风的连接视频相机、合成声场等。

音频元件表示406可以经由ALI 45A与显示世界或听觉空间的坐标(例如，(x，y，z)坐标元组)相关联。在某些示例中，如图4A所示，可以以表示相应音频元件在显示世界或听觉空间内的相对定位的空间关系将音频元件表示406布置于GUI 402A中。在某些示例中，GUI 402A可以包括基于ALI 45A在显示世界或听觉空间内显示的音频元件表示406的表示。

在某些示例中，用户接口36可以将GUI 402A的全部或部分与参考平面对准。在某些实施方式中，参考平面可以是水平的(例如，平行于地面或地板)。例如，用户接口36可以对准GUI 402A中的显示与显示世界或听觉空间相关联的坐标系的部分。在某些实施方式中，用户接口36可以实时地对准GUI 402A的全部或部分。

在某些配置中，内容消费者设备14(例如，用户接口36)可以包括至少一个图像传感器。例如，内容消费者设备14内可以包括若干图像传感器。至少一个图像传感器可以收集与内容消费者设备14和/或内容消费者设备所在的环境有关的数据(例如，图像数据)。例如，相机(例如，图像传感器)可以生成图像。在某些实施方式中，至少一个图像传感器可以向显示设备404提供图像数据。

在某些示例中，GUI 402A可以包括能量图和/或音频源415的位置的表示。在某些示例中，能量图可以是根据与音频流27中的多个和可能每一个相关联的能量图确定的组成物。能量图可以标示音频源位置414，因为音频源位置414处的能量可能高于周围区域。给定能量图中的每一个都可以标示此更高的能量，流选择单元44可以基于能量图中的更高能量对音频源位置414进行三角测量。

用户接口36可以包括被配置为执行本文描述的功能的一个或多个元件。例如，GUI402A可以包括选择的(一个或多个)音频元件表示406的指示符和/或可以显示用于编辑选择的(一个或多个)音频元件表示406的图标。

GUI 402A可以包括音频元件表示选择特征，其可以允许选择音频元件表示406中的至少一个音频元件表示。在某些实施方式中，音频元件表示选择特征可以基于触摸输入来操作。例如，音频元件表示选择特征可以允许基于单点触摸输入(例如，触摸、滑动和/或圈出对应于音频元件表示的GUI 402A的区域)来选择音频元件表示。触摸输入的示例包括一个或多个敲击、滑动、图案(例如，符号、形状等)、捏合、伸展、多点触摸旋转等。在某些配置中，当一个或多个敲击、滑动、图案、手势等与显示的音频元件表示相交时，内容消费者设备14的一个或多个处理器可以选择显示的音频元件表示。在某些实施方式中，音频元件表示选择特征可以允许同时选择多个扇区(sector)。例如，音频元件表示选择特征可以允许基于多个触摸输入来选择多个音频元件表示406。作为另一示例，音频元件表示选择特征可以允许基于收听者410经由用户输入定义区域412来选择多个音频元件表示406。

区域412可以对应于例如由收听者410经由用户输入定义的显示世界中的坐标集合。在某些示例中，区域412可以具有预定义的形状(例如，圆形)并且收听者410可以通过触摸输入(例如，触摸和拖拽输入、捏合、或用于调整区域尺寸的对应于图标或滑块位置处的触摸输入)来操纵区域412的尺寸。在其他示例中，区域412可以完全由收听者410定义，包括区域412的形状和尺寸。当图案(例如，圆形区域、矩形区域或图案内的区域)等完全或部分地围绕或包括显示的音频元件表示时，用户接口36可以选择显示的音频元件表示。用户接口36可以被配置为将区域412内的音频元件表示(例如，音频元件表示406F-406H)解释为被选择并且将区域412之外的音频元件表示(例如，音频元件表示406A-406E)解释为未被选择。

在某些配置中，音频解码设备34可以基于一个或多个用户输入来编辑与选择的音频元件表示相关联的一个或多个音频流27。例如，用户接口36可以呈现一个或多个选项(例如，一个或多个按钮、一个或多个滑块、下拉菜单等)，这些选项提供用于编辑与选择的音频元件表示(选择的音频信号指示符)相关联的音频流的选项。收听者410可以通过例如将(与另一音频元件表示或区域412相比)更多的重要性指派给音频元件表示或区域412来编辑选择的音频流。例如，内容消费者设备14可以从收听者410获得重要性指示。音频解码设备34(例如，流选择单元44)可以向由收听者410指示为更重要的音频流指派较高的权重(例如，增益)并且可以向由收听者410指示为较不重要或不与重要性相关联的音频流指派较低的权重(例如，增益)。附加地或可替代地，用户接口36可以呈现一个或多个选项(例如，一个或多个按钮、下拉菜单等)，这些选项提供用于编辑扇区的选项(例如，选择或改变用于扇区的颜色、图案和/或图像，设置是否应对扇区中的音频信号进行滤波(例如，阻止或通过)，放大或缩小扇区，调整扇区尺寸(例如，通过扩展或收缩扇区)等)。例如，捏合触摸输入可以对应于减小或缩小扇区尺寸，而伸展可以对应于放大或扩大扇区尺寸。

流选择单元44然后可以基于选择的音频元件表示406来选择音频流27中的至少一个音频流。例如，流选择单元44可以选择与选择的音频元件表示406相关联的音频流并且可以省略或不选择与未被选择的音频元件表示406相关联的音频流。在某些示例中，流选择单元44可以组合选择的音频流中的两个或更多个以产生音频数据19’。例如，流选择单元44可以使用混合、内插等来组合选择的音频流中的两个或更多个，并且流选择单元44可以使至少两个音频流中的每一个的相对贡献基于例如与相应音频流27相关联的ALI 45A、DLI45B、DLI 45B所表示的位置与和音频流27中的至少一个和可能每一个相关联的ALI 45A所表示的捕获位置或合成位置之间的距离、和/或元数据25。

在某些示例中，收听者410可以使用用户接口36来指示与DLI 45B指示的收听定位不同的收听定位。例如，图4B图示了GUI 402B，其中收听者410指示期望收听定位413，该收听定位413不同于如DLI 45B所指示的收听者410在显示世界或听觉空间内的定位416。收听者410的位置可以继续在3DoF、3DoF+或6DoF中被跟踪，但是他们的音频角度可以与他们被跟踪的位置解关联(disassociated)。收听者410可以使用本文描述的用户输入(包括单点触摸输入、多点触摸输入或其他非触摸用户输入)中的任一个来指示期望收听定位413。可替代地，期望收听定位413可以是音频元件表示406中的单个音频元件表示，并且一个或多个处理器可以将收听定位锁定到选择的音频元件的位置，随着选择的音频元件移动而移动收听定位。流选择单元44然后可以基于与期望收听定位413相关联的坐标以及本文例如参考图1A-图1C和图3A-图3D描述的技术来选择音频流27。

在某些实施方式中，用户接口36被配置为响应于获得表示期望收听定位的指示而可能地建议替代收听定位。例如，图4C图示了GUI 402C，其中收听者410指示期望收听定位413。内容消费者设备14的一个或多个处理器例如从触摸传感器获得期望收听定位413的指示，并且确定期望收听定位413处于不合需要的位置。例如，期望收听定位413可能靠近被静音或其音频流以其他方式不可使用的音频元件表示406E。作为响应，用户接口36可以被配置为输出建议替代收听定位418的用户接口元件。音频解码设备34(例如，流选择单元44)可以基于可用音频流27、与音频流相关联的元数据25等来确定替代收听定位418。例如，元数据可以指示针对音频元件的品牌(make)、型号或其他信息，并且音频解码设备34可以考虑与音件元件相关联的质量度量来选择替代收听定位418。以此方式，响应于确定期望收听定位413不是优选的，内容消费者设备14的一个或多个处理器可以将期望收听定位413“贴合”到优选收听定位。收听者410可以指示接受替代收听定位418(例如，通过肯定的用户输入或通过不输入后续期望收听定位413)或者可以输入后续期望收听定位413。

在某些实施方式中，用户接口36被配置为允许用户控制或修改收听体验的相对角度。例如，图4D图示了GUI 402D，其中收听者410指示期望收听角度。GUI 402D图示了如DLI45B所指示的收听者410在显示世界或听觉空间内的定位416。GUI 402D还图示了第一收听角度420。第一收听角度420相对集中或狭窄，如指示第一收听角度420的相对小尺寸的圆圈所指示的那样。由于第一收听角度420相对较小，流选择单元44可以仅选择与第一收听角度420内的音频元件表示406相关联的音频流。这包括图4D的示例中的音频元件表示406D和406E。然而，如穿过音频元件表示406E的斜线所指示的，与音频元件表示406E相关联的音频元件被静音或以其他方式不可用。因此，流选择单元44可以使用仅选择与音频元件表示406D相关联的音频流。

收听者410可以将收听体验的相对角度修改为更宽或更远。例如，收听者410可以做手势426或以其他方式操纵表示收听角度的图形用户接口元件以将收听角度从第一收听角度420移动到第二收听角度422。可替代地，用户可以与另一图形用户接口元件424交互以沿着近和远之间的连续体移动滑块425以定义收听角度。作为另一示例，用户可以与机械式输入设备(诸如线性电位计、旋钮、刻度盘等)交互，以控制相对收听角度。

响应于检测到控制或修改相对收听角度的用户输入，流选择单元44可以从音频流27中选择至少一个音频流。例如，流选择单元44可以选择与由第二收听角度422包围或以其他方式指示的音频元件表示406相关联的音频流。在图4D的示例中，由第二收听角度422包围或以其他方式指示的音频元件表示406包括音频元件表示406A-406E，尽管流选择单元44可能不选择与音频元件表示406E相关联的音频流(如上所述)。在其他示例中，代替基于由第二收听角度422包围或以其他方式指示的音频元件表示406来选择音频流，流选择单元44可以基于第二收听角度422以及本文例如参考图1A-图1C和图3A-图3D描述的技术来选择音频流27。例如，第二收听角度可以定义阈值接近距离，其中“远”角度对应于较大的阈值接近距离，并且“近”角度对应于较小的阈值接近距离。

在某些实施方式中，用户接口36被配置为允许用户控制或修改与音频元件相关联的信息(诸如元数据)的呈现。例如，图4E图示了GUI 402E，其包括与一个或多个(例如，每个)音频元件表示406相关联的元数据428的显示。元数据428可以包括例如以下指示：相关联的音频元件是公开的还是私有的、相关联的音频元件是包括校准的还是未校准的麦克风、相关联的音频元件是静态的还是动态的等。用户接口36可以使收听者410能够切换(toggle)元数据428的显示，例如，通过呈现被配置为控制元数据428的显示的UI元件。UI元件可以是图形UI元件，诸如图标、单选按钮、切换开关或菜单选择；或者可以包括专用的或可配置的物理输入设备，诸如切换开关、按钮等。

如上文关于图4C所述的，用户(例如，收听者410)可以能够贴合到优选收听定位。在6DoF音频的上下文中，贴合或贴合模式可以被定义为用于音频渲染的空间坐标的变换。在某些示例中，空间坐标的这种变换可以是实时的或基本上实时的(具有小于2秒的延迟)。以这种方式，贴合可能会破坏用于渲染视觉场景(或在其中没有视觉内容的情况下的音频场景)的收听者坐标(例如，设备或收听者在显示世界中的虚拟位置)与用于音频渲染的坐标之间的关系。可能存在两种贴合模式——硬贴合和软贴合。

图5A是图示出硬贴合的示例的概念图。图5A的一个或多个元件可以是用户接口36的部分。例如，收听者410的定位416、贴合定位S 435、音频元件434或音频元件436或者其任何组合可以在用户接口36中被表示。在硬贴合中，用于对音频流进行加权(w)的阈值可以是收听者410的定位416(也被称为设备或用户的虚拟位置)到最近的捕获位置A或B的距离。位置A处的音频元件434和位置B处的音频元件436可以表示(诸如来自音频捕获设备或合成音频流)，或者预定义的收听定位的音频信号。

第一音频源距离阈值(诸如贴合定位S 435)可以被设置于位置A与B之间的任何位置。在某些示例中，收听者410可以例如通过用户接口(诸如本文公开的用户接口)来设置或移动贴合定位S 435。在某些示例中，贴合定位S 435可以被预设、由源设备12在比特流27中提供或由内容消费者设备14生成。

当位置A和B处的音频元件434和436分别是相同类型的音频音频元件时，A和B的中点可以被设置为用于定位S 435的默认位置。在中点是定位P435的默认位置的情况下(如图5A所示)，当收听者410的定位416更靠近位置A时，音频源w在位置A(例如，音频元件434)处(w＝A)，并且当收听者410的定位416更靠近位置B时，音频源w在位置B(例如，音频元件436)处。在某些示例中，收听者410可以推翻(over-ride)定位S 435的选取以使贴合朝向音频元件或音频元件的集合偏斜。例如，收听者410可以将定位S 435移近位置A。当收听者410将定位S 435移近位置A时，收听者410可以在收听者410位于位置A与B之间的中点时听到由音频元件436表示的音频信号。当收听者410的定位416改变为比定位S 435更接近位置A时，提供给收听者410的音频可以贴合到位置A，使得呈现给收听者410的音频信号是由音频元件434表示的音频信号。当收听者410的定位416将移动到比定位S 435更靠近位置B时，提供给收听者410的音频可以贴合到位置B并且提供给收听者410的音频可以是由音频元件436表示的音频信号。

例如，诸如VR头戴装置1100之类的设备可以确定表示设备在显示世界中的虚拟位置(例如，收听者410的定位416)的虚拟位置信息。VR头戴装置1100可以将虚拟位置信息与第一音频源距离阈值(例如，定位S 435)进行比较，并基于比较来选择至少一个音频流(例如，音频元件434或436)，其可以被提供给用户(例如，收听者410)。

视觉或听觉反馈可以被提供以警告收听者410他们已经贴合到收听定位(例如，定位A或定位B)。例如，VR头戴装置1100可以在新的贴合定位(例如，定位A或定位B)处提供视觉警告，诸如渐变到黑色、闪光和/或视觉标记。在其中贴合的位置可能在收听者410的视野之外(例如，在收听者后面)的情况下，视觉警告可以指示贴合的位置在视野之外，例如，渐变到黑色、闪光或者可能与贴合的位置在收听者410的视野之外相关联的某些其他技术。

在某些示例中，收听者410可以在贴合期间听到渐显/渐隐，或指示贴合发生的某些其他音频警告。例如，耳机1104可以向收听者410提供渐显/渐隐、音调、叮当声、贴合声、单词(诸如“贴合”)或贴合已经发生的某些其他指示。

图5B是图示出软贴合的示例的概念图。图5B的一个或多个元件可以是用户接口36的部分。例如，收听者410的定位416、贴合定位X₁ 429、贴合定位X₂ 442、音频元件438或音频元件440或者其任何组合可以在用户接口36中被表示。第二贴合模式是软贴合。如图5B所示，在贴合被函数F(x)软化(soften)时，当收听者的定位416在第一音频源距离阈值(例如，贴合定位X₁)与第二音频源距离阈值(例如，贴合定位X₂)之间(软贴合区域)时，软贴合可以发生。虽然F(x)在图5B中被示为线性函数，但F(x)可以是任何函数。

以这种方式，可以给出诸如耳机1104之类的设备对位置A处的音频元件438或位置B处的音频元件440的音频渲染的偏好。在某些示例中，该区域可以是不对称区域并且包括滞后(hysteresis)行为。例如，诸如VR头戴装置1100之类的设备可以确定收听者410的定位416在预定时间段内是否相对于第一音频源距离阈值(例如，贴合定位X₁ 439)和第二音频源距离阈值(例如，贴合定位X₂ 441)保持稳定。基于设备确定收听者410的定位416在预定时间段内已经稳定，对呈现给收听者410的音频的贴合或转变可能发生。例如，设备可以确定用户的虚拟位置已经从贴合定位X₁ 439与贴合定位X₂ 441之间移动到定位X₂ 441与位置B之间。一旦过了预定时间，呈现给收听者410的音频就可以贴合到位置B处的音频元件440。

在其他方面中，软贴合类似于硬贴合那样起作用。当收听者410的定位416在贴合定位X₁439与位置A之间时，收听者410可以贴合到位置A并且听到由位置A处的音频元件438表示的音频(当A≤x≤X₁时，w＝A)。当收听者410的定位416在贴合定位X₁ 439与贴合定位X₂441之间时，收听者410可以根据函数F(x)听到由音频元件438和音频元件440两者表示的音频(当X₁<x<X₂时，w＝F(x))。例如，当收听者410的定位416在贴合定位X₁ 439与贴合定位X₁441之间(在软贴合区域中)时，设备可以根据F(x)自适应地混合由音频元件438和音频元件440两者表示的音频，或基于由音频元件438和音频元件440表示的音频以及F(x)内插第三音频流。当收听者410的定位416在位置B与贴合定位X₂ 441之间时，收听者410可以贴合到位置B并且可以听到由位置B处的音频元件440表示的音频(当X₂<x≤B时，w＝B)。与硬贴合一样，可以向收听者410呈现视觉或听觉警告。在某些示例中，当贴合发生时以及当收听者410的定位416进入贴合定位X₁与贴合定位X₂之间的区域时，可以呈现视觉或听觉警告。例如，当收听者410的定位416在位置A之间时，音频源w在位置A(例如，音频元件438)处，并且在某些示例中，交叉渐变(crossfading)可以被呈现并且取决于时间和收听者的运动两者。

图5C是图示出软贴合的另一示例的概念图。图5C的一个或多个元件可以是用户接口36的部分。例如，公式或表示公式的图形或者其组合可以被呈现在用户接口36中。在图5C的示例中，定位X₁与定位X₂之间的阈值区域被扩展到位置A与位置B之间的整个区域。在该示例中，收听者410在收听者410的定位416在位置A处时可能只听到来自位置A的音频，在收听者410的定位416在位置A与位置B之间时可能听到来自位置A和位置B的音频的混合，并且在收听者410的定位416在位置B处时只听到来自位置B的音频。

上述示例(图5A-图5C)可以是定位相关的贴合。在其他示例中，贴合可能不是定位相关的。例如，收听者410可以通过用户接口(诸如图4C的用户接口)而不是通过移动收听者410的定位416来贴合到位置。

图5D是图示出具有三个或更多个音频音频元件的示例音乐会的概念图。图5D的一个或多个元件可以是用户接口36的部分。例如，音频元件310A、音频元件310B、音频元件310C、音频元件310D、歌手312、弦乐组314、鼓手316、其他音乐家318、耳机321、智能眼镜324、VR护目镜322或其任何组合可以在用户接口36中被表示。在图5D的示例中，舞台323上描绘了多个音乐家。歌手312位于音频元件310A后面。弦乐组314被描绘在音频元件310B后面。鼓手316被描绘在音频元件310C后面。其他音乐家318被描绘在音频元件310D后面。音频元件310A-301D可以捕获与麦克风接收到的声音相对应的音频流。在某些示例中，音频元件310A-310D可以表示合成音频流。例如，音频元件310A可以表示主要与歌手312相关联的(一个或多个)捕获的音频流，但是这(一个或多个)音频流也可以包括由其他乐队成员(诸如弦乐组314、鼓手316或其他音乐家318)产生的声音，而音频元件310B可以表示主要与弦乐组314相关联的(一个或多个)捕获的音频流，但包括由其他乐队成员产生的声音。以此方式，音频元件310A-310D中的每一个可以表示不同的(一个或多个)音频流。

同样，还描绘了多个设备。这些设备表示位于多个不同期望收听定位的用户设备。耳机320位于音频元件310A附近，但在音频元件310A与音频元件310B之间。如此以来，根据本公开的技术，流选择单元44可以选择音频流中的至少一个来为耳机320的用户产生类似于位于图5D中耳机320所在位置的用户的音频体验。类似地，VR护目镜322被示为位于音频元件310C后面以及鼓手316与其他音乐家318之间。流选择单元44可以选择至少一个音频流来为VR护目镜322的用户产生类似于位于图5D中VR护目镜322所在位置的用户的音频体验。

智能眼镜324被示为相当中心地位于音频元件310A、310C和310D之间。流选择单元44可以选择至少一个音频流来为智能眼镜324的用户产生类似于位于图5D中智能眼镜324所在位置的用户的音频体验。另外，设备326(其可以表示能够实施本公开的技术的任何设备，诸如移动手持装置、扬声器阵列、耳机、VR护目镜、智能眼镜等)被示为位于音频元件310B的前面。流选择单元44可以选择至少一个音频流来为设备326的用户产生类似于位于图5D中设备325所在位置的用户的音频体验。虽然关于特定位置讨论了特定设备，但是所描绘的设备中的任一个的使用可以提供与图5D中描绘的不同的期望收听定位的指示。

图5E是图示出具有三个或更多个音频元件的示例音乐会的概念图。图5E的一个或多个元件可以是用户接口36的部分。例如，音频元件S1 446、音频元件S2 448、音频元件S3450、音频元件S4 452、音频元件R1 454、音频元件R2 456、音频元件R3 458、音频元件R4460、舞台444、收听者的定位430或收听者的定位432或者其任何组合可以在用户接口36中被表示。图5E描绘了音乐会布局。在该示例中，当收听者在舞台附近的多个音频元件(S1446、S2 448、S3 450、S4 452)与远离舞台的音频元件(R1 454、R2 456、R3 458、R4 460)之间移动时，收听者可能想贴合到更远离收听者的定位的音频元件。

例如，当收听者想要听到表演者靠近(例如，靠近舞台444)，但想要看到舞台的更多(例如，比靠近舞台的位置更宽的视野)，使得收听者的定位430更远离舞台时，收听者可以使贴合的音频源距离阈值朝向舞台音频元件S2 448而不是最近的音频元件R2 456偏斜(距离a>距离b)。在某些示例中，利用朝向舞台音频元件的这种偏斜，当收听者移向定位432时，收听者保持贴合到S2 448。在定位432处，收听者可以贴合到音频元件S3 450，因为收听者到音频元件S3 450的距离(c)小于收听者到音频元件S2 448的距离。在没有偏斜的情况下，当收听者从定位430移动到定位432时，收听者将贴合到音频元件R2 456和R3 458。

图5F是图示出根据本公开的示例用户接口技术的流程图。内容消费者设备14可以存储多个音频流(462)。例如，内容消费者设备14可以从源设备12接收比特流27并且比特流27可以包括多个音频流的表示，可以根据这些表示重新创建一个或多个音频流并且存储多个音频流。内容消费者设备14的一个或多个处理器可以呈现用户接口36(464)。在某些示例中，用户接口36可以是图形用户接口。在某些示例中，用户接口36可以是基于手势的用户接口，诸如被配置为识别用户的手势的用户接口。在某些示例中，用户接口36可以是基于话音命令的用户接口，诸如识别话音命令的用户接口。在某些示例中，用户接口36可以是基于触摸的用户接口，诸如识别触摸(诸如单点触摸或多点触摸)的用户接口(例如，多点触摸用户接口)。在其他示例中，用户接口36可以是另一类型的用户接口。

内容消费者设备14的一个或多个处理器可以经由用户接口36获得表示期望收听定位的指示(466)。例如，用户可以经由用户接口36指示期望收听定位，诸如期望收听定位413。内容消费者设备14的一个或多个处理器可以基于该指示来选择多个音频流中的至少一个音频流(468)。例如，流选择单元44可以选择至少一个音频流，使得用户可以体验音频，就好像用户位于期望收听定位一样。在某些示例中，内容消费者设备14可以向例如一个或多个扬声器馈送输出至少一个音频流(470)。

图5G是图示出根据本公开的用户接口技术的进一步示例的流程图。在某些示例中，图5G的技术可以与图5F的技术一起使用。图5G的技术可以表示贴合模式。内容消费者设备14的一个或多个处理器可以获得用户期望激活贴合模式的指示(472)。贴合模式可以如关于图5A-图5E描述的那样操作。例如，用户1102可以向用户接口36提供她期望激活贴合模式的指示。内容消费者设备14的一个或多个处理器可以确定第一音频源距离阈值(474)。在某些示例中，第一音频源距离阈值可以基于来自用户的指示。在其他示例中，第一音频源距离阈值可以在来自源设备12的比特流27中被预设或传达。在其他示例中，第一音频源距离阈值可以由内容消费者设备14生成。例如，在硬贴合的示例中，内容消费者设备14的一个或多个处理器可以将第一音频源距离阈值确定为贴合点S 435。在其他示例中，在软贴合的示例中，内容消费者设备14的一个或多个处理器可以将第一音频源距离阈值确定为贴合定位X₁。在软贴合的示例中，一个或多个处理器还可以确定第二音频源距离阈值(476)。例如，内容消费者设备14的一个或多个处理器可以将第二音频源距离阈值确定为贴合定位X₂。

内容消费者设备14的一个或多个处理器可以进一步基于第一音频源距离阈值(例如，在硬贴合的情况下)或者进一步基于第一音频源距离阈值和第二音频源距离阈值(例如，在软贴合的情况下)选择至少一个音频流(478)。例如，在硬贴合的情况下，内容消费者设备14的一个或多个处理器可以将收听者的定位(例如，定位416)的位置与第一音频源距离阈值(例如，贴合点S 435)进行比较，并且如果收听者的定位更靠近给定的音频流，例如，音频元件434，则流选择单元44可以选择给定的音频流。例如，在软贴合的情况下，内容消费者设备14的一个或多个处理器可以将收听者的定位(例如，定位416)的位置与到第一音频流(例如，音频元件438)的第一音频源距离阈值(例如，贴合定位X₁ 439)、以及与第二音频流距离阈值(例如，贴合定位X₂)进行比较，并且基于该比较，流选择单元44可以选择第一音频流、第二音频流或两者。在某些示例中，内容消费者设备14可以向例如一个或多个扬声器馈送输出至少一个音频流(480)。

图6是图示出可以根据本公开中描述的技术的各个方面操作的可穿戴设备500的示例的图。在各种示例中，可穿戴设备500可以表示VR头戴装置(诸如上述VR头戴装置1100)、AR头戴装置、MR头戴装置或任何其他类型的扩展现实(XR)头戴装置。增强现实“AR”可以指覆盖在用户实际所在的真实世界上的计算机渲染的图像或数据。混合现实“MR”可以是指世界锁定(world lock)在真实世界中特定位置的计算机渲染的图像或数据，或者可以是指VR的变体，其中部分计算机渲染的3D元件和部分拍摄的真实元件被组合成沉浸式的体验，其模拟用户在环境中的物理存在。扩展现实“XR”可以表示VR、AR和MR的统称。有关用于XR的术语的更多信息可以在Jason Peterson的标题为“Virtual Reality,AugmentedReality,and Mixed Reality Definitions”且日期为2017年7月7日的文档中找到。

可穿戴设备500可以表示其他类型的设备，诸如手表(包括所谓的“智能手表”)、眼镜(包括所谓的“智能眼镜”)、耳机(包括所谓的“无线耳机”和“智能耳机”)、智能服装、智能首饰等。无论是表示VR设备、手表、眼镜和/或耳机，可穿戴设备500都可以经由有线连接或无线连接与支持可穿戴设备500的计算设备通信。

在某些情况下，支持可穿戴设备500的计算设备可以被集成在可穿戴设备500内，并且因此，可穿戴设备500可以被视为与支持可穿戴设备500的计算设备相同的设备。在其他情况下，可穿戴设备500可以与可以支持可穿戴设备500的单独计算设备通信。在这方面，术语“支持”不应被理解为需要单独的专用设备，而是被配置为执行本公开中描述的技术的各个方面的一个或多个处理器可以被集成在可穿戴设备500内或被集成在与可穿戴设备500分开的计算设备内。

例如，当可穿戴设备500表示VR设备时，单独的专用计算设备(诸如包括一个或多个处理器的个人计算机)可以渲染音频和视觉内容，而可穿戴设备500可以确定平移头部移动，根据本公开中描述的技术的各个方面，专用计算设备可以基于平移头部移动来渲染音频内容(作为扬声器馈送)。作为另一示例，当可穿戴设备500表示智能眼镜时，可穿戴设备500可以包括一个或多个处理器，其即确定平移头部移动(通过在可穿戴设备500的一个或多个传感器内接口)又基于确定的平移头部移动来渲染扬声器馈送。

如图所示，可穿戴设备500包括一个或多个方向扬声器，以及一个或多个跟踪和/或记录相机。另外，可穿戴设备500包括一个或多个惯性、触觉和/或健康传感器、一个或多个眼睛跟踪相机、一个或多个高灵敏度音频麦克风和光学/投影硬件。可穿戴设备500的光学/投影硬件可以包括耐用的半透明显示技术和硬件。

可穿戴设备500还包括连接硬件，其可以表示支持多模式连接(诸如4G通信、5G通信、蓝牙等)的一个或多个网络接口。可穿戴设备500还包括一个或多个环境光传感器、一个或多个相机和夜视传感器，以及一个或多个骨传导换能器。在某些情况下，可穿戴设备500还可以包括一个或多个带有鱼眼镜头和/或远摄镜头的无源和/或有源相机。虽然未在图6中被示出，可穿戴设备500还可以包括一个或多个发光二极管(LED)灯。在某些示例中，(一个或多个)LED灯可以被称为“超亮”LED灯。在某些实施方式中，可穿戴设备500还可以包括一个或多个后置相机。应当理解，可穿戴设备500可以表现出多种不同的形状因子。

此外，跟踪和记录相机以及其他传感器可以促进平移距离的确定。尽管未在图6的示例中示出，可穿戴设备500可以包括用于检测平移距离的其他类型的传感器。

尽管关于可穿戴设备的特定示例(诸如上文关于图2的示例所讨论的VR头戴装置1100以及图1A-图1C的示例中阐述的其他设备)进行了描述，但本领域普通技术人员将理解关于图1A-图1C和图2的描述可以应用于可穿戴设备的其他示例。例如，其他可穿戴设备(诸如智能眼镜)可以包括传感器，通过这些传感器来获得平移头部移动。作为另一示例，其他可穿戴设备(诸如智能手表)可以包括传感器，通过这些传感器来获得平移移动。如此以来，本公开中描述的技术不应限于特定类型的可穿戴设备，而是任何可穿戴设备都可以被配置为执行本公开中描述的技术。

图7A和图7B是图示出可以执行本公开中描述的技术的各个方面的示例系统的图。图7A图示了其中源设备12C还包括相机600的示例。相机600可以被配置为捕获视频数据，并且向内容捕获设备20提供捕获的原始视频数据。内容捕获设备20可以向源设备12C的另一组件提供视频数据，以进一步处理成视口划分(viewport-divided)部分。

在图7A的示例中，内容消费者设备14C还包括VR头戴装置1100。将理解的是，在各种实施方式中，VR头戴装置1100可以被包括在内容消费者设备14C中或从外部耦合到内容消费者设备14C。VR头戴装置1100包括用于输出视频数据(例如，与各种视口相关联)和用于渲染音频数据的显示硬件和扬声器硬件。

图7B图示出了其中图7A中所示的音频渲染器32被能够使用一个或多个HRTF或能够渲染到左右扬声器馈送43的其他函数执行双耳渲染的双耳渲染器42替换的示例。内容消费者设备14D的音频回放系统16C可以向耳机48输出左右扬声器馈送43。

耳机48可以经由有线连接(诸如标准3.5mm音频插孔、通用系统总线(USB)连接、光学音频插孔或其他形式的有线连接)或无线地(诸如通过蓝牙^TM连接、无线网络连接等)耦合到音频回放系统16C。耳机48可以基于左右扬声器馈送43重新创建由音频数据19’表示的声场。耳机48可以包括左耳机扬声器和右耳机扬声器，它们由对应的左右扬声器馈送43供电(或换言之，驱动)。应当注意，内容消费者设备14C和内容消费者设备14D可以与图1C的源设备12B一起使用。

图8是图示出图1A-图1C的示例中所示的源设备和内容消费者设备中的一个或多个的示例组件的框图。在图8的示例中，设备710包括处理器712(其可以被称为“一个或多个处理器”或“(一个或多个)处理器”)、图形处理单元(GPU)714、系统存储器716、显示处理器718、一个或多个集成扬声器740、显示器703、用户接口720、天线721和收发器模块722。在其中设备710是移动设备的示例中，显示处理器718是移动显示处理器(MDP)。在某些示例中，诸如其中设备710是移动设备的示例中，处理器712、GPU 714和显示处理器718可以被形成为集成电路(IC)。

例如，IC可以被认为是芯片封装内的处理芯片并且可以是片上系统(SoC)。在某些示例中，处理器712、GPU 714和显示处理器718中的两个可以一起被容纳在相同IC中，而另一个可以被容纳在不同的集成电路(例如，不同的芯片封装)中，或者所有三个可以被容纳在不同的IC中或在相同的IC上。然而，在其中设备710是移动设备的示例中，处理器712、GPU714和显示处理器718可能都被容纳在不同的集成电路中。

处理器712、GPU 714和显示处理器718的示例包括但不限于一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其他等效的集成或离散逻辑电路。处理器712可以是设备710的中央处理单元(CPU)。在某些示例中，GPU 714可以是专用硬件，其包括为GPU 714提供适合图形处理的大规模并行处理能力的集成和/或离散逻辑电路。在某些情况下，GPU 714还可以包括通用处理能力，并且在实施通用处理任务(例如，非图形相关任务)时可以被称为通用GPU(GPGPU)。显示处理器718也可以是专用集成电路硬件，其被设计为从系统存储器716中检索图像内容，将图像内容组成图像帧，以及向显示器703输出图像帧。

处理器712可以执行各种类型的应用。应用的示例包括网络浏览器、电子邮件应用、电子表格、视频游戏、生成用于显示的可观看对象的其他应用、或上文更详细列出的应用类型中的任一个。系统存储器716可以存储用于执行应用的指令。在处理器712上对应用中的一个的执行使得处理器712产生用于要显示的图像内容的图形数据和要播放(可能经由集成扬声器740)的音频数据19。处理器712可以向GPU 714发送图像内容的图形数据，以用于基于处理器712向GPU 714发送的指令或命令进行进一步处理。

处理器712可以根据特定应用处理接口(API)与GPU 714通信。这样的API的示例包括

的

API、科纳斯组织的

或OpenGL

以及OpenCL^TM；然而，本公开的方面不限于DirectX、OpenGL或OpenCL API，并且可以扩展到其他类型的API。此外，本公开中描述的技术不需要根据API起作用，并且处理器712和GPU 714可以利用用于通信的任何过程。

系统存储器716可以是用于设备710的存储器。系统存储器716可以包括一个或多个计算机可读存储介质。系统存储器716的示例包括但不限于随机存取存储器(RAM)、电可擦除可编程只读存储器(EEPROM)、闪存以及可以被用于以指令和/或数据结构的形式携带或存储所需程序代码并且可以由计算机或处理器访问的其它介质。

在某些示例中，系统存储器716可以包括使得处理器712、GPU 714和/或显示处理器718执行本公开中归于处理器712、GPU 714和/或显示处理器718的功能的指令。相应地，系统存储器716可以是其上存储有指令的计算机可读存储介质，这些指令在被执行时使得一个或多个处理器(例如，处理器712、GPU 714和/或显示处理器718)执行各种功能。

系统存储器716可以包括非暂时性存储介质。术语“非暂时性”指示存储介质不体现在载波或传播信号中。然而，术语“非暂时性”不应被解释为意指系统存储器716是不可移动的或者其内容是静态的。作为一个示例，系统存储器716可以从设备710被移除，并被移动至另一设备。作为另一示例，基本上类似于系统存储器716的存储器可以被插入到设备710中。在某些示例中，非暂时性存储介质可以存储可以随时间改变的数据(例如，在RAM中)。

用户接口720可以表示一个或多个硬件或虚拟(意指硬件和软件的组合)用户接口，用户可以通过这些用户接口与设备710接口。用户接口720可以包括物理按钮、开关、切换键、灯或其虚拟版本。用户接口720还可以包括物理或虚拟键盘、触摸接口——诸如触摸屏、触觉反馈等。

处理器712可以包括一个或多个硬件单元(包括所谓的“处理核”)，其被配置为执行上文关于内容创建者设备和/或内容消费者设备的模块、单元或其他功能组件的任一个中的一个或多个讨论的操作的全部或某些部分。例如，处理器712可以实施上文在图4A-图4E中关于用户接口36描述的功能。天线721和收发器模块722可以表示被配置为在源设备12与内容消费者设备14之间建立和维持连接的单元。天线721和收发器模块722可以表示能够根据一个或多个无线通信协议进行无线通信的一个或多个接收器和/或一个或多个发送器。例如，收发器模块722可以接收和/或发送无线信号。收发器模块722可以表示单独的发送器、单独的接收器、单独的发送器和单独的接收器两者、或组合的发送器和接收器。天线721和收发器模块722可以被配置为接收经编码的音频数据。同样，天线721和收发器模块722可以被配置为发送经编码的音频数据。

图9A-图9C是图示出图1A-图1C的示例中所示的流选择单元44在执行流选择技术的各个方面时的示例操作的流程图。首先参考图9A的示例，流选择单元44可以从所有启用的音频元件获得音频流27，其中音频流27可以包括对应的音频元数据，诸如ALI 45A(800)。流选择单元44可以针对音频流27中的每一个执行能量分析以计算相应的能量图(802)。

流选择单元44接下来可以基于与音频源308的接近度(如由音频源距离306A和/或306B定义的)以及与音频元件的接近度(如由上文讨论的接近距离定义的)而循环(iterate)通过音频元件的不同组合(在CM 47中定义的)(804)。如图9A所示，音频元件可以被排序或以其他方式与不同的访问权限相关联。流选择单元44可以以上文描述的方式，基于由DLI 45B表示的收听者定位(这是指代“虚拟位置”或“设备位置”的另一方式)和ALI45A所表示的音频元件定位来循环，以标识是需要音频流27的更大子集还是音频流27的减小的子集(806、808)。

当需要音频流27的更大子集时，流选择单元44可以向音频数据19’添加(一个或多个)音频元件，或者换言之，附加的(一个或多个)音频流(诸如在图3A的示例中，当用户更靠近音频源时)(810)。当需要音频流27的减小的子集时，流选择单元44可以从音频数据19’中移除音频元件，或者换言之，(一个或多个)现有的音频流(诸如在图3A的示例中，当用户更远离音频源时)(812)。

在某些示例中，流选择单元44可以确定音频元件的当前群集是最佳集合(或者，换言之，现有音频数据19’将保持相同，因为这里描述的选择过程导致相同的音频数据19’)(804)，并且过程可以返回到802。然而，当音频流被添加到音频数据19’或从音频数据19’中被移除时，流选择单元44可以更新CM 47(814)，生成群集历史(815(包括定位、能量图等)。

另外，流选择单元44可以确定隐私设置是启用还是禁用音频元件的添加(其中隐私设置可以指限制对音频流27中的一个或多个的访问的数字访问权限，例如，通过密码、授权级别或排序、时间等)(816、818)。当隐私设置启用对音频元件的添加时，流选择单元44可以向更新的CM 47添加(一个或多个)音频元件(这是指向音频数据19’添加(一个或多个)音频流)(820)。当隐私设置禁用音频元件的添加时，流选择单元44可以从更新的CM 47移除(一个或多个)音频元件(这是指从音频数据19’的(一个或多个)音频流的移除)(822)。以此方式，流选择单元44可以识别启用的音频元件的新集合(824)。

流选择单元44可以以这种方式循环并根据任何给定频率更新各种输入。例如，流选择单元44可以以用户接口速率更新隐私设置(意指通过经由用户接口输入的更新来驱动更新)。作为另一示例，流选择单元44可以以传感器速率更新定位(意指定位通过音频元件的移动而被改变)。流选择单元44还可以以音频帧速率更新能量图(意指能量图每帧更新一次)。

接下来参考图9B的示例，流选择单元44可以以上文关于图9A描述的方式操作，除了流选择单元44可以不使CM 47的确定基于能量图之外。如此以来，流选择单元44可以从所有启用的音频元件获得音频流27，其中音频流27可以包括对应的音频元数据，诸如ALI 45A(840)。流选择单元44可以确定隐私设置是启用还是禁用对音频元件的添加(其中隐私设置可以指限制对音频流27中的一个或多个的访问的数字访问权限，例如，通过密码、授权级别或排序、时间等)(842、844)。

当隐私设置启用对音频元件的添加时，流选择单元44可以向更新的CM47添加(一个或多个)音频元件(这是指向音频数据19’添加音频流)(846)。当隐私设置禁用对音频元件的添加时，流选择单元44可以从更新的CM 47移除(一个或多个)音频元件(这是指从音频数据19’移除(一个或多个)音频流)(848)。以此方式，流选择单元44可以识别启用的音频元件的新集合(850)。流选择单元44可以循环(852)通过CM 47中的音频元件的不同组合，以确定群集历史(854)，其表示音频数据19’。

流选择单元44可以以这种方式循环并根据任何给定频率更新各种输入。例如，流选择单元44可以以用户接口速率更新隐私设置(意指通过经由用户接口输入的更新来驱动更新)。作为另一示例，流选择单元44可以以传感器速率更新定位(意指定位通过音频元件的移动而被改变)。

接下来参考图9C的示例，流选择单元44可以以上文关于图9A描述的方式操作，除了流选择单元44可以不使CM 47的确定基于隐私设置启用的音频元件之外。如此以来，流选择单元44可以从所有启用的音频元件获得音频流27，其中音频流27可以包括对应的音频元数据，诸如ALI 45A(860)。流选择单元44可以针对音频流27中的每一个执行能量分析，以计算相应的能量图(862)。

流选择单元44接下来可以基于与音频源308的接近度(如由音频源距离306A和/或306B定义的)以及与音频元件的接近度(如由上文讨论的接近距离定义的)来循环通过音频元件的不同组合(在CM 47中定义的)(864)。如图9C所示，音频元件可以被排序或以其他方式与不同的访问权限相关联。流选择单元44可以以上文描述的方式，基于由DLI 45B表示的收听者定位(这再次是指代上方讨论的“虚拟位置”或“设备位置”的另一方式)和由ALI 45A表示的音频元件定位来循环，以识别是需要音频流27的更大的子集还是音频流27的减小的子集(866、868)。

当需要音频流27的更大的子集时，流选择单元44可以向音频数据19’添加(一个或多个)音频元件，或者换言之，附加的(一个或多个)音频流(诸如在图3A的示例中，当用户更靠近音频源时)(870)。当需要音频流27的减小的子集时，流选择单元44可以从音频数据19’移除(一个或多个)音频元件，或者换言之，(一个或多个)现有的音频流(诸如在图3A的示例中，当用户更远离音频源时)(872)。

在某些示例中，流选择单元44可以确定音频元件的当前群集是最佳集合(或者，换言之，现有音频数据19’将保持相同，因为这里描述的选择过程导致相同的音频数据19’)(864)，并且过程可以返回到862。然而，当音频流被添加到音频数据19’或从音频数据19’移除时，流选择单元44可以更新CM 47(874)，生成群集历史(875)。

流选择单元44可以以这种方式循环并根据任何给定频率更新各种输入。例如，流选择单元44可以以传感器速率更新定位(意指定位通过音频元件的移动而被改变)。流选择单元44还可以以音频帧速率更新能量图(意指能量图每帧更新一次)。

图10图示出根据本公开的方面的无线通信系统100的示例。无线通信系统100包括基站105、UE 115和核心网络130。在某些示例中，无线通信系统100可以是长期演进(LTE)网络、LTE-高级(LTE-A)网络、LTE-A Pro网络或新无线电(NR)网络。在某些情况下，无线通信系统100可以支持增强型宽带通信、超可靠(例如，任务关键型)通信、低延迟通信、或者与低成本和低复杂性设备的通信。

基站105可以经由一个或多个基站天线与UE 115无线通信。本文描述的基站105可以包括或者可以被本领域技术人员称为基地收发器站、无线电基站、接入点、无线电收发器、NodeB、eNodeB(eNB)、下一代NodeB或千兆-NodeB(其中任一个都可以被称为gNB)、家庭NodeB、家庭eNodeB或某些其他合适的术语。无线通信系统100可以包括不同类型的基站105(例如，宏基站或小小区基站)。本文描述的UE 115可以能够与各种类型的基站105和网络装备通信，包括宏eNB、小小区eNB、gNB、中继基站等。

每个基站105可以与其中支持与各种UE 115的通信的特定地理覆盖区域110相关联。每个基站105可以经由通信链路125为相应的地理覆盖区域110提供通信覆盖，并且基站105与UE 115之间的通信链路125可以利用一个或多个载波。无线通信系统100中所示的通信链路125可以包括从UE 115到基站105的上行链路发送，或者从基站105到UE 115的下行链路发送。下行链路发送也可以被称为前向链路发送，而上行链路发送也可以被称为反向链路发送。

针对基站105的地理覆盖区域110可以被划分为构成地理覆盖区域110的部分的扇区，并且每个扇区可以与小区相关联。例如，每个基站105可以为宏小区、小小区、热点或其他类型的小区或者其各种组合提供通信覆盖。在某些示例中，基站105可以是可移动的并且因此为移动的地理覆盖区域110提供通信覆盖。在某些示例中，与不同技术相关联的不同地理覆盖区域110可以重叠，并且与不同技术相关联的重叠地理覆盖区域110可以由相同基站105或不同基站105支持。无线通信系统100可以包括例如异构LTE/LTE-A/LTE-A Pro或NR网络，其中不同类型的基站105为各种地理覆盖区域110提供覆盖。

UE 115可以分散在整个无线通信系统100中，并且每个UE 115可以是固定的或移动的。UE 115也可以被称为移动设备、无线设备、远程设备、手持设备或订户设备、或者某些其他合适的术语，其中“设备”也可以被称为单元、站、终端或客户端。UE 115也可以是个人电子设备，诸如蜂窝电话、个人数字助理(PDA)、平板计算机、膝上型计算机或个人计算机。在本公开的示例中，UE 115可以是本公开中描述的音频源中的任一个，包括VR头戴装置、XR头戴装置、AR头戴装置、车辆、智能电话、麦克风、麦克风阵列、或者包括麦克风或能够发送捕获和/或合成的音频流的任何其他设备。在某些示例中，合成音频流可以是被存储在存储器中或者先前被创建或合成的音频流。在某些示例中，UE 115还可以指无线本地环路(WLL)站、物联网(IoT)设备、万物互联(IoE)设备或机器类型通信(MTC)设备等，其可以被实施于各种物品中，诸如器具、车辆、仪表等。

某些UE 115，诸如MTC或IoT设备，可以是低成本或低复杂性的设备，并且可以提供机器之间的自动化通信(例如，经由机器对机器(M2M)通信)。M2M通信或MTC可以指允许设备在没有人类干预的情况下彼此通信或与基站105通信的数据通信技术。在某些示例中，M2M通信或MTC可以包括来自设备的通信，这些设备交换和/或使用指示隐私限制和/或基于密码的隐私数据的音频元数据来切换、屏蔽和/或调零各种音频流和/或音频源。

在某些情况下，UE 115还可以能够与其他UE 115直接通信(例如，使用对等(P2P)或设备对设备(D2D)协议)。利用D2D通信的UE 115的组中的一个或多个UE115可以在基站105的地理覆盖区域110内。这样的组中的其他UE 115可以在基站105的地理覆盖区域110之外，或者不能从基站105接收发送。在某些情况下，经由D2D通信进行通信的UE 115的组可以利用一对多(1:M)系统，其中每个UE 115向组中的每个其他UE 115进行发送。在某些情况下，基站105有助于用于D2D通信的资源的调度。在其他情况下，D2D通信在没有基站105的参与的情况下在UE 115之间被执行。

基站105可以与核心网络130通信以及彼此通信。例如，基站105可以通过回程链路132(例如，经由S1、N2、N3或其他接口)与核心网络130接口。基站105可以直接地(例如，直接在基站105之间)或间接地(例如，经由核心网络130)通过回程链路134(例如，经由X2、Xn或其他接口)彼此通信。

在某些情况下，无线通信系统100可以利用经许可的和未许可的无线电频率频谱波带。例如，无线通信系统100可以在未许可波带(诸如5GHz工业、科学、医疗(ISM)波带)中采用许可辅助接入(License Assisted Access，LAA)、LTE-未许可(LTE-U)无线电接入技术或NR技术。当在未许可的无线电频率频谱波带中操作时，诸如基站105和UE 115之类的无线设备可以采用先听后讲(listen-before-talk，LBT)过程以确保在发送数据之前频率信道是空闲的。在某些情况下，未许可波带中的操作可以基于载波聚合配置连同在经许可波带中操作的分量载波(例如，LAA)。未许可频谱中的操作可以包括下行链路发送、上行链路发送、对等发送或这些的组合。未许可频谱中的双工可以基于频分双工(FDD)、时分双工(TDD)或两者的组合。

本公开包括以下示例。

示例1.一种被配置为播放多个音频流中的一个或多个的设备，该设备包括：存储器，被配置为存储多个音频流和对应的音频元数据，音频流中的每一个表示声场，并且音频元数据包括表示显示世界中的捕获位置的捕获位置信息，多个音频流中的对应一个在该捕获位置处被对应的捕获设备捕获；以及一个或多个处理器，耦合到存储器并且被配置为：输出包括与显示世界的坐标相关联的捕获设备表示的图形用户接口以用于显示；获得表示选择捕获设备表示中的一个或多个的用户输入的指示；以及基于该指示来选择多个音频流中的至少一个音频流。

示例2.如示例1的设备，其中一个或多个处理器还被配置为基于至少一个音频流来再现对应的至少一个声场。

示例3.如示例1的设备，其中一个或多个处理器还被配置为向再现设备输出至少一个音频流或至少一个音频流的指示。

示例4.如示例1至3的任何组合的设备，其中一个或多个处理器还被配置为基于表示选择捕获设备表示中的一个或多个的用户输入的指示来组合至少两个音频流。

示例5.如示例4的设备，其中一个或多个处理器被配置为通过以下中的至少一个来组合至少两个音频流：混合至少两个音频流，或者基于至少两个音频流内插第三音频流。

示例6.如示例1至5的任何组合的设备，其中捕获设备表示包括对应于捕获设备的图标、图像或字母数字表示中的至少一个。

示例7.如示例1至6的任何组合的设备，其中捕获设备表示对应于用于捕获对应音频流的相应设备。

示例8.如示例7的设备，其中捕获设备表示以表示用于捕获对应的音频流的相应设备的相对定位的空间关系被布置于图形用户接口中。

示例9.如示例1至8的任何组合的设备，其中表示用户输入的指示表示选择多个捕获设备表示的用户输入。

示例10.如示例8至9的任何组合的设备，其中表示用户输入的指示表示定义围绕多个捕获设备表示的区域的用户输入，其中该区域与显示世界的坐标相关联。

示例11.如示例7至10的任何组合的设备，其中一个或多个处理器还被配置为获得表示被指派给与显示世界的坐标相关联的区域或相应设备的重要性的用户输入指示，并且其中重要性指示要应用于与相应设备或区域相关联的音频流的相对增益。

示例12.如示例1至11的任何组合的设备，其中一个或多个处理器还被配置为获得表示期望收听定位的指示，并且其中一个或多个处理器基于收听位置来再现对应的至少一个声场。

示例13.如示例12的设备，其中一个或多个处理器还被配置为响应于获得表示期望收听定位的指示，输出建议替代收听定位的图形用户接口元素以用于显示。

示例14.如示例1至13的任何组合的设备，其中一个或多个处理器还被配置为：获得指示收听体验的相对角度的指示；确定表示设备在显示世界中的虚拟位置的虚拟位置信息；以及基于虚拟位置信息、捕获位置信息和指示收听体验的相对角度的指示来选择至少一个音频流。

示例15.如示例1至14的任何组合的设备，其中一个或多个处理器还被配置为获得指示与捕获位置相关联的元数据的显示的切换的指示。

示例16.如示例15的设备，其中，当元数据被输出用于显示时，捕获设备表示包括元数据的增强标签，并且其中表示选择捕获设备表示中的一个或多个的用户输入的指示包括表示通信耦合到一个或多个处理器的显示设备上的单点触摸压印(impression)、显示设备上的多点触摸压印、显示设备上的手势或话音命令的指示。

示例17.如示例1至16的任何组合的设备，其中一个或多个处理器还被配置为获得指示具有捕获位置的能量图的显示的切换的指示。

示例18.如示例1至17的任何组合的设备，其中该设备包括扩展现实头戴装置，并且其中显示世界包括由相机捕获的视频数据表示的视觉场景。

示例19.如示例1至17的任何组合的设备，其中该设备包括扩展现实头戴装置，并且其中显示世界包括虚拟世界。

示例20.如示例1至19的任何组合的设备，还包括被配置为呈现显示世界和图形用户接口的头戴式显示器。

示例21.如示例1至19的任何组合的设备，其中该设备包括移动手持装置。

示例22.如示例1至21的任何组合的设备，还包括被配置为接收多个音频流的接收器。

示例23.如示例22的设备，其中接收器包括被配置为根据第五代(5G)蜂窝标准接收多个音频流的接收器。

示例24.如示例22的设备，其中接收器包括被配置为根据个域网标准接收多个音频流的接收器。

示例25.一种方法，包括：由存储器存储多个音频流和对应的音频元数据，音频流中的每一个表示声场，并且音频元数据包括表示显示世界中的捕获位置的捕获位置信息，多个音频流中的对应一个在该捕获位置处被捕获；由一个或多个处理器输出包括与显示世界的坐标相关联的捕获设备表示的图形用户接口以用于显示；由一个或多个处理器获得表示选择捕获设备表示中的一个或多个的用户输入的指示；以及由一个或多个处理器并且基于该指示来选择多个音频流中的至少一个音频流。

示例26.如示例25的方法，还包括由一个或多个处理器基于至少一个音频流来再现对应的至少一个声场。

示例27.如示例25的方法，其中还包括由一个或多个处理器向再现设备输出至少一个音频流或至少一个音频流的指示。

示例28.如示例25至27的任何组合的方法，其中还包括由一个或多个处理器基于表示选择捕获设备表示中的一个或多个的用户输入的指示来组合至少两个音频流。

示例29.如示例28的方法，其中组合至少两个音频流包括混合至少两个音频流或基于至少两个音频流内插第三音频流。

示例30.如示例25至29的任何组合的方法，其中捕获设备表示包括对应于捕获设备的图标、图像或字母数字表示中的至少一个。

示例31.如示例25至30的任何组合的方法，其中捕获设备表示对应于用于捕获对应音频流的相应设备。

示例32.如示例31的方法，其中捕获设备表示以表示用于捕获对应的音频流的相应设备的相对定位的空间关系被布置于图形用户接口中。

示例33.如示例25至32的任何组合的方法，其中表示用户输入的指示表示选择多个捕获设备表示的用户输入。

示例34.如示例32至33的任何组合的方法，其中表示用户输入的指示表示定义围绕多个捕获设备表示的区域的用户输入，其中该区域与显示世界的坐标相关联。

示例35.如示例31至34的任何组合的方法，还包括：由一个或多个处理器获得表示被指派给与显示世界的坐标相关联的区域或相应设备的重要性的用户输入指示，并且其中重要性指示要应用于与相应设备或区域相关联的音频流的相对增益。

示例36.如示例25至35的任何组合的方法，还包括：由一个或多个处理器获得表示期望收听定位的指示；以及由一个或多个处理器基于收听定位来再现对应的至少一个声场。

示例37.如示例36的方法，其中还包括：由一个或多个处理器响应于获得表示期望收听定位的指示，输出建议替代收听定位的图形用户接口元素。

示例38.如示例25至37的任何组合的方法，还包括：由一个或多个处理器获得指示收听体验的相对角度的指示；由一个或多个处理器确定表示设备在显示世界中的虚拟位置的虚拟位置信息；以及由一个或多个处理器基于虚拟位置信息、捕获位置信息和指示收听体验的相对角度的指示来选择至少一个音频流。

示例39.如示例25至38的任何组合的方法，还包括：由一个或多个处理器获得指示与捕获位置相关联的元数据的显示的切换的指示。

示例40.如示例39的方法，其中，当元数据被输出用于显示时，捕获设备表示包括元数据的增强标签，并且其中表示选择捕获设备表示中的一个或多个的用户输入的指示包括表示通信耦合到一个或多个处理器的显示设备上的单点触摸压印、显示设备上的多点触摸压印、显示设备上的手势或话音命令的指示。

示例41.如示例25至40的任何组合的方法，还包括：由一个或多个处理器获得指示具有捕获位置的能量图的显示的切换的用户输入指示。

示例42.如示例25至41的任何组合的方法，其中该设备包括扩展现实头戴装置，并且其中显示世界包括由相机捕获的视频数据表示的视觉场景。

示例43.如示例25至42的任何组合的方法，其中设备包括扩展现实头戴装置，并且其中显示世界包括虚拟世界。

示例44.如示例25至43的任何组合的方法，其中头戴式显示器被配置为呈现显示世界和图形用户接口。

示例45.如示例25至43的任何组合的方法，其中移动手持装置被配置为呈现显示世界和图形用户接口。

示例46.如示例25至45的任何组合的方法，还包括：由接收器接收多个音频流。

示例47.如示例46的方法，其中接收器包括被配置为根据第五代(5G)蜂窝标准接收多个音频流的接收器。

示例48.如示例46的设备，其中接收器包括被配置为根据个域网标准接收多个音频流的接收器。

示例49.一种被配置为播放多个音频流中的一个或多个的设备，该设备包括：用于存储多个音频流和对应的音频元数据的装置，音频流中的每一个表示声场，并且音频元数据包括表示显示世界中的捕获位置的捕获位置信息，多个音频流中的对应一个在该捕获位置处被对应的捕获设备捕获；用于输出包括与显示世界的坐标相关联的捕获设备表示的图形用户接口以用于显示的装置；用于获得表示选择捕获设备表示中的一个或多个的用户输入的指示的装置；以及用于基于该指示来选择多个音频流中的至少一个音频流的装置。

示例50.如示例49的设备，还包括用于基于至少一个音频流来再现对应的至少一个声场的装置。

示例51.如示例49的设备，其中还包括用于向再现设备输出至少一个音频流或至少一个音频流的指示的装置。

示例52.如示例49至51的任何组合的设备，其中还包括用于基于表示选择捕获设备表示中的一个或多个的用户输入的指示来组合至少两个音频流的装置。

示例53.如示例52的设备，其中用于组合至少两个音频流的装置包括用于混合至少两个音频流的装置或用于基于至少两个音频流内插第三音频流的装置。

示例54.如示例49至53的任何组合的设备，其中捕获设备表示包括对应于捕获设备的图标、图像或字母数字表示中的至少一个。

示例55.如示例49至54的任何组合的设备，其中捕获设备表示对应于用于捕获对应的音频流的相应设备。

示例56.如示例55的设备，其中捕获设备表示以表示用于捕获对应的音频流的相应设备的相对定位的空间关系被布置于图形用户接口中。

示例57.如示例49至56的任何组合的设备，其中表示用户输入的指示表示选择多个捕获设备表示的用户输入。

示例58.如示例56至57的任何组合的设备，其中表示用户输入的指示表示定义围绕多个捕获设备表示的区域的用户输入，其中该区域与显示世界的坐标相关联。

示例59.如示例55至58的任何组合的设备，还包括：用于获得表示被指派给与显示世界的坐标相关联的区域或相应设备的重要性的用户输入指示的装置，并且其中重要性指示要应用于与相应设备或区域相关联的音频流的相对增益。

示例60.如示例49至59的任何组合的设备，还包括：用于获得表示期望收听定位的指示的装置；以及用于基于收听定位来再现对应的至少一个声场的装置。

示例61.如示例60的设备，其中还包括用于响应于获得表示期望收听定位的指示而输出建议替代收听定位的图形用户接口元素的装置。

示例62.如示例49至61的任何组合的设备，还包括：用于获得指示收听体验的相对角度的指示的装置；用于确定表示设备在显示世界中的虚拟位置的虚拟位置信息的装置；以及用于基于虚拟位置信息、捕获位置信息和指示收听体验的相对角度的指示来选择至少一个音频流的装置。

示例63.如示例49至62的任何组合的设备，还包括用于获得指示与捕获位置相关联的元数据的显示的切换的指示的装置。

示例64.如示例63的设备，其中，当元数据被输出用于显示时，捕获设备表示包括元数据的增强标签，并且其中表示选择捕获设备表示中的一个或多个的用户输入的指示包括表示通信耦合到一个或多个处理器的显示设备上的单点触摸压印、显示设备上的多点触摸压印、显示设备上的手势或话音命令的指示。

示例65.如示例49至64的任何组合的设备，还包括用于获得指示具有捕获位置的能量图的显示的切换的用户输入指示的装置。

示例66.如示例49至65的任何组合的设备，其中该设备包括扩展现实头戴装置，并且其中显示世界包括由相机捕获的视频数据表示的视觉场景。

示例67.如示例49至65的任何组合的设备，其中该设备包括扩展现实头戴装置，并且其中显示世界包括虚拟世界。

示例68.如示例49至65的任何组合的设备，还包括被配置为呈现显示世界和图形用户接口的头戴式显示器。

示例69.如示例49至65的任何组合的设备，其中该设备包括移动手持装置。

示例70.如示例49至69的任何组合的设备，还包括用于接收多个音频流的装置。

示例71.如示例70的设备，其中用于接收的装置包括用于根据第五代(5G)蜂窝标准接收多个音频流的装置。

示例72.如示例70的设备，其中用于接收的装置包括用于根据个域网标准接收多个音频流的装置。

示例73.一种其上存储有指令的非暂时性计算机可读存储介质，该指令在被执行时使得一个或多个处理器：存储多个音频流和对应的音频元数据，音频流中的每一个表示声场，并且音频元数据包括表示显示世界中的捕获位置的捕获位置信息，多个音频流中的对应一个在该捕获位置处被对应的捕获设备捕获；以及输出包括与显示世界的坐标相关联的捕获设备表示的图形用户接口以用于显示；获得表示选择捕获设备表示中的一个或多个的用户输入的指示；以及基于该指示来选择多个音频流中的至少一个音频流。

示例74.一种被配置为播放多个音频流中的一个或多个的设备，该设备包括：存储器，被配置为存储多个音频流和对应的音频元数据，音频流中的每一个表示声场，并且音频元数据包括表示显示世界中的捕获位置的捕获位置信息，多个音频流中的对应一个在该捕获位置处被对应的捕获设备捕获；以及一个或多个处理器，耦合到存储器并且被配置为：输出包括与显示世界的坐标相关联的捕获设备表示的图形用户接口以用于显示；获得表示选择图形用户接口内的位置的用户输入的指示；基于该指示来设置音频源距离阈值；以及基于音频源距离阈值来选择多个音频流中的至少一个音频流。

示例75.如示例74的设备，其中一个或多个处理器还被配置为基于至少一个音频流来再现对应的至少一个声场。

示例76.如示例74或75的设备，其中一个或多个处理器还被配置为向再现设备输出至少一个音频流或至少一个音频流的指示。

示例77.如示例74-76的任何组合的设备，其中一个或多个处理器还被配置为从用户获得用户期望激活贴合模式的指示。

示例78.如示例77的设备，其中贴合模式是硬贴合模式或软贴合模式。

示例79.如示例78的设备，其中贴合模式是软贴合模式，音频源距离阈值是第一音频源距离阈值，指示是第一指示并且位置是第一位置，并且一个或多个处理器还被配置为：获得表示选择图形用户接口内的第二位置的用户输入的第二指示；以及基于第二指示来设置第二音频源距离阈值；以及基于第二音频源距离阈值来选择多个音频流中的至少一个音频流。

示例80.如示例79的设备，其中至少一个音频流包括两个音频流并且一个或多个处理器还被配置为组合两个音频流。

示例81.如示例80的设备，其中一个或多个处理器被配置为通过以下中的至少一个来组合两个音频流：自适应混合两个音频流，或者基于两个音频流内插第三音频流。

示例82.如示例80或81的设备，其中一个或多个处理器被配置为通过将函数F(x)应用于两个音频流来组合两个音频流。

示例83.如示例74-79的任何组合的设备，其中至少一个音频流是单个音频流。

示例84.如示例74-83的任何组合的设备，其中一个或多个处理器还被配置为：基于指示来改变音频源距离阈值。

示例85.如示例74-84的任何组合的设备，其中该设备包括扩展现实头戴装置，并且其中显示世界包括虚拟世界。

示例86.如示例74-85的任何组合的设备，还包括被配置为呈现显示世界和图形用户接口的头戴式显示器。

示例87.如示例74-86的任何组合的设备，其中该设备包括移动手持装置。

示例88.如示例74-87的任何组合的设备，还包括被配置为接收多个音频流的接收器。

示例89.如示例88的设备，其中接收器包括被配置为根据第五代(5G)蜂窝标准接收多个音频流的接收器。

示例90.如示例88的设备，其中接收器包括被配置为根据个域网标准接收多个音频流的接收器。

示例91.一种方法，包括：由存储器存储多个音频流和对应的音频元数据，音频流中的每一个表示声场，并且音频元数据包括表示显示世界中的捕获位置的捕获位置信息，多个音频流中的对应一个在该捕获位置处被捕获；由一个或多个处理器输出包括与显示世界的坐标相关联的捕获设备表示的图形用户接口以用于显示；由一个或多个处理器获得表示选择图形用户接口内的位置的用户输入的指示；以及由一个或多个处理器并且基于该指示来设置音频源距离阈值；以及由一个或多个处理器并且基于音频源距离阈值来选择多个音频流中的至少一个音频流。

示例92.如示例91的方法，还包括由一个或多个处理器基于至少一个音频流来再现对应的至少一个声场。

示例93.如示例91或92的方法，还包括向再现设备输出至少一个音频流或至少一个音频流的指示。

示例94.如示例91-93的任何组合的方法，还包括由一个或多个处理器从用户获得用户期望激活贴合模式的指示。

示例95.如示例94的方法，其中贴合模式是硬贴合模式或软贴合模式。

示例96.如示例95的方法，其中贴合模式是软贴合模式，音频源距离阈值是第一音频源距离阈值，指示是第一指示并且位置是第一位置，方法还包括：由一个或多个处理器获得表示选择图形用户接口内的第二位置的用户输入的第二指示；由一个或多个处理器并且基于第二指示来设置第二音频源距离阈值；以及由一个或多个处理器并且基于第二音频源距离阈值来选择多个音频流中的至少一个音频流。

示例97.如示例96的方法，其中至少一个音频流包括两个音频流，并且方法还包括由一个或多个处理器组合两个音频流。

示例98.如示例97的方法，其中组合包括以下中的至少一个：自适应混合两个音频流或基于两个音频流内插第三音频流。

示例99.如示例97或98的方法，其中组合包括将函数F(x)应用于两个音频流。

示例100.如示例91-96的任何组合的方法，其中至少一个音频流是单个音频流。

示例101.如示例91-100的任何组合的方法，还包括：由一个或多个处理器基于该指示来改变音频源距离阈值。

示例102.一种其上存储有指令的非暂时性计算机可读存储介质，该指令在被执行时使得一个或多个处理器：存储多个音频流和对应的音频元数据，音频流中的每一个表示声场，并且音频元数据包括表示显示世界中的捕获位置的捕获位置信息，多个音频流中的对应一个在该捕获位置处被对应的捕获设备捕获；输出包括与显示世界的坐标相关联的捕获设备表示的图形用户接口以用于显示；获得表示选择图形用户接口内的位置的用户输入的指示；基于该指示来设置音频源距离阈值；以及基于音频源距离阈值来选择多个音频流中的至少一个音频流。

示例103.一种设备，包括：用于存储多个音频流和对应的音频元数据的装置，音频流中的每一个表示声场，并且音频元数据包括表示显示世界中的捕获位置的捕获位置信息，多个音频流中的对应一个在该捕获位置处被捕获；用于输出包括与显示世界的坐标相关联的捕获设备表示的图形用户接口的装置；用于获得表示选择图形用户接口内的位置的用户输入的指示的装置；用于设置音频源距离阈值的装置；以及用于基于音频源距离阈值来选择多个音频流中的至少一个音频流的装置。

应认识到，取决于示例，本文中所描述的技术中的任一个的某些动作或事件可以以不同序列来执行，可以被添加、合并或完全省去(例如，并非所有所描述的动作或事件对于技术的实践是必要的)。此外，在某些示例中，动作或事件可以例如通过多线程处理、中断处理或多个处理器来并发执行，而不是顺序执行。

在某些示例中，VR设备(或流式传输设备)可以使用耦合到VR/流式传输设备的存储器的网络接口向外部设备通信通信消息，其中交换消息与声场的多个可用表示相关联。在某些示例中，VR设备可以使用耦合到网络接口的天线接收无线信号，包括数据分组、音频分组、视频协议或与声场的多个可用表示相关联的传送协议数据。在某些示例中，一个或多个麦克风阵列可以捕获声场。

在某些示例中，存储到存储器设备的声场的多个可用表示可以包括声场的多个基于对象的表示、声场的高阶立体混响表示、声场的混合阶立体混响表示、声场的基于对象的表示与声场的高阶立体混响表示的组合、声场的基于对象的表示与声场的混合阶立体混响表示的组合，或者声场的混合阶表示与声场的高阶立体混响表示的组合。

在某些示例中，声场的多个可用表示的声场表示中的一个或多个可以包括至少一个高分辨率区域和至少一个低分辨率区域，并且其中基于转向角的所选呈现提供关于至少一个高分辨率区域的更大空间精度和关于较低分辨率区域的较小空间精度。

在一个或多个示例中，所描述的功能可以以硬件、软件、固件或其任何组合来实施。如果以软件来实施，则功能可以作为一个或多个指令或代码在计算机可读介质上被存储或发送，并且由基于硬件的处理单元执行。计算机可读介质可以包括计算机可读存储介质，其与诸如数据存储介质之类的有形介质相对应；或者通信介质，包括例如根据通信协议而促进计算机程序从一处到另一处的传递的任何介质。以此方式，计算机可读介质通常可以对应于(1)非暂时性的有形计算机可读存储介质或(2)诸如信号或载波之类的通信介质。数据存储介质可以是能由一个或多个计算机或一个或多个处理器访问以检索用于实施本公开中描述的技术的指令、代码和/或数据结构的任何可用介质。计算机程序产品可以包括计算机可读介质。

作为示例而非限制，这样的计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、闪存、或者可被用于以指令或数据结构的形式存储所需程序代码并可由计算机访问的任何其它介质。同样，任何连接适当地被称为计算机可读介质。例如，如果使用同轴电缆、光缆、双绞线、数字订户线(DSL)、或者诸如红外、无线电、微波之类的无线技术来从网站、服务器或其他远程源发送指令，则同轴电缆、光缆、双绞线、DSL或诸如红外、无线电和微波之类的无线技术被包括在介质的定义中。然而，应当理解，计算机可读存储介质和数据存储介质不包括连接、载波、信号或其他暂时性介质，而是针对非暂时性的、有形的存储介质。本文使用的磁盘和光盘包括紧凑盘(CD)、激光器盘、光盘、数字多功能光盘(DVD)、软盘和蓝光盘，其中磁盘通常以磁性方式再生数据，而光盘则用激光器以光学方式再生数据。上述项的组合也应被包括在计算机可读介质的范围内。

指令可以由诸如以下各项的一个或多个处理器执行：一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它等效的集成或离散逻辑电路。相应地，如本文中所使用的术语“处理器”可以指前述结构中的任一个或适于实现本文中所描述的技术的任何其它结构。另外，在某些方面，本文中所描述的功能性可以在被配置用于编码和解码的专用硬件和/或软件模块内被提供，或被并入组合编解码器中。同样，该技术可以被完全实施于一个或多个电路或逻辑元件中。

本公开的技术可以被实施于各种设备或装置中，包括无线手持装置、集成电路(IC)或IC集(例如，芯片集)。在本公开中描述各种组件、模块或单元以强调被配置为执行所公开技术的设备的功能方面，但不必需要由不同硬件单元实现。更确切地，如上所述，各种单元可以被组合在编解码器硬件单元中或者由包括如上所述的一个或多个处理器的互操作硬件单元的集合结合适当的软件和/或固件来提供。

各种示例已被描述。这些示例和其他示例处于所附权利要求的范围之内。

Claims

1.一种被配置为播放多个音频流中的一个或多个的设备，所述设备包括：

存储器，被配置为存储所述多个音频流，所述音频流中的每一个表示声场；以及

一个或多个处理器，耦合到所述存储器，并且被配置为：

向用户呈现用户接口；

经由所述用户接口从所述用户获得表示期望收听定位的指示；以及

基于所述指示来选择所述多个音频流中的至少一个音频流。

2.如权利要求1所述的设备，其中所述存储器还被配置为存储与其中所述多个音频流中的对应音频流被捕获或合成的声学空间的坐标相关联的位置信息。

3.如权利要求2所述的设备，其中所述用户接口包括以下中的一个或多个：图形用户接口、基于手势的用户接口、基于话音命令的用户接口、基于触摸的用户接口。

4.如权利要求3所述的设备，其中所述用户接口被配置为以单点触摸、多点触摸、手势、话音命令或敲击中的至少一个获得用户输入。

5.如权利要求3所述的设备，其中所述用户接口包括所述图形用户接口，并且所述图形用户接口包括与其中所述多个音频流被捕获或合成的声学空间的坐标相关联的表示。

6.如权利要求5所述的设备，其中所述表示以表示其中所述多个音频流被捕获或合成的声学空间的坐标的相对定位的空间关系而被布置于所述图形用户接口中。

7.如权利要求6所述的设备，其中所述一个或多个处理器还被配置为响应于获得表示所述期望收听定位的指示，输出建议替代收听定位的图形用户接口元素以用于显示。

8.如权利要求1所述的设备，其中所述一个或多个处理器还被配置为基于所述指示通过以下中的至少一个来组合至少两个音频流：混合所述至少两个音频流，或者基于所述至少两个音频流内插第三音频流。

9.如权利要求1所述的设备，其中所述一个或多个处理器还被配置为经由所述用户接口获得表示被指派给音频流的重要性的重要性指示，并且其中所述重要性指示要应用于所述音频流的相对增益。

10.如权利要求1所述的设备，其中所述一个或多个处理器还被配置为基于所述指示来设置音频源距离阈值。

11.如权利要求1所述的设备，其中所述一个或多个处理器还被配置为经由所述用户接口从所述用户获得所述用户期望激活贴合模式的指示。

12.如权利要求11所述的设备，其中所述贴合模式是硬贴合模式或软贴合模式。

13.如权利要求12所述的设备，其中所述一个或多个处理器还被配置为：

确定第一音频源距离阈值，以及

其中所述一个或多个处理器被配置为还基于所述第一音频源距离阈值来选择所述多个音频流中的至少一个音频流。

14.如权利要求13所述的设备，其中所述一个或多个处理器还被配置为：

确定第二音频源距离阈值，以及

其中所述一个或多个处理器被配置为还基于所述第二音频源距离阈值来选择所述多个音频流中的至少一个音频流。

15.如权利要求14所述的设备，其中所述一个或多个处理器被配置为通过将函数F(x)应用于所述两个音频流来组合所述两个音频流。

16.如权利要求1所述的设备，其中所述一个或多个处理器还被配置为：

确定用户正在从一个位置移动到另一位置；以及

基于对所述用户正在从一个位置移动到另一位置的确定，选择所述多个音频流中的至少一个不同的音频流。

17.如权利要求1所述的设备，

其中所述设备包括扩展现实头戴装置，以及

其中显示世界包括由相机捕获的视频数据所表示的视觉场景。

18.如权利要求1所述的设备，

其中所述设备包括扩展现实头戴装置，以及

其中显示世界包括虚拟世界。

19.如权利要求1所述的设备，其中所述设备包括移动手持装置。

20.如权利要求1所述的设备，其中所述设备还包括无线收发器，所述无线收发器耦合到所述一个或多个处理器并且被配置为接收无线信号，其中所述无线信号包括蓝牙或Wi-Fi中的至少一个，或者符合第五代5G蜂窝协议。

21.一种方法，包括：

由存储器存储多个音频流，所述音频流中的每一个表示声场，所述存储器通信地耦合到一个或多个处理器；

由所述一个或多个处理器呈现用户接口；

由所述一个或多个处理器经由所述用户接口获得表示期望收听定位的指示；

由所述一个或多个处理器并且基于所述指示来选择所述多个音频流中的至少一个音频流。

22.如权利要求21所述的方法，还包括存储与其中所述多个音频流中的对应音频流被捕获或合成的声学空间的坐标相关联的位置信息。

23.如权利要求22所述的方法，其中所述用户接口包括以下中的一个或多个：图形用户接口、基于手势的用户接口、基于话音命令的用户接口、基于触摸的用户接口。

24.如权利要求23所述的方法，还包括由所述一个或多个处理器经由所述用户接口获得用户输入，所述用户输入包括单点触摸、多点触摸、手势、话音命令或敲击中的至少一个。

25.如权利要求23所述的方法，其中所述用户接口包括所述图形用户接口，并且所述图形用户接口包括与其中所述多个音频流被捕获或合成的声学空间的坐标相关联的表示。

26.如权利要求25所述的方法，其中所述表示以表示其中所述多个音频流中被捕获或合成的声学空间的坐标的相对定位的空间关系而被布置于所述图形用户接口中。

27.如权利要求26所述的方法，还包括响应于获得表示所述期望收听定位的指示，输出建议替代收听定位的图形用户接口元素并且用于显示。

28.如权利要求21所述的方法，还包括由所述一个或多个处理器基于所述指示，通过以下中的至少一个来组合至少两个音频流：混合所述至少两个音频流，或者基于所述至少两个音频流内插第三音频流。

29.如权利要求21所述的方法，还包括由所述一个或多个处理器经由所述用户接口获得表示被指派给音频流的重要性的重要性指示，并且其中所述重要性指示要应用于所述音频流的相对增益。

30.如权利要求21所述的方法，还包括由所述一个或多个处理器并基于所述指示来设置音频源距离阈值。

31.如权利要求30所述的方法，还包括由所述一个或多个处理器经由所述用户接口从所述用户获得所述用户期望激活贴合模式的指示。

32.如权利要求31所述的方法，其中所述贴合模式是硬贴合模式或软贴合模式。

33.如权利要求31所述的方法，还包括：

由所述一个或多个处理器确定第一音频源距离阈值，

其中选择所述多个音频流中的至少一个音频流还基于所述第一音频源距离阈值。

34.如权利要求33所述的方法，还包括：

由所述一个或多个处理器经由所述用户接口确定第二音频源距离阈值，

其中选择所述多个音频流中的至少一个音频流还基于所述第二音频源距离阈值。

35.如权利要求34所述的方法，其中所述一个或多个处理器被配置为通过将函数F(x)应用于所述两个音频流来组合所述两个音频流。

36.如权利要求21所述的方法，还包括：

由所述一个或多个处理器确定用户正在从一个位置移动到另一位置；以及

基于对所述用户正在从一个位置移动到另一位置的确定，由所述一个或多个处理器选择所述多个音频流中的至少一个不同的音频流。

37.如权利要求21所述的方法，其中所述方法由扩展现实头戴装置执行，并且其中显示世界包括由相机捕获的视频数据表示的视觉场景。

38.如权利要求21所述的方法，其中所述方法在扩展现实头戴装置上被执行，并且其中显示世界包括虚拟世界。

39.如权利要求21所述的方法，其中所述方法在移动手持装置上被执行。

40.如权利要求21所述的方法，还包括通过无线收发器接收无线信号，其中所述无线信号包括蓝牙信号、Wi-Fi信号或根据第五代5G蜂窝标准的信号中的至少一个。

41.一种被配置为播放多个音频流中的一个或多个的设备，所述设备包括：

用于存储所述多个音频流的装置，所述音频流中的每一个表示声场；

用于呈现用户接口的装置；

用于经由所述用户接口获得表示期望收听定位的指示的装置；以及

用于基于所述指示来选择所述多个音频流中的至少一个音频流的装置。

42.一种其上存储有指令的非暂时性计算机可读存储介质，所述指令在被执行时使得一个或多个处理器：

存储所述多个音频流，所述音频流中的每一个表示声场；

呈现用户接口；

经由所述用户接口获得表示期望收听定位的指示；以及

基于所述指示来选择所述多个音频流中的至少一个音频流。