CN114026885A

CN114026885A - 扩展现实体验的音频捕获和渲染

Info

Publication number: CN114026885A
Application number: CN202080047187.4A
Authority: CN
Inventors: I.G.穆诺兹; S.G.斯瓦米纳坦; S.M.A.萨利辛; N.G.彼得斯
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2019-07-03
Filing date: 2020-07-02
Publication date: 2022-02-08
Also published as: TW202110198A; EP3994566A1; US11429340B2; US20210004201A1; WO2021003355A1

Abstract

在一些示例中，被配置为播放多个音频流中的一个或多个音频流的内容消费者设备包括存储器，其被配置为存储多个音频流和与该多个音频流相关联的音频位置信息，该音频位置信息表示捕获或合成音频流的声学空间中的音频流坐标或两者。每个音频流表示一个声场。内容消费者设备还包括耦合到存储器的一个或多个处理器，其被配置为确定表示该内容消费者设备在声学空间中的设备坐标的设备位置信息。该一个或多个处理器被配置为基于设备位置信息和音频位置信息而选择多个音频流的子集，并基于该多个音频流的子集输出一个或多个扬声器馈送。

Description

扩展现实体验的音频捕获和渲染

相关申请的交叉引用

本申请要求优先于2020年7月1日提交的美国专利申请16/918,441、2019年7月3日提交的美国临时专利申请62/870,573和2020年3月20日提交的美国临时专利申请62/992,635的权益，其中每一项的全部内容通过引用结合在一起。

技术领域

本发明涉及诸如音频数据的媒体数据的处理。

背景技术

正在开发计算机介导现实系统以允许计算设备对用户体验的现有现实进行增强或添加、移除或删减或一般地修改。计算机介导现实系统(也可以被称为“扩展现实系统”或“XR系统”)可以包括：作为几个示例，虚拟现实(VR)系统、增强现实(AR)系统和混合现实(MR)系统。计算机介导现实系统的感知成功通常涉及这样的计算机介导现实系统在视频体验和音频体验两方面提供真实沉浸式体验的能力，其中视频体验和音频体验以用户期望的方式对准。尽管人类视觉系统比人类听觉系统更敏感(例如，在场景内的各种对象的感知定位方面)，但是确保足够的听觉体验在确保真实沉浸式体验方面是越来越重要的因素，特别是随着视频体验改进以允许视频对象的更好定位，这使得用户能够更好地识别音频内容的来源。

发明内容

本发明通常涉及计算机介导现实系统的用户体验的听觉方面，包括虚拟现实(VR)、混合现实(MR)、增强现实(AR)、计算机视觉和图形系统。本技术的各个方面可以为扩展现实系统提供自适应音频捕获和声学空间的渲染。如本文所使用的，声学环境被表示为室内环境或室外环境，或者室内环境和室外环境两者。声学环境可以包括一个或多个亚声学空间，亚声学空间可以包括各种声学元件。室外环境的示例可以包括汽车、建筑物、墙壁、森林等。声学空间可以是声学环境的示例，并且可以是室内空间或室外空间。如本文所使用的，音频元件是由麦克风捕获的声音(例如，直接从近场源或从远场源的反射捕获，无论是真实的还是合成的)，或者是先前合成的声场，或者是从文本到语音合成的单声道声音，或者是来自声学环境中的对象的虚拟声音的反射。音频元件在本文也可称为接收器。

在一个示例中，本技术的各个方面可以针对被配置为播放多个音频流中的一个或多个音频流的内容消费者设备，该内容消费者设备包括：存储器，其被配置为存储多个音频流和与该多个音频流相关联的音频位置信息，该音频位置信息表示捕获音频流的声学空间中的音频流坐标或者合成音频流的虚拟声学空间中的音频流坐标或两者，每个音频流表示一个声场；以及耦合到存储器并且被配置为进行以下操作的一个或多个处理器：确定表示该内容消费者设备在声学空间中的设备坐标的设备位置信息；基于设备位置信息和音频位置信息，选择多个音频流的子集，该多个音频流的子集不包括该多个音频流中的至少一个音频流；以及基于该多个音频流的子集输出一个或多个扬声器馈送。

在另一个示例中，本技术的各个方面可以针对播放多个音频流的一个或多个音频流的方法，该方法包括：由内容消费者设备的存储器存储多个音频流和与该多个音频流相关联的音频位置信息，该音频位置信息表示捕获音频流的声学空间中的音频流坐标或者合成音频流的虚拟声学空间中的音频流坐标或两者，每个音频流表示一个声场；以及由内容消费者设备的一个或多个处理器确定表示该内容消费者设备在声学空间中的设备坐标的设备位置信息；由一个或多个处理器并且基于该设备位置信息和音频位置信息，选择多个音频流的子集，该多个音频流的所述子集不包括该多个音频流中的至少一个音频流；以及由一个或多个处理器并且基于该多个音频流的子集输出一个或多个扬声器馈送。

在另一示例中，本技术的各个方面可以针对被配置为播放多个音频流中的一个或多个音频流的内容消费者设备，该内容消费者设备包括：用于存储多个音频流和与该多个音频流相关联的音频位置信息的部件，该音频位置信息表示捕获音频流的声学空间中的音频流坐标或者合成音频流的虚拟声学空间中的音频流坐标或两者，每个音频流表示一个声场；以及用于确定表示该内容消费者设备在声学空间中的设备坐标的设备位置信息的部件；用于基于设备位置信息和音频位置信息，选择多个音频流的子集的部件，该多个音频流的子集不包括该多个音频流中的至少一个音频流；以及用于基于该多个音频流的子集输出一个或多个扬声器馈送的部件。

在另一示例中，本技术的各个方面可以针对其上存储有指令的非暂时性计算机可读存储介质，该指令被执行时使内容消费者设备的一个或多个处理器：存储多个音频流和与该多个音频流相关联的音频位置信息，该音频位置信息表示捕获音频流的声学空间中的音频流坐标或者合成音频流的虚拟声学空间中的音频流坐标或两者，每个音频流表示一个声场；以及确定表示该内容消费者设备在声学空间中的设备坐标的设备位置信息；基于设备位置信息和音频位置信息，选择多个音频流的子集，该多个音频流的子集不包括该多个音频流中的至少一个音频流；以及基于该多个音频流的子集输出一个或多个扬声器馈送。

在附图和以下说明书中阐述了本发明的一个或多个示例的细节。从说明书和附图以及从权利要求书中，该技术的各个方面的其它特征、目的和优势将是显而易见的。

附图说明

图1A-图1C是示出可执行本公开中描述的技术的各个方面的系统的示意图。

图2是示出由用户穿戴的VR设备的示例的示意图。

图3A-图3E是更详细地示出图1A-图1C的示例中所示的流选择单元的示例操作的示意图。

图4A-图4E是示出图1A-图1C的示例中所示的流选择单元在执行流选择技术的各个方面中的示例操作。

图5A-图5D是示出根据本公开各方面的对齐的示例的概念图。

图6是示出可以根据本公开中描述的技术的各个方面操作的可穿戴设备的示例的示意图。

图7A和图7B是示出可以执行本公开中描述的技术的各个方面的其他示例系统的示意图。

图8是示出图1的示例中所示的源设备和内容消费者设备中的一个或多个的示例组件的框图。

图9示出了根据本公开的各方面的无线通信系统的示例。

具体实施方式

当渲染诸如六自由度(6DOF)场景的XR场景时，可以从现场场景的音频捕获设备或者虚拟的或现场场景中的合成源获得的很多音频源可能需要在包括更多或更少音频信息之间的平衡。这种平衡可以由混合工程师离线执行，这可能是开销很大且耗时的。在某些情况下，平衡可以由与渲染器通信的服务器执行。在这些情况下，平衡可能不会发生在渲染器离线的情况下，并且当渲染器在线时，平衡可能导致延迟，因为渲染器可能重复地与服务器通信以提供与XR设备的方位有关的信息并接收更新的音频信息。

根据本公开的技术，内容消费者设备(诸如XR设备)可以确定表示声学空间中的设备坐标的设备位置信息。内容消费者设备可以基于设备位置信息和与多个音频流相关联的音频位置信息之间的接近距离，并且该音频位置信息表示捕获或合成音频流的声学空间中的音频流坐标，基于该接近距离是否分别小于或大于接近距离阈值而选择该多个音频流中的更大数量或更小数量的音频流。本公开的技术可以消除由混合工程师进行平衡和内容消费者设备与服务器之间重复通信的需要。

此外，当用户在XR场景中时，用户可能希望从与设备位置信息指示的不同的收听方位体验音频。根据本公开的技术，用户可以进入对齐(snapping)模式。在对齐模式中，用户的音频体验可以基于一个或多个音频源距离和一个或多个音频源距离阈值而对齐到音频流，音频源距离可以是音频流的设备坐标与音频流坐标之间的距离。以这种方式，可以改善用户的听觉体验。

有若干不同方式来表示声场。示例格式包括基于声道的音频格式、基于对象的音频格式和基于场景的音频格式。基于声道的音频格式是指5.1环绕立体声格式、7.1环绕立体声格式、22.2环绕立体声格式或任何其他基于声道的格式，这些格式将音频声道定位到听众周围的特定位置，以便重新创建声场。

基于对象的音频格式可以指这样的格式，其中音频对象(通常使用脉冲编码调制(PCM)编码并被称为PCM音频对象)被指定以表示声场。这样的音频对象可以包括识别音频对象相对于收听者或声场中的其他参考点的位置的元数据，使得音频对象可以被渲染到一个或多个扬声器声道中以便重放，以努力重新创建声场。

基于场景的音频格式可以包括在三维中定义声场的分层元素集。分层元素集的一个示例是球谐系数(SHC)集。下面的表达式演示了使用SHC对声场的描述或表示：

该表达式示出，在时间t处，声场任意点{r_r,θ_r,

}的压力p_i都可以用

唯一地表示。这里，

c是声速(～343m/s)，

是参考点(或观察点)，j_n(·)是n阶球面贝塞尔函数，并且

是n阶和m子阶球面调和基函数(也可称为球面基函数)。可以认识到，方括号中的术语是信号的频域表示(例如，

)，其可以通过诸如离散傅立叶变换(DFT)、离散余弦变换(DCT)或小波变换的各种时频变换来近似。分层集的其他示例包括小波变换系数集和多分辨率基函数的其他系数集。

可以通过各种麦克风阵列配置物理地获取(例如，记录)，或者可替代地，它们可以从声场的基于声道或基于对象的描述中导出。SHC(也可以称为立体混响系数)表示基于场景的音频，其中SHC可以被输入到音频编码器以获得编码的SHC，其可以促进更有效的发送或存储。例如，可以使用涉及(1+4)²(25，因此是四阶)系数的四阶表示。

如上所述，SHC可以从使用麦克风阵列的麦克风记录中导出。在2005年11月的J.Audio Eng.Soc.第11号，53卷，第1004-1025页，Poletti,M.的“Three-DimensionalSurround Sound Systems Based on Spherical Harmonics”中描述了如何从麦克风阵列物理地获取SHC的各种示例。

下面的等式可以说明如何从基于对象的描述中导出SHC。对应于个体音频对象的声场的系数

可以表示为：

其中i是

是n阶球面Hankel函数(第二类)，并且

是对象的位置。已知对象源能量g(ω)是频率的函数(例如，使用时频分析技术，诸如对脉冲编码调制(PCM)流执行快速傅立叶变换)可以使得能够将每个PCM对象和对应的位置转换为

此外，可以示出(因为上面是线性和正交分解)每个对象的

系数是可加的。以这种方式，若干个PCM对象可以由

系数表示(例如，作为个体对象的系数矢量的和)。系数可以包含关于声场的信息(作为3D坐标的函数的压力)，并且以上表示在观察点附近从个体对象到整体声场表示的转换

本公开中描述的技术可应用于本文讨论的任何格式，包括基于场景的音频格式、基于声道的音频格式、基于对象的音频格式或其任何组合。

计算机介导现实系统(也可称为“扩展现实系统”或“XR系统”)正在被开发，以利用立体混响系数提供的很多潜在益处。例如，立体混响系数可以以潜在地实现声场内声源的精确3D定位的方式在三维中表示声场。因此，XR设备可以将立体混响系数渲染到扬声器馈送，当经由一个或多个扬声器播放时，该扬声器馈送准确地再现声场。

作为另一示例，可以平移或旋转立体混响系数以在不需要过于复杂的数学运算的情况下考虑用户移动，从而潜在地适应XR设备的低延迟要求。另外，立体混响系数是分层的，从而通过降阶(这可以消除与较高阶相关联的立体混响系数)自然地适应可伸缩性，并且由此潜在地允许声场的动态适配以适应XR设备的延迟和/或电池需求。

针对XR设备使用立体混响系数可以使得能够开发一些依赖于立体混响系数提供的更沉浸式声场的用例，特别是针对计算机游戏应用和实时视频流应用。在这些依赖于声场的低延迟再现的高度动态用例中，XR设备可能更喜欢立体混响系数，而不是更难操纵或涉及复杂渲染的其他表示。下面关于图1A-1C提供了关于这些用例的更多信息。

尽管在本公开中关于VR设备进行了描述，但是可以在诸如移动设备的其他设备的上下文中执行本技术的各个方面。在这种情况下，移动设备(诸如所谓的智能手机)可以经由屏幕呈现所显示的世界，屏幕可以被安装到用户的头部或像常规使用移动设备时那样观看。因此，屏幕上的任何信息都可以是移动设备的一部分。移动设备能够提供跟踪信息，从而允许VR体验(当头戴时)和常规体验两者来查看显示世界，其中常规体验仍然允许用户查看显示世界，提供VR-lite类型的体验(例如，举起设备并旋转或平移设备以查看显示世界的不同部分)。另外，尽管在本公开的各种示例中提到了显示世界，但本公开的技术也可与不对应于显示世界或不存在显示世界的声学空间一起使用。例如，显示世界不需要显示在内容消费者设备上，并且在这方面，显示世界的概念可以是呈现给用户的具有声学空间的世界，但不必在显示器上可视地呈现。

图1A-图1C是示出可执行本公开中描述的技术的各个方面的系统的示意图。如图1A的示例所示，系统10包括源设备12A和内容消费者设备14A。虽然在源设备12A和内容消费者设备14A的上下文中描述，但是本技术可以在其中对声场的任何表示进行编码以形成表示音频数据的比特流的任何上下文中实现。此外，源设备12A可以表示能够生成声场表示的任何形式的计算设备，并且在本文中通常在作为VR内容创建者设备的上下文中描述。同样，内容消费者设备14A可以表示能够实现在本公开中描述的渲染元数据技术以及音频回放的任何形式的计算设备，并且在本文中通常在作为VR客户端设备的上下文中描述。

源设备12A可由娱乐公司或其他实体操作，其可以生成单声道和/或多声道音频内容以供诸如内容消费者设备14A的内容消费者设备的操作者消费。在一些VR场景中，源设备12A结合视频内容生成音频内容。源设备12A包括内容捕获设备20、内容编辑设备22和声场表示生成器24。内容捕获设备20可以被配置为与麦克风18连接或以其他方式与麦克风18进行通信。

麦克风18可以表示能够捕获声场并将其表示为音频数据19的

或其他类型的3D音频麦克风，音频数据19可以指上述基于场景的音频数据(例如立体混响系数)、基于对象的音频数据和基于信道的音频数据中的一个或多个音频数据。尽管被描述为3D音频麦克风，但麦克风18也可以表示被配置为捕获音频数据19的其他类型的麦克风(例如全向麦克风、点麦克风、单向麦克风等)。音频数据19可以表示音频流或包括音频流。

在一些示例中，内容捕获设备20可以包括集成到内容捕获设备20的外壳中的集成麦克风18。内容捕获设备20可以无线地或经由有线连接与麦克风18连接。内容捕获设备20可在音频数据19经由某种类型的可移动存储器、无线地和/或经由有线输入处理被输入之后对音频数据19进行处理，而不是经由麦克风18捕获音频数据19，或与捕获音频数据19结合进行处理。因此，根据本公开，内容捕获设备20和麦克风18的各种组合都是可能的。

内容捕获设备20还可以被配置为与内容编辑设备22连接或以其他方式与内容编辑设备22进行通信。在一些实例中，内容捕获设备20可以包括内容编辑设备22(在一些实例中，内容编辑设备22可以表示软件或软件和硬件的组合，包括由内容捕获设备20执行以配置内容捕获设备20以执行特定形式的内容编辑的软件)。内容编辑设备22可以表示被配置为编辑或以其他方式改变从内容捕获设备20接收的包括音频数据19的内容21的单元。内容编辑设备22可以向声场表示生成器24输出编辑后的内容23和相关联的元数据25。

声场表示生成器24可以包括能够与内容编辑设备22(或内容捕获设备20)连接的任何类型的硬件设备。尽管在图1A的示例中未示出，但是声场表示生成器24可以使用包括音频数据19和由内容编辑设备22提供的元数据25的的编辑内容23来生成一个或多个比特流27。在图1A的聚焦于音频数据19的示例中，声场表示生成器24可以生成由音频数据19表示的同一声场的一个或多个表示，以获得包括声场的表示和音频元数据25的比特流27。

例如，为了使用立体混响系数生成声场的不同表示(这再次是音频数据19的一个示例)，声场表示生成器24可以使用用于声场的立体混响表示的编码方案，该编码方案被称为混合阶立体混响(MOA)，该方案在2017年8月8日递交的、题为“MIXED-ORDER AMBISONICS(MOA)AUDIO DATA FOR COMPUTER-MEDIATED REALITY SYSTEMS”的美国专利申请No.15/672,058并且于2019年1月3日公开的美国公开专利no.20190007781中更详细地进行了讨论。

为了生成声场的特定MOA表示，声场表示生成器24可以生成整个立体混响系数集的部分子集。例如，由声场表示生成器24生成的每个MOA表示可提供关于声场的某些区域的精度，但在其他区域中精度较低。在一个示例中，声场的MOA表示可以包括八(8)个未压缩的立体混响系数，而同一声场的三阶立体混响表示可以包括十六(16)个未压缩的立体混响系数。因此，作为立体混响系数的部分子集而生成的声场的每个MOA表示可以不像立体混响系数生成的同一声场的对应三阶立体混响表示那么的存储密集和带宽密集(如果且当在所示的传输信道上作为比特流27的一部分发送时)。

尽管关于MOA表示进行了描述，但本公开的技术也可以关于一阶立体混响(FOA)表示来执行，其中与一阶球面基函数和零阶球面基函数相关联的所有立体混响系数都用于表示声场。换句话说，声场表示生成器24可以使用给定阶数N的所有立体混响系数表示声场，而不是使用部分的非零立体混响系数子集来表示声场，从而得到总的立体混响系数等于(N+1)²。

在这方面，立体混响音频数据(这是在MOA表示或诸如上述一阶表示的全阶表示中指代立体混响系数的另一种方式)可以包括与具有一阶或更少阶的球面基函数相关联的立体混响系数(其可以被称为“一阶立体混响音频数据”)，与具有混合阶和子阶的球面基函数相关联的立体混响系数(其可以被称为上面讨论的“MOA表示”)，或者与具有大于一阶的球面基函数相关联的立体混响系数(其被称为“全阶表示”)。

在一些示例中，内容捕获设备20或内容编辑设备22可以被配置为与声场表示生成器24进行无线通信。在一些示例中，内容捕获设备20或内容编辑设备22可以经由无线连接或有线连接之一或两者与声场表示生成器24进行通信。经由内容捕获设备20或内容编辑设备22与声场表示生成器24之间的连接，内容捕获设备20或内容编辑设备22可以提供各种形式的内容，出于讨论的目的，这些内容在本文中被描述为音频数据19的一部分。

在一些示例中，内容捕获设备20可以利用声场表示生成器24的各个方面(在声场表示生成器24的硬件或软件能力方面)。例如，声场表示生成器24可以包括被配置为执行心理声学音频编码的专用硬件(或者当执行时使一个或多个处理器执行心理声学音频编码的专用软件)，所述音频编码诸如由运动图像专家组(MPEG)提出的表示为“USAC”的统一语音和音频编码器、MPEG-H 3D音频编码标准、MPEG-I沉浸式音频标准，或者诸如AptX^TM(包括AptX的各种版本，诸如增强型AptX-E-AptX、AptX live、AptX立体声和AptX高清-AptX-HD)、高级音频编码(AAC)、音频编解码器3(AC-3)、苹果无损音频编解码器(ALAC)、MPEG-4音频无损流(ALS)、增强型AC-3、免费无损音频编解码器(FLAC)、Monkey's Audio、MPEG-1音频层II(MP2)、MPEG-1音频层III(MP3)、Opus和Windows Media Audio(WMA)之类的专有标准。

内容捕获设备20可以不包括心理声学音频编码器专用硬件或专用软件，而是可以以非心理声学音频编码的形式提供内容21的音频方面。声场表示生成器24可以通过至少部分地执行关于内容21的音频方面的心理声学音频编码来辅助内容21的捕获。

声场表示生成器24还可以(在音频数据19包括基于场景的音频数据的情况下)通过至少部分地基于从音频数据19生成的音频内容(例如，MOA表示和/或一阶立体混响表示)而生成一个或多个比特流27来辅助内容捕获和发送。比特流27可以表示音频数据19的压缩版本和任何其他不同类型的内容21(诸如球面视频数据、图像数据或文本数据的压缩版本)。

作为一个示例，声场表示生成器24可以生成比特流27用于在传输信道上进行传输，该传输信道可以是有线或无线信道、数据存储设备等。比特流27可以表示音频数据19的编码版本，并且可以包括主比特流和另一个旁比特流，其可以被称为旁信道信息或元数据。在一些实例中，表示音频数据19(其也可以表示基于场景的音频数据、基于对象的音频数据、基于声道的音频数据或其组合)的压缩版本的比特流27可以符合根据MPEG-H 3D音频编码标准和/或MPEG-I沉浸式音频标准产生的比特流。

内容消费者设备14A可以由个人操作，并且可以表示VR客户端设备。尽管关于VR客户端设备进行了描述，但内容消费者设备14A可以表示其他类型的设备，诸如增强现实(AR)客户端设备、混合现实(MR)客户端设备(或其他XR客户端设备)、标准计算机、头戴设备、耳机、移动设备(包括所谓的智能手机)、或能够跟踪操作内容消费者设备14A的个人的头部运动和/或一般平移运动的任何其他设备。如图1A的示例所示，内容消费者设备14A包括音频回放系统16A，其可以指能够将用于回放的音频数据渲染为单声道和/或多声道音频内容的任何形式的音频回放系统。

虽然图1A中示出为直接发送去往内容消费者设备14A，但是源设备12A可以将比特流27输出到位于源设备12A与内容消费者设备14A之间的中间设备。中间设备可以存储比特流27，以供稍后传送到内容消费者设备14A，内容消费者设备14A可以请求比特流27。中间设备可以包括文件服务器、web服务器、台式计算机、膝上型计算机、平板计算机、移动电话、智能电话或能够存储比特流27以供稍后由音频解码器取回的任何其他设备。中间设备可以驻留在能够将比特流27流传输(并且可能与发送对应的视频数据比特流相结合)到请求比特流27的订户(诸如内容消费者设备14A)的内容传送网络中。

可替代地，源设备12A可以将比特流27存储到诸如压缩盘、数字视频盘、高清晰度视频盘或其他存储介质的存储介质中，其中大部分能够由计算机读取，并且因此可以被称为计算机可读存储介质或非暂时性计算机可读存储介质。在该上下文中，传输信道可指用来发送存储到介质的内容(例如，以一个或多个比特流27的形式)的信道(并且可以包括零售商店和其他基于商店的递送机制)。在任何情况下，本公开的技术因此不应在这方面被限于图1A的示例。

如上所述，内容消费者设备14A包括音频回放系统16A。音频回放系统16A可以表示能够回放单声道和/或多声道音频数据的任何系统。音频回放系统16A可以包括多个不同的音频渲染器32。音频渲染器32可以各自提供不同形式的渲染，其中不同形式的渲染可以包括执行各种方式的矢量基础幅度平移(VBAP)中的一种或多种，和/或执行各种方式的声场合成中的一种或多种。如本文所用，“A和/或B”意为“A或B”，或“A和B两者”。

音频回放系统16A还可以包括音频解码设备34。音频解码设备34可以表示被配置为对比特流27进行解码以输出音频数据19’的设备(其中，点撇记号可以表示由于音频数据19的有损压缩(例如量化)，音频数据19’不同于音频数据19)。再次，音频数据19’可以包括基于场景的音频数据，在一些示例中，这些数据可以形成完整的第一(或更高)阶立体混响表示，或者形成同一声场的MOA表示的该立体混响表示的子集、该立体混响表示的分解(诸如主要音频信号、环境立体混响系数，以及MPEG-H 3D音频编码标准中描述的基于矢量的信号)或其他形式的基于场景的音频数据。音频数据19’可以包括音频流或音频流的表示。

基于场景的音频数据的其他形式包括根据HOA(高阶立体混响)传输格式(HTF)定义的音频数据。关于HTF的更多信息可以在欧洲电信标准协会(ETSI)的技术规范(TS)中找到，该规范名为“Higher Order Ambisonics(HOA)Transport Format”，ETSI TS 103589v1.1.1,日期为2018年6月(2018-06)，也可以在2018年12月20日提交的、题为“PRIORITYINFORMATION FOR HIGHER ORDER AMBISONIC AUDIO DATA”美国公开专利No.2019/0918028中找到。在任何情况下，音频数据19’可以类似于音频数据19的全集或部分子集，但由于有损操作(例如，量化)和/或经由传输信道的发送而不同。

作为基于场景的音频数据的替代，或者与基于场景的音频数据结合，音频数据19’可以包括基于声道的音频数据。作为基于场景的音频数据的替代，或者与基于场景的音频数据结合，音频数据19’可以包括基于对象的音频数据或基于声道的音频数据。因此，音频数据19’可以包括基于场景的音频数据、基于对象的音频数据和基于声道的音频数据的任何组合。

音频回放系统16A的音频渲染器32可以在音频解码设备34已经对比特流27进行解码以获得音频数据19’之后，将音频数据19’渲染到输出扬声器馈送35。扬声器馈送35可以驱动一个或多个扬声器(为了便于说明，在图1A的示例中未示出)。包括声场的基于场景的音频数据(以及可能的基于声道的音频数据和/或基于对象的音频数据)的各种音频表示可以以包括N3D、SN3D、FuMa、N2D或SN2D在内的多种方式归一化。

为了选择适当的渲染器或在某些情况下生成适当的渲染器，音频回放系统16A可以获得指示扬声器(例如，扩音器或耳机扬声器)的数量和/或扬声器的空间几何形状的扬声器信息37。在一些情况下，音频回放系统16A可以使用参考麦克风获得扬声器信息37，并且可以以动态确定扬声器信息37的方式驱动扬声器(其可以指用于使换能器振动的电信号的输出)。在其他情况下，或者结合扬声器信息37的动态确定，音频回放系统16A可以提示用户与音频回放系统16A连接并输入扬声器信息37。

音频回放系统16A可以基于扬声器信息37选择音频渲染器32之一。在一些情况下，当音频渲染器32中没有一个处于与扬声器信息37中指定的扬声器几何形状的某个阈值相似度量(就扬声器几何形状而言)内时，音频回放系统16A可以基于扬声器信息37生成音频渲染器32之一。在一些情况下，音频回放系统16A可以基于扬声器信息37生成音频渲染器32之一，而不首先尝试选择音频渲染器32中的现有一个。

当将扬声器馈送35输出到耳机时，音频回放系统16A可以利用渲染器32之一，该渲染器32使用头部相关传递函数(HRTF)或能够向用于耳机扬声器回放的左和右扬声器馈送35进行渲染的其他功能(诸如双耳室脉冲响应渲染器)提供双耳渲染。术语“扬声器”或“换能器”一般可指任何扬声器，包括扩音器、耳机扬声器、骨传导扬声器、耳塞扬声器、无线耳机扬声器等。然后，一个或多个扬声器可重放渲染的扬声器馈送35以再现声场。

尽管描述为从音频数据19’渲染扬声器馈送35，但对扬声器馈送35的渲染的引用可指其他类型的渲染，诸如直接并入从比特流27的音频数据的解码中的渲染。可选渲染的示例可在MPEG-H 3D音频标准的附件G中找到，其中渲染发生在声场合成之前的主要信号形成和背景信号形成期间。因此，对音频数据19’的呈现的应用应被理解为指的是实际音频数据19’或音频数据19’的分解或表示(诸如上述主要音频信号、环境立体混响系数和/或基于矢量的信号——其也可被称为V矢量或多维立体混响空间矢量)的渲染。

音频回放系统16A还可以基于跟踪信息41来适配音频渲染器32。也就是，音频回放系统16A可以与跟踪设备40连接，跟踪设备40被配置为跟踪VR设备的用户的头部运动以及可能的平移运动。跟踪设备40可以表示一个或多个传感器(例如，相机——包括深度相机、陀螺仪、磁强计、加速度计、发光二极管-LED等)，该传感器被配置为跟踪VR设备的用户的头部运动和可能的平移运动。音频回放系统16A可以基于跟踪信息41适配音频渲染器32，使得扬声器馈送35反映用户的头部的变化以及可能的平移运动，以正确地再现响应于这种运动的声场。

图1B是示出配置为执行本公开中描述的技术的各个方面的另一示例系统50的框图。系统50类似于图1A所示的系统10，除了图1A中示出的音频渲染器32被双耳渲染器42(在内容消费者设备14B的音频回放系统16B中)取代，双耳渲染器42能够使用一个或多个头部相关传递函数(HRTF)或者能够向左和右扬声器馈送43进行渲染的其他函数来执行双耳渲染。

音频回放系统16B可以将左和右扬声器馈送43输出到耳机48，耳机48可以表示可穿戴设备的另一示例，并且可以耦合到附加的可穿戴设备(诸如手表、上面提到的VR头戴设备、智能眼镜、智能服装、智能戒指、智能手镯或任何其他类型的智能珠宝(包括智能项链)等)以促进声场的再现。耳机48可以无线地或经由有线连接耦合到附加的可穿戴设备。

另外，耳机48可以经由有线连接(诸如标准的3.5毫米音频插孔、通用系统总线(USB)连接、光学音频插孔或其它形式的有线连接)或无线地(诸如通过蓝牙连接、无线网络连接等)耦合到音频回放系统16B。耳机48可以基于左和右扬声器馈送43重新创建由音频数据19’所表示的声场。耳机48可以包括左耳机扬声器和右耳机扬声器，它们由相对应的左和右扬声器馈送43供电(或换句话说，驱动)。

图1C是示出另一示例系统60的框图。示例系统60类似于图1A的示例系统10，但是系统60的源设备12B不包括内容捕获设备。源设备12B包含合成设备29。内容开发者可以使用合成设备29来生成合成音频源。合成的音频源可以具有与其相关联的位置信息，该位置信息可以识别该音频源相对于收听者或声场中的其他参考点的位置，使得音频源可以被渲染到一个或多个扬声器声道中以便回放，以努力重新创建声场。在一些示例中，合成设备29还可以合成可视数据或视频数据。

例如，内容开发者可以生成用于视频游戏的合成音频流。虽然图1C的示例是与图1A的示例的内容消费者设备14A一起示出的，但是图1C的示例的源设备12B可以与图1B的内容消费者设备14B一起使用。在一些示例中，图1C的源设备12B还可以包括内容捕获设备，使得比特流27可以包含捕获的音频流和合成的音频流两者。

如上所述，内容消费者设备14A或14B(以下称为内容消费者设备14)可以表示其中人类可穿戴显示器(也可以称为“头戴显示器”)被安装在操作VR设备的用户的眼睛前面的VR设备。图2是示出由用户402穿戴的VR设备400的示例的示意图。VR设备400耦合到或以其他方式包括耳机404，耳机404可以通过扬声器馈送35的重放来再现由音频数据19’表示的声场。扬声器馈送35可以表示能够使耳机404的换能器内的膜以各种频率振动的模拟或数字信号，其中这种过程通常被称为驱动耳机404。

视频、音频和其他感官数据可能在VR体验中扮演重要角色。为了参与VR体验，用户402可以穿戴VR设备400(其也可以被称为VR客户端设备400)或其他可穿戴电子设备。VR客户端设备(诸如VR设备400)可以包括跟踪设备(例如，跟踪设备40)，其被配置为跟踪用户402的头部运动，并适配经由VR设备400显示的视频数据以说明头部运动，提供沉浸式体验，其中用户402可以在视觉三维中体验视频数据中显示的显示世界。显示世界可以指虚拟世界(其中世界的全部被模拟)、增强世界(其中世界的部分被虚拟对象增强)或物理世界(其中真实世界图像被虚拟导航)。

虽然VR(以及其他形式的AR和/或MR)可以允许用户402可视地驻留在虚拟世界中，但通常VR设备400可能缺乏将用户可听地放置在显示世界中的能力。换句话说，VR系统(其可以包括负责渲染视频数据和音频数据的计算机——为了便于说明的目的在图2的示例中未示出，以及VR设备400)可能无法在听觉上支持(并且在某些情况下以反映经由VR设备400呈现给用户的显示场景的方式现实地支持)全三维沉浸。

尽管在本公开中关于VR设备进行了描述，但是可以在诸如移动设备的其他设备的上下文中执行本技术的各个方面。在这种情况下，移动设备(诸如所谓的智能手机)可以经由屏幕呈现所显示的世界，屏幕可以被安装到用户402的头部或像常规使用移动设备时那样观看。因此，屏幕上的任何信息都可以是移动设备的一部分。移动设备能够提供跟踪信息41，从而允许VR体验(当头戴时)和常规体验两者来查看显示世界，其中常规体验仍然允许用户查看显示世界，提供VR-lite类型的体验(例如，举起设备并旋转或平移设备以查看显示世界的不同部分)。

在任何情况下，回到VR设备上下文，VR的音频方面已经被分为三个独立的沉浸类别。第一类别提供最低级别的沉浸，并且被称为三自由度(3DOF)。3DOF指的是考虑头部在三个自由度(摇摆、俯仰和转动)中的移动，从而使用户可以在任何方向上自由地环顾四周的音频渲染。但是，3DOF无法解决平移头部移动(在这种情况下，头部的中心不在音场的光学和声学中心)的问题。

第二类别，称为3DOF plus(3DOF+)，除了由于头部远离声场中的光学中心和声学中心的移动而引起的有限空间平移移动之外，还提供了三个自由度(摇摆、俯仰和转动)。3DOF+可以为诸如移动视差的感知效果提供支持，这可以增强沉浸感。

第三类别，被称为六自由度(6DOF)，其以在头部移动方面考虑三个自由度(摇摆、俯仰和转动)但也考虑用户在空间中的平移(x、y和z平移)的方式来渲染音频数据。可以通过跟踪用户在物理世界中的位置的传感器或通过输入控制器来引起空间平移。

3DOF渲染是VR音频方面的最新技术。因此，VR的音频方面比视频方面的沉浸感小，从而潜在地减少了用户体验到的整体沉浸感。然而，VR正在迅速转变，并且可能会迅速发展到支持3DOF+和6DOF，这可能会为额外的用例提供机会。

例如，交互式游戏应用可以利用6DOF来促进完全沉浸式游戏，其中用户自己在VR世界中移动，并且可以通过走到虚拟对象那里与虚拟对象进行交互。此外，交互式直播流媒体应用可以利用6DOF来允许VR客户端设备体验音乐会或体育事件的直播流，就好像他们自己在音乐会上一样，允许用户在音乐会或体育事件中移动。

与这些用例相关的困难有很多。在完全沉浸式游戏的情况下，延迟可能需要保持较低，以使游戏不会导致恶心或晕车。此外，从音频角度来看，导致与视频数据同步丢失的音频回放中的延迟可能减少沉浸感。此外，对于某些类型的游戏应用，空间精度对于允许准确的响应可能是很重要的，包括关于用户如何感知声音，因为这允许用户预期当前不在视图中的动作。

在直播流媒体应用的上下文中，大量源设备12A或12B(以下称为源设备12)可以对内容21进行流式传输，其中源设备12可以具有广泛不同的能力。例如，一个源设备可以是具有数字固定镜头相机和一个或多个麦克风的智能手机，而另一个源设备可以是能够获得比智能手机高得多的分辨率和质量的视频的生产级电视设备。然而，在直播流媒体应用的上下文中，所有源设备可以提供不同质量的流，VR设备可以尝试从中选择适当的流以提供预期体验。

此外，类似于游戏应用，音频数据中的延迟使得与视频数据发生同步丢失可能导致更少的沉浸感。此外，空间精度也可能是重要的，使得用户可以更好地理解不同音频源的上下文或位置。更进一步，当用户使用摄像头和麦克风进行直播时，隐私可能会成为一个问题，因为用户可能不希望直播流完全向公众开放。

在流媒体应用(直播或录播)的上下文中，可能存在大量与不同级别的质量和/或内容相关联的音频流。音频流可以表示任何类型的音频数据，包括基于场景的音频数据(例如，立体混响音频数据，包括FOA音频数据、MOA音频数据和/或HOA音频数据)、基于声道的音频数据和基于对象的音频数据。仅选择潜在大量音频流中的一个以从中重新创建声场可能无法提供确保充分沉浸水平的体验。然而，由于多个音频流之间的不同空间定位，选择多个音频流可能会产生干扰，从而潜在地减少沉浸感。

根据本公开中描述的技术，音频解码设备34可自适应地在经由比特流27可用的音频流(其由比特流27表示，因此比特流27可被称为“音频流27”)之间进行选择。音频解码设备34可以基于音频位置信息(ALI)(例如，图1A-图1C中的45A)在音频流27的不同音频流之间进行选择，该ALI诸如捕获位置信息或与作为伴随音频流27的元数据而包括的合成音频源相关的位置信息，其中音频位置信息可以定义捕获相应音频流27的麦克风在显示世界中的坐标或在声学空间中的坐标。ALI 45A可以表示在显示世界(或声学空间)中捕获或合成音频流27中的对应一个音频流的捕获位置(或合成位置)。音频解码设备34可以基于ALI45A选择音频流27的子集，其中该音频流27的子集排除音频流27中的至少一个。音频解码设备34可以将音频流27的子集输出为音频数据19’(也可以称为“音频流19’”)。在一些示例中，音频解码设备34可以响应于该选择仅解码该音频流的子集。

另外，音频解码设备34可以获得跟踪信息41，内容消费者设备14可将其转化为设备位置信息(DLI)45B。在一些示例中，DLI 45B可以表示内容消费者设备14在显示世界中的虚拟位置，该虚拟位置可以被定义为显示世界中的一个或多个设备坐标。在一些示例中，DLI 45B可以表示声学空间中的位置设备坐标。虽然本文中有时讨论为表示内容消费者设备在显示世界中的虚拟位置，但DLI 45B可以是表示内容消费者设备14的物理位置的设备信息。例如，内容消费者设备14可以不向用户提供显示世界。内容消费者设备14可以将DLI45B提供给音频解码设备34。然后，音频解码设备34可以基于ALI 45A和DLI 45B从音频流27中选择音频流19’。然后，音频回放系统16A或16B可以基于音频流19’再现对应的声场。

在该方面，音频解码设备34可自适应地选择音频流27的子集以获得(与选择单个音频流或所有音频流19’相比)可导致更沉浸式体验的音频流19’。因此，本公开中描述的技术的各个方面可以通过可能地使音频解码设备34能够更好地将声场内的声源空间化并由此提高沉浸感来改进音频解码设备34(以及音频回放系统16A和内容消费者设备14)本身的操作。

在操作中，音频解码设备34可以与一个或多个源设备12连接，以确定每个音频流27的ALI 45A。如图1A的示例所示，音频解码设备34可以包括流选择单元44，其可以表示被配置为执行本公开中描述的音频流选择技术的各个方面的单元。

流选择单元44可以基于ALI 45A生成星座图(CM)47。CM 47可以定义每个音频流27的ALI 45A。流选择单元44还可以关于每个音频流27执行能量分析，以确定每个音频流27的能量图，并将该能量图与ALI 45A一起存储在CM 47中。能量图可以共同定义由音频流27表示的公共声场的能量。

流选择单元44接下来可以确定由DLI 45B表示的虚拟位置与由ALI 45A表示的捕获位置(或合成位置)之间的距离，所述捕获位置(或合成位置)与音频流27中的至少一个(并且可能是每个)相关联。然后，流选择单元44可以基于距离从音频流27中选择音频流19’，如下文关于图3A-图3D更详细地讨论的。

进一步的，在一些示例中，流选择单元44还可以基于存储到CM 47、ALI 45A和DLI45B的能量图(其中ALI 45A和DLI 45B以上述距离的形式共同呈现，也可以被称为“相对距离”)而从音频流27中选择音频流19’。例如，流选择单元44可以分析在CM 47中呈现的能量图，以确定音频源在公共声场中的音频源位置(ASL)49，该音频源发射由麦克风(诸如麦克风18)捕获并由音频流27表示的声音。然后，流选择单元44可以基于ALI 45A、DLI 45B和ASL49而从音频流27中确定音频流19’。将在下面关于图3A-图3D讨论关于流选择单元44可以如何选择流的更多信息。

图3A-图3D是更详细地示出图1A的示例中所示的流选择单元44的示例操作的示意图。如图3A的示例中所示，流选择单元44可以确定DLI 45B指示内容消费者设备14(示为VR设备400)处在虚拟位置300A。流选择单元44接下来可以确定音频元件302A-302J(统称为音频元件302)中的一个或多个音频元件的ALI 45A，音频元件可以表示麦克风(诸如图1A中所示的麦克风18)、其他类型的捕获设备(包括其他XR设备、移动电话——包括所谓的智能手机——等等)，或者合成声场等。

如上所述，流选择单元44可以获得音频流27。流选择单元44可以与音频元件302A-302J连接以获得音频流27。在一些示例中，流选择单元44可与接口(诸如接收器、发送器和/或收发器)交互，以根据第五代(5G)蜂窝标准、个人区域网络(PAN)(诸如蓝牙^TM)或一些其他开源、专有或标准化通信协议获得音频流27。音频流的无线通信在图3A-图3D的示例中被表示为闪电，其中所选择的音频数据19’被示出为从所选择的音频元件302中的一个或多个音频元件传送到VR设备400。

在任何情况下，流选择单元44接下来可以以上述方式获得能量图，分析能量图以确定音频源位置304，音频源位置304可以表示图1A的示例中所示的ASL 49的一个示例。能量图可以表示音频源位置304，因为音频源位置304处的能量可能高于周围区域。假定每个能量图可以表示该较高能量，则流选择单元44可以基于能量图中的较高能量来对音频源位置304进行三角定位。

流选择单元44可以确定音频源距离306A。在一些示例中，流选择单元44可以将音频源距离306A确定为声学空间或虚拟声学空间中的音频源位置与设备坐标之间的距离。在一些示例中，流选择单元44可以将音频源距离确定为音频流坐标与设备坐标之间的距离。在一些示例中，流选择单元44可以将音频源距离确定为音频源位置(例如，音频源位置304)与设备坐标(例如，VR设备400的虚拟位置300A)之间的距离。流选择单元44可以将音频源距离306A与音频源距离阈值进行比较。在一些示例中，流选择单元44可以基于音频源308的能量导出音频源距离阈值。也就是，当音频源308具有更高能量时(或者，换句话说，当音频源308声音更大时)，流选择单元44可以增大音频源距离阈值。当音频源308具有更低能量时(或者，换句话说，当音频源308声音更小时)，流选择单元44可以减小音频源距离阈值。在其他示例中，流选择单元44可以获得静态定义的音频源距离阈值，该阈值可以由用户402静态定义或指定。

在任何情况下，流选择单元44可以在音频源距离306A大于音频源距离阈值(在该示例中为了说明的目的而假设)时，选择音频元件302A-302J(“音频元件302”)的音频流27的单个音频流。例如，流选择单元44可以选择具有到虚拟位置300A的最短距离的音频元件(例如，音频元件302A)的音频流。流选择单元44可以输出音频流27中对应的一个音频流，音频解码设备34可以将其解码并输出为音频数据19’。

假设用户402从虚拟位置300A移动到虚拟位置300B，流选择单元44可以将音频源距离306B确定为音频源位置304与虚拟位置300B之间的距离。在一些示例中，流选择单元44可以仅在某个可配置的释放时间之后更新，该释放时间可以指收听者停止移动之后的时间。

在任何情况下，流选择单元44可以再次将音频源距离306B与音频源距离阈值进行比较。流选择单元44可以在音频源距离306B小于或等于音频源距离阈值(在该示例中为了说明的目的而假设)时，选择音频元件302A-302J(“音频元件302”)的音频流27中的多个音频流。流选择单元44可以输出音频流27中对应的一个音频流，音频解码设备34可以将其解码并输出为音频数据19’。

流选择单元44还可以确定虚拟位置300A与由ALI 45A表示的捕获位置(或合成位置)中的一个或多个(并且可能是每个)之间的一个或多个接近距离，以获得一个或多个接近距离。然后，流选择单元44可以将一个或多个接近距离与阈值接近距离进行比较。当一个或多个接近距离大于阈值接近距离时，流选择单元44可以选择与一个或多个接近距离小于或等于阈值接近距离时相比更小数量的音频流27，以获得音频流19’。然而，当一个或多个接近距离小于或等于阈值接近距离时，流选择单元44可以选择与一个或多个接近距离大于阈值接近距离时相比更大数量的音频流27，以获得音频流19’。

换句话说，流选择单元44可以尝试选择音频流27中使得音频流19’最紧密地对准虚拟位置300B并且围绕虚拟位置300B的那些音频流。接近距离阈值可以定义这样的阈值，用户402可以设置该阈值，或者流选择单元44可以基于音频元件302F-302J的质量、音频源308的增益或响度、跟踪信息41(例如，以确定用户402是否正面对着音频源308)或任何其他因素而再次动态地确定该阈值。

在该方面，流选择单元44可以增加收听者处于位置300B处时的音频空间化精度。此外，当收听者处于位置300A处时，流选择单元44可以降低比特率，因为仅使用音频元件302A的音频流而不是使用音频元件302B-302J的多个音频流来再现声场。

接下来参考图3B的示例，流选择单元44可以反复遍历(reiterate through)以确定音频元件302A的音频流被破坏、有噪声或不可用。给定音频源距离306A大于音频源距离阈值，流选择单元44可以根据上面更详细描述的技术从CM 47移除音频流并反复遍历音频流27，以选择音频流27中的单一一个音频流(例如，图3B的示例中的音频元件302B的音频流)。

接下来参考图3C的示例，流选择单元44可以获得新音频流(音频元件302k的音频流)和对应的新音频信息，诸如包括ALI 45A的元数据。流选择单元44可以将新音频流添加到表示音频流27的CM 47。给定音频源距离306A大于音频源距离阈值，流选择单元44可以随后根据上面更详细描述的技术反复遍历音频流27，以选择音频流27中的单一一个音频流(例如，图3C的示例中的音频元件302B的音频流)。

在图3D的示例中，音频元件302被特定示例设备320A-320J(“设备320”)取代，其中设备320A表示专用麦克风320A，而设备320B、320C、320D、320G、320H和320J表示智能手机。设备320E、320F和320I可以表示VR设备。设备320中的每个设备可以包括音频元件302，其可以表示根据本公开中描述的流选择技术的各个方面要选择的、捕获的或合成的音频流27。

图3E是示出具有三个或更多个音频元件的示例音乐会的概念图。在图3E的示例中，许多音乐家被描绘在舞台323上。歌手312位于音频元件310A之后。在音频元件310B后面描绘了字符串部分314。鼓手316被描绘在音频元件310C之后。其他音乐家318被描绘在音频元件310D之后。音频元件310A-310D可以表示对应于麦克风接收到的声音的捕获音频流。在一些示例中，音频元件310A-310D可以表示合成音频流。例如，音频元件310A可以表示主要与歌手312相关联的捕获音频流，但音频流也可以包括由其他乐队成员(诸如弦乐部分314、鼓手316或其他音乐家318)产生的声音，而音频元件310B可以表示主要与弦乐部分314相关联的捕获音频流，但包括由其他乐队成员产生的声音。以此方式，每个音频元件310A-310D可以表示不同的音频流。

此外，还描述了很多设备。这些设备表示位于多个不同收听位置的用户设备。头戴设备321位于音频元件310A附近，但位于音频元件310A与音频元件310B之间。因此，根据本公开的技术，流选择单元44可以选择音频流中的至少一个以为头戴设备321的用户产生类似于位于图3E中头戴设备321所在位置处的用户的音频体验。类似地，VR护目镜326被示出位于音频元件310C之后并且位于鼓手316与其他音乐家318之间。流选择单元44可以选择至少一个音频流以为VR护目镜326的用户产生类似于位于图3E中VR护目镜326所在位置处的用户的音频体验。

智能眼镜324被示为位于音频元件310A、310C和310C之间的正中央。流选择单元44可以选择至少一个音频流以为智能眼镜324的用户产生类似于位于图3E中智能眼镜324所在位置处的用户的音频体验。另外，设备322(其可以表示能够实现本公开的技术的任何设备，诸如移动手机、扬声器阵列、头戴设备、VR护目镜、智能眼镜等)被示出位于音频元件310B的前面。流选择单元44可以选择至少一个音频流以为设备322的用户产生类似于位于图3E中设备322所在位置处的用户的音频体验。尽管关于特定位置讨论了特定设备，但所描述的任何设备都可以提供不同于图3E中所示的所需收听位置的指示。

图4A-图4E是示出图1A和图1B的示例中所示的流选择单元44在执行流选择技术的各个方面中的示例操作。首先参考图4A的示例，流选择单元44可以从所有启用的音频元件获得音频流27，其中音频流27可以包括对应的音频元数据，诸如ALI 45A(800)。流选择单元44可以关于每个音频流27执行能量分析，以计算相应的能量图(802)。

接下来，流选择单元44可以基于与音频源308的接近度(如由音频源距离306A和/或306B定义的)和与音频元件的接近度(如由上面讨论的接近距离定义的)，迭代遍历(在CM47中定义的)音频元件的不同组合(804)。如图4A中所示，音频元件可以被排序或以其他方式与不同的访问权限相关联。流选择单元44可以基于由DLI 45B表示的收听者位置(这是指代“虚拟位置”的另一种方式)和由ALI 45A表示的音频元件位置，以上述方式迭代，以识别需要更大的音频流27的子集还是需要减小的音频流27的子集(806、808)。

当需要更大的音频流27的子集时，流选择单元44可以向音频流19’添加音频元件，或者换句话说，添加额外的音频流(诸如在图3A的示例中，当用户更靠近音频源时)(810)。当需要简化的音频流27的子集时，流选择单元44可以从音频流19’移除音频元件，或者换句话说，移除现有的音频流(诸如在图3A的示例中，当用户距离音频源更远时)(812)。

在一些示例中，流选择单元44可以确定音频元件的当前星座是最佳集合(或者，换句话说，现有音频流19’将保持不变，因为本文描述的选择过程得到相同的音频流19’)(804)，并且该过程可以返回到802。然而，当从音频流19’添加或删除音频流时，流选择单元44可以更新CM 47(814)，生成星座历史(815)(包括位置、能量图等)。

另外，流选择单元44可以确定隐私设置是允许还是禁止添加音频元件(其中隐私设置可以指限制对一个或多个音频流27的访问的数字访问权限，例如，通过密码、授权级别或等级、时间等)(816、818)。当隐私设置允许添加音频元件时，流选择单元44可以向更新后的CM 47添加音频元件(这是指向音频流19’添加音频流)(820)。当隐私设置禁止添加音频元件时，流选择单元44可以从更新后的CM 47移除音频元件(这是指从音频流19’移除音频流)(822)。以此方式，流选择单元44可以识别新的一组启用的音频元件(824)。

流选择单元44可以以这种方式迭代并根据任何给定频率对各种输入进行更新。例如，流选择单元44可以以用户接口速率对隐私设置进行更新(意味着通过经由用户接口输入的更新来驱动更新)。作为另一示例，流选择单元44可以以传感器速率对位置进行更新(意味着通过音频元件的移动而改变位置)。流选择单元44可以进一步以音频帧速率对能量图进行更新(意味着每帧都对能量图进行更新)。

接下来参考图4B的示例，流选择单元44可以以上面关于图4A描述的方式操作，除了流选择单元44可以不基于能量图来确定CM 47。因此，流选择单元44可以从所有启用的音频元件获得音频流27，其中音频流27可以包括对应的音频元数据，诸如ALI 45A(840)。流选择单元44可以确定隐私设置是允许还是禁止添加音频元件(其中隐私设置可以指限制对一个或多个音频流27的访问的数字访问权限，例如，通过密码、授权级别或等级、时间等)(842、844)。

当隐私设置允许添加音频元件时，流选择单元44可以向更新后的CM 47添加音频元件(这是指向音频流19’添加音频流)(846)。当隐私设置禁止添加音频元件时，流选择单元44可以从更新后的CM 47移除音频元件(这是指从音频流19’移除音频流)(848)。以此方式，流选择单元44可以识别新的一组启用的音频元件(850)。流选择单元44可以迭代(852)遍历CM 47中的音频元件的不同组合以确定表示音频流19’的星座历史(854)。

流选择单元44可以以这种方式迭代并根据任何给定频率对各种输入进行更新。例如，流选择单元44可以以用户接口速率对隐私设置进行更新(意味着通过经由用户接口输入的更新来驱动更新)。作为另一示例，流选择单元44可以以传感器速率对位置进行更新(意味着通过音频元件的移动而改变位置)。

接下来参考图4C的示例，流选择单元44可以以上面关于图4A描述的方式操作，除了流选择单元44可以不基于隐私设置启用的音频元件来确定CM 47。因此，流选择单元44可以从所有启用的音频元件获得音频流27，其中音频流27可以包括对应的音频元数据，诸如ALI 45A(860)。流选择单元44可以关于每个音频流27执行能量分析，以计算相应的能量图(862)。

接下来，流选择单元44可以基于与音频源308的接近度(如由音频源距离306A和/或306B定义的)和与音频元件的接近度(如由上面讨论的接近距离定义的)，迭代遍历(在CM47中定义的)音频元件的不同组合(864)。如图4C中所示，音频元件可以被排序或以其他方式与不同的访问权限相关联。流选择单元44可以基于由DLI 45B表示的收听者位置(这也是指代上面讨论的“虚拟位置”的另一种方式)和由ALI 45A表示的音频元件位置，以上述方式迭代，以识别需要更大的音频流27的子集还是需要减小的音频流27的子集(866、868)。

当需要更大的音频流27的子集时，流选择单元44可以向音频流19’添加音频元件，或者换句话说，添加额外的音频流(诸如在图3A的示例中，当用户更靠近音频源时)(870)。当需要简化的音频流27的子集时，流选择单元44可以从音频流19’移除音频元件，或者换句话说，移除现有的音频流(诸如在图3A的示例中，当用户距离音频源更远时)(872)。

在一些示例中，流选择单元44可以确定音频元件的当前星座是最佳集合(或者，换句话说，现有音频流19’将保持不变，因为本文描述的选择过程得到相同的音频流19’)(864)，并且该过程可以返回到862。然而，当从音频流19’添加或删除音频流时，流选择单元44可以更新CM 47(874)，生成星座历史(875)。

流选择单元44可以以这种方式迭代并根据任何给定频率对各种输入进行更新。例如，流选择单元44可以以传感器速率对位置进行更新(意味着通过音频元件的移动而改变位置)。流选择单元44可以进一步以音频帧速率对能量图进行更新(意味着每帧都对能量图进行更新)。

现在参考图4D的示例，内容消费者设备14的一个或多个处理器可以存储多个音频流和音频位置信息(876)。音频位置信息可以与多个音频流相关联，并且表示音频流在声学空间中被捕获或合成处的音频流坐标。在一些示例中，声学空间可以是在其中可以合成音频流的虚拟声学空间。内容消费者设备14的一个或多个处理器可以确定设备位置信息(878)。例如，设备位置信息可以表示设备在声学空间中的设备坐标。

内容消费者设备的一个或多个处理器可以基于设备位置信息和音频位置信息选择多个音频流的子集(880)。例如，内容消费者设备14的一个或多个处理器可以基于设备位置信息和音频位置信息来为多个音频流的至少一个音频流确定接近距离，以及基于该接近距离选择该多个音频流的子集。在另一示例中，内容消费者设备14的一个或多个处理器可以将接近距离与阈值接近距离进行比较，以及当该接近距离小于或等于阈值接近距离时，与接近距离大于阈值接近距离时相比，选择更大数量的多个音频流，以获得多个音频流的子集。在另一示例中，内容消费者设备14的一个或多个处理器可以将接近距离与阈值接近距离进行比较，以及当该接近距离大于阈值接近距离时，与接近距离小于或等于阈值接近距离时相比，选择更小数量的多个音频流，以获得多个音频流的子集。

内容消费者设备14的一个或多个处理器可以基于多个音频流的子集而输出一个或多个扬声器馈送(882)。在一些示例中，内容消费者设备14的一个或多个处理器可以获得新音频流和对应的新音频位置信息，并且更新多个音频流的子集以包括该新音频流。例如，用户402可以向新音频流移动，并且内容消费者设备14的一个或多个处理器可以获得该新音频流并更新多个音频流的子集以包括该新音频流。

在6DoF音频的上下文中，可以将对齐或对齐模式定义为用于音频渲染的空间坐标的变换。在一些示例中，空间坐标的这种变换可以是实时的或基本上是实时的(延迟小于2秒)。以此方式，对齐可能破坏用于渲染视觉场景(或在不存在视觉内容的情况下的音频场景)的收听者坐标(例如，设备或收听者在显示世界中的虚拟位置)与用于音频渲染的坐标之间的关系。可以有两种对齐模式-硬对齐和软对齐。

图4E是示出根据本公开的技术的对齐的示例的流程图。图4E的示例可以与图4D的示例一起使用或分开使用。内容消费者设备14的一个或多个处理器可以确定第一音频源距离(884)。例如，内容消费者设备14的一个或多个处理器可以确定声学空间中第一音频流的音频流坐标与声学空间中的设备坐标之间的距离。内容消费者设备14的一个或多个处理器可以将第一音频源距离与第一音频源距离阈值进行比较(886)，以确定第一音频源距离是否小于或等于第一音频源距离阈值。当第一音频源距离小于或等于第一音频源距离阈值(来自框886的“是”路径)时，则内容消费者设备14的一个或多个处理器选择第一音频流(888)。在一些示例中，第一音频流是所选择的唯一音频流。内容消费者设备14的一个或多个处理器可以基于第一音频流输出一个或多个扬声器馈送(898)。例如，内容消费者设备14的一个或多个处理器将用户的音频体验对齐到第一音频流上。

当第一音频源距离大于第一音频源距离阈值(来自框886的“否”路径)时，在一些示例中(诸如在软对齐中)，内容消费者设备14的一个或多个处理器可以确定第二音频源距离(890)。例如，内容消费者设备14的一个或多个处理器可以确定声学空间中第二音频流的音频流坐标与声学空间中的设备坐标之间的距离。内容消费者设备14的一个或多个处理器可以将第二音频源距离与第二音频源距离阈值进行比较(892)，以确定第二音频源距离是否大于第二音频源距离阈值。当第二音频源距离大于第二音频源距离阈值(来自框892的“是”路径)时，内容消费者设备14的一个或多个处理器选择第一音频流和第二音频流(894)，因为第一音频源距离大于第一音频源距离阈值并且第二音频源距离大于第二音频源距离阈值。例如，内容消费者设备的一个或多个处理器可以通过对第一音频流和第二音频流进行自适应混合或基于第一音频流和第二音频流对第三音频流进行内插中的至少一个来对第一音频流和第二音频流进行组合。在一些示例中，内容消费者设备14的一个或多个处理器可以通过将函数F(x)应用于第一音频流和第二音频流来对第一音频流和第二音频流进行组合，这在图5A-图5C的讨论期间将更详细地描述。内容消费者设备14的一个或多个处理器可以基于第一音频流和第二音频流而输出一个或多个扬声器馈送(898)。

当第二音频源距离小于或等于第二音频源距离阈值(来自框892的“否”路径)时，一个或多个处理器选择第二音频源(896)。在一些示例中，第二音频流是所选择的唯一音频流。内容消费者设备14的一个或多个处理器可以基于第二音频流输出一个或多个扬声器馈送(898)。

在一些示例中，内容消费者设备14的一个或多个处理器可以不立即选择第一音频流和/或第二音频流。例如，内容消费者设备14的一个或多个处理器可以确定设备坐标是否在预定时间段内相对于第一音频源距离阈值和第二音频源距离阈值是稳定的。例如，保持稳定意味着在预定时间段内，第一音频源距离相对于第一音频源距离阈值没有改变(例如，没有从小于或等于变成大于或反之亦然)，并且第二音频源距离相对于第二音频源距离阈值没有改变(例如，没有从小于或等于变成大于或反之亦然)。基于设备坐标在预定时间段内相对于第一音频源距离阈值和第二音频源距离阈值是稳定的，内容消费者设备14的一个或多个处理器可以选择第一音频流、第一音频流和第二音频流，或者第二音频流。由于用户可能正在沿着第一音频源距离阈值或第二音频源距离阈值的边界移动，并且可能正在接收由于内容消费者设备14的一个或多个处理器可能重复地改变所选择的流而可能不希望的音频体验，因此可能希望利用本发明技术。

在一些示例中，诸如当用户移动时，内容消费者设备14的一个或多个处理器可以基于设备坐标改变而选择不同的音频流。例如，用户可以离开一个音频源并朝向另一个音频源移动。在这种情况下，内容消费者设备14的一个或多个处理器可以选择用户正在走向的音频源。在一些示例中，内容消费者设备14的一个或多个处理器可以基于第一音频源距离等于音频源距离阈值而向用户提供警报，因为这可能指示用户所具有的音频体验正在改变。在一些示例中，警报可以是可视警报、听觉警报或触觉警报中的至少一个。

现在将更详细地讨论对齐。图5A是示出硬对齐的示例的概念示意图。在硬对齐中，用于对音频流加权的阈值(w)可以是收听者410的位置416(也称为设备或用户的虚拟位置)到最近的捕获或合成位置A或B的距离。位置A处的音频元件434和位置B处的音频元件436可以表示诸如来自音频捕获设备或预定义收听位置的音频信号。

可以在位置A与位置B之间的任何地方设置诸如对齐位置S 435的第一音频源距离阈值。在一些示例中，收听者410可以例如通过用户界面(诸如本文公开的用户界面)来设置或移动对齐位置S 435。在一些示例中，对齐位置S 435可以由源设备12预置、在比特流27中提供或由内容消费者设备14生成。对齐位置S 435可以表示关于图4E讨论的第一音频源距离阈值的示例。

当分别位于位置A和位置B处的音频元件434和436是相同类型的音频捕获设备时，可以将A与B的中点设置为位置S 435的默认位置。在中点是位置S 435的默认位置的情况下(如图5A所示)，当收听者410的位置416更靠近位置A时(w＝A)，音频源w在位置A处(例如，音频元件434)，而当收听者410的位置416更靠近位置B时，音频源w在位置B处(例如，音频元件436)。在一些示例中，收听者410可以覆盖对位置S 435的选择，以将对齐偏向音频元件或音频元件的集合。例如，收听者410可以将位置S 435移动到更靠近位置A。当收听者410将位置S 435移动到更靠近位置A时，当收听者410位于位置A和位置B之间的中点时，收听者410可以听到由音频元件436表示的音频信号。当收听者410的位置416改变为比位置S 435更靠近位置A时，提供给收听者410的音频可以与位置A对齐，使得呈现给收听者416的音频信号是由音频元件434表示的音频信号。当收听者410的位置416比位置S 435更靠近位置B时，提供给收听者410的音频可以与位置B对齐，并且提供给收听者410的音频可以是由音频元件436表示的音频信号。

例如，诸如VR设备400的设备可以确定表示设备在显示世界中的虚拟位置(例如，收听者410的位置416)的虚拟位置信息。VR设备400可以将虚拟位置信息与第一音频源距离阈值(例如，位置S 435)进行比较，并基于该比较而选择可提供给用户(例如，收听者音频元件)的至少一个音频流(例如，音频元件434或436)。

可提供可视或听觉反馈以警告收听者410他们已经对齐到收听位置(例如，位置A或位置B)。例如，VR设备400可以提供可视警报(诸如在新对齐位置(例如，位置A或位置B)处淡到黑色、闪电和/或可视标记)。在对齐到的位置可能在收听者410的视场之外(例如，在听者后面)的情况下，可视警报可以指示对齐到的位置在视场之外，例如，淡到黑色、闪电或可能与在收听者410的视场之外的对齐到的位置相关联的一些其他技术。

在一些示例中，收听者410可以在对齐期间听到淡入/淡出或指示对齐发生的一些其他音频警报。例如，耳机404可以向收听者410提供淡入/淡出、铃音、叮当声、拍照声、词语(例如“对齐”)或已发生对齐的一些其他指示。

在一些示例中，收听者410可以在对齐期间感受到触觉警报(诸如振动)，或者指示对齐发生的一些其他触觉警报。例如，内容消费者设备14可以振动以通知收听者410已发生对齐。

图5B是示出软对齐的示例的概念示意图。当如在图5B中所见收听者410在第一音频源距离阈值(例如，对齐位置x₁)与第二音频源距离阈值(例如，对齐位置x₂)(软对齐区域)之间时，当对齐被函数F(x)软化时，可以发生软对齐。虽然在图5B中F(x)被示为线性函数，但F(x)可以是任何函数。

以此方式，可以由诸如耳机404的设备优先考虑在位置A处的音频元件438或在位置B处的音频元件440的音频渲染。在一些示例中，该区域可以是非对称区域并且包括迟滞行为。例如，诸如VR设备400的设备可以确定收听者410的位置416是否在预定时间段内相对于第一音频源距离阈值(例如，对齐位置x₁ 439)和第二音频源距离阈值(例如，对齐位置x₂441)保持稳定。基于设备确定收听者410的位置416已经稳定预定时间段，可以发生呈现给收听者410的音频的对齐或转换。例如，设备可以确定用户的虚拟位置已经从对齐位置x₁439与对齐位置x₂ 441之间移动到位置x₂ 441与位置B之间(例如，第二音频源距离小于第二音频源距离阈值)。一旦过了预定时间，呈现给收听者410的音频可以在位置B处对齐到音频元件440。

在其他方面，软对齐的功能可能类似于硬对齐。当收听者410的位置416在对齐位置x₁ 439与位置A之间时(w＝A，当A≤x≤x₁时，例如，第一音频源距离小于或等于第一音频源距离阈值)，收听者410可以对齐到位置A，并在位置A处听到由音频元件438表示的音频。当收听者410的位置416在对齐位置x₁ 439与对齐位置x₂ 441之间时(当x₁<x<x₂时，w＝F(x)，例如第一音频源距离大于第一音频源距离阈值且第二音频源距离大于第二音频源距离阈值两者)，收听者410可以根据函数F(x)听到由音频元件438和音频元件440两者表示的音频。例如，当收听者410的位置416在对齐位置x₁ 439与对齐位置x₂ 441之间(在软对齐区域中)时，设备可以根据F(x)自适应地混合由音频元件438和音频元件440两者表示的音频，或者基于由音频元件438和音频元件440和F(x)表示的音频来对第三音频流进行内插。当收听者410的位置416在位置B与对齐位置x₂ 441之间时(当x₂≤x≤B时，w＝B，例如，第二音频源距离小于或等于第二音频源距离阈值)，收听者410可以对齐到位置B，并在位置B处听到由音频元件440表示的音频。与硬对齐一样，可以向收听者410呈现可视警报或听觉警报。在一些示例中，当发生对齐时以及当收听者410的位置416进入对齐位置x₁与对齐位置x₂之间的区域时，可以呈现可视警报或听觉警报。例如，当收听者410的位置416处在位置A与对齐位置x₁之间时，音频源w在位置A(例如，音频元件438)处。在一些示例中，交叉淡入淡出可能会出现，并且依赖于时间和收听者的移动两者。

图5C是示出软对齐的另一示例的概念示意图。在图5C的示例中，位置x₁与位置x₂之间的阈值区域扩展到位置A与位置B之间的整个区域。在该示例中，当收听者410的位置416处于位置A时，收听者410可以仅听到来自位置A的音频，当收听者410的位置416处于位置A与位置B之间时，可以听到来自位置A和位置B的音频的混合，并且当收听者410的位置416处于位置B时，仅听到来自位置B的音频。

上面提到的示例(图5A-图5C)可以是位置依赖的对齐。在其他示例中，对齐可以不依赖于位置。例如，收听者410可以通过用户界面(诸如图4C的用户界面)而不是通过收听者410的移动位置416来对齐到一个位置。

图5D是示出具有三个或更多个音频元件的示例的概念图。图5D描述了音乐会的布局。在该示例中，当收听者在靠近舞台的多个音频元件(S₁ 446、S₂ 448、S₃ 450、S₄452)和远离舞台的音频元件(R₁ 454、R₂ 456、R₃ 458、R₄ 460)之间移动时，收听者可能希望与远离收听者的位置的音频元件对齐。

例如，如果收听者想要在近处听到表演者(例如，靠近舞台444)，但想要看到更多的舞台(例如，比靠近舞台的位置更宽广的视野)而使得收听者的位置430更远离舞台，则收听者可以将对齐的音频源距离阈值偏向舞台音频元件S₂ 448而不是最近的音频元件R₂456(距离a>距离b)。在一些示例中，通过这种向舞台音频元件的偏向，当收听者向位置432移动时，他们保持对齐到S₂448。在位置432处，由于收听者到音频元件S₃ 450的距离(c)小于收听者到音频元件S₂448的距离(d)，因此收听者可以与音频元件S₃ 450对齐。在没有偏向的情况下，当收听者从位置430移动到位置432时，收听者将会对齐到音频元件R₂ 456和R₃ 458。

图6是示出可以根据本公开中描述的技术的各个方面操作的可穿戴设备500的示例的示意图。在各种示例中，可穿戴设备500可以表示VR头戴设备(诸如上述VR设备400)、AR头戴设备、MR头戴设备或任何其他类型的扩展现实(XR)头戴设备。增强现实“AR”可以指计算机渲染的图像或数据，这些图像或数据覆盖在用户实际所在的真实世界上。混合现实“MR”可以指计算机渲染的图像或数据，其被世界锁定在真实世界中的特定位置，或者可以指VR上的一种变体，其中部分计算机渲染的3D元素和部分拍摄的真实元素被组合成模拟用户在环境中的物理存在的沉浸式体验。扩展现实“XR”可以能代表VR、AR和MR的总括术语。关于XR术语的更多信息可以在日期为2017年7月7日，Jason Peterson的题为“VirtualReality,Augmented Reality,and Mixed Reality Definitions”的文档中找到。

可穿戴设备500可以表示其他类型的设备，诸如手表(包括所谓的“智能手表”)、眼镜(包括所谓的“智能眼镜”)、头戴设备(包括所谓的“无线头戴设备”和“智能头戴设备”)、智能服装、智能珠宝等。无论表示VR设备、手表、眼镜和/或头戴设备，可穿戴设备500都可以经由有线连接或无线连接与支持可穿戴设备500的计算设备进行通信。

在一些实例中，支持可穿戴设备500的计算设备可以集成在可穿戴设备500内，并且因此，可穿戴设备500可以被认为是与支持可穿戴设备500的计算设备相同的设备。在其他实例中，可穿戴设备500可以与支持可穿戴设备500的单独计算设备进行通信。在这方面，术语“支持”不应被理解为需要单独的专用设备，而是被配置为执行本公开中描述的技术的各个方面的一个或多个处理器可以集成在可穿戴设备500内或集成在与可穿戴设备500分开的计算设备内。

例如，当可穿戴设备500表示VR设备400时，单独的专用计算设备(诸如包括一个或多个处理器的个人计算机)可以呈现音频和可视内容，而可穿戴设备500可以根据本公开中描述的技术的各个方面确定平移头部运动，专用计算设备可以基于平移头部运动而在其上呈现音频内容(作为扬声器馈送)。作为另一示例，当可穿戴设备500表示智能眼镜时，可穿戴设备500可以包括一个或多个处理器，其确定平移头部运动(通过可穿戴设备500的一个或多个传感器内的连接)并基于确定的平移头部运动而呈现扬声器馈送。

如图所示，可穿戴设备500包括一个或多个定向扬声器，以及一个或多个跟踪和/或记录相机。另外，可穿戴设备500包括一个或多个惯性、触觉和/或健康传感器、一个或多个眼跟踪相机、一个或多个高灵敏度音频麦克风和光学/投影硬件。可穿戴设备500的光学/投影硬件可以包括耐用的半透明显示技术和硬件。

可穿戴设备500还包括连接硬件，其可以表示支持多模式连接(诸如4G通信、5G通信、蓝牙、Wi-Fi等)的一个或多个网络接口。可穿戴设备500还包括一个或多个环境光传感器、一个或多个相机和夜视传感器以及一个或多个骨传导换能器。在一些情况下，可穿戴设备500还可以包括具有鱼眼镜头和/或长焦镜头的一个或多个被动和/或主动相机。虽然图6中未显示，但是可穿戴设备500还可以包括一个或多个发光二极管(LED)灯。在一些示例中，LED灯可以被称为“超亮”LED灯。在一些实现中，可穿戴设备500还可以包括一个或多个后置摄像头。将理解的是，可穿戴设备500可以展现各种不同的形状因子。

此外，跟踪和记录相机和其他传感器可以有助于平移距离的确定。尽管在图6的示例中未示出，但是可穿戴设备500可以包括用于检测平移距离的其他类型的传感器。

尽管关于可穿戴设备的特定示例进行了描述，诸如上面关于图6的示例讨论的VR设备400以及图1A和图1B的示例中阐述的其他设备，但是本领域普通技术人员应该了解关于图1A、图1B和图2的描述可以应用于可穿戴设备的其他示例。例如，诸如智能眼镜的其他可穿戴设备可以包括传感器，通过传感器获得平移头部运动。作为另一个示例，诸如智能手表的其他可穿戴设备可以包括传感器，通过传感器获得平移运动。因此，本公开中描述的技术不应限于特定类型的可穿戴设备，而是任何可穿戴设备都可以被配置为执行本公开中描述的技术。

图7A和图7B是示出可以执行本公开中描述的技术的各个方面的示例系统的示意图。图7A示出其中源设备12C还包括相机600的示例。相机600可以被配置为捕捉视频数据，并将捕获的原始视频数据提供给内容捕获设备20。内容捕获设备20可将视频数据提供给源设备12C的另一组件，以进一步处理成视口划分的部分。

在图7A的示例中，内容消费者设备14C还包括VR设备400。将理解的是，在各种实现中，VR设备400可以被包括在内容消费者设备14C中或者外部耦合到内容消费者设备14C。VR设备400包括用于输出视频数据(例如，与各种视口相关联)和用于渲染音频数据的显示硬件和扬声器硬件。

图7B示出了图7A中所示的音频渲染器32被双耳渲染器42取代的示例，双耳渲染器42能够使用一个或多个HRTF或能够渲染到左和右扬声器馈送43的其他功能来执行双耳渲染。内容消费者设备14D的音频回放系统16C可以将左和右扬声器馈送43输出到耳机48。

耳机48可以经由有线连接(诸如标准的3.5毫米音频插孔、通用系统总线(USB)连接、光学音频插孔或其它形式的有线连接)或无线地(诸如通过蓝牙连接、无线网络连接等)耦合到音频回放系统16C。耳机48可以基于左和右扬声器馈送43重新创建由音频数据19’所表示的声场。耳机48可以包括左耳机扬声器和右耳机扬声器，它们由相对应的左和右扬声器馈送43供电(或换句话说，驱动)。

图8是示出图1A-图1C的示例中所示的源设备和内容消费者设备中的一个或多个的示例组件的框图。在图8的示例中，设备710包括处理器712(其可被称为“一个或多个处理器”或“(多个)处理器”)、图形处理单元(GPU)714、系统存储器716、显示处理器718、一个或多个集成扬声器740、显示器703、用户界面720、天线721和收发器模块722。在设备710是移动设备的示例中，显示处理器718是移动显示处理器(MDP)。在一些示例中，诸如设备710是移动设备的示例中，处理器712、GPU 714和显示处理器718可以形成为集成电路(IC)。

例如，IC可以被认为是芯片封装内的处理芯片，并且可以是片上系统(SoC)。在一些示例中，处理器712、GPU 714和显示处理器718中的两个可以一起被容纳在同一IC中，而另一个可以被容纳在不同的集成电路(例如，不同的芯片封装)中，或者所有三个可以被容纳在不同的IC中或在同一IC上。然而，在设备710是移动设备的示例中，处理器712、GPU 714和显示处理器718可以都被容纳在不同的集成电路中。

处理器712、GPU 714和显示处理器718的示例包括但不限于一个或多个数字信号处理器、通用微处理器、专用集成电路、现场可编程逻辑阵列或其他等价的集成或分立逻辑电路。处理器712可以是设备710的中央处理单元(CPU)。在一些示例中，GPU 714可以是专门的硬件，其包括为GPU 714提供适合于图形处理的大规模并行处理能力的集成和/或分立逻辑电路。在一些实例中，GPU 714还可以包括通用处理能力，并且在实现通用处理任务(例如，非图形相关任务)时可以被称为通用GPU(GPGPU)。显示处理器718也可以是专用集成电路硬件，其被设计成从系统存储器716取回图像内容，将图像内容合成图像帧，并将图像帧输出到显示器703。

处理器712可以执行各种类型的应用程序。应用程序的示例包括web浏览器、电子邮件应用程序、电子表格、视频游戏、生成可视对象以供显示的其他应用程序，或上面详细列出的任何应用程序类型。系统存储器716可以存储用于执行应用程序的指令。在处理器712上执行应用程序之一使处理器712产生要显示的图像内容的图形数据和要播放的音频数据19(可能经由集成扬声器740)。处理器712可以基于处理器712向GPU 714发送的指令或命令而向GPU 714发送图像内容的图形数据以用于进一步处理。

处理器712可以根据特定应用处理接口(API)与GPU 714进行通信。这类API的示例包括

的

API，Khronos group的

或

以及OpenCLTM；然而，本公开的方面不限于DirectX、OpenGL或OpenCL API，并且可以扩展到其他类型的API。此外，本公开中描述的技术不需要根据API来工作，并且处理器712和GPU 714可以利用任何过程来进行通信。

系统存储器716可以是设备710的存储器。系统存储器716可以包括一个或多个计算机可读存储介质。系统存储器716的示例包括但不限于随机存取存储器(RAM)、电可擦除可编程只读存储器(EEPROM)、闪存或可用于以指令和/或数据结构的形式携带或存储所需程序代码并且可由计算机或处理器访问的其他介质。

在一些示例中，系统存储器716可以包括使处理器712、GPU 714和/或显示处理器718执行本公开中赋予处理器712、GPU 714和/或显示处理器718的功能的指令。因此，系统存储器716可以是具有存储在其上的指令的计算机可读存储介质，所述指令在执行时使一个或多个处理器(例如，处理器712、GPU 714和/或显示处理器718)执行各种功能。

系统存储器716可以包括非暂时性存储介质。术语“非暂时性”指示存储介质不包含在载波或传播信号中。然而，术语“非暂时性”不应解释为意味着系统存储器716是不可移动的或其内容是静态的。作为一个示例，系统存储器716可以被从设备710移除并移动到另一设备。作为另一示例，基本上类似于系统存储器716的存储器可以被插入到设备710中。在某些示例中，非暂时性存储介质可以存储能够随时间改变的数据(例如，在RAM中)。

用户界面720可以表示一个或多个硬件或虚拟(意味着硬件和软件的组合)用户界面，用户可以通过该用户界面与设备710进行交互。用户界面720可以包括物理按钮、开关、切换器、灯光或其虚拟版本。用户界面720还可以包括物理或虚拟键盘、触摸界面-诸如触摸屏、触觉反馈等等。

处理器712可以包括一个或多个硬件单元(包括所谓的“处理内核”)，所述硬件单元被配置为关于内容创建者设备和/或内容消费者设备的任何模块、单元或其他功能组件中的一个或多个执行上述操作的全部或某些部分。天线721和收发器模块722可以表示被配置为建立和维持源设备12与内容消费者设备14之间的连接的单元。天线721和收发器模块722可以表示能够根据一个或多个无线通信协议进行无线通信的一个或多个接收器和/或一个或多个发哦是能够器，所述无线通信协议诸如第五代(5G)蜂窝标准、诸如蓝牙^TM的个人区域网(PAN)协议、诸如Wi-Fi的局域网标准或其他开源、专有或其他通信标准。例如，收发器模块722可以接收和/或发送无线信号。收发器模块722可以表示单独的发送器、单独的接收器、单独的发送器和单独的接收器两者或组合的发送器和接收器。天线721和收发器模块722可以被配置为接收编码音频数据。同样，天线721和收发器模块722可以被配置为发送编码音频数据。

图9示出了根据本公开的各方面的无线通信系统100的示例。无线通信系统100包括基站105、UE 115和核心网络130。在一些示例中，无线通信系统100可以是长期演进(LTE)网络、先进(LTE-A)网络、LTE-A Pro网络或新无线电(NR)网络。在一些情况下，无线通信系统100可以支持增强宽带通信、超可靠(例如，关键任务)通信、低延迟通信或与低成本和低复杂度设备的通信。

基站105可以经由一个或多个基站天线与UE 115无线地通信。本文描述的基站105可以包括或可以被本领域技术人员称为基本收发器、无线电基站、接入点、无线电收发器、NodeB、eNodeB(eNB)、下一代NodeB或千兆NodeB(它们中的任何一个都可以称为gNB)、家庭NodeB、家庭eNodeB或一些其他合适的术语。无线通信系统100可以包括不同类型的基站105(例如，宏小区基站或小小区基站)。本文描述的UE 115可以能够与各种类型的基站105和网络设备进行通信，包括宏eNB、小小区eNB、gNB、中继基站等。

每个基站105可以与特定地理覆盖区域110相关联，在该区域110中支持与各种UE115的通信。每个基站105可以经由通信链路125为相应的地理覆盖区域110提供通信覆盖，并且基站105与UE 115之间的通信链路125可以利用一个或多个载波。无线通信系统100中示出的通信链路125可以包括从UE 115到基站105的上行链路发送，或者从基站105到UE115的下行链路发送。下行链路发送也可以称为前向链路发送，而上行链路发送也可以称为反向链路发送。

可以将基站105的地理覆盖区域110划分为构成地理覆盖区域110的一部分的扇区，并且每个扇区可以与小区相关联。例如，每个基站105可以为宏小区、小小区、热点、或其他类型的小区、或其各种组合提供通信覆盖。在一些示例中，基站105可以是可移动的，并且因此为移动的地理覆盖区域110提供通信覆盖。在一些示例中，与不同技术相关联的不同地理覆盖区域110可以重叠，并且与不同技术相关联的重叠的地理覆盖区域110可以由同一基站105或不同基站105支持。无线通信系统100可以包括，例如异构LTE/LTE-A/LTE-A Pro或NR网络，在该网络中不同类型的基站105为各种地理覆盖区域110提供覆盖。

UE 115可以分散在整个无线通信系统100中，并且每个UE 115可以是固定的或移动的。UE 115还可以被称为移动设备、无线设备、远程设备、手持设备或订户设备，或一些其他合适的术语，其中“设备”还可以被称为单元、站、终端或客户端。UE 115还可以是个人电子设备，诸如蜂窝电话、个人数字助理(PDA)、平板计算机、膝上型计算机或个人计算机。在本公开的示例中，UE 115可以是本公开中描述的音频源中的任何一个，包括VR头戴设备、XR头戴设备、AR头戴设备、车辆、智能手机、麦克风、麦克风阵列、或包括麦克风或能够发送捕获的和/或合成的音频流的任何其他设备。在一些示例中，合成音频流可以是存储在存储器中或先前创建或合成的音频流。在一些示例中，UE 115还可以指代无线本地环路(WLL)站、物联网(IoT)设备、万物互联(IoE)设备或MTC设备等，其可以在诸如电器、车辆、仪表等的各种物品中实现。

诸如MTC或IoT设备的一些UE 115可以是低成本或低复杂度设备，并且可以提供机器之间的自动通信(例如，经由机器到机器(M2M)通信)。M2M通信或MTC可以指代允许设备在无需人为干预的情况下彼此通信或与基站105通信的数据通信技术。在一些示例中，M2M通信或MTC可以包括来自交换和/或使用指示隐私限制和/或基于密码的隐私数据的音频元数据以切换、掩码和/或空化各种音频流和/或音频源的设备的通信。

在一些情况下，UE 115还能够与其他UE 115直接通信(例如，使用对等(P2P)或设备对设备(D2D)协议)。利用D2D通信的一组UE 115中的一个或多个UE可以处于基站105的地理覆盖区域110内。在该组中的其他UE 115可以处于基站105的地理覆盖区域110之外，或者以其他方式不能接收来自基站105的发送。在一些情况下，经由D2D通信进行通信的各组UE115可以利用一对多(1:M)系统，在该系统中每个UE 115向该组中的每个其他UE 115进行发送。在一些情况下，基站105促进用于D2D通信的资源调度。在其他情况下，在UE 115之间执行D2D通信，而无需基站105的参与。

基站105可以与核心网络130进行通信并彼此通信。例如，基站105可以通过回程链路132(例如，经由S1、N2、N3或其他接口)与核心网络130对接。基站105可以通过回程链路134(例如，经由X2、Xn或其他接口)直接地(例如，直接在基站105之间)或间接地(例如，经由核心网络130)彼此通信。

在一些情况下，无线通信系统100可以利用经许可的无线电频带和未许可的无线电频带二者。例如，无线通信系统100可以在诸如5GHz工业科学医疗(ISM)频带的未许可频带中采用许可辅助接入(LAA)、LTE未许可(LTE-U)无线电接入技术或NR技术。当在未许可的无线电频带中操作时，诸如基站105和UE 115的无线设备可以采用对话前监听(LBT)过程，以确保频率信道在发送数据之前是空闲的。在一些情况下，未许可频带中的操作可以基于载波聚合配置与在许可频带(例如，LAA)中操作的分量载波的结合。未许可频谱中的操作可以包括下行链路发送、上行链路发送、对等发送或这些发送的组合。未许可频谱中的双工可以基于频分双工(FDD)、时分双工(TDD)或两者的组合。

本公开包括以下示例。

示例1A.一种被配置为播放多个音频流中的一个或多个音频流的设备，该设备包括：存储器，其被配置为存储多个音频流和对应的音频元数据，每个音频流表示一个声场，并且音频元数据包括表示在显示世界中该多个音频流中的相应一个音频流被捕获的捕获坐标的捕获位置信息；以及耦合到存储器并且被配置为进行以下操作的一个或多个处理器：确定表示该设备在显示世界中的设备坐标的位置信息；基于位置信息和捕获位置信息而选择多个音频流的子集，该多个音频流的子集排除该多个音频流中的至少一个音频流；以及基于该多个音频流的子集输出一个或多个扬声器馈送。

示例2A.根据示例1A的设备，其中，一个或多个处理器被配置为：基于位置信息和包括在多个音频流的至少一个音频流的元数据中的捕获位置信息来确定接近距离；以及基于该接近距离选择该多个音频流的子集。

示例3A.根据示例1A和示例2A的任何组合的设备，其中一个或多个处理器被配置为：确定由位置信息表示的该设备在显示世界中的设备坐标与由捕获位置信息表示的每个捕获坐标之间的接近距离，以获得多个接近距离；以及基于该多个接近距离选择多个音频流的子集。

示例4A.根据示例2A和示例3A的任何组合的设备，其中一个或多个处理器被配置为：将该接近距离与阈值接近距离进行比较；以及当该接近距离小于或等于阈值接近距离时，与接近距离大于阈值接近距离时相比，选择更大数量的多个音频流，以获得多个音频流的子集。

示例5A.根据示例2A和示例3A的任何组合的设备，其中一个或多个处理器被配置为：将该接近距离与阈值接近距离进行比较；以及当该接近距离大于阈值接近距离时，与接近距离小于或等于阈值接近距离时相比，选择更小数量的多个音频流，以获得多个音频流的子集。

示例6A.根据示例1A-示例5A的任何组合的设备，其中一个或多个处理器还被配置为：获得新音频流和对应的新音频元数据，新音频元数据包括表示在该新音频流被捕获的显示世界中的捕获坐标的捕获位置信息；以及更新多个音频流以包括该新音频流。

示例7A.根据示例1A-示例6A的任何组合的设备，其中一个或多个处理器被配置为：基于多个音频流，确定表示由该多个音频流表示的公共声场的能量的能量图；以及基于该能量图、虚拟位置信息和捕获位置信息确定多个音频流的子集。

示例8A.根据示例7A的设备，其中一个或多个处理器被配置为：分析能量图以确定音频源在公共声场中的音频流坐标；以及基于该音频源位置、位置信息和捕获位置信息确定多个音频流的子集。

示例9A.根据示例8A的设备，其中一个或多个处理器被配置为：将音频流坐标与设备的设备坐标之间的距离确定为音频源距离；将音频源距离与音频源距离阈值进行比较；以及当音频源距离大于音频源距离阈值时，选择多个音频流中的单个音频流作为该多个音频流的子集，该单个音频流是该多个音频流中具有到该设备的虚拟位置最近的捕获位置的一个音频流。

示例10A.根据示例8A的设备，其中一个或多个处理器被配置为：将音频流坐标与设备的设备坐标之间的距离确定为音频源距离；将音频源距离与音频源距离阈值进行比较；以及当音频源距离小于或等于音频源距离阈值时，选择多个音频流中的多于一个音频流作为该多个音频流的子集，该多于一个音频流是具有环绕该设备的虚拟位置的相应捕获位置的该多个音频流的子集。

示例11A.根据示例1A-示例10A的任何组合的设备，其中该设备包括扩展现实头戴设备，并且其中显示的世界包括由相机捕获的视频数据表示的场景。

示例12A.根据示例1A-示例10A的任何组合的设备，其中该设备包括扩展现实头戴设备，并且其中显示世界包括虚拟世界。

示例13A.根据示例1A-示例12A的任何组合的设备，还包括配置为呈现显示世界的头戴式显示器。

示例14A.根据示例1A-示例12A的任何组合的设备，其中该设备包括移动手机。

示例15A.根据示例1A-示例14A的任何组合的设备，还包括被配置为接收多个音频流的接收器。

示例16A.根据示例15A的设备，其中接收器包括被配置为根据第五代(5G)蜂窝标准接收多个音频流的接收器。

示例17A.根据示例15A的设备，其中接收器包括被配置为根据个人区域网标准接收多个音频流的接收器。

示例18A.根据示例1A-示例17A的任何组合的设备，其中该设备包括一个或多个扬声器，扬声器被配置为基于扬声器馈送再现由该音频流的子集表示的声场中的一个或多个声场。

示例19A.一种播放多个音频流中的一个或多个音频流的方法，该方法包括：由存储器存储该多个音频流和对应的音频元数据，每个音频流表示一个声场，并且音频元数据包括表示该多个音频流中的对应一个音频流在显示世界中被捕获的捕获位置的捕获位置信息；以及由一个或多个处理器确定表示该设备在显示世界中的虚拟位置的虚拟位置信息；由一个或多个处理器并且基于该虚拟位置信息和捕获位置信息，选择多个音频流的子集，该多个音频流的所述子集不包括该多个音频流中的至少一个音频流；以及由一个或多个处理器并基于该多个音频流的子集再现相应的声场。

示例20A.根据示例19A的方法，其中，选择该多个音频流的子集包括：基于位置信息和包括在多个音频流的至少一个音频流的元数据中的捕获位置信息来确定接近距离；以及基于该接近距离选择该多个音频流的子集。

示例21A.根据示例19A和示例20A的任何组合的方法，其中选择多个音频流的子集包括：确定由位置信息表示的该设备在显示世界中的设备坐标与由捕获位置信息表示的每个捕获坐标之间的接近距离，以获得多个接近距离；以及基于该多个接近距离选择多个音频流的子集。

示例22A.根据示例20A和示例21A的任何组合的方法，其中选择多个音频流的子集包括：将该接近距离与阈值接近距离进行比较；以及当该接近距离小于或等于阈值接近距离时，与接近距离大于阈值接近距离时相比，选择更大数量的多个音频流，以获得多个音频流的子集。

示例23A.根据示例20A和示例21A的任何组合的方法，其中选择多个音频流的子集包括：将该接近距离与阈值接近距离进行比较；以及当该接近距离大于阈值接近距离时，与接近距离小于或等于阈值接近距离时相比，选择更小数量的多个音频流，以获得多个音频流的子集。

示例24A.根据示例19A-示例23A的任何组合的方法，还包括：获得新音频流和对应的新音频元数据，新音频元数据包括表示在该新音频流被捕获的显示世界中的捕获坐标的捕获位置信息；以及更新多个音频流以包括该新音频流。

示例25A.根据示例19A-示例24A的任何组合的方法，其中确定虚拟位置信息包括：基于多个音频流，确定表示由该多个音频流表示的公共声场的能量的能量图；以及基于该能量图、虚拟位置信息和捕获位置信息确定多个音频流的子集。

示例26A.根据示例25A的方法，其中选择多个音频流的子集包括：分析能量图以确定音频源在公共声场中的音频流坐标；以及基于音频源位置、位置信息和捕获位置信息确定多个音频流的子集。

示例27A.根据示例26A的方法，其中选择多个音频流的子集包括：将音频流坐标与设备的设备坐标之间的距离确定为音频源距离；将音频源距离与音频源距离阈值进行比较；以及当音频源距离大于音频源距离阈值时，选择多个音频流中的单个音频流作为该多个音频流的子集，该单个音频流是该多个音频流中具有到该设备的虚拟位置最近的捕获位置的一个音频流。

示例28A.根据示例26A的方法，其中选择多个音频流的子集包括：将音频流坐标与设备的设备坐标之间的距离确定为音频源距离；将音频源距离与音频源距离阈值进行比较；以及当音频源距离小于或等于音频源距离阈值时，选择多个音频流中的多于一个音频流作为该多个音频流的子集，该多于一个音频流是具有到该设备的虚拟位置最近的捕获位置的该多个音频流的子集。

示例29A.根据示例19A-示例28A的任何组合的方法，其中该方法由扩展现实头戴设备执行，并且其中显示世界包括由相机捕获的视频数据表示的场景。

示例30A.根据示例19A-示例28A的任何组合的方法，其中该方法由扩展现实头戴设备执行，并且其中显示世界包括虚拟世界。

示例31A.根据示例19A-示例30A的任何组合的方法，还包括经由头戴式显示器呈现显示世界。

示例32A.根据示例19A-示例30A的任何组合的方法，其中一个或多个处理器包括在移动手机中。

示例33A.根据示例19A-示例32A的任何组合的方法，还包括接收多个音频流。

示例34A.根据示例33A的方法，其中接收多个音频流包括：根据第五代(5G)蜂窝标准接收多个音频流。

示例35A.根据示例33A的方法，其中接收多个音频流包括根据个人区域网标准接收多个音频流。

示例36A.根据示例19A-示例35A的任何组合的方法，还包括基于扬声器馈送再现由该音频流的子集表示的声场中的一个或多个声场。

示例37A.一种被配置为播放多个音频流中的一个或多个音频流的设备，该设备包括：用于存储该多个音频流和对应的音频元数据的部件，每个音频流表示一个声场，并且音频元数据包括表示该多个音频流中的对应一个音频流在显示世界中被捕获的捕获位置的捕获位置信息；以及用于确定表示该设备在显示世界中的虚拟位置的虚拟位置信息的部件；用于基于该虚拟位置信息和捕获位置信息，选择多个音频流的子集的部件，该多个音频流的所述子集不包括该多个音频流中的至少一个音频流；以及用于基于该多个音频流的子集再现相应的声场的部件。

示例38A.根据示例37A的设备，其中，用于选择多个音频流的子集的部件包括：用于基于位置信息和包括在多个音频流的至少一个音频流的元数据中的捕获位置信息来确定接近距离的部件；以及用于基于该接近距离选择该多个音频流的子集的部件。

示例39A.根据示例37A和示例38A的任何组合的设备，其中用于选择多个音频流的子集的部件包括：用于确定由位置信息表示的该设备在显示世界中的设备坐标与由捕获位置信息表示的每个捕获坐标之间的接近距离，以获得多个接近距离的部件；以及用于基于该多个接近距离选择多个音频流的子集的部件。

示例40A.根据示例38A和示例39A的任何组合的设备，其中用于选择多个音频流的子集的部件包括：用于将该接近距离与阈值接近距离进行比较的部件；以及用于当该接近距离小于或等于阈值接近距离时，与接近距离大于阈值接近距离时相比，选择更大数量的多个音频流，以获得多个音频流的子集的部件。

示例41A.根据示例38A和示例39A的任何组合的设备，其中用于选择多个音频流的子集的部件包括：用于将该接近距离与阈值接近距离进行比较的部件；以及用于当该接近距离大于阈值接近距离时，与接近距离小于或等于阈值接近距离时相比，选择更小数量的多个音频流，以获得多个音频流的子集的部件。

示例42A.根据示例37A-示例41A的任何组合的设备，还包括：用于获得新音频流和对应的新音频元数据的部件，新音频元数据包括表示在该新音频流被捕获的显示世界中的捕获坐标的捕获位置信息；以及用于更新多个音频流以包括该新音频流的部件。

示例43A.根据示例37A-示例42A的任何组合的设备，其中用于确定虚拟位置信息的部件包括：用于基于多个音频流，确定表示由该多个音频流表示的公共声场的能量的能量图的部件；以及用于基于该能量图、虚拟位置信息和捕获位置信息确定多个音频流的子集的部件。

示例44.根据示例43A的设备，其中用于选择多个音频流的子集的部件包括：用于分析能量图以确定音频源在公共声场中的音频流坐标的部件；以及用于基于音频源位置、位置信息和捕获位置信息确定多个音频流的子集的部件。

示例45A.根据示例44的设备，其中用于选择多个音频流的子集的部件包括：用于将音频流坐标与设备的设备坐标之间的距离确定为音频源距离的部件；用于将音频源距离与音频源距离阈值进行比较的部件；以及用于当音频源距离大于音频源距离阈值时，选择多个音频流中的单个音频流作为该多个音频流的子集的部件，该单个音频流是该多个音频流中具有到该设备的虚拟位置最近的捕获位置的一个音频流。

示例46A.根据示例44A的设备，其中用于选择多个音频流的子集的部件包括：用于将音频流坐标与设备的设备坐标之间的距离确定为音频源距离的部件；用于将音频源距离与音频源距离阈值进行比较的部件；以及用于当音频源距离小于或等于音频源距离阈值时，选择多个音频流中的多于一个音频流作为该多个音频流的子集的部件，该多于一个音频流是具有环绕该设备的虚拟位置的相应捕获位置的该多个音频流的子集。

示例47A.根据示例37A-示例46A的任何组合的设备，其中该设备包括扩展现实头戴设备，并且其中显示世界包括由相机捕获的视频数据表示的场景。

示例48A.根据示例37A-示例46A的任何组合的设备，其中该设备包括扩展现实头戴设备，并且其中显示世界包括虚拟世界。

示例49A.根据示例37A-示例48A的任何组合的设备，还包括用于呈现显示世界的部件。

示例50A.根据示例37A-示例48A的任何组合的设备，其中该设备包括移动手机。

示例51A.根据示例37A-示例50A的任何组合的设备，还包括用于接收多个音频流的部件。

示例52A.根据示例51A的设备，其中用于接收多个音频流的部件包括：用于根据第五代(5G)蜂窝标准接收多个音频流的部件。

示例53A.根据示例51A的设备，其中用于接收多个音频流的部件包括：用于根据个人区域网标准接收多个音频流的部件。

示例54A.根据示例37A-示例53A的任何组合的设备，还包括用于基于扬声器馈送再现由该音频流的子集表示的声场中的一个或多个声场的部件。

示例55A.一种具有在其上存储指令的非暂时性计算机可读存储介质，该指令在执行时使一个或多个处理器：存储多个音频流和对应的音频元数据，每个音频流表示一个声场，该音频元数据包括表示显示世界中该多个音频流中的对应一个音频流被捕获的捕获位置的捕获位置信息；与头戴显示器连接以呈现该显示世界；确定表示该设备在显示世界中的虚拟位置的虚拟位置信息；基于该虚拟位置信息和捕获位置信息，选择多个音频流的子集，该多个音频流的子集不包括该多个音频流中的至少一个音频流；以及基于该多个音频流的子集再现相应的声场。

示例1B.一种被配置为播放多个音频流中的一个或多个音频流的设备，该设备包括：存储器，其被配置为存储多个音频流和对应的音频元数据，每个音频流表示一个声场，并且音频元数据包括表示在显示世界中该多个音频流中的相应一个音频流被捕获的捕获坐标的捕获位置信息；以及耦合到存储器并且被配置为进行以下操作的一个或多个处理器：确定表示该设备在显示世界中的设备坐标的虚拟位置信息；将音频源距离确定为音频流坐标与该设备的设备坐标之间的距离；将音频源距离与音频源距离阈值进行比较；当音频源距离大于音频源距离阈值时，选择多个音频流中的单个音频流；以及基于该单个音频流而输出一个或多个扬声器馈送。

示例2B.根据示例1B的设备，其中音频源距离阈值由用户提供。

示例3B.根据示例1B的设备，其中音频源距离阈值是预定的。

示例4B.根据示例1B的设备，其中音频源距离阈值是在比特流中接收到的。

示例5B.根据示例1B-示例4B的任何组合的设备，其中音频源距离是第一音频源距离，音频流坐标是第一音频流坐标，音频源距离阈值是第一音频源距离阈值，并且单个音频流是第一单个音频流，并且一个或多个处理器还被配置为：将第二音频源距离确定为第二音频流坐标与该设备的设备坐标之间的距离；将第二音频源距离与第二音频源距离阈值进行比较；当音频源距离处于第一音频源距离阈值和第二音频源阈值之间时，选择多个音频流中的第一单个音频流和多个音频流中的第二单个音频流；以及基于该第一单个音频流和第二单个音频流而输出一个或多个扬声器馈送。

示例6B.根据示例5B的设备，其中一个或多个处理器还被配置为：将第一单个音频流和第二单个音频流进行组合。

示例7B.根据示例6B的设备，其中一个或多个处理器被配置为：通过对第一单个音频流和第二单个音频流进行自适应混合或基于第一单个音频流和第二单个音频流对第三音频流进行内插中的至少一个来对该第一单个音频流和第二单个音频流进行组合。

示例8B.根据示例6B或7B的设备，其中一个或多个处理器被配置为：通过将函数F(x)应用于第一单个音频流和第二单个音频流来对该第一单个音频流和第二单个音频流进行组合。

示例9B.根据示例6B-示例8B的任何组合的设备，其中一个或多个处理器还被配置为：确定虚拟位置信息是否在预定时间段内相对于第一音频源距离阈值和第二音频源距离阈值是稳定的；以及基于该虚拟位置在预定时间段内相对于第一音频源距离阈值和第二音频源距离阈值是稳定的，选择第一单个音频流、第一单个音频流和第二单个音频流，或第二单个音频流。

示例10B.根据示例5B的设备，其中一个或多个处理器还被配置为：当第二音频源距离大于第二音频源阈值时，选择多个音频流中的第二单个音频流；以及基于该第二单个音频流输出一个或多个扬声器馈送。

示例11B.根据示例1B-示例10B的任何组合的设备，其中一个或多个处理器还被配置为：基于虚拟位置信息改变而选择不同的音频流。

示例12B.根据示例1B-示例4B的任何组合的设备，其中一个或多个处理器还被配置为：基于表示等于音频源距离阈值的虚拟位置信息而向用户提供警报。

示例13B.根据示例12B的设备，其中该警报是可视警报或听觉警报中的至少一个。

示例14B.根据示例1B-示例13B的任何组合的设备，其中该设备包括扩展现实头戴设备，并且其中显示世界包括虚拟世界。

示例15B.根据示例1B-示例13B的任何组合的设备，还包括配置为呈现显示世界和图形用户界面的头戴式显示器。

示例16B.根据示例1B-示例13B的任何组合的设备，其中该设备包括移动手机。

示例17B.根据示例1B-示例16B的任何组合的设备，还包括被配置为接收多个音频流的接收器。

示例18B.根据示例17B的设备，其中接收器包括被配置为根据第五代(5G)蜂窝标准接收多个音频流的接收器。

示例19B.根据示例17B的设备，其中接收器包括被配置为根据个人区域网标准接收多个音频流的接收器。

示例20B.一种方法，包括：由存储器存储多个音频流和对应的音频元数据，每个音频流表示一个声场，并且音频元数据包括表示在显示世界中该多个音频流中的相应一个被捕获的捕获坐标的捕获位置信息；由一个或多个处理器确定表示设备在显示世界中的设备坐标的虚拟位置信息；由一个或多个处理器将该虚拟位置信息与音频源距离阈值进行比较；由一个或多个处理器在音频源距离大于音频源距离阈值时，选择多个音频流中的单个音频流；以及由该一个或多个处理器并基于该单个音频流输出一个或多个扬声器馈送。

示例21B.根据示例20B的方法，其中音频源距离阈值由用户提供。

示例22B.根据示例20B的方法，其中音频源距离阈值是预定的。

示例23B.根据示例20B的方法，其中音频源距离阈值是在比特流中接收到的。

示例24B.根据示例20B-示例23B的任何组合的方法，其中音频源距离是第一音频源距离，音频流坐标是第一音频流坐标，音频源距离阈值是第一音频源距离阈值，并且单个音频流是第一单个音频流，并且该方法还包括：由一个或多个处理器将第二音频源距离确定为第二音频流坐标与该设备的设备坐标之间的距离；由一个或多个处理器将第二音频源距离与第二音频源距离阈值进行比较；由一个或多个处理器并且在音频源距离处于第一音频源距离阈值和第二音频源阈值之间时，选择多个音频流中的第一单个音频流和多个音频流中的第二单个音频流；以及由一个或多个处理器并且基于该第一单个音频流和第二单个音频流而输出一个或多个扬声器馈送。

示例25B.根据示例24B的方法，还包括由一个或多个处理器对第一单个音频流和第二单个音频流进行组合。

示例26B.根据示例25B的方法，其中所述组合包括以下至少一个：通过对第一单个音频流和第二单个音频流进行自适应混合或者基于第一单个音频流和第二单个音频流对第三音频流进行内插。

示例27B.根据示例25B或26B的方法，其中该组合包括将函数F(x)应用于第一单个音频流和第二单个音频流。

示例28B.根据示例24B-示例27B的任何组合的方法，还包括：由一个或多个处理器确定虚拟位置信息是否在预定时间段内相对于第一音频源距离阈值和第二音频源距离阈值是稳定的；以及基于该虚拟位置在预定时间段内相对于第一音频源距离阈值和第二音频源距离阈值是稳定的，由一个或多个处理器选择第一单个音频流、第一单个音频流和第二单个音频流，或第二单个音频流。

示例29B.根据示例24B的方法，还包括：当第二音频源距离大于第二音频源阈值时，选择多个音频流中的第二单个音频流；以及基于该第二单个音频流输出一个或多个扬声器馈送。

示例30B.根据示例20B-示例29B的任何组合的方法，还包括由一个或多个处理器基于虚拟位置信息改变而选择不同的音频流。

示例31B.根据示例20B-示例30B的任何组合的方法，还包括：基于等于音频源距离阈值的虚拟位置信息而向用户提供警报。

示例32B.根据示例31B的方法，其中该警报是可视警报或听觉警报中的至少一个。

示例33B.一种其上存储有指令的非暂时性计算机可读存储介质，当指令被执行时使一个或多个处理器：存储多个音频流和对应的音频元数据，每个音频流表示一个声场，并且音频元数据包括表示在显示世界中该多个音频流中的相应一个音频流被捕获的捕获坐标的捕获位置信息；确定表示该设备在显示世界中的设备坐标的虚拟位置信息；将音频源距离确定为音频流坐标与该设备的设备坐标之间的距离；将音频源距离与音频源距离阈值进行比较；当音频源距离大于音频源距离阈值时，选择该多个音频流中的单个音频流；以及基于该单个音频流而输出一个或多个扬声器馈送。

示例34B.一种设备，包括：用于存储多个音频流和对应的音频元数据的部件，每个音频流表示一个声场，并且音频元数据包括表示在显示世界中该多个音频流中的相应一个被捕获的捕获坐标的捕获位置信息；用于确定表示设备在显示世界中的设备坐标的虚拟位置信息的部件；用于将该虚拟位置信息与音频源距离阈值进行比较的部件；用于当音频源距离大于音频源距离阈值时，选择多个音频流中的单个音频流的部件；以及用于基于该单个音频流输出一个或多个扬声器馈送的部件。

示例1C.一种被配置为播放多个音频流中的一个或多个音频流的内容消费者设备，该内容消费者设备包括：存储器，其被配置为存储多个音频流和与该多个音频流相关联的音频位置信息，该音频位置信息表示捕获音频流的声学空间中的音频流坐标或者合成音频流的虚拟声学空间中的音频流坐标或两者，每个音频流表示一个声场；以及耦合到存储器并且被配置为进行以下操作的一个或多个处理器：确定表示该内容消费者设备在声学空间中的设备坐标的设备位置信息；基于设备位置信息和音频位置信息，选择多个音频流的子集，该多个音频流的子集不包括该多个音频流中的至少一个音频流；以及基于该多个音频流的子集输出一个或多个扬声器馈送。

示例2C.根据示例1C的内容消费者设备，其中，一个或多个处理器还被配置为：基于设备位置信息和音频位置信息来为多个音频流的至少一个音频流确定接近距离；以及基于该接近距离选择该多个音频流的子集。

示例3C.根据示例2C的内容消费者设备，其中一个或多个处理器被配置为：将该接近距离与阈值接近距离进行比较；以及当该接近距离小于或等于阈值接近距离时，与接近距离大于阈值接近距离时相比，选择更大数量的多个音频流，以获得多个音频流的子集。

示例4C.根据示例2C-示例3C的任何组合的内容消费者设备，其中一个或多个处理器被配置为：将该接近距离与阈值接近距离进行比较；以及当该接近距离大于阈值接近距离时，与接近距离小于或等于阈值接近距离时相比，选择更小数量的多个音频流，以获得多个音频流的子集。

示例5C.根据示例1C-示例4C的任何组合的内容消费者设备，其中一个或多个处理器还被配置为：获得新音频流和对应的新音频位置信息；以及更新该多个音频流的子集以包括该新音频流。

示例6C.根据示例1C-示例5C的任何组合的内容消费者设备，其中一个或多个处理器还被配置为：基于多个音频流，确定表示由该多个音频流表示的公共声场的能量的能量图；以及基于该能量图、设备位置信息和音频位置信息确定多个音频流的子集。

示例7C.根据示例6C的内容消费者设备，其中一个或多个处理器还被配置为：分析能量图以确定音频流在公共声场中的音频源位置；以及基于该音频源位置、设备位置信息和音频位置信息确定多个音频流的子集。

示例8C.根据示例7C的内容消费者设备，其中一个或多个处理器还被配置为：将音频源距离确定为音频源位置与设备坐标之间的距离；将该音频源距离与音频源距离阈值进行比较；以及当音频源距离大于音频源距离阈值时，选择多个音频流中的单个音频流作为该多个音频流的子集，该单个音频流与具有到设备坐标的最短距离的音频流坐标相关联。

示例9C.根据示例7C的内容消费者设备，其中一个或多个处理器被配置为：将音频源距离确定为音频源位置与设备坐标之间的距离；将音频源距离与音频源距离阈值进行比较；以及当音频源距离小于或等于音频源距离阈值时，选择多个音频流中的多于一个音频流作为该多个音频流的子集，该多于一个音频流是具有环绕该设备坐标的音频流坐标的该多个音频流的子集。

示例10C.根据示例1C-示例9C的任何组合的内容消费者设备，其中一个或多个处理器还被配置为：将第一音频源距离确定为第一音频流的第一音频流坐标与设备坐标之间的距离；将第一音频源距离与第一音频源距离阈值进行比较；当第一音频源距离小于或等于第一音频源距离阈值时，选择多个音频流中的第一音频流；以及基于该第一音频流输出一个或多个扬声器馈送，其中该第一音频流是所选择的唯一音频流。

示例11C.根据示例10C的内容消费者设备，其中一个或多个处理器还被配置为：将第二音频源距离确定为第二音频流的第二音频流坐标与设备坐标之间的距离；将第二音频源距离与第二音频源距离阈值进行比较；当第一音频源距离大于第一音频源距离阈值并且第二音频源距离大于第二音频源距离阈值时，选择多个音频流中的第一音频流和多个音频流中的第二音频流；以及基于该第一音频流和第二音频流而输出一个或多个扬声器馈送。

示例12C.根据示例11C的内容消费者设备，其中一个或多个处理器被配置为：通过对第一音频流和第二音频流进行自适应混合或基于第一音频流和第二音频流对第三音频流进行内插中的至少一个来对第一音频流和第二音频流进行组合。

示例13C.根据示例12C的内容消费者设备，其中一个或多个处理器被配置为：通过将函数F(x)应用于第一音频流和第二音频流来对第一音频流和第二音频流进行组合。

示例14C.根据示例11C-示例13C的任何组合的内容消费者设备，其中一个或多个处理器还被配置为：确定设备坐标是否在预定时间段内相对于第一音频源距离阈值和第二音频源距离阈值是稳定的；以及基于该设备坐标在预定时间段内相对于第一音频源距离阈值和第二音频源距离阈值是稳定的，选择第一音频流、第一音频流和第二音频流，或第二音频流。

示例15C.根据示例11C-示例14C的任何组合的内容消费者设备，其中一个或多个处理器还被配置为：当第二音频源距离小于或等于第二音频源阈值时，选择多个音频流中的第二音频流；以及基于该第二音频流而输出一个或多个扬声器馈送，其中该第二音频流是所选择的唯一音频流。

示例16C.根据示例11C-示例15C的任何组合的内容消费者设备，其中一个或多个处理器还被配置为：基于设备坐标改变而选择不同的音频流。

示例17C.根据示例10C-示例16C的任何组合的内容消费者设备，其中一个或多个处理器还被配置为：基于第一音频源距离等于第一音频源距离阈值而向用户提供警报，其中该警报是可视警报、听觉警报或触觉警报中的至少一个。

示例18C.根据示例1C-示例17C的任何组合的内容消费者设备，其中声学空间中的音频流坐标或虚拟声学空间中的音频流坐标是与对应的音频流被捕获或合成相关的显示世界中的坐标。

示例19C.根据示例18C的内容消费者设备，其中该内容消费者设备包括扩展现实头戴设备，并且其中显示世界包括由相机捕获的视频数据表示的场景。

示例20C.根据示例19C的内容消费者设备，其中该内容消费者设备包括扩展现实头戴设备，并且其中显示世界包括虚拟世界。

示例21C.根据示例1C-示例20C的任何组合的内容消费者设备，其中该内容消费者设备包括移动手机。

示例22C.根据示例1C-示例21C的任何组合的内容消费者设备，还包括被配置为无线接收多个音频流的收发器，其中该收发器被配置为根据第五代(5G)蜂窝标准、个人区域网标准或局域网标准中的至少一个标准无线接收多个音频流。

示例23C.根据示例1C-示例22C的任何组合的内容消费者设备，其中一个或多个处理器还被配置为：响应于该选择而仅对多个音频流的子集进行解码。

示例24C.根据示例1C-示例23C的任何组合的内容消费者设备，其中一个或多个处理器还被配置为：将音频源距离确定为声学空间中的音频源与设备坐标之间的距离；将音频源距离与音频源距离阈值进行比较；以及当音频源距离大于音频源距离阈值时，选择多个音频流中的单个音频流作为该多个音频流的子集，该单个音频流具有最短的音频源距离。

示例25C.一种播放多个音频流的一个或多个音频流的方法，该方法包括：由内容消费者设备的存储器存储多个音频流和与该多个音频流相关联的音频位置信息，该音频位置信息表示捕获音频流的声学空间中的音频流坐标或者合成音频流的虚拟声学空间中的音频流坐标或两者，每个音频流表示一个声场；以及由内容消费者设备的一个或多个处理器确定表示该内容消费者设备在声学空间中的设备坐标的设备位置信息；由一个或多个处理器并且基于该设备位置信息和音频位置信息，选择多个音频流的子集，该多个音频流的所述子集不包括该多个音频流中的至少一个音频流；以及由一个或多个处理器并且基于该多个音频流的子集输出一个或多个扬声器馈送。

示例26C.根据示例25C的方法，其中选择多个音频流的子集包括：基于设备位置信息和音频位置信息来为多个音频流的至少一个音频流确定接近距离；以及基于该接近距离选择该多个音频流的子集。

示例27C.根据示例26C的方法，其中选择多个音频流的子集包括：将该接近距离与阈值接近距离进行比较；以及当该接近距离小于或等于阈值接近距离时，与接近距离大于阈值接近距离时相比，选择更大数量的多个音频流，以获得多个音频流的子集。

示例28C.根据示例25C-示例27C的任何组合的方法，其中选择多个音频流的子集包括：将该接近距离与阈值接近距离进行比较；以及当该接近距离大于阈值接近距离时，与接近距离小于或等于阈值接近距离时相比，选择更小数量的多个音频流，以获得多个音频流的子集。

示例29C.根据示例25C-示例28C的任何组合的方法，还包括：获得新音频流和对应的新音频位置信息；以及更新该多个音频流的子集以包括该新音频流。

示例30C.根据示例25C-示例29C的任何组合的方法，还包括：由一个或多个处理器并且基于多个音频流，确定表示由该多个音频流表示的公共声场的能量的能量图；以及由一个或多个处理器基于该能量图、设备位置信息和音频位置信息确定多个音频流的子集。

示例31C.根据示例30C的方法，其中选择多个音频流的子集包括：分析能量图以确定音频源在公共声场中的音频流坐标；以及基于音频源坐标、位置信息和音频位置信息确定多个音频流的子集。

示例32C.根据示例31C的方法，其中选择多个音频流的子集包括：将音频源距离确定为音频流坐标与设备坐标之间的距离；将音频源距离与音频源距离阈值进行比较；以及当音频源距离大于音频源距离阈值时，选择多个音频流中的单个音频流作为该多个音频流的子集，该单个音频流具有最短的音频源距离。

示例33C.根据示例31C的方法，其中选择多个音频流的子集包括：将音频源距离确定为音频流坐标与设备坐标之间的距离；将音频源距离与音频源距离阈值进行比较；以及当音频源距离小于或等于音频源距离阈值时，选择多个音频流中的多于一个音频流作为该多个音频流的子集，该多于一个音频流是具有环绕该设备坐标的音频流坐标的该多个音频流的子集。

示例34C.根据示例25C-示例33C的任何组合的方法，还包括：由一个或多个处理器将第一音频源距离确定为第一音频流的第一音频流坐标与设备坐标之间的距离；由一个或多个处理器将第一音频源距离与第一音频源距离阈值进行比较；由一个或多个处理器在第一音频源距离小于或等于第一音频源距离阈值时，选择多个音频流中的第一音频流；以及由一个或多个处理器基于该第一音频流输出一个或多个扬声器馈送，其中该第一音频流是所选择的唯一音频流。

示例35C.根据示例34C的方法，还包括：由一个或多个处理器将第二音频源距离确定为第二音频流的第二音频流坐标与设备坐标之间的距离；由一个或多个处理器将第二音频源距离与第二音频源距离阈值进行比较；由一个或多个处理器在第一音频源距离大于第一音频源距离阈值并且第二音频源距离大于第二音频源距离阈值时，选择多个音频流中的第一音频流和多个音频流中的第二音频流；以及由一个或多个处理器基于该第一音频流和第二音频流而输出一个或多个扬声器馈送。

示例36C.根据示例35C的方法，还包括：由一个或多个处理器通过对第一音频流和第二音频流进行自适应混合或基于第一音频流和第二音频流对第三音频流进行内插中的至少一个来对第一音频流和第二音频流进行组合。

示例37C.根据示例35C的方法，其中该组合包括：将函数F(x)应用于第一音频流和第二音频流。

示例38C.根据示例35C-示例37C的任何组合的方法，还包括：由一个或多个处理器确定设备坐标信息是否在预定时间段内相对于第一音频源距离阈值和第二音频源距离阈值是稳定的；以及基于该设备坐标在预定时间段内相对于第一音频源距离阈值和第二音频源距离阈值是稳定的，由一个或多个处理器选择第一单个音频流、第一单个音频流和第二单个音频流，或第二单个音频流。

示例39C.根据示例35C-示例38C的任何组合的方法，还包括：由一个或多个处理器并且在第二音频源距离小于或等于第二音频源阈值时，选择多个音频流中的第二音频流；以及基于该第二音频流而输出一个或多个扬声器馈送，其中该第二音频流是所选择的唯一音频流。

示例40C.根据示例35C-示例39C的任何组合的方法，还包括：由一个或多个处理器基于设备坐标改变而选择不同的音频流。

示例41C.根据示例34C-40C的方法，还包括：基于第一音频源距离等于第一音频源距离阈值而向用户提供警报，其中所述警报是可视警报、听觉警报或触觉警报中的至少一个。

示例42C.根据示例25C-示例41C的任何组合的方法，其中内容消费者设备包括扩展现实头戴设备，并且其中显示世界包括由相机捕获的视频数据表示的场景。

示例43C.根据示例25C-示例41C的任何组合的方法，其中内容消费者设备包括扩展现实头戴设备，并且其中显示世界包括虚拟世界。

示例44C.根据示例25C-示例43C的任何组合的方法，其中内容消费者设备包括移动手机。

示例45C.根据示例25C-示例44C的任何组合的方法，还包括：通过内容消费者设备的收发器模块无线接收多个音频流，其中无线接收多个音频流包括根据第五代(5G)蜂窝标准、个人区域网标准或局域网标准无线接收多个音频流。

示例46C.根据示例25C-示例45C的任何组合的方法，还包括：响应于该选择，由一个或多个处理器仅对多个音频流的子集进行解码。

示例47C.根据示例25C-示例46C的任何组合的方法，还包括：由一个或多个处理器将音频源距离确定为声学空间中的音频源与设备坐标之间的距离；有一个或多个处理器将音频源距离与音频源距离阈值进行比较；以及由一个或多个处理器在音频源距离大于音频源距离阈值时，选择多个音频流中的单个音频流作为该多个音频流的子集，该单个音频流具有最短的音频源距离。

示例48C.一种被配置为播放多个音频流中的一个或多个音频流的内容消费者设备，该内容消费者设备包括：用于存储多个音频流和与该多个音频流相关联的音频位置信息的部件，该音频位置信息表示捕获音频流的声学空间中的音频流坐标或者合成音频流的虚拟声学空间中的音频流坐标或两者，每个音频流表示一个声场；以及用于确定表示该内容消费者设备在声学空间中的设备坐标的设备位置信息的部件；用于基于设备位置信息和音频位置信息，选择多个音频流的子集的部件，该多个音频流的子集不包括该多个音频流中的至少一个音频流；以及用于基于该多个音频流的子集输出一个或多个扬声器馈送的部件。

示例49C.一种一种具有在其上存储指令的非暂时性计算机可读存储介质，该指令被执行时使内容消费者设备的一个或多个处理器：存储多个音频流和与该多个音频流相关联的音频位置信息，该音频位置信息表示捕获音频流的声学空间中的音频流坐标或者合成音频流的虚拟声学空间中的音频流坐标或两者，每个音频流表示一个声场；以及确定表示该内容消费者设备在声学空间中的设备坐标的设备位置信息；基于设备位置信息和音频位置信息，选择多个音频流的子集，该多个音频流的子集不包括该多个音频流中的至少一个音频流；以及基于该多个音频流的子集输出一个或多个扬声器馈送。

应当认识到，取决于示例，本发明中描述的任何技术的某些动作或事件可以以不同的顺序执行，可以被添加、合并或完全省略(例如，并非所有描述的动作或事件是实施该技术所必需的)。此外，在某些示例中，动作或事件可以例如通过多线程处理、中断处理或多个处理器并发地而不是顺序地执行。

在一些示例中，VR设备(或流媒体设备)可以使用耦合到VR/流媒体设备的存储器的网络接口通信，以将消息交换到外部设备，其中该交换消息与多个可用的声场的表示相关联。在一些实施例中，VR设备可以使用耦合到网络接口的天线接收无线信号，包括数据包、音频包、视频包或与多个可用的声场的表示相关联的传输协议数据。在一些示例中，一个或多个麦克风阵列可以捕捉该声场。

在一些示例中，存储在存储设备上的声场的多个可用表示可以包括声场的多个基于对象的表示、声场的高阶立体混响表示、声场的混合阶立体混响表示、声场的基于对象的表示与声场的高阶立体混响表示的组合、声场的基于对象的表示与声场的混合阶立体混响表示的组合、或者声场的混合阶表示与声场的高阶立体混响表示的组合。

在一些示例中，该多个可用的声场的表示的一个或多个声场表示可以包括至少一个高分辨率区域和至少一个较低分辨率区域，并且其中，基于转向角度所选择的展示相对于至少一个高分辨率区域提供较高的空间精度，并且相对于较低分辨率区域提供较小的空间精度。

在一个或多个示例中，可以以硬件、软件、固件或其任何组合来实现所描述的功能。当以软件实现时，则功能可以作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质发送，并由基于硬件的处理单元执行。计算机可读介质可以包括计算机可读存储介质，其对应于诸如数据存储介质的有形介质，或者通信介质，包括例如根据通信协议来促进将计算机程序从一个地方转移到另一个地方的任何介质。以这种方式，计算机可读介质通常可以对应于(1)非暂时性的有形计算机可读存储介质，或者(2)诸如信号或载波的通信介质。数据存储介质可以是可以由一个或多个计算机或一个或多个处理器访问以检索指令、代码和/或数据结构以实现本发明中描述的技术的任何可用介质。计算机程序产品可以包括计算机可读介质。

作为示例而非限制，这种计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储设备、闪存或任何其它可以用于以指令或数据结构形式存储所需程序代码并且可以由计算机访问的其它介质。而且，任何连接都适当地称为计算机可读介质。例如，如果使用同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或无线技术(诸如红外、无线电和微波)从网站、服务器或其它远程源发送指令，则介质的定义包括同轴电缆、光纤电缆、双绞线、DSL或诸如红外、无线电和微波的无线技术。然而，应当理解，计算机可读存储介质和数据存储介质不包括连接、载波、信号或其它暂时性介质，而是针对非暂时的有形存储介质。本发明中使用的磁盘和光盘包括光盘(CD)、激光光盘、光学盘、数字多功能光盘(DVD)、软盘和蓝光光盘，其中磁盘通常以磁性方式再现数据，而光盘则通过激光光学方式再现数据。上述的组合也应包括在计算机可读介质的范围内。

指令可以由一个或多个处理器执行，诸如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它等效的集成或分立逻辑电路。因此，如本发明中所使用的术语“处理器”可以是指任何前述结构或适合于实现本发明中描述的技术的任何其它结构。另外，在一些方面，本发明中描述的功能可以在被配置用于编码和解码或结合在组合编解码器中的专用硬件和/或软件模块内提供。同样，该技术可以在一个或多个电路或逻辑元件中完全实现。

本公开的技术可以在包括无线手机、集成电路(IC)或一组IC(例如，芯片组)的多种设备或装置中实现。在本发明中描述各种组件、模块或单元以强调被配置为执行所公开的技术的设备的功能方面，但不一定需要由不同硬件单元来实现。而是，如上所述，各种单元可以组合在编解码器硬件单元中，或者由互操作硬件单元的集合来提供，包括与适用的软件和/或固件结合的如上所述的一个或多个处理器。

已经描述了各种示例。这些和其它示例在下面所附权利要求的范围内。

Claims

1.一种内容消费者设备，被配置为播放多个音频流中的一个或多个音频流，所述内容消费者设备包括：

存储器，被配置为存储所述多个音频流和与所述多个音频流相关联的音频位置信息，所述音频位置信息表示捕获音频流的声学空间中的音频流坐标或者合成音频流的虚拟声学空间中的音频流坐标或两者，每个所述音频流表示一个声场；以及

耦合到所述存储器并且被配置为进行以下操作的一个或多个处理器：

确定表示所述内容消费者设备在所述声学空间中的设备坐标的设备位置信息；

基于所述设备位置信息和所述音频位置信息，选择所述多个音频流的子集，所述多个音频流的所述子集不包括所述多个音频流中的至少一个音频流；以及

基于所述多个音频流的所述子集输出一个或多个扬声器馈送。

2.根据权利要求1所述的内容消费者设备，其中所述一个或多个处理器还被配置为：

基于所述设备位置信息和所述音频位置信息为所述多个音频流中的至少一个音频流确定接近距离；以及

基于所述接近距离选择所述多个音频流的所述子集。

3.根据权利要求2所述的内容消费者设备，其中所述一个或多个处理器被配置为：

将所述接近距离与阈值接近距离进行比较；以及

当所述接近距离小于或等于阈值接近距离时，与所述接近距离大于所述阈值接近距离时相比，选择更大数量的所述多个音频流，以获得所述多个音频流的所述子集。

4.根据权利要求2所述的内容消费者设备，其中所述一个或多个处理器被配置为：

将所述接近距离与阈值接近距离进行比较；以及

当所述接近距离大于阈值接近距离时，与所述接近距离小于或等于所述阈值接近距离时相比，选择更小数量的所述多个音频流，以获得所述多个音频流的所述子集。

5.根据权利要求1所述的内容消费者设备，其中所述一个或多个处理器还被配置为：

获得新音频流和对应的新音频位置信息；以及

更新所述多个音频流的所述子集以包括所述新音频流。

6.根据权利要求1所述的内容消费者设备，其中所述一个或多个处理器还被配置为：

基于所述多个音频流，确定表示由所述多个音频流表示的公共声场的能量的能量图；以及

基于所述能量图、所述设备位置信息和所述音频位置信息确定所述多个音频流的所述子集。

7.根据权利要求6所述的内容消费者设备，其中所述一个或多个处理器还被配置为：

分析所述能量图以确定音频流在所述公共声场中的音频源位置；以及

基于所述音频源位置、所述设备位置信息和所述音频位置信息确定所述多个音频流的子集。

8.根据权利要求7所述的内容消费者设备，其中所述一个或多个处理器还被配置为：

将音频源距离确定为所述音频源位置与所述设备坐标之间的距离；

将所述音频源距离与音频源距离阈值进行比较；以及

当所述音频源距离大于所述音频源距离阈值时，选择所述多个音频流中的单个音频流作为所述多个音频流的所述子集，所述单个音频流与具有到所述设备坐标的最短距离的所述音频流坐标相关联。

9.根据权利要求7所述的内容消费者设备，其中所述一个或多个处理器被配置为：

将所述音频源距离与音频源距离阈值进行比较；以及

当所述音频源距离小于或等于所述音频源距离阈值时，选择所述多个音频流中的多于一个音频流作为所述多个音频流的所述子集，所述多于一个音频流是具有围绕所述设备坐标的所述音频流坐标的所述多个音频流的所述子集。

10.根据权利要求1所述的内容消费者设备，其中所述一个或多个处理器还被配置为：

将第一音频源距离确定为第一音频流的第一音频流坐标与所述设备坐标之间的距离；

将所述第一音频源距离与第一音频源距离阈值进行比较；

当所述第一音频源距离小于或等于所述第一音频源距离阈值时，选择所述多个音频流中的所述第一音频流；以及

基于所述第一音频流而输出一个或多个扬声器馈送，

其中所述第一音频流是所选择的唯一音频流。

11.根据权利要求10所述的内容消费者设备，其中所述一个或多个处理器还被配置为：

将第二音频源距离确定为第二音频流的第二音频流坐标与所述设备坐标之间的距离；

将所述第二音频源距离与第二音频源距离阈值进行比较；

当所述第一音频源距离大于所述第一音频源距离阈值且所述第二音频源距离大于所述第二音频源距离阈值时，选择所述多个音频流中的所述第一音频流和所述多个音频流中的所述第二音频流；以及

基于所述第一音频流和所述第二音频流而输出一个或多个扬声器馈送。

12.根据权利要求11所述的内容消费者设备，其中所述一个或多个处理器被配置为：通过对所述第一音频流和所述第二音频流进行自适应混合或基于所述第一音频流和所述第二音频流对第三音频流进行内插中的至少一个来对所述第一音频流和所述第二音频流进行组合。

13.根据权利要求12所述的内容消费者设备，其中所述一个或多个处理器被配置为：通过将函数F(x)应用于所述第一音频流和所述第二音频流来对所述第一音频流和所述第二音频流进行组合。

14.根据权利要求11所述的内容消费者设备，其中所述一个或多个处理器还被配置为：

确定所述设备坐标是否在预定时间段内相对于所述第一音频源距离阈值和所述第二音频源距离阈值是稳定的；以及

基于所述设备坐标在预定时间段内相对于所述第一音频源距离阈值和所述第二音频源距离阈值是稳定的，选择所述第一音频流、所述第一音频流和所述第二音频流，或者所述第二音频流。

15.根据权利要求11所述的内容消费者设备，其中所述一个或多个处理器还被配置为：

当所述第二音频源距离小于或等于所述第二音频源阈值时，选择所述多个音频流中的所述第二音频流；以及

基于所述第二音频流而输出一个或多个扬声器馈送，

其中所述第二音频流是所选择的唯一音频流。

16.根据权利要求11所述的内容消费者设备，其中所述一个或多个处理器还被配置为：基于设备坐标改变而选择不同的音频流。

17.根据权利要求10所述的内容消费者设备，其中所述一个或多个处理器还被配置为：基于所述第一音频源距离等于所述第一音频源距离阈值而向用户提供警报，其中所述警报是可视警报、听觉警报或触觉警报中的至少一个。

18.根据权利要求1所述的内容消费者设备，其中所述声学空间中的所述音频流坐标或所述虚拟声学空间中的所述音频流坐标是与对应的音频流被捕获或合成相关的显示世界中的坐标。

19.根据权利要求18所述的内容消费者设备，

其中所述内容消费者设备包括扩展现实头戴设备，以及

其中所述显示世界包括由相机捕获的视频数据所表示的场景。

20.根据权利要求18所述的内容消费者设备，

其中所述内容消费者设备包括扩展现实头戴设备，以及

其中所述显示世界包括虚拟世界。

21.根据权利要求1所述的内容消费者设备，其中所述内容消费者设备包括移动手机。

22.根据权利要求1所述的内容消费者设备，还包括被配置为无线接收所述多个音频流的收发器，其中所述收发器被配置为根据第五代(5G)蜂窝标准、个人区域网标准或局域网标准中的至少一个标准无线接收所述多个音频流。

23.根据权利要求1所述的内容消费者设备，其中所述一个或多个处理器还被配置为：响应于所述选择而仅对所述多个音频流的所述子集进行解码。

24.根据权利要求1所述的内容消费者设备，其中所述一个或多个处理器还被配置为：

将音频源距离确定为所述声学空间中的音频源与所述设备坐标之间的距离；

将所述音频源距离与音频源距离阈值进行比较；以及

当所述音频源距离大于所述音频源距离阈值时，选择所述多个音频流中的单个音频流作为所述多个音频流的所述子集，所述单个音频流具有最短的音频源距离。

25.一种播放多个音频流中的一个或多个音频流的方法，所述方法包括：

由内容消费者设备的存储器存储所述多个音频流和与所述多个音频流相关联的音频位置信息，所述音频位置信息表示捕获音频流的声学空间中的音频流坐标或者合成音频流的虚拟声学空间中的音频流坐标或两者，每个所述音频流表示一个声场；以及

由所述内容消费者设备的一个或多个处理器确定表示所述内容消费者设备在所述声学空间中的设备坐标的设备位置信息；

由所述一个或多个处理器并且基于所述设备位置信息和所述音频位置信息，选择所述多个音频流的子集，所述多个音频流的所述子集不包括所述多个音频流中的至少一个音频流；以及

由所述一个或多个处理器并且基于所述多个音频流的所述子集输出一个或多个扬声器馈送。

26.根据权利要求25所述的方法，其中选择所述多个音频流的所述子集包括：

基于所述接近距离选择所述多个音频流的所述子集。

27.根据权利要求26所述的方法，其中选择所述多个音频流的所述子集包括：

将所述接近距离与阈值接近距离进行比较；以及

28.根据权利要求26所述的方法，其中选择所述多个音频流的所述子集包括：

将所述接近距离与阈值接近距离进行比较；以及

29.根据权利要求25所述的方法，还包括：

获得新音频流和对应的新音频位置信息；以及

更新所述多个音频流的所述子集以包括所述新音频流。

30.根据权利要求25所述的方法，还包括：

由所述一个或多个处理器并且基于所述多个音频流，确定表示由所述多个音频流表示的公共声场的能量的能量图；以及

由所述一个或多个处理器并且基于所述能量图、所述设备位置信息和所述音频位置信息确定所述多个音频流的子集。

31.根据权利要求30所述的方法，其中选择所述多个音频流的所述子集包括：

分析所述能量图以确定音频源在所述公共声场中的音频流坐标；以及

基于所述音频源坐标、所述设备位置信息和所述音频位置信息确定所述多个音频流的所述子集。

32.根据权利要求31所述的方法，其中选择所述多个音频流的所述子集包括：

将音频源距离确定为所述音频流坐标与所述设备坐标之间的距离；

将所述音频源距离与音频源距离阈值进行比较；以及

33.根据权利要求31所述的方法，其中选择所述多个音频流的所述子集包括：

将所述音频源距离与音频源距离阈值进行比较；以及

当所述音频源距离小于或等于所述音频源距离阈值时，选择所述多个音频流中的多于一个音频流作为所述多个音频流的所述子集，所述多于一个音频流是具有围绕所述设备坐标的音频流坐标的所述多个音频流的所述子集。

34.根据权利要求25所述的方法，还包括：

由所述一个或多个处理器将第一音频源距离确定为第一音频流的第一音频流坐标与所述设备坐标之间的距离；

由所述一个或多个处理器将所述第一音频源距离与第一音频源距离阈值进行比较；

由所述一个或多个处理器在所述第一音频源距离小于或等于所述第一音频源距离阈值时，选择所述多个音频流中的所述第一音频流；以及

由所述一个或多个处理器基于所述第一音频流而输出一个或多个扬声器馈送，

其中所述第一音频流是所选择的唯一音频流。

35.根据权利要求34所述的方法，还包括：

由所述一个或多个处理器将第二音频源距离确定为第二音频流的第二音频流坐标与所述设备坐标之间的距离；

由所述一个或多个处理器将所述第二音频源距离与第二音频源距离阈值进行比较；

由所述一个或多个处理器在所述第一音频源距离大于所述第一音频源距离阈值且所述第二音频源距离大于所述第二音频源距离阈值时，选择所述多个音频流中的所述第一音频流和所述多个音频流中的所述第二音频流；以及

由所述一个或多个处理器基于所述第一音频流和所述第二音频流而输出一个或多个扬声器馈送。

36.根据权利要求35所述的方法，还包括：由所述一个或多个处理器通过对所述第一音频流和所述第二音频流进行自适应混合或基于所述第一音频流和所述第二音频流对第三音频流进行内插中的至少一个来对所述第一音频流和所述第二音频流进行组合。

37.根据权利要求35所述的方法，其中所述组合包括将函数F(x)应用于所述第一音频流和所述第二音频流。

38.根据权利要求35所述的方法，还包括：

由所述一个或多个处理器确定所述设备坐标是否在预定时间段内相对于所述第一音频源距离阈值和所述第二音频源距离阈值是稳定的；以及

基于所述设备坐标在预定时间段内相对于所述第一音频源距离阈值和所述第二音频源距离阈值是稳定的，由所述一个或多个处理器选择所述第一单个音频流、或者所述第一单个音频流和所述第二单个音频流，或者第二单个音频流。

39.根据权利要求35所述的方法，还包括：

由所述一个或多个处理器在所述第二音频源距离小于或等于所述第二音频源阈值时，选择所述多个音频流中的所述第二音频流；以及

基于所述第二单个音频流而输出一个或多个扬声器馈送，

其中所述第二音频流是所选择的唯一音频流。

40.根据权利要求35所述的方法，还包括由所述一个或多个处理器基于设备坐标改变来选择不同的音频流。

41.根据权利要求34所述的方法，还包括：基于所述第一音频源距离等于所述第一音频源距离阈值而向用户提供警报，其中所述警报是可视警报、听觉警报或触觉警报中的至少一个。

42.根据权利要求25所述的方法，

其中所述内容消费者设备包括扩展现实头戴设备，以及

其中显示世界包括由相机捕获的视频数据所表示的场景。

43.根据权利要求25所述的方法，

其中所述内容消费者设备包括扩展现实头戴设备，以及

其中显示世界包括虚拟世界。

44.根据权利要求25所述的方法，其中所述内容消费者设备包括移动手机。

45.根据权利要求25所述的方法，还包括通过所述内容消费者设备的收发器模块无线接收所述多个音频流，其中无线接收所述多个音频流包括根据第五代(5G)蜂窝标准、个人区域网标准或局域网标准来无线接收所述多个音频流。

46.根据权利要求25所述的方法，还包括：响应于所述选择，由所述一个或多个处理器仅对所述多个音频流的所述子集进行解码。

47.根据权利要求25所述的方法，还包括：

由所述一个或多个处理器将音频源距离确定为所述声学空间中的音频源与所述设备坐标之间的距离；

由所述一个或多个处理器将所述音频源距离与音频源距离阈值进行比较；以及

由所述一个或多个处理器在所述音频源距离大于所述音频源距离阈值时，选择所述多个音频流中的单个音频流作为所述多个音频流的所述子集，所述单个音频流具有最短的音频源距离。

48.一种内容消费者设备，被配置为播放多个音频流中的一个或多个音频流，所述内容消费者设备包括：

用于存储所述多个音频流和与所述多个音频流相关联的音频位置信息的部件，所述音频位置信息表示捕获音频流的声学空间中的音频流坐标或者合成音频流的虚拟声学空间中的音频流坐标或两者，每个所述音频流表示一个声场；以及

用于确定表示所述内容消费者设备在所述声学空间中的设备坐标的设备位置信息的部件；

用于基于所述设备位置信息和所述音频位置信息，选择所述多个音频流的子集的部件，所述多个音频流的所述子集不包括所述多个音频流中的至少一个音频流；以及

用于基于所述多个音频流的所述子集输出一个或多个扬声器馈送的部件。

49.一种具有在其上存储指令的非暂时性计算机可读存储介质，所述指令在执行时使内容消费者设备的一个或多个处理器：

存储所述多个音频流和与所述多个音频流相关联的音频位置信息，所述音频位置信息表示捕获音频流的声学空间中的音频流坐标或者合成音频流的虚拟声学空间中的音频流坐标或两者，每个所述音频流表示一个声场；以及