CN114051736A

CN114051736A - 用于音频流送和渲染的基于定时器的访问

Info

Publication number: CN114051736A
Application number: CN202080047109.4A
Authority: CN
Inventors: S.G.斯瓦米纳坦; I.G.穆诺兹; N.G.彼得斯
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2019-07-03
Filing date: 2020-07-02
Publication date: 2022-02-15
Also published as: WO2021003358A1; EP3994564A1; US11140503B2; US20210006922A1; TW202110201A; BR112021026072A2

Abstract

提出了用于音频流送和渲染的基于定时器的访问的示例设备和方法。例如，被配置为播放若干个音频流中的一个或多个的设备包括被配置为存储时序信息和若干个音频流的存储器。该设备还包括耦接到该存储器的一个或多个处理器。该一个或多个处理器被配置为基于该时序信息控制对该若干个音频流中的至少一个的访问。

Description

用于音频流送和渲染的基于定时器的访问

相关申请的交叉引用

本申请要求2020年7月1日提交的美国专利申请第16/918,465号和2019年7月3日提交的美国临时申请第62/870,599号的优先权，这两者的全部内容通过引用合并于此。

技术领域

本公开涉及媒体数据(诸如音频数据)的处理。

背景技术

计算机介导现实系统正在被开发以允许计算设备增强或添加、移除或减去，或笼统地修改用户体验的现有现实。计算机介导现实系统(也可以称为“扩展现实系统”或“XR系统”)可以包括例如虚拟现实(VR)系统、增强现实(AR)系统和混合现实(MR)系统。计算机介导现实系统的感知成功通常与此类计算机介导现实系统在视频和音频体验方面提供逼真的沉浸式体验的能力有关，其中视频和音频体验以用户期望的方式调整。尽管人类视觉系统比人类听觉系统更敏感(例如，在对场景中各种物体的感知定位方面)，但确保足够的听觉体验是确保逼真的沉浸式体验的越来越重要的因素，尤其是视频体验改进以允许更好地定位视频对象，从而使用户能够更好地识别音频内容的来源。

发明内容

本公开总体上涉及计算机介导现实系统的用户体验的听觉方面，包括虚拟现实(VR)、混合现实(MR)、增强现实(AR)、计算机视觉和图形系统。该技术的各个方面可以为扩展现实系统提供自适应音频捕获、合成和渲染。如本文所使用的，声学环境被表示为室内环境或室外环境，或者室内环境和室外环境两者。声学环境可以包括一个或多个亚声学空间，这些亚声学空间可以包括各种声学元素。室外环境的示例可以包括汽车、建筑物、墙壁、森林等。声学空间可以是声学环境的示例并且可以是室内空间或室外空间。如本文所使用的，音频元素是由麦克风捕获的声音(例如，直接从近场源捕获或从无论是真实的还是合成的远场源反射)、或者先前合成的声场、或者从文本向语音合成的单声道(mono)声音、或对来自声学环境中的对象的虚拟声音的反射。

在一个示例中，该技术的各个方面针对一种设备，被配置为存储时序信息和若干个音频流的存储器；以及一个或多个处理器，其耦接到存储器并被配置为基于时序信息控制对该若干个音频流中的至少一个的访问。

在另一示例中，该技术的各个方面针对一种播放若干个音频流中的一个或多个的方法，包括：由存储器存储时序信息和若干个音频流；以及基于该时序信息控制对该若干个音频流中的至少一个的访问。

在另一示例中，该技术的各个方面针对一种设备，该设备被配置为播放若干个音频流中的一个或多个，该设备包括：用于存储该若干个音频流的部件和用于基于该时序信息控制对该若干个音频流中的至少一个的访问的部件。

在另一示例中，该技术的各个方面针对一种其上存储有指令的非暂时性计算机可读存储介质，这些指令在被执行时使一个或多个处理器：存储时序信息和若干个音频流；以及基于该时序信息控制对若干个音频流中的至少一个的访问。

在附图和以下描述中阐述本公开的一个或多个示例的细节。根据描述和附图以及权利要求书，该技术的各个方面的其他特征、目的和优点将是显而易见的。

附图说明

图1A-1C是图示可以执行本公开中描述的技术的各个方面的系统的图。

图2是图示用户佩戴的VR设备的示例的图。

图3A-3E是更详细地图示图1A-1C的示例中所示的流选择单元的示例操作的图。

图4A-4C是图示图1A-1C的示例中所示的流选择单元基于时序信息控制对若干个音频流中的至少一个的访问的示例操作的流程图。

图4D和4E是进一步图示根据本公开中描述的技术的各个方面的对诸如时序元数据的时序信息的使用的图。

图4F和4G是图示根据本公开中描述的技术的各个方面的对更多访问的暂时请求的使用的图。

图4H和4I是图示根据本公开中描述的技术的各个方面提供的隐私区域的示例的图。

图4J和4K是图示根据本公开中描述的技术的各个方面的音频渲染的服务的层的使用的图。

图4L是图示根据本公开中描述的技术的各个方面的状态转变的状态转变图。

图4M是根据本公开中描述的技术的各个方面的车辆的图。

图4N是根据本公开中描述的技术的各个方面的移动车辆的图。

图4O是图示使用授权级别来基于时序信息控制对若干个音频流中的至少一个的访问的示例技术的流程图。

图4P是图示使用触发器和延迟基于时序信息来控制对若干个音频流中的至少一个的访问的示例技术的流程图。

图5是图示可以根据本公开中描述的技术的各个方面操作的可穿戴设备的示例的图。

图6A和6B是图示可执行本公开中描述的技术的各个方面的其他示例系统的图。

图7是图示了图1的示例中所示的源设备和内容消费者设备中的一个或多个的示例组件的框图。

图8A-8C是图示了图1A-1C的示例中所示的流选择单元执行流选择技术的各个方面的示例操作的流程图。

图9是图示根据本公开的各方面的无线通信系统的示例的概念图。

具体实施方式

目前，渲染具有许多音频源(其可以例如在现场场景中从音频捕获设备中获得)的XR场景可以渲染包含敏感信息的音频源，该敏感信息将被更好地限制，或者如果允许访问，该访问不应是永久性的。根据本公开的技术，单个音频流可以被限制渲染，或者可以基于时序信息(诸如时间或持续时间)暂时渲染。为了更好的音频插值，某些单个音频流或音频流集群可以在固定的持续时间内启用或禁用。因此，本公开的技术提供了基于时间控制对音频流的访问的灵活方式。

存在用于表示声场的多种不同方式。示例格式包括基于信道的音频格式、基于对象的音频格式和基于场景的音频格式。基于信道的音频格式指5.1环绕声格式、7.1环绕声格式、22.2环绕声格式或将音频信道集中(localize)到收听者周围特定位置以重建声场的任何其他基于信道的格式。

基于对象的音频格式可以指其中通常使用脉冲编码调制(PCM)编码并称为PCM音频对象的音频对象被指定以表示声场的格式。这样的音频对象可以包括位置信息，诸如位置元数据，其识别音频对象相对于声场中的收听者或其他参考点的位置，使得音频对象可以被渲染成一个或多个扬声器信道进行回放，以试图重建声场。本公开中描述的技术可以应用于以下格式中的任何格式，包括基于场景的音频格式、基于信道的音频格式、基于对象的音频格式或其任何组合。

基于场景的音频格式可以包括元素的分层集合，这些元素在三个维度上定义声场。元素的分层集合的一个示例是球谐系数(Spherical Harmonic Coefficient，SHC)集合。以下表达式示出了使用SHC对声场的描述或表示：

该表达式显示，在时间t处，声场中的任何点

的压力p_i都可以通过SHC

唯一地表示。在此，

c是声速(～343m/s)，

是参考点(或观察点)，j_n(·)是n阶球贝塞尔函数，并且

是n阶和m子阶的球谐基函数(也可以称为球基函数)。可以认识到，方括号中的项是信号的频域表示(例如，

)，其可以通过各种时频变换(诸如离散傅里叶变换(DFT)、离散余弦变换(DCT)或小波变换)来估计。分层集合的其他示例包括小波变换系数集合和多分辨率基函数的其他系数集合。

可以通过各种麦克风阵列配置物理地获取(例如，记录)SHC

或者，可替换地，它们可以从声场的基于信道或基于对象的描述中导出。SHC(也可以称为立体混响系数)表示基于场景的音频，其中，SHC可以被输入到音频编码器中，以获得可以促进更有效的传输或存储的编码的SHC。例如，可以使用涉及(1+4)²(25，因此是四阶)系数的四阶表示。

如上所述，SHC可以从使用麦克风阵列的麦克风录音导出。Poletti，M.在2005年11月的J.Audio Eng.Soc.第53卷第11号第1004-1025页的“Three-Dimensional SurroundSound Systems Based on Spherical Harmonics”中描述了如何从麦克风阵列物理地获取SHC的各种示例。

下面的等式可以图示如何从基于对象的描述中导出SHC。声场的对应于单个音频对象的系数

可以表示为：

其中i是

是n阶球汉克尔函数(第二类)，并且

是对象的位置。知道对象源能量g(ω)为频率的函数(例如，使用时频分析技术，诸如对脉冲编码调制PCM流执行快速傅里叶变换)可以使每个PCM对象及其对应位置能够转换为SHC

此外，(由于以上是线性和正交分解)可以看出每个对象的

系数是可加的。以这种方式，多个PCM对象可以由

系数表示(例如，作为单个对象的系数向量之和)。系数可以包含关于声场的信息(作为三维(3D)坐标的函数的压力)，并且以上表示在观察点

附近从单个对象到整个声场的表示的转换。

计算机介导现实系统(也可以称为“扩展现实系统”或“XR系统”)正在被开发以利用立体混响系数提供的许多潜在益处。例如，立体混响系数可以以潜在地启用声场内声源的准确3D定位的方式在三个维度上表示声场。这样，XR设备可以将立体混响系数渲染到扬声器馈送，当通过一个或多个扬声器播放时，其可以准确地再现声场。

作为另一示例，立体混响系数可以被转换或旋转以在没有过于复杂的数学运算的情况下考虑用户移动，从而潜在地适应XR设备的低延迟要求。此外，立体混响系数是分层的，从而自然地通过阶数减少来适应可扩展性(这可以消除与更高阶相关联的立体混响系数)，从而潜在地启用声场的动态适应以适应XR设备的延迟和/或电池需求。

对XR设备使用立体混响系数可以开发依赖于立体混响系数提供的更具沉浸感的声场的多个用例，特别是对于计算机游戏应用和直播视频流应用。在这些依赖于低延迟声场再现的高动态用例中，XR设备可能优选立体混响系数，而不是更难以操纵或涉及复杂渲染的其他表示。关于这些用例的更多信息在下面关于图1A-1C提供。

尽管在本公开中关于VR设备进行描述，但是可以在诸如移动设备的其他设备的上下文中执行技术的各个方面。在这种情况下，移动设备(诸如所谓的智能手机)可以经由屏幕呈现声学空间，该屏幕可以被安装到用户102的头部或者如在正常使用移动设备时所做的那样观看。这样，屏幕上的任何信息都可以是移动设备的一部分。该移动设备可能能够提供跟踪信息，从而允许VR体验(当头戴式时)和正常体验以观看声学空间，其中正常体验仍然可以允许用户观看提供VR精简型体验的声学空间(例如，举起该设备并旋转或平移该设备以观看声学空间的不同部分)。

图1A-1C是图示可以执行本公开中描述的技术的各个方面的系统的图。如在图1A的示例中所示，系统10包括源设备12A和内容消费者设备14A。尽管在源设备12A和内容消费者设备14A的上下文中进行了描述，但是这些技术也可以在对声场的任何表示被编码以形成表示音频数据的比特流的任何上下文中实施。此外，该源设备12A可以表示能够生成声场表示的任何形式的计算设备，并且在本文中一般在作为VR内容创建者设备的上下文中进行描述。同样，该内容消费者设备14A可以表示能够实现本公开中描述的渲染技术以及音频回放的任何形式的计算设备，并且在本文中一般在作为VR客户端设备的上下文中描述。

该源设备12A可以由娱乐公司或可生成单信道和/或多信道音频内容以供内容消费者设备(诸如内容消费者设备14A)的运营商消费的其他实体来操作。在一些VR场景中，该源设备12A结合视频内容生成音频内容。该源设备12A包括内容捕获设备20、内容编辑设备22和声场表示生成器24。内容捕获设备20可以被配置为与麦克风18连接或以其他方式与麦克风18通信。

麦克风18可以表示

或其他类型的3D音频麦克风，其能够捕获声场并将其表示为音频数据19，音频数据19可以指上述基于场景的音频数据(诸如立体混响系数)、基于对象的音频数据、和基于信道的音频数据中的一个或多个。尽管被描述为3D音频麦克风，该麦克风18也可以表示被配置为捕获音频数据19的其他类型的麦克风(诸如全向麦克风、点麦克风、单向麦克风等)。音频数据19可以表示音频流或包括音频流。

在一些示例中，内容捕获设备20可以包括集成到内容捕获设备20的外壳中的集成麦克风18。内容捕获设备20可以与麦克风18无线地连接或经由有线连接来连接。不是经由麦克风18捕获音频数据19或结合经由麦克风18捕获音频数据19，内容捕获设备20可以在经由某种类型的可移动存储无线地和/或经由有线输入处理输入音频数据19之后处理音频数据19。这样，根据本公开，内容捕获设备20和麦克风18的各种组合都是可能的。

该内容捕获设备20也可以被配置为与内容编辑设备22连接或以其他方式与内容编辑设备22通信。在一些情况下，该内容捕获设备20可以包括内容编辑设备22(在一些情况下，其可以表示软件或软件和硬件的组合，包括由内容捕获设备20执行以将内容捕获设备20配置为执行特定形式的内容编辑的软件)。该内容编辑设备22可以表示被配置为编辑或以其他方式改变从内容捕获设备20接收的内容21(包括音频数据19)的单元。该内容编辑设备22可以将编辑的内容23和相关联的元数据25输出到声场表示生成器24。

该声场表示生成器24可以包括能够与内容编辑设备22(或内容捕获设备20)连接的任何类型的硬件设备。尽管未在图1A的示例中示出，该声场表示生成器24可以使用包括音频数据19的编辑内容23和由内容编辑设备22提供的元数据25来生成一个或多个比特流27。在关注音频数据19的图1A的示例中，该声场表示生成器24可以生成由音频数据19表示的相同声场的一个或多个表示以获得包括声场的表示和音频元数据25的比特流27。

例如，为了使用立体混响系数(这也是音频数据19的一个示例)生成声场的不同表示，声场表示生成器24可以使用用于声场的立体混响表示的编码方案，称为混阶立体混响(Mixed OrderAmbisonics，MOA)，如2017年8月8日提交的题为“MIXED-ORDER AMBISONICS(MOA)AUDIO DATA FORCOMPUTER-MEDIATED REALITY SYSTEMS”的美国申请序列号15/672,058中更详细的讨论，并作为美国专利公开号20190007781于2019年1月3日公开。

为了生成声场的特定MOA表示，该声场表示生成器24可以生成立体混响系数的完整集合的部分子集。例如，由声场表示生成器24生成的每个MOA表示可以提供针对声场的一些区域的精度，但是在其他区域中的精度较低。在一个示例中，声场的MOA表示可以包括八(8)个未压缩的立体混响系数，而同一声场的三阶立体混响表示可以包括十六(16)个未压缩的立体混响系数。这样，作为立体混响系数的部分子集生成的声场的每个MOA表示可能比相同声场的从立体混响系数生成的相应的三阶立体混响表示的存储强度和带宽强度低(如果并且当作为通过所示出的传输信道的比特流27中的一部分传输时)。

尽管针对MOA表示进行了描述，但是本公开的技术也可以针对一阶立体混响(FOA)表示来执行，其中与一阶球基函数和零阶球基函数相关联的所有立体混响系数被用于表示声场。换句话说，声场表示生成器302可以使用给定阶数N的所有立体混响系数来表示声场，而不是使用立体混响系数的部分非零子集来表示声场，从而使得总立体混响系数等于(N+1)²。

在这方面，立体混响音频数据(这是在MOA表示或全阶表示中指代立体混响系数的另一方式，诸如上面提到的一阶表示)可以包括与具有一或更少阶的球基函数相关联的立体混响系数(可以称为“一阶立体混响音频数据”)、与具有混阶和子阶的球基函数相关联的立体混响系数(可以称为上述的“MOA表示”)、或与具有大于一阶的球基函数相关联的立体混响系数(在上面被称为“全阶表示”)。

在一些示例中，该内容捕获设备20或该内容编辑设备22可以被配置为与该声场表示生成器24进行无线通信。在一些示例中，该内容捕获设备20或该内容编辑设备22可以经由无线连接或有线连接中的一者或两者与该声场表示生成器24进行通信。经由该内容捕获设备20或该内容编辑设备22与该声场表示生成器24之间的连接，该内容捕获设备20或该内容编辑设备22可以以各种内容形式来提供内容，为了进行讨论，本文将其描述为音频数据19的一部分。

在一些示例中，内容捕获设备20可以利用声场表示生成器24的各个方面(就声场表示生成器24的硬件或软件能力而言)。例如，该声场表示生成器24可以包括专用硬件，其被配置为(或专用软件，其在执行时使一个或多个处理器)执行心理声学音频编码(诸如由运动图像专家组(MPEG)提出的表示为“USAC”的统一语音和音频编码器、MPEG-H 3D音频编码标准、MPEG-I沉浸式音频标准、或专有标准，诸如AptXTM(包括各种版本的AptX，诸如增强型AptX-E-AptX、现场AptX、AptX立体声和AptX高清晰度-AptX-HD)、高级音频编码(AAC)、音频编解码器3(AC-3)、苹果无损音频编解码器(ALAC)、MPEG-4音频无损流媒体(ALS)、增强型AC-3、自由无损音频编解码器(FLAC)、Monkey′s Audio、MPEG-1音频层II(MP2)、MPEG-1音频层III(MP3)、Opus和Windows媒体音频(WMA)。

内容捕获设备20可以不包括心理声学的音频编码器专用硬件或专门软件，而是可以以非心理声学的音频编码的形式提供内容21的音频方面。声场表示生成器24可以通过至少部分地针对内容21的音频方面执行心理声学的音频编码来辅助内容21的捕获。

该声场表示生成器24还可通过至少部分地基于从该音频数据19生成的音频内容(例如，MOA表示和/或一阶立体混响表示)(在该音频数据19包括基于场景的音频数据的情况下)生成一个或多个比特流27，来辅助内容捕获和传输。比特流27可以表示音频数据19的压缩版本和任何其他不同类型的内容21(诸如球形视频数据、图像数据或文本数据的压缩版本)。

作为一个示例，声场表示生成器24可以生成比特流27以用于跨传输信道传输，该传输信道可以是有线或无线信道、数据存储设备等。该比特流27可以表示该音频数据19的编码版本，并且可以包括主要比特流和另一侧比特流，这可以被称为侧信道信息或元数据。在一些情况下，表示音频数据19的压缩版本的比特流27(其也可以表示基于场景的音频数据、基于对象的音频数据、基于信道的音频数据或其组合)可以符合根据MPEG-H 3D音频编码标准和/或MPEG-I沉浸式音频标准产生的比特流。

该内容消费者设备14可以由个人操作并且可以表示VR客户端设备。尽管关于VR客户端设备进行了描述，但内容消费者设备14可以表示其他类型的设备，诸如增强现实(AR)客户端设备、混合现实(MR)客户端设备(或其他XR客户端设备)、标准计算机、头戴式耳机、耳机、移动设备(包括所谓的智能手机)或能够跟踪操作该内容消费者设备14的个体的头部运动和/或一般平移运动的任何其他设备。如图1A的示例中所示，该内容消费者设备14包括音频回放系统16A，其可以指能够渲染音频数据以作为单信道和/或多信道音频内容回放的任何形式的音频回放系统。

虽然在图1A中被示为直接发送到内容消费者设备14，但是源设备12A可以将比特流27输出到位于源设备12A和内容消费者设备14A之间的中间设备。中间设备可以存储比特流27，以便稍后传递到请求比特流27的内容消费者设备14A。中间设备可以包括文件服务器、网络服务器、台式计算机、膝上型计算机、平板计算机、移动电话、智能电话或能够存储比特流27以供以后由音频解码器检索的任何其他设备。中间设备可以驻留在内容传递网络中，该内容传递网络能够向请求比特流27的诸如内容消费者设备14的订户流送比特流27(并且可能与发送相应的视频数据比特流相结合)。

可替代地，源设备12A可以将比特流27存储到诸如致密盘、数字视频光盘、高清晰度视频光盘或其他存储介质的存储介质，其中大多数存储介质能够被计算机读取，并因此可被称为计算机可读存储介质或非暂时性计算机可读存储介质。在此上下文中，传输信道可以指存储在介质上的内容(例如，以一个或多个比特流27的形式)通过其发送的信道(并且可以包括零售商店和其他基于商店的传递机制)。因此，无论如何，本公开的技术不应在这方面限于图1A的示例。

如上所述，该内容消费者设备14包括音频回放系统16A。该音频回放系统16A可以表示能够回放单信道和/或多信道音频数据的任何系统。该音频回放系统16A可以包括多个不同的渲染器32。每个音频渲染器32可以提供不同形式的渲染，其中不同音频形式的渲染可以包括执行基向量幅度相移(Vector-Base Amplitude Panning，VBAP)的各种方式中的一种或多种，和/或执行声场合成的各种方式中的一种或多种。如本文所用，“A和/或B”是指“A或B”，或“A和B”两者。

该音频回放系统16A还可以包括音频解码设备34。该音频解码设备34可以表示被配置为对比特流27进行解码以输出音频数据19′的设备(其中撇号记号可以表示音频数据19′由于音频数据19的有损压缩(诸如量化)而不同于音频数据19)。再次，该音频数据19′可以包括基于场景的音频数据，在一些示例中，这些音频数据可以形成完整的一(或更高)阶立体混响表示或其形成相同声场的MOA表示的子集、其分解(诸如主要音频信号、环境立体混响系数和MPEG-H 3D音频编码标准中描述的基于向量的信号)、或其他形式的基于场景的音频数据。

其他形式的基于场景的音频数据包括根据HOA(高阶立体混响)传输格式(HTF)定义的音频数据。有关HTF的更多信息可以在欧洲电信标准协会(ETSI)的日期为2018年6月(2018-06)的ETSI TS 103589V1.1.1中题为“高阶立体混响(HOA)传输格式(Higher OrderAmbisonics(HOA)Transport Format)”的技术规范(TS)中，以及在2018年12月20日提交的题为“高阶立体混响音频数据的优先级信息(PRIORITY INFORMATION FORHIGHER ORDERAMBISONIC AUDIO DATA)”的美国专利公开号2019/0918028中找到。在任何情况下，该音频数据19′可能类似于音频数据19′的完整集合或部分子集，但可能由于有损操作(例如，量化)和/或经由传输信道的传输而不同。

该音频数据19′可以包括作为基于场景的音频数据的替代或结合基于场景的音频数据的基于信道的音频数据。该音频数据19′可以包括作为基于场景的音频数据的替代或结合基于场景的音频数据的基于对象的音频数据或基于信道的音频数据。这样，该音频数据19′可以包括基于场景的音频数据、基于对象的音频数据和基于信道的音频数据的任何组合。

该音频回放系统16A的音频渲染器32可以在音频解码设备34已经解码比特流27以获得音频数据19′之后渲染该音频数据19′以输出扬声器馈送35。该扬声器馈送35可以驱动一个或多个扬声器(为了便于说明的目的，在图1A的示例中未图示)。各种音频表示，包括声场的基于场景的音频数据(和可能的基于信道的音频数据和/或基于对象的音频数据)可以多种方式归一化，包括N3D、SN3D、FuMa、N2D或SN2D。

为了选择合适的渲染器，或者在一些情况下，生成合适的渲染器，该音频回放系统16A可以获得指示多个扬声器(例如，扩音器或耳机扬声器)和/或扬声器的空间几何形状的扬声器信息37。在一些情况下，该音频回放系统16A可以使用参考麦克风获得扬声器信息37并且可以以动态确定该扬声器信息37的方式驱动扬声器(这可以指电信号的输出以引起换能器振动)。在其他情况下，或者结合该扬声器信息37的动态确定，该音频回放系统16A可以提示用户与该音频回放系统16A交互并输入该扬声器信息37。

该音频回放系统16A可以基于该扬声器信息37选择该音频渲染器32中的一个。在一些情况下，当该音频渲染器32中没有一个在该扬声器信息37中指定的扬声器几何形状的某个阈值相似性度量(就扬声器几何形状而言)之内时，该音频回放系统16A可以基于该扬声器信息37生成音频渲染器32中的一个。在一些情况下，该音频回放系统16A可以基于该扬声器信息37生成该音频渲染器32中的一个，而无需首先尝试选择该音频渲染器32中的现有一个。

当将该扬声器馈送35输出到耳机时，该音频回放系统16A可以利用该渲染器32中的一个渲染器，该一个渲染器使用头部相关传递函数(HRTF)或能够渲染到左右扬声器馈送35用于耳机扬声器回放的其他函数来提供双耳渲染，诸如双耳房间脉冲响应渲染器。术语“扬声器”或“换能器”通常可以指任何扬声器，包括扩音器、耳机扬声器、骨传导扬声器、耳塞式扬声器、无线耳机扬声器等。一个或多个扬声器然后可以回放渲染的扬声器馈送35以再现声场。

尽管被描述为从音频数据19′渲染该扬声器馈送35，对该扬声器馈送35的渲染的引用可以指其他类型的渲染，诸如直接并入到来自该比特流27的音频数据的解码中的渲染。可在MPEG-H 3D音频标准的附录G中找到替代渲染的示例，其中渲染发生在声场合成之前的主要信号形成和背景信号形成期间。这样，对该音频数据19′的渲染的引用应被理解为指实际音频数据19′的渲染或音频数据19′的分解或表示(诸如上述主要音频信号、环境立体混响系数、和/或基于向量的信号——也可以称为V向量或多维立体混响空间向量)。

该音频回放系统16A还可以基于跟踪信息41调整该音频渲染器32。即，该音频回放系统16A可以与跟踪设备40连接，该跟踪设备40被配置为跟踪VR设备的用户的头部运动和可能的平移运动。该跟踪设备40可以表示一个或多个传感器(例如，相机-包括深度相机、陀螺仪、磁力计、加速度计、发光二极管-LED等)，其被配置为跟踪VR设备的用户的头部运动和可能的平移运动。该音频回放系统16A可以基于该跟踪信息41调整该音频渲染器32，使得该扬声器馈送35反映用户的头部的变化和可能的平移运动，以正确再现响应于这种运动的声场。

图1B是图示被配置为执行本公开中描述的技术的各个方面的另一个示例系统50的框图。该系统50类似于图1A所示的系统10，除了图1A中所示的音频渲染器32被能够使用一个或多个头部相关传递函数(HRTF)或能够渲染到左右扬声器馈送43的其他函数执行双耳渲染的双耳渲染器42替代。

该音频回放系统16B可以将左右扬声器馈送43输出到耳机48，耳机48可以表示可穿戴设备的另一示例并且可以耦接到附加可穿戴设备以促进声场的再现，诸如手表、上面提到的VR头戴式耳机、智能眼镜、智能服装、智能戒指、智能手环或任何其他类型的智能首饰(包括智能项链)等。耳机48可以无线地或经由有线连接耦接到附加可穿戴设备。

附加地，耳机48可以经由有线连接(诸如标准的3.5mm音频插孔、通用系统总线(USB)连接、光学音频插孔或其他形式的有线连接)或无线地(诸如通过蓝牙^TM连接、无线网络连接等)耦接至音频回放系统16B。该耳机48可以基于左右扬声器馈送43来重建由音频数据19′表示的声场。耳机48可以包括左耳机扬声器和右耳机扬声器，它们由相应的左和右扬声器馈送43供电(或者换句话说，驱动)。

图1C是图示另一示例系统60的框图。该示例系统60类似于图1A的示例系统10，但是系统60的源设备12B不包括内容捕获设备。源设备12B包含合成设备29。内容开发者可以使用合成设备29来生成合成的音频源。该合成的音频源可以具有与其相关联的位置信息，该位置信息可以识别音频源相对于声场中的收听者或其他参考点的位置，使得可以将音频源渲染成一个或多个扬声器信道进行回放，以试图重建声场。

例如，内容开发者可以为视频游戏生成合成的音频流。虽然图1C的示例与图1A的示例的内容消费者设备14一起显示，但是图1C的示例的源设备12B可以与图1B的内容消费者设备14B一起使用。在一些示例中，图1C的源设备12B还可以包括内容捕获设备，使得比特流27可以包含捕获的音频流和合成的音频流。

如上所述，该内容消费者设备14A或14B(其中任一者在下文中可被称为内容消费者设备14)可以表示VR设备，其中人类可穿戴显示器(其也可被称为“头戴式显示器”)被安装在操作该VR设备的用户的眼前。图2是图示用户1102佩戴的VR设备1100的示例的图。VR设备1100被耦接到耳机1104或以其他方式包括耳机1104，耳机1104可以通过扬声器馈送35的回放来再现由音频数据19′表示的声场。扬声器馈送35可以表示能够使耳机104的换能器内的膜以各种频率振动的模拟或数字信号，其中这种过程通常被称为驱动耳机1104。

视频、音频和其他感官数据可能会在VR体验中扮演重要角色。为了参与VR体验，用户1102可以穿戴VR设备1100(也可以称为VR客户端设备1100)或其他可穿戴电子设备。该VR客户端设备(诸如VR设备1100)可以包括跟踪设备(例如，跟踪设备40)，其被配置为跟踪用户1102的头部运动，并且调整经由VR设备1100显示的视频数据以考虑头部运动，从而提供沉浸式体验，在其中用户1102可以体验在视频数据中以可视的三个维度显示的声学空间。该声学空间可以指虚拟世界(其中所有世界都是模拟的)、增强世界(其中世界的一部分由虚拟对象增强)或物理世界(其中现实世界图像被虚拟导航)。

尽管VR(以及AR和/或MR的其他形式)可以允许用户1102在视觉上驻留在虚拟世界中，但VR设备1100可能常常缺乏听觉上将用户置于声学空间中的能力。换句话说，VR系统(可能包括负责渲染视频数据和音频数据的计算机(为便于说明，在图2的示例中未显示)以及VR设备1100)可能无法支持完整的三维听觉沉浸(并且在某些情况下，实际上以反映经由VR设备1100呈现给用户的所显示场景的方式)。

尽管在本公开中关于VR设备进行了描述，但是可以在诸如移动设备的其他设备的上下文中执行技术的各个方面。在这种情况下，移动设备(诸如所谓的智能手机)可以经由屏幕呈现声学空间，该屏幕可以被安装到用户1102的头部或者如在正常使用移动设备时所做的那样观看。这样，屏幕上的任何信息都可以是移动设备的一部分。该移动设备可能能够提供跟踪信息41，从而允许VR体验(当头戴式时)和正常体验以观看声学空间，其中正常体验仍然可以允许用户观看提供VR精简型体验的声学空间(例如，举起设备并旋转或平移设备以观看声学空间的不同部分)。

在任何情况下，回到该VR设备上下文，VR的音频方面已被分为三个不同的沉浸类别。第一类别提供最低级的沉浸，称为三个自由度(3DOF)。3DOF指的是音频渲染，其考虑了头部在三个自由度(偏航、俯仰和翻滚)中的运动，从而允许用户在任何方向上自由地环顾四周。然而，3DOF无法考虑其中头部不以声场的光学和声学中心为中心的平移头部运动。

第二类别(称为3DOF加(3DOF+))除了由于头部运动远离声场的声学中心和光学中心的有限的空间平移运动之外，还提供三个自由度(偏航、俯仰和翻滚)。3DOF+可以为诸如运动视差的感知效果提供支持，这可以增强沉浸感。

第三类别(称为六个自由度(6DOF))以在头部运动(偏航、俯仰和翻滚)方面考虑三个自由度，同时也考虑用户在空间中的平移(x、y和z平移)的方式渲染音频数据。可以通过跟踪用户在物理世界中的位置的传感器或通过输入控制器来引入空间平移。

3DOF渲染是VR的音频方面的最新技术。这样，VR的音频方面的沉浸感不如视频方面的沉浸感，因此可能会降低用户体验的整体沉浸感。然而，VR正在迅速转变，并且可能快速发展为支持3DOF+和6DOF两者，这可能为其他用例提供机会。

例如，交互式游戏应用可以利用6DOF来促进完全沉浸的游戏，其中用户自己在VR世界中移动并且可以通过走到虚拟对象来与虚拟对象进行交互。此外，交互式直播流应用可以利用6DOF来允许VR客户端设备体验音乐会或体育赛事的直播流，就好像他们自己在音乐会上一样，允许用户在音乐会或体育赛事中移动。

存在与这些用例相关联的多种困难。在完全沉浸式游戏的情况下，延迟可能需要保持在较低的水平，以实现不会导致恶心或晕动症的游戏玩法。此外，从音频的角度来看，导致与视频数据失去同步的音频回放延迟可能会降低沉浸感。此外，对于某些类型的游戏应用，空间精度对于允许准确响应可能很重要，包括关于用户如何感知声音，因为这允许用户预测当前不在视野中的动作。

在直播流应用的上下文中，大量的源设备12A或12B(其中任一者在下文中可以被称为源设备12)可以流送内容21，其中源设备12可以具有广泛不同的能力。例如，一个源设备可以是带有数字固定镜头相机和一个或多个麦克风的智能手机，而另一源设备可以是能够获得比智能手机分辨率和质量高得多的视频的生产级电视设备。然而，在直播流应用的上下文中，所有源设备都可以提供不同质量的流，VR设备可以尝试从中选择合适的流来提供预期的体验。

此外，与游戏应用类似，使得与视频数据失去同步的音频数据中的延迟可能导致沉浸感降低。此外，空间精度也可能是重要的，使得用户可以更好地理解不同音频源的环境或位置。此外，当用户使用相机和麦克风进行直播流送时，隐私可能会成为问题，因为用户可能不希望直播流完全向公众开放。

在流送应用(直播或录制)的上下文中，可能存在与不同级别的质量和/或内容相关联的大量音频流。音频流可以表示任何类型的音频数据，包括基于场景的音频数据(例如，立体混响音频数据，包括FOA音频数据、MOA音频数据和/或HOA音频数据)、基于信道的音频数据和基于对象的音频数据。仅选择潜在的大量音频流中的一个来重建声场可能无法提供确保足够沉浸感等级的体验。然而，由于多个音频流之间的不同空间定位，选择多个音频流可能会产生干扰，从而潜在地降低沉浸感。

根据本公开所述的技术，该音频解码设备34可以在经由比特流27可用的音频流(其由该比特流27表示且因此该比特流27还可以被称为“音频流27”)之间自适应地选择。该音频解码设备34可以基于音频位置信息(ALI)(例如，图1A-1C中的45A)在该音频流27的不同音频流之间进行选择，在一些示例中，音频位置信息可以被包括为伴随该音频流27的元数据，其中该音频位置信息可以为捕获相应音频流27的麦克风定义声学空间中的坐标或合成音频流的虚拟坐标。该ALI 45A可以表示声学空间中的音频流27中的对应一个被捕获的捕获位置或该音频流中的对应一个被合成的虚拟坐标。该音频解码设备34可以基于ALI45A选择该音频流27的子集，其中该音频流27的子集排除该音频流27中的至少一个。该音频解码设备34可以将音频流27的子集输出为音频数据19′(也可以称为“音频数据19′”)。

此外，该音频解码设备34可以获得跟踪信息41，内容消费者设备14可以将其转换为设备位置信息(DLI)(例如，图1A-1C中的45B)。该DLI 45B可以表示该内容消费者设备14在声学空间中的虚拟位置或实际位置，其可以被定义为声学空间中的一个或多个设备坐标。该内容消费者设备14可以向该音频解码设备34提供DLI 45B。该音频解码设备34然后可以基于ALI 45A和DLI 45B从该音频流27中选择该音频数据19′。该音频回放系统16A然后可以基于该音频数据19′再现相应的声场。

在这方面，该音频解码设备34可以自适应地选择该音频流27的子集以获得可以导致(与选择单个音频流或所有音频数据19′相比)更加沉浸式的体验的音频数据19′。这样，本公开中描述的技术的各个方面可以通过可能使该音频解码设备34更好地空间化声场内的声源来改进该音频解码设备34(以及该音频回放系统16A或16B和该内容消费者设备14)本身的操作，从而提高沉浸感。

在操作中，该音频解码设备34可以与一个或多个源设备12交互以确定音频流27中的每一个的ALI 45A。如图1A的示例所示，该音频解码设备34可以包括流选择单元44，其可以表示被配置为执行本公开所述的音频流选择技术的各个方面的单元。

该流选择单元44可以基于ALI 45A生成星座图(CM)47。该CM 47可以为音频流27中的每一个定义ALI 45A。该流选择单元44还可以针对音频流27中的每一个执行能量分析以确定每个音频流27的能量图，将能量图连同ALI 45A一起存储在CM 47中。该能量图可以共同定义由该音频流27表示的公共声场的能量。

该流选择单元44接下来可以确定由DLI 45B表示的设备位置和由ALI 45A表示的(多个)捕获位置或(多个)合成位置之间的(多个)距离，其与音频流27中的至少一个并且可能每一个相关联。该流选择单元44然后可以基于(多个)距离从该音频流27中选择该音频数据19′，如下面关于图3A-3F更详细地讨论的。

此外，在一些示例中，该流选择单元44还可以基于存储到CM 47的能量图、ALI 45A和DLI 45B(其中ALI 45A和DLI 45B以上面提到的距离(也可以称为“相对距离”)的形式共同呈现)，从该音频流27中选择音频数据19′。例如，该流选择单元44可以分析在CM 47中呈现的能量图以确定公共声场中由麦克风(诸如麦克风18)捕获并由该音频流27表示的发射声音的音频源的音频源位置(ASL)49。该流选择单元44然后可以基于ALI 45A、DLI 45B和ASL 49，从该音频流27中确定音频数据19′。关于该流选择单元44可以如何选择流的更多信息在下面关于图3A-3F进行讨论。

图3A-3F是更详细地图示图1A-1C的示例中所示的流选择单元44的示例操作的图。如图3A的示例所示，该流选择单元44可以确定DLI 45B指示该内容消费者设备14(图示为VR设备1100)在虚拟位置300A处。该流选择单元44接下来可以确定音频元素302A-302J(统称为音频元素302)中的一个或多个的ALI45A，音频元素302A-302J可以不仅表示麦克风(诸如图1A中所示的麦克风18)，还可以表示其他类型的捕获设备，包括其他XR设备、移动电话(包括所谓的智能手机)等、或合成声场等。

如上所述，该流选择单元44可以获得该音频流27。该流选择单元44可以与音频元件302A-302J连接以获得该音频流27。在一些示例中，该流选择单元44可以与接口(诸如接收器、发送器和/或收发器)交互以获得根据第五代(5G)蜂窝标准、个人区域网络(PAN)(诸如蓝牙TM)、或一些其他开源、专有或标准化通信协议的音频流27。该音频流的无线通信在图3A-3E的示例中被表示为闪电球，其中所选择的音频数据19′被示为从音频元素302中的所选择的一个或多个到VR设备1100的通信。

在任何情况下，该流选择单元44接下来可以以上述方式获得能量图，分析能量图以确定该音频源位置304，其可以表示图1A的示例中所示的ASL 49的一个示例。该能量图可以表示音频源位置304，因为该音频源位置304处的能量可能高于周围区域。假设能量图中的每一个可以表示这个更高的能量，该流选择单元44可以基于能量图中的更高能量对该音频源位置304进行三角测量(triangulate)。

接下来，该流选择单元44可以将音频源距离306A确定为该音频源位置304和VR设备1100的虚拟位置300A之间的距离。该流选择单元44可以将该音频源距离306A与音频源距离阈值进行比较。在一些示例中，该流选择单元44可以基于该音频源308的能量导出音频源距离阈值。也就是说，当该音频源308具有较高的能量时(或换言之，当该音频源308的声音较大时)，该流选择单元44可增加该音频源距离阈值。当该音频源308具有较低的能量时(或换言之，当该音频源308的声音较小时)，该流选择单元44可减小该音频源距离阈值。在其他示例中，该流选择单元44可以获得静态定义的音频源距离阈值，其可以由用户1102静态定义或指定。

在任何情况下，该流选择单元44可以在该音频源距离306A大于该音频源距离阈值(在该示例中为了说明的目的而假设)时，选择该音频流27中由该音频元素302A-302J(“音频元素302”)捕获的单个音频流。该流选择单元44可以输出该音频流27中的相应一个，该音频解码设备34可以将其解码并输出为该音频数据19′。

假设该用户1102从虚拟位置300A移动到虚拟位置300B，则该流选择单元44可以将音频源距离306B确定为该音频源位置304和该虚拟位置300B之间的距离。在一些示例中，该流选择单元44可以仅在某个可配置的释放时间之后更新，该释放时间可以指在收听者停止移动之后直到接收器区域增加的时间。

在任何情况下，该流选择单元44可以再次将该音频源距离306A与该音频源距离阈值进行比较。该流选择单元44可以在该音频源距离306B小于或等于该音频源距离阈值(在该示例中为了说明的目的而假设)时，选择该音频流27中由该音频元素302A-302J(“音频元素302”)捕获的多个音频流。该流选择单元44可以输出该音频流27中的相应一些，该音频解码设备34可以将其解码并输出为该音频数据19′。

该流选择单元44还可确定虚拟位置300B与由ALI 45A表示的捕获位置中的一个或多个(并且可能每个)之间的一个或多个接近距离。该流选择单元44然后可以将一个或多个接近距离与阈值接近距离进行比较。当一个或多个接近距离大于该阈值接近距离时，该流选择单元44可以选择与该一个或多个接近距离小于或等于该阈值接近距离时相比较小数量的音频流27以获得音频数据19′。然而，当该接近距离中的一个或多个小于或等于该阈值接近距离时，该流选择单元44可以选择与该一个或多个接近距离小于或等于该阈值接近距离时相比较大数量的音频流27以获得音频数据19′。

换言之，该流选择单元44可以尝试选择该音频流27中的那些音频流，使得该音频数据19′与虚拟位置300B最接近地对齐并且围绕该虚拟位置300B。该接近距离阈值可以定义这样的阈值，其中该VR设备1100的用户1102可以设置该阈值或者该流选择单元44可以再次基于该音频元素302F-302J的质量、该音频源308的增益或响度、跟踪信息41(例如，用于确定该用户1102是否面对音频源308)或任何其他因素动态地确定该阈值。

在这方面，该流选择单元44可以在该收听者处于位置300B时增加音频空间化精度。此外，当该收听者处于位置300A时，该流选择单元44可以降低比特率，因为仅使用由音频元素302A捕获的音频流而不是音频元素302B-302J的多个音频流来再现声场。

下面参考图3B的示例，该流选择单元44可以确定该音频元素302A的音频流是毁坏、嘈杂或不可用的。假设该音频源距离306A大于该音频源距离阈值，该流选择单元44可以根据以上更详细描述的技术从该CM 47移除该音频流并且在该音频流中27重复以选择音频流27中的单一的一个(例如，在图3B的示例中由麦克风302B捕获的音频流)。

下面参考图3C的示例，该流选择单元44可以获得新的音频流(音频元素302K的音频流)和对应的包括ALI 45A的新的音频信息，例如元数据。该流选择单元44可以将新的音频流添加到表示音频流27的CM 47。假设该音频源距离306A大于该音频源距离阈值，该流选择单元44然后可以根据以上更详细描述的技术在该音频流27中重复以选择音频流27中的单一的一个(例如，在图3C的示例中由音频元素302B捕获的音频流)。

在图3D的示例中，音频元件302被特定示例设备320A-320J(“设备320”)替换，其中设备320A表示专用麦克风320A，而设备320B、320C、320D、320G、320H和320J表示智能手机。设备320E、320F和320I可以表示VR设备。设备320中的每一个可以包括音频元素302，其捕获要根据本公开中描述的流选择技术的各个方面来选择的音频流27。

图3E是图示具有三个或更多个音频元素的示例音乐会的概念图。在图3E的示例中，舞台323上描绘了多个音乐家。歌手312位于音频元素310A后面。弦乐组314被描绘在音频元素310B之后。鼓手316被描绘在音频元素310C之后。其他音乐家318被描绘在音频元素310D之后。音频元素310A-301D可以表示对应于麦克风接收到的声音的捕获的音频流。在一些示例中，麦克风310A-310D可以表示合成的音频流。例如，音频元素310A可以表示主要与歌手312相关联的(多个)捕获的音频流，但是(多个)音频流也可以包括由其他乐队成员(诸如弦乐组314、鼓手316或其他音乐家318)产生的声音，而音频元素310B可以表示主要与弦乐组314相关联的(多个)捕获的音频流，但包括由其他乐队成员产生的声音。以此方式，音频元素310A-310D中的每一个可表示(多个)不同的音频流。

此外，描绘了多个设备。这些设备表示位于多个不同收听位置的用户设备。耳机321位于音频元素310A附近，但在音频元素310A和音频元素310B之间。这样，根据本公开的技术，流选择单元44可以选择音频流中的至少一个来为耳机321的用户产生类似于用户位于图3F中耳机321所在位置的音频体验。类似地，VR护目镜322被示为位于音频元素310C后面以及鼓手316和其他音乐家318之间。该流选择单元44可以选择至少一个音频流来为VR护目镜322的用户产生类似于用户位于图3F中VR护目镜322所在位置的音频体验。

智能眼镜324被示为位于音频元素310A、310C和310D之间的相当中央位置。该流选择单元44可以选择至少一个音频流来为智能眼镜324的用户产生类似于用户位于图3F中智能眼镜324所在位置的音频体验。此外，设备326(其可以表示能够实施本公开的技术的任何设备，诸如移动手持机、扬声器阵列、耳机、VR护目镜、智能眼镜等)被示为位于音频元素310B的前面。流选择单元44可以选择至少一个音频流来为设备326的用户产生类似于用户位于图3E中设备325所在位置的音频体验。虽然对特定位置讨论了特定设备，但是所描绘的任何设备的使用可以提供与图3E中描绘的不同的期望收听位置的指示。

图4A-4C是图示图1A-1C的示例中所示的流选择单元44基于时序信息控制对若干个音频流中的至少一个的访问的操作示例的流程图。在一些示例中，该时序信息可以是时序元数据。在一些示例中，该时序元数据可以被包括在音频元数据中。在图4A的示例，讨论了开始时间的使用。

在许多上下文中，存在对于某些人可能是不合适或冒犯的音频流。例如，在直播体育赛事中，可能有人在场地内使用攻击性语言。在一些视频游戏中可能也是如此。在其他直播事件(例如会议)中，可能发生敏感的讨论。通过使用开始时间，该内容消费者设备14的流选择单元44可以筛选出不想要的或敏感的音频流并且将它们从向用户的回放中排除。该时序信息(诸如时序元数据)可以与单独的音频流或隐私区域相关联(关于图4H和4J更详细地讨论)。

在一些情况下，该源设备12可以应用开始时间。例如，在将在给定时间出现敏感讨论的会议中，内容创建者或来源可以创建并应用讨论将要开始的开始时间，以便只有具有适当权限的某些人才能听到讨论。对于没有适当权限的其他人，该流选择单元44可以筛选出或以其他方式排除用于讨论的(多个)音频流。

在其他情况下，诸如体育赛事示例，该内容消费者设备14可以创建并应用该开始时间。这样，用户可以在音频回放期间排除攻击性语言。

现在讨论开始时间信息(诸如开始时间元数据)的使用(400)。该流选择单元44可以获取输入的音频流和与音频流相关联的元数据，包括位置信息和开始时间信息，并将它们存储在该内容消费者设备14的存储器中(401)。该流选择单元44可以获得位置信息(402)。如上所述，该位置信息可以与声学空间中的捕获坐标相关联。开始时间信息可以与每个流或隐私区域相关联(将关于图4F更彻底地讨论)。例如，在直播事件中，可能会发生敏感的讨论，或者可能使用不恰当的语言或针对某些观众讨论的话题。例如，如果会议上的敏感会面将在1:00PM GMT举行，该内容创建者或来源可以为包含与会面到1:00PM GMT相关联的音频的(多个)音频流或(多个)隐私区域设置开始时间。在一个示例中，流选择单元44可以将开始时间与当前时间进行比较(403)，并且如果开始时间等于或晚于当前时间，则流选择单元44可以筛选出或以其他方式排除那些具有相关联的开始时间的音频流或隐私区域(404)。在一些示例中，内容消费者设备14可以停止下载所排除的音频流。

在另一示例中，当流选择单元44筛选出或排除音频流或隐私区域时，该内容消费者设备14可以向源设备12发送消息，指示源设备12停止发送所排除的流(405)。这样，内容消费者设备不会接收到所排除的流，并且可以节省传输信道内的带宽。

在一个示例中，音频回放系统16(为简单起见，其可以表示音频回放系统16A或音频回放系统16B)可以基于与音频流或隐私区域相关联的开始时间来改变增益，增强或减弱音频输出。在另一示例中，音频回放系统16可以不改变增益。音频解码设备34还可以将两个或更多个选择的音频流组合在一起(406)。例如，选择的音频流的组合可以通过混合或插值或者声场操作的另一变形来完成。音频解码设备可以输出音频流的子集(407)。

在一个示例中，音频回放系统16可以允许用户覆盖(override)开始时间。例如，内容消费者设备14可以从用户1102获得例如用于添加若干个音频流中的至少一个排除的音频流的覆盖请求(408)。在内容消费者设备14发送消息以告诉源设备停止发送排除的音频流或隐私区域(405)的示例中，内容消费者设备14将发送新消息以告诉源设备重新开始发送那些音频流或隐私区域(409)。如果开始时间被覆盖，则音频解码设备34可以将那些相应的流或隐私区域与音频流或隐私区域的子集添加或组合(410)。例如，选择的音频流的组合可以通过混合或插值或者声场操作的另一变形来完成。音频解码设备34可以将选择的流包括在音频输出中(411)。

图4B是图示图1A-1C的示例中所示的流选择单元基于时序信息控制对若干个音频流中的至少一个的访问的操作示例的流程图。在本示例中，时序信息是持续时间。在一些示例中，该时序信息可以是时序元数据。在一些示例中，该时序元数据可以被包括在音频元数据中。在一些情况下，内容创建者或来源可能希望在暂时时间段内提供更完整的体验。例如，内容提供者或来源可能希望在试图让用户升级他们的服务级别时，在广告或试用期这样做。

流选择单元44可以在内容消费者设备14的存储器中存储输入的音频流和信息，诸如与它们相关联的元数据，包括位置信息和开始时间元数据(421)。该流选择单元44可以获得位置信息(422)。流选择单元44可以通过例如在单个音频流的情况下从存储器读取位置信息来这样做，或者例如在隐私区域的情况下通过计算它来这样做。如上所述，该位置信息可以与声学空间中的捕获坐标相关联。持续时间元数据可以与每个流或隐私区域相关联，并且可以设置为任何持续时间。例如，在提供有限时间段的完整体验的示例中，源设备或内容消费者设备可以将持续时间设置为一小时(仅作为示例)。流选择单元44可以将持续时间与定时器进行比较(423)。如果定时器等于或大于持续时间，则流选择单元44可以排除与持续时间相关联的音频流或隐私区域，从而选择音频流的子集(424)。如果定时器小于持续时间，则流选择单元44将不排除那些流或隐私区域(425)。

与图4A的示例一样，如果持续时间被覆盖(为了简单起见未示出)，内容消费者设备14可以向源设备12发送消息，告诉它停止发送所排除的流并且发送另一消息以开始重新发送所排除的流。这样可以节省传输信道内的带宽。

在一个示例中，音频回放系统16可以基于与音频流或隐私区域相关联的持续时间来改变增益，从而增强或减弱音频输出。在另一示例中，音频回放系统可以不改变增益。音频解码设备34可以将两个或更多个选择的音频流组合在一起(426)。例如，选择的音频流的组合可以通过混合或插值或者声场操作的另一变形来完成。然后该音频解码设备34可以输出音频流的子集(427)。

通过使用开始时间和/或持续时间作为访问控制，即使当没有到源设备的连接时，流选择器单元44也可以保持访问控制。例如，当内容消费者设备14离线并且正在播放存储的音频时，流选择器单元44仍可以将开始时间与当前时间或持续时间与定时器进行比较并实现离线访问控制。

图4C是图示了图1A-1C的示例中所示的流选择单元执行流选择技术的各个方面的操作的示例的流程图(430)。源设备12可以使不同的声场可用，诸如FOA声场、较高阶立体混响声场(HOA)或MOA声场。内容消费者设备14的用户可以通过用户界面在内容消费者设备14上做出改变音频体验的请求(431)。例如，正在体验FOA声场的用户可能期望增强的体验并请求HOA或MOA声场。如果内容消费者设备接收到必要的系数并且被配置为改变立体混响声场类型(432)，则它然后可以改变立体混响声场类型(433)并且流选择单元44可以输出音频流(434)。如果内容消费者设备14没有接收到必要的系数或者没有被配置为改变立体混响声场类型，则内容消费者设备14可以向源设备12发送用于做出改变的请求(435)。源设备可以进行改变并将新的声场发送到内容消费者设备14。音频解码设备34然后可以接收新的声场(436)并输出音频流(437)。不同类型的立体混响声场的使用也可以与图4A的开始时间示例和图4B的持续时间示例一起使用。例如，内容消费者设备14可以使用一种立体混响声场类型，直到开始时间等于或大于当前时间，然后使用另一立体混响声场类型。或者内容消费者设备14可以使用一种立体混响声场类型直到定时器等于或大于持续时间，然后使用另一立体混响声场类型。

图4D和4E是进一步图示根据本发明中描述的技术的各个方面的时序信息(诸如时序元数据)的使用的图。示出了静态音频源441，诸如开启的麦克风。在一些示例中，静态音频源441可以是直播音频源。在其他示例中，静态音频源441可以是合成的音频源。还示出了动态音频源442，诸如在用户设置其何时记录的用户操作的移动手持机中。在一些示例中，动态音频源可以是直播音频源。在其他示例中，动态音频源442可以是合成的源。静态音频源441和/或动态音频源442中的一个或多个可以捕获音频信息443。控制器444可以处理音频信息443。在图4D中，控制器444可以在内容消费者设备14中的一个或多个处理器440中实现。在图4E中，控制器444可以在源设备12中的一个或多个处理器448中实现。该控制器444可以将音频信息划分为区域，创建音频流并用信息标记音频流(诸如元数据，包括关于音频源441和442的位置的位置信息，以及区域划分，包括区域的边界，例如通过质心和半径数据)。在一些示例中，控制器444可以以不同于元数据的方式提供位置信息。控制器444可以在线或离线执行这些功能。控制器444还可以向音频流或区域中的每一个分配时序信息(诸如时序元数据)，诸如开始时间信息或持续时间信息。控制器444可以向内容消费者设备14提供突发(例如，周期性)或固定(例如，持续)音频流和相关联的信息，诸如元数据。控制器444还可分配要应用于音频流的增益和/或清空。

流选择单元44可以在渲染期间使用时序元数据向用户提供突发或固定音频流。因此，用户的体验可能会根据时序元数据而改变。用户可以通过链接447请求控制器444覆盖时序元数据并改变用户对音频流或隐私区域的访问。

图4F和4G是图示根据本公开中描述的技术的各个方面的对更多访问的暂时请求的使用的图。在如图4F所示的示例中，内容消费者设备14向用户470渲染由所描绘的音频元素表示的音频流471、472和473。内容消费者设备14不渲染同样由音频元素表示的音频流474。在这种情况下，如果用户想要暂时提升他们的体验，他们可以通过用户界面发送请求以暂时授予他们对音频流474的访问。流选择器单元然后可以添加如图4G所示的音频流474。在一些示例中，内容消费者设备14可以向源设备12发送请求访问的消息。在其他示例中，流选择单元44可以在不向源设备12发送消息的情况下添加音频流474。

图4H和4I是图示根据本公开中描述的技术的各个方面的隐私区域的概念的图。用户480被示为在几组音频元素附近，每组音频元素表示一音频流。授权使用哪些流来成组地而不是单独地创建用户480的音频体验可能是有用的。例如，在会议的示例中，多个音频元素可能正在接收敏感信息。因此，可以创建隐私区域。

源设备12或内容消费者设备14可以分别为用户分配授权级别(例如，等级)和针对每个隐私区域的授权级别(例如，等级)。例如，控制器444可以分配增益和清空元数据，并且在该示例中，分配针对每个隐私区域的等级。例如，隐私区域481可能包含音频流4811、4812和4813。隐私区域482可能包含音频流4821、4822和4823。隐私区域483可能包含音频流4831、4832和4833。如表1所示，控制器444可以将这些音频流标记为属于它们各自的隐私区域并且也可以将增益和清空元数据与它们相关联。如表1所示，G是增益，并且N是清空或排除。在此示例中，用户480相对于隐私区域481和483的等级为2，但相对于隐私区域482的等级为3。如表中所示，流选择单元44将排除或清空区域482并且它将不可用于渲染，除非用户480要覆盖它。

所得到的渲染在图4H中示出。

区域	标记	元数据	等级
				461，463	4611-4613，4631-4633	G-20dB，N＝0	2
462	4621-4623	G-N/A，N＝1	3

表1

时序信息(诸如时序元数据)可用于暂时改变隐私区域中的一个或多个的等级。例如，源设备12可以为区域462分配持续时间，该持续时间将在一时间段(例如5分钟)内将等级提高到2。然后流选择器单元44在该持续时间内不会排除或清空隐私区域482。在另一示例中，源设备12可以将开始时间分配给12:00pm GMT的隐私区域461，这会将等级降低到3。然后流选择器单元44将排除隐私区域461。如果流选择器单元44两者都做，则用户将接收来自隐私区域462和463(而不是如图4I所示的461)的音频流。

内容消费者设备14可以使用时序信息(诸如时序元数据)和比较作为时间戳并将它们存储在存储器中作为维护每个区域的事件记录的方式。

图4J和4K是图示根据本公开的各个方面的音频渲染的服务的层的使用的图。用户480被描绘成被音频元素围绕。在本示例中，隐私区域482中的音频元素表示FOA声场。隐私区域481内的音频元素表示HOA或MOA声场。在图4J中，内容消费者设备14正在使用FOA声场。在本示例中，可以启用某些单独的流或流组以获得更好的音频插值。源设备12可能希望在暂时时间段内使更高分辨率的渲染可用，诸如用于更高分辨率渲染的广告或预告片。在另一示例中，如上面关于图4C所讨论的，用户可以要求更高分辨率的渲染。然后内容消费者设备14可以提供增强的体验，如图4K所示。

利用时序信息(诸如时序元数据)的另一方式是用于作为如下所述的6DOF用例的音频场景更新的一部分的节点修改。目前，音频场景更新是即时发生的，并且这并不总是期望的。图4L是图示根据本公开所述的技术的各个方面的状态转变的状态转变图。在这种情况下，时序信息是时序元数据，并且时序元数据是延迟(fireOnStartTime)和持续时间(updateDuration)。该时序元数据可以被包括在音频元数据中。

可能希望基于发生的条件更新用户体验的音频场景，但不是在发生该条件时立即更新它。还可能希望延长内容消费者设备14进行更新所花费的时间。这样，流选择单元44可以使用可修改的fireOnStartTime来延迟更新的开始并且使用updateDuration来改变完成更新所花费的时间，从而影响流的选择并以受控方式更新音频场景。源设备12或内容消费者设备14可以确定或修改fireOnStartTime和/或updateDuration。

可能发生条件(490)(诸如附近的汽车启动)，其可能使音频场景中的延迟更新变成希望的。源设备12或内容消费者设备14可以通过设置fireOnStartTime来设置延迟(491)。fireOnStartTime可以是延迟时间或音频场景更新开始的条件发生后的时间。流选择单元44可以将定时器与fireOnStartTime进行比较，并且如果定时器等于或大于fireOnStartTime，则开始音频场景的更新(492)。流选择单元44可以基于更新持续时间(493)在转变持续时间(494)期间更新音频场景并且当转变持续时间(494)过去时完成更新(495)。流选择单元44可以修改音频场景，如下表2中所讨论的：

表2

图4M是根据本公开所述技术的各个方面的车辆4000的说明。流选择单元44可以基于可修改的定时参数fireOnStartTime和updateDuration依次更新车辆的三个对象源(音频源)。内容消费者设备14或源设备12可以设置或修改这些参数。在本示例中，三个对象源是车辆4000的发动机4001、无线电4002和排气4003。源设备12或内容消费者设备14可以为每个对象源、发动机4001、无线电4002和排气4003分配其自己的本地触发时间(fireOnStartTime)和完成转变的持续时间(updateDuration)。流选择单元44可以应用fireOnStartTime而不管表2中提到的插值属性。流选择单元44还可将updateDuration视为插值属性的作用。例如，如果属性被设置为“真”，那么流选择单元44可以利用即dateDuration并且在即dateDuration的过程中进行更新，否则流选择单元44可以立即转变音频场景。

以下代码提供了根据本公开所述技术的各个方面的示例：

图4N是根据本公开所述技术的各个方面的移动车辆4100的说明。该说明表示当车辆4100在高速公路上导航时流选择单元44可以在位置上更新音频场景的场景。在这个示例中，存在五个对象源：发动机4101、轮胎14102、轮胎24103、无线电4104和排气4105。更新持续时间受影响后的位置更新为更新时间后的最终位置。更新持续时间之间的中间更新/插值作为音频渲染器的一部分应用，并且不同的插值方案可以根据个人喜好应用，或者可以是情境性的。下面的代码给出了示例：

这些技术在虚拟传送的情况下可能特别有用。在这种情况下，音频信号可能被用户感知为从虚拟传送图像所在的方向发出。虚拟图像可以是另一车辆或其他固定环境(例如，学校、办公室或家)中的不同乘客或驾驶员。虚拟图像(例如虚拟乘客)可以包括二维头像(avatar)数据或三维头像数据。当虚拟乘客说话时，听起来好像(多个)虚拟乘客位于头戴式耳机设备的数字显示器或由可耦接到头戴式耳机设备的(多个)相机观看的数字显示器上投影的位置(例如屏幕上的方位)。即，(多个)虚拟乘客可以耦接到二维音频信号或三维音频信号。二维音频信号或三维音频信号可以包括空间上位于虚拟图像相对于头戴式耳机设备上的数字显示器或耦接到头戴式耳机设备的数字显示器的屏幕的位置朝向的一个或多个音频对象(例如，人的语音)。生成二维或三维音频信号的扩音器可以安装并集成到头戴式耳机设备中。在其他实施例中，扩音器可以分布在车辆4100内的不同位置，并且可以渲染音频信号，使得来自音频流的声音被感知为位于虚拟传送图像所在的位置。在替代实施例中，“传送”可以是被传送的声音而不是虚拟图像。这样，在车辆中或佩戴头戴式耳机设备的人可能听到人的声音(sound)或语音(voice)，就好像这些人在他们附近一样，例如在他们旁边、在他们前面、在他们后面等。

在虚拟传送用例的音频元数据中包括“收听者事件触发器”可能是有用的，因为控制器可以通过触发器控制位置之间的收听者导航。控制器可以使用此收听者事件触发器来启动传送。

图4O是图示使用授权级别来基于时序信息控制对若干个音频流中的至少一个的访问的示例技术的流程图。现在讨论授权级别(430)的使用。流选择单元44可以确定用户1102的授权级别(504)。例如，用户1102可以具有与他们相关联的等级，如上面关于图4H和4I所讨论的。流选择单元44将用户1102的授权级别与一个或多个隐私区域的授权级别进行比较。例如，每个隐私区域可以具有相关联的授权级别，如上面关于图4H和4I所讨论的。流选择单元44可以基于比较选择若干个音频流的子集。例如，流选择单元44可以确定用户1102未被授权访问图4H的隐私区域482并且可以排除或清空区域482。因此，音频流4821、4822和4823将从若干个音频流的子集中排除。

图4P是图示使用触发器和延迟基于时序信息来控制对若干个音频流中的至少一个的访问的示例技术的流程图。现在讨论触发器和延迟(510)的使用。例如，流选择单元44可以检测触发器(512)。例如，流选择单元44可以检测本地触发时间，例如fireOnStartTime或收听者事件触发器。流选择单元44可以将延迟与定时器进行比较(514)。例如，流选择单元44可以将updateDuration或其他延迟与定时器进行比较。如果延迟小于定时器(图4P的“否”路径)，则流选择单元44可以继续将延迟与定时器进行比较。如果延迟大于或等于定时器，则流选择单元可以选择若干个音频流的子集(516)。以此方式，流选择单元可等待直到延迟等于或大于定时器以选择若干个音频流的子集。

图5是图示可以根据本公开中描述的技术的各个方面操作的可穿戴设备500的示例的图。在各种示例中，该可穿戴设备500可以表示VR头戴式耳机(诸如上述VR设备1100)、AR头戴式耳机、MR头戴式耳机或任何其他类型的扩展现实(XR)头戴式耳机。增强现实“AR”可以指叠加在用户实际所在的现实世界上的计算机渲染的图像或数据。混合现实“MR”可以指被世界锁定(world locked)到现实世界中特定位置的计算机渲染的图像或数据，或者可以指VR的一种变形，其中部分计算机渲染的3D元素和部分拍摄的现实元素被组合为模拟用户在环境中的物理存在的沉浸式体验。扩展现实“XR”可以表示VR、AR和MR的统称。更多有关XR术语的信息可以在Jason Peterson于2017年7月7日发布的题为“Virtual Reality，Augmented Reality，and Mixed Reality Definitions”的文档中找到。

可穿戴设备500可以表示其他类型的设备，诸如手表(包括所谓的“智能手表”)、眼镜(包括所谓的“智能眼镜”)、耳机(包括所谓的“无线耳机”和“智能耳机”)、智能服装、智能首饰等。无论表示VR设备、手表、眼镜、和/或耳机，可穿戴设备500均可经由有线连接或无线连接与支持该可穿戴设备500的计算设备进行通信。

在一些情况中，支持该可穿戴设备500的计算设备可以被集成在该可穿戴设备500内，这样，该可穿戴设备500可以被视为与支持该可穿戴设备500的计算设备相同的设备。在其他情况中，该可穿戴设备500可以与可支持该可穿戴设备500的单独计算设备进行通信。在这方面，术语“支持”不应被理解为需要单独的专用设备，而是可以将被配置为执行本公开中描述的技术的各个方面的一个或多个处理器集成在该可穿戴设备500中或集成在与该可穿戴设备500分离的计算设备中。

例如，当该可穿戴设备500表示VR设备1100时，单独的专用计算设备(诸如包括一个或多个处理器的个人计算机)可以渲染音频和视频内容，而该可穿戴设备500可以确定平移头部运动，一旦确定了平移头部运动，专用计算设备可以基于平移头部运动，根据本公开中描述的技术的各个方面渲染音频内容(作为扬声器馈送)。作为另一示例，当该可穿戴设备500表示智能眼镜时，该可穿戴设备500可以包括一个或多个处理器，该处理器既确定平移头部运动(通过与该可穿戴设备500的一个或多个传感器连接)，又基于确定的平移头部运动渲染扬声器馈送。

如图所示，该可穿戴设备500包括后置相机、一个或多个定向扬声器、一个或多个跟踪和/或记录相机，并且可以包括一个或多个发光二极管(LED)灯。在一些示例中，(多个)LED灯可以被称为(多个)“超亮”LED灯。另外，该可穿戴设备500包括一个或多个眼球跟踪相机、高灵敏度音频麦克风和光学/投影硬件。该可穿戴设备500的光学/投影硬件可以包括耐用的半透明显示技术和硬件。

该可穿戴设备500还包括连接性硬件，该连接性硬件可以表示支持多模式连接性(诸如4G通信、5G通信等)的一个或多个网络接口。该可穿戴设备500还包括环境光传感器、一个或多个相机和夜视传感器以及一个或多个骨传导换能器。在一些情况下，该可穿戴设备500还可以包括具有鱼眼镜头和/或远摄镜头的一个或多个无源和/或有源相机。将理解的是，该可穿戴设备500可以表现出多种不同的形状因子。

此外，跟踪和记录相机以及其他传感器可以促进平移距离的确定。尽管未在图5的示例中图示，但是，可穿戴设备500可以包括用于检测平移距离的其他类型的传感器。

尽管针对诸如上文关于图2的示例所讨论的VR设备1100和在图1A-1C的示例中阐述的其他设备的可穿戴设备的特定示例进行了描述，本领域普通技术人员将理解与图1A-1C和2有关的描述可适用于可穿戴设备的其他示例。例如，诸如智能眼镜的其他可穿戴设备可以包括通过其获得平移头部运动的传感器。作为另一示例，诸如智能手表的其他可穿戴设备可以包括通过其获得平移头部运动的传感器。因此，本公开中描述的技术不应限于特定类型的可穿戴设备，而是可以将任何可穿戴设备配置为执行本公开中描述的技术。

图6A和6B是图示可执行本公开中描述的技术的各个方面的示例系统的图。图6A图示了其中源设备12C还包括相机600的示例。相机600可以被配置为捕获视频数据并将捕获的原始视频数据提供给内容捕获设备20。内容捕获设备20可以将视频数据提供给源设备12C的另一组件，以进一步处理为视口划分(viewport-divided)的部分。

在图6A的示例中，内容消费者设备14C还包括VR设备1100。将理解的是，在各种实施方式中，VR设备1100可以被包括在内容消费者设备14C中或从外部耦接到内容消费者设备14C。VR设备1100包括显示硬件和扬声器硬件，用于输出视频数据(例如，与各种视口相关联)并用于渲染音频数据。

图6B图示了其中图6A中示出的音频渲染器32被能够使用一个或多个HRTF或能够渲染到左右扬声器馈送43的其他函数执行双耳渲染的双耳渲染器42替代的示例。内容消费者设备14D的音频回放系统16C可以将左右扬声器馈送43输出到耳机48。

耳机48可以经由有线连接(诸如标准的3.5mm音频插孔、通用系统总线(USB)连接、光学音频插孔或其他形式的有线连接)或无线地(诸如通过蓝牙^TM连接、无线网络连接等)耦接至音频回放系统16C。该耳机48可以基于左右扬声器馈送43来重建由音频数据表示的声场19′。耳机48可以包括左耳机扬声器和右耳机扬声器，它们由相应的左和右扬声器馈送43供电(或者换句话说，驱动)。

图7是图示了图1A-1C的示例中所示的源设备12和内容消费者设备14中的一个或多个的示例组件的框图。在图7的示例，设备710包括处理器712(其可被称为“一个或多个处理器”或“(多个)处理器”)、图形处理单元(GPU)714、系统存储器716、显示处理器718、一个或多个集成扬声器740、显示器703、用户界面720、天线721和收发器模块722。在设备710是移动设备的示例中，显示处理器718是移动显示处理器(MDP)。在一些示例中，诸如设备710是移动设备的示例，处理器712、GPU 714和显示处理器718可以被形成为集成电路(IC)。

例如，IC可以被认为是芯片封装内的处理芯片并且可以是片上系统(SoC)。在一些示例中，处理器712、GPU 714和显示处理器718中的两个可以一起容纳在同一IC中，而另一个可以容纳在不同的集成电路中(例如，不同的芯片封装)，或者所有三个可以容纳在不同的IC或在同一IC上。然而，在设备710是移动设备的示例中，处理器712、GPU 714和显示处理器718可能都容纳在不同的集成电路中。

处理器712、GPU 714和显示处理器718的示例包括但不限于一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其他等效的集成或分立逻辑电路。处理器712可以是设备710的中央处理单元(CPU)。在一些示例中，GPU 714可以是专用硬件，其包括为GPU 714提供适合图形处理的大规模并行处理能力的集成和/或离散逻辑电路。在一些情况下，GPU 714还可以包括通用处理能力，并且在实现通用处理任务(例如，非图形相关任务)时可以被称为通用GPU(GPGPU)。显示处理器718也可以是专门的集成电路硬件，其被设计为从系统存储器716中检索图像内容，将图像内容组合成图像帧，并将图像帧输出到显示器703。

处理器712可以执行各种类型的应用。应用的示例包括网络浏览器、电子邮件应用、电子表格、视频游戏、生成用于显示的可视对象的其他应用、或以上更详细列出的应用类型中的任何应用类型。系统存储器716可以存储用于执行应用的指令。处理器712上的应用中的一个的执行使处理器712产生要显示的图像内容的图形数据和(可能通过集成扬声器740)要播放的音频数据19。处理器712可以将图像内容的图形数据发送到GPU714，用于基于处理器712向GPU714发送的指令或命令进行进一步处理。

处理器712可以根据特定应用处理接口(API)与GPU714通信。此类API的示例包括

的

API、Khronos组的

或OpenGL

以及OpenCL^TM；然而，本公开的各方面不限于DirectX、OpenGL或OpenCLAPI，并且可以扩展到其他类型的API。此外，本公开中描述的技术不需要根据API运行，并且处理器712和GPU714可以利用任何处理进行通信。

系统存储器716可以是设备710的存储器。系统存储器716可以包括一个或多个计算机可读存储介质。系统存储器716的示例包括但不限于随机存取存储器(RAM)、电可擦除可编程只读存储器(EEPROM)、闪存、或可用于携带或存储以指令和/或数据结构形式的期望程序代码并且可由计算机或处理器访问的其他介质。

在一些示例中，系统存储器716可以包括使处理器712、GPU 714和/或显示处理器718执行本公开中归于处理器712、GPU 714和/或显示处理器718的功能的指令。因此，系统存储器716可以是其上存储有指令的计算机可读存储介质，这些指令在被执行时使一个或多个处理器(例如，处理器712、GPU 714和/或显示处理器718)执行各种功能。

系统存储器716可以包括非暂时性存储介质。术语“非暂时性”表示存储介质没有体现在载波或传播信号中。然而，术语“非暂时性”不应被解释为表示系统存储器716是不可移动的或其内容是静态的。作为一个示例，系统存储器716可以从设备710移除并且移动到另一设备。作为另一示例，基本上类似于系统存储器716的存储器可以被插入到设备710中。在某些示例中，非暂时性存储介质可以存储可随时间改变的数据(例如，在RAM中)。

用户界面720可以表示一个或多个硬件或虚拟(意味着硬件和软件的组合)用户界面，用户可以通过这些界面与设备710连接。用户界面720可以包括物理按钮、开关、拨动开关、灯或其虚拟版本。用户界面720还可以包括物理或虚拟键盘、触摸界面——诸如触摸屏、触觉反馈等。

处理器712可以包括一个或多个硬件单元(包括所谓的“处理核心”)，其被配置为执行上文关于内容创建者设备和/或内容消费者设备的任何模块、单元或其他功能组件中的一个或多个所讨论的操作的全部或部分。天线721和收发器模块722可以表示被配置为在源设备12和内容消费者设备14之间建立和维持连接的单元。天线721和收发器模块722可以表示能够根据一种或多种无线通信协议(诸如第五代(5G)蜂窝标准、个人区域网络(PAN)协议(诸如蓝牙TM)、或其他开源、专有或其他通信标准)进行无线通信的一个或多个接收器和/或一个或多个发送器。例如，收发器模块722可以接收和/或发送无线信号。收发器模块722可以表示单独的发送器、单独的接收器、单独的发送器和单独的接收器两者、或组合的发送器和接收器。天线721和收发器模块722可以被配置为接收编码的音频数据。同样地，天线721和收发器模块722可以被配置为发送编码的音频数据。

图8A-8C是图示了图1A-1C的示例中所示的流选择单元44执行流选择技术的各个方面的示例操作的流程图。首先参考图8A的示例，流选择单元44可以从所有启用的音频元素获得音频流27，其中音频流27可以包括对应的音频信息，例如元数据，诸如ALI 45A(800)。流选择单元44可以针对音频流27中的每一个执行能量分析以计算各自的能量图(802)。

接下来流选择单元44可基于与音频源308(如由音频源距离306A和/或306B所定义的)和音频元素(如通过上面讨论的接近距离所定义的)的接近度来通过音频元素(在CM 47中定义)的不同组合(804)进行迭代。如图8A所示，音频元素可以被排序或以其他方式与不同的访问权限相关联。流选择单元44可以基于由DLI 45B表示的收听者位置(这是指代“虚拟位置”或“设备位置”的另一方式)和由ALI 45A表示的音频元素位置，以上述识别是否需要音频流27的更大子集或音频流27的缩减子集的方式进行迭代(806、808)。

当需要音频流27的更大子集时，流选择单元44可以向音频数据19′添加(多个)音频元素，或者换言之，附加的(多个)音频流(诸如当用户离图3A的示例中的音频源更近时)(810)。当需要音频流27的缩减子集时，流选择单元44可以从音频数据19′中移除(多个)音频元素，或者换言之，现有的(多个)音频流(诸如当用户离图3A的示例中的音频源更远时)(812)。

在一些示例中，流选择单元44可以确定音频元素的当前星座是最优集合(或者，换言之，现有音频数据19′将与本文描述的选择过程保持相同导致相同的音频数据19′)(804)，并且该过程可以返回到802。然而，当音频流被添加到音频数据19′或从音频数据19′中移除时，流选择单元44可以更新CM 47(814)，生成星座历史(815)(包括位置、能量图等)。

此外，流选择单元44可以确定隐私设置是启用还是禁用音频元素的添加(其中隐私设置可以指限制对音频流27中的一个或多个的访问的数字访问权限，例如，通过密码、授权级别或等级、时间等)(816、818)。当隐私设置启用音频元素的添加时，流选择单元44可以将(多个)音频元素添加到更新的CM 47(其是指将(多个)音频流添加到音频数据19′)(820)。当隐私设置禁用音频元素的添加时，流选择单元44可以将(多个)音频元素从更新的CM 47中移除(其是指将(多个)音频流从音频数据19′中移除)(822)。以此方式，流选择单元44可识别新的启用的音频元素的集合(824)。

流选择单元44可以以这种方式迭代并根据任何给定频率更新各种输入。例如，流选择单元44可以以用户界面速率更新隐私设置(意味着通过经由用户界面输入的更新来驱动更新)。作为另一示例，流选择单元44可以以传感器速率更新位置(意味着位置通过音频元素的移动而改变)。流选择单元44还可以以音频帧率更新能量图(意味着能量图每帧更新)。

下面参考图8B的示例，除了流选择单元44可以不基于能量图来确定CM 47之外，流选择单元44可以上述关于图8A描述的方式操作。这样，流选择单元44可以从所有启用的音频元素获得音频流27，其中音频流27可以包括对应的音频信息，例如元数据，诸如ALI 45A(840)。流选择单元44可以确定隐私设置是启用还是禁用音频元素的添加(其中隐私设置可以指限制对音频流27中的一个或多个的访问的数字访问权限，例如，通过密码、授权级别或等级、时间等)(842、844)。

当隐私设置启用音频元素的添加时，流选择单元44可以将(多个)音频元素添加到更新的CM 47(其是指将(多个)音频流添加到音频数据19′)(846)。当隐私设置禁用音频元素的添加时，流选择单元44可以将(多个)音频元素从更新的CM 47移除(其是指将(多个)音频流从音频数据19′移除)(848)。以此方式，流选择单元44可识别新的启用的音频元素的集合(850)。流选择单元44可以通过CM 47中音频元素的不同组合进行迭代(852)以确定星座历史(854)，其表示音频数据19′。

流选择单元44可以以这种方式迭代并根据任何给定频率更新各种输入。例如，流选择单元44可以以用户界面速率更新隐私设置(意味着通过经由用户界面输入的更新来驱动更新)。作为另一示例，流选择单元44可以以传感器速率更新位置(意味着位置通过音频元素的移动而改变)。

下面参考图8C的示例，除了流选择单元44可以不基于隐私设置启用的音频元素来确定CM 47之外，流选择单元44可以上述关于图8A描述的方式操作。这样，流选择单元44可以从所有启用的音频元素获得音频流27，其中音频流27可以包括对应的音频信息，例如元数据，诸如ALI 45A(860)。流选择单元44可以针对音频流27中的每一个执行能量分析以计算各自的能量图(862)。

接下来流选择单元44可基于与音频源308(如由音频源距离306A和/或306B所定义的)和音频元素(如通过上面讨论的接近距离所定义的)的接近度来通过音频元素(在CM 47中定义)的不同组合(864)进行迭代。如图8C所示，音频元素可以被排序或以其他方式与不同的访问权限相关联。流选择单元44可以基于由DLI 45B表示的收听者位置(其再次指代上述“虚拟位置”或“设备位置”的另一方式)和由ALI 45A表示的音频元素位置，以上述识别是否需要音频流27的更大子集或音频流27的缩减子集的方式进行迭代(866、868)。

当需要音频流27的更大子集时，流选择单元44可以向音频数据19′添加(多个)音频元素，或者换言之，附加的(多个)音频流(诸如当用户离图3A的示例中的音频源更近时)(870)。当需要音频流27的缩减子集时，流选择单元44可以从音频数据19′中移除(多个)音频元素，或者换言之，现有的(多个)音频流(诸如当用户离图3A的示例中的音频源更远时)(872)。

在一些示例中，流选择单元44可以确定音频元素的当前星座是最优集合(或者，换言之，现有音频数据19′将与本文描述的选择过程保持相同导致相同的音频数据19′)(864)，并且该过程可以返回到862。然而，当音频流被添加到音频数据19′或从音频数据19′中移除时，流选择单元44可以更新CM 47(874)，生成星座历史(875)。

流选择单元44可以以这种方式迭代并根据任何给定频率更新各种输入。例如，流选择单元44可以以传感器速率更新位置(意味着位置通过音频元素的移动而改变)。流选择单元44还可以以音频帧率更新能量图(意味着能量图每帧更新)。

图9图示了根据本公开的各方面的无线通信系统100的示例。无线通信系统100包括基站105、UE 115和核心网络130。在一些示例中，无线通信系统100可以是长期演进(LTE)网络、高级LTE(LTE-A)网络、LTE-A Pro网络、第5代蜂窝网络、或新无线电(NR)网络。在一些情况下，无线通信系统100可以支持增强型宽带通信、超可靠(例如，任务关键)通信、低延时通信、或与低成本和低复杂度设备的通信。

基站105可以经由一个或多个基站天线与UE 115无线地通信。本文所述的基站105可以包括或者可以被本领域技术人员称为基站收发器、无线电基站、接入点、无线电收发器、NodeB、eNodeB(eNB)、下一代NodeB或千兆NodeB(其中的任一个都可以称为gNB)、家庭NodeB、家庭eNodeB或其他一些合适的术语。无线通信系统100可以包括不同类型的基站105(例如，宏小区基站或小小区基站)。本文所述的UE 115可以能够与各种类型的基站105和网络设备进行通信，包括宏eNB、小小区eNB、gNB、中继基站等。

每个基站105可以与特定的地理覆盖区域110相关联，在该地理覆盖区域110中支持与各个UE 115的通信。每个基站105可以经由通信链路125为相应的地理覆盖区域110提供通信覆盖，并且基站105和UE 115之间的通信链路125可以利用一个或多个载波。无线通信系统100中示出的通信链路125可以包括从UE 115到基站105的上行链路发送，或者从基站105到UE 115的下行链路发送。下行链路发送也可以称为前向链路发送，而上行链路发送也可以被称为反向链路发送。

可以将基站105的地理覆盖区域110划分为构成地理覆盖区域110的一部分的扇区，并且每个扇区可以与小区相关联。例如，每个基站105可以为宏小区、小小区、热点或其他类型的小区或其各种组合提供通信覆盖。在一些示例中，基站105可以是可移动的，并因此为移动的地理覆盖区域110提供通信覆盖。在一些示例中，与不同技术相关联的不同地理覆盖区域110可以重叠，并且与不同技术相关联的重叠的地理覆盖区域110可以由相同的基站105或不同的基站105来支持。无线通信系统100可以包括例如异构LTE/LTE-A/LTE-APro、第5代或NR网络，其中不同类型的基站105为各种地理覆盖区域110提供覆盖。

UE 115可以分散在整个无线通信系统100中，并且每个UE 115可以是静止的或移动的。UE 115也可以被称为移动设备、无线设备、远程设备、手持设备或订户设备，或一些其他合适的术语，其中“设备”也可以被称为单元、站、终端或客户端。UE 115还可以是个人电子设备，诸如蜂窝电话、个人数字助理(PDA)、平板计算机、膝上型计算机或个人计算机。在本公开的示例中，UE 115可以是本公开所描述的音频源中的任何音频源，包括VR头戴式耳机、XR头戴式耳机、AR头戴式耳机、车辆、智能手机、麦克风、麦克风阵列、或者包括麦克风或能够发送捕获和/或合成的音频流的任何其他设备。在一些示例中，UE 115还可以指代无线本地环路(WLL)站、物联网(IoT)设备、万物联网(IoE)设备或机器类型通信(MTC)设备等，它们可以在各种物品中实现，诸如电器、车辆、仪表等。

一些UE 115(诸如MTC或IoT设备)可以是低成本或低复杂性设备，并且可以提供机器之间的自动通信(例如，经由机器到机器(M2M)通信)。M2M通信或MTC可以指代允许设备在无需人工干预的情况下彼此通信或与基站105通信的数据通信技术。在一些示例中，M2M通信或MTC可以包括来自交换和/或使用音频元数据的设备的通信，该音频元数据可以包括用于影响音频流和/或音频源的时序元数据。

在一些情况下，UE 115也可以能够直接与其他UE 115通信(例如，使用对等(P2P)或设备对设备(D2D)协议)。利用D2D通信的一组UE 115中的一个或多个UE可以在基站105的地理覆盖区域110内。在该组中的其他U E115可以在基站105的地理覆盖区域110之外，或者在其他情况下不能从基站105接收发送。在一些情况下，经由D2D通信进行通信的多组UE115可以利用一对多(1：M)系统，在该系统中每个UE 115向该组中的每个其他UE 115进行发送。在一些情况下，基站105促进用于D2D通信的资源调度。在其他情况下，在UE 115之间执行D2D通信而无需基站105的参与。

基站105可以与核心网络130通信并且可以彼此通信。例如，基站105可以通过回程链路132(例如，经由S1、N2、N3或其他接口)与核心网络130接口。基站105可以直接(例如，直接在基站105之间)或间接(例如，经由核心网络130)地通过回程链路134(例如，经由X2、Xn或其他接口)彼此通信。

在一些情况下，无线通信系统100可以利用许可和未许可的射频谱带两者。例如，无线通信系统100可以在诸如5GHz工业、科学、医疗(ISM)频带的未许可频带中采用许可辅助接入(LAA)、未许可LTE(LTE-U)无线电接入技术或NR技术。当在未许可射频谱带中进行操作时，诸如基站105和UE 115的无线设备可以采用对话前侦听(LBT)过程，以确保在发送数据之前频率信道是畅通的。在一些情况下，未许可频带中的操作可以基于载波聚合配置连同在许可频带(例如，LAA)中操作的分量载波。未许可频谱中的操作可以包括下行链路发送、上行链路发送、对等发送或这些发送的组合。未许可频谱中的双工可以基于频分双工(FDD)、时分双工(TDD)或两者的组合。

根据本公开的技术，单个音频流可被限制渲染或可基于时序信息(诸如时间或持续时间)暂时地渲染。为了更好的音频插值，某些单个音频流或音频流集群可以在固定的持续时间内启用或禁用。因此，本公开的技术提供了基于时间控制对音频流的访问的灵活方式。

应当注意，本文所描述的方法描述了可能的实施方式，并且操作和步骤可以被重新布置或以其他方式修改，并且其他实施方式是可能的。此外，可以组合来自这些方法中的两种或更多种的方面。

应当认识到，根据示例，本文描述的任何技术的某些动作或事件可以以不同的顺序执行，可以被添加、合并或完全省略(例如，并非所有描述的动作或事件都是实践技术所必需的)。此外，在某些示例中，动作或事件可以例如通过多线程处理、中断处理或多个处理器并发地而不是顺序地执行。

在一些示例中，VR设备(或流送设备)可以使用耦接至VR/流送设备的存储器的网络接口将交换消息传达到外部设备，其中，交换消息与声场的多个可用表示相关联。在一些示例中，VR设备可以使用耦接到网络接口的天线来接收无线信号，该无线信号包括与声场的多个可用表示相关联的数据分组、音频分组、视频协定或传输协议数据。在一些示例中，一个或多个麦克风阵列可以捕获该声场。

在一些示例中，存储到存储器设备的声场的多个可用表示可以包括声场的多个基于对象的表示、声场的更高阶立体混响表示、声场的混阶立体混响表示、声场的基于对象的表示和声场的更高阶立体混响表示的组合、声场的基于对象的的表示和声场的混阶立体混响表示的组合、或者声场的混阶表示和声场的更高阶立体混响表示的组合。

在一些示例中，声场的多个可用表示中的声场表示中的一个或多个可以包括至少一个高分辨率区域和至少一个较低分辨率区域，并且其中基于转向角的所选择的表示针对至少一个高分辨率区域提供更高的空间精度并且针对较低分辨率区域提供更低的空间精度。

本公开包括以下示例。

示例1一种设备，被配置为播放若干个音频流中的一个或多个，包括：存储器，其被配置为存储时序元数据、若干个音频流和相应的音频元数据、以及与声学空间的坐标相关联的位置信息，其中若干个音频流中的相应一个在该声学空间中被捕获；以及耦接到该存储器的一个或多个处理器，并且被配置为：基于时序元数据和位置信息选择若干个音频流的子集，若干个音频流的子集排除若干个音频流中的至少一个。

示例2根据示例1所述的设备，其中该一个或多个处理器还被配置为获得该位置信息。

示例3根据示例2的设备，其中所排除的流与一个或多个隐私区域相关联，并且该一个或多个处理器通过确定该位置信息来获得该位置信息。

示例4根据示例2所述的设备，其中该一个或多个处理器通过从该存储器读取该位置信息来获得该位置信息。

示例5根据示例1-4的任何组合的设备，其中一个或多个处理器还被配置为组合若干个音频流的子集中的至少两个。

示例6根据示例5的设备，其中一个或多个处理器通过混合或插值中的至少一种来组合若干个音频流的子集中的至少两个。

示例7根据示例1-6的任何组合的设备，其中一个或多个处理器还被配置为改变若干个音频流的子集中的一个或多个的增益。

示例8根据示例1-7的任何组合的设备，其中时序元数据包括若干个音频流中的至少一个包括音频内容时的开始时间。

示例9根据示例8的设备，其中一个或多个处理器被配置为：将开始时间与当前时间进行比较；以及当开始时间等于或大于当前时间，选择若干个音频流的子集。

示例10根据示例1-9的任何组合的设备，其中时序元数据包括若干个音频流中的至少一个的持续时间。

示例11根据示例10的设备，其中一个或多个处理器被配置为：将持续时间与计时器进行比较；并且当该持续时间等于或大于定时器时，选择若干个音频流的子集。

示例12根据示例10的设备，其中一个或多个处理器还被配置为：基于位置信息选择若干个音频流的第二子集，若干个音频流的第二子集排除若干个音频流中的至少一个：并且通过该持续时间在若干个音频流的子集和若干个音频流的第二子集之间进行插值。

示例13根据示例1-12的任何组合的设备，其中一个或多个处理器还被配置为：从用户获得选择若干个音频流的子集的请求；并且基于用户请求、位置信息和时序元数据，选择若干个音频流的子集。

示例14根据示例1-13的任何组合的设备，其中时序元数据是从源设备接收的。

示例15根据示例1-13的设备，其中一个或多个处理器还被配置为生成时序元数据。

示例16根据示例1-15的设备，其中一个或多个处理器被配置为：从用户获得对若干个立体混响声场类型中的一个的请求；并且基于对若干个立体混响声场类型中的一个的请求以及若干个音频流或若干个音频流的子集，再现相应的声场。

示例17根据示例16的设备，其中所述若干个立体混响声场类型包括一阶立体混响声场(FOA)、更高阶立体混响声场(HOA)和混阶立体混响声场(MOA)中的至少两个。

示例18根据示例1-17的任何组合的设备，还包括显示设备。

示例19根据示例18的设备，还包括麦克风，其中所述一个或多个处理器还被配置为从所述麦克风接收语音命令并基于所述语音命令控制所述显示设备。

示例20根据示例1-19的任何组合的设备，还包括一个或多个扬声器。

示例21根据示例1-20的任何组合的设备，其中该设备包括扩展现实头戴式耳机，并且其中声学空间包括由相机捕获的视频数据表示的场景。

示例22根据示例1-20的任何组合的设备，其中该设备包括扩展现实头戴式耳机，并且其中声学空间包括虚拟世界。

示例23根据示例1-22的任何组合的设备，还包括被配置为呈现该声学空间的头戴式显示器。

示例24根据示例1-20的任何组合的设备，其中该设备包括移动手持机。

示例25根据示例1-24的任何组合的设备，还包括无线收发器，该无线收发器耦接到一个或多个处理器并且被配置为接收无线信号。

示例26根据示例25的设备，其中无线信号是蓝牙。

示例27根据示例25的设备，其中无线信号是5G。

示例28根据示例1-27的任何组合的设备，其中该设备包括车辆。

示例29根据示例1-25的任何组合的设备，其中该时序元数据包括延迟，并且其中一个或多个处理器还被配置为：检测触发器；将延迟与计时器进行比较；并且等待直到延迟等于或大于定时器以选择若干个音频流的子集。

示例30一种播放若干个音频流中的一个或多个的方法，包括：由存储器存储时序元数据、若干个音频流和相应的音频元数据、以及与声学空间的坐标相关联的位置信息，其中若干个音频流中的相应一个在该声学空间中被捕获；以及由该一个或多个处理器基于时序元数据和位置信息选择若干个音频流的子集，其中若干个音频流的子集排除若干个音频流中的至少一个。

示例31根据示例30的方法，还包括由一个或多个处理器获得位置信息。

示例32根据示例31的方法，其中所排除的流与一个或多个隐私区域相关联，并且通过确定该位置信息来获得该位置信息。

示例33根据示例31所述的方法，其中通过从该存储器读取该位置信息来获得该位置信息。

示例34根据示例31-33的任何组合的方法，还包括由该一个或多个处理器组合若干个音频流的子集中的至少两个。

示例35根据示例34的方法，其中通过混合或插值中的至少一种来组合若干个音频流的子集中的至少两个。

示例36根据示例30-35的任何组合的方法，还包括由该一个或多个处理器改变若干个音频流的子集中的一个或多个的增益。

示例37根据示例30-36的任何组合的方法，其中时序元数据包括若干个音频流中的至少一个包括音频内容时的开始时间。

示例38根据示例37的方法，还包括：由一个或多个处理器将开始时间与当前时间进行比较；当开始时间等于或大于当前时间时，由一个或多个处理器选择若干个音频流的子集。

示例39根据示例30-38的任何组合的方法，其中时序元数据包括若干个音频流中的至少一个的持续时间。

示例40根据示例39的方法，还包括：由一个或多个处理器将持续时间与定时器进行比较；并且当持续时间等于或大于定时器时，由该一个或多个处理器选择若干个音频流的子集。

示例41根据示例39的方法，还包括：由该一个或多个处理器基于位置信息选择若干个音频流的第二子集，该若干个音频流的第二子集排除该若干个音频流中的至少一个：并且由该一个或多个处理器通过该持续时间在若干个音频流的子集和若干个音频流的第二子集之间进行插值。

示例42根据示例30-41的任何组合的方法，还包括：从用户获得选择若干个音频流的子集的请求；并且基于用户请求、位置信息和时序元数据，由该一个或多个处理器选择若干个音频流的子集。

示例43根据示例30-42的任何组合的方法，其中时序元数据是从源设惫接收的。

示例44根据示例30-42的任何组合的方法，还包括由该一个或多个处理器生成该时序元数据。

示例45根据示例30-44的任何组合的方法，还包括：从用户获得对若干个立体混响声场类型中的一个的请求；并且基于对若干个立体混响声场类型中的一个的请求以及若干个音频流或若干个音频流的子集，由该一个或多个处理器再现相应的声场。

示例46根据示例45的方法，其中若干个立体混响声场类型包括一阶立体混响声场(FOA)、更高阶立体混响声场(HOA)和混阶立体混响声场(MOA)中的至少两个。

示例47根据示例30-46的任何组合的方法，还包括麦克风，接收语音命令并且由一个或多个处理器基于语音命令控制显示设备。

示例48根据示例30-47的任何组合的方法，还包括将若干个音频流的子集输出到该一个或多个扬声器。

示例49根据示例30-48的任何组合的方法，其中该声学空间包括由相机捕获的视频数据表示的场景。

示例50根据示例30-48的任何组合的方法，其中该声学空间包括虚拟世界。

示例51根据示例30-50的任何组合的方法，还包括由该一个或多个处理器在头戴式设备上呈现该声学空间。

示例52根据示例30-51的任何组合的方法，还包括由该一个或多个处理器在移动手持机上呈现该声学空间。

示例53根据示例30-52的任何组合的方法，还包括接收无线信号。

示例54根据示例53的方法，其中无线信号是蓝牙。

示例55根据示例53的方法，其中无线信号是5G。

示例56根据示例30-55的任何组合的方法，还包括由该一个或多个处理器在车辆内呈现该声学空间。

示例57根据示例30-56的任何组合的方法，其中该时序元数据包括延迟，并且其中该方法还包括：由该一个或多个处理器检测触发器；由该一个或多个处理器将延迟与计时器进行比较；并且等待直到延迟等于或大于定时器以选择若干个音频流的子集。

示例58一种设备，被配置为播放若干个音频流中的一个或多个，该设备包括：用于存储时序元数据、若干个音频流和相应的音频元数据、以及与声学空间的坐标相关联的位置信息的部件，其中若干个音频流中的相应一个在该声学空间中被捕获；以及用于基于时序元数据和位置信息选择若干个音频流的子集的部件，该若干个音频流的子集排除若干个音频流中的至少一个。

示例59根据示例58的设备，还包括用于获得位置信息的部件。

示例60根据示例59的设备，其中所排除的流与一个或多个隐私区域相关联，并且通过确定该位置信息来获得该位置信息。

示例61根据示例59的设备，其中通过从该存储器读取该位置信息来获得该位置信息。

示例62根据示例58-60的任何组合的设备，还包括用于组合若干个音频流的子集中的至少两个的部件。

示例63根据示例62的设备，其中通过混合或插值中的至少一种来组合若干个音频流的子集中的至少两个。

示例64根据示例58-63的任何组合的设备，还包括用于改变若干个音频流的子集中的一个或多个的增益的部件。

示例65根据示例58-64的任何组合的设备，其中时序元数据包括若干个音频流中的至少一个包括音频内容时的开始时间。

示例66根据示例65的设备，还包括用于将开始时间与当前时间进行比较的部件；以及用于当开始时间等于或大于该当前时间时选择若干个音频流的子集的部件。

示例67根据示例58-66的任何组合的设备，其中时序元数据包括若干个音频流中的至少一个的持续时间。

示例68根据示例67的设备，还包括用于将持续时间与定时器进行比较的部件；以及用于当持续时间等于或大于该定时器时选择若干个音频流的子集的部件。

示例69根据示例67的设备，还包括：用于基于位置信息用于选择若干个音频流的第二子集的部件，该若干个音频流的第二子集排除若干个音频流中的至少一个：以及用于通过该持续时间在若干个音频流的子集和若干个音频流的第二子集之间进行插值的部件。

示例70根据示例58-69的任何组合的设备，还包括：用于从用户获得选择若干个音频流的子集的请求的部件；并且用于基于用户请求、位置信息和时序元数据选择若干个音频流的子集的部件。

示例71根据示例58-70的任何组合的设备，其中时序元数据是从源设备接收的。

示例72根据示例58-70的任何组合的设备，还包括用于生成该时序元数据的部件。

示例73根据示例58-72的任何组合的设备，还包括：用于从用户获得对若干个立体混响声场类型中的一个的请求的部件；以及用于基于对若干个立体混响声场类型中的一个的请求以及若干个音频流或若干个音频流的子集再现相应的声场的部件。

示例74根据示例73的设备，其中若干个立体混响声场类型包括一阶立体混响声场(FOA)、更高阶立体混响声场(HOA)和混阶立体混响声场(MOA)中的至少两个。

示例75根据示例58-74的任何组合的设备，还包括用于接收语音命令的部件以及用于基于该语音命令控制显示设备的部件。

示例76根据示例58-75的任何组合的设备，还包括用于将若干个音频流的子集输出到该一个或多个扬声器的部件。

示例77根据示例58-76的任何组合的设备，其中该声学空间包括由相机捕获的视频数据表示的场景。

示例78根据示例58-76的任何组合的设备，其中该声学空间包括虚拟世界。

示例79根据示例58-78的任何组合的设备，还包括用于在头戴式设备上呈现该声学空间的部件。

示例80根据示例58-78的任何组合的设备，还包括用于在移动手持机上呈现该声学空间的部件。

示例81根据示例58-80的任何组合的设备，还包括用于接收无线信号的部件。

示例82根据示例81的设备，其中无线信号是蓝牙。

示例83根据示例81的设备，其中无线信号是5G。

示例84根据示例58-83的任何组合的设备，还包括用于在车辆内呈现该声学空间的部件。

示例85根据示例58-84的任何组合的设备，其中该时序元数据包括延迟，并且其中该设备还包括：用于检测触发器的部件；用于将延迟与计时器进行比较的部件；并且用于等待直到延迟等于或大于定时器以选择若干个音频流的子集的部件。

示例86一种在其上存储有指令的非暂时性计算机可读存储介质，这些指令在执行时会使一个或多个处理器：存储时序元数据、该若干个音频流和相应的音频元数据、以及与声学空间的坐标相关联的位置信息，其中若干个音频流中的相应一个在该声学空间中被捕获；以及基于时序元数据和位置信息选择若干个音频流的子集，该若干个音频流的子集排除若干个音频流中的至少一个。

示例87根据示例86的非暂时性计算机可读存储介质，还包括在被执行时使一个或多个处理器获得位置信息的指令。

示例88根据示例87的非暂时性计算机可读存储介质，其中所排除的流与一个或多个隐私区域相关联，并且该一个或多个处理器通过确定该位置信息来获得该位置信息。

示例89根据示例87的非暂时性计算机可读存储介质，其中该一个或多个处理器通过从该存储器读取该位置信息来获得该位置信息。

示例90根据示例86-89的任何组合的非暂时性计算机可读存储介质，还包括在被执行时使一个或多个处理器组合若干个音频流的子集中的至少两个的指令。

示例91根据示例90的非暂时性计算机可读存储介质，其中通过混合或插值中的至少一种来组合若干个音频流的子集中的至少两个。

示例92根据示例86-91的任何组合的非暂时性计算机可读存储介质，还包括在被执行时使一个或多个处理器改变若干个音频流的子集中的一个或多个的增益的指令。

示例93根据示例86-92的任何组合的非暂时性计算机可读存储介质，其中时序元数据包括若干个音频流中的至少一个包括音频内容时的开始时间。

示例94根据示例93的非暂时性计算机可读存储介质，还包括在被执行时使一个或多个处理器执行以下操作的指令：将开始时间与当前时间进行比较；以及当开始时间等于或大于当前时间，选择若干个音频流的子集。

示例95根据示例86-94的任何组合的非暂时性计算机可读存储介质，其中时序元数据包括若干个音频流中的至少一个的持续时间。

示例96根据示例95的非暂时性计算机可读存储介质，还包括在被执行时使一个或多个处理器执行以下操作的指令：将持续时间与定时器进行比较；以及当持续时间等于或大于定时器，选择若干个音频流的子集。

示例97根据示例95的非暂时性计算机可读存储介质，还包括在被执行时使一个或多个处理器执行以下操作的指令：基于位置信息选择若干个音频流的第二子集，若干个音频流的第二子集排除若干个音频流中的至少一个：并且通过该持续时间在若干个音频流的子集和若干个音频流的第二子集之间进行插值。

示例98根据示例86-97的任何组合的非暂时性计算机可读存储介质，还包括在被执行时使一个或多个处理器执行以下操作的指令：从用户获得选择若干个音频流的子集的请求；并且基于用户请求、位置信息和时序元数据，选择若干个音频流的子集。

示例99根据示例86-98的任何组合的非暂时性计算机可读存储介质，其中时序元数据是从源设备接收的。

示例100根据示例86-99的非暂时性计算机可读存储介质，还包括在被执行时使一个或多个处理器生成时序元数据的指令。

示例101根据示例86-100的非暂时性计算机可读存储介质，还包括在被执行时使一个或多个处理器执行以下操作的指令：

从用户获得对若干个立体混响声场类型中的一个的请求；以及

基于对若干个立体混响声场类型中的一个的请求以及所述若干个音频流或所述若干个音频流的子集，再现相应的声场。

示例102根据示例101的非暂时性计算机可读存储介质，其中若干个立体混响声场类型包括一阶立体混响声场(FOA)、更高阶立体混响声场(HOA)和混阶立体混响声场(MOA)中的至少两个。

示例103根据示例86-102的任何组合的非暂时性计算机可读存储介质，还包括在被执行时使一个或多个处理器从麦克风接收语音命令并基于该语音命令控制显示设备的指令。

示例104根据示例86-103的任何组合的非暂时性计算机可读存储介质，还包括在被执行时使一个或多个处理器将若干个音频流的子集输出到一个或多个扬声器的指令。

示例105根据示例86-104的任何组合的非暂时性计算机可读存储介质，其中该声学空间包括由相机捕获的视频数据表示的场景。

示例106根据示例86-104的任何组合的非暂时性计算机可读存储介质，其中该声学空间包括虚拟世界。

示例107根据示例86-106的任何组合的非暂时性计算机可读存储介质，还包括在被执行时使一个或多个处理器在头戴式设备上呈现该声学空间的指令。

示例108根据示例86-107的任何组合的非暂时性计算机可读存储介质，还包括在被执行时使一个或多个处理器在移动手持机上呈现该声学空间的指令。

示例109根据示例86-108的任何组合的非暂时性计算机可读存储介质，还包括在被执行时使一个或多个处理器接收无线信号的指令。

示例110根据示例109的非暂时性计算机可读存储介质，其中无线信号是蓝牙。

示例111根据示例109的非暂时性计算机可读存储介质，其中无线信号是5G。

示例112根据示例86-111的任何组合的非暂时性计算机可读存储介质，还包括在被执行时使一个或多个处理器在车辆内呈现该声学空间的指令。

示例113根据示例86-112的任何组合的非暂时性计算机可读存储介质，其中该时序元数据包括延迟，并且该非暂时性计算机可读存储介质还包括在被执行时使一个或多个处理器执行以下操作的指令：检测触发器；将延迟与计时器进行比较；并且等待直到延迟等于或大于定时器以选择若干个音频流的子集。

在一个或多个示例中，可以以硬件，软件，固件或其任何组合来实现所描述的功能。如果以软件实现，则功能可以作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质发送，并由基于硬件的处理单元执行。计算机可读介质可以包括计算机可读存储介质，其对应于诸如数据存储介质的有形介质，或者通信介质，包括例如根据通信协议来促进将计算机程序从一个地方转移到另一地方的任何介质。以这种方式，计算机可读介质通常可以对应于(1)非暂时性的有形计算机可读存储介质，或者(2)诸如信号或载波的通信介质。数据存储介质可以是可由一台或多台计算机或一个或多个处理器访问以检索指令、代码和/或数据结构以实现本公开中描述的技术的任何可用介质。计算机程序产品可以包括计算机可读介质。

作为示例而非限制，这种计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光学盘存储、磁盘存储或其他磁存储设备，闪存、或可用于以指令或数据结构的形式存储所需的程序代码并且可以由计算机访问的任何其他介质。此外，任何连接都适当地被称为计算机可读介质。例如，如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或者诸如红外、无线电和微波的无线技术从网站、服务器或其他远程源发送指令，则同轴电缆、光纤电缆、双绞线、DSL或者诸如红外、无线电和微波的无线技术被包括在介质的定义中。然而，应当理解，计算机可读存储介质和数据存储介质排除连接、载波、信号或其他暂时性介质，而是针对非暂时性的有形存储介质。本文使用的磁盘和光盘包括致密盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘和蓝光光盘，其中磁盘通常以磁性方式再现数据，而光盘则利用激光以光学方式再现数据。以上的组合也应被包括在计算机可读介质的范围内。排除

指令可以由一个或多个处理器执行，诸如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他等效的集成或离散逻辑电路。因此，如本文所使用的术语“处理器”可以指任何前述结构或适合于实现本文描述的技术的任何其他结构。另外，在一些方面，本文描述的功能可以在被配置用于编码和解码的专用硬件和/或软件模块内提供，或结合在组合编解码器中。同样，该技术可以在一个或多个电路或逻辑元件中完全实现。

本公开的技术可以在包括无线手持机、集成电路(IC)或IC集(例如，芯片集)的多种设备或装置中实现。在本发明中描述各种组件、模块或单元以强调被配置为执行所公开的技术的装置的功能方面，但不一定需要由不同硬件单元来实现。相反，如上所述，各种单元可以组合在编解码器硬件单元中，或者由互操作硬件单元的集合结合合适的软件和/或固件来提供，该互操作硬件单元的集合包括如上所述的一个或多个处理器。

已经对各种示例进行了描述。这些示例以及其他示例都在所附权利要求的范围内。

Claims

1.一种设备，被配置为播放若干个音频流中的一个或多个，所述设备包括：

存储器，被配置为存储时序信息和所述若干个音频流；以及

一个或多个处理器，耦接到所述存储器并且被配置为基于所述时序信息控制对所述若干个音频流中的至少一个的访问。

2.根据权利要求1所述的设备，其中所述存储器还被配置为存储与声学空间的坐标相关联的位置信息，其中所述若干个音频流的相应一个在所述声学空间中被捕获或合成。

3.根据权利要求1所述的设备，其中所述一个或多个处理器被配置为通过选择所述若干个音频流的子集来控制对所述若干个音频流中的至少一个的访问，所述若干个音频流的子集排除所述若干个音频流中的至少一个。

4.根据权利要求3所述的设备，其中所排除的流与一个或多个隐私区域相关联。

5.根据权利要求4所述的设备，其中所述一个或多个处理器还被配置为：

确定用户的授权级别；

将所述用户的授权级别与所述一个或多个隐私区域的授权级别进行比较；以及

基于所述比较选择所述若干个音频流的子集。

6.根据权利要求3所述的设备，其中，所述一个或多个处理器还被配置为：

从用户获得用于添加所述若干个音频流中的至少一个排除的音频流的覆盖请求；以及

基于所述覆盖请求，在有限的时间段内添加所述至少一个排除的音频流。

7.根据权利要求1所述的设备，其中所述一个或多个处理器被配置为通过基于所述时序信息不下载或接收所述若干个音频流中的至少一个来控制对所述若干个音频流中的至少一个的访问。

8.根据权利要求1所述的设备，其中所述时序信息包括所述若干个音频流中的至少一个包括音频内容时的开始时间。

9.根据权利要求8所述的设备，其中，所述一个或多个处理器被配置为：

将所述开始时间与当前时间进行比较；以及

当所述开始时间等于或大于所述当前时间时，选择所述若干个音频流的子集。

10.根据权利要求1所述的设备，其中所述时序信息包括所述若干个音频流中的至少一个的持续时间。

11.根据权利要求10所述的设备，其中，所述一个或多个处理器被配置为：

将所述持续时间与定时器进行比较；以及

当所述持续时间等于或大于所述定时器时，选择所述若干个音频流的子集。

12.根据权利要求1所述的设备，其中，所述一个或多个处理器被配置为：

基于对若干个立体混响声场类型中的一个的所述请求和所述若干个音频流或所述若干个音频流的子集，再现相应的声场，

其中所述若干个立体混响声场类型包括一阶立体混响声场(FOA)、更高阶立体混响声场(HOA)和混阶立体混响声场(MOA)中的至少两个。

13.根据权利要求1所述的设备，其中所述时序信息包括延迟，并且其中所述一个或多个处理器还被配置为：

检测触发器；

将所述延迟与定时器进行比较；以及

等待直到所述延迟等于或大于所述定时器以选择所述若干个音频流的子集。

14.根据权利要求1所述的设备，其中所述一个或多个处理器还被配置为通过混合或插值中的至少一种或声场操纵的另一变形来组合所述若干个音频流中的至少两个。

15.根据权利要求1所述的设备，其中所述一个或多个处理器还被配置为改变所述若干个音频流中的一个或多个的增益。

16.根据权利要求1所述的设备，还包括显示设备。

17.根据权利要求16所述的设备，还包括麦克风，其中所述一个或多个处理器还被配置为从所述麦克风接收语音命令并基于所述语音命令控制所述显示设备。

18.根据权利要求1所述的设备，还包括一个或多个扬声器。

19.根据权利要求1所述的设备，其中所述设备包括扩展现实头戴式耳机，并且

其中声学空间包括由相机捕获的视频数据表示的场景。

20.根据权利要求1所述的设备，其中所述设备包括扩展现实头戴式耳机，并且其中声学空间包括虚拟世界。

21.根据权利要求1所述的设备，还包括被配置为呈现声学空间的头戴式显示器。

22.根据权利要求1所述的设备，其中所述设备包括移动手持机或车辆中的一个。

23.根据权利要求1所述的设备，还包括无线收发器，所述无线收发器耦接到所述一个或多个处理器并且被配置为接收无线信号。

24.一种播放若干个音频流中的一个或多个的方法，包括：

由存储器存储时序信息和所述若干个音频流；以及

基于所述时序信息控制对所述若干个音频流中的至少一个的访问。

25.根据权利要求24所述的方法，还包括存储与声学空间的坐标相关联的位置信息，其中所述若干个音频流的相应一个在所述声学空间中被捕获或合成。

26.根据权利要求24所述的方法，其中控制对所述若干个音频流中的至少一个的访问包括选择所述若干个音频流的子集，所述若干个音频流的所述子集排除所述若干个音频流中的至少一个。

27.根据权利要求26所述的方法，其中所排除的流与一个或多个隐私区域相关联。

28.根据权利要求27所述的方法，还包括：

确定用户的授权级别；

基于所述比较选择所述若干个音频流的子集。

29.根据权利要求26所述的方法，还包括：

30.根据权利要求24所述的方法，其中控制对所述若干个音频流中的至少一个的访问包括基于所述时序信息不下载或接收所述若干个音频流中的至少一个。

31.根据权利要求24所述的方法，其中所述时序信息包括所述若干个音频流中的至少一个包括音频内容时的开始时间。

32.根据权利要求31所述的方法，还包括：

将所述开始时间与当前时间进行比较；以及

33.根据权利要求24所述的方法，其中所述时序信息包括所述若干个音频流中的至少一个的持续时间。

34.根据权利要求33所述的方法，还包括：

将所述持续时间与定时器进行比较；以及

35.根据权利要求24所述的方法，还包括：

36.根据权利要求24所述的方法，其中所述时序信息包括延迟，还包括：

检测触发器；

将所述延迟与定时器进行比较；以及

在选择所述若干个音频流的子集前等待直到所述延迟等于或大于所述定时器。

37.根据权利要求24所述的方法，还包括通过混合或插值中的至少一种或声场操纵的另一变形来组合所述若干个音频流中的至少两个。

38.根据权利要求24所述的方法，还包括改变所述若干个音频流中的一个或多个的增益。

39.根据权利要求24所述的方法，还包括通过麦克风接收语音命令并基于所述语音命令控制显示设备。

40.根据权利要求24所述的方法，还包括将所述若干个音频流中的至少一个输出到一个或多个扬声器。

41.根据权利要求24所述的方法，其中声学空间包括由相机捕获的视频数据表示的场景。

42.根据权利要求24所述的方法，其中声学空间包括虚拟世界。

43.根据权利要求24所述方法，还包括在头戴式设备上呈现声学空间。

44.根据权利要求24所述的方法，还包括在移动手持机上或在车辆内呈现声学空间。

45.根据权利要求24所述的方法，还包括接收无线信号。

46.一种其上存储有指令的非暂时性计算机可读存储介质，这些指令在执行时使一个或多个处理器：

存储时序信息和若干个音频流；以及

47.一种设备，被配置为播放若干个音频流中的一个或多个，所述设备包括：

用于存储时序信息和若干个音频流的部件；以及

用于基于所述时序信息控制对所述若干个音频流中的至少一个的访问的部件。