CN114730564A

CN114730564A - 用于虚拟现实音频的基于优先级的声场编解码

Info

Publication number: CN114730564A
Application number: CN202080079246.6A
Authority: CN
Inventors: F·奥利维耶里; T·夏巴兹米尔扎哈桑罗; N·G·彼得斯
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2019-11-22
Filing date: 2020-11-19
Publication date: 2022-07-08
Also published as: US11356796B2; WO2021102132A1; EP4062404A1; US20210160644A1

Abstract

一种被配置为获得图像数据的示例设备包括存储器，其被配置为存储一个或多个优先级值，该一个或多个优先级值中的每一个与关联于图像数据的图像对象的类型相关联。该设备包括一个或多个处理器，其耦接到存储器，并且被配置为将图像数据中的图像对象与在一个或多个音频流中表示的一个或多个音频源相关联。该一个或多个处理器还被配置为将相应优先级值指派给在一个或多个音频流中表示的一个或多个音频源中的每一个，以及基于指派的优先级值编解码立体混响系数。

Description

用于虚拟现实音频的基于优先级的声场编解码

本申请要求于2020年11月18日提交的美国申请第16/951,636号的优先权，该美国申请要求于2019年11月22日提交的美国临时申请第62/939,470号的权益，每个申请的全部内容通过引用并入本文。

技术领域

本公开涉及诸如音频数据的媒体数据的处理。

背景技术

计算机介导现实系统正在被开发以允许计算设备增强或添加、移除或减去或概括地说修改用户体验的现有现实。计算机介导现实系统(也可以称为“扩展现实系统”或“XR系统”)可以包括例如虚拟现实(VR)系统、增强现实(AR)系统和混合现实(MR)系统。计算机介导现实系统的感知成功通常与此类计算机介导现实系统在视频和音频体验方面提供逼真的沉浸式体验的能力有关，其中视频和音频体验以用户期望的方式调整。尽管人类视觉系统比人类听觉系统更敏感(例如，在对场景中各种物体的感知定位方面)，但确保足够的听觉体验是确保逼真的沉浸式体验的越来越重要的因素，尤其是视频体验改进允许更好地定位视频对象，从而使用户能够更好地识别音频内容的来源。

发明内容

本公开一般涉及计算机介导现实系统的用户体验的听觉方面，包括虚拟现实(VR)、混合现实(MR)、增强现实(AR)、计算机视觉和图形系统。该技术的各个方面可以为扩展现实系统的声学空间提供自适应音频捕获和渲染。

在一个示例中，该技术的各个方面涉及一种被配置为获得图像数据的设备，包括：存储器，其被配置为存储一个或多个优先级值，该一个或多个优先级值中的每一个与关联于图像数据的图像对象的类型相关联；以及一个或多个处理器，其耦接到该存储器，并且被配置为：将图像数据中的图像对象与在一个或多个音频流中表示的一个或多个音频源相关联；将相应优先级值指派给在一个或多个音频流中表示的一个或多个音频源中的每一个；以及基于指派的优先级值编解码立体混响系数。

在另一个示例中，该技术的各个方面涉及一种获得图像数据的方法，包括：由存储器存储一个或多个优先级值，该一个或多个优先级值中的每一个与关联于图像数据的图像对象的类型相关联；由一个或多个处理器将图像数据中的图像对象与在一个或多个音频流中表示的一个或多个音频源相关联；由一个或多个处理器将相应优先级值指派给在一个或多个音频流中表示的一个或多个音频源中的每一个；以及由一个或多个处理器基于指派的优先级值编解码立体混响系数。

在另一个示例中，该技术的各个方面涉及一种被配置为获得图像数据的设备，包括：用于存储一个或多个优先级值的部件，该一个或多个优先级值中的每一个与关联于图像数据的图像对象的类型相关联；用于将图像数据中的图像对象与在一个或多个音频流中表示的一个或多个音频源相关联的部件；用于将相应优先级值指派给在一个或多个音频流中表示的一个或多个音频源中的每一个的部件；以及用于基于指派的优先级值编解码立体混响系数的部件。

在另一个示例中，该技术的各个方面涉及一种非暂时性计算机可读存储介质，其上存储有指令，该指令在被执行时使得一个或多个处理器：存储一个或多个优先级值，该一个或多个优先级值中的每一个与关联于图像数据的图像对象的类型相关联；将图像数据中的图像对象与在一个或多个音频流中表示的一个或多个音频源相关联；将相应优先级值指派给在一个或多个音频流中表示的一个或多个音频源中的每一个；以及基于指派的优先级值编解码立体混响系数。

在附图和以下描述中阐述本公开的一个或多个示例的细节。根据描述和附图以及权利要求书，该技术的各个方面的其他特征、目的和优点将是显而易见的。

附图说明

图1A至图1C示出可以执行本公开中所描述的技术的各个方面的系统的图。

图2是示出由用户穿戴的VR设备的示例的图。

图3示出支持根据本公开的各方面的设备和方法的无线通信系统100的示例。

图4A至图4C是示出本公开中所描述的技术的各个方面的设备的框图。

图5是示出本公开的示例优先级排序技术的流程图。

图6是示出可以根据本公开中所描述的技术的各个方面操作的可穿戴设备的示例的图。

图7A和图7B是示出可以执行本公开中所描述的技术的各个方面的其它示例系统的图。

图8是示出图1A至图1C的示例中所示出的源设备和内容消费者设备中的一个或多个的示例组件的框图。

具体实施方式

音频解码不考虑视觉场景元素来确定解码一个或多个音频流的优先级。例如，与各种视觉元素相关联的音频流可以全部具有相同的优先级。这可能通过使不重要的音频流与音频解码设备的用户或内容创建者更感兴趣的音频流处于相同级别的优先级排序而导致处理能量(例如，计算)、带宽及电池寿命的浪费使用。

根据本公开的技术，图像数据中的图像对象可以与在一个或多个音频流中表示的一个或多个音频源相关联，并且可以将优先级值指派给在一个或多个音频流中表示的一个或多个音频源。在一些示例中，可以基于指派的优先级值来编解码不同数量的立体混响系数(ambisonic coefficient)。例如，与在用户附近说话的人相关联的一个或多个音频流可以比与树相关联的一个或多个音频流具有指派给他们的更高优先级值。以这种方式，本公开的技术提供了一种通过基于相关联视觉对象对音频流进行优先级排序来节省处理能量、带宽和电池寿命的方式。如本文所使用的，进行编解码可以意指进行编码或进行解码。

存在多种不同的方式来表示声场。示例格式包括基于信道的音频格式、基于对象的音频格式及基于场景的音频格式。基于信道的音频格式是指5.1环绕声格式、7.1环绕声格式、22.2环绕声格式或将音频信道定位到收听者周围的特定位置以便重新创建声场的任何其它基于信道的格式。

基于对象的音频格式可以是指其中指定通常使用脉冲编码调制(PCM)编码且被称作PCM音频对象的音频对象以便表示声场的格式。此类音频对象可以包括识别音频对象相对于收听者或声场中的其它参考点的位置的信息(诸如元数据)，使得音频对象可以被渲染到一个或多个扬声器信道以供回放以努力重新创建声场。本公开中所描述的技术可以应用于前述格式中的任一个，包括基于场景的音频格式、基于信道的音频格式、基于对象的音频格式或其任何组合。

基于场景的音频格式可以包括在三维中定义声场的分层对象集合。分层对象集合的一个示例是球面谐波系数(SHC)集合。以下表达式示出了使用SHC的声场的描述或表示：

该表达式示出了在时间t处声场的任何点

处的压力p_i可以由SHC

唯一地表示。这里，

c是声速(～343m/s)，

是参考点(或观察点)，j_n(·)是n阶的球面贝塞尔函数，并且

是n阶和m亚阶的球面谐波基函数(也可以被称为球面基函数)。可以认识到，方括号中的项是信号的频域表示(即，S

)，这可以通过各种时频变换来近似，诸如离散傅立叶变换(DFT)、离散余弦变换(DCT)或小波变换。分层集合的其他示例包括小波变换系数集合和多分辨率基函数的其他系数集合。

SHC

可以由各种麦克风阵列配置物理地获取(例如，记录)，或替代地，它们可以从声场的基于信道或基于对象的描述中导出。SHC(其也可被称作立体混响系数)表示基于场景的音频，其中SHC可以被输入到音频编码器以获得可以促进更高效传输或存储的经编码SHC。例如，可以使用涉及(1+4)²(25，并且因此四阶)系数的四阶表示。

如上提及，可以使用麦克风阵列从麦克风记录导出SHC。Poletti，M.在2005年11月的J.Audio Eng.Soc.，第53卷，第11号，第1004-1025页的“Three-DimensionalSurroundSound Systems Based on Spherical Harmonics”中描述了如何从麦克风阵列物理地获取SHC的各种示例。

以下等式可以示出可如何从基于对象的描述导出SHC。针对对应于各个音频对象的声场的系数

可以表达为：

其中i是

h_n ⁽²⁾(·)是n阶的(第二类)球面汉克尔函数，以及

是对象的位置。已知作为频率的函数的对象源能量g(ω)(例如，使用时频分析技术，诸如对脉冲编码调制的PCM流执行快速傅里叶变换)可以实现将每个PCM对象和对应的位置转换为SHC

此外，可以示出(因为上述是线性和正交分解的)针对每个对象的系数

是相加的。以这种方式，多个PCM对象可以由系数

(例如，作为单个对象的系数向量的总和)表示。系数可以包含有关于声场的信息(作为3D坐标的函数的压力)，并且上述表示在观测点

附近从单个对象到整个声场的表示的变换。

正在开发计算机介导现实系统(其也可以被称为“扩展现实系统”或“XR系统”)以利用由立体混响系数提供的许多潜在益处。例如，立体混响系数可以以潜在地实现声场内的声源的准确三维(3D)定位的方式表示三维声场。因此，XR设备可以将立体混响系数渲染到扬声器馈送，该扬声器馈送在经由一个或多个扬声器播放时准确地再现声场。

作为另一示例，立体混响系数可以被平移(例如，旋转)以考虑用户运动而无需过度复杂的数学运算，从而潜在地适应XR的低时延要求。附加地，立体混响系数是分层的，并且从而通过降阶(其可以消除与较高阶相关联的立体混响系数)自然地适应可缩放性，并且从而潜在地实现声场的动态调适以适应XR设备的时延和/或电池要求。

将立体混响系数用于XR可以实现依赖于由立体混响系数提供的更沉浸式声场的(特别是对于计算机游戏应用和实况视频流传输应用的)多个用例的开发。在依赖于声场的低延时再现的这些高度动态用例中，XR设备可以偏好立体混响系数而非更难以操纵或涉及复杂渲染的其它表示。下面参考图1A至图1C提供关于这些用例的更多信息。

虽然在本公开中关于VR设备进行了描述，但是可以在诸如移动设备的其他设备的上下文中执行技术的各个方面。在这种情况下，移动设备(诸如所谓的智能电话)可以经由屏幕呈现所显示世界(其可以与声学空间相关联)，屏幕可以安装到用户102的头部或者如在正常使用移动设备时所做的那样被观看。因此，屏幕上的任何信息可以是移动设备的一部分。移动设备可以能够提供跟踪信息41，并且从而允许VR体验(当头戴式时)和正常体验两者来观看所显示世界，其中正常体验仍然可以允许用户观看所显示世界，从而证明VR精简型体验(例如，举起设备并旋转或平移设备以观看所显示世界的不同部分)。附加地，虽然在本公开的各种示例中提及所显示世界，但本公开的技术还可以与不对应于所显示世界或其中不存在所显示世界的声学空间一起使用。

图1A至图1C是示出可以执行本公开中描述的技术的各个方面的系统的图。如图1A的示例中所示，系统10包括源设备12和内容消费者设备14。尽管在源设备12和内容消费者设备14的上下文中进行了描述，但是这些技术可以在其中声场的任何表示被编码以形成表示音频数据的比特流的任何上下文中实现。而且，源设备12可以表示能够生成声场表示的任何形式的计算设备，并且在本文中一般在作为VR内容创建者设备的上下文中进行描述。同样，内容消费者设备14可以表示能够实现本公开中描述的渲染技术以及音频回放的任何形式的计算设备，并且在本文中一般在作为VR客户端设备的上下文中描述。

源设备12可以由娱乐公司或其他内容创建者操作，其可以生成多信道音频内容以供内容消费者设备(诸如内容消费者设备14)的操作者消费。在一些VR场景中，源设备12结合视频内容生成音频内容。源设备12包括内容捕获设备20、内容编辑设备22和声场表示生成器24。内容捕获设备20可以被配置为与麦克风18接口连接或以其他方式通信。

麦克风18可以表示

或其他类型的3D音频麦克风，其能够捕获声场并将其表示为音频数据19，音频数据19可以是指上述提及的基于场景的音频数据(诸如立体混响系数)、基于对象的音频数据和基于信道的音频数据中的一个或多个。尽管被描述为3D音频麦克风，但是麦克风18也可以表示被配置为捕获音频数据19的其他类型的麦克风(诸如全向麦克风、点麦克风、单向麦克风等)。

在一些示例中，内容捕获设备20可以包括集成到内容捕获设备20的外壳中的集成麦克风18。内容捕获设备20可以无线地或经由有线连接与麦克风18接口连接。不是经由麦克风18捕获音频数据19或与经由麦克风18捕获音频数据19相结合，内容捕获设备20可以在音频数据19经由某种类型的可移动存储装置、无线和/或有线输入过程被输入之后处理音频数据19。因此，根据本公开，内容捕获设备20和麦克风18的各种组合是可能的。

内容捕获设备20还可以被配置为与内容编辑设备22接口连接或以其他方式通信。在一些情况下，内容捕获设备20可以包括内容编辑设备22(在一些情况下，其可以表示软件或软件和硬件的组合，包括由内容捕获设备20执行以将内容捕获设备20配置为执行特定形式的内容编辑的软件)。内容编辑设备22可以表示被配置为编辑或以其他方式改变从内容捕获设备20接收的内容21(包括音频数据19)的单元。内容编辑设备22可以将经编辑的内容23和相关联的音频信息25(例如，元数据)输出到声场表示生成器24。

声场表示生成器24可以包括能够与内容编辑设备22(或内容捕获设备20)接口连接的任何类型的硬件设备。尽管未在图1A的示例中示出，但是声场表示生成器24可以使用由内容编辑设备22提供的包括音频数据19和音频信息25的经编辑的内容23来生成一个或多个比特流27。在关注音频数据19的图1A的示例中，声场表示生成器24可以生成由音频数据19表示的相同声场的一个或多个表示以获得比特流27，该比特流27包括经编辑的内容23和音频信息25的表示。

例如，为了使用立体混响系数(其同样是音频数据19的一个示例)生成声场的不同表示，声场表示生成器24可以使用针对声场的立体混响表示的编解码方案，其被称为混合阶立体混响(MOA)，如在2017年8月8日提交，于2019年1月3日公布的美国专利公开号20190007781，名称为“MIXED-ORDER AMBISONICS(MOA)AUDIO DATA FOCOMPUTER-MEDIATEDREALITY SYSTEMS”的美国专利申请序列号15/672,058中更详细讨论的。

为了生成声场的特定MOA表示，声场表示生成器24可以生成完整立体混响系数集合的部分子集。例如，由声场表示生成器24生成的每个MOA表示可以提供关于声场的一些区域的精度，但在其他区域中提供较低的精度。在一个示例中，声场的MOA表示可以包括八(8)个未压缩的立体混响系数，而相同声场的三阶立体混响表示可以包括十六(16)个未压缩的立体混响系数。因此，相比于从立体混响系数生成的相同声场的对应三阶立体混响表示，作为立体混响系数的部分子集生成的声场的每个MOA表示可以是存储密集度更低的且带宽密集度更低的(如果并且当作为比特流27的一部分通过所示出的传输信道发送时)。

尽管关于MOA表示进行了描述，但是本公开的技术也可以关于一阶立体混响(FOA)表示来执行，其中与一阶球面基函数和零阶球面基函数相关联的所有立体混响系数被用于表示声场。换句话说，声场表示生成器24可以使用给定N阶的所有立体混响系数来表示声场，而不是使用立体混响系数的部分非零子集来表示声场，从而得到总共等于(N+1)²的立体混响系数。

在这方面，立体混响音频数据(这是在MOA表示或全阶表示(诸如上述提及的一阶表示)中指代立体混响系数的另一种方式)可以包括与阶数为1或更少的球面基函数相关联的立体混响系数(可以被称为“第1阶立体混响音频数据”)、与具有混合阶和亚阶的球面基函数相关联的立体混响系数(可以被称为上文讨论的“MOA表示”)、或与阶数大于1的球面基函数相关联的立体混响系数(可以如上被称为“全阶表示”)。

在一些示例中，声场表示生成器24可以表示被配置为压缩或以其它方式减少用于表示比特流27中的内容21的比特的数量的音频编码器。尽管未示出，但是在一些示例中，声场表示生成器可以包括符合本文中所讨论的各种标准中的任一个的心理声学音频(psychoacoustic audio)编码设备。

在该示例中，声场表示生成器24可以将SVD应用于立体混响系数以确定立体混响系数的经分解版本。立体混响系数的经分解版本可以包括主要音频信号中的一个或多个及描述相关联主要音频信号的空间特性(例如，方向、形状及宽度)的一个或多个对应空间分量。因此，声场表示生成器24可以将分解应用于立体混响系数以将(如由主要音频信号表示的)能量与(如由空间分量表示的)空间特性解耦。

声场表示生成器24可以分析立体混响系数的经分解版本以识别各种参数，这可促进立体混响系数的经分解版本的重新排序。声场表示生成器24可以基于所识别的参数对立体混响系数的经分解版本进行重新排序，其中假定变换可以跨立体混响系数的帧对立体混响系数进行重新排序(其中帧通常包括立体混响系数的经分解版本的M个样本，且在一些示例中，M是)，该重新排序可以改进编解码效率。

在对立体混响系数的经分解版本进行重新排序之后，声场表示生成器24可以选择立体混响系数的经分解版本中的一个或多个作为声场的前景(或换句话说，不同、主要或显著)分量的表示。声场表示生成器24可以指定表示前景分量(其也可被称作“主要声音信号”、“主要音频信号”或“主要声音分量”)及相关联方向信息(其也可被称作“空间分量”，或在一些情况下被称作识别对应音频对象的空间特性的所谓“V向量”)的立体混响系数的经分解版本。空间分量可以表示具有多个不同对象的向量(其在向量方面可以被称为“系数”)，并且从而可以被称为“多维向量”。

声场表示生成器24接下来可以关于立体混响系数执行声场分析，以便至少部分地识别表示声场的一个或多个背景(或换句话说，环境)分量的立体混响系数。背景分量也可以被称为“背景音频信号”或“环境音频信号”。在一些示例中，假定背景音频信号可以仅包括立体混响系数的任何给定样本的子集(例如，诸如对应于零阶和一阶球面基函数的那些样本，而不是对应于二阶或更高阶球面基函数的那些样本)，声场表示生成器24可以关于背景音频信号执行能量补偿。换句话说，当执行降阶时，声场表示生成器24可以增强立体混响系数的剩余背景立体混响系数(例如，添加能量到剩余背景立体混响系数/从剩余背景立体混响系数减去能量)以补偿由执行降阶引起的总能量的改变。

声场表示生成器24接下来可以关于前景方向信息(其是指示空间分量的另一方式)执行一种形式的插值，并且然后关于经插值的前景方向信息执行降阶以生成降阶的前景方向信息。在一些示例中，声场表示生成器24还可以执行关于降阶的前景方向信息的量化，从而输出经编解码的前景方向信息。在一些情况下，该量化可以包括可能呈向量量化形式的标量/熵量化。在一些示例中，声场表示生成器24然后可以将作为背景音频信号、前景音频信号及经量化的前景方向信息的经中间格式化的音频数据输出到心理声学音频编码设备。

在任何情况下，在一些示例中，背景音频信号和前景音频信号可以包括传送信道。即，声场表示生成器24可以输出用于包括背景音频信号中的相应一个的立体混响系数的每一帧(例如，对应于零阶或一阶球面基函数的立体混响系数中的一个的M个样本)及用于前景音频信号中的每一帧(例如，从立体混响系数分解的音频对象的M个样本)的传送信道。声场表示生成器24还可以输出包括对应于前景音频信号中的每一个的经量化的空间分量的边信息(其也可被称作“边带信息”)。

传送信道及边信息可以在图1A的示例中被共同地表示为立体混响传输格式(ATF)音频数据(其是指经中间格式化的音频数据的另一方式)。换句话说，AFT音频数据可以包括传送信道和边信息(其也可以被称为“元数据”)。作为一个示例，ATF音频数据可以符合HOA(高阶立体混响)传送格式(HTF)。关于HTF的更多信息可以在由欧洲电信标准协会(ETSI)于2018年6月(2018-06)发表在ETSI TS 103 589 V1.1.1的题为“Higher Order Ambisonics(HOA)Transport Format”的技术规范(TS)中找到。因此，ATF音频数据可被称为HTF音频数据。

声场表示生成器24可以包括专用硬件，其被配置为(或专门软件，其在被执行时使得一个或多个处理器)执行心理声学音频编码(诸如表示为“USAC”的统一语音和音频编解码器，其由运动图片专家组(MPEG)、MPEG-H 3D音频编解码标准、MPEG-I沉浸式音频标准或专有标准阐述，专有标准诸如AptXTM(包括AptX的各种版本，诸如增强型AptX-E-AptX、AptXlive、AptX立体声和AptX高清晰度-AptX-HD)、高级音频编解码(AAC)、音频编解码器3(AC-3)、苹果无损音频编解码器(ALAC)、MPEG-4音频无损流传输(ALS)、增强型AC-3、自由无损音频编解码器(FLAC)、猴子(Monkey's)音频、MPEG-1音频层II(MP2)、MPEG-1音频层III(MP3)、Opus和微软媒体音频(WMA))。

在声场表示生成器24不包括心理声学音频编码设备的示例中，声场表示生成器24然后可以将ATF音频数据发送或以其它方式输出给心理声学音频编码设备(未示出)。心理声学音频编码设备可以关于ATF音频数据执行心理声学音频编码以生成比特流27。源设备12然后可以经由传输信道将比特流27发送给内容消费者设备14。

在一些示例中，心理声学音频编码设备可以表示心理声学音频编解码器的一个或多个实例，其中的每一个用于编码ATF音频数据的传送信道。在一些情况下，该心理声学音频编码设备可以表示(如上文所提及的)编码单元的一个或多个实例。在一些情况下，心理声学音频编解码器单元可以调用用于ATF音频数据的每一传送信道的编码单元的实例。

在一些示例中，内容捕获设备20或内容编辑设备22可以被配置为与声场表示生成器24无线通信。在一些示例中，内容捕获设备20或内容编辑设备22可以经由无线连接或有线连接中的一个或两者与声场表示生成器24通信。经由内容捕获设备20与声场表示生成器24之间的连接，内容捕获设备20可以以各种内容形式提供内容，出于讨论的目的，所述内容在本文中被描述为音频数据19的部分。

在一些示例中，内容捕获设备20可以利用声场表示生成器24的各个方面(就声场表示生成器24的硬件或软件能力而言)。例如，声场表示生成器24可以包括被配置为执行心理声学音频编码的专用硬件(或在被执行时使得一个或多个处理器执行心理声学音频编码的专用软件)。

在一些示例中，内容捕获设备20可以不包括心理声学音频编码器专用硬件或专门软件，而是替代地可以以非心理声学音频编解码的形式提供内容21的音频方面。声场表示生成器24可以通过至少部分地关于内容21的音频方面执行心理声学音频编码来辅助内容21的捕获。

声场表示生成器24(在音频数据19包括基于场景的音频数据的情况下)还可以通过至少部分地基于从音频数据19生成的音频内容(例如，MOA表示和/或三阶立体混响表示)生成一个或多个比特流27，来辅助内容捕获和传输。比特流27可以表示音频数据19的经压缩版本和任何其他不同类型的内容21(诸如球形视频数据、图像数据或文本数据的经压缩版本)。

作为一个示例，声场表示生成器24可以生成比特流27以用于跨传输信道传输，该传输信道可以是有线或无线信道、数据存储设备等。比特流27可以表示音频数据19的经编码版本，并且可以包括主要比特流和另一边比特流，这可以被称为边信道信息或元数据。在一些情况下，表示音频数据19的经压缩版本的比特流27(其也可以表示基于场景的音频数据、基于对象的音频数据、基于信道的音频数据或其组合)可以符合根据MPEG-H 3D音频编解码标准和/或MPEG-I沉浸式音频标准产生的比特流。

内容消费者设备14可以由个体操作并且可以表示VR客户端设备。尽管关于VR客户端设备进行了描述，但内容消费者设备14可以表示其他类型的设备，诸如增强现实(AR)客户端设备、混合现实(MR)客户端设备(或其他XR客户端设备)、标准计算机、头戴式设备、耳机、移动设备(包括所谓的智能手机)或能够跟踪操作内容消费者设备14的个体的头部运动和/或一般平移运动的任何其他设备。如图1A的示例中所示，内容消费者设备14包括音频回放系统16A，其可以是指能够渲染音频数据以用于作为多信道音频内容回放的任何形式的音频回放系统。

虽然在图1A中被示为直接发送到内容消费者设备14，但是源设备12A可以将比特流27输出到位于源设备12A和内容消费者设备14A之间的中间设备。中间设备可以存储比特流27，以便稍后传递到请求比特流27的内容消费者设备14A。中间设备可以包括文件服务器、网络服务器、台式计算机、膝上型计算机、平板计算机、移动电话、智能电话或能够存储比特流27以供稍后由音频解码器检索的任何其他设备。中间设备可以驻留在内容传递网络中，该内容传递网络能够向请求比特流27的诸如内容消费者设备14的订户流传输比特流27(并且可能与发送相应的视频数据比特流相结合)。

替代地，源设备12A可以将比特流27存储到诸如致密盘、数字视频光盘、高清晰度视频光盘或其他存储介质的存储介质，其中大多数存储介质能够被计算机读取，并因此可被称为计算机可读存储介质或非暂时性计算机可读存储介质。在该上下文中，传输信道可以是指存储在介质上的内容(例如，以一个或多个比特流27的形式)通过其发送的信道(并且可以包括分散存储(retail store)和其他基于存储的传递机制)。因此，无论如何，本公开的技术不应在这方面限于图1A的示例。

如上所述，内容消费者设备14包括音频回放系统16A。音频回放系统16A可以表示能够回放多信道音频数据的任何系统。音频回放系统16A可以包括多个不同的渲染器32。每个音频渲染器32可以提供不同形式的渲染，其中不同音频形式的渲染可以包括执行基向量幅度相移(VBAP)的各种方式中的一种或多种，和/或执行声场合成的各种方式中的一种或多种。如本文所用的，“A和/或B”是指“A或B”，或“A和B”两者。

音频回放系统16A还可以包括音频解码设备34。音频解码设备34可以表示被配置为对比特流27进行解码以输出音频数据19'的设备(其中撇号记号可以表示音频数据19'由于音频数据19的有损压缩(诸如量化)而不同于音频数据19)。再次，音频数据19'可以包括基于场景的音频数据，在一些示例中，基于场景的音频数据可以形成完整的一(或更高)阶立体混响表示或其形成相同声场的MOA表示的子集、其分解(诸如主要音频信号、环境立体混响系数和MPEG-H 3D音频编解码标准中描述的基于向量的信号)、或其他形式的基于场景的音频数据。

其他形式的基于场景的音频数据包括根据HOA(高阶立体混响)传送格式(HTF)定义的音频数据。有关HTF的更多信息可以在欧洲电信标准协会(ETSI)的日期为2018年6月(2018-06)的ETSI TS 103589V1.1.1中题为“Higher OrderAmbisonics(HOA)TransportFormat”的技术规范(TS)中，以及在2018年12月20日提交的题为“PRIORITY INFORMATIONFORHIGHER ORDERAMBISONIC AUDIO DATA”的美国专利公开号2019/0918028中找到。在任何情况下，音频数据19'可以类似于音频数据19'的完整集合或部分子集，但可能由于有损操作(例如，量化)和/或经由传输信道的传输而不同。

音频数据19'可以包括作为基于场景的音频数据的替代或结合基于场景的音频数据的基于信道的音频数据。音频数据19'可以包括作为基于场景的音频数据的替代或结合基于场景的音频数据的基于对象的音频数据。因此，音频数据19'可以包括基于场景的音频数据、基于对象的音频数据和基于信道的音频数据的任何组合。

音频回放系统16A的音频渲染器32可以在音频解码设备34已经解码比特流27以获得音频数据19'之后渲染音频数据19'以输出扬声器馈送35。扬声器馈送35可以驱动一个或多个扬声器(为了便于说明的目的，在图1A的示例中未图示)。包括声场的基于场景的音频数据(和可能的基于信道的音频数据和/或基于对象的音频数据)的各种音频表示可以被以包括N3D、SN3D、FuMa、N2D或SN2D的多种方式进行归一化。

为了选择合适的渲染器，或者在一些情况下，为了生成合适的渲染器，音频回放系统16A可以获得指示多个扬声器(例如，扩音器或耳机扬声器)和/或扬声器的空间几何形状的扬声器信息37。在一些情况下，音频回放系统16A可以使用参考麦克风获得扬声器信息37并且可以以动态地确定扬声器信息37的方式驱动扬声器(这可以是指电信号的输出以引起换能器振动)。在其他情况下，或者结合扬声器信息37的动态确定，音频回放系统16A可以提示用户与音频回放系统16A接口连接并输入扬声器信息37。

音频回放系统16A可以基于扬声器信息37选择音频渲染器32中的一个。在一些情况下，当音频渲染器32中没有一个在扬声器信息37中指定的扬声器几何形状的某个阈值相似性度量(就扬声器几何形状而言)之内时，音频回放系统16A可以基于扬声器信息37生成音频渲染器32中的一个。在一些情况下，音频回放系统16A可以基于扬声器信息37生成音频渲染器32中的一个，而无需首先尝试选择音频渲染器32中的现有一个。

当将扬声器馈送35输出到耳机时，音频回放系统16A可以利用渲染器32中的一个，该渲染器32中的一个使用头部相关传递函数(HRTF)或能够渲染左右扬声器馈送35以供耳机扬声器回放的其他函数来提供双耳渲染，诸如双耳室脉冲响应渲染器。术语“扬声器”或“换能器”通常可以是指任何扬声器，包括扩音器、耳机扬声器、骨传导扬声器、耳塞式扬声器、无线耳机扬声器等。一个或多个扬声器然后可以回放渲染的扬声器馈送35以再现声场。

尽管被描述为从音频数据19'渲染扬声器馈送35，但是对扬声器馈送35的渲染的引用可以是指其他类型的渲染，诸如直接并入到来自比特流27的音频数据的解码中的渲染。可以在MPEG-H 3D音频标准的附录G中找到替代渲染的示例，其中渲染发生在声场合成之前的主要信号形成和背景信号形成期间。因此，对音频数据19'的渲染的引用应被理解为是指实际音频数据19'或音频数据19'其的分解或表示(诸如上述提及的主要音频信号、环境立体混响系数、和/或基于向量的信号—其也可以称为V向量或称为多维立体混响空间向量)的渲染两者。

音频回放系统16A还可以基于跟踪信息41调适音频渲染器32。即，音频回放系统16A可以与跟踪设备40接口连接，跟踪设备40被配置为跟踪VR设备的用户的头部运动和可能的平移运动。跟踪设备40可以表示一个或多个传感器(例如，相机-包括深度相机、陀螺仪、磁力计、加速度计、发光二极管-LED等)，其被配置为跟踪VR设备的用户的头部运动和可能的平移运动。音频回放系统16A可以基于跟踪信息41调适音频渲染器32，使得扬声器馈送35反映用户的头部的变化和可能的平移运动，以响应于这种运动正确再现声场。

图1C是示出另一示例系统60的框图。示例系统60类似于图1A的示例系统10，但是系统60的源设备12B不包括内容捕获设备。源设备12B包含合成设备29。内容开发者可以使用合成设备29来生成经合成的音频源。经合成的音频源可以具有与其相关联的位置信息，该位置信息可以识别音频源相对于声场中的收听者或其他参考点的位置，使得可以将音频源渲染成一个或多个扬声器信道以便进行回放，以试图重建声场。在一个示例中，合成设备29也可以合成视觉或视频数据。

例如，内容开发者可以为视频游戏生成经合成的音频流。虽然图1C的示例被与图1A的示例的内容消费者设备14一起示出，但是图1C的示例的源设备12B可以被与图1B的内容消费者设备14B一起使用。在一些示例中，图1C的源设备12B还可以包括内容捕获设备，使得比特流27可以包含(多个)经捕获的音频流和(多个)经合成的音频流两者。

如上所述，内容消费者设备14A或14B(其中任一个在下文中可被称为内容消费者设备14)可以表示VR设备，其中人类可穿戴显示器(其也可被称为“头戴式显示器”)被安装在操作VR设备的用户的眼前。图2是图示用户402佩戴的VR设备400的示例的图。VR设备400可以用于实现本公开的技术。VR设备400被耦接到耳机404或以其他方式包括耳机404，耳机404可以通过扬声器馈送35的回放来再现由音频数据19'表示的声场。扬声器馈送35可以表示能够使耳机404的换能器内的膜以各种频率振动的模拟或数字信号，其中这种过程通常被称为驱动耳机404。

视频、音频和其他感官数据可能会在VR体验中扮演重要角色。为了参与VR体验，用户402可以穿戴VR设备400(也可以被称为VR头戴式设备400)或其他可穿戴电子设备。VR客户端设备(诸如VR头戴式设备400)可以包括跟踪设备(例如，跟踪设备40)，其被配置为跟踪用户402的头部运动，并且调适经由VR头戴式设备400显示的视频数据以考虑头部运动，从而提供沉浸式体验，在其中用户402可以以可视的三个维度体验在视频数据中显示的所显示世界。所显示世界可以是指虚拟世界(其中所有世界都是模拟的)、增强世界(其中世界的一部分由虚拟对象增强)或物理世界(其中现实世界图像被虚拟导航)。

尽管VR(以及AR和/或MR的其他形式)可以允许用户402在视觉上驻留在虚拟世界中，但是VR头戴式设备400可能常常缺乏听觉上将用户置于所显示世界中的能力。换句话说，VR系统(其可能包括负责渲染视频数据和音频数据的计算机以及VR头戴式设备400，为便于说明，计算机在图2的示例中未显示)可能无法支持完整的三维听觉沉浸(并且在某些情况下，实际上以反映经由VR头戴式设备400呈现给用户的所显示场景的方式)。

尽管在本公开中关于VR设备进行了描述，但是可以在诸如移动设备的其他设备的上下文中执行技术的各个方面。在这种情况下，移动设备(诸如所谓的智能手机)可以经由屏幕呈现所显示世界，该屏幕可以被安装到用户402的头部或者如在正常使用移动设备时所做的那样被观看。因此，屏幕上的任何信息都可以是移动设备的一部分。移动设备可以能够提供跟踪信息41，并且从而允许VR体验(当头戴式时)和正常体验两者来观看所显示世界，其中正常体验仍然可以允许用户观看所显示世界，从而证明VR精简型体验(例如，举起设备并旋转或平移设备以观看所显示世界的不同部分)。

在任何情况下，返回到VR设备的上下文，都将VR的音频方面分成三种分离的沉浸感类别。第一类别提供最低的沉浸级别，并且被称为三个自由度(3DOF)。3DOF是指考虑头部在三个自由度(偏转、俯仰和滚转)上的运动的音频渲染，从而允许用户在任何方向上自由地环顾。然而，3DOF不能考虑在其中头部不以声场的光学和声学中心为中心的平移头部运动。

第二类别，称为3DOF加(3DOF+)，除了提供了三个自由度(偏转、俯仰和滚转)之外，还有由于头部在声场内远离光学中心和声学中心的运动而引起的有限空间平移运动。3DOF+可以提供对诸如运动视差的感知效果的支持，这可以增强沉浸感。

第三类别，称为六个自由度(6DOF)，以考虑头部运动(偏转、俯仰和滚转)方面的三个自由度并且还考虑用户在空间中的平移(x、y和z平移)的方式来渲染音频数据。空间平移可以由跟踪用户在物理世界中的位置的传感器或通过输入控制器的方式来引起。

3DOF渲染是针对VR的音频方面的现有技术。因此，VR的音频方面比视频方面的沉浸感小，从而潜在地减少了用户体验的整体沉浸感。然而，VR正在迅速转变，并且可以快速发展为支持3DOF+和6DOF两者，这可以为其他用例提供机会。

例如，交互式游戏应用可以利用6DOF来促进完全沉浸式游戏，其中用户自己在VR世界中移动并且可以通过走到虚拟对象来与虚拟对象进行交互。此外，交互式直播流传输应用可以利用6DOF来允许VR客户端设备体验音乐会或体育赛事的直播流传输，就好像他们自己在音乐会上一样，允许用户在音乐会或体育赛事中移动。

存在与这些用例相关联的多种困难。在完全沉浸式游戏的情况下，时延可能需要保持在较低，以实现不会导致恶心或晕动症的游戏体验。此外，从音频的角度来看，导致与视频数据失去同步的音频回放时延可能会降低沉浸感。此外，对于某些类型的游戏应用，空间精度对于允许准确响应可能很重要，包括关于用户如何感知声音，因为这允许用户预测当前不在视野中的动作。

在直播流传输应用的上下文中，大量的源设备12A或12B(为了简洁的目的，其中任一个在下文中可以被称为源设备12)可以流传输内容21，其中源设备12可以具有广泛不同的能力。例如，一个源设备可以是带有数字固定镜头相机和一个或多个麦克风的智能手机，而另一源设备可以是能够获得比智能手机分辨率和质量高得多的视频的生产级电视装备。然而，在直播流传输应用的上下文中，所有源设备都可以提供不同质量的流，VR设备可以尝试从该流中选择合适的流来提供预期的体验。

图3示出支持根据本公开的各方面的设备和方法的无线通信系统100的示例。无线通信系统100包括基站105、UE 115和核心网130。在一些示例中，无线通信系统100可以是长期演进(LTE)网络、高级LTE(LTE-A)网络、LTE-A Pro网络、第五代(5G)蜂窝网络或新无线电(NR)网络。在一些情况下，无线通信系统100可以支持增强型宽带通信、超可靠(例如，关键任务)通信、低时延通信、或与低成本且低复杂度设备的通信。

基站105可以经由一个或多个基站天线与UE 115进行无线通信。本文所描述的基站105可以包括或可以被本领域技术人员称为基收发器站、无线电基站、接入点、无线电收发器、节点B、eNodeB(eNB)、下一代节点B或千兆节点B(其中任一个可以被称为gNB)、家庭节点B、家庭eNodeB或某些其它适当的术语。无线通信系统100可以包括不同类型的基站105(例如，宏小区基站或小小区基站)。本文所描述的UE 115可以能够与各种类型的基站105和网络装备(包括宏eNB、小小区eNB、gNB、中继基站等)进行通信。

每个基站105可以与在其中支持与各个UE 115的通信的特定地理覆盖区域110相关联。每个基站105可以经由通信链路125为相应的地理覆盖区域110提供通信覆盖，并且基站105和UE 115之间的通信链路125可以利用一个或多个载波。无线通信系统100中示出的通信链路125可以包括从UE 115到基站105的上行链路传输，或者从基站105到UE 115的下行链路传输。下行链路传输还可以被称为前向链路传输，而上行链路传输还可以被称为反向链路传输。

可以将基站105的地理覆盖区域110划分成构成地理覆盖区域110的一部分的扇区，并且每个扇区可以与小区相关联。例如，每个基站105可以为宏小区、小小区、热点或其它类型的小区或其各种组合提供通信覆盖。在一些示例中，基站105可以是可移动的，并且因此为移动的地理覆盖区域110提供通信覆盖。在一些示例中，与不同技术相关联的不同地理覆盖区域110可以重叠，并且与不同技术相关联的重叠地理覆盖区域110可以由相同的基站105或不同的基站105支持。无线通信系统100可以包括例如异构LTE/LTE-A/LTE-A Pro、第五代蜂窝或NR网络，在其中不同类型的基站105为各种地理覆盖区域110提供覆盖。

UE 115可以分散遍及无线通信系统100，并且每个UE 115可以是固定的或移动的。UE 115还可以被称为移动设备、无线设备、远程设备、手持式设备、或订户设备、或某些其他合适的术语，其中“设备”还可被称为单元、站、终端、或客户端。UE 115还可以是个人电子设备，诸如蜂窝电话、个人数字助理(PDA)、平板计算机、膝上型计算机或个人计算机。在本公开的示例中，UE 115可以是本公开中所描述的音频源中的任一个，包含VR头戴式设备、XR头戴式设备、AR头戴式设备、车辆、智能电话、麦克风、麦克风阵列、或包含麦克风或能够发送经捕获及/或经合成的音频流的任何其它设备。经捕获的音频流和经合成的音频流可以包含一个或多个音频源。在一些示例中，经合成的音频流可以是存储在存储器中或先前创建或合成的音频流。在一些示例中，UE 115还可以是指无线本地环路(WLL)站、物联网(IoT)设备、万物联网(IoE)设备或MTC设备等，其可以在诸如电器、车辆、仪表等的各种物品中实现。

诸如MTC或IoT设备的一些UE 115可以是低成本或低复杂度设备，并且可以(例如，经由机器到机器(M2M)通信)为机器之间提供自动化通信。M2M通信或MTC可以是指允许设备在没有人为干预的情况下彼此通信或与基站105通信的数据通信技术。在一些示例中，M2M通信或MTC可以包括来自如下设备的通信：所述设备交换和/或使用指示隐私限制和/或基于口令的隐私数据的信息(诸如音频元数据)，以切换、屏蔽和/或无效各种音频流和/或音频源，如将在下面更详细地描述的。

在一些情况下，UE 115还可以能够(例如，使用对等(P2P)或设备到设备(D2D)协议)与其他UE 115直接通信。利用D2D通信的一组UE 115中的一个或多个UE 115可以是在基站105的地理覆盖区域110内。该组中的其它UE 115可以在基站105的地理覆盖区域110之外，或者以其它方式不能从基站105接收传输。在一些情况下，经由D2D通信进行通信的UE115的组可以利用一对多(1:M)系统，在其中每个UE 115向该组中的每个其它UE 115进行发送。在一些情况下，基站105促进对用于D2D通信的资源的调度。在其它情况下，D2D通信是在不涉及基站105的情况下在UE 115之间执行的。

基站105可以与核心网130进行通信并且彼此进行通信。例如，基站105可以通过回程链路132(例如，经由S1、N2、N3或其他接口)与核心网130接口连接。基站105可以通过回程链路134(例如，经由X2、Xn或其它接口)直接地(例如，直接在基站105之间)或间接地(例如，经由核心网130)彼此通信。

在一些情况下，无线通信系统100可以利用已许可和未许可无线电频谱频带两者。例如，无线通信系统100可以在诸如5GHz ISM频段的未许可频段中采用许可辅助接入(LAA)、LTE未许可(LTE-U)无线电接入技术或NR技术。当在未许可无线电频谱频带中操作时，诸如基站105和UE 115的无线设备可以采用先听后说(LBT)过程来确保在发送数据之前频率信道是空闲的。在一些情况下，未许可频段中的操作可以基于载波聚合配置，该载波聚合配置结合在已许可频段中操作的分量载波(例如，LAA)。未许可频谱中的操作可以包括下行链路传输、上行链路传输、对等传输、或这些的组合。未许可频谱中的双工可以基于频分双工(FDD)、时分双工(TDD)或两者的组合。

头戴式设备(诸如图2的VR头戴式设备400)的内容创建者或用户402可能不同样关心所有音频对象。例如，一些音频源可能是不活动的、远处的或仅仅是背景噪声，并且内容创建者或用户402可能不认为那些对象对于场景是重要的。内容消费者设备14可能消耗计算资源(例如处理周期、存储器带宽、存储器和/或存储空间等)解码不太重要音频源。

根据本公开中所描述的技术的各个方面，源设备12或内容消费者设备14可以对某些音频源或对象进行优先级排序。内容消费者设备14然后可以利用优先级排序来分配更多资源解码更重要的对象并且分配更少资源解码不太重要的对象。例如，内容消费者设备14可以对比不太重要的音频对象具有更多立体混响系数的重要音频对象进行编解码。以此方式，源设备12或内容消费者设备14可以通过基于相关联视觉对象对音频流进行优先级排序来节省处理能量、带宽和电池寿命。

在操作中，源设备12和内容消费者设备14可以分析场景中的图像数据和音频流中的音频源，并且使图像数据中的图像对象与音频流中的音频源相关联。源设备12和内容消费者设备14可以将相应优先级值指派给图像对象及其相应音频源中的每一个，并且基于指派的优先级值编解码立体混响系数。例如，源设备12或内容消费者设备14可以分析场景并且将较高优先级值指派给活动图像对象且将较低优先级值指派给不活动图像对象。源设备12和内容消费者设备14还可以使音频对象与较高优先级图像对象相关联和与较低优先级图像对象相关联。内容消费者设备14可以使用比内容消费者设备14用来解码较低优先级音频对象更多比特或信息或更高阶立体混响来解码较高优先级音频对象。下面关于图4A和图4B讨论关于优先级排序技术的各个方面的更多信息。

图4A是示出本公开中所描述的技术的各个方面的框图。图像数据250可以由源设备12捕获。例如，源设备12可以通过相机(诸如稍后讨论的图6A或图6B中所示出的相机600)捕获图像数据250。在一些示例中，图像数据可以是计算机生成的。在图4A的示例中，图像包含多个图像对象：站在前景中的人的图像对象251、更远离相机600的人的图像对象252、进行对话的两个人的图像对象253、以及未占用区域的图像对象254。

场景分析器和优先级分类器255接收图像数据250并对其进行分析，以便识别其中包含的图像对象。场景分析器和优先级分类器255可以表示执行诸如图像数据250的视频数据的视觉场景分析的硬件或硬件和软件的组合。视觉场景分析可以涉及计算机视觉的各方面，计算机视觉是指计算机或其他设备通过其可以处理和分析图像以检测和识别图像的各个对象和/或方面的过程。在一些情况下，计算机视觉可以被称为机器视觉，因为计算机视觉和机器视觉具有许多重叠或相关的概念。通常，机器视觉采用计算机视觉的各方面或概念，但是以不同的上下文。尽管本公开在描述所述技术时涉及计算机视觉，但还可结合计算机视觉或作为计算机视觉的替代使用机器视觉来执行所述技术。为此，术语“机器视觉”和“计算机视觉”可以互换使用。

尽管在图4A的示例中未示出，但在一些情况下，场景分析器和优先级分类器255可以在执行视觉场景分析时与源设备12外部的图像服务器或其它数据库通信。场景分析器和优先级分类器255可以与该图像服务器通信，以卸载经常资源(意味着，处理资源和/或存储器资源)密集的视觉场景分析过程的各个方面。例如，场景分析器和优先级分类器255可以执行一些初始分析以检测对象，将这些对象传递给图像服务器以进行识别。然后，图像服务器可以对对象进行分类或以其他方式识别对象，将经分类的对象的分类传递回场景分析器和优先级分类器255。场景分析器和优先级分类器255可以经由无线会话与图像服务器通信。因此，源设备12可以包括一个或多个接口(尽管在图4A的示例中未示出)，源设备12可以通过该接口无线地或经由有线连接与外围设备、服务器及任何其它类型的设备或附件通信。场景分析器和优先级分类器255可以输出图像对象作为执行视觉场景分析的结果。

在一些示例中，场景分析器和优先级分类器255可以利用机器学习来学习分类或以其他方式识别场景中的对象。例如，场景分析器和优先级分类器255可以利用机器学习算法来学习对场景分析器和优先级分类器255传递给图像服务器的对象进行分类。

根据本公开的各方面，场景分析器和优先级分类器255可以向所识别对象指派相应的优先级值。在一些示例中，可以采用优先级模型256。例如，该优先级模型256可以作为表存储在存储器中。优先级模型256可以将图像对象的类型与优先级相关联。例如，优先级模型可以将比其他对象更高的优先级放置于某些图像对象上。源设备12可以将所识别对象的优先级值应用于对象信息(诸如元数据)和/或空间分量(诸如V向量)。虽然本文中所讨论的示例是指V向量，但是V向量仅为空间分量的一个示例，并且可以根据本公开的技术使用其它示例。内容消费者设备14可以使用经优先级排序的对象信息和/或经优先级排序的V向量来以较高质量渲染对内容创建者可能较重要的音频对象且以较低质量渲染不太重要的音频对象。这比以较高质量渲染所有音频对象节省了处理能力和存储装置。优先级模型256可以是预定的，可以是可由内容创建者配置的，或两者。

在一些示例中，内容创建者可以将优先级模型256配置为具有5个级别的优先级值1-5，其中5是最高优先级。例如，内容创建者可以将优先级值5指派给人，将优先级值1指派给汽车，将优先级值3指派给狗，并且将优先级值1指派给树。

在其他示例中，因为图像对象253包含说话的两个人，所以可能想要在该对象上放置较高的优先级值。图像对象251包含在附近的人，但当前没有说话。因为他们在附近，所以可能想要在该图像对象251上放置中等的优先级值。关于图像对象252(远处的人)和图像对象254(空白空间)，可能想要对远处的人和空白空间放置低优先级值，因为他们对于VR头戴式设备400的内容创建者或用户402可能不太重要。一旦场景分析器和优先级分类器255分析场景，它就可以向每个分析的音频对象指派相应的优先级值。例如，场景分析器和优先级分类器255可以应用优先级模型256来对图像对象进行优先级排序。虽然在优先级模型256的该示例中，如所描述的，存在所讨论的三个优先级值(低、中和高)，但是在优先级模型256中可以使用任何数量的优先级值。附加地，优先级模型256可以关注除人说话之外的事情。例如，它可以关注可能出现在图像数据250中的动物、机动车辆、水体和任何其他图像对象。

源设备12还可以通过诸如图1A、图1B、图6A和图6B的麦克风18的一个或多个麦克风(未示出)捕获音频数据。音频场景分析器258可以接收音频数据267并且可以分析音频数据267。在一些示例中，可以合成音频数据267。音频数据267可以包括在一个或多个音频流中表示的一个或多个音频源。例如，音频场景分析器258可以使用诸如盲源分离、独立分量分析(ICA)、主分量分析(PCA)、奇异值分解(SDV)等的已知声源分离方法来分析音频场景，以识别音频数据267中的音频对象。音频对象可以是指不同或可识别的声音，其可以被分类或以其他方式与给定对象相关联。例如，机动车辆发动机可以发出容易识别的声音。音频场景分析器258可以尝试在音频数据267中检测和识别或分类这些声音。

类似于场景分析器和优先级分类器255，在一些情况下，音频场景分析器258可以在执行听觉场景分析时与源设备12外部并且可能远离源设备12的音频网络服务器或其它数据库通信。音频场景分析器258可以与该音频服务器通信以卸载经常资源(意味着，处理资源和/或存储器资源)密集的听觉场景分析过程的各个方面。例如，音频场景分析器258可以执行一些初始分析以检测对象，将这些对象传递给音频服务器以进行识别。然后，音频服务器可以对对象进行分类或以其他方式识别对象，将经分类的对象传递回音频场景分析器258。音频场景分析器258可以使用上面在描述场景分析器和优先级分类器255时提到的接口与该音频服务器通信。

在一个示例中，经优先级排序的图像对象251'至254'和音频数据267内的音频对象可以各自根据兼容或公共格式来定义，这意味着经优先级排序的图像对象251'至254'和音频数据267内的音频对象都以促进它们之间的关联的方式来定义。经优先级排序的对象251'至254'和音频数据267内的对象中的每一个可以包括诸如元数据的音频信息，为了提供几个示例，其定义以下中的一个或多个：对应对象的经预测位置(例如，x、y、z坐标)、对应对象的大小(或经预测大小)、对应对象的形状(或经预测形状)、对应对象的速度(或经预测速度)、位置置信水平、以及对象是否对焦或者对象是否属于近前景、远前景或近背景或远背景。

音频场景分析器258可以确定每个音频对象的θ、

和/或ψ角度，并且可以将音频对象和相关联的θ、

和/或ψ角度提供给音频和视频空间映射器260。在一些示例中，音频场景分析器可以将音频对象和/或相关联的θ、

和/或ψ角提供给优先级应用器262。

音频和视频空间映射器260可以接收经优先级排序的图像对象251'至254'和音频对象并将它们映射到空间中。例如，音频和视频空间映射器260可以利用与图像对象相关联的位置信息以及音频对象的θ、

和/或ψ角来映射空间中的对象。音频和视频空间映射器260可以基于映射和/或对象类型将经优先级排序的图像对象251'至254'中的一个或多个与音频数据267中的一个或多个音频对象相关联。例如，如果图像对象被识别为狗，并且音频对象被识别为狗吠叫并且它们被映射到空间中的大致相同的区域，则音频和视频空间映射器260可以将图像对象和音频对象相关联。

关于场景分析、音频场景分析以及将图像对象与音频对象相关联的更多信息可以在标题为“Video Analysis Assisted Generation of Multi-channel Audio Data”的美国专利第9,338,420号中找到。

音频和视频空间映射器260可以将音频对象的优先级值提供给优先级应用器262。在一些示例中，优先级应用器262可以直接从场景分析器和优先级分类器255接收音频对象的优先级值。

优先级应用器262可以将指派的优先级值应用于要在编码期间生成的音频对象信息和/或V向量。例如，优先级应用器可以将高优先级值指派给音频数据267中的、与经优先级排序的图像对象253'相关联的音频对象，可以将中优先级值指派给与经优先级排序的图像对象251'相关联的音频对象，并且可以将优先级(例如，低)指派给与经优先级排序的图像对象252'和254'相关联的音频对象。

视频编码器270可以从音频和视频空间映射器260接收视频数据并编码视频数据。音频编码器265可以从音频和视频空间映射器260接收音频数据并且从优先级应用器262接收优先级值。在一些示例中，音频和视频空间映射器可以将优先级值提供给音频编码器265而非优先级应用器262。在一些示例中，音频编码器265可以基于它们的优先级值而不同地编码音频对象。在一些示例中，音频编码器265可以编码指示音频对象的优先级值的音频信息(诸如元数据)。编码指示音频对象的优先级值的音频信息(诸如元数据)可以有益于不具有执行场景分析能力的内容消费者设备。编码指示音频对象的优先级值的音频信息(诸如元数据)也可以有益于确实具有执行场景分析能力但具有低电池电量的内容消费者设备。在这些示例中，内容消费者设备可以利用指示优先级值的信息来确定如何解码每一对象，诸如在不执行场景分析的情况下，与较高优先级音频对象相比，使用较低阶立体混响解码较低优先级音频对象。

音频编码器265还可以或替代地不同地编码音频数据本身。例如，与较低优先级音频对象相比，音频编码器265可以以较高阶立体混响编码较高优先级音频对象。音频编码器265可以基于在场景中包括的(从优先级应用器262接收的)音频对象的优先级值修改V向量，使得当解码音频经编码信号时，所得经解码信号具有在前景中的可变信噪比。例如，在前景中的一个音频对象的信噪比具有与在前景中的另一音频对象不同的信噪比。视频编码器270和音频编码器265可以将经编码视频数据及经编码音频数据输出到比特流27中。

在一些示例中，源设备12可以将比特流27直接存储到存储器(未示出)中而不发送比特流27。在其它示例中，源设备12可以不压缩来自音频和视频空间映射器260的音频数据和视频数据。例如，来自音频和视频空间映射器260的音频及视频数据可以被写入到一个或多个缓冲器(未示出)以供播放，例如当源设备12可处于摄录一体机模式时。

图4B是示出本公开中所描述的技术的各个方面的内容消费者设备的框图。内容消费者设备14可以接收比特流27。例如，可以从如图1A、图1B、图1C、图4A、图6A或图6B中所示出的源设备12接收比特流27。视频解码器257可以从比特流27接收经编码视频数据且解码经编码视频数据以再生例如图4A中所示出的图像数据250。

场景分析器和优先级分类器285从视频解码器257接收图像数据250。场景分析器和优先级分类器285可以分析图像数据250以识别其中包含的图像对象。场景分析器和优先级分类器285还可以确定与其中包含的每个图像对象相关联的方向信息。场景分析器和优先级分类器285可以表示执行诸如图像数据250的视频数据的视觉场景分析的硬件或硬件和软件的组合。视觉场景分析可以涉及计算机视觉的各方面，计算机视觉是指计算机或其他设备通过其可以处理和分析图像以检测和识别图像的各个对象和/或方面的过程。在一些情况下，计算机视觉可以被称为机器视觉，因为计算机视觉和机器视觉具有许多重叠或相关的概念。为此，术语“机器视觉”和“计算机视觉”可以互换使用。

尽管图4B的示例中未示出，但在一些情况下，场景分析器和优先级分类器285可以在执行视觉场景分析时与内容消费者设备14外部的图像服务器或其它数据库通信。场景分析器和优先级分类器285可以与该图像服务器通信以卸载经常资源(意味着，处理资源和/或存储器资源)密集的视觉场景分析过程的各个方面。例如，场景分析器和优先级分类器285可以执行一些初始分析以检测对象，将这些对象传递给图像服务器以进行识别。然后，图像服务器可以对对象进行分类或以其他方式识别对象，将经分类的对象传递回场景分析器和优先级分类器285。场景分析器和优先级分类器285可以经由无线会话与图像服务器通信。因此，内容消费者设备14可以包括一个或多个接口(尽管图4B的示例中未示出)，内容消费者设备14可通过该接口无线地或经由有线连接与外围设备、服务器和任何其它类型的设备或附件通信。场景分析器和优先级分类器285可以输出图像对象作为执行视觉场景分析的结果。

在一些示例中，场景分析器和优先级分类器285可以利用机器学习来学习分类或以其他方式识别场景中的对象。例如，场景分析器和优先级分类器285可以利用机器学习算法来学习对其传递给图像服务器的对象进行分类。

根据本公开的各方面，场景分析器和优先级分类器285可以向场景分析器和优先级分类器285识别的每个图像对象指派相应的优先级值。在一些示例中，采用优先级模型286。例如，该优先级模型286可以作为表存储在存储器中。优先级模型286可以将图像对象的类型与优先级值相关联。例如，优先级模型可以在某些图像对象上放置比其他对象更高的优先级值。优先级应用器282和声场重建器275可以使用指派的优先级值来以较高质量渲染对用户402或内容创建者可能较重要的音频对象，且以较低质量渲染不太重要的音频对象。这比以较高质量渲染所有音频对象节省了处理能力和存储装置。优先级模型286可以是预定的，可以是可由内容消费者设备14的用户(例如用户402)配置的，或两者。

在一些示例中，用户402可以将优先级模型286配置为具有5个级别的优先级值1-5，其中5是最高优先级值。用户402可以向人指派优先级值5，向汽车指派优先级值1，向狗指派优先级值3，并且向树指派优先级值1。

在其他示例中，如图4A所示，因为图像对象253包含说话的两个人，所以可能想要在该对象上放置更高的优先级值。图像对象251包含在附近的人，但当前没有说话。因为他们在附近，所以可能想要在该图像对象上放置中等优先级值。关于图像对象252(远处的人)和图像对象254(空白空间)，可能想要对远处的人和空白空间放置低优先级值，因为他们对于VR头戴式设备400的用户402可能不太重要。一旦场景分析器和优先级分类器285分析场景，它就可以应用优先级模型286来对图像对象进行优先级排序。虽然在优先级模型286的该示例中，存在所讨论的三个优先级值(低、中和高)，但是在优先级模型286中可以使用任何数量的优先级值。附加地，优先级模型286可以关注除人说话之外的事情。例如，它可以关注可能出现在图像数据250中的动物、机动车辆、水体和任何其他事物。

在一些示例中，HTF解码器272可从比特流27接收经编码音频数据。经编码音频数据可以表示一个或多个音频流中的一个或多个音频源。HTF解码器272可以解码经编码音频数据且将经解码音频数据(例如V向量)提供给方向映射器274。方向映射器274还可以接收包括与经优先级排序的图像对象251'至254'相关联的方向信息和优先级值的经优先级排序的图像对象信息。方向映射器274可以搜索哪些前景声音(看起来来自用户402前方而不是后方的声音)对应于经优先级排序的图像对象251'至254'。方向映射器274可以尝试将音频对象与经优先级排序的图像对象相关联，并且类似地对音频对象进行优先级排序。在一些示例中，背景中的音频对象(看起来来自用户402后面的声音)可以被指派预定优先级。在一些示例中，预定优先级可以是最低优先级。在一些示例中，可以不解码背景中的音频对象。如上文讨论的，音频对象可以是指不同的或可辨识的声音，其可被分类或以其它方式与给定对象相关联。例如，机动车辆发动机可以发出容易识别的声音。方向映射器274可以尝试在音频数据267中检测和识别或分类这些声音。

类似于场景分析器和优先级分类器285，在一些情况下，当执行听觉场景分析时，方向映射器274可以与在内容消费者设备14外部且可能远离内容消费者设备14的音频网络服务器或其它数据库通信。方向映射器274可以与该音频服务器通信以卸载经常资源(意味着，处理资源和/或存储器资源)密集的听觉场景分析过程的各个方面。例如，方向映射器274可以执行一些初始分析以检测对象，将这些对象传递给音频服务器以进行识别。然后，音频服务器可以对对象进行分类或以其他方式识别对象，将经分类的对象传递回音频映射器。方向映射器274可以使用上面在描述场景分析器和优先级分类器285时提到的接口与该音频服务器通信。

在一个示例中，经优先级排序的图像对象251'至254'和音频数据267内的音频对象可以各自根据兼容或公共格式来定义，这意味着经优先级排序的图像对象251'至254'和音频数据267内的音频对象都以促进它们之间的关联的方式来定义。经优先级排序的对象251'至254'和音频数据267内的对象中的每一个可以包括诸如元数据的信息，为了提供几个示例，其定义以下中的一个或多个：对应对象的经预测位置(例如，x、y、z坐标)、对应对象的大小(或经预测大小)、对应对象的形状(或经预测形状)、对应对象的速度(或经预测速度)、位置置信水平、以及对象是否对焦或者对象是否属于近前景、远前景或近背景或远背景。方向映射器274可以基于诸如元数据的信息将一个或多个经优先级排序的图像对象251'至254'与音频数据267中的一个或多个音频对象相关联。

例如，方向映射器274可以检查与前景相关联的V向量并且尝试使音频对象与V向量中的信息匹配并且为其指派类似优先级。方向映射器274可以将映射的图像对象、V向量和优先级值提供给优先级应用器282。方向映射器表示可以尝试将经优先级排序的对象251'至254'和音频数据267内的音频对象相关联的硬件或硬件和软件的组合。优先级应用器282可以基于它们的优先级值或它们的相关联图像对象的优先级值对音频对象的V向量进行加权。

优先级应用器282可以将与经优先级排序的图像对象(例如，251'至254')相关联的音频对象的优先级值提供给心理声学解码器276。心理声学解码器276可以接收经编码音频信号并且可以利用优先级值来确定用哪个质量来解码音频源(诸如U信号)的每一表示。虽然在本文的示例中讨论了U信号，但是可以根据本公开的技术使用音频源的其它表示。如本文所使用的，音频源的表示或多个音频源的表示也可以分别被称为音频源或多个音频源。例如，与具有较低优先级值的音频对象相比，具有较高优先级值的音频对象可以由心理声学解码器276以较高质量解码。

在诸如上文所讨论的示例的一些示例中，其中用户402将优先级模型286配置为具有五个优先级级别，心理声学解码器276可以使它们的解码基于给定对象的优先级级别和资源可用性两者(诸如电池能量或网络链路强度(诸如个人局域网链路强度))。例如：如果电池能量级别小于50％但大于20％，则心理声学解码器276可以仅解码优先级为3或更高的对象；如果电池能量级别是100％，则心理声学解码器276可以解码所有对象；并且如果电池能量级别小于或等于20％，则心理声学解码器276可以仅解码优先级为5的对象。

优先级应用器282还可以基于场景中包括的音频对象的优先级修改V向量，使得所得经解码信号具有在前景中的可变信噪比(例如，不同音频对象具有不同信噪比)，且将经修改的V向量发送给声场重建器275。

心理声学解码器276可以将M个经解码U信号提供给声场重建器275。声场重建器275可以从优先级应用器262接收经加权的V向量。声场重建器275可以然后基于U信号和V向量重建声场，将声场输出到渲染器280以用于为用户402渲染。

在一些示例中，内容消费者设备14可以将比特流27直接存储到存储器(未示出)中。在其它示例中，内容消费者设备14可以接收未经压缩的比特流且不解码视频和音频数据。

图4C是示出具有三个或更多个音频接收器的示例音乐会的概念图。在图4C的示例中，在舞台323上描绘了多个音乐家。歌手312位于麦克风310A后面。弦乐部分314被描绘在麦克风310B后面。鼓手316被描绘在麦克风310C后面。其他音乐家318被描绘在麦克风310D后面。麦克风310A至301D可以捕获对应于由麦克风接收的声音的音频流。在一些示例中，麦克风310A至310D可以表示经合成的音频流。例如，麦克风310A可以捕获主要与歌手312相关联的(多个)音频流，但是该(多个)音频流还可以包括由其他乐队成员(诸如弦乐部分314、鼓手316或其他音乐家318)产生的声音，而麦克风310B可以捕获主要与弦乐部分314相关联的(多个)音频流，但是该(多个)音频流包括由其他乐队成员产生的声音。以此方式，麦克风310A至310D中的每一个可以捕获(多个)不同音频流。

还描绘了多个设备。这些设备表示位于多个不同收听位置的用户设备。耳机320位于麦克风310A附近，但是在麦克风310A与麦克风310B之间。因此，内容消费者设备14可以选择音频流中的至少一个以为耳机320的用户产生类似于用户位于图4C中耳机320所处的位置的音频体验。类似地，VR护目镜322被示出为位于麦克风310C后面并且在鼓手316与其他音乐家318之间。内容消费者设备14可以选择至少一个音频流以为VR护目镜322的用户产生类似于用户位于图4C中VR护目镜322所处的位置的音频体验。

智能眼镜324被示出为位于麦克风310A、310C与310D之间的相当中心。内容消费者设备14可以选择至少一个音频流以为智能眼镜324的用户产生类似于用户位于图4C中智能眼镜324所处的位置的音频体验。附加地，设备326(其可以表示能够实现本公开的技术的任何设备，例如移动手持机、扬声器阵列、耳机、VR护目镜、智能眼镜等)被示出为位于麦克风310B前方。内容消费者设备14选择至少一个音频流以为设备326的用户产生类似于用户位于图4C中设备325所处的位置的音频体验。虽然关于特定位置讨论了特定设备，但是所描绘的任何设备的使用可以提供与图4C中所描绘的不同的期望收听位置的指示。图4C的设备中的任一个可用于实现本公开的技术。

图5是示出本公开的示例优先级排序技术的流程图。源设备12或内容消费者设备14可以将一个或多个优先级值存储在存储器中(350)。一个或多个优先级值中的每一个与关联于图像数据的图像对象的类型相关联。例如，一个优先级值可以与说话的两个人(例如，图像对象253)相关联，且另一优先级值可与远处的人(例如，图像对象252)相关联。

源设备12或内容消费者设备14的一个或多个处理器将图像数据中的图像对象与在一个或多个音频流中表示的一个或多个音频源相关联(352)。例如，源设备12或内容消费者设备14可以将引擎声音的音频流与汽车或与狗吠叫的音频流相关联。在一些示例中，源设备12或内容消费者设备14还可以存储每一音频源的位置信息，例如θ角和

角。

在一些示例中，当将图像数据中的图像对象与在一个或多个音频流中表示的一个或多个音频源相关联时，源设备12或内容消费者设备14可以将在一个或多个音频流中表示的一个或多个音频源空间映射到图像对象。在一些示例中，源设备12或内容消费者设备14可以使经空间映射的音频源与V向量匹配。在一些示例中，源设备12或内容消费者设备14可仅使经空间映射的音频源与在前景中的V向量(例如，不在用户后面的V向量)匹配。在一些示例中，源设备12或内容消费者设备14可以修改V向量以在编解码一个或多个音频流中的至少两个时区分一个或多个音频源中的该至少两个的信噪比。

源设备12或内容消费者设备14的一个或多个处理器将相应优先级值指派给在一个或多个音频流中表示的一个或多个音频源中的每一个(354)。例如，源设备12或内容消费者设备14可以确定与图像对象相关联的优先级且将相同优先级指派给与图像对象相关联的音频源。例如，如果狗的图像对象具有高优先级，则狗吠叫的音频源也可以被指派高优先级。源设备12或内容消费者设备14可以基于指派的优先级值编解码(例如，分别编码或解码)立体混响系数(356)。例如，对于具有较高指派的优先级的音频源，与具有较低指派的优先级的音频源相比，源设备12或内容消费者设备14可以使用更多的立体混响系数来编解码(例如，分别编码或解码)该音频源。在一些示例中，与较低优先级值音频源相比，源设备12或内容消费者设备14可以为较高优先级值音频源编解码更多比特。在一些示例中，源设备12或内容消费者设备14可以修改V向量以在编解码一个或多个音频流中的至少两个时区分一个或多个音频源中的该至少两个的信噪比。在一些示例中，编解码基于指派的优先级值和可用资源。例如，源设备12或内容消费者设备14可以确定电池能量级别较低，并且与在电池能量级别较高的情况下，源设备12或内容消费者设备14具有的编解码相比，源设备12或内容消费者设备14可以不同地编解码立体混响系数。在一些示例中，内容消费者设备14可通过混合或插值中的至少一个组合一个或多个音频源中的至少两个。

图6是示出可以根据本公开中所描述的技术的各个方面操作的可穿戴设备500的示例的图。在各种示例中，可穿戴设备500可以表示VR头戴式设备(诸如上述VR头戴式设备400)、AR头戴式设备、MR头戴式设备或任何其他类型的扩展现实(XR)头戴式设备。增强现实“AR”可以是指覆盖在用户实际所在的现实世界上的计算机渲染的图像或数据。混合现实“MR”可以是指被世界锁定到现实世界中的特定位置的计算机渲染的图像或数据，或者可以是指VR上的变型，在该变型中部分计算机渲染的3D对象和部分拍摄的现实对象被组合成模拟用户在环境中的物理存在的沉浸式体验。扩展现实“XR”可以表示VR、AR、MR的统称。关于针对XR的术语的更多信息可以在Jason Peterson的题为“Virtual Reality,AugmentedReality,and Mixed Reality Definitions”且日期为2017年7月7日的文档中找到。

可穿戴设备500可以表示其他类型的设备，诸如手表(包括所谓的“智能手表”)、眼镜(包括所谓的“智能眼镜”)、耳机(包括所谓的“无线耳机”和“智能耳机”)、智能服装、智能珠宝等。无论是表示VR设备、手表、眼镜和/或耳机，可穿戴设备500都可以经由有线连接或无线连接与支持可穿戴设备500的计算设备通信。

在一些情况下，支持可穿戴设备500的计算设备可以集成在可穿戴设备500内，并且因此，可穿戴设备500可以被认为是与支持可穿戴设备500的计算设备相同的设备。在其他情况下，可穿戴设备500可以与可以支持可穿戴设备500的单独的计算设备通信。在这方面，术语“支持”不应被理解为需要单独的专用设备，而是被配置为执行本公开中所描述的技术的各个方面的一个或多个处理器可以集成在可穿戴设备500内或者集成在与可穿戴设备500分离的计算设备内。

例如，当可穿戴设备500表示VR设备1100时，单独的专用计算设备(诸如包括一个或多个处理器的个人计算机)可以渲染音频和视觉内容，而可穿戴设备500可以确定平移头部运动，专用计算设备可以在其上根据本公开中所描述的技术的各个方面基于平移头部运动渲染音频内容(作为扬声器馈送)。作为另一示例，当可穿戴设备500表示智能眼镜时，可穿戴设备500可以包括一个或多个处理器，该一个或多个处理器(通过与可穿戴设备500的一个或多个传感器接口连接)确定平移头部运动并且基于所确定的平移头部运动渲染扬声器馈送。

如图所示，可穿戴设备500包括一个或多个定向扬声器以及一个或多个跟踪和/或记录相机。另外，可穿戴设备500包括一个或多个惯性、触觉和/或健康传感器、一个或多个眼睛跟踪相机、一个或多个高灵敏度音频麦克风以及光学器件/投影硬件。可穿戴设备500的光学器件/投影硬件可以包括耐用的半透明显示技术和硬件。

可穿戴设备500还包括连接硬件，其可以表示支持多模式连接的一个或多个网络接口，诸如长期演进(LTE)、高级LTE(LTE-A)、LTE-A Pro、5G蜂窝、新无线电(NR)、蓝牙等。可穿戴设备500还包括一个或多个环境光传感器和骨传导换能器。在一些情况下，可穿戴设备500还可以包括具有鱼眼镜头和/或远摄镜头的一个或多个无源和/或有源相机。尽管未在图6中示出，但是可穿戴设备500还可以包括一个或多个发光二极管(LED)灯。在一些示例中，(多个)LED灯可以被称为“超亮”LED灯。在一些实现中，可穿戴设备500还可以包括一个或多个后置相机。应当理解，可穿戴设备500可以表现出各种不同的形状因素。

此外，跟踪和记录相机以及其他传感器可以促进平移距离的确定。尽管在图6的示例中未示出，但可穿戴设备500可以包括用于检测平移距离的其他类型传感器。

尽管关于可穿戴设备的特定示例进行了描述，诸如上面关于图6的示例讨论的VR设备1100和图1A至图1C的示例中阐述的其他设备，但是本领域普通技术人员将理解，与图1A至图1C和图2相关的描述可以应用于可穿戴设备的其他示例。例如，诸如智能眼镜的其他可穿戴设备可以包括通过其获得平移头部运动的传感器。作为另一示例，诸如智能手表的其他可穿戴设备可以包括通过其获得平移运动的传感器。因此，本公开中所描述的技术不应限于特定类型的可穿戴设备，而是任何可穿戴设备可以被配置为执行本公开中所描述的技术。

图7A和图7B是示出可执行本公开中所描述的技术的各个方面的示例系统的图。图7A示出源设备12还包括相机600的示例。相机600可以被配置为捕获视频数据，并且将所捕获的原始视频数据提供给内容捕获设备20。内容捕获设备20可以将视频数据提供给源设备12的另一组件以用于进一步处理成视口划分部分。

在图7A的示例中，内容消费者设备14还包括可穿戴设备300。应理解，在各种实现中，可穿戴设备300可以被包括在内容消费者设备14中或外部耦接到内容消费者设备14。可穿戴设备300包括用于输出视频数据(例如，如与各种视口相关联)和用于渲染音频数据的显示器硬件和扬声器硬件。

图7B示出其中用双耳渲染器42替换图7A中所示的音频渲染器32的示例，双耳渲染器42能够使用一个或多个HRTF或能够渲染左和右扬声器馈送43的其它功能执行双耳渲染。音频回放系统16C可以将左扬声器馈送和右扬声器馈送43输出到耳机44。

耳机44可以经由有线连接(诸如标准3.5mm音频插孔、通用系统总线(USB)连接、光学音频插孔或其他形式的有线连接)或无线地(诸如通过蓝牙^TM连接、无线网络连接等)耦接到音频回放系统16C。耳机44可以基于左扬声器馈送和右扬声器馈送43重新创建由音频数据19'表示的声场。耳机44可以包括左耳机扬声器和右耳机扬声器，其由对应的左扬声器馈送和右扬声器馈送43提供动力(或换句话说，驱动)。

图8是示出图1A、图1B或图1C的示例中所示的源设备和内容消费者设备中的一个或多个的示例组件的框图。在图8的示例中，设备710包括处理器712(其可以被称为“一个或多个处理器”或“(多个)处理器”)、图形处理单元(GPU)714、系统存储器716、显示处理器718、一个或多个集成扬声器740、显示器703、用户接口720、天线721和收发器模块722。在设备710是移动设备的示例中，显示处理器718是移动显示处理器(MDP)。在诸如其中设备710是移动设备的示例的一些示例中，处理器712、GPU 714和显示处理器718可以形成为集成电路(IC)。

例如，IC可以被认为是芯片封装内的处理芯片，并且可以是片上系统(SoC)。在一些示例中，处理器712、GPU 714和显示处理器718中的两个可以一起容纳在相同的IC中，并且另一个在不同的集成电路(即，不同的芯片封装)中，或者所有三个可以容纳在不同的IC中或在相同的IC上。然而，在其中设备710是移动设备的示例中，处理器712、GPU 714和显示处理器718全部容纳在不同的集成电路中是可能的。

处理器712、GPU 714和显示处理器718的示例包括但不限于一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)、或其他等效的集成或分立逻辑电路。处理器712可以是设备710的中央处理单元(CPU)。在一些示例中，GPU 714可以是专用硬件，其包括为GPU 714提供适合于图形处理的大规模并行处理能力的集成和/或分立逻辑电路。在一些情况下，GPU 714可以还包括通用处理能力，并且当实现通用处理任务(即，非图形相关任务)时可以被称为通用GPU(GPGPU)。显示处理器718还可以是专用集成电路硬件，其被设计为从系统存储器716检索图像内容，将图像内容组合成图像帧，以及将图像帧输出到显示器703。

处理器712可以执行各种类型的应用。应用的示例包括网页浏览器、电子邮件应用、电子表格、视频游戏、生成用于显示的视觉对象的其他应用、或上面更详细列出的任何应用类型。系统存储器716可以存储用于执行应用的指令。在处理器712上执行应用中的一个使得处理器712产生用于要显示的图像内容的图形数据和(可能经由集成扬声器740)要播放的音频数据19。处理器712可以将图像内容的图形数据发送给GPU 714以用于基于处理器712发送给GPU 714的指令或命令进行进一步处理。

处理器712可以根据特定的应用处理接口(API)与GPU 714通信。这些API的示例包括

公司的

API、科罗诺斯集团的

或OpenGL

以及OpenCL^TM；然而，本公开的各方面不限于DirectX、OpenGL或OpenCL API，且可扩展到其它类型的API。此外，本公开中所描述的技术不需要根据API起作用，并且处理器712和GPU 714可以利用任何过程进行通信。

系统存储器716可以是设备710的存储器。系统存储器716可以包括一个或多个计算机可读存储介质。系统存储器716的示例包括但不限于随机存取存储器(RAM)、电可擦除可编程只读存储器(EEPROM)、闪存或可用于携带或存储指令和/或数据结构形式的期望程序代码并且可由计算机或处理器访问的其他介质。

在一些示例中，系统存储器716可以包括指令，其使得处理器712、GPU714和/或显示处理器718执行在本公开中归属于处理器712、GPU 714和/或显示处理器718的功能。因此，系统存储器716可以是计算机可读存储介质，其上存储有指令，该指令在被执行时使得一个或多个处理器(例如，处理器712、GPU 714和/或显示处理器718)执行各种功能。

系统存储器716可以包括非暂时性存储介质。术语“非暂时性”指示存储介质不体现在载波或传播信号中。然而，术语“非暂时性”不应被解释为意味着系统存储器716是不可移动的或者其内容是静态的。作为一个示例，系统存储器716可以从设备710移除并移动到另一设备。作为另一示例，可以将基本上类似于系统存储器716的存储器插入到设备710中。在某些示例中，非暂时性存储介质可以存储可随时间改变的数据(例如，在RAM中)。

用户接口720可以表示一个或多个硬件或虚拟(意味着硬件和软件的组合)用户接口，用户可以通过该用户接口与设备710接口连接。用户接口720可以包括物理按钮、开关、拨动开关、灯或其虚拟版本。用户接口720还可以包括物理或虚拟键盘、触摸接口(诸如触摸屏)、触觉反馈等。

处理器712可以包括一个或多个硬件单元(包括所谓的“处理核”)，其被配置为执行上文关于内容创建者设备和/或内容消费者设备的任何模块、单元或其它功能组件中的一个或多个所讨论的操作的全部或某些部分。天线721和收发器模块722可以表示被配置为建立和维持内容消费者设备14与内容消费者设备14之间的连接的单元。天线721和收发器模块722可以表示能够根据诸如第五代(5G)蜂窝标准、个人局域网(PAN)协议(例如蓝牙^TM)或其它开源、专有或其它通信标准的一个或多个无线通信协议进行无线通信的一个或多个接收器和/或一个或多个发送器。例如，收发器模块722可以接收和/或发送无线信号。收发器模块722可以表示单独的发送器、单独的接收器、单独的发送器和单独的接收器二者或者组合的发送器和接收器。天线721和收发器模块722可以被配置为接收经编码音频数据。同样地，天线721和收发器模块722可以被配置为发送经编码音频数据。

应认识到，取决于示例，本文中所描述的技术中的任一个的某些动作或事件可以以不同序列被执行，可以被添加、合并或完全省略(例如，实践所述技术并非所有所描述动作或事件都是必需的)。此外，在某些示例中，可以例如通过多线程处理、中断处理或多个处理器同时而非依序执行动作或事件。

在一些示例中，VR设备(或流传输设备)可以使用耦接到VR/流传输设备的存储器的网络接口将交换消息传送到外部设备，其中交换消息与声场的多个可用表示相关联。在一些示例中，VR设备可以使用耦接到网络接口的天线接收包括与声场的多个可用表示相关联的数据分组、音频分组、视频分组或传输协议数据的无线信号。在一些示例中，一个或多个麦克风阵列可以捕获声场。

在一些示例中，存储到存储器设备的声场的多个可用表示可以包括声场的多个基于对象的表示、声场的高阶立体混响表示、声场的混阶立体混响表示、声场的基于对象的表示与声场的高阶立体混响表示的组合、声场的基于对象的表示与声场的混阶立体混响表示的组合或声场的混阶表示与声场的高阶立体混响表示的组合。

在一些示例中，声场的多个可用表示中的一个或多个声场表示可以包括至少一个高分辨率区和至少一个较低分辨率区，并且其中，基于导引角的选定呈现提供相对于至少一个高分辨率区的较大空间精度和相对于较低分辨率区的较小空间精度。

本公开包括以下示例。

条款1.一种被配置为获得图像数据的设备，该设备包括：存储器，其被配置为存储一个或多个优先级值，该一个或多个优先级值中的每一个与关联于图像数据的图像对象的类型相关联；以及一个或多个处理器，其耦接到存储器，并且被配置为：将图像数据中的图像对象与一个或多个音频流中的一个或多个音频源相关联；将相应优先级值指派给一个或多个音频流中的一个或多个音频源中的每一个；以及基于指派的优先级值编解码立体混响系数。

条款2.如条款1所述的设备，其中，一个或多个处理器还被配置为将一个或多个音频流中的一个或多个音频源空间映射到相关联图像对象。

条款3.如条款2所述的设备，其中，位置信息包括每个音频源的θ角和

角。

条款4.如条款2至3的任何组合所述的设备，其中，位置信息还包括每个音频源的V向量，以及一个或多个处理器还被配置为使经空间映射的音频源与V向量匹配。

条款5.如条款4所述的设备，其中，一个或多个处理器还被配置为使经空间映射的音频源与仅在前景中的V向量匹配。

条款6.如条款4至5的任何组合所述的设备，其中，一个或多个处理器还被配置为修改V向量以在编解码一个或多个音频源中的至少两个时区分一个或多个音频源中的该至少两个的信噪比。

条款7.如条款1至6的任何组合所述的设备，其中，一个或多个处理器还被配置为与较低优先级值音频源相比，为较高优先级值音频源编解码更多比特。

条款7.1如条款1至7的任何组合所述的设备，其中，一个或多个处理器还被配置为基于指派的优先级值和可用资源编解码多个立体混响系数。

条款7.2如条款7.1所述的设备，其中，可用资源是电池能量级别。

条款8.如条款1至7.2的任何组合所述的设备，其中，一个或多个处理器还被配置为将一个或多个音频源输出给一个或多个扬声器。

条款9.如条款1至8的任何组合所述的设备，其中，一个或多个处理器还被配置为组合一个或多个音频源中的至少两个。

条款10.如条款9所述的设备，其中，一个或多个处理器通过混合或插值中的至少一个组合一个或多个音频源中的至少两个。

条款11.如条款1至10的任何组合所述的设备，还包括显示设备。

条款12.如条款1至11的任何组合所述的设备，还包括麦克风，其中，一个或多个处理器还被配置为接收嵌入在来自麦克风的音频流中的语音命令，并基于语音命令控制显示设备。

条款13.如条款1至12的任何组合所述的设备，还包括一个或多个扬声器。

条款14.如条款1至12的任何组合所述的设备，其中，该设备包括移动手持机。

条款15.如条款1至13的任何组合所述的设备，其中，该设备包括扩展现实头戴式设备，以及其中，声学空间包括由相机捕获的视频数据表示的场景。

条款16.如条款1至13的任何组合所述的设备，其中，该设备包括扩展现实头戴式设备，以及其中，声学空间包括虚拟世界。

条款17.如条款1至16的任何组合所述的设备，还包括被配置为呈现声学空间的头戴式设备。

条款18.如条款1至17的任何组合所述的设备，还包括无线收发器，无线收发器耦接到一个或多个处理器并且被配置为接收无线信号。

条款19.如条款18所述的设备，其中，无线信号符合个人局域网标准。

条款19.5如条款19所述的设备，其中，个人局域网标准包括AptX标准。

条款20.如条款18所述的设备，其中，无线信号符合第五代(5G)蜂窝协议。

条款20.1如条款1至20的任一条款所述的设备，其中，一个或多个处理器被配置为通过计算机视觉分析图像数据。

条款20.2如条款1至20.1的任一条款所述的设备，其中，一个或多个处理器被配置为通过机器学习分析图像数据。

条款20.3如条款1至20.2的任一条款所述的设备，其中，该设备包括解码器。

条款20.4如条款1至20.3的任一条款所述的设备，其中，该设备包括编码器。

条款21.一种获得图像数据的方法，包括：由存储器存储一个或多个优先级值，该一个或多个优先级值中的每一个与关联于图像数据的图像对象的类型相关联；由一个或多个处理器将图像数据中的图像对象与一个或多个音频流中的一个或多个音频源相关联；由一个或多个处理器将相应优先级值指派给一个或多个音频流中的一个或多个音频源中的每一个；以及由一个或多个处理器基于指派的优先级值编解码立体混响系数。

条款22.如条款21所述的方法，还包括将一个或多个音频流中的一个或多个音频源空间映射到相关联图像对象。

条款23.如条款22所述的方法，其中，位置信息包括每个音频源的θ角和

角。

条款24.如条款22至23的任何组合所述的方法，其中，位置信息还包括每个音频源的V向量，以及该方法还包括使经空间映射的音频源与V向量匹配。

条款25.如条款24所述的方法，还包括使经空间映射的音频源与仅在前景中的V向量匹配。

条款26.如条款24至25的任何组合所述的方法，还包括修改V向量以在编解码一个或多个音频源中的至少两个时区分一个或多个音频源中的该至少两个的信噪比。

条款27.如条款21至26的任何组合所述的方法，其中，与较低优先级值音频源相比，所述编解码为较高优先级值音频源编解码更多比特。

条款27.1如条款21至27的任何组合所述的方法，其中，所述编解码基于指派的优先级值和可用资源。

条款27.2如条款27.1所述的方法，其中，可用资源是电池能量级别。

条款28.如条款21至27.2的任何组合所述的方法，还包括由一个或多个处理器将一个或多个音频源输出给一个或多个扬声器。

条款29.如条款21至28的任何组合所述的方法，还包括由一个或多个处理器组合一个或多个音频源中的至少两个。

条款30.如条款29所述的方法，其中，通过混合或插值中的至少一个组合一个或多个音频源中的至少两个。

条款31.如条款21至30的任何组合所述的方法，还包括接收嵌入在来自麦克风的音频流中的语音命令，并由一个或多个处理器基于语音命令控制显示设备。

条款32.如条款21至31的任何组合所述的方法，其中，声学空间包括由相机捕获的视频数据表示的场景。

条款33.如条款21至32的任何组合所述的方法，其中，声学空间包括虚拟世界。

条款34.如条款21至33的任何组合所述的方法，还包括在头戴式设备上呈现声学空间。

条款35.如条款21至34的任何组合所述的方法，其中，该方法被在移动手持机上执行。

条款36.如条款21至35的任何组合所述的方法，还包括接收无线信号。

条款37.如条款36所述的方法，其中，无线信号符合个人局域网标准。

条款37.5如条款37所述的方法，其中，个人局域网标准包括AptX标准。

条款38.如条款36所述的方法，其中，无线信号符合第五代(5G)蜂窝协议。

条款38.1如条款21至38的任何组合所述的方法，其中，分析图像数据包括利用计算机视觉。

条款38.2如条款21至38.1的任何组合所述的方法，其中，分析图像数据包括利用机器学习。

条款38.3如条款21至38.2的任何组合所述的方法，其中，编解码是解码。

条款38.4如条款21至38.2中的任何组合所述的方法，其中，编解码是编码。

条款39.一种被配置为获得图像数据的设备，包括：用于存储一个或多个优先级值的部件，该一个或多个优先级值中的每一个与关联于图像数据的图像对象的类型相关联；用于将图像数据中的图像对象与一个或多个音频流中的一个或多个音频源相关联的部件；用于将相应优先级值指派给一个或多个音频流中的一个或多个音频源中的每一个的部件；以及用于基于指派的优先级值编解码立体混响系数的部件。

条款40.如条款39所述的设备，还包括用于将一个或多个音频流中的一个或多个音频源空间映射到图像对象的部件。

条款41.如条款40所述的设备，其中，位置信息包括每个音频源的θ角和

角。

条款42.如条款40至41的任何组合所述的设备，其中，位置信息还包括每个音频源的V向量，以及该设备还包括用于使经空间映射的音频源与V向量匹配的部件。

条款43.如条款42所述的设备，其中，用于使经空间映射的音频源与V向量匹配的部件仅在前景中匹配。

条款44.如条款42至42的任何组合所述的设备，还包括用于修改V向量以在当编解码一个或多个音频源中的至少两个时区分一个或多个音频源中的该至少两个的信噪比的部件。

条款45.如条款39至44的任何组合所述的设备，其中，与较低优先级值音频源相比，用于编解码立体混响系数的部件为较高优先级值音频源编解码更多比特。

条款45.1如条款39至45的任何组合所述的设备，其中，用于编解码立体混响系数的部件基于指派的优先级值和可用资源编解码立体混响系数。

条款45.2如条款39至45.1的任何组合所述的设备，其中，可用资源是电池能量级别。

条款46.如条款39至45的任何组合所述的设备，还包括用于将一个或多个音频源输出给一个或多个扬声器的部件。

条款47.如条款39至46的任何组合所述的设备，还包括用于组合一个或多个音频源中的至少两个的部件。

条款48.如条款47所述的设备，其中，通过混合或插值中的至少一个组合一个或多个音频源中的至少两个。

条款49.如条款39至48的任何组合所述的设备，还包括用于显示图像数据的部件。

条款50.如条款49所述的设备，还包括用于接收嵌入在来自麦克风的音频流中的语音命令的部件，以及用于基于语音命令控制显示设备的部件。

条款51.如条款39至50的任何组合所述的设备，还包括用于播放多个音频流的部件。

条款52.如条款39至51的任何组合所述的设备，其中，该设备包括移动手持机。

条款53.如条款39至49的任何组合所述的设备，其中，该设备包括扩展现实头戴式设备，以及其中，声学空间包括由相机捕获的视频数据表示的场景。

条款54.如条款39至49的任何组合所述的设备，其中，该设备包括扩展现实头戴式设备，以及其中，声学空间包括虚拟世界。

条款55.如条款39至54的任何组合所述的设备，还包括用于在头戴式设备上呈现声学空间的部件。

条款56.如条款39至55的任何组合所述的设备，还包括用于接收无线信号的部件。

条款57.如条款56所述的设备，其中，无线信号符合个人局域网标准。

条款57.5如条款57所述的设备，其中，个人局域网标准包括AptX标准。

条款58.如条款56所述的设备，其中，无线信号符合第五代(5G)蜂窝协议。

条款58.1.如条款39至58的任何组合所述的设备，其中，用于分析图像数据的部件包括用于计算机视觉的部件。

条款58.2.如条款39至58.1的任何组合所述的设备，其中，用于分析图像数据的部件包括用于机器学习的部件。

条款58.3.如条款39至58.2的任何组合所述的设备，其中，该设备包括解码器。

条款58.4.如条款39至58.3的任何组合所述的设备，其中，该设备包括编码器。

条款59.一种非暂时性计算机可读存储介质，其上存储有指令，该指令在被执行时使得一个或多个处理器：存储一个或多个优先级值，该一个或多个优先级值中的每一个与关联于图像数据的图像对象的类型相关联；将图像数据中的图像对象与一个或多个音频流中的一个或多个音频源相关联；将相应优先级值指派给一个或多个音频流中的一个或多个音频源中的每一个；以及基于指派的优先级值编解码立体混响系数。

条款60.如条款59所述的非暂时性计算机可读存储介质，其中，该指令还使得一个或多个处理器将一个或多个音频流中的一个或多个音频源空间映射到图像对象。

条款61.如条款60所述的非暂时性计算机可读存储介质，其中，位置信息包括每个音频源的θ角和

角。

条款62.如条款60至61的任何组合所述的非暂时性计算机可读存储介质，其中，位置信息还包括每个音频源的V向量，并且该指令在被执行时还使得一个或多个处理器将经空间映射的音频源与V向量匹配。

条款63.如条款62所述的非暂时性计算机可读存储介质，其中，该指令在被执行时还使得一个或多个处理器使经空间映射的音频源与仅在前景中的V向量匹配。

条款64.如条款62至63的任何组合所述的非暂时性计算机可读存储介质，其中，该指令在被执行时还使得一个或多个处理器修改V向量以在编解码一个或多个音频源中的至少两个时区分一个或多个音频源中的该至少两个的信噪比。

条款65.如条款59至64的任何组合所述的非暂时性计算机可读存储介质，其中，与较低优先级值音频源相比，编解码立体混响系数为较高优先级值音频源编解码更多比特。

条款65.1如条款59至65的任何组合所述的非暂时性计算机可读存储介质，其中，该指令在被执行时使得一个或多个处理器基于指派的优先级值和可用资源编解码多个立体混响系数。

条款65.2如条款65.1所述的非暂时性计算机可读存储介质，其中，可用资源是电池能量级别。

条款66.如条款59至65的任何组合所述的非暂时性计算机可读存储介质，其中，该指令在被执行时使得一个或多个处理器将一个或多个音频源输出给一个或多个扬声器。

条款67.如条款59至66的任何组合所述的非暂时性计算机可读存储介质，其中，该指令在被执行时使得一个或多个处理器组合一个或多个音频源中的至少两个。

条款68.如条款67所述的非暂时性计算机可读存储介质，其中，该指令在被执行时使得一个或多个处理器通过混合或插值中的至少一个组合一个或多个音频源中的至少两个。

条款69.如条款59至68的任何组合所述的非暂时性计算机可读存储介质，其中，该指令在被执行时使得一个或多个处理器基于嵌入在音频流中的语音命令来控制显示设备。

条款70.如条款59至69的任何组合所述的非暂时性计算机可读存储介质，其中，声学空间包括由相机捕获的视频数据表示的场景。

条款71.如条款59至69的任何组合所述的非暂时性计算机可读存储介质，其中，声学空间包括虚拟世界。

条款72.如条款59至71的任何组合所述的非暂时性计算机可读存储介质，其中，该指令在被执行时使得一个或多个处理器在移动手持机上呈现声学空间。

条款73.如条款59至72的任何组合所述的非暂时性计算机可读存储介质，其中，该指令在被执行时使得一个或多个处理器在头戴式设备上呈现声学空间。

条款74.如条款59至73的任何组合所述的非暂时性计算机可读存储介质，其中，该指令在被执行时使得一个或多个处理器接收无线信号。

条款75.如条款74所述的非暂时性计算机可读存储介质，其中，无线信号符合个人局域网标准。

条款75.5如条款75所述的非暂时性计算机可读存储介质，其中，个人局域网标准包括AptX标准。

条款76.如条款74所述的非暂时性计算机可读存储介质，其中，无线信号符合第五代(5G)蜂窝协议。

条款77.如条款59至76的任何组合所述的非暂时性计算机可读存储介质，其中，该指令在被执行时使得一个或多个处理器通过计算机视觉分析图像数据。

条款78.如条款59至77的任何组合所述的非暂时性计算机可读存储介质，其中，该指令在被执行时使得一个或多个处理器通过机器学习分析图像数据。

条款79.如条款59至78的任何组合所述的非暂时性计算机可读存储介质，其中，该指令在被执行时使得一个或多个处理器通过解码立体混响系数来编解码立体混响系数。

条款80.如条款59至79的任何组合所述的非暂时性计算机可读存储介质，其中，该指令在被执行时使得一个或多个处理器通过编码立体混响系数来编解码立体混响系数。

在一个或多个示例中，可以以硬件，软件，固件或其任何组合来实现所描述的功能。如果以软件实现，则功能可以作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质发送，并由基于硬件的处理单元执行。计算机可读介质可以包括计算机可读存储介质，其对应于诸如数据存储介质的有形介质，或者通信介质，包括例如根据通信协议来促进将计算机程序从一个地方转移到另一地方的任何介质。以这种方式，计算机可读介质通常可以对应于(1)非暂时性的有形计算机可读存储介质，或者(2)诸如信号或载波的通信介质。数据存储介质可以是可由一台或多台计算机或一个或多个处理器访问以检索指令、代码和/或数据结构以实现本公开中描述的技术的任何可用介质。计算机程序产品可以包括计算机可读介质。

作为示例而非限制，这种计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光学盘存储、磁盘存储或其他磁存储设备，闪存、或可用于以指令或数据结构的形式存储所需的程序代码并且可以由计算机访问的任何其他介质。此外，任何连接都适当地被称为计算机可读介质。例如，如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或者诸如红外、无线电和微波的无线技术从网站、服务器或其他远程源发送指令，则同轴电缆、光纤电缆、双绞线、DSL或者诸如红外、无线电和微波的无线技术被包括在介质的定义中。然而，应当理解，计算机可读存储介质和数据存储介质排除连接、载波、信号或其他暂时性介质，而是针对非暂时性的有形存储介质。如本文使用的磁盘和光盘包括致密盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘和蓝光光盘，其中磁盘通常以磁性方式再现数据，而光盘则利用激光以光学方式再现数据。以上的组合也应被包括在计算机可读介质的范围内。

指令可以由一个或多个处理器执行，诸如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他等效的集成或离散逻辑电路。因此，如本文所使用的术语“处理器”可以指任何前述结构或适合于实现本文描述的技术的任何其他结构。另外，在一些方面，本文描述的功能可以在被配置用于编码和解码的专用硬件和/或软件模块内提供，或结合在组合编解码器中。同样，该技术可以在一个或多个电路或逻辑元件中完全实现。

本公开的技术可以在包括无线手持机、集成电路(IC)或IC集(例如，芯片集)的多种设备或装置中实现。在本公开中描述各种组件、模块或单元以强调被配置为执行所公开的技术的设备的功能方面，但不一定需要由不同硬件单元来实现。相反，如上所述，各种单元可以组合在编解码器硬件单元中，或者由互操作硬件单元的集合结合合适的软件和/或固件来提供，该互操作硬件单元的集合包括如上所述的一个或多个处理器。

已经对各种示例进行了描述。这些示例以及其他示例都在所附权利要求的范围内。

Claims

1.一种被配置为获得图像数据的设备，包括：

存储器，其被配置为存储一个或多个优先级值，所述一个或多个优先级值中的每一个与关联于所述图像数据的图像对象的类型相关联；以及

一个或多个处理器，其耦接到所述存储器，并且被配置为：

将所述图像数据中的图像对象与在一个或多个音频流中表示的一个或多个音频源相关联；

将相应优先级值指派给在所述一个或多个音频流中表示的所述一个或多个音频源中的每一个；以及

基于所指派的优先级值编解码立体混响系数。

2.如权利要求1所述的设备，其中，所述一个或多个处理器还被配置为将在所述一个或多个音频流中表示的所述一个或多个音频源空间映射到相关联图像对象。

3.如权利要求2所述的设备，其中，所述存储器还被配置为存储位置信息，其中所述位置信息包括每个音频源的θ角及

角。

4.如权利要求3所述的设备，其中，所述位置信息还包括每个音频源的V向量，并且所述一个或多个处理器还被配置为使经空间映射的音频源与所述V向量匹配。

5.如权利要求4所述的设备，其中，所述一个或多个处理器还被配置为使经空间映射的音频源与仅在前景中的V向量匹配。

6.如权利要求4所述的设备，其中，所述一个或多个处理器还被配置为修改所述V向量以在编解码在所述一个或多个音频流中表示的所述一个或多个音频源中的至少两个时区分所述一个或多个音频源中的所述至少两个的信噪比。

7.如权利要求1所述的设备，其中，所述一个或多个处理器还被配置为：与较低优先级值音频源相比，为较高优先级值音频源编解码更多比特。

8.如权利要求1所述的设备，其中，所述一个或多个处理器还被配置为基于所指派的优先级值及可用资源来编解码多个立体混响系数。

9.如权利要求8所述的设备，其中，所述可用资源是电池能量级别。

10.如权利要求1所述的设备，其中，所述一个或多个处理器还被配置为通过混合或插值中的至少一个来组合在所述一个或多个音频流中表示的所述一个或多个音频源中的至少两个。

11.如权利要求1所述的设备，其中，所述设备包括移动手持机。

12.如权利要求1所述的设备，

其中，所述设备包括扩展现实头戴式设备，以及

其中，声学空间包括由相机捕获的视频数据表示的场景。

13.如权利要求1所述的设备，

其中，所述设备包括扩展现实头戴式设备，以及

其中，声学空间包括虚拟世界。

14.如权利要求1所述的设备，还包括被配置为呈现声学空间的头戴式设备。

15.一种获得图像数据的方法，包括：

由存储器存储一个或多个优先级值，所述一个或多个优先级值中的每一个与关联于所述图像数据的图像对象的类型相关联；

由一个或多个处理器将所述图像数据中的图像对象与在一个或多个音频流中表示的一个或多个音频源相关联；

由所述一个或多个处理器将相应优先级值指派给在所述一个或多个音频流中表示的所述一个或多个音频源中的每一个；以及

由所述一个或多个处理器基于所指派的优先级值编解码立体混响系数。

16.如权利要求15所述的方法，还包括将在所述一个或多个音频流中表示的所述一个或多个音频源空间映射到相关联图像对象。

17.如权利要求16所述的方法，还包括由所述存储器存储位置信息，其中所述位置信息包括每个音频源的θ角及

角。

18.如权利要求17所述的方法，其中，所述位置信息还包括每个音频源的V向量，并且所述方法还包括使经空间映射的音频源与所述V向量匹配。

19.如权利要求18所述的方法，还包括使经空间映射的音频源与仅在前景中的V向量匹配。

20.如权利要求18所述的方法，还包括修改所述V向量以在编解码在所述一个或多个音频流中表示的所述一个或多个音频源中的至少两个时区分所述一个或多个音频源中的所述至少两个的信噪比。

21.如权利要求15所述的方法，其中，与较低优先级值音频源相比，所述编解码为较高优先级值音频源编解码更多比特。

22.如权利要求15所述的方法，其中，所述编解码基于所指派的优先级值及可用资源。

23.如权利要求22所述的方法，其中，所述可用资源是电池能量级别。

24.如权利要求15所述的方法，还包括由所述一个或多个处理器通过混合或插值中的至少一个来组合在所述一个或多个音频流中表示的所述一个或多个音频源中的至少两个。

25.如权利要求15所述的方法，其中，声学空间包括由相机捕获的视频数据表示的场景。

26.如权利要求15所述的方法，其中，声学空间包括虚拟世界。

27.如权利要求15所述的方法，还包括在头戴式设备上呈现声学空间。

28.如权利要求15所述的方法，其中，所述方法在移动手持机上执行。

29.一种被配置为获得图像数据的设备，包括：

用于存储一个或多个优先级值的部件，所述一个或多个优先级值中的每一个与关联于所述图像数据的图像对象的类型相关联；

用于将所述图像数据中的图像对象与在一个或多个音频流中表示的一个或多个音频源相关联的部件；

用于将相应优先级值指派给在所述一个或多个音频流中表示的所述一个或多个音频源中的每一个的部件；以及

用于基于所指派的优先级值编解码立体混响系数的部件。

30.一种非暂时性计算机可读存储介质，其上存储有指令，所述指令在被执行时使得一个或多个处理器：

存储一个或多个优先级值，所述一个或多个优先级值中的每一个与关联于图像数据的图像对象的类型相关联；

基于所指派的优先级值编解码立体混响系数。