CN114731483A

CN114731483A - 用于虚拟现实音频的声场适配

Info

Publication number: CN114731483A
Application number: CN202080078575.9A
Authority: CN
Inventors: F.奥利维耶里; T.夏巴兹米尔扎哈桑罗; N.G.彼得斯
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2019-11-22
Filing date: 2020-11-19
Publication date: 2022-07-08
Also published as: TW202127916A; EP4062657A1; WO2021102137A1; US20210160645A1; US11317236B2

Abstract

一种示例装置包括配置为存储多个音频流内的至少一个空间分量和至少一个音频源的存储器。该装置还包括耦合到存储器的一个或多个处理器。该一个或多个处理器配置为从运动传感器接收旋转信息。该一个或多个处理器配置为基于旋转信息旋转至少一个空间分量以形成至少一个旋转的空间分量。该一个或多个处理器还配置为从至少一个旋转的空间分量和至少一个音频源重建环境立体声信号，其中，该至少一个空间分量描述球谐函数域表示中的与至少一个音频源相关联的空间特性。

Description

用于虚拟现实音频的声场适配

本申请要求于2020年11月18日提交的美国申请No.16/951,662的优先权，该美国申请要求于2019年11月22日提交的美国临时申请No.62/939,477的权益，它们中的每一个的全部内容通过引用并入于此。

技术领域

本公开涉及媒体数据，比如音频数据的处理。

背景技术

正在开发计算机中介的现实系统，以允许计算装置添加或者增加、去除或者减去、或者一般地修改由用户体验的现有现实。计算机中介的现实系统(其也可以被称为“增强现实系统”或者“XR系统”)作为示例，可以包括虚拟现实(VR)系统、增强现实(AR)系统和混合现实(MR)系统。计算机中介的现实系统的感知成功一般与这种计算机中介的现实系统就视频和音频体验两者而言提供现实地浸入式体验的能力有关，其中视频和音频体验以用户期望的方式对准。虽然人的视觉系统比人的听觉系统更敏感(例如，就场景内的各种对象的感知定位而言)，但是保证足够的听觉体验在保证现实地浸入式体验时是越来越重要的因素，特别是随着视频体验改进以允许视频对象的更好的定位，其使用户能够更好地识别音频内容的源。

发明内容

本公开总的来说涉及计算机中介的现实系统的用户体验的听觉方面，包括虚拟现实(VR)、混合现实(MR)、增强现实(AR)、计算机视觉和图形系统。该技术的各个方面可以提供用于自适应音频捕获和用于扩展的现实系统的声学空间的渲染。

在一个示例中，该技术的各个方面涉及配置为播放多个音频流中的一个或多个音频流的装置，该装置包括：存储器，配置为存储多个音频流内的至少一个空间分量和至少一个音频源；和耦合到存储器的一个或多个处理器，并且配置为：从运动传感器接收旋转信息；基于旋转信息旋转至少一个空间分量以形成至少一个旋转的空间分量；和从至少一个旋转的空间分量和至少一个音频源重建三维声信号，其中，该至少一个空间分量描述球谐函数域表示中的与至少一个音频源相关联的空间特性。

在另一示例中，该技术的各个方面涉及播放多个音频流中的一个或多个音频流的方法，该方法包括，由存储器存储多个音频流内的至少一个空间分量和至少一个音频源；由一个或多个处理器从运动传感器接收旋转信息；由一个或多个处理器基于旋转信息旋转至少一个空间分量以形成至少一个旋转的空间分量；和由一个或多个处理器从至少一个旋转的空间分量和至少一个音频源重建三维声信号，其中，该至少一个空间分量描述球谐函数域表示中的与至少一个音频源相关联的空间特性。

在另一示例中，该技术的各个方面涉及配置为播放多个音频流中的一个或多个音频流的装置，该装置包括：用于存储多个音频流内的至少一个空间分量和至少一个音频源的部件；用于从运动传感器接收旋转信息的部件；用于旋转至少一个空间分量以形成至少一个旋转的空间分量的部件；和用于从至少一个旋转的空间分量和至少一个音频源重建三维声信号的部件，其中，该至少一个空间分量描述球谐函数域表示中的与至少一个音频源相关联的空间特性。

在另一示例中，该技术的各个方面导向具有在其上存储的指令的非瞬时计算机可读存储介质，该指令当执行时使得一个或多个处理器：存储多个音频流内的至少一个空间分量和至少一个音频源；从运动传感器接收旋转信息；基于旋转信息旋转至少一个空间分量以形成至少一个旋转的空间分量；和从至少一个旋转的空间分量和至少一个音频源重建三维声信号，其中，该至少一个空间分量描述球谐函数域表示中的与至少一个音频源相关联的空间特性。

在以下的附图和描述中提到本公开的一个或多个示例的细节。该技术的各个方面的其他特征、目的和优点将是从描述和附图和从权利要求明显的。

附图说明

图1A-图1C是图示可以执行本公开中描述的技术的各个方面的系统的图。

图2是图示由用户佩戴的VR装置的示例的图。

图3图示支持根据本公开的各方面的装置和方法的无线通信系统100的示例。

图4是图示根据本公开中描述的技术的示例音频回放系统的框图。

图5是进一步图示本公开的技术的各个方面的示例音频回放系统的框图。

图6是进一步图示本公开的技术的各个方面的示例音频回放系统的框图。

图7是进一步图示本公开的技术的各个方面的示例音频回放系统的框图。

图8是图示具有三个或更多音频接收器的示例音乐会的概念图。

图9是图示根据本公开的技术的使用旋转信息的示例的流程图。

图10是图示可以根据本公开中描述的技术的各个方面而操作的可穿戴装置的示例的图。

图11A和图11B是图示可以执行本公开中描述的技术的各个方面的其他示例系统的图。

图12是图示图1A-图1C的示例中示出的源装置和内容消费者装置中的一个或多个的示例组件的框图。

具体实施方式

当前的心理声学解码器可能不能在环境立体声域中分别旋转空间分量和音频对象。因而，当前的心理声学解码器可能必须执行到脉冲编码调制(PCM)域的域转换及其他处理以旋转这种分量。这些操作可能是计算上昂贵的和功率密集的。

根据本公开的技术，心理声学解码器可以基于来自运动传感器的旋转信息旋转至少一个空间分量，以形成至少一个旋转的空间分量。心理声学解码器也可以从至少一个旋转的空间分量和至少一个音频源构造环境立体声信号。至少一个空间分量以球谐域表示描述与至少一个音频源相关联的空间特性。以该方式，在VR平台中，运动旋转之前的先前空间向量可以用于多通道环境。根据本公开的技术，音频回放系统可以从旋转传感器接收旋转信息，并使用该旋转信息在空间向量域中创建旋转的空间向量，比如V-向量。这可以减小计算资源的需要，可以减少否则必须在位流中编码的信息，并且可以提高编码质量。

在某些示例中，音频回放系统可以联合地解码立体声而不需要编码器发送时间通道间相位信息。联合的立体声操作可以利用从旋转传感器获得的空间放置信息。

可以通过利用旋转信息来改进编码效率。首先，在相位差量化中，可以通过使用旋转传感器数据来改进压缩效率。这可以通过向旋转传感器数据添加相位信息来实现。例如，脉冲编码调制/修正离散余弦变换(PCM/MDCT)域耳间相位差(IPD)可以与旋转传感器数据一起输入到残差耦合/解耦旋转器中，并且残差耦合/解耦旋转器可以特性化用于立体声向量量化的残差耦合。第二，使用旋转信息可以改进编码质量，因为可以动态地重新分配相位量化位以通过依赖于用于残差耦合的旋转传感器数据来改进编码质量。根据本公开的技术，如果旋转信息在解码器可用，则可以执行残差耦合而不需要编码器发送相位差。

存在表示声场的多个不同的方式。示例格式包括基于通道的音频格式、基于对象的音频格式和基于场景的音频格式。基于通道的音频格式指的是5.1环绕声格式、7.1环绕声格式、22.2环绕声格式或者将音频通道定位到收听者周围的特定位置以重新创建声场的任何其他基于通道的格式。

基于对象的音频格式可以指其中指定通常使用脉冲编码调制(PCM)编码且被称为PCM音频对象的音频对象以表示声场的格式。这种音频对象可以包括比如元数据的信息，其识别音频对象相对于收听者或者声场中的其他参考点的位置，以使得在努力重新创建声场时，音频对象可以被渲染给一个或多个扬声器通道以用于回放。本公开中描述的技术可以应用于任意上述格式，包括基于场景的音频格式、基于通道的音频格式、基于对象的音频格式、或者其任何组合。

基于场景的音频格式可以包括三维空间中定义声场的元素的分级集合。元素的分级集合的一个示例是球谐系数(SHC)的集合。以下表达式表明使用SHC的声场的描述或者表示。

该表达式示出在声场的任意点

的压力p_i在时间t可以由SHC，

唯一地表示。这里，

c是声速(约343m/s)，

是参考点(或者观察点)，j_n(·)是阶数n的球面贝塞尔函数，并且

是阶数n和子阶数m的球谐基函数(其也可以被称为球基函数)。可以认识到方括号中的项是信号的频域表示(即，

其可以通过各种时间-频率转换近似，比如离散傅里叶变换(DFT)、离散余弦变换(DCT)或者小波变换。分级集合的其他示例包括小波变换系数的集合及多解基函数的系数的其他集合。

SHC

可以通过各种麦克风阵列配置物理地获取(例如，记录)，或者替代地，它们可以从声场的基于通道或者基于对象的描述推导出。SHC(也可以被称为环境立体声系数)表示基于场景的音频，其中SHC可以输入到音频编码器以获得可以促进更有效的传输或者存储的编码的SHC。例如，可以使用涉及(1+4)²(25，并且因此第四阶)个系数的第四阶表示。

如上所述，SHC可以从使用麦克风阵列的麦克风记录推导出。SHC可以怎样从麦克风阵列物理地获取的各种示例在Poletti,M.，“Three-Dimensional Surround SoundSystems Based on Spherical Harmonics”，J.Audio Eng.Soc.，第53卷，No.11，2005年11月，第1004-1025页中描述。

以下等式可以说明可以怎样从基于对象的描述推导出SHC。用于与单独的音频对象对应的声场的系数

可以表示为：

其中，i是

是阶数n的(第二种)球面汉克尔函数，并且

是对象的位置。已知作为频率的函数的对象源能量g(ω)(例如，使用时间-频率分析技术，比如关于脉冲编码调制的PCM–流执行快速傅里叶变换)可以使能每个PCM对象和相应的位置转换为SHC

另外，可以示出(因为以上是线性和正交分解)用于每个对象的

系数是可加的。以该方式，多个PCM对象可以由

系数表示(例如，作为用于单独的对象的系数向量之和)。系数可以包括关于声场的信息(作为3D坐标的函数的压力)，并且以上表示从单独的对象到在观察点

附近的总体声场的表示的变换。

正在开发计算机中介的现实系统(其也可以被称为“扩展现实系统”或者“XR系统”以利用由环境立体声系数提供的许多可能的益处。例如，环境立体声系数可以以潜在地使能声场内音频源的精确的三维(3D)定位的方式，以三维表示声场。因而，XR装置可以向扬声器馈送渲染环境立体声系数，当经由一个或多个扬声器播放时，精确地再现声场。

作为另一示例，可以转化(例如，旋转)环境立体声系数以解决用户移动而没有过度复杂的数学运算，由此潜在地适应XR的低延迟需求。另外，环境立体声系数是分级的，由此自然地适应通过降阶(其可以消除与高阶相关联的环境立体声系数)的可缩放性，由此潜在地使能声场的动态适配以适应XR装置的延迟和/或电池需求。

对于XR的环境立体声系数的使用可以使能于依赖于由环境立体声系数提供的更浸入式的声场的多个使用情况的开发，特别对于计算机游戏应用和实况视频流应用。在这些依赖于声场的低延迟再现的高度动态的使用情况下，XR装置可以相比更难以操纵或者涉及复杂渲染的其它表示更优选环境立体声系数。关于这些使用情况的更多信息在以下相对于图1A-图1C提供。

虽然在本公开中关于VR装置描述，但是可以在其他装置，比如移动装置的上下文中执行该技术的各个方面。在这种情况下，移动装置(比如所谓的智能电话)可以经由屏幕渲染显示的世界，屏幕可以安装到用户102的头部，也可以像在通常使用移动装置时那样观看。因而，屏幕上的任何信息是移动装置的一部分。移动装置能够提供跟踪信息41，由此允许VR体验(当头部安装时)和普通体验两者观看显示的世界，其中普通体验仍然可以允许用户观看显示的世界，证明VR-精简-类型体验(例如，举起装置并旋转或者平移装置以观看显示的世界的不同部分)。另外，虽然显示的世界在本公开的各种示例中提到，但是本公开的技术也可以用于不对应于显示的世界或者其中没有显示的世界的声学空间。

图1A-图1C是图示可以执行本公开中描述的技术的各个方面的系统的图。如图1A的示例所示，系统10包括源装置12和内容消费者装置14。虽然以源装置12和内容消费者装置14的上下文描述，但是该技术可以以其中编码声场的任何表示以形成音频数据的位流表示的任何上下文实现。此外，源装置12可以表示能够生成声场的表示的任何形式的计算装置，并且在这里一般以作为VR内容创建者装置的上下文描述。同样地，内容消费者装置14可以表示能够实现本公开中描述的渲染技术以及音频回放的任何形式的计算装置，并且在这里一般以作为VR客户端装置的上下文描述。

源装置12可以由可以生成用于由内容消费者装置，比如内容消费者装置14的操作者消费的多通道音频内容的娱乐公司或者其他实体操作。在某些VR方案中，源装置12结合视频内容生成音频内容。源装置12包括内容捕获装置20、内容编辑装置22和声场表示发生器24。内容捕获装置20可以配置为与麦克风18接口连接或者以其他方式通信。

麦克风18可以表示能够捕获和表示声场作为音频数据19的

或者其他类型的3D音频麦克风，音频数据19可以指以上提到的基于场景的音频数据(比如环境立体声系数)、基于对象的音频数据和基于通道的音频数据中的一个或多个。虽然描述为是3D音频麦克风，但是麦克风18也可以表示配置为捕获音频数据19的其他类型的麦克风(比如全向麦克风、点麦克风、单向麦克风等)。

内容捕获装置20在某些示例中可以包括集成到内容捕获装置20的壳体中的集成麦克风18。内容捕获装置20可以无线地或者经由有线连接与麦克风18接口连接。代替经由麦克风18捕获音频数据，或者与经由麦克风18捕获音频数据结合地，在经由某些类型的可拆卸存储设备无线地和/或经由有线的输入处理来输入音频数据19之后，内容捕获装置20可以处理音频数据19。因而，根据本公开，内容捕获装置20和麦克风18的不同组合是可能的。

内容捕获装置20也可以配置为与内容编辑装置22接口连接或者以其他方式通信。在有些情况下，内容捕获装置20可以包括内容编辑装置22(在有些情况下，这可以表示软件或者软件和硬件的组合，包括由内容捕获装置20执行以配置内容捕获装置20执行特定形式的内容编辑的软件)。内容编辑装置22可以表示配置为编辑或者以其他方式更改包括音频数据19的从内容捕获装置20接收到的内容21的单元。内容编辑装置22可以将编辑内容23和关联的音频信息25(比如元数据)输出到声场表示发生器24。

声场表示发生器24可以包括能够与内容编辑装置22(或者内容捕获装置20)接口连接的任何类型的硬件装置。虽然在图1A的示例中未示出，但是声场表示发生器24可以使用由内容编辑装置22提供的包括音频数据19和音频信息25的编辑的内容23，以生成一个或多个位流27。在聚焦于音频数据19的图1A的示例中，声场表示发生器24可以生成由音频数据19表示的同一声场的一个或多个表示，以获得包括编辑的内容23和音频信息25的表示的位流27。

例如，为使用环境立体声系数(其再次是音频数据19的一个示例)生成声场的不同表示，声场表示发生器24可以使用用于声场的环境立体声表示的编码方案，称为混合次序环境立体声(MOA)，如在于2017年8月8日提交的、标题为“MIXED-ORDER AMBISONICS(MOA)AUDIO DATA FOR COMPUTER-MEDIATED REALITY SYSTEMS”的美国申请No.15/672,058，和于2019年1月3日公开为美国专利公开No.20190007781中详细讨论的。

为生成声场的特定MOA表示，声场表示发生器24可以生成环境立体声系数的全集的部分子集。例如，由声场表示发生器24生成的每个MOA表示可以提供相对于声场的一些区域的精度，但是在其它区域中更小精度。在一个示例中，声场的MOA表示可以包括八(8)个未压缩的环境立体声系数，而同一声场的三阶环境立体声表示可以包括十六(16)个未压缩的环境立体声系数。因而，生成为环境立体声系数的部分子集的声场的每个MOA表示可以比从环境立体声系数生成的同一声场的相应的三阶环境立体声表示较少存储-密集和较少带宽密集(如果和当作为位流27的一部分经图示的传输通道发送时)。

虽然关于MOA表示来描述，但是本公开的技术也可以关于一阶环境立体声(FOA)表示来执行，其中与一阶球面基函数和零阶球面基函数相关联的全部环境立体声系数用于表示声场。换句话说，代替使用环境立体声系数的部分的非零子集来表示声场，声场表示发生器24可以使用给定阶N的全部环境立体声系数来表示声场，导致总共等于(N+1)²的环境立体声系数。

在这方面，环境立体声音频数据(其是涉及以MOA表示或者全阶表示，比如以上提到的一阶表示的环境立体声系数的另一方式)可以包括与具有一阶或者更小阶数的球面基函数相关联的环境立体声系数(其可以被称为“第一阶环境立体声音频数据”)，与具有混合的阶和子阶的球面基函数相关联的环境立体声系数(其可以被称为上面讨论的“MOA表示”)、或者与具有大于一的阶数的球面基函数相关联的环境立体声系数(其以上被称为“全阶表示”)。

在某些示例中，声场表示发生器24可以表示配置为压缩或者以其他方式减小用于表示位流27中的内容21的位数的音频编码器。虽然未示出，但是在某些示例中，声场表示发生器可以包括符合在这里讨论的各种标准中的任意一种的心理声学音频编码装置。

在该示例中，声场表示发生器24可以将SVD应用于环境立体声系数以确定环境立体声系数的分解版本。环境立体声系数的分解版本可以包括一个或多个主要音频信号和描述关联的主要音频信号的空间特性，例如，方向、形状和宽度的一个或多个相应空间分量。因而，声场表示发生器24可以将分解应用于环境立体声系数，以从空间特性(如由空间分量表示的)去耦能量(如由主要音频信号表示的)。

声场表示发生器24可以分析环境立体声系数的分解的版本，以识别各种参数，这可以促进环境立体声系数的分解的版本的重新排序。声场表示发生器24可以基于识别的参数重新排序环境立体声系数的分解的版本，其中假定变换可以跨环境立体声系数的帧地重新排序环境立体声系数(其中帧通常包括环境立体声系数的分解的版本的M个样本，并且在某些示例中，M是)，这种重新排序可以改进编码效率。

在重新排序环境立体声系数的分解的版本之后，声场表示发生器24可以选择环境立体声系数的一个或多个分解的版本作为声场的前景(或者，换言之，不同的、主要的或者显著的)分量的表示。声场表示发生器24可以指定表示前景分量(其也可以被称为“主要声音信号”、“主要音频信号”或者“主要声音分量”)和关联的方向信息(其也可以被称为“空间分量”，或者在有些情况下，称为识别相应的音频对象的空间特性的所谓的“V-向量”)的环境立体声系数的分解的版本。空间分量可以表示具有多个不同元素的向量(其就向量而言可以被称为“系数”)，由此可以被称为“多维向量”。

声场表示发生器24接下来可以关于环境立体声系数执行声场分析，以便至少部分地识别表示声场的一个或多个背景(或者，换言之，环境)分量的环境立体声系数。背景分量也可以被称为“背景音频信号”或者“环境音频信号”。假定在某些示例中，背景音频信号可能仅包括环境立体声系数的任何给定样本的子集(例如，比如与零阶和第一阶球面基函数对应的那些而没有与第二阶或者高阶球面基函数对应的那些)，声场表示发生器24可以关于背景音频信号执行能量补偿。当执行降阶时，换言之，声场表示发生器24可以增强环境立体声系数的其余背景环境立体声系数(例如，向其添加能量/从其减去能量)，以补偿由执行降阶所导致的总能量的变化。

声场表示发生器24接下来可以关于前景方向信息(其是涉及空间分量的另一方式)执行一个形式的插值，然后关于插值的前景方向信息执行降阶以生成降阶的前景方向信息。声场表示发生器24在某些示例中可以进一步关于降阶的前景方向信息执行量化，输出编码的前景方向信息。在有些情况下，该量化可以包括可能以向量量化的形式的标量/熵量化。声场表示发生器24然后可以将中间格式化的音频数据作为背景音频信号、前景音频信号和量化的前景方向信息输出到在某些示例中的心理声学音频编码装置。

在任何情况下，背景音频信号和前景音频信号在某些示例中可以包括传输通道。也就是，声场表示发生器24可以输出包括各个背景音频信号(例如，与零阶或者第一阶球面基函数对应的环境立体声系数之一的M个样本)的环境立体声系数的每个帧和前景音频信号(例如，从环境立体声系数分解的音频对象的M个样本)的每个帧的传输通道。声场表示发生器24可以进一步输出边信息(其也可以被称为“边带信息”)，其包括与每一个前景音频信号对应的量化的空间分量。

集合地，传输通道和边信息在图1A的示例中可以表示为环境立体声传输格式(ATF)音频数据(其是涉及中间格式化的音频数据的另一方式)。换句话说，AFT音频数据可以包括传输通道和边信息(其也可以被称为“元数据”)。作为一个示例，ATF音频数据可以符合HOA(高阶环境立体声)传输格式(HTF)。关于HTF的更多信息可以在日期2018年6月(2018-06)的题为“higher Order Ambisonics(HOA)Transport Format”，ETSI TS 103 589V1.1.1的欧洲电信标准协会(ETSI)的技术规范(TS)中找到。因而，ATF音频数据可以被称为HTF音频数据。

在其中声场表示发生器24不包括心理声学音频编码装置的示例中，声场表示发生器24然后可以发送或者以其他方式输出ATF音频数据到心理声学音频编码装置(未示出)。心理声学音频编码装置可以关于ATF音频数据执行心理声学音频编码以生成位流27。心理声学音频编码装置可以根据标准化的、开源的或者私有的音频编码处理而操作。例如，心理声学音频编码装置可以根据AptX^TM、AptX的各种其他版本(例如，增强的AptX–E-AptX，AptXlive，AptX stereo和AptX高清晰度–AptX-HD)、或者高级音频编码(AAC)及其衍生物来执行心理声学音频编码。源装置12然后可以经由传输通道发送位流27到内容消费者装置14。

在某些示例中，心理声学音频编码装置可以表示心理声学音频编码器的一个或多个实例，其每个用于编码ATF音频数据的传输通道。在有些情况下，该心理声学音频编码装置可以表示AptX编码单元(如上所述)的一个或多个实例。心理声学音频编码器单元在有些情况下可以调用用于ATF音频数据的每个传输通道的AptX编码单元的实例。

内容捕获装置20或者内容编辑装置22在某些示例中可以配置为与声场表示发生器24无线地通信。在某些示例中，内容捕获装置20或者内容编辑装置22可以经由无线连接或者有线连接之一或者两者与声场表示发生器24通信。经由内容捕获装置20和声场表示发生器24之间的连接，内容捕获装置20可以提供以各种形式的内容的内容，为了讨论，在这里描述为音频数据19的部分。

在某些示例中，内容捕获装置20可以利用声场表示发生器24的各个方面(就声场表示发生器24的硬件或者软件性能而言)。例如，声场表示发生器24可以包括配置为执行心理声学音频编码的专用硬件(或者当执行时使得一个或多个处理器执行心理声学音频编码的专用软件)。

在某些示例中，内容捕获装置20可以不包括心理声学音频编码器专用硬件或者专用软件，并且代替地可以以非心理声学音频编码形式提供内容21的音频方面。声场表示发生器24可以通过至少部分地关于内容21的音频方面执行心理声学音频编码来帮助内容21的捕获。

声场表示发生器24也可以通过至少部分地基于从音频数据19(在音频数据19包括基于场景的音频数据的情况下)生成的音频内容(例如，MOA表示和/或三阶环境立体声表示)生成一个或多个位流27，来帮助内容捕获和传输。位流27可以表示音频数据19的压缩的版本和任何其他不同类型的内容21(比如，球面视频数据、图像数据或者文本数据的压缩版本)。

作为一个示例，声场表示发生器24可以跨传输通道、数据存储装置等生成用于传输的位流27，传输通道可以是有线或者无线通道。位流27可以表示音频数据19的编码版本，并且可以包括初级位流和另一侧位流，其可以被称为侧通道信息或者元数据。在有些情况下，表示音频数据19的压缩版本的位流27(其再次可以表示基于场景的音频数据、基于对象的音频数据、基于通道的音频数据或者其组合)可以符合根据MPEG-H 3D音频编码标准和/或MPEG-I浸入式音频标准而产生的位流。

内容消费者装置14可以由个体操作，并且可以表示VR客户端装置。虽然关于VR客户端装置描述，但是内容消费者装置14可以表示其他类型的装置，比如增强现实(AR)客户端装置、混合现实(MR)客户端装置(或者其他XR客户端装置)、标准计算机、头戴式装置、耳机、移动装置(包括所谓的智能电话)或者能够跟踪头部移动和/或操作内容消费者装置14的个体的一般平移运动的任何其他装置。如图1A的示例所示，内容消费者装置14包括音频回放系统16A，其可以指能够将用于回放的音频数据渲染为多声道音频内容的任何形式的音频回放系统。

虽然图1A示为直接发送到内容消费者装置14，但是源装置12可以将位流27输出到位于源装置12和内容消费者装置14之间的中间装置。中间装置可以存储位流27以用于之后传送到可以请求位流27的内容消费者装置14。中间装置可以包括文件服务器、网络服务器、台式计算机、膝上型计算机、平板计算机、移动电话、智能电话或者能够存储位流27以用于之后由音频解码器检索的任何其他装置。中间装置可以位于内容传送网络中，所述内容传送网络能够将位流27(和可能与发送对应的视频数据位流结合)流到请求位流27的用户，比如内容消费者装置14。

替代地，源装置12可以将位流27存储到存储介质，比如致密盘、数字视频盘、高清视频盘或者其他存储介质，其大部分能够由计算机读取且因此可以被称为计算机可读存储介质或者非瞬时计算机可读存储介质。在此上下文中，传输通道可以指通过其发送存储到介质的内容(例如，以一个或多个位流27的形式)的通道(且可以包括零售商店及其他基于存储的传送机制)。因此，在任何情况下，本公开的技术在该方面不应该限于图1A的示例。

如上所述，内容消费者装置14包括音频回放系统16A。音频回放系统16A可以表示能够回放多声道音频数据的任何系统。音频回放系统16A可以包括多个不同的渲染器32。渲染器32每个可以提供用于不同形式的渲染，其中不同形式的渲染可以包括执行基于向量的幅度摇摄(VBAP)的各种方式中的一个或多个和/或执行声场合成的各种方式中的一个或多个。如在此使用的，“A和/或B”意味着“A或者B”，或者“A和B”两者。

音频回放系统16A可以进一步包括音频解码装置34。音频解码装置34可以表示配置为解码位流27以输出音频数据19’的装置(其中撇号标志可以表示音频数据19’由于有损压缩(比如量化)而不同于音频数据19)。再次，音频数据19’可以包括基于场景的音频数据，其在某些示例中，可以形成全一(或者更高)阶环境立体声表示或者形成同一声场的MOA表示的其子集，比如主要音频信号、周围环境立体声系数的其分解，和在MPEG-H 3D音频编码标准中描述的基于向量的信号，或者其他形式的基于场景的音频数据。

其他形式的基于场景的音频数据包括根据HOA(高阶环境立体声)传输格式(HTF)定义的音频数据。关于HTF的更多信息可以在日期2018年6月(2018-06)的题为“higherOrder Ambisonics(HOA)Transport Format”，ETSI TS 103 589V1.1.1的欧洲电信标准协会(ETSI)的技术规范(TS)，以及在于2018年12月20日提交的题为“PRIORITY INFORMATIONFOR HIGHER ORDER AMBISONIC AUDIO DATA”的美国专利公开No.2019/0918028中找到。在任何情况下，音频数据19’可以类似于音频数据19’的全集或者部分子集，但是可能由于有损操作(例如，量化)和/或经由传输通道的传输而不同。

作为基于场景的音频数据的替代或者与基于场景的音频数据结合地，音频数据19’可以包括基于通道的音频数据。作为基于场景的音频数据的替代或者与基于场景的音频数据结合地，音频数据19’可以包括基于对象的音频数据。因而，音频数据19’可以包括基于场景的音频数据、基于对象的音频数据和基于通道的音频数据的任何组合。

音频回放系统16A的音频渲染器32可以在音频解码装置34已经解码位流27以获得音频数据19’之后，渲染音频数据19’以输出扬声器馈送35。扬声器馈送35可以驱动一个或多个扬声器(为了便于说明目的在图1A的示例中未示出)。声场的包括基于场景的音频数据(和可能的基于通道的音频数据和/或基于对象的音频数据)的各种音频表示可以以许多方式归一化，包括N3D、SN3D、FuMa、N2D或者SN2D。

为选择适当的渲染器，或者在有些情况下，生成适当的渲染器，音频回放系统16A可以获得指示扬声器(例如，扩音器或者耳机扬声器)的数目和/或扬声器的空间几何形状的扬声器信息37。在有些情况下，音频回放系统16A可以使用参考麦克风获得扬声器信息37，并且可以以动态地确定扬声器信息37的方式驱动扬声器(其可以指电信号的输出以使得换能器振动)。在其他实例中，或者与扬声器信息37的动态确定结合地，音频回放系统16A可以提示用户与音频回放系统16A接口连接并输入扬声器信息37。

音频回放系统16A可以基于扬声器信息37选择音频渲染器32之一。在有些情况下，当没有音频渲染器32在扬声器信息37中指定的扬声器几何形状的某些阈值相似性度量(就扬声器几何形状而言)内时，音频回放系统16A可以基于扬声器信息37生成音频渲染器32之一。在有些情况下，音频回放系统16A可以基于扬声器信息37生成音频渲染器32之一，而不首先尝试选择音频渲染器32的现有的一个。

当将扬声器馈送35输出到耳机时，音频回放系统16A可以利用渲染器32之一，其使用与头有关的传递函数(HRTF)或者能够向左和右扬声器馈送35渲染的其他功能来提供双耳渲染，用于耳机扬声器回放，比如双耳室脉冲响应渲染器。术语“扬声器"或者“换能器”总的来说可以指任何扬声器，包括扩音器、耳机扬声器、骨传导扬声器、耳塞扬声器、无线耳机扬声器等。一个或多个扬声器然后可以回放渲染的扬声器馈送35以再现声场。

虽然描述为从音频数据19’渲染扬声器馈送35，但是参考扬声器馈送35的渲染可以指其他类型的渲染，比如直接包括到从位流27的音频数据19的解码的渲染。替代的渲染的示例可以在MPEG-H 3D音频标准的附录G中找到，其中在声场的合成之前的主要信号格式化和背景信号形成期间发生渲染。因而，参考音频数据19’的渲染应该理解为涉及实际音频数据19’的渲染或者音频数据19’的其分解或者表示两者(比如以上提到的主要音频信号、周围环境立体声系数和/或基于向量的信号–其也可以被称为V-向量或者多维环境立体声空间向量)。

音频回放系统16A也可以基于跟踪信息41适配音频渲染器32。也就是，音频回放系统16A可以与配置为跟踪VR装置的用户的头部运动和可能的平移运动的跟踪装置40接口连接。跟踪装置40可以表示配置为跟踪VR装置的用户的头部运动和可能的平移运动的一个或多个传感器(例如，相机–包括深度相机、陀螺仪、磁力仪、加速度计、发光二极管–LED，等)。音频回放系统16A可以基于跟踪信息41适配音频渲染器32，以使得扬声器馈送35反映用户的头部和可能的平移运动的变化，以响应于这种移动而正确地再现声场。

图1C是图示另一示例系统60的框图。示例系统60类似于图1A的示例系统10，但是，系统60的源装置12B不包括内容捕获装置。源装置12B包括合成装置29。合成装置29可以由内容开发者使用以生成合成的音频源。合成的音频源可以具有与其关联的位置信息，其可以识别音频源相对于收听者或者声场中的其他参考点的位置，以使得在努力重新创建声场时音频源可以被渲染给一个或多个扬声器通道以用于回放。在某些示例中，合成装置29也可以合成视觉或者视频数据。

例如，内容开发者可以生成用于视频游戏的合成的音频流。虽然以图1A的示例的内容消费者装置14A示出了图1C的示例，但是图1C的示例的源装置12B可以与图1B的内容消费者装置14B一起使用。在某些示例中，图1C的源装置12B也可以包括内容捕获装置，以使得位流27可以包括捕获的音频流和合成的音频流两者。

如上所述，内容消费者装置14A或者14B(为了简单的目的，两者以下都可以称为内容消费者装置14)可以表示其中人可穿戴的显示器(其也可以被称为“头部安装显示器”)安装在操作VR装置的用户眼前的VR装置。图2是图示由用户402佩戴的VR装置400的示例的图。VR装置400耦合到，或者以其他方式包括耳机404，其可以通过扬声器馈送35的回放来再现由音频数据19’表示的声场。扬声器馈送35可以表示能够使得耳机404的换能器内的薄膜以各种频率振动的模拟或者数字信号，其中这种处理通常被称为驱动耳机404。

视频、音频及其他传感数据可以在VR体验中扮演重要的角色。为参与VR体验，用户402可以佩戴VR装置400(其也可以被称为VR头戴式装置400)或者其他可穿戴的电子装置。VR客户端装置(比如VR头戴式装置400)可以包括跟踪装置(例如，跟踪装置40)，该跟踪装置配置为跟踪用户402的头部运动，和适配经由VR头戴式装置400示出的视频数据以解释头部运动，提供其中用户402可以在视觉三维空间中体验以视频数据示出的显示的世界的浸入式体验。显示的世界可以指虚拟世界(其中模拟全部世界)，增强世界(其中由虚拟对象增强世界的部分)，或者物理世界(其中虚拟地导航现实世界图像)。

虽然VR(及其他形式的AR和/或MR)可以允许用户402视觉上位于虚拟世界中，通常VR头戴式装置400可能缺乏将用户听觉地置于显示的世界中的性能。换句话说，VR系统(其可以包括负责渲染视频数据和音频数据的计算机–为了便于说明目的在图2的示例中未示出，和VR头戴式装置400)可能不能支持听觉地全三维浸入(且在有些情况下实际上以经由VR头戴式装置400反映呈现给用户的显示的场景的方式)。

虽然在本公开中关于VR装置描述，但是该技术的各个方面可以在其他装置，比如移动装置的上下文中执行。在这种情况下，移动装置(比如所谓的智能电话)可以经由屏幕呈现显示的世界，屏幕可以安装到用户402的头部或者可以像在通常使用移动装置时那样观看。因而，屏幕上的任何信息是移动装置的一部分。移动装置能够提供跟踪信息41，由此允许VR体验(当头部安装时)和普通体验两者以观看显示的世界，其中普通体验仍然可以允许用户观看显示的世界，证明VR-精简-类型体验(例如，举起装置并旋转或者平移装置以观看显示的世界的不同部分)。

在任何情况下，返回到VR装置上下文，VR的音频方面已经被分类为三个单独的浸入的类别。第一类别提供最低水平的浸入，并且被称为三自由度(3DOF)。3DOF指的是解释三个自由度(偏转、俯仰和滚转)上头部的运动的音频渲染，由此允许用户在任何方向上自由地环顾。但是，3DOF不能解释其中头部不以声场的光学和声学中心为中心的平移的头部运动。

第二类别被称为3DOF加(3DOF+)，除由于远离声场内的光学中心和声学中心的头部运动的有限的空间平移运动之外还提供三个自由度(偏转、俯仰和滚转)。3DOF+可以提供比如运动视差的知觉效果的支持，可以增强浸入的感觉。

第三类别被称为六自由度(6DOF)，以解释按照头部运动的三自由度(偏转、俯仰和滚转)且还解释用户在空间中的平移(x，y和z平移)的方式渲染音频数据。空间平移可以由跟踪用户在物理世界中的位置的传感器或者通过输入控制器的方式导出。

3DOF渲染是VR的音频方面的现有技术的当前状态。因而，VR的音频方面比视频方面较少浸入式，由此潜在地减少用户体验的总体浸入。但是，VR正在快速地转变且可以迅速发展以支持3DOF+和6DOF两者，这可能显露附加的使用情况的机会。

例如，交互游戏应用可以利用6DOF来促进全浸入式游戏，其中用户自己在VR世界内移动且可以通过向虚拟对象走过去来与虚拟对象交互。此外，交互实况流应用可以利用6DOF以允许VR客户端装置体验音乐会或者体育事件的实况流，就好像自己出席音乐会那样，允许用户在音乐会或者体育事件内移动。

存在与这些使用情况相关联的多个困难。在全浸入式游戏的实例中，延迟可能需要保持得低，以使游戏进程能够不导致眩晕或者晕动病。此外，从音频角度，导致失去与视频数据的同步的音频回放中的延迟可能减少浸入。此外，对于某些类型的游戏应用，为允许精确响应，空间精度可能是重要的，包括关于怎样由用户感知声音，因为其允许用户预期当前没有看到的动作。

在实况流应用的上下文中，大量源装置12A或者12B(为简单的目的，两者以下都称为源装置12)可以流化内容21，其中源装置12可以具有非常不同的性能。例如，一个源装置可能是具有数字的固定镜头相机和一个或多个麦克风的智能电话，而另一源装置可能是能够获得比智能电话高得多的分辨率和质量的视频的生产级电视设备。但是，在实况流应用的上下文中，所有源装置可以提供变化质量的流，VR装置可以从该变化质量的流尝试选择适当的一个以提供想要的体验。

图3图示支持根据本公开的各方面的装置和方法的无线通信系统100的示例。无线通信系统100包括基站105、UE 115和核心网络130。在某些示例中，无线通信系统100可以是长期演化(LTE)网络、先进LTE(LTE-A)网络、LTE-A Pro网络、第五代(5G)蜂窝网络或者新无线电(NR)网络。在有些情况下，无线通信系统100可以支持增强宽带通信、超可靠(例如，任务关键)通信、低延迟通信或者与低成本和低复杂度装置的通信。

基站105可以经由一个或多个基站天线与UE 115无线地通信。在这里描述的基站105可以包括或者可以由本领域技术人员称为基本收发器站、无线电基站、接入点、无线电收发器、节点B、eNodeB(eNB)、下一代节点B或者吉节点B(两个都可以被称为gNB)、家庭节点B、家庭eNodeB或者某些其它适当的术语。无线通信系统100可以包括不同类型的基站105(例如，宏或者小小区基站)。在这里描述的UE 115能够与各种类型的基站105和包括宏eNB、小小区eNB、gNB、中继基站等的网络设备通信。

每个基站105可以与其中支持与各种UE 115的通信的特定地理覆盖区域110相关联。每个基站105可以经由通信链路125提供用于各个地理覆盖区域110的通信覆盖，并且基站105和UE 115之间的通信链路125可以利用一个或多个载波。无线通信系统100中示出的通信链路125可以包括从UE 115到基站105的上行链路传输，或者从基站105到UE 115的下行链路传输。下行链路传输也可以被称为前向链路传输，同时上行链路传输也可以被称为反向链路传输。

用于基站105的地理覆盖区域110可以被划分为组成地理覆盖区域110的一部分的扇区，并且每个扇区可以与小区相关联。例如，每个基站105可以提供宏小区、小小区、热点或者其他类型的小区或者其各种组合的通信覆盖。在某些示例中，基站105可以是可移动的，因此提供用于移动地理覆盖区域110的通信覆盖。在某些示例中，与不同技术相关联的不同地理覆盖区域110可以重叠，并且与不同技术相关联的重叠的地理覆盖区域110可以由相同基站105或者由不同基站105支持。无线通信系统100例如可以包括其中不同类型的基站105提供各种地理覆盖区域110的覆盖的不同种类的LTE/LTE-A/LTE-A Pro，5G蜂窝或者NR网络。

UE 115可以遍及无线通信系统100地分散，并且每个UE 115可以是静止或者移动的。UE 115也可以被称为移动装置、无线装置、远程装置、手持装置或者用户装置或某些其它适当的术语，其中“装置”也可以被称为单元、站、终端或者客户端。UE 115也可以是个人电子装置，比如蜂窝电话、个人数字助理(PDA)、平板计算机、膝上型计算机或者个人计算机。在本公开的示例中，UE 115可以是本公开中描述的任意音频源，包括VR头戴式装置、XR头戴式装置、AR头戴式装置、车辆、智能电话、麦克风、麦克风的阵列或者包括麦克风的任何其他装置，或者能够发送捕获的和/或合成的音频流。在某些示例中，合成的音频流可以是存储在存储器中或者先前创建或者合成的音频流。在某些示例中，UE 115也可以被称为无线本地环路(WLL)站、物联网(IoT)装置、万物联网(IoE)装置或者MTC装置等，其可以在比如仪器、车辆、仪表等的各种物品中实现。

某些UE 115，比如MTC或者IoT装置可以是低成本或者低复杂性的装置，并且可以提供用于机器之间的自动化通信(例如，经由机器到机器(M2M)通信)。M2M通信或者MTC可以指允许装置在没有人干预的情况下彼此通信或者与基站105通信的数据通信技术。在某些示例中，M2M通信或者MTC可以包括来自装置的通信，其交换和/或使用音频信息，比如元数据，对切换、掩码和/或空的各种音频流和/或音频源指示隐私限制和/或基于密码的隐私数据，如以下将更详细地描述的。

在有些情况下，UE 115还可以直接与其他UE 115通信(例如，使用点对点(P2P)或装置到装置(D2D)协议)。利用D2D通信的一组UE 115中的一个或多个可以在基站105的地理覆盖区域110内。这种组中的其他UE115可以在基站105的地理覆盖区域110的外部，或者否则不能从基站105接收传输。在有些情况下，经由D2D通信而通信的UE 115的组可以利用其中每个UE 115发送到组中的每个其它UE 115的一对多(1:M)系统。在有些情况下，基站105促进用于D2D通信的资源的调度。在其它情况下，在UE 115之间进行D2D通信而不涉及基站105。

基站105可以与核心网络130通信和彼此通信。例如，基站105可以通过回程链路132(例如，经由S1、N2、N3或者其他接口)与核心网络130接口连接。基站105可以经回程链路134(例如，经由X2、Xn或者其他接口)直接地(例如，在基站105之间直接)或者间接地(例如，经由核心网络130)彼此通信。

在有些情况下，无线通信系统100可以利用许可和未许可的射频频段。例如，在比如5GHz ISM频带的未许可频带中，无线通信系统100可以采用许可辅助访问(LAA)、LTE-未许可(LTE-U)无线电访问技术、5G蜂窝技术或者NR技术。当在未许可射频频谱带中操作时，比如基站105和UE 115的无线装置可以采用先听后讲(LBT)过程以保证在发射数据之前频率通道是干净的。在有些情况下，未许可频带中的操作可以基于与许可频带中操作的分量载波结合的载波聚合配置(例如，LAA)。未许可频谱中的操作可以包括下行链路传输、上行链路传输、点对点传输或者这些的组合。未许可频谱中的双工可以基于频分双工(FDD)、时分双工(TDD)或者两者的组合。

当比如图2中的VR头戴式装置400的头戴式装置的用户402以声音的方向移动他们的头部时，他们可能期待体验声音的运动。例如，如果用户402听到汽车从他们的左边离开，则当用户402转向他们的左边时，他们可能期待在已经转到面向声音之后听到汽车好像在他们的前面。为移动声场，内容消费者装置14可以在PCM域中平移声场。但是，PCM域中的声场的平移可能消耗计算资源(比如处理循环、存储器带宽、存储器和/或存储空间等)，因为PCM域中的平移可能是计算上复杂的。

根据本公开中描述的技术的各个方面，例如可以是VR头戴式装置400的内容消费者装置14可以在空间向量域中平移声场。通过在空间向量域而不是在PCM域中平移声场，可以节省计算资源。

在操作中，内容消费者装置14可以从运动传感器接收旋转信息。运动传感器例如可以位于头戴式显示器内。该旋转信息可以包括用户402的头部的滚转、俯仰和/或偏转。内容消费者装置14的音频回放系统16可以将旋转信息乘以空间向量，比如V-向量。以这种方式，内容消费者装置14可以实现声场的平移而没有在PCM域中平移声场的高成本处理。

在内容消费者装置14的音频回放系统16相对于空间向量旋转或者执行某种形式的平移之后，内容消费者装置14可以基于旋转的空间向量和音频数据(其可以包括从环境立体声频数据19分解的U-向量)来环境立体声解码声场。关于平移技术的各个方面的更多信息在以下关于图4讨论。

图4是更详细地分别图示示例音频回放系统，比如图1A-1C的音频回放系统16A或者音频回放系统16B的框图。如图4的示例所示，音频回放系统16包括空间向量旋转器205和HOA重建器230。为了便于说明目的，从音频回放系统16A省略音频渲染器32。

空间向量旋转器205可以表示一个单元，该单元被配置为接收关于用户402的头部的运动的旋转信息，比如滚转、俯仰和/或偏转信息，并利用旋转信息产生旋转的空间向量信号。例如，空间向量旋转器205可以在空间向量域中旋转空间向量信号，以使得音频回放系统16可以避免PCM域中的声场的高成本平移(就处理循环、存储器空间和/或包括存储器带宽的带宽而言)。

HOA重建器230可以表示图1A-图1C的示例中示出的音频解码装置34的全部或者一部分的示例。在某些示例中，HOA重建器230可以操作为根据在本公开中的其它地方讨论的HTF音频标准的高阶环境立体声(HOA)传输格式(HTF)解码器的全部或者一部分。

如在图4的示例中进一步所示的，音频回放系统16可以与旋转传感器200接口连接，旋转传感器200可以包括在比如图2的VR头戴式装置400的头戴式装置内和/或图1A-图1C的跟踪装置40内。当安装在用户的头部上时，旋转传感器200可以监控用户的头部的旋转运动。例如，旋转传感器200可以当用户402移动他们的头部时测量头部的俯仰、滚转和偏转(theta，phi和psi)。头部的旋转运动的测量(旋转信息)可以被发送到空间向量旋转器205。空间向量旋转器205可以是音频回放系统16的一部分，其可以被分别表示为如图1A-1C所示的内容消费者装置14中的16A或者16B。

空间向量旋转器205可以接收用户的头部的旋转信息。空间向量旋转器205也可以从图1A-图1C的源装置12以位流，例如位流27接收空间向量220。空间向量旋转器205可以使用旋转信息来旋转空间向量220。例如，空间向量旋转器205可以通过经由一系列左移位，经由查询表，经由矩阵乘法，逐行的乘法或者通过访问阵列和乘以单独的数字将空间向量乘以旋转信息来旋转空间向量220。以该方式，空间向量旋转器205可以将声场移动到用户402期望它在的地方。关于如何创建旋转补偿矩阵的信息可以在马蒂亚斯·克朗拉赫纳(Matthias Kronlachner)和弗朗茨·佐特(Franz Zotter)的用于环境立体声记录的增强的空间变换中找到，当实现时可以由空间向量旋转器205使用所述旋转补偿矩阵以经由矩阵乘法来旋转空间向量220。虽然音频回放系统16在这里描述为移动声场到用户402将期望它在的地方，但是不需要这样做。例如，内容创建者可能希望对渲染具有更多控制，从而创建特定音频效果或者减少由于用户402的微运动导致的声场的运动。在这些情况下，渲染元数据可以添加到位流27以限制或者修改空间向量旋转器旋转声场的能力。

空间向量旋转器205然后可以将旋转的空间向量提供到HOA重建器230。HOA重建器230可以从位流27或者从音频解码装置34的其他部分，从图1A-1C的源装置12接收音频源225的表示，比如U-向量，并重建旋转的HOA信号。HOA重建器230然后可以输出要渲染的重建的HOA信号。虽然图4已经关于HOA信号描述，但是它也可以应用于MOA信号和FOA信号。

图5是进一步图示本公开的技术的各个方面的示例音频回放系统的框图。图5可以表示图4的更详细的图，其中例如在音频回放系统16的音频解码装置34中重建比如U-向量的音频源的表示。音频源或者如在此使用的音频源可以分别指音频源的表示，比如U-向量或者多个音频源的表示，比如多个U-向量。如在图4中，音频回放系统16从旋转传感器200接收旋转信息。空间向量旋转器205可以接收以位流27接收的旋转信息和空间向量，并以比如如上关于图4所述的方式形成旋转的空间向量。HOA重建器230可以从空间向量旋转器205接收旋转的空间向量。

多通道向量去量化器232可以接收量化的参考残差向量信号(REF VQ)和相对于参考残差向量的多个量化的侧信息信号(REF/2(未示出)-REF/M)。在该示例中，音频回放系统15被显示为处理M个参考侧信息信号。M可以是任何整数。多通道向量去量化器232可以去量化参考残差向量(REF VQ)和侧信息(REF/2–REF//M)，并将去量化的参考残差向量(REF VD)提供给多个残差去耦器(RESID DECOUPLER)233A-233M中的每一个。多通道向量去量化器232也可以向多个残差去耦器233B(为了简单的目的未示出)-233M中的每一个提供用于其各自的通道2-M的去量化的侧信息。例如，多通道向量去量化器232可以向残差去耦器233M提供用于通道M的去量化的侧信息(REF/MD SIDE)。残差去耦器233A-233M中的每一个也可以接收参考残差向量的能量去量化或者各自的通道2-M。残差去耦器233A-233M从参考残差向量去耦残差，并开始重建参考音频源，比如参考U-向量，和用于通道2-M的音频源。偶数/奇数子带合成器(E/O SUB)236A-236M接收残差去耦器233A-233M的输出，并且可以从奇数系数分离偶数系数，从而避免重建的音频源中的相位失真。增益/形状合成器(GAIN/SHAPESYNTH)238A-238M可以接收偶数/奇数子带合成器的输出，并改变增益/形状合成器238A-238M接收的信号的增益和/或形状，从而重建用于通道2-M的一个或多个参考音频源。HOA重建器230可以接收用于通道2-M的一个或多个参考音频源，并基于接收到的旋转的空间向量和接收到的音频源来重建高阶环境立体声信号。

图6是进一步图示本公开的技术的各个方面的示例音频回放系统的框图。图6的示例类似于图5的示例，但是为了简单的目的聚焦于残差解码。如在图4和图5中，音频回放系统16从旋转传感器200接收旋转信息。空间向量旋转器205可以，例如，从位流27接收旋转信息和空间向量，并以比如如上关于图4所述的方式形成旋转的空间向量。HOA重建器230可以从空间向量旋转器205接收旋转的空间向量。

残差耦合/去耦合旋转器(RESID C/D ROTATOR)240接收相对于用于通道2-M的每一个的参考的多个侧信息信号。残差耦合/去耦合旋转器240也可以从旋转传感器200接收旋转信息和从空间向量旋转器205接收旋转的空间向量。残差耦合/去耦合旋转器可以相对于参考残差向量创建通道的2-M侧信息中的每一个的投影矩阵，并将每个通道的投影矩阵提供到关联的基于投影的残差去耦器(PROJ-BASED RESID DECOUPLER)234A-234M。投影矩阵可以是能量保持旋转矩阵，其可以用于从参考残差向量去耦重建的通道。可以使用Karhunen-Love变换(KLT)或者主分量分析(PCA)或者其他方法创建投影矩阵。

参考向量去量化器(REF VECTOR DEQUANT)242可以接收量化的参考残差向量并去量化该量化的参考残差向量。参考向量去量化器242可以将去量化的参考残差向量提供到多个基于投影的残差去耦器234A-234M。参考向量去量化器242也可以将去量化的参考残差向量提供到增益/形状合成器(GAIN/SHAPE SYNTH)238R。基于投影的残差去耦器234A-234M从参考残差向量去耦旋转的侧信息，并输出用于通道2-M的残差耦合分量。偶数/奇数子带合成器(E/O SUB)236A-236M接收由基于投影的残差去耦器234A-234M输出的残差耦合分量，并从奇数系数分离偶数系数。增益/形状合成器238A-238M接收偶数/奇数子带合成器的输出和分别用于通道2-M的去量化的能量信号。增益/形状合成器238A-238M将残差耦合分量与去量化的能量分量合成从而创建用于通道2-M的旋转的音频源。

除去量化的参考残差向量之外，增益/形状合成器(GAIN/SHAPE SYNTH)238R还可以接收参考残差信号的去量化的能量。增益/形状合成器238R可以合成参考残差向量和参考残差信号的去量化的能量，以重建和输出重建的参考音频源。增益/形状合成器238A-238M可以输出用于通道2-M的旋转的重建音频源。HOA重建器230可以接收用于通道2-M的重建的参考残差音频源和旋转的重建音频源，并基于用于通道2-M的重建的参考音频源、旋转的重建音频源和旋转的空间向量来重建高阶环境立体声信号。

图7是进一步图示本公开的技术的各个方面的示例音频回放系统的框图。图7可以是图6的示例的更详细的示例，包括能量去量化分量和残差分量。如在图4至图6中，音频回放系统16可以从旋转传感器200接收旋转信息。HTF解码器248可以解码位流27中的信息以获得空间向量。HTF解码器248可以将空间向量提供到空间向量旋转器(SPAT VECTORROTATOR)205。空间向量旋转器205也可以从旋转传感器200接收旋转信息。空间向量旋转器205可以以比如如上关于图4所述的方式形成旋转的空间向量。HOA重建器230可以从空间向量旋转器205接收旋转的空间向量。

残差耦合/去耦合旋转器(RESID C/D ROT)240也可以从旋转传感器200接收旋转信息。残差侧时间解码器(RESID SIDE TEMPORAL DECODER)246可以从位流27接收相对于参考残差向量的用于通道2-M的侧信息。残差侧时间解码器246可以例如经由立体耦合分析，确定通道2-M中的每一个的时间相位信息，并将通道2-M中的每一个的时间相位信息发送到残差耦合/去耦合旋转器240。残差耦合/去耦合旋转器240可以基于来自旋转传感器200的旋转信息和来自残差侧时间解码器246的时间相位信息，创建用于通道2-M中的每一个的投影矩阵。因此，图7的示例中的投影矩阵可以基于时间和空间旋转信息两者定义。

多通道能量解码器244可以从位流27接收多通道能量位流。多通道能量解码器244可以解码多通道能量位流，并将能量参考信号提供到增益/形状合成器(GAIN/SHAPESYNTH)238R。多通道能量解码器244也可以向基于投影的残差去耦器(PROJ-BASED RESIDDECOUPLER)234A-M中的每一个和增益/形状合成器(GAIN/SHAPE SYNTH)238A-238M中的每一个提供用于各个通道2-M的能量信号。基于投影的残差去耦器234A-234M、偶数/奇数子带分离器(E/OSUB)236A-236M、增益/形状合成器238A-238M和238R以及HOA重建器230可以与图6的示例中的基于投影的残差去耦器234A-234M、偶数/奇数子带分离器236A-236M、增益/形状合成器238A-238M和238R以及HOA重建器230类似地工作。

图8是图示具有三个或更多音频接收器的示例音乐会的概念图。在图8的示例中，在舞台323上示出多个音乐家。歌手312位于麦克风310A后。在麦克风310B后示出弦乐部分314。在麦克风310C后示出鼓手316。在麦克风310D后示出其他音乐家318。麦克风310A-301D可以捕获与由麦克风接收的声音对应的音频流。在某些示例中，麦克风310A-310D可以表示合成的音频流。例如，麦克风310A可以捕获主要与歌手312相关联的音频流，但是该音频流也可以包括由其他乐队成员，比如弦乐部分314、鼓手316或者其他音乐家318产生的声音，而麦克风310B可以捕获主要与弦乐部分314相关联的音频流，但是包括由其他乐队成员产生的声音。以该方式，麦克风310A-310D中的每一个可以捕获不同音频流。

还示出多个装置。这些装置表示位于多个不同的期望收听位置的用户装置。耳机320位于麦克风310A附近，但是在麦克风310A和麦克风310B之间。因而，根据本公开的技术，内容消费者装置可以选择至少一个音频流以产生类似于用户位于耳机320在图8中的地方的、用于耳机320的用户的音频体验。类似地，示出VR护目镜322位于麦克风310C后，并且在鼓手316和其他音乐家318之间。内容消费者装置可以选择至少一个音频流以产生类似于用户位于VR护目镜322在图8中的地方的、用于VR护目镜322的用户的音频体验。

示出智能眼镜324相当中心地位于麦克风310A、310C和310D之间。内容消费者装置可以选择至少一个音频流以产生类似于用户位于智能眼镜324在图8中的地方的、用于智能眼镜324的用户的音频体验。另外，示出装置326(其可以表示能够实现本公开的技术的任何装置，比如移动手机、扬声器阵列、耳机、VR护目镜、智能眼镜等)位于麦克风310B前。内容消费者装置可以选择至少一个音频流以产生类似于用户位于装置326在图8中的地方的、用于装置326的用户的音频体验。虽然关于特定位置讨论特定装置，但是示出的任意装置的使用可以提供不同于图8中示出的期望的收听位置的指示。图8的任意装置可以用于实现本公开的技术。

图9是图示根据本公开的技术的使用旋转信息的示例的流程图。音频回放系统16可以存储至少一个空间分量和至少一个音频源(250)。例如，音频回放系统可以以位流27接收多个音频流。多个音频流可以包括至少一个空间分量和至少一个音频分量。音频回放系统16可以在存储器中存储至少一个空间分量和至少一个音频源。

音频回放系统16可以从比如旋转传感器200的运动传感器接收旋转信息(252)。例如，旋转传感器200可以当用户402移动他们的头部时测量头部的俯仰、滚转和偏转(theta，phi和psi)。头部的旋转运动(旋转信息)的测量可以由音频回放系统16接收。音频回放系统15可以基于旋转信息旋转至少一个空间分量(254)。例如，空间向量旋转器205可以通过经由一系列左移位、经由查询表、经由矩阵乘法、逐行的乘法或者通过访问阵列和乘以单独的数字将至少一个空间分量乘以旋转信息来旋转至少一个空间分量。

音频回放系统15可以从旋转的至少一个空间分量和至少一个音频源重建环境立体声信号(256)。例如，HOA重建器230可以从位流27或者从音频解码装置34的其他部分，从图1A-1C的源装置12接收音频源225的表示，比如U-向量，并重建旋转的HOA信号。在某些示例中，至少一个空间分量包括V-向量，并且至少一个音频源包括U-向量。在某些示例中，音频回放系统15可以将投影矩阵应用于参考残差向量和去量化的能量信号以重建U-向量。在某些示例中，投影矩阵包括时间和空间旋转数据。例如，图7的残差耦合/去耦合旋转器240可以基于来自旋转传感器200的旋转信息和来自残差侧时间解码器246的时间相位信息，创建用于通道2-M中的每一个的投影矩阵。在某些示例中，音频回放系统15可以将至少一个音频源的表示，比如基于环境立体声信号的表示输出到一个或多个扬声器(258)。在某些示例中，音频回放系统可以在输出环境立体声信号之前通过混合或者插值的至少一个组合至少一个音频源的至少两个表示。在某些示例中，内容消费者装置14可以从麦克风接收语音命令，并基于语音命令控制显示装置。在某些示例中，内容消费者装置14可以接收无线信号，比如类似位流27的无线位流。

图10是图示可以根据本公开中描述的技术的各个方面操作的可穿戴装置500的示例的图。在各种示例中，可穿戴装置500可以表示VR头戴式装置(比如如上所述的VR头戴式装置400)、AR头戴式装置、MR头戴式装置或者任何其他类型的扩展现实((XR)头戴式装置。增强现实“AR”可以指在其中用户实际上位于的现实世界上重叠计算机渲染的图像或者数据。混合现实“MR”可以指世界被锁定到实际世界中的特定位置的计算机渲染的图像或者数据，或者可以指其中部分计算机渲染的3D元素和部分拍摄的真实元素组合为模拟用户在环境中的物理存在的浸入式体验的关于VR的变型。扩展现实“XR”可以表示用于VR、AR和MR的包罗万象的术语。关于用于XR的术语的更多信息可以在2017年7月7日的杰森·彼得森(Jason Peterson)的题为“Virtual Reality,Augmented Reality,and Mixed RealityDefinitions”的文档中找到。

可穿戴装置500可以表示其他类型的装置，比如手表(包括所谓的“智能手表”)、眼镜(包括所谓的“智能眼镜”)、耳机(包括所谓的“无线耳机”和“智能耳机”)、智能衣服、智能首饰，等等。无论VR装置、手表、眼镜和/或耳机的表示，可穿戴装置500可以经由有线连接或者无线连接与支持可穿戴装置500的计算装置通信。

在有些情况下，支持可穿戴装置500的计算装置可以集成在可穿戴装置500内，因而，可穿戴装置500可以被认为是与支持可穿戴装置500的计算装置相同的装置。在其他实例中，可穿戴装置500可以与可以支持可穿戴装置500的单独的计算装置通信。在这方面，术语“支持”不应该被理解为需要单独的专用设备，而是应该被理解为配置为执行本公开中描述的技术的各个方面的一个或多个处理器可以集成在可穿戴装置500内或者集成在与可穿戴装置500分开的计算装置内。

例如，当可穿戴装置500表示VR装置1100时，单独的专用计算装置(比如包括一个或多个处理器的个人计算机)可以渲染音频和视觉内容，而可穿戴装置500可以确定平移头部运动，专用计算装置可以基于平移头部运动渲染根据本公开中描述的技术的各个方面的音频内容(如扬声器馈送)。作为另一示例，当可穿戴装置500表示智能眼镜时，可穿戴装置500可以包括一个或多个处理器，其确定平移头部运动(通过在可穿戴装置500的一个或多个传感器内接口连接)，并基于所确定的平移头部运动渲染扬声器馈送。

如图所示，可穿戴装置500包括一个或多个定向扬声器和一个或多个跟踪和/或记录相机。另外，可穿戴装置500包括一个或多个惯性、触觉和/或健康传感器、一个或多个眼跟踪相机、一个或多个高灵敏度音频麦克风和光学/投影硬件。可穿戴装置500的光学/投影硬件可以包括耐用的半透明显示技术和硬件。

可穿戴装置500也包括连接性硬件，其可以表示支持多模式连接性的一个或多个网络接口，比如4G通信、5G通信、蓝牙、Wi-Fi等。可穿戴装置500还包括一个或多个环境光传感器和骨传导传感器。在有些情况下，可穿戴装置500也可以包括具有鱼眼镜头和/或远摄镜头的一个或多个无源和/或有源相机。虽然图10中未示出，但是可穿戴装置500还可以包括一个或多个发光二极管(LED)灯。在某些示例中，LED灯可以被称为“超亮”LED灯。在某些实现中，可穿戴装置500还可以包括一个或多个后相机。将认可，可穿戴装置500可以显示出各种不同的形状因数。

此外，跟踪和记录相机及其他传感器可以促进平移距离的确定。虽然在图10的示例中未示出，但是可穿戴装置500可以包括用于检测平移距离的其他类型的传感器。

虽然相对于可穿戴装置的特定示例，比如上面相对于图10的示例讨论的VR装置1100及在图1A-1C的示例中提到的其他装置进行描述，但是本领域技术人员将认可，与图1A-1C和图2有关的描述可以应用于可穿戴装置的其他示例。例如，比如智能眼镜的其他可穿戴装置可以包括通过其获得平移头部运动的传感器。作为另一示例，比如智能手表的其他可穿戴装置可以包括通过其获得平移运动的传感器。因而，本公开中描述的技术不应该限于特定类型的可穿戴装置，而是任何可穿戴装置可以配置为执行本公开中描述的技术。

图11A和图11B是图示可以执行本公开中描述的技术的各个方面的示例系统的图。图11A图示其中源装置12进一步包括相机600的示例。相机600可以配置为捕获视频数据，并将捕获的原始视频数据提供到内容捕获装置20。内容捕获装置20可以将视频数据提供到源装置12的另一组件，以用于进一步处理为视点划分的部分。

在图11A的示例中，内容消费者装置14还包括可穿戴装置300。将理解在各种实现中，可穿戴装置300可以包括在内容消费者装置14中或者外部地耦合到内容消费者装置14。可穿戴装置300包括用于输出视频数据(例如，如与各种视点相关联的)和用于渲染音频数据的显示器硬件和扬声器硬件。

图11B图示其中图11A所示的音频渲染器32被替换为双耳渲染器42的示例，该双耳渲染器42能够使用一个或多个HRTF执行双耳渲染或者能够对左和右扬声器馈送43渲染的其他功能。音频回放系统16C可以将左和右扬声器馈送43输出到耳机44。

耳机44可以经由有线连接(比如标准3.5毫米音频插孔、通用系统总线(USB)连接、光学音频插孔或者其他形式的有线连接)或者无线地(比如通过蓝牙^TM连接、无线网络连接等方式)耦合到音频回放系统16C。耳机44可以基于左和右扬声器馈送43重新创建由音频数据19’表示的声场。耳机44可以包括由相应的左和右扬声器馈送43供能(或者，换言之，驱动)的左耳机扬声器和右耳机扬声器。

图12是图示图1A-图1C的示例中示出的源装置和内容消费者装置中的一个或多个的示例组件的框图。在图12的示例中，装置710包括处理器712(其可以被称为“一个或多个处理器”或者“处理器”)、图形处理单元(GPU)714、系统存储器716、显示处理器718、一个或多个集成的扬声器740、显示器703、用户接口720、天线721和收发器模块722。在其中装置710是移动装置的示例中，显示处理器718是移动显示处理器(MDP)。在某些示例中，比如其中装置710是移动装置的示例中，处理器712、GPU 714和显示处理器718可以形成为集成电路(IC)。

例如，IC可以被认为是芯片封装内的处理芯片且可以是片上系统(SoC)。在某些示例中，处理器712、GPU 714和显示处理器718中的两个可以一起装在同一IC中，并且另一个在不同集成电路(即，不同芯片封装)中，或者全部三个可以装在不同IC或者在同一IC上。但是，在其中装置710是移动装置的示例中，可能处理器712、GPU 714和显示处理器718全部装在不同集成电路中。

处理器712、GPU 714和显示处理器718的示例包括，但不限于一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他等效集成或者离散逻辑电路系统。处理器712可以是装置710的中央处理单元(CPU)。在某些示例中，GPU 714可以是包括向GPU 714提供适于图形处理的大的并行处理能力的集成和/或离散逻辑电路系统的专用硬件。在有些情况下，GPU 714也可以包括通用处理性能，并且当实现通用处理任务(即，非图形相关任务)时可以被称为通用GPU(GPGPU)。显示处理器718也可以是设计用于从系统存储器716检索图像内容，将图像内容组成为图像帧和输出图像帧到显示器703的专用集成电路硬件。

处理器712可以执行各种类型的应用。应用的示例包括网络浏览器、电子邮件应用、电子表格、视频游戏、生成用于显示的可观看对象的其他应用或者以上更详细地列出的任意应用类型。系统存储器716可以存储用于应用的执行的指令。处理器712上应用之一的执行使得处理器712产生用于要显示的图像内容的图形数据和要播放(可能经由集成的扬声器740)的音频数据19。处理器712可以将图像内容的图形数据发送到GPU 714以用于基于处理器712发送到GPU 714的指令或者命令的进一步处理。

处理器712可以根据特定应用处理接口(API)与GPU 714通信。这种API的示例包括

API，Khronos组的

或者OpenGL

和OpenCL^TM；但是，本公开的方面不限于DirectX、OpenGL或者OpenCL API，并且可以扩展至其他类型的API。此外，本公开中描述的技术不需要根据API而运作，并且处理器712和GPU 714可以利用用于通信的任何处理。

系统存储器716可以是用于装置710的存储器。系统存储器716可以包括一个或多个计算机可读存储介质。系统存储器716的示例包括，但不限于随机存取存储器(RAM)、电可擦可编程只读存储器(EEPROM)、闪存或者可以用于以指令和/或数据结构的形式携带或者存储期望的程序代码且可以由计算机或者处理器访问的其他介质。

在某些示例中，系统存储器716可以包括使得处理器712、GPU 714和/或显示处理器718执行本公开中归于处理器712、GPU 714和/或显示处理器718的功能的指令。因此，系统存储器716可以是具有在其上存储的指令的计算机可读存储介质，该指令当执行时使得一个或多个处理器(例如，处理器712、GPU 714和/或显示处理器718)执行各种功能。

系统存储器716可以包括非瞬时存储介质。术语“非瞬时”指示存储介质不具体表现为载波或者传播的信号。但是，术语“非瞬时”不应该解释为意味着系统存储器716是不可移动或者其内容是静态的。作为一个示例，系统存储器716可以从装置710去除和移动到另一装置。作为另一示例，实质上类似于系统存储器716的存储器可以插入到装置710中。在某些示例中，非瞬时存储介质可以存储可能随时间改变的数据(例如，在RAM中)。

用户接口720可以表示通过其用户可以与装置710接口连接的一个或多个硬件或者虚拟(意味着硬件和软件的组合)用户接口。用户接口720可以包括物理按钮、开关、触发器、灯或者它们的虚拟版本。用户接口720还可以包括物理或者虚拟键盘、触摸界面–比如触摸屏、触觉反馈等。

处理器712可以包括配置为执行上面相对于内容创建者装置和/或内容消费者装置的任意模块、单元或者其他功能组件中的一个或多个讨论的操作的全部或者某些部分的一个或多个硬件单元(包括所谓的“处理核心”)。天线721和收发器模块722可以表示配置为建立和维持源装置12和内容消费者装置14之间的连接的单元。天线721和收发器模块722可以表示能够根据一个或多个无线通信协议无线通信的一个或多个接收器和/或一个或多个发射器，无线通信协议比如第五代(5G)蜂窝标准、Wi-Fi、个人区域网(PAN)协议，比如蓝牙^TM或者其他开源、私有或者其他通信标准。例如，收发器模块722可以接收和/或发送无线信号。收发器模块722可以表示单独的发射器、单独的接收器、单独的发射器和单独的接收器两者或者组合的发射器和接收器。天线721和收发器模块722可以配置为接收编码的音频数据。同样地，天线721和收发器模块722可以配置为发送编码的音频数据。

要认识到取决于示例，在这里描述的任意技术的某些动作或者事件可以以不同序列执行，可以添加，合并，或者一起省去(例如，对于该技术的实践不需要全部描述的动作或者事件)。此外，在某些示例中，代替顺序地执行，动作或者事件可以同时执行，例如，通过多线程处理、中断处理或者多个处理器。

在某些示例中，VR装置(或者流式传输装置)可以使用耦合到VR/流式传输装置的存储器的网络接口与外部装置通信交换消息，其中交换消息与声场的多个可用表示相关联。在某些示例中，VR装置可以使用耦合到网络接口的天线接收与声场的多个可用表示相关联的无线信号，包括数据分组、音频分组、视频协定或者转送协议数据。在某些示例中，一个或多个麦克风阵列可以捕获声场。

在某些示例中，存储到存储器装置的声场的多个可用表示可以包括声场的多个基于对象的表示、声场的高阶环境立体声表示、声场的混合阶环境立体声表示、声场的基于对象的表示与声场的高阶环境立体声表示的组合、声场的基于对象的表示与声场的混合阶环境立体声表示的组合或者声场的混合阶表示与声场的高阶环境立体声表示的组合。

在某些示例中，声场的多个可用表示的一个或多个声场表示可以包括至少一个高分辨率区域和至少一个低分辨率区域，并且其中，基于转向角选择的呈现提供相对于至少一个高分辨率区域更大的空间精度和相对于低分辨率区域更小的空间精度。

本公开包括以下示例。

条款1.一种配置为播放多个音频流中的一个或多个音频流的装置，该装置包括：配置为存储多个音频流内的至少一个空间分量和至少一个音频源的存储器；和耦合到存储器的一个或多个处理器，并且被配置为：从运动传感器接收旋转信息；基于旋转信息旋转至少一个空间分量，以形成至少一个旋转的空间分量；和从至少一个旋转的空间分量和至少一个音频源构造环境立体声信号。

其中，该至少一个空间分量描述球谐函数域表示中的与至少一个音频源相关联的空间特性。

条款1.5.条款1的装置，其中，至少一个空间分量包括V-向量且至少一个音频源包括U-向量。

条款1.6.条款1.5的装置，其中，一个或多个处理器被进一步配置为重建U-向量。

条款1.7.条款1.6的装置，其中，一个或多个处理器被进一步配置为通过将投影矩阵应用于参考残差向量和去量化的能量信号来重建U-向量。

条款1.8.条款1.7的装置，其中，该投影矩阵包括时间和空间旋转数据。

条款2.条款1的装置，其中，一个或多个处理器被进一步配置为将至少一个音频源输出到一个或多个扬声器。

条款3.条款1-2的任何组合的装置，其中，一个或多个处理器被进一步配置为组合至少一个音频源中的至少两个。

条款4.条款3的装置，其中，一个或多个处理器通过混合或者插值中的至少一个组合至少一个音频源中的至少两个。

条款5.条款1-4的任何组合的装置，进一步包括显示装置。

条款6.条款5的装置，进一步包括麦克风，其中，一个或多个处理器被进一步配置为从麦克风接收语音命令和基于语音命令控制显示装置。

条款7.条款1-6的任何组合的装置，进一步包括一个或多个扬声器。

条款8.条款1-7的任何组合的装置，其中，该装置包括移动手机。

条款9.条款1-7的任何组合的装置，其中，该装置包括扩展现实头戴式装置，并且其中，声学空间包括由相机捕获的视频数据所表示的场景。

条款10.条款1-7的任何组合的装置，其中，该装置包括扩展现实头戴式装置，并且其中，声学空间包括虚拟世界。

条款11.条款1-10的任何组合的装置，进一步包括被配置为呈现声学空间的头部安装装置。

条款12.条款1-11的任何组合的装置，进一步包括无线收发器，该无线收发器耦合到一个或多个处理器且被配置为接收无线信号。

条款13.条款12的装置，其中，无线信号符合个人区域网络标准。

条款13.5.条款13的装置，其中，个人区域网络标准包括AptX标准。

条款14.条款12的装置，其中，无线信号符合第五代(5G)蜂窝协议。

条款15.一种播放多个音频流中的一个或多个音频流的方法，包括：由存储器存储多个音频流内的至少一个空间分量和至少一个音频源；由一个或多个处理器从运动传感器接收旋转信息；由一个或多个处理器基于旋转信息旋转至少一个空间分量，以形成至少一个旋转的空间分量；和由一个或多个处理器从至少一个旋转的空间分量和至少一个音频源构造环境立体声信号，其中，至少一个空间分量描述球谐函数域中的与至少一个音频源相关联的空间特性。

条款15.5条款15的方法，其中，至少一个空间分量包括V-向量且至少一个音频源包括U-向量。

条款15.6条款15.5的方法，进一步包括重建U-向量。

条款15.7.条款15.6的方法，其中，重建U-向量包括将投影矩阵应用于参考残差向量和去量化的能量信号。

条款15.8条款15.7的装置，其中，该投影矩阵包括时间和空间旋转数据。

条款16.条款15的方法，进一步包括由一个或多个处理器将至少一个音频源输出到一个或多个扬声器。

条款17.条款15-16的任何组合的方法，进一步包括由一个或多个处理器组合至少一个音频源中的至少两个。

条款18.条款17的方法，其中，组合至少一个音频源中的至少两个通过混合或者插值中的至少一个。

条款19.条款15-18的任何组合的方法，进一步包括从麦克风接收语音命令和基于语音命令控制显示装置。

条款20.条款15-19的任何组合的方法，其中，该方法在移动手机上执行。

条款21.条款15-19的任何组合的方法，其中，该方法在扩展现实头戴式装置上执行，并且其中，声学空间包括由相机捕获的视频数据所表示的场景。

条款22.条款15-19的任何组合的方法，其中，该方法在扩展现实头戴式装置上执行，并且其中，声学空间包括虚拟世界。

条款23.条款15-22的任何组合的方法，其中，该方法在配置为呈现声学空间的头部安装装置上执行。

条款24.条款15-23的任何组合的方法，进一步包括接收无线信号。

条款25.条款24的方法，其中，无线信号符合个人区域网络标准。

条款25.5.条款25的方法，其中，个人区域网络标准包括AptX标准。

条款26.条款24的方法，其中，无线信号符合第五代(5G)蜂窝协议。

条款27.一种配置为播放多个音频流中的一个或多个音频流的装置，该装置包括：用于存储多个音频流内的至少一个空间分量和至少一个音频源的部件；用于从运动传感器接收旋转信息的部件；用于旋转至少一个空间分量以形成至少一个旋转的空间分量的部件；和用于从至少一个旋转的空间分量和至少一个音频源构造环境立体声信号的部件，其中，至少一个空间分量描述球谐函数域中的与至少一个音频源相关联的空间特性。

条款27.5条款27的装置，其中，至少一个空间分量包括V-向量且至少一个音频源包括U-向量。

条款27.6条款27.5的装置，进一步包括用于重建U-向量的部件。

条款27.7.条款27.6的装置，其中，用于重建U-向量的装置将投影矩阵应用于参考残差向量和去量化的能量信号。

条款27.8条款27.7的装置，其中，该投影矩阵包括时间和空间旋转数据。

条款28.条款27的装置，进一步包括用于将至少一个音频源输出到一个或多个扬声器的部件。

条款29.条款27-28的任何组合的装置，进一步包括用于组合至少一个音频源中的至少两个的部件。

条款30.条款29的装置，其中，组合至少一个音频源中的至少两个通过混合或者插值中的至少一个。

条款31.条款27-30的组合的装置，进一步包括用于从麦克风接收语音命令的部件和用于基于语音命令控制显示装置的部件。

条款32.条款27-31的任何组合的装置，其中，该装置包括扩展现实头戴式装置，并且其中，声学空间包括由相机捕获的视频数据所表示的场景。

条款33.条款27-32的任何组合的装置，其中，该装置包括移动手机。

条款34.条款27-32的任何组合的装置，其中，该装置包括扩展现实头戴式装置，并且其中，声学空间包括虚拟世界。

条款35.条款27-34的任何组合的装置，其中，该装置包括配置为呈现声学空间的头部安装装置。

条款36.条款27-35的任何组合的装置，进一步包括用于接收无线信号的部件。

条款37.条款36的装置，其中，无线信号符合个人区域网络标准。

条款37.5.条款37的装置，其中，个人区域网络标准包括AptX标准。

条款38.条款36的装置，其中，无线信号符合第五代(5G)蜂窝协议。

条款39.一种具有在其上存储的指令的非瞬时计算机可读存储介质，当指令被执行时使得一个或多个处理器：存储多个音频流内的至少一个空间分量和至少一个音频源；

从运动传感器接收旋转信息；基于旋转信息旋转至少一个空间分量以形成至少一个旋转的空间分量；和从至少一个旋转的空间分量和至少一个音频源构造环境立体声信号，其中，至少一个空间分量描述球谐函数域中的与至少一个音频源相关联的空间特性。

条款39.5.条款39的非瞬时计算机可读存储介质，其中，至少一个空间分量包括V-向量且至少一个音频源包括U-向量。

条款39.6.条款39.5的非瞬时计算机可读存储介质，进一步具有在其上存储的指令，当指令被执行时使得一个或多个处理器重建U-向量。

条款39.7.条款39.6的非瞬时计算机可读存储介质，进一步具有在其上存储的指令，当指令被执行时使得一个或多个处理器重建U-向量包括通过将投影矩阵应用于参考残差向量和去量化的能量信号。

条款39.8.条款39.7的非瞬时计算机可读存储介质，其中，投影矩阵包括时间和空间旋转数据。

条款40.条款39的非瞬时计算机可读存储介质，其中，指令当被执行时，使得一个或多个处理器将至少一个音频源输出到一个或多个扬声器。

条款41.条款39-40的任何组合的非瞬时计算机可读存储介质，其中，指令当被执行时，使得一个或多个处理器组合至少一个音频源中的至少两个。

条款42.条款41的非瞬时计算机可读存储介质，其中，指令当被执行时，使得一个或多个处理器通过混合或者插值中的至少一个组合至少一个音频源中的至少两个。

条款43.条款39-42中的任意的非瞬时计算机可读存储介质，其中，指令当被执行时，使得一个或多个处理器基于语音命令控制显示装置。

条款44.条款39-43的任何组合的非瞬时计算机可读存储介质，其中，指令当被执行时，使得一个或多个处理器在移动手机上呈现声学空间。

条款45.条款39-44的任何组合的非瞬时计算机可读存储介质，其中，声学空间包括由相机捕获的视频数据所表示的场景。

条款46.条款39-44的任何组合的非瞬时计算机可读存储介质，其中，声学空间包括虚拟世界。

条款47.条款39-46的任何组合的非瞬时计算机可读存储介质，其中，指令当被执行时，使得一个或多个处理器在头部安装装置上呈现声学空间。

条款48.条款39-47的任何组合的非瞬时计算机可读存储介质，其中，指令当被执行时，使得一个或多个处理器接收无线信号。

条款49.条款48的非瞬时计算机可读存储介质，其中，无线信号符合个人区域网络标准。

条款49.5.条款49的非瞬时计算机可读存储介质，其中，个人区域网络标准包括AptX标准。

条款50.条款48的非瞬时计算机可读存储介质，其中，无线信号符合第五代(5G)蜂窝协议。

在一个或多个示例中，描述的功能可以以硬件、软件、固件或者其任何组合实现。如果以软件实现，则功能可以作为一个或多个指令或者代码存储在计算机可读介质上或者经计算机可读介质发送，并由基于硬件的处理单元执行。计算机可读介质可以包括计算机可读存储介质，其对应于比如数据存储介质的有形介质，或者包括例如根据通信协议促进计算机程序从一地到另一地的传送的任何介质的通信介质。以该方式，计算机可读介质通常可以对应于(1)非瞬时的有形的计算机可读存储介质，或者(2)比如信号或者载波的通信介质。数据存储介质可以是可以由一个或多个计算机或者一个或多个处理器访问以取回用于本公开中描述的技术的实现的指令、代码和/或数据结构的任何可用介质。计算机程序产品可以包括计算机可读介质。

举例来说，而不是限制，这种计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或者其他光盘存储、磁盘存储或者其他磁存储装置、闪存存储器、或者可以用于以指令或者数据结构的形式存储所需的程序代码且可以由计算机访问的任何其他介质。此外，任何连接被适当地称为计算机可读介质。例如，如果指令从网站、服务器或者其他远程源使用同轴电缆、光纤电缆、双绞线、数字用户路(DSL)或者比如红外、无线电和微波的无线技术发送，则同轴电缆、光纤电缆、双绞线、DSL或者比如红外、无线电和微波的无线技术包括在介质的定义中。但是，应该理解，计算机可读存储介质和数据存储介质不包括连接、载波、信号或者其他瞬时的介质，而是代替地涉及非瞬时的有形的存储介质。如在此使用的，光盘和磁盘包括压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘和蓝光光盘，其中磁盘通常磁性地再现数据，而光盘以激光光学地再现数据。上述的组合也应该包括在计算机可读介质的范围内。

指令可以由一个或多个处理器，比如一个或多个数字信号处理器(DSP)，通用微处理器，专用集成电路(ASIC)，现场可编程门阵列(FPGA)或者其他等效的集成或者离散逻辑电路系统执行。因此，如在此使用的术语“处理器”可以指适于在这里描述的技术的实现的任意前述结构或者任何其他结构。另外，在某些方面，在这里描述的功能性可以在配置用于编码和解码的专用硬件和/或软件模块内提供，或者并入组合的编解码器中。此外，该技术可以在一个或多个电路或逻辑元件中完全地实现。

本公开的技术可以以多种装置或者设备实现，包括无线手机、集成电路(IC)或者一组IC(例如，芯片集)。各种组件、模块或单元在本公开中描述以强调配置为执行公开的技术的装置的功能方面，但是不必须由不同硬件单元实现。而是如上所述，各种单元可以组合在编解码器硬件设备中或者由互操作的硬件单元的集合提供，包括与适当的软件和/或固件结合的如上所述的一个或多个处理器。

已经描述了各种示例。这些及其他示例在以下权利要求的范围内。

Claims

1.一种配置为播放多个音频流中的一个或多个音频流的装置，所述装置包括：

存储器，配置为存储所述多个音频流内的至少一个空间分量和至少一个音频源；和

一个或多个处理器，耦合到所述存储器，并且被配置为：

从运动传感器接收旋转信息；

基于所述旋转信息旋转所述至少一个空间分量，以形成至少一个旋转的空间分量；和

从所述至少一个旋转的空间分量和所述至少一个音频源重建环境立体声信号，

其中，所述至少一个空间分量描述球谐函数域表示中的与所述至少一个音频源相关联的空间特性。

2.如权利要求1所述的装置，其中，所述至少一个空间分量包括V-向量，并且所述至少一个音频源包括U-向量。

3.如权利要求2所述的装置，其中，所述一个或多个处理器被进一步配置为通过将投影矩阵应用于参考残差向量和去量化的能量信号来重建所述U-向量。

4.如权利要求3所述的装置，其中，所述投影矩阵包括时间和空间旋转数据。

5.如权利要求1所述的装置，其中，所述一个或多个处理器被进一步配置为将所述至少一个音频源的表示输出到一个或多个扬声器。

6.如权利要求1所述的装置，其中，所述一个或多个处理器被进一步配置为通过混合或者插值中的至少一个来组合所述至少一个音频源的至少两个表示。

7.如权利要求1所述的装置，进一步包括显示装置。

8.如权利要求7所述的装置，进一步包括麦克风，其中，所述一个或多个处理器被进一步配置为从所述麦克风接收语音命令并基于所述语音命令控制所述显示装置。

9.如权利要求1所述的装置，进一步包括一个或多个扬声器。

10.如权利要求1所述的装置，其中，所述装置包括移动手机。

11.如权利要求1所述的装置，

其中，所述装置包括扩展现实头戴式装置，并且

其中，声学空间包括由相机捕获的视频数据所表示的场景。

12.如权利要求1所述的装置，

其中，所述装置包括扩展现实头戴式装置，并且

其中，声学空间包括虚拟世界。

13.如权利要求1所述的装置，进一步包括被配置为呈现声学空间的头部安装装置。

14.如权利要求1所述的装置，进一步包括无线收发器，所述无线收发器耦合到所述一个或多个处理器并且被配置为接收无线信号，所述无线信号包括符合第五代蜂窝标准、蓝牙标准或者Wi-Fi标准的一个或多个信号。

15.一种播放多个音频流中的一个或多个音频流的方法，包括：

由存储器存储所述多个音频流内的至少一个空间分量和至少一个音频源；

由一个或多个处理器从运动传感器接收旋转信息；

由一个或多个处理器基于所述旋转信息旋转所述至少一个空间分量，以形成至少一个旋转的空间分量；和

由所述一个或多个处理器从所述至少一个旋转的空间分量和所述至少一个音频源重建环境立体声信号，

16.如权利要求15所述的方法，其中，所述至少一个空间分量包括V-向量，并且所述至少一个音频源包括U-向量。

17.如权利要求16所述的方法，进一步包括通过将投影矩阵应用于参考残差向量和去量化的能量信号来重建所述U-向量。

18.如权利要求17所述的方法，其中，所述投影矩阵包括时间和空间旋转数据。

19.如权利要求15所述的方法，进一步包括由所述一个或多个处理器将所述至少一个音频源的表示输出到一个或多个扬声器。

20.如权利要求15所述的方法，进一步包括由所述一个或多个处理器通过混合或者插值中的至少一个来组合所述至少一个音频源的至少两个表示。

21.如权利要求15所述的方法，进一步包括从麦克风接收语音命令并基于所述语音命令控制显示装置。

22.如权利要求15所述的方法，其中，所述方法在移动手机上执行。

23.如权利要求15所述的方法，其中，所述方法在扩展现实头戴式装置上执行，并且其中，声学空间包括由相机捕获的视频数据所表示的场景。

24.如权利要求15所述的方法，其中，所述方法在扩展现实头戴式装置上执行，并且其中，声学空间包括虚拟世界。

25.如权利要求15所述的方法，其中，所述方法在配置为呈现声学空间的头部安装装置上被执行。

26.如权利要求15所述的方法，进一步包括接收无线信号，所述无线信号包括符合第五代蜂窝标准、蓝牙标准或者Wi-Fi标准的一个或多个信号。

27.一种被配置为播放多个音频流中的一个或多个音频流的装置，所述装置包括：

用于存储多个音频流内的至少一个空间分量和至少一个音频源的部件；

用于从运动传感器接收旋转信息的部件；

用于旋转所述至少一个空间分量以形成至少一个旋转的空间分量的部件；和

用于从所述至少一个旋转的空间分量和所述至少一个音频源重建环境立体声信号的部件，

28.一种具有在其上存储的指令的非瞬时计算机可读存储介质，所述指令当被执行时使得一个或多个处理器：

存储多个音频流内的至少一个空间分量和至少一个音频源；

从运动传感器接收旋转信息；

基于所述旋转信息旋转所述至少一个空间分量以形成至少一个旋转的空间分量；和

29.如权利要求28所述的非瞬时计算机可读存储介质，其中，所述至少一个空间分量包括V-向量并且所述至少一个音频源包括U-向量。

30.如权利要求29所述的非瞬时计算机可读存储介质，进一步具有在其上存储的指令，所述指令当被执行时使得所述一个或多个处理器重建所述U-向量，包括通过将投影矩阵应用于参考残差向量和去量化的能量信号。