CN110603585A

CN110603585A - 用于高阶立体环绕声的音频数据的分层中间压缩

Info

Publication number: CN110603585A
Application number: CN201880030436.1A
Authority: CN
Inventors: 金墨永; N·G·彼得斯; D·森
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2017-05-18
Filing date: 2018-04-04
Publication date: 2019-12-20
Anticipated expiration: 2038-04-04
Also published as: CN110603585B; WO2018212841A1; EP3625795A1; KR20200010234A; ES2906957T3; EP3625795B1; KR102640460B1; US20180338212A1; TW201907391A

Abstract

一般来说，描述用于执行高阶立体环绕声HOA的音频数据的分层中间压缩的技术。包括存储器及处理器的装置可经配置以执行所述技术。所述存储器可存储所述HOA音频数据的HOA系数。所述处理器可将所述HOA系数分解成主要声音分量及对应空间分量。所述空间分量可表示所述主要声音分量的方向、形状及宽度，且定义于球谐域中。所述处理器可在符合中间压缩格式的位流中指定所述HOA系数的表示环境分量的子集。所述处理器还可在所述位流中且无关于对用以在所述位流中指定所述空间分量的环境声道的最小数目及元素的数目的确定指定所述空间分量的所有元素。

Description

用于高阶立体环绕声的音频数据的分层中间压缩

本申请案要求2017年5月18日提交的标题为“用于高阶立体环绕声的音频数据的分层中间压缩(LAYERED INTERMEDIATE COMPRESSION FOR HIGHER ORDER AMBISONICAUDIO DATA)”的美国临时申请案第62/508,097号的权益，所述申请案的全部内容以全文引用的方式并入本文中。

技术领域

本公开涉及音频数据，且更特定地说，涉及音频数据的压缩。

背景技术

高阶立体环绕声(HOA)信号(常由多个球谐系数(SHC)或其它阶层元素表示)为音场的三维(3D)表示。HOA或SHC表示可以独立于用以播放从此SHC信号显现的多声道音频信号的局部扬声器几何布置的方式来表示此音场。SHC信号还可促进回溯相容性，这是因为可将SHC信号显现为熟知且被高度采用的多声道格式(例如，5.1音频声道格式或7.1音频声道格式)。SHC表示因此可实现对音场的更好表示，其还适应回溯相容性。

发明内容

大体而言，描述用于高阶立体环绕声的音频数据的夹层压缩的技术。高阶立体环绕声的音频数据可包括对应于具有高于一的阶数的球谐基底函数的至少一个球谐系数，且在一些实例中，包括对应于具有高于一的阶数的多个球谐基底函数的多个球谐系数。

在一个实例中，一种经配置以压缩表示音场的高阶立体环绕声的音频数据的装置包括：存储器，其经配置以存储高阶立体环绕声的音频数据的高阶立体环绕声系数；及一或多个处理器，其经配置以：将高阶立体环绕声系数分解成主要声音分量及对应空间分量，所述对应空间分量表示所述主要声音分量的方向、形状及宽度，且定义于球谐域中；在被指定于符合中间压缩格式的位流中之前停用对表示音场的环境分量的高阶立体环绕声系数的子集的解相关的应用；在位流中指定高阶立体环绕声系数的子集；且在位流中指定空间分量的所有元素，其中空间分量的元素中的至少一者包含信息，所述信息为关于通过高阶立体环绕声系数的子集提供的信息的冗余。

在另一实例中，一种压缩表示音场的高阶立体环绕声的音频数据的方法包括：将表示音场的高阶立体环绕声系数分解成主要声音分量及对应空间分量，所述对应空间分量表示主要声音分量的方向、形状及宽度，且定义于球谐域中；在被指定于符合中间压缩格式的位流中之前停用对表示音场的环境分量的高阶立体环绕声系数的子集的解相关的应用；在位流中指定高阶立体环绕声系数的子集；且在位流中指定空间分量的所有元素，其中空间分量的元素中的至少一者包含信息，所述信息为关于通过高阶立体环绕声系数的子集提供的信息的冗余。

在另一实例中，一种非暂时性计算机可读存储媒体上存储有指令，所述指令在执行时使得一或多个处理器进行以下操作：将表示音场的高阶立体环绕声系数分解成主要声音分量及对应空间分量，所述对应空间分量表示主要声音分量的方向、形状及宽度，且定义于球谐域中，在被指定于符合中间压缩格式的位流中之前停用对表示音场的环境分量的高阶立体环绕声系数的子集的解相关的应用，在位流中指定高阶立体环绕声系数的子集，且在位流中指定空间分量的所有元素，其中空间分量的元素中的至少一者包含信息，所述信息为关于通过高阶立体环绕声系数的子集提供的信息的冗余。

在另一实例中，一种经配置以压缩表示音场的高阶立体环绕声的音频数据的装置包括：用于将表示音场的高阶立体环绕声系数分解成主要声音分量及对应空间分量的装置，所述对应空间分量表示主要声音分量的方向、形状及宽度，且定义于球谐域中；用于在被指定于符合中间压缩格式的位流中之前停用对表示音场的环境分量的高阶立体环绕声系数的子集的解相关的应用的装置；用于在位流中指定高阶立体环绕声系数的子集的装置，及用于在位流中指定空间分量的所有元素的装置，其中空间分量的元素中的至少一者包含信息，所述信息为关于通过高阶立体环绕声系数的子集提供的信息的冗余。

在另一实例中，一种经配置以压缩表示音场的高阶立体环绕声的音频数据的装置包括：存储器，其经配置以存储高阶立体环绕声的音频数据的高阶立体环绕声系数；及一或多个处理器，其经配置以：将高阶立体环绕声系数分解成主要声音分量及对应空间分量，所述对应空间分量表示所述主要声音分量的方向、形状及宽度，且定义于球谐域中；在符合中间压缩格式的位流中指定主要音频信号；在被指定于位流中之前停用对表示音场的环境分量的高阶立体环绕声系数的子集的解相关的应用；且在位流中指定高阶立体环绕声系数的子集，其中高阶立体环绕声系数的子集中的至少一者包含信息，所述信息为关于通过主要音频信号及对应空间分量提供的信息的冗余。

在另一实例中，一种压缩表示音场的高阶立体环绕声的音频数据的方法包括：将表示音场的高阶立体环绕声系数分解成主要声音分量及对应空间分量，所述对应空间分量表示主要声音分量的方向、形状及宽度，且定义于球谐域中；在符合中间压缩格式的位流中指定主要音频信号；在被指定于位流中之前停用对表示音场的环境分量的高阶立体环绕声系数的子集的解相关的应用；且在位流中指定高阶立体环绕声系数的子集，其中高阶立体环绕声系数的子集中的至少一者包含信息，所述信息为关于通过主要音频信号及对应空间分量提供的信息的冗余。

在另一实例中，一种非暂时性计算机可读存储媒体上存储有指令，所述指令在执行时使得一或多个处理器进行以下操作：将表示音场的高阶立体环绕声系数分解成主要声音分量及对应空间分量，所述对应空间分量表示主要声音分量的方向、形状及宽度，且定义于球谐域中；在符合中间压缩格式的位流中指定主要音频信号；在被指定于位流中之前停用对表示音场的环境分量的高阶立体环绕声系数的子集的解相关的应用；且在位流中指定高阶立体环绕声系数的子集，其中高阶立体环绕声系数的子集中的至少一者包含信息，所述信息为关于通过主要音频信号及对应空间分量提供的信息的冗余。

在另一实例中，一种经配置以压缩表示音场的高阶立体环绕声的音频数据的装置包括：用于将表示音场的高阶立体环绕声系数分解成主要声音分量及对应空间分量的装置，所述对应空间分量表示主要声音分量的方向、形状及宽度，且定义于球谐域中；用于在符合中间压缩格式的位流中指定主要音频信号的装置；用于在被指定于位流中之前停用对表示音场的环境分量的高阶立体环绕声系数的子集的解相关的应用的装置；及用于在位流中指定高阶立体环绕声系数的子集的装置，其中高阶立体环绕声系数的子集中的至少一者包含信息，所述信息为关于通过主要音频信号及对应空间分量提供的信息的冗余。

在另一实例中，一种经配置以压缩表示音场的高阶立体环绕声的音频数据的装置包括：存储器，其经配置以存储高阶立体环绕声的音频数据的高阶立体环绕声系数；及一或多个处理器，其经配置以：将高阶立体环绕声系数分解成主要声音分量及对应空间分量，所述对应空间分量表示主要声音分量的方向、形状及宽度，且定义于球谐域中；在符合中间压缩格式的位流中指定表示音场的环境分量的高阶立体环绕声系数的子集；且在位流中且无关于对用以在位流中指定空间分量的环境声道的最小数目及元素的数目的确定指定空间分量的所有元素。

在另一实例中，一种压缩表示音场的高阶立体环绕声的音频数据的方法包括：将表示音场的高阶立体环绕声系数分解成主要声音分量及对应空间分量，所述对应空间分量表示主要声音分量的方向、形状及宽度，且定义于球谐域中；在符合中间压缩格式的位流中指定表示音场的环境分量的高阶立体环绕声系数的子集；且在位流中且无关于对用以在位流中指定空间分量的环境声道的最小数目及元素的数目的确定指定空间分量的所有元素。

在另一实例中，一种非暂时性计算机可读存储媒体上存储有指令，所述指令在执行时使得一或多个处理器进行以下操作：将表示音场的高阶立体环绕声系数分解成主要声音分量及对应空间分量，所述对应空间分量表示主要声音分量的方向、形状及宽度，且定义于球谐域中；在符合中间压缩格式的位流中指定表示音场的环境分量的高阶立体环绕声系数的子集；且在位流中且无关于对用以在位流中指定空间分量的环境声道的最小数目及元素的数目的确定指定空间分量的所有元素。

在另一实例中，一种经配置以压缩表示音场的高阶立体环绕声的音频数据的装置包括：用于将表示音场的高阶立体环绕声系数分解成主要声音分量及对应空间分量的装置，所述对应空间分量表示主要声音分量的方向、形状及宽度，且定义于球谐域中；用于在符合中间压缩格式的位流中指定表示音场的环境分量的高阶立体环绕声系数的子集的装置；及用于在位流中且无关于对用以在位流中指定空间分量的环境声道的最小数目及元素的数目的确定指定空间分量的所有元素的装置。

在另一实例中，一种经配置以压缩表示音场的高阶立体环绕声的音频数据的装置包括：存储器，其经配置以存储高阶立体环绕声的音频数据的高阶立体环绕声系数；及一或多个处理器，其经配置以：将高阶立体环绕声系数分解成主要声音分量及对应空间分量，所述对应空间分量表示主要声音分量的方向、形状及宽度，且定义于球谐域中；在符合中间压缩格式的位流中指定主要音频信号及空间分量；且在位流中且无关于对用以在位流中指定空间分量的环境声道的最小数目及元素的数目的确定指定表示音场的环境分量的高阶立体环绕声系数的固定子集。

在另一实例中，一种压缩表示音场的高阶立体环绕声的音频数据的方法包括：将表示音场的高阶立体环绕声系数分解成主要声音分量及对应空间分量，所述对应空间分量表示主要声音分量的方向、形状及宽度，且定义于球谐域中；在符合中间压缩格式的位流中指定主要音频信号；且在位流中且无关于对用以在位流中指定空间分量的环境声道的最小数目及元素的数目的确定指定表示音场的环境分量的高阶立体环绕声系数的固定子集。

在另一实例中，一种非暂时性计算机可读存储媒体上存储有指令，所述指令在执行时使得一或多个处理器进行以下操作：将表示音场的高阶立体环绕声系数分解成主要声音分量及对应空间分量，所述对应空间分量表示主要声音分量的方向、形状及宽度，且定义于球谐域中；在符合中间压缩格式的位流中指定主要音频信号；且在位流中且无关于对用以在位流中指定空间分量的环境声道的最小数目及元素的数目的确定指定表示音场的环境分量的高阶立体环绕声系数的固定子集。

在另一实例中，一种经配置以压缩表示音场的高阶立体环绕声的音频数据的装置包括：用于将表示音场的高阶立体环绕声系数分解成主要声音分量及对应空间分量的装置，所述对应空间分量表示主要声音分量的方向、形状及宽度，且定义于球谐域中；用于在符合中间压缩格式的位流中指定主要音频信号的装置；及用于在位流中且无关于对用以在位流中指定空间分量的环境声道的最小数目及元素的数目的确定指定表示音场的环境分量的高阶立体环绕声系数的固定子集的装置。

在随附图式及以下描述中阐述所述技术的一或多个方面的细节。这些技术的其它特征、目标及优点将从所述描述及所述图式以及权利要求书显而易见。

附图说明

图1为说明具有各种阶数及子阶数的球谐基底函数的图。

图2为说明可执行本公开中所描述的技术的各种方面的系统的图。

图3A到3D为说明图2的实例中展示的系统的不同实例的图。

图4为说明图2的实例中展示的系统的另一实例的框图。

图5A及5B为更详细地说明图2的系统的实例的框图。

图6为说明图2到5B的实例中展示的音质音频编码装置的实例的框图。

图7A到7C为说明图2中展示的夹层编码器及发射编码器的实例操作的图。

图8为说明处于从根据本公开中所描述的技术的各种方面构造的位流15制定位流21的图2的发射编码器的图。

图9为说明经配置以执行本公开中所描述的技术的各种方面的不同系统的框图。

图10到12为说明图2到5B的实例中展示的夹层编码器的实例操作的流程图。

图13为说明来从不同译码系统的结果的图，所述不同译码系统包括相对于彼此执行本公开中阐述的技术的各种方面的一者。

具体实施方式

在市场中存在各种基于“环绕声”声道的格式。举例来说，其范围从5.1家庭影院系统(其在使起居室享有立体声方面已获得最大成功)到由日本广播协会或日本广播公司(NHK)所开发的22.2系统。内容创建者(例如，好莱坞工作室)将希望一次性产生影片的音轨，而不花费精力来针对每一扬声器配置对其进行重混。运动图片专家组(MPEG)已发布一标准，所述标准允许音场使用元素(例如，高阶立体环绕声HOA系数)的阶层集合来表示，对于大多数扬声器配置(包含无论在由各种标准定义的位置中或在不均匀位置中的5.1及22.2配置)，所述元素的集合可显现到扬声器馈入。

MPEG发布如MPEG-H 3D音频标准(由ISO/IEC JTC 1/SC 29阐述，具有文件识别符ISO/IEC DIS 23008-3，正式地标题为“信息技术——异构环境中的高效率译码及媒体递送——第3部分：3D音频(Information technology-High efficiency coding and mediadelivery in heterogeneous environments-Part 3:3D audio)”，且日期为2014年7月25日)的标准。MPEG还发布3D音频标准的第二版本(由ISO/IEC JTC 1/SC 29阐述，具有文件识别符ISO/IEC 23008-3:201x(E)，标题为“信息技术——异构环境中的高效率译码及媒体递送——第3部分：3D音频”，且日期为2016年10月12日)。在本公开中对“3D音频标准”的参考可指上述标准中的一者或两者。

如上文所提及，元素的阶层集合的一个实例为球谐系数(SHC)的集合。以下表达式表明使用SHC对音场的描述或表示：

表达式展示在时间t处，音场的任一点处的压力p_i可由SHC，唯一地表示。此处，c为声音的速度(～343m/s)，为参考点(或观测点)，j_n(·)为阶数n的球贝塞尔函数，且为阶数n及子阶数m的球谐基底函数(其还可被称作球基底函数)。可认识到，方括弧中的项为信号的频域表示(即，)，其可通过各种时间-频率变换(例如，离散傅立叶变换(DFT)、离散余弦变换(DCT)或小波变换)来近似。阶层组的其它实例包含数组小波变换系数及其它数组多分辨率基底函数系数。

图1为说明从零阶(n＝0)到四阶(n＝4)的球谐基底函数的图。如可见，对于每一阶而言，存在m子阶的扩展，出于易于说明的目的，在图1的实例中展示了所述子阶但未显式地注释。

可由各种麦克风阵列配置物理地获取(例如，记录)SHC或替代地，其可从音场的基于声道或基于对象的描述导出。SHC(其还可被称为高阶立体环绕声HOA系数)表示基于场景的音频，其中SHC可输入到音频编码器以获得可促进更高效发射或存储的经编码SHC。举例来说，可使用涉及(1+4)²个(25，且因此为四阶)系数的四阶表示。

如上文所陈述，可使用麦克风阵列从麦克风记录导出SHC。可如何从麦克风阵列导出SHC的各种实例描述于Poletti,M的“基于球谐函数的三维环绕声系统(Three-Dimensional Surround Sound Systems Based on Spherical Harmonics)”(J.AudioEng.Soc.,第53卷,第11期,2005年11月，第1004-1025页)中。

为了说明可如何从基于对象的描述导出SHC，考虑以下方程式。可将对应于个别音频对象的音场的系数表达为：

其中i为为n阶的球面汉克(Hankel)函数(第二种类)，且为对象的位置。知晓随频率变化的对象源能量g(ω)(例如，使用时间-频率分析技术，例如，对PCM流式传输执行快速傅立叶变换)允许吾人将每一PCM对象及对应位置转换成SHC另外，可展示(由于上式为线性及正交分解)：每一对象的系数为相加性的。以此方式，若干PCM对象可由系数(例如，作为个别对象的系数向量的总和)来表示。基本上，所述系数含有关于音场的信息(作为3D坐标的函数的压力)，且上式表示在观测点附近从个别对象到总音场的表示的变换。下文在基于SHC的音频译码的上下文中描述剩余图。

图2为说明可执行本公开中所描述的技术的各种方面的系统10的图。如图2的实例中所示，系统10包括广播网络12及内容消费者14。尽管在广播网络12及内容消费者14的上下文中描述，但可在其中音场的SHC(其还可被称作HOA系数)或任何其它阶层表示经编码以形成表示音频数据的位流的任何上下文中实施所述技术。此外，广播网络12可表示包括能够实施本公开中所描述的技术的任何形式的计算装置中的一或多者的系统，所述计算装置包含手持机(或蜂窝式电话，包含所谓的“智能型电话”)、平板计算机、膝上型计算机、台式计算机或用以提供若干实例的专用硬件。同样地，内容消费者14可表示能够实施本公开中所描述的技术的任何形式的计算装置，所述计算装置包含用以提供若干实例的手持机(或蜂窝式电话，包含所谓的“智能电话”)、平板计算机、电视、机顶盒、膝上型计算机、游戏系统或控制台，或台式计算机。

广播网络12可表示可通过内容消费者，例如内容消费者14针对消耗产生多声道音频内容及可能地视频内容的任何物理。广播网络12可在事件，例如体育事件处捕捉实时音频数据，同时还将各种其它类型的额外音频数据，例如解说音频数据、广告音频数据、介绍或退场音频数据等插入到实时音频内容中。

内容消费者14表示拥有或可存取音频播放系统的个体，其可指代能够显现高阶立体环绕声的音频数据(其包含高阶音频系数，同样还可被称作球谐系数)以供作为多声道音频内容播放的任何形式的音频播放系统。高阶立体环绕声的音频数据可定义于球谐域中且经显现或以其它方式从球谐域变换到空间域，从而产生多声道音频内容。在图2的实例中，内容消费者14包含音频播放系统16。

广播网络12包含记录或以其它方式获得呈各种格式(包含直接如HOA系数)的实时记录及音频对象的麦克风5。当麦克风阵列5(其还可被称作“麦克风5”)获得直接如HOA系数的实时音频时，麦克风5可包含HOA转码器，例如图2的实例中展示的HOA转码器400。换句话说，尽管示出为与麦克风5分离，但HOA转码器400的分离例项可包含在麦克风5中的每一者内，以便将所捕捉馈入自然地转码成HOA系数11。然而，当并未包含在麦克风5内时，HOA转码器400可将从麦克风5输出的实时馈入转码成HOA系数11。就此而言，HOA转码器400可表示经配置以将麦克风馈入及/或音频对象转码成HOA系数11的单元。广播网络12因此包含HOA转码器400与麦克风5集成、HOA转码器与麦克风5分离，或其某一组合。

广播网络12还可包含空间音频编码装置20、广播网络中心402(其还可被称作“网络操作中心NOC-402”)及音质音频编码装置406。空间音频编码装置20可表示能够关于HOA系数11执行本公开中所描述的夹层压缩技术以获得中间格式化音频数据15(其还可被称作“夹层格式化音频数据15”)的装置。中间格式化音频数据15可表示符合中间音频格式(例如夹层音频格式)的音频数据。因此，夹层压缩技术还可被称作中间压缩技术。

空间音频编码装置20可经配置以通过关于HOA系数11至少部分地执行分解(例如线性分解，包含单一值分解、特征值分解、KLT等)来关于HOA系数11执行此中间压缩(其还可被称作“夹层压缩”)。此外，空间音频编码装置20可执行空间编码方面(不包含音质编码方面)以产生符合上文所提及的MPEG-H 3D音频译码标准的位流。在一些实例中，空间音频编码装置20可执行MPEG-H 3D音频译码标准的基于向量的方面。

空间音频编码装置20可经配置以使用线性可逆变换(LIT)的分解有关应用来编码HOA系数11。线性可逆变换的一个实例被称作“单一值分解”(或“SVD”)，其可表示线性分解的一种形式。在此实例中，空间音频编码装置20可将SVD应用于HOA系数11以确定HOA系数11的经分解版本。HOA系数11的经分解版本可包含主要音频信号及一或多个对应空间分量中的一或多者，所述一或多个对应空间分量描述相关联主要音频信号的方向、形状及宽度(其在MPEG-H 3D音频译码标准中可被称作“V向量”)。空间音频编码装置20可接着分析HOA系数11的经分解版本以识别可促进进行HOA系数11的经分解版本的重新排序的各种参数。

空间音频编码装置20可基于所识别的参数将HOA系数11的经分解版本重新排序，其中如下文进一步详细描述，在给定以下情形的情况下，此重新排序可改进译码效率：变换可将HOA系数跨越HOA系数的帧重新排序(其中一帧通常包含HOA系数11的M个样本且在一些实例中，M经设定为1024)。在将HOA系数11的经分解版本重新排序之后，空间音频编码装置20可选择表示音场的前景(或，换句话说，相异的、主要或突出的)分量的HOA系数11的经分解版本的那些。空间音频编码装置20可指定表示如音频对象的前景分量(其还可被称作“主要声音信号”或“主要声音分量”)及相关联方向信息(其还可被称作空间分量)的HOA系数11的经分解版本。

空间音频编码装置20接着可关于HOA系数11执行音场分析以便至少部分地识别表示音场的一或多个背景(或，换句话说，环境)分量的HOA系数11。空间音频编码装置20可在给定以下情形的情况下关于背景分量执行能量补偿：在一些实例中，背景分量可能仅包含HOA系数11的任何给定样本的一子集(例如，例如对应于零阶及一阶球基底函数的HOA系数11，而非对应于二阶或高阶球基底函数的HOA系数11)。换句话说，当执行降阶时，空间音频编码装置20可扩增(例如，添加能量/减去能量)HOA系数11中的剩余背景HOA系数以补偿由于执行降阶而导致的总体能量的改变。

空间音频编码装置20可关于前景方向信息执行一种形式的内插，且接着关于经内插前景方向信息执行一降阶以产生经降阶的前景方向信息。在一些实例中，空间音频编码装置20可进一步关于经降阶的前景方向信息执行量化，从而输出经译码前景方向信息。在一些情况下，此量化可包括纯量/熵量化。空间音频编码装置20随后可输出夹层格式化音频数据15作为背景分量、前景音频对象，及经量化方向信息。在一些实例中，背景分量及前景音频对象可包括经脉码调制(PCM)输送声道。

空间音频编码装置20随后可将夹层格式化音频数据15发射或以其它方式输出到广播网络中心402。尽管图2的实例中未展示，但夹层格式化音频数据15的进一步处理可执行以适应从空间音频编码装置20到广播网络中心402的发射(例如加密、卫星压缩方案、光纤压缩方案等)。

夹层格式化音频数据15可表示符合所谓的夹层格式的音频数据，其通常为音频数据的轻度压缩(关于经由音质音频编码的应用提供到音频数据的终端用户压缩，例如MPEG环绕、MPEG-AAC、MPEG-USAC或音质编码的其它已知形式)版本。鉴于广播员更喜欢提供低潜时混合、编辑及其它音频及/或视频功能的专用设备，广播员不愿意以这类专用设备的成本来升级所述设备。

为了适应视频及/或音频的增加的位率且提供与可能不适用于对高清晰度视频内容或3D音频内容进行起作用的早期，或换句话说，旧式设备的互操作性，广播员已采用此中间压缩方案以减小文件大小且借此促进传递次数(例如经由网络或在设备之间)且改进处理(尤其对于早期的旧式设备)，所述中间压缩方案通常被称作“夹层压缩”。换句话说，此夹层压缩可提供内容的更轻量版本，其可用于促进编辑次数、减小延迟且潜在地改进整个广播程序。

广播网络中心402可因此表示负责使用中间压缩方案来编辑及另外处理音频及/或视频内容以就潜时而言改进工作流程的系统。在一些实例中，广播网络中心402可包含一批移动装置。在一些实例中，在处理音频数据的上下文中，广播网络中心402可将中间格式化的额外音频数据插入到由夹层格式化音频数据15表示的实时音频内容中。此额外音频数据可包括表示广告音频内容(包含用于电视广告的音频内容)的广告音频数据、表示电视演播室音频内容的电视演播室节目音频数据、表示介绍音频内容的介绍音频数据、表示退场音频内容的退场音频数据、表示紧急音频内容(例如，天气警告、国家紧急情况、地方紧急情况等)的紧急音频数据或可插入到夹层格式化音频数据15中的任何其它类型的音频数据。

在一些实例中，广播网络中心402包含能够处理多达16个音频声道的旧式音频设备。在依赖于HOA系数，例如HOA系数11的3D音频数据的上下文中，HOA系数11可具有多于16个音频声道(例如，3D音场的4阶表示将要求每样本(4+1)²或25个HOA系数，相当于25个音频声道)。旧式广播设备的此限制可使基于3D HOA的音频格式的采用减慢，例如ISO/IEC DIS23008-3:201x(E)文件(标题为“信息技术——异构环境中的高效率译码及媒体递送——第3部分：3D音频”，通过ISO/IEC JTC 1/SC 29/WG 11，日期为2016年10月12日，(其在本文中可被称作“3D音频译码标准”))中所阐述。

因此，夹层压缩允许以克服旧式音频设备的基于声道的限制的方式从HOA系数11获得夹层格式化音频数据15。也就是说，空间音频编码装置20可经配置以获得具有16或更少的音频声道(且在一些实例中，鉴于旧式音频设备可允许处理5.1音频内容，其中『.1』表示第六音频声道，可能地少到6个音频声道)的夹层音频数据15。

广播网络中心402可输出经更新夹层格式化音频数据17。经更新夹层格式化音频数据17可包含夹层格式化音频数据15及通过广播网络中心404插入到夹层格式化音频数据15中的任何额外音频数据。在分送之前，广播网络12可进一步压缩经更新夹层格式化音频数据17。如图2的实例中所示，音质音频编码装置406可关于经更新夹层格式化音频数据17执行音质音频编码(例如，上文所描述的实例中的任一者)以产生位流21。广播网络12随后可经由发射声道将位流21发射到内容消费者14。

在一些实例中，音质音频编码装置406可表示音质音频译码器的多个例项，其中的每一者用于编码经更新夹层格式化音频数据17中的每一者的不同音频对象或HOA声道。在一些情况下，此音质音频编码装置406可表示高级音频译码(AAC)编码单元的一或多个例项。通常，音质音频译码器单元40可针对经更新夹层格式化音频数据17的声道中的每一者调用AAC编码单元的例项。

关于可如何使用AAC编码单元对背景球谐系数进行编码的更多信息可见于EricHellerud等人的标题为“以AAC编码高阶立体环绕声(Encoding Higher Order Ambisonicswith AAC)”的大会论文中，其在第124次大会(2008年5月17日到20日)上提交且可在下处获得：http://ro.uow.edu.au/cgi/viewcontent.cgi？article＝8025&context＝engpapers。在一些情况下，音质音频编码装置406可使用比用于编码经更新夹层格式化音频数据17的其它声道(例如，前景声道)更低的目标位率来对经更新夹层格式化音频数据17的各种声道(例如，背景声道)进行音频编码。

虽然在图2中展示为直接发射到内容消费者14，但广播网络12可将位流21输出到定位于广播网络12与内容消费者14之间的中间装置。所述中间装置可存储位流21以供稍后递送到可请求此位流的内容消费者14。所述中间装置可包括文件服务器、网页服务器、台式计算机、膝上型计算机、平板计算机、移动电话、智能型手机，或能够存储位流21以供音频解码器稍后检索的任何其它装置。所述中间装置可驻留于能够将位流21(且可能结合发射对应视频数据位流)流式传输发射到请求位流21的订户(例如，内容消费者14)的内容递送网络中。

替代地，广播网路12可将位流21储存至储存媒体，例如紧密光盘、数字视频光盘、高清晰度视频光盘或其它存储媒体，其中的大多数能够由计算机读取且因此可称为计算机可读存储媒体或非暂时性计算机可读存储媒体。在此上下文中，发射声道可涉及借以发射存储到这些媒体的内容的那些声道(且可包含零售商店及其它基于商店的递送机构)。在任何情况下，本公开的技术因此就此来说不应限于图2的实例。

如图2的实例中进一步展示，内容消费者14包含音频播放系统16。音频播放系统16可表示能够播放多声道音频数据的任何音频播放系统。音频播放系统16可包含多个不同音频显现器22。音频显现器22可分别提供不同的显现形式，其中不同显现形式可包含执行向量基振幅平移(vector-base amplitude panning，VBAP)的各种方式中的一或多者及/或执行音场合成的各种方式中的一或多者。

音频播放系统16可进一步包含音频解码装置24。音频解码装置24可表示经配置以从位流21解码HOA系数11'的装置，其中HOA系数11'可类似于HOA系数11但归因于经由发射声道的有损操作(例如，量化)及/或发射而不同。

也就是说，音频解码装置24可将位流21中所指定的前景方向信息反量化，同时还关于位流21中所指定的前景音频对象及表示背景分量的经编码HOA系数执行音质解码。音频解码装置24可进一步关于经解码前景方向信息执行内插，且接着基于经解码前景音频对象及经内插前景方向信息确定表示前景分量的HOA系数。音频解码装置24可接着基于表示前景分量的所确定的HOA系数及表示背景分量的经解码HOA系数确定HOA系数11'。

音频播放系统16可在解码位流21以获得HOA系数11'之后显现HOA系数11'以输出扩音器馈入25。音频播放系统15可将扩音器馈入25输出到扩音器3中的一或多者。扩音器馈入25可驱动一或多个扩音器3。

为了选择适当显现器或在一些情况下产生适当显现器，音频播放系统16可获得指示扩音器3的数目及/或扩音器3的空间几何结构的扩音器信息13。在一些情况下，音频播放系统16可使用参考麦克风来获得扩音器信息13且以动态地确定扩音器信息13的方式驱动扩音器3。在其它情况下或结合扩音器信息13的动态确定，音频播放系统16可促使用户与音频播放系统16介接且输入扩音器信息13。

音频播放系统16可基于扩音器信息13选择音频显现器22中的一者。在一些情况下，在音频显现器22中无一者处于到扩音器信息13中所指定的扩音器几何结构的某一阈值类似性度量(就扩音器几何结构而言)内时，音频播放系统16可基于扩音器信息13产生音频显现器22中的一者。音频播放系统16可在一些情况下基于扩音器信息13产生音频显现器22中的一者，而不首先尝试选择音频显现器22中的现有一者。

虽然关于扩音器馈入25描述，但音频播放系统16可从扩音器馈入25或直接从HOA系数11'显现头戴式耳机馈入，从而输出头戴式耳机馈入到头戴式耳机扬声器。头戴式耳机馈入可表示双耳音频扬声器馈入，音频播放系统15使用双耳音频显现器显现双耳音频扬声器馈入。

如上所指出，空间音频编码装置20可分析音场以选择多个HOA系数(例如对应于阶数为一或更小的球基底函数的那些)来表示音场的环境分量。空间音频编码装置20还可基于此或另一分析选择多个主要音频信号及对应空间分量来表示音场的前景分量的各种方面，从而丢弃任何剩余主要音频信号及对应空间分量。

为了减少带宽消耗，空间音频编码装置20可去除冗余地表达于以下两者中的信息：用于表示音场的背景(或换句话说，环境)分量的HOA系数的选定子集(其中这类HOA系数还可被称作“环境HOA系数”)；及主要音频信号及对应空间分量的选定组合。举例来说，HOA系数的选定子集可包含对应于具有一阶及零阶的球基底函数的HOA系数。还定义于球谐域中的选定空间分量还可包含对应于具有一阶及零阶的球基底函数的元素。因此，空间音频编码装置20可去除空间分量的与具有一阶及零阶的球基底函数相关联的元素。关于空间分量的元素(其还可被称作“主要向量”)的去除的更多信息可发现于MPEG-H 3D音频译码标准中，在章节12.4.1.11.2处，在第380页上标题为(“VVecLength及VVecCoeffId(VVecLengthand VvecCoeffId)”)。

作为另一实例，空间音频编码装置20可去除HOA系数的选定子集的提供主要音频信号及对应空间分量的组合的信息重复(或换句话说，与所述组合相比的冗余)的那些元素。也就是说，主要音频信号及对应空间分量可包含与用于表示音场的背景分量的HOA系数的选定子集中的一或多者相同或类似的信息。因此，空间音频编码装置20可从夹层格式化音频数据15去除HOA系数11的选定子集中的一或多者。关于从HOA系数11的选定子集去除HOA系数的更多信息可发现于3D音频译码标准中，在章节12.4.2.4.4.2处(例如，最后一段)，第351页上的表196。

冗余信息的各种减少可改进整个压缩效率，但当此类减少在不存取特定信息的情况下执行时可导致保真度损失。在图2的上下文中，空间音频编码装置20(其还可被称作“夹层编码器20”或“ME 20”)可去除冗余信息，所述冗余信息在音质音频编码装置406(其还可被称作“发射编码器20”或“EE 20”)恰当地编码HOA系数11以供发射(或换句话说，发射)到内容消费者14的某些情况下将为必要的。

为了说明，考虑发射编码器406可基于目标位率转码经更新夹层格式化音频数据17，夹层编码器20并未存取所述经更新夹层格式化音频数据。为获得目标位率，发射编码器406可转码经更新夹层格式化音频数据17，且减少主要音频信号的数目，作为一个实例，从四个主要音频信号减少到两个主要音频信号。当通过发射编码器406去除的主要音频信号中的一者提供允许去除环境HOA系数中的一或多者的信息时，通过发射编码器406的主要音频信号的去除可导致环境HOA系数的不可回收损失，其最多潜在地降低音场的环境分量的再生的质量，且最坏防止音场的重建及播放，这是因为位流21无法被解码(因为并不符合3D音频译码标准)。

此外，同样为获得目标位率，发射编码器406可减少环境HOA系数的数目，作为一个实例，从对应于通过经更新夹层格式化音频数据17提供的阶数为二、一及零的球基底函数的九个环境HOA系数减少到对应于阶数为一及零的球基底函数的四个环境HOA系数。转码经更新夹层格式化音频数据17以产生仅具有四个环境HOA系数的位流21结合通过夹层编码器20去除对应于阶数为二、一及零的球基底函数的空间分量的九个元素导致对应主要音频信号在空间特性的不可恢复损失。

也就是说，夹层编码器20依赖于九个环境HOA系数以提供音场的主要分量的低阶表示，使用主要音频信号及对应空间分量提供音场的主要分量的高阶表示。当发射编码器406去除环境HOA系数中的一或多者(也就是说，对应于在以上实例中阶数为二的球基底函数的五个环境HOA系数)时，发射编码器406无法在空间分量的经去除元素中添回，所述经去除元素先前被视为冗余但现在为填充经去除环境HOA系数的信息所必需的。因此，通过发射编码器406进行的一或多个环境HOA系数的去除可导致空间分量的元素的不可恢复损失，其最多潜在地降低音场的前景分量的再生的质量，且最坏防止音场的重建及播放，这是因为位流21无法被解码(因为并不符合3D音频译码标准)。

根据本公开中所描述的技术，夹层编码器20可将冗余信息包含于夹层格式化音频数据15中而非去除所述冗余信息，从而允许发射编码器406成功地以上文所描述的方式转码经更新夹层格式化音频数据17。夹层编码器20可停用或另外并不实施与冗余信息的去除相关的各种译码模式且借此包含所有此类冗余信息。因此，夹层编码器20可形成可考虑为夹层格式化音频数据15的可扩展版本(其可被称为“可扩展夹层格式化音频数据15”)的音频数据。

可扩展夹层格式化音频数据15可为“可扩展”意为任何层可经提取且形成用于形成位流21的基础。一个层例如可包含环境HOA系数及/或主要音频信号/对应空间分量的任何组合。通过停用结果为形成可扩展夹层音频数据15的冗余信息的去除，发射编码器406可选择层的任何组合且形成可获得目标位率同时还符合3D音频译码标准的位流21。

在操作中，夹层编码器20可将表示音场的HOA系数11(例如，通过将上文所描述的线性可逆变换中的一者应用于其)分解成主要声音分量(例如，下文所描述的音频对象33)及对应空间分量(例如，下文所描述的V向量35)。如上所指出，对应空间分量表示主要声音分量的方向、形状及宽度，同时还定义于球谐域中。

夹层编码器20可在符合中间压缩格式的位流15(其还可被称作“可扩展夹层格式化音频数据15”)中指定表示音场的环境分量的高阶立体环绕声系数11的子集(其还可如上文所描述被称为“环境HOA系数”)。夹层编码器20还可在位流15中指定空间分量的所有元素，尽管空间分量的元素中的至少一者包含为关于通过环境HOA系数提供的信息的冗余的信息。

结合先前操作或作为先前操作的替代例，夹层编码器20还可在执行上文所提及的分解之后在符合中间压缩格式的位流15中指定主要音频信号。夹层编码器20可接着在位流15中指定环境高阶立体环绕声系数，尽管所述环境高阶立体环绕声系数中的至少一者包含为关于通过主要音频信号及对应空间分量提供的信息的冗余的信息。

夹层编码器20的变化可通过比较以下两个表而反映，其中表1展示先前操作且表2展示与本公开中所描述的技术的方面一致的操作。

表1-先前操作

在表1中，列反映针对3D音频译码标准中所阐述的MinNumOfCoeffsForAmbHOA语法元素所确定的值，而行反映针对3D音频译码标准中所阐述的CodedVVecLength语法元素所确定的值。MinNumOFCoeffsForAmbHOA语法元素指示环境HOA系数的最小数目。CodedVVecLength语法元素指示用于合成基于向量的信号的所发射数据向量的长度。

如表1中所示，各种组合导致通过从HOA系数11减去用于形成音场的主要或前景分量(H_FG)的HOA系数而确定的环境HOA系数(H_BG)达到给定阶数(所述环境HOA系数在表1中示出为“H”)。此外，如表1中所示，各种组合导致空间分量(在表1中示出为“V”)的元素(例如，那些经索引化为1到9或1到4)的去除。

表2-经更新操作

在表2中，列反映针对3D音频译码标准中所阐述的MinNumOfCoeffsForAmbHOA语法元素所确定的值，而行反映针对3D音频译码标准中所阐述的CodedVVecLength语法元素所确定的值。无关于针对MinNumOfCoeffsForAmbHOA及CodedVVecLength语法元素所确定的值，夹层编码器20可将环境HOA系数确定为HOA系数11的与具有最小阶数的球基底函数相关联的子集且在位流15中较少被指定。在某一实例中，最小阶数为二，产生九个环境HOA系数的固定数目。在这些及其它实例中，最小阶数为一，产生四个环境HOA系数的固定数目。

无关于针对MinNumOfCoeffsForAmbHOA及CodedVVecLength语法元素所确定的值，夹层编码器20还可确定空间分量的所有元素将在位流15中被指定。在两种情况下，夹层编码器20可如上文所描述指定冗余信息，产生可扩展夹层格式化音频数据15，所述可扩展夹层格式化音频数据允许下游编码器，即图2的实例中的发射编码器406，产生符合3D音频译码标准的位流21。

如上文表1及表2进一步所展示，无关于针对MinNumOfCoeffsForAmbHOA及CodedVVecLength语法元素所确定的值，夹层编码器20可停用施加于环境HOA系数的解相关(如“No decorrMethod”所示)。夹层编码器20可对环境HOA系数应用解相关，以致力于解相关环境HOA系数的不同系数，以便改进音质音频编码(其中不同系数彼此按时间预测，且借此就可达成的压缩程度而言通过解相关受益)。关于环境HOA系数的解相关的更多信息可发现于2015年7月1日提交的标题为“减少高阶立体环绕声(HOA)背景声道之间的相关性(REDUCING CORRELATION BETWEEN HIGHER ORDER AMBISONIC(HOA)BACKGROUNDCHANNELS)”的美国专利公开案第2016/007132号中。因此，夹层编码器20可在位流15中且在不对环境HOA系数应用解相关的情况下指定位流15的专用环境声道中的环境HOA系数中的每一者。

夹层编码器20可在符合中间压缩格式的位流15中指定表示音场的背景分量的高阶立体环绕声系数11的子集(例如，环境HOA系数47)，其中不同环境HOA系数中的每一者作为位流15中的不同声道。夹层编码器20可选择固定数目的HOA系数11作为环境HOA系数。当HOA系数11中的九个经选择为环境HOA系数时，夹层编码器20可在位流15的分离声道中指定九个环境HOA系数中的每一者(产生指定九个环境HOA系数的全部九个声道)。

夹层编码器20还可在位流15中指定具有位流15的单侧信息声道中的所有空间分量57的经译码空间分量的所有元素。夹层编码器20可在位流15的分离前景声道中进一步指定主要音频信号中的每一者。

夹层编码器20可在位流的每一存取单元(其中存取单元可表示音频数据的帧，作为一个实例，其可包含1024个音频样本)中指定额外参数。额外参数可包含：HOA阶数(作为一个实例，其可使用6个位指定)；isScreenRelative语法元素，其指示对象位置是否为屏幕相关的；usesNFC语法元素，指示HOA近场补偿(near field compensation；NFC)是否已应用于经译码信号；NFCReferenceDistance语法元素，其指示以米计的半径已用于HOA NFC(其可解译为在小端模式(little-endian)下的呈IEEE 754格式的浮点)；定序语法元素，指示HOA系数是以立体环绕声声道编号(Ambisonic Channel Numbering；ACN)次序还是单索引指定(Single Index Designation；SID)次序定序；及正规化语法元素，其指示是应用全三维正规化(three-dimensional normalization；N3D)还是半三维正规化(semi-three-dimensional normalization；SN3D)。

额外参数还可包含：例如值设定成零的minNumOfCoeffsForAmbHOA语法元素，或例如设定成负一的MinAmbHoaOrder语法元素、值设定成一(以指示HOA信号是使用单层提供)的singleLayer语法元素、值设定成512的CodedSpatialInterpolationTime语法元素(指示基于向量的方向信号的时空内插的时间——例如上文所提及的V向量——如3D音频译码标准的表209中所定义)、值设定成零的SpatialInterpolationMethod语法元素(其指示应用于基于向量的方向信号的空间内插的类型)、值设定成一的codedVVecLength语法元素(指示空间分量的所有元素被指定)。此外，额外参数可包含：值设定成二的maxGainCorrAmpExp语法元素、值设定成0、1或2的HOAFrameLengthIndicator语法元素(当outputFrameLength＝1024时指示帧长度为1024个样本)、值设定成三的maxHOAOrderToBeTransmitted语法元素(其中此语法元素指示待发射的额外环境HOA系数的最大HOA阶数)值设定成八的NumVvecIndicies语法元素，及值设定成一的decorrMethod语法元素(指示未应用解相关)。

夹层编码器20还可在位流15中指定：值设定成一的hoaIndependencyFlag语法元素(指示当前帧为可在未存取按译码次序的前一帧的情况下经解码的独立帧)、值设定成五的nbitsQ语法元素(指示空间分量经均一8位纯量量化)、主要声音分量语法元素的数目设定成值四(指示四个主要声音分量指定于位流15中)，及环境HOA系数语法元素的数目设定成值九(指示包含于位流15中的环境HOA系数的数目为九)。

以此方式，夹层编码器20可以使得发射编码器406可成功地转码可扩展夹层格式化音频数据15以产生符合3D音频译码标准的位流21的方式指定可扩展夹层格式化音频数据15。

图5A及5B为更详细地说明图2的系统10的实例的框图。如图5A的实例中所示，系统800A为系统10的实例，其中系统800A包含远程卡车600、网络操作中心402、本地分支台602及内容消费者14。远程卡车600包含空间音频编码装置20(在图5A的实例中示出为“SAE装置20”)及比重编码器装置604(在图5A的实例中示出为“CE装置604”)。

SAE装置20关于上文关于图2的实例所描述的空间音频编码装置20以上文所描述的方式操作。如图5A的实例中所示，SAE装置20接收64个HOA系数11且产生中间格式化位流15，所述中间格式化位流包含16个声道——15个声道关于主要音频信号及环境HOA系数，且1个声道关于限定对应于主要音频信号的空间分量的旁频带信息及其它旁频带信息当中的自适应增益控制(adaptive gain control；AGC)信息。

CE装置604关于中间格式化位流15及视频数据603操作以产生混合媒体位流605。CE装置604可关于中间格式化音频数据15及视频数据603(在检索HOA系数11的同时被检索)执行轻量压缩。CE装置604可对经压缩中间格式化音频位流15及经压缩视频数据603的帧进行多工以产生混合媒体位流605。CE装置604可将混合媒体位流605发射到NOC 402以供如上文所描述的进一步处理。

本地分支台602可表示本地广播分支台，其本地广播由混合媒体位流605表示的内容。本地分支台602可包含比重解码器装置606(在图5A的实例中示出为“CD装置606”)及音质音频编码装置406(在图5A的实例中示出为“PAE装置406”)。CD装置606可以与CE装置604的操作互逆的方式操作。因此，CD装置606可对中间格式化音频位流15及视频数据603的压缩版本进行解多工，且解压缩中间格式化音频位流15及视频数据603的压缩版本两者以恢复中间格式化位流15及视频数据603。PAE装置406可以上文关于图2中展示的音质音频编码器装置406所描述的方式操作以输出位流21。PAE装置406在广播系统的上下文中可被称作“发射编码器406”。

发射编码器406可转码位流15，取决于发射编码器406是否利用音频帧之间的预测更新hoaIndependencyFlag语法元素，同时还潜在地改变主要声音分量语法元素的数目的值及环境HOA系数语法元素的数目的值。发射编码器406可改变hoaIndependentFlag语法元素、主要声音分量语法元素的数目及环境HOA系数语法元素的数目以达成目标位率。

尽管图5A的实例中未展示，但本地分支台602可包含用以压缩视频数据603的其它装置。此外，尽管描述为相异装置(例如，SAE装置20、CE装置604、CD装置606、PAE装置406、APB装置16及下文更详细地描述的VPB装置608等)，但各种装置可实施为一或多个装置内的相异单元或硬件。

图5A的实例中展示的内容消费者14包含上文关于图2的实例所描述的音频播放装置16(在图5A的实例中示出为“APB装置16”)及视频播放(video playback；VPB)装置608。APB装置16可如上文关于图2所描述的操作以产生输出到扬声器3(其可指代集成到头戴式耳机、耳塞等中的扩音器或扬声器)的多声道音频数据25。VPB装置608可表示经配置以播放视频数据603的装置，且可包含视频解码器、帧缓冲器、显示器及经配置以播放视频数据603的其它组件。

除包含经配置以关于位流15的旁频带信息15B执行调制的添加装置610(其中其它15个声道表示为“声道15A”或“输送声道15A”)的远程卡车600以外，图5B的实例中展示的系统800B类似于图5B的系统800A。额外装置610在图5B的实例中展示为“调制装置(moddevice)610”。调制装置610可执行旁频带信息610的调制以潜在地减少对旁频带信息的限幅且借此减少信号损耗。

图3A到3D为说明可经配置以执行本公开中所描述的技术的各种方面的系统的不同实例的框图。除了用麦克风阵列408替换系统10的麦克风阵列5以外，图3A中展示的系统410A类似于图2的系统10。图3A的实例中展示的麦克风阵列408包含HOA转码器400及空间音频编码装置20。因此，麦克风阵列408产生经空间压缩HOA音频数据15，经空间压缩HOA音频数据随后根据本公开中所阐述的技术的各种方面使用位率分配而压缩。

除包含麦克风阵列408的汽车460以外，图3B中展示的系统410B类似于图3A中展示的系统410A。因而，可在汽车的上下文中执行本公开中所阐述的技术。

除包含麦克风阵列408的远程地引导及/或自主控制的飞行装置462以外，图3C中展示的系统410C类似于图3A中展示的系统410A。举例来说，飞行装置462可表示四轴飞行器、直升机或任何其它类型的无人驾驶飞机。因而，可在无人驾驶飞机的上下文中执行本公开中所阐述的技术。

除包含麦克风阵列408的机器人装置464以外，图3D中展示的系统410D类似于图3A中展示的系统410A。举例来说，机器人装置464可表示使用人工智能操作的装置或其它类型的机器人。在一些实例中，机器人装置464可表示飞行装置，例如无人驾驶飞机。在其它实例中，机器人装置464可表示其它类型的装置，包含不必飞行的那些装置。因而，可在机器人的上下文中执行本公开中所阐述的技术。

图4为说明可经配置以执行本公开中所描述的技术的各种方面的系统的另一实例的框图。除包含额外HOA混频器450的广播网络12以外，图4中展示的系统类似于图2的系统10。因此，图4中展示的系统表示为系统10'，且图4的广播网络表示为广播网络12'。HOA转码器400可将实时馈入HOA系数作为HOA系数11A输出到HOA混频器450。HOA混频器表示经配置以混合HOA音频数据的装置或单元。HOA混频器450可接收其它HOA音频数据11B(其可表示任何其它类型的音频数据，包含通过点式麦克风或非3D麦克风检索且转换到球谐域的音频数据，在HOA域中指定的特殊效果等)，且混合此HOA音频数据11B与HOA音频数据11A以获得HOA系数11。

图6为说明图2到5B的实例中展示的音质音频编码装置406的实例的框图。如图6的实例中所示，音质音频编码装置406可包含空间音频编码单元700、音质音频编码单元702及包化器单元704。

空间音频编码单元700可表示经配置以关于中间格式化音频数据15执行另外的空间音频编码的单元。空间音频编码单元700可包含提取单元706、解调单元708及选择单元710。

提取单元706可表示经配置以从中间格式化位流15提取输送声道15A及经调制旁频带信息15C的单元。提取单元706可将输送声道15A输出到选择单元710，且将经调制旁频带信息15C输出到解调单元708。

解调单元708可表示经配置以解调经调制旁频带信息15C从而恢复原始旁频带信息15B的单元。解调单元708可以与上文关于图5B的实例中展示的系统800B所描述的调制装置610的操作互逆的方式操作。当并未关于旁频带信息15B执行调制时，提取单元706可直接从中间格式化位流15提取旁频带信息15B且将旁频带信息15B直接输出到选择单元710(或解调单元708可在不执行解调的情况下将旁频带信息15B传递到选择单元710)。

选择单元710可表示经配置以基于配置信息709选择输送声道15A及旁频带信息15B的子集的单元。配置信息709可包含目标位率及上文所描述的独立性旗标(其可通过hoaIndependencyFlag语法元素表示)。作为一个实例，选择单元710可从九个环境HOA系数选择四个环境HOA系数、从六个主要音频信号选择四个主要音频信号，及从对应于六个主要音频信号的六个总空间分量选择对应于四个选定主要音频信号的四个空间分量。

选择单元710可将选定环境HOA系数及主要音频信号随着输送声道701A输出到PAE单元702。选择单元710可将选定空间分量作为空间分量703输出到包化器单元704。所述技术使得选择单元710能够选择输送声道15A及旁频带信息15B的各种组合，作为一个实例，所述组合适合于借助于以上文所描述的分层方式提供输送声道15A及旁频带信息15B的空间音频编码装置20获得通过配置信息709阐述的目标位率及独立性。

PAE单元702可表示经配置以关于输送声道701A执行音质音频编码以产生经编码输送声道701B的单元。PAE单元702可将经编码输送声道701B输出到包化器单元704。包化器单元704可表示经配置以基于经编码输送声道701B及旁频带信息703产生位流21作为用于递送到内容消费者14的一系列包的单元。

图7A到7C为说明图2中展示的夹层编码器及发射编码器的实例操作的图。首先参看图7A，夹层编码器20A(其中夹层编码器20A为图2到5B中展示的夹层编码器20的一个实例)将从适应增益控制应用于FG及H(在图7A中展示为“AGC”)以产生四个主要声音分量810(在图7A的实例中表示为FG#1到FG#4)及九个环境HOA系数812(在图7A的实例中表示为BG#1到BG#9)。在20A中，codedVVecLength＝0及minNumberOfAmbiChannels(或MinNumOfCoeffsForAmbHOA)＝0。关于codedVVecLength及minNumberOfAmbiChannels的更多信息可于上文所提及的MPEG-H3D音频译码标准中找到。

然而，夹层编码器20A发送所有环境HOA系数，包含将信息冗余提供到由经由旁侧信息(在图7A的实例中展示为“旁侧信息(side info)”)发送的四个主要声音分量及对应空间分量814的组合提供的信息的那些。如上文所描述，夹层编码器20A在单侧信息声道中指定所有空间分量814，同时在分离专用主要声道中指定四个主要声音分量810中的每一者且在分离专用环境声道中指定九个环境HOA系数812中的每一者。

发射编码器406A(其中发射编码器406A为图2的实例中展示的发射编码器406A的一个实例)可接收四个主要声音分量810、九个环境HOA系数812及空间分量814。在406A中，codedVVecLength＝0且minNumberOfAmbiChannels＝4。发射编码器406A可将反向自适应增益控制应用于四个主要声音分量810及九个环境HOA系数812。发射编码器406A随后可确定参数以基于目标位率816转码包含四个主要声音分量810、九个环境HOA系数812及空间分量814的位流15。

当转码位流15时，发射编码器406A选择四个主要声音分量810中的仅两个(也就是说，图7A的实例中的FG#1及FG#2)及九个环境HOA系数812中的仅四个(也就是说，图7A的实例中的BG#1到BG#4)。发射编码器406A可因此改变包含于位流21中的环境HOA系数812的数目，且因此需要存取所有环境HOA系数812(而非仅未借助于主要声音分量810指定的那些)。

发射编码器406A可关于在去除信息之后在指定位流21中剩余的环境HOA系数812之前剩余的环境HOA系数812执行解相关及自适应增益控制，所述信息为通过剩余主要声音分量810(也就是说，图7A的实例中的FG#1及FG#2)指定的信息的冗余。然而，BG的此重新计算可能需要1帧延迟。发射编码器406A还可在位流21中指定剩余主要声音分量810及空间分量814以形成符合3D音频译码标准的位流。

在图7B的实例中，夹层编码器20B类似于夹层编码器20A，这是因为夹层编码器20B与夹层编码器20A类似或相同地操作。在20B中，codedVVecLength＝0且minNumberOfAmbiChannels＝0。然而，为了减少发射位流21中的时延，图7B的发射编码器406B并不执行上文关于发射编码器406A所论述的反向自适应增益控制，且借此避免1帧延迟经由自适应增益控制的应用注入到处理链中。作为此改变的结果，发射编码器406B可能并不修改环境HOA系数812以去除为借助于剩余主要声音分量810及对应空间分量814的组合提供的信息的冗余的信息。然而，发射编码器406B可修改空间分量814以去除与环境HOA系数11相关联的元素。发射编码器406B就以所有其它方式操作而言与发射编码器406A类似或相同。在406B中，codedVVecLength＝1且minNumberOfAmbiChannels＝0。

在图7C的实例中，夹层编码器20C类似于夹层编码器20A，这是因为夹层编码器20C与夹层编码器20A类似或相同地操作。在20C中，codedVVecLength＝1且minNumberOfAmbiChannels＝0。然而，尽管空间分量814的各种元素可提供为通过环境HOA系数812提供的信息的冗余的信息，但夹层编码器20C发射空间分量814的所有元素，包含V向量的每一元素。发射编码器406C类似于发射编码器406A，这是因为发射编码器406C与发射编码器406A类似或相同地操作。在406C中，codedVVecLength＝1且minNumberOfAmbiChannels＝0。除在此实例中，需要空间分量814的所有元素避免发射编码器406C决定应减少环境HOA系数11的数目(也就是说，如图7C的实例中所示从九个减少到四个)的信息中的间隙以外，发射编码器406C可基于目标位率816执行与发射编码器406A相同的位流15的转码。夹层编码器20C已决定并不发送空间分量V向量的所有元素1到9(对应于BG#1到BG#9)，发射编码器406C将不能够恢复空间分量814的元素5到9。因此，发射编码器406C将不能以符合3D音频译码标准的方式构造位流21。

图8为说明处于从根据本公开中所描述的技术的各种方面构造的位流15制定位流21的图2的发射编码器的图。在图8的实例中，发射编码器406可从位流15存取所有信息，使得发射编码器406能够以符合3D音频译码标准的方式构造位流21。

图9为说明经配置以执行本公开中所描述的技术的各种方面的不同系统的框图。在图9的实例中，系统900包含麦克风阵列902及计算装置904及906。如果并不大体上类似，那么麦克风阵列902可类似于上文关于图1的实例所描述的麦克风阵列5。麦克风阵列902包含上文更详细地论述的HOA转码器400及夹层编码器20。

计算装置904及906可能各自表示以下中的一或多者：蜂窝式电话(其可互换地被称作“移动电话”或“移动蜂窝式手持机”，且其中此类蜂窝式电话可包含所谓的“智能电话”)、平板计算机、膝上型计算机、个人数字助理、可穿戴计算头戴式耳机、手表(包含所谓的“智能手表”)、游戏控制台、便携式游戏控制台、台式计算机、工作站、服务器，或任何其它类型的计算装置。出于说明的目的，计算装置904及906中的每一者被称为移动电话904及906。在任何情况下，移动电话904可包含发射编码器406，而移动电话906可包含音频解码装置24。

麦克风阵列902可检索呈麦克风信号908形式的音频数据。麦克风阵列902的HOA转码器400可将麦克风信号908转码成HOA系数11，夹层编码器20(展示为“夹层编码器(mezzencoder)20”)可编码(或换句话说，压缩)所述HOA系数11从而以上文所描述的方式形成位流15。麦克风阵列902可耦合(无线地或经由有线连接)到移动电话904，使得麦克风阵列902可经由发射器及/或接收器(其还可被称作收发器，且缩写为“TX”)910A将位流15传达到移动电话904的发射编码器406。麦克风阵列902可包含收发器910A，所述收发器可表示经配置以将数据发射到另一收发器的硬件或硬件及软件的组合(例如固件)。

发射编码器406可以上文所描述的方式操作以从位流15产生符合3D音频译码标准的位流21。发射编码器406可包含经配置以接收位流15的收发器910B(如果并不大体上类似，那么其类似于收发器910A)。发射编码器406在从所接收的位流15产生位流21时可选择目标位率、hoaIndependencyFlag语法元素，及输送声道的数目。发射编码器406可经由收发器910B将位流21传达(尽管未必直接，意谓此类传达可具有例如服务器的插入装置，或借助于专用非暂时性存储媒体等)到移动电话906。

移动电话906可包含经配置以接收位流21的收发器910C(如果并不大体上类似，那么其类似于收发器910A及910B)，之后移动电话906可调用音频解码装置24以解码位流21以便恢复HOA系数11'。尽管图9中为了易于说明的目的并未展示，但移动电话906可将HOA系数11'显现成扬声器馈入，且基于扬声器馈入经由扬声器(例如，集成到移动电话906中的扩音器、无线耦合到移动电话906的扩音器、通过电线耦合到移动电话906的扩音器，或无线地或经由有线连接耦合到移动电话906的头戴式耳机扬声器)再生音场。为了借助于头戴式耳机扬声器再生音场，移动电话906可从扩音器馈入或直接从HOA系数11'显现双耳音频扬声器馈入。

图10为说明图2到5B的实例中展示的夹层编码器20的实例操作的流程图。如上文更详细描述，编码器20可耦合到麦克风5，所述麦克风检索表示高阶立体环绕声(HOA)系数11的音频数据(1000)。夹层编码器20将HOA系数11分解成主要声音分量(其还可被称作“主要声音信号”)及对应空间分量(1002)。在被指定于符合中间压缩格式的位流15中之前，夹层编码器20停用对表示环境分量的HOA系数11的子集的解相关的应用(1004)。

夹层编码器20可在符合中间压缩格式的位流15(其还可被称作“可扩展夹层格式化音频数据15”)中指定表示音场的环境分量的高阶立体环绕声系数11的子集(其还可如上文所描述被称为“环境HOA系数”)(1006)。夹层编码器20还可在位流15中指定空间分量的所有元素，尽管空间分量的元素中的至少一者包含为关于通过环境HOA系数提供的信息的冗余的信息(1008)。夹层编码器20可输出位流15(1010)。

图11为说明图2到5B的实例中展示的夹层编码器20的不同实例操作的流程图。如上文更详细描述，编码器20可耦合到麦克风5，所述麦克风检索表示高阶立体环绕声(HOA)系数11的音频数据(1100)。夹层编码器20将HOA系数11分解成主要声音分量(其还可被称作“主要声音信号”)及对应空间分量(1102)。夹层编码器20在符合中间压缩格式的位流15中指定主要声音分量(1104)。

在被指定于符合中间压缩格式的位流15中之前，夹层编码器20停用对表示环境分量的HOA系数11的子集的解相关的应用(1106)。夹层编码器20可在符合中间压缩格式的位流15(其还可被称作“可扩展夹层格式化音频数据15”)中指定表示音场的环境分量的高阶立体环绕声系数11的子集(其还可如上文所描述被称为“环境HOA系数”)(1108)。夹层编码器20可输出位流15(1110)。

图12为说明图2到5B的实例中展示的夹层编码器20的实例操作的流程图。如上文更详细描述，编码器20可耦合到麦克风5，所述麦克风检索表示高阶立体环绕声(HOA)系数11的音频数据(1200)。夹层编码器20将HOA系数11分解成主要声音分量(其还可被称作“主要声音信号”)及对应空间分量(1202)。

夹层编码器20可在符合中间压缩格式的位流15(其还可被称作“可扩展夹层格式化音频数据15”)中指定表示音场的环境分量的高阶立体环绕声系数11的子集(其还可如上文所描述被称为“环境HOA系数”)(1204)。夹层编码器20在位流15中且无关于对用以在位流中指定空间分量的环境声道的最小数目及元素的数目的确定指定主要声音分量的所有元素(1206)。夹层编码器20可输出位流15(1208)。

就此而言，三维(3D)(或基于HOA)的音频可被设计成超出基于5.1或甚到7.1声道的环绕声以提供更清晰的声景。换句话说，3D音频可被设计成包封收听者，使得收听者感觉像是声源，例如音乐家或者演员，在与收听者相同的空间中实时表演。3D音频针对内容创建者希望将更大深度及真实性创建成数字声景可存在新选项。

图13为说明来自不同译码系统的结果的图，所述不同译码系统包括相对于彼此执行本公开中阐述的技术的各种方面的一者。曲线图的左侧(也就是说，y轴)为沿曲线图的底部(也就是说，x轴)所列的测试收听项目中的每一者(也就是说，项目1到12及总体项目)的定性分值(越高越好。四个系统与如下标示的四个系统中的每一者相比较：“HR”(表示未经压缩原始信号的隐藏参考)、“锚定物”(作为一个实例，在3.5kHz下，表示HR的经低通滤波版本)、“SysA”(其经配置以执行MPEG-H 3D音频译码标准)，及“SysB”(其经配置以执行本公开中所描述的技术的各种方面，例如上文关于图7C所描述的那些)。经配置用于以上四个译码系统中的每一者的位率为384千位每秒(kbps)。如图13的实例中所示，尽管SysB产生与SysA相比类似的音频质量，但SysB具有为夹层及发射编码器的两个分离编码器。

上文详细描述的3D音频译码可包含可被设计成解决传统音频译码的一些限制的新颖的基于场景的音频HOA表示格式。基于场景的音频可基于球谐基底函数使用被称为高阶立体环绕声(HOA)的信号的极具效率且紧密的集合来表示三维声音场景(或等效地压力场)。

在一些情况下，内容创建可与将如何播放内容紧密相关。基于场景的音频格式(例如定义于上文所提及的MPEG-H 3D音频标准中的那些)可支持声音场景的一个单一表示的内容创建而无关于播放所述内容的系统。以此方式，单一表示可在5.1、7.1、7.4.1、11.1、22.2等播放系统上播放。因为声场的表示可能不与将如何播放内容(例如经由立体声或5.1或7.1系统)相关，基于场景的音频(或换句话说，HOA)表示被设计成在所有播放情境上播放。基于场景的音频表示还可适用于实时检索及记录内容两者，且可经改造以适应用于如上文所描述的音频广播及流式传输的现有基础设施。

尽管描述为音场的阶层式表示，但HOA系数还可表征为基于场景的音频表示。因此，夹层压缩或编码还可被称作基于场景的压缩或编码。

基于场景的音频表示可将数个价值命题提供到广播行业，例如以下各者：

·实时音频场景的潜在地容易检索：从麦克风阵列及/或点式麦克风检索的信号可实时转换为HOA系数。

·潜在地可挠性显现：可挠性显现可允许沉浸式听觉场景的再生而无关于播放位置处及头戴式耳机上的扬声器配置。

·潜在地最小基础设施升级：当前用于基于发射声道的空间音频(例如5.1等)的用于音频广播的现有基础设施可在不进行任何显著变化的情况下施加影响以实现声音场景的HOA表示的发射。

另外，现有技术可关于任何数目个不同上下文及音频生态系统执行且不应受限于上文所描述的上下文或音频生态系统中的任一者。下文描述数个实例上下文，但所述技术不应限于所述实例上下文。一个实例音频生态系统可包含音频内容、影片工作室、音乐工作室、游戏音频工作室、基于声道的音频内容、译码引擎、游戏音频根源档(game audiostem)、游戏音频译码/显现发动机，及递送系统。

影片工作室、音乐工作室及游戏音频工作室可接收音频内容。在一些实例中，音频内容可表示获取的输出。影片工作室可例如通过使用数字音频工作站(DAW)输出基于声道的音频内容(例如，呈2.0、5.1及7.1)。音乐工作室可例如通过使用DAW输出基于声道的音频内容(例如，呈2.0及5.1)。在任一情况下，译码引擎可基于一或多个编解码器(例如，AAC、AC3、杜比真HD(Dolby True HD)、杜比数字加(Dolby Digital Plus)及DTS主音频)接收及编码基于声道的音频内容以供递送系统输出。游戏音频工作室可例如通过使用DAW输出一或多个游戏音频根源档。游戏音频译码/显现引擎可译码音频根源档及或将音频根源档显现成基于声道的音频内容以供由递送系统输出。可执行所述技术的另一实例上下文包括音频生态系统，其可包含广播记录音频对象、专业音频系统、消费型装置上检索、HOA音频格式、装置上显现、消费型音频、TV及附件，及汽车音频系统。

广播记录音频对象、专业音频系统及消费型装置上检索皆可使用HOA音频格式译码其输出。以此方式，可使用HOA音频格式将音频内容译码成单一表示，可使用装置上显现、消费型音频、TV及附件及汽车音频系统播放所述单一表示。换句话说，可在通用音频播放系统(也就是说，与需要例如5.1、7.1等的特定配置的情形形成对比)(例如，音频播放系统16)处播放音频内容的单一表示。

可执行所述技术的上下文的其它实例包含可包含获取元件及播放元件的音频生态系统。获取元件可包含有线及/或无线获取装置(例如，Eigen麦克风)、装置上环绕声检索及移动装置(例如，智能型手机及平板计算机)。在一些实例中，有线及/或无线获取装置可经由有线及/或无线通信声道耦合到移动装置。

根据本公开的一或多种技术，移动装置(例如移动通信手持机)可用于获取音场。举例来说，移动装置可经由有线及/或无线获取装置及/或装置上环绕声检索(例如，集成到移动装置中的多个麦克风)获取音场。移动装置可接着将所获取音场译码成HOA系数以用于由播放元件中的一或多者播放。举例来说，移动装置的用户可记录(获取音场)实况事件(例如，集会、会议、比赛、音乐会等)，且将记录译码成HOA系数。

移动装置还可利用播放元件中的一或多者来播放HOA经译码音场。举例来说，移动装置可解码HOA经译码音场，且将使得播放元件中的一或多者重新创建音场的信号输出到播放元件中的一或多者。作为一个实例，移动装置可利用无线及/或无线通信声道以将信号输出到一或多个扬声器(例如，扬声器阵列、声棒等)。作为另一实例，移动装置可利用衔接解决方案将信号输出到一或多个衔接台及/或一或多个衔接的扬声器(例如，智能汽车及/或家庭中的声音系统)。作为另一实例，移动装置可利用头戴式耳机显现将信号输出到一组头戴式耳机(例如)以创建实际的双耳声音。

在一些实例中，特定移动装置可获取3D音场并且在稍后时间播放相同的3D音场。在一些实例中，移动装置可获取3D音场，将所述3D音场编码成HOA，且将经编码3D音场发射到一或多个其它装置(例如，其它移动装置及/或其它非移动装置)以用于播放。

可执行所述技术的又一上下文包含音频生态系统，其可包含音频内容、游戏工作室、经译码音频内容、显现发动机及递送系统。在一些实例中，游戏工作室可包含可支持HOA信号的编辑的一或多个DAW。例如，一或多个DAW可包含HOA外挂程式及/或可经配置以与一或多个游戏音频系统一起操作(例如，工作)的工具。在一些实例中，游戏工作室可输出支持HOA的新根源档格式。在任何状况下，游戏工作室可将经译码音频内容输出到显现引擎，所述显现引擎可显现音场以供由递送系统播放。

还可关于示范性音频获取装置执行所述技术。举例来说，可关于可包含共同地经配置以记录3D音场的多个麦克风的Eigen麦克风执行所述技术。在一些实例中，Eigen麦克风的所述多个麦克风可位于具有大约4cm的半径的大体上球面球的表面上。在一些实例中，音频编码装置20可集成到Eigen麦克风中以便直接从麦克风输出位流21。

另一示范性音频获取上下文可包含可经配置以接收来自一或多个麦克风(例如，一或多个Eigen麦克风)的信号的制作车。制作车还可包含音频编码器，例如图5的音频编码器20。

在一些情况下，移动装置还可包含共同地经配置以记录3D音场的多个麦克风。换句话说，所述多个麦克风可具有X、Y、Z分集。在一些实例中，移动装置可包含可旋转以关于移动装置的一或多个其它麦克风提供X、Y、Z分集的麦克风。移动装置还可包含音频编码器，例如图5的音频编码器20。

加固型视频检索装置可进一步经配置以记录3D音场。在一些实例中，加固型视频检索装置可附接到参与活动的用户的头盔。举例来说，加固型视频检索装置可在用户泛舟时附接到用户的头盔。以此方式，加固型视频检索装置可检索表示用户周围的动作(例如，水在用户身后的撞击、另一泛舟者在用户前方说话，等等)的3D音场。

还可关于可经配置以记录3D音场的附件增强型移动装置执行所述技术。在一些实例中，移动装置可类似于上文所论述的移动装置，其中添加一或多个附件。举例来说，Eigen麦克风可附接到上文所提及的移动装置以形成附件增强型移动装置。以此方式，与仅使用与附件增强型移动装置成一体式的声音检索组件的情形相比较，附件增强型移动装置可检索3D音场的较高质量版本。

下文进一步论述可执行本公开中所描述的技术的各种方面的实例音频播放装置。根据本公开的一或多个技术，扬声器及/或声棒可布置于任何任意配置中，同时仍播放3D音场。此外，在一些实例中，头戴式耳机播放装置可经由有线或无线连接耦合到解码器24。根据本公开的一或多个技术，可利用音场的单一通用表示来在扬声器、声棒及头戴式耳机播放装置的任何组合上显现音场。

数个不同实例音频播放环境还可适用于执行本公开中所描述的技术的各种方面。举例来说，以下环境可为用于执行本公开中所描述的技术的各种方面的合适环境：5.1扬声器播放环境、2.0(例如，立体声)扬声器播放环境、具有全高前扩音器的9.1扬声器播放环境、22.2扬声器播放环境、16.0扬声器播放环境、汽车扬声器播放环境，及具有耳挂式耳机播放环境的移动装置。

根据本公开的一或多种技术，可利用音场的单一通用表示来在前述播放环境中的任一者上显现音场。另外，本公开的技术使得显现器能够从通用表示显现一音场以供在不同于上文所描述的环境的播放环境上播放。举例来说，如果设计考虑禁止扬声器根据7.1扬声器播放环境的恰当放置(例如，如果不可能放置右环绕扬声器)，那么本公开的技术使得显现器能够通过其它6个扬声器而进行补偿，使得可在6.1扬声器播放环境上达成播放。

此外，用户可在佩戴头戴式耳机时观看运动比赛。根据本公开的一或多种技术，可获取运动比赛的3D音场(例如，可将一或多个Eigen麦克风放置于棒球场中及/或周围)，可获得对应于3D音场的HOA系数且将所述HOA系数发射到解码器，所述解码器可基于HOA系数重建3D音场且将经重建的3D音场输出到显现器，所述显现器可获得关于播放环境的类型(例如，头戴式耳机)的指示，且将经重建的3D音场显现成使得头戴式耳机输出运动比赛的3D音场的表示的信号。

在上文所描述的各种情况中的每一者中，应理解，音频编码装置20可执行方法或另外包括用以执行音频编码装置20经配置以执行的方法的每一步骤的装置。在一些情况下，装置可包括一或多个处理器。在一些情况下，所述一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令配置的专用处理器。换句话说，编码实例集合中的每一者中的技术的各种方面可提供非暂时性计算机可读存储媒体，其具有存储于其上的指令，所述指令在执行时使得一或多个处理器执行音频编码装置20已经配置以执行的方法。

在一或多个实例中，所描述功能可以硬件、软件、固件或其任何组合来实施。如果以软件实施，那么所述功能可作为一或多个指令或程式码而存储于计算机可读媒体上或经由计算机可读媒体发射，且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体，其对应于例如数据存储媒体的有形媒体。数据存储媒体可为可通过一或多个计算机或一或多个处理器存取以检索指令、代码及/或数据结构以用于实施本公开所描述的技术的任何可用媒体。计算机程序产品可包含计算机可读媒体。

同样，在上文所描述的各种情况中的每一者中，应理解，音频解码装置24可执行方法或另外包括用以执行音频解码装置24经配置以执行的方法的每一步骤的装置。在一些情况下，装置可包括一或多个处理器。在一些情况下，所述一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令配置的专用处理器。换句话说，编码实例集合中的每一者中的技术的各种方面可提供非暂时性计算机可读存储媒体，其具有存储于其上的指令，所述指令在执行时使得一或多个处理器执行音频解码装置24已经配置以执行的方法。

借助于实例而非限制，此计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁碟存储装置或其它磁性存储装置、快闪存储器或可用来存储呈指令或数据结构形式的所要代码且可由计算机存取的任何其它媒体。然而，应理解，计算机可读存储媒体及数据存储媒体不包含连接、载波、信号或其它暂时性媒体，而实情为关于非暂时性有形存储媒体。如本文中所使用，磁盘及光盘包含紧密光盘(CD)、激光光盘、光学光盘、数字影音光盘(DVD)、软性磁盘及蓝光光盘，其中磁盘通常以磁性方式再生数据，而光盘通过激光以光学方式再生数据。以上各物的组合还应包含于计算机可读媒体的范围内。

可通过例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路的一或多个处理器来执行指令。因此，如本文中所使用的术语“处理器”可指上述结构或适用于实施本文中所描述的技术的任何其它结构中的任一者。另外，在一些方面中，本文所描述的功能可提供于经配置以供编码及解码或并入于经组合编解码器中的专用硬件及/或软件模块内。而且，技术可完全实施于一或多个电路或逻辑元件中。

本公开的技术可实施于广泛多种装置或设备中，包含无线手持机、集成电路(IC)或IC集合(例如，芯片组)。在本公开中描述各种组件、模块或单元以强调经配置以执行所公开技术的装置的功能性方面，但未必需要通过不同硬件单元来实现。相反地，如上所述，各种单元可与合适的软件及/或固件一起组合在编解码器硬件单元中或由互操作硬件单元的集合提供，硬件单元包含如上文所描述的一或多个处理器。

此外，如本文中所使用，“A及/或B”意谓“A或B”，或“A及B”两者。

已描述所述技术的各种方面。所述技术的这些及其它方面在以下权利要求书的范围内。

Claims

1.一种经配置以压缩表示音场的高阶立体环绕声的音频数据的装置，所述装置包括：

存储器，其经配置以存储所述高阶立体环绕声的音频数据的高阶立体环绕声系数；及

一或多个处理器，其经配置以执行以下操作：

将所述高阶立体环绕声系数分解成主要声音分量及对应空间分量，所述对应空间分量表示所述主要声音分量的方向、形状及宽度，且定义于球谐域中；

在符合中间压缩格式的位流中指定所述高阶立体环绕声系数的表示所述音场的环境分量的子集；及

在所述位流中且无关于对用以在所述位流中指定所述空间分量的环境声道的最小数目及元素的数目的确定指定所述空间分量的所有元素。

2.根据权利要求1所述的装置，其中所述一或多个处理器经配置以在所述位流中指定所述高阶立体环绕声系数的与具有从零到二的阶数的球基底函数相关联的所述子集。

3.根据权利要求1所述的装置，

其中所述主要声音分量包括第一主要声音分量，

其中所述空间分量包括第一空间分量，

其中所述一或多个处理器经配置以：

将所述高阶立体环绕声系数分解成包含所述第一主要声音分量的多个主要声音分量及包含所述第一空间分量的对应多个空间分量，

在所述位流中指定所述多个空间分量中的四者中的每一者的所有元素，所述多个空间分量中的所述四者包含所述第一空间分量；且

在所述位流中指定所述多个主要声音分量中对应于所述多个空间分量中的所述四者的四者。

4.根据权利要求3所述的装置，其中所述一或多个处理器经配置以：

在所述位流的单侧信息声道中指定所述多个空间分量中的所述四者中的每一者的所有元素；

在所述位流的分离前景声道中指定所述多个主要声音分量中的所述四者中的每一者；且

在所述位流的分离环境声道中指定所述高阶立体环绕声系数的所述子集中的每一者。

5.根据权利要求1所述的装置，其中所述一或多个处理器进一步经配置以在所述位流中且在不对所述高阶立体环绕声系数的所述子集应用解相关的情况下指定所述高阶立体环绕声系数的所述子集。

6.根据权利要求1所述的装置，其中所述中间压缩格式包括夹层压缩格式。

7.根据权利要求1所述的装置，其中所述中间压缩格式包括用于广播网络的音频数据的通信的夹层压缩格式。

8.根据权利要求1所述的装置，

其中所述装置包括经配置以检索空间音频数据的麦克风阵列，且

其中所述一或多个处理器进一步经配置以将所述空间音频数据转换成所述高阶立体环绕声的音频数据。

9.根据权利要求1所述的装置，其中所述一或多个处理器经配置以：

接收所述高阶立体环绕声的音频数据；及

将所述位流输出到发射编码器，所述发射编码器经配置以基于目标位率转码所述位流。

10.根据权利要求1所述的装置，其进一步包括麦克风，所述麦克风经配置以检索表示所述高阶立体环绕声的音频数据的空间音频数据且将所述空间音频数据转换成所述高阶立体环绕声的音频数据。

11.根据权利要求1所述的装置，其中所述装置包括机器人装置。

12.根据权利要求1所述的装置，其中所述装置包括飞行装置。

13.一种压缩表示音场的高阶立体环绕声的音频数据的方法，所述方法包括：

将表示音场的高阶立体环绕声系数分解成主要声音分量及对应空间分量，所述对应空间分量表示所述主要声音分量的方向、形状及宽度，且定义于球谐域中；

14.根据权利要求13所述的方法，其中指定所述高阶立体环绕声系数的所述子集包括在所述位流中指定所述高阶立体环绕声系数的与具有从零到二的阶数的球基底函数相关联的所述子集。

15.根据权利要求13所述的方法，

其中所述主要声音分量包括第一主要声音分量，

其中所述空间分量包括第一空间分量，

其中分解所述高阶立体环绕声系数包括将所述高阶立体环绕声系数分解成包含所述第一主要声音分量的多个主要声音分量及包含所述第一空间分量的对应多个空间分量，

其中指定所述空间分量的所有所述元素包括在所述位流中指定所述多个空间分量中的四者中的每一者的所有元素，所述多个空间分量中的所述四者包含所述第一空间分量，且

其中所述方法进一步包括在所述位流中指定所述多个主要声音分量中对应于所述多个空间分量中的所述四者的四者。

16.根据权利要求15所述的方法，

其中指定所述多个空间分量中的所述四者中的每一者的所有所述元素包括在所述位流的单侧信息声道中指定所述多个空间分量中的所述四者中的每一者的所有元素，

其中指定所述多个主要声音分量中的所述四者包括在所述位流的分离前景声道中指定所述多个主要声音分量中的所述四者中的每一者，且

其中指定所述高阶立体环绕声系数的所述子集包括在所述位流的分离环境声道中指定所述高阶立体环绕声系数的所述子集中的每一者。

17.根据权利要求13所述的方法，其进一步包括在所述位流中且在不对所述高阶立体环绕声系数的所述子集应用解相关的情况下指定所述高阶立体环绕声系数的所述子集。

18.根据权利要求13所述的方法，其中所述中间压缩格式包括夹层压缩格式。

19.根据权利要求13所述的方法，其中所述中间压缩格式包括用于广播网络的音频数据的通信的夹层压缩格式。

20.根据权利要求13所述的方法，其进一步包括：

通过麦克风阵列检索空间音频数据，及

将所述空间音频数据转换成所述高阶立体环绕声的音频数据。

21.根据权利要求13所述的方法，其进一步包括：

接收所述高阶立体环绕声的音频数据；及

将所述位流输出到发射编码器，所述发射编码器经配置以基于目标位率转码所述位流，

其中所述装置包括移动通信手持机。

22.根据权利要求13所述的方法，其进一步包括：

检索表示所述高阶立体环绕声的音频数据的空间音频数据；及

将所述空间音频数据转换成所述高阶立体环绕声的音频数据，

其中所述装置包括飞行装置。

23.一种非暂时性计算机可读存储媒体，其上存储有指令，所述指令在执行时使得一或多个处理器进行以下操作：

24.根据权利要求23所述的非暂时性计算机可读存储媒体，其进一步存储指令，所述指令在执行时使得所述一或多个处理器在所述位流中指定所述高阶立体环绕声系数的与具有从零到二的阶数的球基底函数相关联的所述子集。

25.根据权利要求23所述的非暂时性计算机可读存储媒体，其进一步存储指令，所述指令在执行时使得所述一或多个处理器在所述位流中且在不对所述高阶立体环绕声系数的所述子集应用解相关的情况下指定所述高阶立体环绕声系数的所述子集。

26.一种经配置以压缩表示音场的高阶立体环绕声的音频数据的装置，所述装置包括：

用于将表示音场的高阶立体环绕声系数分解成主要声音分量及对应空间分量的装置，所述对应空间分量表示所述主要声音分量的方向、形状及宽度，且定义于球谐域中；

用于在符合中间压缩格式的位流中指定所述高阶立体环绕声系数的表示所述音场的环境分量的子集的装置；及

用于在所述位流中且无关于对用以在所述位流中指定所述空间分量的环境声道的最小数目及元素的数目的确定指定所述空间分量的所有元素的装置。