CN103250207A

CN103250207A - 高阶高保真度立体声响复制音频数据的数据结构

Info

Publication number: CN103250207A
Application number: CN2011800531537A
Authority: CN
Inventors: F.基勒; S.科登; J.贝姆; H.克罗普; J-M.巴特克
Original assignee: 汤姆逊许可公司
Current assignee: Dolby International AB
Priority date: 2010-11-05
Filing date: 2011-10-26
Publication date: 2013-08-14
Anticipated expiration: 2031-10-26
Also published as: KR20140000240A; HK1189297A1; CN103250207B; KR101824287B1; US9241216B2; BR112013010754A8; US20130216070A1; AU2011325335B2; EP2636036A1; PT2636036E; BR112013010754A2; EP2450880A1; EP2636036B1; WO2012059385A1; BR112013010754B1; AU2011325335A1; JP5823529B2; AU2011325335B8; AU2011325335A8; JP2013545391A

Abstract

本发明涉及一种高阶高保真度立体声响复制HOA音频数据的数据结构，该数据结构包括用于一个或多个不同HOA音频数据流描述的2D或3D空间音频内容。HOA音频数据具有大于'3'的阶，该数据结构另外还包括单音频信号源数据和/或来自固定或时变空间位置的麦克风阵列音频数据。

Description

高阶高保真度立体声响复制音频数据的数据结构

技术领域

本发明涉及一种高阶高保真度立体声响复制（Ambisonics）音频数据的数据结构，其包括二维和/或三维空间音频内容数据，并且也适用于具有大于'3'阶的高阶高保真度立体声响复制（Higher Order Ambisonics（HOA））音频数据。

背景技术

3D音频可以通过被称为如下所述的高阶高保真度立体声响复制（HOA）的技术使用声场描述来实现。存储HOA数据需要一些协定和约定，其约定特定解码器必须如何使用该数据才能够创建用于在给定再现扬声器设置上进行重播的扬声器信号。没有现有的存储格式定义HOA的所有这些约定。例如在2009年3月30日在Martin Leese"File Format for B-Format", http://www.ambisonia.com/Members/etienne/Members/mleese/file-format-for-b-format中描述的（基于可扩展‘Riff/wav’结构）的B-格式及其*.amb文件格式实现是当今可用的最复杂的格式。

在2010年7月16日，在高保真度立体声响复制交换站点（Ambisonics Xchange Site）上在"Existing formats", http://ambisonics.iem.at/xchange/format/existing-formats中公开了现有文件格式的概述，并且在该站点上在"A first proposal to specify,define and determine the parameters for an Ambisonics exchange format", http://ambisonics.iem.at/xchange/format/a-first-proposal-for-the-format中还公开了对于高保真度立体声响复制交换格式的建议。

发明内容

关于HOA信号，对于3D，可以全部记录（编码）以相同频率从不同声源采集M=(N十l)²个（对于2D是(2N+l)个）不同的音频对象，并且将其再现为不同的声音对象，假设他们是均匀空间分布的。这意味着，1阶高保真度立体声响复制信号可以携带四个3D或三个2D音频对象，并且这些对象需要围绕着3D的球面或者围绕2D的圆均匀分隔开。在记录中空间重叠和多于M个信号将导致模糊，仅仅可以将最大声信号再现为相干对象，而其它弥漫性信号取决于空间上的重叠、频率和响度（loudness）相似度将在一定程度上使相干信号退化。

关于电影院中的声学情况，对于前屏幕区域，要求高空间声音定位精度，以便配合视觉场景。环绕声对象的感知较不重要（混响（reverb）、与视觉场景无关的声音对象）。这里，扬声器的密度与前面区域相比可以更小。

（与前面区域相关的）HOA数据的HOA阶需要大，以便使得能够选择声音全息（holophonic）重播。典型的阶是N=10。这要求(N+1)²=121个HOA系数。理论上，如果这些音频对象将均匀地空间分布，我们还可以编码M=121个音频对象。但是，在我们的情形下，它们被限制到前面区域（因为我们仅仅在这里需要这样高阶）。实际上，在没有模糊的情况下，我们可能仅仅编码大约M=60个音频对象（前面区域至多是球体方向的一半，因此是M/2）。

关于上述B-格式，其使能了仅仅高达3高保真度立体声响复制阶的描述，而文件大小被限制为4GB。其它空间信息丢失，诸如对现代解码器重要的波类型或参考解码半径。不可能对不同的高保真度立体声响复制分量（声道）使用不同的采样格式（字宽度）和带宽。也没有对于存储用于高保真度立体声响复制的辅助信息和元数据的标准化。

在现有技术中，使用麦克风阵列记录高保真度立体声响复制信号被限制为一阶。如果将开发HOA麦克风的试验原型，这将在将来改变。对于3D内容的创建，可以在一阶高保真度立体声响复制下使用麦克风阵列来记录环境声场的描述，由此方向性源可以被使用特写单声道（closed-up mono）麦克风或者高方向性麦克风与方向性信息一起（即该源的位置）来捕捉。然后，方向性信号可以被编码为HOA描述，或者这可以由复杂解码器执行。无论如后，需要新的高保真度立体声响复制文件格式能够一次存储多于一个声场描述，但是没有现有格式能够封装多于一个高保真度立体声响复制描述。

本发明要解决的问题是提供一种高保真度立体声响复制文件格式，其能够一次存储两个或多个声场描述，其中高保真度立体声响复制阶可以大于3。通过权利要求1中公开的数据结构以及权利要求12中公开的方法来解决该问题。

为了创建逼真的3D音频，下一代高保真度立体声响复制解码器将要求处理大量协定和约定以及存储数据，或者可以相干地存储所有相关参数和数据元素的单文件格式。

空间声音内容的发明性文件格式可以存储一个或多个HOA信号、以及/或者方向性的单声道信号和方向性信息，其中高保真度立体声响复制阶大于3以及文件大于4GB是可行的。此外，发明性文件格式提供了现有格式没有提供的附加元素：

1）在该文件格式中存储了下一代HOA解码器所需的重要信息：

－高保真度立体声响复制波信息（平面、球面、混合类型）、感兴趣区域（收听区域外部的源或收听区域内的源）、以及（用于球面波解码的）参考半径

－可以存储相关的方向性的单声道信号。可以使用角度和距离信息、或者使用高保真度立体声响复制系数的编码矢量来描述这些方向性信号的位置信息。

2）在辅助信息中包含定义高保真度立体声响复制数据的所有参数，以便确保记录清楚：

－高保真度立体声响复制缩放和规范化（SN3D、N3D、福尔斯马勒姆(Furse Malham)、B格式、…、用户定义）、混合阶信息。

3）扩展高保真度立体声响复制数据的存储格式以允许灵活且经济地存储数据：

－发明性的格式允许利用不同的PCM-字大小的分辨率并且使用限制的带宽来存储与高保真度立体声响复制阶（高保真度立体声响复制声道）相关的数据。

4）元字段允许存储关于文件的附属信息（如用于麦克风信号的记录信息）：

－记录参考坐标系、麦克风、源和虚拟收听者位置、麦克风方向性特性、房间和源信息。

用于2D和3D音频内容的该文件格式覆盖高阶高保真度立体声响复制描述（HOA）以及具有固定或时变位置的单源的存储，并且包含使得下一代音频解码器能够提供逼真的3D音频的所有信息。

使用适当设置，发明性的文件格式还适用于音频内容的流传输。因此，可以在文件创建者选择的时间实例处发送依赖于内容的辅助信息（头部数据）。发明性文件格式也用作场景描述，其中音频场景的音轨可以在任何时间处开始和结束。

原理上，发明性的数据结构适用于高阶高保真度立体声响复制HOA音频数据，其数据结构包括用于一个或多个不同HOA音频数据流描述的2D和/或3D空间音频内容数据，并且其数据结构也适用于具有大于'3'阶的HOA音频数据，另外其数据结构可以包括单音频信号源数据和/或来自固定或时变空间位置的麦克风阵列音频数据。

原理上，发明性的方法适用于音频呈现，其中接收包含至少两个不同HOA音频数据信号的HOA音频数据流，并且在具有位于呈现点的不同区域处的密集扬声器布置的情况下至少将其中的第一个用于呈现，并且在具有环绕所述呈现点的低密集扬声器布置的情况下至少将其中的至少第二个和不同的一个用于呈现。

在各从属权利要求中公开了本发明的其它有利实施例。

附图说明

参考附图描述本发明的实例实施例，在附图中：

图1是在前面区域具有密集扬声器布置而围绕收听区域具有稀疏扬声器密度的电影院中的声音全息再现；

图2是复杂的解码系统；

图3是从麦克风阵列记录、单源记录、简单和复杂声场生成的HOA内容创建；

图4是下一代浸入式内容创建；

图5是简单环绕扬声器设置的HOA信号的2D解码、以及前面阶段的声音全息扬声器设置以及更稀疏3D环绕扬声器设置的HOA信号的3D解码；

图6是内部域问题，其中源在感兴趣区域/有效区域外部；

图7是球面坐标的定义；

图8是外部域问题，其中源在感兴趣区域/有效区域内部；

图9是简单示例的HOA文件格式；

图10是包含多帧和多音轨的HOA文件的示例；

图11是具有多个元数据块（MetaDataChunk）的HOA文件；

图12是音轨区域编码处理；

图13是音轨区域解码处理；

图14是使用MDCT处理降低带宽的实现；

图15是使用MDCT处理重构带宽的实现。

具体实施方式

随着3D视频的日益蔓延，浸入式的音频技术正在成为用以区分的有趣特征。高阶高保真度立体声响复制（HOA）是这些能够提供以增量方式将3D音频引入到电影院中的方法的技术之一。使用HOA声音音轨和HOA解码器，电影院可以以现有的音频环绕扬声器设置开始并且逐步投入更多扬声器，逐步提高浸入式体验。

图1a示出了在前面区域具有密集扬声器布置11而围绕收听或座位区域10具有稀疏扬声器密度12的电影院中的声音全息再现，提供了精确再现与视觉动作相关的声音以及足够精确再现所再现的环境声音的方法。

图1b示出了所再现的前面声波到达的感知方向，其中平面波到达的方向匹配不同的屏幕位置，即平面波适用于再现深度。

图1c示出了所再现的球面波到达的感知方向，其导致所感知的声音方向和围绕屏幕的3D视觉动作的更高一致度。

由于在电影院中主视觉动作在收听者的前面区域中发生的事实，引起了对两种不同的HOA流的需要。而且，对于前面声源的检测声音方向的感知精度比对于环绕源的检测声音方向的感知精度要高。因此，前面空间声音再现的精度需要比用于所再现的环境声音的空间精度高。对于前面屏幕区域要求用于声音再现的声音全息部件、大量扬声器、专用解码器和相关扬声器驱动器，而对于环境声音再现需要更低成本的技术（环绕收听区域的较低密度的扬声器、以及更不完美的解码技术）。

由于内容创建和声音再现技术，有利的是为环境声音提供一个HOA再现并且为前景动作声音提供一个HOA再现，参见图4。使用简单设置以及简单的稀疏再现声音装备的电影院可以在解码之前混合两个流（参见图5上部分）。

装备有完全浸入式再现部件的更复杂的电影院可以使用两个解码器，一个用于解码环境声音，而另一个专用解码器用于前景主动作的虚拟声源的高精度定位，如在图2的复杂解码系统以及图5下部分中示出的。

具体HOA文件包含至少两个音轨，其呈现用于环境声音

以及用于与虚拟主动作相关的前面声音

的HOA声场。可以提供用于方向性效果的可选流。两个对应的解码器系统与声像调节器（panner）一起提供用于密集的前面3D声音全息扬声器系统21和较低密集的（即稀疏的）3D环绕系统22的信号。

音轨1流的HOA数据信号呈现环境声音，并且在HOA转换器231中被转换以输入到专用于环境再现的解码器1（232）。对于音轨2数据流，HOA信号数据（与虚拟场景相关的前面声音）在HOA转换器241中被转换以输入到距离校正（方程（26））滤波器242，以便以专用解码器2（243）围绕屏幕区域更好地放置球面声音源。方向性的数据流被直接声像调节（pan）到L扬声器。三个扬声器信号被PCM混合以便利用3D扬声器系统进行联合再现。

看上去没有已知的文件格式专用于这样的情形。已知的3D声场记录使用具有相关声音音轨的完整场景描述，或者在存储以用于稍后再现时使用单声音场描述。第一类的示例是WFS（波场合成）格式和各种容器格式。第二类的示例是像B或AMB格式的高保真度立体声响复制格式，参见上述文章“File Format for B-Format”。后者限于高保真度立体声响复制阶为三、固定传输格式、固定解码器型号和单声音场。

HOA内容创建和再现

在图3中描绘了生成HOA声音唱描述的处理。

在图3a中，通过使用麦克风阵列来创建声音场的自然记录。采集信号（capsule signal）被矩阵化和均衡化，以便形成HOA信号。高阶信号（高保真度立体声响复制阶>1）通常被带通滤波以降低由于采集距离效应引起的伪像，被低通滤波以降低高频处的空间混声（spatial alias），被高通滤波以在增加高保真度立体声响复制阶nh_n(kr_d-mic)的情况下降低额外的低频电平，参见方程（34）。可选地，可以应用距离编码滤波，参见方程（25）和（27）。在存储之前，HOA格式信息被添加到音轨头部。

通常使用多个方向性的单源流来创建人工声音场再现。如图3b中所示，可以将单源信号捕获为PCM记录。这可以通过特写（close-up）麦克风进行或者通过使用具有高方向度的麦克风进行。另外，记录声音源相对于虚拟最佳收听位置的方向性参数（r_s,Θ_s，φ_s）（HOA坐标系，或者用于稍后映射的任何参考点）。当呈现电影场景时，还可以通过人工地放置声音来创建距离信息。如图3c中所示，然后使用方向性信息（Θ_S，φ_s）来创建编码矢量ψ，将方向性的源信号编码为高保真度立体声响复制信号，参见方程（18）。这等效于平面波再现。拖尾滤波处理可以使用距离信息来将球面源特征印记到高保真度立体声响复制信号（方程（19））中，或者应用距离编码滤波（方程（25）（27））。在存储之前，HOA格式信息被添加到音轨头部。

如图3d中所描绘的，通过HOA混合高保真度立体声响复制信号，生成更复杂的波场描述。在存储之前，HOA格式信息被添加到音轨头部。

在图4中描绘了用于3D电影院的内容生成的处理。利用高空间精度编码与视频动作相关的前面声音，并且将其与HOA信号（波场）

混合并存储为音轨2。所包含的编码器以高空间精度和最佳匹配视频场景所需的特定波类型来进行编码。音轨1包含声场

其与所编码的环境声音相关而不限制源方向。通常，环境声音的空间精度不需要与前面声音的空间精度那样高（因此，高保真度立体声响复制阶可以更小），并且波类型的建模将更不重要。环境声音场还可以包括前面声音信号的回响（reverberant）部分。两个音轨被多路复用以便存储和/或交换。

可选地，可以将方向性的声音（例如，音轨3）多路复用到文件。这些声音可以是特殊效果的声音、对话或运动信息（像用于视觉障碍的叙事演讲）。

图5示出了解码的原理。如上部分所描绘的，在简化的HOA解码之间，具有稀疏扬声器设置的电影院可以将来自音轨1和音轨2的两个HOA信号混合，并且可以截断音轨2的阶并且将两个音轨的维度降低为2D。在出现方向性的流的情况下，将其编码为2D HOA。然后，所有三个流被混合以形成单HOA表示，其然后被解码并再现。

下部分对应于图2。装备有用于前面阶段的声音全息系统和稀疏的3D环绕系统的电影院将使用专用的复杂解码器，并且混合扬声器供给。对于音轨1数据流，表示环境声音的HOA数据被转换到专用于再现环境的解码器1。对于音轨2数据流，HOA（与视觉场景相关的前面声音）被转换并且被距离校正（方程（26））以便用于更好地围绕屏幕区域放置球面声音源以及用于专用解码器2。方向性的数据流被直接声像调节到L扬声器。三个扬声器信号被PCM混合以便利用3D扬声器系统进行联合再现。

使用高阶高保真度立体声响复制的声音场描述

使用球面谐波（SH）的声音场描述

当使用球面谐波/贝塞尔描述时，在方程（1）中提供了声波方程的解，参见M.A.Poletti,"Three-dimensional surround sound systems based on spherical harmonics",Journal of Audio Engineering Society,53(11),pp.1004–1025,2005年11月、以及Earl G.Williams,"Fourier Acoustics",Academic Press,1999年。

声压是球面坐标r,Θ,Φ（对于其定义请参见图7）和空间频率的函数

k = \frac{ω}{c} = \frac{2 πf}{c} .

该描述对于感兴趣区域或有效区域外部的音频声音源有效（内部域问题，如图6所示），并且假设正交规范化的球面谐波：

p (r, θ, φ, k) = Σ_{n = 0}^{\infty} Σ_{m = - n}^{n} A_{n}^{m} (k) j_{n} (kr) Y_{n}^{m} (θ, φ) - - - (1)

被称为高保真度立体声响复制系数，j_n(kr)是第一类的球面贝塞尔函数，被称为球面谐波（SH），n是高保真度立体声响复制阶索引，m指示程度。

由于贝塞尔函数仅仅对于小kr值（距原点的小距离或者低频率）具有显著值的特性，因此序列可以在某阶n处停止并且以足够精度限制于值N。当存储HOA值时，通常存储直至阶N的高保真度立体声响复制系数

或一些导数（下面描述细节）。N被称为高保真度立体声响复制阶。

N被称为高保真度立体声响复制阶，项“阶”通常也与贝塞尔j_n(kr)和汉克尔h_n(kr)函数中的n组合使用。

对于r＞r_Source，在方程（2）中表达了用于外部情况的波方程的解，其中源位于感兴趣区域或有效区域内，如图8所描绘的。

p (r, θ, φ, k) = Σ_{n = 0}^{\infty} Σ_{m = - n}^{n} B_{n}^{m} (k) h_{n}^{(1)} (kr) Y_{n}^{m} (θ, φ) - - - (2)

再次被称为高保真度立体声响复制系数，

表示第一类和第n阶的球面汉克尔函数。方程假设正交规范化的SH。

注释：通常，第一类的球面汉克尔函数

被用来描述正频率的输出波（与e^ikr相关），而第二类的球面汉克尔函数

被用来描述输入波（与e^-ikr相关），参见上述的“Fourier Acoustics”书。

球面谐波

球面谐波可以是复数值或实数值。HOA的通常情况使用实数值的球面谐波。使用实数和复数球面谐波的高保真度立体声响复制的统一描述可以在Mark Poletti,"Unified description of Ambisonics using real and complex spherical harmonics",Proceedings of the Ambisonics Symposium2009,Gras,奥地利,2009年6月中看到。

存在将球面谐波规范化的不同方法（其与球面谐波是实数还是复数无关），参见以下关于（实数）球面谐波和规范化方案的网页： http://www.ipgp.fr/～wiecsor/SHTOOLS/www/conventions.html, http://en.citisendium.org/wiki/Spherical_harmonics。

规范化对应于

和

之间的正交关系。

注释：

{&Integral;}_{S^{2}} Y_{n}^{m} (Ω) Y_{n'}^{m'} {(Ω)}^{*} dΩ = \frac{N_{n, m}}{\sqrt{\frac{(2 n + 1) (n - | m |)!}{4 π (n + | m |)!}}} \frac{N_{n', m'}}{\sqrt{\frac{(2 n' + 1) (n' - | m' |)!}{4 π (n' + | m' |)!}}} δ_{nn'} δ_{mm'}

其中，S²是单位球面，对于a=a',Kroneker delta等于1，否则等于0。

通过下式来描述复数球面谐波：

Y_{n}^{m} (Θ, φ) = s_{m} Θ_{n}^{m} (θ) e^{imφ} = s_{m} N_{n, m} P_{n, | m |} (\cos (θ)) e^{imφ} - - - (3)

其中，像在上述“Fourier Acoustics”书中，对于正m，对于交替符号，

i = \sqrt{- 1}

且

s_{m} = {\begin{matrix} {(- 1)}^{m} & m > 0 \\ 1 & else \end{matrix} .

（注释：S_m是传统项，并且可以仅对于正SH省略）。N_n,m是规范化项，其采取正交规范化表达的形式（！表示阶乘）。

N_{n, m} = \sqrt{\frac{(2 n + 1) (n - | m |)!}{4 π (n + | m |)!}} - - - (4)

下表1示出了用于复数值球面谐波的一些常用规范化方案。P_n,|m|(x)是相关联的拉格朗日函数，其中，在符号后接着|m|，依据上面的文章“Unified description of Ambisonics using real and complex spherical harmonics”，其避免了被称为康登肖特利相位的相位项(-1)^m，并且其有时被包括在其它符号内的

的表示中。可以使用方程将相关联的拉格朗日函数

表达为：

P_{n, | m |} (x) = \frac{1}{2^{n} n!} {(1 - x^{2})}^{\frac{| m |}{2}} \frac{d^{n + | m |}}{{dx}^{n + | m |}} {(x^{2} - 1)}^{n} - - - (5)

表1复数值的球面谐波的规范化因子

在数值上，有利的是从递归关系以渐进方式推导P_n,|m|(X)，参见William H.Press,Saul A.Teukolsky,William T.Vetterling,Brian P.Flannery,"Numerical Recipes in C",Cambridge University Press,1992。在表2中给出了相关联的上至n=4的拉格朗日函数：

表2－第一一些拉格朗日多项式

P_{n, | m |} (\cos θ), n = 0 \cdot \cdot \cdot 4

通过组合与m的相反值对应的复数共轭（conjugate）来推导实数值SH（引入定义（6）中的项(-1)^m来获得实数SH的无符号表达，其是高保真度立体声响复制中的常见情况）：

S_{n}^{m} (θ, φ) = {\begin{matrix} \frac{{(- 1)}^{m}}{\sqrt{2}} (Y_{n}^{m} + Y_{n}^{m *}) & = Θ_{n}^{m} (θ) \sqrt{2} \cos (mφ), & m > 0 \\ Y_{n}^{0} & = Θ_{n}^{0} (θ), & m = 0 \\ \frac{{(- 1)}^{m}}{i \sqrt{2}} (Y_{n}^{| m |} - Y_{n}^{| m | *}) & = Θ_{n}^{| m |} (θ) \sqrt{2} \sin (| m | φ), & m < 0 \end{matrix} - - - (6)

令

，并且仅仅保持方位项，方程（6）可以被重写为方程（7），以便突出与圆谐波的联系：

S_{n}^{m} (θ, φ) = {\tilde{N}}_{n, m} P_{n, | m |} (\cos (θ)) φ_{m} (φ) - - - (7)

φ_{n = | m |}^{m} (φ) = {\begin{matrix} \cos (mφ), & m > 0 \\ 1 & m = 0 \\ \sin (| m | φ) & m < 0 \end{matrix} - - - (8)

用于给定高保真度立体声响复制阶N的球面分量

的总数量等于(N+1)²。在表3中给出了实数值球面谐波的常见规范化方案。

表3－3D实数SH规范化方案，对于m=0，δ_0，m具有值1，否则具有值0

圆谐波

对于二维表示，仅仅需要谐波子集。SH程度可以仅仅取值m∈{-n，n}。由于表示倾角θ的分量变为过时的并且球面谐波可以由方程（8）中给出的圆谐波替代，用于给定N的分量的总数目降到2N+1。

存在用于圆谐波的不同的规范化N_m方案，当将3D高保真度立体声响复制系数转换为2D系数时需要考虑这些方案。用于圆谐波的更一半的方程变为：

在表4中提供了一些用于圆谐波的常见规范化因子，其中通过水平项 φ_m(φ)之前的因子引入规范化项：

表4－2D圆谐波规范化方案，对于m=0，δ_0，m具有值1，否则具有值0

不同规范化之间的转换是直接了当的。通常，规范化对描述压力（参见方程（1）（2））和所有导出的考虑具有影响。规范化的类型也影响高保真度立体声响复制系数。还存在可以应用于缩放这些系数的权重，例如当使用AMB-格式存储文件时应用于高保真度立体声响复制系数的福尔斯马勒姆（FuMa）权重。

关于2D－3D变换，例如当利用用于2D扬声器设置的2D解码器解码高保真度立体声响复制表示（记录）时，CH（圆谐波）到SH（球面谐波）变换也可以应用于高保真度立体声响复制系数，反之亦然。在下面的上至高保真度立体声响复制阶4的方案中描绘了用于3D－2D变换的

和

之间的关系：

可以如下地针对

的水平面导出2D到3D变换因子：

从3D到2D的变换使用

结合下面的方程（28）（29）（30）给出细节。

2D规范化到正交规范化的变换变为：

α_{\frac{N_{2} D}{ortho 3 D} = \sqrt{\frac{(2 m + 1)!}{4 πm!^{2} 2^{2 m}}} - - - (11)}

高保真度立体声响复制系数

高保真度立体声响复制系数具有声压的单位缩放：

1 Pa = 1 \frac{N}{m^{2}} = 1 \frac{kgm}{s^{2} m^{2}} .

高保真度立体声响复制系数形成高保真度立体声响复制信号，并且通常是离散时间的函数。表5示出了维度表示、高保真度立体声响复制阶N以及高保真度立体声响复制系数（声道）的数量之间的关系：

表5－高保真度立体声响复制系数的数量

当处理离散时间表示时，通常以交织方式存储高保真度立体声响复制系数，像用于多声道记录的PCM声道表示（声道＝样本v的高保真度立体声响复制系数

），系数序列作为变换的问题。对于3D、N=2的示例为：

\begin{matrix} A_{0}^{0} (v) & A_{1}^{- 1} (v) & A_{1}^{0} (v) & A_{1}^{1} (v) & A_{2}^{- 2} (v) & A_{2}^{- 1} (v) & A_{2}^{0} (v) & A_{2}^{1} (v) & A_{2}^{2} (v) & A_{0}^{0} (v + 1) & . . . \end{matrix} - - - (12)

对于2D、N=2的示例为：

\begin{matrix} A_{0}^{0} (v) & A_{1}^{- 1} (v) & A_{1}^{1} (v) & A_{2}^{- 2} (v) & A_{2}^{2} (v) & A_{0}^{0} (v + 1) & A_{1}^{- 1} (v + 1) & . . . \end{matrix} - - - (13)

信号可以被看作高保真度立体声响复制记录的单声道表示，没有方向性信息但是作为记录的总音色印象（timbre impression）的表示。

高保真度立体声响复制系数的规范化通常是根据SH的规范化（如下面将变得明显的，参见方程（15））来执行的，这在解码外部记录时必须考虑（

基于具有规范化因子N_n,m的SH，

基于具有规范化因子的SH）：

对于SN3D到N3D情况，其变为

B格式和AMB格式使用应用于系数的另外权重（Gerson、福尔斯马勒姆（FuMa）、MaxN权重）。参考规范化然后通常是SN3D，参见Daniel, "Représentation de champs acoustiques,applicationàla transmission etàla reproduction de scènes sonores complexes dans un contexte multimédia",博士论文（PhD thesis）,UniversitéParis6,2001,and Dave Malham,"3-D acoustic space and its simulation using ambisonics", http://www.dxarts.washington.edu/courses/567/current/malham_3d.pdf。

下面的用于理想平面波或球面波的波方程的两种特定规范化示出了关于高保真度立体声响复制系数的更多细节：

平面波

求解平面波

的波方程变得独立于k和r_s；θ_s，φ_s描述了源角度，

表示共轭复数：

A_{n_{plane}}^{m} (θ_{s}, φ_{s}) = 4 π i^{n} P_{S_{0}} Y_{n}^{m} {(θ_{s}, φ_{s})}^{*} = 4 π i^{n} d_{n}^{m} (θ_{s}, φ_{s}) - - - (15)

这里，

用于描述在描述坐标系的原点处测量的源的缩放信号压力，其可以是时间的函数，并且对于正交规范化的球面谐波变为

通常，高保真度立体声响复制假设平面波，并且传送或存储高保真度立体声响复制系数

d_{n}^{m} (θ_{s}, φ_{s}) = \frac{A_{n}^{m} (θ_{s}, φ_{s})}{4 π i^{n}} = P_{S_{0}} Y_{n}^{m} {(θ_{s}, φ_{s})}^{*} - - - (16)

该假设提供了叠加不同方向性信号的能力以及简单的解码器设计。这对于以一阶B格式(N=1)记录的声音场^TM（Soundfield^TM）麦克风的信号也成立，当与均衡滤波器的相位演进相比时这变得明显（对于理论上的演进，参见上述文章"Unified description of Ambisonics using real and complex spherical harmonics",chapter2.1，而对于专利保护的演进，参见US4042779）。方程（1）变为：

p (r, θ, φ, k) = Σ_{n = 0}^{\infty} Σ_{m = - n}^{n} j_{n} (kr) Y_{n}^{m} (θ, φ) 4 π i^{n} P_{S_{0}} Y_{n}^{m} {(θ_{s}, φ_{s})}^{*} - - - (17)

可以通过后处理麦克风阵列信号导出系数

或者可以使用单声道信号

合成地创建系数

，在该情况下方向性的球面谐波

可以同样是依赖于时间的（移动源）。方程（17）对于每个时间采样实例v都有效。对于所选择的高保真度立体声响复制阶N，可以以矢量/矩阵形式（对于每个采样实例v）重写合成编码的处理。

d = Ψ P_{S_{0}} - - - (18)

其中，d是高保真度立体声响复制信号，保持

（对于N=2的示例，

d (t) = {[d_{0}^{0}, d_{1}^{- 1}, d_{1}^{0}, d_{1}^{1}, d_{2}^{- 2}, d_{2}^{- 1}, d_{2}^{0}, d_{2}^{1}, d_{2}^{2}]}^{'}

)，size(d)=(N+1)²x1=Ox1，

是参考原点处的源信号压力，ψ是编码矢量，保持

，sise(ψ)=Ox1。可以从用于特定源方向（等于平面波的方向）的球面谐波导出编码矢量O_s，φ_s。

球面波

对于r＜r_s,描述由点源（近场源）生成的进入球面波的高保真度立体声响复制系数高保真度立体声响复制系数为：

A_{n_{sperical}}^{m} (k, θ_{s}, φ_{s}, r_{s}) = 4 π \frac{h_{n}^{(2)} (k r_{s})}{h_{0}^{(2)} (k r_{s})} P_{S_{0}} Y_{n}^{m} {(θ_{s}, φ_{s})}^{*} - - - (19)

该方程是与下面的方程（31）到（36）结合地导出的。

描述了原点处的声压，并且再次变得与

一致，

是第二类的阶n的球面汉克尔函数，

是第二类的零阶球面汉克尔函数。

方程（19）与

Daniel,"Spatial sound encoding including near field effect:Introducing distance coding filters and a viable,new ambisonic format",AES23rd International Conference,Denmark,May2003（AES第23次国际会议，丹麦，2003年5月）中的教导相似。这里，

顺便提及，考虑方程（11），

这可以在M.A.Gerson,"General metatheory of auditory localisation",92th AES Convention,1992,Preprint3306中看到，其中Gerson描述了第一度信号（first-degree signal）的近似效果。

对于更高的高保真度立体声响复制阶N而言，球面高保真度立体声响复制信号的合成创建更不常见，这是因为

的频率响应对于低频而言难以在数值上处理。通过考虑如下所述的用于解码/再现的球面模型，可以克服这些数值问题。

声音场再现

平面波解码

通常，高保真度立体声响复制假设通过在圆上或球面上均匀分布的L扬声器再现声音场。当假设扬声器被放置在距收听者位置足够远时，在中心（r_s＞λ）处平面波解码模型有效。L扬声器生成的声压由以下描述：

p (r, θ, φ, k) = Σ_{n = 0}^{\infty} Σ_{m = - n}^{n} j_{n} (kr) Y_{n}^{m} (θ, φ) 4 π i^{n} Σ_{l = 1}^{L} w_{l} Y_{n}^{m} {(θ_{l}, φ_{l})}^{*} - - - (20)

其中，w_l是用于扬声器l的信号并且具有单位规模的声压1Pa。w_l通常被称为扬声器l的驱动函数。

期望方程（20）的声压与方程（17）描述的压力一致。这导致：

Σ_{l = 1}^{L} w_{l} Y_{n}^{m} {(θ_{l}, φ_{l})}^{*} = d_{n}^{m} (θ_{s}, φ_{s}) = \frac{A_{n}^{m} (θ_{s}, φ_{s})}{4 π i^{n}} - - - (21)

这可以以矩阵形式重写，已知为“重编码方程”（与方程（18）比较）：

d = Ψy - - - (22)

其中d是高保真度立体声响复制信号，保持

或者

（对于N=2的示例，

d (t) = {[d_{0}^{0}, d_{1}^{- 1}, d_{1}^{0}, d_{1}^{1}, d_{2}^{- 2}, d_{2}^{- 1}, d_{2}^{0}, d_{2}^{1}, d_{2}^{2}]}^{'}

），size(d)=(N+1)²x1=Ox1，ψ是重编码矩阵，保持

sise(ψ=Ox1，y是扬声器信号w_l，sise(y(n),1)=L。

可以使用若干已知方法（例如，模式匹配）来导出y，或者通过使特定扬声器声像调节函数最优化的方法来导出y。

球面波模型的解码

更一般的解码模型再次假设围绕原点均匀地分布扬声器，像球面波那样以距离r_l辐射点。依据方程（1）通过一般描述来给出高保真度立体声响复制系数，并且根据方程（19）给出L扬声器生成的声压：

A_{n}^{m} = Σ_{l = 1}^{L} 4 π \frac{h_{n} ({kr}_{l})}{h_{0} ({kr}_{l})} w_{l} Y_{n}^{m} {(θ_{l}, φ_{l})}^{*} - - - (23)

更复杂的解码器可以对高保真度立体声响复制系数

进行滤波，以便提取

C_{n}^{m} = A_{n}^{m} \frac{h_{0} ({kr}_{l})}{4 π h_{n} ({kr}_{l})}

并且此后将

d = {[C_{0}^{0}, C_{1}^{- 1}, C_{1}^{0}, C_{1}^{1}, C_{2}^{- 2}, C_{2}^{- 1}, C_{2}^{0}, C_{2}^{1}, C_{2}^{2}, . . .]}^{'}

应用于方程（17）以便导出扬声器权重。利用该模型，通过原点处的压力确定扬声器信号w_l。

存在替代方法，其使用首先在上述文章"Three-dimensional surround sound systems based on spherical harmonics"中描述的简单源方法。假设扬声器均匀分布在球面上并且具有二次源特性。在Jens Ahrens,Sascha Spors,"Analytical driving functions for higher order ambisonics",Proceedings of the ICASSP,pages373–376,2008（ICASSP会议论文集，第373－376页，2008年）,方程(13)中导出了解，其可以针对用于高保真度立体声响复制阶N处的截断和扬声器增益g_l被重写以作为概括：

w_{l} = Σ_{n = 0}^{N} Σ_{m = - n}^{n} g_{l} \frac{A_{n}^{m}}{{kr}_{l} h_{n}^{(2)} ({kr}_{l})} Y_{n}^{m} (θ_{l}, φ_{l}) - - - (24)

距离编码的高保真度立体声响复制信号

当（使用方程（18））建模或记录球面波时，在高保真度立体声响复制编码器处使用参考扬声器距离r_l-ref创建

可以求解的数值解：

C_{n}^{m} = A_{n}^{m} \frac{h_{0} ({kr}_{l_ref})}{4 π h_{n} ({kr}_{l_ref})} = \frac{h_{0} ({kr}_{l_ref})}{h_{n} ({kr}_{l_ref})} \frac{h_{n} ({kr}_{s})}{h_{0} ({kr}_{s})} P_{S_{0}} Y_{n}^{m} {(θ_{s}, φ_{s})}^{*} - - - (25)

传送或存储

参考距离r_l-ref以及用于使用球面距离编码系数的指示符。在解码器侧，只要实际扬声器距离r_l≈r_l-ref,方程（22）给出的简单解码处理就是可行的。如果差异太大，则要求在高保真度立体声响复制解码之前通过滤波进行校正

D_{n}^{m} = C_{n}^{m} \frac{h_{n} ({kr}_{l - ref})}{h_{n} ({kr}_{l})} - - - (26)

。

像方程（24）那样的其它解码模式导致用于距离编码高保真度立体声响复制的不同公式：

{\tilde{C}}_{n}^{m} = \frac{A_{n}^{m}}{{kr}_{l_ref} h_{n} ({kr}_{l_ref})} = \frac{1}{{kr}_{l_ref} h_{n} ({kr}_{l_ref})} \frac{h_{n} ({kr}_{s})}{h_{0} ({kr}_{s})} {P_{S}}_{0} Y_{n}^{m} {(θ_{s}, φ_{s})}^{*} - - - (27)

而且，球面谐波的规范化可能对距离编码高保真度立体声响复制的公式有影响，即距离编码高保真度立体声响复制系数需要定义的上下文。

上述2D－3D转换的细节如下：

用于通过乘法将2D圆分量转换为3D球形分量的转换系数

可以如下地导出：

使用常用等式（参见2010年10月12日维基百科的"Associated Legendre polynomials",

http://en.wikipedia.org/w/index.php?title=Associated_Legendre_polynomials&oldid=363001511)），

P_{l, l} (x) = (2 l - 1)!! {(1 - x^{2})}^{l / 2}

，其中

(2 l - 1)!! = Π_{i = 1}^{l} (2 i - 1)

是二阶因子，P_|m|,|m|可以被表达为：

P_{| m |, | m |} (\cos (θ = π / 2)) = (2 m - 1)!! = \frac{(2 m)!}{m! 2^{m}} - - - (29)

将方程（29）插入到方程（28）中，导致方程（30）。

使用关系

并且代入l=2m，从2D到正交-3D的转换被导出为：

α_{\frac{N_{2} D}{ortho 3 D}} = \sqrt{\frac{(2 m + 1)}{4 π (2 m)!}} \frac{(2 m)!}{m! 2^{m}} = \sqrt{\frac{(2 m + 1) (2 m)!}{4 π {m!}^{2} 2^{2 m}}} = \sqrt{\frac{(2 m + 1)}{4 π {m!}^{2} 2^{2 m}}}, - - - (30)

上述球面波扩展的细节如下：

求解用于球面波的方程（1）（其是由r＜r_s的点源和进入波生成的）更复杂，这是因为需要使用体积流量Q_S来描述具有消失的无穷小的大小的点源，其中r处场点和r_s处场点的辐射压力由以下给出（参见上述书目"Fourier Acoustics"）：

p (r | r_{s}) = - i ρ_{0} ck Q_{S} G (r | r_{s}) - - - (31)

其中，ρ₀是具体密度，G(r|r_s)是格林函数

G (r | r_{s}) = \frac{e^{- ik | r - r_{s} |}}{4 π | r - r_{s} |} - - - (32)

对于r＜r_s，在球面谐波中还可以通过下式来表达G(r|r_s):

G (r | r_{s}) = ik Σ_{n = 0}^{\infty} Σ_{m = - n}^{n} j_{n} (kr) h_{n}^{(2)} ({kr}_{s}) Y_{n}^{m} (θ, φ) Y_{n}^{m} {(Θ_{s}, φ_{s})}^{*} - - - (33)

其中，

是第二类的汉克尔函数。注意，格林函数具有米^-1的单位大小（由于k，

）。可以将方程（31）（33）与方程（1）相比，以导出球面波的高保真度立体声响复制系数：

A_{n_{sperical}}^{m} (k, Θ_{s}, φ_{s}, r_{s}) = ρ_{0} {ck}^{2} Q_{S} h_{n}^{(2)} ({kr}_{s}) Y_{n}^{m} {(Θ_{s}, φ_{s})}^{*} - - - (34)

其中，Q_S是单位为m³s^-1的体积流量，ρ₀是单位为kg m^-3的具体密度。

为了能够合成地创建高保真度立体声响复制信号并且能够与上面的平面波考虑有关，使用在坐标系的原点处生成的声压来表达方程（34）是合理的：

P_{S_{0}} = p (0 | r_{s}) = \frac{- i ρ_{o} ck Q_{S}}{4 π} \frac{e^{- ik r_{s}}}{r_{s}} = \frac{ρ_{0} {ck}^{2} Q_{S}}{4 π} h_{0}^{(2)} ({kr}_{s}) - - - (35)

这导致：

A_{n_{sperical}}^{m} (k, Θ_{s}, φ_{s}, r_{s}) = 4 π \frac{h_{n}^{(2)} ({kr}_{s})}{h_{0}^{(2)} ({kr}_{s})} P_{S_{0}} Y_{n}^{m} {(Θ_{s}, φ_{s})}^{*} - - - (36)

交换存储格式

根据本发明的存储格式允许将多于一个HOA表示和附加的方向性流一起存储在一个数据容器中。这使能HOA描述的不同格式，其使得解码器能够将再现最优化，并且对于大小>4GB提供了高效的数据存储。其它优点为：

A）通过将使用不同格式的若干HOA描述与相关的存储格式信息一起存储，高保真度立体声响复制解码器能够混合并解码两个表示。

B）将下一代HOA解码器所需的信息项存储为格式信息：

－维度，感兴趣区域（收听区域外部的源或收听区域内的源），球面基本函数的规范化；

－高保真度立体声响复制系数打包和缩放信息；

－高保真度立体声响复制波类型（平面，球面），参考半径（用于解码球面波）；

－可以存储相关的方向性单声道信号。可以使用角度和距离信息、或者高保真度立体声响复制系数的编码矢量来描述这些方向性信号的位置信息。

C）扩展高保真度立体声响复制数据的存储格式以便允许灵活并经济地存储数据：

－利用不同PCM-字大小分辨率来存储与高保真度立体声响复制分量（高保真度立体声响复制声道）相关的高保真度立体声响复制数据；

－使用重采样或MDCT处理来利用降低的带宽存储高保真度立体声响复制数据。

D）元数据字段可用于将用于特定解码（前面、环境）的音轨相关联，并且允许存储关于文件的附属信息（诸如用于麦克风信号的记录信息）：

－记录参考坐标系、麦克风、源和虚拟听众位置、麦克风方向性特性、房间和源信息。

E）该格式适用于存储包含不同音轨的多帧，允许在没有场景描述的情况下进行音频场景改变。（注释：一个音轨包含HOA声音场描述、或者带有位置信息的单源。一帧是一个或多个并列音轨的组合）。音轨可以在帧的开头处开始或者在帧的结束处结束，因此不需要时间码。

F）该格式便于快速访问音频音轨数据（快进或调到线索点）并且确定相对于文件数据的开头处的时间的时间码。

HOA数据交换的HOA参数

表6总结了需要为HOA信号数据的非歧义交换（non-ambiguous exchange）定义的参数。球面谐波的定义固定于复数值和实数值情况，参见方程（3）（6）。

表6－用于HOA记录的非歧义交换的参数

文件格式细节

在下文中，具体描述用于存储由高阶高保真度立体声响复制（HOA）或者具有位置信息的单源构成的音频场景的文件格式。音频场景可以包含多个可能使用不同的规范化方案的HOA序列。因此，解码器可以将用于期望扬声器设置的对应扬声器信号计算为来自当前文件的所有音频音轨的叠加。该文件包含解码音频内容所需的所有数据。根据本发明的文件格式提供了在单个文件中存储多于一个HOA或单源信号的特征。该文件格式使用帧的组成，每个帧可以包含若干音轨，其中在一个或多个被称为音轨分组（TrackPackets）的分组中存储一个音轨的数据

按照little-endian字节顺序存储所有整数类型，使得最低有效字节最先到达。比特顺序总是最高有效比特在前。整数数据类型的表示为'int'。前面的'u'指示无符号整数。比特的分辨率被写在定义的尾部。例如，无符号16比特整数字段被定义为'uint16'。整数格式的PCM样本和HOA系数被表示为定点数，小数点在最高有效比特处。

所有浮点数据类型符合IEEE规范IEEE-754,"Standard for binary floating-point arithmetic",http://grouper.ieee.org/groups/754/。浮点数据类型的表示为'float'。比特的分辨率被写在定义的尾部。例如，32比特浮点字段被定义为'float32'。

恒定标识符ID（其表示帧、音轨或块、以及字符串的开头）被定义为数据类型字节。字节阵列的字节顺序是最高有效字节和比特在前。因此，在32比特字节字段中定义ID'TRCK'，其中，按照物理顺序'T','R','C'和'K'(<0x54;0x52;0x42;0x4b>)编写字节。

十六进制值以'0x'开始（例如0xAB64C5）。单比特被置入引号（例如'1'），多个二进制值'0b'以开始（例如0b0011=0x3）。

头部字段名称总是以头部名称开始，后面接着字段名称，其中，每个词的第一字母是大写字母（例如，TrackHeaderSize）。通过仅使用字段或头部名称的大写字母来创建字段或头部名称的缩写（例如TrackHeaderSize=THS）。

HOA文件格式可以包括多于一帧、分组或音轨。对于多个头部字段的区分，可以在字段或头部名称之后接有数字。例如，第三音轨的第二TrackPacket（音轨分组）被命名为'Track3Packet2'。

HOA文件格式可以包括复数值字段。这些复数值被存储为实部和虚部，其中实部被写在前面。'int8'格式的复数值1+i2将被存储为'0x01'后面接着'0x02'。因此，与对应的实数值格式类型相比，复数值格式类型的字段或系数要求两倍存储大小。

高阶高保真度立体声响复制文件格式结构

单音轨格式

高阶高保真度立体声响复制文件格式包括至少一个文件头部（FileHeader）、一个帧头部（FrameHeader）、一个音轨头部（TrackHeader）和一个音轨分组（TrackPacket），如图9中所描绘的，其示出了在一个或多个分组（Packets）中携带一个音轨（Track）的简单示例的HOA文件格式文件。

因此，HOA文件的基本结构是一个文件头部后接着帧，该帧包括至少一个音轨。音轨总是包括音轨头部以及一个或多个音轨分组。

多帧和音轨格式

与文件头部相反，HOA文件可以包含多于一帧，其中帧可以包含多于一个音轨。如果超出帧的最大大小则使用新的帧头部，或者从一帧向另一帧添加音轨或移动音轨。在图10中示出多音轨和帧HOA文件的结构。

对音轨帧的结构以帧头部（FrameHeader）开始，后面接着该帧（Frame）的所有音轨头部（TrackHeader）。因此，每个音轨的音轨分组被连续地发送给帧头部，其中音轨分组以与音轨头部相同的方式被交织。

在多音轨帧中，在帧头部中定义样本中分组的长度，并且样本中分组的长度对于所有音轨都是恒定的。此外，每个音轨的样本是同步的，例如，音轨1分组1（Track1Packet1）的样本与音轨2分组1（Track2Packet1）的样本同步。特定的音轨编码类型（TrackCodingType）可能在解码器侧引起延迟，并且这样的特定延迟需要在解码器侧是已知的，或者要被包括在音轨头部（TrackHeader）的依赖音轨编码类型（TrackCodingType）的部分中，这是因为解码器将所有的音轨分组（TrackPacket）同步到帧的所有音轨的最大延迟。

依赖文件的元数据

指代完整HOA文件的元数据可以优选地被添加在文件头部（FileHeader）后的元数据块（MetaDataChunk）中。MetaDataChunk以特定的一般用户ID（GUID）开始，后面接着元数据块大小（MetaDataChunkSize）。MetaDataChunk的实质内容（例如元数据信息）被打包到XML格式或任何用户定义格式。图11示出了使用若干MetaDataChunk的HOA文件格式的结构。

音轨类型

HOA格式的音轨（Track）在一般HOA音轨（HOATrack）和单源音轨（SingleSourceTrack）之间进行区分。HOATrack包括被编码为HOA系数（HOACoefficient）的完整声音场。因此，在解码器不需要场景描述（例如编码源的位置）来解码系数。换句话说，在HOACoefficient内存储音频场景。

与HOATrack相反，SingleSourceTrack仅包括被编码为PCM样本的一个源以及该源在音频场景内的位置。SingleSourceTrack的位置随着时间的推移可以固定或可变。源位置被发送为音轨HOA编码矢量（TrackHOAEncodingVector）或音轨位置矢量（TrackPositionVector）。TrackHOAEncodingVector包含用于获得用于每个样本的HOACoefficient的HOA编码值。TrackPositionVector将源的位置包含为相对于中央收听位置的角度和距离。

文件头部（File Header）

FileHeader包括完整HOA文件的所有恒定信息。FileID用于标识HOA文件格式。采样率对所有音轨恒定，即使它是在FrameHeader中发送的。其采样率从一帧到另一帧改变的HOA文件无效。在FileHeader中指示帧数，以便向解码器指示帧结构。

元数据块

帧头部（Frame Header）

FrameHeader保持帧的所有轨道的恒定信息，并且指示HOA文件内的改变。FrameID和FrameSize指示帧的开头和帧的长度。这两个字段允许容易访问每个帧和帧结构的交叉检查。如果帧长度要求多于32比特，则一帧可以被划分为多帧。每帧具有唯一帧编号（FrameNumber）。FrameNumber应以0开始，并且应对于每个新帧增加1。

帧的样本的数量对于帧的所有轨道恒定。帧内轨道的数量对于帧恒定。发送新帧头部以在期望样本位置结束或开始音轨。

在分组中存储每个音轨的样本。在样本中指示这些音轨分组（TrackPacket）的大小，并且其对于所有音轨恒定。分组的数量等于存储帧的样本的数量所需的整数。因此，音轨的最后分组可以包含比所指示的分组大小更少的样本。

帧的采样率等于FileSampleRate，并且在FrameHeader中被指示以便允许在不知道FileHeader的情况下解码帧。这可以在从多帧文件的中间开始解码时在不知道的情况下（例如对于流应用）使用。

音轨头部（Track Header）

项'dyn'指代由于条件字段引起的动态字段大小。TrackHeader保持用于特定音轨的分组的恒定信息。TrackHeader被分为恒定部分和用于两个音轨源类型（TrackSourceType）的可变部分。TrackHeader以恒定值TrackID开始，以验证和标识TrackHeader的开头。向每个音轨分配唯一的音轨编号（TrackNumber），以在帧边界上指示相干轨道。因此，具有相同TrackNumber的音轨可以在以下帧中出现。提供音轨头部大小（TrackHeaderSize）以跳到下一TrackHeader，并且其被指示为从TrackHeaderSize字段的结尾开始的偏移。音轨元数据偏移（TrackMetaDataOffset）提供样本的数量以便直接跳到TrackMetaData字段的开头，其可以被用来跳过TrackHeader的可变长度部分。TrackMetaDataOffset为零指示不存在TrackMetaData字段。依赖于音轨源类型（TrackSourceType），提供HOA音轨头部（HOATrackHeader）或单源音轨头部（SingleSourceTrackHeader）。HOATrackHeader提供用于描述完整声音场的标准HOA系数的辅助信息。SingleSourceTrackHeader保持用于单声道PCM音轨的样本和源的位置的信息。对于SingleSourceTrack而言，解码器无需将音轨包括在场景中。

在TrackHeader结尾，定义可选的TrackMetaData字段，其使用XML格式来提供依赖音轨的元数据，例如用于A-格式传输的附加信息（麦克风阵列信号）

HOA音轨头部（HOA Track Header）

HOATrackHeader是保持用于解码HOATrack的信息的TrackHeader的一部分。HOATrack的TrackPackets传输编码轨道的整个声音场的HOA系数。基本上，HOATrackHeader保持了在解码器侧解码用于给定扬声器设置的HOA系数所需的所有HOA参数。

音轨复数值标志（TrackComplexValueFlag）和音轨样本格式（TrackSampleFormat）定义了每个TrackPacket的HOA系数的格式类型。对于编码或压缩系数，TrackSampleFormat定义了解码或未压缩系数的格式。所有格式类型可以是实数或复数。

在上面File Format细节部分中提供了关于复数值的更多信息。

在音轨HOA参数（TrackHOAParams）中定义了所有依赖HOA的信息。在其它TrackSourceTypes中重新使用TrackHOAParams。因此，在TrackHOAParams部分中定义并描述了TrackHOAParams的字段。

音轨编码类型（TrackCodingType）字段指示HOA系数的编码（压缩）格式。HOA文件格式的基本版本包括例如两种编码类型（CodingType）。

一种CodingType是PCM编码类型（TrackCodingType==‘0’），其中，以所选择的分组样本格式（TrackSampleFormat）将未压缩的实数或复数系数写入到分组中。在TrackHOAParams字段中定义了HOA系数的顺序和规范化。

第二种CodingType允许改变样本格式，并且限制每种HOA顺序的系数的带宽。在音轨区域编码（TrackRegion Coding）部分中提供了该CodingType的具体描述，简短说明如下：

音轨带宽降低类型（TrackBandwidthReductionType）确定已经被用来限制每种HOA顺序的带宽的处理的类型。如果不改变所有系数的带宽，则可以通过将TrackBandwidthReductionType字段设置为零来关掉带宽降低。定义了两种其它的带宽降低处理类型。格式包括频域MDCT处理以及可选地时域滤波器处理。关于更多关于MDCT处理的信息，参见经由MDCT降低带宽（Bandwidth reduction via MDCT）部分。

可以将HOA顺序组合到具有相同样本格式和带宽的区域中。通过顺序区域音轨数量（TrackNumberOfOrderRegions）字段来指示区域的数量。对于每个区域，必须定义第一和最后顺序索引、样本格式和可选带宽降低信息。区域将获得至少一个顺序。使用在音轨样本格式（TrackSampleFormat）字段中指示的标准格式利用全带宽来编码未被任何区域覆盖的顺序。特殊情况是没有使用区域（TrackNumberOfOrderRegions==0）。该情况可以用于PCM格式的去交织的HOA系数，其中HOA分量没有每个样本地被交织。区域的顺序的HOA系数被按照音轨区域样本格式（TrackRegionSampleFormat）编码。音轨区域使用带宽降低（TrackRegionUseBandwidthReduction）指示对于该区域的顺序的系数使用带宽降低处理。如果TrackRegionUseBandwidthReduction标志被设置，则带宽降低辅助信息将接在后面。对于MDCT处理，定义了窗口类型、以及第一和最后编码的MDCT库。这里，第一库等效于低截止频率，而最后库定义了高截止频率。也按照TrackRegionSampleFormat编码MDCT库，参见经由MDCT降低带宽（Bandwidth reduction via MDCT）部分。

单源类型

单源被划分为固定位置和移动位置源。在音轨移动源标志（TrackMovingSourceFlag）中指示源类型。移动位置源类型和固定位置源类型之间的区别在于：固定源的位置仅在TrackHeader中指示一次；而对于移动源，在每个TrackPackage中指示。可以在球面坐标下利用位置向量明确地指示源的位置，或者可以将源的位置隐含地指示为HOA编码矢量。源本身是PCM单声道音轨，在使用高保真度立体声响复制解码器进行重放的情况下，其必须在解码器侧被编码为HOA系数。

单源固定位置音轨头部（Single Source fixed Position Track Header）

通过音轨移动源标志（TrackMovingSourceFlag）为零定义固定位置源类型。第二字段指示音轨位置类型（TrackPositionType），其将源位置的编码给出为球面坐标中的矢量或者HOA编码矢量。通过音轨样本格式（TrackSampleFormat）字段指示单声道PCM样本的编码格式。如果源位置被发送为音轨位置矢量（TrackPositionVector），则在音轨位置角度（TrackPositionTheta）（从s轴到x-,y-平面的倾斜度）、音轨位置方位角（TrackPositionPhi）（在x轴开始的逆时针方位角）和音轨位置半径（TrackPositionRadius）字段中定义源位置的球面坐标。

如果源位置被定义为HOA编码矢量，则首先定义音轨HOA参数（TrackHOAParam）。在TrackHOAParam部分中定义这些参数，并且这些参数指示HOA编码矢量所使用的规范化和定义。音轨编码矢量复数标志（TrackEncodeVectorComplexFlag）和音轨编码矢量格式（TrackEncodeVectorFormat）字段定义了接下来的音轨HOA编码矢量（TrackHOAEncodingVector）的格式类型。TrackHOAEncodingVector由以'float32'或'float64'格式编码的系数音轨HOA参数数量（TrackHOAParamNumberOfCoeffs）的值组成。

单源移动位置音轨头部（Single Source moving Position Track Header）

通过TrackMovingSourceFlag为'1'来定义移动位置源类型。除了源位置数据字段TrackPositionTheta,TrackPositionPhi,TrackPositionRadius和TrackHOAEncodingVector没出现之外，该头部与固定源头部相同。对于移动源，这些字段位于TrackPacket中以便在每个分组中指示新（移动）源位置。

具体音轨表（Special Track Table）

音轨HOA参数（TrackHOAParam）

过去已经讨论了用于HOA编码和解码的几种方法。然而，尚没有用于编码HOA系数的任何结论或一致观点。有利地，根据本发明的格式允许存储大多数已知的HOA表示。定义TrackHOAParam以便使得清楚在编码器侧已经使用了何种系数规范化和顺序序列。在解码器侧必须考虑这些定义，以便混合HOA音轨以及应用解码器矩阵。

HOA系数可以应用于完整的三维声音场，或者仅仅应用于二维x/y-平面。通过音轨HOA参数维度（TrackHOAParamDimension）字段定义HOA音轨（HOATrack）的维度。

感兴趣区域的音轨HOA参数（TrackHOAParamRegionOfInterest）顺序地反映了两个声压扩张，由此源驻留于感兴趣区域内部或外部，并且感兴趣区域不包含任何源。分别在以上方程（1）和（2）中定义了用于内部情况和外部情况的声压计算，由此通过共轭复数球面谐波函数确定HOA信号的方向性信息

。该函数是在复数和实数形式下定义的。编码器和解码器必须应用等效数量类型的球面谐波函数。因此，音轨HOA参数球面谐波类型（TrackHOAParamSphericalHarmonicType）指示在编码器侧已经应用何种球面谐波函数。

如上所述，基本上通过相关联的拉格朗日函数以及复数或实数三角函数来定义球面谐波函数。通过方程（5）定义相关联的拉格朗日函数。复数值球面谐波表示为：

Y_{n}^{m} (θ, φ) = N_{n, m} P_{n, | m |} (\cos (θ)) e^{imφ} {\begin{matrix} {(- 1)}^{m} & ; m &GreaterEqual; 0 \\ 1 & ; m < 0 \end{matrix}

其中，N_n,m是缩放因子（参见方程（3））。使用以下方程，可以将该复数值表示转换为实数值表示：

S_{n}^{m} (θ, φ) = \{\begin{matrix}  \end{matrix} \begin{matrix} \frac{{(- 1)}^{m}}{\sqrt{2}} (Y_{n}^{m} + {Y_{n}^{m}}^{*}) & = {\tilde{N}}_{n, m} P_{n, | m |} (\cos (θ)) \cos (mφ), & m > 0 \\ Y_{n}^{0} & = {\tilde{N}}_{n, m} P_{n, | m |} (\cos (θ)) & m = 0 \\ \frac{- 1}{i \sqrt{2}} (Y_{n}^{m} - {Y_{n}^{m}}^{*}) & = {\tilde{N}}_{n, m} P_{n, | m |} (\cos (θ)) \sin (| m | φ), & m < 0 \end{matrix}

其中，用于实数球面谐波的修改后的缩放因子为：

{\tilde{N}}_{n, m} = \sqrt{2 - δ_{0, m}} N_{n, m}, δ_{0, m} = {\begin{matrix} 1 & ; m = 0 \\ 0 & ; m &NotEqual; 0 \end{matrix} .

对于2D表示，必须将圆谐波函数用于HOA系数的编码和解码。通过来定义圆谐波的复数值表示。

通过

来定义圆谐波的实数值表示。

几个规范化因子N_n,m,

和

被用于将球面或圆谐波函数适配于特定应用或要求。为了确保正确解码HOA系数，在解码器侧必须知道在编码器侧使用的球面谐波函数的规范化。下表7定义了可以利用音轨HOA参数球面谐波规范化（TrackHOAParamSphericalHarmonicNorm）字段选择的规范化。

表7–球面和圆谐波函数的规范化

对于将来规范化，TrackHOAParamSphericalHarmonicNorm字段的专用值是可用的。对于专用规范化，在音轨HOA参数（TrackHOAParam）的结尾定义了用于每个HOA系数的缩放因子。可以将专用缩放因子TrackScalingFactor作为实数或复数'float32'或'float64'值传送。在专用缩放的情况下，在音轨复数值缩放标志（TrackComplexValueScalingFlag）和音轨缩放格式（TrackScalingFormat）字段中定义了缩放因子格式。

福尔斯马勒姆规范化可以另外应用于编码的HOA系数，以便将不同HOA顺序的系数的幅度均衡化为小于'一'的绝对值，以便以整数格式类型传送。福尔斯马勒姆规范化被指定用于高达三阶系数的SN3D实数值球面谐波函数。因此，仅仅推荐将福尔斯马勒姆规范化与SN3D实数值球面谐波函数组合使用。此外，对于具有HOA阶高于三的音轨，忽略音轨HOA参数福尔斯马勒姆标志。在解码器侧必须转换福尔斯马勒姆规范化以便解码HOA系数。表8定义了福尔斯马勒姆系数。

表8－在编码器侧要应用的福尔斯马勒姆规范化因子

音轨HOA参数解码器类型（TrackHOAParamDecoderType）定义了在编码器侧假设在解码器侧出现了何种解码器。解码器类型确定要在解码器侧用来呈现声音场的扬声器模型（球面或平面波）。由此，通过将解码器方程的部分平移到解码器方程，可以降低解码器的计算复杂度。另外，可以降低编码器侧的数值问题。此外，可以将解码器降低到对于所有HOA系数进行相同处理，这是因为解码器侧的所有不一致可以被移动到编码器。然而，对于球面谐波，可以假设扬声器到收听位置具有恒定距离。因此，在TrackHeader中指示了所假设的解码器类型，并且在可选的音轨HOA参数参考半径字段（TrackHOAParamReferenceRadius）中以毫米为单位传送用于球面波解码器类型的扬声器半径r_ls。解码器侧的另外的滤波器可以均衡化所假设的扬声器半径和实际扬声器半径之间的差异。

HOA系数

的音轨HOA参数解码器类型（TrackHOAParamDecoder Type）规范化取决于在TrackHOAParamRegionOfInterest中选择的顺序的内部或外部声音场扩张的使用。注释：方程（18）和以下方程中的系数

对应于下面的系数

。在编码器侧，依据在表9中定义的系数

或

来确定系数

，并且存储系数。在TrackHOAParam头部的TrackHOAParamDecoderTyp字段中指示了所使用的规范化：

表9－用于几种解码器类型规范化的所传送的HOA系数

用于一个时间样本的HOA系数包括系数

的数量TrackHOAParamNumberOfCoeffs(O)。N取决于HOA系数的维度。对于2D声音场，'O'等于2N+1，其中N等于来自TrackHOAParam头部的音轨HOA参数水平阶（TrackHOAParamHorizontalOrder）字段。2D HOA系数被定义为

，其中，-N≤m≤N，并且可以被表示为3D系数的子集，如表10所示。

对于2D声音场，'o'等于(N+1)²，其中N等于来自TrackHOAParam头部的音轨HOA参数垂直阶（TrackHOAParamVerticalOrder）字段。3D HOA系数

被定义用于0≤n≤N和-n≤m≤n在表10中给出了HOA系数的共同表示。

表10－高达四阶的HOA系数表示，将粗体的2D系数示出为3D系数的子集

在3D声音场以及TrackHOAParamHorizontalOrder大于TrackHOAParamVerticalOrder的情况下，将执行混合阶解码。在混合阶信号中，仅在2D中传送一些更高阶系数。TrackHOAParamVerticalOrder字段确定传送其所有系数的垂直阶。从该垂直阶到TrackHOAParamHorizontalOrder，仅使用2D系数。因此，TrackHOAParamHorizontalOrder等于或大于TrackHOAParamVerticalOrder。在表11中绘制了四水平阶和二垂直阶的混合阶表示的示例：

表11－用于二垂直阶和四水平阶的混合阶表示的HOA系数表示

在音轨的分组中存储HOA系数

过去已经不同地定义了系数序列（例如哪个系数在先哪个系数在后）。因此，音轨HOA参数系数序列（TrackHOAParamCoeffSequence）字段指示三种类型的系数序列。这三种序列是从表10的HOA系数排列中导出的。

B-格式序列将特殊措辞（special wording）用于高达三阶的HOA系数，如表12所示：

表12－B-格式HOA系数命名约定

对于B-格式，从最低阶到最高阶传送HOA系数，其中按照字母表顺序传送每一阶的HOA系数。例如，按照序列W,X,Y,S,R,S,T,U,V,K,L,M,N,O,P和Q存储HOA阶三的3D设置的系数。B-格式仅仅被定义高达第三HOA 阶。对于水平（2D）系数的传送，忽略补充性的3D系数，例如W,X,Y,U,V,P,Q。

从最低到最高HOA阶(n=O...N)以数值向上或向下的方式在音轨HOA参数系数序列（TrackHOAParamCoeffSequence）中传送用于3D HOA的系数

。数值向上序列以m=-n开始，并且增加到m=n

，其是在Chris Travis,"Four candidate component sequences",http://ambisonics.googlegroups.com/web/Four+candidate+component+sequences+V09.pdf,2008中定义的‘CG’序列。数值向下序列m按照从m=n到m=-n的另一种方式运行，其是在该发表物中定义的‘QM’序列。

对于2D HOA系数，TrackHOAParamCoeffSequence数值向上和向下序列与3D情况相似，但其中省略具有|m|≠n的无用系数（即，仅仅表10中的部分HOA系数）。因此，数值向上序列导致

，数值向下序列导致

(C_{0}^{0}, C_{1}^{1}, C_{1}^{0}, C_{1}^{- 1}, C_{2}^{2}, C_{2}^{1}, C_{2}^{0}, C_{2}^{- 1}, C_{2}^{- 2}, . . .) .

音轨分组（Track Packet）

HOA音轨分组

PCM编码类型分组

该分组包含按照在TrackHOAParamCoeffSequence中定义的顺序的HOA系数其中连续地传送一个时间样本的所有系数。在TrackSourceType为零并且TrackCodingType为零的情况下，该分组用于标准HOA音轨。

动态分辨率编码类型分组

动态分辨率分组用于'零'的音轨源类型（TrackSourceType）和'一'的音轨编码类型（TrackCodingType）。音轨阶区域（TrackOrderRegion）的不同分辨率导致用于每个TrackOrderRegion的不同存储大小。因此，以去交织方式存储HOA系数，例如连续地存储一个HOA阶的所有系数。

单源音轨分组

单源固定位置分组

单源固定位置分组用于'一'的音轨源类型（TrackSourceType）和'零'的音轨移动源标志（TrackMovingSourceFlag）。该分组保持单声道源的PCM样本。

单源移动位置分组

单源移动位置分组用于'一'的音轨源类型（TrackSourceType）和'一'的音轨移动源标志（TrackMovingSourceFlag）。其保持单声道PCM样本、以及用于TrackPacket的样本的位置信息。

分组方向标志（PacketDirectionFlag）指示分组的方向是否已经改变、或者使用应使用前一分组的方向。为了确保从每帧的开头开始解码，对于帧的第一个移动源TrackPacket，PacketDirectionFlag等于'一'。

对于'一'的PacketDirectionFlag，传送以下PCM样本源的方向信息。取决于TrackPositionType，方向信息被作为球面坐标下的音轨位置矢量（TrackPositionVector）发送，或者作为具有所定义的音轨编码矢量格式（TrackEncodingVectorFormat）的音轨HOA编码矢量（TrackHOAEncodingVector）发送。音轨编码矢量（TrackEncodingVector）生成符合HOA参数头部（HOAParamHeader）字段定义的HOA系数。与方向性信息连续地，传送TrackPacket的PCM单声道样本的方向性信息。

编码处理

音轨区域编码

可以利用麦克风阵列从声音场记录中导出HOA信号。例如，可以使用在WO03/061336A1中公开的Eigenmike来获得阶三的HOA记录。然而，麦克风阵列的有限大小导致对所记录的HOA系数的约束。在WO03/061336A1、以及上述文章"Three-dimensional surround sound systems based on spherical harmonics"中，讨论了由有限麦克风阵列引起的问题。

麦克风单元（capsule）的距离导致空间采样理论给出的上频率边界。在该上频率之上，麦克风阵列不能产生正确的HOA系数。此外，麦克风距HOA收听位置的有限距离要求均衡滤波器。这些滤波器对于低频获得高增益，甚至随着每个HOA阶增高。在WO03/061336A1中，引入了用于高阶系数的低截止频率，以便操纵均衡滤波器的动态范围。这示出了不同HOA阶的HOA系数的带宽可能不同。因此，HOA文件格式提供了音轨区域带宽降低（TrackRegionBandwidthReduction），其使得对于每个HOA阶能够仅传送所需要的频率带宽。

由于均衡滤波器的高动态范围以及由于零阶系数基本上是所有麦克风信号之和的事实，不同HOA阶的系数可能具有不同的动态范围。因此，HOA文件格式也提供了将格式类型适配于每个HOA阶的动态范围的特征。

音轨区域编码处理（TrackRegion Encoding Processing）

如图12所示，交织的HOA系数被送入第一去交织步骤或阶段1211，其被指派给第一音轨区域（TrackRegion）并且将该TrackRegion的所有HOA系数分离到去交织缓冲器中以成为帧分组大小（FramePacketSize）的样本。从HOA音轨头部的音轨区域最后阶（TrackRegionLastOrder）和音轨区域第一阶（TrackRegionFirstOrder）字段中导出的TrackRegion系数。去交织意味着用于n和m的一个组合的系数被编组到一个缓冲器中。从去交织步骤或阶段1211，去交织的HOA系数被传送到音轨区域（TrackRegion）编码部分。其余的去交织的HOA系数被传送到下面的音轨区域去交织部分或阶段等等，直至去交织步骤或阶段121N。去交织步骤或阶段的数量N等于TrackNumberOfOrderRegions加'一'。另外的去交织步骤或阶段125将不是TrackRegion的部分的其余系数去交织到包括格式转换步骤或阶段126的标准处理路径中。

音轨区域编码路径包括可选的带宽降低步骤或阶段1221、以及格式转换步骤或阶段1231，并且对于每个HOA系数缓冲器执行并行处理。如果TrackRegionUseBandwidthReduction字段被设置为'一'，则执行带宽降低。取决于所选择的TrackBandwidthReductionType，选择处理以用于限制HOA系数的频率范围或者用于关键地对HOA系数进行下采样。这被执行来将HOA系数的数量降低到最小所需的样本数量。格式转换将当前的HOA系数格式转换为在HOATrack头部中定义的音轨区域样本格式（TrackRegionSampleFormat）。这是标准处理路径中仅有的将HOA系数转换为HOA音轨头部的所指示的TrackSampleFormat的步骤/阶段。

多路复用器TrackPacket步骤或阶段124将HOA系数缓冲器多路复用到TrackPacket数据文件流中，如在所选择的TrackHOAParamCoeffSequence字段中定义的，其中用于n和m的一个组合的系数

索引（在一个缓冲器内）保持去交织。

音轨区域解码处理（TrackRegion Decoding Processing）

如图13所示，解码处理与编码处理相反。去多路复用器步骤或阶段134将来自所指示的TrackHOAParamCoeffSequence的TrackPacket数据文件或流去多路复用到去交织的HOA系数缓冲器（未示出）中。每个缓冲器包含用于n和m的一个组合的FramePacketLength系数

步骤/阶段134初始化TrackNumberOfOrderRegion加'一'处理路径，并且将去交织的HOA系数缓冲器的内容传送到适当的处理路径。通过HOA音轨头部的TrackRegionLastOrder和TrackRegionFirstOrder字段定义每个TrackRegion的系数。在包括格式转换步骤或阶段136和其余系数交织步骤或阶段135的标准处理路径中处理未被所选择的TrackRegions覆盖的HOA阶。标准处理路径对应于没有带宽降低步骤或阶段的音轨处理路径。

在音轨处理TrackProcessing路径中，格式转换步骤/阶段1331到133N将以TrackRegionSampleFormat编码的HOA系数转换为用于解码器处理的数据格式。取决于TrackRegionUseBandwidthReduction数据字段，接着可选的带宽重构步骤或阶段1321到132N，其中将带宽首先的并且关键采样的HOA系数重构至音轨的全带宽。在HOA音轨头部的TrackBandwidthReductionType字段中定义了重构处理的种类。

在以下交织步骤或阶段1311到131N中，通过将一个时间样本的HOA系数编组，来将HOA系数的去交织的缓冲器的内容交织，将当前TrackRegion的HOA系数与之前TrackRegion的HOA系数组合。可以将HOA系数的结果序列适配至音轨的处理。此外，交织步骤/阶段处理使用带宽降低的音轨区域（TrackRegions）和不使用带宽降低的音轨区域之间的延迟，该延迟取决于所选择的音轨带宽降低类型（TrackBandwidthReductionType）处理。例如，MDCT处理添加帧分组大小（FramePacketSize）样本的延迟，并且因此没有带宽降低的处理路径的交织步骤/阶段将其输出延迟一个分组。

经由MDCT的带宽降低（Bandwidth reduction via MDCT）

编码

图14示出了使用MDCT（修改的离散余弦变换）处理的带宽降低。经由缓冲器1411到141M，FramePacketSize样本的音轨区域（TrackRegion）的每个HOA系数经过对应的MDCT窗添加步骤或阶段1421到142M。每个输入缓冲器包含n和m的一个组合的时间连续的HOA系数

，即，一个缓冲器被定义为

缓冲器的数量M与高保真度立体声响复制分量的数量相同（对于阶N的全3D声音场，为((N+1)²）。通过将之前缓冲器内容与当前缓冲器内容组合为用于对应步骤或阶段1431到143M中以下MDCT处理的新内容，缓冲器处理执行用于该MDCT处理的50%重叠，并且其存储当前缓冲器内容以用于下面缓冲器内容的处理。MDCT处理在每帧的开头处重启，这意味着可以在不知道之前帧的情况下解码当前帧的音轨的所有系数，在当前帧的最后缓冲器内容之后，处理零另外缓冲器内容。因此，MDCT处理后的TrackRegions产生一个额外TrackPacket。

在窗口添加步骤/阶段中，将对应缓冲器内容与所选择的窗口函数w(t)相乘，在用于每个TrackRegion的HOATrack头部字段TrackRegionWindowType中定义了该函数。

在J.P.Princen,A.B.Bradley,"Analysis/Synthesis Filter Bank Design Based on Time Domain Aliasing Cancellation",IEEE Transactions on Acoustics,Speech and Signal Processing,vol.ASSP-34,no.5,pages1153–1161,1986年10月中首次提到了修改的离散余弦变换。MDCT可以被考虑为表示FramePacketSize子带的关键采样的滤波器组，并且其要求50%输入缓冲器重叠。输入缓冲器具有两倍于子带大小的长度。通过以下方程定义MDCT，其中T等于FramePacketSize，对于0≤k＜T,

{C^{'}}_{n}^{m} (k) = Σ_{t = 0}^{2 T - 1} w (t) C_{n}^{m} (t) \cos [\frac{π}{T} (t + \frac{T + 1}{2}) (k + \frac{1}{2})]

系数

被称为MDCT库。使用快速傅立叶变换，可以实现MDCT计算。

在以下频率区域消减步骤或阶段1441到144M中，通过移除具有k<TrackRegionFirstBin和k>TrackRegionLastBin的所有MDCT库

来执行带宽降低，以便将缓冲器长度降低到TrackRegionLastBin–TrackRegionFirstBin+1，其中，TrackRegionFirstBin是音轨区域的低截止频率，TrackRegionLastBin是高截止频率。可以将MDCT库的忽略视作表示具有与TrackRegionLastBin和TrackRegionFirstBin频率对应的截止频率的带通滤波器。因此，仅仅传送所需的MDCT库。

解码

图15示出了使用MDCT处理的带宽解码或重构，其中，带宽受限的音轨区域的HOA系数被重构到音轨的全带宽。该带宽重构并行地处理在时间上去交织的HOA系数的缓冲器内容，其中，每个缓冲器包含系数的TrackRegionLastBin–TrackRegionFirstBin+1个MDCT库。

丢失频率区域添加步骤或阶段1541到154M通过利用使用零的丢失MDCT库的TrackRegionFirstBin和TrackRegionLastBin补充所接收的MDCT库，来重构帧分组长度（FramePacketLength）大小的完整MDCT缓冲器内容。此后，在对应的逆MDCT步骤或阶段1531到153M中执行逆MDCT，以便重构时间域HOA系数

。逆MDCT可以被解释为合成滤波器组，其中，帧分组长度（FramePacketLength）的MDCT库被转换为两倍帧分组长度的时域系数。然而，时域样本的完整重构要求与在编码器中使用的窗口函数w(t)与当前缓冲器内容的前一半和前一缓冲器内容的后一半的重叠相加的乘法。通过以下方程定义逆MDCT，对于O<t<T

C_{n}^{m} (t) = \frac{w (t)}{2 T} Σ_{t = 0}^{T - 1} {C^{'}}_{n}^{m} (k) \cos [\frac{π}{T} (t + \frac{T + 1}{2}) (k + \frac{1}{2})]

像MDCT，使用快速傅立叶逆变换，可以实现逆MDCT。

MDCT窗口添加步骤或阶段1521到152M将重构的时域系数与由音轨区域窗口类型（TrackRegionWindowType）定义的窗口函数相乘。下面的缓冲器1511到151M将当前音轨分组缓冲器内容的前一半到最后音轨分组缓冲器内容的后一半相加，以便重构帧分组大小（FramePacketSize）的时域系数。存储当前音轨分组缓冲器内容的后一半以用于下面音轨分组的处理，重叠相加处理移除了两个缓冲器内容的相反混叠分量。

对于多帧HOA文件，禁止编码器使用前一帧的最后缓冲器内容，以便在新帧的开头处进行重叠相加例程。因此，在帧边界或者在新帧的开头处，重叠相加的缓冲器内容丢失，并且在第二音轨分组处可以执行帧的第一音轨分组的重构，由此与没有带宽降低的处理路径相比，引入了一个帧分组和解码一个额外音轨分组的延迟。通过结合图13描述的交织步骤/阶段来处理该延迟。

Claims

1.一种高阶高保真度立体声响复制HOA音频数据的数据结构，包括高保真度立体声响复制系数，该数据结构包括用于一个或多个不同HOA音频数据流描述的2D和/或3D空间音频内容，并且该数据结构也适用于具有大于'3'阶的HOA音频数据，该数据结构另外还包括单音频信号源数据和/或来自固定或时变空间位置的麦克风阵列音频数据，

其中，所述不同HOA音频数据流描述与不同扬声器位置密度、编码的HOA波类型、HOA阶和HOA维度中的至少两个有关，

以及其中，一个HOA音频数据流描述包含用于具有位于呈现位置（10）的不同区域处的密集扬声器布置(11,21)的呈现的音频数据，另一HOA音频数据流描述包含用于具有环绕所述呈现点（10）的不太密集扬声器布置(12,22)的呈现的音频数据。

2.如权利要求1所述的数据结构，其中，用于所述密集扬声器布置(11,21)的所述音频数据表示球面波和第一高保真度立体声响复制阶，用于所述不太密集扬声器布置(12,22)的所述音频数据表示平面波和/或小于所述第一高保真度立体声响复制阶的第二高保真度立体声响复制阶。

3.如权利要求1或2所述的数据结构，其中，所述数据结构充当场景描述，其中，音频场景的音轨可以在任何时间开始或结束。

4.如权利要求1到3之一所述的数据结构，其中，所述数据结构包括关于以下的数据项：

－与收听区域外部或内部的音频源有关的感兴趣区域；

－球形基函数的规范化；

－传播方向性；

－高保真度立体声响复制系数缩放信息；

－高保真度立体声响复制波类型，例如平面或球面

－在球面波情况下，用于解码的参考半径。

5.如权利要求1到4之一所述的数据结构，其中，所述高保真度立体声响复制系数是复数系数。

6.如权利要求1到5之一所述的数据结构，其中，所述数据结构包括关于用于一个或多个麦克风的方向和特性的元数据，并且/或者包括用于单源输入信号的至少一个编码矢量。

7.如权利要求1到6之一所述的数据结构，其中，所述高保真度立体声响复制系数的至少部分被带宽降低，从而对于不同的HOA阶，相关的高保真度立体声响复制系数的带宽是不同的(1221-122N)。

8.如权利要求7所述的数据结构，其中，所述带宽降低基于MDCT处理(1431-143M)。

9.一种根据如权利要求1到8之一所述的数据结构的编码和排列数据的方法。

10.一种音频呈现方法，其中，接收包含至少两个不同HOA音频数据信号的HOA音频数据流，并且使用(231,232)它们中的至少第一流来利用位于呈现点（10）的不同区域处的密集扬声器布置(11,21)进行呈现，使用(241,242,243)它们中的至少第二流和不同流来利用环绕所述呈现点（10）的不太密集扬声器布置(12,22)进行呈现。

11.如权利要求10所述的方法，其中，用于所述密集扬声器布置(11,21)的所述音频数据表示球面波和第一高保真度立体声响复制阶，用于所述不太密集扬声器布置(12,22)的所述音频数据表示平面波和/或小于所述第一高保真度立体声响复制阶的第二高保真度立体声响复制阶。

12.如权利要求1或2的数据结构，或者如权利要求10或11所述的方法，其中，所述呈现点是电影院中的收听区域或座位区域。

13.一种被适配为执行如权利要求10或11所述的方法的装置。