CN101860784A

CN101860784A - 多声道音频信号表示方法

Info

Publication number: CN101860784A
Application number: CN201010183360A
Authority: CN
Inventors: 海科·普哈根; 拉尔斯·维尔默斯; 约纳斯·恩德加; 约纳斯·勒登; 克里斯托弗·薛林
Original assignee: Dolby International AB
Current assignee: Dolby International AB; Coding Technologies Sweden AB
Priority date: 2004-04-16
Filing date: 2005-04-12
Publication date: 2010-10-13
Anticipated expiration: 2025-04-12
Also published as: US10440474B2; JP4603037B2; US11647333B2; US20170229131A1; US20070258607A1; US9621990B2; JP2011018060A; ATE373301T1; JP5185337B2; US10244321B2; EP1695338A1; CN1930608A; US8223976B2; US10250984B2; CN102157155A; US10499155B2; ES2293578T3; TWI334736B; US9972328B2; PL1695338T3

Abstract

含至少三个原始声道的多声道输入信号采用多声道信号的参数表示方式进行表示。计算出第一声道对之间的第一平衡参数(r₁)、第一相干参数或者第一声道间时间差和第二声道对之间的第二平衡参数(r₂)、或第二相干参数或者第二声道间时间差参数。这组参数就是原始信号的参数表示。第一声道对(102，104)有两个声道，它们不同于第二声道对(102，104，103)中的两个声道。此外，两个声道对中的每个声道都是原始声道之一、或者原始声道的加权组合，并且第一声道对和第二声道对包含关于三个原始声道的信息。为了多声道重建的目的，以可扩展方式运用参数并结合缩混信息来产生数目可选的输出声道。

Description

多声道音频信号表示方法

技术领域

本发明涉及对使用空间参数的音频信号的多声道表示进行编码。本发明讲授了用于估计和定义合适参数的新方法，来从数目少于输出声道数的声道中再现多声道信号。具体地，本发明的目标在于最小化多声道表示的比特率，以及为所有可能的声道配置提供能实现数据简易编码和解码的多声道信号的编码表示。

背景技术

如PCT/SE02/01372”Efficient and scalable Parametric StereoCoding for Low Bit rate Audio Coding Applications”中所示，可以从给定了立体声图像压缩表示的单声道信号中再现出和原始立体声图像非常接近的立体声图像。基本原理是将输入信号划分成频带和时间段，对这些频带和时间段，估算声道间强度差(IID)和声道间相干度(ICC)。第一个参数是在特定的频带上对功率在两声道间分布的测量，而第二个参数是在特定的频带上对两声道间相干度的估计。在解码器一侧，通过按照IID-数据把单声道信号在两个输出声道间分布以及加入一解相关信号来保留原始立体声声道的声道相干度，从而将立体声图像从单声道信号中再现出来。

对于多声道的情况(多声道在上下文中指多于两个输出声道)，不得不考虑若干额外的问题。目前存在若干种多声道配置。最熟知的是5.1配置(中声道，前置左/右，环绕左/右，和LFE声道)。但是也存在许多其它配置。根据完整的编码/解码系统的观点，希望得到的系统能对所有的声道配置使用相同的参数集(例如IID和ICC)或其子集。ITU-R BS.775定义了若干缩混(down-mix)方案，能够从给定的声道配置中获得由更少声道组成的声道配置。和总是不得不对所有声道解码以及对缩混的依赖不同，希望得到一种多声道表示，使接收机在对声道解码之前能够提取和现有声道配置相关的参数。此外，根据可扩展或嵌入式编码的观点，希望得到内在可扩展的参数集，其中，例如在比特流的增强层存储与环绕声道相对应的数据是可能的。

和上述相反，还希望得到的是能够基于被处理信号的特性采用不同的参数定义，来在参数化之间切换，这导致针对当前所处理信号段的最小比特率开销。

本领域中还有另一种所熟知的采用加和信号或缩混信号以及附加参数侧面信息的多声道信号表示，叫做双声道提示编码(BCC，binaural cue coding)。此项技术在″Binaural Cue Coding-Part 1：Psycho-Acoustic Fundamentals and Design Principles″，IEEETransactions on Speech and Audio Processing，vol.11，No.6，November2003，F.Baumgarte，C.Faller，和″Binaural Cue Coding.Part II：Schemesand Applications″，IEEE Transactions on Speech and Audio Processingvol.11，No.6，November 2003，C.Faller and F.Baumgarte中进行了描述。

一般来说，双声道提示编码是一种根据一个缩混音频声道和侧面信息进行多声道空间呈现的方法。由BCC编码器计算及BCC解码器使用的用于音频重建和音频呈现的若干参数包括声道间幅度差，声道间时间差和声道间相干参数。这些声道间提示是感知空间图像的决定性因素。针对原始多声道信号的多个时间样本块给出这些参数，并且这些参数的给出具有频率选择性，使得多声道信号的每一个样本块对若干个频段有若干个提示。对于C回放声道的一般情况，在声道对之间每个子带中考虑声道间幅度差和声道间时间差，也就是说相对于参考声道考虑每一个声道。针对每个声道间幅度差都定义一个声道作为参考声道。通过声道间幅度差和声道间时间差，将音源呈现到所使用的回放设备的某一扬声器对之间的任何方向上是有可能的。为了确定所呈现音源的广度或扩散，对所有的音频声道来说每个子带考虑一个参数就足够了。这个参数就是声道间相干参数。所呈现音源的宽度通过修改子带信号来控制，使得所有可能的声道对具有相同的声道间相干参数。

在BCC编码中，所有的声道间幅度差在参考声道1和其它声道之间来确定。例如当中声道被确定为参考声道时，将计算出左声道和中声道之间的第一声道间幅度差、右声道和中声道之间的第二声道间幅度差、左环绕声道和中声道之间的第三声道间幅度差以及右环绕声道和中声道之间的第四声道间幅度差。这一情况描述了五声道的配置方案。当五声道配置方案另外包括一低频加强声道也就是所熟知的“重低音”声道时，将计算出低频加强声道和中声道也就是唯一的参考声道之间的第五声道间幅度差。

当使用一个缩混声道也即被称为“单声道”的声道，以及使用传输提示如ICLD(声道间幅度差)、ICTD(声道间时间差)和ICC(声道间相干)来重建原始多声道时，通过使用这些提示来修改单声道信号的频谱系数。通过使用用来为每个频谱系数确定幅度修正的正实数来完成幅度修正。通过使用用来为每个频谱系数确定相位修正的复数数值来生成声道间时间差。另一函数确定了相干度影响。每个声道用于幅度修正的因子通过首先计算参考声道的因子来算出。参考声道因子的计算使得对每个频率部分，所有声道的功率之和等于信号和的功率。然后，根据参考声道的幅度修正因子，其他声道的幅度修正因子可以用相应的ICLD参数计算出来。

于是，为了完成BCC合成，要计算出参考声道的幅度修正因子。对于该计算，一频带的所有ICLD参数都是必需的。然后，根据该单个声道的幅度修正，将计算出其它声道也就是非参考声道的幅度修正因子。

这种方法的缺点在于，为了完全重建，需要每一个声道间幅度差。当存在易出错的传输信道时，这个要求就更成问题了。传输的声道间幅度差中的每一个错误将导致重建的多声道信号的错误，因为需要每个声道间幅度差来计算多声道输出信号的每个声道。此外，当一个声道间幅度差在传输中丢失，重建就是不可能的，尽管这个声道间幅度差仅仅对例如左环绕声道或右环绕声道是必需的，而左环绕或右环绕声道对多声道重建并不太重要，因为多数信息包含在了左前置声道即后来被称作的左声道、右前置声道即后来被称作的右声道或中声道中。当低频加强声道的声道间幅度差在传输中丢失，这种情形变得甚至更糟。在这种情况下，没有或者仅有错误的多声道重建是可能的，尽管低频加强声道对听众的听觉舒适度不太具有决定性。所以，单个的声道间幅度差中的错误蔓延成每个重建输出声道中的错误。

此外，现有的BCC方案，即在AES会议文章5574，″Binaural CueCoding applied to Stereo and Multi-channel Audio Compression″，C.Faller，F.Baumgarte，May 10 to 13，2002，Munich，Germany中描述的方案，当考虑直觉聆听场景时，因为仅有的一个参考声道，是不太适宜的。将每个事物都联系到单一的参考声道对人类来说是不自然的，当然，这是整个音频处理的最终目标。不同的是，人有两只耳朵，位于头部不同的两侧。所以，人的自然听觉印象是，信号是否更向左或者更向右平衡，或者在前后之间平衡。与其相反的是，让人感觉音场中某声源在各个扬声器相对于单个参考扬声器之间是否处于某种平衡，这是不自然的。当考虑比特率要求、可扩展性要求、灵活性要求、重建人工信号要求或者错误鲁棒性要求时，这种一方面是自然听觉印象而另一方面是BCC的数学/物理模型之间的分歧可能导致编码方案的负面结果。

发明内容

本发明的目的是提供表示多声道音频信号的改进思想。

这个目的通过根据权利要求1所述的用于产生多声道输入信号的参数表示的设备、根据权利要求21所述的用于产生重建的多声道表示的设备、权利要求31或32所述的方法、根据权利要求33所述的计算机程序或者根据权利要求34所述的参数表示来实现。

本发明基于如下的发现，即对于多声道表示，必须依靠声道对之间的平衡参数。而且，还发现通过提供至少两个不同的平衡参数，即表示两个不同声道对之间平衡的参数，多声道信号的参数表示是可能实现的。具体地，灵活性、可扩展性、错误鲁棒性以至比特率效率都是如下事实的结果，即作为第一平衡参数基础的第一声道对和作为第二平衡参数基础的第二声道对是不同的，其中，形成这些声道对的四个声道互不相同。

所以，本发明的思想和单一的参考声道的思想不同，而是采用了多平衡或者超平衡的思想，这种思想对人的听觉感受来说更直观、更自然。具体地，作为第一和第二平衡参数基础的声道对可以包含原始声道、缩混声道，或者优选的，输入声道间的特定组合。

已经发现，从作为声道对第一声道的中声道以及作为声道对第二声道的原始左声道和原始右声道之和得出的平衡参数，对于在中声道、左声道和右声道之间提供准确的能量分布特别有用。还要在上下文中注意的是，这三个声道一般涵盖了声音情景的大部分信息，其中特别是左右立体声定位不仅仅受到左右之间平衡的影响，还受到中声道与左右声道之和之间平衡的影响。这个发现通过使用基于本发明优选实施例的该平衡参数来反映。

优选地，当传输一个单声道缩混信号时，还发现，除了中/左加右平衡参数之外，左/右平衡参数、后左/后右平衡参数以及前/后平衡参数是具有高效比特率参数表示的最佳解决方案，这种参数表示灵活，抗错能力好，并且具有相当的保真度。

在接收机侧，和BCC合成中仅通过传输的信息来计算每个声道不同，本发明的多平衡表示利用关于用来产生缩混声道的缩混方案的信息。于是，根据本发明，除了平衡参数，在现有技术系统中并不使用的缩混方案信息，也在上混(up-mix)中使用。因此执行上混操作，使得重建多声道信号内形成平衡参数所依赖的声道对的声道之间的平衡由该平衡参数决定。

这种思想，也就是对不同的平衡参数形成不同的声道对，使得在对每个传输的平衡参数不知晓得情况下可以获得一些声道。具体地，根据本发明，在不知晓任何后左/后右平衡或前/后平衡的情况下，仍可以对左、右和中声道进行重建。这种效果为非常细微调节的可扩展性提供了可能，因为从比特流中提取附加参数或者传输附加平衡参数到接收机，都将允许重建一个或多个附加声道。这和现有技术的单一参考系统不同，在现有技术的单一参考系统中，需要每个声道间幅度差来重建所有重建输出声道中的全部或者一组声道。

本发明的思想也是有灵活性的，其中平衡参数的选择可适应特定的重建环境。例如，当五声道配置结构形成原始的多声道信号结构时，且当四声道结构形成重建多声道结构时，其中该结构只有一个环绕扬声器，例如该扬声器位于听者之后，前后平衡参数在对左环绕声道和右环绕声道不知晓的情况下为计算组合环绕声道提供可能。这和单一参考声道系统不同，单一参考声道系统中必须从数据流中提取左环绕声道的声道间幅度差及右环绕声道的声道间幅度差。然后，必须计算出左环绕声道和右环绕声道。最后，必须将两声道叠加来获得四声道重现结构的一个环绕扬声器声道。在更具直觉感知的和更具有听者导向的平衡参数表示中上述所有步骤都不是必须执行的，因为这种表示由于平衡参数表示自动产生出组合环绕声道，这种表示不是和单一的参考声道关联，而是允许将原始声道的组合作为平衡参数声道对的声道。

本发明涉及音频信号的参数化多声道表示的问题。提供了一种高效率的方式来为多声道表示定义合适的参数，且提供了一种不需要对所有声道进行解码就能提取出用于表示想要声道的参数的能力。本发明进一步解决了为给定信号段选择最佳参数配置使得对给定信号段的空间参数进行编码所需的比特率最小化的问题。本发明还概述了如何应用之前仅对一般多声道环境的两个声道情况才适用的解相关方法。

在优选实施例中，本发明有以下特征：

-在编码器一侧将多声道信号缩混到单声道或双声道表示；

-在给定多声道信号的条件下，定义表示多声道信号的参数，或者灵活的以每帧为基础以最小化比特率，或者使得解码器能在比特流层上提取出声道配置；

-在解码器一侧，给定解码器当前所支持的声道配置，提取相关的参数集；

-给定当前的声道配置，生成所需数量的互相解相关的信号；

-给定从比特流数据中解码得到的参数集以及解相关的信号，再现输出信号。

-多声道音频信号参数化的定义，使得相同的参数或者参数的子集的使用和声道配置无关。

-多声道音频信号参数化的定义，使得参数可在可扩展编码方案中应用，其中参数集的子集在可扩展数据流的不同层中传输。

-多声道音频信号参数化的定义，使得解码器输出信号的能量重建，不会被用来对缩混信号进行编码的底层音频编解码器所破坏。

-不同多声道音频信号参数化之间的切换，使得用来对参数化进行编码的比特率开销最小化。

-多声道音频信号参数化的定义，其中包含表示缩混信号的能量修正因子的参数。

-使用若干互相解相关的解相关器来重现多声道信号。

-根据基于所传输的参数集而计算出的上混矩阵H，重现多声道信号。

附图说明

本发明将参考附图通过说明性的例子来描述，当然发明的范围或精神不限于此，附图中：

图1图示了本发明中的用于5.1声道配置的术语；

图2图示了本发明的可能的编码器实现；

图3图示了本发明的可能的解码器实现；

图4图示了本发明的一优选多声道信号参数化方案；

图5图示了本发明的一优选多声道信号参数化方案；

图6图示了本发明的一优选多声道信号参数化方案；

图7图示了产生一个基本声道或两个基本声道的缩混方案的示意性结构；

图8图示了基于本发明的平衡参数和关于缩混方案的信息的上混方案的示意性结构；

图9a图示了编码器一侧幅度参数的确定；

图9b图示了解码器一侧幅度参数的使用；

图10a图示了在比特流的不同层拥有多声道参数化的不同部分的可扩展比特流；

图10b图示了可扩展性表格，指示用哪些平衡参数能构建哪些声道，而哪些平衡参数和声道是不使用的或不计算的；以及

图11图示了基于本发明的上混矩阵的应用。

具体实施方式

下述的实施例仅仅是为了阐述本发明关于音频信号多声道表示的原理。将认识到，对此处描述的布置和细节的修改和变更对于本领域其他技术人员来说是显而易见的。因此，目的仅仅是将其受限于即将作出的权利要求的范围，而不受限于此处描述的详细细节和对实施例的阐释。

在如下对本发明的描述中，概述了如何参数化IID和ICC参数，以及如何使用它们来重现音频信号的多声道表示，其中假设所有涉及的信号是滤波器组中的子带信号，或者是相应声道的全部频率范围中一部分的某些其他频率选择性表示。所以认识到，本发明不限于特定的滤波器组，且本发明在下文中对信号的子带表示的一个频带进行了概述，并且相同的操作适用于所有的子带信号。

尽管平衡参数被称作“声道间强度差(IID)”参数，要强调的是，声道对之间的平衡参数并不必须是声道对中第一声道的能量或强度与声道对中第二声道的能量或强度之间的比率。一般，平衡参数表示声源在声道对的两个声道之间的定位。尽管该定位通常由能量/幅度/强度差给出，也可以使用信号的其他特性，如两个声道的功率量度或者声道的时间或频率包络等。

图1中可见用于5.1声道配置的不同声道，其中a(t)101表示左环绕声道，b(t)102表示左前置声道，c(t)103中声道，d(t)104表示右前置声道，e(t)105表示右环绕声道，以及f(t)106表示LFE(低频声效)声道。

假设定义期望算符为：

E [f (x)] = \frac{1}{T} {&Integral;}_{0}^{T} f (x (t)) dt

那么可根据如下公式定义上文概述的声道的能量(这里以左环绕声道为例)：

A＝E[a²(t)]

这五个声道在编码器一侧被缩混(down-mix)到两声道表示或者单声道表示。可以用若干方法完成缩混，通常使用的方法是ITU缩混，其定义如下：

5.1到两声道缩混：

l_d(t)＝ab(t)+βa(t)+γc(t)+δf(t)

r_d(t)＝ad(t)+βe(t)+γc(t)+δf(t)

5.1到单声道缩混：

m_{d} (t) = \sqrt{\frac{1}{2}} (l_{d} (t) + r_{d} (t))

常数α、β、γ和δ的常用值为：

α＝1，

β = γ = \sqrt{\frac{1}{2}}

以及δ＝0。

IID参数被定义为两个任意选出的声道或者声道加权组的能量比率。给定上文概述的5.1声道配置的声道能量，可以定义若干组IID参数。

图7显示了一般缩混器700，它使用了上述公式来计算单一声道m或两个优选地基于立体声的声道l_d和r_d。一般的，缩混器使用特定的缩混信息。在优选的线性缩混实施例中，缩混信息包括加权因子α、β、γ和δ。在本领域中已知，可以使用更多或更少的常量或非常量的加权因子。

在ITU推荐的缩混中，α设为1，β和γ设为相等值，同为0.5的平方根，而δ设为0。一般来说，α因子可在1.5到0.5之间变化。另外，β和γ可以互不相等，并且在0和1之间变化。对低频加强声道f(t)是一样的。该声道的因子δ可在0和1之间变化。另外，用于左缩混和右缩混的因子不需要彼此相等。当考虑非自动缩混，例如由声音工程师来执行时，这种情况变得很清楚。声音工程师更注重执行创新性的缩混，而不是由数学法则支配的缩混。不同的是，声音工程师受他自己创新性感受的支配。当这种“创新性”缩混被特定的参数集记录之后，它将根据本发明被发明性的上混(up-mix)器所使用，如图8所示，该上混器不仅受参数支配，还受缩混方案的额外信息支配。

当如图7所示，执行线性缩混，加权参数就是关于缩混方案的优选信息，将被上混器使用。但是，当用在缩混方案中的其它信息存在时，这些信息也可作为关于缩混方案的信息被上混器使用。这样的其它信息，例如可以是上混矩阵中的特定矩阵元素或矩阵元素中的特定因子或函数，例如，如图11中所示。

给定图1中概述的5.1声道配置，并注意其它声道配置如何与5.1声道配置关联：对于三声道的情况，其中环绕声道无法获得，也就是说，根据上述符号，B、C和D可以获得。对于四声道配置，B、C和D可以获得，并且表示单一环绕声道的A和E的组合也可以获得，它在本文中更经常的被表示为后置声道。

本发明定义了适用于所有这些声道的IID参数，也就是说，5.1声道配置的四声道子集在描述5.1声道的IID参数集中有相应的子集。

如下的IID参数集解决了此问题：

r_{1} = \frac{L}{R} = \frac{α^{2} B + β^{2} A + γ^{2} C + δ^{2} F}{α^{2} D + β^{2} E + γ^{2} C + δ^{2} F}

r_{2} = \frac{γ^{2} 2 C}{α^{2} (B + D)}

r_{3} = \frac{β^{2} (A + E)}{α^{2} (B + D) + γ^{2} 2 C}

r_{4} = \frac{β^{2} A}{β^{2} E} = \frac{A}{E}

r_{5} = \frac{δ^{2} 2 F}{α^{2} (B + D) + β^{2} (A + E) + γ^{2} 2 C}

显而易见，r₁参数对应左缩混声道和右缩混声道之间的能量比。r₂参数对应中声道和左右前置声道之间的能量比。r₃参数对应三个前置声道和两个环绕声道之间的能量比。r₄参数对应两个环绕声道之间的能量比。r₅参数对应了LFE声道和所有其它声道之间的能量比。

图4图示了上文解释的能量比。不同的输出声道由101至105表示，和图1中一样，因此这里不再详细描述。扬声器设置被分为左半和右半部分，其中中声道103各属于两半部分中的一部分。根据本发明，左半面和右半面之间的能量比恰恰就是提到的参数r₁。这由图4中r₁下面的实线表示。另外，根据本发明，在中声道103、左前置102和右前置104之间的能量分布由r₂表示。最后，在全部的前置声道设置(102、103和104)和后置声道(101和105)之间的能量分布由图4中r₃参数旁的箭头所示。

给定以上参数化方案以及传输的单一缩混声道的能量：

M = \frac{1}{2} (α^{2} (B + D) + β^{2} (A + E) + 2 γ^{2} C + 2 δ^{2} F),

重建声道的能量可以表示为：

F = \frac{1}{2 γ^{2}} \frac{r_{5}}{1 + r_{5}} 2 M

A = \frac{1}{β^{2}} \frac{r_{4}}{1 + r_{4}} \frac{r_{3}}{1 + r_{3}} \frac{1}{1 + r_{5}} 2 M

E = \frac{1}{β^{2}} \frac{1}{1 + r_{4}} \frac{r_{3}}{1 + r_{3}} \frac{1}{1 + r_{5}} 2 M

C = \frac{1}{{2 γ}^{2}} \frac{r_{2}}{1 + r_{2}} \frac{1}{1 + r_{3}} \frac{1}{1 + r_{5}} 2 M

B = \frac{1}{α^{2}} (2 \frac{r_{1}}{1 + r_{1}} M - β^{2} A - γ^{2} C - δ^{2} F)

D = \frac{1}{α^{2}} (2 \frac{1}{1 + r_{1}} M - β^{2} E - γ^{2} C - δ^{2} F)

于是M信号的能量可以被分布到重建声道中，导致重建声道具有和原始声道相同的能量。

在图8中图示了上述优选的上混方案。根据关于F、A、E、C、B和D的公式，显而易见，上混器所使用的关于缩混方案的信息就是加权因子α，β，γ和δ，这些因子用来对原始声道进行加权，然后将如此加权或未加权的声道叠加在一起或彼此相减，以获得一定数量的缩混声道，这些缩混声道的数量小于原始声道的数量。所以，根据图8可知，根据本发明，重建声道的能量不仅由从编码器一侧传输到解码器一侧的平衡参数确定，还由缩混因子α，β，γ和δ确定。

当考虑图8时，显而易见，为计算左和右声道能量B和D，在公式中用到已经计算出的声道能量F、A、E、C。但是，这并不必然地意味着顺序上混方案。相反，为获得完全并行的上混方案，例如通过运用含有特定上混矩阵元素的特定上混矩阵来执行的方案，A、C、E和F的公式被插入到B和D的公式中。于是，显而易见，重建声道能量仅仅由平衡参数、缩混声道和关于缩混方案的信息例如缩混因子来确定。

给定以上的IID参数，显而易见的是，定义用于若干声道配置的IID参数的参数集的问题得到了解决，这在下文中表现的很明显。作为一个例子，注意三声道配置(也就是说，从一个可用声道中重现三个前置声道)，显而易见的是r₃、r₄和r₅参数是无用的，因为A、E和F声道不存在。还显然的是，参数r₁和r₂对于从缩混的单一声道中重现三声道是足够的，因为r₁描述的是左和右前置声道之间的能量比，并且r₂描述的是中声道与左和右前置声道之间的能量比。

在更一般的情况下，很容易发现上述定义的IID参数(r₁…r₅)适用于从m个声道中重现n个声道的所有子集。其中m＜n≤6。注意图4，可以认为：

-对于从1个声道中重现2个声道的系统，从r₁参数中获得充足的信息，来保持声道间正确的能量比。

-对于从1个声道中重现3个声道的系统，从r₁和r₂参数中获得充足的信息，来保持声道间正确的能量比。

-对于从1个声道中重现4个声道的系统，从r₁、r₂和r₃参数中获得充足的信息，来保持声道间正确的能量比。

-对于从1个声道中重现5个声道的系统，从r₁、r₂、r₃和r₄参数中获得充足的信息，来保持声道间正确的能量比。

-对于从1个声道中重现5.1声道的系统，从r₁、r₂、r₃、r₄和r₅参数中获得充足的信息，来保持声道间正确的能量比。

-对于从2个声道中重现5.1声道的系统，从r₂、r₃、r₄和r₅参数中获得充足的信息，来保持声道间正确的能量比。

在图10b中的表图示了上述可扩展性特征。图10a中图示并将在稍后阐释的可扩展比特流也可以适用于图10b中的表，来获得比图10a所示精确的多的可扩展性。

本发明的思想对于下述情况有着特别的优势，即对其它平衡参数不知晓也没有提取，仅从单一平衡参数r₁中就可以轻松重建左和右声道。为此，在图8里B和D的公式中，声道A、C、E和F都简单的设为0。

作为选择，当只考虑平衡参数r₂时，重建声道一方面是中声道和低频声道(当这个声道没有设为0时)之间的叠加，另一方面是左和右声道之间的叠加。所以只使用单个参数，一方面可重建中声道，另一方面可重建单声道信号。这个特点可以对简单的三声道表示产生用处，其中左信号和右信号从左右声道的叠加中获得，例如二等分的，而中声道和左右声道之和之间的能量通过平衡参数r₂来准确确定。

在上下文中，平衡参数r₁或r₂位于低扩展(scaling)层。

关于图10b中表的第二个条目，表示3个声道B、D及C与F的和是如何采用两个平衡参数而不是5个平衡参数来获得的，这些参数r₁和r₂之一可能处于比位于较低扩展层中的参数r₁或r₂高的扩展层中。

当考虑图8中的公式时，显而易见，为了计算C，未提取出的参数r₅和其它未提取出的参数r₃被设为0。另外，未使用的声道A、E、F也被设为0，使得能计算出三个声道B、D和中声道C与低频加强声道F的和。

当4声道的表示被上混时，从参数数据流中只提取出参数r₁、r₂和r₃就足够了。在上下文中，r₃可以比其它参数r₁或r₂处于下一较高扩展层。4声道配置与本发明的超级平衡参数表示相结合是特别合适的，因为正如后面将连同图6进行的描述，第三平衡参数r₃已经从一边的前置声道和另一边的后置声道的组合中获得。这是因为这样的事实，即参数r₃是前-后平衡参数，它是根据具有后置声道A和E的组合作为第一声道以及左声道B、右声道E和中声道C的组合作为前置声道的声道对得到的。

所以两个环绕声道的组合声道能量没有另外单独的计算和随后的组合就可自动获得，而在单一参考声道结构中，就存在另外单独的计算和随后的组合的情况。

当必须从单一声道中重现5声道时，另外的平衡参数r₄是必需的。参数r₄可以再次处于下一个更高的扩展层。

当必须执行5.1的重建时，每个平衡参数都是需要的。因此，包含下一个平衡参数r₅的下一个更高的扩展层将不得不被传送到接收机，并被接收机估算。

但是，使用同样的方法，根据声道的扩展数目来扩展IID参数，上述的IID参数可以通过扩展，来覆盖声道数比5.1配置的声道数还要大的声道配置s。因此，本发明不限于上述示例。

现在注意的情况是，声道配置是5.1声道配置，这是最常用的情况。而且，假设5.1声道从两个声道中重建。这种情况下，可以通过如下参数替换参数r₃和r₄来定义不同的参数集：

q_{3} = \frac{β^{2} A}{α^{2} B}

q_{4} = \frac{β^{2} E}{α^{2} D}

参数q₃和q₄分别表示前置与后置左声道之间的能量比，以及前置与后置右声道之间的能量比。可以设想若干其他的参数化方案。

图5中可见修正的参数化方案。不是采用一个参数概述前置和后置声道之间的能量分布(在图4中被r₃概述)以及一个参数描述左环绕和右环绕声道之间的能量分布(如图4中被r₄概述)，使用参数q₃和q₄描述左前置102和左环绕101声道之间的能量比，以及右前置104和右环绕105声道之间的能量比。

本发明讲授了可以用若干参数集来表示多声道信号。本发明的另一特点是，不同的参数化可以依靠使用参数的量化类型来选择。

例如，由于高的比特率限制而对参数粗略量化的系统，必须使用使得在上混过程中错误不被放大的参数化。

注意上述从一个声道重现5.1声道的系统中两个用于重建能量的表示式：

B = \frac{1}{α^{2}} (2 \frac{r_{1}}{1 + r_{1}} M - β^{2} A - γ^{2} C - δ^{2} F)

D = \frac{1}{α^{2}} (2 \frac{1}{1 + r_{1}} M - β^{2} E - γ^{2} C - δ^{2} F)

显而易见，由于M、A、C和F参数很小的量化效果，减法操作将产生B和D能量的巨大变化，。

根据本发明，应该使用不同的参数化，它对参数的量化更不敏感。于是，如果采用粗略的量化，参数r₁上文的定义：

r_{1} = \frac{L}{R} = \frac{α^{2} B + β^{2} A + γ^{2} C + δ^{2} F}{α^{2} D + β^{2} E + γ^{2} C + δ^{2} F}

可根据下式用另一个定义替换：

r_{1} = \frac{B}{D}

根据下式产生了重建能量的公式：

B = \frac{1}{α^{2}} \frac{r_{1}}{1 + r_{1}} \frac{1}{1 + r_{2}} \frac{1}{1 + r_{3}} \frac{1}{1 + r_{5}} 2 M

D = \frac{1}{α^{2}} \frac{1}{1 + r_{1}} \frac{1}{1 + r_{2}} \frac{1}{1 + r_{3}} \frac{1}{1 + r_{5}} 2 M

而重建A、E、C和F能量的公式和上文相同。显而易见，从量化的角度，该参数化表示了状况更好的系统。

图6中图示了上文阐述的能量比。不同的输出声道由101到105表示，并且和图1相同，于是这里不进一步详细说明。扬声器结构被分成前置部分和后置部分。整个前置声道结构(102、103和104)和后置声道(101和105)之间的能量分布，通过图6中参数r₃表示的箭头来图示。

本发明的另一个值得注意的重要特点是当注意如下参数化

r_{2} = \frac{γ^{2} 2 C}{α^{2} (B + D)}

r_{1} = \frac{B}{D}

这不仅仅是从量化的角度看状况更好的系统。上述的参数化还具有这样的优势，即用于重建三个前置声道的参数可以在不影响环绕声道的条件下获得。可以设想参数r₂来描述中声道和所有其它声道之间的关系。但是，缺点是在对描述前置声道的参数的估算中包含了环绕声道。

记住，本发明中描述的参数化可以用来测量声道之间的相关度或相干度，显而易见，在对r₂的计算中包含后置声道，将对准确重现前置声道的成功产生重大的负面影响。

例如，可以想象在所有前置声道中信号相同以及在后置声道中信号完全不相关的情况。对于后置声道常用于重现原始声音的环境信息来说，这种情况并不罕见。

如果将中声道与所有其它声道相比，在中声道和所有其它声道之和之间的相关度测量值就很低，因为后置声道完全不相关。用于估测前置左/右声道和后置左/右声道之间相关度的参数也是同样的。

所以，所达到的参数化可以正确的重建能量，但是不包含所有前置声道相同即强相关的信息。它包含的信息是，左和右前置声道与后置声道去相关，而中声道也与后置声道去相关。但是，从这个参数化中不能推出所有的前置声道相同的事实。

这个问题的克服可以通过使用如下参数化

r_{2} = \frac{γ^{2} 2 C}{α^{2} (B + D)}

r_{1} = \frac{B}{D}

如本发明所讲授的，因为对解码器一侧用来重现前置声道的参数的估算，没有包括后置声道。

根据本发明，在中声道103与左前置声道102及右前置声道104之间的能量分布由r₂表示。在左环绕声道101和右环绕声道105之间的能量分布由r₄阐释。最后，在左前置声道102和右前置声道104之间的能量分布由r₁给出。显而易见，除了r1之外所有参数与图4所示相同，此处r₁对应的是左前置扬声器和右前置扬声器之间的能量分布，而非整个左侧和整个右侧之间的能量分布。为了完整性，给出参数r₅描述能量在中声道103和左声道106之间的分布。

图6给出了本发明优选的参数化实施例的总结。第一平衡参数r₁(由实线表示)构成前左/前右平衡参数。第二平衡参数r₂为中/左右平衡参数。第三平衡参数r₃构成前/后平衡参数。第四平衡参数r₄构成后左/后右平衡参数。最后第五平衡参数r₅构成中/LFE平衡参数。

图4示出了相关的情形。在图4中缩混左/右平衡的情况下用实线阐释的第一平衡参数r₁，可以替换为在作为底层声道对的声道B和D之间定义的原始前左/前右平衡参数。这个参数通过图4中的虚线r₁图示，在图5和图6中则对应实线r₁。

在两基本声道情况下，参数r₃和r₄，也就是前/后平衡参数和后左/右平衡参数替换为两个单侧的前/后参数。第一单侧前/后参数q₃也可被认为是第一平衡参数，它从由左环绕声道A和左声道B组成的声道对中得出。第二单侧前/左平衡参数为参数q₄，它可被认为是第二参数，它是基于由右声道D和右环绕声道E组成的第二声道对。此外，两个声道对相互独立。对中/左右平衡参数r₂来说也是同样的，其中，中声道C作为第一声道，左和右声道B和D的和作为第二声道。

另一种适用于粗略量化用来从一个或两个声道中重现系统5.1声道的系统的参数化方法，根据本发明定义如下。

对于1到5.1声道：

q_{1} = \frac{β^{2} A}{M},

q_{2} = \frac{α^{2} B}{M},

q_{3} = \frac{γ^{2} C}{M},

q_{4} = \frac{α^{2} D}{M},

q_{2} = \frac{β^{2} E}{M}

以及

q_{5} = \frac{δ^{2} F}{M}

对于2到5.1声道的情况：

q_{1} = \frac{β^{2} A}{L},

q_{2} = \frac{α^{2} B}{L},

q_{3} = \frac{γ^{2} C}{M},

q_{4} = \frac{α^{2} D}{R},

q_{2} = \frac{β^{2} E}{R}

以及

q_{5} = \frac{δ^{2} F}{M}

显而易见，上面的参数化包括的参数，比从严格的理论角度来说将传输信号的能量正确地重新分布到重现信号所需要的参数多。但是，参数化对量化误差非常不敏感。

上文引用的用于两基本声道结构的参数集，使用了若干参考声道。但是，与图6中的参数配置不同，图7中参数集只依靠缩混声道而不是原始声道作为参考声道。平衡参数q₁、q₃和q₄从完全不同的参数对中得出。

尽管已经描述了若干发明性的实施例，其中用于得出平衡参数的声道对只包含原始声道(图4，图5，图6)或者包含原始声道和缩混声道(图4，图5)或者如图7底部所示仅依靠缩混声道作为参考声道，但是优选地，图2中的环绕数据编码器206中所包括的参数生成器可操作来仅使用原始声道或原始声道的组合，而非平衡参数所基于的通道对中通道的基础通道或基础通道的组合。这是因为事实上不能完全保证从环绕编码器到环绕解码器的传输中，单个基本声道或者两个立体声基本声道没有发生能量的变化。工作在低比特率的条件下，音频编码器205(图2)或音频解码器302(图3)能引起多个缩混声道或单个缩混声道的能量变化。这样的状况能导致单声道缩混声道或者立体声缩混声道的能量处理，在左和右立体声缩混声道间的处理可以不相同，或者甚至可以是频率选择性的或时间选择性的。

根据本发明，为了使得针对这些能量变化而完全可靠，要为每个缩混声道的每个块或每个频带，传输附加的幅度参数。当平衡参数是基于原始信号而不是缩混信号时，单一修正因子对每个带来说是足够的，因为任何的能量修正不会影响到原始声道之间的平衡状况。甚至当没有传输附加的幅度参数时，任何的缩混声道能量变化都不会导致音频图像中音源的错误定位，而只会导致一般的响度变化，响度变化不像由变化的平衡条件引起的音源的移动那样恼人。

重要的是，要注意小心使得能量M(缩混声道)是能量B、D、A、E、C和F之和，如上所述。并不总是这样的情况，因为被缩混到一个声道的不同声道之间的相位依赖。能量修正因子可作为附加的参数r_M传输，并且在解码器一侧接收到的缩混信号的能量被定义为：

r_{M} M = \frac{1}{2} (α^{2} (B + D) + β^{2} (A + E) + 2 γ^{2} C + 2 δ^{2} F)

图9中概述了附加参数r_M的应用。缩混的输入信号在将其发送到701-705的上混模块之前，在901中先被r_M参数修改。这和图7中相同，所以不再进一步详细描述。对于本领域的技术人员显而易见的是，用于上述单声道缩混实例的参数r_M，可以扩展到每个缩混声道一个参数，且因此也不限于单个缩混声道。

图9a图示了发明的幅度参数计算器900，而图9b显示了发明的幅度修正器902。图9a显示了编码器一侧的情况，而图9b显示了解码器一侧相应的情况。幅度参数或者“附加”参数r_M为修正因子，给出特定的能量比。为了解释以上内容，假定如下典型的场景。对特定的原始多声道信号，一方面存在“主缩混”，另一方面存在“参数缩混”。主缩混是由音响工程师在音响工作间中基于例如主观音质印象来生成的。此外，特定的音频存储介质也包括参数缩混，参数缩混由例如图2的环绕编码器203来执行。参数缩混包括一个基本声道或者两个基本声道，基本声道形成多声道重建的基础，多声道重建使用了原始多声道信号的平衡参数集或者其它的参数表示。

也可以是这样的情形，例如，从发射机到接收机，播送设备不想传输参数缩混而是传输主缩混。此外，为了将主缩混升级到多声道表示，播送设备也传输原始多声道信号的参数表示。因为能量(一个频带中或一个块中)能(并且典型地将会)在主缩混和参数缩混之间变化，相对幅度参数r_M在方块900中产生，并作为附加参数被传输到接收机。幅度参数根据主缩混和参数缩混得出，并且优选地是主缩混和参数缩混的一个块和一个频带内的能量之比。

一般来说，幅度参数被计算为原始声道的能量和(E_orig)与缩混声道能量的比值，其中缩混声道可以是参数缩混(E_PD)或主缩混(E_MD)或者其它缩混信号。典型地，使用特定的缩混信号能量，它从编码器被传输到解码器。

图9b图示了解码器一侧幅度参数使用的实现。幅度参数和缩混信号输入到幅度修正器块902。幅度修正器依照幅度参数，修正单基本声道或多基本声道。因为附加参数r_M是一个相对值，该相对值被乘以了相应基本声道的能量。

尽管图9a和9b显示的情形中，将幅度修正应用到缩混声道，幅度参数也能被合并到上混矩阵中。为此，图8方程中M的每次出现都被替换成项“r_MM”。

研究从两个声道中重现5.1声道的情况，得到如下发现。

如果本发明是和图2和图3的205和302概述的底层音频编解码器一起使用，需要做出更多的考虑。注意先前定义的IID参数，其中r₁的定义根据

r_{1} = \frac{L}{R} = \frac{α^{2} B + β^{2} A + γ^{2} C + δ^{2} F}{α^{2} D + β^{2} E + γ^{2} C + δ^{2} F}

该参数在解码器一侧可以隐性地获得，因为系统从两个声道重现5.1声道，如果两个传输声道为环绕声道的立体声缩混的话。

但是，在某比特率限制下工作的音频编解码器可以修改频谱分布，使得解码器一侧测得的L和R能量与它们在编码器一侧的值不同。根据本发明，这种对重现声道上能量分布的影响通过传输如下参数来消除：

r_{1} = \frac{B}{D}

当从两个声道中重建5.1声道时，也是这样的情况。

如果提供信令(signaling)装置，编码器通过使用不同的参数集对当前信号段进行编码，并对正被处理的特定信号段选择能给出最低开销的IID参数集。右前和后声道之间的能量水平类似是可能的，并且前和后左声道之间的能量水平类似但右前和后声道之间的能量水平大不相同也是可能的。给出参数的delta编码以及后来的熵编码，使用参数q₃和q₄来代替r₃和r₄将更加有效率。对具有不同特点的另一个信号段，不同的参数集将给出更低的比特率开销。给定信号段的特性，本发明允许在不同参数表示之间自由切换，以便最小化当前编码信号段的比特率开销。在IID参数的不同参数化之间切换以获得最小可能比特率开销的能力，以及提供信令装置来表示当前使用的是什么参数化的能力，是本发明的基本特征。

此外，参数的delta编码可以在频率方向或者时间方向完成，不同参数间的delta编码也如此。根据本发明，参数可以关于其它任意参数进行delta编码，如果提供信令装置来表示所使用的特定delta编码的话。

任意编码方案的有趣特征是进行可扩展编码的能力。这意味着编码的比特流能分成若干不同的层。核心层可被自己解码，更高的层可被解码来增强解码的核心层信号。对不同的情况，可用的层数可能变化，但是只要核心层可用，解码器就能生成输出样本。上述使用r₁到r₅参数的多声道编码的参数化，使它们非常适合于可扩展编码。所以，可以在增强层中存储例如两个环绕声道(A和E)的数据(即参数r3和r4)，并且在核心层中存储与前置通道相对应的参数(由参数r1和r2表示)。

图10中概述了根据本发明的可扩展比特流的实现。比特流层由1001和1002图示，其中1001是核心层，拥有波形编码缩混信号以及重现前置声道(102、103和104)所需的参数r₁和r₂。1002图示的增强层拥有用于重现后置声道(101和105)的参数。

本发明的另一重要方面是在多声道配置中解相关器的使用。使用解相关器的思想在PCT/SE02/01372文献中针对一个或两个声道的情况得到详细描述。但是当把该理论扩展到多于两个声道时，若干本发明解决的问题出现了。

初等数学表明，为了从N个信号中获得M个互相解相关的信号，需要M-N个解相关器，其中所有不同的解相关器都是根据公共输入信号生成互相正交的输出信号的函数。典型的解相关器为全通或者接近全通的滤波器，给定输入x(t)就生成输出y(t)，其中E[|y|²]＝E[|x|²]，以及几乎为0的互相关E[yx^*]。另外的感性标准也进入好的解相关器的设计，一些设计方法的例子可以是当将原始信号叠加到解相关信号时要最小化梳状滤波器的特性，以及最小化有时瞬时信号的过长冲击响应的影响。一些现有技术的解相关器利用人工反射器(artificialreverberator)来解相关。现有技术也包括通过例如修改复子带样本的相位来实现的分数延时，以获得更高的回声密度于是获得更多的时间扩散。

本发明提出的方法是，修改基于反射的解相关器，来实现根据公共输入信号生成相互解相关的输出信号的多路解相关器。给定相同输入，如果两个解相关器的输出y₁(t)和y₂(t)具有等于0或几乎为0的互相关，那么这两个解相关器互相解相关。假设输入是平稳白噪声，由此得出，冲击响应h₁和h₂必须正交，E[h₁h₂ ^*]为0或者几乎为0。成对方式相互解相关的解相关器组可由若干方式构建。进行修正的高效方式是改变作为分数延时一部分的相位旋转因子q。

本发明规定相位旋转因子可以是全通滤波器中延迟线的一部分，或者就是整个分数延迟。在后一种情况中，该方法不限于全通或者和反射器类似的滤波器，而且还能应用到例如包含分数延时部分的简单延时中。解相关器中全通滤波器链路可在Z域中描述为：

H (z) = \frac{{qz}^{- m} - a}{1 - {aqz}^{- m}}

其中q为复数值的相位旋转因子(|q|＝1)，m是样本中延时线的长度，并且a是滤波器系数。因为稳定的原因，滤波器系数的幅度被限制为|a|＜1。但是，使用另一选择的滤波器系数a′＝-a，定义了新的反射器，具有相同的反射衰减特性，但是输出和未修正的反射器输出显著不相关。另外，相位旋转因子q的修正，可以通过例如加入常量的相位偏置q′＝qe^jC来进行。常量C可以被用作常量的相位偏置，或者可以进行缩放，使其对应于其应用到的所有频带的常量时间偏置。相位偏置常量C也可以是对所有频带不相同的随机数值。

根据本发明，从m个声道生成n个声道，通过将大小为n×(m+p)的上混矩阵H应用到大小为(m+p)×1个信号的列向量来执行

y = [\begin{matrix} m \\ s \end{matrix}]

其中m是m个缩混和编码的信号，且s中的p个信号两两彼此解相关，并且与m中所有信号解相关。这些解相关信号通过解相关器从m中的信号中产生。n个重建信号a′，b′，...然后被包含在列向量

x′＝Hy

中。

以上在图11中图示，其中解相关信号由解相关器1102、1103和1104产生。上混矩阵H由1101给出，它作用于向量y而给出输出信号x′。

让R＝E[xx^*]为原始信号向量的相关矩阵，让R′＝E[x′x′^*]为重建信号的相关矩阵。这里以及下文中，对于具有复数项的矩阵或向量X，X^*表示伴随矩阵，X的复数共轭转置。

R的对角线含有能量值A、B、C、...并且根据上文定义的能量定额，解码到总能量水平。因为R^*＝R，只有n(n-1)/2个不同的离对角线互相关值，这些数值含有通过调整上混矩阵H来全部或部分重建的信息。完全相关结构的重建对应于R′＝R的情形。正确能量水平的重建只对应R′和R在对角线相等的情形。

在从m＝1个声道中得到n个声道的情形，完全相关结构的重建可以通过使用p＝n-1个相互解相关的解相关器来实现。上混矩阵H满足条件

{HH}^{*} = \frac{1}{M} R

其中M为单一传输信号的能量。因为R是半正定，众所周知这样的解是存在的。此外，对H的设计留下了n(n-1)/2的自由度，这在本发明中用来获得上混矩阵更多有用的特性。中心设计标准是H对所传输的相关数据的依赖度要平稳。

参数化上混矩阵的一种便利方法是H＝UDV，其中U和V是正交矩阵而D是对角矩阵。D的绝对值的平方可以选择为与R/M的特征值相等。省略v并对特征值排序，使得最大的值应用到第一坐标，这将最小化输出的解相关信号的总能量。正交矩阵U为实矩阵，由n(n-1)/2个旋转角度来参数化。以这些角度和D的n个对角数值的形式传输相关数据，将直接给出想要的H的平稳依赖性。但是因为能量数据不得不被转换成特征值，这种方式牺牲了可扩展性。

本发明讲授的第二种方法包括，通过根据R＝GR₀G定义归一化相关矩阵R₀，在R中把能量部分与相关部分分离，其中G是对角矩阵，其对角线数值等于R的对角线元素的平方根，也就是

...，并且R₀对角线元素都为1。使得H₀为正交上混矩阵，其在能量相等、信号完全不相关的情形下定义了优选的归一化上混。这些优选的上混矩阵的例子有：

\frac{1}{\sqrt{2}} [\begin{matrix} 1 & - 1 \\ 1 & 1 \end{matrix}],

\frac{1}{2} [\begin{matrix} 1 & 1 & \sqrt{2} \\ 1 & 1 & - \sqrt{2} \\ \sqrt{2} & - \sqrt{2} & 0 \end{matrix}],

\frac{1}{2} [\begin{matrix} 1 & 1 & 1 & 1 \\ 1 & 1 & - 1 & - 1 \\ 1 & - 1 & - 1 & 1 \\ 1 & - 1 & 1 & - 1 \end{matrix}] .

然后上混被定义为

其中矩阵S是SS^*＝R₀的解。这个解对R₀中归一化互相关值的依赖性被选定为连续的，使得在R₀＝I的情况下S等于单位矩阵I。

将n个声道分为含有更少声道数的声道组是重建部分互相关结构的便利方法。根据本发明，针对从1个声道到5.1声道的情况，特别有利的分组是{a，e}，{c}，{b，d}，{f}，其中对组{c}，{f}没有应用解相关，并且组{a，e}，{b，d}通过对相同的缩混/解相关对的上混来产生。对这两个子系统，在完全不相关的情况下，优选的归一化上混分别选为：

\frac{1}{\sqrt{2}} [\begin{matrix} 1 & - 1 \\ 1 & 1 \end{matrix}],

\frac{1}{\sqrt{2}} [\begin{matrix} 1 & 1 \\ 1 & - 1 \end{matrix}],

所以全部15个互相关中只有两个被传输和重建，也就是声道{a，e}和{b，d}之间的互相关。在上述使用的术语中，这是针对n＝6，m＝1和p＝1情形的设计示例。上混矩阵H大小为6×2，其中第二列的第3行和第6行的两个元素为0，对应于输出c′和f′。

本发明讲授的用来合并解相关信号的第三种方法是更简单的观点：每个输出声道有一不同的解相关器，产生解相关信号s_a，s_b，...。重建信号形成为

etc...

参数

...控制出现在输出声道a′，b′，...中的解相关信号的量。相关数据以这些角度的形式被传输。很容易计算出，生成的例如声道a′和b′之间的归一化互相关等于乘积

由于成对的互相关的数目为n(n-1)/2并且有n个解相关器，一般来说如果n＞3，用这种方法不可能和给定的相关结构匹配，但是优点是它是一种非常简单和稳定的解码方法，并且直接控制出现在每个输出声道中的解相关信号的生成数量。这使得解相关信号的混合是基于感性标准并结合了例如声道对的能量水平差的标准。

对于从m＞1的声道中得到n个声道的情况，相关矩阵R_y＝E[yy^*]不能再假设为对角矩阵，并且在将R′＝HR_yH^*匹配到目标矩阵R时也必须考虑该点。因为R_y具有块状矩阵结构，可简化为

R_{y} = [\begin{matrix} R_{m} & 0 \\ 0 & R_{s} \end{matrix}],

其中R_m＝E[mm^*]并且R_s＝E[ss^*]。另外，假设相互解相关的解相关器，即矩阵R_s为对角矩阵。注意，这也影响关于正确能量重建的上混设计。解决方法是在解码器计算出，或者从编码器传输与缩混信号的相关结构R_m有关的信息。

对于从2个声道得到5.1声道的情况，上混优选的方法是

[\begin{matrix} a^{'} \\ b^{'} \\ c^{'} \\ d^{'} \\ e^{'} \\ f^{'} \end{matrix}] = [\begin{matrix} h_{11} & 0 & h_{13} & 0 \\ h_{21} & 0 & h_{23} & 0 \\ h_{31} & h_{32} & 0 & 0 \\ 0 & h_{42} & 0 & h_{44} \\ 0 & h_{52} & 0 & h_{54} \\ h_{61} & h_{62} & 0 & 0 \end{matrix}] \cdot [\begin{matrix} m_{1} \\ m_{2} \\ s_{1} \\ s_{2} \end{matrix}],

其中s₁根据m₁＝l_d的解相关获得，并且s₂根据m₂＝r_d的解相关中获得。

这里考虑成对的互相关，将组{a，b}和{d，e}作为独立的1→2声道系统处理。对于声道c和f，调整权重使得

E[|h₃₁m₁+h₃₂m₂|²]＝C，

E[|h₆₁m₁+h₆₂m₂|²]＝F.

本发明针对不同种类的系统、信号(模拟或数字)的存储或传输，可以使用任意的编解码器以硬件芯片和DSP的形式实现。图2和图3展示了本发明的可能实现。在这个例子中，显示了工作在六个输入信号(5.1声道配置)条件下的系统。图2中解码器一侧显示的是各个声道的模拟输入信号，它们被转换成数字信号201，并使用滤波器组为每个声道进行分析202。滤波器组的输出被供给环绕编码器203，它包含参数生成器，执行缩混生成音频编码器205编码的一个或两个声道。此外，根据本发明环绕参数例如IID和ICC参数被提取出，并且根据本发明，概述数据的时间频率网格以及采用了哪种参数化的控制数据被提取出204。正如本发明所讲授的，提取出的参数被编码206，或者在不同的参数化之间切换，或者以可扩展的方式配置参数。环绕参数207、控制信号以及编码的缩混信号208被复用209到串行比特流。

图3中显示了一种典型的解码器实现，也就是用于形成多声道重建的设备。这里假设音频解码器输出频域表示的信号，例如在QMF合成滤波器组之前从MPEG-4高效AAC解码器输出的信号。串行比特流被解复用301，编码的环绕数据被供给环绕数据解码器303，并且缩混编码的声道被供给音频解码器302，在这个例子中为MPEG-4高效AAC解码器。环绕数据解码器对环绕数据解码，并将其供给环绕解码器305，其包括上混器，上混器基于解码的缩混声道、环绕数据以及控制信号来重现六个声道。来自环绕解码器的频域输出被合成306到时域信号中，接着被数模转换器(DAC)307转换成模拟信号。

尽管本发明主要是关于平衡参数的产生和使用进行了描述，这里需要强调，和用于得出平衡参数的声道对分组一样的分组，也可以用于计算在两个声道对之间的声道间相干参数或者“宽度”参数。此外，声道间时间差或者一种“相位提示”，也可以应用和用于平衡参数计算相同的声道对来获得。在接收机一侧，这些参数可用作平衡参数的另外的参数或者替换参数，来形成多声道重建。作为选择，除了由其它的参考声道确定的声道间幅度差之外，也可以使用声道间相干参数或者甚至是声道间时间差。但是，考虑到本发明的可扩展性的特色，如图10a和图10b的讨论，优选的方法是对所有参数使用相同的声道对，使得在可扩展的比特流中，每个扩展层包含用于重建输出声道子群的所有参数，这些参数由相对应的扩展层产生，如图10b的表倒数第二列中概述的扩展层。当各个声道对之间只有相关参数或时间差参数被计算并传输到解码器时，本发明是有用的。在这种情况下，当执行多声道重建时，幅度参数已经存在于解码器处来使用。

取决于本发明的方法的特定实现要求，本发明的方法可以以硬件或软件实现。实现方式可以是使用数字存储介质，特别是存储有可被电方式读出的控制信号的磁盘或者CD，存储介质与可编程计算机系统协作，使得本发明的方法得以执行。一般来说，本发明也可以是计算机程序产品，程序代码存储于机器可读的载体上，当计算机程序产品在计算机上运行时，可执行本发明的方法。换句话说，本发明的方法是计算机程序，该程序含有在计算机上运行时来执行至少1种发明性的方法的程序代码。

Claims

1.一种用于产生具有至少三个原始声道的多声道输入信号的参数表示的设备，包括：

参数发生器(203)，用于产生第一声道对之间的第一平衡参数、第一相干参数或者第一时间差参数，以及用于产生第二声道对之间的第二平衡参数、第二相干参数或者第二时间参数，其中平衡参数、相干参数或者时间参数形成参数表示，其中，

第一声道对具有两个声道，不同于第二声道对的两个声道，以及

双声道对中的每个声道是原始声道之一、原始声道的加权或非加权组合、缩混声道或者至少两个缩混声道的加权或非加权组合，以及

第一声道对和第二声道对包括关于三个原始声道的信息。

2.根据权利要求1所述的设备，其中，原始声道包括左声道(B)、右声道(D)和中声道(C)，以及

第二平衡参数(r₂)为中平衡参数，并且第二声道对包括作为第一声道的中声道，以及作为第二声道的包括左声道和右声道的声道组合。

3.根据权利要求2所述的设备，其中，参数发生器可操作来根据如下公式计算中平衡参数：

r_{2} = \frac{γ^{2} 2 C}{α^{2} (B + D)}

其中r₂为中平衡参数，C表示中声道，B表示左声道，D表示右声道，并且γ和α表示缩混因子。

4.根据前述权利要求之一所述的设备，其中，第一平衡参数(r₁)为左/右平衡参数，并且第一声道对包括作为第一声道的左声道或左缩混声道，以及作为第二声道的右声道或右缩混声道。

5.根据权利要求4所述的设备，其中，参数发生器可操作来根据如下公式计算第一平衡参数：

r_{1} = \frac{L}{R} = \frac{α^{2} B + β^{2} A + γ^{2} C + δ^{2} F}{α^{2} D + β^{2} E + γ^{2} C + δ^{2} F}

或r₁＝B/D

其中r₁为第一平衡参数，L是第一缩混声道，R是第二缩混声道，B表示左声道，D表示右声道，A表示后置左声道，E表示后置右声道，C表示中声道，F表示低频增强声道，并且α、β、γ和δ为缩混因子。

6.根据前述权利要求之一所述的设备，其中，原始声道包括后置左声道(A)和后置右声道(E)，

参数发生器可操作来产生前/后声道对之间的前/后参数作为第三平衡参数(r₃)或者作为第一和第二平衡参数之一，前/后声道对具有作为第一声道的包括后置左声道和后置右声道的声道组合，以及作为第二声道的包括左声道和右声道的声道组合。

7.根据权利要求6所述的设备，其中，参数发生器可操作来根据如下公式计算前/后参数(r₃)：

r_{3} = \frac{β^{2} (A + E)}{α^{2} (B + D) + γ^{2} 2 C}

其中r₃为前/后平衡参数，A为后置左声道，E为后置右声道，B表示左声道，D表示右声道，C表示中声道，并且其中α、β和γ表示缩混参数。

8.根据前述权利要求之一所述的设备，其中，原始多声道信号包括后置左声道和后置右声道，

参数发生器可操作来产生后置左/右声道对之间的后置左/右平衡参数(r₄)作为附加平衡参数或者作为第一或第二平衡参数，后置左/右声道对具有作为第一声道的后置左声道和作为第二声道的后置右声道。

9.根据前述权利要求之一所述的设备，其中，原始多声道信号包括低频增强声道和中声道，

参数发生器可操作来产生低频增强声道对之间的低频增强平衡参数作为附加平衡参数或者作为第一或第二平衡参数，低频增强声道对具有作为第一声道的低频增强声道和作为第二声道的中声道或包括原始声道中的中声道、左声道和右声道的声道组合。

10.根据权利要求9所述的设备，其中，参数发生器可操作来根据如下公式计算低频增强平衡参数：

r_{5} = \frac{δ^{2} 2 F}{α^{2} (B + D) + β^{2} (A + E) + γ^{2} 2 C}

其中A对应后置左声道，E对应后置右声道，B对应左声道，D对应右声道，C对应中声道，F对应低频增强声道，α、β、γ和δ为缩混因子，并且r₅为低频增强平衡参数。

11.根据前述权利要求之一所述的设备，还包括数据流发生器，用于产生可扩展的数据流(1001，1002)，数据流发生器可操作来将第一或第二平衡参数加入到较低的扩展层以及将任何其它参数加入到较高的扩展层。

12.根据权利要求11所述的设备，其中，除第一或第二平衡参数之外，参数发生器还可操作来产生一个或多个平衡参数，并且数据流发生器可操作来将所述一个或多个附加平衡参数加入到单个或多个较高的扩展层。

13.根据权利要求12所述的设备，其中，数据流发生器可操作来将每个附加参数引入到专用的扩展层。

14.根据前述权利要求之一所述的设备，其中，参数发生器可操作来产生左/右平衡参数作为第一平衡参数，产生中平衡参数作为第二平衡参数，产生前/后平衡参数作为第三平衡参数，产生后置左/右平衡参数作为第四平衡参数，以及产生低频增强平衡参数作为第五平衡参数，并且

数据流发生器可操作来将第一和第二平衡参数加入到较低的扩展层，以及将第三到第四平衡参数或者相应的相干参数或者相应的时间差加入到一个或多个较高的扩展层。

15.根据前述权利要求之一所述的设备，其中，参数发生器可操作来产生单侧的前/后声道对之间的至少一个单侧前/后平衡参数(q₃，q₄)作为第一和第二平衡参数之一或者作为附加平衡参数，单侧的前/后声道对具有作为第一声道的后置左声道和作为第二声道的左声道或者具有作为第一声道的后置右声道和作为第二声道的右声道。

16.根据前述权利要求之一所述的设备，其中，第一和第二平衡参数之一是第一左或右平衡参数，并且声道对包括作为第一声道的左缩混声道，以及作为第二声道的左原始声道或者后置左原始声道，或者

第一和第二平衡参数之一是右平衡参数，并且声道对包括作为第一声道的右缩混声道，以及作为第二声道的右原始声道或者后置右原始声道，或者

第一或第二平衡参数之一或者附加平衡参数是中平衡参数，并且声道对包括作为第一声道的左和右缩混声道之和，以及作为第二声道的原始中声道。

17.根据权利要求16所述的设备，其中，参数发生器可操作来产生左平衡参数作为第一平衡参数，产生右平衡参数作为第二平衡参数，以及产生中平衡参数作为第三平衡参数。

18.根据权利要求17所述的设备，其中，参数发生器可操作来产生左/左环绕平衡参数作为第四平衡参数，以及产生右/右环绕平衡参数作为第五平衡参数。

19.根据前述权利要求之一所述的设备，还包括：

参数编码器，用于产生平衡参数、相干参数或声道间时间差的编码版本，参数编码器包括量化器。

20.根据前述权利要求之一所述的设备，其中，参数发生器可操作来仅使用原始声道或原始声道的组合而非基础声道或基础声道的组合作为声道对内的声道。

21.根据前述权利要求之一所述的设备，其中，

参数发生器可操作来产生不同的参数集，每个参数集包括至少两个参数，其中用于计算不同参数集中参数的声道对互不相同，

参数发生器还可操作来从不同参数集中选择一参数集用于输出，该参数集在给定的特定参数编码方案中，得出较低的比特率，

所述设备还包括参数编码器，用于通过使用特定参数编码方案来对选定的参数集进行编码；以及

参数控制信息发生器，用来产生指示选定参数方案的特性的控制信息。

22.一种用于产生具有至少三个原始声道的原始多声道信号的重建多声道表示的设备，使用通过用缩混方案将原始多声道信号转换而产生的若干基本声道，并使用第一声道对之间的第一平衡参数、第一相干参数或者第一时间差参数，用于产生第二声道对之间的第二平衡参数、第二相干参数或者第二时间参数，其中平衡参数、相干参数或者时间参数形成参数表示，其中，第一声道对具有两个声道，不同于第二声道对的两个声道，以及双声道对中的每个声道是原始声道之一、原始声道的加权或非加权组合、缩混声道或者至少两个缩混声道的加权或非加权组合，以及第一声道对和第二声道对包括关于三个原始声道的信息，所述设备包括：

上混器(305)，用于产生一定数量的上混声道，上混声道的数量比基本声道的数量多，比原始声道的数量少或者与之相等，其中，

上混器可操作来根据关于缩混方案的信息并使用平衡参数、相干参数或者声道间时间差产生重建声道，使得第一重建声道对之间的平衡或相干或声道间时间差由第一平衡参数、第一声道间相干参数或者第一声道间时间差确定，并且第二声道对之间的平衡、声道间相干或声道间幅度差由第二平衡参数、第二声道间相干参数或者第二声道间时间差参数确定。

23.根据权利要求22所述的设备，其中，原始声道包括左声道(B)、右声道(D)和中声道(C)，以及

第二平衡参数(r₂)为中平衡参数，并且第二声道对包括作为第一声道的中声道，以及作为第二声道的包括左声道和右声道的声道组合，

上混器可操作来基于第二平衡参数(r₂)产生重建的中声道。

24.根据权利要求22或23所述的设备，其中，第一平衡参数(r₁)为左/右平衡参数，并且第一声道对包括作为第一声道的左声道或左缩混声道，以及作为第二声道的右声道或右缩混声道，以及

上混器可操作来基于第一平衡参数(r₁)产生重建的左声道和重建的右声道。

25.根据权利要求22到24之一所述的设备，其中，原始声道包括后置左声道(A)和后置右声道(E)，

参数表示包括作为第三平衡参数(r₃)或者作为第一和第二平衡参数之一的、前/后声道对之间的前/后参数，前/后声道对具有作为第一声道的包括后置左声道和后置右声道的声道组合，以及作为第二声道的包括左声道和右声道的声道组合，以及

上混器可操作来使用前/后平衡参数(r₃)产生重建的组合后置声道。

26.根据权利要求22到25之一所述的设备，其中，原始多声道信号包括后置左声道和后置右声道，

参数表示包括作为附加平衡参数或者作为第一或第二平衡参数的、后置左/右声道对之间的后置左/右平衡参数(r₄)，后置左/右声道对具有作为第一声道的后置左声道和作为第二声道的后置右声道，以及

上混器可操作来基于后置左/右平衡参数产生重建的后置左声道和重建的后置右声道。

27.根据权利要求22到26之一所述的设备，其中，

向所述设备提供的参数信息包括作为第一平衡参数的左/右平衡参数、作为第二平衡参数的中平衡参数、作为第三平衡参数的前/后平衡参数、作为第四平衡参数的后置左/右平衡参数、以及作为第五平衡参数的低频增强平衡参数，以及

数据流在较低的扩展层中包括第一和第二平衡参数，在一个或多个较高的扩展层中包括第三和第四平衡参数或相应的相干参数或相应的时间差，以及

上混器可操作来使用第一平衡参数和第二平衡参数来产生左输出声道、右输出声道和包括中声道的输出声道，或者

上混器可操作来另外使用前/后平衡参数来另外重建后置左声道和后置右声道之和；或者

上混器可操作来另外使用后置左/右平衡参数来重建后置左声道和后置右声道。

28.根据权利要求27所述的设备，其中，上混器可操作来产生重建的多声道信号，并使得满足下面的方程：

F = \frac{1}{2 γ^{2}} \frac{r_{5}}{1 + r_{5}} 2 M

A = \frac{1}{β^{2}} \frac{r_{4}}{1 + r_{4}} \frac{r_{3}}{1 + r_{3}} \frac{1}{1 + r_{5}} 2 M

E = \frac{1}{β^{2}} \frac{1}{1 + r_{4}} \frac{r_{3}}{1 + r_{3}} \frac{1}{1 + r_{5}} 2 M

C = \frac{1}{2 γ^{2}} \frac{r_{2}}{1 + r_{2}} \frac{1}{1 + r_{3}} \frac{1}{1 + r_{5}} 2 M

B = \frac{1}{α^{2}} (2 \frac{r_{1}}{1 + r_{1}} M - β^{2} A - γ^{2} C - δ^{2} F)

D = \frac{1}{α^{2}} (2 \frac{1}{1 + r_{1}} M - β^{2} E - γ^{2} C - δ^{2} F)

其中F对应低频增强声道，A对应左环绕声道，E对应右环绕声道，C对应中声道，B对应左声道，D对应右声道，r₁为左/右平衡参数，r₂为中/左-右平衡参数，r₃为前/后平衡参数，r₄为后置左/右平衡参数，r₅为中/低频增强平衡参数，并且其中α、β、γ和δ为缩混因子。

29.根据权利要求22到24之一所述的设备，其中，

基本声道的数量大于或等于二，并且参数表示包括作为第一和第二平衡参数之一或者作为附加平衡参数的、单侧的前/后声道对之间的至少一个单侧前/后平衡参数(q3，q4)，单侧的前/后声道对具有作为第一声道的后置左声道和作为第二声道的左声道或者具有作为第一声道的后置右声道和作为第二声道的右声道，并且

上混器可操作来基于左声道或右声道以及相应的单侧前/后平衡参数来产生重建的后置左声道或重建的后置右声道。

30.根据权利要求22所述的设备，其中，第一和第二平衡参数之一是第一左或右平衡参数，并且声道对包括作为第一声道的左缩混声道，以及作为第二声道的左原始声道或者后置左原始声道，或者

第一或第二平衡参数之一或者附加平衡参数是中平衡参数，并且声道对包括作为第一声道的左和右缩混声道之和，以及作为第二声道的原始中声道，以及

上混器可操作来使用参数以及第一基本声道、第二基本声道或者第一和第二基本声道的组合，产生重建声道。

31.根据权利要求22到30之一所述的设备，其中，平衡参数是可扩展比特流的一部分，可扩展比特流在较低的扩展层中具有第一和第二平衡参数，并在至少一个较高的扩展层中具有至少一个附加平衡参数，并且

所述设备还包括数据流提取器，用于提取所述较低的扩展层和若干较高的扩展层，其中较高扩展层的数目在0到小于扩展层总数的数字之间，

数据流提取器可操作来根据与所述设备相关联的输出声道配置而提取一定数目的较高扩展层，所述声道配置具有的声道数少于原始多声道信号的声道配置。

32.根据权利要求22到31之一所述的设备，还包括：

参数方案选择器，用于控制上混器，使得上混器应用由参数方案控制信息所指示的参数方案。

33.一种用于产生具有至少三个原始声道的多声道输入信号的参数表示的方法，包括：

产生(203)第一声道对之间的第一平衡参数、第一相干参数或者第一时间差参数，以及

产生第二声道对之间的第二平衡参数、第二相干参数或者第二时间参数，其中平衡参数、相干参数或者时间参数形成参数表示，其中，

第一声道对和第二声道对包括关于三个原始声道的信息。

34.一种用于产生具有至少三个原始声道的原始多声道信号的重建多声道表示的方法，使用通过用缩混方案将原始多声道信号转换而产生的若干基本声道，并使用第一声道对之间的第一平衡参数、第一相干参数或者第一时间差参数，用于产生第二声道对之间的第二平衡参数、第二相干参数或者第二时间参数，其中平衡参数、相干参数或者时间参数形成参数表示，其中，第一声道对具有两个声道，不同于第二声道对的两个声道，以及双声道对中的每个声道是原始声道之一、原始声道的加权或非加权组合、缩混声道或者至少两个缩混声道的加权或非加权组合，以及第一声道对和第二声道对包括关于三个原始声道的信息，所述方法包括：

产生(305)一定数量的上混声道，上混声道的数量比基本声道的数量多，比原始声道的数量少或者与之相等，其中，

产生的步骤包括根据关于缩混方案的信息并使用平衡参数、相干参数或者声道间时间差产生重建声道，使得第一重建声道对之间的平衡或相干或声道间时间差由第一平衡参数、第一声道间相干参数或者第一声道间时间差确定，并且第二声道对之间的平衡、声道间相干或声道间幅度差由第二平衡参数、第二声道间相干参数或者第二声道间时间差参数确定。

35.一种计算机程序，具有机器可读指令，用于在计算机上运行时执行权利要求33或34所述的方法。

36.一种具有至少三个原始声道的多声道输入信号的参数表示，包括：第一声道对之间的第一平衡参数、第一相干参数或者第一时间差参数，以及第二声道对之间的第二平衡参数、第二相干参数或者第二时间参数，其中平衡参数、相干参数或者时间参数形成参数表示，其中，

第一声道对和第二声道对包括关于三个原始声道的信息。

37.根据权利要求36所述的参数表示，用于在输入到根据权利要求22所述的设备中时，控制多声道重建。