CN101410890B

CN101410890B - 用于导出上混参数的参数计算器和方法以及包括该参数计算器的声道重构器和音频接收机

Info

Publication number: CN101410890B
Application number: CN2006800540516A
Authority: CN
Inventors: 拉斯·维尔默斯; 克里斯托弗·薛林; 耶罗恩·布里巴特
Original assignee: Koninklijke Philips Electronics NV; Dolby Sweden AB
Current assignee: Dolby International AB
Priority date: 2006-03-29
Filing date: 2006-08-18
Publication date: 2012-01-25
Anticipated expiration: 2026-08-18
Also published as: CN101410890A; BRPI0621530A2; US20070233293A1; US7965848B2; TW200737127A; HK1122127A1; EP1999744B1; KR20080103094A; BRPI0621530B1; TWI339836B; KR101002835B1; JP5158814B2; JP2009530672A; ES2398573T3; WO2007110102A1; PL1999744T3; EP1999744A1

Abstract

当导出用于将传送的下混信号上混为中间声道表示的上混参数，该上混参数允许使用与多声道重构中相同的上混算法来进行上混时，可以高效地以高保真度重构多声道信号的中间声道表示。当使用参数重新计算器，该参数重新计算器也考虑具有所述中间声道表示未包括的声道的信息的参数来获得所述上混参数时，可以实现这一点。

Description

用于导出上混参数的参数计算器和方法以及包括该参数计算器的声道重构器和音频接收机

技术领域

本发明涉及音频信号的解码，尤其是将原始多声道信号的参数多声道下混(downmix)解码为比原始多声道信号声道数目更小数目的声道。

背景技术

近来的音频编码的发展具备了基于立体声(或单声道)信号和对应的控制数据来重建音频信号的多声道表示的能力。由于传送了附加控制数据以基于传送的单声道或立体声声道来控制环绕声道的重建，也称为上混(upmix)，因此，这些方法本质上不同于如Dolby Prologic之类的以前的基于矩阵的解决方案。

因此，这样的参数多声道音频解码器(例如MPEG环绕)基于M个传送声道和附加控制数据来重构N个声道，其中N＞M。所述附加控制数据表现出比传送所有N个声道明显更低的数据速率，使编码非常有效率，同时确保与M声道设备以及N声道设备的兼容性。

这样的参数环绕编码方法通常包括基于IID(声道间强度差)和ICC(声道间相干)的环绕信号的参数化。这些参数描述了上混过程中声道对之间的功率比和相关性。现有技术中也使用的参数还包括用于在上混过程中预测中间或输出声道的预测参数。

这样的多声道编码的两个著名示例是BCC编码和MPEG环绕。在BCC编码中，使用基于DFT(离散傅立叶变换)的具有重叠窗口的变换，将多个音频输入声道转换为频谱表示。接着，将产生的均一的频谱分为不重叠的部分。每个部分的带宽与等效矩形带宽(ERB)成正比。接着，为每个部分估计被称为ICLD(声道间声级差)和ICTD(声道间时间差)的空间参数。ICLD参数描述了两个声道之间的声级差，而ICTD参数描述了不同声道的两个信号之间的时间差(相位偏移)。对于每个声道，相对于共同参考声道给出声级差和时间差。在获得这些参数之后，量化并编码这些参数以用于传送。

在BCC编码中，相对于一个信号参考声道来估计各个参数。在其他参数环绕编码系统中，例如在MPEG环绕中，使用树形结构的参数化。这就是说，不再相对于单一共同参考声道，而是相对于不同的参考声道来估计参数，这些不同参考声道甚至可以是原始多声道信号的声道组合。例如，对于5.1声道信号，可以在前置声道的组合之间和后置声道的组合之间估计参数。

当然，对于参数编码方案，也非常希望具有对已经建立的音频标准的后向兼容性。例如，对于单声道下混信号，希望也能提供一种可能性来创建具有高保真度的立体声回放信号。这意味着，必须以可能的最佳方式利用附加产生的参数，将单声道下混信号上混为立体声信号。

由于人类对声源的空间位置的感知主要由信号的响度支配，即由信号中包含的能量支配，因此，多声道编码中的一个共同问题是上混中的能量保持。因此，在信号的再现中必须最大可能地考虑到为每个重构的声道加以合适的响度属性，以避免人工效应的引入严重降低了重构信号的感知质量。由于在下混过程中，信号的幅度通常被相加，带来了干扰的可能性，该可能性由相关性或相干参数来描述。

当涉及减小数目的声道的重构(声道的数目小于多声道信号的原始声道数目)时，由于相对于相同的单个参考声道来传送每个参数，因此如BCC之类的方案容易处理。因此，有了参考声道的知识，可以容易地获得上混所需的每个声道的最相关的声级信息(绝对能量度量)。因此，不需要首先重构完整多声道信号就可以重构减小数目的声道。因此，在BCC中，通过使用单纯变量而不是变量的积，更容易对多声道信号的能量进行能量计算，但这只是第一步。当涉及得到减小数目的声道的能量和相关性，而所述减小数目的声道应当尽可能接近于原始多声道信号的部分下混时，MPEG环绕和BCC中的难度等级相当。

与此相反，如MPEG环绕之类的基于树形的结构使用了这样一种参数化，其中各声道的相关信息不包含在单个参数中。因此，在现有技术中，重构减小数目的声道要求重构多声道信号，接着将其下混为减小数目的声道，以不违反能量保持要求。这具有极高计算复杂度的明显缺点。

国际专利申请WO 2005/101370 A1描述了一种特定方法，对数据进行多声道编码，将其编码为一个单声道和相关联的辅助信息，该辅助信息具有关于原始多声道信号的空间特性的信息。在传送下混声道和辅助信息时，适当的解码器能够重构作为产生该下混和参数的基础的原始多声道信号的近似。

选择参数化，使得能够在不利用所传送的全部参数的情况下，重构原始声道的指定声道组合，因此，例如在只应重构5.1声道信号的前置声道(左、中心和右声道)时，可以减小重构的计算复杂度。

发明内容

本发明的目的是提供一种概念，用于更有效地从参数多声道信号中获得减小数目的声道。

根据本发明的第一方面，所述目的是通过参数计算器来实现的，所述参数计算器用于导出上混参数，所述上混参数用于将下混信号上混为多声道信号的中间声道表示，所述中间声道表示具有的声道多于所述下混信号并少于所述多声道信号，所述下混信号具有与其相关联的描述多声道信号的空间特性的多声道参数，其中，所述多声道信号包括所述中间声道表示未包括的声道，其中，所述多声道参数包括所述中间声道表示未包括的声道的信息，所述参数计算器包括：参数重新计算器，所述参数重新计算器使用具有所述中间声道表示未包括的声道的信息的参数，从所述多声道参数中导出所述上混参数。

根据本发明的第二方面，所述目的是通过具有参数重构器的声道重构器来实现的，所述声道重构器包括：参数计算器，所述参数计算器用于导出上混参数，所述上混参数用于将下混信号上混为多声道信号的中间声道表示，所述中间声道表示具有的声道多于所述下混信号并少于所述多声道信号，所述下混信号具有与其相关联的描述多声道信号的空间特性的多声道参数，其中，所述多声道信号包括所述中间声道表示未包括的声道，其中，所述多声道参数包括所述中间声道表示未包括的声道的信息，所述参数计算器包括：参数重新计算器，所述参数重新计算器使用具有所述中间声道表示未包括的声道的信息的参数，从所述多声道参数中导出所述上混参数；以及上混器，所述上混器使用所述上混参数和所述下混信号来导出所述中间声道表示。

根据本发明的第三方面，所述目的是通过用于产生上混参数的方法来实现的，所述上混参数用于将下混信号上混为多声道信号的中间声道表示，所述中间声道表示具有的声道多于所述下混信号并少于所述多声道信号，所述下混信号具有与其相关联的描述多声道信号的空间特性的多声道参数，其中，所述多声道信号包括所述中间声道表示未包括的声道，其中，所述多声道参数包括所述中间声道表示未包括的声道的信息，所述方法包括：使用具有所述中间声道表示未包括的声道的信息的参数，从所述多声道参数中导出所述上混参数。

根据本发明的第四方面，所述目的是通过音频接收机或音频播放器来实现的，所述接收机或音频播放器具有参数计算器，所述参数计算器用于导出上混参数，所述上混参数用于将下混信号上混为多声道信号的中间声道表示，所述中间声道表示具有的声道多于所述下混信号并少于所述多声道信号，所述下混信号具有与其相关联的描述多声道信号的空间特性的多声道参数，其中，所述多声道信号包括所述中间声道表示未包括的声道，其中，所述多声道参数包括所述中间声道表示未包括的声道的信息，所述参数计算器包括：参数重新计算器，所述参数重新计算器使用具有所述中间声道表示未包括的声道的信息的参数，从所述多声道参数中导出所述上混参数。

根据本发明的第五方面，所述目的是通过接收或音频播放的方法来实现的，所述方法具有用于产生上混参数的方法，所述上混参数用于将下混信号上混为多声道信号的中间声道表示，所述中间声道表示具有的声道多于所述下混信号并少于所述多声道信号，所述下混信号具有与其相关联的描述多声道信号的空间特性的多声道参数，其中，所述多声道信号包括所述中间声道表示未包括的声道，其中，所述多声道参数包括所述中间声道表示未包括的声道的信息，所述方法包括：使用具有所述中间声道表示未包括的声道的信息的参数，从所述多声道参数中导出所述上混参数。

本发明是基于以下发现，即当导出用于将传送的下混信号上混为中间声道表示的上混参数，该上混参数允许使用与多声道重构中相同的上混算法来进行上混时，可以高效地以高保真度重构多声道信号的中间声道表示。当使用参数重新计算器，该参数重新计算器也考虑了具有所述中间声道表示未包括的声道的信息的参数来导出所述上混参数时，可以实现这一点。

在本发明的一个实施例中，解码器能够从5声道的多声道信号的参数下混来重构立体声输出信号，所述参数下混包括单声道下混信号和相关联的多声道参数。根据本发明，组合空间参数以导出用于立体声信号的上混的上混参数，其中，所述组合也考虑了与左前置或右前置声道不相关的多声道参数。因此，可以导出上混的立体声声道的绝对功率，可以导出左和右声道之间的相干度量，允许对多声道信号的高保真度的立体声重构。此外，导出ICC参数和CLD参数，允许使用已有算法和实现方式来进行上混。使用与重构的立体声声道不相关的声道参数允许以更高的精度保持信号中的能量。这是最重要的，因为不受控的响度变化对回放信号的质量干扰最大。

一般地，如现有技术的方法一样，本发明概念的应用允许根据多声道信号的单声道下混来重构立体声上混，而无需多声道信号的中间完整表示。显然，解码器端的计算复杂度将因此显著降低。也使用与上混中未包括的声道相关联的多声道参数(即左前置和右前置声道)允许进行重构，而不引入任何附加人工效应或响度变化，取而代之的是完美地保持了信号的能量。更具体而言，从许多可用多声道参数中计算左和右重构声道之间的能量比，计算时考虑与左前置和右前置声道不相关的多声道参数。显然，相对于重构立体声信号的收听质量，左和右重构的(上混的)声道之间的响度比是具有支配作用的。不使用本发明的概念，在本文所讨论的基于树形的结构中，不可能实现具有精确正确的能量比的声道的重构。

因此，实现本发明的概念允许基于多声道参数来高质量地立体声再现多声道信号的下混，而所述多声道参数的导出不是为了立体声信号的精确再现。

应注意，当再现的声道数目不为2时，例如在一些回放环境的情况下，也应以高保真度重构中心声道时，也可以使用本发明的概念。

以下将给出现有技术的多声道编码方案(尤其是基于树形的结构的)的更详细的回顾，以概述本发明概念的显著益处。

附图说明

随后参照附图描述本发明的优选实施例，其中：

图1示出了基于树形的参数化示例；

图2示出了树形结构的解码方案的示例；

图3示出了现有技术的多声道编码器的示例；

图4示出了现有技术的解码器的示例；

图5示出了现有技术的下混多声道信号的立体声重构的示例；

图6示出了本发明的参数计算器的示例的框图；

图7示出了本发明的声道重构器的示例；以及

图8示出了本发明的接收机或音频播放器的示例。

具体实施方式

以下，主要关于MPEG编码来描述本发明的概念，但是，本发明的概念也适用于基于多声道信号的参数编码的其他方案。这就是说，以下描述的实施例仅作为对本发明的用于树形结构的多声道系统的减小数目的声道解码的原理的示意。应理解，对本领域技术人员而言，对此处描述的设置和细节的修改和变形是显而易见的。因此，本发明仅由所附专利的权利要求的范围来限定，而不由此处以实施例的描述和解释的方式呈现的具体细节来限定。

如上所述，在一些参数环绕编码系统，例如MPEG环绕中，使用了树形结构的参数化。图1和图2描述了这样的参数化。

图1示出了参数化标准5.1声道音频场景的两种方式，该场景具有左前置声道2、中心声道3、右前置声道4、左环绕声道5和右环绕声道6。可选地，也示出了低频增强声道7(LFE)。

一般地，各声道或声道对相对于彼此通过多声道参数来表征，例如相关性参数ICC和声级参数CLD。在以下的段落中，将简要地解释可能的参数化，接着在图2中示意产生的树形结构的解码方案。

在图1左侧所示的示例(5-1-5₁参数化)中，由CLD和ICC参数来表征多声道信号，CLD和ICC参数描述了左环绕声道5和右环绕声道6 之间、左前置声道2和右前置声道4之间以及中心声道3和低频增强声道7之间的关系。然而，由于整体配置应被下混为单一的单声道，为了完整地描述声道的集合，需要附加参数。因此，使用附加参数(CLD₁、ICC₁)，该附加参数将LFE扬声器7与中心扬声器3的组合与左前置声道2和右前置声道4的组合相关联。此外，需要一个附加参数集合(CLD₀、ICC₀)，这些参数描述了组合的环绕声道5和6与多声道信号的其余声道之间的关系。

在图1右侧所示的示例(5-1-5₂参数化)中，使用了参数，该参数将左前置声道2和左环绕声道5、右前置声道4和右环绕声道6以及中心声道3和低频增强声道7相关联。附加参数(CLD₁和ICC₁)相对于右声道4和6的组合描述了左声道2和5的组合。另一参数集合(CLD₀和ICC₀)描述了中心声道3和LFE声道7相对于其余声道的组合的组合关系。

图2示意了图1的不同参数化之下的编码概念。在解码器端，在类似树形结构中使用了所称的OTT(1至2)模块。每个OTT模块将单声道信号上混为两个输出信号。在解码时，必须以与编码中相反的顺序应用OTT框的参数。因此，在5-1-5₁树形结构中，接收下混信号22(M)的OTT模块20被操作为使用参数CLD₀和ICC₀来导出两个声道，一个是左环绕声道5和右环绕声道6的组合，另一个声道仍是多声道信号的其余声道的组合。

相应地，OTT模块24使用CLD₁和ICC₁，导出第一声道，所述第一声道是中心声道3和低频声道7的组合声道，以及第二声道，所述第二声道是左前置声道2和右前置声道4的组合。以相同的方式，OTT模块26使用CLD₂和ICC₂导出左环绕声道5和右环绕声道6。OTT模块27使用CLD₄导出中心声道3和低频声道7，OTT模块28使用CLD₃和ICC₃导出左前置声道2和右前置声道4。最后，从单个单声道下混声道22导出声道30的完整集合的重构。对于5-1-5₂树形结构，OTT模块的总体布局等同于5-1-5₁树形结构。然而，对于5-1-5₂的情况，单个OTT模块导出不同的声道组合，该声道组合与图1中所概述的参数化相对应。

从图1和2中显然可见，不同参数化的树形结构只是所使用的参数化的可视化。进一步，重要的是，应注意，与例如BCC编码方案相反，各个参数是描述不同声道之间关系的参数，而在BCC编码方案中，关于单一参考声道而导出类似的参数。

因此，在所示的参数化中，不能使用与可视化的OTT框相关联的参数来简单地获得各个声道，而必须附加地考虑一些或全部其余的参数。

参数化的树形结构只是图3所示的实际信号流或处理的可视化，图3示意了由矩阵乘法实现的从传送的低数目声道所进行的上混。图3示出了基于接收的下混的声道40的解码。下混的声道40被输入上混块42，上混块42导出重构的多声道信号44，该多声道信号44中的声道组成按所使用的参数化而不同。然而，重构块42所使用的矩阵的矩阵元素是直接从树形结构中导出的。仅作为示意目的，重构块41可以进一步被分解为预解相关矩阵46，预解相关矩阵46从传送的声道40中导出附加解相关信号。接着，该附加解相关信号被输入至混合矩阵48，混合矩阵48通过混合各个输入声道来导出多声道信号44。

如图4所示，减小重构的声道的数目的直接方法是简单地“剪除”树中的一到两个框。图4通过虚线示意了树的一种可能的剪除，该剪除在重构过程中省略了树的右手侧的OTT模块，因此，减小了输出声道的数目。然而，使用图1和2中所示的现有技术的参数化(引入该参数是由于该参数化在最高可能质量上提供了低比特率编码)，简单的剪除不可能获得正确表示原始多声道信号的左侧下混和右侧下混的立体声输出。图5示出了从上述信号创建立体声输出的现有技术的方法，该方法使用了一种显而易见的方法，首先完整地重构多声道信号，随后使用附加下混器60将该信号下混为立体声表示。这显然具有多个缺点，如高复杂度以及较差的声音质量。

以下，针对一般的情况，获得对上述问题的解决方案，该问题是从单声道下混和不当然地支持向下“剪除”至立体声输出的参数化中的参数的环绕参数来获得立体声输出。跟着是两个具体实施例，示出了在上述参数化中本发明概念的使用。因此，提供了对从单声道下混和不支持向下“剪除”至立体声输出的参数化中的参数的环绕参数来获得立体声输出的问题的解决方案。

以下概述参数重新计算的一般方法。特别地，它适用于从任意数目的多声道音频声道N来计算立体声输出参数的情况。进一步假定该音频信号由子带表示来描述，所述子带表示是使用可以是实数取值或复数调制的滤波器组来导出的。

假设所考虑的所有信号都是与由空间参数定义的时频片(tile)相对应的子带样本的有限向量，假设重构的多声道音频信号的子带样本y是从音频声道的子带样本m₁，m₂，...，m_M和音频声道的解相关的子带样本d₁，d₂，...，d_D中根据以下矩阵上混运算来形成的

y＝Rx，其中

x = [\begin{matrix} m_{1} \\ m_{2} \\ \cdot \\ \cdot \\ \cdot \\ m_{M} \\ d_{1} \\ d_{2} \\ \cdot \\ \cdot \\ \cdot \\ d_{D} \end{matrix}]

所有信号被认为是行向量。矩阵R的大小是N×(M+D)，该矩阵表示图3的矩阵M1和M2的组合效果，也就是上混块42的效果。用于针对原始多声道音频信号子带样本的N_D个声道实现下混版本的合适的功率和相关性参数的一般方法是形成由N_D×N下混矩阵D定义的虚拟下混的协方差矩阵

y_D＝Dy。

可以通过乘以复共轭转置来计算该协方差矩阵为

y_Dy^* _D＝Dyy^*D^*＝DRxx^*R^*D^*

其中，从解相关器的特性和传送的参数通常可以知道内协方差矩阵xx^*。

这一点为真的一种重要的特殊情况是对于M＝1，通常该内协方差矩阵实际上等于大小为M+D的单位矩阵。由此，对于N_D＝2的立体声输出，在

CLD = 10 \log_{10} (\frac{L_{0}}{R_{0}}),

ICC = \frac{Re &lang; l_{0}, r_{0} &rang;}{\sqrt{L_{0} R_{0}}}

的意义上，可以从

y_{D} y_{D}^{*} = [\begin{matrix} L_{0} & &lang; l_{0}, r_{0} &rang; \\ &lang; r_{0}, l_{0} &rang; & R_{0} \end{matrix}]

中读出CLD和ICC参数。

注意，此处及以下，应用以下标记。对于复向量x，y，由

\{\begin{matrix} &lang; x, y &rang; = \underset{n}{Σ} x (n) y^{*} (n), \\ X = {| | x | |}^{2} = &lang; x, x &rang; = \underset{n}{Σ} {| x (n) |}^{2}, \\ Y = {| | y | |}^{2} = &lang; y, y &rang; = \underset{n}{Σ} {| y (n) |}^{2}, \end{matrix}\}

来定义复内积和平方范数，其中星号表示复共轭。

随后，应针对图1和2中所示的不同参数化(5-1-5₁和5-1-5₂)导出本发明的两个实施例。在本发明的实施例中教导了：为了基于单声道下混和对应的MPEG环绕参数(多声道参数)来输出立体声信号，需要将上混参数重新计算为可以用于从单声道信号直接上混立体声信号的CLD和ICC参数的单个集合。

进一步假定，逐帧(即在离散的时间部分中)进行各个音频声道的处理。因此，在提及一个声道内包含的功率或能量时，术语“功率”或“能量”应被理解为一个特定声道的一帧内包含的能量或功率。

一般地，例如CLD和ICC这样的参数也对一个单帧有效。对于具有k个样本值α_i的帧，例如，该帧内的能量E可以被表示为该帧内的子带样本值的平方和：

E = Σ_{i = 1}^{k} a_{i} a_{i}^{*}

为上混参数的计算而传送并使用的声道声级差(CLD)定义如下，所述上混参数用于将下混信号M上混为多声道信号的中间声道表示(立体声)：

CLD = 10 \log_{10} (\frac{L_{0}}{R_{0}}),

其中，L₀和R₀表示应当针对其导出参数CLD的那一帧内的所讨论的信号的功率。

因此，对于5-1-5₁的情况，可以使用4个CLD参数CLD_X，X＝0，1，2，3来获得由单下混声道m的功率归一化的声道功率。

L_f＝(c₁₀c₁₁c₁₃)²，

R_f＝(c₁₀c₁₁c₂₃)²，

C＝(c₁₀c₂₁)²，

L_s＝(c₂₀c₁₂)²，

R_s＝(c₂₀c₂₂)²。

声道增益以下式子来定义

c_{1 X} = \sqrt{\frac{10^{{CLD}_{X} / 10}}{1 + 10^{{CLD}_{X} / 10}}}

　以及

c_{2 X} = \sqrt{\frac{1}{1 + 10^{{CLD}_{X} / 10}}} .

最终的目标是导出在找到由

l₀＝l+qc，其中l＝G(l_f+l_s)，使得L＝L_f+L_s

r₀＝r+qc，其中r＝G(r_f+r_s)，使得R＝R_f+R_s

形成的立体声声道(中间声道表示)的合适的归一化功率的估计和相关性的意义上最优的立体声声道l₀和r₀，其中，中心下混权值为

q = 1 / \sqrt{2} .

从这个假设计算功率给出了这样的结果

L₀＝L+q²C+2Re<l，qc>，

R₀＝R+q²C+2Re<r，qc>。

结果，最有利的是假定组合的左声道1和组合的右声道r与中心声道c不相关，而不是试图结合由参数

X＝0，1携带的相关性信息。因此，由

L_{0} = L_{f} + L_{s} + \frac{C}{2},

R_{0} = R_{f} + R_{s} + \frac{C}{2}

来估计立体声输出声道的归一化功率。

导出了输出声道的功率之后，可以使用以上给出的CLD参数的定义容易地计算出所需CLD参数。

根据本发明的概念，获得ICC参数以允许立体声上混。两个输出声道之间的相关性由以下表达式定义：

p＝Re<l₀，r₀>＝q²C+Re<l，r>+qRe<c，l+r>。

此处，吸引人的简化假设的集合再次是组合的左声道1和组合的右声道r与中心声道c不相关，此外，环绕声道与前置声道不相关。这些假设可以表示为：

Re<c，l+r>＝0，

Re<l，r>＝Re<l_f，r_f>+Re<l_s，r_s>。

产生的p的估计取决于描述归一化的左/右相关性的两个ICC参数ICC_X，X＝2，3

p = \frac{C}{2} + I {CC}_{2} \sqrt{L_{s} R_{s}} + {ICC}_{3} \sqrt{L_{f} R_{f}},

也可以写为：

p = \frac{C}{2} + {ICC}_{2} c_{20}^{2} c_{12} c_{22} + {ICC}_{3} {(c_{10} c_{11})}^{2} c_{13} c_{23} .

因此，最终的相关性值取决于多声道参数化的许多参数，允许了信号的高保真度的重构。最终，使用以下方程来导出ICC参数：

ICC = \max {- . 99, \min {1, \frac{p}{\sqrt{L_{0} R_{0}}}}}

根据本发明的概念，以高精度重构了重构的声道之间的功率分布。然而，此外，对两个声道应用全局功率缩放可能是必要的，以确保整体能量的保持。由于声道间的相对能量分布对于重构信号的空间感知非常重要，因此，全局缩放可能使重构信号的感知质量恶化。应强调，全局缩放只是在由参数定义的时频片(tile)内是全局的。这意味着，错误的缩放在参数片(tile)的缩放中将局部影响信号。换言之，将应用取决于频率和时间两者的增益，该增益导致频谱彩色化以及时间调制的人工效应。用于全局缩放的增益调整因子是必要的，以确保立体声上混过程保持单下混声道m的功率。

然而，该因子由

g = \sqrt{L_{0} + R_{0}}

定义，对于5-1-5₁的配置，由于L₀+R₀＝L_f+R_f+C+L_s+R_s＝1，这个量是g＝1。

作为另一实施例，在以下段落中，概述本发明的概念对5-1-5₂的应用。为了创建高保真度的立体声信号，与树的顶部分支相对应的前两个CLD和ICC参数集合是相关的。

首先使用两个CLD参数CLD_X，其中X＝0，1来获得组合的左和右声道以及中心声道的归一化声道功率

L＝(c₁₀c₁₁)²，

R＝(c₁₀c₂₁)²，

C = c_{20}^{2}

其中，由

c_{1 X} = \sqrt{\frac{10^{{CLD}_{X} / 10}}{1 + 10^{{CLD}_{X} / 10}}}

和

c_{2 X} = \sqrt{\frac{1}{1 + 10^{{CLD}_{X} / 10}}}

来定义声道增益。

目标是导出下混声道的功率和相关性

l₀＝l+qc，

r₀＝r+qc，

其中，中心下混权值为

q = 1 / \sqrt{2} .

根据这个假设计算功率给出了这样的结果

L₀＝L+q²C+2Re<l，qc>，

R₀＝R+q²C+2Re<r，qc>。

此处优选的假设是声道1和c之间以及声道r和c之间的ICC均与声道1+r和c之间的给定的ICC₀相同。这个假设导致了如下估计

Re &lang; l . c &rang; = {ICC}_{0} \sqrt{LC},

Re &lang; r, c &rang; = {ICC}_{0} \sqrt{RC},

使得归一化功率的估计变为

L_{0} = L + \frac{C}{2} + \sqrt{2} {ICC}_{0} \sqrt{LC},

R_{0} = R + \frac{C}{2} + \sqrt{2} {ICC}_{0} \sqrt{RC} .

如在之前的实施例中一样，对于功率值L₀和R₀，可以导出所需的CLD参数：

CLD = 10 \log_{10} (\frac{L_{0}}{R_{0}}) .

导出相关性并最终导出ICC参数的步骤从相关性值的一般定义开始：

p＝Re<l₀，r₀>＝q²C+Re<l，r>+q Re<c，l+r>。

由于

Re &lang; c, l + r &rang; = {ICC}_{0} \sqrt{C} | | l + r | |,

‖l+r‖²＝L+R+2Re<l，r>，

Re &lang; l, r &rang; = {ICC}_{1} \sqrt{LR},

因此所有必要的信息都可以从5-1-5₂树形结构的参数中得到。

最终的结果可以写为：

L_{0} = L + \frac{C}{2} + \sqrt{2} {ICC}_{0} c_{10} c_{11} c_{20},

R_{0} = R + \frac{C}{2} + \sqrt{2} {ICC}_{0} c_{10} c_{21} c_{20},

p = \frac{C}{2} + c_{10} ({ICC}_{1} c_{10} c_{11} c_{21} + \frac{1}{\sqrt{2}} {ICC}_{0} c_{20} \sqrt{1 + {ICC}_{1} c_{11} c_{21}}) .

所需增益调整因子g由以下式子定义：

g = \sqrt{L_{0} + R_{0}}

可以注意到，可以进一步量化所产生的CLD和ICC参数，以实现在解码器中使用查找表用于上混矩阵的创建，而不需要执行复杂的计算。这进一步提高了上混过程的效率。

一般地，可以使用已有的OTT模块来进行上混。这样具有一个优点，即可以在已有的解码场景中容易地实现本发明的概念。

一般地，可以如下描述上混矩阵：

H = [\begin{matrix} h_{11} & h_{12} \\ h_{21} & h_{22} \end{matrix}] = g \cdot [\begin{matrix} c_{1} \cos (α + β) & c_{1} \sin (α + β) \\ c_{2} \cos (- α + β) & c_{2} \sin (- α + β) \end{matrix}]

其中

c_{1} = \sqrt{\frac{10^{CLD / 10}}{1 + 10^{CLD / 10}}},

c_{2} = \sqrt{\frac{1}{1 + 10^{CLD / 10}}}

其中：

β = \arctan (\tan (α) \frac{c_{2} - c_{1}}{c_{2} + c_{1}}),

α = \frac{1}{2} \arccos (ICC) .

因此，在以本发明的方式导出了参数CLD和ICC之后，可以使用标准上混模块，以高保真度对传送的下混执行立体声上混。

在本发明的另一实施例中，发明的声道重构器包括用于获得上混参数的参数计算器，以及上混器，所述上混器使用所述上混参数和所述下混信号来获得所述中间声道表示。

在图6中，再次概述了本发明的概念，图6示出了本发明的参数计算器502，参数计算器502接收许多ICC参数504和许多CLD参数506。根据本发明的一个实施例，本发明的参数计算器502也使用具有立体声上混的声道不包括或不相关的声道的信息的多声道参数(ICC和CLD)来获得用于重建立体声信号的单个CLD参数508和单个ICC参数510。

可以注意到，本发明的概念可以容易地适用于具有包括多于两个声道的上混的场景。在该意义上，上混一般地被定义为多声道信号的中间声道表示，其中，所述中间声道表示具有的声道多于所述下混信号并少于所述多声道信号。一种常见的场景是这样一种配置，在该配置中重构附加的中心声道。

在图7中再次概述了本发明概念的应用，图7示出了本发明的参数计算器502以及1至2框OTT520。如在图6中详细描述的，OTT框520接收传送的单声道信号522作为输入。本发明的参数计算器502接收多个ICC值5-4和多个CLD值506，以导出单个CLD单数508和单个ICC参数510。

单个CLD和ICC单数508和510被输入OTT模块520，以控制单声道下混信号522的上混。因此，在OTT模块520的输出，可以提供立体声信号524作为多声道信号的中间声道表示。

图8示出了本发明的接收机或音频播放器600，接收机或音频播放器600具有发明的音频解码器601、比特流输入602以及音频输出604。

可以将比特流输入本发明的接收机/音频播放器600的输入602。接着，解码器601解码该比特流，在本发明的接收机/音频播放器600的输出604输出或播放解码的信号。

虽然本发明主要关于MPEG环绕编码来概述，但是，这当然绝不能将应用限制在特定的参数编码场景。由于本发明概念的高度灵活性，也可以容易地将本发明概念应用至其他编码方案，例如应用至7.1或7.2声道配置或BCC方案。

虽然涉及MPEG编码的本发明的实施例引入一些针对通常的CLD和ICC参数的产生的简化假设，但是，这不是强制性的。当然，也可以不引入这些简化。

根据本发明方法的特定实现要求，可以以硬件或软件来实现本发明的方法。所述实现可以在数字存储介质，尤其是具有电子可读控制信号的光盘或CD上完成，所述数字存储介质可以与可编程计算机系统协作，以执行本发明方法。一般地，因此，本发明是具有程序代码的计算机程序产品，所述程序代码存储在机器可读载体上，当所述计算机程序产品在计算机上运行时，所述程序代码被操作为执行本发明的方法。换言之，因此，本发明方法是具有程序代码的计算机程序，所述程序代码用于在计算机程序在计算机上运行时执行至少一个本发明的方法。

虽然参照本发明的特定实施例具体地示出并描述了上述内容，但是，本领域技术人员应理解，在不背离本发明的精神和范围的情况下，可以对形式和细节做出各种其他改变。应理解，为了适应不同的实施例，在不背离此处公开的以及由所附权利要求所包括的更宽的概念的情况下，可以做出各种改变。

Claims

1.一种参数计算器，用于导出上混参数(508、510)，所述上混参数用于将下混信号上混为多声道信号的立体声表示(524)，所述立体声表示(524)具有的声道多于所述下混信号并少于所述多声道信号，所述立体声表示(524)表示了所述多声道信号的左侧下混和右侧下混，所述下混信号具有与其相关联的描述多声道信号的空间特性的多声道参数(504、506)，其中，所述多声道信号包括所述立体声表示(524)未包括的声道，其中，所述多声道参数包括所述立体声表示(524)未包括的声道的信息，所述参数计算器包括：

参数重新计算器(502)，所述参数重新计算器使用具有所述立体声表示未包括的声道的信息的参数，从所述多声道参数(504、506)中导出所述上混参数(508、510)，所述上混参数(508、510)包括CLD参数(508)和ICC参数(510)，所述CLD参数(508)具有所述立体声表示的左和右声道的能量信息，所述ICC参数(510)具有所述左和右声道之间的相关性信息。

2.如权利要求1所述的参数计算器，其中，所述参数重新计算器(502)适于使用多声道参数(504、506)，所述多声道参数描述了多声道信号的声道或声道组合相对于多声道信号的另一声道或另一声道组合的信号特性。

3.如权利要求2所述的参数计算器，其中，所述参数重新计算器(502)操作用于导出上混参数(508、510)，所述上混参数描述了与所述多声道参数(504、506)相同的所述立体声表示的声道的信号特性。

4.如权利要求1所述的参数计算器，其中，所述参数重新计算器(502)适于使用具有相关性信息的相关性参数(ICC)(504)以及具有能量信息的声级参数(CLD)(506)，所述相关性信息和能量信息是多声道信号的声道或声道组合相对于多声道信号的另一声道或另一声道组合的相关性信息和能量信息。

5.如权利要求4所述的参数计算器，适于使用多声道信号的多声道参数，所述多声道信号包括左前置LF(2)、左环绕LS(5)、右前置RF(4)、右环绕RS(6)和中心声道C_c(3)。

6.如权利要求5所述的参数计算器，其中，所述参数重新计算器(502)操作用于使用以下参数来导出CLD参数(508)：

第一组合CLD参数CLD₀，具有左环绕LS(5)和右环绕RS(6)声道的组合以及多声道信号的其余声道的组合的能量信息；

第二组合CLD参数CLD₁，具有左前置LF(2)和右前置RF(4)声道的组合以及中心声道C_c(3)的能量信息；

第三组合CLD参数CLD₂，具有左环绕LS(5)和右环绕RS(6)声道的能量信息；以及

第四组合CLD参数CLD₃，具有左前置LF(2)和右前置RF(4)声道的能量信息。

7.如权利要求6所述的参数计算器，其中，所述参数重新计算器(502)操作用于根据以下方程来导出所述CLD参数：

CLD = {10 \log}_{10} (\frac{L_{0}}{R_{0}}),

其中，L₀和R₀是由以下等式导出的立体声输出声道的归一化功率：

L_{0} = L_{f} + L_{s} + \frac{C}{2},

R_{0} = R_{f} + R_{s} + \frac{C}{2},

其中，从所述组合CLD参数，按照以下等式来导出多声道信号的功率：

L_f＝(c₁₀c₁₁c₁₃)²，

R_f＝(c₁₀c₁₁c₂₃)²，

C＝(c₁₀c₂₁)²，

L_s＝(c₂₀c₁₂)²，

R_s＝(c₂₀c₂₂)²，

c_{1 X} = \sqrt{\frac{10^{{CLD}_{X} / 10}}{1 + 10^{{CLD}_{X} / 10}}}

以及

c_{2 X} = \sqrt{\frac{1}{1 + 10^{{CLD}_{X} / 10}}},

其中，X为值0、1、2或3，CLD₀是第一组合CLD参数，CLD₁是第二组合CLD参数，CLD₂是第三组合CLD参数，CLD₃是第四组合CLD参数，L_f对应于左前置声道信号的功率，R_f对应于右前置声道信号的功率，C对应于中心声道信号的功率，L_s对应于左环绕声道信号的功率，R_s对应于右环绕声道信号的功率。

8.如权利要求5所述的参数计算器，其中，所述参数重新计算器(502)操作用于使用以下参数来导出ICC(510)参数：

第二组合CLD参数CLD₁，具有左前置LF(2)和右前置RF(4)声道的组合以及中心声道C_c的能量信息；

第三组合CLD参数CLD₂，具有左环绕LS(5)和右环绕RS(6)声道的能量信息；

第四组合CLD参数CLD₃，具有左前置LF(2)和右前置RF(4)声道的能量信息；

第一组合ICC参数ICC₂，具有左环绕LS(5)和右环绕RS(6)声道之间的相关性信息；以及

第二组合ICC参数ICC₃，具有左前置LF(2)和右前置RF(4)声道之间的相关性信息。

9.如权利要求8所述的参数计算器，其中，根据以下方程来导出所述ICC参数(510)：

ICC = \max {- 0.99, \min {1, \frac{p}{\sqrt{L_{0} R_{0}}}}},

L_{0} = L_{f} + L_{s} + \frac{C}{2},

R_{0} = R_{f} + R_{s} + \frac{C}{2},

L_f＝(c₁₀c₁₁c₁₃)²，

R_f＝(c₁₀c₁₁c₂₃)²，

C＝(c₁₀c₂₁)²，

L_s＝(c₂₀c₁₂)²，

R_s＝(c₂₀c₂₂)²，

c_{1 X} = \sqrt{\frac{10^{{CLD}_{X} / 10}}{1 + 10^{{CLD}_{X} / 10}}}

以及

c_{2 X} = \sqrt{\frac{1}{1 + 10^{{CLD}_{X} / 10}}},

其中，相关性估计p被定义为：

p = \frac{C}{2} + {ICC}_{2} c_{20}^{2} c_{12} c_{22} + {ICC}_{3} {(c_{10} c_{11})}^{2} c_{13} c_{23},

10.如权利要求5所述的参数计算器，其中，所述参数重新计算器操作用于使用以下参数来导出CLD参数(508)：

第一组合CLD参数CLD₀，具有中心声道C_c(3)以及多声道信号的其他声道的组合的能量信息；

第二组合CLD参数CLD₁，具有左前置LF(2)和左环绕LS(5)声道的组合以及右前置RF(4)和右环绕RS(6)声道的组合的能量信息；

ICC参数ICC₀，具有中心声道C_c(3)与多声道信号的其他声道的组合之间的相关性信息。

11.如权利要求10所述的参数计算器，其中，根据以下方程来导出所述CLD参数(508)：

CLD = {10 \log}_{10} (\frac{L_{0}}{R_{0}}),

L_{0} = L + \frac{C}{2} + \sqrt{2} {ICC}_{0} \sqrt{LC},

R_{0} = R + \frac{C}{2} + \sqrt{2} {ICC}_{0} \sqrt{RC},

其中

L＝(c₁₀c₁₁)²，

R＝(c₁₀c₂₁)²，

C = c_{20}^{2},

以及

c_{1 X} = \sqrt{\frac{10^{{CLD}_{X} / 10}}{1 + 10^{{CLD}_{X} / 10}}}

以及

c_{2 X} = \sqrt{\frac{1}{1 + 10^{{CLD}_{X} / 10}}},

其中，X为值0、1或2，CLD₀是第一组合CLD参数，CLD₁是第二组合CLD参数，CLD₂是第三组合CLD参数，C对应于中心声道信号的功率。

12.如权利要求5所述的参数计算器，其中，所述参数重新计算器(502)操作用于使用以下参数来导出所述ICC参数(510)：

第一组合ICC参数ICC₀，具有中心声道C_c(3)与多声道信号的其他声道的组合之间的相关性信息；以及

第二组合ICC参数ICC₁，具有左前置LF(2)和左环绕LS(5)声道的组合与右前置RF(4)和右环绕RS(6)声道的组合之间的相关性信息。

13.如权利要求12所述的参数计算器，其中，所述参数重新计算器(502)操作用于使用以下方程来导出所述ICC参数：

ICC = \max {- 0.99, \min {1, \frac{p}{\sqrt{L_{0} R_{0}}}}},

L_{0} = L + \frac{C}{2} + \sqrt{2} {ICC}_{0} \sqrt{LC},

R_{0} = R + \frac{C}{2} + \sqrt{2} {ICC}_{0} \sqrt{RC},

其中

L＝(c₁₀c₁₁)²，

R＝(c₁₀c₂₁)²，

C = c_{20}^{2},

以及

c_{1 X} = \sqrt{\frac{10^{{CLD}_{X} / 10}}{1 + 10^{{CLD}_{X} / 10}}}

以及

c_{2 X} = \sqrt{\frac{1}{1 + 10^{{CLD}_{X} / 10}}}

其中，相关性估计p导出为：

p = \frac{C}{2} + c_{10} ({ICC}_{1} c_{10} c_{11} c_{21} + \frac{1}{\sqrt{2}} {ICC}_{0} c_{20} \sqrt{1 + {ICC}_{1} c_{11} c_{21}}),

14.如权利要求1所述的参数计算器，其中，所述参数重新计算器(502)操作用于使用描述多声道信号的子带表示的多声道参数(504，506)。

15.如权利要求1所述的参数计算器，其中，所述参数重新计算器(502)操作用于使用复值多声道参数(504，506)。

16.一种声道重构器，包括：

参数计算器，用于导出上混参数(508、510)，所述上混参数用于将下混信号上混为多声道信号的立体声表示(524)，所述立体声表示(524)具有的声道多于所述下混信号并少于所述多声道信号，所述立体声表示(524)表示了所述多声道信号的左侧下混和右侧下混，所述下混信号具有与其相关联的描述多声道信号的空间特性的多声道参数(504、506)，其中，所述多声道信号包括所述立体声表示(524)未包括的声道，其中，所述多声道参数包括所述立体声表示(524)未包括的声道的信息，所述参数计算器包括：

参数重新计算器(502)，所述参数重新计算器使用具有所述立体声表示未包括的声道的信息的参数，从所述多声道参数(504、506)中导出所述上混参数(508、510)，所述上混参数(508、510)包括CLD参数(508)和ICC参数(510)，所述CLD参数(508)具有所述立体声表示的左和右声道的能量信息，所述ICC参数(510)具有所述左和右声道之间的相关性信息；以及

上混器(502)，所述上混器使用所述上混参数(508，510)和所述下混信号来导出所述立体声表示(524)。

17.一种用于产生上混参数(508，510)的方法，所述上混参数用于将下混信号上混为多声道信号的立体声表示(524)，所述立体声表示具有的声道多于所述下混信号并少于所述多声道信号，所述立体声表示表示了所述多声道信号的左侧下混和右侧下混，所述下混信号具有与其相关联的描述多声道信号的空间特性的多声道参数(504，506)，其中，所述多声道信号包括所述立体声表示未包括的声道，其中，所述多声道参数(504，506)包括所述立体声表示未包括的声道的信息，所述方法包括：

使用具有所述立体声表示(524)未包括的声道的信息的参数，从所述多声道参数中导出所述上混参数(508，510)，所述上混参数包括CLD参数(508)和ICC参数(510)，所述CLD参数(508)具有所述立体声表示的左和右声道的能量信息，所述ICC参数(510)具有所述左和右声道之间的相关性信息。

18.一种音频接收机，所述音频接收机具有参数计算器(601)，所述参数计算器用于导出上混参数，所述上混参数用于将下混信号上混为多声道信号的立体声表示，所述立体声表示具有的声道多于所述下混信号并少于所述多声道信号，所述立体声表示表示了所述多声道信号的左侧下混和右侧下混，所述下混信号具有与其相关联的描述多声道信号的空间特性的多声道参数，其中，所述多声道信号包括所述立体声表示未包括的声道，其中，所述多声道参数包括所述立体声表示未包括的声道的信息，所述参数计算器包括：

参数重新计算器，所述参数重新计算器使用具有所述立体声表示未包括的声道的信息的参数，从所述多声道参数中导出所述上混参数，所述上混参数包括CLD参数和ICC参数，所述CLD参数具有所述立体声表示的左和右声道的能量信息，所述ICC参数具有所述左和右声道之间的相关性信息。

19.一种音频播放器，所述音频播放器具有参数计算器(601)，所述参数计算器用于导出上混参数，所述上混参数用于将下混信号上混为多声道信号的立体声表示，所述立体声表示具有的声道多于所述下混信号并少于所述多声道信号，所述立体声表示表示了所述多声道信号的左侧下混和右侧下混，所述下混信号具有与其相关联的描述多声道信号的空间特性的多声道参数，其中，所述多声道信号包括所述立体声表示未包括的声道，其中，所述多声道参数包括所述立体声表示未包括的声道的信息，所述参数计算器包括：

20.一种接收方法，所述方法具有用于产生上混参数的方法，所述上混参数用于将下混信号上混为多声道信号的立体声表示，所述立体声表示具有的声道多于所述下混信号并少于所述多声道信号，所述立体声表示表示了所述多声道信号的左侧下混和右侧下混，所述下混信号具有与其相关联的描述多声道信号的空间特性的多声道参数，其中，所述多声道信号包括所述立体声表示未包括的声道，其中，所述多声道参数包括所述立体声表示未包括的声道的信息，所述方法包括：

使用具有所述立体声表示未包括的声道的信息的参数，从所述多声道参数中导出所述上混参数，所述上混参数包括CLD参数和ICC参数，所述CLD参数具有所述立体声表示的左和右声道的能量信息，所述ICC参数具有所述左和右声道之间的相关性信息。

21.一种音频播放方法，所述方法具有用于产生上混参数的方法，所述上混参数用于将下混信号上混为多声道信号的立体声表示，所述立体声表示具有的声道多于所述下混信号并少于所述多声道信号，所述立体声表示表示了所述多声道信号的左侧下混和右侧下混，所述下混信号具有与其相关联的描述多声道信号的空间特性的多声道参数，其中，所述多声道信号包括所述立体声表示未包括的声道，其中，所述多声道参数包括所述立体声表示未包括的声道的信息，所述方法包括：