CN102523552A

CN102523552A - 非节能上混规则脉络立体多声道解码器

Info

Publication number: CN102523552A
Application number: CN2011104025254A
Authority: CN
Inventors: 拉斯·维莱摩尔斯
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2006-06-02
Filing date: 2006-09-04
Publication date: 2012-06-27
Anticipated expiration: 2026-09-04
Also published as: US8948405B2; TWI338461B; US20190110150A1; US10021502B2; US20170272885A1; US20180098170A1; ATE503244T1; US20200021937A1; US20180139559A1; US10412526B2; US8027479B2; US20190110151A1; US12052558B2; US20110091046A1; EP2216776A2; US20180109897A1; US10123146B2; JP4834153B2; CN102523552B; US10097940B2

Abstract

一种多声道解码器，其利用能量误差引入上混规则的上混规则信息，从下混信号产生立体信号，用以根据上混规则信息以及与上混声道对应的以头部相关传递函数(HRTF)为基础的滤波器的滤波器特性来计算增益因子。该一个或多个增益因子则由滤波处理器所使用，用以将该下混信号进行滤波，因此可获得具有左方立体声道与右方立体声道的能量修正的立体信号。

Description

非节能上混规则脉络立体多声道解码器

本申请是2008年12月2日提交的、申请号为200680054828.9、发明名称为“非节能上混规则脉络立体多声道解码器”的专利申请的分案申请。

技术领域

本发明涉及一种根据可利用下混信号与额外控制数据，而以头部相关传递函数(HRTF)滤波的方式，进行多声道音频信号的立体(binaural)解码。

背景技术

音频编码的近来发展已经具有可以根据一立体(或单音)信号及对应控制数据进行音频信号多声道表现的重建方法。这些方法与较早期根据例如杜比专业逻辑(Dolby Prologic)的矩阵解法不同，因为其传输额外的控制数据，以控制根据该传输单音或立体声声道进行重建，也同时被称为环绕声道上混。

因此，这样的参数多声道音频解码器，例如动态影像压缩标准环绕(MPEG Surround)，根据M个传输声道以及额外的控制数据重构N个声道，其中N＞M。该额外控制数据表示一种与传输所有N个声道相比之下的较低数据传输率，其使得编码动作非常的有效率，而同时也确保与M个声道装置及与N个声道装置两者的兼容性。[参考J.Breebaart et al.“MPEG spatial audio coding/MPEG Surround：overview and current status”，Proc.119^th AES convention，NewYork，USA，October 2005，Preprint 6447.]

这些参数环绕编码方法通常包括一种根据声道强度差异(CLD)与声道间谐和性/相关性(ICC)的参数环绕信号。这些参数描述在上混处理中的功率比率以及声道对之间的相关性。现有技术中也使用其它的声道预测系数(CPC)，以在上混步骤期间预测中间或输出声道。

其它音频编码中的发展也已经提供一种获得遍及立体声耳机多声道信号印象的方法。这一般是利用该原始多声道信号与头部相关传递函数(HRTF)滤波器，将多声道信号下混为立体声的方式所完成。

替代的，对于计算效率的理由以及对于音频质量的理由来说，避开产生具有左方立体声道与右方立体声道的立体信号方式，当然也是有用的。

然而，其问题在于如何能够组合原始头部相关传递函数(HRTF)滤波器。另外，在根据一种能量损失效应的上混规则方式中，换言之当该多声道解码器输入的信号包含具有例如第一下混声道与第二下混声道的下混信号，并另外具有空间参数，以用来进行非能量守恒方式的上混时，也会产生问题。这样的参数也已知为例如预测参数或是CPC参数。这些参数在与声道程度差异参数(CLD)相比之下，具有无法计算反映两声道之间能量分布的性质，但其可以计算以执行一种可能最佳的波形吻合，并自然地造成能量误差(例如，能量损失)，因此，当产生该预测参数时，便无法考虑到上混的能量守恒性质，而只能关心该重建信号与该原始信号相比之下的最可能时间或子带(subband)域波形吻合。

当想要简单的根据这种传输的空间预测参数进行头部相关传递函数(HRTF)滤波器的线性组合时，如果该声道预测执行效果不好，将接收到特别严重的假像(artifact)。在此情况中，即使是细微的线性相关性也会导致不想要的立体输出频谱染色(coloring)。目前已经发现，当该原始声道载有成对的不相关信号并具有可比较的强度时，便会经常形成这种假像。

发明内容

本发明的目标是提供一种有效率与定量的可接受概念，以进行多声道解码，而获得一种立体信号，其可以在例如头戴式耳机的多声道信号再现中使用。

根据本发明第一观点，此目标是利用一种多声道解码器所达成，其利用包含以上混规则将下混信号进行上混的可使用上混规则信息参数，从来自于原始多声道信号所导出的下混信号产生立体信号，该上混规则造成一种能量误差，该多声道解码器包括：增益因子计算器，其根据该上混规则信息以及对应于上混声道的以头部相关传递函数(HRTF)为基础的滤波器特性，计算至少一个增益因子，以降低或消除该能量误差；以及滤波处理器，其利用该至少一个增益因子、该滤波器特性与该上混规则信息，将该下混信号进行滤波，以获得能量修正的立体信号。

根据本发明第二观点，此目标是利用一种多声道解码的方法所达成，其利用包含以上混规则将下混信号进行上混的可使用上混规则信息参数，从来自于原始多声道信号所导出的下混信号产生立体信号，该上混规则造成一种能量误差，该方法包括：根据该上混规则信息以及对应于上混声道的以头部相关传递函数(HRTF)为基础的滤波器特性，计算至少一个增益因子，以降低或消除该能量误差；以及利用该至少一个增益因子、该滤波器特性与该上混规则信息，将该下混信号进行滤波，以获得能量修正的立体信号。

本发明的另一观点与一种计算机程序有关，其具有当在计算机上执行时实作该多声道解码方法的计算机可读代码。

本发明是基于可以更有利地利用造成能量误差上混的上混规则信息，以将下混信号滤波，而在不需要完整表现该多声道信号下获得立体信号，并接着应用多个头部相关传递函数(HRTF)滤波器。取而代之，根据本发明，与能量误差效应上混规则有关的上混规则信息，可以有利地用于避免下混信号的立体表现，而根据本发明，可计算增益因子并在进行该下混信号滤波时使用，其中此增益因子的计算可以降低或完全消除该能量误差。

具体来说，该增益因子不只与例如预测参数的上混规则信息有关，更重要的是，其也与对应于该上混声道的以头部相关传递函数(HRTF)为基础的滤波器有关，其中该上混声道的上混规则为已知。具体来说，这些上混声道从来不存在于本发明的优选实施例中，因此该立体声道并不需要例如三个中间声道的首次呈现便可计算。然而，虽然该上混声道本身从不存在于该优选实施例中，仍然可以导出或提供对应于该上混声道的以头部相关传递函数(HRTF)为基础的滤波器。已经发现由这种能量损失影响的上混规则所引入的能量误差并不与从该编码器传输至该解码器的上混规则信息对应，但与以头部相关传递函数(HRTF)为基础的滤波器相关，因此当产生该增益因子时，以头部相关传递函数(HRTF)为基础的滤波器也影响该增益因子的计算。

有鉴于此，本发明将说明例如预测参数的上混规则信息之间的互相依赖关系，因此代表该声道，以头部相关传递函数(HRTF)为基础滤波器的预测参数与特定表象(appearance)，将成为利用该上混规则进行上混的结果。

因此，本发明提供一种方案，以解决从预测上混与参数多声道音频立体解码组合时所产生的频谱染色现象。

本发明的优选实施例包括以下特征：一种音频解码器，从M个解码信号与建立N(N＞M)个声道有关的空间参数产生立体音频信号，该解码器包括增益计算器，用于在许多子带中从来自于P对立体子带滤波器与建立P个中间声道有关的空间参数子集合中估计两个补偿增益，并包括增益调整器，用于修改在许多子带中由该P对立体子带滤波器线性组合所获得的M对立体子带滤波器，该修改包括将该M对立体子带滤波器的每一对与由该增益计算器所计算的两个增益相乘。

附图说明

本发明现在将藉由描述范例并以参考附图的方式所叙述，其并不限制本发明的范围或精神，其中：

图1描述利用头部相关传递函数(HRTF)相关滤波器的参数多声道信号立体合成；

图2描述利用组合滤波的参数多声道信号立体合成；

图3描述本发明的参数/滤波器组合器的组成；

图4描述动态影像压缩标准环绕(MPEG Surround)空间解码的结构；

图5描述不利用本发明增益补偿的解码立体信号的频谱；

图6描述本发明的立体信号解码的频谱；

图7描述利用头部相关传递函数(HRTF)的传统立体合成；

图8描述一种动态影像压缩标准(MPEG)环绕编码器；

图9描述动态影像压缩标准(MPEG)环绕解码器与立体合成器的级联；

图10描述一种用于特定配置的概念三维(3D)立体解码器；

图11描述一种用于特定配置的空间编码器；

图12描述一种空间(动态影像压缩标准环绕(MPEG Surround))解码器；

图13描述利用四个滤波器进行两个下混声道滤波，以在不进行增益因子修正下获得立体信号；

图14描述一种在五声道设定中，说明不同头部相关传递函数(HRTF)1-10的空间设定；

图15描述当已经组合代表L、L_s以及R、R_s的声道时图14的状态；

图16a描述当已经实作头部相关传递函数(HRTF)最大组合，并只剩余图13的四个滤波器时，图14或15的设定；

图16b描述由图20的编码器所决定的上混规则，其具有造成非能量守恒上混的上混系数；

图17描述如何组合头部相关传递函数(HRTF)，以最终获得四个以头部相关传递函数(HRTF)为基础的滤波器；

图18描述本发明多声道解码器的优选实施例；

图19a描述在不进行增益修正下以头部相关传递函数(HRTF)为基础进行滤波之后，具有缩放级的本发明的多声道解码器的第一实施例；

图19b描述利用以头部相关传递函数(HRTF)为基础的滤波器进行调整之后的本发明装置，其形成增益调整的滤波器输出信号；以及

图20显示一种用于编码器的范例，其产生针对非能量守恒上混规则的信息。

具体实施方式

在详细讨论本发明增益调整观点之前，现在将联系图7至11来讨论头部相关传递函数(HRTF)滤波器的组合，以及以头部相关传递函数(HRTF)为基础的滤波器的使用。

为了较好地描绘本发明的特征与优点，首先将进行一种更详尽的叙述。在第7图中描绘一种立体合成算法。由一组头部相关传递函数(HRTF)进行一组输入声道的滤波。每个输入信号都被分裂成两个信号(一个左方(L)以及一个右方(R)分量)；接着这些信号的每一个都被对应于期望声源位置的头部相关传递函数(HRTF)滤波。接着求和(sum)所有的左耳信号以产生左方立体输出信号，并接着求和该右耳信号以产生右方立体输出信号。

该头部相关传递函数(HRTF)的卷积操作可以在时间域中进行，但由于计算效率的因素，其通常优选的是在频率域中进行滤波。在此情况中，在图7中所显示的求和也可以在频率域中进行。

原则上，如同图7中所描绘的立体合成方法可以被直接使用，以与动态影像压缩标准(MPEG)环绕编码器/解码器组合。在图8中则概要显示该动态影像压缩标准(MPEG)环绕编码器。多声道输入信号是由空间编码器所分析，并组合空间参数，形成单音或立体声下混信号。该下混可以利用任何的传统单音或立体声音频编码方式所编码。所形成的下混比特流则利用多路传输器与该空间参数组合，形成完整的输出比特流。

图9中显示组合动态影像压缩标准(MPEG)环绕解码器的立体合成设计。对该输入比特流进行解多路传输，形成空间参数与下混比特流。该后者比特流则利用传统的单音或立体声解码器而解码。空间解码器根据该传输空间参数将该解码下混进行解码，以产生多声道输出。最后，该多声道输出则由如在图7中所描绘的立体合成级来处理，形成立体输出信号。

然而，这样的动态影像压缩标准(MPEG)环绕解码器与立体合成模块的级联，至少具有三项缺点：

●以一种中间步骤计算多声道信号表现，之后进行头部相关传递函数(HRTF)卷积处理并在该立体合成步骤中进行下混。虽然在已知每个音频信号可以具有不同空间位置的情况下应该以每一声道为基础进行头部相关传递函数(HRTF)卷积处理，然而从复杂度的观点来说，这是一种不想要的情况。

●该空间解码器是在滤波器组(正交镜相滤波器(QMF))中操作。另一方面，一般是在快速傅立叶转换(FFT)域中应用头部相关传递函数(HRTF)卷积处理。因此，需要多声道正交镜相滤波器(QMF)合成滤波器组、多声道离散傅立叶变换(DFT)、以及立体声反向离散傅立叶变换(DFT)的级联，以形成具有高计算要求的系统。

●由该空间解码器建立可感知的多声道重建时所造成的编码假像，将可能在该(立体声)立体输出中所增强。

图11中显示该空间编码器。多声道信号是由Lf、Ls、C、Rf与Rs信号所组成，其代表左前、左环绕、中央、右前与右环绕声道，并利用两个”一对二(OTT)”单元所处理，每一个都产生单音下混与用于两个输入信号的参数。该形成的下混信号与该中央声道组合，并进一步利用一个”二对三(TTT)”编码器处理，产生立体声下混与额外的空间参数。

一般来说，由该”二对三(TTT)”编码器所形成的参数是由针对每一参数波段的一对预测系数或是一对程度差异参数所组成，以描述该三个输入信号的能量比率。该”一对二(OTT)”编码器的参数则是利用针对每个频带的输入信号之间的程度差异与相干性，或是互相关性值所组成。

图12描绘一种动态影像压缩标准(MPEG)环绕解码器。将该下混信号l0与r0输入至二对三(TTT)模块之中，以重建中央声道、右侧声道与左侧声道。这三个声道则进一步由多个一对二(OTT)模块所处理，以产生六个输出声道。

从图10中所显示的概念观点，可以看到所对应的立体解码器。其中该滤波器组域、该立体声输入信号(L₀、R₀)由二对三(TTT)解码器所处理，形成三个信号L、R及C。此三个信号接着进行头部相关传递函数(HRTF)参数处理。所形成的六个声道则进行求和，以产生该立体声立体输出对(L_b、R_b)。

该二对三(TTT)解码器可以由下述矩阵运算所描述：

[\begin{matrix} L \\ R \\ C \end{matrix}] = [\begin{matrix} m_{11} & m_{12} \\ m_{21} & m_{22} \\ m_{31} & m_{32} \end{matrix}] [\begin{matrix} L_{0} \\ R_{0} \end{matrix}]

所具有的矩阵项目m_xy则与空间参数有关。该空间参数与矩阵项目的关系对于例如在5.1多声道动态影像压缩标准(MPEG)环绕解码器的关系而言为唯一的。该三个形成信号L、R及C的每一个都被分裂为两个，并利用与这些声源位置的期望(感知)位置相对应的头部相关传递函数(HRTF)参数进行处理。对于中央声道(C)而言，可以直接地应用该声源位置的空间参数，形成两个代表中央的输出信号L_B(C)及R_B(C)：

[\begin{matrix} L_{B} (C) \\ R_{B} (C) \end{matrix}] = [\begin{matrix} H_{L} (C) \\ H_{R} (C) \end{matrix}] C

对于左方(L)声道而言，来自于左前方与左环绕声道的头部相关传递函数(HRTF)参数则利用权重w_lf与w_rf组合于单一头部相关传递函数(HRTF)参数集合之中。所形成的”合成(composite)”头部相关传递函数(HRTF)参数则利用统计概念模拟前方与环绕声道两者的效果。该后续方程式则用来产生代表该左方声道的立体输出对(L_B、R_B)：

[\begin{matrix} L_{B} (L) \\ R_{B} (L) \end{matrix}] = [\begin{matrix} H_{L} (L) \\ H_{R} (L) \end{matrix}] L

以一种相似的形式，也可以根据以下方程来获得代表该右方声道的立体输出：

[\begin{matrix} L_{B} (R) \\ R_{B} (R) \end{matrix}] = [\begin{matrix} H_{L} (R) \\ H_{R} (R) \end{matrix}] R

在已知上述对于L_B(C)、R_B(C)、L_B(L)、R_B(L)、L_B(R)与R_B(R)的定义下，该完整的L_B与R_B信号可以在已知该立体声输入信号的情况下，从单一的2×2矩阵所导出：

[\begin{matrix} L_{B} \\ R_{B} \end{matrix}] = [\begin{matrix} h_{11} & h_{12} \\ h_{21} & h_{22} \end{matrix}] [\begin{matrix} L_{0} \\ R_{0} \end{matrix}]

其中

h₁₁＝m₁₁H_L(L)+m₂₁H_L(R)+m₃₁H_L(C)

h₁₂＝m₁₂H_L(L)+m₂₂H_L(R)+m₃₂H_L(C)

h₂₁＝m₁₁H_R(L)+m₂₁H_R(R)+m₃₁H_R(C)

h₂₂＝m₁₂H_R(L)+m₂₂H_R(R)+m₃₂H_R(C)

该Hx(Y)滤波器可以表示为一种该原始头部相关传递函数(HRTF)滤波器的参数形式的参数加权组合。为了使其能够完成，该原始头部相关传递函数(HRTF)滤波器则表示为

●代表该左耳脉冲响应的每个频带的(平均)程度；

●代表该右耳脉冲响应的每个频带的(平均)程度；

●代表该左耳与右耳脉冲响应之间的(平均)抵达时间或相位差异。

因此，在已知该中央声道输入信号的情况下，代表该左耳与右耳的头部相关传递函数(HRTF)滤波器可以表示为：

[\begin{matrix} H_{L} (C) \\ H_{R} (C) \end{matrix}] = [\begin{matrix} P_{l} (C) e^{+ jφ (C) / 2} \\ P_{r} (C) e^{- jφ (C) / 2} \end{matrix}]

其中P_l(C)为代表该左耳一已知频带下的平均程度，而φ(C)则为该相位差异。

因此，该头部相关传递函数(HRTF)参数可能简单地由利用P_l与P_r的信号乘法运算所组成，其对应于该中央声道的声源位置，同时该相位差异对称地分布。此处理对于每个正交镜相滤波器(QMF)组而言都可以独立地进行，其在一波段上从头部相关传递函数(HRTF)参数映射至正交镜相滤波器(QMF)组，另一方面也从该空间参数映射至该正交镜相滤波器(QMF)组。

相似的，在已知该左声道与右声道的情况下，代表该左耳与右耳的头部相关传递函数(HRTF)滤波器可以由以下方程所给定：

H_{L} (L) = \sqrt{w_{lf}^{2} P_{l}^{2} (Lf) + w_{ls}^{2} P_{l}^{2} (Ls)}

H_{R} (L) = e^{- j (w_{lf}^{2} φ (lf) + w_{ls}^{2} φ (ls))} \sqrt{w_{lf}^{2} P_{r}^{2} (Lf) + w_{ls}^{2} P_{r}^{2} (Ls)}

H_{L} (R) = e^{+ j (w_{rf}^{2} φ (rf) + w_{rs}^{2} φ (rs))} \sqrt{w_{rf}^{2} P_{l}^{2} (Rf) + w_{rs}^{2} P_{l}^{2} (Rs)}

H_{R} (R) = \sqrt{w_{rf}^{2} P_{r}^{2} (Rf) + w_{rs}^{2} P_{r}^{2} (Rs)}

明显的，对于该六个原始声道，该头部相关传递函数(HRTF)为代表该参数化头部相关传递函数(HRTF)滤波器的程度与相位差异的加权组合。

该权重w_lf与w_ls则与用于左前方(Lf)及左环绕(Ls)的一对二(OTT)功能区块的声道强度差异(CLD)参数有关：

w_{lf}^{2} = \frac{10^{{CLD}_{l} / 10}}{1 + 10^{{CLD}_{l} / 10}}

w_{ls}^{2} = \frac{1}{1 + 10^{{CLD}_{l} / 10}}

而该权重w_rf与w_rs则与用于右前方(Rf)及右环绕(Rs)的一对二(OTT)功能区块的声道强度差异(CLD)参数有关：

w_{rf}^{2} = \frac{10^{{CLD}_{r} / 10}}{1 + 10^{{CLD}_{r} / 10}}

w_{rs}^{2} = \frac{1}{1 + 10^{{CLD}_{r} / 10}}

该上述解决方式对于短头部相关传递函数(HRTF)滤波器可以良好应用，其有效精确性可以表示为每个频带的平均程度，以及每个频带的平均相位差异。然而，对于长回声头部相关传递函数(HRTF)而言，其并不适用。

本发明将教导如何将2×2矩阵立体解码器扩展至能够处理任意长度的头部相关传递函数(HRTF)滤波器。为了达到此目的，本发明包括以下步骤：

●将该头部相关传递函数(HRTF)滤波器响应转换至滤波器组域；

●从头部相关传递函数(HRTF)滤波器对取得全体延迟差异或相位差异；

●将该头部相关传递函数(HRTF)滤波器对的响应，成型(morph)为该声道强度差异(CLD)参数的函数；

●增益调整。

这可以利用六个滤波器置换代表Y＝L₀、R₀与X＝L、R、C的六个复数增益H_Y(X)所达成。这些滤波器是从代表Y＝L₀、R₀与X＝Lf、Ls、Rf、Rs、C的十个滤波器H_Y(X)所导出而得，其描述正交镜相滤波器(QMF)域中的已知头部相关传递函数(HRTF)滤波器响应。这些正交镜相滤波器(QMF)表示可以根据以下叙述的方法所达成。

根据以下方程，利用复数线性组合执行前方与环绕声道滤波器的成型：

H_{Y} (X) = {gw}_{f} \exp (- j φ_{XY} w_{s}^{2}) H_{Y} (Xf) + {gw}_{s} \exp ({jφ}_{XY} w_{f}^{2}) H_{Y} (Xs)

该相位参数φ_XY可以从该前方与后方头部相关传递函数(HRTF)滤波器之间的主要延迟时间差异τ_XY，以及该正交镜相滤波器(QMF)组的子带指标n，通过以下方程来定义：

φ_{XY} = \frac{π (n + \frac{1}{2})}{64} τ_{XY}

此相位参数在滤波器成型中具有双重角色。首先，其在迭加之前实现了两个滤波器的延迟补偿，从而形成模拟对应于该前方与后方扬声器之间的源位置的延迟时间的组合响应。第二，其使得所需要的增益补偿因子g更加稳定，并与利用φ_XY＝0所进行的简单迭加情况相比，对于频率呈现缓慢变化。

该增益因子g则利用相同的非谐和额外功率规则所定义，如同用于参数头部相关传递函数(HRTF)的情况，

P_{Y} {(X)}^{2} = w_{f}^{2} P_{Y} {(Xf)}^{2} + w_{s}^{2} P_{Y} {(Xs)}^{2}

其中

P_{Y} {(X)}^{2} = g^{2} (w_{f}^{2} P_{Y} {(Xf)}^{2} + w_{s}^{2} P_{Y} {(Xs)}^{2} + {2 w}_{f} w_{s} P_{Y} (Xf) P_{Y} (Xs) ρ_{XY})

而ρ_XY为下述滤波器之间的正规化复数互相关的实数数值

exp(-jφ_XY)H_Y(Xf)及H_Y(Xs)

在利用φ_XY＝0进行简单迭加的情况中，ρ_XY数值以频率为函数，呈现不稳定振荡的变化方式，其造成需要广泛的增益调整。在实际实现中，需要限制增益因子g的数值，且该信号的剩余频谱染色效应无法避免。

相比之下，利用本发明所教导以延迟为基础的相位补偿成型，形成以频率为函数的ρ_XY平滑行为。此数值对于利用滤波器对所导出的自然头部相关传递函数(HRTF)而言通常接近于一，因为其主要的不同在于延迟与振幅，而该相位参数目的便是考虑该正交镜相滤波器(QMF)组域中的延迟差异。

相位参数φ_XY的另一替代有利选择是利用下述两滤波器之间的正规化复数互相关相位角度计算所得

H_Y(Xf)及H_Y(Xs)

并且利用标准展开(unwrapping)技术将该相位数值展开为该正交镜相滤波器(QMF)组子带指针n的函数。此选择造成ρ_XY永远不会成为负值，因此该补偿增益g对于所有子带而言都满足

此外，此相位参数的选择使得在主要延迟时间差异τ_XY无法利用的情况时，也能进行该前方与环绕声道滤波器成型。

以下考虑的信号，为来自于离散时间信号的调制滤波器组或加窗快速傅立叶变换(FFT)分析的子带样本，或是来自于离散时间信号。可了解的是，这些子带必须利用对应的合成滤波器组操作，转换回到离散时间域中。

图1描述一种利用与头部相关传递函数(HRTF)相关的滤波器，进行参数化多声道信号的立体合成的过程。空间解码101根据M个传输声道与传输空间参数产生包括N个声道的多声道信号(M＜N)。接着借助于头部相关传递函数(HRTF)滤波器将这些N个声道转换至代表立体收听的两输出声道。该头部相关传递函数(HRTF)滤波102将每个输入声道的滤波结果迭加，其中一个头部相关传递函数(HRTF)滤波器用于左耳，而另一头部相关传递函数(HRTF)滤波器用于右耳。总的来说，其需要2N个滤波器。然而，当通过N个扬声器聆听时，参数化多声道信号可实现高质量的收听者体验，N个信号之间的细微内部相关性将造成对于该立体收听的假像。这些假像则由来自于编码之前进行原始N个声道头部相关传递函数(HRTF)滤波所定义的参考立体信号频谱内容中的差异所主导。此串接的另一项缺点为，针对立体合成的总体计算成本是用于该每一组件101及102所需要的成本的附加。

图2描述一种利用本发明所教导组合滤波方式所进行的参数化多声道信号的立体合成。该传输空间参数则由201分裂成两个集合，集合1与集合2。在此，集合2包括从该M个传输声道建立该P个中间声道的有关参数，而集合1包括从该P个中间声道建立该N个声道的有关参数。现有技术中的预组合器202利用权重将该2N个与该头部相关传递函数(HRTF)相关的子带滤波器的选择对进行组合，该权重则与参数集合1及该选择的滤波器对相关。此预组合的结果是产生2P个立体子带滤波器，其表现用于该P个中间声道的每一个的立体滤波器对。本发明的组合器203利用与该参数组合2及该2P个立体子带滤波器两者相关的权重，将该2P个立体子带滤波器组合成为一组2M个立体子带滤波器。相比之下，现有技术的线性组合器可以应用只与该参数集合2相关的权重。所形成的2M个滤波器的组则由用于该M个传输声道的每一个的立体滤波器对所组成。该组合滤波单元204藉由利用该对应滤波器对滤波的方式，获得用于该M个传输声道的每一个的两声道输出的贡献对。接着，进行所有M个贡献的求和，以形成子带域中的两声道输出。

图3描述本发明的组合器203的组件，其用于空间参数与立体滤波器的组合。该线性组合器301利用施加从已知频谱参数所导出的权重，将该2P个立体子带滤波器组合成为2M个立体滤波器，其中这些空间参数为从该M个传输声道建立该P个中间声道的有关参数。具体来说，此线性组合仿真从该M个传输声道至该P个中间声道的上混，以及之后从P个源进行立体滤波的串接。增益调整器303利用对每一个对应于左耳输出的滤波器施加公共左方增益的方式，以及对每一个对应于右耳输出的滤波器施加公共右方增益的方式，修正来自该线性组合器301所输出的2M个立体滤波器。这些增益来自于从空间参数与该2P个立体滤波器导出增益的增益计算器301。本发明的组件302与303所进行的增益调整的目的，在于补偿该P个中间声道在具有空间解码线性相关性时，因为该线性组合器301所造成的非预期频谱染色效果。由本发明所教导的增益计算器302包含以该频谱参数为函数进行该P个中间声道的能量分布估计的装置。

图4描述在立体声传输信号情况中，动态影像压缩标准环绕(MPEGSurround)空间解码的结构。该M＝2个传输信号的分析子带被提供至二对三(2→3)功能区块401之中，其输出P＝3个中间信号，组合左方、组合右方以及组合中央信号。此上混与该传输空间参数的子集合有关，其对应于图2中的集合2。这三个中间信号接着被提供至三个一对二(1→2)功能区块402-404之中，其产生总数为N＝6的信号405：左前方(l_f)、左环绕(l_s)、右前方(r_f)、右环绕(r_s)、中央(c)以及低频增强(lfe)。此上混与该传输空间参数的子集合有关，其对应于图2中的集合1。最终的多声道数字音频输出通过将该六个子带信号传送至六个合成滤波器组处来建立。

图5描述利用本发明增益补偿所解决的问题。代表该左耳的参考头部相关传递函数(HRTF)滤波立体输出频谱则利用实心图形所描绘。虚线图形则描绘利用图2的方法所产生的对应解码信号的频谱，其中该组合器203只由线性组合器301所组成。如同可见的，在频率区间3-4千赫与11-13千赫中，存在相对于期望参考频谱的大量频谱能量损失。在1千赫与10千赫附近也存在少量的频谱增大。

图6描述利用本发明增益补偿的优点。实心图形与图5中的参考频谱相同，而现在该虚线图形描绘利用图2的方法所产生的解码信号的频谱，其中该组合器203由图3中的所有组件所组成。如同可见的，与图5中的两条曲线相比，该两条曲线之间获得明显改善的频谱吻合。

在之后的文字中，将大致说明本发明增益补偿的数学描述。对于离散复数信号x、y而言，该复数内积与平方模数(能量)定义为

\{\begin{matrix} &lang; x, y &rang; = \underset{k}{Σ} x (k) \overset{&OverBar;}{y} (k) \\ X = {| | x | |}^{2} = &lang; x, x &rang; = \underset{k}{Σ} {| x (k) |}^{2} \\ Y = {| | y | |}^{2} = &lang; y, y &rang; = \underset{k}{Σ} {| y (k) |}^{2} \end{matrix}\} - - - (1)

其中

为y(k)的复数共轭信号。

该原始多声道信号则由N个声道所组成，而每个声道都具有与其关联的、与立体头部相关传递函数(HRTF)相关的滤波器对。然而在此将假设该参数化多声道信号是利用从该M个传输声道至P个预测声道的预测上混中间步骤所建立的。此结构在如同图4中所描述的动态影像压缩标准环绕(MPEG Surround)中使用。假设该2N个头部相关传递函数(HRTF)相关滤波器的原始集合，已经利用现有技术的预组合器202减少成为代表该P个预测声道中每一个的滤波器对，其中M≤P≤N。该P个预测声道信号p＝1、2、…、P，旨在逼近该P个声道信号x_p，p＝1、2、…、P，这些信号是通过部分下混从该原始N个声道所导出的。在动态影像压缩标准环绕(MPEG Surround)中，这些信号为组合左方、组合右方、与组合并缩放的中央/低频增强(lfe)声道。假设与该信号x_p对应的头部相关传递函数(HRTF)滤波器对，是利用代表该左耳的子带滤波器b_1，p以及代表该右耳的子带滤波器b_2，p来描述。该参考立体输出信号便因此可对于n＝1、2，利用滤波信号的线性迭加来计算，

y_{n} (k) = Σ_{p = 1}^{P} (b_{n, p} * x_{p}) (k) - - - (2)

其中星号表示在时间方向中的卷积计算。该子带滤波器可以利用有限冲激响应(FIR)滤波器、无限冲激响应(IIR)的形式所给定，或是从滤波器的参数族(parameterized family)所导出。

在该编码器中，该下混是由利用将M×P下混矩阵D应用至由x_p，p＝1、2、…、P所形成列向量信号的方式所形成的，而在该解码器中的预测则利用将P×M预测矩阵C应用至由该M个传输下混声道z_m、m＝1、…、M所形成的列向量信号的方式所执行，

{\hat{x}}_{p} (k) = Σ_{m = 1}^{M} c_{p, m} z_{m} (k) - - - (3)

在该解码器处知悉该两者矩阵，并忽略该下混声道的编码效应，该预测的组合效果可以利用下式计算：

{\hat{x}}_{p} (k) = Σ_{q = 1}^{P} a_{p, q} x_{q} (k) - - - (4)

其中a_p，q为该矩阵乘积A＝CD的项。

一种用于在该解码器处产生立体输出的直向(straightforward)方法是，简单地将预测信号插入(2)中，形成

{\hat{y}}_{n} (k) = Σ_{p = 1}^{P} (b_{n, p} * {\hat{x}}_{p}) (k) - - - (5)

就计算方面来说，该立体滤波是事先与该预测上混组合，因此(5)可以写为

{\hat{y}}_{n} (k) = Σ_{m = 1}^{M} (h_{n, m} * z_{m}) (k) - - - (6)

而该组合滤波器则定义为

h_{n, m} (k) = Σ_{p = 1}^{P} c_{p, m} b_{n, p} (k) - - - (7)

此方程式描述该线性组合器301的作用，其将利用空间参数所导出的系数c_p，m与该立体子带域滤波器b_n，p组合。当原始的P个信号x_p具有基本上由M所限定的数值排序时，该预测便可以被设计为良好地执行，而且该逼近

是成立的。这在例如如果只有该P个声道之中的M个有效时、或是如果重要的信号成分是源自于振幅摇摆(amplitude panning)时便会发生。在该情况中，该解码立体信号(5)对于该参考(2)有良好的吻合。另一方面，在一般情况、以及特别是在原始的P个信号x_p并不相关的情况下，将存在大量的预测损失，且源自于(5)的输出可以明显地与源自于(2)的能量有所差异。由于该差异在不同频带中有所不同，最终的音频输出也遭受到如在图5中所描述的频谱染色假像。本发明教导如何利用对该输出进行增益补偿的方式避免此问题的发生，其根据以下方程

{\tilde{y}}_{n} = g_{n} \cdot {\hat{y}}_{n} - - - (8)

就计算方面来说，根据该增益调整器303

改变该组合滤波器，可以有利地进行增益补偿。接着，该修正组合滤波变成为

{\tilde{y}}_{n} (k) = Σ_{m = 1}^{M} ({\tilde{h}}_{n, m} * z_{m}) (k) - - - (9)

在(8)中的补偿增益的最佳数值为

g_{n} = \frac{| | y_{n} | |}{| | {\hat{y}}_{n} | |} - - - (10)

该增益计算器302的目的是用以根据该解码器中可获得的信息来估计这些增益。现在将描述用于此项目的多种工具。在此该可获得的信息是由矩阵项目a_p，q以及与头部相关传递函数(HRTF)相关的子带滤波器b_n，p所表示。首先，后续逼近将被假设用于已经利用与该头部相关传递函数(HRTF)相关子带滤波器b、d所滤波信号x、y之间的内积，

<b*x，d*y>≈<b，d><x，y> (11)

此逼近是根据通常该滤波器的最大能量是集中在主导单一输出(single tap)，接着预先假定该应用时间频率转换的时间步长(step)与该头部相关传递函数(HRTF)滤波器的主要延迟差异相比之下是足够大的。应用逼近(11)与(2)组合，形成

{| | y_{n} | |}^{2} \approx Σ_{p, q = 1}^{P} &lang; b_{n, p}, b_{n, q} &rang; &lang; x_{p}, x_{q} &rang; - - - (12)

下一逼近包括假设原始信号是不相关的，即对于p≠q而言，<x_p，x_q>＝0。则(12)简化为

{| | y_{n} | |}^{2} \approx Σ_{p = 1}^{P} {| | b_{n, p} | |}^{2} {| | x_{p} | |}^{2} - - - (13)

对于解码能量而言，对应于(12)的结果为

{| | {\hat{y}}_{n} | |}^{2} \approx Σ_{p, q = 1}^{P} &lang; b_{n, p}, b_{n, q} &rang; &lang; {\hat{x}}_{p}, {\hat{x}}_{q} &rang; - - - (14)

在(14)中插入该预测信号(4)，并应用原始信号为不相关的假设，获得

{| | {\hat{y}}_{n} | |}^{2} \approx Σ_{p = 1}^{P} (Σ_{q, r = 1}^{P} a_{q, p} a_{r, p} &lang; b_{n, q}, b_{n, r} &rang;) {| | x_{p} | |}^{2} - - - (15)

接下来，为了能够计算由商(10)所给定的补偿增益，估计该能量分布‖x_p‖²，p＝1、2、…、P，P为最大至任意因子的原始声道数目。本发明教导如何通过利用能量分布的函数，计算对应于该假设的预测矩阵C_model而完成此项工作，其中这些声道彼此不相关，而该编码器的目标为将该预测误差最小化。如果可能的话，接着通过求解非线性方程式系统C_model＝C估计该能量分布。对于形成不具有解的方程式系统的预测参数而言，该增益补偿因子则设定为g_n＝1。此发明步骤将在后续段落中，针对最重要的特别情况详细描述。

由(15)所增加的计算负载可以在P＝M+1的情况中，利用以下扩展方式(例如参考PCT/EP2005/011586)来减少

&lang; x_{p}, x_{q} &rang; = &lang; {\hat{x}}_{p}, {\hat{x}}_{q} &rang; + ΔE \cdot v_{p} \cdot v_{q} - - - (16)

其中v为具有分量v_p的单位向量，使得Dv＝0，而ΔE为预测损失能量

ΔE = E - \hat{E} = Σ_{p = 1}^{P} {| | x_{p} | |}^{2} - Σ_{p = 1}^{P} {| | {\hat{x}}_{p} | |}^{2} - - - (17)

(15)的计算接着可以利用在(14)中应用(16)而有利的取代，结果

{| | {\hat{y}}_{n} | |}^{2} \approx {| | y_{n} | |}^{2} - ΔE \cdot {| | Σ_{p = 1}^{P} v_{p} b_{n, p} | |}^{2} - - - (18)

接着，将讨论从两声道预测三个声道的优选特别处理。M＝2与P＝3的情况在动态影像压缩标准环绕(MPEG Surround)的情况中使用。该信号为组合左方x₁＝l，组合右方x₂＝r以及(缩放)组合中央/低频增强(lfe)声道x₃＝c。下混矩阵为

D = [\begin{matrix} 1 & 0 & 1 \\ 0 & 1 & 1 \end{matrix}] - - - (19)

而由两传输实数参数c₁、c₂所建构的预测矩阵，则为

C = \frac{1}{3} [\begin{matrix} 2 + c_{1} & c_{2} - 1 \\ c_{1} - 1 & 2 + c_{2} \\ 1 - c_{1} & 1 - c_{2} \end{matrix}] - - - (20)

在该原始声道为不相关的假设之下，完成该最小化预测误差的预测矩阵如下

C_{mode l} = \frac{1}{LC + RC + LR} [\begin{matrix} LC + LR & - LC \\ - RC & RC + LR \\ RC & LC \end{matrix}] - - - (21)

令C_model＝C，获得由本发明所教导的(未正规化)能量分布

[\begin{matrix} L \\ R \\ C \end{matrix}] = [\begin{matrix} β (1 - σ) \\ α (1 - σ) \\ p \end{matrix}] - - - (22)

其中，α＝(1-c₁)/3、β＝(1-c₂)/3、σ＝α+β而p＝αβ。这在以下所定义的变量范围中适用

α＞0、β＞0、σ＜1 (23)

其中该预测误差可以由相同的缩放方式中获得

ΔE＝3p(1-σ) (24)

因为P＝3＝2+1＝M+1，利用(16)-(18)所描绘的方法也可适用。该单位向量为

[v_{1}, v_{2}, v_{3}] = [1,1, - 1] / \sqrt{3},

并具有下述定义

{ΔE}_{n}^{B} = p (1 - σ) = {| | b_{n, 1} + b_{n, 2} - b_{n, 3} | |}^{2} - - - (25)

以及

E_{n}^{B} = β (1 - σ) {| | b_{n, 1} | |}^{2} + α (1 - σ) {| | b_{n, 2} | |}^{2} + p {| | b_{n, 3} | |}^{2} - - - (26)

在该增益计算器302的优选实施例中，所计算用于每个耳朵n＝1、2的补偿增益可以表示为

在此ε＞0为一小数目，其目的在于稳定靠近该变量参数范围边缘的方程式，而g_max为所应用的补偿增益的上限。(27)的增益对于左耳与右耳n＝1、2不同。本方法的变体是使用共同增益g₀＝g₁＝g，其中

本发明的修正增益因子可以在不牵涉任何与头部相关传递函数(HRTF)相关议题下，与可用的直向多声道增益补偿共存。

在动态影像压缩标准环绕(MPEG Surround)中，用于预测损失的补偿已经在该解码器中通过把因子1/ρ与该上混矩阵C相乘的方式而应用，其中0＜ρ≤1为该传输空间参数的一部分。其中(27)与(28)的增益已经分别由乘积ρg_n与ρg所取代。这种补偿应用于在图5和6中所研究的立体解码。这也是图5的现有技术解码方式与参考相比具有增大频谱部分的原因。对于对应于那些频率区域的子带而言，本发明的增益补偿有效地利用由方程式(28)所导出的较小数值，取代该传输参数增益因子1/ρ。

此外，因为ρ＝1的情况对应于成功的预测，因此由本发明所教导的增益补偿的更保守的变体将造成用于ρ＝1的立体增益补偿失效。

此外，本发明也可以与残余信号一起使用。在动态影像压缩标准环绕(MPEG Surround)中，可以传输额外的预测残余信号z₃，而使得可以更准确地再现该原始P＝3的信号x_p。在此情况中，该增益补偿是由现在将要描绘的立体残余信号加法所取代。由残余信号所加强的预测上混根据以下方程所形成

{\tilde{x}}_{p} (k) = Σ_{m = 1}^{2} c_{p, m} z_{m} (k) + w_{p} \cdot z_{3} (k) - - - (29)

其中[w₁，w₂，w₃]＝[1，1，-1]/3。利用

代替在(5)中的

形成相应的组合滤波，

{\tilde{y}}_{n} (k) = Σ_{m = 1}^{3} (h_{n, m} * z_{m}) (k) - - - (30)

其中对于m＝1、2的组合滤波器h_n，m由(7)所定义，而用于该残余加法的组合滤波器则定义为

h_{n, 3} = \frac{1}{3} (b_{n, 1} + b_{n, 2} - b_{n, 3}) - - - (31)

此解码模式的完整结构便因此利用设定P＝M＝3的方式，并利用修改该组合器203以仅执行由(7)与(31)所定义的线性组合，而以图2进行描述。

图13描述了图3中的线性组合器301的结果的修改表示。该组合器的结果是四个以头部相关传递函数(HRTF)为基础的滤波器h₁₁、h₁₂、h₂₁与h₂₂。如同利用图16a与17的描述，更加清楚的是这些滤波器对应于图16a中由15、16、17、18所指示的滤波器。

图16a显示一聆听者的头部，其具有左耳或左方立体点以及具有右耳或右方立体点。当图16a只与立体声方案有关时，该滤波器15、16、17、18则为一般的头部相关传递函数，其能够被单独地测量，或是通过因特网而获得，或是在针对聆听者与该左方声道扬声器和右方声道扬声器之间不同位置的教科书(textbook)中获得。

然而，因为本发明教导一种多声道立体解码器，利用15、16、17、18所描述的滤波器便不是纯粹的头部相关传递函数(HRTF)滤波器，而是以头部相关传递函数(HRTF)为基础的滤波器，其不但反映头部相关传递函数(HRTF)的性质，也与空间参数有关，特别是结合图2讨论时，与该空间参数集合1以及空间参数集合2有关。

图14显示在图16a中所使用的代表以头部相关传递函数(HRTF)为基础的滤波器的准则。特别是描述一聆听者位在介于五声道扬声器设置中的五个扬声器之间的甜点(sweet spot)的情况，举例而言，该设置可以在一般的环绕家庭或电影院娱乐系统中找到。对于每个声道而言，存在两个头部相关传递函数(HRTF)，其可以被转换为具有以头部相关传递函数(HRTF)做为传递函数的滤波器的声道冲激响应。特别是在本领域中所熟知的，一种以头部相关传递函数(HRTF)为基础的滤波器可以负责聆听者头部之中的声音传播，因此，举例而言，图14中的头部相关传递函数1(HRTF1)负责从扬声器L_s所发出的声音在通过该聆听者头部附近之后抵达右耳的情况。与其相比，从左环绕扬声器L_s所发出的声音几乎直接抵达左耳，并只部分地受到在该头部耳朵位置以及该耳朵形状等等的影响。因此，明显的是该头部相关传递函数1(HRTF 1)与头部相关传递函数2(HRTF 2)彼此并不相同。

对于左方声道的头部相关传递函数3(HRTF 3)与头部相关传递函数4(HRTF 4)而言也同样成立，因为双耳对于该左方声道L的关系是不同的。对于其它头部相关传递函数(HRTF)而言也同样适用，虽然从图14可以明显得知，用于中央声道的头部相关传递函数5(HRTF5)与头部相关传递函数6(HRTF 6)彼此几乎相同或是完全相同，除非可以由该头部相关传递函数(HRTF)数据调整各个聆听者的不对称性。

如同以上所陈述的，这些头部相关传递函数(HRTF)已经针对模拟头部而确定，并能够针对任何特定的”平均头部”、以及扬声器设定而下载。

现在，随着图17中171与172变得明显的是，采用一种组合方式将该左方声道与该左环绕声道组合，以获得在图15中利用L’所指出的用于左侧的两个以头部相关传递函数(HRTF)为基础的滤波器。该相同的步骤也同样针对右侧而执行，如在图15中以R’所描述，其形成头部相关传递函数13(HRTF 13)与头部相关传递函数14(HRTF 14)。为此目的，也同样参考图17中的项目173及174。然而，在此应该注意的是，对于组合项目171、172、173与174中的各个头部相关传递函数(HRTF)，考虑反映介于该原始设定的左方(L)声道与Ls声道之间、或是介于该原始多声道设定的右方(R)声道与Rs声道之间的声道间强度差异参数。特别是，这些参数定义了进行头部相关传递函数(HRTF)线性组合时的权重因子。

如同在之前描述的，当组合头部相关传递函数(HRTF)时也可以应用相位因子，该相位因子是利用被组合头部相关传递函数(HRTF)之间的时间延迟或展开相位差异所定义。然而，该相位因子并不与传输参数有关。

因此，头部相关传递函数11、12、13与14(HRTF 11、12、13、14)并非是真正的头部相关传递函数(HRTF)滤波器，而是以头部相关传递函数(HRTF)为基础的滤波器，因此这些滤波器只与该头部相关传递函数(HRTF)有关，而与传输信号无关。做为替代，由于该声道程度差异参数cld_l与cld_r是用于计算这些头部相关传递函数11、12、13与14(HRTF 11、12、13、14)，头部相关传递函数11、12、13与14(HRTF 11、12、13、14)也与该传输信号有关。

现在，获得图15的情况，其仍然具有三个声道，而不是如同在优选下混信号中所包含的两个传输声道。因此，必须将该六个头部相关传递函数11、12、5、6、13、14(HRTF 11、12、5、6、13、14)组合成如同在图16a中所描述的四个头部相关传递函数15、16、17、18(HRTF 15、16、17、18)。

为此目的，利用左方上混规则组合头部相关传递函数11、5、13(HRTF 11、5、13)，其可以从图16b中的上混矩阵清楚得知。特别是如同在图16b中所显示以及在功能区块175中所显示的左方上混规则，其包含参数m₁₁、m₂₁与m₃₁。此左方上混规则在图16的矩阵方程式中只用于与该左方声道相乘。因此，这三个参数也称为左方上混规则。

如同在功能区块176中所描绘的，现在利用右方上混规则组合相同的头部相关传递函数11、5、13(HRTF 11、5、13)，换言之，在第图16b的实施例中，参数m₁₂、m₂₂与m₃₂都用于与图16b中的右方声道R₀相乘。

因此，便产生了头部相关传递函数15(HRTF 15)与头部相关传递函数17(HRTF 17)。类似的，利用该上混左方参数m₁₁、m₂₁与m₃₁组合图15中的头部相关传递函数12、6、14(HRTF 12、6、14)以获得头部相关传递函数16(HRTF 16)。利用头部相关传递函数12、6、14(HRTF 12、6、14)并利用由m₁₂、m₂₂与m₃₂所指明的上混右方参数或右方上混规则进行相应的组合，以获得图16a中的头部相关传递函数18(HRTF 18)。

再次要强调的是，虽然图14中的原始头部相关传递函数(HRTF)与该传输信号完全无关，以头部相关传递函数(HRTF)为基础的新的滤波器15、16、17、18现在则与该传输信号有关，因为包含在该多声道信号之中的空间参数用于计算这些滤波器15、16、17、18。

最后，为了获得立体左方声道L_B与立体右方声道R_B，必须在加法器130a中组合滤波器15与17的输出。类似的，必须在加法器130b中组合滤波器16与18的输出。这些加法器130a、130b反映人类耳朵之中两个信号的迭加。

接着，将讨论图18。图18显示本发明的多声道解码器的优选实施例，用于利用从原始多声道信号所导出的下混信号产生立体信号。该下混信号则在z₁及z₂处描述，或利用”L”与”R”来指明。此外，该下混信号具有与其相关的参数，该参数至少是代表左方与左环绕的声道程度差异，或是代表右方与右环绕的声道程度差异，以及与上混规则有关的信息。

自然地，当该原始多声道信号只是三声道信号时，并不传输cld_l或cld_r，而如同之前描述的，只有参数侧信息将成为该上混规则的信息，而此上混规则将造成上混信号中的能量误差。因此，虽然当执行非立体呈现时该上混信号的波形尽可能的与该原始波形相符，然而该上混声道的能量却与该对应的原始声道的能量不同。

在图18的优选实施例中，该上混规则信息是利用两个上混参数cpc₁、cpc₂所反映的。然而，也可以应用任何其它的上混规则信息，并通过特定个数的比特而表明。特别是，可以利用在该解码器处的预定表格而表明特定上混方案与上混参数，因此只需要从编码器传送该表格索引至该解码器。可替代的，也可以使用不同的上混方案，例如从二至多于三声道的上混方式。可替代的，可以传输多于两个的预测上混参数，其接着需要与该上混规则相符的、对应的且不同的下混规则，如同针对图20所详细讨论的。

与这种用于该上混规则的优选实施例无关，任何可以进行上混而产生上混声道能量损失影响集合的上混规则都是可以应用的，其是与该原始信号的对应集合波形相符的。

本发明的多声道解码器包含增益因子计算器180，用于计算至少一个增益因子g_l、g_r或g，以减少或消除能量误差。该增益因子计算器根据该上混规则信息以及当该上混规则被应用时对应于将要获得的上混声道的以头部相关传递函数(HRTF)为基础的滤波器特性，来计算增益因子。然而，如同之前所描绘的，在立体呈现中，并不进行这个上混动作。然而，如结合图15以及图17的功能区块175、176、177、178所讨论，使用对应于这些上混声道的以头部相关传递函数(HRTF)为基础的滤波器。

如在之前所讨论的，当取代n而插入l或r时，该增益因子计算器180可以计算在方程式(27)中所描绘的不同的增益因子g_l与g_r。可替代的，该增益因子计算器180可以产生由方程式(28)所指明的用于两个声道的单一增益因子。

重要的是，本发明的增益因子计算器180不但根据上混规则，也根据对应于上混声道的以头部相关传递函数(HRTF)为基础的滤波器特性，来计算增益因子。这反映了该滤波器本身也与该传输信号有关，并受到能量误差影响的情况。因此，该能量误差并不仅由例如预测参数CPC₁、CPC₂的上混规则信息所引起，也受到滤波器本身的影响。

因此，为了获得良好调整的增益修正，本发明的增益因子不但与预测参数有关，还与对应于上混声道的滤波器有关。

该增益因子与下混参数以及以头部相关传递函数(HRTF)为基础的滤波器在该滤波处理器182中使用，用于将下混信号进行滤波而获得能量修正的立体信号，其具有左方立体声道L_B以及具有右方立体声道R_B。

在优选实施例中，该增益因子与介于对应于上混声道滤波器的声道冲激响应中所包含的总能量，相对于此总能量之间的差异，以及估计上混能量误差ΔE之间的关系有关。ΔE可以优选地通过将对应于上混声道滤波器的声道冲激响应组合，并接着计算该组合声道冲激响应的能量而计算。因为在图18中所有用于G_L与G_R的数目都为正值，根据ΔE与E的定义较为清楚，也就是两个增益因子皆大于1。这反映了在图5中所描述的经验，也就是在大多数时间，立体信号的能量小于原始多声道信号的能量。应该也要注意的是，即使当应用多声道增益补偿时，换言之，当在大多数信号中使用因子ρ时，仍然会引起能量损失。

图19a描述了图18中的滤波处理器182的优选实施例。特别是，图19a描述了当在功能区块182a中使用图16a的组合滤波器15、16、17与18而不进行增益补偿时的状况，该滤波器输出信号如同图13中所描绘地相加。接着，该功能区块182a的输出被输入缩放功能区块182b，以利用由功能区块180所计算的增益因子进行该输出的缩放。

可替代的，可以如图19b所显示地建构该滤波处理器。在此，头部相关传递函数15至18(HRTF 15-18)是如同功能区块182c中所描述地计算的。因此，计算器182c执行头部相关传递函数(HRTF)组合，而不进行任何增益调整。接着，提供滤波调整器182d，其使用本发明所计算的增益因子。该滤波调整器形成如在功能区块180e中所显示的调整滤波器，其中功能区块180e利用该调整滤波器执行滤波，并执行如在图13中所显示的相对应的滤波器输出的后续求和。因此，要获得增益修正的立体声道L_s与R_s，并不需要如同图19a中的后缩放处理。

一般来说，如同已经结合方程式16、17以及18所描绘，可利用该估计上混误差ΔE进行增益计算。此逼近对于上混声道的数目等于下混声道数目+1时是特别有用的。因此，在两个下混声道的情况中，此逼近可针对三个上混声道而良好工作。可替代的，当具有三个下混声道时，此逼近也同样对于在具有四个上混声道的方案中良好工作。

然而，要注意的是根据该上混误差估计所进行的增益因子计算也可以在以下的范例情况中执行：其中利用三个下混声道进行五个声道的预测。可替代的，也可以使用以预测为基础的上混，而从两个下混声道上混成为四个上混声道。关于估计上混能量误差ΔE，不但可以对于该优选情况以方程式(25)中所示直接地计算此估计误差，也可以在比特流中传输某些与真实发生的上混误差有关的信息。然而，即使在其它与结合方程式(25)至(28)所描述特别情况不同的其它情况中，也可以根据用于该上混声道的以头部相关传递函数(HRTF)为基础的滤波器，利用该预测参数计算该数值E_n ^B。当考虑方程式(26)时，明显的是此方程式也可以简单地应用至2/4预测上混方案中，用于以头部相关传递函数(HRTF)为基础的滤波器的冲激响应的能量的权重因子也相应地改变。

有鉴于此，明显的是方程式(27)的一般结构，即根据E^B/(E^B-ΔE^B)的关系计算增益因子的方式，也可以应用于其它的情况中。

接着，将讨论图20所显示的以预测为基础的编码器结构的示意实现，其可以用于产生下混信号L、R与传输至解码器的上混规则信息，从而该解码器可以在立体滤波处理器的上下文(context)中执行增益补偿。

下混器191接收五个原始声道，或替代的接收如同利用L_s与R_s所描述的三个原始声道。该下混器191可以根据预定的下混规则工作。在该情况中，并不需要以线段192所描述的下混规则指示。自然的，误差最小化器193可以改变该下混规则，以将上混器194输出处的重建声道对于该对应原始输入声道之间的误差最小化。

因此，该误差最小化器193可以改变该下混规则192或该上混器规则196，使得该重建声道具有最小化的预测损失ΔE。在该误差最小化器193中，最佳化问题可以利用任何已知的算法所解决，优选的是利用逐子带(subband-wise)的方式操作，以将该重建声道与该输入声道之间的差异最小化。

如同之前所陈述的，该输入声道可以是原始声道L、L_s、R、R_s、C。可替代的，该输入声道可以是三个声道L、R、C，其中该输入声道L、R可以利用在图11中描述的对应的一对二(OTT)功能区块来导出。可替代的，当该原始信号只具有L、R、C声道时，这些声道也可以视作为”原始声道”。

图20另外描述除了传输两个预测参数以外，也可以使用任何的上混规则信息，只要在该位置中的解码器可以利用此上混规则信息进行上混。因此，该上混规则信息也可以是查询表中的条目，或是任何与上混有关的信息。

本发明因此提供了一种根据可用的下混信号与额外控制数据、借助于头部相关传递函数(HRTF)滤波、来执行多声道音频信号的立体解码的有效方式。本发明提供一种解决当组合预测上混与立体解码时所产生的频谱染色问题的方案。

根据本发明方法的特定实现要求，本发明方法可以在硬件或软件中实现。该实现可以利用一种数字储存媒介进行，特别是一种盘片、多功能数字盘片(DVD)或是光盘(CD)，其具有储存在其上的电子可读控制信号，并与可编程计算机系统协作，以执行本发明的方法。一般来说，本发明因此是一种计算机程序产品，其具有储存在机器可读媒介上的程序代码，当该计算机程序在计算机上执行时，该程序代码可操作来执行本发明的方法。换句话说，本发明方法因此是一种计算机程序，其具有当该计算机程序在计算机上执行时执行至少一种本发明的方法的程序代码。

虽然之前已经参考特定实施例特别说明及描述，本领域技术人员可了解的是，在不背离本发明精神与观点下，可进行形式与细节的其它不同改变。也可了解在不背离此处所公开以及由所附权利要求所包含的广泛概念下，可以在不同实施例中进行适合的不同改变。

Claims

1.一种多声道解码器，使用参数以从下混信号产生立体信号，该下混信号从原始多声道信号中导出，该参数包含上混规则信息，该上混规则信息可用于以上混规则对该下混信号进行上混，该上混规则造成能量误差，该多声道解码器包括：

增益因子计算器，根据该上混规则信息以及与上混声道对应的以头部相关传递函数HRTF为基础的滤波器特性，计算用于降低或消除该能量误差的至少一个增益因子，其中该增益因子计算器可操作以根据该滤波器特性的组合冲激响应的能量来计算该增益因子，该组合冲激响应是通过加上或减去各个滤波器冲激响应而计算的；以及

滤波处理器，利用该至少一个增益因子、该滤波器特性以及该上混规则信息，对该下混信号进行滤波，以获得能量修正的立体信号。

2.如权利要求1所述的多声道解码器，其中该滤波处理器可操作以计算针对该下混信号的每一个声道的两个增益调整滤波器的滤波器系数，以及利用该两个增益调整滤波器中的每一个对该下混声道进行滤波。

3.如权利要求1所述的多声道解码器，其中该滤波处理器不利用该增益因子而操作以计算用于该下混声道中每一个的两个滤波器的滤波器系数，并对该下混声道进行滤波，在对该下混声道进行滤波之后，进行增益调整。

4.如权利要求1所述的多声道解码器，其中该增益因子计算器可操作以根据具有分子与分母的表达式来计算该增益因子，该分子具有各个滤波器冲激滤波器响应的功率组合，而该分母具有各个滤波器冲激响应的功率的加权求和，其中在该加权求和中使用的权重因子与该上混规则信息有关。

5.如权利要求1所述的多声道解码器，其中该增益因子计算器可操作以根据以下方程来计算该增益因子：

其中当n设定为1时，g_n为第一声道的增益因子，其中当n设定为2时，g₂为第二声道的增益因子，其中E_n ^B为通过使用加权参数对声道冲激响应的能量进行加权所计算的加权求和能量，而其中ΔE_n ^B为该上混规则所引入的该能量误差的估计，其中，α、β与σ为上混规则相关参数，而其中ε为大于或等于零的数字。

6.如权利要求5所述的多声道解码器，其中该增益因子计算器可操作以根据以下方程来计算E_n及ΔE_n：

{ΔE}_{n}^{B} = p (1 - σ) = {| | b_{n, 1} + b_{n, 2} - b_{n, 3} | |}^{2},

E_{n}^{B} = β (1 - σ) {| | b_{n, 1} | |}^{2} + α (1 - σ) {| | b_{n, 2} | |}^{2} + p {| | b_{n, 3} | |}^{2},

其中b_n，1为对应于第一上混声道与第n个立体声道的以HRTF为基础的滤波器，其中b_n，2为对应于第二上混声道与第n个立体声道的以HRTF为基础的滤波器冲激响应，其中b_n，3为对应于第三上混声道与第n个立体声道的以HRTF为基础的滤波器冲激响应，

其中如下定义为有效的

α＝(1-c₁)/3、β＝(1-c₂)/3、σ＝α+β以及p＝αβ

其中c₁为第一预测参数，c₂为第二预测参数，而其中该第一预测参数与该第二预测参数构成该上混规则信息。

7.如权利要求1所述的多声道解码器，其中该增益因子计算器可操作以计算用于左立体声道与右立体声道的公共增益因子。

8.如权利要求1所述的多声道解码器，其中该滤波处理器可操作以使用针对虚拟中央、左和右方位置的左立体声道与右立体声道的以HRTF为基础的滤波器，作为该滤波器特性，或是使用通过组合针对虚拟左前方位置与虚拟左环绕位置的HRTF滤波器、或是通过组合针对虚拟右前方位置与虚拟右环绕位置的HRTF滤波器而导出的滤波器特性。

9.如权利要求8所述的多声道解码器，其中与原始左方及左环绕声道有关或是与原始右方及右环绕声道有关的参数包括在解码器输入信号中，以及

其中该滤波处理器可操作以使用该参数而将头部相关传递函数滤波器进行组合。

10.如权利要求1所述的多声道解码器，其中该增益因子计算器可操作以根据用于立体声道的以HRTF为基础的滤波器的声道冲激响应的能量的加权线性组合，以及从该加权线性组合减去估计能量误差所获得的数值之间的比率，来计算该立体声道的增益因子。

11.如权利要求10所述的多声道解码器，其中该增益因子计算器可操作以使用该上混规则信息来确定该加权因子。

12.如权利要求11所述的多声道解码器，其中该上混规则信息包含至少两个预测参数，该预测参数可用于构建上混矩阵，使得输出声道具有与相应的三个输入声道有关的能量误差。

13.如权利要求1所述的多声道解码器，其中该滤波处理器可操作为具有下述项目作为滤波器特性：

第一滤波器，用于对左下混声道进行滤波，以获得第一左立体输出，

第二滤波器，用于对右下混声道进行滤波，以获得第二左立体输出，

第三滤波器，用于对左下混声道进行滤波，以获得第一右立体输出，

第四滤波器，用于对右下混声道进行滤波，以获得第二右立体输出，

加法器，用于将该第一左立体输出与该第二左立体输出进行求和，以获得左方立体声道，并用于将该第一右立体输出与该第二右立体输出进行求和，以获得右方立体声道，

其中该滤波处理器可操作以在进行求和之前或之后，对该第一或第二滤波器或对该左方立体输出施加用于该左方立体声道的增益因子，并且在进行求和之前或之后，对该第三和第四滤波器或对该右方立体输出施加用于该右方立体声道的增益因子。

14.如权利要求1所述的多声道解码器，其中该上混规则信息包含上混参数，该上混参数可用于构建上混矩阵，以从两个声道至三个声道产生上混。

15.如权利要求14所述的多声道解码器，其中该上混规则被定义如下：

[\begin{matrix} L \\ R \\ C \end{matrix}] = [\begin{matrix} m_{11} & m_{12} \\ m_{21} & m_{22} \\ m_{31} & m_{32} \end{matrix}] [\begin{matrix} L_{0} \\ R_{0} \end{matrix}],

其中L为第一上混声道，R为第二上混声道，以及C为第三上混声道，L₀为第一下混声道，R₀为第二下混声道，而m_ij为上混规则信息参数。

16.如权利要求1所述的多声道解码器，其中预测损失参数被包括在多声道解码器输入信号中，以及

其中滤波处理器可操作以利用该预测损失参数将该增益因子进行缩放。

17.如权利要求1所述的多声道解码器，其中该增益计算器可操作以逐子带地计算增益因子，以及

其中该滤波处理器可操作以逐子带地施加该增益因子。

18.如权利要求8所述的多声道解码器，其中该滤波处理器可操作以通过将HRTF滤波器的声道冲激响应的加权或相移版本进行求和，以组合与两个声道相关联的HRTF滤波器，其中用于对HRTF滤波器的声道冲激响应进行加权的权重因子与该声道之间的电平差异有关，而施加的相移则与该HRTF滤波器的声道冲激响应之间的时间延迟有关。

19.如权利要求1所述的多声道解码器，其中以HRTF为基础的滤波器或HRTF滤波器的滤波器特性为复数子带滤波器，该复数子带滤波器是通过利用复数指数调制滤波器组对HRTF滤波器的实数数值滤波器冲激响应进行滤波而获得的。

20.一种多声道解码的方法，使用参数以从下混信号产生立体信号，该下混信号从原始多声道信号中导出，该参数包含上混规则信息，该上混规则信息可用于以上混规则对该下混信号进行上混，该上混规则造成能量误差，该方法包括：

根据该上混规则信息以及与上混声道相对应的以头部相关传递函数HRTF为基础的滤波器的滤波器特性，计算至少一个增益因子，用于降低或消除该能量误差，其中该增益因子是根据该滤波器特性的组合冲激响应的能量来计算，该组合冲激响应是通过加上或减去各个滤波器冲激响应而计算的；以及

利用该至少一个增益因子、该滤波器特性以及该上混规则信息，对该下混信号进行滤波，以获得能量修正的立体信号。