CN103119647B

CN103119647B - 基于改进型离散余弦变换的复数预测立体声编码

Info

Publication number: CN103119647B
Application number: CN201180025305.2A
Authority: CN
Inventors: 海科·普尔哈根; 蓬图斯·卡尔森; 拉尔斯·维尔默斯
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2010-04-09
Filing date: 2011-04-06
Publication date: 2015-08-19
Anticipated expiration: 2031-04-06
Also published as: JP2013524281A; IL250687A0; IL295039B2; US10734002B2; RU2020110142A; SG10202104412WA; IL264905B; CA2793317C; RU2012147499A; JP2016026317A; RU2559899C2; JP6437990B2; EP3739577A1; KR20170010079A; JP2016026318A; KR102207086B1; CN102884570B; AU2011237869A1; MY184661A; CA2793320A1

Abstract

本发明提供了在频域中使用复数预测进行立体声编码和解码的方法和装置。在一个实施例中，一种用于从通过复数预测编码而编码的并包括两个输入声道的第一频域表示的输入立体声信号中获得输出立体声信号的解码方法包括以下的上混步骤：（i）计算第一输入声道的第二频域表示；以及（ii）基于第一输入声道的第一和第二频域表示、第二输入声道的第一频域表示和复数预测系数来计算输出声道。该方法包括为输入声道施加独立的带宽限制。

Description

基于改进型离散余弦变换的复数预测立体声编码

技术领域

这里公开的本发明总的来说涉及立体声音频编码，更确切地，涉及在频域中使用复数预测进行立体声编码的技术。

背景技术

立体声信号左(L)和右(R)声道的联合编码与L和R的独立编码相比能够更有效地编码。用于联合立体声编码的普通方法是中/侧(mid/side，M/S)编码。这里，中间(M)信号通过将L和R信号相加而形成，例如，该M信号可具有如下形式：

M＝(L+R)/2

此外，侧边(side，S)信号通过将两声道L和R信号相减而形成，例如，该S信号可具有如下形式：

S＝(L-R)/2

在M/S编码情况下，M和S信号而不是L和R信号被编码。

在运动图像专家组(Moving Picture Experts Group，MPEG)高级音频编码(Advanced Audio Coding，AAC)标准中(见标准文件ISO/IEC13818-7)，能够以时变和频变方式选择L/R立体声编码和M/S立体声编码。因此，立体声编码器能够对立体声信号的某些频带应用L/R编码，而M/S编码用于编码该立体声信号的其他频带(频变)。此外，该编码器能够随时间在L/R和M/S编码之间切换(时变)。在MPEG AAC中，立体声编码在频域中进行，更具体而言，在改进型离散余弦变换(modified discretecosine transform，MDCT)域中进行。这允许以频率和时间可变的方式自适应地选择L/R或M/S编码。

参数立体声编码是用于有效地将立体声音频信号编码为单耳听觉信号加少量用于立体声参数的边信息的技术。其是MPEG-4音频标准(见标准文件ISO/IEC 14496-3)的一部分。能够使用任何音频编码器对单耳听觉信号编码。立体声参数可被嵌入单声道比特流的辅助部分，从而实现完全的向前和向后兼容。在解码器中，首先解码的是单耳听觉信号，在这之后，借助于立体声参数重建立体声信号。通过去相关器(例如，可包括一条或更多条延迟线的适当的全通滤波器)来产生已解码单声道信号的去相关版本，其与单声道信号零互相关。本质上，已去相关信号具有与单声道信号相同的频谱和时间能量分布。单耳听觉信号连同已去相关信号被输入到通过立体声参数来控制并重建立体声信号的上混(up-mix)处理。更多信息参见H.Purnhagen所著的论文：“Low complexity Parametric StereoCoding in MPEG-4(MPEG-4中的低复杂度参数立体声编码)”(第七届数字音频影响国际会议(DAFx’04)会刊，意大利那不勒斯，2004年10月5-8日，第163至168页)。

MPEG环绕(MPS；见ISO/IEC 23003-1和J.Herre等人所著的论文"MPEG Surround-The ISO/MPEG Standard for Efficient and CompatibleMulti-Channel Audio Coding(MPEG环绕——用于有效且兼容的多声道音频编码的ISO/MPEG标准)"(音频工程大会论文7084，第122届大会，2007年5月5-8日))允许将参数立体声编码原理与残留编码结合、用发送的残留信号代替去相关信号，从而提高感知质量。通过下混(down-mix)多声道信号，并且可选地，通过提取空间线索，可实现残留编码。在下混处理期间，代表误差信号的残留信号被计算，并且然后被编码和发送。在解码器中，它们可代替去相关信号。在混合的方法中，在某些频带中(优选在相对低的频带中)，它们可代替去相关信号。

根据当前的MPEG统一语音和音频编码(Unified Speech and AudioCoding，USAC)系统(其两个示例在图1中示出)，解码器包括位于核心解码器下游的复数值的正交镜像滤波器(quadrature mirror filter，QMF)组。作为滤波器组输出而获得的QMF表示是复数(因此通过因子2过采样)，并可被布置作为下混信号(或相当于中间信号)M和残留信号D，带有复数条目的上混矩阵被施加到所述下混信号的残留信号。L和R信号(在QMF域中)如下获得：

[\begin{matrix} L \\ R \end{matrix}] = g [\begin{matrix} 1 - α & 1 \\ 1 + α & - 1 \end{matrix}] [\begin{matrix} M \\ D \end{matrix}]

其中，g是实数值的增益因子，且α是复数值的预测系数。优选地，α被选择为使得残留信号D的能量被最小化。该增益因子可通过归一化来确定，即，保证和信号的功率等于左和右信号的功率和。L和R信号中的每一个的实部与虚部是互冗余的(原理上，它们中的每一个可基于另一个来计算)，但是有利于在不发生可听见的混叠假影(aliasing artifact)的情况下实现随后的谱带复制(spectral band replication，SBR)解码器的应用。也可出于相似的原因选择使用过采样的信号表示，以防止与其他诸如单声道-带-立体声的上混等时间或频率自适应信号处理(未示出)相关联的假影。逆QMF滤波是解码器中的最后处理步骤。需要注意的是，信号的带限QMF表示允许使用带限残留技术和"残留填充"技术，这些技术可集成到该类解码器中。

上述编码结构很适于低比特率(通常低于80kb/s)，但是考虑到计算复杂性，对于更高比特率，上述编码结构不是最优的。更确切地说，在更高比特率，通常不使用SBR工具(因为它不会提高编码效率)。那么，在没有SBR级的解码器中，仅有复数值的上混矩阵促动QMF滤波器组的存在，这在计算上是费力的，并且引入了延迟(在1024个采样的帧长下，QMF分析/合成滤波器组引入了961个采样的延迟)。这清楚地表明需要更有效的编码结构。

发明内容

本发明的一个目的是提供在高比特率范围中也在计算上有效的立体声编码的方法和装置。

本发明通过提供分别用于编码和解码的编码器和解码器、编码和解码方法以及计算机程序产品来达到此目的。

在第一方面中，本发明提供一种解码器系统，该解码器系统用于通过复数预测立体声编码来提供立体声信号，其包括：

上混，该上混适于：基于下混信号(M)和残留信号(D)的第一频域表示产生立体声信号，其中每一个第一频域表示包括第一频谱分量，该第一频谱分量代表相应信号的在多维空间的第一子空间中表示的频谱内容，该上混级包括：

基于下混信号的第一频域表示来计算该下混信号的第二频域表示的模块，其中，该第二频域表示包括第二频谱分量，该第二频谱分量代表信号的在多维空间的第二子空间中表示的频谱内容，其中该多维空间的第二子空间包括多维空间的不含在第一子空间内的部分。

加权求和器，该加权求和器基于该下混信号的第一和第二频域表示、残留信号的第一频域表示和编码在比特流信号中的复数预测系数(α)来计算侧边信号(S)；和

求和与求差级，该求和与求差级基于下混信号的第一频域表示和侧边信号计算立体声信号，

其中，上混级还可以工作于通过模式(pass-through mode)，其中所述下混和残留信号被直接提供给求和与求差级。

在第二方面中，本发明提供一种编码器系统，用于通过复数预测立体声编码、通过比特流信号对立体声信号编码，该编码器系统包括：

估计器，用于估计复数预测系数；

编码级，可操作用于：(a)以通过该复数预测系数值而确定的关系，将立体声信号变换成下混和残留信号的频域表示；以及

复用器，用于从编码级和估计器接收输出，并通过所述比特流信号对其进行编码。

在本发明的第三和第四方面中，提供用于将立体声信号编码成比特流和将比特流解码成至少一个立体声信号的方法。每个方法的技术特征分别与所述编码器系统和解码器系统相似。在第五和第六方面中，本发明还提供一种包含用于在计算机上执行每个方法的指令的计算机程序产品。

本发明受益于MPEG USAC系统中的统一立体声编码的优点。在较高比特率(在这样的比特率下通常SBR不被采用)下也可保持这些优点，而不明显地增加伴随着基于QMF方法的计算复杂性。这可能是因为：至少在下混和残留声道的代码音频带宽相同且上混处理不包括去相关的情况下，作为MPEG USAC变换编码系统基础的临界采样的MDCT变换可被用于本发明所提供的复数预测立体声编码。这意味着不再需要附加的QMF变换。与传统的L/R或M/S立体声相比，QMF域中的复数预测立体声编码的代表性实现实际上显著增加了每单位时间的操作数量。因此，根据本发明的编码装置在这样的比特率下显得有竞争力，以适中的计算代价提供高音频质量。

如本领域技术人员了解的，该上混级还可以操作于通过模式的事实使解码器能够按照如编码器侧所确定的传统的直接或联合编码以及复数预测编码来自适应解码。因此，在解码器不能肯定地将质量水平提高到超过常规的直接L/R立体声编码或联合M/S立体声编码的质量水平的情况下，解码器至少能够保证保持相同水平。因此，从功能的角度看，根据本发明的此方面的解码器可被认为是相对于背景技术的超集。

作为与基于QMF的预测编码立体声相对比的优点，信号的完美重建是可能的(除了量化误差之外，能够使量化误差任意小)。

因此，本发明提供用于通过复数预测进行基于变换的立体声编码的编码装置。优选地，根据本发明的装置不限于复数预测立体声编码，而还可操作于根据背景技术的L/R立体声编码或联合M/S立体声编码方式，使得可为特定应用或在特定时间间隔期间选择最合适的编码方法。

信号的过采样(例如，复数)表示(包括所述第一和所述第二频谱分量)作为基础被用于本发明的复数预测，并因此，用于计算这种过采样表示的模块被布置在根据本发明的编码器系统和解码器系统中。所述频谱分量涉及多维空间的第一和第二子空间，其可为关于给定长度的时间间隔(例如，预设的时间帧长)的以有限采样频率采样的时间依赖函数集。众所周知，在该特定多维空间中的函数可由基函数的有限加权和来近似。

如本领域技术人员将理解的，为了能可靠地重新生成已编码信号，编码器适于与配有用于提供预测编码所基于的过采样表示的对等模块的解码器配合。这种对等模块可为相同或相似模块，或具有相同或相似的转移特性的模块。特别地，编码器和解码器中的模块分别可为执行各自计算机程序的相似或不相似的处理单元，其中计算机程序执行对等的数学运算集。

在解码器系统或编码器系统的一些实施例中，第一频谱分量具有在第一子空间中表示的实数值，且第二频谱分量具有在第二子空间中表示的虚值。第一和第二频谱分量一起形成信号的复数频谱表示。第一子空间可为第一基函数集的线性生成空间(linear span)，而第二子空间可为第二基函数集的线性生成空间，第二基函数中的一些与第一基函数集线性无关。

在一个实施例中，用于计算复数表示的模块为实到虚的变换，即，基于离散时间信号的实数频谱表示计算该信号的频谱虚部的模块。该变换可基于诸如来自谐波分析的公式或启发式(heuristic)关系等的精确或近似的数学关系。

在解码器系统或编码器系统的一些实施例中，可通过对离散时间域信号进行时-频域变换获得第一频谱分量，时-频域变换优选地为傅里叶变换，诸如离散余弦变换(discrete cosine transform，DCT)、改进型离散余弦变换(modified discrete cosine transform，MDCT)、离散正弦变换(discretesine transform，DST)、改进型离散正弦变换(modified discrete sinetransform，MDST)、快速傅里叶变换(fast Fourier transform，FFT)、或基于质数因子的傅里叶算法等。在前四个例子中，然后可分别通过DST、MDST、DCT和MDCT获得第二频谱分量。众所周知，以单位间隔为周期的余弦的线性生成空间形成不完全包含在以相同间隔为周期的正弦的线性生成空间中的子空间。优选地，第一频谱分量可通过MDCT获得，且第二频谱分量可通过MDST获得。

在一个实施例中，解码器系统包括布置在上混级的上游的至少一个时域噪音成形模块(TNS(Temporal Noise Shaping)模块或TNS滤波器)。一般说来，TNS的使用提高了对具有类瞬态(transient-like)分量信号的感知音质，这也适用于本发明的以TNS为特征的解码器系统的实施例。在传统L/R和M/S立体声编码中，TNS滤波器可直接在逆变换之前作为频域中最后处理步骤被施加。然而，在复数预测立体声编码情况下，将TNS滤波器施加在下混和残留信号上(即在上混矩阵前)常常是有利的。换句话说，TNS被施加到左右声道的线性组合，这具有几个优点。首先，可被证实，在给定情况下TNS仅对比如下混信号有利。然后，对于残留信号可抑制或省去TNS滤波，这可能意味着可用带宽的更经济的使用，TNS滤波器系数仅需为下混信号传输。其次，复数预测编码中所需的下混信号的过采样表示的计算(例如，MDST数据被从MDCT数据中导出，以便形成复数频域表示)可要求在时域中下混信号的表示是可计算的。这又意味着下混信号优选地作为以一致方式获得的MDCT频谱的时间序列而得到。如果在将下混/残留表示转换成左/右表示的上混矩阵后在解码器中施加TNS滤波，则仅下混信号的TNS残留MDCT谱的序列是可得到的。这会使对应的MDST谱的有效计算非常困难，特别是在左右声道使用具有不同特性的TNS滤波器的情况下尤为如此。

需要强调的是，MDCT谱的时序的可得到性不是获得适合作为复数预测编码基础的MDST表示的绝对标准。除实验证据外，该事实可通过下面的方式解释：一般TNS只施加到诸如几千赫兹以上的较高频率，使得对于较低频率，由TNS滤波的残留信号近似地对应于未滤波的残留信号。因此，本发明可具体化为用于复数预测立体声编码的解码器，其中，如下面指出的，TNS滤波器具有不同于上混级的上游的位置。

在一个实施例中，解码器系统包括位于上混级下游的至少又一个TNS模块。通过选择器设备，TNS模块位于上混级上游或TNS模块位于上混级下游。在某些情况下，复数频域表示的计算不要求下混信号的时域表示是可计算的。此外，如上面所提出的，解码器可选择性地操作于直接或联合编码模式，不施加复数预测编码，并且可能更适合施加TNS模块的传统位置，即作为频域中最后处理步骤之一。

在一个实施例中，解码器系统适于当下混信号的第二频域表示不必要时通过去激活用于计算下混信号的第二频域表示的模块来节约处理资源和可能的能量。假定下混信号被分割成连续的时间块，每个时间块与复数预测系数值相关。该值可由与解码器配合的编码器为每个时间块所做的判决来确定。此外，在该实施例中，用于计算下混信号频域表示的模块适于：如果对于给定时间块，复数预测系数虚部的绝对值为零或小于预设容限，则去激活其自己。该模块的去激活意味着对于该时间块不计算下混信号的第二频域表示。如果不发生去激活，则第二频域表示(例如：MDST系数组)被乘以零或乘以实际上与该解码器的机器厄普西隆(epsilon)(四舍五入单位)或其他合适的门限值基本上相同量级的数。

在前面实施例的更进一步演进中，在下混信号被分割成的时间块的子级上实现处理资源的节约。例如，这种时间块内的子级可为频带，其中编码器在时间块内为每个频带确定复数预测系数值。类似地，用于产生第二频域表示的模块适于：对于复数预测系数为零或量值小于容限的时间块中的频带，抑制其操作。

在一个实施例中，第一频谱分量是变换系数中的布置在一个或更多个时间块中的变换系数，通过对时域信号的某时间段施加变换来生成每个块。此外，用于计算下混信号的第二频域表示的模块适于：

●从至少一些第一频谱分量中导出一个或更多个第一中间分量；

●根据一个或更多个脉冲的至少一部分响应来形成所述一个或更多个频谱分量的组合，以获得一个或更多个第二中间分量；以及

●从所述一个或更多个第二中间分量中导出所述一个或更多个第二频谱分量。

如美国专利No.6,980,933B2(请注意该专利中的栏8-28和特定的公式41)更详细地描述的，该过程直接根据第一频域表示来实现第二频域表示的计算。如本领域技术人员了解的，该计算不是通过时域进行的，这与例如不同变换所跟随的逆变换相反。

对于根据本发明的复数预测立体声编码的示例性实施方式，已经估计出与传统的L/R或M/S立体声相比计算复杂度仅略微增加(明显地小于QMF领域中的复数预测立体声编码所引起的增加)。包括精确计算第二频谱分量的此类实施例引入了延迟，该延迟典型地只比基于QMF的实施所引入的延迟(假定时间块长度是1024个采样，且与混合QMF分析/合成滤波器组的为961个采样的延迟相比)长几个百分点。

适当地，在至少一些前述实施例中，脉冲响应被适配于通过其可获得第一频域表示的变换，更确切地说，根据其频率响应特性来适配。

在一些实施例中，下混信号的第一频域表示是通过与一个或更多个分析窗函数(或截止函数，例如矩形窗、正弦窗、凯撒-贝塞尔衍生窗等)相关联地施加的变换而获得的，其中分析窗函数的目的之一是实现时间分割，而不会引入有害量的噪音或以不想要的方式改变频谱。可能地，这种窗函数是部分地重叠的。这样，优选地，变换的频率响应特性依赖于所述一个或更多个分解窗函数的特性。

仍参考以在频域内计算第二频域表示为特征的实施例，通过使用近似的第二频域表示有可能降低涉及的计算量。通过不要求计算所基于的完整信息可实现这种近似。通过美国专利No.6,980,933 B2的教导，例如，为了准确计算在一个块中的下混信号的第二频域表示需要来自三个时间块(即与输出块同时的块、前一块和后一块)的第一频域数据。为了根据本发明的复数预测编码的目的，通过省去(或以零代替)源自后一块(借此，模块的运算可变得存在因果关系，即，不产生延迟)和/或前一块的数据，可获得合适的近似，使得第二频域表示的计算仅基于来自一个或两个时间块的数据。需要注意的是，即使输入数据的省去可意味着第二频域表示的重新缩放(在例如它不再表示相等的功率的意义上)，如上所述，只要在编码器端和解码器两端以对等的方式来计算，它仍然能被用作复数预测编码的基础。的确，通过预测系数值的相应变化将补偿此类可能的重新缩放。

用于计算构成下混信号第二频域表示的一部分的频谱分量的另一个近似方法可包括：合并来自第一频域表示的至少两个分量。后者的分量对于时间和/或频率可为相邻的。作为替选，它们可以相对少的抽头通过有限脉冲响应(finite impulse response，FIR)滤波来合并。例如，在应用大小为1024的时间块长度的系统中，这种FIR滤波器可包括2、3、4个等的抽头。例如，在US2005/0197831 A1中可找到这种近似计算方法的描述。如果使用把相对较小加权给予每个时间块边界的邻域的窗函数，例如使用非矩形函数，那么，将时间块中的第二频谱分量仅基于同一时间块中的第一频谱分量的合并可能是有利的，意味着对于最外面的分量没有相同量的信息可获得。通过窗函数的形状，在某种程度上可抑制或消除可能由这种实践引入的近似误差。

在被设计成输出时域立体声信号的解码器的一个实施例中，包括在直接或联合立体声编码和复数预测编码之间切换的可能性。这通过提供以下设置来实现：

●可选择性地作为通过级(不修改信号)或作为求和与求差变换来操作的切换设备；

●逆变换级，该逆变换级用于进行频时变换；以及

●选择器设备，该选择器设备用于将直接地(或联合地)编码的信号或通过复数预测而编码的信号馈给逆变换级。

如本领域技术人员了解的，解码器的该部分的这种灵活性给予编码器在传统的直接或联合编码和复数预测编码之间作选择的余地。因此，在传统的直接L/R立体声编码或联合M/S立体声编码的质量水平不能被超越的情况下，本实施例至少能够保证保持同样的水平。因此，根据本实施例的解码器可被视作相对于相关技术的超集。

解码器系统的另一组实施例经由时域实现第二频域表示形式的第二频谱分量的计算。更确切地说，获得(或可获得)第一频谱分量的变换的逆变换被施加，并跟随着以第二频谱分量作为输出的不同变换。特别地，逆MDCT可由MDST跟随。为了减少变换和逆变换的数量，在这样的实施例中，逆MDCT的输出可被供给MDST和解码系统的输出端(之前可能有进一步的处理步骤)。

对于根据本发明的复数预测立体声编码的示例性实现，已经估计出与传统的L/R或M/S立体声相比计算复杂性仅略微增加(仍明显地小于由QMF领域中的复数预测立体声编码所引起的增加)。

作为前面段落中所提及实施例的进一步演进，上混级可包括处理侧边信号的又一逆变换级。然后，求和与求差级被提供以由所述又一逆变换级产生的侧边信号的时域表示和由已经提及的逆变换级产生的下混信号的时域表示。需要回忆的是，从计算复杂性角度看有利地的是，后者的信号被提供给求和与求差级以及上面提及的所述不同的变换级二者。

在一个实施例中，设计成输出时域立体声信号的解码器包括在直接L/R立体声编码或联合M/S立体声编码和复数预测立体声编码之间切换的可能性。这由以下装置实现：

●切换装置，该切换装置可作为通过级或作为求和与求差级来操作；

●又一个逆变换级，该逆变换级用于计算侧边信号的时域表示；

●选择器设备，该选择器设备用于将逆变换级连接到又一求和与求差级，该求和与求差级连接到位于上混级上游且在切换装置下游的点(优选地，当该切换装置已被启动作为通过滤波器时，如同可能是对由复数预测编码产生的立体声信号进行解码时的情况那样)，或将逆变换级连接到来自该切换装置的下混信号和来自加权求和器的侧边信号的组合(优选地，当该切换装置已被启动作为求和与求差级时，如同可能是对直接编码立体声信号进行解码的情况那样)。

如本领域技术人员所了解的，这给予该编码器在传统的直接或联合编码和复数预测编码之间作选择的余地，这意味着至少相当于直接或联合立体声编码的质量水平可被保证。

在根据本发明的第二方面的编码器系统的一个实施例中，可包括用于估计复数预测系数的估计器，以降低或最小化残留信号的信号功率或平均信号功率。该最小化可发生在某时间间隔上，优选地，发生在要被编码的信号的某时间段或时间块或时间帧上。幅度的平方可作为瞬间信号功率的量度，且平方幅度(波形)在时间间隔上的积分可作为在该时间间隔内平均信号功率的量度。适当地，在时间块和频带基础上确定复数预测系数，即，以减少该时间块和频带中残留信号的平均功率(即，总能量)的方式来设置该系数的值。特别地，用于估计诸如IID、ICC和IPO或类似参数的参数立体声编码参数的模块可提供输出，在该输出上，可根据本领域技术人员所知的数学关系来计算复数预测系数。

在一个实施例中，编码器系统的编码级还可操作以作为通过级，以使得能够实现直接立体声编码。通过在期望提供更高质量的情况中选择直接立体声编码，编码器系统能够保证已编码的立体声信号具有至少与直接编码相同的质量。类似地，在由复数预测编码引起的更大计算量不能由明显质量提升激励的情况中，节约计算资源的选择因此对于编码器系统容易得到了。编码器中的在联合、直接、实数预测和复数预测编码间的决定通常基于速率/变形优化的基本原理。

在一个实施例中，编码器系统可包括用于基于第一频谱分量(即，不施加到时域的逆变换，也不使用信号的时域数据)直接计算第二频域表示的模块。与上述解码器系统对应的实施例相比，该模块可具有相似的结构，即包括相似的但以不同顺序的处理操作，以使得编码器适于输出适合作为在解码器侧的输入的数据。为了说明该实施例，假定要被编码的立体声信号包括中间和侧边声道，或已被变换成该结构，并且编码级适于接收第一频域表示。编码级包括用于计算中间声道的第二频域表示的模块。(这里涉及的第一和第二频域表示被如上所定义；特别地，第一频域表示可为MDCT表示，且第二频域表示可为MDST表示)。编码级还包括用于计算残留信号的加权求和器，该残留信号为侧边信号和由复数预测系数的实部与虚部分别加权的中间信号的两个频域表示所形成的线性组合。中间信号，或合适地，其第一频域表示可直接被用作下混信号。在该实施例中，进一步地，估计器确定复数预测系数的值，以最小化残留信号的功率或平均功率。最后的操作(优化)可通过反馈控制(其中估计器可接收通过要在需要时被进一步调整的当前预测系数值而获得的残留信号)，或以前馈方式，通过直接在原始立体声信号的左/右声道或中间/侧边声道上进行的计算来实现。优选的是前馈方法，通过该方法，基于中间信号的第一和第二频域表示和侧边信号的第一频域表示，复数预测系数被直接确定(特别地，以非迭代的或非反馈的方式)。需要注意的是，复数预测系数的确定之后可跟随是否施加直接、联合、实数预测或复数预测编码的决定，其中考虑每个可用选项的结果质量(优选地，感知质量，例如将信号-到-掩蔽的效应(signal-to-mask effect)考虑在内)；因此，以上陈述不能被视为在编码器中不存在反馈机制的效果。

在一个实施例中，编码器系统包括用于经由时域来计算中间(或下混)信号的第二频域表示的模块。需要理解的是，关于该实施例的实现细节(至少只要涉及第二频域表示的计算)与对应的解码器实施例相似，或能被类似地导出。在该实施例中，编码级包括：

●求和与求差级，该求和与求差级用于将立体声信号转换成包括中间和侧边声道的形式；

●变换级，该变换级用于提供侧边声道的频域表示和中间声道的复数值(因此过采样)频域表示；以及

●加权求和器，该加权求和器用于计算残留信号，其中复数预测系数用作权重。

这里，估计器可接收残留信号并可能以反馈控制的方式确定复数预测系数，以使得减小或最小化残留信号的功率或平均功率。但优选地，估计器接收要编码的立体声信号并基于该立体声信号确定预测系数。从计算经济的角度看，使用侧边声道的临界采样的频域表示是有利的，因为在该实施例中后者不会被乘以复数。适当地，变换级可包括并行布置的MDCT级和MDST级，两者都以中间声道的时域表示作为输入。因此，产生了中间声道的过采样的频域表示和侧边声道的临界采样的频域表示。

需要注意的是，在包括常规实验在内的在本领域技术人员能力内的适当的修改后，本部分中所公开的方法和装置可应用于具有多于两个声道的信号的编码。例如，根据上面引用的J.Herre等人的文章中的第4和5部分的各行，可进行修改为多声道可操作性的修改。

在进一步的实施例中，除非清楚补充，来自上面概述的两个或更多个实施例的特征可被结合。两个特征在不同的实施例中引用的事实并不会排除它们可被结合以获得优点。同样地，也能够将不必要的或对于期望的目的不必要的某些特征的省去，以提供给进一步的实施例。作为一个例子，在要处理的已编码信号未被量化或已经以适于通过上混级的处理的形式可获得的情况中，根据本发明的解码系统可被具体化为没有反量化级。

附图说明

现在将参考附图通过在下一部分中描述的实施例来进一步地说明本发明，在附图中：

图1包括示出了根据背景技术的基于QMF的解码器的两个一般化的框图；

图2是根据本发明实施例的具有复数预测的基于MDCT的立体声解码器系统的一般化的框图，其中在频域中计算要解码的信号的声道的复数表示；

图3是根据本发明实施例的具有复数预测的基于MDCT的立体声解码器系统的一般化的框图，其中在时域中计算要解码的信的号声道的复数表示；

图4示出了图2的解码器系统的替换实施例，其中激活的TNS级的位置是可选的；

图5包括示出了根据本发明另一方面实施例的具有复数预测的基于MDCT的立体声编码器系统的一般化的框图；

图6是根据本发明实施例的具有复数预测的基于MDCT的立体声编码器的一般化的框图，其中要编码信号的声道的复数表示是基于其时域表示计算的；

图7示出了图6的编码器系统的替换实施例，该编码器系统也可操作于直接L/R编码模式；

图8是根据本发明实施例的具有复数预测的基于MDCT的立体声编码器系统的一般化框图，其中要编码信号的声道的复数表示是基于其第一频域表示计算的，其解码器系统也可以操作于直接L/R编码模式；

图9示出了图7的编码器系统的替换实施例，该编码器系统还包括布置在编码级下游的TNS级；

图10示出了图2和8中标记为A的部分的替换实施例；

图11示出了图8的编码器系统的替换实施例，该编码器系统还包括分别布置在编码级下游和上游的两个频域修改器件；

图12为来自6个主题以96kb/s的听力测试结果的图形表示，该图示出了用于MDST频谱计算或近似的不同复杂度-质量折衷的选择，其中标记为“+”的数据点涉及隐藏的引用(hidden reference)，“x”涉及3.5kHz带宽受限的参考(anchor)，“＊”涉及USAC传统立体声(M/S或L/R)，“□”涉及利用禁止的预测系数虚部通过复数预测的MDCT域统一立体声编码(即，实值预测，不需要MDST)，“■”涉及使用当前MDCT帧通过复数预测来计算MDST的近似的MDCT域统一立体声编码，“○”涉及使用当前和先前MDCT帧通过复数预测来计算MDST的近似的MDCT域统一立体声编码以及“●”涉及使用当前、前一和下一MDCT帧通过复数预测来计算MDST的MDCT域统一立体声编码；

图13给出图12数据，但以相对于使用当前MDCT帧通过复数预测来计算MDST的近似的MDCT域统一立体声编码的差分分数的形式；

图14包括示出了根据本发明实施例的解码器系统的三个实施例的一般化框图；

图15是示出了根据本发明的实施例的解码方法流程图；以及

图16是示出了根据本发明的实施例的编码方法流程图。

具体实施方式

Ⅰ、解码器系统

图2以一般化框图的形式示出了解码器系统，该解码器系统用于对包括复数预测系数α＝α_R+iα_I的至少一个值和具有下混M和残留D声道的立体声信号的MDCT表示的比特流进行解码。所述预测系数的实部和虚部α_R、α_I可已被量化和/或已被联合编码。然而优选地，实部与虚部被独立地且通常以0.1的步长(无量纲数)均匀量化。用于复数预测系数的频带分辨率不必与按照MPEG标准的用于尺度因子带(scale factors band，sfb；即，使用相同MDCT量化步长和量化范围的一组MDCT线)的分辨率相同。特别地，预测系数的频带分辨率可为在心理声学上已被证实的一个，如Bark尺度。解复用器201适于从提供给其的比特流中提取这些MDCT表示和预测系数(如图中示出的控制信息部分)。的确，比仅仅复数预测系数多的控制信息可被编码在比特流中，这些控制信息例如为比特流是否以预测或非预测模式被解码的指令、TNS信息等。TNS信息可包括要由解码器系统的TNS(合成)滤波器施加的TNS参数值。如果同组TNS参数要被用于几个TNS滤波器，比如用于两个声道，那么接收以指示参数组的同一性的比特的形式的信息(而不是独立地接收这两组参数)是经济的。在适当时，例如，基于对两个可用选项的心理声学评估，是在上混级之前还是之后施加TNS的信息也可被包括在内。此外，然后，控制信息可单独地指示下混和残留信号的受限带宽。对于每个声道，在带宽限制以上的频带将不被解码，而被设置为零。在某些情况下，最高频带具有如此小能量的内容以致它们已被量化降至零。通常的做法(参考MPEG标准中的参数max_sfb)为对下混和残留信号二者采用相同的带宽限制。然而，与下混信号相比，残留信号在更大程度上具有被局部化到较低频带的能量内容。因此，通过对残留信号设置专用的上带宽限制，在不明显损失质量的情况下降低比特率是可能的。例如，这可由编码在比特流中的两个独立的max_sfb参数来控制，这两个参数一个用于下混信号，且一个用于残留信号。

在该实施例中，立体声信号的MDCT表示被分段成连续的时间帧(或时间块)，该连续的时间帧(或时间块)包括固定数量的数据点(例如1024个点)、若干固定数量的数据点(例如128或1024个点)或可变数量的点中的一个。如本领域技术人员所知，MDCT被临界采样。在附图右面部分中示出的解码系统的输出是具有左L和右R声道的时域立体声信号。反量化模块202适于处理输入到解码系统的比特流，或在适当时，处理在解复用初始比特流后获取的且对应下混和残留声道中的每一个的两个比特流。反量化的声道信号被提供给可以操作于通过模式或求和与求差模式的切换组件203，其中通过模式和求和与求差模式所对应的各自的变换矩阵如下：

[\begin{matrix} 1 & 0 \\ 0 & 1 \end{matrix}]

以及

\frac{1}{2} [\begin{matrix} 1 & 1 \\ 1 & - 1 \end{matrix}]

如在下一段中将进一步地讨论的，解码器系统包括第二切换组件205。如同在本实施例和要描述的实施例中的大多数其他切换装置和切换组件那样，切换组件203、205均可以频率选择的方式来操作。这使得能够解码多种解码模式，例如，如相关技术中所知的，对频率依赖的L/R或M/S解码进行解码。因此，根据本发明的解码器可被认为是对于相关技术的超集。

假设切换组件203现在处于通过模式，在本实施例中，反量化声道信号被通过各自的TNS滤波器204。TNS滤波器204对解码系统操作来说不是必要的，并可用通过(pass-through)元件来替代。此后，该信号提供给第二切换组件205，第二切换组件205具有与位于上游的切换组件203相同的功能性。利用前述输入信号并利用设置为通过模式的第二切换组件205，前者的输出为下混声道信号和残留声道信号。仍由其时间连续MDCT频谱来表示的下混信号被提供给实-到-虚变换206，该实-到-虚变换206适于基于该下混信号来计算其MDST频谱。在本实施例中，一个MDST帧基于三个MDCT帧：一个先前帧、一个当前(或同时)帧和一个随后帧。以符号(Z^-1，Z)来指示实-到-虚变换206的输入侧包括延迟部件。

从实-到-虚变换206获得的下混信号的MDST表示由预测系数的虚部α_I来加权，并加到下混信号的由预测系数的实部α_R加权的MDCT表示并加到残留信号的MDCT表示。这两个加法和乘法由一起形成(功能上)加权加法器的乘法器和加法器210、211来执行，其被提供有最初由解码器系统接收的在比特流中编码的复数预测系数α值。复数预测系数可对每个时间帧被确定一次。其还可被更频繁地确定，诸如为一帧内的每个频带确定一次，其中频带为在心理声学上促进的划分。其还可不那么频繁地被确定，如以下关于根据本发明的编码系统将讨论的。实-到-虚变换206以如下的方式与加权加法器同步：使得下混声道信号的当前MDST帧与下混声道信号和残留声道信号中的每一信号的一个同时的MDCT帧合并。这三个信号的和是侧边信号S＝Re{αM}+D。在该表达式中，M包括下混信号的MDCT和MDST表示，即M＝M_MDCT-iM_MDST，而D＝D_MDCT是实数值的。因此，获得了具有下混声道和侧边声道的立体声信号，根据该立体声信号，求和与求差变换如下恢复左和右声道：

\{\begin{matrix} L = M + S \\ R = M - S \end{matrix}

这些信号被表示在MDCT域中。解码系统最后的步骤是将逆MDCT 209施加到每个声道，借此获得左/右立体声信号的时域表示。

在上面所提及的申请人的专利US 6,980,933 B2中进一步描述了实-到-虚变换206的可能实施方式。通过其中的公式41，变换可被表示为有限脉冲响应滤波器，例如，对于偶数点，

\begin{matrix} S (2 v) = \frac{2}{N} Σ_{p = 0}^{N - 1} [{(- 1)}^{p + 1} X_{I} (p) + X_{III} (p)] h_{I, III} (2 v - p) \\ + \frac{4}{N} Σ_{l = 0}^{N - 1} X_{II} (2 l + 1) h_{II} (2 v - 2 l - 1), \end{matrix}

其中，S(2v)是第2v个MDST数据点，X_I、X_II、X_III是来自每个帧的MDCT数据，以及N是帧长。此外，h_I,III、h_II是依赖于施加的窗函数的脉冲响应，并因此针对每次窗函数的选择(诸如矩形窗函数、正弦窗函数和凯撒-贝塞尔衍生窗函数)且针对每个帧长而被确定。通过省去具有相对较小的能量内容且对MDST数据贡献相对较少的那些脉冲响应，可降低该计算的复杂度。作为该简化的替换或扩展，脉冲响应本身可被缩短，例如从完整帧长N缩短到较少数量的点。例如，脉冲响应长度可从1024点(抽头)减少到10点。仍能被认为有意义的最极端的截短是：

S(v)＝X_II(v+1)-X_II(v-1)。

其他直接的方法可在US 2005/0197831 A1中找到。

还可减少计算所基于的输入数据量。为了说明，实-到-虚变换206和其上游连接(在附图上被示出为由“A”表示的部分)由简化变形来代替，简化变形中的两个A'和A"在图10中示出。变形A'提供信号的近似虚数表示。这里，MDST计算仅考虑当前帧和前一帧。参考上面的公式，在本段中，这可通过设置X_III(p)＝0来实现，p＝0，...,N-1(下标III表示随后的时间帧)实现。因为变形A'不要求随后帧的MDCT频谱作为输入，所以MDST计算不会引起任何延迟。明显地，该近似有些降低了所获得MDST信号的精确度，但也可意味着该信号的能量变低；作为预测编码特性的结果，后一事实可通过提高α_I来完全补偿。

在图10中也示出了变形A"，该变形只使用当前时间帧的MDCT数据作为输入。可论证地，变形A"产生比变形A'更不精确的MDST表示。另一方面，就像变形A'一样，变形A"以零延迟来操作，并具有较低的计算复杂性。如已经提到的，只要在编码器系统和解码器系统中使用相同的近似，波形编码特性就不会受到影响。

需要注意的是，不管使用变形A、A'或A"或其任何更进一步的演进，只有复数预测系数的虚部非零(α_I≠0)的MDST频谱的那些部分需要计算。在实际情况中，这可被认为是系数虚部的绝对值|α_I|大于预设门限值，这可能与所使用的硬件的四舍五入单元(unit round-off)有关。如果系数虚部对于时间帧内的所有频带都是零，则不需要为该帧计算任何MDST数据。因此，适当地，实-到-虚变换206适于通过不产生MDST输出来响应非常小的|α_I|值的出现，借此可节约计算资源。但是，在使用比当前帧更多的帧来产生一帧MDST数据的实施例中，即使不需要MDST频谱，变换206上游的任何单元都应适当地连续操作——特别地，第二切换组件205应该持续前转MDCT频谱——以便当与非零预测系数有关的下一时间帧出现时，实-到-虚变换206已经可获得足够的输入数据；当然这可为下一个时间块。

返回到图2，在两个切换组件203、205被设置为其各自通过模式的假设下，解码系统的功能已被描述。如现在将讨论的，解码器系统还可对未被预测编码的信号解码。对于该使用，第二切换组件205将被设置在其求和与求差模式，并且如附图上所示，选择器装置208将被适当地设置在其较低位置中，从而保证信号从TNS滤波器204和第二切换组件205之间的源点直接馈给到逆变换209。为了保证正确解码，在源点处，该信号适当地具有L/R形式。因此，为保证实-到-虚变换被一直提供一正确的中间(即，下混)信号(而不是间歇地被提供以左信号)，在对非预测编码立体声信号进行解码期间，第二切换组件205被优选地设置于其求和与求差模式。如上面所指出的，基于例如数据速率到音频质量的判决，对于某些帧，预测编码可由传统的直接或联合编码来代替。这种判决的结果可以用多种方式从编码器传送到解码器，例如，通过每帧中专用指示比特的值来传送，或通过预测系数值的不存在或存在来传送。在确立了这些事实的情况下，第一切换组件203的作用就可被容易地理解了。的确，在非预测编码模式中，解码器系统可处理按照直接(L/R)立体声编码或联合(M/S)编码的信号，并且通过使第一切换组件操作于通过模式或求和与求差模式，能够保证源点总被提供有直接编码信号。清楚地，当用作求和与求差级时，切换组件203将M/S形式的输入信号转换成以L/R形式的输出信号(提供给可选的TNS滤波器204)。

该解码器系统接收是否以预测编码或非预测编码模式由解码器系统对特定时间帧解码的信号。非预测模式可通过每帧中专用指示位的值或通过预测系数的不存在(或零值)来指示。预测模式可类似地传送。一种特别有益的实施方式(其在没有任何开销的情况下实现回退(fallback))利用两比特字段ms_mask_present(见MPEG-2 AAC，ISO/IEC13818-7文件)中被保留的第四个值，该字段在每一时间帧被传输并被定义如下：

通过将值11重新定义为指“复数预测编码”，解码器能够操作于所有已有模式，特别是M/S和L/R编码，而没有任何比特-速率损失，并仍然能够接收用于指示有关帧的复数预测编码模式的信号。

图4示出了具有与图2示出的结构相同的通用结构的解码器系统，但是包括至少两个不同的结构。首先，图4的系统包括切换装置404、411，切换装置404和411使得能够施加涉及上混级的上游和/或下游的频域修改的一些处理步骤。一方面，这由第一组频域修改器403(本图中被示出为TNS合成滤波器)来实现，该第一组频域修改器403连同第一切换装置404一起被提供在反量化模块401和第一切换组件402下游，但是在第二切换组件405的上游，第二切换组件405紧接地布置在上混级406、407、408、409上游。另一方面，解码器系统包括第二组频域修改器410，第二组频域修改器410与第二切换装置411一起提供在上混级406、407、408、409的下游，但在逆变换级412的上游。有益地，如图中所示，每个频域修改器被布置为与通过线并联，其中通过线向上游连接到频域修改器的输入侧，并向下游连接到关联的切换装置。借助于该结构，频域修改器被一直提供有信号数据，使得能够在频域中基于比仅仅当前时间帧更多的时间帧来进行处理。施加第一组频域修改器403还是第二组频域修改器410的决定可由编码器做出(并在比特流中传达)，或可基于预测编码是否施加，或可基于一些其他在实际情况中发现合适的准则。例如，如果频域修改器是TNS滤波器，则对于某些类型的信号，第一组频域修改器403可能是有利的，而第二组频域修改器410可能对于其他种类的信号是有利的。如果该选择的结果被编码在比特流中，则解码器系统将相应地激活相应组的TNS滤波器。

为了便于理解图4示出的解码器系统，需要明确注意的是，直接(L/R)编码的信号的解码在α＝0时(隐含伪-L/R和L/R是相同的且侧边和残留声道没有不同)发生，第一切换组件402处于通过模式，第二切换组件处于求和与求差模式，从而使信号在第二切换组件405和上混级的求和与求差级409之间具有M/S形式。因为然后上混级将实际上作为通过步骤，所以是否激活(使用各自的切换装置404、411)第一或第二组频域修改器是不重要的。

图3说明了根据本发明实施例的解码器系统，与图2和4相比，图3的系统代表提供上混所需MDST数据的不同方法。如同已描述的解码器系统，图3的系统包括反量化模块301、可以操作于通过或求和与求差模式的第一切换组件302和TNS(合成)滤波器303，这些组件都从解码器系统输入端开始串联布置。该点下游的模块通过两个第二切换装置305、310而被选择性地采用，如图中所示，两个第二切换装置305、310优选地被联合操作使得两者都处于其较高位置或都处于其较低位置。在解码器系统输出端，有求和与求差级312，紧接其上游的是用于将每个声道的MDCT域表示变换成时域表示的两个逆MDCT模块306、311。

在复数预测解码中，其中解码器系统被提供以编码有下混/残留立体声信号和复数预测系数的值的比特流，第一切换组件302被设置为其通过模式，且第二切换装置305、310被设置在较高位置。在TNS滤波器下游，(反量化的、TNS滤波的、MDCT)立体声信号的两个声道被以不同方式处理。一方面，该下混声道被提供给乘法器和求和器308，该乘法器和求和器308将由预测系数的实部α_R加权的下混声道的MDCT表示加到残留声道的MDCT表示，而另一方面，该下混声道被提供给逆MDCT变换模块中的一个306。从逆MDCT变换模块306输出的下混声道M的时域表示被提给最后的求和与求差级312和MDST变换模块307。从计算复杂性角度看，两次使用下混声道的时域表示是有利的。因此获得的下混声道的MDST表示被提供给另外的乘法器和求和器309，该乘法器和求和器309将下混声道的MDST表示用预测系数的虚部α_I加权后，将该信号加到来自求和器308的线性组合输出；因此，求和器309的输出是侧边声道信号，S＝Re{αM}+D。与图2示出的解码器系统类似，乘法器和求和器308、309可被容易地结合，以形成输入为下混信号的MDCT和MDST表示、残留信号的MDCT表示和复数预测系数值的加权多信号加和器。本实施例中，在该点下游，在侧边声道信号被提供给最后的求和与求差级312前，只有通过逆MDCT变换模块311的声道保留下来。

如已在频率选择性M/S和L/R编码中实践的，通过在两个逆MDCT变换模块306、311施加相同的变换长度和窗口形状，可实现解码器系统中的必要的同步性。通过将逆MDCT模块306的某些实施例与MDST模块307的实施例组合，单帧延迟被引入。因此，五个可选的延迟模块313(或在计算机实现中，起该作用的软件指令)被提供，使得必要时系统的位于虚线右边的部分与左边部分相比可延迟一帧。显然地，除逆MDCT模块306和MDST变换模块307之间的连接线(为发生需要补偿的延迟的位置)之外，虚线和连接线之间的所有交点被提供有延迟模块。

对于一个时间帧的MDST数据的计算需要来自一帧的时域表示的数据。然而，逆MDCT变换基于一帧(当前帧)、两个连续帧(优选地：前一帧和当前帧)或三个连续帧(优选地：前一帧、当前帧和后一帧)。借助于众所周知的与MDCT有关的时域混叠消除(time-domain aliascancellation,TDAC)，至少在包含时域混叠的帧中，三帧的选项实现了输入帧的完全重叠，并因此提供最好的(且可能是完美的)准确度。明显地，三帧逆MDCT以单帧延迟操作。通过接受使用近似时域表示作为到MDST变换的输入，可避免该延迟，并且从而避免在解码器系统不同部分间补偿延迟的需要。在两帧的选项中，支持TDAC的重叠/增加出现在帧的较早一半中，且混叠仅在较晚的一半中出现。在单帧选项中，没有TDAC意味着混叠可贯穿帧而发生；然而，以此方式实现的并用作复数预测编码中的中间信号的MDST表示仍可提供令人满意的质量。

图3中示出的解码系统也可以操作于两种非预测解码模式。为了对直接L/R编码的立体声信号进行解码，第二切换装置305、310被设置在较低位置，且第一切换组件302被设置为通过模式。因此，信号在求和与求差级304上游具有L/R形式，求和与求差级304将其转换成M/S形式，在此基础上，进行逆MDCT变换和最后的求和与求差操作。为了对以联合M/S编码形式提供的立体声信号进行解码，相反地，第一切换组件302被设置为其求和与求差模式，使得信号在第一切换组件302和求和与求差级304之间具有L/R形式，其从TNS滤波角度看经常比M/S形式更合适。求和与求差级304下游的处理与在直接L/R解码的例子中的相同。

图14包括示出了根据本发明的各实施例的解码器的三个一般化的框图。与伴随本申请的几个其他框图相比，图14中的连接线可代表多声道信号。特别地，这种连接线可布置为传输包括左/右、中间/侧边、下混/残留、伪左/伪右声道以及其他组合的立体声信号。

图14A示出了用于对输入信号的频域表示(为了本图的目的，被示出为MDCT表示)进行解码的解码器系统。该解码器系统适于提供作为其输出的立体声信号的时域表示，其基于输入信号来生成。为了能够解码通过复数预测立体声来编码的已编码输入信号，解码器系统被提供有上混级1410。然而，其也能够处理以其他格式编码的、以及可能在时间上在几个编码模式间交替编码的输入信号，例如，由复数预测编码所编码的时间帧序列可跟随着由直接左/右编码所编码的时间部分。通过提供与所述上混级1410并行布置的连接线(通过)，可实现解码器系统处理不同编码格式的能力。利用切换装置1411，可选择是(图中较低切换位置)将来自上混级1410的输出提供给被进一步布置在下游的解码器模块，还是(图中较高切换位置)将在连接线上可获得的未处理信号提供给被进一步布置在下游的解码器模块。在该实施例中，逆MDCT模块1412被布置在切换装置下游，其将信号MDCT表示变换成时域表示。例如，提供给上混级1410的信号可为下混/残留形式的立体声信号。然后，上混级1410适于导出侧边信号，并执行求和与求差操作，以使得左/右立体声信号(在MDCT域)为输出。

图14B示出了与图14A类似的解码器系统。该系统适于在其输入信号处接收比特流。该比特流被组合的解复用器和反量化模块1420初始处理，模块1420提供待进一步处理的多声道立体声信号的MDCT表示，作为第一输出信号，进一步的处理由具有与图14A的切换装置1411相似的功能性的切换装置1422的位置来确定。更确切地说，切换装置1422确定来自解复用器和反量化的第一输出是由上混级1421和逆MDCT模块1423处理(较低位置)，还是仅由逆MDCT模块1423处理(较高位置)。组合的解复用器和反量化模块1420还输出控制信息。在本例子中，与立体声信号有关的控制信息可包括：指示切换装置1422的较高位置还是较低位置适合于解码信号(或更抽象地，按照什么编码格式将该立体声信号解码)的数据。控制信息还可包括用于调节上混级1421特性的参数，例如，用于已在上面描述的复数预测编码中的复数预测系数α的值。

图14C示出了一种解码器系统，除与图14B中相似的实体之外，该解码器系统还包括分别布置在上混级1433上游和下游的第一和第二频域修改器件1431、1435。为了该图的目的，每个频域修改器件由TNS滤波器示出。然而，该术语频域修改器件也可被理解为易于在上混级前或后施加的其他处理(不是TNS滤波)。频域修改的示例包括预测、噪音增加、带宽扩展和非线性处理。心理声学考虑因素和类似理由(可能包括要被处理的信号的特性和/或这种频域修改器件的配置或设置)，有时指示将所述频域修改施加在上混级1433上游而非下游是有利的。在其他情况下，通过类似考虑，可确定频域修改的下游位置优于上游位置。利用切换装置1432、1436，可选择性地激活频域修改器件1431、1435，使得响应于控制信息，解码器系统能够选择想要的配置。例如，图14C示出一种配置，其中来自组合的解复用器和反量化模块1430的立体声信号最初由第一频域修改装置1431处理，然后被提供给上混级1433，并最后直接前转到逆MDCT模块1437，而不经过第二频域修改装置1435。如发明内容部分所解释的，在复数预测编码中，相对于在上混后执行TNS的选项，该配置是优选的。

II、编码器系统

现在将参考图5描述根据本发明的编码器系统，图5是用于通过复数预测编码对左/右(L/R)立体声信号进行编码作为输出比特流的编码器系统的一般化框图。该编码器系统接收信号的时域或频域表示，并将其提供给下混级和预测系数估计器。预测系数的实部与虚部被提供给下混级，以便控制左和右声道到下混和残留声道的转换，然后下混和残留声道被提供给最后的复用器MUX。如果信号没有被作为频域表示提供给编码器，那么，其在下混级或复用器中被转换成这种表示。

预测编码中的原理之一是将左/右信号转换为中间/侧边形式，即，

\{\begin{matrix} M = (L + R) / 2 \\ S = (L - R) / 2 \end{matrix}

然后，利用这些声道之间保留的相关度，即通过设置：

S＝Re{αM}+D，

其中α是要确定的复数预测系数，且D是残留信号。可以选择α，使得残留信号D＝S-Re{αM}的能量最小化。可相对于瞬时功率、较短期能量或较长期能量(功率平均值)来实现能量最小化，其就离散信号而言，等于均方意义下的最优化。

预测系数的实部与虚部α_R、α_I可被量化和/或联合编码。然而，优选地，实部与虚部被独立地且均匀地量化，通常以0.1步长(无量纲数)来量化。用于复数预测系数的频带分辨率不必与按照MPEG标准的用于尺度因子带(scale factors band，sfb；即，使用相同MDCT量化步长和量化范围的一组MDCT线)的分辨率相同。特别地，预测系数的频带分辨率可为在心理声学上已被证实的一个，如Bark尺度。需要注意的是，在变换长度改变的情况下，频带分辨率可改变。

如已经指出的，根据本发明的编码器系统可具有是否施加预测立体声编码的选择余地。不施加预测立体声编码的情况意味着回退到L/R或M/S编码。这样的决定可基于时间帧做出，或更精细地，基于时间帧内的频带做出。如上面所指出的，否定的决定结果可以用多种方式传递到解码器实体，例如，通过每帧中的专用指示位的值，或通过预测系数值的不存在(或零值)。肯定的决定可被类似地传递。一种特别有益的实施方式(其在没有任何开销的情况下实现回退(fallback))利用两比特字段ms_mask_present(见MPEG-2 AAC，ISO/IEC13818-7文件)中被保留的第四个值，该字段在每一时间帧被传输并被定义如下：

通过将值11重新定义为指“复数预测编码”，编码器可以操作于所有已有模式，特别是M/S和L/R编码，没有任何比特-速率损失，并仍然能够指示对于复数预测编码对其有利的那些帧进行复数预测编码。

实质的决定可基于数据速率到音频质量的基本原理。作为质量的量度，可使用通过利用包括在编码器(通常的情况是可用的基于MDCT的音频编码器)内的心理声学模型而获得的数据。特别地，编码器的一些实施例提供了预测系数的速率-畸变的优化选择。因此，在这样的实施例中，如果预测增益的增加没有为残留信号的编码节省出足够的比特，则预测系数的虚部(并且可能还有实部)被设置为零，以调整使用对预测系数进行编码所需的比特。

编码器的实施例可将比特流中关于TNS的信息进行编码。这样的信息可包括要通过解码器侧的TNS(合成)滤波器而施加的TNS参数的值。如果同一组的TNS参数要被用于两个声道，那么，包括用于指示参数组的同一性的信令比特(而不是独立地传输这两组参数)是经济的。在适当时，例如，基于对两个可用选项的心理声学评估，是在上混级之前还是之后施加TNS的信息也可被包括在内。

作为从复杂度和比特率角度来看潜在有利的又一可选特征，编码器可适于对残留信号的编码采用单独的受限带宽。在该限制以上的频带将不被传输到解码器，而被设置为零。在某些情况下，最高频带具有如此小能量的内容，以致它们已被量化降至零。通常的做法(参考MPEG标准中的参数max_sfb)要求对下混和残留信号采用相同的带宽限制。现在，发明人通过经验已经发现，与下混信号相比，残留信号在更大程度上使其能量内容被局部化在较低频带。因此，通过对残留信号设置专用的上带宽限制，在不明显损失质量的情况下，比特率的降低是可能的。例如，这可通过发送两个独立的max_sfb参数(一个用于下混信号且一个用于残留信号)来实现。

需要指出的是，尽管参考图5中示出的解码器系统讨论了预测系数的最优确定、其量化和编码、回退到M/S或L/R模式、TNS滤波和带宽上限等问题，相同的事实同样地适用于参考随后附图在以下描述中公开的实施例。

图6示出了根据本发明的又一编码器系统，其适于执行复数预测立体声编码。该系统接收作为输入的、被分段为连续的、可能重叠的时间帧并包括左和右声道的立体声信号的时域表示。求和与求差级601将该信号转换成中间和侧边声道。中间声道被提供给MDCT模块602和MDST模块603，而侧边声道仅提供给MDCT模块604。如上面所解释的，预测系数估计器605为每个时间帧(以及可能地为帧内各个频带)估计复数预测系数α的值。系数α的值被作为权重提供给加权求和器606、607，加权求和器606、607将残留信号D形成为中间信号的MDCT和MDST表示和侧边信号的MDCT表示的线性组合。优选地，复数预测系数被提供给由与其被编码成比特流时使用的相同的量化方案所表示的加权求和器606、607；因为编码器和解码器都施加相同的预测系数值，所以，这明显地提供了更可靠的重建。残留信号、中间信号(当其与残留信号一起出现时可被更适当地称为下混信号)和预测系数被提供给组合的量化和复用器级608，量化和复用器级608对这些以及可能的附加信息进行编码，作为输出比特流。

图7示出了图6编码器系统的变形。如从图中标记的相似性来看，很清楚其具有类似的结构，但也具有增加的操作于直接L/R编码回退模式的功能性。通过被提供在紧接组合的量化和复用器级709上游的切换装置710，编码器系统在复数预测编码模式和回退模式之间驱动。如图中所示，在其较高位置，切换装置710将使得编码器以回退模式操作。从位于MDCT模块702、704紧接下游的点处，中间/侧边信号被提供给求和与求差级705，该求和与求差级705在将信号转换成左/右形式后，将其继续传送到切换装置710，该切换装置710将其连接到组合的量化和复用器级709。

图8示出了根据本发明的一种编码器系统。与图6与7的编码器系统对比，该实施例直接从MDCT数据中导出复数预测编码所需的MDST数据，即，通过频域中的实到虚的变换来导出复数预测编码所需的MDST数据。实到虚的变换应用任何参考图2和4的解码器系统讨论的方法。重要的是将解码器的计算方法与编码器的匹配，使得能够实现可靠的解码；优选地，相同的实到虚的变换方法用在编码器侧和解码器侧上。对于解码器实施例，由虚线包围并包括实到虚的变换804的部分A可用近似变形来代替，或使用更少的时间帧作为输入。同样地，使用如上所述的其他近似方法中的任何一个，可使编码简化。

在更高级别上，图8的编码器系统具有不同于图7中可能接着通过(被合适地连接的)实到虚的模块来放置MDST模块的直接动作的结构。本结构是简洁的，并以鲁棒的和计算上经济的方式实现预测编码和直接L/R编码之间切换的功能性。输入立体声信号被供给MDCT变换模块801，该模块输出每个声道的频域表示。所述频域表示被馈给最后的切换装置808(用于在编码器系统的预测和直接编码模式之间驱动编码器系统)和求和与求差级802。在直接L/R编码或联合M/S编码中(该实施例在预测系数α设置为零的时间帧中进行)，其使输入信号仅经过MDCT变换、量化和复用，后两步由布置在系统输出端的组合的量化和复用器级807来实现，在系统输出端，比特流被提供。在预测编码中，每个声道都经过在求和与求差级802和切换装置808之间的进一步处理。根据中间信号的MDCT表示，实到虚的变换804推导出MDST数据，并将其前转给预测系数估计器803和加权求和器806。如同在图6和7中示出的编码器系统那样，另外的加权求和器805用于将侧边信号与加权的中间信号的MDCT和MDST表示合并，以形成残留声道信号，该残留声道信号连同中间(即，下混)声道信号和预测系数一起由组合的量化和复用器模块807来编码。

现在转到图9，将被说明的是，编码器系统的每个实施例都可与一个或更多个TNS(分析)滤波器结合。根据前面的讨论，将TNS滤波施加到其下混形式的信号常常是有益的。因此，如图9所示，通过将TNS滤波器911增加在组合的量化和复用器模块909的紧接的上游，实现对图7的编码器系统的适配以包括TNS。

两个独立的TNS滤波器(未示出)(替代右/残留TNS滤波器911b)可被提供在切换装置910的适于处理右或残留声道的部分的紧接的上游。因此，两个TNS滤波器中的每一个将一直被提供有各自的声道信号数据，使得TNS滤波能够基于比仅是当前时间帧更多的时间帧。如已被指出的，TNS滤波器只是频域修改器件(特别是将其处理基于比当前一帧更多的帧的器件)的一个例子，从这种布置中，可与在TNS滤波器处获益相同，或比在TNS滤波器处获益更多。

作为图9中示出的实施例的另一个可能的替换，用于选择性激励的TNS滤波器可针对每一声道而布置在多于一个点处。这与图4中示出的解码器系统的结构相似，其中不同组的TNS滤波器能够通过切换装置来连接。这使得能针对每个时间帧选择TNS滤波的最合适的可用级。特别地，与复数预测立体声编码和其他编码模式间的切换相关的在不同的TNS位置之间的切换可能是有益的。

图11示出了基于图8的编码器系统的变形，其中利用实到虚的变换1105导出下混信号的第二频域表示。与图4中示出的解码器系统类似，该编码器系统也包括可选择性地激活的频域修改器模块，一个1102提供在下混级的上游，而一个1109提供在下混级的下游。在该图中已例示为TNS滤波器的频域模块1102、1109可利用4个切换装置1103a、1103b、1109a和1109b而连接到每个信号通路。

III、非装置实施例

本发明第三和第四方面的实施例在图15和16中被示出。图15示出了用于将比特流解码成立体声信号的方法，其包括以下步骤：

1、输入比特流；

2、反量化比特流，借此获得立体声信号的下混和残留声道的第一频域表示；

3、计算下混声道的第二频域表示；

4、基于声道的三个频域表示来计算侧边声道信号；

5、基于侧边和下混声道来计算立体声信号(优选地为左/右形式)；

6、输出因此获得的立体声信号。

步骤3-5可认为是上混的处理。步骤1-6的每一个与本文前面部分中所公开的任何一个解码器系统中相应的功能性相似，并在相同的部分中能够找回关于其实现的进一步的细节。

图16示出了将立体声信号编码为比特流信号的方法，其包括以下步骤：

1、输入立体声信号；

2、将立体声信号转变变换成第一频域表示。

3、确定复数预测系数；

4、对频域表示进行下混；

5、将下混和残留声道与复数预测系数一起编码为比特流。

6、输出该比特流。

步骤1-5的每一个与本文前面部分中所公开的任何一个编码器系统中相应的功能性相似，并在相同的部分中能够找回关于其实现的进一步的细节。

两个方法都可表示为软件程序形式并可由计算机执行的计算机可读指令。本发明的保护范围延伸到这种软件和分发这种软件的计算机程序产品。

IV、实验评估

已实验评估了这里所公开的几个实施例。在此过程中获得的试验材料中的最重要的部分将在本子部分中总结。

用于实验的实施例具有以下特征：

(i)根据当前、前一和下一MDCT频谱，通过二维有限脉冲响应滤波来计算每个MDST频谱(对于时间帧)。

(ii)使用来自USAC立体声编码器的心理声学模型。

(iii)传输复数预测系数α的实部与虚部，而不是PS参数ICC、CLD和IPD。实部与虚部被独立地处理，且限制在[-3.0，3.0]的范围并使用0.1的步长量化。然后它们被时间-差分编码，并最后采用USAC的尺度因子码本进行霍夫曼编码。针对每秒尺度因子带，更新预测系数，这导致与MPEG环绕(参见例如ISO/IEC23003-1)类似的频率分辨率。在具有96kb/s的目标比特率的典型配置中，对于该立体声边信息，该量化和编码方案的结果为大约2kb/s的平均比特率。

(iv)因为2-比特ms_mask_present比特流元素当前仅具有三个可能值，所以，比特流格式被修改，而不中断当前的USAC比特流。通过使用第四个值指示复数预测，使得允许基本的中间/侧边编码的回退模式，而没有浪费任何比特(对于关于该主题的进一步细节，见本公开前面的子部分)

根据MUSHRA方法完成该听力测试，特别要求在头戴式耳机上重放和使用具有48kHz采样率的8个测试项目。在每个测试中涉及三、五或六个测试主体。

评估了不同MDST近似的影响，以说明这些选项之间存在实际的复杂度-质量折衷。在图12和13中可找到该结果，前者示出了获得的绝对分数，并且后者示出了相对于96s USAC cp1f的差分分数，其中96s USAC cp1f即通过复数预测采用当前MDCT帧来计算MDST近似的MDCT域统一立体声编码。能够看出，当用于计算MDST频谱的计算上更复杂的方法被应用时，基于MDCT统一立体声编码所实现的质量增益增加。考虑对所有测试的平均，基于单帧的系统96s USAC cp1f与传统的立体声编码相比提高了编码效率上的明显提升。反过来，对于96s USAC cp3f，获得了甚至明显更好的结果，其中96s USAC cp3f即采用当前、先前和随后MDCT帧通过复数预测来计算MDST的MDCT域统一立体声编码。

V、结束语

在阅读以上的说明后，本发明的进一步的实施例对于本领域技术人员将变得明显。尽管本说明书和附图公开了实施例和例子，但是，本发明不局限于这些特定的例子。在不脱离由所附的权利要求所定义的本发明的范围的情况下，能够做许多变形和改变。

需要注意的是，在本领域技术人员的能力内的包括常规实验的适当的修改后，本申请中所公开的方法和装置可应用于具有多于两个声道的信号的编码。特别要强调的是，关于所描述的实施例而被提及的任何信号、参数和矩阵可为频变或频不变的和/或时变或时不变的。所描述的计算步骤可以频率执行，或在某时间对所有频带执行，并且所有实体可具体化为具有频域选择性的动作。为了本申请的目的，任何量化方案可根据心理声学模型来修改。此外需要注意的是，各种求和与求差转换，即，从下混/残留形式到伪L/R形式的转换以及L/R到M/S的转换和M/S到L/R的转换，都为以下形式：

g [\begin{matrix} 1 & 1 \\ 1 & - 1 \end{matrix}],

其中，仅增益因子g可改变。因此，通过单独地调整增益因子，有可能通过对解码增益的合适选择来补偿一定的编码增益。此外，如本领域技术人员所了解的，偶数个串行布置的求和与求差变换具有通过级的作用，可能具有不一致的增益。

以上所公开的系统和方法可作为软件、固件、硬件或它们的组合而实施。某些元件或所有元件可作为由数字信号处理器或微处理器执行的软件而实施，或作为硬件或作为专用集成电路而实施。这样的软件可分布在可包括计算机存储介质和通信介质的计算机可读的介质上。如本领域技术人员所知的，计算机存储介质包括在用于诸如计算机可读指令、数据结构、程序模块或其他数据的信息的存储的任何方法或技术中所实施的易失性的和非易失性的、可移动的和固定的介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪速存储器或其他存储技术、CD-ROM、数字通用磁盘(digital versatile disks，DVD)或其他光盘存储、磁带盒、磁带、磁盘存储器或其他磁存储器、或能够用于存储所想要的信息和能够由计算机存取的任何其他介质。此外，本领域技术人员熟知，通信介质通常包括计算机可读指令、数据结构、程序模块或诸如载波或其他输送机构等已调制的数据信号中的其他数据并包括任何信息传递介质。

Claims

1.一种解码器系统，该解码器系统用于通过复数预测立体声编码来提供立体声信号，该解码器系统包括：

上混级(206、207、210、211；306、307、308、309、312；406、407、408、409；1410；1421；1433)，该上混级被适配为基于下混信号(M)和残留信号(D)的第一频域表示来产生所述立体声信号，每个所述第一频域表示包括第一频谱分量，该第一频谱分量代表相应信号的在多维空间的第一子空间中表示的频谱内容，所述上混级包括：

基于所述下混信号的第一频域表示来计算所述下混信号的第二频域表示的模块(206；306、307；408)，所述第二频域表示包括第二频谱分量，该第二频谱分量代表所述下混信号的在所述多维空间的第二子空间中表示的频谱内容，所述第二子空间包括所述多维空间的不含在所述第一子空间内的部分；

加权求和器(210、211；308、309；406、407)，该加权求和器基于所述下混信号的第一频域表示和第二频域表示、所述残留信号的第一频域表示和编码在比特流信号中的复数预测系数(α)来计算侧边信号(S)，和

求和与求差级(207；312；409)，该求和与求差级基于所述下混信号的第一频域表示和所述侧边信号来计算所述立体声信号，

其中所述上混级被适配为对所述下混信号和所述残留信号施加独立的带宽限制，其中，所述带宽限制表示针对所述下混信号和所述残留信号中的每一个要被解码的最高频带。

2.如权利要求1所述的解码器系统，其中，要被施加的所述带宽限制由两个数据字段来表示。

3.如权利要求2所述的解码器系统，该解码器系统被适配为接收MPEG比特流，其中，每个所述数据字段被编码为值max_sfb。

4.如前述权利要求的任何一个所述的解码器系统，还包括：

反量化级(202；301；401)，所述反量化级被布置在所述上混级的上游，用于基于比特流信号来提供所述下混信号(M)和残留信号(D)的第一频域表示。

5.如前述权利要求1-3中的任何一个所述的解码器系统，其中：

所述第一频谱分量具有在所述第一子空间中表示的实值；

所述第二频谱分量具有在所述第二子空间中表示的虚值；

所述第一频谱分量能够选择性地通过下述方式之一获得：

离散余弦变换DCT，或

改进型离散余弦变换MDCT，

并且，第二频谱分量能够选择性地通过下述方式之一获得：

离散正弦变换DST，或

改进型离散正弦变换MDST。

6.如前述权利要求1-3中的任何一个所述的解码器系统，还包括至少一个布置在所述上混级上游的时域噪音成形TNS模块(204；303；403)；以及

布置在所述上混级下游的至少一个另外的时域噪音成形模块(410)；以及

用于选择性地激活以下二者之一的选择器装置(404、411)：

(a)在所述上混级上游的所述时域噪音成形模块，或

(b)在所述上混级下游的所述另外的时域噪音成形模块。

7.如权利要求5所述的解码器系统，其中：

所述下混信号被分割成连续时间帧，每个所述时间帧与复数预测系数的值相关，以及

用于计算所述下混信号的第二频域表示的模块被适配为：响应于在一时间帧内所述复数预测系数的虚部的绝对值小于预定容限而去激活自身，使得在所述时间帧内所述模块不产生输出。

8.如前述权利要求1-3中的任何一个所述的解码器系统，其中：

所述第一频谱分量是变换系数中的布置在一个或更多个时间帧中的变换系数，每一时间帧通过对一时间段的时域信号施加变换来产生；以及

用于计算所述下混信号的第二频域表示的模块被适配为：

从所述第一频谱分量中的至少一些中导出一个或更多个第一中间分量；

根据一个或更多个脉冲响应的至少一部分来形成一个或更多个所述第一频谱分量的组合，以获得一个或更多个第二中间分量；以及

从所述一个或更多个第二中间分量中导出一个或更多个所述第二频谱分量。

9.如权利要求8所述的解码器系统，其中，用于计算所述下混信号的第二频域表示的模块被适配为基于以下中的一个来获得第二频谱分量的每个时间帧：

(a)所述第一频谱分量的同时的时间帧；

(b)所述第一频谱分量的同时的时间帧和前一时间帧；以及

(c)所述第一频谱分量的同时的时间帧、前一时间帧和后一时间帧。

10.如前述权利要求1-3中的任何一个所述的解码器系统，其中用于计算所述下混信号的第二频域表示的模块被适配为：计算近似第二频谱表示，该近似第二频谱表示包括通过至少两个时间相邻和/或频率相邻的第一频谱分量的组合而确定的近似第二频谱分量。

11.如权利要求4所述的解码器系统，所述立体声信号被表示在时域中，并且所述解码器系统还包括：

布置在所述反量化级和所述上混级之间的切换组件(203)，该切换组件可操作地作为：

(a)通过级，或

(b)求和与求差级，

使得能够在直接和联合编码的立体声输入信号之间切换；

逆变换级(209)，该逆变换级被适配为计算所述立体声信号的时域表示；以及

选择器装置(208)，该选择器装置布置在所述逆变换级的上游，被适配为选择性地将所述逆变换级连接到：

(a)在所述上混级下游的点，使得通过复数预测而获得的立体声信号被提供给所述逆变换级；或

(b)在所述切换组件(203)下游并在所述上混级上游的点，使得通过直接立体声编码而获得的立体声信号被提供给所述逆变换级。

12.如前述权利要求1-3中的任何一个所述的解码器系统，其中用于计算所述下混信号的第二频域表示的模块包括：

逆变换级(306)，该逆变换级用于基于所述多维空间的所述第一子空间中相应信号的第一频域表示来计算所述侧边信号和/或所述下混信号的时域表示；以及

变换级(307)，该变换级基于所述相应信号的时域表示来计算所述相应信号的第二频域表示。

13.如权利要求12所述的解码器系统，所述立体声信号被表示在时域中，并且所述解码器系统还包括：

切换组件(302)，该切换组件布置在反量化级和所述上混级之间，可操作地作为：

(a)通过级，用于联合立体声编码；或

(b)求和与求差级，用于直接立体声编码；

又一逆变换级(311)，该又一逆变换级被布置在所述上混级中，用于计算所述侧边信号的时域表示；

选择器装置(305、310)，所述选择器装置被布置在所述逆变换级(306、301)上游，被适配为选择性地将所述逆变换级连接到：

(a)又一求和与求差级(304)，该又一求和与求差级(304)又被连接到在所述切换组件(302)下游并在所述上混级上游的点；或

(b)从所述切换组件(302)中获得的下混信号和从所述加权求和器(308、309)中获得的侧边信号。

14.一种解码方法，用于将通过复数预测立体声编码而编码的输入立体声信号上混为输出立体声信号，其中：

所述输入立体声信号包括下混声道(M)和残留声道(D)的第一频域表示以及复数预测系数(α)；且

每个所述第一频域表示包括第一频谱分量，该第一频谱分量代表对应信号的在多维空间的第一子空间中表示的频谱内容，

所述方法由上混级执行并包括以下步骤：

基于所述下混声道的第一频域表示来计算所述下混声道的第二频域表示，所述第二频域表示包括第二频谱分量，该第二频谱分量代表所述下混声道的在所述多维空间的第二子空间表示的频谱内容，所述多维空间的所述第二子空间包括所述多维空间的不包含在所述第一子空间内的部分；以及

基于所述下混声道的第一和第二频域表示、所述残留声道的第一频域表示和所述复数预测系数来计算侧边声道，

其中，对下混声道和残留声道施加独立的带宽限制，其中，所述带宽限制表示针对所述下混声道和所述残留声道中的每一个要被解码的最高频带。