CN1926608A

CN1926608A - 多声道信号处理设备和方法

Info

Publication number: CN1926608A
Application number: CNA2005800068249A
Authority: CN
Inventors: 卓根·赫瑞; 迈克尔·斯古格; 亚历山大·格罗斯库
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2004-03-01
Filing date: 2005-02-28
Publication date: 2007-03-07
Anticipated expiration: 2025-02-28
Also published as: AU2005217517B2; US20070033056A1; DE502005000864D1; ES2286798T3; CA2558161C; NO20064431L; RU2006134641A; DK1697930T3; BRPI0507207A8; EP1697930A1; JP2007525718A; DE102004009954A1; EP1697930B1; ATE364882T1; AU2005217517A1; CA2558161A1; DE102004009954B4; IL177213A0; WO2005083678A1; IL177213A

Abstract

本发明涉及一种用于处理多声道信号的设备，包括用于确定两个声道中的第一个声道和两个声道中的第二个声道间的相似度的装置(12)。该设备还配备了用于执行频谱系数预测滤波的装置(16)，该装置用来在第一个和第二个声道非常相似时用单一预测滤波器(16a)对两个声道进行预测滤波，并且当第一个和第二个声道不相似时用两个独立的预测滤波器(16b)进行预测滤波。这样就可避免引入立体声噪音以及立体声编码技术中编码增益的衰减。

Description

多声道信号处理设备和方法

本发明涉及音频编码器，特别涉及基于变换的音频编码器，即，其中时域表征到频域表征的变换在编码器管道(pipeline)的初始阶段进行。

图3中示出了一种已知的基于变换的音频编码器。图3中的编码器用国际标准ISO/IEC 14496-3：2001(E)，第4子部分，第4页，进行说明，技术上也被称为AAC编码器。

以下介绍现有技术中的编码器。待编码的音频信号在输入端1000送入。该音频信号首先被馈送给缩放级1002，其中，进行所谓的AAC增益控制以确定音频信号的电平。来自缩放的辅助信息提供给比特流格式器(formatter)1004，如模块(block)1002和模块1004之间的箭头所示。然后缩放后的音频信号被提供给MDCT滤波器组1006。通过该AAC编码器，滤波器组实现了叠加窗口为50％的改进的离散余弦变换，窗口长度由模块1008确定。

通常来说，模块1008的目的是对具有相对较短窗口的瞬时(transient)信号进行窗口化，并且为具有较长窗口的趋于平稳的信号进行窗口化。这样来使得瞬时信号由于相对较短的窗口达到更高水平的时间分辨率(以频率分辨率为代价)；而对趋于平稳的信号则由于较长的窗口实现更高的频率分辨率(以时间分辨率为代价)，倾向于使用更长的窗口因为它们能产生更高的编码增益。在滤波器组1006的输出端，频谱值模块——模块在时间上连续——根据滤波器组的实现可能是MDCT系数、傅立叶系数或子带信号，每个子带信号具有由滤波器组1006中各自的子带信道确定的特定而有限的带宽，并且每个子带信号具有特定数目的子带采样。

以下通过示例进行描述，在该情形中滤波器组输出MDCT频谱系数的时间连续模块，这些系数通常来说表征了将在输入端1000被编码的音频信号的连续短时频谱。然后MDCT频谱值模块被送入TNS处理模块1010(TNS＝temporary noise shaping，现时噪声整形)，其中现时噪声整形被执行。TNS技术被用来在每个传输窗口中对量化噪声的时域形式进行整形。这是通过对每个声道的频谱数据的一部分应用一个滤波过程来实现的。编码在一个窗口基础上进行。特别地，执行以下步骤以将TNS工具应用到频谱数据窗口上，即频谱值模块上。

开始，为TNS工具选择一个频率范围。合适的选择包括用一个滤波器覆盖1.5kHz频率范围，直至可能的最高缩放因子频带。需要指出的是该频率范围依赖于采样率，如在AAC标准(ISO/IEC 14496-3：2001(E))中所指出的。

然后，进行LPC计算(LPC＝linear predictive coding，线性预测编码)，为了精确起见使用了所选择的目标频率范围中给出的频谱MDCT系数。平稳性增加时，对应低于2.5kHz频率的系数从该过程中被排除。语音处理中已知的普通LPC过程可以用于LPC计算，例如已知的Levinson-Durbin算法。该计算在噪声整形滤波器最大可允许的阶数下进行。

LPC计算的结果是得到期望的预测增益PG。另外，还得到了反射系数，即Parcor系数。

如果预测增益没有超过某一特定的门限，则不需要应用TNS工具。在这种情况下，在比特流中写入一条控制信息使得解码器知道没有进行TNS处理。

然而，如果预测增益超过了门限，则采用TNS处理。

下一步，反射系数被量化。使用的噪声整形滤波器的阶数通过从反射系数阵列的“尾部”去除所有绝对值小于某一门限的反射系数来确定。剩余的反射系数的数目是按照噪声整形滤波器的幅度排序的。门限的一个合适的取值为0.1。

剩余的反射系数通常被转换为线性预测系数，该技术也被称为“递升(step-up)”过程。

然后计算出的LPC系数被用作编码器噪声整形滤波器系数，即作为预测滤波器系数。该FIR滤波器被用于特定目标频率范围内的滤波。解码采用了自回归滤波器，而编码采用的是所谓的移动平均滤波器。最后，TNS工具的辅助信息被提供给比特流格式器，如图3中TNS处理模块1010和比特流格式器1004之间的箭头所示。

然后，通过图3中没有显示的几个可选的工具，例如长期预测工具，强度/耦合工具，预测工具，噪声置换工具，最后到达中/侧编码器(mid/side coder)1012。中/侧编码器1012当待编码的音频信号为多声道信号，即具有左侧声道和右侧声道的立体声信号时起作用。至此，即图3中自模块1012的上行方向上，左侧和右侧立体声通道被相互独立地处理，即被缩放、被滤波器组变换、被TNS处理或未被TNS处理等。

在中/侧编码器中，首先进行验证以确定中/侧编码器是否起作用，即是否会产生编码增益。如果左侧和右侧声道相似时中/侧编码会产生编码增益，因为在这种情况下，中声道，即左侧和右侧声道的和，除了以一个1/2的因子进行缩放外基本上等于左侧或右侧声道，而侧声道的取值很小，因为它等于左侧和右侧声道之间的差值。因此，可以看出当左侧和右侧声道近似相同时，差值大约为0，或仅为很小的值——正如所期望的——将被随后的量化器1014量化为0，这样可以被高效传输，因为量化器1014下行连接了熵编码器1016。

量化器1014通过心理声学模型1020在每比例因子频带上被加上了一个可接受的干扰。量化器以迭代的方式运行，即首先调用一个外部的迭代环，然后它将调用一个内部迭代环。通常来说，从量化器步长初始值开始，首先在量化器1014的输入端进行模块值量化。特别地，内部环量化的是MDCT系数，该过程中消耗了特定数目的比特。外部环采用比例因子计算系数的失真和改变的能量以再次调用内部环。该过程被重复直到满足特定的条件。在外部迭代环的每次迭代中，信号被重建以计算量化所引入的干扰，并将它与心理声学模型1020允许给出的干扰进行比较。另外，经比较后仍认为被干扰的频带的比例因子通过一步或多步迭代地被放大，更准确地，是对外部迭代环的每次迭代。

一旦达到某种情形，其中量化引入的量化干扰低于心理声学模型1020确定的可允许干扰，并且如果同时还满足比特要求，更准确地，即没有超过最大比特率，该迭代，即分析-合成方法被终止，并且得到的比例因子如模块1014中所示被编码，并以编码的形式被提供给比特流格式器1004，如模块1014和模块1004之间所画的箭头所标出的。然后量化的值被送入熵编码器1016，它采用几个霍夫曼编码表对各个比例因子频带进行熵编码，以将量化的值转译为二进制形式。如所公知的，霍夫曼编码形式的熵编码依赖于基于期望信号统计量而建立的编码表，其中，对经常出现的值给出的码文长度比更少出现的值要短。然后经熵编码的值作为实际的主要信息被提供给比特流格式器1004，它将编码的音频信号依照特定的比特流语法输出到输出端。

如已被阐明的，预测滤波被用于在TNS处理模块1010的编码框架中对量化噪声进行现时整形。

特别地，量化噪声的现时整形通过对频谱系数在频率上在量化之前的编码器中进行滤波以及随后在解码器中进行逆滤波来完成。TNS处理使得量化噪声的包络及时地被转换为低于信号的包络，以避免前回声干扰。TNS的应用源于滤波的预测增益的估计，如前所述。每个编码框架的滤波系数通过一个相关量度来确定。滤波系数的计算是对每个声道独立完成的。它们也在编码的比特流中被独立地传输。

TNS概念的激活/禁止是不利的，因为对每个立体声道TNS滤波是对每个声道独立进行的，一旦因为有好的预期编码增益而激活TNS处理。对相对不同的声道这还不成问题。但当左侧和右侧声道相对相似时，即如果左侧和右侧声道恰好具有相同的有用信息，在极端情况下，例如对扬声器，并且只是对声道中必然存在的噪声才不同，在现有技术中对每个声道仍只有其自己的TNS滤波器被计算并利用。既然TNS滤波器直接依赖于左侧和/或右侧声道，并且特别地，它相对敏感地对左侧和右侧声道的频谱数据作出反应，在左侧和右侧声道很相似的情况下，即在所谓的“准单声道信号”情况下，带有其本身预测滤波器的TNS处理也对每个声道进行。这将需要一个不同的现时噪声整形，同样对由于不同的滤波系数的双立体声道的情形也需要。

由于该效应会产生可听到的噪音，它是不利的，例如对原来是类单声道的声音通过这些时间差异而得到了不希望的立体声特征。

然而，该公知过程可能进一步会有更严重的缺陷。通过TNS处理，TNS的输出值，即频谱余值(residual values)被送入图3中的中/侧编码器1002中进行中/侧编码。虽然TNS处理前的两个声道仍相对地相等，TNS处理之后则不一定是这样。由于所描述的由独立的TNS处理产生的立体声效应，两个声道的频谱余值与其本来的情况相比而更不相同。这使得编码增益由于中/侧编码而立即减小，特别地，这对需要低比特率的应用尤其不利。

总之，已知的TNS激活对在两个声道中使用相似但不是完全相同的信号信息的立体声信号，如类单声道声音信号存在问题。在TNS检测中，只要对两个声道确定了不同的滤波系数，就会导致对声道中量化噪声不同的现时整形。这可能产生可听到的噪音，例如对原本是类单声道的声音通过这些时间差异而得到了不希望的立体声特征。另外，如前所述，TNS修正频谱在下一步将进行中/侧编码。两个声道中的不同的滤波器会进一步减小频谱系数的相似性，并因此减小中/侧增益。

DE 19829284C2公开了一种处理现时立体声信号的方法和设备，以及对使用频率预测进行编码的音频比特流进行解码的方法和设备。根据其实现方式，左侧、右侧及单声道可以在频率上自己被预测，即进行TNS处理。这样，对每个声道本身都可以进行完全预测。或者作为替代，在非完全预测中，可以对左侧声道的预测系数进行计算，然后再对右侧声道和单声道进行滤波。

本发明的目标是为实现更少的噪音但仍对信息有良好压缩的多声道信号处理提供一种概念。

该目标是通过权利要求1中处理多声道信号的设备，权利要求11中处理多声道信号的方法，或权利要求12中的计算机程序来实现的。

本发明基于以下发现：如果左侧和右侧声道相似，即超过相似度量度，则对两个声道应用相同的TNS滤波。这样可以保证TNS处理不会在多声道信号中引入伪立体声噪音，因为对两个声道使用相同的预测滤波器可以实现对两个声道进行相同的量化噪声现时整形，即不会产生可以听到的伪立体声噪音。

此外，它还可以保证信号不会变得比其本来的状况更不相似。TNS滤波后信号的相似度，即频谱余值的相似度，在这里对应了滤波器输入信号的相似度，并且不会像现有技术中一样使输入信号的相似度被不同的滤波器所降低。

这样，接下来的中/侧编码不会有比特流损失，因为信号没有变得比其本来的状况更不相似。

当然，通过对两个信号使用相同的预测滤波器会产生小的预测增益损失。然而该损失不会很大，因为仅当两个声道相似时才会对两个声道应用同步的TNS滤波。然而，该预测增益的小损失实际上很容易被中/侧增益平衡，因为TNS处理不会在左侧和右侧声道之间引入更多的会引起中/侧编码增益减少的不同。

下面将参照附图详细地描述本发明的优选实施例，其中：

图1是根据本发明处理多声道信号的设备的电路结构图，

图2示出了用于确定相似性的装置以及构成预测滤波器的装置的一个的优选实施例；以及

图3是根据AAC标准的一种已知的音频编码器的电路结构图。

图1示出了用于处理多声道信号的设备，其中多声道信号用一个频谱值模块表示，每个值针对至少两个声道，如L和R所示。每个声道的频谱值模块用MDCT滤波由时域采样l(t)和/或r(t)来确定，例如通过MDCT滤波器组10。

在本发明的一个优选实施例中，每个声道的频谱值模块然后被提供给一个用于确定两个声道间的相似度的装置12。或者作为替代，确定两个声道间相似度的装置也可以如图1中所示对每个声道采用时域采样l(t)或r(t)来执行。然而，最好是使用由滤波器组10获取的频谱值模块来确定相似度，因为滤波器组10中的滤波对它们产生的可能的影响相同。

用于确定第一和第二声道间相似度的装置12可基于相似性量度或不相似性量度在控制线14上被操作用来生成控制信号，该控制信号具有至少两种状态，一种表示两个声道中的频谱值模块相似，而另一状态表示两个声道中的频谱值模块不相似。最好可以用一个数字相似性量度来对相似或不相似哪个占上风进行判决。

每个声道的两个频谱值模块间的相似度有多种可能的确定方法，一种可能是计算互相关以生成一个值，然后将它与事先确定的相似度门限进行比较。其它相似性度量方法是公知的，接下来介绍一种优选的形式。

左侧声道频谱值模块和右侧声道频谱值模块都被提供给一个用于执行预测滤波的装置16。特别地，对频率进行预测滤波，其中，当相似度大于相似度门限时，对第一个声道的频谱值模块以及对第二个声道的频谱值模块使用一个共同的预测滤波器16a进行频率上的预测以形成该装置。然而，如果用于执行预测滤波的装置16由用于确定相似度的装置12告之每个声道的两个频谱值模块都不相似，则用于执行预测滤波的装置16将对左侧和右侧声道采用不同的滤波器16b。

这样，装置16的输出信号为输出端18a的左侧声道的频谱余值以及输出端18b的右侧声道的频谱余值，其中，根据左侧和右侧声道的相似度使用相同的预测滤波器(对16a的情形)或使用不同的预测滤波器(对16b的情形)来生成两个声道的频谱余值。

根据实际的编码器实现，左侧和右侧声道的频谱余值可以直接或经过如AAC标准规定的处理后送入中/侧立体声编码器，它在输出端21a输出的中信号为左侧和右侧声道之和的一半，而输出的侧信号为左侧和右侧声道差异的一半。

如前所述，之前如果声道间存在高度相似性，现在侧信号将小于不同的TNS滤波器用于相似声道的情形，这是由于两个声道TNS处理同步，这样提供了由于侧信号更小而产生更高的编码增益的可能。

随后，参照图2，将描述本发明的一个优选的实施例，其中，在用于确定相似度的装置12中第一级TNS计算已经执行，即计算Parcor和/或反射系数，以及左侧和右侧声道的预测增益，如模块12a、12b所示。

这样，该TNS处理为最后要使用的预测滤波器提供了滤波器系数并提供了预测增益，其中，也需要利用该预测增益来判断是否进行TNS处理。

第一个左侧声道的预测增益，如图2中PG1所标识的，被提供给如图2中12c所表示的用于确定相似性量度的装置，与右侧声道的预测增益一样，它在图2中被标识为PG2。该相似度确定装置可操作用来计算差异的绝对幅度或两个预测增益的相对差异，并判断它是否低于一个预定的偏差门限S。如果预测增益差别的绝对幅度低于门限S，表示两个信号相似，模块12c中的判断结果为“是”。然而如果发现该差异大于相似度门限S则该判断结果为“否”。对于该问题的肯定答案，在装置16中对两个声道L和R使用一个共同的滤波器，而对模块12c中的否定答案采用了分别独立的滤波器，即可采用现有技术进行TNS处理。

为此，左侧声道的滤波器系数集FKL和右侧声道的滤波器系数集FKR都从装置12a和/或12b被提供给装置16。

在本发明的一个优选的实施例中，在模块16c中进行特殊的选择以通过一个共同的滤波器进行滤波。在模块16c中，判定哪个声道具有更大的能量。如果确定左侧声道具有更高的能量，则通过装置12a对左侧声道计算得到的滤波器系数FKL被用于共同的滤波。然而，如果确定在模块16c中右侧声道具有更高的能量，则通过装置12b对右侧声道计算得到的滤波器系数FKR被用于共同的滤波。

如图2中所示，时间信号和频谱信号都可以用于确定能量。由于存在可能产生的转换噪音，它已经包含在频谱信号中，最好在模块16c中使用左侧和右侧声道的频谱信号进行“能量判决”。

在本发明的一个优选的实施例中，如果左侧和右侧声道的预测增益差异小于百分之三，则使用TNS同步，即对两个声道使用相同的滤波器系数。如果两个声道的差异大于百分之三，则图2中模块12c的判断为“否”。

如前所述，两个声道的预测增益在滤波中被比较——根据简单的或很少的需要大量计算量的相似度检测。如果预测增益的差异低于一个特定的门限，则对两个声道进行相同的TNS滤波以避免所述的问题。

另外，也可以进行两个独立计算的TNS滤波器的反射系数比较。

此外，也可以使用信号其它的细节特征进行相似度确定，使得当相似度确定后，只有用于两个立体声声道预测滤波的那个声道的TNS滤波系数集需要被计算。其优点在于，对图2当信号相似时，只有模块12a或模块12b被激活。

而且，本发明的思想还可用于进一步降低编码信号的比特率。虽然不同的TNS侧信息采用两个不同的反射系数进行传输，针对两个声道的TNS信息只需要在使用相同预测滤波器对两个声道的滤波中被传输一次。因此，通过本发明的思想，如果左侧和右侧声道相似时可以“节省”一组TNS侧信息从而实现比特率的降低。

本发明的思想基本上不限于立体声信号，还可以应用于多个不同声道对或超过2个声道的组这样的多声道环境中。

如所描述的，确定左侧和右侧声道间的互相关量度k或确定TNS预测增益以及TNS滤波器系数可以独立地对每个声道进行以确定相似度。

如果k超过了一个门限(如0.6)并且激活了MS立体声编码，则需进行同步判决。MS准则也可以省略。

对另一个声道将采用的TNS滤波器的参考声道判决将同步进行。例如，具有更大能量的声道被用作参考声道。特别地，TNS滤波器系数然后将从参考声道被复制到另一个声道中。

最后，对频谱应用同步或不同步的TNS滤波器。

或者作为替代，TNS预测增益和TNS滤波器系数的确定对每个声道单独进行。然后做出判决。如果两个声道的预测增益的差异不超过某量度，如3％，则进行同步。这里，如果声道的相似度可以假定，则参考声道也可以任意选择。这里，TNS滤波器系数也从参考声道被复制到另一个声道，由此对频谱应用了同步或不同步的TNS滤波器。

以下为另一种可能：原则上一个声道中的TNS是否被激活取决于该声道的预测增益。如果超过了某一门限，该声道的TNS被激活。或者，如果TNS只在两个声道中的一个被激活，则对两个声道也进行TNS同步。然后规定，例如预测增益是相似的，即一个声道刚好位于激活限度之上，一个声道刚好位于激活限度之下。通过该比较，然后可推导出对具有相同系数的两个声道的TNS的激活，或者也可能对两个声道进行禁止。

根据具体情况，本发明所述的用于多声道信号处理的方法可以用硬件或软件实现。该实现可能在数字存储介质上，尤其是软盘或CD，它带有电子可读控制信号，能够与可编程计算机系统协作以执行该方法。总之，本发明由此也可以存在于一个计算机程序产品中，当该计算机程序产品在计算机上运行时，其程序代码存储在机器可读载体上以执行本发明方法。换句话说，本发明由此也可以实现为计算机程序，当该计算机程序在计算机上被执行时，由程序代码执行本方法。

Claims

1.用于处理多声道信号的设备，其中所述多声道信号用频谱值模块表征，每个频谱值至少针对两个声道，包括：

用于确定两个声道中的第一个声道和两个声道中的第二个声道间的相似度的装置(12)，其中，用于确定的装置(12)被构造用来计算来自第一个声道的模块预测的第一个预测增益以及来自第二个声道的模块预测的第二个预测增益，或者第一个声道的第一个预测滤波器的第一个反射系数以及第二个声道的第二个预测滤波器的第二个反射系数，并利用第一个预测增益和第二个预测增益或者利用第一个反射系数和第二个反射系数来获取(12c)相似度；

用于执行预测滤波的装置(16)，其中该用于执行的装置被构造用来：

如果相似度大于一个相似度门限，对第一个声道的频谱值模块和第二个声道的频谱值模块使用一个共同的预测滤波器以进行预测滤波，或者

如果相似度小于一个相似度门限，使用两个不同的预测滤波器进行预测滤波。

2.根据权利要求1的设备，其中用于执行的装置(16)被构造用来输出作为预测结果的频谱余值，并且

其中该设备还包括：

用于当相似度大于一个相似度门限时对频谱余值或从频谱余值得到的第一个声道的值，以及频谱余值或从频谱余值得到的第二个声道的值进行联合编码的装置(20)。

3.根据权利要求2的设备，其中联合编码为中/侧编码。

4.根据权利要求3的设备，其中用于联合编码的装置(20)被构造用来根据第一个和第二个声道的和计算中信号，并且根据第一个和第二个声道的差异计算侧信号。

5.根据前述权利要求之一的设备，其中声道的频谱值模块表示该声道的短时频谱，或者其中频谱值模块包括用于多个子带的多个带通信号。

6.根据前述权利要求之一的设备，其中用于执行的装置(16)被构造用来进行TNS处理。

7.根据前述权利要求之一的设备，其中用于确定的装置(12)被构造用来计算第一个和第二个声道的互相关。

8.根据权利要求8的设备，其中用于执行的装置(16)被构造用来当第一个预测增益和第二个预测增益的差异小于或等于百分之三时使用单一的预测滤波器。

9.根据前述权利要求之一的设备，其中用于执行的装置(16)被构造用来使用一个预测滤波器作为共同的预测滤波器，该滤波器的系数从比其它频谱值模块包含更多能量的频谱值模块获得。

10.根据前述权利要求之一的设备，其中用于执行的装置(16)被构造用来进行自相关计算，以及在频谱值模块上使用Levinson-Durbin算法进行频率预测的LPC计算，以获取Parcor系数或反射系数以及预测增益，并且对带有Parcor系数的频谱值模块进行滤波以得到频谱余值。

11.用于处理多声道信号的方法，其中所述多声道信号用频谱值模块表示，每个频谱值针对至少两个声道，包括以下步骤：

确定(12)两个声道中的第一个声道和两个声道中的第二个声道间的相似度，

通过计算来自第一个声道的模块预测的第一个预测增益以及来自第二个声道的模块预测的第二个预测增益，以从第一个预测增益和第二个预测增益获取(12c)相似度，或者

通过计算第一个声道的第一个预测滤波器的第一个反射系数以及第二个声道的第二个预测滤波器的第二个反射系数，以使用第一个反射系数和第二个反射系数获取相似度；

如果相似度大于一个相似度门限，则对第一个声道的频谱值模块和第二个声道的频谱值模块使用一个共同的预测滤波器进行预测滤波，或者

如果相似度小于一个相似度门限，对第一个声道的频谱值模块和第二个声道的频谱值模块使用两个不同的预测滤波器进行预测滤波。

12.一种计算机程序，带有当该程序在计算机上执行时执行权利要求11所述多声道信号处理方法的程序代码。