CN101606192A

CN101606192A - 低复杂度参数化立体声解码器

Info

Publication number: CN101606192A
Application number: CNA2008800042401A
Authority: CN
Inventors: M·Z·斯克泽巴; E·G·P·舒伊杰斯; P·H·A·迪伦
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2007-02-06
Filing date: 2008-02-04
Publication date: 2009-12-16
Anticipated expiration: 2028-02-04
Also published as: JP2010518423A; US20100023335A1; WO2008096313A1; KR20090119843A; US8553891B2; CN101606192B; EP2118887A1; KR101370354B1; JP5554065B2

Abstract

本发明提供了一种具有低复杂度的立体声音频解码器。可以利用有限的计算能力获得高立体声声音质量，其因此适用于小型和移动设备。立体声解码器响应于包括信号参数(S1)和立体声相关的参数(X1)的参数化音频输入而生成一组立体声输出信道(C1，C2)。参数处理器(M)基于输入信号参数(S1)生成不同的两组参数(P1，P2)，从而通过改变或操纵对应于立体声相关的参数(X1)的信号参数(S1)来对信号参数(S1)进行上混。最后通过单独的信号合成器(SS1，SS2)来合成两个不同的参数(P1，P2)，从而形成相应的立体声输出信道(C1，C2)。由于可以在参数域而不是频谱域内执行所述立体声解码，因此与现有技术中已知的情况相比减轻了所需的计算负担。信号合成器(SS1，SS2)优选地是正弦合成器，并且解码器优选地还包括瞬态和噪声合成器，以便生成将被施加到立体声输出信道(C1，C2)的瞬态和噪声信号部分。此外，可以通过基于立体声相关的参数(X1)施加不同的增益来提供去到输出信道(C1，C2)的不同的瞬态和噪声信号部分。在优选的实施例中，例如借助于输入延迟线从当前的以及先前的信号参数输入确定这两个参数(P1，P2)。

Description

低复杂度参数化立体声解码器

技术领域

本发明涉及音频编码的领域。更具体来说，本发明涉及立体声音频编码，特别是本发明提供一种被设置成把参数化音频信号解码成立体声音频信号的音频解码器以及一种包括这种解码器的设备。本发明还提供一种解码方法以及被设置成执行这种方法的计算机可执行程序代码。

背景技术

正弦编码(SSC)是一种能够进行全带宽高质量音频编码的公知的参数化编码方案，例如参见[ISO/IEC 14496-3：2001/AMD2，“Information Technology-Generic Coding of Audiovisual Objects.Part 3：Audio.Amendment 2：High Quality Parametric Audio Coding(信息技术-视听对象的一般编码，第三部分：音频，第二修正案：高质量参数化音频编码)”]以及[Werner Oomen、Erik Schuijers、Bert denBrinker、Jeroen Breebaart的“Advances in Parametric Coding forHigh-Quality Audio(用于高质量音频的参数化编码中的进展)”，114^thAES Convention，Amsterdam，The Netherlands，March 22-252003，preprint 5852]。这种SSC编码方案把单信道或立体声音频信号剖割成多个对象，其中可以在低比特率下对每一个对象进行参数化并且对其进行高效编码。这三个对象是：瞬态(其代表时间域内的动态改变)、正弦(其代表确定性分量)以及噪声(其代表不具有明确的时间或频谱定位的分量)。在立体声音频信号的情况下，第四组参数是相关的，即描述两条立体声信道之间的关系的一组空间图像(spatial image)参数。

通常来说，在解码器侧，在频谱域内对音频信号的这种参数化立体声表示进行解码，例如参见[Jeroen Breebaart、Steven van de Par、Armin Kohlrausch、Erik Schuijers的“High-Quality Parametric SpatialAudio Coding at Low Bitrates(低比特率下的高质量参数化空间音频编码)”，116^th AES Convention，Berlin，Germany，May 8-11 2004，preprint 6072]。频谱域立体声表示常常涉及计算处理，比如快速傅里叶变换(FFT)或者到正交镜像滤波器(QMF)域的变换，例如参见[Erik Schuijers、Jeroen Breebaart、Heiko Purnhagen、Jonas

的“Low Complexity Parametric Stereo Coding(低复杂度参数化立体声编码)”，116^th AES Convention，Berlin，Germany，May 8-112004，preprint 6073]。为了降低SSC解码器复杂度，可以在频谱域内直接合成所述正弦分量。但是在频谱域内只能高效地合成正弦分量。把其他分量(即瞬态和噪声)变换到频谱域需要进行大量计算工作。

还知道仅仅把作为正弦分量的和的时间信号变换到频谱域，并且随后在频谱域内仅仅对正弦部分执行立体声去相关处理。随后把从这一处理得到的立体声频谱域表示施加到对应于每一条信道的单独的合成滤波器组，以便得到时域立体声正弦部分。最后在时域内把噪声和瞬态分量添加到立体声正弦部分上。但是这种解决方案具有感知缺陷，即噪声和瞬态声音在声像中听起来“突出”，并且频谱域内的立体声去相关处理仍然是需要大量计算的复杂处理。

总而言之，已知的立体声解码方法不适用于其中只有有限的信号处理容量可用的设备，比如移动设备和小型设备。

发明内容

根据上述内容可以看出，本发明的一个目的是提供一种能够以低复杂度解码立体声(即双信道)音频信号的音频解码器，从而降低执行解码所需的计算能力。

该目的是通过本发明的第一方面而实现的，根据本发明的第一方面，提供一种用于响应于参数化音频表示生成第一和第二音频信道的音频解码器，其中所述参数化音频表示至少包括一组信号参数和一个空间图像参数，所述解码器包括：

参数处理单元，其被设置成基于该组信号参数生成第一和第二组参数，其中参数处理单元被设置成基于空间图像参数生成第一与第二组参数之间的差；

第一信号合成器，其被设置成根据第一组参数生成第一音频信道；以及

第二信号合成器，其被设置成根据第二组参数生成第二音频信道。

因此，根据第一方面，通过为各单独的立体声信道提供独立的信号合成器或发生器(优选地是独立的正弦合成器)而降低了计算复杂度，其中为这些信号合成器提供来自参数处理单元的单独的第一和第二组信号参数，其中这些第一和第二组信号参数优选地是在参数域内准备的，即通过操纵或改变输入信号参数组中的一个或多个分量以便产生对应于输入空间图像数据中的立体声信息的第一和第二组信号参数。这样就有可能提供具有非常低复杂度的解码器实施例，这是因为可以在不涉及到例如在现有技术中所需的计算复杂的频谱域变换的情况下执行，从而在上混(up-mixing)中仅仅需要简单的参数操纵。

第一和第二信号合成器优选地是相同类型的合成器，例如完全相同类型的合成器并且优选地是完全相同的合成器。

第一和第二信号合成器可以包括正弦、瞬态类型或噪声类型合成器。但是，参数处理单元优选地被设置成生成被施加到优选地完全相同的第一和第二信号合成器的第一和第二组正弦参数。在一个基本的解码器实施例中，第一和第二信号合成器是相应的完全相同的正弦合成器，其取得各组频率、幅度和相位以作为参数。

参数处理单元可以基于以下各项的至少其中之一生成第一与第二组参数之间的差：信道间相关参数、信道间强度差参数、信道间相位以及信道间时间差参数，优选地，在对该组信号参数执行上混时考虑这些参数当中的两项或更多项。

在其中第一和第二信号合成器包括相应的第一和第二正弦合成器的实施例中，参数处理单元可以被设置成生成第一和第二组正弦参数，其中这两组正弦参数当中的至少一个(优选地更多)正弦分量在以下各方面当中的至少一方面(优选地更多)不同：幅度、频率和相位。

解码器可以包括值发生器，其包括低频振荡器和随机数发生器的至少其中之一。参数处理单元基于接收自该值发生器的值，利用该值发生器在第一与第二组参数之间引入差。

解码器优选地包括延迟单元，其被设置成生成该组信号参数当中的至少一个信号参数的延迟版本。参数处理单元随后基于该组信号参数当中的该至少一个信号参数以及该至少一个信号参数的延迟版本生成第一和第二组参数。这优选地是按照以下方式来进行的：参数处理单元基于该组信号参数当中的该至少一个信号参数执行第一上混，从而形成第一中间立体声参数组。接下来，基于该至少一个信号参数的延迟版本执行第二上混，从而形成第二中间立体声参数组。最后，把第一和第二中间立体声参数组进行组合以形成第一和第二组参数。延迟单元可以被设置成提供可变延迟，可变延迟例如可以是第一和第二组参数其中之一当中的至少一个参数分量的函数。

参数处理单元可以被设置成根据空间图像参数改变(例如缩放)第一和第二组参数的其中之一的至少一个正弦分量的以下各项的至少其中之一：幅度、频率和相位。参数处理单元可以被设置成施加以下各项的至少其中之一：第一和第二组参数的正弦分量的幅度增益、相移以及频移。

基于对应于每一条立体声信道的单独的正弦合成器的解码器实施例还可以包括噪声合成器和/或瞬态合成器，其被设置成基于参数化音频表示中的相应的噪声和瞬态参数生成相应的噪声和瞬态信号，并且其中，噪声和瞬态信号被施加到第一和第二音频信道。优选地，在时间域内把噪声和瞬态信号与第一和第二正弦合成器的输出相组合。

包括瞬态合成器的解码器实施例还可以包括增益计算单元，其被设置成对瞬态信号施加不同的增益，以便生成将被施加到相应的第一和第二音频信道的不同的第一和第二瞬态信号部分。同样地，具有噪声合成器的解码器实施例还可以包括增益计算单元，其被设置成对噪声信号施加不同的增益，以便生成将被施加到相应的第一和第二音频信道的不同的第一和第二噪声信号部分。

具有噪声合成器的实施例还可以包括第二噪声合成器，其被设置成基于参数化音频表示中的噪声参数生成第二噪声信号。该第二噪声合成器于是被设置成生成与由第一噪声合成器所生成的噪声信号实质上不相关的噪声信号，并且第一和第二噪声信号被混合以形成将被施加到相应的第一和第二音频信道的第一和第二噪声信号部分。

具有噪声合成器的实施例还可以包括低频噪声发生器，其被设置成生成低频噪声。随后把该低频噪声与由噪声合成器生成的噪声信号相乘，从而生成与由噪声合成器所生成的第一噪声信号实质上不相关的第二噪声信号，并且第一和第二噪声信号被混合以形成将被施加到相应的第一和第二音频信道的第一和第二噪声信号部分。

优选地，解码器被设置成对于输入参数化音频表示的每一帧更新第一和第二组参数。

本发明在第二方面提供一种包括根据第一方面的音频解码器的设备。该设备可以是任何类型的电子设备，包括诸如视听电子设备之类的娱乐电子装置，并且如上所述，解码器还适用于移动设备。解码器适用于以下领域内的或者与以下领域有关的设备：参数化解码器、MPEG4参数化音频、音乐合成器、移动设备、铃声音调、游戏设备、便携式播放器(例如固态音频)。应当认识到，关于第一方面所提到的相同优点和相同实施例同样适用于第二方面。

本发明在第三方面提供一种响应于参数化音频表示生成第一和第二音频信道的方法，其中所述参数化音频表示至少包括一组信号参数和一个空间图像参数，所述方法包括：

基于该组信号参数生成第一和第二组参数，其中基于空间图像参数生成第一与第二组参数之间的差；

通过合成第一组参数生成第一音频信道；以及

通过合成第二组参数生成第二音频信道。

应当认识到，关于第一方面所提到的相同优点和相同实施例同样适用于第三方面。

本发明在第四方面提供一种计算机可执行程序代码，其适于执行根据第三方面的方法。这种程序代码原理上可以在专用信号处理器或通用计算硬件上执行。应当认识到，关于第一方面所提到的相同优点和相同实施例同样适用于第三方面。

本发明在第五方面提供一种数据载体或计算机可读存储介质，其包括根据第四方面的计算机可执行程序代码。存储介质的非穷举性列表包括：记忆棒、存储卡(其可以是基于盘的，例如CD、DVD或基于蓝光的盘)或者硬盘(例如便携式硬盘)。应当认识到，关于第一方面所提到的相同优点和相同实施例同样适用于第五方面。

应当认识到，关于第一方面所提到的任一个子方面都可以分别与任何其他方面相组合。

附图说明

下面将通过举例的方式参照附图来解释本发明，其中：

图1示出了根据本发明的基本立体声音频解码器；

图2示出了另一个基本立体声音频解码器实施例；

图3示出了一个立体声音频解码器实施例，其被设置成对同时具有正弦、瞬态和噪声分量的参数化信号进行解码；

图4示出了另一个立体声音频解码器实施例，其被设置成对同时具有正弦、瞬态和噪声分量的参数化信号进行解码；

图5示出了又一个立体声音频解码器实施例，其被设置成对同时具有正弦、瞬态和噪声分量的参数化信号进行解码；

图6示出了再一个立体声音频解码器实施例，其被设置成对同时具有正弦、瞬态和噪声分量的参数化信号进行解码；以及

图7示出了一种用于接收代表参数化音频信号的数字比特流并且将该信号解码成两条音频信道的设备。

具体实施方式

下面将参照在图1-5中示出的信号方框图描述五个解码器实施例。在所有附图中，解码器都由虚线框表示。

图1示出了一个基本立体声音频解码器实施例以说明本发明的原理。该解码器实施例取得参数化音频表示的帧流S1、X1作为输入，该帧流对于每一帧包括一组信号参数S1和至少一个空间图像参数X1。特别地，信号参数S1包括对于一组正弦分量的表示，对于每一个分量例如包括描述频率、幅度和相位的值，或者至少信号参数S1包括可以从中导出这种值的表示。空间图像参数X1可以包括以下各项当中的一项或多项：1)信道间互相关(ICC)参数，其描述立体声信道之间的互相关或相干性；2)信道间强度差(IID)参数，其描述立体声信道之间的强度差；3)信道间相位差(IPD)或时间差参数；以及4)总体相位差(OPD)参数，其描述相位差如何分布在立体声信道之间，例如参见[Heiko Purnhagen的“Low Complexity Parametric StereoCoding in MPEG-4(MPEG-4中的低复杂度参数化立体声编码)”，Proc.Of the 7^th International Conference on Digital Audio Effects(DAFx’04)，Naples，Italy，October 5-8，2004]。

正弦参数S1和空间图像参数X1被施加到参数处理单元P，其利用空间图像参数X1形成对单信道正弦参数数据S1的上混，从而得到两个单独的正弦参数组P1和P2，所述两个单独的正弦参数组P1和P2被施加到单独的正弦合成器SS1、SS2。这些正弦合成器SS1、SS2根据单独的参数组P1、P2生成单独的音频帧，并且这些单独的音频帧形成相应的第一和第二音频信道C1、C2。

可以按照本领域内已知的那样执行参数处理单元P中的上混处理。但是，优选的是参数处理单元P通过施加空间图像参数X1直接对单信道正弦参数组执行上混，从而得到立体声正弦参数组P1、P2。实质上可以从输入正弦参数的拷贝生成正弦参数组P1和P2，其中通过根据空间图像参数X1对于一个或多个正弦分量改变或操纵幅度、频率和相位当中的一项或多项来获得信道差异。可以仅仅对于一条信道或者对于全部两条信道的参数执行该改变或操纵。

因此，根据上述内容，利用对输入参数的简单处理执行立体声合成，并且能够避免对计算有要求的频谱域变换。因此，这种立体声音频解码器适于应用在移动和小型设备中。

下面将说明基于空间图像参数X1的根据现有技术的具体上混处理，其中空间图像参数X1包括如上所述的IIC和IID值。可以对于每个频带指定这些IIC和IID值，其中频率刻度是心理声学相关的，即Bark或ERB类的频率刻度。

于是可以根据下式重建立体声信号

(1)

[\begin{matrix} {\hat{L}}_{k, i} \\ {\hat{R}}_{k, i} \end{matrix}] = H_{k, i} [\begin{matrix} M_{k, i} \\ D_{k, i} \end{matrix}],

其中

(2)

H = [\begin{matrix} c_{L} \cos (β + α) & c_{L} \sin (β + α) \\ c_{R} \cos (β - α) & c_{R} \sin (β - α) \end{matrix}]

是上混矩阵，其中

(3)

c = 10^{\frac{IID}{20}},

c_{L} = \frac{\sqrt{2} c}{\sqrt{1 + c^{2}}},

c_{R} = \frac{\sqrt{2}}{\sqrt{1 + c^{2}}},

以及

(4)

α = \frac{\arccos (ICC)}{2},

以及

(5)

β = \arctan (\tan (α) \frac{c_{R} - c_{L}}{c_{R} + c_{L}})

其可以被近似为：

(6)

β = α \frac{c_{R} - c_{L}}{\sqrt{2}}

M是已解码单信道信号，并且D是其去相关的版本。去相关的信号优选地是借助于适当的全通滤波器生成的，并且优选地具有与已解码单信道信号类似的频谱和时间能量分布。

优选地，解码器取得S1、X1的一个输入帧，并且作为响应输出表示该输入帧的对应的输出信道C1、C2。

图2示出了上面参照图1描述的基本解码器的一个扩展版本。图2的解码器包括延迟单元D，其接收信号参数表示S1(即包括一组正弦参数)。该信号参数表示S1被施加到例如在上面关于图1描述的参数处理单元P。但是，延迟单元D把信号参数表示S1的附加的延迟版本施加到到参数处理单元P。因此，在特定时间处，当前的正弦参数S1连同对应于先前时间处的输入参数(例如对应于先前帧的参数)的正弦参数的延迟版本S1d都可用。基于空间图像参数X1，参数处理单元P同时操纵全部两个正弦参数组S1和S1d，从而得到总共四组正弦参数，即全部基于相同的空间图像参数X1的两个单独的立体声正弦参数组。因此，对于每一条信道有两组参数可用。针对相应的立体声信道的这两组正弦参数随后被组合以形成第一和第二组参数P1、P2，以供在相应的正弦合成器SS1、SS2中进行合成，该相应的正弦合成器生成用于相应的输出信道C1、C2的信号。

图3-6示出了四个不同的立体声音频解码器实施例，其被设置成取得参数化音频表示以作为输入，其中各组信号参数包括由对应于两条输出信道C1、C2当中的每一条的单独的正弦合成器SS1、SS2、瞬态合成器TS、一个或两个噪声合成器NS、NS1、NS2以及低频噪声发生器LFN独立地合成的正弦参数S1、瞬态参数T1、噪声参数N1。瞬态参数T1优选地包括由时间包络和底层周期性参数所表示的分量。对应于瞬态的周期性参数通常是正弦参数，即频率、幅度和相位。噪声参数N1优选地包括由频谱和时间包络所表示的分量。

来自两个正弦合成器SS1、SS2、瞬态合成器TS、噪声合成器NS、NS1、NS2以及低频噪声发生器LFN的输出最后被组合以形成两条音频信道。此外，三个解码器都取得同样如上面所描述的一个或多个空间图像参数X1以作为输入，并且在全部四个实施例中，解码器都包括增益计算单元GC，其被设置成接收空间图像参数X1并且相应地输出一组增益。下面将对于每一个实施例描述增益计算单元GC的更加详细的功能。在一个实施例中，参数处理单元P被直接表示，而在两个实施例中，该单元被分成延迟单元D和上混矩阵M。

最后，在全部的图3-6中，“+”表示相加点的加法单元，而“x”则表示乘法器或相乘点。

图3示出了一个实施例，其包括具有与关于图1所描述的相同功能的相同部件P、SS1、SS2。由相应的瞬态合成器TS和噪声合成器NS所生成的单信道瞬态信号和单信道噪声信号关于在增益计算单元GC中从空间图像参数X1导出的增益参数被分布在两条输出信道C1、C2之间。单独的增益值可以被分别用于噪声和瞬态，但是为了进一步简化，相同增益可以既用于噪声也用于瞬态。在所示出的实施例中，在被施加对应于每一条信道的增益之前，噪声和瞬态信号被相加成组合的噪声和瞬态信号，从而把相同的增益施加到噪声和瞬态信号部分。优选地，噪声合成器NS采用频率卷曲(Laguerre)滤波器。

可替换地，也有可能关于其频率以及特定频带内的适当IID和/或ICC值来分布瞬态分量，正如下面将对于正弦分量所描述的那样。

在图3的实施例中，参数处理单元P包括关于立体声参数改变输入参数组S1中的正弦分量的原始频率、幅度和相位参数。特别优选的是，关于与正弦分量所属的特定频带相关联的输入立体声参数改变分量的正弦参数。更具体来说，提出以下几点：1)关于IID参数改变正弦分量的幅度；2)关于ICC参数值和/或内建在解码器中的低频振荡器(LFO)的当前值改变正弦分量的频率；以及3)关于ICC参数、正弦分量的频率以及内建在解码器中的低频振荡器(LFO)的当前值改变正弦分量的相位。

在图3的实施例中，通过把适当的相位和频率偏移与低频振荡器相组合来仿真去相关的信号D(参考等式(1)-(6))。但是也有可能使用没有低频振荡器的实施例，其中关于ICC参数值和分量频率改变正弦分量的相位。还可以使用随机数发生器作为对低频振荡器单元的补充或替换。

为了利用针对低于近似2kHz的频率的相位调节精确地再现所发送的ICC值，很重要的是在感知相关(ERB)频带内的总体(加权)平均相位旋转基本上接进零，否则IPD提示实际上将被合成，从而导致不同的空间图像。但是这对于最低的感知相关频带来说很难实现，因为对应于这些频带的带宽通常仅允许存在很少的几个正弦分量。因此，在一个替换实施例中，对于处在非常低的频率下的分量只进行很小的频率调节，以便确保两条立体声信道之间的适当的去相关，而对于处在高频下的分量则只进行相位调节。

图4示出了另一个立体声音频解码器实施例，其中通过使用来自过去的(子)帧的正弦参数来执行立体声去相关，这是通过按照与关于图2所描述的类似的方式引入延迟单元D以便把正弦输入参数组S1的延迟版本提供到上混单元M而实现的。在借助于增益计算单元GC把来自噪声和瞬态合成器NS、TS的噪声和瞬态信号分量分布到输出信道C1、C2方面，关于图3所描述的功能也适用于图4的实施例。

优选地，延迟单元D包括延迟线，其被用来为上混单元M提供过去的正弦参数。延迟线的长度可以是固定的或者是可变的。特别地，延迟时间可以是正弦分量频率的函数。正弦分量的原始频率、幅度和相位参数被使用以便形成去相关的分量。对应于单信道信号和经过延迟的单信道信号的正弦参数都被提供到参数上混单元M。上混单元M根据所提供的空间图像参数X1缩放原始正弦分量和经过延迟的正弦分量的幅度。可以实施下面的规则：1)关于与原始正弦分量的频率相关的IID(和ICC)参数的值，对于输出信道C1、C2的其中之一改变该特定分量的幅度；2)关于与经过延迟的正弦分量的频率相关的IID和ICC参数的值，对于全部两条输出信道改变该特定分量的幅度；以及3)反转对应于其中一条输出信道的经过延迟的正弦分量的相位(即改变180度)。

更具体来说，可以仅仅关于ICC参数改变经过延迟的正弦分量的幅度，而不考虑IID参数值。

基于固定长度延迟的优选解决方案不提供全通去相关滤波器特性。这种特性如果被施加到由连续频谱表征的信号则将导致信号着色。但是由于固定长度延迟仅仅被施加到静态正弦分量，因此着色效应对信号质量没有负面影响。

图5示出了又一个立体声音频解码器实施例，其是图4的实施例的扩展形式，因此上面的解释同样适用于图5的实施例。

图5的实施例的扩展在于其中包括了更加先进的噪声合成，以便提供更好的立体声成像。从图中可以看出包括两个噪声合成器NS1、NS2，并且全部两个噪声合成器NS1、NS2都接收相同的输入噪声参数N1。但是噪声合成器NS1、NS2的不同之处仅仅在于，其内部生成的源信号是不相关的，源信号通常是借助于以不同的种子开始的独立的随机发生器而产生的。两个合成器NS1、NS2中的后续处理(时间包络、Laguerre频率噪声整形)是完全相同的，因此它们生成相应的第一和第二不相关噪声信号n1、n2。虽然两个噪声合成器NS1、NS2的操作基本上是相同的，但是一个噪声合成器NS1输出的噪声信号n1充当“单信道”噪声，而来自另一个噪声合成器NS2的输出噪声信号n2则充当用于立体声上混的“去相关”噪声。

在该实施例中，增益计算单元GC(从所述参数化空间图像参数X1)计算对应于瞬态信号以及对应于其中任一个或全部两个噪声合成器输出信号n1、n2的单独的摇摄(panning)增益。在把所提到的信号加到两条输出信道C1、C2上之前施加这些摇摄增益。因此，从图中可以看出，两个噪声信号n1、n2对全部两个输出信号C1、C2都有贡献。

通常通过在等式(2)到(6)中进行以下代入来计算对应于来自瞬态合成器TS的瞬态信号的摇摄增益：1)对于IID代入各参数化立体声频带上的各单独的IID值的(不加权或加权)平均值；以及2)对于ICC代入值“1”(这意味着总是完全相关的瞬态信号)。这意味着α＝β＝0，并且矩阵H降阶成：

(7)

H = [\begin{matrix} c_{L} & 0 \\ c_{R} & 0 \end{matrix}]

因此，瞬态摇摄增益分别等于c_L和c_R。

通常通过在等式(2)到(6)中进行以下代入来计算对应于来自噪声合成器NS1、NS2的“单信道”和“去相关”噪声信号n1、n2的增益：1)对于IID代入各参数化立体声频带上的各单独的IID值的(不加权或加权)平均值；以及2)对于ICC代入各参数化立体声频带上的各单独的ICC值的(不加权或加权)平均值。因此，增益因数由所得到的矩阵H定义，并且立体声噪声贡献变成：

(8)

[\begin{matrix} {\hat{L}}_{noise} \\ {\hat{R}}_{noise} \end{matrix}] = H [\begin{matrix} M_{noise} \\ D_{noise} \end{matrix}]

其中M_noise和D_noise分别等于“单信道”和“去相关”噪声合成器输出信号n1、n2。

在图5的实施例中，对应于瞬态和噪声信号n1、n2的摇摄增益优选地是不同的。

应当注意到，出于说明的简便性，来自图5和6上的增益计算单元GC的增益由来自框GC的单一输出线表示。但是应当认识到，图5和6的增益计算单元可以为所有相乘点生成不同的增益，有些或者甚至所有增益可以具有相同的值。

图6示出了再一个立体声音频解码器实施例，其是图5的实施例的一个变型，因此上面的解释大部分同样适用于图6的实施例。图6的实施例的变化在于其中包括了更加高效的噪声合成，以便提供较低的解码器复杂度。从图6中可以看出，其中包括了噪声合成器NS和低频噪声发生器LFN。只有噪声合成器NS接收输入噪声参数N1。随后把由噪声合成器NS生成的噪声信号n1乘以由低频噪声发生器产生的低频噪声信号lfn，以便产生第二噪声信号n2，其与第一噪声信号n1基本上不相关，但是在频谱形状和时间包络方面近似于噪声信号n1。同样地，噪声信号n1充当“单信道”噪声，而噪声信号n2则充当用于立体声上混的“去相关”噪声。由于低频噪声发生器的计算复杂度通常低于单一噪声合成器中所需的处理(时间包络、Laguerre频率噪声整形)，因此这种变型导致复杂度降低。

图7示出了设备DV，其例如是移动DVD或MP3播放器之类的移动或小型设备，或者是移动电话或游戏设备。设备DV被设置成接收数字比特流BS，其中包括参数化表示中的已编码立体声音频信号。该参数化表示被提供到根据本发明(从而是根据上面的描述)的立体声音频解码器AD。在某些实施例中，立体声音频解码器AD被设置成提供数字立体声PCM输出信号，并且该输出信号随后被施加到数字-模拟转换器，其输出由放大器放大的模拟立体声信号，从而得到一组两条输出信道O1、O2，所述输出信道可以被施加到一组立体声耳机或立体声扬声器。

总而言之，本发明提供了一种具有低复杂度的立体声音频解码器。其可以利用有限的计算能力获得高立体声声音质量，从而适用于小型和移动设备。立体声解码器响应于包括信号参数(S1)和立体声相关的参数(X1)的参数化音频输入而生成一组立体声输出信道(C1，C2)。参数处理器(M)基于输入信号参数(S1)生成不同的两组参数(P1，P2)，从而通过改变或操纵对应于立体声相关的参数(X1)的信号参数(S1)来对信号参数(S1)进行上混。最后通过单独的信号合成器(SS1，SS2)来合成两个不同的参数(P1，P2)，从而形成相应的立体声输出信道(C1，C2)。由于可以在参数域而不是频谱域内执行立体声解码，因此与现有技术中已知的情况相比减轻了所需的计算负担。信号合成器(SS1，SS2)优选地是正弦合成器，并且解码器优选地还包括瞬态和噪声合成器，以便生成将被施加到立体声输出信道(C1，C2)的瞬态和噪声信号部分。此外，可以通过基于立体声相关的参数(X1)施加不同的增益来提供去到输出信道(C1，C2)的不同的瞬态和噪声信号部分。在优选的实施例中，例如借助于输入延迟线从当前的以及先前的信号参数输入确定两个参数(P1，P2)。

虽然结合所指定的实施例描述了本发明，但是不应当把本发明限制于这里所阐述的具体形式。相反，本发明的范围仅由所附权利要求书限定。在权利要求书中，“包括”一词不排除其他元件或步骤的存在。此外，虽然各单独的特征可以被包括在不同的权利要求中，但是也可以有利地组合这些特征，并且被包括在不同权利要求中并不意味着特征组合不是可行的和/或有利的。此外，所提到的单数情况并不排除复数情况。因此，“一个”、“第一”、“第二”等提法并不排除多个。此外，权利要求中附图标记不应被理解为限制其范围。

Claims

1、用于响应于参数化音频表示生成第一和第二音频信道(C1，C2)的音频解码器，其中所述参数化音频表示至少包括一组信号参数(S1)和一个空间图像参数(X1)，所述解码器包括：

参数处理单元(P)，其被设置成基于该组信号参数(S1)生成第一和第二组参数(P1，P2)，其中所述参数处理单元(P)被设置成基于所述空间图像参数(X1)生成第一与第二组参数(P1，P2)之间的差；

第一信号合成器(SS1)，其被设置成根据第一组参数(P1)生成第一音频信道(C1)；以及

第二信号合成器(SS2)，其被设置成根据第二组参数(P2)生成第二音频信道(C2)。

2、根据权利要求1的音频解码器，其中，第一和第二信号合成器(SS1，SS2)是相同类型的合成器。

3、根据权利要求1的音频解码器，其中，参数处理单元(P)基于以下各项的至少其中之一生成第一与第二组参数(P1，P2)之间的差：信道间相关参数、信道间强度差参数、信道间相位以及信道间时间差参数。

4、根据权利要求2的音频解码器，其中，参数处理单元(P)被设置成生成第一和第二组正弦参数(P1，P2)，并且其中第一和第二信号合成器(SS1，SS2)包括相应的第一和第二正弦合成器。

5、根据权利要求2的音频解码器，其中，参数处理单元(P)被设置成生成第一和第二组正弦参数(P1，P2)，其中两组正弦参数(P1，P2)当中的至少一个正弦分量在以下各方面当中的至少一方面不同：幅度、频率和相位。

6、根据权利要求1的音频解码器，还包括值发生器，所述值发生器包括低频振荡器和随机数发生器的至少其中之一，其中参数处理单元(P)基于从该值发生器接收的值引入第一与第二组参数(P1，P2)之间的差。

7、根据权利要求1的音频解码器，还包括延迟单元(D)，所述延迟单元被设置成生成该组信号参数(S1)当中的至少一个信号参数的延迟版本(S1d)，并且其中参数处理单元(P)基于该组信号参数(S1)当中的该至少一个信号参数以及该至少一个信号参数的延迟版本(S1d)生成第一和第二组参数(P1，P2)。

8、根据权利要求7的音频解码器，其中，参数处理单元(P)基于该组信号参数(S1)当中的所述至少一个信号参数执行第一上混，从而形成第一中间立体声参数组，并且基于至少一个信号参数的延迟版本(S1d)执行第二上混，从而形成第二中间立体声参数组，并且其中把第一和第二中间立体声参数组组合以形成第一和第二组参数(P1，P2)。

9、根据权利要求7的音频解码器，其中，延迟单元(D)被设置成提供可变延迟。

10、根据权利要求9的音频解码器，其中，可变延迟是第一和第二组参数(P1，P2)的其中之一当中的至少一个参数分量的函数。

11、根据权利要求4的音频解码器，其中，参数处理单元(P)还被设置成根据空间图像参数(X1)改变第一和第二组参数(P1，P2)的其中之一的至少一个正弦分量的以下各项的至少其中之一：幅度、频率和相位。

12、根据权利要求4的音频解码器，其中，参数处理单元(P)还被设置成施加以下各项的至少其中之一：第一和第二组参数(P1，P2)的正弦分量的幅度增益、相移以及频移。

13、根据权利要求4的音频解码器，其还包括瞬态合成器(TS)和噪声合成器(NS)，该瞬态合成器(TS)和噪声合成器(NS)被设置成基于参数化音频表示中的相应的瞬态参数(T1)和噪声参数(N1)生成相应的瞬态和噪声信号，并且其中把该瞬态和噪声信号与第一和第二音频信道(C1，C2)相组合。

14、根据权利要求13的音频解码器，其还包括增益计算单元(GC)，该增益计算单元(GC)被设置成对瞬态信号施加不同的增益，以便生成将被施加到相应的第一和第二音频信道(C1，C2)的不同的第一和第二瞬态信号部分。

15、根据权利要求13的音频解码器，其还包括增益计算单元(GC)，该增益计算单元(GC)被设置成对噪声信号施加不同的增益，以便生成将被施加到相应的第一和第二音频信道(C1，C2)的不同的第一和第二噪声信号部分。

16、根据权利要求13的音频解码器，其还包括第二噪声合成器(NS2)，该第二噪声合成器(NS2)被设置成基于参数化音频表示中的噪声参数(N1)生成第二噪声信号(n2)，其中该第二噪声合成器(NS2)被设置成生成与由第一噪声合成器(NS1)所生成的噪声信号(n1)实质上不相关的噪声信号(n2)，并且其中第一和第二噪声信号(n1，n2)被混合以形成将被施加到相应的第一和第二音频信道(C1，C2)的第一和第二噪声信号部分。

17、根据权利要求13的音频解码器，其还包括低频噪声发生器(LFN)，该低频噪声发生器(LFN)被设置成生成低频噪声(lfn)，其中把由噪声合成器(NS)生成的噪声信号(n1)与低频噪声(lfn)相乘，从而生成与由噪声合成器(NS)所生成的噪声信号(n1)实质上不相关的第二噪声信号(n2)，并且其中第一和第二噪声信号(n1，n2)被混合以形成将被施加到相应的第一和第二音频信道(C1，C2)的第一和第二噪声信号部分。

18、根据权利要求1的音频解码器，其中，解码器被设置成对于参数化音频表示的每一帧更新第一和第二组参数(P1，P2)。

19、一种包括根据任一条在前权利要求的音频解码器(AD)的设备(DV)。

20、一种响应于参数化音频表示生成第一和第二音频信道的方法，其中所述参数化音频表示至少包括一组信号参数和一个空间图像参数，所述方法包括：

通过合成第一组参数生成第一音频信道；以及

通过合成第二组参数生成第二音频信道。

21、根据权利要求20的方法，其中，通过相同类型的合成来生成第一和第二音频信道。

22、根据权利要求20的方法，其中，第一和第二组参数包括正弦参数，并且其中对第一和第二组参数的合成包括正弦合成。

23、被设置成执行根据权利要求20的方法的计算机可执行程序代码。

24、包括代表根据权利要求23的计算机可执行程序代码的数据的数据载体。