CN101543098B

CN101543098B - 产生输出信号的去相关器和方法以及产生多声道输出信号的音频解码器

Info

Publication number: CN101543098B
Application number: CN2008800005968A
Authority: CN
Inventors: 于尔根·赫勒; 卡斯滕·林茨迈尔; 哈拉尔德·波普; 珍·普洛斯提斯; 哈拉尔德·蒙特; 萨沙·迪施
Original assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Priority date: 2007-04-17
Filing date: 2008-04-14
Publication date: 2012-09-05
Anticipated expiration: 2028-04-14
Also published as: EP2036400A1; KR20090076939A; TWI388224B; ZA200900801B; ATE452514T1; RU2009116268A; RU2411693C2; CA2664312C; IL196890A0; JP4682262B2; DE502008000252D1; KR101104578B1; DE102007018032A1; MY145952A; US20090326959A1; HK1124468A1; EP2036400B1; WO2008125322A1; DE102007018032B4; US8145499B2

Abstract

在瞬态音频输入信号的情况下，在多声道音频重建中，从音频输入信号中产生不相关的输出信号，其中音频输入信号与该音频输入信号延迟了延迟时间后的表示相混合，使得在第一时间间隔中，第一输出信号对应于音频输入信号，而第二输出信号对应于音频输入信号的延迟表示，其中，在第二时间间隔中，第一输出信号对应于音频输入信号的延迟表示，而第二输出信号对应于音频输入信号。

Description

产生输出信号的去相关器和方法以及产生多声道输出信号的音频解码器

技术领域

本发明涉及一种产生去相关信号的装置和方法，具体地，涉及从包含瞬态现象的信号中导出去相关信号以重建四声道音频信号的能力，和/或去相关信号与瞬态信号的未来组合不会导致任何可听信号的恶化。

背景技术

音频信号处理领域中的多种应用需要基于所提供的音频输入信号而产生去相关信号。作为示例，可以提出单声道(mono)信号的立体声上混音(upmix)、基于单声道或立体声信号的四声道上混音、人造回响(reverberation)的产生或是立体声基本成分(basis)的加宽。

当面对特殊类别的信号时(例如像喝彩的信号)，当前的方法和/或系统在质量和/或可感知声音印象方面遭受很大程度的恶化，尤其是当通过耳机实现重放时。除了这些，标准去相关器所使用的方法表现出高度复杂性和/或高昂的计算开销。

为了强调该问题，图7和8示出了去相关器在信号处理中的应用。这里，简要参考图7中所示的单声道至立体声解码器。

该解码器包括标准去相关器10和混音矩阵12。单声道至立体声解码器用于把馈入的单声道信号14转换为由左声道16a和右声道16b组成的立体声信号16。标准去相关器10根据馈入的单声道信号14产生去相关信号18(D)，该信号连同馈入的单声道信号14一起被施加到混音矩阵12的输入端。在该上下文中，未处理的单声道信号通常也被称作“干”信号，而去相关信号D被称作“湿”信号。

混音矩阵12组合去相关信号18和馈入的单声道信号14，以产生立体声信号16。这里，混音矩阵12(H)的系数可以取决于信号而固定地给出，或者取决于用户输入。另外，混音矩阵12所执行的混音过程也可以是频率选择性的，即，针对不同的频率范围(频带)，可以采用不同的混音操作和/或矩阵系数。为此，馈入的单声道信号14可以由滤波器组进行预处理，使得其连同去相关信号18一起出现在滤波器组表示中，其中对属于不同频带的信号部分分别进行处理。

对上混音过程的控制，即对混音矩阵12的系数的控制，可经混音控制20通过用户交互来执行。另外，混音矩阵12(H)的系数也可通过所谓的“辅助信息(side information)”来实现，其连同馈入的单声道信号14(下混音)一起传递。这里，辅助信息包含参数描述，该参数描述涉及如何从馈入的单声道信号14(传输信号)中产生多声道信号。典型地，这个空间辅助信息由编码器在实际下混音(即产生馈入的单声道信号14)之前产生。

上述过程一般在参数(空间)音频编码中采用。作为示例，所谓的“参数立体声”编码(H.Purnhagen：“Low Complexity ParametricStereo”Coding in MPEG-4”，7^th International Conference on AudioEffects(DAFX-04)，Naples，Italy，October 2004)以及MPEG环绕方法(L.Villemoes，J.Herre，J.Breebaart，G.Hotho，S.Disch，H.Purnhagen，K.

：“MPEG Surround：The forthcoming ISO standard for spatialaudio coding”，AES 28^th International Conference，Pitea，Sweden，2006)使用该方法。

图8中示出了参数立体声解码器的一个典型示例。除了图7中所示的简单的非频率选择性的情况之外，图8中所示的解码器包括分析滤波器组30以及综合滤波器组32。这是以取决于频率的方式(在谱域中)执行去相关的情况。为此，分析滤波器组30首先把馈入的单声道信号14分为不同频率范围的信号部分。即，与上述示例类似，针对每一个频带而产生其自身的去相关信号。除了馈入的单声道信号14，还传递空间参数34，该参数用于确定或改变混音矩阵12的矩阵元，以产生混音信号，借助于综合滤波器组32，把所产生的混音信号变换回时间域，从而形成立体声信号16。

另外，可通过参数控制36可选地更改空间参数34，从而以不同方式针对不同的重放场景而产生上混音和/或立体声信号16，和/或可选地调整各个场景的重放质量。例如，如果针对双声道重放而调整空间参数34，那么空间参数34可以与双声道滤波器的参数组合，以形成控制混音矩阵12的参数。备选地，可以通过直接的用户交互或其他工具和/或算法来更改这些参数(例如参见：Breebart，Jeroen；Herre，Jurgen；Jin，Craig；Kjorling，Kristofer；Koppens，Jeroen；Plogisties，Jan；Villemoes，Lars：Multi-Channel Goes Mobile：MPEGSurround Binaural Rendering.AES 29^th International Conference，Seoul，Korea，2006 september 2-4)。

例如，根据如下方式从馈入的单声道信号14(M)和去相关信号18(D)中产生混音矩阵12(H)的声道L和R的输出：

[\begin{matrix} L \\ R \end{matrix}] = [\begin{matrix} h_{11} & h_{12} \\ h_{21} & h_{22} \end{matrix}] [\begin{matrix} M \\ D \end{matrix}]

因此，在混音矩阵12中调整输出信号中包含的去相关信号18(D)的部分。在该过程中，混音比基于所传递的空间参数34而随时间变化。例如，这些参数可以是描述两个原始信号的相关性的参数(例如，这种参数用于MPEG环绕编码中，而且尤其是指ICC)。另外，可以传递参数，这将会传递包含在馈入的单声道信号14中的原始存在的两个声道的能量比(MPEG环绕中的ICLD和/或ICD)。备选地，或额外地，矩阵元可由直接用户输入改变。

为了产生去相关信号，目前为止使用了一系列不同的方法。

参数立体声和MPEG环绕使用全通滤波器，即传递通过整个频谱范围但具有取决于频谱的滤波特性的滤波器。在双声道提示编码(BCC，Faller和Baumgarte，例如参见：C.Faller：“Parametric Coding OfSpatial Audio”，博士论文，EPFL，2004)中，提出了用于去相关的“组延迟”。为此，通过更改信号的DFT频谱中的相位，把取决于频率的组延迟施加到该信号。就是说，不同的频率范围延迟不同的时间段。该方法通常被归入相位操作的类别之中。

另外，使用简单的延迟，即固定时间延迟，是已知的。例如，该方法用于为四声道配置中的后端扬声器产生环绕信号，从而就感知而言从前端信号中去相关该信号。典型的矩阵环绕系统是Dolby ProLogicII，其针对后端声道使用从20至40ms的时间延迟。这种简单的配置可用于创建前端和后端扬声器的去相关，这是因为，就收听体验来说，前端和后端扬声器的去相关没有左声道和右声道的去相关那样重要。这对于收听者感知到的重建信号的“宽度”来说十分重要(参见：J.Blauert：“Spatial hearing：The psychrphysics of human soundlocalization”；MIT Press，Revised edition，1997)。

上文所述的普遍的去相关方法表现出如下严重缺陷：

-信号的频谱着色(梳状滤波器效应)

-信号的“脆性(crispness)”降低

-干扰回声和反响效应

-不令人满意的感知的去相关和/或不满意的音频映射宽度

-重复声音特性

这里，本发明已经证明，对于这种信号处理最关键的信号是具有瞬态事件的高时间密度和空间分布的信号(其连同宽带噪声状信号分量一同传递)。这尤其适用于具有上述属性的类似鼓掌的信号的处理。这是因为，通过去相关，在时间上可以抹掉每一个单独的瞬态信号(事件)，而同时由于梳状滤波器效应而频谱着色地呈现噪声状的背景，这容易被感知为信号音质的改变。

总之，已知的去相关方法要么产生了上述伪信号，要么不能产生所需程度的去相关。

特别要注意的是，通过耳机进行收听通常比通过扬声器收听更加严格。为此，上述缺陷尤其与需要借助耳机进行收听的应用有关。通常，对于便携式重放设备而言就是这种情况，而且这种设备仅具有低的能源。在此上下文中，花费在去相关上的计算能力也是重要的方面。多数已知的去相关算法对计算的消耗很大。在实现中，这需要相对大量的计算操作，而这导致必须使用快速处理器，而这不可避免地消耗大量的能量。另外，需要大容量存储器来实现这种复杂算法。而这又会导致能量需求变大。

特别地，在双声道信号的重放(以及通过耳机进行收听)中，将会出现与所呈现信号的感知再现品质有关的大量具体问题。其一是，在鼓掌信号的情况下，正确呈现每一次拍手事件的击打以便不会破坏瞬态事件是特别重要的。因此，需要去相关器，其不会抹掉时间上的击打，即不会展现出任何时间分散特性。上述滤波器(引入取决于频率的组延迟)以及一般的全通滤波器不适于此。另外，需要避免由例如简单的时间延迟所造成的重复声音印象。如果这个简单的时间延迟用于产生解码信号(随后借助于混音矩阵与直接信号相加)，那么结果听起来将会有很大重复，因此是不自然的。另外，这个静态延迟还会产生梳状滤波器效应，即重建信号中不希望的频谱着色。

简单时间延迟的使用还会导致已知的优先效应(例如参见：J.Blauert：“Spatial hearing：The psychophysics of human soundlocalization”；MIT Press，Revised edition，1997)。其源于如下事实：当使用简单的时间延迟时，存在在时间上领先的输出声道以及在时间上随后的输出声道。人耳在首先听到噪声的空间方向上感知音调或声音或对象的源。就是说，信号源在一个方向上被感知，在该方向上，时间上领先的输出声道(领先信号)的信号部分将会被重放，而无论实际负责空间分配的空间参数是否表示出一些不同。

发明内容

本发明的目的是提供一种信号去相关装置和方法，其改进了存在瞬态信号时的信号质量。

这个目的通过一种去相关器和一种产生去相关信号的方法而实现。

根据本发明的一个方面，提出一种用于根据音频输入信号(54)来产生输出信号(50，52)的去相关器，包括：混音器(60)，用于组合延迟了延迟时间的音频输入信号的表示(58)和音频输入信号(54)，以获得第一输出信号(50)和第二输出信号(52)，第一输出信号(50)和第二输出信号(52)具有音频输入信号(54)的时变部分和音频输入信号的延迟表示(58)的时变部分的第一(50)和第二(52)输出信号，其中在第一时间间隔(70)中，第一输出信号(50)包含比例超过50％的音频输入信号(54)，而第二输出信号(52)包含比例超过50％的音频输入信号的延迟表示(58)，以及在第二时间间隔(72)中，第一输出信号(50)包含比例超过50％的音频输入信号的延迟表示(58)，而第二输出信号(52)包含比例超过50％的音频输入信号(54)。

根据本发明的另一个方面，提出一种用于根据音频输入信号(54)来产生输出信号(50，52)的方法，包括：组合延迟了延迟时间的音频输入信号的表示(58)和音频信号(54)，以获得第一输出信号(50)和第二输出信号(52)，第一输出信号(50)和第二输出信号(52)具有音频输入信号(54)的时变部分和音频输入信号的延迟表示(58)的时变部分的第一(50)和第二(52)输出信号，其中在第一时间间隔(70)中，第一输出信号(50)包含比例超过50％的音频输入信号(54)，而第二输出信号(52)包含比例超过50％的音频输入信号的延迟表示(58)，以及其中在第二时间间隔(72)中，第一输出信号(50)包含比例超过50％的音频输入信号的延迟表示(58)，而第二输出信号(52)包含比例超过50％的音频输入信号(54)。

这里，本发明基于如下发现：对于瞬态音频输入信号，可以以如下方式产生去相关输出信号：音频输入信号与该音频输入信号延迟了延迟时间后的表示相混合，使得在第一时间间隔中，第一输出信号对应于音频输入信号，而第二输出信号对应于音频输入信号的延迟表示，其中，在第二时间间隔中，第一输出信号对应于音频输入信号的延迟表示，而第二输出信号对应于音频输入信号。

换句话说，从音频输入信号中导出彼此去相关的两个信号，使得首先产生音频输入信号的时延副本。然后，以如下方式产生两个输出信号：音频输入信号和音频输入信号的延迟表示交替用于两个输出信号。

在时间离散表示中，这意味着交替地直接使用来自音频输入信号和音频输入信号的延迟表示的输出信号采样系列。为了产生去相关信号，这里使用与频率无关的时间延迟，因而不会在时间上抹掉拍手噪声中的击打。在时间离散表示的情况下，展现少量存储单元的时间延迟链是可实现的重建信号的空间宽度与额外的存储需求之间的良好折衷。优选地，所选择的延迟时间小于50ms，更为优选地小于或等于30ms。

因此，以如下方式解决优先的问题：在第一时间间隔中，音频输入信号直接形成左声道，而在随后的第二时间间隔中，音频输入信号的延迟表示用作左声道。右声道的过程也一样。

在优选实施例中，各个交换过程之间的切换时间被选择为大于信号中典型出现的瞬态事件的周期。即，如果以某个间隔(例如具有100ms的长度)周期性地(或随机地)交换领先和随后的声道，那么在适当选择间隔长度的情况下，可以抑制由于人类听觉器官的迟钝而引起的方向定位的破坏。

根据本发明，可以产生宽的声场，其不会破坏瞬态信号(例如拍手)，而且不会表现出重复声音特性。

本发明的去相关器仅使用极少量的算术运算。具体地，本发明仅需要单个时间延迟和少量乘法来产生去相关信号。单独声道的交换是简单的复制操作，而且不需要额外的计算开销。可选的信号调整和/或后处理方法分别也仅需要加法或减法，即典型地可由现有硬件来执行的运算。因此，实现延迟装置或延迟线仅需要很少量的额外存储器。这些额外存储器存在于多数系统中，而且可以根据具体情况而一同使用。

附图说明

在下文中，参考附图来详细描述本发明的优选实施例，其中：

图1示出了本发明的去相关器的实施例；

图2示出了本发明产生的去相关信号的图示；

图2a示出了本发明的去相关器的另一实施例；

图2b示出了用于图2a中的去相关器的可能的控制信号的实施例；

图3示出了本发明的去相关器的另一实施例；

图4示出了用于产生去相关信号的装置的示例；

图5示出了用于产生输出信号的本发明的方法的示例；

图6示出了本发明的音频解码器的示例；

图7示出了根据现有技术的上混音器的示例；以及

图8示出了根据现有技术的上混音器/解码器的另一示例。

具体实施方式

图1示出了本发明的去相关器的实施例，用于根据音频输入信号54(M)而产生第一输出信号50(L’)和第二输出信号52(R’)。

该去相关器还包括延迟装置56，以产生音频输入信号的延迟表示58(M_d)。该去相关器还包括混音器60，用于组合音频输入信号的延迟表示58和音频输入信号54，以获得第一输出信号50和第二输出信号52。混音器60由两个示意性示出的开关形成，借助于混音器60，把音频输入信号54交替地切换至左输出信号50和右输出信号52。该混音器60还应用于音频输入信号的延迟表示58。因此，去相关器的混音器60按如下方式运作：在第一时间间隔，第一输出信号50对应于音频输入信号54，而且第二输出信号对应于音频输入信号的延迟表示58，其中，在第二时间间隔中，第一输出信号50对应于音频输入信号的延迟表示，而且第二输出信号52对应于音频输入信号54。

就是说，根据本发明，以如下方式实现去相关：准备音频输入信号54的时间延迟副本，然后音频输入信号54和音频输入信号的延迟表示58交替地用作输出声道，即以定时的方式交换形成输出信号的分量(音频输入信号54和音频输入信号的延迟表示58)。这里，每一次交换的时间间隔的长度，或者输入信号与输出信号相对应的时间间隔的长度，是可变的。另外，交换各个分量的时间间隔可以具有不同的长度。这意味着，可变化地调整由音频输入信号54组成第一输出信号50和由音频输入信号的延迟表示58组成第一输出信号50的时间比。

这里，该时间间隔的优选周期大于音频输入信号54中包含的瞬变部分的平均周期，以获得信号的良好再现。

这里，适合的时间周期处于10ms至200ms的时间间隔中，例如，典型的时间周期是100ms。

除了切换时间间隔，可以根据信号的情况来调整时间延迟的周期，该周期甚至可随时间变化。优选地，延迟时间位于2ms至50ms的区间中。适合的延迟时间的示例是3、6、9、12、15或30ms。

图1所示的本发明的去相关器一方面能够产生不会抹掉瞬变信号的击打(即开始)的去相关信号，另一方面确保很高的信号去相关，这使得收听者把借助该去相关信号而重建的多声道信号感知为特别的空间延伸信号。

从图1可以看出，本发明的去相关器可以用于连续音频信号和采样音频信号，即呈现为离散采样序列的信号。

借助于以离散采样呈现的这种信号，图2示出了图1中的去相关器的操作。

这里，考虑以离散采样序列的形式呈现的音频输入信号54和音频输入信号的延迟表示58。混音器60仅示意性地表示为音频输入信号54和音频输入信号的延迟表示58与两个输出信号50和52之间的两条可能的连接路径。另外，示出了第一时间间隔70，其中第一输出信号50对应于音频输入信号54，而且第二输出信号52对应于音频输入信号的延迟表示58。根据混音器的操作，在第二时间间隔72中，第一输出信号50对应于音频输入信号的延迟表示58，而第二输出信号52对应于音频输入信号54。

在图2所示的情况下，第一时间间隔70和第二时间间隔72的时间周期是相同的，然而如上文所述，这并不是前提条件。

在所示情况下，时间上等于4个采样，所以以4个采样的定时在两个信号54和58之间切换，以形成第一输出信号50和第二输出信号52。

本发明的用于对信号进行去相关的概念可以在时域中采用，即，利用采样频率给出的时间分辨率。这个概念也可以应用于信号的滤波器组表示，其中信号(音频信号)被分为若干个离散频率范围，每频率范围的信号通常以减小的时间分辨率而出现。

图2a示出了另一实施例，其中混音器60被配置为：在第一时间间隔中，第一输出信号50是由第一比例X(t)的音频输入信号54以及由第二比例(1-X(t))的音频输入信号的延迟表示58形成的。因此，在第一时间间隔中，第二输出信号52是由比例X(t)的音频输入信号的延迟表示58以及由比例(1-X(t))的音频输入信号54形成的。图2b中示出了函数X(t)的可能实现，其可被称作交叉衰落(cross fade)函数。所有实现的共同之处是，混音器60组合延迟了延迟时间的音频输入信号的表示58和音频输入信号54，以获得具有音频输入信号54以及音频输入信号的延迟表示58的时变部分的第一输出信号50和第二输出信号52。这里，在第一时间间隔中，第一输出信号50由比例超过50％的音频输入信号54形成，第二输出信号52由比例超过50％的音频输入信号的延迟表示58形成。在第二时间间隔中，第一输出信号50由比例超过50％的音频输入信号的延迟表示58形成，而第二输出信号52由比例超过50％的音频输入信号形成。

图2b示出了用于图2a中所示的混音器60的可能的控制功能。时间t绘制在x轴上，具有任意单位的形式，而函数X(t)绘制在y轴上，展现从零至一的可能的函数值。也可以使用不一定展现从0至1范围的值的其他函数X(t)。其他的值范围，例如从0至10，是可想到的。示出了函数X(t)的三个示例，确定了第一时间间隔62和第二时间间隔64中的输出信号。

以框的形式表示的第一函数66与图2中描述的交换声道的情况相对应，或与在图1中示意性地示出的不带有交叉衰落的切换相对应。考虑图2a中的第一输出信号50，其在第一时间间隔62中完全由音频输入信号54形成，而第二输出信号52在第一时间间隔62中完全由音频输入信号的延迟表示58形成。在第二时间间隔64中，情况相反，其中时间间隔的长度不一定要相同。

以虚线表示的第二函数58没有完全转变该信号，并产生第一和第二输出信号50和52，这些信号在任意时间点上都并非完全由音频输入信号54或音频输入信号的延迟表示58所形成。然而，在第一时间间隔62中，第一输出信号50由比例超过50％的音频输入信号54形成，相应地，第二输出信号52也是这样的。

实现第三函数69，使得其具有这样的性质：交叉衰落时刻69a至69c与第一时间间隔62和第二时间间隔64之间的瞬变时刻相对应，因而其标记出音频输出信号发生变化的时刻，因此在交叉衰落时刻69a至69c实现了交叉衰落效应。这就是说，在第一时间间隔62的开始和结束处的开始间隔和结束间隔中，第一输出信号50和第二输出信号52包含音频输入信号58和音频输入信号的延迟表示两者的一部分。

在开始间隔和结束间隔之间的中间时间间隔69中，第一输出信号50相对应音频输入信号54而第二输出信号52对应于音频输入信号的延迟表示58。函数69在交叉衰落时刻69a至69c处的陡度可以在大的界限中变化，以根据情况来调整音频信号的感知再现质量。然而，确保在任意情况下，在第一时间间隔中，第一输出信号50包含比例超过50％的音频输入信号54，以及第二输出信号52包含比例超过50％的音频输入信号的延迟表示58；在第二时间间隔64中，第一输出信号50包含比例超过50％的音频输入信号的延迟表示58，而第二输出信号52包含比例超过50％的音频输入信号54。

图3示出了实现本发明的概念的去相关器的另一实施例。这里，以相同的附图标记来标记具有与先前示例中相同或相似功能的组件。

一般地，在整个申请的上下文中适用的是，以相同的附图标记来标记具有相同或相似功能的组件，从而在单独实施例的上下文中对该组件进行的描述可互换地应用于另一实施例中。

图3所示的去相关器与图1示意性示出的去相关器的不同之处在于：在把音频输入信号54和音频输入信号的延迟表示58施加到混音器60之前，可以借助可选的缩放装置74对其进行缩放。这里，可选的缩放装置74包括第一缩放器76a和第二缩放器76b，第一缩放器76a能够对音频输入信号54进行缩放，而第二缩放器76b能够对音频输入信号的延迟表示58进行缩放。

延迟装置56中馈入音频输入信号(单声道)54。第一缩放器76a和第二缩放器76b可选地改变音频输入信号和音频输入信号的延迟表示的强度。这里优选的是，增大滞后信号(G_lagging)(即音频输入信号的延迟表示58)的强度，和/或减小领先信号(G_leading)(即音频输入信号54)的强度。这里，借助于如下的简单乘法运算来实现强度的改变，其中把适当选择的增益因数与各个信号分量相乘：

L’＝M*G_leading

R’＝M_d*G_lagging。

这里，选择增益因数以获得总能量。另外，可以定义增益因数，使得增益因数取决于信号而改变。在额外传递辅助信息的情况下，即在多声道音频重建的情况下，例如，增益因数还可取决于辅助信息，从而增益因数取决于待重建的声学场景而改变。

通过分别施加增益因数以及改变音频输入信号54或音频输入信号的延迟表示58的强度，可以通过改变直接分量关于延迟分量的强度来补偿优先效应(由于相同信号的时间延迟重复而导致的效应)，使得延迟分量增大和/或非延迟分量减弱。由引起的延迟所导致的优先效应也可通过音量调整(强度调整)而部分地得到补偿，这对于空间听觉是很重要的。

如同上文中的情况，以适当的速率交换延迟和非延迟分量(音频输入信号54和音频输入信号的延迟表示58)，即：

在第一时间间隔中，L’＝M且R’＝M_d，以及

在第二时间间隔中，L’＝M_d且R’＝M。

如果以帧来处理信号，即以恒定长度的离散时间段来处理信号，那么交换的时间间隔(交换速率)优选地是帧长度的整数倍。典型的交换时间或交换周期的一个示例是100ms。

第一输出信号50和第二输出信号52可以被直接输出，作为输出信号，如图1中所示。当基于变换的信号而进行去相关时，在去相关之后当然需要逆变换。图3中的去相关器额外还包括可选的后处理器80，其组合第一输出信号50和第二输出信号52，以在其输出端提供后处理的输出信号82和第二后处理的输出信号84，其中后处理器可以包括若干有利效果。其一，后处理器可用于为进一步的方法步骤，例如多声道重建中随后的上混音，来准备信号，从而已有的去相关器可以被本发明的去相关器所取代，而无需改变信号处理链中的余下部分。

因此，图7中所示的去相关器可以完全取代根据现有技术的去相关器或图7和8中的标准去相关器10，由此可以以简单的方式把本发明的去相关器的优点集成到现有的解码器设置中。

借助于如下公式，给出由后处理器80执行的信号后处理的一个示例，该公式描述了中心侧(MS)编码：

M＝0.707*(L’+R’)

D＝0.707*(L’-R’)。

在另一实施例中，后处理器80用于降低直接信号和延迟信号的混音程度。这里，可以对借助上式表示的常规组合进行修改，使得对第一输出信号50进行缩放，并用作第一后处理输出信号82，而第二输出信号52用作第二后处理输出信号84的基础。后处理器和描述该后处理器的混音矩阵可以被完全旁路，或是可以改变用于控制后处理器80中的信号组合的矩阵系数，使得额外的信号混音很少或没有。

图4示出了借助于适合的相关器来避免优先效应的另一方式。这里，图3中所示的第一和第二缩放单元76a和76b是必需的，而混音器60可以省去。

这里，与上述情况类似，对音频输入信号54和/或音频输入信号的延迟表示58做出改变，并改变其强度。为了避免优先效应，增大音频输入信号的延迟表示58的强度，和/或减小音频输入信号54的强度，可从如下公式中看出：

L’＝M*G_leading

R’＝M_d*G_lagging。

这里，该强度优选地取决于延迟装置56的延迟时间而变化，从而可以对于较短的延迟时间而实现音频输入信号54的强度的较大减小。

延迟时间和有关的增益因数的有利组合概括如下表：

延迟(ms)	3	6	9	12	15	30
							增益因数	0.5	0.65	0.65	0.7	0.8	0.9

然后，可以对缩放的信号任意进行混音，例如借助于上文描述的中心侧编码器或上文描述的其他混音算法中的任意算法之一。

因此，通过对信号的缩放，通过减小时间上领先的分量的强度，避免了优先效应。其借助于混音产生如下的信号：没有在时间上抹掉信号中包含的瞬变部分，而且没有引起由于优先效应造成的任何不希望的声音印象的破坏。

图5示意性地示出了基于音频输入信号54而产生输出信号的本发明的方法的示例。在组合步骤90，延迟了延迟时间的音频输入信号54的表示与音频输入信号54组合，以获得第一输出信号52和第二输出信号54，其中，在第一时间间隔中，第一输出信号52对应于音频输入信号54，而第二输出信号对应于音频输入信号的延迟表示，而在第二时间间隔中，第一输出信号52对应于音频输入信号的延迟表示，而第二输出信号54对应于音频输入信号。

图6示出了本发明的概念在音频解码器中的应用。音频解码器100包括标准去相关器102和与上文所述的本发明的去相关器之一相对应的去相关器104。音频解码器100用于产生多声道输出信号106，多声道输出信号106在此示范性地示出为具有两个声道。多声道输出信号基于音频输入信号108而产生，如图所示，该音频输入信号108可以是单声道信号。标准去相关器102对应于现有技术中已知的去相关器，而音频解码器以标准操作模式使用该标准去相关器102，并且备选地关于瞬态音频输入信号108使用去相关器104。因此，音频解码器所产生的多声道表示在存在瞬态输入信号和/或瞬态下混音信号时也具有可实现的良好质量。

因此，基本意图是，在对较强的去相关和瞬态信号进行处理时使用本发明的去相关器。如果有机会识别瞬态信号，则备选地可使用本发明的去相关器来取代标准的去相关器。

如果去相关信息额外可用(例如描述MPEG环绕标准中多声道下混音的两个输出信号的相关性的ICC参数)，则可额外使用该信息作为确定使用哪个去相关器的判决准则。在小的ICC值的情况下(例如值小于0.5)，则可使用本发明的去相关器(例如图1和3中的去相关器)的输出。对于非瞬态信号(例如音调信号)，可使用标准去相关器以确保任意时刻的最佳再现质量。

即，本发明的去相关器在音频解码器100中的应用取决于信号。如上所述，存在多种检测瞬变信号部分的方式(例如信号频谱中的LPC预测，或把信号的低频频域中包含的能量与高频频域中包含的能量进行比较)。在多种解码器方案中，这些检测机制已经存在或可以以简单的方式而实现。已存在的指示符的一个示例是上文所述的信号的相关性或相干性(coherence)参数。除了简单识别瞬态信号部分的存在之外，这些参数还可以用于控制所产生的输出声道的去相关强度。

针对瞬态信号使用现有检测算法的示例是MPEG环绕，其中STP工具的控制信息适用于检测，而且可以使用声道间相干性参数(ICC)。这里，该检测可以在编码器侧和解码器侧上实现。在前一情况下，可能需要传输信号标志或比特，其由音频解码器100进行估值，以在不同的去相关器之间进行切换。如果音频解码器100的信号处理方案基于用于最终音频信号的重建的重叠窗口，而且如果相邻窗口(帧)的重叠足够大，那么可以实现不同去相关器之间的简单切换，不会引入可听到的伪信号。

如果不是这样，那么可以采取若干措施以实现不同去相关器之间接近于不可听到的转变。其一，可以使用交叉衰落技术，其中首先并行使用两个去相关器。标准去相关器102的信号在强度上缓慢减弱以转变至去相关器104，而去相关器104的信号同时增强。另外，在来回切换中可以使用滞后切换曲线，这确保在被切入后在预定的最小时间量内使用去相关器，以防止各个去相关器之间的多个直接的来回切换。

除了音量效应之外，当使用不同的去相关器时，可能出现其他的感知心理学效应。

尤其是，本发明的去相关器能够产生特别“宽”的声场。在下游的混音矩阵中，在四声道音频重建中，把特定量的去相关信号与直接信号相加。这里，去相关信号的量和/或去相关信号在所产生的输出信号中的占有程度(dominance)典型地决定了所感知的声场的宽度。该混音矩阵的矩阵系数典型地由所传递的上述相关参数和/或其他空间参数来控制。因此，在切换至本发明的去相关器之前，可通过更改混音矩阵的系数首先人为地增大声场的宽度，使得在切换至本发明的去相关器之前，宽的声音印象缓慢出现。在切换离开本发明的去相关器的另一情况下，同样可在实际切换之前减小声音印象的宽度。

当然，也可对上述切换方案进行组合，以实现不同去相关器之间特别平滑的转变。

总之，与现有技术相比，本发明的去相关器具有大量优点，尤其可用于重建类似鼓掌的信号，即具有高瞬态信号部分的信号。一方面，产生极宽的声场而不会引入额外的伪信号，这在瞬态、类似鼓掌的信号的情况下特别有利。如已经重复示出的那样，本发明的去相关器可以容易地集成到现有的重放链和/或解码器中，而且甚至可以由这些解码器中已经存在的参数来控制，以实现信号的最佳再现。上文以参数立体声和MPEG环绕的形式给出了集成到现有的解码器结构中的示例。另外，本发明的概念提供了对可用计算能力仅有很小要求的去相关器，所以一方面不需要对硬件过多的投资，另一方面，本发明的去相关器的额外能耗是可忽略的。

尽管上文的讨论主要关于离散信号而给出，即由离散采样序列表示的音频信号，然而这仅用于更好的理解。本发明的概念还可用于连续音频信号以及音频信号的其他表示，例如表示的频率变换空间中的参数表示。

取决于条件，可以以硬件或软件来实现用于产生输出信号的本发明的方法。该实现可以在数字存储介质上实现，数字存储介质具体为软盘或CD，具有电可读控制信号，可与可编程计算机系统协作，以实现用于产生音频信号的本发明的方法。一般地，本发明还是一种具有程序代码的计算机程序产品，该程序代码存储在机器可读载体上，当该计算机程序产品在计算机上运行时，该程序代码用于执行本发明的方法。换句话说，本发明可以实现为一种具有程序代码的计算机程序，当该计算机程序在计算机上运行时，该程序代码用于执行本发明的方法。

Claims

1.一种用于根据音频输入信号(54)来产生输出信号(50，52)的去相关器，包括：

混音器(60)，用于组合延迟了延迟时间的音频输入信号的表示(58)和音频输入信号(54)，以获得第一输出信号(50)和第二输出信号(52)，第一输出信号(50)和第二输出信号(52)具有音频输入信号(54)的时变部分和音频输入信号的延迟表示(58)的时变部分，其中

在第一时间间隔(70)中，第一输出信号(50)包含比例超过50％的音频输入信号(54)，而第二输出信号(52)包含比例超过50％的音频输入信号的延迟表示(58)，以及

在第二时间间隔(72)中，第一输出信号(50)包含比例超过50％的音频输入信号的延迟表示(58)，而第二输出信号(52)包含比例超过50％的音频输入信号(54)。

2.根据权利要求1所述的去相关器，其中，在第一时间间隔(70)中，第一输出信号对应于音频输入信号(54)，而第二输出信号(52)对应于音频输入信号的延迟表示(58)，其中

在第二时间间隔(72)中，第一输出信号(50)对应于音频输入信号的延迟表示(58)，而第二输出信号(52)对应于音频输入信号(54)。

3.根据权利要求1所述的去相关器，其中，在第一时间间隔(70)的开始和结束处的开始间隔和结束间隔中，第一输出信号和第二输出信号(52)包含音频输入信号(54)和音频输入信号的延迟表示(58)的一部分，其中

在第一时间间隔的开始间隔和结束间隔之间的中间间隔中，第一输出信号对应于音频输入信号(54)，而第二输出信号(52)对应于音频输入信号的延迟表示(58)；以及

在第二时间间隔(70)的开始和结束处的开始间隔和结束间隔中，第一输出信号和第二输出信号(52)包含音频输入信号(54)和音频输入信号的延迟表示(58)的一部分，其中，

在第二时间间隔的开始间隔和结束间隔之间的中间间隔中，第一输出信号对应于音频输入信号的延迟表示(58)，而第二输出信号(52)对应于音频输入信号(54)。

4.根据权利要求1所述的去相关器，其中，第一和第二时间间隔在时间上相邻且连续。

5.根据权利要求1所述的去相关器，还包括延迟装置(56)，通过使音频输入信号(54)在时间上延迟所述延迟时间，而产生音频输入信号的延迟表示(58)。

6.根据权利要求1所述的去相关器，还包括缩放装置(74)，用于改变音频输入信号(54)和/或音频输入信号的延迟表示(58)的强度。

7.根据权利要求6所述的去相关器，其中，所述缩放装置(74)被配置成取决于延迟时间来缩放音频输入信号(54)的强度，使得对于较短的延迟时间而获得音频输入信号(54)的强度的较大减小。

8.根据权利要求1所述的去相关器，还包括后处理器(80)，用于组合第一(50)和第二输出信号(52)，以获得第一(82)和第二(84)后处理输出信号，第一(82)和第二(84)后处理输出信号两者均包括来自第一(50)和第二(52)输出信号的信号贡献。

9.根据权利要求8所述的去相关器，其中，所述后处理器(80)被配置成从第一输出信号L’(50)和第二输出信号R’(52)中形成第一后处理输出信号M(82)和第二后处理输出信号D(84)，使得满足如下条件式：

M＝0.707x(L’+R’)，以及

D＝0.707x(L’-R’)。

10.根据权利要求1所述的去相关器，其中，所述混音器(60)被配置成使用音频输入信号的延迟表示(58)，所述音频输入信号的延迟表示(58)的延迟时间大于2ms并小于50ms。

11.根据权利要求7所述的去相关器，其中，所述延迟时间等于3、6、9、12、15或30ms。

12.根据权利要求1所述的去相关器，其中，所述混音器(60)被配置成：通过交换音频输入信号(54)的采样和音频输入信号的延迟表示(58)的采样，来组合包括离散采样的音频输入信号(54)和包括离散采样的音频输入信号的延迟表示(58)。

13.根据权利要求1所述的去相关器，其中，所述混音器(60)被配置成：组合音频输入信号(54)和音频输入信号的延迟表示(58)，使得第一和第二时间间隔具有相同的长度。

14.根据权利要求1所述的去相关器，其中，所述混音器(60)被配置成：针对时间上相邻的第一(70)和第二(72)时间间隔对的序列，执行音频输入信号(54)和音频输入信号的延迟表示(58)的组合。

15.根据权利要求1所述的去相关器，其中，所述混音器(60)被配置成：执行不带有任何交叉衰落的切换，使得在第一(70)和第二(72)时间间隔中，第一输出信号(50)对应于音频输入信号(54)，而第二输出信号(52)对应于音频输入信号的延迟表示(58)。

16.根据权利要求14所述的去相关器，其中，所述混音器(60)被配置成：执行所述组合，使得时间间隔序列中的第一对第一(70)和第二(72)时间间隔中的时间间隔的时间周期不同于第二对第一和第二时间间隔中的时间间隔的时间周期。

17.根据权利要求1所述的去相关器，其中，第一(70)和第二(72)时间间隔的时间周期大于音频输入信号(54)中包含的瞬态信号部分的平均时间周期。

18.根据权利要求1所述的去相关器，其中，第一(70)和第二(72)时间间隔的时间周期大于10ms并小于200ms。

19.一种用于根据音频输入信号(54)来产生输出信号(50，52)的方法，包括：

组合延迟了延迟时间的音频输入信号的表示(58)和音频信号(54)，以获得第一输出信号(50)和第二输出信号(52)，第一输出信号(50)和第二输出信号(52)具有音频输入信号(54)的时变部分和音频输入信号的延迟表示(58)的时变部分，其中

在第一时间间隔(70)中，第一输出信号(50)包含比例超过50％的音频输入信号(54)，而第二输出信号(52)包含比例超过50％的音频输入信号的延迟表示(58)，以及其中

20.根据权利要求19所述的方法，其中，在第一时间间隔(70)中，第一输出信号对应于音频输入信号(54)，而第二输出信号(52)对应于音频输入信号的延迟表示(58)，其中

21.根据权利要求19所述的方法，其中，在第一时间间隔(70)的开始和结束处的开始间隔和结束间隔中，第一输出信号和第二输出信号(52)包含音频输入信号(54)和音频输入信号的延迟表示(58)的一部分，其中

22.根据权利要求19所述的方法，还包括：

使音频输入信号(54)延迟所述延迟时间，以获得音频输入信号的延迟表示(58)。

23.根据权利要求19所述的方法，还包括：

改变音频输入信号(54)和/或音频输入信号的延迟表示(58)的强度。

24.根据权利要求19所述的方法，还包括：

组合第一(50)和第二输出信号(52)，以获得第一(82)和第二(84)后处理输出信号，第一(82)和第二(84)后处理输出信号两者均包括第一和第二输出信号的贡献。

25.一种用于根据音频输入信号(54)来产生多声道输出信号的音频解码器，包括：

如权利要求1所述的去相关器；以及

标准去相关器，其中

所述音频解码器被配置成：在标准操作模式下，使用所述标准去相关器，而在瞬态音频输入信号(54)的情况下，使用如权利要求1所述的去相关器。