CN102301420A

CN102301420A - 将降混音频信号升混的装置、方法与计算机程序

Info

Publication number: CN102301420A
Application number: CN2010800059448A
Authority: CN
Inventors: 马帝斯·纽辛格; 茱莉安·罗比莱德; 乔哈那斯·希尔皮特
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2009-01-28
Filing date: 2010-01-12
Publication date: 2011-12-28
Anticipated expiration: 2030-01-12
Also published as: KR20110111432A; CO6420380A2; RU2518696C2; SG173138A1; US8867753B2; JP2012516461A; ZA201105417B; TWI417870B; MY156497A; EP2380167B1; CA2750272A1; ES2401554T3; CN102301420B; MX2011007924A; BRPI1005299A2; EP2214161A1; WO2010086216A1; TW201034005A; JP5174973B2; EP2380167A1

Abstract

一种将描述一或多个降混(downmix)音频声道的一降混音频信号升混为描述多个升混后(upmixed)的音频声道的一升混后的音频信号的装置包含一升混器(upmixer)，其被组配以使用在时间上可变的升混参数来把降混音频信号升混，以获得升混后的音频信号。所述装置还包含一参数内插器，其中参数内插器被组配以在第一复数值升混参数及接续的第二复数值升混参数的基础上，获得要由升混器所使用的一或多个在时间上所内插的升混参数。所述参数内插器被组配以分别在第一复数值升混参数的一量值与第二复数值升混参数的一量值之间内插，及在第一复数值升混参数的一相位值与第二复数值升混参数的一相位值之间内插，以获得一或多个在时间上所内插的(temporally interpolated)升混参数。例如，一各别的方法可实施为一计算机程序。

Description

将降混音频信号升混的装置、方法与计算机程序

技术领域

根据本发明的实施例有关于将降混(downmix)音频信号升混(upmix)的一装置、一方法及一计算机程序。

根据本发明的一些实施例是有关于参数多声道音频编码的一幅度保持的升混参数内插。

背景技术

在下文中，将描述本发明的背景。近来参数音频编码领域的发展实现了将一多声道音频(例如5.1)信号联合地编码为一(或多个)降混声道及一旁侧信息流的技术。已知这些技术为双耳线索编码(Binaural Cue Coding)、参数立体声(Parametric Stereo)及MPEG环绕(MPEG Surround)等。

多个出版物描述了所谓“双耳线索编码”的参数多声道编码方式，例如参见参考文献[1][2][3][4][5]。

“参数立体声”是基于一所发送的单音信号及参数旁侧信息，用以参数编码一个双声道立体声信号的相关技术[6][7]。

“MPEG环绕”是参数多声道编码的一ISO标准[8]。

上述技术是基于将人类空间听力的相关感知线索以压缩的形式，与相关联的单音降混信号或立体声降混信号一起发送至接收器。典型的线索可以是声道间电平差(ILD)、声道间相关性或相干性(ICC)、以及声道间时间差(ITD)与声道间相位差(IPD)。

这些参数在一些情况下，以适用于人类听觉分辨率的频率及时间分辨率来发送。更新的时间间隔，根据信号特性，由编码器来判定。这意味着不会对降混信号中的每一样本，进行参数传输。换句话说，在一些情况下，描述上述线索之参数的传输率(或传输频率或更新率)可能小于音频样本(或音频样本群组)的传输率(或传输频率或更新率)。

因为在一些情况下，解码器可能必须以无间隙的方式，随着时间的推移连续地应用该等参数，例如将该等参数应用于每一样本(或音频样本)，所以中间参数可能需要典型地通过内插于过去和目前参数组之间，而在解码器侧推导出。

然而，一些习用的内插方式会导致差的音频品质。

在下文中，一般的双耳线索编码方案将参照图7来描述。图7显示一双耳线索编码传输系统800的一方块示意图，其包含一双耳线索编码的编码器810及一双耳线索编码的解码器820。该双耳线索编码的编码器810可以接收多个音频信号例如812a、812b及812c。而且，双耳线索编码的编码器810被组配以使用一降混器814，将音频输入信号812a-812c降混，而获得一降混信号816，其可以例如是一总和信号，且可以由“AS”或“X”表示。而且，双耳线索编码的编码器810被组配以使用一分析器818来分析音频输入信号812a-812c，而获得旁侧信息信号819(“SI”)。总和信号816及旁侧信息信号819从该双耳线索编码的编码器810发送至双耳线索编码的解码器820。双耳线索编码的解码器820可被组配以在总和信号816及声道间线索824的基础上，合成包含例如音频声道y₁、y₂、...、y_N的一多声道音频输出信号。以此为目的，双耳线索编码的解码器820可包含接收总和信号816及声道间线索824，且提供音频信号y₁、y₂、...、y_N的一双耳线索编码合成器822。

双耳线索编码的解码器820还包含被组配以接收旁侧信息819，且可取舍地接收一使用者输入827的一旁侧信息处理器826。旁侧信息处理器826被组配以在旁侧信息819及可取舍的使用者输入827的基础上，提供声道间线索824。

概括地说，音频输入信号获得分析且被降混。总和信号及旁侧信息被发送至解码器。声道间线索由旁侧信息及本地使用者输入来产生。双耳线索编码合成器产生多声道音频输出信号。

详情请参照由C.Faller与F.Baumgarte所著的论文“BinauralCue Coding Part II：Schemes and applications”(刊登于：IEEETransactions on Speech and Audio Processing，卷11，第6号，2003年11月)。

然而，已经发现的是，如果接收的旁侧信息的更新频率比降混信号的更新频率低，许多习用的双耳线索编码的解码器提供质量降低的多声道输出音频信号。

考虑到此问题，如果旁侧信息的更新频率小于降混音频信号的更新频率，需要引入把一降混音频信号升混为一升混后的音频信号的改良概念，这会减小听力印象的降级。

发明内容

根据本发明的一实施例产生一装置，用以把描述一或多个降混音频声道的一降混音频信号升混为描述多个升混后的音频声道的一升混后的音频声道。所述装置包含一升混器，其被组配以使用在时间上可变的升混参数来把降混音频信号升混，而获得升混后的音频信号。所述装置还包含一参数内插器，其中参数内插器被组配以在一第一复数值升混参数及接续的一第二复数值升混参数的基础上，获得要由升混器使用的一或多个在时间上所内插的升混参数。所述参数内插器被组配以分别地在第一复数值升混参数的一量值与第二复数值升混参数的一量值之间内插，及在第一复数值升混参数的一相位值与第二复数值升混参数的一相位值之间内插，而获得一或多个在时间上所内插的升混参数。

根据本发明的实施例是基于以下发现，在时间上分别地内插一升混参数的量值及内插升混参数的相位值令升混后的音频信号会产生良好的听力印象，因为所内插升混参数的量值变化保持得极小。已经发现，升混参数的振幅发生不必要的大变化时可能会使升混后的音频信号产生可听见的及干扰的调变。相反地，通过分别地内插复数值升混参数的振幅及相位值，由内插所引起的振幅变化会被保持得很小(或甚至是最小化的)，即便是在第一(或初始)升混参数的复数值与第二(或接续)升混参数的复数值之间存在大相位差的情况下。因此，与一些其它类型的内插比较，升混后的输出音频信号的可听见及干扰调变会获得减少(或甚至完全地消除)。

因而，可以获得升混后的输出音频信号的良好的听力印象，即便在从一双耳线索编码的编码器传送至一双耳线索编码的解码器的旁侧信息的频率比降混音频信号样本的频率低的情况下。

在根据本发明的一实施例中，所述参数内插器被组配以在第一复数值升混参数的量值与第二(接续)复数值升混参数的量值之间单调地进行时间内插，而获得一或多个在时间上所内插升混参数的量值。再者，所述参数内插器较佳地可被组配以在第一复数值升混参数的相位值与第二复数值升混参数的相位值之间线性地进行时间内插，而获得一或多个在时间上所内插的升混参数的相位值。而且，所述参数内插器可被组配以将所内插升混参数的一或多个量值与所内插升混参数的相对应相位值相结合，来获得一或多个复数值的所内插升混参数。

在根据本发明的一实施例中，所述参数内插器被组配以在第一复数值升混参数的量值与第二、接续复数值升混参数的量值之间线性地进行时间内插，而获得一或多个在时间上所内插升混参数的量值。

通过在该等接续复数值升混参数的量值之间执行一单调的或甚至线性的时间内插，可以避免升混后的音频信号之干扰振幅调变(可能由其它的内插方案产生)。在此方面，已经发现，人类的听觉系统对于音频信号的振幅调变尤其敏感。还发现，听觉印象(或听力印象)由于这样的寄生振幅调变而显著降级。因此，获得其变化为平滑且非调变的升混参数，从而使音频信号振幅的时间演进平滑且非调变，会在存在升混参数内插的情况下，对升混信号的听力印象的改良做出重要的贡献。

在本发明的一实施例中，升混器被组配以根据该等复数值的所内插升混参数，对多个升混器音频输入信号的复数值的子带参数执行线性调整叠加，而获得升混后的音频信号。在这种情况下，所述升混器可被组配以处理表示该等升混器之音频输入信号之接续音频样本的子带参数序列。所述参数内插器可被组配以接收在时间上由大于该等子带音频样本之一的时段间隔开的接续复数值升混参数，且较频繁地(例如每一子带音频样本一次)更新该等所内插升混参数。

因而，所述升混器可被组配以在一升混器更新率下，接收该等升混器的音频输入信号的更新后样本，且所述参数内插器可被组配以在该升混器更新率下，更新该等所内插的升混参数。以此方式，该等升混参数的更新率可被调整为该等升混器的音频输入信号的更新率。因此，在由该装置(例如在小于该混合器更新率的一更新率下)所接收的两个接续升混参数组之间可以获得特别平滑的转变。

在本发明的一较佳实施例中，所述升混器可被组配以使用包含该等所内插升混参数的一矩阵及包含该等升混器的音频输入信号的一或多个子带参数的一向量，来执行一矩阵-向量乘法，获得的结果为包含该等升混后的音频信号的复数值子带样本的一向量。通过使用一矩阵-向量乘法，可以得到一尤为有效的电路实施。该矩阵-向量乘法以一能有效实施的形式来定义该等音频输入信号根据升混参数的线性叠加。一矩阵-向量乘法可有效地实施于一信号处理器(或其它适当的硬件或软件单元)之中，如果矩阵元素分成一实部及一虚部来表示。分成一实部及一虚部的复数值的处理相当容易执行，因为分成实部/虚部对于复数的乘法，尤其是对于乘法结果的加法操作都极为适用。因而，在其它数字表示针对于乘法或针对于加法(它们都是在矩阵-向量乘法中所需要的操作)会有严重的困难时，一实部/虚部数字表示的使用提供了一有效的解决方案。

在本发明的一实施例中，所述装置被组配以接收描述该等升混参数的空间线索。在这种情况下，所述参数内插器可被组配以根据声道间电平差参数，或根据声道间相关性(或相干性)参数，或根据声道间电平差参数及声道间相关性(或相干性)参数，来判定该等升混参数的量值。而且，所述参数内插器可被组配以根据声道间相位差参数，来判定该等升混参数的相位值。因此，可以看出，在一些情况下，可以用一极有效的方式来分别获得该等升混参数的量值及相位值。因而，即使在没有任何额外的量值/相位值分离单元的情况下，也可有效地获得分别内插所需的输入信息，如果上述参数(ILD、ICC、IPD及/或ITD)或类似的参数被用作该参数内插器的输入量。

在本发明的一实施例中，所述参数内插器被组配以判定在接续复数值升混参数的相位值之间的内插方向，使得在第一复数值升混参数的相位值与(接续)第二复数值升混参数的相位值之间的内插所经过的角度范围小于或等于180°。换句话说，在一些实施例中，确保了由内插所产生的相位变化能保持足够小(或甚至是最小化)。即使人类的听觉感知对于相位改变不会特别敏感，限制相位变化也可能是有利的。例如，升混参数的快速的相位变化可能导致难以预测的失真，诸如频率偏移或频率调变。这些失真可通过谨慎地决定如何内插升混参数的相位值来予以限制或消除。

根据本发明的另一实施例产生用以把一降混音频信号升混的一方法。

根据本发明的又一实施例产生用以把一降混音频信号升混的一计算机程序。

附图说明

依据本发明的实施例将在随后参照附图来描述，其中：

图1显示根据本发明的一实施例，用以把一降混音频信号升混的一装置的一方块示意图；

图2a及2b显示根据本发明的另一实施例，用以把一降混音频信号升混的一装置的一方块示意图；

图3显示降混音频信号样本与一解码器输入旁侧信息之间的一时序关系的示意图；

图4显示解码器输入旁侧信息与基于其的时间内插升混参数之间一时序关系的示意图；

图5显示一内插路径的一图式；

图6显示根据本发明的一实施例，用以把一降混音频信号升混的一流程图；以及

图7显示一般双耳线索编码方案的一方块示意图。

具体实施方式

根据图1的实施例

图1显示根据本发明的一实施例，用以把一降混音频信号升混的一装置100的方块示意图。装置100被组配以接收描述一或多个降混音频声道的一降混音频信号110，且提供描述多个升混后的音频声道的一升混后的音频信号120。装置100包含一升混器130，其被组配以使用在时间上可变的升混参数来把降混音频信号110升混，以获得升混后的音频信号120。装置100还包含一参数内插器140，其被组配以接收一序列复数值升混参数，例如第一复数值升混参数142及一接续的第二复数值升混参数144。参数内插器140被组配以在第一(或初始)复数值升混参数142及第二、接续复数值升混参数144的基础上，获得要由升混器130所使用的一或多个在时间上内插的升混参数150。参数内插器140被组配以分别在第一复数值升混参数142的量值与第二复数值升混参数144的量值之间内插(其量值内插表示为参考数字160)，且在第一复数值升混参数142的相位值与第二复数值升混参数144的相位值之间内插(其相位值内插表示为参考数字162)。参数内插器140被组配以在该等所内插量值(也称为振幅值或增益值)(其表示为参考数字160)的基础上，及在该等所内插相位值(也称为角度值)的基础上，获得(其显示为参考数字164)一或多个在时间上所内插的升混参数150。

在下文中，与装置100的功能有关的一些细节将予以描述。降混音频信号110可以例如以一序列在时间-频率域中表示降混音频信号(描述重叠或非重叠的频带或频率子带)的复数值组的形式，(在由此处未显示的编码器所判定的更新率下)输入至升混器130。升混器130被组配以根据在时间上所内插的升混参数150，线性地将降混音频信号110的多个声道相结合，或线性地将降混音频信号110的一声道与一辅助信号(例如去相关信号)(其中该辅助信号可源自于降混音频信号110的同一音频声道、源自于降混音频信号110的一或多个其它音频声道，或源自于降混音频信号110之音频声道的结合)相结合。因而，在时间上所内插的升混参数150可由升混器130所使用，以在降混音频信号110的基础上，来决定应用于升混后的音频信号120(或其一声道)的产生的振幅调整及相位旋转(或时间延迟)。

参数内插器140典型地被组配以在高于升混参数142、144所述之旁侧信息之更新率的一更新率下，提供在时间上所内插的升混参数150。以此为目的，接续的复数值升混参数借由参数内插器140而获得(例如接收或运算)。复数值升混参数142、144的量值及相位值使用一量值内插160及一相位值内插162，予以分别地(或甚至独立地)处理。因而，该等升混参数在时间上所内插的量值及该等升混参数在时间上所内插的相位值可分别获得，且可分别地输送至升混器140，或以相结合的形式(在分别内插之后结合为一复数值数字)输送至升混器130。分别内插会有以下优点，该时间上所内插的升混参数的振幅典型地在更新旁侧信息由装置100所接收的接续的时间之间包含一平滑且单调的时间演进。由其它类型的内插所导致之可听见且为干扰性的人工因素，诸如一或多个子带之振幅调变，得以避免。因此，更新的音频信号120的质量优于可能使用习用类型的升混参数内插所获得的一升混信号的质量。

根据图2之实施例

与用以把一音频信号升混之一装置的结构及操作有关的其它细节将参照图2a及2b予以描述。图2a及2b显示根据本发明之另一实施例，用以把一降混音频信号升混的一装置200的详细方块示意图。装置200可以视为用于在一降混音频信号及一旁侧信息SI的基础上，产生一多声道(例如5.1)音频信号的一解码器。装置200会实现针对于装置100所描述的功能。装置200可以用以解码例如根据所谓的“双耳线索编码”、所谓的“参数立体声”，或所谓的“MPEG环绕”来编码的一多声道音频信号。当然，装置200可类似地用以把根据其它使用空间线索的系统来编码的多声道音频信号升混。

为简便起见，装置200描述为执行将一单一声道降混音频信号升混为双声道信号。然而，此处所述的概念可很容易地延伸至降混音频信号包含一个以上声道的情况，且还可延伸至升混后的音频信号包含两个以上声道的情况。

输入信号及输入时序

装置200被组配以接收降混音频信号210及旁侧信息212。而且，装置200被组配以提供例如包含多声道的一升混后的音频信号214。

降混音频信号210可以例如是由一编码器(例如由图7所示的BCC编码器810)所产生的一总和信号。降混音频信号210可以例如在时间-频率域中，以复数值频率分解的形式来表示。例如，该音频信号之多个频率子带(其可以是交叠的或非交叠的)的音频内容可以由相对应的复数值来表示。对于一给定的频带，降混音频信号可以在考虑接续(交叠的或非交叠的)时间间隔的情况下，由描述在该频率子带中之音频内容的一序列复数值来表示。对于接续时间间隔的接续复数值可以使用例如在装置100(其可以是一多声道音频信号解码器的部分)或耦接于装置100的一附加装置之中的一滤波器组(例如QMF滤波器组)、一快速傅立叶变换，或类似的方式获得。然而，此处所述的降混音频信号的表示典型地不相同于用以将降混音频信号从一多声道音频信号编码器发送至一多声道音频信号解码器或装置100的降混信号的表示。因此，降混音频信号210可以由复数值的组或向量的一串流来表示。

在下文中，假设降混音频信号210的接续时间间隔由一整数值索引k来表示。还假设装置200每一间隔k且对于降混音频信号210的每一声道，接收一复数值的组或向量。因而，对于由时间索引k所述的每一音频样本更新间隔会接收一样本(复数值组或向量)。

为了促进理解，图3显示降混音频信号210(“x”)的样本与相对应解码器旁侧信息212(“SI”)之间的时序关系的图形表示。随着时间变化而由装置200所接收的降混后的音频信号210的音频样本(“AS”)由参考数字310显示。从图形表示310中可以看出，如上所述，一单一音频样本AS与每一音频样本更新间隔k相关联。

装置200进一步接收描述升混参数的一旁侧信息212。例如，旁侧信息212可描述下面的一或多个升混参数：声道间电平差(ILD)、声道间相关性(或相干性)(ICC)、声道间时间差(ITD)及声道间相位差(IPD)。典型地，旁侧信息212包含ILD参数及参数ICC、ITD、IPD中的至少一个。然而，为了节省带宽，旁侧信息212典型地在降混音频信号210的每多个音频样本更新间隔k(或一单一组旁侧信息的传输可在时间上扩展多个音频样本更新间隔k)处，仅向装置200发送一次，或由装置200接收一次。因而，对于多个音频样本更新间隔k典型地仅存在一组旁侧信息参数。

此时序关系显示于图3中。例如，如可以由参考数字320看出，旁侧信息在音频样本更新间隔k＝4、k＝8及k＝16处，发送至装置200(或由装置200所接收)。相反地，在所述音频样本更新间隔之间，没有旁侧信息212发送至装置200(或由装置200所接收)。

从图3中可以看出，旁侧信息212的更新间隔可以随时间而变化，由于编码器可以例如仅在需要时(例如在解码器辨识出旁侧信息改变超过了一预定值时)，决定提供旁侧信息更新。例如，对于音频样本更新间隔k＝4，由装置200所接收的旁侧信息可与音频样本更新间隔k＝3，4，5相关联。类似地，对于音频样本更新间隔k＝8，由装置200所接收的旁侧信息可与音频样本更新间隔k＝6，7，8，9，10相关联等。然而，当然可能会存在不同的关联性，且旁侧信息的更新间隔当然也可能会大于或小于如图3所示的间隔。

输出信号及输出时序

然而，装置200用以在复数值频率合成中提供升混后的音频信号。例如，装置200可被组配以提供升混后的音频信号214，使得该等升混后的音频信号包含与降混音频信号210相同的音频样本更新间隔或音频信号更新率。换句话说，对于降混音频信号210的每一样本(或音频样本更新间隔k)，均会产生一升混后的音频信号214的样本。

升混

在下文中，将详细地描述，用以把降混音频信号升混的升混参数是如何能够获得对于每一音频样本更新间隔k的更新的，即便是解码器输入旁侧信息仅以较大的更新间隔(如图3所示)更新。在下文中，将描述一单一子带的处理，但是该概念当然可以延伸至多个子带。

装置200包含作为一关键组件的一升混器，其被组配以起到一复数值线性结合器的作用。升混器230被组配以接收与音频样本更新间隔k相关联的降混音频信号210(例如表示某一频带)的样本x(k)。信号x(k)有时也被称为“干信号”。而且，升混器被组配以接收表示降混音频信号经去相关的版本的样本。

而且，装置200包含一去相关器(例如延迟器或反射器)240，其被组配以接收降混音频信号的样本x(k)且在其基础上，提供降混音频信号(由x(k)表示)之去相关后版本的样本q(k)。降混音频信号(样本x(k))之去相关后版本(样本q(k))可以被称为“湿信号”。

升混器230包含例如矩阵-向量乘法器232，其被组配以执行“干信号”(x(k))与“湿信号”(q(k))的复数值线性结合，来获得第一升混后的声道信号(由样本y₁(k)表示)及第二升混后的声道信号(由样本y₂(k)表示)。矩阵-向量乘法器232可例如被组配以执行下面的矩阵-向量乘法，来获得升混后的声道信号的样本y₁(k)及y₂(k)：

[\begin{matrix} y_{1} (k) \\ y_{2} (k) \end{matrix}] = H (k) [\begin{matrix} x (k) \\ q (k) \end{matrix}]

升混参数的更新

从以上等式可以看出，期望对于每一音频样本更新间隔k来更新升混参数矩阵H(k)。对于每一音频样本更新间隔k来更新升混参数矩阵有以下优点，升混参数矩阵总是极适用于实际的听觉环境。对于每一音频样本更新间隔k来更新升混参数矩阵还使接续的音频样本间隔之间的升混参数矩阵H(或其元素)的逐步改变保持得小，这是因为升混参数矩阵的改变分布在多个音频样本更新间隔上，即便是旁侧信息212仅对每多个音频样本更新间隔k进行一次更新。

装置200包含一旁侧信息处理单元250，其被组配以在旁侧信息212的基础上，提供升混参数，例如元素H_ij(k)。旁侧信息处理单元250被组配以提供对于每一音频样本间隔k之一组更新的升混参数，即便是旁侧信息212对每多个音频样本更新间隔k仅进行一次更新。

旁侧信息处理单元250包含一升混参数判定器(或升混矩阵系数判定器)252，其被组配以接收旁侧信息212，且在其基础上推导出一或多个升混参数(或等效地，升混矩阵系数)。例如，升混参数判定器252可结合多个线索(例如ILD、ICC、ITD、IPD)以获得升混参数。升混参数判定器252被组配以用一量值及一分离的相位值的形式来描述升混参数。所述量值可以例如表示一复数的绝对值，且相位值可表示复数的一角度值(例如，相对于一实部-虚部正交坐标系中的实部轴所测量出的)。

因而，升混参数判定器可提供一升混参数量值序列254及一升混参数相位值序列256。升混参数判定器252可被组配以从一组旁侧信息中，推导出一整组升混参数(或矩阵H的一整组矩阵元素)。在一组旁侧信息212与一组升混参数(或一组矩阵元素)之间可存在关联性。因此，升混参数判定器252可被组配以对应于每一升混参数更新间隔，即每更新该组旁侧信息一次，就更新一次升混参数254、256(或矩阵元素)。

该旁侧信息处理单元更包含一参数内插器260，其将在下文中予以详细地描述。参数内插器260被组配以接收升混参数(或矩阵元素)之(实数值的)量值的序列254及升混参数(或矩阵元素)之(实数值的)相位值的序列256。而且，参数内插器被组配以在内插且结合序列254及序列256的基础上，提供为复数值，且在时间上所内插的升混参数(或矩阵元素)262的一序列。

参数内插器260包含一量值内插器270及一相位值内插器272。此外，参数内插器还包含一量值/相位值结合器280。

量值内插器270被组配以接收序列254，且在其基础上提供一升混参数(或矩阵元素)的所内插量值序列274。量值内插器270例如可被组配以在接续的序列254的量值之间执行线性量值内插。因而，虽然序列254每一升混参数更新间隔获得一次更新(即包含一特定升混参数或矩阵元素的一新量值)，但是序列274会较频繁地更新，例如对应于每一音频样本更新间隔k进行一次更新(其中升混参数更新间隔典型地大于音频样本更新间隔k)。

类似地，相位值内插器272被组配以接收序列256，且在其基础上提供一升混参数(或矩阵元素)的所内插相位值的序列276。相位值内插器272例如可被组配以在序列256接续的相位值之间执行一线性相位内插。因而，序列276对应于每一音频样本更新间隔k会更新一次，尽管序列256会对应于每一升混参数更新间隔，更新一次。

重要的是，量值内插器270及相位值内插器272被组配以分别地或独立地执行量值内插及相位内插。因而，序列254的量值不会影响相位值的内插，且序列256的相位值不会影响量值的内插。然而，假设量值内插器及相位值内插器以在时间上同步的方式操作，则会使序列274、276包含升混参数(或矩阵元素)之相对应的所内插量值及所内插相位值对。

量值/相位值结合器280被组配以接收所内插量值的序列274及所内插相位值的序列276。量值/相位值结合器280进一步被组配以通过将序列274的所内插量值与序列276之相对应所内插相位值相结合，来提供为复数值的所内插升混参数或矩阵元素的序列262。例如，量值/相位值结合器280被组配以对序列274的所内插量值执行一复数值旋转，使其旋转一角度，而该角度由序列276的一相对应所内插相位值所判定。一般而言，量值/相位值结合器可提供一复数，其量由一所内插量值所判定，且其相位由一相对应的所内插相位值所判定。

当然，参数内插器260可分别地作用于不同的升混参数或矩阵元素。因而，参数内插器260对于每一升混参数(来自多个升混参数)或矩阵H之矩阵元素可接收一量值序列254及一相对应的相位值序列256。因而，参数内插器可提供对于每一升混参数矩阵元素在时间上所内插的一复数值序列262。

内插时序关系

图4显示在由旁侧信息处理单元250所接收的输入信息212(解码器输入旁侧信息)与由旁侧信息处理单元252提供给升混器230的输出信息262(在时间上所内插的复数值升混参数)之间的时序关系的一图形表示。

图4显示解码器输入旁侧信息212的一图形表示410。从图形表示410中可以看出，编码器输入旁侧信息不是每一音频样本更新间隔k都进行更新，而是对于多个音频样本更新间隔k仅进行一次更新。相反地，序列262之在时间上所内插的升混参数，由参考数字420显示，对应于每一音频样本更新间隔会更新一次。换句话说，在时间上所内插的升混参数262的更新间隔例如与音频样本更新间隔k相同。因而，矩阵H可以对应于每一音频样本更新间隔k更新一次。

因而，每一音频样本可由其相关联的(或甚至一对一相关联的)升混参数矩阵H加权。虽然可对于一些音频样本更新间隔(例如对于k＝4、8、16)，提供基于一单一组旁侧信息的“准确”升混参数矩阵，但是对于其它的音频样本更新间隔(例如对于k＝5、6、7、9、10、11、12、13、14、15)也提供基于两组，乃至更多组旁侧信息的所内插升混参数矩阵。

概要及其它任选的改良

在下文中，根据本发明的装置的操作将予以简单地概述。根据本发明的实施例通过在存在随时间改变的相位变化的情况下而维持信号量值的内插来增强目前(或习用)的内插技术。为了简便起见，以上描述以及以下描述仅限于从一个声道升混至两个声道。当然，该概念还可应用于存在大量降混声道或升混后的声道的情况。

解码器例如从一个声道升混至两个声道的升混步骤通过由称为干信号之降混信号x(也由x(k)来表示)及称为信号的去相关后版本的降混信号q(也由q(k)表示)所组成的向量与一升混矩阵H(也由H(k)表示)矩阵相乘，来执行。湿信号q已通过输送降混信号x经过一去相关滤波器(例如去相关器240)而产生。输出信号y是包含输出之第一及第二声道(例如分量y₁(k)及y₂(k))的一向量。所有信号x、q、y在一复数值频率分解(例如时间-频率域表示)中都是可用的。此矩阵操作(例如分别地)对于每一频带的子带样本来执行。例如，矩阵操作可根据以下等式来执行：

[\begin{matrix} y_{1} \\ y_{2} \end{matrix}] = H [\begin{matrix} x \\ q \end{matrix}]

从图2a中可以看出，矩阵-向量乘法例如可以由升混器230的矩阵-向量乘法器232来执行。

升混矩阵H的系数可以根据一般为ILD及ICC的空间线索而推导出，导致实数值矩阵元素基本上基于该等ICC来执行每一声道之干信号及湿信号的混合，且由ILD的判定调整两个输出声道的输出电平。

当使用IPD时，必须将一额外的相位偏移作用于该等信号，以重新产生原始信号的声道之间的相位关系。相位偏移通过使用升混矩阵H中的复数值元素而获得执行，这会导致子带信号的复数旋转，且从而导致相位偏移。当在极坐标中查看复数元素时，其角度等于所需要的相位偏移。

因为参数(也称为“旁侧信息组”，显示为参考数字212)不是对于每一音频样本(例如不是对于每一音频样本更新间隔k)来发送，如参照第3及4图所述，而是仅对于作为一参数组之一组接续样本来发送，所以在一参数组每一次到达时一新矩阵H_n被计算出来。

比较范例：线性内插方式

在下文中，出于比较的目的，将描述一可能的线性内插方式。在没有发送参数组的样本点处，一矩阵(或所内插矩阵)H_i可通过在一(目前)矩阵H_n与一先前所计算出的矩阵H_n-1之间线性内插矩阵元素来计算：

H_i＝(1-i/i_max)H_n-1+(i/i_max)H_n，i＝0...i_max

矩阵元素的此线性内插能对实数值元素产生极佳的作用。然而，当使用具有随时间变化的角度的复数值元素时，此种类型的内插具有一个明显的缺点，因为它会导致输出信号能量有不受期望的损失。两个复数值的线性内插会产生与复数值的两个量值的线性内插相比，具有较小量的一值。此事实显示于图5中。

图5显示在两个复数值之间不同类型内插的一图形表示500。图形表示500描述在复平面中的复数。横坐标510作为一实部轴，且纵坐标512作为一虚部轴。一第一或初始复数值由z₁来表示，且一第二或接续复数值由z₂来表示。在复数值z₁与z₂之间的线性内插会产生一复数值z_lin，其中z_lin＝1/2(z₁+z₂)。可以看出，z_lin的绝对值(或量值)明显低于复数值z₁的绝对值，且也明显低于复数值z₂的绝对值。

然而，除了根据1/2*(z₁+z₂)简单形成的平均值之外，一般的线性实施还可选择地根据

z_lin＝(1-α)*z₁+α*z₂

来使用。

在线性内插方面，随着两个复数(z₁及z₂)角度的增加，量值的降低会加大，其中最坏的情况是在180度。因为复矩阵元素的量判定输出信号的振幅，所以这就致使相比于不使用IPD的情况，在接续参数组之间的样本会具有较低的输出电平。这可能使无论相位角度什么时候产生快速改变都会产生可听见的调变或人工因素漏失。

与分别内插方式相关的细节

在下文中，量值及相位值之分别内插的一些较佳实施例将予以描述，其中分别内插典型地由量值内插器270及相位值内插器272来执行。

为了避免上述输出能量的损失，在此提出了用以内插升混矩阵的不同方法。此新方法对矩阵系数之根据声道间相位差(IPD)所获得的角度及其例如根据声道间电平差(ILD)及声道间相关性或相干性(ICC)所获得的量值实施分别内插。

在第一步骤，实数值矩阵系数获得计算(例如由序列254来表示)，且获得线性内插(例如使用量值内插器270)，这是因为其可以在不使用声道间相位差(IPD)的情况下实现。

在下一步骤，相位偏移角(例如由序列256来表示)根据参数组(例如旁侧信息212组)的所发送声道间相位差(IPD)而被计算出来。在这些角度之间，执行一线性内插(例如使用相位值内插器272)，以使接续参数组(例如旁侧信息212组)之间的每一样本获得一角度。因为用于此内插中的角度在2π的范围内，所以应该特别注意的是要以正确的方向内插。例如，内插的角度可以根据下面的等式获得：

α_{i} = \{\begin{matrix} (1 - i / i_{\max}) α_{n - 1} + (i / i_{\max}) α_{n} & | α_{n} - α_{n - 1} | \leq π \\ ((1 - i / i_{\max}) (α_{n - 1} + 2 π) + (i / i_{\max}) α_{n}) \mod 2 π & α_{n} - α_{n - 1} > π \\ ((1 - i / i_{\max}) α_{n - 1} + (i / i_{\max}) (α_{n} + 2 π)) \mod 2 π & α_{n} - α_{n - 1} < - π \end{matrix}, i = 0 . . . i_{\max}

在以上等式中，α_n-1表示第一(或先前)复数值升混参数的一相位值。α_n表示第二(或接续)复数值升混参数的一相位值。“mod”是一模数-运算符。i表示一所内插相位值的索引。i＝0表示与第一升混参数相关联的一索引。i＝i_max表示与第二升混参数相关联的索引。在0与i_max之间的索引i与所内插的升混参数相关联。此外，假设在两个取样点(或旁侧信息组)之间存在i_max-1个所内插值。

当然，所内插实数值矩阵系数及所内插相位偏移角度的运算次序可予以调换，或运算可予以并行地执行。

在最后的步骤中，实数值矩阵元素可旋转所内插的角度。例如可以使用以下等式：

H_xx，complex＝e^jαH_xx，real。

在以上等式中，“_xx”表示各别的矩阵元素索引(在此有时也用“_ij”来表示)。而且，H_xx，real表示一实数值矩阵系数，即一量值。α表示与该实数值矩阵系数H_xx，real相关联的一相位偏移角度。j表示虚数单元，即-1的平方根。H_xx，complex表示一个复数值升混参数。

通过使用上述改良的内插方法，矩阵元素的正确量值获得维持。

与上面所述的线性内插方式比较，从图5中可以看出，在复数值z₁与z₂之间分别量值-相位值的内插会产生所内插值z_sep。例如，所内插值z_sep的绝对值由在第一复数值z₁的绝对值与第二复数值z₂的绝对值之间的线性内插来判定(其中|.|表示绝对值操作)。此外，所内插值z_sep的角位置位于第一值z₁与第二值z₂的角位置之间，如图5所示。

因此，从图5可以看出，所内插值z_sep的量值位于第一值z₁与第二值z₂的量值之间。因而，对于线性复数值内插可以清楚地看出的振幅的衰减(与z₁及z₂相比，线性内插值z_lin的量值减小)通过使用量值及相位值的分别内插而得以避免。

结论

综上所述，描述了产生所内插升混矩阵(例如H)的一般概念，在存在随时间变化相位合成的情况下(至少近似地)维持量值。根据本发明的实施例通过减小输出信号中由习用的简单内插技术所导致的振幅损失，来替代其它的技术。此外，维持量值内插的运算量仅极少地高于其它技术。

方法

根据本发明的一实施例包含一方法，用以把描述一或多个降混音频声道的一降混音频信号升混为描述多个升混后的音频声道的一升混后的音频信号。图6显示此方法的一流程图，其全部内容由700来表示。

方法700包含步骤710，在第一复数值升混参数及接续的第二复数值升混参数的基础上，获得一或多个临时内插的升混参数。内插分别执行于第一复数值升混参数的量值与第二复数值升混参数的量值之间，且在第一复数值升混参数的相位值与第二复数值升混参数的相位值之间。

方法700更包含步骤720，使用所内插的升混参数来把一降混信号升混，以获得一升混后的音频信号。

方法700可由在此针对于发明性装置所述的任何步骤及功能来补充。

不同的实施技术

根据某些实施需求而定，本发明的实施例可以实施于硬件或软件中。实施可使用例如其上储存有电气可读控制信号的一软盘、一DVD、一CD、一ROM、一PROM、一EPROM、一EEPROM或一闪存而与一可编程计算机系统协作(或能够协作)使得各别的方法得以执行的一数字存储媒质来执行。

根据本发明的一些实施例包含一数据载体，其具有电气可读控制信号，它们能够与一可编程计算机系统协作，使本文所述方法之一得以执行。

大体上，本发明之实施例可以实施为具有一程序代码的一计算机程序产品，当计算机程序产品在计算机上运行时，程序代码可以操作以执行所述方法之一。所述程序代码可以例如储存在一机械可读载体上。

其它实施例包含用以执行本文所述方法之一，且储存于一机械可读载体上的计算机程序。

换句话说，发明性方法的一实施例从而是一计算机程序，具有用以当计算机程序在一计算机上运行时，执行本文所述方法之一的一程序代码。

从而，所述发明性方法的另一实施例是一数据载体(或一数字存储媒质)，包含用以执行本文所述方法之一的计算机程序。

从而，发明性方法的另一实施例是信号的一数据流或一序列信号，其表示用以执行本文所述方法之一的计算机程序。

所述数据流或所述序列信号例如可被组配以经由一数据通讯连接体，例如经由因特网予以传输。

另一实施例包含一处理单元，例如计算机或可编程逻辑装置，被组配以或适用于执行本文所述方法之一。

另一实施例包含一计算机，具有安装于其上且用以执行本文所述方法之一的计算机程序。

在一些实施例中，一可编程逻辑装置(例如现场可编程门阵列)可用以执行本文所述方法的一些或者所有功能。

在一些实施例中，一现场可编程门阵列可与一微处理器协作，以执行本文所述方法之一。

参考文献

[1]C.Faller and F.Baumgarte，″Efficient representation of spatialaudio using perceptual parameterization″，IEEE WASPAA，Mohonk，NY，October 2001

[2]F.Baumgarte and C.Faller，″Estimation of auditory spatial cuesfor binaural cue coding″，ICASSP，Orlando，FL，May 2002

[3]C.Faller and F.Baumgarte，″Binaural cue coding：a novel andefficient representation of spatial audio，″ICASSP，Orlando，FL，May 2002

[4]C.Faller and F.Baumgarte，″Binaural cue coding applied to audiocompression with flexible rendering″，AES 113th Convention，LosAngeles，Preprint 5686，October 2002

[5]C.Faller and F.Baumgarte，″Binaural Cue Coding-Part II：Schemes and applications，″IEEE Trans，on Speech and AudioProc.，vol.11，no.6，Nov.2003

[6]J.Breebaart，S.van de Par，A.Kohlrausch，E.Schuijers，″High-Quality Parametric Spatial Audio Coding at Low Bitrates″，AES 116th Convention，Berlin，Preprint 6072，May 2004

[7]E.Schuij ers，J.Breebaart，H.Purnhagen，J.Engdegard，″LowComplexity Parametric Stereo Coding″，AES 116th Convention，Berlin，Preprint 6073，May 2004

[8]ISO/IEC JTC 1/SC 29/WG 11，23003-1，MPEG Surround

[9]J.Blauert，Spatial Hearing：The Psychophysics of Human SoundLocalization，The MIT Press，Cambridge，MA，revised edition1997

Claims

1.一种装置(100；200)，将描述一或多个降混音频声道的一降混音频信号(110；210)升混为描述多个升混后的音频声道的一升混后的音频信号(120；214)，所述装置包含：

一升混器(130；230)，其被组配以应用在时间上可变的升混参数(150；262；H_ij)来把所述降混音频信号(110；210)升混，以获得所述升混后的音频信号(120；214)；及

一参数内插器(140；260)，其中所述参数内插器被组配以在描述一第一复数值升混参数(142)及一接续的第二复数值升混参数(144)之一信息的基础上，获得要由所述升混器(130；230)所使用的一或多个在时间上所内插的升混参数(150；262)，

其中所述参数内插器(140；260)被组配以分别地

(a)在所述第一复数值升混参数(142)的一量值(254)与所述第二复数值升混参数(144)的一量值(254)之间内插，及

(b)在所述第一复数值升混参数(142)的一相位值(256)与所述第二复数值升混参数(144)的一相位值(256)之间内插，以获得所述一或多个在时间上所内插的复数值升混参数(150；262)。

2.根据权利要求1所述的装置(100；200)，其中所述参数内插器(140；260)被组配以单调地在时间上内插于所述第一复数值升混参数(142)的量值(254)与所述第二复数值升混参数(144)的量值(254)之间，而获得所述一或多个在时间上所内插的升混参数(150；262)的量值(274)，

线性地在时间上内插于所述第一复数值升混参数(142)的相位值(256)与所述第二复数值升混参数(144)的相位值(256)之间，而获得所述一或多个在时间上所内插的升混参数的相位值(276)，及

将所述一或多个所内插量值(274)与一或多个相对应的所内插相位值(276)相结合，而获得所述一或多个复数值的在时间上所内插的升混参数(150；262)。

3.根据权利要求1或2所述的装置(100；200)，其中所述参数内插器(140；260)被组配以线性内插于所述第一复数值升混参数(142)的量值(254)与所述第二复数值升混参数(144)的量值(254)之间，而获得所述一或多个在时间上所内插的复数值升混参数(150；262)的所内插量值。

4.根据权利要求1至3中任一权利要求所述的装置(100；200)，其中所述升混器(130；230)被组配以根据该等复数值的在时间上所内插的升混参数(150；262)，来执行多个升混器音频输入信号(x(k)，q(k))之复数值的子带参数的一线性调整叠加，而获得所述升混后的音频信号(120；214)；

其中所述升混器(130；230)被组配以处理表示该等升混器音频输入信号(x(k)，q(k))之接续音频样本的复数值的子带参数序列；且

其中所述参数内插器(140；260)被组配以接收接续复数值升混参数的一表示(142，144；254，256)，该等接续复数值升混参数在时间上分隔开多于该等音频样本之一的一个时段，及

较频繁地更新该等所内插的升混参数(150；262)。

5.根据权利要求4所述的装置(100；200)，其中所述升混器(130；230)被组配以在一升混器更新率下，接收更新后的升混器音频输入信号(x(k)，q(k))，及

其中所述参数内插器(140；260)被组配以在升混器更新率下，更新所内插的升混参数(150；262)。

6.根据权利要求4或5所述的装置(100；200)，其中所述升混器(130；230)被组配以使用包含该等所内插的升混参数(150；262)的一矩阵(H)及包含升混器音频输入信号的子带参数(x(k)，q(k))的一向量

([\begin{matrix} x (k) \\ q (k) \end{matrix}])

来执行一矩阵-向量乘法，结果获得包含升混后的音频信号之复数值的子带参数(y₁，y₂)的一向量

[\begin{matrix} y_{1} (k) \\ y_{2} (k) \end{matrix}] .

7.根据权利要求6所述的装置(100；200)，其中所述升混器(130；230)被组配以使用一实部-虚部数字表示来执行该矩阵-向量乘法。

8.根据权利要求1至7中任一权利要求所述的装置(100；200)，其中所述装置被组配以接收描述该等升混参数的空间线索(ILD，ICC，ITD，IPD)。

9.根据权利要求8所述的装置(100；200)，其中所述参数内插器(140；260)被组配以根据声道间电平差参数，或者根据声道间相关性或相干性参数，或者根据声道间电平差参数及声道间相关性或相干性参数，来判定该等所内插的升混参数(150；262)的量值(274)；及

根据声道间相位差参数或声道间时间差参数来获得该等所内插的升混参数(150；262)的相位值(276)。

10.根据权利要求1至9中任一权利要求所述的装置(100；200)，其中所述升混器(130；230)被组配以应用该等临时可变的升混参数(150；262)来将一或多个降混音频信号(x(k))与该一或多个降混音频信号的一或多个去相关后版本(q(k))相结合。

11.根据权利要求1至10中任一权利要求所述的装置(100；200)，其中所述参数内插器(140；260)被组配以判定在接续复数值升混参数的相位值(256)之间的该内插的一方向，使得在所述第一复数值升混参数(142)的一相位值与所述第二复数值升混参数(144)的一相位值之间的内插所经过的一角度范围小于或等于180°。

12.根据权利要求1至11中任一权利要求所述的装置(100；200)，其中所述参数内插器(140；260)被组配以根据以下等式来计算一所内插的相位值α_i

α_{i} = \{\begin{matrix} (1 - i / i_{\max}) α_{n - 1} + (i / i_{\max}) α_{n} & | α_{n} - α_{n - 1} | < π \\ (({1 - i / i}_{\max}) (α_{n - 1} + 2 π) + (i / i_{\max}) α_{n}) \mod 2 π & α_{n} - α_{n - 1} > π \\ ((1 - i / i_{\max}) α_{n - 1} + (i / i_{\max}) (α_{n} + 2 π)) \mod 2 π & α_{n} - α_{n - 1} < - π \end{matrix}, i = 0 . . . i_{\max},

其中

α_n-1表示所述第一复数值升混参数(142)的一相位值(256)；

α_n表示所述第二复数值升混参数(144)的一相位值(256)；

|.|表示一绝对值运算符；

mod表示一模数-运算符；且

i表示一所内插相位值(276)的一索引，其中i＝0表示与所述第一升混参数(142)相关联的一索引，其中i＝i_max表示与所述第二升混参数(144)相关联的一索引，且其中在0与i_max之间的索引i与在时间上所内插的升混参数(150；262)相关联。

13.根据权利要求1至12中任一权利要求所述的装置(100；200)，其中所述参数内插器(140；260)被组配以通过将一复数值旋转作用于该等所内插量值(274)，来将该等分别所内插的量值(274)及相位值(276)相结合，其中所述复数值旋转的一角度由该等所内插相位值(276)来判定。

14.一种方法(700)，用以将描述一或多个降混音频声道之一降混音频信号升混为描述多个升混后的音频声道之一升混后的音频信号，所述方法包含：

在一第一复数值升混参数及一接续的第二复数值升混参数的基础上，获得(710)一或多个在时间上所内插的复数值升混参数，

其中该内插分别地执行

(a)在所述第一复数值升混参数的一量值与所述第二复数值升混参数的一量值之间，及

(b)在所述第一复数值升混参数的一相位值与所述第二复数值升混参数的一相位值之间；及

应用(720)该等所内插的复数值升混参数来把所述降混音频信号升混，以获得所述升混后的音频信号。

15.一种计算机程序，用以当其在一计算机上运行时，执行如权利要求14所述的方法。