CN102760439A

CN102760439A - 处理立体声音频信号

Info

Publication number: CN102760439A
Application number: CN2012101276698A
Authority: CN
Inventors: 科恩·沃斯
Original assignee: Skype Ltd Ireland
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2011-04-26
Filing date: 2012-04-26
Publication date: 2012-10-31
Anticipated expiration: 2032-04-26
Also published as: KR20140027180A; US20120275604A1; JP6092187B2; US8654984B2; EP2702775B1; CN102760439B; JP2014516425A; EP2702775A1; KR101926209B1; WO2012146658A1

Abstract

本发明针对处理立体声音频信号，公开了一种用于处理输入立体声音频信号的方法、装置和计算机程序产品，其用以生成代表所述输入立体声音频信号的转换后立体声音频信号，所述输入立体声音频信号包括左输入音频信号和右输入音频信号，所述转换后立体声音频信号包括第一转换后音频信号和第二转换后音频信号。第一转换后音频信号是基于左输入音频信号和右输入音频信号的总和生成的。第二转换后音频信号是基于左输入音频信号的第一函数和右输入音频信号的第二函数之间的差生成的。第一函数和第二函数是可调整的从而用以调整转换后立体声音频信号的至少一个特性。

Description

处理立体声音频信号

技术领域

本发明涉及处理立体声音频信号。

背景技术

立体声音频信号是由多个音频信号(或音频“通道”)构成的。例如，可利用位于不同位置处的多个传声器来记录立体声音频信号，从而每个传声器提供在其相应位置处捕获的分离的音频信号。各个音频信号能够被组合以提供更加完整的音响立体声音频信号。人们经常觉察到立体声音频信号为比构成立体声音频信号的各个音频信号中的每个品质高的音频。立体声音频信号能够从多个扬声器输出以将立体声音频信号提供给用户。

在一个示例中，立体声音频信号包括“左”信号(L)和“右”信号(R)。此处使用的术语“左”和“右”不一定表示信号的相对位置。这种立体声音频信号可以从位于不同位置处的两个扬声器输出以便为听到输出的立体声音频信号的用户提供立体声体验。可以期望传送或存储立体声音频信号，为了实现这点，可以将立体声音频信号译码(例如，在数字域中)。可以利用相应的单声道编码器对L和R对这两个信号进行单独译码。这样提供了对音频信号进行译码的简单、有效的方法。以这种方式用两个单声道编解码器对左右通道单独译码被称为“双重单声道编码(dual-mono coding)”。

当对立体声音频信号进行译码时，第一个目的是保持立体声音频信号的音频质量尽可能高。也就是说，当对编码的立体声音频信号进行频繁解码时，应当尽可能地接近原始的立体声音频信号。然而，第二个目的是利用少量数据来表示经译码的立体声音频信号(即，期望具有高的编码效率)。为了存储和传送经译码的立体声音频信号，期望具有高的编码效率。第一个目的和第二个目的会发生冲突。

上述双重单声道编码技术的缺陷是，当左右通道相关时，不能对经译码的立体声音频信号进行有效地编码。换句话说，双重单声道编码技术不能利用L和R通道之间的冗余并且因此具有次优的编码效率。而且，两个单声道编解码器可以引入量化误差分量，所述量化误差分量具有与L音频信号分量和R音频信号分量之间的相关不同的相关。结果，那些误差分量看起来与空间立体声图像(stereo image)中的信号分离，因此对于听者而言变得更加显著。这种效应被称为双耳无屏蔽。如1992年3月出版的IEEE InternationalConference on Acoustics，Speech and Signal Processing中的由J.D.Johnston和A.J.Ferreira发表的“Sum-Difference Stereo Transform Coding”中所描述的，双耳无屏蔽与听者的知觉系统有关，知觉系统能够在空间上隔离噪声，因此不能屏蔽与在立体声音频信号的两个通道中相关的信号分量不相关的噪声分量(或者不能屏蔽与在立体声音频信号的两个通道中不相关的信号分量相关的噪声分量)。换句话说，如果L信号和R信号之间的误差分量的相关与实际的L音频信号和R音频信号的相关不匹配，则对于听者而言在知觉上误差更大。

作为上述双重单声道编码技术的替代编码技术为中/边编码技术(描述于“1992年3月出版的IEEE International Conference on Acoustics，Speech andSignal Processing中的由J.D.Johnston和A.J.Ferreira发表的Sum-DifferenceStereo Transform Coding”)，其中根据下列公式将左右通道转换为中(M)和边(S)通道：

M＝1/2(L+R)，以及

S＝1/2(L-R)。

通过单声道编解码器对中通道和边通道中的信号进行单独编码。应理解的是，中信号M表示左右信号的平均值，边信号S表示左右信号之间的差值的一半。例如，为了存储或传送，能够对M信号和S信号进行单独译码。为了恢复立体声音频信号，解码器能够将M通道和S通道中的信号变换为左右通道表示。例如，如果解码器接收到中通道中的信号M’和边通道中的信号S’，则能够用下列表示来确定左右通道中的信号(L’和R’)：

L’＝M’+S’以及

R’＝M’-S’。

当与上述双重单声道编码技术相比时，当左右信号彼此非常相似时M/S编码技术提高了编码效率和音频质量。这是因为，在此情况下，与表示左信号或右信号所需的数据量相比，边信号S将取能够用少量数据(例如，小的位数)表示的小的值。

然而，当L信号和R信号不是非常相似时，M/S编码技术可能不能提供提高的编码效率和音频质量。

发明内容

发明人已经认识到，在一些情形下能够改进M/S编码技术以便提供比上述M/S编码技术高的编码效率和音频质量。在新技术中，可通过将左右输入通道转换为可各自由相应的单声音频编解码器进行译码的两个新的信号来对立体声音频信号进行编码。在优选的实施例中，这些信号中的第一个为计算为左(L)通道和右(R)通道的平均值的中信号(M)，即，M＝1/2(L+R)而这些信号中的第二个为边信号(S)并且由两个通道之间的加权差值构成，即S＝1/2((1-w)L-(1+w)R)，其中-1≤w≤1。标量参数w可被量化且连同编码信号M和S一起传送给解码器。然后，解码器可以对接收到的中信号和边信号(表示为M’和S’)进行解码，并且随后可利用公式：L’＝(1+w)M’+S’，以及R’＝(1-w)M’-S’，将M’信号和S’信号转换为立体声音频信号的左(L’)信号和右(R’)信号的表示。

根据本发明的第一方案，提供一种处理输入立体声音频信号的方法，其用以生成代表所述输入立体声音频信号的转换后立体声音频信号，所述输入立体声音频信号包括左输入音频信号和右输入音频信号，所述转换后立体声音频信号包括第一转换后音频信号和第二转换后音频信号，所述方法包括：生成第一转换后音频信号，其中第一转换后音频信号基于左输入音频信号和右输入音频信号的总和；生成第二转换后音频信号，其中第二转换后音频信号基于左输入音频信号的第一函数和右输入音频信号的第二函数之间的差，其中第一函数和第二函数是可调整的从而用以调整转换后立体声音频信号的至少一个特性。

优选的实施方案提供了两个有利的特性：

●两个转换音频信号中的一个(例如，第一转换音频信号)对应于输入的立体声音频信号的单声道型式(version)；以及

●每当左右输入音频引号仅在缩放因子上不同时，能够使得另一个转换音频信号(例如，第二转换音频信号)为零。

上述第一个有利的特性使得接收转换后立体声音频信号的解码器的单声道实现的复杂度降低。与解码器的全立体声实现相比，解码器的这种单声道实现使用较少的CPU和存储器资源。这种复杂度节约的原因在于，单声道解码器仅需要对包含单声道表示的转换后立体声音频信号的位流的一部分(即，第一转换音频信号M)进行解码，并且能够忽略其它部分(即，第二转换音频信号S)。实际上，这样可以使解码器中的复杂度以及存储器消耗降低大约一半(因为常规情况是，通过对左右信号进行解码且然后计算这两个信号的平均值来将立体声信号对转换为单声道信号，来实现单声道解码器)。这使得单声道解码器易于在处理大量呼叫的低端硬件或网关上实现和运行，并且节约了电池寿命，这对于例如解码器在移动装置中运算的情况尤其重要。实现解码器的装置可能不具有立体声回放功能，因此，立体声解码器不能提高觉察到的音频质量。使用此处所述的方法，单声道解码器仍能与转换后立体声音频信号位流格式兼容。第一个有利特性因此大幅度降低了对于位流兼容式解码器的最低硬件要求。

上述第二个有利特性提高了编码效率和音频质量。当加权差值信号(例如，第二转换音频信号S)小时，可以较低的位率对加权差值信号进行译码，而不降低音频质量。尤其是，当S为零(或几乎为零)时，在对S音频信号进行编码时不需要占用位(或占用极少的位)。这样可以允许将更大量的位用来对第一转换音频信号M进行译码，因此这样能够提高转换后立体声音频信号的音频质量。作为示例，在上述优选的实施例(其中，M＝1/2(L+R)以及S＝1/2[(1-w)L-(1+w)R])中，当左右输入音频信号相同时(即，当L＝R时)，能够通过将缩放参数w设定为零而将第二转换音频信号S调节为零。在这些优选的实施例中，当左右输入音频信号为零时，通过将缩放参数w设定为与负1相等，也能够使S为零。此外，在这些优选的实施例中，当右输入音频信号为零时，通过将缩放参数w设定为1，也能够使S为零。

上述第二个有利特性也通过避免立体声图像的伪迹(artefact)来提高转换后立体声音频信号的音频质量，立体声图像的伪迹可能导致双耳无屏蔽。这种伪迹是通过在背景技术部分仅对于左右输入音频信号相同的情况所描述的M/S编码技术来避免的。相反，在本发明的实施例中，当对转换后立体声音频信号进行解码时，每当左右输入音频信号的缩放因子相等时(即，每当能够通过将某因子(α)应用于右输入音频信号来提供左输入音频信号的良好近似时，即，当L＝αR时)，解码立体声音频信号的左右音频信号的量化误差之间的相关与左右输入音频信号之间的相关相等。这使得转换后立体声音频信号中的编码伪迹的双耳屏蔽最优。

本方法可以包括：使用相应单声道译码器对第一和第二转换后音频信号进行译码。

本方法还可以包括：分析左、右输入音频信号以确定对于第一和第二函数的最佳函数；以及根据确定出的最佳函数来调整第一和第二函数。

在优选实施例中，第一和第二函数是相互相关的。例如，当调整函数时第一和第二函数的总和可以是常数。在一个实例中，第一转换后音频信号M和第二转换后音频信号S由下式给出：

M＝1/2(L+R)；

S＝1/2((1-w)L-(1+w)R)；

上式中L和R分别表示左、右输入音频信号，w是缩放参数，其中第一函数由(1-w)给出，第二函数由(1+w)给出。

转换后立体声音频信号的至少一个特性可以包括转换后立体声音频信号的编码效率和音频质量的至少其中之一。

本方法还可以包括：分析左、右输入音频信号；以及如果对左、右输入音频信号的分析表明切换到双重单声道编码模式将提高转换后立体声音频信号的编码效率或音频质量，则切换到双重单声道编码方式。

生成第二转换后音频信号的步骤可以包括：

将第一函数应用到左输入音频信号以生成调整后左输入音频信号；

将第二函数应用到右输入音频信号以生成调整后右输入音频信号；以及

确定调整后左输入音频信号和调整后右输入音频信号之间的差。

本方法可以包括：

确定左、右输入音频信号的总和；

确定左、右输入音频信号之间的差；以及

将调整函数应用到确定出的左、右输入音频信号的总和以生成调整信号，

其中第二转换后音频信号是基于在左、右输入音频信号之间确定出的差与调整信号之间的差生成的。

第一和第二函数可以是第一和第二缩放因子。可选地，第一和第二函数可以由预测滤波器的滤波器系数确定。

根据本发明的第二方案，提供一种用于处理输入立体声音频信号从而生成代表所述输入立体声音频信号的转换后立体声音频信号的装置，所述输入立体声音频信号包括左输入音频信号和右输入音频信号，所述转换后立体声音频信号包括第一转换后音频信号和第二转换后音频信号，所述装置包括：第一生成器件，其配置为生成第一转换后音频信号，其中第一转换后音频信号基于左输入音频信号和右输入音频信号的总和；第二生成器件，其配置为生成第二转换后音频信号，其中第二转换后音频信号基于左输入音频信号的第一函数和右输入音频信号的第二函数之间的差，其中第一函数和第二函数是可调整的从而用以调整转换后立体声音频信号的至少一个特性。

所述装置还可包括：第一单声道译码器，其配置为对第一转换后音频信号进行译码；以及第二单声道译码器，其配置为对第二转换后音频信号进行译码。所述装置还可包括传送器，其配置为将带有第一和第二函数的指示的转换后立体声音频信号传送至解码器。

根据本发明的第三方案，提供一种由已从输入立体声音频信号生成的转换后立体声音频信号生成输出立体声音频信号的方法，所述输入立体声音频信号包括左输入音频信号和右输入音频信号，所述转换后立体声音频信号包括第一转换后音频信号和第二转换后音频信号，所述第一转换后音频信号和所述第二转换后音频信号根据至少一个函数而与左输入音频信号和右输入音频信号相关，所述输出立体声音频信号包括左输出音频信号和右输出音频信号，所述方法包括：接收带有所述至少一个函数的指示的第一和第二转换后音频信号；生成右输出音频信号，其中右输出音频信号基于第一转换后音频信号的第一解码函数和第二转换后音频信号的总和；以及生成左输出音频信号，其中左输出音频信号基于第一转换后音频信号的第二解码函数和第二转换后音频信号之间的差，其中根据接收到的所述至少一个函数的指示来确定第一和第二解码函数，使得生成的左、右输出音频信号代表左、右输入音频信号。

第一转换后音频信号可以基于左输入音频信号和右输入音频信号的总和，以及第二转换后音频信号可以基于左输入音频信号的第一函数和右输入音频信号的第二函数之间的差，并且所述至少一个函数可以包括第一函数和第二函数。

本方法还包括：在生成右输出音频信号和生成左输出音频信号的所述步骤之前，使用相应的单声道解码器对接收到的第一和第二转换后音频信号进行解码。本方法还包括：输出所述输出立体声音频信号。

在优选实施例中，左输出音频信号L’和右输出音频信号R’由下式给出：

L’＝(1+w)M’+S’；以及

R’＝(1-w)M’-S’，

上式中M’和S’分别表示接收到的第一和第二转换后音频信号，w是缩放参数，其中第三解码函数由(1-w)给定，第四解码函数由(1+w)给定。

根据本发明的第四方案，提供一种在非瞬时计算机可读介质上实施的计算机程序产品，包括代码，所述代码配置为当在装置的一个或多个处理器上执行时实行以上的操作。

根据本发明的第五方案，提供一种用于由已从输入立体声音频信号生成的转换后立体声音频信号生成输出立体声音频信号的装置，所述输入立体声音频信号包括左输入音频信号和右输入音频信号，所述转换后立体声音频信号包括第一转换后音频信号和第二转换后音频信号，所述第一转换后音频信号和所述第二转换后音频信号根据至少一个函数而与左输入音频信号和右输入音频信号相关，所述输出立体声音频信号包括左输出音频信号和右输出音频信号，所述装置包括：接收器，其配置为接收带有所述至少一个函数的指示的第一和第二转换后音频信号；第一生成器件，其配置为生成右输出音频信号，其中右输出音频信号基于第一转换后音频信号的第一解码函数和第二转换后音频信号的总和；第二生成器件，其配置为生成左输出音频信号，其中左输出音频信号基于第一转换后音频信号的第二解码函数和第二转换后音频信号之间的差；以及确定器件，其配置为根据接收到的所述至少一个函数的指示来确定第一和第二解码函数，使得生成的左、右输出音频信号代表左、右输入音频信号。

所述设备还可包括：第一单声道解码器，其配置为对接收到的第一转换后音频信号进行解码；以及第二单声道解码器，其配置为对接收到的第二转换后音频信号进行解码。

根据本发明的第六方案，提供一种系统，包括：根据本发明第二方案所述的第一装置，用于处理输入立体声音频信号以生成转换后立体声音频信号；以及根据本发明第五方案所述的第二装置，用于接收转换后立体声音频信号以及生成输出立体声音频信号。

附图说明

为了更好的理解本发明并且为了示出如何对本发明进行实施，现在将通过示例的方式对下图进行参考说明，其中：

图1示出了根据优选实施例的系统；

图2示出了根据第一实施例的音频译码器块和音频解码器块；

图3为根据优选实施例的用于处理立体声音频信号的过程的流程图；

图4示出了根据第二实施例的音频译码器块和音频解码器块；以及

图5示出了根据第三实施例的音频译码器块和音频解码器块。

具体实施方式

现在将仅通过示例的方式对本发明的优选实施例进行描述。

图1示出了根据优选实施例的系统100。系统100包括第一节点102和第二节点104。第一节点102被布置为接收立体声音频信号，对立体声音频信号进行译码并且将经译码的立体声音频信号传送到第二节点104。第二节点104被布置为对从第一节点102接收的立体声音频信号进行解码并且输出立体声音频信号。为此，第一节点102包括例如传声器106的音频输入器件和音频译码器块108，而第二节点104包括音频解码器块110和例如扬声器112的音频输出器件。传声器106被配置为接收立体声音频信号并且将立体声音频信号传递到音频译码器块108。音频译码器块108被配置为对立体声音频信号进行译码。经译码的立体声音频信号能够从第一节点102被传送(例如经由图1中未示出的传送器)。经译码的立体声音频信号能够在第二节点104处被接收(例如使用图1中未示出的接收器)并且被传递到音频解码器块110。音频解码器块110被配置为对立体声音频信号进行解码。音频解码器块110的解码过程对应于音频译码器块108的译码过程，使得立体声音频信号能够被正确地解码。例如，解码过程可以与译码过程相反。经解码的立体声音频信号从音频解码器块110传递到扬声器112并且从扬声器112输出。

传声器106能够接收立体声音频信号。为了接收立体声音频信号，各个传声器106能够接收单独的输入音频信号(例如左音频信号或右音频信号)。在现有技术中已知不同类型的用于接收立体声音频信号的传声器106，因而这里不再详细对其进行描述。类似的，扬声器112能够输出立体声音频信号。为了输出立体声音频信号，各个扬声器112能够输出单独的音频信号(例如左音频信号或右音频信号)。在现有技术中已知不同类型的用于输出立体声音频信号的扬声器112，因而这里不再详细对其进行描述。

在一个示例中，传声器106对在第一节点102的位置处出现的立体声音频信号(例如来自第一节点102的用户的音乐或语音)进行记录。立体声音频信号被处理并且被发送到第二节点104的扬声器112并且从第二节点104的扬声器112输出，例如立体声音频信号被发送到第二节点104的用户。对于收听者来说，立体声音频信号经常被感觉到比相应的单声道音频信号的质量更高。

为了允许以高质量对立体声音频信号进行的有效编码用于诸如系统100的系统中，本发明的实施例涉及在音频译码器块108和音频解码器块110中使用的处理过程。

在上述背景技术部分中描述的M/S编码技术中(其中M＝(L+R)/2和S＝(L-R)/2)，当左信号和右信号高度相关但在能级上不同时，立体声音频信号的编码效率和音频质量会很差。这种情况例如在单声道信号被“幅值平移”(“amplitude panned”)以产生立体声信号时会发生。幅值平移(amplitudepanning)是在录音室和播音室中常用的技术。

在一种方法中，在计算差异信号时使用自适应增益(g)，使得通过下列公式给出中信号和边信号(M和S)：

M＝1/2(L+R)

S＝1/2(L-gR)。

这些信号被单独编码并且能与增益值g一起发送到解码器。解码器接收中信号和边信号(M’和S’)并且根据下列公式能将这些接收到的信号转换回左表示(representation)和右表示(L’和R’)：

L’＝2(gM’+S’)/(1+g)

R’＝2(M’-S’)/(1+g)。

当左信号和右信号高度相关并且在能级上相当接近时，自适应增益值(g)的使用能够提高立体声音频信号的编码质量，因为增益值能够自适应成使得边信号S可以具有较低能量。

然而，使用自适应增益技术的缺点在于，性能是不对称的(即，对于左音频信号和右音频信号来说是不同的)。当左通道上的信号为零时，边信号S可以通过将增益设定为零(g＝0)而为零并且性能是良好的。另一方面，当右通道上的信号为零时，信号S变得与信号M相同，并且因为单声道编解码器对同一信号编码两次因此编码效率降低。而且，当为了最小化信号S而使右通道上的信号的能级为低并且增益为大时，性能会变差。在这种情况下，右输入信号中的量化噪声被放大，这会使单声道编解码器对边信号S的操作效率变低。因此，在实践中增益值g不能变得大于1很多。

本发明的实施例提供了一种可以克服上述自适应增益编码技术存在的问题中的至少一些问题的编码技术。

参照图2，现在描述根据第一实施例的音频译码器块108和音频解码器块110。音频译码器块108包括第一混音器202、第二混音器204、第一缩放元件206、第二缩放元件208、第三缩放元件210、第四缩放元件212、第一单声道译码器214以及第二单声道译码器216。音频解码器块110包括第一单声道解码器218、第二单声道解码器220、第五缩放元件222、第六缩放元件226、第三混音器224以及第四混音器228。音频译码器块108被配置为接收输入音频信号作为左音频信号和右音频信号(L和R)。L音频信号联接到第一混音器202的第一正输入端并且联接到第一缩放元件206的输入端。R音频信号联接到第一混音器202的第二正输入端并且联接到第二缩放元件208的输入端。第一缩放元件206的输出端联接到第二混音器204的正输入端。第二缩放元件208的输出端联接到第二混音器204的负输入端。第一混音器202的输出端联接到第三缩放元件210的输入端。第三缩放元件210(M)的输出端联接到第一单声道译码器214的输入端。第二混音器204的输出端联接到第四缩放元件212的输入端。第四缩放元件212(S)的输出端联接到第二单声道译码器216的输入端。第一单声道译码器214的输出端联接到第一单声道解码器218的输入端(例如，经由第一节点108的传送器和第二节点110的接收器)。第二单声道译码器216的输出端联接到第二单声道解码器220的输入端(例如，经由第一节点108的传送器和第二节点110的接收器)。第一单声道解码器218(M’)的输出端联接到第五缩放元件222的输入端并且联接到第六缩放元件226的输入端。第五缩放元件222的输出端联接到第三混音器224的第一正输入端。第六缩放元件226的输出端联接到第四混音器228的正输入端。第二单声道解码器220的输出端联接到第三混音器224的第二正输入端并且联接到第四混音器228的负输入端。第三混音器224(L’)的输出是从音频解码器块110的输出。第四混音器228(R’)的输出是从音频解码器块110的输出。

现在将参考图3的流程图描述译码器块108和解码器块110的操作。

在步骤S302中，在译码器块108处从传声器106接收输入的音频信号(L和R)。在步骤S304中，L信号和R信号用于生成中信号(M)和边信号(S)。为此，L信号通过混音器202与R信号相加。混音器202的输出通过缩放元件210以因子0.5缩放以提供中信号M。因此，可以看出中信号M由M＝(L+R)/2得出。L信号通过缩放元件206以因子1-w缩放并且R信号通过缩放元件208以因子1+w缩放。然后混音器204得出缩放后的L和R信号的差。也就是说，混音器204从缩放元件206的输出减去缩放元件208的输出。混音器204的输出通过缩放元件212以因子0.5缩放以提供边信号S。因此，可以看出中信号(M)和边信号(S)通过如下等式得出：

M＝1/2(L+R)； (1a)

S＝1/2((1-w)L-(1+w)R)。(1b)

在范围|1|w|1中选择缩放参数w。

在步骤S306中，中信号M通过单声道译码器214译码并且边信号S通过单声道译码器216译码。两个音频信号(M和S)因此分别译码。本领域技术人员会了解用于在单声道译码器214和216中对音频信号M和S进行译码的可用技术，如上所述，单声道译码器214和216的精确的操作细节在此不再进行讨论。

在步骤S308中，译码的M信号和S信号从第一节点102传送到第二节点104。缩放参数w与译码的M信号和S信号被量化并且从第一节点102传送到第二节点104。译码的M信号和S信号和缩放参数w在第二节点110的音频解码器块110处被接收。特别地，译码的M信号在第一单声道解码器218处被接收并且译码的S信号在第二单声道解码器220处被接收。

在步骤S310中，译码的M信号和S信号被解码。第一单声道解码器218对译码的M信号进行解码以提供中信号(M’)，并且第二单声道解码器220对译码的S信号进行解码以提供边信号(S’)。解码的M’信号和S’信号由符号“’”表示，因为它们可能不是与输入到第一节点102处的单声道译码器214和216的M信号和S信号精确地匹配。如果单声道编解码器214、216、218和220的译码和解码处理是理想的并且如果在第一节点102和第二节点104之间的译码的M信号和S信号的传送完全无损失，那么解码的信号M’和S’可能与输入到单声道译码器214和216的M信号和S信号相同。然而，在实际的物理系统中，译码和解码处理可能不是理想的并且可能存在译码的M信号和S信号的一些损失或者失真，因为它们在第一节点102和第二节点104之间传送并且如上所述，M’可能不等于M并且S’可能不等于S。

在步骤S312中，在音频解码器块110中从解码的M’信号和S’信号生成左信号和右信号(L’和R’)。音频解码器块110接收缩放参数w的值和译码的音频信号并且使用接收的缩放参数的值来设定由缩放元件222和226应用的缩放因子。M’信号通过缩放元件222以因子(1+w)缩放并且然后缩放后的M’信号通过混音器224与S’信号相加。混音器224的输出用作L’信号。M’信号通过缩放元件226以因子(1-w)缩放并且然后混音器228求出缩放后的M’信号和S’信号之间的差。也就是说，混音器228从缩放元件226的输出中减去S’信号。混合器228的输出用作R’信号。因此，可以看出左信号L’和右信号R’通过如下等式得出：

L’＝(1+w)M’+S’；(2a)

R’＝(1-w)M’-S’。(2b)

L’信号和R’信号从音频解码器块110输出并且传输到扬声器112。在步骤S314中，L’信号和R’信号从扬声器112输出从而将来自第二节点104的立体声音频信号输出到例如第二节点104的用户。

由上述等式1a和1b可见，中信号(M)对应于两个输入通道(L和R)的单声道型式，并且所述边信号(S)包括L的缩放后的型式和R的缩放后的型式之间的差。如上所述，和解码器的全立体声执行相比，解码器的单声道执行使用更少的CPU和存储器资源。该复杂性降低的原因在于单声道解码器仅仅需要对传送的立体声音频信号的比特流的包含单声道表示的一部分(即译码的M信号)进行解码，并且能够忽略其他部分(即译码的S信号)。在实践中，这可以降低复杂性并且将解码器中的存储器消耗降低大约一半。这使得单声道解码器更易于在低端硬件或者网关上执行和运行以处理大量的呼叫，并且节约在例如解码器在移动设备中操作的情况下尤其重要的电池寿命。解码器在其中被执行的设备可能没有立体声回放能力(例如，第二节点104可能仅仅具有一个扬声器112)并且，如上所述，立体声解码器将不会改善观察的音频质量。使用这里描述的方法，单声道解码器将仍然与转换后立体声音频信号比特流形式相兼容。

缩放参数w能够被调整为使得每当L信号和R信号仅仅缩放因子不同时边信号S能够为零。缩放参数w能够在操作期间被调整，从而确保边信号S在整个处理中最小化。特别地，L信号和R信号能够被分析以确定如何设定w，以及因此如何调整应用到L信号和R信号的缩放。缩放参数保持在范围|1|w|1内，这有利地确保在L信号和R信号中的量化噪声没有放大。

由此可见，由缩放元件206和208应用到L信号和R信号的缩放因子相互相关。换句话说，如果应用到L信号的缩放因子改变，那么应用到R信号的缩放因子也改变。事实上，缩放因子(1-w)和(1+w)总是相加为常数。在上述优选的实施例中，它们相加得2。通过缩放元件212应用的缩放使混音器204的输出减半。这样，缩放参数w的值设定传输到混音器204的L和R的比例。如上所述，有利的是减少表示边信号S所需的数据量从而改善编码效率和立体声音频信号的音频质量。

作为示例，通过当左右输入音频信号相同时(即当L＝R时)将缩放参数w设定为零，能够使得S为零。在这些优选实施例中，通过将缩放参数w设定为等于负一，当左输入音频信号为零时，也能够使S为零。此外，在这些优选实施例中，通过将缩放参数w设定为等于一，当右输入音频信号为零时，也能够使S为零。因此在优选实施例中，缩放参数w根据L信号和R信号的分析结果而设定从而使得边信号S的能量最小化。

如上所述，缩放参数w可以被优化为最大编码效率和音频质量。最接近目标的是选择w为使得边信号S的能量最小化。这可以通过最小平方解法实现：

w＝1/2(L-R)^TM/(M^TM)，

其中L、R和M表示为列矢量并且(.)^T指代变换函数。由于缩放参数w被编码并且传送到解码器，所以有利地以低于音频信号的样本率取样。一个方法是发送立体声音频信号的每帧或者每子帧的一个w值。为了避免不连续性，有利的是随时间插入w。

如上所述，通过避免可能导致双耳无屏蔽的立体声图像的伪迹，使S信号的能量最小化改善了转换后立体声音频信号的音频质量。

结合图4，现在将描述根据第二实施例的音频译码器块108和音频解码器块110。第二实施例的音频译码器块108音频解码器块110以不同的方式达到与第一实施例相同的结果。

音频译码器块108包括第一混合器402、第二混合器404、第三混合器406、第一缩放元件408、第二缩放元件410、第三缩放元件412、第一单声道译码器414和第二单声道译码器416。音频解码器块110包括第一单声道解码器418、第二单声道解码器420、第四缩放元件422、第四混合器424、第五混合器426和第六混合器428。音频译码器块108被配置为从传声器106处接收L信号和R信号。L信号联接到混合器402的第一正输入端以及混合器404的正输入端。R信号联接到混合器402的第二正输入端以及混合器404的负输入端。混合器402的输出端联接到缩放元件408和410的输入端。缩放元件408的输出端联接到混合器406的负输入端。混合器404的输出端联接到混合器406的正输入端。混合器406的输出端联接到缩放元件412的输入端。缩放元件410的输出端联接到单声道译码器414的输入端。缩放元件412的输出端联接到单声道译码器416的输入端。单声道译码器414的输出端联接到单声道解码器418的输入端。单声道译码器416的输出端联接到单声道解码器420的输入端。单声道解码器418的输出端联接到混合器424的第一正输入端、混合器428的正输入端以及缩放元件422的输入端。缩放元件422的输出端连接到混合器426的第一正输入端。单声道解码器420的输出端联接到混合器426的第二正输入端。混合器426的输出端联接到混合器424的第二正输入端以及混合器428的负输入端。混合器424的输出为从音频解码器块110的输出，作为L信号。混合器428的输出为从音频解码器块110的输出，作为R信号。

如图4所示的音频译码器提供如结合图2所述的相同的M信号和S信号，因此可以获得与结合图2所描述的相同的优点，但是是以不同的方式实现的。M信号是以相同的方式生成的，也就是说，通过使得L信号和R信号相加，然后用因子1/2对所述相加结果进行缩放。

然而，S信号是这样生成的：首先利用混合器404找到L信号和R信号之间的差，也就是说，通过从L信号中减去R信号；通过缩放元件408利用因子w缩放L信号和R信号的和，然后混合器406找到混合器404的输出和缩放元件408的输出之间的差，也就是说，通过从混合器404中减去缩放元件408的输出；然后，用因子1/2对混合器406的输出进行缩放以生成S信号。可以利用以下等式来表达这些运算：

M＝1/2(L+R)； (3a)

S＝1/2(L-R)-wM。 (3b)

可以意识到，等式3a与等式1a是相同的。此外，通过对等式进行一些重新排列，等式3b将与等式1b相同。因此，图4所示的音频译码器块108可以获得与图2所示的音频译码器块108相同的结果。

图4所示的音频解码器提供如结合图2所述的相同的L’信号和R’信号，因此可以获得与结合图2所描述的相同的优点，但是是以不同的方式实现的。经解码的中信号M’在缩放元件422中由因子w所缩放，然后混合器426将缩放元件422的输出与经解码的边信号S’相加。混合器426的输出与M’信号在混合器424中相加以提供L’信号。混合器428判定M’信号和混合器426的输出之间的差。也就是说，从混合器426的输出中减去M’信号以提供R’信号。因此L’信号和R’信号是通过如结合图2相同的等式(等式2a和2b)给出的，也即：

L’＝(1+w)M’+S’；(4a)

R’＝(1-w)M’-S’。(4b)

现在结合图5描述根据第三实施例的音频译码器块108和音频解码器块110。第三实施例类似于第二实施例，因而使用相应的附图标记表示图4所示的相应元件。

第三实施例(如图5所示)和第二实施例(如图4所示)之间的区别在于缩放元件408由具有过滤器系数P(Z)的过滤器508所替代，以及缩放元件422由具有过滤器系数P(Z)的过滤器522所替代。这样，如图5所示，第三实施例用过滤器P(z)代替缩放系数。过滤器508的输出代表基于和信号(L+R)预测差信号(L-R)。可以选择过滤器系数以使得信号S的能量为最小。过滤器系数被量化且被传送到音频解码器块110。音频解码器块110使用从音频译码器块108处接收到的过滤器系数来在过滤器522中应用正确的过滤器系数，从而根据M’信号和S’信号正确地恢复L’信号和R’信号。

在这里描述的所有实施例中，在根据M’和S’计算L’和R’的音频解码器块110中的解码器转换处理正是在根据L和R计算M和S的音频译码器块108中的译码器转换处理的反转。这意味着所述系统实施完全的重构：如果单声道译码器和解码器是无损的(即，没有引入编码误差)，那么左和右输出信号(L’和R’)能够随意地接近输入信号(L和R)。

所述方法可以与切换到双声道-单声道编码模式的方法结合，无论何时这样做，都可以依赖输入信号改善编码效率或者经译码的立体声音频信号的音频质量。可以讲在编码技术中的切换告知音频解码器块110，从而音频解码器块110能对经译码的立体声音频信号正确地进行解码。

在次能带信号或变换域系数，这里所描述的方法可以应用到时域。当在时域中操作所述方法时，有利的是对左和右信号(L和R)进行时间调整，可参考2005年10月的“Flexible Sum-Difference Stereo Coding Based on TimeAligned Signal Components”，J.Lindblom，J.H.Plasberg，R.Vafin，IEEEWorkshop on Applications of Signal Processing to Audio and Acoustics。所述时间调整是这样完成的：在译码器中利用独立的适应性延迟对左和右输入信号L和R进行延迟。在解码器中，也对输出信号L’和R’进行延迟，从而使得这些信号之间的相对时间(timing)与输入信号L和R的相对时间相等。

在上述实施例中，将经译码的立体声音频信号传送到另一节点处，在该节点处对所述信号进行解码。在可选实施例中，未将所述经译码的立体声信号传送到另一节点处，而是相反地在对信号进行译码的节点处(例如，第一节点102)对所述信号进行解码。例如，可以讲经译码的立体声信号存储在第一节点102出的存储器中。随后，将经译码的立体声音频信号从存储器中取回，并在第一节点102处利用与上述块110对应的音频解码器块对所述信号进行解码，并且例如利用第一节点102的扬声器在第一节点102处输出信号L’和R’。

以上所描述的方法和功能性元件可以用软件或硬件进行实施。例如，如果音频译码器块108和音频解码器块110是以软件实施的，那么可以通过在第一节点102和/或第二节电104处利用军事家处理器件执行一个以上计算机程序产品来实施。

以上所描述的音频译码器块108和音频解码器块110是在数字域中运行的，即，音频信号为数字音频信号。在可选实施例中，音频译码器块108和音频解码器块110可以在模拟域中运行，其中音频信号为模拟音频信号。

在另一个实例中，可以根据以下等式生成M信号和S信号：

M＝0.4L+0.6R；以及

S＝0.4(1-w)L-0.6(1+w)R。

在该实例中，可以通过相应地调整缩放参数而使得S信号仍旧为最小。然而，M信号不再表示立体声音频信号的单声道版本。

在该实例中，仍旧可以相同的方式根据以下等式操作解码器：

L’＝(1+w)M’+S’；以及

R’＝(1-w)M’-S’。

因此，可以看出用于对M信号和S信号进行译码的精确方法可能在所有的情况中对于能够正确解码信号的解码器而言并不是相同的。

此外，虽然已经结合优选实施例对本发明做出了特定的表述，但是本领域中的技术人员可以理解的是可以在不背离随附权利要求所限定的本发明的范围内在形式和细节上做出各种变化。

Claims

1.一种处理输入立体声音频信号的方法，其用以生成代表所述输入立体声音频信号的转换后立体声音频信号，所述输入立体声音频信号包括左输入音频信号和右输入音频信号，所述转换后立体声音频信号包括第一转换后音频信号和第二转换后音频信号，所述方法包括：

生成第一转换后音频信号，其中第一转换后音频信号基于左输入音频信号和右输入音频信号的总和；

生成第二转换后音频信号，其中第二转换后音频信号基于左输入音频信号的第一函数和右输入音频信号的第二函数之间的差，

其中第一函数和第二函数是可调整的从而用以调整转换后立体声音频信号的至少一个特性。

2.根据权利要求1所述的方法，还包括使用相应的单声道译码器对第一转换后音频信号和第二转换后音频信号进行译码。

3.根据权利要求1所述的方法，还包括将带有第一函数和第二函数的指示的转换后立体声音频信号传送至解码器。

4.根据权利要求3所述的方法，其中所述指示在立体声音频信号的每帧被传送一次。

5.根据权利要求1所述的方法，还包括：

分析左、右输入音频信号以确定对于第一函数和第二函数的最佳函数；以及

根据确定出的最佳函数来调整第一函数和第二函数。

6.根据权利要求5所述的方法，其中确定最佳函数以便最小化第二转换后音频信号。

7.根据权利要求1所述的方法，其中第一函数和第二函数是相互相关的。

8.根据权利要求7所述的方法，其中当调整函数时第一函数和第二函数的总和是常数。

9.根据权利要求1所述的方法，其中第一转换后音频信号M和第二转换后音频信号S由下式给出：

M＝1/2(L+R)

S＝1/2((1-w)L-(1+w)R)

上式中L和R分别表示左输入音频信号和右输入音频信号，w是缩放参数，其中第一函数由(1-w)给出，第二函数由(1+w)给出。

10.根据权利要求1所述的方法，其中转换后立体声音频信号的至少一个特性包括转换后立体声音频信号的编码效率和音频质量的至少其中之一。

11.根据权利要求1所述的方法，还包括：

分析左输入音频信号和右输入音频信号；以及

如果对左输入音频信号和右输入音频信号的分析表明切换到双重单声道编码模式将提高转换后立体声音频信号的编码效率或音频质量，则切换到双重单声道编码方式。

12.根据权利要求1所述的方法，其中生成第二转换后音频信号的步骤包括：

13.根据权利要求1所述的方法，其中所述方法包括：

确定左输入音频信号和右输入音频信号的总和；

确定左输入音频信号和右输入音频信号之间的差；以及

将调整函数应用到确定出的左输入音频信号和右输入音频信号的总和以生成调整信号，

其中第二转换后音频信号是基于在左输入音频信号和右输入音频信号之间确定出的差与调整信号之间的差生成的。

14.根据权利要求1所述的方法，其中第一函数和第二函数是第一缩放因子和第二缩放因子。

15.根据权利要求1所述的方法，其中第一函数和第二函数是由预测滤波器的滤波器系数确定的。

16.一种在非瞬时计算机可读介质上实施的计算机程序产品，包括代码，所述代码配置为当在装置的一个或多个处理器上执行时实行根据权利要求1所述的操作。

17.一种用于处理输入立体声音频信号的装置，其用以生成代表所述输入立体声音频信号的转换后立体声音频信号，所述输入立体声音频信号包括左输入音频信号和右输入音频信号，所述转换后立体声音频信号包括第一转换后音频信号和第二转换后音频信号，所述装置包括：

第一生成器件，其配置为生成第一转换后音频信号，其中第一转换后音频信号基于左输入音频信号和右输入音频信号的总和；

第二生成器件，其配置为生成第二转换后音频信号，其中第二转换后音频信号基于左输入音频信号的第一函数和右输入音频信号的第二函数之间的差，

18.根据权利要求17所述的装置，还包括：

第一单声道译码器，其配置为对第一转换后音频信号进行译码；以及

第二单声道译码器，其配置为对第二转换后音频信号进行译码。

19.根据权利要求17所述的装置，还包括传送器，其配置为将带有第一函数和第二函数的指示的转换后立体声音频信号传送至解码器。

20.一种由转换后立体声音频信号生成输出立体声音频信号的方法，所述转换后立体声音频信号已从输入立体声音频信号生成，所述输入立体声音频信号包括左输入音频信号和右输入音频信号，所述转换后立体声音频信号包括第一转换后音频信号和第二转换后音频信号，所述第一转换后音频信号和所述第二转换后音频信号根据至少一个函数而与左输入音频信号和右输入音频信号相关，所述输出立体声音频信号包括左输出音频信号和右输出音频信号，所述方法包括：

接收带有所述至少一个函数的指示的第一转换后音频信号和第二转换后音频信号；

生成右输出音频信号，其中右输出音频信号基于第一转换后音频信号的第一解码函数和第二转换后音频信号的总和；以及

生成左输出音频信号，其中左输出音频信号基于第一转换后音频信号的第二解码函数和第二转换后音频信号之间的差，

其中根据接收到的所述至少一个函数的指示来确定第一解码函数和第二解码函数，使得生成的左输出音频信号和右输出音频信号代表左输入音频信号和右输入音频信号。

21.根据权利要求20所述的方法，其中(i)第一转换后音频信号基于左输入音频信号和右输入音频信号的总和；以及(ii)第二转换后音频信号基于左输入音频信号的第一函数和右输入音频信号的第二函数之间的差，并且其中所述至少一个函数包括第一函数和第二函数。

22.根据权利要求20所述的方法，其中已根据权利要求1所述的方法生成了转换后立体声音频信号。

23.根据权利要求20所述的方法，还包括在生成右输出音频信号和生成左输出音频信号的所述步骤之前，使用相应的单声道解码器对接收到的第一转换后音频信号和第二转换后音频信号进行解码。

24.根据权利要求20所述的方法，还包括输出所述输出立体声音频信号。

25.根据权利要求20所述的方法，其中左输出音频信号L’和右输出音频信号R’由下式给出：

L’＝(1+w)M’+S’；以及

R’＝(1-w)M’-S’，

上式中M’和S’分别表示接收到的第一转换后音频信号和第二转换后音频信号，w是缩放参数，其中第一解码函数由(1-w)给出，第二解码函数由(1+w)给出。

26.一种在非瞬时计算机可读介质上实施的计算机程序产品，包括代码，所述代码配置为当在装置的一个或多个处理器上执行时实行根据权利要求20所述的操作。

27.一种用于由转换后立体声音频信号生成输出立体声音频信号的装置，所述转换后立体声音频信号已从输入立体声音频信号生成，所述输入立体声音频信号包括左输入音频信号和右输入音频信号，所述转换后立体声音频信号包括第一转换后音频信号和第二转换后音频信号，所述第一转换后音频信号和所述第二转换后音频信号根据至少一个函数而与左输入音频信号和右输入音频信号相关，所述输出立体声音频信号包括左输出音频信号和右输出音频信号，所述装置包括：

接收器，其配置为接收带有所述至少一个函数的指示的第一转换后音频信号和第二转换后音频信号；

第一生成器件，其配置为生成右输出音频信号，其中右输出音频信号基于第一转换后音频信号的第一解码函数和第二转换后音频信号的总和；以及

第二生成器件，其配置为生成左输出音频信号，其中左输出音频信号基于第一转换后音频信号的第二解码函数和第二转换后音频信号之间的差，

确定器件，其配置为根据接收到的所述至少一个函数的指示来确定第一解码函数和第二解码函数，使得生成的左输出音频信号和右输出音频信号代表左输入音频信号和右输入音频信号。

28.根据权利要求27所述的设备，还包括：

第一单声道解码器，其配置为对接收到的第一转换后音频信号进行解码；

第二单声道解码器，其配置为对接收到的第二转换后音频信号进行解码。

29.一种系统，包括：

根据权利要求17所述的第一装置，用于处理输入立体声音频信号以生成转换后立体声音频信号；以及

根据权利要求27所述的第二装置，用于接收转换后立体声音频信号以及生成输出立体声音频信号。