CN101124740B

CN101124740B - 多声道音频信号编码和解码的方法和装置和音频传送系统

Info

Publication number: CN101124740B
Application number: CN2005800485035A
Authority: CN
Inventors: A·塔勒布; S·安德森
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2005-02-23
Filing date: 2005-12-22
Publication date: 2012-05-30
Anticipated expiration: 2025-12-22
Also published as: JP5171269B2; CN101128867B; US20060246868A1; ES2389499T3; ATE521143T1; EP1851866A4; CN101124740A; CN101128866B; CN101128866A; EP1851866B1; JP2008529056A; JP4809370B2; WO2006091139A1; US7822617B2; CN101128867A; US20060195314A1; ATE518313T1; JP2008532064A; EP1851866A1; US7945055B2

Abstract

本发明提供用于对多声道音频信号进行编码的极有效技术。本发明依靠以下基本原理：在第一编码器(130)中对多个声道的一个或多个的第一信号表示进行编码，以及在第二多级编码器(140)中对多个声道的一个或多个的第二信号表示进行编码。通过提供用于根据多声道音频信号特性在第二多级编码器(140)的不同编码级之中自适应地分配编码位数量的控制器(150)，这个程序得到显著增强。

Description

多声道音频信号编码和解码的方法和装置和音频传送系统

技术领域

一般来说，本发明涉及音频编码和解码技术，更具体来说，涉及多声道音频编码、如立体声编码。

背景技术

对于在保持高音频质量的同时以低比特率发送和存储音频信号存在极大的市场需要。具体来说，在发送资源或存储装置受到限制的情况中，低比特率操作是主要的成本因素。例如，在诸如GSM、UMTS或CDMA之类的移动通信系统的流播和消息传递应用中，情况通常是这样。

采用多声道编码和解码的音频传送系统的一般实例如图1示意说明。整个系统主要包括发送侧的多声道音频编码器100和发送模块10以及接收侧的接收模块20和多声道音频解码器200。

音频信号的立体声或多声道编码的最简单方式是把不同声道的信号分别编码为各个独立信号，如图2所示。但是，这意味着，不删除多个声道之间的冗余度，以及比特率要求将与声道的数量成正比。

立体声FM无线电传送中使用的并且确保与遗留单声道无线电接收器的兼容性的另一种基本方式是发送两个有关声道的和及差信号。

现有技术的音频编解码器、如MPEG-1/2第III层和MPEG-2/4AAC利用所谓的联合立体声编码。根据这种技术，不同声道的信号被联合处理而不是单独和分别处理。两种最常用的联合立体声编码技术称作‘中/侧’(M/S)立体声和强度立体声编码，它们通常应用于待编码的立体声或多声道信号的子带。

在对声道子带的和及差信号进行编码和发送、由此利用声道子带之间的冗余度的意义上，M/S立体声编码与立体声FM无线电中的所述过程相似。例如在参考文献[1]中描述了基于M/S立体声编码的编码器的结构和操作。

另一方面，强度立体声能够利用立体声不相干性。它发送(不同子带的)声道的联合强度以及某个位置信息，表明如何在声道之中分布强度。强度立体声仅提供声道的频谱幅度信息，而相位信息则没有传送。为了这个原因以及由于声道间时间信息(更具体来说是声道间时间差)特别在较低频率上具有主要心理声学相干性，所以强度立体声仅可在高于例如2kHz的高频上使用。例如在参考文献[2]中描述了强度立体声编码方法。

在参考文献[3]中描述了称作双耳线索编码(BCC)的最近发展的立体声编码方法。这种方法是参数多声道音频编码方法。这种参数编码技术的基本原理在于，在编码侧，来自N个声道的输入信号组合为一个单声道信号。单声道信号是采用任何传统单声道音频编解码器进行编码的音频。参数并行地从描述多声道图像的声道信号中得出。参数被编码以及与音频比特流一起发送给解码器。解码器首先对单声道信号解码，然后根据多声道图像的参数描述重新生成声道信号。

双耳线索编码(BCC)方法的原理在于，它发送编码单声道信号和所谓的BCC参数。BCC参数包括原始多声道输入信号的子带的已编码声道间电平差和声道间时间差。解码器通过根据BCC参数施加单声道信号的逐个子带的电平和相位和/或延迟调节，重新生成不同的声道信号。优于例如M/S或强度立体声的优点在于，包含声道间时间信息的立体声信息以低得多的比特率传送。但是，BCC在计算上要求高，并且一般在感知上没有优化。

参考文献[4]中描述的另一种技术采用单声道信号和所谓的侧信息的编码的相同原理。在这种情况中，侧信息由预测器滤波器和可选的残留信号组成。通过LMS算法估算的预测器滤波器在应用于单声道信号时，允许多声道音频信号的预测。通过这种技术，能够达到多声道音频源的极低比特率编码、但是以质量下降为代价。

这种参数立体声编码的基本原理如图3所示，它显示立体声编解码器的布局，其中包括混音模块120、核心单声道编解码器130、230和参数立体声侧信息编码器/解码器140、240。混音把多声道(在这种情况中为立体声)信号变换为单声道信号。参数立体声编解码器的目的是在给定重构的单声道信号和附加立体声参数的情况下在解码器上再生立体声信号。

最后，为了完整性，将提到在3D音频中使用的一种技术。这种技术通过采用所谓的头相关滤波器对声源信号进行滤波来合成右和左声道信号。但是，这种技术要求不同的声源信号被分离，以及因而一般不可应用于立体声或多声道编码。

发明内容

本发明克服了先有技术装置的这些及其它缺点。

本发明的一般目的是以低比特率提供高多声道音频质量。

具体来说，希望提供能够采用较低数量的编码位来准确表示立体声或多声道信息的有效编码过程。例如，对于立体声编码，重要的是，立体声图像的动态被完全表示，使得立体声信号重构的质量被增强。

本发明的另一个目的是有效利用多级侧信号编码器的可用位预算。

本发明的一个具体目的是提供用于对多声道音频信号进行编码的方法及装置。

本发明的另一个具体目的是提供用于对已编码多声道音频信号进行解码的方法及装置。

本发明的又一个目的是根据音频编码和解码技术来提供改进的音频传送系统。

如所附专利权利要求所定义的本发明满足这些及其它目的。

目前，不存在以经济上受关注的用于例如移动通信系统的比特率提供高立体声或多声道音频质量的可用的标准化编解码器。采用可得到的编解码器可能的情况是音频信号的单声道传送和/或存储。在某种程度上，立体声传送或存储也是可得到的，但是比特率限制通常需要相当严格地限制立体声表示。

通过提出允许分离来自音频信号的立体声或多声道信息以及以低比特率准确表示它的解决方案，本发明克服了这些问题。

本发明的基本概念是提供用于对多声道音频信号进行编码的极有效技术。本发明依靠以下基本原理：在第一信号编码过程中对多个声道中的一个或多个的第一信号表示进行编码，以及在第二多级信号编码过程中对多个声道中的一个或多个的第二信号表示进行编码。这个程序通过根据多声道音频信号特性在第二多级信号编码过程的不同编码级之中自适应地分配编码位数量得到显著增强。

例如，如果多级编码过程中的级之一的性能饱和，则在这个具体编码级上增加为编码/量化分配的位数量毫无作用。更好的而是对多级编码过程中的另一个编码级分配更多位，以便提供性能方面更大的整体改进。为此，已经清楚，极为有益的是根据至少一个编码级的估算性能来执行位分配。对特定编码级的位的分配例如可基于那个编码级的估算性能。但是，或者，根据编码级的组合的整体性能在不同编码级之中联合分配编码位。

例如，第一编码过程可以是主要编码过程，以及第一信号表示可以是主要信号表示。作为多级过程的第二编码过程例如可以是侧信号过程，以及第二信号表示则可以是侧信号表示、如立体声侧信号。

优选地，第二多级信号编码过程可用的位预算根据多声道音频信号的声道间相关特性在不同编码级之中自适应地分配。当第二多级信号编码过程包括参数编码级、如声道间预测(ICP)级时，这是特别有用的。在低声道间相关的情况中，作为用于多声道或立体声编码的部件的参数(ICP)滤波器通常将产生目标信号的较差估算值。因此，增加滤波器量化所分配的位的数量没有产生明显更好的性能。ICP滤波器的性能的饱和以及一般来说参数编码的影响使这些技术在位使用方面相当低效。实际上，位可能用于另一个编码级中的不同编码、例如非参数编码，它又可能产生性能方面的更大整体改进。

在一个具体实施例中，本发明涉及混合参数和非参数编码过程，并且通过根据参数和非参数编码级之中可用编码位的有效分配来利用(声道间预测)参数表示和非参数表示的强度，克服了参数质量饱和的问题。

优选地，对特定编码级分配位的程序基于作为待分配给编码级的位数量的函数的编码级的估算性能的评估。

一般来说，还可使位分配取决于附加级的性能或者两个或两个以上级的整体性能。例如，位分配可基于参数和非参数两种表示的组合的整体性能。

例如，考虑用于第二信号预测的第一自适应声道间预测(ICP)级的情况。ICP编码级的估算性能通常基于确定相干质量量度。这样一种质量量度例如可根据所谓的第二信号预测误差、优选地连同作为对于声道间预测所生成的第二信号重构数据的量化所分配的位数量的函数的量化误差的估算来估算。第二信号重构数据通常是声道间预测(ICP)滤波器系数。

在一个特别有利的实施例中，第二多级信号编码过程还包括用于对来自第一级的信号预测误差的表示进行编码的第二编码级中的编码过程。

第二信号编码过程通常生成表示位分配的输出数据，因为这是在解码侧上正确解释采取第二信号重构数据的形式的编码/量化信息所需的。在解码侧，解码器接收表示在第二信号编码过程中如何在不同信号编码级之中分配位预算的位分配信息。这个位分配信息用于在对应的第二多级信号解码过程中解释第二信号重构数据，为了正确地对第二信号表示进行解码。

为了进一步改进多声道音频编码机制，还能够根据第二编码过程或者其编码级的至少一个的性能来使用有效的可变维/可变速率位分配。实际上，这通常意味着，待分配给第一编码级的位数量和滤波器维/长度的组合经过选择，以便优化表示第一级或级的组合的性能的量度。较长滤波器的使用产生更好的性能，但是较长滤波器的量化在比特率固定时产生较大的量化误差。采用增加的滤波器长度，产生增加性能的可能性，但是实现它需要更多位。在所选滤波器维/长度与所强加量化误差之间将存在折衷，以及思路是采用性能量度并且通过相应地改变滤波器长度和所需的位数量来发现最佳值。

虽然位分配和编码/解码往往逐帧执行，但是能够对可变大小帧执行位分配和编码/解码，从而允许信号自适应优化帧处理。

具体来说，可变滤波器维和比特率可用于固定帧，但是也可用于可变帧长度。

对于可变帧长度，编码帧一般可根据各种帧分割配置被分为多个子帧。子帧可具有不同大小，但是，任何给定帧分割配置的子帧的长度之和等于整个编码帧的长度。在本发明的一个优选示范实施例中，思路是选择帧分割配置以及用于各子帧的位分配和滤波器长度/维的组合，以便优化表示在整个编码帧上所考虑的第二编码过程(即它的信号编码级的至少一个)的性能的量度。然后，根据位分配和滤波器维的所选组合为所选帧分割配置的子帧的每个对第二信号表示分开编码。除了本发明的信号自适应位分配所提供的一般高质量、低比特率性能之外，可变帧长度处理方案的一个显著优点还在于极好地表示立体声或多声道图像的动态。

第二信号编码过程在这里优选地生成表示所选帧分割配置、以及对于所选帧分割配置的各子帧的位分配和滤波器长度的输出数据，用于传递到解码侧。但是，为了减小对于在音频传送系统中从编码侧到解码侧的信令的比特率要求，对于各子帧，滤波器长度优选地根据子帧的长度来选择。这意味着，编码帧到子帧集合的帧分割配置的指示同时提供各子帧的所选滤波器维的指示，由此减少所需信令。

本发明提供以下优点：

改进的多声道音频编码/解码。

改进的音频传送系统。

增加的多声道音频重构质量。

较低比特率的高多声道音频质量。

多级编码器、如多级侧信号编码器的可用位预算的有效使用。

立体声图像的动态的良好表示。

立体声信号重构增强的质量。

通过阅读以下对本发明的实施例的描述，将会理解本发明提供的其它优点。

附图说明

通过参照以下结合附图进行的说明，将会最佳地理解本发明以及其它目的和优点，附图中：

图1是示意框图，说明采用多声道编码和解码的音频传送系统的一般实例。

图2是示意图，说明如何把不同声道的信号分开编码为各个独立信号。

图3是示意框图，说明参数立体声编码的基本原理。

图4是简图，说明单声道和侧信号的交叉谱。

图5是根据本发明的一个示范优选实施例的多声道编码器的示意框图。

图6是示意流程图，阐述根据本发明的一个优选实施例的基本多声道编码程序。

图7是示意流程图，阐述根据本发明的一个优选实施例的对应的多声道解码程序。

图8是示意框图，说明根据本发明的一个示范优选实施例的(立体声)编码器的相干部分。

图9是示意框图，说明根据本发明的一个示范优选实施例的(立体声)解码器的相干部分。

图10A说明采用声道间预测(FIR)滤波的侧信号估算。

图10B说明具有单声道编码和多级混合侧信号编码的音频编码器。

图11A是频域图，说明单声道信号和侧信号以及单声道与侧信号之间的声道间相关或互相关。

图11B是时域图，说明与图11A的情况对应的预测侧信号以及原始侧信号。

图11C是频域图，说明另一个单声道信号和侧信号及其互相关。

图11D是时域图，说明与图11C的情况对应的预测侧信号以及原始侧信号。

图12是示意图，说明根据本发明的一个具体示范实施例、与多级侧编码器关联的自适应位分配控制器。

图13是示意图，说明作为用于量化ICP滤波器系数的位的函数的重构侧信号的质量。

图14是示意图，说明预测可行性。

图15说明根据本发明的优选示范实施例的立体声解码器。

图16说明作为滤波器维的函数的所得平均量化和预测误差的一个实例。

图17说明在量化具有不同数量的位的不同维时得到的总质量。

图18是示意图，说明多级向量编码的一个实例。

图19是主帧中的不同帧分割的示意时序图。

图20说明根据本发明的一个示范实施例的不同帧配置。

具体实施方式

在所有附图中，相同的参考标号将用于相应或相似的元件。

本发明涉及音频应用中的多声道编码/解码技术，具体来说，涉及音频传送系统中和/或用于音频存储的立体声编码/解码。可能的音频应用的实例包括电话会议系统、移动通信系统中的立体声音频传送、用于提供音频服务的各种系统以及多声道家庭影院系统。

为了更好地理解本发明，以现有电话存在的问题的概述和分析开始可能是有用的。如前面所述，目前不存在以经济上受关注的用于例如移动通信系统的比特率提供高立体声或多声道音频质量的可用的标准化编解码器。采用可得到的编解码器可能的情况是音频信号的单声道传送和/或存储。在某种程度上，立体声传送或存储也是可得到的，但是比特率限制通常需要相当严格地限制立体声表示。

现有技术的多声道编码技术的问题在于，它们需要更高的比特率以便提供良好质量。强度立体声在以低至例如只有几kbps的低比特率应用时，遭遇到它不提供任何声道间时间信息的事实。由于这种信息对于低于例如2kHz的低频在感知上是重要的，所以无法以这类低频提供立体声感受。

另一方面，BCC能够甚至在低频以例如3kbps的低比特率再生立体声或多声道图像，因为它还发送声道间时间信息。但是，这种技术需要在编码器以及解码器上对声道的每个的计算上要求高的时间-频率变换。此外，在使它们与原始声道信号的感知差异为最小的意义上，BCC不尝试发现从所发送单声道信号到声道信号的映射。

用于多声道编码的又称作声道间预测(ICP)的LMS技术(参见[4])通过省略残留信号的传送来允许更低的比特率。为了得出声道重构滤波器，无约束误差最小化程序计算滤波器，使得其输出信号最好地匹配目标信号。为了计算滤波器，可使用几种误差量度。均方误差或加权均方误差是众所周知的，并且在计算上实现费用低。

大家知道，一般来说，现有技术方法的大多数是为高保真音频信号或纯语音的编码开发的。在信号能量集中在较低频率区域的语音编码中，子带编码很少使用。虽然如BCC等的方法允许低比特率立体声语音，但是子带变换编码处理增加复杂度以及延迟。

关于应用于音频编码的线性声道间预测(ICP)是否会增加多声道信号的压缩率存在长期争论。

研究结果是，即使ICP编码技术不提供高质量立体声信号的好结果，对于具有集中于较低频率的能量的立体声信号，冗余度减小也是可能的[7]。ICP滤波的白化效果增加较高频率区域中的能量，从而产生感知变换编码器的净编码损失。在[9]和[10]中证实了这些结果，在其中，仅对于语音信号报道了质量增强。

ICP重构信号的准确性由当前声道间相关来控制。Bauer等人[11]没有发现音频信号中的左与右声道之间的任何线性关系。但是，从图4中的单声道和侧信号的交叉谱中可以看到，在语音信号的较低频率区域(0-2000Hz)中发现强的声道间相关。

在低声道间相关的情况中，作为用于立体声编码的部件的ICP滤波器将产生目标信号的不良估算值。所产生的估算值甚至在滤波器的量化之前也很差。因此，增加为滤波器量化所分配的位数量没有产生更好的性能，或者性能的改进相当小。

ICP的性能的饱和以及一般来说参数方法的这种影响使这些技术在位使用方面相当低效。某些位而是可用于例如非参数编码技术，这又可能产生性能方面的更大整体改进。此外，这些参数技术不是渐近最佳的，因为即使以高比特率，编码方法中固有的特性伪像不会消失。

图5是根据本发明的一个示范优选实施例的多声道编码器的示意框图。多声道编码器主要包括可选的预处理单元110、可选的(线性)组合单元120、第一编码器130、至少一个附加(第二)编码器140、控制器150和可选的复用器(MUX)单元160。

多声道或多音信号可被提供给可选预处理单元110，在其中可执行不同的信号调节程序。输入声道的信号可从音频信号存储装置(未示出)提供或者例如从一组话筒(未示出)“现场”提供。如果不是数字形式，则音频信号通常在进入多声道编码器之前被数字化。

(可选预处理)信号可被提供给可选的信号组合单元120，它包括用于执行不同信号组合程序、如输入信号的线性组合以便产生至少第一信号和第二信号的多个组合模块。例如，第一编码过程可以是主要编码过程，以及第一信号表示可以是主要信号表示。作为多级过程的第二编码过程例如可以是辅助(侧)信号过程，以及第二信号表示则可以是辅助(侧)信号表示、如立体声侧信号。例如，在传统的立体声编码中，L和R声道被求和，以及和信号除以因子2，以便提供传统单声道信号作为第一(主要)信号。L和R声道也可相减，以及差信号除以因子2，以便提供传统侧信号作为第二信号。根据本发明，任何类型的线性组合或者那个方面的任何其它类型的信号组合可在信号组合单元中执行，其中具有来自各个声道的至少一部分的加权成分。本发明使用的信号组合不限于两个声道，而是无疑可包括多个声道。还可能生成不止一个附加(侧)信号，如图5所示。甚至可能把输入声道之一直接用作第一信号，以及把输入声道中的另一个直接用作第二信号。例如，对于立体声编码，这意味着，L声道可用作主要信号，以及R声道可用作侧信号，或者反之。还存在许多其它变化。

第一信号表示被提供给第一编码器130，它按照任何适当的编码原理对第一(主要)信号编码。这类原理在先有技术中可获得，因而在此不作进一步论述。

第二信号表示被提供给用于对第二(辅助/侧)信号进行编码的第二多级编码器140。

整个编码器还包括控制器150，它包括至少一个位分配模块，用于在多级信号编码器140的编码级之中为第二多级信号编码自适应地分配可用位预算。多级编码器又可称作具有两个或两个以上编码单元的多单元编码器。

例如，如果多级编码器140中的级之一的性能饱和，则增加对这个具体编码级所分配的位数量几乎没有意义。更好的而是对多级编码器中的另一个编码级分配更多位，以便提供性能方面更大的整体改进。为此，已经清楚，极为有益的是根据至少一个编码级的估算性能来执行位分配。对特定编码级的位的分配例如可基于那个编码级的估算性能。但是，或者，根据编码级的组合的整体性能在不同编码级之中联合分配编码位。

毫无疑问，对于整个多声道编码器装置存在整体位预算，其中整体位预算在第一编码器130和多级编码器140以及可能的其它编码器模块之间按照已知原则划分。下面，主要集中于如何在多级编码器的不同编码级之间分配可用于多级编码器的位预算。

优选地，可用于第二信号编码过程的位预算根据多声道音频信号的预定特性、如声道间相关特性在多级编码器的不同编码级之中自适应地分配。当第二多级编码器包括参数编码级、如声道间预测(ICP)级时，这是特别有用的。在低声道间相关(例如在输入声道的第一与第二信号表示之间)的情况中，作为用于多声道或立体声编码的部件的参数滤波器通常将产生目标信号的较差估算值。因此，增加为滤波器量化所分配的位数量没有产生明显更好的性能。(ICP)滤波器的性能的饱和以及一般来说参数编码的影响使这些技术在位使用方面相当低效。实际上，位可能用于另一个编码级中的不同编码、如非参数编码，它又可能产生性能方面的更大整体改进。

在一个具体实施例中，本发明涉及混合参数和非参数多级信号编码过程，并且通过根据参数和非参数编码级之间的可用编码位的有效分配来利用参数表示和非参数编码的强度，克服了参数质量饱和的问题。

对于特定编码级，作为一个实例，可根据下列程序来分配位：

估算作为假定分配给编码级的位数量的函数的编码级的性能；

评估编码级的估算性能；以及

根据估算性能的评估，把第一数量的位分配给第一编码级。

如果仅采用两级，以及第一数量的位已经根据估算性能分配给第一级，则可以只通过把剩余数量的编码位分配给第二编码级，把位分配给第二级。

一般来说，还可使位分配取决于附加级的性能或者两个或两个以上级的整体性能。在前一种情况中，可根据附加级的估算性能把位分配给附加编码级。在后一种情况中，位分配例如可基于参数和非参数两种表示的组合的整体性能。

例如，位分配可被确定为当位分配的变化按照适当标准没有产生明显更好的性能时在多级编码器的不同级之间的位的分配。具体来说，对于性能饱和，待分配给某个级的位的数量可被确定为当所分配位的数量的增加按照适当标准没有产生那个级的明显更好的性能时的位的数量。

如上所述，第二多级编码器可包括自适应声道间预测(ICP)级，用于基于第一信号表示和第二信号表示的第二信号预测，如图5所示。第一(主要)信号信息可等效地从第一编码器130所产生的信号编码参数中推断，如自第一编码器的虚线所示。在这个上下文中，与ICP级“依次”使用误差编码级可能是适当的。例如，用于信号预测的第一自适应ICP级根据第一和第二信号表示生成信号重构数据，以及第二编码级根据信号预测误差生成其它信号重构数据。

优选地，控制器150配置成响应第一信号表示和第二信号表示以及多级(侧)编码器140中的一级或多级的性能而执行位分配。

如图5所示，可提供N个信号表示(还包括相应的输入声道被直接作为分开的信号提供时的情况)。优选地，第一信号表示是主要信号，以及其余N-1个信号表示是辅助信号、如侧信号。各辅助信号优选地在专用辅助(侧)编码器中分开编码，专用辅助(侧)编码器可能是或者可能不是具有自适应控制的位分配的多级编码器。

包括来自控制器150的位分配信息在内的各种编码器130、140的输出信号优选地在复用器单元160中复用为单个传送(或存储)信号。但是，或者，输出信号可分开发送(或存储)。

在本发明的扩展中，还可能选择要使用(例如用于声道间预测)的位分配和滤波器维/长度的组合，以便优化表示第二信号编码过程的性能的量度。在所选滤波器维/长度与所强加量化误差之间将存在折衷，以及思路是采用性能量度并且通过相应地改变滤波器长度和所需的位数量来发现最佳值。

虽然编码/解码和关联的位分配往往逐帧执行，但是可以设想，编码/解码和位分配可对可变大小的帧执行，从而允许信号自适应优化帧处理。这还实现提供甚至更高的自由度以便优化性能量度的可能性，稍后将进行说明。

图6是示意流程图，阐述根据本发明的一个优选实施例的基本多声道编码程序。在步骤S1，一个或多个音频声道的第一信号表示在第一信号编码过程中编码。在步骤S2，第二信号编码的可用位预算根据多声道输入信号特性、如声道间相关在第二多级信号编码过程的不同级之间分配，如上所述。在不同级之间的位的分配一般可逐帧改变。本发明提出的位分配的其它详细实施例将在稍后描述。在步骤S3，第二信号表示在第二多级信号编码过程中相应地编码。

图7是示意流程图，阐述根据本发明的一个优选实施例的对应的多声道解码程序。在步骤S11，已编码第一信号表示响应从编码侧接收的第一信号重构数据而在第一信号解码过程中解码。在步骤S12，从编码侧接收专用位分配信息。位分配信息表示已经如何在编码侧的不同编码级之间分配用于第二信号编码的位预算。在步骤S13，根据所接收位分配信息来解释从编码侧接收的第二信号重构数据。在步骤S14，已编码第二信号表示根据所解释第二信号重构数据在第二多级信号解码过程中被解码。

整个解码过程一般相当简单，并且主要包括读取入局数据流、解释数据、多声道音频信号的逆量化和最终重构。关于解码程序的更多细节稍后参照本发明的一个示范实施例提供。

虽然对示范实施例的以下描述主要涉及立体声(双声道)编码和解码，但是应当知道，本发明一般适用于多个声道。实例包括但不限于编码/解码5.1(前左、前中置、前右、后左和后右以及低音扬声器)或者2.1(左、右和中置低音扬声器)多声道音响。

图8是示意框图，说明根据本发明的一个示范优选实施例的(立体声)编码器的相干部分。(立体声)编码器主要包括用于对第一(主要)信号、如典型单声道信号进行编码的第一(主要)编码器130、用于(辅助/侧)信号编码的第二多级(辅助/侧)编码器140、控制器150以及可选的复用器单元160。在这个具体实例中，辅助/侧编码器140包括两个(或两个以上)级142、144。第一级142即级A响应主要信号和侧信号而生成侧信号重构数据、如量化滤波器系数。第二级144即级B优选地是残留编码器，它对来自第一级142的残留误差进行编码/量化，由此生成增强立体声重构质量的附加侧信号重构数据。控制器150包括位分配模块、用于控制滤波器维的可选模块以及用于控制可变帧长度处理的可选模块。控制器150至少提供表示如何在侧编码器140的两个编码级142、144之间分配可用于侧信号编码的位预算的位分配信息，作为输出数据。包含量化滤波器系数、量化残留误差和位分配信息的信息集合优选地在复用器单元160中与主要信号编码参数一起复用为单个传送或存储信号。

图9是示意框图，说明根据本发明的一个示范优选实施例的(立体声)解码器的相干部分。(立体声)解码器主要包括可选解复用器单元210、第一(主要)解码器230、第二(辅助/侧)解码器240、控制器250、可选的信号组合单元260以及可选的后处理单元270。解复用器210优选地分离入局重构信息、如第一(主要)信号重构数据、第二(辅助/侧)信号重构数据以及控制信息、例如位分配信息。第一(主要)解码器230响应通常以表示编码参数的第一(主要)信号的形式提供的第一(主要)信号重构数据而“重构”第一(主要)信号。第二(辅助/侧)解码器240优选地包括两个(或两个以上)解码级242、244。解码级244即级B响应已编码/量化残留误差信息而“重构”残留误差。解码级242即级A响应已量化滤波器系数、已重构第一信号表示和已重构残留误差而“重构”第二信号。第二解码器240还由控制器250控制。控制器从编码侧接收关于位分配以及可选地还有关于滤波器维和帧长度的信息，并且相应地控制侧解码器240。

为了更透彻地理解本发明，现在将参照基于参数编码原理、如声道间预测的各种示范实施例更详细地描述本发明。

采用声道间预测的参数立体声编码

一般来说，声道间预测(ICP)技术利用声道之间的固有声道间相关。在立体声编码中，声道通常由左和右信号l(n)、r(n)表示，等效表示是单声道信号m(n)(主要信号的一个特例)和侧信号s(n)。两种表示是等效的，并且通常通过传统矩阵运算相关：

[\begin{matrix} m (n) \\ s (n) \end{matrix}] = \frac{1}{2} [\begin{matrix} 1 & 1 \\ 1 & - 1 \end{matrix}] [\begin{matrix} l (n) \\ r (n) \end{matrix}] - - - (1)

如图10A所示，ICP技术针对通过估算值来表示侧信号s(n)，

通过经由具有N个滤波器系数h_t(i)的时变FIR滤波器H(z)对单声道信号m(n)进行滤波来获得：

\hat{s} (n) = Σ_{i = 0}^{N - 1} h_{t} (i) m (n - i) - - - (2)

应当注意，同样的方式可直接应用于左和右声道。

在编码器上得到的ICP滤波器例如可通过使侧信号预测误差e(n)的均方误差(MSE)或者相关的性能量度、如心理声学加权均方误差为最小来估算。MSE通常由下式给出：

ξ (h) = Σ_{n = 0}^{L - 1} MSE (n, h) = Σ_{n = 0}^{L - 1} {(s (n) - Σ_{i = 0}^{N - 1} h (i) m (n - i))}^{2} - - - (3)

式中，L是帧大小，以及N是ICP滤波器的长度/阶/维。简单地说，ICP滤波器的性能、因而MSE的大小是确定最终立体声分离的主要因素。由于侧信号描述左与右声道之间的差异，因此，准确的侧信号重构是确保足够宽的立体声图像必不可少的。

通过使对于所有样本的预测误差的MSE为最小来找出最佳滤波器系数，并且表示为：

{h_{opt}}^{T} R = r &DoubleRightArrow; h_{opt} = R^{- 1} r - - - (4)

在(4)中，相关向量r和协方差矩阵R定义为：

r＝Ms

R＝MM^T (5)

式中

s＝[s(0)s(1)…s(L-1)]^T，

将(5)代入(3)，得到(非量化)ICP滤波器的最小MSE(MMSE)的简化代数表达式：

MMSE＝MSE(h_opt)＝P_SS-r^TR^-1r

(7)

式中，P_SS是侧信号的功率，又表示为S^TS。

将r＝Rh_opt代入(7)，得到：

MMSE＝P_SS-r^TR^-1Rh_opt＝P_SS-r^Th_opt

(8)

对R的LDLT因数分解[12]给出等式系统：

式中，首先以迭代方式求解z：

现在引入新的向量q＝L^Th。由于矩阵D仅在对角线具有非零值，求出q是简单的：

Dq = z &DoubleRightArrow; q_{i} = \frac{z_{i}}{d_{i}}, i = 1,2, . . ., N - - - (11)

所求的滤波器向量h这时可通过与(10)相同的方式迭代地计算：

除了与正则矩阵求逆相比的计算节省之外，这个解决方案还提供有效计算与不同维n(滤波器长度)对应的滤波器系数的可能性：

H = {h_{opt}^{(n)}}_{n = 1}^{N} - - - (13)

最佳ICP(FIR)滤波器系数h_opt可逐帧地被估算、量化以及发送给解码器。

通过残留编码的多级混合多声道编码

图10B说明具有单声道编码和多级混合侧信号编码的音频编码器。单声道信号m(n)被编码和量化(Q₀)，以便照常传递给解码侧。侧信号预测的ICP模块提供FIR滤波器表示H(z)，它被量化(Q₁)以便传递给解码侧。可通过对侧信号预测误差e(n)进行编码和/或量化(Q₂)来获得附加质量。应当注意，当残留误差被量化时，编码可能不再称作纯参数的，因而侧编码器称作混合编码器。

自适应位分配

本发明基于以下认识：低声道间相关可能产生不良侧信号预测。另一方面，高声道间相关通常产生良好侧信号预测。

图11A是频域图，说明单声道信号和侧信号以及单声道与侧信号之间的声道间相关、简单地称作互相关。图11B是对应的时域图，说明预测侧信号以及原始侧信号。

图11C是频域图，说明另一个单声道信号和侧信号及其互相关。图11D是对应的时域图，说明预测侧信号以及原始侧信号。

可以看到，高声道间相关产生目标信号的良好估算值，而低声道间相关则产生目标信号的相当差的估算值。如果所产生估算值甚至在滤波器的量化之前也很差，则为滤波器量化分配许多位通常是没有意义的。可能更有效的而是采用不同编码、如侧信号预测误差的非参数编码所用的位的至少一部分，它可能产生更好的整体性能。在较高相关的情况中，有时可能能够对具有较少位的滤波器进行量化，并且仍然获得相当好的结果。在其它情况中，即使相关比较高，较大数量的位也必需用于量化，并且必须判定，从位分配的角度来看，采用这种数量的位是否“经济”。

在一个具体示范实施例中，优选地根据组合ICP滤波器所提供的参数立体声表示以及非参数表示、如残留误差编码的强度，以成为取决于立体声输入信号的特性的自适应的方式，来设计编解码器。

如上所述，为了完全利用可用位预算，以及以便进一步增强立体声信号重构的质量，至少第二量化器必须用于防止所有位引向预测滤波器的量化。第二量化器的使用提供本发明所利用的附加的自由度。因此，多级编码器包括具有例如ICP滤波器之类的滤波器和关联的第一量化器Q₁的第一参数级以及基于第二量化器Q₂的第二级。优选地，ICP滤波器的预测误差、即

e (n) = s (n) - \hat{s} (n)

通过采用通常为波形编码器或变换编码器或者它们的组合的非参数编码器来量化。但是应当理解，能够采用其它类型的预测误差编码、如CELP(代码激励线性预测)编码。

假定用于侧信号编码过程的总的位预算为B＝b_ICP+b₂，其中b_ICP是用于ICP滤波器的量化的位的数量，以及b₂是用于残留误差e(n)的量化的位的数量。

最佳方式是根据编码级的整体性能在不同编码级之间联合分配位，如到图12的位分配模块的e(n)和e₂(n)的输入示意所示。可能适当的是在感知加权的意义上努力使总误差e₂(n)为最小。

在一个更简单且更直接的实现中，位分配模块根据第一参数(ICP)滤波程序的性能对第一量化器分配位，以及对第二量化器分配剩余位。参数(ICP)滤波器的性能优选地基于保真度标准，例如预测误差e(n)的MSE或感知加权MSE。

参数(ICP)滤波器的性能通常随不同信号帧的特性以及可获得的比特率而改变。

例如，在低声道间相关的情况中，ICP滤波程序甚至在滤波器量化之前也产生目标(侧)信号的不良估算值。因此，分配更多的位不会产生大的性能改进。更好的而是对第二量化器分配更多的位。

在其它情况中，通过只使用采用某个比特率来量化的ICP滤波器完全消除单声道信号与侧信号之间的冗余度，因而对第二量化器分配更多的位将是无效的。

由于单声道与侧信号之间的相关程度的直接结果，ICP的性能的固有限制随之而来。ICP的性能始终受到非量化滤波器所提供的最大可实现性能的限制。

图13说明量化ICP滤波器的性能如何随位的数量而改变的典型情况。可采用任何通用保真度标准。可采用采取质量量度Q的形式的保真度标准。这样一种质量量度例如可基于信噪(SNR)比，并且表示为Q_snr。例如，基于侧信号的功率与侧信号预测误差e(n)的MSE之间的比率的质量量度：

Q_{snr} = \frac{P_{ss}}{P_{ee}} = \frac{s^{T} s}{MSE} - - - (14)

存在最小比特率b_min，对于该比特率b_min，ICP的使用提供了特征在于大于1、即0dB的Q_snr的值的改进。显然，当比特率增加时，性能达到非量化滤波器Q_max的性能。另一方面，为量化分配超过b_max的位会产生质量饱和。

通常选择较低比特率(图13中的b_opt)，从该速率开始，性能增加按照适当标准不再明显。选择标准通常根据具体应用及其具体要求来设计。

对于其中的单声道/侧相关接近零的某些有问题的信号，更好的是完全不采用任何ICP滤波，而是把整个位预算分配给辅助量化器。对于相同类型的信号，如果辅助量化器的性能不充分，则信号可采用纯参数ICP滤波来编码。

一般来说，滤波器系数被看作向量，它们采用向量量化(VQ)来有效地量化。滤波器系数的量化是ICP编码程序的最重要方面之一。会看到，对滤波器系数引入的量化噪声可能直接与MSE的损失相关。

MMSE先前已经定义为：

MMSE = s^{T} s - r^{T} h_{opt} = s^{T} s - 2 h_{opt}^{T} r + h_{opt}^{T} R h_{opt} - - - (15)

量化h_opt产生量化误差e：

\hat{h} = h_{opt} + e .

新的MSE现在可写作：

MSE (h_{opt} + e) = s^{T} s - 2 {(h_{opt} + e)}^{T} r + {(h_{opt} + e)}^{T} R (h_{opt} + e)

= MMSE + e^{T} R h_{opt} + e^{T} Re + h_{opt}^{T} Re - 2 e^{T} r

= MMSE + e^{T} Re + 2 e^{T} {Rh}_{opt} - 2 e^{T} r - - - (16)

由于Rh_opt＝r，因此，(16)中的最后两项抵消，以及已量化滤波器的MSE变为：

MSE (\hat{h}) = s^{T} s - r^{T} h_{opt} + e^{T} Re - - - (17)

这意味着，为了具有任何预测增益，量化误差项必须小于预测项，即r^Th_opt>e^TRe。

从图14中可以看到，为ICP滤波器量化分配少于b_min的位没有减小侧信号预测误差能量。实际上，预测误差的能量大于目标侧信号的能量，从而使得采用ICP滤波完全不适当。这无疑对于作为信号表示和编码的手段的ICP的可用性设置了下限。因此，在优选实施例中，位分配控制器把它看作ICP的下限。

滤波器系数的直接量化一般产生不良结果，但是应当量化滤波器，以便使项e^TRe为最小。预期失真量度的一个实例表示为：

d_{w} (h_{opt}, \hat{h}) = {(h_{opt} - \hat{h})}^{T} R (h_{opt} - \hat{h})

= Σ_{i = 0}^{N - 1} Σ_{j = 0}^{N - 1} (h_{opt} (i) - \hat{h} (i)) R (i, j) (h_{opt} (j) - \hat{h} (j)) - - - (18)

这表示加权向量量化(VQ)程序的使用。类似的加权量化器在[8]中用于语音压缩算法。

如果采用预测加权向量量化，则在比特率方面还可获得明显的好处。实际上，从上述概念中产生的预测滤波器一般在时间上相关。

再回到图12，可以理解，位分配模块需要主要信号m(n)和侧信号s(n)作为输入，以便计算相关向量r和协方差矩阵R。显然，h_opt也是已量化滤波器的MSE计算所需的。从MSE中，对应的质量量度可估算，并用作位分配的基础。如果使用可变大小帧，则一般需要向位分配模块提供关于帧大小的信息。

参照图15，说明根据本发明的优选示范实施例的立体声解码器，更详细地说明解码程序。解复用器可用于把入局立体声重构数据分为单声道信号重构数据、侧信号重构数据和位分配信息。单声道信号在单声道解码器中解码，它产生重构主要信号估算值

滤波器系数通过逆量化来解码，以便重构已量化ICP滤波器

侧信号

通过经由已量化ICP滤波器对所重构单声道信号进行滤波来重构。对于改进的质量，预测误差通过逆量化Q₂ ^-1来重构，并加至侧信号估算值

。最后，得到输出立体声信号为：

\{\begin{matrix} \hat{L} (n) = \hat{m} (n) + Σ_{i = 0}^{N - 1} h_{q} (i) \hat{m} (n - i) + {\hat{e}}_{S} (n) \\ \hat{R} (n) = \hat{m} (n) - Σ_{i = 0}^{N - 1} h_{q} (i) \hat{m} (n - i) - {\hat{e}}_{S} (n) \end{matrix} - - - (19)

重要的是要注意，侧信号质量、因而立体声质量受到单声道再生和ICP滤波器量化的准确度以及残留误差编码影响。

可变速率-可变维滤波

如前面所述，还可能选择要使用(例如用于声道间预测)的位分配和滤波器维/长度的组合，以便优化给定性能量度。

例如，可能便利的是，选择待分配给第一编码级的位数量和将用于第一编码级的滤波器长度的组合，以便优化表示第一编码级或者多级(辅助/侧)编码器中的编码级的组合的性能的量度。

例如，假若非参数编码器伴随参数编码器，则ICP滤波的目标可能是使预测误差的MSE为最小。增加滤波器维已知会减小MSE。但是，对于某些信号帧，单声道和侧信号仅在幅度而不在时间对齐方面有所不同。因此，一个滤波器系数对于这个情况是足够的。

如前面所述，能够迭代地计算不同维的滤波器系数。由于滤波器完全由对称R矩阵和r向量来确定，因此还能够迭代地计算不同维的MMSE。将q＝L^-Th_opt代入(8)，得到：

MMSE = P_{SS} - q^{T} L^{- 1} LD L^{T} L^{- T} q

= P_{SS} - q^{T} Dq

= P_{SS} - Σ_{i = 1}^{N} d_{i} q_{i}^{2} - - - (20)

式中，

d_{i} &GreaterEqual; 0, &ForAll; i .

因此，增加滤波器阶数会减小MMSE。因此，能够计算附加滤波器维的所提供增益，而无需重新计算每一维的r^Th_opt。

对于某些帧，使用长滤波器的增益是显著的，而对于其它帧，通过使用长滤波器得到的性能增加几乎可忽略。这通过以下事实来说明：可取得声道之间的最大解相关而无需采用长滤波器。对于声道间相关量低的帧，情况更是如此。

图16说明作为滤波器维的函数的平均量化和预测误差。量化误差随维数而增加，因为比特率是固定的。在所有情况中，长滤波器的使用均产生更好的性能。但是，如果比特率保持固定，则较长向量的量化产生较大量化误差，如图16所示。采用增加的滤波器长度，产生增加性能的可能性，但是实现性能增益需要更多位。

可变速率/可变维数方案的思路是利用(ICP)滤波器的可变性能，使得准确的滤波器量化仅对于在其中更多位产生明显更好的性能的那些帧执行。

图17说明在量化具有不同位数量的不同维时得到的总质量。例如，该目标可经过定义，使得在选择提供最小MSE的维和比特率的组合时取得最大质量。记住，已量化ICP滤波器的MSE定义为：

MSE ({\hat{h}}^{(n)}, n) = s^{T} s - {(r^{(n)})}^{T} h_{opt}^{(n)} + {(e^{(n)})}^{T} R^{(n)} e^{(n)} - - - (21)

可以看到，性能是所选滤波器维数n与所强加量化误差之间的折衷。这种情况如图17所示，在其中，不同的比特率范围为不同维提供不同的性能。

为(ICP)滤波器分配必要的位根据Q_N，max曲线有效地执行。这个最佳性能/速率曲线Q_N，max说明通过相应地改变滤波器维和所需的位数量所得到的最佳性能。还令人关注地注意到，这个曲线呈现其中比特率(以及关联的维)的增加在性能/质量量度Q_snr方面产生极小的改进的区域。通常，对于这些平稳区域，不存在通过为(ICP)滤波器的量化增加位的数量所得到的显著增益。

更简单但不是最理想的方法是与维数成比例地改变总的位数量，例如以便使总的位数量与维数之间的比率保持恒定。可变速率/可变维数编码则包括选择维数(或等效地选择比特率)，它引起MSE的最小化。

在另一个实施例中，维数保持固定，而改变比特率。门限集确定通过例如选择如图18所示的MSVQ[13]方案中的附加级在量化滤波器上耗用更多的位是否可行。

通过主要(单声道)与侧信号之间的相关的可变特性适当地激发可变速率编码。对于低相关情况，仅分配少量位以便对低维滤波器进行编码，而其余位预算则可用于采用非参数编码器对残留误差编码。

基于声道间预测的改进参数编码

如以上简要说明，对于其中主要/侧相关接近零的情况，更好的可能是完全不采用任何ICP滤波，而是把整个位预算分配给辅助量化器。对于相同类型的信号，如果辅助量化器的性能不充分，则信号可采用纯参数ICP滤波来编码。在后一种情况中，可能有利的是对ICP滤波程序进行一些修改，以便提供可接受的立体声或多声道重构。

这些修改经过设计，以便仅根据声道间预测(ICP)来操作立体声或多声道编码，从而允许低比特率操作。实际上，侧信号重构仅基于ICP滤波的方案在单声道与侧信号之间的相关弱时通常遭遇质量降级。在滤波器系数的量化之后，情况更是如此。

协方差矩阵修改

如果仅使用参数表示，则目标不再是单独使MSE为最小，而是将它与平滑和规则化结合，以便能够处理单声道与侧信号之间不存在相关的情况。

非正式收听测试显示，ICP滤波引入的编码伪像被感知为比立体声宽度的暂时减小更令人不快。因此，立体声宽度、即侧信号能量每当遇到有问题的帧时被有意减小。在最坏情况、即完全没有ICP滤波的情况中，所得立体声信号被减小到完全单声道。

能够从协方差矩阵R和相关向量r计算预计预测增益，而无需执行实际滤波。已经发现，当预计预测增益低时，或者等效地当单声道与侧信号之间的相关低时，编码伪像主要存在于重构侧信号中。因此，已经创立帧分类算法，它根据预测增益的估算等级来执行分类。当预测增益(或相关)下降到低于某个门限时，用来得出ICP滤波器的协方差矩阵按照下式修改：

R^*＝R+pdiag(R)

(22)

可使p的值是自适应的，以便帮助修改的不同等级。已修改ICP滤波器计算为h^*＝(R^*)^-1r。显然，ICP滤波器的能量减小，因而减小重构侧信号的能量。用于减小所产生估算误差的其它方案也是可能的。

滤波器平滑

连续帧之间的ICP滤波器特性的迅速变化造成重构立体声图像中的干扰混叠伪像和不稳定。这源于以下事实：与固定滤波方案相反，预测方法引入大的频谱变化。

当相邻子带的频谱分量以不同方式被修改时，类似的影响也存在于BCC中[5]。为了防止这个问题，BCC在分析与合成中采用交迭窗口。

交迭窗口的使用还解决了ICP滤波的混叠问题。但是，这是以MSE的相当大的减小为代价而得到的，因为滤波器系数对于当前帧不再是最佳的。提出一种修改成本函数。它定义为：

ξ(h_t，h_t-1)＝MSE(h_t)+ψ(h_t，h_t-1)

＝MSE(h_t)+μ(h_t-h_t-1)^TR(h_t-_h-1)

(23)

式中，h_t和h_t-1分别是在帧t和(t-1)的ICP滤波器。计算(23)的偏导数并将它设置为零的操作产生新的平滑ICP滤波器：

h_{t}^{*} (μ) = \frac{1}{1 + μ} h_{t} + \frac{μ}{1 + μ} h_{t - 1} - - - (24)

平滑因数μ确定前一个ICP滤波器的作用，由此控制平滑等级。所提出的滤波器平滑有效地消除编码伪像，并且使立体声图像稳定。但是，这是以减小的立体声图像为代价而得到的。

因平滑而引起的立体声图像宽度减小的问题可通过使平滑因数是自适应的来克服。当应用于当前帧的前一个滤波器的预测增益高时，使用大平滑因数。但是，如果前一个滤波器导致预测增益的恶化，则平滑因数被逐渐减小。

频带处理

前面提出的算法获益于频带处理。实际上，空间心理声学说明，较低频率中的声音局限性的显性线索是声道间时间差[6]，而在高频，它是声道间电平差。这说明，立体声或多声道重构可获益于采用不同方法和不同比特率对频谱的不同区域进行编码。例如，采用自适应控制位分配的混合参数和非参数编码可在低频范围执行，而其它某些编码方案则可用于高频区域。

可变长度优化帧处理

对于可变帧长度，编码帧一般可根据各种帧分割配置被分为多个子帧。子帧可具有不同大小，但是，任何给定帧分割配置的子帧的长度之和通常等于整个编码帧的长度。如通过引用作为实例结合到本文中的我们的共同未决美国专利申请No.11/011765以及对应的国际申请PCT/SE2004/001867中所述，提供多个编码方案，在其中，各编码方案的特征在于共同构成整个编码帧(又称作主帧)的子帧的相应集合或者与其关联。优选地至少部分根据待编码信号的信号内容选择具体编码方案，然后在所选子帧集合的子帧的每个中分开对该信号编码。

一般来说，编码通常一次在一帧中执行，以及各帧通常包括预定义时间周期中的音频样本。在任何情况中，样本到帧的分割都将在帧边界上产生某些不连续。使声音移位将提供主要在各帧边界上改变的移位编码参数。这将产生可感知误差。对此进行一定补偿的一种方式是使编码不仅基于将被编码的样本，而且还基于绝对接近帧的样本。这样，在不同帧之间将存在软过渡。作为代替或补充，内插技术有时也用于减小帧边界引起的感知伪像。但是，所有这些程序都需要大的附加计算资源，以及对于某些具体编码技术，还可能是采用任何资源都难以提供的。

在这一点，有益的是利用尽可能长的帧，因为帧边界的数量将会小。另外，编码效率通常变高，以及必要的传输比特率通常将为最小。但是，长帧产生前回声伪像和类似幻像的声音的问题。

通过改为利用更短的帧，本领域的技术人员认识到，编码效率可减小，传输比特率可能必需更高，并且帧边界伪像的问题将增加。但是，较短的帧受到诸如类似幻像的声音和前回声之类的其它感知伪像影响较少。为了能够尽量使编码误差为最小，应当采用尽可能短的帧长度。

因此，对于帧的长度似乎存在有冲突的要求。因此，有益的是让音频感知采用取决于待编码信号的当前信号内容的帧长度。由于不同帧长度对音频感知的影响将根据待编码声音的性质而有所不同，因此，可通过让信号本身的性质影响所使用的帧长度来获得改进。具体来说，这个程序已经表明对于侧信号编码是有利的。

由于小的时间变化，例如在某些情况中，可能有益的是通过使用较长的帧对侧信号编码。对于具有大量扩散声场的录音、如音乐会录音，情况可能是这样。在其它情况、如立体声语音会话中，短帧是更可取的。

例如，所使用的子帧的长度可按照下式选择：

l_sf＝l_f／2ⁿ

式中，l_sf是子帧的长度，l_f是整个编码帧的长度，以及n是整数。但是，应当理解，这只是一个实例。任何帧长度都能够使用，只要子帧的集合的总长度保持恒定。

关于要使用哪一种帧长度的判定通常可通过两种基本方式执行：闭环判定或开环判定。

当采用闭环判定时，输入信号通常通过所有可获得编码方案来编码。优选地，帧长度的所有可能的组合被测试，以及选择具有提供最佳目标质量、如信噪比或加权信噪比的子帧的关联集合的编码方案。

或者，帧长度判定是基于信号的统计信息的开环判定。换言之，(侧)信号的频谱特性将用作判定将使用哪一种编码方案的基础。如前面所述，特征在于子帧的不同集合的不同编码方案是可用的。但是，在这个实施例中，输入(侧)信号首先经过分析，然后选择和使用适当的编码方案。

开环判定的优点在于，只需要执行一个实际编码。但是，缺点在于，信号特性的分析实际上可能非常复杂，并且可能难以预先预测可能的行为。必须执行声音的许多统计分析。编码方案的任何小变化可能完全颠倒统计行为。

通过采用闭环选择，可交换编码方案，而无需在实现的其余部分进行任何变化。另一方面，如果许多编码方案将被研究，则计算要求将会很高。

输入(侧)信号的这样一种可变帧长度编码的好处在于，可在一侧的精细时间分辨率和粗略频率分辨率与另一侧的粗略时间分辨率和精细频率分辨率之间进行选择。以上实施例将以可能的最佳方式保存多声道或立体声图像。

对于不同编码方案中使用的实际编码也存在一些要求。具体来说，当采用闭环选择时，执行多个不同程度并发的编码的计算资源必须很大。编码过程越复杂，则需要越多计算能力。此外，传送时的低比特率也是优选的。

根据本发明的一个示范实施例的可变长度优化帧处理把大的“主帧”作为输入，以及在给定某些数量的帧分割配置的情况下，相对于给定失真量度、如MSE或加权MSE来选择最佳帧分割配置。

帧分割可具有不同大小，但是，所有帧分割的和覆盖主帧的整个长度。

为了说明一个示范程序，考虑长度为L毫秒的主帧以及图19所示的可能的帧分割，示范帧配置如图20所示。

在本发明的一个具体示范实施例中，思路是选择具有关联帧分割配置的编码方案以及用于各子帧的滤波器长度/维的组合，以便优化表示在整个编码帧(主帧)上所考虑的编码过程或者它的信号编码级的性能的量度。调节用于各子帧的滤波器长度的可能性提供增加的自由度，并且一般产生改进的性能。

但是，为了减小从编码侧到解码侧的传送期间的信令要求，特定长度的各子帧优选地与预定义滤波器长度关联。通常，把长滤波器分配给长帧，以及把短滤波器分配给短帧。

可能的帧配置在下表中列出：

采取形式(m₁，m₂，m₃，m₄)，其中m_k表示对于主帧内的长度为L/4毫秒的第k(子)帧所选的帧类型，使得例如：

对于具有滤波器长度P的L/4帧，m_k＝0，

对于具有滤波器长度2×P的L/2毫秒的帧，m_k＝1，

对于具有滤波器长度4×P的L毫秒的超帧，m_k＝2。

例如，配置(0，0，1，1)表明，L毫秒的主帧分为具有滤波器长度P的两个L/4毫秒(子)帧，之后跟随具有滤波器长度2×P的L/2毫秒的(子)帧。类似地，配置(2，2，2，2)表明，L毫秒的帧与滤波器长度4×P配合使用。这意味着，帧分割配置以及滤波器长度信息同时由信息(m₁，m₂，m₃，m₄)表示。

最佳配置例如根据MSE或等效的最大SNR来选择。例如，如果采用配置(0，0，1，1)，则滤波器的总数为长度P的3:2滤波器以及长度2×P的1滤波器。

通常选择产生最佳性能(由SNR或MSE来度量)、具有它的对应滤波器及其相应长度的帧配置。

在帧选择之前，通过包含滤波器量化级，滤波器计算可能是开环或者闭环的。

采用这种方案的优点在于，通过这个程序，完善地表示立体声或多声道图像的动态。所发送参数是帧配置以及编码滤波器。

由于包括可变帧长度处理，在编码器中交迭的分析窗口可能具有不同长度。因此，在解码器中，它是声道信号到窗口相应的合成以及交迭-增加不同的信号长度所必要的。

情况通常是，对于固定信号，立体声图像相当稳定，并且估算声道滤波器相当固定。在这种情况中，将获益于具有较长脉冲响应的FIR滤波器，即，对立体声图像更好地建模。

已经清楚知道，特别有利的是，还通过把前面所述的位分配程序结合到可变帧长度和可调滤波器长度处理中来增加另一种自由度。在本发明的一个优选示范实施例中，思路是选择帧分割配置以及用于各子帧的位分配和滤波器长度/维的组合，以便优化表示在整个编码帧上所考虑的编码过程或者信号编码级的性能的量度。然后，根据所选位分配和滤波器维为所选帧分割配置的子帧的每个对所考虑的信号表示分开编码。

优选地，所考虑的信号是侧信号，以及编码器是包括参数(ICP)级和辅助级、如非参数级的多级编码器。位分配信息控制多少量化位应当转到参数级以及转到辅助级，以及滤波器长度信息优选地与参数(ICP)滤波器的长度相关。

信号编码过程在这里优选地生成表示所选帧分割配置、以及对于所选帧分割配置的各子帧的位分配和滤波器长度的输出数据，用于传递到解码侧。

采用较高的自由度，能够发现实际最佳的选择。但是，待传递给解码侧的控制信息的数量增加。为了减小对于在音频传送系统中从编码侧到解码侧的信令的比特率要求，对于各子帧，滤波器长度优选地根据子帧的长度来选择，如上所述。这意味着，编码帧或主帧到子帧集合的帧分割配置的指示同时提供用于各子帧的所选滤波器维的指示，由此减少所需信令。

上述实施例只作为实例给出，并且应该理解，本发明不限于此。保留了本文所公开并要求其权益的根本的基本原理的其它修改、变更和改进均处于本发明的范围之内。

参考文献

Johnston的美国专利No.5285498。

Veldhuis等人的欧洲专利No.0497413。

C.Faller等人的“应用于立体声和多声道音频压缩的双耳线索编码”，112^thAES convention，2002年5月，Munich，Germany。

Holt等人的美国专利No.5434948。

C.Faller和F.Baumgarte的“双耳线索编码-第I部分：心理声学基础和设计原理”，IEEE Trans.Speech Audio Processing，vol.11，第509-519页，2003年11月。

J.Robert Stuart的“多声道音频的心理声学”，Meridian AudioLtd，1998年6月

S-S.Kuo、J.D.Johnston的“关于交叉声道预测不适用于感知音频编码的原因的研究”，IEEE Signal Processing Lett.，vol.8，第245-247页。

Y.Linde、A.Buzo和R.M.Gray的“向量量化器设计的算法”，IEEE Trans.on Commun.，Vol.COM-28，第84-95页，1980年1月。

B.Edler、C.Faller和G.Schuller的“采用时变线性前置和后置滤波器的感知音频编码”，in AES Convention，Los Angeles，CA，2000 年9月。

Bernd Edler和Gerald Schuller的“采用心理声学前置和后置滤波器的音频编码”，ICASSP-2000 Conference Record，2000年。

Dieter Bauer和Dieter Seitzer的“时域中的高质量立体声信号的统计属性”，IEEE Intemational Conf.on Acoustics，Speech，andSignal Processing，vol.3，第2045-2048页，1989年5月。

Gene H.Golub和Charles F.van Loan的“矩阵计算”，secondedition，chapter4，第137-138页，The John Hopkins University Press，1989年。

B-H.Juag和A.H.Gray Jr的“用于语音编码的多级向量量化”，In Intemational Conference on Acoustics，Speech，and SignalProcessing，Vol.1，笫597-600页，Paris，1982年4月。

Claims

1.一种对多声道音频信号进行编码的方法，包括以下步骤：

-在第一信号编码过程中对所述多个声道中的至少一个的第一信号表示进行编码；

-在第二信号编码过程中对所述多个声道中的至少一个的第二信号表示进行编码，所述第二信号编码过程为多级信号编码过程，

其特征在于，根据所述多声道音频信号的声道间相关特性在所述多级信号编码过程的不同编码级之中自适应地分配编码位数量。

2.如权利要求1所述的编码方法，其特征在于，在不同编码级之中自适应地分配位数量的所述步骤逐帧地执行。

3.如权利要求1所述的编码方法，其特征在于，在不同编码级之中自适应地分配编码位数量的所述步骤根据所述编码级中的至少一个的估算性能来执行。

4.如权利要求3所述的编码方法，其特征在于，在不同编码级之中自适应地分配编码位数量的所述步骤包括以下步骤：

-评估作为假定分配给第一编码级的位数量的函数的所述第一编码级的估算性能；以及

-根据所述评估把所述第一编码位数量分配给所述第一编码级。

5.如权利要求3或4所述的编码方法，其特征在于，所述多级信号编码过程包括第一编码级中的自适应声道间预测，用于根据所述第一信号表示和所述第二信号表示来预测所述第二信号，以及所述性能至少部分根据信号预测误差来估算。

6.如权利要求5所述的编码方法，其特征在于，所述性能还根据作为对于所述声道间预测所生成的第二信号重构数据的量化所分配的位数量的函数的量化误差的估算来进行估算。

7.如权利要求5所述的编码方法，其特征在于，所述多级信号编码过程还包括用于对来自所述第一编码级的所述信号预测误差的表示进行编码的第二编码级中的编码过程。

8.如权利要求1所述的编码方法，其特征在于，所述多级信号编码过程是混合参数和非参数编码过程，以及编码位根据声道间相关特性在参数编码级与非参数编码级之间分配。

9.如权利要求1所述的编码方法，其特征在于，所述编码位数量是通过所述多级信号编码过程的位预算来确定的，以及所述第二信号编码过程还生成表示位分配的输出数据。

10.如权利要求1所述的编码方法，其特征在于，所述第二信号编码过程包括在编码之前选择用于编码的组合位分配和滤波器长度、以便优化表示所述第二信号编码过程的性能的量度的步骤。

11.如权利要求4所述的编码方法，其特征在于，所述第二信号编码过程包括在编码之前选择待分配给所述第一编码级的位数量和将用于所述第一编码级的滤波器长度的组合、以便优化表示至少所述第一编码级的性能的量度的步骤。

12.如权利要求10或11所述的编码方法，其特征在于，所述第二信号编码过程生成表示所述所选位分配和滤波器长度的输出数据。

13.如权利要求1所述的编码方法，其特征在于，所述第二信号编码过程包括在编码之前选择下列各项的组合的步骤：

编码帧到子帧集合的帧分割配置，

用于各子帧的编码的位分配和滤波器长度，

以便优化表示在整个编码帧上所述第二信号编码过程的性能的量度；以及

根据所选组合对所选子帧集合的子帧的每个中的所述第二信号表示分开编码。

14.如权利要求4所述的编码方法，其特征在于，所述第二信号编码过程包括在编码之前选择下列各项的组合的步骤：

编码帧到子帧集合的帧分割配置，

各子帧的待分配给所述第一编码级的位数量，

各子帧的待用于所述第一编码级的滤波器长度，

以便优化表示在整个编码帧上至少所述第一编码级的性能的量度；以及

15.如权利要求13或14所述的编码方法，其特征在于，所述第二信号编码过程生成表示所选帧分割配置、以及用于所选帧分割配置的各子帧的位分配和滤波器长度的输出数据。

16.如权利要求15所述的编码方法，其特征在于，用于各子帧的所述滤波器长度根据所述子帧的长度来选择，使得编码帧到子帧集合的帧分割配置的指示同时提供用于各子帧的所选滤波器维的指示，由此减少所需信令。

17.一种对已编码多声道音频信号进行解码的方法，包括以下步骤：

-响应由声道间预测产生的第一信号重构数据，在第一信号解码过程中对所述多个声道中的至少一个的已编码第一信号表示进行解码；

-响应由声道间预测产生的第二信号重构数据，在第二多级信号解码过程中对所述多个声道中的至少一个的已编码第二信号表示进行解码，

其特征在于：

-接收表示在对应的第二多级信号编码过程中已经在不同编码级之中如何分配位数量的位分配信息；以及

-根据所述位分配信息来确定在所述多级信号解码过程中如何解释所述第二信号重构数据。

18.一种用于对多声道音频信号进行编码的装置，包括：

-第一编码器，用于对所述多个声道中的至少一个的第一信号表示进行编码；

-第二多级编码器，用于对所述多个声道中的至少一个的第二信号表示进行编码，

其特征在于，用于根据所述多声道音频信号的声道间相关特性自适应地控制在所述第二多级编码器的不同编码级之中编码位数量的分配的部件。

19.如权利要求18所述的装置，其特征在于，所述控制部件可用于逐帧地自适应地控制在所述不同编码级之中位的分配。

20.如权利要求18所述的装置，其特征在于，所述控制部件可用于根据所述编码级中的至少一个的估算性能自适应地控制在所述不同编码级之中编码位数量的分配。

21.如权利要求20所述的装置，其特征在于，所述控制部件包括：

-用于评估作为假定分配给所述第二多级编码器的第一编码级的位数量的函数的所述第一编码级的估算性能的部件；以及

-用于根据所述评估把所述第一编码位数量分配给所述第一编码级的部件。

22.如权利要求20或21所述的装置，其特征在于，第一编码级包括自适应声道间预测滤波器，用于基于所述第一信号表示和所述第二信号表示的第二信号预测，以及所述控制部件包括用于至少部分根据信号预测误差来评估至少所述第一编码级的估算性能的部件。

23.如权利要求22所述的装置，其特征在于，所述评估部件可用于根据作为对于所述声道间预测滤波器的量化所分配的位数量的函数的估算量化误差的评估来评估至少所述第一编码级的估算性能。

24.如权利要求22所述的装置，其特征在于，所述第二多级编码器还包括用于对来自所述第一编码级的所述信号预测误差的表示进行编码的第二编码级。

25.如权利要求18所述的装置，其特征在于，所述多级编码器是混合参数和非参数编码器，以及所述控制部件可用于根据声道间相关特性控制在参数编码级与非参数编码级之间的编码位的分配。

26.如权利要求18所述的装置，其特征在于，所述编码位数量通过用于所述第二编码器的位预算来确定，以及所述第二编码器可用于生成表示位分配的输出数据。

27.如权利要求18所述的装置，其特征在于，包括用于选择用于编码的组合位分配和滤波器长度、以便优化表示所述第二编码器的性能的量度的部件。

28.如权利要求21所述的装置，其特征在于，包括用于选择待分配给所述第一编码级的位数量以及将用于所述第一编码级的滤波器长度的组合、以便优化表示至少所述第一编码级的性能的量度的部件。

29.如权利要求27或28所述的装置，其特征在于，所述第二编码器可用于生成表示所选位分配和滤波器长度的输出数据。

30.如权利要求18所述的装置，其特征在于，还包括：

用于选择编码帧到子帧集合的帧分割配置以及用于各子帧的编码的位分配和滤波器长度的组合、以便优化表示在整个编码帧上所述第二编码器的性能的量度的部件；以及

用于根据所选组合对所选子帧集合的子帧的每个中的所述第二信号表示分开编码的部件。

31.如权利要求21所述的装置，其特征在于，还包括：

-用于选择i)编码帧到子帧集合的帧分割配置、ii)对于各子帧待分配给所述第一编码级的位数量以及iii)对于各子帧将用于所述第一编码级的滤波器长度的组合、以便优化表示在整个编码帧上至少所述第一编码级的性能的量度的部件；以及

-用于根据所选组合对所选子帧集合的子帧的每个中的所述第二信号表示分开编码的部件。

32.如权利要求30或31所述的装置，其特征在于，所述第二编码器可用于生成表示所选帧分割配置、以及用于所述所选帧分割配置的各子帧的位分配和滤波器长度的输出数据。

33.如权利要求32所述的装置，其特征在于，所述第二编码器可用于根据所述子帧的长度来选择用于各子帧的滤波器长度，使得编码帧到子帧集合的帧分割配置的指示同时提供用于各子帧的所选滤波器维的指示，由此减少所需信令。

34.一种用于对已编码多声道音频信号进行解码的装置，包括：

-第一解码器，用于响应由声道间预测产生的第一信号重构数据而对所述多个声道中的至少一个的已编码第一信号表示进行解码；

-第二多级解码器，用于响应由声道间预测产生的第二信号重构数据而对所述多个声道中的至少一个的已编码第二信号表示进行解码，

其特征在于：

-用于接收表示在对应的第二多级编码器中已经在不同编码级之中如何分配位数量的位分配信息的部件；以及

-用于根据所述位分配信息在所述第二多级解码器中解释所述第二信号重构数据、以便对第二信号表示进行解码的部件。

35.一种音频传送系统，其特征在于，所述系统包括权利要求18的编码装置以及权利要求34的解码装置。