CN101802907A

CN101802907A - 多信道音频的联合增强

Info

Publication number: CN101802907A
Application number: CN200880108354A
Authority: CN
Inventors: E·诺维尔; A·塔莱布
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2007-09-19
Filing date: 2008-04-17
Publication date: 2010-08-11
Anticipated expiration: 2028-04-17
Also published as: CN101802907B; US8218775B2; EP2201566B1; PL2201566T3; EP2201566A1; WO2009038512A1; US20100322429A1; KR101450940B1; KR20100063099A; EP2201566A4; JP2010540985A; JP5363488B2

Abstract

提供整体编码程序及关联解码程序。编码程序涉及对一组音频输入信道的信号表示进行操作的至少两个信号编码过程(S1，S4)。本地合成(S2)与第一编码过程结合使用，以便生成包括第一编码过程的编码误差的表示的本地解码的信号。这个本地解码的信号作为输入应用于(S3)第二编码过程。整体编码程序从至少包括所述第二编码过程的所述编码过程的至少一个生成至少两个残余编码误差信号(S5)。然后，残余误差信号优选地根据残余误差信号之间的相关性经过另一个编码过程的复合残余编码(S6)。

Description

多信道音频的联合增强

技术领域

一般来说，本发明涉及音频编码和解码技术，更具体来说，涉及诸如立体声编码等多信道音频编码。

背景技术

对通过分组交换网络提供电信服务的需求急剧增加，并且在当今比以往更强烈。与此同时存在待传送媒体内容不断增长的多样性，包括不同的带宽、单声道和立体声以及语音和音乐信号。集合各种标准化团体的许多工作来定义向用户传递混合内容的灵活有效解决方案。值得注意，两个主要难题仍然有待解决。首先，已部署的组网技术和用户装置的多样性意味着为不同用户所提供的相同服务因传输网络的不同性质而具有不同的用户感知质量。因此，改进质量机制对于使服务适配实际传输特性是必要的。其次，通信服务必须容纳范围广的媒体内容。当前，语音和音乐传输仍然属于不同范例，并且对于可为所有类型的音频信号提供良好质量的服务存在要填补的空白。

当今，可伸缩视听以及一般而言媒体内容编解码器是可用的，实际上，MPEG的早期设计方针之一从一开始就是可伸缩性(scalability)。但是，虽然这些编解码器因其功能性而具有吸引力，但是它们缺乏工作在低比特率的效率，它们实际上不能对应当前大量市场无线装置。对于无线通信的高渗透性，需要更复杂的可伸缩编解码器。已经认识到这个事实，并且新的编解码器预计在不久的将来会出现。

尽管对自适应服务和可伸缩编解码器投入大量工作，但是，除非更加重视传输问题，否则可伸缩服务不会出现。因此，除了有效编解码器之外，还必须将适当的网络体系结构和传输框架视为允许完全利用服务输送中可伸缩性的技术。基本上可考虑三种情形：

-在端点的调适。也就是说，如果必须选择较低传输速率，则发送侧收到通知并且它执行伸缩或编解码器变更。

-在中间网关的调适。如果网络的一部分变得拥塞或者具有不同的服务能力，则如图1所示的专用网络实体执行服务的代码转换。通过可伸缩编解码器，这可像丢弃或截短媒体帧同样简单。

-网络内部的调适。如果路由器或无线接口变得拥塞，则恰在出问题的地方通过丢弃或截短分组来执行调适。这对于象严重业务突发的处理或者无线链路的信道质量变化等瞬变问题是合乎需要的解决方案。

可伸缩音频编码

非会话流播/下载

一般来说，当前音频研究趋势是提高在低速率处的压缩效率(以低于32kbps的比特率提供足够好的立体声质量)。近来的低速率音频改进是MPEG中的参数立体声(PS)工具开发的定案、3GPP中的混合CELP/以及变换编解码器扩展AMR-WB(又称作AMR-WB+)的标准化。还存在围绕空间音频编码(环绕声/5.1内容)正进行的MPEG标准化活动，其中已经选择第一参考模型(RMO)。

对于可伸缩音频编码，MPEG中的近期标准化工作已经产生可伸缩至无损扩展工具MPEG4-SLS。MPEG4-SLS提供对核心AAC/BSAC的一直到粒度降至0.4kbps而无损的渐进增强。SLS的音频对象类型(AOT)仍然有待定义。又在MPEG中，于2005年1月已经发布针对可伸缩语音和音频编码领域的调用信息(Call for Information)(CfI)[1]，在CfI中，所针对的关键问题是可伸缩性、跨内容类型(例如语音和音乐)的一致性能以及在低比特率(＜24kbps)的编码质量。

语音编码(会话单声道)

总论

在一般的语音压缩中，最近的标准化工作是3GPP2/VMR-WB编解码器扩展到还支持在8.55kbps的最大速率的操作。在ITU-T中，先前采用提供工作在24、32和48kbps的超宽带(14kHz音频带宽、32kHz取样)能力的两种新模式更新了多速率G.722.1音频/视频会议编解码器。附加模式当前正在标准化，它将带宽扩展到48kHz全频带编码。

对于可伸缩会话语音编码，主要标准化工作在ITU-T进行(工作组3，研究小组16)。在那里，最近(2004年11月)已经定义对G.729的可伸缩扩展的要求，并且鉴定过程在2005年7月结束。这种新的G.729扩展是可从8kbps伸缩到32kbps的，其中具有自12kbps的至少2kbps粒度步长。G.729可伸缩扩展的主要目标应用是通过共享的且带宽受限的xDSL链路的会话语音，即，伸缩可能在通过特定控制语音信道(Vc)传递VoIP分组的数字驻地网关(Digital Residential Gateway)中发生。ITU-T也正在定义SG16/WP3/Question 9的全新可伸缩会话编解码器的要求的过程中。Q.9/嵌入式可变速率(EV)编解码器的要求在2006年7月定案；当前，Q.9/EV要求规定8.0kbps的核心速率和32kbps的最大速率。Q.9/EV细粒度可伸缩性的特定要求尚未引入，而是可能将评估某些操作点，但是细粒度可伸缩性仍然是目标。Q.9/EV核心没有像G.729扩展那样限制到窄带(8kHz取样)，即，Q.9/EV可自核心层及以上提供宽带(16kHz取样)。此外，在2006年11月定义了赋予其超宽带和立体声能力(32kHz取样/2信道)的即将到来的Q.9/EV编解码器的扩展的要求。

SNR可伸缩性

存在许多可随增加的比特量/层的量而增加SNR的可伸缩会话编解码器。例如，MPEG4-CELP[8]、G.727(嵌入式ADPCM)是SNR可伸缩的，各附加层增加重构信号的保真度。最近，

等人提出一种灵活的SNR和带宽可伸缩编解码器[9]，它实现自某个核心速率的细粒度可伸缩性，从而实现传输带宽的细粒度优化，适用于语音/音频会议服务器或者开环网络拥塞控制。

带宽可伸缩性

还存在可随增加的比特量而增加带宽的编解码器。示例包括G722(子带ADPCM)、对3GPP WB语音编解码器竞争[3]的TI候选和理论AMR-BWS[2]编解码器。对于这些编解码器，特定带宽层的添加将同步信号的音频带宽从～4kHz增加到～7kHz。带宽可伸缩编码器的另一个示例是基于[4]中Koishida描述的G.729的16kbps带宽可伸缩音频编码器。另外，除了是SNR可伸缩的之外，MPEG4-CELP还规定用于8和16kHz取样输入信号的SNR可伸缩编码系统[9]。

信道鲁棒性技术

关于改进会话编解码器的信道鲁棒性，已经通过各种方式对现有标准和编解码器进行了这方面的工作。例如：

·EVRC(1995)，传送增量延迟参数(delta Delay parameter)，它是部分冗余编码参数，从而使得能够在信道消除之后重构自适应码本状态，因而增强错误恢复能力。EVRC的详细概述参见[11]。

·在AMR-NB[12]中，为GSM网络所指定的语音服务根据最大源速度调适原理进行操作。给定总比特率的信道编码和源编码之间的折衷由GSM系统连续监测和调整，并且调适编码器源速率以提供可能的最佳质量。源速率可从4.75kbps变化至12.2kbps。以及信道总速率为22.8kbps或者11.4kbps。

·除了在以上粗圆点中所描述的最大源速率调适能力之外。AMRRTP有效载荷格式[5]考虑到重传整个过往帧，从而显著增加对随机帧错误的鲁棒性。在[10]中描述自适应地使用完全和部分冗余度概念的多模式自适应AMR系统。此外，RTP有效载荷考虑到分组的交织，因而增强非会话应用的鲁棒性。

·在[6]中描述与AMR-WB结合的多描述编码，此外还提出自适应编解码器模式选择方案，其中AMR-WB用于低错误条件，并且在严重错误条件中使用所描述的信道鲁棒MD-AMR(WB)编码器。

·信道鲁棒性技术变化到传送冗余数据技术是要调整编码器分析，以便降低状态的依赖性；这在AMR 4.75编码模式中进行。AMR-WB的类似编码器侧分析技术的应用由Lefebvre等人在[7]中描述。

·在[13]中，Chen等人描述一种多媒体应用，它使用多速率音频能力来根据来自慢(1秒)反馈信道的信息调适总速率以及还调适实际使用的压缩方案。另外，Chen等人采用极低速率基层来扩展音频应用，它使用文本作为冗余参数，以便能够为真正严重错误条件提供语音合成。

音频可伸缩性

基本上，音频可伸缩性可通过以下步骤来实现：

-改变信号的量化、即类似SNR的可伸缩性。

-扩展或紧缩信号的带宽。

-丢弃音频信道(例如由1个信道组成的单声道、2个信道组成的立体声、5信道组成的环绕)-(空间可伸缩性)。

当前可用的细粒度可伸缩音频编解码器是AAC-BSAC(高级音频编码-比特时间片式算术编码(Bit-Sliced Arithmetic Coding)。它可用于音频和语音两种编码，它还考虑小增量的比特率可伸缩性。

它产生比特流，甚至可在流的某些部分缺失时对该比特流进行解码。对于为了准许流的解码而必须可用的数据量存在最小要求。这被称作基层。比特的剩余集合对应于质量增强，因此将它们称作增强层。AAC-BSAC支持音频信号的大约1千比特/秒/信道(1Kbit/s/channel)或者更小的增强层。

“为了得到这种细粒度可伸缩性，将比特时间片式方案(bit-slicing scheme)应用于量化频谱数据。首先，将量化频谱值编组为频带，这些组的每个都包含以其二进制表示的量化频谱值。然后，按照其重要性和频谱内容在时间片中处理该组的比特。因此，首先处理组中的量化值的所有最高有效位(MSB)，并且在给定时间片中从较低频率到较高频率处理比特。然后，使用二进制算术编码方案来对这些比特时间片编码，以便得到具有最小冗余度的熵编码。”[1]

“随着解码器所使用的增强层数量增加，提供更多LSB信息精制量化频谱数据。同时，较高频带中的频谱数据的比特时间片的提供增加音频带宽。这样，准连续可伸缩性是可实现的”。[1]

换言之，可伸缩性可在二维空间实现。与某个信号带宽对应的质量可通过传送更多LSB来增强，或者信号的带宽可通过向接收器提供更多比特时间片来扩展。此外，通过调适解码可用的信道的数量，第三维的可伸缩性是可得到的。例如，环绕音频(5个信道)可缩小到立体声(2个信道)，如果例如传输条件使得有必要，则它另一方面可缩小到单声道(1个信道)。

音频编码的感知模型

为了对音频编码系统实现在给定比特率的最佳感知质量，必须考虑人类听觉系统的性质。目的是使资源集中于声音中将会被细察的部分，同时节省其中听觉感知迟钝的资源。在各种听力测试中证明了人类听觉系统的性质，其结果已经用于得出感知模型。

感知模型在音频编码中的应用可通过不同方式来实现。一种方法是按照对应于感知重要性的方式来执行编码参数的比特分配。在变换域编解码器、例如MPEG-1/2第III层中，这通过将频域中的比特按照其感知重要性分配给不同子带来实现。另一种方法是执行感知加权或过滤，以便加重信号的感知上重要的频率。该加重保证在标准MMSE编码技术中分配更多资源。又一种方式是在编码之后对残余误差信号执行感知加权。通过使感知加权误差为最小，使感知质量相对于该模型为最大。这种方法通常用于例如CELP语音编解码器。

立体声编码或多信道编码

采用多信道(即，至少两个输入信道)编码和解码的音频传输系统的概括性实例如图2示意所示。整个系统主要包括发射侧的多信道音频编码器100和发射模块10以及接收侧的接收模块20和多信道音频解码器200。

音频信号的立体声编码或多信道编码的最简单方式是将不同信道的信号单独编码为各个独立信号，如图3所示。但是，这意味着不去除多个信道之间的冗余度，并且比特率要求将与信道数量成比例。

立体声FM无线电传输中使用的、并且确保与传统单声道无线电接收器的兼容性的另一种基本方式是传送两个有关信道的总和信号(单声道)和差信号(旁侧(side))。

现有技术的音频编解码器、例如MPEG-1/2第III层和MPEG-2/4AAC利用所谓的联合立体声编码。根据这种技术，不同信道的信号经过联合处理而不是单独和分别处理。两种最常用的联合立体声编码技术称作‘中/侧’(M/S)立体声和强度立体声编码，它们通常应用于待编码的立体声或多信道信号的子带。

在对信道子带的总和信号及差信号进行编码和传送并且由此利用信道子带之间的冗余度的意义上，M/S立体声编码与立体声FM无线电中的所述过程相似。例如在J.D.Johnston的美国专利No.5285498中描述了基于M/S立体声编码的编码器的结构和操作。

另一方面，强度立体声能够利用立体声不相干性。它传送(不同子带的)信道的联合强度连同某种位置信息，指明如何在信道之间分布强度。强度立体声仅提供信道的频谱量值信息，而相位信息没有被传送。为了这个原因以及由于信道间时间信息(更具体来说是信道间时间差)特别在较低频率具有主要心理声学相干性，所以强度立体声仅可在高于例如2kHz的高频使用。例如在R.Veldhuis等人的欧洲专利0497413中描述了强度立体声编码方法。

C.Faller等人例如在标题为“应用于立体声和多信道音频压缩的双耳线索编码(‘Binaura cue coding applied to stereo andmulti-channel audio compression’)”的大会论文(112^th AESconvention，2002年5月，德国慕尼黑)中描述了最近开发的立体声编码方法。这种方法是参数多信道音频编码方法。这类参数技术的基本原理在于，在编码侧，把来自N个信道c₁、c₂、...、c_N的输入信号组合为一个单声道信号m。单声道信号是使用任何常规单声道音频编解码器进行编码的音频。并行地，从描述多信道声像(multi-channelimage)的信道信号得出参数。连同音频比特流一起，将参数编码并且传送到解码器。解码器首先对单声道信号m’进行解码，然后根据多信道声像的参数描述来再生信道信号c₁’、c₂’、...c_N’。

双耳线索编码(BCC[14])方法的原理在于，它传送编码单声道信号和所谓的BCC参数。BCC参数包括原始多信道输入信号的子带的已编码信道间电平差和信道间时间差。解码器通过根据BCC参数应用单声道信号的逐个子带的电平和相位调整，来再生不同的信道信号。优于例如M/S或强度立体声的优点在于，包含信道间时间信息的立体声信息以低得多的比特率传送。

C.E.Holt等人在美国专利No.5434948中描述的另一种技术使用单声道信号和旁侧信息(side information)的编码的相同原理。在这种情况下，旁侧信息由预测滤波器和可选的残余信号组成。通过LMS算法所估计的预测滤波器在应用于单声道信号时允许多信道音频信号的预测。通过这种技术，能够达到多信道音频源的极低比特率编码，但是以质量下降为代价。

参数立体声编码的基本原理如图4所示，它显示立体声编解码器的布局，其中包括下混频模块120、核心单声道编解码器130、230以及参数立体声旁侧信息编码器/解码器140、240。下混频将多信道(在这种情况中为立体声)信号变换成单声道信号。参数立体声编解码器的目的是在给定重构单声道信号和附加立体声参数的情况下在解码器再现立体声信号。

在作为WO2006/091139公布的国际专利申请中，描述一种用于多信道编码的自适应比特分配的技术。它利用至少两个编码器，其中第二编码器是多级编码器。在第二多级编码器的不同级之间根据多信道音频信号特性自适应地分配编码比特。

最后，为了完整性，将提到在3D音频中使用的一种技术。这种技术通过采用所谓的头相关滤波器(head-related filters)对声源信号进行滤波来合成右信道信号和左信道信号。但是，这种技术要求分离不同的声源信号，因而一般不能应用于立体声或多信道编码。

传统参数多信道或立体声编码解决方案目的在于使用信道关系的参数表示从单声道下混频信号来重构立体声或多信道信号。如果经编码的下混频信号的质量很低，则这也在最终结果中反映，而不管对立体声信号参数所耗用的资源量。

发明内容

本发明解决了现有技术布置的这些及其它缺点。

本发明一般涉及整体编码程序及关联解码程序。编码程序涉及对一组音频输入信道的信号表示进行操作的至少两个信号编码过程。本发明的基本思路是使用与第一编码过程结合的本地合成以生成包括第一编码过程的编码误差的表示的本地解码的信号，并且将这个本地解码的信号作为输入应用于第二编码过程。整体编码程序从第一和第二编码过程的一个或两个生成至少两个残余编码误差信号，主要从第二编码过程生成，但可选地从第一和第二编码过程共同生成。然后，残余误差信号优选地根据残余误差信号之间的相关性经过另一个编码过程中的复合残余编码。在这个过程中，还可考虑感知度量。

由于本地解码的信号用作第二编码过程的输入，所以始终可确保复合残余包括第一和第二两种编码过程的编码误差的表示。通过利用残余误差信号之间的相关性，能以改进质量的可能性来实现音频输入的高资源有效的整体编码。

从硬件角度来看，本发明涉及编码器及关联解码器。整体编码器主要包括用于对输入信道的不同表示进行编码的至少两个编码器。与第一编码器结合的本地合成生成本地解码的信号，并且这个本地解码的信号作为输入应用于第二编码器。整体编码器还可操作以用于从第一和/或第二编码器生成至少两个残余编码误差信号，主要从第二编码器生成，但可选地从第一和第二编码器两者中生成。整体编码器还包括用于优选地基于残余误差信号之间的相关性对残余误差信号进行复合误差分析、变换和后续量化的复合残余编码器。

如果本地合成无法从第一编码器提取，则与第一编码器对应的解码器可被实现并且在编码侧用于产生整体编码程序中的本地合成。这基本上意味着，本地合成可在第一编码器中内部实现，或者备选地通过在编码侧所实现的专用解码器结合第一编码器来实现。

更具体来说，解码机制主要涉及包括第一解码过程和第二解码过程的至少两个解码过程，对进入比特流进行操作以重构多信道音频信号。然后根据表示不相关残余误差信号信息的进入残余比特流在另一个解码过程中执行复合残余解码，以便生成相关残余误差信号。然后，将相关残余误差信号与来自第一和第二解码过程中的至少一个解码过程(至少包括所述第二解码过程)的已解码信道表示相加，以便产生解码的多信道输出信号。

在又一个方面，本发明涉及基于所提出的音频编码器和解码器的改进音频传输系统。

通过阅读以下对本发明的实施例的描述，将会理解本发明所提供的其它优点。

附图说明

通过参照以下结合附图进行的说明，将会最佳地理解本发明连同本发明的其它目的和优点，附图包括：

图1示出媒体调适的专用网络实体的示例。

图2是示出使用多信道编码和解码的音频传输系统的概括性示例的示意框图。

图3是示出如何将不同信道的信号单独编码为各个独立信号的示意图。

图4是示出参数立体声编码的基本原理的示意框图。

图5是根据本发明的一个示范实施例的立体声编码器的示意框图。

图6是根据本发明的另一个示范实施例的立体声编码器的示意框图。

图7A-B是示出可如何将立体声移位(stereo panning)表示为L/R平面中的角的示意图。

图8是示出可如何使用量化器的边界以便可采取可能较短环绕式步骤(wrap-around step)的示意图。

图9A-H是使用八个频带的特定帧的L/R信号平面中的示例散布图。

图10是示出与图5的立体声编码器对应的立体声解码器的概览的示意图。

图11是根据本发明的一个示范实施例的多信道音频编码器的示意框图。

图12是根据本发明的一个示范实施例的多信道音频解码器的示意框图。

图13是根据本发明的一个示范实施例的音频编码方法的示意流程图。

图14是根据本发明的一个示范实施例的音频解码方法的示意流程图。

具体实施方式

在所有附图中，相同的参考标号将用于对应或相似的元件。

本发明涉及音频应用中的多信道(即，至少两个信道)编码/解码技术，具体来说，涉及音频传输系统中的和/或用于音频存储的立体声编码/解码。可能的音频应用的示例包括电话会议系统、移动通信系统中的立体声音频传输、用于提供音频服务的各种系统以及多信道家庭影院系统。

参照图13的示意示范流程图，可以看到，本发明优选地依靠以下原理：在第一信号编码过程中对一组输入信道的第一信号表示进行编码(S1)，以及在第二信号编码过程中对至少一部分输入信道的至少一个附加信号表示进行编码(S4)。简言之，基本思路是通过与第一编码过程结合的本地合成来生成所谓的本地解码的信号(S2)。本地解码的信号包括第一编码过程的编码误差的表示。本地解码的信号作为输入应用于第二编码过程(S3)。整体编码程序从第一和第二编码过程的一个或两个生成至少两个残余编码误差信号(S5)，主要从第二编码过程生成，但可选地从第一和第二编码过程共同得到。然后，根据残余误差信号之间的相关性在包括复合误差分析的复合残余编码过程(S6)中处理残余误差信号。

例如，第一编码过程可以是主要编码过程、例如单声道编码过程，而第二编码过程可以是辅助编码过程、例如立体声编码过程。整体编码程序一般对至少两个(多个)输入信道进行操作，其中包括立体声编码以及更复杂的多信道编码。

在本发明的一个优选示例实施例中，复合残余编码过程可包括通过适当变换对相关残余误差信号进行去相关以产生对应的不相关误差分量、对至少一个不相关误差分量的量化以及对变换的表示的量化，稍后更详细地对其进行阐述和说明。稍后会看到，误差分量的量化例如可涉及基于误差分量的对应能量级在不相关误差分量之间的比特分配。

参照图14的示意示范流程图，对应解码过程优选地涉及包括第一解码过程(S11)和第二解码过程(S12)的至少两个解码过程，对进入比特流进行操作以重构多信道音频信号。根据表示不相关残余误差信号信息的进入残余比特流在另一个解码过程(S13)中执行复合残余解码，以便生成相关残余误差信号。然后，将相关残余误差信号与来自第一和第二解码过程中的至少一个解码过程(至少包括第二解码过程)的已解码信道表示进行相加(S14)，以便生成多信道音频信号。

在本发明的一个优选示范实施例中，复合残余解码可包括基于进入残余比特流的残余解量化(dequantization)以及基于进入变换比特流的正交信号置换和逆变换，以便生成相关残余误差信号。

本发明人已经认识到，多信道或立体声信号性质可能随时间而改变。在信号的某些部分中，信道相关性很高，意味着立体声声像(stereoimage)很窄(类似单声道)，或者可采用简单左移或右移来表示。这种情形在例如电话会议应用中是常见的，这是因为一次可能只有一个人在说话。对于这类情况，需要较少资源来呈现立体声声像，并且过剩的比特更好地用于改进单声道信号的质量。

为了更好地理解本发明，有用的是首先针对立体声编码和解码来描述本发明的示例，然后继续进行更一般的多信道描述。

本发明基于以一致统一的方式隐式精制下混频质量以及立体声空间质量两者的思路。图5所示的本发明的实施例打算成为作为立体声增强层的可伸缩语音编解码器的一部分。图5的示范立体声编码器100-A主要包括下混频器101-A、主要编码器102-A、信道预测器105-A、复合残余编码器106-A和标号复用单元(index multiplexing unit)107-A。主要编码器102-A包括编码器单元103-A和本地合成器104-A。主要编码器102-A实现第一编码过程，而信道预测器105-A实现第二编码过程。复合残余编码器106-A实现另一个补充编码过程。基础编解码器层处理单声道信号，这意味着输入立体声信道必须下混频为单信道。下混频的标准方式是简单地将信号相加在一起：

M (n) = \frac{L (n) + R (n)}{2}

这种类型的下混频直接应用于通过n标示的时域信号。一般来说，下混频是将输入信道的数量p减少到下混频信道的较少数量q的过程。下混频可以是在时域或频域中执行的输入信道的任何线性或非线性组合。下混频可适配信号性质。

其它类型的下混频使用左信道和右信道的任意组合，并且这种组合也可以是依赖于频率的。

在本发明的示范实施例中，假定对频带或者一组变换系数进行立体声编码和解码。这假定信道的处理在频带中进行。采用依赖于频率的系数的任意下混频可写作：

M_b(m)＝α_bL_b(m)+β_bR_b(m)

在这里，标号m对频带的样本进行标示。没有背离本发明的精神，更精细的下混频方案可与自适应和时变加权系数α_b和β_b配合使用。

下文中，当提到信号L、R和M而没有标号n、m或b时，通常描述可使用信号的时域表示或频域表示的任一个来实现的一般概念。但是，当提到时域信号时，通常使用小写字母。下文中，在以样本标号n显式提到示范时域信号时，主要使用小写体l(n)、r(n)和m(n)。

一旦已经产生单声道信道，则将它馈送到一般称作主要编码器102-A的较低层单声道编解码器。主要编码器102-A对输入信号M进行编码，以便在编码器单元103-A中产生量化比特流(Q₀)，并且还在本地合成器104-A中产生本地解码的单声道信号然后，立体声编码器使用本地解码的单声道信号来产生立体声信号。

在以下处理级之前，采用感知加权是有益的。这样，将自动地采用较高分辨率对信号的感知上重要的部分进行编码。加权在解码级将进行逆操作。在这个示范实施例中，假定主要编码器具有感知加权滤波器，它被提取并且再用于本地解码的单声道信号以及立体声输入信道L和R。由于感知模型参数随主要编码器比特流传送，所以对于感知加权不需要附加比特。还能够使用不同模型，例如考虑双耳音频感知的模型。一般来说，如果对于那一级的编码方法是有益的，则不同加权可应用于各编码级。

立体声编码方案/编码器优选地包括两级。在这里称作信道预测器105-A的第一级通过估计相关性并且提供左和右信道

的预测来处理立体声信号的相关分量，同时使用本地解码的单声道信号

作为输入。在该过程中，信道预测器105-A产生量化比特流(Q₁)。通过从原始输入信号L、R减去预测

来计算各信道的立体声预测误差ε_L和ε_R。由于预测基于本地解码的单声道信号

所以预测残余将包含来自单声道编解码器的立体声预测误差和编码误差两者。在这里称作复合残余编码器106-A的另一级中，还分析和量化复合误差信号(Q₂)，从而允许编码器利用立体声预测误差与单声道编码误差之间的相关性，以及在两个实体之间共享资源。

量化比特流(Q₀，Q₁，Q₂)由标号复用单元107-A来收集，以便传送到解码侧。

立体声信号的两个信道往往非常相似，从而使得在立体声编码中应用预测技术是有用的。由于解码单声道信道将在解码器处可用，所以预测的目标是从这个信号重构左和右信道对。

[\begin{matrix} \hat{L} \\ \hat{R} \end{matrix}] = f (\hat{M})

在编码器处从原始输入信号减去预测的步骤将形成误差信号对：

[\begin{matrix} ϵ_{L} \\ ϵ_{R} \end{matrix}] = [\begin{matrix} L \\ R \end{matrix}] - [\begin{matrix} \hat{L} \\ \hat{R} \end{matrix}]

对于MMSE方面，最佳预测通过使误差向量[ε_L ε_R]^T为最小来得到。这可通过使用时变FIR滤波器在时域中求解：

[\begin{matrix} \hat{l} (n) \\ \hat{r} (n) \end{matrix}] = [\begin{matrix} Σ_{i = 0}^{N - 1} h_{L, t} \hat{m} (n - i) \\ Σ_{i = 0}^{N - 1} h_{R, t} \hat{m} (n - i) \end{matrix}]

频域中的等效操作可写作：

[\begin{matrix} {\hat{L}}_{b} (k) \\ {\hat{R}}_{b} (k) \end{matrix}] = [\begin{matrix} H_{L} (b, k) {\hat{M}}_{b} (k) \\ H_{R} (b, k) {\hat{M}}_{b} (k) \end{matrix}]

其中，H_L(b，k)和H_R(b，k)是频带b的系数k的滤波器h_L和h_R的频率响应，以及

和

(k)是时间信号

和

的经变换的对应部分。

在频域处理的优点之中还有它提供对相位的显式控制，其与立体声感知相关[14]。在较低频率区域中，相位信息高度相关，但在高频中可丢弃。它还可适应提供感知上相关的频率分辨率的子带划分。频域处理的缺点是时间/频率变换的复杂度和延迟要求。在这些参数关键的情况下，时域方式是合乎需要的。

对于根据本发明的这个示范实施例的目标编解码器，编解码器的顶层是MDCT域中的SNR增强层。MDCT的延迟要求已经在较低层中说明，并且可再使用该处理的部分。为此，选择MDCT域用于立体声处理。虽然非常适合于变换编码，但是它在立体声信号处理中具有某些缺点，原因在于它不提供显式相位控制。此外，MDCT的时间混叠性质可提供非预计结果，这是因为相邻帧固有地相互依赖。另一方面，它仍为依赖于频率的比特分配提供良好的灵活性。

对于立体声处理，频谱优选地分为处理频带。在AAC参数立体声中，将处理频带选择成匹配人类听觉感知的关键带宽(criticalbandwidths)。由于可用比特率很低，所以所选频带较少并且较宽，但是带宽仍然与关键频带成比例。将频带表示为b，预测可写作：

[\begin{matrix} {\hat{L}}_{b} (k, m) \\ {\hat{R}}_{b} (k, m) \end{matrix}] = w_{b} (m) {\hat{M}}_{b} (k, m) = [\begin{matrix} w_{b, L} (m) \\ w_{b, R} (m) \end{matrix}] {\hat{M}}_{b} (k, m)

在这里，k表示频带b中的MDCT系数的标号，并且m表示时域帧标号。

在均方误差意义上接近[L_b R_b]^T的w_b(m)的解为：

w_{b} (m) = [\begin{matrix} E {[L}_{b} (m) {\hat{M}}_{b}^{*} (m)] \\ E {[R}_{b} (m) {\hat{M}}_{b}^{*} (m)] \end{matrix}] / E [{\hat{M}}_{b} (m) {\hat{M}}_{b}^{*} (m)]

在这里，E[.]表示求平均运算符，并且定义为作为对预定时间频率区域求平均的任意时间频率变量的示例。例如：

E [X_{b} (m)] = \frac{1}{({2 N}_{Time} + 1) \cdot Sizeof (FrequencyBand (b))} Σ_{i = - N_{Time}}^{N_{Time}} \underset{k &Element; FrequencyBand (b)}{Σ} X_{b} (k, m - i)

求平均也可扩展到超过频带b。

在得出预测参数中的编码单声道信号的使用包括计算中的编码误差。虽然从MMSE方面是可觉察的，但是这引起立体声声像的不稳定性，它在感知上是令人讨厌的。为此，预测参数基于未处理单声道信号，不包括来自预测的单声道误差。

w_{b}^{'} (m) = [\begin{matrix} {w_{b, L}}^{'} (m) \\ {w_{b, R}}^{'} (m) \end{matrix}] = [\begin{matrix} E [L_{b} (m) M_{b}^{*} (m)] \\ E [R_{b} (m) M_{b}^{*} (m)] \end{matrix}] / E [M_{b} (m) M_{b}^{*} (m)]

为了促进预测参数的低比特率编码，进行进一步简化。由于编码在MDCT域中执行，所以信号将取实值，因此预测值w′_b(m)也将取实值。将预测值结合为单个移位角

这个角在L/R信号空间中具有解释，如图7A-B所示。角限制到范围[0，π/2]。在范围[π/2，π]中的角意味着信道是反相关(anti-correlated)的，它对于大多数立体声录制是不可能的情形。因此，立体声移位可表示为L/R平面中的角。

图7B是其中各点表示在给定时刻n(L(n)，R(n))的立体声样本的散步图。散步图显示以某个角沿粗线展开的样本。如果信道相等L＝R，则点在角

单线上展开。这时，由于声音稍微向左移位，所以点分布偏向

的较小值。

图6是根据本发明的另一个示范实施例的立体声编码器的示意框图。图6的示范立体声编码器100-B主要包括下混频器101-B、主要编码器102-B、所谓的旁侧预测器(side predictor)105-B、复合残余编码器106-B和标号复用单元107-B。主要编码器102-B包括编码器单元103-B和本地合成器104-B。主要编码器102-B实现第一编码过程，而旁侧预测器105-B实现第二编码过程。复合残余编码器106-B实现另一个补充编码过程。在立体声编码中，信道通常通过左和右信号l(n)、r(n)来表示。但是，等效表示是单声道信号m(n)(主要信号的特例)和旁侧信号s(n)。两种表示是等效的，并且通常通过传统矩阵运算进行相关：

[\begin{matrix} m (n) \\ s (n) \end{matrix}] = \frac{1}{2} [\begin{matrix} 1 & 1 \\ 1 & - 1 \end{matrix}] [\begin{matrix} l (n) \\ r (n) \end{matrix}]

在图6所示的特定示例中，所谓的信道间预测(ICP)用于旁侧预测器105-B中，以便通过估计

来表示旁侧信号s(n)，它可通过经由具有N个滤波器系数h_i(i)的时变FIR滤波器H(z)对单声道信号m(n)进行滤波来得到：

\hat{s} (n) = Σ_{i = 0}^{N - 1} h_{i} (i) m (n - i)

在编码器所得出的ICP滤波器例如可通过使旁侧信号预测误差的均方误差(MSE)或者相关性能度量(例如心理声学加权均方误差)为最小来估计。MSE通常表示为：

ξ (h) = Σ_{n = 0}^{L - 1} MSE (n, h) = Σ_{n = 0}^{L - 1} {(s (n) - Σ_{i = 0}^{N - 1} h (i) m (n - i))}^{2}

其中，L是帧大小，以及N是ICP滤波器的长度/阶数/维数。简单来说，ICP滤波器的性能、因而MSE的量值是确定最终立体声分离的主要因素。由于旁侧信号描述左信道与右信道之间的差，所以准确的旁侧信号重构是确保足够宽的立体声声像必不可少的。

单声道信号m(n)由主要编码器102-B的编码器103-B进行编码和量化(Q₀)，以便照常传递到解码侧。用于旁侧信号预测的旁侧预测器105-B的ICP模块提供FIR滤波器表示H(z)，它经过量化(Q₁)以便传递到解码侧。可通过对旁侧信号预测误差ε_s进行编码和/或量化(Q₂)来获得附加质量。应当注意，在对残余误差进行量化时，编码可能不再被称作纯参数的，因而旁侧编码器被称作混合编码器。另外，所谓的单声道信号编码误差ε_m被生成并且连同复合残余编码器106-B中的旁侧信号预测误差ε_s一起来分析。这种编码器模型与结合图5所描述的大致等效。

复合误差编码

在本发明的一个示范实施例中，对复合误差信号进行分析，旨在提取信道间相关性或者其它信号依赖性(dependencies)。分析的结果优选地用于得出执行复合误差的信道的去相关/正交化的变换。

在一个示范实施例中，当误差分量经过正交化时，可单独对经变换的误差分量进行量化。经变换的误差“信道”的能量级优选地用于执行信道之间的比特分配。比特分配还可考虑感知重要性或者其它加权因子。

从原始输入信号减去立体声预测，从而产生预测残余[ε_L ε_R]^T。这个残余包含立体声预测误差和单声道编码误差。假定单声道信号可写作原始信号和编码噪声之和：

\hat{M} = M + ϵ_{M}

频带b的预测误差则可写作(省略帧标号m和频带系数k)：

[\begin{matrix} ϵ_{b, L} \\ ϵ_{b, R} \end{matrix}] = [\begin{matrix} L_{b} - {\hat{L}}_{b} \\ R_{b} - {\hat{R}}_{b} \end{matrix}] = [\begin{matrix} L_{b} - w_{b, L} \hat{M} \\ R_{b} - w_{b, R} \hat{M} \end{matrix}] = [\begin{matrix} L_{b} - w_{b, L} (M + ϵ_{M}) \\ R_{b} - w_{b, R} (M + ϵ_{M}) \end{matrix}] = [\begin{matrix} L_{b} - w_{b, L} M - w_{b, L} ϵ_{M} \\ R_{b} - w_{b, R} M - w_{b, R} ϵ_{M} \end{matrix}]

在这里，可确定两个误差分量。首先，立体声预测误差：

[\begin{matrix} L_{b} - w_{b, L} M \\ R_{b} - w_{b, R} M \end{matrix}]

它除其他之外还包含扩散声场分量，即，与单声道信号没有相关性的分量。

第二分量与单声道编码误差相关，并且与单声道信号上的编码噪声成比例。

- [\begin{matrix} w_{b, L} ϵ_{M} \\ w_{b, R} ϵ_{M} \end{matrix}]

注意，使用移位因子(panning factors)将单声道编码误差分布到不同信道。

这两个误差源虽然似乎独立并且不相关，但是使左信道和右信道上的两个误差

相关。两个误差的相关矩阵可推导为：

[\begin{matrix} E [L_{b} L_{b}^{*}] - \frac{{| E [L_{b} {\hat{M}}_{b}^{*}] |}^{2}}{E [{\hat{M}}_{b} {\hat{M}}_{b}^{*}]} & E [L_{b} R_{b}^{*}] - \frac{E [L_{b} {\hat{M}}_{b}^{*}] E [R_{b} {\hat{M}}_{b}^{*}]}{E [{\hat{M}}_{b} {\hat{M}}_{b}^{*}]} \\ E [R_{b} L_{b}^{*}] - \frac{E [{\hat{M}}_{b} L_{b}^{*}] E [{\hat{M}}_{b} R_{b}^{*}]}{E [{\hat{M}}_{b} {\hat{M}}_{b}^{*}]} & E [R_{b} R_{b}^{*}] - \frac{{| E [R_{b} {\hat{M}}_{b}^{*}] |}^{2}}{E [{\hat{M}}_{b} {\hat{M}}_{b}^{*}]} \end{matrix}]

这表明，最终将左信道和右信道上的误差相关。我们认识到，除非两个信号不相关，否则两个误差的分开编码不是最佳的。因此，良好的思路是采用基于相关性的复合误差编码。

在一个优选示范实施例中，例如主分量分析(PCA)等技术或者类似变换技术可在这个过程中使用，PCA是一种用于将多维数据集减少到更低维供分析的技术。根据应用领域，它又称作离散Karhunen-Loève变换(或KLT)。

KLT在数学上定义为正交线性变换，它将数据变换到新的坐标系，使得数据的任何投影而引起的最大方差变成位于第一坐标(称作第一主分量)，第二最大方差位于第二坐标，依此类推。

通过保留数据集的对其方差贡献最大的那些特性，通过保持较低阶主分量而忽略较高阶主分量，KLT可用于数据集的维数减少。这类低阶分量往往包含数据的“最重要”方面。但是，情况不一定是这样，取决于应用。

在上述立体声编码示例中，残余误差可通过使用2×2 KarhunenLoève变换(KLT)来去相关/正交化。这是在这种二维情况下的简单运算。因此，误差可分解为：

[\begin{matrix} ϵ_{b, L} (k, m) \\ ϵ_{b, R} (k, m) \end{matrix}] = H_{b} (m) [\begin{matrix} z_{b}^{1} (k, m) \\ z_{b}^{2} (k, m) \end{matrix}]

其中，

是KLT变换(即，在平面中具有角θ_b(m)的旋转)，以及z_b ¹(k，m)、z_b ²(k，m)是其中的两个不相关分量。

通过这种表示，我们将相关残余误差隐式变换成两个不相关的误差源，其中之一具有大于另一个分量的能量。

这种表示隐式地提供一种为了对两个分量进行编码而执行比特分配的方式。优选地将比特分配给具有最大方差的不相关分量。第二分量在其能量是可忽略或者很低时可选地可忽略。这意味着，实际上有可能仅量化不相关误差分量中的单一个分量。

可实现关于如何对两个分量z_b ¹(k，m)、z_b ²(k，m)进行编码的不同方案。

在一个示范实施例中，通过使用例如标量量化器或晶格量化器(lattice quantizer)，对最大分量z_b ¹(k，m)进行量化和编码。若无为了人工模拟第二分量z_k ²而在解码器中将需要的其能量，则同时忽略最低分量，即该第二分量z_k ²的零比特量化。换言之，编码器在这里配置用于选择第一误差分量以及用于量化的第二误差分量的能量的指示。

当总比特预算不允许两个KLT分量的充分量化时，这个实施例是有用的。

在解码器处，对z_b ¹(k，m)分量进行解码，同时通过使用以适当能量的噪声填充来模拟z_b ²(k，m)分量，通过使用增益计算模块来设置能量，该增益计算模块将能量级调整到所接收的能量级。增益还可经过直接量化，并且可使用任何现有技术方法进行增益量化。噪声填充生成具有如下约束的噪声分量：与z_b ¹(k，m)(它在解码器是以量化形式可得到的)去相关并且具有与z_b ²(k，m)相同的能量。去相关约束是重要的，以便保持两个残余的能量分布。实际上，噪声替换与z_b ¹(k，m)之间的相关性的任何数量将导致相关性的失配，以及将干扰对两个已解码信道的感知平衡，并且影响立体声宽度。

在这个特定示例中，所谓的残余比特流因而包括第一量化不相关分量以及第二不相关分量的能量的指示，并且所谓的变换比特流包括KLT变换的表示，以及对第一量化不相关分量进行解码，并且通过以所指明能量进行噪声填充来模拟第二不相关分量。这种KLT逆变换则根据第一解码不相关分量和模拟的第二不相关分量以及KLT变换表示，以便产生相关残余误差信号。

在另一个实施例中，z_b ¹(k，m)、z_b ²(k，m)的编码均在低频带执行，而对于高频带，丢弃z_b ²(k，m)，并且正交噪声填充在解码器仅用于高频带。

图9A-H是使用八个频带的特定帧的L/R信号平面中的示例散布图。在较低频带，误差由旁侧信号分量来支配。这表明，单声道编解码器和立体声预测已经进行良好立体声呈现。较高频带显示支配性单声道误差。椭圆示出使用相关值的估计样本分布。

除了对z_b ¹(k，m)、z_b ²(k，m)进行编码之外，还必须对KLT矩阵(即，两个信道情况下的KLT旋转角)进行编码。在实验上已经注意到，KLT角与先前定义的移位角

(m)相关。当对KLT角θ_b(m)进行编码以设计差分量化、即量化差θ_b(m)-

(m)时，这是有益的。复合或联合误差空间的创建考虑进一步调适和优化：

-通过允许各频带的例如KLT等独立变换，该方案可将不同策略应用于不同频率。如果主要(单声道)编解码器对于某个频率范围表明不良性能，则可重定向资源以改正(fix)那个范围，同时集中于其中主要(单声道)编解码器具有良好性能的立体声呈现(图9A-H)。

-通过引入频率加权，它取决于双耳掩蔽级差(BMLD[14])。这种频率加权还可相对于另一个KLT分量来加重一个KLT分量，以便利用人类听觉系统的掩蔽性质。

可变比特率参数编码

在本发明的一个示范实施例中，优选地传送到解码器的参数是两个旋转角：移位角

和KLT角θ_b。一对角通常用于每个子带，从而产生移位角

的向量和KLT角θ_b的向量。例如，这些向量的元素分别使用均匀标量量化器来量化。然后，预测方案可应用于量化器指数(quantizer indices)。这种方案优选地具有评估和选择闭环的两种模式：

1.时间预测：各频带的预测值是来自前一帧的指数(index)。

2.频率预测：相对中位数指数对各指数进行量化。

当帧到帧条件稳定时，模式1产生良好预测。在转变或开始的情况下，模式2可给出更好的预测。使用一个比特将所选方案传送到解码器。根据预测，计算一组增量指数(delta-indices)。

使用熵代码(entropy code)、单代码的类型对增量指数进行进一步编码。它为较小值分配较短码字，使得稳定立体声条件将产生较低参数比特率。

表1：增量指数的示例码字

增量指数使用量化器的边界，使得可考虑环绕式步骤，如图8所示。

图10是示出与图5的立体声编码器对应的立体声解码器的概览的示意图。图10的立体声解码器主要包括标号解复用单元(indexdemultiplexing unit)201-A、单声道解码器202-A、预测单元203-A和根据解量化(deQ)、噪声填充、正交化、可选增益计算和KLT逆变换(KLT^-1)进行工作的残余误差解码单元204-A以及残余加法单元205-A。以上描述了残余误差解码单元204-A的操作的示例。单声道解码器202-A实现第一解码过程，而预测单元203-A实现第二解码过程。残余误差解码单元204-A实现第三解码过程，它连同残余加法单元205-A一起最终重构左和右立体声信道。

如前面所述，本发明不仅适用于立体声(双信道)编码和解码，而且一般适用于多个(即，至少两个)信道。具有两个以上信道的示例包括但不限于编码/解码5.1(前左、前中置、前右、后左和后右和低音扬声器)或者2.1(左、右和中置低音扬声器)多信道音响。

现在参照图11，它是在一般多信道上下文中示出本发明的示意图，但与一个示范实施例相关。图11的整体多信道编码器100-C主要包括下混频器101-C、主要编码器102-C、参数编码器105-C、残余计算单元108-C、复合残余编码器106-C和量化比特流采集器107-C。主要编码器102-C通常包括编码器单元103-C和本地合成器104-C。主要编码器102-C实现第一编码过程，而参数编码器105-C(连同残余计算单元108-C)实现第二编码过程。复合残余编码器106-C实现第三补充编码过程。

本发明基于以一致统一的方式隐式精制下混频质量以及多信道空间质量的思路。

本发明提供根据将信道下混频到数量减少的信道而对多信道信号进行编码的方法和系统。下混频器101-C中的下混频一般是将输入信道的数量p减少到下混频信道的较少数量q的过程。下混频可以是在时域或频域中执行的输入信道的任何线性或非线性组合。下混频可适配信号性质。

下混频信道由主要编码器102-C、更具体来说由其编码器单元103-C进行编码，并且所得量化比特流通常称作主要比特流(Q₀)。把来自本地合成器模块104-C的本地解码的下混频信道馈送到参数编码器105-C。参数多信道编码器105-C通常配置成执行对下混频信道与原始多信道信号之间的相关性的分析，并且产生原始多信道信号的预测。所得量化比特流通常称作预测值比特流(Q₁)。由模块108-C进行的残余计算产生一组残余误差信号。

在这里称作复合残余编码器106-C的另一个编码级处理预测多信道信号与原始多信道信号之间的复合误差的复合残余编码。由于预测多信道信号基于本地解码的下混频信道，所以复合预测残余将包含来自主要编码器的空间预测误差和编码噪声。在另一个编码级106-C中，复合误差信号经过分析、变换和量化(Q₂)，从而允许本发明利用多信道预测误差与本地解码的下混频信号的编码误差之间的相关性，以及隐式共享可用资源以便均匀精制解码的下混频信道以及多信道输出的空间感知。复合误差编码器106-C主要提供所谓的量化变换比特流(Q_2-A)和量化残余比特流(Q_2-B)。

将主要编码器102-C的主要比特流、参数编码器105-C的预测值比特流以及残余误差编码器106-C的变换比特流和残余比特流传递到采集器或复用器107-C，以便提供总比特流(Q)从而传送到解码侧。

所建议的编码方案的有益效果在于，它可适配信号性质，并且将资源重定向到最需要它们的位置。它还可提供相对于必要量化信息的低主观失真，并且代表消耗极少附加压缩延迟的解决方案。

本发明还涉及包括多级解码程序的多信道解码器，它可使用在编码器中提取的信息来重构与多信道输入信号相似的多信道输出信号。

如图12的示例所示，整体解码器200-B包括：接收器单元201-B，用于从编码侧接收总比特流；以及主要解码器202-B，响应主要比特流而产生解码的下混频信号(具有q个信道)，它与对应编码器中的本地解码的下混频信号相同。将解码的下混频信号连同在多信道编码器中得出并且使用的(来自预测值比特流的)参数一起输入到参数多信道解码器203-B。参数多信道解码器203-B执行预测，以便重构与编码器中的预测信道相同的一组p个预测信道。

解码器的采取残余误差解码器204-B的形式的末级处理来自编码器的、在这里采取变换比特流和量化残余比特流的形式所提供的编码残余信号的解码。它还考虑编码器因比特率限制而可能减少了残余中的信道的数量，或者某些信号被认为不太重要并且这n个信道未经编码，只有其能量经由比特流以编码形式传送。为了保持多信道输入信号的能量一致性和信道间相关性，可执行正交信号置换。残余误差解码器204-B配置成根据残余解量化、正交置换和逆变换进行工作，以便重构相关残余误差分量。整体解码器的解码的多信道输出信号通过使残余加法单元205-B将相关残余误差分量与来自参数多信道解码器203-B的已解码信道相加来产生。

虽然编码/解码往往在逐帧的基础上执行，但是有可能对可变大小的帧执行比特分配和编码/解码，从而允许信号自适应优化帧处理。

上述实施例只作为示例给出，并且应该理解，本发明并不局限于此。

缩写词

AAC 高级音频编码

AAC-BSAC 高级音频编码-比特时间片式算术编码

ADPCM 自适应差分脉冲编码调制

AMR 自适应多速率

AMR-NB AMR窄带

AMR-WB AMR宽带

AMR-BWS AMR带宽可伸缩

AOT 音频对象类型

BCC 双耳线索编码

BMLD 双耳掩蔽级差

CELP 码激励线性预测

EV 嵌入式VBR(可变比特率)

EVRC 增强型可变速率编码器

FIR 有限脉冲响应

GSM Groupe Spécial Mobile；全球移动通信系统

ICP 信道间预测

KLT Karhunen-Loève变换

LSB 最低有效位

MD-AMR 多描述AMR

MDCT 改进型离散余弦变换

MPEG 运动图像专家组

MPEG-SLS MPEG可伸缩到无损

MSB 最高有效位

MSE 均方误差

MMSE 最小MSE

PCA 主分量分析

PS 参数立体声

RTP 实时协议

SNR 信噪比

VMR 可变多速率

VoIP 基于因特网协议的话音

xDSL x数字用户线

参考文献

[1]ISO/IEC JTC 1，SC 29，WG 11/M11657，“Performance and functionality ofexisting MPEG-4 technology in the context of CfI on Scalable Speech andAudio Coding”，Jan.2005.

[2]Hui Dong Gibson，JD Kokes，MG，“SNR and bandwidth scalable speechcoding”，Circuits and Systems，2002.ISCAS 2002

[3]McCree et al，“AN EMBEDDED ADAPTIVE MULTI-RATEWIDEBAND SPEECH CODER”，ICASSP 2001

[4]Koishida et al，“A 16-KBIT/S BANDWIDTH SCALABLE AUDIOCODER BASED ON THE G.729 STANDARD”，ICASSP 2000

[5]et al，“Real-Time Transport Protocol(RTP)Payload Format andFile Storage Format for the Adaptive Multi-Rate(AMR)and AdaptiveMulti-Rate Wideband(AMR-WB)Audio Codecs”，RFC 3267，IETF，June2002

[6]H.Dong et al，“Multiple description speech coder based on AMR-WB forMobile ad-hoc networks”，ICASSP 2004

[7]Chibani，M.；Gournay，P.；Lefebvre，R，“Increasing the Robustness ofCELP-Based Coders By Constrained Optimization”，ICASSP 2005

[8]Herre，“OVERVIEW OF MPEG-4 AUDIO AND ITS APPLICATIONS INMOBILE COMMUNICATIONS”，ICCT 2000

[9]Kovesi，”A SCALABLE SPEECH AND AUDIO CODING SCHEMEWITH CONTINUOUS BITRATE FLEXIBILITY“，ICASSP2004

[10]Johansson et al，“Bandwidth Efficient AMR Operation for VoIP”，IEEEWS on SPC，2002

[11]Recchione，”The Enhanced Variable Rate Coder Toll Quality Speech ForCDMA”，Journal of Speech Technology，1999

[12]Uvliden et al，“Adaptive Multi-Rate-A speech service adapted to CellularRadio Network Quality”，Asilomar，1998

[13]Chen et al，“Experiments on QoS Adaptation for Improving End UserSpeech Perception Over Multi-hop Wireless Networks”，ICC，1999

[14]C.Faller and F.Baumgarte，“Binaural cue coding-Part I：Psychoacousticfundamentals and design principles”，IEEE Trans.Speech AudioProcessing，vol.11，pp.509-519，Nov.2003.

Claims

1.一种基于涉及至少两个信号编码过程的整体编码程序的多信道音频编码方法，所述至少两个信号编码过程包括第一编码过程和第二编码过程，对多信道音频信号的一组音频输入信道的信号表示进行操作，其特征在于：

-结合所述第一编码过程来执行本地合成，以便生成包括所述第一编码过程的编码误差的表示的本地解码的信号；

-将至少所述本地解码的信号作为输入应用于所述第二编码过程；

-从至少包括所述第二编码过程的所述编码过程的至少一个编码过程生成至少两个残余编码误差信号；

-根据所述残余误差信号之间的相关性在另一个编码过程中执行所述残余误差信号的复合残余编码。

2.如权利要求1所述的多信道音频编码方法，其中，执行复合残余编码的所述步骤包括以下步骤：

-通过变换对所述相关残余误差信号进行去相关，以便产生对应的不相关误差分量；

-对所述不相关误差分量的至少一个分量进行量化；以及

-对所述变换的表示进行量化。

3.如权利要求2所述的多信道音频编码方法，其中，量化所述不相关误差分量的至少一个分量的所述步骤包括根据所述误差分量的能量级来执行所述不相关误差分量之间的比特分配的步骤。

4.如权利要求2所述的多信道音频编码方法，其中，所述变换为Ka rhunen-Loève变换(KLT)。

5.如权利要求4所述的多信道音频编码方法，其中，所述变换的所述表示包括KLT旋转角的表示，并且所述第二编码过程生成结合成移位角的预测参数，以及对所述移位角和所述KLT旋转角进行量化。

6.如权利要求5所述的多信道音频编码方法，其中，所述移位角和所述KLT旋转角通过差分量化来联合量化。

7.如权利要求1所述的多信道音频编码方法，其中，所述至少两个残余编码误差信号从所述第二编码过程生成。

8.如权利要求1所述的多信道音频编码方法，其中，对所述一组输入信道的第一信号表示在所述第一编码过程中进行编码，

在所述第二信号编码过程中对至少部分所述输入信道的至少一个附加信号表示进行编码，同时将所述本地解码的信号作为输入用于所述第二编码过程，以及

根据所述残余信号之间的相关性在包括复合误差分析的复合残余编码过程中对所述残余误差信号进行处理。

9.如权利要求1所述的多信道音频编码方法，其中，所述第一编码过程是诸如单声道编码过程等主要编码过程，而所述第二编码过程是诸如立体声编码过程等辅助编码过程。

10.一种包括至少两个编码器的多信道音频编码器装置，所述至少两个编码器包含第一编码器和第二编码器，对多信道音频信号的一组音频输入信道的信号表示进行操作，其特征在于：

-用于结合所述第一编码器进行本地合成以生成包括所述第一编码器的所述编码误差的表示的本地解码的信号的部件；

-用于将至少所述本地解码的信号作为输入应用于所述第二编码器的部件；

-用于从至少包括所述第二编码器的所述第一和第二编码器的至少一个编码器生成至少两个残余编码误差信号的部件；

-用于根据所述残余误差信号之间的相关性而对所述残余误差信号进行复合残余编码的复合残余编码器。

11.如权利要求10所述的多信道音频编码器装置，其中，所述复合残余编码器包括：

-用于通过使用变换对所述相关残余误差信号进行去相关以便产生对应的不相关误差分量的部件；

-用于对所述不相关误差分量的至少一个分量进行量化的部件；以及

-用于对所述变换的表示进行量化的部件。

12.如权利要求11所述的多信道音频编码器装置，其中，用于量化所述不相关误差分量的至少一个分量的所述部件配置用于根据所述误差分量的能量级来执行所述不相关误差分量之间的比特分配。

13.如权利要求11所述的多信道音频编码器装置，其中，所述变换为Ka rhunen-Loève变换(KLT)。

14.如权利要求13所述的多信道音频编码器装置，其中，所述变换的所述表示包括KLT旋转角的表示，并且所述第二编码器配置用于生成结合成移位角的预测参数，以及所述编码器装置配置用于对所述移位角和所述KLT旋转角进行量化。

15.如权利要求14所述的多信道音频编码器装置，其中，所述编码器装置配置用于通过差分量化来联合量化所述移位角和所述KLT旋转角。

16.如权利要求10所述的多信道音频编码器装置，其中，所述至少两个残余编码误差信号从所述第二编码器生成。

17.如权利要求10所述的多信道音频编码器装置，其中，所述第一编码器配置用于对所述一组输入信道的第一信号表示进行编码，

所述第二编码器配置用于对至少部分所述输入信道的至少一个附加信号表示进行编码，同时将所述本地解码的信号作为输入用于所述第二编码器，以及

所述复合残余编码器配置用于根据所述残余信号之间的相关性来对所述残余误差信号进行包括复合误差分析的处理。

18.如权利要求10所述的多信道音频编码器装置，其中，所述第一编码器是诸如单声道编码器等主要编码器，而所述第二编码器是诸如立体声编码器等辅助编码器。

19.如权利要求18所述的多信道音频编码器装置，其中，所述复合残余编码器配置成根据立体声预测误差与单声道编码误差之间的相关性进行工作。

20.一种基于涉及至少两个解码过程的整体解码程序的多信道音频解码方法，所述至少两个解码过程包括第一解码过程和第二解码过程，对进入比特流进行操作以便重构多信道音频信号，其特征在于：

-根据表示不相关残余误差信号信息的进入残余比特流在另一个解码过程中执行复合残余解码，以便生成相关残余误差信号；

-将所述相关残余误差信号与来自至少包括所述第二解码过程的所述第一和第二解码过程中的至少一个解码过程的已解码信道表示相加，以便生成所述多信道音频信号。

21.如权利要求20所述的多信道音频解码方法，其中，所述第一解码过程是主要解码器根据进入主要比特流产生解码的下混频信号的解码过程，而所述第二解码过程是参数多信道解码器根据所述解码的下混频信号和进入预测值比特流重构一组预测信道的解码过程。

22.如权利要求20或21所述的多信道音频解码方法，其中，在另一个解码过程中执行复合残余解码的所述步骤包括以下步骤：根据所述进入残余比特流来执行残余解量化，并且根据进入变换比特流来执行正交信号置换和逆变换，以便生成所述相关残余误差信号。

23.如权利要求22所述的多信道音频解码方法，其中，所述逆变换为Ka rhunen-Loève变换(KLT)的逆。

24.如权利要求23所述的多信道音频解码方法，其中，所述进入残余比特流包括第一量化不相关分量以及第二不相关分量的能量的指示，并且所述变换比特流包括所述KLT变换的表示，以及对所述第一量化不相关分量进行解码，并且通过以所指明能量的噪声填充来模拟所述第二不相关分量，以及所述KLT逆变换基于所述第一解码不相关分量以及所述模拟的第二不相关分量和所述KLT变换表示，以便产生所述相关残余误差信号。

25.一种包括至少两个解码器的多信道音频解码器装置，所述至少两个解码器包含第一解码器和第二解码器，对进入比特流进行操作以便重构多信道音频信号，其特征在于：

-复合残余解码器，配置用于根据表示不相关残余误差信号信息的进入残余比特流来执行复合残余解码，以便生成相关残余误差信号；

-加法器模块，配置成将所述相关残余误差信号与来自至少包括所述第二解码器的所述第一和第二解码器中的至少一个解码器的已解码信道表示相加，以便生成所述多信道音频信号。

26.如权利要求25所述的多信道音频解码器装置，其中，所述第一解码器是用于根据进入主要比特流产生解码的下混频信号的主要解码器，而所述第二解码器是用于根据所述解码的下混频信号和进入预测值比特流重构一组预测信道的参数多信道解码器。

27.如权利要求25或26所述的多信道音频解码器装置，其中，所述复合残余解码器包括：

-用于基于所述进入残余比特流进行残余解量化的部件；以及

-用于基于进入变换比特流进行正交信号置换和逆变换以生成所述相关残余误差信号的部件。

28.如权利要求27所述的多信道音频解码器装置，其中，所述逆变换为Ka rhunen-Loève变换(KLT)的逆。

29.如权利要求28所述的多信道音频解码器装置，其中，所述进入残余比特流包括第一量化不相关分量以及第二不相关分量的能量的指示，并且所述变换比特流包括所述KLT变换的表示，以及所述复合残余解码器配置用于对所述第一量化不相关分量进行解码，并且配置用于通过以所指明能量的噪声填充来模拟所述第二不相关分量，以及所述KLT逆变换基于所述第一解码不相关分量以及所述模拟的第二不相关分量和所述KLT变换表示，以便产生所述相关残余误差信号。

30.一种包括如权利要求10-19中的任一项所述的音频编码器装置以及如权利要求25-29中的任一项所述的音频解码器装置的音频传输系统。