CN101128867B

CN101128867B - 多声道音频编码和/或解码中改进的滤波器平滑

Info

Publication number: CN101128867B
Application number: CN2006800056513A
Authority: CN
Inventors: A·塔勒布; S·安德森
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2005-02-23
Filing date: 2006-02-22
Publication date: 2012-06-20
Anticipated expiration: 2026-02-22
Also published as: US20060195314A1; US7945055B2; ES2389499T3; CN101124740B; WO2006091139A1; EP1851866A1; US7822617B2; JP2008529056A; JP4809370B2; ATE521143T1; JP5171269B2; ATE518313T1; EP1851866A4; CN101124740A; CN101128866A; JP2008532064A; EP1851866B1; US20060246868A1; CN101128866B; CN101128867A

Abstract

在第一编码过程中对多个声道的一个或多个的第一信号表示进行编码(S1)，以及在基于滤波器的第二编码过程中对多个声道的一个或多个的第二信号表示进行编码(S2)。滤波器平滑可用来减小编码伪像的影响。但是，传统的滤波器平滑一般导致相当大的性能降低，因此没有被广泛使用。已经认识到，编码伪像被感知为比立体声宽度的暂时减小更令人不快，以及当编码滤波器提供目标信号的不良估算值时，伪像特别令人不快；估算值越差，则伪像越令人不快。因此，在第二编码过程或者对应的解码过程中引入信号自适应滤波器平滑(S3)，作为用于解决先有技术的问题的新的一般概念。

Description

多声道音频编码和/或解码中改进的滤波器平滑

技术领域

一般来说，本发明涉及音频编码和解码技术，更具体来说，涉及多声道音频编码/解码、如立体声编码/解码。

背景技术

对于在保持高音频质量的同时以低比特率发送和存储音频信号存在极大的市场需要。具体来说，在传送资源或存储装置受到限制的情况中，低比特率操作是主要的成本因素。例如，在诸如GSM、UMTS或CDMA之类的移动通信系统的流播和消息传递应用中，情况通常是这样。

采用多声道编码和解码的音频传送系统的一般实例如图1示意说明。整个系统主要包括发送侧的多声道音频编码器100和传送模块10以及接收侧的接收模块20和多声道音频解码器200。

音频信号的立体声或多声道编码的最简单方式是把不同声道的信号分别编码为各个独立信号，如图2所示。但是，这意味着，不删除多个声道之间的冗余度，以及比特率要求将与声道的数量成正比。

立体声FM无线电传送中使用的并且确保与遗留单声道无线电接收器的兼容性的另一种基本方式是发送两个有关声道的和及差信号。

现有技术的音频编解码器、如MPEG-1/2第III层和MPEG-2/4AAC利用所谓的联合立体声编码。根据这种技术，不同声道的信号被联合处理而不是单独和分别处理。两种最常用的联合立体声编码技术称作‘中/侧’(M/S)立体声和强度立体声编码，它们通常应用于待编码的立体声或多声道信号的子带。

在对声道子带的和及差信号进行编码和发送、由此利用声道子带之间的冗余度的意义上，M/S立体声编码与立体声FM无线电中的所述程序相似。例如在参考文献[1]中描述了基于M/S立体声编码的编码器的结构和操作。

另一方面，强度立体声能够利用立体声不相干性。它发送(不同子带的)声道的联合强度以及某个位置信息，表明如何在声道之中分布强度。强度立体声仅提供声道的频谱幅度信息，而相位信息则没有传送。为了这个原因以及由于声道间时间信息(更具体来说是声道间时间差)特别在较低频率上具有主要心理声学相干性，所以强度立体声仅可在高于例如2kHz的高频上使用。例如在参考文献[2]中描述了强度立体声编码方法。

在参考文献[3]中描述了称作双耳线索编码(BCC)的最近发展的立体声编码方法。这种方法是参数多声道音频编码方法。这种参数编码技术的基本原理在于，在编码侧，来自N个声道的输入信号组合为一个单声道信号。单声道信号是采用任何传统单声道音频编解码器进行编码的音频。参数并行地从描述多声道图像的声道信号中得出。参数被编码以及与音频比特流一起发送给解码器。解码器首先对单声道信号解码，然后根据多声道图像的参数描述重新生成声道信号。

双耳线索编码(BCC)方法的原理在于，它发送编码单声道信号和所谓的BCC参数。BCC参数包括原始多声道输入信号的子带的已编码声道间电平差和声道间时间差。解码器通过根据BCC参数施加单声道信号的逐个子带的电平和相位和/或延迟调节，重新生成不同的声道信号。优于例如M/S或强度立体声的优点在于，包含声道间时间信息的立体声信息以低得多的比特率传送。但是，BCC在计算上要求高，并且一般在感知上没有优化。

参考文献[4]中描述的另一种技术采用单声道信号和所谓的侧信息的编码的相同原理。在这种情况中，侧信息由预测器滤波器和可选的残留信号组成。通过LMS算法估算的预测器滤波器在应用于单声道信号时，允许多声道音频信号的预测。通过这种技术，能够达到多声道音频源的极低比特率编码、但是以质量下降为代价。

这种参数立体声编码的基本原理如图3所示，它显示立体声编解码器的布局，其中包括混音模块120、核心单声道编解码器130、230和参数立体声侧信息编码器/解码器140、240。混音把多声道(在这种情况中为立体声)信号变换为单声道信号。参数立体声编解码器的目的是在给定重构的单声道信号和附加立体声参数的情况下在解码器上再生立体声信号。

为了完整性，将提到在3D音频中使用的一种技术。这种技术通过采用所谓的头相关滤波器对声源信号进行滤波来合成右和左声道信号。但是，这种技术要求不同的声源信号被分离，因而一般不可应用于立体声或多声道编码。

连续帧之间的滤波器特性的迅速变化造成重构立体声图像中的干扰混叠伪像和不稳定。为了克服这个问题，已经引入滤波器平滑。但是，传统的滤波器平滑一般导致相当大的性能降低，因为滤波器系数对于当前帧不再是最佳的。具体来说，传统的滤波器平滑一般导致立体声图像宽度的整体减小。

因此，一般需要多声道编码和/或解码过程中改进的滤波器平滑。

发明内容

本发明克服了先有技术装置的这些及其它缺点。

本发明的一般目的是以低比特率提供高多声道音频质量。

本发明的一个目的是提供多声道音频编码和/或解码中改进的滤波器平滑。

具体来说，希望提供能够以有效方式消除或者至少减小编码伪像的影响的有效编码和/或解码过程。

还希望能够处理立体声图像宽度减小的问题。

本发明的一个具体目的是提供用于对多声道音频信号进行编码的方法及装置。

本发明的另一个具体目的是提供用于对已编码多声道音频信号进行解码的方法及装置。

本发明的又一个具体目的是提供改进的音频传送系统。

如所附专利权利要求所定义的本发明满足这些及其它目的。

本发明依靠以下基本原理：在第一编码过程中对多个声道中的一个或多个的第一信号表示进行编码，以及在基于滤波器的第二编码过程中对多个声道中的一个或多个的第二信号表示进行编码。

已经认识到，基于滤波器的编码、如参数编码所引入的编码伪像被感知为比多声道或立体声宽度的暂时减小更令人不快。具体来说，测试已经表明，当编码滤波器提供目标信号的不良估算值时，伪像特别令人不快；估算值越差，则效果越令人不快。

因此，本发明的一般创造性概念是在基于滤波器的第二编码过程中或者在对应的解码过程中执行信号自适应滤波器平滑。

优选地，信号自适应滤波器平滑基于以下程序：估算第一编码过程和/或第二编码过程的预计性能，以及根据估算性能动态适配滤波器平滑。这样，能够更灵活地控制滤波器平滑，使得仅在实际需要时才执行。因此，可完全避免例如当预计编码性能足够时的信号能量的不必要的减小。例如，对于立体声编码，这意味着，因滤波器平滑引起的立体声图像宽度减小的问题可有效地被处理，同时仍然有效地消除编码伪像以及稳定立体声图像。

通过使滤波器平滑取决于多声道音频输入信号的特性、如声道间相关特性，能够首先估算编码过程的预计性能，然后相应地调节平滑的程度和/或类型。

例如，第一编码过程可以是主要编码过程，以及第一信号表示可以是主要信号表示。第二编码过程例如可以是辅助/侧信号过程，以及第二信号表示则可以是侧信号表示、如立体声侧信号。

在本发明的一个优选实施例中，第二编码过程的滤波器的性能根据多声道音频信号的特性来估算，以及滤波器平滑则优选地根据第二编码过程的估算滤波器性能进行适配。优选地，通过根据估算滤波器性能修改滤波器来执行滤波器平滑。这通常包括减少滤波器的能量。有利的是，自适应平滑因数根据估算滤波器性能来确定，以及通过自适应平滑因数来修改滤波器。

当第二编码过程是辅助/侧编码过程时，它通常基于参数编码、如自适应声道间预测(ICP)。在这种情况中，滤波器平滑可能一般基于第二编码过程的所估算预计性能，以及具体基于ICP滤波器性能。ICP滤波器性能通常表示声道间预测的预测增益。

等效地，本发明提出的信号自适应滤波器平滑可在解码侧执行。解码侧响应表示来自编码侧的信号自适应滤波器平滑的信息，并在对应的第二解码过程中根据这个信息来执行信号自适应滤波器平滑。优选地，信号自适应信息包括取决于编码侧的编码过程的估算性能的平滑因数。

本发明提供以下优点：

改进的多声道音频编码/解码。

改进的音频传送系统。

高多声道音频质量。

灵活且极有效的滤波器平滑。

编码伪像的影响减小。

稳定多声道或立体声图像。

通过阅读以下对本发明的实施例的描述，将会理解本发明提供的其它优点。

附图说明

通过参照以下结合附图进行的说明，将会最佳地理解本发明以及其它目的和优点，附图中：

图1是示意框图，说明采用多声道编码和解码的音频传送系统的一般实例。

图2是示意图，说明如何把不同声道的信号分开地编码为各个独立信号。

图3是示意框图，说明参数立体声编码的基本原理。

图4是简图，说明单声道和侧信号的交叉谱。

图5是根据本发明的一个示范优选实施例的多声道编码器的示意框图。

图6是示意流程图，阐述根据本发明的一个优选实施例的基本多声道编码程序。

图7是更详细的示意流程图，说明根据本发明的一个优选实施例的示范编码程序。

图8是示意框图，说明根据本发明的一个示范优选实施例的编码器的相干部分。

图9是示意框图，说明根据本发明的一个示范实施例的侧编码器和关联控制系统的相干部分。

图10说明根据本发明的优选示范实施例的解码器的相干部分。

具体实施方式

在所有附图中，相同的参考标号将用于相应或相似的元件。

本发明涉及音频应用中的多声道编码/解码技术，具体来说，涉及音频传送系统中和/或用于音频存储的立体声编码/解码。可能的音频应用的实例包括电话会议系统、移动通信系统中的立体声音频传送、用于提供音频服务的各种系统以及多声道家庭影院系统。

为了更好地理解本发明，以现有电话存在的问题的概述和分析开始可能是有用的。如前面所述，目前不存在以经济上受关注的用于例如移动通信系统的比特率提供高立体声或多声道音频质量的可用的标准化编解码器。采用可得到的编解码器可能的情况是音频信号的单声道传送和/或存储。在某种程度上，立体声传送或存储也是可得到的，但是比特率限制通常需要相当严格地限制立体声表示。

现有技术的多声道编码技术的问题在于，它们需要更高的比特率以便提供好的质量。强度立体声在以低至例如只有几kbps的低比特率应用时，遭遇到它不提供任何声道间时间信息的事实。由于这种信息对于低于例如2kHz的低频在感知上是重要的，所以无法以这类低频提供立体声感受。

另一方面，BCC能够甚至在低频以例如3kbps的低比特率再生立体声或多声道图像，因为它还发送声道间时间信息。但是，这种技术需要在编码器以及解码器上对声道的每个的计算上要求高的时间频率变换。此外，在使它们与原始声道信号的感知差异为最小的意义上，BCC不尝试发现从所发送单声道信号到声道信号的映射。

用于多声道编码的又称作声道间预测(ICP)的LMS技术(参见[4])通过省略残留信号的传送来允许更低的比特率。为了得出声道重构滤波器，无约束误差最小化程序计算滤波器，使得其输出信号最好地匹配目标信号。为了计算滤波器，可使用几种误差量度。均方误差或加权均方误差是众所周知的，并且在计算上实现费用低。

大家知道，一般来说，现有技术方法的大多数是为高保真音频信号或纯语音的编码开发的。在信号能量集中在较低频率区域的语音编码中，子带编码很少使用。虽然如BCC等的方法允许低比特率立体声语音，但是子带变换编码处理增加复杂度以及延迟。

研究结果是，即使ICP编码技术不提供高质量立体声信号的好结果，对于具有集中于较低频率的能量的立体声信号，冗余度减小也是可能的[5]。ICP滤波器的白化效果增加较高频率区域中的能量，从而产生感知变换编码器的净编码损失。在[6]和[7]中证实了这些结果，在其中，仅对于语音信号报道了质量增强。

ICP重构信号的准确性由当前声道间相关来控制。Bauer等人[8]没有发现音频信号中的左与右声道之间的任何线性关系。但是，从图4中的单声道和侧信号的交叉谱中可以看到，在语音信号的较低频率区域(0-2000Hz)中发现强的声道间相关。在低声道间相关的情况中，作为用于立体声编码的部件的ICP滤波器将产生目标信号的不良估算值。

连续帧之间的ICP滤波器特性的迅速变化造成重构立体声图像中的干扰混叠伪像和不稳定。这源于以下事实：与固定滤波方案相反，预测方法引入大的频谱变化。

当相邻子带的频谱分量以不同方式修改时，类似的影响也存在于BCC中[10]。为了防止这个问题，BCC在分析与合成中采用交迭窗口。

交迭窗口的使用还解决了ICP滤波的混叠问题。但是，这是以相当大的性能降低为代价而得到的，因为在使用交迭帧时，滤波器系数对于当前帧通常完全不是最佳的。

总之，传统的滤波器平滑一般导致相当大的性能降低，因此没有被广泛使用。

收听测试表明，ICP滤波所引入的编码伪像被感知为比立体声宽度的暂时减小更令人不快。已经认识到，当编码滤波器提供目标信号的不良估算值时，伪像特别令人不快；估算值越差，则伪像越令人不快。因此，根据本发明的基本思路是引入信号自适应滤波器平滑作为解决先有技术的问题的新的一般概念。

图5是根据本发明的一个示范优选实施例的多声道编码器的示意框图。多声道编码器主要包括可选的预处理单元110、可选的(线性)组合单元120、多个编码器130、140、控制器150和可选的复用器(MUX)单元160。编码器的数量N等于或大于2，并且包括第一编码器130和第二编码器140以及可能的其它编码器。

一般来说，本发明考虑多声道或多音信号。初始多声道输入信号可从音频信号存储装置(未示出)提供或者例如从一组话筒(未示出)“现场”提供。如果不是数字形式，则音频信号通常在进入多声道编码器之前被数字化。多声道信号可提供给可选预处理单元110以及可选信号组合单元120，用于生成N个信号表示，例如主要信号表示和辅助信号表示以及可能的其它信号表示。

多声道或多音信号可被提供给可选预处理单元110，在其中可执行不同的信号调节程序。

(可选预处理)信号可被提供给可选信号组合单元120，它包括用于执行不同信号组合程序、如输入信号的线性组合以便产生至少第一信号和第二信号的多个组合模块。例如，第一编码过程可以是主要编码过程，以及第一信号表示可以是主要信号表示。第二编码过程例如可以是辅助(侧)信号过程，以及第二信号表示则可以是辅助(侧)信号表示、如立体声侧信号。例如，在传统的立体声编码中，L和R声道被求和，以及和信号除以因子2，以便提供传统单声道信号作为第一(主要)信号。L和R声道也可相减，以及差信号除以因子2，以便提供传统侧信号作为第二信号。根据本发明，任何类型的线性组合或者那个方面的任何其它类型的信号组合可在信号组合单元中执行，其中具有来自各个声道的至少一部分的加权成分。大家理解，本发明使用的信号组合不限于两个声道，而是无疑可涉及多个声道。还可能生成不止两个信号，如图5所示。甚至可能把输入声道之一直接用作第一信号，以及把输入声道中的另一个直接用作第二信号。例如，对于立体声编码，这意味着，L声道可用作主要信号，以及R声道可用作侧信号，或者反之。还存在许多其它变化。

第一信号表示被提供给第一编码器130，它按照任何适当的编码原理对第一信号进行编码。第二信号表示被提供给第二编码器140，用于对第二信号进行编码。如果采用不止两个编码器，则各附加信号表示通常在相应编码器中编码。

举例来说，第一编码器可以是主要编码器，以及第二编码器可以是侧编码器。在这种情况中，第二侧编码器140例如可包括自适应声道间预测(ICP)级，用于根据第一信号表示和第二信号表示来生成信号重构数据。第一(主要)信号表示可等效地从第一编码器130所产生的信号编码参数中推断，如自第一编码器的虚线所示。

整个多声道编码器还包括控制器150，它配置成响应多声道音频信号的特性而以信号自适应方式控制第二编码器140中和/或附加编码器的任一个中的滤波器平滑程序。通过使滤波器平滑取决于多声道音频信号的特性、如声道间相关特性，例如能够令控制器150根据多声道音频信号来估算编码过程的预计性能，然后相应地调节平滑的程度和/或类型。这将提供更灵活的控制，使得滤波器平滑仅在实际需要时才执行。性能越好，则需要越小程度的平滑。相反，编码过程的预计性能越坏，则应当应用越多平滑。

可实现为独立控制器150或者集成在所考虑的编码器中的控制系统向编码器提供适当的控制命令。

各种编码器的输出信号优选地在复用器单元160中复用为单个传送(或存储)信号。但是，作为备选，输出信号可分开发送(或存储)。

一般来说，编码通常逐帧执行，一次一帧，以及各帧通常包括预定义时间周期内的音频样本。

图6是示意流程图，阐述根据本发明的一个优选实施例的基本多声道编码程序。在步骤S1，一个或多个音频声道的第一信号表示在第一编码过程中编码。在步骤S2，一个或多个音频声道的第二信号表示在第二编码过程中编码。在步骤S3，响应多声道音频信号的特性而在第二编码过程或者对应的解码过程中以信号自适应方式执行滤波器平滑。

图7是更详细的示意流程图，说明根据本发明的一个优选实施例的示范编码程序。在步骤S11，第一信号表示在第一编码过程中编码。在步骤S12，第一编码过程和/或第二编码过程的预计性能根据多声道音频输入信号来估算。在步骤S13，第二编码过程中的滤波器平滑根据所估算性能来动态配置。或者，在步骤S14，滤波器平滑信息可发送给解码侧，下面将进行说明。最后，在步骤S15，第二信号表示优选地根据自适应配置的滤波器平滑(除非滤波器平滑应当在解码侧执行)在第二编码过程中编码。

通过根据估算性能动态适配滤波器平滑，能够更灵活地控制滤波器平滑。因此，可完全避免例如当预计编码性能足够时的信号能量的不必要的减小。

整个解码过程一般相当简单，并且主要包括读取入局数据流、(可能采用所发送控制信息来解释数据)、多声道音频信号的逆量化和最终重构。更具体来说，响应第一信号重构数据，在第一解码过程中对所述多个声道中的至少一个的已编码第一信号表示进行解码。响应第二信号重构数据，在第二解码过程中对所述多个声道中的至少一个的已编码第二信号表示进行解码。如果滤波器平滑应当在解码侧而不是在编码侧执行，则表示信号自适应滤波器平滑的信息将必须从编码侧发送(图7中的S14)。这使解码器能够根据这个信息在对应的第二解码过程中执行信号自适应滤波器平滑。

为了更详细地理解，现在主要参照立体声(双声道)编码和解码来描述本发明。但是，应当记住，本发明一般适用于多个声道。实例包括但不限于编码/解码5.1(前左、前中置、前右、后左和后右以及低音扬声器)或者2.1(左、右和中置低音扬声器)多声道音响。

图8是示意框图，说明根据本发明的一个示范优选实施例的编码器的相干部分。编码器主要包括用于对第一(主要)信号、如典型单声道信号进行编码的第一(主要)编码器130、用于(辅助/侧)信号编码的第二(辅助/侧)编码器140、控制器150以及可选的复用器单元160。控制器150适合于接收主要信号表示和侧信号表示(或者多声道音频信号的其它任何适当表示)，并且配置成执行必要的计算，以便提供侧编码器140中的滤波器平滑的自适应控制。

控制器150可以是“独立的”控制器或者集成到侧编码器140中。编码参数优选地在复用器单元160中复用为单个传送或存储信号。如果滤波器平滑将在解码侧执行，则控制器生成适当的平滑信息，以及该信息优选地经由复用器发送到解码侧。

图9是示意框图，说明根据本发明的一个示范实施例的侧编码器和关联控制系统的相干部分。控制系统150包括用于估算滤波器性能的模块152以及用于滤波器平滑配置的模块。用于估算滤波器性能的模块152优选地根据多声道音频信号的主要信号表示和侧信号表示进行操作，以及估算侧编码器140中的滤波器的预计性能。滤波器例如可以是诸如ICP滤波器之类的参数滤波器或者是本领域已知的其它任何适当的传统滤波器。对于ICP滤波器，性能可根据预测误差来计算。这可等效地表示为预测增益。用于滤波器平滑配置的模块154响应估算滤波器性能而进行滤波器平滑设定的必要适配，以及相应地控制侧编码器中的滤波器平滑。

图10是示意框图，说明根据本发明的一个示范优选实施例的解码器的相干部分。解码器主要包括可选解复用器单元210、第一(主要)解码器230、第二(辅助/侧)解码器240、控制器250、可选信号组合单元260以及可选后处理单元270。解复用器210优选地分离入局重构信息、如第一(主要)信号重构数据、第二(辅助/侧)信号重构数据以及控制信息、如关于帧分割配置和滤波器长度的信息。第一(主要)解码器230响应通常以表示编码参数的第一(主要)信号的形式提供的第一(主要)信号重构数据而“重构”第一(主要)信号。第二(辅助/侧)解码器240优选地响应已量化滤波器系数和已重构第一信号表示而“重构”第二(侧)信号。第二(侧)解码器240还由可能或者可能没有集成在侧解码器中的控制器250控制。在这个实例中，控制器250接收来自编码侧的平滑信息、如平滑因数，以及相应地控制侧解码器240。

为了更透彻地理解本发明，现在将参照基于参数编码原理、如声道间预测的各种示范实施例更详细地描述本发明。

采用声道间预测的参数编码

一般来说，声道间预测(ICP)技术利用声道之间的固有声道间相关。在立体声编码中，声道通常由左和右信号l(n)、r(n)表示，等效表示是单声道信号m(n)(主要信号的一个特例)和侧信号s(n)。两种表示是等效的，并且通常通过传统矩阵运算相关：

[\begin{matrix} m (n) \\ s (n) \end{matrix}] = \frac{1}{2} [\begin{matrix} 1 & 1 \\ 1 & - 1 \end{matrix}] [\begin{matrix} l (n) \\ r (n) \end{matrix}] - - - (1)

ICP技术针对通过估算值

来表示侧信号s(n)，

通过经由具有N个滤波器系数h_t(i)的时变FIR滤波器H(z)对单声道信号m(n)进行滤波来获得：

\hat{s} (n) = Σ_{i = 0}^{N - 1} h_{t} (i) m (n - i) - - - (2)

应当注意，同样的方式可直接应用于左和右声道。

在编码器上得出的ICP滤波器例如可通过使侧信号预测误差e(n)的均方误差(MSE)或者相关的性能量度、如心理声学加权均方误差为最小来估算。MSE通常由下式给出：

ξ (h) = Σ_{n = 0}^{L - 1} MSE (n, h) = Σ_{n = 0}^{L - 1} {(s (n) - Σ_{i = 0}^{N - 1} h (i) m (n - i))}^{2} - - - (3)

式中，L是帧大小，以及N是ICP滤波器的长度/阶/维。简单地说，ICP滤波器的性能、因而MSE的大小是确定最终立体声分离的主要因素。由于侧信号描述左与右声道之间的差异，因此，准确的侧信号重构是确保足够宽的立体声图像必不可少的。

通过使对于所有样本的预测误差的MSE为最小来找出最佳滤波器系数，并且表示为：

{h_{opt}}^{T} R = r &DoubleRightArrow; h_{opt} = R^{- 1} r - - - (4)

在(4)中，相关向量r和协方差矩阵R定义为：

r＝Ms

R＝MM^T

(5)

式中

s＝[s(0)s(1)…s(L-1)]^T，

将(5)代入(3)，得到(非量化)ICP滤波器的最小MSE(MMSE)的简化代数表达式：

MMSE＝MSE(h_opt)＝P_SS-r^TR^-1r

(7)

式中，P_SS是侧信号的功率，又表示为s^Ts。

将r＝Rh_opt代入(7)，得到：

MMSE＝P_SS-r^TR^-1Rh_opt＝P_SS-r^Th_opt

(8)

对R的LDLT因数分解[9]给出等式系统：

式中，首先以迭代方式求解z：

现在引入新的向量q＝L^Th。由于矩阵D仅在对角线具有非零值，求出q是简单的：

Dq = z &DoubleRightArrow; q_{i} = \frac{z_{i}}{d_{i}}, i = 1,2, . . ., N - - - (11)

所求的滤波器向量h这时可通过与(10)相同的方式迭代地计算：

除了与正则矩阵求逆相比的计算节省之外，这个解决方案还提供有效计算与不同维n(滤波器长度)对应的滤波器系数的可能性：

H = {h_{opt}^{(n)}}_{n = 1}^{N} - - - (13)

最佳ICP(FIR)滤波器系数h_opt可逐帧地被估算、量化以及发送给解码器。

一般来说，滤波器系数被看作向量，它们采用向量量化(VQ)来有效地量化。滤波器系数的量化是ICP编码程序的最重要方面之一。会看到，对滤波器系数引入的量化噪声可能直接与MSE的损失相关。

MMSE先前已经定义为：

MMSE = s^{T} s - r^{T} h_{opt} = s^{T} s - 2 h_{opt}^{T} + h_{opt}^{T} {Rh}_{opt} - - - (14)

量化h_opt产生量化误差e：

\hat{h} = h_{opt} + e .

新的MSE现在可写作：

MSE (h_{opt} + e) = s^{T} s - 2 {(h_{opt} + e)}^{T} r + {(h_{opt} + e)}^{T} R (h_{opt} + e)

= MMSE + e^{T} {Rh}_{opt} + e^{T} Re + h_{opt}^{T} Re - 2 e^{T} r

= MMSE + e^{T} Re + {2 e}^{T} {Rh}_{opt} - {2 e}^{T} r - - - (15)

由于Rh_opt＝r，因此，(15)中的最后两项抵消，以及已量化滤波器的MSE变为：

MSE (\hat{h}) = s^{T} s - r^{T} h_{opt} + e^{T} Re - - - (16)

这意味着，为了具有任何预测增益，量化误差项必须小于预测项，即r^Th_opt>e^TRe。

目标可能并非始终是单独使MSE为最小，而是将它与平滑和调整结合，以便能够处理单声道与侧信号之间不存在相关的情况。

非正式收听测试表明，ICP滤波引入的编码伪像被感知为比立体声宽度的暂时减小更令人不快。根据一个示范实施例，因此，立体声宽度、即侧信号能量每当遇到有问题的帧时被有意减小。在最坏情况、即完全没有ICP滤波的情况中，所得立体声信号被减小到完全单声道。另一方面，如果帧根本没有问题，则信号能量不必减小。

能够从协方差矩阵R和相关向量r计算预计滤波性能、如预计预测增益，而无需执行实际滤波。这优选地由控制系统进行，如前面所述。已经发现，当预计预测增益低时，或者等效地当单声道与侧信号之间的相关低时，编码伪像主要存在于重构侧信号中。在一个示范实现中，已经创立帧分类算法，它根据预测增益的估算等级来执行分类。例如，当预测增益(或相关)下降到低于某个门限时，用来得出ICP滤波器的协方差矩阵可按照下式修改：

R^*＝R+pdiag(R)

(17)

可使平滑因数ρ的值是自适应的，以便帮助修改的不同等级。已修改ICP滤波器计算为h^*＝(R^*)^-1r。显然，ICP滤波器的能量减小，因而减小重构侧信号的能量。用于减小所产生估算误差的其它方案也是可能的。这提供平滑效果，因为信号能量的减小一般减小不同帧之间的差异，考虑到在逐帧的预测信号中可能原本存在大差异的事实。

当相邻子带的频谱分量以不同方式被修改时，类似的影响也存在于BCC中[10]。为了防止这个问题，BCC在分析与合成中采用交迭窗口。

交迭窗口的使用还解决了ICP滤波的混叠问题。但是，BCC中交迭窗口的使用不是表示信号自适应滤波器平滑，因为对于所有所考虑帧将存在“固定”平滑效果和能量减小，而与例如是否实际需要减小无关。这导致相当大的性能降低。

在本发明的一个示范实施例中，提出修改的成本函数。它定义为：

ξ(h_t，h_t-1)＝MSE(h_t)+ψ(h_t，h_t-1)

＝MSE(h_t)+μ(h_t-h_t-1)^TR(h_t-h_t-1)

(18)

式中，h_t和h_t-1分别是在帧t和(t-1)的ICP滤波器。计算(18)的偏导数并将它设置为零的操作产生新的平滑ICP滤波器：

h_{t}^{*} (μ) = \frac{1}{1 + μ} h_{t} + \frac{μ}{1 + μ} h_{t - 1} - - - (19)

平滑因数μ确定前一个ICP滤波器的作用，由此控制平滑等级。所提出的滤波器平滑有效地消除编码伪像，并且使立体声图像稳定。通过使平滑因数是信号自适应的并取决于滤波器性能，可减轻因平滑而引起的立体声图像宽度减小的问题。当应用于当前帧的前一个滤波器的预测增益高时，优选地使用大的平滑因数。但是，如果前一个滤波器导致预测增益的恶化，则平滑因数可逐渐减小。

技术人员会知道，平滑信息、如上述平滑因数可被发送到解码侧，以及信号自适应滤波器平滑可等效地在解码侧而不是在编码侧执行。

上述实施例只作为实例给出，并且应该理解，本发明不限于此。保留了本文所公开并要求其权益的根本的基本原理的其它修改、变更和改进均处于本发明的范围之内。

参考文献

Johnston的美国专利No.5285498。

Veldhuis等人的欧洲专利No.0497413。

C.Faller等人的“应用于立体声和多声道音频压缩的双耳线索编码”，112^thAES convention，2002年5月，Munich，Germany。

Holt等人的美国专利No.5434948。

S-S.Kuo、J.D.Johnston的“关于交叉声道预测不适用于感知音频编码的原因的研究”，IEEE Signal Processing Lett.，vol.8，第245-247页。

B.Edler、C.Faller和G.Schuller的“采用时变线性前置和后置滤波器的感知音频编码”，in AES Convention，Los Angeles，CA，2000年9月。

Bernd Edler和Gerald Schuller的“采用心理声学前置和后置滤波器的音频编码”，ICASSP-2000Conference Record，2000年。

Dieter Bauer和Dieter Seitzer的“时域中的高质量立体声信号的统计属性”，IEEE International Conf.on Acoustics，Speech，andSignal Processing，vol.3，第2045-2048页，1989年5月。

Gene H.Golub和Charles F.van Loan的“矩阵计算”，第2版，第4章，第137-138页，The John Hopkins University Press，1989年。

C.Faller和F.Baumgarte的“双耳线索编码-第I部分：心理声学基础和设计原理”，IEEE Trans.Speech Audio Processing，vol.11，第509-519页，2003年11月。

Claims

1.一种对多声道音频信号进行编码的方法，包括以下步骤：

-在第一编码过程中对所述多个声道中的至少一个的第一信号表示进行编码；

-在基于滤波器的第二编码过程中对所述多个声道中的至少一个的第二信号表示进行编码，

其特征在于，通过根据所述多声道音频信号的特性来适配滤波器平滑在所述第二编码过程中执行信号自适应滤波器平滑。

2.如权利要求1所述的方法，其特征在于，执行信号自适应滤波器平滑的所述步骤包括以下步骤：

-根据所述多声道音频信号的特性估算所述第一编码过程和所述第二编码过程中的至少一个的预计性能；以及

-根据所述估算性能来适配所述滤波器平滑。

3.如权利要求2所述的方法，其特征在于，估算所述第一编码过程和所述第二编码过程中的至少一个的预计性能的所述步骤根据所述多声道音频信号的特性来执行。

4.如权利要求2所述的方法，其特征在于，估算所述第一编码过程和所述第二编码过程中的至少一个的预计性能的所述步骤根据所述多声道音频信号的声道间相关特性来执行。

5.如权利要求2所述的方法，其特征在于，所述第二编码过程的滤波器的预计性能根据所述多声道音频信号的特性来估算，以及所述滤波器平滑根据所估算滤波器性能来适配。

6.如权利要求5所述的方法，其特征在于，所述滤波器平滑通过根据所估算滤波器性能修改所述第二编码过程的滤波器来执行。

7.如权利要求6所述的方法，其特征在于，所述滤波器通过根据所估算滤波器性能进行适配的平滑因数来修改。

8.如权利要求6所述的方法，其特征在于，所述滤波器平滑通过根据所估算滤波器性能减小所述第二编码过程的滤波器的能量来执行。

9.如权利要求1所述的方法，其特征在于，所述第二编码过程包括用于根据所述第一信号表示和所述第二信号表示来预测所述第二信号表示的声道间预测，以及所述滤波器平滑根据所述第二编码过程的所估算性能来执行。

10.如权利要求9所述的方法，其特征在于，所述性能表示所述声道间预测的预测增益。

11.一种用于对多声道音频信号进行编码的装置，包括：

-第一编码器，用于在第一编码过程中对所述多个声道中的至少一个的第一信号表示进行编码；

-基于滤波器的第二编码器，用于在第二编码过程中对所述多个声道中的至少一个的第二信号表示进行编码，

其特征在于，用于在所述基于滤波器的第二编码器中执行信号自适应滤波器平滑的部件，其中，用于执行信号自适应滤波器平滑的所述部件包括适配部件，所述适配部件用于根据所述多声道音频信号的特性来适配所述滤波器平滑。

12.如权利要求11所述的装置，其特征在于，用于执行信号自适应滤波器平滑的所述部件包括：

-用于根据所述多声道音频信号的特性估算所述第一编码过程和所述第二编码过程中的至少一个的预计性能的估算部件，所述适配部件用于根据所估算性能来适配所述滤波器平滑。

13.如权利要求12所述的装置，其特征在于，所述估算部件可用于根据所述多声道音频信号的特性来估算所述第一编码过程和所述第二编码过程中的至少一个的预计性能。

14.如权利要求12所述的装置，其特征在于，所述估算部件可用于根据所述多声道音频信号的声道间相关特性来估算所述第一编码过程和所述第二编码过程中的至少一个的预计性能。

15.如权利要求12所述的装置，其特征在于，所述估算部件可用于根据所述多声道音频信号的特性来估算所述第二编码过程的滤波器的预计性能，以及所述适配部件可用于根据所估算滤波器性能来适配所述滤波器平滑。

16.如权利要求15所述的装置，其特征在于，所述适配部件包括用于根据所估算滤波器性能来修改所述第二编码过程的滤波器的修改部件。

17.如权利要求16所述的装置，其特征在于，所述适配部件包括用于根据所估算滤波器性能来适配平滑因数的部件，以及所述修改部件可用于根据所述平滑因数来修改所述滤波器。

18.如权利要求16所述的装置，其特征在于，所述修改部件包括用于根据所估算滤波器性能来减小所述第二编码过程的滤波器的能量的部件。

19.如权利要求11所述的装置，其特征在于，所述第二编码器包括用于根据所述第一信号表示和所述第二信号表示来预测所述第二信号表示的自适应声道间预测滤波器，以及用于执行信号自适应滤波器平滑的所述部件可用于根据所述第二编码器的估算性能来执行滤波器平滑。

20.如权利要求19所述的装置，其特征在于，用于执行信号自适应滤波器平滑的所述部件可用于根据所述声道间预测滤波器的预测增益来执行滤波器平滑。

21.一种对已编码多声道音频信号进行解码的方法，包括以下步骤：

-响应第一信号重构数据，在第一解码过程中对所述多个声道中的至少一个的已编码第一信号表示进行解码；

-响应第二信号重构数据，在第二解码过程中对所述多个声道中的至少一个的已编码第二信号表示进行解码，

其特征在于：

-从编码侧接收表示信号自适应滤波器平滑的信息，所述表示信号自适应滤波器平滑的信息在所述编码侧根据所述多声道音频信号的特性来确定；以及

-根据所接收的表示信号自适应滤波器平滑的信息在所述第二解码过程中执行信号自适应滤波器平滑。

22.如权利要求21所述的方法，其特征在于，所述表示信号自适应滤波器平滑的信息包括取决于根据所述多声道音频信号的特性估算的所述编码侧的编码过程的预计性能的平滑因数。

23.一种用于对已编码多声道音频信号进行解码的装置，包括：

-用于响应第一信号重构数据而在第一解码过程中对所述多个声道中的至少一个的已编码第一信号表示进行解码的部件；

-用于响应第二信号重构数据而在第二解码过程中对所述多个声道中的至少一个的已编码第二信号表示进行解码的部件，其特征在于：

-用于从对应的编码侧接收表示信号自适应滤波器平滑的信息的部件，所述表示信号自适应滤波器平滑的信息在所述编码侧根据所述多声道音频信号的特性来确定；以及

-用于根据所接收的表示信号自适应滤波器平滑的信息在所述第二解码过程中执行信号自适应滤波器平滑的部件。

24.如权利要求23所述的装置，其特征在于，所述表示信号自适应滤波器平滑的信息包括取决于根据所述多声道音频信号的特性估算的所述编码侧的编码过程的预计性能的平滑因数。

25.一种音频传送系统，其特征在于，所述系统包括权利要求12的装置和权利要求23的装置中的至少一个。