CN1264533A

CN1264533A - 多声道低比特率编码解码方法和设备

Info

Publication number: CN1264533A
Application number: CN98807259A
Authority: CN
Inventors: 马克·F·戴维斯; 马修·C·费勒斯
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 1997-07-16
Filing date: 1998-06-19
Publication date: 2000-08-23
Anticipated expiration: 2018-06-19
Also published as: KR100550399B1; US5890125A; DE69804478D1; ATE215295T1; KR20010020540A; CA2295505C; WO1999004498A3; JP4223679B2; EP1016320B1; CA2295505A1; AU746416B2; CN1151705C; AU8138098A; WO1999004498A2; DE69804478T2; JP2001510953A; ES2171031T3; EP1016320A2; DK1016320T3

Abstract

裂带编码系统将多个声道的输入信号合并成各种形式的复合信号,产生相应表示多个频率子带内的声场空间特征的空间特征信号。这些空间特征信号可以呈现为两种形式之一或两种形式。在第一形式,这信号表示从各输入信号得出的子带信号的信号电平的度量;而在第二形式,这信号表示声场的一个或几个视在方向。空间特征信号的类型可以动态地按照包括输入信号特性在内的各种准则自适应地改变。在编码器中可以对空间特征信号进行时间平均和频谱平滑。时间平滑和频谱平滑在解码器内可以加到根据空间特征信号得出的各增益因子上。

Description

多声道低比特率编码解码方法和设备

本发明涉及为了降低对传送音频信息的信号的信号要求的多声道音频信息高质量编码和解码技术。本发明可用于在诸如通常将个人计算机接至公用网络的电话线路之类的带宽较窄的传输通路上实时传送多声道音频信息。

在音频信号处理领域，怎样尽量减少表示音频信号所需的信息量而对信号质量又没有可察觉的损失是一个颇有意义的课题。通过减少所需的信息量，使得信号表示对通信通路和存储媒体的信息容量要求得到降低。

在各种开发中，特别关注的是在诸如日常电话线路那样的带宽较窄的通信通路上实时传送多声道的高质量数字音频信号。这种通信通路通常用来将个人计算机接到公用网络上，在目前传输能力不超过50 Kbps。所谓实时传送音频信号是随着信号的接收这些信号所表示的音频信息可以不间断地回放出来。

通过采用两种类似压缩技术或其中的一种技术可以降低信息容量要求。一种有时称为“有损”压缩的技术以不保证(往往是有碍于)原始信号的完全恢复的方式降低信息容量要求，而另一种有时称为“无损”压缩的技术以可以完全恢复原始信号的方式降低信息容量要求。

量化是一种众所周知的有损压缩技术。量化通过减少用于表示数字信号样本的比特数来降低信息容量要求，但这样也就降低了数字信号表示精度。在音频编码应用中，精度的降低或者说量化误差表现为量化噪声。如果这误差太大，量化噪声就会影响编码信号的主观质量。

各种音频编码技术试图通过除去察觉不到的或与能察觉的编码质量无关的一些信息分量对输入信号进行有损压缩而没有任何可察觉的不良影响。利用互逆的解码技术可以恢复这输入信号的一个副本，这个副本在感觉上与输入信号没有区别，如果所除去的分量确实是无关的话。例如，裂带(split-band)编码将一个输入信号分裂成一些窄带信号后按照心理听觉原理对每个窄带信号进行自适应量化。

心理听觉原理建立在人们的听觉系统类似于一系列具有可变中心频率和随中心频率变化的带宽的高度不对称调谐滤波器这样的频率分析的基础上。人们的听觉系统检测不同音调的能力通常随音调之间的频率差的增大而增大，然而人们的听觉系统的分辨能力对于比上述滤波特性的带宽小的频率差都基本上保持恒定。这个带宽在整个音频频谱内改变，称为“临界带宽”。一个优势信号在听觉上对临界带宽内其他信号的遮蔽要比对频率在临界带宽外的其他信号的遮蔽大。一个优势信号不仅可以遮蔽与之同时发生的其他信号，而且还可以遮蔽在它前后发生的其他信号。前、后遮蔽效应的持续时间取决了遮蔽信号的幅度，但前遮蔽效应通常要比后遮蔽效应持续时间短得多。前遮蔽时间可能延长到100毫秒以上，但一般认为限于5毫秒以内。后遮蔽可能持续到500毫秒以上，但一般认为在50毫秒左右。一个信号的被遮蔽分量是没有关系的，可以除去而不会影响听众的感觉。

裂带音频编码通常是利用一个前向或“分析”滤波器组将音频信号在带宽上划分成一些带宽分别与人们听觉系统临界带宽匹配的子带信号。每个子带信号用一些刚好是以保证每个子带内的量化噪声被本子带可能还有相邻子带内的谱分量遮蔽掉的比特进行量化。裂带音频解码利用一个逆或“综合”滤波器组来重构原始信号的副本。如果滤波器组内各滤波器的带宽和各子带信号的量化精度选得合适，所重构的这个副本在感觉上可以与原始信号没有区别。

有两种这样的编码技术：子带编码和变换编码。子带编码可以利用各种模拟和/或数字滤波技术实现滤波器组。变换编码利用各种时域到频域的变换实现滤波器组。一些相邻的频域变换系数可以组成有效带宽为各变换系数带宽之和的相应“子带”。

在以下的说明中，所谓“裂带编码”之类指的是子带编码和解码、变换编码和解码、以及其他对有用信号带宽各部分进行操作的编码和解码技术。所谓“子带”是指有用信号带宽的这些部分，无论是用一个真实子带编码器、变换编码器还是其他技术实现的。所谓“子带信号”是指子带内经相应裂带滤波的信号表示。

有损压缩可以包括比例变换。许多包括裂带编码的编码技术传送采用比例标定表示方式的信号，扩展由有限的比特表示的编码信息的动态范围。标定表示包括一个或多个配合与编码信号元相应的“标定值”的“定标因子”。已有许多标定表示的形式。由于在某种程度上牺牲了标定值的精度，甚至可以用更少的比特来传送采用“块标定表示”的信息。块标定表示包括一个标定值组或块和与之配合的一个共同的定标因子。

无损型压缩通过减少或除去信号中冗余的分量来降低信息容量要求而没有任何损失。相应的解压缩技术可以通过提供在压缩期间所除去的冗余分量完全恢复原来的信号。无损压缩技术包括行程长编码、差分编码、线性预测编码、变换编码等。这些压缩技术的一些改变、结合和自适应形式也是为人所知的。

无损与有损压缩技术结合的混合技术也是为人所知的。例如，采用基于变换的滤波器组的裂带编码就是将无损的变换编码与有损的心理听觉感受编码结合在一起。

诸如上面所述的单声道编码技术并不能充分降低信息要求以使多信道高质量的音频可以在诸如传统的电话线路那样的窄带宽通路上传送进行实时回放。各种高性能编码系统要求用64 Kbps或更高的速率来实时传送带宽为15 KHz的音频信号。由于要用几倍这样的比特率来传送多个声道，因此要求单声道编码系统的性能有这样大的改善以致能在诸如日常电话线路之类的有限带宽通信线路上实时传送多声道音频信号是不可能的。需要进一步降低信息容量的要求由这里称为空间编码技术的多声道编码技术执行。

一种空是编码是用一个编码矩阵合并多路信号，以后再用一个相应的解码矩阵恢复原始信号的副本。已知的许多4∶2∶4矩阵变换技术是将四个原始信号变换成两个信号进行传输或存储，以后再从这两个编码信号恢复出四个原始信号的副本。这种编码技术的缺点是信号之间的串音电平很高。业已研究了若干种自适应矩阵变换技术来降低串音电平，然而无论在降低串音或降低容量要求上都不够充分。

另一种空间编码是将多个输入信号分裂为一些子带信号，产生一个表示各信道在每个子带内的谱电平的导向信息向量，将所有声道在给定频率子带内的子带信号合并成一个总和或复合子带信号，再对这些复合子带信号进行感觉编码，以及将编码复合子带信号与导向向量汇编成一个编码信号。相应的解码器通过按照各子带的导向向量对相应复合子带信号定标为每路输出信号产生各频率子带内的子带信号，再使标定的子带信号通过逆滤波器组产生各路输出信号。这种编码系统的两个例子可参见Davis等人的美国专利5,853,962以及国际标准化机构的“高达1.5Mbps的数字存储媒体的运动图像和伴音的编码”(“Coding of MovingPictures and Associated Audio for Digital Storage Media At Up ToAbout 1.5 Mbis/s”International Organization for Standardization，CD11172-3，Part 3(Audio)，Annex 3-G(Joint Stereo Coding)，PP.G-1 toG-4)。

不幸的是，这些空间编码技术，即使结合了感觉编码，也不能使多声道高质量的音频信号以低比特率在窄带宽的通路上传送，实时回放。在将比特率充分降低时，这些技术复现的原始输入信号的副本带有所不希望有的后生声，如啁啾声、卡搭声和拉链噪声(像拉链拉上、拉下时发出的声音)。

本发明的目的是提供一种将多个音频信号编码成一个低比特率的编码信号和对这种编码信号进行解码产生这些音频信号的一个高质量副本的方法和设备。

按照本发明的一种情况，有一个编码器在多个频率子带内根据多个输入信号产生多个声道子带信号；产生一个表示至少部分带宽内输入信号的复合信号；根据一个频率子带内各声道子带信号产生一个表示一个声场的空间特征的空间特征信号，所述空间特征信号呈现为传送表示各声道子带信号的信号电平的信息的第一形式和表示一个或几个预定方向的第二形式；以及将所述复合信号、所述空间特征信号和一个指示空间特征信号形式的指示汇编成一个编码信号。

按照本发明的另一种情况，有一个编码器在多个频率子带内根据多个输入信号产生多个声道的子带信号；产生一个表示至少部分带宽内输入信号的复合信号；根据一个频率子带内各声道的子带信号产生一个表示一个声场的空间特征的空间特征信号，所述空间特征信号传送表示各声道的子带信号的信号电平的信息，使得表示信号电平的信息的值的减少被限制为与人们听觉系统的时间后遮蔽特性的减少相应；以及将所述复合信号和所述空间特征信号汇编成一个编码信号。

按照本发明的又一种情况，有一个解码器从一个编码信号得出一个或多个复合信号和多个空间特征信号再从一个或多个复合信号导出多个复合子带信号，其中每个空间特征信号与一个相应的复合子带信号关联，表示一个与这个复合子带信号相应的声场的空间特征；从空间特征信号导出多个增益因子，其中这些增益因子的值的减少被限制为与人们听觉系统的时间后遮蔽特性中的减小相应，再按照相应增益因子分别将每个复合子带信号映射成一个或多个过渡性子带信号；以及通过用一个或多个逆滤波器组对这些过渡性子带的作用产生多个输出信号。

按照本发明的又一种情况，有一个解码器从一个编码信号得出一个或多个复合信号、多个空间特征信号和一个指示空间特征信号形式的指示，其中每个空间特征信号与一个相应的复合子带信号关联，表示一个与这个复合子带信号相应的声场的空间特征，而所述指示指出所述空间特征信号是表示多个信号电平的第一形式和/或表示一个或多个方向的第二形式；从空间特征信号导出多个增益因子，再按照相应增益因子分别将每个复合子带信号映射成一个或多个过渡性子带信号，其中对于所关联的空间特征信号具有第一形式的，映射还按照一个与这些信号电平关联的空间配置信号和一个表示多个输出换能器的空间配置的换能器配置信号进行，而对于所关联的空间特征信号具有第二形式的，映射还按照一个或多个方向和换能器配置信号进行；以及通过用一个或多个逆滤波器对这些过渡性子带的作用产生多个输出信号。

本发明的各个特点和优选实施例参阅以下结合附图所作的详细说明可以得到更好的理解。在这些附图中，相同的标号指的是相同的器件。以下说明和附图的内容只是作为举例给出的，并不构成对本发明专利保护范围的限制。

在这些附图中：

图1和2为按本发明设计的多声道编码器的两个实施例的原理方框图；

图3为按本发明设计的复合信号产生器的一个实施例的原理方框图；

图4为按本发明设计的多声道编码器的另一个实施例的原理方框图；以及

图5和6为按本发明设计的多声道解码器的两个实施例的原理方框图。

图1例示了按本发明编码器设计的多声道编码器的一个实施例。子带信号产生器10接收来自通路1的输入信号，根据这个输入信号产生声道子带信号加到通路11和12上。类似，子带信号产生器20根据从通路2接收到的输入信号产生声道子带信号加到通路21和22上，而子带信号产生器30根据从通路3接收到的输入信号产生声道子带信号加到通路31和32上。在许多实际的实施例中，每个子带信号产生器要产生多于两个的声道子带信号。

对于许多应用情况，可以预料每个子带信号产生器将产生表示覆盖每个输入信号的有用带宽的各频率子带的声道子带信号，然而实现本发明并不需要这样。例如，一个或几个子带信号产生器可以产生表示只是有用带宽的一部分(例如低于1.5KHz左右的那部分带宽)的声道子带信号。通常，应该对所有输入信号将由空间编码器40分析以确定声场空间特征的那部分频谱产生各声道子带信号。

空间编码器40根据从这些子带信号产生器接收到的各声道子带信号产生空间特征信号加到通路41和42上。这些空间特征信号各表示一个与各自频率子带内一个或几个声道子带信号相应的声场的空间特征。复合信号产生器60通过合并从通路1、2和3接收到的输入信号产生一个复合信号加到通路61上。

虽然可以设想本发明可以与诸如感觉编码之类的某种数据压缩结合使用，然而对于实现本发明而言数据压缩并不要求。如果采用数据压缩，实质上可以对加到通路61上的复合信号进行任何形式的数据压缩。

格式化器50将从通路41和42接收到的空间特征信号和从通路61接收到的复合信号汇编成一个输出信号送至通路51进行传输或存储。如果复合信号要受到数据压缩或编码，就将编了码的形式而不是复合信号本身汇编入输出信号。

图2例示了按本发明设计的多声道编码器的另一个实施例。这个实施例与图1所示的完全相同，只是增加了一个子带信号产生器70，根据从通路61接收到的复合信号产生复合子带信号加到通路71至73上。

如果在这个第二实施例中采用数据压缩，就可以对这些复合子带信号进行。具体地说，可以应用感觉编码技术在复合子带信号的带宽与临界带宽相当的情况下取得良好的效果。应当指出的是子带信号产生器70产生的复合子带信号的带宽不必与子带信号产生器10、20和30产生的声道子带信号的带宽相同。确实，甚至子带信号产生器10、20和30产生的声道子带信号的带宽也不必相同。

可以用各种技术来实现这几个子带信号产生器。例如，可以采用非递归，递归或格形滤波器。有些非递归滤波器可以用多项式滤波器或多项式变换来实现。专用滤波器实施方案的例子有各种变换，诸如离散付立叶变换(DFT)和离散余弦变换(DCT)、正交镜像滤波器(QMF)和所谓的偶叠和奇叠时域混叠抵消(TDAC)变换。这些变换的分析特性受变模前对信号样本块所加的窗函数的形状的影响。

在任何实施例中所用的各个子带信号产生器的分析性质不必完全相同。例如，子带信号产生器10、20和30最好采用完全相同的设计成使频谱分辨力最佳和提供子带信号功率精确计量的滤波器组。然而，在子带信号产生器70中，可以通过提供临界采样和在谱分辨力与时间分辨力之间进行折衷将滤波器组选择成使数据压缩最佳化。

图3例示了一个可用于图1所示编码器的复合信号产生器的实施例。在这个实施例中，子带信号产生器170根据从通路1接收到的输入信号产生子带信号，加到通路171和173上。类似，子带信号产生器180根据从通路2接收到的输入信号产生子带信号，加到通路181至183上，而子带信号产生器190根据从通路3接收到的输入信号产生子带信号，加到通路191至193上。子带信号产生器260根据从通路171、181和191接收到的子带信号产生复合子带信号，加到通路261上。类似，子带信号产生器270根据从通路172、182和192接收到的子带信号产生复合子带信号，加到通路271上，而子带信号产生器280根据从通路173、183和193接收到的子带信号产生复合子带信号，加到通路281上。在一个实施例中，子带信号产生器260、270和280通过将从子带信号产生器170、180和190接收到的子带信号相加产生复合子带信号。另一种形成复合子带信号的方法将在下面说明。对于本发明的实施来说，怎样产生复合子带信号并不是关键性的，可以对这些信号进行某种形式的数据压缩。

图4例示了按照本发明设计的多声道编码器的另一个实施例。这个实施例与图1所示实施例完全相同，只是复合信号产生器160根据子带信号产生器10、20和30产生的声道子带信号产生一个或几个复合信号，加到通路161上。在一个实施例中，复合信号产生器160将每个输入信号在给定频率子带内的声道子带信号合并成这个频率子带的复合子带信号。加到通路161上的所产生的一个或几个复合信号可以是经过某种数据压缩的。

解码器

图5例示了按照本发明设计的多声道解码器的一个实施例。解格式化器510在从通路501接收到的编码信号中提取一个或几个复合信号和空间特征信号。在所示实施例中，复合信号沿通路511传送，而空间特征信号分别沿通路515和516传送。子带信号产生器520根据从通路511接收到的复合信号产生复合子带信号，加到通路521和522上。空间解码器530根据从通路515和516接收到的这些空间特征信号得出多个增益因子，利用这些增益因子将复合子带信号映射成一个或几个过渡性子带信号。过滤信号产生器540产生的那些过渡性子带信号分别加到通路541、542和543上，而过渡信号产生器550产生的分别加到通路551、552和553上。输出信号产生器560根据从通路541和551接收到的过渡性子带信号产生一个输出信号，加到通路561上。类似，输出信号产生器570根据从通路542和552接收到的过渡性子带信号产生一个输出信号，加到通路571上，而输出信号产生器580根据从通路543和553接收到的过渡性子带信号产生一个输出信号，加到通路581上。

在图示解码器的各实施例中，每个过渡性子带信号都被映射入所有的输出信号，然而并非一定要这样。一个给定的过渡性子带信号不必映射入所有的输出信号。

如果从编码信号中提取的复合信号是经过数据压缩的，那么按需要可以对通过通路511传送的信号和/或通过521和522传送的子带信号进行相应形式的数据扩展。

可以利用诸如前面所述的各种滤波和变换技术来实现子带信号产生器。可以利用逆变换技术来实现输出信号产生器。

图6例示了按本发明设计的多声道解码器的另一个实施例。这个实施例与图5所示实施例完全相同，只是解格式化器510直接从编码信号中提取复合子带信号，加到通路512和513上。按需要，可以对复合子带信号进行数据扩展。用来实现输出信号产生器的逆滤波或逆变换应该与用来产生编入编码信号的复合子带信号的滤波或变换技术是互补的。

空间特征信号的产生

按照本发明设计的编码器可以产生两种形式之一或两种形式的空间特征信号。第一形式信号称为I型信号，在一个实施例中表示对声场有贡献的每个声道子带信号的信号电平的某种度量。信号电平的度量例如可以是峰值振幅、平均振幅或均方根(RMS)。在另一个实施例中，I型信号表示对声场有贡献的每个“虚拟”声道子带信号的信号电平的某种度量。一个虚拟声道不需要作为一个物理实体存在，但可以是一个概念性实体，表示例如来自两个或更多个物理声道的信号的加权和或者其他组合。实质上，空间特征信号的元数不需要等于对声场有贡献的实际物理声道的声道数。

第二形式信号称为II型信号，表示声场的一个或几个视在方向，可能还有对声场宽度或方向延展性的指示。一个方向例如可以用三维或二维空间内的一个向量表示。

在一个对表示例如五个输入声道的复合信号编码的系统中，一个频率子带的相应II型空间特征信号包括五个信号电平的度量(如功率)，亦即每个输入声道在这个频率子带内的度量。在同一个系统中，一个频率子带的相应II型空间特征信号包括对一个或几个方向的表示。例如，在每个频率子带只表示一个方向的实施例中，每个子带的II型信号可以表示为二维或三维空间的直角座标或球座标内的一个向量。

II型信号的信息容量要求与输入信道数无关，然而必需将由每个输入声道表示的声源的数目和位置通知产生这种空间特征信号的过程，以便能正确确定声场方向。

在一个实施例中，编码器为各频率子带产生两种类型之一或两种类型的空间特征信号。可以主要根据诸如所需音频质量、输出声道带宽和/或视在方向数之类的任何准则进行选择。II型信号可以用于声道带宽较小的多声道系统，因为对一个II型信号编码所需的比特数通常要比对一个I型信号编码所需的比特数少一些。如果一个子带的相应声场被认为具有大于某个门限数的方向数，那么I型信号可能就需要较少的比特。

例如，假设几个表示一个大型交响乐团的音频信号的声道需以高质量复现，而另一个表示一个蚊子在这个交响乐团处来回飞行的音频信息的声道可以较低质量复现。于是，对于表示交响乐团的这些子带信号的空间特征信号就能以第一形式形成，而对于表示蚊子的这些子带信号的空间特性信号能以第二形式形成。

随着一个声场的视在方向数的增加，传送一个II型信号所需的比特数也增加，因此，当一个子带的声场的视在方向数增加时，对于这个子带通常宁可选用I型空间特征信号。如果在一个频率子带内只有一个声道具有显著的谱能量，那么这个子带的声场的视在方向数就定为1。如果在一个子带内有几个声道具有显著的能量，倘若在这个子带内这些声道的振幅和相位是相关的，因而表示单个声源，那么视在方向数也定为1。

对于各频率子带来说，声道子带信号与空间特征信号之间的关系不必相同。此外，这关系不需要固定，而是可以随对诸如输入信号特性或输出声道带宽之类的考虑而变的。在一个简单的实施例中，对于每个频率子带产生一个相应的空间特征信号，表示一个与这个子带内的所有声道子带信号相应的声场的空间特征。

在图1、2和4所示实施例的另一个例子中，加到通路41上的所产生的空间特征信号表示一个与从通路11、21和31接收到的这些声道子带信号相应的声场的空间特征，而加到通路42上的所产生的空间特征信号表示一个与从通路12和32接收到的这些声道子带信号相应的声场的空间特征。在这个例子的变型中，产生另一个空间特征信号，表示一个与通路22接收到的声道子带信号相应的声场的空间特征。

在还有一个例子中，编码器自适应地形成上述两种形式之一或两种形式的空间特征信号。这种自适应可以是基于在一个频率子带内需表示的视在方向的数目、这些视在方向的感觉宽度和/或传送空间特征信号可用的比特的数目。在一个优选实施例中，选来表示空间特征信号的形式提供了信息容量要求和音响质量之间的最佳折衷。

在一些应用中，空间特征信号的信息容量要求可以通过限制这些信号变化的时间变化率来降低。对于I型信号，利用时间平滑来限制频谱电平度量可能变化的变化率。时间平滑也可用来限制这些度量的增大和减小，然而，可以预料对减小的时间平滑与对增大的时间平滑通常更为有效，冒犯也少些。对于II型信号，利用时间平滑来限制方向向量可以改变空间定向的变化率。可以用许多方式来降低信息容量的要求。

利用时间平滑，空间特征信号可以用较少的比特编码，因为这些信号的元可以不必那么经常编码和发送。解码器可以利用内插或某种形式的滤波恢复这些所略去的元。此外，在采用差分编码的情况下，可以减少表示信号所需的比特，因为时间平滑限制了相继值之间的差分的动态范围，从而只需要较少的比特就能表示差分代码。

通常，时间平滑的程度取决于人们听觉系统的时间遮蔽特性。例如，可以减小允许电平降低到后时间遮蔽门限以下的变化率，如果所得的电平不超过遮蔽门限，就感觉不到有什么影响。在一些实施例中，变化率限制成不超过每秒120至140 dB左右。在另一个实施例中，对于认为是瞬态的事件将放松时增大率的限制。

可以用多种方式来检测瞬态。例如，如果在一段短时间内(例如10毫秒)各种信号的振幅增大超过一个门限(例如10 dB)，可以认为出现了一个瞬态过程。这样的信号例如包括输入信号、复合信号、一个或几个声道子带信号或复合子带信号，特别是较高频率子带的子带信号。还可以比较相继时间间隔的频谱内容的各种度量。例如，可以比较相邻变换块的强调较高频率系数的变换系数加权和。

在一些应用中，可以通过限制信号随频谱不同的频谱变化率来降低空间特征信号的信息容量要求。对于I型信号，利用频谱平滑限制在相邻子带内的相应信号电平度量之差。这种技术在用差分编码表示各子带的空间特征信号的实施例中可以用来获得良好的效果。由于对信息从一个子带到另一个子带的改变量的限制，可以将值之间变化的动态范围减小到只需要较少的比特来表示差分代码。在许多实施例中，对变化量的限制固有地取决于在用来产生声道子带信号的滤波器组和变换内相邻子带之间的频谱泄漏。对用于谱包络编码的频谱平滑的详细说明可参阅美国专利5,581,653。

还可以通过增大在像块定标和变换编码那样的各种块编码方案中所用的块的长度来降低信息要求。不幸的是，由于块长度的增大也降低了编码过程的时间分辨力，因此在空间特征信号和实际声场之间时间上的不一致也增大。这种误差的影响可以通过在编码信号内纳入一个在一个块内哪里空间特征发生明显改变的指示来减小。实际上，这指示表示了一个块的开始到空间特征改变之间的延迟量。

复合信号和复合子带信号

可以在一个编码器内形成一个或几个复合信号，以后在一个解码器内分裂成复合子带信号，见前面结合图5所作的说明。或者，也可以在一个编码器内形成复合子带信号。而由一个解码器就从编码信号中提取这些信号，见前面结合图6所作的说明。对于实现本发明而言，哪种方法都不是要绝对遵从的。

可以用各种方式将信号合并成复合信号和复合子带信号。一种可以合并信号的方式是将来自各声道的相应数字采样值相加，形成一个简单的和信号，或者将来自各声道的采样值加权相加，形成一个较为复杂的和信号。另一种方式是取来自各声道的相应采样值的平方和的平方根，形成一个RMS信号。

还有一种形成复合信号的方式是产生一些参数信号，诸如遵从乐器数字接口(MIDI)标准的信号，或传送音节周期和频谱包络成一组滤波器参数的信号和相应的像由宽带声码器产生的激励信号。在解码器内根据这些参数信号综合出适当的信号。由于产生参数信号也就是另一种形式的数据压缩，因此可以理解，对于实现本发明而言，不一定非要用哪种特定技术。

归一化

在编码器产生复合子带信号予以编码的情况下，通过按照各个空间特征信号中的最大元分别对相应复合子带信号归一化可以降低复合子带信号和相应I型空间特征信号的信息容量要求。

例如，假设一个I型信号传送一个特定的频率子带内来自左、右和中声道的子带信号的信号功率的RMS度量。在这个例子中，来自左、右和中声道的子带信号的功率度量分别为0.4、0.8和0.1，而通过合并来自这三个声道的子带信号得到的复合子带信号的功率度量为1.2。复合子带信号用这个特定频率子带内最大声道子带信号的度量与复合子带信号的度量之比R

R = \frac{0.8}{1.2} = \frac{2}{3}

定标。

净效应是将复合子带信号的信号电平度量标定为与最大声道子带信号(在本例中为来自右声道的子带信号)相同的电平。经定标的复合子带信号可以按需要编码。这个频率子带的I型空间特征信号包括一个由三个分别表示按最大信号电平定标的各声道子带信号的信号电平的元构成的向量。在这个例子中，空间特征信号向量V的元具有表示左、右和中声道子带信号相对电平的值：

v = (\frac{0.4}{0.8}, \frac{0.8}{0.8}, \frac{0.1}{0.8}) = (0.5,1.0,0.125)

这个向量可以按需要编码。在一个实施例中，向量编码成每个元用0dB、-3dB、-7dB、-10dB和“断开”五个电平之一表示的形式。在另一个实施例中，向量各元可以表示不同的电平数。

增益因子的得出和利用

如以上结合图5和6所示实施例说明的那样，空间解码器530根据空间特征信号得出多个增益因子。这些增益因子用来将复合子带信号映射成一个或几个过渡性子带信号。可以用若干种方式得出增益因子，这取决于空间特征信号所用的类型和输出声道的数目和方法。

作为一个简单的例子，在一个采用I型空间特征信号的编码系统中，在输出声道的数目和方位与输入声道的数目和方位相同的情况下增益因子可以直接根据在空间特征信号内传送的信号电平的度量得出。如果一个频带子带的相应I型空间特征信号传送各输入声道的功率度量，那么各输出声道的增益因子就正比于I型信号中的相应电平。

然而，如果输入与输出声道的数目和方位不同，得出增益因子的过程就要复杂一些。一种可能的得出一个特定频率子带的增益因子的过程是为每个输入声道形成一个向量，每个向量的方向表示各输入声道的方位，而长度与I型空间特征信号中所传送的各信号电平的度量相应。再将这些向量分别投影到表示各输出声道空间方位朝向的相应轴上。每个输出声道的增益因子根据相应轴上各投影的和得出。

对于II型空间特征信号可以类似地得出增益因子。然而，一个原则差别是对于解码器来说不需要知道输入声道的空间方位。

在自适应地在两种空间特征信号之间切换的编码系统中，也自适应地按需要切换得出增益因子的方式。

得出增益因子后，通过将一个相应的增益因子作用到适当的复合子带信号上产生一个特定频率子带的一个或几个过渡性信号。实际上，对于一个输出声道在一个频率子带内的过渡性子带信号为在这个子带内的复合子带信号乘以适当的增益因子，即

IS_ij＝g_ij·XS_j其中：IS_ij为对于声道i在频率子带j内的过渡性子带信号；g_ij为所得出的对于声道i在频率子带j内的增益因子；以及XS_j为在频率子带j内的复合子带信号。通过将一个给定频率子带内的所有过渡性信号相加就得到对于相应输出声道在这个频率子带内的输出声道子带信号。如前面所述，输出信号本身是使这个输出声道的输出声道子带信号通过逆滤波器或综合滤波器得到的。

在多声道回放系统中，对于一个特定的声道在一个或几个频率子带内的子带信号可以略去或成为零。实际上，编码系统确定在这个特定声道和频率子带不需要声能量来营造一个特定的音响效果。于是，就可以引入这些省略而不会影响所希望的听觉效果来说，表明了本发明在编码效率上获得的增益。

业已发现，在许多情况下，这样的时间平滑可以减小所恢复的信号中的啁啾声、拉链噪声和其他空间编码的后生声。在一些优选实施例中，增益因子的值的变化按人们听觉系统的时间遮蔽特性加以控制。例如，在合成电平不超过人们听觉系统的时间后遮蔽门限的情况下，可以减小允许输出声道子带信号的电平减小到这个门限以下的变化率而不会有可察觉的影响。在一些实施例中，变化率被限制到不超过每秒120至140dB。在另一个实施例中，对于认为是一个暂态过程的事件，可以放宽对增大率的限制。暂态过程可以用包括前面所讨论的那些在内的各种方式检测。

在一些实施例中，通过限制增益因子随谱变化的谱变化率可以改善所复现的信号的质量。这种技术对于采用分析/综合滤波器组的编码系统特别有效。在这种系统中，利用综合滤波器组相邻子带频率响应特性的交叠来抵消混叠的后生声。一些众所周知的例如有QMF和TDAC变换。如果相邻子带内的信号所受到的放大在增益上相差很大，那么这种滤波系统的混叠抵消特性就会变差。通过控制相邻子带的增益可以相差的大小，就能控制混叠抵消，使之不致恶化。在采用混叠抵消滤波系统的优选实施例中，对给定输出信号的相邻子带之间的增益之差进行限制，使得未抵消的这些混叠后生声基本上感觉不出来。

如上所述，一些采用块编码的实施例还可以将一个指出要出现一个值得注意的事件的时间的指示纳入一个块内。例如，编码器可以将一个指出一个诸如在方向上的瞬时或突然改变之类事件在一个块开始后多少时间发生的延迟的指示纳入编码信号内。于是，解码器根据这样的指示可以在时域内对一个或几个信号施行一些改变。在采用数字滤波器的实施例中，这些改变原则上可以加到从信号解格式化到输出信号产生的整个解码过程中的任何信号上。在采用块变换的实施例中，这些改变可以加到子带信号产生前的复合信号511上和/或加到从一个或几个逆滤波器组得到的输出信号上。

Claims

1.一种通过对多个各表示一个相应声道的音频信息的输入信号进行编码产生一个编码信号的方法，所述方法包括下列步骤：

产生多个表示所述输入信号的在多个频率子带内的声道子带信号；

产生一个表示所述输入信号的带宽的至少一个部分的复合信号；

根据一个频率子带内各声道子带信号产生一个表示一个声场的空间特征的空间特征信号，其中所述空间特征信号传送表示所述各声道子带信号的信号电平的信息，使得表示所述信号电平的所述信息的值的减小被限制成与人们听觉系统的时间后遮蔽特性的减小相应；以及

将所述复合信号和所述空间特征信号汇编成所述编码信号。

2.一种通过对多个各表示一个相应声道的音频信息的输入信号进行编码产生一个编码信号的方法，所述方法包括下列步骤：

根据一个频率子带内各声道子带信号产生一个表示一个声场的空间特征的空间特征信号，其中所述空间特征信号呈现为传送表示所述各声道子带信号的信号电平的信息的第一形式和呈现为表示一个或几个预定方向的第二形式；以及

将所述复合信号、所述空间特征信号和一个所述空间特征信号的形式的指示汇编成所述编码信号。

3.一种按权利要求2所述的方法，其中所述空间特征信号根据各自频率子带内所述各声道子带信号产生，如果所述声场的视在方向的数目大于一个门限数，就呈现为所述第一形式，否则就呈现为所述第二形式。

4.一种按权利要求3所述的方法，其中所述门限数在所述各声道子带信号中只有一个具有显著谱能量时或者在所述各声道子带信号中所有具有显著谱能量的还具有相关的振幅和相关的相位时为1，而所述声场被认为具有一个视在方向。

5.一种按权利要求2所述的方法，其中所述呈现为所述第二形式的相应空间特征信号还表示所述声场在一个预定方向左右延展的度量。

6.一种按权利要求2所述的方法，其中所述呈现为所述第一形式的相应空间特征信号将表示所述信号电平的所述信息的值的减小限制成与人们听觉系统的时间后遮蔽特性的减小相应。

7.一种按权利要求1或2所述的方法，其中所述复合信号是通过合并在各自频率子带内的两个或更多个声道子带信号产生的。

8.一种按权利要求1或2所述的方法，其中所述复合信号是一个通过使一个宽带信号通过一个滤波器组或变换而产生的子带信号，而所述宽带信号是通过合并所述输入信号中的两个或更多个产生的。

9.一种按权利要求1或2所述的方法，其中所述复合信号是通过合并通过使两个或更多个所述输入信号通过一个滤波器组或变换而得到的子带信号产生的。

10.一种按权利要求1或2所述的方法，其中所述复合信号是一个参数信号。

11.一种按权利要求1或2所述的方法，其中所述声道子带信号是通过对所述输入信号进行一个或多个离散变换而产生的，呈现为相应的变换系数块。

12.一种按权利要求1或2所述的方法，其中所述频率子带的带宽大体分别与人们听觉系统的临界带宽相应。

13.一种按权利要求1或2所述的方法，其中所述各声道子带信号根据一个共同时间间隔内的所述输入信号产生，而所述方法还包括产生一个指示在所述共同时间间隔内所述各个声场在振幅或方向上突然发生改变的时间的延迟信号，以及将所述延迟信号汇编入所述编码信号。

14.一种按权利要求1或2所述的方法，其中所述复合信号是一个与各自频率子带相应的子带信号，而所述方法还包括将所述复合信号传送的信息相对这个频率子带内的信号电平度量最大的那个声道子带信号的信号电平的度量规一化。

15.一种按权利要求1或2所述的方法，所述方法还包括产生与多个相邻频率子带分别相应的所述各空间特征信号的差分编码表示，所述差分编码表示包括动态范围按相邻频率子带内所述声道子带信号之间的谱泄漏限制的一个或几个代码。

16.一种对一个编码信号进行解码产生一个或几个输出信号送至一个或几个输出换能器体现的方法，所述方法包括下列步骤：

根据所述编码信号得出一个或几个复合信号和多个空间特征信号，再根据所述一个或几个复合信号得出多个复合子带信号，其中每个空间特征信号分别与各自的一个复合子带信号关联，表示与所述这个复合子带信号相应的一个声场的空间特征；

根据所述空间特征信号得出多个增益因子，其中所述各增益因子的值的减小被限制成与人们听觉系统的时间后遮蔽特性的减小相应，再将各个复合子带信号分别按相应增益因子映射成一个或几个过渡性子带信号；以及

通过使所述各过渡性子带信号通过一个或几个逆滤波器组产生所述多个输出信号。

17.一种对一个编码信号进行解码产生一个或几个输出信号送至一个或几个输出换能器体现的方法，所述方法包括下列步骤：

根据所述编码信号得出一个或几个复合信号、多个空间特征信号和一个所述各空间特征信号的形式的指示，再根据所述一个或几个复合信号得出多个复合子带信号，其中每个空间特征信号分别与各自的一个复合子带信号关联，表示与所述这个复合子带信号相应的一个声场的空间特征，而所述指示指出所述各空间特征信号是否呈现为表示多个信号电平的第一形式和/或表示一个或几个方向的第二形式；

根据所述空间特征信号得出多个增益因子，再将各个复合子带信号分别按相应增益因子映射成一个或几个过渡性子带信号，对于具有所述第一形式的所述关联空间特征信号，所述映射还按一个与所述信号电平关联的空间配置信号和一个表示所述各输出换能器的空间配置的换能器配置信号进行，而对于具有所述第二形式的所述关联空间特征信号，所述映射还按所述一个或几个方向和所述换能器配置信号进行；以及

18.一种按权利要求17所述的方法，其中所述各增益因子的值的减小被限制成与人们听觉系统的时间后遮蔽特性的减小相应。

19.一种按权利要求16或17所述的方法，其中所述复合子带信号通过使所述一个或几个复合信号通过一个滤波器组或变换得出。

20.一种按权利要求16或17所述的方法，其中所述复合信号是一个参数信号，而所述得出过渡性子带信号的步骤包括根据所述参数信号产生一个频谱或时间信号。

21.一种按权利要求16或17所述的方法，所述方法还包括根据所述编码信号得出一个延迟信号，再根据所述延迟信号延迟映射所述相应复合信号。

22.一种按权利要求16或17所述的方法，其中所述过渡性子带信号具有分别与人们听觉系统的临界带宽相应的带宽。

23.一种按权利要求16或17所述的方法，其中所述输出信号通过施加具有混叠抵消特性的逆滤波器组或进行具有混叠抵消特性的逆变换产生，而所述映射限制相邻频率子带内的所述过渡性子带信号的电平之差，使得由于混叠抵消不完全而产生的噪声基本上感觉不出来。

24.一种通过对多个各表示一个相应声道的音频信息的输入信号进行编码产生一个编码信号的编码器，所述编码器包括：

产生多个表示所述输入信号的在多个频率子带内的声道子带信号的装置；

产生一个表示所述输入信号的带宽的至少一个部分的复合信号的装置；

根据一个频率子带内各声道子带信号产生一个表示一个声场的空间特征的空间特征信号的装置，其中所述空间特征信号传送表示所述各声道子带信号的信号电平的信息，使得表示所述信号电平的所述信息的值的减小被限制成与人们听觉系统的时间后遮蔽特性的减小相应；以及

将所述复合信号和所述空间特征信号汇编成所述编码信号的装置。

25.一种通过对多个各表示一个相应声道的音频信息的输入信号进行编码产生一个编码信号的编码器，所述编码器包括：

根据一个频带子带内各信道子带信号产生一个表示一个声场的空间特征的空间特征信号的装置，其中所述空间特征信号呈现为传送表示所述各声道子带信号的信号电平的信息的第一形式和呈现为表示一个或几个预定方向的第二形式；以及

将所述复合信号、所述空间特征信号和一个所述空间特征信号的形式的指示汇编成所述编码信号的装置。

26.一种按权利要求25所述的编码器，其中所述空间特征信号根据各自频率子带内所述各声道子带信号产生，如果所述声场的视在方向的数目在于一个门限数，就呈现为所述第一形式，否则就呈现为所述第二形式。

27.一种按权利要求26所述的编码器，其中所述门限数在所述各声道子带信号中只有一个具有显著谱能量时或者在所述各声道子带信号中所有具有显著谱能量的还具有相关的振幅和相关的相位时为1，而所述声场被认为具有一个视在方向。

28.一种按权利要求25所述的编码器，其中所述呈现为所述第二形式的相应空间特征信号还表示所述声场在一个预定方向左右延展的度量。

29.一种按权利要求25所述的编码器，其中所述呈现为所述第一形式的相应空间特征信号将表示所述信号电平的所述信息的值的减小限制成与人们听觉系统的时间后遮蔽特征的减小相应。

30.一种按权利要求24或25所述的编码器，所述编码器还包括通过合并在各自频率子带内的两个或更多个声道子带信号产生所述复合信号的装置。

31.一种按权利要求24或25所述的编码器，所述编码器还包括通过合并所述输入信号中的两个或更多个产生一个宽带信号的装置，以及使所述宽带信号通过一个滤波器组或变换产生所述复合信号的装置。

32.一种按权利要求24或25所述的编码器，所述编码器还包括使所述输入信号中的两个或更多个通过一个滤波器组或变换的装置，以及通过合并所得到的子带信号产生所述复合信号的装置。

33.一种按权利要求24或25所述的编码器，其中所述复合信号是一个参数信号。

34.一种按权利要求24或25所述的编码器，所述编码器还包括通过对所述输入信号进行一个或几个离散变换产生呈现为变换系数块的所述声道子带信号的装置。

35.一种按权利要求24或25所述的编码器，其中所述频率子带的带宽大体分别与人们听觉系统的临界带宽相应。

36.一种按权利要求24或25所述的编码器，其中所述各声道子带信号根据一个共同时间间隔内的所述输入信号产生，而所述编码器还包括产生一个指示在所述共同时间间隔内所述各个声场在振幅或方向上突然发生改变的时间的延迟信号的装置，以及将所述延迟信号汇编入所述编码信号的装置。

37.一种按权利要求24或25所述的编码器，其中所述复合信号是一个与各自频率子带相应的子带信号，而所述编码器还包括将所述复合信号传送的信息相对这个频率子带内的信号电平度量最大的那个声道子带信号的信号电平的度量规一化的装置。

38.一种按权利要求24或25所述的编码器，所述编码器还包括产生与多个相邻频率子带分别相应的所述各空间特征信号的差分编码表示的装置，而所述差分编码表示包括动态范围按相邻频率子带内所述声道子带信号之间的谱泄漏限制的一个或几个代码。

39.一种对一个编码信号进行解码产生一个或几个输出信号送至一个或几个输出换能器体现的解码器，所述解码器包括：

根据所述编码信号得出一个或几个复合信号和多个空间特征信号，再根据所述一个或几个复合信号得出多个复合子带信号的装置，其中每个空间特征信号分别与各自的一个复合子带信号关联，表示与所述这个复合子带信号相应的一个声场的空间特征；

根据所述空间特征信号得出多个增益因子，其中所述各增益因子的减小被限制成与人们听觉系统的时间后遮蔽特性的减小相应，再将各个复合子带信号分别按相应增益因子映射成一个或几个过渡性子带信号的装置；以及

使所述各过渡性子带信号通过一个或几个逆滤波器组产生所述多个输出信号的装置。

40.一种对一个编码信号进行解码产生一个或几个输出信号送至一个或几个输出换能器体现的解码器，所述解码器包括：

根据所述编码信号得出一个或几个复合信号、多个空间特征信号和一个所述各空间特征信号的形式的指示，再根据所述一个或几个复合信号得出多个复合子带信号的装置，其中每个空间特征信号分别与各自的一个复合子带信号关联，表示与所述这个复合子带信号相应的一个声场的空间特征，而所述指示指出所述各空间特征信号是否呈现为表示多个信号电平的第一形式和/或表示一个或几个方向的第二形式；

根据所述空间特征信号得出多个增益因子，再将各个复合子带信号分别按相应增益因子映射成一个或几个过渡性子带信号的装置，对于具有所述第一形式的所述关联空间特征信号，所述映射还按一个与所述信号电平关联的空间配置信号和一个表示所述各换能器的空间配置的换能器配置信号进行，而对于具有所述第二形式的所述关联空间特征信号，所述映射还按所述一个或几个方向和所述换能器配置信号进行；以及

41.一种按权利要求40所述的解码器，其中所述各增益因子的减小被限制成与人们听觉系统的时间后遮蔽特性的减小相应。

42.一种按权利要求39或40所述的解码器，所述解码器还包括使所述一个或几个复合信号通过一个滤波器组或变换得出所述复合子带信号的装置。

43.一种按权利要求39或40所述的解码器，其中所述复合信号是一个参数信号，而所述得出过渡性子带信号的装置根据所述参数信号还产生一个频谱或时间信号。

44.一种按权利要求39或40所述的解码器，所述解码器还包括根据所述编码信号得出一个延迟信号，再根据所述延迟信号延迟映射所述相应复合信号的装置。

45.一种按权利要求39或40所述的解码器，其中所述过渡性子带信号具有分别与人们听觉系统的临界带宽相应的带宽。

46.一种按权利要求39或40所述的解码器，所述解码器还包括施加一个具有混叠抵消特性的逆滤波器组或进行一个具有混叠抵消特性的逆变换产生所述输出信号的装置，而所述映射装置限制相邻频率子带内的所述过渡性子带信号的电平之差，使得由于混叠抵消不完全而产生的噪声基本上感觉不出来。