CN101199121A

CN101199121A - 可缩放压缩音频位流和使用分级滤波器组和多通道联合编码的编码/译码器

Info

Publication number: CN101199121A
Application number: CNA2006800217657A
Authority: CN
Inventors: 德米特里·V·施芒克; 理查德·J·比登
Original assignee: DTS BVI Ltd
Current assignee: DTS BVI Ltd; DTS BVI AZ Research Ltd
Priority date: 2005-06-17
Filing date: 2006-06-16
Publication date: 2008-06-11
Anticipated expiration: 2026-06-16
Also published as: KR20080025377A; PL1891740T3; EP1891740A2; JP5164834B2; NZ563337A; WO2007074401A3; WO2007074401A2; AU2006332046A1; TR200708666T1; JP2012098759A; CA2853987C; KR101325339B1; CA2608030A1; US20070063877A1; AU2006332046B2; JP2008547043A; NZ593517A; IL187402A; IL187402A0; EP2479750A1

Abstract

一种用来压缩音频输入信号以形成主位流的方法，该主位流可被缩放以形成具有任意规定数据速率的缩放位流。分级滤波器组(2100)把输入信号分解成多分辨率时间/频率表示，编码器可从该多分辨率时间/频率表示高效地抽取音调(2106)和残余分量(2117)。分量被排序，并且然后参照相同掩码函数或不同心理声学标准被量化。选择音调分量使用扩展到多通道音频的差分编码被适当地编码。使用扩展到多通道音频的联合通道编码(JCC)，编码组成残余分量的时间－样本和缩放因子分量。译码器使用逆分级滤波器组，以从缩放位流中的音调和残余分量重建音频信号。

Description

可缩放压缩音频位流和使用分级滤波器组和多通道联合编码的编码/译码器

技术领域

本发明涉及音频信号的可缩放编码，并且更明确地说，涉及用来对多通道音频信号在有效实体中进行这种数据速率缩放的方法，该方法包括分级滤波(hierarchical filtering)、音调分量的联合编码及在残余信号中的时域分量的联合通道编码。

背景技术

音频压缩算法的主要目的是，使用尽可能少的数字位创建输入音频信号的声音可接受表示。这允许输入音频信号的低数据速率版本在诸如互联网之类的有限带宽传输通道上传送，并且减小用于存储将来播放的输入音频信号必需的存储量。对于其中传输通道的数据容量被固定并且相对于时间不变化、或需要存储的音频量(以分钟计算)事先知道并且不增大的那些应用，传统音频压缩方法固定了数据速率并因而在压缩编码时固定了音频质量级。不能实现数据速率的进一步减小，如果不用更低数据速率记录原始信号或解压缩被压缩的音频信号然后以更低数据速率重新压缩这种解压缩信号。对于变化的通道容量、在固定存储器上存储额外的内容、或对不同应用以变化的数据速率提供位流这些问题而言，这些方法不是“可缩放的”。

一种用来创建具有可缩放特性的位流并规避上述限制的技术，把输入音频信号编码成包括低数据速率位流的子集的高数据速率位流。这些编码低数据速率位流可从编码信号抽取，并且组合以提供输出位流，该输出位流的数据速率在宽数据速率范围上是可调节的。实现这个概念的一种手段是首先以最低支持数据速率编码数据、然后编码在原始信号与这种最低数据速率位流的译码版本之间的误差。这种编码误差被存储，并且也与最低支持数据速率位流相组合以创建第二低数据速率位流。在原始信号与这种第二低数据速率信号的译码版本之间的误差被编码、存储、及添加到第二低数据速率位流上以形成第三低数据速率位流，以此类推。这个过程被重复，直到与如此导出的每一个误差信号的位流相关的数据速率和最低支持数据速率位流的数据速率之和等于待支持的最高数据速率位流。最后可缩放高数据速率位流包括最低数据速率位流和每一个编码误差位流。

第二种技术通常用来支持相距很广的最低和最高数据速率之间的较少数量的不同数据速率，采用多于一个的压缩算法的使用以创建“分层”可缩放位流。以这种方式对编码位流进行缩放操作的设备，依据输出数据速率要求，选择在分层位流中携带的多个位流的哪一个以用作编码音频输出。为了改进编码效率和提供较宽范围的缩放数据速率，在较低速率位流中携带的数据可由较高速率位流使用，以形成另外的较高质量、较高速率的位流。

发明内容

本发明提供一种用来编码音频输入信号的方法，以形成可被缩放以形成具有任意规定数据速率的缩放位流的主位流、以及用来译码缩放位流以重建音频信号。

这一般通过压缩音频输入信号并排列它们以形成主位流而实现。主位流包括量化分量，该量化分量基于它们对于译码信号质量的相对贡献而排列。输入信号通过把它分离成多个音调和残余分量、以及排列然后量化所述分量而被适当地压缩。所述分离使用分级滤波器组适当地进行。参考相同掩码功能或不同的心理声学标准，所述分量被适当地排列和量化。所述分量然后可以基于它们的排列被排序以利于有效缩放。主位流通过消除足够数量的低序分量而被缩放，以形成具有小于或近似等于所希望数据速率的缩放数据速率的缩放位流。缩放位流包括指示分量在频谱中的位置的信息。缩放位流使用逆分级滤波器组通过排列基于位置信息形成的量化分量、忽略丢失分量及译码被排列的分量而被适当地译码，以产生输出位流。

在一个实施例中，编码器使用分级滤波器组把输入信号分解成多分辨率时间/频率表示。编码器在不同频率分辨率下在HFB的每次迭代中抽取音调分量，从输入信号除去那些音调分量以把残余信号传到HFB的下次迭代，及从最后残余信号抽取残余分量。音调分量被分组成至少一个频率子域每频率分辨率，并且根据它们对于编码信号质量的心理声学重要性被排序。残余分量包括时间-样本分量(例如网格G)和修改时间-样本分量的缩放因子分量(例如网格G0、G1)。时间-样本分量被分组成至少一个时间-样本子域，并且根据它们对于编码信号质量的贡献被排序。

在译码器处，逆分级滤波器组可以用来抽取在一个有效滤波器组结构内的音调分量和残余分量。所有分量被逆量化，并且通过把缩放因子施加到时间样本上重建残余信号。频率样本被重建，并且添加到重建时间样本上以产生输出音频信号。注意，逆分级滤波器组可以用在译码器处，与在编码过程期间是否使用分级滤波器组无关。

在典型实施例中，多通道音频信号中选择的音调分量使用差分编码被编码。对于每个音调分量，一个通道选作初级通道。初级通道的通道号和其振幅和相位被存储在位流中。位-掩码被存储，指示其它通道的哪一个包括所指示的音调分量，并因此应该编码成次级通道。然后对于存在该音调分量的每个次级通道，初级与次级振幅和相位之差被熵-编码并存储。

在典型实施例中，组成残余信号的时间-样本和缩放因子分量使用被扩展到多通道音频的联合通道编码(JCC)而编码。通道分组过程首先确定可以联合编码多个通道的哪一个，并且所有通道都形成组，最后的组可能不完整。

本发明的另外目的、特征及优点包括在典型实施例的如下讨论中，该讨论应该参照附图阅读。尽管这些典型实施例适合音频数据，但将理解，以类似方式也可以处理视频、多媒体及其它类型的数据。

附图说明

图1是方块图，表明根据本发明使用残余编码拓扑的可缩放位流编码器；

图2a和2b是供分级滤波器组使用的Shmunk窗口的频域和时域表示；

图3是用来提供输入信号的多分辨率时间/频率表示的分级滤波器组的例示，借助于本发明可从该输入信号抽取音调和残余分量；

图4是与分级滤波器组有关的步骤的流程图；

图5a至5c表明‘重叠-添加’窗口；

图6是分级滤波器组的频率响应的曲线图；

图7是供编码器之用的分级分析滤波器组的典型实施；

图8a和8b是3-级分级滤波器组的简化方块图以及单级的更详细方块图；

图9是用来把音调分量的差分编码扩展到多通道音频的位掩码；

图10描绘在本发明的编码器的实施例中使用的残余编码器的详细实施例；

图11是对于多通道音频用于联合编码的方块图；

图12示意表示由本发明的可缩放位流编码器产生的可缩放数据帧；

图13表示在本发明中使用的译码器的一种实施的详细方块图；

图14是按照本发明用来由时间-样本和频率分量重建时间-序列数据的逆分级滤波器组的例示；

图15是逆分级滤波器组的典型实施的方块图；

图16是在译码器中使用逆分级滤波器组组合音调和残余分量的方块图；

图17a和17b是3-级逆分级滤波器组的简化方块图以及单级的更详细方块图；

图18是残余译码器的详细方块图；

图19是G1映像表；

图20是基础功能合成校正系数表；及

图21和22分别是编码器和译码器的功能方块图，表明在音频编码器/译码器中的分级滤波器组的多分辨率时间/频率表示的应用。

具体实施方式

本发明提供一种方法用来压缩和编码音频输入信号以形成可被缩放以形成具有任意规定数据速率的缩放位流的主位流、以及用来译码缩放位流以重建音频信号。分级滤波器组(HFB)提供输入信号的多分辨率时间/频率表示，编码器可从该输入信号有效地抽取音调和残余分量。对于多通道音频，实现音调分量的联合编码和在残余信号中残余分量的联合通道编码。分量基于它们对于译码信号质量的相对贡献被排序，并且参考掩码函数而被量化。主位流通过消除足够数量的低序分量被缩放，以形成具有小于或近似等于所希望数据速率的缩放数据速率的缩放位流。使用逆分级滤波器组，通过基于位置信息排列量化分量、忽略丢失分量及译码排序分量而适当译码缩放位流，以产生输出位流。在一种可能的应用中，主位流被存储，并且为了记录在另一种介质上或为了在频带受限通道上传输而被缩小到希望数据速率。在多个缩放位流被存储在介质上的另一应用中，每个流的数据速率被独立地和动态地控制，以使所感觉的质量最大化，同时满足对所有位流的集总数据速率的约束。

如这里使用的那样，术语“域”、“子域”、及“分量”描述在位流中可缩放元素的层级。例子将包括：

域	子域	分量
域	子域	分量	音调	1024-点分辨率变换(4个子帧)	音调分量(相位/振幅/位置)
残余缩放因子网格	网格1	在网格1内的缩放因子	音调	1024-点分辨率变换(4个子帧)	音调分量(相位/振幅/位置)
残余缩放因子网格	网格1	在网格1内的缩放因子	残余子带	在子带3中的所有时间样本的集	在子带3中的每个时间样本

具有残余编码拓扑结构的可缩放位流编码器

如图1中所示，在典型实施例中，可缩放位流编码器使用残余编码拓扑结构通过从芯(音调分量)和/或残余(时间-样本和缩放因子)分量选择性地消除最低排序分量把位流缩放到任意数据速率。编码器使用分级滤波器组把输入信号有效地分解成多分辨率时间/频率表示，从该多分辨率时间/频率表示编码器可有效地抽取音调和残余分量。这里描述的用来提供多分辨率时间/频率表示的分级滤波器组(HFB)可用在希望输入信号的这样一种表示的多种其它应用中。分级滤波器组的一般描述和其供音频编码器之用的构造、以及由具体音频编码器使用的修改HFB在下面描述。

输入信号100施加到掩码计算器101和多阶音调抽取器102上。掩码计算器101分析输入信号100，并且辨别作为频率的函数的掩码水平，在该掩码水平之下，输入信号101中存在的频率对于人耳是听不到的。多阶音调抽取器102使用例如多重重叠FFT或所表示的基于MDCT的分级滤波器组(它们满足对于音调已经定义的心理声学标准)辨别在输入信号101中存在的频率，根据这种标准选择音调，量化这些选择音调的振幅、频率、相位及位置分量，及把这些音调放置到音调清单中。在每次迭代或水平下，从输入信号除去选择音调以把残余信号传到前面。一旦完成，不满足音调标准的所有其它频率从输入信号中抽取，并且从多阶音调抽取器102(具体而言是分级滤波器组MDCT(256)最后一级)在输出线111上作为最后残余信号在时域中输出。

多阶音调抽取器102使用例如五阶的重叠变换，从最大开始向下工作到最小，以通过基函数的使用检测音调。对于取样速率是44100Hz的音频信号，分别使用大小为：8192、4096、2048、1024、及512的变换。可选择其它变换尺寸。图7用图表示变换如何彼此重叠。基函数由如下公式定义：

F(t；A，l，f，)＝0； t[0，l]

其中：A_i＝振幅＝(Re_i·Re_i+Im_i·Im_i)-(Re_i+1·Re_i+1+Im_i+1·Im_i+1)

t＝时间(t∈N是正整数值)

l＝关于功率为2的变换尺寸(l∈512、1024、...、8192)

＝相位

f＝频率

(f &Element; [1, \frac{l}{2}])

在每个变换尺寸处检测的音调使用由本发明的译码器使用的相同译码过程被局部译码，下文将描述。这些局部译码音调被相位转换，并且通过时域求和与原始输入信号相组合，以形成传到HFB的下次迭代或水平的残余信号。

来自掩码计算器101的掩码水平和来自多阶音调抽取器102的音调清单输入到音调选择器103。音调选择器103首先把从多阶音调抽取器102提供给它的音调清单通过对掩码计算器101提供的掩码水平相对功率而分类。它然后使用迭代过程，以确定哪些音调分量将装入主位流中的编码数据的帧中。帧中可用于音调分量的空间量取决于缩放之前预定的编码主位流的数据速率。如果把整个帧分配给音调分量，那么不进行残余编码。一般地，适用数据速率的一部分被分配给音调分量，剩余部分(负开销)保留给残余分量。

对于多通道信号适当地选择通道组，并且在每个通道组内根据诸如对于感觉质量的贡献之类的度量辨别初级/次级通道。选择音调分量优选地使用差分编码被存储。对于立体声音频，两位字段指示初级和次级通道。对于初级和次级通道，分别存储振幅/相位和差分振幅/相位。对于多通道音频，初级通道存储有其振幅和相位，并且对于包括的次级通道，对于具有差分振幅/相位的所有次级通道存储有位-掩码(见图9)。位-掩码指示哪些其它通道与初级通道联合编码，并且对于初级通道中的每个音调分量，被存储在位流中。

在这种迭代过程期间，确定不装入帧中的音调分量的一些或全部可以转换回时域中，并且与残余信号111相组合。如果，例如数据速率足够高，那么典型地所有未选择音调分量被重新组合。然而，如果数据速率较低，则较强‘未选择’音调分量适当地排除在残余之外。已经发现这会改进较低数据速率下的感觉质量。由信号110代表的未选择音调分量经局部译码器104被局部译码以把它们转换回到线114上的时域中，并且在组合器105中与来自多阶音调抽取器102的残余信号111相组合以形成组合残余信号113。注意，在114和111上出现的信号都是时域信号，从而这种组合过程可容易地实现。组合残余信号113由残余编码器107进一步处理。

由残余编码器107进行的第一动作是通过滤波器组处理组合残余信号113，该滤波器组把信号细分成临界取样时域频率子带。在优选实施例中，当分级滤波器组用来抽取音调分量时，这些时间-样本分量可直接从分级滤波器组读出，由此消除对专用于残余信号处理的第二滤波器组的需要。在这种情况下，如图21中所示，组合器104处理分级滤波器组的最后级(MDCT(256))的输出，以在计算IMDCT2106之前把‘未选择’的译码的音调分量114与残余信号111相组合，这产生子带时间-样本(也见图7步骤3906、3908及3910)。然后进行进一步分解、量化及排列这些子带到心理相关顺序。残余分量(时间-样本和缩放因子)使用联合通道编码被适当地编码，在该联合通道编码中，时间-样本由网格G代表，并且缩放因子由网格G0、G1代表(见图11)。残余信号的联合编码使用施加到通道组上的部分网格，该部分网格代表在初级与次级通道组之间的信号能量比值。通过交叉相关、或其它度量来选择诸个组(动态地或静态地)。多于一个通道可被组合，并且用作初级通道(例如，L+R初级、C次级)。在时间/频率维度上使用缩放因子网格部分G0、G1是新颖的，当施加到这些多通道组上时，并且多于一个次级通道能与给定初级通道相关。各个网格元素和时间样本按频率排序，使较低频率排列得较高。网格根据位速率排序。次级通道信息以比初级通道信息低的优先级被排列。

代码串发生器108在线120上从音调选择器103以及在线122上从残余编码器107取得输入，并且使用本技术中熟知的熵编码把来自这两个输入的值编码成位流124。位流格式化器109保证来自音调选择器103和残余编码器107的心理声学元素在通过代码串发生器108被编码之后，出现在主位流126中的适当位置中。‘排列’通过不同分量的排序隐含地包括在主位流中。

缩放器(scaler)115从编码器产生的主位流126的每个帧中消除足够数量的最低排序编码分量，以形成具有小于或近似等于希望数据速率的数据速率的缩放位流116。

分级滤波器组

多阶音调抽取器102优选地使用‘修改的’分级滤波器组以提供多分辨率时间/频率分辨率，从该多分辨率时间/频率分辨率可有效地抽取音调分量和残余分量。HFB依次按较低频率分辨率把输入信号分解成变换系数，并且在每次依次迭代下，以连续地较精细时间缩放分辨率分解回成时域子带样本。由分级滤波器组产生的音调分量与由多重重叠FFT产生的那些精确相同，但计算负担小得多。分级滤波器组通过并行地、同时地分析不同时间/频率分辨率下的输入信号，解决模型化人类听觉系统的不相等时间/频率分辨率的问题，实现几乎任意时间/频率分解。分级滤波器组利用在已知分解中没有发现的在内变换中的加窗和重叠-添加步骤。这个步骤和窗口函数的新颖设计允许在这种结构在任意树中迭代以实现所希望的分解，并且能以信号-自适应方式进行。

如图21中所示，单通道编码器2100在每次迭代2101a、...2101e从变换系数抽取音调分量，在音调清单2106中量化和存储抽取的音调分量。下面讨论用于多通道信号的音调和残余信号的联合编码。在每次迭代处，时域输入信号(残余信号)被加窗2107，并且N-点MDCT被应用2108以产生变换系数。音调从变换系数抽取2109，被量化2110，及添加到音调清单上。选择的音调分量被局部译码2111，并且在进行逆变换2113以前从变换系数减去2112，以产生形成用于HFB的下次迭代的残余信号2114的时域子带样本。具有比HFB的最后迭代较更低的频率分辨率的最后逆变换2115在最后组合残余113上进行，并加窗2116以抽取残余分量G 2117。如上述的那样，任何‘未选择’音调被局部译码104，并且在最后逆变换的计算之前与残余信号111组合105。残余分量包括在2118和2119中从网格G抽取的时间-样本分量(网格G)和缩放-因子分量(网格G0、G1)。网格G被重新计算2120，并且网格G和G1被量化2121、2122。下面描述网格G、G1及G0的计算。在音调清单上的量化音调、网格G及缩放因子网格G1都被编码，并且放置在主位流中。在每次迭代从输入信号的除去选择音调和最后逆变换的计算是音频编码器对HFB所施加的修改。

在音频编码中的基本挑战是建模人类感觉的时间/频率分辨率。瞬态信号，如鼓掌声，要求在时域中的高分辨率，而谐波信号，如号声，要求在频域中的高分辨率，以由编码位流准确地表示。但熟知的原理是，时间和频率分辨率彼此互逆，并且单一变换在两个域中不能同时呈现高精度。有效音频编码/译码器(codec)的设计要求在时间和频率分辨率之间平衡这种折衷。

对于这个问题的已知解决方案是利用窗口切换，使变换尺寸适应输入信号的瞬态本质(见K.Brandenburg等的“The ISO-MPEG-AudioCodec：A Generic Standard for Coding of High Quality DigitalAudio”，Journal of Audio Engineering Society，Vol.42，No.10，1994年10月)。分析窗口大小的这种自适应引入额外的复杂性，并且要求在输入信号中检测瞬态事件。为了管理算法的复杂性，现有技术的窗口切换方法典型地把不同窗口大小的数量限制到两个。在这里讨论的分级滤波器组通过并行地提供多重时间/频率分辨率的滤波器组表示/处理输入信号，避免对于信号/听觉特性的这种粗调。

有多种称作混合滤波器组的滤波器组，它们把输入信号分解成给定时间/频率表示。例如，在ISO/IEC 11172-3中描述的MPEG Layer3算法，利用在每个子带中跟随有MDCT变换的Pseudo-QuadratureMirro Filterbank(伪正交镜像滤波器组)。在我们的分级滤波器组中，我们利用诸如MDCT之类的变换，跟随有对于谱线组的逆变换(例如，IMDCT)，以进行输入信号的灵活的时间/频率变换。

不像混合滤波器组，分级滤波器组使用来自两个连续、重叠的外变换以计算‘重叠’内变换。借助于分级滤波器组有可能在第一变换的顶部上聚集多于一个变换。这借助于现有技术滤波器组(例如，树状滤波器组)也是可能的，但是由于随水平数量增大的频域分离快速退化，这是不实际的。分级滤波器组以某种时域退化为代价避免这种频域退化。然而，这种时域退化可通过窗口形状的适当选择而控制。借助于适当分析窗口的选择，也可使内变换系数相对于等于内变换尺寸(不像常规手段中那样等于最外变换的大小)的时间移位而不变。

供分级滤波器组之用的、这里称作“Shmunk Window”的适当窗口W(x)由如下定义：

W^{2} (x) = \frac{128 - 150 \cos (\frac{2 πx}{L}) + 25 \cos (\frac{6 πx}{L}) - 3 \cos (\frac{10 πx}{L})}{256}

其中x是时域样本指数(0＜x＜＝L)，并且L是在样本中窗口的长度。

与普通使用Kaiser-Bessel导出窗口2602相比较的Shmunk窗口的频率响应2603表示在图2a中。可看到两个窗口在形状方面相类似，但旁瓣衰减对于所提出的窗口较大。Shmunk窗口的时域响应2604表示在图2b。

具有提供时间/频率分解的一般适用性的分级滤波器组示出在图3和4。如以上描述的那样，为了用在音频编码/译码器中，HFB必须修改。在图3中，在每条虚线处的数量代表在每个水平下的相等间隔的频率仓(frequency bins)的数量(尽管不计算所有这些仓)。向下箭头代表得到N/2个子带的N-点MDCT变换。向上箭头代表IMDCT，取N/8个子带并且把它们变换成一个子带中的N/4个时间样本。每个方块代表一个子带。每个矩形代表N/2个子带。分级滤波器组完成如下步骤：

(a)如图5a中所示，输入信号样本2702缓存到N样本2704的帧中，并且每个帧乘以N-样本窗口函数(图5b)2706以产生N窗口样本2708(图5c)(步骤2900)；

(b)如图3中所示，N-点变换(在图3中由向下箭头2802代表)施加到加窗样本2708上，以产生N/2变换系数2804(步骤2902)；

(c)可选的环形(ringing)减小通过施加一个或多个相邻变换系数的线性组合，其中通过应用变换系数2804的一个或多个(步骤2904)；

(d)N/2变换系数2804划分成P组Mi系数，从而Mi系数之和是N/2

(Σ_{i = 1}^{P} M_{i} = N / 2);

(e)对于P组的每一个，(2*M_i)-点逆变换(在图3中由向上箭头2806代表)施加到变换系数上以由每个组产生(2*M_i)子带样本(步骤2906)；

(d)在每个子带中，(2*M_i)子带样本乘以(2*M_i)-点窗口函数2706(步骤2908)；

(e)在每个子带中，M_i个先前样本被重叠，并且添加到对应的当前值上，以对于每个子带产生M_i新样本(步骤2910)；

(f)把N设置成等于以前的Mi，并且选择用于P和Mi的新值，及

(g)使用用于N的连续地较小的变换尺寸对M_i个新样本的子带的一个或多个重复以上步骤(步骤2912)，直到实现希望的时间/变换分辨率(步骤2914)。注意，步骤可以迭代到所有子带，仅最低子带或其任何希望组合。如果对于所有子带迭代步骤，则HFB是均匀的，否则它是不均匀的。

图3的和以上描述的滤波器组实施的频率响应3300曲线图表示在图6中，其中N＝128，Mi＝16及P＝4，并且对于在每一级的最低两个子带迭代步骤。

对这种分级滤波器组的潜在应用可超出音频范围，到视频和其它类型的信号(例如，地震、医学、其它时间-序列信号)的处理。视频编码和压缩对于时间/频率分解具有类似要求，并且由分级滤波器组提供的分解的任意本质相对于基于离散余弦变换(Discrete CosineTransform)和小波分解(Wavelet decomposition)的当前技术状态技术可以具有显著优点。在分析和处理地震或机械测量、生物医学信号处理、自然或生理信号、语音、或其它时间序列信号的分析和处理时也可以应用滤波器组。频域信息可从在每次迭代在依次的较低频率分辨率下产生的变换系数抽取。同样时域信息可从在每次迭代在依次的较精细时间缩放下产生的时域子带样本抽取。

分级滤波器组：均匀间隔子带

图7表示分级滤波器组3900的典型实施例的方块图，其实施了均匀间隔的子带滤波器组。对于均匀级滤波器组M_i＝M＝N/(2*P)。输入信号到子带信号3914的分解在下面描述：

1.输入时间窗口3902在N点、50％重叠帧3904中加窗。

2.对于每个帧进行N点MDCT3906。

3.把生成的MDCT系数分组成P组3908，每组M系数。

4.对于每一组进行(2*M)点IMDCT3910，以形成(2*M)子带时间样本3911。

5.生成的时间样本3911在(2*M)点、50％重叠帧中加窗，并且重叠添加(OLA)3912以在每个子带中形成M个时间样本3914。

在典型实施例中，N＝256、P＝32、及M＝4。注意，不同的变换尺寸和对于N、P、及M的不同选择代表的子带分组也可用来实现希望的时间/频率分解。

分级滤波器组：非均匀间隔子带

分级滤波器组3000的另一个实施例表示在图8a和8b中。在这个实施例中，一些滤波器组级是不完整的以产生具有三个不同频率范围的变换，在每个范围中使变换系数代表不同的频率分辨率。使用一系列级联单-元件滤波器组把时域信号分解成这些变换系数。详细滤波器组元件可以被迭代多次，以产生希望的时间/频率分解。注意，用于缓冲器大小、变换尺寸及窗口大小的数值、和用于变换的MDCT/IMDCT的使用仅用于典型实施例，并且不限制本发明的范围。也可以使用其它缓冲器窗口和变换尺寸及其它变换类型。一般地，M_i彼此不同，但满足M_i之和等于N/2的约束条件。

如图8b中所示，单个滤波器组元件缓冲器3022输入样本3020以形成256个样本的缓冲器3024，该256个样本的缓冲器通过把样本乘以256-样本窗口函数加窗3026。加窗样本3028经256-点MDCT3030变换以形成128个变换系数3032。在这128个系数中，96个最高频率系数为了输出3037被选择3034，并且被进一步处理。32个最低频率系数然后逆变换3042以产生64个时域样本，该时域样本然后加窗3044成样本3046，并且与以前输出帧重叠-添加3048，以产生32个输出样本3050。

在8a中表示的例子中，滤波器组包括一个滤波器组元件3004，对于256个样本的输入缓冲器大小迭代一次，该滤波器组元件3004之后有一个滤波器组元件3010，也对于256个样本输入缓冲器大小迭代。最后一级3016代表简略的单个滤波器组元件，并且仅包括缓冲3016、加窗3026、及MDCT 3030步骤，以输出代表0-1378Hz的最低频率范围的128个频域系数。

因而，假定输入3002具有44100Hz的样本速率，表示的滤波器组产生在“Out1”处代表频率范围5513至22040Hz的96个系数3008、在“Out2”处代表频率范围1379至5512Hz的96个系数3014、及在“Out3”处代表频率范围0至1378Hz的128个系数3018。

应该注意，对于频率变换/逆变换的MDCT/IMDCT的使用是示范性的，并且其它时间/频率变换可用作本发明的部分。用于变换尺寸的其它数值是可能的，并且对于这种手段，通过选择性地扩展上述层级中的任何分支，其它分解是可能的。

音调和残余分量的多通道联合编码

在图1中的音调选择器103把来自掩码计算器101的数据和来自多阶音调抽取器102的音调清单取作输入。音调选择器103首先相对于来自掩码计算器101的掩码水平通过相对功率分类音调清单，按心理声学重要性形成排序。采用的公式由如下给出：

P_{k} = A_{k} \cdot \frac{Σ_{i - 0}^{l - 1} (1 - \cos (\frac{π (2 i + 1)}{l}))}{\sqrt{M_{i, k}}}

其中：

A_k＝谱线振幅

M_i，k＝用于i掩码子帧中的k谱线的掩码水平

l＝按照掩码子帧的基函数的长度

对于子帧进行求和，其中谱分量具有非零值。

音调选择器103然后使用迭代过程，以确定来自用于帧的分类音调清单的哪些音调分量将装入位流中。在音调振幅在多于一个通道中大致相同的立体声或多通道音频信号中，只有全振幅和相位存储在初级通道中；初级通道是具有用于音调分量的最高振幅的通道。具有类似音调特性的其它通道存储与初级通道的差别。

用于每个变换尺寸的数据包容多个子帧，覆盖2个子帧的最小变换尺寸；第二4个子帧；第三8个子帧；第四16个子帧；及第五32个子帧。对于1个帧有16个子帧。音调数据按其中找到音调信息的变换尺寸分组。对于每种变换尺寸，如下的音调分量数据被量化、被熵-编码及放置在位流中：熵-编码子帧位置、熵-编码谱位置、熵-编码量化振幅、及量化相位。

在多通道音频的情况下，对于每个音调分量，把一个通道选作初级通道。哪个通道应该是初级通道的确定可被固定，或者可以基于信号特性或感觉标准进行。初级通道的通道号和其振幅和相位存储在位流中。如图9中所示，位-掩码3602被存储，其指示其它通道的哪些包括所指示的音调分量，并因此应该被编码为次级通道。然后对于存在音调分量的每个次级通道，初级与次级振幅和相位之差被熵-编码和存储。这个具体例子假定有7个通道，并且主通道是通道3。位-掩码3602指示在次级通道1、4及5上音调分量的存在。没有用于初级通道的位。

多阶音调抽取器102的输出4211由在一个或多个分辨率下的MDCT系数的帧组成。音调选择器103基于音调分量与译码信号质量的相关性，确定哪些音调分量可保持以便由代码串发生器108插入到位流输出帧中。确定不装入帧中的那些音调分量输出110到局部译码器104。局部译码器104取出音调选择器103的输出110，并且通过添加借助于来自查阅表(图20)的合成系数2000缩放的每个音调分量合成所有音调分量，以产生MDCT系数的帧(见图16)。这些系数在组合器105中添加到多阶音调抽取器102的输出111上，以在分级滤波器组的最后迭代的MDCT分辨率下产生残余信号113。

如图10中所示，每个通道的残余信号113在图7中表示的加窗和重叠添加3904和IMDCT 3910的步骤以前，传到残余编码器107作为分级滤波器组3900的MDCT系数3908。IMDCT 3910、加窗和重叠添加3912的后续步骤被进行，以在时域中对每个通道产生32个相等间隔的临界取样频率子带3914。组成时间-样本分量的32个子带称作网格G。注意，编码器中可使用分级滤波器组的其它实施例以实现除以上述一种之外的不同时间/频率分解，并且其它变换可用来抽取音调分量。如果分级滤波器组不用来抽取音调分量，则可使用另一种形式的滤波器组以抽取子带，但有较高计算负担。

对于立体声或多通道音频，在通道选择块501中进行几种计算以确定用来编码音调分量的初级和次级通道、以及用来编码音调分量的方法(例如，左-右、或中部-侧部)。如图11中所示，通道分组过程3702首先确定多个通道的哪些可以联合编码，并且所有通道形成组，最后的组可能是不完整的。分组由听众的感觉标准和编码效率确定，并且通道组可以由多于两个通道的组合建造(例如，包括L、R、Ls、Rs及C通道的5通道信号可以分组成{L、R}、{Ls、Rs}、{L+R、C}。然后通道组排序成初级和次级通道。在典型多通道实施例中，基于在帧上通道的相对功率进行初级通道的选择。如下公式定义相对功率：

P_{l} = Σ_{i = 0}^{15} L_{i}^{2}

P_{r} = Σ_{i = 0}^{15} R_{i}^{2}

P_{m} = Σ_{i = 0}^{15} {(L_{i} + R_{i})}^{2}

P_{s} = Σ_{i = 0}^{15} {(L_{i} - R_{i})}^{2}

如在图11的步骤3704中所示，也确定分组模式。音调分量可以编码为左-右、或中部-侧部表示，或者这个步骤的输出可以只得到单个初级通道，如由虚线表示的那样。在左-右表示中，对于子带具有最高功率的通道当作初级，并且如果右通道是最高功率的通道，则在位流3706中设置用于该子带的单个位。如果子带满足如下条件则对于子带使用中部-侧部编码：

P_m＞2·P_s

对于多通道信号，对于每个通道组完成以上操作。

对于立体声信号，网格计算502提供立体声全声(panning)网格，在该立体声全声网格中可粗略地建造立体声全声并且施加到残余信号上。立体声网格是被4个时间间隔的4个子带，在立体声网格中的每个子带覆盖来自滤波器组500的输出的4个子带和32个样本，从高于3kHz的频带开始。其它网格大小、覆盖的频率子带、及时间划分可被选择。在立体声网格中单元的值是给定通道的功率与初级通道的功率的比值，用于单元覆盖的值的范围。比值然后被量化到与用来编码音调分量的表格相同的表格。对于多通道信号，对每个通道组计算以上立体声网格。

对于多通道信号，网格计算502提供多重缩放因子网格，每个通道组一个，该多重缩放因子网格按它们在空间域中的心理声学重要性的顺序插入到位流中。计算给定通道的功率与4子带乘32样本的每个组的初级通道的功率的比值。这个比值然后被量化，并且这个量化值加上功率比值的算法符号插入到位流中。

缩放因子网格计算503计算网格G1，其放置在位流中。现在描述用来计算网格G1的方法。首先从G导出G0。G0包含所有32个子带但只有G的时间分辨率的一半。在G0中的单元的内容是来自G的给定子带的两个相邻值的最大值的量化值。使用相同修改对数量化表格进行量化(在如下公式中称作Quantize)，如用来在多阶音调抽取器102中编码音调分量那样。在G0中的每个单元因而由如下确定：

G0_m，n＝(Quantize(Maximun(G_m，2n，G_m，2n+1)) n∈[0...63]

其中：m是子带号

n是G0的列号

从G0导出G1。G1具有11个重叠子带和G0的1/8时间分辨率，形成大小11×8的网格。在G1中的每个单元使用用于音调分量的相同表格被量化，并且使用如下公式求出：

{G 1}_{m, n} = Quantize (Σ_{l = 0}^{31} (W_{l} \cdot \sqrt{Σ_{i = 8 n}^{8 n + 7} G_{l, i}^{2}}))

其中：W_l是从在图19中的表格1得到的权重值。

在局部网格译码器506中由G1重新计算G0。在时间样本量化块507中，从分级滤波器组(网格G)抽取输出时间样本(“时间-样本分量”)，该输出时间样本通过量化水平选择块504，通过把时间-样本分量除以来自局部网格译码器506的重新计算G0中的相应值被缩放，及被量化到由量化水平选择块504确定的量化水平的数量，作为子带的函数。这些量化时间样本然后与量化网格G1一道放置在编码位流中。在所有情况下，反映这些分量的心理声学重要性的模型用来确定用于位流存储操作的优先级。

除改进用于某些信号的编码增益的额外增强步骤之外，通过在量化并编码之前施加两维离散余弦变换(DCT)可以进一步处理包括G、G1及部分网格的网格。在逆量化之后的译码器处施加对应逆DCT，以重新建造原始网格。

可缩放位流和缩放机构

典型地，主位流的每个帧将包括：(a)多个量化音调分量，代表在输入信号的不同频率分辨率下的频域内容；b)量化残余时间-样本分量，代表由在重建音调分量与输入信号之差形成的时域残余；及c)缩放因子网格，代表残余信号的信号能量，该信号能量跨过输入信号的频率范围。对于多通道信号，每个帧也可以包含：d)部分网格，代表在通道组内残余信号通道的信号能量比值；及e)用于每个初级的位掩码，规定用于音调分量的次级通道的联合-编码。通常在每个帧中的适用数据速率的一部分从音调分量(a)分配，并且一部分分配给残余分量(b、c)。然而，在某些情况下，可以分配所有可用速率以编码音调分量。可选择地，可以分配所有可用速率以编码残余分量。在极端情况下，可以仅编码缩放因子网格，在该情况下，译码器使用噪声信号重建输出信号。在大多数任何实际应用中，缩放位流将包括包含音调分量的至少一些帧、并包括缩放因子网格的一些帧。

在主位流中放置的分量的结构和顺序，如由本发明定义的那样，提供了宽位范围、精细粒化的、位流可缩放性。正是这种结构和顺序允许位流由外部机构平稳地缩放。图12描绘基于图1的音频压缩编码/译码器的分量的结构和顺序，该音频压缩编码/译码器把原始位流分解成特定集合的心理声学相关分量。在这个例子中使用的可缩放位流由多个资源互换文件格式或RIFF(叫做“块”的数据结构)组成，尽管可使用其它数据结构。由本领域的技术人员熟知的这种文件格式允许由块携带的数据类型以及由块携带的数据量的辨别。注意，承载在其定义位流数据结构中携带的数据的量和类型的信息的任何位流格式都可用来实现本发明。

图12表示可缩放数据速率帧块900的拓扑结构、以及子块902、903、904、905、906、906、907、908、909、910及912，这些子块包括在帧块900内携带的心理声学数据。尽管图12只记载块ID和用于帧块的块长度，但子块ID和子块长度数据包括在每个子块内。图12表示在可缩放位流的帧中的子块顺序。这些子块包含由可缩放位流编码器产生的心理声学分量，唯一的子块用于编码位流的每个子域。除按心理声学重要性排列子块之外，按照先验决定或计算，在子块内的分量也按心理声学重要性排列。Null Chunk 911是在帧中的最后块，用来在其中要求帧是恒定或特定大小的情况下填塞块。因此Chunk911没有心理声学相关性，并且是最不重要的心理声学块。TimeSample(时间样本)2 Chunk 910出现在图的右手侧上，并且最重要心理声学块网格1 Chunk 902，出现在图的左手侧上。通过操作以首先从位流端部处的最小心理声学相关块Chunk 910除去数据，并且向位流的开始Chunk 902操作以除去越来越大的心理声学相关分量，对于数据速率中的每个依次的减小，保持尽可能的最高质量。应该注意，能够由位流支持的最高数据速率以及最高音频质量，在编码时间定义。然而，在缩放之后的最低数据速率由对于通过应用可接受的音频质量水平、或由在通道或介质上的速率约束条件而定义。

被除去的每个心理声学分量不利用相同数量的位。用于本发明当前实施的缩放分辨率的范围从用于最低心理重要性的分量的1位到用于最高心理重要性的那些分量的32位。用来缩放位流的机构不必一次除去全部块。如以前提到的那样，在每块内的分量这样排列，从而心理声学最重要的数据放置在块的开始处。为此，由缩放机构从块的端部，一次一个分量地除去分量，同时对每个除去分量保持可能的最好音频质量。在本发明的一个实施例中，全部分量由缩放机构消除，而在其它实施例中，可以消除分量的一些或全部。缩放机构按需除去块内的分量，更新从其除去分量的特定块的Chunk Length(块长度)字段、Frame Chunk Length(帧块长度)915及Frame Chunksum(帧校验和)901。如将从本发明的典型实施例的详细讨论看到的那样，借助于用于每个缩放块的更新Chunk Length、以及对于译码器可用的更新Frame Chunk Length和Frame Chunksum信息，译码器可适当地处理缩放位流，并且自动地产生输送到DAC的固定样本速率音频输出信号，即使在位流内有丢失分量的块、以及从位流完全丢失的块。

用于残余编码拓扑结构的可缩放位流译码器

图13表示译码器的方块图。位流分析器600读取初始侧信息，该初始侧信息包括：编码之前编码信号按赫兹的样本速率、音频通道的数量、流的原始数据速率、及编码数据速率。这个初始侧信息允许它重建原始信号的完全数据速率。在位流599中的另外分量由位流分析器600分析，并且传到适当译码元件：音调译码器601或残余译码器602。经音调译码器601译码的分量通过逆频率变换604处理，该逆频率变换604把信号转换回时域中。重叠-添加块608把以前译码帧的后半部的值添加到刚刚译码帧的第一半部上，该刚刚译码帧是逆频率变换604的输出。被位流分析器600确定是残余译码过程部分的分量通过残余译码器602处理。残余译码器602的输出，包含在时域中代表的32个频率子带，通过逆滤波器组605处理。逆滤波器组605把32个子带重新组合成一个信号，以与在组合器607中的重叠-添加608的输出组合。组合器607的输出是译码输出信号614。

为了减小计算负担，把信号转换回时域的逆频率变换604和逆滤波器组605可用逆分级滤波器组实施，该逆分级滤波器组把这些操作与组合器607集成，以形成译码时域输出音频信号614。在译码器中分级滤波器组的使用是新颖的，就音调分量与在译码器处在分级滤波器组中的残余的组合的方式。残余信号使用在每个子带中的MDCT被前向变换，并且然后音调分量在最后一级IMDCT之前被重建和组合。多分辨率方案可推广到其它应用(例如，多重水平、不同分解，仍然由本发明的这个方面覆盖)。

逆分级滤波器组

为了减小译码器的复杂性，分级滤波器组可以用来组合逆频率变换604、逆滤波器组605、重叠-添加608、及组合器607的步骤。如在图15中表示的那样，残余译码器602的输出传到逆分级滤波器组4000的第一级，而音调译码器601的输出在最后逆变换4010之前添加到在较高频率分辨率级中的残余样本上。生成逆变换样本然后被重叠添加，以产生线性输出样本4016。

译码器使用HFB 2400对于单通道的整体操作表示在图22中。用于音调和残余信号的多通道译码的添加步骤表示在图10、11及18中。量化网格G1和G′由位流分析器600从位流599读取。残余译码器602逆量化(Q^-1)2401、2402网格G′2403和G1 2404，并且由网格G1重建网格G0 2405。网格G0通过乘以2406在每个网格中的对应元素施加到网格G′上以形成缩放网格G，该缩放网格G包括输入到分级滤波器组2401中的下一级的子带时间样本4002。对于多通道信号，部分网格508用来译码次级通道。

在最低频率分辨率(P＝16、M＝256)下的音调分量(T5)2407由位流分析器600从位流读取。音调译码器601逆量化2408和合成2409音调分量，以产生P组的M个频域系数。

网格G时间样本4002如图15中所示被加窗和重叠添加2410，然后由P(2*M)-点MDCT 2411前向变换，以形成P组的M频域系数，该频域系数然后与如图16中所示由音调分量合成的P组的M频域系数组合2412。组合频域系数然后由长度N IMDCT 2413级联和逆变换，被加窗和重叠-添加2414以产生输入到分级滤波器组的下一级的N输出样本2415。

下一个最低频率分辨率音调分量(T4)从位流读取，并且如以上描述的那样与分级滤波器组的以前级的输出相组合，然后这种迭代对于P＝8、4、2、1和M＝512、1024、2048、及4096继续，直到所有频率分量已经从位流读取、组合及重建。

在译码器的最后一级，逆变换产生作为译码输出614输出的N个全带宽时间样本。P、M及N的以上值仅用于典型实施例，并且不限制本发明的范围。也可以使用其它缓冲器、窗口及变换尺寸和其它变换类型。

如描述的那样，译码器预期接收包括音调分量、时间-样本分量及缩放因子网格的帧。然而，如果这些的一个或多个从缩放位流丢失，则译码器无缝地重建译码输出。例如，如果帧只包括音调分量，那么在4002处的时间-样本是零，并且没有残余与逆HFB的第一级中的合成音调分量相组合2403。如果音调分量T5、...T1的一个或多个丢失，那么零值在该迭代处被组合2403。如果帧只包括缩放因子网格，那么译码器用噪声信号代替网格G以译码输出信号。结果，译码器可无缝地重建译码输出信号，因为缩放位流的每个帧的组成由于信号的内容、变化数据速率约束条件、等等可能改变。

图16更详细地表示音调分量如何在图15的逆分级滤波器组内组合。在这种情况下，子带残余信号4004被加窗和重叠-添加4006、前向变换4008，并且来自所有子带的生成系数被分组以形成系数的单个帧4010。每个音调系数然后通过把音调分量振幅包4102乘以4106一组合成系数4104(通常由表格查阅提供)并且把结果添加到以给定音调分量频率4106为中心的系数上，以与残余系数的帧相组合。这些音调合成系数的添加是在音调分量的全长度上的相同频率区域的谱线上进行。以这种方式添加所有音调分量之后，进行最后IMDCT4012，并且结果被加窗并与以前帧重叠-添加4014，以产生输出时间样本4016。

逆分级滤波器组2850的一般形式表示在图14中，该逆分级滤波器组2850与在图3中表示的分级滤波器组兼容。每个输入帧在P个子带的每一个中包含M_i个时间样本，从而M_i个系数之和是N/2：

Σ_{i = 1}^{P} M_{i} = N / 2;

在图14中，向上箭头代表N点IMDCT变换，该N点IMDCT变换具有N/2个MDCT系数，并且把它们变换成N个时域样本。向下箭头代表在一个子带内具有N/4个样本并且把它们变换成N/8个MDCT系数的MDCT。每个方块代表一个子带。每个矩形代表N/2个MDCT系数。如下步骤表示在图14中：

(a)在每个子带，M_i个先前样本被缓存，并且与当前M_i个样本相级联，以产生用于每个子带的(2*M_i)个新样本2828；

(b)在每个子带，(2*M_i)个子带样本乘以(2*M_i)点窗口函数2706(图5a-5c)；

(c)(2*M_i)点变换(由向下箭头2826代表)被施加以产生用于每个子带的M_i个变换系数；

(d)用于每个子带的M_i个变换系数被级联，以形成N/2个系数的单一组2824；

(e)N点逆变换(由向下箭头2822代表)施加到级联系数上以产生N个样本；

(f)N个样本2704的每个帧乘以N样本窗口函数2706，以产生N个加窗样本2708；

(g)生成的加窗样本2708被重叠添加，以在给定子带水平下产生N/2个新输出样本；

(h)以上步骤在当前水平和以后水平下被重复，直到所有子带已经被处理，并且原始时间样本2840被重建。

逆分级滤波器组：均匀间隔子带

图15表示与在图7中表示的前向滤波器组兼容的逆分级滤波器组4000的典型实施例的方块图。译码输出信号4016的合成在下面更详细地描述：

1.每个输入帧4002在P个子带的每个中包含M个时间样本。

2.缓存每个子带4004，在M个新样本中移动，施加(2*M)点窗口，50％重叠-添加(OLA)4006以产生M个子带样本。

3.在每个子带内进行(2*M)点MDCT 4008，以在P个子带的每个中形成M个MDCT系数。

4.生成MDCT系数被分组，以形成(N/2)个MDCT系数的单个帧4010。

5.对每个帧进行N点IMDCT。

6.IMDCT输出在N点、50％重叠帧中加窗，并且重叠添加4014以形成N/2个新输出样本4016。

在典型实施中，N＝256、P＝32、及M＝4。注意，不同变换尺寸和对于N、P、及M由不同选择代表的子带分组也可用来实现希望的时间/频率分解。

逆分级滤波器组：非均匀间隔子带

逆分级滤波器组的另一个实施例表示在图17a-b中，该逆分级滤波器组与在图8a-b中表示的滤波器组相兼容。在这个实施例中，详细滤波器组元件的一些是不完整的以产生具有三个不同频率范围的变换，在每个范围中使变换系数代表不同的频率分辨率。如下描述来自这些变换系数的时域信号的重建：

在这种情况下，第一合成元件3110省去缓存3122、加窗3124、及图17b中表示的详细元件的MDCT 3126的步骤。相反，输入3102形成单一系数集，这些系数被逆变换3130以产生256个时间样本，该256个时间样本被加窗3132，并且与以前帧重叠-添加3134以产生用于这级的128个新时间样本的输出3136。

第一元件3110的输出和96个系数3106输入到第二元件3112，并且如图17b中所示组合以产生用于输入到分级滤波器组的第三元件3114的128个时间样本。在图17a中的第二元件3112和第三元件3114实施图17b的充分详细元件，级联成产生从滤波器组3116输出的128个新时间样本。注意，缓冲器和变换尺寸只作为例子提供，并且可以使用其它大小。特别要注意，在到详细元件的输入处的缓存3122可以变化以容纳不同的输入大小，取决于它用在一般滤波器组的层级中的何处。

现在将详细描述关于译码器块的进一步细节。

位流分析器600

位流分析器600从位流读取IFF块信息，并且把该信息的元素传到适当译码器-音调译码器601或残余译码器602。可能位流在到达译码器之前可能已经被缩放。依据采用的缩放方法，在块端部处的心理声学数据元素由于丢失位可能是无效的。音调译码器601和残余译码器602适当地忽略在块端部处发现的无效数据。对于音调译码器601和残余译码器602忽略全部心理声学数据元素的替换例，当元素的位丢失时，通过从存在的位中读取并在剩余丢失位中填充零、基于以前心理声学数据元素的随机图案或图案，使这些译码器尽可能多地恢复元素。尽管计算强度较大，但基于以前心理声学数据元素的数据的使用是优选的，因为生成译码音频可更接近地匹配原始音频信号。

音调译码器601

由位流分析器600求出的音调信息经音调译码器601处理。使用前述的分级滤波器组进行音调分量的重新-合成。可选择地，可使用逆快速傅里叶变换，该变换的大小是与用来在译码器抽取音调分量的最小变换尺寸相同的大小。

对于音调译码进行如下步骤：

a)用零值初始化频域子帧

b)把来自最小变换尺寸的音调分量的所要求部分重新合成成频域子帧

c)在所要求位置处把来自其它四个变换尺寸的音调分量重新合成并添加到相同子帧中。这些其它四个变换尺寸的重新合成可按任何顺序发生。

音调译码器601译码每个变换尺寸分组的如下值：量化振幅、量化相位、用于分组的距离先前音调分量的谱距离、及分量在全帧内的位置。对于多通道信号，次级信息被存储作为与初级通道值的差别，并且需要通过把从位流得到的值添加到为初级通道得到的值上被恢复到绝对值。对于多通道信号，音调分量的每-通道“存在”也由从位流译码的位掩码3602提供。对于次级通道的进一步处理独立于初级通道进行。如果音调译码器601不能够完全获得块重建音调必需的元素，则丢弃该音调元素。使用用来量化编码器中的值的表格的逆而去量化被量化的振幅。使用用来量化在编码器中的相位的线性量化的逆而去量化被量化的相位。通过把从位流得到的差值添加到以前译码值上确定绝对频谱位置。定义Amplitude(振幅)是去量化振幅的、Phase(相位)是去量化相位、及Freq是绝对频率位置，如下伪-代码描述最小变换尺寸的音调分量的重新合成：

Re[Freq] +＝Amplitude*sin(2*Pi*Phase/8)；

Im[Freq] +＝Amplitude*cos(2*Pi*Phase/8)；

Re[Freq+1] +＝Amplitude*sin(2*Pi*Phase/8)；

Im[Freq+1] +＝Amplitude*cos(2*Pi*Phase/8)；

较长基函数的重新合成在较多子帧上展开，因此振幅值和相位值需要根据基函数的频率和长度被更新。如下伪代码描述这如何进行：

xFreq＝Freq＞＞(Group-1)；

CurrentPhase＝Phase-2*(2*xFreq+1)；

For(i＝0；i＜length；i＝i+1)

{

CurrentPhase+＝2*(2*Freq+1)/length；

CurrentAmplitude＝Amplitude*Envelope[Group][i]；

Re[i][xFreq]+＝CurrentAmplitude*sin(2*Pi*Phase/8)；

Im[i][xFreq]+＝CurrentAmplitude*cos(2*Pi*Phase/8)；

Re[i][xFreq+1]+＝CurrentAmplitude*sin(2*Pi*Phase/8)；

Im[i][xFreq+1]+＝CurrentAmplitude*cos(2*Pi*Phase/8)；

}

其中：Amplitude、Freq及Phase与以前定义相同。

Group是代表基函数变换尺寸的数，1用于最小变换并且5用于最大。

length是用于Group的子帧，并且由如下给定：

length＝2^(Group-1)。

＞＞是右移算子。

CurrentAmplitude和CurrentPhase对于下一个子帧被存储。

Envelope[Group][i]是用于每个组的适当长度(length)的三角形包，在任一端处是零值并且在中部中是1值。

经上述方法在最大三个变换尺寸中的较低频率的重新合成，引起输出音频中的可听到失真，因此如下基于经验的校正应用于在组3、4、及5中比60小的谱线：

xFreq＝Freq＞＞(Group-1)；

CurrentPhase＝Phase-2*(2*xFreq+1)；

f_dlt＝Freq-(xFreq＜＜(Group-1))；

for(i＝0；i＜length；i＝i+1)

{

CurrentPhase+＝2*(2*Freq+1)/length；

CurrentAmplitude＝Amplitude*Envelope[Group][i]；

Re_Amp＝CurrentAmplitude*sin(2*Pi*Phase/8)；

Im_Amp＝CurrentAmplitude*cos(2*Pi*Phase/8)；

a0＝Re_Amp*CorrCf[f_dlt][0]；

b0＝Im_Amp*CorrCf[f_dlt][0]；

a1＝Re_Amp*CorrCf[f_dlt][1]；

b1＝Im_Amp*CorrCf[f_dlt][1]；

a2＝Re_Amp*CorrCf[f_dlt][2]；

b2＝Im_Amp*CorrCf[f_dlt][2]；

a3＝Re_Amp*CorrCf[f_dlt][3]；

b3＝Im_Amp*CorrCf[f_dlt][3]；

a4＝Re_Amp*CorrCf[f_dlt][4]；

b4＝Im_Amp*CorrCf[f_dlt][4]；

Re[i][abs(xFreq-2)]-＝a4；

Im[i][abs(xFreq-2)]-＝b4；

Re[i][abs(xFreq-1)]+＝ (a3-a0)；

Im[i][abs(xFreq-1)]+＝ (b3-b0)；

Re[i][xFreq] +＝ Re_Amp-a2-a3；

Im[i][xFreq] +＝ Im_Amp-b2-b3；

Re[i][xFreq+1] +＝ a1+a4-Re_Amp；

Im[i][xFreq+1] +＝ b1+b4-Im_Amp；

Re[i][xFreq+2] +＝ a0-a1；

Re[i][xFreq+3] +＝ a2；

Im[i][xFreq+3] +＝ a2；

}

其中：Amplitude、Freq、Phase、Envelope[Group][i]、Group及length都如以前定义的那样。

CorrCf由表格2(图20)给出。

abs(val)是返回val的绝对值的函数。

由于位流不包含关于编码音调分量的数量的任何信息，所以译码器仅读取用于每个变换尺寸的音调数据，直到它用光用于该大小的数据。因而，外部装置从位流除去的音调分量对于译码器处置仍包含在位流中的数据的能力没有影响。从位流除去元素仅把音频质量降低所除去数据分量的量。音调块也可被除去，在这种情况下，译码器对于该变换尺寸不进行音调分量的任何重建工作。

逆频率变换604

逆频率变换604是用来在编码器中创建频域表示的逆变换。当前实施例采用以上描述的逆分级滤波器组。可替换地，逆FFT是被用来抽取编码器的音调的最小FFT的逆变换，如果在译码时使用重叠FFT。

残余译码器602

残余译码器602的详细方块图表示在图18中。位流分析器600在线610上把G1个元素从位流传递到网格译码器702。网格译码器702译码G1以创建G0，其为32个频率子带乘64个时间间隔。位流包含量化G1值和在这些值之间的距离。来自位流的G1值使用与用来去量化音调分量振幅的相同的去量化表格被去量化。在来自位流的值之间的线性内插得到用于每个G1子带的8个最后G1振幅。G1的子带0和1被初始化为零，当在位流中找到用于这两个子带的子带信息时，零值被替换。这些振幅然后使用从图19中的表格1得到的映像权重1900加权成重新创建的G0网格。用于G0的一般公式由如下给出：

其中：m是子带号

W是来自表格1的项

n是G0列号

k跨过11个G1子带

去量化器700

由位流分析器600求出的时间样本在去量化器700中被去量化。去量化器700使用编码器的逆过程去量化来自位流的时间样本。来自子带零的时间样本被去量化到16个水平，子带1和2到8个水平，子带11至25到三个水平，及子带26至31到2个水平。任何丢失或无效时间样本用具有白噪音频谱能量分布的在-1至1的范围中的伪随机系列值替换。这改进缩放位流音频质量，因为这样一系列值具有比用零值替换更接近模拟原始信号的特性。

通道多路分解器701

在位流中的次级通道信息依据在位流中设置的标志，被存储作为一些子带与初级通道的差别。对于这些子带，通道多路分解器701从初级通道中的值以及位流中的差值恢复次级通道中的值。如果次级通道信息遗失该位流，则通过把初级通道信息复制到次级通道并使用立体声网格可从初级通道粗略地恢复次级通道信息，这在以后讨论。

通道重建706

当在位流中找不到次级通道信息(时间样本)时，立体声重建706应用于次级通道。网格译码器702重建的立体声网格被应用于通过复制初级通道时间样本信息而恢复的次级时间样本，以保持通道之间的原始立体声功率比值。

多通道重建

当在位流中不存在用于次级通道的次级信息(时间样本或网格)时，多通道重建706应用于次级通道。过程与立体声重建706类似，不同之处在于，由网格译码器702重建的部分网格应用于在每个通道组内、通过复制初级通道时间样本信息恢复的次级通道的时间样本，以保持在次级通道中的适当功率水平。部分网格分别应用于重建通道组中的每个次级通道，接着在缩放步骤703中由包括网格G0的其它缩放因子网格缩放，其中把网格G的时间样本乘以用于每个次级通道的部分网格的对应元素。部分网格网格G0可以按与本发明一致的任何顺序被施加。

尽管已经表示和描述了本发明的几个说明性实施例，但对于本领域的技术人员将想到多种变更和可选择实施例。这样的变更和可选择实施例被预料到，并且可进行而不脱离在附属权利要求书中所定义的本发明的精神和范围。

Claims

1.一种编码输入信号的方法，包括：

使用分级滤波器组(HFB)(2101a、...2101e)把输入信号(100)分解成多分辨率时间/频率表示；

在多重频率分辨率下从所述时间/频率表示抽取音调分量(2109)；

从所述时间/频率表示抽取残余分量(2117、2118、2119)；

基于分量对于译码信号质量的相对贡献排序所述分量(103、107、109)；

量化并编码所述分量(102、107、108)；及

消除足够数量的最低排序编码分量(115)，以形成具有小于或近似等于希望数据速率的数据速率的缩放位流(116)。

2.根据权利要求1所述的方法，其中，通过在不同频率分辨率下首先把音调分量分组成至少一个频率子域(903、904、905、906、907)并且在不同的时间缩放和/或频率分辨率下把残余分量分组成至少一个残余子域(908、909、910)、基于子域对于译码信号质量的相对贡献排序子域及基于分量对于译码信号质量的相对贡献排序每个子域内的分量，来排序所述分量。

3.根据权利要求2所述的方法，还包括：

形成主位流(126)，在该主位流中，子域和在每个子域内的分量是基于它们的排序而排列(109)，通过从最低排序子域中的最低排序分量开始并且依次消除分量而消除所述低排序分量，直到实现所述希望数据速率(115)。

4.根据权利要求1所述的方法，还包括：

形成主位流(126)，其包括排序的量化分量(109)，其中通过消除足够数量的低排序分量来缩放主位流以形成缩放位流(115)。

5.根据权利要求4所述的方法，其中，在具有所述希望数据速率作为约束条件的通道上记录或传输所述缩放位流(116)。

6.根据权利要求5所述的方法，其中，所述缩放位流(116)是多个缩放位流之一，并且独立地控制每个各个位流的数据速率，其中约束条件是各个数据速率之和必须不超过最大总数据速率，在所有位流上根据译码信号质量实时地动态控制每个所述数据速率。

7.根据权利要求1所述的方法，其中，从输入信号与音调分量之间的残余信号(113)导出残余分量，从而也从残余信号(2114)除去(2112)所述被消除以形成缩放位流的音调分量。

8.根据权利要求1所述的方法，其中，残余分量包括时间-样本分量(2117)和缩放因子分量(2118、2119)，缩放因子分量(2118、2119)在不同时间缩放和/或频率分辨率下修改时间-样本分量。

9.根据权利要求8所述的方法，其中，时间-样本分量由网格G代表(2117)，并且缩放因子分量包括在多个时间缩放和频率分辨率下的一系列一个或多个网格G0、G1(2118、2119)，其通过在时间/频率平面中把网格G除以G0、G1的网格元素而应用于时间-样本分量，每个网格G0、G1具有不同数量的时间或频率缩放因子。

10.根据权利要求8所述的方法，其中，通过把两维变换应用于缩放因子分量并量化变换系数，来编码缩放因子(107)。

11.根据权利要求10所述的方法，其中，所述变换是两维离散余弦变换。

12.根据权利要求1所述的方法，其中，HFB在依次迭代中在依次的较低频率分辨率水平下把输入信号分解成变换系数，其中通过如下操作抽取所述音调和残余分量：

在每次迭代从变换系数抽取音调分量(2109)，量化(2110)并存储抽取的音调分量在音调清单中(2106)；

从输入信号除去音调分量(2111、2112)，以把残余信号(2114)传到HFB的下次迭代；及

把具有相比HFB的最后迭代更低的频率分辨率的最后逆变换(2115)应用于残余信号(113)，以抽取残余分量(2117)。

13.根据权利要求12所述的方法，还包括：

在最后迭代之后从音调清单除去一些音调分量(114)；和

局部译码并逆量化(104)除去的量化音调分量(114)，并把它们与最后迭代处的残余信号(111)相组合(105)。

14.根据权利要求13所述的方法，其中，至少一些从清单除去的相对较强音调分量不被局部译码和重组。

15.根据权利要求12所述的方法，其中，在每个频率分辨率下的音调分量由如下操作抽取(2109)：

通过应用感觉模型辨别所希望的音调分量；

选择感觉最显著的变换系数；

把每个选择变换系数的参数存储为音调分量，所述参数包括振幅、频率、相位、以及对应变换系数在帧中的位置；及

量化并编码(2110)每个音调分量的参数到音调清单中以用于插入到位流中。

16.根据权利要求12所述的方法，其中，残余分量包括表示为网格G(2117)的时间-样本分量，残余分量的抽取还包括：

建造不同时间/频率分辨率的一个或多个缩放-因子网格(2118、2119)，该缩放-因子网格的元素代表在时间/频率区域中的最大信号值或信号能量；

把时间-样本网格G除以缩放-因子网格的对应元素，以产生缩放时间样本网格G(2120)；及

量化并编码缩放时间-样本网格G(2122)和缩放-因子网格(2121)以便插入到编码位流中。

17.根据权利要求1所述的方法，其中，输入信号被分解，并且通过如下操作抽取音调和残余分量，

(a)把输入信号的样本缓存到N个样本的帧中(2900)；

(b)把每个帧中的N个样本乘以N-样本窗口函数(2900)；

(c)施加N-点变换以产生N/2个原始变换系数(2902)；

(d)从N/2个原始变换系数抽取音调分量(2109)，量化(2110)抽取的音调分量及把其存储在音调清单中(2106)；

(e)通过逆量化减去音调分量，并且从原始变换系数减去生成的音调变换系数(2112)，以给出N/2个残余变换系数；

(f)把N/2个残余变换系数划分成P组M_i个系数(2906)，从而M_i个系数之和是N/2(

Σ_{i = 1}^{P} M_{i} = N / 2;

)

(g)对P组的每一个，把(2*M_i)点逆变换施加到残余变换系数，以从每个组产生(2*M_i)子带样本(2906)；

(h)在每个子带，把2*M_i子带样本乘以2*M_i点窗口函数(2908)；

(i)在每个子带，与M_i个先前样本重叠并且添加对应值，以对每个子带产生M_i新样本(2910)；

(j)使用依次的较小变换尺寸N对M_i新样本的一个或多个子带重复步骤(a)-(i)(2912)，直到获得希望的时间/变换分辨率(2914)；及

(k)在最后迭代为每个子带输出把具有较低频率分辨率N的最后逆变换(2115)施加到M_i个新样本，以产生子带的网格G中的时间样本的子带和每个子带中的多重时间样本。

18.根据权利要求1所述的方法，其中，输入信号是多通道输入信号，每个所述音调分量通过形成所述通道的组被联合编码以及对于每个所述组，

选择初级通道和至少一个次级通道，该初级通道和次级通道通过位掩码(3602)辨别，位掩码的每个位辨别次级通道的存在，

量化并编码初级通道(102、108)；及

量化并编码初级与每个次级通道之间的差(102、108)。

19.根据权利要求18所述的方法，其中，基于指示哪种模式提供译码输出信号中的希望数据速率的最小感觉失真的度量，选择用于编码每个通道组的联合通道模式。

20.根据权利要求1所述的方法，其中，输入信号是多通道信号，还包括：

从每个通道的输入信号减去抽取的音调分量，以形成残余信号(2109a、...2109e)；

把残余信号的通道形成由感觉标准和编码效率所确定的组(3702)；

确定用于每个所述残余信号组的初级和次级通道(3704)；

计算部分网格(508)，以编码每个残余信号组中配对的每个初级/次级通道之间的相对空间信息(502)；

量化并编码每个组中的初级通道的残余分量作为相应网格G(2210a)；

量化并编码所述部分网格以减小所述要求的数据速率(2110a)；及

把编码的部分网格和每组的网格G插入到缩放位流中(3706)。

21.根据权利要求20所述的方法，其中，次级通道由一个或多个通道的线性组合而建造(3704)。

22.一种编码音频输入信号的方法，包括：

把音频输入信号(100)分解成多分辨率时间/频率表示(2101a、...2101e)；

在每个频率分辨率下抽取音调分量(2109)；

从时间/频率表示中除去音调分量(2111、2112)以形成残余信号(113)；

从残余信号抽取残余分量(2117、2118、2119)；

把音调分量分组成至少一个频率子域(903、904、905、906、907)；

把残余分量分组成至少一个残余子域(908、909、910)；

基于心理声学重要性排序子域(103、107、109)；

基于心理声学重要性排序每个子域内的分量(103、107、109)；

量化并编码每个子域内的分量(102、107、108)；以及

从最低排序子域开始消除足够数量的低排序分量(115)，以形成具有小于或近似等于希望数据速率的数据速率的缩放位流(116)。

23.根据权利要求22所述的方法，其中，在不同频率分辨率下把音调分量分组成多个频率子域(903、904、905、906、907)，并且所述残余分量包括在不同频率和/或时间分辨率下分组成多个残余子域(908、909、910)的网格。

24.根据权利要求22所述的方法，还包括：

形成主位流(126)，在该主位流中，子域和在每个子域内的分量基于它们的排序而排列，通过从最低排序子域中的最低排序分量开始并且按顺序消除分量而消除所述低排序分量(115)，直到实现所述希望数据速率。

25.一种用来编码输入音频信号和形成可缩放位流的可缩放位流编码器，包括：

分级滤波器组(HFB)(2100)，它在依次的较低频率分辨率下把输入音频信号分解成变换系数(2108)，并且在依次迭代中在依次较精细时间缩放下分解回时域子带样本(2114)；

音调编码器(102)，(a)在每次迭代处从变换系数抽取音调分量(2109)，量化(2110)它们及把它们存储在音调清单中(2106)，(b)从输入音频信号除去音调分量(2111、2112)，以把残余信号(2114b)传到HFB的下次迭代，及(c)基于所有抽取音调分量对于译码信号质量的相对贡献而排序它们；

残余编码器(107)，它把具有比HFB(2101e)的最后迭代更低的频率分辨率的最后逆变换(2115)应用于最后残余信号(113)以抽取残余分量(2117、2118、2119)，并且基于残余分量对于译码信号质量的相对贡献排序它们；

位流格式化器(109)，它逐帧地组合音调和残余分量，以形成主位流(126)；及

缩放器(115)，它从主位流的每个帧消除足够数量的最低排序编码分量，以形成具有小于或近似等于希望数据速率的数据速率的缩放位流(116)。

26.根据权利要求25所述的编码器，其中，音调编码器在不同频率分辨率下把音调分量分组成频率子域(903、904、905、906、907)并且排序每个子域的分量，残余编码器组在不同的时间缩放和/或频率分辨率下把残余分量分组成残余子域(908、909、910)并且排序每个子域的分量，及所述位流格式化器基于子域对于译码信号质量的相对贡献排序子域。

27.根据权利要求26所述的编码器，其中，位流格式化器基于子域和在每个子域内的分量的排序而排列它们，所述缩放器(115)通过从最低排序子域中的最低排序分量开始并按顺序消除分量而消除所述低排序分量，直到实现希望数据速率。

28.根据权利要求25所述的编码器，其中，输入音频信号是多通道输入音频信号，所述音调编码器通过形成所述通道组而联合编码每个所述音调分量以及对于每个所述组，

选择初级通道和至少一个次级通道，该初级通道和至少一个次级通道通过位掩码(3602)被辨别，位掩码的每个位辨别次级通道的存在；

量化并编码初级通道(102、108)；及

量化并编码在初级与每个次级通道之间的差(102、108)。

29.根据权利要求25所述的编码器，其中，输入信号是多通道音频信号，所述残余编码器，

把残余信号的通道形成由感觉标准和编码效率确定的组(3702)；

确定每个所述残余信号组的初级和次级通道(3704)；

量化并编码所述部分网格以减小所要求的数据速率(2110a)；及

把编码的部分网格和每组的网格G插入到缩放位流中(3706)。

30.根据权利要求25所述的编码器，其中，残余编码器在多个时间缩放和频率分辨率下抽取由网格G(2117)代表的时间-样本分量和一系列一个或多个缩放因子网格G0、G1(2118、2119)，其通过在时间/频率平面中把网格G除以G0、G1的网格元素而应用于时间-样本分量(2120)，每个网格G0、G1具有不同数量的时间和/或频率缩放因子。

31.一种由编码位流重建时域输出信号的方法，包括：

接收具有给定范围内的预定数据速率的缩放位流(599)作为帧序列，每个帧包含如下的至少一个：(a)代表输入信号的不同频率分辨率下的频域内容的多个量化音调分量(2407)、b)代表从重建音调分量与输入信号之差形成的时域残余的量化残余时间-样本分量(2403)、及c)代表残余信号的信号能量的缩放因子网格(2404)，该信号能量至少部分跨过输入信号的频率范围；

接收对于每个帧的关于量化分量和/或网格在频率范围内的位置信息(599)；

把缩放位流的帧解析成分量和网格(600)；

译码任何音调分量以形成变换系数(2408)；

译码任何时间-样本分量和任何网格(2401-2405)；

把时间-样本分量乘以网格元素以形成时域样本(2406)；及

把逆分级滤波器组(2400)应用于变换系数(2407)和时域样本(4002)以重建时域输出信号(614)。

32.根据权利要求31所述的方法，其中时域样本通过如下操作形成：

把位流解析成缩放因子网格G1(2404)和时间样本分量(2403)；

译码并逆量化网格G1缩放因子网格，以产生G0缩放因子网格(2405)；以及

译码并逆量化时间样本分量，把这些时间样本值乘以G0缩放因子网格(2406)，以产生重建的时间样本(4002)。

33.根据权利要求32所述的方法，其中，信号是残余通道已经被分组和编码的多通道信号，每个所述帧也包含d)代表在通道组内的残余信号通道的信号能量比值的部分网格，还包括：

把位流分析成部分网格(508)；

译码并逆量化(2401)部分网格；及

把重建时间-样本乘以施加到通道组中的每个次级通道上的部分网格(508)，以产生重建时域样本。

34.根据权利要求31所述的方法，其中，输入信号是多通道，其中音调分量组包含一个初级和一个或多个次级通道，每个所述帧也包含e)与每组中的初级通道有关的位掩码，在该位掩码中，每个位辨别已经与初级通道联合编码的次级通道的存在，

把位流分析成位掩码(3602)；

译码每个组中的初级通道的音调分量(601)；

译码每个组中的联合编码音调分量；

对每个组，使用位掩码从初级通道的音调分量和联合编码音调分量的音调分量重建每个所述次级通道的音调分量(601)。

35.根据权利要求34所述的方法，其中，通过译码被熵-编码并为存在音调分量的每个次级通道存储的振幅及相位之间、初级和次级频率之间的差别信息，来译码次级通道音调分量。

36.根据权利要求31所述的方法，其中，逆分级滤波器组(2400)重建输出信号(614)，其通过把时域样本(4002)变换成残余变换系数(2411)、把它们与用于低频率分辨率下的音调分量集(2407)的变换系数(2409)相组合(2412)及逆变换(2413)组合的变换系数以形成部分重建输出信号(2415)，并且用下一最高频率分辨率下的另一音调分量集的变换系数在该部分重建输出信号上重复所述步骤，直到重建输出信号(614)。

37.根据权利要求36所述的方法，其中，时域样本表示为子带，所述逆分级滤波器组通过如下操作重建时域输出信号：

a)加窗在输入帧的每个时域子带中的信号，以形成加窗时域子带(2410)；

b)把时域到频域变换应用于每个加窗时域子带以形成变换系数(2411)；

c)级联所生成的变换系数以形成较大集的残余变换系数(2411)；

d)由音调分量集合成变换系数(2409)；

e)把由音调和时域分量重建的变换系数组合成单个组合变换系数集(2412)；

f)把逆变换应用于组合变换系数(2413)，加窗及重叠添加(2414)先前的帧，以重建部分重建时域信号(2415)；及

g)对于部分重建时域信号使用下个音调分量集施加依次迭代步骤(a)至(f)(2407)，直到重建时域输出信号(614)。

38.根据权利要求36所述的方法，其中每个输入帧在P个子带的每一个中包含M_i个时间样本，所述逆分级滤波器进行如下步骤：

(a)在每个子带i中，缓存M_i个先前样本并且把M_i个先前样本与当前M_i个样本级联以产生2*M_i新样本(4004)；

(b)在每个子带i中，把2*M_i子带样本乘以2*M_i点窗口函数(4006)；

(c)把(2*M_i)点变换应用于子带样本，以产生每个子带i的M_i变换系数(4008)；

(d)级联每个子带i的M_i变换系数以形成N/2个系数的单集(4010)；

(e)合成来自译码和逆量化的音调分量集的音调变换系数，并且把它们与以前步骤的级联系数相组合以形成单个组合级联系数集(2407、2408、2409、2412)；

(f)把N-点逆变换应用于组合级联系数以产生N个样本(4012)；

(g)把每帧的N个样本的乘以N-样本窗口函数以产生N个加窗样本(4014)；

(h)重叠添加所生成的加窗样本(4014)以产生在给定子带水平下的N/2个新输出样本作为部分重建输出信号(4016)；及

(i)使用下个音调分量集对N/2新输出样本重复步骤(a)-(h)(2407)，直到已经处理所有子带并重建N个原始时间样本作为输出信号(614)。

39.一种用来由编码位流重建时域输出音频信号的译码器，包括：

位流分析器(600)，用来把缩放位流的每个帧解析成其音频分量，每个帧包含如下的至少一个(a)代表在输入信号的不同频率分辨率下的频域内容的多个量化的音调分量、b)代表由重建音调分量与输入信号之差形成的时域残余的量化残余时间-样本分量、及c)代表残余信号的信号能量的缩放因子网格；

残余译码器(602)，用来译码任何时间-样本分量和任何网格以重建时间样本；

音调译码器(601)，用来译码任何音调分量以形成变换系数；及

逆分级滤波器组(2400)，用于重建输出信号，其中通过把时间样本变换成残余变换系数、把它们与低频率分辨率下的音调分量集的变换系数相组合及逆变换组合的变换系数以形成部分重建输出信号，用下一最高频率分辨率下的另一个音调分量集的变换系数在所述部分重建输出信号上重复所述步骤，直到重建输出音频信号。

40.根据权利要求39所述的译码器，其中，每个输入帧在P个子带的每一个中包含M_i个时间样本，所述逆分级滤波器进行如下步骤：

(a)在每个子带i中，缓存M_i个先前样本并且把M_i个先前样本与当前M_i个样本级联以产生2*M_i个新样本(4004)；

(b)在每个子带i中，把2*M_i个子带样本乘以2*M_i点窗口函数(4006)；

(c)把(2*M_i)-点变换应用于子带样本，以产生每个子带i的M_i个残余变换系数(4008)；

(d)级联用于每个子带i的M_i个残余变换系数以形成N/2个系数的单集(4010)；

(e)合成来自译码和逆量化的音调分量集的音调变换系数，并且把它们与级联残余变换系数相组合以形成单个组合级联系数集(2407、2408、2409、2412)；

(f)把N-点逆变换应用于组合级联系数以产生N个样本(4012)；

(g)把每一帧的N个样本乘以N-样本窗口函数以产生N个加窗样本(4014)；

(h)重叠添加所生成的加窗样本(4014)以产生给定子带水平下的N/2个新输出样本作为部分重建输出信号(4016)；及

(i)使用下个音调分量集对N/2个新输出样本重复步骤(a)-(h)(2407)，直到已经处理所有子带并重建N个原始时间样本作为输出信号(614)。

41.一种分级滤波输入信号以实现几乎任意时间/频率分解的方法，包括步骤：

(a)把输入信号的样本缓存到N个样本的帧中(2900)；

(b)把每个帧中的N个样本乘以N-样本窗口函数(2900)；

(c)施加N-点变换以产生N/2个变换系数(2902)；

(d)把N/2个残余变换系数划分成P组的M_i个系数(2906)，从而M_i系数之和是N/2(

Σ_{i = 1}^{P} M_{i} =N/2;

)

(e)对于P组的每一个，把(2*M_i)-点逆变换施加到变换系数上以从每组产生(2*M_i)子带样本(2906)；

(f)在每个子带i中，把(2*M_i)子带样本乘以(2*M_i)-点窗口函数；(2908)

(g)在每个子带i中，与M_i个先前样本重叠并且添加对应值，以对于每个子带产生M_i个新样本(2910)；及

(h)使用依次更小的变换尺寸N对M_i个新样本的一个或多个子带重复步骤(a)-(g)(2912)，直到获得所希望的时间/变换分辨率(2914)。

42.根据权利要求41所述的方法，其中，变换是MDCT变换。

43.根据权利要求41所述的方法，其中，对M_i的所有子带重复步骤(a)-(g)。

44.根据权利要求41所述的方法，其中，只对M_i的低频率子带的限定集重复步骤(a)-(g)。

45.一种分级重建输入信号的时间样本的方法，其中每个输入帧在P个子带的每一个中包含M_i个时间样本，包括如下步骤：

(c)把(2*M_i)-点变换应用于加窗子带样本，以产生用于子带i的M_i个残余变换系数(4008)；

(d)级联用于每个子带i的M_i残余变换系数以形成N/2个系数的单集(4010)；

(e)把N-点逆变换应用于级联系数以产生N个样本的帧(4012)；

(f)把每一帧的N个样本乘以N-样本窗口函数以产生N个加窗样本(4014)；

(g)重叠添加所生成的加窗样本(4014)以产生给定子带水平下的N/2个新输出样本(4016)；及

重复步骤(a)-(h)，直到已经处理所有子带并重建N个原始时间样本。