CN103477387A

CN103477387A - 使用频谱域噪声整形的基于线性预测的编码方案

Info

Publication number: CN103477387A
Application number: CN2012800182653A
Authority: CN
Inventors: 戈兰·马尔科维奇; 纪尧姆·福奇斯; 尼古劳斯·雷特尔巴赫; 克里斯蒂安·赫尔姆里希; 本杰明·苏伯特
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2011-02-14
Filing date: 2012-02-14
Publication date: 2013-12-25
Anticipated expiration: 2032-02-14
Also published as: PL2676266T3; AU2012217156A1; SG192748A1; KR101617816B1; US20130332153A1; JP5625126B2; TW201246189A; BR112013020587B1; WO2012110476A1; JP2014510306A; BR112013020592B1; MX2013009346A; AR085794A1; ZA201306840B; AU2012217156B2; EP2676266B1; ES2534972T3; EP2676266A1; BR112013020592A2; RU2013142133A

Abstract

一种基于线性预测并使用频谱域噪声整形的编码概念，通过利用将音频输入信号分解成包括频谱序列的谱图的频谱分解，来用于线性预测系数计算以及基于线性预测系数的频谱域整形两者，得以在例如就比率/失真比而言的相近编码效率下具有较低的复杂性。即使导致混叠并需要时间混叠消除的重叠变换，诸如临界取样的重叠变换（例如MDCT）被用于频谱分解，编码效率也可保持不变。

Description

使用频谱域噪声整形的基于线性预测的编码方案

技术领域

本发明涉及使用诸如从USAC所知的TCX模式这样的频域噪声整形的基于线性预测的音频编译码器。

背景技术

作为相对较新的音频编译码器，USAC最近已经完成。USAC是一种支持在多个编码模式间切换的编译码器，这些编码模式诸如AAC式编码模式、使用线性预测编码的时域编码模式，即ACELP、以及形成中间编码模式的变换编码激励编码，频谱域整形依据该中间编码模式利用经由数据流所发送的线性预测系数被控制。在WO2011147950中，提出通过排除AAC式编码模式的可用性并且将编码模式仅局限于ACELP及TCX而使USAC编码方案更适于低延迟应用。而且，还建议减少帧长度。

然而，最好是能够在减少使用频谱域整形的基于线性预测的编码方案的复杂度的同时，实现近似的编码效率，例如就比率/失真比而言。

发明内容

因此，本发明的目的是提供这样一种使用频谱域整形的基于线性预测的编码方案，允许在类似或甚至增加的编码效率下降低复杂性。

该目的通过审查中的独立权利要求中的主题的来实现。

本发明的基本概念是如果将音频输入信号分解成包括频谱序列的谱图的频谱分解被用于线性预测系数计算以及基于线性预测系数的频谱域整形的输入这两者，则基于线性预测且使用频谱域噪声整形的编码概念在类似编码效率下，例如就比率/失真比而言，得以具有较低的复杂性。

在这一方面，已发现，即使导致混叠并且需要时域混叠消除的、诸如临界取样的重叠（lapped）变换（如MDCT）这样的重叠变换用于频谱分解，编码效率也保持不变。

本发明的方面中有利实现方式是从属权利要求的主题。

附图说明

具体地，本申请的较佳实施方式相关于附图而被描述，其中：

图1示出根据比较例或实施方式的音频编码器的方块图；

图2示出根据本申请的实施方式的音频编码器；

图3示出适合于图2的音频编码器的可实行的音频译码器的方块图；以及

图4示出根据本申请的实施方式的可选音频编码器的方块图。

具体实施方式

为了便于理解在下文中进一步描述的本发明的实施方式的主要方面及优势，首先参照图1，其示出使用频谱域噪声整形的基于线性预测的音频编码器。

具体地，图1的音频编码器包括频谱分解器10，用以将输入音频信号12频谱分解成由频谱序列组成的谱图，如图1中的14所指示。如图1中所示，频谱分解器10可使用MDCT以将输入音频信号10由时域变换到频谱域。具体地，窗口化器16在频谱分解器10的MDCT模块18之前，以窗口化输入音频信号12的互相重叠部分，其窗口化部分在MDCT模块18中单独接受各自的变换以获得谱图14的频谱序列的频谱。然而，频谱分解器10可选地使用任何其他导致混叠的重叠变换，诸如任何其他临界取样的重叠变换。

而且，图1的音频编码器包括线性预测分析器20，用以分析输入音频信号12以由此导出线性预测系数。图1的音频编码器的频谱域整形器22被配置为基于由线性预测分析器20所提供的线性预测系数来对谱图14的频谱序列的当前频谱频谱整形。具体地，频谱域整形器22被配置成通过将来自分析器20的线性预测系数变换成频谱加权值并应用该加权值作为除数以频谱形成或整形该当前频谱，来根据对应于线性预测分析滤波器传送函数的传送函数对进入频谱域整形器22的当前频谱进行频谱整形。整形后的频谱在图1的音频编码器的量化器24中量化。由于频谱域整形器22中的整形，在译码器端对量化频谱进行去整形时所产生的量化噪声被移位而被隐藏，即编码尽可能的是感知透明（perceptually transparent）的。

仅为了完整起见，应指出的是，时间噪声整形模块26可以选择性地使从频谱分解器10转发至频谱域整形器22的频谱接受时间噪声整形，并且低频加重（emphasis）模块28可以在量化24之前适应性地滤波由频谱域整形器22所输出的每个整形后频谱。

量化并频谱整形后的频谱连同关于频谱整形中所使用的线性预测系数的信息被插入到数据流30中，使得在译码端，去整形及去量化可被执行。

除TNS模块26的外，图1中所示的音频编译码器的绝大部分在例如新音频编译码器USAC中、特别是在其TCX模式内被实现及描述。因此，详情请参照示范性的USAC标准，例如[1]。

然而，下文中更着重于描述线性预测分析器20。如图1中所示，线性预测分析器20直接对输入音频信号12进行操作。预加重模块32诸如例如通过FIR滤波而对输入音频信号12预滤波，之后，自相关通过级联（concatenation）窗口化器34、自相关器36及滞后（lag）窗口化器38而被连续导出。窗口化器34从预滤波后的输入音频信号中形成窗口化部分，该窗口化部分可能在时间上互相重叠。自相关器36计算由窗口化器34所输出的每一个窗口化部分的自相关，而滞后窗口化器38被选择性地提供，以对自相关应用滞后窗口函数，以使自相关更加适于下述线性预测参数估计算法。具体地，线性预测参数估计器40接收滞后窗口输出，并对窗口化后的自相关执行例如维纳-列文逊-杜宾或其他适合的算法以导出每个自相关的线性预测系数。在频谱域整形器22内，所产生的线性预测系数通过模块链42、44、46及48传递。模块42负责将关于数据流30内的线性预测系数的信息传送到译码端。如图1中所示，线性预测系数数据流插入器42可被配置为以线谱对或在线谱频域执行线性预测系数的量化，该线性预测系数是由线性预测分析器20所决定的，同时将量化的系数编码到数据流30中且再次将量化的预测值重新变换成LPC系数。可选地，某种内插可被使用，以降低有关线性预测系数的信息在数据流30内输送的更新率。因此，负责使关于进入频谱域整形器22的当前频谱的线性预测系数接受某种加权处理的后续模块44可以访问线性预测系数，因为这些线性预测系数也可在译码端获得，即访问量化的线性预测系数。其后的模块46将加权的线性预测系数变换成频谱权重，该频谱权重接着由频域噪声整形器模块48来应用，以对接收的当前频谱进行频谱整形。

由上述讨论可清楚看出，由分析器20所执行的线性预测分析导致开支（overhead），该开支完全地增加到方块10及22中所执行的频谱分解及频谱域整形上，因此，计算开支是相当大的。

图2示出依据本申请的一个实施方式的音频编码器，该音频编码器提供相当的编码效率，但是编码复杂性降低。

简而言之，在代表本申请的一个实施方式的图2的音频编码器中，图1的线性预测分析器由被串联连接在频谱分解器10与频谱域整形器22之间的级联的自相关计算器50和线性预测系数计算器52所取代。由图1修改成图2的动机及揭示模块50及52的详细功能的数学解释将在下文中提供。然而，显而易见的是，鉴于自相关计算器50涉及的计算与自相关及自相关前的窗口化的一系列计算相比更不复杂，图2的音频编码器的计算开支较图1的音频编码器降低。

在描述图2的实施方式的详细的数学架构之前，图2的音频编码器的结构被简短地描述。具体地，使用参考符号60指示的图2的音频编码器包括用以接收输入音频信号12的输入62及用以输出数据流30的输出64，音频编码器将输入音频信号12编码到数据流30中。频谱分解器10、时间噪声整形器26、频谱域整形器22、低频加重器28及量化器24在输入62与输出64之间以提到的顺序串联连接。时间噪声整形器26及低频加重器28是可选的模块，并且依据可选实施方式可被省略。若存在的话，时间噪声整形器26可被配置成可适应性地启动，即例如，根据输入音频信号的特性，通过时间噪声整形器26所进行的时间噪声整形被启动或停用，决定的结果被经由数据流30被传送至译码端，这将在下文中更加详细地说明。

如图1中所示，图2的频谱域整形器22如同已相关于图1所描述地那样被内部构建。然而，图2的内部结构并不应被理解为关键点且频谱域整形器22的内部结构也可能是与图2中所示的确切结构不同。

图2的线性预测系数计算器52包括串联连接在自相关计算器50与频谱域整形器22之间的滞后窗口化器38及线性预测系数估计器40。应指出的是，滞后窗口化器，举例而言，也是可选的特征。若存在的话，由滞后窗口化器38对由自相关计算器50所提供的个别自相关所应用的窗口可以是高斯或二项分布形状窗口。有关线性预测系数估计器40，应指出的是，其不一定使用维纳-列文逊-杜宾算法。而是可使用不同的算法以计算线性预测系数。

自相关计算器50内部包括一个序列：功率谱计算器54，后接标度扭曲器/频谱加权器56，其后又接反变换器58。模块54至58序列的细节及重要性将在下文中更加详细地加以描述。

为了理解为什么分解器10的频谱分解可共同用于整形器22内的频谱域噪声整形以及线性预测系数计算，应该考虑维纳-辛钦定理，该定理表明自相关可使用DFT来算出：

R_{m} = \frac{1}{N} Σ_{k = 0}^{N - 1} S_{k} e^{\frac{2 πi}{N} km}, m = 0, . . ., N - 1

其中

S_{k} = X_{k} X_{k}^{*}

X_{k} = Σ_{n = 0}^{N - 1} x_{n} e^{- \frac{2 πi}{N} kn}

R_{m} = E (x_{n} x_{n - m}^{*})

k＝0，...，N-1 m＝0，...，N-1

因此，R_m是DFT是X_k时，信号部分x_n的自相关的自相关系数。

因此，若频谱分解器10将使用DFT以实施重叠变换并产生输入音频信号12的频谱序列，则自相关计算器50将能够仅通过遵照上文概述的维纳-辛钦定理在其输出执行较快的自相关计算。

若需要自相关的所有滞后m的值，则频谱分解器10的DFT可使用FFT而被执行，且反FFT可在自相关计算器50内使用，以使用刚才提到的公式由此导出自相关。然而，当仅需要M<<N个滞后时，使用FFT来频谱分解将更迅速，并且直接应用反DFT以获得相关的自相关系数。

当上文提到的DFT被ODFT，即奇频DFT所取代时，也是这样，其中，时间序列x的一般化DFT被定义为：

X_{k}^{odft} = Σ_{n = 0}^{N - 1} x_{n} e^{- \frac{2 πi}{N (k + b) (n + a)}}, k = 0, . . ., N - 1

对ODFT（奇频DFT）设定

\begin{matrix} a = 0 & b = \frac{1}{2} \end{matrix}

然而，若MDCT而非DFT或FFT被用在图2的实施方式中，则情况不同。MDCT包括IV型离散余弦变换且仅揭示实值频谱。也就是说，相位信息因此变换而失去。MDCT可被写作：

X_{k} = Σ_{n = 0}^{2 N - 1} x_{n} \cos [\frac{π}{N} (n + \frac{1}{2} + \frac{N}{2}) (k + \frac{1}{2})], k = 0, . . ., N - 1

其中x_n，n=0...2N-1，定义由窗口化器16所输出的输入音频信号12的当前窗口化部分，X_k相应地是对于此窗口化部分所产生的频谱的第k个频谱系数。

功率谱计算器54依据下式通过求每个变换系数X_k的平方由MDCT的输出来计算功率谱：

S_k=|X_k|²k＝0，...，N-1

由X_k所定义的MDCT频谱与ODFT谱X_k ^ODFT之间的关系可被写成：

X_{k} = Re (X_{k}^{odft}) \cos (θ_{k}) + Im (X_{k}^{odft}) \sin (θ_{k}), k = 0, . . ., N - 1

θ_{k} = \frac{π}{N} (\frac{1}{2} + \frac{N}{2}) (k + \frac{1}{2})

| X_{k} | = | X_{k}^{odft} | | \cos [\arg (X_{k}^{odft}) - θ_{k}] |

这意味着自相关计算器50使用MDCT而非ODFT作为输入来执行MDCT的自相关程序，等效于使用以下的频谱加权由ODFT所获得的自相关：

f_{k}^{mdct} = | \cos [\arg (X_{k}^{odft}) - θ_{k}] |

然而，所决定的自相关的失真对译码端是透明的，因为整形器22内的频谱域整形在与频谱分解器10中完全相同的频谱域、即MDCT中进行。换而言之，由于通过图2的频域噪声整形器48的频域噪声整形被应用在MDCT域中，这实际上意味着当MDCT被ODFT所取代时，频谱加权f_k ^mdct与MDCT的调变互相抵消且产生如图1中所示的传统LPC的相似结果。

因此，在自相关计算器50中，反变换器58执行反ODFT且对称的实数输入的反ODFT等于DCT II型：

X_{k} = Σ_{n = 0}^{N - 1} x_{n} \cos [\frac{π}{N} (n + \frac{1}{2}) k]

因此，由于由反ODFT在反变换器58的输出所决定的自相关仅需要较少的计算步骤，诸如上文所概述的求平方，及功率谱计算器54与反变换器58中的反ODFT，而得到相对较低的计算成本，这允许图2的自相关计算器50中的基于MDCT的LPC的快速计算。

关于标度扭曲器/频谱加权器56的细节还未被描述。具体地，此模块是可选的且可被省略或被频域抽取滤波器（decimator）所取代。关于由模块56所执行的可能的测量的细节在下文中描述。然而，在此之前，关于图2中所示的某些其他组件的某些细节被概述。关于滞后窗口化器38，例如，应指出的是，同样可执行白噪声补偿以改良由估计器40所执行的线性预测系数估计的调节。模块44中所执行的LPC加权是可选的，但是，若存在的话，其可被执行以实现实际的带宽扩展。也就是说，LPC的极点以根据下式的常数因子移向原点，例如，

A^{'} (z) = A (\frac{z}{γ})

因此，所执行的LPC加权接近同步屏蔽。常数γ=0.92或0.85到0.95之间（包括两端值）产生良好结果。

关于模块42，应指出的是，可变比特率编码或某些其他熵编码方案可被使用，以将关于线性预测系数的信息编码到数据流30中。如上文所提到者，量化可在LSP/LSF域中执行，但是ISP/ISF域也是可行的。

关于LPC到MDCT模块46，其将LPC变换成频谱加权值，该频谱加权值在MDCT域情况下，在下文中例如在详细说明此变换提到USAC编译码器时称为MDCT增益。简而言之，LPC系数可接受ODFT，以获得MDCT增益，其倒数则可被使用作权重以通过对各自的频谱带应用所产生的权重对模块48中的频谱整形。例如，16个LPC系数被变换成MDCT增益。当然，在译码器端是用使用非倒数形式的MDCT增益加权，而非使用倒数加权，以获得类似LPC合成滤波器的传送函数，以形成上文所提到的量化噪声。因此，总结起来，在模块46中，FDNS48所使用的增益是使用ODFT由线性预测系数而获得的，且在使用MDCT的情况下称作MDCT增益。

为了完整起见，图3示出可用以由数据流30再次重建音频信号的音频译码器的可能的实现方式。图3的译码器包括可选的低频去加重器80，频谱域去整形器82，同为可选的时间噪声去整形器84，及频谱域到时域变换器86，它们被串联连接在数据流30进入音频译码器的数据流输入88与重建音频信号被输出的音频译码器的输出90之间。低频去加重器从数据流30接收量化且频谱整形后的频谱且对其执行滤波，其是图2的低频加重器的传送函数的反函数。然而，如先前所提到者，去加重器80是可选的。

频谱域去整形器82具有与图2的频谱域整形器22结构非常类似的结构。具体地，内部同样包括级联的LPC提取器（extractor）92、与LPC加权器44等同的LPC加权器94，同样与图2的模块46相同的LPC到MDCT变换器96，及频域噪声整形器98，与图2的FDNS48相反地，频域噪声整形器98通过乘法而非除法对接收（去加重）频谱应用MDCT增益，以获得对应于由LPC提取器92从数据流30所提取的线性预测系数的线性预测合成滤波器的传送函数。LPC提取器92可在对应的量化域诸如LSP/LSF或ISP/ISF中执行上文所提到的再变换，以获得被编码至将被重建的音频信号的连续相互重叠部分的数据流30中的个别频谱的线性预测系数。

时域噪声整形器84反转图2的模块26的滤波，且这些模块的可能实现方式在下文中被更加详细地描述。然而，无论如何，图3的TNS模块84都是可选的，且也可如相关于图2的TNS模块26所提到的被省略。

频谱组合器86内部包括反变换器100，例如对接收的去整形后的频谱个别执行IMDCT，后接混叠消除器，诸如重叠相加相加器102，其被配置成正确地暂时寄存由再变换器100输出的重建窗口版本以在其之间运行时间混叠消除，且在输出90输出重建音频信号。

如上文所提到，由于频谱域整形22依据对应于由在数据流30内传送的LPC系数所定义的LPC分析滤波器的传送函数，例如具有频谱白噪声的量化器24中的量化由频谱域去整形器82在译码端以隐藏于屏蔽阈值下的方式被整形。

在译码器中有实施TNS模块26及其逆转的不同可能性，即模块84。时间噪声整形是用以整形由所提到的频谱域整形器频谱形成个别频谱的时间部分内的时间意义上噪声。在瞬态存在于所指涉当前频谱的各别时间部分内的情况下时间噪声整形是特别有用的。依据特定实施方式，时间噪声整形器26被配置成频谱预测器，其被配置成预测性地滤波由频谱分解器10沿频谱维度所输出的当前频谱或频谱序列。也就是说，频谱预测器26也可决定可插入到数据流30中的预测滤波器系数。这由图2中的虚线示出。结果，时间噪声滤波频谱该频谱维度而被平坦化，且由于频谱域与时域之间的关系，时域噪声去整形器84内的反滤波与数据流30内发送的时域噪声整形预测滤波器一致，去整形导致起音（attack）或瞬态发生时刻的噪声隐藏或压缩。所谓的预回音从而被避免。

换句话说，通过在时域噪声整形器26中预测性地滤波当前频谱，时域噪声整形器26获得频谱提醒项目，即被转发至频谱域整形器22的预测性滤波的频谱，其中对应的预测系数被插入到数据流30中。时域噪声去整形器84转而从频谱域去整形器82接收去整形后的频谱且通过依据从数据流所接收，或从数据流30所提取的预测滤波器来反滤波该频谱而沿频谱域逆转时域滤波。换句话说，时域噪声整形器26使用分析预测滤波器，诸如线性预测滤波器，而时域噪声去整形器84使用基于相同预测系数的对应的合成滤波器。

如先前所提到，音频编码器可被配置成根据滤波器预测增益或音频输入信号12的音调或瞬态特性来决定启动或停用在对应于当前频谱的各自的时间部分的时间噪声整形。同样，关于决定的各别信息被插入到数据流30中。

在下文中，自相关计算器50被配置成如图2中所示，由预测性滤波，即频谱的TNS滤波版本而非未滤波频谱来计算自相关的可能性被讨论。存在两种可能性：TNS被应用、或以一种方式，例如基于待编码的输入音频信号12的特性而被音频编码器选择时，TNS滤波频谱即可被使用。因此，图4的音频编码器与图2的音频编码器不同的处在于自相关计算器50的输入被连接至频谱分解器10的输出以及TNS模块26的输出。

如刚才所述，由频谱分解器10所输出的TNS滤波的MDCT频谱可被用作计算器50内的自相关计算的输入或基础。如刚才所述，当TNS被应用，或音频编码器在使用未滤波频谱或TNS滤波频谱之间可决定TNS应用于频谱时，TNS滤波频谱即可被使用。如上所述，可依音频输入信号的特性做决定。但决筞对于译码器可能是透明的，该译码器仅对频域去整形应用LPC系数信息。另一可能性是音频编码器在TNS所应用的频谱的TNS滤波频谱与非滤波频谱之间切换，即根据频谱分解器10所选择的变换长度在这些频谱的两个选项间做决定。

更准确地说，图4中的分解器10可被配置成在频谱分解音频输入信号时在不同的变换长度之间切换，使得由频谱分解器10所输出的频谱将具有不同的频谱分辨率。也就是说，频谱分解器10例如将使用重叠变换，诸如MDCT，以将不同长度的互相重叠时间部分变换成为变换版本或同样具有不同长度的频谱，其中频谱的变换长度对应于对应的重叠时间部分的长度。在此情况下，若当前频谱的频谱分辨率满足预定条件，则自相关计算器50可被配置成由预测性滤波或TNS滤波的当前频谱来计算自相关，或若当前频谱的频谱分辨率不满足预定条件，则由未预测性滤波，即未滤波的当前频谱来计算自相关。预定条件例如可以是当前频谱的频谱分辨率超过某一阈值。例如，将由TNS模块26所输出的TNS滤波后的频谱使用于自相关计算对于较长帧（时间部分），诸如15ms以上帧是有利的，但是对较短帧（时间部分），例如15ms以下者可能不利，因此，对于较长帧，自相关计算器50的输入可以是TNS滤波的MDCT频谱，而对于较短帧，由分解器10所输出的MDCT频谱可被直接使用。

迄今还未描述哪些感知相关修改可在模块56内的功率谱上执行。现在，各种量测被说明，且其可被个别或组合应用于到目前为止所述的所有实施方式及变形例。具体地，频谱加权可通过模块56应用于由功率谱计算器54所输出的功率谱。频谱加权可以是：

S_{k}^{'} = f_{k}^{2} S_{k}, k = 0, . . ., N - 1

其中S_k是上文所提到的功率谱的系数。

频谱加权可被使用作为用于依据心理声学方面来分配量化噪声的机制。对应于图1的意义的预加重的频谱加权可通过下式来定义：

f_{k}^{smpk} = \sqrt{1 + μ^{2} - 2 μ \cos (\frac{kπ}{N})} .

此外，标度扭曲可在模块56内使用。完整的频谱例如可被分割为对应于样本长度为l₁的帧或时间部分的频谱的M个频带，及对应于样本长度为l₂的帧的时间部分的频谱的2M个频带，其中l₂可以是l₁的两倍，其中l₁可以是64、128或256。具体地，分割可遵照：

E_{m} = Σ_{k = I_{m}}^{I_{m + 1} - 1} S_{k}, m = 0, . . ., M - 1 .

频带分割可包括频率依据下式扭曲成巴克频谱（Bark scale）的近似值：

I_{m} \approx \frac{{NF}_{s}}{2 Bark 2 Freq [m \frac{Freq 2 Bark (\frac{F_{s}}{2})}{M}]},

可选择地，频带可均等分配以形成依据下式的线性标度：

I_{m} = m \frac{N}{M} .

对于长度为例如l₁的帧的频谱，频带数目可能在20到40之间，且对于长度为l₂的帧的频谱，在48到72的间，其中32个频带对应于长度为l₁的帧的频谱，且64个频带对应于长度为l₂的帧的频谱是较佳的。

由可选的模块56选择性执行的频谱加权及频率扭曲可被视为位分配（量化噪声整形）手段。对应于预加重的线性标度中的频谱加权可使用常数μ=0.9或位于0.8到0.95之间的常数来执行，使得对应的预加重将接近对应于巴克标度扭曲。

模块56内的功率谱的修改可包括功率谱的扩展、模型化同步屏蔽，因此取代LPC加权模块44及94。

若线性标度被使用，且对应于预加重的频谱加权被应用，则在译码端，即在图3的音频译码器的输出所获得的图4的音频编码器的结果，在感知上非常类似于依据图1的实施方式所获得的传统的重建结果。

某些听力测试结果已使用上文所确认的实施方式而被执行。当：

˙基于MDCT的LPC分析中的频谱加权对应于传统的LPC分析中的预加重，

˙同样的窗口化被使用在频谱分解内，诸如低重叠正弦窗口，及

˙线性标度被用在基于MDCT的LPC分析中时，

由这些测试，结果证明图1中所示的传统的LPC分析及基于线性标度MDCT的LPC分析产生感知相等结果。

传统的LPC分析与基于线性标度MDCT的LPC分析之间的可忽略差异可能源于LPC被用于量化噪声整形，以及在48kbit/s下有足够的比特位来充分精确地编码MDCT系数。

而且，结果证明在模块56内通过应用标度扭曲而使用巴克标度或非线性标度产生编码效率或听力测试的结果，依据该结果，对于测试音频片段Applause、Fatboy、RockYou、Waiting、bohemian、fuguepremikres、kraftwerk、lesvoleurs、teardrop，巴克标度胜过线性标度。

巴克标度对hockey及linchpin非常失败。在巴克标度中有问题的另一项目是bibilolo，但是因其呈现具有特定频谱结构的实验音乐而并不包括在测试内。某些听众也表示对bibilolo项目的强烈反感。

然而，图2及图4的音频编码器可以在不同的标度的间切换。也就是说，模块56可依音频信号的特性，诸如瞬态特性或音调对不同的频谱应用不同的标度，或使用不同的频率标度来产生多个量化信号和决定哪一量化信号是感知最佳者的量度。结果证明，标度切换在有瞬态，诸如RockYou及linchpin中的瞬态存在下产生与非切换版本（巴克及线性标度）相较的下的改良结果。

应提到的是，上文概述的实施方式可被用作多模式音频编译码器，诸如支持ACELP的编译码器中的TCX模式，且上文概述的实施方式为类TCX模式。在成帧时，恒定长度，诸如20ms的帧可被使用。以此方式，一种USAC编译码器的低延迟版本可被获得而非常高效率。在TNS上，来自AAC-ELD的TNS可被使用。为了减少旁侧信息（side information）所使用的位的数目，滤波器的数目可被固定成两个，一个在600Hz到4500Hz的间运作，且第二个在4500Hz到核心编码器频谱的末端间运作。滤波器可独立地切换成打开及关闭。滤波器可使用部分相关系数以格点（lattice）被应用并发送。滤波器的最大阶数可被设定成8且每个滤波器系数可使用四个比特位。霍夫曼编码可用以减少用于滤波器的阶数的比特位及用于其系数的比特位的数目。

尽管有些方面已就装置而被描述，但是应清楚的是，这些方面还代表对应方法的说明，其中方块或装置对应于方法步骤或方法步骤的特征。类似地，就方法步骤而描述的方面也代表对应装置的对应方块或项目或特征的说明。某些或全部方法步骤可由硬件装置来执行（或使用），像例如微处理器、可编程计算机或电子电路。在某些实施方式中，某一个或多个最重要的方法步骤可由这样的一个装置来执行。

视某些实施要求而定，本发明实施方式可以硬件或以软件来实施。该实施可使用数字储存媒体来执行，例如其上储存有电子可读取控制信号的软盘、DVD、蓝光光盘、CD、ROM、PROM、EPROM、EEPROM或FLASH内存，该电子可读取控制信号与可编程计算机系统协作（或能够与之协作），使得各别方法得以执行。因此，数字储存媒体可以是计算机可读的。

依据本发明的某些实施方式包括具有电子可读取控制信号的数据载体，该电子可读取控制信号能够与可编程计算机系统协作，使得本文所述诸方法中之一得以执行。

一般而言，本发明实施方式可被实施为具有程序代码的计算机程序产品，当该计算机程序产品在计算机上运行时，该程序代码可操作以执行该方法中的一个。该程序代码可以例如储存在机器可读取载体上。

其他实施方式包括储存在机器可读取载体上，用以执行本文所述多个方法之一的计算机程序。

因此，换句话说，本发明方法的实施方式是具有程序代码的计算机程序，当该计算机程序在计算机上运行时，该程序代码用以执行本文所述诸方法中的一个。

因此，本发明方法的另一实施方式是包括记录在其上用以执行本文所述多个方法中的一个的计算机程序的数据载体（或数字储存媒体，或计算机可读取介质）。该数据载体、该数字储存介质或记录介质典型地是有实体的及/或非瞬变的。

因此，本发明方法的又一实施方式是代表用以执行本文所述多个方法中的一个的计算机程序的数据流或信号序列。该数据流或信号序列例如可以被配置成经由数据通讯连接（例如经由因特网）来传送。

另一实施方式包括处理装置，例如计算机，或可编程逻辑装置，其被配置成或适应于执行本文所述多个方法中的一个。

另一实施方式包括安装有用以执行本文所述多个方法中的一个的计算机程序的计算机。

依据本发明的又一实施方式包括一种装置或一种系统，其被配置成传送（例如，以电子或光学方式）用以执行本文所述诸方法中的一个的计算机程序至接收器。该接收器可以是，例如计算机、行动装置、内存装置等。该装置或系统例如可包括用以将该计算机程序传送至该接收器的文件服务器。

在某些实施方式中，可编程逻辑装置（例如现场可编程门阵列）可用以执行本文所述方法的某些或全部功能。在某些实施方式中，现场可编程门阵列可与微处理器协作以执行本文所述多个方法中的一个。一般而言，这些方法最好地由任一硬件装置来执行。

上述实施方式仅说明本发明的原理。应理解的是，本文所述配置及细节的修改及变化对本领域技术人员而言将是显而易见的。因此，旨在仅受所附在审专利权利要求的范围的限制而并不受通过说明及解释本文实施方式所提出的特定细节的限制。

文献：

[1]:USAC codec（Unified Speech and Audio Codec）,ISO/IEC CD23003-3，2010年9月24日

Claims

1.一种音频编码器，包括：

频谱分解器（10），用于将音频输入信号（12）频谱分解成具有频谱序列的谱图（14）；

自相关计算器（50），被配置为由所述频谱序列的当前频谱来计算自相关；

线性预测系数计算器（52），被配置为基于所述自相关来计算线性预测系数；

频谱域整形器（22），被配置为基于所述线性预测系数来频谱整形所述当前频谱；以及

量化级（24），被配置为量化所述经频谱整形的频谱；

其中，所述音频编码器被配置为将关于所述被量化的经频谱整形的频谱的信息及关于所述线性预测系数的信息插入到数据流中。

2.根据权利要求1所述的音频编码器，还包括：

频谱预测器（26），被配置为沿频谱维度预测性滤波所述当前频谱，其中，所述频谱域整形器被配置为频谱整形所述经预测性滤波的当前频谱，并且所述音频编码器被配置为将关于如何逆转该预测性滤波的信息插入到所述数据流中。

3.根据权利要求2所述的音频编码器，其中，所述频谱预测器被配置为沿所述频谱维度对所述当前频谱执行线性预测滤波，其中，所述数据流形成器被配置为使得关于如何逆转该预测性滤波的信息包括关于沿所述频谱维度对所述当前频谱进行的该线性预测滤波中隐含的进一步的线性预测系数的信息。

4.根据权利要求2或3所述的音频编码器，其中，所述音频编码器被配置为根据所述音频输入信号的音调或瞬态特性或滤波器预测增益来决定启动或停用所述频谱预测器，其中，所述音频编码器被配置为插入关于该决定的信息。

5.根据权利要求2至4中的任一项所述的音频编码器，其中，所述自相关计算器被配置为由所述经预测性滤波的当前频谱来计算所述自相关。

6.根据权利要求2至5中的任一项所述的音频编码器，其中，所述频谱分解器（10）被配置为在频谱分解所述音频输入信号（12）时在不同的变换长度的间切换，使得所述频谱具有不同的频谱分辨率，其中，所述自相关计算器（50）被配置为：如果所述当前频谱的频谱分辨率满足预定条件，则根据所述经预测性滤波的当前频谱来计算自相关；或如果所述当前频谱的频谱分辨率不满足该预定条件，则由未预测性滤波的当前频谱来计算自相关。

7.根据权利要求6所述的音频编码器，其中，所述自相关计算器被配置为使得如果所述当前频谱的频谱分辨率高于频谱分辨率阈值，则所述预定条件被满足。

8.根据权利要求1至7中的任一项所述的音频编码器，其中，所述自相关计算器被配置为：在由所述当前频谱来计算所述自相关时，由所述当前频谱来计算所述功率谱，感知加权所述功率谱并且使该经感知加权的功率谱接受反变换。

9.根据权利要求8所述的音频编码器，其中，所述自相关计算器被配置为改变所述当前频谱的频率标度并且以所述改变后的频率标度来执行所述功率谱的感知加权。

10.根据权利要求1至9中的任一项所述的音频编码器，其中，所述音频编码器被配置为将关于所述线性预测系数的信息以量化形式插入到该数据流中，其中，所述频谱域整形器被配置为基于所述经量化的线性预测系数来频谱整形所述当前频谱。

11.根据权利要求10所述的音频编码器，其中，所述音频编码器被配置为将关于所述线性预测系数的信息以在LSF或LSP域中进行所述线性预测系数的量化所依据的形式插入到所述数据流中。

12.一种音频编码方法，包括以下步骤：

将音频输入信号（12）频谱分解成具有频谱序列的谱图（14）；

由所述频谱序列的当前频谱来计算自相关；

基于所述音频相关来计算线性预测系数；

基于所述线性预测系数来频谱整形所述当前频谱；

量化所述经频谱整形的频谱；以及

将关于所述被量化的经频谱整形的频谱的信息和关于所述线性预测系数的信息插入到数据流中。

13.一种具有程序代码的计算器程序，所述程序代码当在计算器上被运行时，用以执行根据权利要求12所述的方法。