CN101849258A

CN101849258A - 在可缩放语音和音频编解码器中的用于经量化的mdct频谱的码簿索引的编码/解码的技术

Info

Publication number: CN101849258A
Application number: CN200880114507A
Authority: CN
Inventors: 尤里娅·列兹尼克
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2007-11-04
Filing date: 2008-11-04
Publication date: 2010-09-29
Anticipated expiration: 2028-11-04
Also published as: KR20100086031A; US20090240491A1; IL205375A0; CN101849258B; MX2010004823A; CA2703700A1; AU2008318328A1; JP5722040B2; RU2437172C1; JP2011503653A; TW200935403A; US8515767B2; TWI405187B; WO2009059333A1; EP2220645A1; KR101139172B1

Abstract

可基于用于可缩放语音和音频编解码器的码簿索引的预期概率分布而有效地编码所述码簿索引。可获得来自基于码激励线性预测(CELP)的编码层的残余信号，其中所述残余信号为原始音频信号与所述原始音频信号的经重建版本之间的差。可在离散余弦变换(DCT)型变换层处变换所述残余信号以获得对应变换频谱。将所述变换频谱划分为多个频谱带，其中每一频谱带具有多个频谱线。接着选择多个不同码簿以用于编码所述频谱带，其中每一码簿与一码簿索引相关联。接着一起编码与所述选定码簿相关联的多个码簿索引以获得更简洁地表示所述码簿索引的描述符代码。

Description

在可缩放语音和音频编解码器中的用于经量化的MDCT频谱的码簿索引的编码/解码的技术

根据35U.S.C.§119主张优先权

本专利申请案主张2007年11月4申请的题为“在可缩放语音+音频编解码器中的经量化的MDCT频谱的编码/解码的低复杂性技术(Low-Complexity Technique forEncoding/Decoding of Quantized MDCT Spectrum in Scalable Speech+Audio Codecs)”的美国临时申请案第60/985,263号的优先权，所述申请案已转让给本案受让人且在此以引用的方式明确地并入本文中。

技术领域

以下描述大体上涉及编码器和解码器，且具体来说涉及译码修正型离散余弦变换(MDCT)频谱作为可缩放语音和音频编解码器的部分的有效方式。

背景技术

音频译码的一个目标为将音频信号压缩为所要的有限信息数量，同时尽可能多地保持原始声音质量。在编码过程中，将时域中的音频信号变换为频域。

例如MPEG层3(MP3)、MPEG-2和MPEG-4的知觉音频译码技术利用人耳的信号掩蔽性质以减少数据量。如此，以量化噪声由主要总信号掩蔽(即，其保持无声)的方式将量化噪声分派到频带。相当多的存储大小减少是可能的，同时具有极少或不具有音频质量的可知觉损耗。知觉音频译码技术常常是可缩放的且产生具有基础层或核心层和至少一个增强层的分层位流。此允许位速率可缩放性，即，在解码器侧以不同音频质量等级解码或通过业务成形或调节在网络中减小位速率。

码激励线性预测(CELP)为一类算法，包括代数CELP(ACELP)、松弛CELP(RCELP)、低延迟(LD-CELP)和向量和激励线性预测(VSELP)，其广泛用于语音译码。支持CELP的一个原理称作合成分析(AbS)且意味着通过在闭合回路中靠知觉优化经解码(合成)信号来执行编码(分析)。理论上，将通过尝试所有可能位组合和选择产生最佳发声解码信号的位组合来产生最佳CELP流。此实际上因为两个原因明显是不可能的：实施起来将非常复杂和“最佳发声”选择准则暗示人类收听器。为了使用有限的计算资源实现实时编码，将CELP搜索分解为使用知觉加权函数的较小、更易管理的连续搜索。通常，编码包括(a)计算和/或量化(通常作为线频谱对)输入的音频信号的线性预测译码系数，(b)使用码簿来搜索最佳匹配以产生译码信号，(c)产生作为译码信号与实际输入信号之间的差的误差信号，和(d)在一个或一个以上层中进一步编码此误差信号(通常以MDCT频谱)以改进重建或合成信号的质量。

许多不同技术可用于实施基于CELP算法的语音和音频编解码器。在这些技术中的一些中，产生误差信号，所述误差信号随后被变换(通常使用DCT、MDCT或类似变换)和编码以进一步改进编码信号的质量。然而，归因于许多移动装置和网络的处理和带宽限制，此MDCT频谱译码的有效实施需要减小被存储或传输的信息的大小。

发明内容

下文呈现一个或一个以上实施例的简化概述以提供对一些实施例的基本理解。此概述并非所有预期实施例的详尽综述，且既未希望识别所有实施例的关键或重要要素，也未希望描绘任何或所有实施例的范围。其唯一目的在于以简化形式呈现一个或一个以上实施例的一些概念，以作为稍后呈现的更详细描述的序言。

在一个实例中，提供一种可缩放语音和音频编码器。可获得来自基于码激励线性预测(CELP)的编码层的残余信号，其中残余信号为原始音频信号与原始音频信号的经重建版本之间的差。可在离散余弦变换(DCT)型变换层处变换残余信号以获得对应变换频谱。DCT型变换层可为修正型离散余弦变换(MDCT)层且变换频谱为MDCT频谱。变换频谱可接着被划分为多个频谱带，每一频谱带具有多个频谱线。在一些实施中，可在编码之前丢弃一组频谱带以减小频谱带的数目。接着选择多个不同码簿以用于编码频谱带，其中码簿具有相关联的码簿索引。使用选定码簿对每一频谱带中的频谱线执行向量量化以获得向量量化索引。

编码码簿索引且还编码向量量化索引。在一个实例中，编码码簿索引可包括将至少两个邻近频谱带编码为基于邻近频谱带的量化特性的概率分布的成对描述符代码。编码所述至少两个邻近频谱带可包括：(a)扫描邻近对频谱带以确定其特性，(b)识别频谱带中的每一者的码簿索引，和/或(c)获得每一码簿索引的描述符分量和扩展码分量。成对地编码第一描述符分量和第二描述符分量以获得成对描述符代码。可将所述成对描述符代码映射到不同码簿的多个可能可变长度码(VLC)中的一者。可基于音频帧内的每一对应频谱带的相对位置和编码器层数而将VLC码簿指派给每一对描述符分量。成对描述符代码可基于每一对描述符中的描述符值的典型概率分布的量化集合。单一描述符分量可用于大于值k的码簿索引，且扩展码分量用于大于值k的码簿索引。在一个实例中，每一码簿索引与一描述符分量相关联，所述描述符分量基于可能码簿索引的分布的统计分析，其中码簿索引具有经选择以被指派有个别描述符分量的较大概率且码簿索引具有经选择以被分组和指派给单一描述符的较小概率。

接着形成经编码的码簿索引和经编码的向量量化索引的位流以表示经量化的变换频谱。

还提供一种可缩放语音和音频解码器。获得具有多个经编码的码簿索引和多个经编码的向量量化索引的位流，所述向量量化索引表示残余信号的经量化的变换频谱，其中残余信号为来自基于码激励线性预测(CELP)的编码层的原始音频信号与原始音频信号的经重建版本之间的差。接着解码多个经编码的码簿索引以获得多个频谱带的经解码的码簿索引。类似地，还解码多个经编码的向量量化索引以获得多个频谱带的经解码的向量量化索引。可接着使用经解码的码簿索引和经解码的向量量化索引来合成多个频谱带以在反离散余弦变换(IDCT)型反变换层处获得残余信号的经重建版本。IDCT型变换层可为反修正型离散余弦变换(IMDCT)层且变换频谱为IMDCT频谱。

多个经编码的码簿索引可由成对描述符代码表示，所述成对描述符代码表示音频帧的多个邻近变换频谱频谱带。成对描述符代码可基于邻近频谱带的量化特性的概率分布。将所述成对描述符代码映射到不同码簿的多个可能可变长度码(VLC)中的一者。可基于音频帧内的每一对应频谱带的相对位置和编码器层数而将VLC码簿指派给每一对描述符分量。

在一个实例中，解码多个经编码的码簿索引包括可包括：(a)获得对应于多个频谱带中的每一者的描述符分量，(b)获得对应于多个频谱带中的每一者的扩展码分量，(c)基于描述符分量和扩展码分量获得对应于多个频谱带中的每一者的码簿索引分量，和/或(d)利用码簿索引以合成对应于多个频谱带中的每一者的每一分量的频谱带。描述符分量可与码簿索引相关联，所述描述符分量是基于可能码簿索引的分布的统计分析，其中码簿索引具有经选择以被指派有个别描述符分量的较大概率且码簿索引具有经选择以被分组和指派给单一描述符的较小概率。单一描述符分量可用于大于值k的码簿索引，且扩展码分量用于大于值k的码簿索引。成对描述符代码可基于每一对描述符中的描述符值的典型概率分布的量化集合。

附图说明

各种特征、性质和优点可从下文在结合图式时所阐述的详细描述而变得显而易见，其中通篇中相同的参考符号始终对应地识别。

图1为说明可实施一个或一个以上译码特征的通信系统的框图。

图2为说明根据一个实例的可经配置以执行有效音频译码的传输装置的框图。

图3为说明根据一个实例的可经配置以执行有效音频解码的接收装置的框图。

图4为根据一个实例的可缩放编码器的框图。

图5为说明可在编码器的较高层处实施的实例MDCT频谱编码过程的框图。

图6为说明如何可将MDCT频谱音频帧划分为多个n点带(或子向量)以促进MDCT频谱的编码的图。

图7为说明执行MDCT嵌入式代数向量量化(EAVQ)码簿索引的编码的编码算法的一个实例的流程图。

图8为说明可缩放语音和音频编解码器的编码器的框图。

图9为说明用于获得编码多个频谱带的成对描述符代码的方法的一实例的框图。

图10为说明用于基于概率分布而产生码簿与描述符之间的映射的方法的一实例的框图。

图11为说明可如何产生描述符值的一实例的框图。

图12为说明用于基于频谱带的多个描述符的概率分布而获得产生描述符对到成对描述符代码的映射的方法的一实例的框图。

图13为说明解码器的一实例的框图。

图14为说明可有效地解码成对描述符代码的解码器的框图。

图15为说明用于在可缩放语音和音频编解码器中解码变换频谱的方法的框图。

具体实施方式

现参看图式描述各种实施例，其中通篇中相同参考标号用以指代相同元件。在以下描述中，出于解释的目的，陈述众多特定细节以提供对一个或一个以上实施例的透彻理解。然而，可显而易见，可在无这些特定细节的情况下实践此(些)实施例。在其它例子中，以框图形式展示众所周知的结构和装置以促进描述一个或一个以上实施例。

概述

在译码的多个层用以迭代地编码音频信号的用于编码/解码音频信号的可缩放编解码器中，修正型离散余弦变换可用于一个或一个以上译码层中，其中音频信号残差被变换(例如，变换为MDCT域)以用于编码。在MDCT域中，可将频谱线的帧划分为多个带。每一频谱带可由码簿索引有效地编码。可将码簿索引进一步编码为具有扩展码的描述符的小集合，且可将邻近频谱带的描述符进一步编码为成对描述符代码，其认识到一些码簿索引和描述符具有比其它码簿索引和描述符高的概率分布。另外，还基于变换频谱内的对应频谱带的相对位置以及编码器层数来编码码簿索引。

在一个实例中，一组嵌入式代数向量量化器(EAVQ)用于MDCT频谱的n点带的译码。可将向量量化器无损耗地压缩为界定速率和码簿数目的用以编码每一n点带的索引。可使用一组表示邻近频谱带的成对码簿索引的上下文可选择霍夫曼码来进一步编码码簿索引。对于索引的较大值，进一步的一元译码扩展可进一步用以表示描述符值，所述描述符值表示码簿索引。

通信系统

图1为说明可实施一个或一个以上译码特征的通信系统的框图。译码器102接收传入的输入的音频信号104且产生经编码的音频信号106。可经由传输通道(例如，无线或有线的)将经编码的音频信号106传输到解码器108。解码器108试图基于经编码的音频信号106而重建输入的音频信号104以产生经重建的输出音频信号110。出于说明的目的，译码器102可在传输器装置上操作，而解码器装置可在接收装置上操作。然而，应清楚，任何所述装置可包括编码器与解码器两者。

图2为说明根据一个实例的可经配置以执行有效音频译码的传输装置202的框图。输入的音频信号204由麦克风206俘获、由放大器208放大，并由A/D转换器210变换为数字信号，所述数字信号被发送到语音编码模块212。语音编码模块212经配置以执行输入信号的多层(经缩放的)译码，其中至少一个此层涉及编码MDCT频谱中的残差(误差信号)。语音编码模块212可如结合图4、图5、图6、图7、图8、图9和图10所解释而执行编码。可将来自语音编码模块212的输出信号发送到执行通道解码所在的传输路径编码模块214且将所得输出信号发送到调制电路216并经调制以经由D/A转换器218和RF放大器220将其发送到天线222以用于经编码的音频信号224的传输。

图3为说明根据一个实例的可经配置以执行有效音频解码的接收装置302的框图。经编码的音频信号304由天线306接收且由RF放大器308放大且经由A/D转换器310发送到解调电路312以使得将经解调的信号供应到传输路径解码模块314。将来自传输路径解码模块314的输出信号发送到语音解码模块316，语音解码模块316经配置以执行输入信号的多层(经缩放的)解码，其中至少一个此层涉及解码IMDCT频谱中的残差(误差信号)。语音解码模块316可如结合图11、图12和图13所解释而执行信号解码。将来自语音解码模块316的输出信号发送到D/A转换器318。经由放大器320将来自D/A转换器318的模拟语音信号发送到扬声器322以提供经重建的输出音频信号324。

可缩放音频编解码器架构

可将译码器102(图1)、解码器108(图1)、语音/音频编码模块212(图2)和/或语音/音频解码模块316(图3)实施为可缩放音频编解码器。可实施此可缩放音频编解码器而以高质量的经递送的经编码窄带语音信号或宽带音频/音乐信号来提供用于易产生误差的电信通道的高性能宽带语音译码。可缩放音频编解码器的一种方法为提供迭代的编码层，其中在后续层中编码来自一个层的误差信号(残差)以进一步改进在先前层中编码的音频信号。举例来说，码簿激励线性预测(CELP)是基于线性预测译码的概念，其中将不同激励信号的码簿维持在编码器和解码器上。编码器找出最适合的激励信号且将其对应索引(来自固定、代数和/或自适应码簿)发送到解码器，解码器接着使用其以再生信号(基于码簿)。编码器通过编码且接着解码音频信号以产生经重建或合成的音频信号来执行合成分析。编码器接着找出最小化误差信号(即，原始音频信号与经重建或合成的音频信号之间的差)的能量的参数。可通过使用更多或更少的译码层来调整输出位速率以满足通道需求和所要的音频质量。此可缩放音频编解码器可包括若干层，其中可抛弃较高层位流而不影响较低层的解码。

使用此多层架构的现有可缩放编解码器的实例包括ITU-T推荐G.729.1和新兴的ITU-T标准，以代码命名的G.EV-VBR。举例来说，可将嵌入式可变位速率(EV-VBR)编解码器实施为多层L1(核心层)到LX(其中X为最高扩展层的数目)。此编解码器可接受以16kHz取样的宽带(WB)信号与以8kHz取样的窄带(NB)信号两者。类似地，编解码器输出可为宽带或窄带的。

在表1中展示编解码器(例如，EV-VBR编解码器)的层结构的实例，其包含五层；称作L1(核心层)到L5(最高扩展层)。较低两个层(L1和L2)可基于码激励线性预测(CELP)算法。核心层L1可从可变多速率宽带(VMR-WB)语音译码算法导出且可包含针对不同输入信号优化的若干译码模式。即，核心层L1可分类输入信号以更好地模型化音频信号。由增强或扩展层L2基于自适应码簿和固定代数码簿而编码来自核心层L1的译码误差(残差)。可进一步由较高层(L3-L5)在变换域中使用修正型离散余弦变换(MDCT)来译码来自层L2的误差信号(残差)。可在层L3中发送边侧信息(sideinformation)以增强帧擦除隐藏(FEC)。

表1

核心层L1编解码器实质上为基于CELP的编解码器，且可与例如自适应多速率(AMR)、AMR宽带(AMR-WB)、可变多速率宽带(VMR-WB)、增强型可变速率编解码器(EVRC)或EVR宽带(EVRC-WB)编解码器的许多众所周知的窄带或宽带声码器中的一者兼容。

可缩放编解码器中的层2可使用码簿以进一步最小化来自核心层L1的靠知觉加权译码误差(残差)。为了增强编解码器帧擦除隐藏(FEC)，可计算边侧信息并在后续层L3中传输边侧信息。与核心层译码模式无关，边侧信息可包括信号分类。

假定：对于宽带输出，基于修正型离散余弦变换(MDCT)或类似类型的变换而使用重叠相加变换译码对在层L2编码后的经加权误差信号进行译码。即，对于经译码层L3、L4和/或L5，可在MDCT频谱中对信号进行编码。因此，提供在MDCT频谱中对信号进行译码的有效方式。

编码器实例

图4为根据一个实例的可缩放的编码器402的框图。在编码之前的预处理级中，输入信号404经高通滤波406以抑制非所要的低频率分量以产生经滤波输入信号S_HP(n)。举例来说，高通滤波器406可具有针对宽带输入信号的25Hz截止和对于窄带输入信号的100Hz。接着通过再取样模块408对经滤波输入信号S_HP(n)进行再取样以产生经再取样输入信号S_12.8(n)。举例来说，可以16kHz对原始输入信号404进行取样且经再取样到12.8kHz，12.8kHz可为用于层L1和/或L2编码的内部频率。预强调模块410接着应用第一阶高通滤波器以强调经再取样输入信号S_12.8(n)的较高频率(且使低频率衰减)。所得信号接着传递到编码器/解码器模块412，编码器/解码器模块412可基于基于码激励线性预测(CELP)的算法来执行层L1和/或L2编码，其中由通过表示频谱包络的线性预测(LP)合成滤波器的激励信号将语音信号模型化。可针对每一知觉临界带而计算信号能量且将其用作层L1和L2编码的一部分。另外，经编码的编码器/解码器模块412还可合成(重建)输入信号的一版本。即，在编码器/解码器模块412对输入信号进行编码后，编码器/解码器模块412对其进行解码，且去强调模块416和再取样模块418再造输入信号404的版本

。通过采用原始信号S_HP(n)与经再造信号

之间的差异420来产生残余信号x₂(n)(即，

)。残余信号x₂(n)接着由加权模块424靠知觉加权且由MDCT模块428变换成MDCT频谱或域以产生残余信号X₂(k)。在执行此变换的过程中，可在样本的块(称作帧)中分割信号，且每一帧可由线性正交变换(例如，离散傅立叶变换或离散余弦变换)处理以产生变换系数，接着可量化变换系数。

接着将残余信号X₂(k)提供到频谱编码器432，频谱编码器432编码残余信号X₂(k)以产生层L3、L4和/或L5的编码参数。在一个实例中，频谱编码器432产生表示残余信号X₂(k)中的非零频谱线(脉冲)的索引。

可将来自层L1到L5的参数发送到传输器和/或存储装置436以充当输出位流，所述输出位流可随后用以在解码器处重建或合成原始输入信号404的版本。

层1-分类编码：核心层L1可实施于编码器/解码器模块412处且可使用信号分类和四个相异译码模式以改进编码性能。在一个实例中，可考虑用于每一帧的不同编码的这四个相异信号种类可包括：(1)用于无声语音帧的无声译码(UC)，(2)针对具有平滑间距演进的准周期性区段而优化的有声译码(VC)；(3)用于在帧擦除的情况下经设计成使误差传播最小化的有声开始后的帧的转变模式(TC)；以及(4)用于其它帧的通用译码(GC)。在无声译码(UC)中，不使用自适应码簿，且激励是选自高斯码簿。用有声译码(VC)模式对准周期性区段进行编码。通过平滑间距演进来调节有声译码选择。有声译码模式可使用ACELP技术。在转变译码(TC)帧中，用固定码簿来替换含有第一间距周期的声门脉冲的子帧中的自适应码簿。

在核心层L1中，可使用基于CELP的范例通过通过表示频谱包络的线性预测(LP)合成滤波器的激励信号来使信号模型化。对于通用和有声译码模式，可在导抗频谱频率(ISF)域中使用安全网(Safety-Net)方法和多级向量量化(MSVQ)来量化LP滤波器。通过间距追踪算法来执行开放回路(OL)间距分析以确保平滑间距轮廓。然而，为了增强间距估计的稳健性，可比较两个并发间距演进轮廓且选择产生较平滑轮廓的轨迹。

估计两个LPC参数集合且在大多数模式中使用20ms分析窗而每帧地对其进行编码，一个集合用于帧末尾且一个集合用于中间帧。用内插分裂VQ对中间帧ISF进行编码，其中针对每一ISF子群组而找出线性内插系数，使得经估计ISF与经内插量化ISF之间的差异最小化。在一个实例中，为了量化LP系数的ISF表示，可并行地搜索两个码簿集合(对应于弱和强预测)以找出使经估计频谱包络的失真最小化的预测器和码簿项。此安全网方法的主要原因为在帧擦除与频谱包络快速地演进的区段重合时减少误差传播。为了提供额外的误差稳健性，有时将弱预测器设定到零，其导致无预测的量化。在量化失真充分接近于具有预测的一个量化失真时，或在其量化失真足够小以提供明显译码时，可始终选择不具有预测的路径。另外，在强烈预测性码簿搜索中，选择次最佳码向量(如果此不影响清晰信道性能，而是预期在存在帧擦除的情况下减少误差传播)。在无预测的情况下进一步系统地量化UC和TC帧的ISF。对于UC帧，即使无预测，足够位还可用于允许非常良好的频谱量化。认为TC帧对于待使用的预测的帧擦除过于敏感，尽管清晰信道性能存在潜在降低。

对于窄带(NB)信号，使用在非量化最佳增益的情况下所产生的L2激励来执行间距估计。此方法跨越层而移除增益量化的效应且改进间距滞后估计。对于宽带(WB)信号，使用标准间距估计(具有量化增益的L1激励)。

层2-增强编码：在层L2中，编码器/解码器模块412可再次使用代数码簿对来自核心层L1的量化误差进行编码。在L2层中，编码器进一步修正自适应码簿以不仅包括过去的L1贡献，而且包括过去的L2贡献。自适应间距滞后在L1和L2中为相同的，以在层之间维持时间同步。对应于L1和L2的自适应和代数码簿增益接着经重新优化以使靠知觉加权的译码误差最小化。相对于L1中已经量化的增益来预测地向量量化经更新的L1增益和L2增益。CELP层(L1和L2)可以内部(例如，12.8kHz)取样速率而操作。来自层L2的输出因此包括0-6.4kHz频带中所编码的经合成信号。对于宽带输出，AMR-WB带宽延伸可用以产生失去的6.4-7kHz带宽。

层3-帧擦除隐藏：为了在帧擦除条件(FEC)中增强性能，帧误差隐藏模块414可从编码器/解码器模块412获得边侧信息且使用其来产生层L3参数。边侧信息可包括用于所有译码模式的类别信息。还可传输先前的帧频谱包络信息以用于核心层转变译码。对于其它核心层译码模式，还可发送经合成信号的相位信息和间距同步能量。

层3、4、5-变换译码：可在层L3、L4和L5中使用MDCT或具有重叠相加结构的类似变换来量化由层L2中的第二级CELP译码引起的残余信号X₂(k)。即，来自先前层的残余或“误差”信号由后续层用以产生其参数(其设法有效地表示此误差以供传输到解码器)。

可通过使用若干技术来量化MDCT系数。在一些例子中，使用可缩放的代数向量量化来量化MDCT系数。可每20毫秒(ms)计算MDCT，且在8维块中量化其频谱系数。应用得自原始信号的频谱的音频清除器(MDCT域噪声成形滤波器)。在层L3中传输全局增益。另外，很少的位用于高频率补偿。剩余层L3位用于MDCT系数的量化。使用层L4和L5位，使得以层L4和L5水平而独立地使性能最大化。

在一些实施方案中，可针对语音和音乐占优势的音频内容而不同地量化MDCT系数。语音内容与音乐内容之间的辨别是基于通过比较L2加权合成MDCT分量与对应的输入信号分量而对CELP模型效率的评估。对于语音占优势的内容，可缩放的代数向量量化(AVQ)在L3和L4中与在8维块中所量化的频谱系数一起使用。在L3中传输全局增益，且很少的位用于高频率补偿。剩余L3和L4位用于MDCT系数的量化。量化方法为多速率晶格VQ(MRLVQ)。已使用新颖的基于多水平排列的算法来减少索引编制程序的复杂性和存储器成本。以若干步骤来进行秩计算：第一，将输入向量分解成符号向量和绝对值向量。第二，将绝对值向量进一步分解成若干水平。最高水平向量为原始绝对值向量。通过从上部水平向量移除最频繁元素来获得每一下部水平向量。基于排列和组合函数而使每一下部水平向量的与其上部水平向量有关的位置参数被编制索引。最后，将所有下部水平的索引与符号组成输出索引。

对于音乐占优势的内容，可在层L3中使用带选择性形状增益向量量化(形状增益VQ)，且可将额外脉冲位置向量量化器应用于层L4。在层L3中，首先，可通过计算MDCT系数的能量来执行带选择。接着，使用多脉冲码簿来量化选定带中的MDCT系数。使用向量量化器来量化所述带的MDCT系数(频谱线)的带增益。对于层L4，可使用脉冲定位技术对整个带宽进行译码。在语音模型归因于音频源模型失配而产生不想要的噪声的情况下，L2层输出的某些频率可衰减以允许更主动地对MDCT系数进行译码。这是以闭合回路方式通过经由层L4而使输入信号的MDCT与经译码音频信号的MDCT之间的平方差最小化来进行。所应用的衰减量可高达6dB，其可通过使用2个或更少位来传送。层L5可使用额外的脉冲位置译码技术。

MDCT频谱的译码

因为层L3、L4和L5在MDCT频谱(例如，表示先前层的残差的MDCT系数)中执行译码，所以需要使此MDCT频谱译码为有效的。因此，提供MDCT频谱译码的有效方法。

图5为说明可在编码器的较高层处实施的实例MDCT频谱编码过程的框图。编码器502获得来自先前层的残余信号504的输入MDCT频谱。此残余信号504可为原始信号与原始信号的经重建版本(例如，从原始信号的经编码版本重建)之间的差。可量化残余信号的MDCT系数以产生给定音频帧的频谱线。

在一个实例中，MDCT频谱504可为在应用CELP核心(层1和2)后误差信号的完整MDCT频谱，或在此程序的先前应用后残余的MDCT频谱。即，在层3处，来自层1和2的残余信号的完整MDCT频谱经接收且部分编码。接着在层4处，来自层3的信号的MDCT频谱残差经编码，等等。

编码器502可包括带选择器508，带选择器508将MDCT频谱504分割或分裂成多个带，其中每一带包括多个频谱线或变换系数。带能量估计器510可接着在带中的一者或一者以上中提供能量估计。知觉带分级模块512可靠知觉将每一带分级。知觉带选择器514可接着决定编码一些带，同时迫使其它带为全零值。举例来说，可编码展现高于阈值的信号能量的带，同时可将具有低于此阈值的信号能量的带迫使为全零。举例来说，可根据知觉掩蔽和其它人类音频敏感性现象来设定此阈值。在无此想法的情况下，想这样做的原因并不明显。码簿索引和速率分配器516可接着确定选定带的码簿索引和速率分配。即，对于每一带，最佳地表示带的码簿经确定且由索引识别。码簿的“速率”指定由码簿实现的压缩的量。向量量化器518接着将每一带的多个频谱线(变换系数)量化为表征经量化的频谱线(变换系数)的向量量化(VQ)值(量值或增益)。

在向量量化中，若干样本(频谱线或变换系数)一起被块化为若干向量，且用码簿的一个项近似(量化)每一向量。经选择以量化输入向量(表示带中的频谱线或变换系数)的码簿项通常为根据距离准则的码簿空间中的最近邻域。举例来说，一个或一个以上质心可用以表示码簿的多个向量。接着将表示带的输入向量与码簿质心进行比较以确定哪个码簿(和/或码簿向量)提供最小距离测量(例如，欧几里德(Euclidean)距离)。具有最近距离的码簿用以表示带。在码簿中添加更多项增加位速率和复杂性但减少平均失真。码簿项常常被称作码向量。

因此，编码器502可将MDCT频谱504编码成一个或一个以上码簿索引(nQ)526、向量量化值(VQ)528，和/或可用以重建残余信号504的MDCT频谱的版本的其它音频帧和/或带信息。在解码器处，所接收的量化索引和向量量化值可用以重建帧中的每一带的经量化的频谱线(变换系数)。接着将反变换应用于这些经量化的频谱线(变换系数)以重建合成帧。

注意，可(通过从原始输入残余信号504减去520残余信号Sx_t)获得可用作编码的下一层的输入的输出残余信号522。可通过(例如)从码簿索引526和向量量化值528重建MDCT频谱和从输入MDCT频谱504减去经重建的MDCT频谱以获得输出MDCT频谱残余信号522来获得此输出MDCT频谱残余信号522。

根据一个特征，实施向量量化方案，其为由关于声学、语音和信号处理的IEEE国际会议(ICASSP)(亚特兰大，GA，美国，第1卷，第240到243页，1996(Xie，19，96))中的M.Xie和J.-P.Adoul的“应用于宽带音频音码的嵌入式代数向量量化(EAVQ)(Embedded Algebraic Vector Quantization(EAVQ)With Application To Wideband AudioCoding)”描述的嵌入式代数向量量化方案的变体。具体来说，可通过组合两个或两个以上连续频谱带的索引和利用概率分布以更简洁地表示码索引来有效地表示码簿索引526。

图6为说明如何可将MDCT频谱音频帧602划分为多个n点带(或子向量)以促进MDCT频谱的编码的图。举例来说，320频谱线(变换系数)MDCT频谱音频帧602可被划分为40个带(子向量)604，每一带604a具有8个点(或频谱线)。在一些实际情形(例如，根据先验知识，输入信号具有较窄的频谱)中，可进一步可能将最后4到5个带迫使为零，此仅留下待编码的35到36个带。在一些额外情形(例如，在较高层的编码中)中，跳过某10个较低级(低频率)带可为可能的，因此将待编码的带的数目进一步减少到仅25到26个。在更一般的情况下，每一层可指定待编码的带的特定子集，且这些带可与先前编码的子集重叠。举例来说，层3带B1到B40可与层4带C1到C40重叠。每一带604可由码簿索引nQx和向量量化值VQx表示。

向量量化编码方案

在一个实例中，编码器可利用码簿的阵列Q_n(n＝0，2，3，4，...MAX)，其中对应指派速率为n*4个位。假定Q₀含有全零向量，且因此无位需要传输其。此外，不使用索引n＝l，如此减小码簿的数目。因此可指派给具有非零向量的码簿的最小速率为2*4＝8个位。为了指定哪个码簿用于编码每一带，使用码簿索引nQ(值n)以及每一带的向量量化(VQ)值或索引。

一般来说，每一码簿索引可由基于可能码簿索引的分布的统计分析的描述符分量来表示，其中码簿索引具有经选择以被指派有个别描述符分量的较大概率且码簿索引具有经选择以被分组和指派给单一描述符的较小概率。

如早先所指示，所述系列的可能码簿索引{n}具有码簿索引0与索引2之间的不连续性，且继续到数目MAX，所述MAX实际上可大达36。此外，可能值n的分布的统计分析指示所有情况中超过90％集中在码簿索引的小集合n＝{0，2，3}中。因此，为了编码值{n}，如表1中所呈现，将其映射在描述符的更密实集合中可能为有利的。

码簿索引	描述符值
码簿索引	描述符值	0	0
2	1	0	0
2	1	3	2
4...MAX	3	3	2

表1

注意，因为n＞＝4的所有值被映射到单一描述符值3，所以此映射并非为双射的。此描述符值3用作“逃逸码”：其指示将需要使用在描述符后传输的扩展码来解码码簿索引n的真值。可能扩展码的实例为表2中所示的传统一元码，其可用于＞＝4的码簿索引的传输。

扩展码	码簿索引
扩展码	码簿索引	0	4
10	5	0	4
10	5	110	6
1110	7	110	6
1110	7	...
1...10k个1的连续数	4+k	...
1...10k个1的连续数	4+k	...

表2

另外，可成对地编码描述符，其中每一成对描述符代码可具有可如表3中所说明而指派的三(3)个可能可变长度码(VLC)中的一者。

描述符	码簿0	码簿1	码簿2
描述符	码簿0	码簿1	码簿2	(0，0)	0110	0	00
(0，1)	1110	011	10	(0，0)	0110	0	00
(0，1)	1110	011	10	(0，2)	01011	011111	0011
(0，3)	011111	0011111111	001111111	(0，2)	01011	011111	0011
(0，3)	011111	0011111111	001111111	(1，0)	0001	01	001
(1，1)	00	0111	101	(1，0)	0001	01	001
(1，1)	00	0111	101	(1，2)	1001	01111111	1011
(1，3)	11011	011111111111	00111111	(1，2)	1001	01111111	1011
(1，3)	11011	011111111111	00111111	(2，0)	00111	01111	0111
(2，1)	010	0111111	01111	(2，0)	00111	01111	0111
(2，1)	010	0111111	01111	(2，2)	0101	1011111111	011111
(2，3)	111111	01111111111111	101111111	(2，2)	0101	1011111111	011111
(2，3)	111111	01111111111111	101111111	(3，0)	10111	0111111111	10111111
(3，1)	1101	01111111111	011111111	(3，0)	10111	0111111111	10111111
(3，1)	1101	01111111111	011111111	(3，2)	0011	0111111111111	0111111111
(3，3)	01111	11111111111111	1111111111	(3，2)	0011	0111111111111	0111111111

表3

这些成对描述符代码可基于每一对描述符中的描述符值的典型概率分布的量化集合，且可通过使用(例如)霍夫曼(Huffman)算法或代码来建构。

可部分基于每一带的位置和编码器/解码器层数而进行用于每一对描述符的VLC码簿的选择。在表4中展示此可能指派的实例，其中基于音频帧内的频谱带位置(例如，0/1、2/3、4/5、6/7、...)和编码器/解码器层数而将VLC码簿(例如，码簿0、1或2)指派给频谱带。

表4

表4中所说明的实例认识到，在一些例子中，码簿索引和/或码簿索引的描述符对的分布可视哪些频谱带在音频帧内被处理且还视哪个编码层(例如，层3、4或5)正执行编码而变化。因此，所使用的VLC码簿可视音频帧内的所述对描述符(对应于邻近带)的相对位置和对应带所属的编码层而定。

图7为说明执行MDCT嵌入式代数向量量化(EAVQ)码簿索引的编码的编码算法的一个实例的流程图。获得表示MDCT频谱音频帧的多个频谱带702。每一频谱带可包括多个频谱线或变换系数。扫描连续或邻近对频谱带以确定其特性704。基于每一频谱带的特性，识别频谱带中的每一者的对应码簿索引706。码簿索引可识别最佳地表示此频谱带的特性的码簿。即，对于每一带，检索表示带中的频谱线的码簿索引。另外，获得每一频谱带的向量量化值或索引708。此向量量化值可至少部分将索引提供到码簿中的选定项(例如，码簿内的重建点)中。在一个实例中，接着将码簿索引中的每一者划分或分裂成描述符分量和扩展码分量710。举例来说，对于第一码簿索引，从表1选择第一描述符。类似地，对于第二码簿索引，还从表1选择第二描述符。一般来说，码簿索引与描述符之间的映射可基于可能码簿索引的分布的统计分析，其中信号中的大部分带倾向于具有集中在码簿的小数目(子集)中的索引。接着(例如)基于表3上成对描述符代码而将邻近(例如，连续)码簿索引的描述符分量编码成对712。这些成对描述符代码可基于每一对中的描述符值的典型概率分布的量化集合。如图4中所说明，可部分基于每一带的位置和层数而进行用于每一对描述符的VLC码簿的选择。另外，(例如)基于表2而获得每一码簿索引的扩展码分量714。可接着传输或存储成对描述符代码、每一码簿索引的扩展码分量，和每一频谱带的向量量化值716。

通过应用本文中所描述的码簿索引的编码方案，与(例如)在G.729音频压缩算法嵌入式变量(EV)-可变位速率(VBR)编解码器中所使用的现有技术方法相比，可实现大约25到30％位速率的节省。

实例编码器

图8为说明可缩放语音和音频编解码器的编码器的框图。编码器802可包括接收MDCT频谱音频帧801且将其划分为多个带的带产生器，其中每一带可具有多个频谱线或变换系数。码簿选择器808可接着从多个码簿804中的一者选择码簿以表示每一带。

任选地，码簿(CB)索引识别器809可获得表示特定带的选定码簿的码簿索引。描述符选择器812可接着使用预先建立的码簿-描述符映射表813以将每一码簿索引表示为描述符。码簿索引到描述符的映射可基于可能码簿索引的分布的统计分析，其中音频帧中的大部分带倾向于具有集中在码簿的小数目(子集)中的索引。

码簿索引编码器814可接着编码选定码簿的码簿索引以产生经编码的码簿索引818。应清楚，在语音/音频编码模块(例如，图2的模块212)的变换层处且并非在传输路径编码模块(例如，图2的模块214)处编码此些经编码的码簿索引。举例来说，一对描述符(对于一对邻近带)可由成对描述符编码器(例如，码簿索引编码器814)编码成一对，所述成对描述符编码器(例如，码簿索引编码器814)可使用描述符对与可变长度码之间的预先建立的关联性以获得成对描述符代码(例如，经编码的码簿索引818)。描述符对与可变长度码之间的预先建立的关联性可利用较高概率描述符对的较短长度码和较低概率描述符对的较长码。在一些例子中，将多个码簿(VLC)映射到单一描述符对可为有利的。举例来说，可能发现描述符对的概率分布视编码器/解码器层和/或帧内的对应频谱带的位置而变化。因此，可将此些预先建立的关联性表示为多个VLC码簿816，其中基于(在音频帧内)被编码/解码的所述对频谱带的位置和编码/解码层来选择特定码簿。成对描述符代码可以比两个(或两个以上)连续带的经组合码簿索引或个别描述符少的位来表示所述带的码簿索引。另外，扩展码选择器810可产生扩展码820以表示可能已在描述符代码下分组在一起的索引。向量量化器811可产生每一频谱带的向量量化值或索引。向量量化索引编码器815可接着编码向量量化值或索引中的一者或一者以上以产生经编码的向量量化值/索引822。可以关于减少用以表示向量量化索引的位的数目的方式执行向量量化索引的编码。

可将经编码的码簿索引818(例如，成对描述符代码)、扩展码820，和/或经编码的向量量化值/索引822传输和/或存储为MDCT频谱音频帧810的编码表示。

图9为说明用于获得编码多个频谱带的成对描述符代码的方法的框图。在一个实例中，此方法可在可缩放语音和音频编解码器中操作。从基于码激励线性预测(CELP)的编码层获得残余信号，其中所述残余信号为原始音频信号与原始音频信号的经重建版本之间的差902。在离散余弦变换(DCT)型变换层处变换残余信号以获得对应变换频谱904。举例来说，DCT型变换层可为修正型离散余弦变换(MDCT)层且变换频谱为MDCT频谱。接着将变换频谱划分为多个频谱带，每一频谱带具有多个频谱线906。在一些例子中，可在编码之前移除频谱带中的一些频谱带以减小频谱带的数目。选择多个不同码簿以用于编码频谱带，其中码簿具有相关联的码簿索引908。举例来说，可扫描邻近或连续对频谱带以确定其特性(例如，频谱带中的频谱系数和/或线的一个或一个以上特性)，选择最佳地表示频谱带中的每一者的码簿，且码簿索引可经识别和/或与邻近对频谱带中的每一者相关联。在一些实施方案中，可获得描述符分量和/或扩展码分量且用以表示每一码簿索引。接着使用选定码簿对每一频谱带中的频谱线执行向量量化以获得向量量化索引910。接着编码选定码簿索引912。在一个实例中，可将邻近频谱带的码簿索引或相关联的描述符编码为成对描述符代码，所述成对描述符代码是基于邻近频谱带的量化特性的概率分布。另外，还编码向量量化索引914。可使用减小用以表示向量量化索引的位的数目的任何算法来执行向量量化索引的编码。可使用经编码的码簿索引和经编码的向量量化索引来形成位流以表示变换频谱916。

成对描述符代码可映射到不同码簿的多个可能可变长度码(VLC)中的一者。可基于音频帧内的每一对应频谱带的位置和编码器层数而将VLC码簿指派给每一对描述符分量。成对描述符代码可基于每一对描述符中的描述符值的典型概率分布的量化集合。

在一个实例中，每一码簿索引具有基于可能码簿索引的分布的统计分析的描述符分量，其中码簿索引具有经选择以被指派有个别描述符分量的较大概率且码簿索引具有经选择以被分组和指派给单一描述符的较小概率。单一描述符值用于大于值k的码簿索引，且扩展码分量用于大于值k的码簿索引。

描述符产生的实例

图10为说明用于基于概率分布而产生码簿与描述符之间的映射的方法的一实例的框图。取样多个频谱带以确定每一频谱带的特性1000。在归因于声音和码簿定义的本质而认识到更可能利用码簿的小子集后，可对所关注信号执行统计分析以更有效地指派描述符。因此，使每一经取样的频谱带与多个码簿中的一者相关联，其中相关联的码簿表示频谱带特性中的至少一者1002。基于与多个码簿中的每一者相关联的多个经取样的频谱带而指派每一码簿的统计概率1004。还指派具有大于阈值概率的统计概率的多个码簿中的每一者的相异个别描述符1006。接着将单一描述符指派给其它剩余码簿1008。使扩展码与指派给单一描述符的码簿中的每一者相关联1010。因此，此方法可用以获得频谱带的足够大的样本(用其来建造表(例如，表1))，所述样本将码簿索引映射到描述符的较小集合。另外，扩展码可为如表2中所说明的一元码。

图11为说明可如何产生描述符值的实例的框图。对于频谱带B0...Bn 1102的样本序列，码簿1104经选择以表示每一频谱带。即，基于频谱带的特性，选择最紧密地表示频谱带的码簿。在一些实施方案中，每一码簿可由其码簿索引1106参考。此过程可用以产生对码簿的频谱带的统计分布。在此实例中，码簿A(例如，全零码簿)经选择用于两(2)个频谱带，码簿B由一(1)个频谱带选择，码簿C经选择用于三(3)个频谱带，等等。因此，可识别最频繁选定的码簿且将相异/个别描述符值“0”、“1”和“2”指派给这些频繁选定的码簿。剩余码簿被指派有单一描述符值“3”。对于由此单一描述符“3”表示的带，扩展码1110可用以更特定地识别由单一描述符(例如，如表2中)所识别的特定码簿。在此实例中，忽略码簿B(索引1)以将描述符值的数目减小到四个。四个描述符“0”、“2”、“3”和“4”可经映射且表示到两个位(例如，表1)。因为大百分比的码簿现在由单个二位描述符值“3”来表示，所以统计分布的此搜集帮助减小原本将用以表示(假定)36个码簿的位的数目(即，六个位)。

注意，图10和图11说明可如何将码簿索引编码为较少位的实例。在各种其它实施中，可避免和/或修改“描述符”的概念，同时实现同一结果。

成对描述符代码产生的实例

图12为说明用于基于频谱带的多个描述符的概率分布而产生描述符对到成对描述符代码的映射的方法的一实例的框图。在将多个频谱带映射到描述符值(如在先前所描述)后，确定描述符值对(例如，对于音频帧的连续或邻近频谱带)的概率分布。获得与邻近频谱带(例如，两个连续带)相关联的多个描述符值(例如，两个)1200。获得不同对描述符值的预期概率分布1202。即，基于每一对描述符值(例如，0/0、0/1、0/2、0/3、1/0、1/1、1/2、1/3、2/0、2/1...3/3)出现的可能性，可确定最可能的描述符对到最不可能的描述符对(例如，对于两个邻近或连续频谱带)的分布。另外，可基于音频帧内的特定带的相对位置和特定编码层(例如，L3、L4、L5等)而收集预期概率分布。接着基于每一对描述符值的预期概率分布和其在音频帧中的相对位置和编码器层而将相异可变长度码(VLC)指派给每一对描述符值1204。举例来说，与较低概率描述符对相比，较高概率描述符对(对于特定编码器层和帧内的相对位置)可被指派有较短的码。在一个实例中，霍夫曼译码可用以产生可变长度码，其中较高概率描述符对被指派有较短的码且较低概率描述符对被指派有较长的码(例如，如在表3中)。

可重复此过程以获得不同层的描述符概率分布1206。因此，不同可变长度码可用于不同编码器/解码器层中的同一描述符对。可利用多个码簿以识别可变长度码，其中哪个码簿用以加密/解密可变长度码视被编码/解码的每一频谱带的相对位置和编码器层数而定1208。在表4中所说明的实例中，可依据层和被编码/解码的带对的位置而使用不同VLC码簿。

此方法允许在不同编码器/解码器层上确立描述符对的概率分布，借此允许将描述符对映射到每一层的可变长度码。因为最普通(较高概率)描述符对被指派有较短的码，所以此减小在编码频谱带时所使用的位的数目。

MDCT频谱的解码

图13为说明解码器的一实例的框图。对于每一音频帧(例如，20毫秒帧)，解码器1302可从接收器或存储装置1304接收输入位流，所述输入位流含有经编码的MDCT频谱的一个或一个以上层的信息。所接收的层可在层1到层5的范围内，其可对应于8千位/秒到32千位/秒的位速率。此意味着解码器操作由接收于每一帧中的位(层)的数目来调节。在此实例中，假定输出信号1332为WB且所有层已正确地接收于解码器1302处。核心层(层1)和ACELP增强层(层2)首先被解码器模块1306解码且执行信号合成。经合成信号接着由解强调模块1308解强调且由再取样模块1310再取样到16kHz以产生信号

。后处理模块进一步处理信号

以产生层1或层2的经合成信号

接着，由频谱解码器模块1316解码较高层(层3、4、5)以获得MDCT频谱信号

由反MDCT模块1320对MDCT频谱信号

进行反变换且所得信号被添加到层1和层2的靠知觉加权的经合成信号接着通过成形模块1322应用时间噪声成形。接着将与当前帧重叠的先前帧的经加权合成信号

添加到合成。接着应用反知觉加权1324以恢复经合成的WB信号。最后，音高后置滤波器1326应用于经恢复的信号上，随后高通滤波器1328应用于经恢复的信号上。后置滤波器1326采用通过MDCT(层3、4、5)的重叠相加合成而引入的额外解码器延迟。其以最佳方式组合两个音高后置滤波器信号。一个信号为通过采用额外解码器延迟而产生的层1或层2解码器输出的高质量音高后置滤波器信号

另一信号为较高层(层3、4、5)合成信号的低延迟音高后置滤波器信号

接着由噪声门1330输出经滤波的合成信号

图14为说明可有效地解码成对描述符代码的解码器的框图。解码器1402可接收经编码的码簿索引1418。举例来说，经编码的码簿索引1418可为成对描述符代码和扩展码1420。成对描述符代码可表示以比带的经组合码簿索引或个别描述符少的位的用于两个(或两个以上)连续带的码簿索引。码簿索引解码器1414可接着解码经编码的码簿索引1418。举例来说，码簿索引解码器1414可通过使用由多个VLC码簿1416表示的预先建立的关联性而解码成对描述符代码，其中可基于(在音频帧内)被解码的所述对频谱带的位置和解码层而选择VLC码簿1416。描述符对与可变长度码之间的预先建立的关联性可利用较高概率描述符对的较短长度码和较低概率描述符对的较长码。在一个实例中，码簿索引解码器1414可产生表示两个邻近频谱带的一对描述符。接着由描述符识别器1412解码描述符(针对一对邻近带)，所述描述符识别器1412使用基于可能码簿索引的分布的统计分析而产生的描述符-码簿索引映射表1413，其中音频帧中的大部分带倾向于具有集中在码簿的小数目(子集)中的索引。因此，描述识别器1412可提供表示对应频谱带的码簿索引。码簿索引识别器1409接着识别每一带的码簿索引。另外，扩展码识别器1410可使用所接收的扩展码1420以进一步识别已被分组为单一描述符的码簿索引。向量量化解码器1411可解码每一频谱带的所接收的经编码向量量化值/索引1422。码簿选择器1408可接着基于所识别的码簿索引和扩展码1420而选择码簿以便使用向量量化值1422来重建每一频谱带。带合成器1406接着基于经重建的频谱带而重建MDCT频谱音频帧1401，其中每一带可具有多个频谱线或变换系数。

实例解码方法

图15为说明用于在可缩放语音和音频编解码器中解码变换频谱的方法的框图。可接收或获得具有表示残余信号的经量化变换频谱的多个经编码的码簿索引和多个经编码的向量量化索引的位流，其中所述残余信号为来自基于码激励线性预测(CELP)的编码层的原始音频信号与原始音频信号的经重建版本之间的差1502。IDCT型变换层可为反修正型离散余弦变换(IMDCT)层且变换频谱为IMDCT频谱。接着可解码多个经编码的码簿索引以获得多个频谱带的经解码的码簿索引1504。类似地，可解码多个经编码的向量量化索引以获得多个频谱带的经解码的向量量化索引1506。

在一个实例中，解码多个经编码的码簿索引可包括：(a)获得对应于多个频谱带中的每一者的描述符分量；(b)获得对应于多个频谱带中的每一者的扩展码分量；(c)基于描述符分量和扩展码分量而获得对应于多个频谱带中的每一者的码簿索引分量；(d)利用码簿索引以合成对应于多个频谱带中的每一者的每一分量的频谱带。描述符分量可与码簿索引相关联，所述描述符分量是基于可能码簿索引的分布的统计分析，其中码簿索引具有经选择以被指派有个别描述符分量的较大概率且码簿索引具有经选择以被分组和指派给单一描述符的较小概率。单一描述符分量用于大于值k的码簿索引，且扩展码分量用于大于值k的码簿索引。多个经编码的码簿索引可由成对描述符代码表示，所述成对描述符代码表示音频帧的多个邻近变换频谱频谱带。成对描述符代码可基于邻近频谱带的量化特性的概率分布。在一个实例中，成对描述符代码可映射到不同码簿的多个可能可变长度码(VLC)中的一者。可基于音频帧内的每一对应频谱带的位置和编码器层数而将VLC码簿指派给每一对描述符分量。成对描述符代码可基于每一对描述符中的描述符值的典型概率分布的量化集合。

接着可使用经解码的码簿索引和经解码的向量量化索引来合成多个频谱带以在反离散余弦变换(IDCT)型反变换层处获得残余信号的经重建版本1508。

本文所描述的各种说明性逻辑块、模块和电路以及算法步骤可被实施或执行为电子硬件、软件或两者的组合。为了清楚地说明硬件与软件的此可互换性，上文已大体上就其功能性而描述了各种说明性组件、块、模块、电路和步骤。此功能性是被实施为硬件还是软件取决于特定应用和强加于整个系统上的设计约束。应注意，可将配置描述为被描绘为程序框图、流程图、结构图或框图的过程。虽然流程框图可将操作描述为连续过程，但许多操作可并行地或同时地执行。另外，可重新布置操作的次序。过程在其操作完成时终止。过程可对应于方法、函数、程序、子例程、子程序，等等。当过程对应于函数时，其终止对应于函数返回到调用函数或主函数。

在以硬件实施时，各种实例可采用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列信号(FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件，或其经设计以执行本文中所描述的功能的任何组合。通用处理器可为微处理器，但在替代方案中，处理器可为任何常规处理器、控制器、微控制器或状态机。处理器还可被实施为计算装置的组合，例如，DSP与微处理器的组合、多个微处理器的组合、结合DSP核心的一个或一个以上微处理器，或任何其它此类配置。

在以软件实施时，各种实例可采用固件、中间件或微码。用以执行必要任务的程序代码或代码段可存储于例如存储媒体或其它存储装置等计算机可读媒体中。处理器可执行必要任务。代码段可表示过程、函数、子程序、程序、例程、子例程、模块、软件包、类别，或指令、数据结构或程序语句的任何组合。可通过传递和/或接收信息、数据、自变量、参数或存储器内容而将一代码段耦合到另一代码段或硬件电路。可经由包括存储器共享、消息传递、权标传递、网络发射等任何合适手段来传递、转发或发射信息、自变量、参数、数据等。

如本申请案中所使用，术语“组件”、“模块”、“系统”等意在指代计算机相关实体：硬件、固件、硬件与软件的组合、软件或执行中的软件。举例来说，组件可为(但不限于)在处理器上运行的进程、处理器、对象、可执行体、执行线程、程序和/或计算机。以说明的方式，在计算装置上运行的应用程序和计算装置两者均可为组件。一个或一个以上组件可驻存于进程和/或执行线程内，且一组件可局部化于一个计算机上和/或分散于两个或两个以上计算机之间。另外，这些组件可从存储有各种数据结构的各种计算机可读媒体执行。所述组件可(例如)根据具有一个或一个以上数据包的信号(例如，来自与本地系统、分布式系统中的另一组件交互和/或通过所述信号跨越例如因特网等网络与其它系统交互的一个组件的数据)通过区域和/或远程过程而通信。

在本文中的一个或一个以上实例中，所描述的功能可以硬件、软件、固件或其任何组合来实施。如果以软件来实施，则所述功能可作为一个或一个以上指令或代码而存储于计算机可读媒体上或经由计算机可读媒体而传输。计算机可读媒体包括计算机存储媒体和通信媒体两者，通信媒体包括促进将计算机程序从一个位置转移到另一位置的任何媒体。存储媒体可为可由计算机存取的任何可用媒体。以实例而非限制的方式，所述计算机可读媒体可包含RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置，或可用于载运或存储呈指令或数据结构的形式且可由计算机存取的所要程序代码的任何其它媒体。而且，可将任何连接适当地称为计算机可读媒体。举例来说，如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源传输软件，则所述同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电和微波等无线技术包括于媒体的定义中。在本文中使用时，磁盘和光盘包括压缩光盘(CD)、激光光盘、光盘、数字多功能光盘(DVD)、软盘和蓝光光盘，其中磁盘通常以磁性方式再现数据，而光盘用激光以光学方式再现数据。还应将以上各项的组合包括于计算机可读媒体的范围内。软件可包含单一指令或许多指令，且可分布在若干不同代码段上、在不同程序中和多个存储媒体上。示范性存储媒体可耦合到处理器，使得处理器可从存储媒体读取信息以及将信息写入到存储媒体。在替代方案中，存储媒体可与处理器成一体。

本文中所揭示的方法包含一个或一个以上步骤或动作以用于实现所描述的方法。在不脱离权利要求书的范围的情况下，方法步骤和/或动作可彼此互换。换句话说，除非所描述的实施例的恰当操作需要特定步骤或动作次序，否则在不脱离权利要求书的范围的情况下，可修改特定步骤和/或动作的次序和/或使用。

图1、图2、图3、图4、图5、图6、图7、图8、图9、图10、图11、图12、图13、图14和/或图15中所说明的组件、步骤和/或功能中的一者或一者以上可经重新布置和/或组合成单一组件、步骤或功能或以若干组件、步骤或功能来实施。还可添加额外元件、组件、步骤和/或功能。图1、图2、图3、图4、图5、图8、图13和图14中所说明的设备、装置和/或组件可经配置或调适以执行图6到图7、图9到图12以及图15中所描述的方法、特征或步骤中的一者或一者以上。可以软件和/或嵌入式硬件来有效地实施本文所描述的算法。

应注意，前述配置仅为实例且不被视为限制权利要求书。希望对配置的描述是说明性的且不限制权利要求书的范围。如此，本教示可容易应用于其它类型的设备，且所属领域的技术人员将明白许多替代方案、修改和变化。

Claims

1.一种用于在可缩放语音和音频编解码器中编码的方法，其包含：

从基于码激励线性预测(CELP)的编码层获得残余信号，其中所述残余信号为原始音频信号与所述原始音频信号的经重建版本之间的差；

在离散余弦变换(DCT)型变换层处变换所述残余信号以获得对应变换频谱；

将所述变换频谱划分为多个频谱带，每一频谱带具有多个频谱线；

选择多个不同码簿以用于编码所述频谱带，其中所述码簿具有相关联的码簿索引；

使用所述选定码簿对每一频谱带中的频谱线执行向量量化以获得向量量化索引；

编码所述码簿索引；

编码所述向量量化索引；以及

形成所述经编码的码簿索引和经编码的向量量化索引的位流以表示所述经量化的变换频谱。

2.根据权利要求1所述的方法，其中所述DCT型变换层为修正型离散余弦变换(MDCT)层且所述变换频谱为MDCT频谱。

3.根据权利要求1所述的方法，其进一步包含：

在编码之前丢弃一组频谱带以减小频谱带的数目。

4.根据权利要求1所述的方法，其中编码所述码簿索引包括

将至少两个邻近频谱带编码成成对描述符代码，所述成对描述符代码是基于所述邻近频谱带的量化特性的概率分布。

5.根据权利要求4所述的方法，其中编码所述至少两个邻近频谱带包括

扫描邻近对频谱带以确定其特性；

识别所述频谱带中的每一者的码簿索引；

获得每一码簿索引的描述符分量和扩展码分量。

6.根据权利要求5所述的方法，其进一步包含：

成对地编码第一描述符分量和第二描述符分量以获得所述成对描述符代码。

7.根据权利要求5所述的方法，其中所述成对描述符代码映射到不同码簿的多个可能可变长度码(VLC)中的一者。

8.根据权利要求7所述的方法，其中基于音频帧内的每一对应频谱带的相对位置和编码器层数而将VLC码簿指派给每一对描述符分量。

9.根据权利要求8所述的方法，其中所述成对描述符代码是基于每一对描述符中的描述符值的典型概率分布的量化集合。

10.根据权利要求5所述的方法，其中单一描述符分量用于大于值k的码簿索引，且扩展码分量用于大于所述值k的码簿索引。

11.根据权利要求5所述的方法，其中每一码簿索引与一描述符分量相关联，所述描述符分量是基于可能码簿索引的分布的统计分析，其中码簿索引具有经选择以被指派有个别描述符分量的较大概率且码簿索引具有经选择以被分组和指派给单一描述符的较小概率。

12.一种可缩放语音和音频编码器装置，其包含：

离散余弦变换(DCT)型变换层模块，其适于

带选择器，其用于将所述变换频谱划分为多个频谱带，每一频谱带具有多个频谱线；

码簿选择器，其用于选择多个不同码簿以用于编码所述频谱带，其中所述码簿具有相关联的码簿索引；

向量量化器，其用于使用所述选定码簿对每一频谱带中的频谱线执行向量量化以获得向量量化索引；

码簿索引编码器，其用于一起编码多个码簿索引；

向量量化索引编码器，其用于编码所述向量以及

传输器，其用于传输所述经编码的码簿索引和经编码的向量量化索引的位流以表示所述经量化的变换频谱。

13.根据权利要求12所述的装置，其中所述DCT型变换层模块为修正型离散余弦变换(MDCT)层模块，且所述变换频谱为MDCT频谱。

14.根据权利要求12所述的装置，其中所述码簿索引编码器适于：

将至少两个邻近频谱带的码簿索引编码成成对描述符代码，所述成对描述符代码是基于所述邻近频谱带的量化特性的概率分布。

15.根据权利要求14所述的装置，其中所述码簿选择器适于扫描邻近对频谱带以确定其特性，且进一步包含：

码簿索引识别器，其用于识别所述频谱带中的每一者的码簿索引；以及

描述符选择器模块，其用于获得每一码簿索引的描述符分量和扩展码分量。

16.根据权利要求14所述的装置，其中所述成对描述符代码映射到不同码簿的多个可能可变长度码(VLC)中的一者。

17.根据权利要求16所述的装置，其中VLC码簿基于音频帧内的每一对应频谱带的相对位置和编码器层数而被指派给每一对描述符分量。

18.一种可缩放语音和音频编码器装置，其包含：

用于从基于码激励线性预测(CELP)的编码层获得残余信号的装置，其中所述残余信号为原始音频信号与所述原始音频信号的经重建版本之间的差；

用于在离散余弦变换(DCT)型变换层处变换所述残余信号以获得对应变换频谱的装置；

用于将所述变换频谱划分为多个频谱带的装置，每一频谱带具有多个频谱线；

用于选择多个不同码簿以用于编码所述频谱带的装置，其中所述码簿具有相关联的码簿索引；

用于使用所述选定码簿对每一频谱带中的频谱线执行向量量化以获得向量量化索引的装置；

用于编码所述码簿索引的装置；

用于编码所述向量量化索引的装置；以及

用于形成所述经编码的码簿索引和经编码的向量量化索引的位流以表示所述经量化的变换频谱的装置。

19.一种包括可缩放语音和音频编码电路的处理器，其适于：

编码所述码簿索引；

编码所述向量量化索引；以及

20.一种包含操作以用于可缩放语音和音频编码的指令的机器可读媒体，所述指令在由一个或一个以上处理器执行时致使所述处理器：

编码所述码簿索引；

编码所述向量量化索引；以及

21.一种用于在可缩放语音和音频编解码器中解码的方法，其包含：

获得具有多个经编码的码簿索引和多个经编码的向量量化索引的位流，所述索引表示残余信号的经量化的变换频谱，其中所述残余信号为来自基于码激励线性预测(CELP)的编码层的原始音频信号与所述原始音频信号的经重建版本之间的差；

解码所述多个经编码的码簿索引以获得多个频谱带的经解码的码簿索引；

解码所述多个经编码的向量量化索引以获得所述多个频谱带的经解码的向量量化索引；以及

使用所述经解码的码簿索引和经解码的向量量化索引来合成所述多个频谱带以在反离散余弦变换(IDCT)型反变换层处获得所述残余信号的经重建版本。

22.根据权利要求21所述的方法，其中所述IDCT型变换层为反修正型离散余弦变换(IMDCT)层，且所述变换频谱为IMDCT频谱。

23.根据权利要求21所述的方法，其中解码所述多个经编码的码簿索引包括

获得对应于所述多个频谱带中的每一者的描述符分量；

获得对应于所述多个频谱带中的每一者的扩展码分量；

基于所述描述符分量和扩展码分量而获得对应于所述多个频谱带中的每一者的码簿索引分量；以及

利用所述码簿索引来合成对应于所述多个频谱带中的每一者的每一分量的频谱带。

24.根据权利要求23所述的方法，其中所述描述符分量与一码簿索引相关联，所述描述符分量是基于可能码簿索引的分布的统计分析，其中码簿索引具有经选择以被指派有个别描述符分量的较大概率且码簿索引具有经选择以被分组和指派给单一描述符的较小概率。

25.根据权利要求24所述的方法，其中单一描述符分量用于大于值k的码簿索引，且扩展码分量用于大于所述值k的码簿索引。

26.根据权利要求21所述的方法，其中所述多个经编码的码簿索引由成对描述符代码表示，所述成对描述符代码表示音频帧的多个邻近变换频谱频谱带。

27.根据权利要求26所述的方法，其中所述成对描述符代码是基于所述邻近频谱带的量化特性的概率分布。

28.根据权利要求26所述的方法，其中所述成对描述符代码映射到不同码簿的多个可能可变长度码(VLC)中的一者。

29.根据权利要求28所述的方法，其中基于所述音频帧内的每一对应频谱带的相对位置和编码器层数而将VLC码簿指派给每一对描述符分量。

30.根据权利要求26所述的方法，其中成对描述符代码是基于每一对描述符中的描述符值的典型概率分布的量化集合。

31.一种可缩放语音和音频解码器装置，其包含：

接收器，其用以获得具有多个经编码的码簿索引和多个经编码的向量量化索引的位流，所述索引表示残余信号的经量化的变换频谱，其中所述残余信号为来自基于码激励线性预测(CELP)的编码层的原始音频信号与所述原始音频信号的经重建版本之间的差；

码簿索引解码器，其用于解码所述多个经编码的码簿索引以获得多个频谱带的经解码的码簿索引；

向量量化索引解码器，其用于解码所述多个经编码的向量量化索引以获得所述多个频谱带的经解码的向量量化索引；以及

带合成器，其用于使用所述经解码的码簿索引和经解码的向量量化索引来合成所述多个频谱带以在反离散余弦变换(IDCT)型反变换层处获得所述残余信号的经重建版本。

32.根据权利要求31所述的装置，其中IDCT型变换层模块为反修正型离散余弦变换(IMDCT)层模块，且所述变换频谱为IMDCT频谱。

33.根据权利要求31所述的装置，其进一步包含：

描述符识别器模块，其用于获得对应于所述多个频谱带中的每一者的描述符分量；

扩展码识别器，其用于获得对应于所述多个频谱带中的每一者的扩展码分量；

码簿索引识别器，其用于基于所述描述符分量和扩展码分量而获得对应于所述多个频谱带中的每一者的码簿索引分量；以及

码簿选择器，其利用所述码簿索引和对应向量量化索引来合成对应于所述多个频谱带中的每一者的每一分量的频谱带。

34.根据权利要求31所述的装置，其中所述多个经编码的码簿索引由成对描述符代码表示，所述成对描述符代码表示音频帧的多个邻近变换频谱频谱带。

35.根据权利要求34所述的装置，其中所述成对描述符代码是基于所述邻近频谱带的量化特性的概率分布。

36.根据权利要求34所述的装置，其中成对描述符代码是基于每一对描述符中的描述符值的典型概率分布的量化集合。

37.一种可缩放语音和音频解码器装置，其包含：

用于获得具有多个经编码的码簿索引和多个经编码的向量量化索引的位流的装置，所述索引表示残余信号的经量化的变换频谱，其中所述残余信号为来自基于码激励线性预测(CELP)的编码层的原始音频信号与所述原始音频信号的经重建版本之间的差；

用于解码所述多个经编码的码簿索引以获得多个频谱带的经解码的码簿索引的装置；

用于解码所述多个经编码的向量量化索引以获得所述多个频谱带的经解码的向量量化索引的装置；以及

用于使用所述经解码的码簿索引和经解码的向量量化索引来合成所述多个频谱带以在反离散余弦变换(IDCT)型反变换层处获得所述残余信号的经重建版本的装置。

38.一种包括可缩放语音和音频解码电路的处理器，其适于：

39.一种包含操作以用于可缩放语音和音频解码的指令的机器可读媒体，所述指令在由一个或一个以上处理器执行时致使所述处理器：