CN101263553B

CN101263553B - 分级编码/解码设备

Info

Publication number: CN101263553B
Application number: CN2006800336707A
Authority: CN
Inventors: 斯蒂法尼·拉戈特; 戴维·维雷特
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2005-07-13
Filing date: 2006-07-07
Publication date: 2013-10-02
Anticipated expiration: 2026-07-07
Also published as: KR20080032160A; KR101303145B1; CN101263553A; FR2888699A1; WO2007007001A2; US20090326931A1; EP1905010B1; JP5112309B2; JP2009501351A; EP1905010A2; ATE511179T1; BRPI0612987A2; US8374853B2; WO2007007001A3

Abstract

本发明涉及一种用于音频信号的分级编码系统，包括：至少一个在第一频带中通过合成分析的使用参数编码的核心层；被设计来将所述第一频带放大到第二频带(称为扩展频带)的频带扩展层。本发明的特征在于，该系统还包括这样的层，其基于使用从所述频带扩展层获得的谱参数的变换编码，增强扩展频带中的音频编码质量。本发明可应用到分组网络上语音和/或音频信号的传输。

Description

分级编码/解码设备

技术领域

本发明涉及分级音频编码系统。它还涉及分级音频编码器和分级音频解码器。

本发明在经分组网络进行IP语音类型的语音和/或音频信号传输的领域中找到特别有利的应用。更具体地，在该背景中，本发明提供了这样的质量，其从电话频带到宽带运行，可以基于传输的比特率能力而调制并保证与现有电话频带核心的互通。

背景技术

目前存在许多技术用于将音频频率(语音和/或音频)信号转换为数字信号的形式并处理以该方式数字化的信号。标准高质量音频编码方法通常被分类为“波形编码”、“通过合成分析的参数编码”以及“在子频带中或通过变换的感知编码”。

第一类包括具有或没有存储器的量化技术，如PCM或ADPCM编码。

第二类包括通过模型(通常地，线性预测模型)来表示信号的技术，该模型具有使用从波形编码得到的方法而确定的参数。出于这个原因，该类经常被称为混合编码。例如，CELP(码本激励线性预测)编码属于该第二类。在CELP编码中，通过由语音生成过程启发的“音源-滤波器”模型编码输入信号。传输的参数分别表示音源(或“激励”)和滤波器。滤波器通常为全极点滤波器。编码音频频率信号、并且更具体的CELP编码和量化的基本概念在下面的著作中具体解释：W.B.Kleijn和K.K.Paliwal，editors，Speech Codingand Synthesis，Elsevier，1995和Nicolas Moreau，Techniques de compression dessignaux[Signal compression techniques]，Collection Technique et Scientifique desTélécommunications，Masson，1995。

第三类包括如MPEG 1和2层III(更为人所知的是MP3)或MPEG 4 AAC的编码技术。

ITU-T G.729系统是为在8千赫兹(kHz)采样的电话频带(300赫兹(Hz)-3400Hz)中的语音信号设计的CELP编码的一个实例。其以10豪秒(ms)帧操作在每秒8千比特(kbps)的固定比特率。其操作在ITU-T建议G.729(使用共轭结构的代数码本激励线性预测(CS-ACELP)以8kbps语音编码，1996年3月)中详细指定。

图1(a)、1(b)和1(c)一起构成相关联的编码器和解码器的简化图。图1(c)示出G.729解码器如何从由解复用器(112)提供的数据重构语音信号。通过加上两组成部分激励被重构为5ms子帧：

创新器码本(113)，5ms长，由通过增益g_c(114和118)缩放±1的4个脉冲和零构成；

5ms块，其由激励在过去取得，并且被移动了分数延迟(由基音参数T0，T0_frac指定)，由增益g_p(117和118)缩放。

以这种方式解码的激励通过10阶LPC(线性预测编码)合成滤波器1/A(z)(120)整形，其具有在LSF(线谱频率)域中从谱线对解码(119)并且在5ms子帧级插值的系数。为了改进质量并掩码某些编码人为干扰，重建的信号然后通过自适应后滤波器(121)和后处理高通滤波器(122)处理。图1(c)解码器因此依靠“音源-滤波器”模型来合成信号。与该模型相关联的参数在图2表中列出，其中描述激励的那些参数与描述滤波器的那些不同。

图1(a)表示G.729编码器的很高级别的图。其因此示出预处理高通滤波(101)、LPC分析和量化(102)、激励的编码(103)和编码参数的复用(104)。G.729编码器的预处理和LPC分析和量化块在此不讨论；更多细节参见上面引用的ITU-T建议。图1(b)是激励编码的图。其示出图2中列出的激励参数如何被确定和量化。激励以三个步骤编码：

基音延迟(106)的确定和基音增益(107)的估计；

在ACELP字典(4个脉冲(108)的位置和符号)中创新器码本的参数的确定和增益(109)的估计；

基音和码本增益的联合编码。

通过最小化CELP目标(105)和由W(x)/(z)(110)滤波的激励之间的二次误差(111)来确定激励参数。该通过合成的分析过程在上面引用的ITU-T建议中详细描述。

实践中，G.729编码器/解码器(编解码器)的复杂度相对高(大约18WMOPS(加权百万次操作每秒))。为了满足如经由DSVD(数字同时语音和数据)调制解调器进行语音和数据的同时传输的应用的要求，ITU-T：G.729A编解码器还建议较少复杂度(大约9WMOPS)的互通系统。这在R.Salami等人的Description of ITU-T Recommendation G.729 Annex A：Reducedcomplexity 8 kbps CS-ACELP codec，ICASSP 1997中描述并与G.729编解码器比较。

G.729和G.729A之间的显著区别在于，减少G.729复杂度最多的与在ACELP字典中的搜索有关：在G.729A编码器中，首先四个带符号的脉冲的深度搜索代替在G.729编码器中使用的交织循环搜索。由于其低复杂度，G.729A编解码器现在非常广泛地应用于IP语音或电话频带(300-3400Hz)中的ATM应用中。

随着光纤和如ADSL的宽带网络的增长，现在可以构思部署新的服务，如比使用电话频带的标准系统远远更高质量的双向通信。该方向上的一个步骤是提供“宽带”质量，即，使用以16kHz采样并且限制在50Hz-7000Hz的可使用频带内的音频频率信号。则获得的质量类似于AM无线电的质量。

用于部署“宽带”质量而不是“窄带”质量的编解码器的选择必须考虑许多重要的因素。

现有IP网络和连接点(电话调制解调器、ADSL、LAN、WiFi等)的基础结构在比特率、以抖动、分组丢失比特率等为特征的服务质量方面极度异构。

再现声音的终端(电话、PC等)有时在采样频率和音频通道数方面不同。有时难以在编码器中预先判读终端的实际能力。

用于编码音频频率信号(包括G.729和G.729A编解码器)的许多标准已经部署在网络中。尽管其通常意味质量的损失和不能忽略的复杂度，然而经常需要各种关联的格式之间的转换编码(例如，在网关或路由器中)。

称为“分级”编码的方法是最适于考虑所有这些限制的技术解决方案。

与以固定比特率生成比特流的传统编码(如G.729或G.729A编码)不同，分级编码生成可以全部或部分解码的比特流。作为总的原则，分级编码包括核心层和一个或更多增强层。核心层通过低的固定比特率的核心编解码器生成，保证最小编码质量。该层必须由解码器接收以维持可接受的质量级别。增强层用于改进质量。然而，可能发生这样的情况：例如在IP网络的拥塞的情况下，由于传输错误它们不能全部由解码器接收。

该技术因此在比特率和重建的质量的选择方面提供了很大灵活性。编码器总是假设比特率是最大比特率。然而，在通信链的任何地方，比特率都可以简单地通过删减比特流而适配。此外，分级编码可以依赖于在电话频带类型(如ITU-T G.729和G.729A标准)中的CELP编码的标准，主动地部署宽带质量。

在基于CELP核心编码器的分级编码的各种方法中，下面的四种方法可能被提到：

如在R.D.De lacovo，D.Sereno的论文Embedded CELP coding forvariable-rate between 6.4 and 9.6kbDs(ICASSP 1991)中描述的具有激励增强的分级CELP编码；

如在J.-M.Valin等人的论文Bandwidth Extension of Narrowband Speechfor Low Bit-Rate Wideband Coding(IEEE Speech Coding Workshop(SCW)会议记录，2000，第130-132页)中描述的具有辅助信息的传输的频带扩展。

在S.K.Jung，K-T.Kim，H-G.Kang的论文A bit/rate band scalable speechcoder based on ITU-T G.723.1 standard(ICASSP 2004)中，分级编码器从G.723.1编码器构造有两个增强层，第一个是电话频带级联CELP类型，而第二个是由QMF(正交镜像滤波器)滤波实现的高频带变换编码；

在H.Taddéi等人的论文A scalable Three Bit rate(8，14.2 and 24kbps)Audio Coder(第107届AES 1999大会)中，编码使用G.729 8kbps核心编码器、中间电话频带增强层以增加比特率到14.2kbps，其后跟随使用变换编码的宽带增强层以达到24kbps。

通过激励增强的分级CELP编码和图1(b)中示出的编码的概念之间的不同在于，添加了创新器字典以更好地表示CELP目标。该编码方法实际上类似于在CELP目标域(或“感知”加权域)中进行的多级量化。该额外的字典增强或加强了解码激励，因为其实际上向解码器级增加了如图1(c)所示的标准CELP解码的两个自适应和固定字典的累积部分。该CELP激励增强原理还可以变为包括额外的适配字典或多个创新器字典。

由J.-M.Valin在上面的论文中提出的频带扩展系统如图3的图中所示。通过添加(31)三个部分，电话频带(300Hz-3400Hz)中的信号被加宽到0-8000Hz宽带：

■由块(32)重新产生的基带；

■例如由G.729系统(40)编码并由块(33)以16kHz重采样的电话频带信号；

■借助块(34)到(39)构造的高频带。

更具体地，在该图中注意到在“音源-滤波器”模型上发现的高频带的扩展。其以确定预测滤波器A_NB(z)(36)的系数的窄带LPC分析(34)开始。该LPC分析的结果还由LPC包络扩展单元(35)用于确定全频带LPC合成滤波器1/B_WB(z)(38)的系数。包络扩展可以使用例如不传输辅助信息或具有显式信息的密码本映射技术进行，该显式信息需要通过以低附加比特率量化来传输。并行地，窄带LPC残余(或激励)信号通过单元(36)计算。以8kHz采样的产生激励被通过单元(37)扩展到16kHz的采样频率。该操作可以在激励域中通过采用非线性、上采样和滤波执行，以便扩展谐波结构并白化全频带激励。扩展的激励然后通过全频带合成滤波器1/B_WB(38)整形，并且结果由高通滤波器(39)限制在3400Hz-8000Hz频带。

然而，现有技术的所有已知技术产生下面的问题：

·由某些人为干扰劣化的宽带语音，如由QMF滤波器组的使用引起的混混淆；

·由链接到语音生成过程的模型恶劣地编码的音乐；

·高比特率粒度；

·由使用变换编码的增强层中前回波的存在而劣化的质量；

·延迟和复杂度。

此外，某些基本问题在现有技术中很少触及：预处理和后处理的相位非线性几乎没有考虑。如果预处理和后处理滤波器的相位非线性(或群延迟)没有补偿或消除，则依赖编码在较低层的合成和原始(预处理的或没有)之间的差信号的增强层具有非常劣化的性能。

因此，本发明的目的在于，通过提出一种用于编码分级音频信号的系统以改善上述各种问题，该系统包括：至少一核心层，其在第一频带中使用通过合成分析的参数编码；用于加宽所述第一频带到第二频带(或宽带)的频带扩展层，注意在所述系统中还包括宽带音频编码质量增强层，其基于使用从所述频带扩展层获得的谱参数的变换编码。

这里应当强调，在本说明书中使用的术语“宽带”对应“扩展频带”的一般概念的具体实例。这里，“宽带”意味着从第一频带(300Hz到3400Hz的电话频带)扩展到50Hz到7000Hz的第二频带(宽带)产生的频带。

所述系统的有利实施例还包括第一频带音频编码质量增强层。

在本发明的编码系统的第一实施例中，所述谱参数是从频带扩展层获得的谱包络。可以预期两个实施例：所述谱包络由宽带线性预测滤波器指定，或所述谱包络由信号的每子频带的能量给出。

在本发明的编码系统的第二实施例中，所述谱参数至少是由频带扩展层合成的信号的变换的一部分。所述系统然后有利的包括用于逐渐调整由频带扩展层合成的信号的变换的子频带中的能量的模块。

本发明还为所述通过合成分析的参数编码提供为CELP编码。具体地，所述CELP编码是G.729编码或G.729A编码。

因此，如下详细所示，本发明提出的编码系统构成能够以例如8kbps到12kbps的比特率并且以14kbps到32kbps的所有比特率操作的分级编码系统。

响应于由现有技术提出的问题，根据本发明的编码/解码系统如下：

·宽度合成语音没有前回波，并且不存在混淆类型人为干扰；

·音乐以足够高的比特率(在24kbps到32kbps的范围内)良好地编码；

·比特率粒度在14kbps到32kbps的范围内非常精细(到最接近的比特)。

本发明还提供了一种实现根据第一实施例的编码系统的方法，包括如下步骤：

·在所述第一频带中编码原始信号；

·使用谱包络在第一频带的扩展中编码原始信号；

·从之前编码操作获得的信号和原始信号计算残余信号；

值得注意的是，所述方法还包括步骤：使用变换编码产生音频编码质量增强层，所述残余信号的所述变换编码利用所述谱包络。

本发明还提供了实现根据第二实施例的编码系统的方法，包括如下步骤：

·在所述第一频带中编码原始信号；

·在所述第一频带的扩展层中编码原始信号；

·根据从之前编码操作获得的信号和原始信号计算残余信号；

值得注意的是，所述方法还包括步骤：使用所述残余信号的变换编码产生增强层，所述变换编码利用由频带扩展层合成的信号的变换。

所述方法有利地包括步骤：逐渐调整由频带扩展层合成的信号的变换的子频带中的能量。

本发明还提供了一种计算机程序，其包括当所述程序由计算机执行时用于执行根据本发明的方法的各步骤的程序指令。

本发明还包括第一分级音频编码器，包括：

·核心编码器，其使用通过合成分析的参数编码，被适配为在第一频带中编码原始信号；

·第一频带的扩展中的编码级，包括谱包络；

·用于根据从之前编码级获得的信号和原始信号计算残余信号的级；

值得注意的是，所述编码器还包括通过包括使用变换编码的宽带音频编码质量增强级，所述变换编码包括使用所述谱包络的逆变换。

类似地，本发明提供了第二分级音频编码器，包括：

·在第一频带的扩展中的编码级；

用于根据从之前编码级获得的信号和原始信号计算残余信号的级；

值得注意的是，所述编码器还包括使用变换编码的宽带音频编码质量增强级，该变换编码使用由频带扩展层合成的信号的变换。

本发明还提供了第一分级音频解码器，包括：

·核心解码器，其使用通过合成分析的参数编码，被适配为在第一频带中解码由第一编码器编码的接收信号；

·第一频带的扩展中的解码级，包括谱包络；值得注意的是，所述解码器还包括使用变换解码的宽带音频解码质量增强级，所述变换解码包括使用所述谱包络的逆变换。

最后，本发明提供了第二分级音频解码器，包括：

·核心解码器，其使用通过合成分析的参数编码，被适配为在第一频带中解码由第二编码器编码的接收信号；

·在第一频带的扩展中的解码级；

值得注意的是，所述解码器还包括使用变换解码的宽带音频解码质量增强级，所述变换编码包括使用由频带扩展层合成的信号的变换的逆变换。

附图说明

下面参照附图的描述解释了系统的组成并且对于实践其可以如何减少，附图以非限制示例的方式提供。

图4(a)是根据本发明的编码器的前三级的图。

图4(b)是来自图4(a)的编码器的第四级(即编码级)的图。

图5是在本发明中使用的低通滤波器的系数的表。

图6是用于根据本发明产生宽带增强信号的高通滤波器的系数的表。

图7是指定根据本发明的MDCT谱的子频带的划分的表。

图8是给出根据本发明、为每个帧分配给编码器和解码器的每个参数的比特数的表。

图9表示与本发明相关联的比特流的结构。

图10(a)是根据本发明的四层解码器的概图。

图10(b)是来自图10(a)的解码器的变换预测解码级的详细图。

具体实施方式

图4(a)到10(b)示出由接下来顺序描述的编码器和解码器构成的分级编码/解码系统。

在本说明书的剩余部分，应当记得术语“宽带”指扩展到50Hz-7000Hz域的电话频带300Hz-3400Hz的具体环境。

图4(a)是编码器的框图。具有在50和7000Hz之间的可用频带并以16kHz采样的原始音频信号被划分成320个采样(或20ms)的各帧。具有50Hz的截止频率的高通滤波601被施加到输入信号。获得的信号S^WB用于编码器的多个分支，并且对应实际编码的信号。

首先，在第一分支中，低通滤波(具有如在图5的表中提出的系数)和通过因子2的下采样602被施加到S^WB。这产生了以8kHz采样的电话频带信号S^LB。该信号由核心编码器603例如通过CELP G.729A+类型编码处理。这里，G.729A+编码器对应不具有高通滤波预处理的G.729编码器，对该编码器，ACELP字典中的搜索已经由如上所述的G.729A的搜索代替。该实施例的变体可以使用G.729A或G.729编码器或其他CELP类型编码器而无预处理。该编码对于G.729A+编码器给予比特流的核心8kbps的比特率。

第一增强层然后引入CELP编码的第二级603。该第二级存在创新器码本，该创新器码本包括对于5ms子帧的四个额外±1脉冲(与G.729A的字典等效的字典)，这些脉冲由增益g_enh缩放。该增强级的原理已经参照R.D.Delacovo的论文在上面描述。该字典丰富了CELP激励，并且特别对于非语音的声音提供了质量改进。该第二编码级的比特率是4kbps，并且关联的参数是脉冲的位置和符号和对40个采样(以8kHz，5ms)的每个子帧的关联增益。在该实施例的变体中，该编码级使用其他增强模式，例如在上面所述的De lacovo论文中描述的那些。

核心编码器和第一增强层被解码以获得12kbps电话频带合成信号。重要的是注意到，核心编码器的自适应后滤波和后处理(高通滤波)被去激活，以便考虑这些操作的非线性相移；原始预处理信号和在8和12kbps的合成之间的差因此被最小化。上采样和低通滤波604产生在编码器的前两级的16kHz采样的版本。

宽带信号由第二增强层(也称作频带扩展层)产生。输入信号S^WB可以通过预加重滤波器605以μ＝0.68滤波。该滤波器从宽带线性预测滤波器提供更高频率的更好表示。为了补偿预加重滤波器的影响，双重去加重滤波器606然后用于该合成过程中。在优选实施例中，预加重和去加重滤波器没有用于编码和解码结构中。下一步骤计算和量化宽带线性预测滤波器607。线性预测滤波器是第18阶滤波器，但是该实施例的变体中选择另一预测阶，例如更低阶(第16阶)。线性预测滤波器可以通过使用Levinson-Durbin算法的自相关方法计算。

该宽带线性预测滤波器

使用这些系数的预测量化，其中从来自电话频带核心编码器603的滤波器

可用。系数然后可以使用例如多级矢量量化和电话频带核心编码器的去量化LSF参数来量化，如在H.Ehara，T.Morii，M.Oshikiri和K.Yoshida的论文Predictive VQ for bandwidth scalableLSP quantization(ICASSP 2005)中描述的。

宽带激励608从核心编码器的电话频带激励参数(核心编码器的基音延迟、关联增益和代数激励)和第一CELP激励增强层及关联的增益获得。该激励使用电话频带级激励的参数的上采样版本产生。在该实施例的变体中，激励依据基音延迟和关联增益计算，这些参数用于从白噪声产生谐波激励。在该变体中，来自代数字典的激励由白噪声代替。

该宽带激励然后由先前计算的合成滤波器609滤波。如果预加重已经施加到输入信号，则去增强滤波器606被施加到合成滤波器的输出信号。获得的信号是还没有调整其能量的宽带信号。为了计算用于调节高频带(3400-7000Hz)的能量的增益，高通滤波611(具有如在图6的表中展示的系数)被施加到宽带合成信号。与此并行，相同的高通滤波器612被施加到误差信号，该误差信号对应于前两级的合成信号和延迟的原始信号610之间的差。这两个信号然后用于计算要施加到宽带合成信号的增益。该增益由两个信号之间的能量比计算。增益g^WB 611然后在80个采样(以16kHz，5ms)的子帧的级别施加到信号S¹⁴ _UB。以该方式获得的信号被加到来自先前级的合成信号，以创建对应于14kbps的比特率的宽带信号。

编码的剩余部分使用利用来自频带扩展层的线性预测滤波器的变换预测编码方案在频域中进行。

该编码级构成宽带编码质量增强层。

图4(b)示出编码器的该部分。延迟的输入信号614和以14kbps的合成信号615通过A_WB(z/γ)*(1-μz)的各个感知加权616和617而滤波，典型地，γ＝0.92并且μ＝0.68。这些信号然后通过变换编码方案而编码。

修正离散余弦变换(MDCT)被施加到：具有50％的重叠的加权输入信号618的640个采样的各块(每20ms对MDCT分析刷新)，和来自先前频带扩展级以14kbps的加权合成信号619(相同块长度和相同重叠)。要编码的MDCT谱620对应加权输入信号和以14kbps对0到3400Hz频带的合成信号之间的差，并且对应从3400Hz到7000Hz的加权输入信号。通过将最后40个系数设置为零，频谱被限于7000Hz(仅编码前280个系数)。频谱被划分成18个频带：八个系数的一个频带和16个系数的17个频带，如在图7的表中提出的。该实施例的变体使用相同宽度的20个频带(14个系数)。对频谱的每个频带，计算MDCT系数的能量(比例因子)。18个比例因子构成加权信号的谱包络，该加权信号然后被量化、编码并以帧传输。

高频带(3400Hz-7000Hz)的比例因子在低频带(0-3400Hz)的那些之前传输，如在图9中示出的比特流格式所示。

动态比特分配基于来自谱包络的去量化版本的频谱的频带能量。其实现了编码器和解码器的二进制分配之间的兼容性。在TDAC(时域混叠取消)模块620中的各比特的分配以两个阶段进行。首先，进行分配给每个频带的比特数的第一计算；获得的每个值被四舍五入到最接近的可用字典比特率。如果分配的总比特率不确切等于其可用的，则第二阶段被用来进行调整。该阶段基于将各比特加到频带或从各频带移除各比特的能量准则，通过迭代过程进行，如在Y.Mahieux和J.P.Petit的论文Transform coding of audio signals at64kbps(IEEE GLOBECOM 1990)中描述的。因此，如果分布的总比特数小于该可用的，则各比特被加到其感知增强最大的(最大能量)频带。在分布的总比特数大于其可得的相反情形，以双重方式进行从各频带提取各比特。

每个频带中归一化的(精细结构)MDCT系数然后使用在大小和分辨率上交织的字典，通过矢量量化器量化，字典由如在国际申请WO/0400219中描述的置换码的联合构成。最后，关于核心编码器、电话频带CELP增强级、宽带CELP级、并且最后的谱包络和解码的归一化系数的信息被复用并以各帧传输。

分配给编码器和解码器的每个参数的比特数在图8的表中提出。

图9中示出比特流的帧结构。

接下来参照图10(a)和10(b)描述解码器的结构。

模块701解复用在比特流中包含的参数。存在多种解码情形，基于对帧接收的比特数，其中前三个参照图10(a)描述，并且最后的参照图10(b)描述：

1.第一个涉及由解码器对最小比特数的接收。在此情形，仅解码第一级。因此仅与CELP(G.729+)类型核心解码器702相关的比特流被接收和解码。该合成可以通过G.729解码器的自适应后滤波器和后处理来处理。该信号被上采样并且滤波，以产生以16kHz采样的信号(703)。

2.第二情形涉及与第一和第二解码级有关的比特数的接收。在该情形，核心解码器和第一CELP激励增强级被解码。该合成可以通过G.729解码器的自适应后滤波器和后处理而处理。该信号被上采样和滤波以产生以16kHz采样的信号(703)。

3.第三情形对应与前三个解码级相关的比特数的接收。在该情形中，前两个解码级首先如情形2一样进行，其后频带扩展模块在解码宽带解码谱线对(WB-LSF)(704)的参数和与激励关联的增益后，产生以16kHz采样的信号。宽带激励从核心编码器和第一CELP增强级705的参数产生。该激励然后由合成滤波器706滤波，并且如果预加重滤波器在编码器中使用则合适时由去加重滤波器707滤波。高通滤波器708被应用到获得的信号，并且频带扩展信号的能量通过相关联的增益(709)每5ms而适配。该信号然后加到从前两个解码器级获得的以16kHz采样的电话频带信号。借助于获得限制到7000Hz的信号，该信号通过在经过逆向MDCT变换713和加权合成滤波器714之前，将最后40个MDCT系数设置为零，在变换域中滤波。

4.该最后的情形对应解码器的最后级的解码(图10(b))。该级对应宽带解码质量增强层。该级包括使用来自频带扩展层的线性预测滤波器的预测变换解码器。首先执行上述的步骤3，然后解码方案基于接收的额外比特数被适配：

·如果比特数仅对应于谱包络715的一部分，或其全部但是没有精细结构被接收(721)，则部分或全部谱包络被用于调整3400Hz和7000Hz(720)之间的MDCT系数(722)的频带的能量，其对应由频带扩展级711产生的信号的变换部分。该系统基于接收的比特数实现音频质量的主动增强。

·如果比特数对应整个谱包络，并且对应精细结构的部分或全部，则比特分配以与编码器716中相同的方式进行。在接收精细结构的频带中，解码的MDCT系数从谱包络715和解量化的精细结构717中计算。在还没有接收精细结构的3400Hz和7000Hz之间的谱频带中，使用来自先前段落的过程，即，从由频带的扩展获得的信号计算的MDCT系数(其构成从频带扩展层获得的谱参数)基于接收的谱包络而在能量上调整(722)。用于合成的MDCT谱因此由下述构成：首先，在加到范围0到3400Hz(718和720)的频带中的解码误差信号的前两个解码级中的合成信号；其次，对于范围3400Hz到7000Hz的频带，在已经接收精细结构的频带中解码的MDCT系数、和在对其他谱频带调整能量的频带扩展级的MDCT系数(721和722)。

然后逆向MDCT变换施加到解码的MDCT系数(713)，并且通过加权合成滤波器(714)的滤波产生输出信号。

在上述实施例的变体中，预测变换编码/解码级完全对范围0到7000Hz中的频带扩展级的合成信号和原始信号之间的差信号操作。

在该实施例的另一变体中，频带扩展在来自由精细结构的编码和信号的每个子频带的能量给出的谱包络的变换域中，对编码和解码进行。该谱包络可以通过因子量化而量化。在该变体中，宽带增强级使用如上所述的TDAC类型变换(没有加权滤波)。因此，由信号的每个子频带中的能量给出并构成谱参数的谱包络，在频带扩展级中传输并且由宽带增强层重新使用。

此外，在替代实施例中，第一编码频带可对应50Hz-7000Hz宽带，而第二编码频带可以是FM频带(50Hz-15000Hz)或HiFi频带(20Hz-2400Hz)。

Claims

1.一种分级音频编码器，至少包括：核心编码模块，其在第一频带中使用通过合成分析的参数编码；频带扩展编码模块，计算和量化宽带线性预测滤波器系数，使用从核心编码模块获得的激励参数，产生宽带激励信号，将产生的宽带激励信号经过相对于所述线性预测滤波器的合成滤波器进行滤波，以将所述第一频带加宽到第二频带，或者，所述频带扩展编码模块使用音频信号的每个子频带的能量给出的变换域中的谱包络并编码一精细结构，将所述第一频带加宽到第二频带，其特征在于，所述编码器还包括宽带音频编码质量增强编码模块，其基于使用从所述频带扩展编码模块获得的谱参数的变换编码。

2.如权利要求1所述的编码器，其特征在于所述编码器还包括第一频带音频编码质量增强编码模块。

3.如权利要求1-2的任一所述的编码器，其特征在于所述谱参数是从频带扩展编码模块获得的谱包络。

4.如权利要求3所述的编码器，其特征在于所述谱包络由宽带线性预测滤波器指定。

5.如权利要求3所述的编码器，其特征在于所述谱包络由音频信号的每子频带的能量给出。

6.如权利要求1到2的任一所述的编码器，其特征在于所述谱参数是从频带扩展编码模块合成的信号获得的变换信号的至少一部分。

7.如权利要求6所述的编码器，其特征在于所述编码器包括用于逐渐调整由频带扩展编码模块合成的信号的变换的子频带中的能量的模块。

8.一种用于编码音频信号的方法，包括下面的步骤：

使用参数编码通过合成分析在第一频带中编码原始信号；

在所述第一频带的扩展频带中编码原始信号的步骤，其具体为计算和量化宽带线性预测滤波器系数，使用从核心编码模块获得的激励参数，产生宽带激励信号，将产生的宽带激励信号经过相对于线性预测滤波器的合成滤波器进行滤波，以在所述第一频带的扩展频带中编码原始信号，或者，在所述第一频带的扩展频带中编码原始信号的步骤具体为，使用音频信号的每个子频带的能量给出的变换域中的谱包络并编码一精细结构，在所述第一频带的扩展频带中编码原始信号；

根据从之前编码操作获得的信号和原始信号计算残余信号；

其特征在于，所述方法还包括步骤：使用变换编码产生音频编码质量增强层，所述残余信号的所述变换编码使用从所述第一频带的扩展频带的编码中获得的谱参数。

9.如权利要求8所述的方法，其特征在于，所述谱参数是从所述第一频带的扩展频带的编码中获得的谱包络。

10.如权利要求8所述的方法，其特征在于，所述谱参数是由所述第一频带的扩展频带的编码合成的信号获得的变换信号的至少一部分。

11.如权利要求8-10的任一所述的方法，其特征在于，所述方法包括步骤：逐渐调整由所述第一频带的扩展频带的编码合成的信号的变换的子频带中的能量。

12.一种分级音频解码器，包括：

核心解码模块(702)，其使用通过合成分析的参数编码，被适配为在第一频带中解码由根据权利要求1所述的编码器编码的接收信号；

用于解码第一频带的扩展频带的解码模块；

其特征在于，所述解码器还包括使用变换解码的宽带音频解码质量增强模块，所述变换解码包括使用从所述扩展频带的解码中获得的谱参数的逆变换。

13.如权利要求12所述的解码器，其特征在于，所述谱参数是从所述第一频带的扩展频带的解码中获得的谱包络。

14.如权利要求12所述的解码器，其特征在于，所述谱参数是从所述第一频带的扩展频带的解码合成的信号获得的变换信号的至少一部分。

15.如权利要求12-14的任一所述的解码器，其特征在于，所述解码器包括用于逐渐调整由变换编码产生的谱的子频带中的能量的模块。

16.如权利要求15所述的解码器，其特征在于，所述核心解码模块(702)包括第一频带音频解码质量增强模块。