CN102648494A

CN102648494A - 多模式音频信号解码器、多模式音频信号编码器、使用基于线性预测编码的噪声塑形的方法与计算机程序

Info

Publication number: CN102648494A
Application number: CN2010800556008A
Authority: CN
Inventors: 马克思·纽恩多夫; 纪尧姆·福奇斯; 尼古劳斯·雷特尔巴赫; 汤姆·贝克斯特伦; 耶雷米·勒科米特; 于尔根·赫莱
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2009-10-08
Filing date: 2010-10-06
Publication date: 2012-08-22
Anticipated expiration: 2030-10-06
Also published as: TWI423252B; PL2471061T3; BR122021023896B1; RU2012119291A; CA2777073A1; CA2777073C; KR20120063543A; MX2012004116A; TW201137860A; AU2010305383A1; US8744863B2; ES2441069T3; JP2013507648A; CN102648494B; BR112012007803A2; MY163358A; KR101425290B1; US20120245947A1; AU2010305383B2; ZA201203231B

Abstract

一种用于基于一音频内容的一编码表示型态来提供该音频内容的一解码表示型态的多模式音频信号解码器包含一频谱值确定器，其被构造为获得针对该音频内容的多个部分的各组解码频谱系数。该音频信号解码器还包含一频谱处理器，其被构造为，针对在线性预测模式中编码的音频内容的一部分根据一组线性预测域参数将一频谱塑形应用于一组解码频谱系数或其一预处理形态，及针对在频域模式中编码的音频内容的一部分根据一组比例因子参数将一频谱塑形应用于一组解码频谱系数或其一预处理形态。该音频信号解码器还包含一频域至时域转换器，其被构造为，针对在线性预测模式中编码的该音频内容的一部分基于频谱塑形的一组解码频谱系数获得该音频内容的一时域表示型态，并针对在频域模式中编码的该音频内容的一部分基于频谱塑形的一组解码频谱系数获得该音频内容的一时域表示型态。本发明还描述一音频信号编码器。

Description

多模式音频信号解码器、多模式音频信号编码器、使用基于线性预测编码的噪声塑形的方法与计算机程序

技术领域

依据本发明的实施例涉及一种用于基于一音频内容的一编码表示型态来提供该音频内容的一解码表示型态的多模式音频信号解码器。

依据发明的进一步实施例涉及一种用于基于一音频内容的一输入表示型态来提供该音频内容的一编码表示型态的多模式音频信号编码器。

依据发明的进一步实施例涉及一种用于基于一音频内容的一编码表示型态来提供该音频内容的一解码表示型态的方法。

依据发明的进一步实施例涉及一种用于基于一音频内容的一输入表示型态来提供该音频内容的一编码表示型态的方法。

依据发明的进一步实施例涉及实施这些方法的计算机程序。

背景技术

下面将阐述一些发明背景以有利于理解发明及其优点。

在过去十年中，在产生数字地存储及分配音频内容的可行性上已进行了很大努力。此方面上的一重大成就是定义国际标准ISO/IEC 14496-3。此标准的第3部分涉及音频内容的编码与解码，并且第3部分的第4分部涉及一般音频编码。ISO/IEC 14496第3部分第4分部定义了用于编码及解码一般音频内容的一概念。此外，已提出了进一步的改进以便提高质量及/或减小需要的位率。

再者，已发现的是，基于频域的音频编码器的性能针对包含语音的音频内容不是最佳的。最近，已提出了一统一的语音及音频编解码器，其将来自两世界（即语音编码与音频编码（例如，参见参考文献[1]））的技术有效地组合。

在一音频编码器中，一些音频帧在频域中编码及一些音频帧在线性预测域中编码。

然而，已发现难以在不牺牲大量位率的情况下在不同域中编码的各帧间转变。

鉴于此情况，期望产生一种用于编码及解码包含语音与一般音频的音频内容的概念，这允许有效地实现在使用不同模式编码的各部分间进行转变。

发明内容

发明概要

依据发明的一实施例产生一种用于基于一音频内容的一编码表示型态来提供该音频内容的一解码表示型态的多模式音频信号解码器，该音频信号解码器包含一频谱值确定器，其被构造为获得针对该音频内容的多个部分的各组解码频谱系数。该多模式音频信号解码器还包含一频谱处理器，其被构造为，针对在线性预测模式中编码的该音频内容的一部分依一组线性预测域参数将一频谱塑形应用于一组解码频谱系数或其一预处理形态，及针对在频域模式中编码的该音频内容的一部分依一组比例因子参数将一频谱塑形应用于一组解码频谱系数或其一预处理形态。该多模式音频信号解码器还包含一频域至时域转换器，其被构造为，针对在线性预测模式中编码的该音频内容的一部分基于频谱塑形的一组解码频谱系数获得该音频内容的一时域表示型态，及针对在频域模式中编码的该音频内容的一部分基于频谱塑形的一组解码频谱系数获得该音频内容的一时域表示型态。

该多模式音频信号解码器是基于此观测结果：在不同模式中编码的音频内容的各部分间的有效率转变可通过执行频域中的一频谱塑形而获得，还即，针对在频域模式中编码的音频内容的各部分与针对在线性预测模式中编码的音频内容的各部分，对各组解码频谱系数的频谱塑形。通过这么做，针对在线性预测模式中编码的音频内容的一部分基于频谱塑形的一组解码频谱系数获得的一时域表示型态，与针对在频域模式中编码的音频内容的一部分基于频谱塑形的一组解码频谱系数获得的一时域表示型态在“同一域中”（例如，是同一转换类型的频域至时域转换的输出值）。因而，在线性预测模式中编码的音频内容的一部分的时域表示型态与在频域模式中编码的音频内容的一部分的时域表示型态可有效率组合而没有不可接受的失真。举例而言，典型频域至时域转换器的混迭消除特性可由在同一域中（例如，都表示一音频内容域中的一音频内容）的频域至时域转换信号利用。因而，可获得在不同模式中编码的音频内容的各部分间的良好质量转变而无需大量位率来允许此类转变。

在一较佳实施例中，多模式音频信号解码器进一步包含一迭加器，其被构造为将在线性预测模式中编码的该音频内容的一部分的一时域表示型态与在频域模式中编码的该音频内容的一部分重迭及相加。通过使在不同域中编码的音频内容的各部分重迭，可实现优点，该优点在多模式音频信号解码器的两种模式中都可通过将频谱塑形的各组解码频谱系数输入于频域至时域转换器中而获得。通过在频域至时域转换之前在多模式音频信号解码器的两模式中都执行频谱塑形，在不同模式中编码的音频内容的各部分的时域表示型态通常包含非常好的重迭及相加特性，这允许良好质量转变而无需额外旁侧信息。

在一较佳实施例中，该频域至时域转换器被构造为，针对在线性预测模式中编码的该音频内容的一部分使用一重迭变换获得该音频内容的一时域表示型态，及针对在频域模式中编码的该音频内容的一部分使用一重迭变换获得该音频内容的一时域表示型态。在此情况中，迭加器较佳地被构造为使在这些模式的不同模式中编码的该音频内容的后续部分的时域表示型态重迭。因此，可获得平滑转变。由于对两种模式都在频域中应用一频谱塑形，频域至时域转换器在两种模式中提供的时域表示型态兼容及允许良好质量转变。使用重迭变换带来转变的质量与位率效率间的一改进折衷，因为重迭变换即使在出现量化误差时也允许平滑转变同时避免重大位率开销。

在一较佳实施例中，频域至时域转换器被构造为应用同一转换类型的重迭变换以针对在这两个模式的不同模式中编码的该音频内容的各部分获得该音频内容的时域表示型态。在此情况中，迭加器被构造为使在这些模式的不同模式中编码之该音频内容的后续部分的该时域表示型态重迭及相加，使得由该重迭变换引起的一时域混迭减少或消除。该概念是基于此事实：通过在频域中应用比例因子参数及线性预测域参数二者，频域至时域转换器对两模式的输出信号都在同一域（音频内容域）中。因此，可利用混迭消除，其通常通过将同一转换类型的重迭变换应用于一音频信号表示型态的后续及部分重迭部分来获得。

在一较佳实施例中，该迭加器被构造为使，如由一相关联重迭变换提供、在这些模式的一第一模式中编码的该音频内容的一第一部分的一窗口化时域表示型态，或其一量值缩放而频谱未失真形态，与由一相关联重迭变换提供、在这些模式的一第二模式中编码的该音频内容的一第二后续部分的一窗口化时域表示型态，或其一量值缩放而频谱未失真形态重迭及相加。通过在合成重迭变换的输出信号避免应用不为音频内容的后续部分所用全部不同编码模式共享的任一信号处理（例如，一滤波等），由重迭变换的混迭消除特性可采用全部优点。

在一较佳实施例中，该频域至时域转换器被构造为提供在这两个模式的不同模式中编码的该音频内容的各部分的时域表示型态，使得这些提供的时域表示型态在同一域中，因为它们是线性组合的，除了一窗口化转变操作外，未将一信号塑形滤波操作应用于所提供时域表示型态中的一或两者。换言之，频域至时域转换的输出信号对两模式都是音频内容的时域表示型态（及对一激发域至时域转换滤波操作，不是激发信号）。

在一较佳实施例中，频域至时域转换器被构造为执行一反向修正离散余弦转换，以针对在线性预测模式中编码的该音频内容的一部分及针对在频域模式中编码的该音频内容的一部分，获得一音频信号域中该音频内容的一时域表示型态作为该反向修正离散余弦转换的结果。

在一较佳实施例中，多模式音频信号解码器包含一LPC滤波器系数确定器，其被构造为针对在线性预测模式中编码的该音频内容的一部分基于这些线性预测编码滤波器系数的一编码表示型态来获得解码的线性预测编码滤波器系数。在此情况中，多模式音频信号解码器还包含一滤波器系数变换器，其被构造为将这些解码的线性预测编码滤波器系数转换成一频谱表示型态，以便获得与不同频率相关联的增益值。因此，LPC滤波器系数可充当线性预测域参数。多模式音频信号解码器还包含一比例因子确定器，其被构造为针对在一频域模式中编码的该音频内容的一部分基于这些比例因子值的一编码表示型态获得解码的比例因子值（其充当比例因子参数）。频谱处理器包含一频谱修正器，其被构造为将与在线性预测模式中编码的该音频内容的一部分相关联的一组解码频谱系数或其一预处理形态，与线性预测模式增益值相组合，以便获得（解码）频谱系数的一增益值处理（及，因而频谱塑形）形态，其中解码频谱系数或其预处理形态的贡献依增益值来加权。再者，频谱修正器被构造为将与在频域模式中编码的音频内容的一部分相关联的一组解码频谱系数或其一预处理形态，与解码比例因子值相组合，以便获得（解码）频谱系数的一比例因子处理（频谱塑形）形态，其中这些解码频谱系数或其预处理形态的贡献依这些比例因子值来加权。

通过使用此方法，在多模式音频信号解码器的两模式都可获得一拥有的噪声塑形同时仍确保频域至时域转换器在不同模式中编码的音频信号的各部分间转变时提供具有良好转变特性的输出信号。

在一较佳实施例中，系数转换器被构造为使用一奇离散傅立叶变换将表示一线性预测编码滤波器（LPC滤波器）的一时域脉冲响应的解码LPC滤波器系数转换成频谱表示型态。滤波器系数变换器被构造为，由解码LPC滤波器系数的频谱表示型态获取线性预测模式增益值，使得这些增益值是频谱表示型态的系数量值的一函数。因而，在线性预测模式中执行的频谱塑形接管一线性预测编码滤波器的噪声塑形功能。因此，解码频谱表示型态（或其预处理形态）的量化噪声被修改使得量化噪声对，解码LPC滤波器系数的频谱表示型态相对大的“重要”频率相对小。

在一较佳实施例中，滤波器系数变换器及组合器被构造为使得一指定解码频谱系数或其一预处理形态对指定频谱系数的一增益处理形态的贡献由与指定解码频谱系数相关联的一线性预测模式增益值的一量值确定。

在一较佳实施例中，频谱值确定器被构造为将一反向量化应用于解码量化频谱系数，以便获得解码及反向量化的频谱系数。在此情况中，频谱修正器被构造为，通过依与一指定解码频谱系数相关联的一线性预测模式增益值的一量值调整该指定解码频谱系数的一有效量化步骤来执行一量化噪声塑形。因此，在频谱域中执行的噪声塑形适于LPC滤波器系数描述的信号特性。

在一较佳实施例中，多模式音频信号解码器被构造为使用一中间线性预测模式开始帧以便自一频域模式帧转变至一组合线性预测模式/代数码激发线性预测模式帧。在此情况中，音频信号解码器被构造为获得该线性预测模式开始帧的一组解码频谱系数。再者，音频解码器被构造为依与的相关联的一组线性预测域参数将一频谱塑形应用于针对线性预测模式开始帧的该组解码频谱系数或其一预处理形态。音频信号解码器还被构造为基于频谱塑形的一组解码频谱系数获得线性预测模式开始帧的一时域表示型态。音频解码器还被构造为将具有一相对长左侧转变斜坡及一相对短右侧转变斜坡的一开始窗口应用于该线性预测模式开始帧的该时域表示型态。通过这么做，产生一频域模式帧与一组合线性预测模式/代数码激发线性预测模式帧间的转变，这包含与前一频域模式帧的良好重迭及相加特性且同时使线性预测域系数可为后续组合线性预测模式/代数码激发预测模式帧使用。

在一较佳实施例中，多模式音频信号解码器被构造为使在该线性预测模式开始帧之前的一频域模式帧的一时域表示型态的一右侧部分，与该线性预测模式开始帧的一时域表示型态的一左侧部分重迭，以获得一时域混迭的减小或消除。此实施例是基于此观测结果：良好时域混迭消除特性系通过在频域中执行对线性预测模式开始帧的一频谱塑形而获得，因为前一频域模式帧的频谱塑形还在频域中执行。

在一较佳实施例中，音频信号解码器被构造为使用与该线性预测模式开始帧相关联的线性预测域参数，以便初始化一代数码激发线性预测模式解码器来至少解码该组合线性预测模式/代数码激发线性预测模式帧的一部分。以此方式，不需要传输一些熟知方法中存在的额外一组线性预测域参数。线性预测模式开始帧允许即使对一相对长重迭周期也产生始于前一频域模式开始帧的一良好转变，及初始化一代数码激发线性预测（ACELP）模式解码器。因而，能以非常高的效率获得具有良好音频质量的转变。

依据发明的另一实施例产生一种用于基于一音频内容的一输入表示型态来提供该音频内容的一编码表示型态的多模式音频信号编码器，该音频编码器包含一时域至时间频率域转换器，其被构造为处理该音频内容的该输入表示型态以获得该音频内容的一频域表示型态。该音频编码器进一步包含一频谱处理器，其被构造为，针对在线性预测模式中编码的该音频内容的一部分依一组线性预测域参数将一频谱塑形应用于一组频谱系数或其一预处理形态。该音频信号编码器还被构造为针对在频域模式中编码的该音频内容的一部分依一组比例因子参数将一频谱塑形应用于一组频谱系数或其一预处理形态。

上述多模式音频信号编码器是基于此观测结果：如果音频内容针于在线性预测模式中编码的音频内容的各部分及针于在频域模式中编码的音频内容的各部分都转换成频域（还被标示为时间频率域），可获得允许具有低失真的一简单音频解码的一有效率音频编码。再者，已发现的是，通过针于在线性预测模式中编码的音频内容的一部分及针于在频域模式中编码的音频内容的一部分都将一频谱塑形应用于一组频谱系数（或其一预处理形态）可减小量化误差。如果在不同模式中使用不同类型参数来确定频谱塑形（即，线性预测模式中线性预测域参数，及频域模式中比例因子参数），噪声塑形可适于音频内容的目前处理部分的特性同时仍将时域至频域转换应用于不同模式中的同一音频信号（的各部分）。因此，多模式音频信号编码器针对具有一般音频部分及语音音频部分两者的音频信号通过选择性将适当类型频谱塑形应用于各组频谱系数而能够提供一良好编码性能。换言之，针对被识别为似语音的一音频帧，可将基于一组线性预测域参数的一频谱塑形应用于一组频谱系数，及针对识别为一般音频类型而非一语音类型的一音频帧，可将基于一组比例因子参数的一频谱塑形应用于一组频谱系数。

总之，多模式音频信号编码器允许编码具有时间可变特性（一些时间部分为似语音及其它部分为一般音频）的一音频内容，其中针对在不同模式中编码的音频内容的各部分，以相同方式将音频内容的时域表示型态被转换成频域。通过应用基于不同参数（线性预测域参数对比例因子参数）的一频谱塑形，考虑音频内容的不同部分的不同特性，以便获得频谱塑形的频谱系数或后续量化。

在一较佳实施例中，时域至频域转换器被构造为，针对在线性预测模式中编码的该音频内容的一部分及针对在频域模式中编码的该音频内容的一部分将在一音频信号域中的一音频内容的一时域表示型态转换成该音频内容的一频域表示型态。通过针对频域模式与线性预测模式都基于同一输入信号执行时域至频域转换（在一转换操作的意思上讲，如举例而言，一MDCT转换操作或一基于滤波器组的频率分离操作），能以特别良好效率执行一解码器侧重迭及相加操作，这促进了解码器侧的信号重建，及避免需要在不同模式间有一转变时传输额外数据。

在一较佳实施例中，时域至频域转换器被构造为针对在不同模式中编码的该音频内容的各部分应用同一转换类型的一分析重迭变换来获得频域表示型态。再者，使用同一转换类型的重迭变换允许简单重建音频内容同时避免区块假影。特别地，在没有显著负担的情况下使用一临界取样是可能的。

在一较佳实施例中，频谱处理器被构造为，根据使用对在线性预测模式中编码的该音频内容的一部分的一基于互相关的分析而获得的一组线性预测域参数，或依使用对在频域模式中编码的该音频内容的一部分的一心理声学模型分析而获得一组比例因子参数，选择性将该频谱塑形应用于该组频谱系数或其一预处理形态。通过这么做，针对音频内容的似语音部分，其中基于互相关的分析提供有意义噪声塑形信息，及针对音频内容的一般音频部分，其中心理声学模型分析提供有意义噪声塑形信息，都可实现一适当噪声塑形。

在一较佳实施例中，音频信号编码器包含一模式选择器，其被构造为分析该音频内容以便确定是在线性预测模式还是在频域模式中编码该音频内容的一部分。因此，可选择适当的噪声塑形概念同时在一些情况中保持此类型的时域至频域转换不受影响。

在一较佳实施例中，多模式音频信号编码器被构造为编码一音频帧，其介于一频域模式帧与一组合线性预测模式/代数码激发线性预测模式帧之间作为一线性预测模式开始帧。多模式音频信号编码器被构造为将具有一相对长左侧转变斜坡及一相对短右侧转变斜坡的一开始窗口应用于该线性预测模式开始帧的该时域表示型态，以获得一窗口化时域表示型态。多模式音频信号编码器被构造为获得该线性预测模式开始帧的该窗口化时域表示型态的一频域表示型态。多模式音频信号编码器还被构造为获得该线性预测模式开始帧的一组线性预测域参数，并依该组线性预测域参数将一频谱塑形应用于该线性预测模式开始帧的该窗口化时域表示型态的该频域表示型态，或其一预处理形态。音频信号编码器还被构造为编码该组线性预测域参数及该线性预测模式开始帧的该窗口化时域表示型态的频谱塑形的频域表示型态。以此方式，获得一转变音频帧的编码信息，该转变音频帧的该编码信息可用来重建音频内容，其中有关转变音频帧的编码信息允许一平滑左侧转变及同时允许初始化一ACELP模式解码器来解码一后续音频帧。由多模式音频信号编码器的不同模式间的转变所引起的开销被最小化。

在一较佳实施例中，多模式音频信号编码器被构造为使用与该线性预测模式开始帧相关联的该线性预测域参数以便初始化一代数码激发线性预测模式编码器来至少编码后接该线性预测模式开始帧的该组合转换编码激发线性预测模式/代数码激发线性预测模式帧的一部分。因此，获得用于线性预测模式开始帧且还在表示音频内容的一位串流中编码的线性预测域参数被再用，以编码使用ACELP模式的一后续音频帧。这增加了编码效率，且在没有额外ACELP初始旁侧信息的情况下还允许有效率解码。

在一较佳实施例中，多模式音频信号编码器包含一线性预测编码滤波器系数确定器，其被构造为分析在一线性预测模式中编码的该音频内容的一部分或其一预处理形态，以确定与在该线性预测模式中编码的该音频内容的该部分相关联的LPC滤波器系数。多模式音频信号编码器还包含一滤波器系数变换器，其被构造为将这些线性预测编码滤波器系数转换成一频谱表示形态，以便获得与不同频率相关联的线性预测模式增益值。多模式音频信号编码器还包含一比例因子确定器，其被构造为分析在频域模式中编码的该音频内容的一部分，或其一预处理部分，以确定与在频域模式中编码的该音频内容的该部分相关联的比例因子。多模式音频信号编码器还包含一组合器配置，其被构造为将在线性预测模式中编码的该音频内容的一部分的一频域表示形态或其一预处理形态，与该线性预测模式增益值相组合，以获得增益处理频谱成分（还标示为系数），其中该音频内容的该频域表示型态的这些频谱成分的贡献依该线性预测模式增益值来加权。组合器还被构造为将将在频域模式中编码的该音频内容的一部分的一频域表示形态或其一预处理形态，与这些比例因子相组合，以获得增益处理频谱成分，其中该音频内容的该频域表示型态的这些频谱成分（或频谱系数）的贡献依这些比例因子来加权。

在此实施例中，该增益处理频谱成分形成频谱塑形的各组频谱系数（或频谱成分）。

依据发明的另一实施例产生一种用于基于一音频内容的一编码表示型态来提供该音频内容的一解码表示型态的方法。

依据发明的又一实施例产生一种用于基于一音频内容的一输入表示型态来提供该音频内容的一编码表示型态的方法

依据发明的再一实施例产生一种用于执行这些方法当中的一或多个方法的计算机程序。

这些方法及该计算机程序是基于与上面所讨论装置相同的观测结果。

附图说明

本发明的实施例将随后参考附图来描述，其中：

图1a至图b示出了依据本发明的一实施例的一音频信号编码器的一方块示意图；

图2示出了一参考音频信号编码器的一方块示意图；

图3示出了依据本发明的一实施例的一音频信号编码器的一方块示意图；

图4示出了一TCX窗口的一LPC系数内插的一图解；

图5示出了用于基于解码LPC滤波器系数获取线性预测域增益值的一函数的一计算机程序码；

图6示出了用于将一组解码频谱系数与线性预测模式增益值（或线性预测域增益值）相组合的一计算机程序码；

图7示出了针对将所谓的“LPC”作为负担发送的一切换式时域/频域（TD/FD）编解码器的不同帧及相关联的信息的一示意表示型态；

图8示出了针对使用用于转变的“LPC2MDCT”而从频域切换至线性预测域编码器的帧与相关联参数的一示意表示型态；

图9示出了包含TCX及一频域编码器的一基于LPC的噪声塑形的一音频信号编码器的一示意表示型态；

图10示出了TCX MDCT在信号域中执行的一统一语音及音频编码（USAC）的一统一视图；

图11a和图11b示出了依据发明的一实施例的一音频信号解码器的一方块示意图；

图12a和图12b示出了TCX-MDCT在信号域中的一USAC解码器的一统一视图；

图13a和图13b示出了可依据图7和图12在音频信号解码器中执行的处理步骤的一示意表示型态；

图14示出了依据图11及图12的音频信号解码器的后续音频帧的一处理的一示意表示型态；

图15示出了一表格，其表示作为变量MOD[]的函数的一些频谱系数；

图16示出了表示窗口序列及变换窗口的一表格。

图17a示出了发明的一实施例中的一音频窗口转变的一示意表示型态；

图17b示出了发明的一延伸实施例中的一音频窗口转变的一表格；

图18示出了根据一编码LPC滤波器系数获取线性预测域增益值g[k]的一处理流程。

具体实施方式

实施例的详细说明

1.依据图1的音频信号编码器

下面将参考图1讨论依据发明的一实施例的一音频信号编码器，图1示出了一多模式音频信号编码器100的一方块示意图。多模式音频信号编码器有时也被简要地标示为一音频编码器。

音频编码器100被构造为接收一音频内容的一输入表示表示型态110，该输入表示表示型态110典型地为一时域表示型态。音频编码器100基于输入表示表示型态110提供音频内容的一编码表示型态。例如，音频编码器100提供一位串流112，其为一编码音频表示型态。

音频编码器100包含一时域至频域转换器120，其被构造为接收音频内容的输入表示型态110或其一预处理形态110’。时域至频域转换器120基于输入表示型态110、110’提供音频内容的一频域表示型态122。频域表示型态122可采用一序列频谱系数组的形式。例如，时域至频域转换器可以是一基于窗口的时域至频域转换器，其基于输入音频内容的一第一帧的时域样本来提供一第一组频谱系数，及基于输入音频内容的一第二帧的时域样本来提供一第二组频谱系数。输入音频内容的第一帧可例如与输入音频内容的第二帧重迭约50%。一时域窗口化可被应用于获取来自第一音频帧的第一组频谱系数，并且一窗口化也可被应用于获取来自第二音频帧的第二组频谱系数。因而，时域至频域转换器可被构造为执行对输入音频信息的窗口化部分（例如，重迭帧）的重迭变换。

音频编码器100还包含一频谱处理器130，其被构造为接收音频内容的频域表示型态122（或可选地，其一频谱后处理形态122’），并基于该频域表示型态提供一序列频谱塑形的各组频谱系数132。频谱处理器130可被构造为，针对在线性预测模式中编码的音频内容的一部分（例如，一帧）根据一组线性预测域参数134将一频谱塑形应用于一组频谱系数122或其一预处理形态122’，以获得频谱塑形的一组频谱系数132。频谱处理器130还可被构造为，针对在频域模式中编码的音频内容的一部分（例如，一帧）根据一组比例因子参数136将一频谱塑形应用于一组频谱系数122或其一预处理形态122’，以获得在频域模式中编码的音频内容的该部分的频谱塑形的一组频谱系数132。频谱处理器130例如可包含一参数提供器138，其被构造为提供一组线性预测域参数134及一组比例因子参数136。例如，参数提供器138可使用一线性预测分析器提供一组线性预测域参数134，及使用一心理声学模型处理器提供一组比例因子参数136。然而，还可应用提供一组线性预测域参数134或一组比例因子参数136的其它可行性。

音频编码器100还包含一量化编码器140，其被构造为接收针对音频内容的每一部分（例如，针对每一帧）的频谱塑形的一组频谱系数132（如由频谱处理器130提供）。可选择地，量化编码器140可接收频谱塑形的一组频谱系数132的一后处理形态132’。量化编码器140被构造为提供频谱塑形的一组频谱系数132（或可选地其一预处理形态）的一编码形态142。量化编码器140例如可被构造为，针对在线性预测模式中编码的音频内容的一部分提供频谱塑形的一组频谱系数132的一编码形态142，及针对在频域模式中编码的音频内容的一部分也提供频谱塑形的一组频谱系数132的一编码形态142。换言之，同一量化编码器140可用来编码频谱塑形的各组频谱系数，而不论音频内容的一部分是在线性预测模式还是在频域模式中编码。

此外，音频编码器100可选地包含一位串流有效载荷格式器150，其被构造为基于频谱塑形的各组频谱系数的编码形态142提供位串流112。然而，位串流有效载荷格式器150当然可包括在位串流112中的额外编码信息，以及组态信息控制信息等。举例而言，一可选编码器160可接收编码的该组线性预测域参数134及/或该组比例因子参数136并将其一编码形态提供至位串流有效载荷格式器150。因此，针对在线性预测模式中编码的音频内容的一部分，该组线性预测域参数134的一编码形态可被包括在位串流112中，及针对在频域中编码的音频内容的一部分，该组比例因子参数136的一编码形态可被包括在位串流112中。

音频信号编码器100进一步可选地包含一模式控制器170，其被构造为确定音频内容的一部分（例如，音频内容的一帧）是在线性预测模式还是在频域模式中编码。为此目的，模式控制器170可接收音频内容的输入表示型态110、其预处理形态110’或其频域表示型态122。模式控制器170可例如使用一语音检测算法来判定音频内容的似语音（speech-like）部分并提供一模式控制信号172，模式控制信号172响应于检测一似语音部分而在线性预测模式中编码音频内容的该部分。相反，如果模式控制器发现音频内容的一指定部分不是似语音的，模式控制器170提供模式控制信号172使得模式控制信号172指示在频域模式中编码音频内容的该部分。

下面将详细讨论音频编码器100的总体功能。多模式音频信号编码器100被构造为有效地编码音频内容的似语音及不似语音部分。为此目的，音频编码器100至少包含两模式，即线性预测模式与频域模式。然而，音频编码器110的时域至频域转换器120被构造为在线性预测模式与频域模式都将音频内容的相同时域表示型态（例如，输入表示型态110或其预处理形态110’）转换成频域中。然而，针对不同操作模式，频域表示型态122的一频率分辨率可不同。频域表示型态122不是立即被量化及编码，而是在量化及编码之前被频谱塑形。频谱塑形以将量化解码器140所引入量化噪声的影响保持足够小的一方式来执行，以便避免过度失真。在线性预测模式中，频谱塑形根据从音频内容获取的一组线性预测域参数134来执行。在该情况中，如果线性预测域参数的一频域表示型态的一相对应频谱系数包含一相对较大值，频谱塑形例如可被执行为使得频谱系数被加重（被加权较高）。换言之，频域表示型态122的频谱系数是依据线性预测域参数的一频谱域表示型态的相对应频谱系数来加权。因此，线性预测域参数的频谱域表示型态的相对应频谱系数取相对较大值的频域表示型态122的频谱系数，由于频谱塑形的该组频谱系数132中的较高加权而用相对较高的分辨率来量化。换言之，存在根据线性预测域参数134（例如，依据线性预测域参数134的一频谱域表示型态）的一频谱塑形带来一良好噪声塑形的音频内容部分，因为频域表示型态132的频谱系数（其对量化噪声更敏感）在频谱塑形中被加权较高，使得由量化编码器140引入的有效量化噪声实际上减少。

相比之下，在频域中编码的音频内容部分历经一不同的频谱塑形。在此情况中，例如使用一心理声学模型处理器来确定比例因子参数136。心理声学模型处理器评估频域表示型态122的频谱成分的一频谱屏蔽及/或时间屏蔽。此对频谱屏蔽及时间屏蔽的评估被用来确定频域表示型态122的哪些频谱成分（例如，频谱系数）应以高有效量化精度来编码，及频域表示型态122的哪些频谱成分（例如，频谱系数）应以相对低有效量化精度来编码。换言之，心理声学模型处理器可例如确定不同成分的心理声学相关，并指示心理声学上较不重要的频谱成分应以低或甚至很低的量化精度来量化。因此，频谱塑形（其由频谱处理器130执行）可依据心理声学模型处理器所提供的比例因子参数136来对频域表示型态122（或其后处理形态122’）的频谱成分（例如，频谱系数）加权。心理声学上重要的频谱成分在频谱塑形中被指定一高加权，使得它们被量化解码器140以高量化精度来有效量化。因此，比例因子可描述不同频率或频带的一心理声学相关性。

总之，音频编码器100可至少在两不同模式间切换，即一线性预测模式及一频域模式。音频内容的重迭部分可在不同模式中编码。为此目的，当在不同模式中编码音频内容的后续（例如，紧接后续）部分时，使用同一音频信号的不同（但较佳重迭）部分的频域表示型态。频域表示型态122的频谱域成分是针对在频域模式中编码的音频内容的一部分根据一组线性预测域参数，或针对在频域模式中编码的音频内容的一部分根据比例因子参数而频谱塑形。用来确定在时域至频域转换与量化/编码间执行的一适当频谱塑形的不同概念允许对不同类型音频内容（似语音及非似语音）拥有一良好编码效率及低失真噪声塑形。

2.依据图3的音频编码器

下面将参考图3描述依据本发明的另一实施例的一音频编码器300。图3示出了一音频编码器300的一方块示意图。应注意的是，音频编码器300是参考音频编码器200的一改进形态，参考音频编码器200的一方块示意图在图2示出。

2.1依据图2的参考音频信号编码器

换言之，为促进理解依据图3的音频编码器300，参考在图2中示出的USAC编码器的方块功能图，将首先描述参考统一语音及音频编码编码器（USAC编码器）200。参考音频编码器200被构造为接收一音频内容的一输入表示型态210（通常为一时域表示型态），并基于其提供该音频内容的一编码表示型态212。音频编码器200包含例如一开关或分配器220，其被构造为将音频内容的输入表示型态210提供至一频域编码器230和/或一线性预测域编码器240。频域编码器230被构造为接收音频内容的输入表示型态210’并基于其提供一编码的频谱表示型态232及一编码的比例因子信息234。线性预测域编码器240被构造为接收输入表示型态210”并基于其提供一编码的激发242及一编码的LPC滤波器系数信息244。频域编码器230包含例如一修改的离散余弦转换时域至频域转换器230a，其提供音频内容的一频谱表示型态230b。频域编码器230还包含一心理声学分析工具230c，其被构造为分析音频内容的频谱屏蔽及时间屏蔽并提供比例因子230d及编码的比例因子信息234。频域编码器230还包含一缩放器（scaler）230e，其被构造为依据比例因子230d来缩放时域至频域转换器230a提供的频谱值，由此获得音频内容的一缩放频谱表示型态230f。频域编码器230还包含一量化器230g，其被构造为量化音频内容的缩放频谱表示型态230f，及一熵编码器230h，其被构造为熵编码由量化器230g所提供的音频内容的量化缩放频谱表示型态。熵编码器230h随后提供编码的频谱表示型态232。

线性预测域编码器240被构造为基于输入音频表示型态210”提供一编码的激发242及一编码的LPC滤波器系数信息244。LPD编码器240包含一线性预测分析工具240a，其被构造为基于音频内容的输入表示型态210”提供LPC滤波器系数240b及编码的LPC滤波器系数信息244。LPC编码器240还包含一激发编码，其包含两平行支路，即一TCX支路250及一ACELP支路260。这些支路是可切换的（例如，使用一开关270），以提供一转换编码激发252或一代数编码激发262。TCX支路250包含一基于LPC的滤波器250a，其被构造为接收音频内容的输入表示型态210”及LP分析工具240a所提供的LPC滤波器系数240b。基于LPC的滤波器250a提供一滤波器输出信号250b，其可描述一基于LPC的滤波器所需要的刺激以便提供十分类似于音频内容的输入表示型态210”的一输出信号。TCX支路还包含一修改的离散余弦转换（MDCT），其被构造为接收刺激信号250d并基于其提供刺激信号250b的一频域表示型态250d。TCX支路还包含一量化器250e，其被构造为接收频域表示型态250b并提供其的一量化形态250f。TCX支路还包含熵编码器250g，其被构造为接收刺激信号250b的频域表示型态250d的量化形态250f，并基于其提供转换编码激发信号252。

ACELP支路260包含一基于LPC的滤波器260a，其被构造为接收LP分析工具240a所提供的LPC滤波器系数240b并还接收音频内容的输入表示型态210”。基于LPC的滤波器260a被构造为基于它们提供一刺激信号260b，刺激信号260b例如描述一解码器侧基于LPC的滤波器所需要的一刺激以便提供十分类似于音频内容的输入表示型态210”的一重建信号。ACELP支路260还包含一ACELP 260c，其被构造为使用一适当的代数编码算法来编码刺激信号260b。

综上所述，在一切换音频编解码器（如举例而言，参考文献[1]中所述依据MPEG-D统一语音及音频编码工作草案（USAC）的一音频编解码器）中，一输入信号的相邻部分可由不同编码器处理。举例而言，依据统一语音及音频编码工作草案（USAC WD）的音频编解码器可在基于例如参考文献[2]中所述的所谓高阶音频编码（AAC）的一频域编码器，与基于例如参考文献[3]中所述的所谓AMR-WB+概念的线性预测域（LPD）编码器（即，TCX及ACELP）之间切换。USAC编码器在图2中示意地示出。

已发现的是，不同编码器之间转变的设计是用于能够在不同编码器之间无缝切换的一重要或甚至必要的问题。还发现的是，由于在切换结构中所汇集的编码技术的不同本质，通常难以实现此类转变。然而，已发现的是，不同编码器所共享的共享工具可使转变简化。现在参考依据图2的参考音频编码器200，可看到的是，在USAC中，频域编码器230在信号域中计算一修改的离散余弦转换（MDCT），同时转换编码的激发支路（TCX）在LPC残余域中计算一修改的离散余弦转换（MDCT 250c）（使用LPC残余250b）。再者，此两编码器（即，频域编码器230及TCX支路250）共享在一不同域中应用的同一种滤波器组。因而，当从一编码器（例如，频域编码器230）进行至另一编码器（例如，TCX编码器250）时，参考音频编码器200（其可以是一USAC音频编码器）无法完全利用MDCT的重大特性，特别是时域混迭消除（TDAC）。

再次参考依据图2的参考音频编码器200，还可看到的是，TCX支路250及ACELP支路260共享一线性预测编码（LPC）工具。这是ACELP的一关键特征，ACELP是一源模型编码器，其中，LPC被用来将语音的声道模型化。对于TCX，LPC被用来对MDCT系数250d所引入的量化噪声塑形。这通过在执行MDCT 250c之前在时域中对输入信号210”滤波（例如，使用基于LPC的滤波器250a）来进行。再者，LPC在通过获得馈入ACELP的适应性码簿中的一激发信号而转变至ACELP期间在TCX中使用。这额外允许获得下一ACELP帧的内插LPC各组系数。

2.2依据图3的音频信号编码器

下面将描述依据图3的音频信号编码器300。为此目的，将参考依据图2的参考音频信号编码器200，因为依据图3的音频信号编码器300与依据图2的参考音频信号编码器200具有某些相类之处。

音频信号编码器300被构造为接收一音频内容的一输入表示型态310，并基于其提供该音频内容的一编码表示型态312。音频信号编码器300被构造为可在一频域模式（其中，一部分音频内容的一编码表示型态由一频域编码器230提供）与一线性预测模式（其中，一部分音频内容的一编码表示型态由线性预测域编码器340提供）之间切换。在不同模式中编码的音频内容部分在一些实施例中可重迭，而在其它实施例中可不重迭。

频域编码器330针对在频域模式中编码的音频内容的一部分接收音频内容的输入表示型态310’，并基于其提供一编码频谱表示型态332。线性预测域编码器340针对在线性预测模式中编码的音频内容的一部分接收音频内容的输入表示型态310”，并基于其提供一编码激发342。开关320能可选地用来将输入表示型态310提供至频域编码器330和/或至线性预测域编码器340。

频域编码器还提供一编码比例因子信息334。线性预测域编码器340提供一编码LPC滤波器系数信息344。

输出侧多任务器380被构造为，针对在频域中编码的音频内容的一部分提供编码的频谱表示型态332及编码的比例因子信息334作为音频内容的编码表示型态312，及针对在线性预测模式中编码的音频内容的一部分提供编码的激发342及编码的LPC滤波器系数信息344作为音频内容的编码表示型态312。

频域编码器330包含一修改的离散余弦转换330a，其接收音频内容的时域表示型态310’并转换音频内容的时域表示型态310’以获得音频内容的一经MDCT转换的频域表示型态330b。频域编码器330还包含一心理声学分析工具330c，其被构造为接收音频内容的时域表示型态310’并基于其提供比例因子330d及编码的比例因子信息334。频域编码器330还包含一组合器330e，其被构造为将比例因子330e应用于音频内容的经MDCT转换的频域表示型态330d，以便用不同的比例因子值来缩放音频内容的MDCT转换频域表示型态330b的不同频谱系数。因此，获得了音频内容的MDCT转换频域表示型态330d的一频谱塑形形态330f，其中，频谱塑形根据比例因子330d来执行，其中，相对大比例因子330e所关联的频谱区域在相对较小比例因子330e所关联的频谱区域上被加重。频域编码器330还包含一量化器，其被构造为接收音频内容的MDCT转换频域表示型态330b的缩放（频谱塑形）形态330f，并提供其一量化形态330h。频域编码器330还包含一熵编码器330i，其被构造为接收量化形态330h并基于其提供编码的频谱表示型态332。量化器330g及熵编码器330i可视为一量化编码器。

线性预测域编码器340包含一TCX支路350及一ACELP支路360。此外，LPD编码器340包含一LP分析工具340a，其一般由TCX支路350及一ACELP支路360使用。LP分析工具340a提供LPC滤波器系数340b及编码的LPC滤波器系数信息344。

TCX支路350包含一MDCT变换器350a，其被构造为接收时域表示型态310”作为一MDCT转换输入。需要注意的是，频域编码器的MDCT330a及TCX支路350的MDCT 350a接收音频内容的同一时域表示型态的（不同）部分作为转换输入信号。

因此，如果音频内容的后续及重迭部分（例如，帧）在不同模式中编码，频域编码器的MDCT 330a及TCX支路350的MDCT 350a可接收具有一时间重迭的时域表示型态作为变换输入信号。换言之，频域编码器的MDCT 330a及TCX支路350的MDCT 350a接收“在相同域中”的转换输入信号，也即皆为表示音频内容的时域信号。这与音频编码器200相反，在音频编码器200中，频域编码器230的MDCT 230a接收音频内容的一时域表示型态，而TCX支路250的MDCT 250c接收一信号的一残余时域表示型态或激发信号250b，而不是音频内容自身的一时域表示型态。

TCX支路350进一步包含一滤波器系数变换器350b，其被构造为将LPC滤波器系数340b转换成频谱域中以获得增益值350c。滤波器系数变换器350b有时也被标示为一“线性预测至MDCT转换器”。TCX支路350还包含一组合器350d，其接收音频内容的MDCT变换表示型态及增益值350c并基于其提供音频内容的MDCT变换表示型态的一频谱塑形形态350e。为此目的，组合器350d根据增益值350c来对音频内容的MDCT变换表示型态的频谱系数加权以便获得频谱塑形形态350e。TCX支路350还包含一量化器350f，其被构造为接收音频内容的MDCT转换表示型态的频谱塑形形态350e，并提供其一量化形态350g。TCX支路350还包含一熵编码器350h，其被构造为提供量化形态350g的一熵编码（例如，算术编码）形态作为编码激发342。

ACELP支路包含一基于LPC的滤波器360a，其接收由LP分析工具340a提供的LPC滤波器系数340b及音频内容的时域表示型态310”。基于LPC的滤波器360a发挥与基于LPC的滤波器260a相同的功能并提供与激发信号260b等效的一激发信号360b。ACELP支路360针对使用ACELP模式（其是线性预测模式的一子模式）编码的音频内容的一部分提供一编码激发342。

有关音频编码器300的总体功能，可以说，一部分音频内容可在频域模式中、在TCX模式（其是线性预测模式的一第一子模式）中或在ACELP模式（其是线性预测模式的一第二子模式）中编码。如果一部分音频信号在频域模式中或在TCX模式中编码，使用频域编码器的MDCT 330a或TCX支路的MDCT 350a将该部分音频内容首先转换至频域中。MDCT330a与MDCT 350a皆在音频内容的时域表示型态上操作，及在有频域模式与TCX模式间的一转变时甚至至少部分地在音频内容的相同部分上操作。在频域模式中，根据心理声学分析工具330c所提供的比例因子对由MDCT转换器330a提供的频域表示型态执行频谱塑形，及在TCX模式中，根据LP分析工具340a提供的LPC滤波器系数对由MDCT 350a提供的频域表示型态执行频谱塑形。量化器330g可与量化器350f类似或甚至相同，并且熵编码330i可与熵编码350h类似或甚至相同。再者，MDCT转换330a可与MDCT转换350a类似或甚至相同。然而，在频域编码器330及TCX支路350中可使用MDCT转换的不同尺寸。

再者，可见到的是，LPC滤波器系数340b被TCX支路350及ACELP支路360二者使用。这有利于在TCX模式中编码的音频内容部分与在ACELP模式中编码的音频内容部分之间的过渡。

综上所述，本发明的一实施例由，在统一语音及音频编码（USAC）的背景中于时域中执行对TCX的MDCT 350a及在频域中应用基于LPC的滤波（组合器350d）组成。LPC分析工具（例如，LP分析工具340a）如前一样运行（例如，如在音频信号编码器200中），及系数（例如，系数340b）仍照常传输（例如，以编码的LPC滤波器系数344的形式）。然而，噪声塑形不再是通过在时域中应用一滤波器而是通过在频域中应用一加权（这例如由组合器350d执行）来完成。频域中的噪声塑形通过将LPC系数（例如，LPC滤波器系数340b）转换至MDCT域中（这可由滤波器系数变换器350b执行）来实现。详情参考图3，图3示出了在频域中应用TCX的基于LPC的噪声塑形的概念。

2.3有关LPC系数的计算及应用的细节

下面将描述LPC系数的计算及应用。例如使用LPC分析工具340a对当前TCX窗口计算适当的一组LPC系数。一TCX窗口可以是音频内容的时域表示型态的一窗口化部分，其在TCX模式中编码。LPC分析窗口位于LPC编码器帧的末端边界，如图4所示。

参考图4，一TCX帧，也即在TCX模式中编码的一音频帧被示出。一横坐标410描述时间，并且一纵坐标420描述一窗口函数的量值。

执行一内插（interpolation）以计算对应于TCX窗口的重心的该组LPC系数340b。该内插在导抗频谱频率（ISF域）中执行，其中，LPC系数通常被量化及编码。内插系数接着在尺寸为SizeR+SizeM+SizeL的TCX窗口的中间居中。

详情参考图4，图4示出了针对一TCX窗口的LPC系数内插的一图解。

内插的LPC系数接着如在TCX中那样加权（详情见参考文献[3]），以得到符合心理声学考虑的一适当噪声塑形。获得的内插及加权LPC系数（还用lpc_coeffs简要标示）使用一方法最后被转换成MDCT比例因子（还被标示为线性预测模式增益值），该方法的一虚拟程序代码在图5及图6中示出。

图5示出了用于基于输入LPC系数（“lpc_coeffs”）提供MDCT比例因子（mdct_scaleFactors）的一函数“LPC2MDCT”的一虚拟程序代码。如可见，函数“LPC2MDCT”接收LPC系数“lpc_coeffs”、一LPC阶数值“lpc_order”及窗口尺寸值“sizeR”、“sizeM”、“sizeL”作为输入变量。在一第一步骤，一数组“InRealData[i]”的项用LPC系数的一调变形态填充，如参考数字510所示。如可见，具有指数在0与lpc_order－1之间的数组“InRealData”的项与数组“InImagData”的项被设定为由相对应的LPC系数“lpcCoeffs[i]”确定并由一余弦项或一正弦项调变的值。具有指数i≥lpc_order的数组“InRealData”与“InImagData”的项被设定为0。

因此，数组“InRealData[i]”与“InImagData[i]”描述一时域响应的一实部与一虚部，该时序响应由LPC系数确定、用一复调变项（cos（i·π/sizeN）-j·sin（i·π/sizeN））调变。

之后，应用一复快速傅立叶变换，其中，数组“InRealData[i]”与“InImagData[i]”描述复快速傅立叶变换的输入信号。复快速傅立叶变换的一结果由数组“OutRealData”与“OutImagData”提供。因此，数组“OutRealData”与“OutImagData”描述频谱系数（具有频率指数i），该频谱系数表示由时域滤波器系数描述的LPC滤波器响应。

之后，计算具有频率指数i且用“mdct_scaleFactors[i]”标示的所谓的MDCT比例因子。一MDCT比例因子“mdct_scaleFactors[i]”被计算为相对应的频谱系数（由项“OutRealData[i]”与“OutImagData[i]”描述）的绝对值的倒数。

应注意的是，在参考数字510所示的多个值调变操作及在参考数字520所示的复快速傅立叶变换的执行有效地组成一奇离散傅立叶变换（ODFT）。奇离散傅立叶变换具有下列公式：

X_{0} (k) = Σ_{n = 0}^{n = N} x (n) e^{- j \frac{2 π}{N} (k + \frac{1}{2}) n}

其中N=sizeN，其为MDCT的尺寸的二倍。

在上面公式中，LPC系数lpc_coeffs[n]发挥变换输入函数x（n）的作用。输出函数X₀（k）由值“OutRealData[k]”（实部）及“OutImagData[k]”（虚部）表示。

函数“complex_fft（）”是一熟知的复离散傅立叶变换（DFT）的一快速实施形态。获得的MDCT比例因子（“mdct_scaleFactors”）是正值，它们进而被用来缩放输入信号的MDCT系数（由MDCT 350a提供）。缩放将依据图6所示的虚拟程序代码来执行。

2.4有关窗口化及重迭的细节

在图7及图8中描述后续帧间的窗口化及重迭。

图7示出了由将LPC0作为负担发送的一切换式时域/频域编解码器所执行的窗口化。图8示出了在使用用于转变的“lpc2mdct”来从一频域编码器切换至一时域编码器时所执行的窗口化。

现在参考图7，一第一音频帧710在频域模式中编码并使用一窗口712来窗口化。

使用标示为一“开始窗口”的一窗口718来窗口化第二音频帧716，第二音频帧716与第一音频帧710重迭将近50%，且在频域模式中编码。开始窗口具有一长左侧转变斜坡718a及一短右侧转变斜坡718c。

在线性预测模式中编码的一第三音频帧722使用一线性预测模式窗口724来窗口化，该线性预测模式窗口724包含匹配右侧转变斜坡718c的一短左侧转变斜坡724a及一短右侧转变斜坡724c。在频域模式中编码的一第四音频帧728使用具有一相对短左侧转变斜坡730a及一相对长右侧转变斜坡730c的一“停止窗口”来窗口化。

在自频域模式转变至线性预测模式时，也即，第二音频帧716与第三音频帧722之间的转变，已知发送额外一组LPC系数（还被标示为“LPC0”）来实现到线性预测域编码模式的适当转变。

然而，及依据发明的实施例产生一种具有用于在频域模式与线性预测模式间转变的一新类型开始窗口的音频编码器。现在参考图8，可看到的是，一第一音频帧810使用所谓的“长窗口”812来窗口化且在频域模式中编码。“长窗口”812包含一相对长右侧转变斜坡812b。一第二音频帧816使用一线性预测域开始窗口818来窗口化，线性预测域开始窗口818包含匹配窗口812的右侧转变斜坡812b的一相对长左侧转变斜坡818a。线性预测域开始窗口818还包含一相对短右侧转变斜坡818b。第二音频帧816在线性预测模式中编码。因此，确定第二音频帧816的LPC滤波器系数，及第二音频帧816的时域样本使用一MDCT还被变换成频谱表示型态。针对第二音频帧816已确定的LPC滤波器系数进而在频域应用且用来基于音频内容的时域表示型态来频谱塑形由MDCT所提供的频谱系数。

使用与前面所述的窗口724相同的一窗口824来窗口化一第三音频窗口822。第三音频帧822在线性预测模式中编码。使用实质上与窗口730相同的一窗口830来窗口化一第四音频帧828。

参考图8所述的概念带来以下优点：经由使用窗口818而在线性预测模式中编码的一中间（部分重迭）第二音频帧816来进行，使用一所谓的“长窗口”而在频域模式中编码的音频帧810，与使用窗口824而在线性预测模式中编码的一第三音频帧822之间的转变。由于第二音频帧通常被编码使得频谱塑形在频域中执行（还即，使用滤波器系数变换器350b），可获得使用具有一相对长右侧转变斜坡812b的一窗口而在频域中编码的音频帧810与第二音频帧816之间的一良好重迭与相加。此外，编码的LPC滤波器系数代替比例因子值被传输用于第二音频帧816。这将图8的转变与图7的转变区分开，在图7的转变中，除了比例因子值外还传输额外的LPC系数（LPC0）。因此，在不传输附加额外数据，如举例而言图7情况中传输的LPC0系数的情况下，能以良好质量执行第二音频帧816与第三音频帧822之间的转变。因而，在不传输额外信息的情况下，初始化用于第三音频帧822中的线性预测域编解码器所需要的信息是可得的。

总之，在关于图8所述的实施例中，线性预测域开始窗口818可使用一基于LPC的噪声塑形来代替熟知的比例因子（其例如传输用于音频帧716）。LPC分析窗口818对应于开始窗口718，及不需要发送额外设置的LPC系数（如举例而言，LPC0系数），如图8中所述。在此情况中，用解码线性预测域编码器开始窗口818的计算LPC残余可易于馈送ACELP的适应性码簿（其可用于编码至少一部分第三音频帧822）。

综上所述，图7示出了一切换式时域/频域编解码器的功能，其需要发送被称为LP0的额外一组LPC系数集合作为负担。图8示出了使用用于转变的所谓的“LPC2MDCT”而从一频域编码器至一线性预测域编码器的切换。

3.根据图9的音频信号编码器

下面将参考图9描述一音频信号编码器900，图9适于实施就图8所述的概念。依据图9的音频信号编码器900非常类似于依据图3的音频信号300，使得相同的装置及信号用相同的参考数字来标示。这里将省略对此类相同装置及信号的讨论，而参考对音频信号编码器300的讨论。

然而，音频信号编码器900与音频信号编码器300相比的扩充之处在于，频域编码器930的组合器330e可选择性将比例因子340d或线性预测域增益值350c应用于频谱塑形。为此目的，使用一开关930j，其允许将比例因子330d或线性预测域增益值350c馈送至组合器330e以供频谱系数330b的频谱塑形。因而，音频信号编码器900甚至知晓三种操作模式，即：

1.频域模式：音频内容的时域表示型态使用MDCT 330a被变换成频域，及一频谱塑形根据比例因子330d而应用于音频内容的频域表示型态330b。对于使用频域模式编码的一音频帧，频谱塑形的频域表示型态330f的一量化及编码形态332与一编码比例因子信息334被包括在位串流中。

2.线性预测模式：在线性预测模式中，确定一部分音频内容的LPC滤波器系数340b，及使用该LPC滤波器系数340b确定一转换编码激发（第一子模式）或一ACELP编码激发，视哪种编码激发看似更加位率有效率而定。对于在线性预测模式中编码的一音频帧，编码激发342及编码LPC滤波器系数信息344被包括在位串流中。

3.具有基于LPC滤波器系数的频谱塑形的频域模式：可选择地，在一第三可能模式中，音频内容可由频域编码器930处理。然而，代替比例因子330d，线性预测域增益值350c被应用于组合器330e中的频谱塑形。因此，音频内容的频谱塑形频域表示型态330f的一量化及熵编码形态332被包括在位串流中，其中，频谱塑形频域表示型态330f依据由线性预测域编码器340所提供的线性预测域增益值350c来频谱塑形。此外，对于该一音频帧，一编码的LPC滤波器系数信息344被包括在位串流中。

通过使用上述第三模式，可能实现就图8中的第二音频帧816已描述的转变。这里应指出的是，如果频域编码器930所使用的MDCT的尺度对应于TCX支路350所使用MDCT的尺度，及如果频域编码器930所使用的量化330g对应于在TCX支路350中所使用的量化350f，及如果频域编码器使用的熵编码330e与TCX支路使用的熵编码350h对应，使用频谱塑形取决于线性预测域增益值的频域编码器930来编码一音频帧与使用一线性预测域编码器来编码音频帧816等效。换言之，音频帧816的编码可通过适应TCX支路350来完成，使得MDCT 350g接管MDCT 330a的特性，及使得量化350f接管量化330e的特性，并使得熵编码350h接管熵编码330i的特性，或通过在频域编码器930中应用线性预测域增益值350c来完成。这两个解决方案等效且造成对开始窗口816的处理如就图8所讨论的那样进行。

4.依据图10的音频信号解码器

下面将参考图10描述带有在信号域中执行的TCX MDCT的USAC（统一语音及音频编码）的一统一视图。

这里应注意的是，在依据发明的一些实施例中，TCX支路350及频域编码器330、930几乎共享所有相同的编码工具（MDCT 330a、350a；组合器330e、350d；量化器330g、350f；熵编码器330i、350h）且可视为一单一编码器，如在图10中描绘。因而，依据本发明的实施例允许切换式编码器USAC的一更统一结构，其中，仅可限定两种编解码器（频域编码器及时域编码器）。

现在参考图10，可看到的是，音频信号编码器1000被构造为接收音频内容的一输入表示型态1010并基于其提供音频内容的一编码表示型态102。如果一部分音频内容在频域模式中或在线性预测模式的一TCX子模式中编码，音频内容的输入表示型态1010（典型地一时域表示型态）输入至一MDCT 1030a。MDCT 1030提供时域表示型态1010的一频域表示型态1030b。频谱表示型态1030b输入至组合器1030e，其将频域表示型态1030b与频谱塑形值1040组合，以获得频域表示型态1030b的一频谱塑形形态1030f。频谱塑形表示型态1030f使用一量化器1030g来量化以获得其一量化形态1030h，及量化形态1030h被送至一熵编码器（例如，算术编码器）1030i。熵编码器1030i频谱塑形频域表示型态1030f的一量化及熵编码表示型态，该量化编码表示型态由1032来标示。对于频域模式及线性预测模式的TCX子模式，MDCT 1030a、组合器1030e、量化器1030g及熵编码器1030i形成一常见信号处理路径。

音频信号编码器1000包含一ACELP信号处理路径1060，其还接收音频内容的时域表示型态并基于其使用一LPC滤波器系数信息1040b提供一编码激发1062。可视为可取舍的ACELP信号处理路径包含一基于LPC的滤波器1060a，其接收音频内容的时域表示型态1010并将一残余信号或激发信号1060b提供至ACELP编码器1060c。ACELP编码器基于残余信号或激发信号1060b提供编码的激发1062。

音频信号编码器1000包含一常见信号分析器1070，其被构造为接收音频内容的时域表示型态1010并基于其提供频谱塑形信息1040a及LPC滤波器系数滤波器信息1040b，以及解码一当前音频帧所需要的旁侧信息的一编码形态。因此，常见信号分析器1070在当前音频帧在频域模式中编码时使用一心理声学分析1070a提供频谱塑形信息1040a，且在当前音频帧在频域模式中编码时提供一编码比例因子信息。用于频谱塑形的比例因子信息由心理声学分析1070a提供，并对于在频域模式中编码的一音频帧，描述比例因子1070b的一编码比例因子信息被包括在位串流中。

对于在线性预测模式的TCX子模式中编码的一音频帧，常见信号分析1070使用一线性预测分析1070c来获取频谱塑形信息1040a。线性预测分析1070c生成一组LPC滤波器系数，它们由线性预测至MDCT区块1070d转换成一频谱表示型态。因此，频谱塑形信息1040a从如上所讨论LP分析1070c所提供的LPC滤波器系数中获得。因而，对于在线性预测模式的转换编码激发子模式中编码的一音频帧，常见信号分析器1070基于线性预测分析1070c（而非基于心理声学分析1070a）来提供频谱塑形信息1040a且还提供一编码LPC滤波器系数信息而非一编码比例因子信息以供包括在位串流1012中。

再者，对于在线性预测模式的ACELP子模式中编码的一音频帧，常见信号分析器1070的线性预测分析1070c将LPC滤波器系数信息1040b提供至ACELP信号处理支路1060的基于LPC的滤波器1060a。在此情况中，常见信号分析器1070提供一编码LPC滤波器系数信息以供包括在位串流1012中。

综上所述，相同的信号处理路径被用于频域模式及用于线性预测模式的TCX子模式。然而，窗口化在MDCT之前或与其结合应用，及MDCT1030a的尺度可根据编码模式而变化。但是，频域模式与线性预测模式的TCX子模式的不同之处在于，一编码比例因子信息在频域模式中被包括在位串流中，而一编码LPC滤波器系数信息在线性预测模式中被包括在位串流中。

在线性预测模式的ACELP子模式中，一ACELP编码激发及一编码LPC滤波器系数信息被包括在位串流中。

5.依据图11的音频信号解码器

5.1解码器概述

下面将描述一音频信号解码器，其能够解码由上面所述音频信号编码器提供的一音频内容的编码表示型态。

依据图11的音频信号解码器1100被构造为接收一音频内容的编码表示型态1110，并基于其提供音频内容的一解码表示型态1112。音频信号编码器1110包含一可取舍位串流有效载荷去格式器1120，其被构造为接收包含音频内容的编码表示型态1110的一位串流并从该位串流提取音频内容的编码表示型态，由此获得音频内容的一提取编码表示型态1110’。可取舍位串流有效载荷去格式器1120可从位串流提取一编码比例因子信息、一编码LPC滤波器系数信息及一附加控制信息或信号增强旁侧信息。

音频信号解码器1100还包含一频谱值确定器1130，其被构造为获得针对音频内容的多个部分（例如，重迭或非重迭音频帧）的多组解码频谱系数1132。各组解码频谱系数能使用一预处理器1140来可取舍预处理，藉此产生预处理的各组解码频谱系数1132’。

音频信号解码器1100还包含一频谱处理器1150，其被构造为，针对在线性预测模式中编码的一部分音频内容（例如，一音频帧），根据一组线性预测域参数1152将一频谱塑形应用于一组解码频谱系数1132或其一预处理形态1132’，而针对在频域模式中编码的一部分音频内容（例如，一音频帧），根据一组比例因子参数1154将一频谱塑形应用于一组解码频谱系数1132或其一预处理形态1132’。因此，频谱处理器1150获得频谱塑形的各组解码频谱系数1158。

音频信号解码器1100还包含一频域至时域转换器1160，其被构造为，针对在线性预测模式中编码的一部分音频内容，接收频谱塑形的一组解码频谱系数1158并基于频谱塑形的该组解码频谱系数1158获得音频内容的一时域表示型态1162。频域至时域转换器1160还被构造为，针对在频域模式中编码的一部分音频内容，基于频谱塑形的各自组解码频谱系数1158获得音频内容的一时域表示型态1162。

音频信号解码器1100还包含一可取舍时域处理器1170，其可选地执行对音频内容的时域表示型态1162的一时域后处理以获得音频内容的解码表示型态1112。然而，在没有时域后处理器1170的情况下，音频内容的解码表示型态1112可与频域至时域转换器1160提供的音频内容的时域表示型态1162相同。

5.2进一步的细节

下面将描述音频解码器1100的进一步细节，这些细节可视为对音频信号解码器的可取舍改进。

应注意的是，音频信号解码器1100为一多模式音频信号解码器，其能够处理一编码音频信号表示型态，其中，音频内容的后续部分（例如，重迭或非重迭音频帧）使用不同模式编码。下面，音频帧将被视为一部分音频内容的一简单范例。由于音频内容被再细分成音频帧，使在相同模式中编码的后续（部分重迭或非重迭）音频帧的解码表示型态之间，及还有在不同模式中编码的后续（重迭或非重迭）音频帧之间，平滑地转变是特别重要的。较佳地，即使在一些情况中和/或对于一些转变，重迭十分小，音频信号解码器110也处理后续音频帧重迭近50%的音频表示型态。

由于此原因，音频信号解码器1100包含一迭加器，其被构造为重迭及相加在不同模式中编码的后续音频帧的时域表示型态。迭加器例如可为频域至时域转换器1160的一部分，或可配置在频域至时域转换器1160的输出。为了在重迭后续音频帧时获得高效率及良好质量，时域至频域转换器被构造为使用一重迭变换来获得在线性预测模式中（例如，在其转换编码激发子模式中）编码的一音频帧的一时域表示型态，及还使用一重迭变换来获得在频域模式中编码的一音频帧的一时域表示型态。在此情况中，迭加器被构造为使在不同模式中编码的后续音频帧的时域表示型态重迭。通过使用时域至频域转换的此类合成重迭变换，其对于在不同模式中编码的音频帧可较佳地为同一转换类型，一临界取样可被使用及由重迭及相加操作所产生的负担可最小化。同时，后续音频帧的时域表示型态的重迭部分间有一时域混迭消除。应指出的是，当在不同模式中编码的各后续音频帧间的转变时有一时域混迭消除的可能性由下列事实引起：在不同模式的同一域中应用一频域至时域转换，使得针对在一第一模式中编码的一第一音频帧的频谱塑形的一组解码频谱系数执行的一合成重迭变换的输出，可与针对在一第二模式中编码的一后续音频帧的频谱塑形的一组解码频谱系数执行的一重迭变换的输出直接组合（也即，不用一中间的滤波操作而组合）。因而，针对在第一模式中编码的一音频帧所执行的重迭变换的输出与针对在第二模式中编码的一音频帧的重迭变换的输出的一线性组合被执行。当然，一适当的重迭窗口化可作为重迭变换过程的一部分或在重迭变换过程之后而执行。

因此，仅通过在不同模式中编码的后续音频帧的各时域表示型态间的重迭及相加操作来获得一时域混迭消除。

换言之，重要的是，频域至时域转换器1160提供针对两种模式都在同一域中的时域输出信号。频域至时域转换（例如，结合一相关联转变窗口化的重迭变换）的输出信号针对不同模式都在同一域中的事实意味着，时域至频域转换的输出信号即使是在不同模式间转变也可线性组合。例如，频域至时域转换的输出信号皆为描述一扬声器信号的时间演进的一音频内容的时域表示型态。换言之，后续音频帧的音频内容的时域表示型态1162可被一般处理以便获取扬声器信号。

再者，应注意的是，频谱处理器1150可包含一参数提供器1156，其被构造为基于自位串流1110提取的信息，例如基于一编码比例因子信息及一编码LPC滤波器参数信息，来提供该组线性预测域参数1152及该组比例因子参数1154。参数提供器1156可例如包含一LPC滤波器系数确定器，其被构造为针对在线性预测模式中编码的一部分音频内容基于LPC滤波器的一编码表示型态获得解码LPC滤波器系数。再者，参数提供器1156可包含一滤波器系数变换器，其被构造为将解码LPC滤波器系数转换成一频谱表示型态，以便获得与不同频率相关联的线性预测模式增益值。线性预测模式增益值（有时用g[k]标示）可认为是一组线性预测域参数1152。

参数提供器1156可进一步包含一比例因子确定器，其被构造为针对在频域模式中编码的一音频帧基于比例因子值的一编码表示型态获得解码比例因子值。解码比例因子值可充当一组比例因子参数1154。

因此，可视为频谱修改的频谱塑形构造成，将与在线性预测模式中编码的一音频帧相关联的一组解码频谱系数1132或其一预处理形态1132’，同线性预测模式增益值（认为是该组线性预测域参数1152）组合，以便获得解码频谱系数1132的一增益处理（频谱塑形）形态1158，其中，解码频谱系数1132或其预处理形态1132’的贡献依线性预测模式增益值而加权。此外，频谱修正器可被构造为将与在频域模式中编码的一音频帧相关联的一组解码频谱系数1132或其预处理形态1132’同比例因子值（其认为是该组比例因子参数1154）组合以便获得解码频谱系数1132的一比例因子处理（频谱塑形）形态1158，其中解码频谱系数1132或其预处理形态1132’的贡献依比例因子值（该组比例因子参数1154）而加权。因此，一第一类频谱塑形，即依一组线性预测域参数的频谱塑形，是在线性预测模式中执行，及一第二类频谱塑形，即依一组比例因子参数的频谱塑形是在频域模式中执行。因此，对于似语音音频帧（其中频谱塑形较佳地依该组线性预测域参数1152执行）及对于一般音频，例如频谱塑形较佳地依该组比例因子参数1154执行的非似语音音频帧，时域表示型态1162上量化噪声的一不利影响被保持得小。然而，通过对似语音及非似语音音频帧二者，也即对于在线性预测模式中编码的音频帧及对于在频域模式中编码的音频帧，使用频谱塑形来执行噪声塑形，多模式音频解码器1100包含一低复杂度结构及同时允许在不同模式中编码的音频帧的时域表示型态1162的一混迭消除重迭及相加。

其它细节将在下面讨论。

6.依据图12的音频信号解码器

图12示出了依据发明的一进一步实施例的一音频信号解码器1200的一方块示意图。图12示出了带有信号域中的一转换编码激发修正离散余弦转换（TCX-MDCT）的一统一语音及音频编码（USAC）解码器的一统一视图。

依据图12的音频信号解码器1200包含一位串流去多任务器1210，其可发挥位串流有效载荷去格式器的功能。位串流去多任务器1210自表示一音频内容的一位串流提取音频内容的一编码表示型态，其可包含编码频谱值及额外信息（例如，一编码比例因子信息及一编码LPC滤波器参数信息）。

音频信号解码器1200还包含开关1216、1218，其被构造为将由位串流去多任务器提供的音频内容的编码表示型态的成分分配至音频信号解码器1200的不同成分处理区块。例如，音频信号解码器1200包含一组合频域模式/TCX子模式支路1230，其自开关1216接收一编码频域表示型态并基于其提供音频内容的一时域表示型态1232。音频信号解码器1200还包含一ACELP解码器1240，其被构造为自开关1216接收一ACELP编码激发信息1238并基于其提供音频内容的一时域表示型态。

音频信号解码器1200还包含一参数提供器1260，其被构造为，自开关针对在频域模式中编码的一音频帧接收一编码比例因子信息1254，及针对在线性预测模式中编码的一音频帧接收一编码LPC滤波器系数信息1256，线性预测模式包含TCX子模式及ACELP子模式。参数提供器1260进一步被构造为自开关1218接收控制信息1258。参数提供器1260被构造为向组合频域模式/TCX子模式支路1230提供一频谱塑形信息。此外，参数提供器1260被构造为将一LPC滤波器系数信息1264提供至ACELP解码器1240。

组合频域模式/TCX子模式支路1230可包含一熵解码器1230a，其接收编码频域信息1228并基于其提供馈送至一反向量化器1230c的一解码频域信息1230b。反向量化器1230c基于解码频域信息1230b提供一解码及反向量化的频域信息1230d，例如，为各组解码频谱系数的形式。一组合器1230e被构造为将解码及反向量化的频域信息1230d与频谱塑形信息1262组合，以获得频谱塑形频域信息1230f。一反向修正离散余弦转换1230g接收频谱塑形频域信息1230f，并基于其提供音频内容的时域表示型态1232。

熵解码器1230a、反向量化器1230c及反向修正离散余弦转换1230g皆能可选地接收一些控制信息，这些控制可被包括在位串流中或由参考提供器1260从位串流中获取。

参数提供器1260包含一比例因子解码器1260a，其接收编码比例因子信息1254并提供一解码比例因子信息1260b。参数提供器1260还包含一LPC系数解码器1260c，其被构造为接收解码LPC滤波器系数信息1256并基于其将一解码LPC滤波器系数信息1260d提供至一滤波器系数变换器1260e。再者，LPC系数解码器1260c将LPC滤波器系数信息1264提供至ACELP解码器1240。滤波器系数变换器1260e被构造为将LPC滤波器系数1260d转换成频域（还被标示为频谱域）中且随后自LPC滤波器系数1260d获取线性预测模式增益值1260f。再者，参数提供器1260被构造为例如使用一开关1260g选择性地提供解码比例因子1260b或线性预测模式增益值1260f作为频谱塑形信息1262。

这里应注意的是，依据图12的音频信号编码器可以由级间的一些额外预处理步骤及后处理步骤来补充。针对不同模式，预处理步骤及后处理步骤可不同。

下面将描述一些细节。

7.依据图13的信号流

下面将参考图13描述一可能的信号流。依据图13的信号流可出现在依据图12的音频信号解码器1200中。

应注意的是，为简便起见，依据图13的信号流1300仅描述频域模式及线性预测模式的TCX子模式中的操作。然而，线性预测模式的ACELP子模式中的解码可如就图12所作讨论来进行。

常见频域模式/TCX子模式支路1230接收编码频域信息1228。编码频域信息1228可包含所谓的算术编码频谱数据ac_spectral_data”，其自频域模式中的一频域通道串流（“fd_channel_stream”）提取。编码频域信息1228可包含一所谓的TCX编码（“tcx_coding”），其自TCX子模式中的一线性预测域信道串流（“lpd_channel_stream”）提取。可由熵解码器1230a执行一熵解码1330a。例如，可使用一算术解码器来执行熵解码1330a。因此，针对频域编码音频帧获得量化频谱系数“x_ac_quant”，而针对在TCX模式中编码的音频帧，获得量化TCX模式频谱系数“x_tcx_quant”。在一些实施例中量化频域模式频谱系数及量化TCX模式频谱系数可以为整数。熵解码例如能以一上下文敏感方式来联合解码各组解码频谱系数。再者，编码某一频谱系数需要的位数目可根据频谱系数量值而变化，使得编码具有一相对较大量值的频谱系数需要更多码字位。

之后，将例如使用反向量化器1230c执行量化频域模式频谱系数与量化TCX模式频谱系数的反向量化1330c。反向量化可由下列公式来描述：

x_invquant = Sign (x_quant) \cdot {| x_quant |}^{\frac{4}{3}}

因此，针对在频域模式中编码的音频帧，获得反向量化频域模式频谱系数（“x_ac_invquant”），及针对在TCX子模式中编码的音频帧获得反向量化TCX模式频谱系数（“x_tcx_invquant”）。

7.1在频域中编码的音频帧的处理

下面将总结频域模式中的处理。在频域模式中，一噪声填充被可取舍应用于反向量化频域模式频谱系数，以获得反向量化频域模式频谱系数1330d（“x_ac_invquant”）的一噪声填充形态1342。接着，可执行对反向量化频域模式频谱系数的噪声填充形态1342的一缩放，其中，缩放由1344标示。在缩放中，比例因子参数（还简要地被标示为比例因子或sf[g][sfb]）被应用于缩放反向量化频域模式频谱系数1342（“x_ac_invquant”）。例如，不同比例因子可与不同频带（频率范围或比例因子频带）的频谱系数相关联。因此，反向量化频谱系数1342可与相关联比例因子相乘以获得缩放频谱系数1346。缩放1344可较佳地如国际标准ISO/IEC 14496-3第4分部子条款4.6.2及4.6.3所述来执行。缩放1344可例如使用组合器1230e来执行。因此，获得频域模式频谱系数的一缩放（及因而频谱塑形）形态1346“x_rescal”，其可等效于频域表示型态1230f。因此，一mid/side处理1348与一时间噪声塑形处理1350的一组合能基于频域模式频谱系数的缩放形态1346可取舍执行，以获得缩放频域模式频谱系数1346的一后处理形态1352。可取舍mid/side处理1348例如可在如ISO/IEC 14496-3:2005，information technology-coding of audio-visual objects第3部分：音频、第4分部、子条款4.6.8.1中所述来执行。可取舍时间噪声塑形可如ISO/IEC14496-3:2005,information technology-coding of audio-visual objects第3部分：音频、第4分部、子条款4.6.9中所述来执行。

之后，一反向修正离散余弦转换1354可应用于频域模式频谱系数的缩放形态1346或其后处理形态1352。因而，获得目前处理音频帧的音频内容的一时域表示型态1356。时域表示型态1356还用x_i,n标示。如一简单化假设，可假设每音频帧有一时域表示型态x_i,n。然而，在多个窗口（例如，所谓的「短窗口」）与一单一音频帧相关联的一些情况中，每音频帧可有多个时域表示型态x_i，n。

之后，一窗口化1358被应用于时域表示型态1356，以获得一窗口化时域表示型态1360，其还用x_i,n标示。因此，在每帧有一窗口的一简化情况中，对在频域模式中编码的每一音频帧获得一窗口化时域表示型态1360。

7.2在TCX模式中编码的音频帧的处理

下面将描述对在TCX模式中完全或部分编码的一音频帧的处理。关于此问题，应注意的是，一音频帧可划分成多个（例如四个）子帧，它们可在线性预测模式的不同子模式中编码。举例而言，一音频帧的子帧能在线性预测模式的TCX子模式或在线性预测模式的ACELP子模式中选择性编码。因此，子帧中的每一个可被编码使得获得音频质量与位率间的一最佳编码效率或一最佳折衷。举例而言，对于在线性预测模式中编码的一音频帧，使用名为“mod[]”的一数组的一信令可被包括于位串流中以指示该音频帧的哪些子帧在TCX子模式中编码及哪些在ACELP子模式中编码。然而，应指出的是，若假定整个帧在TCX模式中编码，本概念可最容易理解。一音频帧包含两TCX子帧的其它情况可视为该概念的一可取舍延伸。

现在假定整个帧在TCX模式中编码，可看到的是，一噪声填充1370被应用于反向量化TCX模式频谱系数1330d，其还被标示为“quant[]”。因此，获得噪声填充的一组TCX模式频谱系数1372，其还被标示为“r[i]”。此外，一所谓的频谱去塑形1374被应用于噪声填充的该组TCX模式频谱系数1372，以获得频谱去塑形的一组TCX模式频谱系数1376，其还标示为“r[i]”。之后，应用一频谱塑形1378，其中该频谱塑形系依线性预测域增益值来执行，线性预测增益值获自于描述一线性预测编码（LPC）滤波器的一滤波器响应的编码LPC系数。频谱塑形1378例如可使用组合器1230a来执行。因此，获得重建的一组TCX模式频谱系数1380，其还用“rr[i]”来标示。之后，基于重建的该组TCX模式频谱系数1380执行一反向量化MDCT 1382，以获得在TCX模式中编码的一帧（或可选择地，一子帧）的一时域表示型态1384。之后，一缩放1386被应用于在TCX模式中编码的一帧（或一子帧）的时域表示型态1384，以获得在TCX模式中编码的帧（或子帧）的一缩放时域表示型态1388，其中再缩放时域表示型态还用“x_w[i]”标示。应指出的是，再缩放1386通常是在TCX模式中编码的一帧或在TCX模式中编码的子帧的所有时域值的一相等缩放。因此，再缩放1386通常不带来一频率失真，因为它不是频率选择性的。

在再缩放1386之后，一窗口化1390被应用于在TCX模式中编码的一帧（或一子帧）的再缩放时域表示型态1388。因此，获得窗口化时域样本1392（其还用“z_i,n”标示），其表示在TCX模式中编码的一帧（或一子帧）的音频内容。

7.3重迭及相加处理

一序列帧的时域表示型态1360、1392系使用一重迭及相加处理1394来组合。在重迭及相加处理中，一第一音频帧的一右侧（时间上稍晚）部分的时域样本与一后续第二音频帧的一左侧（时间上稍早）部分的时域样本重迭及相加。针对在相同模式中编码的后续音频帧及针对在不同模式中编码的后续音频帧皆执行此重迭及相加处理1394。即使后续音频帧因音频解码器的特定结构而在不同模式中（例如，在频域模式中及在TCX模式中）编码，一时域混迭消除也由重迭及相加处理1394执行，这避免了反向MDCT 1954的输出与重迭及相加处理1394之间及还有反向MDCT1382的输出与重迭及相加处理1394之间的任何失真处理。换言之，除了窗口化1358、1390及再缩放1386（及可选地，一预加重滤波与一去重操作的一频谱非失真组合）之外，反向MDCT处理1354、1382与重迭及相加处理1394之间没有额外处理。

8.有关基于MDCT的TCX的细节

8.1基于MDCT的TCX工具说明

当核心模式是一线性预测模式（这由位串流变量“core_mode”等于一的事实指示）时及当三TCX模式中的一或多个模式（例如，出自，用于提供512样本包括256个重迭样本的一TCX部分的一第一TCX模式，用于提供768个时域样本包括256个重迭样本的一第二TCX模式，及用于提供1280个TCX样本包括256个重迭样本的一第三TCX模式）被选为「线性预测域」编码时，还即如果“mod[x]”的四数组项中的一者大于零（其中四数组项mod[0]、mod[1]、mod[2]、mod[3]获自于一位串流变量并指示目前音频帧的四子帧的LPC子模式，还即指示一子帧是在线性预测模式的ACELP子模式中编码还是在线性预测模式的TCX子模式中编码，及是使用一相对长TCX编码、一中等长度TCX编码还是一短长度TCX编码），使用基于MDCT的TCX工具。换言之，如果目前音频帧的子帧中的一者在线性预测模式的TCX子模式中编码，则使用TCX工具。基于MDCT的TCX自一算术解码器（其可用来实施熵解码器1230a或熵解码1330a）接收量化频谱系数。量化系数（或其一反向量化形态1230b）由一舒适噪声（其可由噪声填充操作1370执行）首先完成。基于LPC的频域噪声塑形接着被应用于生成的频谱系数（例如，使用组合器1230e，或频谱塑形操作1378）（或其一频谱去塑形形态），及一反向MDCT转换（其可由MDCT 1230g或由反向MDCT操作1382实施）被执行以获得时域合成信号。

8.2基于MDCT的TCX定义

下面将给出一些定义。

“lg”标示算术解码器输出的一些量化频谱系数（例如，对于在线性预测模式中编码的一音频帧）。

位串流变量“noise_factor”标示一噪声层级量化指数。

变量「噪声层级」标示加入重建频谱中的噪声的一层级。

变量“noise[]”标示所产生噪声的一向量。

位串流变量“global_gain”标示一再缩放增益量化指数。

变量“g”标示一再缩放增益。

变量“rms”标示合成时域信号“x[]”的均方根。

变量“x[]”标示合成时域信号。

8.3解码过程

基于MDCT的TCX向算术解码器1230a请求由mod[]值（还即，由变量mod[]的值）确定的一些量化频谱系数lg。此值（还即，变量mod[]的值）还定义将在反向MDCT 1230中（或由反向MDCT处理1382及相对应窗口化1390）应用的窗口长度及形状。窗口由三部分组成：L样本的一左侧重迭（还标示为左侧转变斜坡）、M样本的一中间部分及R样本的一右重迭部分（还标示为右侧转变斜坡）。为获得长度为2*lg的一MDCT窗口，在左侧加入ZL个零及在右侧加入ZR个零。

在自一“short_window”转变或转变至一“short_window”的情况中，相对应重迭区域L或R可需要减至128（样本）以便适于“short_window”的一可能较短窗口斜坡。因此，区域M及相对应零区域ZL或ZR可能各需扩充64样本。

换言之，一般有256样本=L=R的一重迭。在FD模式至LPD模式的情况中减至128。

图15的图示出了作为mod[]的函数的一些频谱系数，以及左零区域ZL、左重迭区域L、中间部分M、右重迭区域R及右零区域ZR的一些时域样本。

MDCT窗口由下式指定：

下面将给出W_{SIN_LEFT},L与W_{SIN_RIGHT R}的定义。

在窗口化步骤1390应用MDCT窗口W（n），其可视作一窗口化反向MDCT（例如，反向MDCT 1230g）的一部分。

由算术解码器1230a（或可选择地，由反向量化1230c）传送的量化频谱系数（还标示为“quant[]”）由一舒适噪声完成。所加入噪声的层级由解码位串流变量“noise_factor”如下确定：

noise_level=0.0625*（8-noise_factor）

接着使用随机传送值﹣1或+1的一随机函数（用“random_sign（）”标示）来计算还用“noise[]”标示的一噪声向量。下列关系保持：

noise[i]=random_sign（）*noise_level;

“quant[]”与“noise[]”以“quant[]”中8个连续零值被“noise[]”的成分替代的一方式组合来形成还用“r[]”标示的重建频谱系数向量。依据下列公式来检测连续8个零值。

如下获得重建频谱：

上述噪声填充可作为熵解码器1230a所执行的熵解码与组合器1230e所执行组合之间的一后处理而执行。

一频谱取塑形依据下列步骤被应用于重建频谱（例如，重建频谱1376r[i]）：

1.对第一四分之一频谱的每8维区块，计算指数为m的8维区块的能量E_m

2.计算比值R_m=sqrt（E_m/E_I），其中I是区块指数，具有所有E_m的最大值

3.如果R_m<0.1，则设R_m=0.1

4.如果R_m<R_m-1，则设R_m=R_m-1

属于第一四分之一频谱的每一8维区块接着乘以因子R_m。

一频谱去塑形将作为配置于熵解码器1230a与组合器1230e间的一信号路径中的后处理而执行。频谱去塑形例如可由频谱去塑形1374执行。

在应用反向MDCT之前，获取对应于MDCT区块的两末端（还即，左与右折叠点）的两量化LPC滤波器，计算它们的加权形态，及计算相对应的降低取样（64点，不论转换长度）频谱。

换言之，在第一时段获得第一组LPC滤波器系数及在第二时段确定第二组LPC滤波器系数。各组LPC滤波器系数较佳地获自于位串流中所包括的LPC滤波器系数的一编码表示型态。第一时段较佳地在目前TCX编码帧（或子帧）的开始或之前，及第二时段较佳地在TCX编码帧（或子帧）的末尾或之后。因此，有效的一组LPC滤波器系数通过形成第一组LPC滤波器系数与第二组滤波器系数的一加权平均值而确定。

加权LPC频谱是通过将一奇离散傅立叶变换（ODFT）应用于LPC滤波器系数来计算。一复调变在计算奇离散傅立叶变换（ODFT）之前被应用于LPC（滤波器）系数，使得ODFT频率槽与MDCT频率槽（较佳地完美）对准。例如，一指定LPC滤波器的加权LPC合成频谱如下来计算：

X_{o} (k) = Σ_{n = 0}^{M - 1} x_{t} (n) e^{- j \frac{2 πk}{m} n}

其中

其中，

n=0…lpc_order+1,是由下式指定的加权LPC滤波器的系数：

\hat{W} (z) = \hat{A} (z / γ_{1})

其中γ₁=0.92

换言之，用值

（其中n在0与lpc_order–1之间）表示的一LPC滤波器的一时域响应被转换成频谱域中，以获得频谱系数X₀[k]。LPC滤波器的时域响应

可获自于描述线性预测编码滤波器的时域系数a₁至a₁₆。

增益g[k]可依据下列方程式由LPC系数（例如，a₁至a₁₆）的频谱表示型态X₀[k]计算：

g [k] = \sqrt{\frac{1}{X_{0} [k] X_{o}^{*} [k]}} &ForAll; k &Element; {0, . . ., M - 1}

其中M=64是应用所计算增益的频带数。

之后，依计算增益g[k]（还标示为线性预测模式增益值）获得一重建频谱1230f、1380、rr[i]。举例而言，一增益值g[k]可与一频谱系数1230d、1376r[i]相关联。可选择地，多个增益值可与一频谱系数1230f、1380、rr[i]相关联。一加权系数a[i]可获自于一或多个增益值g[k]，或加权系数a[i]在一些实施例中甚至可与一增益值g[k]相同。因此，一加权系数a[i]可与相关联频谱值r[i]相乘，以确定频谱系数r[i]对经频谱塑形频谱系数rr[i]的贡献。

例如，下面方程式可保持：

rr[i]=g[k]·r[i]。

然而，不同关系还可使用。

上面，变数k等于i/（lg/64）以计入LPC频谱被降低取样的事实。重建频谱rr[]被馈入一反向MDCT 1230g、1382。当执行将在下面详细描述的反向MDCT时，重建频谱值rr[i]充当时间频率值X_i,k，或时间频率值spec[i][k]。下列关系可保持：

X_i,k=rr[k]；或

spec[i][k]=rr[k]。

这里应指出的是，在上面TCX支路对频谱处理的讨论中，变量i是一频率指数。不同的是，在MDCT滤波器组及区块切换的讨论中，变量i是一窗口指数。熟悉本技术的人员由上下文将易于认识变量i是一频率指数还是一窗口指数。

再者，应注意的是，如果一音频帧仅包含一窗口，一窗口指数可等于一帧指数。如果一帧包含多个窗口（有时是这种情况），每帧可有多个窗口指数值。

非窗口化输出信号x[]用增益g再缩放，增益g由解码全域增益指数（“global_gain”）的一反向量化获得：

g = \frac{10^{global_gain / 28}}{2 \cdot rms}

其中rms如下计算：

rms = \sqrt{\frac{Σ_{k = \lg / 2}^{3 * \lg / 2 - 1} {rr}^{2} [k]}{L + M + R}}

再缩放合成时域信号进而等于：

x_w[n]＝x[n]·g

在再缩放之后，应用窗口化与重迭及相加。窗口化可使用如上所述的一窗口W（n）且计入图15所示的窗口化参数来执行。因此，如下获得一窗口化时域信号表示型态z_i,n：

z_i,n=x_w[n]·W(n)。

下面将描述在存在TCX编码音频帧（或音频子帧）及ACELP编码音频帧（或音频子帧）二者时有帮助的一概念。再者，应注意的是，传输用于TCX编码帧或子帧的LPC滤波器系数意味着将应用一些实施例来初始化ACELP解码。

对于mod[]分别为1、2、3，TCX合成体的长度由TCX帧长度（没有重迭）：256、512或1024样本指定。

之后，采用下列符号：x[]标示反向修正离散余弦转换的输出，z[]标示时域中的解码窗口化信号，out[]标示合成时域信号。

反向修正离散余弦转换的输出接着如下来再缩放及窗口化：

z[n]=x[n]·w[n]·g;

&ForAll; 0 \leq n < N

N对应于MDCT窗口尺寸，也即N=2lg。

当前一编码模式是FD模式或是基于MDCT的TCX时，在目前解码窗口化信号z_i,n与前一解码窗口化信号z_i-1,n间应用一熟知重迭及相加，其中指数i对已解码MDCT窗口计数。由下列公式获得最终的时域合成out。

在z_i-1,n来自FD模式的情况中：

out [i_{out} + n] = \{\begin{matrix} z_{i - 1, \frac{N_l}{2} + n}; &ForAll; 0 \leq n < \frac{N_l}{4} - \frac{L}{2} \\ z_{i, \frac{N - N_l}{4} + n} + z_{i - 1, \frac{N_l}{2} + n}; &ForAll; \frac{N_l}{4} - \frac{L}{2} \leq n < \frac{N_l}{4} + \frac{L}{2} \\ z_{i, \frac{N - N_l}{4} + n}; &ForAll; \frac{N_l}{4} + \frac{L}{2} \leq n < \frac{N_l}{4} + \frac{N}{2} - \frac{R}{2} \end{matrix}

N_l是来自FD模式的窗口序列的尺寸。i_out为输出缓冲out加标，

并按

\frac{N_l}{4} + \frac{N}{2} - \frac{R}{2}

个已写样本来增量。

在z_i-1,n是来自基于MDCT的TCX的情况中：

out [i_{out} + n] = \{\begin{matrix} z_{i, \frac{N}{4} - \frac{L}{2} + n} + z_{i - 1, \frac{3 * N_{i - 1}}{4} - \frac{L}{2} + n}; &ForAll; 0 \leq n < L \\ z_{i, \frac{N}{4} - \frac{L}{2} + n}; &ForAll; L \leq n < \frac{N + L - R}{2} \end{matrix}

N_i–1是前一MDCT窗口的大小，i_out为输出缓冲out加标，并按（N+L–R）/2个已写样本来增量。

下面将描述用于减少自在ACELP模式中编码的一帧或子帧转变至在基于MDCT的TCX模式中编码的一帧或子帧时的假影的一些可选择方法。然而，应指出的是，还可使用不同方法。

下面将简要描述一第一方法。当来自ACELP，通过将R减至0，一特定窗口杖（window cane）被用于下一TCX，并进而消除两后续帧间的重迭。

下面将简要描述一第二方法（如在USAC WD5及较早前所述）。当来自ACELP时，通过使M（中间长度）增加128样本来扩大下一TCX窗口。在解码器，窗口的右部分，也即前R个非零解码样本，仅被丢弃及由解码ACELP样本替换。

重建合成体out[i_out+n]进而透过预加重滤波器(1-0.68z^-1)滤波。生成的预加重合成体进而由分析滤波器

滤波以便获得激发信号。所计算的激发更新ACELP适应性码簿及允许在一后续帧中自TCX切换至ACELP。分析滤波器系数在一子帧的基础上内插。

9.有关滤波器组及区块切换的细节

下面将详细描述有关反向修正离散余弦转换及区块切换，也即后续帧或子帧间的重迭及相加，的细节。应注意的是，下面描述的反向修正离散余弦转换可应用于在频域中编码的音频帧及在TCX模式中编码的音频帧或音频子帧。虽然上面已描述了在TCX模式中使用的窗口（W（n）），但下面将讨论在频域模式中使用的窗口：应注意的是，适当窗口的选择，特别是在自频率模式中编码的一帧转变至在TCX模式中编码的一后续帧时，反之亦然，允许具有一时域混迭消除，使得在没有位率开销的情况下可获得具有低或无混迭的转变。

9.1滤波器组及区块切换-说明

信号的时间/频率表示型态（例如，时间-频率表示型态1158、1230f、1352、1380）通过馈入滤波器组模块（例如，模块1160、1230g、1354-1358-1394、1382-1386-1390-1394）而映射至时域。此模块由一反向修正离散余弦变换（IMDCT）及一窗口及一重迭及相加函数组成。为了使滤波器组的时间/频率分辨率适应于输入信号的特性，还采用一区块切换工具。N表示窗口长度，其中，N是位串流变量“window_sequence”的函数。对于每一通道，N/2个时域值X_i,k经由IMDCT被转换成N个时域值。在应用窗口函数之后，对于每一通道，z_i,n序列的第一半被加入前一区块窗口化序列z_{（i-1），n}的第二半以重建每一通道out_i,n的输出样本。

9.2滤波器组及区块切换-定义

下面将给出位串流的一些定义。

位串流变量“window_sequence”包含指示使用哪一窗口序列（也即，区块大小）的两位。位串流变量“window_sequence”通常用于在频域中编码的音频帧。

位串流变量“window_shape”包含指示选择哪一窗口函数的一位。

图16的表格示出了基于七个转换窗口的十一个窗口序列（还被标示为window_sequences）。（ONLY_LONG_SEQUENCE,LONG_START_SEQUENCE,EIGHT_SHORT_SEQUENCE,LONG_STOP_SEQUENCE,STOP_START_SEQUENCE）。

下面，LPD_SEQUENCE指所谓线性预测域编解码器中所有允许的窗口/编码模式组合。在解码一频域编码帧的背景中，重要的是知晓只有一后接帧在用LPD_SEQUENCE表示的LP域编码模式中编码。然而，当解码LP域编码帧时，LPD_SEQUENCE中的准确结构受关注。

换言之，在线性预测模式中编码的一音频帧可包含一单一TCX编码帧、多个TCX编码子帧或TCX编码子帧与ACELP编码子帧的一组合。

9.3滤波器组及区块切换解码过程

9.3.1滤波器组及区块切换-IMDCT

IMDCT的分析表式是：

x_{i, n} = \frac{2}{N} Σ_{k = 0}^{\frac{N}{2} - 1} spec [i] [k] \cos (\frac{2 π}{N} (n + n_{0}) (k + \frac{1}{2}))

对于0≤n<N

其中：

n=样本指数

i=窗口指数

k=频谱系数指数

N=基于window_sequence值的窗口长度

n₀=（N/2+1）/2

反向转换的合成窗口长度N是句法元素“window_sequence”及算法上下文的一函数：

窗口长度2048：

在图17a或图17b表格的一指定表格单元中的一打钩标记

指示在特定列中列出的一窗口序列可后接该特定行中列出的一窗口序列。

图17a列出一第一实施例的有意义区块转变。图17d的表格列出一额外实施例的有意义区块转变。下面将单独阐述在依据图17b的实施例中的额外区块转变。

9.3.2滤波器组及区块切换-窗口化及区块切换

视位串流变量（或元素）“window_sequence”及“window_shape”元素而定，使用不同的转换窗口。如下所述半窗口的一组合提供所有可能的窗口序列。

对于“window_shape”==1，窗口系数由如下西泽贝索衍生（KBD）窗口（Kaiser-Bessel derived window）指定：

其中：

W’西泽贝索核心窗口函数（还参见[5]）如下定义：

I_{0} [x] = Σ_{k = 0}^{\infty} {[\frac{{(\frac{x}{2})}^{k}}{k!}]}^{2}

α＝核心视窗alpha因数，

不然，对于“window_shape”==0，如下利用一正弦窗口：

W_{SIN_LEFT, N} (n) = \sin (\frac{π}{N} (n + \frac{1}{2}))

对于

0 \leq n < \frac{N}{2}

W_{SIN_RIGHT, N} (n) = \sin (\frac{π}{N} (n + \frac{1}{2}))

对于

\frac{N}{2} \leq n < N

对于KBD及正弦窗口，窗口长度N可以是2048（1920）或256（240）。

如何获得可能的窗口序列在此子条款的第a）-e）部分中阐述。

对于各种窗口序列，第一转换窗口的左半部分的变量“window_shape”由变量“window_shape_previous_block”描述之前一区块的窗口形状确定。下列公式表达此事实：

其中

“window_shape_previous_block”是一变数，其等于前一区块（i-1）的位串流变量“window_shape”。

对于欲解码的第一原始数据区块“raw_data_block（）”，窗口左与后半部分的变量“window_shape”相同。

在前一区块使用LPD模式解码的情况中，“window_shape_previous_block”设为0。

a）ONLY_LONG_SEQUENCE:

window_sequence==ONLY_LONG_SEQUENCE标示的窗口序列等于总窗口长度N_l为2048（1920）的“LONG_WINDOW”类型一窗口。

对于window_shape==1，变量值“ONLY_LONG_SEQUENCE”的窗口如下指定：

在窗口化之后，时域值（z_i,n）可表示为：

z_i，n=w(n)·x_i，n；

b）LONG_START_SEQUENCE：

对于自“ONLY_LONG_SEQUENCE”类型的一窗口转变至左边具有一低重迭（短窗口斜坡）半窗口（EIGHT_SHORT_SEQUENCE,LONG_STOP_SEQUENCE,STOP_START_SEQUENCE或LPD_SEQUENCE）的任一区块，可使用“LONG_START_SEQUENCE”类型的窗口来获得一正确重迭及相加。

在后接窗口序列不是“LPD_SEQUENCE”类型的一窗口的情况中：

窗口长度N_l及N_s分别设为2048（1920）及256（240）。

在后接窗口序列是“LPD_SEQUENCE”类型的一窗口的情况中：

窗口长度N_l及N_s分别设为2048（1920）及512（480）。

如果window_shape==1，窗口类型“LONG_START_SEQUENCE”的窗口如下指定：

如果window_shape==0，窗口类型为“LONG_START_SEQUENCE”的窗口看似：

窗口化时域值可用在a）中阐述的公式来计算。

c）EIGHT_SHORT

window_sequence==EIGHT_SHORT的窗口序列包含八重迭及相加SHORT_WINDOW，每个的长度N_s为256（240）。window_sequence连同前及后零的总长度是2048（1920）。首先单独窗口化八短区块中的每一个。短区块号用变数j=0，...,M-1（M=N_l/N_s）来。

前一区块的window_shape仅影响八短区块（W₀(n)）中的第一个。如果window_shape==1，窗口函数可如下指定：

不然，如果window_shape==0，窗口函数可描述为：

如下描述生成窗口化时域值z_i,n的EIGHT_SHORT window_sequence间的重迭及相加：

d）LONG_STOP_SEQUENCE

窗口序列需要自一窗口序列“EIGHT_SHORT_SEQUENCE”或一窗口类型“LPD_SEQUENCE”切换回到一窗口类型“ONLY_LONG_SEQUENCE”。

在前一窗口不是一LPD_SEQUENCE的情况中；

窗口长度N_l及N_s分别设为2048（1920）及256（240）。

在前一窗口不是一LPD_SEQUENCE的情况中；

窗口长度N_l及N_s分别设为2048（1920）及512（480）。

如果window_shape==1，窗口类型为“LONG_START_SEQUENCE”的窗口如下指定：

如果window_shape==0，“LONG_START_SEQUENCE”的窗口由下式确定：

窗口化时域值可用在a）中阐述的公式来计算。

e）STOP_START_SEQUENCE:

对于自右边具有一低重迭（短窗口斜坡）半窗口的任一区块至左边具有一低重迭（短窗口斜坡）半窗口的任一区块的区块转变及如果一单一长转换期望用于目前帧，窗口类型“LONG_START_SEQUENCE”可用来获得一正确重迭及相加。

在后接窗口序列不是一“LPD_SEQUENCE”的情况中：

窗口长度N_l及N_Sr分别被设为2048（1920）及256（240）。

在后接窗口序列是一“LPD_SEQUENCE”的情况中：

窗口长度N_l及N_Sr分别被设为2048（1920）及512（480）。

在前一窗口序列不是一“LPD_SEQUENCE”的情况中：

窗口长度N_l及N_Sr分别被设为2048（1920）及256（240）。

在前一窗口序列是一“LPD_SEQUENCE”的情况中：

窗口长度N_l及N_Sr分别被设为2048（1920）及512（480）。

窗口化时域值可用在a）中阐述的公式来计算。

9.3.3滤波器组及区块切换-与前一窗口序列的重迭及相加

除了EIGHT_SHORT窗口序列中的重迭及相加外，每一窗口序列（或每一帧或子帧）的第一（左）部分与前一窗口序列（或前一帧或子帧）的第一（右）部分重迭及相加，生成最终的时域值out_i，n。此操作的数学表式可描述如下：

在ONLY_LONG_SEQUENCE,LONG_START_SEQUENCE,EIGHT_SHORT_SEQUENCE,LONG_STOP_SEQUENCE,STOP_START_SEQUENCE的情况中：

{out}_{i, n} = z_{i, n} + z_{i - 1, n + \frac{N}{2}};

对于

0 \leq n < \frac{N}{2},

N=2048(1920)

上面针对在频域模式中编码的各音频帧之间的重迭及相加的方程式还可用于在不同模式中编码的音频帧的时域表示型态的重迭及相加。

可选择地，重迭及相加可如下定义：

out [i_{out} + n] = Z_{i, n} + Z_{i - 1, n + \frac{N_l}{2}};

&ForAll; 0 \leq n < \frac{N_l}{2}

N_l是窗口序列的尺寸。i_out为输出缓冲out加标，并按

个已写样本增量。

在LPD_SEQUENCE的情况中：

下面将描述可用来减小混迭假影的一第一方法。当来自ACELP时，通过将T减至0，一特定窗口杖被用于下一TCX，及进而消除两后续帧间的重迭区域。

下面将描述可用来减小混迭假影的一第二方法（如在USAC WD5及早前所述）。当来自ACELP时，通过使M（中间长度）增加128样本及还增加与TCX窗口相关联的MDCT系数的数目来扩大下一TCX窗口。在解码器，窗口的右部分，也即前R个非零解码样本，仅被丢弃且用解码ACELP样本替换。换言之，通过提供额外MDCT系数（例如，1152来代替1024），混迭假影被减少。不同表述之，通过提供额外MDCT系数（使得每一音频帧，MDCT系数的数目大于时域样本数目的一半），可获得时域表示型态的一无混迭部分，这消除了以频谱的一非临界取样为代价对一专用混迭消除的需要。

不然，当前一解码窗口化信号z_i-1,n来自基于MDCT的TCX时，执行一熟知重迭及相加以获得最终的时间信号out。当FD模式窗口序列是一LONG_START_SEQUENCE或一EIGHT_SHORT_SEQUENCE时，重迭及相加可用下列公式来表达。

out [i_{out} + n] = \{\begin{matrix} z_{i, \frac{N_l - N_s}{4} + n} + z_{i - 1, \frac{3 \cdot N_{i - 1} - N_s}{4} + n}; &ForAll; 0 \leq n < \frac{N_s}{2} \\ z_{i, \frac{N_l - N_s}{4} + n}; &ForAll; \frac{N_s}{2} \leq n < \frac{N_l + N_s}{4} \end{matrix}

N_i-1对应于在基于MDCT的TCX中应用之前一窗口的尺寸。i_out为输出缓冲out加标，并按N_l+N_s）/4个已写样本增量。N_s/2应等于在图15表格中定义之前一基于MDCT的TCX的值L。

对于一STOP_START_SEQUENCE，FD模式与基于MDCT的TCX之间的重迭及相加如下列表式：

out [i_{out} + n] = \{\begin{matrix} z_{i, \frac{N_l - N_sl}{4} + n} + z_{i - 1, \frac{3 \cdot N_{i - 1} - 2 \cdot N_sl}{4} + n}; &ForAll; 0 \leq n < \frac{N_sl}{2} \\ z_{i, \frac{N_l - N_sl}{4} + n}; &ForAll; \frac{N_sl}{2} \leq n < \frac{N_l + N_sl}{4} \end{matrix}

N_i-1对应于在基于MDCT的TCX中应用之前一窗口的尺寸2lg。i_out为缓冲out加标，并按（N_l+N_s）/4个已写样本增量。N_s/2应等于在图15表格中定义之前一基于MDCT的TCX的值L。

10.有关

的计算的细节

下面将描述有关线性预测域增益值的计算的一些细节以促进理解。典型地，表示编码音频内容（在线性预测模式中编码）的一位串流包含编码LPC滤波器系数。编码LPC滤波器系数可例如由相对应码字来描述且可描述用于恢复音频内容的一线性预测滤波器。应注意的是，每LPC编码音频帧所传输的各组LPC滤波器系数的数目可变化。实际上，针对在线性预测模式中编码的一音频帧，在位串流中编码的各组LPC滤波器系数的实际数目取决于音频内容（有时还称为「超框」）的ACELP-TCX模式组合。此ACELP-TCX模式组合可由一位串流变量确定。然而，当然还存在仅一TCX模式可用的情况，及还存在没有ACELP模式可用的情况。

位串流通常被剖析以提取对应于ACELP TCX模式组合所需要的各组LPC滤波器系数的量化指数。

在一第一处理步骤1810中，执行LPC滤波器的一反向量化。应指出的是，LPC滤波器（也即，各组LPC滤波器系数，例如，a₁至a₁₆）系使用线频谱频率（LSF）表示型态（其是LPC滤波器系数的一编码表示型态）来量化。在第一处理步骤1810中，反向量化线频谱频率（LSF）由编码指数获得。

为此目的，可计算一第一级近似值及可计算一可取舍代数向量量化（AVQ）改进。反向量化线频谱频率可通过将第一级近似值与反向加权AVQ贡献相加来重建。AVQ改进的出现可取决于LPC滤波器的实际量化模式。

可获自于LPC滤波器系数的编码表示型态的反向量化线频谱频率向量随后转换成线频谱对参数的一向量，接着再次内插及转换成LPC参数。在处理步骤1810中执行的反向量化程序生成线频谱频率域中的一组LPC参数。线频谱频率接着在一处理步骤1820被转换至由线频谱对描述的余弦域。因此，获得线频谱对q_i。对每一帧或子帧，线频谱对系数q_i（或其一内插形态）被转换成线性预测滤波器系数a_k，其用来合成帧或子帧中的重建信号。到线性预测域的转换如下来进行。系数f₁（i）及f₂（i）可例如使用下列递归关系来获取：

for i＝1 to 8

f₁(i)＝-2q_2i-1f₁(i-1)+2f₁(i-2)

for j＝i-1 down to 1

f₁(j)＝f₁(j)-2q_2i-1f₁(j-1)+f₁(j-2)

end

其中，初始值f₁(0)＝1及f₁(-1)＝0。系数f₂(i)通过用q_2i替换q_2i-1来类似地计算。

一旦找出系数f₁(0)及f₁(-1)，依据下式计算系数f₁’(i)及F₂’(i)：

f₁′(i)＝f₁(i)+f₁(i-1)，i＝1，...，8

f′₂(i)＝f₂(i)-f₂(i-1)，i＝1，...，8

最后，透过下式由f₁’(i)及f’₂(i)计算LP系数a_i：

a_{i} = \{\begin{matrix} 0.5 f_{1}^{'} (i) + 0.5 f_{2}^{'} (i), & i = 1, . . ., 8 \\ 0.5 f_{1}^{'} (17 - i) - 0.5 f_{2}^{'} (17 - i), & i = 9, . . ., 16 \end{matrix}

总之，如上所阐述，使用处理步骤1830、1840、1850执行自线性预测对系数q_i获取LPC系数a_i。

在一处理步骤1860获得系数

n＝0...lpc_order-1，它们是一加权LPC滤波器的系数。当由系数a_i获取系数

时，考虑的是，系数a_i是具有滤波器特性

的一滤波器的时域系数，及系数

是具有频域响应的一滤波器的时域系数。再者，考虑的是，下列关系保持：

\hat{W} (z) = \hat{A} (z / γ_{1})

其中γ₁＝0.92

鉴于上面内容，可看到的是，由编码LPC滤波器系数可易于获取系数

编码LPC滤波器系数例如由位串流中的各自指数表示。

还应指出的是，上面已讨论了在处理步骤1870中执行获取x_t[n]。类似地，上面已讨论了X₀[k]的计算。类似地，上面已讨论了在步骤1890中执行的线性预测域增益值g[k]的计算。

11.频谱塑形的可选择解决方案

应指出的是，上面已描述了频谱塑形的一概念，该概念应用于在线性预测域中编码的音频帧，且基于LPC滤波器系数

转换至频谱表示型态X₀[k]（由其获取线性预测域增益值）。如上所讨论，LPC滤波器系数

系使用具有64个均匀隔开的频率槽的一奇离散傅立叶变换而转换成一频域表示型态X₀[k]。然而，当然非必须获得在频率上均等隔开的频域值X₀[k]。有时可推荐使用频率上非线性隔开的频域值X₀[k]。举例而言，频域值X₀[k]可在频率上对数隔开或可依据一巴克量度（Bark scale）在频率上隔开。频域值X₀[k]与线性预测域增益值g[k]的此一非线性隔开可造成听觉印象与计算复杂度之间的一特别好的折衷。但是，未必实施线性预测域增益值的一非均匀频率间隔的此一概念。

12.增强的转变概念

下面将描述针对频域中编码的一音频帧与线性预测域中编码的一音频帧间的转变的一改进概念。此改进概念使用一所谓的线性预测模式开始窗口，其将在下面阐述。

首先参考图17a及图17b，应注意的是，当在线性预测模式中编码的一音频帧进行一转变时，具有一相对短右侧转变斜坡的已知窗口被应用于在频域模式中编码的一音频帧的时域样本。如自图17a可见，类型为“LONG_START_SEQUENCE”的一窗口、类型为“EIGHT_SHORT_SEQUENCE”的一窗口、类型为“STOP_START_SEQUENCE”的一窗口已知在线性预测域中编码的一音频帧之前应用。因此，已知地，不可能自一频域编码音频帧（对其应用具有一相对长右侧斜坡的一窗口）直接转变至在线性预测模式中编码的一音频帧。这是由于此事实：已知上，一频域编码音频帧（对其应用具有一相对长右侧斜坡的一窗口）的长时域混迭部分造成严重问题。如从图17a可见，已知不能自窗口类型“only_long_sequence”相关联的一音频帧，或自窗口类型“long_stop_sequence”相关联的一音频帧转变至在线性预测模式中编码的一后续音频帧。

然而，在依据发明的一些实施例中，使用一种新类型的音频帧，即一线性预测模式开始窗口相关联的一音频帧。

一种新类型音频帧（还简要标示为一线性预测模式开始帧）在线性预测域模式的TCX子模式中编码。线性预测模式开始帧包含一单一TCX帧（还即，不再细分成TCX子帧）。因此，针对线性预测模式开始帧，以一编码形式将多达1024个MDCT系数包括于位串流中。换言之，与一线性预测开始帧相关联的MDCT系数的数目相同于与频域编码音频帧（窗口类型为“only_long_sequence”的一窗口与其相关联）相关联的MDCT系数的数目。此外，与线性预测模式开始帧相关联的窗口可为窗口类型“LONG_START_SEQUENCE”。因而，线性预测模式开始帧可非常类似于类型为“long_start_sequence”的一窗口所关联的频域编码帧。然而，线性预测模式开始帧与此一频域编码音频帧不同在于，频谱塑形依线性预测域增益值而非依比例因子值来执行。因此，针对线性预测模式开始帧，编码线性预测编码滤波器系数被包括在位串流中。

由于针对在频域模式中编码的一音频帧及针对在线性预测模式中编码的一音频帧二者，反向MDCT 1354、1382被应用于同一域（如上阐述）中，在频域模式中编码且具有一相对长右侧转变斜坡（例如，1024样本）的前一音频帧，与具有一相对长左侧转变斜坡（例如，1024样本）的线性预测模式开始帧间，可执行一时域混迭消除重迭及相加操作，其中转变斜坡相匹配以供时间混迭消除。因而，线性预测模式开始帧在线性预测模式中编码（也即，使用线性预测编码滤波器系数）且较编码音频帧的其它线性预测模式包含一显著较长（例如，至少以2为倍数，或至少以4为倍数，或至少以8为倍数）左侧转变斜坡以产生额外转变可能性。

因此，一线性预测模式开始帧可替换具有窗口类型“long_sequence”的频域编码音频帧。线性预测模式开始帧包含，MDCT滤波器系数被传输用于线性预测模式开始帧的优点，MDCT滤波器系数可用于在线性预测模式中编码的一后续音频帧。因此，不必将额外LPC滤波器系数信息包括在位串流中以便具有初始信息供解码后续线性预测模式编码音频帧。

图14示出了此概念。图14示出了一序列四音频帧1410、1412、1414、1416的一图形表示型态，它们都包含2048音频样本的一长度，且重迭约50%。第一音频帧1410使用一“only_long_sequence”窗口1420在频域模式中编码，第二音频帧1412使用等于“long_start_sequence”的一线性预测模式开始窗口在线性预测模式中编码，第三音频帧1414使用例如上面针对mod[x]=3的一值而定义、用1424标示的一窗口

在线性预测模式中编码。应指出的是，线性预测模式开始窗口1422包含长度为1024音频样本的一左侧转变斜坡及长度为256样本的一右侧转变斜坡。窗口1424包含长度为256样本的一左侧转变斜坡及长度为256样本的一右侧转变斜坡。第四音频帧1416使用一“long_stop_sequence”窗口1426在频域模式中编码，窗口1426包含长度为256样本的一左侧转变斜坡及长度为1024样本的一右侧转变斜坡。

如在图14中可见，音频帧的时域样本由反向修正离散余弦转换1460、1462、1464、1466来提供。对于在频域模式中编码的音频帧1410、1416，依比例因子及比例因子值执行频谱塑形。对于在线性预测模式中编码的音频帧1412、1414，依获自于编码线性预测编码滤波器系数的线性预测域增益值执行频谱塑形。在任一情况中，频谱塑形由一解码（及可选地，一反向量化）提供。

13.结论

总之，依据发明的实施例使用针对一切换式音频编码器

在频域中应用的一基于LPC的噪声塑形。

依据发明的实施例在频域中应用一基于LPC的滤波器来简化在一切换式音频编解码器的背景中不同编码器之间的转变。

因此，一些实施例解决设计三编码模式：频域编码、TCX（转换编码激发线性预测域）及ACELP（代数码激发线性预测）间的有效率转换的问题。然而，在一些其它实施例中，仅有这些模式中的两模式，例如，频域编码及TCX模式，是足够的。

依据发明的实施例胜过下列可选择解决方案：

●频域编码器与线性预测域编码器之间的非临界取样转变（例如，参见参考文献[4]）

●产生非临界取样、重迭尺寸与额外信息间的折衷，不完全使用MDCT的能力（时域混迭消除TDAC）。

●当自频域编码器进行至LPD编码器时需要发送额外LPC的一组系数。

●在不同域中应用一时域混迭消除（TDAC）（例如，参见参考文献[5]）。LPC滤波在折叠与DCT间的MDCT内执行：

●时域混迭信号可能不适于滤波；及

●当自频域编码器进行至LPD编码器时必需发送额外LPC的一组系数。

●针对一非切换式编码器（T_winVQ）计算MDCT域中的LPC系数（例如，参见参考文献[6]）；

●使用LPC只是作为用于使频谱平坦的一频谱包络呈现。当切换至另一音频编码器时，不利用LPC来对量化误差塑形也不利用其来简化转变。

依据本发明的实施例在同一域中执行频域编码器及LPC编码器MDCT而仍使用LPC来对MDCT域中的量化误差塑形。这带来一些优点：

●LPC仍可用来切换至一语音编码器，如ACELP。

●在自/至TCX至/自频域编码器的转换期间时域混迭消除（TDAC）是可能的，临界取样进而被维持。

●LPC仍用作ACELP周围的噪声塑形器，这使得可能使用同一目标函数来最大化TCX及ACELP，（例如，在一闭合回路决策过程中的基于LPC的加权部分SNR）。

进一步总结，一重要层面是：

1.通过在频域中应用线性预测编码大大简化/统一了转换编码激发（TCX）与频域（FD）间的转变

2.通过在TCX情况中维持LPC系数的传输，可如在其它实施中一样有利地实现TCX与ACELP之间的转变（当在时域中应用LPC滤波器时）。

实施选替方案

虽然在一装置的脉络中已描述了一些层面，但显然这些层面也表示对相对应方法的说明，其中一区块或装置对应于一方法步骤或一方法步骤的一特征。类似地，在一方法步骤的脉络中所描述的层面也表示对一相对应装置的一相对应区块或项目或特征的一说明，一些或所有方法步骤可由（或使用）一硬件装置来执行，如举例而言，微处理器、可程序化计算机或电子电路。在一些实施例中，某一或多个最重要方法步骤可由此一装置来执行。

发明的编码音频信号可被存储于一数字存储媒体上或能以一传输媒介传输，诸如无线传输媒介或诸如因特网的有线传输媒介。

视某些实施需求而定，发明实施例可在硬件或软件中实施。使用存储有电子可读取控制信号的一数字存储媒体，例如软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存可执行该实施，这些电子可读取控制信号与一可程序化计算机系统合作（或能够合作）使得各自的方法被执行。因此，该数字存储媒体可以是计算机可读取的。

依据发明的一些实施例包含具有电子可读取控制信号的一数据载体，这些电子可读取控制信号能够与一可程序化计算机系统合作使得本文所予以描述的方法当中的一方法被执行。

大体上，本发明的实施例可作为具有一程序代码的一计算机程序产品而被实施，当该计算机程序产品运行于一计算机上时，该程序代码可操作用于执行这些方法当中的一方法。该程序代码可例如被存储于一机器可读取载体上。

其它实施例包含存储于一机器可读取媒体上、用于执行本文所予以描述的这些方法当中的一方法的计算机程序。

换言之，发明方法的一实施例因而是一计算机程序，具有当该计算机程序运行于一计算机上时用于执行本文所予以描述的这些方法当中的一方法的一程序代码。

发明方法的一进一步实施例因而是一数据载体（或一数字存储媒体或一计算机可读取媒体），其包含记录于其上用于执行本文所予以描述的这些方法当中的一方法的计算机程序。该料载体、该数字存储媒体或该记录媒体通常是有形的及/或非过渡的。

发明方法的一进一步实施例因而是一数据串流或一信号序列，表示用于执行本文所予以描述的这些方法当中的一方法的计算机程序。该数据串流或该信号序列可例如被被构造为经由一数据通讯连接（例如经由因特网）来被传递。

一进一步的实施例包含一处理装置，例如一计算机，或一可程序化逻辑装置，其被被构造为或适于执行本文所予以描述的这些方法当中的一方法。

一进一步的实施例包含一种上面安装有用于执行本文所予以描述的这些方法当中的一方法的计算机程序的计算机。

依据发明的一进一步实施例包含一装置或一系统，其被构造为将用于执行本文所予以描述的这些方法当中的一方法的一计算机程序传输（例如，电子地或光地）至一接收器。该接收器例如可以是计算机、行动装置、内存装置等等。装置或系统例如可包含用于将该计算机程序传输至该接收器的一档案服务器。

在一些实施例中，一可程序化逻辑装置（例如，一现场可程序化门阵列）可被用来执行本文所予以描述的这些方法的一些或所有功能。在一些实施例中，一现场可程序化门阵列可与一微处理器合作以便执行本文所予以描述的这些方法当中的一方法。大体上，这些方法较佳地被任一硬件装置执行。

上述实施例仅仅是为了说明本发明的原理。要明白的是，对本文所予以描述的安排与细节的修改或改变对其他熟于此技者而言将是显而易见的。因而，意图是仅受后附的申请专利范围的范围限制而不受以对本文实施例的说明与阐述方式呈现的特定细节限制。

References:

[1]“Unified speech and audio coding scheme for high quality at lowbitrates”,Max Neuendorf et al.,in iEEE Int,Conf.Acoustics,Speech andSignal Processing,ICASSP，2009

[2]Generic Coding of Moving Pictures and Associated Audio:AdvancedAudio Coding.International Standard 13818-7,ISO/IEC JTC 1/SC29/WG11Moving Pictures Expert Group,1997

[3]“Extended Adaptive Multi-Rate–Wideband （AMR-WB+）codec”,3GPP TS 26.290V6.3.0,2005-06,Technical Specification

[4]“Audio Encoder and Decoder for Encoding and Decoding AudioSamples”,FH080703PUS,F49510,incorporated by reference,

[5]“Apparatus and Method for Encoding/Decoding an Audio SignalUsign an Aliasing Switch Scheme”,FH080715PUS,F49522,incorporated byreference

[6]“High-quality audio-coding at less than 64 kbits/s “by usingtransform-domain weighted interleave vector quantization（Twin VQ）”,N.Iwakami and T.Moriya and S.Miki,IEEE ICASSP，1995

Claims

1.一种用于基于一音频内容的一编码表示型态（1110；1208）来提供所述音频内容的一解码表示型态（1112；1212）的多模式音频信号解码器（1100；1200），所述音频信号解码器包含：

一频谱值确定器（1130；1230a，1230c），被构造为获得针对所述音频内容的多个部分（1410，1412，1414，1416）的解码频谱系数（1132；1230d；r[i]）的组（1132；1230d）；

一频谱处理器（1230e；1378），被构造为，针对在线性预测模式中编码的所述音频内容的一部分，根据一组线性预测域参数，将一频谱塑形应用于一组解码频谱系数（1132；1230d；r[i]）或其一预处理形态（1232’），并针对在频域模式中编码的所述音频内容的一部分（1410；1416），根据一组比例因子参数（1152；1260b），将一频谱塑形应用于一组解码频谱系数（1132；1230d；r[i]）或其一预处理形态（1232’），以及

一频域至时域转换器（1160；1230g），被构造为，针对在线性预测模式中编码的所述音频内容的一部分，基于频谱塑形的一组解码频谱系数（1158；1230f）获得所述音频内容的一时域表示型态（1162；1232；x_i,n），并针对在频域模式中编码的所述音频内容的一部分，基于频谱塑形的一组解码频谱系数获得所述音频内容的一时域表示型态（1162；1232）。

2.根据权利要求1所述的多模式音频信号解码器，其中，所述多模式音频信号解码器进一步包含一迭加器（1233），所述迭加器被构造为将在线性预测模式中编码的所述音频内容的一部分的时域表示型态与在频域模式中编码的所述音频内容的一部分的一时域表示型态重迭及相加。

3.根据权利要求2所述的多模式音频信号解码器，其中，所述频域至时域转换器（1160；1230g）被构造为，针对在线性预测模式中编码的所述音频内容的一部分（1412；1414），使用一重迭变换来获得所述音频内容的一时域表示型态，并针对在频域模式中编码的所述音频内容的一部分（1410；1416），使用一重迭变换获得所述音频内容的一时域表示型态，以及

其中，所述迭加器被构造为使在这两个模式的不同模式中编码的所述音频内容的后续部分的时域表示型态重迭。

4.根据权利要求3所述的多模式音频信号解码器，其中，所述频域至时域转换器（1160；1230g）被构造为，针对在这两个不同模式中编码的所述音频内容的各部分，应用同一转换类型的重迭变换来获得所述音频内容的时域表示型态；以及

其中，所述迭加器被构造为使在这两个不同模式中编码的所述音频内容的后续部分的所述时域表示型态重迭及相加，使得由所述重迭变换引起的一时域混迭减少或消除。

5.根据权利要求4所述的多模式音频信号解码器，其中，所述迭加器被构造为使，如由一相关联重迭变换提供的、在这两个模式的一第一模式中编码的所述音频内容的一第一部分（1414）的一窗口化时域表示型态或其一量值缩放但频谱未失真的形态与如由一相关联重迭变换提供的、在这两个模式的一第二模式中编码的所述音频内容的一第二后续部分（1416）的一窗口化时域表示型态或其一量值缩放但频谱未失真的形态重迭并相加。

6.根据权利要求1至5中的任一项所述的多模式音频信号解码器，其中，所述频域至时域转换器（1160；1230g）被构造为提供在这两个不同模式中编码的所述音频内容的各部分（1410，1412，1414，1416）的时域表示型态，使得所提供的时域表示型态在同一域中，因为它们是线性组合的，除了一窗口化转变操作外，而未将一信号塑形滤波操作应用于这些所提供的时域表示型态中的一个或两个。

7.根据权利要求1至6中的任一项所述的多模式音频信号解码器，其中，所述频域至时域转换器（1160；1230g）被构造为执行一反向修正离散余弦转换，以针对在线性预测模式中编码的所述音频内容的一部分并针对在频域模式中编码的所述音频内容的一部分，获得一音频信号域中的所述音频内容的一时域表示型态作为所述反向修正离散余弦转换的结果。

8.根据权利要求1至7中的任一项所述的多模式音频信号解码器，包含：

一线性预测编码滤波器系数确定器，被构造为针对在线性预测模式中编码的所述音频内容的一部分，基于线性预测编码滤波器系数的一编码表示型态来获得解码的线性预测编码滤波器系数（α₁至α₁₆）；

一滤波器系数变换器（1260e），被构造为将所述解码的线性预测编码滤波器系数（1260d；α₁至α₁₆）变换成一频谱表示型态（1260f；X₀[k]），以便获得与不同频率相关联的线性预测模式增益值（g[k]）；

一比例因子确定器（1260a），被构造为针对在一频域模式中编码的所述音频内容的一部分，基于比例因子值的一编码表示型态（1254）获得解码的比例因子值（1260f）；

其中，所述频谱处理器（1150；1230e）包含一频谱修正器，所述频谱修正器被构造为将与在线性预测模式中编码的所述音频内容的一部分相关联的一组解码频谱系数（1132；1230d；r[i]）或其一预处理形态，与所述线性预测模式增益值g[k]相组合，以便获得所述这些解码频谱系数的一增益处理形态（1158；1230f；rr[i]），其中，所述这些解码频谱系数（1130；1230d；r[i]）或其预处理形态的贡献根据所述线性预测模式增益值g[k]来加权，以及还被构造为将与在频域模式中编码的所述音频内容的一部分相关联的一组解码频谱系数（1132；1230d；x_ac_invquant）或其一预处理形态，与所述比例因子值（1260b）相组合，以便获得所述这些解码频谱系数（x_ac_invquant）的一比例因子处理形态（x_rescal），其中，所述这些解码频谱系数或其预处理形态的贡献根据所述比例因子值来加权。

9.根据权利要求8所述的多模式音频信号解码器，其中，所述滤波器系数变换器（1260e）被构造为使用一奇离散傅立叶变换将表示一线性预测编码滤波器的一时域脉冲响应

的所述解码线性预测编码滤波器系数（1260d）变换成一频谱表示型态（X₀[k]）；及

其中，所述滤波器系数变换器（1260e）被构造为，由所述解码线性预测编码滤波器系数（1260d；α₁至α₁₆）的所述频谱表示型态（X₀[k]）获取所述线性预测模式增益值（g[k]），使得所述增益值是所述频谱表示型态（X₀[k]）的系数量值（X₀[k]）的一函数。

10.根据权利要求8或9所述的多模式音频信号解码器，其中，所述滤波器系数变换器（1260e）和所述组合器（1230e）被构造为使得一指定解码频谱系数（r[i]）或其一预处理形态对所述指定频谱系数的一增益处理形态（rr[i]）的贡献由与所述指定解码频谱系数（r[i]）相关联的一线性预测模式增益值（g[k]）的一量值确定。

11.根据权利要求1至9中的任一项所述的多模式音频信号解码器，其中，所述频谱处理器（1230e）被构造为使得一指定解码频谱系数（r[i]）或其一预处理形态对所述指定频谱系数的一增益处理形态（rr[i]）的贡献的加权，随着与所述指定解码频谱系数（r[i]）相关联的一线性预测模式增益值（g[k]）的量值的增加而增加，或使得一指定解码频谱系数（r[i]）或其一预处理形态对所述指定频谱系数的一增益处理形态（rr[i]）的贡献的加权，随着增加所述解码线性预测编码滤波器系数的一频谱表示型态的一相关联频谱系数（X₀[k]）的量值而减小。

12.根据权利要求1至11中的任一项所述的多模式音频信号解码器，其中，所述频谱值确定器（1130；1230a，1230c）被构造为将一反向量化应用于解码量化频谱系数，以便获得解码及反向量化的频谱系数（1132；1230d）；以及

其中，所述频谱处理器（1230e）被构造为，通过根据与所述指定解码频谱系数（r[i]）相关联的一线性预测模式增益值（g[k]）的一量值，调整针对所述指定解码频谱系数（r[i]）的一有效量化步骤来执行一量化噪声塑形。

13.根据权利要求1至12中的任一项所述的多模式音频信号解码器，其中，所述音频信号解码器被构造为使用一中间线性预测模式开始帧（1212），以便从一频域模式帧（1410）转变至一组合线性预测模式/代数码激发线性预测模式帧，

其中，所述音频信号解码器被构造为获得所述线性预测模式开始帧的一组解码频谱系数，

以根据与所述线性预测模式开始帧相关联的一组线性预测域参数将一频谱塑形应用于所述线性预测模式开始帧的所述一组解码频谱系数或其一预处理形态，

以基于经频谱塑形的一组解码频谱系数获得所述线性预测模式开始帧的一时域表示型态，以及

以将一开始窗口应用于所述线性预测模式开始帧的所述时域表示型态，所述开始窗口具有一相对长左侧转变斜坡和一相对短右侧转变斜坡。

14.根据权利要求13所述的多模式音频信号解码器，其中，所述音频信号解码器被构造为使在所述线性预测模式开始帧（1412）之前的一频域模式帧（1410）的一时域表示型态的一右侧部分，与所述线性预测模式开始帧的一时域表示型态的一左侧部分重迭，以减小或消除一时域混迭。

15.根据权利要求13或14所述的多模式音频信号解码器，其中，所述音频信号解码器被构造为使用与所述线性预测模式开始帧（1412）相关联的线性预测域参数，以便将一代数码激发线性预测模式解码器初始化来解码跟随在所述线性预测模式开始帧后面的所述组合线性预测模式/代数码激发线性预测模式帧的至少一部分。

16.一种用于基于一音频内容的一输入表示型态（110；310；1010）来提供所述音频内容的一编码表示型态（112；312；1012）的多模式音频信号编码器（100；300；900；1000），所述音频信号编码器包含：

一时域至频域转换器（120；330a；350a；1030a），被构造为处理所述音频内容的所述输入表示型态（110；310；1010）以获得所述音频内容的一频域表示型态（122；330b；1030b）；

一频谱处理器（130；330e；350d；1030e），被构造为，针对将在线性预测模式中编码的所述音频内容的一部分，根据一组线性预测域参数（134；340b），将一频谱塑形应用于一组频谱系数或其一预处理形态，及针对将在频域模式中编码的所述音频内容的一部分，根据一组比例因子参（136）数，将一频谱塑形应用于一组频谱系数或其一预处理形态，以及

一量化编码器（140；330g，330i，350f，350h；1030g，1030i），被构造为，针对将在线性预测模式中编码的所述音频内容的所述部分提供经频谱塑形的一组频谱系数（132；350e；1030f）的一编码形态（142；322，342；1032），及针对将在频域模式中编码的所述音频内容的所述部分提供经频谱塑形的一组频谱系数（132；330f；1030f）的一编码形态（142；322，342；1032）。

17.根据权利要求16所述的多模式音频信号编码器，其中，所述时域至频域转换器（120；330a；350a；1030a）被构造为针对将在线性预测模式中编码的在一音频信号域中的一音频内容的一部分和针对将在频域模式中编码的所述音频内容的一部分将所述音频内容的一时域表示型态（110；310；1010）转换成所述音频内容的一频域表示型态（122；330b；1030b）。

18.根据权利要求16或17所述的多模式音频信号编码器，其中，所述时域至频域转换器（120；330a，350a；1030a）被构造为针对将在不同模式中编码的所述音频内容的各部分，应用同一转换类型的重迭变换来获得频域表示型态。

19.根据权利要求16至18中的任一项所述的多模式音频信号编码器，其中，所述频谱处理器（130；330e，350ea；1030e）被构造为，根据一组线性预测域参数（134；340b），或根据一组比例因子参数（136；330d；1070b），选择性地将所述频谱塑形应用于所述一组频谱系数（122；330b；1030b）或其一预处理形态，所述一组线性预测域参数通过对将在线性预测模式中编码的所述音频内容的一部分进行基于互相关的分析而获得，而所述组比例因子参数通过对将在频域模式中编码的所述音频内容的一部分进行心理声学模型分析（330c；1070a）而获得。

20.根据权利要求19所述的多模式音频信号编码器，其中，所述音频信号编码器包含一模式选择器，其被构造为分析所述音频内容以便确定是在线性预测模式还是在频域模式中对所述音频内容的一部分编码。

21.根据权利要求16至20中的任一项所述的多模式音频信号编码器，其中，所述多信道音频信号编码器被构造为编码一音频帧，所述音频帧介于一频域模式帧与一组合变换编码激发线性预测模式/代数码激发线性预测模式帧之间作为一线性预测模式开始帧，

其中，所述多模式音频信号编码器被构造为

将具有一相对长的左侧转变斜坡和一相对短的右侧转变斜坡的一开始窗口应用于所述线性预测模式开始帧的所述时域表示型态，以获得一窗口化时域表示型态，

以获得所述线性预测模式开始帧的所述窗口化时域表示型态的一频域表示型态，

以获得所述线性预测模式开始帧的一组线性预测域参数，

以根据所述一组线性预测域参数，将一频谱塑形应用于所述线性预测模式开始帧的所述窗口化时域表示型态的所述频域表示型态，或其一预处理形态，以及

以编码所述组线性预测域参数及所述线性预测模式开始帧的所述窗口化时域表示型态的经频谱塑形的频域表示型态。

22.根据权利要求21所述的多模式音频信号编码器，其中，所述多模式音频信号编码器被构造为使用与所述线性预测模式开始帧相关联的所述一组线性预测域参数，以便将一代数码激发线性预测模式编码器初始化来编码跟随在所述线性预测模式开始帧后面的所述组合转换编码激发线性预测模式/代数码激发线性预测模式帧的至少一部分。

23.根据权利要求16至22中的任一项所述的多模式音频信号编码器，所述音频信号编码器包含：

一线性预测编码滤波器系数确定器（340a；1070c），被构造为分析将在一线性预测模式中编码的所述音频内容的一部分或其一预处理形态，以确定与将在所述线性预测模式中编码的所述音频内容的所述部分相关联的线性预测编码滤波器系数；

一滤波器系数变换器（350b；1070d），被构造为将所述线性预测编码滤波器系数变换成一频谱表示形态（X₀[k]），以便获得与不同频率相关联的线性预测模式增益值（g[k]，350c）；

一比例因子确定器（330c；1070a），被构造为分析将在频域模式中编码的所述音频内容的一部分，或其一预处理形态，以确定与将在频域模式中编码的所述音频内容的所述部分相关联的比例因子；

一组合器配置（330e，350d；1030e），被构造为将要在线性预测模式中编码的所述音频内容的一部分的一频域表示形态或其一预处理形态，与所述线性预测模式增益值（g[k]）相组合，以获得增益处理频谱成分，其中，所述音频内容的所述频域表示型态的所述频谱成分的贡献根据所述线性预测模式增益值来加权，以及

组合将在频域模式中编码的所述音频内容的一部分的一频域表示形态或其一预处理形态与所述比例因子，以获得增益处理频谱成分，其中，所述音频内容的所述频域表示型态的所述频谱成分的贡献根据所述比例因子来加权，

其中，所述增益处理频谱成分形成经频谱塑形的各组频谱系数。

24.一种用于基于一音频内容的一编码表示型态来提供所述音频内容的一解码表示型态的方法，所述方法包含以下步骤：

获得针对所述音频内容的多个部分的各组解码频系数；

针对在一线性预测模式中编码的所述音频内容的一部分，、根据一组线性预测域参数将一频谱塑形应用于一组解码频谱系数或一预处理形态，及针对在一频域模式中编码的所述音频内容的一部分，根据一组比例因子参数将一频谱塑形应用于一组解码频谱系数或一预处理形态；以及

针对在所述线性预测模式中编码的所述音频内容的一部分，基于经频谱塑形的一组解码频谱系数来获得所述音频内容的一时域表示型态，及针对在所述频域模式中编码的所述音频内容的一部分，基于经频谱塑形的一组解码频谱系数来获得所述音频内容的一时域表示型态。

25.一种用于基于一音频内容的一输入表示型态来提供所述音频内容的一编码表示型态的方法，所述方法包含以下步骤：

处理所述音频内容的所述输入表示型态，以获得所述音频内容的一频域表示型态；

针对将在线性预测模式中编码的所述音频内容的一部分，根据一组线性预测域参数，将一频谱塑形应用于一组频谱系数或其一预处理形态；

针对将在频域模式中编码的所述音频内容的一部分，根据一组比例因子参数，将一频谱塑形应用于一组频谱系数或其一预处理形态；

针对将在线性预测模式中编码的所述音频内容的所述部分，使用一量化编码来提供经频谱塑形的一组频谱系数的一编码表示型态；以及

针对将在频域模式中编码的所述音频内容的所述部分使用一量化编码来提供经频谱塑形的一组频谱系数的一编码形态。

26.一种计算机程序，用于在一计算机上运行时执行根据权利要求24或25项所述的方法。