CN101681627B

CN101681627B - 使用音调规则化及非音调规则化译码的信号编码方法及设备

Info

Publication number: CN101681627B
Application number: CN2008800195483A
Authority: CN
Inventors: 维韦克·拉金德朗; 阿南塔帕德马纳卜汉·A·坎达哈达伊; 文卡特什·克里希南
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2007-06-13
Filing date: 2008-06-13
Publication date: 2013-01-02
Anticipated expiration: 2028-06-13
Also published as: RU2010100875A; KR20100031742A; TWI405186B; US9653088B2; JP2010530084A; TW200912897A; RU2470384C1; JP5571235B2; KR101092167B1; EP2176860B1; US20080312914A1; JP5405456B2; CA2687685A1; EP2176860A1; BRPI0812948A2; JP2013242579A; WO2008157296A1; CN101681627A

Abstract

使用在对音频信号的帧进行音调规则化(PR)编码期间计算的时间移位在非PR编码期间对另一帧的片段进行时间移位。

Description

使用音调规则化及非音调规则化译码的信号编码方法及设备

根据35U.S.C.§119主张优先权

本专利申请案主张2007年6月13日申请的题为“用于在包括多个译码模式的广义音频译码系统中进行模式选择的方法及设备(METHOD AND APPARATUS FOR MODE SELECTION IN A GENERALIZED AUDIO CODING SYSTEM INCLUDING MULTIPLE CODING MODES)”的第60/943,558号临时申请案的优先权，所述临时申请案转让给本受让人。

技术领域

本发明涉及音频信号的编码。

背景技术

尤其是在长途电话、例如IP语音(还称作VoIP，其中IP表示因特网协议)等包交换电话及例如蜂窝式电话等数字无线电电话中，通过数字技术来传输音频信息(例如，话音及/或音乐)已变得较为普遍。此类扩散化已产生了对减少用以经由传输信道传送语音通信的信息量同时维持经重构话音的感知质量的关注。举例来说，需要有效利用可用系统带宽(尤其在无线系统中)。一种有效使用系统带宽的方法是采用信号压缩技术。对于携载话音信号的系统，出于此目的而通常采用话音压缩(或“话音译码”)技术。

经配置以通过提取与人类话音产生模型有关的参数来压缩话音的装置经常被称作音频译码器、语音译码器、编解码器、声码器或话音译码器，且以下描述可互换地使用这些术语。音频译码器通常包括编码器及解码器。编码器通常接收作为一系列样本块(称作“帧”)的数字音频信号，分析每一帧以提取某些相关参数，且量化所述参数以产生一系列对应经编码帧。经编码帧经由传输信道(即，有线或无线网络连接)传输到包括解码器的接收器。或者，经编码的音频信号可经存储以供在稍后时间进行检索并解码。解码器接收并处理经编码帧，对其进行逆量化以产生所述参数，且使用经逆量化的参数来重建话音帧。

码激励线性预测(“CELP”)是试图匹配原始音频信号的波形的译码方案。可能需要使用称作松弛CELP(“RCELP”)的CELP变型来对话音信号的帧(尤其是有声帧)进行编码。在RCELP译码方案中，波形匹配约束为松弛的。RCELP译码方案是音调规则化(“PR”)译码方案，因为通常通过改变音调脉冲的相对位置来规则化在信号的音调周期(还称作“延迟轮廓”)中的变化以匹配或接近较平滑的合成延迟轮廓。音调规则化通常允许以较少位编码音调信息，其中感知质量稍有降低到没有降低。通常，并无指定规则化量的信息传输到解码器。以下文献描述包括RCELP译码方案的译码系统：第三代合作伙伴计划2(“3GPP2”)文献C.S0030-0，v3.0，标题为“用于宽带扩展频谱通信系统的可选模式声码器(SMV)服务选项(Selectable Mode Vocoder(SMV)Service Option for Wideband Spread Spectrum Communication Systems”，2004年1月(在www.3gpp.org处在线可得)；以及3GPP2文献C.S0014-C，v1.0，标题为“用于宽带扩展频谱数字系统的增强型可变速率编解码器话音服务选项3、68和70(Enhanced VariableRate Codec，Speech Service Options 3，68，and 70 for Wideband Spread Spectrum DigitalSystems)”，2007年1月(在www.3gpp.org处在线可得)。用于有声帧的其它译码方案(包括例如原型音调周期(“PPP”)等原型波形内插(“PWI”)方案)也可实施为PR(例如，如在上文提及的3GPP2文献C.S0014-C的第4.2.4.3部分中所描述)。男性说话者的音调频率的常见范围包括50或70到150或200Hz，且女性说话者的音调频率的常见范围包括120或140到300或400Hz。

经由公共交换电话网(“PSTN”)的音频通信传统上在带宽上已限于300到3400千赫(kHz)的频率范围。用于音频通信的较新近网络(例如，使用蜂窝式电话及/或VoIP的网络)可能不具有相同带宽限制，且可能需要使用此类网络的设备具有发射及接收包括宽带频率范围的音频通信的能力。举例来说，可能需要此类设备支持延伸低达50Hz及/或高达7kHz或8kHz的音频范围。还可能需要此类设备支持可具有在传统PSTN限制外部的范围中的音频话音内容的其它应用，例如高质量音频或音频/视频会议、多媒体服务(例如，音乐及/或电视)的传递等。

话音译码器所支持的范围延伸到较高频率可改进可懂度。举例来说，在话音信号中区分例如“s”及“f”等摩擦音的信息大多为高频率。高带延伸还可改进经解码的话音信号的其它质量，例如真实感。举例来说，即使是有声元音也可具有远远高于PSTN频率范围的频谱能量。

发明内容

根据通用配置的处理音频信号的帧的方法包括：根据音调规则化(“PR”)译码方案而对音频信号的第一帧进行编码；以及根据非PR译码方案而对音频信号的第二帧进行编码。在此方法中，第二帧在音频信号中跟随并连续于第一帧，且对第一帧进行编码包括基于时间移位而对基于第一帧的第一信号的片段进行时间修改，其中时间修改包括以下一者：(A)根据所述时间移位而对第一帧的片段进行时间移位；以及(B)基于所述时间移位而对第一信号的片段进行时间扭曲。在此方法中，对第一信号的片段进行时间修改包括改变所述片段的音调脉冲相对于第一信号的另一音调脉冲的位置。在此方法中，对第二帧进行编码包括基于时间移位而对基于第二帧的第二信号的片段进行时间修改，其中时间修改包括以下一者：(A)根据所述时间移位而对第二帧的片段进行时间移位；以及(B)基于所述时间移位而对第二信号的片段进行时间扭曲。还描述了具有用于以此方式处理音频信号的帧的指令的计算机可读媒体，以及用于以类似方式处理音频信号的帧的设备及系统。

根据另一通用配置的处理音频信号的帧的方法包括：根据第一译码方案而对音频信号的第一帧进行编码；以及根据PR译码方案而对音频信号的第二帧进行编码。在此方法中，第二帧在音频信号中跟随并连续于第一帧，且第一译码方案为非PR译码方案。在此方法中，对第一帧进行编码包括基于第一时间移位而对基于第一帧的第一信号的片段进行时间修改，其中时间修改包括以下一者：(A)根据第一时间移位而对第一信号的片段进行时间移位；以及(B)基于第一时间移位而对第一信号的片段进行时间扭曲。在此方法中，对第二帧进行编码包括基于第二时间移位而对基于第二帧的第二信号的片段进行时间修改，其中时间修改包括以下一者：(A)根据第二时间移位而对第二信号的片段进行时间移位；以及(B)基于第二时间移位而对第二信号的片段进行时间扭曲。在此方法中，对第二信号的片段进行时间修改包括改变所述片段的音调脉冲相对于第二信号的另一音调脉冲的位置，且第二时间移位是基于来自第一信号的经时间修改片段的信息。还描述了具有用于以此方式处理音频信号的帧的指令的计算机可读媒体，以及用于以类似方式处理音频信号的帧的设备及系统。

附图说明

图1说明无线电话系统的实例。

图2说明经配置以支持包交换数据通信的蜂窝式电话系统的实例。

图3a说明包括音频编码器AE10及音频解码器AD10的译码系统的框图。

图3b说明一对译码系统的框图。

图4a说明音频编码器AE10的多模式实施方案AE20的框图。

图4b说明音频解码器AD10的多模式实施方案AD20的框图。

图5a说明音频编码器AE20的实施方案AE22的框图。

图5b说明音频编码器AE20的实施方案AE24的框图。

图6a说明音频编码器AE24的实施方案AE25的框图。

图6b说明音频编码器AE20的实施方案AE26的框图。

图7a说明对音频信号的帧进行编码的方法M10的流程图。

图7b说明经配置以对音频信号的帧进行编码的设备F10的框图。

图8说明在被时间扭曲到延迟轮廓之前及之后的残余物的实例。

图9说明在分段修改之前及之后的残余物的实例。

图10说明RCELP编码方法RM100的流程图。

图11说明RCELP编码方法RM100的实施方案RM110的流程图。

图12a说明RCELP帧编码器34c的实施方案RC100的框图。

图12b说明RCELP编码器RC100的实施方案RC110的框图。

图12c说明RCELP编码器RC100的实施方案RC105的框图。

图12d说明RCELP编码器RC110的实施方案RC115的框图。

图13说明残余物产生器R10的实施方案R12的框图。

图14说明RCELP编码设备RF100的框图。

图15说明RCELP编码方法RM100的实施方案RM120的流程图。

图16说明MDCT译码方案的典型正弦窗口形状的三个实例。

图17a说明MDCT编码器34d的实施方案ME100的框图。

图17b说明MDCT编码器34d的实施方案ME200的框图。

图18说明与图16中所说明的开窗技术不同的开窗技术的一个实例。

图19a说明根据通用配置的处理音频信号的帧的方法M100的流程图。

图19b说明任务T110的实施方案T112的流程图。

图19c说明任务T112的实施方案T114的流程图。

图20a说明MDCT编码器ME100的实施方案ME110的框图。

图20b说明MDCT编码器ME200的实施方案ME210的框图。

图21a说明MDCT编码器ME100的实施方案ME120的框图。

图21b说明MDCT编码器ME100的实施方案ME130的框图。

图22说明MDCT编码器ME120及ME130的实施方案ME140的框图。

图23a说明MDCT编码方法MM100的流程图。

图23b说明MDCT编码设备MF100的框图。

图24a说明根据通用配置的处理音频信号的帧的方法M200的流程图。

图24b说明任务T620的实施方案T622的流程图。

图24c说明任务T620的实施方案T624的流程图。

图24d说明任务T622及T624的实施方案T626的流程图。

图25a说明由将MDCT窗口应用于音频信号的连续帧而产生的重叠与相加区的实例。

图25b说明将时间移位应用于非PR帧序列的实例。

图26说明音频通信装置1108的框图。

具体实施方式

本文中所描述的系统、方法及设备可用以在多模式音频译码系统中在PR与非PR译码方案之间转变期间支持增加的感知质量，尤其是对于包括重叠与相加非PR译码方案(例如，改进型离散余弦变换(“MDCT”)译码方案)的译码系统。下文描述的配置驻留于经配置以采用码分多址(“CDMA”)空中接口的无线电话通信系统中。然而，所属领域的技术人员将理解，具有本文中所描述的特征的方法及设备可驻留于采用所属领域的技术人员所已知的广泛范围的技术的任何各种通信系统中，例如经由有线及/或无线(例如，CDMA、TDMA、FDMA及/或TD-SCDMA)传输信道采用IP语音(“VoIP”)的系统。

清楚地预期且在此揭示，本文中所揭示的配置可适合用于包交换的网络(例如，经布置以根据例如VoIP等协议而携载音频传输的有线及/或无线网络)及/或电路交换的网络中。还清楚地预期且在此揭示，本文中所揭示的配置可适合用于窄带译码系统(例如，对约为四千赫或五千赫的音频频率范围进行编码的系统)中且用于宽带译码系统(例如，对大于五千赫的音频频率进行编码的系统)中，所述宽带译码系统包括完整频带宽带译码系统及分割频带宽带译码系统。

除非受其上下文清楚地限制，否则术语“信号”在本文中用以指示其普通意义中的任一者，包括如在导线、总线或其它传输媒体上表达的存储器位置(或存储器位置集合)的状态。除非受其上下文清楚地限制，否则术语“产生”在本文中用以指示其普通意义中的任一者，例如计算或以另外方式产生。除非受其上下文清楚地限制，否则术语“计算”在本文中用以指示其普通意义中的任一者，例如运算、评估、平滑及/或从多个值中进行选择。除非受其上下文清楚地限制，否则术语“获得”用以指示其普通意义中的任一者，例如计算、导出、接收(例如，从外部装置接收)及/或检索(例如，从存储元件阵列检索)。在术语“包含”用于本描述及权利要求书中的情况下，其并不排除其它元件或操作。术语“A基于B”用以指示其普通意义中的任一者，包括以下情况：(i)“A基于至少B”；以及(ii)“A等于B”(如果在特定上下文中适当的话)。

除非另有指示，否则对具有特定特征的设备的操作的任何揭示内容还清楚地希望揭示具有类似特征的方法(且反之亦然)，且对根据特定配置的设备的操作的任何揭示内容还清楚地希望揭示根据类似配置的方法(且反之亦然)。举例来说，除非另有指示，否则对具有特定特征的音频编码器的任何揭示内容还清楚地希望揭示具有类似特征的音频编码方法(且反之亦然)，且对根据特定配置的音频编码器的任何揭示内容还清楚地希望揭示根据类似配置的音频编码方法(且反之亦然)。

任何以引用的方式并入文献的一部分还应理解为并入在所述部分内所引用的术语或变量的定义，其中此类定义在所述文献中的其它地方出现。

可互换地使用术语“译码器”、“编解码器”及“译码系统”以表示包括经配置以接收音频信号的帧(可能在例如感知加权及/或其它滤波操作等一个或一个以上预处理操作之后)的至少一个编码器及经配置以产生所述帧的经解码表示的对应解码器的系统。

如图1中所说明，无线电话系统(例如，CDMA、TDMA、FDMA及/或TD-SCDMA系统)通常包括经配置以用无线方式与无线电接入网络通信的多个移动订户单元10，所述无线电接入网络包括多个基站(BS)12及一个或一个以上基站控制器(BSC)14。此系统还通常包括耦合到BSC 14的移动交换中心(MSC)16，其经配置以使无线电接入网络与常规公共交换电话网(PSTN)18介接。为了支持此接口，MSC可包括媒体网关或者与媒体网关通信，所述媒体网关充当网络之间的转译单元。媒体网关经配置以在不同格式(例如不同传输及/或译码技术)之间转换(例如，在时分多路复用(“TDM”)语音与VoIP之间转换)，且还可经配置以执行媒体串流功能，例如回波消除、双时多频(“DTMF”)及声调发送。BSC 14经由回程线路耦合到基站12。回程线路可经配置以支持若干已知接口中的任一者，所述接口包括(例如)E1/T1、ATM、IP、PPP、帧中继、HDSL、ADSL或xDSL。基站12、BSC 14、MSC 16及媒体网关(如果存在的话)的集合还称作“基础结构”。

每一基站12有利地包括至少一个扇区(未图示)，每一扇区包含全向天线或在径向地远离基站12的特定方向上指向的天线。或者，每一扇区可包含两个或两个以上天线以用于分集接收。每一基站12可有利地经设计以支持多个频率指派。可将扇区与频率指派的相交部分称作CDMA信道。基站12还可称作基站收发器子系统(BTS)12。或者，“基站”可在行业中用以统指BSC 14及一个或一个以上BTS 12。BTS 12还可被表示为“小区站”12。或者，给定BTS 12的个别扇区可称作小区台。移动订户单元10通常包括蜂窝式及/或个人通信服务(“PCS”)电话、个人数字助理(“PDA”)及/或具有移动电话能力的其它装置。此单元10可包括内部扬声器及麦克风、包括扬声器及麦克风的带缆手持机或头戴耳机(例如，USB手持机)或包括扬声器及麦克风的无线头戴耳机(例如，使用由华盛顿州贝尔维尤市蓝牙特别兴趣小组(Bluetooth Special InterestGroup，Bellevue，WA)公布的蓝牙协议的版本将音频信息传送到所述单元的头戴耳机)。此系统可经配置以根据IS-95标准的一个或一个以上版本(例如，如由弗吉尼亚州阿灵顿县电信工业联盟(Telecommunications Industry Alliance，Arlington，VA)公开的IS-95、IS-95A、IS-95B、cdma2000)来使用。

现在描述蜂窝式电话系统的典型操作。基站12从若干组移动订户单元10接收若干组反向链路信号。移动订户单元10正在进行电话呼叫或其它通信。由给定基站12接收的每一反向链路信号在所述基站12内加以处理，且所得数据被转发到BSC 14。BSC 14提供通话资源分配及移动性管理功能性，包括对基站12之间的软越区切换的安排。BSC14还将所接收的数据路由到MSC 16，所述MSC 16为与PSTN 18的介接提供额外路由服务。类似地，PSTN 18与MSC 16介接，且MSC 16与BSC 14介接，BSC 14又控制基站12以将若干组前向链路信号传输到若干组移动订户单元10。

如图1中所示的蜂窝式电话系统的元件还可经配置以支持包交换数据通信。如图2中所示，通常使用耦合到连接到包数据网络的网关路由器的包数据服务节点(PDSN)22在移动订户单元10与外部包数据网络24(例如，例如因特网等公用网络)之间路由包数据业务。PDSN 22又将数据路由到一个或一个以上包控制功能(PCF)20，其各自服务一个或一个以上BSC 14且充当包数据网络与无线电接入网络之间的链路。包数据网络24还可经实施以包括局域网(“LAN”)、校园网(“CAN”)、城域网(“MAN”)、广域网(“WAN”)、环形网、星形网、令牌环形网等。连接到网络24的用户终端可为PDA、膝上型计算机、个人计算机、游戏装置(此装置的实例包括XBOX及XBOX 360(华盛顿州雷蒙德市微软公司(Microsoft Corp.，Redmond，WA))、第3代游戏站及便携式游戏站(日本东京索尼公司(Sony Corp.，Tokyo，JP))及Wii与DS(日本京都任天堂公司(Nintendo，Kyoto，JP)))，及/或具有音频处理能力且可经配置以使用一个或一个以上协议(例如VoIP)支持电话呼叫或其它通信的任何装置。此终端可包括内部扬声器及麦克风、包括扬声器及麦克风的带缆手持机(例如，USB手持机)或包括扬声器及麦克风的无线头戴耳机(例如，使用如由华盛顿州贝尔维尤市蓝牙特别兴趣小组(Bluetooth Special Interest Group，Bellevue，WA)公布的蓝牙协议的版本将音频信息传送到所述终端的头戴耳机)。此系统可经配置以在不同无线电接入网络上的移动订户单元之间(例如，经由一个或一个以上协议(例如VoIP))、在移动订户单元与非移动用户终端之间或在两个非移动用户终端之间携载电话呼叫或其它通信作为包数据业务，而始终不进入PSTN。移动订户单元10或其它用户终端还可称作“接入终端”。

图3a说明音频编码器AE10，其经布置以接收经数字化音频信号S100(例如，作为一系列帧)且产生对应经编码信号S200(例如，作为一系列对应经编码帧)以用于在通信信道C100(例如，有线、光学及/或无线通信链路)上传输到音频解码器AD10。音频解码器AD10经布置以对经编码音频信号S200的所接收版本S300进行解码且合成对应输出话音信号S400。

音频信号S100表示已根据此项技术中已知的各种方法中的任一者(例如脉冲码调制(“PCM”)、压扩μ法则或A法则)而进行数字化及量化的模拟信号(例如，如由麦克风所俘获)。所述信号还可能已在模拟及/或数字域中经受其它预处理操作，例如噪声抑制、感知加权及/或其它滤波操作。另外或替代地，此类操作可在音频编码器AE10内执行。音频信号S100的实例还可表示已被数字化并量化的模拟信号(例如，如由麦克风阵列所俘获)的组合。

图3b说明音频编码器AE10的第一实例AE10a，其经布置以接收经数字化音频信号S100的第一实例S110且产生经编码信号S200的对应实例S210以用于在通信信道C100的第一实例C110上传输到音频解码器AD10的第一实例AD10a。音频解码器AD10a经布置以对经编码音频信号S210的所接收版本S310进行解码且合成输出话音信号S400的对应实例S410。

图3b还说明音频编码器AE10的第二实例AE10b，其经布置以接收经数字化音频信号S100的第二实例S120且产生经编码信号S200的对应实例S220以用于在通信信道C100的第二实例C120上传输到音频解码器AD10的第二实例AD10b。音频解码器AD10b经布置以对经编码音频信号S220的所接收版本S320进行解码且合成输出话音信号S400的对应实例S420。

音频编码器AE10a及音频解码器AD10b(类似地，音频编码器AE10b及音频解码器AD10a)可共同在用于发射及接收话音信号的任何通信装置中使用，所述通信装置包括(例如)上文参看图1及图2所描述的订户单元、用户终端、媒体网关、BTS或BSC。如本文中所描述，音频编码器AE10可以许多不同方式来实施，且音频编码器AE10a及AE10b可为音频编码器AE10的不同实施方案的实例。同样地，音频解码器AD10可以许多不同方式来实施，且音频解码器AD10a及AD10b可为音频解码器AD10的不同实施方案的实例。

音频编码器(例如，音频编码器AE10)将音频信号的数字样本处理为输入数据的一系列帧，其中每一帧包含预定数目的样本。此系列通常被实施为不相重叠的系列，但处理帧或帧片段(还称作子帧)的操作还可在其输入中包括一个或一个以上相邻帧的片段。音频信号的帧通常足够短以使得信号的频谱包络可被预期在整个帧上保持相对固定。帧通常对应于音频信号的五毫秒与三十五毫秒之间(或约四十到二百个样本)，其中二十毫秒为电话应用的常见帧大小。常见帧大小的其它实例包括十毫秒及三十毫秒。通常，音频信号的所有帧具有相同长度，且在本文中所描述的特定实例中假定统一的帧长度。然而，还清楚地预期且在此揭示，可使用不统一的帧长度。

二十毫秒的帧长度对应于七千赫(kHz)的取样速率下的140个样本、八千赫的取样速率(窄带译码系统的一个典型取样速率)下的160个样本及16kHz的取样速率(宽带译码系统的一个典型取样速率)下的320个样本，但可使用视为适合于特定应用的任何取样速率。可用于话音译码的取样速率的另一实例为12.8kHz，且其它实例包括在从12.8kHz到38.4kHz的范围中的其它速率。

在典型的音频通信会话(例如，电话呼叫)中，每一说话者保持沉默达约百分之六十的时间。用于此应用的音频编码器将通常经配置以区别音频信号的含有话音或其它信息的帧(“有效帧”)与音频信号的仅含有背景噪声或静默的帧(“无效帧”)。可能需要实施音频编码器AE10以使用不同译码模式及/或位速率来对有效帧及无效帧进行编码。举例来说，音频编码器AE10可经实施以使用比对有效帧进行编码少的位(即，较低位速率)来对无效帧进行编码。还可能需要音频编码器AE10使用不同位速率来对不同类型的有效帧进行编码。在此类情况下，较低位速率可选择性地用于含有相对较少话音信息的帧。通常用以对有效帧进行编码的位速率的实例包括每帧171个位、每帧八十个位及每帧四十个位；且通常用以对无效帧进行编码的位速率的实例包括每帧十六个位。在蜂窝式电话系统(尤其是与如由弗吉尼亚州阿灵顿县电信工业联盟(Telecommunications Industry Association，Arlington，VA)公布的临时标准(IS)-95或类似行业标准相符合的系统)的情形下，这四个位速率还分别称作“全速率”、“半速率”、“四分之一速率”及“八分之一速率”。

可能需要音频编码器AE10将音频信号的每一有效帧分类为若干不同类型中的一者。这些不同类型可包括有声话音(例如，表示元音声的话音)的帧、过渡帧(例如，表示词的开始或结束的帧)、无声话音(例如，表示摩擦声的话音)的帧及非话音信息 (例如，例如歌声及/或音乐器具等音乐，或其它音频内容)的帧。可能需要实施音频编码器AE10以使用不同译码模式来对不同类型的帧进行编码。举例来说，有声话音的帧倾向于具有周期性结构，所述周期性结构为长期的(即，延续达一个以上帧周期)且与音调有关，且使用对此长期频谱特征的描述进行编码的译码模式来对有声帧(或有声帧序列)进行编码通常更为有效。此类译码模式的实例包括码激励线性预测(“CELP”)、原型波形内插(“PWI”)及原型音调周期(“PPP”)。另一方面，无声帧及无效帧通常缺乏任何显著的长期频谱特征，且音频编码器可经配置以使用并不试图描述此特征的译码模式来对这些帧进行编码。噪声激励线性预测(“NELP”)是此译码模式的一个实例。音乐的帧通常含有不同声调的混合物，且音频编码器可经配置以使用基于正弦分解的方法(例如，傅立叶或余弦变换)来对这些帧(或对这些帧的LPC分析操作的残余物)进行编码。一个此类实例为基于改进型离散余弦变换(“MDCT”)的译码模式。

音频编码器AE10或对应的音频编码方法可经实施以在位速率与译码模式的不同组合(还称作“译码方案”)中进行选择。举例来说，音频编码器AE10可经实施以针对含有有声话音的帧及针对过渡帧使用全速率CELP方案，针对含有无声话音的帧使用半速率NELP方案，针对无效帧使用八分之一速率NELP方案，且针对普通音频帧(例如，包括含有音乐的帧)使用全速率MDCT方案。或者，音频编码器AE10的此实施方案可经配置以针对含有有声话音的至少一些帧(尤其是针对高声帧)使用全速率PPP方案。

音频编码器AE10还可经实施以针对一个或一个以上译码方案中的每一者支持多个位速率，例如全速率及半速率CELP方案及/或全速率及四分之一速率PPP方案。包括稳定有声话音的周期的系列中的帧倾向于为大量冗余的，例如，使得可在小于全速率下对其中的至少一些进行编码而不会显著损失感知质量。

多模式音频译码器(包括支持多个位速率及/或译码模式的音频译码器)通常在低位速率下提供有效音频译码。熟练的技术人员将认识到，增加译码方案的数目将在选择译码方案时允许较大灵活性，这可得到较低的平均位速率。然而，译码方案的数目的增加将对应地增加整个系统内的复杂性。任何给定系统中所使用的可用方案的特定组合将由可用系统资源及特定信号环境规定。多模式译码技术的实例描述于(例如)题为“可变速率话音译码(VARIABLE RATE SPEECH CODING)”的第6,691,084号美国专利及题为“用于可变速率译码器的任意平均数据速率(ARBITRARY AVERAGE DATA RATESFORVARIABLE RATE CODERS)”的第2007/0171931号美国公开案中。

图4a说明音频编码器AE10的多模式实施方案AE20的框图。编码器AE20包括译码方案选择器20及多个(p个)帧编码器30a到30p。所述p个帧编码器中的每一者经配置以根据相应译码模式来对帧进行编码，且由译码方案选择器20产生的译码方案选择信号用以控制音频编码器AE20的一对选择器50a及50b以为当前帧选择所要的译码模式。译码方案选择器20还可经配置以控制选定帧编码器来在选定位速率下对当前帧进行编码。请注意，音频编码器AE20的软件或固件实施方案可使用译码方案指示以将执行流引导到帧解码器中的一者或另一者，且此实施方案可能不包括用于选择器50a及/或用于选择器50b的模拟。帧编码器30a到30p中的两者或两者以上(可能所有)可共享共同结构，例如LPC系数值的计算器(可能经配置以针对不同译码方案产生具有不同阶数的结果，例如话音及非话音帧具有比无效帧高的阶数)及/或LPC残余物产生器。

译码方案选择器20通常包括开放回路决策模块，其检查输入音频帧且作出关于将哪一译码模式或方案应用于所述帧的决策。此模块通常经配置以将帧分类为有效或无效的且还可经配置以将有效帧分类为两个或两个以上不同类型中的一者，例如有声、无声、过渡或普通音频。帧分类可基于当前帧的一个或一个以上特性及/或一个或一个以上先前帧的一个或一个以上特性，例如整个帧能量、两个或两个以上不同频带中的每一者中的帧能量、信噪比(“SNR”)、周期性及越零率。译码方案选择器20可经实施以计算此类特性的值，从音频编码器AE20的一个或一个以上其它模块接收此类特性的值，且/或从包括音频编码器AE20的装置(例如，蜂窝式电话)的一个或一个以上其它模块接收此类特性的值。帧分类可包括将此特性的值或量值与阈值进行比较及/或将此值的改变量值与阈值进行比较。

开放回路决策模块可经配置以根据特定帧所含有的话音的类型而选择用以对所述帧进行编码的位速率。此操作称作“可变速率译码”。举例来说，可能需要配置音频编码器AD20以在较高位速率(例如，全速率)下对过渡帧进行编码，在较低位速率(例如，四分之一速率)下对无声帧进行编码，且在中间位速率(例如，半速率)下或在较高位速率(例如，全速率)下对有声帧进行编码。针对特定帧而选择的位速率还可取决于例如所要平均位速率、一系列帧上的所要位速率型式(其可用以支持所要平均位速率)及/或针对先前帧而选择的位速率等标准。

译码方案选择器20还可经实施以执行闭合回路译码决策，其中在使用开放回路选定译码方案进行全部或部分编码之后获得一个或一个以上编码性能测量。可在闭合回路测试中考虑的性能测量包括(例如)SNR、在例如PPP话音编码器等编码方案中的SNR预测、预测误差量化SNR、相位量化SNR、振幅量化SNR、感知SNR及作为平稳性测量的当前帧与过去帧之间的标准化交叉相关。译码方案选择器20可经实施以计算此类特性的值，从音频编码器AE20的一个或一个以上其它模块接收此类特性的值，且/或从包括音频编码器AE20的装置(例如，蜂窝式电话)的一个或一个以上其它模块接收此类特性的值。如果性能测量降到低于阈值，则可将位速率及/或译码模式改变为被预期给予较好质量的位速率及/或译码模式。可用以维持可变速率多模式音频译码器的质量的闭合回路分类方案的实例描述于题为“用于在话音译码器中维持目标位速率的方法及设备(METHOD AND APPARATUS FOR MAINTAINING A TARGET BIT RATE IN ASPEECH CODER)”的第6,330,532号美国专利及题为“用于在可变速率编码系统中执行话音帧编码模式选择的方法及设备(METHOD AND APPARATUS FOR PERFORMINGSPEECH FRAME ENCODING MODE SELECTION IN A VARIABLE RATRE ENCODINGSYSTEM)”的第5,911,128号美国专利中。

图4b说明音频解码器AD10的实施方案AD20的框图，所述实施方案AD20经配置以处理所接收的经编码音频信号S300来产生对应的经解码音频信号S400。音频解码器AD20包括译码方案检测器60及多个(p个)帧解码器70a到70p。解码器70a到70p可经配置以对应于如上文所描述的音频编码器AE20的编码器，使得帧解码器70a经配置以对已由帧编码器30a编码的帧进行解码，等等。帧解码器70a到70p中的两者或两者以上(可能所有)可共享共同结构，例如可根据经解码LPC系数值集合配置的合成滤波器。在此情况下，帧解码器可主要在其用来产生激励合成滤波器产生经解码音频信号的激励信号的技术上有所不同。音频解码器AD20通常还包括后置滤波器，其经配置以处理经解码音频信号S400以减少量化噪声(例如，通过加重共振峰频率及/或衰减频谱谷值)且还可包括自适应增益控制。包括音频解码器AD20的装置(例如，蜂窝式电话)可包括数/模转换器(“DAC”)，其经配置及布置以从经解码音频信号S400产生模拟信号以供输出到耳机、扬声器或其它音频变换器，及/或定位于装置的外壳内的音频输出塞孔。此装置还可经配置以在将模拟信号应用于塞孔及/或变换器之前对模拟信号执行一个或一个以上模拟处理操作(例如，滤波、均衡及/或放大)。

译码方案检测器60经配置以指示对应于所接收的经编码音频信号S300的当前帧的译码方案。适当的译码位速率及/或译码模式可由帧的格式指示。译码方案检测器60可经配置以执行速率检测或从内部嵌入有音频解码器AD20的设备的另一部分(例如，多路复用子层)接收速率指示。举例来说，译码方案检测器60可经配置以从多路复用子层接收指示位速率的包类型指示符。或者，译码方案检测器60可经配置以从一个或一个以上参数(例如，帧能量)确定经编码帧的位速率。在一些应用中，译码系统经配置以针对特定位速率仅使用一个译码模式，使得经编码帧的位速率还指示译码模式。在其它情况下，经编码帧可包括识别译码模式(根据其来对所述帧进行编码)的信息，例如一个或一个以上位的集合。此信息(还称作“译码索引”)可明确地或隐含地指示译码模式(例如，通过指示对于其它可能译码模式无效的值)。

图4b说明由译码方案检测器60产生的译码方案指示用以控制音频解码器AD20的一对选择器90a及90b以选择帧解码器70a到70p中的一者的实例。请注意，音频解码器AD20的软件或固件实施方案可使用译码方案指示以将执行流引导到帧解码器中的一者或另一者，且此实施方案可能不包括用于选择器90a及/或用于选择器90b的模拟。

图5a说明多模式音频编码器AE20的实施方案AE22的框图，所述实施方案AE22包括帧编码器30a、30b的实施方案32a、32b。在此实例中，译码方案选择器20的实施方案22经配置以区别音频信号S100的有效帧与无效帧。此操作还称作“语音活动检测”，且译码方案选择器22可经实施以包括语音活动检测器。举例来说，译码方案选择器22可经配置以输出二进制值译码方案选择信号，其对于有效帧为高(指示对有效帧编码器32a的选择)且对于无效帧为低(指示对无效帧编码器32b的选择)，或反之亦然。在此实例中，由译码方案选择器22产生的译码方案选择信号用以控制选择器50a、50b的实施方案52a、52b，使得音频信号S100的每一帧由有效帧编码器32a(例如，CELP编码器)及无效帧编码器32b(例如，NELP编码器)中的选定一者来编码。

译码方案选择器22可经配置以基于帧的能量及/或频谱内容的一个或一个以上特性来执行语音活动检测，所述特性例如为帧能量、信噪比(“SNR”)、周期性、频谱分布(例如，频谱倾斜)及/或越零率。译码方案选择器22可经实施以计算此类特性的值，从音频编码器AE22的一个或一个以上其它模块接收此类特性的值，且/或从包括音频编码器AE22的装置(例如，蜂窝式电话)的一个或一个以上其它模块接收此类特性的值。此检测可包括将此特性的值或量值与阈值进行比较及/或将此特性的改变量值(例如，相对于先前帧)与阈值进行比较。举例来说，译码方案选择器22可经配置以评估当前帧的能量且在能量值小于(或者，不大于)阈值的情况下将帧分类为无效的。此选择器可经配置以将帧能量计算为帧样本的平方和。

译码方案选择器22的另一实施方案经配置以评估当前帧在低频带(例如，300Hz到2kHz)及高频带(例如，2kHz到4kHz)中的每一者中的能量且在每一频带的能量值小于(或者，不大于)相应阈值的情况下指示帧为无效的。此选择器可经配置以通过将通带滤波器应用于帧且计算经滤波帧的样本的平方和而计算频带中的帧能量。此语音活动检测操作的一个实例描述于第三代合作伙伴计划2(“3GPP2”)标准文献C.S0014-C，v1.0(2007年1月)的第4.7章节中，所述文献在www.3gpp2.org处在线可得。

另外地或在替代方案中，语音活动检测操作可基于来自一个或一个以上先前帧及/或一个或一个以上随后帧的信息。举例来说，可能需要配置译码方案选择器22以基于在两个或两个以上帧上求平均数的帧特性的值而将帧分类为有效或无效的。可能需要配置译码方案选择器22以使用基于来自先前帧的信息(例如，背景噪声电平、SNR)的阈值来分类帧。还可能需要配置译码方案选择器22以将在音频信号S100中从有效帧到无效帧的过渡之后的第一帧中的一者或一者以上分类为有效的。在过渡之后以此方式继续先前分类状态的动作还称作“滞留”。

图5b说明多模式音频编码器AE20的实施方案AE24的框图，所述实施方案AE24包括帧编码器30c、30d的实施方案32c、32d。在此实例中，译码方案选择器20的实施方案24经配置以区别音频信号S100的话音帧与非话音帧(例如，音乐)。举例来说，译码方案选择器24可经配置以输出二进制值译码方案选择信号，其对于话音帧为高(指示对话音帧编码器32c(例如CELP编码器)的选择)且对于非话音帧为低(指示对非话音帧编码器32d(例如MDCT编码器)的选择)，或反之亦然。此分类可基于帧的能量及/或频谱内容的一个或一个以上特性，例如帧能量、音调、周期性、频谱分布(例如，倒谱系数、LPC系数、线谱频率(“LSF”))及/或越零率。译码方案选择器24可经实施以计算此类特性的值，从音频编码器AE24的一个或一个以上其它模块接收此类特性的值，且/或从包括音频编码器AE24的装置(例如，蜂窝式电话)的一个或一个以上其它模块接收此类特性的值。此分类可包括将此特性的值或量值与阈值进行比较及/或将此特性的改变量值(例如，相对于先前帧)与阈值进行比较。此分类可基于来自一个或一个以上先前帧及/或一个或一个以上随后帧的信息，其可用以更新多状态模型(例如，隐马尔可夫模型)。

在此实例中，由译码方案选择器24产生的译码方案选择信号用以控制选择器52a、52b，使得音频信号S100的每一帧由话音帧编码器32c及非话音帧编码器32d中的选定一者来编码。图6a说明音频编码器AE24的实施方案AE25的框图，所述实施方案AE25包括话音帧编码器32c的RCELP实施方案34c及非话音帧编码器32d的MDCT实施方案34d。

图6b说明多模式音频编码器AE20的实施方案AE26的框图，所述实施方案AE26包括帧编码器30b、30d、30e、30f的实施方案32b、32d、32e、32f。在此实例中，译码方案选择器20的实施方案26经配置以将音频信号S100的帧分类为有声话音、无声话音、无效话音及非话音。此分类可基于如上文所提及的帧的能量及/或频谱内容的一个或一个以上特性，可包括将此特性的值或量值与阈值进行比较及/或将此特性的改变量值 (例如，相对于先前帧)与阈值进行比较，且可基于来自一个或一个以上先前帧及/或一个或一个以上随后帧的信息。译码方案选择器26可经实施以计算此类特性的值，从音频编码器AE26的一个或一个以上其它模块接收此类特性的值，且/或从包括音频编码器AE26的装置(例如，蜂窝式电话)的一个或一个以上其它模块接收此类特性的值。在此实例中，由译码方案选择器26产生的译码方案选择信号用以控制选择器50a、50b的实施方案54a、54b，使得音频信号S100的每一帧由有声帧编码器32e(例如，CELP或松弛CELP(“RCELP”)编码器)、无声帧编码器32f(例如，NELP编码器)、非话音帧编码器32d及无效帧编码器32b(例如，低速率NELP编码器)中的选定一者来编码。

由音频编码器AE10产生的经编码帧通常含有参数值集合，可从所述参数值集合重构音频信号的对应帧。此参数值集合通常包括频谱信息，例如帧内能量在频谱上的分布的描述。此能量分布还称作帧的“频率包络”或“频谱包络”。帧的频谱包络的描述可具有依据用以对对应帧进行编码的特定译码方案而定的不同形式及/或长度。音频编码器AE10可经实施以包括包化器(未图示)，其经配置以将所述参数值集合布置成包，使得包的大小、格式及内容对应于针对所述帧而选择的特定译码方案。音频解码器AD10的对应实施方案可经实施以包括解包化器(未图示)，其经配置以使所述参数值集合与包中的其它信息(例如，标头及/或其它路由信息)分离。

音频编码器(例如，音频编码器AE10)通常经配置以将帧的频谱包络的描述计算为值的有序序列。在一些实施方案中，音频编码器AE10经配置以计算有序序列以使得每一值指示在对应频率处或在对应频谱区上信号的振幅或量值。此描述的一个实例是傅立叶或离散余弦变换系数的有序序列。

在其它实施方案中，音频编码器AE10经配置以将频谱包络的描述计算为译码模型的参数值的有序序列，例如线性预测译码(“LPC”)分析的系数值的集合。LPC系数值指示音频信号的共振，还称作“共振峰”。通常将LPC系数值的有序序列布置为一个或一个以上向量，且音频编码器可经实施以将这些值计算为滤波系数或反射系数。所述集合中的系数值的数目还称作LPC分析的“阶数”，且由通信装置(例如，蜂窝式电话)的音频编码器执行的LPC分析的典型阶数的实例包括4、6、8、10、12、16、20、24、28及32。

包括音频编码器AE10的实施方案的装置通常经配置以用量化形式(例如，作为对应查找表或“码簿”的一个或一个以上索引)跨越传输信道来传输频谱包络的描述。因此，可能需要音频编码器AE10以可经有效量化的形式计算LPC系数值的集合，例如线谱对(“LSP”)、LSF、导抗频谱对(“ISP”)、导抗频谱频率(“ISF”)、倒谱系数或对数面积比的值的集合。音频编码器AE10还可经配置以在转换及/或量化之前对值的有序序列执行一个或一个以上其它处理操作，例如感知加权或其它滤波操作。

在一些情况下，帧的频谱包络的描述还包括帧的时间信息的描述(例如，如在傅立叶或离散余弦变换系数的有序序列中)。在其它情况下，包的参数集合还可包括帧的时间信息的描述。时间信息的描述的形式可依据用以对帧进行编码的特定译码模式而定。对于一些译码模式(例如，对于CELP或PPP译码模式，且对于一些MDCT译码模式)，时间信息的描述可包括由音频解码器用以激励LPC模型(例如，根据频谱包络的描述配置的合成滤波器)的激励信号的描述。激励信号的描述通常基于对帧的LPC分析操作的残余物。激励信号的描述通常以量化形式(例如，作为对应码簿的一个或一个以上索引)显现于包中，且可包括与激励信号的至少一个音调分量有关的信息。对于PPP译码模式，举例来说，经编码的时间信息可包括待由音频解码器用以再生激励信号的音调分量的原型的描述。对于RCELP或PPP译码模式，经编码的时间信息可包括一个或一个以上音调周期估计。与音调分量有关的信息的描述通常以量化形式(例如，作为对应码簿的一个或一个以上索引)显现于包中。

音频编码器AE10的实施方案的各种元件可以被视为适合于既定应用的硬件、软件及/或固件的任何组合来体现。举例来说，此类元件可被制造为驻留于(例如)同一芯片或芯片组中的两个或两个以上芯片中的电子及/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如，晶体管或逻辑门)阵列，且这些元件中的任一者可实施为一个或一个以上此类阵列。这些元件中的任何两者或两者以上乃至全部可实施于相同阵列内。所述阵列可实施于一个或一个以上芯片内(例如，包括两个或两个以上芯片的芯片组内)。这同样适用于对应音频解码器AD10的实施方案的各种元件。

如本文所描述的音频编码器AE10的各种实施方案的一个或一个以上元件还可全部地或部分地实施为一个或一个以上指令集，所述指令集经布置以在一个或一个以上固定或可编程逻辑元件阵列上执行，所述逻辑元件阵列例如为微处理器、嵌入式处理器、IP核心、数字信号处理器、现场可编程门阵列(“FPGA”)、专用标准产品(“ASSP”)及专用集成电路(“ASIC”)。音频编码器AE10的实施方案的各种元件中的任一者还可体现为一个或一个以上计算机(例如，包括经编程以执行一个或一个以上指令集或序列的一个或一个以上阵列的机器，还称作“处理器”)，且这些元件中的任何两者或两者以上乃至全部可实施于相同的此类计算机内。这同样适用于对应音频解码器AD10的各种实施方案的元件。

音频编码器AE10的实施方案的各种元件可包括在用于有线及/或无线通信的装置内，例如蜂窝式电话或具有此通信能力的其它装置。此装置可经配置以与电路交换及/或包交换网络通信(例如，使用一个或一个以上协议(例如VoIP))。此装置可经配置以对携载经编码帧的信号执行操作，例如交错、穿孔、卷积译码、误差校正译码、一个或一个以上网络协议层(例如，以太网、TCP/IP、cdma2000)的译码、一个或一个以上射频(“RF”)及/或光学载波的调制，及/或经由信道的一个或一个以上经调制载波的发射。

音频解码器AD10的实施方案的各种元件可包括在用于有线及/或无线通信的装置内，例如蜂窝式电话或具有此通信能力的其它装置。此装置可经配置以与电路交换及/或包交换网络通信(例如，使用一个或一个以上协议(例如VoIP))。此装置可经配置以对携载经编码帧的信号执行操作，例如解交错、解穿孔、卷积解码、误差校正解码、一个或一个以上网络协议层(例如，以太网、TCP/IP、cdma2000)的解码、一个或一个以上射频(“RF”)及/或光学载波的解调，及/或经由信道的一个或一个以上经调制载波的接收。

有可能使音频编码器AE10的实施方案的一个或一个以上元件用于执行并非与所述设备的操作直接相关的任务或其它指令集，例如与嵌入有所述设备的装置或系统的另一操作相关的任务。还有可能使音频编码器AE10的实施方案的一个或一个以上元件具有共同结构(例如，用于在不同时间执行对应于不同元件的代码部分的处理器、经执行以在不同时间执行对应于不同元件的任务的指令集或在不同时间对不同元件执行操作的电子及/或光学装置的布置)。这同样适用于对应音频解码器AD10的各种实施方案的元件。在一个此类实例中，译码方案选择器20及帧编码器30a到30p经实施为经布置以在同一处理器上执行的指令集。在另一此类实例中，译码方案检测器60及帧解码器70a到70p经实施为经布置以在同一处理器上执行的指令集。帧编码器30a到30p中的两者或两者以上可经实施以共享在不同时间执行的一个或一个以上指令集；这同样适用于帧解码器70a到70p。

图7a说明对音频信号的帧进行编码的方法M10的流程图。方法M10包括任务TE10，其计算如上文所描述的帧特性(例如，能量及/或频谱特性)的值。基于所计算值，任务TE20选择译码方案(例如，如上文参考译码方案选择器20的各种实施方案所描述)。任务TE30根据选定译码方案而对帧进行编码(例如，如本文参考帧编码器30a到30p的各种实施方案所描述)以产生经编码帧。任选任务TE40产生包括经编码帧的包。方法M10可经配置(例如，迭代)以对音频信号的一系列帧中的每一者进行编码。

在方法M10的实施方案的典型应用中，逻辑元件(例如，逻辑门)的阵列经配置以执行所述方法的各种任务中的一者、一者以上乃至全部。所述任务中的一者或一者以上(可能所有)还可实施为在计算机程序产品(例如，一个或一个以上数据存储媒体，例如磁盘、快闪或其它非易失性存储卡、半导体存储器芯片等)中体现的代码(例如，一个或一个以上指令集)，所述计算机程序产品可由包括逻辑元件的阵列(例如，处理器、微处理器、微控制器或其它有限状态机)的机器(例如，计算机)读取且/或执行。方法M10的实施方案的任务还可由一个以上此类阵列或机器执行。在这些或其它实施方案中，可在用于无线通信的装置内执行所述任务，所述装置例如为蜂窝式电话或具有此通信能力的其它装置。此装置可经配置以与电路交换及/或包交换网络通信(例如，使用一个或一个以上协议(例如VoIP))。举例来说，此装置可包括经配置以接收经编码帧的RF电路。

图7b说明经配置以对音频信号的帧进行编码的设备F10的框图。设备F10包括用于计算帧特性(例如，如上文所描述的能量及/或频谱特性)的值的装置FE10。设备F10还包括用于基于所计算值而选择译码方案(例如，如上文参考译码方案选择器20的各种实施方案所描述)的装置FE20。设备F10还包括用于根据选定译码方案而对帧进行编码(例如，如本文参考帧编码器30a到30p的各种实施方案所描述)以产生经编码帧的装置FE30。设备F10还包括用于产生包括经编码帧的包的任选装置FE40。设备F10可经配置以对音频信号的一系列帧中的每一者进行编码。

在PR译码方案(例如，RCELP译码方案)的典型实施方案或PPP译码方案的PR实施方案中，使用可基于相关性的音调估计操作针对每个帧或子帧估计音调周期一次。可能需要将音调估计窗口的中心定在帧或子帧的边界处。将帧划分为子帧的典型划分包括每帧三个子帧(例如，用于160样本帧的不重叠子帧的每一者的53、53及54个样本)、每帧四个子帧及每帧五个子帧(例如，160样本帧中的五个32样本不重叠子帧)。还可能需要检验所估计的音调周期中的一致性以避免误差，例如音调减半、音调加倍、音调三倍等。在音调估计更新之间，内插音调周期以产生合成的延迟轮廓。可在逐样本基础上或在较小频率(例如，每两个或三个样本)或较大频率(例如，在子样本分辨率下)的基础上执行此内插。举例来说，上文提及的3GPP2文献C.S0014-C中所描述的增强型可变速率编解码器(“EVRC”)使用八倍过取样的合成延迟轮廓。通常，内插为线性或双线性内插，且其可使用一个或一个以上多相内插滤波器或另一适合技术来执行。PR译码方案(例如，RCELP)通常经配置以在全速率或半速率下对帧进行编码，但在其它速率(例如，四分之一速率)下编码的实施方案也是可能的。

使用具有无声帧的连续音调轮廓可能导致不良假影，例如蜂鸣。因此，对于无声帧来说，可能需要在每一子帧内使用恒定音调周期，从而在子帧边界处突然地切换到另一恒定音调周期。此技术的典型实例使用每40毫秒重复的在20个样本到40个样本的范围内(在8kHz取样速率下)的音调周期的伪随机序列。如上文所描述的语音活动检测(“VAD”)操作可经配置以区别有声帧与无声帧，且此操作通常基于例如话音及/或残余物的自相关、越零率及/或第一反射系数等因素。

PR译码方案(例如，RCELP)执行话音信号的时间扭曲。在此时间扭曲操作(其还称作“信号修改”)中，将不同时间移位应用于信号的不同片段，使得信号的特征(例如，音调脉冲)之间的原始时间关系被更改。举例来说，可能需要对信号进行时间扭曲，使得其音调周期轮廓匹配合成的音调周期轮廓。时间移位的值通常在正若干毫秒到负若干毫秒的范围内。对于PR编码器(例如，RCELP编码器)来说通常修改残余物而非话音信号，因为可能需要避免改变共振峰的位置。然而，清楚地预期且在此揭示，还可使用经配置以修改话音信号的PR编码器(例如，RCELP编码器)来实践下文所主张的布置。

可预期将通过使用连续扭曲修改残余物来获得最好结果。可在逐样本基础上或通过压缩及扩展残余物的片段(例如，子帧或音调周期)来执行此扭曲。

图8说明在被时间扭曲到平滑延迟轮廓之前(波形A)及之后(波形B)的残余物的实例。在此实例中，垂直点线之间的时间间隔指示规则的音调周期。

连续扭曲可能过于计算密集以致于不能在便携式、嵌入式、实时及/或电池供电的应用中实践。因此，对于RCELP或其它PR编码器来说，更通常通过对残余物的片段进行时间移位来执行残余物的分段修改，使得时间移位的量在每一片段上为恒定的(但清楚地预期且在此揭示，还可使用经配置以使用连续扭曲来修改话音信号或修改残余物的RCELP或其它PR编码器实践下文所主张的布置)。此操作可经配置以通过对片段进行移位来修改当前残余物，使得每一音调脉冲匹配目标残余物中的对应音调脉冲，其中所述目标残余物是基于来自先前帧、子帧、移位帧或信号的其它片段的经修改残余物。

图9说明在分段修改之前(波形A)及之后(波形B)的残余物的实例。在此图中，点线说明以粗体展示的片段如何相对于剩余残余物向右移位。可能需要使每一片段的长度小于音调周期(例如，使得每一移位片段含有仅仅一个音调脉冲)。还可能需要防止片段边界在音调脉冲处发生(例如，将片段边界限于残余物的低能量区)。

分段修改程序通常包括选择包括音调脉冲(还称作“移位帧”)的片段。此操作的一个实例描述于上文所提及的EVRC文献C.S0014-C的第4.11.6.2章节(第4-95到4-99页)中，所述章节以引用的方式并入本文中作为实例。通常将最后经修改的样本(或第一未经修改的样本)选择为移位帧的开始。在EVRC实例中，片段选择操作针对待移位的脉冲(例如，尚未经修改的子帧区中的第一音调脉冲)搜索当前子帧残余物且相对于此脉冲的位置设定移位帧的末端。子帧可含有多个移位帧，使得移位帧选择操作(及分段修改程序的随后操作)可对单一子帧执行若干次。

分段修改程序通常包括用以匹配残余物与合成延迟轮廓的操作。此操作的一个实例描述于上文所提及的EVRC文献C.S0014-C的第4.11.6.3章节(第4-99到4-101页)中，所述章节以引用的方式并入本文中作为实例。此实例通过从缓冲器检索先前子帧的经修改残余物且将其映射到延迟轮廓而产生目标残余物(例如，如上文所提及的EVRC文献C.S0014-C的第4.11.6.1章节(第4-95页)中所描述，所述章节以引用的方式并入本文中作为实例)。在此实例中，匹配操作通过以下方式来产生临时经修改残余物：对选定移位帧的复本进行移位，根据临时经修改残余物与目标残余物之间的相关性而确定最佳移位，且基于所述最佳移位而计算时间移位。时间移位通常为累积值，使得计算时间移位的操作涉及基于最佳移位来更新所累积的时间移位(例如，如在上文以引用的方式并入的第4.11.6.3章节的第4.11.6.3.4部分中所描述)。

对于当前残余物的每一移位帧来说，通过将对应计算的时间移位应用于当前残余物的对应于所述移位帧的片段而实现分段修改。此修改操作的一个实例描述于上文所提及的EVRC文献C.S0014-C的第4.11.6.4章节(第4-101页)中，所述章节以引用的方式并入本文中作为实例。通常，时间移位具有分数值，使得在高于取样速率的分辨率下执行修改程序。在此情况下，可能需要使用例如线性或双线性内插等内插(其可使用一个或一个以上多相内插滤波器或另一适合技术来执行)而将时间移位应用于残余物的对应片段。

图10说明根据通用配置的RCELP编码方法RM100(例如，方法M10的任务TE30的RCELP实施方案)的流程图。方法RM100包括任务RT10，其计算当前帧的残余物。任务RT10通常经布置以接收经取样的音频信号(其可经预处理)，例如音频信号S100。任务RT10通常经实施以包括线性预测译码(“LPC”)分析操作且可经配置以产生例如线谱对(“LSP”)等LPC参数的集合。任务RT10还可包括其它处理操作，例如一个或一个以上感知加权及/或其它滤波操作。

方法RM100还包括计算音频信号的合成延迟轮廓的任务RT20、从所产生的残余物选择移位帧的任务RT30、基于来自选定移位帧及延迟轮廓的信息而计算时间移位的任务RT40，及基于所计算的时间移位而修改当前帧的残余物的任务RT50。

图11说明RCELP编码方法RM100的实施方案RM110的流程图。方法RM110包括时间移位计算任务RT40的实施方案RT42。任务RT42包括：任务RT60，其将先前子帧的经修改残余物映射到当前子帧的合成延迟轮廓；任务RT70，其产生临时经修改残余物(例如，基于选定移位帧)；以及任务RT80，其更新时间移位(例如，基于临时经修改残余物与经映射的过去经修改残余物的对应片段之间的相关性)。方法RM100的实施方案可包括在方法M10的实施方案内(例如，包括在编码任务TE30内)，且如上文所述，逻辑元件(例如，逻辑门)的阵列可经配置以执行所述方法的各种任务中的一者、一者以上乃至全部。

图12a说明RCELP帧编码器34c的实施方案RC100的框图。编码器RC100包括：残余物产生器R10，其经配置以计算当前帧的残余物(例如，基于LPC分析操作)；以及延迟轮廓计算器R20，其经配置以计算音频信号S100的合成延迟轮廓(例如，基于当前及最近音调估计)。编码器RC100还包括：移位帧选择器R30，其经配置以选择当前残余物的移位帧；时间移位计算器R40，其经配置以计算时间移位(例如，基于临时经修改残余物而更新时间移位)；以及残余物修改器R50，其经配置以根据时间移位而修改残余物(例如，将所计算的时间移位应用于残余物的对应于移位帧的片段)。

图12b说明RCELP编码器RC100的实施方案RC110的框图，所述实施方案RC110包括时间移位计算器R40的实施方案R42。计算器R42包括：过去经修改残余物映射器R60，其经配置以将先前子帧的经修改残余物映射到当前子帧的合成延迟轮廓；临时经修改残余物产生器R70，其经配置以基于选定移位帧而产生临时经修改残余物；以及时间移位更新器R80，其经配置以基于临时经修改残余物与经映射的过去经修改残余物的对应片段之间的相关性而计算(例如，更新)时间移位。编码器RC100及RC110的元件中的每一者可由对应模块(例如，一组逻辑门及/或供一个或一个以上处理器执行的指令)实施。多模式编码器(例如，音频编码器AE20)可包括编码器RC100的实例或其实施方案，且在此情况下，可与经配置以执行其它译码模式的帧编码器共享RCELP帧编码器的元件中的一者或一者以上(例如，残余物产生器R10)。

图13说明残余物产生器R10的实施方案R12的框图。产生器R12包括LPC分析模块210，其经配置以基于音频信号S100的当前帧而计算LPC系数值的集合。变换块220经配置以将LPC系数值的集合转换为LSF的集合，且量化器230经配置以量化LSF(例如，作为一个或一个以上码簿索引)以产生LPC参数SL10。逆量化器240经配置以从经量化的LPC参数SL10获得经解码LSF的集合，且逆变换块250经配置以从经解码LSF的集合获得经解码LPC系数值的集合。根据经解码LPC系数值的集合而配置的白化滤波器260(还称作分析滤波器)处理音频信号S100以产生LPC残余物SR10。还可根据被视为适合于特定应用的任何其它设计来实施残余物产生器R10。

当时间移位的值从一个移位帧改变到下一移位帧时，可能在所述移位帧之间的边界处发生间隙或重叠，且可能需要残余物修改器R50或任务RT50在适当情况下重复或省略此区中的信号的部分。还可能需要实施编码器RC100或方法RM100以将经修改残余物存储到缓冲器(例如，作为产生待用于对随后帧的残余物执行分段修改程序的目标残余物的来源)。此缓冲器可经布置以将输入提供到时间移位计算器R40(例如，提供到过去经修改残余物映射器R60)或提供到时间移位计算任务RT40(例如，提供到映射任务RT60)。

图12c说明RCELP编码器RC100的实施方案RC105的框图，所述实施方案RC105包括此经修改残余物缓冲器R90及时间移位计算器R40的实施方案R44，所述实施方案R44经配置以基于来自缓冲器R90的信息而计算时间移位。图12d说明RCELP编码器RC105及RCELP编码器RC110的实施方案RC115的框图，所述实施方案RC115包括缓冲器R90的实例及过去经修改残余物映射器R60的实施方案R62，所述实施方案R62经配置以从缓冲器R90接收过去经修改残余物。

图14说明用于音频信号的帧的RCELP编码的设备RF100(例如，设备F10的装置FE30的RCELP实施方案)的框图。设备RF100包括用于产生残余物(例如，LPC残余物)的装置RF10及用于计算延迟轮廓的装置RF20(例如，通过在当前音调估计与先前音调估计之间执行线性或双线性内插)。设备RF100还包括用于选择移位帧的装置RF30(例如，通过定位下一音调脉冲)、用于计算时间移位的装置RF40(例如，通过根据临时经修改残余物与经映射的过去经修改残余物之间的相关性而更新时间移位)及用于修改残余物的装置RF50(例如，通过对残余物的对应于移位帧的片段进行时间移位)。

经修改残余物通常用以计算当前帧的激励信号的固定码簿基值。图15说明RCELP编码方法RM100的实施方案RM120的流程图，所述实施方案RM120包括额外任务以支持此操作。任务RT90通过将自适应码簿(“ACB”)映射到延迟轮廓来对所述自适应码簿(“ACB”)进行扭曲，所述自适应码簿(“ACB”)保持来自先前帧的经解码激励信号的复本。任务RT100将基于当前LPC系数值的LPC合成滤波器应用于经扭曲的ACB以获得感知域中的ACB基值，且任务RT110将基于当前LPC系数值的LPC合成滤波器应用于当前经修改残余物以获得感知域中的当前经修改残余物。可能需要任务RT100及/或任务RT110应用基于经加权LPC系数值的集合的LPC合成滤波器，如(例如)上文所提及的3GPP2EVRC文献C.S0014-C的第4.11.4.5章节(第4-84到4-86页)中所描述。任务RT120计算两个感知域信号之间的差以获得固定码簿(“FCB”)搜索的目标，且任务RT130执行FCB搜索以获得激励信号的FCB基值。如上文所述，逻辑元件(例如，逻辑门)的阵列可经配置以执行方法RM100的此实施方案的各种任务中的一者、一者以上乃至全部。

包括RCELP译码方案的现代多模式译码系统(例如，包括音频编码器AE25的实施方案的译码系统)将通常还包括一个或一个以上非RCELP译码方案，例如噪声激励线性预测(“NELP”)，其通常用于无声帧(例如，口语摩擦音)及仅含有背景噪声的帧。非RCELP译码方案的其它实例包括原型波形内插(“PWI”)及其变型(例如，原型音调周期(“PPP”))，其通常用于高声帧。当RCELP译码方案用以对音频信号的帧进行编码且非RCELP译码方案用以对音频信号的邻近帧进行编码时，有可能在合成波形中出现不连续性。

可能需要使用来自邻近帧的样本来对帧进行编码。以此方式跨越帧边界进行编码倾向于减少由于例如量化误差、截断、舍入、丢弃不必要系数等因素而可能出现于帧之间的假影的感知效应。此译码方案的一个实例是改进型离散余弦变换(“MDCT”)译码方案。

MDCT译码方案为非PR译码方案，其通常用以对音乐及其它非话音声音进行编码。举例来说，如国际标准化组织(ISO)/国际电工委员会(IEC)文献14496-3：1999(还称为MPEG-4第3部分)中所指定的高级音频编解码器(“AAC”)是MDCT译码方案。上文所提及的3GPP2EVRC文献C.S0014-C的第4.13章节(第4-145到4-151页)描述另一MDCT译码方案，且此章节以引用的方式并入本文中作为实例。MDCT译码方案将频域中的音频信号编码为正弦波的混合物，而非编码为结构基于音调周期的信号，且更适于对歌声、音乐及正弦波的其它混合物进行编码。

MDCT译码方案使用在两个或两个以上连续帧上延伸(即，重叠两个或两个以上帧)的编码窗口。对于为M的帧长度，MDCT基于2M个样本的输入而产生M个系数。因此，MDCT译码方案的一个特征在于其允许变换窗口在一个或一个以上帧边界上延伸而不会增加表示经编码帧所需的变换系数的数目。然而，当此重叠译码方案用以对邻近于使用PR译码方案编码的帧的帧进行编码时，可能在对应的经解码帧中出现不连续性。

M个MDCT系数的计算可表达为：

X (k) = Σ_{n = 0}^{2 m - 1} x (n) h_{k} (n)

(等式1)

其中

h_{k} (n) = w (n) \sqrt{\frac{2}{M}} \cos [\frac{(2 n + M + 1) (2 k + 1) π}{4 M}]

(等式2)

其中k＝0、1、…、M-1。函数w(n)通常经选择为满足条件w²(n)+w²(n+M)＝1(还称作普林森-布拉德利(Princen-Bradley)条件)的窗口。

对应的逆MDCT运算可表达为：

\hat{x} (n) = Σ_{k = 0}^{M - 1} \hat{X} (k) h_{k} (n)

(等式3)

其中n＝0、1、…、2M-1，其中

为M个所接收的MDCT系数且

为2M个经解码样本。

图16说明MDCT译码方案的典型正弦窗口形状的三个实例。满足普林森-布拉德利条件的此窗口形状可表达为

w (n) = \sin (\frac{nπ}{2 M})

(等式4)

其中0≤n＜2M，其中n＝0指示当前帧的第一样本。

如图中所示，用以对当前帧(帧p)进行编码的MDCT窗口804在帧p及帧(p+1)上具有非零值，且在其它方面为零值。用以对先前帧(帧(p-1))进行编码的MDCT窗口802在帧(p-1)及帧p上具有非零值，且在其它方面为零值，且用以对随后帧(帧(p+1))进行编码的MDCT窗口806经类似地布置。在解码器处，经解码的序列以与输入序列相同的方式重叠且相加。图25a说明由应用如图16中所示的窗口804及806产生的重叠与相加区的一个实例。重叠与相加操作消除由变换引入的误差且允许理想的重构(当w(n)满足普林森-布拉德利条件且不存在量化误差时)。尽管MDCT使用重叠窗口函数，但其为经精密取样的滤波器组，因为在重叠与相加之后，每帧的输入样本的数目与每帧的MDCT系数的数目相同。

图17a说明MDCT帧编码器34d的实施方案ME100的框图。残余物产生器D10可经配置以使用经量化的LPC参数(例如，经量化的LSP，如上文以引用的方式并入的3GPP2EVRC文献C.S0014-C的第4.13章节的第4.13.2部分中所描述)产生残余物。或者，残余物产生器D10可经配置以使用未经量化的LPC参数产生残余物。在包括RCELP编码器RC100及MDCT编码器ME100的实施方案的多模式译码器中，残余物产生器R10及残余物产生器D10可实施为同一结构。

编码器ME100还包括MDCT模块D20，其经配置以计算MDCT系数(例如，根据上文在等式1中所陈述的关于X(k)的表达式)。编码器ME100还包括量化器D30，其经配置以处理MDCT系数而产生经量化的经编码残余物信号S30。量化器D30可经配置以使用精确的函数计算来执行MDCT系数的因子译码。或者，量化器D30可经配置以使用适当函数计算来执行MDCT系数的因子译码，如(例如)在U·密特尔(U.Mittel)等人的“使用组合函数近似来对MDCT系数进行低复杂性因子脉冲译码(Low ComplexityFactorial Pulse Coding of MDCT Coefficients Using Approximation of CombinatorialFunctions)”(IEEE ICASSP 2007，第I-289到I-292页)及在上文以引用的方式并入的3GPP2EVRC文献C.S0014-C的第4.13章节的第4.13.5部分中所描述。如图17a中所示，MDCT编码器ME100还可包括任选的逆MDCT(“IMDCT”)模块D40，其经配置以基于经量化的信号而计算经解码的样本(例如，根据上文在等式3中所陈述的关于

的表达式)。

在一些情况下，可能需要对音频信号S100而非对音频信号S100的残余物执行MDCT运算。尽管LPC分析非常适合于对人类话音的共振进行编码，但其对于对非话音信号(例如，音乐)的特征进行编码可能并不同样有效。图17b说明MDCT帧编码器34d的实施方案ME200的框图，其中MDCT模块D20经配置以接收音频信号S100的帧作为输入。

如图16中所示的标准MDCT重叠方案需要2M个样本在可执行变换之前为可用的。此方案在译码系统上有效地强加2M个样本的延迟约束(即，当前帧的M个样本加上M个先行样本)。多模式译码器的其它译码模式(例如，CELP、RCELP、NELP、PWI及/或PPP)通常经配置以对较短延迟约束(例如，当前帧的M个样本加上M/2、M/3或M/4个先行样本)操作。在现代多模式译码器(例如，EVRC、SMV、AMR)中，在译码模式之间切换自动地执行且可甚至在单一秒中发生若干次。尤其对于可能需要包括编码器以在特定速率下产生包的发射器的电路交换应用来说，可能需要此译码器的译码模式在相同延迟下操作。

图18说明可由MDCT模块D20应用以允许短于M的先行时间间隔的窗口函数w(n)(例如，代替如图16中所说明的函数w(n))的一个实例。在图18中所示的特定实例中，先行时间间隔为M/2个样本长，但此技术可经实施以允许L个样本的任意先行，其中L具有从0到M的任何值。在此技术(其实例描述于上文以引用的方式并入的3GPP2 EVRC文献C.S0014-C的第4.13章节的第4.13.4部分(第4-147页)及题为“用于用与音频信号相关联的帧来修改窗口的系统及方法(SYSTEMS AND METHODS FOR MODIFYINGA WINDOW WITH A FRAME ASSOCIATED WITH AN AUDIO SIGNAL)”的第2008/0027719号美国公开案中)中，MDCT窗口以长度(M-L)/2的零填补区开始及结束，且w(n)满足普林森-布拉德利条件。此窗口函数的一个实施方案可表达如下：

w (n) = \{\begin{matrix} 0, & 0 \leq n < \frac{M - L}{2} \\ \sin [\frac{π}{2 L} (n - \frac{M - L}{2})], & \frac{M - L}{2} \leq n < \frac{M + L}{2} \\ 1, & \frac{M + L}{2} \leq n < \frac{3 M - L}{2} \\ \sin [\frac{π}{2 L} (2 L + n - \frac{3 M - L}{2})], & \frac{3 M - L}{2} \leq n < \frac{3 M + L}{2} \\ 0, & \frac{3 M + L}{2} \leq n < 2 M \end{matrix}

(等式5)

其中

n = \frac{M - L}{2}

为当前帧p的第一样本且

n = \frac{3 M - L}{2}

为下一帧(p+1)的第一样本。根据此技术而编码的信号保持理想的重构性质(不存在量化及数值误差)。请注意，对于L＝M的情况，此窗口函数与图16中所说明的窗口函数相同，且对于L＝0的情况，对于

\frac{M}{2} \leq n < \frac{3 M}{2},

w(n)＝1，且在别处为零，使得不存在重叠。

在包括PR及非PR译码方案的多模式译码器中，可能需要确保合成波形跨越帧边界为连续的，在所述帧边界处当前译码模式从PR译码模式切换到非PR译码模式(或反之亦然)。译码模式选择器可在一秒中从一个译码方案切换到另一译码方案若干次，且需要在那些方案之间提供感知上平滑的过渡。遗憾的是，横跨经规则化帧与未经规则化帧之间的边界的音调周期可能非常大或非常小，使得PR译码方案与非PR译码方案之间的切换可能在经解码信号中产生可听的卡搭声或其它不连续性。另外，如上文所述，非PR译码方案可使用在连续帧上延伸的重叠与相加窗口来对音频信号的帧进行编码，且可能需要避免在那些连续帧之间的边界处的时间移位的变化。在这些情况下可能需要根据由PR译码方案应用的时间移位来修改未经规则化帧。

图19a说明根据通用配置的处理音频信号的帧的方法M100的流程图。方法M100包括任务T110，其根据PR译码方案(例如，RCELP译码方案)而对第一帧进行编码。方法M100还包括任务T210，其根据非PR译码方案(例如，MDCT译码方案)而对音频信号的第二帧进行编码。如上文所述，第一帧及第二帧中的一者或两者可在此编码之前及/或之后经感知加权及/或以其它方式加以处理。

任务T110包括子任务T120，其根据时间移位T而对第一信号的片段进行时间修改，其中第一信号是基于第一帧(例如，第一信号为第一帧或第一帧的残余物)。可通过时间移位或通过时间扭曲来执行时间修改。在一个实施方案中，任务T120通过根据T值在时间上向前或向后移动整个片段(即，相对于帧或音频信号的另一片段)来对片段进行时间移位。此操作可包括内插样本值以便执行分数时间移位。在另一实施方案中，任务T120基于时间移位T来对片段进行时间扭曲。此操作可包括根据T值而移动片段的一个样本(例如，第一样本)及使片段的另一样本(例如，最后样本)移动一值，所述值具有小于T的量值的量值。

任务T210包括子任务T220，其根据时间移位T而对第二信号的片段进行时间修改，其中第二信号是基于第二帧(例如，第二信号为第二帧或第二帧的残余物)。在一个实施方案中，任务T220通过根据T值在时间上向前或向后移动整个片段(即，相对于帧或音频信号的另一片段)来对片段进行时间移位。此操作可包括内插样本值以便执行分数时间移位。在另一实施方案中，任务T220基于时间移位T来对片段进行时间扭曲。此操作可包括将片段映射到延迟轮廓。举例来说，此操作可包括根据T值而移动片段的一个样本(例如，第一样本)及使片段的另一样本(例如，最后样本)移动一值，所述值具有小于T的量值的量值。举例来说，任务T120可通过将帧或其它片段映射到已被缩短达时间移位T的值(例如，在T为负值的情况下被变长)的对应时间间隔来对帧或其它片段进行时间扭曲，在此情况下，可在经扭曲片段的末端处将T值复位为零。

任务T220所时间修改的片段可包括整个第二信号，或所述片段可为所述信号的较短部分，例如残余物的子帧(例如，初始子帧)。通常，任务T220(例如，在音频信号S100的逆LPC滤波之后)对未经量化的残余物信号的片段(例如，如图17a中所示的残余物产生器D10的输出)进行时间修改。然而，任务T220还可经实施以(例如，在MDCT-IMDCT处理之后)对经解码的残余物的片段(例如，如图17a中所示的信号S40，或音频信号S100的片段)进行时间修改。

可能需要时间移位T为用以修改第一信号的最后时间移位。举例来说，时间移位T可为应用于第一帧的残余物的最后经时间移位片段的时间移位及/或由累积时间移位的最新近更新产生的值。RCELP编码器RC100的实施方案可经配置以执行任务T110，在此情况下，时间移位T可为在对第一帧进行编码期间由块R40或块R80计算的最后时间移位值。

图19b说明任务T110的实施方案T112的流程图。任务T112包括子任务T130，其基于来自先前子帧的残余物(例如，最新近子帧的经修改残余物)的信息而计算时间移位。如上文所论述，可能需要RCELP译码方案产生基于先前子帧的经修改残余物的目标残余物且根据选定移位帧与目标残余物的对应片段之间的匹配来计算时间移位。

图19c说明任务T112的实施方案T114的流程图，所述实施方案T114包括任务T130的实施方案T132。任务T132包括任务T140，其将先前残余物的样本映射到延迟轮廓。如上文所论述，可能需要RCELP译码方案通过将先前子帧的经修改残余物映射到当前子帧的合成延迟轮廓而产生目标残余物。

可能需要配置任务T210以对第二信号以及随后帧的用作对第二帧进行编码的先行的任何部分进行时间移位。举例来说，可能需要任务T210将时间移位T应用于第二(非PR)帧的残余物且还应用于随后帧的残余物的用作对第二帧进行编码的先行的任何部分(例如，如上文参看MDCT及重叠窗口所描述)。还可能需要配置任务T210以将时间移位T应用于使用非PR译码方案(例如，MDCT译码方案)编码的任何随后连续帧的残余物且应用于对应于此些帧的任何先行片段。

图25b说明两个PR帧之间的非PR帧序列中的每一者被移位达应用于第一PR帧的最后移位帧的时间移位的实例。在此图中，实线指示原始帧随时间的位置，虚线指示帧的经移位位置，且点线展示原始边界与经移位边界之间的对应。较长垂直线指示帧边界，第一短垂直线指示第一PR帧的最后移位帧的开始(其中尖峰指示移位帧的音调脉冲)，且最后短垂直线指示序列的最后非PR帧的先行片段的结束。在一个实例中，PR帧为RCELP帧，且非PR帧为MDCT帧。在另一实例中，PR帧为RCELP帧，一些非PR帧为MDCT帧，且其它非PR帧为NELP或PWI帧。

方法M100可适合于无音调估计可用于当前非PR帧的情况。然而，即使音调估计可用于当前非PR帧，也可能需要执行方法M100。在涉及连续帧之间的重叠与相加(例如，具有MDCT窗口)的非PR译码方案中，可能需要使连续帧、任何对应先行以及帧之间的任何重叠区移位相同移位值。此一致性可有助于避免经重构音频信号的质量的降级。举例来说，可能需要对促成重叠区(例如，MDCT窗口)的帧的两者使用相同时间移位值。

图20a说明MDCT编码器ME100的实施方案ME110的框图。编码器ME110包括时间修改器TM10，其经布置以对由残余物产生器D10产生的残余物信号的片段进行时间修改以产生经时间修改的残余物信号S20。在一个实施方案中，时间修改器TM10经配置以通过根据T值向前或向后移动整个片段来对片段进行时间移位。此操作可包括内插样本值以便执行分数时间移位。在另一实施方案中，时间修改器TM10经配置以基于时间移位T而对片段进行时间扭曲。此操作可包括将片段映射到延迟轮廓。举例来说，此操作可包括根据T值移动片段的一个样本(例如，第一样本)及使另一样本(例如，最后样本)移动一值，所述值具有小于T的量值的量值。举例来说，任务T120可通过将帧或其它片段映射到已被缩短达时间移位T的值(例如，在T为负值的情况下被变长)的对应时间间隔来对帧或其它片段进行时间扭曲，在此情况下，可在经扭曲片段的末端处将T值复位为零。如上文所述，时间移位T可为通过PR译码方案最近应用于经时间移位片段的时间移位及/或通过PR译码方案由累积时间移位的最近更新产生的值。在包括RCELP编码器RC105及MDCT编码器ME110的实施方案的音频编码器AE10的实施方案中，编码器ME110还可经配置以将经时间修改的残余物信号S20存储到缓冲器R90。

图20b说明MDCT编码器ME200的实施方案ME210的框图。编码器ME200包括时间修改器TM10的实例，其经布置以对音频信号S100的片段进行时间修改来产生经时间修改的音频信号S25。如上文所述，音频信号S100可为经感知加权及/或以其它方式滤波的数字信号。在包括RCELP编码器RC105及MDCT编码器ME210的实施方案的音频编码器AE10的实施方案中，编码器ME210还可经配置以将经时间修改的残余物信号S20存储到缓冲器R90。

图21a说明包括噪声注入模块D50的MDCT编码器ME110的实施方案ME120的框图。噪声注入模块D50经配置以在预定频率范围内用噪声替代经量化的经编码残余物信号S30的零值元素(例如，根据如上文以引用的方式并入的3GPP2EVRC文献C.S0014-C的第4.13章节的第4.13.7部分(第4-150页)中所描述的技术)。此操作可通过减少在欠模型化残余物线谱期间可能发生的声调假影的感知而改进音频质量。

图21b说明MDCT编码器ME110的实施方案ME130的框图。编码器ME130包括：共振峰加重模块D60，其经配置以执行残余物信号S20的低频共振峰区的感知加权(例如，根据如上文以引用的方式并入的3GPP2EVRC文献C.S0014-C的第4.13章节的第 4.13.3部分(第4-147页)中所描述的技术)；以及共振峰去加重模块D70，其经配置以移除感知加权(例如，根据如3GPP2EVRC文献C.S0014-C的第4.13章节的第4.13.9部分(第4-151页)中所描述的技术)。

图22说明MDCT编码器ME120及ME130的实施方案ME140的框图。MDCT编码器MD110的其它实施方案可经配置以在残余物产生器D10与经解码的残余物信号S40之间的处理路径中包括一个或一个以上额外操作。

图23a说明根据通用配置的对音频信号MM100的帧进行MDCT编码的方法(例如，方法M10的任务TE30的MDCT实施方案)的流程图。方法MM100包括产生帧的残余物的任务MT10。任务MT10通常经布置以接收经取样音频信号(其可经预处理)(例如，音频信号S100)的帧。任务MT10通常经实施以包括线性预测译码(“LPC”)分析操作且可经配置以产生例如线谱对(“LSP”)等LPC参数的集合。任务MT10还可包括其它处理操作，例如一个或一个以上感知加权及/或其它滤波操作。

方法MM100包括对所产生的残余物进行时间修改的任务MT20。在一个实施方案中，任务MT20通过对残余物的片段进行时间移位而对残余物进行时间修改，其中根据T值向前或向后移动整个片段。此操作可包括内插样本值以便执行分数时间移位。在另一实施方案中，任务MT20通过基于时间移位T对残余物的片段进行时间扭曲而对残余物进行时间修改。此操作可包括将片段映射到延迟轮廓。举例来说，此操作可包括根据T值移动片段的一个样本(例如，第一样本)及使另一样本(例如，最后样本)移动一值，所述值具有小于T的量值。时间移位T可为通过PR译码方案最近应用于经时间移位片段的时间移位及/或通过PR译码方案由累积时间移位的最近更新产生的值。在包括RCELP编码方法RM100及MDCT编码方法MM100的实施方案的编码方法M10的实施方案中，任务MT20还可经配置以将经时间修改的残余物信号S20存储到经修改残余物缓冲器(例如，可能由方法RM100用以产生下一帧的目标残余物)。

方法MM100包括任务MT30，其(例如，根据如上文所陈述的关于X(k)的表达式)对经时间修改残余物执行MDCT运算以产生MDCT系数的集合。任务MT30可应用如本文所描述(例如，如图16或图18中所示)的窗口函数w(n)或可使用另一窗口函数或算法以执行MDCT运算。方法MM40包括任务MT40，其使用因子译码、组合近似法、截断、舍入及/或被视为适合于特定应用的任何其它量化操作来量化MDCT系数。在此实例中，方法MM100还包括任选任务MT50，其经配置以对经量化系数执行IMDCT运算以获得经解码样本的集合(例如，根据如上文所陈述的关于

的表达式)。

方法MM100的实施方案可包括在方法M10的实施方案内(例如，在编码任务TE30内)，且如上文所述，逻辑元件(例如，逻辑门)的阵列可经配置以执行所述方法的各种任务中的一者、一者以上乃至全部。对于方法M10包括方法MM100及方法RM100两者的实施方案的情况，残余物计算任务RT10与残余物产生任务MT10可共享共同操作(例如，可仅在LPC操作的次序上不同)或可甚至被实施为同一任务。

图23b说明用于对音频信号的帧进行MDCT编码的设备MF100(例如，设备F10的装置FE30的MDCT实施方案)的框图。设备MF100包括用于产生帧的残余物的装置FM10(例如，通过执行如上文所描述的任务MT10的实施方案)。设备MF100包括用于对所产生的残余物进行时间修改的装置FM20(例如，通过执行如上文所描述的任务MT20的实施方案)。在包括RCELP编码设备RF100及MDCT编码设备MF100的实施方案的编码设备F10的实施方案中，装置FM20还可经配置以将经时间修改的残余物信号S20存储到经修改残余物缓冲器(例如，可能由设备RF100用以产生下一帧的目标残余物)。设备MF100还包括用于对经时间修改残余物执行MDCT运算以获得MDCT系数的集合的装置FM30(例如，通过执行如上文所描述的任务MT30的实施方案)及用于量化MDCT系数的装置FM40(例如，通过执行如上文所描述的任务MT40的实施方案)。设备MF100还包括用于对经量化系数执行IMDCT运算的任选装置FM50(例如，通过执行如上文所描述的任务MT50)。

图24a说明根据另一通用配置的处理音频信号的帧的方法M200的流程图。方法M200的任务T510根据非PR译码方案(例如，MDCT译码方案)而对第一帧进行编码。方法M200的任务T610根据PR译码方案(例如，RCELP译码方案)而对音频信号的第二帧进行编码。

任务T510包括子任务T520，其根据第一时间移位T而对第一信号的片段进行时间修改，其中第一信号是基于第一帧(例如，第一信号为第一(非PR)帧或第一帧的残余物)。在一个实例中，时间移位T为如在对音频信号中先于第一帧的帧进行RCELP编码期间所计算的累积时间移位的值(例如，最后经更新值)。任务T520所时间修改的片段可包括整个第一信号，或所述片段可为所述信号的较短部分，例如残余物的子帧(例如，最后子帧)。通常，任务T520(例如，在音频信号S100的逆LPC滤波之后)对未经量化的残余物信号(例如，如图17a中所示的残余物产生器D10的输出)进行时间修改。然而，任务T520还可经实施以(例如，在MDCT-IMDCT处理之后)对经解码残余物的片段(例如，如图17a中所示的信号S40，或音频信号S100的片段)进行时间修改。

在一个实施方案中，任务T520通过根据T值在时间上向前或向后移动整个片段(即，相对于帧或音频信号的另一片段)来对片段进行时间移位。此操作可包括内插样本值以便执行分数时间移位。在另一实施方案中，任务T520基于时间移位T来对片段进行时间扭曲。此操作可包括将片段映射到延迟轮廓。举例来说，此操作可包括根据T值移动片段的一个样本(例如，第一样本)及使片段的另一样本(例如，最后样本)移动一值，所述值具有小于T的量值的量值。

任务T520可经配置以将经时间修改的信号存储到缓冲器(例如，存储到经修改残余物缓冲器)以可能由下文所描述的任务T620使用(例如，以产生下一帧的目标残余物)。任务T520还可经配置以更新PR编码任务的其它状态存储器。任务T520的一个此类实施方案将经解码的经量化残余物信号(例如，经解码的残余物信号S40)存储到自适应码簿(“ACB”)存储器且存储PR编码任务(例如，RCELP编码方法RM120)的零输入响应滤波器状态。

任务T610包括子任务T620，其基于来自经时间修改片段的信息而对第二信号进行时间扭曲，其中第二信号是基于第二帧(例如，第二信号为第二PR帧或第二帧的残余物)。举例来说，PR译码方案可为RCELP译码方案，其经配置以通过使用第一帧的残余物(包括经时间修改(例如，经时间移位)片段)代替过去经修改残余物来对如上文所描述的第二帧进行编码。

在一个实施方案中，任务T620通过在时间上向前或向后移动整个片段(即，相对于帧或音频信号的另一片段)而将第二时间移位应用于片段。此操作可包括内插样本值以便执行分数时间移位。在另一实施方案中，任务T620对片段进行时间扭曲，其可包括将片段映射到延迟轮廓。举例来说，此操作可包括根据时间移位来移动片段的一个样本(例如，第一样本)及使片段的另一样本(例如，最后样本)移动较小时间移位。

图24b说明任务T620的实施方案T622的流程图。任务T622包括子任务T630，其基于来自经时间修改片段的信息而计算第二时间移位。任务T622还包括子任务T640，其将第二时间移位应用于第二信号的片段(在此实例中，应用于第二帧的残余物)。

图24c说明任务T620的实施方案T624的流程图。任务T624包括子任务T650，其将经时间修改片段的样本映射到音频信号的延迟轮廓。如上文所论述，可能需要RCELP译码方案通过将先前子帧的经修改残余物映射到当前子帧的合成延迟轮廓而产生目标残余物。在此情况下，RCELP译码方案可经配置以通过产生基于第一(非RCELP)帧的残余物(包括经时间修改片段)的目标残余物而执行任务T650。

举例来说，此RCELP译码方案可经配置以通过将第一(非RCELP)帧的残余物(包括经时间修改片段)映射到当前帧的合成延迟轮廓而产生目标残余物。RCELP译码方案还可经配置以基于目标残余物而计算时间移位且使用所计算的时间移位以对第二帧的残余物进行时间扭曲，如上文所论述。图24d说明任务T622及T624的实施方案T626的流程图，所述实施方案T626包括任务T650、任务T630的实施方案T632(其基于来自经时间修改片段的经映射样本的信息而计算第二时间移位)及任务T640。

如上文所述，可能需要发射及接收具有超过约300到3400Hz的PSTN频率范围的频率范围的音频信号。一种用以对此信号进行译码的方法是“全频带”技术，其将整个扩展频率范围作为单一频带进行编码(例如，通过缩放译码系统以使PSTN范围覆盖扩展频率范围)。另一方法是将来自PSTN信号的信息外推到扩展频率范围中(例如，基于来自PSTN范围音频信号的信息而外推高于PSTN范围的高带范围的激励信号)。又一方法是“分割频带”技术，其单独地对在PSTN范围外的音频信号的信息(例如，例如3500到7000Hz或3500到8000Hz等高带频率范围的信息)进行编码。可在例如题为“宽带声码器的帧时间扭曲(TIME-WARPING FRAMES OF WIDEBAND VOCODER)”的第2008/0052065号美国公开案及题为“用于高带时间扭曲的系统、方法及设备(SYSTEMS，METHODS，AND APPARATUS FOR HIGHBAND TIME WARPING)”的第2006/0282263号美国公开案等文献中找到分割频带PR译码技术的描述。可能需要扩展分割频带译码技术以在音频信号的窄带及高带部分两者上包括方法M100及/或M200的实施方案。

方法M100及/或M200可执行于方法M10的实施方案内。举例来说，任务T110及T210(类似地，任务T510及T610)可由如方法M10执行的任务TE30的连续迭代执行以处理音频信号S100的连续帧。方法M100及/或M200还可由设备F10及/或设备AE10的实施方案(例如，设备AE20或AE25)执行。如上文所述，此设备可包括于便携式通信装置(例如，蜂窝式电话)中。此类方法及/或设备还可实施于基础结构设备(例如，媒体网关)中。

提供对所描述配置的以上呈现以使所属领域的技术人员能够制作或使用本文所揭示的方法及其它结构。本文所展示并描述的流程图、框图、状态图及其它结构仅为实例，且这些结构的其它变型也在本发明的范围内。对这些配置的各种修改是可能的，且本文中所呈现的一般原理还可应用于其它配置。因此，本发明不希望限于上文所展示的配置，而是应符合与在本文中(包括在所申请的附加权利要求书中)以任何方式揭示的原理及新颖特征一致的最广范围，所述权利要求书形成原始揭示内容的一部分。

除上文所提及的EVRC及SMV编解码器以外，可与如本文中所描述的话音编码器、话音编码方法、话音解码器及/或话音解码方法一起使用或适于与其一起使用的编解码器的实例还包括如文献ETSI TS 126 092 V6.0.0(欧洲电信标准协会(“ETSI”)，法国索菲亚-安提波利斯市，2004年12月)中所描述的自适应多速率(“AMR”)话音编解码器；以及如文献ETSI TS 126 192 V6.0.0(ETSI，2004年12月)中所描述的AMR宽带话音编解码器。

所属领域的技术人员将理解，可使用多种不同技术及技艺中的任一者来表示信息及信号。举例来说，可在整个上述描述中提及的数据、指令、命令、信息、信号、位及符号可由电压、电流、电磁波、磁场或磁性粒子、光场或光学粒子或者其任何组合表示。

技术人员将进一步了解，结合本文所揭示的配置而描述的各种说明性逻辑块、模块、电路及操作可实施为电子硬件、计算机软件或两者的组合。此类逻辑块、模块、电路及操作可用经设计以执行本文所描述的功能的通用处理器、数字信号处理器(“DSP”)、ASIC或ASSP、FPGA或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合来实施或执行。通用处理器可为微处理器，但在替代方案中，处理器可为任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合，例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。

本文所描述的方法及算法的任务可直接在硬件中、在由处理器执行的软件模块中或在所述两者的组合中体现。软件模块可驻留于随机存取存储器(“RAM”)、只读存储器(“ROM”)、例如快闪RAM等非易失性RAM(“NVRAM”)、可擦除可编程ROM(“EPROM”)、电可擦除可编程ROM(“EEPROM”)、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储媒体中。说明性存储媒体耦合到处理器，使得处理器可从存储媒体读取信息及将信息写入到存储媒体。在替代方案中，存储媒体可与处理器成一体式。处理器及存储媒体可驻留于ASIC中。所述ASIC可驻留于用户终端中。在替代方案中，处理器及存储媒体可作为离散组件驻留于用户终端中。

本文所描述的配置中的每一者可至少部分地实施为硬连线电路，实施为制造成专用集成电路的电路配置，或实施为加载到非易失性存储器中的固件程序或作为机器可读代码而从数据存储媒体加载或加载到数据存储媒体的软件程序，此代码是可由逻辑元件阵列(例如，微处理器或其它数字信号处理单元)执行的指令。数据存储媒体可为存储元件的阵列，例如半导体存储器(其可包括但不限于动态或静态RAM、ROM及/或快闪RAM)，或铁电、磁阻、双向、聚合或相变存储器；或盘片媒体，例如磁盘或光盘。术语“软件”应理解为包括源代码、汇编语言代码、机器代码、二进制代码、固件、宏码、微码、可由逻辑元件阵列执行的任何一个或一个以上指令集或序列以及此类实例的任何组合。

本文中所揭示的方法M10、RM100、MM100、M100及M200的实施方案还可有形地体现(例如，在如上文列出的一个或一个以上数据存储媒体中)为可由包括逻辑元件阵列(例如，处理器、微处理器、微控制器或其它有限状态机)的机器读取及/或执行的一个或一个以上指令集。因此，本发明不希望限于上文所展示的配置，而是应符合与在本文中(包括在所申请的附加权利要求书中)以任何方式揭示的原理及新颖特征一致的最广范围，所述权利要求书形成原始揭示内容的一部分。

本文中所描述的设备(例如，AE10、AD10、RC100、RF100、ME100、ME200、MF100)的各种实施方案的元件可被制造为驻留于(例如)同一芯片或芯片组中的两个或两个芯片中的电子及/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如，晶体管或门)的阵列。本文中所描述的设备的各种实施方案的一个或一个以上元件还可全部地或部分地实施为经布置以在一个或一个以上固定或可编程逻辑元件阵列(例如，微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA、ASSP及ASIC)上执行的一个或一个以上指令集。

有可能使如本文中所描述的设备的实施方案的一个或一个以上元件用于执行并非与所述设备的操作直接相关的任务或其它指令集，例如与嵌入有所述设备的装置或系统的另一操作相关的任务。还有可能使此设备的实施方案的一个或一个以上元件具有共同结构(例如，用于在不同时间执行对应于不同元件的代码部分的处理器、经执行以在不同时间执行对应于不同元件的任务的指令集，或在不同时间对不同元件执行操作的电子及/或光学装置的布置)。

图26说明具有本文中所描述的系统及方法的可用作接入终端的音频通信装置1108的一个实例的框图。装置1108包括经配置以控制装置1108的操作的处理器1102。处理器1102可经配置以控制装置1108执行方法M100或M200的实施方案。装置1108还包括经配置以向处理器1102提供指令及数据的存储器1104且可包括ROM、RAM及/或NVRAM。装置1108还包括含有收发器1120的外壳1122。收发器1120包括支持在装置1108与远程位置之间发射及接收数据的发射器1110及接收器1112。装置1108的天线1118附接到外壳1122且电耦合到收发器1120。

装置1108包括经配置以检测并量化由收发器1120接收的信号的电平的信号检测器1106。举例来说，信号检测器1106可经配置以计算例如总能量、每一伪噪声码片的导频能量(还表达为Eb/No)及/或功率谱密度等参数的值。装置1108包括经配置以使装置1108的各种组件耦合在一起的总线系统1126。除数据总线以外，总线系统1126还可包括功率总线、控制信号总线及/或状态信号总线。装置1108还包括经配置以处理由收发器1120接收及/或发射的信号的DSP 1116。

在此实例中，装置1108经配置以在若干不同状态中的任一者中操作且包括状态改变器1114，所述状态改变器1114经配置以基于装置的当前状态及由收发器1120接收且由信号检测器1106检测的信号而控制装置1108的状态。在此实例中，装置1108还包括系统确定器1124，所述系统确定器1124经配置以确定当前服务提供商为不适当的且控制装置1108转移到不同服务提供商。

Claims

1.一种处理音频信号的帧的方法，所述方法包含：

根据音调规则化PR译码方案而对所述音频信号的第一帧进行编码；以及

根据非PR译码方案而对所述音频信号的第二帧进行编码，

其中所述第二帧在所述音频信号中跟随并连续于所述第一帧，且

其中所述对第一帧进行编码包括基于时间移位而对基于所述第一帧的第一信号的片段进行时间修改，所述时间修改包括下列一者：(A)根据所述时间移位而对所述第一帧的所述片段进行时间移位；以及(B)基于所述时间移位而对所述第一信号的所述片段进行时间扭曲，且

其中所述对第一信号的片段进行时间修改包括改变所述片段的音调脉冲相对于所述第一信号的另一音调脉冲的位置，且

其中所述对第二帧进行编码包括基于所述时间移位而对基于所述第二帧的第二信号的片段进行时间修改，所述时间修改包括下列一者：(A)根据所述时间移位而对所述第二帧的所述片段进行时间移位；以及(B)基于所述时间移位而对所述第二信号的所述片段进行时间扭曲。

2.根据权利要求1所述的方法，其中所述对第一帧进行编码包括产生基于所述第一信号的经时间修改片段的第一经编码帧，且

其中所述对第二帧进行编码包括产生基于所述第二信号的经时间修改片段的第二经编码帧。

3.根据权利要求1所述的方法，其中所述第一信号为所述第一帧的残余物，且其中所述第二信号为所述第二帧的残余物。

4.根据权利要求1所述的方法，其中所述第一及第二信号为经加权的音频信号。

5.根据权利要求1所述的方法，其中所述对所述第一帧进行编码包括基于来自在所述音频信号中先于所述第一帧的第三帧的残余物的信息而计算所述时间移位。

6.根据权利要求5所述的方法，其中所述计算所述时间移位包括将所述第三帧的所述残余物的样本映射到所述音频信号的延迟轮廓。

7.根据权利要求6所述的方法，其中所述对所述第一帧进行编码包括基于与所述音频信号的音调周期有关的信息而计算所述延迟轮廓。

8.根据权利要求1所述的方法，其中所述PR译码方案为松弛码激励线性预测译码方案，且

其中所述非PR译码方案为下列一者：(A)噪声激励线性预测译码方案；(B)改进型离散余弦变换译码方案；以及(C)原型波形内插译码方案。

9.根据权利要求1所述的方法，其中所述非PR译码方案为改进型离散余弦变换译码方案。

10.根据权利要求1所述的方法，其中所述对第二帧进行编码包括：

对所述第二帧的残余物执行改进型离散余弦变换MDCT运算以获得经编码残余物；以及

对基于所述经编码残余物的信号执行逆MDCT运算以获得经解码残余物，

其中所述第二信号是基于所述经解码残余物。

11.根据权利要求1所述的方法，其中所述对第二帧进行编码包括：

产生所述第二帧的残余物，其中所述第二信号为所述所产生的残余物；

在所述对所述第二信号的片段进行时间修改之后，对包括经时间修改片段的所述所产生的残余物执行改进型离散余弦变换运算以获得经编码残余物；以及

基于所述经编码残余物而产生第二经编码帧。

12.根据权利要求1所述的方法，其中所述方法包含根据所述时间移位而对在所述音频信号中跟随所述第二帧的帧的残余物的片段进行时间移位。

13.根据权利要求1所述的方法，其中所述方法包括基于所述时间移位而对第三信号的片段进行时间修改，所述第三信号是基于所述音频信号的跟随所述第二帧的第三帧，且

其中所述对第二帧进行编码包括在包括所述第二及第三信号的经时间修改片段的样本的窗口上执行改进型离散余弦变换MDCT运算。

14.根据权利要求13所述的方法，其中所述第二信号具有M个样本的长度，且所述第三信号具有M个样本的长度，且

其中所述执行MDCT运算包括产生M个MDCT系数的集合，所述集合是基于：(A)包括所述经时间修改片段的所述第二信号的M个样本；以及(B)所述第三信号的至多3M/4个样本。

15.根据权利要求13所述的方法，其中所述第二信号具有M个样本的长度，且所述第三信号具有M个样本的长度，且

其中所述执行MDCT运算包括产生M个MDCT系数的集合，所述集合是基于2M个样本的序列，所述序列(A)包括包含所述经时间修改片段的所述第二信号的M个样本，(B)以至少M/8个零值样本的序列开始，且(C)以至少M/8个零值样本的序列结束。

16.一种用于处理音频信号的帧的设备，所述设备包含：

用于根据音调规则化PR译码方案而对所述音频信号的第一帧进行编码的装置；以及

用于根据非PR译码方案而对所述音频信号的第二帧进行编码的装置，

其中所述用于对第一帧进行编码的装置包括用于基于时间移位而对基于所述第一帧的第一信号的片段进行时间修改的装置，所述用于时间修改的装置经配置以执行下列一者：(A)根据所述时间移位而对所述第一帧的所述片段进行时间移位；以及(B)基于所述时间移位而对所述第一信号的所述片段进行时间扭曲，且

其中所述用于对第一信号的片段进行时间修改的装置经配置以改变所述片段的音调脉冲相对于所述第一信号的另一音调脉冲的位置，且

其中所述用于对第二帧进行编码的装置包括用于基于所述时间移位而对基于所述第二帧的第二信号的片段进行时间修改的装置，所述用于时间修改的装置经配置以执行下列一者：(A)根据所述时间移位而对所述第二帧的所述片段进行时间移位；以及(B)基于所述时间移位而对所述第二信号的所述片段进行时间扭曲。

17.根据权利要求16所述的设备，其中所述第一信号为所述第一帧的残余物，且其中所述第二信号为所述第二帧的残余物。

18.根据权利要求16所述的设备，其中所述第一及第二信号为经加权的音频信号。

19.根据权利要求16所述的设备，其中所述用于对所述第一帧进行编码的装置包括用于基于来自在所述音频信号中先于所述第一帧的第三帧的残余物的信息而计算所述时间移位的装置。

20.根据权利要求16所述的设备，其中所述用于对第二帧进行编码的装置包括：

用于产生所述第二帧的残余物的装置，其中所述第二信号为所述所产生的残余物；以及

用于对包括经时间修改片段的所述所产生的残余物执行改进型离散余弦变换运算以获得经编码残余物的装置，

其中所述用于对第二帧进行编码的装置经配置以基于所述经编码残余物而产生第二经编码帧。

21.根据权利要求16所述的设备，其中所述用于对所述第二信号的片段进行时间修改的装置经配置以根据所述时间移位而对在所述音频信号中跟随所述第二帧的帧的残余物的片段进行时间移位。

22.根据权利要求16所述的设备，其中所述用于对第二信号的片段进行时间修改的装置经配置以基于所述时间移位而对第三信号的片段进行时间修改，所述第三信号是基于所述音频信号的跟随所述第二帧的第三帧，且

其中所述用于对第二帧进行编码的装置包括用于在包括所述第二及第三信号的经时间修改片段的样本的窗口上执行改进型离散余弦变换MDCT运算的装置。

23.根据权利要求22所述的设备，其中所述第二信号具有M个样本的长度，且所述第三信号具有M个样本的长度，且

其中所述用于执行MDCT运算的装置经配置以产生M个MDCT系数的集合，所述集合是基于：(A)包括所述经时间修改片段的所述第二信号的M个样本；以及(B)所述第三信号的至多3M/4个样本。

24.一种用于处理音频信号的帧的设备，所述设备包含：

第一帧编码器，其经配置以根据音调规则化PR译码方案而对所述音频信号的第一帧进行编码；以及

第二帧编码器，其经配置以根据非PR译码方案而对所述音频信号的第二帧进行编码，

其中所述第一帧编码器包括第一时间修改器，所述第一时间修改器经配置以基于时间移位而对基于所述第一帧的第一信号的片段进行时间修改，所述第一时间修改器经配置以执行下列一者：(A)根据所述时间移位而对所述第一帧的所述片段进行时间移位；以及(B)基于所述时间移位而对所述第一信号的所述片段进行时间扭曲，且

其中所述第一时间修改器经配置以改变所述片段的音调脉冲相对于所述第一信号的另一音调脉冲的位置，且

其中所述第二帧编码器包括第二时间修改器，所述第二时间修改器经配置以基于所述时间移位而对基于所述第二帧的第二信号的片段进行时间修改，所述第二时间修改器经配置以执行下列一者：(A)根据所述时间移位而对所述第二帧的所述片段进行时间移位；以及(B)基于所述时间移位而对所述第二信号的所述片段进行时间扭曲。

25.根据权利要求24所述的设备，其中所述第一信号为所述第一帧的残余物，且其中所述第二信号为所述第二帧的残余物。

26.根据权利要求24所述的设备，其中所述第一及第二信号为经加权的音频信号。

27.根据权利要求24所述的设备，其中所述第一帧编码器包括时间移位计算器，其经配置以基于来自在所述音频信号中先于所述第一帧的第三帧的残余物的信息而计算所述时间移位。

28.根据权利要求24所述的设备，其中所述第二帧编码器包括：

残余物产生器，其经配置以产生所述第二帧的残余物，其中所述第二信号为所述所产生的残余物；以及

改进型离散余弦变换MDCT模块，其经配置以对包括经时间修改片段的所述所产生的残余物执行MDCT运算以获得经编码残余物，

其中所述第二帧编码器经配置以基于所述经编码残余物而产生第二经编码帧。

29.根据权利要求24所述的设备，其中所述第二时间修改器经配置以根据所述时间移位而对在所述音频信号中跟随所述第二帧的帧的残余物的片段进行时间移位。

30.根据权利要求24所述的设备，其中所述第二时间修改器经配置以基于所述时间移位而对第三信号的片段进行时间修改，所述第三信号是基于所述音频信号的跟随所述第二帧的第三帧，且

其中所述第二帧编码器包括改进型离散余弦变换MDCT模块，所述改进型离散余弦变换MDCT模块经配置以在包括所述第二及第三信号的经时间修改片段的样本的窗口上执行MDCT运算。

31.根据权利要求30所述的设备，其中所述第二信号具有M个样本的长度，且所述第三信号具有M个样本的长度，且

其中所述MDCT模块经配置以产生M个MDCT系数的集合，所述集合是基于：(A)包括所述经时间修改片段的所述第二信号的M个样本；以及(B)所述第三信号的至多3M/4个样本。

32.一种处理音频信号的帧的方法，所述方法包含：

根据第一译码方案而对所述音频信号的第一帧进行编码；以及

根据音调规则化PR译码方案而对所述音频信号的第二帧进行编码，

其中所述第一译码方案为非PR译码方案，且

其中所述对第一帧进行编码包括基于第一时间移位而对基于所述第一帧的第一信号的片段进行时间修改，所述时间修改包括下列一者：(A)根据所述第一时间移位而对所述第一信号的所述片段进行时间移位；以及(B)基于所述第一时间移位而对所述第一信号的所述片段进行时间扭曲；且

其中所述对第二帧进行编码包括基于第二时间移位而对基于所述第二帧的第二信号的片段进行时间修改，所述时间修改包括下列一者：(A)根据所述第二时间移位而对所述第二信号的所述片段进行时间移位；以及(B)基于所述第二时间移位而对所述第二信号的所述片段进行时间扭曲，

其中所述对第二信号的片段进行时间修改包括改变所述片段的音调脉冲相对于所述第二信号的另一音调脉冲的位置，且

其中所述第二时间移位是基于来自所述第一信号的经时间修改片段的信息。

33.根据权利要求32所述的方法，其中所述对第一帧进行编码包括产生基于所述第一信号的所述经时间修改片段的第一经编码帧，且

34.根据权利要求32所述的方法，其中所述第一信号为所述第一帧的残余物，且其中所述第二信号为所述第二帧的残余物。

35.根据权利要求32所述的方法，其中所述第一及第二信号为经加权的音频信号。

36.根据权利要求32所述的方法，其中所述对所述第二信号的片段进行时间修改包括基于来自所述第一信号的所述经时间修改片段的信息而计算所述第二时间移位，且

其中所述计算所述第二时间移位包括将所述第一信号的所述经时间修改片段映射到基于来自所述第二帧的信息的延迟轮廓。

37.根据权利要求36所述的方法，其中所述第二时间移位是基于经映射片段的样本与临时经修改残余物的样本之间的相关性，且

其中所述临时经修改残余物是基于：(A)所述第二帧的残余物的样本；以及(B)所述第一时间移位。

38.根据权利要求32所述的方法，其中所述第二信号为所述第二帧的残余物，且

其中所述对所述第二信号的片段进行时间修改包括根据所述第二时间移位而对所述残余物的第一片段进行时间移位，且

其中所述方法包含：

基于来自所述第一信号的所述经时间修改片段的信息而计算不同于所述第二时间移位的第三时间移位；以及

根据所述第三时间移位而对所述残余物的第二片段进行时间移位。

39.根据权利要求32所述的方法，其中所述第二信号为所述第二帧的残余物，且

其中所述方法包含：

基于来自所述残余物的经时间修改的第一片段的信息而计算不同于所述第二时间移位的第三时间移位；以及

40.根据权利要求32所述的方法，其中所述对所述第二信号的片段进行时间修改包括将所述第一信号的所述经时间修改片段的样本映射到基于来自所述第二帧的信息的延迟轮廓。

41.根据权利要求32所述的方法，其中所述方法包含：

将基于所述第一信号的所述经时间修改片段的序列存储到自适应码簿缓冲器；以及

在所述存储之后，将所述自适应码簿缓冲器的样本映射到基于来自所述第二帧的信息的延迟轮廓。

42.根据权利要求32所述的方法，其中所述第二信号为所述第二帧的残余物，且其中所述对所述第二信号的片段进行时间修改包括对所述第二帧的所述残余物进行时间扭曲，且

其中所述方法包含基于来自所述第二帧的经时间扭曲残余物的信息而对所述音频信号的第三帧的残余物进行时间扭曲，其中所述第三帧在所述音频信号中连续于所述第二帧。

43.根据权利要求32所述的方法，其中所述第二信号为所述第二帧的残余物，且其中所述对所述第二信号的片段进行时间修改包括基于以下两者而计算所述第二时间移位：(A)来自所述第一信号的所述经时间修改片段的信息；以及(B)来自所述第二帧的所述残余物的信息。

44.根据权利要求32所述的方法，其中所述PR译码方案为松弛码激励线性预测译码方案，且其中所述非PR译码方案为下列一者：(A)噪声激励线性预测译码方案；(B)改进型离散余弦变换译码方案；以及(C)原型波形内插译码方案。

45.根据权利要求32所述的方法，其中所述非PR译码方案为改进型离散余弦变换译码方案。

46.根据权利要求32所述的方法，其中所述对第一帧进行编码包括：

对所述第一帧的残余物执行改进型离散余弦变换MDCT运算以获得经编码残余物；以及

其中所述第一信号是基于所述经解码残余物。

47.根据权利要求32所述的方法，其中所述对第一帧进行编码包括：

产生所述第一帧的残余物，其中所述第一信号为所述所产生的残余物；

在所述对所述第一信号的片段进行时间修改之后，对包括所述经时间修改片段的所述所产生的残余物执行改进型离散余弦变换运算以获得经编码残余物；以及

基于所述经编码残余物而产生第一经编码帧。

48.根据权利要求32所述的方法，其中所述第一信号具有M个样本的长度，且所述第二信号具有M个样本的长度，且

其中所述对第一帧进行编码包括产生M个改进型离散余弦变换MDCT系数的集合，所述集合是基于：包括所述经时间修改片段的所述第一信号的M个样本；以及所述第二信号的至多3M/4个样本。

49.根据权利要求32所述的方法，其中所述第一信号具有M个样本的长度，且所述第二信号具有M个样本的长度，且

其中所述对第一帧进行编码包括产生M个改进型离散余弦变换MDCT系数的集合，所述集合是基于2M个样本的序列，所述序列(A)包括包含所述经时间修改片段的所述第一信号的M个样本，(B)以至少M/8个零值样本的序列开始，且(C)以至少M/8个零值样本的序列结束。

50.一种用于处理音频信号的帧的设备，所述方法包含：

用于根据第一译码方案而对所述音频信号的第一帧进行编码的装置；以及

用于根据音调规则化PR译码方案而对所述音频信号的第二帧进行编码的装置，

其中所述第一译码方案为非PR译码方案，且

其中所述用于对第一帧进行编码的装置包括用于基于第一时间移位而对基于所述第一帧的第一信号的片段进行时间修改的装置，所述用于时间修改的装置经配置以执行下列一者：(A)根据所述第一时间移位而对所述第一信号的所述片段进行时间移位；以及(B)基于所述第一时间移位而对所述第一信号的所述片段进行时间扭曲；且

其中所述用于对第二帧进行编码的装置包括用于基于第二时间移位而对基于所述第二帧的第二信号的片段进行时间修改的装置，所述用于时间修改的装置经配置以执行下列一者：(A)根据所述第二时间移位而对所述第二信号的所述片段进行时间移位；以及(B)基于所述第二时间移位而对所述第二信号的所述片段进行时间扭曲，

其中所述用于对第二信号的片段进行时间修改的装置经配置以改变所述片段的音调脉冲相对于所述第二信号的另一音调脉冲的位置，且

51.根据权利要求50所述的设备，其中所述第一信号为所述第一帧的残余物，且其中所述第二信号为所述第二帧的残余物。

52.根据权利要求50所述的设备，其中所述第一及第二信号为经加权的音频信号。

53.根据权利要求50所述的设备，其中所述用于对所述第二信号的片段进行时间修改的装置包括用于基于来自所述第一信号的所述经时间修改片段的信息而计算所述第二时间移位的装置，且

其中所述用于计算所述第二时间移位的装置包括用于将所述第一信号的所述经时间修改片段映射到基于来自所述第二帧的信息的延迟轮廓的装置。

54.根据权利要求53所述的设备，其中所述第二时间移位是基于经映射片段的样本与临时经修改残余物的样本之间的相关性，且

55.根据权利要求50所述的设备，其中所述第二信号为所述第二帧的残余物，且

其中所述用于对所述第二信号的片段进行时间修改的装置经配置以根据所述第二时间移位而对所述残余物的第一片段进行时间移位，且

其中所述方法包含：

用于基于来自所述残余物的经时间修改的第一片段的信息而计算不同于所述第二时间移位的第三时间移位的装置；以及

用于根据所述第三时间移位而对所述残余物的第二片段进行时间移位的装置。

56.根据权利要求50所述的设备，其中所述第二信号为所述第二帧的残余物，且其中所述用于对所述第二信号的片段进行时间修改的装置包括用于基于以下两者而计算所述第二时间移位的装置：(A)来自所述第一信号的所述经时间修改片段的信息；以及(B)来自所述第二帧的所述残余物的信息。

57.根据权利要求50所述的设备，其中所述用于对第一帧进行编码的装置包括：

用于产生所述第一帧的残余物的装置，其中所述第一信号为所述所产生的残余物；以及

用于对包括所述经时间修改片段的所述所产生的残余物执行改进型离散余弦变换运算以获得经编码残余物的装置，且

其中所述用于对第一帧进行编码的装置经配置以基于所述经编码残余物而产生第一经编码帧。

58.根据权利要求50所述的设备，其中所述第一信号具有M个样本的长度且所述第二信号具有M个样本的长度，且

其中所述用于对第一帧进行编码的装置包括用于产生M个改进型离散余弦变换MDCT系数的集合的装置，所述集合是基于：包括所述经时间修改片段的所述第一信号的M个样本；以及所述第二信号的至多3M/4个样本。

59.根据权利要求50所述的设备，其中所述第一信号具有M个样本的长度，且所述第二信号具有M个样本的长度，且

其中所述用于对第一帧进行编码的装置包括用于产生M个改进型离散余弦变换MDCT系数的集合的装置，所述集合是基于2M个样本的序列，所述序列(A)包括包含所述经时间修改片段的所述第一信号的M个样本，(B)以至少M/8个零值样本的序列开始，且(C)以至少M/8个零值样本的序列结束。

60.一种用于处理音频信号的帧的设备，所述方法包含：

第一帧编码器，其经配置以根据第一译码方案而对所述音频信号的第一帧进行编码；以及

第二帧编码器，其经配置以根据音调规则化PR译码方案而对所述音频信号的第二帧进行编码，

其中所述第一译码方案为非PR译码方案，且

其中所述第一帧编码器包括第一时间修改器，所述第一时间修改器经配置以基于第一时间移位而对基于所述第一帧的第一信号的片段进行时间修改，所述第一时间修改器经配置以执行下列一者：(A)根据所述第一时间移位而对所述第一信号的所述片段进行时间移位；以及(B)基于所述第一时间移位而对所述第一信号的所述片段进行时间扭曲；且

其中所述第二帧编码器包括第二时间修改器，所述第二时间修改器经配置以基于第二时间移位而对基于所述第二帧的第二信号的片段进行时间修改，所述第二时间修改器经配置以执行下列一者：(A)根据所述第二时间移位而对所述第二信号的所述片段进行时间移位；以及(B)基于所述第二时间移位而对所述第二信号的所述片段进行时间扭曲，

其中所述第二时间修改器经配置以改变第二信号的所述片段的音调脉冲相对于所述第二信号的另一音调脉冲的位置，且

61.根据权利要求60所述的设备，其中所述第一信号为所述第一帧的残余物，且其中所述第二信号为所述第二帧的残余物。

62.根据权利要求60所述的设备，其中所述第一及第二信号为经加权的音频信号。

63.根据权利要求60所述的设备，其中所述第二时间修改器包括时间移位计算器，所述时间移位计算器经配置以基于来自所述第一信号的所述经时间修改片段的信息而计算所述第二时间移位，且

其中所述时间移位计算器包括映射器，所述映射器经配置以将所述第一信号的所述经时间修改片段映射到基于来自所述第二帧的信息的延迟轮廓。

64.根据权利要求63所述的设备，其中所述第二时间移位是基于经映射片段的样本与临时经修改残余物的样本之间的相关性，且

65.根据权利要求60所述的设备，其中所述第二信号为所述第二帧的残余物，且

其中所述第二时间修改器经配置以根据所述第二时间移位而对所述残余物的第一片段进行时间移位，且

其中所述时间移位计算器经配置以基于来自所述残余物的经时间修改的第一片段的信息而计算不同于所述第二时间移位的第三时间移位，且

其中所述第二时间移位器经配置以根据所述第三时间移位而对所述残余物的第二片段进行时间移位。

66.根据权利要求60所述的设备，其中所述第二信号为所述第二帧的残余物，且其中所述第二时间修改器包括时间移位计算器，所述时间移位计算器经配置以基于以下两者而计算所述第二时间移位：(A)来自所述第一信号的所述经时间修改片段的信息；以及(B)来自所述第二帧的所述残余物的信息。

67.根据权利要求60所述的设备，其中所述第一帧编码器包括：

残余物产生器，其经配置以产生所述第一帧的残余物，其中所述第一信号为所述所产生的残余物；以及

改进型离散余弦变换MDCT模块，其经配置以对包括所述经时间修改片段的所述所产生的残余物执行MDCT运算以获得经编码残余物，且

其中所述第一帧编码器经配置以基于所述经编码残余物而产生第一经编码帧。

68.根据权利要求60所述的设备，其中所述第一信号具有M个样本的长度，且所述第二信号具有M个样本的长度，且

其中所述第一帧编码器包括改进型离散余弦变换MDCT模块，所述改进型离散余弦变换MDCT模块经配置以产生M个MDCT系数的集合，所述集合是基于：包括所述经时间修改片段的所述第一信号的M个样本；以及所述第二信号的至多3M/4个样本。

69.根据权利要求60所述的设备，其中所述第一信号具有M个样本的长度，且所述第二信号具有M个样本的长度，且

其中所述第一帧编码器包括改进型离散余弦变换MDCT模块，所述改进型离散余弦变换MDCT模块经配置以产生M个MDCT系数的集合，所述集合是基于2M个样本的序列，所述序列(A)包括包含所述经时间修改片段的所述第一信号的M个样本，(B)以至少M/8个零值样本的序列开始，且(C)以至少M/8个零值样本的序列结束。