CN103038820A

CN103038820A - 用于音频信号的相依模式译码的系统、方法、设备和计算机可读媒体

Info

Publication number: CN103038820A
Application number: CN2011800371913A
Authority: CN
Inventors: 文卡特什·克里希南; 维韦克·拉金德朗; 伊桑·R·杜尼
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2010-07-30
Filing date: 2011-07-29
Publication date: 2013-04-10
Also published as: JP5694531B2; EP3852104A1; EP2599082B1; KR20130069756A; JP2013537647A; EP2599081B1; WO2012016128A3; EP2599081A2; ES2611664T3; CN103038821B; EP2599080A2; JP5587501B2; CN103038822B; US8831933B2; JP2013534328A; KR20130036364A; HUE032264T2; BR112013002166B1; US20120029924A1; WO2012016110A3

Abstract

一种用于对表示信号的音频-频率范围的一组变换系数进行译码的方案使用来自描述所述信号的先前帧的参考帧的信息来确定所述信号的目标帧中的显著能量区的频域位置。

Description

用于音频信号的相依模式译码的系统、方法、设备和计算机可读媒体

根据35U.S.C.§119主张优先权

本专利申请案主张2010年7月30日申请的标题为“用于音频信号的有效变换域译码的系统、方法、设备和计算机可读媒体(SYSTEMS,METHODS,APPARATUS,ANDC OMPUTER-READABLE MEDIA FOR EFFICIENT TRANSFORM-DOMAINCODING OF AUDIO SIGNALS)”的第61/369,662号临时申请案的优先权。本专利申请案主张2010年7月31日申请的标题为“用于动态位分配的系统、方法、设备和计算机可读媒体(SYSTEMS,METHODS,APPARATUS,AND COMPUTER-READABLEMEDIA FOR DYNAMIC BIT ALLOCATION)”的第61/369,705号临时申请案的优先权。本专利申请案主张2010年7月31日申请的标题为“用于多阶段形状向量量化的系统、方法、设备和计算机可读媒体(SYSTEMS,METHODS,APPARATUS,ANDCOMPUTER-READABLE MEDIA FOR MULTI-STAGE SHAPE VECTORQUANTIZATION)”的第61/369,751号临时申请案的优先权。本专利申请案主张2010年8月17日申请的标题为“用于一般音频译码的系统、方法、设备和计算机可读媒体(SYSTEMS,METHODS,APPARATUS,AND COMPUTER-READABLE MEDIA FORGENERALIZED AUDIO CODING)”的第61/374,565号临时申请案的优先权。本专利申请案主张2010年9月17日申请的标题为“用于一般音频译码的系统、方法、设备和计算机可读媒体(SYSTEMS,METHODS,APPARATUS,ANDCOMPUTER-READABLE MEDIA FOR GENERALIZED AUDIO CODING)”的第61/384,237号临时申请案的优先权。本专利申请案主张2011年3月31日申请的标题为“用于动态位分配的系统、方法、设备和计算机可读媒体(SYSTEMS,METHODS,APPARATUS,AND COMPUTER-READABLE MEDIA FOR DYNAMIC BITALLOCATION)”的第61/470,438号临时申请案的优先权。

技术领域

本发明涉及音频信号处理领域。

背景技术

基于修正型离散余弦变换(MDCT)的译码方案通常用于对一般的音频信号进行译码，所述音频信号可包含语音和/或非语音内容，例如音乐。使用MDCT译码的现有音频编解码器的实例包含MPEG-1音频层3(MP3)、杜比数字(英国伦敦杜比实验室；还被称为AC-3且标准化为ATSC A/52)、免费音乐格式(马萨诸塞州萨摩威尔市Xiph.Org基金会)、视窗媒体音频(WMA，华盛顿州里德蒙德市微软公司)、自适应变换声音译码(ATRAC，日本东京索尼公司)，以及高级音频译码(AAC，最近在ISO/IEC14496-3:2009中标准化)。MDCT译码也是一些电信标准的分量，例如增强型可变速率编解码器(EVRC，在2010年1月25日的第3代合作伙伴项目2(3GPP2)文献C.S0014-D v2.0中被标准化)。G.718编解码器(对从8到32kbit/s的语音和音频的帧错误稳固窄带和宽带嵌入式可变位速率译码(Frame error robust narrowband and wideband embedded variable bit-rate codingof speech and audio from8-32kbit/s)，电信标准化部门(ITU-T)，日内瓦，CH，2008年6月，2008年11月和2009年8月校正，2009年3月和2010年3月修正)是使用MDCT译码的多层编解码器的一个实例。

发明内容

根据一般配置的一种音频信号处理方法包含在频域中定位描述音频信号的帧的参考帧中的多个能量集中。此方法还包含，针对所述多个频域能量集中中的每一者，且基于所述集中的位置，选择所述音频信号的目标帧内的位置以用于所述目标帧的一组子频带中的对应一者，其中所述目标帧在所述音频信号中在由所述参考帧描述的帧之后。此方法还包含与所述目标帧的不在所述组子频带中的任一者中的样本分开地对所述目标帧的所述组子频带进行编码，以获得经编码分量。在此方法中，对于所述组子频带中的至少一者中的每一者，所述经编码分量包含在所述频域中在所述子频带的所述选定位置与所述对应集中的所述位置之间的距离的指示。还揭示具有有形特征的计算机可读存储媒体(例如，非暂时性媒体)，所述有形特征致使机器读取所述特征来执行所述方法。

一种用于根据一般配置处理音频信号的帧的设备包含用于在频域中定位描述音频信号的帧的参考帧中的多个能量集中的装置。此设备还包含，用于针对所述多个频域能量集中中的每一者且基于所述集中的位置来选择所述音频信号的目标帧内的位置以用于所述目标帧的一组子频带中的对应一者的装置，其中所述目标帧在所述音频信号中在由所述参考帧描述的帧之后。此设备包含用于与所述目标帧的不在所述组子频带中的任一者中的样本分开地对所述目标帧的所述组子频带进行编码以获得经编码分量的装置。在此设备中，对于所述组子频带中的至少一者中的每一者，所述经编码分量包含在所述频域中在所述子频带的所述选定位置与所述对应集中的所述位置之间的距离的指示。

一种用于根据另一一般配置处理音频信号的帧的设备包含定位器，所述定位器经配置以在频域中定位描述音频信号的帧的参考帧中的多个能量集中。此设备还包含选择器，所述选择器经配置以针对所述多个频域能量集中中的每一者且基于所述集中的位置来选择所述音频信号的目标帧内的位置以用于所述目标帧的一组子频带中的对应一者，其中所述目标帧在所述音频信号中在由所述参考帧描述的帧之后。此设备包含编码器，所述编码器经配置以与所述目标帧的不在所述组子频带中的任一者中的样本分开地对所述目标帧的所述组子频带进行编码以获得经编码分量。在此设备中，对于所述组子频带中的至少一者中的每一者，所述经编码分量包含在所述频域中在所述子频带的所述选定位置与所述对应集中的所述位置之间的距离的指示。

附图说明

图1A展示根据一般配置处理音频信号的方法MC100的流程图。

图1B展示方法MC100的实施方案MC110的流程图。

图2A说明峰选择窗的实例。

图2B展示任务TC200的操作的实例。

图2C展示使用级联的残差来以递增频率的次序填充子频带的任一侧上的未被占用的频段的实例。

图3展示经MDCT编码的信号的参考帧和目标帧的实例。

图4A展示对经编码目标帧进行解码的方法MD100的流程图。

图4B展示方法MD100的实施方案MD110的流程图。

图5展示对目标帧进行编码的实例，其中子频带和残差的介入区被标记。

图6展示将残差信号的一部分编码为若干单元脉冲的实例。

图7A展示根据一般配置的音频信号处理MF100的设备的方框图。

图7B展示设备MF100的实施方案MF110的方框图。

图8A展示根据另一一般配置的音频信号处理A100的设备的方框图。

图8B展示编码器300的实施方案302的方框图。

图8C展示设备A100的实施方案A110的方框图。

图8D展示设备A100的实施方案A120的方框图。

图8E展示设备A120的实施方案A130的方框图。

图9A展示设备A110的实施方案A140的方框图。

图9B展示设备A120的实施方案A150的方框图。

图10A展示根据一般配置的音频信号处理MFD100的设备的方框图。

图10B展示设备MFD100的实施方案MFD110的方框图。

图10C展示根据另一一般配置的音频信号处理A100D的设备的方框图。

图11A展示设备A100D的实施方案A110D的方框图。

图11B展示设备A110D的实施方案A120D的方框图。

图11C展示根据一般配置的设备A200的方框图。

图12展示可结合方法MC100执行的音频信号处理的方法MB110的流程图。

图13展示针对其中UB-MDCT信号正被建模的实例的量值对频率的曲线图。

图14A到E展示用于设备A120的各种实施方案的应用的范围。

图15A展示信号分类的方法MZ100的方框图。

图15B展示通信装置D10的方框图。

图16展示手持机H100的前视图、后视图和侧视图。

具体实施方式

可使用本文中所描述的动态子频带选择方案来匹配将要用先前帧的对应的感知上重要的子频带编码的帧的感知上重要的(例如，高能量)子频带。

可能需要识别将要编码的信号内的显著能量的区。将此些区与信号的其余部分分离实现对这些区的对准目标的译码以用于增加的译码效率。举例来说，可能需要通过使用相对更多的位来对此些区进行编码且使用相对较少的位(或甚至不使用位)对信号的其它区进行编码来增加译码效率。

对于具有谐波内容的音频信号(例如，音乐信号、有声的语音信号)，在给定时间处在频域中的显著能量的区的位置可在时间上相对持久。可能需要通过利用此时间上的相关性来执行对音频信号的高效变换域译码。

本文中所描述的用于对表示信号的音频-频率范围的一组变换系数进行译码的方案通过相对于如经解码的早先帧中的此些区的位置来对频域中的显著能量的区的位置进行编码而利用信号频谱上的能量分布的时间持续性。在一特定应用中，使用此方案来对对应于音频信号的0kHz到4kHz范围(此后称作低频带MDCT或LB-MDCT)的MDCT变换系数(例如，线性预测译码(LPC)操作的残差)进行编码。

将显著能量的区的位置与其内容分离允许使用最小侧信息(例如，与经编码信号的先前帧中的那些区的位置的偏移)来表示将要传输到解码器的这些区的位置。此效率对于低位速率应用(例如，蜂窝式电话)来说尤其重要。

除非受其上下文明确地限制，否则术语“信号”在本文中用以指示其普通意义中的任一者，包含如在导线、总线或其它传输媒体上表达的存储器位置(或存储器位置集合)的状态。除非由其上下文明确限制，否则本文中使用术语“产生”来指示其普通意义中的任一者，例如计算或以其它方式产生。除非受其上下文明确地限制，否则术语“计算”在本文中用以指示其普通意义中的任一者，例如计算、评估、平滑和/或从多个值中进行选择。除非受其上下文明确地限制，否则使用术语“获得”来指示其普通意义中的任一者，例如推算、导出、接收(例如，从外部装置)和/或检索(例如，从存储元件阵列)。除非受其上下文明确地限制，否则使用术语“选择”来指示其普通意义中的任一者，例如识别、指示、应用和/或使用一组两者或两者以上中的至少一者和少于全部。在术语“包括”用于本描述及权利要求书中的情况下，其不排除其它元件或操作。使用术语“基于”(如在“A是基于B”中)来指示其普通意义中的任一者，包含以下情况(i)“从中导出”(例如，“B是A的前驱体”)，(ii)“至少基于”(例如，“A至少基于B”)以及，在特定上下文中在适当的情况下，(iii)“等于”(例如,“A等于B”)。类似地，使用术语“响应于”来指示其普通意义中的任一者，包含“至少响应于”。

除非另有指示，否则使用术语“系列”来指示两个或两个以上术语的序列。使用术语“对数”来指示底数为10的对数，但此运算扩展到其它底数也在本发明的范围内。使用术语“频率分量”来指示信号的一组频率或频带中的一者，例如信号(例如，如由快速傅立叶变换产生)或信号的子频带(例如，巴克刻度或梅尔刻度子频带)的频域表示的样本。

除非另有指示，否则对具有特定特征的设备的操作的任何揭示内容还明确地希望揭示具有类似特征的方法(且反之亦然)，且对根据特定配置的设备的操作的任何揭示内容还明确地希望揭示根据类似配置的方法(且反之亦然)。可参考如由其特定上下文指示的方法、设备和/或系统来使用术语“配置”。一般地且互换地使用术语“方法”、“过程”、“程序”和“技术”，除非特定上下文另有指示。一般地且互换地使用术语“设备”和“装置”，除非特定上下文另有指示。通常使用术语“元件”和“模块”来指示更大配置的一部分。除非受其上下文明确地限制，否则在本文中使用术语“系统”来指示其普通意义中的任一者，包含“进行交互以用于共同目的的一组元件”。通过文献的一部分的参考进行的任何并入也应理解为并入在所述部分内参考的术语或变量的定义，其中此些定义出现在文档中的其它地方，以及所并入的部分中所参考的任何图中。

本文中所描述的系统、方法和设备一般适用于频域中的音频信号的译码表示。此表示的典型实例是变换域中的一连串变换系数。合适的变换的实例包含离散正交变换，例如正弦单位变换。合适的正弦单位变换的实例包含离散三角变换，其包含(非限制)离散余弦变换(DCT)、离散正弦变换(DST)和离散傅立叶变换(DFT)。合适的变换的其它实例包含此些变换的互搭版本。合适的变换的特定实例是上文引入的修正型DCT(MDCT)。

在整个本发明中参考音频频率范围的“低频带”和“高频带”(等效地，“上频带”)，且参考0到4千赫兹(kHz)的低频带以及3.5kHz到7kHz的高频带的特定实例。应明确注意，本文中所论述的原理绝不限于此特定实例，除非清楚规定此限制。明确预期且在此揭示编码、解码、分配、量化和/或其它处理的这些原理应用到的频率范围的其它实例(再次非限制)包含具有处于0Hz、25Hz、50Hz、100Hz、150Hz和200Hz中的任一者处的下限以及处于3000Hz、3500Hz、4000Hz和4500Hz中的任一者处的上限的低频带，以及具有处于3000Hz、3500Hz、4000Hz、4500Hz和5000Hz中的任一者处的下限以及处于6000Hz、6500Hz、7000Hz、7500Hz、8000Hz、8500Hz和9000Hz中的任一者处的上限的高频带。还明确预期且在此揭示将此些原理应用于(再次非限制)具有处于3000Hz、3500Hz、4000Hz、4500Hz、5000Hz、5500Hz、6000Hz、6500Hz、7000Hz、7500Hz、8000Hz、8500Hz和9000Hz中的任一者处的下限以及处于10kHz、10.5kHz、11kHz、11.5kHz、12kHz、12.5kHz、13kHz、13.5kHz、14kHz、14.5kHz、15kHz、15.5kHz和16kHz中的任一者处的上限的低频带。还应明确注意，虽然在译码过程的早期阶段将通常将高频带信号转换为较低的取样速率(例如，经由再取样和/或抽取)，但高频带信号及其携载的信息仍继续表示高频带音频-频率范围。

可应用本文中所描述的译码方案来对任何音频信号(例如，包含语音)进行译码。或者，可能仅需要针对非语音音频(例如，音乐)使用此译码方案。在此情况下，可与分类方案一起使用所述译码方案来确定音频信号的每一帧的内容的类型且选择合适的译码方案。

可将本文中所描述的译码方案用作主要编解码器或用作多层或多级编解码器中的一层或一级。在一个此类实例中，使用此译码方案来对音频信号的频率内容的一部分(例如，低频带或高频带)进行译码，且使用另一译码方案来对所述信号的频率内容的另一部分进行译码。在另一此类实例中，使用此译码方案来对另一译码层的残差(即，原始信号与经编码信号之间的误差)进行译码。

图1A展示根据一般配置处理音频信号的方法MC100的流程图，其包含任务TC100、TC200和TC300。方法MC100可经配置以将音频信号处理为一连串片段(例如，通过针对每一片段执行任务TC100、TC200和TC300中的每一者的例子)。片段(或“帧”)可为对应于时域片段的变换系数块，其具有通常范围在约5或10毫秒到约40或50毫秒内的长度。时域片段可重叠(例如，其中邻近片段重叠25%或50%)或不重叠。

可能需要在音频译码器中获得高质量和低延迟两者。音频译码器可使用较大的帧大小来获得高质量，但遗憾的是，较大的帧大小通常导致较长的延迟。本文中所描述的音频编码器的潜在优点包含用较短的帧大小进行高质量译码(例如，20毫秒的帧大小，其中10毫秒先行)。在一个特定实例中，将时域信号划分为一连串20毫秒的非重叠的片段，且在与邻近帧中的每一者重叠10毫秒的40毫秒窗上针对每一帧采取MDCT。

由方法MC100处理的片段还可为如由变换产生的块的一部分(例如，低频带或高频带)，或如由此块上的先前操作产生的块的一部分。在一个特定实例中，由方法MC100处理的一连串片段(或“帧”)中的每一者含有表示0kHz到4kHz的低频带频率范围的一组160个MDCT系数。在另一特定实例中，由方法MC100处理的帧中的每一者含有表示3.5kHz到7kHz的高频带频率范围的一组140个MDCT系数。

任务TC100经配置以在频域中定位音频信号的参考帧中的多个K个能量集中。将“能量集中”定义为一样本(即，峰)，或两个或两个以上连续样本的串(例如，子频带)，其相对于帧的每样本平均能量具有较高的每样本平均能量。参考帧是音频信号的已被量化和解量化的帧。举例来说，参考帧可已被方法MC100的早先例子量化，但方法MC100是一般适用的，而不管曾用于对参考帧进行编码和解码的译码方案是如何。

对于其中实施任务TC100以将若干能量集中选择为子频带的情况，可能需要使每一子频带居中于子频带内的最大样本处。任务TC100的实施方案TC110将若干能量集中作为多个K个峰定位在频域中的经解码参考帧中，其中将峰定义为频域信号的作为局部最大值的样本(还被称为“频段”)。还可将此操作称作“峰拾取”。

可能需要配置任务TC100以加强邻近的能量集中之间的最小距离。举例来说，任务TC110可经配置以将一峰识别为一样本，所述峰在到所述样本的任一侧的某一最小距离内具有最大值。在此情况下，任务TC110可经配置以将一峰识别为在于所述样本处居中的大小为(2d_min+l)的窗内具有最大值的样本，其中d_min是峰之间的最小所允许间隔。

d_min的值可根据将要定位在目标帧中的最大所需数目的子频带来进行选择，其中此最大值可与经编码目标帧的所需位速率相关。可能需要对将要定位的峰的数目设定最大限制(例如，对于140或160个样本的帧大小，每帧18个峰)。d_min的实例包含4个、5个、6个、7个、8个、9个、10个、12个和15个样本(或者，100Hz、125Hz、150Hz、175Hz、200Hz或250Hz)，但可使用适合于所需应用的任何值。图2A说明针对其中的值是8的情况，在参考帧的潜在峰位置处居中的大小为(2d_min+1)的峰选择窗的实例。

任务TC100可可经配置以对所定位的能量集中强加最小能量约束。在一个此类实例中，任务TC110经配置以仅在一样本具有大于(或者，不小于)参考帧的能量的指定比例(例如，2%、3%、4%或5%)的能量的情况下才将所述样本识别为峰。在另一此类实例中，任务TC110经配置以仅在一样本具有大于(或者，不小于)参考帧的平均样本能量(例如，400%、450%、500%、550%或600%)的能量的情况下才将所述样本识别为峰。可能需要配置任务TC100(例如，任务TC110)以将多个能量集中产生为以递减的能量的次序(或者，以递增或递减的频率的次序)排序的位置列表。

针对由任务TC100定位的多个能量集中中的至少一些能量集中中的每一者，且基于能量集中的频域位置，任务TC200选择目标帧中的位置以用于目标帧的一组子频带中的对应一者。目标帧在音频信号中在由参考帧编码的帧之后，且通常目标帧在时域中邻近于由参考帧编码的帧。对于其中实施任务TC100来将若干能量集中选择为子频带的情况，可能需要将每一集中的频域位置定义为所述集中的中心样本的位置。图2B展示任务TC200的操作的实例，其中圆圈指示如由任务TC100确定的参考帧中的能量集中的位置，且括号指示目标帧中的对应子频带的跨度。

可能需要实施方法MC100来适应音频信号的能量频谱在时间上的改变。举例来说，可能需要配置任务TC200来允许目标帧中的子频带的选定位置(例如，子频带的中心样本的位置)略微不同于参考帧中的对应能量集中的位置。在此情况下，可能需要实施任务TC200来允许子频带中的一者或一者以上中的每一者的选定位置与由对应的能量集中指示的位置在任一方向上偏离小数目的频段(还被称为移位或“抖动”)。此移位或抖动的值可经选择(例如)以使得所得的子频带俘获区中的更多能量。

子频带所允许的抖动的量的实例包含子频带宽度的25%、30%、40%和50%。在频率轴的每一方向上所允许的抖动的量不需要相等。在一特定实例中，每一子频带具有7个频段的宽度且允许将其处置位置沿着频率轴(例如，如由参考帧的对应能量集中的位置所指示)移位高4个频率频段或移位低3个频率频段。在此实例中，可以3个位来表达子频带的选定的抖动值。

可将子频带的移位值确定为将子频带放置成俘获最多能量的值。或者，可将子频带的移位值确定为使最大样本值在子频带内居中的值。峰居中准则倾向于在子频带的形状中产生较小的变化，其可导致本文中所描述的向量量化方案进行更高效的译码。最大能量准则可通过(例如)产生非居中的形状而增加形状之间的熵。在任一情况下，可能需要配置任务TC200来强加约束以防止子频带与其位置已被选择用于目标帧的任何子频带重叠。

图3展示经MDCT编码的信号的参考帧和目标帧(分别为顶部曲线图和底部曲线图)的实例，其中垂直轴指示绝对样本值(即，样本量值)且水平轴指示频率频段值。顶部曲线图中的目标指示如由任务TC100确定的参考帧中的能量集中的位置。如上文所述，任务TC200可能需要将参考帧中的多个能量集中的位置作为以递减的能量的次序(或者，以递增或递减的频率的次序)排序的列表来接收。可能需要此列表的长度至少与将要针对目标帧进行编码的子频带的最大容许数目一样长(例如，对于140或160个样本的帧大小，每帧8个、10个、12个、14个、16个或18个峰)。

图3还展示目标帧上的任务TC200的实施方案TC202的操作的实例。基于由任务TC100定位的K个能量集中中的至少一些能量集中的频域位置，任务TC202定位目标帧中的对应峰。图3中的虚线指示目标帧中的对应于参考帧中的位置k的频域位置。

可实施任务TC202以通过搜索目标帧的窗来定位目标帧中的每一峰，所述窗在参考帧中的对应峰的位置处居中且具有由每一方向上的抖动的容许范围确定的宽度。举例来说，可实施任务T202来根据在每一方向上与参考帧中的对应峰的位置的容许偏离Δ频段来定位目标帧中的对应峰。Δ的实例值包含2、3、4、5、6、7、8、9和10(例如，对于140或160个频段的帧带宽)。在此峰选择窗内，如图3中所示，任务TC202可经配置以将峰定位为目标帧的在窗内具有最大能量(例如，最大量值)的样本。

任务TC300对由任务TC200选择的子频带位置所指示的目标帧的一组子频带进行编码。如图3中所示，任务TC300可经配置以将每一子频带选择为在对应位置处居中的宽度为(2d+1)个频段的样本的串。d的实例值(其可大于、小于或等于Δ)包含2、3、4、5、6和7(例如，对于140或160个频段的帧宽度)。

可实施任务TC300以对固定和相等长度的子频带进行编码。在一特定实例中，每一子频带具有7个频率频段的宽度(例如，175Hz，对于25Hz的频段间隔来说)。然而，明确预期且在此揭示本文中所描述的原理还可应用于以下情况：其中子频带的长度可在一个目标帧到另一目标帧之间变化，和/或其中目标帧内的一组子频带中的两者或两者以上(可能是全部)的长度可不同。

任务TC300与目标帧中的其它样本(即，其在频率轴上的位置在第一子频带之前、在邻近子频带之间或在最后一个子频带之后的样本)分开地对一组子频带进行编码，以产生经编码目标帧。经编码目标帧指示一组子频带的内容且还指示用于每一子频带的抖动值。

可能需要实施任务TC300以使用向量量化(VQ)译码方案来将子频带的内容(即，子频带中的每一者内的值)编码为向量。VQ方案通过使向量与一个或一个以上码簿(其对于解码器也已知)中的每一者中的条目匹配且使用这些条目的索引来表示所述向量而对所述向量进行编码。码簿索引的长度(其确定码簿中的条目的最大数目)可为对于应用视为合适的任何任意整数。

合适的VQ方案的一个实例是增益-形状VQ(GSVQ)，其中每一子频带的内容被分解为规格化的形状向量(其描述(例如)沿着频率轴的子频带的形状)和对应的增益因子，使得形状向量和增益因子被分开量化。经分配以对形状向量进行编码的位的数目可在各个子频带的形状向量中均匀分布。或者，可能需要分配更多的可用位来对比其它形状向量俘获更多能量的形状向量(例如，其对应的增益因子与其它子频带的形状向量的增益因子相比具有相对高的值的形状向量)进行编码(例如，以基于对应的增益因子来分配用于形状译码的位)。

可能需要实施任务TC300以使用包含预测性增益译码的GSVQ方案，使得每一组子频带的增益因子被彼此独立地且相对于先前帧的对应的增益因子不同地编码。另外或替代地，可能需要实施任务TC300来使用变换码对GSVQ方案的子频带增益因子进行编码。实施方法MC100的特定实例以使用此GSVQ方案对目标帧的LB-MDCT频谱的频率范围中的显著能量的区进行编码。

或者，可实施任务TC300以使用另一译码方案(例如，脉冲译码方案)来对一组子频带进行编码。脉冲译码方案通过使一向量与单位脉冲的模式匹配且使用识别所述模式的索引来表示所述向量而对所述向量进行编码。此方案可经配置以(例如)对一系列子频带中的单元脉冲的数目、位置和正负号进行编码。脉冲译码方案的实例包含阶乘脉冲译码(FPC)方案和组合脉冲译码(CPC)方案。在其他替代方案中，实施任务TC300以使用VQ译码方案(例如，GSVQ)来对一组子频带的指定子组进行编码，且使用脉冲译码方案(例如，FPC或CPC)来对所述组的一系列剩余子频带进行编码。

经编码目标帧还包含由任务TC200针对所述组子频带中的每一者所计算的抖动值。在一个实例中，所述组子频带中的每一者的抖动值被存储到抖动向量的对应元素，其可经VQ编码，随后由任务TC300包装成经编码目标帧。可能需要对抖动向量的元素进行排序。举例来说，可根据参考帧的对应能量集中(例如，峰)的能量(例如，以递减次序)，或根据对应的能量集中的位置的频率(例如，以递增或递减次序)，或根据与对应的子频带向量相关联的增益因子(例如，以递减次序)，来对抖动向量的元素进行排序。抖动向量可能需要具有固定长度，在此情况下，当将要针对目标帧编码的子频带的数目小于子频带的最大所允许数目时，可用零来填补向量。或者，抖动向量可具有根据由任务TC200针对目标帧所选择的子频带位置的数目而变化的长度。

图1B展示包含任务TC50的方法MC100的实施方案MC110的流程图。任务TC50对经编码帧(例如，紧接在信号中的正被编码的目标帧前面的帧的经编码版本)进行解码以获得参考帧。任务TC50通常包含至少一个解量化操作。如本文中所述，方法MC100是一般适用的，而不管曾用于产生由任务TC50解码的帧的译码方案是如何。可由任务TC50执行的解码操作的实例包含向量解量化和相反的脉冲译码。应注意，可实施任务TC50来对不同的帧执行不同的相应解码操作。

图4A展示对经编码目标帧(例如，如由方法MC100产生)进行解码的方法MD100的流程图，其包含任务TC100的例子以及任务TD200和TD300。方法MD100中的任务TC100的例子执行与如本文中所描述的对应方法MC100中的任务TC100的例子相同的操作。假设在解码器处正确地接收经编码参考帧，使得任务TC100的两个例子对同一输入操作。

基于来自经编码目标帧的信息，任务TD200获得多个子频带中的每一者的内容和抖动值。举例来说，可实施TD200来对经编码目标帧内的一组子频带和对应的抖动向量执行与本文中所描述的一个或一个以上量化操作相反的操作。

任务TD300根据对应抖动值和参考帧中的能量集中(例如，峰)的多个位置中的对应一者来放置每一子频带的经解码内容，以获得经解码目标帧。举例来说，可实施任务TD300以通过使每一子频带k的经解码内容在频域位置p_k+j_k处居中而构建经解码目标帧，其中p_k是参考帧中的对应峰的位置且j_k是对应的抖动值。可实施任务TD300以将零值指派给经解码目标帧的未被占用的频段。或者，可实施任务TD300以对单独地编码于经编码目标帧内的如本文中所描述的残差信号进行解码，且将经解码残差的值指派给经解码信号的未被占用的频段。图4B展示方法MD100的实施方案MD110的流程图，其包含解码任务TC50的例子，所述解码任务TC50的例子执行与如本文中所描述的对应方法MC110中的任务TC50的例子相同的操作。

在一些应用中，经编码参考帧仅包含经编码的一组子频带便可足够，使得编码器丢弃处于这些子频带中的任一者之外的信号能量。在其它情况下，可能需要经编码目标帧还包含未被经编码的一组子频带俘获的信号信息的单独编码。

在一种方法中，在编码器处通过从目标帧的原始频谱减去经重构的一组子频带来计算未被译码的信息的表示(还称为残差信号)。以此方式计算的残差将通常具有与目标帧相同的长度。

替代性方法将是将残差信号计算为目标帧的未包含于一组子频带中的一系列区(即，其在频率轴上的位置在第一子频带之前、在邻近的子频带之间，或在最后一个子频带之后的频段)。以此方式计算出的残差具有一长度，所述长度小于目标帧的长度且可在帧之间变化(例如，取决于经编码目标帧中的子频带的数目)。图5展示对对应于目标帧的3.5kHz到7kHz的MDCT系数进行编码的实例，其中子频带和此残差的介入区被标记。如本文中所描述，可能需要使用脉冲译码方案(例如，阶乘脉冲译码)来对此残差进行编码。

图2C展示使用级联的残差以递增的频率的次序来填充子频带的任一侧上的未被占用的频段的实例。在此实例中，残差的经排序的元素12到19经任意选择以演示以频率上升的次序将未被占用的频段填充到子频带的一侧且随后继续以频率的次序填充子频带的另一侧。

可能需要使用脉冲译码方案(例如，FPC或CPC方案)来对残差信号进行译码。此方案可经配置以(例如)对残差信号中的单元脉冲的数目、位置和正负号进行编码。图6展示此方法的一实例，其中残差信号的一部分被编码为若干单元脉冲。在此实例中，其每一维度处的值是由实线指示的三十维向量是由脉冲模式(0,0,-1,-1,+1,+2,-1,0,0,+1,-1,-1,+1,-1,+1,-1,-1,+2,-1,0,0,0,0,-1,+1,+1,0,0,0,0)表示，如由点(在脉冲位置处)和正方形(在零值位置处)指示。如图6中所示的脉冲模式(例如)可通常由其长度远小于30位的码簿索引表示。

图7A展示根据一般配置的音频信号处理MF100的设备的方框图。设备MF100包含用于在频域中定位参考帧中的多个能量集中的装置FC100(例如，如本文参考任务TC100所描述)。设备MF100还包含用于针对所述多个能量集中中的每一者且基于所述集中的位置来选择目标帧中的位置以用于目标帧的一组子频带中的对应一者的装置FC200，其中所述目标帧在音频信号中在由所述参考帧描述的帧之后(例如，如本文参考任务TC200所描述)。设备MF100还包含用于与目标帧的未处于一组选定的子频带中的任一者中的样本分开地对所述组子频带进行编码的装置FC300(例如，如本文参考任务TC300所描述)。图7B展示还包含用于对经编码帧进行解码以获得参考帧的装置FC50(例如，如本文参考任务TC50所描述)的设备MF100的实施方案MF110的方框图。

图8A展示根据另一一般配置的音频信号处理A100的设备的方框图。设备A100包含经配置以在频域中定位参考帧中的多个能量集中的定位器100(例如，如本文参考任务TC100所描述)。可将定位器100实施为(例如)峰拾取器(例如，如本文参考任务TC110所描述)。设备A100还包含经配置以针对所述多个能量集中中的每一者且基于所述集中的位置来选择目标帧中的位置以用于目标帧的一组子频带中的对应一者的选择器200，其中所述目标帧在音频信号中在由所述参考帧描述的帧之后(例如，如本文参考任务TC200所描述)。设备A100还包含经配置以与目标帧的未处于一组选定的子频带中的任一者中的样本分开地对所述组子频带进行编码的子频带编码器300(例如，如本文参考任务TC300所描述)。

图8B展示包含子频带量化器310和抖动量化器320的子频带编码器300的实施方案302的方框图。子频带量化器310可经配置以使用如本文中所描述的GSVQ或其它VQ方案将子频带编码为一个或一个以上向量。抖动量化器320还可经配置以如本文中所描述将抖动值量化为向量。

图8C展示包含参考帧解码器50的设备A100的实施方案A110的方框图。解码器50经配置以对经编码帧进行解码以获得参考帧(例如，如本文参考任务TC50所描述)。可实施解码器50以包含经配置以存储待解码的经编码帧的帧存储装置，和/或经配置以存储经解码参考帧的帧存储装置。如上文所述，方法MC00是一般适用的，而不管曾用于对参考帧进行编码的特定方法是如何，且可实施解码器50来执行可在特定应用中使用的任何一个或一个以上编码操作的相反操作。

图8D展示包含位打包器360的设备A110的实施方案A120的方框图。位打包器360经配置以将由编码器300产生的经编码分量EC10(即，经编码的子频带和对应的经编码的抖动值)打包以产生经编码帧。

图8E展示包含经配置以如本文中所描述对目标帧的残差进行编码的残差编码器500的设备A120的实施方案A130的方框图。在此实例中，残差编码器500经布置以通过将目标帧的未包含于一组子频带(例如，如由选择器200产生的子频带位置所指示)中的区级联而获得残差。可实施残差编码器500以使用如本文中所描述的脉冲译码方案(例如，FPC)来对残差进行编码。在设备A130中，位打包器360经布置以将由残差编码器500产生的经编码的残差打包到经编码帧中，所述经编码帧还包含由子频带编码器300产生的经编码分量EC10。

图9A展示包含解码器400、组合器AD10(例如，加法器)和残差编码器550的设备A110的实施方案A140的方框图。解码器400经配置以对由子频带编码器300产生的经编码分量进行解码(例如，如本文参考方法MD100所描述)。在此实例中，实施解码器400以从定位器100接收能量集中(例如，峰)的位置，而非对同一参考帧重复相同操作，且执行如本文中所描述的任务MD200和MD300。

组合器AD10经配置以从目标帧的原始频谱减去经重构的一组子频带，且残差编码器550经布置以对所得的残差进行编码。可实施残差编码器550以使用如本文中所描述的脉冲译码方案(例如，FPC)来对残差进行编码。图9B展示设备A120的对应实施方案A150的方框图，其中位打包器360经布置以将由残差编码器550产生的经编码的残差打包到经编码帧中，所述经编码帧还包含由编码器300产生的经编码分量EC10。

图10A展示根据一般配置的音频信号处理MFD100的设备的方框图。设备MFD100包含用于在频域中定位参考帧中的多个能量集中的装置FC100的例子，如本文中所描述。设备MFD100还包含用于基于来自经编码目标帧的信息而获得多个子频带中的每一者的内容和抖动值的装置FD200(例如，如本文参考任务TD200所描述)。设备MFD100还包含用于根据对应抖动值和多个频域位置中的对应一者来放置多个子频带中的每一者的经解码内容以获得经解码目标帧的装置FD300(例如，如本文参考任务TD300所描述)。图10B展示还包含用于对经编码帧进行解码以获得参考帧的装置FC50的例子(如本文中所描述)的设备MFD100的实施方案MFD110的方框图。

图10C展示根据另一一般配置的音频信号处理A100D的设备的方框图。设备A100D包含经配置以在频域中定位参考帧中的多个能量集中的定位器100的例子，如本文中所描述。设备A100D还包含经配置以对来自经编码目标帧(例如，经编码分量EC10)的信息进行解码以获得多个子频带中的每一者的经解码内容和抖动值的解量化器20D(例如，如本文参考任务TD200所描述)。(在一个实例中，解量化器20D包含子频带解量化器和抖动解量化器)。设备A100D还包含经配置以根据对应抖动值和多个频域位置中的对应一者来放置多个子频带中的每一者的经解码内容以获得经解码目标帧的帧组装器30D(例如，如本文参考任务TD300所描述)。

图11A展示还包含经配置以对经编码帧进行解码以获得参考帧(如本文中所描述)的参考帧解码器50的例子的设备A100D的实施方案A110D的方框图。图11B展示包含经配置以对经编码帧进行拆包以产生经编码分量EC10和经编码的残差的位拆包器36D的设备A110D的实施方案A120D的方框图。设备A120D还包含经配置以对经编码的残差进行解量化的残差解量化器50D，以及经配置以连同子频带的经解码内容一起放置经解码残差以获得经解码帧的帧解量化器32D的实施方案32D。对于其中通过从目标帧减去经解码子频带来计算残差的情况，可实施组装器32D以将经解码残差添加到经解码的和经放置的子频带。对于其中残差是未包含于子频带中的一系列样本的情况，可实施组装器32D以使用经解码残差来填充未被经解码子频带占用的帧的频段(例如，以递增的频率的次序)。

图11C展示根据一般配置的设备A200的方框图，设备A200经配置以接收音频信号的帧(例如，LPC残差)以作为变换域中的样本(例如，作为变换系数，例如MDCT系数或FFT系数)。设备A200包含独立模式编码器IM10，独立模式编码器IM10经配置以根据独立译码模式对变换域信号的帧SM10进行编码以产生经独立模式编码的帧SI10。举例来说，可实施编码器IM10以通过根据预定的分割方案(即，在接收帧之前解码器已知的固定分割方案)将变换系数分组到一组子频带中且使用向量量化(VQ)方案(例如，GSVQ方案)对每一子频带进行编码，而对所述帧进行编码。在另一实例中，实施编码器IM10以使用脉冲译码方案(例如，阶乘脉冲译码或组合脉冲译码)对变换系数的整个帧进行编码。

设备A200还包含设备A100的例子，所述设备A100的例子经配置以通过执行如本文中所描述的基于来自参考帧的信息的动态子频带选择方案来对目标帧SM10进行编码，以产生经相依模式编码的帧SD10。在一个实例中，设备A200包含设备A100的实施方案，所述实施方案使用VQ方案(例如，GSVQ)对一组子频带进行编码，且使用脉冲译码方法对残差进行编码且包含存储元件(例如，存储器)，所述存储元件经配置以存储先前经编码帧SE10的经解码版本(例如，如由译码模式选择器SEL10解码)。

设备A200还包含译码模式选择器SEL10，译码模式选择器SEL10经配置以根据评估度量在经独立模式编码的帧SI10与经相依模式编码的帧SD10之间选择一者，且输出选定的帧以作为经编码帧SE10。经编码帧SE10可包含选定的译码模式的指示，或此指示可与经编码帧SE10分开传输。

选择器SEL10可经配置以通过对经编码帧进行解码且将经解码帧与原始目标帧进行比较来在经编码帧之间进行选择。在一个实例中，选择器SEL10经实施以选择相对于原始目标帧具有最低残差能量的帧。在另一实例中，选择器SEL10经实施以根据感知度量(例如，信噪比(SNR)量度或其它失真量度)来选择帧。

可能需要配置设备A100(例如，设备A130、A140或A150)以对残差编码器500或550的上游和/或下游的残差信号执行掩蔽和/或LPC加权操作。在一个此类实例中，使用对应于正被编码的LPC残差的LPC系数来调制残差编码器的上游的残差信号。此操作还被称为“预加权”，且MDCT域中的此调制操作类似于时域中的LPC合成操作。在残差被解码之后，将调制反转(还称为“后加权”)。预加权和后加权操作一起充当掩码。在此情况下，译码模式选择器SEL10可经配置以使用经加权的SNR量度在帧SI10与SD10之间进行选择，使得SNR操作被用于上文所描述的预加权操作中的相同LPC合成滤波器加权。

译码模式选择(例如，如本文参考设备A200所描述)可扩展到多频带情况。在一个此类实例中，使用独立译码模式(例如，固定分割GSVQ模式和/或脉冲译码模式)和相依译码模式(例如，方法MC100的实施方案)两者对低频带和高频带中的每一者进行编码，使得起初针对帧考虑四个不同的模式组合。接下来，针对低频带模式中的每一者，选择最佳的对应高频带模式(例如，根据使用高频带上的感知度量在两个选项之间的比较)。对于两个剩余选项(即，具有对应的最佳高频带模式的低频带独立模式，和具有对应的最佳高频带模式的低频带相依模式)，使这些选项之间的选择参考涵盖低频带和高频带两者的感知度量。在此多频带情况的一个实例中，低频带独立模式根据预定的(即，固定的)分割方案将帧的若干样本分组为若干子频带，且使用GSVQ方案对所述子频带进行编码(例如，如本文参考编码器IM10所描述)，且高频带独立模式使用脉冲译码方案(例如，阶乘脉冲译码)对高频带信号进行编码。

可能需要配置音频编解码器以对相同信号的不同频带进行单独译码。举例来说，可能需要配置此编解码器以产生对音频信号的低频带部分进行编码的第一经编码信号和对相同音频信号的高频带部分进行编码的第二经编码信号。其中此分裂频带译码可为合意的应用包含必须保持与窄频带解码系统相容的宽频带编码系统。此些应用还包含统一的音频译码方案，其通过支持针对不同的频带使用不同的译码方案来实现对一定范围的不同类型的音频输入信号(例如，语音和音乐两者)的高效译码。

对于其中对信号的不同频带进行单独编码的情况，在一些情况下可能需要通过使用来自一个频带的经编码的(例如，经量化的)信息来增加另一频带中的译码效率，因为此经编码的信息将已经在解码器处是已知的。举例来说，可应用放宽谐波模型以使用来自音频信号帧的第一频带(还称为“源”频带)的变换系数的经解码表示的信息来对相同音频信号帧的第二频带(还称为“待建模的”频带)的变换系数进行编码。对于其中谐波模型是相关的此情况，译码效率可得以增加，因为第一频带的经解码表示在解码器处已经可得。

此扩展方法可包含确定与经译码的第一频带谐相关的第二频带的子频带。在用于音频信号(例如，复合音乐信号)的低位速率译码算法中，可能需要将所述信号的帧分裂为多个频带(例如，低频带和高频带)，且利用这些频带之间的相关性对所述频带的变换域表示进行高效译码。

在此扩展部分的特定实例中，基于帧的经量化的低频带MDCT频谱(0kHz到4kHz)对对应于音频信号帧的3.5kHz到7kHz频带的MDCT系数(此后称作上频带MDCT或UB-MDCT)进行编码，其中曾使用如本文中所描述的方法MC100的实施方案对经量化的低频带MDCT频谱进行编码。应清楚地注意到，在此扩展部分的其它实例中，所述两个频率范围不需要重叠且可能甚至分离(例如，基于来自如使用本文中所描述的方法MC100的实施方案编码的0kHz到4kHz的经解码表示的信息对帧的7kHz到14kHz频带进行译码)。由于将经相依模式译码的低频带MDCT用作用于对UB-MDCT进行译码的参考，所以可在解码器处导出高频带译码模型的许多参数，而不明确需要其传输。可在本申请案主张其优先权的上文列举的申请案中找到谐波建模的其它描述。

图12展示根据一般配置进行音频信号处理的方法MB110的流程图，其包含任务TB100、TB200、TB300、TB400、TB500、TB600和TB700。任务TB100定位源音频信号(例如，曾使用本文中所描述的方法MC100的实施方案编码的音频频率信号的第一频率范围的经解量化的表示)中的多个峰。还可将此操作称作“峰拾取”。任务TB100可经配置以从信号的整个频率范围选择特定数目个最高峰。或者，任务TB100可经配置以从信号的指定频率范围(例如，低频范围)选择若干峰，或可经配置以在信号的不同频率范围中应用不同的选择准则。在本文中所描述的特定实例中，任务TB100经配置以定位帧中的至少第一数目(Nd2+1)个最高峰，所述至少第一数目(Nd2+1)个最高峰包含帧的低频范围中的至少第二数目Nf2个最高峰。

任务TB100可经配置以将一峰识别为频域信号的一样本(还称为“频段”)，所述峰在到所述样本的任一侧的某一最小距离内具有最大值。在一个此实例中，任务TB100经配置以将一峰识别为在于所述样本处居中的大小为(2d_min2+1)的窗内具有最大值的样本，其中d_min2是峰之间的最小所允许间隔。可根据待定位的显著能量的区(还称为“子频带”)的最大所需数目来选择d_min2的值。d_min2的实例包含8个、9个、10个、12个和15个样本(或者，100Hz、125Hz、150Hz、175Hz、200Hz或250Hz)，但可使用适合于所需应用的任何值。

基于由任务TB100定位的峰中的至少一些峰的频域位置，任务TB200计算源音频信号中的多个Nd2个谐波间隔候选者。Nd2的值的实例包含3、4和5。任务TB200可经配置以将这些间隔候选者计算为由任务TB100定位的(Nd2+1)个最大峰中的邻近者之间的距离(例如，依据频率频段的数目)。

基于由任务TB100定位的峰中的至少一些峰的频域位置，任务TB300识别源音频信号中的多个Nf2个F0候选者。Nf2的值的实例包含3、4和5。任务TB300可经配置以将这些候选者识别为源音频信号中的Nf2个最高峰的位置。或者，任务TB300可经配置以将这些候选者识别为源频率范围的低频部分(例如，较低的30%、35%、40%、45%或50%)中的Nf2个最高峰的位置。在一个此实例中，任务TB300从在0Hz到1250Hz的范围中的由任务TB100定位的峰的位置中选择多个Nf2个F0候选者。在另一此实例中，任务TB300从在0Hz到1600Hz的范围中的由任务TB100定位的峰的位置中选择多个Nf2个F0候选者。

对于F0和d候选者的多个有效对中的每一者，任务TB400选择待建模的音频信号的其在频域中的位置是基于(F0,d)对的一组子频带(例如，音频频率信号的第二频率范围的表示)。所述子频带相对于位置F0m、F0m+d、F0m+2d等而放置，其中F0m的位置是通过将F0映射到正建模的音频信号的频率范围中来计算。可根据例如F0m=F0+Ld的表达式来执行此映射，其中L是最小的整数，使得F0m位于正建模的音频信号的频率范围内。在此情况下，解码器可计算L的相同值，而不需要来自编码器的进一步信息，因为待建模的音频信号的频率范围以及F0和d的值已经在解码器处已知。

在一个实例中，任务TB400经配置以选择每一组的子频带，使得第一子频带在对应的F0m位置处居中，其中每一后续子频带的中心与先前子频带的中心分开等于d的对应值的距离。

F0和d的值的所有不同对可被视为有效，使得任务TB400经配置以针对每个可能的(F0,d)对而选择对应的一组子频带。对于其中Nf2和Nd2两者都等于4的情况，举例来说，任务TB400可经配置以考虑16个可能对中的每一者。或者，任务TB400可经配置以强加有效性准则，使得可能的(F0,d)对中的一些可能不符合。在此情况下，举例来说，任务TB400可经配置以忽略将产生多于最大容许数目的子频带的对(例如，F0和d的低值的组合)和/或将产生少于最小所需数目的子频带的对(例如，F0和d的高值的组合)。

对于F0和d候选者的多个有效对中的每一者，任务TB500计算正建模的音频信号的对应组子频带的能量。在一个此实例中，任务TB500将一组子频带的总能量计算为子频带中的频域样本值的平方量值的总和。任务TB500还可经配置以计算每一个别子频带的能量且/或计算若干组子频带中的每一者的每子频带平均能量(例如，在子频带的数目上规格化的总能量)。

虽然图12展示连续地执行任务TB400和TB500，但将理解，还可在已完成任务TB400之前实施任务TB500以开始计算若干组子频带的能量。举例来说，在任务TB400开始选择下一组子频带之前，可实施任务TB500以开始计算(或甚至完成计算)一组子频带的能量。在一个此实例中，任务TB400和TB500经配置以针对F0和d候选者的多个有效对中的每一者而交替。同样，在已完成任务TB200和TB300之前，还可实施任务TB400以开始执行。

基于若干组子频带的所计算的能量，任务TB600从(F0,d)候选对中选择一候选对。在一个实例中，任务TB600选择对应于具有最高总能量的一组子频带的对。在另一实例中，任务TB600选择对应于具有每子频带最高平均能量的一组子频带的候选对。在进一步的实例中，任务TB600经实施以根据对应组的子频带的每子频带平均能量来对多个有效候选对进行排序(例如，以下降次序)，且随后从产生具有每子频带最高平均能量的子频带组的Pv个候选对中选择与俘获最多总能量的子频带组相关联的候选对。可能需要使用Pv的固定值(例如，4、5、6、7、8、9或10)，或者，使用与有效候选对的总数目相关的Pv值(例如，等于或不大于有效候选对的总数目的10%、20%或25%)。

任务TB700产生包含选定的候选对的值的指示的经编码信号。任务TB700可经配置以对F0的选定值进行编码，或对F0的选定值与最小(或最大)位置的偏移进行编码。类似地，任务TB700可经配置以对d的选定值进行编码，或对d的选定值与最小(或最大)距离的偏移进行编码。在一特定实例中，任务TB700使用6个位对选定的F0值进行编码，且使用6个位对选定的d值进行编码。在进一步的实例中，任务TB700可经实施以对F0和/或d的当前值不同地编码(例如，作为相对于参数的先前值的偏移)。

可能需要实施任务TB700以使用VQ译码方案(例如，GSVQ)来将选定组的子频带编码为向量。可能需要使用包含预测性增益译码的GSVQ方案，使得每一组子频带的增益因子被彼此独立地且相对于先前帧的对应的增益因子不同地编码。在一特定实例中，方法MB110经布置以对UB-MDCT频谱的频率范围中的显著能量的区进行编码。

因为源音频信号在解码器处可用，所以还可在解码器处执行任务TB100、TB200和TB300以从相同源音频信号获得相同多个(或“码簿”)Nf2个F0候选者以及相同多个(“码簿”)Nd2个d候选者。每一码簿中的值可例如以递增的值的次序进行排序。因此，编码器将索引传输到这些经排序的多者中的每一者中便足够，而非对选定的(F0,d)对的实际值进行编码。对于其中Nf2和Nd2两者都等于4的特定实例来说，可实施任务TB700以使用二位码簿索引来指示选定的d值且使用另一二位码簿索引来指示选定的F0值。

对由任务TB700产生的经编码的经建模的音频信号进行解码的方法还可包含选择由索引指示的F0和d的值，将选定组的子频带解量化，计算映射值m，且通过将每一子频带p放置于频域位置F0m+pd处(例如，居中)而建构经解码的经建模的音频信号，其中0<=p<P且P是选定组中的子频带的数目。可向经解码的经建模的信号的未被占用的频段指派零值，或者，指派如本文中所描述的经解码残差的值。

图13展示其中正建模的音频信号是表示3.5kHz到7kHz的音频频谱的140个变换系数的UB-MDCT信号的一实例的量值对频率的曲线图。此图展示正建模的音频信号(灰线)，根据(F0,d)候选对选择的一组五个均匀间隔的子频带(由用灰色描绘的方框以及由括号指示)，以及根据(F0,d)对和峰居中准则选择的一组五个抖动的子频带(由用黑色描绘的方框指示)。如此实例中所展示，可从高频带信号计算UB-MDCT频谱，所述高频带信号已被转换为较低的取样速率或另外被移位以用于译码目的，以在频率频段0或1处开始。在此情况下，F0m的每一映射还包含移位以指示经移位的频谱内的适当频率。在一特定实例中，正建模的音频信号的UB-MDCT频谱的第一频率频段对应于源音频信号的LB-MDCT的频段140(例如，表示3.5kHz处的声音内容)，使得可实施任务TB400以根据例如F0m=F0+Ld-140的表达式将每一F0映射到对应的F0m。

对于每一子频带，如果可能，可能需要选择使峰在子频带内居中的抖动值，或如果此类抖动值不可得，则选择使峰部分居中的抖动值，或如果此类抖动值不可得，则选择使由子频带俘获的能量最大化的抖动值。

在一个实例中，任务TB400经配置以选择压缩正建模的信号(例如，UB-MDCT频谱)中的每子频带最大能量的(F0,d)对。能量压缩还可用作在两个或两个以上抖动候选者之间决定哪些居中或部分居中的量度。

可将抖动参数值(例如，每一子频带一个参数值)传输到解码器。如果未将抖动值传输到解码器，则可在谐波模型子频带的频率位置中出现错误。然而，对于表示高频带音频频率范围(例如，3.5kHz到7kHz)的经建模的信号，此错误通常不可感知，使得可能需要根据选定的抖动值对子频带进行编码，但不将那些抖动值发送到解码器，且子频带可在解码器处均匀间隔(例如，仅基于选定的(F0,d)对)。对于音乐信号的非常低的位速率译码(例如，约每秒20千位)，举例来说，可能不需要传输抖动参数值且允许解码器处的子频带的位置中的错误。

在已识别一组选定的子频带之后，可通过从正建模的信号的原始频谱减去经重构的经建模的信号而在编码器处计算残差信号(例如，以作为原始信号频谱与经重构的谐波模型子频带之间的差)。或者，可将残差信号计算为正建模的信号的未被谐波建模俘获的频谱的一系列区(例如，未包含于选定的子频带中的那些频段)。对于其中正建模的音频信号是UB-MDCT频谱且源音频信号是经重构的LB-MDCT频谱的情况，可能需要通过将未俘获的区级联而获得残差，对于其中用于对正建模的音频信号进行编码的抖动值将在解码器处不可得的情况尤其如此。可使用向量量化方案(例如，GSVQ方案)对选定的子频带进行译码，且可使用阶乘脉冲译码方案或组合脉冲译码方案对残差信号进行译码。

如果抖动参数值在解码器处可得，则可在解码器处将残差信号放回到与在编码器处相同的频段中。如果抖动参数值在解码器处不可得(例如，对于音乐信号的低位速率译码)，则可根据基于上文所描述的选定的(F0,d)对的均匀间隔将选定的子频带放置于解码器处。在此情况下，可使用如上文所描述的若干不同方法中的一者将残差信号插入在选定的子频带之间(例如，在将残差中的每一抖动范围添加到无抖动经重构信号之前将所述每一抖动范围归零，使用残差填充未被占用的频段，同时移动将与选定的子频带重叠的残差能量，或对残差进行频率卷绕)。

图14A到E展示针对如本文中所描述的设备A120的各种实施方案(例如，A130、A140、A150、A200)的一定范围的应用。图14A展示包含变换模块MM1(例如，快速傅立叶变换或MDCT模块)和设备A120的例子的音频处理路径的方框图，所述设备A120的例子经布置以接收音频帧SA10以作为变换域中的样本(即，作为变换域系数)且产生对应的经编码帧SE10。

图14B展示其中使用MDCT变换模块实施变换模块MM1的图14A的路径的实施方案的方框图。修正型DCT模块MM10对每一音频帧执行MDCT操作以产生一组MDCT域系数。

图14C展示包含线性预测译码分析模块AM10的图14A的路径的实施方案的方框图。线性预测译码(LPC)分析模块AM10对经分类的帧执行LPC分析操作以产生一组LPC参数(例如，滤波器系数)和LPC残差信号。在一个实例中，LPC分析模块AM10经配置以对具有从0Hz到4000Hz的带宽的帧执行十阶LPC分析。在另一实例中，LPC分析模块AM10经配置以对表示从3500Hz到7000Hz的高频带频率范围的帧执行六阶LPC分析。修正型DCT模块MM10对LPC残差信号执行MDCT操作以产生一组变换域系数。对应的解码路径可经配置以对经编码帧SE10进行解码且对经解码帧执行相反的MDCT变换，从而获得激励信号以用于到LPC合成滤波器的输入。

图14D展示包含信号分类器SC10的处理路径的方框图。信号分类器SC10接收音频信号的帧SA10且将每一帧分类为至少两个类别中的一者。举例来说，信号分类器SC10可经配置以将帧SA10分类为语音或音乐，使得在帧被分类为音乐的情况下，则使用图14D中所示的路径的其余部分来对其进行编码，且在帧被分类为语音的情况下，则使用不同的处理路径来对其进行编码。此分类可包含信号有效性检测、噪声检测、周期性检测、时域稀疏度检测，和/或频域稀疏度检测。

图15A展示可由信号分类器SC10(例如，对音频帧SA10中的每一者)执行的信号分类的方法MZ100的方框图。方法MC100包含任务TZ100、TZ200、TZ300、TZ400、TZ500和TZ600。任务TZ100量化信号中的有效性水平。如果有效性水平低于阈值，则任务TZ200将信号编码为静默(例如，使用低位速率噪声激励的线性预测(NELP)方案和/或不连续传输(DTX)方案)。如果有效性水平充分高(例如，高于阈值)，则任务TZ300量化信号的周期性程度。如果任务TZ300确定信号是非周期性的，则认为TZ400使用NELP方案对信号进行编码。如果任务TZ300确定信号是周期性的，则任务TZ500在时域和/或频域中量化信号的稀疏程度。如果任务TZ500确定信号在时域中是稀疏的，则任务TZ600使用码激励线性预测(CELP)方案(例如，放宽型CELP(RCELP)或代数CELP(ACELP))对信号进行编码。如果任务TZ500确定信号在频域中是稀疏的，则任务TZ700使用谐波模型对信号进行编码(例如，通过将信号传递到图14D中的处理路径的其余部分)。

如图14D中所示，处理路径可包含感知修剪模块PM10，感知修剪模块PM10经配置以通过应用音质准则(例如，时间掩蔽、频率掩蔽和/或听力阈值)来简化MDCT域信号(例如，从而减少待编码的变换域系数的数目)。可实施模块PM10以通过将感知模型应用于原始音频帧SA10来计算此准则的值。在此实例中，设备A120经布置以对经修剪的帧进行编码以产生对应的经编码帧SE10。

图14E展示图14C和14D的路径两者的实施方案的方框图，其中设备A120经布置以对LPC残差进行编码。

图15B展示包含设备A100的实施方案的通信装置D10的方框图。装置D10包含芯片或芯片组CS10(例如，移动台调制解调器(MSM)芯片组)，芯片或芯片组CS10体现设备A100(或MF100)的元件和可能A100D(或MFD100)的元件。芯片/芯片组CS10可包含一个或一个以上处理器，所述一个或一个以上处理器可经配置以执行设备A100或MF100的软件和/或固件部分(例如，作为指令)。

芯片/芯片组CS10包含：接收器，其经配置以接收射频(RF)通信信号且对编码于RF信号内的音频信号进行解码和再现；以及发射器，其经配置以发射描述经编码的音频信号的RF通信信号(例如，如由任务TC300或位打包器360产生)。此装置可经配置以经由一个或一个以上编码和解码方案(还称为“编解码器”)无线地发射和接收话音通信数据。此类编解码器的实例包含：增强型可变速率编解码器，如2007年2月的标题为“用于宽带展频数字系统的增强型可变速率编解码器，语音服务选项3、68和70(EnhancedVariable Rate Codec,Speech Service Options3,68,and70for Wideband Spread SpectrumDigital Systems)”的第三代合作伙伴计划2(3GPP2)文献C.S0014-C,vl.0中所描述(可在www-dot-3gpp-dot-org处在线得到)；可选择模式声码器语音编解码器，如2004年1月的标题为“用于宽带展频通信系统的可选择模式声码器(SMV)服务选项(Selectable ModeVocoder(SMV)Service Option for Wideband Spread Spectrum Communication Systems)”的3GPP2文献C.S0030-0,v3.0中所描述(可在www-dot-3gpp-dot-org处在线得到)；自适应多速率(AMR)语音编解码器，如文献ETSI TS126092V6.0.0(欧洲电信标准协会(ETSI)，法国索菲亚安迪波利斯西德克斯，2004年12月)中所描述；以及AMR宽带语音编解码器，如文献ETSI TS126192V6.0.0(ETSI，2004年12月)中所描述。举例来说，位打包器360可经配置以产生将与一个或一个以上此类编解码器相容的经编码帧。

装置D10经配置以经由天线C30接收和发射RF通信信号。装置D10还可在到天线C30的路径中包含双工器和一个或一个以上功率放大器。芯片/芯片组CS10还经配置以经由小键盘C10接收用户输入且经由显示器C20显示信息。在此实例中，装置D10还包含一个或一个以上天线C40以支持全球定位系统(GPS)位置服务和/或与例如无线(例如，Bluetooth^TM)手持机的外部装置的短程通信。在另一实例中，此通信装置自身是Bluetooth^TM手持机且缺少小键盘C10、显示器C20和天线C30。

通信装置D10可体现于包含智能电话以及膝上型计算机和平板计算机的多种通信装置中。图16展示手持机H100(例如，智能电话)的前视图、后视图和侧视图，手持机H100具有布置在前面上的两个话音麦克风MV10-1和MV10-3、布置在后面上的话音麦克风MV10-2、位于前面的顶部隅角中的误差麦克风ME10，以及位于后面上的噪声干扰麦克风MR10。扩音器LS10布置在前面的顶部中心中，接近误差麦克风ME10，且还提供两个其它扩音器LS20L、LS20R(例如，针对扬声器电话应用)。此类手持机的麦克风之间的最大距离通常为约10或12厘米。

一般可在任何收发和/或音频感测应用中，尤其在此类应用的移动或其它便携例子中应用本文中所揭示的方法和设备。举例来说，本文中所揭示的配置的范围包含驻留于经配置以使用码分多址(CDMA)空中接口的无线电话通信系统中的通信装置。然而，所属领域的技术人员将理解，具有本文中所描述的特征的方法及设备可驻留于使用所属领域的技术人员所已知的广泛范围的技术的各种通信系统中的任一者中，例如经由有线及/或无线(例如，CDMA、TDMA、FDMA及/或TD-SCDMA)发射信道使用IP话音(“VoIP”)的系统。

明确预期且在此揭示本文中所揭示的通信装置可适于在包交换(例如，经布置以根据例如VoIP等协议载运音频传输的有线和/或无线网络)和/或电路交换的网络中使用。还明确预期且在此揭示本文中所揭示的通信装置可适于在窄带译码系统(例如，对约4千赫兹或5千赫兹的音频频率范围进行编码的系统)中使用和/或在宽带译码系统(例如，对大于5千赫兹的音频频率进行编码的系统)中使用，包含全频带宽带译码系统和分裂频带宽带译码系统。

提供所描述的配置的先前呈现以使所属领域的技术人员能够制造或使用本文中所揭示的方法和其它结构。本文中所展示和描述的流程图、方框图和其它结构仅是实例，且这些结构的其它变体也在本发明的范围内。对这些配置的各种修改是可能的，且本文中所呈现的一般原理还可应用于其它配置。因此，本发明不希望限于上文所展示的配置，而是应符合与在本文中(包含在形成原始揭示内容的一部分的所申请的附加权利要求书中)以任何方式揭示的原理及新颖特征一致的最广范围。

所属领域的技术人员将理解，可使用多种不同技术和技艺中的任一者来表示信息和信号。举例来说，可通过电压、电流、电磁波、磁场或磁性粒子、光场或光学粒子或者其任何组合来表示可在整个以上描述中所参考的数据、指令、命令、信息、信号、位及符号。

实施如本文中所揭示的配置的重要设计要求可包含使处理延迟和/或计算复杂性(通常以每秒百万指令或MIPS来测量)最小化，对于计算密集型应用(例如，压缩音频或视听信息(例如，根据压缩格式编码的文件或流，例如本文中所识别的实例中的一者)的回放)或用于宽带通信的应用(例如，在高于8千赫兹(例如，12kHz、16kHz、44.1kHz、48kHz或192kHz)的取样速率下的话音通信)尤其如此。

可在硬件与软件和/或与固件的任何组合(其被视为对于既定应用是合适的)中实施本文中所揭示的设备(例如，设备A100、A110、A120、A130、A140、A150、A200、A100D、A110D、A120D、MF100、MF110、MFD100或MFD110)。举例来说，此类元件可被制造为驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片中的电子及/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如，晶体管或逻辑门)阵列，且这些元件中的任一者可实施为一个或一个以上此类阵列。这些元件中的任何两者或两者以上乃至全部可实施于相同阵列内。所述阵列可实施于一个或一个以上芯片内(例如，包括两个或两个以上芯片的芯片组内)。

本文中所揭示的设备的各种实施方案(例如，设备A100、A110、A120、A130、A140、A150、A200、A100D、A110D、A120D、MF100、MF110、MFD100或MFD110)的一个或一个以上元件可全部或部分实施为一个或一个以上指令集，所述一个或一个以上指令集经布置以在一个或一个以上固定或可编程逻辑元件阵列上执行，例如，微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA(现场可编程门阵列)、ASSP(专用标准产品)和ASIC(专用集成电路)。本文中所揭示的设备的实施方案的各种元件中的任一者还可体现为一个或一个以上计算机(例如，包含经编程以执行一个或一个以上指令集或序列的一个或一个以上阵列的机器，还称为“处理器”)，且这些元件中的任何两者或两者以上乃至全部可实施于同一此类计算机内。

如本文中所揭示的处理器或其它用于处理的装置可被制造成驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片中的一个或一个以上电子及/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如，晶体管或逻辑门)阵列，且这些元件中的任一者可实施为一个或一个以上此类阵列。所述阵列可实施于一个或一个以上芯片内(例如，包括两个或两个以上芯片的芯片组内)。所述阵列的实例包含固定或可编程逻辑元件阵列，例如微处理器、嵌入式处理器、IP核心、DSP、FPGA、ASSP和ASIC。如本文中所揭示的处理器或其它用于处理的装置还可体现为一个或一个以上计算机(例如，包含经编程以执行一个或一个以上指令集或序列的一个或一个以上阵列的机器)或其它处理器。如本文中所描述的处理器可能用来执行任务或执行不与方法MC100、MC110、MD100或MD110的实施程序直接相关的其它指令集，例如与其中嵌入了处理器的装置或系统(例如，音频感测装置)的另一操作相关的任务。还可能由音频感测装置的处理器执行如本文中所揭示的方法的部分，且在一个或一个以上其它处理器的控制下执行所述方法的另一部分。

所属领域的技术人员将了解，结合本文中所揭示的配置而描述的各种说明性模块、逻辑块、电路和测试以及其它操作可实施为电子硬件、计算机软件，或两者的组合。可用通用处理器、数字信号处理器(DSP)、ASIC或ASSP、FPGA或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其经设计以产生如本文中所揭示的配置的任何组合来实施或执行所述模块、逻辑块、电路和操作。举例来说，可将此配置至少部分实施为硬连线电路，实施为制造到专用集成电路中的电路配置，或实施为加载到非易失性存储装置中的固件程序或者作为机器可读代码从数据存储媒体加载或被加载到数据存储媒体中的软件程序，所述代码是可由例如通用处理器或其它数字信号处理单元等逻辑元件阵列执行的指令。通用处理器可为微处理器，但在替代方案中，处理器可为任何常规的处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合，例如，DSP与微处理器的组合、多个微处理器、一个或一个以上微处理器与DSP核心的联合，或任何其它此类配置。软件模块可驻留于非暂时性存储媒体中，例如RAM(随机存取存储器)、ROM(只读存储器)、非易失性RAM(NVRAM)(例如，快闪RAM)，可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、寄存器、硬盘、可装卸磁盘，或CD-ROM；或此项技术中已知的任何其它形式的存储媒体。说明性存储媒体耦合到处理器，使得处理器可从存储媒体读取信息及将信息写入到存储媒体。在替代方案中，存储媒体可与处理器成一体式。处理器及存储媒体可驻留于ASIC中。ASIC可驻留于用户终端中。在替代方案中，处理器及存储媒体可作为离散组件驻留于用户终端中。

应注意，本文中所揭示的各种方法(例如，方法MC100、MC110、MD100、MD110和参考本文中所描述的各种设备的操作而揭示的其它方法)可由例如处理器等逻辑元件阵列执行，且如本文中所描述的设备的各种元件可实施为经设计以在此阵列上执行的模块。如本文中所使用，术语“模块”或“子模块”可指代以软件、硬件或固件的形式包含计算机指令(例如，逻辑表达式)的任何方法、设备、装置、单元或计算机可读数据存储媒体。应理解，多个模块或系统可组合为一个模块或系统，且一个模块或系统可被分离成多个模块或系统以执行相同功能。当以软件或其它计算机可执行指令实施时，过程的要素本质上为用以执行例如与例程、程序、对象、组件、数据结构等有关任务的代码段。术语“软件”应理解为包含源代码、汇编语言代码、机器代码、二进制代码、固件、宏码、微码、可由逻辑元件阵列执行的任何一个或一个以上指令集或序列以及此类实例的任何组合。程序或代码段可存储于处理器可读媒体中或由体现在载波中的计算机数据信号经由传输媒体或通信链路进行传输。

本文中所揭示的方法、方案和技术的实施方案还可有形地体现为(例如，在本文中所列举的一个或一个以上计算机可读存储媒体的有形计算机可读特征中)可由包含逻辑元件阵列(例如，处理器、微处理器、微控制器或其它有限状态机)的机器执行的一个或一个以上指令集。术语“计算机可读媒体”可包含可存储或传递信息的任何媒体，包含易失性、非易失性、可装卸以及非可装卸存储媒体。计算机可读媒体的实例包含电子电路、半导体存储器装置、ROM、快闪存储器、可擦除ROM(EROM)、软盘或其它磁性存储装置、CD-ROM/DVD或其它光学存储装置、硬盘或可用于存储所需信息的任何其它媒体、光纤媒体、射频(RF)链路，或可用于携载所需信息且可被存取的任何其它媒体。计算机数据信号可包含可经由传输媒体(例如电子网络通道、光纤、空气、电磁、RF链路等)传播的任何信号。代码段可经由例如因特网或内联网等计算机网络来下载。在任何情况下，本发明的范围不应被解释为受此些实施例限制。

本文中所描述的方法的任务中的任一者可直接体现于硬件中，由处理器执行的软件模块中，或以上两者的组合中。在如本文中所揭示的方法的实施方案的典型应用中，逻辑元件(例如，逻辑门)阵列经配置以执行所述方法的各个任务中的一者、一者以上或甚至全部。所述任务中的一者或一者以上(可能全部)还可实施为在计算机程序产品(例如，一个或一个以上数据存储媒体，例如磁盘、快闪或其它非易失性存储器卡、半导体存储器芯片等)中体现的代码(例如，一个或一个以上指令集)，所述计算机程序产品可由包含逻辑元件阵列(例如，处理器、微处理器、微控制器或其它有限状态机)的机器(例如，计算机)读取且/或执行。本文中所揭示的方法的实施方案的任务还可由一个以上此类阵列或机器执行。在这些或其它实施方案中，所述任务可在用于无线通信的装置内执行，所述装置例如为蜂窝式电话或具有此通信能力的其它装置。此装置可经配置以与电路交换及/或包交换网络通信(例如，使用一个或一个以上协议(例如VoIP))。举例来说，此装置可包含经配置以接收和/或发射经编码帧的RF电路。

明确揭示，本文中所揭示的各种方法可由例如手持机、耳机或便携式数字助理(PDA)等便携式通信装置执行，且本文中所描述的各种设备可包含于此类装置内。典型的实时(例如，在线)应用是使用此类移动装置进行的电话会话。

在一个或一个以上示范性实施例中，可以硬件、软件、固件或其任何组合来实施本文中所描述的操作。如果以软件实施，则可将此些操作作为一个或一个以上指令或代码而存储在计算机可读媒体上或经由计算机可读媒体进行传输。术语“计算机可读媒体”包含计算机可读存储媒体和通信(例如，传输)媒体两者。举例来说而非限制，计算机可读存储媒体可包括存储元件阵列，例如半导体存储器(其可包含(非限制)动态或静态RAM、ROM、EEPROM和/或快闪RAM)，或铁电、磁阻、双向、聚合或相变存储器；CD-ROM或其它光盘存储装置；和/或磁盘存储装置或其它磁性存储装置。此类存储媒体可以指令或数据结构的形式存储可由计算机存取的信息。通信媒体可包括可用于以指令或数据结构的形式携载所需程序代码且可由计算机存取的任何媒体，包含促进将计算机程序从一处传递到另一处的任何媒体。同样，可恰当地将任何连接称作计算机可读媒体。举例来说，如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电和/或微波的无线技术从网站、服务器或其它远程源传输软件，则同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电和/或微波的无线技术包含于媒体的定义中。如本文中所使用，磁盘及光盘包括压缩光盘(CD)、激光光盘、光盘、数字多功能光盘(DVD)、软盘及Blu-ray Disc^TM(蓝光光盘协会，加利福尼亚州环球城(Universal City,CA))，其中磁盘通常以磁性方式再现数据，而光盘用激光以光学方式再现数据。以上各者的组合也应包含在计算机可读媒体的范围内。

如本文中所描述的声信号处理设备可并入到电子装置中，所述电子装置接收语音输入以便控制某些操作，或可另外受益于所需噪声与背景噪声的分离，所述电子装置例如为通信装置。许多应用可受益于增强清晰的所需声音或分离清晰的所需声音与源自多个方向的背景声音。此些应用可包含电子或计算装置中的人机接口，其并入有例如话音辨识及检测、语音增强及分离、话音激活式控制等能力。可能需要在仅提供有限处理能力的装置中合适地实施此类声信号处理设备。

本文中所描述的模块、元件和装置的各种实施方案的元件可被制造成驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片中的电子和/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如，晶体管或门)的阵列。本文中所描述的设备的各种实施方案的一个或一个以上元件还可全部地或部分地实施为经布置以在一个或一个以上固定或可编程逻辑元件阵列(例如，微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA、ASSP及ASIC)上执行的一个或一个以上指令集。

有可能使如本文中所描述的设备的实施方案的一个或一个以上元件用于执行任务或执行并非与所述设备的操作直接相关的其它指令集，例如与嵌入有所述设备的装置或系统的另一操作相关的任务。还有可能使此设备的实施方案的一个或一个以上元件具有共同结构(例如，用于在不同时间执行对应于不同元件的代码部分的处理器、经执行以在不同时间执行对应于不同元件的任务的指令集，或在不同时间对不同元件执行操作的电子及/或光学装置的布置)。

Claims

1.一种音频信号处理方法，所述方法包括在经配置以处理音频信号的帧的装置中执行以下动作中的每一者：

在频域中定位描述所述音频信号的帧的参考帧中的多个能量集中；

针对所述多个频域能量集中中的每一者且基于所述集中的位置，选择所述音频信号的目标帧内的位置以用于所述目标帧的一组子频带中的对应一者，其中所述目标帧在所述音频信号中在由所述参考帧描述的所述帧之后；以及

与所述目标帧的不在所述组子频带中的任一者中的样本分开地对所述目标帧的所述组子频带进行编码以获得经编码分量，

其中对于所述组子频带中的至少一者中的每一者，所述经编码分量包含在所述频域中在所述子频带的所述选定位置与所述对应集中的所述位置之间的距离的指示。

2.根据权利要求1所述的方法，其中所述参考帧中的所述多个能量集中中的每一者是峰。

3.根据权利要求1和2中任一权利要求所述的方法，其中所述选择所述位置包括在包含所述集中的所述位置的多个候选者中选择一个候选者。

4.根据权利要求1到3中任一权利要求所述的方法，其中所述目标帧的不在所述组子频带中的任一者中的所述样本包含位于所述组子频带的邻近者之间的样本。

5.根据权利要求1到4中任一权利要求所述的方法，其中所述方法包括对经编码信号进行解量化以获得所述参考帧。

6.根据权利要求1到5中任一权利要求所述的方法，其中所述编码包含对所述组子频带中的至少一者执行增益-形状向量量化操作。

7.根据权利要求1到6中任一权利要求所述的方法，其中所述音频信号是基于线性预测译码残差。

8.根据权利要求1到7中任一权利要求所述的方法，其中所述目标帧是多个修正型离散余弦变换系数。

9.根据权利要求1到8中任一权利要求所述的方法，其中对于所述组子频带中的每一者，所述经编码分量包含在所述频域中在所述子频带的所述选定位置与所述对应集中的所述位置之间的距离的指示。

10.根据权利要求1到9中任一权利要求所述的方法，其中对于所述组子频带中的至少一者，所述选择所述子频带的所述位置包含选择对应的抖动值。

11.根据权利要求1到10中任一权利要求所述的方法，其中所述方法包括产生经编码帧，所述经编码帧包含(A)所述经编码分量和(B)所述目标帧的不在所述组子频带中的任一者中的样本的经排序的一连串值的表示。

12.根据权利要求1到10中任一权利要求所述的方法，其中所述方法包括：

对所述经编码分量进行解码以获得一组经解码子频带；

从所述目标帧减去所述组经解码子频带以获得残差；

对所述残差进行编码以获得经编码残差；以及

产生包含(A)所述经编码分量和(B)所述经编码残差的经编码帧。

13.根据权利要求1到12中任一权利要求所述的方法，其中所述方法包括：

通过根据预定分割方案将所述帧的所述样本分组到第二组子频带中而对所述目标帧进行编码以获得第二经编码帧；以及

使用感知度量在所述经编码帧与所述第二经编码帧中选择一者。

14.一种构建经解码音频帧的方法，所述方法包括：

在频域中定位描述音频信号的帧的参考帧中的多个能量集中；

对来自经编码目标帧的信息进行解码以获得多个子频带中的每一者的经解码内容和抖动值；以及

根据所述对应的抖动值和所述多个位置中的对应一者来放置每一子频带的所述经解码内容以获得经解码目标帧。

15.根据权利要求14所述的方法，其中所述方法包括对经编码信号进行解量化以获得所述参考帧。

16.一种用于处理音频信号的帧的设备，所述设备包括：

用于在频域中定位描述所述音频信号的帧的参考帧中的多个能量集中的装置；

用于针对所述多个频域能量集中中的每一者且基于所述集中的位置来选择所述音频信号的目标帧内的位置以用于所述目标帧的一组子频带中的对应一者的装置，其中所述目标帧在所述音频信号中在由所述参考帧描述的所述帧之后；以及

用于与所述目标帧的不在所述组子频带中的任一者中的样本分开地对所述目标帧的所述组子频带进行编码以获得经编码分量的装置，

17.根据权利要求16所述的设备，其中所述参考帧中的所述多个能量集中中的每一者是峰。

18.根据权利要求16和17中任一权利要求所述的设备，其中所述用于选择所述位置的装置包括用于在包含所述集中的所述位置的多个候选者中选择一个候选者的装置。

19.根据权利要求16到18中任一权利要求所述的设备，其中所述目标帧的不在所述组子频带中的任一者中的所述样本包含位于所述组子频带的邻近者之间的样本。

20.根据权利要求16到19中任一权利要求所述的设备，其中所述设备包括用于对经编码信号进行解量化以获得所述参考帧的装置。

21.根据权利要求16到20中任一权利要求所述的设备，其中所述用于编码的装置包含用于对所述组子频带中的至少一者执行增益-形状向量量化操作的装置。

22.根据权利要求16到21中任一权利要求所述的设备，其中所述音频信号是基于线性预测译码残差。

23.根据权利要求16到22中任一权利要求所述的设备，其中所述目标帧是多个修正型离散余弦变换系数。

24.根据权利要求16到23中任一权利要求所述的设备，其中对于所述组子频带中的每一者，所述经编码分量包含在所述频域中在所述子频带的所述选定位置与所述对应集中的所述位置之间的距离的指示。

25.根据权利要求16到24中任一权利要求所述的设备，其中对于所述组子频带中的至少一者，所述选定位置包含对应的抖动值。

26.根据权利要求16到25中任一权利要求所述的设备，其中所述设备包括用于产生经编码帧的装置，所述经编码帧包含(A)所述经编码分量和(B)所述目标帧的不在所述组子频带中的任一者中的样本的经排序的一连串值的表示。

27.根据权利要求16到25中任一权利要求所述的设备，其中所述设备包括：

用于对所述经编码分量进行解码以获得一组经解码子频带的装置；

用于从所述目标帧减去所述组经解码子频带以获得残差的装置；

用于对所述残差进行编码以获得经编码残差的装置；以及

用于产生包含(A)所述经编码分量和(B)所述经编码残差的经编码帧的装置。

28.一种用于处理音频信号的帧的设备，所述设备包括：

定位器，其经配置以在频域中定位描述所述音频信号的帧的参考帧中的多个能量集中；

选择器，其经配置以针对所述多个频域能量集中中的每一者且基于所述集中的位置来选择所述音频信号的目标帧内的位置以用于所述目标帧的一组子频带中的对应一者，其中所述目标帧在所述音频信号中在由所述参考帧描述的所述帧之后；以及

编码器，其经配置以与所述目标帧的不在所述组子频带中的任一者中的样本分开地对所述目标帧的所述组子频带进行编码以获得经编码分量，

29.根据权利要求28所述的设备，其中所述参考帧中的所述多个能量集中中的每一者是峰。

30.根据权利要求28和29中任一权利要求所述的设备，其中所述选择器经配置以针对所述组子频带中的每一者从包含所述集中的所述位置的多个候选者中选择所述位置。

31.根据权利要求28到30中任一权利要求所述的设备，其中所述目标帧的不在所述组子频带中的任一者中的所述样本包含位于所述组子频带的邻近者之间的样本。

32.根据权利要求28到31中任一权利要求所述的设备，其中所述设备包括解码器，所述解码器经配置以对经编码信号进行解量化以获得所述参考帧。

33.根据权利要求28到32中任一权利要求所述的设备，其中所述编码器经配置以对所述组子频带中的至少一者执行增益-形状向量量化操作。

34.根据权利要求28到33中任一权利要求所述的设备，其中所述音频信号是基于线性预测译码残差。

35.根据权利要求28到34中任一权利要求所述的设备，其中所述目标帧是多个修正型离散余弦变换系数。

36.根据权利要求28到35中任一权利要求所述的设备，其中对于所述组子频带中的每一者，所述经编码分量包含在所述频域中在所述子频带的所述选定位置与所述对应集中的所述位置之间的距离的指示。

37.根据权利要求28到36中任一权利要求所述的设备，其中对于所述组子频带中的至少一者，所述选定位置包含对应的抖动值。

38.根据权利要求28到37中任一权利要求所述的设备，其中所述设备包括经配置以产生经编码帧的位打包器，所述经编码帧包含(A)所述经编码分量和(B)所述目标帧的不在所述组子频带中的任一者中的样本的经排序的一连串值的表示。

39.根据权利要求28到38中任一权利要求所述的设备，其中所述设备包括：

解码器，其经配置以对所述经编码分量进行解码以获得一组经解码子频带；

组合器，其经配置以从所述目标帧减去所述组经解码子频带以获得残差；

残差编码器，其经配置以对所述残差进行编码以获得经编码残差；以及

位打包器，其经配置以产生包含(A)所述经编码分量和(B)所述经编码残差的经编码帧。

40.一种具有有形特征的计算机可读存储媒体，所述有形特征致使读取所述特征的机器执行根据权利要求1到15中任一权利要求所述的方法。