CN103038822B

CN103038822B - 用于多级形状向量量化的系统、方法、设备和计算机可读媒体

Info

Publication number: CN103038822B
Application number: CN201180037495.XA
Authority: CN
Inventors: 伊桑·R·杜尼; 文卡特什·克里希南; 维韦克·拉金德朗
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2010-07-30
Filing date: 2011-07-29
Publication date: 2015-05-27
Anticipated expiration: 2031-07-29
Also published as: JP5694531B2; EP3852104A1; EP2599082B1; KR20130069756A; JP2013537647A; EP2599081B1; WO2012016128A3; EP2599081A2; ES2611664T3; CN103038821B; EP2599080A2; JP5587501B2; US8831933B2; JP2013534328A; KR20130036364A; HUE032264T2; BR112013002166B1; US20120029924A1; WO2012016110A3; JP5694532B2

Abstract

一种多级形状向量量化器架构使用来自选定的第一级码簿向量的信息来产生旋转矩阵。使用所述旋转矩阵来旋转输入向量的方向以支持第一级量化误差的形状量化。

Description

用于多级形状向量量化的系统、方法、设备和计算机可读媒体

根据35U.S.C.§119主张优先权

本专利申请案主张2010年7月30日申请的标题为“用于音频信号的有效变换域译码码的系统、方法、设备和计算机可读媒体(SYSTEMS,METHODS,APPARATUS,ANDCOMPUTER-READABLE MEDIA FOR EFFICIENT TRANSFORM-DOMAINCODING OF AUDIO SIGNALS)”的第61/369,662号临时申请案的优先权。本专利申请案主张2010年7月31日申请的标题为“用于动态位分配的系统、方法、设备和计算机可可读媒体(SYSTEMS,METHODS,APPARATUS,AND COMPUTER-READABLEMEDIA FOR DYNAMIC BIT ALLOCATION)”的第61/369,705号临时申请案的优先权。本专利申请案主张2010年7月31日申请的标题为“用于多阶段形状向量量化的系统、方方法、设备和计算机可读媒体(SYSTEMS,METHODS,APPARATUS,ANDCOMPUTER-READABLE MEDIA FOR MULTI-STAGE SHAPE VECTORQUANTIZATION)”的第61/369,751号临时申请案的优先权。本专利申请案主张2010年8月17日申请的标题为“用于一般音频译码的系统、方法、设备和计算机可读媒体(SYSTEMS,METHODS,APPARATUS,AND COMPUTER-READABLE MEDIA FORGENERALIZED AUDIO CODING)”的第61/374,565号临时申请案的优先权。本专利申请案主张2010年9月17日申请的标题为“用于一般音频译码的系统、方法、设备和计计算机可读媒体(SYSTEMS,METHODS,APPARATUS,ANDCOMPUTER-READABLE MEDIA FOR GENERALIZED AUDIO CODING)”的第61/384,237号临时申请案的优先权。本专利申请案主张2011年3月31日申请的标题为“用于动态位分配的系统、方法、设备和计算机可读媒体(SYSTEMS,METHODS,APPARATUS,AND COMPUTER-READABLE MEDIA FOR DYNAMIC BITALLOCATION)”的第61/470,438号临时申请案的优先权。

技术领域

本发明涉及音频信号处理领域。

背景技术

基于修正型离散余弦变换(MDCT)的译码方案通常用于对一般的音频信号进行译码，所述音频信号可包含语音和/或非语音内容，例如音乐。使用MDCT译码的现有音频编解码器的实例包含MPEG-1音频层3(MP3)、杜比数字(英国伦敦杜比实验室；还被称为AC-3且标准化为ATSC A/52)、免费音乐格式(马萨诸塞州萨摩威尔市Xiph.Org基金会)、视窗媒体音频(WMA，华盛顿州里德蒙德市微软公司)、自适应变换声音译码(ATRAC，日本东京索尼公司)，以及高级音频译码(AAC，最近在ISO/IEC14496-3:2009中标准化)。MDCT译码也是一些电信标准的分量，例如增强型可变速率编解码器(EVRC，在2010年1月25日的第3代合作伙伴项目2(3GPP2)文献C.S0014-D v2.0中被标准化)。G.718编解码器(对从8到32kbit/s的语音和音频的帧错误稳固窄带和宽带嵌入式可变位速率译码(Frame error robust narrowband and wideband embedded variable bit-rate codingof speech and audio from8-32kbit/s)，电信标准化部门(ITU-T)，日内瓦，CH，2008年6月，2008年11月和2009年8月校正，2009年3月和2010年3月修正)是使用MDCT译码的多层编解码器的一个实例。

发明内容

一种根据一般配置的向量量化方法包含：通过选择在第一码簿的多个第一码簿向量中的对应第一码簿向量来量化具有第一方向的第一输入向量，且产生基于所述选定的第一码簿向量的旋转矩阵。此方法还包含：计算(A)具有所述第一方向的向量与(B)所述旋转矩阵的乘积以产生具有与所述第一方向不同的第二方向的经旋转向量，且通过选择在第二码簿的多个第二码簿向量中的对应第二码簿向量来量化具有所述第二方向的第二输入向量。还揭示对应的向量解量化方法。还揭示具有有形特征的计算机可读存储媒体(例如，非暂时媒体)，所述有形特征致使读取所述特征的机器执行此方法。

一种根据一般配置的用于向量量化的设备包含：第一向量量化器，其经配置以接收具有第一方向的第一输入向量且选择在第一码簿的多个第一码簿向量中的对应第一码簿向量以及旋转矩阵产生器，其经配置以产生基于所述选定的第一码簿向量的旋转矩阵。此设备还包含：乘法器，其经配置以计算(A)具有所述第一方向的向量与(B)所述旋转矩阵的乘积以产生具有与所述第一方向不同的第二方向的经旋转向量；以及第二向量量化器，其经配置以接收具有所述第二方向的第二输入向量且选择在第二码簿的多个第二码簿向量中的对应第二码簿向量。还揭示用于向量解量化的对应设备。

一种根据另一一般配置的用于处理音频信号的帧的设备包含：用于通过选择在第一码簿的多个第一码簿向量中的对应第一码簿向量来量化具有第一方向的第一输入向量的装置，以及用于产生基于所述选定的第一码簿向量的旋转矩阵的装置。此设备还包含：用于计算(A)具有所述第一方向的向量与(B)所述旋转矩阵的乘积以产生具有与所述第一方向不同的第二方向的经旋转向量的装置，以及用于通过选择在第二码簿的多个第二码簿向量中的对应第二码簿向量来量化具有所述第二方向的第二输入向量的装置。还揭示用于向量解量化的对应设备。

附图说明

图1A到1D展示增益-形状向量量化操作的实例。

图2A展示根据一般配置的用于多级形状量化的设备A100的方框图。

图2B展示根据一般配置的用于多级形状解量化的设备D100的方框图。

图3A和3B展示可用以产生旋转矩阵的公式的实例。

图4使用简单二维实例说明设备A100的操作原理。

图5A、5B和6展示可用以产生旋转矩阵的公式的实例。

图7A和7B分别展示将设备A100应用于图1A和1B的开环增益译码结构的实例。

图7C展示可在闭环增益译码结构中使用的设备A100的实施方案A110的方框图。

图8A和8B分别展示将设备A110应用于图1C和1D的开环增益译码结构的实例。

图9A展示作为设备A100的扩展部分的三级形状量化器的示意图。

图9B展示作为设备A110的扩展部分的三级形状量化器的示意图。

图9C展示作为设备D100的扩展部分的三级形状解量化器的示意图。

图10A展示增益量化器GQ10的实施方案GQ100的方框图。

图10B展示增益向量计算器GVC10的实施方案GVC20的方框图。

图11A展示增益解量化器DQ100的方框图。

图11B展示增益量化器GQ10的预测性实施方案GQ200的方框图。

图11C展示增益量化器GQ10的预测性实施方案GQ210的方框图。

图11D展示增益解量化器GD200的方框图。

图11E展示预测器PD10的实施方案PD20的方框图。

图12A展示包括增益量化器GQ100和GQ200的例子的增益译码结构。

图12B展示包括设备A100的实施方案的通信装置D10的方框图。

图13A展示根据一般配置的用于向量量化的方法M100的流程图。

图13B展示根据一般配置的用于向量量化的设备MF100的方框图。

图14A展示根据一般配置的用于向量解量化的方法MD100的流程图。

图14B展示根据一般配置的用于向量解量化的设备DF100的方框图。

图15展示手持机H100的前视图、后视图和侧视图。

图16展示一实例的量值对频率的曲线图，在所述实例中将UB-MDCT信号建模。

具体实施方式

在增益-形状向量量化方案中，可能需要在多级中执行形状向量的译码(例如，以减少复杂性和存储)。可在此些情况下使用如本文中所描述的多级形状向量量化器架构来支持针对多种位速率的有效增益-形状向量量化。

除非受其上下文明确地限制，否则术语“信号”在本文中用以指示其普通意义中的任一者，包含如在导线、总线或其它传输媒体上表达的存储器位置(或存储器位置集合)的状态。除非由其上下文明确限制，否则本文中使用术语“产生”来指示其普通意义中的任一者，例如计算或以其它方式产生。除非受其上下文明确地限制，否则术语“计算”在本文中用以指示其普通意义中的任一者，例如计算、评估、平滑和/或从多个值中进行选择。除非受其上下文明确地限制，否则使用术语“获得”来指示其普通意义中的任一者，例如推算、导出、接收(例如，从外部装置)和/或检索(例如，从存储元件阵列)。除非受其上下文明确地限制，否则使用术语“选择”来指示其普通意义中的任一者，例如识别、指示、应用和/或使用一组两者或两者以上中的至少一者和少于全部。在术语“包含”用于本描述及权利要求书中的情况下，其不排除其它元件或操作。使用术语“基于”(如在“A是基于B”中)来指示其普通意义中的任一者，包含以下情况(i)“从中导出”(例如，“B是A的前驱体”)，(ii)“至少基于”(例如，“A至少基于B”)以及，在特定上下文中在适当的情况下，(iii)“等于”(例如，“A等于B”)。类似地，使用术语“响应于”来指示其普通意义中的任一者，包含“至少响应于”。

除非另有指示，否则使用术语“系列”来指示两个或两个以上术语的序列。使用术语“对数”来指示底数为10的对数，但此运算扩展到其它底数也在本发明的范围内。使用术语“频率分量”来指示信号的一组频率或频带中的一者，例如信号(例如，如由快速傅立叶变换产生)或信号的子频带(例如，巴克刻度或梅尔刻度子频带)的频域表示的样本。

除非另有指示，否则对具有特定特征的设备的操作的任何揭示内容还明确地希望揭示具有类似特征的方法(且反之亦然)，且对根据特定配置的设备的操作的任何揭示内容还明确地希望揭示根据类似配置的方法(且反之亦然)。可参考如由其特定上下文指示的方法、设备和/或系统来使用术语“配置”。一般地且互换地使用术语“方法”、“过程”、“程序”和“技术”，除非特定上下文另有指示。一般地且互换地使用术语“设备”和“装置”，除非特定上下文另有指示。通常使用术语“元件”和“模块”来指示更大配置的一部分。除非受其上下文明确地限制，否则在本文中使用术语“系统”来指示其普通意义中的任一者，包含“进行交互以用于共同目的的一组元件”。通过文献的一部分的参考进行的任何并入也应理解为并入在所述部分内参考的术语或变量的定义，其中此些定义出现在文档中的其它地方，以及所并入的部分中所参考的任何图中。

本文中所描述的系统、方法和设备一般适用于频域中的音频信号的译码表示。此表示的典型实例是变换域中的一连串变换系数。合适的变换的实例包含离散正交变换，例如正弦单位变换。合适的正弦单位变换的实例包含离散三角变换，其包含(非限制)离散余弦变换(DCT)、离散正弦变换(DST)和离散傅立叶变换(DFT)。合适的变换的其它实例包含此些变换的互搭版本。合适的变换的特定实例是上文引入的修正型DCT(MDCT)。

在整个本发明中参考音频频率范围的“低频带”和“高频带”(等效地，“上频带”)，且参考0到4千赫兹(kHz)的低频带以及3.5kHz到7kHz的高频带的特定实例。应明确注意，本文中所论述的原理绝不限于此特定实例，除非清楚规定此限制。明确预期且在此揭示编码、解码、分配、量化和/或其它处理的这些原理应用到的频率范围的其它实例(再次非限制)包含具有处于0Hz、25Hz、50Hz、100Hz、150Hz和200Hz中的任一者处的下限以及处于3000Hz、3500Hz、4000Hz和4500Hz中的任一者处的上限的低频带，以及具有处于3000Hz、3500Hz、4000Hz、4500Hz和5000Hz中的任一者处的下限以及处于6000Hz、6500Hz、7000Hz、7500Hz、8000Hz、8500Hz和9000Hz中的任一者处的上限的高频带。还明确预期且在此揭示将此些原理应用于(再次非限制)具有处于3000Hz、3500Hz、4000Hz、4500Hz、5000Hz、5500Hz、6000Hz、6500Hz、7000Hz、7500Hz、8000Hz、8500Hz和9000Hz中的任一者处的下限以及处于10kHz、10.5kHz、11kHz、11.5kHz、12kHz、12.5kHz、13kHz、13.5kHz、14kHz、14.5kHz、15kHz、15.5kHz和16kHz中的任一者处的上限的低频带。还应明确注意，虽然在译码过程的早期阶段将通常将高频带信号转换为较低的取样速率(例如，经由再取样和/或抽取)，但高频带信号及其携载的信息仍继续表示高频带音频-频率范围。

可应用包含如本文中所描述的多级形状量化操作的译码方案来对任何音频信号(例如，包含语音)进行译码。或者，可能仅需要针对非语音音频(例如，音乐)使用此译码方案。在此情况下，可与分类方案一起使用所述译码方案来确定音频信号的每一帧的内容的类型且选择合适的译码方案。

可将包含如本文中所描述的多级形状量化操作的译码方案用作主要编解码器或用作多层或多级编解码器中的一层或一级。在一个此类实例中，使用此译码方案来对音频信号的频率内容的一部分(例如，低频带或高频带)进行译码，且使用另一译码方案来对所述信号的频率内容的另一部分进行译码。在另一此类实例中，使用此译码方案来对另一译码层的残差(即，原始信号与经编码信号之间的误差)进行译码。

增益-形状向量量化是可用以通过将向量能量解耦而有效地编码信号向量(例如，表示声音或图像数据)的译码技术，向量能量是由来自向量方向的由形状表示的增益因子表示。此技术可尤其适用于其中信号的动态范围可能较大的应用，例如音频信号(例如语音和/或音乐)的译码。

增益-形状向量量化器(GSVQ)对输入向量x的形状和增益单独地编码。图1A展示增益-形状向量量化操作的实例。在此实例中，形状量化器SQ100经配置以通过以下操作来执行向量量化(VQ)方案：从码簿选择经量化的形状向量作为所述码簿中最接近输入向量x(例如，在均方误差意义上最接近)的向量，以及输出指向所述码簿中的向量的索引。在另一实例中，形状量化器SQ100经配置以通过以下操作来执行脉冲译码量化方案：选择最接近输入向量x(例如，在均方误差意义上最接近)的单位脉冲的单位范数模式，以及输出指向所述模式的码簿索引。范数计算器NC10经配置以计算输入向量x的范数||x||，且增益量化器GQ10经配置以量化所述范数来产生经量化的增益值。

形状量化器SQ100通常实施为向量量化器，其中约束为码簿向量具有单位范数(即，所有点均在单位超球面上)。此约束简化码簿搜索(例如，从均方误差计算简化为内积运算)。举例来说，形状量化器SQ100可经配置以根据例如argmax_k(x^TS_k)的运算从K个单位范数向量S_k(k=0、1……K-1)的码簿中选择向量此搜索可为详尽的或最佳化的。举例来说，可将所述向量布置于所述码簿内以支持特定搜索策略。

在一些情况下，可能需要将到形状量化器SQ100的输入约束为单位范数(例如，以启用特定码簿搜索策略)。图1B展示增益形状向量量化操作的此实例。在此实例中，正规化器NL10经配置以正规化输入向量x以产生向量范数||x||和单位范数形状向量S=x/||x||，且形状量化器SQ100经布置以接收形状向量S作为其输入。在此情况下，形状量化器SQ100可经配置以根据例如argmax_k(S^TS_k)的运算从K个单位范数向量S_k(k=0、1……K-1)的码簿中选择向量

或者，形状量化器SQ100可经配置以从单位脉冲的模式的码簿中选择向量在此情况下，量化器SQ100可经配置以选择在经正规化时最接近形状向量S的模式(例如，在均方误差意义上最接近)。此模式通常被编码为码簿索引，所述码簿索引指示所述模式中的脉冲数目和每一占用位置的正负号。选择模式可包含缩放输入向量且使其与模式匹配，且经量化的向量是通过正规化选定的模式而产生。可由形状量化器SQ100执行以编码此些模式的脉冲译码方案的实例包含阶乘脉冲译码和组合脉冲译码。

增益量化器GQ10可经配置以执行增益的标量量化或将所述增益与其它增益组合为增益向量以用于向量量化。在图1A和1B的实例中，增益量化器GQ10经布置以接收输入向量x的增益并所述增益量化为范数||x||(还称为“开环增益”)。在其它情况下，所述增益是基于经量化的形状向量与原始形状的相关度。此增益称为“闭环增益”。图1C展示此增益形状向量量化操作的实例，其包含内积计算器IP10和形状量化器SQ100的实施方案SQ110，实施方案SQ110还产生经量化的形状向量计算器IP10经布置以计算经量化的形状向量与原始输入向量的内积(例如，)，且增益量化器GQ10经布置以接收此乘积并将所述乘积量化为闭环增益。就形状量化器SQ110产生不良形状量化结果而言，闭环增益将较低。就形状量化器准确地量化形状而言，闭环增益将较高。当形状量化理想时，闭环增益等于开环增益。图1D展示类似增益形状向量量化操作的实例，其包含正规化器NL20，正规化器NL20经配置以正规化输入向量x来产生单位范数形状向量S=x/||x||以作为到形状量化器SQ110的输入。

在例如音乐和话音的音频信号中，可通过将信号的帧变换到变换域(例如，快速傅立叶变换(FFT)或MDCT域)中且由这些变换域系数形成子频带而形成信号向量。在一个实例中，编码器经配置以通过以下操作来编码帧：根据预定划分方案(即，在接收帧之前解码器已知的固定划分方案)将变换系数划分为一组子频带，且使用向量量化(VQ)方案(例如，如本文中所描述的GSVQ方案)来编码每一子频带。对于此情况，可选择形状码簿以表示将单位超球面划分为均匀的量化单元(例如，Voronoi区)。

在另一实例中，可能需要识别信号内的显著能量区且与所述信号的其余部分分开地编码这些区。举例来说，可能需要通过使用相对较多的位编码此些区且使用相对较少的位(或甚至不使用位)编码所述信号的其它区来增加译码效率。此些区可一般共享特定类型的形状，以使得对应向量的形状比其它向量更有可能落在单位超球面的一些区内。具有高谐波内容的信号的显著区(例如)可经选择以具有峰居中形状。图16展示针对线性预测译码残差信号的高频带部分(例如，表示在3.5kHz到7kHz的范围中的音频内容)的140个MDCT系数的帧的此选择的实例，其展示将所述帧划分为选定的子频带和此选择操作的残差。在此些情况下，可能需要设计形状码簿以表示将单位超球面划分为不均匀的量化单元。

多级向量量化方案通过编码前一级的量化误差以使得可在解码器处减少此误差来产生更准确的结果。可能需要在增益-形状VQ背景下实施多级VQ。

如上文所述，形状量化器通常实施为向量量化器，其中约束为码簿向量具有单位范数。然而，预期形状量化器的量化误差(即，输入向量x与对应的选定码簿向量之间的差)不会具有单位范数，此情形产生可缩放性问题且使多级形状量化器的实施有问题。为了在解码器处获得有用结果，举例来说，通常将需要对量化误差向量的形状和增益两者的编码。对误差增益的编码产生额外将要传输的信息，其在位受约束的背景(例如，蜂窝式电话、卫星通信)中可为不合意的。

图2A展示根据一般配置的用于多级形状量化的设备A100的方框图，其避免了误差增益的量化。设备A100包含如上文所描述的形状量化器SQ110的例子和形状量化器SQ100的例子SQ200。第一形状量化器SQ110经配置以量化第一输入向量V10a的形状(例如，方向)以产生长度为N的第一码簿向量Sk和指向Sk的索引。设备A100还包含：旋转矩阵产生器200，其经配置以产生基于选定向量Sk的N×N旋转矩阵Rk；以及乘法器ML10，其经配置以计算旋转矩阵Rk与第二向量V10b的乘积以产生向量r=(Rk)v(其中v表示向量V10b)。向量V10b具有与向量V10a相同的方向(例如，向量V10a与V10b可为相同向量，或一者可为另一者的经正规化版本)，且向量r具有与向量V10a和V10b不同的方向。第二形状量化器SQ200经配置以量化向量r(或具有与向量r相同的方向的向量)的形状(例如，方向)以产生第二码簿向量Sn和指向Sn的索引。(注意，在一般情况下，第二形状量化器SQ200可经配置以接收并非向量r而是具有与向量r相同的方向的向量作为输入。)

在此方法中，编码由第一形状量化器SQ110执行的每一第一级量化的误差包含通过旋转矩阵Rk来旋转对应输入向量的方向，所述旋转矩阵Rk是基于(A)曾被选择以表示输入向量的第一级码簿向量Sk和(B)参考方向。参考方向是解码器已知的且可为固定的。参考方向还可与输入向量V10a无关。

可能需要配置旋转矩阵产生器200以使用一公式，所述公式在使对向量V10b的任何其它影响最小化的同时产生所要的旋转。图3A展示可由旋转矩阵产生器200使用的公式的一个实例，从而通过用当前的选定向量Sk(作为长度为N的列向量)替换所述公式中的S来产生旋转矩阵Rk。在此实例中，参考方向为单位向量[1，0，0，…，0]的参考方向，但可选择任一其它参考方向。此参考方向的潜在优势包含：对于每一输入向量，可从对应码簿向量以相对小的代价计算对应旋转矩阵；以及可以相对小的代价且以极少的其它影响来执行对应旋转，此对于固定点实施方案可能尤其重要。

乘法器ML10经布置以计算矩阵向量乘积r=Rk×v。此单位范数向量是到第二形状量化级(即，第二形状量化器SQ200)的输入。基于相同参考方向来建构每一旋转矩阵导致相对于所述方向的量化误差的集中，此支持所述误差的有效第二级量化。

由旋转矩阵Rk引发的旋转是可逆的(在计算误差的界限内)，以使得可通过与所述旋转矩阵的转置相乘来逆转所述旋转。图2B展示根据一般配置的用于多级形状解量化的设备D100的方框图。设备D100包含：第一形状解量化器500，其经配置以响应于指向向量Sk的索引而产生第一选定码簿向量Sk；以及第二形状解量化器600，其经配置以响应于指向向量Sn的索引而产生第二选定码簿向量Sn。设备D100还包含旋转矩阵产生器210，旋转矩阵产生器210经配置以基于第一级码簿向量Sk产生旋转矩阵Rk^T，所述旋转矩阵Rk^T是在编码器处(例如，由产生器200)产生的对应旋转矩阵的转置。举例来说，产生器210可经实施以根据与产生器200相同的公式产生一矩阵，且接着计算所述矩阵的转置(例如，通过在所述矩阵主对角线上反映所述矩阵)，或使用作为所述公式的转置的产生公式。设备D100还包含乘法器ML30，乘法器ML30将输出向量计算为矩阵向量乘积Rk^T×Sn。

图4使用简单二维实例说明设备A100的操作原理。在左侧上，在第一级中通过选择在一组码簿向量(如虚线箭头所指示)中的最接近的Sk(由星形指示)来量化单位范数向量S。可使用内积运算(例如，通过选择与向量S的内积最小的码簿向量)来执行码簿搜索。码簿向量可围绕单位超球面均匀地分布(例如，如图4中所展示)或可如本文中所述不均匀地分布。

如图4的左下方所展示，使用向量减法来确定第一级的量化误差产生不再为单位范数的误差向量。作为替代，如图4的中心所展示，通过旋转矩阵Rk来旋转向量S，旋转矩阵Rk是基于如本文中所描述的码簿向量Sk。举例来说，可选择旋转矩阵Rk作为将使码簿向量Sk旋转到规定参考方向(由点指示)的矩阵。图4的右侧说明第二量化级，其中通过从第二码簿选择最接近Rk×S(例如，与向量Rk×S具有最小内积)的向量(如由三角形指示)来量化经旋转的向量Rk×S。如图4中所展示，旋转操作使第一级量化误差集中于参考方向周围，以使得第二码簿可覆盖少于整个单位超球面。

对于S[1]接近负一的情况，图3A中的产生公式可设计涉及除以极小的数，此可提出计算问题，尤其在固定点实施方案中。可能需要配置旋转矩阵产生器200和210以在此情况下改为使用图3B中的公式(例如，每当S[1]小于零时，使得将总是除以至少等于一的数)。或者，在此情况下可通过在编码器处沿第一轴(例如，参考方向)反映所述旋转矩阵且在解码器处逆转所述反映来获得等效的效果。

对参考方向的其它选择可包含其它单位向量中的任一者。举例来说，图5A和5B展示针对由长度为N的单位向量[0，0，…，0，1]所指示的参考方向的对应于图3A和3B中所展示的公式的产生公式的实例。图6展示针对由长度为N的单位向量所指示的参考方向的对应于图3A中所展示的公式的产生公式的一般实例，所述单位向量的仅有的非零元素为第d个元素(其中1<d<N)。一般而言，可能需要旋转矩阵Rk定义选定的第一码簿向量在一平面内到参考向量的方向的旋转(例如，如在图3A、3B、4、5A、5B和6中所展示的实例中)，所述平面包含选定的第一码簿向量和参考向量。尽管向量V10b通常将不位于此平面中，但使向量V10b乘以旋转矩阵Rk将使向量V10b在平行于此平面的一平面内旋转。乘以旋转矩阵Rk使向量绕(N-2维)子空间旋转，所述子空间与选定的第一码簿向量和参考方向两者正交。

图7A和7B分别展示将设备A100应用于图1A和1B的开环增益译码结构的实例。在图7A中，设备A100经布置以接收向量x作为输入向量V10a和向量V10b，且在图7B中，设备A100经布置以接收形状向量S作为输入向量V10a和向量V10b。

图7C展示可在闭环增益译码结构(例如，如图1C和1D中所展示)中使用的设备A100的实施方案A110的方框图。设备A110包含：转置器400，其经配置以计算旋转矩阵Rk的转置(例如，绕旋转矩阵Rk的主对角线反映所述旋转矩阵Rk)；以及乘法器ML20，其经配置以将经量化的形状向量计算为矩阵向量乘积Rk^T×Sn。图8A和8B分别展示将设备A110应用于图1C和1D的开环增益译码结构的实例。

本文中所描述的多级形状量化原理可扩展到任意数目个形状量化级。举例来说，图9A展示作为设备A100的扩展部分的三级形状量化器的示意图。在此图中，各种标记表示以下结构或值：向量方向V1和V2；码簿向量C1和C2；码簿索引X1、X2和X3；量化器Q1、Q2和Q3；旋转矩阵产生器G1和G2；以及旋转矩阵R1和R2。图9B展示作为设备A110的扩展部分且产生经量化的形状向量的三级形状量化器的类似示意图(在此图中，每一标记TR表示一矩阵转置器)。图9C展示作为设备D100的扩展部分的对应三级形状解量化器的示意图。

音频信号的低位速率译码常常要求对可用来对音频信号帧的内容进行译码的位的最佳利用。音频信号帧的内容可为所述信号的PCM样本或所述信号的变换域表示。信号向量的编码通常包含：将向量划分为多个子向量；将位分配指派给每一子向量；以及将每一子向量编码为对应所分配数目个位。在典型音频译码应用中可能需要(例如)针对每一帧的大量(例如，十或二十个)不同子频带向量执行增益形状向量量化。帧大小的实例包含100、120、140、160和180个值(例如，变换系数)，且子频带长度的实例包含五、六、七、八、九、十、十一和十二。

一种位分配方法为，在不同形状向量中均匀地分裂总位分配B(且使用(例如)闭环增益译码方案)。举例来说，分配给每一子向量的位的数目随帧变化可为固定的。在此情况下，可能已用位分配方案的知识配置解码器，以使得编码器不需要传输此信息。然而，对位的最佳利用的目标可为确保以一定数目的位对音频信号帧的各种分量进行译码，位的数目与所述分量的感知有效性有关(例如，成比例)。输入子频带向量中的一些输入子频带向量可能较不有效(例如，可能捕获极少能量)，以使得可能通过将较少位分配给这些形状向量并将较多位分配给较重要的子频带的形状向量来获得更好的结果。

由于固定分配方案未考虑子向量的相对感知有效性的变化，所以可能需要改为使用动态分配方案，以使得分配给每一子向量的位的数目可随帧变化而变化。在此情况下，将与用于每一帧的特定位分配方案有关的信息供应给解码器以使得可对所述帧进行解码。

大多数音频编码器将位分配作为边信息显式传输到解码器。举例来说，例如AAC的音频译码算法通常使用边信息或熵译码方案(例如霍夫曼译码)来传达位分配信息。仅使用边信息来传达位分配是低效的，这是因为此边信息并不直接用于对信号进行译码。虽然像霍夫曼译码或算术译码等可变长度码字可提供某种优势，但可能遭遇长码字，长码字可降低译码效率。可能需要改为使用基于编码器和解码器两者都已知的经译码的增益参数的动态位分配方案，使得可在不需要从编码器到解码器的边信息的显式传输的情况下执行所述方案。此效率对于例如蜂窝式电话的低位速率应用可能尤其重要。

可在无边信息的情况下通过根据相关联的增益的值分配用于形状量化的位来实施此动态位分配。在源-译码意义上，闭环增益可被视为更佳，这是因为，与开环增益不同，闭环增益考虑了特定形状量化误差。然而，可能需要基于此增益值执行上游处理。具体而言，可能需要使用增益值来决定如何量化形状(例如，使用增益值在所述形状之间动态地分配量化位预算)。在此情况下，因为增益控制所述位分配，所以形状量化明显取决于编码器和解码器处的增益，以使得使用形状独立开环增益计算而非形状相依闭环增益。

为了支持动态分配方案，可能需要实施形状量化器和解量化器(例如，量化器SQ110、SQ200、SQ210；解量化器500和600)以响应于分配给待量化的每一形状的位的特定数目而从不同大小的码簿中(即，从具有不同索引长度的码簿中)进行选择。在此实例中，设备A100的量化器中的一者或一者以上(例如，量化器SQ110和SQ200或SQ210)可经实施以使用具有较短索引长度的码簿来编码其开环增益较低的子频带向量的形状，且使用具有较长索引长度的码簿来编码其开环增益较高的子频带向量的形状。此动态分配方案可经配置以使用在向量增益与形状码簿索引长度(其为固定的或以其它方式确定的)之间的映射，以使得对应解量化器可应用相同方案而无需任何额外边信息。

在开环增益编码的情况下，可能需要配置解码器(例如，增益解量化器)以将开环增益乘以因子γ，因子γ随用以编码形状的位的数目(例如，指向形状码簿向量的索引的长度)而变。当使用极少位来量化形状时，形状量化器很可能产生大的误差，以使得向量S和可能不会很好地匹配，因此可能需要在解码器处减少增益以反映所述误差。校正因子γ仅在平均意义上表示此误差：校正因子γ仅取决于码簿(具体而言，取决于码簿中的位的数目)，而不取决于输入向量x的任何特定细节。编解码器可经配置以使得不传输校正因子γ，而仅由解码器根据曾使用多少位来量化向量而从表读出。

此校正因子γ基于位速率指示可预期平均向量离真形状S有多近。随着位速率上升，平均误差将减小且校正因子γ的值将接近一，且随着位速率变为极低，S与向量之间的相关性(例如，向量与S的内积)将减小，且校正因子γ的值也将减小。虽然可能需要获得与在闭环增益中相同的效果(例如，在实际逐个输入的自适应意义上)，但对于开环情况，校正通常仅在平均意义上可用。

或者，可执行在开环增益方法与闭环增益方法之间的一类内插。此方法使用动态校正因子来增大开环增益表达，所述动态校正因子取决于特定形状量化的质量而非仅取决于基于长度的平均量化误差。可基于量化形状和非量化形状的点积来计算此因子。可能需要极粗略地编码此校正因子的值(例如，作为索引编码到四或八条目码簿中)，以使得可以极少位来传输此校正因子。

可能需要有效率地利用增益参数中随时间和/或跨频率的相关性。如上文所述，可在音频译码中通过将信号的帧变换到变换域中且由这些变换域系数形成子频带来形成信号向量。可能需要使用预测性增益译码方案来利用来自连续帧的向量的能量之间的相关性。另外或替代地，可能需要使用变换增益译码方案来利用在单一帧内的子频带的能量之间的相关性。

图10A展示增益量化器GQ10的实施方案GQ100的方框图，实施方案GQ100包含如本文中所描述的旋转矩阵的不同应用。增益量化器GQ100包含增益向量计算器GVC10，增益向量计算器GVC10经配置以接收输入信号的帧的M个子频带向量x1到xM且产生子频带增益值的对应向量GV10。M个子频带可包含整个帧(例如，根据预定划分方案划分为M个子频带)。或者，M个子频带可包含少于所述帧的全部(例如，如根据如在本文中所述的实例中的动态子频带方案进行选择)。子频带的数目M的实例包含(非限制)五、六、七、八、九、十和二十。

图10B展示增益向量计算器GVC10的实施方案GVC20的方框图。向量计算器GVC20包含增益因子计算器的M个例子GC10-1、GC10-2，…，GC10-M，其各自经配置以计算M个子频带中的对应子频带的对应增益值G10-1、G10-2，…，G10-M。在一个实例中，每一增益因子计算器GC10-1、GC10-2，…，GC10-M经配置以将对应增益值计算为对应子频带向量的范数。在另一实例中，每一增益因子计算器GC10-1、GC10-2，…，GC10-M经配置在分贝或其它对数或感知尺度上计算对应增益值。在一个此实例中，每一增益因子计算器GC10-1、GC10-2，…，GC10-M经配置以根据例如GC10-m=10log₁₀||x_m||²的表达式(其中x_m表示对应子频带向量)来计算对应增益值GC10-m(1<=m<=M)。

向量计算器GVC20还包含向量寄存器VR10，向量寄存器VR10经配置以针对对应帧将M个增益值G10-1到G10-M中的每一者存储到长度为M的向量的对应元素且将此向量作为增益向量GV10输出。

增益量化器GQ100还包含：旋转矩阵产生器200的实施方案250，其经配置以产生旋转矩阵Rg；以及乘法器ML30，其经配置以将向量gr计算为Rg与增益向量GV10的矩阵向量乘积。在一个实例中，产生器250经配置以通过用长度为M的单位范数向量Y(其中，)替换图3A中所展示的产生公式中的S来产生矩阵Rg。所得的旋转矩阵Rg具有产生输出向量gr的作用，输出向量gr在其第一元素中具有增益向量GV10的平均功率。

尽管其它变换可用以产生此第一元素平均值(例如，FFT、MDCT、沃尔什(Walsh)或小波变换)，但由此变换产生的输出向量gr的其它元素中的每一者为在此平均值与向量GV10的对应元素之间的差。通过分离帧的平均增益值与子频带增益之间的差，此方案使得已用以编码每一子频带中(例如，高声帧中)的所述能量的位能够变得可用来编码每一子频带中的精细细节。这些差还可用作用于将位动态地分配给对应形状向量的方法(例如，如本文中所描述)的输入。对于需要将平均功率置于向量gr的不同元素中的情况，可改为使用本文中所描述的产生公式中的对应公式。

增益量化器GQ100还包含向量量化器VQ10，向量量化器VQ10经配置以量化向量gr的至少一子向量(例如，排除平均值的长度为M-1的子向量)来产生经量化的增益向量QV10(例如，作为一个或一个以上码簿索引)。在一个实例中，向量量化器VQ10经实施以执行分裂向量量化。对于增益值G10-1到G10-M为开环增益的情况，可能需要配置对应的解量化器以将如上文所描述的校正因子γ应用于对应的经解码增益值。

图11A展示对应增益解量化器DQ100的方框图。解量化器DQ100包含：向量解量化器DQ10，其经配置以对经量化的增益向量QV10进行解量化以产生经解量化的向量(gr)_D；旋转矩阵产生器260，其经配置以产生在量化器GQ100中应用的旋转矩阵的转置Rg^T；以及乘法器ML40，其经配置以计算矩阵Rg^T与向量(gr)_D的矩阵向量乘积以产生经解码的增益向量DV10。对于经量化的增益向量QV10不包含向量gr的平均值元素的情况(例如，如本文中关于图12A所描述)，经解码的平均值可以其它方式与经解量化的向量(gr)_D的元素组合以产生经解码的增益向量DV10的对应元素。

对应于由平均功率所占用的向量gr的元素的增益可(例如，在解量化之后)从增益向量的其它元素导出(例如，在解码器处，且为实现位分配的目的，可能在编码器处)。举例来说，可将此增益计算为在(A)平均值所暗示的总增益(即，平均值乘以M)与(B)其它(M-1)个经重构增益的总和之间的差。尽管此导出可具有将其它(M-1)个经重构增益的量化误差累积到所导出增益值中的效果，但其还避免了译码和传输所述增益值的代价。

明确指出，增益量化器GQ100可与如本文中所描述的多级形状量化设备A100的实施方案(例如，A110)一起使用，且还可独立于设备A100而使用(如在将单级增益形状向量量化应用于多组相关子频带向量时)。

如上文所指出，具有预测性增益编码的GSVQ可用以随帧变化而不同地编码一组选定的(例如，高能量)子频带的增益因子。可能需要使用包含预测性增益译码的增益-形状向量量化方案，以使得每一子频带的增益因子彼此独立地且相对于前一帧的对应增益因子不同地被编码。

图11B展示增益量化器GQ10的预测性实施方案GQ200的方框图，预测性实施方案GQ200包含：标量量化器CQ10，其经配置以量化预测误差PE10来产生经量化的预测误差QP10和指向误差QP10的对应码簿索引；加法器AD10，其经配置以从增益值GN10减去所预测的增益值PG10来产生预测误差PE10；加法器AD20，其经配置以将经量化的预测误差QP10加到所预测的增益值PG10；以及预测器PD10，其经配置以基于经量化的预测误差QP10和所预测的增益值PG10的先前值的一个或一个以上总和来计算所预测的增益值PG10。预测器PD10可实施为具有例如H(z)=a₁z^-1+a₂z^-2的转移函数的二阶有限脉冲响应滤波器。图11E展示预测器PD10的此实施方案PD20的方框图。用于此滤波器的实例系数值包含(a1,a2)=(0.8,0.2)。输入增益值GN10可为如本文中所描述的开环增益或闭环增益。图11C展示增益量化器GQ10的另一预测性实施方案GQ210的方框图。在此情况下，标量量化器CQ10不必输出对应于选定索引的码簿条目。图11D展示增益解量化器GD200的方框图，所述增益解量化器GD200可用以(例如，在对应解码器处)根据指向经量化的预测误差QP10的码簿索引(如由增益量化器GQ200和GQ210中的任一者产生)来产生经解码增益值DN10。解量化器GD200包含：标量解量化器CD10，其经配置以产生如码簿索引所指示的经解量化的预测误差PD10；预测器PD10的一例子，其经布置以基于经解码增益值DN10的一个或一个以上先前值而产生所预测的增益值DG10；以及加法器AD20的一例子，其经布置以将所预测的增益值DG10与经解量化的预测误差PD10相加以产生经解码增益值DN10。

明确指出，增益量化器GQ200或GQ210可与如本文中所描述的多级形状量化设备A100的实施方案(例如，A110)一起使用，且还可独立于设备A100而使用(如在将单级增益形状向量量化应用于多组相关子频带向量时)。对于增益值GB10为开环增益的情况，可能需要配置对应的解量化器以将如上文所描述的校正因子γ应用于对应的经解码增益值。

可能需要将预测性结构(例如增益量化器GQ200或GQ210)与用于增益译码的变换结构(例如增益量化器GQ100)进行组合。图12A展示一实例，其中增益量化器GQ100经配置以如本文中所描述而量化子频带向量x1到xM，以产生来自向量gr的平均增益值AG10和基于向量gr的其它(例如，差分)元素的经量化的增益向量QV10。在此实例中，预测性增益量化器GQ200(或者，GQ210)经布置以仅对平均增益值AG10操作。

可能需要结合如本文中所描述的动态分配方法而使用如图12A中所展示的方法。因为子频带增益的平均分量不影响在子频带之间的动态分配，所以在不依赖于过去的情况下对差分分量进行译码可用来获得可以抵制预测性译码操作的失败(例如，由于先前帧的抹除)的动态分配操作和对抗过去帧的丢失的稳健性。明确指出，此布置可与如本文中所描述的多级形状量化设备A100的实施方案(例如，A110)一起使用，且还可独立于设备A100而使用(如在将单级增益形状向量量化应用于多组相关子频带向量时)。

明确预期且在此揭示，可根据本文中所描述的多级形状量化原理来实施本发明中所指示的形状量化操作中的任一者。包含设备A100的实施方案的编码器可经配置以将音频信号处理为一系列片段。片段(或“帧”)可为变换系数的块，其对应于具有通常在约五或十毫秒到约四十或五十毫秒的范围中的长度的时域片段。时域片段可为重叠的(例如，与相邻片段重叠达25%或50%)或非重叠的。

可能需要在音频译码器中获得高质量和低延迟。音频译码器可使用大的帧大小来获得高质量，但遗憾的是，大的帧大小通常引起较长延迟。如本文中所描述的音频编码器的潜在优势包含使用短帧大小(例如，二十毫秒的帧大小，其具有十毫秒的先行)的高质量译码。在一个特定实例中，将时域信号划分为一系列二十毫秒的非重叠片段，且在四十毫秒的窗内进行用于每一帧的MDCT，所述四十毫秒的窗与相邻帧中的每一者重叠达十毫秒。

在一个特定实例中，由包含设备A100的实施方案的编码器处理的一系列片段(或“帧”)中的每一者含有表示0kHz到4kHz的低频带频率范围(还称作低频带MDCT，或LB-MDCT)的160个MDCT系数的集合。在另一特定实例中，由此编码器处理的一系列帧中的每一者含有表示3.5kHz到7kHz的高频带频率范围(还称作高频带MDCT，或HB-MDCT)的140个MDCT系数的集合。

包含设备A100的实施方案的编码器可经实施以编码具有固定和相等长度的子频带。在一特定实例中，每一子频带具有为7个频率频段的宽度(例如，175Hz，其中频率频段间隔为25Hz)，以使得每一子频带向量的形状的长度为7。然而，明确预期且在此揭示，本文中所描述的原理还可应用于以下情况：其中子频带的长度可随目标帧变化而变化，和/或其中在目标帧内的所述组子频带中的两者或两者以上(可能全部)的长度可能不同。

包含设备A100的实施方案的音频编码器可经配置以接收音频信号的帧(例如，LPC残差)以作为变换域中的样本(例如，作为变换系数，例如MDCT系数或FFT系数)。此编码器可经实施以通过以下操作来编码每一帧：根据预定划分方案(即，在接收帧之前解码器已知的固定划分方案)将变换系数分组为一组子频带，且使用增益形状向量量化方案来编码每一子频带。在此预定划分方案的一个实例中，将每一100元素的输入向量划分为具有相应长度(25、35、40)的三个子向量。

对于具有高谐波内容的音频信号(例如，音乐信号、有声语音信号)，频域中的显著能量区的位置在给定时间可为随时间相对持续的。可能需要通过利用随时间的此相关性来执行音频信号的有效变换域译码。在一个此实例中，使用动态子频带选择方案来使待编码的帧的感知上重要(例如，高能量)的子频带与经解码的前一帧的对应感知上重要的子频带匹配(还称为“相依模式译码”)。在一特定应用中，使用此方案来编码对应于音频信号的0kHz到4kHz范围的MDCT变换系数，例如线性预测编码(LPC)操作的残差。可在上文所列出的申请案中找到相依模式译码的额外描述，本申请案主张所述申请案的优先权。

在另一实例中，使用基本频率F0的选定值和在频域中的邻近峰之间的间隔的选定值来模型化谐波信号的一组选定子频带中的每一者的位置。可在上文所列出的申请案中找到此谐波模型化的额外描述，本申请案主张所述申请案的优先权。

可能需要配置音频编解码器以对相同信号的不同频带进行单独译码。举例来说，可能需要配置此编解码器以产生编码音频信号的低频带部分的第一经编码信号和编码所述相同音频信号的高频带部分的第二经编码信号。其中可能需要此分裂频带译码的应用包含必须保持与窄频带解码系统相容的宽频带编码系统。此些应用还包含一般的音频译码方案，其通过支持针对不同频带使用不同译码方案来实现对一定范围的不同类型的音频输入信号(例如，语音和音乐)的有效译码。

对于其中对信号的不同频带进行单独编码的情况，在一些情况下有可能通过使用来自另一频带的经编码(例如，经量化)的信息来增加一个频带中的译码效率，这是因为此经编码的信息在解码器处将已经是已知的。举例来说，可应用宽松谐波模型以使用来自音频信号帧的第一频带(还称为“源”频带)的变换系数的经解码表示的信息来编码所述相同音频信号帧的第二频带(还称为“待模型化的”频带)的变换系数。对于其中谐波模型是相关的此情况，可增加译码效率，这是因为第一频带的经解码表示已可在解码器处得到。

此经扩展的方法可包含确定与经译码的第一频带谐波相关的第二频带的子频带。在用于音频信号(例如，复合音乐信号)的低位速率译码算法中，可能需要将所述信号的帧分裂为多个频带(例如，低频带和高频带)且利用这些频带之间的相关性来对所述频带的变换域表示进行有效译码。

在此扩展部分的一特定实例中，对应于音频信号帧的3.5kHz到7kHz频带的MDCT系数(此后称作上频带MDCT或UB-MDCT)基于来自所述帧的经量化的低频带MDCT频谱(0kHz到4kHz)的谐波信息而被编码。明确指出，在此扩展部分的其它实例中，两个频率范围不需要重叠且甚至可分离(例如，基于来自0kHz到4kHz频带的经解码表示的信息来对帧的7kHz到14kHz频带进行译码)。可在上文所列出的申请案中找到谐波模型化的额外描述，本申请案主张所述申请案的优先权。

图13A展示根据一般配置的向量量化方法M100的流程图，方法M100包含任务T100、T200、T300和T400。任务T100通过在第一码簿的多个第一码簿向量中选择对应第一码簿向量来量化具有第一方向的第一输入向量(例如，如本文中参考形状量化器SQ100所描述)。任务T200产生基于所述选定的第一码簿向量的旋转矩阵(例如，如本文中参考旋转矩阵产生器200所描述)。任务T300计算(A)具有所述第一方向的向量与(B)旋转矩阵的乘积以产生具有第二方向的经旋转向量(例如，如本文中参考乘法器ML10所描述)。任务T400通过在第二码簿的多个第二码簿向量中选择对应第二码簿向量来量化具有第二方向的第二输入向量(例如，如本文中参考第二形状量化器SQ200所描述)。

图13B展示根据一般配置的用于向量量化的设备MF100的方框图。设备MF100包含用于通过在第一码簿的多个第一码簿向量中选择对应第一码簿向量来量化具有第一方向的第一输入向量的装置F100(例如，如本文中参考形状量化器SQ100所描述)。装置MF100还包含用于产生基于所述选定的第一码簿向量的旋转矩阵的装置F200(例如，如本文中参考旋转矩阵产生器200所描述)。设备MF100还包含用于计算(A)具有所述第一方向的向量与(B)旋转矩阵的乘积以产生具有第二方向的经旋转向量的装置F300(例如，如本文中参考乘法器ML10所描述)。设备MF100还包含用于通过在第二码簿的多个第二码簿向量中选择对应第二码簿向量来量化具有第二方向的第二输入向量的装置F400(例如，如本文中参考第二形状量化器SQ200所描述)。

图14A展示根据一般配置的用于向量解量化的方法MD100的流程图，方法MD100包含任务T600、T700、T800和T900。任务T600从第一码簿的多个第一码簿向量中选择由第一码簿索引指示的第一码簿向量(例如，如本文中参考第一形状解量化器500所描述)。任务T700产生基于所述选定的第一码簿向量的旋转矩阵(例如，如本文中参考旋转矩阵产生器210所描述)。任务T800从第二码簿的多个第二码簿向量中选择由第二码簿索引指示且具有第一方向的第二码簿向量(例如，如本文中参考第二形状解量化器600所描述)。任务T900计算(A)具有所述第一方向的向量与(B)旋转矩阵的乘积以产生具有与所述第一方向不同的第二方向的经旋转向量(例如，如本文中参考乘法器ML30所描述)。

图14B展示根据一般配置的用于向量解量化的设备DF100的方框图。设备DF100包含用于从第一码簿的多个第一码簿向量中选择由第一码簿索引指示的第一码簿向量的装置F600(例如，如本文中参考第一形状解量化器500所描述)。设备DF100还包含用于产生基于所述选定的第一码簿向量的旋转矩阵的装置F700(例如，如本文中参考旋转矩阵产生器210所描述)。设备DF100还包含用于从第二码簿的多个第二码簿向量中选择由第二码簿索引指示且具有第一方向的第二码簿向量的装置F800(例如，如本文中参考第二形状解量化器600所描述)。设备DF100还包含用于计算(A)具有所述第一方向的向量与(B)旋转矩阵的乘积以产生具有与所述第一方向不同的第二方向的经旋转向量的装置F900(例如，如本文中参考乘法器ML30所描述)。

图12B展示包含设备A100的实施方案的通信装置D10的方框图。装置D10包含芯片或芯片组CS10(例如，移动台调制解调器(MSM)芯片组)，其体现设备A100(或MF100)和可能设备D100(或DF100)的元件。芯片/芯片组CS10可包含一个或一个以上处理器，其可经配置以执行设备A100或MF100的软件和/或固件部分(例如，作为指令)。

芯片/芯片组CS10包含：接收器，其经配置以接收射频(RF)通信信号且解码和再现编码于所述RF信号内的音频信号；以及发射器，其经配置以发射描述经编码音频信号(例如，包含如由设备A100产生的码簿索引)的RF通信信号，所述经编码音频信号是基于由麦克风MV10产生的信号。此装置可经配置以经由一种或一种以上编码和解码方案(还称为“编解码器”)以无线方式发射和接收话音通信数据。此类编解码器的实例包含：增强型可变速率编解码器，如2007年2月的标题为“用于宽带展频数字系统的增强型可变速率编解码器，语音服务选项3、68和70(Enhanced Variable Rate Codec,Speech ServiceOptions3,68,and70for Wideband Spread Spectrum Digital Systems)”的第三代合作伙伴计划2(3GPP2)文献C.S0014-C,vl.0中所描述(可在www-dot-3gpp-dot-org处在线得到)；可选择模式声码器语音编解码器，如2004年1月的标题为“用于宽带展频通信系统的可选择模式声码器(SMV)服务选项(Selectable Mode Vocoder(SMV)Service Option forWideband Spread Spectrum Communication Systems)”的3GPP2文献C.S0030-0,v3.0中所描述(可在www-dot-3gpp-dot-org处在线得到)；自适应多速率(AMR)语音编解码器，如文献ETSI TS126092V6.0.0(欧洲电信标准协会(ETSI)，法国索菲亚安迪波利斯西德克斯，2004年12月)中所描述；以及AMR宽带语音编解码器，如文献ETSI TS126192V6.0.0(ETSI，2004年12月)中所描述。举例来说，芯片/芯片组CS10可经配置以产生将与一个或一个以上此类编解码器相容的经编码帧。

装置D10经配置以经由天线C30接收和发射RF通信信号。装置D10还可在到天线C30的路径中包含双工器和一个或一个以上功率放大器。芯片/芯片组CS10还经配置以经由小键盘C10接收用户输入且经由显示器C20显示信息。在此实例中，装置D10还包含一个或一个以上天线C40以支持全球定位系统(GPS)位置服务和/或与例如无线(例如，Bluetooth^TM)手持机的外部装置的短程通信。在另一实例中，此通信装置自身是Bluetooth^TM手持机且缺少小键盘C10、显示器C20和天线C30。

通信装置D10可体现于包含智能电话以及膝上型计算机和平板计算机的多种通信装置中。图15展示手持机H100(例如，智能电话)的前视图、后视图和侧视图，手持机H100具有布置在前面上的两个话音麦克风MV10-1和MV10-3、布置在后面上的话音麦克风MV10-2、位于前面的顶部隅角中的误差麦克风ME10，以及位于后面上的噪声干扰麦克风MR10。扩音器LS10布置在前面的顶部中心中，接近误差麦克风ME10，且还提供两个其它扩音器LS20L、LS20R(例如，针对扬声器电话应用)。此类手持机的麦克风之间的最大距离通常为约10或12厘米。

一般可在任何收发和/或音频感测应用中，尤其在此类应用的移动或其它便携例子中应用本文中所揭示的方法和设备。举例来说，本文中所揭示的配置的范围包含驻留于经配置以使用码分多址(CDMA)空中接口的无线电话通信系统中的通信装置。然而，所属领域的技术人员将理解，具有本文中所描述的特征的方法及设备可驻留于使用所属领域的技术人员所已知的广泛范围的技术的各种通信系统中的任一者中，例如经由有线及/或无线(例如，CDMA、TDMA、FDMA及/或TD-SCDMA)发射信道使用IP话音(“VoIP”)的系统。

明确预期且在此揭示，本文中所揭示的通信装置可适于在包交换(例如，经布置以根据例如VoIP等协议载运音频传输的有线和/或无线网络)和/或电路交换的网络中使用。还明确预期且在此揭示本文中所揭示的通信装置可适于在窄带译码系统(例如，对约4千赫兹或5千赫兹的音频频率范围进行编码的系统)中使用和/或在宽带译码系统(例如，对大于5千赫兹的音频频率进行编码的系统)中使用，包含全频带宽带译码系统和分裂频带宽带译码系统。

提供所描述的配置的先前呈现以使所属领域的技术人员能够制造或使用本文中所揭示的方法和其它结构。本文中所展示和描述的流程图、方框图和其它结构仅是实例，且这些结构的其它变体也在本发明的范围内。对这些配置的各种修改是可能的，且本文中所呈现的一般原理还可应用于其它配置。因此，本发明不希望限于上文所展示的配置，而是应符合与在本文中(包含在形成原始揭示内容的一部分的所申请的附加权利要求书中)以任何方式揭示的原理及新颖特征一致的最广范围。

所属领域的技术人员将理解，可使用多种不同技术和技艺中的任一者来表示信息和信号。举例来说，可通过电压、电流、电磁波、磁场或磁性粒子、光场或光学粒子或者其任何组合来表示可在整个以上描述中所参考的数据、指令、命令、信息、信号、位及符号。

实施如本文中所揭示的配置的重要设计要求可包含使处理延迟和/或计算复杂性(通常以每秒百万指令或MIPS来测量)最小化，对于计算密集型应用(例如，压缩音频或视听信息(例如，根据压缩格式编码的文件或流，例如本文中所识别的实例中的一者)的回放)或用于宽带通信的应用(例如，在高于8千赫兹(例如，12kHz、16kHz、44.1kHz、48kHz或192kHz)的取样速率下的话音通信)尤其如此。

可在硬件与软件和/或与固件的任何组合(其被视为对于既定应用是合适的)中实施本文中所揭示的设备(例如，设备A100、A110、D100、MF100或DF100)。举例来说，此类设备的元件可被制造为驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片中的电子及/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如，晶体管或逻辑门)阵列，且这些元件中的任一者可实施为一个或一个以上此类阵列。这些元件中的任何两者或两者以上乃至全部可实施于相同阵列内。所述阵列可实施于一个或一个以上芯片内(例如，包括两个或两个以上芯片的芯片组内)。

本文中所揭示的设备的各种实施方案(例如，设备A100、A110、D100、MF100或DF100)的一个或一个以上元件可全部或部分实施为一个或一个以上指令集，所述一个或一个以上指令集经布置以在一个或一个以上固定或可编程逻辑元件阵列上执行，例如，微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA(现场可编程门阵列)、ASSP(专用标准产品)和ASIC(专用集成电路)。本文中所揭示的设备的实施方案的各种元件中的任一者还可体现为一个或一个以上计算机(例如，包含经编程以执行一个或一个以上指令集或序列的一个或一个以上阵列的机器，还称为“处理器”)，且这些元件中的任何两者或两者以上乃至全部可实施于同一此类计算机内。

如本文中所揭示的处理器或其它用于处理的装置可被制造成驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片中的一个或一个以上电子及/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如，晶体管或逻辑门)阵列，且这些元件中的任一者可实施为一个或一个以上此类阵列。所述阵列可实施于一个或一个以上芯片内(例如，包括两个或两个以上芯片的芯片组内)。所述阵列的实例包含固定或可编程逻辑元件阵列，例如微处理器、嵌入式处理器、IP核心、DSP、FPGA、ASSP和ASIC。如本文中所揭示的处理器或其它用于处理的装置还可体现为一个或一个以上计算机(例如，包含经编程以执行一个或一个以上指令集或序列的一个或一个以上阵列的机器)或其它处理器。如本文中所描述的处理器可能用来执行任务或执行不与方法M100或MD100的实施程序直接相关的其它指令集，例如与其中嵌入了处理器的装置或系统(例如，音频感测装置)的另一操作相关的任务。还可能由音频感测装置的处理器执行如本文中所揭示的方法的部分，且在一个或一个以上其它处理器的控制下执行所述方法的另一部分。

所属领域的技术人员将了解，结合本文中所揭示的配置而描述的各种说明性模块、逻辑块、电路和测试以及其它操作可实施为电子硬件、计算机软件，或两者的组合。可用通用处理器、数字信号处理器(DSP)、ASIC或ASSP、FPGA或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其经设计以产生如本文中所揭示的配置的任何组合来实施或执行所述模块、逻辑块、电路和操作。举例来说，可将此配置至少部分实施为硬连线电路，实施为制造到专用集成电路中的电路配置，或实施为加载到非易失性存储装置中的固件程序或者作为机器可读代码从数据存储媒体加载或被加载到数据存储媒体中的软件程序，所述代码是可由例如通用处理器或其它数字信号处理单元等逻辑元件阵列执行的指令。通用处理器可为微处理器，但在替代方案中，处理器可为任何常规的处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合，例如，DSP与微处理器的组合、多个微处理器、一个或一个以上微处理器与DSP核心的联合，或任何其它此类配置。软件模块可驻留于非暂时性存储媒体中，例如RAM(随机存取存储器)、ROM(只读存储器)、非易失性RAM(NVRAM)(例如，快闪RAM)，可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、寄存器、硬盘、可装卸磁盘，或CD-ROM；或此项技术中已知的任何其它形式的存储媒体。说明性存储媒体耦合到处理器，使得处理器可从存储媒体读取信息及将信息写入到存储媒体。在替代方案中，存储媒体可与处理器成一体式。处理器及存储媒体可驻留于ASIC中。ASIC可驻留于用户终端中。在替代方案中，处理器及存储媒体可作为离散组件驻留于用户终端中。

应注意，本文中所揭示的各种方法(例如，方法M100、MD100和参考本文中所描述的各种设备的操作而揭示的其它方法)可由例如处理器等逻辑元件阵列执行，且如本文中所描述的设备的各种元件可实施为经设计以在此阵列上执行的模块。如本文中所使用，术语“模块”或“子模块”可指代以软件、硬件或固件的形式包含计算机指令(例如，逻辑表达式)的任何方法、设备、装置、单元或计算机可读数据存储媒体。应理解，多个模块或系统可组合为一个模块或系统，且一个模块或系统可被分离成多个模块或系统以执行相同功能。当以软件或其它计算机可执行指令实施时，过程的要素本质上为用以执行例如与例程、程序、对象、组件、数据结构等有关任务的代码段。术语“软件”应理解为包含源代码、汇编语言代码、机器代码、二进制代码、固件、宏码、微码、可由逻辑元件阵列执行的任何一个或一个以上指令集或序列以及此类实例的任何组合。程序或代码段可存储于处理器可读媒体中或由体现在载波中的计算机数据信号经由传输媒体或通信链路进行传输。

本文中所揭示的方法、方案和技术的实施方案还可有形地体现为(例如，在本文中所列举的一个或一个以上计算机可读存储媒体的有形计算机可读特征中)可由包含逻辑元件阵列(例如，处理器、微处理器、微控制器或其它有限状态机)的机器执行的一个或一个以上指令集。术语“计算机可读媒体”可包含可存储或传递信息的任何媒体，包含易失性、非易失性、可装卸以及非可装卸存储媒体。计算机可读媒体的实例包含电子电路、半导体存储器装置、ROM、快闪存储器、可擦除ROM(EROM)、软盘或其它磁性存储装置、CD-ROM/DVD或其它光学存储装置、硬盘或可用于存储所需信息的任何其它媒体、光纤媒体、射频(RF)链路，或可用于携载所需信息且可被存取的任何其它媒体。计算机数据信号可包含可经由传输媒体(例如电子网络通道、光纤、空气、电磁、RF链路等)传播的任何信号。代码段可经由例如因特网或内联网等计算机网络来下载。在任何情况下，本发明的范围不应被解释为受此些实施例限制。

本文中所描述的方法的任务中的任一者可直接体现于硬件中，由处理器执行的软件模块中，或以上两者的组合中。在如本文中所揭示的方法的实施方案的典型应用中，逻辑元件(例如，逻辑门)阵列经配置以执行所述方法的各个任务中的一者、一者以上或甚至全部。所述任务中的一者或一者以上(可能全部)还可实施为在计算机程序产品(例如，一个或一个以上数据存储媒体，例如磁盘、快闪或其它非易失性存储器卡、半导体存储器芯片等)中体现的代码(例如，一个或一个以上指令集)，所述计算机程序产品可由包含逻辑元件阵列(例如，处理器、微处理器、微控制器或其它有限状态机)的机器(例如，计算机)读取且/或执行。本文中所揭示的方法的实施方案的任务还可由一个以上此类阵列或机器执行。在这些或其它实施方案中，所述任务可在用于无线通信的装置内执行，所述装置例如为蜂窝式电话或具有此通信能力的其它装置。此装置可经配置以与电路交换及/或包交换网络通信(例如，使用一个或一个以上协议(例如VoIP))。举例来说，此装置可包含经配置以接收和/或发射经编码帧的RF电路。

明确揭示，本文中所揭示的各种方法可由例如手持机、耳机或便携式数字助理(PDA)等便携式通信装置执行，且本文中所描述的各种设备可包含于此类装置内。典型的实时(例如，在线)应用是使用此类移动装置进行的电话会话。

在一个或一个以上示范性实施例中，可以硬件、软件、固件或其任何组合来实施本文中所描述的操作。如果以软件实施，则可将此些操作作为一个或一个以上指令或代码而存储在计算机可读媒体上或经由计算机可读媒体进行传输。术语“计算机可读媒体”包含计算机可读存储媒体和通信(例如，传输)媒体两者。举例来说而非限制，计算机可读存储媒体可包括存储元件阵列，例如半导体存储器(其可包含(非限制)动态或静态RAM、ROM、EEPROM和/或快闪RAM)，或铁电、磁阻、双向、聚合或相变存储器；CD-ROM或其它光盘存储装置；和/或磁盘存储装置或其它磁性存储装置。此类存储媒体可以指令或数据结构的形式存储可由计算机存取的信息。通信媒体可包括可用于以指令或数据结构的形式携载所需程序代码且可由计算机存取的任何媒体，包含促进将计算机程序从一处传递到另一处的任何媒体。同样，可恰当地将任何连接称作计算机可读媒体。举例来说，如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电和/或微波的无线技术从网站、服务器或其它远程源传输软件，则同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电和/或微波的无线技术包含于媒体的定义中。如本文中所使用，磁盘及光盘包括压缩光盘(CD)、激光光盘、光盘、数字多功能光盘(DVD)、软盘及Blu-ray Disc^TM(蓝光光盘协会，加利福尼亚州环球城(Universal City,CA))，其中磁盘通常以磁性方式再现数据，而光盘用激光以光学方式再现数据。以上各者的组合也应包含在计算机可读媒体的范围内。

如本文中所描述的声信号处理设备可并入到电子装置中，所述电子装置接收语音输入以便控制某些操作，或可另外受益于所需噪声与背景噪声的分离，所述电子装置例如为通信装置。许多应用可受益于增强清晰的所需声音或分离清晰的所需声音与源自多个方向的背景声音。此些应用可包含电子或计算装置中的人机接口，其并入有例如话音辨识及检测、语音增强及分离、话音激活式控制等能力。可能需要在仅提供有限处理能力的装置中合适地实施此类声信号处理设备。

本文中所描述的模块、元件和装置的各种实施方案的元件可被制造成驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片中的电子和/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如，晶体管或门)的阵列。本文中所描述的设备的各种实施方案的一个或一个以上元件还可全部地或部分地实施为经布置以在一个或一个以上固定或可编程逻辑元件阵列(例如，微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA、ASSP及ASIC)上执行的一个或一个以上指令集。

有可能使如本文中所描述的设备的实施方案的一个或一个以上元件用于执行任务或执行并非与所述设备的操作直接相关的其它指令集，例如与嵌入有所述设备的装置或系统的另一操作相关的任务。还有可能使此设备的实施方案的一个或一个以上元件具有共同结构(例如，用于在不同时间执行对应于不同元件的代码部分的处理器、经执行以在不同时间执行对应于不同元件的任务的指令集，或在不同时间对不同元件执行操作的电子及/或光学装置的布置)。

Claims

1.一种向量量化方法，所述方法包括：

通过在第一码簿的多个第一码簿向量中选择对应第一码簿向量来量化具有第一方向的第一输入向量；

产生基于选定的第一码簿向量的旋转矩阵；

计算(A)具有所述第一方向的向量与(B)所述旋转矩阵的乘积以产生具有与所述第一方向不同的第二方向的经旋转向量；以及

通过在第二码簿的多个第二码簿向量中选择对应第二码簿向量来量化具有所述第二方向的第二输入向量。

2.根据权利要求1所述的方法，其中在所述多个第一码簿向量和所述多个第二码簿向量中的每一者是单位范数向量。

3.根据权利要求1和2中任一权利要求所述的方法，其中所述量化第一输入向量包含基于所述第一输入向量的增益值从多个码簿中选择所述第一码簿。

4.根据权利要求1和2中任一权利要求所述的方法，其中对于在所述多个第一码簿向量中的每一者，所述第一输入向量与所述码簿向量的内积不大于所述第一输入向量与所述选定的第一码簿向量的内积。

5.根据权利要求1和2中任一权利要求所述的方法，其中所述第一输入向量是在音频信号的一帧的多个子频带向量中的一者，且

其中所述方法包含基于所述音频信号的先前帧的平均增益值来编码所述多个子频带向量的平均增益值。

6.根据权利要求1和2中任一权利要求所述的方法，其中所述旋转矩阵的至少一行的元素中的每一者是基于所述选定的第一码簿向量的对应元素。

7.根据权利要求1和2中任一权利要求所述的方法，其中所述旋转矩阵的至少一列的元素中的每一者是基于所述选定的第一码簿向量的对应元素。

8.根据权利要求1和2中任一权利要求所述的方法，其中所述旋转矩阵是基于与所述第一输入向量无关的参考向量。

9.根据权利要求8所述的方法，其中所述参考向量具有仅一个非零元素。

10.根据权利要求8所述的方法，其中所述旋转矩阵定义所述选定的第一码簿向量在包含所述选定的第一码簿向量和所述参考向量的平面内到所述参考向量的方向的旋转。

11.根据权利要求1和2中任一权利要求所述的方法，其中通过计算所述旋转矩阵与所述第一输入向量的乘积来执行所述计算具有所述第一方向的所述向量与所述旋转矩阵的所述乘积。

12.根据权利要求1和2中任一权利要求所述的方法，其中所述选定的第一码簿向量是基于单位脉冲的模式。

13.一种用于向量量化的设备，所述设备包括：

用于通过在第一码簿的多个第一码簿向量中选择对应第一码簿向量来量化具有第一方向的第一输入向量的装置；

用于产生基于选定的第一码簿向量的旋转矩阵的装置；

用于计算(A)具有所述第一方向的向量与(B)所述旋转矩阵的乘积以产生具有与所述第一方向不同的第二方向的经旋转向量的装置；以及

用于通过在第二码簿的多个第二码簿向量中选择对应第二码簿向量来量化具有所述第二方向的第二输入向量的装置。

14.根据权利要求13所述的设备，其中在所述多个第一码簿向量和所述多个第二码簿向量中的每一者是单位范数向量。

15.根据权利要求13和14中任一权利要求所述的设备，其中所述用于量化第一输入向量的装置经配置以基于所述第一输入向量的增益值从多个码簿中选择所述第一码簿。

16.根据权利要求13和14中任一权利要求所述的设备，其中对于在所述多个第一码簿向量中的每一者，所述第一输入向量与所述码簿向量的内积不大于所述第一输入向量与所述选定的第一码簿向量的内积。

17.根据权利要求13和14中任一权利要求所述的设备，其中所述第一输入向量是在音频信号的一帧的多个子频带向量中的一者，且

其中所述设备包含用于基于所述音频信号的先前帧的平均增益值来编码所述多个子频带向量的平均增益值的装置。

18.根据权利要求13和14中任一权利要求所述的设备，其中所述旋转矩阵的至少一行的元素中的每一者是基于所述选定的第一码簿向量的对应元素。

19.根据权利要求13和14中任一权利要求所述的设备，其中所述旋转矩阵的至少一列的元素中的每一者是基于所述选定的第一码簿向量的对应元素。

20.根据权利要求13和14中任一权利要求所述的设备，其中所述旋转矩阵是基于与所述第一输入向量无关的参考向量。

21.根据权利要求20所述的设备，其中所述参考向量具有仅一个非零元素。

22.根据权利要求20所述的设备，其中所述旋转矩阵定义所述选定的第一码簿向量在包含所述选定的第一码簿向量和所述参考向量的平面内到所述参考向量的方向的旋转。

23.根据权利要求13和14中任一权利要求所述的设备，其中所述用于计算乘积的装置经配置以通过计算所述旋转矩阵与所述第一输入向量的乘积来计算具有所述第一方向的向量与所述旋转矩阵的所述乘积。

24.根据权利要求13和14中任一权利要求所述的设备，其中所述选定的第一码簿向量是基于单位脉冲的模式。

25.一种对经量化的向量进行解量化的方法，所述经量化的向量包含第一码簿索引和第二码簿索引，所述方法包括：

从第一码簿的多个第一码簿向量中选择由所述第一码簿索引指示的第一码簿向量；

产生基于选定的第一码簿向量的旋转矩阵；

从第二码簿的多个第二码簿向量中选择由所述第二码簿索引指示且具有第一方向的第二码簿向量；

计算(A)具有所述第一方向的向量与(B)所述旋转矩阵的乘积以产生具有与所述第一方向不同的第二方向的经旋转向量。

26.一种用于对经量化的向量进行解量化的设备，所述经量化的向量包含第一码簿索引和第二码簿索引，所述设备包括：

用于从第一码簿的多个第一码簿向量中选择由所述第一码簿索引指示的第一码簿向量的装置；

用于产生基于选定的第一码簿向量的旋转矩阵的装置；

用于从第二码簿的多个第二码簿向量中选择由所述第二码簿索引指示且具有第一方向的第二码簿向量的装置；

用于计算(A)具有所述第一方向的向量与(B)所述旋转矩阵的乘积以产生具有与所述第一方向不同的第二方向的经旋转向量的装置。