CN101317218A

CN101317218A - 用于频域波形对准的系统、方法和设备

Info

Publication number: CN101317218A
Application number: CNA2006800449175A
Authority: CN
Inventors: 沙拉特·曼朱纳特; 阿南塔帕德马纳卜汉·A·坎达达伊
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2005-12-02
Filing date: 2006-12-01
Publication date: 2008-12-03
Anticipated expiration: 2026-12-01
Also published as: CN101317218B; EP1955320A2; KR20080085007A; JP4988757B2; JP2009518666A; TW200802302A; WO2007120308A2; TWI358056B; WO2007120308A3; KR101019936B1; US20070185708A1; US8145477B2

Abstract

本发明所描述的系统、方法和设备包括波形对准操作，在所述操作中使用单组经评估的余弦和正弦来计算两个不同相移处的两个周期性波形的交叉相关性。

Description

用于频域波形对准的系统、方法和设备

相关申请案

本申请案主张2005年12月2日申请的题为“频域对准计算的复杂性降低”的第60/742,116号(代理人案号050296P1)美国临时专利申请案的优先权。

技术领域

本发明涉及信号处理。

背景技术

原型波形编码方案通常包括原型对准操作以支持平滑展开的波形。可将所述对准计算为时域或频域中的一系列交叉相关性。

发明内容

一种对准两个周期性语音波形的方法包括对于在一范围内的第一多个相移中的每一者进行以下动作：(1)评估基于所述相移的多个角中的每一者的至少一个三角函数；和(2)基于经评估的三角函数，计算第一和第二相关性度量。第一相关性度量为(A)所述两个周期性语音波形中移位了所述相移的第一波形与(B)所述两个周期性语音波形中的第二波形之间的相关性的度量。第二相关性度量为(C)所述两个周期性语音波形中移位了一超出所述范围的相移的第一波形与(D)所述两个周期性语音波形的第二波形之间的相关性的度量。

一经配置以对准两个周期性语音波形的设备包括评估装置，其用于对于一范围内的第一多个相移中的每一者评估基于所述相移的多个角中的每一者的至少一个三角函数。所述设备还包括计算装置，其用于对所述第一多个相移中的每一者计算：(1)基于角的经评估的三角函数而计算第一相关性度量，所述角是基于所述相移，和(2)基于角的经评估的三角函数而计算第二相关性度量，所述角是基于所述相移。第一相关性度量为(A)所述两个周期性语音波形中移位了所述相移的第一波形与(B)所述两个周期性语音波形中的第二波形之间的相关性的度量。第二相关性度量为(C)所述两个周期性语音波形中移位了一超出所述范围的相移的第一波形与(D)所述两个周期性语音波形中的第二波形之间的相关性的度量。

经配置以对准两个周期性语音波形的另一设备包括三角函数评估器，其经配置以对于一范围内的第一多个相移中的每一者评估基于所述相移的多个角中的每一者的至少一个三角函数。所述设备还包括计算器，其经配置以对所述第一多个相移中的每一者计算：(1)基于角的经评估的三角函数而计算第一相关性度量，所述角是基于所述相移，和(2)基于角的经评估的三角函数而计算第二相关性度量，所述角是基于所述相移。第一相关性度量为(A)所述两个周期性语音波形中移位了所述相移的第一波形与(B)所述两个周期性语音波形中的第二波形之间的相关性的度量。第二相关性度量为(C)所述两个周期性语音波形中移位了一超出所述范围的相移的第一波形与(D)所述两个周期性语音波形中的第二波形之间的相关性的度量。

附图说明

图1展示根据一种配置的方法M100的流程图。

图2展示对准两个周期性语音波形的方法的伪码列表的实例。

图3展示对准任务T400的实施方案的伪码列表的实例。

图4展示对准任务的另一实施方案的伪码列表的实例。

图5展示对准任务T400的另一实施方案的伪码列表的实例。

图6展示编码模式选择方案的图。

图7A展示根据所揭示配置的设备100的框图。

图7B展示原型对准器140的实施方案142的框图。

图8分别展示任务T400、T500的实施方案T410、T510的应用的实例。

图9A展示方法M100的实施方案M200的流程图。

图9B展示设备100的实施方案200的框图。

具体实施方式

最现行的语音编码器包括使一语音帧分解为一组线性预测编码(LPC)系数和一余留部分的操作。由于编码所述余留部分占用大量经编码的信号流，因此已开发各种方案以减少编码余留部分所需的位速率。

对于无声语音区段(诸如摩擦音)，可以一随机噪声替代余留部分的全部或部分。对于有声语音区段(诸如元音)，余留信号显示出高度周期性，其意味至少一些样本可被内插。事实上，使用诸如码受激线性预测(CELP)的编码技术以在低量化速率下编码一有声语音区段可能无法保持周期性的程度。

可用于在低位速率下存储或传输有声语音区段的编码方案包括原型音高周期(PPP)编码器和原型波形内插(PWI)编码器。这些编码方案周期性地在余留信号中定位具有一个音高周期的长度的原型波形。在解码器处，在原型之间若干周期中内插余留信号以获取原始高周期性波形的近似。

通常周期性仅在强有声区段期间为强的，使得对于强度较低的有声或无声语音模式而言可能甚至不存在音高周期。使用PPP或PWI编码器编码一语音信号的所有区段(包括非周期性语音区段)可能产生较差的整体结果。一种解决办法为对有声和无声语音使用不同编码方案。举例而言，PPP或PWI方案可用于有声区段且CELP方案可用于无声区段。可根据对语音信号中的周期性的测量来执行编码方案之间的切换，可使用零交叉或正规化自相关函数计算所述周期性。

另一解决办法为将PWI方案扩展为波形内插(WI)方案。在WI编码方案中，将原型波形(现称作代表波形或特征波形)分解为一平滑展开波形(SEW)和一快速展开波形(REW)。SEW模型化与音高相关的分量而REW模型化变化更快的分量。这两个波形通常具有极其不同的感知要求且可被单独量化。

除非另有明确叙述，否则术语″原型″和″原型波形″在本文中用以包括任何周期性语音波形，诸如包括至少一缓慢展开波形(SEW)的波形。可用于这些波形的其他术语为″特征波形″和″代表波形″，其有时用以指示可包括SEW与REW两者的波形。因此，应了解，明确构想和在此揭示了本文中所描述的原理对PPP、PWI和WI编码方案的应用。

图1展示编码一语音帧的余留信号的方法M100。一帧为一语音信号的区段，其足够短而使得其长期频谱特征相对稳定。典型帧长度为20毫秒。任务T100提取所述帧的音高延迟值(或″音高周期″)L。所述操作还称作″音高估计″。对于以8kHz取样的语音信号而言，所述音高延迟值通常在约20到约120的范围内(分别对应于400Hz和67Hz的基频)。

任务T100可包括确定余留信号中具有最大绝对值的样本之间的平均距离。或者，任务T100可经配置以确定会最大化一帧或窗的自相关的延迟，所述窗诸如为候选音高周期(例如，先前帧的音高周期)两倍大的窗。所述自相关操作的结果还可用以支持对所述帧为有声还是无声进行确定。在某些状况下(尤其对于WI编码方案)，任务T100可包括校验大约L/2和L/3个样本的局部最大值以避免音高双倍或三倍增加。可能通过对具有较高取样率的信号(例如，对以8kHz到16kHz重新取样的信号)执行音高估计而减小音高的双倍或三倍增加。

任务T200从余留帧中提取长度L的原型。任务T200通常经配置以从帧的最后的音高周期中提取原型。可能需要确保余留信号的高能量区域不出现在原型的开始或结束时，因为此种布局可能会导致邻近原型之间的不连续性。在一个实例中，任务T200经配置以提取原型以使得在原型开始和结束时的能量的和得以最小化。在另一实例中，任务T200经配置以提取原型以使得从原型内具有最高量值(即，主峰值)的样本到所述原型任一端的距离不小于一特定数目的样本(例如，六个)或L的一特定比例(例如，25％)。

还可能配置任务T200以在每个帧中提取一个以上原型。在WI编码方案中，例如，可能需要在每个帧中提取高达八个或八个以上原型。在此状况下，可能还需要获取更频繁的音高估计。在某些状况下，在每帧中执行音高提取一次或两次，且使用诸如线性内插(对于值相近的音高值)和/或逐步内插(当邻近音高值之间的差较大时)的方法将额外音高值(例如，每帧总共八个值)内插于被提取的音高值之间。

经提取的原型s通常在时域中表示成长度L的序列s[n]，其中样本指数n∈[0，L-1]且L为音高周期。原型还可在频域中表示成周期L的周期性信号。通过使用离散傅立叶级数(DFS)表示法，例如，原型s可表示成基频1/L的谐波的和，每一谐波由各别频谱对或DFS系数a[k]、b[k]加权：

在所述表达式中，k为指示基频的第k个谐波的指数，其中原型s中的谐波在从第零个谐波(k＝0，指示DC分量)和第一个谐波(k＝1，指示基频)直到第

个谐波(

指示原型中基频的最高谐波)的范围中变动。在表达式(1)中，如在时域表示法中，样本指数n具有范围0≤n＜(L-1)。然而，在表达式(1)的频域表示法中，n不需要为整数值，以使得表达式(1)可用以在n的分数值下评估s。

方法M100包括计算一组DFS系数的任务T300。举例而言，任务T300可经配置以根据如下表达式计算DFS系数a[k]、b[k]：

a [k] = z [k] Σ_{n = 0}^{L - 1} s [n] \cos (\frac{2 πkn}{L}), - - - (2 a)

b [k] = z [k] Σ_{n = 0}^{L - 1} s [n] \sin (\frac{2 πkn}{L}), - - - (2 b)

其中z[0]等于1/L，z[L/2]等于1/L(L为偶数)，且z[k]否则等于2/L。在表达式(1)中，系数b[0]为冗余的，因为对于k＝0，

为零。系数a[0]也可被忽略，因为所述系数表示原型的DC分量，其在感观上为不相关的。因此任务T300可经配置以针对范围

计算DFS系数且表达式(1)可简化为如下：

需要波形从一个原型平滑展开到下一原型。为了支持原型之间的平滑内插，需要对准邻近原型。举例而言，可能需要将当前帧的原型与诸如先前帧的原型的参考物对准。所述对准还可支持原型的更有效的量化。对于所述参考原型，通常需要使用一将在解码器处可见的经解码(例如，解量化)的原型。

可在时域中或在频域中执行原型对准。在时域中，可通过识别时间移位x^＊执行原型对准，所述时间移位产生一个原型与循环旋转式时间移位型式的另一原型的最大交叉相关性：

x^{*} = \underset{x}{\arg \max} Σ_{n = 0}^{L - 1} s^{c} [n] s^{r} [(n + x) \mod L] - - - (4)

其中x为时间移位(以样本数为单位测量)，s^c表示当前原型，且s^r表示参考原型。接着可将经识别的移位x^＊应用于参考原型以使得两个原型的特征为时间对准的。在此实例中，参考原型相对于当前原型移位，然而在其他实例中所述操作经配置以使得替代地将时间移位x应用于当前原型。

可能需要替代地在频域中执行原型对准，以使得按相位而非按时间对准原型。举例而言，在频域中可容易完成对不同长度原型的对准，因为在时域中执行所述操作可能需要时间偏差以将一个原型的长度匹配于另一原型。还可能通过在频域中执行对准操作(尤其对于分数相移)而实现计算复杂性的减少。

在频域中，可通过识别相移r^＊执行对准操作，所述相移产生一个原型与相移型式的另一原型的最大交叉相关性：

其中a_n[k]，b_n[k]指示参考原型的DFS系数且a_n+1[k]，b_n+1[k]指示当前原型的DFS系数。对于在对准范围内的r值0≤r＜L(所述值可为分数)重复所述交叉相关性以确定使原型之间的相关性最大的相移r^*。图2展示可用以执行表达式(5)的计算的伪码列表的一个实例。

尽管频域中的对准计算可产生优于时域中的此计算的某些优势，然而对于每一对待对准的原型，表达式(5)的评估在计算上密集且可在原型编码系统中代表整体计算负担的一显著部分。

可以所要相位取样率在对准范围0≤r＜L内执行表达式(5)的计算。或者，PWI编码器可经配置以应用一递归方案，其中以粗分辨率但在整个对准范围内执行第一系列的移位。在每一递归级，将所识别的移位提供为下一级的参数，所述参数以较精分辨率但在包括所识别的移位的较小对准范围内执行另一系列的移位。递归在所述系列的移位以目标分辨率完成时结束。然而，所述方案可能不适合有声语音，因为局部相关最大值比全局相关最大值更有可能被发现。

方法M100经配置以通过一不同技术执行有效对准，但明确涵盖且藉此揭示了同样包括所述递归的方法M100的其他实施方案。根据所述技术的一类实施方案，任务T400计算原型之间的对准以使得为单一组经评估的余弦和正弦值执行两个不同相移的交叉相关性。与由表达式(5)描述的操作相比，可应用所述技术以使一原型对准操作的三角函数评估的数目减少约一半。

任务T400经配置以使用每一组经评估的余弦和正弦值计算对准范围0≤r＜L内两个不同相移值r的原型交叉相关性(可能除对应于0或π弧度的角的集合以外)。对表达式(5)进行如下修改，而开始对所述技术的开发进行一种阐述：

在表达式(6)中，使r和L-r的相移的相关性配对。(应了解，所述配对等效于+r与-r的配对相移。)通过应用如下三角恒等式，可利用这些经配对相移的余弦与正弦之间的关系：

cos(u-v)＝cosu cosv+sinu sinv，(7a)

sin(u-v)＝sinu cosv-cosu sinv。(7b)

将这些恒等式与方程式

\frac{2 πk (L - r)}{L} = 2 πk - \frac{2 πkr}{L}

组合，且对于整数k，cos(2πk)＝1且sin(2πk)＝0，可建立

\cos (\frac{2 πk (L - r)}{L}) = \cos (\frac{2 πkr}{L}), - - - (8 a)

\sin (\frac{2 πk (L - r)}{L}) = - \sin (\frac{2 πkr}{L}) . - - - (8 b)

结果(8a)和(8b)可用以修改表达式(6)如下。对于在评估范围内的每一r值，相同余弦和正弦值用以计算如下两个表达式(9A)和(9B)，且产生最大结果的表达式被确定为：

如果产生最大结果的表达式为表达式(9A)中的一者，则r^＊被指定为值r。如果产生最大结果的表达式为表达式(9B)中的一者，则r^＊被指定为值-r。因此，可见对于表达式(9A-B)中的每一r值，所述组经评估的余弦和正弦值用以计算两个不同相移值的交叉相关性(r＝0或r＝L/2的状况除外，其中在表达式(9A)和(9B)中的相移值相等。)以此方式或类似方式，任务T400经配置以在相移评估范围

内(对应于r＝0或r＝L/2的集合除外)使用每一组经评估的余弦和正弦值来计算对准范围0≤r＜L内两个不同相移值r的原型交叉相关性。图3展示一伪码列表的一个实例，所述伪码列表可由任务T400的实施方案用以执行表达式(9)的计算。

可能需要在对准前对原型执行频谱加权。举例而言，可能需要使用LPC系数恢复共振峰结构中的某些，其中可能采用共振峰频率下一定的去加重(de-emphasis)。在一种此实施方案中，任务T400经配置以将当前原型填零至长度2L、经配置以通过一具有零记忆的加权LPC综合型滤波器(例如，使用当前帧的最后子帧的LPC系数)而滤波所述信号，且经配置以通过将经滤波信号的第n个样本添加到第(n+L)个样本(0≤n＜L)而获取长度L的感观加权原型。

以上交叉相关性最大化表达式(4)、(5)、(6)和(9)假定原型具有相等长度。在频域中，不相等长度的两个原型可通过按频谱截取较长原型和/或通过对较短原型填零而得以正规化。在WI编码方案中，一个原型的长度可为另一原型的长度的约两倍或三倍(例如，由于音高增至两倍或三倍)。在此状况下，可通过插入零振幅谐波而周期性地扩展较短原型。任务T400可经配置以在原型对准前执行一个或一个以上此类长度正规化操作。

在以上表达式(5)、(6)和(9)中，可注意到这些表达式均包括(对于原型的每一谐波分量)基于原型的DFS系数，使每一经评估的余弦与相同因子相乘，且基于原型的DFS系数，使每一经评估的正弦与相同因子相乘。可通过预先计算这些因子且存储所述因子(例如，因子X_k和Y_k)实现计算复杂性的进一步减少。以此方式，表达式(5)可简化为如下：

图4展示使用根据表达式(10)的简化的原型对准任务的伪码列表的一个实例。

同样地，预先计算因子X_k和Y_k可用以简化表达式(9A-B)如下：

图5展示使用所述简化的任务T400实施方案的伪码列表的实例。

任务T500经配置以将对应于最大交叉相关性的相移(例如，r^＊)应用于当前原型。举例来说，任务T500可经配置以在时域中将(例如，r^＊个样本的)循环旋转应用于原型或在频域中旋转原型(例如，旋转

弧度的角)。任务T500还可经配置以对所述对准的原型执行频谱加权操作(例如，感观加权操作)。

任务T600经配置以量化原型(例如，用于有效传输和/或存储)。所述量化可包括原型的增益正规化以用于功率和形状的单独量化。另外或其他，所述量化可包括将DFS系数分解为振幅和相位向量以便单独量化和/或子取样。所述正规化和/或分解操作可支持更多有效的向量量化，因为所得向量可与语音信号的其他原型的这些向量更高度地相关。

在方法M100的另一实施方案中，任务T400经配置以对原型的不同频带单独执行原型对准，以使得可针对不同频带的每一者获取一不同相移。在此状况下，任务T500可经配置以将各个相移应用于对应频带内的原型的谐波分量，且任务T600可经配置以根据频带划分对原型的相位向量进行子取样(例如，以使得针对每一频带编码一个相位值)。

在WI编码方案中，可将一滤波器组(例如，包括一高通滤波器和一低通滤波器)应用于对准的原型以分离SEW与REW以供进一步处理和/或单独量化。

图6展示操作(包括编码模式选择)的流程图，其可由经配置以处理用于传输的语音样本的语音编码器的一个实例来执行。在任务400中，所述语音编码器以连续帧接收一语音信号的数字样本。在接收一给定帧后，语音编码器进行到任务402。在任务402中，语音编码器检测帧的能量。所述能量为帧的语音活动的度量。通过对数字化语音样本振幅的平方进行求和且比较所得能量与一阈值来执行语音检测。任务402可经配置以基于背景噪声的变化程度来调整所述阈值。一示范性可变阈值语音活动检测器在美国专利第5,414,796号(Jacobs等人，1995年5月9日颁发)中有描述。一些无声语音声音可为极低能量的样本，其可能被错误地编码为背景噪声。为了减少发生此错误的可能性，可使用低能量样本的频谱倾斜(例如，第一反射系数)来区别无声语音与背景噪声，如上述美国专利第5,414,796号中所描述。

在检测帧的能量后，语音编码器进行到任务404。在任务404中，语音编码器确定所检测的帧能量是否足以将帧分类为含有语音信息。如果所检测的帧能量下降到低于一预定阈值水平，则语音编码器进行到任务406。在任务406中，语音编码器将帧编码为背景噪声(即，无声)。在一个配置中，以1/8速率或1kbps编码背景噪声帧。如果在任务404中，所检测的帧能量满足或超过预定阈值水平，则将帧分类为语音且语音编码器进行到任务408。

在任务408中，语音编码器确定帧是否为无声语音。举例而言，任务408可经配置以检查帧的周期性。各种已知周期性确定方法包括，例如，使用零交叉和使用正规化自相关函数(NACF)。特定来说，使用零交叉和NACF以检测周期性在美国专利第5,911,128号(DeJaco，于1999年6月8日颁发)和第6,691,084号(Manjunath等人，于2004年2月10日颁发)中予以描述。另外，用以区别有声语音与无声语音的以上方法并入电信行业协会临时标准TIA/EIA IS-127和TIA/EIA IS-733中。如果在任务408中确定帧为无声语音，则语音编码器进行到任务410。在任务410中，语音编码器将所述帧编码为无声语音。在一种配置中，以四分之一速率或2.6kbps编码无声语音帧。如果在任务408中确定帧并非为无声语音，则语音编码器进行到任务412。

在任务412中，语音编码器确定所述帧是否为过渡语音。任务412可经配置以使用此项技术(例如，在美国专利第5,911,128号中所描述)中已知的周期性检测方法。如果确定帧为过渡语音，则语音编码器进行到任务414。在任务414中，将帧编码为过渡语音(即，从无声语音过渡到有声语音)。在一种配置中，根据在美国专利第6,260,017号(Das等人，于2001年7月10日颁发)中所描述的多脉冲内插编码方法来编码所述过渡语音帧。CELP方案也可用以编码过渡语音帧。在另一配置中，以全速率或13.2kbps编码过渡语音帧。

如果在任务412中，语音编码器确定所述帧并非为过渡语音，则语音编码器进行到任务416。在任务416中，语音编码器将所述帧编码为有声语音。在一种配置中，可使用本文中所描述的PPP编码方案或其他原型编码方案以二分之一速率(例如，6.2kbps)或四分之一速率编码有声语音帧。还可能使用PPP或其他编码方案以全速率(例如，13.2kbps或在8k CELP编码器中8kbps)编码有声语音帧。然而，所属领域的技术人员应了解以二分之一或四分之一速率编码有声帧允许编码器通过利用有声帧的稳态特性而保存有价值的带宽。此外，不管用以编码有声语音的速率，而使用来自过去帧的信息有利地编码有声语音，且因此有声语音以可预测方式加以编码。

图7A展示根据所揭示的配置的设备100的框图，所述配置可用于语音编码器、蜂窝式电话或用于语音编码和/或通信的其他设备中。设备100包括音高延迟提取器110，其经配置以提取帧的音高延迟值(或″音高周期″)L。举例而言，音高延迟提取器110可经配置以从一线性预测(LP)分析模块接收一余留信号，所述模块经配置以将一语音信号的帧分解为一组LPC系数和余留信号。音高延迟提取器110可经配置以对余留信号执行本文中所描述的任务T100的实施方案。在一个实例中，音高延迟提取器110经配置以通过确定余留信号中具有最大绝对值的样本之间的平均距离而提取音高周期。或者，音高延迟提取器110可经配置以确定最大化一帧或窗的自相关的延迟，所述窗诸如为候选音高周期(例如，先前帧的音高周期)两倍大的窗。所述自相关操作的结果还可用以支持对所述帧为有声还是无声进行确定。在某些状况下(尤其对于WI编码方案)，音高延迟提取器110可经配置以校验大约L/2和L/3个样本的局部最大值(例如，以避免使音高增至两倍或三倍)。

设备110包括原型提取器120，其经配置以从余留帧提取长度L的原型(例如，根据本文中所描述的任务T200的实施方案)。原型提取器120通常经配置以从帧的最后音高周期提取原型。在一个实例中，原型提取器120经配置以提取原型以使得最小化在原型开始和结束时的能量的和。在另一实例中，原型提取器120经配置以提取原型以使得从原型内具有最高量值(即，主峰值)的样本到原型任一端的距离不小于一特定数目的样本(例如，六个)或L的特定比例(例如，25％)。

原型提取器120还可经配置以每帧提取一个以上原型。在WI编码方案中，例如，可能需要原型提取器120每帧提取高达八个或八个以上原型。在此状况下，音高延迟提取器110可经配置以每帧提取一音高延迟值一次或两次，且使用诸如线性内插(对于值接近的音高值)和/或逐步内插(当邻近音高值之间的差较大时)的方法将额外音高值(例如，每帧总共八个值)内插于被提取的音高值之间。

设备100包括系数计算器130，其经配置以计算一组频谱系数(例如，DFS系数)。举例来说，系数计算器130可经配置以根据以上表达式(2a)和(2b)计算对应于基频1/L的谐波的一组DFS系数。可能需要系数计算器130经配置以计算一对系数a[k]、b[k]，其中每一k在范围

内。

设备100包括原型对准器140，其经配置以根据本文中所描述的任务T400的实施方案而计算两个原型(例如，当前帧的原型与先前帧的原型)之间的对准。举例来说，原型对准器140可经配置以计算原型之间的对准以使得为单一组经评估的余弦和正弦值执行两个不同相移的交叉相关性。

原型对准器140可经配置以使用每一组经评估的余弦和正弦值(可能除对应于0或π弧度的角的集合以外)计算对准范围0≤r＜L内两个不同相移r的原型交叉相关性。举例来说，原型对准器140可经配置以在相移评估范围

内(对应于r＝-0或r＝L/2的集合除外)使用每一组经评估的余弦和正弦值来计算对准范围0≤r＜L内两个不同相移值r的原型交叉相关性。原型对准器140可经配置以根据图3和图5中所示的伪码列表中任一者执行这些操作。

图7B展示原型对准器140的实施方案142的框图。三角函数评估器144经配置以在一评估范围(例如，

)内对多个第一相移中的每一者评估基于所述第一相移的多个角中的每一者的至少一个三角函数。计算器146经配置以为所述多个第一相移中的每一者计算两个原型之间的第一和第二相关性度量。第一相关性度量对应于原型中相对于另一相移而移位第一相移(例如，r)的一个相移。第二相关性度量对应于原型中相对于另一相移移位的相移超出评估范围(例如，-r或L-r)的的一个相移。比较器148经配置以在第一和第二相关性度量中识别最大值。

可能需要原型对准器140在对准前对原型执行频谱加权。在一种此实施例中，原型对准器140经配置以将当前原型填零至长度2L、经配置以通过一具有零记忆的加权LPC综合型滤波器(例如，使用当前帧的最后子帧的LPC系数)而滤波所述信号，且经配置以通过将经滤波信号的第n个样本添加到第(n+L)个样本(0≤n＜L)而获取长度L的感观加权原型。原型对准器140还可经配置以在计算对准前对原型中的一者或一者以上执行一个或一个以上本文中所描述的长度正规化操作。

设备100包括移相器150，其经配置以将对应于由原型对准器140识别的最大交叉相关性的相移(例如，r^＊)应用于当前原型。举例来说，移相器150可经配置以在时域中将(例如，r^＊个样本的)循环旋转应用于原型或在频域中旋转原型(例如，旋转

弧度的角)。移相器150还可经配置以对经对准的原型执行一频谱加权操作，诸如感观加权操作(例如，通过将一诸如感观加权滤波器的滤波器应用于经对准的原型)。

设备100包括原型量化器160，其经配置以量化原型(例如，用于有效传输和/或存储)。所述量化可包括原型的增益正规化以用于功率和形状的单独量化。另外或其他，所述量化可包括将DFS系数分解为振幅和相位向量以便单独量化。原型量化器160可经配置以根据如下方法中任何一者执行振幅和相位量化：每一分量的标量量化、分量组的向量量化、多级量化(向量、标量或混合的)、振幅和相位成对或成对分组地联合量化。

在设备100的另一实施方案中，原型对准器140经配置以对原型的不同频带单独执行原型对准，以使得可为不同频带的每一者获取一不同相移。在此状况下，移相器150可经配置以将各个相移应用于原型的在对应频带内的谐波分量，且原型量化器160可经配置以根据频带划分而子取样原型的相位向量(例如，以使得为每一频带编码一个相位值)。子取样相位和振幅信息以及PPP编码和解码的其他方面(例如)在美国专利第6,678,649号(Manjunath，于2004年1月13日颁发)中予以论述。

对于在WI编码方案中的使用，设备100可经配置以包括一滤波器组(例如，包括一高通滤波器和一低通滤波器)，其经配置以从移相器150接收经对准的原型且经配置以分离SEW与REW以供进一步处理和/或单独量化。

设备100的实施方案的各种元件可实施为驻存于(例如)相同芯片上或一芯片组中的两个或两个以上芯片中的电子装置和/或光学装置，然而还涵盖不具有所述限制的其他配置。所述设备的一个或一个以上元件可整体或部分地实施为一组或一组以上指令，所述指令经配置以在逻辑元件(例如，晶体管、门)的一个或一个以上固定或可编程阵列上执行，逻辑元件诸如为微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA(现场可编程门阵列)、ASSP(专用标准产品)和ASIC(专用集成电路)。

设备100的实施方案的一个或一个以上元件可能用以执行任务或执行不直接与设备的操作相关的其他组指令，诸如与嵌入有所述设备的装置或系统的另一操作相关的任务。设备100的实施方案的一个或一个以上元件还可能具有共同结构(例如，用以在不同时间执行对应于不同元件的代码部分的处理器、经执行以在不同时间执行对应于不同元件的任务的一组指令，或在不同时间对不同元件执行操作的电子装置和/或光学装置的配置)。

上述特定实例描述0≤r＜L的对准范围，其对应于0到2π弧度的角范围。然而，明确涵盖且因此揭示：本文揭示的对准方法(例如，任务T400、任务T400和T500的组合、或包括任务T400的另一方法)可大体上经配置以使用一组经评估的三角函数(例如，余弦和/或正弦)在围绕L/2(或围绕π弧度)对称的任一范围内执行针对两个不同角值的计算。同样，本文描述的对准方法可大体上经配置以使用一组经评估的三角函数在一较大范围的任一部分内执行针对两个不同角值的计算，其中所述部分围绕L/2(或围绕π弧度)对称。

图8展示任务T400、T500的实施方案T410、T510的应用的一个实例，其经配置以如上所述以不同的对准分辨率执行两个周期性波形(例如，原型)的渐进对准。图8A展示两个波形a和b的表示，其中L的值为100且标号指示沿着样本轴的指数值。用于参考，图式指示在波形之间产生最大交叉相关性的相移r^＊为73。换句话说，当将r^＊＝73的移位施加于波形b时波形对准。

在此方法中，反复执行任务T410和T510，直到实现所需的对准分辨率。为了保持对准范围以L/2为中心，任务T510经配置以在任务T410的每次反复之前移位波形中的一者。

在任务T410的第一次反复之前，任务T510将L/2(例如，π弧度)的移位应用于波形中的一者。图8B展示在任务T510已对波形b执行L/2的移位之后两个波形a和b的表示。任务T410的第一次反复接着以第一分辨率(在此实例中，以10的分辨率)计算在对准范围0≤r＜L(其中评估范围是

)上波形a和b的相关性。如图8B所指示，任务T410计算出针对此反复r₁ ^＊＝20的值。

在任务T410的第二次反复之前，任务T510将r₁ ^＊+L/2(在此实例中，70)的额外移位施加于波形b，如图8B所示。图8C展示在任务T510已执行此移位之后两个波形a和b的表示。任务T410的第二反复接着以第二分辨率计算在如阴影区域所示的减小的对准范围

\frac{L}{2} - v_{2} \leq r < \frac{L}{2} + v_{2}

内波形a和b的相关性(其中减小的评估范围是

如仅交叉阴影区域所示)(在此实例中，v₂＝10且第二分辨率为2)。如图8C指示，任务T410计算出针对此反复r₂ ^＊＝52的值。

在任务T410的第三次反复之前，任务T510将r₂ ^＊+L/2(在此实例中，102)的额外移位施加于波形b，如图8C所示。图8D展示在任务T510已执行此移位之后两个波形a和b的表示。任务T410的第三反复接着以第三分辨率计算在如阴影区域所示的减小的对准范围

\frac{L}{2} - v_{3} \leq r < \frac{L}{2} + v_{3}

内波形a和b的相关性(其中减小的评估范围是

如仅交叉阴影区域所示)(在此实例中，v₃＝5且第三分辨率为1)。如图8D指示，任务T410计算出针对此反复r₃ ^＊＝51的值。

在此实例中，反复的数目为3，且任务T410经配置以根据例如以下表达式计算r^＊的最终值：

r^{*} = \underset{i}{Σ} (r_{i}^{*} + \frac{L}{2}) \mod \frac{L}{2} .

如此实例中描述，此r^＊的表达式评估于70+2+1，或73。所属领域的技术人员将认识到，在此方法的等效实施方案中，可省略上文所述的L/2的初步相移，其中r^＊的表达式修改如下：

r^{*} = r_{1}^{*} \underset{i > 1}{Σ} (r_{i}^{*} + \frac{L}{2}) \mod \frac{L}{2}

图9A展示方法M100的实施方案M200的流程图，其分别包括任务T400和T500的实施方案T410、T510。图9B展示设备100的实施方案200的框图，其包含经配置以执行此反复方法的原型对准器140和移相器150的实施方案144、154。应了解，可例如根据图7B所示的实施方案142来实施原型对准器144。在此情况下，计算器146可另外经配置以如上所述计算r^＊的最终值，或原型对准器144和/或设备200可包括另一如此配置的计算器。

提供所述配置的上述陈述以使任何所属领域的技术人员能够制造或使用本文中揭示的方法和其他结构。对这些配置的各种修改为可能的，且本文中所提供的通用原理还可应用于其他配置。可从本文了解，例如，一配置可部分或整体地实施为一硬连线电路，实施为一被制造为专用集成电路的电路配置，或实施为一被载入到非易失性存储器中的固件程序，或作为机器可读代码从数据存储媒体载入或载入到所述数据存储媒体中的软件程序，所述代码为可由逻辑元件的阵列(诸如微处理器或其他数字信号处理单元)执行的指令。数据存储媒体可为存储元件的阵列，诸如半导体存储器(其可包括(不限于)动态或静态RAM(随机存取存储器)、ROM(只读存储器)和/或快闪RAM)，或铁电、磁阻、双向、聚合或相变存储器；或盘片媒体，诸如磁盘或光盘。术语″软件″应理解为包括源代码、汇编语言代码、机器代码、二进制代码、固件、宏码、微码、可由逻辑元件的阵列执行的指令的任何一个或一个以上集合或序列，和这些实例的任何组合。

本文中所揭示的方法中的每一者还可切实地实施(例如，在上文列出的一个或一个以上数据存储媒体中)为可由一包括逻辑元件的阵列(例如，处理器、微处理器、微控制器或其他有限状态机)的机器读取和/或执行的一个或一个以上指令集合。因此，本揭示案不希望限于上文所示的配置，而是应符合与在本文中以任何方式揭示的原理和新颖特征相一致的最广泛范围，所述范围包括在所申请的附加权利要求书中，所述权利要求书形成原始揭示内容的一部分。

Claims

1.一种对准两个周期性语音波形的方法，所述方法包含对于在评估范围内的多个第一相移中的每一者进行以下动作：

评估基于所述第一相移的多个角中的每一者的至少一个三角函数；

基于角的所述经评估的三角函数而计算第一相关性度量，所述角是基于所述第一相移；以及

基于角的所述经评估的三角函数而计算第二相关性度量，所述角是基于所述第一相移，

其中所述第一相关性度量为(A)所述两个周期性语音波形中移位了所述第一相移的第一波形与(B)所述两个周期性语音波形中的第二波形之间的相关性的度量；且

其中所述第二相关性度量为(C)所述两个周期性语音波形中移位了对应于所述第一相移且超出所述评估范围的多个第二相移中的一个第二相移的所述第一波形与(D)所述两个周期性语音波形中的所述第二波形之间的相关性的度量。

2.根据权利要求1所述的对准方法，其中所述方法包含识别所述第一相关性度量和所述第二相关性度量中的最大值。

3.根据权利要求1所述的对准方法，其中所述方法包含在所述最大值为所述第一相关性度量中的一者的情况下，将对应于所述第一相关性度量和所述第二相关性度量中所述识别的最大值的所述第一相移应用于所述两个周期性语音波形中的所述第一波形，以及

在所述最大值为所述第二相关性度量中的一者的情况下，将对应于所述第一相关性度量和所述第二相关性度量中所述识别的最大值的所述第二相移应用于所述两个周期性语音波形中的所述第一波形。

4.根据权利要求1所述的对准方法，其中对于所述多个第一相移中的每一者，基于所述第一相移的所述多个角中的每一者对应于原型的不同谐波频率。

5.根据权利要求1所述的对准方法，其中所述评估至少一个三角函数包含评估基于所述第一相移的所述多个角中的每一者的余弦。

6.根据权利要求1所述的对准方法，其中所述评估至少一个三角函数包含评估基于所述第一相移的所述多个角中的每一者的余弦和正弦。

7.根据权利要求1所述的对准方法，其中所述计算第一相关性度量包括计算(E)所述经评估的余弦的乘积与(F)所述经评估的正弦的乘积的多个和，且其中所述计算第二相关性度量包括计算(G)所述经评估的余弦的乘积与(H)所述经评估的正弦的乘积的多个差。

8.根据权利要求1所述的对准方法，其中所述两个周期性语音波形中的所述第一波形是基于一从语音信号的第一时间部分的余留部分提取的原型波形，且其中所述两个周期性语音波形中的所述第二波形是基于一从所述语音信号的第二时间部分的余留部分提取的原型波形。

9.根据权利要求8所述的对准方法，其中所述两个周期性语音波形中的每一者的长度等于所述语音信号的所述第一时间部分和所述第二时间部分中的至少一者的音高周期。

10.根据权利要求1所述的对准方法，其中所述评估范围在零弧度到π弧度的范围内，包括零弧度和π弧度。

11.根据权利要求1所述的对准方法，其中对于所述多个第一相移中的每一者，所述对应的第二相移在π弧度到(两倍π)弧度的范围内。

12.一种数据存储媒体，其具有描述根据权利要求1所述的方法的机器可执行指令。

13.一种经配置以对准两个周期性语音波形的设备，所述设备包含：

评估装置，其用于对于评估范围内的多个第一相移中的每一者，评估基于所述第一相移的多个角中的每一者的至少一个三角函数；以及

计算装置，其用于对于所述多个第一相移中的每一者，(1)基于角的所述经评估的三角函数而计算第一相关性度量，所述角是基于所述第一相移，和(2)基于角的所述经评估的三角函数而计算第二相关性度量，所述角是基于所述第一相移，

其中所述第二相关性度量为(C)所述两个周期性语音波形中移位了多个第二相移中对应于所述第一相移且超出所述评估范围的一个第二相移的所述第一波形与(D)所述两个周期性语音波形中的所述第二波形之间的相关性的度量。

14.根据权利要求13所述的设备，其中所述设备包含识别装置，所述识别装置用于识别所述第一相关性度量和所述第二相关性度量中的最大值。

15.根据权利要求13所述的设备，其中所述设备包含应用装置，其用于：(i)在所述最大值为所述第一相关性度量中的一者的情况下，将对应于所述第一相关性度量和所述

第二相关性度量中所述识别的最大值的所述第一相移应用于所述两个周期性语音波形中的所述第一波形，和(ii)在所述最大值为所述第二相关性度量中的一者的情况下，将对应于所述第一相关性度量和所述第二相关性度量中所述识别的最大值的所述第二相移应用于所述两个周期性语音波形中的所述第一波形。

16.根据权利要求13所述的设备，其中对于所述多个第一相移中的每一者，基于所述第一相移的所述多个角中的每一者对应于原型的不同谐波频率。

17.根据权利要求13所述的设备，其中对于所述多个第一相移中的每一者，所述用于评估至少一个三角函数的评估装置经配置以评估基于所述第一相移的所述多个角中的每一者的余弦。

18.根据权利要求13所述的设备，其中对于所述多个第一相移中的每一者，所述用于评估至少一个三角函数的评估装置经配置以评估基于所述第一相移的所述多个角中的每一者的余弦和正弦。

19.根据权利要求13所述的设备，其中对于所述多个第一相移中的每一者，所述计算装置经配置以计算所述第一相关性度量以包括(E)所述经评估的余弦的乘积与(F)所述经评估的正弦的乘积的多个和，且

其中对于所述多个第一相移中的每一者，所述计算装置经配置以计算所述第二相关性度量以包括(G)所述经评估的余弦的乘积与(H)所述经评估的正弦的乘积的多个差。

20.根据权利要求13所述的设备，其中所述设备包含用于提取原型波形的装置，其经配置以(i)从语音信号的第一时间部分的余留部分提取第一原型波形，和(ii)从所述语音信号的第二时间部分的余留部分提取第二原型波形，

其中所述两个周期性语音波形中的所述第一波形是基于所述第一原型波形，且

其中所述两个周期性语音波形中的所述第二波形是基于所述第二原型波形。

21.根据权利要求20所述的设备，其中所述两个周期性语音波形中的每一者的长度等于所述语音信号的所述第一时间部分和所述第二时间部分中的至少一者的音高周期。

22.根据权利要求13所述的设备，其中所述评估范围在零弧度到π弧度的范围内，包括零弧度和π弧度。

23.根据权利要求13所述的设备，其中对于所述多个第一相移中的每一者，所述对应的第二相移在π弧度到(两倍π)弧度的范围内。

24.一种包括根据权利要求13所述的设备的语音编码器。

25.一种包括根据权利要求13所述的设备的蜂窝式电话。

26.一种经配置以对准两个周期性语音波形的设备，所述设备包含：

三角函数评估器，其经配置以对于在评估范围内的多个第一相移中的每一者评估基于所述第一相移的多个角中的每一者的至少一个三角函数；以及

计算器，其经配置以对于所述多个第一相移中的每一者，(1)基于角的所述经评估的三角函数而计算第一相关性度量，所述角是基于所述第一相移，和(2)基于角的所述经评估的三角函数而计算第二相关性度量，所述角是基于所述第一相移，

27.根据权利要求26所述的设备，其中所述设备包含经配置以识别所述第一相关性度量和所述第二相关性度量中的最大值的比较器。

28.根据权利要求26所述的设备，其中所述设备包含移相器，所述移相器经配置以：在所述最大值为所述第一相关性度量中的一者的情况下，将对应于在所述第一相关性度量和所述第二相关性度量中所识别的所述最大值的所述第一相移应用于所述两个周期性语音波形中的所述第一波形，且在所述最大值为所述第二相关性度量中的一者的情况下，将对应于在所述第一相关性度量和所述第二相关性度量中所识别的所述最大值的所述第二相移应用于所述两个周期性语音波形中的所述第一波形。

29.根据权利要求26所述的设备，其中对于所述多个第一相移中的每一者，基于所述第一相移的所述多个角中的每一者对应于原型的不同谐波频率。

30.根据权利要求26所述的设备，其中对于所述多个第一相移中的每一者，所述三角函数评估器经配置以评估基于所述第一相移的所述多个角中的每一者的余弦。

31.根据权利要求26所述的设备，其中对于所述多个第一相移中的每一者，所述三角函数评估器经配置以评估基于所述第一相移的所述多个角中的每一者的余弦和正弦。

32.根据权利要求26所述的设备，其中对于所述多个第一相移中的每一者，所述计算器经配置以计算所述第一相关性度量以包括(E)所述经评估的余弦的乘积与(F)所述经评估的正弦的乘积的多个和，且

其中对于所述多个第一相移中的每一者，所述计算器经配置以计算所述第二相关性度量以包括(G)所述经评估的余弦的乘积与(H)所述经评估的正弦的乘积的多个差。

33.根据权利要求26所述的设备，其中所述设备包含原型提取器，所述原型提取器经配置以(i)从语音信号的第一时间部分的余留部分提取第一原型波形，和(ii)从所述语音信号的第二时间部分的余留部分提取第二原型波形，

34.根据权利要求33所述的设备，其中所述两个周期性语音波形中的每一者的长度等于所述语音信号的所述第一时间部分和所述第二时间部分中的至少一者的音高周期。

35.根据权利要求26所述的设备，其中所述评估范围在零弧度到π弧度的范围内，包括零弧度和π弧度。

36.根据权利要求26所述的设备，其中对于所述多个第一相移中的每一者，所述对应的第二相移在π弧度到(两倍π)弧度的范围内。

37.一种包括根据权利要求26所述的设备的语音编码器。

38.一种包括根据权利要求26所述的设备的蜂窝式电话。