CN1248190C

CN1248190C - 快速频域音调估计方法和装置

Info

Publication number: CN1248190C
Application number: CNB018220991A
Authority: CN
Inventors: 丹·查赞; 梅尔·兹布尔斯基; 隆·胡里
Original assignee: International Business Machines Corp
Current assignee: Nuance Communications Inc
Priority date: 2000-07-14
Filing date: 2001-07-12
Publication date: 2006-03-29
Anticipated expiration: 2021-07-12
Also published as: WO2002007363A2; AU2001272729A1; DE60136716D1; WO2002007363A3; EP1309964A2; EP1309964B1; US6587816B1; CN1527994A; KR20030064733A; EP1309964A4; CA2413138A1

Abstract

一种估计音频信号音调频率的方法，包括在第一时间区间，计算信号到频率域的第一变换，以及在包含该第一时间区间的第二时间区间，计算信号到频率域的第二变换。根据第一和第二变换，寻找该信号的线状谱，该频谱包括具有各自线振幅和线频率的谱线。然后计算效用函数(130)，它在该频谱中的线频率上是周期性的。对于指定音调频率区域中每个候选音调频率，该函数指示该频谱与候选音调频率相容。对于该效用函数，估计语音信号的音调频率。

Description

快速频域音调估计方法和装置

技术领域

本发明一般涉及音频信号处理的方法和装置，确切地说，是估计语音信号音调的方法。

背景技术

语音是通过在声道中调节气流而产生的。清音起源于声道中某处收缩而产生的湍流噪声，而浊音则是通过喉中声带的周期性振动来激发的。粗略地说，变化的喉部振动周期导致了语音的音调。典型情况下，低比特率的语音编码方案将调节与语音源(浊音或清音)相分离，对这两个要素分开编码。为了使语音能够恰当地重建，在编码之时需要准确地估计语音中浊音部分的音调。为了达到这个目的，已经开发了多种技术，既包括时间域的方法，又包括频率域的方法。Hess在Pitch Determination of Speech Signals(Springer-Verlag，1983)中对许多这些技术进行了综述，这里引用作为参考。

周期信号比如浊音语音的傅氏变换，在频率域的形式为一系列脉冲或者说尖峰。这个脉冲系列对应于信号的线状谱，它能够表示为一个序列{(a_i，θ_i)}，其中θ_i为尖峰的频率，a_i为线状谱各自的复数值振幅。为了确定语音信号中指定的一个区段是浊音还是清音，以及该区段是浊音时为了计算音调，时域信号首先乘以一个有限的光滑时窗。那么，加窗信号的傅氏变换为

X (θ) = \underset{k}{Σ} a_{k} W (θ - θ_{k})

其中W(θ)为时窗的傅氏变换。

给定任何音调频率，对应于该音调频率的线状谱，在该频率的所有倍数处都可能包含线状谱分量。所以有以下事实：在线状谱中出现的任何频率都可能是许多不同的候选音调频率的一个倍数。结果，对于变换后信号中出现的任何尖峰，将会有一系列候选音调频率可以导致这个特定尖峰，其中每个候选频率都是该尖峰频率的一个整数被除数。无论是在频率域中分析频谱，还是把它变换回时间域作进一步的分析，都存在这种不确定。

典型情况下，频域音调估计是基于对变换后信号X(θ)中尖峰的位置和振幅的分析。例如，Martin在题为“Comparison of PitchDetection by Cepstrum and Spectral Comb Analysis”的一篇文章中，介绍了基于将频谱与原型梳状谱的“齿”进行相关的一种方法，这篇文章收入1982年的Proceedings of the International Conference onAcoustics，Speech and Signal Processing(ICASSP)，在180-183页，这里引用作为参考。音调频率由使梳函数与变换后语音信号相关结果最大的梳频率给出。

有关的一类音调估计方案是“倒谱”方案，如同例如Hess在上述书中396-408页介绍的。在这种技术中，对语音信号的频谱应用一种对数运算，然后对数谱再变换回时间域，以产生倒谱信号。音调频率就是时间域倒谱信号第一个尖峰的位置。这严格对应于在周期T上，使线频率z(i)对应振幅的对数与cos(ω(i)T)相关结果最大。对于音调周期T的每种猜测，函数cos(ωT)都是ω的周期函数。在音调频率1/T的倍数对应的频率处，它都有尖峰。如果这些尖峰恰巧与线频率重合，那么1/T就是音调频率或者其某个倍数的合适候选者。

以另一种方式，一种普通的时域音调估计方法使用相关类型的方案，对于以时间t为中心的信号区段和以时间t-T为中心的信号区段，它搜索使互相关最大的音调周期T。音调频率为T的倒数。例如Medan等人1991年在IEEE Transactions on Signal Processing 39(1)41-48页发表的“Super Resolution Pitch Determination of Speech Signals”一文中，介绍过一种此类的方法，这里引用作为参考。

不论是在时间域还是在频率域的音调确定方法，都会受到不稳定和误差的影响，所以准确的音调确定需要进行大量的计算。例如在时间域分析中，线状谱中的高频分量会在互相关结果中增加一个振荡项。该分量的频率很高时，该项随音调周期T的估计结果快速变化。在这样一种情况下，即使是T稍微偏离真实的音调周期，也会显著地降低互相关结果的数值，可能会导致拒绝一个正确的估计结果。高频分量也会在互相关结果中增加大量的尖峰，这使得搜索真正的极大值的过程更复杂。在频率域中，对于候选频率较大整数倍的任何频谱分量，候选音调频率估计结果中的小误差也会导致估计值中的大偏离。

所以，对于指定的输入频谱，为了避免遗漏最佳候选音调，必须对所有可能的候选者及其倍数进行具有高分辨率的一种穷举搜索。往往需要(取决于实际音调频率)搜索采样后频谱至1500Hz以上的高频。同时，在时间上分析区间或者说时窗必须足够长，以便捕捉频谱中每一个可能的音调候选者的至少几个周期，从而另外增加了复杂性。同样，在时间域中，必须在宽阔的时间范围内以高分辨率搜索最优的音调周期T。在每种情况下，搜索都要消耗相当多的计算资源。即使在可能的清音区间，搜索条件也不能放松，因为只有在所有候选音调频率或周期都已经排除之后才能判断某个区间是清音。虽然来自前面若干帧的音调值通常用于指导搜索当前值，但是搜索也不能只限于以前音调的邻域。否则，一个区间中的误差将会永远存在于后续的区间中，使浊音区段可能被误认为是清音。

为了改善音调确定的准确性和效率，已经提出了多种解决方案。例如，McAulay等人在美国专利4,885,790中和1986年的IEEETransactions on Acoustics，Speech and Signal Processing ASSP-34(4)的744-754页的题为“Speech Analysis/Synthesis Based on aSinusoidal Representation”的一篇文章中，介绍了一种方法，用于跟踪语音信号的线频率及用于由这些频率重现信号。这些文档在这里引用作为参考。这些作者对于要分析的语音波形使用了一种正弦曲线模型，根据语音信号中正弦波分量的振幅、频率和相位合成语音。许多方法都可以用于从线频率获得音调值。在美国专利5,054,072中，McAulay等人介绍了其方法的改进，该专利的公开文件也在这里引用作为参考。这些改进之一是一种音调自适应的信道编码技术，按照发言者语音的音调改变信道间隔。

Hardwick等人在美国专利5,195,166和5,226,108中，介绍了音调估计的一种改进的方法，这些专利的公开文件在这里引用作为参考。假设被音调区间分开的相继时间区段之间的一种误差测量结果，用于估算整数音调值的音调质量。准则被限制为包括相邻信号帧，以增强音调的连续性。音调区域用于减少进行初始音调估计时的计算量。对于先前发现的、整数值形式的音调，一种改进技术用于在达到1/8样点的更高分辨率获得该音调。

授予Laroche的美国专利5,870,704介绍了一种方法，用于估计时变信号的时变频谱包络，该专利的公开文件在这里引用作为参考。信号的频谱中的局部极大值得到识别。为了遮掩掉虚假的极大值，应用了一种遮掩曲线。该遮掩曲线在某个特定的极大值处具有一个尖峰，并从该处下降。落在该曲线之下的局部极大值都被去除。按照虚假极大值存在的某种测度，随后还要对该遮掩曲线进行调整。假设结果是其中仅仅存在有关极大值的频谱。

授予Bartkowiak的美国专利5,696,873和5,774,836涉及改进音调值确定的互相关方案，这些专利的公开文件在这里引用作为参考。它介绍了两种方法，以应付第一共振峰——声道的最低谐振频率——在音调频率的某个整数倍处产生高能量的情况。因为选取的互相关区间等于(或接近)音调区间，在很大程度上会发生这种问题。假设某个短的音调区间，可能导致在该点上以相关结果虚假尖峰的形式证实该假设。Bartkowiak提出的方法之一，涉及在浊音区段的起点处增大时窗的尺寸。另一种方法从相关极大值列表中存在还是缺失假设之音调值的所有倍数，来得出结论。已有介绍的改善音调估计的准确性和效率的其它方法，见例如授予Su的美国专利5,781,880；授予Ozawa的美国专利5,806,024；授予Manduchi等人的美国专利5,794,182；授予Serizawa的美国专利5,751,900；授予Yamada等人的美国专利5,452,398；授予Byun等人的美国专利5,799,271；授予Tanaka等人的美国专利5,231,692；以及授予Kleijn的美国专利5,884,253。这些专利的公开文件在这里引用作为参考。

发明内容

本发明的一个目的是提供改进的方法和装置，用于确定音频信号，尤其是语音信号的音调。

本发明某些方面进一步的一个目的是，提供一种高效的方法，用于高分辨率的穷举法音调确定。因为任何音调质量测量结果都可能具有非常窄的尖峰，作为音调频率值的一个函数，如果估算该测量的分辨率不足，可能导致少量尖峰位置的误估计。在这种情况下，音调质量测量将在稍微偏离尖峰处采样，导致对尖峰值的过低估计，而精确估算则会得出该尖峰的较高值。结果，可能会从音调候选列表中完全丢弃真正的音调。以搜索音调整数值开始，然后改进音调值结果列表的现有技术方案，都受到这种非常严重缺陷的困扰。因此，只有如同本发明的优选实施例提供的穷举法高分辨率音调频率估算，才能保证真正的音调被包括在测试的音调值列表中。

在本发明的优选实施例中，一种语音分析系统通过同时分析多个时间区间中信号的线状谱，来确定语音信号的音调。从信号当前帧的加窗傅氏变换计算一种短区间频谱，它对于寻找高频频谱分量尤其有用。通过结合当前帧的加窗傅氏变换与前面一帧或多帧的加窗傅氏变换，寻找对于更低频率分量有用的一种或多种更长区间的频谱。以这种方式，使用增加系统计算负担最小的最优分析区间，取得了宽阔的频率范围内的音调估计。最佳的音调候选者是从多种频率范围中选出的。因此，系统能够满足高分辨率和高计算效率的对立目标。

在本发明的某些优选实施例中，为了高效地测量任何具体的候选音调频率与被分析的线状谱相容的程度，计算了一种效用函数。对频谱中每条有效谱线计算而得到的影响函数进行叠加，构建成该效用函数。在各自线频率对候选音调频率的比值中，优选情况下影响函数是周期性的，其音调频率周围的极大值是线频率的整数被除数，其间的最小值在优选情况下大多数是零。优选情况下影响函数是分段线性的，因而它们能够简单而高效地由其转折点的数值来表示，转折点之间的数值由插值确定。因此，本发明的这些实施例取代在倒谱音调估计方法中使用的余弦函数，提供了另一种简单得多的周期函数，并使用该函数的特殊结构来提高寻找音调的效率。在本发明的实施例中，由振幅本身取代了倒谱方法中使用的振幅的对数，尽管本质上使用振幅的任何函数都可能在效率上具有相同的收益。

为了快速寻找与谱线相容之候选音调频率的全部区域，把影响函数相继应用到频谱中的谱线上，优选情况下是以振幅下降的次序。每次迭代之后，都去除不相容的音调频率区间，使得后继的迭代在越来越小的候选音调频率区域内执行。以这种方式，能够穷举地估算相容的候选频率区间，而不会造成不适当的计算负担。在频谱的高频区域——其中准确的音调确定需要高分辨率计算，这种去除尤为重要。

因此，根据音频信号当前帧的线状谱，对于搜索区域中每个候选音调频率，使用在线状谱上计算的效用函数来确定效用值。每个候选者的效用值均指示“它是正确音调”的可能性。所以，对本帧估计的音调频率从效用函数的极大值中选取，一般把优先权给予最强的极大值。选取估计的音调时，优选情况下极大值以频率来加权，同时把优先权也给予更高的音调频率。优选情况下，也使用最终音调估计结果的效用值来决定当前帧是浊音还是清音。

在数字化语音的低比特率编码和重建中，本发明尤其有用，其中对当前帧的音调和浊音/清音的判断进行编码并与本帧的调制特性一起传送。此类编码和重建所用优选方法的介绍，见美国专利申请书09/410,085和09/432,081，它们被委托给本申请书的代理人，它们的公开文件在这里引用作为参考。此外，本文中介绍的方法和系统也可以与语音编码和重建的其它方法以及其它类型的音频处理系统中的音调确定联合使用。

所以，依据本发明的某个优选实施例，提供了一种估计音频信号音调频率的方法，包括：

在第一时间区间，计算信号到频率域的第一变换；

在包含该第一时间区间的第二时间区间，计算信号到频率域的第二变换；以及

响应第一和第二变换，估计语音信号的音调频率。

优选情况下，第一和第二变换包括短时傅氏变换。更优选情况下，第一时间区间包括语音信号的当前帧，第二时间区间包括当前帧和前一帧，计算第二变换包括将第一变换与在前一帧上计算的变换相结合。最理想的情况是，这些变换产生各自的频谱系数，将第一变换与前一帧上计算之变换相结合包括，对前一帧上计算之变换产生的系数，应用与频率和帧延续时间成比例的相移，并把相移后的系数加到第一变换产生的系数上。

此外，估计音调频率也包括分别从第一和第二变换，求取信号的第一和第二线状谱，以及根据线状谱确定音调频率。优选情况下，确定音调频率包括分别从第一和第二线状谱，求取第一和第二候选音调频率，以及选择第一和第二候选者之一作为音调频率。最理想的情况是，求取第一和第二候选者包括定义可能的音调频率的高低区域，以及寻找高区域中的第一候选者和低区域中的第二候选者。

优选情况下，音频信号包括语音信号，并且包括响应估计的音调频率，对语音信号的编码。

依据本发明的某个优选实施例，也提供了一种估计语音信号音调频率的方法，包括：

寻找该信号的线状谱，该频谱包括具有各自线振幅和线频率的谱线；

计算一个效用函数，它在该频谱中的线频率上是周期性的，对于指定音调频率区域中每个候选音调频率，该函数指示该频谱与候选音调频率相容；以及

响应该效用函数，估计语音信号的音调频率。

优选情况下，计算该效用函数包括计算至少一个影响函数，对于频谱线之一的频率对候选音调频率的比值，影响函数是周期性的。更优选情况下，计算至少一个影响函数包括，对于在比值的整数值处具有极大值和其间具有极小值的比值，计算它的一个函数。最理想的情况是，计算该比值的函数包括计算分段线性函数c(f)的数值，该函数在围绕f＝0的第一区间中具有某个极大值，在围绕f＝1/2的第二区间中具有某个极小值，在第一和第二区间之间的某个过渡区间中具有线性变化的数值。

此外，计算至少一个影响函数包括对于频谱中的多条谱线计算各自的影响函数，以及计算效用函数包括计算影响函数的叠加。优选情况下，各自的影响函数包括具有转折点的分段线性函数，计算叠加包括计算在转折点上影响函数值，使得通过转折点之间的插值来确定效用函数。最理想的情况是，计算各自的影响函数包括对于频谱中的第一和第二谱线，至少相继计算第一和第二影响函数，计算效用函数包括，计算包括第一影响函数的某个部分效用函数，然后通过计算在部分效用函数的转折点上第二影响函数值以及在计算第二影响函数的转折点上部分效用函数值，把第二影响函数加到该部分效用函数。

在一个优选实施例中，计算各自的影响函数包括在频谱中的谱线上，迭代地执行以下步骤：

对于频谱中的第一条谱线，计算第一影响函数；

响应第一影响函数，在与该频谱不相容的音调频率区域内，识别一个或多个区间；

定义减小的音调频率区域，其中已经去除了一个或多个区间；以及

对于频谱中的第二条谱线，计算第二影响函数，同时实质上将对音调频率的第二影响的计算限制在减小后区域之内。

优选情况下，计算叠加包括计算包括第一影响函数但是不包括第二影响函数的部分效用函数，识别一个或多个区间包括去除其中部分效用函数低于指定的水平的区间。最理想的情况是，响应没有包括在部分效用函数中的谱线的线振幅，确定指定的水平。此外，迭代地执行步骤包括以振幅减小的次序对谱线进行迭代。

优选情况下，估计音调频率包括选择效用函数在该处具有局部极大值的候选音调频率。典型情况下，选取的音调频率是效用函数在该处具有局部极大值的多个频率之一，选取候选音调频率包括因为极大值中的一个的频率高于极大值中的另一个频率而优先选择它。此外，选取候选音调频率包括因为某个极大值在频率上接近语音信号前一帧的前面估计的音调频率而优先选择它。

在一个优选实施例中，该方法包括通过比较局部极大值的数值和某个预定的阈值，来确定语音信号是浊音还是清音。

此外，依据本发明的某个优选实施例，也提供了估计音频信号音调频率的装置，包括一种音频处理器，它适于在第一时间区间，计算信号到频率域的第一变换和在第二时间区间——它包含该第一时间区间，计算信号到频率域的第二变换，以及响应第一和第二变换，估计语音信号的音调频率。

依据本发明的某个优选实施例，进一步提供了估计音频信号音调频率的装置，包括一种音频处理器，它适于寻找该信号的线状谱，该频谱包括具有各自线振幅和线频率的谱线；适于计算某个效用函数，它在该频谱中的线频率上是周期性的，对于指定音调频率区域中每个候选音调频率，该函数指示该频谱与候选音调频率相容；以及适于响应该周期函数，估计语音信号的音调频率。

不仅如此，依据本发明的某个优选实施例，还提供了一种计算机软件产品，包括一种计算机可读的存储介质，其中存放着程序指令，当接收音频信号的计算机读取时，这些指令使计算机在第一时间区间，计算信号到频率域的第一变换和在第二时间区间——它包含该第一时间区间，计算信号到频率域的第二变换，以及响应第一和第二变换，估计语音信号的音调频率。

除此以外，依据本发明的某个优选实施例，还提供了一种计算机软件产品，包括一种计算机可读的存储介质，其中存放着程序指令，当接收音频信号的计算机读取时，这些指令使计算机寻找该信号的线状谱，该频谱包括具有各自线振幅和线频率的谱线；使计算机计算某个效用函数，它在该频谱中的线频率上是周期性的，对于指定音调频率区域中每个候选音调频率，该函数指示该频谱与候选音调频率相容；以及使计算机响应该效用函数，估计语音信号的音调频率。

从以下对本发明的优选实施例的详细说明以及附图，将会更全面地理解本发明，其中：

附图简要说明

图1是一个语音分析和编码系统的一个示意性的图示说明，依据本发明的一个优选实施例；

图2是一张流程图，示意性地说明了一种音调确定和语音编码方法，依据本发明的一个优选实施例；

图3是一张流程图，示意性地说明了对语音信号提取线状谱和寻找候选音调值的一种方法，依据本发明的一个优选实施例；

图4是一张框图，示意性地说明了同时对长短时间区间提取线状谱的一种方法，依据本发明的一个优选实施例；

图5是一张流程图，示意性地说明了一种在线状谱中寻找尖峰的方法，依据本发明的一个优选实施例；

图6是一张流程图，示意性地说明了根据输入线状谱估算候选音调频率的一种方法，依据本发明的一个优选实施例；

图7是一张图，显示了依据图6的方法估算候选音调频率时使用的影响函数的一个周期；

图8是一张图，显示了通过把图7的影响函数应用到线状谱的某个分量时求取的部分效用函数，依据本发明的一个优选实施例；

图9A和图9B是两张流程图，示意性地说明了对语音的一帧从多个候选音调频率中选择音调频率估计结果的一种方法，依据本发明的一个优选实施例；以及

图10是一张流程图，示意性地说明了一种方法，确定语音的一帧是浊音还是清音，依据本发明的一个优选实施例。

具体实施方式

图1是一个语音信号分析和编码系统20的一个示意性的图示说明，依据本发明的一个优选实施例。该系统包括一种音频输入设备22，比如话筒，它连接到一个音频处理器24。此外，输入到处理器的音频也可以通过通信线路提供或者从存储设备检索，或者以模拟形式或者以数字形式。优选情况下，处理器24包括一台通用计算机，配备了执行下文介绍之功能的适当软件。向该处理器提供软件可以采用电子形式，例如，通过某个网络，也可以在有形的介质上提供，比如CD-ROM或者非易失性存储器。此外，处理器24也可以包括一个数字信号处理器(DSP)或者硬件实现的逻辑电路。

图2是一张流程图，示意性地说明了使用系统20处理语音信号的一种方法，依据本发明的一个优选实施例。在输入步骤30，一种语音信号从设备22或者从另一种来源输入并为了进一步的处理而数字化(如果该信号还不是数字形式的话)。为了后续的处理，数字化的信号划分成适当延续时间的帧，典型情况下是10ms。在音调识别步骤32，处理器24对每一帧提取信号的近似线状谱。该频谱是通过在多个时间区间同时分析该信号而提取的，如下文的介绍。优选情况下，对于每一帧使用两个区间：一个短区间用于提取高频音调值，一个长区间用于提取低频值。此外，也可以使用众多的区间。低频部分和高频部分一起覆盖了可能的音调值的整个区域。根据提取的频谱，识别当前帧的候选音调频率。

在音调选择步骤34，当前帧音调频率的最佳估计结果是从频谱的所有部分中的候选频率中选定的。根据选定的音调，在浊音判断步骤36，系统24确定当前帧实际上是浊音还是清音。在输出编码步骤38，浊音/清音的判断和选定的音调频率用于对当前帧编码。最理想的情况是，在这个步骤中使用上述美国专利申请书09/410,085和09/432,081中介绍的方法，尽管本质上也可以使用本领域中已知的任何其它编码方法。优选情况下，编码后的输出随着浊音和音调信息，包括声音流调制的特性。典型情况下，编码后的输出通过通信连接发送和/或存放在存储器26中(图1)。在任何情况下，提取调制信息和对语音信号编码所用的方法都超出了本发明的范畴。本文介绍的音调确定的方法也可以用于其它音频处理应用中，带有或者不带后续的编码。

图3是一张流程图，示意性地说明了音调识别步骤32的细节，依据本发明的一个优选实施例。在变换步骤40，对语音信号的每一帧应用一种双窗短时傅氏变换(STFT)。典型情况下，语音信号可能的音调频率的区域是从55至420Hz。优选情况下，这个区域划分成两个区域：一个下部区域从55Hz向上至某个中频F_b(典型情况下大约90Hz)，一个上部区域从F_b上至420Hz。如下文的介绍，对于每一帧，为了搜索上部频率区域定义了一个短时窗，为了搜索下部频率区域定义了一个长时窗。此外，也可以使用众多相邻的时窗。对每个时窗应用STFT，以分别计算语音信号的高低频频谱。

短时窗和长时窗频谱的处理在分开、并行的途径上进行。在频谱估计步骤42和44，从各自的STFT结果求取高低频的线状谱，它们具有以上定义的{(a_i，θ_i)的形式。在候选频率寻找步骤46和48，这些线状谱用于寻找高低频音调候选值各自的集合。为了在这些音调候选值中选择最佳的音调频率估计结果，把它们送入步骤34(图2)。下文中参考图4、图5和图6，介绍步骤40至48的细节。

图4是一张框图，示意性地说明了变换步骤40的细节，依据本发明的一个优选实施例。加窗单元50把一种加窗函数——优选情况下是把延续时间为20ms的业内周知的汉明窗——应用到语音信号的当前帧上。变换单元52把一种适当的频率变换应用到加窗后的帧，优选情况下是一种分辨率为256或512个频率点的快速傅氏变换(FFT)，取决于采样率。

优选情况下，变换单元52的输出是送入一个插值单元54，它用于提高频谱的分辨率。最理想的情况是，通过把一个狄利克雷核

D (θ, N) = \frac{\sin (Nθ / 2)}{\sin (θ / 2)}

应用到FFT输出系数X^d[k]来执行插值，给出插值后的频谱系数：

X (θ) = Σ_{k = 0}^{N - 1} \frac{1}{N} X^{d} [k] D (θ - 2 πk / N, N) \exp {- j (θ - 2 πk / N) (N - 1) / 2} - - - (2)

为了高效的插值，在每个频率θ的邻域，仅仅使用少量的系数X^d[k]。典型情况下使用16个系数，以这种方式频谱的分辨率提高的因数是2，所以在插值后的频谱中点数是L＝2N。插值单元54的输出给出了短时窗变换，它传送到步骤42(图3)。

通过当前帧的短时窗变换X^s和前一帧的短时窗变换Y^s——它由延迟单元56保存——的结合，计算出要传送到步骤44的长时窗变换。结合之前，来自前一帧的系数在乘法器58中乘以一个相移2πmk/L，其中m是一帧中的样点数目。通过在加法器60中把来自当前帧的短时窗系数加上来自前一帧的短时窗系数(带有适当的相移)，产生了长时窗频谱X¹如下：

X¹(2πk/L)＝X^s(2πk/L)+Y^s(2πk/L)exp(j2πmk/L) (3)

式中k是从一个整数集中取出的一个整数，使得频率2πk/L跨越频率的整个区域。因此，以图4为例的方法容许对于多个叠加的时窗求取频谱，而计算成本比在单一时窗中执行一次STFT运算所需的计算量增加不多。

图5是一张流程图，示意性地显示了线状谱估计步骤42和44的细节，依据本发明的一个优选实施例。对步骤40产生的长短时窗变换X(θ)，都应用了这张图中说明的线状谱估计方法。步骤42和44的目的是确定当前帧绝对现状谱的一个估计结果

从X(θ)的局部极大值的位置和

| {\hat{a}}_{i} | = | X ({\hat{θ}}_{i}) |,

求取尖峰频率的序列

该估计结果是基于假设：在频率域中，加窗函数(加窗单元50)的变换的主瓣宽度，相对于音调频率比较小。所以，频谱中相邻窗口之间的相互作用也比较小。

线状谱的估计开始于在尖峰寻找步骤70，在插值后的频谱(每个(2)式)中寻找尖峰的近似频率。典型情况下，执行频率计算至整数精度。在插值步骤72，这些尖峰频率计算至浮点精度，优选情况下是根据2π/L的整数倍中的尖峰频率和在三个最近的相邻整数倍处的频谱振幅，使用二阶插值。为了寻找精确的尖峰位置处的振幅，对复振幅值应用线性插值，然后取振幅的绝对值。

在畸变估算步骤74，为了评估输入语音信号中是否存在畸变，对在前面步骤中发现的尖峰阵列进行处理，如果有畸变，要视图校正该畸变。优选情况下，分析频率范围划分成三个相等的区域，计算区域中所有振幅的极大值。这些区域完全覆盖了该频率范围。如果中频或高频区域中的极大值与低频区域中的极大值相比太高，就在衰减步骤76衰减中频和/或高频区域中的尖峰值。经探索发现，如果中频区域极大值高于低频区域极大值的65％，或者高频区域极大值高于低频区域极大值的45％，就应当应用衰减。以这种方式衰减尖峰，使频谱“恢复”到更可靠的形状。粗略地说，如果语音信号最初没有畸变，步骤74将不会改变其频谱。

在尖峰计数步骤78，对步骤72中发现的尖峰进行计数。在主尖峰估算步骤80，尖峰的数目与某个预定的极大值数目——典型情况下设置为8——进行比较。如果发现的尖峰是8个或更少，处理过程直接前进到步骤46或48。否则，在排序步骤82，尖峰按照其振幅值的下降次序排序。一旦预定数目的最高的尖峰已经发现(典型情况下等于步骤80所用的尖峰的最大数目)，就在阈值设置步骤84，把阈值设置为等于最高尖峰组中最低尖峰振幅的某个特定比例。在虚假尖峰丢弃步骤86，丢弃低于这个阈值的尖峰。此外，如果在排序步骤82的某个阶段，已排序尖峰值的总和超过全部已发现尖峰值总和的某个预定比例——典型情况下为95％，就停止排序过程。然后在步骤86，丢弃所有剩余的、较小的尖峰。这个步骤的目的是去除小的、虚假的尖峰，它们可能以后在步骤34和36中影响音调确定或者影响浊音/清音的判断(图2)。减少线状谱尖峰的数目也使音调确定过程的效率更高。

图6是一张流程图，示意性地显示了候选频率寻找步骤46和48的细节，依据本发明的一个优选实施例。这些步骤分别应用到步骤44和42输出的长短时窗线状谱如上所示及所述。在步骤46中，产生其频率高于某个特定阈值的音调候选者，并根据短分析区间中产生的线状谱，使用下面概述的过程计算其效用函数。在步骤48中，长分析区间中产生的线状谱也产生一个音调候选列表，并且仅仅对于其频率低于该阈值的音调候选者计算效用函数。不论是长时窗还是短时窗，在归一化步骤90，线状谱都要归一化，以产生具有归一化振幅b_i和频率f_i的谱线如下：

b_{i} = \frac{| {\hat{a}}_{i} |}{Σ_{k = 1}^{K} | {\hat{a}}_{k} |} - - - (4)

f_{i} = \frac{{\hat{θ}}_{i}}{2 π T_{s}} - - - (5)

在两式中，i都是从1到K，T_s都是采样间隔。换句话说，1/T_s是原始语音信号的采样频率，因此f_i是以每秒样点数表示的谱线频率。在排序步骤92中，按照其归一化振幅b_i对谱线排序。

图7是一张图，显示了图6的方法这个阶段使用的影响函数120的一个周期，标注为c(f)，依据本发明的一个优选实施例。优选情况下，该影响函数具有以下特征：

1.c(f+1)＝c(f)，即该函数是周期性的，周期为1。

2. 0≤c(f)≤1。

3.c(0)＝1。

4.c(f)＝c(-f)。

5.对于r≤|f|≤1/2，其中r为小于1/2的一个参数，c(f)＝0。

6.在[0，r]中c(f)是分段线性和非增的。

在图7所示的优选实施例中，该影响函数是梯形的，具有以下形式：

c (f) = \{\begin{matrix} 1 & f &Element; [- r_{1}, r_{1}] \\ 1 - (| f | - r_{1}) / (r - r_{1}) & | f | &Element; [r_{1}, r] \\ 0 & r < | f | < 0.5 \end{matrix} - - - (6)

此外，也可以使用另一种周期函数，优选情况下是一个分段线性函数，离原点超过某个预定距离时其值为0。

图8是一张图，显示了效用函数U(f_p)的某个分量130，它是对候选预定频率f_p使用影响函数c(f)而产生的，依据本发明的一个优选实施例。对于任何给定的音调频率，根据线状谱{(b_i，f_i)}产生效用函数U(f_p)如下：

U (f_{p}) = Σ_{i = 1}^{K} b_{i} c (f_{i} / f_{p}) - - - (7)

那么，对于单一谱线(b_i，f_i)，这个函数的某个分量U_i(f_p)定义为：

U_{i} (f_{p}) = b_{i} c (f_{i} / f_{p}) - - - (8)

图8显示了一个这样的分量，其中f_i＝700Hz，在从50到400Hz的范围内对音调频率估算该分量。该分量包括多个瓣132、134、136、138… …，每个瓣都定义了一个区域，其中可能产生一个候选音调频率并导致在f_i的谱线。

因为b_i值已经归一化，并且c(f)≤1，对于任何给定候选音调频率，效用函数将在0和1之间。由于根据定义在f_i中c(f_i/f_p)是周期性的，周期为f_p，所以对于某个给定的音调频率f_p，效用函数的一个大值表示，序列{f_i}中的大多数频率接近音调频率的某个倍数。因此，通过对指定分辨率适当的频率范围中所有可能的音调频率计算效用函数，并选取效用值大的候选音调频率，可以直接了当(但是低效)地发现当前帧的音调频率。

下文提出一种效率更高的方法。因为影响函数c(f)是分段线性的，在任何点上U_i(f_p)的值都是通过在函数的转折点(即一阶导数中的不连续点)上的值来定义的，比如图8中所示的点140和142。虽然U_i(f_p)本身不是分段线性的，但是在所有区域中它都能够近似为一种线性函数。下面要介绍的方法使用U_i(f_p)分量转折点的值来建立完整的效用函数U(f_p)。每个U_i分量将其自己的转折点增加到完整函数中，同时通过线性插值来发现转折点之间的效用函数值。

建立完整效用函数的过程，使用了通过依次加进每条谱线(b_i，f_i)的U_i(f_p)分量产生的、一系列的部分效用函数PU_i：

P U_{i} (f_{p}) = Σ_{k = 1}^{i} U_{k} (f_{p}) - - - (9)

因为函数c(f)不大于1，最初i条谱线已经加入部分效用函数之后，剩余线状谱值的总和离上限还有：

R_{i} = Σ_{k = i + 1}^{K} b_{k} - - - (10)

那么对于任何i，完整的效用函数U(f_p)受限于：

U(f_p)≤PU_i(f_p)+R_i (11)

所以，每次迭代i之后，对于使PU_i(f_p)+R_i小于某个预定阈值的f_p，保证具有同样小于该阈值的某个效用值。所以，它们可以不再被视为校正音调频率的候选者。通过使用PU_i的转折点值，利用线性插值发现转折点之间的函数值，能够发现PU_i(f_p)+R_i低于阈值的整个区间，并在每次迭代时去除，使后续的搜索效率更高。

现在返回图6，为了产生部分效用函数的序列PU_i，把影响函数c(f)迭代地应用到归一化频谱中的每条谱线(b_i，f_i)。在分量选择步骤94，该过程起始于最大的分量U₁(f_p)。这个分量对应于具有最大归一化振幅b₁的排序后的谱线(b₁，f₁)。在效用函数生成步骤96，在搜索f_p的区域内所有转折点上计算U₁(f_p)的值。在这个阶段，部分效用函数PU₁只是等于U₁。在这个阶段的后续迭代中，既在其自己的转折点上又在当前对f_p的有效搜索区间之内(即前一次迭代中还没有被去除的区间之内)部分效用函数PU_i-1(f_p)的所有转折点上，确定新的分量U_i(f_p)。优选情况下，在PU_i-1(f_p)的转折点上的U_i(f_p)值通过插值来计算。在U_i(f_p)的转折点上也计算PU_i-1(f_p)值。在丢弃步骤98，如果U_i包含的转折点非常接近PU_i-1中现有的转折点，优选情况下这些新的转折点作为多余的点丢弃。最理想的情况是，以这种方式丢弃其频率与现有转折点差异不大于0.0006*f_p ²的转折点。然后在加法步骤100中，在所有剩余的转折点上，U_i加到PU_i-1上，从而产生。

在每次迭代中，在区间删除步骤102估算对f_p的有效搜索区间。如上所述，其中PU_i(f_p)+R_i低于某个预定阈值的区间被去除，不再进一步考虑。一个对这种目的便于使用的阈值是浊音/清音阈值T_UV，在步骤36(图2)它应用于选定的音调频率，以确定当前帧是浊音还是清音。在这一点上使用某个高阈值会提高个计算过程的效率，但是有删除有效候选音调频率的风险。这可能会导致确定当前帧是清音，而事实上它应当被视为浊音。例如，如果前一帧估计的音调频率的效用值高，当前帧往往应当判断为浊音，即使当前帧的效用值低。

由于这个原因，为了在步骤102中使用，优选情况下定义一种自适应探索的阈值T_ad如下：

T_{ad} = \max {\frac{P U_{\max}}{Σ_{k = 1}^{i} b_{k}} - (1 - T_{UV}), T_{\min}} - - - (12)

式中PU_max为当前部分效用函数PU_i的最大值，T_min为预定的最小阈值，低于T_UV。商

——永远小于等于1——表示部分效用函数PUi之“质量”的一种测度。如果质量高，阈值T_ad将接近T_UV。如果质量差，更低的阈值T_min防止有效的音调候选者过早地从音调确定过程中去除。

在终止步骤104，应当做到最后一条谱线(b_i，f_i)的U_i分量已经估算之后，该过程就完成了，合成的效用函数U传送到音调选择步骤34。该函数的形式为频率转折点的集合及转折点上的函数值。否则，在下一个分量步骤106取下一条谱线，迭代过程从步骤96继续进行，直到过程完成。

总而言之，可见图6的方法在搜索范围内搜索所有可能的音调频率，但是它是以优化的效率进行的，因为在每次迭代时，都去除了更多的无效搜索区间。因此是在依次减小的有效区间中进行搜索。不仅如此，仅仅计算在特定的转折点上线状谱的每个分量对效用函数的贡献，而不是在音调频率的整个搜索范围内计算。

图9A和图9B是两张流程图，示意性地说明了音调选择步骤34(图2)的细节，依据本发明的一个优选实施例。最佳候选音调频率的选择是根据步骤104输出的效用函数，包括所有发现的转折点。对效用函数的转折点进行估算，并选取其中一个作为最佳音调候选者。

在极大值寻找步骤150，寻找效用函数的局部极大值。最佳音调候选者要从这些局部极大值中选择。典型情况下，为了避免把音调频率的整数被除数(对应于音调周期的整数倍)误认为是真正的音调，优先权给予高的音调频率。所以，在频率排序步骤152，根据频率对局部极大值{f_P ⁱ}_i＝1 ^M排序如下：

f_{p}^{1} > f_{p}^{2} > \cdot \cdot \cdot > f_{p}^{M} - - - (13)

在初始化步骤154，音调估计结果

初始设置为等于最高的频率候选者f_p ¹。每个剩余的候选者都以频率下降的次序，对于音调估计结果的当前值进行估算。

估算的过程开始于下一个频率步骤156，对于候选音调f_p ²。在估算步骤158，效用函数值U(f_p ²)与

相比较。如果在f_p ²效用函数大于处的效用函数至少某个阈值差异T₁，或者如果f_p ²接近

并具有更大的效用函数值，即使差异不大，那么f_p ²也被视为是优于当前的

的音调频率估计结果。典型情况下，T₁＝0.1，并且如果

1.17 f_{p}^{2} > {\hat{F}}_{0},

就认为f_p ²接近在这种情况下，在候选设置步骤160，

设置为新的候选值fp2。

对于所有的局部极大值f_p ⁱ，依次重复步骤156至160，直到在最后一个频率步骤162达到最后一个频率f_p ^M。

对于当前帧，只要在前一帧中音调是稳定的，一般需要选取接近前一帧音调的一个音调。所以，在前一帧评估步骤170，确定前一帧中音调是否稳定。优选情况下是在前六帧中都满足一定的连续准则，从把该音调视为稳定的。例如相继帧之间音调变化小于18％，并且在所有帧中保持效用函数的大值，可能是需要的。如果是这样，在最近极大值选择步骤172中，在{f_p ⁱ}集合中选择最接近前一个音调频率的音调频率。在对比步骤174，对比当前音调频率估计结果的效用函数

在这种最接近的频率估算效用函数U(f_p ^close)。在最接近频率设置步骤176，如果在这两种频率处效用函数的值差异不大于某个阈值数量T₂，那么就选取与前一个音调频率最接近的频率f_p ^close作为当前帧音调频率的估计结果

典型情况下，T₂设置为0.06。否则，在候选频率设置步骤178，如果效用函数的值差异大于T₂，仍然选取来自步骤162的当前的音调频率的估计结果

作为当前帧的音调频率。如果在步骤170发现前一帧的音调不稳定，同样会选取这个估计值。

图10是一张流程图，示意性地显示了浊音判断步骤36的细节，依据本发明的一个优选实施例。在阈值对比步骤180，该判断是根据在估计的音调处效用函数与上述阈值T_UV的比较结果。典型情况下，T_UV＝0.75。在浊音设置步骤188，如果效用函数高于该阈值，当前帧就划分为浊音。

不过，在语音流过渡期间，语音信号的周期结构可能改变，不时导致效用函数的低值，即使当前帧应当被视为浊音。所以，当前帧的效用函数低于阈值T_UV时，在前一帧检验步骤182检验前一帧的效用函数。如果前一帧的音调估计结果具有高效用值，典型情况下至少0.84，而且在音调检验步骤184发现当前帧的音调接近前一帧的音调，典型情况下差异不大于18％，那么当前帧就在步骤188划分为浊音，而不管其低效用值。否则，在清音设置步骤186，当前帧被划分为清音。

应当理解，以上介绍的优选实施例是举例引证，本发明不限于上文中已经展示和介绍的具体内容。相反，本发明的范围包括上文中介绍之多种特性的结合与变形，以及它们的变化和修改，本领域的技术人员阅读前面的说明之后可以做出这些变化和修改，并且没有在现有技术中公开过。

Claims

1.一种估计语音信号音调频率的方法，包括：

寻找该信号的一个线状谱，该频谱包括具有各自线振幅和线频率的谱线；

响应该效用函数，估计语音信号的音调频率。

2.根据权利要求1的方法，其特征在于，计算该效用函数包括计算至少一个影响函数，对于频谱线之一的频率对候选音调频率的比值，影响函数是周期性的。

3.根据权利要求2的方法，其特征在于，计算至少一个影响函数包括，对于在比值的整数值处具有极大值和其间具有极小值的比值，计算它的一个函数。

4.根据权利要求3的方法，其特征在于，计算该比值的函数包括计算分段线性函数c(f)的数值，该函数在围绕f＝0的第一区间中具有一个极大值，在围绕f＝1/2的第二区间中具有一个极小值，在第一和第二区间之间的一个过渡区间中具有线性变化的数值。

5.根据权利要求2的方法，其特征在于，计算至少一个影响函数包括对于频谱中的多条谱线计算各自的影响函数，并且，计算效用函数包括计算影响函数的叠加。

6.根据权利要求5的方法，其特征在于，各自的影响函数包括具有转折点的分段线性函数，并且，计算叠加包括在转折点上计算影响函数值，使得通过转折点之间的插值来确定效用函数。

7.根据权利要求6的方法，其特征在于，计算各自的影响函数包括对于频谱中的第一和第二谱线，至少相继计算第一和第二影响函数，并且，计算效用函数包括，计算包括第一影响函数的一个部分效用函数，然后通过计算在部分效用函数的转折点上第二影响函数值以及计算在第二影响函数的转折点上部分效用函数值，把第二影响函数加到该部分效用函数。

8.根据权利要求5的方法，其特征在于，计算各自的影响函数包括在频谱中的谱线上，迭代地执行以下步骤：

对于频谱中的第一条谱线，计算第一影响函数；

9.根据权利要求8的方法，其特征在于，计算叠加包括计算包括第一影响函数但是不包括第二影响函数的部分效用函数，并且，识别一个或多个区间包括去除其中部分效用函数低于指定的水平的区间。

10.根据权利要求9的方法，其特征在于，响应没有包括在部分效用函数中的谱线的线振幅，确定指定的水平。

11.根据权利要求8的方法，其特征在于，迭代地执行步骤包括以振幅减小的次序对谱线进行迭代。

12.根据权利要求1-11中任何一条的方法，其特征在于，估计音调频率包括选择效用函数在该处具有局部极大值的候选音调频率。

13.根据权利要求12的方法，其特征在于，选取的音调频率是效用函数在该处具有局部极大值的多个频率之一，并且，选取候选音调频率包括因为极大值中的一个的频率高于极大值中的另一个的频率而优先选择它。

14.根据权利要求12的方法，其特征在于，选取的音调频率是效用函数在该处具有局部极大值的多个频率之一，并且，选取候选音调频率包括因为一个极大值在频率上接近语音信号前一帧的前面估计的音调频率而优先选择它。

15.根据权利要求12的方法，并且包括通过比较局部极大值的数值和一个预定的阈值，来确定语音信号是浊音还是清音。

16.根据权利要求1-11中任何一条的方法，其特征在于，该音频信号包括语音信号，并且包括响应估计的音调频率，对语音信号编码。

17.估计音频信号音调频率的装置，包括一种音频处理器，它适于寻找该信号的线状谱，该频谱包括具有各自线振幅和线频率的谱线；适于计算一个效用函数，它在该频谱中的线频率上是周期性的，对于指定音调频率区域中每个候选音调频率，该函数指示该频谱与候选音调频率相容；以及适于响应该周期函数，估计语音信号的音调频率。

18.根据权利要求17的装置，其特征在于，该效用函数包括至少一个影响函数，对于频谱线之一的频率对候选音调频率的比值，影响函数是周期性的。

19.根据权利要求18的装置，其特征在于，该至少一个影响函数包括一个比值的函数，该比值是在比值的整数值处具有极大值和其间具有极小值的二者的比值。

20.根据权利要求19的装置，其特征在于，该至少一个影响函数包括分段线性函数c(f)，该函数在围绕f＝0的第一区间中具有一个极大值，在围绕f＝1/2的第二区间中具有一个极小值，在第一和第二区间之间的一个过渡区间中具有线性变化的数值。

21.根据权利要求17的装置，其特征在于，该处理器适于对于频谱中的多条谱线计算各自的影响函数，并且适于通过寻找估计音调频率中使用的影响函数的叠加，计算效用函数。

22.根据权利要求21的装置，其特征在于，这些影响函数包括具有转折点的分段线性函数，并且，该处理器适于计算在转折点上影响函数值，使得通过在转折点之间进行插值来确定效用函数。

23.根据权利要求22的装置，其特征在于，这些影响函数至少包括对于频谱中的第一和第二谱线，相继计算出的第一和第二影响函数，并且，该处理器适于计算包括第一影响函数的一个部分效用函数，然后通过计算在部分效用函数的转折点上的第二影响函数值以及计算在第二影响函数的转折点上的部分效用函数值，把第二影响函数加到该部分效用函数。

24.根据权利要求21的装置，其特征在于，该处理器适于在频谱中的谱线上，迭代地执行以下步骤：

对于频谱中的第一条谱线，计算第一影响函数；

25.根据权利要求24的装置，其特征在于，该处理器适于计算包括第一影响函数但是不包括第二影响函数的一个部分效用函数，以及对于其中部分效用函数低于指定的水平的区间，在计算第二影响函数中不再考虑。

26.根据权利要求25的装置，其特征在于，响应没有包括在部分效用函数中的谱线的线振幅，确定指定的水平。

27.根据权利要求24的装置，其特征在于，该处理器适于以振幅减小的次序对谱线进行迭代。

28.根据权利要求17-27中任何一条的装置，其特征在于，估计的音调频率包括效用函数在该处具有局部极大值的音调频率。

29.根据权利要求28的装置，其特征在于，选取的音调频率是效用函数在该处具有局部极大值的多个频率之一，并且，该处理器适于因为极大值中的一个的频率高于极大值中的另一个的频率而优先选择它作为音调频率。

30.根据权利要求28的装置，其特征在于，选取的音调频率是该周期函数在该处具有局部极大值的多个频率之一，并且，该处理器适于因为极大值之一在频率上接近语音信号前一帧的前面估计的音调频率而优先选择它作为音调频率。

31.根据权利要求28的装置，其特征在于，该处理器适于通过比较局部极大值的一个数值和一个预定的阈值，来确定语音信号是浊音还是清音。

32.根据权利要求17-27中任何一条的装置，其特征在于，该音频信号包括语音信号，并且，该处理器进一步适于响应估计的音调频率，对语音信号进行编码。