CN1265351C

CN1265351C - 用于估计语音信号的音调频率的方法和装置

Info

Publication number: CN1265351C
Application number: CNB2004100059406A
Authority: CN
Inventors: 亚历山大·索里恩
Original assignee: International Business Machines Corp
Current assignee: Nuance Communications Inc
Priority date: 2003-02-24
Filing date: 2004-02-23
Publication date: 2006-07-19
Anticipated expiration: 2024-02-23
Also published as: US20040167775A1; TW200508581A; TWI282972B; CN1525435A; US7272551B2

Abstract

通过确定包含具有各个线幅度和频率的谱线的语音信号帧线状频谱；选择少于该谱线的总数的具有最高幅度的预定数目的谱线；计算在一个音调频率范围上的初始效用函数以提供用于在测量所选择谱线与音调频率的兼容性的范围中的每个音调频率的初始效用函数值；至少部分地响应所述初始效用函数识别预定数目的初始音调频率候选项，其中每个候选项是所述初始效用函数的局部极大值；对每个所述初始音调频率候选项计算一个最后效用分数；以及至少部分地响应任何所述最后效用分数，选择要成为所述语音信号的一个被估计的音调频率的任何一个候选项，以估计一个语音信号的音调频率。

Description

用于估计语音信号的音调频率的方法和装置

技术领域

本发明一般涉及用于处理音频信号的方法和装置，特别涉及用于估计语音信号的音调的方法。

背景技术

通过调制在语音域中的气流而产生语音信号。从声道中的收缩部分处产生的湍流噪声产生清音(Voiceless sounds)，而通过声带的周期振动在喉咙中激励产生浊音(voiced sound)。一般来说，喉部振动的振动周期导致语音的音调。低位率的语音编码方案一般分离来自语音源的调制(浊音或清音)，并且对这两个部分分别编码。为了使得该语音被正确地重构，需要在编码时精确地估计该语音的浊音部分的音调。为此目的已经开发出各种技术，包括时域和频域方法。

例如浊音这样的周期信号的傅利叶变换在频域中具有一串脉冲或峰值(peaks)的形式。该脉冲串对应于该信号的线状频谱，其可以被表示为一个序列{(a_i，θ_i)}，其中θ_i为该峰值的频率，并且a_i为各个复数值的线状频谱幅度。为了确定一个语音信号的给定片断是否为浊音或清音，并且如果该片断为浊音时计算该音调，首先把该时域信号乘以一个有限滑窗。然后该窗内信号的傅利叶变换由下式给出：

X (θ) = \underset{k}{Σ} a_{k} W (θ - θ_{k})

方程1

其中W(θ)为该滑窗的傅利叶变换。

给定任何音调频率，对应于该音调频率的线状频谱可以包括在该频率的所有倍频处的线状频谱成份。因此在该线状频谱中出现的任何频率之后可以有多个不同候选音调频率的倍数。从而，对于在该变换的信号中出现的任何峰值，将有可以给出特定峰值的一系列候选音调频率，其中每个候选频率是该峰值的频率的整数被除数。目前不明确的是是否在频域中分析该频谱，或者把其转换回时域用于进一步的分析。

频域音调估计一般基于分析在被变换信号X(θ)中的峰值的位置和幅度，例如把该频谱与原型频谱的“梳”的“齿”相关。该音调频率由使得该梳函数与被变换的语音信号的相关性最大化的梳频率而给出。

用于音调估计的方案的相关类被称为“对数倒频谱(cepstral)”方案，其中对该语音信号的频谱执行记录操作，并且然后把该记录频谱转换回时域，以产生该对数倒频谱信号。该音调频率是时域对数倒频谱信号的峰值。这精确地对应于使得对应于线频率z(i)的幅度的记录与与cos(ω(i)T)的相关性在周期T上最大化。对于音调周期T的每次猜测，该函数cos(ωT)是ω的周期函数。其在对应于音调频率1/T的倍数的频率上具有峰值。如果这些峰值刚好与线频率相一致，则1/T是对应于该音调频率或其倍数的好的候选项。

用于时域音调估计的普通方法使用相关类型的方案，其搜索使得以时间t为中央的一个信号片断与以时间t-T为中央的信号片断的互相关性最大化。该音调频率是T的倒数。

音调确定的时域和频域方法是不稳定和容易出错的，并且精确的音调确定需要大量的计算。例如在时域分析中，在线状频谱中的高频成份导致在互相关性中的附加振动项。当该成份的频率较高时，该项随着所估计的音调周期T而快速变化。在这种情况中，即使T相对于真实的音调周期具有微小的偏移，也将大大地减小互相关性的数值，并且可能导致不正确的估计。一个高频成份还将把大量峰值与该互相关性相加，其使得对真实的极大值的搜索复杂化。在频域中，在候选音调频率的估计中的小错误将导致在作为候选频率的大整数倍的任何频谱成份的估计值的大偏移。

利用当前已有的技术，可以在所有可能的候选项及其倍数上作出分辨率的穷举搜索，以避免错过用于给定输入频谱的最佳候选音调。根据实际的音调频率，这通常需要搜索到达高频率的取样频谱，例如高于1500Hz。与此同时，分析间隔或滑窗的时间必须足够长，以捕获在该频谱中的每个可能的音调候选项的至少几个周期，这导致复杂度的增加。类似地，在时域中，必须在宽的时间范围上以高分辨率搜索最佳的音调周期T。在这两种情况中的搜索消耗大量的计算资源。即使在可能是清音的间隔中也不能放宽该搜索标准，因为仅仅在所有候选音调频率或周期已经被排除之后才可以把一个间隔判断为清音的。尽管来自先前帧的音调数值通常被用于控制对当前数值的搜索，但是该搜索不能限于先前音调的附近区域。否则，在一个间隔中的误差可能在后续的间隔中变为恒定，并且浊音的片断可能被误认为清音。

发明内容

本发明的一个目的是提供一种用于确定音频信号，特别是语音信号的音调的改进方法和装置。

在本发明的一个方面中，提供一种用于估计语音信号的音调频率的方法，包括查找该信号的线状频谱，该频谱包括具有各个线幅度和线频率的谱线，对在给定音调频率范围中的每个候选音调频率计算表示该频谱与候选音调频率的兼容性的效用函数，以及响应该效用函数估计该语音信号的音调频率。

在本发明的另一个方面中，计算该效用函数包括计算作为一个谱线的频率与候选音调频率的比率上周期性的至少一个影响函数.计算至少一个影响函数最好还包括计算具有在所述比率的整数值上的极大值和其间的极小值的所述比率的一个函数。计算至少一个影响函数最好还包括计算一个分段线性函数c(f)，其具有在f＝0附近的第一间隔中的极大值、在f＝1/2附近的第二间隔中的极小值、以及在该第一和第二间隔之间的转变间隔中线性变化的数值。

在本发明的另一个方面中，计算至少一个影响函数包括对在该频谱中的多条线计算各个影响函数，以及计算效用函数包括计算该影响函数的重叠。最好，各个影响函数包括具有断点的分段线性函数，以及计算该重叠包括计算在该断点的影响函数的数值，使得通过断点之间的插值而确定该效用函数。计算各个影响函数最好还包括对在该频谱中的连续的第一和第二线计算至少第一和第二影响函数，以及计算该效用函数包括计算包含第一影响函数的部分效用函数，然后通过计算在该该部分效用函数的断点处的第二影响函数的数值而把该第二影响函数与该部分效用函数相加，以及计算在该第二影响函数的断点处的部分效用函数的数值而把该第二影响函数与该部分效用函数相加。

在本发明的另一个方面中，提供一种用于估计语音信号的音调频率的方法，其中包括确定一个语音信号的帧的线状频谱，该频谱包括具有各个线幅度和线频率的多个谱线；在所述谱线中选择具有最高幅度的预定数目的所述谱线，其中所选择的谱线的数目小于所述多个谱线的总数；计算在一个音调频率范围上的初始效用函数，从而在所述范围中提供用于每个音调频率的初始效用函数值，作为所述被选择的谱线与所述音调频率的兼容性的一个度量；响应所述初始效用函数识别预定数目的初始音调频率候选项，其中每个初始音调频率候选项是所述初始效用函数的局部极大值；对于每个所述初始音调频率候选项计算一个最后效用分数；以及响应任何所述最后效用分数，选择所述多个初始音调频率候选项中的任何一个，作为所述语音信号的一个被估计的音调频率。

在本发明的另一个方面中，所述计算初始效用函数的步骤包括响应每个所述被选择的谱线计算一个影响函数，其中所述影响函数对于所述谱线的频率与任何音调频率的比率是周期性的；以及计算所述影响函数的叠加部分。

在本发明的另一个方面中，所述计算影响函数的步骤包括计算所述比率的一个函数，所述函数在所述比率的整数值上具有极大值，在其间具有极小值。

在本发明的另一个方面中，所述计算影响函数的步骤包括计算一个分段线性函数c(f)，其具有在f＝0附近的第一间隔中的极大值、在f＝1/2附近的第二间隔中的极小值、以及在该第一和第二间隔之间的转变间隔中分段线性变化的数值。

在本发明的另一个方面中，所述影响函数是分段线性函数，并且其中所述计算叠加的步骤包括在其断点处计算所述影响函数的数值，使得所述初始效用函数通过所述断点之间的插值而确定。

在本发明的另一个方面中，所述计算所述影响函数的步骤包括连续地计算用于来自所述被选择的谱线中的第一和第二谱线的至少第一和第二影响函数，并且其中所述计算一个初始效用函数的步骤包括：计算包括所述第一影响函数的一个部分效用函数；以及通过在所述初始效用函数的断点处计算所述第二影响函数的数值并且在所述第二影响函数的断点处计算所述初始效用函数的数值，而把所述第二影响函数与所述初始效用函数相加。

在本发明的另一个方面中，所述确定音调频率候选项的步骤包括优先地选择在频率上接近于所述语音信号的先前帧的以前估计的音调频率的所述初始效用函数的局部极大值。

在本发明的另一个方面中，所述计算一个最后效用分数的步骤包括：响应每个所述谱线计算一个影响函数，其中所述影响函数对于所述谱线的频率与任何音调频率的比率是周期性的；以及计算所述影响函数的总和。

在本发明的另一个方面中，所述计算所述比率的函数的步骤包括计算一个分段线性函数c(f)，其具有在f＝0附近的第一间隔中的极大值、在f＝1/2附近的第二间隔中的极小值、以及在该第一和第二间隔之间的转变间隔中分段线性变化的数值。

在本发明的另一个方面中，所述选择音调频率的步骤包括优先地选择在具有比另一个所述初始音调频率候选项更高的最后效用分数的所述初始音调频率候选项之一。

在本发明的另一个方面中，所述选择音调频率的步骤包括优先地选择具有比另一个所述初始音调频率候选项更高的频率的一个所述初始音调频率候选项。

在本发明的另一个方面中，所述选择音调频率的步骤包括优先地选择在频率上接近于所述语音信号的先前帧的以前估计的音调频率的所述初始效用频率候选项之一。

在本发明的另一个方面中，进一步包括通过把所述被估计的音调频率的所述最后效用分数与一个预定阈值相比较而确定所述语音信号是否浊音或清音。

在本发明的另一个方面中，进一步包括响应所述被估计的音调频率而对所述语音信号进行编码。

在本发明的另一个方面中，提供一种用于估计语音信号的音调频率的装置，其中包括：用于确定语音信号的一个帧的谱线的装置，该频谱包括具有各个线幅度和线频率的多个谱线；用于在所述谱线中选择具有最高幅度的预定数目的所述谱线的装置，其中所选择的谱线的数目小于所述多个谱线的总数；用于计算在一个音调频率范围上的初始效用函数的装置，从而在所述范围中提供用于每个音调频率的初始效用函数值，作为所述被选择的谱线与所述音调频率的兼容性的一个度量；用于响应所述初始效用函数识别预定数目的初始音调频率候选项的装置，其中每个初始音调频率候选项是所述初始效用函数的局部极大值；用于对每个所述初始音调频率候选项计算一个最后效用分数的装置；以及用于响应任何所述最后效用分数、选择所述多个初始音调频率候选项中的任何一个，作为所述语音信号的一个被估计的音调频率的装置。

在本发明的另一个方面中，所述计算初始效用函数的装置用于：响应每个所述被选择的谱线计算一个影响函数，其中所述影响函数对于所述谱线的频率与任何音调频率的比率是周期性的；以及计算所述影响函数的重叠部分。

在本发明的另一个方面中，所述计算影响函数的装置计算所述比率的一个函数，所述函数在所述比率的整数值上具有极大值，在其间具有极小值。

在本发明的另一个方面中，所述计算影响函数的装置计算一个分段线性函数c(f)，其具有在f＝0附近的第一间隔中的极大值、在f＝1/2附近的第二间隔中的极小值、以及在该第一和第二间隔之间的转变间隔中分段线性变化的数值。

在本发明的另一个方面中，所述影响函数是分段线性函数，并且其中所述计算叠加的装置包括在其断点处计算所述影响函数的数值，使得所述初始效用函数通过所述断点之间的插值而确定。

在本发明的另一个方面中，所述计算所述影响函数的步骤包括连续地计算用于来自所述被选择的谱线中的第一和第二谱线的至少第一和第二影响函数，并且其中所述计算一个初始效用函数的装置用于：计算包括所述第一影响函数的一个部分效用函数；以及通过在所述初始效用函数的断点处计算所述第二影响函数的数值并且在所述第二影响函数的断点处计算所述初始效用函数的数值，而把所述第二影响函数与所述初始效用函数相加。

在本发明的另一个方面中，所述确定音调频率候选项的装置优先地选择在频率上接近于所述语音信号的先前帧的以前估计的音调频率的所述初始效用函数的局部极大值。

在本发明的另一个方面中，所述计算一个最后效用分数的装置用于：响应每个所述谱线计算一个影响函数，其中所述影响函数对于所述谱线的频率与任何音调频率的比率是周期性的；以及计算所述影响函数的总和。

在本发明的另一个方面中，所述计算所述比率的函数的装置计算一个分段线性函数c(f)，其具有在f＝0附近的第一间隔中的极大值、在f＝1/2附近的第二间隔中的极小值、以及在该第一和第二间隔之间的转变间隔中分段线性变化的数值。

在本发明的另一个方面中，所述选择音调频率的装置优先地选择在具有比另一个所述初始音调频率候选项更高的最后效用分数的所述初始音调频率候选项之一。

在本发明的另一个方面中，所述选择音调频率的装置优先地选择具有比另一个所述初始音调频率候选项更高的频率的一个所述初始音调频率候选项。

在本发明的另一个方面中，所述选择音调频率的装置优先地选择在频率上接近于所述语音信号的先前帧的以前估计的音调频率的所述初始效用频率候选项之一。

在本发明的另一个方面中，进一步包括通过把所述被估计的音调频率的所述最后效用分数与一个预定阈值相比较而确定所述语音信号是否浊音或清音的装置。

在本发明的另一个方面中，进一步包括响应所述被估计的音调频率而对所述语音信号进行编码的装置。

附图说明

从下文结合附图对优选实施例的详细描述中，将更好地理解本发明，其中：

图1为根据本发明一个优选实施例的用于语音分析和编码的系统的示意图；

图2为示意地示出根据本发明一个优选实施例的用于音调确定和语音编码的方法的流程图；

图3为示意地示出根据本发明一个优选实施例的用于对语音信号提取线状频谱并且查找候选音调值的方法的流程图；

图4为示意地示出根据本发明一个优选实施例的用于同时在长和短的间隔上提取线状频谱的方法的方框图；

图5为示意地示出根据本发明一个优选实施例的用于查找一个线状频谱的峰值的方法的流程图；

图6A、6B、6C和6D为示意地示出根据本发明一个优选实施例的用于根据输入线状频谱估计候选音调频率的方法的流程图；

图7为根据图6A-6D的方法的估计候选音调频率中所用的干扰频率的一个周期的示意图；

图8为根据本发明一个优选实施例的把图7的影响函数应用于一个线状频谱的一个成份所导出的一个部分效用函数的示意图；

图9A和9B为根据本发明一个优选实施例的用于从多个候选音调频率中选择用于一个语音帧的被估计音调频率的方法的流程图；以及

图10为示意地示出根据本发明一个优选实施例的用于确定一个语音帧是否为浊音或清音的方法的流程图。

具体实施方式

图1为根据本发明一个优选实施例的用于分析和编码语音信号的系统20的示意图。该系统包括一个音频输入设备22，例如麦克风，其连接到一个音频处理器24。另外，到该处理器的音频输入可以用模拟或数字形式通过一条通信线路提供，或者从一个存储设备恢复。处理器24最好包括一个用适当的软件编程的通用计算机，用于执行下述功能。该软件可以例如通过网络被以电子形式提供到该处理器，或者它可以在例如CD-ROM或非易失性存储器这样的实际介质上提供。另外，处理器24可以包括一个数字信号处理器(DSP)或者硬连接线逻辑电路。

图2为示意地示出根据本发明一个优选实施例的用于使用系统20处理信号的方法的流程图。在一个输入步骤30中，一个语音信号被从设备22输入或者从另一个来源输入，并且被数字化(如果该信号还不是数字形式)用于进一步的处理。该数字化的信号被分为适当时间段的帧和相对偏移，一般分别为25ms和10ms，用于后续的处理。在一个峰值识别步骤32中，处理器23对每个帧提取一个近似的线状频谱。如下文所示，通过同时在多个间隔上分析该信号而提取该频谱。最好，两个间隔被用于每个帧：用于提取高频音调值的短时间间间隔和用于提取低频值的长间隔。另外，可以使用更多数目的间隔。该低频和高频部分最好一同覆盖整个可能的音调数值。根据所提取的频谱，识别用于当前帧的候选音调频率。

在一个音调选择步骤34中，从该全部频谱中的候选频率内选择用于当前帧的音调频率的最佳估计值。根据所选择的音调，系统24在语音判断步骤36中确定当前帧是否为实际的浊音或清音。在输出编码步骤38中，浊音/清音判断和被选择的音调频率被用于编码该当前帧。可以使用任何适当的编码方法，例如在美国专利申请No.09/410,085和09/432,081中所述的方法。最好，被编码的输出包括与语音和音调信息一同调制声音流的特征。被编码的输出一般被通过一条通信链路发送和/或存储在一个存储器26中(图1)。用于在此所述的音调确定的方法还可以用于具有或没有后续编码的其他音频处理应用程序。

图3为示意地示出根据本发明一个优选实施例的音调识别步骤32的具体细节的流程图。在一个转换步骤40中，一个双滑窗短时间傅利叶变换(STFT)被应用于该语音信号的每个帧。用于语音信号的可能音调频率的范围一般从55至420Hz。该范围最好被分为两个区域：从55Hz至中频F_b的较低区域(一般大约为90Hz)，以及从F_b至420Hz的较高区域。如下文所示，对于每个帧确定一个短时间滑窗，用于搜索较高频率区域，以及确定一个长时间滑窗，用于搜索较低频率区域。另外，可以使用较大量的相邻滑窗。该STFT被应用于每个时间滑窗，以计算该语音信号的各个高频频谱和低频频谱。

短和长滑窗频谱的处理最好在分离的平行记录道上进行。在频谱估计步骤42和44处，从各个STFT结果中导出上述定义的具有形式{(a_i，θ_i)}的高和低频线状频谱。该线状频谱被用于候选频率查找步骤46和48中，以查找该音调的高和低频候选值的各个集合。该音调候选项被传送到步骤34(图2)，用于在该候选项中选择最佳音调频率估计。下面参照图4、5和6A-6D描述步骤40至48的具体细节。

图4为示意地示出根据本发明一个优选实施例的转换步骤40的具体细节的方框图。一个滑窗模块50对该语音信号的当前帧使用窗口函数，最好是如本领域普通技术人员所公知的25ms持续时间的汉明窗。根据该采样率，一个转换模块52对该窗内帧应用适当的频率变换，最好为具有256或512个频率点的分辨率的快速傅利叶变换(FFT)。

最好，模块52的输出被传送到一个适当的模块54，其被用于增加该频谱的分辨率，例如通过对FFT输出系数X^d[k]应用一个狄利克雷核

D (θ, N) = \frac{\sin (Nθ / 2)}{\sin (θ / 2)},

给出插值的频谱系数：

X (θ) = Σ_{k = 0}^{N - 1} \frac{1}{N} X^{d} [k] D (θ - 2 πk / N, N) \exp {- j (θ - 2 πk / N) (N - 1) / 2}

方程2

为了有效插值，少量系数X^d[k]最好被用于每个频率θ的附近。一般来说，使用16个系数，并且按照这种方式把频谱的分辨率增加2倍，使得在被插值频谱中的点数为L＝2N。该模块54的输出给出短窗口变换，其被传送到步骤42(图3)。

通过组合当前帧X^s和由一个延迟模块56保存的先前帧Y^s的短窗口变换而计算要被传送到步骤44的长窗口变换。在组合之前，来自先前帧的系数在一个乘法器58处乘以2πmk/L的相移，其中m为在一个帧中的样本数目。通过在一个加法器60把来自当前和先前帧(具有适当的相移)的短窗口系数相加而产生该长窗口频谱X^l，给出：

x^l(2πk/L)＝X^S(2πk/L)+Y^S(2πk/L)exp(j2πmk/L)方程3

在此k为从一组整数所取得的一个整数，例如该频率2πk/L跨过整个频率范围。因此以比对单个窗口执行STFT操作所需的计算工作量略多的工作量，由图4所示的方法使得频谱被导出用于加倍的重叠窗口。

图5为示意地示出本发明一个优选实施例的线状频谱估计步骤42和44的流程图。在该图中所示的线状频谱估计的方法被用于在步骤40处产生的长和短窗口变换X(θ)。步骤42和44的目的是确定当前帧的绝对线状频谱的一个估计值该系列峰值频率

从X(θ)的局部极大值的位置处导出，并且

| {\hat{a}}_{i} | = | X ({\hat{θ}}_{i}) | .

该估计基于这样的假设，即在频域中的窗口函数的变换(模块50)的主瓣的宽度与该音调频率相比较小。因此，在该频谱中的相邻窗口之间的相互作用较小。

该线状频谱的估计以在一个峰值查找步骤70中在该插值频谱(每个方程(2))中查找峰值的近似频率为开始。一般来说，这些频率以整数精度而计算。在一个插值步骤72中，计算峰值频率和幅度为浮点精度，最好在2π/L的三个最近整数倍处使用基于频谱幅度的二次插值。

在失真估计步骤74中，在先前步骤中查找的峰值阵列被处理，以估计失真是否存在于该输入语音信号中，如果为是，则尝试纠正该失真。最好，被分析的频率范围被分为三个相等的区域，并且对于每个区域，计算在该区域中的所有幅度的极大值。该区域完全覆盖该频率范围。如果在中频或高频范围中的极大值与在低频范围中的极大值相比为太高，则在一个衰减步骤76中，在中频和/或高频范围中的峰值被衰减。研究表明如果对于中频范围的极大值比在低频范围中的极大值大65％，或者如果在高频范围中的极大值比低频范围中的极大值大45％，则应当进行衰减。按照这种方式衰减该峰值把该频谱“恢复”到一个更加类似的形状。一般来说，如果该语音信号最初不失真，则步骤74将不改变其频谱。

在一个峰值计数步骤78中，在步骤72所找到的峰值数目被计数。在一个大峰值估计步骤80中，峰值的数目被与一个预定最大数目相比较，该数目一般被设置为7。如果发现7个或更少的峰值，则该处理直接进行到步骤46或48。否则，在排序步骤82中，按照它们的幅度值的降序次序对峰值排序。一旦已经发现预定数目的最大峰值(一般等于在步骤80中所用的最大峰值数)，则在阈值设置步骤84中，一个阈值被设置为等于在最高峰值的组中的最低峰值。在一个伪峰值丢弃步骤86中，在该阈值之下的峰值被丢弃。另外，如果在排序步骤82的一些阶段中，被排序的峰值的总和超过被发现的所有峰值的数值总和的一个预定分数，一般为95％，则该排序处理停止。然后，所有剩余的较小峰值被在步骤86中丢弃。该步骤的目的是删除可能对音调确定或者在步骤34和36(图2)判断浊音/清音具有干扰的小的伪峰值。

图6A为示意地示出根据本发明一个优选实施例的在候选音调频率查找步骤46和48(图3)的具体细节的流程图。这些步骤被分别应用于由上文所示和描述的步骤42和44输出的短和长窗口线状频谱

在步骤46中，产生频率高于特定阈值的音调候选项，并且使用根据短分析间隔中产生的线状频谱而概括的过程来计算它们的效用函数。在步骤48中，在长分析间隔中产生的线状频谱还产生一个音调候选项列表，并且仅仅对其频率低于该阈值的音调候选项计算效用函数。在一个归一化步骤90中，对于长和短窗口使得线状频谱归一化，以产生具有由下式给出的归一化的幅度b_i和频率f_i的线：

b_{i} = \frac{| {\hat{a}}_{i} |}{Σ_{k = 1}^{K} | {\hat{a}}_{k} |}

方程4

f_{i} = \frac{{\hat{θ}}_{i}}{2 π T_{s}}

方程5

在方程4和5中，i为从1至K，其中K是谱线(峰值)的数目，并且T_s是采样间隔。换句话说，1/T_s是原始语音信号的采样频率，因此f_i是以该谱线的每秒样本数为单位的频率。

在一个选择主要线步骤92中选择具有最高幅度值的预定数目的谱线。然后，在步骤94中，计算一个初始效用函数，其对在给定音调频率范围中的每个候选音调频率表示在步骤92中选择的主要谱线与该候选音调频率的兼容性。下面参照图7和图8更加详细地描述根据本发明的实施例的一个效用函数定义，并且在下文中参照图6B更加详细地描述计算该初始效用函数的优选方法。然后使用该初始效用函数在一个选择初始候选项步骤96中选择预定数目的音调频率候选项。一个选择初始候选项的优选方法在下文中参照图6C更加详细地描述。然后在为初始候选项计算最后效用分数的步骤98中，对每个初始候选项计算一个效用分数。下面参照图6D更加详细地描述计算最后效用分数的优选方法。

根据本发明一个优选实施例，通过一个影响函数确定该效用函数，例如作为示出被表示为c(f)的一个影响函数120的一个周期的示意图的图7中所示，该影响函数最好具有如下特性：

1.c(f+1)＝c(f)，即，该函数是周期性的，具有周期1。

2.0≤c(f)≤1

3.c(0)＝1

4.c(f)＝c(-f)

5.c(f)＝0，对于r≤|f|≤1/2，其中r为一个小于

1/2的参数＜1/2

6.c(f)分段线性和在[0，r]中非增加。

在图7中所示的优选实施例中，该影响函数是梯形的，并且其一个周期具有如下形式：

c (f) = \{\begin{matrix} 1 & f &Element; [- r_{1}, r_{1}] \\ 1 - (| f | - r_{1}) / (r - r_{1}) & | f | &Element; [r_{1}, r] \\ 0 & r < | f | < 0.5 \end{matrix}

方程6

另外，可以使用另一个周期函数，最好是一个分段线性函数，其数值在相距原点大于预定距离时为零。

图8为示出根据本发明一个优选实施例的使用影响函数c(f)为候选音调频率f_p产生的一个效用函数U(f_p)的成份130的示意图。根据线状频谱{(b_i，f_i)}产生用于任何给定音调频率的效用函数U(f_p)，如下式给出：

U (f_{p}) = Σ_{i = 1}^{K} b_{i} c (f_{i} / f_{p})

方程7

然后对单个谱线(b_i，f_i)确定该函数U_i(f_p)的一个成份为：

U_{i} (f_{p}) = b_{i} c (f_{i} / f_{p})

方程8

图8示出这样一个成份，其中f_i＝700Hz，并且在从50至400Hz的范围内在音调频率上估计该成份。该成份包括多个旁瓣132、134、136、138...，每个确定该频率范围的一个区域，其中可以出现一个候选音调频率，并且导致在f_i处的谱线。

由于数值b_i被归一化，并且c(f)≤1，用于任何给定的候选音调频率的效用函数将在0和1之间。由于c(f_i/f_p)周期地由f_i和f_p确定，因此对于给定音调频率f_p的效用函数的高数值表示在该序列{f_i}中的大部分频率接近于该音调频率的倍数。因此，可以通过利用特定的分辨率对在适当频率范围中的所有可能音调频率计算该效用函数，并且选择具有高效用值的候选音调频率，而以直接的方式(但没有效率)找到用于当前帧的音调频率。

现在参见图6A，在一个主要线选择步骤92，在K条线中选出与M个最大幅度相关的M条谱线{(b_ij，f_ij)}，j＝1，2，...，M。在本发明的一个优选实施例中，M被设置为7。在上述步骤94计算由下式给出的一个初始效用函数：

UD (f_{p}) = Σ_{j = 1}^{M} b_{ij} c (f_{ij} / f_{p})

方程9

仅仅使用在步骤92选择的M主要线。通过使用在下文中参照6B所述的快速方法，在整个音调频率搜索范围上计算该初始效用函数。由于该影响函数c(f)是分段线性的，因此在任何点处的U_ij(f_p)由在该函数的断点处的数值所定义(即，在第一导数中的不连续点)，例如图8中所示的点140和142。尽管U_ij(f_p)自身不是分段线性的，但是其在所有区域中可以被近似为一个线性函数。UD(f_p)计算的快速方法使用成份U_ij(f_p)的断点值来构建完整函数UD(f_p)。每个成份U_ij(f_p)把其自身的断点与该完整函数相加，并且可以通过执行线性插值而查找在该断点之间的效用函数的数值。

构建UD(f_p)的处理使用通过把用于每个主要谱线(b_ij，f_ij)的成份U_ij(f_p)连续相加而产生的一系列部分效用函数PU_j：

{PU}_{j} (f_{p}) = Σ_{k = 1}^{j} U_{ik} (f_{p})

方程10

继续参照图6B，该影响函数c(f)被重复地应用于在该归一化的线状频谱中的每个主要线(b_ij，f_ij)，以产生部分效用函数PU_j的连续性。该处理以第一成份U_i1(f_p)为开始。该成份对应于主要谱线(b_i1，f_i1)。在一个效用函数成份产生步骤102中，在对fp搜索的范围上的所有断点处，计算该U_i1(f_p)的数值。在该阶段的部分效用函数PU₁被简化为等于U_i1。在该步骤的后续重复迭代中，确定其自身的断点以及部分效用函数PU_j-1(f_p)的所有断点处确定新的成份U_ij(f_p)。在PU_j-1(f_p)的断点处的数值U_ij(f_p)最好通过插值来计算。PU_j-1(f_p)的数值被类似地在U_ij(f_p)的断点处计算。如果U_ij(f_p)包含非常接近于PU_j-1中的现有断点，则这些新的断点最好在丢弃步骤103中作为多余的部分而丢弃。最好，按照这种方式丢弃其频率与现有断点之差不大于0.0006*f_p ²的断点。然后，U_ij与在所有剩余断点处的PU_j-1相加，因此在一个加法步骤104中产生PU_j。

在一个结束步骤105中，当最后的主要谱线(b_iM，f_iM)的成份U_iM已经被计算时，该处理完成，并且所获得的效用函数UD(f_p)被传送到初始音调候选项选择步骤96。该函数具有一组频率断点的形式，以及在该断点处的初始效用函数的数值。否则，如果其他主要谱线要被估计，则在步骤106取下一个主要谱线，并且从步骤102继续进行迭代处理，直到所有主要谱线已经被估计时为止。

在图6B的方法中可以看到在该搜索范围中搜索所有可能的音调频率，但是由于涉及更少的谱线，并且仅仅在特定断点处，而不是在音调频率的整个搜索范围上，计算每条线对该效用函数的贡献，因此其具有优化的效率。

图6C为示意地示出根据本发明一个优选实施例的初始音调候选项选择步骤96(图6A)的具体细节的流程图。选择预定数目m个初始音调候选项。在本发明的一个优选实施例中，m被设置为4。该初始音调频率候选项的选择基于从步骤94输出的初始效用函数，包括被找到的所有断点。该初始效用函数的断点被估计，并且选择一些作为该初始音调候选项。

在步骤110中，查找表示该初始效用函数的局部极大值的这些断点。然后，选择m个(一般为4个)最高局部极大值，作为初始候选项的初始集合{(f₁，UD(f₁))，(f₂，UD(f₂))，...，(f_m，UD(f_m))}。假设，(f_k，UD(f_k))为该集合的最低成份，即，UD(f_k)＜UD(f_i)，如果i≠k。

假设音调在先前帧中是稳定的，则通常希望选择一个用于接近于先前帧的音调的当前帧的音调。因此，在一个先前帧评估步骤112中，确定该先前帧的音调是否为稳定。最好，如果在6个先前帧上满足特定的连续性标准，则认为该音调是稳定的。例如，可能需要在连续帧之间改变的音调小于一个预定数值，例如22％，并且该效用函数的预定数值被保持在所有帧中。如果该音调是稳定的，则在一个最接近极大值选择步骤113处选择与最接近于该先前音调频率的局部极大值相关的替换音调频率候选项f_p ^alt。然后通过估计如下条件测试在替换候选频率f_p ^alt和先前音调频率f_prev之间的接近程度：

f_{p}^{alt} / f_{prev} \leq R

方程11

其中R被设置为预定数值，例如1.22。如果该条件被满足，则在一个比较步骤114，根据最低集合成份UD(f_k)的初始效用函数，估计在该替换候选频率UD(f_p ^alt)处的初始效用函数。如果在这两个频率处的效用函数的数值之差不大于一个预定阈值量T₁，例如0.06，则在步骤114，最低集合成份(f_k，UD(f_k))由(f_p ^alt，UD(f_p ^alt))所代替。否则，保持初始候选项的初始集合不变。如果在步骤112发现先前帧的音调不稳定，并且在步骤113没有在该先前音调的附近发现局部极大值，则该初始候选项的初始集合可能被选择。

图6D为示意地示出与初始音调频率候选项f相关的最后效用分数的计算步骤98(图6A)的具体细节的流程图。在图6D中所示的步骤次序最好被用于在步骤96中所发现的每个初始候选音调频率。使用所有谱线，用方程7获得该最后效用分数。在初始化步骤116中，该分数被设置为0，并且选择第一谱线(b₁，f₁)。在步骤117使用方程6计算一个加权影响函数。这包括计算比率f₁/f，取该比率的一个分数部分，以把其折叠到该影响函数的主要周期(-1，+1)中，使用方程6并且乘以b₁。所获得数值与该分数相加。图6D的步骤最好对所有谱线重复执行。

图9A和图9B为示出最佳音调频率选择步骤34(图3)的具体细节的流程图。使用在步骤98计算的效用分数从初始音调候选项中选择最佳音调候选项。一般来说，把优先级给予高音调频率，以避免把该音调频率的整数被除数(对应于音调周期的整数倍)误以为实际音调。因此，在一个频率排序步骤152中，按照频率对初始候选项

排序，使得：

f_{p}^{1} > f_{p}^{2} > \cdot \cdot \cdot {> f}_{p}^{m}

方程12

该估计的音调最好在初始化步骤154中被初始设置为等于最高频率候选项f_p ¹。按照降频次序，根据所估计的音调的当前值估计每个剩余的候选项。

在下一个频率步骤156中，开始对候选音调f_p ²进行评估处理。在一个评估步骤158中，该效用函数的数值U(f_p ²)被与相比较。如果在f_p ²的效用函数在的效用函数至少大一个阈值差T₂，或者如果f_p ²接近于并且具有一个更大的效用函数，则f_p ²被认为是对当前的高音调频率估计。最好，T₂＝0.06，并且如果

1.17 f_{p}^{2} > {\hat{F}}_{0},

则f_p ²被认为是接近于

在这种情况中，在一个候选项设置步骤160，被设置为新的候选项数值f_p ²。步骤156至160被对所有初始候选项f_p ⁱ重复执行，直到在最后频率步骤162中到达最后频率f_p ^m时为止。

假设该音调在先前帧中为稳定，则非常希望选择用于在先前帧的音调附近的当前帧的音调。因此，在图9B中，类似于用于初始候选项选择的并且在图6D中所示的处理还可以被应用于最佳音调候选项选择。在一个先前帧评估步骤170中，确定该先前帧音调是否如上文所述为稳定的。如果该音调是稳定的，则在步骤172选择在最接近于该先前帧音调频率的集合{f_p ⁱ}中的替换音调频率f_p ^alt。然后估计方程11的条件，以确定替换候选项是否足够接近于先前音调频率。如果该条件被满足，则在一个比较步骤174根据当前估计的音调频率

的效用函数评估在该替换频率U(f_p ^alt)的效用函数。如果在这两个频率处的效用函数的数值相差不大于一个预定阈值量T₂，则在步骤176中，该替换频率f_p ^alt作为用于当前帧的被估计音调频率一般地，T₂被设置为0.06。否则，在一个候选频率设置步骤178中，来自步骤162的当前被估计的音调频率保持为用于当前帧的所选择音调频率。如果在步骤170发现先前帧的音调不稳定，并且如果在步骤172在该先前音调附近没有发现初始候选项，则该被估计的数值很可能被选择。

图10为根据本发明一个优选实施例的示意地示出语音判断步骤36的具体细节的流程图。在一个阈值比较步骤180中，该判断基于把在被估计音调

处的效用函数与上述阈值相比较。一般来说，T_uv＝0.75。如果该效用函数大于该阈值，则在浊音设置步骤188中，当前帧被分类为浊音。

但是在语音流的转换过程中，即使当当前帧应当被认为是浊音时，该语音信号的周期结构也可能改变，有时导致该效用函数的低数值。因此，当用于当前帧的效用函数低于该阈值T_uv时，在一个先前帧检查步骤182中，检查该先前帧的效用函数。如果该先前帧的被估计的音调具有一个高的效用值，一般至少为0.84，并且在一个音调检查步骤184中，找到该当前帧的音调，为接近于先前帧的音调，一般差别不大于18％，然后在步骤188，该当前帧被分类为浊音，而与其低的效用值无关。否则，在一个清音设置步骤186中，当前帧被分类为清音。

应当知道，在此所述的任何方法的一个或多个可以被省略或按照与所示的次序不同的次序来执行，而不脱离本发明的精神和范围。

尽管在此所公开的方法和装置可能已经参照或没有参照具体的计算机硬件或软件来描述，但是应当知道在此所述的方法和装置可以通过使用常规的技术而容易地应用于计算机硬件或软件中。

应当知道通过举例的方式引述的上述优选实施例，并且本发明不限于在上文中具体示出和描述的内容。而是，本发明的精神和范围包括在上文所述的各种特征的组合，以及本领域的普通技术人员在阅读上文并且没有在现有技术中公开的描述之后容易想到的变型和改进。

Claims

1.一种用于估计语音信号的音调频率的方法，其中包括：

确定语音信号的一个帧的谱线，该频谱包括具有各个线幅度和线频率的多个谱线；

在所述谱线中选择具有最高幅度的预定数目的所述谱线，其中所选择的谱线的数目小于所述多个谱线的总数；

计算在一个音调频率范围上的初始效用函数，从而在所述范围中提供用于每个音调频率的初始效用函数值，作为所述被选择的谱线与所述音调频率的兼容性的一个度量；

响应所述初始效用函数识别预定数目的初始音调频率候选项，其中每个初始音调频率候选项是所述初始效用函数的局部极大值；

对于每个所述初始音调频率候选项计算一个最后效用分数；以及

响应任何所述最后效用分数，选择所述多个初始音调频率候选项中的任何一个，作为所述语音信号的一个被估计的音调频率。

2.根据权利要求1所述的方法，其中所述计算初始效用函数的步骤包括：

响应每个所述被选择的谱线计算一个影响函数，其中所述影响函数对于所述谱线的频率与任何音调频率的比率是周期性的；以及

计算所述影响函数的叠加。

3.根据权利要求2所述的方法，其中所述计算影响函数的步骤包括计算所述比率的一个函数，所述函数在所述比率的整数值上具有极大值，在其间具有极小值。

4.根据权利要求3所述的方法，其中所述计算影响函数的步骤包括计算一个分段线性函数c(f)，其具有在f＝0附近的第一间隔中的极大值、在f＝1/2附近的第二间隔中的极小值、以及在该第一和第二间隔之间的转变间隔中分段线性变化的数值。

5.根据权利要求2所述的方法，其中所述影响函数是分段线性函数，并且其中所述计算叠加的步骤包括在其断点处计算所述影响函数的数值，使得所述初始效用函数通过所述断点之间的插值而确定。

6.根据权利要求5所述的方法，其中所述计算所述影响函数的步骤包括连续地计算用于来自所述被选择的谱线中的第一和第二谱线的至少第一和第二影响函数，并且其中所述计算一个初始效用函数的步骤包括：

计算包括所述第一影响函数的一个部分效用函数；以及

通过在所述初始效用函数的断点处计算所述第二影响函数的数值并且在所述第二影响函数的断点处计算所述初始效用函数的数值，而把所述第二影响函数与所述初始效用函数相加。

7.根据权利要求6所述的方法，其中所述确定音调频率候选项的步骤包括优先地选择在频率上接近于所述语音信号的先前帧的以前估计的音调频率的所述初始效用函数的局部极大值。

8.根据权利要求1所述的方法，其中所述计算一个最后效用分数的步骤包括：

响应每个所述谱线计算一个影响函数，其中所述影响函数对于所述谱线的频率与任何音调频率的比率是周期性的；以及

计算所述影响函数的总和。

9.根据权利要求8所述的方法，其中所述计算影响函数的步骤包括计算所述比率的一个函数，所述函数在所述比率的整数值上具有极大值，在其间具有极小值。

10.根据权利要求9所述的方法，其中所述计算所述比率的函数的步骤包括计算一个分段线性函数c(f)，其具有在f＝0附近的第一间隔中的极大值、在f＝1/2附近的第二间隔中的极小值、以及在该第一和第二间隔之间的转变间隔中分段线性变化的数值。

11.根据权利要求1所述的方法，其中所述选择音调频率的步骤包括优先地选择在具有比另一个所述初始音调频率候选项更高的最后效用分数的所述初始音调频率候选项之一。

12.根据权利要求1所述的方法，其中所述选择音调频率的步骤包括优先地选择具有比另一个所述初始音调频率候选项更高的频率的一个所述初始音调频率候选项。

13.根据权利要求1所述的方法，其中所述选择音调频率的步骤包括优先地选择在频率上接近于所述语音信号的先前帧的以前估计的音调频率的所述初始效用频率候选项之一。

14.根据权利要求1所述的方法，其中进一步包括通过把所述被估计的音调频率的所述最后效用分数与一个预定阈值相比较而确定所述语音信号是否浊音或清音。

15.根据权利要求1所述的方法，其中进一步包括响应所述被估计的音调频率而对所述语音信号进行编码。

16.一种用于估计语音信号的音调频率的装置，其中包括：

用于确定语音信号的一个帧的谱线的装置，该频谱包括具有各个线幅度和线频率的多个谱线；

用于在所述谱线中选择具有最高幅度的预定数目的所述谱线的装置，其中所选择的谱线的数目小于所述多个谱线的总数；

用于计算在一个音调频率范围上的初始效用函数的装置，从而在所述范围中提供用于每个音调频率的初始效用函数值，作为所述被选择的谱线与所述音调频率的兼容性的一个度量；

用于响应所述初始效用函数识别预定数目的初始音调频率候选项的装置，其中每个初始音调频率候选项是所述初始效用函数的局部极大值；

用于对每个所述初始音调频率候选项计算一个最后效用分数的装置；以及

用于响应任何所述最后效用分数、选择所述多个初始音调频率候选项中的任何一个、作为所述语音信号的一个被估计的音调频率的装置。

17.根据权利要求16所述的装置，其中所述计算初始效用函数的装置用于：

计算所述影响函数的叠加。

18.根据权利要求17所述的装置，其中所述计算影响函数的装置计算所述比率的一个函数，所述函数在所述比率的整数值上具有极大值，在其间具有极小值。

19.根据权利要求18所述的装置，其中所述计算影响函数的装置计算一个分段线性函数c(f)，其具有在f＝0附近的第一间隔中的极大值、在f＝1/2附近的第二间隔中的极小值、以及在该第一和第二间隔之间的转变间隔中分段线性变化的数值。

20.根据权利要求17所述的装置，其中所述影响函数是分段线性函数，并且其中所述计算叠加的装置包括在其断点处计算所述影响函数的数值，使得所述初始效用函数通过所述断点之间的插值而确定。

21.根据权利要求20所述的装置，其中所述计算所述影响函数的步骤包括连续地计算用于来自所述被选择的谱线中的第一和第二谱线的至少第一和第二影响函数，并且其中所述计算一个初始效用函数的装置用于：

计算包括所述第一影响函数的一个部分效用函数；以及

22.根据权利要求21所述的装置，其中所述确定音调频率候选项的装置用于优先地选择在频率上接近于所述语音信号的先前帧的以前估计的音调频率的所述初始效用函数的局部极大值。

23.根据权利要求16所述的装置，其中所述计算一个最后效用分数的装置用于：

计算所述影响函数的总和。

24.根据权利要求23所述的装置，其中所述计算影响函数的装置包括计算所述比率的一个函数，所述函数在所述比率的整数值上具有极大值，在其间具有极小值。

25.根据权利要求24所述的装置，其中所述计算所述比率的函数的装置计算一个分段线性函数c(f)，其具有在f＝0附近的第一间隔中的极大值、在f＝1/2附近的第二间隔中的极小值、以及在该第一和第二间隔之间的转变间隔中分段线性变化的数值。

26.根据权利要求16所述的装置，其中所述选择音调频率的装置优先地选择在具有比另一个所述初始音调频率候选项更高的最后效用分数的所述初始音调频率候选项之一。

27.根据权利要求16所述的装置，其中所述选择音调频率的装置优先地选择具有比另一个所述初始音调频率候选项更高的频率的一个所述初始音调频率候选项。

28.根据权利要求16所述的装置，其中所述选择音调频率的装置优先地选择在频率上接近于所述语音信号的先前帧的以前估计的音调频率的所述初始效用频率候选项之一。

29.根据权利要求16所述的装置，其中进一步包括通过把所述被估计的音调频率的所述最后效用分数与一个预定阈值相比较而确定所述语音信号是否浊音或清音的装置。

30.根据权利要求16所述的装置，其中进一步包括响应所述被估计的音调频率而对所述语音信号进行编码的装置。