CN1169570A

CN1169570A - 语音处理装置中的音调提取方法

Info

Publication number: CN1169570A
Application number: CN97102545A
Authority: CN
Inventors: 李时雨
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 1996-06-24
Filing date: 1997-02-26
Publication date: 1998-01-07
Anticipated expiration: 2017-02-26
Also published as: GB9702817D0; KR980006959A; JPH1020887A; KR100217372B1; US5864791A; JP3159930B2; GB2314747B; CN1146861C; GB2314747A

Abstract

本发明提供了一种从每一个帧中提取至少一个音调的方法,包括,产生展现帧内语音的高和低的若干残留信号以及把所产生的残留信号中的满足预定条件的残留信号作为音调来形成的步骤;在产生残留信号的步骤中,利用有限脉冲响应(FIR)滤波器和STREAK滤波器组合的FIR－STREAK滤波器对语音进行滤波,然后把滤波的结果作为残留信号输出;在形成音调的步骤中,只把其振幅是超过预定值的残留信号和其时间间隔是在预定时间期间内的残留信号作为音调来形成。

Description

语音处理装置中的音调提取方法

本发明涉及在诸如编码和合成语音这样的处理期间提取语音音调(speech pitch)的方法，尤其涉及有效地提取连续语音音调的音调提取方法。本发明基于在此被作为参考文献的韩国专利申请23341/1996。

由于对通信终端的需求随科学技术的发展而迅速增多，通信线路越来越不足。为了解决这一问题，提出了以低于84千位/秒的位速率编码语音的方法。但是，在按照这些编码方法处理语音时，会出现音品(tone quality)变劣的问题。许多研究者为了在以低位速率处理语音的同时改善音品正在进行广泛的研究。

为了改善音品，必需改善诸如音程(musical interval)、音量和音色(timbre)这样的心理属性(psycholegical properties)，与此同时，还必需接近原声特性地再现相应于这些心理属性的物理属性(physical properties)、例如音调、振幅和波形结构。音调在频率域中被称为基频或音调频率，而在空间域(spatial area)中被称为音程或音调。音调在判断说话人的性别和区分所发出话音的发话声和无话声方面是必不可少的参数，尤其在以低位速率编码语音时更是如此。

目前有三种主要的提取音调方法。它们是空间域提取方法、频率域提取方法以及空间域和频率域提取方法。空间域提取方法的代表是自相关方法，频率域提取方法的代表是倒频谱(cepstrum)方法，空间域和频率域提取方法的代表是平均值微分函数(AMDF)方法和结合了线性预测编码(LPC)和AMDF的方法。

在上述普通方法中，语音波形是通过把发话声应用于音调的每一个音程来再现的，音调在其从一帧中被提取之后在处理语音时被重复再现。但是，在真实的连续语音中，声音的谐和(vocal chords)特性或发声(sound)在音素(phoneme)变化时会发生改变，由于干扰，音程即使在几十毫秒的一帧中也会出现敏感的改变。在相邻音素彼此影响下使具有不同频率的语音波形在连续语音中共存在一个帧内，就会出现音调提取误差。例如，在语音的开头和结尾、在原声发生变化、在静音(mute)和发话声共存的帧中、或在无声辅音和发话声共存的帧中会都出现音调提取误差。如上所述，普通方法对于连续语音是有缺陷的。

因此，本发明的目的是提供在语音处理装置中处理语音的同时改善语音质量的方法。

本发明的另一个目的是提供消除在语音处理装置中提取语音的音调时出现的误差的方法。

本发明的再一个目的是提供有效地提取连续语音的音调的方法。

为了实现上述目的，根据本发明的方法从每一预定的帧提取至少一个音调(pitch)。

本发明的音调提取方法包括产生展现帧内语音的高和低的若干残留信号以及在所产生的残留信号中提取满足预定条件的残留信号作为音调来形成的步骤。在产生残留信号的步骤中，利用由有限脉冲响应(finite impulseresponse(FIR))滤波器和STREAK滤波器的组合的FIR-STREAK(Simplifiedtechnique for recursive estimation auto correlation K Parameter(用于递归估算自相关K参数的简化技术))滤波器对语音进行滤波，然后把形成的滤波结果作为残留信号。在形成音调的步骤中，只把其振幅超过预定值的残留信号和其时间间隔在预定时间期间内的残留信号作为音调来形成。

参考附图，结合最佳实施例对本发明进行详细描述：

图1是表示本发明的FIR-STREAK滤波器的结构的方框图；

图2a-图2d是表示FIR-STREAK滤波器产生的残留信号的波形图；

图3是表示本发明的音调提取方法的流程图；

图4a-图4I是利用本发明的方法提取的音调脉冲的波形图。

由四个日本播音员说出的32个句子的连续语音用作本发明的语音数据(见表1)。

[表1]

因素	发言者	发言时间(秒)	简单句的数目	元音数目	无声辅音数目
因素	发言者	发言时间(秒)	简单句的数目	元音数目	无声辅音数目	男	4	3.4	16	145	34
女	4	3.4	16	145	34	男	4	3.4	16	145	34

参看图1和2，FIR-STREAK滤波器产生结果信号f_M(n)和g_M(n)，它们是对输入语音信号X(n)进行滤波的结果。在输入类似图2a和图2c所示的语音信号的情况下，该FIR-STREAK滤波器输出类似图2b和图2d的残留信号。利用FIR-STREAK滤波器获得了提取音调所需的残留信号RP。我们把从残留信号RP获得的音调叫做“单个音调脉冲(IPP)”。STREAK滤波器用由前误差信号fi(n)和后误差信号gi(n)构成的公式来表示。

AS＝fi(n)²+gi(n)²

＝-4ki×f_i-1(n)×g_i-1(n-1) (1)

+(1+ki)²×[f_i-1(n)²×g_i-1(n-1)²]

以下通过求公式(1)对ki的偏微分来获得公式(2)的STREAK系数。

以下的公式(3)是FIR-STREAK滤波器的传递函数。

ki = \frac{2 \times f_{i - 1} (n) \times g_{i - 1} (n - 1)}{[f_{i - 1} {(n)}^{2}] [g_{i - 1} (n - 1)]^{2}} - - - (2)

Hs (z) = \frac{Σ_{i = 0}^{MF} bi z^{- 1}}{Σ_{i = 0}^{MS} ki z^{- 1}} - - - (3)

公式(3)中的MF和bi分别是FIR滤波器的次数(degree)和系数。MS和ki分别是STREAK滤波器的次数(degree)和系数。于是通过FIR-STREAK滤波器输出了是IPP的关键的RP。

一般来说，在由3.4KHz的低通滤波器(LPF)限制的频带内有3或4个共振峰(formants)。在格式滤波器(lattice filter)中，为了提取共振峰，通常使用8至10的滤波次数(degrees)。如果本发明的STREAK滤波器具有8至10的滤波次数，就将清晰地输出残留信号RP。本发明采用次数为10的STREAK滤波器。在本发明中，考虑到音调频率的频带是80至370Hz，把FIR滤波器的次数MF定为10≤MF≤100，把限带频率FP定为400Hz≤FP≤1KHz，以便能够输出残留信号RP(residual signal Rp)。

通过这一实验，当MF和FP分别是80次和800Hz时，RP清晰地在IPP的位置上出现。但是，在语音的开头或结尾，RP往往不清晰地出现。这说明音调频率受到语音开头或结尾处的第一个共振峰的严重影响。

参看图3，本发明的音调提取方法主要分成3个步骤。

第一步骤300是利用FIR-STREAK滤波器对一个帧的语音进行滤波。

第二步骤(从310至349或从310至369)是在从FIR-STREAK滤波器滤波的信号中选择了满足预定条件的信号之后输出若干个残留信号。

第三个步骤(从350至353，或从370至374)是从所产生的残留信号和根据其与其前面和后面的残留信号的关系被进行校正和内插的残留信号中提取音调。

在图3中，由于相同的处理方法被用来从E_N(n)和E_p(n)中提取IPP，所以以下将把描述限制为从E_p(n)提取IPP的方法。

利用通过顺序地替换大振幅的残留信号获得的A来调整E_p(n)的振幅。作为根据本发明的语音数据获得MF的结果，RP处的MF大于0.5。因此，把满足条件E_p(n)＞A和MF＞0.5的残留信号作为RP，把在音调频率的基础上其时间间隔L是2.7毫秒≤L≤12.5毫秒的RP的位置作为IPP(P_i，I＝0，1......，M)的位置。为了校正和内插该RP位置的丢失(omission)，首先必需根据P_M，该先前帧的最后IPP位置和表示在当前帧内从0至P₀的时间间隔的ξ_P获得I_B(＝N-P_M+ξ_P)。然后，为了防止平均音调的半音调(half pitch)或双音调(double pitch)，必需在各I_B之间的间隔是平均音程({P₀+P₁+......+P_M}/M)的50％或150％时校正P_i位置。但是，对于元音紧跟在辅音之后的日语语音，在先前帧内有辅音的情况下适用以下的公式(4)，而在先前帧内没有辅音的情况下适用公式(5)。

0.5×I_A1≥I_B，I_B≥1.5×I_A1 (4)

0.5×I_A2≥I_B，I_B≥1.5×I_A2 (5)

在此I_A1＝(_PM-P_O)/M以及I_A2＝{I_B+(P_M-Pi₎}/M。

IPP的间隔(IP_i)、平均间隔(I_AV)和偏离(DP_i)根据以下的公式(6)来获得，但ξ_P以及帧的结尾和P_M之间的间隔没有被包括在DP_i内。在0.5×I_AV≥IP_i或IP_i≥1.5×I_AV的情况下利用以下的公式(7)进行位置校正和内插。

IP_i＝P_i-P_i-1

I_AV＝(P_M-P_O)/M

DP_i＝I_Av-IP_i (6)

Pi = \frac{P_{i - 1} + P_{i + 1}}{2} - - - (7)

在此i＝1，2，......，M。

把公式(4)或(6)应用于E_N(n)就获得P_i，在P_i处进行位置校正和内插。必需选择利用这种方法获得在时间轴的正侧和负侧的一个P_i。因此在几十毫秒(scores of millisecondy)的帧内的音程逐渐地变化，所以在此选择其位置不迅速发生变化的P_i。换句话说，利用以下的公式(8)估算P_i间隔相对于I_AV的变化，在C_P≤C_N的情况下选择在正侧的P_i，在C_P＞C_N的情况下选择在负侧的P_i。此处的C_N是从P_N(n)获得的估算值。

C_{P} = Σ_{i = 1}^{M} \frac{IPi}{I_{Av}} - - - (8)

但是，通过选择在正侧和负侧的一个P_i，就出现了时间差(ξ_P-ξ_N)。在为了补偿这一差值而选择负P_i的情况下，利用以下的公式来重新校正位置。

P_i＝PN_i+(ξ_P-ξ_N) (9)

有关于校正的P_i被重新内插的情形的例子存在，但在图4中没有被重新内插。如图4所示，语音波形(a)和(g)表示振幅电平在连续的帧内减小。波形(d)表示振幅电平是低的。波形(j)表示音素(phoneme)发生变化的转换。在这些波形中，由于难于利用信号的相关性来编码信号，所以RP往往容易被遗漏。因此，会出现许多不能够清楚地提取P_i的情况。如果在这些情况下不采取其它防范措施就利用P_i来合成语音，就会使语音质量恶化。但是，由于利用本发明的方法对P_i进行校正和内插，所以如图4的(c)、(f)、(i)和(l)所示清楚地提取了IPP。

IPP的提取率AER1利用公式(10)来获得，其中的“-b_ij”和“C_ij”是提取误差。“-b_ij”表示没有从真正的IPP存在的位置提取到IPP。“C_ij”表示从真正的IPP不存在的位置提取IPP。

在此，a_ij是被测IPP的个数。T是其中有IPP存在的帧的数目。m是语音样值(samples)数。

AER 1 = \frac{Σ_{j - 1}^{m} Σ_{i - 1}^{T} [a_{ij} - (| b_{ij} | + c_{ij})]}{Σ_{j - 1}^{m} Σ_{i - 1}^{T} a_{ij}} - - - (10)

作为本发明的实验结果，被测IPP的个数在男姓情况下是3483，在女性情况下是5374。在男姓情况下被提取的IPP数是3343，在女姓情况下是4566。因此，IPP提取率在男性情况下是96％，在女姓情况下是85％。

把本发明的音调提取方法与已有技术相比，有以下结果。

根据从诸如自相关方法和倒频谱方法获取平均音调的方法，提取音调的误差出现在音节(syllable)的开头和结尾、在音素转换处、在静音(mute)和发话声共存的帧内、或在无声辅音和发话声共存的帧内。例如，自相关方法不从无声辅音和发话声共存的帧提取音调，而倒频谱方法从无声辅音提取音调。如上所述，音调提取误差是错误判断发话声/无声音的结果。除此之外，由于把无声音和发话声共存的帧用作为只是一种无声音源或发话声源，所以也会造成声音质量的恶化。

在通过对以几十毫秒为单位的连续语音波形进行分析来提取平均音调的方法中，出现了各帧之间的音程比其它音程宽得多或窄得多的现象。在本发明的IPP提取方法中，音程的变化可被控制，并且即使在无声辅音和发话声共存的帧内也能够清楚地获得音调的位置。表2基于本发明的语音数据的本发明的音调提取率如表2所示。

项	自相关方法	倒频谱方法	本发明
项	自相关方法	倒频谱方法	本发明	男声的音调提取率(％)	89	92	96
女声的音调提取率(％)	80	86	85	男声的音调提取率(％)	89	92	96

如上所述，本发明提供了能够控制由声音属性的中断或声源的转换造成的音程变化的音调提取方法。该方法抑制了在非周期语音波形中、或在语音的开头或结尾处、或在静音和发话声共存的帧内、或在无声辅音和发话声共存的帧内出现的音调提取误差。

因此，应当清楚本发明不受限于在此作为实施本发明的最好方式而被公开的实施例，而且，本发明也不受限于说明书中所描述的具体实施例，本发明的保护范围以本发明的权利要求所限定。

Claims

1、一种在语音处理装置中提取语音音调的方法，该方法包括，从每一预定帧中提取至少一个音调。

2、如权利要求1的方法，其中，包括以下步骤：

产生展现帧内语音的高和低的若干残留信号；和

把所产生的残留信号中的满足预定条件的残留信号作为音调来形成。

3、如权利要求2的方法，其中，产生该残留信号的步骤包括以下步骤：

利用FIR-STREAK滤波器对语音进行滤波；该FIR-STRGAK滤波器是有限脉冲响应FIR滤波器和STREAK滤波器的组合；和

把滤波产生的结果作为残留信号。

4、如权利要求2的方法，其中，形成音调的步骤包括把其振幅超过预定值的残留信号和其时间间隔在预定时间期间内的残留信号作为音调来形成的步骤。

5、一种在语音处理装置中提取以帧为单位的连续语音的音调的方法，该语音装置具有有限脉冲响应-STREAK滤波器，它是有限脉冲响应滤波器和STREAK滤波器的组合，包括以下步骤：

利用有限脉冲响应滤波器滤波以帧为单位的连续语音；

产生满足预定条件的被滤波的信号作为若干个残留信号；

根据该帧的其余残留信号与其前面/后面残留信号的关系内插这些其余的残留信号；和

提取所产生的或被内插的残留信号作为音调。

6、如权利要求5的方法，其中，其振幅大于预定值的被滤波的信号和其时间间隔在预定时间期间内的被滤波的信号被作为音调产生。