CN1412742A

CN1412742A - 基于波形相关法的语音信号基音周期检测方法

Info

Publication number: CN1412742A
Application number: CN02156678A
Authority: CN
Inventors: 鲍长春
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2002-12-19
Filing date: 2002-12-19
Publication date: 2003-04-23

Abstract

基于波形相关法的语音信号基音周期检测方法，属于语音信号处理领域。本发明是由语音采集系统将所需检测的语音信号输入计算机，在计算机处理器中完成对语音信号基音周期的检测，主要方法是在时域内，根据数字语音信号的准周期特性，通过比较原始信号和它的移位后的信号之间的相关性来确定基音周期。特征在于，是利用过去的语音信号样值，来减少传统波形相关估计的延时，同时在基音检测主过程的前端和末端加入了有效的预处理和后处理技术，进行基音周期检测。基音检测方法主要包括四个步骤，第一步为预处理，第二步为语音信号相关系数估计，第三步为后处理，第四步为清音/浊音判决。该方法使得在一般背景噪声环境下，基音周期估计的准确率达到99％。

Description

基于波形相关法的语音信号基音周期检测方法

技术领域

基于波形相关法的语音信号基音周期检测方法，属于语音信号处理，可应用于低速率语音编码、语音合成和语音识别系统中。

背景技术

表征人类声带震动频率的基音检测问题是语音信号处理研究领域的难点课题。其中基音是指人类发浊音时声带振动所引起的周期性，基音周期值是声带振动频率的倒数。它的检测和估计是语音处理中一个非常重要的问题。迄今为止找到一个完善的适用于不同的讲话者、不同要求和环境、准确和可靠地检测语音信号基音的方法还是极其困难的。原因归结为：第一，语音信号波形的周期是时变的；第二，声道的共振峰对声门波形结构有重要影响；第三，准确判别浊音语音段每个基音周期的准确开始和结束位置是非常困难的；第四，清音语音和低电平浊音语音段的区分是困难的；第五，背景噪声的干扰；第六，基音周期变化范围大。

目前人们主要利用语音信号的时域波形相关和频域谱相关特性进行进行基音检测。本发明基于时域波形相关法。在时域中，周期信号的最明显特征就是波形的相关性。基于时域波形相关法的基音检测方法的主要原理是通过比较原始信号和它的移位后的信号之间的类似性来确定基音周期。如果移位距离等于基音周期，那么，两个信号具有最大类似性(或者说是互相关最大)。时域波形相关法的关键性问题是如何定义类似性量度。目前人们大多采用平方代价函数最小原理，这是因为平方代价函数在数学上易于实现。

高性能的基音检测方法对保障低速率语音编码器的质量，起到了关键性作用。传统基音检测方法还存在这样或那样的一些缺陷，如应用范围受限、正确估计率低、延时大和算法复杂等。

发明内容

本发明的目的在于克服以上不足，根据时域波形相关方法开发了基于波形相关法的基音周期检测方法。

本发明的技术方案主要流程如图5所示。是由语音采集系统将所需检测的语音信号输入计算机，在计算机处理器中完成对语音信号基音周期的检测，主要方法是在时域内，根据数字语音信号的准周期特性，通过比较原始信号和它的移位后的信号之间的相关性来确定基音周期，本发明的特征在于：利用过去的语音信号样值，即数字语音信号的历史，来减少传统波形相关估计的延时，同时在语音信号相关估计的前后加入了预处理和后处理技术，进行基音周期检测。减少了低频噪声、声道共振峰和基音增倍/减半产生的影响，使基音估计变得可靠和准确。

该基音周期检测方法在时域内进行，主要包括四个步骤，第一步为预处理，第二步为相关系数估计，第三步为后处理，第四步为清音/浊音判决。其步骤为：

第一步进行语音的预处理，包括去均值、低通滤波和数值滤波三部分，各部分分述如下：(1)去均值方法：

当数字语音信号s(n)在分析窗里有非零均值或有非常低的低频噪声出现时，相关系数ρ(τ)在所要求的所有延迟上均产生高的相关，这对于依赖ρ(τ)进行清/浊分类的安静段语音或低幅度清音语音段尤其麻烦。鉴于此，我们在计算ρ(τ)时首先从分析窗数据中减掉均值，减去均值的信号为

s′(n)＝s(n)-μ其中

μ = \frac{1}{N} Σ_{n - 0}^{N - 1} s (n)

式中N为数字语音信号分析帧长。(2)低通滤波方法：

为了减少高频共振峰和外来高频造声的影响，对去均值的语音信号进行800Hz低通滤波，去除了第三和第四个高频共振峰及高频噪声的影响，这个低通滤波器可以去除大部分共振峰的影响，又可以当基音频率为最高500Hz时，仍能保留其一二次谐波。依据双线性变换法设计的一个五阶椭圆低通滤波器传递函数为：

H_{lpf} (z) = \frac{Σ_{i = 0}^{5} A_{i} z^{- i}}{Σ_{j = 0}^{5} B_{j} z^{- j}}

式中的滤波器系数A_i和B_j分别为：{A_i}＝{0.008233，-0.004879，0.007632，0.007632，-0.004879，0.008233}{B_i}＝{1.0000，-3.6868，5.8926，-5.0085，2.2518，-0.4271}(3)数值滤波方法：

经过800Hz低通滤波的语音信号，主要去除了第三和第四个高频共振峰及高频噪声的影响，但第一和第二个共振峰有时依然存在，使得浊音段语音信号的周期性模糊，产生了错误基音估计。本发明在800Hz低通滤波器之后级联一个数值滤波器可有效去除这一影响，突出了浊音语音信号的周期性，使基音估计可靠。

本发明中，数值滤波器的传递函数定义为：

H_{nf} (z) = Σ_{i = 0}^{p - 1} θ_{i} z^{- i}

式中p为数值滤波器阶数，

θ_{i} = \frac{1}{p}

为数值滤波器系数。在时域里数值滤波器的输入x(n)和输出y(n)之间的关系为

y (n) = Σ_{i = 0}^{p - 1} θ_{i} x (n - i), n = 0,1,2, \cdot \cdot \cdot

一般数值滤波的阶数通常选取为1，3，5，7…等，本发明经大量实验发现，当数值滤波器的阶数p＝9，滤波器系数θ_i＝1/9时，可有效减少或去除第一和第二个共振峰对基音检测的影响。图2给出了该数值滤波器的幅频特性曲线。

第二步进行语音信号相关系数估计，并以其作为基音检测的依据，具体步骤如下：令

为预处理后的数字语音信号，则和其移位后的信号

之间的平方误差为

E (τ) = Σ_{n = 0}^{N - 1} [\hat{s} (n) - β \hat{s} (n - τ)]^{2}

式中β为增益因子，τ为介于20和120个样点之间的整数延时，当n-τ＜0时，将用到过去的语音信号样值，即语音信号的历史，这样做不需要未来的语音信号样值，避免了传统方法中用

作为移位信号而产生的额外延时。使E(τ)最小的τ值即为当前帧语音信号的基音周期初估值。令

&PartialD; E (τ) / β = 0,

可以得到这个最小的E(τ)为：

E (τ) = Σ_{n = 0}^{N - 1} {\hat{s}}^{2} (n) - \frac{[Σ_{n = 0}^{N - 1} \hat{s} (n) \hat{s} (n - τ)]^{2}}{Σ_{n = 0}^{N - 1} {\hat{s}}^{2} (n - τ)}

使E(τ)最小等价于使相关系数

ρ (τ) = \frac{Σ_{n = 0}^{N - 1} \hat{s} (n) \hat{s} (n - τ)}{\sqrt{Σ_{n = 0}^{N - 1} {\hat{s}}^{2} (n) Σ_{n = 0}^{N - 1} {\hat{s}}^{2} (n - τ)}}

最大，使ρ(τ)最大的τ值即为当前帧语音信号的基音周期初估值。如果延迟τ等于语音信号的实际基音周期或等于实际基音周期的整数倍，则ρ值趋于1，说明该段语音信号具有明显的周期性；相反，如果ρ值比1小很多，则该段信号具有非周期特征，所以，真正的基音周期为对应于最大ρ值的τ，这个τ称为最佳延迟。

第三步和第四步为进行后处理和利用ρ(τ)进行语音的清音/浊音判决，具体步骤如下：(1)利用下式求预处理后的语音信号

的对数能量E(dB)：

E = 10 \log 10 (ϵ + \frac{1}{N} Σ_{n = 0}^{N - 1} \hat{s} (n))

式中ε是一个很小的正常数，为的是防止计算时溢出。当E小于给定门限E_th＝30dB时，语音能量太小，判决为清音，当E大于E_th，且在允许的基频范围内时，判为浊音。(2)对E大于E_th的基音周期进行后处理，措施为：首先，在三个基音区域内计算ρ(τ)，分别得到各自区域内的最大ρ(τ)值及对应的延迟，记为ρ_max1，ρ_max2和ρ_max3、τ₁，τ₂，和τ₃，这三个区域分别为80~120，40~79和20~39，其次，按如下逻辑确定最优基音延迟τ_opt：

τ_opt＝τ₁

ρ_max ＝ρ_max1

if ρ_max2≥cρ_max

ρ_max＝ρ_max2

τ_opt＝τ₂

end

if ρ_max3≥cρ_max

ρ_max＝ρ_max3

τ_opt＝τ₃

end这里c＝0.96为经验因子；(3)确定周期性水平量Z_p，设ρ的最大峰值为ρ_max(后处理后的)，ρ的前三个峰的平均值为：

ρ_{avr} = \frac{1}{3} (ρ_{\max 1} + ρ_{\max 2} + ρ_{\max 3})

则周期性水平量Z_p计算为：

Z_p＝ρ_max+ρ_avr当Z_p小于给定的门限Z_th＝0.62时，说明周期性不强，判决为清音，当Z_p大于给定的门限Z_th时，且在允许的基频范围内时，判为浊音，并输出对应的优化基音延迟τ_opt。

本发明的突出效果是使用了一个9阶数值滤波器，有效地去除了第一个和第二个共振峰对基音检测的影响。图3给出了一典型帧语音波形的比较，其中图3(a)为原始语音波形，图3(b)为800Hz低通滤波后的语音波形，图3(c)为800Hz低通滤波和数值滤波后的语音波形。从波形中可以看到，原始语音波形有一定的周期性，但不明显，经800Hz低通滤波后的语音波形几乎看不出周期性，而经数值滤波后的语音波形则显现出了非常强的周期性。

图4给出了对应图3的FFT谱和LPA(线性预测分析)谱，其中图4(a)为原始语音的FFT谱和LPA谱，图4(b)为800Hz低通滤波后的语音的FFT谱和LPA谱，图4(c)为800Hz低通滤波和数值滤波后的语音的FFT谱和LPA谱。从图4(a)可以看出，该段语音有四个共振峰，其中第一和第二共振峰相距很近，经800Hz低通滤波后，衰减掉了第二、第三和第四共振峰，但第一共振峰仍存在，且幅度很大。再经数值滤波后，第一共振峰幅度已衰减到小于一二次谐波幅度，因而完全去除了共振峰的影响。

实验发现，对于上述示例，采用数值滤波前，基音估计值为20个样点，从原语音波形可以看出，这是一个完全错误的估计。而加入数值滤波后，基音估计值为57个样点，从原语音波形可以看出结果是正确的。

本发明的方法具有好的通用性和高的准确率，特别适用于低速率语音编码，同时也可用于语音合成和语音识别中的音调检测。实验证明，该方法的基音周期检测准确率达到99％。

附图说明图1800Hz5阶椭圆低通滤波器幅度响应；图29阶数值滤波器幅度响应；图3基音检测预处理前后语音波形比较；图4.基音检测预处理前后语音FFT谱和LPA谱比较；图5基于波形相关法的基音检测方法流程图；图6汉语“大家都说普通话”的语音波形；图7汉语“大家都说普通话”的基音轮廓。

具体实施方式

按照图5所示本发明的方法流程，用于基音检测的语音为汉语语音，来源于三名男性和三名女性的讲话记录，其中一男和一女为播音员，讲话内容为11句标准汉语语音实验句子，内容分别为：“中国科学院声学研究所”，“大家都说普通话”，“奥林匹克运动会”，“他去无锡市，我到黑龙江”，“沈阳旅大市，广州内蒙古”，“天安门广场，人民大会堂”，“沉舟侧畔千帆过，病树前头万木春”，“塞翁失马，焉知非福”，“拐弯抹角”，“穷则思变”；“迎刃而解”。这些语音记录经100～3400带通滤波，以8kHz采样率数字化，每个样值用16bit线性码表示。为了防止计算溢出，将数字化的语音信号s(n)幅度缩小到-2048～2048。基音检测在200个样点的帧内进行，共958帧。

第一，初始化输入参数。给定低通滤波器系数A_i和B_j、数值滤波器系数θ_i、能量判决门限E_th、周期度判决门限Z_th，将低通滤波器、数值滤波器和波形相关器的历史置为零。

第二，进行预处理。包括去均值、低通滤波和数值滤波三部分。在包含200个样点的帧内按如下公式计算均值：

μ = \frac{1}{200} Σ_{n = 0}^{199} s (n)

去除均值的数字语音信号s′(n)如下获得：

s′(n)＝s(n)-μ，n＝0，1，2，…，199将s′(n)通过低通滤波器H_lpf(z)得到输出信号为s″(n)：

s″(n)＝0.008233s′(n)-0.004879s′(n-1)+0.007632s′(n-2)+0.007632s′(n-3)

-0.004879s′(n-4)+0.008233s′(n-5)+3.6868s″(n-1)-5.8926s″(n-2)

+5.0085s″(n-3)-2.2518s″(n-4)+0.4271s″(n-5)

n＝0，1，2，…，199将s″(n)通过数值滤波器H_nf(z)得到预处理后的输出信号

为：

\hat{s} (n) = Σ_{i = 0}^{8} 0.111111 s^{''} (n - i), n = 0,1,2, \cdot \cdot \cdot 199

第三，按下式计算信号

的对数能量E(dB)：

E = 10 \log 10

(0.0001 + \frac{1}{199} Σ_{n = 0}^{199} \hat{s} (n))

并将E与能量门限E_th＝30dB进行比较，如果E＞30dB，则转向第四步，否则，判决该帧语音为清音，输出基音周期为0，并判断分帧是否结束，若分帧结束，则退出程序，否则更新低通滤波器、数值滤波器和波形相关器历史，返回到预处理级。

第四，按下式在τ＝20～120内计算波形相关系数ρ(τ)：

ρ (τ) = \frac{Σ_{n = 0}^{N - 1} \hat{s} (n) \hat{s} (n - τ)}{\sqrt{Σ_{n = 0}^{N - 1} {\hat{s}}^{2} (n) Σ_{n = 0}^{N - 1} {\hat{s}}^{2} (n - τ)}}

得到101个相关系数值，并在80~120，40~79和20~39三个基音区域内按排序法分别得到各自区域内的最大相关系数值及对应的延迟，记为ρ_max1，ρ_max2和ρ_max3、τ₁，τ₂，和τ₃。

第五，按如下逻辑确定最优基音延迟τ_opt：

τ_opt＝τ₁

ρ_max＝ρ_max1

if ρ_max2≥0.96ρ_max

ρ_max＝ρ_max2

τ_opt＝τ₂

end

if ρ_max3≥0.96ρ_max

ρ_max＝ρ_max3

τ_opt＝τ₃

end

第六，按下式计算周期性水平量Z_p：

Z_p＝ρ_max+0.333333(ρ_max1+ρ_max2+ρ_max3)并将Z_p与周期性水平量门限Z_th＝0.62进行比较，如果Z_p＞0.62，则转入第七步，否则，判决该帧语音为清音，输出基音周期为0，并判断分帧是否结束，若分帧结束，则退出程序，否则更新低通滤波器、数值滤波器和波形相关器历史，返回到预处理级。

第七，判断经过后处理的最优延迟τ_opt是否在给定的范围内，如果20＜τ_opt＜120，则判断该帧语音为浊音，输出基音周期为τ_opt，同时判断分帧是否结束，若分帧结束，则退出程序，否则更新低通滤波器、数值滤波器和波形相关器历史，返回到预处理级；如果τ_opt不满足20＜τ_opt＜120，判决该帧语音为清音，输出基音周期为0，同时判断分帧是否结束，若分帧结束，则退出程序，否则更新低通滤波器、数值滤波器和波形相关器历史，返回到预处理级。实验效果为：

由于语音基频的时变性，基频的真值很难确定，这就限制了用一个客观的误差测度准则来衡量某一个基音检测系统的优劣。本例采用逐帧波形分析的方法来确定基频估计与清/浊判决，波形分析表明，基于波形相关法的语音信号基音周期检测方法，对上面给出的958帧语音测试句子，基音检测与清/浊判决的正确率为99.4％。

图6分别给出了内容为“大家都说普通话”的一男一女的语音波形，图7为与之对应的基音轮廓曲线，从图7可以看出，基音轮廓趋于平滑，没有基音加倍和减倍现象，清音、浊音段区别明显，男性基音周期明显高于女性。

Claims

1、基于波形相关法的语音信号基音周期检测方法，是由语音采集系统将所需检测的语音信号输入计算机，在计算机处理器中完成对语音信号基音周期的检测，主要方法是在时域内，根据数字语音信号的准周期特性，通过比较原始信号和它的移位后的信号之间的相关性来确定基音周期，本发明的特征在于：利用过去的语音信号样值，来减少传统波形相关估计的延时，同时在语音信号相关估计的前后加入了预处理和后处理技术，进行基音周期检测；

该基音检测方法主要包括四个步骤，第一步为预处理，第二步为语音信号相关系数估计，第三步为后处理，第四步为清音/浊音判决，其步骤为：

第一步进行语音的预处理，包括去均值、低通滤波和数值滤波三部分，各部分分述如下：(1)去均值方法为：对于初始输入的数字语音信号s(n)，通常其均值μ不为零或附带有低频噪声，在计算相关函数时，首先要减掉均值μ，去均值的信号s′(n)为

s′(n)＝s(n)-μ其中

μ = \frac{1}{N} Σ_{n - 0}^{N - 1} s (n)

式中N为数字语音信号分析帧长；(2)低通滤波方法为：对去均值的语音信号进行800Hz低通滤波，去除了第三和第四个高频共振峰及高频噪声的影响，低通滤波器是依据双线性变换法设计的一个五阶椭圆低通滤波器，其传递函数为：

H_{lpf} (z) = \frac{Σ_{i = 0}^{5} A_{i} z^{- i}}{Σ_{j = 0}^{5} B_{j} z^{- j}}

式中的滤波器系数A_i和B_j分别为：{A_i}＝{0.008233，-0.004879，0.007632，0.007632，-0.004879，0.008233}{B_i}＝{1.0000，-3.6868，5.8926，-5.0085，2.2518，-0.4271}(3)数值滤波方法为：在低通滤波器之后级联一个数值滤波器去除了声道第一和第二个共振峰的影响；该数值滤波器的传递函数为：

H_{nf} (z) = Σ_{i = 0}^{p - 1} θ_{i} z^{- i}

式中p为数值滤波器阶数，

θ_{i} = \frac{1}{p}

为数值滤波器系数；

第二步进行语音信号相关系估计，并以其作为基音检测的依据，具体步骤如下：

令为预处理后的数字语音信号，则和其移位后的信号之间的平方误差为

E (τ) = Σ_{n = 0}^{N - 1} [\hat{s} (n) - β \hat{s} (n - τ)]^{2}

式中β为增益因子，τ为介于20和120个样点之间的整数延时，当n-τ＜0时，将用到过去的语音信号样值，使E(τ)最小的τ值即为当前帧语音信号的基音周期初估值；令

&PartialD; E (τ) / β = 0,

可以得到这个最小的E(τ)为：

E (τ) = Σ_{n = 0}^{N - 1} {\hat{s}}^{2} (n) - \frac{[Σ_{n = 0}^{N - 1} \hat{s} (n) \hat{s} (n - τ)]^{2}}{Σ_{n = 0}^{N - 1} {\hat{s}}^{2} (n - τ)}

使E(τ)最小等价于使相关系数

ρ (τ) = \frac{Σ_{n = 0}^{N - 1} \hat{s} (n) \hat{s} (n - τ)}{\sqrt{Σ_{n = 0}^{N - 1} {\hat{s}}^{2} (n) Σ_{n = 0}^{N - 1} {\hat{s}}^{2} (n - τ)}}

最大，使ρ(τ)最大的τ值即为当前帧语音信号的基音周期初估值；

第三步和第四步为进行后处理和利用ρ(τ)进行语音信号的清音/浊音判决，具体步骤如下：(1)利用下式求预处理后的语音信号

的对数能量E(dB)：

E = 10 \log 10 (ϵ + \frac{1}{N} Σ_{n = 0}^{N - 1} \hat{s} (n))

式中ε是一个很小的正常数，当E小于给定门限E_th时，语音能量太小，判决为清音，当E大于E_th，且在允许的基频范围内时，判为浊音；(2)对E大于E_th的基音周期进行后处理，措施为：首先，在三个基音区域内计算ρ(τ)，分别得到各自区域内的最大ρ(τ)值及对应的延迟，记为ρ_max1，ρ_max2和ρ_max3、τ₁，τ₂，和τ₃，这三个区域分别为80~120，40~79和20~39，其次，按如下逻辑确定最优基音延迟τ_opt：

τ_opt＝τ₁

ρ_max＝ρ_max1

if ρ_max2≥cρ_max

ρ_max＝ρ_max2

τ_opt＝τ₂

end

if ρ_max3≥cρ_max

ρ_max＝ρ_max3

τ_opt＝τ₃

ρ_{avr} = \frac{1}{3} (ρ_{\max 1} + ρ_{\max 2} + ρ_{\max 3})

则周期性水平量Z_p计算为：

Z_p＝ρ_max+ρ_avr当Z_p小于给定的门限Z_th时，说明周期性不强，判决为清音，当Z_p大于给定的门限Z_th时，且在允许的基频范围内时，判为浊音，并输出对应的优化基音延迟τ_opt。

2、根据权利要求1所述的语音信号基音周期检测方法，特征在于：预处理步骤中，使用了去除第一和第二共振峰的数值滤波器，该数值滤波器的传递函数为：

H_{nf} (z) = Σ_{i = 0}^{p - 1} θ_{i} z^{- i}

式中p为数值滤波器阶数，

θ_{i} = \frac{1}{p}

为数值滤波器系数；在时域里数值滤波器的输入x(n)和输出y(n)之间的关系为

y (n) = Σ_{i = 0}^{p - 1} θ_{i} x (n - i), n = 0,1,2, \cdot \cdot \cdot

数值滤波器的最佳阶数为p＝9，滤波器系数θ_i＝1/9。