CN102779526A

CN102779526A - 语音信号中基音提取及修正方法

Info

Publication number: CN102779526A
Application number: CN2012102782714A
Authority: CN
Inventors: 贺知明; 何姣; 吴少智; 吴跃; 孟现东
Original assignee: WUXI UESTC TECHNOLOGY DEVELOPMENT Co Ltd
Current assignee: University of Electronic Science and technology of Sichuan foundation for education development
Priority date: 2012-08-07
Filing date: 2012-08-07
Publication date: 2012-11-14
Anticipated expiration: 2032-08-07
Also published as: CN102779526B

Abstract

本发明公开了一种语音信号中基音提取及修正方法，包括以下步骤：计算浊音帧的循环平均幅度和函数；计算浊音帧的循环平均幅度差函数；将上述循环平均幅度差函数与上述循环平均幅度和函数进行加权运算，搜索该加权函数的峰值点，并记录该峰值点所对应的延迟点，该延迟点即为对应浊音帧的基音周期初始估计值；根据所有浊音帧的基音周期初始估计值，利用基于局部浊音段的后处理技术对所述基音周期初始估计值进行修正。利用循环平均幅度差函数加权循环平均幅度和函数，提取浊音帧的基音周期初始估计值，能有效突出基音周期处的峰值点，提高了抗噪性能，达到了在噪音环境下精确语音提取和检测的目的。

Description

语音信号中基音提取及修正方法

技术领域

本发明涉及语音信号处理领域，具体地，涉及一种语音信号中基音提取及修正方法。

背景技术

人在发音过程中，肺部及与之相连的肌肉就相当于整个声道系统的激励源。当声带处于绷紧状态时，由肺部排出的气流会使声带产生振动，这时产生的声音叫做浊音（Voiced sound），反之，不带有声带振动的声音则叫做清音（Unvoiced sound）。声带振动的频率就是基音频率（Pitch frequency），基音频率的倒数就是基音周期（pitch period）。基音周期或基音频率的检测简称基音检测（Pitch detection）又称基音估计（Pitch estimation）或者基音提取（Pitch extraction），基音提取就是准确提取与声带相一致的振动频率，找出和声带振动频率一致或尽量相吻合的轨迹曲线。

基音周期是语音信号的一个极其重要的特征参数，它表征了语音激励源的一个重要特征。基音检测器是很多语音信号处理系统中的一个关键组成部分，不仅是因为它对语音信号的激励源提供深入而有价值的分析，而且语音的基音在语音信号处理的多个领域（如：语音分析合成、语音低速率编码、语音识别、说话人识别、语音分离、发音器官疾病诊断、助听设备研制、听觉残障者的语言指导等）都有着广泛而且重要的应用。

迄今，国内外很多学者提出了各种各样的基音检测算法，对如何准确地提取语音信号的基音周期做了大量的工作。虽然对干净语音信号的基音检测算法有很多种，但是对于带噪声的语音信号的基音检测方面的研究比较少，进展也比较缓慢，诸多算法在存在噪声时检测精度明显下降，甚至无法检测。

发明内容

本发明的目的在于，针对上述问题，提出一种语音信号中基音提取及修正方法，以实现在噪音环境下精确语音提取和检测的优点。

为实现上述目的，本发明采用的技术方案是：

一种语音信号中基音提取及修正方法，包括以下步骤：

计算浊音帧的循环平均幅度和函数（CAMSF）；

计算浊音帧的循环平均幅度差函数（CAMDF）；

将上述循环平均幅度差函数（CAMDF）与上述循环平均幅度和函数（CAMSF）进行加权运算，搜索该加权函数的峰值点，并记录该峰值点所对应的延迟点，该延迟点即为对应浊音帧的基音周期初始估计值；

根据所有浊音帧的基音周期初始估计值，利用基于局部浊音段的后处理技术对所述基音周期初始估计值进行修正。

根据本发明的优选实施例，所述的利用基于局部浊音段的后处理技术对基音周期初始估计值进行修正，包括以下步骤：

找出上述基音周期连续不为零的浊音段；

找出在上述浊音段基音周期的最大值与最小值及其它们相应的位置，设当前浊音段基音周期的最大值与最小值分别为

Figure 2012102782714100002DEST_PATH_IMAGE001

、

，与它们相邻最近5帧浊音帧的基音周期的平均值分别为

Figure 2012102782714100002DEST_PATH_IMAGE003

、；

如

Figure 2012102782714100002DEST_PATH_IMAGE005

，则

；

如

Figure 2012102782714100002DEST_PATH_IMAGE007

，则

；

如当前浊音段总共有

帧，则重复上述处理

次，然后对当前浊音段做平滑滤波；

对上述平滑滤波后的浊音段进行清浊音判决，首先计算该浊音段所有帧的短时平均幅度的总和，记为

Figure 2012102782714100002DEST_PATH_IMAGE011

，其平均值

，设定门限值为：，其中

是一经验因子，，然后对当前浊音段每帧的短时平均幅度

与门限

Figure 2012102782714100002DEST_PATH_IMAGE017

进行比较，小于上述门限值则将该帧修正为清音帧，反之依然判定该帧为浊音帧。

根据本发明的优选实施例，所述浊音帧的循环平均幅度和函数（CAMSF）的计算式如下：

式中，

Figure 2012102782714100002DEST_PATH_IMAGE019

，

表示人类说话基音周期的最大值所对应的采样点数，

Figure 2012102782714100002DEST_PATH_IMAGE021

表示加窗后的语音信号。

根据本发明的优选实施例，所述浊音帧的循环平均幅度和函数的计算公式如下：

式中，

Figure 2012102782714100002DEST_PATH_IMAGE023

，

表示人类说话基音周期的最大值所对应的采样点数，

Figure 2012102782714100002DEST_PATH_IMAGE025

表示加窗后的语音信号。

根据本发明的优选实施例，将上述循环平均幅度差函数（CAMDF）与上述循环平均幅度和函数（CAMSF）进行加权运算, 所述加权运算公式如下：

式中，是浊音帧的循环平均幅度和函数（CAMSF），为浊音帧的循环平均幅度差函数（CAMDF），

Figure 2012102782714100002DEST_PATH_IMAGE029

防止分母为0，是加权后的函数。

本发明的技术方案，利用循环平均幅度差函数（CAMDF）加权循环平均幅度和函数（CAMSF），提取浊音帧的基音周期初始估计值，能有效突出基音周期处的峰值点，提高了抗噪性能，达到了在噪音环境下精确语音提取和检测的目的。同时采用基于局部浊音段的后处理技术，克服了常用平滑滤波和线性平滑的缺点；本发明的技术方案还具有计算简单、鲁棒性和抗噪性好等优点。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明实施例所述的语音信号中基音提取及修正方法的流程图；

图2a为干净语音信号峰值图；

图2b为图2a所示的干净语音信号经过本发明的技术方案处理后的基音估计值图；

图3a为信噪比为5dB的带噪音的语音信号峰值图；

图3b为图3a所示的信噪比为5dB的带噪音的语音信号经过本发明的技术方案处理后的基音估计值图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

如图1所示，一种语音信号中基音提取及修正方法，包括以下步骤：

计算浊音帧的循环平均幅度和函数（CAMSF），浊音帧的循环平均幅度和函数（CAMSF）的计算式如下：

式中，

，表示人类说话基音周期的最大值所对应的采样点数，

表示加窗后的语音信号。

计算浊音帧的循环平均幅度差函数（CAMDF），浊音帧的循环平均幅度和函数的计算公式如下：

式中，

，

表示人类说话基音周期的最大值所对应的采样点数，

表示加窗后的语音信号。

将上述循环平均幅度差函数（CAMDF）与上述循环平均幅度和函数（CAMSF）进行加权运算，加权运算公式如下：

式中，

是浊音帧的循环平均幅度和函数（CAMSF），

为浊音帧的循环平均幅度差函数（CAMDF），

防止分母为0，是加权后的函数，搜索该加权函数的峰值点，并记录该峰值点所对应的延迟点，该延迟点即为对应浊音帧的基音周期初始估计值；

根据所有浊音帧的基音周期初始估计值，利用基于局部浊音段的后处理技术对基音周期初始估计值进行修正。

其中利用基于局部浊音段的后处理技术对基音周期初始估计值进行修正，包括以下步骤：

找出基音周期连续不为零的浊音段；

找出在浊音段基音周期的最大值与最小值及其它们相应的位置，设当前浊音段基音周期的最大值与最小值分别为、

，与它们相邻最近5帧浊音帧的基音周期的平均值分别为、

；

如

，则

；

如

，则

；

如当前浊音段总共有

帧，则重复上述处理

次，然后对当前浊音段做平滑滤波中的中值——平滑滤波；

对平滑滤波后的浊音段进行清浊音判决，首先计算该浊音段所有帧的短时平均幅度的总和，记为，其平均值

，设定门限值为：

，其中

是一经验因子，

，然后对当前浊音段每帧的短时平均幅度

与门限进行比较，小于上述门限值则将该帧修正为清音帧，反之依然判定该帧为浊音帧。

按照上述方法处理完当前浊音段后，接着按同样的步骤处理下一浊音段。

从图2a、图2b、图3a和图3b可看出提取的基音轨迹趋于平滑，没有明显的加倍和减倍错误，清音段和浊音段区别明显。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。