CN107025911B

CN107025911B - 基于粒子群优化的基音频率检测方法

Info

Publication number: CN107025911B
Application number: CN201610064871.9A
Authority: CN
Inventors: 张小恒
Original assignee: Chongqing Technology and Business Institute
Current assignee: Chongqing Technology and Business Institute
Priority date: 2016-01-29
Filing date: 2016-01-29
Publication date: 2019-03-12
Anticipated expiration: 2036-01-29
Also published as: CN107025911A

Abstract

本发明提供一种极低信噪比环境下的基音频率检测方法。其特征在于利用PEFAC算法提取语音帧信号的特征波形，然后利用最佳优化因子对特征波形进行优化从而构造新的特征波形，最后找出特征波形最大峰值所对应的频率值作为基音频率的估计值，其中最佳优化因子依靠PSO算法搜索得到。

Description

基于粒子群优化的基音频率检测方法

技术领域

本发明涉及基音频率检测方法，特别是一种极低信噪比环境下的基音频率检测方法。

背景技术

基音频率检测作为语音的基本参数，在语音分析合成以及语音分离等语音处理领域有着广泛的用途。准确可靠地估计并提取基音频率对语音信号处理至关重要。高信噪比的基音频率检测已经十分成熟，但这些方法在低信噪比环境下难以较好效果，特别是极低信噪比环境下的检测效果很差。鉴于此，本发明提供一种极低信噪比环境下的基音频率检测方法。

发明内容

针对现有技术在极低信噪比环境下的进行基音频率检测有着明显不足，本发明提供了一种极低信噪比环境下的基音频率检测方法。该方法包括以下步骤：

1.训练过程：

(1)对语音数据库按时间顺序作语音分帧{frm(1),frm(2),…,frm(N)},并利用标准算法提取语音帧的基音频率F₀作为基音频率真实值，并构成序列{F₀(1),F₀(2),…,F₀(N)}，其中N为语音帧的总数。

(2)在纯净语音帧基础上叠加噪声制作新的语音分帧序列{frm_noise(1),frm_noise(2),…,frm_noise(N)}，并利用PEFAC算法将语音帧信号转化为相对应的特征波形序列

(3)利用优化因子与特征波形一起构造PSO适应度函数，并进行全局搜索，直至得到最佳优化因子。其中优化因子为未知的M维向量α＝[α₁,α₂,…,α_M]，优化因子优化之后的特征波形构成新的特征波形序列提取特征波形的最大峰值peak和其所对应的频率值f_peak作为基音频率估计值，并形成序列{(peak_max(1),f_peak(1)),(peak_max(2),f_peak(2)),…,(peak_max(N),f_peak(N))}PSO适应度函数即基音频率估计值与真实值误差不超过5％的概率。然后设置PSO算法的相关参数进行搜索，最终找出最佳的优化因子α_optimal。

2.测试过程：

(1)对测试语音信号进行分帧处理，并提取其基音特征波形

(2)利用最佳优化因子α_optimal优化，即构造优化后的基音特征波形

(3)识别并找出的最大峰值所对应的频率值作为基音频率的估计值。

本发明的上述技术方案与现有技术方案相比较，具有以下优点：

A、采用PEFAC算法提取特征波形，继承了其低信噪比环境下抑制噪声的优点；

B、采用PSO进化算法搜索最佳优化因子，使得优化之后的所得到的基音频率估计值在低信噪比环境下更接近于真实基音频率值；

附图说明

图1是根据本发明的一个实施例构成的系统方框图；

具体实施方式

本发明提出的极低信噪比环境下的基音频率检测方法结合附图及实施例进一步说明如下:

本发明的方法流程如图1所示,包括以下步骤:

1.训练过程：

(1)对语音数据库按时间顺序分帧。

(2)并利用标准算法提取语音帧的基音频率作为基音频率真实值。

(3)对叠加有噪声的语音库信号按时间顺序分帧并利用PEFAC算法将语音帧信号转化为相对应的基音特征波形。

(4)利用优化因子作为未知参数与基音特征波形一起构造PSO适应度函数，并进行全局搜索，直至得到最佳优化因子。

2.测试过程：

(1)对特测试的语音信号分帧

(2)将语音帧信号转化为其相对应的基音特征波形；

(3)利用已训练好的最佳优化因子对基音特征波形进行优化，从而生成优化后的基音特征波形，并计算出优化后的基音特征波形的最大峰值所对应的频率作为基音频率的估计值。

C、采用PEFAC算法提取特征波形，继承了其低信噪比环境下抑制噪声的优点；

D、采用PSO进化算法搜索最佳优化因子，使得优化之后的所得到的基音频率估计值在低信噪比环境下更接近于真实基音频率值；

本发明上述方法各步骤的具体实施例详细说明如下:

上述训练过程步骤(1)中的语音库实施例为TIMIT国际标准数据库，30名男性和30名女性的语音，每人语音时长20分钟，总时长为20小时。按时间分帧的采样率为16KHZ，每帧数据的为160个采样点。上述训练过程步骤(2)提取语音库基音频率的标准方法为praat算法工具。

上述训练过程步骤(3)叠加的噪声信号类型为高斯白噪声，且语音分帧方法与步骤(1)一致，将帧格式语音信号转化为基音特征波形的算法为PEFAC算法，其算法流程如下：

(a)将语音帧信号通过短时傅里叶变换映射到频域,并作标准化处理成为X_t′(q)，其中q为对数化频率，即q＝log(f)。

(b)对X_t′(q)卷积运算生成基音特征波形其中滤波器定义为：

其中β的选取为满足∫h(q)dq＝0，而γ设置为1.8。

上述训练过程步骤(4)中的优化因子的实施例为10维向量，且每一维的取值范围为0.5～1.5。基音特征波形为维度为250维的频域向量信号，频域跨度为60～400Hz的基音频域最大范围。

优化因子α与基音特征波形的维度不一致，因此在作优化运算即点乘运算时，α须扩展为250向量，其扩展方法将250维分为10段且每25维完全相同即可。

其中PSO适应度函数的实施例为

PSO的训练过程步骤的实施例为：

步骤1：根据优化因子α的维度与取值范围确定粒子群的参数，α为10维向量，每一维的取值范围为[0.5,1.5]，种群大小为20，粒子初始速度为0.01，最大速度为1，最大迭代次数为60；

步骤2：初始化粒子群，其中粒子i的信息可用两个N维向量表示，第i个粒子的位置(即优化因子)可表示为α_i＝(α_i1,α_i2,…α_i10)，其中粒子位置第d维的初始值α_id＝(1.5-1)·rand₁+1；粒子速度可表示为v_i＝(v_i1,v_i2,…v_iN)，其中粒子速度第d维的初始值v_id＝rand₂；其中rand₁与rand₂均为取值范围在0～1之间的随机数；

步骤3：计算每个粒子的适应度eval(α_i)；

步骤4：根据适应度更新pbest、gbest，及粒子位置速度。

其中是粒子i在第k次迭代中第d维的速度；是粒子i在第k次迭代中第d维的当前位置；是粒子i在第d维的个体极值点的位置；是整个种群在第d维的全局极值点的位置；

步骤5：是否达到最大迭代次数，否则返回继续计算(3)，直到达到满意的结果为止。

上述测试过程步骤(1)中的分帧方法与训练过程步骤(1)中保持一致。

上述测试过程步骤(2)中的基音特征波形转化方法与训练过程步骤(3)保持一致。

上述测试过程步骤(3)中的基音特征波形优化运算与上述训练过程步骤(4)保持一致，且优化因子采用训练产生的最佳优化因子α_optimal。

Claims

1.一种极低信噪比环境下的基音频率检测方法，其特征在于该方法包括以下步骤：

a.训练过程：

(1)对语音数据库按时间顺序作语音分帧{frm(1),frm(2),…,frm(N)},并利用标准算法提取语音帧的基音频率F₀作为基音频率真实值，并构成序列{F₀(1),F₀(2),…,F₀(N)}，其中N为语音帧的总数；

(3)利用优化因子与特征波形一起构造PSO适应度函数，并进行全局搜索，直至得到最佳优化因子；其中优化因子为未知的M维向量α＝[α₁,α₂,…,α_M]，优化因子优化之后的特征波形构成新的特征波形序列提取特征波形的最大峰值peak和其所对应的频率值f_peak作为基音频率估计值，并形成序列{(peak_max(1),f_peak(1)),(peak_max(2),f_peak(2)),…,(peak_max(N),f_peak(N))}PSO适应度函数即基音频率估计值与真实值误差不超过5％的概率；然后设置PSO算法的相关参数进行搜索，最终找出最佳的优化因子α_optimal；

b.测试过程：

(1)对测试语音信号进行分帧处理，并提取其基音特征波形