CN105185385B

CN105185385B - 基于性别预判与多频段参数映射的语音基音频率估计方法

Info

Publication number: CN105185385B
Application number: CN201510489027.6A
Authority: CN
Inventors: 黄程韦; 于拾全; 朱晓明
Original assignee: Dongguan Fandou Information Technology Co Ltd
Current assignee: Dongguan Fandou Information Technology Co Ltd
Priority date: 2015-08-11
Filing date: 2015-08-11
Publication date: 2019-11-15
Anticipated expiration: 2035-08-11
Also published as: CN105185385A

Abstract

本发明公开了一种基于性别预判与多频段参数映射的语音基音频率估计方法，涉及语音信号处理方法技术领域。所述方法包括如下步骤：1)采用判决反馈的方式进行语音基音频率的估计，对发音人的性别进行判断；2)根据发音人性别的判断结果进行参数的优化；3)对优化后的参数采用迭代循环的方式，进行参数预测和频率重估，得到语音基音频率。所述方法具有计算量小，精度高的优点。

Description

基于性别预判与多频段参数映射的语音基音频率估计方法

技术领域

本发明涉及语音信号处理方法技术领域，尤其涉及一种基于性别预判与多频段参数映射的语音基音频率估计方法。

背景技术

语音信号的基音频率是最重要的声学特征之一。传统的自相关法提取语音的基音频率，具有计算量小的优点。但是由于语音信号的非平稳特性，其频率估计的精度有限，特别是在高频段和低频段的精度受到分帧和自相关运算精度的影响。

从发音器官的生理构造上看，基音频率直接受到声带构造的影响，其性别差异显著。从基音频率的统计值范围可以进行发音人性别的判断，一般男性的基音频率在70Hz-200Hz之间，女性的基音频率在200Hz-450Hz之间。基音频率的个体差异也较为明显，不同的个体具有相对固定的频率分布范围，在以往的基音频率估计算法中，很少利用发音器官的生理特点进行频率范围的搜索。

发明内容

本发明所要解决的技术问题是提供一种基于性别预判与多频段参数映射的语音基音频率估计方法，所述方法具有计算量小，精度高的优点。

为解决上述技术问题，本发明所采取的技术方案是：一种基于性别预判与多频段参数映射的语音基音频率估计方法，其特征在于所述方法包括如下步骤：

1)采用判决反馈的方式进行语音基音频率的估计，对发音人的性别进行判断；

2)根据发音人性别的判断结果进行参数的优化；

3)对优化后的参数采用迭代循环的方式，进行参数预测和频率重估，得到语音基音频率。

进一步的技术方案在于：所述步骤1)包括：

(1)利用标准的自相关算法对语音信号进行基音频率的估计，利用基音频率的范围进行性别的预判断；

(2)将性别预判断的结果反馈给基音频率提取模块，进行参数的自适应优化。

进一步的技术方案在于：所述步骤2)包括：

(1)对性别判断的结果进行校准，当基于自相关算法获得的基音频率的均值在200Hz的性别临界频率附近时，不进行硬判决，跳转到步骤3)进行迭代循环优化频率估计的精度；

(2)依据基音的均值范围，进行性别的判断，当发音人性别被判断为男性时，选择较长的时间序列长度进行自相关值序列的计算，并且选择较低频段范围进行自相关值序列的峰值的搜索。

进一步的技术方案在于：所述步骤3)包括：

(1)参数预测：根据上一次循环获得的频率值，或者根据系统初始化给出的频率值，进行参数的隐射，获得自相关序列的最合适长度，以及搜索峰值的最适合范围；

(2)频率重估：依据步骤(1)中所获得的自相关序列的最合适长度，以及搜索峰值的最适合范围，进行语音基音频率估计。

进一步的技术方案在于：发音人性别的判断方法如下：

对不同的男女发音人，提取其基音频率的均值P_mean，当频率超过200Hz的性别临界频率F_c足够偏移量F_off时，所对应的发音人性别标签G判断为女性，其中G＝1；当频率低于200Hz的性别临界频率F_c足够偏移量F_off时，则判断为男性，其中G＝-1；否则不进行性别标签的硬判决，将标签赋值为似然概率L，如式(1)和式(2)所示，

IF P_mean>F_c+F_off G＝1

ELSEIF P_mean<F_c+F_off G＝-1

ELSE G＝L (1)

其中，

L＝(P_mean-200)/F_off (2)。

进一步的技术方案在于：基音频率的估计方法如下：

1)中心削波法

设一段时间内一帧语音数据为:S(t)，t＝0，1，2，...，T，其前半部分的最大值为：

S_max1＝max{S(t)，t＝0，1，2，...，T/2} (3)

其后半部分的最大值为：

S_max2＝max{S(t)，t＝0，1，2，...，T/2} (4)

选取前半部分局部最大值和后半部分局部最大值中较小的一个，记为：

S_max＝min{S_max1，S_max1} (5)

以阈值Th进行中性削波处理，阈值Th的计算如下：

Th＝C*S_max (6)

其中可取常数C＝0.618；

削波处理后的一帧语音信号如下：

S(t)＝S(t)-Th，S(t)>Th

S(t)＝0，S(t)≤Th (7)

2)自相关序列的计算

设自相关序列的长度参数为Lr，S(t)的自相关序列值为：

3)峰值搜索

根据搜索范围的区域参数Rg＝(LB，UB)，搜索峰值位置，获得基音频率估计值：

P＝Fs/max{R(t)，LB<t<UB} (9)

其中Fs为采样频率。

采用上述技术方案所产生的有益效果在于：所述方法能够利用发音人个体的特点，进行自相关算法参数的优化，从而提高基音频率估计的精度；利用迭代循环中的频率重估，在提高频率估计的精度的同时，提高了性别判断的可靠性，降低了计算量。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是男女基音频率分布图；

图2是本发明中基音频率估计的流程图；

图3是迭代循环中频率重估的误差收敛方向图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

总体的，本发明公开了一种基于性别预判与多频段参数映射的语音基音频率估计方法，所述方法包括如下步骤：

具体的，所述步骤1)包括：(1)利用标准的自相关算法对语音信号进行基音频率的估计，利用基音频率的范围进行性别的预判断；(2)将性别预判断的结果反馈给基音频率提取模块，进行参数的自适应优化。

2)根据发音人性别的判断结果进行参数的优化；

具体的，所述步骤2)包括：(1)对性别判断的结果进行校准，当基于自相关算法获得的基音频率的均值在200Hz的性别临界频率附近时，不进行硬判决，跳转到步骤3)进行迭代循环优化频率估计的精度；(2)依据基音的均值范围，进行性别的判断，当发音人性别被判断为男性时，选择较长的时间序列长度进行自相关值序列的计算，并且选择较低频段范围进行自相关值序列的峰值的搜索。

3)对优化后的参数采用迭代循环的方式，进行参数预测和频率重估，得到语音基音频率：

具体的，所述步骤3)包括：(1)参数预测：根据上一次循环获得的频率值，或者根据系统初始化给出的频率值，进行参数的隐射，获得自相关序列的最合适长度，以及搜索峰值的最适合范围；(2)频率重估：依据步骤(1)中所获得的自相关序列的最合适长度，以及搜索峰值的最适合范围，进行语音基音频率估计。

具体的，本发明所述方法包括如下步骤：

(1)发音人性别的判断

对不同的男女发音人，提取其基音频率的均值P_mean，分布特点如附图1所示。当频率超过200Hz的性别临界频率F_c足够偏移量F_off时，所对应的发音人性别标签G判断为女性(G＝1)，当频率低于200Hz的性别临界频率F_c足够偏移量F_off时否则判断为男性(G＝-1)。否则不进行性别标签的硬判决，将标签赋值为似然概率L，如式(1)和式(2)所示。

IF P_mean>F_c+F_off G＝1

ELSEIF P_mean<F_c+F_off G＝-1

ELSE G＝L (1)

其中，

L＝(P_mean-200)/F_off (2)

(2)发音人性别信息的反馈

根据(1)中获得的发音人性别判决结果，将其通过反馈通路，输入到参数选取模块，如附图2所示。

(3)基音频率的估计

(3-1)中心削波法

设20ms内一帧语音数据为:S(t)，t＝0，1，2，...，T。其前半部分的最大值为：

S_max1＝max{S(t)，t＝0，1，2，...，T/2。} (3)

其后半部分的最大值为：

S_max2＝max{S(t)，t＝0，1，2，...，T/2。} (4)

为了消除突发误差干扰，选取前半部分局部最大值和后半部分局部最大值中较小的一个，记为：

S_max＝min{S_max1，S_max1} (5)

以阈值Th进行中性削波处理，阈值Th的计算如下：

Th＝C*S_max (6)

其中可取常数C＝0.618。

削波处理后的一帧语音信号如下：

S(t)＝S(t)-Th，S(t)>Th

S(t)＝0，S(t)≤Th (7)

(3-2)自相关序列的计算

设自相关序列的长度参数为Lr，S(t)的自相关序列值为：

(3-3)峰值搜索

P＝Fs/max{R(t)，LB<t<UB.} (9)

其中Fs为采样频率，一般为8K，11.025K，16K，44.1K.

(4)基于性别信息的参数映射

根据发音人的性别差异，其基音频率对应的周期范围可以进一步被约束，考虑此约束条件，可以对公式(8)中有限长度的自相关值序列进行补偿，减小其长度参数Lr则高频段得到提升，增大其长度参数Lr则低频段得到提升。对峰值出现的位置也可施加约束条件，提高搜索区域参数则低频段得到提升，降低搜索区域参数则高频段得到提升。

(4-1)自相关序列长度的映射，如表1所示

表1自相关序列长度参数选取

频率范围	60-200	200-500
			Lr	185Fs10<sup>-4</sup>	70Fs10<sup>-4</sup>

(4-2)峰值搜索范围的隐射，如表2所示

表2峰值搜索范围参数选取

频率范围	60-200	200--500
			UB	185Fs10<sup>-4</sup>	55Fs10<sup>-4</sup>
LB	55Fs10<sup>-4</sup>	20Fs10<sup>-4</sup>

(5)迭代优化中的多频段参数映射

在每次迭代中，根据当前基音频率的估计值，进行下一次迭代中的参数的映射。在下一次迭代中，根据所预测的参数，进行频率重估，一次迭代中的结果如附图3所示，其误差的校准与实际误差方向一致时，算法收敛。

(5-1)自相关序列长度的映射，如表3所示

表3自相关序列长度的多频段映射

频率范围	60-100	100-200	200-350	350-500
					Lr	185Fs10<sup>-4</sup>	120Fs10<sup>-4</sup>	70Fs10<sup>-4</sup>	40Fs10<sup>-4</sup>

(5-2)峰值搜索范围的隐射，如表4所示

表4峰值搜索范围参数的多频段映射

频率范围	60-100	100-200	200-350	350-500
					UB	185Fs10<sup>-4</sup>	110Fs10<sup>-4</sup>	55Fs10<sup>-4</sup>	35Fs10<sup>-4</sup>
LB	110Fs10<sup>-4</sup>	55Fs10<sup>-4</sup>	35Fs10<sup>-4</sup>	20Fs10<sup>-4</sup>

(5-3)迭代中值条件

当迭代次数超过预设的上限Nmax时终止。Nmax根据计算量要求可以设为10。当两次迭代的基音频率误差小于预设的分辨率精度要求E时，终止。在无噪声的纯净语音信号中，精度可达到(Fs/P0-Fs/(P0+1))Hz，其中P0为声带振动频率的真实值。

Claims

1.一种基于性别预判与多频段参数映射的语音基音频率估计方法，其特征在于所述方法包括如下步骤：

所述步骤1)包括：

(2)将性别预判断的结果反馈给基音频率提取模块，进行参数的自适应优化；

2)根据发音人性别的判断结果进行参数的优化；

所述步骤2)包括：

(2)依据基音的均值范围，进行性别的判断，当发音人性别被判断为男性时，选择较长的时间序列长度进行自相关值序列的计算，并且选择较低频段范围进行自相关值序列的峰值的搜索；

3)对优化后的参数采用迭代循环的方式，进行参数预测和频率重估，得到语音基音频率；所述步骤3)包括：

(1)参数预测：根据上一次循环获得的频率值，或者根据系统初始化给出的频率值，进行参数的映射，获得自相关序列的最合适长度，以及搜索峰值的最适合范围；

(2)频率重估：依据步骤(1)中所获得的自相关序列的最合适长度，以及搜索峰值的最适合范围，进行语音基音频率估计；

发音人性别的判断方法如下：

IF P_mean>F_c+F_off G＝1

ELSEIF P_mean<F_c+F_off G＝-1

ELSE G＝L (1)

其中，L＝(P_mean-200)/F_off (2)；

基音频率的估计方法如下：

1)中心削波法

S_max1＝max{S(t)，t＝0，1，2，...，T/2} (3)

其后半部分的最大值为：

S_max2＝max{S(t)，t＝0，1，2，...，T/2} (4)

S_max＝min{S_max1，S_max1} (5)

以阈值Th进行中性削波处理，阈值Th的计算如下：

Th＝C*S_max (6)

其中可取常数C＝0.618；

削波处理后的一帧语音信号如下：

S(t)＝S(t)-Th，S(t)>Th

S(t)＝0，S(t)≤Th (7)

2)自相关序列的计算

设自相关序列的长度参数为Lr，S(t)的自相关序列值为：

3)峰值搜索

P＝Fs/max{R(t)，LB<t<UB} (9)

其中Fs为采样频率。