CN105185385A - 基于性别预判与多频段参数映射的语音基音频率估计方法 - Google Patents

基于性别预判与多频段参数映射的语音基音频率估计方法 Download PDF

Info

Publication number
CN105185385A
CN105185385A CN201510489027.6A CN201510489027A CN105185385A CN 105185385 A CN105185385 A CN 105185385A CN 201510489027 A CN201510489027 A CN 201510489027A CN 105185385 A CN105185385 A CN 105185385A
Authority
CN
China
Prior art keywords
frequency
sex
fundamental frequency
parameter
carry out
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510489027.6A
Other languages
English (en)
Other versions
CN105185385B (zh
Inventor
黄程韦
于拾全
朱晓明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongguan Fandou Information Technology Co Ltd
Original Assignee
Dongguan Fandou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongguan Fandou Information Technology Co Ltd filed Critical Dongguan Fandou Information Technology Co Ltd
Priority to CN201510489027.6A priority Critical patent/CN105185385B/zh
Publication of CN105185385A publication Critical patent/CN105185385A/zh
Application granted granted Critical
Publication of CN105185385B publication Critical patent/CN105185385B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Complex Calculations (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种基于性别预判与多频段参数映射的语音基音频率估计方法,涉及语音信号处理方法技术领域。所述方法包括如下步骤:1)采用判决反馈的方式进行语音基音频率的估计,对发音人的性别进行判断;2)根据发音人性别的判断结果进行参数的优化;3)对优化后的参数采用迭代循环的方式,进行参数预测和频率重估,得到语音基音频率。所述方法具有计算量小,精度高的优点。

Description

基于性别预判与多频段参数映射的语音基音频率估计方法
技术领域
本发明涉及语音信号处理方法技术领域,尤其涉及一种基于性别预判与多频段参数映射的语音基音频率估计方法。
背景技术
语音信号的基音频率是最重要的声学特征之一。传统的自相关法提取语音的基音频率,具有计算量小的优点。但是由于语音信号的非平稳特性,其频率估计的精度有限,特别是在高频段和低频段的精度受到分帧和自相关运算精度的影响。
从发音器官的生理构造上看,基音频率直接受到声带构造的影响,其性别差异显著。从基音频率的统计值范围可以进行发音人性别的判断,一般男性的基音频率在70Hz-200Hz之间,女性的基音频率在200Hz-450Hz之间。基音频率的个体差异也较为明显,不同的个体具有相对固定的频率分布范围,在以往的基音频率估计算法中,很少利用发音器官的生理特点进行频率范围的搜索。
发明内容
本发明所要解决的技术问题是提供一种基于性别预判与多频段参数映射的语音基音频率估计方法,所述方法具有计算量小,精度高的优点。
为解决上述技术问题,本发明所采取的技术方案是:一种基于性别预判与多频段参数映射的语音基音频率估计方法,其特征在于所述方法包括如下步骤:
1)采用判决反馈的方式进行语音基音频率的估计,对发音人的性别进行判断;
2)根据发音人性别的判断结果进行参数的优化;
3)对优化后的参数采用迭代循环的方式,进行参数预测和频率重估,得到语音基音频率。
进一步的技术方案在于:所述步骤1)包括:
(1)利用标准的自相关算法对语音信号进行基音频率的估计,利用基音频率的范围进行性别的预判断;
(2)将性别预判断的结果反馈给基音频率提取模块,进行参数的自适应优化。
进一步的技术方案在于:所述步骤2)包括:
(1)对性别判断的结果进行校准,当基于自相关算法获得的基音频率的均值在200Hz的性别临界频率附近时,不进行硬判决,跳转到步骤3)进行迭代循环优化频率估计的精度;
(2)依据基音的均值范围,进行性别的判断,当发音人性别被判断为男性时,选择较长的时间序列长度进行自相关值序列的计算,并且选择较低频段范围进行自相关值序列的峰值的搜索。
进一步的技术方案在于:所述步骤3)包括:
(1)参数预测:根据上一次循环获得的频率值,或者根据系统初始化给出的频率值,进行参数的隐射,获得自相关序列的最合适长度,以及搜索峰值的最适合范围;
(2)频率重估:依据步骤(1)中所获得的自相关序列的最合适长度,以及搜索峰值的最适合范围,进行语音基音频率估计。
进一步的技术方案在于:发音人性别的判断方法如下:
对不同的男女发音人,提取其基音频率的均值Pmean,当频率超过200Hz的性别临界频率Fc足够偏移量Foff时,所对应的发音人性别标签G判断为女性,其中G=1;当频率低于200Hz的性别临界频率Fc足够偏移量Foff时,则判断为男性,其中G=-1;否则不进行性别标签的硬判决,将标签赋值为似然概率L,如式(1)和式(2)所示,
IFPmean>Fc+FoffG=1
ELSEIFPmean<Fc+FoffG=-1
ELSEG=L(1)
其中,
L=(Pmean-200)/Foff(2)。
进一步的技术方案在于:基音频率的估计方法如下:
1)中心削波法
设一段时间内一帧语音数据为:S(t),t=0,1,2,...,T,其前半部分的最大值为:
Smax1=max{S(t),t=0,1,2,...,T/2}(3)
其后半部分的最大值为:
Smax2=max{S(t),t=0,1,2,...,T/2}(4)
选取前半部分局部最大值和后半部分局部最大值中较小的一个,记为:
Smax=min{Smax1,Smax1}(5)
以阈值Th进行中性削波处理,阈值Th的计算如下:
Th=C*Smax(6)
其中可取常数C=0.618;
削波处理后的一帧语音信号如下:
S(t)=S(t)-Th,S(t)>Th
S(t)=0,S(t)≤Th(7)
2)自相关序列的计算
设自相关序列的长度参数为Lr,S(t)的自相关序列值为:
R ( t ) = &Sigma; i = 0 T - L r S ( i ) * S ( i + t ) , t = 0 , 1 , ... , L r - - - ( 8 )
3)峰值搜索
根据搜索范围的区域参数Rg=(LB,UB),搜索峰值位置,获得基音频率估计值:
P=Fs/max{R(t),LB<t<UB}(9)
其中Fs为采样频率。
采用上述技术方案所产生的有益效果在于:所述方法能够利用发音人个体的特点,进行自相关算法参数的优化,从而提高基音频率估计的精度;利用迭代循环中的频率重估,在提高频率估计的精度的同时,提高了性别判断的可靠性,降低了计算量。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是男女基音频率分布图;
图2是本发明中基音频率估计的流程图;
图3是迭代循环中频率重估的误差收敛方向图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
总体的,本发明公开了一种基于性别预判与多频段参数映射的语音基音频率估计方法,所述方法包括如下步骤:
1)采用判决反馈的方式进行语音基音频率的估计,对发音人的性别进行判断;
具体的,所述步骤1)包括:(1)利用标准的自相关算法对语音信号进行基音频率的估计,利用基音频率的范围进行性别的预判断;(2)将性别预判断的结果反馈给基音频率提取模块,进行参数的自适应优化。
2)根据发音人性别的判断结果进行参数的优化;
具体的,所述步骤2)包括:(1)对性别判断的结果进行校准,当基于自相关算法获得的基音频率的均值在200Hz的性别临界频率附近时,不进行硬判决,跳转到步骤3)进行迭代循环优化频率估计的精度;(2)依据基音的均值范围,进行性别的判断,当发音人性别被判断为男性时,选择较长的时间序列长度进行自相关值序列的计算,并且选择较低频段范围进行自相关值序列的峰值的搜索。
3)对优化后的参数采用迭代循环的方式,进行参数预测和频率重估,得到语音基音频率:
具体的,所述步骤3)包括:(1)参数预测:根据上一次循环获得的频率值,或者根据系统初始化给出的频率值,进行参数的隐射,获得自相关序列的最合适长度,以及搜索峰值的最适合范围;(2)频率重估:依据步骤(1)中所获得的自相关序列的最合适长度,以及搜索峰值的最适合范围,进行语音基音频率估计。
具体的,本发明所述方法包括如下步骤:
(1)发音人性别的判断
对不同的男女发音人,提取其基音频率的均值Pmean,分布特点如附图1所示。当频率超过200Hz的性别临界频率Fc足够偏移量Foff时,所对应的发音人性别标签G判断为女性(G=1),当频率低于200Hz的性别临界频率Fc足够偏移量Foff时否则判断为男性(G=-1)。否则不进行性别标签的硬判决,将标签赋值为似然概率L,如式(1)和式(2)所示。
IFPmean>Fc+FoffG=1
ELSEIFPmean<Fc+FoffG=-1
ELSEG=L(1)
其中,
L=(Pmean-200)/Foff(2)
(2)发音人性别信息的反馈
根据(1)中获得的发音人性别判决结果,将其通过反馈通路,输入到参数选取模块,如附图2所示。
(3)基音频率的估计
(3-1)中心削波法
设20ms内一帧语音数据为:S(t),t=0,1,2,...,T。其前半部分的最大值为:
Smax1=max{S(t),t=0,1,2,...,T/2。}(3)
其后半部分的最大值为:
Smax2=max{S(t),t=0,1,2,...,T/2。}(4)
为了消除突发误差干扰,选取前半部分局部最大值和后半部分局部最大值中较小的一个,记为:
Smax=min{Smax1,Smax1}(5)
以阈值Th进行中性削波处理,阈值Th的计算如下:
Th=C*Smax(6)
其中可取常数C=0.618。
削波处理后的一帧语音信号如下:
S(t)=S(t)-Th,S(t)>Th
S(t)=0,S(t)≤Th(7)
(3-2)自相关序列的计算
设自相关序列的长度参数为Lr,S(t)的自相关序列值为:
R ( t ) = &Sigma; i = 0 T - L r S ( i ) * S ( i + t ) , t = 0 , 1 , ... , L r - - - ( 8 )
(3-3)峰值搜索
根据搜索范围的区域参数Rg=(LB,UB),搜索峰值位置,获得基音频率估计值:
P=Fs/max{R(t),LB<t<UB.}(9)
其中Fs为采样频率,一般为8K,11.025K,16K,44.1K.
(4)基于性别信息的参数映射
根据发音人的性别差异,其基音频率对应的周期范围可以进一步被约束,考虑此约束条件,可以对公式(8)中有限长度的自相关值序列进行补偿,减小其长度参数Lr则高频段得到提升,增大其长度参数Lr则低频段得到提升。对峰值出现的位置也可施加约束条件,提高搜索区域参数则低频段得到提升,降低搜索区域参数则高频段得到提升。
(4-1)自相关序列长度的映射,如表1所示
表1自相关序列长度参数选取
频率范围 60-200 200-500
Lr 185*Fs*10-4 70*Fs*10-4
(4-2)峰值搜索范围的隐射,如表2所示
表2峰值搜索范围参数选取
频率范围 60-200 200--500
UB 185*Fs*10-4 55*Fs*10-4
LB 55*Fs*10-4 20*Fs*10-4
(5)迭代优化中的多频段参数映射
在每次迭代中,根据当前基音频率的估计值,进行下一次迭代中的参数的映射。在下一次迭代中,根据所预测的参数,进行频率重估,一次迭代中的结果如附图3所示,其误差的校准与实际误差方向一致时,算法收敛。
(5-1)自相关序列长度的映射,如表3所示
表3自相关序列长度的多频段映射
频率范围 60-100 100-200 200-350 350-500
Lr 185*Fs*10-4 120*Fs*10-4 70*Fs*10-4 40*Fs*10-4
(5-2)峰值搜索范围的隐射,如表4所示
表4峰值搜索范围参数的多频段映射
频率范围 60-100 100-200 200-350 350-500
UB 185*Fs*10-4 110*Fs*10-4 55*Fs*10-4 35*Fs*10-4
LB 110*Fs*10-4 55*Fs*10-4 35*Fs*10-4 20*Fs*10-4
(5-3)迭代中值条件
当迭代次数超过预设的上限Nmax时终止。Nmax根据计算量要求可以设为10。当两次迭代的基音频率误差小于预设的分辨率精度要求E时,终止。在无噪声的纯净语音信号中,精度可达到(Fs/P0-Fs/(P0+1))Hz,其中P0为声带振动频率的真实值。

Claims (6)

1.一种基于性别预判与多频段参数映射的语音基音频率估计方法,其特征在于所述方法包括如下步骤:
1)采用判决反馈的方式进行语音基音频率的估计,对发音人的性别进行判断;
2)根据发音人性别的判断结果进行参数的优化;
3)对优化后的参数采用迭代循环的方式,进行参数预测和频率重估,得到语音基音频率。
2.根据权利要求1所述的基于性别预判与多频段参数映射的语音基音频率估计方法,其特征在于所述步骤1)包括:
(1)利用标准的自相关算法对语音信号进行基音频率的估计,利用基音频率的范围进行性别的预判断;
(2)将性别预判断的结果反馈给基音频率提取模块,进行参数的自适应优化。
3.根据权利要求1所述的基于性别预判与多频段参数映射的语音基音频率估计方法,其特征在于所述步骤2)包括:
(1)对性别判断的结果进行校准,当基于自相关算法获得的基音频率的均值在200Hz的性别临界频率附近时,不进行硬判决,跳转到步骤3)进行迭代循环优化频率估计的精度;
(2)依据基音的均值范围,进行性别的判断,当发音人性别被判断为男性时,选择较长的时间序列长度进行自相关值序列的计算,并且选择较低频段范围进行自相关值序列的峰值的搜索。
4.根据权利要求1所述的基于性别预判与多频段参数映射的语音基音频率估计方法,其特征在于所述步骤3)包括:
(1)参数预测:根据上一次循环获得的频率值,或者根据系统初始化给出的频率值,进行参数的隐射,获得自相关序列的最合适长度,以及搜索峰值的最适合范围;
(2)频率重估:依据步骤(1)中所获得的自相关序列的最合适长度,以及搜索峰值的最适合范围,进行语音基音频率估计。
5.根据权利要求1所述的基于性别预判与多频段参数映射的语音基音频率估计方法,其特征在于发音人性别的判断方法如下:
对不同的男女发音人,提取其基音频率的均值Pmean,当频率超过200Hz的性别临界频率Fc足够偏移量Foff时,所对应的发音人性别标签G判断为女性,其中G=1;当频率低于200Hz的性别临界频率Fc足够偏移量Foff时,则判断为男性,其中G=-1;否则不进行性别标签的硬判决,将标签赋值为似然概率L,如式(1)和式(2)所示,
IFPmean>Fc+FoffG=1
ELSEIFPmean<Fc+FoffG=-1
ELSEG=L(1)
其中,
L=(Pmean-200)/Foff(2)。
6.根据权利要求5所述的基于性别预判与多频段参数映射的语音基音频率估计方法,其特征在于基音频率的估计方法如下:
1)中心削波法
设一段时间内一帧语音数据为:S(t),t=0,1,2,...,T,其前半部分的最大值为:
Smax1=max{S(t),t=0,1,2,...,T/2}(3)
其后半部分的最大值为:
Smax2=max{S(t),t=0,1,2,...,T/2}(4)
选取前半部分局部最大值和后半部分局部最大值中较小的一个,记为:
Smax=min{Smax1,Smax1}(5)
以阈值Th进行中性削波处理,阈值Th的计算如下:
Th=C*Smax(6)
其中可取常数C=0.618;
削波处理后的一帧语音信号如下:
S(t)=S(t)-Th,S(t)>Th
S(t)=0,S(t)≤Th(7)
2)自相关序列的计算
设自相关序列的长度参数为Lr,S(t)的自相关序列值为:
R ( t ) = &Sigma; i = 0 T - L r S ( i ) * S ( i + t ) , t = 0 , 1 , ... , L r - - - ( 8 )
3)峰值搜索
根据搜索范围的区域参数Rg=(LB,UB),搜索峰值位置,获得基音频率估计值:
P=Fs/max{R(t),LB<t<UB}(9)
其中Fs为采样频率。
CN201510489027.6A 2015-08-11 2015-08-11 基于性别预判与多频段参数映射的语音基音频率估计方法 Expired - Fee Related CN105185385B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510489027.6A CN105185385B (zh) 2015-08-11 2015-08-11 基于性别预判与多频段参数映射的语音基音频率估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510489027.6A CN105185385B (zh) 2015-08-11 2015-08-11 基于性别预判与多频段参数映射的语音基音频率估计方法

Publications (2)

Publication Number Publication Date
CN105185385A true CN105185385A (zh) 2015-12-23
CN105185385B CN105185385B (zh) 2019-11-15

Family

ID=54907411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510489027.6A Expired - Fee Related CN105185385B (zh) 2015-08-11 2015-08-11 基于性别预判与多频段参数映射的语音基音频率估计方法

Country Status (1)

Country Link
CN (1) CN105185385B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105613348A (zh) * 2016-01-12 2016-06-01 重庆机电职业技术学院 基音频谱分析与中心频率计算双向判断的鸡雏性别辨别器
CN109616099A (zh) * 2018-12-13 2019-04-12 南京工程学院 一种基于基音频率及平滑处理的男女语音性别识别方法
WO2021175031A1 (zh) * 2020-03-03 2021-09-10 深圳壹账通智能科技有限公司 信息提示方法、装置、电子设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7103542B2 (en) * 2001-12-14 2006-09-05 Ben Franklin Patent Holding Llc Automatically improving a voice recognition system
CN101149922A (zh) * 2006-09-21 2008-03-26 株式会社东芝 语音识别装置和语音识别方法
EP2418643A1 (en) * 2010-08-11 2012-02-15 Software AG Computer-implemented method and system for analysing digital speech data
CN103167174A (zh) * 2013-02-25 2013-06-19 广东欧珀移动通信有限公司 一种移动终端问候语的输出方法、装置及移动终端
CN103474074A (zh) * 2013-09-09 2013-12-25 深圳广晟信源技术有限公司 语音基音周期估计方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7103542B2 (en) * 2001-12-14 2006-09-05 Ben Franklin Patent Holding Llc Automatically improving a voice recognition system
CN101149922A (zh) * 2006-09-21 2008-03-26 株式会社东芝 语音识别装置和语音识别方法
EP2418643A1 (en) * 2010-08-11 2012-02-15 Software AG Computer-implemented method and system for analysing digital speech data
CN103167174A (zh) * 2013-02-25 2013-06-19 广东欧珀移动通信有限公司 一种移动终端问候语的输出方法、装置及移动终端
CN103474074A (zh) * 2013-09-09 2013-12-25 深圳广晟信源技术有限公司 语音基音周期估计方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王永琦: "《MATLAB与音视频技术》", 30 November 2013 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105613348A (zh) * 2016-01-12 2016-06-01 重庆机电职业技术学院 基音频谱分析与中心频率计算双向判断的鸡雏性别辨别器
CN109616099A (zh) * 2018-12-13 2019-04-12 南京工程学院 一种基于基音频率及平滑处理的男女语音性别识别方法
WO2021175031A1 (zh) * 2020-03-03 2021-09-10 深圳壹账通智能科技有限公司 信息提示方法、装置、电子设备及介质

Also Published As

Publication number Publication date
CN105185385B (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
CN110739005B (zh) 一种面向瞬态噪声抑制的实时语音增强方法
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
CN108831499A (zh) 利用语音存在概率的语音增强方法
US8543402B1 (en) Speaker segmentation in noisy conversational speech
JP5127754B2 (ja) 信号処理装置
RU2759716C2 (ru) Устройство и способ оценки задержки
EP3198592A1 (en) Neural network voice activity detection employing running range normalization
CN105261357A (zh) 基于统计模型的语音端点检测方法及装置
KR20010019603A (ko) 음성 향상 방법
CN109903752B (zh) 对齐语音的方法和装置
US9520138B2 (en) Adaptive modulation filtering for spectral feature enhancement
CN105845150B (zh) 一种采用倒谱进行修正的语音增强方法及系统
CN102779526A (zh) 语音信号中基音提取及修正方法
CN104485108A (zh) 一种基于多说话人模型的噪声与说话人联合补偿方法
CN105185385A (zh) 基于性别预判与多频段参数映射的语音基音频率估计方法
JP6439682B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
CN104269180A (zh) 一种用于语音质量客观评价的准干净语音构造方法
CN104599677A (zh) 基于语音重建的瞬态噪声抑制方法
CN108198558B (zh) 一种基于csi数据的语音识别方法
KR102406512B1 (ko) 음성인식 방법 및 그 장치
Huber et al. Objective assessment of a speech enhancement scheme with an automatic speech recognition-based system
Sharma et al. Weighted sigmoid-based frequency-selective noise filtering for speech denoising
JP5443547B2 (ja) 信号処理装置
KR100784456B1 (ko) Gmm을 이용한 음질향상 시스템
WO2017128910A1 (zh) 一种语音出现概率的确定方法、装置及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20191115

CF01 Termination of patent right due to non-payment of annual fee