CN105185385B - 基于性别预判与多频段参数映射的语音基音频率估计方法 - Google Patents
基于性别预判与多频段参数映射的语音基音频率估计方法 Download PDFInfo
- Publication number
- CN105185385B CN105185385B CN201510489027.6A CN201510489027A CN105185385B CN 105185385 B CN105185385 B CN 105185385B CN 201510489027 A CN201510489027 A CN 201510489027A CN 105185385 B CN105185385 B CN 105185385B
- Authority
- CN
- China
- Prior art keywords
- frequency
- gender
- value
- autocorrelation
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000013507 mapping Methods 0.000 title claims abstract description 16
- 238000005457 optimization Methods 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims abstract description 5
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000007935 neutral effect Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000003672 processing method Methods 0.000 abstract description 2
- 230000005236 sound signal Effects 0.000 abstract 1
- 210000000056 organ Anatomy 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Landscapes
- Complex Calculations (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种基于性别预判与多频段参数映射的语音基音频率估计方法,涉及语音信号处理方法技术领域。所述方法包括如下步骤:1)采用判决反馈的方式进行语音基音频率的估计,对发音人的性别进行判断;2)根据发音人性别的判断结果进行参数的优化;3)对优化后的参数采用迭代循环的方式,进行参数预测和频率重估,得到语音基音频率。所述方法具有计算量小,精度高的优点。
Description
技术领域
本发明涉及语音信号处理方法技术领域,尤其涉及一种基于性别预判与多频段参数映射的语音基音频率估计方法。
背景技术
语音信号的基音频率是最重要的声学特征之一。传统的自相关法提取语音的基音频率,具有计算量小的优点。但是由于语音信号的非平稳特性,其频率估计的精度有限,特别是在高频段和低频段的精度受到分帧和自相关运算精度的影响。
从发音器官的生理构造上看,基音频率直接受到声带构造的影响,其性别差异显著。从基音频率的统计值范围可以进行发音人性别的判断,一般男性的基音频率在70Hz-200Hz之间,女性的基音频率在200Hz-450Hz之间。基音频率的个体差异也较为明显,不同的个体具有相对固定的频率分布范围,在以往的基音频率估计算法中,很少利用发音器官的生理特点进行频率范围的搜索。
发明内容
本发明所要解决的技术问题是提供一种基于性别预判与多频段参数映射的语音基音频率估计方法,所述方法具有计算量小,精度高的优点。
为解决上述技术问题,本发明所采取的技术方案是:一种基于性别预判与多频段参数映射的语音基音频率估计方法,其特征在于所述方法包括如下步骤:
1)采用判决反馈的方式进行语音基音频率的估计,对发音人的性别进行判断;
2)根据发音人性别的判断结果进行参数的优化;
3)对优化后的参数采用迭代循环的方式,进行参数预测和频率重估,得到语音基音频率。
进一步的技术方案在于:所述步骤1)包括:
(1)利用标准的自相关算法对语音信号进行基音频率的估计,利用基音频率的范围进行性别的预判断;
(2)将性别预判断的结果反馈给基音频率提取模块,进行参数的自适应优化。
进一步的技术方案在于:所述步骤2)包括:
(1)对性别判断的结果进行校准,当基于自相关算法获得的基音频率的均值在200Hz的性别临界频率附近时,不进行硬判决,跳转到步骤3)进行迭代循环优化频率估计的精度;
(2)依据基音的均值范围,进行性别的判断,当发音人性别被判断为男性时,选择较长的时间序列长度进行自相关值序列的计算,并且选择较低频段范围进行自相关值序列的峰值的搜索。
进一步的技术方案在于:所述步骤3)包括:
(1)参数预测:根据上一次循环获得的频率值,或者根据系统初始化给出的频率值,进行参数的隐射,获得自相关序列的最合适长度,以及搜索峰值的最适合范围;
(2)频率重估:依据步骤(1)中所获得的自相关序列的最合适长度,以及搜索峰值的最适合范围,进行语音基音频率估计。
进一步的技术方案在于:发音人性别的判断方法如下:
对不同的男女发音人,提取其基音频率的均值Pmean,当频率超过200Hz的性别临界频率Fc足够偏移量Foff时,所对应的发音人性别标签G判断为女性,其中G=1;当频率低于200Hz的性别临界频率Fc足够偏移量Foff时,则判断为男性,其中G=-1;否则不进行性别标签的硬判决,将标签赋值为似然概率L,如式(1)和式(2)所示,
IF Pmean>Fc+Foff G=1
ELSEIF Pmean<Fc+Foff G=-1
ELSE G=L (1)
其中,
L=(Pmean-200)/Foff (2)。
进一步的技术方案在于:基音频率的估计方法如下:
1)中心削波法
设一段时间内一帧语音数据为:S(t),t=0,1,2,...,T,其前半部分的最大值为:
Smax1=max{S(t),t=0,1,2,...,T/2} (3)
其后半部分的最大值为:
Smax2=max{S(t),t=0,1,2,...,T/2} (4)
选取前半部分局部最大值和后半部分局部最大值中较小的一个,记为:
Smax=min{Smax1,Smax1} (5)
以阈值Th进行中性削波处理,阈值Th的计算如下:
Th=C*Smax (6)
其中可取常数C=0.618;
削波处理后的一帧语音信号如下:
S(t)=S(t)-Th,S(t)>Th
S(t)=0,S(t)≤Th (7)
2)自相关序列的计算
设自相关序列的长度参数为Lr,S(t)的自相关序列值为:
3)峰值搜索
根据搜索范围的区域参数Rg=(LB,UB),搜索峰值位置,获得基音频率估计值:
P=Fs/max{R(t),LB<t<UB} (9)
其中Fs为采样频率。
采用上述技术方案所产生的有益效果在于:所述方法能够利用发音人个体的特点,进行自相关算法参数的优化,从而提高基音频率估计的精度;利用迭代循环中的频率重估,在提高频率估计的精度的同时,提高了性别判断的可靠性,降低了计算量。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是男女基音频率分布图;
图2是本发明中基音频率估计的流程图;
图3是迭代循环中频率重估的误差收敛方向图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
总体的,本发明公开了一种基于性别预判与多频段参数映射的语音基音频率估计方法,所述方法包括如下步骤:
1)采用判决反馈的方式进行语音基音频率的估计,对发音人的性别进行判断;
具体的,所述步骤1)包括:(1)利用标准的自相关算法对语音信号进行基音频率的估计,利用基音频率的范围进行性别的预判断;(2)将性别预判断的结果反馈给基音频率提取模块,进行参数的自适应优化。
2)根据发音人性别的判断结果进行参数的优化;
具体的,所述步骤2)包括:(1)对性别判断的结果进行校准,当基于自相关算法获得的基音频率的均值在200Hz的性别临界频率附近时,不进行硬判决,跳转到步骤3)进行迭代循环优化频率估计的精度;(2)依据基音的均值范围,进行性别的判断,当发音人性别被判断为男性时,选择较长的时间序列长度进行自相关值序列的计算,并且选择较低频段范围进行自相关值序列的峰值的搜索。
3)对优化后的参数采用迭代循环的方式,进行参数预测和频率重估,得到语音基音频率:
具体的,所述步骤3)包括:(1)参数预测:根据上一次循环获得的频率值,或者根据系统初始化给出的频率值,进行参数的隐射,获得自相关序列的最合适长度,以及搜索峰值的最适合范围;(2)频率重估:依据步骤(1)中所获得的自相关序列的最合适长度,以及搜索峰值的最适合范围,进行语音基音频率估计。
具体的,本发明所述方法包括如下步骤:
(1)发音人性别的判断
对不同的男女发音人,提取其基音频率的均值Pmean,分布特点如附图1所示。当频率超过200Hz的性别临界频率Fc足够偏移量Foff时,所对应的发音人性别标签G判断为女性(G=1),当频率低于200Hz的性别临界频率Fc足够偏移量Foff时否则判断为男性(G=-1)。否则不进行性别标签的硬判决,将标签赋值为似然概率L,如式(1)和式(2)所示。
IF Pmean>Fc+Foff G=1
ELSEIF Pmean<Fc+Foff G=-1
ELSE G=L (1)
其中,
L=(Pmean-200)/Foff (2)
(2)发音人性别信息的反馈
根据(1)中获得的发音人性别判决结果,将其通过反馈通路,输入到参数选取模块,如附图2所示。
(3)基音频率的估计
(3-1)中心削波法
设20ms内一帧语音数据为:S(t),t=0,1,2,...,T。其前半部分的最大值为:
Smax1=max{S(t),t=0,1,2,...,T/2。} (3)
其后半部分的最大值为:
Smax2=max{S(t),t=0,1,2,...,T/2。} (4)
为了消除突发误差干扰,选取前半部分局部最大值和后半部分局部最大值中较小的一个,记为:
Smax=min{Smax1,Smax1} (5)
以阈值Th进行中性削波处理,阈值Th的计算如下:
Th=C*Smax (6)
其中可取常数C=0.618。
削波处理后的一帧语音信号如下:
S(t)=S(t)-Th,S(t)>Th
S(t)=0,S(t)≤Th (7)
(3-2)自相关序列的计算
设自相关序列的长度参数为Lr,S(t)的自相关序列值为:
(3-3)峰值搜索
根据搜索范围的区域参数Rg=(LB,UB),搜索峰值位置,获得基音频率估计值:
P=Fs/max{R(t),LB<t<UB.} (9)
其中Fs为采样频率,一般为8K,11.025K,16K,44.1K.
(4)基于性别信息的参数映射
根据发音人的性别差异,其基音频率对应的周期范围可以进一步被约束,考虑此约束条件,可以对公式(8)中有限长度的自相关值序列进行补偿,减小其长度参数Lr则高频段得到提升,增大其长度参数Lr则低频段得到提升。对峰值出现的位置也可施加约束条件,提高搜索区域参数则低频段得到提升,降低搜索区域参数则高频段得到提升。
(4-1)自相关序列长度的映射,如表1所示
表1自相关序列长度参数选取
频率范围 | 60-200 | 200-500 |
Lr | 185*Fs*10<sup>-4</sup> | 70*Fs*10<sup>-4</sup> |
(4-2)峰值搜索范围的隐射,如表2所示
表2峰值搜索范围参数选取
频率范围 | 60-200 | 200--500 |
UB | 185*Fs*10<sup>-4</sup> | 55*Fs*10<sup>-4</sup> |
LB | 55*Fs*10<sup>-4</sup> | 20*Fs*10<sup>-4</sup> |
(5)迭代优化中的多频段参数映射
在每次迭代中,根据当前基音频率的估计值,进行下一次迭代中的参数的映射。在下一次迭代中,根据所预测的参数,进行频率重估,一次迭代中的结果如附图3所示,其误差的校准与实际误差方向一致时,算法收敛。
(5-1)自相关序列长度的映射,如表3所示
表3自相关序列长度的多频段映射
频率范围 | 60-100 | 100-200 | 200-350 | 350-500 |
Lr | 185*Fs*10<sup>-4</sup> | 120*Fs*10<sup>-4</sup> | 70*Fs*10<sup>-4</sup> | 40*Fs*10<sup>-4</sup> |
(5-2)峰值搜索范围的隐射,如表4所示
表4峰值搜索范围参数的多频段映射
频率范围 | 60-100 | 100-200 | 200-350 | 350-500 |
UB | 185*Fs*10<sup>-4</sup> | 110*Fs*10<sup>-4</sup> | 55*Fs*10<sup>-4</sup> | 35*Fs*10<sup>-4</sup> |
LB | 110*Fs*10<sup>-4</sup> | 55*Fs*10<sup>-4</sup> | 35*Fs*10<sup>-4</sup> | 20*Fs*10<sup>-4</sup> |
(5-3)迭代中值条件
当迭代次数超过预设的上限Nmax时终止。Nmax根据计算量要求可以设为10。当两次迭代的基音频率误差小于预设的分辨率精度要求E时,终止。在无噪声的纯净语音信号中,精度可达到(Fs/P0-Fs/(P0+1))Hz,其中P0为声带振动频率的真实值。
Claims (1)
1.一种基于性别预判与多频段参数映射的语音基音频率估计方法,其特征在于所述方法包括如下步骤:
1)采用判决反馈的方式进行语音基音频率的估计,对发音人的性别进行判断;
所述步骤1)包括:
(1)利用标准的自相关算法对语音信号进行基音频率的估计,利用基音频率的范围进行性别的预判断;
(2)将性别预判断的结果反馈给基音频率提取模块,进行参数的自适应优化;
2)根据发音人性别的判断结果进行参数的优化;
所述步骤2)包括:
(1)对性别判断的结果进行校准,当基于自相关算法获得的基音频率的均值在200Hz的性别临界频率附近时,不进行硬判决,跳转到步骤3)进行迭代循环优化频率估计的精度;
(2)依据基音的均值范围,进行性别的判断,当发音人性别被判断为男性时,选择较长的时间序列长度进行自相关值序列的计算,并且选择较低频段范围进行自相关值序列的峰值的搜索;
3)对优化后的参数采用迭代循环的方式,进行参数预测和频率重估,得到语音基音频率;所述步骤3)包括:
(1)参数预测:根据上一次循环获得的频率值,或者根据系统初始化给出的频率值,进行参数的映射,获得自相关序列的最合适长度,以及搜索峰值的最适合范围;
(2)频率重估:依据步骤(1)中所获得的自相关序列的最合适长度,以及搜索峰值的最适合范围,进行语音基音频率估计;
发音人性别的判断方法如下:
对不同的男女发音人,提取其基音频率的均值Pmean,当频率超过200Hz的性别临界频率Fc足够偏移量Foff时,所对应的发音人性别标签G判断为女性,其中G=1;当频率低于200Hz的性别临界频率Fc足够偏移量Foff时,则判断为男性,其中G=-1;否则不进行性别标签的硬判决,将标签赋值为似然概率L,如式(1)和式(2)所示,
IF Pmean>Fc+Foff G=1
ELSEIF Pmean<Fc+Foff G=-1
ELSE G=L (1)
其中,L=(Pmean-200)/Foff (2);
基音频率的估计方法如下:
1)中心削波法
设一段时间内一帧语音数据为:S(t),t=0,1,2,...,T,其前半部分的最大值为:
Smax1=max{S(t),t=0,1,2,...,T/2} (3)
其后半部分的最大值为:
Smax2=max{S(t),t=0,1,2,...,T/2} (4)
选取前半部分局部最大值和后半部分局部最大值中较小的一个,记为:
Smax=min{Smax1,Smax1} (5)
以阈值Th进行中性削波处理,阈值Th的计算如下:
Th=C*Smax (6)
其中可取常数C=0.618;
削波处理后的一帧语音信号如下:
S(t)=S(t)-Th,S(t)>Th
S(t)=0,S(t)≤Th (7)
2)自相关序列的计算
设自相关序列的长度参数为Lr,S(t)的自相关序列值为:
3)峰值搜索
根据搜索范围的区域参数Rg=(LB,UB),搜索峰值位置,获得基音频率估计值:
P=Fs/max{R(t),LB<t<UB} (9)
其中Fs为采样频率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510489027.6A CN105185385B (zh) | 2015-08-11 | 2015-08-11 | 基于性别预判与多频段参数映射的语音基音频率估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510489027.6A CN105185385B (zh) | 2015-08-11 | 2015-08-11 | 基于性别预判与多频段参数映射的语音基音频率估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105185385A CN105185385A (zh) | 2015-12-23 |
CN105185385B true CN105185385B (zh) | 2019-11-15 |
Family
ID=54907411
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510489027.6A Expired - Fee Related CN105185385B (zh) | 2015-08-11 | 2015-08-11 | 基于性别预判与多频段参数映射的语音基音频率估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105185385B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105613348B (zh) * | 2016-01-12 | 2018-01-02 | 重庆机电职业技术学院 | 基音频谱分析与中心频率计算双向判断的鸡雏性别辨别器 |
CN109616099A (zh) * | 2018-12-13 | 2019-04-12 | 南京工程学院 | 一种基于基音频率及平滑处理的男女语音性别识别方法 |
CN111462755A (zh) * | 2020-03-03 | 2020-07-28 | 深圳壹账通智能科技有限公司 | 信息提示方法、装置、电子设备及介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7103542B2 (en) * | 2001-12-14 | 2006-09-05 | Ben Franklin Patent Holding Llc | Automatically improving a voice recognition system |
JP4427530B2 (ja) * | 2006-09-21 | 2010-03-10 | 株式会社東芝 | 音声認識装置、プログラムおよび音声認識方法 |
EP2418643A1 (en) * | 2010-08-11 | 2012-02-15 | Software AG | Computer-implemented method and system for analysing digital speech data |
CN103167174A (zh) * | 2013-02-25 | 2013-06-19 | 广东欧珀移动通信有限公司 | 一种移动终端问候语的输出方法、装置及移动终端 |
CN103474074B (zh) * | 2013-09-09 | 2016-05-11 | 深圳广晟信源技术有限公司 | 语音基音周期估计方法和装置 |
-
2015
- 2015-08-11 CN CN201510489027.6A patent/CN105185385B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN105185385A (zh) | 2015-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022012367A1 (zh) | 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端 | |
CN108831499B (zh) | 利用语音存在概率的语音增强方法 | |
EP3164871B1 (en) | User environment aware acoustic noise reduction | |
CN110739005A (zh) | 一种面向瞬态噪声抑制的实时语音增强方法 | |
US8073689B2 (en) | Repetitive transient noise removal | |
KR100304666B1 (ko) | 음성 향상 방법 | |
CN105185385B (zh) | 基于性别预判与多频段参数映射的语音基音频率估计方法 | |
US9460731B2 (en) | Noise estimation apparatus, noise estimation method, and noise estimation program | |
CN102779526B (zh) | 语音信号中基音提取及修正方法 | |
CN104269180B (zh) | 一种用于语音质量客观评价的准干净语音构造方法 | |
CN105161093A (zh) | 一种判断说话人数目的方法及系统 | |
CN106024002B (zh) | 时间零收敛单麦克风降噪 | |
US8326621B2 (en) | Repetitive transient noise removal | |
CN101271686A (zh) | 使用语音信号的谐波估计噪声的方法和设备 | |
CN104867497A (zh) | 一种语音降噪方法 | |
JP2014122939A (ja) | 音声処理装置および方法、並びにプログラム | |
JP6439682B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
KR20180125385A (ko) | 잡음 환경 분류 및 제거 기능을 갖는 보청기 및 그 방법 | |
CN105702262A (zh) | 一种头戴式双麦克风语音增强方法 | |
CN107045874A (zh) | 一种基于相关性的非线性语音增强方法 | |
US11610601B2 (en) | Method and apparatus for determining speech presence probability and electronic device | |
KR100784456B1 (ko) | Gmm을 이용한 음질향상 시스템 | |
CN110933235B (zh) | 一种基于机器学习的智能呼叫系统中的噪声识别方法 | |
CN103337245B (zh) | 基于子带信号的信噪比曲线的噪声抑制方法及装置 | |
Park et al. | Estimation of speech absence uncertainty based on multiple linear regression analysis for speech enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20191115 |
|
CF01 | Termination of patent right due to non-payment of annual fee |