CN107045875B - 基于遗传算法的基音频率检测方法 - Google Patents
基于遗传算法的基音频率检测方法 Download PDFInfo
- Publication number
- CN107045875B CN107045875B CN201610077797.4A CN201610077797A CN107045875B CN 107045875 B CN107045875 B CN 107045875B CN 201610077797 A CN201610077797 A CN 201610077797A CN 107045875 B CN107045875 B CN 107045875B
- Authority
- CN
- China
- Prior art keywords
- value
- chromosome
- alpha
- characteristic waveform
- optimal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 15
- 230000002068 genetic effect Effects 0.000 title claims description 3
- 238000005457 optimization Methods 0.000 claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 28
- 210000000349 chromosome Anatomy 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 12
- 238000009432 framing Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 4
- 229910002056 binary alloy Inorganic materials 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000001186 cumulative effect Effects 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 230000035772 mutation Effects 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims 1
- 238000012545 processing Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/39—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using genetic algorithms
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种极低信噪比环境下的基音频率检测方法。其特征在于利用PEFAC算法提取语音帧信号的特征波形,然后利用最佳优化因子对特征波形进行优化从而构造新的特征波形,最后找出特征波形最大峰值所对应的频率值作为基音频率的估计值。其中最佳优化因子依靠GA算法搜索得到。
Description
技术领域
本发明涉及基音频率检测方法,特别是一种极低信噪比环境下的基音频率检测方法。
背景技术
基音频率检测作为语音的基本参数,在语音分析合成以及语音分离等语音处理领域有着广泛的用途。准确可靠地估计并提取基音频率对语音信号处理至关重要。高信噪比的基音频率检测已经十分成熟,但这些方法在低信噪比环境下难以较好效果,特别是极低信噪比环境下的检测效果很差。鉴于此,本发明提供一种极低信噪比环境下的基音频率检测方法。
发明内容
针对现有技术在极低信噪比环境下的进行基音频率检测有着明显不足,本发明提供了一种极低信噪比环境下的基音频率检测方法。
该方法包括以下步骤:
1.训练过程:
(1)对语音数据库按时间顺序作语音分帧{frm(1),frm(2),…,frm(N)}, 并利用标准算法提取语音帧的基音频率F0作为基音频率真实值,并构成序列{F0(1),F0(2),…,F0(N)},其中N为语音帧的总数;
(2)在纯净语音帧基础上叠加噪声制作新的语音分帧序列 {frmnoise(1),frmnoise(2),…,frmnoise(N)},并利用PEFAC算法将语音帧信号转化为相对应的特征波形序列
(3)利用优化因子与特征波形一起构造GA适应度函数,并进行全局搜索,直至得到最佳优化因子。其中优化因子为未知的M维向量α=[α1,α2,…,αM],优化因子优化之后的特征波形构成新的特征波形序列提取特征波形的最大峰值 peak和其所对应的频率值fpeak作为基音频率估计值,并形成序列 {(peakmax(1),fpeak(1)),(peakmax(2),fpeak(2)),…,(peakmax(N),fpeak(N))} GA适应度函数即基音频率估计值与真实值误差不超过5%的概率。然后设置GA算法的相关参数进行搜索,最终找出最佳的优化因子αoptimal。
2.测试过程:
(1)对测试语音信号进行分帧处理,并提取其基音特征波形
(2)利用最佳优化因子αoptimal优化,即构造优化后的基音特征波形
(3)识别并找出的最大峰值所对应的频率值作为基音频率的估计值。
本发明的上述技术方案与现有技术方案相比较,具有以下优点:
A、采用PEFAC算法提取特征波形,继承了其低信噪比环境下抑制噪声的优点;
B、采用GA进化算法搜索最佳优化因子,使得优化之后的所得到的基音频率估计值在低信噪比环境下更接近于真实基音频率值。
附图说明
图1是根据本发明的一个实施例构成的方法流程图;
具体实施方式
本发明提出的极低信噪比环境下的基音频率检测方法结合附图及实施例进一步说明如下:
本发明的方法流程如图1所示,包括以下步骤:
1.训练过程:
(1)对语音数据库按时间顺序分帧;
(2)并利用标准算法提取语音帧的基音频率作为基音频率真实值;
(3)对叠加有噪声的语音库信号按时间顺序分帧并利用PEFAC算法将语音帧信号转化为相对应的基音特征波形;
(4)利用优化因子作为未知参数与基音特征波形一起构造GA适应度函数,并进行全局搜索,直至得到最佳优化因子。
2.测试过程:
(1)对特测试的语音信号分帧;
(2)将语音帧信号转化为其相对应的基音特征波形;
(3)利用已训练好的最佳优化因子对基音特征波形进行优化,从而生成优化后的基音特征波形,并计算出优化后的基音特征波形的最大峰值所对应的频率作为基音频率的估计值。
本发明上述方法各步骤的具体实施例详细说明如下:
上述训练过程步骤(1)中的语音库实施例为TIMIT国际标准数据库, 30名男性和30名女性的语音,每人语音时长20分钟,总时长为20 小时。按时间分帧的采样率为16KHZ,每帧数据的为160个采样点;上述训练过程步骤(2)提取语音库基音频率的标准方法为praat算法工具;
上述训练过程步骤(3)叠加的噪声信号类型为高斯白噪声,且语音分帧方法与步骤(1)一致,将帧格式语音信号转化为基音特征波形的算法为PEFAC算法,其算法流程如下:
(a)将语音帧信号通过短时傅里叶变换映射到频域,并作标准化处理成为Xt′(q),其中q为对数化频率,即q=log(f);
(b)对Xt′(q)卷积运算生成基音特征波形其中滤波器定义为:
其中β的选取为满足∫h(q)dq=0,而γ设置为1.8;
上述训练过程步骤(4)中的优化因子的实施例为10维向量,且每一维的取值范围为0.5~1.5。基音特征波形为维度为250维的频域向量信号,频域跨度为60~400Hz的基音频域最大范围;
优化因子α与基音特征波形的维度不一致,因此在作优化运算即点乘运算时,α须扩展为250向量,其扩展方法将250 维分为10段且每25维完全相同即可;
其中GA适应度函数的实施例为 GA的训练过程步骤的实施例为:
1)令优化因子,即GA算法中的染色体α=[α1,α2,…,α10],首先根据求解精度的要求,确定使用二进制的长度。设优化因子每一维即值域的取值范围为[0.5,1.5],要求精确到小数点后3位,则由10n<2m-1,求得m 的最小长度,进而可求出位于区间的任一数,最大迭代次数为30,优化因子任一维度其中j=1,2,…,10
2)利用二进制随机数发生器产生种群popu=rand2(popsize,10,m),即 popsize×10×m的随机二进制数阵列,种群中染色体个数popsize为100,即每个染色体用10×m的二进制矩阵表达;
3)对种群中每一染色体α(i),计算其对应的适应度函数值eval(α(i)), i=1,2,…,popsize为染色体(即优化因子)编号;
4)计算种群适应度之和F:
5)计算每个α(i)的选择概率Pi:
其中i=1,2,…,popsize
6)计算每个α(i)的累加概率qi:
其中i=1,2,…,popsize
7)产生一个位于[0,1]区间的随机数序列,如果其中任意一数r<qi,则选择第一个染色体,若qi-1<r<qi,则选择第i个染色体,i =1,2, …,popsize , 这样可以获得新一代种群;
8)对新一代种群进行交叉运算:设交叉概率Pc为0.8,首先产生一个位于区间[0,1]内的随机数序列,如果其中任意一数r<Pc,则对应染色体被选中(如果选中奇数个,则可以去掉一个),然后在[1,m-1]区间中产生随机数,个数为选中的染色体数的一半,然后根据随机数在对应位置进行交换操作,从而构成新的染色体;
9)变异操作:设变异概率Pm为0.1,产生m×N个位于区间[0,1]上的随机数,如果某一随机数r<Pm则选中对应位变异,构成新的种群;
10)第一代计算完毕,返回继续计算步骤(3),直到达到最大迭代次数为止。此时的最佳染色体值即为αoptimal;
上述测试过程步骤(1)中的分帧方法与训练过程步骤(1)中保持一致;
上述测试过程步骤(2)中的基音特征波形转化方法与训练过程步骤(3) 保持一致。
上述测试过程步骤(3)中的基音特征波形优化运算与上述训练过程步骤(4)保持一致,且优化因子采用训练产生的最佳优化因子αoptimal。
Claims (3)
1.一种极低信噪比环境下的基于遗传算法(GA)的基音频率检测方法,其特征在于该方法包括以下步骤:
a.训练过程:
(1)对语音数据库按时间顺序作语音分帧{frm(1),frm(2),…,frm(N)},并利用标准算法提取语音帧的基音频率F0作为基音频率真实值,并构成序列{F0(1),F0(2),…,F0(N)},其中N为语音帧的总数;
(2)在纯净语音帧基础上叠加噪声制作新的语音分帧序列{frmnoise(1),frmnoise(2),…,frmnoise(N)},并利用PEFAC算法将语音帧信号转化为相对应的特征波形序列
(3)利用优化因子与特征波形一起构造GA适应度函数,并进行全局搜索,直至得到最佳优化因子,其中优化因子为未知的M维向量α=[α1,α2,…,αM],优化因子优化之后的特征波形构成新的特征波形序列提取特征波形的最大峰值peak和其所对应的频率值fpeak作为基音频率估计值,并形成序列{(peakmax(1),fpeak(1)),(peakmax(2),fpeak(2)),…,(peakmax(N),fpeak(N))},GA适应度函数即基音频率估计值与真实值误差不超过5%的概率,然后设置GA算法的相关参数进行搜索,最终找出最佳的优化因子αoptimal;
b.测试过程:
(1)对测试语音信号进行分帧处理,并提取其基音特征波形
(2)利用最佳优化因子αoptimal优化,即构造优化后的基音特征波形
(3)识别并找出的最大峰值所对应的频率值作为基音频率的估计值。
2.根据权利要求1所述的基音频率检测方法,其特征在于该方法中的GA算法包括以下步骤:
(1)令优化因子,即GA算法中的染色体α=[α1,α2,…,α10],首先根据求解精度的要求,确定使用二进制的长度,设优化因子每一维即值域的取值范围为[0.5,1.5],要求精确到小数点后3位,则由10n<2m-1,求得m的最小长度,进而可求出位于区间的任一数,最大迭代次数为30,
优化因子任一维度其中j=1,2,…,10;
(2)利用二进制随机数发生器产生种群popu=rand2(popsize,10,m),即popsize×10×m的随机二进制数阵列,种群中染色体个数popsize为100,即每个染色体用10×m的二进制矩阵表达;
(3)对种群中每一染色体α(i),计算其对应的适应度函数值eval(α(i)),i=1,2,…,popsize为染色体编号;
(4)计算种群适应度之和F:
(5)计算每个α(i)的选择概率Pi:
其中i=1,2,…,popsize;
(6)计算每个α(i)的累加概率qi:
其中i=1,2,…,popsize;
(7)产生一个位于[0,1]区间的随机数序列,如果其中任意一数r<qi,则选择第一个染色体,若qi-1<r<qi,则选择第i个染色体,i=1,2,…,popsize,这样可以获得新一代种群;
(8)对新一代种群进行交叉运算:设交叉概率Pc为0.8,首先产生一个位于区间[0,1]内的随机数序列,如果其中任意一数r<Pc,则对应染色体被选中,如果选中奇数个,则可以去掉一个,然后在[1,m-1]区间中产生随机数,个数为选中的染色体数的一半,然后根据随机数在对应位置进行交换操作,从而构成新的染色体;
(9)变异操作:设变异概率Pm为0.1,产生m×N个位于区间[0,1]上的随机数,如果某一随机数r<Pm则选中对应位变异,构成新的种群;
(10)第一代计算完毕,返回继续计算步骤(3),直到达到最大迭代次数为止,此时的最佳染色体值即为αoptimal。
3.根据权利要求1所述的基音频率检测方法,其特征在于该方法中的参数设置为:采样率为16KHZ,每帧数据的为160个采样点,优化因子的实施例为10维向量,且每一维的取值范围为0.5~1.5,基音特征波形为维度为250维的频域向量信号,频域跨度为60~400Hz的基音频域最大范围。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610077797.4A CN107045875B (zh) | 2016-02-03 | 2016-02-03 | 基于遗传算法的基音频率检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610077797.4A CN107045875B (zh) | 2016-02-03 | 2016-02-03 | 基于遗传算法的基音频率检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107045875A CN107045875A (zh) | 2017-08-15 |
CN107045875B true CN107045875B (zh) | 2019-12-06 |
Family
ID=59542648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610077797.4A Active CN107045875B (zh) | 2016-02-03 | 2016-02-03 | 基于遗传算法的基音频率检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107045875B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1342968A (zh) * | 2000-09-13 | 2002-04-03 | 中国科学院自动化研究所 | 用于语音识别的高精度高分辨率基频提取方法 |
CN101556795A (zh) * | 2008-04-09 | 2009-10-14 | 展讯通信(上海)有限公司 | 计算语音基音频率的方法及设备 |
CN103903624A (zh) * | 2014-03-31 | 2014-07-02 | 重庆工商职业学院 | 一种高斯色噪声环境下的基音周期检测方法 |
CN103915099A (zh) * | 2012-12-29 | 2014-07-09 | 北京百度网讯科技有限公司 | 语音基音周期检测方法和装置 |
CN104318307A (zh) * | 2014-10-21 | 2015-01-28 | 重庆工商职业学院 | 一种基于自适应模糊遗传算法的轮胎花纹降噪方法 |
CN104681036A (zh) * | 2014-11-20 | 2015-06-03 | 苏州驰声信息科技有限公司 | 一种语言音频的检测系统及方法 |
CN104900235A (zh) * | 2015-05-25 | 2015-09-09 | 重庆大学 | 基于基音周期混合特征参数的声纹识别方法 |
-
2016
- 2016-02-03 CN CN201610077797.4A patent/CN107045875B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1342968A (zh) * | 2000-09-13 | 2002-04-03 | 中国科学院自动化研究所 | 用于语音识别的高精度高分辨率基频提取方法 |
CN101556795A (zh) * | 2008-04-09 | 2009-10-14 | 展讯通信(上海)有限公司 | 计算语音基音频率的方法及设备 |
CN103915099A (zh) * | 2012-12-29 | 2014-07-09 | 北京百度网讯科技有限公司 | 语音基音周期检测方法和装置 |
CN103903624A (zh) * | 2014-03-31 | 2014-07-02 | 重庆工商职业学院 | 一种高斯色噪声环境下的基音周期检测方法 |
CN104318307A (zh) * | 2014-10-21 | 2015-01-28 | 重庆工商职业学院 | 一种基于自适应模糊遗传算法的轮胎花纹降噪方法 |
CN104681036A (zh) * | 2014-11-20 | 2015-06-03 | 苏州驰声信息科技有限公司 | 一种语言音频的检测系统及方法 |
CN104900235A (zh) * | 2015-05-25 | 2015-09-09 | 重庆大学 | 基于基音周期混合特征参数的声纹识别方法 |
Non-Patent Citations (2)
Title |
---|
"A pitch estimation filter robust to high levels of noise(PEFAC)";Gonzalez S. etc.;《European Signal Processing》;20110930;全文 * |
"Pitch estimation in noisy speech using accumulated peak spectrum and sparse estimation technique";Feng Huang;《IEEE transactions on audio, speech, and language processing》;20130131;第21卷(第1期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107045875A (zh) | 2017-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3114975B2 (ja) | 音素推定を用いた音声認識回路 | |
CN101751921B (zh) | 一种在训练数据量极少条件下的实时语音转换方法 | |
CN108831445A (zh) | 四川方言识别方法、声学模型训练方法、装置及设备 | |
US20170092262A1 (en) | Bettering scores of spoken phrase spotting | |
CN110349597B (zh) | 一种语音检测方法及装置 | |
CN104900235A (zh) | 基于基音周期混合特征参数的声纹识别方法 | |
CN111341319B (zh) | 一种基于局部纹理特征的音频场景识别方法及系统 | |
CN110472097A (zh) | 乐曲自动分类方法、装置、计算机设备和存储介质 | |
Su et al. | Convolutional neural network for robust pitch determination | |
CN114783418B (zh) | 基于稀疏自注意力机制的端到端语音识别方法及系统 | |
Pace et al. | Hidden Markov Modeling for humpback whale (Megaptera Novaeanglie) call classification | |
Zhao et al. | Speech recognition system based on integrating feature and HMM | |
Wu et al. | Automatic chord estimation based on a frame-wise convolutional recurrent neural network with non-aligned annotations | |
John et al. | Classification of Indian classical carnatic music based on raga using deep learning | |
CN107045875B (zh) | 基于遗传算法的基音频率检测方法 | |
EP4177882A1 (en) | Methods and systems for synthesising speech from text | |
CN107025911B (zh) | 基于粒子群优化的基音频率检测方法 | |
CN115910091A (zh) | 引入基频线索的生成式语音分离方法和装置 | |
US20020184025A1 (en) | Speech recognition using polynomial expansion and hidden markov models | |
CN116884438B (zh) | 基于声学特征的练琴音准检测方法及系统 | |
Pishdadian et al. | On the transcription of monophonic melodies in an instance-based pitch classification scenario | |
CN109308894A (zh) | 一种基于Bloomfield’s模型的语音建模方法 | |
CN117409761B (zh) | 基于频率调制的人声合成方法、装置、设备及存储介质 | |
CN113113052B (zh) | 一种离散点的语音基音识别装置及计算机存储介质 | |
Majeed et al. | Hierarchical k-means algorithm applied on isolated malay digit speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |