CN107045875B - 基于遗传算法的基音频率检测方法 - Google Patents

基于遗传算法的基音频率检测方法 Download PDF

Info

Publication number
CN107045875B
CN107045875B CN201610077797.4A CN201610077797A CN107045875B CN 107045875 B CN107045875 B CN 107045875B CN 201610077797 A CN201610077797 A CN 201610077797A CN 107045875 B CN107045875 B CN 107045875B
Authority
CN
China
Prior art keywords
value
chromosome
alpha
characteristic waveform
optimal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610077797.4A
Other languages
English (en)
Other versions
CN107045875A (zh
Inventor
张小恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Technology and Business Institute
Original Assignee
Chongqing Technology and Business Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Technology and Business Institute filed Critical Chongqing Technology and Business Institute
Priority to CN201610077797.4A priority Critical patent/CN107045875B/zh
Publication of CN107045875A publication Critical patent/CN107045875A/zh
Application granted granted Critical
Publication of CN107045875B publication Critical patent/CN107045875B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/39Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using genetic algorithms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种极低信噪比环境下的基音频率检测方法。其特征在于利用PEFAC算法提取语音帧信号的特征波形,然后利用最佳优化因子对特征波形进行优化从而构造新的特征波形,最后找出特征波形最大峰值所对应的频率值作为基音频率的估计值。其中最佳优化因子依靠GA算法搜索得到。

Description

基于遗传算法的基音频率检测方法
技术领域
本发明涉及基音频率检测方法,特别是一种极低信噪比环境下的基音频率检测方法。
背景技术
基音频率检测作为语音的基本参数,在语音分析合成以及语音分离等语音处理领域有着广泛的用途。准确可靠地估计并提取基音频率对语音信号处理至关重要。高信噪比的基音频率检测已经十分成熟,但这些方法在低信噪比环境下难以较好效果,特别是极低信噪比环境下的检测效果很差。鉴于此,本发明提供一种极低信噪比环境下的基音频率检测方法。
发明内容
针对现有技术在极低信噪比环境下的进行基音频率检测有着明显不足,本发明提供了一种极低信噪比环境下的基音频率检测方法。
该方法包括以下步骤:
1.训练过程:
(1)对语音数据库按时间顺序作语音分帧{frm(1),frm(2),…,frm(N)}, 并利用标准算法提取语音帧的基音频率F0作为基音频率真实值,并构成序列{F0(1),F0(2),…,F0(N)},其中N为语音帧的总数;
(2)在纯净语音帧基础上叠加噪声制作新的语音分帧序列 {frmnoise(1),frmnoise(2),…,frmnoise(N)},并利用PEFAC算法将语音帧信号转化为相对应的特征波形序列
(3)利用优化因子与特征波形一起构造GA适应度函数,并进行全局搜索,直至得到最佳优化因子。其中优化因子为未知的M维向量α=[α12,…,αM],优化因子优化之后的特征波形构成新的特征波形序列提取特征波形的最大峰值 peak和其所对应的频率值fpeak作为基音频率估计值,并形成序列 {(peakmax(1),fpeak(1)),(peakmax(2),fpeak(2)),…,(peakmax(N),fpeak(N))} GA适应度函数即基音频率估计值与真实值误差不超过5%的概率。然后设置GA算法的相关参数进行搜索,最终找出最佳的优化因子αoptimal
2.测试过程:
(1)对测试语音信号进行分帧处理,并提取其基音特征波形
(2)利用最佳优化因子αoptimal优化,即构造优化后的基音特征波形
(3)识别并找出的最大峰值所对应的频率值作为基音频率的估计值。
本发明的上述技术方案与现有技术方案相比较,具有以下优点:
A、采用PEFAC算法提取特征波形,继承了其低信噪比环境下抑制噪声的优点;
B、采用GA进化算法搜索最佳优化因子,使得优化之后的所得到的基音频率估计值在低信噪比环境下更接近于真实基音频率值。
附图说明
图1是根据本发明的一个实施例构成的方法流程图;
具体实施方式
本发明提出的极低信噪比环境下的基音频率检测方法结合附图及实施例进一步说明如下:
本发明的方法流程如图1所示,包括以下步骤:
1.训练过程:
(1)对语音数据库按时间顺序分帧;
(2)并利用标准算法提取语音帧的基音频率作为基音频率真实值;
(3)对叠加有噪声的语音库信号按时间顺序分帧并利用PEFAC算法将语音帧信号转化为相对应的基音特征波形;
(4)利用优化因子作为未知参数与基音特征波形一起构造GA适应度函数,并进行全局搜索,直至得到最佳优化因子。
2.测试过程:
(1)对特测试的语音信号分帧;
(2)将语音帧信号转化为其相对应的基音特征波形;
(3)利用已训练好的最佳优化因子对基音特征波形进行优化,从而生成优化后的基音特征波形,并计算出优化后的基音特征波形的最大峰值所对应的频率作为基音频率的估计值。
本发明上述方法各步骤的具体实施例详细说明如下:
上述训练过程步骤(1)中的语音库实施例为TIMIT国际标准数据库, 30名男性和30名女性的语音,每人语音时长20分钟,总时长为20 小时。按时间分帧的采样率为16KHZ,每帧数据的为160个采样点;上述训练过程步骤(2)提取语音库基音频率的标准方法为praat算法工具;
上述训练过程步骤(3)叠加的噪声信号类型为高斯白噪声,且语音分帧方法与步骤(1)一致,将帧格式语音信号转化为基音特征波形的算法为PEFAC算法,其算法流程如下:
(a)将语音帧信号通过短时傅里叶变换映射到频域,并作标准化处理成为Xt′(q),其中q为对数化频率,即q=log(f);
(b)对Xt′(q)卷积运算生成基音特征波形其中滤波器定义为:
其中β的选取为满足∫h(q)dq=0,而γ设置为1.8;
上述训练过程步骤(4)中的优化因子的实施例为10维向量,且每一维的取值范围为0.5~1.5。基音特征波形为维度为250维的频域向量信号,频域跨度为60~400Hz的基音频域最大范围;
优化因子α与基音特征波形的维度不一致,因此在作优化运算即点乘运算时,α须扩展为250向量,其扩展方法将250 维分为10段且每25维完全相同即可;
其中GA适应度函数的实施例为 GA的训练过程步骤的实施例为:
1)令优化因子,即GA算法中的染色体α=[α12,…,α10],首先根据求解精度的要求,确定使用二进制的长度。设优化因子每一维即值域的取值范围为[0.5,1.5],要求精确到小数点后3位,则由10n<2m-1,求得m 的最小长度,进而可求出位于区间的任一数,最大迭代次数为30,优化因子任一维度其中j=1,2,…,10
2)利用二进制随机数发生器产生种群popu=rand2(popsize,10,m),即 popsize×10×m的随机二进制数阵列,种群中染色体个数popsize为100,即每个染色体用10×m的二进制矩阵表达;
3)对种群中每一染色体α(i),计算其对应的适应度函数值eval(α(i)), i=1,2,…,popsize为染色体(即优化因子)编号;
4)计算种群适应度之和F:
5)计算每个α(i)的选择概率Pi
其中i=1,2,…,popsize
6)计算每个α(i)的累加概率qi
其中i=1,2,…,popsize
7)产生一个位于[0,1]区间的随机数序列,如果其中任意一数r<qi,则选择第一个染色体,若qi-1<r<qi,则选择第i个染色体,i =1,2, …,popsize , 这样可以获得新一代种群;
8)对新一代种群进行交叉运算:设交叉概率Pc为0.8,首先产生一个位于区间[0,1]内的随机数序列,如果其中任意一数r<Pc,则对应染色体被选中(如果选中奇数个,则可以去掉一个),然后在[1,m-1]区间中产生随机数,个数为选中的染色体数的一半,然后根据随机数在对应位置进行交换操作,从而构成新的染色体;
9)变异操作:设变异概率Pm为0.1,产生m×N个位于区间[0,1]上的随机数,如果某一随机数r<Pm则选中对应位变异,构成新的种群;
10)第一代计算完毕,返回继续计算步骤(3),直到达到最大迭代次数为止。此时的最佳染色体值即为αoptimal
上述测试过程步骤(1)中的分帧方法与训练过程步骤(1)中保持一致;
上述测试过程步骤(2)中的基音特征波形转化方法与训练过程步骤(3) 保持一致。
上述测试过程步骤(3)中的基音特征波形优化运算与上述训练过程步骤(4)保持一致,且优化因子采用训练产生的最佳优化因子αoptimal

Claims (3)

1.一种极低信噪比环境下的基于遗传算法(GA)的基音频率检测方法,其特征在于该方法包括以下步骤:
a.训练过程:
(1)对语音数据库按时间顺序作语音分帧{frm(1),frm(2),…,frm(N)},并利用标准算法提取语音帧的基音频率F0作为基音频率真实值,并构成序列{F0(1),F0(2),…,F0(N)},其中N为语音帧的总数;
(2)在纯净语音帧基础上叠加噪声制作新的语音分帧序列{frmnoise(1),frmnoise(2),…,frmnoise(N)},并利用PEFAC算法将语音帧信号转化为相对应的特征波形序列
(3)利用优化因子与特征波形一起构造GA适应度函数,并进行全局搜索,直至得到最佳优化因子,其中优化因子为未知的M维向量α=[α12,…,αM],优化因子优化之后的特征波形构成新的特征波形序列提取特征波形的最大峰值peak和其所对应的频率值fpeak作为基音频率估计值,并形成序列{(peakmax(1),fpeak(1)),(peakmax(2),fpeak(2)),…,(peakmax(N),fpeak(N))},GA适应度函数即基音频率估计值与真实值误差不超过5%的概率,然后设置GA算法的相关参数进行搜索,最终找出最佳的优化因子αoptimal
b.测试过程:
(1)对测试语音信号进行分帧处理,并提取其基音特征波形
(2)利用最佳优化因子αoptimal优化,即构造优化后的基音特征波形
(3)识别并找出的最大峰值所对应的频率值作为基音频率的估计值。
2.根据权利要求1所述的基音频率检测方法,其特征在于该方法中的GA算法包括以下步骤:
(1)令优化因子,即GA算法中的染色体α=[α12,…,α10],首先根据求解精度的要求,确定使用二进制的长度,设优化因子每一维即值域的取值范围为[0.5,1.5],要求精确到小数点后3位,则由10n<2m-1,求得m的最小长度,进而可求出位于区间的任一数,最大迭代次数为30,
优化因子任一维度其中j=1,2,…,10;
(2)利用二进制随机数发生器产生种群popu=rand2(popsize,10,m),即popsize×10×m的随机二进制数阵列,种群中染色体个数popsize为100,即每个染色体用10×m的二进制矩阵表达;
(3)对种群中每一染色体α(i),计算其对应的适应度函数值eval(α(i)),i=1,2,…,popsize为染色体编号;
(4)计算种群适应度之和F:
(5)计算每个α(i)的选择概率Pi
其中i=1,2,…,popsize;
(6)计算每个α(i)的累加概率qi
其中i=1,2,…,popsize;
(7)产生一个位于[0,1]区间的随机数序列,如果其中任意一数r<qi,则选择第一个染色体,若qi-1<r<qi,则选择第i个染色体,i=1,2,…,popsize,这样可以获得新一代种群;
(8)对新一代种群进行交叉运算:设交叉概率Pc为0.8,首先产生一个位于区间[0,1]内的随机数序列,如果其中任意一数r<Pc,则对应染色体被选中,如果选中奇数个,则可以去掉一个,然后在[1,m-1]区间中产生随机数,个数为选中的染色体数的一半,然后根据随机数在对应位置进行交换操作,从而构成新的染色体;
(9)变异操作:设变异概率Pm为0.1,产生m×N个位于区间[0,1]上的随机数,如果某一随机数r<Pm则选中对应位变异,构成新的种群;
(10)第一代计算完毕,返回继续计算步骤(3),直到达到最大迭代次数为止,此时的最佳染色体值即为αoptimal
3.根据权利要求1所述的基音频率检测方法,其特征在于该方法中的参数设置为:采样率为16KHZ,每帧数据的为160个采样点,优化因子的实施例为10维向量,且每一维的取值范围为0.5~1.5,基音特征波形为维度为250维的频域向量信号,频域跨度为60~400Hz的基音频域最大范围。
CN201610077797.4A 2016-02-03 2016-02-03 基于遗传算法的基音频率检测方法 Active CN107045875B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610077797.4A CN107045875B (zh) 2016-02-03 2016-02-03 基于遗传算法的基音频率检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610077797.4A CN107045875B (zh) 2016-02-03 2016-02-03 基于遗传算法的基音频率检测方法

Publications (2)

Publication Number Publication Date
CN107045875A CN107045875A (zh) 2017-08-15
CN107045875B true CN107045875B (zh) 2019-12-06

Family

ID=59542648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610077797.4A Active CN107045875B (zh) 2016-02-03 2016-02-03 基于遗传算法的基音频率检测方法

Country Status (1)

Country Link
CN (1) CN107045875B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1342968A (zh) * 2000-09-13 2002-04-03 中国科学院自动化研究所 用于语音识别的高精度高分辨率基频提取方法
CN101556795A (zh) * 2008-04-09 2009-10-14 展讯通信(上海)有限公司 计算语音基音频率的方法及设备
CN103903624A (zh) * 2014-03-31 2014-07-02 重庆工商职业学院 一种高斯色噪声环境下的基音周期检测方法
CN103915099A (zh) * 2012-12-29 2014-07-09 北京百度网讯科技有限公司 语音基音周期检测方法和装置
CN104318307A (zh) * 2014-10-21 2015-01-28 重庆工商职业学院 一种基于自适应模糊遗传算法的轮胎花纹降噪方法
CN104681036A (zh) * 2014-11-20 2015-06-03 苏州驰声信息科技有限公司 一种语言音频的检测系统及方法
CN104900235A (zh) * 2015-05-25 2015-09-09 重庆大学 基于基音周期混合特征参数的声纹识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1342968A (zh) * 2000-09-13 2002-04-03 中国科学院自动化研究所 用于语音识别的高精度高分辨率基频提取方法
CN101556795A (zh) * 2008-04-09 2009-10-14 展讯通信(上海)有限公司 计算语音基音频率的方法及设备
CN103915099A (zh) * 2012-12-29 2014-07-09 北京百度网讯科技有限公司 语音基音周期检测方法和装置
CN103903624A (zh) * 2014-03-31 2014-07-02 重庆工商职业学院 一种高斯色噪声环境下的基音周期检测方法
CN104318307A (zh) * 2014-10-21 2015-01-28 重庆工商职业学院 一种基于自适应模糊遗传算法的轮胎花纹降噪方法
CN104681036A (zh) * 2014-11-20 2015-06-03 苏州驰声信息科技有限公司 一种语言音频的检测系统及方法
CN104900235A (zh) * 2015-05-25 2015-09-09 重庆大学 基于基音周期混合特征参数的声纹识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"A pitch estimation filter robust to high levels of noise(PEFAC)";Gonzalez S. etc.;《European Signal Processing》;20110930;全文 *
"Pitch estimation in noisy speech using accumulated peak spectrum and sparse estimation technique";Feng Huang;《IEEE transactions on audio, speech, and language processing》;20130131;第21卷(第1期);全文 *

Also Published As

Publication number Publication date
CN107045875A (zh) 2017-08-15

Similar Documents

Publication Publication Date Title
JP3114975B2 (ja) 音素推定を用いた音声認識回路
CN101751921B (zh) 一种在训练数据量极少条件下的实时语音转换方法
CN108831445A (zh) 四川方言识别方法、声学模型训练方法、装置及设备
US20170092262A1 (en) Bettering scores of spoken phrase spotting
CN110349597B (zh) 一种语音检测方法及装置
CN104900235A (zh) 基于基音周期混合特征参数的声纹识别方法
CN111341319B (zh) 一种基于局部纹理特征的音频场景识别方法及系统
CN110472097A (zh) 乐曲自动分类方法、装置、计算机设备和存储介质
Su et al. Convolutional neural network for robust pitch determination
CN114783418B (zh) 基于稀疏自注意力机制的端到端语音识别方法及系统
Pace et al. Hidden Markov Modeling for humpback whale (Megaptera Novaeanglie) call classification
Zhao et al. Speech recognition system based on integrating feature and HMM
Wu et al. Automatic chord estimation based on a frame-wise convolutional recurrent neural network with non-aligned annotations
John et al. Classification of Indian classical carnatic music based on raga using deep learning
CN107045875B (zh) 基于遗传算法的基音频率检测方法
EP4177882A1 (en) Methods and systems for synthesising speech from text
CN107025911B (zh) 基于粒子群优化的基音频率检测方法
CN115910091A (zh) 引入基频线索的生成式语音分离方法和装置
US20020184025A1 (en) Speech recognition using polynomial expansion and hidden markov models
CN116884438B (zh) 基于声学特征的练琴音准检测方法及系统
Pishdadian et al. On the transcription of monophonic melodies in an instance-based pitch classification scenario
CN109308894A (zh) 一种基于Bloomfield’s模型的语音建模方法
CN117409761B (zh) 基于频率调制的人声合成方法、装置、设备及存储介质
CN113113052B (zh) 一种离散点的语音基音识别装置及计算机存储介质
Majeed et al. Hierarchical k-means algorithm applied on isolated malay digit speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant