CN107025911B - 基于粒子群优化的基音频率检测方法 - Google Patents

基于粒子群优化的基音频率检测方法 Download PDF

Info

Publication number
CN107025911B
CN107025911B CN201610064871.9A CN201610064871A CN107025911B CN 107025911 B CN107025911 B CN 107025911B CN 201610064871 A CN201610064871 A CN 201610064871A CN 107025911 B CN107025911 B CN 107025911B
Authority
CN
China
Prior art keywords
peak
fundamental frequency
signature waveform
optimization
frm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610064871.9A
Other languages
English (en)
Other versions
CN107025911A (zh
Inventor
张小恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Technology and Business Institute
Original Assignee
Chongqing Technology and Business Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Technology and Business Institute filed Critical Chongqing Technology and Business Institute
Priority to CN201610064871.9A priority Critical patent/CN107025911B/zh
Publication of CN107025911A publication Critical patent/CN107025911A/zh
Application granted granted Critical
Publication of CN107025911B publication Critical patent/CN107025911B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明提供一种极低信噪比环境下的基音频率检测方法。其特征在于利用PEFAC算法提取语音帧信号的特征波形,然后利用最佳优化因子对特征波形进行优化从而构造新的特征波形,最后找出特征波形最大峰值所对应的频率值作为基音频率的估计值,其中最佳优化因子依靠PSO算法搜索得到。

Description

基于粒子群优化的基音频率检测方法
技术领域
本发明涉及基音频率检测方法,特别是一种极低信噪比环境下的基音频率检测方法。
背景技术
基音频率检测作为语音的基本参数,在语音分析合成以及语音分离等语音处理领域有着广泛的用途。准确可靠地估计并提取基音频率对语音信号处理至关重要。高信噪比的基音频率检测已经十分成熟,但这些方法在低信噪比环境下难以较好效果,特别是极低信噪比环境下的检测效果很差。鉴于此,本发明提供一种极低信噪比环境下的基音频率检测方法。
发明内容
针对现有技术在极低信噪比环境下的进行基音频率检测有着明显不足,本发明提供了一种极低信噪比环境下的基音频率检测方法。该方法包括以下步骤:
1.训练过程:
(1)对语音数据库按时间顺序作语音分帧{frm(1),frm(2),…,frm(N)},并利用标准算法提取语音帧的基音频率F0作为基音频率真实值,并构成序列{F0(1),F0(2),…,F0(N)},其中N为语音帧的总数。
(2)在纯净语音帧基础上叠加噪声制作新的语音分帧序列{frmnoise(1),frmnoise(2),…,frmnoise(N)},并利用PEFAC算法将语音帧信号转化为相对应的特征波形序列
(3)利用优化因子与特征波形一起构造PSO适应度函数,并进行全局搜索,直至得到最佳优化因子。其中优化因子为未知的M维向量α=[α12,…,αM],优化因子优化之后的特征波形构成新的特征波形序列提取特征波形的最大峰值peak和其所对应的频率值fpeak作为基音频率估计值,并形成序列{(peakmax(1),fpeak(1)),(peakmax(2),fpeak(2)),…,(peakmax(N),fpeak(N))}PSO适应度函数即基音频率估计值与真实值误差不超过5%的概率。然后设置PSO算法的相关参数进行搜索,最终找出最佳的优化因子αoptimal
2.测试过程:
(1)对测试语音信号进行分帧处理,并提取其基音特征波形
(2)利用最佳优化因子αoptimal优化,即构造优化后的基音特征波形
(3)识别并找出的最大峰值所对应的频率值作为基音频率的估计值。
本发明的上述技术方案与现有技术方案相比较,具有以下优点:
A、采用PEFAC算法提取特征波形,继承了其低信噪比环境下抑制噪声的优点;
B、采用PSO进化算法搜索最佳优化因子,使得优化之后的所得到的基音频率估计值在低信噪比环境下更接近于真实基音频率值;
附图说明
图1是根据本发明的一个实施例构成的系统方框图;
具体实施方式
本发明提出的极低信噪比环境下的基音频率检测方法结合附图及实施例进一步说明如下:
本发明的方法流程如图1所示,包括以下步骤:
1.训练过程:
(1)对语音数据库按时间顺序分帧。
(2)并利用标准算法提取语音帧的基音频率作为基音频率真实值。
(3)对叠加有噪声的语音库信号按时间顺序分帧并利用PEFAC算法将语音帧信号转化为相对应的基音特征波形。
(4)利用优化因子作为未知参数与基音特征波形一起构造PSO适应度函数,并进行全局搜索,直至得到最佳优化因子。
2.测试过程:
(1)对特测试的语音信号分帧
(2)将语音帧信号转化为其相对应的基音特征波形;
(3)利用已训练好的最佳优化因子对基音特征波形进行优化,从而生成优化后的基音特征波形,并计算出优化后的基音特征波形的最大峰值所对应的频率作为基音频率的估计值。
本发明的上述技术方案与现有技术方案相比较,具有以下优点:
C、采用PEFAC算法提取特征波形,继承了其低信噪比环境下抑制噪声的优点;
D、采用PSO进化算法搜索最佳优化因子,使得优化之后的所得到的基音频率估计值在低信噪比环境下更接近于真实基音频率值;
本发明上述方法各步骤的具体实施例详细说明如下:
上述训练过程步骤(1)中的语音库实施例为TIMIT国际标准数据库,30名男性和30名女性的语音,每人语音时长20分钟,总时长为20小时。按时间分帧的采样率为16KHZ,每帧数据的为160个采样点。上述训练过程步骤(2)提取语音库基音频率的标准方法为praat算法工具。
上述训练过程步骤(3)叠加的噪声信号类型为高斯白噪声,且语音分帧方法与步骤(1)一致,将帧格式语音信号转化为基音特征波形的算法为PEFAC算法,其算法流程如下:
(a)将语音帧信号通过短时傅里叶变换映射到频域,并作标准化处理成为Xt′(q),其中q为对数化频率,即q=log(f)。
(b)对Xt′(q)卷积运算生成基音特征波形其中滤波器定义为:
其中β的选取为满足∫h(q)dq=0,而γ设置为1.8。
上述训练过程步骤(4)中的优化因子的实施例为10维向量,且每一维的取值范围为0.5~1.5。基音特征波形为维度为250维的频域向量信号,频域跨度为60~400Hz的基音频域最大范围。
优化因子α与基音特征波形的维度不一致,因此在作优化运算即点乘运算时,α须扩展为250向量,其扩展方法将250维分为10段且每25维完全相同即可。
其中PSO适应度函数的实施例为
PSO的训练过程步骤的实施例为:
步骤1:根据优化因子α的维度与取值范围确定粒子群的参数,α为10维向量,每一维的取值范围为[0.5,1.5],种群大小为20,粒子初始速度为0.01,最大速度为1,最大迭代次数为60;
步骤2:初始化粒子群,其中粒子i的信息可用两个N维向量表示,第i个粒子的位置(即优化因子)可表示为αi=(αi1i2,…αi10),其中粒子位置第d维的初始值αid=(1.5-1)·rand1+1;粒子速度可表示为vi=(vi1,vi2,…viN),其中粒子速度第d维的初始值vid=rand2;其中rand1与rand2均为取值范围在0~1之间的随机数;
步骤3:计算每个粒子的适应度eval(αi);
步骤4:根据适应度更新pbest、gbest,及粒子位置速度。
其中是粒子i在第k次迭代中第d维的速度;是粒子i在第k次迭代中第d维的当前位置;是粒子i在第d维的个体极值点的位置;是整个种群在第d维的全局极值点的位置;
步骤5:是否达到最大迭代次数,否则返回继续计算(3),直到达到满意的结果为止。
上述测试过程步骤(1)中的分帧方法与训练过程步骤(1)中保持一致。
上述测试过程步骤(2)中的基音特征波形转化方法与训练过程步骤(3)保持一致。
上述测试过程步骤(3)中的基音特征波形优化运算与上述训练过程步骤(4)保持一致,且优化因子采用训练产生的最佳优化因子αoptimal

Claims (1)

1.一种极低信噪比环境下的基音频率检测方法,其特征在于该方法包括以下步骤:
a.训练过程:
(1)对语音数据库按时间顺序作语音分帧{frm(1),frm(2),…,frm(N)},并利用标准算法提取语音帧的基音频率F0作为基音频率真实值,并构成序列{F0(1),F0(2),…,F0(N)},其中N为语音帧的总数;
(2)在纯净语音帧基础上叠加噪声制作新的语音分帧序列{frmnoise(1),frmnoise(2),…,frmnoise(N)},并利用PEFAC算法将语音帧信号转化为相对应的特征波形序列
(3)利用优化因子与特征波形一起构造PSO适应度函数,并进行全局搜索,直至得到最佳优化因子;其中优化因子为未知的M维向量α=[α12,…,αM],优化因子优化之后的特征波形构成新的特征波形序列提取特征波形的最大峰值peak和其所对应的频率值fpeak作为基音频率估计值,并形成序列{(peakmax(1),fpeak(1)),(peakmax(2),fpeak(2)),…,(peakmax(N),fpeak(N))}PSO适应度函数即基音频率估计值与真实值误差不超过5%的概率;然后设置PSO算法的相关参数进行搜索,最终找出最佳的优化因子αoptimal
b.测试过程:
(1)对测试语音信号进行分帧处理,并提取其基音特征波形
(2)利用最佳优化因子αoptimal优化,即构造优化后的基音特征波形
(3)识别并找出的最大峰值所对应的频率值作为基音频率的估计值。
CN201610064871.9A 2016-01-29 2016-01-29 基于粒子群优化的基音频率检测方法 Expired - Fee Related CN107025911B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610064871.9A CN107025911B (zh) 2016-01-29 2016-01-29 基于粒子群优化的基音频率检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610064871.9A CN107025911B (zh) 2016-01-29 2016-01-29 基于粒子群优化的基音频率检测方法

Publications (2)

Publication Number Publication Date
CN107025911A CN107025911A (zh) 2017-08-08
CN107025911B true CN107025911B (zh) 2019-03-12

Family

ID=59524742

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610064871.9A Expired - Fee Related CN107025911B (zh) 2016-01-29 2016-01-29 基于粒子群优化的基音频率检测方法

Country Status (1)

Country Link
CN (1) CN107025911B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111354338B (zh) * 2020-02-26 2022-03-15 重庆大学 基于pso卷积核优化稀疏迁移学习的帕金森语音识别系统
CN113314137B (zh) * 2020-02-27 2022-07-26 东北大学秦皇岛分校 一种基于动态进化粒子群屏蔽emd的混合信号分离方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779526A (zh) * 2012-08-07 2012-11-14 无锡成电科大科技发展有限公司 语音信号中基音提取及修正方法
CN103794222A (zh) * 2012-10-31 2014-05-14 展讯通信(上海)有限公司 语音基音频率检测方法和装置
CN103903624A (zh) * 2014-03-31 2014-07-02 重庆工商职业学院 一种高斯色噪声环境下的基音周期检测方法
CN103915099A (zh) * 2012-12-29 2014-07-09 北京百度网讯科技有限公司 语音基音周期检测方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3288052B2 (ja) * 1991-01-16 2002-06-04 沖電気工業株式会社 基本周波数抽出方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779526A (zh) * 2012-08-07 2012-11-14 无锡成电科大科技发展有限公司 语音信号中基音提取及修正方法
CN103794222A (zh) * 2012-10-31 2014-05-14 展讯通信(上海)有限公司 语音基音频率检测方法和装置
CN103915099A (zh) * 2012-12-29 2014-07-09 北京百度网讯科技有限公司 语音基音周期检测方法和装置
CN103903624A (zh) * 2014-03-31 2014-07-02 重庆工商职业学院 一种高斯色噪声环境下的基音周期检测方法

Also Published As

Publication number Publication date
CN107025911A (zh) 2017-08-08

Similar Documents

Publication Publication Date Title
CN110852201B (zh) 一种基于多脉冲包络谱匹配的脉冲信号检测方法
CN104900235A (zh) 基于基音周期混合特征参数的声纹识别方法
CN103714806B (zh) 一种结合svm和增强型pcp特征的和弦识别方法
CN102968990B (zh) 说话人识别方法和系统
CN103730121B (zh) 一种伪装声音的识别方法及装置
CN104021789A (zh) 一种利用短时时频值的自适应端点检测方法
CN105023573A (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
CN110010149A (zh) 基于统计模型的双传感器语音增强方法
CN109767760A (zh) 基于振幅和相位信息的多目标学习的远场语音识别方法
CN112884134B (zh) 面向地震震相识别的基于时域的卷积神经网络模型及应用
CN109767781A (zh) 基于超高斯先验语音模型与深度学习的语音分离方法、系统及存储介质
CN107025911B (zh) 基于粒子群优化的基音频率检测方法
CN114783418B (zh) 基于稀疏自注意力机制的端到端语音识别方法及系统
CN109920447B (zh) 基于自适应滤波器振幅相位特征提取的录音欺诈检测方法
John et al. Classification of Indian classical carnatic music based on raga using deep learning
Ziabary et al. A countermeasure based on cqt spectrogram for deepfake speech detection
CN104665875A (zh) 超声多普勒包络和心率检测方法
CN116434759B (zh) 一种基于srs-cl网络的说话人识别方法
CN107039051B (zh) 基于蚁群优化的基音频率检测方法
CN115293214A (zh) 一种基于样本扩充网络的水声目标识别模型优化方法
CN110223706B (zh) 基于注意力驱动循环卷积网络的环境自适应语音增强算法
Sun et al. Exposing ai-synthesized human voices using neural vocoder artifacts
KR20170087211A (ko) 음성 인식을 위한 특징 보상 시스템 및 방법
CN107045875A (zh) 基于遗传算法的基音频率检测方法
Shi et al. A speech endpoint detection algorithm based on BP neural network and multiple features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190312

Termination date: 20200129