CN102779526A - 语音信号中基音提取及修正方法 - Google Patents
语音信号中基音提取及修正方法 Download PDFInfo
- Publication number
- CN102779526A CN102779526A CN2012102782714A CN201210278271A CN102779526A CN 102779526 A CN102779526 A CN 102779526A CN 2012102782714 A CN2012102782714 A CN 2012102782714A CN 201210278271 A CN201210278271 A CN 201210278271A CN 102779526 A CN102779526 A CN 102779526A
- Authority
- CN
- China
- Prior art keywords
- function
- pitch period
- frame
- voiced segments
- mentioned
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种语音信号中基音提取及修正方法,包括以下步骤:计算浊音帧的循环平均幅度和函数;计算浊音帧的循环平均幅度差函数;将上述循环平均幅度差函数与上述循环平均幅度和函数进行加权运算,搜索该加权函数的峰值点,并记录该峰值点所对应的延迟点,该延迟点即为对应浊音帧的基音周期初始估计值;根据所有浊音帧的基音周期初始估计值,利用基于局部浊音段的后处理技术对所述基音周期初始估计值进行修正。利用循环平均幅度差函数加权循环平均幅度和函数,提取浊音帧的基音周期初始估计值,能有效突出基音周期处的峰值点,提高了抗噪性能,达到了在噪音环境下精确语音提取和检测的目的。
Description
技术领域
本发明涉及语音信号处理领域,具体地,涉及一种语音信号中基音提取及修正方法。
背景技术
人在发音过程中,肺部及与之相连的肌肉就相当于整个声道系统的激励源。当声带处于绷紧状态时,由肺部排出的气流会使声带产生振动,这时产生的声音叫做浊音(Voiced sound),反之,不带有声带振动的声音则叫做清音(Unvoiced sound)。声带振动的频率就是基音频率(Pitch frequency),基音频率的倒数就是基音周期(pitch period)。基音周期或基音频率的检测简称基音检测(Pitch detection)又称基音估计(Pitch estimation)或者基音提取(Pitch extraction),基音提取就是准确提取与声带相一致的振动频率,找出和声带振动频率一致或尽量相吻合的轨迹曲线。
基音周期是语音信号的一个极其重要的特征参数,它表征了语音激励源的一个重要特征。基音检测器是很多语音信号处理系统中的一个关键组成部分,不仅是因为它对语音信号的激励源提供深入而有价值的分析,而且语音的基音在语音信号处理的多个领域(如:语音分析合成、语音低速率编码、语音识别、说话人识别、语音分离、发音器官疾病诊断、助听设备研制、听觉残障者的语言指导等)都有着广泛而且重要的应用。
迄今,国内外很多学者提出了各种各样的基音检测算法,对如何准确地提取语音信号的基音周期做了大量的工作。虽然对干净语音信号的基音检测算法有很多种,但是对于带噪声的语音信号的基音检测方面的研究比较少,进展也比较缓慢,诸多算法在存在噪声时检测精度明显下降,甚至无法检测。
发明内容
本发明的目的在于,针对上述问题,提出一种语音信号中基音提取及修正方法,以实现在噪音环境下精确语音提取和检测的优点。
为实现上述目的,本发明采用的技术方案是:
一种语音信号中基音提取及修正方法,包括以下步骤:
计算浊音帧的循环平均幅度和函数(CAMSF);
计算浊音帧的循环平均幅度差函数(CAMDF);
将上述循环平均幅度差函数(CAMDF)与上述循环平均幅度和函数(CAMSF)进行加权运算,搜索该加权函数的峰值点,并记录该峰值点所对应的延迟点,该延迟点即为对应浊音帧的基音周期初始估计值;
根据所有浊音帧的基音周期初始估计值,利用基于局部浊音段的后处理技术对所述基音周期初始估计值进行修正。
根据本发明的优选实施例,所述的利用基于局部浊音段的后处理技术对基音周期初始估计值进行修正,包括以下步骤:
找出上述基音周期连续不为零的浊音段;
对上述平滑滤波后的浊音段进行清浊音判决,首先计算该浊音段所有帧的短时平均幅度的总和,记为,其平均值,设定门限值为:,其中是一经验因子,,然后对当前浊音段每帧的短时平均幅度与门限进行比较,小于上述门限值则将该帧修正为清音帧,反之依然判定该帧为浊音帧。
根据本发明的优选实施例,所述浊音帧的循环平均幅度和函数(CAMSF)的计算式如下:
根据本发明的优选实施例,所述浊音帧的循环平均幅度和函数的计算公式如下:
根据本发明的优选实施例,将上述循环平均幅度差函数(CAMDF)与上述循环平均幅度和函数(CAMSF)进行加权运算, 所述加权运算公式如下:
本发明的技术方案,利用循环平均幅度差函数(CAMDF)加权循环平均幅度和函数(CAMSF),提取浊音帧的基音周期初始估计值,能有效突出基音周期处的峰值点,提高了抗噪性能,达到了在噪音环境下精确语音提取和检测的目的。同时采用基于局部浊音段的后处理技术,克服了常用平滑滤波和线性平滑的缺点;本发明的技术方案还具有计算简单、鲁棒性和抗噪性好等优点。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明实施例所述的语音信号中基音提取及修正方法的流程图;
图2a为干净语音信号峰值图;
图2b为图2a所示的干净语音信号经过本发明的技术方案处理后的基音估计值图;
图3a为信噪比为5dB的带噪音的语音信号峰值图;
图3b为图3a所示的信噪比为5dB的带噪音的语音信号经过本发明的技术方案处理后的基音估计值图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
如图1所示,一种语音信号中基音提取及修正方法,包括以下步骤:
计算浊音帧的循环平均幅度和函数(CAMSF),浊音帧的循环平均幅度和函数(CAMSF)的计算式如下:
计算浊音帧的循环平均幅度差函数(CAMDF),浊音帧的循环平均幅度和函数的计算公式如下:
将上述循环平均幅度差函数(CAMDF)与上述循环平均幅度和函数(CAMSF)进行加权运算,加权运算公式如下:
式中,是浊音帧的循环平均幅度和函数(CAMSF),为浊音帧的循环平均幅度差函数(CAMDF),防止分母为0,是加权后的函数,搜索该加权函数的峰值点,并记录该峰值点所对应的延迟点,该延迟点即为对应浊音帧的基音周期初始估计值;
根据所有浊音帧的基音周期初始估计值,利用基于局部浊音段的后处理技术对基音周期初始估计值进行修正。
其中利用基于局部浊音段的后处理技术对基音周期初始估计值进行修正,包括以下步骤:
找出基音周期连续不为零的浊音段;
对平滑滤波后的浊音段进行清浊音判决,首先计算该浊音段所有帧的短时平均幅度的总和,记为,其平均值,设定门限值为:,其中是一经验因子,,然后对当前浊音段每帧的短时平均幅度与门限进行比较,小于上述门限值则将该帧修正为清音帧,反之依然判定该帧为浊音帧。
按照上述方法处理完当前浊音段后,接着按同样的步骤处理下一浊音段。
从图2a、图2b、图3a和图3b可看出提取的基音轨迹趋于平滑,没有明显的加倍和减倍错误,清音段和浊音段区别明显。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种语音信号中基音提取及修正方法,其特征在于,包括以下步骤:
计算浊音帧的循环平均幅度和函数(CAMSF);
计算浊音帧的循环平均幅度差函数(CAMDF);
将上述循环平均幅度差函数(CAMDF)与上述循环平均幅度和函数(CAMSF)进行加权运算,搜索该加权函数的峰值点,并记录该峰值点所对应的延迟点,该延迟点即为对应浊音帧的基音周期初始估计值;
根据所有浊音帧的基音周期初始估计值,利用基于局部浊音段的后处理技术对所述基音周期初始估计值进行修正。
2.如权利要求1所述语音信号中基音提取及修正方法,其特征在于,所述的利用基于局部浊音段的后处理技术对基音周期初始估计值进行修正,包括以下步骤:
找出上述基音周期连续不为零的浊音段;
如所述浊音段总共有n帧,则重复上述处理n/2次,然后对所述浊音段做平滑滤波;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210278271.4A CN102779526B (zh) | 2012-08-07 | 2012-08-07 | 语音信号中基音提取及修正方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210278271.4A CN102779526B (zh) | 2012-08-07 | 2012-08-07 | 语音信号中基音提取及修正方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102779526A true CN102779526A (zh) | 2012-11-14 |
CN102779526B CN102779526B (zh) | 2014-04-16 |
Family
ID=47124413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210278271.4A Active CN102779526B (zh) | 2012-08-07 | 2012-08-07 | 语音信号中基音提取及修正方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102779526B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103366784A (zh) * | 2013-07-16 | 2013-10-23 | 湖南大学 | 具有语音控制和哼唱检索功能的多媒体播放方法及装置 |
WO2015078689A1 (de) * | 2013-11-28 | 2015-06-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Hörhilfevorrichtung mit grundfrequenzmodifizierung |
CN107025911A (zh) * | 2016-01-29 | 2017-08-08 | 重庆工商职业学院 | 基于粒子群优化的基音频率检测方法 |
TWI728277B (zh) * | 2017-11-10 | 2021-05-21 | 弗勞恩霍夫爾協會 | 音調滯後選擇技術 |
US11043226B2 (en) | 2017-11-10 | 2021-06-22 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters |
CN113113052A (zh) * | 2021-04-08 | 2021-07-13 | 深圳市品索科技有限公司 | 一种离散点的语音基音识别装置及计算机存储介质 |
US11127408B2 (en) | 2017-11-10 | 2021-09-21 | Fraunhofer—Gesellschaft zur F rderung der angewandten Forschung e.V. | Temporal noise shaping |
US11217261B2 (en) | 2017-11-10 | 2022-01-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoding and decoding audio signals |
US11315583B2 (en) | 2017-11-10 | 2022-04-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
US11315580B2 (en) | 2017-11-10 | 2022-04-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
US11462226B2 (en) | 2017-11-10 | 2022-10-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
US11545167B2 (en) | 2017-11-10 | 2023-01-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
US11562754B2 (en) | 2017-11-10 | 2023-01-24 | Fraunhofer-Gesellschaft Zur F Rderung Der Angewandten Forschung E.V. | Analysis/synthesis windowing function for modulated lapped transformation |
US12033646B2 (en) | 2017-11-10 | 2024-07-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040167775A1 (en) * | 2003-02-24 | 2004-08-26 | International Business Machines Corporation | Computational effectiveness enhancement of frequency domain pitch estimators |
CN101556795A (zh) * | 2008-04-09 | 2009-10-14 | 展讯通信(上海)有限公司 | 计算语音基音频率的方法及设备 |
-
2012
- 2012-08-07 CN CN201210278271.4A patent/CN102779526B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040167775A1 (en) * | 2003-02-24 | 2004-08-26 | International Business Machines Corporation | Computational effectiveness enhancement of frequency domain pitch estimators |
CN101556795A (zh) * | 2008-04-09 | 2009-10-14 | 展讯通信(上海)有限公司 | 计算语音基音频率的方法及设备 |
Non-Patent Citations (3)
Title |
---|
HE JIAO ET AL: "《Pitch Detection Algorithm Based on NCCF and CAMDF》", 《2011 INTERNATIONAL CONFERENCE ON COMPUTER CONTROL AND AUTOMATION》 * |
TETSUYA SHIMAMURA: "《Weighted Autocorrelation for Pitch Extraction of Noisy Speech》", 《IEEE TRANSACTIONS ON SPEECH AND AUDIO PRECESSING》 * |
张文耀等: "《循环AMDF及其语音基音周期估计算法》", 《电子学报》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103366784A (zh) * | 2013-07-16 | 2013-10-23 | 湖南大学 | 具有语音控制和哼唱检索功能的多媒体播放方法及装置 |
CN103366784B (zh) * | 2013-07-16 | 2016-04-13 | 湖南大学 | 具有语音控制和哼唱检索功能的多媒体播放方法及装置 |
WO2015078689A1 (de) * | 2013-11-28 | 2015-06-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Hörhilfevorrichtung mit grundfrequenzmodifizierung |
CN105765654A (zh) * | 2013-11-28 | 2016-07-13 | 弗劳恩霍夫应用研究促进协会 | 具有基频修改的助听装置 |
US9936308B2 (en) | 2013-11-28 | 2018-04-03 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Hearing aid apparatus with fundamental frequency modification |
CN107025911A (zh) * | 2016-01-29 | 2017-08-08 | 重庆工商职业学院 | 基于粒子群优化的基音频率检测方法 |
CN107025911B (zh) * | 2016-01-29 | 2019-03-12 | 重庆工商职业学院 | 基于粒子群优化的基音频率检测方法 |
US11127408B2 (en) | 2017-11-10 | 2021-09-21 | Fraunhofer—Gesellschaft zur F rderung der angewandten Forschung e.V. | Temporal noise shaping |
US11380339B2 (en) | 2017-11-10 | 2022-07-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
US12033646B2 (en) | 2017-11-10 | 2024-07-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
TWI728277B (zh) * | 2017-11-10 | 2021-05-21 | 弗勞恩霍夫爾協會 | 音調滯後選擇技術 |
US11217261B2 (en) | 2017-11-10 | 2022-01-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoding and decoding audio signals |
US11315583B2 (en) | 2017-11-10 | 2022-04-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
US11315580B2 (en) | 2017-11-10 | 2022-04-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
US11043226B2 (en) | 2017-11-10 | 2021-06-22 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters |
US11380341B2 (en) | 2017-11-10 | 2022-07-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
US11386909B2 (en) | 2017-11-10 | 2022-07-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
US11462226B2 (en) | 2017-11-10 | 2022-10-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
US11545167B2 (en) | 2017-11-10 | 2023-01-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
US11562754B2 (en) | 2017-11-10 | 2023-01-24 | Fraunhofer-Gesellschaft Zur F Rderung Der Angewandten Forschung E.V. | Analysis/synthesis windowing function for modulated lapped transformation |
CN113113052B (zh) * | 2021-04-08 | 2024-04-05 | 深圳市品索科技有限公司 | 一种离散点的语音基音识别装置及计算机存储介质 |
CN113113052A (zh) * | 2021-04-08 | 2021-07-13 | 深圳市品索科技有限公司 | 一种离散点的语音基音识别装置及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN102779526B (zh) | 2014-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102779526B (zh) | 语音信号中基音提取及修正方法 | |
CN105023573B (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
EP1569422B1 (en) | Method and apparatus for multi-sensory speech enhancement on a mobile device | |
CN104485103B (zh) | 一种基于矢量泰勒级数的多环境模型孤立词识别方法 | |
Ma et al. | Exploiting correlogram structure for robust speech recognition with multiple speech sources | |
CN104992707A (zh) | 一种腭裂语音喉塞音自动识别算法及装置 | |
CN103824564A (zh) | 一种电动轮椅语音识别过程中的语音增强方法 | |
CN108198558B (zh) | 一种基于csi数据的语音识别方法 | |
Jaafar et al. | Automatic syllables segmentation for frog identification system | |
CN107369451B (zh) | 一种辅助鸟类繁殖期的物候研究的鸟类声音识别方法 | |
CN106297769B (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
Fischer et al. | Classification of breath and snore sounds using audio data recorded with smartphones in the home environment | |
May et al. | Environment-aware ideal binary mask estimation using monaural cues | |
Meduri et al. | A survey and evaluation of voice activity detection algorithms | |
JP4877114B2 (ja) | 音声処理装置およびプログラム | |
Sadjadi et al. | Robust front-end processing for speaker identification over extremely degraded communication channels | |
CN106128480A (zh) | 一种对带噪语音进行语音活动检测的方法 | |
Kumari et al. | An efficient algorithm for Gender Detection using voice samples | |
Bao et al. | A new time-frequency binary mask estimation method based on convex optimization of speech power | |
Liu et al. | Noise-robust voice activity detector based on hidden semi-markov models | |
CN102637438A (zh) | 一种语音滤波方法 | |
Papadopoulos et al. | Global SNR Estimation of Speech Signals for Unknown Noise Conditions Using Noise Adapted Non-Linear Regression. | |
Rao et al. | A Dual Source-Filter Model of Snore Audio for Snorer Group Classification. | |
Guðnason et al. | Closed phase estimation for inverse filtering the oral airflow waveform | |
Esfandian et al. | Voice activity detection using clustering-based method in Spectro-Temporal features space |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210118 Address after: No.2006 Xiyuan Avenue, Chengdu, Sichuan 611731 Patentee after: University of Electronic Science and technology of Sichuan foundation for education development Address before: Room 402, area a, Liye building, science and Technology Park, China sensor network university, Taike Park, Wuxi New District, Wuxi City, Jiangsu Province, 214135 Patentee before: WUXI UESTC TECHNOLOGY DEVELOPMENT Co.,Ltd. |
|
TR01 | Transfer of patent right |