CN102779526A - 语音信号中基音提取及修正方法 - Google Patents

语音信号中基音提取及修正方法 Download PDF

Info

Publication number
CN102779526A
CN102779526A CN2012102782714A CN201210278271A CN102779526A CN 102779526 A CN102779526 A CN 102779526A CN 2012102782714 A CN2012102782714 A CN 2012102782714A CN 201210278271 A CN201210278271 A CN 201210278271A CN 102779526 A CN102779526 A CN 102779526A
Authority
CN
China
Prior art keywords
function
pitch period
frame
voiced segments
mentioned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012102782714A
Other languages
English (en)
Other versions
CN102779526B (zh
Inventor
贺知明
何姣
吴少智
吴跃
孟现东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and technology of Sichuan foundation for education development
Original Assignee
WUXI UESTC TECHNOLOGY DEVELOPMENT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUXI UESTC TECHNOLOGY DEVELOPMENT Co Ltd filed Critical WUXI UESTC TECHNOLOGY DEVELOPMENT Co Ltd
Priority to CN201210278271.4A priority Critical patent/CN102779526B/zh
Publication of CN102779526A publication Critical patent/CN102779526A/zh
Application granted granted Critical
Publication of CN102779526B publication Critical patent/CN102779526B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种语音信号中基音提取及修正方法,包括以下步骤:计算浊音帧的循环平均幅度和函数;计算浊音帧的循环平均幅度差函数;将上述循环平均幅度差函数与上述循环平均幅度和函数进行加权运算,搜索该加权函数的峰值点,并记录该峰值点所对应的延迟点,该延迟点即为对应浊音帧的基音周期初始估计值;根据所有浊音帧的基音周期初始估计值,利用基于局部浊音段的后处理技术对所述基音周期初始估计值进行修正。利用循环平均幅度差函数加权循环平均幅度和函数,提取浊音帧的基音周期初始估计值,能有效突出基音周期处的峰值点,提高了抗噪性能,达到了在噪音环境下精确语音提取和检测的目的。

Description

语音信号中基音提取及修正方法
技术领域
本发明涉及语音信号处理领域,具体地,涉及一种语音信号中基音提取及修正方法。
背景技术
人在发音过程中,肺部及与之相连的肌肉就相当于整个声道系统的激励源。当声带处于绷紧状态时,由肺部排出的气流会使声带产生振动,这时产生的声音叫做浊音(Voiced sound),反之,不带有声带振动的声音则叫做清音(Unvoiced sound)。声带振动的频率就是基音频率(Pitch frequency),基音频率的倒数就是基音周期(pitch period)。基音周期或基音频率的检测简称基音检测(Pitch detection)又称基音估计(Pitch estimation)或者基音提取(Pitch extraction),基音提取就是准确提取与声带相一致的振动频率,找出和声带振动频率一致或尽量相吻合的轨迹曲线。
基音周期是语音信号的一个极其重要的特征参数,它表征了语音激励源的一个重要特征。基音检测器是很多语音信号处理系统中的一个关键组成部分,不仅是因为它对语音信号的激励源提供深入而有价值的分析,而且语音的基音在语音信号处理的多个领域(如:语音分析合成、语音低速率编码、语音识别、说话人识别、语音分离、发音器官疾病诊断、助听设备研制、听觉残障者的语言指导等)都有着广泛而且重要的应用。
迄今,国内外很多学者提出了各种各样的基音检测算法,对如何准确地提取语音信号的基音周期做了大量的工作。虽然对干净语音信号的基音检测算法有很多种,但是对于带噪声的语音信号的基音检测方面的研究比较少,进展也比较缓慢,诸多算法在存在噪声时检测精度明显下降,甚至无法检测。
发明内容
本发明的目的在于,针对上述问题,提出一种语音信号中基音提取及修正方法,以实现在噪音环境下精确语音提取和检测的优点。
为实现上述目的,本发明采用的技术方案是:
一种语音信号中基音提取及修正方法,包括以下步骤:
计算浊音帧的循环平均幅度和函数(CAMSF);
计算浊音帧的循环平均幅度差函数(CAMDF);
将上述循环平均幅度差函数(CAMDF)与上述循环平均幅度和函数(CAMSF)进行加权运算,搜索该加权函数的峰值点,并记录该峰值点所对应的延迟点,该延迟点即为对应浊音帧的基音周期初始估计值;
根据所有浊音帧的基音周期初始估计值,利用基于局部浊音段的后处理技术对所述基音周期初始估计值进行修正。
 根据本发明的优选实施例,所述的利用基于局部浊音段的后处理技术对基音周期初始估计值进行修正,包括以下步骤:
找出上述基音周期连续不为零的浊音段;
找出在上述浊音段基音周期的最大值与最小值及其它们相应的位置,设当前浊音段基音周期的最大值与最小值分别为                                                
Figure 2012102782714100002DEST_PATH_IMAGE001
Figure 849730DEST_PATH_IMAGE002
,与它们相邻最近5帧浊音帧的基音周期的平均值分别为
Figure 2012102782714100002DEST_PATH_IMAGE003
Figure 2012102782714100002DEST_PATH_IMAGE005
,则
Figure 815161DEST_PATH_IMAGE006
Figure 2012102782714100002DEST_PATH_IMAGE007
,则
Figure 224146DEST_PATH_IMAGE008
如当前浊音段总共有
Figure 2012102782714100002DEST_PATH_IMAGE009
帧,则重复上述处理
Figure 262771DEST_PATH_IMAGE010
次,然后对当前浊音段做平滑滤波;
对上述平滑滤波后的浊音段进行清浊音判决,首先计算该浊音段所有帧的短时平均幅度的总和,记为
Figure 2012102782714100002DEST_PATH_IMAGE011
,其平均值
Figure 415404DEST_PATH_IMAGE012
,设定门限值为:,其中
Figure 220155DEST_PATH_IMAGE014
是一经验因子,,然后对当前浊音段每帧的短时平均幅度
Figure 534462DEST_PATH_IMAGE016
与门限
Figure 2012102782714100002DEST_PATH_IMAGE017
进行比较,小于上述门限值则将该帧修正为清音帧,反之依然判定该帧为浊音帧。
根据本发明的优选实施例,所述浊音帧的循环平均幅度和函数(CAMSF)的计算式如下:
                
式中,
Figure 2012102782714100002DEST_PATH_IMAGE019
Figure 688811DEST_PATH_IMAGE020
表示人类说话基音周期的最大值所对应的采样点数,
Figure 2012102782714100002DEST_PATH_IMAGE021
表示加窗后的语音信号。
根据本发明的优选实施例,所述浊音帧的循环平均幅度和函数的计算公式如下:
              
Figure 115113DEST_PATH_IMAGE022
           
式中,
Figure 2012102782714100002DEST_PATH_IMAGE023
Figure 104715DEST_PATH_IMAGE024
表示人类说话基音周期的最大值所对应的采样点数,
Figure 2012102782714100002DEST_PATH_IMAGE025
表示加窗后的语音信号。
  根据本发明的优选实施例,将上述循环平均幅度差函数(CAMDF)与上述循环平均幅度和函数(CAMSF)进行加权运算, 所述加权运算公式如下:
                    
Figure 616468DEST_PATH_IMAGE026
                    
式中,是浊音帧的循环平均幅度和函数(CAMSF),为浊音帧的循环平均幅度差函数(CAMDF),
Figure 2012102782714100002DEST_PATH_IMAGE029
防止分母为0,是加权后的函数。
本发明的技术方案,利用循环平均幅度差函数(CAMDF)加权循环平均幅度和函数(CAMSF),提取浊音帧的基音周期初始估计值,能有效突出基音周期处的峰值点,提高了抗噪性能,达到了在噪音环境下精确语音提取和检测的目的。同时采用基于局部浊音段的后处理技术,克服了常用平滑滤波和线性平滑的缺点;本发明的技术方案还具有计算简单、鲁棒性和抗噪性好等优点。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明实施例所述的语音信号中基音提取及修正方法的流程图;
图2a为干净语音信号峰值图;
图2b为图2a所示的干净语音信号经过本发明的技术方案处理后的基音估计值图;
图3a为信噪比为5dB的带噪音的语音信号峰值图;
图3b为图3a所示的信噪比为5dB的带噪音的语音信号经过本发明的技术方案处理后的基音估计值图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
如图1所示,一种语音信号中基音提取及修正方法,包括以下步骤:
计算浊音帧的循环平均幅度和函数(CAMSF),浊音帧的循环平均幅度和函数(CAMSF)的计算式如下:
              
Figure 424652DEST_PATH_IMAGE018
  
式中,
Figure 594340DEST_PATH_IMAGE019
表示人类说话基音周期的最大值所对应的采样点数,
Figure 903148DEST_PATH_IMAGE021
表示加窗后的语音信号。
计算浊音帧的循环平均幅度差函数(CAMDF),浊音帧的循环平均幅度和函数的计算公式如下:
                         
式中,
Figure 593334DEST_PATH_IMAGE023
Figure 367255DEST_PATH_IMAGE024
表示人类说话基音周期的最大值所对应的采样点数,
Figure 294760DEST_PATH_IMAGE025
表示加窗后的语音信号。
将上述循环平均幅度差函数(CAMDF)与上述循环平均幅度和函数(CAMSF)进行加权运算,加权运算公式如下:
                                        
式中,
Figure 79362DEST_PATH_IMAGE027
是浊音帧的循环平均幅度和函数(CAMSF),
Figure 907508DEST_PATH_IMAGE028
为浊音帧的循环平均幅度差函数(CAMDF),
Figure 955099DEST_PATH_IMAGE029
防止分母为0,是加权后的函数,搜索该加权函数的峰值点,并记录该峰值点所对应的延迟点,该延迟点即为对应浊音帧的基音周期初始估计值;
根据所有浊音帧的基音周期初始估计值,利用基于局部浊音段的后处理技术对基音周期初始估计值进行修正。
其中利用基于局部浊音段的后处理技术对基音周期初始估计值进行修正,包括以下步骤:
找出基音周期连续不为零的浊音段;
找出在浊音段基音周期的最大值与最小值及其它们相应的位置,设当前浊音段基音周期的最大值与最小值分别为
Figure 77404DEST_PATH_IMAGE002
,与它们相邻最近5帧浊音帧的基音周期的平均值分别为
Figure 522478DEST_PATH_IMAGE004
Figure 877235DEST_PATH_IMAGE005
,则
Figure 295185DEST_PATH_IMAGE006
Figure 51789DEST_PATH_IMAGE007
,则
Figure 765667DEST_PATH_IMAGE008
如当前浊音段总共有
Figure 873300DEST_PATH_IMAGE009
帧,则重复上述处理
Figure 832291DEST_PATH_IMAGE010
次,然后对当前浊音段做平滑滤波中的中值——平滑滤波;
对平滑滤波后的浊音段进行清浊音判决,首先计算该浊音段所有帧的短时平均幅度的总和,记为,其平均值
Figure 593759DEST_PATH_IMAGE012
,设定门限值为:
Figure 860793DEST_PATH_IMAGE013
,其中
Figure 122010DEST_PATH_IMAGE014
是一经验因子,
Figure 92021DEST_PATH_IMAGE015
,然后对当前浊音段每帧的短时平均幅度
Figure 413281DEST_PATH_IMAGE016
与门限进行比较,小于上述门限值则将该帧修正为清音帧,反之依然判定该帧为浊音帧。
按照上述方法处理完当前浊音段后,接着按同样的步骤处理下一浊音段。
从图2a、图2b、图3a和图3b可看出提取的基音轨迹趋于平滑,没有明显的加倍和减倍错误,清音段和浊音段区别明显。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种语音信号中基音提取及修正方法,其特征在于,包括以下步骤:
计算浊音帧的循环平均幅度和函数(CAMSF);
计算浊音帧的循环平均幅度差函数(CAMDF);
将上述循环平均幅度差函数(CAMDF)与上述循环平均幅度和函数(CAMSF)进行加权运算,搜索该加权函数的峰值点,并记录该峰值点所对应的延迟点,该延迟点即为对应浊音帧的基音周期初始估计值;
根据所有浊音帧的基音周期初始估计值,利用基于局部浊音段的后处理技术对所述基音周期初始估计值进行修正。
2.如权利要求1所述语音信号中基音提取及修正方法,其特征在于,所述的利用基于局部浊音段的后处理技术对基音周期初始估计值进行修正,包括以下步骤:
找出上述基音周期连续不为零的浊音段;
找出在上述浊音段基音周期的最大值与最小值及其它们相应的位置,设该浊音段基音周期的最大值与最小值分别为                                                
Figure 2012102782714100001DEST_PATH_IMAGE001
,与最大值与最小值相邻最近5帧浊音帧的基音周期的平均值分别为
Figure 2012102782714100001DEST_PATH_IMAGE003
Figure 948957DEST_PATH_IMAGE004
Figure 2012102782714100001DEST_PATH_IMAGE005
,则
Figure 503435DEST_PATH_IMAGE006
Figure 2012102782714100001DEST_PATH_IMAGE007
,则
Figure 105580DEST_PATH_IMAGE008
如所述浊音段总共有n帧,则重复上述处理n/2次,然后对所述浊音段做平滑滤波;
对上述平滑滤波后的浊音段进行清浊音判决,首先计算该浊音段所有帧的短时平均幅度的总和,记为,其平均值
Figure 770917DEST_PATH_IMAGE010
,设定门限值为: 
Figure DEST_PATH_IMAGE011
,其中是一经验因子,
Figure DEST_PATH_IMAGE013
对上述浊音段每帧的短时平均幅度与门限
Figure 2012102782714100001DEST_PATH_IMAGE017
进行比较,小于上述门限值则将该帧修正为清音帧,反之依然判定该帧为浊音帧。
3.如权利要求1或2所述的语音信号中基音提取及修正方法,其特征在于,所述浊音帧的循环平均幅度和函数(CAMSF)的计算式如下:
     式中, , 表示人类说话基音周期的最大值所对应的采样点数, 
Figure DEST_PATH_IMAGE021
表示加窗后的语音信号。
4.如权利要求1或所述语音信号中基音提取及修正方法,其特征在于,所述浊音帧的循环平均幅度和函数的计算公式如下:
Figure 684854DEST_PATH_IMAGE022
式中, 
Figure DEST_PATH_IMAGE023
, 表示人类说话基音周期的最大值所对应的采样点数, 
Figure DEST_PATH_IMAGE025
表示加窗后的语音信号。
5.   如权利要求1或2所述语音信号中基音提取及修正方法,其特征在于,将上述循环平均幅度差函数(CAMDF)与上述循环平均幅度和函数(CAMSF)进行加权运算, 所述加权运算公式如下:
                     
式中, 
Figure DEST_PATH_IMAGE027
是浊音帧的循环平均幅度和函数(CAMSF),为浊音帧的循环平均幅度差函数(CAMDF),
Figure DEST_PATH_IMAGE029
防止分母为0, 
Figure 303735DEST_PATH_IMAGE030
是加权后的函数。
CN201210278271.4A 2012-08-07 2012-08-07 语音信号中基音提取及修正方法 Active CN102779526B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210278271.4A CN102779526B (zh) 2012-08-07 2012-08-07 语音信号中基音提取及修正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210278271.4A CN102779526B (zh) 2012-08-07 2012-08-07 语音信号中基音提取及修正方法

Publications (2)

Publication Number Publication Date
CN102779526A true CN102779526A (zh) 2012-11-14
CN102779526B CN102779526B (zh) 2014-04-16

Family

ID=47124413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210278271.4A Active CN102779526B (zh) 2012-08-07 2012-08-07 语音信号中基音提取及修正方法

Country Status (1)

Country Link
CN (1) CN102779526B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366784A (zh) * 2013-07-16 2013-10-23 湖南大学 具有语音控制和哼唱检索功能的多媒体播放方法及装置
WO2015078689A1 (de) * 2013-11-28 2015-06-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Hörhilfevorrichtung mit grundfrequenzmodifizierung
CN107025911A (zh) * 2016-01-29 2017-08-08 重庆工商职业学院 基于粒子群优化的基音频率检测方法
TWI728277B (zh) * 2017-11-10 2021-05-21 弗勞恩霍夫爾協會 音調滯後選擇技術
US11043226B2 (en) 2017-11-10 2021-06-22 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
CN113113052A (zh) * 2021-04-08 2021-07-13 深圳市品索科技有限公司 一种离散点的语音基音识别装置及计算机存储介质
US11127408B2 (en) 2017-11-10 2021-09-21 Fraunhofer—Gesellschaft zur F rderung der angewandten Forschung e.V. Temporal noise shaping
US11217261B2 (en) 2017-11-10 2022-01-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding audio signals
US11315583B2 (en) 2017-11-10 2022-04-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
US11315580B2 (en) 2017-11-10 2022-04-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
US11462226B2 (en) 2017-11-10 2022-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
US11545167B2 (en) 2017-11-10 2023-01-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
US11562754B2 (en) 2017-11-10 2023-01-24 Fraunhofer-Gesellschaft Zur F Rderung Der Angewandten Forschung E.V. Analysis/synthesis windowing function for modulated lapped transformation
US12033646B2 (en) 2017-11-10 2024-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040167775A1 (en) * 2003-02-24 2004-08-26 International Business Machines Corporation Computational effectiveness enhancement of frequency domain pitch estimators
CN101556795A (zh) * 2008-04-09 2009-10-14 展讯通信(上海)有限公司 计算语音基音频率的方法及设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040167775A1 (en) * 2003-02-24 2004-08-26 International Business Machines Corporation Computational effectiveness enhancement of frequency domain pitch estimators
CN101556795A (zh) * 2008-04-09 2009-10-14 展讯通信(上海)有限公司 计算语音基音频率的方法及设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HE JIAO ET AL: "《Pitch Detection Algorithm Based on NCCF and CAMDF》", 《2011 INTERNATIONAL CONFERENCE ON COMPUTER CONTROL AND AUTOMATION》 *
TETSUYA SHIMAMURA: "《Weighted Autocorrelation for Pitch Extraction of Noisy Speech》", 《IEEE TRANSACTIONS ON SPEECH AND AUDIO PRECESSING》 *
张文耀等: "《循环AMDF及其语音基音周期估计算法》", 《电子学报》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366784A (zh) * 2013-07-16 2013-10-23 湖南大学 具有语音控制和哼唱检索功能的多媒体播放方法及装置
CN103366784B (zh) * 2013-07-16 2016-04-13 湖南大学 具有语音控制和哼唱检索功能的多媒体播放方法及装置
WO2015078689A1 (de) * 2013-11-28 2015-06-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Hörhilfevorrichtung mit grundfrequenzmodifizierung
CN105765654A (zh) * 2013-11-28 2016-07-13 弗劳恩霍夫应用研究促进协会 具有基频修改的助听装置
US9936308B2 (en) 2013-11-28 2018-04-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Hearing aid apparatus with fundamental frequency modification
CN107025911A (zh) * 2016-01-29 2017-08-08 重庆工商职业学院 基于粒子群优化的基音频率检测方法
CN107025911B (zh) * 2016-01-29 2019-03-12 重庆工商职业学院 基于粒子群优化的基音频率检测方法
US11127408B2 (en) 2017-11-10 2021-09-21 Fraunhofer—Gesellschaft zur F rderung der angewandten Forschung e.V. Temporal noise shaping
US11380339B2 (en) 2017-11-10 2022-07-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
US12033646B2 (en) 2017-11-10 2024-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
TWI728277B (zh) * 2017-11-10 2021-05-21 弗勞恩霍夫爾協會 音調滯後選擇技術
US11217261B2 (en) 2017-11-10 2022-01-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding audio signals
US11315583B2 (en) 2017-11-10 2022-04-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
US11315580B2 (en) 2017-11-10 2022-04-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
US11043226B2 (en) 2017-11-10 2021-06-22 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
US11380341B2 (en) 2017-11-10 2022-07-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
US11386909B2 (en) 2017-11-10 2022-07-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
US11462226B2 (en) 2017-11-10 2022-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
US11545167B2 (en) 2017-11-10 2023-01-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
US11562754B2 (en) 2017-11-10 2023-01-24 Fraunhofer-Gesellschaft Zur F Rderung Der Angewandten Forschung E.V. Analysis/synthesis windowing function for modulated lapped transformation
CN113113052B (zh) * 2021-04-08 2024-04-05 深圳市品索科技有限公司 一种离散点的语音基音识别装置及计算机存储介质
CN113113052A (zh) * 2021-04-08 2021-07-13 深圳市品索科技有限公司 一种离散点的语音基音识别装置及计算机存储介质

Also Published As

Publication number Publication date
CN102779526B (zh) 2014-04-16

Similar Documents

Publication Publication Date Title
CN102779526B (zh) 语音信号中基音提取及修正方法
CN105023573B (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
EP1569422B1 (en) Method and apparatus for multi-sensory speech enhancement on a mobile device
CN104485103B (zh) 一种基于矢量泰勒级数的多环境模型孤立词识别方法
Ma et al. Exploiting correlogram structure for robust speech recognition with multiple speech sources
CN104992707A (zh) 一种腭裂语音喉塞音自动识别算法及装置
CN103824564A (zh) 一种电动轮椅语音识别过程中的语音增强方法
CN108198558B (zh) 一种基于csi数据的语音识别方法
Jaafar et al. Automatic syllables segmentation for frog identification system
CN107369451B (zh) 一种辅助鸟类繁殖期的物候研究的鸟类声音识别方法
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
Fischer et al. Classification of breath and snore sounds using audio data recorded with smartphones in the home environment
May et al. Environment-aware ideal binary mask estimation using monaural cues
Meduri et al. A survey and evaluation of voice activity detection algorithms
JP4877114B2 (ja) 音声処理装置およびプログラム
Sadjadi et al. Robust front-end processing for speaker identification over extremely degraded communication channels
CN106128480A (zh) 一种对带噪语音进行语音活动检测的方法
Kumari et al. An efficient algorithm for Gender Detection using voice samples
Bao et al. A new time-frequency binary mask estimation method based on convex optimization of speech power
Liu et al. Noise-robust voice activity detector based on hidden semi-markov models
CN102637438A (zh) 一种语音滤波方法
Papadopoulos et al. Global SNR Estimation of Speech Signals for Unknown Noise Conditions Using Noise Adapted Non-Linear Regression.
Rao et al. A Dual Source-Filter Model of Snore Audio for Snorer Group Classification.
Guðnason et al. Closed phase estimation for inverse filtering the oral airflow waveform
Esfandian et al. Voice activity detection using clustering-based method in Spectro-Temporal features space

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210118

Address after: No.2006 Xiyuan Avenue, Chengdu, Sichuan 611731

Patentee after: University of Electronic Science and technology of Sichuan foundation for education development

Address before: Room 402, area a, Liye building, science and Technology Park, China sensor network university, Taike Park, Wuxi New District, Wuxi City, Jiangsu Province, 214135

Patentee before: WUXI UESTC TECHNOLOGY DEVELOPMENT Co.,Ltd.

TR01 Transfer of patent right