CN103117066A - 基于时频瞬时能量谱的低信噪比语音端点检测方法 - Google Patents

基于时频瞬时能量谱的低信噪比语音端点检测方法 Download PDF

Info

Publication number
CN103117066A
CN103117066A CN2013100178777A CN201310017877A CN103117066A CN 103117066 A CN103117066 A CN 103117066A CN 2013100178777 A CN2013100178777 A CN 2013100178777A CN 201310017877 A CN201310017877 A CN 201310017877A CN 103117066 A CN103117066 A CN 103117066A
Authority
CN
China
Prior art keywords
instantaneous energy
energy spectrum
noise
frequency
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013100178777A
Other languages
English (en)
Other versions
CN103117066B (zh
Inventor
范影乐
陈金龙
倪红霞
廖进文
李丹菁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Yanzong Industry Investment Development Co ltd
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201310017877.7A priority Critical patent/CN103117066B/zh
Publication of CN103117066A publication Critical patent/CN103117066A/zh
Application granted granted Critical
Publication of CN103117066B publication Critical patent/CN103117066B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及一种基于时频瞬时能量谱的低信噪比语音端点检测方法。传统方法降噪效果不是很理想。本发明方法将时频瞬时能量谱特征作为端点检测的依据,首先对含噪语音进行小波包分解,并对分解后的低频分量进行重构。利用经验模态分解对重构后的信号进行处理,并运用相关系数阈值准则进行固有模态函数的筛选和剔除,获取有效IMF分量。重组得到的IMF分量,进行Hilbert变换并计算相应的瞬时能量谱,构成语音端点检测的特征向量。对得到的结果进行分帧处理,将前5帧瞬时能量谱均值作为噪声的瞬时能量谱,并采用语音起-止双阈值门限法进行含噪语音的端点检测。本发明使含噪语音的时频分辨能力得到显著的改善,提高了语音端点检测的效率。

Description

基于时频瞬时能量谱的低信噪比语音端点检测方法
技术领域
本发明属于语音处理领域,涉及一种基于时频瞬时能量谱的低信噪比语音端点检测方法。
背景技术
语音在采集传输以及通信过程中不可避免的会引入各种噪声,噪声的存在将会直接影响语音的清晰度和可懂度。对含噪语音信号进行端点检测,获得有效语音片段的起止点,对于后续的语音增强、编码以及识别工作起着非常重要的作用。目前传统的端点检测方法主要有平均能量、平均过零率、倒谱系数、短时频带方差、短时能频值、倒谱距离、自相关相似距离、信息熵以及谱熵等。但是它们都是基于语音信号具有短时线性平稳的假设,但实际上语音信号为非线性非平稳过程。同时现有的方法抗噪能力普遍不强,当信噪比较低时语音端点检测的准确率普遍不理想。NE.Huang博士于1998年提出了一种新的具有自适应的时频分析方法—Hilbert-Huang变换(HHT),特别适合于非线性、非平稳的含噪语音时频分析,但是其存在模态混叠等缺点,因此本发明提出了一种基于时频瞬时能量谱的低信噪比语音端点检测方法。
发明内容
本发明考虑到:(1)传统含噪语音端点检测都是基于语音短时线性平稳过程的假设且对于强噪声背景下的语音端点检测效果不理想;(2)针对含噪语音的HHT变换存在模态混叠从而降低语音信号时频分辨力的缺点,提出了基于时频瞬时能量谱的低信噪比语音端点检测方法。运用小波包分解对频带进行细分,低频部分中语音信号占主导,对分解的低频信号进行重构和EMD分解。同时利用相关系数阈值准则,对含噪语音EMD分解后的IMF分量进行筛选和剔除。重组得到的有效IMF分量,并对其进行Hilbert变换,计算瞬时能量谱作为语音端点检测的特征向量。本发明主要是基于Hilbert—Huang变换的语音信号处理,将小波包分解作为含噪语音信号的预处理,改善了含噪语音信号的时频分辨能力,同时使其满足Hilbert-Huang变换中经验模态函数单一振荡模态的要求,有效的避免了模态混叠的发生。引入相关系数阈值准则对IMF分量进行筛选,避免Hilbert谱中出现虚假频率。同时将瞬时能量谱作为端点检测的特征量,作为区分语音和噪声时频特性的依据,有利于提升端点检测的准确率以及算法性能的稳定性。
本发明时频瞬时能量谱的低信噪比语音端点检测方法包括以下步骤:
步骤(1)对加汉明窗的含噪语音进行小波包分解,并对分解后的信号进行重构。
步骤(2)对重构的低频信号进行自适应EMD分解处理,得到有限个IMF分量。
步骤(3)采用相关系数阈值准则,对IMF分量进行筛选,得到有效的IMF分量,并进行重组。
步骤(4)对重组的IMF分量进行Hilbert变换,同时计算瞬时能量谱序列,将瞬时能量谱特征量作为含噪语音端点检测的依据。
步骤(5)对瞬时能量谱序列进行分帧处理,将前5帧瞬时能量谱均值作为噪声的瞬时能量谱。
步骤(6)对分帧的瞬时能量谱序列运用起-止双门限阈值法进行语音端点检测,记录有效语音片段的起止点。
本发明的有益效果:
1、由于语音信号具有非线性非平稳的特征,本发明采用具有自适应非线性非平稳的时频分析方法Hilbert—Huang变换,提取瞬时能量谱作为特征量,进行含噪语音端点检测,有利于提高含噪语音端点检测的准确率。
2、本发明基于小波包分解的Hilbert—Huang变换瞬时能量谱含噪语音端点检测,与传统强噪声背景下的端点检测方法不同,后者先对含噪语音进行降噪处理,然后再运用传统端点检测方法进行语音端点检测,其降噪效果的优劣直接影响着语音端点检测的准确率。而本发明是利用语音和噪声在时频谱上的特征差异,在含噪语音信号基础直接进行端点检测。
3、引入小波包分解克服了Hilbert—Huang变换的模态混叠缺点,使其满足经验模态函数单一振荡模态的要求,同时小波包将频带范围进行了细分,由于小波包具有良好的正交性与自适应性,改善了含噪语音信号的时频分辨力。
4、相关系数阈值准则的引入剔除了含噪语音中相关性较差的IMF分量,有效的避免了Hilbert谱中虚假频率的出现,同时减少了程序运行的时间,改善了语音端点检测的稳定性。
附图说明
图1为含噪语音信号示意图;
图2为小波包分解二叉树示意图;
图3为EMD分解后前7个IMF示意图;
图4为含噪语音Hilbert图;
图5为含噪语音瞬时能量谱图。
具体实施方式
以下结合附图对本发明作进一步说明,本发明方法的具体步骤是:
步骤(1)对强噪声背景下的含噪语音信号                                               
Figure 2013100178777100002DEST_PATH_IMAGE002
(如图1所示)加汉明窗处理。利用Daubechies中的db3小波基函数对加窗含噪语音信号进行3层小波包分解,其中小波包分解二叉树示意图如图2所示。将分解后的结果进行重构,得到重构信号,记为,其对应的频带范围分别为
Figure 2013100178777100002DEST_PATH_IMAGE006
,其中为最小的频率分辨率,
Figure 2013100178777100002DEST_PATH_IMAGE010
为采样频率。
步骤(2)将重构获得的低频分量信号进行自适应EMD分解(前7个IMF分量如图3所示),从而得到有限个IMF分量
Figure 2013100178777100002DEST_PATH_IMAGE016
和残余信号
Figure 2013100178777100002DEST_PATH_IMAGE018
步骤(3)按式(1) 分别计算每个IMF分量
Figure 535519DEST_PATH_IMAGE016
与重构低频分量信号的相关系数
Figure 2013100178777100002DEST_PATH_IMAGE020
,根据式(2)确定相关系数阈值,对IMF分量进行筛选,筛选规则为:当
Figure 2013100178777100002DEST_PATH_IMAGE022
时保留
Figure 2013100178777100002DEST_PATH_IMAGE024
分量,否则将该
Figure 974340DEST_PATH_IMAGE024
分量剔除。将筛选后保留的IMF分量重组,得到有效的IMF分量
Figure 2013100178777100002DEST_PATH_IMAGE026
                    
Figure 2013100178777100002DEST_PATH_IMAGE028
                  (1)
其中
Figure 2013100178777100002DEST_PATH_IMAGE030
为IMF分量
Figure 995648DEST_PATH_IMAGE016
序列,
Figure 2013100178777100002DEST_PATH_IMAGE032
为重构低频分量信号
Figure 934654DEST_PATH_IMAGE014
序列,
Figure 2013100178777100002DEST_PATH_IMAGE034
为采样点数,
Figure 2013100178777100002DEST_PATH_IMAGE036
Figure 380285DEST_PATH_IMAGE030
序列的均值,
Figure 2013100178777100002DEST_PATH_IMAGE038
序列的均值。
                               
Figure DEST_PATH_IMAGE040
                             (2)
其中
Figure DEST_PATH_IMAGE042
表示相关系数的中值,
Figure DEST_PATH_IMAGE046
为比例因子,一般
Figure DEST_PATH_IMAGE048
步骤(4)将经过相关系数阈值准则筛选出来的有效IMF分量
Figure 412930DEST_PATH_IMAGE026
,按式(3)进行Hilbert变换得到
Figure DEST_PATH_IMAGE050
,由式(4) 构造解析信号
Figure DEST_PATH_IMAGE052
: 
                                          
Figure DEST_PATH_IMAGE054
                                (3)
                                   
Figure DEST_PATH_IMAGE056
                          (4)
其中
Figure DEST_PATH_IMAGE058
为解析信号幅值,为相角,由式(5)求得:
                                             (5)
瞬时频率
Figure DEST_PATH_IMAGE064
可以由式(6)定义:
                                              
Figure DEST_PATH_IMAGE066
                                    (6)
从而原始含噪语音信号
Figure 96457DEST_PATH_IMAGE002
可以由式(7)表示:
                                         
Figure DEST_PATH_IMAGE068
                               (7)
式(7)反映了信号的幅值和瞬时频率都是时间的函数,从而可以在时频平面中将幅值表示成时间和瞬时频率的函数
Figure DEST_PATH_IMAGE070
,即原始信号的Hilbert谱如图4所示。按照式(8)计算瞬时能量谱序列
Figure DEST_PATH_IMAGE072
如图5所示:
                                          
Figure DEST_PATH_IMAGE074
                                (8)
步骤(5)对获得的瞬时能量谱序列进行分帧处理,设定满足要求的帧长和帧移,同时将前5帧瞬时能量谱均值作为噪声瞬时能量谱
Figure DEST_PATH_IMAGE076
步骤(6)对分帧的瞬时能量谱序列运用起-止双门限阈值法进行含噪语音端点检测,若
Figure DEST_PATH_IMAGE078
则继续检测,如果
Figure DEST_PATH_IMAGE080
则记录为语音开始点,直到
Figure DEST_PATH_IMAGE082
则记录为语音结束点;如果语音结束点与语音开始点之差小于长度阈值,则认为检测得到的语音起点和终点均为干扰点,将它们舍弃;然后对后续瞬时能量谱序列继续重复步骤(6)进行语音端点检测,直到检测到有效的语音端点或语音序列结束为止。其中
Figure DEST_PATH_IMAGE086
分别为比例因子,
Figure 401405DEST_PATH_IMAGE084
为有效语音片段长度阈值,一般取
Figure DEST_PATH_IMAGE088

Claims (1)

1. 基于时频瞬时能量谱的低信噪比语音端点检测方法,其特征在于该方法包括如下步骤:
步骤(1)对加汉明窗的含噪语音进行小波包分解,并对分解后的信号进行重构;
步骤(2)对重构的低频信号进行自适应EMD分解处理,得到有限个IMF分量;
步骤(3)采用相关系数阈值准则,对IMF分量进行筛选,得到有效的IMF分量,并进行重组;
步骤(4)对重组的IMF分量进行Hilbert变换,同时计算瞬时能量谱序列,将瞬时能量谱特征量作为含噪语音端点检测的依据;
步骤(5)对瞬时能量谱序列进行分帧处理,将前5帧瞬时能量谱均值作为噪声的瞬时能量谱;
步骤(6)对分帧的瞬时能量谱序列运用起-止双门限阈值法进行语音端点检测,记录有效语音片段的起止点。
CN201310017877.7A 2013-01-17 2013-01-17 基于时频瞬时能量谱的低信噪比语音端点检测方法 Active CN103117066B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310017877.7A CN103117066B (zh) 2013-01-17 2013-01-17 基于时频瞬时能量谱的低信噪比语音端点检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310017877.7A CN103117066B (zh) 2013-01-17 2013-01-17 基于时频瞬时能量谱的低信噪比语音端点检测方法

Publications (2)

Publication Number Publication Date
CN103117066A true CN103117066A (zh) 2013-05-22
CN103117066B CN103117066B (zh) 2015-04-15

Family

ID=48415423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310017877.7A Active CN103117066B (zh) 2013-01-17 2013-01-17 基于时频瞬时能量谱的低信噪比语音端点检测方法

Country Status (1)

Country Link
CN (1) CN103117066B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103393484A (zh) * 2013-07-31 2013-11-20 刘洪运 用于电子耳蜗的语音处理方法
CN104198183A (zh) * 2014-09-17 2014-12-10 重庆大学 风电机组传动链振动噪声抑制及其早期故障特征提取方法
CN104715761A (zh) * 2013-12-16 2015-06-17 深圳百科信息技术有限公司 一种音频有效数据检测方法和系统
CN105679310A (zh) * 2015-11-17 2016-06-15 乐视致新电子科技(天津)有限公司 一种用于语音识别方法及系统
CN106531174A (zh) * 2016-11-27 2017-03-22 福州大学 基于小波包分解和声谱图特征的动物声音识别方法
CN106991998A (zh) * 2017-04-19 2017-07-28 重庆邮电大学 噪声环境下语音端点的检测方法
CN108053842A (zh) * 2017-12-13 2018-05-18 电子科技大学 基于图像识别的短波语音端点检测方法
CN108594177A (zh) * 2018-03-16 2018-09-28 西安电子科技大学 基于改进hht的雷达信号调制方式分析方法、信号处理系统
CN109036472A (zh) * 2018-07-19 2018-12-18 天津大学 一种改进的病理嗓音基音频率提取方法
CN109410977A (zh) * 2018-12-19 2019-03-01 东南大学 一种基于EMD-Wavelet的MFCC相似度的语音段检测方法
CN109448726A (zh) * 2019-01-14 2019-03-08 李庆湧 一种语音控制准确率的调整方法及系统
CN110232913A (zh) * 2019-06-19 2019-09-13 桂林电子科技大学 一种语音端点检测方法
CN110716532A (zh) * 2019-10-17 2020-01-21 哈尔滨工程大学 一种基于小波包能量与fft的水下机器人推进器弱故障辨识方法
WO2021093808A1 (zh) * 2019-11-13 2021-05-20 腾讯音乐娱乐科技(深圳)有限公司 一种有效语音信号的检测方法、装置及设备
WO2021093807A1 (zh) * 2019-11-13 2021-05-20 腾讯音乐娱乐科技(深圳)有限公司 一种瞬态噪声的检测方法、装置及设备
CN113347300A (zh) * 2021-05-31 2021-09-03 江苏爱谛科技研究院有限公司 一种用于协助听力受损人士进行助听的手机app
US12039999B2 (en) 2019-11-13 2024-07-16 Tencent Music Entertainment Technology (Shenzhen) Co., Ltd. Method and apparatus for detecting valid voice signal and non-transitory computer readable storage medium

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102097095A (zh) * 2010-12-28 2011-06-15 天津市亚安科技电子有限公司 一种语音端点检测方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102097095A (zh) * 2010-12-28 2011-06-15 天津市亚安科技电子有限公司 一种语音端点检测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘柏森: "《基于HHT复杂环境下低信噪比语音检测及增强方法研究》", 《中国博士学位论文全文数据库》 *
卢志茂等: "《基于HHT和OSF的复杂环境语音端点检测》", 《电子与信息学报》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103393484A (zh) * 2013-07-31 2013-11-20 刘洪运 用于电子耳蜗的语音处理方法
CN104715761A (zh) * 2013-12-16 2015-06-17 深圳百科信息技术有限公司 一种音频有效数据检测方法和系统
CN104715761B (zh) * 2013-12-16 2018-03-30 深圳市梦网百科信息技术有限公司 一种音频有效数据检测方法和系统
CN104198183A (zh) * 2014-09-17 2014-12-10 重庆大学 风电机组传动链振动噪声抑制及其早期故障特征提取方法
CN105679310A (zh) * 2015-11-17 2016-06-15 乐视致新电子科技(天津)有限公司 一种用于语音识别方法及系统
WO2017084360A1 (zh) * 2015-11-17 2017-05-26 乐视控股(北京)有限公司 一种用于语音识别方法及系统
CN106531174A (zh) * 2016-11-27 2017-03-22 福州大学 基于小波包分解和声谱图特征的动物声音识别方法
CN106991998A (zh) * 2017-04-19 2017-07-28 重庆邮电大学 噪声环境下语音端点的检测方法
CN108053842A (zh) * 2017-12-13 2018-05-18 电子科技大学 基于图像识别的短波语音端点检测方法
CN108594177A (zh) * 2018-03-16 2018-09-28 西安电子科技大学 基于改进hht的雷达信号调制方式分析方法、信号处理系统
CN109036472A (zh) * 2018-07-19 2018-12-18 天津大学 一种改进的病理嗓音基音频率提取方法
CN109410977A (zh) * 2018-12-19 2019-03-01 东南大学 一种基于EMD-Wavelet的MFCC相似度的语音段检测方法
CN109448726A (zh) * 2019-01-14 2019-03-08 李庆湧 一种语音控制准确率的调整方法及系统
CN110232913A (zh) * 2019-06-19 2019-09-13 桂林电子科技大学 一种语音端点检测方法
CN110716532A (zh) * 2019-10-17 2020-01-21 哈尔滨工程大学 一种基于小波包能量与fft的水下机器人推进器弱故障辨识方法
WO2021093808A1 (zh) * 2019-11-13 2021-05-20 腾讯音乐娱乐科技(深圳)有限公司 一种有效语音信号的检测方法、装置及设备
WO2021093807A1 (zh) * 2019-11-13 2021-05-20 腾讯音乐娱乐科技(深圳)有限公司 一种瞬态噪声的检测方法、装置及设备
US12039999B2 (en) 2019-11-13 2024-07-16 Tencent Music Entertainment Technology (Shenzhen) Co., Ltd. Method and apparatus for detecting valid voice signal and non-transitory computer readable storage medium
CN113347300A (zh) * 2021-05-31 2021-09-03 江苏爱谛科技研究院有限公司 一种用于协助听力受损人士进行助听的手机app

Also Published As

Publication number Publication date
CN103117066B (zh) 2015-04-15

Similar Documents

Publication Publication Date Title
CN103117066B (zh) 基于时频瞬时能量谱的低信噪比语音端点检测方法
CN108831499B (zh) 利用语音存在概率的语音增强方法
WO2021114733A1 (zh) 一种分频段进行处理的噪声抑制方法及其系统
CN101625869B (zh) 一种基于小波包能量的非空气传导语音增强方法
CN102652336B (zh) 声音信号复原装置以及声音信号复原方法
CN102097095A (zh) 一种语音端点检测方法及装置
CN107316653A (zh) 一种基于改进的经验小波变换的基频检测方法
CN101727906A (zh) 高频带信号的编解码方法及装置
CN110265065B (zh) 一种构建语音端点检测模型的方法及语音端点检测系统
CN104409078A (zh) 异常声音检测和识别系统
CN105489226A (zh) 一种用于拾音器的多窗谱估计的维纳滤波语音增强方法
CN105575405A (zh) 一种双麦克风语音激活检测方法及语音采集设备
CN102779527A (zh) 基于窗函数共振峰增强的语音增强方法
CN103021405A (zh) 基于music和调制谱滤波的语音信号动态特征提取方法
CN107221334B (zh) 一种音频带宽扩展的方法及扩展装置
CN107680610A (zh) 一种语音增强系统及方法
CN109102823B (zh) 一种基于子带谱熵的语音增强方法
Nian et al. A time domain progressive learning approach with snr constriction for single-channel speech enhancement and recognition
CN203165457U (zh) 一种可用于强噪声环境的语音采集装置
CN114512140A (zh) 语音增强方法、装置及设备
Jin et al. An improved speech endpoint detection based on spectral subtraction and adaptive sub-band spectral entropy
CN103971697A (zh) 基于非局部均值滤波的语音增强方法
TWI749547B (zh) 應用深度學習的語音增強系統
CN115966218A (zh) 一种骨导辅助的气导语音处理方法、装置、介质及设备
CN112270934B (zh) 一种nvoc低速窄带声码器的语音数据处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20201214

Address after: Room 3003-1, building 1, Gaode land center, Jianggan District, Hangzhou City, Zhejiang Province

Patentee after: Zhejiang Zhiduo Network Technology Co.,Ltd.

Address before: 310018 No. 2 street, Xiasha Higher Education Zone, Hangzhou, Zhejiang

Patentee before: HANGZHOU DIANZI University

Effective date of registration: 20201214

Address after: Room 1004-5, building 8, 3333 Guangyi Road, Daqiao Town, Nanhu District, Jiaxing City, Zhejiang Province

Patentee after: Jiaxing Xunfu New Material Technology Co.,Ltd.

Address before: Room 3003-1, building 1, Gaode land center, Jianggan District, Hangzhou City, Zhejiang Province

Patentee before: Zhejiang Zhiduo Network Technology Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201231

Address after: 224002 Building 5, No. 55, Taishan South Road, Yancheng Economic and Technological Development Zone, Jiangsu Province

Patentee after: Jiangsu Suya Heavy Industry Technology Co.,Ltd.

Address before: Room 1004-5, building 8, 3333 Guangyi Road, Daqiao Town, Nanhu District, Jiaxing City, Zhejiang Province

Patentee before: Jiaxing Xunfu New Material Technology Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210301

Address after: 224002 room 1209, business building, comprehensive bonded zone, No. 18, South hope Avenue, Yancheng Economic and Technological Development Zone, Jiangsu Province

Patentee after: Jiangsu Yanzong Industry Investment Development Co.,Ltd.

Address before: 224002 Building 5, No. 55, Taishan South Road, Yancheng Economic and Technological Development Zone, Jiangsu Province

Patentee before: Jiangsu Suya Heavy Industry Technology Co.,Ltd.

TR01 Transfer of patent right