CN103117066A

CN103117066A - 基于时频瞬时能量谱的低信噪比语音端点检测方法

Info

Publication number: CN103117066A
Application number: CN2013100178777A
Authority: CN
Inventors: 范影乐; 陈金龙; 倪红霞; 廖进文; 李丹菁
Original assignee: Hangzhou Dianzi University
Current assignee: Jiangsu Yanzong Industry Investment Development Co ltd
Priority date: 2013-01-17
Filing date: 2013-01-17
Publication date: 2013-05-22
Anticipated expiration: 2033-01-17
Also published as: CN103117066B

Abstract

本发明涉及一种基于时频瞬时能量谱的低信噪比语音端点检测方法。传统方法降噪效果不是很理想。本发明方法将时频瞬时能量谱特征作为端点检测的依据，首先对含噪语音进行小波包分解，并对分解后的低频分量进行重构。利用经验模态分解对重构后的信号进行处理，并运用相关系数阈值准则进行固有模态函数的筛选和剔除，获取有效IMF分量。重组得到的IMF分量，进行Hilbert变换并计算相应的瞬时能量谱，构成语音端点检测的特征向量。对得到的结果进行分帧处理，将前5帧瞬时能量谱均值作为噪声的瞬时能量谱，并采用语音起-止双阈值门限法进行含噪语音的端点检测。本发明使含噪语音的时频分辨能力得到显著的改善，提高了语音端点检测的效率。

Description

基于时频瞬时能量谱的低信噪比语音端点检测方法

技术领域

本发明属于语音处理领域，涉及一种基于时频瞬时能量谱的低信噪比语音端点检测方法。

背景技术

语音在采集传输以及通信过程中不可避免的会引入各种噪声，噪声的存在将会直接影响语音的清晰度和可懂度。对含噪语音信号进行端点检测，获得有效语音片段的起止点，对于后续的语音增强、编码以及识别工作起着非常重要的作用。目前传统的端点检测方法主要有平均能量、平均过零率、倒谱系数、短时频带方差、短时能频值、倒谱距离、自相关相似距离、信息熵以及谱熵等。但是它们都是基于语音信号具有短时线性平稳的假设，但实际上语音信号为非线性非平稳过程。同时现有的方法抗噪能力普遍不强，当信噪比较低时语音端点检测的准确率普遍不理想。NE.Huang博士于1998年提出了一种新的具有自适应的时频分析方法—Hilbert-Huang变换（HHT），特别适合于非线性、非平稳的含噪语音时频分析，但是其存在模态混叠等缺点，因此本发明提出了一种基于时频瞬时能量谱的低信噪比语音端点检测方法。

发明内容

本发明考虑到：(1)传统含噪语音端点检测都是基于语音短时线性平稳过程的假设且对于强噪声背景下的语音端点检测效果不理想；(2)针对含噪语音的HHT变换存在模态混叠从而降低语音信号时频分辨力的缺点，提出了基于时频瞬时能量谱的低信噪比语音端点检测方法。运用小波包分解对频带进行细分，低频部分中语音信号占主导，对分解的低频信号进行重构和EMD分解。同时利用相关系数阈值准则，对含噪语音EMD分解后的IMF分量进行筛选和剔除。重组得到的有效IMF分量，并对其进行Hilbert变换，计算瞬时能量谱作为语音端点检测的特征向量。本发明主要是基于Hilbert—Huang变换的语音信号处理，将小波包分解作为含噪语音信号的预处理，改善了含噪语音信号的时频分辨能力，同时使其满足Hilbert-Huang变换中经验模态函数单一振荡模态的要求，有效的避免了模态混叠的发生。引入相关系数阈值准则对IMF分量进行筛选，避免Hilbert谱中出现虚假频率。同时将瞬时能量谱作为端点检测的特征量，作为区分语音和噪声时频特性的依据，有利于提升端点检测的准确率以及算法性能的稳定性。

本发明时频瞬时能量谱的低信噪比语音端点检测方法包括以下步骤：

步骤（1）对加汉明窗的含噪语音进行小波包分解，并对分解后的信号进行重构。

步骤（2）对重构的低频信号进行自适应EMD分解处理，得到有限个IMF分量。

步骤（3）采用相关系数阈值准则，对IMF分量进行筛选，得到有效的IMF分量，并进行重组。

步骤（4）对重组的IMF分量进行Hilbert变换，同时计算瞬时能量谱序列，将瞬时能量谱特征量作为含噪语音端点检测的依据。

步骤（5）对瞬时能量谱序列进行分帧处理，将前5帧瞬时能量谱均值作为噪声的瞬时能量谱。

步骤（6）对分帧的瞬时能量谱序列运用起-止双门限阈值法进行语音端点检测，记录有效语音片段的起止点。

本发明的有益效果：

1、由于语音信号具有非线性非平稳的特征，本发明采用具有自适应非线性非平稳的时频分析方法Hilbert—Huang变换，提取瞬时能量谱作为特征量，进行含噪语音端点检测，有利于提高含噪语音端点检测的准确率。

2、本发明基于小波包分解的Hilbert—Huang变换瞬时能量谱含噪语音端点检测，与传统强噪声背景下的端点检测方法不同，后者先对含噪语音进行降噪处理，然后再运用传统端点检测方法进行语音端点检测，其降噪效果的优劣直接影响着语音端点检测的准确率。而本发明是利用语音和噪声在时频谱上的特征差异，在含噪语音信号基础直接进行端点检测。

3、引入小波包分解克服了Hilbert—Huang变换的模态混叠缺点，使其满足经验模态函数单一振荡模态的要求，同时小波包将频带范围进行了细分，由于小波包具有良好的正交性与自适应性，改善了含噪语音信号的时频分辨力。

4、相关系数阈值准则的引入剔除了含噪语音中相关性较差的IMF分量，有效的避免了Hilbert谱中虚假频率的出现，同时减少了程序运行的时间，改善了语音端点检测的稳定性。

附图说明

图1为含噪语音信号示意图；

图2为小波包分解二叉树示意图；

图3为EMD分解后前7个IMF示意图；

图4为含噪语音Hilbert图；

图5为含噪语音瞬时能量谱图。

具体实施方式

以下结合附图对本发明作进一步说明，本发明方法的具体步骤是：

步骤（1）对强噪声背景下的含噪语音信号

Figure 2013100178777100002DEST_PATH_IMAGE002

（如图1所示）加汉明窗处理。利用Daubechies中的db3小波基函数对加窗含噪语音信号进行3层小波包分解，其中小波包分解二叉树示意图如图2所示。将分解后的结果进行重构，得到重构信号，记为，其对应的频带范围分别为

Figure 2013100178777100002DEST_PATH_IMAGE006

，其中为最小的频率分辨率，

Figure 2013100178777100002DEST_PATH_IMAGE010

，为采样频率。

步骤（2）将重构获得的低频分量信号进行自适应EMD分解（前7个IMF分量如图3所示），从而得到有限个IMF分量

Figure 2013100178777100002DEST_PATH_IMAGE016

和残余信号

Figure 2013100178777100002DEST_PATH_IMAGE018

。

步骤（3）按式(1) 分别计算每个IMF分量

与重构低频分量信号的相关系数

，根据式(2)确定相关系数阈值，对IMF分量进行筛选，筛选规则为：当

Figure 2013100178777100002DEST_PATH_IMAGE022

时保留

Figure 2013100178777100002DEST_PATH_IMAGE024

分量，否则将该

分量剔除。将筛选后保留的IMF分量重组，得到有效的IMF分量

Figure 2013100178777100002DEST_PATH_IMAGE026

。

Figure 2013100178777100002DEST_PATH_IMAGE028

（1）

其中

Figure 2013100178777100002DEST_PATH_IMAGE030

为IMF分量

序列，

为重构低频分量信号

序列，

Figure 2013100178777100002DEST_PATH_IMAGE034

为采样点数，

Figure 2013100178777100002DEST_PATH_IMAGE036

为

序列的均值，

Figure 2013100178777100002DEST_PATH_IMAGE038

为序列的均值。

（2）

其中

表示相关系数的中值，

为比例因子，一般

。

步骤（4）将经过相关系数阈值准则筛选出来的有效IMF分量

，按式(3)进行Hilbert变换得到

，由式(4) 构造解析信号

：

（3）

（4）

其中

为解析信号幅值，为相角，由式(5)求得：

（5）

瞬时频率

可以由式(6)定义：

（6）

从而原始含噪语音信号

可以由式(7)表示：

（7）

式(7)反映了信号的幅值和瞬时频率都是时间的函数，从而可以在时频平面中将幅值表示成时间和瞬时频率的函数

，即原始信号的Hilbert谱如图4所示。按照式(8)计算瞬时能量谱序列

如图5所示：

（8）

步骤（5）对获得的瞬时能量谱序列进行分帧处理，设定满足要求的帧长和帧移，同时将前5帧瞬时能量谱均值作为噪声瞬时能量谱

。

步骤（6）对分帧的瞬时能量谱序列运用起-止双门限阈值法进行含噪语音端点检测，若

则继续检测，如果

则记录为语音开始点，直到

则记录为语音结束点；如果语音结束点与语音开始点之差小于长度阈值，则认为检测得到的语音起点和终点均为干扰点，将它们舍弃；然后对后续瞬时能量谱序列继续重复步骤（6）进行语音端点检测，直到检测到有效的语音端点或语音序列结束为止。其中

分别为比例因子，

为有效语音片段长度阈值，一般取

。