CN1835073A

CN1835073A - 基于语音特征判别的静音检测方法

Info

Publication number: CN1835073A
Application number: CNA2006100396964A
Authority: CN
Inventors: 都思丹; 薛卫; 周余; 孔令红; 叶迎宪; 赵康涟
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2006-04-20
Filing date: 2006-04-20
Publication date: 2006-09-20
Anticipated expiration: 2026-04-20
Also published as: CN100573663C

Abstract

本发明公开了一种基于语音特征识别的静音检测方法，首先提取一帧音频数据的多门限过零率；用加权多门限过零率对静音进行预判，判别出明显的静音；提取一帧音频数据的复合特征，复合特征包括过零率、短时能量值、基于变分辨率频谱的Mel尺度倒谱系数；用二分类支持向量机对音频的复合特征加以判别，一类结果为正常语音，另一类为静音。本发明可以提高静音检测成功率，并能对一些特殊语音加以识别。本发明广泛适用于网络语音通话中，特别是在语音聊天、视频会议中具有广阔的市场前景。

Description

基于语音特征判别的静音检测方法

一、技术领域

本发明涉及音频处理方法，具体地说是一种用于网络语音通话的基于语音特征判别的静音检测方法。

二、背景技术

在人说话过程中，其声音可以分为静音和话音两部分，平均有60％时间是静音。而在多人交谈时，每一时刻，基本上只有一人说话，而其他的人则表现为静音。静音及由语音采集设备引入的噪声(包括气流噪音)和语音数据一样均在网络中传输，引起语音质量的降低。使用静音抑制技术，可以消除静音部分，能够节约50％以上的传输带宽，减少网络拥塞。

现有的静音检测方法包括提取音频信号特征值和用预先设定好的门限值比较来判定静音，传统静音检测方法使用的参数包括短时过零率、短时能量、自相关系数、但语音信号和某些背景噪声信号具有非平稳性，因而系统识别率效果差；而且，由于门限值是固定的，不能很好的适应不同噪声，故这些检测系统识别率都不高。

另外，随着网络语音通话的普及，大部分的应用集中在个人电脑平台上，为了使用便利，发言方一般都会选择佩戴耳麦进行交流，这就造成麦克风离人的鼻、嘴非常近，人自然呼吸产生的气流会进入麦克风并产生音频流。虽然这种音频信号比较弱，但它也是一种语音，而目前常用的一些静音检测方法(例如G.729B，G.723.1A等)会将部分气流噪声识别为正常语音，进一步降低了检测系统识别率。

三、发明内容

本发明的目的是提供一种基于语音特征识别的静音检测方法，该静音检测方法可以提高静音检测成功率，并能对一些特殊语音加以识别。

本发明的目的是通过以下技术方案来实现的：

一种基于语音特征判别的静音检测方法，其特征在于它包含以下步骤：

(1)提取一帧音频数据的多门限过零率，并对其用优选的加权值求和。多门限过零率检测法设3个高低不同的门限T₁、T₂、T₃，，且T₁＜T₂＜T₃，对每一帧用式(1)分别求相应于T₁、T₂、T₃的三种门限过零率Z₁、Z₂和Z₃。

Z_n＝∑{|sgn[x(n)-T_n]-sgn[x(n-1)-T_n]|+|sgn[x(n)+T_n]-sgn[x(n-1)+T_n]|} (1)

总过零率Z由下式表示：*w(n-w)

Z＝W₁Z₁+W₂Z₂+W₃Z₃

其中：W₁、W₂、W₃为过零率权值；Z₀定义为总过零率分界值。

(2)用多门限过零率加权和对静音进行预判，如果一帧音频数据的总过零率Z小于设定阈值Z₀，就判断其为静音，否则将该帧交由步骤(3)处理。

(3)提取一帧音频数据的复合特征，复合特征包括过零率、短时能量值、基于变分辨率频谱的Mel尺度倒谱系数；基于变分辨率频谱的Mel尺度倒谱系数的计算包括：小波分解与重构、傅立叶变换、Mel尺度倒谱提取模块。Mel尺度倒谱系数(C_MFCC)计算公式如下：

c_{MFCC} (i) = \sqrt{\frac{2}{L}} Σ_{l = 1}^{L} \log m (l) \cos {(l - \frac{1}{2}) \frac{iπ}{L}} - - - (2)

其中：

m (l) = Σ_{k = o (l)}^{h (l)} W_{l} (k) | X_{n} (k) |,

l＝1，2，...，L (3)

W_{l} (k) = \{\begin{matrix} \frac{k - o (l)}{c (l) - o (l)} & o (l) \leq k \leq c (l) \\ \frac{h (l) - k}{h (l) - c (l)} & c (l) \leq k \leq h (l) \end{matrix} - - - (4)

式中，o(1)、c(1)和h(1)分别是1个三角形滤波器的下限、中心和上限频率

(4)用二分类支持向量机对音频的复合特征加以判别，得到正常语音和静音两类结果，对于正常语音，压缩后传送到接收方，对于静音，只在部分帧中加入自适应噪声后压缩并传送到接收方。

本发明通过提取多种语音参数对语音进行分阶段检测，可以有效预判静音。对于在步骤(2)中未能识别的音频数据由后续步骤进行检测，步骤(3)中为了获得信号的整体频谱特征，先对该帧音频数据进行小波分解、重构和傅立叶变换组成变分辨率频谱，并提取该频谱的Mel尺度倒谱作为最终音频特征。步骤(4)中用支持向量机对音频数据的复合特征进行判别，得到最终判定结果。与现有技术相比，本发明使用支持向量机音频特征分类方法，相对于传统的分类方法，更具有严格的理论基础，该方法已在文本分类、图像识别等领域得到应用，取得了比传统的机器学习方法更好的分类效果，分类的正确率高，而且该方法具有较好的鲁棒性。

四、附图说明

图1是本发明方法的流程示意图；

图2是本发明中音频复合特征提取的原理图；

图3是本发明中小波分解树结构图；

五、具体实施方式

下面结合附图对本发明作详细说明。

一种本发明所述的基于语音特征判别的静音检测方法，见图1，具体检测过程中采用8kHz的采样频率，以80点作为一帧进行检测，每一帧10毫秒。它包含以下步骤：

(1)提取一帧音频数据的多门限过零率，并对其用优选的加权值求和。在步骤(1)中用到总过零率分界值Z₀与最佳权重向量(W₁、W₂、W₃)，它们的值必须在静音检测之前就设置好。为了确定它们的值，要收集至少2000帧不同环境下音频数据，其中一半是静音，一半是讲话语音。以多门限过零率检测产生的静音误判率为目标函数，遍历每一个权重向量和门限值取值范围，找出产生误判率最低的权重向量和门限值，这就是最佳权重向量和门限值Z₀。

(3)提取一帧音频数据的复合特征，复合特征包括过零率、短时能量值、基于变分辨率频谱的Mel尺度倒谱系数；基于变分辨率频谱的Mel尺度倒谱(MFCC)系数的提取如图2所示。对时域语音信号采用Daubechies4小波包变换把加窗信号分解成6个子带的系数，在各子带进行重构至第一次小波分解后系数尺寸，如图3所示。并对各子带系数进行归一化处理，随后对系数作FFT变换，将各子带系数求和组成变分辨率频谱，最后将变分辨率频谱送交MFCC提取模块。MFCC特征为L＝12个，支持向量机的内积函数选用径向基函数(σ²＝0.3)，支持向量机的训练方法可以采用SMO方法，本发明对此并无限制。

(4)用二分类支持向量机对音频的复合特征加以判别，得到两类结果，一类结果为正常语音，另一类为静音(包括气流噪音)。对于正常语音，系统可以用g.729、g.723等语音压缩方法进行压缩并发送到网络接收方。

本发明中，对于步骤(2)、步骤(4)中被判别为静音的帧，在实际使用中，如果使静音期间完全不传输声音，会使得听者觉得不舒适，因此需要人为地加入一些噪声使得听者觉得通信没有中断，加入的噪声需要保证使得发送方与接受方的噪声功率一致，但不是每一帧静音时都传输噪声，只是传输连续静音的第一帧即可。至于如何传输噪声本发明对此并无限制。

Claims

1、一种基于语音特征判别的静音检测方法，其特征在于它包含以下步骤：

(1)提取一帧音频数据的多门限过零率，并对其加权值求和，得到总过零率Z；

(2)用多门限过零率加权和对静音进行预判，一帧音频数据的总过零率Z小于设定阈值Z₀，判断其为静音，否则再进行识别处理；

(3)提取一帧音频数据的复合特征，复合特征包括过零率、短时能量值、基于变分辨率频谱的Mel尺度倒谱系数；

2、根据权利1所述的基于语音特征判别的静音检测方法，其特征在于：步骤(1)中，提取音频数据的3个多门限过零率，并对其加权值求和。

3、根据权利1所述的基于语音特征判别的静音检测方法，其特征在于：步骤(4)中，所述静音包括气流噪音。