CN101197130A

CN101197130A - 声音活动检测方法和声音活动检测器

Info

Publication number: CN101197130A
Application number: CN 200610161143
Authority: CN
Inventors: 严勤; 邓浩江; 王珺; 曾学文; 张军; 张立斌
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2006-12-07
Filing date: 2006-12-07
Publication date: 2008-06-11
Anticipated expiration: 2026-12-07
Also published as: CN101197130B; WO2008067719A1

Abstract

本发明公开了一种声音活动检测方法和声音活动检测器，其核心是：在需要进行声音活动检测时，提取当前信号帧的特征参数，根据所述特征参数以及设定的参数阈值确定所述当前信号帧归属的声音类别。通过本发明，在提取分类过程所使用的特征参数时，不依赖于某一具体的编码算法，方便了维护和更新；并且能将输入的信号分为更多的声音类别。当其应用在语音编码技术领域中时，不仅能够作为新开发的变速率音频编码算法和标准的速率选择依据，还可以为现有的没有VAD算法的变速率语音或音频编码标准提供一个速率选择的依据；本发明还能够应用于语音增强、语音识别、说话人识别等其它语音信号处理领域，具有很强的通用性。

Description

声音活动检测方法和声音活动检测器

技术领域

本发明涉及通信领域，尤其涉及语音信号处理技术。

背景技术

在语音信号处理领域，存在一种对语音活动性进行检测的技术，当其应用在语音编码技术中，称为语音活动检测(Voice Activity Detection，VAD)，当其应用在语音识别技术中，通常称为语音端点检测(Speech EndpointDetection)，而当其应用在语音增强技术中，则通常称之为语音间隙检测(SpeechPause Detection)。针对不同的应用场景，这些技术会有不同的侧重点，会产生不同的处理结果。但是它们的本质都是用来检测语音通信时是否有语音存在，检测结果的准确性直接影响着后续处理(如语音编码、语音识别和增强)的质量。

语音活动检测VAD技术主要针对输入到编码器内的语音信号而开发。在语音编码技术中，将输入到编码器内的音频信号分为两种：背景噪声和活动语音，然后对背景噪声和活动语音采用不同的速率进行编码，即对背景噪声用较低的速率进行编码，对活动语音用较高的速率进行编码，从而达到降低通信的平均码率，促进变速率语音编码技术的发展的目的。但随着编码技术向多码率、宽带方向的发展，输入编码器的信号呈多元化趋势，即不仅限于语音，还包含音乐和各种噪声，因此，在对输入信号进行编码前，需要对不同的输入信号进行区分，以便能够采用不同的码率，甚至采用不同的核心编码算法的编码器对不同的输入信号进行编码。

与本发明有关的现有技术一，是3GPP(the 3rd Generation PartnershipProject，第三代移动通信标准化伙伴项目)组织制订的针对但不限于第三代移动通信系统的多速率编码标准AMR-WB+(Adaptive Multi-Rate-Wideband)，其有代数码本激励线性预测(Algebraic Code Excited Linear Prediction，ACELP)和TCX(Transform coded excitation)模式两种核心编码算法，ACELP模式适合于语音信号编码，TCX适合于包含音乐的宽带信号，因此两种模式的选择可以认为是语音与音乐的选择。编码算法中ACELP和TCX的模式选择方法有开环和闭环两种，闭环选择是一种基于感知加权信噪比的遍历搜索的选择方式，与VAD模块无关；开环选择则是在采用AMR-WB+编码算法的VAD模块的基础上，增加了特征参数的短时和长时统计，并针对非语音特征进行了改进，能在一定程度上实现语音和音乐的分类；而且当连续选择ACELP模式的次数小于三次的情况下，仍会进行小规模的遍历搜索，且由于分类时用到的特征参数均通过编码算法得到，因此该方法与AMR-WB+编码算法的耦合非常密切。

与本发明有关的现有技术二，是3GPP2(the Third Generation PartnershipProject2，第三代移动通信标准化伙伴项目2)组织针对CDMA2000系统制定的多码率模式语音编码标准SMV(Selectable Mode Vocoder)，其有四种编码速率可供选择，分别为9.6、4.8、2.4和1.2kbps(实际净码率为8.55、4.0、2.0和0.8kbps)，以支持移动运营商在系统容量和语音质量之间灵活选择，其算法中含有音乐检测模块。该模块利用VAD模块计算出的部分参数来进一步计算音乐检测需要的参数，并在VAD检测之后执行，根据VAD模块的输出判决，以及所计算出的音乐检测需要的参数进行补充判断，输出音乐和非音乐的分类结果，因此与编码算法的耦合非常密切。

由现有技术可以看出，现有技术是在现有的语音编码标准中的VAD技术的基础上检测音乐信号的，因此和编码算法密切相关，即与编码器本身耦合性太大，独立性、通用性和可维护性普遍比较差，且在编码间的移植成本很高。

另外，现有的VAD算法均是针对语音信号而开发，所以只会将输入的音频信号分为两种：噪声和语音(非噪声)，即使包含音乐信号的检测，也只是作为VAD判决的一个修正和补充。因此，随着编解码算法应用场景从以处理语音为主逐步过渡到处理多媒体语音(包括多媒体音乐)，编解码算法本身也逐步从窄带到宽带扩展，所以随着应用场景的变化，现有VAD算法的简单的输出类别显然不足以描述各种各样的音频信号特性。

发明内容

本发明的实施例提供一种声音活动检测方法和声音活动检测器，其能够独立于编码算法提取信号的特征参数，并利用所提取出的特征参数判断输入的信号帧所归属的声音类别。

本发明的实施例通过如下的技术方案实现：

本发明的实施例提供一种声音活动检测方法，其包括：

在需要进行声音活动检测时，提取当前信号帧中的特征参数；

根据所述特征参数以及设定的参数阈值确定所述当前信号帧归属的声音类别。

本发明的实施例还提供一种声音活动检测器，其包括：

特征参数提取模块，用于在需要进行声音活动检测时，提取当前信号帧中的特征参数；

信号类别判定模块，用于根据所述特征参数以及设定的参数阈值确定所述当前信号帧归属的声音类别。

由上述本发明提供的具体实施方案可以看出，本发明的实施例是在需要进行声音活动检测时提取判断输入的信号帧所归属的声音类别的过程所使用的特征参数的，因此不依赖于某一具体的编码算法，独立进行，方便了维护和更新。

附图说明

图1为本发明提供的第一实施例的结构图；

图2为本发明提供的第一实施例中的信号预处理模块的工作原理图；

图3为本发明提供的第一实施例中的第一信号类别判定子模块的工作原理图；

图4为本发明提供的第一实施例中的第二信号类别判定子模块判定非噪声信号的类别时的工作原理图；

图5为本发明提供的第一实施例中的第二信号类别判定子模块判定不确定信号时的工作原理图。

具体实施方式

由于语音信号、噪声信号和音乐信号在频谱上具有不同的分布特点，而且语音、音乐和噪声序列的帧与帧之间的变化也都各自有各自的特点。本发明的实施例考虑首先基于这些信号帧的特点提取出各种音频信号的特征参数，然后根据这些特定参数对输入的窄带音频或宽带音频数字信号帧进行初级分类，将输入信号分为非噪声信号帧(即有用信号，包括语音和音乐)和噪声帧、静音信号帧。然后对判为非噪声的信号帧进一步分为浊音、清音和音乐信号帧。

本发明提供的第一实施例是一种声音活动检测器(General Sound ActivityDetection，GSAD)，其结构如图1所示，包括：信号预处理模块、特征参数提取模块和信号类别判定模块。其中，所述信号类别判定模块包括第一信号类别判定子模块和第二信号类别判定子模块。

各个模块之间的信号传递关系如下：

输入信号帧进入所述信号预处理模块，在此模块内对输入的数字声音信号序列进行频谱预加重和快速傅里叶变换(Fast Fourier Transform，FFT)，为下一步特征参数提取做好准备。

信号经所述信号预处理模块处理后，输入到所述特征参数提取模块以获得特征参数。为了降低系统的复杂度，GSAD的所有特征参数均在FFT频谱上提取。另外在这一模块中，还要提取和更新噪声参数，来计算信号的信噪比，以控制一些判决阈值的更新。

在信号类别判定模块中，首先通过第一信号类别判定子模块根据提取的特征参数对所述信号预处理模块输入的信号帧进行初级分类，将输入信号分为非噪声信号(即有用信号，包括语音和音乐)和噪声、静音信号。然后在第二信号类别判定子模块中，对所述第一信号类别判定子模块判为非噪声的信号进一步分为浊音、清音和音乐信号。这样通过两级分类，给出最终的信号分类结果，即噪声、静音、浊音、清音和音乐。

下面对各个模块的具体处理过程进行描述，如下：

一、信号预处理模块

信号预处理模块的工作原理如图2所示，对输入信号依次进行分帧、预加重、加窗、FFT变换等处理。

分帧：对输入的数字声音信号序列进行分帧处理，处理的帧长是10ms，帧移也是10ms，即帧与帧之间无重叠。若本实施例后续的处理系统，如编码器的处理帧长是10ms的倍数，则可以分成10ms的声音帧进行处理。

预加重：假设在n时刻的声音采样值为x(n)，则经过预加重处理后得到的语音采样值xp如公式[1]所示：

x_p(n)＝x(n)-αx(n-1).....................................公式[1]

其中，α(0.9＜α＜1.0)是预加重因子。

加窗：加窗处理是为了减小帧起始和结束处的信号的不连续性，其将预加重处理后得到的语音采样值xp按帧与hamming窗相乘，如公式[2]所示：

x_w(n)＝w(n)·x_p(n).......................................公式[2]

其中，(0≤n≤N-1)：w(n)为hamming窗函数：

w (n) = 0.54 - 0.46 \cos ((\frac{2 π}{N - 1}))

......................公式[3]

其中，(0≤n≤N-1)；N为hamming窗的窗长，对应于不同采样频率N取不同的值，对于采样频率分别为8kHz和16kHz的实施例，N分别是80和160。

FFT频谱变换：信号经过hamming窗加窗处理后，进行标准的FFT频谱变换，在8kHz和16kHz采样率下时变换的窗长为256，不够的补零，其它情况下酌情变换。

二、特征参数提取模块

特征参数提取模块主要功能是提取输入信号的特征参数，主要是频谱参数，所述频谱参数包括：短时特征参数及其类长时特征。所述短时特征参数包括：谱波动(spectral flux)，95％谱衰减(spectral rolloff)，过零率(zero crossingrate，zcr)，帧内频谱方差，低频信号带与全带能量比值；所述类长时特征则是各短时特征参数的方差和移动平均，其统计的帧数在本发明的一个实施例中取10帧，即100ms的时长。

下面给出这些特征参数的定义和计算公式。

定义x(i)表示一帧声音信号的第i个时域采样值，其中0≤i＜M；T表示帧数；M表示一帧信号的采样值数目；N表示FFT频谱变换的窗长度；U_pw(k)表示信号当前帧FFT变换后的频谱在频率k处的幅度值；var表示当前信号帧特征参数的方差。下面以采样率16kHz的声音信号为例，对短时特征参数提取作详细说明：

1、计算谱波动(flux)及其方差(var_flux)

谱波动(flux)的计算如公式[4]所示：

flux (i) = Σ_{k = 1}^{N} {(U_pw (k) - U_pw (k - 1))}^{2}

..................公式[4]

谱波动(flux)的方差(var_flux)的计算如公式[5]所示：

var_flux (i) = \frac{1}{10} Σ_{j = i - 10}^{i} {(flux (j) - \overset{&OverBar;}{flux} (i))}^{2}

..................公式[5]

其中，当输入音频信号的采样频率为16kHz时，flux(i)表示归一化可变谱波动参数从第i-10帧到第i帧的均值。

2、计算95％谱衰减(rolloff)以及95％谱衰减的方差(rolloff_var)

rolloff表示由低频向高频累积的能量占全带能量95％时的频率的位置，具体计算如公式[6]：

Rolloff = {\arg \max}_{k = 1}^{K} (Σ_{i = 1}^{k} U_pw (i) < 0.95 * Σ_{j = 1}^{N} U_pw (j))

.......公式[6]

95％谱衰减(rolloff)的方差(rolloff_var)的计算如公式[7]所示：

rolloff_var (i) = \frac{1}{10} Σ_{j = i - 10}^{i} {(rolloff (j) - \overset{&OverBar;}{rolloff} (j))}^{2}

..........公式[7]

其中，rolloff(j)表示95％谱衰减参数从第i-10帧到第i帧的均值。

3、计算过零率(zcr)：

zcr = \frac{1}{T} Σ_{i - 1}^{T - 1} II {x (i) x (i - 1) < 0}

...............................公式[8]

其中，II{A}的值由A决定，当A是truth时，II{A}的值为1，当A是false时，II{A}的值为0。

4、计算帧内频谱幅度的方差(magvar)：

magvar = \frac{2}{N} Σ_{j = \frac{N}{2}}^{N} {(U_pw (j) - \overset{&OverBar;}{U_pw})}^{2}

...............公式[9]

其中，U_pw表示当前高频部分的频谱均值。

5、计算低频带占全频带的能量比值(ratiol)：

ratiol = \frac{Σ_{i = R 1_F 1}^{R 1_F 2} U_{pw}^{2} (k)}{(\frac{Σ_{k = 1}^{N} U_{pw}^{2} (k)}{N} + 1) (R 1_F 2 - R 1_F 1)}

...............公式[10]

其中，R1_F1表示低频子带的下限R1_F2表示表示低频子带的上限。

由上述可见，在提取特征参数时，是通过一个独立的模块来提取的，并不是在进行编码算法过程中提取的，因此特征参数提取模块不依赖于任何现有的编码器。而且由于特征参数提取不依赖带宽，从而使得GSAD不依赖于信号采样率，系统的可移植性大大增强。

三、第一信号类别判定子模块

第一信号类别判定子模块的功能是将输入数字声音信号分成三类：静音、噪声信号和非噪声信号(即有用信号)。其主要通过初始化噪声参数，噪声判定和噪声更新三部分完成，在初始化噪声参数之前，根据当前环境(语音/音乐)调整初始化过程的长时要求，当前环境为语音时缩短初始化过程的长时要求，当前环境为音乐时，延长初始化过程的长时要求。

第一信号类别判定子模块的工作原理如图3所示：

首先，获取当前帧的特征参数；

然后，判断噪声参数估计值初始化过程是否完成：

若没有完成噪声参数估计值初始化过程，则根据当前信号帧的特征参数以及噪声参数阈值对当前信号帧进行噪声严格判定：将当前信号帧的特征参数与所述噪声参数阈值比较，并当比较结果属于噪声的范畴时，则说明严格判定结果是当前信号帧为噪声帧；否则，认为严格判定结果是当前帧为非噪声帧(即有用信号)：

在进行噪声判定时，可以采用当前信号帧的频谱幅度的方差magvar这一特征参数与所述噪声参数阈值比较，当当前信号帧的频谱幅度的方差magvar小于所述噪声参数阈值时，则说明严格判定结果是当信号帧为噪声帧；否则，认为严格判定结果是当前帧为非噪声帧(即有用信号)。

如果严格判定结果是当前帧为非噪声帧，则输出非噪声标志，并使用公式[11]计算当前帧的Posterior SNR(Signal-to-Noise Ratio，信噪比)。计算出的Posterior SNR用于调整静音、噪声、清音、浊音和音乐各特征参数的阈值。

PosteriorSNR = \frac{Σ_{k = 1}^{K} {U_pw (k)}^{2}}{σ_{n}}

...........................公式[11]

其中σ_n表示噪声的方差，K为子带数。

特征参数自适应调整和更新的目的是使判决流程在不同的信噪比条件下获得相同的判决结果。因为对同一段信号来说，在不同的信噪比(由PosteriorSNR来反映)下，其相同特征参数的值是有所区别的，也就是说信号的特征参数的值受信噪比的影响。因此，若在不同的信噪比下达到相同的判决结果，特征参数的判决门限即阈值要根据当前信号帧的信噪比自适应地更新，具体更新的方式由相应特征参数受信噪比的实际影响而定。

如果严格判定结果是当前信号帧为噪声帧，则继续根据所述当前信号帧的特征参数以及静音参数阈值进行静音判定，即将当前信号帧的信号能量与一个静音阈值进行比较，如果小于所述静音阈值，则判定当前信号帧为静音，于是输出静音标志；如果大于静音阈值，则说明当前信号帧不为静音，而是噪声帧，于是输出噪声标志，并根据当前噪声帧以及其之前的噪声帧初始化噪声参数估计值，同时记录当前判为噪声帧的信号帧的帧数；当记录的信号帧数量到达噪声参数估计值初始化需要的帧数量时，则标志噪声参数估计值初始化过程完成。其中，在初始化噪声参数估计值时涉及噪声频谱的均值E_n和方差σ_n，其计算公式分别如公式[12]和公式[13]所示：

{\overset{&OverBar;}{E}}_{n} = \frac{1}{T} Σ_{i = 1}^{T} U_PW

...........................................公式[12]

σ_{n} = \frac{1}{T} Σ_{t = 1}^{T} U_{PW}^{2}

......................................公式[13]

公式[12]和公式[13]中的U_PW是当前信号帧子带功率的矩阵向量。

若完成了初始化噪声参数估计值过程，则计算当前信号帧的特征参数与所述噪声参数估计值的频谱距离；并根据所述频谱距离进行噪声判定，即将所计算出的频谱距离与频谱距离阈值进行比较，若计算出的频谱距离小于设定的频谱距离阈值，则继续根据所述当前信号帧的特征参数以及静音参数阈值进行静音判定，即将当前信号帧的信号能量与一个静音阈值进行比较，如果小于所述静音阈值，则判定当前信号帧为静音，于是输出静音标志；如果大于静音阈值，则说明当前信号帧不为静音，而是噪声帧，于是输出噪声标志，并用当前信号帧的频谱均值E_n和方差σ_n更新所述噪声参数估计值，并输出所述噪声参数估计值。其更新公式分别如公式[14]和公式[15]所示：

{\hat{E}}_{n} (t) = (1 - β) {\overset{&OverBar;}{E}}_{n} (t - 1) + β {\overset{&OverBar;}{E}}_{n} (t)

..................公式[14]

\hat{σ} (t) = (1 - α) σ_{n} (t - 1) + α σ_{n} (t)

.................公式[15]

如果计算出的频谱距离大于设定的频谱距离阈值，则说明当前信号帧为非噪声帧，于是使用公式[11]计算当前信号帧的Posterior SNR，并用当前计算出的Posterior SNR调整信号的特征参数阈值，并输出非噪声(有用信号)标志。

四、第二信号类别判定子模块

若当前信号帧经第一信号类别判定子模块判决后，如果其类型判为噪声帧，则直接输出判决结果，如果判决为非噪声帧，则当前信号帧进入第二信号类别判定子模块进行浊音、清音和音乐信号的判决分类。具体的判决可分两步进行，第一步按照特征参数的特性对信号进行严格的判定，将非噪声信号判为浊音、清音、音乐类，使用的判定方式主要是硬判定(阈值判定)。第二步主要针对既属于浊音又属于音乐，或者既不属于浊音又不属于音乐的不确定信号进行判决，可以使用多种辅助判决方式，比如采用概率判决的方法，即用概率模型分别计算不确定信号属于浊音和音乐信号的概率，将概率最大的作为不确定信号的最终分类。所述概率模型可以为高斯混合模型GMM，其参数是特征参数提取模块提取的参数。

第一步的判决流程如图4所示，首先提取第一信号类别判定子模块输出的非噪声帧的特征参数，然后将所述非噪声信号帧的特征参数与清音参数阈值进行比较：

若所述非噪声信号帧的特征参数与清音参数阈值的比较结果属于清音的范畴，则判定所述非噪声信号帧为清音，并输出清音信号标志；判决清音时使用的特征参数可以是过零率(zcr)，若过零率(zcr)大于清音参数阈值，则将所述非噪声信号帧判定为清音，并输出清音信号标志。

若所述非噪声信号帧的特征参数与清音参数阈值的比较结果不属于清音的范畴，则继续判定所述非噪声信号帧是否属于浊音，若所述非噪声信号帧的特征参数与所述浊音参数阈值的比较结果属于浊音的范畴，则确定所述非噪声帧属于浊音，并设置浊音信号标志＝1；否则，确定所述非噪声帧不属于浊音，设置浊音信号标志＝0；判定浊音时使用的特征参数可以是谱波动(flux)及其方差(var_flux)，若谱波动(flux)大于与之相对应的浊音参数阈值，或谱波动方差(var_flux)大于与之相对应的浊音参数阈值，则将所述非噪声帧判定为浊音，并设置浊音信号标志＝1；否则，确定所述非噪声帧不属于浊音，设置浊音信号标志＝0。

若所述非噪声信号帧的特征参数与清音参数阈值的比较结果不属于清音的范畴，还要判定所述非噪声信号帧是否属于音乐的范畴，若所述非噪声信号帧的特征参数与所述音乐参数阈值的比较结果属于音乐的范畴，则确定所述非噪声帧属于音乐，并设置音乐信号标志＝1；否则，确定所述非噪声帧不属于音乐，并设置音乐信号标志＝0。判定音乐时使用的特征参数可以是谱波动方差(var_flux)的移动平均(varmov_flux)，若varmov_flux小于音乐参数阈值，则将所述非噪声帧判定为音乐，并设置音乐信号标志＝1；否则，确定所述非噪声帧不属于音乐，并设置音乐信号标志＝0。

若所述非噪声帧既属于浊音又属于音乐，或者所述非噪声帧既不属于浊音又不属于音乐，那么将信号判为不确定类信号，然后用第二步的辅助判决方法，比如概率判断，对不确定信号继续判决，将其判为浊音或音乐的一种，从而将非噪声最终分为浊音、清音和音乐。以采用概率判决的方式对不确定信号继续判决为例进行说明，具体如图5所示：

首先利用概率模型分别计算不确定信号帧属于浊音和音乐信号的概率，并将最大的概率值对应的声音类别作为不确定信号帧的最终分类；然后修改所述不确定信号帧的类型标志；最后输出所述信号帧的类型标志。

在利用概率判决方法时，还可以将所计算出的最大概率与设定概率阈值pth进行比较，如果所计算出的最大概率超过所述概率阈值pth，则对所述非噪声帧后续的信号帧进行拖尾处理；否则，不进行拖尾处理。

上述实施例中，当判别当前信号帧归属的声音类别时，所使用的特征参数可以是上述列举的特征参数之一，也可以为其组合。只要利用这些特征参数与特征参数阈值结合能够判断出当前信号帧归属的声音类别，均不脱离本发明的思想。

本发明提供的第二实施例是一种声音活动检测方法，其主要思想是：提取当前信号帧的特征参数；并根据所述特征参数以及设定的参数阈值确定所述当前信号帧归属的声音类别。其具体实施过程包括如下内容：

首先，对当前信号帧依次进行序列分帧处理、预加重处理、加窗处理和快速傅立叶变换FFT处理，得到相应的频域信号；然后提取得到的当前频域信号帧的特征参数。其中，预加重处理是为了增强输入的当前信号帧的频谱，加窗处理是为了减小帧起始和结束处的信号的不连续性。具体实现与第一实施例中的相关描述雷同，这里不再详细描述。

然后，判断是否完成噪声参数估计值初始化过程：

若未完成噪声参数估计值初始化过程，则根据所述特征参数以及设定的噪声参数阈值进行噪声严格判定：

将所述特征参数与所述设定的噪声参数阈值比较，并当比较结果属于噪声的范畴时，则判定所述当前信号帧为噪声帧，然后根据所述特征参数以及静音参数阈值进行静音判定：将所述特征参数与所述静音参数阈值比较，当比较结果属于静音的范畴时，则判定所述当前信号帧为静音帧，并输出相应的静音标志；否则，判定当前信号帧为噪声帧，并输出噪声帧标志，根据所述当前噪声帧及其之前的噪声帧计算噪声参数估计值；并记录当前判为噪声帧的信号帧的帧数；当记录的信号帧数量到达噪声参数估计值初始化需要的帧数量时，则标志噪声参数估计值初始化过程完成。具体实现与第一实施例中的相关描述雷同，这里不再详细描述。

当所述特征参数与所述设定的噪声参数阈值的比较结果不属于噪声的范畴时，则判定所述当前信号帧为非噪声帧，则计算所述当前信号帧的PosteriorSNR，并利用所述Posterior SNR调整所述设定的特征参数的阈值。具体实现与第一实施例中的相关描述雷同，这里不再详细描述。

当噪声参数估计值初始化过程完成后，计算当前信号帧的特征参数与所述噪声参数估计值之间的频谱距离，然后根据所述频谱距离与设定的频谱距离阈值，对当前信号帧进行噪声判定：

若所述频谱距离小于设定的频谱距离阈值，则判定所述当前信号帧为噪声帧，则继续根据所述当前信号帧的特征参数以及静音参数阈值进行静音判定，即将当前信号帧的信号能量与一个静音阈值进行比较，如果小于所述静音阈值，则判定当前信号帧为静音，于是输出静音标志；如果大于静音阈值，则说明当前信号帧不为静音，而是噪声帧，于是输出噪声标志，并利用所述当前帧的噪声参数更新所述噪声参数估计值；

否则，判定所述当前信号帧为非噪声，则计算所述当前信号帧的PosteriorSNR，并利用所述Posterior SNR调整设定的特征参数判决门限的阈值。具体实现与第一实施例中的相关描述雷同，这里不再详细描述。

经过上述过程能够判断出输入的当前信号帧属于噪声、静音和非噪声三类，之后还要判定当前信号帧具体属于哪种非噪声类别，具体如下：

当当前信号帧为非噪声时，根据清音参数阈值，以及所述当前信号帧的特征参数，判定所述当前信号帧是否为清音：

将当前信号帧的特征参数与清音参数阈值比较，当比较结果属于清音的范畴时，则判定所述当前信号帧为清音，则输出相应的清音标志；

否则，根据浊音参数阈值，以及所述当前信号帧的特征参数，判定所述当前信号帧是否为浊音：将所述当前信号帧的特征参数与所述浊音参数阈值比较，当比较结果属于浊音的范畴时，则判定所述当前信号帧为浊音；否则，判定所述当前信号帧不属于浊音；并且根据音乐参数阈值，以及所述当前信号帧的特征参数，判定所述当前信号帧是否为音乐：将所述当前信号帧的特征参数与所述音乐参数阈值比较，当比较结果属于音乐的范畴时，则判定所述当前信号帧为音乐；否则，判定所述当前信号帧不属于音乐。具体实现与第一实施例中的相关描述雷同，这里不再详细描述。

当所述当前信号帧既属于浊音又属于音乐，或，当所述当前信号帧既不属于浊音又不属于音乐时，利用概率模型分别计算所述当前信号帧属于浊音和音乐的概率，并选择大的概率值对应的声音类别作为当前信号帧的归属类别。具体实现与第一实施例中的相关描述雷同，这里不再详细描述。

比较所述大的概率值与概率阈值，当所述大的概率值大于所述概率阈值时，则根据当前信号帧所归属的声音类别对当前信号帧后续一定数量的信号帧进行拖尾处理。具体实现与第一实施例中的相关描述雷同，这里不再详细描述。

由上述本发明提供的具体实施方案可以看出，本发明的实施例在需要进行声音活动检测时提取分类过程所使用的特征参数，因此不依赖于某一具体的编码算法，独立进行，方便了维护和更新。另外，本发明的实施例根据提取得到的特征参数以及设定的参数阈值确定所述当前信号帧归属的声音类别，能将输入的窄带音频或宽带音频数字信号分为静音、噪声、浊音、清音和音乐五类，其应用在语音编码技术领域中时，不仅能够作为新开发的变速率音频编码算法和标准的速率选择依据，还可以为现有没有VAD算法的编码标准提供一个速率选择的依据；由于输出的信号类别比较多，所以本发明还能够应用于语音增强、语音识别、说话人识别等其它语音信号处理领域，具有很强的通用性。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种声音活动检测方法，其特征在于，包括：

在需要进行声音活动检测时，提取当前信号帧的特征参数；

2.如权利要求1所述的方法，其特征在于，在提取当前信号帧的特征参数的过程之前，包括：

对当前信号帧依次进行序列分帧处理和快速傅立叶变换FFT处理，得到相应的频域信号。

3.如权利要求2所述的方法，其特征在于，在提取当前信号帧的特征参数之前，还包括：

对当前信号帧进行序列分帧处理后得到的信号帧，进行预加重处理和/或加窗处理。

4.如权利要求1所述的方法，其特征在于，所述根据所述特征参数以及设定的参数阈值确定所述当前信号帧归属的声音类别的过程，具体包括：

根据所述特征参数以及设定的参数阈值，确定出所述当前信号帧归属的声音类别为噪声帧、静音帧或非噪声帧；并当所述当前信号帧为非噪声帧时，则根据所述特征参数以及设定的参数阈值确定出所述当前信号帧归属的声音类别。

5.如权利要求4所述的方法，其特征在于，根据所述特征参数以及设定的参数阈值，确定出所述当前信号帧归属的声音类别为噪声帧、静音帧或非噪声帧的过程，具体包括：

当未完成噪声参数估计值初始化过程时，根据所述特征参数以及噪声参数阈值进行噪声严格判定：

将所述特征参数与噪声参数阈值比较，若比较结果属于噪声的范畴，则判定所述当前信号帧为噪声帧，然后根据所述特征参数以及静音参数阈值进行静音判定：将所述特征参数与所述静音参数阈值比较，并当比较结果属于静音的范畴时，则判定所述当前信号帧为静音帧；否则，判定当前帧为噪声帧，根据所述当前噪声帧及其之前的噪声帧计算噪声参数估计值；

将所述特征参数与所述设定的噪声参数阈值比较，并当比较结果不属于噪声的范畴时，则判定所述当前信号帧为非噪声帧。

6.如权利要求5所述的方法，其特征在于，还包括：

当判定当前帧为噪声帧后，记录当前判为噪声帧的信号帧的帧数；当记录的信号帧数量到达噪声参数估计值初始化需要的帧数量时，则标志噪声参数估计值初始化过程完成。

7.如权利要求4所述的方法，其特征在于，所述根据所述特征参数以及设定的参数阈值，确定出所述当前信号帧归属的声音类别为噪声帧、静音帧或非噪声帧的过程，具体包括：

将所述频谱距离与设定的频谱距离阈值比较，并当比较结果属于噪声的范畴时，则判定所述当前信号帧为噪声帧，然后根据所述特征参数以及静音参数阈值进行静音判定：将所述特征参数与所述静音参数阈值比较，并当比较结果属于静音的范畴时，则判定所述当前信号帧为静音帧；否则，判定当前帧为噪声帧，并利用所述当前帧的信号参数更新所述噪声参数估计值；

否则，判定所述当前信号帧为非噪声帧。

8.如权利要求5或7所述的方法，其特征在于，还包括：

当判定当前信号帧为非噪声时，计算所述当前信号帧的Posterior SNR，并利用所述Posterior SNR调整设定的特征参数的阈值。

9.如权利要求4所述的方法，其特征在于，当当前信号帧为非噪声帧时，根据所述特征参数以及设定的参数阈值确定出所述当前信号帧归属的声音类别的过程，包括：

根据清音参数阈值，以及所述当前信号帧的特征参数，判定所述当前信号帧是否为清音：

将当前信号帧的特征参数与清音参数阈值比较，并当比较结果属于清音的范畴时，则判定所述当前信号帧为清音；

否则，根据浊音参数阈值，以及所述当前信号帧的特征参数，判定所述当前信号帧是否为浊音：将所述当前信号帧的特征参数与所述浊音参数阈值比较，当比较结果属于浊音的范畴时，则判定所述当前信号帧为浊音；否则，判定所述当前信号帧不属于浊音；并且根据音乐参数阈值，以及所述当前信号帧的特征参数，判定所述当前信号帧是否为音乐：将所述当前信号帧的特征参数与所述音乐参数阈值比较，并当比较结果属于音乐的范畴时，则判定所述当前信号帧为音乐；否则，判定所述当前信号帧不属于音乐。

10.如权利要求9所述的方法，其特征在于，当所述当前信号帧既属于浊音又属于音乐，或，当所述当前信号帧既不属于浊音又不属于音乐时，所述根据所述特征参数以及设定的参数阈值确定所述当前信号帧归属的声音类别的过程，还包括：

利用概率模型分别计算所述当前信号帧属于浊音和音乐的概率，并选择大的概率值对应的声音类别作为当前信号帧的归属类别。

11.如权利要求10所述的方法，其特征在于，当所述当前信号帧既属于浊音又属于音乐，或，当所述当前信号帧既不属于浊音又不属于音乐时，所述根据所述特征参数以及设定的参数阈值确定所述当前信号帧归属的声音类别的过程，还包括：

比较所述大的概率值与概率阈值，当所述大的概率值大于所述概率阈值时，则根据当前信号帧所归属的声音类别对当前信号帧后续一定数量的信号帧进行拖尾处理。

12.一种声音活动检测器，其特征在于，包括：

特征参数提取模块，用于在需要进行声音活动检测时，提取当前信号帧的特征参数；

13.如权利要求12所述的检测器，其特征在于，还包括：

信号预处理模块，用于对当前信号帧依次进行序列分帧处理和快速傅立叶变换FFT处理，并得到相应的频域信号提供给所述特征参数提取模块以及所述信号类别判定模块。

14.如权利要求13所述的检测器，其特征在于，所述信号预处理模块还用于：

15.如权利要求12所述的检测器，其特征在于，所述信号类别判定模块包括：

第一信号类别判定子模块，用于当未完成噪声参数估计值初始化过程时，根据所述特征参数以及设定的噪声参数阈值进行噪声严格判定：

若所述特征参数与所述设定的噪声参数阈值比较，比较结果属于噪声的范畴，则判定所述当前信号帧为噪声帧，然后根据所述特征参数以及静音参数阈值进行静音判定，若所述特征参数与所述静音参数阈值比较，比较结果属于静音的范畴，则判定所述当前信号帧为静音帧；否则，判定当前帧为噪声帧，根据所述当前噪声帧及其之前的噪声帧计算噪声参数估计值；

若所述特征参数与所述设定的噪声参数阈值比较，比较结果不属于噪声的范畴，则判定所述当前信号帧为非噪声帧。

16.如权利要求15所述的检测器，其特征在于，所述第一信号类别判定子模块还用于：

记录当前判为噪声帧的信号帧的帧数；当记录的信号帧数量到达噪声参数估计值初始化需要的帧数量时，则标志噪声参数估计值初始化过程完成。

17.如权利要求15所述的检测器，其特征在于，所述第一信号类别判定子模块还用于：

将所述频谱距离与设定的频谱距离阈值比较，当比较结果属于噪声的范畴时，根据所述特征参数以及静音参数阈值进行静音判定：将所述特征参数与所述静音参数阈值比较，并当比较结果属于静音的范畴时，则判定所述当前信号帧为静音帧；否则，判定所述当前信号帧为噪声帧，利用所述当前帧的噪声参数更新所述噪声参数估计值；

否则，判定所述当前信号帧为非噪声。

18.如权利要求15或17所述的检测器，其特征在于，所述第一信号类别判定子模块还用于：

19.如权利要求18所述的检测器，其特征在于，所述信号类别判定模块还包括：

第二信号类别判定子模块，用于当当前信号帧为非噪声时，根据清音参数阈值，以及所述当前信号帧的特征参数，判定所述当前信号帧是否为清音：

将当前信号帧的特征参数与清音参数阈值比较，当比较结果属于清音的范畴时，则判定所述当前信号帧为清音；否则，根据浊音参数阈值，以及所述当前信号帧的特征参数，判定所述当前信号帧是否为浊音：

将所述当前信号帧的特征参数与所述浊音参数阈值比较，当比较结果属于浊音的范畴时，则判定所述当前信号帧为浊音；否则，判定所述当前信号帧不属于浊音；并且根据音乐参数阈值，以及所述当前信号帧的特征参数，判定所述当前信号帧是否为音乐：将所述当前信号帧的特征参数与所述音乐参数阈值比较，当比较结果属于音乐的范畴时，则判定所述当前信号帧为音乐；否则判定所述当前信号帧不属于音乐。

20.如权利要求19所述的检测器，其特征在于，所述第二信号类别判定子模块还用于：

当所述当前信号帧既属于浊音又属于音乐，或，当所述当前信号帧既不属于浊音又不属于音乐时，利用概率模型分别计算所述当前信号帧属于浊音和音乐的概率，并选择大的概率值对应的声音类别作为当前信号帧的归属类别。

21.如权利要求20所述的检测器，其特征在于，所述第二信号类别判定子模块还用于：