CN101256772B

CN101256772B - 确定非噪声音频信号归属类别的方法和装置

Info

Publication number: CN101256772B
Application number: CN 200710080333
Authority: CN
Inventors: 严勤; 邓浩江; 王珺; 曾学文; 张军; 张立斌; 王喆
Original assignee: Huawei Technologies Co Ltd
Current assignee: Jingjiang City Chengzhong Village Investment And Construction Co ltd
Priority date: 2007-03-02
Filing date: 2007-03-02
Publication date: 2012-02-15
Anticipated expiration: 2027-03-02
Also published as: WO2008106852A1; CN101256772A

Abstract

本发明公开了一种确定非噪声音频信号归属类别的方法和装置，其首先获取非噪声音频信号的频谱特征参数；然后，在频域范围内，根据所述非噪声音频信号的频谱特征参数，以及设定的特征参数阈值，确定当前非噪声音频信号归属类别。可以看出，其是根据非噪声音频信号的频谱特征参数，来确定当前非噪声音频信号的归属类别的，因此本发明的实施例能够脱离编码算法而存在，从而具有独立性以及可移植性。

Description

确定非噪声音频信号归属类别的方法和装置

技术领域

本发明涉及通信领域，尤其涉及确定有用信号归属类别的技术。

背景技术

随着宽带技术的发展，目前的音频信号也呈现多元化趋势：不仅仅限于语音、还包含音乐、清音和各种噪声等音频信号。通常将所述语音、音乐和清音音频信号，总称为非噪声音频信号；将各种噪声音频信号称为噪声音频信号。为了对不同的音频信号采取适宜的编解码算法，需要在编解码非噪声音频信号之前，确定出各种非噪声音频信号的归属类别。

在音频信号处理领域，目前存在一些能够判别出音乐信号和语音信号的编码器，如AMR-WB(Adaptive Multi-Rate-Wideband，多速率编码标准)和SMV(Selectable Mode Vocoder，多码率模式语音编码标准)。其判别音乐信号和语音信号的基本思想如下：在对音频信号进行编解码之前，提取出编解码时所使用的时域特征参数；然后利用所述时域特征参数，将音频信号中的音乐信号和语音信号判别出来。

可以看出，上述音频信号的判别过程只能使用编码算法涉及到的时域特征参数，因此这种确定音频信号的归属类别的方法必须依赖于编码算法而存在，不具有独立性以及可移植性。

发明内容

本发明的实施例提供一种确定非噪声音频信号归属类别的方法和装置，其能够脱离编码算法而存在。

本发明的实施例通过如下技术方案实现：

本发明的实施例提供一种确定非噪声音频信号归属类别的方法，其包括：

获取非噪声音频信号的频谱特征参数，所述特征参数包括如下中的至少一个：谱波动flux；谱波动方差flux_var；谱波动方差移动平均flux_var_mov；低频带占全频带的能量比率ratio1；x％谱衰减Rolloff_x，x为大于零且小于100的数值；时域过零率zcr；谱衰减方差rolloff_var；频域过零率fzcr；

在频域范围内，根据所述非噪声音频信号的频谱特征参数，以及设定的特征参数阈值，确定当前非噪声音频信号归属类别，包括：

根据获取到的如下特征参数的一个或多个：时域过零率zcr；低频带占全频带的能量比率ratio1，以及相应的特征参数阈值，对当前非噪声音频信号进行清音归属类别的判决；以及，

根据获取到的如下特征参数中的一个或多个：谱波动flux；谱波动方差var_flux；谱波动方差移动平均flux_var_mov；时域过零率zcr，以及相应的特征参数阈值，对当前非噪声音频信号进行语音归属类别的判决；以及，

根据获取到的x％谱衰减Rolloff_x特征参数，以及相应的特征参数阈值，对当前非噪声音频信号进行语音归属类别的判决；以及，

根据获取到的如下特征参数的一个或多个：谱波动方差移动平均flux_var_mov；x％谱衰减Rolloff_x，以及相应的特征参数阈值，对当前非噪声音频信号进行音乐归属类别的判决。

本发明的实施例还提供一种确定非噪声音频信号归属类别的装置，其包括：

特征参数获取单元，用于获取非噪声音频信号的频谱特征参数，所述特征参数包括如下中的至少一个：谱波动flux；谱波动方差flux_var；谱波动方差移动平均flux_var_mov；低频带占全频带的能量比率ratio1；x％谱衰减Rolloff_x，x为大于零且小于100的数值；时域过零率zcr；谱衰减方差rolloff_var；频域过零率fzcr；

归属类别确定单元，用于在频域范围内，根据所述非噪声音频信号的频谱特征参数，以及设定的特征参数阈值，确定当前非噪声音频信号归属类别；

所述归属类别确定单元包括：

清音判别子单元，用于根据获取到的如下特征参数的一个或多个：时域过零率zcr；低频带占全频带的能量比率ratio1，以及相应的特征参数阈值，对当前非噪声音频信号进行清音归属类别的判决；以及，

语音判别子单元，用于根据获取到的如下特征参数中的一个或多个：谱波动flux；谱波动方差var_flux；谱波动方差移动平均flux_var_mov；时域过零率zcr；x％谱衰减Rolloff_x，以及相应的特征参数阈值，对当前非噪声音频信号进行语音归属类别的判决；以及，

音乐判别子单元，用于根据获取到的如下特征参数的一个或多个：谱波动方差移动平均flux_var_mov；x％谱衰减Rolloff_x，以及相应的特征参数阈值，对当前非噪声音频信号进行音乐归属类别的判决。

本发明的实施例还提供一种清音判别装置，其包括：

第一获取单元，用于获取音频信号的频谱特征参数；

附图说明

清音判别单元，用于根据获取到的如下特征参数的一个或多个：时域过零率zcr；低频带占全频带的能量比率ratio1，以及相应的特征参数阈值，对当前非噪声音频信号进行清音归属类别的判决，包括：

判断下述条件中的一个或多个是否满足：时域过零率zcr是否大于时域过零率阈值THR_ZCR；低频带占全频带的能量比率ratiol是否大于低频带占全频带的能量比率阈值THR_RA；

若其中至少一个满足条件，则确定当前非噪声帧归属于清音类别，并置清音拖尾标志为第一设定值；否则，确定当前非噪声帧不属于语音类。

本发明的实施例还提供一种语音判别装置，其包括：

第二获取单元，用于获取音频信号的频谱特征参数；

语音判别单元，用于根据获取到的谱波动flux和时域过零率zcr，和如下特征参数中的一个或多个：谱波动方差var_flux，谱波动方差移动平均flux_var_mov，x％谱衰减Rolloff_x；以及相应的特征参数阈值，对当前非噪声音频信号进行语音归属类别的判决。

本发明的实施例还提供一种音乐判别装置，其包括：

第三获取单元，用于获取音频信号的频谱特征参数；

音乐判别单元，用于根据获取到的如下特征参数的一个或多个，以及相应的特征参数阈值，对当前非噪声音频信号进行音乐归属类别的判决：谱波动方差移动平均flux_var_mov；x％谱衰减Rolloff_x。

由上述本发明的实施例提供的具体实施方案可以看出，其是根据非噪声音频信号的频谱特征参数，来确定当前非噪声音频信号的归属类别的，因此本发明的实施例能够脱离编码算法而存在，从而具有独立性以及可移植性。

图1为本发明提供的第一实施例的流程图；

图2为本发明提供的第一实施例中的初始判决逻辑流程图；

图3为本发明提供的第一实施例中的修定判决逻辑流程图；

图4为本发明提供的第二实施例的结构原理图；

图5为本发明提供的第三实施例的结构原理图；

图6为本发明提供的第四实施例的结构原理图；

图7为本发明提供的第五实施例的结构原理图。

本发明提供的第一实施例是一种确定非噪声音频信号归属类别的方法，其实施过程如图1所示，包括：

步骤S100，获取非噪声音频信号的频谱特征参数。

对于输入的非噪声音频信号，其具有的频谱参数，主要包括：短时特征参数及其类长时特征参数。所述短时特征参数包括：谱波动(flux)，95％谱衰减(spectral rolloff)，x％谱衰减Rolloff_x(如50％谱衰减(Rolloff_half))，低频带占全频带的能量比率ratiol，时域过零率zcr(zero crossing rate，zcr)；频域过零率fzcr；所述类长时特征则是各短时特征参数的方差和移动平均，如谱波动方差flux_var；谱波动方差移动平均flux_var_mov；谱衰减方差rolloff_var。

在所述第一实施例中，取10帧，即100ms的时长统计上述特征参数，下面给出这些特征参数的定义和计算公式：

定义x(i)表示一帧声音信号的第i个时域采样值，其中0≤i＜M；M表示一帧信号的采样值数目；T表示帧数；U_pw_i是第i帧的信号频谱；N是FFT(Fast Fourier Transform，快速傅立叶变换)的长度，flux(i)为第i帧谱波动，

Figure DEST_PATH_S07180333X20070309D000041

和是第i帧谱波动移动平均，频谱移动平均和谱衰减移动平均。下面以采样率16kHz的声音信号为例，对特征参数作详细说明：

1、谱波动flux及其衍生的谱波动方差flux_var和谱波动方差移动平均flux_var_mov。

谱波动flux特征参数描述了帧和帧之间的变化。对音乐信号而言，flux比较低，平稳，而语音信号的flux通常比较高，变化大。其可以采用公式1计算得到；谱波动方差flux_var和谱波动方差移动平均flux_var_mov分别采用公式2和公式3计算得到：

flux (i) = \frac{norm (Σ_{j = N 1,}^{N 2} U_{pw}_{i} (j) - U_{pw}_{i} (j - 1))}{\max (avg_flux, norm (Σ_{j = 1}^{N} U_{pw}_{i} (j) - U_{pw}_{i} (j - 1)))}

..........................公式1

flux_var (i) = \frac{1}{10} Σ_{k = i - 10}^{i} {(flux (k) - \overset{&OverBar;}{{flux}_{i}})}^{2}

..........................公式2

flux_var_mov = \overset{&OverBar;}{var_{flux}_{i}} = \frac{1}{10} Σ_{k = i - 10}^{i} var_flux (k)

..........................公式3

其中，norm(·)是归一化函数。

2、低频带占全频带的能量比率ratio1。

该特征参数描述了低频段子带能量占总能量的比例。通常语音信号的ratio1比较高，音乐信号的ratio1比较低。其计算公式如公式4所示：

ratio 1 (i) = \frac{Σ_{k = R 1_F 1}^{R 1_F 2} U_{pw}_{i}^{2} (k)}{(\frac{Σ_{k = 1}^{N} U_{pw}^{2} (k)}{N} + 1) (R 1_F 2 - R 1_F 1)}

..........................公式4

3、95％谱衰减(Rolloff)、50％谱衰减(Rolloff_half)及谱衰减方差(rolloff_var)。

其中，Rolloff表示占全带95％能量的点的位置；Rolloff_half表示占全带50％能量的点的位置。

通常语音信号谱衰减的点比较低，音乐信号的谱衰减的点比较高。Rolloff和rolloff_var的计算公式分别如公式5和公式6所示：

Rolloff (i) = \max_{j} (Σ_{k = 1}^{j} U_{pw}_{i} (k) \leq 0.95 * Σ_{l = 1}^{N} U_{pw}_{i} (l))

..........................公式5

rolloff_var (i) = \frac{1}{m} Σ_{k = i - m}^{i} {(Rolloff (k) - \overset{&OverBar;}{{Rolloff}_{i}})}^{2}

..........................公式6

Rolloff_half的计算公式如公式7所示：

Rolloff_half (i) = \max_{j} (Σ_{k = 1}^{j} U_{pw}_{i} (k) \leq 0.5 * Σ_{l = 1}^{N} U_{pw}_{i} (l))

..........................公式7

4、时域过零率zcr。

该特征参数主要用来检测清音。由于语音中会间隔出现清音，故会出现较音乐高的zcr。其计算公式如公式8所示：

zcr = \frac{1}{T} Σ_{i - 1}^{T - 1} II {x (i) x (i - 1) < 0}

..........................公式8

公式8中，函数II{A}表示当A是truth时，II{A}是1；当A是false时，II{A}为0.

5、频域过零率fzcr。

所述fzcr表示一个衡量频域内，某帧信号在不同频率的能量起伏的程度。对语音信号而言，fzcr可以看作是共振峰的一种初步算法。其可以通过如下方式获得：截取非噪声音频信号帧的至少一段频谱信号；对所截取的每一段频谱信号进行归一化处理；并对归一化处理后的频谱信号，进行去掉平均值的整理处理，并计算整理过的频谱信号的过零率。具体可以采用公式9至公式13计算得到：

U_{avg}_{i} (t) = \frac{1}{N 2 (t) - N 1 (t)} Σ_{n = N 1 (t)}^{N 2 (t)} U_{pw}_{i} (n)

..........................公式9

对于n∈[N1(t)，N2(t)]，存在：

U_mov_i(t，n)＝U_mov O_i(n)-U_avg_i(t)

..........................公式10

其中所述U_movO_i(n)如公式11所示：

U_movO_i(n)＝[U_pw_i(n)+U_pw_i(n-1)+U_pw_i(n+1)]/3

..........................公式11

于是有：

K (t) = \frac{1}{T} Σ_{n - 1}^{T - 1} II {U_{mov}_{i} (t, n) \times U_{mov}_{i} (t, n - 1) < 0}

..........................公式12

fzcr (i) = Σ_{t = 1}^{4} K (t)

..........................公式13

其中所述N1和N2是频域子带起始点，例如可以为N1＝[188Hz，1500Hz，2500Hz，3750Hz]，N2＝[1500Hz，2500Hz，3750Hz，8000Hz]；所述U_pw_i(n)是第i帧的信号频谱；所述U_mov(t，i)是第i帧的t子段的移动平均；所述T表示帧数。

当获取到上述特征参数后，执行步骤S200，在频域范围内，根据所述非噪声音频信号的特征参数，以及设定的特征参数阈值，确定当前非噪声音频信号归属类别。

步骤S200中利用上述特征参数组合进行逻辑判断时，首先进行初步逻辑判定，将非噪声音频信号进行语音和音乐的初始分类，分成4类：清音，语音，音乐和不确定信号；然后进行修正逻辑判定，即对经过初步逻辑判定后得到的不确定信号进一步进行判决，使之可以归属为语音或音乐。如下：

首先进行初步逻辑判定，将非噪声音频信号进行语音和音乐的初始分类，分成4类：清音，语音，音乐和不确定信号。具体实施过程如图2所示：

步骤S101，置语音标志和音乐标志为0，即Speech_flag＝0且Music_flag＝0。

接下来同时进行如下判断：

步骤S102，根据如下特征参数的一个或多个：时域过零率zcr，低频带占全频带的能量比率ratio1，判断当前非噪声音频信号是否归属于清音。以及，

步骤S103，根据如下特征参数的一个或多个：谱波动flux；谱波动方差flux_var；谱波动方差移动平均flux_var_mov；时域过零率zcr，判断当前非噪声音频信号是否归属于语音。以及，

步骤S104，根据x％谱衰减Rolloff_x，如50％谱衰减Rolloff_half特征参数，判断当前非噪声音频信号是否归属于语音。以及，

步骤S105，根据上一帧音频信号的清音拖尾标志ZCR_hangover_flag、谱波动拖尾标志Flux_hangover_flag或谱衰减拖尾标志Rollhalf_hangover_flag，判断当前非噪声音频信号是否归属于语音。以及，

步骤S106，根据如下特征参数的一个或多个：谱波动方差移动平均flux_var_mov；x％谱衰减Rolloff_x，判断当前非噪声音频信号是否归属于音乐。以及，

步骤S107，根据上一帧的谱波动方差移动平均拖尾标志flux_var_mov_hangover_flag判断当前非噪声音频信号是否归属于音乐。

上述步骤S102中，若确定出当前音频信号归属于清音，则执行步骤S108，即置清音拖尾标志ZCR_hangover_flag为第一设定值，如ZCR_hangover_flag＝20。然后执行步骤S109，即输出清音标识。否则，执行步骤S113，即保持Speech_flag＝0，表示当前非噪声帧为既不属于语音类。具体实现可以按照如下情况进行：

判断下述条件中的一个或多个是否满足：时域过零率zcr是否大于时域过零率阈值THR_ZCR；低频带占全频带的能量比率ratio1是否大于低频带占全频带的能量比率阈值THR_RA；若其中一个满足条件，则确定当前非噪声帧归属于清音类别，清音拖尾标志ZCR_hangover_flag为第一设定值，如ZCR_hangover_flag＝20；否则，执行步骤S113，即保持Speech_flag＝0。

步骤S103中，若确定出当前音频信号归属于语音，则执行步骤S110，即置谱波动拖尾标志Flux_hangover_flag为第二设定值，如Flux_hangover_flag＝20；然后执行步骤S112，输出语音标识，即置Speech_flag＝1。否则，执行步骤S113，即保持Speech_flag＝0，表示当前非噪声帧不属于语音类。具体实现可以按照如下情况进行：

判断下述条件中的一个或多个是否满足：

谱波动flux是否大于谱波动阈值THR_FLUX；谱波动方差flux_var是否大于谱波动方差阈值THR_FLUX_VAR；谱波动flux是否大于第一谱波动方差函数f₁(flux_var)，如f₁(flux_var)＝0.7-20*flux_var；谱波动flux是否小于第二谱波动方差函数f₂(flux_var)，如f₂(flux_var)＝8*(flux_var)；zcr是否大于谱波动方差移动平均函数f(flux_var_mov)，如f(flux_var_mov)＝60-2609*flux_var_mov；

若其中一个条件满足，则确定当前非噪声音频信号归属于语音类别，置谱波动拖尾标志Flux_hangover_flag为第二设定值，如Flux_hangover_flag＝20；然后置Speech_flag＝1；否则，执行步骤S113，即保持Speech_flag＝0，表示当前非噪声帧不属于语音类。

步骤S104中，若确定出当前音频信号归属于语音，则执行步骤S111，即置谱衰减拖尾标志Rollhalf_hangover_flag为第三设定值，如Rollhalf_hangover_flag＝20；然后执行步骤S112，输出语音标识，即置Speech_flag＝1。否则，执行步骤S113，即保持Speech_flag＝0，表示当前非噪声帧不属于语音类。具体实现可以按照如下情况进行：

判断下述条件中的一个或多个是否满足：

x％谱衰减Rolloff_half是否小于x％谱衰减阈值THR_ROLL；若满足，则确定当前非噪声音频信号归属于语音类别，置谱衰减拖尾标志Rollhalf_hangover_flag为第三设定值，如Rollhalf_hangover_flag＝20；然后置Speech_flag＝1；否则，执行步骤S113，即保持Speech_flag＝0，表示当前非噪声帧为非语音类。

步骤S105中，若确定出当前音频信号归属于语音，则执行步骤S111，输出语音标识，即置Speech_flag＝1。否则，执行步骤S113，即保持Speech_flag＝0，表示当前非噪声帧为非语音类。具体实现可以按照如下情况进行：

判断是否满足下述条件中一个或多个：

清音拖尾标志ZCR_hangover_flag是否大于0；谱波动拖尾标志Flux_hangover_flag是否大于0；以及谱衰减拖尾标志Rollhalf_hangover_flag是否大于0；

若是，则认为当前音频信号归属于语音，于是置Speech_flag＝1。否则，不处理，即保持Speech_flag＝0，表示当前非噪声帧为非语音类。

步骤S106中，若确定出当前音频信号归属于音乐，则执行步骤S114，即置谱波动方差移动平均拖尾标志flux_var_mov_hangover_flag为第四设定值，如flux_var_mov_hangover_flag＝20；然后执行步骤S115，输出音乐标识，即置Music_flag＝1。否则，执行步骤S116，即保持Music_flag＝0，表示当前非噪声帧不属于音乐类。具体实现可以按照如下情况进行：

判断下述条件中的一个或多个是否满足：

谱波动方差移动平均flux_var_mov是否小于第三x％谱衰减函数f3(Rolloff_x)，如f3(Rolloff_half)＝0.03-1/2400*(Rolloff_half)；谱波动方差移动平均flux_var_mov是否小于第五设定值，如第五设定值＝0.005；谱波动方差移动平均flux_var_mov是否小于第四x％谱衰减函数f4(Rolloff_x)，如f4(Rolloff_half)＝1/1867*Rolloff_half-0.0486；谱波动方差移动平均flux_var_mov是否小于谱波动方差移动平均阈值THR_FLUX_VAR_MOV；

若其中一个条件满足，则确定当前非噪声音频信号归属于音乐类别，于是置谱波动方差移动平均拖尾标志flux_var_mov_hangover_flag为第四设定值，如flux_var_mov_hangover_flag＝20。然后置Music_flag＝1；否则，执行步骤S116，即保持Music_flag＝0，表示当前非噪声帧不属于音乐类。

步骤S107中，判断谱波动方差移动平均拖尾标志flux_var_mov_hangover_flag是否大于0；若是，则认为当前音频信号归属于音乐，于是置Music_flag＝1。否则，执行步骤S116，即保持Music_flag＝0，表示当前非噪声帧不属于音乐类。

经过上述实施过程后，非噪声音频信号被判决后，可能输出如下标志：

Speech_flag＝1、Music_flag＝1、Speech_flag＝0和Music_flag＝0。

然后执行步骤S117，即根据所述Speech_flag和Music_flag，判断当前非噪声音频信号的归属类别：

当Speech_flag＝1且Music_flag＝1时表示当前非噪声音频信号既归属于语音，又归属于音乐；或当Speech_flag＝0且Music_flag＝0时，表示当前非噪声音频信号既不归属于语音，又不归属于音乐，于是执行步骤S118，即判决非噪声音频信号归属于不确定信号UNCERTAIN的信息；

当Speech_flag＝1且Music_fl时，则表示非噪声音频信号归属于语音，于是执行步骤S119，判决非噪声音频信号归属于语音；

当Speech_flag＝0且Music_flag＝1时，则表示非噪声音频信号归属于音乐，于是执行步骤S120，判决当前非噪声音频信号归属于音乐。

对于判决为既不属于语音类别又不属于音乐类别的不确定音频信号UNCERTAIN，还需要进一步根据所述音频信号前的音频环境，判别出其归属类别。具体判决方法如图3所示：

步骤S201，判断当前非噪声音频信号之前的音频环境为语音音频环境，还是音乐环境；

如果满足Speech_continue_counter(连续语音计数器，表示所述当前非噪声音频信号之前，连续出现的语音音频信号的个数)>THR_SPEECH阈值，则确定当前非噪声音频信号之前的音频环境为语音音频环境；

如果满足Music_continue_counter(连续音乐计数器，表示之前连续出现的音乐音频信号的个数)>THR_MUSIC阈值，则确定当前非噪声音频信号之前的音频环境为音乐音频环境。

如果Speech_continue_counter>THR_SPEECH阈值，或Music_continue_counter>THR_MUSIC阈值均不满足，说明当前非噪声音频信号之前的音频环境既不属于语音环境，也不属于音乐环境。于是，直接执行步骤S205，即将所述非噪声音频信号判决为不确定音频信号。

当确定出当前非噪声音频信号之前的音频环境为语音环境时，则执行步骤S202，根据当前非噪声音频信号的flux、flux_var、flux_var_mov、Rolloff_var和fzcr中的至少一个，判断当前非噪声音频信号是否归属于语音，若是，则执行步骤S204，即确定当前非噪声音频信号为语音，并置语音信号标志Speech_flag＝1；否则执行步骤S205，即确定当前非噪声音频信号为不确定音频信号。

步骤S202的具体实施过程如下：

判断是否满足下述条件中的至少一个：flux>THR_flux，flux_var>THR_flux_var，flux_var mov>THR_flux_var_mov，Rolloff_var>THR_Rolloff_var，fzcr<THR_fzcr；

如果满足上述条件之一，则确定当前非噪声音频信号为语音，置语音信号标志Speech_flag＝1；否则，确定当前非噪声音频信号为不确定音频信号。

此时所述阈值THR_flux、THR_flux_var和THR_flux_var_mov可以不同于初始判断过程所设置的相应阈值。

当确定出当前非噪声音频信号之前的音频环境为音乐环境时，则执行步骤S203，根据当前非噪声音频信号的flux_var_mov、Rolloff_var和fzcr中的至少一个，判断当前非噪声音频信号是否归属于音乐，若是，则确定当前非噪声音频信号为音乐，并置音乐信号标志Music_flag＝1；否则，执行步骤S205，即确定当前非噪声音频信号为不确定音频信号。

步骤S204的具体实施过程如下：

判断是否满足下述条件中的至少一个：flux_var_mov<THR_flux_var_mov，Rolloff_var<THR_Rolloff_var，fzcr>THR_fzcr；

如果满足上述条件之一，则确定当前非噪声音频信号为音乐，置音乐信号标志Music_flag＝1；否则，确定当前非噪声音频信号为不确定音频信号。

此时所述阈值THR_flux_var_mov可以不同于初始判断过程所设置的相应阈值。

对于步骤S101至步骤S120确定出的既属于语音类别又属于音乐类别的音频信号，以及步骤S201至步骤S205确定出的既不属于语音类别又不属于音乐类别的不确定音频信号，可以进行进一步的判决，采取的判决方法如下：

根据当前非噪声音频信号前的音频信号，对所述不确定音频信号进行归属类别的判决。具体如下：

将所述不确定音频信号的归属类别，判为紧邻所述不确定音频信号前的音频信号的归属类别；或，所述不确定音频信号的归属类别，判为所述不确定音频信号前的一段音频信号中，所占比重较大的信号所归属的类别。

对于步骤S101至步骤S120确定出的既属于语音类别又属于音乐类别的音频信号，以及步骤S201至步骤S205确定出的既不属于语音类别又不属于音乐类别的不确定音频信号，也可以采用其它软决策方法，对不确定音频信号，进行归属类别的判决，例如采用GMM(高斯混合模型)判定的方法作进一步分类。

上述实施例是以步骤S101至步骤S107同时进行判断为例进行说明的，除此之外，本发明实施例也可以采用步骤S101至步骤S107中的部分步骤来实现，每个步骤的详细情况与上述实施过程雷同，此处不进行具体说明。

本发明提供的第二实施例是一种确定非噪声音频信号归属类别的装置，其结构如图4所示，包括：特征参数获取单元和归属类别确定单元。所述归属类别确定单元包括：清音判别子单元、语音判别子单元和音乐判别子单元，所述归属类别确定单元还包括：一判决子单元。

各个单元之间信号的交互关系如下：

所述特征参数获取单元获取非噪声音频信号的特征参数；所述特征参数包括如下中的至少一个：

谱波动flux；谱波动方差flux_var；谱波动方差移动平均flux_var_mov；低频带占全频带的能量比率ratio1；95％谱衰减Rolloff；x％谱衰减Rolloff_x，如50％谱衰减Rolloff_half；谱衰减方差rolloff_var；频谱幅度的方差magvar；时域过零率zcr；频域过零率fzcr。

所述归属类别确定单元，在频域范围内，根据所述非噪声音频信号的特征参数，以及设定的特征参数阈值，确定当前非噪声音频信号归属类别。具体处理如下：

清音判别子单元，根据获取到的如下特征参数的一个或多个，以及相应的特征参数阈值，对当前非噪声音频信号进行清音归属类别的判决：时域过零率zcr；低频带占全频带的能量比率ratio1；具体处理过程与第一实施例中的相关描述雷同，这里不再详细描述。以及，

语音判别子单元，根据获取到的如下特征参数中的一个或多个，以及相应的特征参数阈值，对当前非噪声音频信号进行语音归属类别的判决：谱波动flux；谱波动方差var_flux；谱波动方差移动平均flux_var_mov；时域过零率zcr；x％谱衰减Rolloff_x，如50％谱衰减Rolloff_half；具体处理过程与第一实施例中的相关描述雷同，这里不再详细描述。以及，

音乐判别子单元，根据获取到的如下特征参数的一个或多个，以及相应的特征参数阈值，对当前非噪声音频信号进行音乐归属类别的判决：谱波动方差移动平均flux_var_mov；x％谱衰减Rolloff_x，如50％谱衰减Rolloff_half。具体处理过程与第一实施例中的相关描述雷同，这里不再详细描述。

当通过所述清音判决子单元、语音判决子单元或音乐判决子单元，判决出当前非噪声音频信号为既不归属于语音类别又不归属于音乐类别时，所述归属类别确定单元还通过所述一判决子单元，判断当前非噪声音频信号前存在语音音频环境还是音乐音频环境；

当当前非噪声音频信号前存在语音音频环境时，根据获取到的如下特征参数中的一个或多个：谱波动flux；谱波动方差var_flux；谱波动方差移动平均flux_var_mov；谱衰减方差rolloff_var；频域过零率fzcr，以及相应的特征参数阈值，对既不属于语音又不属于音乐的当前非噪声音频信号进行语音归属类别的判决；具体处理过程与第一实施例中的相关描述雷同，这里不再详细描述。

当当前非噪声音频信号前存在音乐音频环境时，根据获取到的如下特征参数中的一个或多个：谱波动方差移动平均flux_var_mov；谱衰减方差rolloff_var；频域过零率fzcr，以及相应的特征参数阈值，对既不属于语音又不属于音乐的当前非噪声音频信号进行语音归属类别的判决。具体处理过程与第一实施例中的相关描述雷同，这里不再详细描述。

对于通过所述清音判决子单元、语音判决子单元或音乐判决子单元，确定出的既属于语音类别又属于音乐类别的音频信号，以及当通过所述一判决子单元确定出既不属于语音类别又不属于音乐类别的不确定音频信号后，可以通过所述一判决子单元对所述音频信号进行进一步的判决，可以采取如下判决方法：

根据当前非噪声音频信号前的音频信号，对所述不确定音频信号进行归属类别的判决。也就是说，将所述不确定音频信号的归属类别，判为紧邻所述不确定音频信号前的音频信号的归属类别；或，所述不确定音频信号的归属类别，判为所述不确定音频信号前的一段音频信号中，所占比重较大的信号所归属的类别。

也可以采用其它软决策方法，对不确定音频信号，进行归属类别的判决，例如采用GMM(高斯混合模型)判定的方法作进一步分类。

本发明提供的第三实施例是一种清音判别装置，其结构如图5所示，包括：第一获取单元和清音判别单元。

所述第一获取单元获取音频信号的特征参数；所述特征参数包括时域过零率zcr；和/或，低频带占全频带的能量比率ratio1。

所述清音判别单元，根据获取到的如下特征参数的一个或多个，以及相应的特征参数阈值，对当前非噪声音频信号进行清音归属类别的判决：时域过零率zcr；低频带占全频带的能量比率ratio1。具体处理过程与第一实施例中的相关描述雷同，这里不再详细描述。

本发明提供的第四实施例是一种语音判别装置，其结构如图6所示，包括：第二获取单元和语音判别单元；

所述第二获取单元获取音频信号的特征参数；所述特征参数包括如下特征参数中的一个或多个：

谱波动flux；谱波动方差var_flux；谱波动方差移动平均flux_var_mov；时域过零率zcr；x％谱衰减Rolloff_x，如50％谱衰减Rolloff_half。

所述语音判别单元，根据获取到的如下特征参数中的一个或多个，以及相应的特征参数阈值，对当前非噪声音频信号进行语音归属类别的判决：谱波动flux；谱波动方差var_flux；谱波动方差移动平均flux_var_mov；时域过零率zcr；x％谱衰减Rolloff_x，如50％谱衰减Rolloff_half。具体处理过程与第一实施例中的相关描述雷同，这里不再详细描述。

本发明提供的第五实施例是一种音乐判别装置，其结构如图7所示，包括：第三获取单元和音乐判别单元。

所述第三获取单元获取音频信号的特征参数；所述特征参数包括如下特征参数的一个或多个：

谱波动方差移动平均flux_var_mov；x％谱衰减Rolloff_x，如50％谱衰减Rolloff_half。

所述音乐判别单元，根据获取到的如下特征参数的一个或多个，以及相应的特征参数阈值，对当前非噪声音频信号进行音乐归属类别的判决：谱波动方差移动平均flux_var_mov；x％谱衰减Rolloff_x，如50％谱衰减Rolloff_half。具体处理过程与第一实施例中的相关描述雷同，这里不再详细描述。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种确定非噪声音频信号归属类别的方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述x为95。

3.如权利要求1所述的方法，其特征在于，所述频域过零率fzcr通过如下方式获得：

截取非噪声音频信号的至少一段频谱信号；

对所截取的每一段频谱信号进行归一化处理；并对归一化处理后的频谱信号，进行去掉平均值的整理处理，并计算整理过的频谱信号的过零率。

4.如权利要求1所述的方法，其特征在于，

根据上一帧音频信号的清音拖尾标志、谱波动拖尾标志、谱衰减拖尾标志对当前非噪声音频信号进行语音归属类别的判决；以及，

根据上一帧音频信号的谱波动方差移动平均拖尾标志，对当前非噪声音频信号进行音乐归属类别的判决。

5.如权利要求4所述的方法，其特征在于，所述对当前非噪声音频信号进行清音归属类别的判决的过程，具体包括：

判断下述条件中的一个或多个是否满足：时域过零率zcr是否大于时域过零率阈值THR_ZCR；低频带占全频带的能量比率ratio1是否大于低频带占全频带的能量比率阈值THR_RA；

6.如权利要求4所述的方法，其特征在于，所述根据获取到的如下特征参数中的一个或多个：谱波动flux；谱波动方差var_flux；谱波动方差移动平均flux_var_mov；时域过零率zcr，以及相应的特征参数阈值，对当前非噪声音频信号进行语音归属类别的判决的过程，具体包括：

判断下述条件中的一个或多个是否满足：

谱波动flux是否大于谱波动阈值THR_FLUX；谱波动方差flux_var是否大于谱波动方差阈值THR_FLUX_VAR；谱波动flux是否大于第一谱波动方差函数f₁(flux_var)；谱波动flux是否小于第二谱波动方差函数f₂(flux_var)；zcr是否大于谱波动方差移动平均函数f(flux_var_mov)；

若其中至少一个条件满足，则确定当前非噪声音频信号归属于语音类别，并置谱波动拖尾标志为第二设定值；否则，确定当前非噪声音频信号不属于语音类。

7.如权利要求4所述的方法，其特征在于，所述根据获取到的x％谱衰减Rolloff_x特征参数，以及相应的特征参数阈值，对当前非噪声音频信号进行语音归属类别的判决的过程，具体包括：

判断x％谱衰减Rolloff_x是否小于x％谱衰减阈值THR_ROLL；若是，则确定当前非噪声音频信号归属于语音类别，并置谱衰减拖尾标志为第三设定值；否则，确定当前非噪声音频信号不属于语音类。

8.如权利要求4所述的方法，其特征在于，所述根据上一帧音频信号的清音拖尾标志、谱波动拖尾标志、谱衰减拖尾标志对当前非噪声音频信号进行语音归属类别的判决的过程，具体包括：

判断下述条件中的至少一个是否满足：上一帧音频信号的清音拖尾标志是否大于0；上一帧音频信号的谱波动拖尾标志是否大于0；上一帧音频信号的谱衰减拖尾标志是否大于0；

若其中至少一个满足条件，则确定当前非噪声音频信号属于语音；如果不满足上述条件，则确定当前非噪声音频信号不属于语音。

9.如权利要求4所述的方法，其特征在于，所述根据获取到的如下特征参数的一个或多个：谱波动方差移动平均flux_var_mov；x％谱衰减Rolloff_x，以及相应的特征参数阈值，对当前非噪声音频信号进行音乐归属类别的判决的过程，具体包括：

判断下述条件中的一个或多个是否满足：

谱波动方差移动平均flux_var_mov是否小于第三x％谱衰减函数f3(Rolloff_x)；谱波动方差移动平均flux_var_mov是否小于第五设定值，所述第五设定值为0.005；谱波动方差移动平均flux_var_mov是否小于第四x％谱衰减函数f4(Rolloff_x)；谱波动方差移动平均flux_var_mov是否小于谱波动方差移动平均阈值THR_FLUX_VAR_MOV；

若其中至少一个条件满足，则确定当前非噪声音频信号归属于音乐类别，并置谱波动方差移动平均拖尾标志为第四设定值；否则，确定当前非噪声音频信号不属于音乐类。

10.如权利要求4所述的方法，其特征在于，所述根据上一帧音频信号的谱波动方差移动平均拖尾标志，对当前非噪声音频信号进行音乐归属类别的判决的过程，还包括：

判断上一帧音频信号的谱波动方差移动平均拖尾标志是否大于0，若是，则确定当前非噪声音频信号归属于音乐；否则，确定当前非噪声音频信号不属于音乐。

11.如权利要求4所述的方法，其特征在于，当判决出当前非噪声音频信号为既不归属于语音类别又不归属于音乐类别时，还包括：

判断当前非噪声音频信号前存在语音音频环境还是音乐音频环境；

当当前非噪声音频信号前存在语音音频环境时，判断下述条件中的一个或多个是否满足：谱波动flux、谱波动方差var_flux、谱波动方差移动平均flux_var_mov、谱衰减方差rolloff_var特征参数中的一个或多个，是否大于相应的特征参数阈值；频域过零率fzcr，是否小于相应的特征参数阈值；若其中至少一个条件满足，则确定当前非噪声音频信号归属于语音；否则确定当前非噪声音频信号不归属于语音；

当当前非噪声音频信号前存在音乐音频环境时，判断是否满足下述条件中的一个或多个：谱波动方差移动平均flux_var_mov、谱衰减方差rolloff_var特征参数中的一个或多个，是否小于相应的特征参数阈值；频域过零率fzcr，是否大于相应的特征参数阈值，若其中至少一个条件满足，则确定当前非噪声音频信号归属于音乐；否则确定当前非噪声音频信号不归属于音乐。

12.如权利要求4所述的方法，其特征在于，当判决出当前非噪声音频信号既属于语音类别又属于音乐类别，或既不属于语音类别又不属于音乐类别时，还包括：

采用高斯混合模型，对既归属于语音又归属于音乐，或既归属于非语音又归属于非音乐的音频不确定音频信号，进行归属类别的判决；或，

将所述不确定音频信号的归属类别，判为紧邻所述不确定音频信号前的音频信号的归属类别；或，

将所述不确定音频信号的归属类别，判为所述不确定音频信号前的一段音频信号中，所占比重较大的信号所归属的类别。

13.如权利要求11所述的方法，其特征在于，当判决出当前非噪声音频信号既不属于语音类别又不属于音乐类别时，还包括：

14.一种确定非噪声音频信号归属类别的装置，其特征在于，包括：

特征参数获取单元，用于获取非噪声音频信号的频谱特征参数所述频谱特征参数包括如下中的至少一个：谱波动flux；谱波动方差flux_var；谱波动方差移动平均flux_var_mov；低频带占全频带的能量比率ratio1；x％谱衰减Rolloff_x，x为大于零且小于100的数值；时域过零率zcr；谱衰减方差rolloff_var；频域过零率fzcr；

所述归属类别确定单元包括：

15.如权利要求14所述的装置，其特征在于，所述归属类别确定单元还包括：

一判决子单元，用于当判决出当前非噪声音频信号为既不归属于语音类别又不归属于音乐类别时，判断当前非噪声音频信号前存在语音音频环境还是音乐音频环境；

当当前非噪声音频信号前存在语音音频环境时，根据获取到的如下特征参数中的一个或多个：谱波动flux；谱波动方差var_flux；谱波动方差移动平均flux_var_mov；谱衰减方差rolloff_var；频域过零率fzcr，以及相应的特征参数阈值，对当前非噪声音频信号进行语音归属类别的判决；

当当前非噪声音频信号前存在音乐音频环境时，根据获取到的如下特征参数中的一个或多个：谱波动方差移动平均flux_var_mov；谱衰减方差rolloff_var；频域过零率fzcr，以及相应的特征参数阈值，对既不属于语音又不属于音乐的当前非噪声音频信号进行语音归属类别的判决。

16.一种语音判别装置，其特征在于，包括：

第二获取单元，用于获取音频信号的频谱特征参数；

17.一种音乐判别装置，其特征在于，包括：

第三获取单元，用于获取音频信号的频谱特征参数；

音乐判别单元，用于根据获取到的如下特征参数的一个或多个：谱波动方差移动平均flux_var_mov；x％谱衰减Rolloff_x，以及相应的特征参数阈值，对当前非噪声音频信号进行音乐归属类别的判决。