CN102044244B

CN102044244B - 信号分类方法和装置

Info

Publication number: CN102044244B
Application number: CN2009101107984A
Authority: CN
Inventors: 刘媛媛; 王喆; 艾雅·苏谟特
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2009-10-15
Filing date: 2009-10-15
Publication date: 2011-11-16
Anticipated expiration: 2029-10-15
Also published as: EP2339575B1; US20110093260A1; WO2011044798A1; EP2339575A4; EP2339575A1; US20110178796A1; CN102044244A; US8438021B2; US8050916B2

Abstract

本发明实施例公开了一种信号分类方法和装置，其中，信号分类方法包括：获得确定为前景帧的当前信号帧的频谱波动参数并缓存；根据缓存的所有信号帧的频谱波动参数获得当前信号帧的谱波动方差并缓存；获得缓存的所有信号帧中谱波动方差大于等于第一阈值的比例，若所述比例大于等于第二阈值，则所述当前信号帧为语音帧，若所述比例小于第二阈值，则所述当前信号帧为音乐帧。本发明实施例采用信号谱波动方差作为信号分类的参数，使用局部统计量的方法进行信号分类判决，从而以较少的参数，较简单的逻辑关系，以较低的复杂度实现了信号的分类。

Description

信号分类方法和装置

技术领域

本发明涉及通信技术领域，尤其涉及一种信号分类方法和装置。

背景技术

语音编码技术可以压缩语音信号的传输带宽，增加通信系统的容量，随着Internet的日益普及和通信领域的进一步扩展，语音编码技术成为国内和国际标准化工作中最活跃的领域之一。随着时间的推移，语音编码器正朝着多码率，宽带的方向发展，其输入信号也呈多元化趋势，不仅限于语音，还包含音乐等其它信号，而且人们对于通话质量，尤其是音乐信号的质量要求也在不断的提高。对于不同的输入信号，能够采用不同的码率，甚至不同的核心编码算法的编码器，既可以保证不同类别信号的编码质量，又可以最大限度的节省带宽，已成为语音编码器的发展趋势。因此准确的识别输入信号的类别也随之成为了业界研究的热点。

判决树是应用较为广泛的一种信号分类方法，判决树的信号分类采用长时判决树和短时判决树相结合进行信号分类判决。首先设置一个时间长度的FIFO(First-In First-Out先入先出)存储器进行短时信号特征变量缓冲，通过包括当前帧在内的前同一时间长度的短时信号特征变量来计算长时信号特征，并依据计算得出的长时信号特征进行语音音乐分类。在信号开始前同一时间安长度即FIFO存储器未存满时，先用短时信号特征进行判决。短时和长时判决采用如图1和图2所示判决树进行分类判决。

在实现本发明创造的过程中，发明人发现：采用判决树进行信号分类的方法需计算的参数和逻辑分支都比较多，复杂度较高。

发明内容

本发明实施例提供一种信号分类方法和装置，使用较少的参数、较简单的逻辑关系，以较低的复杂度实现信号的分类。

本发明实施例提供一种信号分类方法，包括：

获得当前信号帧的频谱波动参数；

若所述当前信号帧为前景帧，则将所述当前信号帧的频谱波动参数缓存在第一缓存数组；

若所述当前信号帧属于最初第一数目帧信号帧，则将所述当前信号帧的谱波动方差设置为一特定值，并将所述当前信号帧的谱波动方差缓存在第二缓存数组；否则，根据缓存的所有信号帧的频谱波动参数获得所述当前信号帧的谱波动方差，并将所述当前信号帧的谱波动方差缓存在第二缓存数组；

获得所述第二缓存数组中缓存的所有信号帧中谱波动方差大于等于第一阈值的比例，若所述比例大于等于第二阈值，则所述当前信号帧为语音帧，若所述比例小于第二阈值，则所述当前信号帧为音乐帧。

本发明实施例还提供一种信号分类方法，包括：

获得确定为前景帧的当前信号帧的频谱波动参数并缓存；

根据缓存的所有信号帧的频谱波动参数获得当前信号帧的谱波动方差并缓存；

获得缓存的所有信号帧中谱波动方差大于等于第一阈值的比例，若所述比例大于等于第二阈值，则所述当前信号帧为语音帧，若所述比例小于第二阈值，则所述当前信号帧为音乐帧。

本发明实施例提供一种信号分类装置，包括：

第一获取模块，用于获得当前信号帧的频谱波动参数；

前景帧确定模块，用于确定所述当前信号帧为前景帧，并将确定为前景帧的所述当前信号帧的频谱波动参数缓存在第一缓存模块；

第一缓存模块，用于缓存所述前景帧确定模块缓存的所述当前信号帧的频谱波动参数；

设置模块，用于若所述当前信号帧属于最初第一数目帧信号帧，则将所述当前信号帧的谱波动方差设置为一特定值，并将所述当前信号帧的谱波动方差缓存在第二缓存模块；

第二获取模块，用于若所述当前信号帧不属于最初第一数目帧信号帧，根据所述第一缓存模块缓存的所有信号帧的频谱波动参数获得所述当前信号帧的谱波动方差，并将所述当前信号帧的谱波动方差缓存在第二缓存模块；

第二缓存模块，用于缓存所述设置模块或所述第二获取模块缓存的所述当前信号帧的谱波动方差。

第一判决模块，用于获得所述第二缓存模块中缓存的所有信号帧中谱波动方差大于等于第一阈值的比例，若所述比例大于等于第二阈值，则所述当前信号帧为语音帧，若所述比例小于第二阈值，则所述当前信号帧为音乐帧。

本发明实施例还提供一种信号分类装置，包括：

第三获取模块，用于获得确定为前景帧的当前信号帧的频谱波动参数并缓存；

第四获取模块，用于根据所述第三获取模块缓存的所有信号帧的频谱波动参数获得当前信号帧的谱波动方差并缓存；

第三判决模块，用于获得所述第四获取模块缓存的所有信号帧中谱波动方差大于等于第一阈值的比例，若所述比例大于等于第二阈值，则所述当前信号帧为语音帧，若所述比例小于第二阈值，则所述当前信号帧为音乐帧。

由上述本发明实施例提供的技术方案可以看出，本发明实施例采用获得当前信号帧的频谱波动参数；若所述当前信号帧为前景帧，则将所述当前信号帧的频谱波动参数缓存在第一缓存数组；若所述当前信号帧属于最初第一数目帧信号帧，则将所述当前信号帧的谱波动方差设置为一特定值，并将所述当前信号帧的谱波动方差缓存在第二缓存数组；否则，根据缓存的所有信号帧的频谱波动参数获得所述当前信号帧的谱波动方差，并将所述当前信号帧的谱波动方差缓存在第二缓存数组，以信号谱波动方差作为信号分类的参数，使用局部统计量的方法进行信号分类判决，从而以较少的参数，较简单的逻辑关系，以较低的复杂度实现了信号的分类。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中采用短时判决树进行信号分类的示意图；

图2为现有技术中采用长时判决树进行信号分类的示意图；

图3为本发明信号分类方法一个实施例的流程图；

图4为本发明信号分类方法另一个实施例的流程图；

图5为本发明信号分类方法又一个实施例的流程图；

图6为本发明实施例中根据修正的子带信噪比和获得自适应第一阈值的流程图；

图7为本发明实施例中根据信噪比获得自适应第一阈值的流程图；

图8为本发明信号分类装置一个实施例的结构示意图；

图9为本发明信号分类装置另一个实施例的结构示意图；

图10为本发明信号分类装置又一个实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图3为本发明信号分类方法一个实施例的流程图，如图3所示，本发明实施例包括：

S101、获得当前信号帧的频谱波动参数。

本发明实施例中，将输入信号进行分帧处理，得到若干信号帧。当前正在处理的，需要判别信号类别的信号帧称为当前信号帧。分帧是数字信号处理中的通用概念，即将一段长信号划分为若干段短的信号。

对当前信号帧进行时频变换，得到信号频谱，根据当前信号帧与之前的若干信号帧的频谱计算当前信号帧的频谱波动参数flux。

S102、若所述当前信号帧为前景帧，则将所述当前信号帧的频谱波动参数缓存在第一缓存数组。

本发明实施例中，信号帧的类型包括前景帧和背景帧，前景帧一般指通信过程中能量较高的信号帧，如通信过程中双方或多方的语音会话或播放的音乐如彩铃等，背景帧一般是指通信过程中语音会话或者播放的音乐的噪声背景等。本发明实施例中所进行的信号分类即是区分前景帧中不同类别的信号，因此需要首先确定当前信号帧是否为前景帧。

若确定所述当前信号帧为前景帧，则缓存所述当前信号帧的频谱波动参数flux。本发明实施例中，可以设置一个频谱波动参数缓存数组flux_buf，为叙述清楚可以称为第一缓存数组。flux_buf数组在信号帧为前景帧时进行更新，第一缓存数组可以缓存第一数目帧信号帧。

需要说明的是，本发明实施例中，获得当前信号帧的频谱波动参数和确定当前信号帧为前景帧在技术实现上并不做顺序上的限定，任何对本发明实施例的简单变换均在本发明实施例的保护范围之内。

S103、若所述当前信号帧属于最初第一数目帧信号帧，则将所述当前信号帧的谱波动方差设置为一特定值，并将所述当前信号帧的谱波动方差缓存在第二缓存数组；否则，根据缓存的所有信号帧的频谱波动参数获得所述当前信号帧的谱波动方差，并将所述当前信号帧的谱波动方差缓存在第二缓存数组。

本发明实施例中，可以根据第一缓存数组是否存满，区分情况获得谱波动方差var_flux_n，其中var_flux_n表示第n帧的谱波动方差。

如设第一数目为m₁，若所述当前信号帧属第1到第m₁帧信号帧，则将所述当前信号帧的谱波动方差设置为一特定值；若所述当前信号帧不属于第1到第m₁帧信号帧，也属于从第m₁+1帧开始的信号帧，则可以根据缓存的m₁个信号帧的flux获得所述当前信号帧的谱波动方差。

获得当前信号帧的谱波动方差后，需要缓存所述谱波动方差。本发明实施例中，可以设置一个谱波动方差缓存数组var_flux_buf，为叙述清楚，可以称为第二缓存数组。var_flux_buf数组在信号帧为前景帧时进行更新。

S104、获得所述第二缓存数组中缓存的所有信号帧中谱波动方差大于等于第一阈值的比例，若所述比例大于等于第二阈值，则所述当前信号帧为语音帧，若所述比例小于第二阈值，则所述当前信号帧为音乐帧。

本发明实施例中，可以将var_flux作为语音音乐分类的判决参数，当要确定某一确定为前景帧的当前信号帧是语音帧还是音乐帧时，可以通过var_flux_buf数组中缓存的包括当前信号帧在内的信号帧中var_flux大于等于某一阈值的比例进行确定，即采用局部统计量法。为叙述清楚，可以将上文提到的阈值称为第一阈值。

当第二缓存数组中缓存的包括当前信号帧在内的信号帧中var_flux大于等于第一阈值的比例大于某一阈值，则表示当前信号帧为语音帧，若所述比例小于第二阈值，则所述当前信号帧为音乐帧。为叙述清楚可以将前述提到的阈值称为第二阈值。

本发明实施例采用获得当前信号帧的频谱波动参数；若所述当前信号帧为前景帧，则将所述当前信号帧的频谱波动参数缓存在第一缓存数组；若所述当前信号帧属于最初第一数目帧信号帧，则将所述当前信号帧的谱波动方差设置为一特定值，并将所述当前信号帧的谱波动方差缓存在第二缓存数组；否则，根据缓存的所有信号帧的频谱波动参数获得所述当前信号帧的谱波动方差，并将所述当前信号帧的谱波动方差缓存在第二缓存数组，以信号谱波动方差作为信号分类的参数，使用局部统计量的方法进行信号分类判决，从而以较少的参数，较简单的逻辑关系，以较低的复杂度实现了信号的分类。

图4为本发明信号分类方法另一个实施例的流程图，如图4所示，本发明实施例包括：

S201、获得确定为前景帧的当前信号帧的频谱波动参数并缓存。

信号帧的类型包括前景帧和背景帧，前景帧一般指通信过程中能量较高的信号帧，如通信过程中双方或多方的语音会话或播放的音乐如彩铃等，背景帧一般是指通信过程中语音会话或者播放的音乐的噪声背景等。

本发明实施例中所进行的信号分类即是区分前景帧中不同类别的信号，因此需要确定当前信号帧是否为前景帧。另一方面本发明实施例中需要得到确定为前景帧的当前信号帧的频谱波动参数。上述二者的执行顺序在本实施例中不做限定，任何对本发明实施例的简单变换均在本发明实施例的保护范围之内。

获得当前信号帧频谱波动参数的方法包括对当前信号帧进行时频变换，得到信号频谱，根据当前信号帧与之前的若干信号帧的频谱计算当前信号帧的频谱波动参数flux。

若获得确定为前景帧的当前信号帧的频谱波动参数，则缓存。本发明实施例中，可以设置一个频谱波动参数缓存数组flux_buf，flux_buf数组在信号帧为前景帧时进行更新。

S202、根据缓存的所有信号帧的频谱波动参数获得当前信号帧的谱波动方差并缓存。

本发明实施例中，无论第一数组是否存满，都可以根据缓存的所有信号帧的频谱波动参数获得当前信号帧的谱波动方差。

获得当前信号帧的谱波动方差后，需要缓存所述谱波动方差。本发明实施例中，可以设置一个谱波动方差缓存数组var_flux_buf，var_flux_buf数组在信号帧为前景帧时进行更新。

S203、获得缓存的所有信号帧中谱波动方差大于等于第一阈值的比例，若所述比例大于等于第二阈值，则所述当前信号帧为语音帧，若所述比例小于第二阈值，则所述当前信号帧为音乐帧。

当包括当前信号帧在内的缓存的信号帧中var_flux大于等于第一阈值的比例大于某一阈值，则表示当前信号帧为语音帧，否则为音乐帧。为叙述清楚可以将前述提到的阈值称为第二阈值。

由上述本发明实施例提供的技术方案可以看出，本发明实施例采用获得确定为前景帧的当前信号帧的频谱波动参数并缓存，根据缓存的所有信号帧的频谱波动参数获得当前信号帧的谱波动方差并缓存，获得缓存的所有信号帧中谱波动方差大于等于第一阈值的比例，若所述比例大于等于第二阈值，则所述当前信号帧为语音帧，若所述比例小于第二阈值，则所述当前信号帧为音乐帧的技术手段，以信号谱波动方差作为信号分类的参数，使用局部统计量的方法进行信号分类判决，从而以较少的参数，较简单的逻辑关系，以较低的复杂度实现了信号的分类。

图5为本发明信号分类方法又一个实施例的流程图，如图5所示，本发明实施例包括：

S301、获得当前信号帧的频谱波动参数。

本发明实施例中，将输入信号进行分帧处理，得到若干信号帧。当前正在处理的，需要判别信号类别的信号帧称为当前信号帧。分帧是数字信号处理中的通用概念，即将一段长信号划分为若干段短的信号。分帧处理可以通过多种方式进行，得到的信号帧的帧长也可以有多种选择，如5～50ms，某些实施方式中，可以取10ms的帧长。

在设定的采样率下，将每一帧信号帧进行时频变换，得到信号频谱，即N1个时频变换系数S_p ⁿ(i)，其中，S_p ⁿ(i)表示第n帧的第i个时频变换系数。本发明实施例中，采样率、时频变换的方法可以有多种选择，某些实施方式中，可以为8000Hz采样，做128点FFT(Fast Fourier Transform，快速傅立叶变换)变换。

对当前信号帧进行时频变换，得到信号频谱后，根据当前信号帧与之前的若干信号帧的频谱计算当前信号帧的频谱波动参数flux。计算方式可以为多种，如某些实施方式中可以取一个频率范围，分析该段频谱的特性。之前若干帧的数目可以任意选取，如某些实施方式中可以选取之前的3帧，采用如下计算方法：

{flux}_{n} = \frac{Σ_{m = 1}^{3} Σ_{i = k_{1}}^{k_{2}} (S_{p}^{n} (i) - S_{p}^{n - m} (i))}{Σ_{m = 1}^{3} Σ_{i = k_{1}}^{k_{2}} (S_{p}^{n} (i) + S_{p}^{n - m} (i))}

其中，flux_n表示第n帧的频谱波动参数；k₁，k₂表示在信号频谱中确定一段频率范围，其中1≤k₁＜k₂≤N₁，如某些实施方式中可以取k₁＝2，k₂＝48；m表示当前信号帧之前的选取帧数，如上述公式中可以取m为3。

S302、若所述当前信号帧为前景帧，则将所述当前信号帧的频谱波动参数缓存在第一缓存数组。

若确定所述当前信号帧为前景帧，则缓存所述当前信号帧的频谱波动参数flux。本发明实施例中，可以设置一个频谱波动参数缓存数组flux_buf，为叙述清楚可以称为第一缓存数组。缓存数组的类型可以为多种，如某些实施方式中可以为FIFO(First-In First-Out，先入先出)数组。flux_buf数组在信号帧为前景帧时进行更新，可以用来缓存m₁个信号帧的flux，其中m₁可以为大于0的任意整数，如某些实施方式中可以取m₁＝20，为叙述清楚可以将m₁称为第一数目，即第一缓存数组可以缓存第一数目帧信号帧。

本发明实施例中可以通过多种实施方式确定前景帧，包括使用MSSNR(Modified Segmental Signal Noise Ratio，修正的子带信噪比和)或snr(SignalNoise Ratio，信噪比)，下面举例进行说明：

实施方式一、使用MSSNR确定前景帧的方法：

获得当前信号帧的MSSNRn，当MSSNRn≥alpha1时，确定当前信号帧为前景帧，否则为背景帧。其中，MSSNRn表示第n帧的修正的子带信噪比和，alpha1为一设定阈值，为叙述清楚，本发明实施例中将阈值alpha1称为第三阈值，alpha1的取值可以为任意数值，如某些实施方式中可以取alpha1＝50。

本发明实施例中MSSNRn可以通过多种方式获得，某些实施方式中可以通过如下方式获得：

1、计算当前信号帧频谱子带能量E_i。

将频谱划分为w个子带，0≤w≤N₁，每个子带的能量记为E_i，i＝0，1，2...w-1，

E_{i} = \frac{1}{M_{i}} Σ_{k = 0}^{M_{i} - 1} e_{I + k}

其中，M_i表示第i子带中包含的频点个数，I表示第i子带起始频点的索引，e_I+k表示第I+k个频点的能量。

2、更新E_i在背景帧中的长时滑动平均E_i。

每当当前信号帧被确认为背景帧时，对E_i进行更新，更新方法为：

E_i＝β·E_i+(1-β)·E_i i＝0，1，2，...w-1

其中，β为0～1之间的小数，用于控制更新的速度。

3、计算MSSNR_n

MSSNRn = Σ_{i = 0}^{w} MAX (f_{i} \cdot 10 \cdot \log (\frac{E_{i}}{\overset{&OverBar;}{E_{i}}}), 0)

其中，

实施方式二、使用snr确定前景帧的方法：

获得当前信号帧的snr_n，当snr_n≥alpha2时，确定当前信号帧为前景帧，否则为背景帧。其中，snr_n表示第n帧的信噪比，alpha2为一设定阈值，为叙述清楚，本发明实施例中将阈值alpha2称为第四阈值，alpha2的取值可以为任意数值，如某些实施方式中可以取alpha2＝15。

本发明实施例中snr_n可以通过多种方式获得，某些实施方式中可以通过如下方式获得：

1、计算当前信号帧的频谱能量Ef，

Ef = \frac{1}{Mf} Σ_{k = 0}^{Mf - 1} e_{k}

其中，M_f表示当前信号帧包含的频点个数，e_k表示第k个频点的能量。

2、更新Ef在背景帧中的长时滑动平均Ef。

每当当前信号帧被确认为背景帧时，对Ef进行更新，更新方法为：

Ef＝μ·Ef+(1-μ)·Ef i＝0，1，2，...Mf-1

其中，μ为0～1之间的小数，用于控制更新的速度。

3、计算snr_n

sn r_{n} = 10 \cdot \log (\frac{Ef}{\overset{&OverBar;}{Ef}})

需要说明的是，本发明实施例中，获得当前信号帧的频谱波动参数和确定当前信号帧为前景帧在技术实现上并不做顺序上的限定，任何对本发明实施例的简单变换均在本发明实施例的保护范围之内。如某些实施方式中也可以先确定当前信号帧为前景帧，再获得并缓存所述当前信号帧的频谱波动参数，即可以将上述步骤过程表述为：

S301’、确定当前信号帧为前景帧。

S302’、获得并缓存所述当前信号帧的频谱波动参数。

此时与上述S301中获得当前信号帧的频谱波动参数不同的是，这里可以只是获得确定为前景帧的当前信号帧的频谱波动参数，而作为背景帧的频谱波动参数不用获得，从而减少了计算量，进一步降低了复杂度。

又或者，某些实施方式中也可以先确定当前信号帧为前景帧，然后对每一帧当前信号帧获取频谱波动参数，进而缓存为前景帧的当前信号帧的频谱波动参数。

S303、获得当前信号帧的谱波动方差并缓存在第二缓存数组。

本发明实施例中，可以根据第一缓存数组是否存满，区分情况获得谱波动方差var_flux_n，其中var_flux_n表示第n帧的谱波动方差。若所述当前信号帧属于最初第一数目帧信号帧，则将所述当前信号帧的谱波动方差设置为一特定值，并将所述当前信号帧的谱波动方差缓存在第二缓存数组；否则，根据缓存的所有信号帧的频谱波动参数获得所述当前信号帧的谱波动方差，并将所述当前信号帧的谱波动方差缓存在第二缓存数组。

在flux_buf数组缓存前m₁个flux时，可以将var_flux_n设置为一特定值，也就是说，若所述当前信号帧属于最初第一数目帧信号帧，则将所述当前信号帧的谱波动方差设置为一特定值，比如置为0，也即从第1到第m₁帧判定为前景帧的信号帧的谱波动方差为0。

若所述当前信号帧不属于最初第一数目帧信号帧，也即从第m₁+1帧开始，可以根据缓存的m₁个信号帧的flux计算m₁帧之后每个确定为前景帧的信号帧的谱波动方差var_flux_n。此时计算当前信号帧的谱波动方差的方法可以有多种，如某些实施方式中，可以采用如下方法：

当缓存第m₁个flux时，利用缓存的m₁个flux初始化flux的均值mov_flux_n，

{mov_flux}_{n} = (Σ_{i = 1}^{m_{1}} {flux}_{i}) / m_{1}

初始化后，从第m₁+1个确定为前景帧的信号帧开始，mov_flux可以根据如下方法，每个前景帧更新一次：

mov_flux_n＝σ*mov_flux_n-1+(1-σ)flux_n

σ为0～1的小数，用于控制更新速度。

则从第m₁+1个确定为前景帧的信号帧开始，var_flux_n可以根据包括当前信号帧在内的缓存的m₁帧信号帧的flux确定，可以用公式表示为：

{var_flux}_{n} = Σ_{k = 1}^{m_{1}} {({flux}_{n - k} - {mov_flux}_{n})}^{2},

其中n大于m₁。

在本发明实施例的另外一些实施方式中，也可以不采用前述设置的方式确定第1到第m₁帧判定为前景帧的信号帧的谱波动方差，而采用根据缓存的所有信号帧的谱波动参数获得当前信号帧的谱波动方差的方法，如：

当flux_buf数组缓存前s个flux时，1≤s≤m₁，计算flux的均值mov_flux_n和var_flux_n，

{mov_flux}_{n} = (Σ_{i = 1}^{s} {flux}_{i}) / s

{var_flux}_{n} = Σ_{k = 1}^{s} {({flux}_{n - k} - {mov_flux}_{n})}^{2},

其中n大于s。

通过上述方法，本实施方式中，无论对于第一缓存数组是否存满的情况，都是在根据缓存的所有信号帧的频谱波动参数获得当前信号帧的谱波动方差。

通过上述方式获得当前信号帧的谱波动方差后，需要缓存所述谱波动方差。本发明实施例中，可以设置一个谱波动方差缓存数组var_flux_buf，为叙述清楚，可以称为第二缓存数组。缓存数组的类型可以为多种，如某些实施方式中可以为FIFO数组。var_flux_buf数组在信号帧为前景帧时进行更新，可以用来缓存m₃个信号帧的var_flux，其中m₃可以为大于0的正整数，如某些实施方式中可以取m₃＝120。

S304、对所述第二缓存数组中缓存的前若干个谱波动方差进行加窗平滑。

某些实施方式中，可以对var_flux_buf数组缓存的var_flux的前若干个进行加窗平滑，如对第m₁+1个到第m₁+m₂个信号帧的var_flux加一个倾斜窗，防止初始几个数值不稳定而影响语音音乐的判决。其中m₂可以为大于0的正整数，如取m₂＝20，加窗可以表示如下：

win_var_flux_n＝var_flux_n*window

其中

window = \frac{n - m_{1}}{m_{1}},

n＝m₁+1，m₁+2...，m₁+m₂。

某些实施方式中，也可以使用hamming窗等其它类型窗。

S305、获得所述第二缓存数组中缓存的所有信号帧中谱波动方差大于等于第一阈值的比例，若所述比例大于等于第二阈值，则所述当前信号帧为语音帧，若所述比例小于第二阈值，则所述当前信号帧为音乐帧。

本发明实施例中，可以将var_flux作为语音音乐分类的判决参数，当要确定某一确定为前景帧的当前信号帧是语音帧还是音乐帧时，可以通过var_flux_buf数组中缓存的包括当前信号帧在内的所有信号帧中var_flux大于等于某一阈值的比例进行确定，即采用局部统计量法。为叙述清楚，可以将上文提到的阈值称为第一阈值。

当包括当前信号帧在内的缓存的信号帧中var_flux大于等于第一阈值的比例大于某一阈值，则表示当前信号帧为语音帧，否则为音乐帧。为叙述清楚可以将前述提到的阈值称为第二阈值，该第二阈值可以为0～1的小数，如某些实施方式中取0.5。

本发明实施例中，局部统计量法可能会存在如下几种情况：

在var_flux_buf数组存满之前，例如只缓存了m₄帧var_flux_n，m₄＜m₃，此时若要确定当前信号帧，即第m₄帧信号帧的类别，则可以只计算m₄帧中var_flux高于第一阈值的帧数占总帧数m₄的比例R，如果R大于等于第二阈值，则判决当前信号为语音帧，否则为音乐帧。

若var_flux_buf数组已存满，则计算包括当前信号帧在内的缓存的m₃帧中var_flux_n高于第一阈值的帧数占总帧数m₃的比例R，如果R大于等于第二阈值，则判决当前信号帧为语音帧，否则为音乐帧。

某些实施方式中，可以在缓存前m₅个信号帧时，将R设置为大于等于第二阈值的数值，从而将前m₅个信号帧判别为语音帧。m₅可以取任意非负整数，如某些实施方式中可以取m₅＝75。也即在前m₅个信号帧，获得的缓存的包括当前信号帧在内的信号帧中谱波动方差大于等于第一阈值的比例R是一个预设值，从第m₅+1个确定为前景帧的信号帧开始，获得的缓存的包括当前信号帧在内的信号帧中谱波动方差大于等于第一阈值的比例R是通过实际计算得来的，计算缓存的包括当前信号帧在内的信号帧中谱波动方差大于等于第一阈值的比例。通过这种方式，可以避免信号起始阶段语音信号被误判为音乐信号。

本发明实施例中，第一阈值可以为一预设的固定第一阈值，也可以为自适应第一阈值T_{var_flux} ⁿ。固定第一阈值可以为介于var_flux最大和最小值之间的任意数值。T_{var_flux} ⁿ可以根据背景环境自适应的调整，如根据信号信噪比的变化来进行调整，从而具备较好的对加噪信号的识别能力。T_{var_flux} ⁿ可以通过多种方式获得，如某些实施方式下可以根据MSSNR_n计算获得，某些实施方式中可以根据snr_n计算获得，下面举例进行说明：

实施方式一、以MSSNR_n确定T_{var_flux} ⁿ的方法，如图6所示：

S401、根据当前信号帧更新MSSNR的最大值。

每一帧都确定一个MSSNR_n的最大值max_MSSNR，当当前信号帧的MSSNR_n＞max_MSSNR时则将max_MSSNR更新为该当前信号帧MSSNR_n的值；否则，将max_MSSNR乘以某一系数，如0.9999，作为更新后的max_MSSNR。也即根据每一帧的MSSNR_n更新max_MSSNR的值。

S402、根据更新后的MSSNR的最大值确定MSSNR的阈值，即根据更新后的max_MSSNR计算MSSNR_n的自适应阈值T_MSSNR，

T_MSSNR＝C_op*max_MSSNR

其中，C_op是一个0～1的小数，具体数值需要根据工作点来进行调整，如某些实施方式中Cop＝0.5。工作点是用于控制语音音乐判决倾向性的外部输入。

S403、获得包括当前信号帧在内的若干帧的MSSNR中大于所述MSSNR的阈值的帧数和小于等于所述MSSNR的阈值的帧数，获得大于所述MSSNR的阈值的帧数和小于等于所述MSSNR的阈值的帧数的差异测度，并根据该差异测度获得自适应第一阈值。

本发明实施例中，可以使用包括当前信号帧及其前l-1帧在内的l帧信号帧的MSSNR_n值来计算T_{var_flux} ⁿ，l可以为大于0的任意正整数，如某些实施方式中l＝512，方法如下：

1)l帧中MSSNR_n＞T_MSSNR的帧数记为high_bin，MSSNR_n≤T_MSSNR的帧数记为low_bin，即high_bin+low_bin＝l。

2)计算high_bin和low_bin的差异测度diff_hist，

{diff}_{hist} = \frac{{high}_{bin} - {low}_{bin}}{l} = \frac{2 * {high}_{bin}}{l} - 1

根据不同的操作点diff_hist要加上相应的偏移因子

得到偏移后的差异测度，即

{diff}_{hist}^{avg} = ρ * {diff}_{hist}^{avg} + (1 - ρ) * {diff}_{hist}^{bias}

3)计算用于计算T_{var_flux} ⁿ的diff_hist的滑动平均值diff_hist ^avg，

{diff}_{hist}^{avg} = 0.9 * {diff}_{hist}^{avg} + 0.1 * {diff}_{hist}^{bias}

其中ρ为0～1的小数，用于控制diff_hist ^avg的更新速度，如某些实施方式中ρ＝0.9。

4)diff_hist ^avg要被限制在一定范围-X_T到X_T之间，其中X_T和-X_T表示该限定范围的上下限，X_T可以为0～1的小数，如某些实施方式中X_T＝0.6，限值后的diff_hist ^avg用最终差异测度diff_hist ^final表示。

5)var_flux_n的自适应第一阈值T_{var_flux} ⁿ的计算式为，

T_{avr_flux}^{n} = A * {diff}_{hist}^{final} + B

其中，

A = \frac{T_{op}^{up} - T_{op}^{down}}{2 * X_{T}}

B = \frac{T_{op}^{up} + T_{op}^{down}}{2}

T_op ^up和T_op ^down是根据操作点设定的T_{var_flux} ⁿ的最大值和最小值。

可见，上述方式中利用该差异测度，外部输入操作点及预先设定的谱波动方差的自适应阈值的最大值和最小值来计算谱波动方差的自适应第一阈值。

实施方式二、以snr_n确定T_{var_flux} ⁿ的方法，如图7所示：

S501、根据当前信号帧更新信噪比的最大值。

每一帧都确定一个snr_n的最大值max_snr，当当前信号帧snr_n＞max_snr时则将max_snr更新为该当前信号帧snr_n的值；否则，将max_snr乘以某一系数，如0.9999作为更新后的max_snr。也即根据每一帧的snr_n更新max_snr的值。

S502、根据更新后的信噪比的最大值确定信噪比的阈值，即计算snr_n的自适应阈值T_snr，

T_snr＝C_op*max_snr

其中，C_op是一个0～1的小数，具体数值需要根据工作点来进行调整，如某些实施方式中C_op＝0.5。工作点是用于控制语音音乐判决倾向性的外部输入。

S503、获得包括当前信号帧在内的若干帧的snr中大于所述snr的阈值的帧数和小于等于所述snr的阈值的帧数；获得大于所述snr的阈值的帧数和小于等于所述snr的阈值的帧数的差异测度，并根据该差异测度获得自适应第一阈值。

本发明实施例中，可以使用包括当前信号帧及其前l-1帧在内的l帧信号帧的snr_n值来计算T_{var_flux} ⁿ，l可以为大于0的任意正整数，如某些实施方式中l＝512，方法如下：

1)l帧中snr_n＞T_snr的帧数记为high_bin，snr_n≤T_snr的帧数记为low_bin，即high_bin+low_bin＝l。

2)计算high_bin和low_bin的差异测度diff_hist，

{diff}_{hist} = \frac{{high}_{bin} - {low}_{bin}}{l} = \frac{2 * {high}_{bin}}{l} - 1

根据不同的操作点diff_hist要加上相应的偏移因子

得到偏移后的差异测度，即

{diff}_{hist}^{bias} = {diff}_{hist} + {&dtri;}_{op}

{diff}_{hist}^{avg} = ρ * {diff}_{hist}^{avg} + (1 - ρ) * {diff}_{hist}^{bias}

5)var_flux_n的自适应第一阈值T_{var_flux} ⁿ的计算式为，

T_{var_flux}^{n} = A * {diff}_{hist}^{final} + B

其中，

A = \frac{T_{op}^{up} - T_{op}^{down}}{2 * X_{T}}

B = \frac{T_{op}^{up} + T_{op}^{down}}{2}

S306、结合其他参数辅助谱波动方差进行信号分类。

某些实施方式中，还可以在利用var_flux作为主参数进行信号分类时，结合其他参数进行联合判决，以进一步提高信号分类的性能。所述其他参数可以有多种选择，如过零率，峰度等。某些实施方式中可以采用参数峰度hp₁或hp₂进行辅助判决，为叙述清楚，可以将hp₁称为第一峰度，将hp₂称为第二峰度。当hp₁≥T₁和/或hp₂≥T₂时，当前信号帧为音乐帧；或者根据所述hp₁获得的avg_P₁大于等于T₁或根据所述hp₂获得的avg_P₂大于等于T₂，或根据所述hp₁获得的avg_P₁大于等于T₁和根据所述hp₂获得的avg_P₂大于等于T₂同时满足时，则当前信号帧为音乐帧，进一步说明如下：

1、对当前信号帧的频谱S_p ⁿ(i)进行平滑，

\{\begin{matrix} lpf_S_{p}^{n} (i) = S_{p}^{n} (i) + S_{p}^{n} (i - 1) & i = 1, K, N_{1} - 1 \\ lpf_S_{p}^{n} (0) = S_{p}^{n} (0) & i = 0 \end{matrix}

其中，lpf_S_p ⁿ(i)表示平滑后的频谱系数。

2、平滑后查找x个频谱峰值peak(i)，i＝0，1，2，3，x-1；x的取值为小于N₁的正整数。

3、对这x个峰值从大到小进行排序；

4、排序后，取前N个最大的peak(i)，如5个，按下式计算hp₁和hp₂，如果查找到的峰值小于5个，则将N设为实际查找到的峰值个数，使用这N个峰值进行如下计算，

hp 1 = \frac{\sqrt{\frac{1}{N} Σ_{k = 1}^{N} {peak}^{2} [k]}}{\frac{1}{N} Σ_{k = 1}^{N} | peak [k] |} - 1

hp 2 = \frac{\max (| peak [k] |)}{\frac{1}{N} Σ_{k = 1}^{N} | peak [i] |)} - 1

其中N为实际用来计算hp₁和hp₂的的峰值的个数。

某些实施方式中，也可以在查找到的x个频谱峰值中，通过其他方式取N个peak(i)，而不一定通过上述排序的方式；或者排序后不取最大的前几个，而是选取几个，任何在本发明实施例基础上的简单变换均在本发明实施例的保护范围之内。

5、当hp₁≥T₁和/或hp₂≥T₂时当前信号帧为音乐帧，其中T₁和T₂为经验值。

也即在本发明实施例中，在利用var_flux_n作为主参数对当前信号帧进行判决之后，可以分别通过参数hp₁或hp₂，或根据hp₁与hp₂的组合进行辅助判决，从而提高本发明对某些特殊音乐种类的识别率，修正使用局部统计量方法得到的判决结果。

某些实施方式中，也可以先计算hp₁和hp₂的滑动平均avg_P₁和avg_P₂，当avg_P₁≥T₁和/或avg_P₂≥T₂时，当前信号帧判为音乐帧，其中T₁和T₂为经验值。从而避免突然出现的极大值或极小值影响判决结果。

avg_P₁和avg_P₂可以通过如下方法获得：

avg_P₁＝γ*avg_P₁+(1-γ)*hp₁

avg_P₂＝γ*avg_P₂+(1-γ)*hp₂

其中，γ可以为0～1的小数，如某些实施方式中γ＝0.995。

需要说明的是，该步骤中其他参数的获得，根据其他参数进行的辅助判决也可以在S305之前进行，本发明实施例并不限制处理顺序，在本发明实施例基础上的任何简单变换均在本发明实施例的保护范围之内。

S307、对初始判决结果采用一帧拖尾，从而获得最终判决结果。

某些实施方式中，可以将前述步骤S305或S306中得到的判决结果称为当前信号帧的初始判决结果SMd_raw，可以通过采用一帧的拖尾来得到当前信号帧的最终判决结果SMd_out，避免在不同类别信号间出现频繁的切换。

此处以last_SMd_raw和last_SMd_out分别表示上一帧的初始判决结果和最终判决结果。如果last_SMd_raw＝SMd_raw，则SMd_out＝SMd_raw；否则SMd_out＝last_SMd_out。在每帧进行最终判决判决后将last_SMd_raw和last_SMd_out分别更新为当前信号帧的判决结果。

例如，假设上一帧的初始判决结果last_SMd_raw是语音，上一帧的最终判决结果last_SMd_out是语音。如果当前信号帧的初始判决结果SMd_raw是音乐，由于last_SMd_raw与SMd_raw不相同，则当前信号帧最终判决结果SMd_out就为语音，即与last_SMd_out相同。并将last_SMd_raw更新为音乐，last_SMd_out更新为语音。

图8为本发明信号分类装置一个实施例的结构示意图，如图8所示，本发明实施例包括：

第一获取模块601，用于获得当前信号帧的频谱波动参数；

前景帧确定模块602，用于确定所述当前信号帧为前景帧，并将确定为前景帧的所述当前信号帧的的频谱波动参数缓存在第一缓存模块603；

第一缓存模块603，用于缓存所述前景帧确定模块602缓存的所述当前信号帧的频谱波动参数；

设置模块604，用于若所述当前信号帧属于最初第一数目帧信号帧，则将所述当前信号帧的谱波动方差设置为一特定值，并将所述当前信号帧的谱波动方差缓存在第二缓存模块606；

第二获取模块605，用于若所述当前信号帧不属于最初第一数目帧信号帧，根据所述第一缓存模块603缓存的所有信号帧的频谱波动参数获得所述当前信号帧的谱波动方差，并将所述当前信号帧的谱波动方差缓存在第二缓存模块606；

第二缓存模块606，用于缓存所述设置模块604或所述第二获取模块605缓存的所述当前信号帧的谱波动方差。

第一判决模块607，用于获得所述第二缓存模块606中缓存的所有信号帧中谱波动方差大于等于第一阈值的比例，若所述比例大于等于第二阈值，则所述当前信号帧为语音帧，若所述比例小于第二阈值，则所述当前信号帧为音乐帧。

本发明实施例提供的装置，采用获得当前信号帧的频谱波动参数；若所述当前信号帧为前景帧，则将所述当前信号帧的频谱波动参数缓存在第一缓存模块603；若所述当前信号帧属于最初第一数目帧信号帧，则将所述当前信号帧的谱波动方差设置为一特定值，并将所述当前信号帧的谱波动方差缓存在第二缓存模块606；否则，根据缓存的所有信号帧的频谱波动参数获得所述当前信号帧的谱波动方差，并将所述当前信号帧的谱波动方差缓存在第二缓存模块606，以信号谱波动方差作为信号分类的参数，使用局部统计量的方法进行信号分类判决，从而以较少的参数，较简单的逻辑关系，以较低的复杂度实现了信号的分类。

某些实施方式中，如图9所示的本发明信号分类装置另一实施例的结构示意图，除了包括图8所示模块，还可以进一步包括：

第二判决模块608，用于结合其他参数辅助所述第一判决模块607进行信号分类。判决修正模块609，用于对所述第一判决模块607获得的当前信号帧为语音帧或音乐帧的判决结果或所述第一判决模块607与所述第二判决模块608相结合获得的当前信号帧为语音帧或音乐帧的判决结果采用一帧拖尾，从而获得最终判决结果。加窗模块610，用于在所述第一判决模块607获得所述第二缓存模块606中缓存的所有信号帧中谱波动方差大于等于第一阈值的比例之前，对所述第二缓存模块606中缓存的前若干个谱波动方差进行加窗平滑。

第一判决模块607可以包括：

第一阈值确定单元6071，用于确定所述第一阈值；

比例获取单元6072，用于获得所述第二缓存模块606中缓存的所有信号帧中谱波动方差大于等于所述第一阈值确定单元6071确定的第一阈值的比例；

第二阈值确定单元6073，用于确定所述第二阈值；

判断单元6074，用于比较所述比例获取单元6072获得的比例与所述第二阈值确定单元6073确定的第二阈值，若所述比例大于等于所述第二阈值，则所述当前信号帧为语音帧，若所述比例小于第二阈值，则所述当前信号帧为音乐帧。

下面结合前述方法实施例对本发明实施例提供的信号分类装置进行说明：

第一获取模块601获得当前信号帧的频谱波动参数；若前景帧确定模块602确定当前信号帧为前景帧，则将所述当前信号帧的频谱波动参数缓存在第一缓存模块603；若所述当前信号帧属于最初第一数目帧信号帧，则由设置模块604将所述当前信号帧的谱波动方差设置为一特定值，并将所述当前信号帧的谱波动方差缓存在第二缓存模块606；若所述当前信号帧不属于最初第一数目帧信号帧，则由第二获取模块605根据所述第一缓存模块603缓存的所有信号帧的频谱波动参数获得所述当前信号帧的谱波动方差，并将所述当前信号帧的谱波动方差缓存在第二缓存模块606；某些实施方式中，可以由加窗模块610对所述第二缓存模块606中缓存的前若干个谱波动方差进行加窗平滑；第一判决模块607获得所述第二缓存模块606中缓存的所有信号帧中谱波动方差大于等于第一阈值的比例，若所述比例大于等于第二阈值，则所述当前信号帧为语音帧，若所述比例小于第二阈值，则所述当前信号帧为音乐帧；某些实施方式中，可以由第二判决模块608结合其他参数辅助谱波动方差进行信号分类；某些实施方式中，可以由判决修正模块609对初始判决结果采用一帧拖尾，从而获得最终判决结果。

图10为本发明信号分类装置又一个实施例的结构示意图，如图10所示，本发明实施例包括：

第三获取模块701，用于获得确定为前景帧的当前信号帧的频谱波动参数并缓存；

第四获取模块702，用于根据所述第三获取模块701缓存的所有信号帧的频谱波动参数获得当前信号帧的谱波动方差并缓存；

第三判决模块703，用于获得所述第四获取模块702缓存的所有信号帧中谱波动方差大于等于第一阈值的比例，若所述比例大于等于第二阈值，则所述当前信号帧为语音帧，若所述比例小于第二阈值，则所述当前信号帧为音乐帧。

本发明实施例提供的装置，采用获得确定为前景帧的当前信号帧的频谱波动参数并缓存，根据缓存的所有信号帧的频谱波动参数获得当前信号帧的谱波动方差并缓存，获得缓存的所有信号帧中谱波动方差大于等于第一阈值的比例，若所述比例大于等于第二阈值，则所述当前信号帧为语音帧，若所述比例小于第二阈值，则所述当前信号帧为音乐帧的技术手段，以信号谱波动方差作为信号分类的参数，使用局部统计量的方法进行信号分类判决，从而以较少的参数，较简单的逻辑关系，以较低的复杂度实现了信号的分类。

由于前述方法实施例已对信号分类进行了比较详细的说明，上述实施例中的信号分类装置用于实现前述信号分类方法，所以对信号分类装置执行方法时的具体细节只进行简单说明，在此不再赘述，可以参考前述方法实施例的内容。

本发明实施例中以语音和音乐为例进行说明，但可以理解的，根据本发明实施例的方法也可以对其他输入信号进行分类，如语音和噪声。同时本发明在采用局部统计量的方法进行信号分类时采用了当前信号帧的频谱波动参数、谱波动方差等参数作为依据，实际实现中也可以采用当前信号帧的其他参数作为判决依据。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后所应说明的是：以上实施例仅用以说明本发明的技术方案，而非对本发明作限制性理解。尽管参照上述较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这种修改或者等同替换并不脱离本发明技术方案的精神和范围。

Claims

1.一种信号分类方法，其特征在于，所述方法包括：

获得当前信号帧的频谱波动参数；

2.根据权利要求1所述的信号分类方法，其特征在于：

所述第一阈值包括自适应第一阈值；获得自适应第一阈值的方法包括根据修正的子带信噪比和MSSNR获得或根据信噪比获得。

3.根据权利要求2所述的信号分类方法，其特征在于，根据MSSNR获得自适应第一阈值包括：

根据当前信号帧更新MSSNR的最大值；根据更新后的MSSNR的最大值确定MSSNR的阈值；获得包括当前信号帧在内的若干帧的MSSNR中大于所述MSSNR的阈值的帧数和小于等于所述MSSNR的阈值的帧数；获得大于所述MSSNR的阈值的帧数和小于等于所述MSSNR的阈值的帧数的差异测度，并根据该差异测度获得自适应第一阈值。

4.根据权利要求2所述的信号分类方法，其特征在于，使用信噪比获得自适应第一阈值包括：

根据当前信号帧更新信噪比的最大值；根据更新后的信噪比的最大值确定信噪比的阈值；获得包括当前信号帧在内的若干帧的信噪比中大于所述信噪比的阈值的帧数和小于等于所述信噪比的阈值的帧数；获得大于所述信噪比的阈值的帧数和小于等于所述信噪比的阈值的帧数的差异测度，并根据该差异测度获得自适应第一阈值。

5.根据权利要求1所述的信号分类方法，其特征在于，结合其他参数辅助谱波动方差进行信号分类，包括：

结合第一峰度和/或第二峰度进行辅助判决。

6.根据权利要求1至5任一项所述的信号分类方法，其特征在于，在获得当前信号帧为语音帧或音乐帧的判决结果后，所述方法还包括：

对所述判决结果采用一帧拖尾，从而获得最终判决结果。

7.根据权利要求1所述的信号分类方法，其特征在于：

确定当前信号帧为前景帧的方法包括使用修正的子带信噪比和MSSNR或信噪比，若MSSNR大于等于第三阈值或信噪比大于等于第四阈值，则当前信号帧为前景帧。

8.根据权利要求1所述的信号分类方法，其特征在于，在获得所述第二缓存数组中缓存的所有信号帧中谱波动方差大于等于第一阈值的比例之前，所述方法还包括：

对所述第二缓存数组中缓存的前若干个谱波动方差进行加窗平滑。

9.一种信号分类方法，其特征在于，所述方法包括：

获得确定为前景帧的当前信号帧的频谱波动参数并缓存；

根据缓存的所有信号帧的频谱波动参数获得当前信号帧的谱波动方差并缓存；获得缓存的所有信号帧中谱波动方差大于等于第一阈值的比例，若所述比例大于等于第二阈值，则所述当前信号帧为语音帧，若所述比例小于第二阈值，则所述当前信号帧为音乐帧。

10.根据权利要求9所述的信号分类方法，其特征在于：

11.根据权利要求10所述的信号分类方法，其特征在于，根据MSSNR获得自适应第一阈值包括：

12.根据权利要求10所述的信号分类方法，其特征在于，使用信噪比获得自适应第一阈值包括：

13.一种信号分类装置，其特征在于，所述装置包括：

第一获取模块，用于获得当前信号帧的频谱波动参数；

14.根据权利要求13所述的信号分类装置，其特征在于，所述第一判决模块包括：

第一阈值确定单元，用于确定所述第一阈值；

比例获取单元，用于获得所述第二缓存模块中缓存的所有信号帧中谱波动方差大于等于所述第一阈值确定单元确定的第一阈值的比例；

第二阈值确定单元，用于确定所述第二阈值；

判断单元，用于比较所述比例获取单元获得的比例与所述第二阈值确定单元确定的第二阈值，若所述比例大于等于所述第二阈值，则所述当前信号帧为语音帧，若所述比例小于第二阈值，则所述当前信号帧为音乐帧。

15.根据权利要求13所述的信号分类装置，其特征在于，所述装置还包括：，包括：

第二判决模块，用于结合其他参数辅助所述第一判决模块进行信号分类。

16.根据权利要求13至15任一项所述的信号分类装置，其特征在于，所述装置还包括：

判决修正模块，用于对所述第一判决模块获得的当前信号帧为语音帧或音乐帧的判决结果或所述第一判决模块与所述第二判决模块相结合获得的当前信号帧为语音帧或音乐帧的判决结果采用一帧拖尾，从而获得最终判决结果。

17.根据权利要求13所述的信号分类装置，其特征在于，所述装置还包括：

加窗模块，用于在所述第一判决模块获得所述第二缓存模块中缓存的所有信号帧中谱波动方差大于等于第一阈值的比例之前，对所述第二缓存模块中缓存的前若干个谱波动方差进行加窗平滑。

18.一种信号分类装置，其特征在于，所述装置包括：