CN101145345A

CN101145345A - 音频分类方法

Info

Publication number: CN101145345A
Application number: CNA2006101274131A
Authority: CN
Inventors: 郭利斌; 马付伟
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2006-09-13
Filing date: 2006-09-13
Publication date: 2008-03-19
Anticipated expiration: 2026-09-13
Also published as: CN101145345B

Abstract

本发明公开了一种音频分类方法，该方法包括：对输入的音频信号进行预处理，再计算预处理过的音频信号的线性预测编码系数；根据线性预测编码系数得到信号的频谱包络，再由计算得到的导谱对参数确定幅度差异值；根据幅度差异值的统计结果设置门限，再根据门限对音频信号进行分类。利用本发明能够大大减少对音频信号进行分类所带来的计算量，同时本发明对音频信号进行分类的准确性较高。另外，将本发明应用到扩展带宽自适应多码率编码标准中的信号处理流程时可以使对音频信号分类的计算量非常小，并且可使信号处理流程不采用预先编码方式，直接采用相应的编码模式进行编码，进而可以提高编码的效率。

Description

音频分类方法

技术领域

本发明涉及信息处理领域，尤其涉及一种音频分类方法。

背景技术

在扩展宽带自适应多码率(AMR-WB+，Extended Adaptive Multi-Ratc-Wideband)编码标准中核心编码有两种模式即代数码本激励线性预测(ACELP，Algebraic Code Excited Linear Prediction)和传输变换编码激励(TCX，Transform Coded Excitation)模式，ACELP模式比较适合语音信号，而TCX模式对音乐信号的编码效果比较好。在AMR-WB+标准中需要对每一帧信号进行预先编码，然后再选择采用哪种最佳模式进行编码，但是对每帧信号都要进行预先编码处理，这样会导致计算量非常庞大，故需要对信号进行预先分类以减少计算量。而语音和音乐是音频信号中最主要的两类数据，因此对语音和音乐信号进行区分也是提取音频内容语义和结构的重要手段之一。

现有技术一是采用简单决策树分类方法对音频信号进行多步多层次分类，该分类方法每一步都要根据一种或者几种音频特征及其阈值判断音频所属的类别，其中，一般选择的特征参数包含：过零率、基因周期、频带中心、子带能量、频谱平滑(SF，Spectrum Flux)、Mel频率倒谱参数(MCFF，Mel FrequencyCepstral Coefficients)等。该现有技术对特征参数的选择要求比较高，选择的特征参数除必须具有较高的有效性、合理性和分类性能较好的特点外，还需要能够充分表示音频的重要分类特性，以及对环境具有较好的鲁棒性和一般性，其中，一般性是指特征参数对各种类型的距离度量方法都能取到比较好的结果。

现有技术二是采用分类器对音频信号进行分类，比较常见的分类器包括隐马尔可夫模型(HMM，Hidden Markov Model)、高斯混合模型(GMM，GaussianMixture Model)和神经网络等，例如，HMM实质上是一种双随机过程的有限状态自动机，它具有刻画信号的时间随机统计特性能力，并根据极大似然准则判决音频的类别。

现有技术一中每步都需要根据一种或几种音频特征及其阈值判断音频所属的类别，因此该现有技术在提取性能较好的特征参数时的运算量比较大，例如，提取MFCC参数需要进行Mel滤波、离散余弦变换(DCT，Discrete CosineTransform)等，故而增加了计算量，并且现有技术一还要受多个特征参数先后判断顺序的影响。另外，现有技术二中事先要对分类器进行大量数据的训练，整个过程计算量较大，并且不易于硬件实现。因此，现有技术的缺陷是在音频信号分类的过程中运算量比较大。

发明内容

本发明要解决的技术问题是提供一种音频分类方法，该方法在对音频信号进行有效分类的同时又大大减少了运算量。

为解决上述技术问题，本发明提供了一种音频分类方法，该方法包括：

对输入的音频信号进行预处理，再计算预处理过的音频信号的线性预测编码系数；

根据线性预测编码系数得到信号的频谱包络，再由计算得到的导谱对参数确定幅度差异值；

根据幅度差异值的统计结果设置门限，再根据门限对音频信号进行分类。

可选地，采用杜宾算法、格型算法或舒尔算法计算音频信号的线性预测编码系数。

可选地，上述根据线性预测编码系数得到信号的频谱包络包括：

根据线性预测编码系数得到线性预测误差滤波器的传递函数，并由传递函数计算得到导谱对参数；

根据导谱对参数设置滤波系数，再由滤波系数得到信号导谱对频谱包络。

根据线性预测编码系数计算得到线性预测误差滤波器的传递函数，再由传递函数得到信号的线性预测编码频谱包络。

可选地，上述由计算得到的导谱对参数确定幅度差异值包括：

确定导谱对参数在信号频谱包络中对应的幅度值，再计算导谱对参数对应幅度值之间的比值就可以得到幅度差异值。

选取相邻导谱对参数之间的幅度值作为频谱的代表点，再计算代表点对应幅度值之间的比值就可以得到幅度差异值。

其中，根据幅度差异值的统计结果设置门限包括：

计算幅度值对应频率点之间的差值，再计算幅度差异值和该差值的比值得到幅度差异值的变化量；

对幅度差异值的变化量进行统计，再根据统计结果设置门限。

可选地，根据幅度差异值的统计结果设置门限包括：

对幅度差异值进行统计，再根据统计结果设置门限。

可选地，在对音频信号进行分类之前或之后进一步包括：

采用过零率或基因周期对音频信号进行分类。

可选地，采用对信号加窗或分帧方式对音频信号进行预处理。

以上技术方案可以看出，本发明提供的音频分类方法具有以下有益效果：

首先，本发明先计算信号的频谱包络，再根据频谱幅度值对音频信号进行分类，与现有技术每步都要根据几种音频特征参数以及特征参数的阈值或者对分类器进行大量数据的训练相比较，本发明在对音频信号进行分类的过程中大大减少了计算量。

进一步地，由于本发明选取相邻阻抗对参数之间的幅度值作为频谱代表点，再计算代表点所对应幅度值之间的差异值，这样就不需要计算频谱所有频率点之间的幅度差异值，进而又进一步减少了对音频信号进行分类所带来的计算量，而且也提高了分类的准确性。

进一步地，如果将本发明方法嵌入AMR-WB+标准的信号处理流程中时，由于导谱对参数在选择编码模式之前就已经计算好了，因此只需利用已求出的导谱对参数计算信号的频谱包络，然后再计算相应频率之间的幅度差异值就可以区分音频信号了，这样使对音频信号分类的计算量非常小。

进一步地，由于本发明是通过计算频谱幅度之间的比值得到幅度差异值，这样可以避免由幅度值大小的波动而引起的错误判断，从而提高了对音频信号进行分类的准确性。

进一步地，由于本发明在根据幅度差异值的门限对音频信号分类之前或之后又采用过零率或基因周期对音频信号分类，这样又进一步提高了对音频信号进行分类的准确性。

进一步地，由于本发明是利用导谱对参数对应的频谱幅度差异值来区分语音和音乐信号，这样使本发明能够提取一种容错性和抗噪性比较好的分类特征参数。

最后，如果将本发明方法嵌入AMR-WB+标准的编码流程之前，这样就能够在编码之前就能够较好地区分语音和音乐信号，因而在AMR-WB+标准的处理流程中就完全可以不采用预先编码方式，直接采用相应的编码模式进行编码，这样可以简化信号的处理流程，同时又可以大大减少编码的计算量，进而提高了编码的效率。

附图说明

图1是本发明方法实施例一的流程图；

图2是频谱包络和导谱对参数的关系示意图；

图3是本发明方法实施例二的流程图。

具体实施方式

语音信号的带宽是在0.3赫兹与3.4千赫兹之间，而音乐信号的带宽一般在22千赫兹左右；语音信号的频率中心要比音乐信号的低，语音信号的能量主要集中在低频段，而音乐信号的频域能量分布比较均匀，因此语音信号的频谱平滑(SF)参数明显地要大于音乐信号的SF参数。

根据上述理论和现有技术的缺陷提出了一个用频谱平滑参数判断信号类型的构思，利用SF参数判断信号类型的过程如下：首先，计算音频信号的快速傅里叶变换(FFT，Fast Fourier Transform)得到频谱幅度；其次，计算相邻两点幅度值之差的绝对值；接着，计算这些幅度值之差的绝对值得平均值或者求和；最后，选择一个恰当的阈值以区分语音和音乐信号。尽管这种特征参数可以较好地区分语音和音乐信号，但是由于对频谱相邻之间的所有点都要计算幅度之差的绝对值，并且还需要进行快速傅里叶变换，这样会增加计算量，而且还有可能会由于幅度值大小而引起错误的判断，故而没有解决现有技术所存在的问题。

针对上述构思存在的两个问题，本发明对该构思作了进一步的改进：

首先，由语音和音乐信号频谱的平滑特性得知，音乐信号的频谱包络要比语音信号平坦，在中低频段，语音信号的频谱包络起伏变化比较急剧，故可以将信号的频谱包络近似看作信号的频谱，而信号的频谱包络可以由线性预测编码(LPC，Linear Predictive Coding)系数或者导谱对(ISP，Immittance SpectralPairs)参数得到，LPC系数或ISP参数估计得到的频谱包络都能够较好地反映音频信号的频谱包络，但是ISP频谱包络更能反映信号的谐振特性，另外，计算信号的LPC或ISP频谱包络要比直接利用FFT得到信号频谱的运算量要大为减少，因此本发明利用信号的频谱包络代替利用FFT得到的信号频谱可以解决计算量大的问题。

另外，频谱包络的峰值分布关系可以代替信号的频谱包络，也就是可以利用频谱包络峰值分布特点代替信号的频谱特性，因而可以利用峰值点之间的幅度差异值来取代相邻两点之间的幅度差异值，这样不仅可以避免由幅度值大小的波动而引起的错误判断，而且还可以进一步减少计算量，因此本发明利用幅度差异值可以解决由幅度值大小而引起的错误判断。

根据上述改进之处，本发明提供了一种音频分类方法，该方法的基本思想是：对输入的音频信号进行预处理，再计算预处理过的音频信号的线性预测编码系数；根据线性预测编码系数得到信号的频谱包络，再由计算得到的导谱对参数确定幅度差异值；根据幅度差异值的统计结果设置门限，再根据门限对音频信号进行分类。

根据上述方法的基本思想，下面结合附图对本发明方法的具体技术方案进行详细说明。

参照图1，图1是本发明方法实施例一的流程图，该流程具体包括以下步骤：

步骤101、对输入的音频信号进行预处理，其中，可以采用加窗函数、对信号分帧和滤波等方式对音频信号进行预处理。

步骤102、音频信号经过预处理后，再按照杜宾算法、格型算法或舒尔算法等计算该音频信号的线性预测编码系数，假设p阶的线性预测误差滤波器传递函数为A(z)，即A(z)＝A^(p)(z)，然后再定义两个p阶多项式：

P(z)＝A(z)+z^-pA(z^-1) (1)

Q(z)＝A(z)-z^-pA(z^-1) (2)

从上面两式可直接推出：

A (z) = \frac{1}{2} [P (z) + Q (z)] - - - (3)

步骤103、根据LPC系数可以得到线性预测误差滤波器传递函数A(z)，再由A(z)可以推导求出P(z)和Q(z)，具体如下：

P (z) = (1 + z^{- 1}) Π_{i = 1}^{p 2} (1 - 2 \cos ω_{i} z^{- 1} + z^{- 2}) - - - (4)

Q (z) = (1 - z^{- 1}) Π_{i = 1}^{p 2 - 1} (1 - 2 \cos θ_{i} z^{- 1} + z^{- 2}) - - - (5)

步骤104、令P(z)＝0，Q(z)＝0，再按照式(4)和式(5)计算求出p-1个导谱对参数ω₁、θ₁，ISF参数也就是零点频率，其中，ω_i、θ₁按照以下方式进行排列：0<ω₁<θ₁<ω₂<θ₂<...<π。

步骤105、根据计算得到的ISP参ω_i、θ_i设置线性预测误差滤波器的滤波系数。

步骤106、根据计算得到的滤波系数求出线性预测误差滤波器的频率响应，再根据频率响应计算得到信号的频谱包络|H(e^jw)|，具体如下：

| H (e^{jw}) |^{2} = \frac{1}{| A (e^{jw}) |^{2}} = 4 | P (e^{jw}) + Q (e^{jw}) |^{- 2} - - - (6)

从式(6)中可以看出，如果相邻的ISP参数ω_i和θ_i很靠近，那么w接近这些频率时，|A(e^jw)|²变小，|H(e^jw)|²就显示出强谐振特性，相应地，音频信号的频谱包络在这些频率附近就会出现峰值，相反如果相邻的ISP参数距离较远，则频谱包络在该区域是相对比较平坦的，具体可参照图2，图2横坐标的小圆圈代表ISF参数，因此可以说ISP包络是用ISP参数ω_i和θ_i的分布密度来表示音频信号的频谱特性。

步骤107、确定ISP参数在信号频谱包络中对应的幅度值，本实施方式是直接利用ISP参数ω₁和θ₁对应的幅度值来计算幅度差异值的。

步骤108、计算ISP参数对应幅度值之间的比值得到幅度差异值，再采用求平均值、均方值或数学期望等统计特性对幅度差异值进行统计，其中，统计的对象可以是幅度差异值，也可以是体现幅度差异值的关系式，例如A_i+1÷A_i，

等等。

假设幅度差异值为A_i+1÷A_i，其中A_i代表幅度值，通常用

来反映频谱幅度变化的快慢程度，从而更能区分语音和音乐信号，其中__i表示幅度值A_i所对应的频率。下面结合表1的数据来说明语音和音乐信号的区别，表1的数据是按照计算得到，也就是将

计算得到的数据转化为增益形式。

表1

表1中的数据包括语音和音乐数据，其中每个语音或音乐数据又包含3种不同类型的数据，因为语音信号的能量大部分集中在低频阶段并且幅度变化比较快，所以它在中低频阶段的均值要高于音乐信号，另外，在计算低频均值过程中通常会将ω₁和θ₁所对应的幅度值的差异值去掉，这是因为无论是语音还是音乐信号，ω₁和θ₁对应的幅度差异值都是较大的，与中低频的统计结果相差较大。

现以求平均值方式对幅度差异值进行统计，选取几个中低频幅度差异值以及如何选取幅度差异值可以根据实际情况做出选择。下面从表1中选取第2个、第3个和第4个幅度差异值，然后分别对语音数据和音乐数据计算这3个值的平均值，语音1的平均值为27.8408，语音2的平均值为24.5787，语音3的平均值为25.6078，音乐1的平均值为16.7606，音乐2的平均值为15.5892，音乐3的平均值为18.4927，从这几组平均值可以看出，语音信号的平均值要大于24，而音乐信号的平均值要小于19，这样就可以根据中低频差异值的平均值就可以对语音和音乐信号进行分类。

步骤109、根据幅度差异值的统计结果设置一个恰当的门限用以区分语音信号、音乐信号以及噪声等，假设语音信号的平均值大于24，音乐信号的平均值小于19，噪声的平均值大于29，可以将门限设置为区间[24，29]就可以区分音频信号。

其中，本发明方法除了利用ISP参数对应幅度值得到幅度差异值之外，还可以利用相邻ISP参数之间的幅度值得到幅度差异值，所述幅度值可以是最大幅度值或最小幅度值等。由图2可知，当相邻ISP参数很靠近的时候，相应地音频信号谱包络在这些频率附近就会出现峰值，这样选取它们相邻ISP参数之间的最大频谱幅度值就可以代替信号的频谱特性。既然ISF参数能够较好地代表频谱特性，因而完全可以用p-1个ISP参数作为频谱的代表点，这样仅仅需要计算p-1个代表点对应的幅度值之间的差异，进而大大减少了计算量。

另外，为了更好地区分语音和音乐信号等，在采用幅度差异值区分音频信号之前或之后可以先采取过零率、基因周期等特征参数区分语音和音乐信号。

参照图3，图3是本发明方法实施例二的流程图，该流程具体包括以下步骤：

步骤301、对输入的音频信号进行预处理，其中，可以采用加窗函数或对信号分帧等方式对音频信号进行预处理。

步骤302、音频信号经过预处理后，按照杜宾算法、格型算法或舒尔算法等计算信号的线性预测编码(LPC)系数，假设p阶的线性预测误差滤波器传递函数为A(z)，即A(z)＝A^(p)(z)，然后再定义两个p阶多项式：

P(z)＝A(z)+z^-pA(z^-1)

Q(z)＝A(z)-z^-pA(z^-1)

从上面两式可直接推出：

A (z) = \frac{1}{2} [P (z) + Q (z)]

步骤303、根据LPC系数可以得到线性预测误差滤波器传递函数A(z)，再由A(z)可以推导求出P(z)和Q(z)，具体如下：

P (z) = (1 + z^{- 1}) Π_{i = 1}^{ρ 2} (1 - 2 \cos ω_{i} z^{- 1} + z^{- 2})

Q (z) = (1 - z^{- 1}) Π_{i = 1}^{ρ 2 - 1} (1 - 2 \cos θ_{i} z^{- 1} + z^{- 2})

步骤304、根据A(z)计算线性预测误差滤波器的频率响应，从而得到LPC频谱包络。与ISP频谱包络相比，尽管LPC频谱包络不能很好地反映信号的谐振特性，但是LPC频谱包络也能够较好地反映信号的频谱特性。

步骤305、根据P(z)和Q(z)计算求出p-1个零点频率也即ISP参数ω_i、θ_i，其中，ω₁、θ_i按照以下方式进行排列：0<ω₁<θ₁<ω₂<θ₂<...<π。

步骤306、由ISP参数确定相应频率在信号的频谱包络中所对应的幅度值，其中，相应频率可以是导谱对参数对应的频率，也可以是两相邻导谱对参数之间的频率。

步骤307、计算相应频率点幅度值的比值得到幅度差异值，再采用求平均值、均方值或数学期望等统计特性对幅度差异值进行统计，该步骤的实现方式与实施例一相同。

步骤308、根据幅度差异值的统计特性设置一个恰当的门限用以区分语音信号、音乐信号以及噪声等。

由上述可知，实施例一是本发明方法的优选实施方式，并且两个实施例都未嵌入到AMR-WB+标准信号处理流程。如果将本发明方法嵌入到AMR-WB+标准的处理流程中，就不需要对音频信号进行预处理和计算每帧信号的LPC系数，也不需要计算ISP参数，这是因为AMR-WB+标准在编码模式选择之前就已经计算出ISP参数，所以可按照以下方式来区分音乐和语音信号：调用已计算得到的ISP参数计算频谱包络，然后再计算相应频率之间的幅度差异值，再根据幅度差异值区分音频信号，这些步骤和上述两种实施例的步骤相同。

另外，上述实施方式是由幅度值之间的比值来表示幅度差异值，本发明也不排除用幅度值之间的差值等方式来表示幅度差异值。

以上对本发明所提供的一种音频分类方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种音频分类方法，其特征在于，该方法包络：

2.如权利要求1所述的音频分类方法，其特征在于，采用杜宾算法、格型算法或舒尔算法计算音频信号的线性预测编码系数。

3.如权利要求1所述的音频分类方法，其特征在于，根据线性预测编码系数得到信号的频谱包络包括：

根据导谱对参数设置滤波系数，再由滤波系数得到信号的导谱对频谱包络。

4.如权利要求1所述的音频分类方法，其特征在于，根据线性预测编码系数得到信号的频谱包络包括：

5.如权利要求1、2、3或4所述的音频分类方法，其特征在于，确定幅度差异值包括：

6.如权利要求1、2、3或4所述的音频分类方法，其特征在于，确定幅度差异值包括：

7.如权利要其1、2、3或4所述的音频分类方法，其特征在于，根据幅度差异值的统计结果设置门限包括：

8.如权利要求1、2、3或4所述的音频分类方法，其特征在于，根据幅度差异值的统计结果设置门限包括：

对幅度差异值进行统计，再根据统计结果设置门限。

9.如权利要求1所述的音频分类方法，其特征在于，在对音频信号进行分类之前或之后进一步包括：

采用过零率或基因周期对音频信号进行分类。

10.如权利要求1所述的音频分类方法，其特征在于，采用对信号加窗或分帧方式对音频信号进行预处理。