CN101847412B

CN101847412B - 音频信号的分类方法及装置

Info

Publication number: CN101847412B
Application number: CN2009101291573A
Authority: CN
Inventors: 许丽净; 吴顺妹; 陈立维; 张清
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2009-03-27
Filing date: 2009-03-27
Publication date: 2012-02-15
Anticipated expiration: 2029-03-27
Also published as: US20120016677A1; EP2413313A4; SG174597A1; EP2413313A1; AU2010227994A1; KR20120000090A; AU2010227994B2; BRPI1013585A2; CN101847412A; US8682664B2; JP2012522255A; WO2010108458A1; EP2413313B1; KR101327895B1

Abstract

本发明的实施例公开了一种音频信号的分类方法及装置，涉及通信技术领域，解决了现有技术中在对音频信号的类型进行分类时，分类复杂度高问题。本发明实施例在接收到待分类音频信号后，获取待分类音频信号在至少一个子带中的音调特征参数；根据获取的特征参数判定所述待分类音频信号的类型。本发明实施例主要应用于对音频信号进行分类时的场景，实现可通过较简单的方法完成对音频信号的分类。

Description

音频信号的分类方法及装置

技术领域

本发明涉及通信技术领域，尤其涉及一种音频信号的分类方法及装置。

背景技术

语音编码器擅长于在中低码率下对语音类型的音频信号进行编码，而对音乐类型的音频信号编码效果则欠佳；音频编码器适用于在高码率下对语音类型和音乐类型的音频信号进行编码，但在中低码率下对语音类型的音频信号编码效果不够理想。为了使语音音频混合的音频信号在中低码率下能够取得良好的编码效果，一个适用于在中低码率下的语音音频编码器的编码过程主要包括：首先利用信号分类模块判别音频信号的类型，再根据判别出来的音频信号的类型选择对应的编码方法，对于语音类型的音频信号选择语音编码器，对于音乐类型的音频信号选择音频编码器。

在现有技术当中，对于上述判别音频信号的类型的方法主要包括：

1、利用窗函数将输入信号划分为一系列的重叠的帧；

2、利用快速傅里叶变换(FFT)计算每帧的频谱系数；

3、根据每帧的频谱系数，对于每个段计算五个方面的特征参数：谐波、噪音、拖尾、拖延及节奏；

4、基于上述特征参数的值，把音频信号分为六类：语音类型、音乐类型、噪音类型、短序列、待定序列、及短待定序列。

在实现上述判别音频信号的类型的过程中，发明人发现现有技术中至少存在如下问题：该方法在分类的过程中需要计算多方面的特征参数，对于音频信号的分类也较复杂，由此而导致了分类复杂度较高。

发明内容

本发明的实施例提供一种音频信号的分类方法及装置，降低音频信号分类复杂度，减少运算量。

为达到上述目的，本发明的实施例采用如下技术方案：

一种音频信号的分类的方法，包括：

获取待分类音频信号在至少一个子带中的音调特征参数；

根据获取的特征参数判定所述待分类音频信号的类型。

一种音频信号的分类的装置，包括：

音调获取模块，用于获取待分类音频信号在至少一个子带中的音调特征参数；

分类模块，用于根据获取的特征参数判定所述待分类音频信号的类型。

本发明实施例提供的方案通过采用音频信号的音调特性对音频信号进行分类的技术手段，克服了现有技术中在对音频信号分类时分类复杂的技术问题，进而达到了降低音频信号分类复杂度，减少分类时所需要的运算量的技术效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1音频信号的分类方法的流程图；

图2为本发明实施例2音频信号的分类方法的流程图；

图3为本发明实施例3音频信号的分类方法的流程图；

图4为本发明实施例4音频信号的分类装置的框图；

图5为本发明实施例5音频信号的分类装置的框图；

图6为本发明实施例6音频信号的分类装置的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种音频信号的分类方法及装置，该方法的具体执行过程包括：获取待分类音频信号在至少一个子带中的音调特征参数；根据获取的特征参数判定所述待分类音频信号的类型。

该方法通过包括如下模块的装置实现：音调获取模块和分类模块。其中，该音调获取模块用于获取待分类音频信号在至少一个子带中的音调特征参数；分类模块用于根据获取的特征参数判定所述待分类音频信号的类型。

本发明实施例提供音频信号的分类方法及装置，通过获取音调特征参数便可以判断出待分类音频信号的类型，需要计算的特征参数的方面少，分类方法简单，降低了分类过程中的运算量。

实施例1

本实施例提供一种音频信号的分类方法，如图1所示，该方法包括如下步骤：

501，接收到当前一帧音频信号，该音频信号即为待分类音频信号。

具体为：设采样频率为48kHz，帧长N＝1024个样本点，接收到的当前一帧音频信号为第k帧音频信号。

下述为计算当前一帧音频信号的音调特征参数的过程。

502，计算该当前一帧音频信号的功率谱密度。

具体为：对第k帧音频信号的时域数据进行加汉宁窗的加窗处理。

可通过如下汉宁窗的公式计算：

h (l) = \sqrt{\frac{8}{3}} \cdot 0.5 \cdot [1 - \cos (2 π \cdot \frac{l}{N})], 0 \leq l \leq N - 1 - - - (1)

其中，N代表帧长，h(l)代表第k帧音频信号的第1个样本点的汉宁窗数据。

对加窗后的第k帧音频信号的时域数据进行长度为N的FFT变换(因为FFT变换是关于N/2对称的，所以实际计算长度为N/2的FFT变换即可)，并利用FFT变换系数计算该第k帧音频信号中第k’个功率谱密度。

该第k帧音频信号中第k’个功率谱密度可通过如下计算公式计算：

X (k^{'}) = 10 \cdot \log_{10} {| \frac{1}{N} N_{l = 0}^{N - 1} {h (l) \cdot s (l) \cdot e^{[- j k^{'} l \cdot 2 π / N]}} |}^{2} = 20 \cdot \log_{10} | \frac{1}{N} Σ_{l = 0}^{N - 1} {h (l) \cdot s (l) \cdot e^{[- j k^{'} l \cdot 2 π / N]}} | dB - - - (2)

0≤k′≤N/2，0≤l≤N-1

其中s(l)代表第k帧音频信号的原始输入样本点，X(k’)代表第k帧音频信号中第k’个功率谱密度。

对计算出的功率谱密度X(k’)进行校正，使得该功率谱密度的最大值为参考声压级(96dB)。

503，利用上述功率谱密度检测在频率区域的每个子带中是否有音调的存在，并统计在对应子带中存在的音调的个数，将该音调个数作为在该子带中的子带音调个数。

具体为：将频率区域划分为四个频率子带，分别用sb₀、sb₁、sb₂及sb₃表示这四个频率子带。如果功率谱密度X(k’)与相邻的第若干个功率谱密度之间满足一定的条件，该一定条件在本实施例中可以为如下公式(3)的所示的条件，则认为与该X(k’)对应的子带中含有音调，并对该音调的个数进行统计，得出在该子带中的子带音调个数NT_{k_i}，该NT_{k_i}代表第k帧音频信号在子带sbi(i代表子带的编号，并且i＝0，1，2，3)中的子带音调个数。

X(k′-1)＜X(k′)≤X(k′+1) and X(k′)-X(k′+j)≥7dB (3)

其中，j的取值规定如下：

j = \{\begin{matrix} - 2, + 2 & for 2 \leq k^{'} < 63 \\ - 3, - 2, + 2, + 3 & for 63 \leq k^{'} < 127 \\ - 6, \cdot \cdot \cdot, - 2, + 2, \cdot \cdot \cdot, + 6 & for 127 \leq k^{'} < 255 \\ - 12, \cdot \cdot \cdot, - 2, + 2, \cdot \cdot \cdot, + 12 & for 255 \leq k^{'} < 500 \end{matrix}

在本实施例中，已知功率谱密度的系数个数(即长度)为N/2，对应于上述j的取值规定，对于k’值的取值区间的意义进一步说明如下：

sb₀：对应2≤k’＜63，对应的功率谱密度系数为第0个到第(N/16-1)个，对应的频率范围是[0kHz，3kHz)；

sb₁：对应63≤k’＜127，对应的功率谱密度系数为第N/16个到第(N/8-1)个，对应的频率范围是[3kHz，6kHz)；

sb₂：对应127≤k’＜255，对应的功率谱密度系数为第N/8个到第(N/4-1)个，对应的频率范围是[6kHz，12kHz)；

sb₃：对应255≤k’＜500，对应的功率谱密度系数为第N/4个到第N/2个，对应的频率范围是[12kHz，24kHz)。

其中，sb₀及sb₁对应低频子带部分；sb₂对应较高频子带部分；sb₃对应高频子带部分。

具体统计NT_{k_i}的过程如下：

对于子带sb₀，使k’在大于等于2小于63的区间内逐一取值，对于每一个k’的取值，判断其是否满足公式(3)的条件，在遍历完整个k’的取值区间后，统计满足条件的k’的个数，该满足条件的k’个数，即为第k帧音频信号在子带sb₀中的存在的子带音调个数NT_{k_0}。

例如：若当k’＝3，k’＝5，k’＝10时，公式(3)成立，则认为在子带sb₀中有3个子带音调，即NT_{k_0}＝3。

同样地，对于子带sb₁，使k’在大于等于63小于127的区间内逐一取值，对于每一个k’的取值，判断其是否满足公式(3)的条件，在遍历完整个k’的取值区间后，统计满足条件的k’的个数，该满足条件的k’个数，即为第k帧音频信号在子带sb₁中的存在的子带音调个数NT_{k_1}。

同样地，对于子带sb₂，使k’在大于等于127小于255的区间内逐一取值，对于每一个k’的取值，判断其是否满足公式(3)的条件，在遍历完整个k’的取值区间后，统计满足条件的k’的个数，该满足条件的k’个数，即为第k帧音频信号在子带sb₂中的存在的子带音调个数NT_{k_2}。

利用同样的方法，也可统计该第k帧音频信号在子带sb₃中的存在的子带音调个数NT_{k_3}。

504，计算当前一帧音频信号的总音调个数。

具体为：根据503统计出的NT_{k_i}计算第k帧音频信号在四个子带sb₀、sb₁、sb₂及sb₃中的子带音调个数之和。

该第k帧音频信号在四个子带sb₀、sb₁、sb₂及sb₃中的子带音调个数之和即为该第k帧音频信号的中的音调个数，具体可通过如下公式计算：

{NT}_{k_sum} = Σ_{i = 0}^{3} {NT}_{k_i} - - - (4)

其中，NT_{k_sum}代表第k帧音频信号的总音调个数。

505，计算在规定帧数内当前一帧音频信号在对应子带中的子带音调个数均值。

具体为：设该规定帧数为M，在该M帧内包括第k帧音频信号和第k帧的前(M-1)帧音频信号，根据M的值与k的值之间关系计算第k帧音频信号在这M帧音频信号每个子带中的子带音调个数均值。

该子带音调个数均值具体可通过如下公式(5)计算：

ave_{NT}_{i} = \{\begin{matrix} \frac{Σ_{j = 0}^{k} {NT}_{j_i}}{k + 1} & ifk < (M - 1) \\ \frac{Σ_{j = k - M + 1}^{k} {NT}_{j_i}}{M} & ifk &GreaterEqual; (M - 1) \end{matrix} - - - (5)

其中，NT_j-i代表第j帧音频信号在子带i中的子带音调个数，ave_NT_i代表在子带i中的子带音调个数均值。特别地，由公式(5)可知，在计算时需根据k的值与M的值的关系选择适当的公式进行计算。

特别地，在本实施例中根据设计的需要，不必对每个子带都计算子带音调个数均值，计算在低频子带sb₀中的子带音调个数均值ave_NT₀，及在较高频子带sb₂中的子带音调个数ave_NT₂.即可。

506，计算在规定帧数内当前一帧音频信号总的音调个数均值。

具体为：设该规定帧数为M，在该M帧内包括第k帧音频信号和第k帧的前(M-1)帧音频信号，根据M的值与k的值之间的关系计算第k帧音频信号在这M帧的音频信号内平均每帧音频信号包含的总音调个数。

该总音调个数具体可如下公式(6)计算：

ave_{NT}_{sum} = \{\begin{matrix} \frac{Σ_{j = 0}^{k} {NT}_{j_sum}}{k + 1} & ifk < (M - 1) \\ \frac{Σ_{j = k - M + 1}^{k} {NT}_{j_sum}}{M} & ifk &GreaterEqual; (M - 1) \end{matrix} - - - (6)

其中，NT_{j_sum}代表第j帧总音调个数，ave_NT_sum代表总的音调个数均值。特别地，由公式(6)可知，在计算时需根据k的值与M的值的关系选择适当的公式进行计算。

507，将计算出的在至少一个子带中的子带音调个数均值与总的音调个数均值之比分别作为当前一帧音频信号在对应子带中的音调特征参数。

该音调特征参数具体可通过如下公式(7)计算：

ave_NT_rati o_{i} = \frac{ave_{NT}_{i}}{ave_{NT}_{sum}} - - - (7)

其中，ave_NT_i代表在子带i中的子带音调个数均值，ave_NT_sum代表总的音调个数均值，ave_NT_ratio_i代表第k帧音频信号在子带i中的子带音调个数均值与总的音调个数均值的比值。

特别地，在本实施例中，利用205计算出来的在低频子带sb₀中的子带音调个数均值ave_NT₀及在较高频子带sb₂中的子带音调个数均值ave_NT₂，通过公式(7)可分别计算出第k帧音频信号在子带sb₀中的音调特征参数ave_NT_ratio₀和在子带sb₂中的音调特征参数ave_NT_ratio₂，并将该ave_NT_ratio₀和ave_NT_ratio₂作为第k帧音频信号的音调特征参数。

在本实施例中，需要考虑的音调特征参数是在低频子中和在较高频子带中的音调特征参数，但本发明的设计方案并不仅限于在本实施例中的这一个，根据设计的需要，还可以计算在其它子带中的音调特征参数。

508，根据上述过程中计算得出的音调特征参数判断当前一帧音频信号的类型。

具体为：判断507中计算得出的在子带sb₀中的音调特征参数ave_NT_ratio₀、在子带sb₂中的音调特征参数ave_NT_ratio₂是否与第一参数和第二参数满足一定关系，该一定关系在本实施例中可如下关系式(12)：

(ave_NT_ratio₀＞α)and(ave_NT_ratio₂＜β) (12)

其中，ave_NT_ratio₀代表第k帧音频信号在低频子带中的音调特征参数，ave_NT_ratio₂代表第k帧音频信号在较高频子带中的音调特征参数，α代表第一系数，β代表第二系数。

如果满足上述关系式(12)，则判定第k帧音频信号为语音类型的音频信号，否则为音乐类型的音频信号。

下述为当前一帧音频信号进行平滑处理的过程。

509，对于已判断出音频信号的类型的当前一帧音频信号，再判断该当前一帧音频信号的前一帧音频信号的类型是否与当前音频信号的后一帧音频信号的类型相同，如果判定为两者相同，则执行510，否则执行512。

具体为：判断第(k-1)帧音频信号的类型是否与第(k+1)帧音频信号的类型相同，如果判定的结果为第(k-1)帧音频信号的类型与第(k+1)帧音频信号的类型相同，则执行510，否则执行512。

510，判断当前一帧音频信号的类型是否与当前一帧音频信号的前一帧音频信号的类型相同，如果判定为不相同则执行511，否则执行512。

具体为：判断第k帧音频信号的类型是否与第(k-1)帧音频信号的类型相同，如果判断的结果为第k帧音频信号的类型与第(k-1)帧音频信号的类型不相同，则执行511，否则执行512。

511，将当前一帧音频信号的类型修改为前一帧音频信号的类型。

具体为：将第k帧音频信号的类型修改为第(k-1)帧音频信号的类型。

本实施例在所述当前一帧音频信号进行平滑处理的过程中，具体判断是否需要对当前一帧音频信号的类型进行平滑处理时，采用了需了解前一帧和后一帧音频信号的类型的技术方案，但该方法属于了解前后帧相关信息的过程，具体采用了解前几帧和后几帧的方法并不受本实施例所描述的限制。在该过程中具体了解至少前一帧或至少后一帧音频信号的类型的方案都适用与本发明的实施例。

512，结束流程。

在现有技术中，对音频信号的类型进行分类时需要考虑五种特征参数，在本实施例所提供的方法中，通过采用计算音频信号的音调特征参数，即可判断出大部分的音频信号的类型。与现有技术相比，分类方法简单，运算量低。

实施例2

本实施例公开一种音频信号的分类方法，如图2所示，该方法包括：

101，接收到当前一帧的音频信号，该音频信号即为待分类音频信号。

102，获取当前一帧音频信号在至少一个子带中的音调特征参数。

一般将频率区域分成4个频率子带，在每一个子带中，当前一帧音频信号都可以获取一个对应的音调特征参数。当然，根据设计的需要，也可以选择获取当前一帧音频信号在其中的一个或两个子带中的音调特征参数。

103，获取当前一帧音频信号的频谱倾斜度特征参数。

在本实施例中，102、103不限定执行的顺序，甚至可以同时执行。

104，根据在102中获取的至少一个音调特征参数和在103中获取的频谱倾斜度特征参数，判断当前一帧音频信号的类型。

本实施例提供的技术方案，通过采取根据音频信号的音调特征参数及频谱倾斜度特征参数来判断音频信号的类型的技术手段，解决了现有技术中，在对音频信号的类型进行分类时需要谐波、噪音及节奏等五种特征参数导致分类方法复杂的技术问题，进而取得了降低在对音频信号进行分类时，分类方法的复杂度，减少分类时的运算量的技术效果。

实施例3

本实施例公开一种音频信号的分类方法，如图3所示，该方法包括如下步骤：

201，接收到当前一帧音频信号，该音频信号即为待分类音频信号。

下述为计算当前一帧音频信号的音调特征参数的过程。

202，计算该当前一帧音频信号的功率谱密度。

可通过如下汉宁窗的公式计算：

h (l) = \sqrt{\frac{8}{3}} \cdot 0.5 \cdot [1 - \cos (2 π \cdot \frac{l}{N})], 0 \leq l \leq N - 1 - - - (1)

对加窗后的第k帧音频信号的时域数据进行长度为N的FFT变换(因为FFT变换是关于N/2对称的，所以实际计算长度为N/2的FFT变换即可)，并利用FFT变换系数计算该第k帧音频信号中第k个的功率谱密度。

X (k^{'}) = 10 \cdot \log_{10} | \frac{1}{N} Σ_{l = 0}^{N - 1} {h (l) \cdot s (l) \cdot e^{[- j k^{'} l \cdot 2 π / N]}} |^{2} = 20 \cdot \log_{10} | \frac{1}{N} Σ_{l = 0}^{N - 1} {h (l) \cdot s (l) \cdot e^{[- j k^{'} l \cdot 2 π / N]}} | dB - - - (2)

0≤k′≤N/2，0≤l≤N-1

203，利用上述功率谱密度检测在频率区域的每个子带中是否有音调的存在，并统计在对应子带中存在的音调的个数，将该音调个数作为在该子带中的子带音调个数。

X(k′-1)＜X(k′)≤X(k′+1) and X(k′)-X(k′+j)≥7dB (3)

其中，j的取值规定如下：

\{\begin{matrix} - 2, + 2 & for 2 \leq k^{'} < 63 \\ - 3, - 2, + 2, + 3 & for 63 \leq k^{'} < 127 \\ - 6, \cdot \cdot \cdot, - 2, + 2, \cdot \cdot \cdot, + 6 & for 127 \leq k^{'} < 255 \\ - 12, \cdot \cdot \cdot, - 2, + 2, \cdot \cdot \cdot, + 12 & for 255 \leq k^{'} < 500 \end{matrix}

具体统计NT_{k_i}的过程如下：

204，计算当前一帧音频信号的总音调个数。

具体为：根据203统计出的NT_{k_i}计算第k帧音频信号在四个子带sb₀、sb₁、sb₂及sb₃中的子带音调个数之和。

{NT}_{k_sum} = Σ_{i = 0}^{3} {NT}_{k_i} - - - (4)

其中，NT_{k_sum}代表第k帧音频信号的总音调个数。

205，计算在规定帧数内当前一帧音频信号在对应子带中的子带音调个数均值。

该子带音调个数均值具体可通过如下公式(5)计算：

ave_{NT}_{i} = \{\begin{matrix} \frac{Σ_{j = 0}^{k} {NT}_{j_i}}{k + 1} & ifk < (M - 1) \\ \frac{Σ_{j = k - M + 1}^{k} {NT}_{j_i}}{M} & ifk &GreaterEqual; (M - 1) \end{matrix} - - - (5)

206，计算在规定帧数内当前一帧音频信号总的音调个数均值。

该总音调个数具体可如下公式(6)计算：

ave_{NT}_{sum} = \{\begin{matrix} \frac{Σ_{j = 0}^{k} {NT}_{j_sum}}{k + 1} & ifk < (M - 1) \\ \frac{Σ_{j = k - M + 1}^{k} {NT}_{j_sum}}{M} & ifk &GreaterEqual; (M - 1) \end{matrix} - - - (6)

207，将计算出的在至少一个子带中的子带音调个数均值与总的音调个数均值之比分别作为当前一帧音频信号在对应子带中的音调特征参数。

该音调特征参数具体可通过如下公式(7)计算：

ave_NT_{ratio}_{i} = \frac{ave_{NT}_{i}}{ave_{NT}_{sum}} - - - (7)

下述为计算当前一帧音频信号的频谱倾斜度特征参数的过程。

208，计算一帧音频信号的频谱倾斜度。

具体为：计算第k帧音频信号的频谱倾斜度。

该第k帧音频信号的频谱倾斜度可通过如下公式(8)计算：

spec_til t_{k} = \frac{r (1)}{r (0)} = \frac{Σ_{n = (k - 1) \cdot N}^{k \cdot N - 1} [s (n) \cdot s (n - 1)]}{Σ_{n = (k - 1) \cdot N}^{k \cdot N - 1} [s (n) \cdot s (n)]} - - - (8)

其中，s(n)代表第k帧音频信号的第n个时域样本点，r代表自相关参数，spec_tilt_k代表该第k帧音频信号的频谱倾斜度。

209，根据上述计算出的一帧频谱倾斜度，计算当前一帧音频信号在规定帧数内的频谱倾斜度均值。

具体为：设该规定帧数为M，在该M帧内包括第k帧音频信号和第k帧的前(M-1)帧音频信号，根据M的值与k的值之间的关系计算在这M帧的音频信号内平均每帧音频信号的频谱倾斜度，即在这M帧的音频信号内的频谱倾斜度均值。

该频谱倾斜度均值具体可通过如下公式(9)计算：

ave_spec_tilt = \{\begin{matrix} \frac{Σ_{j = 0}^{k} spec_til t_{j}}{k + 1} & ifk < (M - 1) \\ \frac{Σ_{j = k - M + 1}^{k} spec_{tilt}_{j}}{M} & ifk &GreaterEqual; (M - 1) \end{matrix} - - - (9)

其中，k代表当前一帧音频信号的帧号，M代表规定帧数，spec_tilt_j代表第j帧的音频信号的频谱倾斜度，ave_spec_tilt为频谱倾斜度均值。特别地，由公式(9)可知，在计算时需根据k的值与M的值的关系选择适当的公式进行计算。

210，将至少一个音频信号的频谱倾斜度与上述计算得出的频谱倾斜度均值的均方差作为该当前一帧音频信号的频谱倾斜度特征参数。

具体为：设该规定帧数为M，在该M帧内包括第k帧音频信号和第k帧的前(M-1)帧音频信号，根据M的值与k的值之间的关系计算至少一个音频信号的频谱倾斜度与频谱倾斜度均值的均方差。该均方差即为当前一帧音频信号的频谱倾斜度特征参数。

该频谱倾斜度特征参数可通过如下公式(10)计算：

dif_spec_tilt = \{\begin{matrix} \frac{Σ_{j = 0}^{k} [{(spec_{tilt}_{j} - ave_spec_tilt)}^{2}]}{k + 1} & ifk < (M - 1) \\ \frac{Σ_{j = k - M + 1}^{k} [{(spec_{tilt}_{j} - ave_spec_tilt)}^{2}]}{M} & ifk &GreaterEqual; (M - 1) \end{matrix} - - - (10)

其中，k代表当前一帧音频信号的帧号，ave_spec_tilt为频谱倾斜度均值，dif_spec_tilt为频谱倾斜度特征参数。特别地，由公式(10)可知，在计算时需根据k的值与M的值的关系选择适当的公式进行计算。

上述实施例中描述的计算音调特征参数的过程(202到207)和频谱倾斜度特征参数的过程(208到210)并不限定执行的顺序，甚至可以同时执行。

211，根据上述过程中计算得出的音调特征参数和频谱倾斜度特征参数判断当前一帧音频信号的类型。

具体为：判断207中计算得出的在子带sb₀中的音调特征参数ave_NT_ratio₀、在子带sb₂中的音调特征参数ave_NT_ratio₂及在210中计算得出的频谱倾斜度特征参数dif_spec_tilt是否与第一参数、第二参数和第三参数满足一定关系，该关系在本实施例中可如下关系式(11)：

(ave_NT_ratio₀＞α)and(ave_NT_ratio₂＜β)and(dif_spec_tilt＞γ) (11)

其中，ave_NT_ratio₀代表第k帧音频信号在低频子带中的音调特征参数，ave_NT_ratio₂代表第k帧音频信号在较高频子带中的音调特征参数，dif_spec_tilt代表第k帧音频信号的频谱倾斜度特征参数，α代表第一系数，β代表第二系数，γ代表第三系数。

如果满足所述一定关系，即上述关系式(11)，则判定第k帧音频信号为语音类型的音频信号，否则为音乐类型的音频信号。

下述为当前一帧音频信号进行平滑处理的过程。

212，对于已判断出音频信号的类型的当前一帧音频信号，再判断该当前一帧音频信号的前一帧音频信号的类型是否与当前音频信号的后一帧音频信号的类型相同，如果判定为两者相同，则执行213，否则执行215。

具体为：判断第(k-1)帧音频信号的类型是否与第(k+1)帧音频信号的类型相同，如果判定的结果为第(k-1)帧音频信号的类型与第(k+1)帧音频信号的类型相同，则执行213，否则执行215。

213，判断当前一帧音频信号的类型是否与当前一帧音频信号的前一帧音频信号的类型相同，如果判定为不相同则执行214，否则执行215。

具体为：判断第k帧音频信号的类型是否与第(k-1)帧音频信号的类型相同，如果判断的结果为第k帧音频信号的类型与第(k-1)帧音频信号的类型不相同，则执行214，否则执行215。

214，将当前一帧音频信号的类型修改为前一帧音频信号的类型。

在本实施例描述的对当前一帧音频信号进程平滑处理的过程中，步骤212在判断当前一帧音频信号的类型时，即第k帧音频信号的类型时，需要等待第(k+1)帧音频信号的类型判断出来后才能进行下一步骤213，在这里似乎是引入了一帧的延时用于等待判断出第(k+1)帧音频信号的类型，但通常编码器算法本身在对每帧音频信号进行编码时均会有一帧的延时，本实施例正好利用了这一帧的延时来实施平滑处理的过程，既可避免对当前一帧音频信号的类型的误判，又不会引入额外的延时，取得了可对音频信号进行实时分类的技术效果。

在对于延时上的要求不是很严格的情况下，在本实施例的当前一帧音频信号进行平滑处理的过程中，还可以通过判断当前音频信号的前三帧的类型和后三帧的类型，或者当前音频信号的前五帧的类型和后五帧的类型等来决定是否需要对当前音频信号进行平滑处理，具体需要了解的前后相关帧的个数并不受本实施例中所描述的限制。因为多了解一些前后相关信息，这样的平滑处理后的效果可能会更好。

215，流程结束。

与现有技术需要根据五种特征参数来实现对音频信号的类型进行分类相比本实施例提供的音频信号的分类方法根据两种特征参数即可实现对音频信号的类型的分类，分类算法简单，复杂度低，降低了分类过程的运算量；同时，本实施例的方案还采用了对分类后的音频信号进行平滑处理的技术手段，取得了可提高对音频信号的类型的识别率，使得后续编码过程中能够充分发挥语音编码器及音频编码器作用的有益效果。

实施例4

对应与上述实施1，本实施例具体提供一种音频信号的分类装置，如图4所示，该装置包括：接收模块40，音调获取模块41，分类模块43，第一判断模块44，第二判断模块45，平滑模块46，第一设定模块47。

接收模块40用于接收当前一帧的音频信号，该当前一帧的音频信号即为待分类音频信号；音调获取模块41用于获取待分类音频信号在至少一个子带中的音调特征参数；分类模块43用于根据音调获取模块41获取的音调特征参数判定所述待分类音频信号的类型；第一判断模块44用于在分类模块43对待分类音频信号的类型分类后，判断在所述待分类音频信号之前的至少前一帧音频信号的类型是否与在所述待分类音频信号之后对应的至少后一帧音频信号的类型相同；第二判断模块45用于当第一判断模块44判定与在所述待分类音频信号之后对应的至少后一帧音频信号的类型相同时，判断所述待分类音频信号的类型是否与所述至少前一帧音频信号的类型不同；平滑模块46用于当第二判断模块45判定与所述至少前一帧音频信号的类型不同时，对所述待分类音频信号的类型进行平滑处理；第一设定模块47用于预先设定规定计算的帧数。

在本实施例中，若所述音调获取模块41获取的在至少一个子带中的音调特征参数为：在低频子带中的音调特征参数和在较高频子带中的音调特征参数，则所述分类模块43包括：判断单元431，分类单元432。

判断单元431用于判断所述待分类音频信号是否在低频子带中的音调特征参数大于第一系数，并且在较高频子带中的音调特征参数小于第二系数；分类单元432用于当判断单元431判定所述待分类音频信号在低频子带中的音调特征参数大于第一系数，并且在较高频子带中的音调特征参数小于第二系数时，判定所述待分类音频信号的类型为语音类型，否则为音乐类型。

其中，音调获取模块41是根据待分类音频信号在至少一个子带中的音调个数和所述待分类音频信号总的音调个数计算所述音调特征参数的。

进一步地，在本实施例中音调获取模块41包括：第一计算单元411，第二计算单元412，音调特征单元413。

第一计算单元411用于计算待分类音频信号在至少一个子带中的子带音调个数均值；第二计算单元412用于计算待分类音频信号总的音调个数均值；音调特征单元413用于将所述在至少一个子带中的子带音调个数均值与所述总的音调个数均值的比值分别作为所述待分类音频信号在对应子带中的音调特征参数。

其中，第一计算单元411计算待分类音频信号在至少一个子带中的子带音调个数均值包括：根据第一设定模块47设定的规定计算的帧数与待分类音频信号的帧号的关系计算在一个子带中的子带音调个数均值。

第二计算单元412计算待分类音频信号总的音调个数均值包括：根据第一设定模块设定的规定计算的帧数与待分类音频信号的帧号的关系计算总的音调个数均值。

本实施例提供的音频信号的分类装置通过采用获取音频信号的音调特征参数的技术手段，取得了可判断出大部分音频信号的类型的技术效果，降低了在对音频信号的分类过程中分类方法的难度，同时也减少了运算量。

实施例5

对应与上述实施2的音频信号的分类方法，本实施例公开一种音频信号的分类装置，如图5所示，该装置包括：接收模块30，音调获取模块31，频谱倾斜度获取模块32，分类模块33。

接收模块30用于接收当前一帧的音频信号；音调获取模块31用于获取待分类音频信号在至少一个子带中的音调特征参数；频谱倾斜度获取模块32用于获取待分类音频信号的频谱倾斜度特征参数；分类模块33用于根据音调获取模块31获取的所述音调特征参数和频谱倾斜度获取模块32获取的频谱倾斜度特征参数确定所述待分类音频信号的类型。

在现有技术中，在对音频信号进行分类时的需要参考音频信号的多方面的特征参数，使得分类复杂度高、运算量大，而本实施例提供的方案在对音频信号进行分类时，根据该音频信号的音调和频谱倾斜度两种特征参数即可分辨出该音频信号的类型，使对音频信号的分类变得简单，同时也减少了在分类过程中的运算量。

实施例6

本实施例具体提供一种音频信号的分类装置，如图6所示，该装置包括：接收模块40，音调获取模块41，频谱倾斜度获取模块42，分类模块43，第一判断模块44，第二判断模块45，平滑模块46，第一设定模块47和第二设定模块48。

接收模块40用于接收当前一帧的音频信号，该当前一帧的音频信号即为待分类音频信号；音调获取模块41用于获取待分类音频信号在至少一个子带中的音调特征参数；频谱倾斜度获取模块42用于获取待分类音频信号的频谱倾斜度特征参数；分类模块43用于根据音调获取模块41获取的所述音调特征参数和频谱倾斜度获取模块42获取的频谱倾斜度特征参数判断所述待分类音频信号的类型；第一判断模块44用于在分类模块43对待分类音频信号的类型分类后，判断在所述待分类音频信号之前的至少前一帧音频信号的类型是否与在所述待分类音频信号之后对应的至少后一帧音频信号的类型相同；第二判断模块45用于当第一判断模块44判定与在所述待分类音频信号之后对应的至少后一帧音频信号的类型相同时，判断所述待分类音频信号的类型是否与所述至少前一帧音频信号的类型不同；平滑模块46用于当第二判断模块45判定与所述至少前一帧音频信号的类型不同时，对所述待分类音频信号的类型进行平滑处理；第一设定模块47用于预先设定计算音调特征参数时需要规定计算的帧数；第二设定模块48用于预先设定计算频谱倾斜度特征参数时需要规定计算的帧数。

判断单元431用于当所述待分类音频信号在低频子带中的音调特征参数大于第一系数，并且在较高频子带中的音调特征参数小于第二系数时，判断所述音频信号的频谱倾斜度特征参数是否大于第三系数；分类单元432用于当判断单元判定所述待分类音频信号的频谱倾斜度特征参数大于第三系数时，判定所述待分类音频信号的类型为语音类型，否则为音乐类型。

进一步的，在本实施例中音调获取模块41包括：第一计算单元411，第二计算单元412，音调特征单元413。

其中，第一计算单元411计算待分类音频信号在至少一个子带中的子带音调个数均值根据第一设定模块47设定的规定计算的帧数与待分类音频信号的帧号的关系计算在一个子带中的子带音调个数均值。

第二计算单元412计算待分类音频信号总的音调个数均值包括：根据第一设定模块47设定的规定计算的帧数与待分类音频信号的帧号的关系计算总的音调个数均值。

进一步的，本实施中，频谱倾斜度获取模块42包括：第三计算单元421，频谱倾斜度特征单元422。

第三计算单元421用于计算待分类音频信号的频谱倾斜度均值；频谱倾斜度特征单元422用于将至少一个音频信号的频谱倾斜度与所述频谱倾斜度均值的均方差作为所述待分类音频信号的频谱倾斜度特征参数。

其中，第三计算单元421计算待分类音频信号的频谱倾斜度均值包括：根据第二设定模块48设定的规定计算的帧数与待分类音频信号的帧号的关系计算频谱倾斜度均值。

频谱倾斜度特征单元422计算至少一个音频信号的频谱倾斜度与所述频谱倾斜度均值的均方差包括：根据第二设定模块48设定的规定计算的帧数与待分类音频信号的帧号的关系计算频谱倾斜度特征参数。

本实施例中的第一设定模块47和第二设定模块48可以通过一个程序或者模块实现，甚至也可以设定相同的规定计算的帧数的值。

本实施例提供的方案具有如下有益效果：分类简单，复杂度低，运算量小，不为编码器引入额外的延时，可满足中低码率下的语音音频编码器在分类过程中要求的实时编码、低复杂度的需求。

本发明实施例主要运用于通信技术领域，实现对音频信号的类型进行快速，准确并实时的分类。随着网络技术的发展有可能应用到本领域的其它场景，也有可能转用到类似或者相近的技术领域上去。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘，硬盘或光盘等，包括若干指令用以使得一台编码器执行本发明各个实施例所述的方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音频信号的分类方法，其特征在于，包括：

获取待分类音频信号在至少一个子带中的音调特征参数；

根据获取的所述音调特征参数判定所述待分类音频信号的类型，

其中，所述获取待分类音频信号在至少一个子带中的音调特征参数，包括：计算待分类音频信号在至少一个子带中的子带音调个数均值；计算待分类音频信号总的音调个数均值；将所述在至少一个子带中的子带音调个数均值与所述总的音调个数均值的比值分别作为所述待分类音频信号在对应子带中的音调特征参数；

若所述在至少一个子带中的音调特征参数为：在低频子带中的音调特征参数和在较高频子带中的音调特征参数，则所述根据获取的所述音调特征参数判定所述待分类音频信号的类型包括：

判断所述待分类音频信号是否在低频子带中的音调特征参数大于第一系数，并且在较高频子带中的音调特征参数小于第二系数；

如果所述待分类音频信号在低频子带中的音调特征参数大于第一系数，并且在较高频子带中的音调特征参数小于第二系数，则所述待分类音频信号的类型为语音类型，否则为音乐类型。

2.根据权利要求1所述的音频信号的分类方法，其特征在于，该方法还包括：

获取待分类音频信号的频谱倾斜度特征参数；

根据获取的所述频谱倾斜度特征参数确定所述判定的待分类音频信号的类型；

其中，若所述在至少一个子带中的音调特征参数为：在低频子带中的音调特征参数和在较高频子带中的音调特征参数，则所述根据获取的所述频谱倾斜度特征参数确定所述判定的待分类音频信号的类型包括：

当所述待分类音频信号在低频子带中的音调特征参数大于第一系数，并且在较高频子带中的音调特征参数小于第二系数时，判断所述待分类音频信号的频谱倾斜度特征参数是否大于第三系数；

如果所述待分类音频信号的频谱倾斜度特征参数大于第三系数，则所述待分类音频信号的类型为语音类型，否则为音乐类型。

3.根据权利要求1所述的音频信号的分类方法，其特征在于，

预先设定规定计算的帧数；所述计算待分类音频信号在至少一个子带中的子带音调个数均值包括：

根据规定计算的帧数与待分类音频信号的帧号的关系计算在一个子带中的子带音调个数均值。

4.根据权利要求1所述的音频信号的分类方法，其特征在于，预先设定规定计算的帧数；所述计算待分类音频信号总的音调个数均值包括：

根据规定计算的帧数与待分类音频信号的帧号的关系计算总的音调个数均值。

5.根据权利要求2所述的音频信号的分类方法，其特征在于，所述获取所述待分类音频信号的频谱倾斜度特征参数包括：

计算待分类音频信号的频谱倾斜度均值；

将至少一个音频信号的频谱倾斜度与所述频谱倾斜度均值的均方差作为所述待分类音频信号的频谱倾斜度特征参数。

6.根据权利要求5所述的音频信号的分类方法，其特征在于，

预先设定规定计算的帧数；所述计算待分类音频信号的频谱倾斜度均值包括：根据规定计算的帧数与待分类音频信号的帧号的关系计算频谱倾斜度均值。

7.根据权利要求5所述的音频信号的分类方法，其特征在于，

预先设定规定计算的帧数；所述将至少一个音频信号的频谱倾斜度与所述频谱倾斜度均值的均方差作为所述待分类音频信号的频谱倾斜度特征参数，包括：根据规定计算的帧数与待分类音频信号的帧号的关系计算频谱倾斜度特征参数。

8.一种音频信号的分类装置，其特征在于，包括：

分类模块，用于根据获取的所述音调特征参数判定所述待分类音频信号的类型；

其中，

所述音调获取模块包括：

第一计算单元，用于计算待分类音频信号在至少一个子带中的子带音调个数均值；

第二计算单元，用于计算待分类音频信号总的音调个数均值；

音调特征单元，用于将所述在至少一个子带中的子带音调个数均值与所述总的音调个数均值的比值分别作为所述待分类音频信号在对应子带中的音调特征参数；

当所述音调获取模块获取的在至少一个子带中的音调特征参数为：在低频子带中的音调特征参数和在较高频子带中的音调特征参数时，所述分类模块包括：

判断单元，用于判断所述待分类音频信号是否在低频子带中的音调特征参数大于第一系数，并且在较高频子带中的音调特征参数小于第二系数：

分类单元，用于当判断单元判定所述待分类音频信号在低频子带中的音调特征参数大于第一系数，并且在较高频子带中的音调特征参数小于第二系数时，判定所述待分类音频信号的类型为语音类型，否则为音乐类型。

9.根据权利要求8所述的音频信号的分类装置，其特征在于，该装置还包括：

频谱倾斜度获取模块，用于获取待分类音频信号的频谱倾斜度特征参数；

则所述分类模块还用于根据所述频谱倾斜度获取模块获取的频谱倾斜度特征参数确定所述判定的待分类音频信号的类型；

其中，当所述音调获取模块获取的在至少一个子带中的音调特征参数为：在低频子带中的音调特征参数和在较高频子带中的音调特征参数时，所述分类模块包括的

判断单元还用于当所述待分类音频信号在低频子带中的音调特征参数大于第一系数，并且在较高频子带中的音调特征参数小于第二系数时，判断所述待分类音频信号的频谱倾斜度特征参数是否大于第三系数；

分类单元还用于当判断单元判定所述待分类音频信号的频谱倾斜度特征参数大于第三系数时，判定所述待分类音频信号的类型为语音类型，否则为音乐类型。

10.根据权利要求8所述的音频信号的分类装置，其特征在于，该装置还包括：

第一设定模块，用于预先设定规定计算的帧数；

所述第一计算单元计算待分类音频信号在至少一个子带中的子带音调个数均值包括：根据第一设定模块设定的规定计算的帧数与待分类音频信号的帧号的关系计算在一个子带中的子带音调个数均值。

11.根据权利要求8所述的音频信号的分类装置，其特征在于，该装置还包括：

第一设定模块，用于预先设定规定计算的帧数；

所述第二计算单元计算待分类音频信号总的音调个数均值包括：根据第一设定模块设定的规定计算的帧数与待分类音频信号的帧号的关系计算总的音调个数均值。

12.根据权利要求9所述的音频信号的分类装置，其特征在于，所述频谱倾斜度获取模块包括：

第三计算单元，用于计算待分类音频信号的频谱倾斜度均值；

频谱倾斜度特征单元，用于将至少一个音频信号的频谱倾斜度与所述频谱倾斜度均值的均方差作为所述待分类音频信号的频谱倾斜度特征参数。

13.根据权利要12所述的音频信号的分类装置，其特征在于，该装置还包括：

第二设定模块，用于预先设定规定计算的帧数；

所述第三计算单元计算待分类音频信号的频谱倾斜度均值包括：根据第二设定模块设定的规定计算的帧数与待分类音频信号的帧号的关系计算频谱倾斜度均值。

14.根据权利要求12所述的音频信号的分类装置，其特征在于，该装置还包括：

第二设定模块，用于预先设定规定计算的帧数；

所述频谱倾斜度特征单元计算至少一个音频信号的频谱倾斜度与所述频谱倾斜度均值的均方差包括：根据第二设定模块设定的规定计算的帧数与待分类音频信号的帧号的关系计算频谱倾斜度特征参数。