CN108074584A

CN108074584A - 一种基于信号多特征统计的音频信号分类方法

Info

Publication number: CN108074584A
Application number: CN201611048854.2A
Authority: CN
Inventors: 林志斌; 邱小军
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2016-11-18
Filing date: 2016-11-18
Publication date: 2018-05-25

Abstract

本发明公开了一种基于信号多特征统计的音频信号分类方法，涉及音频编解码与传输领域。本发明公开的音频信号分类方法，包括：对输入的音频信号进行预处理，在时域和MDCT域提取多级音频信号特征统计，对当前帧处于分类的收敛时间帧I内采用单个音频信号统计特征分类；对处于分类的收敛时间帧I之后则采用多特征统计特性分级规则的分类方法进行分类，分类特征采用信号多特征统计特征判断；当前帧经过多特征统计特性分级规则分类后，根据当前帧之前的信号帧分类类型历史状态更新当前帧信号分类类别。本发明使得简单实时的信号分类也具有较高的准确性。

Description

一种基于信号多特征统计的音频信号分类方法

一、技术领域

本发明涉及音频编解码与传输领域，尤其涉及一种基于信号多特征统计的音频信号分类方法。

二、背景技术

在音频信号进行编码、传输或其他处理前对信号进行分类，可以有效地提高编码和传输的效率，由于多媒体音频信号的传输是在基于实时传输的模式框架下，对音频信号的实时分类是一个重要的研究内容。

国内外对音频信号分类的研究大多集中在长时间的分类上，如1秒或10秒时长的低能量率分类和1秒或10秒时长的短时能量进行分类等。在分类器的设计上普遍采用基于统计的分类方法，如支持向量机的分类器，神经网络分类器等。由于处理时间比较长，这些方法在音频实时分类上实用性不高。

目前对音频分类的算法基本是在时域或频域中实现的，而现在流行的编码方式，如MP3，AAC等都利用MDCT变换处理，为了减少额外运算操作，直接提取MDCT域和时域上的特征进行分析，能有效地提高特征提取效率。配合适当的分类规则可以设计出快速音频信号实时分类的分类方法。

三、发明内容

1、发明目的：本发明的目的是提供一种基于信号多特征统计的音频信号分类方法，进行快速的实时分类，减少额外运算，提高音频信号实时分类的精确度，发挥音频信号分类对音频编码与音频传输重要作用。

2、技术方案：为实现上述发明目的，本发明公开一种基于信号多特征统计的音频信号分类方法，包括：

对输入的音频信号进行分帧及高通滤波处理后，进行当前帧静音检测，计算MDCT变换，在时域和MDCT域提取音频特征，当所述当前帧处于分类的收敛时间帧I内采用单个音频特征分类，若所述当前帧处于分类的收敛时间帧I之后则采用多特征统计特性分级规则的分类方法进行分类，且所述当前帧经过多特征统计特性分级规则分类后，根据所述当前帧之前的信号帧分类类型历史状态更新所述当前帧分类类别。

进一步地，上述方法中，采用短时过零率进行当前帧静音检测，所述当前帧短时过零率大于所述第一设定值，设置当前帧为非静音帧。

通过对处理后的每帧音频信号进行MDCT变换，在时域与MDCT域中提取一系列的音频特征，音频特征包括短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和。

进一步地所述方法中，当所述当前帧处于分类的收敛时间帧I内时采用单一特征分类，单一特征采用MDCT频谱子带能量，所述当前帧单一特征第一能量子带大于所述第二设定值，设置当前帧为语音帧。

所述当前帧处于分类的收敛时间帧I后时采用多特征统计特性分级规则进行多级特征分类，多级特征采用短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和。

所述当前帧进行单特征统计特性分类，单特征统计特性分类特征采用MDCT频谱子带能量的第一子带进行判别，大于所述第二设定值，设置当前帧为准语音帧，反之设置所述当前帧为准音乐帧。

进一步地，所述方法中，对单特征统计特性分类后的信号帧按照多特征结合的方法进行精细分类，精细分类每级判断的音频特征分别与相应设定值比较判断信号类型，分级分类过程不改变分级特征判断顺序。

所述通过存储分类结果的历史状态，结合当前帧的分类结果，利用出现频率最高的分类类型作为当前帧的分类结果，若当前帧为静音帧或者历史分类原始分类结果中仅有两帧为非静音帧则维持原分类结果。

所述的第一设定值和第二设置是给定的阈值，相应设定值是一系列给定的阈值。

本发明技术方案通过简单的多特征统计特性分级规则提高音频信号实时分类准确性，从而大大提高音频编解码效率，本发明技术方案可以用于实时双向通信如无线、IP会议电视和实时广播业务等音频编解码领域的音频信号分类判决。

四、附图说明

图1是用于语音频编码器的音频信号分类应用框图。

图2是一种基于信号多特征统计统计特性的音频信号分类方法结构框图。

图3是音频信号静音判断框图。

图4是分类的收敛时间帧I内单一特征分类框图。

图5是分类的收敛时间帧I后单一特征单特征统计特性分类框图。

图6是类语音信号分级规则分类框图。

图7是类音乐信号分级规则分类框图。

图8是分类结果修正模块框图。

五、具体实施方式

本发明的主要构思是，对语音频编解码器可以采用一种实时的音频信号分类方法进行编码前语音频信号类别判决(如图1)，在此基础上根据判决类似选择适用于语音或者音频的编码器，从而提高语音频编解码器的对不同类型信号的编码效率，具体过程如下：

步骤1、信号分帧及高通滤波处理，滤除不必要低频信号；静音检测，采用短时过零率进行当前帧静音检测，当所述当前帧短时过零率大于所述第一设定值，设置当前帧为非静音帧。；

步骤2、MDCT变换，在时域与MDCT域中提取一系列的音频特征，音频特征包括短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和；

步骤3、信号分类的收敛时间帧I内时单一特征信号类别分类；

步骤4、信号分类的收敛时间帧I后时采用多特征统计特性分级规则进行多级特征分类，多级特征采用短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和；

步骤5、信号类别单特征统计特性分类，单特征统计特性分类特征采用MDCT频谱子带能量的第一子带进行判别，大于所述第二设定值，设置当前帧为类语音帧，反之设置所述当前帧为类音乐帧。

步骤6、信号类别单特征统计特性分类后的信号帧按照多特征结合的方法进行精细分类，精细分类每级判断的音频特征分别与相应设定值比较判断信号类型，分级分类过程不改变分级特征判断顺序。

步骤7、通过存储分类结果的历史状态，结合当前帧的分类结果，利用出现频率最高的分类类型作为当前帧的分类结果，若当前帧为静音帧或者历史分类原始分类结果中仅有两帧为非静音帧则维持原分类结果。

下面结合附图及实施例对本发明方案做进一步详细说明。

一种基于信号多特征统计的音频信号分类方法，如图2所示，包括彼此连接的预处理模块、特征提取模块、多特征统计特性分级规则分类模块和分类结果修正模块。下面介绍各模块的功能。

预处理模块，首先是将音频流x(n)进行信号分帧和高通滤波，其次是采用短时平均过零率进行静音检测，如图3所示，当短时平均过零率大于第一设定值时，即图示201，判断该帧为非静音帧，执行203，进入204；否则则执行202，判断为静音帧。短时平均过零率计算采用如下公式1：

(公式1)

其中N是帧长度，sgn[·]为符号函数，即：

(公式2)

窗函数h(n)为矩形窗，即：

(公式3)

特征提取模块，用于预处理后进行MDCT变化和时域及其MDCT域特征提取。首先采用MDCT(Modified Discrete Cosine Transform)变换得到频域系数：

将N点当前帧时域数据x(n)与上一帧N点时域数据x(n-N)叠组成2N点时域数据进行MDCT变换，对于本实施例，采用16kHz采样信号，N取320。

(公式4)

其中w(n)表示sin窗函数，表达式为：

(公式5)

时域及其MDCT频域特征提取：

(1)短时过零率Z_n，判断阈值为和

(2)MDCT频谱谐波结构稳定性HSS：

步骤1、搜索每帧MDCT频谱中每一个峰值点记为P_l，P_l表示该帧的第l个峰值；

步骤2、变换P_l成标准的对数尺度上，记为LP_l，变换如公式6所示：

(公式6)

其中L为最后一个峰值；

步骤3、计算每个LP_l的方差即为HSS，HSS的判断阈值记为和

(3)MDCT频谱子带能量E_b

所述MDCT频谱子带是指MDCT频谱系数等间距分为M个子带，本实施例M为32，子带能量如公式7计算所得：

(公式7)

其中j是子带序号，E_b的第一个子带能量的判断阈值记为

(4)MDCT频谱子带能量变化统计值C_SF

计算MDCT频谱流量SF(j)：

(公式8)

其中E_b(i，j)为时间帧第i帧的第j个子带能量，Q为计算的频谱流量的时间帧数，本实施例中Q取6。

计算SF(j)中超过设定值THR_SF个数C_SF，对应的判断阈值为设定值和

(5)MDCT频谱质心变化值δ_c：

步骤1、计算各帧MDCT频谱质心值：

(公式9)

其中F(k)＝k+1，p(n)的计算如公式10：

p(k)＝Ω(k)/max(Ω(k)) (公式10)

其中Ω(k)＝abs(X(k))。

步骤2、计算MDCT频谱质心变化值：

(公式11)

O为要计算的相邻帧数。本实施例中O取4。δ_c的判断阈值记为和

(6)MDCT频谱系数前四个参数绝对值之和E_l

计算MDCT频谱系数前四个参数绝对值之和，其结果记为E_l，其判断阈值标志为和

多特征统计特性分级规则分类模块，是一种基于多特征统计特性分级的规则分类方法，具体包含以下过程：

所述当前帧处于分类的收敛时间帧I内时采用单一特征分类301模块，单一特征采用MDCT频谱子带能量E_b，如图4所示，执行302，即MDCT频谱子带能量第一能量子带E_b(0)大于则执行304，判定为语音信号帧，反之执行303，为音乐信号帧。

所述当前帧处于分类的收敛时间帧I后时采用单一特征分类401模块，单一特征采用MDCT频谱子带能量E_b，如图5所示，执行402，即MDCT频谱变换系数第一能量子带E_b(0)大于则判定为准语音信号帧，反之为准音乐信号帧。

所述对单特征统计特性分类后的信号帧按照多特征结合的方法进行精细分类，精细分类每级判断的音频特征分别与相应设定值比较判断信号类型，分级分类过程不改变分级特征判断顺序。

所述准语音分级规则分类过程如图6所示，具体过程如下：

比较MDCT频谱子带能量变化统计值C_SF与C_SF第二判断阈值大小，执行502，若大于则输出当前帧为语音信号帧，执行510，否则进入第二级503；

第二级503判断比较MDCT频谱子带能量变化统计值C_SF与C_SF第三判断阈值大小，若小于则输出当前帧为音乐信号帧，执行509，否则进入第三级504；

第三级504判断比较MDCT频谱质心变化值δ_c与δ_c第三判断阈值若大于则输出当前帧为语音信号帧，执行510，否则进入第四级505；

第四级505判断比较MDCT频谱系数前四个参数绝对值之和E_l与E_l第二判断阈值大小，若大于则输出当前帧为音乐信号帧，执行509，否则进入第五级506；

第五级506判断比较MDCT频谱系数前四个参数绝对值之和E_l与E_l第三判断阈值大小，若小于则输出当前帧为语音信号帧，执行510，否则进入第六级507；

第六级507判断比较MDCT频谱谐波结构稳定性HSS与HSS第三判断阈值和第七判断阈值大小，若HSS属于区间，则判定为音乐信号帧，执行509，否则进入第七级508；

第七级508判断比较MDCT频谱谐波结构稳定性HSS与HSS第二判断阈值和第六判断阈值大小，同时比较短时过零率Z_n与Z_n第一判断阈值和第三判断阈值大小，若HSS属于区间且Z_n属于区间，则判断为音乐信号帧，执行509，反之则判断为语音信号帧，执行510，准语音信号分级规则分类模块输出音频信号分类结果。

所述准音乐分级规则分类过程如图7所示，具体过程如下：

比较MDCT频谱质心变化值δ_c与δ_c第一判断阈值执行602，若大于则输出当前帧为语音信号帧，执行609，否则进入第二级603；

第二级603判断比较MDCT频谱质心变化值δ_c与δ_c第二判断阈值若小于或等于则输出当前帧为音乐信号帧，执行608，否则进入第三级604；

第三级604判断比较MDCT频谱谐波结构稳定性HSS与HSS第四判断阈值和第二判断阈值大小，同时比较短时过零率Z_n与Z_n第一判断阈值和第二判断阈值大小，若HSS属于区间且Z_n属于区间，则输出当前帧为音乐信号帧，执行608，否则进入第四级605；

第四级605判断比较MDCT频谱谐波结构稳定性HSS与HSS第五判断阈值大小，若大于则输出当前帧为语音信号帧，执行609，否则进入第五级606；

第五级606判断比较MDCT频谱谐波结构稳定性HSS与HSS第一判断阈值大小，同时比较MDCT频谱子带能量变化统计值C_SF与C_SF第一判断阈值大小，若HSS大于且C_SF大于则输出当前帧为语音信号帧，执行609，否则进入第六级607；

第六级607判断比较MDCT频谱系数前四个参数绝对值之和E_l与E_l第一判断阈值大小，同时比较MDCT频谱子带能量变化统计值C_SF与C_SF第四判断阈值大小，若E_l小于且C_SF大于则判断为语音信号帧，执行609，反之则判断为音乐信号帧，执行608，准音乐信号分级规则分类模块输出音频信号分类结果。

分类结果修正模块，其特征在于，通过存储分类结果的历史状态，即存储当前帧的前T-1帧的原始分类结果及当前帧的分类结果701，若当前帧为静音帧702或者历史分类原始分类结果中仅有两帧为非静音帧703则维持原分类结果，执行705，反之统计出现频率最高的音频信号分类结果作为当前帧的分类结果，执行704，并输出分类结果，执行706，本实施例中T取10，分类结果修正模块框图如图8所示。

其中，所述的一种基于信号多特征统计的音频信号分类方法中所涉及的音频特征参数对应的多级判定阈值，其数值如表1所示。

下面对本发明技术方案的分类效果进行评估。

本次评估使用EBU SQAM的语音频素材，中文采用国家标准GSBM 6001-89_音质评价样件《美谈不美》的中文样本，共71个音频样本。信号为原始音频信号，信号采样率为16KHz，每帧长度为20ms。评估结果见表2。

表1 音频特征参数对应的多级判定阈值

表2 音频信号分类效果测试结果

信号类别	正确率％
		音乐
单频音频	99.6
		电子乐器	96.9
弦乐器	96.6
		管乐器	97.8
打击乐器	94.5
		风琴类乐器	95.0

		语音
男声	95.6
		女声	96.9

本发明所述技术方案对语音的正确分辨率平均为96.22％，音乐的正确分辨率平均为96.23％，分类效果好。本发明技术方案在现有语音频编解码器通用的MDCT域进行音频特征的提取，避免了额外变换的复杂运算，使音频信号分类更为快速；对音频信号的分类处理是实时的，可有效地提高音频传输、音频编码等音频信号处理的效率。

Claims

1.一种基于信号多特征统计的音频信号分类方法，其特征在于，包括：

对输入的音频信号进行分帧及高通滤波处理后，进行当前帧静音检测，计算MDCT变换，在时域和MDCT域提取音频特征，当所述当前帧处于分类的收敛时间帧I内采用单个音频特征分类，若所述当前帧处于分类的收敛时间帧I之后则采用多特征统计特性分级规则的分类方法进行分类，且所述当前帧经过多特征统计特性分级规则分类后，根据所述当前帧之前的信号帧分类类型历史状态更新所述当前帧分类类型。

2.根据权利要求1所述的方法，其特征在于，采用短时过零率进行当前帧静音检测，所述当前帧短时过零率大于所述第一设定值，设置当前帧为非静音帧。

3.根据权利要求1所述的方法，其特征在于，通过对处理后的每帧音频信号进行MDCT变换，在时域与MDCT域中提取一系列的音频特征，音频特征包括短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和。

4.根据权利要求1所述的方法，其特征在于，当所述当前帧处于分类的收敛时间帧I内时采用单一特征分类，单一特征采用MDCT频谱子带能量，所述当前帧单一特征第一能量子带大于所述第二设定值，设置当前帧为语音帧。

5.根据权利要求1所述的方法，其特征在于，当所述当前帧处于分类的收敛时间帧I后时采用多特征统计特性分级规则进行多级特征分类，多级特征采用短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和。

6.根据权利要求5所述的方法，其特征在于，将所述当前帧进行单特征统计特性分类，单特征统计特性分类特征采用MDCT频谱子带能量的第一子带进行判别，大于所述第二设定值，设置当前帧为准语音帧，反之设置所述当前帧为准音乐帧。

7.根据权利要求5或6所述的方法，其特征在于，对单特征统计特性分类后的信号帧按照多特征结合的方法进行精细分类，精细分类每级判断的音频特征分别与相应设定值比较判断信号类型，分级分类过程不改变分级特征判断顺序。

8.根据权利要求1所述的方法，其特征在于，通过存储分类结果的历史状态，结合当前帧的分类结果，利用出现频率最高的分类类型作为当前帧的分类结果，若当前帧为静音帧或者历史分类原始分类结果中仅有两帧为非静音帧则维持原分类结果。

9.根据权利要求1或2或4或7所述的方法，其特征在于，第一设定值和第二设置是给定的阈值，相应设定值是一系列给定的阈值。