CN103854646B

CN103854646B - 一种实现数字音频自动分类的方法

Info

Publication number: CN103854646B
Application number: CN201410120865.1A
Authority: CN
Inventors: 陈科; 李世旭
Original assignee: CHENGDU COMSYS INFORMATION TECHNOLOGY Co Ltd
Current assignee: CHENGDU COMSYS INFORMATION TECHNOLOGY Co Ltd
Priority date: 2014-03-27
Filing date: 2014-03-27
Publication date: 2018-01-30
Anticipated expiration: 2034-03-27
Also published as: CN103854646A

Abstract

本发明公开了一种实现数字音频自动分类的方法，该方法具体包括：对音频信号进行预处理，所述预处理包括：预加重处理、分帧处理以及加窗处理；提取音频特征，所述音频特征包括：频谱质心、扩频、频谱平坦度、频谱变迁参数、短时能量、基音频率以及Mel频率倒谱系数（MFCC）和MFCC一阶差分；根据音频特征进行检索分类，找到相似音频。本发明克服了现有技术中通过采用单一的音频特征对音频进行检索所带来的误差问题，并且其计算过程简单，易于在现实中进行应用，检索的效率较高。

Description

一种实现数字音频自动分类的方法

技术领域

本发明属于音频检索技术领域，具体涉及一种实现数字音频自动分类的方法的设计。

背景技术

如今网络媒体中存有海量的数字音频，从其中找出有相同或相似特征的文件是一件困难的事，目前普遍的做法是根据文件名称、歌手或学说人、标签等文本信息来辨别，而这样做有很大的主观性，从而使得到的结果并不准确。基于内容的音频特征抽取则能克服这些缺点，由于音频数据样本的数据量过大，并不适合直接用于自动分类，因此必须从这个数值序列中提取相应特征，常用的音频特征大致可以分成三类：时域特征、频域特征和声学感知特征。

时域特征仅仅利用音频信号在时域上的信息，在提取时不需要特别的转换，处理时间短。常见的时域特征包括：短时过零率、平均能量、自相关函数、短时平均幅度差函数等。频域特征需要将时域波形信号转换到频谱或倒谱域，然后进行计算。常见的频域特征有：频谱质心、带宽、频率等。声学感知特征是一些声学上定义的概念，考虑了人的听觉感知特点，但通常计算比较复杂。所以在现有技术中，采用不同上述三种特征实现的音频分类的方法都存在某一方面取得较好的效果，而在另一方面表现欠佳，缺少一种能够整合上述三种特征各自优点的音频分类方法。

发明内容

本发明的目的是为了解决现有技术中音频分类方法存在的缺点而提供一种实现数字音频自动分类的方法。

本发明的技术方案是：一种实现数字音频自动分类的方法，具体包括：

S1、对音频信号进行预处理，所述预处理包括：预加重处理、分帧处理以及加窗处理；

S2、提取音频特征，所述音频特征包括：频谱质心、扩频、频谱平坦度、频谱变迁参数、短时能量、基音频率以及Mel频率倒谱系数（MFCC）和MFCC一阶差分；

S3、根据音频特征进行检索分类，找到相似音频。

进一步的，所述步骤S1具体为：

S11、预加重处理：用提升高频特性的预加重数字滤波器来实现；

S12、分帧处理：对音频信号进行分帧处理；

S13、加窗处理：设音频帧信号为x(n)，窗函数为w(n)，加窗后的信号为：y(n)=x(n)*w(n)；其中，0￡n<N,N为每帧的取样数。

更进一步的，所述步骤S1中的预加重处理中的预加重数字滤波器为6dB/倍频程，预加重系数取0.97，所述分帧处理中的帧长取25ms，帧移取12ms，所述加窗处理中采用汉明窗进行加窗处理。

进一步的，所述步骤S2具体为：

S21、计算频谱质心，其公式具体为：其中k是所述步骤S11中数字滤波器的通道序列，P(k)是第k子带频率的加权平均值，中心频率是f(k)，B代表数字虑波器的总通道数；

S22、计算扩频，其扩频计算公式为：其中n表示音频信号的帧数，f(n)表示第n帧的平均频率，C表示所述步骤S21中的频谱质心，P'_x(n)表示第n帧音频的平均频率为x的概率；

S23、计算频谱平坦度，所述频谱平坦度用于描述功率谱平坦的属性，是边界函数的范围，其公式为：所述N为待测音频的N个Bark频率子带，c(i)是指第i个子带内音频的平均幅度；

S24、计算频谱变迁参数S_f，所述频谱变迁参数为相邻两帧频谱之间的距离，其计算公式为：其中，A_i(n)、A_i-1(n)分别为当前帧和前一帧的幅度谱，N表示帧长；

S25、计算短时能量，所述短时能量为一段音频信号中所有采样点所聚集的能量总和，其中第n帧的能量定义为：所述N为帧长，即帧中采样点总数，x(i)是第n帧内第i个采样点的值，w(n-i)是窗口函数，长度为N；

S26、计算基音频率，所述基音频率采用中心削波短时自相关函数波峰检测算法求单帧信号的基音频率，并取它们的均值来代表该帧信号的基音频率特征；

S27、计算Mel频率倒谱系数（MFCC），所述Mel频率和普通音频频率映射函数为：其中，f表示普通音频频率；

S28、计算MFCC的一阶函数：

S281、对加窗处理后的音频数据进行离散傅立叶变换，得到线性频谱X(k)，其公式为：0￡k<N，其中，x(n)为输入的音频信号，N表示傅立叶变换点数；

S282、将所述线性频谱X(k)通过Mel频率滤波器组得到Mel频谱，其中所述Mel频率滤波器组采用三角波滤波器，然后取对数能量得到对数频谱，第j个三角波滤波器的对数能量表示为：j=1,2...P，其中，w_j[k]表示第j个三角滤波器的第k个点对应的权值；s[k]表示变换到Mel尺度上的DFT频谱幅值；P是滤波器的个数；

S283、将滤波器的对数能量进行离散余弦变换，得到倒谱域MFCC系数为：i=1,2...L，其中L是MFCC的维数；

S284、计算t时刻第i维MFCC系数的一阶差分公式为：其中k是常数，表示当前帧的前两帧和后两帧的线性组合。

进一步的，所述步骤S3具体为：

S31、创建特征集合，对子特征集合进行分类器训练；

S32、提取音频特征，对音频进行分类；

S33、检索相似音频。

本发明的有益效果是：本发明一种实现数字音频自动分类的方法，首先对音频进行预处理，提取音频的多种特征值，再根据特征值对音频进行分类，并对分类器进行训练，达到最后检索结果的精确度较高，克服了现有技术中通过采用单一的音频特征对音频进行检索所带来的问题；同时，本发明所述的方法计算过程简单，易于在现实中进行应用，并且检索的效率较高。

附图说明

图1为本发明实施例一种实现数字音频自动分类的方法的流程框图；

图2为本发明实施例一种实现数字音频自动分类的方法的中数据处理的具体流程框图；

图3为分帧处理的示意图；

图4为本发明实施例一种实现数字音频自动分类的方法中特征值提取过程示意图；

图5为MFCC的计算过程示意图。

具体实施方式

下面结合附图和具体的实施例对本发明作进一步的阐述。

如图1所示为本发明实施例一种实现数字音频自动分类的方法的流程框图，具体包括：

S1、对音频数据进行预处理，所述预处理包括：预加重处理、分帧处理以及加窗处理；

S2、提取音频特征，所述音频特征包括：频谱质心、扩频、频谱平坦度、频谱变迁参数、短时能量、基音频率以及Mel频率倒谱系数（MFCC）和MFCC一阶差分；其中，频谱平坦度取23个系数占23维，MFCC及其一阶差分各取10阶共20维，其余各1维，组成共48维特征向量；

S3、根据音频特征进行检索分类，找到相似音频。

如图2所示为本发明实施例数据处理的具体流程框图，其通过分析提取音频特征值创建音频数据库分类器，并且提取待测音频的特征值在数据库中检索相似音频，本发明所述方法利用了音频的多种特征值，在检索时能够避免使用一种单一特征值带来的误差，并且计算的过程较为简便，下面为了本领域技术人员能够理解并且实施本发明技术方案，将对上述方法的具体过程进行详细描述：

所述步骤S1具体包括：预加重处理、分帧处理和加窗处理。

由于音频高频端大约在800Hz以上按6dB/倍频程跌落，所以求语音信号频谱时，频率越高相应的成分越小，高频部分的频谱比低频部分的难求。为此要在预处理中进行预加重(Pre-emphasis)处理，提高高频部分，使信号的频谱变得平坦，在计算机里用具有6dB/倍频程的提升高频特性的预加重数字滤波器来实现，它一般是一阶的数字滤波器：H(z)=1-mz^-1；其中m(0.9<m<1)是预加重系数，在本发明实施方案中其取值为0.97。

为了保证音频信号短时平稳，在预处理阶段首先应对原语音频号进行分帧处理，如图3所示为分帧处理的过程示意图，在本发明实施方案中分帧处理按帧长25ms，帧移12ms进行。

为减小音频帧的截断效应，降低帧两端的坡度，使音频帧的两端平滑过渡而不发生急剧变化，设音频帧信号为x(n)，窗函数为w(n)，则加窗后的信号为：y(n)=x(n)*w(n)；其中，0￡n<N,N为每帧的取样数，另外需要说明的是在本发明申请方案中所有“*”均代表相乘的意思。在具体实施中，本发明采用汉明窗进行加窗处理，其具体表达式为：0￡n<N。

如图4所示为特征值提取过程示意图，所述步骤S2中对音频特征值提取的具体过程为：

S21、计算频谱质心（Spectral Centroid，SC），频谱质心是一个简单而又非常有用的特征，研究者发现它与声音的“活泼”或“刺耳”有关。可通过短时声谱频率的对数来计算SC，SC的平均值、最大值和标准差都可以当作特征来识别乐器，其公式具体为：其中k是所述步骤S11中数字滤波器的通道序列，P(k)是第k子带频率的加权平均值，中心频率是f(k)，B代表数字虑波器的总通道数；

S22、计算扩频（Spectrum Spread），其扩频计算公式为：其中n表示音频信号的帧数，f(n)表示第n帧的平均频率，C表示所述步骤S21中的频谱质心，P'_x(n)表示第n帧音频的平均频率为x的概率；

S23、计算频谱平坦度（Audio Spectrum Flatness,ASF），所述频谱平坦度用于描述功率谱平坦的属性，是边界函数的范围，其公式为：所述N为待测音频的N个Bark频率子带，通常N取24，c(i)是指第i个子带内音频的平均幅度；

S25、计算短时能量（Short Time Energy,STE），短时能量为一段音频信号中所有采样点所聚集的能量总和，第n帧的能量定义为：其中所述N为帧长，即帧中采样点总数，x(i)是第n帧内第i个采样点的值，w(n-i)是窗口函数，长度为N；

S26、计算基音频率，所述基音频率即基音周期的倒数，用于表征了人说话发浊音时声带振动产生的周期性，采用中心削波短时自相关函数波峰检测算法求单帧信号的基音频率，并取它们的均值来代表该帧信号的基音频率特征；

S27、计算MFCC，其计算过程如图5所示，MFCC是考虑人耳对不同频率感知程度的频谱度量参数，人耳对声音高低的感知与实际频率存在非线性关系，而与Mel频率成线性关系，在1000Hz以下为线性尺度，而1000Hz以上为对数尺度，这就使得人耳对低频信号比对高频信号更敏感。Mel频率和普通音频频率映射函数如下：

其中f表示普通音频频率；

S28、计算MFCC的一阶函数：

S281、对进行汉明窗化后的音频数据进行离散傅立叶变换（DFT），得到线性频谱X(k)，其公式为：0￡k<N，其中，x(n)为输入的音频信号，N表示傅立叶变换点数；

S284、计算t时刻第i维MFCC系数的一阶差分公式为：其中k是常数，一般取值为2，用于表示当前帧的前两帧和后两帧的线性组合。

在所述步骤S3中，由于音频种类较多，如人说话的声音、乐器演奏的声音等等，所以在需要对音频进行分类，本发明实施例采用的是一对一的支持向量机多类分类，采用此方法的优点在于：在增量学习中不需重新训练所有支持向量机，只需训练和增量样本有关的分类器即可，可以大大减少训练过程所消耗的时间和资源。其实现的具体步骤为：

S31、创建特征集合，可根据该音频类型，如“钢琴”、“笛子”等类别将特征集合划分为不同的子特征集合，并对子特征集合进行分类器训练；

S32、提取音频特征，对音频进行分类，由于分类器已经训练完成，此时把提取的音频特征输入分类器中，即可得到类别标签，最后将其和被测音频一起存入数据库；

S33、检索相似音频：如果待检索音频在音频数据库中，则直接取出类别标签，与其它音频进行相似度计算，得到相似音频列表；如果不在数据库中，则先按照步骤S32的方法分类出类别标签，再计算相似度，得出相似列表。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为发明的保护范围并不局限于这样的特别陈述和实施例。凡是根据上述描述做出各种可能的等同替换或改变，均被认为属于本发明的权利要求的保护范围。

Claims

1.一种实现数字音频自动分类的方法，其特征在于，具体包括：

所述步骤S1具体为：

S12、分帧处理：对音频信号进行分帧处理；

S13、加窗处理：设音频帧信号为x(n)，窗函数为w(n)，加窗后的信号为：y(n)＝x(n)*w(n)；其中，0≤n＜N,N为每帧的取样数；

S2、提取音频特征，所述音频特征包括：频谱质心、扩频、频谱平坦度、频谱变迁参数、短时能量、基音频率以及Mel频率倒谱系数MFCC和MFCC一阶差分；

所述步骤S2具体为：

S27、计算Mel频率倒谱系数MFCC，所述Mel频率和普通音频频率映射函数为：其中，f表示普通音频频率；

S28、计算MFCC的一阶函数：

S281、对加窗处理后的音频数据进行离散傅立叶变换，得到线性频谱X(k)，其公式为：0≤k＜N，其中，x(n)为输入的音频信号，N表示傅立叶变换点数；

S282、将所述线性频谱X(k)通过Mel频率滤波器组得到Mel频谱，其中所述Mel频率滤波器组采用三角波滤波器，然后取对数能量得到对数频谱，第j个三角波滤波器的对数能量表示为：j＝1,2...P，其中，w_j[k]表示第j个三角滤波器的第k个点对应的权值；s[k]表示变换到Mel尺度上的DFT频谱幅值；P是滤波器的个数；

S283、将滤波器的对数能量进行离散余弦变换，得到倒谱域MFCC系数为：i＝1,2...L，其中L是MFCC的维数；

S284、计算t时刻第i维MFCC系数的一阶差分公式为：其中k是常数，表示当前帧的前两帧和后两帧的线性组合；

S3、根据音频特征进行检索分类，找到相似音频；

所述步骤S3具体为：

S31、创建特征集合，对子特征集合进行分类器训练；

S32、提取音频特征，对音频进行分类；

S33、检索相似音频。

2.如权利要求1所述的一种实现数字音频自动分类的方法，其特征在于，所述步骤S1中的预加重处理中的预加重数字滤波器为6dB/倍频程，预加重系数取0.97，所述分帧处理中的帧长取25ms，帧移取12ms，所述加窗处理中采用汉明窗进行加窗处理。