CN1897109A

CN1897109A - 一种基于mfcc的单一音频信号识别方法

Info

Publication number: CN1897109A
Application number: CN 200610021070
Authority: CN
Inventors: 解梅; 许刚
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2006-06-01
Filing date: 2006-06-01
Publication date: 2007-01-17
Anticipated expiration: 2026-06-01
Also published as: CN1897109B

Abstract

一种基于MFCC的单一音频信号识别方法，属于电子信息技术中的信号处理技术领域，涉及基于内容的音频信号检索、识别方法。首先对待测试单一音频信号进行端点检测，包括滤波、分帧、计算平均短时能量和计算过零率；然后计算待测试单一音频信号的均值MEL倒谱系数；最后根据待测试单一音频信号的均值MEL倒谱系数和标准音频信号特征库，采取最近邻识别算法识别待测单一音频信号。本发明采用MEL倒谱系数作为音频信号的识别特征进行单一音频信号的识别，可以适用于各种声音，大大地提高音频识别的通用性。

Description

一种基于MFCC的单一音频信号识别方法

技术领域

一种基于MFCC的单一音频信号识别方法，属于电子信息技术中的信号处理技术领域，涉及基于内容的音频信号检索、识别方法。

背景技术

基于内容的音频检索是一个新兴的研究领域，在国内外仍处于研究、探索阶段，因此在基于内容的音频检索领域中仍然存在许多问题。音频包括语音和非语音(Non-speech)两类信号。一直以来，音频信号的处理主要集中于语音识别、说话者识别等语音处理方面的研究，如在语音识别方面IBM的ViaVoice已趋于成熟。但是，对于基于内容的音频信息识别技术的研究还不多。如何提取音频中的声学特征(能量、过零率、MFCC系数)和感知特征(音调、音高；旋律、节奏)，使得无序的音频数据变得有序，是基于内容的音频检索技术能否得以实用的关键所在。只有在基于音频物理特征(采样率、时间刻度、样本、格式、编码)的识别技术方面有所突破，才可能在更高层次的基于知识辅助的音频检索方面做出更深入地研究。目前国内研究仅限于音乐分析，音频事件提取和查询方面。真正基于内容的音频识别工作是由美国Muscle Fish公司完成的，他们研究的系统可以对音频进行识别和分类，有较高的准确率。基于内容的音频检索尚有大量问题需要进一步深入研究。

在音频检索系统中，音频特征的选取是识别的关键技术，其目的就是要找出一种可以将不同声音分类的标志，作为识别的依据。由于原始音频数据除了含有采样频率、量化精度、编码方法等有限的注册信息外，本身仅仅是一种非语义符号表示和非结构化的二进制流，缺乏内容语义的描述和结构化的组织，因而音频的检索和内容过滤等应用都受到极大的限制。迄今为止，大都以特定环境下的响度、音调、亮度、谐度等作为识别特征。因此如何选取音频的特征点是当前研究的一个重要内容。

基于MFCC的音频识别算法，是以均值MFCC作为特征点，进行音频识别。因为MFCC作为识别特征已在语音识别的过程中有了广泛的应用，对于不同的非语音音频信号，MFCC仍有着显著的差异，可以作为音频信号的识别特征。

其中，MFCC(Mel-frequency cepstrum cofficients)是建立在傅立叶和倒谱分析基础上的，反应了音频信号的频域特征。对短时音频帧中的采样点进行傅立叶变换，得到这个短时音频帧在每个频率上的能量大小。如果要将整个频率带线性划分成若干个子带，每个子带的宽度可以取为

Mef (f) = 25951 g (1 + \frac{f}{500});

如果整个频率带被划分为n个子带，分别计算这n个子带上的总能量，就构成了这个短时音频帧的n个Mel系数。对提取出来的Mel系数再计算其对应的倒谱系数，就是Mel倒谱系数。倒频谱分析是一种非线性信号处理技术，其基本要领是由Bogert，Healy和Tukey在1963年引入的。它是同态系统理论的基础，是专门处理通过卷积组合在一起的信号的，后来被应用到语音信号的处理中。语音指人类发音器官发出的具有区别意义功能的声音，不能把语音看成纯粹的自然物质；语音是最直接地记录思维活动的符号体系，是语言交际工具的声音形式，其频率的范围介于300～3400赫兹间。

现在通常使用的音频特征有：

带宽(bandwidth)均值：带宽是衡量音频频域范围的指标，其定义为：

其中FC(frequency centroid)为频率中心，它是度量声音亮度(brightness)的指标，其定义为：

FC = {&Integral;}_{0}^{ω} ω {| F (ω) |}^{2} dω / E,

一般地，语音的带宽范围在300HZ～3.4KHZ左右，而音乐的带宽范围比较宽，可以在22.05kHZ左右。

短时平均能量：在一个短时音频帧内，采样点信号所聚集的平均能量。计算公式为：

E_{m} = \frac{1}{N} \underset{m}{Σ} {[x (n) ω (n - m)]}^{2}

其中，x(n)表示第m个短时帧信号中第n个采样信号值，w(n)是长度为N的窗口函数(常用海明窗、汉宁窗等)。

响度：人耳感觉到声音的强弱，依赖于听者的主观听觉，一般声强大的响度也大。声强也叫声音的能流密度，是描述声音强弱的物理量，其单位是瓦特/米²。人耳的响度感觉与音调等也有关系。

以上音频特征的选取都具备一个共同的特点：这些特征都是针对一个特定的环境，对特定环境内的特定声音(少量种类的声音)进行的特征提取并进行识别。一旦环境变化，其提取准确率就会发生较大的波动，甚至不能再作为音频特征进行识别，使整个音频识别系统的性能下降，因此缺乏对各种环境的适应性，方法鲁棒性不好。

发明内容

本发明的任务是提供一种通用的单一音频特征的选取方法，即本发明的方法，可以适用于各种声音，大大地提高音频识别的通用性。这里的声音包括两种含义，在物理学上是指声波，即由振动物体所产生并在媒质中传播的一种波，具有一定的能量。在生理学上则是指声波作用于听觉器官所引起的一种主观感觉。人耳不是对所有物体的振动都能听得见。物体振动次数过低或过高，人耳都不能感受。人耳可感受声音频率的范围介于60～20000赫兹间。

一种基于MFCC的单一音频信号识别方法，如图1所示，假定所识别的音频类型有c种，每种类型分别标记为w₁，w₂，...w_i，...w_c(w_i可以是鸟声、喇叭声等任何一种，i＝1，2，...，c)；并假定已建立标准的音频信号库，音频信号库中每一种类型的参考音频信号由一系列的音频例子组成，其特征是，它包括如下步骤：

步骤一、对待测试单一音频信号进行端点检测，包括如下具体步骤：

第一步：对待测试单一音频信号进行滤波处理，即根据采样率的不同，选择适当的参数，将人耳能感知的音频信号以外的声音滤除(人耳可感知声音频率为60Hz～20KHz)。

第二步：选择适当的阈值，检测待测单一音频信号的起始点和结束点。首先对待测单一音频信号按照每个短时音频帧约为250毫秒进行分帧处理，分帧处理的目的是保持音频信号的短时稳定性，为保证其连续性，对音频帧进行迭加处理，音频帧间的迭加率50％～80％；然后对短时帧音频信号进行平均短时能量的计算，并判断：如果AMP＞AMP1，判断为信号部分，AMP＜AMP1，判断为噪音，AMP1为阈值，通常取值范围为5～20；对短时帧音频信号进行短时过零率的计算，并判断：如果ZCR＞ZCR1，判断为信号部分，ZCR＜ZCR1，判断为噪音，ZCR1为阈值，通常取值范围为5左右；根据平均短时能量和过零率的计算和判断确定待测单一音频信号的起始点和结束点。

短时帧：将离散单一音频信号分成一定长度单位进行处理，即将离散音频采样点分成一个个音频帧。一般一个“短时”音频帧持续时间长度约为几十毫秒个到几百个毫秒。相邻帧间的迭加率一般为50％-80％。

短时平均能量：指在一个短时音频帧内采样点信号所聚集的平均能量。本发明采用的计算公式为：

E_{m} = \frac{1}{N} \underset{m}{Σ} {[x (n) w (n - m)]}^{2},

其中，E_m是短时平均能量，N是短时帧的数目，m是采样点迭加数目，n是采样点的数目，x(n)是待测音频信号，w(n-m)为窗口函数。

过零率：一个短时帧内，离散采样信号值由正到负和由负到正变化的次数，这个量大概能够反映信号在短时帧内的平均频率。本发明采用的计算公式为：

Z_{m} = \frac{1}{2} \underset{m}{Σ} | sign [x (n)] - sign [x (n - 1)] | w (n - m),

其中，Z_m是短时过零率。

步骤二、计算待测试单一音频信号的均值MEL倒谱系数

将60Hz～20KHz的频带按照MEL频率平均化分为24个子带；计算每个短时帧的每个频率子带的能量总和，分别得到每个短时帧的每个频率子带的Mel系数；对提取出来的Mel系数计算其对应的倒谱系数，就得到每个短时帧的每个频率子带的Mel倒谱系数；将所有短时音频帧同一频带的Mel倒谱系数进行求均值，便得到待测单一音频信号的均值Mel倒谱系数。MEL频率与线形频率的关系为：

Mef (f) = 25951 g (1 + \frac{f}{500}) .

步骤三、训练音频信号特征库的建立

对标准音频信号库中的每个音频例子，计算其均值MEL倒谱系数，具体方法如同步骤二，由此建立训练音频信号特征库{y₁，y₂，...，y_N}。

步骤四、采用最近邻识别算法识别待测单一音频信号

对于c个音频类型w₁，w₂，...w_i，...w_c，标准音频信号库中的音频训练样本为{y₁，y₂，...，y_N}，计算未知待测样本x(即待测单一音频信号)与各训练样本类间的最短距离：

d (x, w_{i}) = \min_{j} (d (y, y_{j})),

其中i＝1，2，...c；j＝1，2，...N，将最短距离的一类作为识别结果。

需要说明的是，本发明标准音频信号为单一音频例子。标准音频信号库的建立，可以根据不同应用情况灵活进行，即可以采用已有的标准音频库，也可以对需要识别的音频信号进行分类录制。若采用对需要识别的音频信号进行分类录制的方法建立标准音频信号库，录制时，应尽量减少环境噪声；对录制音频信号进行处理时，可使用GOLDWAVE等处理工具。

本发明中所述音频例子为：在连续音频数据流的特征发生突变时，将其切分成的若干长短不一音频单元。这些长短不一的音频单元好比视频中最小物理单元“镜头”，通常使用“音频例子(Audio Clip)”来指代这些长短不一的音频单元。音频例子长度一般为1-4秒。

本发明创新之处在于，采用MEL倒谱系数作为音频信号的识别特征进行单一音频信号的识别。

本发明的有益效果是：可以适用于各种声音，大大地提高音频识别的通用性。

附图说明：

图1：本发明所述一种基于MFCC的单一音频信号识别方法的流程示意图。

Claims

1、一种基于MFCC的单一音频信号识别方法，假定所识别的音频类型有c种，每种类型分别标记为w₁，w₂，…w_i，…w_c，i＝1，2，...，c；并假定已建立标准的音频信号库，音频信号库中每一种类型的参考音频信号由一系列的音频例子组成，其特征是，它包括如下步骤：

第一步：对待测试单一音频信号进行滤波处理，即根据采样率的不同，选择适当的参数，将人耳能感知的音频信号以外的声音滤除；

第二步：选择适当的阈值，检测待测单一音频信号的起始点和结束点

首先对待测单一音频信号按照每个短时音频帧约为250毫秒进行分帧处理，为保证其连续性，对音频帧进行迭加处理，音频帧间的迭加率50％～80％；然后对短时帧音频信号进行平均短时能量的计算，并判断：如果AMP＞AMP1，判断为信号部分，AMP＜AMP1，判断为噪音；对短时帧音频信号进行短时过零率的计算，并判断：如果ZCR＞ZCR1，判断为信号部分，ZCR＜ZCR1，判断为噪音；根据平均短时能量和过零率的计算和判断确定待测单一音频信号的起始点和结束点；

步骤二、计算待测试单一音频信号的均值MEL倒谱系数

将60Hz～20KHz的频带按照MEL频率平均化分为24个子带；计算每个短时帧的每个频率子带的能量总和，分别得到每个短时帧的每个频率子带的Mel系数；对提取出来的Mel系数计算其对应的倒谱系数，就得到每个短时帧的每个频率子带的Mel倒谱系数；将所有短时音频帧同一频带的Mel倒谱系数进行求均值，便得到待测单一音频信号的均值Mel倒谱系数；

步骤三、标准音频信号特征库的建立

对标准音频信号库中的每个音频例子，计算其均值MEL倒谱系数，具体方法如同步骤二，由此建立训练音频信号特征库{y₁，y₂，...，y_N}；

步骤四、采用最近邻识别算法识别待测单一音频信号

对于c个音频类型w₁，w₂，…w_i，…w_c，标准音频信号库中的音频训练样本为{y₁，y₂，...，y_N}，计算未知待测样本x与各训练样本类间的最短距离：

d (x, w_{i}) = \min_{j} (d (y, y_{j})),

2、根据权利要求1所述的一种基于MFCC的单一音频信号识别方法，其特征是，所述步骤二中第二步中AMP1为阈值，通常取值范围为5～20，ZCR1为阈值，通常取值范围为5左右。

3、根据权利要求1所述的一种基于MFCC的单一音频信号识别方法，其特征是，所述步骤二中第二步中短时平均能量的计算公式为：

E_{m} = \frac{1}{N} \underset{m}{Σ} {[x (n) w (n - m)]}^{2},

4、根据权利要求1所述的一种基于MFCC的单一音频信号识别方法，其特征是，所述步骤二中第二步中过零率的计算公式为：

Z_{m} = \frac{1}{2} \underset{m}{Σ} | sign [x (n)] - sign [x (n - 1)] | w (n - m),

其中，Z_m是短时过零率。

5、根据权利要求1所述的一种基于MFCC的单一音频信号识别方法，其特征是，所述音频例子为：在连续音频数据流的特征发生突变时，将其切分成的若干长短不一音频单元。