CN101226558B

CN101226558B - 一种基于mfccm的音频数据检索方法

Info

Publication number: CN101226558B
Application number: CN2008100705577A
Authority: CN
Inventors: 李应
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2008-01-29
Filing date: 2008-01-29
Publication date: 2011-08-31
Anticipated expiration: 2028-01-29
Also published as: CN101226558A

Abstract

本发明属于多媒体数据检索、处理技术，提供一种基于MFCCM的音频数据检索方法，通过构建音MFCCM，对MFCCM进行多列塔型检索，MFCCM与mfcc_q矩阵列的相似性分析，计算MFCCM与mfcc_q相关帧的距离等步骤实现。本发明所采用的方法克服现有方法中存在的检索效率和检索精度的问题，为多媒体数据检索、处理，音频数据分析、索引、搜索和检索提供一种高效率和高精度的方法。

Description

一种基于MFCCM的音频数据检索方法

技术领域

本发明属于多媒体数据检索、处理技术，特别涉及音频数据分析、索引、搜索和检索技术。

背景技术

媒体音频数据，已经成为网络、信息时代信息的重要组成部分。如何对各种音频数据进行分类、搜索、索引和检索已经成为音频数据广泛应用的瓶颈。因此，音频数据的分类、识别、自动检索、智能浏览、基于内容的检索和基于音频信号对视频数据进行检索等引起广泛的研究。这类研究一般通过对声音的分析来产生各种特征，通过特征来实现搜索和检索声音(Wold et al.1996)。其中，经常使用的特征包括音频信号的短时离散傅立叶变换、短时自相关序列、倒谱系数、Mel频率倒谱系数、谱质心(Spectral)、谱衰减(Spectral Roll-off)、谱通量(Spectral Flux)、基频(Fundamental Frequency)、过零率(Zero-Crossing Rate)和能量(Rate)等。

这些特征可以作为视听数据内容分析的主要部分(Wand et al.2000)。同样，Zhang etal.(2001)通过对这些特征的分析来确定语音、音乐、歌声、环境声音、带音乐背景的语音、带音乐背景的环境声、静音等，从而实现视听数据的自动分段和分类。Cristani et al.(2007)则利用这些特征，实现视听数据自动场景分析和理解。

对于音乐数据的检索，Pikrakis et al.(2003，2006)通过分析特征序列的相邻频率突变的相关性，实现音乐的自动分析和用变时HMM分类音乐。Pinquier et al.(2006)根据熵和稳定分段的时延，实现多媒体文件的语音和音乐轨迹检索。Fragoulis et al.(2001)通过对各种特征的分析，判定音乐录音的失真和不正常部分。Clausen et al.(2004)通过音乐通用特征的分析，实现音乐检索、失真容忍度分析。

对于各种综合音频数据的检索，目前，人们也进行了广泛的研究。根据音频的特征，确定语音和非语音声音，再通过神经网络来确定非语音音频的类型(Ahmad et al.2006)。基于音频数据的特征，对音频数据进行基于内容的音频两阶段分段，来研究音频数据的分类和检索(Zhang et al.2006)。根据人类的听觉特性，判断语音性别，对枪声、汽车声等音频内容进行分类(Harb et al.2007)。用音频数据的特征，研究各种音频数据分类和检索的通用框架、研究模糊层次分类和全局分段框架，把音频数据分成语音、音乐、模糊和静音(Kiranyazet al.2006)。用音频数据的多特征向量，研究基于内容的音频数据检索(Kim et al.2006)。用支持向量机的加权因子和Euclidean距离来研究音频数据的分类(Chung et al.2007)。基于最小描述长度的高斯模型实现音频流分段和分类(Wu et al.2006)。通过认知最小变异失真响应、平滑过零率、临界带对数能量系数，用加权高斯马尔可夫模型网络，实现无监督分类分段(Rongqing et al.2006)等。

这些方法普遍存在算法复杂，检索效率和检索精度偏低的问题。

发明内容

本发明的目的在于克服现有方法中存在的检索效率和检索精度的问题，为多媒体数据检索、处理，音频数据分析、索引、搜索和检索提供一种高效率和高精度的方法。

本发明的目的是通过如下措施来达到：

1、构建MFCCM

把一个音频数据文件的每个帧的MFCC，作为矩阵的行，按顺序组成的矩阵就是MFCCM，它可以表示为

mfcc (i, j) = Σ_{l = 1}^{L} \log m (l) \cos {(l - \frac{1}{2}) \frac{jπ}{L}},

其中，i＝1，2，Λ，I，j＝0，1，Λ，R，1≤R≤L，I为一个音频数据文件分帧的数量，R为一帧音频数据MFCC的个数，L为临界频带的数量。

MFCCM的中文全称为Mel频率倒谱系数矩阵，英文全称为Mel-Frequency CepstralCoefficients Matrix。MFCC的含义及计算过程请见七

按上述方法构建音频数据MFCCM数据库。其中包括：1)根据现有的音频数据，计算其相应的MFCCM；2)把MFCCM和相应的原音频数据文件和文件名以一定的方式存储在数据库中，以待检索与分析。其次，对于要查询、检索的音频数据，同样计算其MFCCM，如把它表示为mfcc_q(Iq，R)矩阵，以示与数据库中已有MFCCM的区别，其中Iq为要查询、检索的音频数据分帧的数量。

2、对MFCCM多列塔型检索

首先，设定一个阈值Y1。然后，取出mfcc_q矩阵中的第一列，与数据库中已有的所有的MFCCM中第一列进行部分或全部的比较，即计算

tx(1：Iq)＝mfcc(n：n+Iq-1，1)-mfcc_q(：，1)，

ty＝|tx(1)|+|tx(2)|+…+|tx(n-m)|。

其中，n＝1，2，…，I-Iq+1，I为MFCCM的列数，Iq为要查询、检索的音频数据分帧的数量，mfcc(n：n+Iq-1，1)表示MFCCM矩阵第一列的n到n+Iq-1行。比较计算从n＝1开始，结束的条件是ty＜＝Y1或n＝I-Iq+1。如果ty＜＝Y1，则在结束该次比较的同时，记录数据库中该音频数据的MFCCM，作为下一层塔型搜索的基础。这个过程如图1所示。

同样，对数据库中的另一音频数据的MFCCM进行同样操作，直到搜索数据库中所有相关内容。

取出上述的音频数据MFCCM，以Y2为阈值，进行与要查询音频数据mfcc_q矩阵的第二列的比较计算，因此，进一步缩小范围。同样，再分别以Y3和Y4作为阈值，对MFCCM的第三列和第四列进行等同样检索。通过多层塔型的检索，将选出一定比例的相关音频数据进入下一环节的分析与检索。

3、MFCCM与mfcc_q矩阵列的相似性分析

对上节中选出的相关音频数据的MFCCM进行列的详细检索分析，就是用要查询的音频数据的mfcc_q矩阵的各列与MFCCM的相应列进行完整的比较。首先把mfcc_q的第一列与MFCCM的第一列进行比较，并记录其中的最小值时MFCCM的行的起点所在的起点位置。具体计算包括：

tx(1：Iq)＝mfcc(n0：n0+Iq-1，1)-mfcc_q(：，1)，

tm1＝tx(1：Iq)’×tx(1：Iq)，

其中，tx(1：Iq)’是tx(1：Iq)的转置矩阵，其中Iq同上，n0＝1，2，…，I-Iq+1。记录最小的tm1对应的MFCCM所在的行的起点为n(1)。然后，以同样方式，再计算第二列到第R列的n(2)至n(R)，这里，R＝8。这个比较过程如图2所示。我们n(1)，n(2)，…，n(R)作为可能的音频数据和要查询数据相似的帧的起始点，进行下一步的分析。

4、计算MFCCM与mfcc_q相关帧的距离

以3中计算的n(1)为音频数据的MFCCM的起始行，取其中的n(1)至n(1)+Iq-1行作为子阵与mfcc_q矩阵进行比较计算。具体计算包括：

tn1(1：Iq，1：R)＝mfcc(n(1)：n(1)+Iq-1，1：R)-mfcc_q(1：Iq，1：R)，

ms(1：R)＝tn1’(1：Iq，1：R)×tn1(1：Iq，1：R)，

msc1＝ms(1)+ms(2)+…+ms(R)，

其中，R＝8，tn1’(1：Iq，1：R)是tn1(1：Iq，1：R)的转置。以同样方式，取音频数据的MFCCM的n(2)，n(3)，…，n(R)行为起点，分别计算tn2，tn3，…，tnR，以及msc2，msc3，…，mscR。取msc(1)＝min(msc1，msc2，…，mscR)作为该音频数据与要查询数据的距离，这里，R＝8(R一般取2-17)。这个过程如图3所示。

以相同的方式，对2中选出的小范围内所有音频数据MFCCM都进行矩阵列的相似性分析，并得出n(1)，n(2)，…，n(R)。再计算msc(m)，这里，m的值为3.1中，经过四层塔型算法后，从数据库中选出的音频数据的数量。最后，取其中msc(m)最小的音频数据为检索结果。

本发明所采用的方法简单，实用，检索效率与检索精度高。

图例说明

图1MFCCM多列塔型检索第i列检索

图2计算可能的音频数据和要查询数据相似的帧的起始点

图3计算MFCCM与mfcc_q相关帧的距离

图4mel频率与实际频率的关系

图5mel三角形滤波器组

图6音频数据分帧及产生的MFCCM表示形式

图7通过MFCCM检索与分析音频数据的过程

实施例

通过MFCCM检索与分析音频数据过程的例子如图7所示。

计算机通过Internet、有线、无线网络或其它途径，获取要查询的音频数据；提取要查询的音频数据MFCCM；基于内容或基于例子的环境数据MFCCM的分析；得出分析列表。

对MFCC的含义及计算过程的说明：

MFCC中文名称为Mel倒谱系数，英文名称为Mel-Frequency Cepstral Coefficients。MFCC的分析着眼于人类的听觉特性。心理生理学研究表明，人类所听到的声音的高低与声音的频率并不成线性正比关系。用Mel频率尺度则更符合人耳的听觉特性。所谓Mel频率尺度，如图4所示，它的值大约对应于实际频率的对数分布关系。Mel频率与实际频率的具体关系可用下式表示：

Mel(f)＝2595log10(1+f/700)

这里，实际频率f的单位是Hz。

根据Zwicker的工作，如果在声音的中心频率附近的某个带宽内，那么音调不能单独辨别，我们把这个带宽称作临界带宽。临界频率带宽随着频率的变化而变化，并与Mel频率的增长一致。在1000Hz以下，大致成线性分布，带宽为100Hz左右；在1000Hz以上呈现对数增长。频率f周围的临界带宽可以通过下式近似计算：

BW_critical＝25+75[1+1.4(f/1000)²]^0.69

类似于临界频带的划分，可以将音频信号频率划分成一系列三角形的滤波器序列，即Mel滤波器组，如图5所示。

计算MFCC的步骤如下：

1)将音频信号划分成一系列连续的帧，每帧包含N个样本。如，N＝1024，相邻帧有24个样本重叠。如果x(n)表示音频信号序列，则第i个帧可以表示成

x_i(n)＝x(n+m_i)w(n)

其中w(n)选为汉明窗

如果把一个音频信号段分成I个帧，对于i＝1，2，…，I的每一帧，计算短时离散傅立叶变换(DFT)如下

X_{i} (m) = Σ_{n = 0}^{N - 1} x_{i} (n) \exp (- j \frac{2 π}{N} mn), m = 0,1, Λ, N - 1

从每帧中选出l≤N变换系数，构建特征向量序列

x_{i} = [\begin{matrix} X_{i} (0) \\ X_{i} (1) \\ M \\ X_{i} (l) \end{matrix}], i = 1,2, Λ, I

2)取临界带中的前17个，即L＝17，频率范围0到大约3700Hz。这些频带在mel轴上均匀分布，约等于112mel。每个频带的形状加权表示。如，可采用如图5所示的不重叠的三角形频带，其下界、中心和上界频率分别位于：

o(i)＝(10^mlo(i)/2595-1)×700，

c(i)＝(10^mlc(i)/2595-1)×700，

h(i)＝(10^mlh(i)/2595-1)×700，

其中，mlo(i)＝(i-1)×ml，mlc(i)＝(2×i-1)×ml/2，mlh(i)＝i×ml。

3)在每个临界频带内，求每一个三角形滤波器的输出：

m (l) = Σ_{k = o (l)}^{h (l)} W_{l} (k) X_{n}^{2} (k), l = 1,2, Λ, L

W_{l} (k) = \{\begin{matrix} \frac{k - o (l)}{c (l) - o (l)} & o (l) \leq k \leq c (l) \\ \frac{h (l) - k}{h (l) - c (l)} & c (l) \leq k \leq h (l) \end{matrix}

4)对所有滤波器输出做对数运算，再进一步做离散余弦变换(DCT)即可得到一组MFCC：

mfcc (j) = Σ_{l = 1}^{L} \log m (l) \cos {(l - \frac{1}{2}) \frac{jπ}{L}},

其中，j＝0，1，Λ，R，1≤R≤L。这是由音频数据文件的一帧数据所产生的MFCC。

MFCC主要反映了音频数据的静态特性(Davies et al.1980)。限于篇幅，本文主要阐述利用这种静态特性实现环境音频数据的检索。而与这种静态特性相对应的声音的动态特性，可以通过对MFCC的一阶和二阶差分得到(Furui 1986)，实验表明，它对于音频数据的检索也有一定效果。其中一阶差分ΔMFCC的计算采用下面的公式：

ΔMFCC (m, n) = \frac{1}{\sqrt{Σ_{i = - k}^{k} i^{2}}} Σ_{i = - k}^{k} i \times MFCC (m, n + i)

这里k为常数，通常取2。

图6(a)是一段海狮声音的音频数据。分成了85帧，即I＝85。图6(b)是mfcc(i，：)，其中，i＝1，2，…，I，mfcc(i，：)表示MFCCM第I行的所有列。而图6(c)则是MFCCM中的mfcc(：，j)，即MFCCM中第j列的所有行，其中，1≤j≤R，R＝8。即通过上述1)、2)、3)和4)的处理步骤，可以把任意声音的音频数据转换成I行R列的矩阵mfcc(I，R)。

Claims

1.一种基于MFCCM的音频数据检索方法，其特征在于：该方法通过以下步骤实现：

步骤一：根据现有的音频数据构建音频数据MFCCM数据库，并计算待查询、检索的音频数据mfcc_q矩阵；

步骤二：对MFCCM进行多列塔型检索，选出一定比例的相关音频数据；

步骤三：MFCCM与mfcc_q矩阵列的相似性分析，得到可能的音频数据与待查询数据相似的帧的起始点；

步骤四：计算MFCCM与mfcc_q相关帧的距离msc，取其中msc最小的音频数据为检索结果；

以上四步骤，能根据对检索精度的要求只采用步骤一、步骤二，也能采用步骤一、步骤二、步骤三和步骤四来实现音频数据检索；

在上述步骤一中，所述的构建音频数据MFCCM数据库包括：把一个音频数据文件的每个帧的MFCC，作为矩阵的行，按顺序组成的矩阵就是MFCCM，它可以表示为：

，其中，i＝1，2，…，I，j＝0，1，…，R，1≤R≤L，I为一个音频数据文件分帧的数量，R为一帧音频数据MFCC的个数，L为临界频带的数量；对于要查询、检索的音频数据，同样计算其MFCCM，把它表示为mfcc_q(Iq，R)矩阵，以示与数据库中已有MFCCM的区别，其中Iq为要查询、检索的音频数据分帧的数量；

在上述步骤二中，所述的对MFCCM进行多列塔型检索包括：首先，设定一个阈值Y1；然后，取出mfcc_q矩阵中的第一列，与数据库中已有的所有的MFCCM中第一列进行部分或全部的比较，即计算

tx(1：Iq)＝mfcc(n：n+Iq-1，1)-mfcc_q(：，1)，

ty＝|tx(1)|+|tx(2)|+…+|tx(n-m)|；

其中，n＝1，2，…，I-Iq+1，I为MFCCM的列数，Iq为要查询、检索的音频数据分帧的数量，mfcc(n：n+Iq-1，1)表示MFCCM矩阵第一列的n到n+Iq-1行；比较计算从n＝1开始，结束的条件是ty＜＝Y1或n＝I-Iq+1；如果ty＜＝Y1，则在结束该次比较的同时，记录数据库中该音频数据的MFCCM，作为下一层塔型搜索的基础；

同样，对数据库中的另一音频数据的MFCCM进行同样操作，直到搜索数据库中所有相关内容；

取出上述的音频数据MFCCM，以Y2为阈值，进行与要查询音频数据mfcc_q矩阵的第二列的比较计算，同样，再分别以Y3和Y4作为阈值，对MFCCM的第三列和第四列进行同样检索；通过多层塔型的检索，将选出一定比例的相关音频数据进入下一环节的分析与检索。