CN102129456B

CN102129456B - 去相关稀疏映射音乐流派有监督自动分类方法

Info

Publication number: CN102129456B
Application number: CN2011100564833A
Authority: CN
Inventors: 关欣; 徐星; 李锵
Original assignee: Tianjin University
Current assignee: NANTONG JIEJING SEMICONDUCTOR TECHNOLOGY Co.,Ltd.
Priority date: 2011-03-09
Filing date: 2011-03-09
Publication date: 2012-07-04
Anticipated expiration: 2031-03-09
Also published as: CN102129456A

Abstract

本发明涉及音频信号处理。为提供一种能够提高音乐流派自动分类准确率，方便音乐音频数据库内容组织和检索，也可用于其它基于内容音乐信息检索，提高检索性能的基于最小一范数稀疏映射的音乐流派有监督自动分类方法及系统，本发明采用的技术方案是，基于去相关稀疏映射音乐流派有监督自动分类方法，包括下列步骤：a建立有监督训练数据库；b对训练音乐样本提取短时音乐特征和节奏特征，短时音乐特征即MFCC和音色特征；c对提取的特征数据采用PCA(主分量分析)技术去噪和降维；d将特征矩阵按流派类别分块；e确定y的种类为arg min_i||y-Aδ_i(x)_i||₂，i＝1，2，...，k，δ(x)的非零值为第i类。本发明主要应用于音频信号处理。

Description

去相关稀疏映射音乐流派有监督自动分类方法

技术领域

本发明涉及音频信号处理，具体讲涉及去相关稀疏映射音乐流派有监督自动分类方法。

背景技术

当今数字化与网络时代化，数据存储技术和多媒体压缩技术如JPEG、MPEG等技术的快速发展，导致数字多媒体数据的存储量增加，也导致互联网上音频数据的增加。目前，图像、音频和视频等多媒体内容已成为互联网信息高速公路上所传送数据的主要部分，而音乐又是音频的主要部分，随着互联网的发展，越来越多的人能够更加方便、快捷、经济地接触到数字音乐，人们面临的问题不再是缺少媒体内容，而是如何在浩如烟海的多媒体世界中找到自己所需要的信息。音乐流派是人类创造的用于区分和描述音乐，然而由于历史和文化等原因音乐流派没有严格的定义与界限，每一种音乐流派的特征都是由其成员的特征决定的，这些特征又是由乐器，节奏和音乐的和声决定的。目前音乐流派的分类是靠人工完成的，当面对网络上海量的音乐时，人工分类不足以完成如此巨大的工作量，这时需要借助计算机、人工智能等以取代人工分类，实现音乐流派的自动分类。

目前，在现有的基于音乐内容的专利中，大多是基于音乐内容的音乐检索。2009年4月1日公布的、公开号为CN101398825、名称为用于快速音乐分类和检索的方法和设备的中国发明专利申请公布说明书提供了一种基于内容的音乐分类方法，该专利提取短时音乐特征，即MFCC和音质特征，采用基于支持向量机(SVM)进行分类。

近年来，基于最小一范数稀疏映射已经成功应用于模式识别与分类，在医学领域癌症与肿瘤的分类、人脸识别、卫星图像分类、说话人识别和种子分类方面取得了较好的分类效果。

目前未发现基于最小一范数稀疏映射用于音乐流派有监督自动分类的报道。

发明内容

为克服现有技术的不足，提供一种能够提高音乐流派自动分类准确率，方便音乐音频数据库内容组织和检索，也可用于其它基于内容音乐信息检索，提高检索性能的基于最小一范数稀疏映射的音乐流派有监督自动分类方法及系统，本发明采用的技术方案是，一种去相关稀疏映射音乐流派有监督自动分类方法，包括下列步骤：

a建立有监督训练数据库；

b对训练音乐样本提取短时音乐特征和节奏特征，短时音乐特征即MFCC和音色特征；

c对提取的特征数据采用PCA(主分量分析)技术去噪和降维；

d将特征矩阵按流派类别分块，则A＝[A₁，A₂，...，A_K]为特征矩阵，K为音乐流派种类的个数，y为测试样本，求出方程y＝Ax的最小一范数解。

e确定y的种类为argmin_i||y-Aδ_i(x)_i||₂，i＝1，2，...，k，δ(x)的非零值为第i类。

所述的建立有监督训练数据库是通过相关渠道建立包括n种音乐流派的音乐文件夹，可以通过互联网下载或者专辑中获得，其中每一种音乐流派的数据库要尽可能包含不同的歌手，不同的专辑。

所述在步骤b之前包括以下步骤：对输入的音乐文件截取两个30秒的片段；对截取每个30秒的片段，选取1秒为一个文本窗的长度，且文本窗与文本窗之间无重叠；对一个文本窗内选取512点为一个分析窗的长度，分析窗的帧移为256个样本点；对一个分析窗w的数据预加重、加窗、分帧；预加重包括：让输入的音乐文件通过滤波器，预加重滤波器一般是一阶的，形式如H(z)＝1-uz^-1，u的典型值在0.94～0.97之间；所加窗的窗函数类型为汉明窗(hamming)；取帧长为512个样本点，帧移为256个样本点；提取美尔频率倒谱系数(MFCC)特征需要设置相关参数的值，设置的参数包括：MFCC的通道为24，帧长为512个样本点，帧移为256个样本点，取前5维MFCC。

所述的对训练音乐样本提取音色和节奏特征是用时域、频域和小波域的方法提取特征，其中时域特征：样本信号在时间域上通过零的次数和在一个文本窗内低于平均能量的帧的比率；频域特征：spectral-power，spectral-rolloff，spectral-centroid，spectral-fulx，spectral-spread，spectral-skewness，spectral-kurtosis，spectral-brightness，spectral-entropy，spectral-irrgularity，spectral-low-energy，spectral-flatness及MFCC，小波域特征：beat histogram、DWCH(DaubechiesWavelet Coefficients Histogram)；

其中：

首先定义，xk＝abs(fft(x))，下面公式中所涉及N为一个分析窗内的样本点的个数，即512点。

Spectral-power：数学定义如下：

s＝10lg(xk)

spectral-rolloff：是衡量频谱波形的一种方式，数学公式定义如下：

R = {R | Σ_{n = 1}^{R} M_{t} [n] = 0.85 * Σ_{n = 1}^{N} M_{t} [n]}

spectral-centroid：定义为频谱能量的一阶矩，数学定义公式如下

spectral - centroid = \frac{Σ_{i = 0}^{N} f_{i} p (f_{i})}{Σ_{i = 0}^{N} p (f_{i})}

spectral-fulx：表征两个相邻的帧频谱的连续变化情况，数学定义，

spectral - flux = Σ_{n = 1}^{N} {(N_{t} (n) - N_{t} (n - 1))}^{2}

spectral-spread：为频谱能量的二阶中心距，数学公式为

spectral-spread＝∫(x-s_centroid)²f(x)dx

spectral-skewness：定义为频谱能量的三阶矩，数学公式为

spectral - skewness = \frac{Σ_{i = 0}^{N - 1} {(p (f_{i} - s_{cnetroid}))}^{3}}{{Nσ}^{3}}

spectral-kurtosis：定义为频谱能量的四阶矩，数学公式为

spectral - kurtosis = \frac{u^{4}}{σ^{4}} - 3

spectral-brightness：描述的是大于某个频率阈值之后的能量之和，典型频率门限值是1500Hz。

spectral-entropy：反应的是频谱能量的信息熵，香农公式(shannon)如下，

spectral - entropy = - Σ_{i = 0}^{N} p (x_{i}) \log_{2} p (x_{i})

spectral-irrgularity：反应的是频谱能量波形波峰的变化程度，有两种形式，数学公式如下

(a)jensen

spectral - irregularity = \frac{Σ_{k = 0}^{N - 1} {(a_{k} - a_{k + 1})}^{2}}{Σ_{k = 0}^{N 1} {a_{k}}^{2}}

(b)krimpboff

spectral - irregularity = Σ_{k = 2}^{N - 1} | a_{k} - \frac{a_{k - 1} + a_{k} + a_{k + 1}}{3} |

spectral-low-energy：类似于时域low energy

spectral-flatness：反应的是频谱能量波形分布的平滑程度，数学公式如下，

spectral - flatness = \frac{N \sqrt{Π_{n = 0}^{N - 1} x_{k} (n)}}{\frac{1}{N} Σ_{n = 0}^{N - 1} x_{k} (n)};

beat histogram为拍子图；

DWCH：描述的是基于Daubechies(db8)滤波器，对音乐样本做小波变换，然后提取小波系数的统计特征。

所述的PCA去噪和降维并去相关是降低特征的个数，同时实现了消除噪声的作用。

所述的用稀疏矩阵对数据实现自动分类是求出y＝Ax的解即通过梯度下降法求出，从而实现分类。

所述方法在步骤b还包括：对短时音乐特征求平均值和标准偏差组成特征矩阵；步骤c所述的方法包括：求取特征矩阵的协方差矩阵；求出协方差矩阵的全部特征值，并选取大于0.00001的特征值实现降维和去噪。

本发明具有如下技术效果：本发明对提取的特征数据采用主分量分析(PCA)技术去噪和降维并去相关，并将特征矩阵按流派类别分块，因而本发明能准确提取音频数据特征，进而实现对音乐、音频信号进行准确分类。

附图说明

图1是本发明方法的流程图；

图2是MFCC特征提取的流程图；

图3是提取beat histogram的流程图；

图4是特征结构图。

具体实施方式

下面结合说明书附图和具体实施例，对本发明的去相关稀疏映射音乐流派有监督自动分类方法给予详细的说明。

本发明的方法，是充分考虑到音乐的特征以及结合最新的模式识别与分类的方法-稀疏矩阵，可以对n种流派的音乐实现自动分类，并且分类的准确率较高。具体采用图1的方法与系统，提高了音乐流派分类的准确率，包括以下步骤：

(1)建立音乐数据库。

通过互联网下载获得9种音乐流派的音乐，每一类音乐流派包含400首歌曲，每一类音乐流派包含60几位歌手，并人工的将其分类好，为整个系统的测试做准备。

(2)提取音乐的特征。

首先将所有的音乐数据格式转化成WAV格式，采样率22050，16bits，mono。

从中读取30秒的音乐数据，对数据归一化处理，加窗，预加重，窗函数采用汉明窗，预加重滤波器一般是一阶的，形式如下：

H(z)＝1-uz^-1 (1)

式中，u接近于1，典型的取值在0.94～0.97之间。

其次，将30秒的数据分帧，在分帧的过程中先将30秒的数据分为30个texture window即每个texture window为1秒，texture window之间无重叠。然后对每个texture window分帧，取512个样本点为一个analysis window的大小，帧移是256个样本点。

A时域

Zero-crossing-rate：定义为样本信号在时间域上通过零的次数，已经被广泛应用于音乐检索和语音识别中，也是区分音乐流派的重要描述符，数学表达式为：

zero - cross = \frac{1}{2} Σ_{n = 1}^{N} | sign (x (n)) - sign (x (n - 1)) |

Low-energy：定义为在一个texture window内低于平均能量的帧的比率。N_a为一个texturewindow内analysis window的数目，N为一个analysis window内样本的个数，数学表达式为：

r_{low} = \frac{1}{N_{a}} Σ Σ_{i = 0}^{N_{a} - 1} u (u_{rms} - x_{rms} (n)),

u_{rms} = \frac{1}{N_{a}} Σ_{i = 0}^{N_{a} - 1} x_{rms} (n),

u (x) = \{\begin{matrix} 1, x > 0 \\ 0, x < . 0 \end{matrix}

x_{rms} = \sqrt{Σ_{n = 0}^{N - 1} x^{2} (n)}

B频域

首先定义，xk＝abs(fft(x))，N为xk的大小也是一个analysis window所包含的样本点的个数，

Spectral-power：数学定义如下：

s＝10lg(xk)

R = {R | Σ_{n = 1}^{R} M_{t} [n] = 0.85 * Σ_{n = 1}^{N} M_{t} [n]}

spectral - centroid = \frac{Σ_{i = 0}^{N} f_{i} p (f_{i})}{Σ_{i = 0}^{N} p (f_{i})}

spectral - flux = Σ_{n = 1}^{N} {(N_{t} (n) - N_{t} (n - 1))}^{2}

spectral-spread：为频谱能量的二阶中心距，数学公式为

spectral-spread＝∫(x-s_centroid)²f(x)dx

spectral-skewness：定义为频谱能量的三阶矩，数学公式为

spectral - skewness = \frac{Σ_{i = 0}^{N - 1} {(p (f_{i} - s_{cnetroid}))}^{3}}{{Nσ}^{3}}

spectral-kurtosis：定义为频谱能量的四阶矩，数学公式为

spectral - kurtosis = \frac{u^{4}}{σ^{4}} - 3

spectral - entropy = - Σ_{i = 0}^{N} p (x_{i}) \log_{2} p (x_{i})

(a)jensen

spectral - irregularity = \frac{Σ_{k = 0}^{N - 1} {(a_{k} - a_{k + 1})}^{2}}{Σ_{k = 0}^{N 1} {a_{k}}^{2}}

(b)krimpboff

spectral - irregularity = Σ_{k = 2}^{N - 1} | a_{k} - \frac{a_{k - 1} + a_{k} + a_{k + 1}}{3} |

spectral-low-energy：类似于时域low energy

spectral - flatness = \frac{N \sqrt{Π_{n = 0}^{N - 1} x_{k} (n)}}{\frac{1}{N} Σ_{n = 0}^{N - 1} x_{k} (n)}

MFCC：在语音识别和说话人识别中，常用的语音特征是基于Mel频率的倒谱系数，由于MFCC参数是将人耳的听觉感知特性和语音的产生机制相结合，用于音乐分析中。Mel频率可以用如下公式表示：

f_mel＝2595*log(1+f/700)

在实际应用中，MFCC倒谱系数计算过程如下：

①将信号进行分帧，预加重和加汉明窗处理，然后进行短时离散傅里叶变换(DFT)并得到其频谱。

②求出频谱平方，即能量谱，并用M个Mel带通滤波器进行滤波；由于每一个频带中分量的作用在人耳中式叠加的，因此将每个滤波器频带内的能量进行叠加，这时第k个滤波器输出功率谱x’(k)。

③将每个滤波器的输出取对数(LOG)，得到相应频带的对数功率谱；并进行反离散余弦变换(IDFT)，得到L个MFCC系数，一般L取12～16个左右。MFCC系数为

c_{n} = Σ_{k = 1}^{M} \log x^{'} (k) \cos [π (k - 0.5) n / M], - - - n = 1,2, . . ., L

C小波域

Beat histogram：算法的流程图见附图3，算法主要基于小波变化，然后利用自相关计算出节奏的周期，进而得到beat histogram，具体细节如下，

①首先对信号做分帧处理，取帧长65536个样本点，每一帧作12尺度的小波变换。

②保留7-12边带，对每一个边带提取包络并做下采样处理，其中提取包络采用常用的方法：全波整形后通过低通滤波器。下采样处理N＝16，即每隔16个点取出一个样本点。

③将7-12个子带相加，对其作相关变化，由于经验值节奏的周期为40-200bpm(beats perminute)，所以截取波形的第0.3秒到1.5秒的数据，找出第一个波峰所在的位置即为节奏的周期。

④根据节奏的周期画出beat histogram。

提取beat histogram的特征如下：

·第一个最大值的幅度m₁与位置p₁；

·第二个最大值的幅度m₂与位置p₂；

·第一个最大值与第二个最大值幅度的比率ratio；

·beat histogram中所有幅度之和sum。

具体做法是首先对音乐信号分帧，去帧长65536个样本点，帧移是16384个样本点，对每一帧信号做7尺度的小波变换，保留3，5，6，7子带，求得特征如下：

·对每一个子带求一阶矩、二阶矩、三阶矩、四阶矩；

·对每一个子带求能量，即对小波变换系数求绝对值；

综上所述，所得特征向量为：在一个texture window内求zero-crossing-rate，spectral-power，spectral-rolloff，spectral-centroid，spectral-fulx，spectral-spread，spectral-skewness，spectral-brightness，spectral-entropy，spectral-irrgularity，spectral-low-energy，spectral-flatness，spectral-kurtosis的均值与方差(26)Low-energy(1)，MFCC前五维系数的均值与方差(10)，beat histogram(6)，DWCH(20)共组成63维特征向量。

(3)PCA去噪与降维

从模式识别的观点看，主分量分析的实际应用意义在于它为降维提供了有效的方法；同时主分量满足线性、不相关、方差最大三个条件，其线性条件反映特征信号之间的关系简单便于计算；不相关条件使每个特征都有独立的作用；方差最大条件在一定意义上反映了它所包含的信息量最大。主分量分析的计算步骤如下：

①求数据矩阵的协方差矩阵R_xx；

②求出R_xx的全部特征值λ₁，λ₂，...，λ_n和对应特征向量v₁，v₂，...，v_n；并将各特征值按从大到小的顺寻排列，即λ₁≥λ₂≥...≥λ_n

③去除特征值比较小的，即取钱m个主分量作为特征信号，舍去其余(n-m)个信号，从而达到减少特征信号的个数。

本发明，选取特征值阈值为0.00001，经过PCA后得到特征向量的维数52维

(4)基于最小一范数稀疏映射分类

①对训练样本矩阵按流派的种类分块，本发明专利是9种流派则训练矩阵为A＝[A₁，A₂，...，A₉]∈R^m×n，m为特征个数，n为样本个数，测试样本为y∈R^m；

②将A的每一列用二范数规范化，假设A的每一列的数据为m，则用二范数归一化的公式为m＝m/||m||₂；

③采用梯度下降法求出方程y＝Ax的最小一范数解为

{\hat{x}}_{1} = \arg \min_{x} {| | x | |}_{1};

④求出差值

r_{i} (y) = Py - {Aδ}_{i} ({\hat{x}}_{1}) P_{2}, i = 1,2, . . ., 9;

⑤输出i＝arg min_i r_i(y)，确定流派的种类。

在本专利中，给出了一种基于最小一范数稀疏映射的音乐流派有监督自动分类方法及系统，适用于对n种音乐流派。在测试系统时采用以下就中流派音乐乡村，嘻哈，世界，雷鬼，金属，布鲁斯，爵士，摇滚和古典做测试。从表一可以看出SRC相比于SVM的效果，总的准确率高于SVM 12％。

表一与SVM的对比

SRC分类正确率

	blues	classical	country	hiphop	jazz	metal	reggae	rock	world
										blues	0.873333	0.001111	0.028611	0.010556	0.019167	0.005278	0.013056	0.018056	0.009722
classical	0.008056	0.988889	0.009722	0.003333	0.013333	0.008056	0.001389	0.003056	0.009722
										country	0.033611	0.001944	0.895	0.009444	0.016389	0.0125	0.010278	0.023889	0.011111
hiphop	0.012778	0.000556	0.004722	0.936389	0.007222	0.001111	0.021944	0.013889	0.014167
										jazz	0.025556	0.003333	0.013056	0.008611	0.911944	0.001667	0.008889	0.011389	0.019444
metal	0.004722	0.000278	0.008056	0.001944	0.001111	0.958889	0.002222	0.012222	0.001667
										reggae	0.016389	0.000833	0.019722	0.017778	0.007778	0.004722	0.927222	0.01	0.01
rock	0.011111	0	0.012222	0.005	0.006111	0.005	0.005556	0.898333	0.006667
										world	0.014444	0.003056	0.008889	0.006944	0.016944	0.002778	0.009444	0.009167	0.9175
样本数	3600	3600	3600	3600	3600	3600	3600	3600	3600

SVM分类正确率

	blues	classical	country	hiphop	jazz	metal	reggae	rock	world
										blues	0.665	0.006389	0.072222	0.025833	0.048611	0.015278	0.04	0.043056	0.040556
classical	0.016944	0.956667	0.017222	0.007222	0.023333	0.016111	0.002778	0.01	0.023333
										country	0.084722	0.007222	0.781111	0.028056	0.038611	0.028333	0.0375	0.058333	0.031111
hiphop	0.033056	0.001944	0.006389	0.8225	0.015556	0.004722	0.044722	0.028056	0.024722
										jazz	0.058889	0.012222	0.016944	0.014167	0.784722	0.002778	0.019167	0.028889	0.050556
metal	0.0225	0.001667	0.013056	0.005	0.0025	0.893889	0.003333	0.056111	0.006111
										reggae	0.035833	0.000278	0.027778	0.048333	0.020556	0.003889	0.813889	0.027778	0.036389
rock	0.046944	0.001944	0.048889	0.026944	0.023611	0.028333	0.012778	0.725	0.026667
										world	0.036111	0.011667	0.016389	0.021944	0.0425	0.006667	0.025833	0.022778	0.760556
样本数	3600	3600	3600	3600	3600	3600	3600	3600	3600

SRC与SVM的对比

	SVM	SRC	提高
				blues	0.665	0.873333	0.208333
classical	0.95667	0.988889	0.032222
				country	0.78111	0.895	0.113889
hiphop	0.8225	0.936389	0.113889
				jazz	0.78472	0.911944	0.127222
metal	0.89389	0.958889	0.065
				reggae	0.81389	0.927222	0.113333
rock	0.725	0.898333	0.173333
				world	0.76056	0.9175	0.156944
total	0.8003	0.9231	0.1228

Claims

1.一种可提高检索性能的基于去相关稀疏映射音乐流派有监督自动分类方法，其特征是，包括下列步骤：

a建立有监督训练音乐样本数据库；

b对训练音乐样本提取短时音乐特征和节奏特征，短时音乐特征即美尔频率倒谱系数MFCC和音色特征；

c对提取的特征数据采用主分量分析PCA技术去噪和降维；

d将特征矩阵按流派类别分块，则A＝[A₁，A₂，...，A_K]为特征矩阵，K为音乐流派种类的个数，将特征矩阵A的每一列用二范数规范化，y为测试样本，用梯度下降法求出方程y＝Ax的最小一范数解；

e确定y的种类为arg min_i||y-Aδ_i(x)_i||₂，i＝1，2，......，K，δ(x)的非零值为第i类。

2.如权利要求1所述的方法，其特征是，所述的建立有监督训练音乐样本数据库是通过相关渠道建立包括K种音乐流派的音乐文件夹，可以通过互联网下载或者专辑中获得，其中每一种音乐流派的数据库要尽可能包含不同的歌手，不同的专辑。

3.如权利要求1所述的方法，其特征是，所述的PCA去噪和降维是：去相关使每个特征符合不相关条件，降低特征的个数，同时实现了消除噪声的作用。

4.如权利要求1所述的方法，其特征是，步骤b还包括：对短时音乐特征求平均值和标准偏差组成特征矩阵；步骤c还包括：求取特征矩阵的协方差矩阵；求出协方差矩阵的全部特征值，并选取大于0.00001的特征值实现降维和去噪。