CN1979491A

CN1979491A - 对音乐文件分类的方法及其系统

Info

Publication number: CN1979491A
Application number: CNA2006101633685A
Authority: CN
Inventors: 朴根韩; 朴商龙
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2005-12-10
Filing date: 2006-12-04
Publication date: 2007-06-13
Also published as: KR100772386B1; US20070131095A1; KR20070061626A

Abstract

提供了一种允许多媒体播放器分析音乐文件的特征以对音乐文件分类的方法及其系统。所述对音乐文件分类的方法包括：进行预处理以对输入音乐文件的至少一部分进行解码和正规化；从预处理的数据提取一个或多个特征；和通过使用提取的特征来确定输入音乐文件的情绪。

Description

对音乐文件分类的方法及其系统

本申请要求于2005年12月10日在韩国知识产权局提交的第10-2005-0121252号韩国专利申请的优先权，该申请完全公开于此以资参考。

技术领域

根据本发明的方法涉及一种对音乐文件的分析，更具体地讲，涉及一种允许多媒体播放器(即，计算机、MP3播放器、便携式多媒体播放器(MPM)等)对音乐文件的特征进行分析以对所述文件的音乐情绪(musical mood)分类的方法及其系统。

背景技术

随着现有技术的多媒体技术的发展，对音乐分类的兴趣增加。然而现有技术的通过使用基于文本的音频信息来对音乐文件分类和搜索的方法存在一些问题。现有技术的基于文本的搜索技术发展的很好并具有良好的性能，但是当处理大量的音频数据时，为所有的音乐文件创建基于文本的音频信息就非常困难。即使创建了文本数据，也难以保持文本数据的一致性，这是因为文本格式依据谁创建所述数据而变化。

至少对于这个原因，已经对基于计算机的自动音乐分类进行了研究。因为音乐情绪主要依据个人的爱好以及诸如文化、教育和经历的各种因素，所以不管是人还是计算机来执行，音乐分类都是困难的任务。然而，尽管这种不定性，自动的音乐分类还是比基于人的音乐分类更快、更一致。由于基于计算机的音乐分类可避免人的偏爱和偏见，所以正对音乐的自动情绪分类方法进行积极的研究。

现有技术对音乐的自动情绪分类的研究使用语音识别技术，例如，频谱方法、时域方法和倒谱方法。频谱方法使用诸如频谱矩心或者频谱流量的特征。时域方法使用诸如过零率的特征。倒谱方法使用诸如Mel频率倒谱系数(MFCC)、线性预测编码(LPC)和倒谱的特征。然而，没有现有技术的音乐的自动情绪分类方法能实现提高的速度和提高的准确度。

发明内容

本发明提供了一种可通过使用提取的音频特征提高音乐情绪分类的速度和准确度的方法及其系统。

提供了一种通过以下步骤对音乐文件分类的方法及其系统：对音乐文件的一部分进行分析来代替对音乐片段的所有统计值进行分析；和提取对于分类准确度而言比用于现有技术的分类方法的现有特征给予更好性能的特征，所述方法及其系统使用支持向量机(SVM)，这是一种基于核函数的机器学习方法。

根据本发明的一方面，提供了一种对音乐文件分类的方法，所述方法包括：对输入音乐文件的至少一部分进行预处理以进行解码和正规化；从预处理的数据提取一个或多个特征；和通过使用提取的特征来确定输入音乐文件的情绪。

预处理的步骤可包括从输入音乐文件的特定点开始，对所述输入音乐文件进行大约10秒预处理，所述从音乐文件的特定点可以是在音乐文件开始之后大约30秒。

提取一个或多个特征的步骤可包括：通过从频谱矩心、频谱滚降、频谱流量、Bark尺度频谱倒谱系数、Bark尺度频率倒谱系数中的系数的差(或德耳塔)中提取一个或多个值来确定所述特征。

确定所述特征的步骤还可包括：将预处理的数据划分成多个分析窗口；在将具有多个分析窗口的纹理窗口移动一个分析窗口单位的同时，以纹理窗口为单位，获得频谱矩心的平均值和方差、频谱滚降的平均值和方差、频谱流量的平均值和方差、以及Bark尺度频率倒谱系数的平均值和方差；和通过获得所获得的每个纹理窗口的平均值和方差的平均值来确定所有预处理的数据的所述至少一个特征。

另外，确定输入文件的情绪的步骤可包括：通过使用支持向量机(SVM)分类器来确定音乐文件的情绪。

根据本发明的另一方面，提供了一种用于对音乐文件分类的系统，所述系统包括：预处理单元，对音乐文件的至少一部分进行预处理；特征提取单元，从预处理的数据中提取一个或多个特征；情绪确定单元，通过使用提取的特征来确定输入音乐文件的情绪；和存储单元，存储提取的特征和确定的情绪。

附图说明

通过参照附图对本发明示例性实施例的详细描述，本发明的以上和其他方面将变得更加清楚，其中：

图1是根据本发明示例性实施例的对音乐文件分类的方法的流程图；

图2是根据本发明示例性实施例的对音乐文件分类的系统的方框图；

图3是根据本发明示例性实施例的预处理方法的流程图；

图4示出根据本发明示例性实施例的为提取特征而移动纹理窗口的方法；

图5示出根据本发明示例性实施例的获得特征的处理；和

图6示出根据本发明示例性实施例的用于存储特征的数据格式。

具体实施方式

现在将通过参照附图解释本发明的示例性实施例来更详细地描述本发明。

图1是根据本发明示例性实施例的对音乐文件分类的方法的流程图。

对输入音乐文件的全部和部分进行预处理(操作S102)。通过预处理，对以诸如MP3、OGG等格式编码的音乐文件进行解码和正规化。在本发明的示例性实施例中，从音乐文件的一部分提取音乐文件的特征。这是因为，通过仅对音乐文件的一部分进行分析而获得的结果可与对音乐文件的全部内容进行分析而获得的结果一样准确。示例性的对音乐文件的分析使用从音乐文件开始之后的大约30到40秒的数据块。通过从音乐文件的数据提取大约10秒的特征，可相当大地减少用于提取特征和对音乐情绪分类的时间。

接着，从预处理的数据提取一个或多个特征(操作S104)。此时，在音频数据可提取的特征中，选择被认为对音乐情绪分类有效的特征。五个这种示例性特征是频谱矩心、频谱滚降(spectral roll-off)、频谱流量、Bark尺度频率倒谱系数(BFCC)和BFCC中系数的差(或德耳塔)。

最后，通过使用提取的特征来确定音乐文件的音乐情绪(操作S106)。为此，可使用支持向量机(SVM)分类器。

图2是根据本发明示例性实施例的对音乐文件分类的系统的方框图。所述系统包括：预处理单元210，对输入音乐文件201进行预处理；特征提取单元220，提取预处理的数据211的一个或多个特征；情绪确定单元240，通过使用训练数据242和提取的特征221来确定输入音乐文件211的情绪；和存储单元230，存储提取的特征221和确定的情绪241。

在本发明本示例性实施例中对MP3、OGG或WMA格式的输入音乐文件201编码，但并不限于此，在不脱离本发明范围的情况下，在其他示例性实施例中，输入音乐文件201还可具有不同的格式。另外，通过下面描述的一系列预处理将输入音乐文件201转换成大约22,050Hz的单声道的脉冲编码调制(PCM)数据211，但在不脱离本发明范围的情况下，在其他示例性实施例中，所述数据211可具有不同的格式。

由特征提取单元220分析预处理的数据211以输出提取的特征221。这里，总共21个特征被提取：频谱矩心的平均值和方差、频谱滚降的平均值和方差、频谱流量的平均值和方差、BFCC的第一五个系数的平均值和方差、BFCC的五个德耳塔。在本发明示例性实施例中，通过各种实验来选择被认为对音乐分类有效并具有最佳提高性能的特征。提取的特征221被存储在存储单元230中，并被用于情绪分类。在本实施例中，情绪确定单元240是SVM分类器。根据SVM分类器240，输入音乐文件201的情绪241被确定为“高兴的”、“热烈的”、“甜美的”或“缓和的”。然而，本示例性实施例并不限于此；此外，特征的个数不限于21个，可使用本领域技术人员能想到的任何个数的特征。

支持向量机(SVM)是基于核函数的机器学习方法，并且是非监督类型的学习方法。SVM方法具有清楚的理论基础，其中，仅使用简单公式就可容易地实现的复杂的模式识别。为了对实际的复杂的模式分类，SVM方法线性地处理具有高阶非线性特征的向量输入空间，并提供每个特征向量之间的最大间隔超平面。

SVM方法可如下被实现。这里，使用一对一分类方法。对于多类分类器，使用几个一对一分类器。在公式1中定义正特征类和负特征类的训练数据。

[公式1]

(x₁，y₁)，...，(x_k，y_k)，x_i∈Rⁿ，y_i∈+1，-1

其中，R是实数，n和k是整数，x_i表示第i个样本的第n阶特征向量。这里，频谱矩心、频谱滚降、频谱流量、BFCC和BFCC的德耳塔被用于x_i。y_i表示第i个数据的类标签。在基本的SVM框架中，正特征数据和负特征数据被分成公式2的超平面。

[公式2]

(ω·x)+b＝0，ω∈Rⁿ，x∈Rⁿ，b∈R

SVM找到最佳超平面，以便训练数据可被正确地分成两类。可通过解公式3来获得最佳超平面。

[公式3]

MinimizeΦ (ω) = \frac{1}{2 (ω \cdot ω)}

Subject to y_i[(ω·x_i)-b]≥1，i＝1，...，k

根据拉格朗日乘子法，获得。

[公式4]

Maximize

W (α) = Σ_{i = 1}^{k} α_{i} - \frac{1}{2} σ_{i, j = 1}^{k} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j})

Subject to α_i≥0，i＝1，...，k，

Σ_{i = 1}^{k} α_{i} y_{i} = 0

其中，α是k维向量，σ是实数。

通过找到满足公式4的系数来获得SVM需要的超平面。这被称为分类器模型。由通过使用训练数据获得的分类器来对实际的数据值分类。SVM可使用核函数(K(x_i，y_i))来代替点积(x_i，y_i)。根据所使用的核函数，获得的模型可以是线性模型或非线性模型。

图3是根据本发明示例性实施例的预处理方法的流程图。可执行用于预处理的几种操作以在提取特征之前去除各种压缩格式和采样特征的影响。

首先，当输入了编码的音乐文件时(操作S302)，音乐文件被解码以被解压缩(操作S304)。接着，将音乐文件转换成某一采样率(操作S306)。因为特征受采样率的影响，所以音乐文件必须被转换，有关音乐文件的有用信息主要存在于低频带。因此，可通过下采样来减少用于获得特征的时间。声道合并是将立体声音乐文件改变成单声道音乐文件的处理(操作S308)。通过将立体声音乐文件改变成单声道音乐文件，可获得均衡特征，并可相当大地减少计算时间。为了相当大地使响度的影响最小化，将采样的值正规化(操作S310)。最后，通过确定最小单位部分，即分析窗口，来执行开窗以分析特征。

图4示出根据本发明示例性实施例的为提取特征而移动纹理窗口的方法。以分析窗口410为单位提取特征。参照图4，分析窗口410具有512个样本的大小。当使用22,050Hz的正规化数据时，分析窗口410的大小大约是23ms。通过对分析窗口的短时傅立叶变换来估计音乐文件的特征。在图4中，第一纹理窗口420包括40个分析窗口，纹理窗口420的特征被提取。

在处理了第一纹理窗口420之后，处理第二纹理窗口430。将第二纹理特征430移动一个分析窗口。获得从纹理窗口中包括的每个分析窗口中所提取的特征的平均值和方差，并且将纹理窗口移动一个分析窗口。估计在将被分析的时间窗口中包括的所有纹理窗口的平均值和方差。然后，为了确定最终的特征值，获得所有纹理窗口的平均值的平均值以及所有纹理窗口的方差的平均值。分析窗口和纹理窗口的大小影响估计的处理。图4中所述的值可通过各种实验被确定，并可依据应用而改变。

如上所述，提取的特征是频谱矩心的平均值和方差、频谱滚降的平均值和方差、频谱流量的平均值和方差、BFCC的第一五个系数的平均值和方差以及BFCC的德耳塔。图5示出获得特征的处理。

首先，初始化存储器和表格以提取特征(操作S502)，并通过海明窗的开窗来从分析窗口中包括的PCM数据中去除噪声(操作S504)。通过快速傅立叶变换(FFT)将通过海明窗的开窗转换的数据转换成某一频带，从而获得它的幅度(操作S506)。通过使用所述幅度来估计频谱值，并使相同幅度的值通过Bark尺度滤波器。

为了提取第一特征，估计频谱矩心(操作S508)。频谱矩心与频带中能量分布的平均值相应。将所述特征用作用于识别音乐间隔的标准。即，通过使用该特征来确定用于确定音乐声音的音高的频率。频率矩心确定信号能量最集中的频率区域，通过公式5来确定频率矩心。

[公式5]

C_{t} = \frac{Σ_{n = 1}^{N} M_{t} [n] * n}{Σ_{n = 1}^{N} M_{t} [n]}

其中，N和t是整数。

这里，M_t[n]表示对帧t和频率n的傅立叶变换的幅度。

为了提取第二特征，估计频率滚降(操作S510)。频率滚降是某一频率，低于该频率，分布了大约85％的频谱能量。使用第二特征来估计频谱形状，并且因为可通过第二特征来表示能量的分布，所以在区分不同音乐片段中有效地使用第二特征。因为某一音乐片段的能量可广泛分布于整个频带，而另一音乐片段的能量狭窄地分布于该频带，所以可区分不同的音乐片段。通过公式6来估计频谱滚降的位置。

[公式6]

Σ_{n = 1}^{R_{t}} M_{t} [n] = 0.85 * Σ_{n = 1}^{N} M_{t} [n]

频谱滚降频率R_t是具有大约85％的分布的幅度的频率。

为了提取第三特征，估计频谱流量(操作S512)。频谱流量表示在两个连续频带的能量分布的改变。由于能量分布的改变可依据音乐特征而变化，所以可使用这种改变来区分音乐片段。将频谱流量定义为两个连续的正规化的频谱分布之间差的平方，通过公式7来估计频谱流量。

[公式7]

F_{t} = Σ_{n = 1}^{N} {(N_{t} [n] - N_{t - 1} [n])}^{2}

这里，N_t[n]表示对帧t的傅立叶变换的正规化大小。

为了提取第四特征，估计BFCC。BFCC方案使用倒谱特征和临界频带尺度滤波器组，并使用多个非均匀滤波器组之一，从而基于频率实现音调感知，所述临界频带尺度滤波器组区分对语音清晰度作出相等贡献的频带。之前提到的基于音调的Bark尺度滤波器比在主观音高检测中使用的其他尺度滤波器更适合于音乐分析。音调表示音色，并且是区分语音和乐器的关键因素。在Bark尺度滤波器中，人听得见的范围被划分成大约24个频带。在低于频带的频率处(例如，但不是限制，1,000Hz)所述范围线性增加，而在高于所述频带的频率处所述范围对数地增加。

为了估计BFCC，估计Bark尺度滤波器组的响应(操作S514)。估计所述响应的对数值(操作S516)，并估计所估计的对数值的离散余弦变换(DCT)，从而获得BFCC(操作S518)。BFCC的德耳塔被估计以被确定为特征(操作S520)。

为了确定特征，关于如上所述对音乐片段的特定时间窗口所估计的频谱矩心、频谱滚降、频谱流量和BFCC来估计平均值和方差(操作S522)。在BFCC的情况下，可对BFCC的第一五个系数执行该处理。从而，获得总共21个特征。存储所提取的特征用于在以后的音乐分类和音乐研究中使用(操作S524)。

图6示出根据本发明示例性实施例的用于存储特征的数据格式的示例。数据格式被命名为“MuSE”，并总共具有200字节的大小。4字节的头字段610描述数据格式的名称，之后是10比特的版本字段620、6比特的流派字段630、2比特的语音/音乐标记字段640、6比特的情绪字段650、具有4字节的21个特征的84字节的特征字段660、用于指示数据格式的扩展的2字节的扩展标记字段670以及107字节的保留数据字段。当版式升级时使用版本字段620。使用扩展标记字段670来添加几个基本的数据格式。

因此，在示例性实施例中，自动执行对音乐文件的情绪分类，从而用户可依据他或她的情绪来选择音乐。

具体地讲，由于仅音乐文件的一部分被分析，所以可比通过分析整个音乐文件的方法快大约24倍来提取特征。此外，如果重叠的频谱特征对性能没有影响，则去除所述重叠的频谱特征。另外，使用可包含关于音质的信息的Bark频率方法来代替Mel频率方法，从而相当大地改善性能。另外，使用BFCC的德耳塔来相当大地提高分类的正确性。

所述示例性实施例可以是计算机程序(例如，指令)，并可通过使用计算机可读记录介质来在执行所述程序的通用数字计算机中被实现。

尽管参照本发明的示例性实施例具体显示并描述了本发明，但是本领域的技术人员应该理解，在不脱离权利要求限定的本发明的精神和范围的情况下，可在形式和细节上作出各种改变。所述示例性实施例应该被认为仅为了描述的目的，而非为了限制的目的。因此，本发明的范围不是由本发明的详细描述来限定，而是由权利要求来限定，该范围内的所有不同应该被理解为包括在本发明中。

Claims

1、一种对音乐文件分类的方法，所述方法包括：

对与从音乐文件的预定位置的预定长度相应的数据进行预处理；和

使用预处理的数据对音乐文件分类。

2、如权利要求1所述的方法，其中，所述预处理的步骤包括：对与所述预定长度相应的数据解码和正规化。

3、如权利要求1所述的方法，其中，所述对音乐文件分类的步骤包括：从预处理的数据提取至少一个特征，并通过使用提取的所述至少一个特征对音乐文件分类。

4、如权利要求3所述的方法，其中，所述通过使用提取的所述至少一个特征对音乐文件分类的步骤包括：通过使用机器学习方法来对音乐文件分类。

5、如权利要求4所述的方法，其中，所述机器学习方法是一种使用支持向量机分类器的方法。

6、如权利要求3所述的方法，其中，所述提取至少一个特征的步骤包括：通过从频谱矩心、频谱滚降、频谱流量、Bark尺度频谱倒谱系数、Bark尺度频率倒谱系数的各德耳塔中提取至少一个值来确定所述至少一个特征。

7、一种用于对音乐文件分类的系统，所述系统包括：

预处理单元，对与从音乐文件的预定位置的预定长度相应的数据进行预处理；

特征提取单元，从预处理的数据中提取至少一个特征；

情绪确定单元，通过使用提取的所述至少一个特征来确定输入音乐文件的情绪；和

存储单元，存储提取的所述至少一个特征和确定的情绪。

8、如权利要求7所述的系统，其中，所述特征提取单元通过从频谱矩心、频谱滚降、频谱流量、Bark尺度频谱倒谱系数、Bark尺度频率倒谱系数的德耳塔中提取至少一个值来确定所述至少一个特征。

9、如权利要求8所述的系统，其中，所述特征提取单元通过以下操作来确定所述至少一个特征：

将预处理的数据划分成多个分析窗口；

在将具有多个分析窗口的纹理窗口移动一个分析窗口单位的同时，以纹理窗口为单位，获得频谱矩心的平均值和方差、频谱滚降的平均值和方差、频谱流量的平均值和方差、以及Bark尺度频率倒谱系数的平均值和方差；和

通过获得所获得的每个纹理窗口的平均值和方差的平均值来确定所有预处理的数据的所述至少一个特征。

10、如权利要求7所述的系统，其中，所述情绪确定单元通过使用机器分类方法来确定音乐文件的情绪。

11、如权利要求10所述的系统，其中，所述机器分类方法是使用支持向量机分类器的方法。

12、一种具有一组用于对音乐文件分类的方法的指令的计算机可读介质，所述方法的指令包括：

使用预处理的数据对音乐文件分类。