CN102930865B

CN102930865B - 一种波形音乐粗情感软切割分类方法

Info

Publication number: CN102930865B
Application number: CN201210355609.1A
Authority: CN
Inventors: 林景栋; 王唯; 廖孝勇; 林湛丁; 邱欣
Original assignee: Chongqing University
Current assignee: Heihezi Technology Beijing Co ltd
Priority date: 2012-09-21
Filing date: 2012-09-21
Publication date: 2014-04-09
Anticipated expiration: 2032-09-21
Also published as: CN102930865A

Abstract

本发明公开了一种波形音乐的粗情感软切割分类方法，属于计算机模式识别领域，针对音乐特征参数，采用Mallat算法进行波形音乐的粗情感软切割分类，解决了用于控制系统的波形音乐特征情感信息精确捕捉。具体包括以下步骤：（1）粗情感空间域的建立；（2）预处理；（3）特征提取；（4）软切割；（5）分类。本发明采用基于Mallat算法的时频域分析法对波形音乐进行处理，根据两大基本音乐特征量（强度及节奏），通过样本训练的方法得到普适性较高的比较参数节点，并根据专家经验对各个情感域之间的跳转条件进行确定，最终达到音乐粗情感软切割分类的效果。

Description

一种波形音乐粗情感软切割分类方法

技术领域

本发明涉及一种音乐波形文件的识别方法，特别涉及一种波形音乐粗情感软切割分类方法。

背景技术

随着灯光技术的发展，音乐灯光表演成为了舞台表演、城市建设以及风景区建设的一大重要的项目。目前音乐灯光表演方案设计所使用的人工分类编辑方法普适性差、定位不精确且耗费人力物力。在这样的情况下，设计人员希望能够通过计算机快速实现整段表演音乐的合乎大多数人情感理解的情感软切割分类，从而方便设计人员更快、更精确地依据音乐情感编排灯光动作。

然而，对于现有的一些音乐情感识别方面的研究，都是对一整段音乐整体处理后提取特征值，并且使用的特征标准都是统一的。这些对音乐片段的分类过程而言，有时不太方便。

因此，急需提供一种更快、更精确地依据音乐情感对音乐进行分类的方法。

发明内容

有鉴于此，本发明所要解决的技术问题是提供一种针对波形音乐文件的粗情感软切割分类的方法。

本发明的目的是这样实现的：

本发明提供的一种波形音乐粗情感软切割分类方法，包括以下步骤：

S1：提供音乐数据，并建立音乐分类数据的粗情感空间域；

S2：预处理，选取的音乐片段样本做粗情感软切割实验的训练样本集，将待识别的测试集波形音乐文件进行预处理；

S3：提取待识别的测试集波形音乐文件的音乐特征；

S4：对待识别的测试集波形音乐文件进行一次软切割，所述一次软切割为针对强度音乐特征量的软切割；

S5：对一次软切割后的音乐文件进行二次软切割，所述二次软切割为针对节奏音乐特征量的软切割；

S6：根据分类矩阵将待识别的测试集波形音乐文件的软切割结果归类到粗情感空间域中。

进一步，所述提取待识别的测试集波形音乐文件的音乐特征包括以下步骤：

S31：首先通过小波变换中的Mallat快速分解算法对待识别的测试集波形音乐文件进行时频域的快速分解重构，得到低通滤波器和高通滤波器的冲击响应序列；

S32：然后提取音乐特征，所述音乐特征包括强度音乐特征量和节奏音乐特征量。

进一步，所述强度音乐特征量以下公式来计算：

e_{k} = Σ_{i = k * N}^{(k + 1) * N} \frac{x_{i}}{N}, i, k = 0,1,2 \cdot \cdot \cdot

其中，e_k为第k段短时平均能量即平均振幅，x_i为采集的第i个音乐数据，N为每段采集的音乐数据的数量。

进一步，所述一次软切割的具体步骤如下：

S41：获取待识别的测试集波形音乐文件各频率段的振幅值；

S42：判断t(1)、t(2)、...时刻各频率段的振幅值是否超过阈值；

S43：选择超过阈值的单音或音项作为t(1)、t(2)、...时刻的音符比较项；

S44：通过以下公式计算t(k+1)时刻与t(k)时刻的音符比较项平均振幅之比ck；

c_k＝e_k+1/e_k,k＝0,1,2,...

其中，e_k表示第k个音符比较项的平均能量，c_k表示后一时刻振幅比较项与前一时刻振幅比较项之比为振幅比较系数，k表示；

S45：判断音符比较项平均振幅之比c_k是否属于区间[a,b]，其中a表示音符比较项平均振幅之比的最小值，b表示音符比较项平均振幅之比的最大值；

S46：判断t(k)时刻后不属于区间[a,b]的音符比较项平均振幅之比c_k是否出现连续m次，其中，m表示不属于区间【a,b】的音符比较项平均振幅之比出现的次数；

S47：连续出现则可选择t(k)时刻为一次软切割节点，与前一个一次软切割节点组成片段为一次软切割片段，反之，继续向后比较。

进一步，所述二次软切割的具体步骤如下：

S51：获取一次软切割所得到的第h个片段；

S52：通过以下公式计算第h个片段的相对节奏比较项的值：

r_h＝N/t_h，其中，t_h表示第h个片段的时长，Nh为音符比较项个数；

S53：通过以下公式计算第h+1个片段与第h个片段的音相对节奏比较项值之比；

S54：c′_k＝r_h+1/r_h,h＝0,1,2,…，其中，c′_k表示相对节奏比较项；

S55：判断相对节奏比较项值之比c′_k是否属于区间[c,d]，其中c表示相对节奏比较项值之比的最小值，d表示相对节奏比较项值之比的最大值；

S56：将属于该区间的相对节奏发生变点作为二次软切割节点，然后对经过一次软切割的音乐文件片段进行二次切割。

进一步，所述粗情感空间域为包括激烈、欢快、低落、轻柔的简化粗情感二维对称抑扬模型；

进一步，所述预处理过程是指将待识别的测试集波形音乐文件进行去噪和分帧处理。

本发明的优点在于：本发明所建立的音乐粗情感空间域包括激烈、欢快、低落、轻柔四种情感状态，采用基于Mallat算法的时频域分析法对波形音乐进行分解提取，根据两大基本音乐特征量（强度及节奏），通过样本训练的方法得到普适性较高的比较参数节点，并根据专家经验对各个情感域之间的跳转条件（比较参数区间）进行确定，最终达到音乐粗情感软切割分类的效果，为之后的分情感域特征精确提取做好基础工作。

为了得到更加细化的音乐特征提取效果，可以采用粗分类二次提取的方法，即首先利用统一的方法对整段音乐进行情感特征一次识别，然后给属于不同粗情感域的音乐片段顺序编号后进行粗分类并归类到各自对应的情感域中，针对不同的粗情感域，再采用不同的特征值对这些音乐片段进行二次情感特征识别，最后可将这些得到的精细化情感识别结果按照编号顺序重新组合，即可得到整首音乐的较为准确的情感特征识别结果，该结果将会给人们呈现更加接近于人自身对音乐的感性感觉。

本发明的其它优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其它优点可以通过下面的说明书以及附图中所特别指出的结构来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1是本发明的粗情感域的简化过程；

图2是本发明的音乐片段的一、二次软切割；

图3是本发明的相邻音符比较项所在片段变化情况；

图4是本发明的不同粗情感域的跳转条件示意图；

图5是本发明的识别步骤流程图；

图6是本发明的识别步骤中软切割过程的一次软切割流程图；

图7是本发明的识别步骤中软切割过程的二次软切割流程图；

图8是混合音符小节的音符比较项的频率-振幅示意图。

具体实施方式

以下将结合附图，对本发明的优选实施例进行详细的描述；应当理解，优选实施例仅为了说明本发明，而不是为了限制本发明的保护范围。

实施例1

图1是本发明的粗情感域的简化过程；图2是本发明的音乐片段的一、二次软切割；图3是本发明的相邻音符比较项所在片段变化情况；图4是本发明的不同粗情感域的跳转条件示意图；图5是本发明的识别步骤流程图；图6是本发明的识别步骤中软切割过程的一次软切割流程图；图7是本发明的识别步骤中软切割过程的二次软切割流程图；如图所示：本发明提供的一种波形音乐粗情感软切割分类方法，包括以下步骤：

S1：提供音乐数据，并建立音乐分类数据的粗情感空间域；所述粗情感空间域为包括激烈、欢快、低落、轻柔的简化粗情感二维对称抑扬模型；根据Russell提出的针对情感建立的二维对称抑扬模型即A-V（Arousal-Valence）平面模型，将其中所包含的11种情感分类简化成只包含4种情感状态即激烈、欢快、低落、轻柔的简化模型SimpleA-V粗情感模型。

S2：预处理，选取多首混合了多种情感的音乐片段样本做粗情感软切割实验的训练样本集，将待识别的测试集波形音乐文件进行预处理；所述预处理过程是指将待识别的测试集波形音乐文件进行去噪和分帧处理。

S3：提取待识别的测试集波形音乐文件的音乐特征，对于特征提取步骤：在粗情感域中的音乐情感分类，本发明选用了最具有普适性的两大音乐特征量，即强度、节奏。对于激烈域中的音乐片段，音乐强度很大、节奏很快；对于欢快域中的音乐片段，音乐强度较大、节奏较快；对于轻柔域中，音乐强度较小、节奏较缓；对于低落域中的音乐片段，音乐强度很小、节奏很缓。通过小波变换中的Mallat快速分解算法对待识别的wav格式音乐文件进行时频域的分解，然后根据所定义的强度、节奏算法对其进行特征提取，具体包括以下步骤：

所述强度音乐特征量以下公式来计算：

e_{k} = Σ_{i = k * N}^{(k + 1) * N} \frac{x_{i}}{N}, i, k = 0,1,2 \cdot \cdot \cdot

S4：对待识别的测试集波形音乐文件进行一次软切割，软切割可定义为在不破坏分析对象的物理结构的情况下的一种标记编号分段方法。本发明针对强度即平均振幅的软切割称为一次软切割，针对节奏的软切割称为二次软切割，后者嵌套在前者之中且优先级低于前者。软切割参照两个特征量分别对应的比较系数进行。

所述一次软切割为针对强度音乐特征量的软切割；所述一次软切割的具体步骤如下：

S41：获取待识别的测试集波形音乐文件各频率段的振幅值；

S44：通过以下公式计算t(k+1)时刻与t(k)时刻的音符比较项平均振幅之比c_k；

c_k＝e_k+1/e_k,k＝0,1,2,…

其中，e_k表示第k个音符比较项的平均能量，c_k表示后一时刻振幅比较项与前一时刻振幅比较项之比为振幅比较系数，k表示第k个音符比较项；

S5：对一次软切割后的音乐文件进行二次软切割，所述二次软切割为针对节奏音乐特征量的软切割；所述二次软切割的具体步骤如下：

S51：获取一次软切割所得到的第h个片段；

S52：通过以下公式计算第h个片段的相对节奏比较项的值：

S6：根据分类矩阵将待识别的测试集波形音乐文件的软切割结果归类到粗情感空间域中。该分类矩阵是通过对训练样本集进行训练得到一组普适性较高的分类矩阵，结合专家评价，根据该n×n阶矩阵中的n2种情况可得出在SimpleA-V粗情感域中的不同情感之间的跳转条件。根据跳转条件可对软切割结果进行SimpleA-V平面中的归类。

实施例2

本实施例2详细描述将波形音乐进行粗情感软切割的具体过程：

所述音乐特征提取步骤包括基于Mallat算法的的时频域快速分解步骤、音乐特征量的提取步骤。

基于Mallat算法的的时频域快速分解步骤：

小波变换是一种时域-频域的分析方法，该方法克服了FFT方法对高低频使用统一分辨率的缺点，通过对决定带通滤波器的带宽和中心频率的参数的变化来满足对高、低频使用不同分辨率的要求。当该参数变大时，中心频率变小，时域带宽变宽，频域带宽变窄，时域分辨率变小，频域分辨率变大当该参数变小时，中心频率变大，时域带宽变窄，频域带宽变宽，时域分辨率变大，频域分辨率变小，因此当该参数变化时，滤波器的窗口在变化，而在频率小的地方，滤波器频率分辨率变大，满足了低频处高分辨率的要求，而频率大的地方满足了高频处高时域分辨率的要求。

Mallat快速分解算法：

a_{m} [n] = \underset{k}{Σ} g [k - 2 n] a_{m + 1} [k]

d_{m} [n] = \underset{k}{Σ} g [k - 2 n] a_{m + 1} [k],

其中h[k]，g[k]分别表示低通滤波器和高通滤波器的冲击响应序列。

在通过小波分解后，可使用DTFT得到频域中的振幅。将基音频率其记作ω可得下式：

A (ω) = \underset{n}{Σ} a (n) \exp (- jωn),

通过小波变换，能够很好地将带有不同时频域特征的音乐片段区分开来。

音乐特征量的提取步骤：粗情感识别所需使用的两大音乐特征量，即强度和节奏；

强度：听者对音乐的强度的理解一般为音乐音高的大小和拍子的快慢。为了量化音乐强度，可定义了一个物理量，即平均能量（average energy），其定义方程如下：

e_{k} = Σ_{i = k * N}^{(k + 1) * N} \frac{x_{i}}{N}, i, k = 0,1,2 \cdot \cdot \cdot

其中，e_k为第k段短时平均能量，x_i为采集的第i个音乐数据，N为每段采集的音乐数据的数量。

节奏：所谓的节奏，就是人们通常指的拍子或是节拍，这是音乐内容中的重中之重。激烈和欢快的音乐，其节奏一般较快，而低落、轻柔的音乐，其节奏一般较慢。

振幅比较项与节奏比较项：

振幅比较项：为求得之后软切割步骤中的比较参数，本发明将时频域分解得到的超过振幅阈值的单音或者合音项设为比较项，可定义数列Q_k＝{q_k1,q_k2,…,q_kn}，其中qki表示筛选出的第k个音符比较项所包含的第i个音符，若为单音，则i=1；若为n合音，则i=n。另外，可定义

其中

表示筛选出的第k个音符比较项所包含的第i个音符的强度，k＝1,2,…;i＝1,2,…,n。

对于一次分类的某一片段，通过前面的筛选过程知道该段中的音符比较项个数N₁，可以通过简单的计算得到该段的节奏相对值，即第1段的节奏相对值为r₁＝N/t₁。依次类推，如果一首歌曲按照平均能量的算法被分为了h段，那么第h段地节奏相对值为r_h＝N/t_h。

所述的软切割步骤，包括根据振幅比较系数进行的一次软切割与根据相对节奏比较系数进行的二次软切割。

振幅比较系数：

令振幅比较系数为c_k，其计算公式如下：

c_k＝e_k+1/e_k,k＝0,1,2,…

其中，ek表示第k个音符比较项的平均能量，该音符比较项可为单音，也可为合音，其表达式如下：

e_{k} = \overset{&OverBar;}{e_{Q_{k}}} = Σ_{i = 1}^{n} e_{q_{ki}} / n . i = 1,2 \cdot \cdot \cdot, n; k = 1,2, \cdot \cdot \cdot

其中，

可用

进行变换。当音符比较项为只含一个音符即为单音时，i=n=1，

e_{k} = e_{Q_{k}} = e_{q_{k 1}} .

现在，可以通过c_k的值判断相邻音符比较项的变化情况，如果c_k的值在闭区间[0.6,1.4]内，可以将其变化近似看做同一粗情感域内的微小变化，如果c_k的值超出这一范围，可以将其变化近似看做不同粗情感域内的跳转。然而，这样比较会出现一种常见的情况，即

c₁,…,c_k-1∈[0.6,1.4]

c_{k}, c_{k + 1}, \cdot \cdot \cdot, c_{k + m}, &NotElement; [0.6,1.4]

而c_k+m+1,…∈[0.6,1.4]，例如m=1或2，这种偶尔的出现的单次或几次跳变情况，根据人的经验，不足以说明音乐的情感在不同粗情感域内跳转了。所以需要对m做一定的限制，可以根据音乐的实际情况将m设定在一定范围内，以保证情感变化后的音乐能够稳定地在其所属的情感域中停留一段时间，这样这段音乐片段的情感信息才能充分地表现出来，否则，需将视其为情感表达无效段。

相对节奏比较项：

为了克服按照平均能量的算法粗分类的局限性，可以按照类似的算法的到新的比较系数，即相对节奏比较项c′_k，且c′_k＝r_h+1/r_h,h＝0,1,2,…。同样，如果c′_k的值在闭区间[0.8,1.2]内，可以将其变化近似看做同一粗情感域内的微小变化，如果c′_k的值超出这一范围，可以将其变化近似看做不同粗情感域内的跳转。

如图5所示，本发明包括：1）粗情感空间域的建立；（2）预处理步骤；（3）特征提取步骤；（4）软切割步骤；（5）分类步骤。

本方法是基于简化后的A-V情感模型的，该简化模型包括激烈、欢快、低落、轻柔四种情感状态。本方法选用100首混合了多种情感的音乐片段样本做粗情感软切割实验的样本训练集。样本采样率为12015Hz，样本的长度为50s，格式为WAV文件，帧长为30ms，帧移为15ms。通过Mallat快速分解重构算法对音乐片段进行分解提取阈值范围内的基音与合音比较项，然后根据振幅及相对节奏比较系数分别对音乐片段进行一、二次然切割，并使用人工标记样本初始所属粗情感域。此外，测试集粗情感再软切割参考结果由20名乐感较好的研究人员参与通过人为感知得到。训练结果得到如图3所示的10组比较系数区间。根据该训练结果对30首测试集音乐进行实验，实验结果为激烈域正确率为96.3%，欢快域为95.8%，轻柔域为92.9%，低落域为90.5%。

对于软切割点时间，所有测试结果中最大误差时间绝对值为103ms，最小误差时间绝对值为8ms。基本符合控制精确度要求，这说明了该软切割方法的有效性。

所述一次软切割的具体步骤如下：

图8是混合音符小节的音符比较项的频率-振幅示意图，其中f1为频率为f1的单音音符比较项，A1为其振幅；f2、f3、f4为合音成分频率分别为f2、f3、f4的三合音音符比较项，A2，A3，A4为其对应振幅；f5为频率为f5的单音音符比较项，A5为其振幅。中间振幅较小的元素没有被给予标示，这些元素对情感粗分类没有很大意义，可以通过给定的选择阈值将其忽略。

将时频域分解得到的超过振幅阈值（由于人耳无法接受3db以下的音量变化，所以本发明将振幅阈值设为3db，振幅值可由A/D转换采样后得到）的单音或者合音项设为音符比较项。

定义数列Q_k＝{q_k1,q_k2,…,q_kn}，其中，q_ki表示筛选出的第k个音符比较项所包含的第i个音符，若为单音，则i=1；若为n合音，则i=n；

定义

其中，

表示筛选出的第k个音符比较项所包含的第i个音符的强度（强度及振幅值可由A/D转换采样后得到），k＝1,2,…;i＝1,2,…,n；

振幅比较系数：后一时刻振幅比较项与前一时刻振幅比较项之比为振幅比较系数；

令振幅比较系数为c_k，其计算公式如下：

c_k＝e_k+1/e_k,k＝0,1,2,…

其中，e_k表示第k个音符比较项的平均能量，该音符比较项可为单音，也可为合音，其表达式如下：

e_{k} = \overset{&OverBar;}{e_{Q_{k}}} = Σ_{i = 1}^{n} e_{q_{ki}} / n . i = 1,2 \cdot \cdot \cdot, n; k = 1,2, \cdot \cdot \cdot

其中，

可用

e_{k} = e_{Q_{k}} = e_{q_{k 1}} .

通过c_k的值判断相邻音符比较项的变化情况，如果c_k的值在闭区间[0.6,1.4]内，可以将其变化近似看做同一粗情感域内的微小变化，如果c_k的值超出这一范围，可以将其变化近似看做不同粗情感域内的跳转。然而，这样比较会出现一种常见的情况，即

c₁,…,c_k-1∈[0.6,1.4]

c_{k}, c_{k + 1}, \cdot \cdot \cdot, c_{k + m}, &NotElement; [0.6,1.4]

一次软切割主要实现了根据振幅特征量的变化情况对整段音乐进行振幅分类编号的功能，为依据相对节奏进行的二次软切割提取了时间节点、片段时间长度以及音符比较项等重要信息。

所述二次软切割的具体步骤如下：

对于一次分类的某一片段，通过前面的筛选过程知道该段中的音符比较项个数N₁，可以通过简单的计算得到该段的节奏相对值，即第1段的节奏相对值为r₁＝N/t₁，依次类推，如果一首歌曲按照平均能量的算法被分为了h段，那么第h段地节奏相对值为r_h＝N/t_h，

所述的分类步骤，通过平均能量得出的比较系数c_k＝e_k+1/e_k,k＝0,1,2,…，以及相对节奏得出的比较系数c′_k＝r_h+1/r_h，可根据其所在范围可推导出第k+1个音符比较项所在片段与第k个音符比较项所在片段相对应发生的变化情况如图3所示。结合专家评价，根据该n×n阶矩阵中的n2种情况可得出在SimpleA-V粗情感域中的不同情感之间的跳转条件。根据跳转条件可对软切割结果进行SimpleA-V平面中的归类。

二次软切割主要实现了在一次软切割基础上根据相对节奏的变化情况对整段音乐进行节奏分类编号的功能，为之后的分类提供了可计算出任意时间段振幅及相对节奏比较系数的计算方法。

以上所述仅为本发明的优选实施例，并不用于限制本发明，显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种波形音乐粗情感软切割分类方法，其特征在于：包括以下步骤：

S1：提供音乐数据，并建立音乐分类数据的粗情感空间域；

S3：提取待识别的测试集波形音乐文件的音乐特征；

S6：根据分类矩阵将待识别的测试集波形音乐文件的软切割结果归类到粗情感空间域中；

所述一次软切割的具体步骤如下：

S41：获取待识别的测试集波形音乐文件各频率段的振幅值；

S42：判断t(1)、t(2)、…时刻各频率段的振幅值是否超过阈值；

S43：选择超过阈值的单音或音项作为t(1)、t(2)、…时刻的音符比较项；

c_k＝e_k+1/e_k,k＝0,1,2,…

2.根据权利要求1所述的波形音乐粗情感软切割分类方法，其特征在于：所述提取待识别的测试集波形音乐文件的音乐特征包括以下步骤：

3.根据权利要求1所述的波形音乐粗情感软切割分类方法，其特征在于：所述强度音乐特征量以下公式来计算：

e_{k} = Σ_{i = k * N}^{(k + 1) * N} \frac{x_{i}}{N}, i, k = 0,1,2 . . .

4.根据权利要求1所述的波形音乐粗情感软切割分类方法，其特征在于：所述二次软切割的具体步骤如下：

S51：获取一次软切割所得到的第h个片段；

S52：通过以下公式计算第h个片段的相对节奏比较项的值：

5.根据权利要求1所述的波形音乐粗情感软切割分类方法，其特征在于：所述粗情感空间域为包括激烈、欢快、低落、轻柔的简化粗情感二维对称抑扬模型。

6.根据权利要求1所述的波形音乐粗情感软切割分类方法，其特征在于：所述预处理过程是指将待识别的测试集波形音乐文件进行去噪和分帧处理。