CN110377786A

CN110377786A - 音乐情感分类方法

Info

Publication number: CN110377786A
Application number: CN201910672832.0A
Authority: CN
Inventors: 侯亚辉; 赵庄言; 沈向辉
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2019-10-25

Abstract

本申请涉及一种音乐情感分类方法，包括获取待情感分类的音乐；对音乐的结构进行片段切分；对切分的片段进行特征提取；建立情感分类模型，根据情感分类模型对特征提取后的结果进行情感分类。本申请不需将完整音乐作为训练数据，可以提高模型的训练速度；通过对切分的片段进行特征提取，建立情感分类模型，根据情感分类模型对特征提取后的结果进行情感分类，可以提高模型的分类速度和分类的准确性。

Description

音乐情感分类方法

技术领域

本申请涉及计算机信息处理技术领域，尤其是一种音乐情感分类方法。

背景技术

随着多媒体和互联信息技术的发展，人们对音频信息资源的检索需求越来越强，这也使得对音乐信息的高效分类成为了当前的研究热点。近年来，关于音乐的情感分类越来越受到研究人员的关注。音乐情感分类是一个多学科交叉的研究课题，主要涉及心理学、听觉生理学、音乐学、信号与信息处理、模式识别等。与语种、风格以及流派等音乐分类依据不同，听者对于音乐的情感理解与定义有极大的主观性，所以将音乐按情感分类并不简单。目前常见的音乐分类方法主要以文本标注的标签为主，由使用者在使用过程中对音乐进行情感标注。但人工的标注并不能满足大批量音乐作品的分类需求，也无法满足音乐分类结果的实时性，并且因为人工标注没有权威性和统一性，不能被大规模使用。因此，随着计算机技术的发展，通过计算机利用智能信息处理的方法来替代人工标注的方法对音乐进行分类管理和检索成为了音乐情感分类的研究热点。相关技术中，使用机器学习算法对音乐进行情感分类，但由于算法模型的训练和应用是依赖于完整的音乐或歌曲，使得算法的学习速度慢，分类速度低，并且影响分类的准确性。

发明内容

为至少在一定程度上克服相关技术中，使用机器学习算法对音乐进行情感分类，但由于算法模型的训练和应用是依赖于完整的音乐或歌曲，使得算法的学习速度慢，分类速度低，并且影响分类的准确性的问题，本申请提供一种音乐情感分类方法，包括：

获取待情感分类的音乐；

对所述音乐的结构进行片段切分；

对所述切分的片段进行特征提取；

建立情感分类模型，根据所述情感分类模型对特征提取后的结果进行情感分类。

进一步的，切分的片段为音乐的副歌部分，对所述切分的片段进行特征提取，包括：对所述副歌部分进行特征提取。

进一步的，所述对所述副歌部分进行特征提取，包括：

使用LibROSA工具对所述副歌部分进行特征提取。

进一步的，所述方法还包括：提取音乐的副歌部分，包括：使用检测自相似矩阵的方法提取音乐的副歌部分，具体步骤包括：

提取切分的片段的Chroma特征和MFCC特征；

根据所述Chroma特征计算增强矩阵；

根据所述MFCC特征计算自相似矩阵；

将所述增强矩阵与自相似矩阵相加，得到特征自相似矩阵；

根据所述特征自相似矩阵提取所述音乐的副歌部分。

进一步的，所述根据所述特征自相似矩阵提取所述音乐的副歌部分，包括：

根据所述特征自相似矩阵查询重复片段；

对所述重复片段进行筛选，得到音乐的副歌部分。

进一步的，所述根据所述特征自相似矩阵查询重复片段，包括：

使用所述特征自相似矩阵计算对角线条纹集合；

根据所述对角线条纹集合检测出重复条纹片段作为重复片段。

进一步的，所述对所述重复片段进行筛选，包括：

根据多个指标对所述重复片段进行评分，所述指标包括：副歌的时序位置、副歌的高能量特点、副歌片段的重复特性和副歌片段位置；

根据所述评分筛选出与副歌综合相关性最高的片段作为音乐的副歌部分。

进一步的，所述方法还包括：确定所述副歌部分的起始位置，包括：

根据时间顺序确定所述副歌部分多个节拍点；

设置二维滤波器；

利用所述二维滤波器对所述多个节拍点在所述特征自相似矩阵上进行滤波，以确定节拍点的对应位置；

根据所述对应位置计算第一参数、第二参数，第一参数表示与副歌真实片段的相似程度、第二参数表示是否还有更相似的重叠部分存在的位置之外的邻近位置；

根据所述第一参数和第二参数确定副歌的起始位置。

进一步的，所述方法还包括：

对所述重复片段进行评估；

对评估结果进行排序；

预设筛选阈值，保留评估分数大于所述筛选阈值的重复片段；

在时间轴上叠加保留下的所述重复片段；

截取所有重复片段的重叠部分作为副歌段落，所述重叠部分的开始为副歌的起点，所述重叠部分的结尾为副歌的终点。

进一步的，所述建立情感分类模型，包括：

建立分类超平面；

使用线性支持向量机和非线性支持向量机优化所述最优分类超平面，得到情感分类模型。

本申请的实施例提供的技术方案可以包括以下有益效果：

本申请中通过对音乐的结构进行片段切分，不需将完整音乐作为训练数据，可以提高模型的训练速度；通过对切分的片段进行特征提取，建立情感分类模型，根据情感分类模型对特征提取后的结果进行情感分类，可以提高模型的分类速度和分类的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请一个实施例提供的一种音乐情感分类方法的流程图。

图1.1是本申请一个实施例提供的一种Thayer心理模型图。

图2是本申请一个实施例提供的一种副歌部分提取组成图。

图2.1是本申请一个实施例提供的一种MFCC提取流程图。

图2.2是本申请一个实施例提供的一种PLPCC提取的流程图。

图2.3是本申请一个实施例提供的一种敲击强度曲线的提取流程图。

图3是本申请另一个实施例提供的一种音乐情感分类方法的流程图。

图3.1是本申请一个实施例提供的一种音MFCC特征矩阵和Chroma特征矩阵图。

图3.2是本申请一个实施例提供的一种自相似矩阵F Chroma增强前后的对比效果图。

图3.3是本申请一个实施例提供的一种映射并增强处理后的二值矩阵F_Be图。

图4是本申请另一个实施例提供的一种音乐情感分类方法的流程图。

图4.1是本申请一个实施例提供的一种筛选的流程图。

图4.2是本申请一个实施例提供的一种在时间轴上叠加保留下的重复片段图。

图5是本申请另一个实施例提供的一种音乐情感分类方法的流程图。

图6是本申请另一个实施例提供的一种音乐情感分类方法的流程图。

具体实施方式

下面结合附图和实施例对本发明进行详细的描述。

图1是本申请一个实施例提供的音乐情感分类方法的流程图。

如图1所示，本实施例提供的音乐情感分类方法，包括：

S11：获取待情感分类的音乐；

S12：对音乐的结构进行片段切分；

S13：对切分的片段进行特征提取；

S14：建立情感分类模型，根据情感分类模型对特征提取后的结果进行情感分类。

音乐情感是听者在听到音乐后产生的一种心理上的体验，整个产生过程体现了音乐的信息表现、信息传递与听者的信息认知。音乐情感具备如下表征：

(1)层次性。基于对音乐的节奏、力度等低层次的理解与认知，辅以人们的记忆以及思维辨识等，最终形成了人们对音乐的情感认知。因此，情感是人们在音乐认知中的最高层次。

(2)主观性。音乐作品作为创作人情感的寄托，体现了创作人在创作过程中心理情感变化，因此其作品具有很强的主观性。并且，由于听众与创作人的成长环境、文化程度以及个人喜好等差异，使得听众对音乐作品的情感认知与创作人寄托的情感也有所不同。

(3)模糊性。音乐的情感是音乐艺术符号通过不同的艺术表现手法融合出来的，所以这种融合出的情感与艺术符号并不是一一对应的，而是呈现一种模糊对应的特点，因此音乐情感在逻辑上存在变动性。

(4)运动性。音乐的情感不是静态表现的，而是会随着音乐的推进而变化的，这种变化伴随着音乐的产生、高潮以及平息，即音乐情感的运动性。

为分析音乐中的情感信息，选取符合人类情感特点的Thayer心理模型来对音乐进行情感认知，如图1.1所示，Thayer模型将情感分别从能量(energy)和压力(tension)两个维度来进行表示，并将情感空间放在了同一个象限中。

能量维度表示为从“平静”到“充满活力”，在生理上反应了人们感受到的活力程度；压力维度表示为从“快乐”到“焦虑”，在心理上反应了人们的主观内部变化。通过两个维度可以将情感模型分为四个区域，其中能量较高而压力较小的区域代表快乐有活力，情感为兴高采烈的；能量较高而压力较大的区域代表焦虑有活力，情感为焦虑的；能量较低而压力较小的区域代表平静快乐，情感为令人满意的；能量较低而压力较大的区域代表平静焦虑，情感为沮丧的。

Thayer情感模型是一种连续的情感描述模型，具有比较强的情感的连续表达能力，且很容易将音乐特征与情感建立联系，使模型的情感特征更加鲜明。

传统对于音乐情感分类的流程为：根据音乐情感模型对音乐进行标注，将标注好的音乐数据集提取特征并训练模型，然后利用模型对未知情感的音乐进行预测和分类。然而，由于是基于一首音乐的全部结构进行模型训练，不仅训练速度慢，训练好的模型的对情感预测、分类的准确性也较低。

本实施例中，通过对音乐的结构进行片段切分，推测出对音乐情感表达最重要的部分，对切分的片段(音乐情感表达最重要的部分)进行特征提取，建立情感分类模型，根据情感分类模型对特征提取后的结果进行情感分类，可以提高模型的训练速度、分类速度和分类的准确性。

图2是本申请一个实施例提供的一种副歌部分提取组成图。

如图2所示，本实施例提供的一种副歌部分提取，包括：

作为本发明可选的一种实现方式，切分的片段为音乐的副歌部分，对所述切分的片段进行特征提取，包括：对副歌部分进行特征提取。

一首音乐的结构经由前奏(intro)、主歌(verse)、副歌(chorus)、桥段(bridge)以及尾奏(outro)等五部分根据不同方式组合而成，音乐特征包括音乐的旋律(melody)特征，音强(loudness)特征、音色(timbre)特征和节奏(rhythm)特征。对副歌部分进行特征提取，包括：

旋律特征提取包括：

旋律是一首歌曲组成的基本要素，通常指的是一首音乐的曲调，包括音调、风格以及谐波变化。音调(pitch)也叫作音高，是旋律的主要影响因素。音高的大小取决于声波基频的高低，频率较高的音调高，频率较低的音调低。

(1)频谱变化度(Spectral Variability)

频谱变化度反映了音乐信号在频谱上各频率部分之间的变换幅度，通过计算各频率的能量标准差来得到，其计算公式如下：

其中，n为采样点数，N为样本总量，F_i为第i帧的FFT幅值。

(2)Chroma特征

Chroma特征被称为声音调类特征，是一种帧级别特征。Chroma特征是根据乐理知识，将音乐信号的频域按不同频率段分成若干子带，由这些子带提取出的12维参数。提取出的12维参数与音乐的乐理理论中十二平均律音阶体系相对应，分别表达了C，C#，D，D#，E，F，F#，G，G#，A，A#，B十二个音阶。由于频率的高低决定了音高大小，因此人耳所能感知到的音高差异被定义为一个半音，Chroma特征对应的频率划分方法如表1所示。

表1频带划分方法

中心频率表示了一个八度中12个半音的频率。从20Hz到5000Hz的频带中的每个频带都满足以下三个条件：

其中，n为频带号，Φ_l为频带n的下限频率，Φ_h为频带n的上限频率，Φ_c为频带n的中心频率。

Chroma特征将频谱分为12个八音频段，对于每段i，其Chroma特征为：

其中，B_i(Φ)表示为频带i的带通滤波器，S(Φ)为信号的频谱。然后根据公式(4)，针对求得的c(i)进行量化，其中z为量化程度。当q(i)取到最高的能量时，值置为1。

q(i)＝rank[c(i)],if{rank[c(i)]}<z (4)

Chroma特征虽然不能包含整个频域信息，但依然可以很好的将音乐的特点表示出来。经人耳实际聆听感受后发现，将音乐信号中提取的Chroma特征重构成音乐信号后并转化成音频后，虽然重构音乐的语谱图和原始音乐的语谱图有所差别，但是人耳在听觉感受上并没有差别。

音强特征提取包括：

音强即人们在听到音乐时所能感受到的音频响度，代表了声音的强弱，是人们主观感受之一。响度的大小取决于信号的振幅，信号的振幅越大音频的响度越大，信号的振幅越小则音频的响度越小。

(1)短时能量(Short Time Energy)

短时能量是指单位时间内信号帧的能量，是信号的一种时域特征。短时能量可以直接体现出一段音乐信号的幅度大小，其计算公式如下：

其中，E_n代表了信号第n帧的短时能量，s(m)为音乐信号，w(n-m)为窗函数，n为窗的时间位置，N为窗长。

(2)短时平均幅度(Short Time Average Magnitude)

短时能量虽然可以直接体现出一段信号的幅度大小，但由于其计算公式中含有平方运算，因此扩大了音乐信号中大小幅度的极差，并不能准确反映出音乐信号的能量随时间推移的变化情况，所以提出了另一种反映信号能量变化的特征——短时平均幅度，其计算公式如下：

其中，M_n代表了信号第n帧的短时平均幅度，|s(m)|代表对音乐信号取模运算，w(n-m)为窗函数，n为窗的时间位置，N为窗长。

(3)低能量帧率(Low Energy Frame Ratio)

低能量帧率是指一段信号中能量值低于阈值的帧数与信号总帧数的比值。低能量帧率能直观地表示了音频信号的能量规律，其计算公式如下：

其中，N代表信号的帧数总量，Ethrehold为设置的能量阈值，E(n)为第n帧的短时能量，sgn[]为阶跃函数。当计算出来的音乐信号的低能量帧率较小时，说明这段音乐是静音的的可能性较小；反之，当低能量帧率较大时，说明这段音乐是静音的可能性较大。

音色特征提取包括：

音色也被称为音品，是指不同声音的频率在信号的波形上有着不同的表现特性，这是由于不同物体的振动特点不同导致的。不同的发声源发出的声音的音色是不同的，通过音色人们可以对不同的声音进行辨别。

(1)短时过零率(Zero Crossing Rate)

短时过零率是指单位时间(一般指一帧时间)内信号数值的正负交替次数，是信号的一种时域特征。短时过零率反映了信号在单位时间内的平均变化频率，在一定程度上反映了信号的频谱特性，其计算公式如下：

其中，s(n)为信号，sgn[]为阶跃函数。短时过零率能够体现信号中噪声的含量，因此一般音乐信号的过零率的变化较低。

(2)频谱质心(Spectral Centroid)

频谱质心又被称为亮度，是指一段信号在其频谱能量分布上的中心位置。频谱质心能够反映音乐信号的频谱形状，即表现出音乐信号中高频分量与低频分量的比例。频谱质心的计算公式如下：

其中，M_i[n]代表第i帧的短时频谱在频点n处的幅度。当音乐信号中的高频分量所占比例高时，频谱质心的数值就会较大；当音乐信号中的低频分量所占比例高时，频谱质心的数值就会较小。因此，频谱质心是表示音色的重要感知参数，同时还能反映出音调的高低。通常，对于愉快或激昂的乐曲，其音乐信号的高频分量占比高，因此信号的频谱质心会较大；相反，悲伤或平静的乐曲，其音乐信号的低频分量占比高，因此频谱质心会较小。

(3)频谱通量(Spectral Flux)

频谱通量是指相邻的两帧音乐信号在频谱分布上的变化量，体现了频谱的局部变化量，可以用于衡量音色的变化情况，是音乐信号的动态特征。频谱通量的计算公式如下：

其中，N_i[n]和N_i-1[n]分别是第i帧信号以及第i-1帧信号的短时频谱在频点n处的归一化幅度值。当计算出的频谱通量的值越小时，说明音乐信号的短时频谱在局部的变化越平稳；反之，当计算出的频谱通量的值越大时，说明音乐信号的短时频谱在局部变化越激烈。

(4)频谱滚降点(Spectral Roll off Point)

频谱滚降点也称频谱能量值或者频谱衰减值,是指频谱总能量达到规定百分值(例如为95％)时对应的截止频率，可以用来表示频谱的形状。计算公式如下：

其中，N为信号总帧数，t对应的频率为频谱滚降点。

(5)梅尔倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)

由于人类的耳朵对于声音的感知能力与物理频率并不是线性关系，于是提出Mel频率来模拟人类听觉的感知能力。Mel频率与物理频率的转换关系如公式如下：

因此，通过以人耳的听觉特性为原理设计的听觉前端滤波器模型，能够提取出更为符合人类听觉能力的MFCC特征参数。该特征作为一种效果极佳的音频特征，被广泛应用于语音识别领域中，参加图2.1，MFCC提取过程包括：

1)为了滤除低频信号的干扰，首先对音频信号进行预处理。然后将处理后的信号进行分帧加窗操作，得到一帧一帧的平稳短时信号。

2)对每一帧的短时平稳信号进行快速傅立叶变换(FFT)，可以得到信号的频谱。

3)将信号的频谱通过Mel滤波器组，按Mel频率划分成不同的子带信号。

4)将子带信号取对数能量，并对得到的对数能量进行离散余弦变换(DCT)可以得出倒谱系数，即MFCC静态特征。

5)将4)得到的Mel倒谱系数进行差分运算，可以得到其差分参数，即MFCC动态特征。由静态特征和动态特征组合成完整的MFCC参数。

(6)感知线性预测倒谱系数(Perceptual Liner Predictive CepstralCoefficients，PLPCC)

感知线性预测分析技术基于临界带谱分析、等响度曲线和信号强度-响度转换等心里物理学的概念，再利用自回归(AR)模型求出线性预测系数，进而得到倒谱系数。PLPCC的提取充分考虑了临界频带和耳蜗的分频特性，在语音识别上有很好的性能，参加图2.2，PLPCC提取过程包括：

1)对信号进行采样、量化、加窗分帧等预处理。

2)将预处理后的信号做快速傅立叶变换，并计算短时功率谱。

3)根据公式(13)将信号的功率谱转换到理论上更符合人耳感知特点的Bark域(Bark域是模拟耳蜗感知能力的非线性频率尺度)。

Ω(ω)＝6ln{ω/1200π+[(ω/1200π)²+1]^0.5} (13)

其中，ω代表角频率，Ω代表Bark域的频率。

4)将转换后的功率谱再与模拟临界带曲线函数Ψ(Ω)进行卷积得到临界带功率谱。模拟临界带曲线函数与听觉滤波器形状类似，其定义方法如下公式所示。

5)利用等响度曲线E(ω)对θ[Ω(ω)]进行预加重处理。经过处理后的信号，能够更好的模拟人耳对声音的中高频部分敏感的特性，预加重的公式为：

Γ[Ω(ω)]＝E(ω)θ[Ω(ω)] (15)

其中，等响度曲线的计算公式为：

根据公式(17)，将声音的强度和人耳感受的响度之间的关系进行进一步非线性模拟。

Φ(Ω)＝Γ(Ω)^0.33 (17)

6)对Φ(Ω)做离散傅里叶逆变换，再通过自回归模型计算线性预测系数，最终对系数求出其倒谱系数。

节奏特征提取包括：

节奏提取的方法是以5-10s的时间窗为基本单位，将时间窗内的音乐信号波形转化为节奏强度曲线，根据强度曲线提取出反映节奏强度、节奏规律性以及节奏速度等节奏特性的可量化计算的参量数值。

敲击强度曲线(Onset Curve)的提取过程如图2.3所示。首先，将频谱根据八度音程的间隔，划分为带宽呈指数叠加的若干个子带。根据划分的情况，设计并实现出与若干子带相对应的带通滤波器，由这些滤波器组成了带通滤波器组。音乐信号通过滤波器组后，会被划分成若干子带，对每个子带进行如下操作：

1)使用具有低通特性的升余弦窗，将每一个子带信号与余弦窗进行卷积。卷积后得到了波形的包络，这样去除了波形里的毛刺；

2)将上一步得到振幅包络曲线与高斯内核的Canny算子进行卷积。卷积运算可以得到波形包络的差分曲线；

3)将差分曲线通过半波整流处理，处理后得到整流差分曲线；

4)将信号的所有子带分别得到的整流差分曲线进行求和运算，最终可以得到信号的敲击强度曲线。

在敲击强度曲线OC(i)(1≦i≦L，L是敲击强调曲线的长度)中，曲线的峰值对应的时间位置是音乐信号中能量急剧上升的位置。将敲击强度曲线OC(i)的自相关函数定义为函数AOC(i)，当敲击点周期以及其整数倍位置的自相关函数会出现峰值点时，代表了音乐信号中有敲击点的周期性存在。其中，音乐信号的敲击周期性的强弱程度可以通过自相关函数在峰值点处的强度来表示。

(1)节奏强度(Rhythm Strength)

节奏强度是对敲击强度曲线中全部采样点进行均值运算，计算公式如下：

敲击点处的能量变化强度可以通过节奏强度来表示，当节奏强度越大时敲击点的感受越明显，反之，当节奏强度越小时敲击点感受越不明显，即音乐越平和。

(2)节奏规律性(Rhythm Regularity)

节奏规律性指的是敲击点周期出现的规律性，当敲击点的周期性越强时人感受到的节奏感越强。节奏规律性由自相关峰值平均强度(Auto-correlation Peak)和自相关峰值平均对比度(Auto-correlation Contrast)两个参数联合体现。

自相关峰值平均强度是对敲击强度的自相关曲线的全部前K个峰值，计算其平均强度(一般取K＝5)，计算方式公式如下：

其中，ACPeak(k)表示了敲击强度自相关曲线AOC(i)在去掉原点处峰值后，第k个峰值的强度。

自相关峰值平均对比度是指在敲击强度自相关曲线中，对曲线的峰值点和其邻近谷值点(自相关曲线中相邻两个峰值之间的局部最小值)的强度比率进行均值运算，计算公式如下：

其中，ACValley(k)定义为敲击强度自相关曲线AOC(i)中与第k个峰值和峰值k相对应的谷值处的强度。

(3)节奏速度(Tempo)

节奏速度指音乐中敲击点出现的时间间隔。当音乐的敲击点出现的频率越高时说明了音乐的节奏速度越激烈，反之，当音乐的敲击点出现的频率越低时说明了音乐的节奏速度越平和。节奏速度由敲击频率(Onset Frequency)和敲击点基本周期(Onset Period)两个参数体现。

敲击频率通过敲击强度曲线的峰值总数与敲击点总间隔(第一个敲击点和最后一个敲击点之间的时间差)的比值来表示。敲击点基本周期即音乐中敲击点位置的最大公约数，将峰值时间位置按一定粒度等间隔采样，遍历所有采样点，然后近似得到最大公约数，计算公式如下：

其中，Tpeak(i)为敲击强度曲线中第i个峰值的时间位置，Tsampling(n)为采样点，N为峰值总数，round(*)为四舍五入运算。

可以理解的是，不同的音乐特征组合，产生的情感分类准确性的影响力不同。

例如，音色特征为根据MFCC、频谱质心以及短时过零率的而计算出的均值和标准差等82维统计学特征；旋律特征为根据Chromagram以及CENS(Chroma特征的衍生特征)而计算出的均值和标准差等48维统计学特征；节奏特征为根据节奏速度而计算出的均值和标准差等统计学特征。对音乐分别截取开始片段(0-30s段和30-60s段)和副歌片段(30s)，然后提取不同的音乐特征，根据不同的组合方式进行情感分类测试。计算每种组合方式各自的情感分类正确率，实验结果如表2所示。

表2不同特征组合的情感分类结果

当同时使用三类特征(即旋律特征、音色特征以及节奏特征)作为音乐特征时，其情感的分类效果最好。

另外，根据实验结果显示，将开始0-30、30-60s以及副歌片段30s的情感分类效果的对比副歌片段对于音乐情感的表达能力优于歌曲的开始片段。

作为本发明可选的一种实现方式，对副歌部分进行特征提取，包括：

使用LibROSA工具对副歌部分进行特征提取。

LibROSA是一款python的音频处理工具包，主要用于音频分析与处理。可以完成常见时域的信号处理、特征提取以及声谱图绘制等。LibROSA拥有不错的运行速度，且拥有良好的的可移植性。该工具包在特征提取等方面的功能也相对比较强大，且配备了完善的使用文档，有良好的操作性。LibROSA提取了包括短时过零率、MFCC以及节奏等在内的音乐特征。选取提取的音乐特征的均值特征和标准差特征作为其统计学特征，用于音乐情感分类模型训练与音乐情感分类预测。

本实施例中，通过使用LibROSA工具对副歌部分进行特征提取，提高了副歌提取效率；另外，通过对不同类型的特征进行组合可以提高预测结果准确性。

如图3所示，本实施例提供的一种音乐情感分类方法，包括：

提取音乐的副歌部分，包括：使用检测自相似矩阵的方法提取音乐的副歌部分，具体步骤包括：

S31：提取切分的片段的Chroma特征和MFCC特征；

S32：根据Chroma特征计算增强矩阵；

S33：根据MFCC特征计算自相似矩阵；

S34：将增强矩阵与自相似矩阵相加，得到特征自相似矩阵；

S35：根据特征自相似矩阵提取音乐的副歌部分。

副歌作为乐曲中最具识别力的音乐片段，能够烘托出整首歌曲的情感，因此通过对歌曲的副歌检测，可以更快的完成对音乐的情感预测。

副歌片段一般会重复多次出现在歌曲，并且包含了许多重复的旋律。基于副歌的旋律重复性的特点，利用自相似矩阵，通过检测歌曲中的重复片段来检测副歌。

首先，检测出音乐信号的节奏点，并根据节奏点在音乐中的时间组成对应时间点序列(用来提取音乐的节奏时间)。然后根据提取的节奏点时间将信号分帧处理，同时对每一帧音乐信号都进行加汉明窗操作。对于处理后的每一帧信号，分别提取每一帧信号的Chroma特征和MFCC特征。再由所有帧提取出的特征，组成对应的Chroma特征矩阵和MFCC特征矩阵。图3.1为MFCC特征矩阵和Chroma特征矩阵图，其中矩阵的行代表了时间帧序列，列代表了音乐的特征维度。

自相似矩阵的每个元素即音乐信号中各帧信号互相之间的特征向量的距离，计算公式如下：

其中，代表第i帧的特征向量，代表第j帧的特征向量，D(i,j)为距离函数，代表特征矩阵上两帧向量之间的欧式距离。通过公式(22)分别得到MFCC特征对应的自相似矩阵FMFCC和Chroma特征对应的自相似矩阵FChroma，自相似矩阵能够体现了音乐信号帧与帧之间的特征相似性。

由于副歌的重复特性，所以其片段拥有较高的相似度，副歌片段对应在特征自相似矩阵位置上的数值会偏小，因此形成了多条与主对角线平行的条纹。在理想状态下，特征自相似矩阵FChroma会出现多条与主对角线平行的条纹，但受旋律变化等因素干扰，许多条纹会被噪声吞没，并且还会出现多条与副歌位置信息无关的条纹。为了减少噪声对条纹的干扰，需要对矩阵FChroma进行增强处理。

增强的方法是以矩阵FChroma上的每一个位置为中心，分别与这个中心5×5区域范围内的中心点的六个方向(正左方、左上方、正上方、、正右方、右下方以及正下方)在自相似矩阵FChroma的元素进行均值计算。当元素的均值最小值出现在对角线方向时，将此位置上的元素值加上均值最小值以达到增强的效果；当元素的均值最小值出现在水平方向或竖直方向时，则判定该位置为噪声，将此位置上的元素值加上均值的最大值以滤除。经过增强后的FChroma，其对角线条纹与重复片段的相关性会增强。自相似矩阵F Chroma增强前后的对比效果如图3.2所示。

将增强后的矩阵FChroma与矩阵FMFCC相加，得到特征自相似矩阵F。

F＝a·F_Chroma+b·F_MFCC (23)

其中a与b分别表示为FChroma和FMFCC的权重系数(权重系数例如为1)。

作为本发明可选的一种实现方式，所述根据所述特征自相似矩阵提取所述音乐的副歌部分，包括：

根据特征自相似矩阵查询重复片段；

对重复片段进行筛选，得到音乐的副歌部分。

作为本发明可选的一种实现方式，所述根据特征自相似矩阵查询重复片段，包括：

使用所述特征自相似矩阵计算对角线条纹集合；

合并后的特征自相似矩阵F存在多条与对角线平行的条纹，利用二值化矩阵方法通过检测矩阵F中的对角线条纹可以检测出一些重复片段作为歌曲的候选副歌片段。由于重复片段所对应的特征向量之间的欧式距离较小，因此通过对矩阵F的对角线上较小值的检测，可以粗略估计重复片段(自相似矩阵F沿对角线对称的方阵，因此只需估计上三角或下三角矩阵即可)。对矩阵F中所有对角线条纹上的元素计算均值，可以得出矩阵F的所有对角线条纹的均值曲线，通过这些曲线可以检测出重复片段，计算公式如下：

其中，k代表对角线条纹的编号(从主对角线依次到三角位置)，M代表歌曲的音乐节拍总数。

为了减小噪声的干扰，这里使用一个长度为s的窗win，将计算出的每一条对角线条纹与窗win相互重叠部分的均值的最小值作为此对角线条纹的均值F(k)。

当对角线均值较小时，其对角线条纹上包含重复片段位置信息的几率越大，因此对全部的对角线条纹均值进行筛选。虽然特征自相似矩阵F的主对角线附近元素均值几乎为零，但主对角线并不在检测副歌的范畴之内，因此需要滤除对角线条纹均值中含有的的少量线性偏移噪声。滤除线性偏移噪声的方法是，使用FIR滤波器(滤波器阶数为50)对对角线条纹均值进行平滑滤波，计算公式如下所示：

原始的对角线条纹均值F(k)与平滑滤波处理后的对角线均值H(k)之间的差，即滤除了线性偏移噪声的对角线条纹均值。当对角线均值函数取极小值时，其对应的对角线条纹包含了重复片段的位置。将所有极小值对应的矩阵坐标位置组成序列{Sn}，其中n代表对角线的索引号，Sn为对角线均值的对应位置的数值。

序列{Sn}包含了全部含有重复片段的候选对角线条纹片段，还需要继续剔除掉{Sn}中不需要的序列。首先，将序列{Sn}内的元素进行归一化，然后将归一化处理后的数值映射到[0，255]的区间内从而得到新序列{Tn}，归一化公式如下：

将经过映射后的序列{Tn}，根据Ostu提出的方法设置阈值对{Sn}进行筛选。将序列{Tn}中大于阈值的点在{Sn}中对应的元素剔除，从而得到新序列{S’n}。最后，由{S’n}得到最终的候选副歌对角线条纹集合Y，其表示公式如下所示：

Y_a(c)＝S'(i+c,c)，c＝1,2,...,M-a (27)

根据对角线条纹集合检测出重复条纹片段作为重复片段。

经过阈值筛选得到的对角线条纹集合Y只是去除了均值较大的条纹片段，仍需要被继续筛选。将集合Y中的所有元素按从小到大的顺序拼接成一个数组，选取前五分之一的数据，并获取它们对应在自相似矩阵F上的坐标位置信息。然后新建一个大小与特征自相似矩阵F一样的零矩阵F_B，用此前选取的数据用以填充F_B。根据选取数据对应在矩阵F中的坐标位置信息，在零矩阵F_B的相同位置上将元素置为1，这样映射得到的二值矩阵直观表示了重复片段的位置信息。

为了避免矩阵F_B中值为1的元素分布较散而导致的坐标位置信息模糊，需要对矩阵F_B进行增强处理。增强的方法是对于矩阵中的元素F_B(i,j)，当元素值为1时，检测从F_B(i,j)至F_B(i+25,j+25)沿线对角线上的元素，如果超过沿线上超过65％的元素值都为1，并且F_B(i+23,j+23)或F_B(i+23,j+24)的元素值为1，则整条对角线上元素的值全部置为1。

通过增强处理得到新的二值矩阵F_Be，该矩阵上值为1的元素对应的位置代表了副歌片段。反之，值为0的对应位置则不代表。图3.3为映射并增强处理后的二值矩阵F_Be图。

将矩阵F_Be映射并处理完之后，根据副歌的一些乐理特性对矩阵F_Be表达的信息进行再次筛选。根据一般流行音乐的节奏时间长度约为0.5s左右，推测一段副歌的最短长度约为10s。因此，为了过滤掉一些不是副歌的条纹片段，当矩阵F_Be中的对角线元素连续为1的长度小于2s时，则此片段全部置0。

经过以上一系列处理之后，矩阵F_Be中仍含有部分邻近片段的重叠位置信息需要处理。邻近片段意思为多条条纹包含的位置信息有重复部分，需要整合处理掉冗余部分。对于一个起始坐标F_Be(is,js)，终止坐标F_Be(ie,je)的条纹，使用四元组px＝(is,js,ie,je)其长度如下公式所示：

Δ(p_x)＝j_e-j_s+1 (28)

对于任意两个条纹p₁和p₂，当且仅当满足如下公式所示的四个条件时：

两个条纹p₁和p₂为邻近片段。根据以上条件，依次计算每个条纹的邻近片段个数，仅保留邻近片段个数多于3个的条纹。对于数量小于3个的条纹，将其矩阵F_Be中对应位置的元素值置为0。经过邻近片段计算筛选后，通过矩阵F_Be条纹信息而得到的新候选重复条纹片段列表中的片段都符合了副歌的重复性特点。

作为本发明可选的一种实现方式，所述对重复片段进行筛选，包括：

根据多个指标对重复片段进行评分，所述指标包括：副歌的时序位置、副歌的高能量特点、副歌片段的重复特性和副歌片段位置；

(1)片段的时序位置性

片段的时序位置性是指片段在本歌曲中出现的相对位置是否与一般歌曲副歌的出现位置相一致。通常整首歌曲长度的四分之一处或四分之三处是音乐的副歌出现频繁的位置，根据这特点可以估计片段与副歌时间在时序位置上的接近程度。计算公式如下：

其中，M表示歌曲节奏总数，Score1体现了片段p_i与歌曲四分之一处时间点的位置接近度，Score₂体现了片段p_i与歌曲四分之三处时间点的位置接近度。这两项评分在副歌位置上具有很高的相关性，因此占有较高的权重。

(2)片段的对角线位置关系

片段的对角线位置是指当前片段与其他片段的在矩阵F_Be上的对角线相对位置关系。对于一个片段，根据对角线的关系条件可以找到另外两个片段，组成一个包含三元对角线的片段组Dia_z＝[p_a,p_b,p_c]z＝1,2,...,M，用以体现相对位置关系。三元组的规定条件为：根据p_a(3)<p_b(1)找到位置在p_a下方的某一条对角线pb，同时该对角线p_b满足p_a(4)>p_b(2)，即对角线p_a和p_b在列方向上有重叠；根据p_b(4)>p_c(2)找到位置在pb右方的某一条对角线p_c，同时该对角线p_c满足p_b(3)>p_c(1)，即对角线p_b和p_c在行方向上有重叠。

对于这些三元对角线片段组Dia_z，使用如下公式的四个评价指标来体现出三元组中对角线片段的相互接近程度：

其中，δ₁(z)体现了p_a与p_b在结束时的位置接近程度；δ₂(z)体现了p_a与p_b是不是同一条直线；δ₃(z)体现了p_b与p_c的整体长度差异；δ₄(z)体现了p_b与p_c的在列方向上的位置关系性。

将四个指标计算出来的数值求取平均值作为这个三元对角线片段组Dia_z评价分数，且由p_b单独代表三元组使用这个分数作为评估分数。对于任意一个片段p_i，使用其所有三元组中的最大值作为Score₃体现其对角线位置关系的评分。当片段p_i中没有在任何一个三元组中出现最大值时，Score₃为0。

(3)片段的平均能量

通常根据能量可以判断是否为歌曲的副歌部分，因为副歌部分能量要普遍高于其他部分的能量。因此，计算片段的平均能量可以作为判断该片段是否为副歌片段的依据，计算公式如下：

Score₄(p_i)＝E_i-E_average (34)

其中，E_i代表片段p_i的平均能量，E_average代表了整首歌曲的平均能量。

(4)片段的平均距离

由于歌曲的副歌部分具有极高的相似性，因此其对应的自相似矩阵F上的数值一般小于其他部分，通过数值可以筛选掉数值较大的部分，计算公式如下：

其中，Φ_F为矩阵F上所有元素值的平均值，γ_i为片段p_i在矩阵上对应数值的中位数。

(5)片段的重复次数

副歌片段因为其重复性的特点，因此会有多条相邻片段与其相似。这里，当且仅当满足如下公式所示条件时，判断片段p_x与p_y为一对相邻片段：

计算每一个片段p_i的相邻片段的个数n(i)，并对所以片段统计出来的个数值进行归一化处理，作为评价片段重复次数的标准，计算公式如下：

通过以上五项指标计算出六个分数后，分别按照不同的权重，计算每个片段的最终分数S。将分数S最高的片段选取为含有副歌位置信息的片段，分数公式如下：

作为本发明可选的一种实现方式，所述方法还包括：确定所述副歌部分的起始位置，包括：

根据时间顺序确定所述副歌部分多个节拍点；

设置二维滤波器；

根据所述第一参数和第二参数确定副歌的起始位置。

经过筛选得到的最终片段包含了副歌的位置信息，但是这个位置信息需要经过滤波器滤波来校正以得到准确的副歌位置信息。由于副歌的持续时间约为8-16个小节，因此设置两个二维滤波器，分别对应N×N节拍以及2N×2N节拍(N取32和48，滤波时选择适当的N值进行滤波)。对于N×N节拍的滤波器，分别将(0,0)、(N/2,0)以及(0,N/2)三个点的对角线沿线数值置为0，其余位置为1。2N×2N节拍的滤波器与之类似，分别对(0,0)、(N,0)以及(0,N)三个点的对角线沿线进行相同处理。

对于最终片段的所有节拍，利用构造好的滤波器，滤波其在自相似矩阵F的对应位置。当点(i,j)在滤波器的过滤范围内，计算特征自相似矩阵F在这个滤波范围内所有对角线的均值，记为α(i,j,N_η)；计算自相似矩阵F在这个滤波范围内主对角线的均值，记为β(i,j,N_η)；计算自相似矩阵F在这个滤波范围内除对角线外其他位置的均值，记为γ(i,j,N_η)。根据如下公式计算第一参数μ_α和第二参数μ_β。

因此，当比率μ_α和μ_β的数值较小时，表示就重复性而言对角线代表的部分要高于周围其他部分。分别定义μ_α’和μ_β’为α(i,j,N_η)和β(i,j,N_η)的最小值，那么以这两个最小值为中心的对角线区域对应的部分，其重复性一般高于周围其他的部分。

当μ_α’和μ_β’取得极其小时，代表此片段为周围所有区域内重复性最高的，因此直接选用片段对应的起始点作为最终副歌的起始位置。反之，需要根据μ_α和μ_β对片段的起始位置进行适当的调整。当μ_α’(N)>μ_α’(2N)时，则代表了用N×N节拍的滤波器拟合出来的副歌效果不如2N×2N节拍的滤波器。当2N小于检测到片段的长度时，则代表副歌片段的起始位置应当为能够使μβ取最小值时对应的点所代表的位置，且副歌的长度为2N个节拍。当N大于所检测出片段的长度时，则代表副歌片段的起始位置应当为μα能够取到最小值时对应的点所代表的位置，且副歌的长度为N个节拍。当1.5N比N以及2N都更接近检测片段的长度，并且μ_α’(2N)>μ_α’(N)以及μ_β’(2N)>μ_β’(N)时，则代表副歌片段的起始位置应为μ_α和μ_β能够取到最小值对应的点所代表的位置。

为更快检测出副歌的起始位置，使用一维的N节拍的滤波器对片段进行相同的操作，计算滤波区域的范围内对角线的均值θ以及比值μ_θ。当μ_θ<0.7且N节拍比2N节拍更能接近检测出的片段长度时，则副歌片段的起始位置应当为μ_θ能够取到最小值时对应的点所代表的位置；反之，选用检测片段的起始位置作为副歌的位置。

本实施例中，通过利用自相似矩阵，检测歌曲中的重复片段来检测副歌。自相似矩阵算法可以提高检测效率和检测正确性。

如图4所示，本实施例提供的一种音乐情感分类方法，还包括：

S41：对重复片段进行评估；

S42：对评估结果进行排序；

S43：预设筛选阈值，保留评估分数大于所述筛选阈值的重复片段。

由于有些音乐包含多个副歌片段，为使所有副歌片段都被检测出，利用筛选阈值，对每对片段组的评估所得的分数S进行筛选，将分数低于阈值的片段剔除。由于评估分数时考虑到音乐的乐理知识，因此评估得分低的片段，代表了此片段与副歌的相关性较差，应当被筛除掉。经过对评估得分的阈值筛选后，保留了与副歌相关性较高的几组片段，筛选的流程图如图4.1所示。

经过阈值筛选之后，剩下的片段组中仍然可能存在冗余片段。因此根据每个片段组的评估分数，按从大到小的顺序排列，选取分数最高的几组数据(例如选择分数最高的五组)作为副歌片段。

S44：在时间轴上叠加保留下的重复片段，如图4.2所示；

S45：截取所有重复片段的重叠部分作为副歌段落，所述重叠部分的开始为副歌的起点，所述重叠部分的结尾为副歌的终点。

根据其包含的位置信息，求出音乐的多个副歌片段。经过叠加操作，可以使更多的包含副歌位置信息的片段被选用不仅可以校正副歌长度，还可以检测了更多的有用信息。

通过实验可验证叠加方法提高了副歌检测的准确率，分别引入两个评价标准用以评价副歌检测的准确率，分别是检测正确率P_total和自身正检率P_self，其计算公式分别如下公式所示。

其中，l_c表示检测出的片段里正确的长度，即被检测出的副歌片段与人工标注片段的时间位置一致的时长；l_m表示人工标注的音乐副歌时长；l_d表示检测出的全部副歌片段的时长。检测正确率P_total体现了检测出的副歌的准确程度，即检出片段中有多少时长与标注的情况一致；自身误检率P_self体现了自身检测的正确性，也从侧面体现出的副歌中无关片段的误检程度，即检出片段中有多少时长不是标注的副歌部分。

将自相似检测法与叠加方法使用相同的数据集进行副歌提取检验，将所有的检测结果统计在一起，计算得到两种算法各自的P_total和P_self，实验结果如表3所示。表3的结果为对于一首歌中检测相同副歌时的准确性对比。通过表3的结果可以得出，无论是检测的准确程度还是自身的误检程度，叠加方法优于自相似检测法。尤其是检测正确率的提高十分明显。通过多个片段的检测位置信息综合与互相校正，能使歌曲的副歌位置信息被定位的更加精确。

表3副歌提取算法结果比较

同时，本文还对全部200首音乐的副歌检测情况做了统计，如表4所示(这里是对歌曲的所有副歌检测情况作出了统计)。综合表3和表4的结果，可以发现对于多段副歌的检测，在正确率上并没有发生大幅度的下滑的情况下，自身的检测正确性也保持稳定，且两项指标都比自相似检测法的要好。因此，叠加方法在应用中性能保持稳定。

表4叠加方法对完整副歌的提取结果

P<sub>total</sub>(％)	49.92％
		P<sub>self</sub>(％)	54.76％

并且叠加方法对批量音乐的副歌提取的正确率基本稳定在50％以上，对批量音乐的副歌提取的自身检测正确率基本稳定在55％以上，具有较好的稳定性。

通过叠加方法对自相似检测法进行了优化，增强了自相似检测法对于多副歌音乐的检测适用性。优化后的自相似检测法可以将音乐的中多个副歌段落检测出。

本实施例中，通过副歌检测算法，检测出音乐的副歌位置。通过副歌的位置，可以推测出音乐的结构，同时能确定出音乐中主要的部分，并且，通过叠加方法对自相似检测法进行了优化，提升了对同一段副歌检测的精准度，克服了不能检测出更多段副歌的应用局限性，提高了方法的适用性。

如图5所示，本实施例提供的一种音乐情感分类方法，包括：

作为本发明可选的一种实现方式，所述建立情感分类模型，包括：

S51：建立分类超平面；

S52：使用线性支持向量机和非线性支持向量机优化所述最优分类超平面，得到情感分类模型。

支持向量机是一种二分类的模型，主要是在样本线性可分的前提下，对数据进行分析。当训练集的数据呈现非线性不可分时，分类模型则会通过非线性的方式将低维的特征空间映射成高维特征空间，再在高维特征空间中进行样本线性可分。同时基于结构风险最小化理论，寻找出一个最优的超平面。该超平面能够将两种类别的数据完美分隔，同时这个间隔还是两个类别的最大间隔。

支持向量机分类的实质，即找到一个能将特征向量集(x_i,y_i),i＝1,2,...,n,x_i∈Rm,按照标签y_i∈{-1,1}的标注情况完全区分开来的超平面H₀。

能完成图所示的完全分类的超平面集合定义公式如下(其中“·”为点积运算)：

其中，能将两类特征向量完全分开的超平面H₀满足如下公式所示的两个条件：

且特征向量(x_i,y_i)到超平面H₀的距离如下公式所示。

求出与超平面H₀平行且分别与正负标签的特征向量相切的超平面H₁和H₂(超平面H₁和超平面H₂之间没有特征向量)。

而超平面H₁和H₂的正中间有一个可以均匀的将特征向量分开的超平面H₀，计算公式如下所示。此平面即最优的分类超平面。

其中，超平面H₁与超平面H₂之间的间隔距离Δ被定义作最优分类超平面H₀的分类间隔，而H₁和H₂即最优分类超平面H₀的间隔超平面或间隔边界。

当特征向量集(x_i,y_i),i＝1,2,...,n,x_i∈R_m,在特征空间内是线性可分的情况时，寻找最优分类超平面即在满足公式(43)的条件下，寻求最优分类超平面的分类间隔Δ。因此，上述的寻求最优超平面可以被演化成为一种线性约束下的二次规划问题：

通过这个二次规划问题，可以唯一确定出拥有最大间隔的超平面。它的Lagrange函数为：

其中，α_i>0是每个特征向量的对应Lagrange算子。对Lagrange函数L(ω,b,a)求其ω以及b的极小值，并由b和ω极值条件分别推出如下公式：

将公式(49)代入Lagrange函数L(ω,b,a)中，同时考虑到Wolfe的对偶性质，得出公式的对偶公式，且满足如下公式所示条件：

因此，此时的对偶问题也是一种线性约束条件下的二次优化问题，也就存在着唯一的最优解α*。根据Karush-Kuhn-Tucker(KKT)条件，这个唯一的最优解α*必须满足如下公式：

α^*(y_i(ω^*·x_i+b^*)-1)＝0,i＝1,2,...,n (51)

因此，多数的特征向量x_i满足α*＝0，只有少数特征向量满足公式，且其Lagrange算子α*>0，即支持向量。因此，得出了特征向量的最优分类函数，计算公式如下：

其中，m表示只对支持向量，即Lagrange算子α*>0对应的特征向量进行求和计算。

当向量是线性不可分时，区分正负向量的分类间隔Δ取正值的超平面不存在，因此引入适当的松弛公式的约束条件来寻找间隔区分向量。这里的约束条件是引入松弛变量ξ_i≥0以及惩罚因子C，将非线性情况下寻找能够最大限度将向量分开的广义最优分类超平面的问题演化为如下二次规划问题：

其中，惩罚因子C>0。分类器的经验风险以及复杂度通过惩罚因子来控制，它实现了算法复杂度与错分比例之间的权衡。

当面临线性不可分情况时，会遇到最大间隔超曲面难以求解的问题。因此，为了应对该问题，需要将特征向量xi的空间线性映射到高维空间H(一般为Hibert空间)。这就将分类的实现转化为在高维特征空间中寻找一个线性最大间隔超平面。

对原始优化问题(P)以及对偶优化问题(D)分别如下公式所描述：

将对偶问题(D)求出最优解α*后，则判别函数为：

其中，K(x_i,x)表示为核函数(Kernel)，不同的核函数导致最优分类面以不同的形式存在特征空间中。目前线性核函数、径向基(RBF)核函数、p阶多项式核函数以及多层感知器核函数等都是主要使用的核函数。使用分类能力较好的RBF核函数作为支持向量机的核函数。

本实施例中，利用支持向量机实现音乐情感分类，另外，通过使用线性支持向量机和非线性支持向量机对分类超平面进行优化，提升情感分类模型的适用性。

如图6所示，本实施例提供的一种音乐情感分类方法，包括：

S61：获取训练集和测试集；

S62：对训练集和测试集中的音乐进行片段切分；

S63：提取所述切分后片段的音乐特征，根据所述音乐特征计算音乐的特征向量；

S64：将训练集的特征向量分类训练出支持向量机分类模型；

S65：使用测试集的特征向量对支持向量机分类模型进行测试，得到情感分类模型。

训练集包括对每一分类的音乐进行筛选和标注后1000首音乐。

将1000首音乐进行格式转换，转换成采样频率为44100Hz，码率为128kbps的单声道MP3格式的音乐文件。转换之后根据情感的分类情况，对等地挑选出一共600首完整的音乐文件，每一类情感各有150首。

在音乐进行片段切分时分别选择音乐开始的0-30s、30-60s以及副歌中的30s作为乐段进行训练和分类。其中对于副歌30s的截取，首先是对完整音乐中提取出来的副歌部分，计算该部分音乐信号每一帧的短时平均幅度，然后选择整个副歌部分中短时平均幅度之和最大的连续30s片段作为副歌的高能部分。

在训练支持向量机模型时，分别使用音乐开始的0-30s、30-60s以及副歌30s的乐段进行训练型，分别评估三种训练方式训练出的模型的分类能力。在测试时，分别计算三种截取方式的情感分类结果。表5表示了利用副歌30s片段训练模型并进行分类的结果，表6分别表示了三种训练方式得到的支持向量机模型对副歌30s片段情感分类的结果。

表5副歌30s片段训练模型的情感分类结果

表6三种训练模型的情感分类结果

从表5中展示的实验结果可以得知，相比于一首歌的开始部分，副歌更能引起听者的情感共鸣，使用一首音乐的副歌做情感分类要比开始部分效果更好。如表6所示，表格中行代表使用相同截取片段训练的模型对不同截取片段进行分类能力对比，表格中列代表使用不同截取片段训练的模型对相同截取片段进行分类能力对比。通过表格展示的分类正确率表明，使用副歌片段训练出的模型其分类性能要好于使用开始片段训练出的模型。

需要说明的是，选取的音乐片段的长度也会影响音乐的情感分类效果。截取片段过长会可能会导致引入其他情感信息，而过短可能会造成情感信息的损失而导致分类准确性降低。因此，本文基于副歌段落预测音乐情感的研究基础上，针对截取的副歌长度多音乐情感分类的影响再次进行了实验，实验结果表明，在使用三种组合音乐特征的前提下，25s的副歌段落截取长度分类正确率最高。证明25s的副歌片段最能够体现音乐的情感信息。

本实施例中，通过实验结果表明截取副歌片段来进行音乐情感分类的效果比截取开始片段要好，并且，对于副歌片段而言，截取25s的长度取得较好分类效果。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

需要说明的是，本发明不局限于上述最佳实施方式，本领域技术人员在本发明的启示下都可得出其他各种形式的产品，但不论在其形状或结构上作任何变化，凡是具有与本申请相同或相近似的技术方案，均落在本发明的保护范围之内。

Claims

1.一种音乐情感分类方法，其特征在于，包括：

获取待情感分类的音乐；

对所述音乐的结构进行片段切分；

对所述切分的片段进行特征提取；

2.根据权利要求1所述的音乐情感分类方法，其特征在于，切分的片段为音乐的副歌部分，对所述切分的片段进行特征提取，包括：对所述副歌部分进行特征提取。

3.根据权利要求2所述的音乐情感分类方法，其特征在于，所述对所述副歌部分进行特征提取，包括：

使用LibROSA工具对所述副歌部分进行特征提取。

4.根据权利要求1所述的音乐情感分类方法，其特征在于，还包括：提取音乐的副歌部分，包括：使用检测自相似矩阵的方法提取音乐的副歌部分，具体步骤包括：

提取切分的片段的Chroma特征和MFCC特征；

根据所述Chroma特征计算增强矩阵；

根据所述MFCC特征计算自相似矩阵；

将所述增强矩阵与自相似矩阵相加，得到特征自相似矩阵；

根据所述特征自相似矩阵提取所述音乐的副歌部分。

5.根据权利要求4所述的音乐情感分类方法，其特征在于，所述根据所述特征自相似矩阵提取所述音乐的副歌部分，包括：

根据所述特征自相似矩阵查询重复片段；

对所述重复片段进行筛选，得到音乐的副歌部分。

6.根据权利要求5所述的音乐情感分类方法，其特征在于，所述根据所述特征自相似矩阵查询重复片段，包括：

使用所述特征自相似矩阵计算对角线条纹集合；

7.根据权利要求5所述的音乐情感分类方法，其特征在于，所述对所述重复片段进行筛选，包括：

8.根据权利要求5所述的音乐情感分类方法，其特征在于，还包括：确定所述副歌部分的起始位置，包括：

根据时间顺序确定所述副歌部分多个节拍点；

设置二维滤波器；

根据所述第一参数和第二参数确定副歌的起始位置。

9.根据权利要求5所述的音乐情感分类方法，其特征在于，还包括：

对所述重复片段进行评估；

对评估结果进行排序；

在时间轴上叠加保留下的所述重复片段；

10.根据权利要求1所述的音乐情感分类方法，其特征在于，所述建立情感分类模型，包括：

建立分类超平面；