CN107578785B

CN107578785B - 基于Gamma分布分析的音乐连续情感特征分析评价方法

Info

Publication number: CN107578785B
Application number: CN201710791753.2A
Authority: CN
Inventors: 李海峰; 马琳; 薄洪健; 丰上; 李洪伟; 刘全胜; 信家男
Original assignee: Harbin Institute of Technology; Shenzhen Academy of Aerospace Technology
Current assignee: Harbin Institute of Technology; Shenzhen Academy of Aerospace Technology
Priority date: 2017-09-05
Filing date: 2017-09-05
Publication date: 2020-08-14
Anticipated expiration: 2037-09-05
Also published as: CN107578785A

Abstract

本发明提供一种基于Gamma分布分析的音乐连续情感特征分析评价方法，首先建立音乐连续情感特征的Gamma分布分析评价方法，通过该方法在时序上找到与情感响应最相似的情感特征。其次，建立基于情感感知矩阵的情感特征分析方法，通过该方法从情感感知能力上对上述特征进行评价，找到感知能力最好的情感特征。最后基于Gamma分布的情感预测方法，实现音乐情感的实时、自动分析。本方法可对音乐情感自动分析，情感标签实时自动预测，为音乐情感的评价和选择提供依据，对人工智能、情绪感知等方面具有推动作用。

Description

基于Gamma分布分析的音乐连续情感特征分析评价方法

技术领域

本发明涉及一种基于Gamma分布分析的音乐连续情感特征分析评价方法。

背景技术

音乐情感自动识别研究已有十几年的历史，但是到目前为止，研究工作还处于相对初级阶段，音乐情感识别准确率还比较低。主要原因有以下两点：(1)缺乏音乐情感有效特征；(2)音乐表达的情感是主观且难以量化的。从本质来说，音乐是一些不同响度，频率和音色的声音的排列组合。音乐以旋律的差别，节奏的快慢，声音的高低强弱，和声的变化，以及音色的不同等方法来表现其情感。因此，如何提取与情感相关的声学特征对音乐情感的自动分析起到至关重要的作用。此外，音乐的时间结构对音乐情感认知来说非常重要。然而，在典型的音乐高层语义，如情感、曲风和相似性等预测建模任务中，时间信息经常被忽略了。在音乐情感计算中，往往特征数量较多，其中不相关、相互依赖的特征容易导致模型复杂、训练所需时间长、推广能力下降等的问题。因此如何剔除不相关或者冗余的特征，从而达到减少特征个数，增强模型泛化能力，提高模型精确度是情感计算中重要的一环。传统音乐情感是凭标签人工打分，而且往往用最终标签来评价整个音乐。这种做法一方面会造成音乐选择或推荐不准确的问题，另一方面也不能够进行实时音乐推荐。

发明内容

基于以上不足之处，本发明提供一种基于Gamma分布分析的音乐连续情感特征分析评价方法，主要解决音乐连续情感特征优化和选择问题，进而提高音乐情感识别率，对音乐情感进行实时评价。

本发明所采用的技术如下：一种基于Gamma分布分析的音乐连续情感特征分析评价方法，具体步骤如下：

步骤一：计算音乐特征和情感标签之间的相关性；

设音乐信号为A_i，1≤i≤N，N为样本个数，在用户听音乐的过程中的Valence和Arousal情感标签为L，其采样率为2Hz，

(1)为了保留时间信息，首先对音乐信号进行加窗、分帧，音乐情感分析长度取窗长w为4秒，帧移为0.5秒；

(2)其次，音频特征提取，设特征F_ij，1≤j≤M，M为特征维数，提取音高、响度等音乐底层特征，以及旋律、节奏等高层语义特征；

(3)计算每一维特征F_ij与打分L的Pearson相关系数，得到Pearson相关系数矩阵R，计算公式如下：

步骤二：基于Gamma分布的特征筛选方法；

由于相关系数是从0到1之间，且分布离1越近表示相关性大，分布离0越近表示相关性小，因此进行两次Gamma分布拟合去掉相关性小的，保留相关性较大的特征，

(1)首先，计算每一维特征在所有样本上相关系数的直方图；

(2)其次，对相关系数直方图进行Gamma分布拟合，在这里特定特征的相关系数为r_i，i＝1，2，...，n，其中n为样本个数，先对相关系数直方图进行Gamma分布拟合，根据Gamma分布的定义，得到概率密度函数拟合公式如下：

其中α为Gamma分布的形状参数，决定Gamma分布的陡峭程度，λ＝1/β为Gamma分布的尺度参数，决定Gamma分布的散布程度；

(3)再对相关系数直方图进行轴对称操作，即

对轴对称后的相关系数直方图进行Gamma分布分析，得到拟合参数

和

(4)根据两次Gamma拟合的参数构造相关性影响因子IF，对所有特征按IF从大到小排序，筛选出前K个最相关特征构成特征子集F_s，s＝1，...，K；

步骤三：建立情感感知概率矩阵EDM

(1)建立特征相似度矩阵FDM

首先对上一步筛选出的K维特征及情感打分进行分帧，取帧长为4秒，帧移为3秒，对情感特征的每一帧和对应的情感打分构建N×N的相似度矩阵FDM，构建方法如下：

设第t帧样本为A₁，A₂，...，A_N，且顺序确定，其特征为F₁，F₂，...，F_K，则：

FDM_pg＝dist(F_pk，F_qk)，1≤p，q≤N

其中F_ik表示第i个样本的第k维特征的特征向量，

表示X和Y的欧式距离，经过这一步计算，得到K个特征相似度矩阵FDM_i，i＝1，...，K。

同样方法，设第t帧样本对应的打分为L₁，L₂，...，L_K，对打分也求得一个相似度矩阵LDM；

LDM_pg＝dist(L_p，L_q)，1≤p，q≤N

(2)情感感知概率矩阵EDM

为了衡量相应的特征差异，对每一帧的FDM_i和LDM计算矩阵相似度作，计算方法如下：

那么，在T帧中，用每一帧都用如上方法计算特征差异概率，并归一化，就构成了情感感知概率矩阵EDM，计算方法如下：

步骤四：计算情感变化最长路径，构造回归预测模型对维度情感进行预测；

(1)情感最大路径计算方法

在T帧中，用每一帧的特征矩阵与概率矩阵EDM相乘，构成新的情感特征矩阵FDM‘，在情感特征矩阵中，用最大权值路径作为特征向量，求解最大权值路径的问题，转化为求子问题的最优解，使用动态规划算法，记录了已求解过的子问题结果，设Path_i，j是对矩阵的描述，则其状态转移方程写为：

MP_i，j＝max{MP_i-1，j，MP_i，j+1}+MP_i，j

其中MP_i，j表示走到第i行第j列的最大权值，那么MP_i，j的最优解包含子问题MP_i-1，j和MP_i，j+1的最优解，其中MP_0，n-1＝Path_0，n-1，最大的路径权值通过比较底层的分数求得；

(2)基于Lasso回归的音乐连续情感预测方法

首先，在前面特征选择的基础上，设最优特征集为F_k，k＝1，2，...，K，在最优特征集上，分别对Valence和Arousal建立回归预测方程：

Y＝Xβ+μ

其中X为特征集，Y为Valence或Arousal的平均打分，μ为随机误差项；

其次，基于Lasso回归模型，对预测方程进行求解，求得

取得最小时的拟合系数；

在求解拟合系数时，约束条件取最小的λ或SE值，取最小值为约束条件；最后，在最优拟合系数的基础上对新的未知样本经行Valence和Arousal的预测。

本发明的方法能够剔除不相关、冗余的特征，从而达到减少特征个数、减少过拟合、提高模型精确度、减少运行时间的目的，并可对音乐情感自动分析，情感标签实时自动预测，为音乐情感的评价和选择提供依据，对人工智能、情绪感知等方面具有推动作用。

达到的性能指标为：

(1)特征优化个数小于同类方法(≤1000)

(2)对情感的拟合结果高于同类方法(R²≥0.35)

附图说明

图1是基于Gamma分布的特征子集计算步骤图；

图2是基于特征子集的拟合模型计算步骤图；

图3是最佳的拟合系数示意图；

图4是时序特征相关矩阵的计算示意图；

图5是Gamma分布的相关系数直方图分析示意图；

图6是轴对称后的Gamma分布的相关系数直方图分析示意图；

图7是情感感知概率矩阵的建立方法示意图；

图8是Lasso回归模型参数选择示意图。

具体实施方式

下面根据附图距离对本发明做进一步说明：

实施例1

一种基于Gamma分布分析的音乐连续情感特征分析评价方法具体步骤如下：

步骤一：计算音乐特征和情感标签之间的相关性；

(4)为了保留时间信息，首先对音乐信号进行加窗，分帧，音乐情感分析长度取窗长w为4秒，帧移为0.5秒，

(5)其次，音频特征提取，特征F_ij，1≤j≤M，M为特征维数，包括底层特征，音高和响度，以及高层语义特征，旋律和节奏；

(6)计算每一维特征F_ij，1≤j≤M与打分L的Pearson相关系数，得到Pearson相关系数矩阵R，计算公式如下：

步骤二：基于Gamma分布的特征筛选方法

音乐情感计算中，往往特征数量较多。其中不相关、相互依赖的特征容易导致模型复杂、训练所需时间长、推广能力下降等的问题。因此如何剔除不相关或者冗余的特征，从而达到减少特征个数，增强模型泛化能力，提高模型精确度是情感计算中重要的一环。Gamma分布是统计学的一种连续概率函数，在自然界中服从这种分布的现象不少，如地震发生时间、水文数据的模拟等。在上一节的相关系数矩阵R中，矩阵的行为特定音乐A_i，i＝1，...，N的不同特征与情感打分的相关性，而矩阵的列是所有音乐在某一特定特征F_j，j＝1，...，M的相关性。当样本数量N足够大时，其分布符合一定特点。高斯分布、对数分布、Gamma分布是经常用于描述离散数据的典型分布。由于特征相关性遵从偏态分布，直接用正态分布分析相关性时有一定的缺陷，而Gamma指数则是一种研究偏态分布变化的较好指标。

(5)首先，计算每一维特征在所有样本上相关系数的直方图；如图5所示，图(a)、(b)和(c)分别是不同三种特征在所有样本上的相关系数直方图，不难发现其分布具有偏态的特点。

(6)由于相关系数是从0到1之间，且分布离1越近表示相关性大，分布离0越近表示相关性小，因此进行两次Gamma分布拟合，去掉相关性小的，保留相关性较大的特征，在这里特定特征的相关系数为r_i，i＝1，2，...，n，其中n为样本个数，先对相关系数直方图进行Gamma分布拟合，根据Gamma分布的定义，得到概率密度函数拟合公式如下：

(7)再对相关系数直方图进行轴对称操作，即

和

如图6所示。不难看出，(a)图，即图5中的(c)图特征在所有样本上的相关系数直方图符合轴对称Gamma分布、(b)和(c)图特征的相关系数直方图与Gamma分布拟合度较差。因此，前后两步Gamma分布可以更好地进行特征筛选。

(8)根据两次Gamma拟合的参数构造相关性影响因子IF，对所有特征按IF从大到小排序，筛选出前K个最相关特征构成特征子集F_s，s＝1，...，K；

步骤三：建立情感感知概率矩阵EDM

(3)建立特征相似度矩阵FDM

首先对筛选的K为特征及情感打分进行分帧，取帧长为4秒，帧移为3秒，对情感特征的每一帧和对应的情感打分构建N×N的相似度矩阵FDM，如图7所示，构建方法如下：

FDM_pg＝dist(F_pk，F_qk)，1≤p，q≤N

其中F_ik表示第i个样本的第k维特征的特征向量，

表示X和Y的欧式距离，经过这一步计算，得到K个特征相似度矩阵FDM_i，i＝1，...，K，

LDM_pg＝dist(L_p，L_q)，1≤p，q≤N

(4)情感感知概率矩阵EDM

那么，在T帧中，用每一帧都用如上方法计算特征差异概率，并归一化，就构成了情感感知概率矩阵EDM(Emotion Dissimilar Matrix)，计算方法如下：

(3)情感最大路径计算方法

有了情感感知概率矩阵EDM，就能够把样本间差异加入模型中，在T帧中，用每一帧的特征矩阵与概率矩阵EDM相乘，构成新的情感特征矩阵FDM‘，在情感特征矩阵中，用最大权值路径作为特征向量，求解最大权值路径的问题，转化为求子问题的最优解，使用动态规划算法，记录了已求解过的子问题结果，设Path_i，j是对矩阵的描述，则其状态转移方程为：

MP_i，j＝max{MP_i-1，j，MP_i，j+1}+MP_i，j

(4)基于Lasso回归的音乐连续情感预测方法

为了减少复杂性，分别预测的值，首先，在前面特征选择的基础上，设最优特征集为F_k，k＝1，2，...，K，在最优特征集上，分别对Valence和Arousal建立回归预测方程：

Y＝Xβ+μ

其次，基于Lasso回归模型，对预测方程进行求解，求得

取得最小时的拟合系数；

在求解拟合系数时，约束条件取最小的λ或SE值，为了取得最好拟合结果，这里取最小值为约束条件，。当取最小的λ值时，拟合效果最好；而SE值则是兼顾运算量的情况下的较优值，如图8所示。为了取得最好拟合结果，这里取最小值为约束条件；

最后，在最优拟合系数的基础上对新的未知样本经行Valence和Arousal的预测。

实施例2

为了验证由基于Gamma分布分析的音乐连续情感特征评价方法提取出来的最优特征集的识别效果，我们在MediaEval 2013公开音乐情感数据集上进行了方法测试，并与其他方法进行比较。该数据集包含744首长度为45秒的音乐剪辑，以及对这些音乐剪辑连续的情感标注。本发明创造所提出的方法对不同特征个数的平均拟合系数，计算的结果如下表1。

表1在不同K值(特征个数)下的拟合系数表

试次	K值	rSquare
			1	2	0.17
2	100	0.28
			3	200	0.35
4	600	0.38

为了取得最佳的拟合系数，我们每隔50计算一次拟合系数，结果如图3所示。当取前600维特征时，rSquare取得拟合最大值为0.377。

经过比较本发明所提出的音乐连续情感特征评价方法，对音乐情感Valence维度的拟合结果达到0.38，仅次于TUM的0.42，高于其他同类最好方法。

表2与其它方法对音乐情感(valence)拟合结果比较

试次	RMSE	rSquare
			TUM	0.11	0.42
γ分布	0.12	0.38
			UoA	0.12	0.35
UU	0.12	0.31