CN111462774B

CN111462774B - 一种基于深度学习的音乐情感可信分类方法

Info

Publication number: CN111462774B
Application number: CN202010194842.0A
Authority: CN
Inventors: 李景仙; 韩立新; 李晓双; 彭国争
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2020-03-19
Filing date: 2020-03-19
Publication date: 2023-02-24
Anticipated expiration: 2040-03-19
Also published as: CN111462774A

Abstract

本发明公开了一种基于深度学习的音乐情感可信分类方法，构建音乐情感可信数据集，在此基础上将音乐样本切片转换并构建音乐情感声谱图数据集，通过深度学习网络ResNet50训练学习音乐情感特征，并采用分类准确度高于75％的网络模型预测新音乐样本的情感类型，根据不同时间序列音乐片段影响度不同，分配不同的情感可信度，最后通过音乐情感分类预测值与可信度融合进行可信计算并确定其情感类型。本发明采用声谱图获取音乐情感信息，通过深度学习网络ResNet50进行训练学习，同时结合时间序列可信度进行可信计算，能够获取音乐情感细节信息，能够提高音乐情感分类速度和准确率，同时提高音乐情感分类的可信度。

Description

一种基于深度学习的音乐情感可信分类方法

技术领域

本发明涉及深度学习及信息处理技术领域，具体涉及一种基于深度学习的音乐情感可信分类方法。

背景技术

随着多媒体技术和互联网技术的发展，人们对娱乐方式的需求逐渐增加，听音乐成为其中一种重要的娱乐方式，音乐可以表达人们的情感，调整人们的心理状态，因此，提供满足用户情感需求的音乐变得尤为重要，但是，寻找符合用户当下听歌状态和听歌心情的音乐并非易事，目前，很多音乐网站音乐分类都是基于流派的分类或场景的分类，基于流派的分类主要有：流行，摇滚，乡村等，主要满足人们对不同流派类型的喜好；基于场景的分类主要有学习场景、工作场景、运动场景等，满足人们在不同环境下氛围的需求。然而这些分类都忽略了人们情感需求，部分音乐网站提供音乐情感的分类，如网易云音乐，虾米音乐，QQ音乐，而这些网站的情感标签多是上传用户的主观标注，同一首歌经常出现在不同的情感类型中，缺乏一定的客观性，可信度较低。

传统的情感分类方法主要从音频中采样部分特征进行分类，如过零率(ZeroCrossing Rate)，短时能量(Energy)，梅尔频率倒谱系数(MFCC)等，人工手动对音频特征进行信息提取，这种方式分类速度慢，准确率低。声谱图是频谱分析图，采用二维平面表达三维信息，声谱图的横坐标是时间，纵坐标是频率，坐标点值为语音数据能量值，能够反映出音乐随时间变化带来的频率变化及声音能量变化情况，能够反映出不同情感状态下的能量信息，声谱图已经成为音乐分类的重要依据。

深度学习已经成为当下研究热点，深度学习能够学习样本数据的内在规律和表示层次，能够让机器像人一样具有分析学习能力，能够识别文字、图像和声音等数据，因此在计算机视觉、图像处理和自然语言处理领域有广泛的应用，深度学习算法中卷积神经网络能够自动提取图像特征并进行分析学习，提高分类准确率和效率，在图像分类中有较高的应用价值。

残差网络ResNet是2015年由何凯明，张翔宇，任少卿，孙剑四位学者提出的卷积神经网络结构，能够通过增加深度提高准确率，同时采用残差块进行跳跃连接构建网络结构，能够解决梯度消失和网络退化问题，使用残差网络ResNet50进行音乐情感分类，能够获取全面的音乐情感信息，分析音乐情感特征，提高分类的准确率，同时，残差网络ResNet50能够进行大规模数据集的训练学习，提高分类的效率，保存的网络模型能够测试新的样本数据，提高分类预测的准确率。

可信度是对一个事物或事物为真的相信程度，指的是测量结果的一致性。可信分类指的是在同样或类似的条件下重复实验，仍然得到同样的分类结果，保证分类准确率的稳定性，音乐情感可信分类能够提高人们对情感类型的信任度，保证情感分类结果的一致性。

发明内容

发明目的：传统的音乐情感分类研究中，通常采用人工手动提取部分音频特征进行分类，采样速度慢，特征信息片面，准确率低，可信度低，针对以上问题，本发明提出了一种基于深度学习的音乐情感可信分类方法，采用声谱图获取音乐情感信息，通过深度学习网络ResNet50进行训练学习，同时结合时间序列可信度进行可信计算，能够提高音乐情感分类速度和准确率，同时提高音乐情感分类的可信度。

技术方案：为实现本发明的目的，本发明所采用的技术方案是：一种基于深度学习的音乐情感可信分类方法，步骤如下：

步骤一：收集音乐样本，根据音乐平台情感歌单和人工筛选验证确定k种音乐情感类型，构建音乐情感可信分类数据集；

步骤二：对音乐样本进行格式转换，获取音乐情感细节信息；

步骤三：对转换格式后的音乐样本进行切片选取，根据时间序列选取n个音乐片段；

步骤四：将n个时间序列音乐片段转换成声谱图，获取时间序列上的频率及能量情感信息，并标注音乐情感标签，形成音乐情感声谱图数据集；

步骤五：采用音乐情感声谱图数据集训练测试深度学习网络结构ResNet50，保存情感分类测试准确度高于p％的网络模型；

步骤六：使用训练好的网络模型预测音乐情感类型，根据不同时间序列的音乐片段影响度不同，分配不同的音乐情感可信度；

步骤七：计算音乐样本在不同情感类型下的可信概率，并将最大概率值的类型标注为该音乐样本的情感类型。

进一步地，所述步骤一中，构建音乐情感可信数据集包含以下步骤：

(1)根据人类情感类型特点，选取k种音乐情感类型；

(2)从音乐平台获取免费开源的已标注的情感类型歌单，这些音乐歌单情感类型由音乐平台官方标注或上传用户标注，在同种类型的歌单中，播放量是音乐情感可信度的一个指标，选取播放量排名前三的歌曲，增加音乐数据集情感类型的可信度；

(3)选取m个音乐爱好者，对已经标注好类型的音乐数据集歌曲进行重听筛选验证，将m个音乐爱好者选取的音乐类型的交集作为最终音乐类型标注，再次增加音乐数据集情感类型的可信度，形成最终音乐情感可信数据集。

进一步地，所述步骤二中，音乐样本格式转换包含以下步骤：

(1)将原音乐样本中MP3格式转换成WAV格式，样本大小变为原样本的a倍；WAV格式能够显示音乐细节的信息，本发明通过将WAV格式音乐转换成声谱图，获取同一个时间序列上全面的音乐情感信息；

(2)音乐样本格式转换中，选择采样率为44100Hz进行转换。

进一步地，所述步骤三中，格式转换后音乐样本切片选取包含以下步骤：

(1)从每个音乐样本中以s秒为一个音乐片段时间单元进行切分，选取t秒音频进行音乐情感信息提取，默认每个音乐样本有效音频采样信息时间为R秒；

(2)将每个音乐样本切分成e个片段，根据音乐不同时间序列音频信息不同，将e个片段等分为三个部分，分别从每个部分中随机选取音乐片段，共选取n个音乐片段。

进一步地，所述步骤四中，将n个时间序列音乐片段转换成声谱图，获取时间序列上的频率及情感能量信息，并标注音乐情感标签，形成音乐情感声谱图数据集，包含以下步骤：

(1)将n个时间序列音乐片段转换成声谱图，声谱图随时间序列反映出频率及情感能量信息，通过时间序列声谱图获取同首歌不同时间的音频情感信息；

(2)将每个音乐样本的声谱图类型标签标注为该音乐样本的情感类型；

(3)将各种情感类型的音乐样本声谱图形成音乐情感声谱图数据集，音乐情感声谱图数据集文件数量是原音乐音频文件数量的n倍。

进一步地，所述步骤五中，采用音乐情感声谱图数据集训练测试深度学习网络结构ResNet50，保存情感分类测试准确度高于p％的网络模型，包含以下步骤：

(1)将音乐情感声谱图数据集按p₁∶p₂比例分为训练集和测试集；

(2)将音乐情感声谱图数据集中训练集输入到深度学习网络结构ResNet50训练，设置网络参数，采用训练好的模型对测试集进行测试并输出准确度；

(3)保存情感分类测试准确度高于p％的网络模型，该网络模型中包含了训练好的网络参数。

进一步地，所述步骤六中，使用训练好的网络模型预测音乐情感类型，根据不同时间序列的音乐片段分配不同的音乐情感可信度，包含以下步骤：

(1)将新的音乐样本选取R秒音频提取情感信息，转换成WAV格式，以s秒为一个音乐片段时间单元进行切分，将音乐样本切分成e个音乐片段；

(2)将音乐样本中e个片段等分为三个部分，分别从每个部分中随机选取音乐片段，共选取n个音乐片段；

(3)将n个音乐片段转换成声谱图，将音乐片段声谱图按时间顺序输入训练好的ResNet50网络模型中进行测试，输出每个片段属于不同音乐情感类型的预测值；

(4)根据不同时间序列的音乐片段对音乐情感类型的影响程度不同，分配不同的情感可信度，形成音乐片段可信度矩阵T；通常音乐中间片段对音乐情感类型影响比开头和结尾部分影响大，因此分配音乐中间片段的可信度大于开头和结尾部分，具体值根据实验结果进行调整；可信度矩阵T表示如下：

其中，T_i1表示第i个音乐片段的情感可信度，i∈[1,n]，n为选取的音乐片段数量，n一般取值为10。

进一步地，所述步骤七中，计算音乐样本在不同情感类型下的可信概率，并将最大概率值的类型标注为该音乐的情感类型，包含以下步骤：

(1)将每个音乐样本n个片段的分类预测值形成分类概率矩阵P，矩阵P表示如下：

其中，P_ij表示第j个音乐片段在第i个分类中的概率，i∈[1,k],j∈[1,n]，k为选取的音乐情感类型种类数量，n为选取的音乐片段数量；

(2)将音乐样本片段的分类概率矩阵P与情感可信度矩阵T相乘，形成新的一维音乐情感分类的概率矩阵C，具体计算过程表示如下：

其中C_i1＝P_i1*T₁₁+P_i2*T₂₁+…+P_in*T_n1，C_i1表示n个片段在第i个情感分类的概率之和，i∈[1,k]，k为选取的音乐情感类型种类数量；

(3)将概率矩阵C中最大概率值的类型作为该音乐样本的情感类型。

有益效果：与现有技术相比，本发明的技术方案具有以下有益的技术效果：

本发明构建音乐情感可信分类数据集，保证分类数据的信任度；对音乐样本进行切片转换提取信息，音乐情感信息更详细；采用声谱图提取情感信息，确保音乐情感信息的全面性；通过深度学习网络结构提取音乐情感信息并分类，提高特征的提取效率和分类的准确率；通过分配音乐片段情感可信度，确保音乐情感分类结果的一致性；通过分类预测值与情感可信度融合进行可信计算，提高音乐情感分类的准确率和信任度。

附图说明

图1是基于深度学习的音乐情感可信分类流程图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明所述的一种基于深度学习的音乐情感可信分类方法，工作流程如图1所示，具体实现步骤如下：

步骤一：收集音乐样本，根据音乐平台情感歌单和人工筛选验证确定k种音乐情感类型，构建音乐情感可信分类数据集；具体包括：

(1)根据人类情感类型特点，选取k种音乐情感类型；本实施例中，选取四种典型音乐情感类型，分别为：开心，愤怒，安静，悲伤，每种类型结合音乐节奏和歌词综合选取，譬如一般选取节奏比较欢快，歌词充满阳光正能量的音乐为开心类型的音乐，选取节奏比较缓慢，歌词充满忧伤的音乐为悲伤类型的音乐；

(3)选取5个音乐爱好者，对已经标注好类型的音乐数据集歌曲进行重听筛选验证，将5个音乐爱好者选取的音乐类型的交集作为最终音乐类型标注，再次增加音乐数据集情感类型的可信度，形成最终音乐情感可信数据集。

(1)将原音乐样本中MP3格式转换成WAV格式，样本大小变为原样本的10倍；WAV格式能够显示音乐细节的信息，本发明通过将WAV格式音乐转换成声谱图，获取同一个时间序列上全面的音乐情感信息；

(2)音乐样本格式转换中，选择采样率为44100Hz进行转换。

步骤三：对转换格式后的音乐样本进行切片选取，根据时间序列选取十个音乐片段；

(1)从每个音乐样本中以5秒为一个音乐片段时间单元进行切分，选取50秒音频进行音乐情感信息提取，默认每个音乐样本有效音频采样信息时间为180秒；

(2)将每个音乐样本切分成36个片段，根据音乐不同时间序列音频信息不同，将36个片段等分为三个部分，分别从每个部分中随机选取音乐片段，共选取十个音乐片段，分别为第5，6，7片段，第15，16，17片段，第25，26片段，第35，36片段。

步骤四：将n个时间序列音乐片段转换成声谱图，获取时间序列上的频率及能量情感信息，并标注音乐情感标签，形成音乐情感声谱图数据集；所述声谱图是频谱分析图，采用二维平面表达三维信息，声谱图的横坐标是时间，纵坐标是频率，坐标点值为语音数据能量值；

(1)将十个时间序列音乐片段转换成声谱图，声谱图随时间序列反映出频率及情感能量信息，通过时间序列声谱图获取同首歌不同时间的音频情感信息；

(3)将各种情感类型的音乐样本声谱图形成音乐情感声谱图数据集，音乐情感声谱图数据集文件数量是原音乐音频文件数量的十倍。

步骤五：采用音乐情感声谱图数据集训练测试深度学习网络结构ResNet50，保存情感分类测试准确度高于75％的网络模型；

(1)将音乐情感声谱图数据集按8:2比例分为训练集和测试集，一般选择每个类的80％数据作为训练，20％数据作为测试，训练集中的样本数据与测试集中的数据无交叉，如果选取一首歌作为训练，这首歌的所有的片段都在训练集中，选取新的歌曲样本作为测试，保证测试的准确度和可信度；

(2)将音乐情感声谱图数据集中训练集输入到深度学习网络结构ResNet50训练，设置网络参数，由于训练数据量大，测试数据量小，网络结构采用batch大小为128进行训练，采用batch大小为32进行测试，训练不同的轮数，同时记录不同轮数下每个分类的准确率；采用训练好的模型对测试集进行测试并输出准确度；

(3)保存情感分类测试准确度高于75％的网络模型，该网络模型中包含了训练好的网络参数，分类准确度达到75％是较好的分类结果，分类准确度低于75％往往是网络模型训练不充分，出现欠拟合，因此选择高于75％的网络模型对新样本会有较好的预测结果。

(1)将新的音乐样本选取180秒音频提取情感信息，转换成WAV格式，以5秒为一个音乐片段时间单元进行切分，选取5秒音乐片段既可以获取音乐情感细节信息，又不会出现冗余信息，少于5秒的音乐片段包含的情感信息不充分，多于5秒音乐片段包含信息太多，容易丢失重要信息，最后将音乐样本切分成36个音乐片段；

(2)将音乐样本中36个片段等分为三个部分，分别从每个部分中随机选取音乐片段，共选取十个音乐片段；音乐样本前半部分中前奏部分包含情感信息相对较少，因此舍去前20秒的音乐信息，从第21秒进行获取情感信息；情感的表达往往在音乐样本的中间的部分，因此中间部分选取25秒的音频进行获取情感信息，选取中间部分5个片段；后半部分是音乐的结尾，情感表达接近完成，因此选取2个片段共10秒进行获取情感信息；每首音乐样本选取十个片段进行信息提取，既可以兼顾音乐各个部分的情感信息，又不会出现过多重复信息，可以提高分类的效率；具体选取音乐样本片段为第5，6，7片段，第15，16，17片段，第25，26片段，第35，36片段，音乐片段对应测试的顺序如表1所示：

表1

(3)将十个音乐片段转换成声谱图，将音乐片段声谱图按时间顺序输入训练好的ResNet50网络模型中进行测试，输出每个片段属于不同音乐情感类型的预测值；

其中，T_i1表示第i个音乐片段的情感可信度，i∈[1,n]，n为选取的音乐片段数量，本实施例中，n取值为10。

步骤七：计算音乐样本在不同情感类型下的可信概率，并将最大概率值的类型标注为该音乐样本的情感类型；

(1)将每个音乐样本十个片段的分类预测值形成分类概率矩阵P，矩阵P表示如下：

其中，P_ij表示第j个音乐片段在第i个分类中的概率，i∈[1,k],j∈[1,n]，k为选取的音乐情感类型种类数量，n为选取的音乐片段数量；本实施例中，k取值为4；在音乐情感分类中，开心类为第1个情感分类，愤怒类为第2个情感分类，安静类为第3个情感分类，悲伤类为第4个情感分类；

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。