CN109147826B

CN109147826B - 音乐情感识别方法、装置、计算机设备及计算机存储介质

Info

Publication number: CN109147826B
Application number: CN201810963057.XA
Authority: CN
Inventors: 梅亚琦; 刘奡智; 王义文; 王健宗; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-08-22
Filing date: 2018-08-22
Publication date: 2022-12-27
Anticipated expiration: 2038-08-22
Also published as: CN109147826A

Abstract

本申请公开了一种音乐情感识别方法、装置、计算机设备及计算机存储介质，涉及人工智能技术领域，可以提高音乐情感识别精度。所述方法包括：从音频样本数据中提取音频特征数据；将所述音频特征数据输入至卷积神经网络进行训练，得到情感分类模型；通过所述情感分类模型将音频特征数据分类为各个情感维度的局部平移不变特征；将所述不同情感维度的局部平移不变特征输入至递归神经网络中进行训练，得到音乐情感识别模型，所述音乐情感识别模型中记录有局部平移不变特征在各个情感维度上的音乐情感识别结果；通过所述音乐情感识别模型对待识别音频数据进行音乐情感识别，得到各个情感维度上的音乐情感识别结果。

Description

音乐情感识别方法、装置、计算机设备及计算机存储介质

技术领域

本发明涉及人工智能技术领域，尤其是涉及到音乐情感识别方法、装置、计算机设备及计算机存储介质。

背景技术

音乐一直以来都是表达、传递情感的一种方式。情感的表达是音乐的本质特征，不仅能够体现作曲家的意念，也可以使聆听者产生相应的情绪变化。因此音乐情感的识别对音乐检索、音乐合成以及音乐治疗技术中有着重要意义。

在音乐信号处理中，音乐对情感的感知或诱导是属于与音乐内容相关的音乐属性，也是音乐分类的一种方法。为了实现音乐情感识别，需要根据某些特征标准确定一个合理有效的情感分类模型，通过情感分类模型进一步识别音乐情感。

现有的情感识别方式主要有两种，一种是通过人工试听识别并分类标注，而对于情感的分类更多的取决于主观感受，这一过程会受到许多外在因素的影响，如听音人的文化背景、性格爱好、甚至听音时的天气以及环境都会使听音者对同一首歌有不同的情感体验，人工标注耗时耗力且不够精确，使得音乐情感分类标注的成本较高；另一种是采用支持向量机分类器对音乐情感进行识别分类，而支持向量机分类器通常针对少量的训练集才有较好的效果，并且经典支持向量机只有二分类算法，使得音乐情感识别精度较低。

发明内容

本发明实施例提供了音乐情感识别方法、装置、计算机设备及计算机存储介质，解决了相关技术中音乐情感识别精度较低的问题。

根据本发明实施例的第一方面，提供一种音乐情感识别方法，所述方法包括：

从音频样本数据中提取音频特征数据，所述音频特征数据携带有各个情感维度标注值；

将所述音频特征数据输入至卷积神经网络进行训练，得到情感分类模型，所述情感分类模型用于从音频数据中提取出各个情感维度的局部平移不变特征；

通过所述情感分类模型将音频特征数据分类为各个情感维度的局部平移不变特征；

将所述各个情感维度的局部平移不变特征输入至递归神经网络中进行训练，得到音乐情感识别模型，所述音乐情感识别模型用于识别音频数据在各个情感维度上的音乐情感识别结果；

通过所述音乐情感识别模型对待识别音频数据进行音乐情感识别，得到各个情感维度上的音乐情感识别结果。

进一步地，在所述从音频样本数据中提取音频特征数据之前，所述方法还包括：

按照预设时间间隔对所述音频样本数据进行分段，得到多段分段音频样本数据；

获取对每段分段音频样本数据所属情感维度的标注值，得到多段携带各个情感维度标注值的分段音频样本数据。

进一步地，所述卷积神经网络为多层结构的网络模型，所述将所述音频特征数据输入至卷积神经网络进行训练，得到情感分类模型包括：

通过所述卷积神经网络的卷积层提取所述音频特征数据中各个情感维度的局部音频特征信息；

通过所述卷积神经网络的全连接层汇总所述各个情感维度的局部音频特征信息，得到多维度的局部音频特征信息；

通过所述卷积神经网络的池化层对所述多维度的局部音频特征信息进行降维处理，得到各个情感维度的局部平移不变特征；

通过所述卷积神经网络的分类层对所述各个情感维度的局部平移不变特征进行分类，得到情感分类模型。

进一步地，所述递归神经网络为多层结构的网络模型，所述将所述各个情感维度的局部平移不变特征输入至递归神经网络中进行训练，得到音乐情感识别模型包括：

通过所述递归神经网络的全连接层汇总所述各个情感维度的局部平移不变特征，得到多维度的局部平移不变特征；

通过所述递归神经网络的隐含层根据音频特征数据所携带的各个情感维度标注值来优化所述多维度的局部平移不变特征在各个情感维度上的权重参数；

通过所述递归神经网络的输出层根据所述多维度的局部平移不变特征在各个情感维度上的权重参数，计算音频数据在各个情感维度上的情感识别结果，构建音乐情感识别模型。

进一步地，所述递归神经网络的隐含层内设置有双向门控循环单元，所述通过所述递归神经网络的隐含层根据音频特征数据所携带的各个情感维度标注值来优化所述多维度的局部平移不变特征在各个情感维度上的权重参数包括：

通过所述双向门控循环单元学习多维度的局部平移不变特征中的时间信息，并根据所述时间信息训练所述多维度的局部平移不变特征在各个情感维度上的权重参数；

根据所述音频特征数据所携带的各个情感维度标注值来优化所述多维度的局部平移不变特征在各个情感维度上的权重参数。

进一步地，在根据所述音乐情感识别模型对待识别音频数据进行音乐情感识别，得到音乐情感识别结果之后，所述方法还包括：

根据所述多段携带各个音乐情感维度标注值的分段音频样本数据与音乐情感识别结果，计算所述音乐情感识别模型的均方根误差；

将所述音乐情感识别模型的均方根误差作为衡量所述音乐情感识别模型的统计矩阵，对所述音乐情感识别结果进行校验。

进一步地，在所述将所述音乐情感识别模型的均方根误差作为衡量所述音乐情感识别模型的统计矩阵，对所述音乐情感识别结果进行校验之后，所述方法还包括：

将所述音乐情感识别模型的均方根误差作为损失函数反馈至所述递归神经网络模型的隐含层，对所述隐含层的权重参数进行更新。

根据本发明实施例的第二方面，提供一种音乐情感识别装置，所述装置包括：

提取单元，用于从音频样本数据中提取音频特征数据；

第一训练单元，用于将所述音频特征数据输入至卷积神经网络进行训练，得到情感分类模型，所述情感分类模型用于从音频数据中提取出各个情感维度的局部平移不变特征；

分类单元，用于通过所述情感分类模型将音频特征数据分类为各个情感维度的局部平移不变特征；

第二训练单元，用于将所述各个情感维度的局部平移不变特征输入至递归神经网络中进行训练，得到音乐情感识别模型，所述音乐情感识别模型用于识别音频数据在各个情感维度上的音乐情感识别结果；

识别单元，用于通过所述音乐情感识别模型对待识别音频数据进行音乐情感识别，得到各个情感维度上的音乐情感识别结果。

进一步地，所述装置还包括：

分段单元，用于在所述从音频样本数据中提取音频特征数据之前，按照预设时间间隔对所述音频样本数据进行分段，得到多段音频样本数据；

标注单元，用于获取对每段分段音频样本数据所属情感维度的标注值，得到多段携带各个情感维度标注值的分段音频样本数据。

进一步地，所述卷积神经网络为多层结构的网络模型，所述第一训练单元包括：

卷积模块，用于通过所述卷积神经网络的卷积层提取所述音频特征数据中各个情感维度的局部音频特征信息；

第一整合模块，用于通过所述卷积神经网络的全连接层汇总所述各个情感维度的局部音频特征信息，得到多维度的局部音频特征信息；

降维模块，用于通过所述卷积神经网络的池化层对所述多维度的局部音频特征信息进行降维处理，得到各个情感维度的局部平移不变特征；

分类模块，用于通过所述卷积神经网络的分类层对所述各个情感维度的局部平移不变特征进行分类，得到情感分类模型。

进一步地，所述递归神经网络为多层结构的网络模型，所述第二训练单元包括：

第二整合模块，用于通过所述递归神经网络的全连接层汇总所述各个情感维度的局部平移不变特征，得到多维度的局部平移不变特征；

训练模块，用于通过所述递归神经网络的隐含层根据音频特征数据所携带的各个情感维度标注值来优化所述多维度的局部平移不变特征在各个情感维度上的权重参数；

构建模块，用于通过所述递归神经网络的输出层根据所述多维度的局部平移不变特征在各个情感维度上的权重参数，计算音频数据在各个情感维度上的情感识别结果，构建音乐情感识别模型。

进一步地，所述递归神经网络的隐含层内设置有双向门控循环单元，

所述训练模块，具体用于通过所述双向门控循环单元学习多维度的局部平移不变特征中的时间信息，并根据所述时间信息训练所述多维度的局部平移不变特征在各个情感维度上的权重参数；

所述训练模块，具体还用于根据所述音频特征数据所携带的各个情感维度标注值来优化所述多维度的局部平移不变特征在各个情感维度上的权重参数。

进一步地，所述装置还包括：

计算单元，用于在根据所述音乐情感识别模型对待识别音频数据进行音乐情感识别，得到音乐情感识别结果之后，根据所述多段携带各个音乐情感维度标注值的分段音频样本数据与音乐情感识别结果，计算所述音乐情感识别模型的均方根误差；

校验单元，用于将所述音乐情感识别模型的均方根误差作为衡量所述音乐情感识别模型的统计矩阵，对所述音乐情感识别结果进行校验。

进一步地，所述装置还包括：

更新单元，用于在所述以所述音乐情感识别模型的均方根误差作为衡量所述音乐情感识别模型的统计矩阵，对所述音乐情感识别结果进行校验之后，将所述音乐情感识别模型的均方根误差作为损失函数反馈至所述递归神经网络模型的隐含层，对所述隐含层的权重参数进行更新。

根据本发明实施例的第三方面，提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述音乐情感识别方法的步骤。

根据本发明实施例的第四方面，提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述音乐情感识别方法的步骤。

通过本发明，将音频特征数据输入至卷积神经网络中进行训练，得到情感分类模型，通过情感分类模型将音频特征数据分类各个情感维度的局部平移不变特征，相当于对音频特征数据进行初步情感维度的划分，进一步将各个情感维度的局部平移不变特征输入至递归神经网络中进行训练，得到音乐情感识别模型，该音乐情感识别模型中记录有各个情感维度的音频数据的情感分类结果，根据音乐情感识别模型对待识别音频数据进行音乐情感识别，得到音乐情感识别结果。与现有技术的音乐情感识别方法相比，本发明实施例基于卷积神经网络以及递归神经网络对音乐特征数据中各个情感维度进行训练，来判断音频数据中是否存在各个情感维度的特征，对音频数据中各个层次的音乐特征进行识别，使得音乐情感识别误差达到很小，提高音乐情感识别精度。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种音乐情感识别方法的流程图；

图2是根据本发明实施例的另一种音乐情感识别方法的流程图；

图3是根据本发明实施例的一种音乐情感识别装置的结构框图；

图4是根据本发明实施例的另一种音乐情感识别装置的结构框图；

图5是根据本发明实施例的音乐情感识别装置400的框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

在本实施例中提供了一种音乐情感识别方法，图1是根据本发明实施例的流程图一，如图1所示，该流程包括如下步骤：

步骤S101，从音频样本数据中提取音频特征数据；

其中，音频样本数据为已知各种风格的音乐数据，如古典音乐、乡村音乐、摇滚音乐等，这里的音乐样本数据由一连串的音符组成，每个音符包含了诸如高音、力度、节拍等特征，在对音乐情感分析时，需要综合音频样本数据的各个特征进行分析。

对于本发明实施例，音频数据中携带有各个情感维度标注值，标注值越高说明音乐数据在该情感维度下的情感值，不同的音频特征数据反映不同情感维度的音乐特点，从音频样本数据中提取到的音频特征数据可以为短时平均能量、梅尔倒谱系数、频带能量分布等，例如，短时平均能量反映了声音的动态变化，梅尔倒频谱系数反映了声音的音色特征，频带能量分布反映了声音的谱能量。

步骤S102，将所述音频特征数据输入至卷积神经网络进行训练，得到情感分类模型；

由于不同的音频特征数据反映不同情感维度的音乐特点，为了实现对音乐情感的准确测量，可以使用卷积神经网络对音频特征数据进行训练，并给出正确的输入输出关系，这里的卷积神经网络为可以训练出不同情感维度的局部平移不变特征与音频特征数据映射的情感分类模型，通过该情感分类模型可以从音频特征数据初步提取出各个情感维度的局部平移不变特征。

对于本发明实施例，具体可以通过选取合适的情感空间模型，预先对卷积神经网络输出局部平移不变特征的情感维度数量进行设置，通常情况下，情感维度数量大于等于2，例如，当设置情感维度数量为2时，训练得到的情感分类模型会输出激活度和愉悦度两个情感维度。

需要说明的是，不同的情感空间模型对情感划分的维度有所不同，例如，VA二维情感空间模型将情感划分为愉悦度和激活度两个维度，PAD三维情感空间模型将情感划分为愉悦度、激活度和优势度三个维度，这里对情感空间模型的选取不进行限定。

步骤S103，通过所述情感分类模型将音频特征数据分类为各个情感维度的局部平移不变特征；

对于本发明实施例，情感分类模型用于从音频数据中提取出各个情感维度的局部平移不变特征，该局部平移不变特征可以看作和音乐风格、情感、节奏等相关因素，实现对音乐情感的初步分类。

步骤S104，将所述各个情感维度的局部平移不变特征输入至递归神经网络中进行训练，得到音乐情感识别模型。

通过卷积神经网络提取得到的局部平移不变特征仅仅是将音频特征数据从情感维度层面上进行初步划分，为了保证音频特征数据分类的准确性，进一步将各个情感维度的局部平移不变特征输入至递归神经网络进行训练，并在训练的过程中不断对递归神经网络的权值进行训练，使得输出各个情感维度的局部平移不变特征达到稳定，得到音乐情感识别模型。

其中，音乐情感识别模型中记录有不同情感维度的音频数据的情感分类结果，这里的递归神经网络为可以优化不同情感维度的局部平移不变特征的网络结构，该网络结构相当于识别音乐情感识别模型，对音频数据进行情感维度的分类。

具体递归神经网络可以由全连接层、隐含层、输出层组成，并且全连接层以及隐含层的层数可以适应性调整，以保证音乐情感识别模型的稳定性，在此不进行限定。

步骤S105，通过所述音乐情感识别模型对待识别音频数据进行音乐情感识别，得到各个情感维度上的音乐情感识别结果。

其中，待识别音频数据为未知音乐风格的音乐数据，通过音乐情感识别模型可以识别出待识别音频数据的情感维度，从而识别出音乐情感。

对于本发明实施例，这里的情感分类结果表示为音乐数据在各个情感维度下的规范值，取值范围在[-1,1]范围内，例如，设置两个情感维度a和b，且识别得到a＝0.5、b＝0.1，则输出情感分类结果[0.5,0.1]，设置三个情感维度则识别出音乐数据在三个情感维度下的规范值，通常情况下情感维度下的规范值越大，则表示该情感维度对应的特征表现越强烈，利用情感分类结果可以了解音乐在各个情感维度上的表现值，通过各个情感维度可以有效解释人类的情感。

通过本发明，将音频特征数据输入至卷积神经网络中进行训练，得到情感分类模型，通过情感分类模型将音频特征数据分类各个情感维度的局部平移不变特征，相当于对音频特征数据进行初步情感维度的划分，进一步将各个维度的局部平移不变特征输入至递归神经网络中进行训练，得到音乐情感识别模型，该音乐情感识别模型中记录有各个情感维度的音频数据的情感分类结果，根据音乐情感识别模型对待识别音频数据进行音乐情感识别，得到音乐情感识别结果。与现有技术的音乐情感识别方法相比，本发明实施例基于卷积神经网络以及递归神经网络对音乐特征数据中各个情感维度进行训练，来判断音乐数据中是否存在各个情感维度特征，对音乐数据中各个层次的音乐特征进行识别，使得音乐情感识别误差达到很小，提高音乐情感识别精度。

图2是根据本发明优选实施例的音乐情感识别方法的流程图，如图2所示，该方法包括以下步骤：

步骤S201，按照预设时间间隔对所述音频样本数据进行分段，得到多段音频样本数据。

在音频特征数据提取过程中，通常音频特征数据在很短时间内变化是缓慢的，所以在变化缓慢的时间内所提取的音频特征数据具有较高的稳定性，为了保证提取到音频特征数据的稳定性，通常将音频样本数据分成一定长度的单位进行处理，得到多个短时音频数据，提取每个短时音频样本数据中的音频特征数据，使得提取的音频特征数据更准确。

这里对预设时间间隔不进行限定，时间越短每段音频样本数据的稳定性越高，但是划分的音频样本数据越多，需要后续处理的数据量越大，所以在实际应用中，选取合适的预设时间间隔对音频样本数据进行分段。

步骤S202，获取对每段分段音频样本数据所属情感维度的标注值，得到多段携带各个情感维度标注值的分段音频样本数据。

对于本发明实施例，可以通过预设音乐情感预测算法来计算出不同风格音乐数据在各个情感维度上的测评数值，进而获取对每段分段音频样本数据所属情感维度的标注值，这里的音乐情感预测算法可以是一个连续时间的音乐情感测评算法，通常情况，测评数值越大表示音频样本数据在该情感维度上的表现越明显。在计算得到测评数值后，将计算得到的测评数值标注在对应的音乐样本数据上，得到多段携带各个情感维度标注值的分段音频样本数据。

这里可以每间隔500毫秒对音频样本数据所属的音乐情感维度进行标注，通常测评数值分布在[-1,1]范围内，当然这里不进行限定，例如可以使用拉塞尔的二维连续情感空间模型对音频样本数据进行标注。当然为了方便使用，也可以直接选用预先人工标记过的音频样本数据。

步骤S203，从音频样本数据中提取音频特征数据。

对于本发明实施例，通常音频样本数据被记载在音频文件中，通常根据音频文件记录声音的原理，可以将计算机音乐分为声音文件、MIDI文件和模拟文件。不同类型的音频文件具有不同的存储特点以及应用环境，例如，声音文件是对声音的真实反映，声音占用存储空间较大，MIDI文件存放各音轨所使用的乐器和播放内容，并不包含真实声音的数据，声音占用存储空间较小，模拟文件具有声音文件以及MIDI文件的共同特性，根据具体的编码方法有多种不同格式。

由于MIDI文件具有文件小、可编辑性强、处理速度快以及文件通用性好等特点，在从音乐样本数据中提取音频特征数据之前，将音频样本数据的格式统一采用MIDI文件类型保存。

对于本发明实施例，具体可以使用openSMILE工具从音频样本数据中提取音频特征数据，openSMILE工具可以通过命令形式对音频样本数据进行处理，提取得到音频样本数据中的音频特征数据。

步骤S204，将所述音频特征数据输入至卷积神经网络进行训练，得到情感分类模型。

对于本发明实施例，卷积神经网络为多层结构的网络模型，每层结构具有不同的输入输出参数以及实现不同的功能，通过卷积神经网络可以提取音频特征数据中不同情感维度的局部平移不变特征。

具体卷积神经网络可以使用3*3的滤波器，将音频特征数据输入至卷积神经网络后，首先通过卷积神经网络的卷积层提取所述音频特征数据中各个情感维度的局部音频特征信息，然后通过卷积神经网络的全连接层汇总所述各个情感维度的局部音频特征信息，得到多维度的局部音频特征信息，通过卷积神经网络的池化层对多维度的局部音频特征信息进行降维处理，得到各个情感维度的局部平移不变特征，最后通过卷积神经网络的分类层对所述各个情感维度的局部平移不变特征进行分类，得到情感分类模型，这里的情感分类模型中锁提取的局部平移不变特征是由卷积神经网络自动提取的，无法量化，可以看作与音乐风格、情感、节奏等相关因素，例如音乐节拍、音乐速度以及音乐最大音程等。

步骤S205，通过所述情感分类模型将音频特征数据分类为各个情感维度的局部平移不变特征。

步骤S206，将所述各个情感维度的局部平移不变特征输入至递归神经网络中进行训练，得到音乐情感识别模型。

对于本发明实施例，递归神经网络为多层结构的网络模型，每层结构具有不同的输入输出参数以及实现不同的功能，通过递归神经网络来对各个情感维度的局部平移不变特征进行训练，得到音频数据在各个情感维度上的音乐情感识别结果，构建音乐情感识别模型。

具体递归神经网络多条输入通道来对各个情感维度的局部平移不变特征进行训练，首先通过递归神经网络的全连接层汇总各个情感维度的局部平移不变特征，得到多维度的局部平移不变特征，然后通过递归神经网络的隐含层根据音频特征数据所携带的各个情感维度标注值来优化多维度的局部平移不变特征在各个情感维度上的权重参数，最后通过递归神经网络的输出层根据所述多维度的局部平移不变特征在各个情感维度上的权重参数，构建用于识别音频数据在各个情感维度上的音乐情感识别模型。

需要说明的是，为了减小特征分析的过程中的误差，递归神经网络使用了线性修正单元激活函数和批规范化，全连接层使用了线性激活函数，并且在递归神经网络的隐含层内设置有双向门控循环单元，该双向门控循环单元使用双曲正切激活函数，在双向门控循环单元中，前后两个激活函数被连接起来，通过双向门控循环单元学习多维度的局部平移不变特征中的时间信息，并根据时间信息训练多维度的局部平移不变特征在各个情感维度上的权重参数，根据音频特征数据所携带的各个情感维度标注值来优化所述多维度的局部平移不变特征在各个情感维度上的权重参数，并反向传播时间信息来训练隐含层的权重参数，进一步根据隐含层的对各个情感维度的音频特征参数进行训练。

步骤S207，通过所述音乐情感识别模型对待识别音频数据进行音乐情感识别，得到各个情感维度上的音乐情感识别结果。

对于本发明实施例，递归神经网络的输出层具体可以由激活函数的一个节点组成，近似于一个凸的分段线性激活函数，可作为回归层，最终当输入待识别音频数据后，通过音乐情感识别模型输出规范化值在[-1,1]范围内的各个情感维度的规范值。

步骤S208，根据所述多段携带各个音乐情感维度标注值的分段音频样本数据与音乐情感识别结果，计算所述音乐情感识别模型的均方根误差。

为了衡量音乐情感识别模型识别的准确性，在得到音乐情感识别结果后，可以根据多段携带不同音乐情感维度标注的音频样本数据与音乐情感识别结果，计算音乐情感识别模型的均方根误差，具体计算公式为：

其中，y_n为携带各个音乐情感纬度标注的音频样本数据，

为音乐情感识别结果。

需要说明的是，为了减少训练过程中数据出现过拟合现象，在卷积神经网络进行数据训练以及递归神经网络在进行数据特征分析过程中，可以舍弃部分音频样本数据。

步骤S209，将所述音乐情感识别模型的均方根误差作为衡量所述音乐情感识别模型的统计矩阵，对所述音乐情感识别结果进行校验。

音乐情感识别模型的均方根误差直接影响到音乐情感识别模型的情感识别结果的准确度，本发明实施例通过以音乐情感识别模型的均方根误差作为衡量音乐情感识别模型的统计矩阵，对音乐情感识别结果进行校验，来判断音乐情感识别模型识别音乐情感的准确性。

步骤S210，将所述音乐情感识别模型的均方根误差作为损失函数反馈至所述递归神经网络模型的隐含层，对所述隐含层的权重参数进行更新。

对于本发明实施例，如果均方根误差较大，则说明该音乐情感识别模型的情感识别结果的准确度较低，还需要进一步调整递归神经网络的参数，以降低均方根误差，如果均方根误差较小，则说明该音乐情感识别模型的情感识别结果的准确度较高，无需调整递归神经网络的参数。

具体调整递归神经网络的参数的方式可以将音乐情感识别模型的均方根误差作为损失函数反馈至递归神经网络的隐含层，对隐含层的权值进行更新。

通过本发明实施例，将音频特征数据输入至卷积神经网络中进行训练，得到情感分类模型，通过情感分类模型将音频特征数据分类各个情感维度的局部平移不变特征，相当于对音频特征数据进行初步情感维度的划分，进一步将各个维度的局部平移不变特征输入至递归神经网络中进行训练，得到音乐情感识别模型，该音乐情感识别模型中记录有各个情感维度的音频数据的情感分类结果，根据音乐情感识别模型对待识别音频数据进行音乐情感识别，得到音乐情感识别结果。与现有技术的音乐情感识别方法相比，本发明实施例基于卷积神经网络以及递归神经网络对音乐特征数据中各个情感维度进行训练，来判断音乐数据中是否存在各个情感维度特征，对音乐数据中各个层次的音乐特征进行识别，使得音乐情感识别误差达到很小，提高音乐情感识别精度。

图3是根据本发明实施例的一种音乐情感识别装置的结构框图。参照图3，该装置包括提取单元301，第一训练单元302、分类单元303、第二训练单元304和识别单元305。

提取单元301，可以用于从音频样本数据中提取音频特征数据；

第一训练单元302，可以用于将所述音频特征数据输入至卷积神经网络进行训练，得到情感分类模型，所述情感分类模型用于从音频数据中提取出各个情感维度的局部平移不变特征；

分类单元303，可以用于通过所述情感分类模型将音频特征数据分类为各个情感维度的局部平移不变特征；

第二训练单元304，可以用于将所述各个情感维度的局部平移不变特征输入至递归神经网络中进行训练，得到音乐情感识别模型，所述音乐情感识别模型用于识别音频数据在各个情感维度上的音乐情感识别结果；

识别单元305，可以用于通过所述音乐情感识别模型对待识别音频数据进行音乐情感识别，得到各个情感维度上的音乐情感识别结果。

作为图3中所示音乐情感识别装置的进一步说明，图4是根据本发明实施例另一种音乐情感识别装置的结构示意图，如图4所示，所述装置还包括：

分段单元306，可以用于在所述从音频样本数据中提取音频特征数据之前，按照预设时间间隔对所述音频样本数据进行分段，得到多段音频样本数据；

标注单元307，可以用于获取对每段分段音频样本数据所属情感维度的标注值，得到多段携带各个情感维度标注值的分段音频样本数据；

计算单元308，可以用于根据所述音乐情感识别模型对待识别音频数据进行音乐情感识别，得到音乐情感识别结果之后，根据所述多段携带各个音乐情感维度标注值的分段音频样本数据与音乐情感识别结果，计算所述音乐情感识别模型的均方根误差；

校验单元309，可以用于将所述音乐情感识别模型的均方根误差作为衡量所述音乐情感识别模型的统计矩阵，对所述音乐情感识别结果进行校验；

更新单元310，可以用于在所述以所述音乐情感识别模型的均方根误差作为衡量所述音乐情感识别模型的统计矩阵，对所述音乐情感识别结果进行校验之后，将所述音乐情感识别模型的均方根误差作为损失函数反馈至所述递归神经网络模型的隐含层，对所述隐含层的权重参数进行更新。

进一步地，所述卷积神经网络为多层结构的网络模型，所述第一训练单元302包括：

卷积模块3021，可以用于通过所述卷积神经网络的卷积层提取所述音频特征数据中各个情感维度的局部音频特征信息；

第一整合模块3022，可以用于通过所述卷积神经网络的全连接层汇总所述各个情感维度的局部音频特征信息，得到多维度的局部音频特征信息；

降维模块3023，可以用于通过所述卷积神经网络的池化层对所述多维度的局部音频特征信息进行降维处理，得到各个情感维度的局部平移不变特征；

分类模块3024，可以用于通过所述卷积神经网络的分类层对所述各个情感维度的局部平移不变特征进行分类，得到情感分类模型。

进一步地，所述递归神经网络为多层结构的网络模型，所述第二训练单元304包括：

第二整合模块3041，可以用于通过所述递归神经网络的全连接层汇总所述各个情感维度的局部平移不变特征，得到多维度的局部平移不变特征；

训练模块3042，可以用于通过所述递归神经网络的隐含层根据音频特征数据所携带的各个情感维度标注值来优化所述多维度的局部平移不变特征在各个情感维度上的权重参数；

构建模块3043，可以用于通过所述递归神经网络的输出层根据所述多维度的局部平移不变特征在各个情感维度上的权重参数，计算音频数据在各个情感维度上的情感识别结果，构建音乐情感识别模型。

所述训练模块3042，具体可以用于通过所述双向门控循环单元学习多维度的局部平移不变特征中的时间信息，并根据所述时间信息训练所述多维度的局部平移不变特征在各个情感维度上的权重参数；

所述训练模块3042，具体还可以用于根据所述音频特征数据所携带的各个情感维度标注值来优化所述多维度的局部平移不变特征在各个情感维度上的权重参数。

图5是根据本发明实施例的音乐情感识别装置400的框图。例如，装置400可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，装置400可以包括以下一个或多个组件：处理组件402，存储器404，电源组件406，多媒体组件408，音频组件410，I/O(Input/Output，输入/输出)的接口412，传感器组件414，以及通信组件416。

处理组件402通常控制装置400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便于处理组件402和其他组件之间的交互。例如，处理组件402可以包括多媒体模块，以方便多媒体组件408和处理组件402之间的交互。

存储器404被配置为存储各种类型的数据以支持在装置400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如SRAM(Static Random Access Memory,静态随机存取存储器)，EEPROM(Electrically-Erasable Programmable Read-Only Memory,电可擦除可编程只读存储器)，EPROM(Erasable Programmable Read Only Memory,可擦除可编程只读存储器)，PROM(Programmable Read-Only Memory,可编程只读存储器)，ROM(Read-OnlyMemory,只读存储器)，磁存储器，快闪存储器，磁盘或光盘。

电源组件406为装置400的各种组件提供电力。电源组件406可以包括电源管理系统，一个或多个电源，及其他与为装置400生成、管理和分配电力相关联的组件。

多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括LCD(Liquid Crystal Display，液晶显示器)和TP(TouchPanel，触摸面板)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件408包括一个前置摄像头和/或后置摄像头。当装置400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件410被配置为输出和/或输入音频信号。例如，音频组件410包括一个MIC(Microphone,麦克风)，当装置400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中，音频组件410还包括一个扬声器，用于输出音频信号。

I/O接口412为处理组件402和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件414包括一个或多个传感器，用于为装置400提供各个方面的状态评估。例如，传感器组件414可以检测到设备400的打开/关闭状态，组件的相对定位，例如组件为装置400的显示器和小键盘，传感器组件414还可以检测装置400或装置400一个组件的位置改变，用户与装置400接触的存在或不存在，装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器，如CMOS(Complementary Metal OxideSemiconductor，互补金属氧化物)或CCD(Charge-coupled Device，电荷耦合元件)图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件416还包括NFC(Near Field Communication,近场通信)模块，以促进短程通信。例如，在NFC模块可基于RFID(Radio FrequencyIdentification,射频识别)技术，IrDA(Infra-red Data Association,红外数据协会)技术，UWB(Ultra Wideband,超宽带)技术，BT(Bluetooth,蓝牙)技术和其他技术来实现。

在示例性实施例中，装置400可以被一个或多个ASIC(Application SpecificIntegrated Circuit,应用专用集成电路)、DSP(Digital signal Processor,数字信号处理器)、DSPD(Digital signal Processor Device，数字信号处理设备)、PLD(ProgrammableLogic Device,可编程逻辑器件)、FPGA)(Field Programmable Gate Array,现场可编程门阵列)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述音乐情感识别方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器404，上述指令可由装置400的处理器420执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、RAM(Random Access Memory,随机存取存储器)、CD-ROM(Compact Disc Read-OnlyMemory,光盘只读存储器)、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由音乐情感识别装置的处理器执行时，使得音乐情感识别装置能够执行上述音乐情感识别方法。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种音乐情感识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在所述从音频样本数据中提取音频特征数据之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述卷积神经网络为多层结构的网络模型，所述将所述音频特征数据输入至卷积神经网络进行训练，得到情感分类模型包括：

4.根据权利要求1所述的方法，其特征在于，所述递归神经网络为多层结构的网络模型，所述将所述各个情感维度的局部平移不变特征输入至递归神经网络中进行训练，得到音乐情感识别模型包括：

通过所述递归神经网络的输出层根据所述多维度的局部平移不变特征在各个情感维度上的权重参数，构建用于识别音频数据在各个情感维度上的音乐情感识别模型。

5.根据权利要求4所述的方法，其特征在于，所述递归神经网络的隐含层内设置有双向门控循环单元，所述通过所述递归神经网络的隐含层根据音频特征数据所携带的各个情感维度标注值来优化所述多维度的局部平移不变特征在各个情感维度上的权重参数包括：

6.根据权利要求2所述的方法，其特征在于，在根据所述音乐情感识别模型对待识别音频数据进行音乐情感识别，得到音乐情感识别结果之后，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，在所述将所述音乐情感识别模型的均方根误差作为衡量所述音乐情感识别模型的统计矩阵，对所述音乐情感识别结果进行校验之后，所述方法还包括：

8.一种音乐情感识别装置，其特征在于，所述装置包括：

提取单元，用于从音频样本数据中提取音频特征数据；

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述音乐情感识别方法的步骤。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述音乐情感识别方法的步骤。