CN116705074A

CN116705074A - 一种基于音乐旋律频谱图进行情感识别的方法

Info

Publication number: CN116705074A
Application number: CN202310536232.8A
Authority: CN
Inventors: 韩霄; 陈复扬; 板俊荣; 王天熙
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-05-12
Filing date: 2023-05-12
Publication date: 2023-09-05

Abstract

本发明提供了一种基于音乐旋律频谱图进行情感识别的方法，涉及音乐识别技术领域，包括如下步骤：获取若干条具有音乐旋律的音频数据；将若干条音频数据进行分类标记，获得情感数据集；将情感数据集通过短时傅里叶变换生成包含音频特征的三维频谱图；对深度学习网络模型输入三维频谱图进行训练获得基于深度学习的分类器；通过分类器进行情感特征提取，并对提取情感特征的待识别音频数据进行情感分类。本发明不仅提高了分类器的分类精度且对音乐旋律的特征提取全面，避免了多模态特征提取深度学习网络复杂的缺点，简化了神经网络促进了深度学习在音乐检索的应用，全面且有效率的提高了针对音乐旋律分析的效果。

Description

一种基于音乐旋律频谱图进行情感识别的方法

技术领域

本发明涉及音乐识别技术领域，尤其涉及一种基于音乐旋律频谱图进行情感识别的方法。

背景技术

随着移动终端设备的不断普及，在线电子音乐市场取得了飞速发展，人们可以从多种渠道访问到海量的音乐资源。为了方便听众获取音乐作品，各大音乐平台会使用情感、流派等标签来整理和组织音乐作品。由于音乐是情感的载体，因此利用情感来管理音乐作品显得尤为重要。然而对音乐作品进行人工情感标注不仅费时费力，并且出错率高，因此，利用人工智能技术自动识别音乐情感的研究具有现实意义。通过计算机对音乐情感进行分类或者使计算机理解音乐的情感是一个难题，但它又是十分需要的技术。

现有的音乐情感分类包含歌词特征，纯音乐旋律没有歌词特征，其情感识别特征维度多样更加抽象，歌词特征直观表达其情感，其情感识别特征维度多样更加抽象，歌词特征直观表达其情感，纯音乐旋律的情感分类更加复杂，同时音乐转换成MIDI数据需要花费人工与时间，音乐识别效率低，成本大，且处理过程丢失把部分音频特征。

发明内容

本发明提供了一种基于音乐旋律频谱图进行情感识别的方法，目的是为了解决现有技术中音乐识别效率低，成本大，且处理过程丢失把部分音频特征的问题。

为了实现上述目的，本发明提供如下技术方案：一种基于音乐旋律频谱图进行情感识别的方法，包括如下步骤：

获取若干条具有音乐旋律的音频数据；

将若干条所述音频数据进行分类标记，获得情感数据集；

将所述情感数据集通过短时傅里叶变换生成包含音频特征的三维频谱图；

构建深度学习网络模型，对所述深度学习网络模型输入三维频谱图进行训练，获得基于深度学习的分类器；

将待识别的音频数据输入训练后所述深度学习网络模型，通过所述分类器进行情感特征提取，获得提取数据；

通过提取数据对并对提取情感特征的待识别音频数据进行情感分类。

优选的，所述将若干条所述音频数据进行分类标记，获得情感数据集，包括如下步骤：

将若干条所述音频数据利用二维情感模型进行分类标记，将所述音频数据分割到代表不同情感的四个象限；

通过分类标记后的不同情感数据构建情感数据集。

优选的，所述深度学习网络模型包括：

一维卷积神经网络，用于处理音频的时序信号；

多个调整后的Inception结构，用于通过多个扩展-压缩-扩展通路并行以扩展特征的多样性；

一维残差结构，用于对深度网络的梯度进行加深；

GRU模型，用于解决音乐时序信号，并通过门控对有效特征进行保留。

优选的，所述调整后的Inception结构处理三维频谱图时，包括如下步骤：

使用不同尺寸的卷积核作为感受野提取不同维度的特征；

使用一维卷积神经网络对所述特征进行压缩与扩展；

对所述压缩与扩展后特征进行重构输出。

优选的，所述使用一维卷积神经网络对所述特征进行压缩与扩展，具体包括如下步骤：

对所述特征压缩时，对所述特征进行降维，提取频谱图中的目标信息；

将所述目标信息输入一维卷积神经网络进行训练；

对训练后的目标信息进行特征扩展，将特征还原到初始维度。

优选的，所述一维残差结构输出不同时序的特征，并将所述不同时序的特征输入到GRU模型中对应的GRU单元，根据音频数据的时序特点捕捉长序列之间的语义关联。

本发明与现有技术相比具有以下有益效果：

本发明通过包含全部音乐旋律特征的三维频谱图对音乐进行情感分类，不仅提高了分类器的分类精度且对音乐旋律的特征提取全面，避免了多模态特征提取深度学习网络复杂的缺点，简化了神经网络促进了深度学习在音乐检索的应用，全面且有效率的提高了针对音乐旋律分析的效果，减少人工情感标注的作业量，提高音乐检索的效率。

附图说明

图1为本发明提供的整体流程图；

图2为本发明提供的二维情感模型图；

图3为本发明提供的深度学习网络模型图；

图4为本发明提供的优化的Inception模块图；

图5为本发明提供的残差结构与GRU模块结合图。

具体实施方式

下面结合附图，对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明直接利用深度学习方法对音乐旋律音频自动生成生成三维频谱图，由音频直接生成的频谱图是对音乐所有特征(响度、音高、发声时间、节奏等特征)融合后的表征。利用基于深度学习方法对频谱图进行特征提取与分类不仅提高了分类精度而且提高了特征提取的深度与广度。可以广泛应用于音乐曲目的自动化搜索、推荐及音乐治疗领域。

为了理解和说明，下面详细说明本发明实施例的一种基于音乐旋律频谱图进行情感识别的方法，包括步骤：

步骤1：获取若干条具有音乐旋律的音频数据。

步骤2：将若干条音频数据进行分类标记，获得情感数据集。

其中，音频标记：将找到的音频360条音乐旋律利用而为情感模型进行分类标记，利用此方法将音乐分到四个象限，四个象限分别代表了不同的进本情感。

步骤2.1：将若干条所述音频数据利用二维情感模型进行分类标记，将所述音频数据分割到代表不同情感的四个象限。

步骤2.2：通过分类标记后的不同情感数据构建情感数据集。

步骤3：将情感数据集通过短时傅里叶变换生成包含音频特征的三维频谱图。

具体的，进行音频预处理：将音频剪辑为30s片段，利用python音频短时傅里叶变化工具包将音频处理为带有音乐音频信息的三维频谱图。

步骤4：构建深度学习网络模型，对深度学习网络模型输入三维频谱图进行训练，获得基于深度学习的分类器。

深度学习网络模型包括：一维卷积神经网络，用于处理音频的时序信号；多个调整后的Inception结构，在inceptionV1的基础上进行调整，通过多个扩展-压缩-扩展通路并行以扩展特征的多样性，能有效的保留主要特征的同时保证有效特征信息的挖掘；一维残差结构，用于对深度网络的梯度进行加深，避免深度网络梯度消失；GRU模型，用于解决音乐时序信号，并通过门控对有效特征进行保留。

一维残差结构输出不同时序的特征，并将所述不同时序的特征输入到GRU模型中对应的GRU单元，根据音频数据的时序特点捕捉长序列之间的语义关联。

调整后的Inception结构处理三维频谱图时，包括步骤：

步骤4.1：使用不同尺寸的卷积核作为感受野提取不同维度的特征。

步骤4.2：使用一维卷积神经网络对特征进行压缩与扩展。

对特征压缩时，对所述特征进行降维，提取频谱图中的目标信息；将目标信息输入一维卷积神经网络进行训练；对训练后的目标信息进行特征扩展，将特征还原到初始维度。

步骤4.3：对所述压缩与扩展后特征进行重构输出。

其中优化的inception模块参考Inception结构思想，使用不同尺寸的卷积核作为感受野提取不同维度的特征，神经元感受野的值越大表示其能接触到的原始图像范围就越大，也意味着他可能蕴含更为全局、语义层次更高的特征；而值越小则表示其所包含的特征越趋向于局部和细节，从而增加网络对不同维度的适用性，使得特恒提取的信息可以互补，特征提取更加全面。此结构中，使用以为卷积神经网络对特征进行压缩与扩展，压缩过程中进行特征降维，提取出频谱图中最具代表性的信息,缩减输入信息量,再把缩减过后的信息放进神经网络学习。这样可减少神经网络自动学习负担。再通过特征扩展进行升唯，再使得特征还原到初始维度来重构特征输出，形成一种对输入特征进行压缩-扩展-压缩结构，此过程能有效的保留主要特征的同时保证有效特征信息的挖掘，保留尽可能多的信息，使新表征具有多种不同的属性。优化的Inception模块如图所示。

将残差结构与GRU模块结合在一起的优势在于，在解决深度神经网络的梯度消失与网络退化的同时，提取高维特征并能够获得更高的分类精度。并将残差结构输出的不同时序的特征输送到对应时序的GRU单元，最终根据音频数据的时序特点捕捉长序列之间的语义关联更好地捕捉音频数据中的时序特征，并进一步缓解梯度消失问题。

步骤5:将待识别的音频数据输入训练后深度学习网络模型，通过分类器进行情感特征提取，获得提取数据，通过提取数据对并对提取情感特征的待识别音频数据进行情感分类。

并测试精度，其精度如表1所示：

表1精度对比表

CLASS	PRECISION	RECALL	F1-SCORE
				Anger	0.88	0.79	0.86
Sad	0.69	0.88	0.71
				Tender	0.63	0.63	0.72
Happy	0.93	0.93	0.80

与不同的分类模型对比我们提出的方法优势明显，对比如表2所示：

表2不同模型对比表

以上所述实施例仅为本发明较佳的具体实施方式，本发明的保护范围不限于此，任何熟悉本领域的技术人员在本发明披露的技术范围内，可显而易见地得到的技术方案的简单变化或等效替换，均属于本发明的保护范围。

Claims

1.一种基于音乐旋律频谱图进行情感识别的方法，其特征在于，包括如下步骤：

获取若干条具有音乐旋律的音频数据；

将若干条所述音频数据进行分类标记，获得情感数据集；

通过提取数据对待识别音频数据进行情感分类。

2.如权利要求1所述的一种基于音乐旋律频谱图进行情感识别的方法，其特征在于，所述将若干条所述音频数据进行分类标记，获得情感数据集，包括如下步骤：

通过分类标记后的不同情感数据构建情感数据集。

3.如权利要求1所述的一种基于音乐旋律频谱图进行情感识别的方法，其特征在于，所述深度学习网络模型包括：

一维卷积神经网络，用于处理音频的时序信号；

一维残差结构，用于对深度网络的梯度进行加深；

4.如权利要求3所述的一种基于音乐旋律频谱图进行情感识别的方法，其特征在于，所述调整后的Inception结构处理三维频谱图时，包括如下步骤：

使用不同尺寸的卷积核作为感受野提取不同维度的特征；

使用一维卷积神经网络对所述特征进行压缩与扩展；

对所述压缩与扩展后特征进行重构输出。

5.如权利要求4所述的一种基于音乐旋律频谱图进行情感识别的方法，其特征在于，所述使用一维卷积神经网络对所述特征进行压缩与扩展，具体包括如下步骤：

将所述目标信息输入一维卷积神经网络进行训练；

6.如权利要求3所述的一种基于音乐旋律频谱图进行情感识别的方法，其特征在于，所述一维残差结构输出不同时序的特征，并将所述不同时序的特征输入到GRU模型中对应的GRU单元，根据音频数据的时序特点捕捉长序列之间的语义关联。