CN116705074A - 一种基于音乐旋律频谱图进行情感识别的方法 - Google Patents
一种基于音乐旋律频谱图进行情感识别的方法 Download PDFInfo
- Publication number
- CN116705074A CN116705074A CN202310536232.8A CN202310536232A CN116705074A CN 116705074 A CN116705074 A CN 116705074A CN 202310536232 A CN202310536232 A CN 202310536232A CN 116705074 A CN116705074 A CN 116705074A
- Authority
- CN
- China
- Prior art keywords
- emotion
- features
- spectrogram
- dimensional
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 13
- 230000008451 emotion Effects 0.000 claims abstract description 48
- 238000013135 deep learning Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 abstract description 5
- 238000000605 extraction Methods 0.000 abstract description 5
- 230000007547 defect Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 abstract description 2
- 239000000284 extract Substances 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 230000001537 neural effect Effects 0.000 description 3
- 230000008034 disappearance Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Hospice & Palliative Care (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Child & Adolescent Psychology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明提供了一种基于音乐旋律频谱图进行情感识别的方法,涉及音乐识别技术领域,包括如下步骤:获取若干条具有音乐旋律的音频数据;将若干条音频数据进行分类标记,获得情感数据集;将情感数据集通过短时傅里叶变换生成包含音频特征的三维频谱图;对深度学习网络模型输入三维频谱图进行训练获得基于深度学习的分类器;通过分类器进行情感特征提取,并对提取情感特征的待识别音频数据进行情感分类。本发明不仅提高了分类器的分类精度且对音乐旋律的特征提取全面,避免了多模态特征提取深度学习网络复杂的缺点,简化了神经网络促进了深度学习在音乐检索的应用,全面且有效率的提高了针对音乐旋律分析的效果。
Description
技术领域
本发明涉及音乐识别技术领域,尤其涉及一种基于音乐旋律频谱图进行情感识别的方法。
背景技术
随着移动终端设备的不断普及,在线电子音乐市场取得了飞速发展,人们可以从多种渠道访问到海量的音乐资源。为了方便听众获取音乐作品,各大音乐平台会使用情感、流派等标签来整理和组织音乐作品。由于音乐是情感的载体,因此利用情感来管理音乐作品显得尤为重要。然而对音乐作品进行人工情感标注不仅费时费力,并且出错率高,因此,利用人工智能技术自动识别音乐情感的研究具有现实意义。通过计算机对音乐情感进行分类或者使计算机理解音乐的情感是一个难题,但它又是十分需要的技术。
现有的音乐情感分类包含歌词特征,纯音乐旋律没有歌词特征,其情感识别特征维度多样更加抽象,歌词特征直观表达其情感,其情感识别特征维度多样更加抽象,歌词特征直观表达其情感,纯音乐旋律的情感分类更加复杂,同时音乐转换成MIDI数据需要花费人工与时间,音乐识别效率低,成本大,且处理过程丢失把部分音频特征。
发明内容
本发明提供了一种基于音乐旋律频谱图进行情感识别的方法,目的是为了解决现有技术中音乐识别效率低,成本大,且处理过程丢失把部分音频特征的问题。
为了实现上述目的,本发明提供如下技术方案:一种基于音乐旋律频谱图进行情感识别的方法,包括如下步骤:
获取若干条具有音乐旋律的音频数据;
将若干条所述音频数据进行分类标记,获得情感数据集;
将所述情感数据集通过短时傅里叶变换生成包含音频特征的三维频谱图;
构建深度学习网络模型,对所述深度学习网络模型输入三维频谱图进行训练,获得基于深度学习的分类器;
将待识别的音频数据输入训练后所述深度学习网络模型,通过所述分类器进行情感特征提取,获得提取数据;
通过提取数据对并对提取情感特征的待识别音频数据进行情感分类。
优选的,所述将若干条所述音频数据进行分类标记,获得情感数据集,包括如下步骤:
将若干条所述音频数据利用二维情感模型进行分类标记,将所述音频数据分割到代表不同情感的四个象限;
通过分类标记后的不同情感数据构建情感数据集。
优选的,所述深度学习网络模型包括:
一维卷积神经网络,用于处理音频的时序信号;
多个调整后的Inception结构,用于通过多个扩展-压缩-扩展通路并行以扩展特征的多样性;
一维残差结构,用于对深度网络的梯度进行加深;
GRU模型,用于解决音乐时序信号,并通过门控对有效特征进行保留。
优选的,所述调整后的Inception结构处理三维频谱图时,包括如下步骤:
使用不同尺寸的卷积核作为感受野提取不同维度的特征;
使用一维卷积神经网络对所述特征进行压缩与扩展;
对所述压缩与扩展后特征进行重构输出。
优选的,所述使用一维卷积神经网络对所述特征进行压缩与扩展,具体包括如下步骤:
对所述特征压缩时,对所述特征进行降维,提取频谱图中的目标信息;
将所述目标信息输入一维卷积神经网络进行训练;
对训练后的目标信息进行特征扩展,将特征还原到初始维度。
优选的,所述一维残差结构输出不同时序的特征,并将所述不同时序的特征输入到GRU模型中对应的GRU单元,根据音频数据的时序特点捕捉长序列之间的语义关联。
本发明与现有技术相比具有以下有益效果:
本发明通过包含全部音乐旋律特征的三维频谱图对音乐进行情感分类,不仅提高了分类器的分类精度且对音乐旋律的特征提取全面,避免了多模态特征提取深度学习网络复杂的缺点,简化了神经网络促进了深度学习在音乐检索的应用,全面且有效率的提高了针对音乐旋律分析的效果,减少人工情感标注的作业量,提高音乐检索的效率。
附图说明
图1为本发明提供的整体流程图;
图2为本发明提供的二维情感模型图;
图3为本发明提供的深度学习网络模型图;
图4为本发明提供的优化的Inception模块图;
图5为本发明提供的残差结构与GRU模块结合图。
具体实施方式
下面结合附图,对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明直接利用深度学习方法对音乐旋律音频自动生成生成三维频谱图,由音频直接生成的频谱图是对音乐所有特征(响度、音高、发声时间、节奏等特征)融合后的表征。利用基于深度学习方法对频谱图进行特征提取与分类不仅提高了分类精度而且提高了特征提取的深度与广度。可以广泛应用于音乐曲目的自动化搜索、推荐及音乐治疗领域。
为了理解和说明,下面详细说明本发明实施例的一种基于音乐旋律频谱图进行情感识别的方法,包括步骤:
步骤1:获取若干条具有音乐旋律的音频数据。
步骤2:将若干条音频数据进行分类标记,获得情感数据集。
其中,音频标记:将找到的音频360条音乐旋律利用而为情感模型进行分类标记,利用此方法将音乐分到四个象限,四个象限分别代表了不同的进本情感。
步骤2.1:将若干条所述音频数据利用二维情感模型进行分类标记,将所述音频数据分割到代表不同情感的四个象限。
步骤2.2:通过分类标记后的不同情感数据构建情感数据集。
步骤3:将情感数据集通过短时傅里叶变换生成包含音频特征的三维频谱图。
具体的,进行音频预处理:将音频剪辑为30s片段,利用python音频短时傅里叶变化工具包将音频处理为带有音乐音频信息的三维频谱图。
步骤4:构建深度学习网络模型,对深度学习网络模型输入三维频谱图进行训练,获得基于深度学习的分类器。
深度学习网络模型包括:一维卷积神经网络,用于处理音频的时序信号;多个调整后的Inception结构,在inceptionV1的基础上进行调整,通过多个扩展-压缩-扩展通路并行以扩展特征的多样性,能有效的保留主要特征的同时保证有效特征信息的挖掘;一维残差结构,用于对深度网络的梯度进行加深,避免深度网络梯度消失;GRU模型,用于解决音乐时序信号,并通过门控对有效特征进行保留。
一维残差结构输出不同时序的特征,并将所述不同时序的特征输入到GRU模型中对应的GRU单元,根据音频数据的时序特点捕捉长序列之间的语义关联。
调整后的Inception结构处理三维频谱图时,包括步骤:
步骤4.1:使用不同尺寸的卷积核作为感受野提取不同维度的特征。
步骤4.2:使用一维卷积神经网络对特征进行压缩与扩展。
对特征压缩时,对所述特征进行降维,提取频谱图中的目标信息;将目标信息输入一维卷积神经网络进行训练;对训练后的目标信息进行特征扩展,将特征还原到初始维度。
步骤4.3:对所述压缩与扩展后特征进行重构输出。
其中优化的inception模块参考Inception结构思想,使用不同尺寸的卷积核作为感受野提取不同维度的特征,神经元感受野的值越大表示其能接触到的原始图像范围就越大,也意味着他可能蕴含更为全局、语义层次更高的特征;而值越小则表示其所包含的特征越趋向于局部和细节,从而增加网络对不同维度的适用性,使得特恒提取的信息可以互补,特征提取更加全面。此结构中,使用以为卷积神经网络对特征进行压缩与扩展,压缩过程中进行特征降维,提取出频谱图中最具代表性的信息,缩减输入信息量,再把缩减过后的信息放进神经网络学习。这样可减少神经网络自动学习负担。再通过特征扩展进行升唯,再使得特征还原到初始维度来重构特征输出,形成一种对输入特征进行压缩-扩展-压缩结构,此过程能有效的保留主要特征的同时保证有效特征信息的挖掘,保留尽可能多的信息,使新表征具有多种不同的属性。优化的Inception模块如图所示。
将残差结构与GRU模块结合在一起的优势在于,在解决深度神经网络的梯度消失与网络退化的同时,提取高维特征并能够获得更高的分类精度。并将残差结构输出的不同时序的特征输送到对应时序的GRU单元,最终根据音频数据的时序特点捕捉长序列之间的语义关联更好地捕捉音频数据中的时序特征,并进一步缓解梯度消失问题。
步骤5:将待识别的音频数据输入训练后深度学习网络模型,通过分类器进行情感特征提取,获得提取数据,通过提取数据对并对提取情感特征的待识别音频数据进行情感分类。
并测试精度,其精度如表1所示:
表1精度对比表
CLASS | PRECISION | RECALL | F1-SCORE |
Anger | 0.88 | 0.79 | 0.86 |
Sad | 0.69 | 0.88 | 0.71 |
Tender | 0.63 | 0.63 | 0.72 |
Happy | 0.93 | 0.93 | 0.80 |
与不同的分类模型对比我们提出的方法优势明显,对比如表2所示:
表2不同模型对比表
以上所述实施例仅为本发明较佳的具体实施方式,本发明的保护范围不限于此,任何熟悉本领域的技术人员在本发明披露的技术范围内,可显而易见地得到的技术方案的简单变化或等效替换,均属于本发明的保护范围。
Claims (6)
1.一种基于音乐旋律频谱图进行情感识别的方法,其特征在于,包括如下步骤:
获取若干条具有音乐旋律的音频数据;
将若干条所述音频数据进行分类标记,获得情感数据集;
将所述情感数据集通过短时傅里叶变换生成包含音频特征的三维频谱图;
构建深度学习网络模型,对所述深度学习网络模型输入三维频谱图进行训练,获得基于深度学习的分类器;
将待识别的音频数据输入训练后所述深度学习网络模型,通过所述分类器进行情感特征提取,获得提取数据;
通过提取数据对待识别音频数据进行情感分类。
2.如权利要求1所述的一种基于音乐旋律频谱图进行情感识别的方法,其特征在于,所述将若干条所述音频数据进行分类标记,获得情感数据集,包括如下步骤:
将若干条所述音频数据利用二维情感模型进行分类标记,将所述音频数据分割到代表不同情感的四个象限;
通过分类标记后的不同情感数据构建情感数据集。
3.如权利要求1所述的一种基于音乐旋律频谱图进行情感识别的方法,其特征在于,所述深度学习网络模型包括:
一维卷积神经网络,用于处理音频的时序信号;
多个调整后的Inception结构,用于通过多个扩展-压缩-扩展通路并行以扩展特征的多样性;
一维残差结构,用于对深度网络的梯度进行加深;
GRU模型,用于解决音乐时序信号,并通过门控对有效特征进行保留。
4.如权利要求3所述的一种基于音乐旋律频谱图进行情感识别的方法,其特征在于,所述调整后的Inception结构处理三维频谱图时,包括如下步骤:
使用不同尺寸的卷积核作为感受野提取不同维度的特征;
使用一维卷积神经网络对所述特征进行压缩与扩展;
对所述压缩与扩展后特征进行重构输出。
5.如权利要求4所述的一种基于音乐旋律频谱图进行情感识别的方法,其特征在于,所述使用一维卷积神经网络对所述特征进行压缩与扩展,具体包括如下步骤:
对所述特征压缩时,对所述特征进行降维,提取频谱图中的目标信息;
将所述目标信息输入一维卷积神经网络进行训练;
对训练后的目标信息进行特征扩展,将特征还原到初始维度。
6.如权利要求3所述的一种基于音乐旋律频谱图进行情感识别的方法,其特征在于,所述一维残差结构输出不同时序的特征,并将所述不同时序的特征输入到GRU模型中对应的GRU单元,根据音频数据的时序特点捕捉长序列之间的语义关联。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310536232.8A CN116705074A (zh) | 2023-05-12 | 2023-05-12 | 一种基于音乐旋律频谱图进行情感识别的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310536232.8A CN116705074A (zh) | 2023-05-12 | 2023-05-12 | 一种基于音乐旋律频谱图进行情感识别的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116705074A true CN116705074A (zh) | 2023-09-05 |
Family
ID=87842361
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310536232.8A Pending CN116705074A (zh) | 2023-05-12 | 2023-05-12 | 一种基于音乐旋律频谱图进行情感识别的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116705074A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117828537A (zh) * | 2024-03-04 | 2024-04-05 | 北京建筑大学 | 一种基于cba模型的音乐情感识别方法和装置 |
-
2023
- 2023-05-12 CN CN202310536232.8A patent/CN116705074A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117828537A (zh) * | 2024-03-04 | 2024-04-05 | 北京建筑大学 | 一种基于cba模型的音乐情感识别方法和装置 |
CN117828537B (zh) * | 2024-03-04 | 2024-05-17 | 北京建筑大学 | 一种基于cba模型的音乐情感识别方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Er et al. | Music emotion recognition by using chroma spectrogram and deep visual features | |
Li et al. | Speech emotion recognition using 1d cnn with no attention | |
CN111444967A (zh) | 生成对抗网络的训练方法、生成方法、装置、设备及介质 | |
CN116705074A (zh) | 一种基于音乐旋律频谱图进行情感识别的方法 | |
Bhattarai et al. | Automatic music mood detection using transfer learning and multilayer perceptron | |
Chowdhuri | Phononet: multi-stage deep neural networks for raga identification in hindustani classical music | |
CN111782863A (zh) | 音频分段方法、装置、存储介质及电子设备 | |
Koops et al. | Automatic segmentation and deep learning of bird sounds | |
Zhang et al. | Learning audio sequence representations for acoustic event classification | |
Iqbal et al. | Mfcc and machine learning based speech emotion recognition over tess and iemocap datasets | |
CN103366175A (zh) | 基于潜在狄利克雷分配的自然图像分类方法 | |
Luitel et al. | Audio Sentiment Analysis using Spectrogram and Bag-of-Visual-Words | |
Ahmed et al. | Musical genre classification on the marsyas audio data using convolution NN | |
CN110556092A (zh) | 语音的合成方法及装置、存储介质、电子装置 | |
Nasridinov et al. | A study on music genre recognition and classification techniques | |
Henri et al. | A deep transfer learning model for the identification of bird songs: A case study for Mauritius | |
Nagavi et al. | Content based audio retrieval with MFCC feature extraction, clustering and sort-merge techniques | |
Hammed et al. | Using Speech Signal for Emotion Recognition Using Hybrid Features with SVM Classifier | |
Geroulanos et al. | Emotion Recognition in Music Using Deep Neural Networks | |
Chen et al. | Cross-cultural music emotion recognition by adversarial discriminative domain adaptation | |
DURDAG et al. | A New Genre Classification with the Colors of Music | |
Yang | Music Genre Classification With Neural Networks: An Examination Of Several Impactful Variables | |
Rezapour Mashhadi et al. | Speech emotion recognition using machine learning techniques: Feature extraction and comparison of convolutional neural network and random forest | |
Behún | Image features in music style recognition | |
Hassen et al. | Classifying music genres using image classification neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |