CN110674339A - 一种基于多模态融合的中文歌曲情感分类方法 - Google Patents
一种基于多模态融合的中文歌曲情感分类方法 Download PDFInfo
- Publication number
- CN110674339A CN110674339A CN201910879131.4A CN201910879131A CN110674339A CN 110674339 A CN110674339 A CN 110674339A CN 201910879131 A CN201910879131 A CN 201910879131A CN 110674339 A CN110674339 A CN 110674339A
- Authority
- CN
- China
- Prior art keywords
- emotion
- audio
- features
- song
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 174
- 230000004927 fusion Effects 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000005236 sound signal Effects 0.000 claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 19
- 238000013145 classification model Methods 0.000 claims abstract description 8
- 238000007500 overflow downdraw method Methods 0.000 claims description 15
- 102100032202 Cornulin Human genes 0.000 claims description 11
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 claims description 2
- 230000002596 correlated effect Effects 0.000 abstract 1
- 238000002474 experimental method Methods 0.000 description 8
- 238000011160 research Methods 0.000 description 8
- 230000002996 emotional effect Effects 0.000 description 6
- 238000011176 pooling Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 241000282376 Panthera tigris Species 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000001149 cognitive effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008909 emotion recognition Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 210000000697 sensory organ Anatomy 0.000 description 2
- 241000288105 Grus Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/65—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/685—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多模态融合的中文歌曲情感分类方法,首先从音频信号中获取声谱图,并提取音频低层特征,然后基于LLD‑CRNN模型进行音频特征学习,从而得到中文歌曲的音频特征;对于歌词和评论信息,首先构建音乐情感词典,然后以该词典为基础,构造基于情感强度和词性的情感向量,从而得到中文歌曲的文本特征;最后使用决策融合和特征融合两种方法进行多模态融合,得到中文歌曲的情感类别。本方法基于LLD‑CRNN的音乐情感分类模型,该模型结合使用声谱图和音频低层特征作为输入序列。LLD集中在时域或频域,对于时、频特性关联变化的音频信号,而声谱图是音频信号在频率上的二维表示,在信息量上损失较少,因此,LLD和声谱图可以实现信息互补。
Description
技术领域
本发明涉及自然语言处理技术、音频信号处理技术和深度学习领域,尤其涉及一种基于多模态融合的中文歌曲情感分类方法。
背景技术
随着计算机网络与多媒体技术的快速发展,互联网上涌现了越来越多的文本、图像、音频和视频等多媒体数据。音乐是多媒体数据的重要组成部分,面对音乐作品数量的爆炸式增长,音乐种类的不断增多,音乐作品的组织和检索问题受到了专家学者的广泛关注。音乐是情感的载体,情感是音乐最重要的语义信息,情感词是在检索和描述音乐时最常用的词,因此,基于情感进行音乐分类能够有效提高音乐检索的效率,并逐渐成为研究热点。音乐情感分类属于音乐心理学和计算机学科的交叉领域,相关的研究具有重要意义。目前,音乐情感分类广泛应用于音乐数据库管理、音乐检索、音乐推荐和音乐治疗等领域。
采用纯人工的方式标记音乐情感效率较低,并且质量无法保证,难以满足海量音乐作品的情感标注需求,因此,越来越多的专家开始研究音乐情感自动识别技术。迄今为止,音乐情感自动识别的研究已有十几年的历史,国内外众多学者都对该领域做了深入的研究,并取得了一定成果。传统的音乐情感分类方法多数侧重于歌词或音频进行分析,但是单模态的数据只能获取对象的部分特性,仅利用单一模态的数据进行分类存在一定程度的信息缺失。近年来,越来越多的研究者开始关注多模态融合技术,该技术也为音乐情感分类问题提供了新的解决方案。
认知心理学研究表明,人脑通过对不同感官的信息进行综合判断,最终产生认知结果,这也表明了不同感官的信息具有互补性和相关性。“模态”即“感官”,多模态融合即将视觉、听觉、触觉、嗅觉等多种感官融合。相同的语义信息可以用音频、文本、图像等信息共同表达出来,例如,老虎的吼声,描述老虎的文字和包含老虎的图片均可以表达“老虎”这一语义概念。与传统的单模态研究相比,多模态信息具有更丰富的语义信息,表达效率和信息完整度更高。一般来说,基于多模态融合的分类方法比基于单一信息源的分类方法具有更好的分类性能。音乐主要由音频信号与歌词文本这两种模态的数据组成。音频中往往蕴含着情感的表达,密集型的节奏令人心情愉悦,而松散型的节奏令人心情宁静。同时,文字是人们表达情感的一种方式,歌词文本也可以体现音乐表达的情感,因此,结合音频和歌词文本将可以有效提高音乐情感分类的准确率。
发明内容
针对上述问题,本发明的目的在于采用了一种基于多模态融合技术的音乐情感分类方法,通过结合音频、歌词和音乐评论对中文歌曲的情感进行分类。
本发明主要思考是:传统的音乐情感分类方法多数侧重于歌词或音频进行分析,但是单模态数据所包含的语义信息有限,无法完全表达音乐情感。本发明以中文歌曲作为研究对象,基于多模态融合进行音乐情感分类。将深度学习方法用于音乐情感识别有助于跨越音频低层特征(Low Level Descriptors,LLD)和音乐高层情感概念之间的语义鸿沟,并且卷积循环神经网络适用于序列数据建模,本发明将卷积循环神经网络(ConvolutionalRecurrent Neural Network,CRNN)应用于音乐情感分类,提出一种基于LLD-CRNN的音乐情感分类模型。与音频低层特征相比,声谱图包含更多的音频信息,因此,该模型结合使用声谱图和音频低层特征作为输入序列,以实现信息互补。此外,音乐评论的情感倾向也可以体现音乐表达的情感,本发明提出了一种面向中文歌词和评论的音乐情感分类方法,通过结合歌词和评论文本挖掘更丰富的情感信息,并在构建情感向量时综合考虑了情感词的词频、情感强度和词性对情感分类的影响作用。
对于音频信息,首先从音频信号中获取声谱图,并提取音频低层特征,然后基于LLD-CRNN模型进行音频特征学习,从而得到中文歌曲的音频特征;对于歌词和评论信息,首先构建音乐情感词典,然后以该词典为基础,构造基于情感强度和词性的情感向量,从而得到中文歌曲的文本特征;最后使用决策融合和特征融合两种方法进行多模态融合,得到中文歌曲的情感类别。
该方法包括以下步骤:
步骤一,输入原始中文歌曲数据。
原始中文歌曲数据包括:训练样本集、训练样本集标签、测试样本集和测试样本集标签。训练样本集标签、测试样本集标签即为每个样本数据对应的数据所属类别。每个样本数据包含原始中文歌曲的歌词、音乐评论和音频。
步骤二,从歌曲的音频信号中获取声谱图,并提取音频特征。
音频信号是一个一维数组,该数组的长度由音频的时长和采样频率决定。通常从时域和频域两个角度分析音频信号特征,音频信号在时域上的变化快速而不稳定,并且频域信号比时域信号更符合人类听觉机制,一般将音频信号从时域转到频域,进而对音频进行分析。将歌曲的音频信号进行分帧加窗等预处理后,对每一帧做快速傅里叶变换,将时域信号转换为频域信号,把每一帧经过变换后的频域信号在时间上堆叠起来得到声谱图。此外,从音频信号中提取音频低层特征,音频低层特征包括Mel频率倒谱系数、基频特征、共振峰特征、八音频谱对比度和Chroma特征。
步骤三,基于LLD-CRNN模型学习音频特征。
LLD-CRNN模型主要分为两个部分,分别以CRNN和双向门限循环单元模型(Bi-directional Gated Recurrent Unit,Bi-GRU)作为分类模型。该分类模型结合使用声谱图和音频低层特征作为输入序列,以实现信息互补。CRNN部分将声谱图作为输入,提取音频的局部特征和序列特征;LLD作为Bi-GRU部分的输入,进一步获取音频特征的序列信息;最后将CRNN部分和Bi-GRU部分的音频特征连接后作为多模态音乐情感分类任务中的音频特征。
步骤四,构建音乐情感词典。
首先以VA情感模型为基础构建情感词表,采用Word2vec中词语相似度计算的思想扩展情感词表,构建中文音乐情感词典,词典中包含每个词的情感类别和情感权值。
步骤五,提取文本特征
以音乐情感词典为基础构造中文歌曲的文本特征,其中,文本包括歌词和评论。首先,对歌曲相关文本进行分词、去停用词、词性标注和词频统计等预处理操作。然后,采用情感词表中的4维情感类别作为情感向量,将文本中的实词与情感词典进行匹配,得到每个实词的情感类别和情感权值。最后,采用词频逆文档频率(Term Frequency-InverseDocument Frequency,TF-IDF)规则计算出每个情感类别的统计值,并进一步考虑词性对情感分类的影响,将情感向量扩展到16个维度。
步骤六,基于多模态融合进行中文歌曲情感分类。
将步骤三中得到的音频特征和步骤五中构造的文本特征进行多模态融合,得到中文歌曲的情感类别。多模态融合方法包括决策融合和特征融合两种方法,其中决策融合采用线性结合和子任务结合两种方式。实验结果如下表所示。
表1实验结果
为了验证本发明所提出的的多模态音乐情感分类方法的有效性,并对比不同多模态融合方法的分类效果,分别从准确率、精确率、召回率和F1值4个方面对比仅面向歌词和评论的音乐情感分类(Text-Only)、基于LLD-CRNN的音乐情感分类(Audio-Only)、采用线性结合决策融合的多模态音乐情感分类(Decision Fusion by Liner Combination,DFLC)、采用子任务结合决策融合的多模态音乐情感分类(Decision Fusion by SubtaskMerging,DFSM)、采用特征融合的多模态音乐情感分类(Feature Fusion,FF)5种情感分类方法在已构建的中文歌曲数据集上的分类性能。从上表可以看出,DFLC、DFSM和FF这3种基于多模态融合的音乐情感分类的所有评价指标均高于仅使用单模态信息的分类实验,证明了利用多模态信息能有效提高分类性能,这是因为单模态数据所包含的语义信息有限,无法完全表达音乐情感,并且音频和歌曲相关文本在不同情感类别上的分类能力不同,将两者结合能够实现信息互补。另外,基于音频的分类实验的整体分类性能优于仅使用歌词和评论的分类实验。
本方法提出的方案优势在于:(一)单模态数据所包含的语义信息有限,无法完全表达音乐情感,本方法结合音频、歌词和音乐评论进行多模态音乐情感分类能有效提高分类性能。(二)将CRNN应用于音乐情感识别,并设计了基于LLD-CRNN的音乐情感分类模型,该模型结合使用声谱图和音频低层特征作为输入序列。LLD通常集中在时域或频域,对于时、频特性关联变化的音频信号,往往会丢失部分信息,而声谱图是音频信号在频率上的二维表示,在信息量上损失较少,因此,LLD和声谱图可以实现信息互补。(三)音乐评论的情感倾向也可以体现音乐表达的情感,因此,本方法面向中文歌词和评论进行音乐情感分类,挖掘更丰富的情感信息,并在构建情感向量时综合考虑了情感词的词频、情感强度和词性对情感分类的影响作用。
附图说明
图1是VA情感模型。
图2是基于LLD-CRNN的音乐情感分类模型整体框架示意图。
图3是CRNN的网络结构。
图4是Bi-LSTM的网络结构。
图5是基础情感词典构建流程。
图6是音乐情感词典构建流程。
图7是本发明所设计方法的整体框架图。
图8是本发明所采用的多模态融合方法示意图,分别为决策融合和特征融合。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步的描述。
步骤一,数据获取。
本发明需要构建适用于多模态音乐情感分类的中文歌曲数据集,数据集包含中文歌曲的歌词、音乐评论和音频。选择VA模型作为音乐情感分类的依据,将VA空间映射为4个离散类别,分别是“+V+A”、“-V+A”、“-V-A”和“+V-A”,如图1所示。根据这4个离散类别采集数据,中文歌曲数据集构建过程分为如下三个步骤:(1)中文歌曲的收集和情感标注。按照需要收集的情感类别,从各大音乐网站上搜索相关的中文歌曲。最终的数据集包含400首情感类别鲜明的中文歌曲,这些歌曲包括流行歌曲和革命时期的歌曲。为了使收集的语料更加均衡,减少语料对实验结果的影响,每个情感类别100首歌曲,并尽量收集不同演唱者的歌曲。每首歌由多个人进行情感标注,选择标注人数最多的类别作为该歌曲的标签。(2)歌词和音频的获取及预处理。从各大音乐网站上下载歌曲的歌词和音频。将歌词文本中的对歌曲情感分类没有帮助的语句去除,比如演唱者、作词、作曲和专辑信息等。下载的音频均为MP3格式,根据语音情感分类的要求,截取每首歌曲最具代表性的片段,时长为30s,所有音频的采样率均为22050Hz。(3)音乐评论的抓取和预处理。在音乐网站上抓取评论信息,每首歌曲抓取1000条最新评论,并去除与音乐情感无关的评论,比如对演唱者的评论。完成上述步骤后,得到了一个适用于多模态音乐情感分类的中文歌曲数据集,为本发明的实验提供了可用的数据集。
步骤二,从音频信号中获取声谱图,并提取音频特征。
LLD-CRNN的输入包括声谱图和音频低层特征,因此需要对音频文件的原始音频信号进行预加重、分帧和加窗等预处理,使用23ms的帧长,帧移为帧长的一半。LLD-CRNN模型使用的声谱图为Mel声谱图,所采用的音频情感特征如表2所示。
表2音频情感特征
步骤三,基于LLD-CRNN模型学习音频特征。
图2中框架通过将CRNN模型和Bi-GRU模型结合,构成了基于LLD-CRNN的音乐情感分类模型。模型的构建流程主要包括以下几步:(1)基于CRNN的局部特征和序列特征提取。CRNN部分的基本结构如图3所示。首先卷积层C1使用两个不同的卷积核分别提取声谱图的时域特征和频域特征,其中,提取时域特征的卷积核在时域上卷积,而提取频域特征的卷积核在频域上卷积;然后,将卷积层C1的所有特征矩阵拼接后进行池化操作,卷积层C2进一步提取音频局部特征;最后,将第二个池化层的各特征矩阵依次取出排成一个向量,作为双向长短期记忆模型(Bi-Long Short-Term Memory,Bi-LSTM)的输入,提取音频特征的时序信息,Bi-LSTM的网络结构如图4所示。特别说明,池化层P1和P2均采用最大值池化(Max-pooling-over-time)进行降采样运算。(2)基于Bi-GRU的序列特征提取。Bi-GRU模型的输入为音频低层特征,其网络结构与Bi-LSTM类似,两层GRU分别独立学习音频特征的前向序列信息和后向序列信息,并将两个隐藏状态拼接为一个向量。(3)基于Softmax的音乐情感分类。
在LLD-CRNN模型的训练过程中,卷积层C1使用两个不同的卷积核分别提取声谱图的时域特征和频域特征,卷积核尺寸分别为1*8、8*1,每种卷积核均设置4个;卷积层C2使用二维卷积进一步提取音频局部特征,卷积核尺寸为3*3,个数为6个。池化层P1和P2均采用最大值池化,大小为1*2。Bi-LSTM和Bi-GRU的隐藏层神经元个数均为128个。
步骤四,构建音乐情感词典。
首先以VA情感模型为基础构建情感词表,如表3所示。然后借助Word2vec计算词语相似度,使用《哈工大同义词林》和歌词语料库对情感词表的38个情感词汇进行扩展,从而构建出一部适用于中文歌曲情感分类的词典,词典中包含每个词的情感类别和情感权值。使用《哈工大同义词林》对情感词表进行扩展,扩展后的词典仅包含情感词,称为基础情感词典,其存储结构为四元组(实词,情感词,情感类别,情感权值),实现过程如图5所示。利用包含一万首中文歌曲的歌词语料库对基础情感词典做进一步扩展,以更适用于中文歌曲情感分类,扩展后的词典称为音乐情感词典,实现过程如图6所示。
表3情感词表
步骤五,提取文本特征。
以音乐情感词典为基础构造中文歌曲的文本特征,其中,文本包括歌词和评论,并在构造过程中综合考虑情感强度和词性对情感分类的影响作用。首先,对歌曲相关文本进行分词、去停用词、词性标注和词频统计等预处理操作。然后,采用情感词表中的4维情感类别作为情感向量,将文本中的实词与情感词典进行匹配,得到每个实词的情感类别和情感权值。最后,采用TF-IDF规则计算出每个情感类别的统计值,并进一步考虑词性对情感分类的影响,将情感向量扩展到16个维度。
在构造中文歌曲的情感特征时,需要对中文进行分词、去停用词、词性标注和词频统计等预处理操作。实验采用jieba进行分词,并使用《哈工大停用词表》去除停用词。使用K近邻算法作为分类器,当k=5时分类效果最佳。选择中文歌曲数据集中的80%作为训练集,20%作为测试集。
步骤六,基于多模态融合进行中文歌曲情感分类。
结合音频、歌词和音乐评论进行多模态音乐情感分类,整体框架如图7所示。以步骤三和步骤五为基础进行多模态融合,得到中文歌曲的情感类别。多模态融合方法包括决策融合和特征融合两种方法,如图8所示。
决策融合常用的单模态分类结果融合方式为线性结合。首先,对音频和歌曲相关文本进行分类,将音频特征Vaudio和文本特征Vtext分别作为分类器的输入向量,预测出音频和文本的每种情感类别的概率值,预测结果分别为Raudio(x1,x2,x3,x4)和Rtext(y1,y2,y3,y4),其中xi和yi表示音频和文本第i类情感的概率预测值,i∈{1,2,3,4}。然后,将Raudio和Rtext进行线性加权求和,得到多模态融合结果Rsong(f1,f2,f3,f4),其中:
fi=α*xi+(1-α)*yi
式中的参数α表示音频模态所占的比重,α∈[0,1],当α>0.5时表示音频占的比重大于文本,选择α=0.5。最后,选择多模态融合结果Rsong中的最大预测概率值所对应的类别作为歌曲的情感标签。
另一种决策融合方法为子任务结合,与线性结合的不同之处在于,这种融合方法基于二维情感模型,以VA模型为例进行说明。VA模型的横轴表示效价度,将情感类别分为“+V”和“-V”两种情感极性;其纵轴表示激活度,将情感类别分为“+A”和“-A”两种不同强度的情感。实验结果表明,歌曲相关文本在效价上的区分度较强,音频在激活度上的区分度较强。以上述实验结果为基础,将音频特征Vaudio和文本特征Vtext分别作为分类器的输入向量,根据Vaudio将音乐情感分类为“+V”和“-V”,根据Vtext分类为“+A”和“-A”,将两者的分类结果结合,得到最终的音乐情感类别。
特征融合一般采用特征拼接的方式,将音频特征Vaudio和文本特征Vtext连接为Vsong,然后把Vsong作为分类器的输入向量,从而得到最终分类结果。与决策融合相比,该方法可以更多的考虑各种模态特征之间的关联信息。
Claims (4)
1.一种基于多模态融合的中文歌曲情感分类方法,对于音频信息,首先从音频信号中获取声谱图,并提取音频低层特征,然后基于LLD-CRNN模型进行音频特征学习,从而得到中文歌曲的音频特征;对于歌词和评论信息,首先构建音乐情感词典,然后以该词典为基础,构造基于情感强度和词性的情感向量,从而得到中文歌曲的文本特征;最后使用决策融合和特征融合两种方法进行多模态融合,得到中文歌曲的情感类别;
其特征在于:该方法包括以下步骤,
步骤一,输入原始中文歌曲数据;
原始中文歌曲数据包括:训练样本集、训练样本集标签、测试样本集和测试样本集标签;训练样本集标签、测试样本集标签即为每个样本数据对应的数据所属类别;每个样本数据包含原始中文歌曲的歌词、音乐评论和音频;
步骤二,从歌曲的音频信号中获取声谱图,并提取音频特征;
音频信号是一个一维数组,该数组的长度由音频的时长和采样频率决定;通常从时域和频域两个角度分析音频信号特征,音频信号在时域上的变化快速而不稳定,并且频域信号比时域信号更符合人类听觉机制,将音频信号从时域转到频域,进而对音频进行分析;将歌曲的音频信号进行分帧加窗等预处理后,对每一帧做快速傅里叶变换,将时域信号转换为频域信号,把每一帧经过变换后的频域信号在时间上堆叠起来得到声谱图;此外,从音频信号中提取音频低层特征,音频低层特征包括Mel频率倒谱系数、基频特征、共振峰特征、八音频谱对比度和Chroma特征;
步骤三,基于LLD-CRNN模型学习音频特征;
LLD-CRNN模型分为两个部分,分别以CRNN和双向门限循环单元模型(Bi-directionalGated Recurrent Unit,Bi-GRU)作为分类模型;该分类模型结合使用声谱图和音频低层特征作为输入序列,以实现信息互补;CRNN部分将声谱图作为输入,提取音频的局部特征和序列特征;LLD作为Bi-GRU部分的输入,进一步获取音频特征的序列信息;最后将CRNN部分和Bi-GRU部分的音频特征连接后作为多模态音乐情感分类任务中的音频特征;
步骤四,构建音乐情感词典;
首先以VA情感模型为基础构建情感词表,采用Word2vec中词语相似度计算的思想扩展情感词表,构建中文音乐情感词典,词典中包含每个词的情感类别和情感权值;
步骤五,提取文本特征
以音乐情感词典为基础构造中文歌曲的文本特征,其中,文本包括歌词和评论;首先,对歌曲相关文本进行分词、去停用词、词性标注和词频统计等预处理操作;然后,采用情感词表中的4维情感类别作为情感向量,将文本中的实词与情感词典进行匹配,得到每个实词的情感类别和情感权值;最后,采用词频逆文档频率规则计算出每个情感类别的统计值,并进一步考虑词性对情感分类的影响,将情感向量扩展到16个维度;
步骤六,基于多模态融合进行中文歌曲情感分类;
将步骤三中得到的音频特征和步骤五中构造的文本特征进行多模态融合,得到中文歌曲的情感类别;多模态融合方法包括决策融合和特征融合两种方法,其中决策融合采用线性结合和子任务结合两种方式。
2.根据权利要求1所述的一种基于多模态融合的中文歌曲情感分类方法,其特征在于:决策融合的单模态分类结果融合方式为线性结合;首先,对音频和歌曲相关文本进行分类,将音频特征Vaudio和文本特征Vtext分别作为分类器的输入向量,预测出音频和文本的每种情感类别的概率值,预测结果分别为Raudio(x1,x2,x3,x4)和Rtext(y1,y2,y3,y4),其中xi和yi表示音频和文本第i类情感的概率预测值,i∈{1,2,3,4};然后,将Raudio和Rtext进行线性加权求和,得到多模态融合结果Rsong(f1,f2,f3,f4),其中:
fi=α*xi+(1-α)*yi
式中的参数α表示音频模态所占的比重,α∈[0,1],当α>0.5时表示音频占的比重大于文本,选择α=0.5;最后,选择多模态融合结果Rsong中的最大预测概率值所对应的类别作为歌曲的情感标签。
3.根据权利要求1所述的一种基于多模态融合的中文歌曲情感分类方法,其特征在于:决策融合方法为子任务结合,这种融合方法基于二维情感模型。
4.根据权利要求2所述的一种基于多模态融合的中文歌曲情感分类方法,其特征在于:特征融合采用特征拼接的方式,将音频特征Vaudio和文本特征Vtext连接为Vsong,然后把Vsong作为分类器的输入向量,从而得到最终分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910879131.4A CN110674339B (zh) | 2019-09-18 | 2019-09-18 | 一种基于多模态融合的中文歌曲情感分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910879131.4A CN110674339B (zh) | 2019-09-18 | 2019-09-18 | 一种基于多模态融合的中文歌曲情感分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110674339A true CN110674339A (zh) | 2020-01-10 |
CN110674339B CN110674339B (zh) | 2021-04-16 |
Family
ID=69078035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910879131.4A Expired - Fee Related CN110674339B (zh) | 2019-09-18 | 2019-09-18 | 一种基于多模态融合的中文歌曲情感分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110674339B (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310444A (zh) * | 2020-01-16 | 2020-06-19 | 北京大学 | 一种公园景观服务识别方法 |
CN111309965A (zh) * | 2020-03-20 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 音频匹配方法、装置、计算机设备及存储介质 |
CN111414513A (zh) * | 2020-03-16 | 2020-07-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 音乐流派的分类方法、装置及存储介质 |
CN111460213A (zh) * | 2020-03-20 | 2020-07-28 | 河海大学 | 一种基于多模态学习的音乐情感分类方法 |
CN111651035A (zh) * | 2020-04-13 | 2020-09-11 | 济南大学 | 一种基于多模态交互的虚拟实验系统及方法 |
CN111767741A (zh) * | 2020-06-30 | 2020-10-13 | 福建农林大学 | 一种基于深度学习和tfidf算法的文本情感分析方法 |
CN111859925A (zh) * | 2020-08-06 | 2020-10-30 | 东北大学 | 一种基于概率情感词典的情感分析系统及方法 |
CN111858943A (zh) * | 2020-07-30 | 2020-10-30 | 杭州网易云音乐科技有限公司 | 音乐情感识别方法及装置、存储介质和电子设备 |
CN112614511A (zh) * | 2020-12-10 | 2021-04-06 | 央视国际网络无锡有限公司 | 一种歌曲情感检测的方法 |
CN112800875A (zh) * | 2021-01-14 | 2021-05-14 | 北京理工大学 | 一种混合特征融合和决策融合的多模态情感识别方法 |
CN112905835A (zh) * | 2021-02-26 | 2021-06-04 | 成都潜在人工智能科技有限公司 | 一种多模态乐曲标题生成方法、装置及存储介质 |
CN113010728A (zh) * | 2021-04-06 | 2021-06-22 | 金宝贝网络科技(苏州)有限公司 | 一种歌曲推荐方法、系统、智能设备及存储介质 |
CN113129871A (zh) * | 2021-03-26 | 2021-07-16 | 广东工业大学 | 基于音频信号及歌词的音乐情绪识别方法及系统 |
CN113268667A (zh) * | 2021-05-28 | 2021-08-17 | 汕头大学 | 一种基于中文评论情感引导的序列推荐方法及系统 |
CN113505582A (zh) * | 2021-05-25 | 2021-10-15 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音乐评论情感分析方法、设备及介质 |
CN113762321A (zh) * | 2021-04-13 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 多模态分类模型生成方法和装置 |
CN114048337A (zh) * | 2021-11-25 | 2022-02-15 | 北京达佳互联信息技术有限公司 | 音乐标签的生成方法、装置、电子设备及存储介质 |
CN114218942A (zh) * | 2021-12-13 | 2022-03-22 | 南京邮电大学 | 一种基于ShuffleNet的中文歌词情感分析方法 |
CN114254205A (zh) * | 2021-12-30 | 2022-03-29 | 广东工业大学 | 一种基于音乐多模态数据的用户长短期偏好推荐预测方法 |
CN114512113A (zh) * | 2022-04-11 | 2022-05-17 | 科大讯飞(苏州)科技有限公司 | 一种音频合成方法及相关方法和设备 |
CN115064181A (zh) * | 2022-06-10 | 2022-09-16 | 东北大学 | 基于深度学习的音乐多模态数据情感识别方法 |
CN115062691A (zh) * | 2022-05-26 | 2022-09-16 | 支付宝(杭州)信息技术有限公司 | 属性识别方法和装置 |
CN116186524A (zh) * | 2023-05-04 | 2023-05-30 | 天津大学 | 一种自监督机器异常声音检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070107584A1 (en) * | 2005-11-11 | 2007-05-17 | Samsung Electronics Co., Ltd. | Method and apparatus for classifying mood of music at high speed |
CN106228977A (zh) * | 2016-08-02 | 2016-12-14 | 合肥工业大学 | 基于深度学习的多模态融合的歌曲情感识别方法 |
CN110134820A (zh) * | 2019-04-26 | 2019-08-16 | 湖南大学 | 一种基于特征递增的混合型个性化音乐推荐方法 |
-
2019
- 2019-09-18 CN CN201910879131.4A patent/CN110674339B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070107584A1 (en) * | 2005-11-11 | 2007-05-17 | Samsung Electronics Co., Ltd. | Method and apparatus for classifying mood of music at high speed |
CN106228977A (zh) * | 2016-08-02 | 2016-12-14 | 合肥工业大学 | 基于深度学习的多模态融合的歌曲情感识别方法 |
CN110134820A (zh) * | 2019-04-26 | 2019-08-16 | 湖南大学 | 一种基于特征递增的混合型个性化音乐推荐方法 |
Non-Patent Citations (3)
Title |
---|
YU XIONG.ETC: "Automatic music mood classification by learning cross-media relevance between audio and lyrics", 《2017 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME)》 * |
ZHEN WANG.ETC: "Music Classification using an Improved CRNN with Multi-Directional Spatial Dependencies in Both Time and Frequency Dimensions", 《2019 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN)》 * |
王洁等: "面向中文歌词的音乐情感分类方", 《计算机系统应用》 * |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310444A (zh) * | 2020-01-16 | 2020-06-19 | 北京大学 | 一种公园景观服务识别方法 |
CN111414513B (zh) * | 2020-03-16 | 2023-09-08 | 腾讯音乐娱乐科技(深圳)有限公司 | 音乐流派的分类方法、装置及存储介质 |
CN111414513A (zh) * | 2020-03-16 | 2020-07-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 音乐流派的分类方法、装置及存储介质 |
CN111309965B (zh) * | 2020-03-20 | 2024-02-13 | 腾讯科技(深圳)有限公司 | 音频匹配方法、装置、计算机设备及存储介质 |
CN111460213A (zh) * | 2020-03-20 | 2020-07-28 | 河海大学 | 一种基于多模态学习的音乐情感分类方法 |
CN111309965A (zh) * | 2020-03-20 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 音频匹配方法、装置、计算机设备及存储介质 |
CN111460213B (zh) * | 2020-03-20 | 2023-07-18 | 河海大学 | 一种基于多模态学习的音乐情感分类方法 |
CN111651035A (zh) * | 2020-04-13 | 2020-09-11 | 济南大学 | 一种基于多模态交互的虚拟实验系统及方法 |
CN111651035B (zh) * | 2020-04-13 | 2023-04-07 | 济南大学 | 一种基于多模态交互的虚拟实验系统及方法 |
CN111767741A (zh) * | 2020-06-30 | 2020-10-13 | 福建农林大学 | 一种基于深度学习和tfidf算法的文本情感分析方法 |
CN111767741B (zh) * | 2020-06-30 | 2023-04-07 | 福建农林大学 | 一种基于深度学习和tfidf算法的文本情感分析方法 |
CN111858943A (zh) * | 2020-07-30 | 2020-10-30 | 杭州网易云音乐科技有限公司 | 音乐情感识别方法及装置、存储介质和电子设备 |
CN111859925A (zh) * | 2020-08-06 | 2020-10-30 | 东北大学 | 一种基于概率情感词典的情感分析系统及方法 |
CN111859925B (zh) * | 2020-08-06 | 2023-08-08 | 东北大学 | 一种基于概率情感词典的情感分析系统及方法 |
CN112614511A (zh) * | 2020-12-10 | 2021-04-06 | 央视国际网络无锡有限公司 | 一种歌曲情感检测的方法 |
CN112800875A (zh) * | 2021-01-14 | 2021-05-14 | 北京理工大学 | 一种混合特征融合和决策融合的多模态情感识别方法 |
CN112905835A (zh) * | 2021-02-26 | 2021-06-04 | 成都潜在人工智能科技有限公司 | 一种多模态乐曲标题生成方法、装置及存储介质 |
CN112905835B (zh) * | 2021-02-26 | 2022-11-11 | 成都潜在人工智能科技有限公司 | 一种多模态乐曲标题生成方法、装置及存储介质 |
CN113129871A (zh) * | 2021-03-26 | 2021-07-16 | 广东工业大学 | 基于音频信号及歌词的音乐情绪识别方法及系统 |
CN113010728A (zh) * | 2021-04-06 | 2021-06-22 | 金宝贝网络科技(苏州)有限公司 | 一种歌曲推荐方法、系统、智能设备及存储介质 |
CN113762321A (zh) * | 2021-04-13 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 多模态分类模型生成方法和装置 |
CN113505582A (zh) * | 2021-05-25 | 2021-10-15 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音乐评论情感分析方法、设备及介质 |
CN113268667A (zh) * | 2021-05-28 | 2021-08-17 | 汕头大学 | 一种基于中文评论情感引导的序列推荐方法及系统 |
CN114048337A (zh) * | 2021-11-25 | 2022-02-15 | 北京达佳互联信息技术有限公司 | 音乐标签的生成方法、装置、电子设备及存储介质 |
CN114218942A (zh) * | 2021-12-13 | 2022-03-22 | 南京邮电大学 | 一种基于ShuffleNet的中文歌词情感分析方法 |
CN114254205A (zh) * | 2021-12-30 | 2022-03-29 | 广东工业大学 | 一种基于音乐多模态数据的用户长短期偏好推荐预测方法 |
CN114512113A (zh) * | 2022-04-11 | 2022-05-17 | 科大讯飞(苏州)科技有限公司 | 一种音频合成方法及相关方法和设备 |
CN114512113B (zh) * | 2022-04-11 | 2023-04-04 | 科大讯飞(苏州)科技有限公司 | 一种音频合成方法及相关方法和设备 |
CN115062691A (zh) * | 2022-05-26 | 2022-09-16 | 支付宝(杭州)信息技术有限公司 | 属性识别方法和装置 |
CN115064181A (zh) * | 2022-06-10 | 2022-09-16 | 东北大学 | 基于深度学习的音乐多模态数据情感识别方法 |
CN115064181B (zh) * | 2022-06-10 | 2024-04-19 | 东北大学 | 基于深度学习的音乐多模态数据情感识别方法 |
CN116186524A (zh) * | 2023-05-04 | 2023-05-30 | 天津大学 | 一种自监督机器异常声音检测方法 |
CN116186524B (zh) * | 2023-05-04 | 2023-07-18 | 天津大学 | 一种自监督机器异常声音检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110674339B (zh) | 2021-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110674339B (zh) | 一种基于多模态融合的中文歌曲情感分类方法 | |
CN108597541B (zh) | 一种增强愤怒与开心识别的语音情感识别方法及系统 | |
Kumaran et al. | Fusion of mel and gammatone frequency cepstral coefficients for speech emotion recognition using deep C-RNN | |
Sultana et al. | Bangla speech emotion recognition and cross-lingual study using deep CNN and BLSTM networks | |
CN112818861B (zh) | 一种基于多模态上下文语义特征的情感分类方法及系统 | |
Christy et al. | Multimodal speech emotion recognition and classification using convolutional neural network techniques | |
Tran et al. | Ensemble application of ELM and GPU for real-time multimodal sentiment analysis | |
Kuchibhotla et al. | An optimal two stage feature selection for speech emotion recognition using acoustic features | |
Pham et al. | Hybrid data augmentation and deep attention-based dilated convolutional-recurrent neural networks for speech emotion recognition | |
Chattopadhyay et al. | A feature selection model for speech emotion recognition using clustering-based population generation with hybrid of equilibrium optimizer and atom search optimization algorithm | |
Swain et al. | A DCRNN-based ensemble classifier for speech emotion recognition in Odia language | |
CN117672268A (zh) | 基于相对熵对齐融合的多模态语音情感识别方法 | |
Hosseini et al. | Multimodal modelling of human emotion using sound, image and text fusion | |
Lakshmi et al. | Recognition of emotions in speech using deep CNN and RESNET | |
CN110348482A (zh) | 一种基于深度模型集成架构的语音情感识别系统 | |
Alemu et al. | Ethio-Semitic language identification using convolutional neural networks with data augmentation | |
Pandey et al. | Multi-cultural speech emotion recognition using language and speaker cues | |
Daouad et al. | An automatic speech recognition system for isolated Amazigh word using 1D & 2D CNN-LSTM architecture | |
Mohammed et al. | Speech Emotion Recognition Using MELBP Variants of Spectrogram Image. | |
Fang et al. | Learning coordinated emotion representation between voice and face | |
Flower et al. | A novel concatenated 1D-CNN model for speech emotion recognition | |
Vlasenko et al. | Fusion of acoustic and linguistic information using supervised autoencoder for improved emotion recognition | |
Kumar et al. | Machine learning technique-based emotion classification using speech signals | |
Reggiswarashari et al. | Speech emotion recognition using 2D-convolutional neural network | |
Chauhan et al. | A method for simplifying the spoken emotion recognition system using a shallow neural network and temporal feature stacking & pooling (TFSP) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210416 |
|
CF01 | Termination of patent right due to non-payment of annual fee |