CN111460213A

CN111460213A - 一种基于多模态学习的音乐情感分类方法

Info

Publication number: CN111460213A
Application number: CN202010199527.7A
Authority: CN
Inventors: 李晓双; 韩立新; 李景仙
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2020-07-28
Anticipated expiration: 2040-03-20
Also published as: CN111460213B

Abstract

本发明公开了一种基于多模态学习的音乐情感分类方法，包含以下步骤：数据预处理，根据所需模态信息对音乐的音频、歌词、评论分别进行预处理来获取模型的有效输入；表示学习，将每个模态使用不同的建模方式分别映射到各自的表示空间；特征提取，提取不同模态的模型映射后的特征向量，并降维至同一维度；多模态融合，将三种不同模态的特征进行级联早融合，从而建立更全面的特征表示；情感分类决策，使用融合后的特征对音乐进行有监督的情感分类。本发明的音乐情感分类方法，提供了一种基于多模态联合学习的方法，可以有效的减少目前主流的单模态模型方法存在噪声或数据缺失的不足，增加音乐情感分类的准确性和稳定性。

Description

一种基于多模态学习的音乐情感分类方法

技术领域

本发明涉及情感识别领域和多模态学习领域，具体涉及一种基于多模态学习的音乐情感分类方法。

背景技术

情感识别领域中广泛使用的情感特征有基于语句的全局统计特征和基于语音的时序特征，但这两类基于不同时长的情感特征均不能有效的表达情感问题。目前研究最多的是将声学特征作为辅助语义信息进行语音情感识别，将蕴含在语音中的情感信息提取出来并识别其类别。常用的语音特征的提取方式有：基频特征提取、共振峰特征提取、Mel频率倒谱系数(MFCC)提取、基于导数的非个性语音情感特征提取和基于Teager能量算子非线性特征提取等，然后利用传统的机器学习方法对提取到的特征进行有监督学习从而实现语音的情感分类。然而，对于音乐特征来说，歌曲的音频中常掺杂其他乐器产生的噪声或在传播过程中添加的噪声，会对传统的特征数据的提取造成很大的困扰，导致模型的精确度不高。

单模态的学习负责将信息表示为计算机可以处理的数值向量或进一步抽象为更高层次的特征向量。而多模态学习能够处理和关联多种模态信息，是一种联合学习的方式，通过利用多模态之间的互补性，剔除模态间的冗余和单模态存在的噪声，从而学习到更好的特征表示。

随着互联网技术的发展和数据存储技术的进步，音乐资源呈几何式增长，出现了信息过载的问题，但传统的音乐标签(如流派、演唱者、年份等)缺乏开放性，且忽略了音乐本身的特征，有很大的完善空间。而且情感是音乐表达中十分重要的特征之一。将多模态学习引入到情感识别中，在一定程度上减少了单模态噪声所带来的影响，同时可以利用丰富模态的信息来辅助稀缺模态的信息从而建立完善的模型表示。

针对音乐标签缺乏开放性这一弊端以及多模态学习对情感识别的优势，有必要设计一种基于多模态学习的方法来提取音乐本身的情感特征，提高情感识别的准确性，并在一定程度上完善音乐的属性。

发明内容

发明目的：本发明的目的是为音乐添加情感类别标签，为检索或推荐提供基础的数据支持，并克服了现有技术的不足，提出一种基于多模态学习的音乐情感分类方法，通过模态互补，消除了歧义和不确定性。

技术方案：为实现本发明的目的，本发明所采用的技术方案是：一种基于多模态学习的音乐情感分类方法，包括以下步骤：

S1、数据预处理，对M首歌的音频数据、歌词数据、用户评论这三种不同模态的信息分别进行预处理，依据情感类别构建数据集；所述情感类别包括怀旧、伤感、治愈、放松、孤独、感动、快乐、思念；

S2、表示学习，构建三种模态的表示学习网络模型，将每个模态映射到各自的表示空间，分别训练各模态表示学习网络模型；

S3、特征提取，通过步骤S2训练后的网络模型分别提取对应模态的特征向量，并降维到K维向量，分别得到三种模态的K维特征向量；

从音乐本身的内容出发，挖掘与音乐关联的不同模态的深层特征，保证特征的全面有效，本发明分别从三个模态建立的网络模型中提取最深层次的表示向量作为每个模态的特征向量，并通过降维操作，使其整合到同一维度，从而提取到更加全面的特征表示；

S4、多模态融合，对步骤S3提取的三类K维特征向量，通过融合模型进行多模态级联融合，建立全面情感特征表示；

单模态的数据容易掺杂一些噪声，会对最终结果产生较大的影响，而且某些音乐会缺失部分模态的信息，因此模态融合通过互补、消除歧义和不确定性，也在一定程度上避免了单一模态数据存在噪声或稀疏的问题；本发明通过决策前对不同模态的特征向量进行级联融合从而得到更全面的特征表示，直接利用提取到的模态特征向量，对多种模态的特征进行融合处理，从而提高模型的分类准确率；

S5、情感分类决策，利用Softmax函数作为分类器对融合后的K维特征进行音乐情感分类的训练，最终生成情感分类器，用于对未分类的歌曲添加情感标签。

进一步地，所述步骤S1，预处理过程如下：

对音频数据以44100赫兹的采样频率将每首歌切分为若干段t秒的音频，通过离散傅里叶变换将其转化为频域信息，保存为语谱图；对歌词数据利用结巴分词进行章、节、词的划分；对用户评论进行过滤清洗，将其序列化并统一长度。

进一步地，所述步骤S2，表示学习具体为：

对音频数据转化后的语谱图利用深度残差网络(ResNet)建立音频-语谱图识别模型；对歌词数据利用双向长短时期记忆网络(BiLSTM)建立歌词-主题模型；对评论数据利用向量空间模型(VSM)建立评论-词向量模型；分别得到不同模态下音乐数据的特征表示。

进一步地，所述步骤S4，融合模型通过增加线性依赖项

来实现多模态融合，具体特征融合过程表示为：

Z→W_j

其中Z表示一个未知样本，其归属于第j个模式类W_j，该类为在已知条件F(W_j)下后验概率最大的模式类；其后验概率表示为：

其中x_ij代表样本的N_i维特征向量的第j个维度，i∈[1,M],j∈[1,N]，M是设定的分类器个数，N为样本特征总体维度；

表示第i个分类器的依赖权重，

是一个极小值；P(w_k|x_in)表示第k类的后验概率。

有益效果：与现有技术相比，本发明的技术方案具有以下有益的技术效果：

1)本发明利用三个模态的信息数据分别建立模型，从音乐内容本身出发，分类标准统一且具有一定的开放性。

2)本发明通过离散傅里叶变换将音频转换为频域，让数据有了简单紧凑的表示形式，并采用更低的压缩率，保证使用所需的全部音频信息。

3)本发明根据歌词和评论等文本信息特点，选择不同的文本建模方式。对歌词数据更加注重上下文，对评论更加偏重词频倾向，有效的提取文本情感特征。

4)本发明采用特征级联早融合将同样K维的音频特征向量、歌词主题向量和评论倾向向量以串联的方式结合处理后作为音乐的整体特征，后续处理不需要对三类模态信息分别进行训练，大幅提高了操作的效率。

5)本发明将不同模态相互融合作为最后的整体特征，降低了单一模态缺失所带来的影响，在一定程度上提高了模型的鲁棒性。同时多模态信息相互补充，深入挖掘了对不同主题的多角度的情感集合，大幅度提高了音乐情感分类的准确性。

附图说明

图1是本发明实施例的算法流程图；

图2是本发明实施例的示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明所述的一种基于多模态学习的音乐情感分类方法，参见图1，该图中给出了本发明实施例的算法流程，图2是本发明示意图，具体包括以下步骤：

S101、音频预处理：将音频数据由MP3格式转为WAV格式，以44100赫兹的采样频率将每首歌切分为5s一段的音频；对处理后的音频片段利用离散傅里叶变换法将音频信息转化为频域信息，为每首歌保存语谱图，并选取中间的6个片段(30s)作为每首音乐的代表，同时利用香农定理将频率重建到22050赫兹(每像素20毫秒)，保证使用全部的音频信息；奈奎斯特-香农采样定理具体公式：

其中γ表示采样速率，π/T表示奈奎斯特采样速率，f(t)表示输出的信号，f(kγ)表示输入的连续信号，k为常数因子，x为原信号的最高频率。

S102、歌词预处理：对歌词数据利用结巴分词进行章、节、词的划分，并去除出现频率低于一定值的词和停用词，构建词汇-索引表示。

S103、评论预处理：对用户评论进行过滤清洗，将其序列化并统一长度。

S104、音频-语谱图识别建模：将S101生成的音频语谱图输入到101层的深度残差网络(ResNet101)模型中训练学习。

S105、歌词-主题模型建模：对处理后的词汇-索引映射表经过word2vec预处理后输入到双向长短时期记忆网络(Bi-LSTM)模型中进行训练学习。

S106、评论-词向量建模：将序列化的评论数据结构对应到词语的词向量，利用向量空间模型(VSM)将评论词向量表示成高维空间中的向量，每个词用100维向量表示，建立文本词向量模型。VSM重点在于计算词频-逆文档频率(TF-IDF)，TF-IDF公式如下：

其中N_i,j表示特征词t_i出现在文档d_j中次数，N_*j表示文档d_j中所有词的个数，D表示文档总数，D_i表示所有包含特征词t_i的文档数。

S107、音频特征向量提取：利用S104中训练好的ResNet101网络提取图片的深层特征，将最后一层的全局平均池化向量作为音乐音频的表示向量，从而提取音频的1*K维的特征向量。

S108、文档主题向量提取：利用Bi-LSTM模型中最后一个时序的输出向量作为歌曲歌词的特征向量，从而提取歌词的1*K维特征向量。

S109、文本向量提取并降维：对于音频处理模型和歌词处理模型，可直接提取1*K维向量特征，但每首歌曲的评论中可能出现数量多于K个特征词，还需对评论信息进行降维，将每首歌的文本词向量利用LDA模型进行降维操作，最终将每首歌的文本词向量维度降至K维。LDA主题模型的公式如下：

其中p(z_m|α)表示β_m的后验分布，β_m表示第m篇文档的主题分布，α是Dirichlet分布先验参数，Δ(α)为归一化因子，

表示第m篇文章中第k主题产生的词的个数；

完成β_m的后验分布的求解，即可将高维的文本词向量模型降维到K维。

S110、多模态级联融合：单模态的数据容易掺杂一些噪声，会对最终结果产生较大的影响，而且某些音乐会缺失部分模态的信息，因此模态融合通过互补、消除歧义和不确定性，也在一定程度上避免了单一模态数据存在噪声或稀疏的问题。本发明通过决策前对不同模态的特征向量进行级联融合从而得到更全面的特征表示。融合模型通过增加线性依赖性项

来实现多模态融合，具体特征融合过程表示为：

Z→W_j

表示第i个分类器的依赖权重，

是一个极小值；P(w_k|x_in)表示第k类的后验概率。

直接利用S107,S108,S109提取到的1*K维特征向量，对多种模态的特征进行融合处理，从而提高模型的分类准确率。

S111、情感分类决策，利用Softmax函数作为分类器对S110融合后的K维特征进行音乐情感分类的训练，最终生成情感分类器，用于对未分类的歌曲添加情感标签。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。