CN112464023A

CN112464023A - 基于seq2seq算法的音乐和词语的情感语义匹配算法

Info

Publication number: CN112464023A
Application number: CN202011414938.XA
Authority: CN
Inventors: 胥备; 朱星浩
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2021-03-09
Anticipated expiration: 2040-12-04
Also published as: CN112464023B

Abstract

本发明提供一种基于seq2seq算法的音乐和词语的情感语义匹配方法，以情感作为音乐和词语的共同语义构建了两者的语义匹配机制，构建音乐‑词语数据集，使用seq2seq算法将音乐转化为文本，将转化后的文本和数据集标注的词语进行语义匹配度，进而得到音乐和词语的语义匹配度，并通过实验验证了词语的近义文本和目标音乐的语义匹配情况。实验结果表明该方法可以满足用户使用和目标音乐情感匹配的词语进行检索。

Description

基于seq2seq算法的音乐和词语的情感语义匹配算法

技术领域

本发明涉及音乐和文本的情感语义匹配机制，并且可以用于音乐检索系统，属于互联网和软件工程领域。

背景技术

自然语言和音乐是人们表达情感、描述事物的两种语义符号系统。分析和建立语言与音乐的语义关联不仅有助于提供更精确的文本和音乐的检索和推荐服务，还可以帮助研究者进一步理解情感语义。已有的研究主要集中在自然语言和音乐的表层符号特征，较少考虑其语义含义，从而限制了基于自然语言和音乐语义关联的应用的精确性和可解释性。另一方面，部分应用，例如：音乐情感的多标签分类，需要更深入的自然语言和音乐的语义关联。所以，分析和计算自然语言和音乐的语义关联对于面向文本和音乐的应用有较大的促进作用。

情感是人们所能表达的一种语义信息。音乐和文本是人们描述情感语义信息的两种符号系统。人们常常需要建立这两个符号系统之间的语义对应关系，来实现对两种系统所描述情感语义信息的储存、检索、分析和创作，并由此提出了若干音乐-文本应用。典型的音乐-文本应用是通过文本进行音乐检索。但是目前的音乐检索系统缺乏针对音乐内容情感语义的检索机制，无法满足用户的个性化需求。例如，当用户输入词语“悲伤”时，用户的需求是检索出的音乐要在音乐内容上，比如：音乐的旋律、节奏等要素构成的情感和检索词匹配。而音乐库将以“悲伤”为关键词，从类别名称、音乐名称或者歌词等方面检索。当前的检索系统缺乏对音乐内容的分析。另一种音乐-文本应用是音乐自动标注。音乐自动标注是一项从音频信号中预测音乐标签的任务。以情感标签标注为例，现有的音乐自动标注研究工作用光谱图来表示音频信号，然后把光谱图按类别进行分类，这些类别就是音乐的标签。这些工作主要集中在音乐中音频特征的提取，将文本作为类别，忽略了音乐和文本在语义上的联系。

目前，音乐检索系统供用户检索音乐使用的方法主要是基于分类算法。这些算法研究有的是基于音乐的描述性信息，有的是基于音乐本身的内容，还有的是综合音乐的描述性信息和音乐本身的内容。音乐描述性信息包括：音乐的类别，音乐的歌词，音乐的作者等以文字形式构成的信息。音乐本身的内容指的是音乐的旋律。根据不同的音乐格式，音乐内容可以以曲谱，音频等形式呈现。以情感为核心，挖掘音乐与文本之间的内在联系，不仅可以提高音乐检索的效率，辅助创作音乐，还可以进一步揭示情感语义的处理机制。

目前，语义匹配研究的应用场景是文本之间的语义匹配。比如：判断一段中文和另一段中文表达的意思是否一样。一个词语和另一个词语的关系是否是近义词。而音乐和文本属于不同的符号体系，所以，现有的语义匹配模型不能直接用在音乐和文本的语义匹配任务上。

公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

发明内容

本发明的目的在于提供一种基于seq2seq算法的音乐和词语的情感语义匹配方法，定量地描述音乐和文本在情感角度的语义相似度。该相似度可以用于面向音乐情感语义的检索系统，音乐自动标注等领域。

为实现上述目的，本发明采用如下技术方案：

基于seq2seq算法的音乐和词语的情感语义匹配方法，包括如下步骤：

步骤1：按不同数据集中情感的主题采集音乐文件，将音乐文件转化为由英文字母和数字组成的序列，将得到的序列数据集划分为训练集和测试集；

步骤2：利用训练集训练seq2seq模型，所述seq2seq模型的输出为目标序列，即音乐文件所需要转化的文本；

步骤3：用测试集验证seq2seq模型。

进一步的，步骤1中，音乐文件为midi类型，利用music21工具包提取midi中的内容，然后使用英文字母和数字组合形式表示音符，得到所述序列。

进一步的，步骤1中，所述数据集中情感的主题包括激情，伤感，暴躁，喧闹，讽刺，愚蠢，和蔼，清爽，愉快，自信。

进一步的，步骤2中，所述Seq2seq模型包括编码器和解码器，所述编码器的输入为所述序列，输出为上下文向量c＝h_T；所述解码器的输入为上下文向量，输出为音乐所需要转化的文本，解码器的表示是h_t＝tanh(W[h_t-1,y_t-1])+b)，o_t＝softmax(Vh_t+r)，h_t表示t时刻隐藏层的状态，W表示权重向量，b表示偏置项，o_t表示t时刻的输出，V表示权重向量，r表示偏置项。

进一步的，步骤3的具体步骤包括：

步骤3.1：将所述目标序列用词向量表示，对词向量进行求和取平均值；

步骤3.2：将测试集输入步骤2训练好的seq2seq模型，将seq2seq模型输出的目标序列用词向量表示，对词向量进行求和取平均值；

步骤3.3：分别求步骤3.2所得平均值与步骤3.1所得各个数据集中情感的主题对应的平均值的相似度，最高相似度对应的数据集中情感的主题与验证数据所对应的数据集中情感的主题一致，则匹配成功。

有益效果：目前音乐检索系统等应用的缺陷在于没有建立音乐内容和文本的情感匹配机制。本发明构建了音乐-词语的情感语义匹配机制，可以应用在上述应用中。例如：当用户需要检索歌曲的时候，当前的检索系统只能根据用户的输入进行精确检索。但是，用户往往在检索时会遗忘音乐的准确，信息。用户只记得音乐在情感上的信息，这样的信息是模糊的，目前的检索系统还不支持这样的检索方式。本发明对音乐和词语在情感维度上进行了匹配可以进一步满足用户的检索需求。当下语义匹配算法主要适用于文本-文本的语义匹配。由于音乐和文本是两种不同的符号体系，它们各自都可以用向量来表示，但是它们无法直接进行运算，因此，这些语义匹配算法不能用在音乐-文本情感语义匹配的任务上。本发明使用的是基于注意力机制的Seq2seq算法，以及使用了建立在庞大语料库训练的腾讯开源词向量，模型可以有效地提取到音乐的特征，通过将音乐转化为文本，然后将输出的文本和原有的词语进行语义匹配，进而得到音乐和词语的语义匹配。

附图说明

图1是音乐-词语转化模型；

图2词语语义匹配模型；

图3是seq2seq模型；

图4是Bahdanau注意力机制。

具体实施方式

下面对本发明的具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

除非另有其它明确表示，否则在整个说明书和权利要求书中，术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分，而并未排除其它元件或其它组成部分。

本发明构建了一个自然语言和音乐的情感语义关联度计算模型。该模型以词语和音乐作为自然语言和音乐的基本单元，以基本情感为音乐和文本的共同语义，通过seq2seq算法将音乐转换为文本，接着进行文本间的情感语义关联度计算。以自适应的音乐分类任务为试验任务，通过训练模型，验证以及同类算法对比，证明了该模型可以合理的计算音乐和词语的情感关联度。

本发明进一步限定的技术方案为：

本发明模型由两部分组成，第一部分是基于注意力机制的seq2seq模型。该模型的作用是将音乐基本单元转化为词语。第二部分是词语语义匹配，计算转化后的词语和数据集中的词语之间的相似度，验证音乐和预先标注的词语是否匹配。

本发明构造了一个数据集，包含如下内容：(1)800首MIDI类型的音乐。MIDI可以看作是一种使用音符的数字信号记录音乐的文件形式。我们把这些音乐分成10个不同的情感主题，分别是激情，伤感，暴躁，喧闹，讽刺，愚蠢，和蔼，清爽，愉快，自信。主题的选取参考了网易云音乐常见标签以及音乐情感分类常用标签，每个主题下的音乐情感是相近的。midi文件由单音符，复合音符组成，需要借助music21工具包提取midi中的内容，然后使用英文字母和数字组合形式表示音符。(2)800个带有情感色彩的词语。词语和MIDI音乐一一对应，分为同样的10个主题，每个主题下的词是同义词。数据集中词语的标注是参考常用音乐app中的标签以及MIDI音乐。

在第一部分中，输入为音乐。首先将MIDI中的音符转化成由英文和数字组成的序列。然后将序列和预先标注的词语输入至seq2seq模型中，提取序列的特征，接着输出生成的词语。在第二部分中，输入则是生成的词语和数据集中的词语。模型计算生成的词语和预先标注词语的相似度，计算生成的词语和其他词语的相似度，根据词语的主题取平均值。将相似度排序，根据排序结果检验匹配效果。

Seq2seq模型由编码器和解码器两部分组成，并且在Seq2seq模型中引入了注意力机制。在Seq2seq模型中，编码器的输入为图1中的序列，编码器的输出为一个固定维度的“上下文向量”，这个向量会作为解码器的输入，解码器的输出为目标序列，这里设定为音乐所对应的词语。

Encoder的数学表示形式为：

h_t＝tanh(W[h_t-1,x_t])+b) (1)

o_t＝softmax(Vh_t+r) (2)

其中，h_t表示的是Encoder t时刻隐藏层的状态，由它前一时刻的隐藏层向量h_t-1和当前时刻的输入x_t所影响，W作为权重向量，b代表偏置项。o_t表示t时刻的输出，由同一时刻的隐藏层状态h_t所影响，V作为权重向量，r代表偏置项。

Encoder输出的上下文向量数学表示形式为：

c＝h_T (3)

Decoder的表示是：

h_t＝tanh(W[h_t-1,y_t-1])+b) (4)

o_t＝softmax(Vh_t+r) (5)

其中，h₀＝c，即上下文向量c直接作为Decoder的隐藏状态输入，并且只在一开始传递进去，而不是每一步都传递一次。h_t表示的是Decoder t时刻隐藏层的状态，由它前一时刻的隐藏层向量h_t-1和前一时刻的输入y_t-1所影响，W作为权重向量，b代表偏置项。o_t表示t时刻的输出，由同一时刻的隐藏层状态h_t所影响，V作为权重向量，r代表偏置项。

当输入内容很多时，将所有信息浓缩成一个向量就会变得很困难，难免会损失很多信息，即解码器在解码时就会忽略掉一些细节。所以，在seq2seq模型中加入注意力机制，可以使得模型有选择地关注输入的序列。注意力机制最早由Bahdanau提出。Bahdanau的Encoder使用双向RNN，在注意力变量中，上下文向量c由隐藏层解码器向量s_i-1的自定义上下文向量c_i-1所取代。Bahdanau在计算输出时，需要将双向RNN前向和反向两个方向的隐状态连接起来。即在计算h_t时，用的是Decoder的t-1时刻的隐状态h_t-1，随后计算注意力分数和上下文向量，这个上下文向量会和Decoder中t-1的隐状态相连，所以在作用softmax函数之前，这个连接向量会进入一个GRU。GRU引入了更新门和重置门可以解决RNN的梯度消失问题。编码器和RNN的区别是，它处理的是输出为一个序列的任务，而且序列的长度还可以是不固定的。如果用普通的RNN，需要设置一个句子的最大长度参数，超出规定长度的句子需要将其截断，没达到规定长度的句子需要填充，但是用seq2seq就可以接收不定长的输入序列和输出不定长的序列。RNN在输入了序列的第一项以后，就会输出相应的预测序列，每个时刻的输出只依赖这一时刻之前的输入，而不能接收到这一时刻之后的信息，而seq2seq中就可以等编码器处理完整个输入句子后，解码器再进行预测，这样解码器可以考虑到整个输入的信息。

Attention机制将有限的注意力集中在重点信息上，从而节省资源，快速获得最有效的信息。Attention机制的实质其实就是一个寻址(addressing)的过程：给定一个和任务相关的查询Query向量q，通过计算与Key的注意力分布并附加在Value上，从而计算Attention Value，这个过程实际上是Attention机制缓解神经网络模型复杂度的体现：不需要将所有的N个输入信息都输入到神经网络进行计算，只需要从X中选择一些和任务相关的信息输入给神经网络。注意力机制可以分为三步：一是信息输入；二是计算注意力分布α；三是根据注意力分布α来计算输入信息的加权平均。

使用转化后的文本和数据集中标注的词语进行语义匹配。转化后的文本并不符合语法规范，文字之间会出现乱序现象。所以，文本向量的表示使用词向量的求和取平均来忽略乱序所带来的影响。得到文本向量后和数据集中预先标注的词语进行相似度的计算。开源的词向量选择腾讯的词向量，词向量达到800万，该训练集语料来自腾讯新闻，天天快报等，覆盖范围广。词向量的训练算法采用Direction skip-gram。在skip-gram算法基础上考虑了词对的相对位置，进一步提高了词向量语义表示的准确性。

计算转化后的文本和其他主题下的词语的相似度，比较相似度的大小。使用表达同一情感的文本作为词语的近义文本，将其和音乐进行语义匹配来检验其自适应性。

本发明是将音乐和词语进行语义匹配。首先，实验使用music21工具包对音乐数据的处理。music21是一个由MIT开发的功能强大的计算音乐学分析Python库。相比于pretty_midi库只能处理MIDI文件，music21可以处理包括MusicXML，MIDI，abc等多种格式的音乐文件，并可以从零开始构建音乐文件或对音乐进行分析。将音乐序列以及MIDI对应的词语作为输入，传入seq2seq模型进行训练。音乐数据传入训练完成的模型输出文本，计作output。此时，输出的文本是不符合语法规则，词之间是乱序的。文本向量使用词向量求和取平均的方式表示。将音乐对应的预先标注的文本计作A，标注的文本同样使用词向量求和取平均的方式表示，然后计算output和A的相似度，计作simA。计算output和其他主题下每一个的文本的相似度，根据主题计算相似度的平均值，计作(sim1，sim2，sim3...)，将simA和(sim1，sim2，sim3...)依次做比较得到最大值maxval。若maxval＝simA，则匹配正确，统计正确匹配的数量。计算output和A所在主题下的其他文本的相似度——同义词的相似度，计作(simB，simC...)，将(simB，simC...)分别和(sim1，sim2，sim3...)做比较取最大值(maxval1，maxval2，maxval3...)，若最大值所对应的相似度是由生成的文本和近以情感文本所得，则匹配正确。

使用SVM和LSTM算法将音乐和对应的词语根据10个主题进行分类，使用同样的验证数据检验分类效果，对比本文使用的模型。SVM是一种监督学习算法，其决策边界是对学习样本求解的最大边距超平面，适合于小样本的学习，训练速度快且模型具有较好的鲁棒性。LSTM是特殊的RNN，增加了遗忘门，输入门，输出门以及状态更新单元，在RNN的基础上提高了记忆长期信息的能力。对比实验结果表明这两种算法只满足使用同一主题词匹配一类音乐，不能满足一个词语匹配一首音乐的场景。

Claims

1.基于seq2seq算法的音乐和词语的情感语义匹配方法，其特征在于，包括如下步骤：

步骤3：用测试集验证seq2seq模型。

2.根据权利要求1所述的基于seq2seq算法的音乐和词语的情感语义匹配方法，其特征在于，步骤1中，音乐文件为midi类型，利用music21工具包提取midi中的内容，然后使用英文字母和数字组合形式表示音符，得到所述序列。

3.根据权利要求1所述的基于seq2seq算法的音乐和词语的情感语义匹配方法，其特征在于，步骤1中，所述数据集中情感的主题包括激情，伤感，暴躁，喧闹，讽刺，愚蠢，和蔼，清爽，愉快，自信。

4.根据权利要求1所述的基于seq2seq算法的音乐和词语的情感语义匹配方法，其特征在于，步骤2中，所述Seq2seq模型包括编码器和解码器，所述编码器的输入为所述序列，输出为上下文向量c＝h_T；所述解码器的输入为上下文向量，输出为音乐所需要转化的文本，解码器的表示是h_t＝tanh(W[h_t-1,y_t-1])+b)，o_t＝softmax(Vh_t+r)，h_t表示t时刻隐藏层的状态，W表示权重向量，b表示偏置项，o_t表示t时刻的输出，V表示权重向量，r表示偏置项。

5.根据权利要求1所述的基于seq2seq算法的音乐和词语的情感语义匹配方法，其特征在于，步骤3的具体步骤包括：