CN112163414A

CN112163414A - 一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法

Info

Publication number: CN112163414A
Application number: CN202010880446.3A
Authority: CN
Inventors: 陈启军; 何宗涛; 刘成菊
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-08-27
Filing date: 2020-08-27
Publication date: 2021-01-01
Anticipated expiration: 2040-08-27
Also published as: CN112163414B

Abstract

本发明涉及一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法，包括以下步骤：1)获取关键词进行预处理；2)输入关键词，基于LSTM和注意力机制的歌词生成模型结合后处理操作，依次生成句中词和结尾词，完成一句歌词的生成；3)重复执行步骤1)‑步骤2)，直至生成一篇完整的歌词。与现有技术相比，本发明具有生成歌词可读性强、语义通顺、对仗工整等优点。

Description

一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法

技术领域

本发明涉及自然语言处理领域，尤其是涉及一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法。

背景技术

自然语言处理(Natural Language Processing,NLP)是当今人工智能技术的重要分支，其目标是计算机能学习、理解并能够生成人的语言。语言生成是NLP领域的重要任务，涉及语义解析、语义编码、语言模型等多方面技术。传统NLP技术聚焦于语言本身的规则，企图使机器像人一样学习详细的语法规则，构建语法解析树，进而完全掌握自然语言。然而，随着语料库扩大，语法解析树会以指数速率膨胀到令人难以接受的程度，语言本身的多样性、奇异性和上下文相关性也让语言规则的总结工作变成不可能完成的任务。

近年来，基于统计模型的机器学习方法成为主流。该流派不在意语言深层的意义，直接从符号层面入手让计算机统计语言的规律，从而建立合理的语言模型。人工神经网络的出现促进了统计模型的发展，让人们有能力模拟极其复杂的概率分布。现有的语言生成方案往往使用循环神经网络(Recurrent Neural Network,RNN)作为基础，通过大量的学习来模拟语言的分布规律。

然而，简单的RNN网络存在严重的梯度消失问题，很难生成长句与长文章，单阶段的生成方式也无法体现句与句之间复杂的关系。此外，中文语言处理有一些特殊的问题，例如分词、消岐等，这些是主流的英文语料库与英文模型无法处理的，针对中文歌词进行特定研究的更是少之又少。

因此，本发明提出了一种新的中文歌词生成方案，生成了可读性强、语义通顺、对仗工整、甚至还具备一定审美特点的歌词。本发明首先从网络上开放资源收集到中文歌词的原始数据，对数据进行预处理后得到干净的语料库；而后使用词典加条件随机场的方式对已登录词进行分割，使用隐马尔科夫模型对未登录词进行预测分割；再引入Word2Vec方法将词语符号转换成高维嵌入向量对模型进行训练。模型的编码部分使用双向LSTM，可以有效记忆并编码语句中的语义信息；解码部分引入了注意力机制，使得下一句歌词能与上一句产生较强的关联性。最终训练好的模型可以逐句生成通顺的歌词。在此基础上，本发明还设计了独特的模型控制方法，使得模型可以按要求生成指定风格、指定句长、押韵或者藏头的歌词。为了方便使用，本发明最后开发了简单的网页前端，让生成的歌词直观地展示出来。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种生成歌词可读性强、语义通顺、对仗工整的基于Word2Vec、LSTM和注意力机制的中文歌词生成方法。

本发明的目的可以通过以下技术方案来实现：

一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法，包括以下步骤：

1)获取关键词进行预处理；

2)输入关键词，基于LSTM和注意力机制的歌词生成模型并结合后处理操作，依次生成句中词和结尾词，完成一句歌词的生成；

3)重复执行步骤1)-步骤2)，直至生成一篇完整的歌词。

所述的关键词包括控制关键词和上一句歌词；

当生成的歌词为首句歌词时，所述的输入关键词为控制关键词；当生成的歌词为后续歌词时，所述的输入关键词为上一句歌词，所述的控制关键词包括歌词风格、歌词剧场、歌词韵脚。

所述的歌词生成模型包括编码器和解码器，所述的编码器为双向LSTM编码器，所述的解码器为单向LSTM加注意力机制解码器。

所述的歌词生成模型生成歌词的步骤具体包括：

201)双向LSTM编码器将输入的关键词编码成语义编码向量；

202)注意力机制计算状态向量和语义编码向量的匹配程度，获取注意力权值，加权求得语义向量c_i；

203)将上一时刻状态、上一时刻输出和当前语义向量作为输入，解码得到当前时刻输出词的概率分布；

所述的注意力机制为Bahdanau注意力算法，所述的状态向量包括解码器状态向量和编码器状态向量。

所述的后处理操作包括类束搜索、添加结束位置符、添加情绪引导词和多元启发搜索。

所述的类束搜索将当前输出词中概率高于设定阈值的词语划入可行集，并从中通过随机数挑选一个词语作为句中词。

所述的歌词生成模型生成歌词时添加情绪引导词，用于控制生成歌词的情绪，所述的情绪引导词包括“乐”、“好”、“怒”、“哀”、“惧”和“惊”。

当遇到结束位置符时，通过多源启发算法生成结尾词，所述的多源启发算法从可行集中选取韵脚符合且概率最大的词语作为结尾词输出。

所述的歌词生成模型的训练步骤包括：

211)通过爬虫算法获取网络公开中文歌词资源；

212)预先建立一个词典，使用词典加条件随机场的方法对已登录词进行分割，使用隐马尔科夫模型对未登录词进行分割方式，并去除停用词，形成词汇表；

213)使用Word2Vec方法将歌词转换为Word2Vec向量，并将该歌词对应的下一句歌词转换成数字序列，再拼接位置结束符；

214)利用交叉熵损失与Adam优化器进行模型训练，选取最优的模型作为歌词生成模型；

所述的已登录词为词典范围内的词，所述的未登录词为词典范围外的词。

所述的Word2Vec方法将歌词转换为Word2Vec向量具体包括：

2131)构建包括CBOW模型和Skip-gram模型的训练模型并利用词汇表进行训练；

2132)训练结束后分别取出CBOW模型和Skip-gram模型的隐层权重并拼接起来，形成Word2Vec矩阵；

2133)Word2Vec矩阵的第i行对应为词汇表中第i个词语的Word2Vec向量。

与现有技术相比，本发明具有以下优点：

1)本发明歌词生成模型的编码部分使用双向LSTM网络，可以有效记忆并编码语句中的语义信息，缓解了梯度消失问题，解码部分引入了注意力机制，使得下一句歌词能与上一句产生较强的关联性，整篇歌词有统一的风格与含义；

2)本发明还设计了独特的模型控制方法，在原始模型的基础上添加后处理操作，使得模型可以按要求生成指定风格、指定句长、押韵或者藏头的歌词；

3)本发明的模型训练过程中，引入Word2Vec方法将词语符号转换成高维嵌入向量对模型进行训练，有效地将词语信息转换成了计算机可识别的向量形式；

4)本发明从网络开放资源收集到中文歌词的原始数据，对数据进行预处理后得到干净的语料库，并使用词典加条件随机场的方式对已登录词进行分割，使用隐马尔科夫模型对未登录词进行预测分割，构建了干净易用的中文歌词语料库。

5)目前市面上基本没有成熟可用的中文歌词生成器，本发明填补了这一应用领域的空缺，为语言生成技术提供了一种新的方案与思路。

附图说明

图1为本发明整体流程示意图；

图2为爬虫算法流程示意图；

图3为Word2Vec模型示意图；

图4为RNN结构示意图；

图5为LSTM单元结构示意图；

图6为注意力机制示意图；

图7为训练过程的损失曲线对比图；

图8为训练过程的词语丰富度曲线对比图；

图9为歌词生成过程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

实施例

如图1所示，本发明提出的中文歌词生成方法分为三部分：模型构建部分、模型训练部分与模型应用部分。该方法在应用生成歌词时包括以下步骤：

1)获取关键词进行预处理；

3)重复执行步骤1)-步骤2)，直至生成一篇完整的歌词。

(一)模型构建部分

首先，使用双向LSTM作为编码器对输入或初始序列进行处理，获得每个符号的向量编码。

然后，使用单向LSTM加注意力机制作为解码器。解码器的初始状态被设置为编码器的末尾状态。注意力机制让解码器在生成词语时能关注到输入序列中合适的词语。

最后，使用类束搜索的方式计算出概率较大的序列作为解码器的输出。

使用双向LSTM网络作为编码器，LSTM网络作为解码器，使得编解码器通过注意力机制生成的语义向量关联。

如图4所示，给出了RNN的基本结构。不同于一般的神经网络，RNN的层次结构更多地体现在时间维度上。RNN中每个神经元的状态不仅取决于当前时刻的输入，还取决于上一时刻的状态。这种特性使得RNN具备记忆信息与生成不定长序列的能力，从而成为语言生成任务的主流技术。

尽管如此，RNN也存在一些难以解决的问题。RNN倾向于学习短时知识而逐渐忘记长期知识，这让模型在估计长跨度的词语关系时变得困难。而且简单的神经元记忆能力有限，无法分辨信息的重要程度，极其容易出现梯度消失的问题，让训练变得困难。本发明以使用长短期记忆(Long Short-Term Memory，LSTM)单元来解决这些问题。

LSTM单元如图5所示，计算式为：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)

c_t＝f_tc_t-1+i_ttanh(W_xcx_t+W_hch_t-1+b_c)

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o)

h_t＝o_ttanh(c_t)

其中i_t，f_t，o_t，c_t分别代表输入门、遗忘门、输出门和元胞的活动向量，W_xi为样本到输入门的权重矩阵，W_hi为隐状态到输入门的权重矩阵，W_ci为元胞状态到输入门的权重矩阵，h_t-1为t-1时刻的隐状态向量，c_t-1为t-1时刻的元胞状态向量，b_i为输入门的偏置向量，W_xf为样本到遗忘门的权重矩阵，W_hf为隐状态到遗忘门的权重矩阵，W_cf为元胞状态到遗忘门的权重矩阵，b_f为遗忘门的偏置向量，W_xc为样本到元胞状态的权重矩阵，W_hc为隐状态到元胞状态的权重矩阵，b_c为元胞状态的偏置，W_xo为样本到输出门的权重矩阵，W_ho为隐状态到输出门的权重矩阵，W_co为元胞状态到输出门的权重矩阵，b_o为输出门偏置，h_t为t时刻的隐状态向量。所有大写字母代表矩阵，所有小写字母代表向量。权重矩阵和偏置向量共同构成了一种线性变换，可以将多个向量转换成一个新的向量。而σ(·)和tanh(·)则是两种经典的非线性激活函数。由于复杂化了RNN中的H函数，LSTM单元具备高层次的记忆能力，可以选择性地遗忘不重要的信息。

注意力机制(Attention mechanism)是近年来自然语言处理领域的热门话题。Attention概念源于对人类认知的研究，最初被用于计算机视觉，后来被证实在语言处理领域也能发挥强大的性能。注意力机制期望神经网络能像人类能集中关注合适的对象，提取出最重要的信息，而非平等对待所有输入。一种常见的注意力是Bahdanau注意力，如图6所示。语义向量c_i根据每个源词语的隐层向量h_j加权求和得到，即：

其中，α_ij为第i个时刻的输出在第j个隐层同量h_j上的注意力权重，隐层同量h_j由双向隐层向量拼接而成：

对于每个隐层向量h_j，α_ij由类似softmax的计算式给出：

e_ij＝a(s_i-1，h_j)

其中，e_ij为对齐模型，代表位置j的输入词语和位置i的输出词语的匹配程度，该分数基于解码器状态向量s_i-1和隐层向量h_j计算得到，该隐层向量h_j即为编码器状态向量。

注意力机制往往作用于编解码框架中的。本发明首先使用双向LSTM网络，将输入的每个词语编码成携带语句信息的向量，并在解码生成歌词的过程中，使用Bahdanau注意力算法计算状态向量和编码向量的匹配程度，获得注意力权值，加权求出语义向量，再同时以上一时刻的状态、上一时刻的输出、当前的语义向量作为输入，解码出当前时刻输出词语的概率分布。

(二)模型训练部分

首先，从网络上开放资源收集到中文歌词的原始数据，对数据进行预处理后得到干净的语料库；

然后，在分词工作前预先建立一个词典，使用词典加条件随机场的方式对已登录词进行分割，使用隐马尔科夫模型对未登录词进行预测分割，已登录词指出现在词典中的词，未登录词指超出了词典范围的词；

然后，引入Word2Vec方法将语料库中的词语符号转换成高维嵌入向量以便下一步对模型进行训练。

最后，在多组超参数情况下训练的模型中挑选最好的一个作为最终模型。

深度模型需要大量的数据进行训练，然而目前并没有公开且优秀的中文歌词数据集。为了完成模型训练，本发明使用如图2所示的爬虫算法获取了网络上开放的中文歌词资源，共得到115307首中文歌词作为原始数据。经过数据清洗后，保留了66362首歌词。

中文不像英文有空格作为词语的分隔符，因此需要做分词的工作。本发明使用词典加条件随机场的方法对已登录词进行分割，使用隐马尔科夫模型识别未登录词最可能的分割方式。去除停用词后，语料库的词汇表大小为65863个。至此，语料库的构建基本完成

词向量是自然语言处理领域的重要问题。人类的语言输入计算机后仅仅是一串字符串，缺乏数学含义，也不具备可供神经网络学习的结构。为此，需要将自然语言中的单元编码为向量形式。

为了获得更好的词向量，本发明使用了Word2Vec方法。Word2Vec词向量具有非常好的性质，近义词接近、非近义词远离、且词语之间的关系被映射到了向量的线性运算中。该方法的训练模型如图3所示，CBOW模型和Skip-gram模型被同时用于学习词向量。CBOW模型的作用是根据上下文填补缺失的词语，Skip-gram模型的作用是根据一个词语预测上下文词语的分布。在这两个模型训练的过程中，隐层权重能够学习到词语的语义信息。以CBOW为例，假设网络输入为B个维度为V的独热编码向量，a_i为第i个向量，a_ik为第i个向量的k分量，B为窗口大小。B个向量输入网络后，会经过矩阵乘法并求和得到隐藏层向量g，即

式中g为隐藏层向量，U为V×N大小的权重矩阵。而输出向量由下式计算：

d＝gU′

U′为N×V大小的权重矩阵。对输出向量d，可以通过softmax函数转化成概率分布向量

之后选取概率最大的维度序号即为所预测词语的序号：

CBOW模型中，权重矩阵U非常关键。将U以分块形式表述

其中ω_i为N维行向量。使用U左乘一个独热编码向量a，其结果等效于选择了一个ω_i：

aU＝ω_i

下标i为a向量不为0的维度序号。

CBOW模型的目标是根据上下文预测中心词语。为了达到这个目标，权重矩阵U会被不断地更新，使得模型中权重向量ω_i正确地表述词语的特征。因此ω_i就是词语i在N维向量空间里的表述，权重矩阵U就是原词汇表对应的N维词向量的堆叠。训练结束后，取出两个模型的隐层权重并拼接起来，就形成了词汇表的Word2Vec矩阵。矩阵的第i行就是词汇表中第i个词语的Word2Vec词向量。

最后制作训练用的歌词对，将一句歌词转换成Word2Vec向量作为输入、下一句歌词转换成数字序列作为参考输出，并拼接位置编码。模型训练使用交叉熵损失与Adam优化器，训练过程中的损失曲线与丰富度曲线如图7、图8所示。

(三)模型应用部分

首先，载入数据预处理器与模型文件。

然后，读取用户给定的控制关键字，例如歌词风格、歌词剧场、歌词韵脚等，将其作为模型的初始配置。

然后，根据初始配置让模型生成歌词的首句，并显示歌词到网页前端中。

在前述实施过程中，本发明获得了基于LSTM和注意力机制的中文歌词生成模型，图9给出了歌词生成的过程。然而仅仅一个模型是无法生成整篇歌词的，还需要构建外围的控制算法与后处理流程。

后处理主要实现了一个类似束搜索(Beam Search)的算法来增加歌词的丰富性。虽然神经网络是一种概率分布模型，但是在参数固定、输入固定的情况下，它的最大似然预测结果是唯一的。这显然不符合歌词生成的规律。即使是同一个人，在不同时刻不同环境写出来的歌词应该也会有细微差别。束搜索算法最开始是为了解决贪心解码带来的问题，试图找到全局最优的语句。本发明在解码生成词语时不只考虑概率最高的词语，也考虑概率较高的词语。在可行集中通过随机数挑选出一个词语作为输出，就能让歌词具备一定的随机性，从而提升了歌词的多样性。

原始的LSTM网络只能不断地生成文字，不知道何时结束。本发明创新地在训练时添加了词语位置编码。在应用时，只需要强制输入结束位置符<eos>，那么输出就会自动加上合适的结尾词结束一句歌词。这样就实现了控制生成歌词长度的功能，如下表所示：

源语句	句长	生成语句
			屋檐如悬崖	2	风铃声
屋檐如悬崖	3	风铃如沧海
			我站在世界的屋顶	3	在你身边
我站在世界的屋顶	4	你是如此透明
			看着那白色的蜻蜓	4	在那蓝蓝花丛
看着那白色的蜻蜓	5	有你我就足够
			你的世界太远	4	我们都很厌倦
你的世界太远	5	我会让世界沉寂

情绪表达也是歌词的重要组成部分。为了实现控制歌词的情绪，本发明使用了情绪引导词。首先，结合专家经验与语料库挑选出七个情绪引导词：“乐”“好”“怒”“哀”“惧”“乐”“惊”。而后，在生成歌词时强制加入这某个情绪引导词的词向量，这样就达到了控制歌词情绪的目的。

歌词的音韵往往具有一定的美感，本发明也在这方面做了一定工作。为了让生成的结尾词压合适的韵脚，本发明使用了多元启发搜索的方式。当设置多元搜索的元数为2、搜索范围为5时，模型会罗列末尾2个词语的所有5×5＝25种可能，而后从中选取韵脚符合且概率最大的组合作为输出。如果无法找到，那么搜索失败，这种韵脚在设置上不合理。

经过后处理和控制算法后，本发明已经可以逐句生成完整的歌词了。为了提升应用性，本发明还可以基于网页开发交互界面，用户可以在网页中设置想要生成的歌词类型，并实时看到模型生成出来的歌词。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的工作人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法，其特征在于，包括以下步骤：

1)获取关键词进行预处理；

2)输入关键词，基于LSTM和注意力机制的歌词生成模型并结合后处理操作，

依次生成句中词和结尾词，完成一句歌词的生成；

3)重复执行步骤1)-步骤2)，直至生成一篇完整的歌词。

2.根据权利要求1所述的一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法，其特征在于，所述的关键词包括控制关键词和上一句歌词；

3.根据权利要求1所述的一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法，其特征在于，所述的歌词生成模型包括编码器和解码器，所述的编码器为双向LSTM编码器，所述的解码器为单向LSTM加注意力机制解码器。

4.根据权利要求3所述的一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法，其特征在于，所述的歌词生成模型生成歌词的步骤具体包括：

201)双向LSTM编码器将输入的关键词编码成语义编码向量；

202)注意力机制计算状态向量和语义编码向量的匹配程度，获取注意力权值，加权求得语义向量；

5.根据权利要求3所述的一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法，其特征在于，所述的后处理操作包括类束搜索、添加结束位置符、添加情绪引导词和多元启发搜索。

6.根据权利要求5所述的一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法，其特征在于，所述的类束搜索将当前输出词中概率高于设定阈值的词语划入可行集，并从中通过随机数挑选一个词语作为句中词。

7.根据权利要求5所述的一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法，其特征在于，所述的歌词生成模型生成歌词时添加情绪引导词，用于控制生成歌词的情绪，所述的情绪引导词包括“乐”、“好”、“怒”、“哀”、“惧”和“惊”。

8.根据权利要求6所述的一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法，其特征在于，当遇到结束位置符时，通过多源启发算法生成结尾词，所述的多源启发算法从可行集中选取韵脚符合且概率最大的词语作为结尾词输出。

9.根据权利要求3所述的一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法，其特征在于，所述的歌词生成模型的训练步骤包括：

211)通过爬虫算法获取网络公开中文歌词资源；

10.根据权利要求3所述的一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法，其特征在于，所述的Word2Vec方法将歌词转换为Word2Vec向量具体包括：