CN110321403A

CN110321403A - 一种歌词生成方法

Info

Publication number: CN110321403A
Application number: CN201910611725.7A
Authority: CN
Inventors: 黄颂国; 姚文清
Original assignee: Guangzhou Aisong Intelligent Technology Co Ltd
Current assignee: Guangzhou Aisong Intelligent Technology Co Ltd
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2019-10-11

Abstract

本发明涉及语言处理技术领域，其目的在于提供一种歌词生成方法。本发明公开了一种歌词生成方法，包括以下步骤：S1.获取原始歌词数据，根据原始歌词数据建立原始歌词索引数据库；S2.对原始歌词索引数据库中的原始歌词数据进行筛选，得到整理歌词数据；S3.对整理歌词数据进行分词，形成初始分词，再修正初始分词，形成修正分词，然后根据修正分词得到修正歌词数据；S4.对修正歌词数据的通顺度和关联性进行校验，生成最终歌词数据。本发明可提高生成歌词的准确率。

Description

一种歌词生成方法

技术领域

本发明涉及语言处理技术领域，特别是涉及一种歌词生成方法。

背景技术

目前深度学习算法在中文文本生成方面处于学习研究阶段，没有质量高、数量足的中文歌词样本，需要从网络获取大量中文原始歌词数据，并进行清洗。然而，中文语法相对于英文语法更加灵活复杂，词语搭配更加严格，生成的语句有一定概率出现语法错误，导致语句不通顺；与此同时，目前单独使用深度学习和强化学习算法生成歌词，无法保证语句的通顺度。

发明内容

为了解决现有技术存在的上述问题，本发明提供了一种歌词生成方法。

本发明采用的技术方案是：

一种歌词生成方法，包括以下步骤：

S1.获取原始歌词数据，根据原始歌词数据建立原始歌词索引数据库；

S2.对原始歌词索引数据库中的原始歌词数据进行筛选，得到整理歌词数据；

S3.对整理歌词数据进行分词，形成初始分词，再修正初始分词，形成修正分词，然后根据修正分词得到修正歌词数据；

S4.对修正歌词数据的通顺度和关联性进行校验，生成最终歌词数据。

优选的，所述步骤S1包括：

S101.从网络中获取原始网页，然后建立原始网页数据库；

S102.对原始网页中的内容进行识别，并找出包含歌曲文件的原始网页，然后将此原始网页设定为筛选网页；

S103.获取筛选网页中的所有原始歌词数据；

S104.根据原始歌词数据建立原始歌词索引数据库。

进一步优选的，在步骤S102中，使用网络爬虫算法对原始网页中的内容进行识别，并找出包含歌曲文件的原始网页。

进一步优选的，所述步骤S102中，歌曲文件包括歌词文件、歌曲名称文件和歌手名称文件；所述步骤S103的具体步骤如下：

S103a.获取筛选网页中的所有歌曲文件中的歌手名称文件；

S103b.根据所有的歌手名称查找对应的所有歌曲名称文件；

S103c.根据歌曲名称文件查找对应的所有原始歌词数据，从而获取筛选网页中的所有原始歌词数据。

进一步优选的，在步骤S104中，还使用深度学习算法对原始歌词数据进行训练，然后对训练后的原始歌词数据建立原始歌词索引数据库。

优选的，在步骤S2中，采用知识图谱过滤器对原始歌词数据进行筛选。

优选的，在步骤S3中，对整理歌词数据进行分词，形成初始分词后，使用知识图谱分词校验系统对初始分词通过词性搭配校验、短语搭配校验、语法结构校验和/或场景关键词校验进行修正，然后形成修正分词。

进一步优选的，所述知识图谱分词校验系统包括词性搭配知识图谱、短语搭配知识图谱、语法结构知识图谱和/或场景关键词知识图谱。

优选的，在步骤S3后，还包括以下步骤：

SA.采用LeakGAN深度学习算法对修正歌词数据进行训练。

优选的，在步骤S4中，使用知识图谱过滤器对歌词的通顺度和关联性进行校验，然后生成最终歌词数据。

进一步优选的，在步骤S2和步骤S4中，所述知识图谱过滤器包括标注的语病短语库、常用词语错别字库、标注的错误词语搭配数据库、特殊语言(粤语、闽南语、方言等)特征词库、敏感词库和/或词性搭配数据库。

本发明的有益效果是：

可提高生成歌词的准确率。本发明在实施过程中，首先获取原始歌词数据，然后对原始数据依次进行筛选、分词修正、校验的步骤，最终生成最终歌词数据，具体地，通过使用知识图谱分词校验系统对初始分词通过词性搭配校验、短语搭配校验、语法结构校验和/或场景关键词校验进行修正，可使生成的最终歌词数据具有很强的逻辑性和关联度，符合中文语法，具有很高的通顺度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的歌词生成方法的流程图。

具体实施方式

下面结合附图及具体实施例来对本发明作进一步阐述。在此需要说明的是，对于这些实施例方式的说明虽然是用于帮助理解本发明，但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明的示例实施例。然而，可用很多备选的形式来体现本发明，并且不应当理解为本发明限制在本文阐述的实施例中。

应当理解，尽管本文可能使用术语第一、第二等等来描述各种单元，但是这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元,并且类似地可以将第二单元称作第一单元，同时不脱离本发明的示例实施例的范围。

应当理解，对于本文中可能出现的术语“和/或”，其仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，单独存在B，同时存在A和B三种情况；对于本文中可能出现的术语“/和”，其是描述另一种关联对象关系，表示可以存在两种关系，例如，A/和B，可以表示：单独存在A，单独存在A和B两种情况；另外，对于本文中可能出现的字符“/”，一般表示前后关联对象是一种“或”关系。

应当理解，在本文中若将单元称作与另一个单元“连接”、“相连”或“耦合”时，它可以与另一个单元直相连接或耦合，或中间单元可以存在。相対地，在本文中若将单元称作与另一个单元“直接相连”或“直接耦合”时，表示不存在中间单元。另外，应当以类似方式来解释用于描述单元之间的关系的其他单词(例如，“在……之间”对“直接在……之间”,“相邻”对“直接相邻”等等)。

应当理解，本文使用的术语仅用于描述特定实施例，并不意在限制本发明的示例实施例。若本文所使用的，单数形式“一”、“一个”以及“该”意在包括复数形式，除非上下文明确指示相反意思。还应当理解，若术语“包括”、“包括了”、“包含”和/或“包含了”在本文中被使用时,指定所声明的特征、整数、步骤、操作、单元和/或组件的存在性,并且不排除一个或多个其他特征、数量、步骤、操作、单元、组件和/或他们的组合存在性或增加。

应当理解，还应当注意到在一些备选实施例中，所出现的功能/动作可能与附图出现的顺序不同。例如,取决于所涉及的功能/动作,实际上可以实质上并发地执行,或者有时可以以相反的顺序来执行连续示出的两个图。

应当理解，在下面的描述中提供了特定的细节,以便于对示例实施例的完全理解。然而,本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出系统，以避免用不必要的细节来使得示例不清楚。在其他实例中，可以不以不必要的细节来示出众所周知的过程、结构和技术，以避免使得示例实施例不清楚。

实施例1：

本实施例提供一种歌词生成方法，包括以下步骤：

S2.对原始歌词索引数据库中的原始歌词数据进行筛选，以过滤原始歌词数据中的错误数据，得到整理歌词数据；

本实施例可提高生成歌词的准确率。具体来说，本实施例在实施过程中，首先获取原始歌词数据，然后对原始数据依次进行筛选、分词修正、校验的步骤，最终生成最终歌词数据，可有效保证歌词语句的通顺度，歌词语句的关联性强。

实施例2：

本实施例提供一种歌词生成方法，包括以下步骤：

具体地，所述步骤S1包括：

S101.从网络中获取原始网页，然后建立原始网页数据库；

S102.对原始网页中的内容进行识别，并找出包含歌曲文件的原始网页，然后将此原始网页设定为筛选网页；本实施例中，所述步骤S102中，歌曲文件包括歌词文件、歌曲名称文件和歌手名称文件。

具体地，歌曲文件包括但不仅限于mp3音频文件、wav音频文件、歌词文件、歌曲名称文件和/或歌手名称文件等文件；

在步骤S102中，使用网络爬虫算法对原始网页中的内容进行识别，并找出包含歌曲文件的原始网页。

S103.获取筛选网页中的所有原始歌词数据；

所述步骤S103的具体步骤如下：

S103a.获取筛选网页中的所有歌曲文件中的歌手名称文件；

S103b.根据所有的歌手名称查找对应的所有歌曲名称文件；

S104.根据原始歌词数据建立原始歌词索引数据库。

采用步骤S103，可实现对筛选网页中原始歌词数据的快速筛选，利于快速生成歌词。

在步骤S104中，还使用深度学习算法对原始歌词数据进行训练，然后对训练后的原始歌词数据建立原始歌词索引数据库。具体地，本实施例中，采用深度学习算法中的textcnn文本分类算法对原始歌词数据进行训练。TextCNN文本分类算法对文本浅层特征的抽取能力很强，在短文本领域如搜索、对话领域专注于意图分类时效果很好，应用广泛，且速度快，一般是首选；对长文本领域，TextCNN文本分类算法主要靠filter窗口抽取特征，在长距离建模方面能力受限，且对语序不敏感。

具体地，在步骤S2中，采用知识图谱过滤器对原始歌词数据进行筛选。

具体地，在步骤S3中，对整理歌词数据进行分词，形成初始分词后，使用知识图谱分词校验系统对初始分词通过词性搭配校验、短语搭配校验、语法结构校验和/或场景关键词校验进行修正，然后形成修正分词，如此可提高分词的准确性，可使生成的最终歌词数据具有很强的逻辑性和关联度。

本实施例中，所述知识图谱分词校验系统包括词性搭配知识图谱、短语搭配知识图谱、语法结构知识图谱和/或场景关键词知识图谱。

具体地，词性搭配知识图谱、短语搭配知识图谱、语法结构知识图谱和场景关键词知识图谱的建立过程如下：

1)词性搭配知识图谱的建立过程：

对句子进行分词，根据每个词的词性，获取所有词性搭配，如“我喜欢漂亮的衣服”，所有词性搭配如下：

代词+动词：我(代词)喜欢(动词)；

动词+名词：喜欢(动词)衣服(名词)；

形容词+助词+名词：漂亮(形容词)的(助词)衣服(名词)；

将歌词语料按照词性搭配方法拆分，形成词性搭配知识图谱，生成歌词需要符合词性搭配。

2)短语搭配知识图谱的建立过程：

将句子拆分成较短的语句，作为整体，即可单独成为一句，也可称为新生成句子的一部分，如“我喜欢漂亮的衣服”，所有短语搭配如下：

a.我喜欢衣服；

b.喜欢漂亮的衣服；

c.漂亮的衣服。

3)语法结构知识图谱的建立过程：

根据每个词的词性，分析一个句子的语法结构，只标记语法结构，形成语法结构知识图谱，如“我喜欢漂亮的衣服”，语法结构如下：

代词+动词+名词：我喜欢衣服；

动词+形容词+助词+名词：喜欢漂亮的衣服；

代词+动词+形容词+助词+名词：我喜欢漂亮的衣服；

根据语法结构知识图谱，可以判断生成的歌词是否符合知识图谱的语法结构，是判断生成的歌词是否通顺的基础。

4)场景关键词知识图谱的建立过程：

通过分词和词频统计，并使用词向量算法word2vec得到词与词之间的关系，将关系紧密的词做分组标记，按不同的场景关键词进行分组，从而形成关键词场景知识图谱。

例如：

a.“喜悦”场景词有：一帆风顺、一见钟情、一路顺风、一醉方休、万事如意、不可思议、不同凡响、中意、丰收、丰盛、乐园、乐土、乐在其中、乐悠悠、乐此不倦、乐观、乐趣、倾心、兴致、兴高采烈、其乐融融、取悦、喜庆、喜爱、圆满、好日子、好时光等；

b.“伤感”场景词有：一去不复返、万般无奈、不告而别、哭泣、不堪回首、不如人意、不快乐、不舍、丧失、为情所困、乡愁、以泪洗面、伤人、伤口、伤害、伤心、伤心欲绝、伤悲、伤疤、伤痕、伤痛、孤单、孤寂、孤枕等。

c.“爱”场景词有：一厢情愿、一往情深、一见钟情、一辈子、万语千言、不可自拔、不顾一切、两情相悦、两情相愿、中意、为情所困、亲密、伴侣、似曾相识、似水年华、似水柔情、依依不舍、依偎、依恋、依靠、俘获、倩影、倾心、分分合合、初恋、割爱等。

SA.采用LeakGAN深度学习算法对修正歌词数据进行训练。

具体地，在步骤S4中，使用知识图谱过滤器对歌词的通顺度和关联性进行分析、判断等校验，然后生成最终歌词数据。

在步骤S2和步骤S4中，所述知识图谱过滤器包括标注的语病短语库、常用词语错别字库、标注的错误词语搭配数据库、特殊语言(粤语、闽南语、方言等)特征词库、敏感词库和/或词性搭配数据库等。

本实施例与现有技术相比，具有以下有益效果：

通过使用知识图谱分词校验系统对初始分词通过词性搭配校验、短语搭配校验、语法结构校验和/或场景关键词校验进行修正，可使生成的最终歌词数据具有很强的逻辑性和关联度，符合中文语法，具有很高的通顺度。

本实施例中，由于步骤S102中，通过网络爬虫算法从原始网页中抓取的歌曲文件中，包含大量的非中文字符、非法字符，且存在部分歌词不完整等情况，采用常规的过滤方法难以过滤干净，其后在步骤S2采用知识图谱过滤器对原始歌词数据进行筛选，在步骤S3中对初始分词通过词性搭配校验、短语搭配校验、语法结构校验和/或场景关键词校验进行修正，在步骤S4中使用知识图谱过滤器对歌词的通顺度和关联性进行校验，可使得本实施例得到的最终歌词数据具有较高的词性搭配准确率、语法结构准确率、语句通顺度和关键词场景关联性。

以上所描述的多个实施例仅仅是示意性的，若涉及到作为分离部件说明的单元，其可以是或者也可以不是物理上分开的；若涉及到作为单元显示的部件，其可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

最后应说明的是，本发明不局限于上述可选的实施方式，任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制，本发明的保护范围应当以权利要求书中界定的为准，并且说明书可以用于解释权利要求书。

Claims

1.一种歌词生成方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种歌词生成方法，其特征在于：所述步骤S1包括：

S101.从网络中获取原始网页，然后建立原始网页数据库；

S103.获取筛选网页中的所有原始歌词数据；

S104.根据原始歌词数据建立原始歌词索引数据库。

3.根据权利要求2所述的一种歌词生成方法，其特征在于：在步骤S102中，使用网络爬虫算法对原始网页中的内容进行识别，并找出包含歌曲文件的原始网页。

4.根据权利要求2所述的一种歌词生成方法，其特征在于：所述步骤S102中，歌曲文件包括歌词文件、歌曲名称文件和歌手名称文件；所述步骤S103的具体步骤如下：

S103a.获取筛选网页中的所有歌曲文件中的歌手名称文件；

S103b.根据所有的歌手名称查找对应的所有歌曲名称文件；

5.根据权利要求2所述的一种歌词生成方法，其特征在于：在步骤S104中，还使用深度学习算法对原始歌词数据进行训练，然后对训练后的原始歌词数据建立原始歌词索引数据库。

6.根据权利要求1所述的一种歌词生成方法，其特征在于：在步骤S2中，采用知识图谱过滤器对原始歌词数据进行筛选。

7.根据权利要求1所述的一种歌词生成方法，其特征在于：在步骤S3中，对整理歌词数据进行分词，形成初始分词后，使用知识图谱分词校验系统对初始分词通过词性搭配校验、短语搭配校验、语法结构校验和/或场景关键词校验进行修正，然后形成修正分词。

8.根据权利要求7所述的一种歌词生成方法，其特征在于：所述知识图谱分词校验系统包括词性搭配知识图谱、短语搭配知识图谱、语法结构知识图谱和/或场景关键词知识图谱。

9.根据权利要求1所述的一种歌词生成方法，其特征在于：在步骤S3后，还包括以下步骤：

SA.采用LeakGAN深度学习算法对修正歌词数据进行训练。

10.根据权利要求1所述的一种歌词生成方法，其特征在于：在步骤S4中，使用知识图谱过滤器对歌词的通顺度和关联性进行校验，然后生成最终歌词数据。