CN106547789B

CN106547789B - 一种歌词生成方法及装置

Info

Publication number: CN106547789B
Application number: CN201510609122.5A
Authority: CN
Inventors: 叶舟; 王瑜; 陈凡; 杨洋; 毛庆凯; 赵爱娟; 黄丞伽
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2015-09-22
Filing date: 2015-09-22
Publication date: 2021-02-05
Anticipated expiration: 2035-09-22
Also published as: CN106547789A

Abstract

本申请实施例提供了一种歌词生成方法及装置，所述方法包括：获取用户输入的音频数据；将所述音频数据与歌曲库中的多个分段旋律进行匹配，获得匹配的至少一个分段旋律，实现了从歌曲库中获取与所述音频数据在旋律上相似的至少一个分段旋律；所述歌曲库中的多个分段旋律分别具有对应的歌词；根据所述匹配的至少一个分段旋律分别对应的歌词，生成所述音频数据的歌词。可见，本申请实施例能够根据用户输入的音频数据所具有的旋律特征，生成对应的歌词，从而提高了用户体验。

Description

一种歌词生成方法及装置

技术领域

本申请涉及互联网技术领域，尤其是涉及一种歌词生成方法及装置。

背景技术

随着互联网技术和音频处理技术的发展，如何能够实现对音乐的自动创作，是人们关心的问题。比如，当用户哼出一段新的旋律时，希望能够利用互联网技术，根据旋律特征生成合适的歌词。

然而，目前的一些应用软件在生成歌词时，仅仅是将用户输入的音频数据转换为相应的文字数据，并不能根据音频数据的旋律特征生成歌词，从而影响了用户体验。

发明内容

本申请解决的技术问题在于提供一种歌词生成方法及装置，以实现能够根据音频数据的旋律特征生成歌词，提高用户体验。

为此，本申请解决技术问题的技术方案是：

本申请提供了一种歌词生成方法，所述方法包括：

获取用户输入的音频数据；

将所述音频数据与歌曲库中的多个分段旋律进行匹配，获得匹配的至少一个分段旋律；所述歌曲库中的多个分段旋律分别具有对应的歌词；

根据所述匹配的至少一个分段旋律分别对应的歌词，生成所述音频数据的歌词。

可选的，所述歌曲库中具有多个歌曲旋律，所述多个歌曲旋律分别具有对应的歌词，所述方法还包括：

根据所述多个歌曲旋律中每个歌曲旋律的音频特征分别对每个歌曲旋律分段，获得所述歌曲库中的多个分段旋律；

根据对每个歌曲旋律的分段方式，对每个歌曲旋律对应的歌词进行分段，分别作为每个分段旋律对应的歌词。

可选的，所述方法还包括：

根据所述音频数据的音频特征对所述音频数据分段，获得至少一个分段数据；

所述将所述音频数据与歌曲库中的多个分段旋律进行匹配，获得匹配的至少一个分段旋律，包括：

将所述至少一个分段数据分别与歌曲库中的多个分段旋律进行匹配，获得匹配的至少一个分段旋律，所述匹配的至少一个分段旋律包括每个分段数据匹配的分段旋律。

可选的，所述方法还包括：

将所述分别对应的歌词中的至少一个词语替换成相同词性的词语，获得替换后的歌词；

所述根据所述匹配的至少一个分段旋律分别对应的歌词，生成所述音频数据的歌词，包括：

根据所述替换后的歌词，生成所述音频数据的歌词。

可选的，所述将所述分别对应的歌词中的至少一个词语替换成相同词性的词语，包括：

将所述分别对应的歌词中相同词性的至少两个词语进行互换，和/或，将所述分别对应的歌词中的至少一个词语，替换成语料库中相同词性的词语。

可选的，所述方法还包括：

根据语言模型对所述替换后的歌词进行筛选，获得筛选后的歌词；

所述根据所述替换后的歌词，生成所述音频数据的歌词，包括：

根据所述筛选后的歌词，生成所述音频数据的歌词。

可选的，所述根据语言模型对所述替换后的歌词进行筛选，包括：

根据语言模型和句尾的押韵程度对所述替换后的歌词进行筛选。

可选的，所述方法还包括：

将所述多个分段旋律分别转换为对应的向量；

将所述音频数据转换为对应的向量；

所述将所述音频数据与歌曲库中的多个分段旋律进行匹配，包括：

将所述音频数据对应的向量与所述多个分段旋律分别对应的向量进行匹配。

可选的，所述方法还包括：

获取用户选取的主题分类；

将所述音频数据与所述歌曲库中属于所述主题分类的多个分段旋律进行匹配。

可选的，所述获取用户选取的主题分类，包括：

获取用户输入的关键词；

获取所述歌曲库的所有主题分类；

从所述所有主题分类中获取与所述关键词匹配的主题分类，作为所述用户选取的主题分类。

本申请还提供了一种歌词生成装置，包括：

第一获取单元，用于获取用户输入的音频数据；

匹配单元，用于将所述音频数据与歌曲库中的多个分段旋律进行匹配，获得匹配的至少一个分段旋律；所述歌曲库中的多个分段旋律分别具有对应的歌词；

生成单元，用于根据所述匹配的至少一个分段旋律分别对应的歌词，生成所述音频数据的歌词。

可选的，所述歌曲库中具有多个歌曲旋律，所述多个歌曲旋律分别具有对应的歌词；所述装置还包括：

第一分段单元，用于根据所述多个歌曲旋律中每个歌曲旋律的音频特征分别对每个歌曲旋律分段，获得所述歌曲库中的多个分段旋律；

第二分段单元，用于根据对每个歌曲旋律的分段方式，对每个歌曲旋律对应的歌词进行分段，分别作为每个分段旋律对应的歌词。

可选的，所述装置还包括：

第三分段单元，用于根据所述音频数据的音频特征对所述音频数据分段，获得至少一个分段数据；

所述匹配单元具体用于将所述至少一个分段数据分别与歌曲库中的多个分段旋律进行匹配，获得匹配的至少一个分段旋律，所述匹配的至少一个分段旋律包括每个分段数据匹配的分段旋律。

可选的，所述装置还包括：

替换单元，用于将所述分别对应的歌词中的至少一个词语替换成相同词性的词语，获得替换后的歌词；

所述生成单元具体用于根据所述替换后的歌词，生成所述音频数据的歌词。

可选的，所述替换单元具体用于，将所述分别对应的歌词中相同词性的至少两个词语进行互换，和/或，将所述分别对应的歌词中的至少一个词语，替换成语料库中相同词性的词语。

可选的，所述装置还包括：

筛选单元，用于根据语言模型对所述替换后的歌词进行筛选，获得筛选后的歌词；

所述生成单元具体用于根据所述筛选后的歌词，生成所述音频数据的歌词。

可选的，所述筛选单元具体用于，根据语言模型和句尾的押韵程度对所述替换后的歌词进行筛选。

可选的，所述装置还包括：

第一向量转换单元，将所述多个分段旋律分别转换为对应的向量；

第二向量转换单元，将所述音频数据转换为对应的向量；

当将所述音频数据与歌曲库中的多个分段旋律进行匹配时，所述匹配单元具体用于将所述音频数据对应的向量与所述多个分段旋律分别对应的向量进行匹配。

可选的，还包括：

第二获取单元，用于获取用户选取的主题分类；

当将所述音频数据与歌曲库中的多个分段旋律进行匹配时，所述匹配单元具体用于将所述音频数据与所述歌曲库中属于所述主题分类的多个分段旋律进行匹配。

可选的，所述第一获取单元包括：

第一获取子单元，用于获取用户输入的关键词；

第二获取子单元，用于获取所述歌曲库的所有主题分类；

第三获取子单元，用于从所述所有主题分类中获取与所述关键词匹配的主题分类，作为所述用户选取的主题分类。

通过上述技术方案可知，本申请实施例中，获取用户输入的音频数据，并且将所述音频数据与歌曲库中的多个分段旋律进行匹配，实现了从歌曲库中获取与所述音频数据在旋律上相似的至少一个分段旋律，并且根据在旋律上相似的至少一个分段旋律分别对应的歌词，生成所述音频数据的歌词。可见，本申请实施例能够根据用户输入的音频数据所具有的旋律特征，生成对应的歌词，从而提高了用户体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其它的附图。

图1为本申请提供的一种方法实施例的流程示意图；

图2为本申请提供的歌曲旋律的波形示意图；

图3为本申请提供的对歌曲旋律分段后的分段旋律的波形示意图；

图4为本申请提供的另一种方法实施例的流程示意图；

图5为本申请提供的另一种方法实施例的流程示意图；

图6为本申请提供的一种装置实施例的结构示意图；

图7为本申请提供的另一种装置实施例的结构示意图。

具体实施方式

目前一些应用软件在生成歌词时，仅仅是将用户输入的音频数据转换为相应的文字数据，也就是起到了语音识别的功能，并不能实现对歌词的创作，即根据音频数据的旋律特征生成歌词，从而影响了用户体验。

本申请实施例提供一种歌词生成方法及装置，以实现能够根据音频数据的旋律特征生成歌词，实现对歌词的创作，从而提高了用户体验。

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

请参阅图1，本申请实施例提供了歌词生成方法的一种方法实施例，本实施例的所述方法包括：

101：获取用户输入的音频数据。

用户可以通过音频输入口输入所述音频数据。

其中，所述音频数据可以是用户哼唱的一段旋律，也可以是用户利用乐器等其他方式奏出的一段旋律。

102：将所述音频数据与歌曲库中的多个分段旋律进行匹配，获得匹配的至少一个分段旋律。

在本实施例中，将所述音频数据与歌曲库中的多个分段旋律进行匹配，实际上即从歌曲库中获取与所述音频数据在旋律上相似的至少一个分段旋律。

其中，歌曲库中具有多个分段旋律，所述多个分段旋律分别具有对应的歌词，每个分段旋律通常为在旋律上不可分割的一段旋律，即旋律的最小片段。例如图2所示的歌曲旋律01，可以分段为图3所示的分段旋律01、分段旋律02和分段旋律03。

所述多个分段旋律可以是对歌曲库中的多个歌曲旋律进行分段后得到的。具体地，所述歌曲库中具有多个歌曲旋律，所述多个歌曲旋律分别具有对应的歌词，所述方法还包括：根据所述多个歌曲旋律中每个歌曲旋律的音频特征分别对每个歌曲旋律分段，也就是将每个歌曲旋律分段成旋律的最小片段，获得所述歌曲库中的多个分段旋律；根据对每个歌曲旋律的分段方式，对每个歌曲旋律对应的歌词进行分段，分别作为每个分段旋律对应的歌词。例如，歌曲库中具有如图2所示的歌曲旋律01，歌曲旋律01具有对应的歌词“匆匆那年我们就是说了几遍再见之后再拖延”，根据歌曲旋律01的音频特征对歌曲旋律01分段，获得如图3所示的分段旋律01、分段旋律02和分段旋律03。根据对歌曲旋律01的分段方式，对歌曲旋律01对应的歌词进行分段，从而得到分段旋律01对应的歌词为“匆匆那年我们”，分段旋律02对应的歌词为“就是说了几遍”，分段旋律03对应的歌词为“再见之后再拖延”。

本实施例中在将所述音频数据与歌曲库中的多个分段旋律进行匹配之前，还可以对所述音频数据进行分段。具体地，所述方法还包括：根据所述音频数据的音频特征对所述音频数据分段，也就是将音频数据分段成旋律的最小片段，获得至少一个分段数据；102具体包括：将所述至少一个分段数据分别与所述歌曲库中的多个分段旋律进行匹配，获得每个分段旋律匹配的分段旋律。例如，根据音频数据01的音频特征对音频数据01分段，获得分段数据01和分段数据02，将分段数据01和分段数据02分别与如图3所示的分段旋律01、分段旋律02和分段旋律03进行匹配，获得与分段数据01匹配的分段旋律包括分段旋律01，与分段数据02匹配的分段旋律包括分段旋律02和分段旋律03。

其中，本实施例对歌曲旋律和/或音频数据的分段功能，可以利用信号分割技术中的小波分析、深度学习等技术。并且该分段功能具体可以根据旋律或音频数据中间的停顿和/或长音实现。

103：根据所述匹配的至少一个分段旋律分别对应的歌词，生成所述音频数据的歌词。

本实施例获取到所述匹配的至少一个分段旋律，即歌曲库中与所述音频数据在旋律上相似的至少一个分段数据之后，可以根据所述至少一个分段旋律分别对应的歌词，生成所述音频数据的歌词。其中，可以将所述至少一个分段旋律分别对应的歌词直接作为所述音频数据的歌词，也可以对所述至少一个分段旋律分别对应的歌词作为原始歌词进行加工，将加工后的歌词作为所述音频数据的歌词。

例如，对音频数据01分段获得分段数据01和分段数据02，与分段数据01匹配的分段旋律包括分段旋律01，与分段数据02匹配的分段旋律包括分段旋律03。可以将分段旋律01对应的歌词和分段旋律03对应的歌词直接作为音频数据01的歌词，或者将分段旋律01对应的歌词和分段旋律03对应的歌词进行加工后，作为音频数据01的歌词。

本申请实施例可以用于手机、平板电脑、笔记本等用户终端中，具体可以通过用户终端中安装的应用软件实现。

本申请实施例在将所述音频数据与歌曲库进行匹配之前，可以是将所述音频数据和所述歌曲库中的多个分段旋律转换为相应的向量，再对转换后的向量进行匹配，从而方便、快速地实现音频匹配。具体地，所述方法还包括：将所述多个分段旋律分别转换为对应的向量；将所述音频数据转换为对应的向量；102包括：将所述音频数据对应的向量与所述多个分段旋律分别对应的向量进行匹配，获得匹配的至少一个分段旋律。

其中，在将音频数据和/或多个分段旋律转换为对应的向量时，可以利用信号提取技术中的小波分析、深度学习等技术，提取音频数据和/或多个分段旋律中的信号特征，例如信号的均值、方差等，并将提取的信号特征转换成向量。在根据向量进行匹配时，匹配算法可以使用K近邻算法，即选择K个匹配度最高的分段旋律，K≥1。其中匹配度可以通过欧氏距离或者余弦相似度计算。

在本申请实施例中，用户还可以选取一定的主题，根据用户选取的主题的特点生成对应的歌词。从而在不同主题下生成不同的歌词，满足用户对于不同素材的需求，提高作词效率。具体地，所述方法还包括：获取用户选取的主题分类；102包括：将所述音频数据与所述歌曲库中属于所述主题分类的多个分段旋律进行匹配，获得匹配的至少一个分段旋律。

其中，可以根据歌曲库中的多个歌曲旋律分别对应的歌词，利用LDA(LatentDirichlet Allocation)等文档主题生成模型，将所述多个歌曲旋律分成若干个主题分类，每个主题分类可以使用该主题分类中出现频率最高的几个词语进行描述。具体在将所述音频数据与歌曲库进行匹配时，只需将所述音频数据与属于用户选取的主题分类的多个分段旋律进行匹配，从而实现从所述用户选取的主题分类中，获取与所述音频数据在旋律上相似的至少一个分段旋律。

其中，在获取用户选取的主题分类时，可以由用户输入关键词，根据用户输入的关键词选取相应的主题分类。具体地，所述获取用户选取的主题分类，包括：获取所述歌曲库的所有主题分类；从所述所有主题分类中获取与所述关键词匹配的主题分类，作为用户选取的主题分类。也可以向用户显示所述歌曲库的所有主题分类，通过用户的单击、滑动等输入操作获取用户选取的主题分类。

本申请实施例中，在根据旋律上相似的至少一个分段旋律分别对应的歌词，生成所述音频数据的歌词时，可以对所述分别对应的歌词进行加工，生成全新的并且符合自然语言规则的歌词。下面通过一个实施例进行具体说明。

请参阅图4，本申请实施例提供了歌词生成方法的另一种方法实施例，本实施例的所述方法包括：

401：获取用户输入的音频数据。

例如，获取用户哼唱的一段旋律，作为音频数据01。

402：将所述音频数据与歌曲库中的多个分段旋律进行匹配，获得匹配的至少一个分段旋律。

例如，根据音频数据01的音频特征对音频数据01分段，获得分段数据01和分段数据02，将分段数据01和分段数据02分别与如图3所示的分段旋律01、分段旋律02和分段旋律03进行匹配，获得与分段数据01匹配的分段旋律包括分段旋律01，与分段数据02匹配的分段旋律包括分段旋律02和分段旋律03。

403：将所述匹配的至少一个分段旋律分别对应的歌词中至少一个词语替换成相同词性的词语，获得替换后的歌词。

在本实施例中，可以利用遗传学算法对所述分别对应的歌词进行词语替换。遗传学算法具体包括“交配”和“变异”。

“交配”指的是将所述分别对应的歌词中相同词性的至少两个词语进行互换，例如分段旋律01对应的歌词为“太阳对我笑”，分段旋律02对应的歌词为“春天在哪里”，将这两句歌词中的名词进行“交配”后得到：“春天对我笑”和“太阳在哪里”。

“变异”指的是将所述分别对应的歌词中的至少一个词语，替换成语料库中相同词性的词语。其中可以对所述歌曲库中的所述多个分段旋律分别对应的歌词进行分词，将分词结果存在所述语料库中。例如，分段旋律01对应的歌词为“我爱你祖国”，将这句歌词进行“变异”可以得到“我爱你母亲”。

本实施例中既可以对所述匹配的至少一个分段旋律分别对应的歌词进行“交配”或者“变异”任一种替换方式，也可以对所述分别对应的歌词进行“交配”和“变异”两种替换方式。

404：根据语言模型对所述替换后的歌词进行筛选，获得筛选后的歌词。

语言模型(Language model)用于计算句子的概率，实际上即一个句子符合自然语言规则的概率。利用语言模型进行筛选的规则可以包括：将计算出的概率高于第一阈值的歌词作为筛选后的歌词。

语言模型可以具体为马尔科夫链或者隐马尔科夫模型等带转移属性的模型，此时该步骤具体根据上下文的词语转移概率计算所述替换后的歌词中每句歌词的概率，根据每句歌词的概率对替换后的歌词进行筛选。

例如，音频数据01分段后包括分段数据01和分段数据02，与分段数据01匹配的分段旋律包括分段旋律01，与分段数据02匹配的分段旋律包括分段旋律02和分段旋律03。分段旋律01对应的歌词为“来到你的身边”，分段旋律“02”对应的歌词为“再次亲吻你的脸”，分段旋律“03”对应的歌词为“轻轻挑拨我心弦”，则在该步骤中，分别计算“来到你的身边”、“再次亲吻你的脸”和“轻轻挑拨我心弦”这三句歌词的概率，根据计算结果进行筛选。

本实施例中还可以进一步考虑歌词的特点，根据语言模型和句尾的押韵程度对所述替换后的歌词进行筛选。例如可以通过句尾的押韵与否建立相应的模型，若两句歌词的最后一个词不押韵，该模型对这两句歌词给予一定的惩罚。

405：根据所述筛选后的歌词，生成所述音频数据的歌词。

在本实施例中，所述筛选后的歌词为经过遗传学算法和语言模型进行了加工的歌词，可以直接将所述筛选后的歌词作为所述音频数据的歌词，并向用户显示。

通过上述技术方案可知，在本实施例中，在获取与所述音频数据在旋律上相似的至少一个分段旋律分别对应的歌词之后，利用遗传学算法和语言模型对该歌词进行二次加工，从而生成耳目一新的歌词，满足用户的个性化需求，并且生成的歌词更贴合自然语言，即更加合理化，进一步提高了用户体验。

在本实施例中，也可以不利用所述语言模型对所述替换后的歌词进行筛选，而是根据所述替换后的歌词，生成所述音频数据的歌词。

在本实施例中，可以重复执行403和404，直至所述筛选后的歌词满足终止条件，其中终止条件可以为所述筛选后的歌词的概率大于设定的第二阈值。其中，第二阈值设置在一个合适的范围内，如果第二阈值设置的比较高，例如为0.9，则会使得筛选后的歌词与原始歌词，即所述匹配的至少一个分段旋律分别对应的歌词的相似度非常高，不能满足用户的个性化需求，而如果第二阈值设置的比较低，则可能会使得歌词不能贴合自然语言，变得很难理解。

下面本申请实施例提供一种具体的实施方式。

请参阅图5，本申请实施例提供了歌词生成方法的另一种方法实施例。

在本实施例中，歌曲库中具有多个歌曲旋律，所述多个歌曲旋律分别具有对应的歌词。其中歌曲旋律和歌词分开存储，歌曲旋律通常存储为mp3格式或者wmv格式。

本实施例的所述方法包括：

501：歌曲主题分类器根据歌曲库中的多个歌曲旋律分别对应的歌词，并利用LDA等文档主题生成模型，将所述多个歌曲旋律分成若干个主题分类。其中，每个主题分类可以使用该主题分类中出现频率最高的几个词语进行描述。并且可以利用无监督学习将多个歌曲旋律分成若干主题分类。

502：歌词搜索引擎模块获取用户输入的关键词，利用关键词和主题分类的索引关系，根据用户输入的关键词选取相应的主题分类。从而能够使得输出的歌词与用户输入的关键词相关。

503：分类歌曲模块输出属于用户选取的主题分类的歌曲列表。该歌曲列表中记录有属于用户选取的主题分类的歌曲旋律的存储路径，以及对应的歌词。

例如，分类歌曲模块输出的歌曲列表可以包括：

歌曲名称：匆匆那年

旋律：匆匆那年.mp3(记录存储路径)

歌词：匆匆那年我们究竟说了几遍再见之后再拖延……

主题：青春、校园、爱情

504：音频输入模块获取用户输入的音频数据。该音频数据通常为一段旋律。

505：旋律分段器根据分类歌曲模块输出的歌曲列表中每个歌曲旋律的音频特征分别对每个歌曲旋律分段，获得多个分段旋律，并且根据所述音频数据的音频特征对所述音频数据分段，获得至少一个分段数据。

其中，分段后的旋律和音频数据均为旋律的最小片段。

506：旋律特征提取器将旋律分段器输出的所述多个分段旋律和所述至少一个分段数据转换为相应的向量。

507：相似歌曲生成器根据旋律特征提取器输出的向量，将所述至少一个分段数据对应的向量分别与所述多个分段旋律分别对应的向量进行匹配，获得匹配的至少一个分段旋律，即所述音频数据的相似旋律。

其中，相似歌曲生成器将每一个分段数据都分别与所述多个分段旋律进行匹配，对于每个分段数据都获得匹配的分段旋律，也就是说对于每个分段数据都获得相似旋律。

508：相似旋律歌词模块输出相似旋律歌词列表，相似旋律歌词列表记录有所述音频数据的相似旋律对应的歌词。其中，本实施例中将相似旋律歌词列表中记录的歌词作为原始歌词。

例如，相似旋律歌词模块输出的相似旋律歌词列表可以包括：

音频数据：01

分段数据：1

主题序号：1

原始歌词：XXX、XXX、XXX

主题序号：2

原始歌词：XXX、XXX、XXX

其中，对于任一个分段旋律，当主题不同时，匹配得到的相似旋律也可能不同，因此对应的原始歌词也不相同。

509：歌词文本处理器对分类歌曲模块输出的歌曲列表中记录的歌词进行分词，将分词结果存储在语料库中。

510：歌词遗传模型利用遗传学算法对相似旋律歌词列表中记录的原始歌词进行二次创作。

具体地，本步骤使用遗传学算法的“交配”，对同一主题下的两句原始歌词中相同词性的词语进行随机互换或者一定概率的互换。并且，本步骤还使用遗传学算法的“变异”，将原始歌词中至少一个词语，随机替换或者按照一定概率替换成语料库中相同词性的词语。

511：歌词语言模型根据上下文的词语转移概率和句尾的押韵程度对二次创作后的歌词计算概率。该概率表示该句歌词符合自然语言规则并且句尾押韵的概率。

其中，歌词语言模型可以使用马尔科夫链或者隐马尔科夫模型等带转移属性的模型，并且若两句歌词最后一个词不押韵，给予一定的惩罚。

512：过滤掉概率低于第一阈值的歌词。

513：判断过滤后的歌词是否满足终止条件，如果是，执行514，如果否，返回510。

终止条件为511计算出的概率大于第二阈值。

514：新歌词输出模块输出满足终止条件的歌词，即经过遗传学算法和语言模型二次创作后的歌词。

对于用户输入的音频数据中的每个分段数据，都可以对应一个歌词列表，每个歌词列表中包括与该歌词列表对应的分段数据匹配的一句或多句歌词，在每个歌词列表中，这些歌词可以按照511中计算的概率降序排列。用户可以通过拖拽等方式，从每个歌词列表中选择一句歌词，作为所述音频数据最终的歌词。

本实施例中，根据用户的输入选取主题分类，得到主题分类对应的分类歌曲列表，将分类歌曲列表中的歌曲旋律进行分段并且转换为向量之后，从分类歌曲列表中匹配得到与用户输入的音频数据相似的旋律，之后基于该相似的旋律获取得到原始歌词，利用遗传学算法和语言模型对原始歌词进行二次加工，创作出与用户输入的音频数据对应的全新的歌词，满足用户的个性化追求，提高用户体验。并且对应用户输入的同一音频数据，可以针对不同的主题生成不同的歌词，满足用户对于不同素材的需求，提高作词效率。

对应于上述方法实施例，本申请还提供了歌词生成装置的具体实施例。下面具体说明。

请参阅图6，本申请实施例提供了歌词生成装置的一种装置实施例，本实施例的所述装置包括：第一获取单元601、匹配单元602和生成单元603。

第一获取单元601，用于获取用户输入的音频数据。

用户可以通过音频输入口输入所述音频数据。

匹配单元602，用于将所述音频数据与歌曲库中的多个分段旋律进行匹配，获得匹配的至少一个分段旋律。

其中，歌曲库中具有多个分段旋律，所述多个分段旋律分别具有对应的歌词，每个分段旋律通常为在旋律上不可分割的一段旋律，即旋律的最小片段。

所述多个分段旋律可以是对歌曲库中的多个歌曲旋律进行分段后得到的。具体地，所述歌曲库中具有多个歌曲旋律，所述多个歌曲旋律分别具有对应的歌词。所述装置还包括：第一分段单元，用于根据所述多个歌曲旋律中每个歌曲旋律的音频特征分别对每个歌曲旋律分段，也就是将每个歌曲旋律分段成旋律的最小片段，获得所述歌曲库中的多个分段旋律；第二分段单元，用于根据对每个歌曲旋律的分段方式，对每个歌曲旋律对应的歌词进行分段，分别作为每个分段旋律对应的歌词。

本实施例中在将所述音频数据与歌曲库中的多个分段旋律进行匹配之前，还可以对所述音频数据进行分段。具体地，所述装置还包括：第三分段单元，用于根据所述音频数据的音频特征对所述音频数据分段，也就是将音频数据分段成旋律的最小片段，获得至少一个分段数据；匹配单元602具体用于将所述至少一个分段数据分别与歌曲库中的多个分段旋律进行匹配，获得匹配的至少一个分段旋律，所述匹配的至少一个分段旋律包括每个分段数据匹配的分段旋律。

生成单元603，用于根据所述匹配的至少一个分段旋律分别对应的歌词，生成所述音频数据的歌词。

本实施例匹配单元602获取到所述匹配的至少一个分段旋律，即歌曲库中与所述音频数据在旋律上相似的至少一个分段数据之后，生成单元603可以根据所述至少一个分段旋律分别对应的歌词，生成所述音频数据的歌词。其中，可以将所述至少一个分段旋律分别对应的歌词直接作为所述音频数据的歌词，也可以对所述至少一个分段旋律分别对应的歌词作为原始歌词进行加工，将加工后的歌词作为所述音频数据的歌词。

通过上述技术方案可知，本申请实施例中，第一获取单元601获取用户输入的音频数据，匹配单元602将所述音频数据与歌曲库中的多个分段旋律进行匹配，实现了从歌曲库中获取与所述音频数据在旋律上相似的至少一个分段旋律，生成单元603根据在旋律上相似的至少一个分段旋律分别对应的歌词，生成所述音频数据的歌词。可见，本申请实施例能够根据用户输入的音频数据所具有的旋律特征，生成对应的歌词，从而提高了用户体验。

本申请实施例的所述装置可以用于手机、平板电脑、笔记本等用户终端中。

本申请实施例在将所述音频数据与歌曲库进行匹配之前，可以是将所述音频数据和所述歌曲库中的多个分段旋律转换为相应的向量，再对转换后的向量进行匹配，从而方便、快速地实现音频匹配。具体地，所述装置还包括：第一向量转换单元，将所述多个分段旋律分别转换为对应的向量；第二向量转换单元，将所述音频数据转换为对应的向量；匹配单元602具体用于将所述音频数据对应的向量与所述多个分段旋律分别对应的向量进行匹配，获得匹配的至少一个分段旋律。

在本申请实施例中，用户还可以选取一定的主题，根据用户选取的主题的特点生成对应的歌词。从而在不同主题下生成不同的歌词，满足用户对于不同素材的需求，提高作词效率。具体地，所述装置还包括：第二获取单元，用于获取用户选取的主题分类；匹配单元602具体用于将所述音频数据与所述歌曲库中属于所述主题分类的多个分段旋律进行匹配，获得匹配的至少一个分段旋律。

其中，可以根据歌曲库中的多个歌曲旋律分别对应的歌词，利用LDA等文档主题生成模型，将所述多个歌曲旋律分成若干个主题分类，每个主题分类可以使用该主题分类中出现频率最高的几个词语进行描述。具体在将所述音频数据与歌曲库进行匹配时，只需将所述音频数据与属于用户选取的主题分类的多个分段旋律进行匹配，从而实现从所述用户选取的主题分类中，获取与所述音频数据在旋律上相似的至少一个分段旋律。

其中，在获取用户选取的主题分类时，可以由用户输入关键词，根据用户输入的关键词选取相应的主题分类。具体地，所述第一获取单元包括：第一获取子单元，用于获取用户输入的关键词；第二获取子单元，用于获取所述歌曲库的所有主题分类；第三获取子单元，用于从所述所有主题分类中获取与所述关键词匹配的主题分类，作为所述用户选取的主题分类。也可以由显示单元向用户显示所述歌曲库的所有主题分类，通过用户的单击、滑动等输入操作获取用户选取的主题分类。

请参阅图7，本申请实施例提供了歌词生成装置的另一种装置实施例，本实施例的所述装置包括：第一获取单元701、匹配单元702、生成单元703、替换单元704和筛选单元705。

第一获取单元701用于，获取用户输入的音频数据。

例如，获取用户哼唱的一段旋律，作为音频数据01。

匹配单元702用于，将所述音频数据与歌曲库中的多个分段旋律进行匹配，获得匹配的至少一个分段旋律。

替换单元704用于，将所述匹配的至少一个分段旋律分别对应的歌词中至少一个词语替换成相同词性的词语，获得替换后的歌词。

“交配”指的是将所述分别对应的歌词中相同词性的至少两个词语进行互换。

“变异”指的是将所述分别对应的歌词中的至少一个词语，替换成语料库中相同词性的词语。其中可以对所述歌曲库中的所述多个分段旋律分别对应的歌词进行分词，将分词结果存在所述语料库中。

本实施例中替换单元704既可以对所述匹配的至少一个分段旋律分别对应的歌词进行“交配”或者“变异”任一种替换方式，也可以对所述分别对应的歌词进行“交配”和“变异”两种替换方式。

筛选单元705用于，根据语言模型对所述替换后的歌词进行筛选，获得筛选后的歌词。

语言模型用于计算句子的概率，实际上即一个句子符合自然语言规则的概率。利用语言模型进行筛选的规则可以包括：将计算出的概率高于第一阈值的歌词作为筛选后的歌词。

语言模型可以具体为马尔科夫链或者隐马尔科夫模型等带转移属性的模型，筛选单元705具体根据上下文的词语转移概率计算所述替换后的歌词中每句歌词的概率，根据每句歌词的概率对替换后的歌词进行筛选。

本实施例中还可以进一步考虑歌词的特点，筛选单元705根据语言模型和句尾的押韵程度对所述替换后的歌词进行筛选。例如可以通过句尾的押韵与否建立相应的模型，若两句歌词的最后一个词不押韵，该模型对这两句歌词给予一定的惩罚。

生成单元703用于，根据所述筛选后的歌词，生成所述音频数据的歌词。

通过上述技术方案可知，在本实施例中，在获取与所述音频数据在旋律上相似的至少一个分段旋律分别对应的歌词之后，由替换单元704和筛选单元705利用遗传学算法和语言模型对该歌词进行二次加工，从而生成耳目一新的歌词，满足用户的个性化需求，并且生成的歌词更贴合自然语言，即更加合理化，进一步提高了用户体验。

在本实施例中，也可以不包括筛选单元705，生成单元703根据所述替换后的歌词，生成所述音频数据的歌词。

在本实施例中，替换单元704和筛选单元705可以循环工作，直至所述筛选后的歌词满足终止条件，其中终止条件可以为所述筛选后的歌词的概率大于设定的第二阈值。其中，第二阈值设置在一个合适的范围内，如果第二阈值设置的比较高，则会使得筛选后的歌词与原始歌词，即所述匹配的至少一个分段旋律分别对应的歌词的相似度非常高，不能满足用户的个性化需求，而如果第二阈值设置的比较低，则可能会使得歌词不能贴合自然语言，变得很难理解。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种歌词生成方法，其特征在于，所述方法包括：

获取用户输入的音频数据；

将所述音频数据与歌曲库中的多个分段旋律进行匹配，获得匹配的至少一个分段旋律；包括：将所述至少一个分段数据分别与歌曲库中的多个分段旋律进行匹配，获得匹配的至少一个分段旋律，所述匹配的至少一个分段旋律包括每个分段数据匹配的分段旋律；所述歌曲库中的多个分段旋律分别具有对应的歌词；

2.根据权利要求1所述的方法，其特征在于，所述歌曲库中具有多个歌曲旋律，所述多个歌曲旋律分别具有对应的歌词，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

根据所述替换后的歌词，生成所述音频数据的歌词。

4.根据权利要求3所述的方法，其特征在于，所述将所述分别对应的歌词中的至少一个词语替换成相同词性的词语，包括：

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

根据所述筛选后的歌词，生成所述音频数据的歌词。

6.根据权利要求4所述的方法，其特征在于，所述方法还包括：

根据所述筛选后的歌词，生成所述音频数据的歌词。

7.根据权利要求5或6所述的方法，其特征在于，所述根据语言模型对所述替换后的歌词进行筛选，包括：

8.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

将所述多个分段旋律分别转换为对应的向量；

将所述音频数据转换为对应的向量；

9.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

获取用户选取的主题分类；

10.根据权利要求9所述的方法，其特征在于，所述获取用户选取的主题分类，包括：

获取用户输入的关键词；

获取所述歌曲库的所有主题分类；

11.一种歌词生成装置，其特征在于，包括：

第一获取单元，用于获取用户输入的音频数据；

匹配单元，用于将所述音频数据与歌曲库中的多个分段旋律进行匹配，获得匹配的至少一个分段旋律；所述歌曲库中的多个分段旋律分别具有对应的歌词；所述匹配单元具体用于将所述至少一个分段数据分别与歌曲库中的多个分段旋律进行匹配，获得匹配的至少一个分段旋律，所述匹配的至少一个分段旋律包括每个分段数据匹配的分段旋律；

12.根据权利要求11所述的装置，其特征在于，所述歌曲库中具有多个歌曲旋律，所述多个歌曲旋律分别具有对应的歌词；所述装置还包括：

13.根据权利要求11或12所述的装置，其特征在于，所述装置还包括：

14.根据权利要求13所述的装置，其特征在于，所述替换单元具体用于，将所述分别对应的歌词中相同词性的至少两个词语进行互换，和/或，将所述分别对应的歌词中的至少一个词语，替换成语料库中相同词性的词语。

15.根据权利要求13所述的装置，其特征在于，所述装置还包括：

16.根据权利要求14所述的装置，其特征在于，所述装置还包括：

17.根据权利要求15所述的装置，其特征在于，所述筛选单元具体用于，根据语言模型和句尾的押韵程度对所述替换后的歌词进行筛选。

18.根据权利要求11或12所述的装置，其特征在于，所述装置还包括：

第二向量转换单元，将所述音频数据转换为对应的向量；

19.根据权利要求11或12所述的装置，其特征在于，还包括：

第二获取单元，用于获取用户选取的主题分类；

20.根据权利要求19所述的装置，其特征在于，所述第一获取单元包括：

第一获取子单元，用于获取用户输入的关键词；

第二获取子单元，用于获取所述歌曲库的所有主题分类；