CN112669815A

CN112669815A - 歌曲定制生成方法及其相应的装置、设备、介质

Info

Publication number: CN112669815A
Application number: CN202011497877.8A
Authority: CN
Inventors: 刘研; 周丽
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Huaduo Network Technology Co Ltd
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2021-04-16
Anticipated expiration: 2040-12-17
Also published as: CN112669815B

Abstract

本申请公开一种歌曲定制生成方法及其相应的装置、设备、介质，其中，所述方法包括：基于用户应答返回的自然短语进行语义分析，确定与其相应的以多个标签词描述的主题；根据所述主题所具有的标签词从歌曲库中匹配出预选配曲，并生成可播放格式的歌词内容；根据所述歌词内容与预选配曲以预设人声模型进行歌唱合成，生成可播放的流媒体；推送所述流媒体给用户播放。本申请能够借助简单的自然短语自动创作歌词内容并生成可以直接播放的曲音同步的歌曲，特别适用于在线娱乐领域。

Description

歌曲定制生成方法及其相应的装置、设备、介质

技术领域

本申请涉及人工智能领域，具体涉及一种歌曲定制生成方法，及其相应的歌曲定制生成装置、电子设备以及非易失性存储介质。

背景技术

歌词内容自动创作在一些在线娱乐领域能满足一定的需求，因此，相关技术的研究方兴未艾。

作为当前流行的在先技术，CN110362696A号专利公开了一种歌词生成方法，其包括以下步骤：接收用户的输入信息，并将所述输入信息转换为对应的向量数据，其中，所述输入信息包括待生成歌曲的主题、待生成歌曲的句子数量以及每个句子的长度；基于双向长短期记忆的循环神经网络模型对向量数据和已生成的字组成的输入序列进行编码，以将输入序列转换为一组隐状态；基于包含汉语语言模型N-grams的长短期记忆的循环神经网络模型对隐状态进行解码，以生产待生成歌曲的当前字；重复执行上述步骤，以生成待生成歌曲的全部句子。

以上引用的在先技术至少如下技术问题：

首先，现有技术中缺乏人性化的高效的手段用于获取定制歌曲所需的信息，无法自动化生成包含歌词与曲谱的歌曲。

其次，由于其高度依赖于用户输入的信息用于生成歌词，因此，要求用户输入大量的关键词，本质上局限于其智能化程度不足所致，导致用户输入很繁琐，不利于用户创作的积极性。

此外，同样由于该方法所应用的技术手段的智能化程度的不足，其所生产的歌词表述机械，无押韵，而押韵是歌词的一个基本艺术手段，无押韵的歌词难以与配曲相配合形成优秀的作品。

由此，提供相关技术方案以便实现歌曲定制，成为目前相关领域的空白。

发明内容

本申请的目的旨在提供一种歌曲定制生成方法，同时相应提供一种歌曲定制生成装置，以及与该歌曲定制生成方法相应的一种电子设备和一种非易失性存储介质。

为满足本申请的各个目的，本申请采用如下技术方案：

适应本申请的目的之一而提供的一种歌曲定制生成方法，包括如下步骤：

基于用户应答返回的自然短语进行语义分析，确定与其相应的以多个标签词描述的主题；

根据所述主题所具有的标签词从歌曲库中匹配出预选配曲，并生成可播放格式的歌词内容；

根据所述歌词内容与预选配曲以预设人声模型进行歌唱合成，生成可播放的流媒体；

推送所述流媒体给用户播放。

部分实施例中，基于用户应答返回的自然短语进行语义分析，确定与其相应的以多个标签词描述的主题的步骤，包括：

向用户推送引导信息；

提取用户应答所述引导信息而提供的所述自然短语；

对所述自然短语进行语义分析，匹配出与其在语义上相关联的所述主题。

部分实施例中，根据所述主题所具有的标签词从歌曲库中匹配出预选配曲的步骤，包括：

从歌词库的全量歌词中提取出主题词；

以所述主题的标签词优化所述的主题词；

根据优化后的主题词从歌曲库中确定与之相匹配的配曲作为预选配曲。

部分实施例中，生成可播放格式的歌词内容的步骤，包括：

对所述主题所具有的标签词进行语义整理，使其语义上逻辑连贯；

按照所述主题的标签词形成的序列构造多个语句，构成歌词素材；

从所述歌词素材中确定出构成歌词内容的多个语句之间的最佳路径组合，使其中至少部分语句的句尾相互押韵；

按照预选配曲的曲谱信息将所述歌词内容格式化为可播放格式。

部分实施例中，按照所述主题的标签词形成的序列构造多个语句，构成歌词素材的步骤，包括：

将所述主题所具有的多个标签词构成的序列馈入至预训练的人工神经网络编码器中进行编码，生成语义向量；

由该人工神经网络将所述语义向量作为初始状态传入其解码器中进行解码，获得相应的语句；

以多个所述的语句按序组装构造所述的歌词素材。

进一步丰富的实施例中，从所述歌词素材中确定出构成歌词内容的多个语句之间的最佳路径组合，使其中至少部分语句的句尾相互押韵的步骤，包括：

对所述歌词素材中的语句进行文本分析，获得其韵律标注信息；

依据所述韵律标注信息生成韵律标注词图；

基于所述韵律标注词图进行解码，以句尾存在押韵关系的语句序列构造为所最佳路径组合，以经过的最佳路径所包含的语句构成所述的歌词内容。

部分实施例中，根据所述歌词内容与预选配曲以预设人声模型进行歌唱合成，生成可播放的流媒体的步骤，包括：

利用所述预设人声模型对所述歌词内容进行语音合成，生成语音合成数据；

调用与预选配曲相对应的曲谱信息为所述语音合成数据中的单字添加歌唱相关的韵律信息和音调信息，形成歌唱数据；

将所述歌唱数据转换成流媒体格式。

适应本申请的目的之一而提供的一种歌曲定制生成装置，其包括：

主题分析模块，用于基于用户应答返回的自然短语进行语义分析，确定与其相应的以多个标签词描述的主题；

曲词生成模块，用于根据所述主题所具有的标签词从歌曲库中匹配出预选配曲，并生成可播放格式的歌词内容；

媒体合成模块，用于根据所述歌词内容与预选配曲以预设人声模型进行歌唱合成，生成可播放的流媒体；

媒体播放模块，用于推送所述流媒体给用户播放。

适应于本申请的目的之一而提供的一种电子设备，包括中央处理器和存储器，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行所述的歌曲定制生成方法。

适应于本申请的目的之一而提供一种非易失性存储介质，其以计算机可读指令的形式存储用依据所述的歌曲定制生成方法所述实现的计算机程序，该计算机程序被计算机调用时，执行该方法所包括的步骤。

相对于现有技术，本申请具有如下优势：

本申请以问答的形式获取用户提供的自然短语，利用所述的自然短语预选相应的配曲以及自动生成相应的歌词，通过关联于同一主题，确保配曲的特征与歌词均在语义上与用户提供的自然短语相关联，最终调用人声模型进行合成演唱，生成可播放媒体推送给用户播放，整个过程自动化完成，既实现语义上按需定制，也实现了技术上的智能合成，为用户在线创作音乐素材提供了技术框架，深化了在线娱乐业务的技术内涵。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为适于部署本申请的一种网络架构的原理示意图；

图2为本申请的歌曲定制生成方法的典型实施例的流程示意图；

图3为图2中步骤S21所包括的具体步骤所形成的流程示意图；

图4为图2中步骤S22所包括的用于确定预选配曲的具体步骤所形成的流程示意图；

图5为图2中步骤S22所包括的用于生成歌词内容的具体步骤所形成的流程示意图；

图6为图5中步骤S11所包括的具体步骤所形成的流程示意图；

图7为图5中步骤S12所包括的具体步骤所形成的流程示意图；

图8为图5中步骤S13所包括的具体步骤所形成的流程示意图；

图9为图5中步骤S14所包括的具体步骤所形成的流程示意图；

图10为图2中步骤S23所包括的具体步骤所形成的流程示意图；

图11为本申请的歌曲定制生成装置的结构原理框图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他诸如个人计算机、平板电脑之类的通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(PersonalCommunications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件，本质上是具备个人计算机等效能力的电子设备，为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置，计算机程序存储于其存储器中，中央处理器将存储在外存中的程序调入内存中运行，执行程序中的指令，与输入输出设备交互，借此完成特定的功能。

需要指出的是，本申请所称的“服务器”这一概念，同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理，所述各服务器应是逻辑上的划分，在物理空间上，这些服务器既可以是互相独立但可通过接口调用的，也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通，而不应以此约束本申请的网络部署方式的实施方式。

请参阅图1，本申请相关技术方案实施时所需的硬件基础可按图中所示的架构进行部署。本申请所称的服务器80部署在云端，主要用于部署本申请的人工神经网络，其仅为逻辑概念上的服务器，代表着用于实现该人工神经网络的整个服务机群，通过这一逻辑上的服务器来为相关的第三方服务器、终端设备例如图中所示的智能手机81和个人计算机82等调用方提供服务，对调用方的请求进行响应并反馈相应的结果。

在理解上述所揭示的与本申请技术方案相关的相关应用环境和开发环境的基础上，请参阅如下说明继续了解本申请的多种实施方式。需要指出的是，本领域技术人员对此应当知晓：本申请的各种方法，虽然基于相同的概念而进行描述而使其彼此间呈现共通性，但是，除非特别说明，否则这些方法都是可以独立执行的。同理，对于本申请所揭示的各个实施例而言，均基于同一发明构思而提出，因此，对于相同表述的概念，以及尽管概念表述不同但仅是为了方便而适当变换的概念，应被等同理解。

请参阅图2，本申请的典型实施例中，一种歌曲定制生成方法，由安装并运行在所述服务器上的应用程序负责实施，包括如下步骤：

步骤S21、基于用户应答返回的自然短语进行语义分析，确定与其相应的以多个标签词描述的主题；

为了提升交互体验，可以借助问答的形式获取用户的自然短语，并利用终端用户应答而提供的自然短语来确定需要定制的歌曲的主题。具体的实现过程可参阅图3所示，按照如下具体步骤处理：

步骤S211、向用户推送引导信息：

服务器可以以问答的形式，向用户推送引导信息，引导用户提供所述的回答内容。引导信息通常以提问信息的形式提供，向用户提出一个问题，而用户的回答一般是一个自然短语。所述的自然短语，通常是一个简易句式，可以是一个具有表意能力的词汇或句式。

步骤S212、提取用户应答所述引导信息而提供的所述自然短语：

用户应答引导信息而提供的自然短语会反馈至服务器，服务器从中获得所述的自然短语便可用作进一步的处理。

步骤S213、对所述自然短语进行语义分析，匹配出与其在语义上相关联的所述主题：

获得所述的自然短语后，利用LDA的无监督的方法从终端用户的自然短语进行语义分析处理，通过分词并检索与各个分词语义相关的标签词，必要时检索同义词等方式构造出多个主题，将多个主题进行统计打分后，确定唯一一个主题。所述主题通常以多个标签词加以描述，这些标签词与所述自然短语在语义上相关联。

步骤S22、根据所述主题所具有的标签词从歌曲库中匹配出预选配曲，并生成可播放格式的歌词内容：

可以采用并行机制，分别利用所述主题所具有的标签词从歌曲库匹配出预选配曲以及利用所述标签词自动创作生成与该预选配曲相匹配的歌词内容。

一个实施例中，请参阅图4，根据所述主题所具有的标签词从歌曲库中匹配出预选配曲的步骤，按照如下具体步骤处理：

步骤S2201、从歌词库的全量歌词中提取出主题词：

系统中设有一个歌词库，其预存有海量的歌词，可以对全量歌词进行数据数据清洗后，将其导入主题模型中提取出主题词，也即从其具有高概率分布的若干关键词。

步骤S2202、以所述主题的标签词优化所述的主题词：

借助数据清洗之类的手段，利用前述主题的标签词提取并优化从该歌词库中确定的与标签词在语义上相关联的主题词，这些主题词便可用于与歌曲库中的配曲的特征信息进行语义匹配。

步骤S2203、根据优化后的主题词从歌曲库中确定与之相匹配的配曲作为预选配曲：

系统设有一个歌曲库，其预存有海量的候选配曲，候选配曲一般会被附以各种标签信息，以对其风格、类型等特征信息进行描述，可视为具有一定的主题特征。通过利用从歌词库中优选出的主题词干预并过滤所述的特征信息，可以匹配出与所述主题相关联的候选配曲作为预选配曲。

当确定了所述的预选配曲后，相应的主题即为与预选配曲相统一的主题，这种统一主要是指语义上的统一，对于所述的预选配曲而言，主要是指其特征信息与该主题的标签词在语义上相统一。

一个实施例中，请参阅图5，根据所述主题所具有的标签词生成可播放格式的歌词内容的步骤，按照如下具体步骤处理：

步骤S11、对所述主题所具有的标签词进行语义整理，使其语义上逻辑连贯：

在需要生成歌词内容之前，通常会如前所述先行预选具体的歌曲，即所述的预选配曲，为了确保预选配曲与即将生成的歌词内容之间在风格上统一，通常会为预选配曲与即将生成的歌词统一于同一主题，所述的主题以多个标签词来加以描述。

为了实现对主题所具有的标签词的语义整理，请参阅图6，一个实施例中，按照如下具体步骤执行：

步骤S111、依据所述主题的标签词构成的序列对倒排索引表进行语义召回，获得联想词序列：

倒排索引源于实际应用中需要根据属性的值来查找记录。倒排索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件，简称倒排文件(inverted file)。可以理解，通过实施倒排索引表语义召回这一手段，可以逆向获取所述主题的各个标签词相对应的联想词，构成联想词序列，扩大了各个标签词的语义表达范围，在所述主题既定的基础上，扩展了歌词内容的内涵。

步骤S112、基于联想词序列，采用N-gram模型对标签词进行一级排序：

N-Gram是一种基于统计语言模型的算法，以其构造的N-gram模型的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。本申请中将所述联想词系列作为所述的文本导入该模型中进行处理。每一个所述的字节片段称为gram，模型通过对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。该模型基于这样一种假设，第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。由此可见，通过应用N-gram模型，可以确定出各个联想词与各个标签词之间的关联程度及前后关系，依照标签词与联想词相组装获得的概率乘积进行排序，初步梳理出联想词之间的排列顺序，实现对所述的标签词的一级排序。实践中，这一排序效果在语义上尚嫌粗糙，因此可以通过后续步骤来加以进一步的优化和提升。

步骤S113、基于一级排序的结果，采用Bert模型对标签词进行二级排序：

前一步骤获得的排序所得的标签词序列，在本步骤中采用经预训练的Bert模型进行精细排序，实现二级排序。

BBERT模型的全称是：Bidirectional Encoder Representations fromTransformer，即基于转换器的双向编码表示。BERT模型由谷歌公司所提出，其目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的Representation，即：文本的语义表示，然后将文本的语义表示在特定自然语义处理任务中作微调，最终应用于该自然语义处理任务。

文本中的字/词，包括所述的标签词序列，通常都用一维向量来表示(一般称之为“词向量”)；在此基础上，Bert模型会将文本中各个字或词的一维词向量作为输入，经过一系列复杂的转换后，输出一个一维词向量作为文本的语义表示。特别地，我们通常希望语义相近的字/词在特征向量空间上的距离也比较接近，如此一来，由字/词向量转换而来的文本向量也能够包含更为准确的语义信息。因此，BERT模型的主要输入是所述标签词序列中各个字/词的原始词向量，该向量既可以随机初始化，也可以利用Word2Vector等算法进行预训练以作为初始值；输出是所述标签词序列中各个字/词融合了全文语义信息后的向量表示。

由此可见，通过Bert模型的处理，便可实现对所述主题所具有的标签词的语义整理，使其语义上逻辑连贯，更符合歌词内容创造的要求。

必要时，还可依据一定的预设算法对标签词微调顺序，以解决Bert模型对相近义标签词的困惑。

步骤S12、按照所述主题的标签词形成的序列构造多个语句，构成歌词素材：

在确定所述标签词的顺序形成的标签词序列的基础上，便可依据顺序排列的标签词构造相关语句，以便构成歌词素材。

为了实现歌词素材所包括的语句的构造，可采用经预训练的人工神经网络Seq2seq模型来实施。Seq2Seq模型是输出的长度不确定时采用的模型，在该模型中输入一个中文序列，本实施例中输入所述的标签词序列，然后输出它对应的联想词，输出的部分的结果进一步用于预测后面的输出，根据上面的例子，由此获得多个或长或短的语句。

Seq2seq属于encoder-decoder结构的一种，encoder-decoder结构基本思想就是利用两个RNN，一个RNN作为encoder，另一个RNN作为decoder。encoder负责将输入的文本序列压缩成指定长度的向量，这个向量就可以看成是这个序列的语义，这个过程称为编码，获取语义向量最简单的方式就是直接将最后一个输入的隐状态作为语义向量，也可以对最后一个隐状态做一个变换得到语义向量，还可以将输入序列的所有隐含状态做一个变换得到语义变量。

而decoder则负责根据语义向量生成指定的序列，这个过程也称为解码，最简单的方式是将encoder得到的语义向量作为初始状态输入到decoder的RNN中，得到输出序列。

请参阅图7，根据Seq2seq的原理，本步骤可以按照如下具体步骤执行：

步骤S121、将所述主题所具有的多个标签词构成的序列馈入至预训练的人工神经网络编码器中进行编码，生成语义向量：首先将所述标签词序列馈入Seq2seq模型中，经其内部的编码器处理以便生成所述的语义向量。

步骤S122、由该人工神经网络将所述语义向量作为初始状态传入其解码器中进行解码，获得相应的语句：由所述编码器生成的语义向量被作为初始状态传入所述的解码器中进行解码后，便可生成多个或长或短的语句。

步骤S123、以多个所述的语句按序组装构造所述的歌词素材：从Seq2seq模型输出的语句便构成歌词素材所需的候选语句。

由此可以理解，将所述多个标签词构成的序列导入预训练的Seq2seq模型，便可基于各标签词构造出歌词素材所需的多个语句。

步骤S13、从所述歌词素材中确定出构成歌词内容的多个语句之间的最佳路径组合，使其中至少部分语句的句尾相互押韵：

所述标签词经语义整理和排序，被据以生成的述的歌词素材，歌词素材中包括大量的语句，这些语句在语义上均大致相接近或者连贯，但是，为了适应歌词具有押韵特征的需要，本步骤中，可以利用Viterbi算法确定构成最终的歌词内容所需的语句之间的最佳路径组合。

Viterbi算法属于隐马尔科夫模型的算法之一，又称维特比算法，是一个通用的解码算法，是基于动态规划的求序列最短路径的方法。所述歌词素材中的多个语句可被理解为导入供维特比算法处理的一个序列，每个语句构成其节点，运行维特比算法的结果，便是确定构成所述最短路径的节点所形成的路径，成为所述的最佳路径组合。

为了确定所述的最佳路径组合，并且确保这一最佳路径组合中具有句尾押韵的特征，请参阅图8，可以按照如下具体步骤处理：

步骤S131、对所述歌词素材中的语句进行文本分析，获得其韵律标注信息：

《清华大学学报(自然科学版)》2011年第51卷第9期发表了一篇《基于Viterbi解码的中文合成音库韵律短语边界自动标注》的专论，该文提出了一种基于Viterbi解码的中文合成音库韵律短语边界自动标注方法，以降低大语料库单元拼接合成系统的构建成本。该方法分为模型训练和韵律标注两个阶段：模型训练阶段得到频谱，基谱和音素时长的上下文相关隐马尔科夫模型；标注阶段借助训练的模型采用Viterbi解码完成韵律短语自动标注。该方法可被参考并应用于本申请的，而本申请对其引用主要包括对韵律短语自动标注相关功能的引用。具体而言，将所述歌词素材的语句作为序列导入参照该方法所训练形成的模型中，可以实现对歌词素材的文本分析，从而获得其韵律标注信息，重点在于获取其中每个语句的末字的韵律标注信息。

步骤S132、依据所述韵律标注信息生成韵律标注词图：

根据前述进行文本分析的结果，在获得所述韵律标注信息的基础上，可以进行所述韵律标注词图的自动生成，以便在该词图的约束下进行Veterbi解码。在这一过程中，可以适当结合在韵律标注中考虑的韵律边界类型进行处理。

步骤S133、基于所述韵律标注词图进行解码，以句尾存在押韵关系的语句序列构造为所最佳路径组合，以经过的最佳路径所包含的语句构成所述的歌词内容：

基于所述的韵律标注词图，适用Veterbi算法对其进行解码，依照前述的原理，由Veterbi依据该词图决策出句尾存在押韵关系的多个节点，形成所述的最佳路径组合，由此对应从歌词素材中确定出多个语句集合，这一语句集合中的每一个语句均具有押韵关系，以此便构成最终的歌词内容。

步骤S14、按照预选配曲的曲谱信息将所述歌词内容格式化为可播放格式：

在获得所述的歌词内容后，为了便于播放，可以对歌词内容进行格式化。请参阅图9，具体可按照如下步骤处理：

步骤S141、调用所述预选配曲的曲谱信息：

从一个曲谱信息库中调用所述预选配置相对应的曲谱信息，该曲谱信息以时间信息的形式标记了歌词内容中的各个语句与音符之间的时间关系，由此可用于实现所述歌词内容中的各个语句与曲谱信息在时域上的匹配。

步骤S142、根据所述曲谱信息中的时间信息标记所述歌词内容中的各个语句相对应的时刻信息：

根据所述曲谱信息中的时间信息,逐一为歌词内容中的每一个语句标记相对应的时刻信息。需要提醒的时，一般歌词内容均会包括一段或多段主歌部分以及副歌部分，且往往还会循环演唱，适应这一特点，可按照曲谱信息中对主歌与副歌的标记情况来编排歌词内容，以便使歌词内容与所述预选配曲完整配合。

步骤S143、以标记了全部语句的时刻信息的歌词内容输出用于播放，以完成歌词内容的格式化：

适应将所述歌词内容应用于播放的需要，可以将已经完成了时刻信息标记的所述歌词内容存储为歌词文件，由此完成歌词内容的格式化，后续当预选配曲被播放时，便可调用该歌词文件进行同步播放。

经过本步骤后，便确定了用于合成完整歌曲所需的预选配曲及其相应的歌词内容，由此，可借助后续步骤将其合成为完整的人声歌曲。

步骤S23、根据所述歌词内容与预选配曲以预设人声模型进行歌唱合成，生成可播放的流媒体：

为了将所述歌词内容与预选配曲合成为完整的人声歌曲，需要调用预设的人声模型按照所述预设选曲的曲谱进行虚拟演唱，以便生成获得演唱相关的声波数据，用于生成可播放的流v媒体。请参阅图10，本步骤h具体可按照如下步骤处理：

步骤S231、利用所述预设人声模型对所述歌词内容进行语音合成，生成语音合成数据：

系统中存储有一由预设人声模型构成的模型库，可以由用户从模型库中选中一种特定的人声模型，或者由系统随机选择其中一种，或者以其他的方式产生也可。当需要对所述歌词内容进行语音合成时，可以选用任意一种常见的语音合成手段进行语音合成，根据所述歌词内容的文字生成语音合成数据。本实施例中，采用Tacotron或Tacotron2之类的基于深度学习的端到端语音合成模型来实现语音数据的合成，以便将歌词内容的文本转换为人声语音。

步骤S232、调用与预选配曲相对应的曲谱信息为所述语音合成数据中的单字添加歌唱相关的韵律信息和音调信息，形成歌唱数据；

如前所述，所述预选配曲存在其相对应的曲谱信息，为了使所述语音合成数据中的人声朗读转换成符合预选配曲的曲调的歌唱版本，在本步骤中，按照所述曲谱信息，对应调整所述语音合成数据中各个单字的韵律信息和音调信息，使其形成歌唱数据。所述歌唱数据可以一并包含所述预选配曲的内容或者另外与预选配曲的内容合成，可以存储为波形文件。

步骤S233、将所述歌唱数据转换成流媒体格式。

当获得所述的歌唱数据后，无论其是否包含所述预选配曲本身的内容，在本步骤中均可将其转换为流媒体格式，流媒体格式相应的文件中则确保对应嵌入所述的预选配曲，使得当流媒体格式的文件被传输到终端用户处播放时，用户能到听到曲音同步的歌曲。

步骤S24、推送所述流媒体给用户播放。

当经过前述各个步骤，根据用户给出的自然语句定制生成相应的歌曲后，便可将该歌曲对应的流媒体推送至终端用户处播放，完成整个歌曲定制到播放的过程。

本申请的所述方法，在确定了与预选配曲相匹配的主题的基础上，先对该主题的多个标签词进行语义整理，在确保其语义连贯的基础上才开始构造包含多个语句的歌词素材，然后在歌词素材的语句确定出符合押韵要求的多个语句构成的最佳路径组合，构成最终的歌词内容，最终只需将歌词内容格式化为可播放格式即可用于播放。由此，本申请不仅实现了歌曲的智能定制，还实现了智能化生成具有押韵特征的歌词的功能，丰富了歌词自动化创作手段的技术内涵。

进一步的，可以通过将上述的歌曲定制生成方法中的各个实施例进行功能化，构造出本申请的一种歌曲定制生成装置，按照这一思路，请参阅图11，其典型实施例中，该装置包括：

主题分析模块21，用于基于用户应答返回的自然短语进行语义分析，确定与其相应的以多个标签词描述的主题；

曲词生成模块22，用于根据所述主题所具有的标签词从歌曲库中匹配出预选配曲，并生成可播放格式的歌词内容；

媒体合成模块23，用于根据所述歌词内容与预选配曲以预设人声模型进行歌唱合成，生成可播放的流媒体；

媒体播放模块24，用于推送所述流媒体给用户播放。

为了便于本申请的执行，提供一种电子设备，包括中央处理器和存储器，所述中央处理器用于调用运行存储于所述存储器中计算机程序以执行如前述的一种歌曲定制生成方法的步骤。

可以看出，存储器适宜采用非易失性存储介质，通过将前述的方法实现为计算机程序，安装到手机之类电子设备中，相关程序代码和数据便被存储到电子设备的非易失性存储介质中，进一步通过电子设备的中央处理器运行该程序，将其从非易性存储介质中调入内存中运行，便可实现本申请所期望的目的。因此，可以理解，本申请的一个实施例中，还可提供一种非易失性存储介质，其以计算机可读指令的形式存储有依据所述的歌曲定制生成方法的各个实施例所实现的计算机程序，该计算机程序被计算机调用运行时，执行该方法所包括的步骤。

综上所述，本申请能够借助简单的自然短语自动创作歌词内容并生成可以直接播放的曲音同步的歌曲，特别适用于在线娱乐领域。

本技术领域技术人员可以理解，本申请包涉及用于执行本申请中所述操作、方法中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造，或者也可以包括通用计算机中的已知设备。这些设备具有存储在其存储器之内的计算机程序，这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如，计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中，所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随即存储器)、EPROM(ErasableProgrammable Read-Only Memory，可擦写可编程只读存储器)、EEPROM(ElectricallyErasable Programmable Read-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，可读介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本申请公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解，本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种歌曲定制生成方法，其特征在于，包括如下步骤：

推送所述流媒体给用户播放。

2.根据权利要求1所述的方法，其特征在于，基于用户应答返回的自然短语进行语义分析，确定与其相应的以多个标签词描述的主题的步骤，包括：

向用户推送引导信息；

提取用户应答所述引导信息而提供的所述自然短语；

3.根据权利要求1所述的方法，其特征在于，根据所述主题所具有的标签词从歌曲库中匹配出预选配曲的步骤，包括：

从歌词库的全量歌词中提取出主题词；

以所述主题的标签词优化所述的主题词；

4.根据权利要求1所述的方法，其特征在于，生成可播放格式的歌词内容的步骤，包括：

5.根据权利要求4所述的方法，其特征在于，按照所述主题的标签词形成的序列构造多个语句，构成歌词素材的步骤，包括：

以多个所述的语句按序组装构造所述的歌词素材。

6.根据权利要求4所述的方法，其特征在于，从所述歌词素材中确定出构成歌词内容的多个语句之间的最佳路径组合，使其中至少部分语句的句尾相互押韵的步骤，包括：

依据所述韵律标注信息生成韵律标注词图；

7.根据权利要求1至4中任意一项所述的方法，其特征在于，根据所述歌词内容与预选配曲以预设人声模型进行歌唱合成，生成可播放的流媒体的步骤，包括：

将所述歌唱数据转换成流媒体格式。

8.一种歌曲定制生成装置，其特征在于，其包括：

媒体播放模块，用于推送所述流媒体给用户播放。

9.一种电子设备，包括中央处理器和存储器，其特征在于，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。

10.一种非易失性存储介质，其特征在于，其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行该方法所包括的步骤。