CN117852546A

CN117852546A - 歌词文本生成方法、装置及设备

Info

Publication number: CN117852546A
Application number: CN202211204027.3A
Authority: CN
Inventors: 彭博; 田思达
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2024-04-09

Abstract

本申请公开一种歌词文本生成方法、装置及设备，可应用于人工智能、机器学习和自然语言处理等各种场景。该方法包括：获取参考文本，参考文本为待转换为歌词文本的至少一个文本句；基于歌词生成模型对参考文本进行自回归生成操作，直到响应于歌词生成模型生成目标预设字符，停止自回归生成操作，得到参考文本对应的目标歌词文本序列，其中，目标预设字符用于标识歌词文本结束，歌词生成模型是根据训练样本对训练得到的，训练样本对包括原始歌词文本以及条件文本，条件文本是保留原始歌词文本语义表达的不同表述；根据目标歌词文本序列确定目标歌词文本，目标歌词文本是保留参考文本语义表达的不同表述，且比参考文本更适合音律表达。

Description

歌词文本生成方法、装置及设备

技术领域

本申请涉及计算机技术领域，具体涉及一种歌词文本生成方法、装置及设备。

背景技术

随着AI(Artificial Intelligence，人工智能)技术的快速发展，AI已经广泛应用于各个领域，比如，音乐创作领域。歌词创作是音乐创作的重要组成部分，现阶段，AI已经应用于歌词创作过程，比如，基于条件信息生成歌词的方法。例如，根据伴奏生成歌词，根据旋律生成歌词，根据关键词生成歌词等方法。然而，现阶段的歌词生成方法，存在生成的歌词文本与条件信息之间的相关性较弱，以及生成的歌词文本不适用于音律表达的问题。

发明内容

本申请实施例提供一种歌词文本生成方法、装置及设备，可以增强目标歌词文本与参考文本之间的相关性，并且得到的目标歌词文本比参考文本更适合音律表达。

一方面，提供一种歌词文本生成方法，应用于计算机设备，所述计算机设备部署有歌词生成模型，所述方法包括：

获取参考文本，所述参考文本为待转换为歌词文本的至少一个文本句；

基于所述歌词生成模型对所述参考文本进行自回归生成操作，直到响应于所述歌词生成模型生成目标预设字符，停止所述自回归生成操作，得到所述参考文本对应的目标歌词文本序列，其中，所述目标预设字符用于标识歌词文本结束，所述歌词生成模型是根据训练样本对训练得到的，所述训练样本对包括原始歌词文本以及条件文本，所述条件文本是保留所述原始歌词文本语义表达的不同表述，所述歌词生成模型是以所述条件文本和所述原始歌词文本作为预设初始模型的输入，以使所述预设初始模型根据条件文本与预测的前文歌词生成预测歌词文本，并以所述预测歌词文本与所述原始歌词文本相同为训练条件，进行训练得到的；

根据所述目标歌词文本序列确定目标歌词文本，所述目标歌词文本是保留所述参考文本语义表达的不同表述。

另一方面，提供一种歌词文本生成装置，应用于计算机设备，所述计算机设备部署有歌词生成模型，所述装置包括：

获取模块，用于获取参考文本，所述参考文本为待转换为歌词文本的至少一个文本句；

生成模块，用于基于所述歌词生成模型对所述参考文本进行自回归生成操作，直到响应于所述歌词生成模型生成目标预设字符，停止所述自回归生成操作，得到所述参考文本对应的目标歌词文本序列，其中，所述目标预设字符用于标识歌词文本结束，所述歌词生成模型是根据训练样本对训练得到的，所述训练样本对包括原始歌词文本以及条件文本，所述条件文本是保留所述原始歌词文本语义表达的不同表述，所述歌词生成模型是以所述条件文本和所述原始歌词文本作为预设初始模型的输入，以使所述预设初始模型根据条件文本与预测的前文歌词生成预测歌词文本，并以所述预测歌词文本与所述原始歌词文本相同为训练条件，进行训练得到的；

第一确定模块，用于根据所述目标歌词文本序列确定目标歌词文本，所述目标歌词文本是保留所述参考文本语义表达的不同表述。

另一方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如上任一实施例所述的歌词文本生成方法中的步骤。

另一方面，提供一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行如上任一实施例所述的歌词文本生成方法中的步骤。

另一方面，提供一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时实现如上任一实施例所述的歌词文本生成方法中的步骤。

本申请实施例通过获取参考文本，参考文本为待转换为歌词文本的至少一个文本句，之后基于歌词生成模型对参考文本进行自回归生成操作，直到响应于歌词生成模型生成目标预设字符，停止自回归生成操作，得到参考文本对应的目标歌词文本序列，其中，目标预设字符用于标识歌词文本结束，歌词生成模型是根据训练样本对训练得到的，训练样本对包括原始歌词文本以及条件文本，条件文本是保留原始歌词文本语义表达的不同表述，歌词生成模型是以条件文本和原始歌词文本作为预设初始模型的输入，以使预设初始模型根据条件文本与预测的前文歌词生成预测歌词文本，并以预测歌词文本与原始歌词文本相同为训练条件，进行训练得到的，之后根据目标歌词文本序列确定目标歌词文本，目标歌词文本是保留参考文本语义表达的不同表述。本申请实施例可以根据参考文本，基于歌词生成模型，生成目标歌词文本，且该目标歌词文本是保留参考文本语义表达的不同表述，实现了目标歌词文本与参考文本之间的强相关性。并且，该歌词生成模型是以条件文本和原始歌词文本作为预设初始模型的输入，以使预设初始模型根据条件文本与预测的前文歌词生成预测歌词文本，并以预测歌词文本与原始歌词文本相同为训练条件，进行训练得到的，可以使预测得到的目标歌词文本在保留参考文本语义表达的前提下，更适用于音律表达。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的歌词生成模型的应用场景示意图。

图2为本申请实施例提供的歌词文本生成方法的流程示意图。

图3为本申请实施例提供的歌词文本生成方法的第一应用场景示意图。

图4为本申请实施例提供的歌词文本生成方法的第二应用场景示意图。

图5为本申请实施例提供的歌词文本生成装置的结构示意图。

图6为本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种歌词文本生成方法、装置、计算机设备和存储介质。具体地，本申请实施例的歌词文本生成方法可以由计算机设备执行，其中，该计算机设备可以为终端或者服务器等设备。本申请实施例可应用于云技术、人工智能、机器学习和自然语言处理等各种场景。

首先，在对本申请实施例进行描述的过程中出现的部分名词或者术语作如下解释：

人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

机器学习(Machine Learning，ML)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

深度学习(Deep Learning,DL)：是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是学习训练样本数据的内在规律和表示层次，这些学习过程中获得的信息对文字、图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

Seq2Seq模型(序列到序列模型)，是一种循环神经网络的变种，包括编码器(Encoder)和解码器(Decoder)两部分。Seq2Seq是自然语言处理中的一种重要模型，可以用于机器翻译、对话系统、自动文摘。

自回归文本生成模型(Autoregressive Model)，是指根据已生成文本预测下一个文本，不断重复该过程以达到生成任意长度本文目的的模型。

条件自回归文本生成模型(Conditional Model)，是基于输入的条件信息，通过自回归的方式生成文本的模型，其中，条件信息可以是文本信息，图像信息等。

自动创作歌词，是指通过算法写歌词，用于替代人工作词，或辅助人工作词。

极大似然估计方法(Maximum Likelihood Estimate，MLE)，也称为最大概似估计或最大似然估计，是求估计的另一种方法。说的是已知某个随机样本满足某种概率分布，但是其中具体的参数不清楚，参数估计就是通过若干次试验，观察其结果，利用结果推出参数的大概值。极大似然估计是建立在这样的思想上：已知某个参数能使这个样本出现的概率最大，我们当然不会再去选择其他小概率的样本，所以干脆就把这个参数作为估计的真实值。

变形网络(Transformer)，是谷歌提出的基于自注意力机制的序列到序列模型。

生成预训练变形网络(GPT2)，是在大量文本内容下，无监督训练变形网络得到的文本生成网络。

生成对抗网络(Generative Adversarial Networks，GAN)，是通过对抗训练的方式来使得生成网络产生的样本服从真实数据分布。GAN包括判别器和生成器，其中，判别器基于生成器训练，生成器以混淆判别器为目标，使得生成在对抗中学习。

长短时记忆网络(Long Short-Term Memory，LSTM)，用于学习短期以及长期依赖的序列模型。

在音乐创作中过程中，歌词创作是很重要一部分。随着AI技术的发展，现阶段，已有通过算法替代人工作词，或者辅助人工作词的方法。比如，通过模型自动生成歌词，例如自回归生成方法和条件生成方法。其中，自回归生成方法是基于生成对抗网络或极大自然估计方法，在海量歌词数据上训练，实现高质量歌词的自动生成的方法。条件生成方法是基于Transformer、LSTM等网络的seq2seq模型，能实现有限控制的歌词自动生成，比如，根据伴奏生成歌词，根据旋律生成歌词，根据关键词生成歌词等。

然而，现阶段的歌词自动生成方法，存在训练数据不足，使训练受限的问题。并且，所生成的歌词与条件之间的相关性较弱，比如，根据关键词生成歌词，关键词的选择本身也是一个难题。

本申请实施例提出一种歌词文本生成方法，可以根据参考文本，基于歌词生成模型，生成目标歌词文本，且该目标歌词文本是保留参考文本语义表达的不同表述，实现了目标歌词文本与参考文本之间的强相关性。并且，该歌词生成模型是以条件文本和原始歌词文本作为预设初始模型的输入，以使预设初始模型根据条件文本与预测的前文歌词生成预测歌词文本，并以预测歌词文本与原始歌词文本相同为训练条件，进行训练得到的，可以使预测得到的目标歌词文本在保留参考文本语义表达的前提下，更适用于音律表达。

请参阅图1，图1为本申请实施例提供的歌词生成模型的应用场景示意图。以歌词文本生成方法由计算机设备执行为例，其中，该计算机设备可以为终端或者服务器等设备。用户可以通过计算机设备中安装的客户端、浏览器客户端或即时通信客户端上传参考文本，计算机设备获取上传的参考文本后，基于歌词生成模型对参考文本进行自回归生成操作，直到响应于歌词生成模型生成目标预设字符，停止自回归生成操作，得到参考文本对应的目标歌词文本序列，根据目标歌词文本序列确定目标歌词文本，目标歌词文本是保留参考文本语义表达的不同表述。

其中，目标预设字符用于标识歌词文本结束，歌词生成模型是根据训练样本对训练得到的，训练样本对包括原始歌词文本以及条件文本，条件文本是保留原始歌词文本语义表达的不同表述，歌词生成模型是以条件文本和原始歌词文本作为预设初始模型的输入，以使预设初始模型根据条件文本与预测的前文歌词生成预测歌词文本，并以预测歌词文本与原始歌词文本相同为训练条件，进行训练得到的。

需要说明的是，歌词文本生成过程、模型训练过程可以在服务器中完成，也可以在终端中完成。当模型的训练过程、歌词文本生成过程都在服务器中完成时，需要使用训练好的歌词生成模型时，可以将参考文本输入到服务器，服务器确定目标歌词文本后，将得到的目标歌词文本发送至终端进行显示。当模型的训练过程、实际生成过程都在终端中完成时，需要使用训练好的歌词生成模型时，可以将参考文本输入到终端，终端实际生成完成后，终端将目标歌词文本进行显示。当模型的训练过程在服务器中完成，歌词文本生成过程在终端中完成时，服务器训练好歌词生成模型后，可以将其部署在歌词生成应用中，比如，音乐播放应用中。需要使用训练好的歌词生成模型时，终端可以安装该歌词生成应用，将参考文本输入到歌词生成应用，终端实际预测完成后，终端将得到的目标歌词文本进行显示。可选的，可以将服务器中训练好的模型文件(model文件)移植到终端上，若需要进行歌词文本生成，则将参考文本输入到训练好的模型文件(model文件)，通过计算即可得到参考文本对应的目标歌词文本。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优先顺序的限定。

本申请各实施例提供了一种歌词文本生成方法，该方法可以由部署有歌词生成模型的终端或服务器执行，也可以由终端和服务器共同执行。

请参阅图2至图4，图2为本申请实施例提供的歌词文本生成方法的流程示意图，图3和图4均为本申请实施例提供的歌词文本生成方法的应用场景示意图。该方法包括：

步骤101，获取参考文本，参考文本为至少一个文本句。

具体地，参考文本可以是用户输入的一个或者多个文本句。譬如，用户可以通过终端输入一个或多个文本句。譬如，歌词生成模型可以部署在终端应用中，用户可以通过终端应用输入一个或者多个文本句。在一些实施例中，参考文本也可以是用户通过终端应用输入一个关键词以及字数，之后，终端应用根据该关键词随机生成一个对应字数的参考文本；或者，参考文本也可以是终端应用基于用户提示或者指示生成的参考文本，本申请实施例对此并不限定。

步骤102，基于歌词生成模型对参考文本进行自回归生成操作，直到响应于歌词生成模型生成目标预设字符，停止自回归生成操作，得到参考文本对应的目标歌词文本序列。

在本实施例中，步骤101之后，还包括：将参考文本转换为参考文本序列，参考文本序列包括参考文本以及第二预设特殊字符，第二预设特殊字符包括用于标识参考文本开始的字符、用于标识参考文本结束的字符以及用于标识目标歌词文本序列开始的字符。

在本实施例中，步骤“基于歌词生成模型对参考文本进行自回归生成操作”，包括：将参考文本序列输入歌词生成模型；歌词生成模型基于参考文本序列进行自回归生成操作。

具体地，可以通过在参考文本中插入第二预设特殊字符，生成参考文本序列。譬如，假设参考文本为“快乐和悲伤转化为力量，你让我坚强”，首先，在该参考文本句首插入标记参考文本开始的字符[BOC]，然后，将该参考文本中两个短句间的标点符号转换为预设分隔符[SEP]，接着，在参考文本句尾插入预设分隔符[SEP]以及标记歌词文本序列开始的字符[BOL]。在后续步骤中，歌词生成模型生成预测字符时，可以直接插入参考文本序列的列尾，通过第二预设特殊字符即可将参考文本序列与目标歌词文本序列区分开来。

具体地，步骤“歌词生成模型基于参考文本序列进行自回归生成操作”主要包括：歌词生成模型基于参考文本序列预测得到目标预测字符；根据参考文本序列和预测字符序列预测得到下一目标预测字符，预测字符序列为当前预测得到的所有目标预测字符按照预测顺序组成的序列；重复执行根据参考文本序列和预测字符序列预测得到下一目标预测字符的步骤，直至响应于下一目标预测字符为目标预设字符，停止自回归生成操作；将当前预测得到的所有目标预测字符确定为参考文本对应的目标歌词文本序列。

譬如，以参考文本序列“[BOC]快乐和悲伤转化为力量[SEP]你让我坚强[SEP][BOL]”为例，将该参考文本序列输入歌词生成模型，歌词生成模型根据该参考文本序列预测得到目标预测字符“快”，之后，根据“[BOC]快乐和悲伤转化为力量[SEP]你让我坚强[SEP][BOL]快”预测得到下一目标预测字符“乐”，之后，根据“[BOC]快乐和悲伤转化为力量[SEP]你让我坚强[SEP][BOL]快乐”预测下一目标预测字符，以此类推，直至生成目标预测字符[EOP]，停止自回归生成操作，最终得到“[BOC]快乐和悲伤转化为力量[SEP]你让我坚强[SEP][BOL]快乐悲伤化作力量[SEP]是你让我学会坚强[SEP][EOP]”，其中，确定目标歌词文本序列为“快乐悲伤化作力量[SEP]是你让我学会坚强[SEP][EOP]”。

步骤103，根据目标歌词文本序列确定目标歌词文本，目标歌词文本是保留参考文本语义表达的不同表述。

譬如，经过测试，以参考文本为“快乐和悲伤转化为力量，你让我坚强”为例，经过歌词生成模型确定的目标歌词文本为“快乐悲伤化作力量，是你让我学会坚强”。参考文本与目标歌词文本是相同语义表达的不同表述，且目标歌词文本更适用于音律表达。

具体地，步骤“根据目标歌词文本序列确定目标歌词文本”主要可以包括：按照预设规则，将目标歌词文本中的特殊字符进行替换或删除，得到目标歌词文本。

其中，预设规则规定了对哪些特殊字符进行删除操作、对哪些特殊字符进行替换操作，以及相应替换为哪些字符。譬如，规定了将标识歌词文本结束的字符删除，以及，将预设分隔符替换为空格、“/”、逗号等分隔字符。

譬如，以参考文本序列“[BOC]快乐和悲伤转化为力量[SEP]你让我坚强[SEP][BOL]”为例，最终确定目标歌词文本序列为“快乐悲伤化作力量[SEP]是你让我学会坚强[SEP][EOP]”，将特殊字符[SEP]替换为分隔字符，比如空格、“/”、逗号等分隔字符，并将用于标识目标歌词文本序列结束的字符[EOP]删除，最终得到目标歌词文本“快乐悲伤化作力量，是你让我学会坚强”。

在一些实施例中，该方法还可以包括：获取原始歌词文本，原始歌词文本为第一语种；将原始歌词文本翻译为第二语种，得到第一翻译文本；将原始歌词文本对应的第一翻译文本再翻译为第一语种，得到第二翻译文本，并将第二翻译文本确定为原始歌词文本对应的条件文本；根据原始歌词文本和原始歌词文本对应的条件文本，确定训练样本对。

其中，原始歌词文本可以为预设歌曲库中任一歌曲中的一句或几句歌词文本。其中，可以通过网络爬虫等方式，从各音乐平台中对歌曲进行收集，生成预设歌曲库。譬如，原始歌词文本可以为中文，首先，可以将原始歌词文本翻译成英文，得到第一翻译文本，然后，再将第一翻译文本翻译回中文，得到第二翻译文本，并将该第二翻译文本确定为原始歌词文本对应的条件文本。如此，可以得到海量训练样本对，保证训练数据充足，从而可以对预设初始模型进行充足的训练。

具体地，通过对原始歌词文本进行翻译得到条件文本，可以得到原始歌词文本保留语义表达的另一种表述，然而翻译得到的文本句并不适合用于音律表达，更贴近日常表达。因此，在训练阶段，使预设初始模型基于条件文本生成歌词，并以最终生成的歌词与原始歌词文本相同为训练条件，对预设初始模型进行训练，得到歌词生成模型，可以使歌词生成模型根据任意参考文本生成更适用于音律表达的歌词文本。

在本实施例中，对第一语种、第二语种不作限制。具体地，可以对原始歌词文本多次翻译为不同的语种，得到更多表述方式，并与原始歌词文本组成多个训练样本对，使训练数据更加充足。

在一些实施例中，该方法还可以包括：根据条件文本和原始歌词文本确定目标文本序列，目标文本序列包括条件文本、原始歌词文本和多个第一预设特殊字符，多个第一预设特殊字符包括标识条件文本开始的字符、标识原始歌词文本开始的字符和标识原始歌词文本结束的字符；将目标文本序列输入预设初始模型，并获取预设初始模型根据条件文本序列和原始歌词文本序列中前i个字符，预测得到的第i+1个字符，i为不小于1，且小于原始歌词文本序列中字符总数的整数，条件文本序列包括标识条件文本开始的字符、标识条件文本结束的字符、标识原始歌词文本开始的字符以及条件文本，原始歌词文本序列包括原始歌词文本和标识原始歌词文本结束的字符；根据预测得到的第i+1个字符确定目标函数；根据目标函数对预设初始模型进行训练，得到歌词生成模型。

请参阅图3，譬如，以原始歌词文本“快乐悲伤化作力量”为例，经过至少两次翻译操作后，确定该原始歌词文本对应的条件文本为“快乐和悲伤转化为力量”，并将“快乐悲伤化作力量”和“快乐和悲伤转化为力量”确定为一个训练样本对。之后，可以根据该原始歌词文本和条件文本生成目标文本序列。具体地，可以以字符为单位，首先，插入用于标识条件文本开始的字符[BOC]，然后，以字符为单位插入条件文本，其中，可以在标点符号、换行或者不同短句之间插入预设分隔符[SEP]，然后，插入用于标识原始歌词文本开始的字符[BOL]，接着，以字符为单位插入原始歌词文本，最后插入用于标识原始歌词文本结束的字符[EOP]，得到目标文本序列“[BOC]快乐和悲伤转化为力量[SEP][BOL]快乐悲伤化作力量[SEP][EOP]”。

具体地，在训练时，可以将条件文本序列和原始歌词文本序列中的前i个字符，预测得到第i+1个字符，然后，以预测得到的第i+1个字符与原始歌词文本序列中的第i+1个字符相同为目标，确定目标函数，并根据该目标函数对预设初始模型进行训练，以得到歌词生成模型。譬如，以目标文本序列“[BOC]快乐和悲伤转化为力量[SEP][BOL]快乐悲伤化作力量[SEP][EOP]”为例，其中，条件文本序列为“[BOC]快乐和悲伤转化为力量[SEP][BOL]”，原始歌词文本序列为“快乐悲伤化作力量[SEP][EOP]”，预设初始模型根据条件文本序列以及原始歌词文本序列中的第1个字符，预测第2个字符，即以根据“[BOC]快乐和悲伤转化为力量[SEP][BOL]快”预测出“乐”为目标。

具体地，对于原始歌词文本序列{b_i}(1<＝i<＝m)，其中，m为原始歌词文本序列的字符总数，b_i代表一个字符，比如一个单字、一个标点符号或一个预设特殊字符，预设初始模型需要进行m-1个预测任务。具体地，以预设初始模型为GPT2为例，预测任务可以表示为：

GPT2[θ](b₁,b₂,…,b_j)→b_j+1(1≤j≤m-1)，其中，θ为模型参数。

在一些实施例中，在步骤“目标文本序列输入预设初始模型”之后，还包括：预设初始模型根据条件文本序列和原始歌词文本序列生成目标词表，目标词表包括条件文本序列和原始歌词文本序列中的所有字符，且目标词表中的所有字符均不重复；根据目标词表和目标词表中所有字符对应的特征向量，确定目标矩阵；根据目标矩阵和原始歌词文本序列中的前i个字符，预测得到的第i+1个字符。

具体地，将训练样本对中出现的所有字符不重复的罗列出来，可以得到一张目标词表，该目标词表包含训练过程中可能遇到的所有字符。每个字符可以通过它在目标词表中的位置进行表示，即，假设字符b_j在目标词表中的位置为n_j，上述预测任务可以表示为：GPT2[θ](n₁,n₂,…,n_j)→n_j+1(1≤j≤m-1)。对于一个字符数量为N的目标词表，模型参数θ中包含一个大小为N*d的目标矩阵M，该目标矩阵M包含N个字符的特征向量，其中，d为每个特征向量的维度。

在本实施例中，步骤“根据目标矩阵和原始歌词文本序列中的前i个字符，预测得到的第i+1个字符”主要可以包括：将目标矩阵中，与原始歌词文本序列中的前i个字符所对应的特征向量进行融合，得到融合特征向量；根据目标矩阵中每个特征向量与融合特征向量之间的相似度，确定预测得到的第i+1个字符。

具体地，可以通过计算每个特征向量与融合特征向量之间的夹角，确定算每个特征向量与融合特征向量之间的点积，从而确定每个特征向量与融合特征向量之间的相似度。每个特征向量与融合特征向量之间的夹角最小的特征向量，对应与融合特征向量之间的点积最大，即相似度最高，即可以确定该特征向量对应的字符为预测得到的第i+1个字符。

具体地，对于每个分类任务，首先，在矩阵M中取出行号为n_1,…,n_j的j个d维向量，得到一个大小为j*d的矩阵，然后通过卷积，池化，注意力机制等操作，即经过如图4所示的子模块，最终得到一个大小为d的融合特征向量u_j，用于表示文本序列b_1,…,b_j的下一字符，然后，计算M的N个行向量与融合特征向量u_j之间的余弦，将与融合特征向量u_j夹角最小，即余弦值最大的行向量确定为预测的第i+1个字符，即：

h_j＝GPT2[θ](n₁,n₂,…,n_j)＝arg max_kcos(M_k,u_j)。

其中，h_j为预测得到的第i+1个字符，M_k为与融合特征向量u_j夹角最小的行向量。

在本实施例中，步骤“根据预测得到的第i+1个字符确定目标函数”主要可以包括：根据目标矩阵、融合特征向量以及预测得到的第i+1个字符所对应的单位向量，确定目标函数。

具体地，h_j为预测得到的第j+1个字符，n_j+1为原始歌词文本序列的第j+1个字符，训练目标为h_j与n_j+1相同，可以通过交叉熵函数来表示：

其中，M为目标矩阵，u_j为融合特征向量，e_i为第i个位置为1，其余位置均为0的单位向量， softmax为归一化指数函数。

具体地，针对每个训练任务，可以通过梯度下降优化目标函数来实现：其中，M为目标矩阵，u_j为融合特征向量，e_i为第i个位置为1，其余位置均为0的单位向量，m为原始歌词文本序列的字符总数。

具体地，交叉熵能够衡量同一个随机变量中的两个不同概率分布的差异程度，在机器学习中就表示为真实概率分布与预测概率分布之间的差异。交叉熵的值越小，模型预测效果就越好。

上述所有的技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

为便于更好的实施本申请实施例的歌词文本生成方法，本申请实施例还提供一种歌词文本生成装置。请参阅图5，图5为本申请实施例提供的歌词文本生成装置的结构示意图。其中，该歌词文本生成装置1000应用于计算机设备，计算机设备部署有歌词生成模型，该歌词文本生成装置1000可以包括：

获取模块1010，用于获取参考文本，参考文本为待转换为歌词文本的至少一个文本句；

生成模块1020，用于基于歌词生成模型对参考文本进行自回归生成操作，直到响应于歌词生成模型生成目标预设字符，停止自回归生成操作，得到参考文本对应的目标歌词文本序列，其中，目标预设字符用于标识歌词文本结束，歌词生成模型是根据训练样本对训练得到的，训练样本对包括原始歌词文本以及条件文本，条件文本是保留原始歌词文本语义表达的不同表述，歌词生成模型是以条件文本和原始歌词文本作为预设初始模型的输入，以使预设初始模型根据条件文本与预测的前文歌词生成预测歌词文本，并以预测歌词文本与原始歌词文本相同为训练条件，进行训练得到的；

第一确定模块1030，用于根据目标歌词文本序列确定目标歌词文本，目标歌词文本是保留参考文本语义表达的不同表述。

可选的，该歌词文本生成装置1000还可以包括第二确定模块，可以用于：获取原始歌词文本，原始歌词文本为第一语种；将原始歌词文本翻译为第二语种，得到第一翻译文本；将原始歌词文本对应的第一翻译文本再翻译为第一语种，得到第二翻译文本，并将第二翻译文本确定为原始歌词文本对应的条件文本；根据原始歌词文本和原始歌词文本对应的条件文本，确定训练样本对。

可选的，该歌词文本生成装置1000还可以包括训练模块，可以用于：根据条件文本和原始歌词文本确定目标文本序列，目标文本序列包括条件文本、原始歌词文本和多个第一预设特殊字符，多个第一预设特殊字符包括标识条件文本开始的字符、标识原始歌词文本开始的字符和标识原始歌词文本结束的字符；将目标文本序列输入预设初始模型，并获取预设初始模型根据条件文本序列和原始歌词文本序列中前i个字符，预测得到的第i+1个字符，i为不小于1，且小于原始歌词文本序列中字符总数的整数，条件文本序列包括标识条件文本开始的字符、标识条件文本结束的字符、标识原始歌词文本开始的字符以及条件文本，原始歌词文本序列包括原始歌词文本和标识原始歌词文本结束的字符；根据预测得到的第i+1个字符确定目标函数；根据目标函数对预设初始模型进行训练，得到歌词生成模型。

可选的，训练模块还可以用于：在将目标文本序列输入预设初始模型之后，预设初始模型根据条件文本序列和原始歌词文本序列生成目标词表，目标词表包括条件文本序列和原始歌词文本序列中的所有字符，且目标词表中的所有字符均不重复；根据目标词表和目标词表中所有字符对应的特征向量，确定目标矩阵；根据目标矩阵和原始歌词文本序列中的前i个字符，预测得到的第i+1个字符。

可选的，训练模块具体可以用于：将目标矩阵中，与原始歌词文本序列中的前i个字符所对应的特征向量进行融合，得到融合特征向量；根据目标矩阵中每个特征向量与融合特征向量之间的相似度，确定预测得到的第i+1个字符。

可选的，训练模块具体可以用于：根据目标矩阵、融合特征向量以及预测得到的第i+1个字符所对应的单位向量，确定目标函数。

可选的，第一确定模块1030，具体可以用于：按照预设规则，将目标歌词文本中的特殊字符进行替换或删除，得到目标歌词文本。

可选的，该歌词文本生成装置1000还可以包括转换模块，用于：将参考文本转换为参考文本序列，参考文本序列包括参考文本以及第二预设特殊字符，第二预设特殊字符包括用于标识参考文本开始的字符、预设分隔符、用于标识参考文本结束的字符以及用于标识目标歌词文本序列开始的字符；生成模块1020具体可以用于：将参考文本序列输入歌词生成模型；歌词生成模型基于参考文本序列进行自回归生成操作。

可选的，生成模块1020，具体可以用于：歌词生成模型基于参考文本序列预测得到目标预测字符；根据参考文本序列和预测字符序列预测得到下一目标预测字符，预测字符序列为当前预测得到的所有目标预测字符按照预测顺序组成的序列；重复执行根据参考文本序列和预测字符序列预测得到下一目标预测字符的步骤，直至响应于下一目标预测字符为目标预设字符，停止自回归生成操作；将当前预测得到的所有目标预测字符确定为参考文本对应的目标歌词文本序列。

上述歌词文本生成装置中的各个单元可全部或部分通过软件、硬件及其组合来实现。上述各个单元可以以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行上述各个单元对应的操作。

歌词文本生成装置1000，可以集成在具备储存器并安装有处理器而具有运算能力的终端或服务器中，或者该歌词文本生成装置1000为该终端或服务器。

本申请实施例提供的歌词文本生成装置1000，通过获取模块1010获取参考文本，参考文本为待转换为歌词文本的至少一个文本句，之后生成模块1020基于歌词生成模型对参考文本进行自回归生成操作，直到响应于歌词生成模型生成目标预设字符，停止自回归生成操作，得到参考文本对应的目标歌词文本序列，其中，目标预设字符用于标识歌词文本结束，歌词生成模型是根据训练样本对训练得到的，训练样本对包括原始歌词文本以及条件文本，条件文本是保留原始歌词文本语义表达的不同表述，歌词生成模型是以条件文本和原始歌词文本作为预设初始模型的输入，以使预设初始模型根据条件文本与预测的前文歌词生成预测歌词文本，并以预测歌词文本与原始歌词文本相同为训练条件，进行训练得到的，之后第一确定模块1030根据目标歌词文本序列确定目标歌词文本，目标歌词文本是保留参考文本语义表达的不同表述。本申请实施例提供的歌词文本生成装置1000可以根据参考文本，基于歌词生成模型，生成目标歌词文本，且该目标歌词文本是保留参考文本语义表达的不同表述，实现了目标歌词文本与参考文本之间的强相关性。并且，该歌词生成模型是以条件文本和原始歌词文本作为预设初始模型的输入，以使预设初始模型根据条件文本与预测的前文歌词生成预测歌词文本，并以预测歌词文本与原始歌词文本相同为训练条件，进行训练得到的，可以使预测得到的目标歌词文本在保留参考文本语义表达的前提下，更适用于音律表达。

可选的，本申请还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

图6为本申请实施例提供的计算机设备的结构示意图，该计算机设备可以是图1所示的计算机设备。如图6所示，该计算机设备600可以包括：通信接口601，存储器602，处理器603和通信总线604。通信接口601，存储器602，处理器603通过通信总线604实现相互间的通信。通信接口601用于计算机设备600与外部设备进行数据通信。存储器602可用于存储软件程序以及模块，处理器603通过运行存储在存储器602的软件程序以及模块，例如前述方法实施例中的相应操作的软件程序。

可选的，该处理器603可以调用存储在存储器602的软件程序以及模块执行如下操作：获取参考文本，参考文本为待转换为歌词文本的至少一个文本句；基于歌词生成模型对参考文本进行自回归生成操作，直到响应于歌词生成模型生成目标预设字符，停止自回归生成操作，得到参考文本对应的目标歌词文本序列，其中，目标预设字符用于标识歌词文本结束，歌词生成模型是根据训练样本对训练得到的，训练样本对包括原始歌词文本以及条件文本，条件文本是保留原始歌词文本语义表达的不同表述，歌词生成模型是以条件文本和原始歌词文本作为预设初始模型的输入，以使预设初始模型根据条件文本与预测的前文歌词生成预测歌词文本，并以预测歌词文本与原始歌词文本相同为训练条件，进行训练得到的；根据目标歌词文本序列确定目标歌词文本，目标歌词文本是保留参考文本语义表达的不同表述。

本申请还提供了一种计算机可读存储介质，用于存储计算机程序。该计算机可读存储介质可应用于计算机设备，并且该计算机程序使得计算机设备执行本申请实施例中的歌词文本生成方法中的相应流程，为了简洁，在此不再赘述。

本申请还提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得计算机设备执行本申请实施例中的歌词文本生成方法中的相应流程，为了简洁，在此不再赘述。

本申请还提供了一种计算机程序，该计算机程序包括计算机指令，计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得计算机设备执行本申请实施例中的歌词文本生成方法中的相应流程，为了简洁，在此不再赘述。

应理解，本申请实施例的处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

可以理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DR RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

应理解，上述存储器为示例性但不是限制性说明，例如，本申请实施例中的存储器还可以是静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synch link DRAM，SLDRAM)以及直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)等等。也就是说，本申请实施例中的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种歌词文本生成方法，其特征在于，应用于计算机设备，所述计算机设备部署有歌词生成模型，所述方法包括：

2.如权利要求1所述的歌词文本生成方法，其特征在于，所述方法还包括：

获取所述原始歌词文本，所述原始歌词文本为第一语种；

将所述原始歌词文本翻译为第二语种，得到第一翻译文本；

将所述原始歌词文本对应的所述第一翻译文本再翻译为所述第一语种，得到第二翻译文本，并将所述第二翻译文本确定为所述原始歌词文本对应的条件文本；

根据所述原始歌词文本和所述原始歌词文本对应的条件文本，确定所述训练样本对。

3.如权利要求2所述歌词文本生成方法，其特征在于，所述方法还包括：

根据所述条件文本和所述原始歌词文本确定目标文本序列，所述目标文本序列包括所述条件文本、所述原始歌词文本和多个第一预设特殊字符，所述多个第一预设特殊字符包括标识所述条件文本开始的字符、标识所述原始歌词文本开始的字符和标识所述原始歌词文本结束的字符；

将所述目标文本序列输入所述预设初始模型，并获取所述预设初始模型根据条件文本序列和原始歌词文本序列中前i个字符，预测得到的第i+1个字符，i为不小于1，且小于所述原始歌词文本序列中字符总数的整数，所述条件文本序列包括所述标识所述条件文本开始的字符、所述标识所述条件文本结束的字符、所述标识所述原始歌词文本开始的字符以及所述条件文本，所述原始歌词文本序列包括所述原始歌词文本和标识所述原始歌词文本结束的字符；

根据所述预测得到的第i+1个字符确定目标函数；

根据所述目标函数对所述预设初始模型进行训练，得到所述歌词生成模型。

4.如权利要求3所述的歌词文本生成方法，其特征在于，在将所述目标文本序列输入所述预设初始模型之后，还包括：

所述预设初始模型根据所述条件文本序列和所述原始歌词文本序列生成目标词表，所述目标词表包括所述条件文本序列和所述原始歌词文本序列中的所有字符，且所述目标词表中的所有字符均不重复；

根据所述目标词表和所述目标词表中所有字符对应的特征向量，确定目标矩阵；

根据所述目标矩阵和所述原始歌词文本序列中的前i个字符，预测得到的第i+1个字符。

5.如权利要求4所述的歌词文本生成方法，其特征在于，所述根据所述目标矩阵和所述原始歌词文本序列中的前i个字符，预测得到的第i+1个字符，包括：

将所述目标矩阵中，与所述原始歌词文本序列中的前i个字符所对应的特征向量进行融合，得到融合特征向量；

根据所述目标矩阵中每个特征向量与所述融合特征向量之间的相似度，确定所述预测得到的第i+1个字符。

6.如权利要求5所述的歌词文本生成方法，其特征在于，所述根据所述预测得到的第i+1个字符确定目标函数，包括：

根据所述目标矩阵、所述融合特征向量以及所述预测得到的第i+1个字符所对应的单位向量，确定目标函数。

7.如权利要求1-6任一项所述的歌词文本生成方法，其特征在于，所述根据所述目标歌词文本序列确定目标歌词文本，包括：

按照预设规则，将所述目标歌词文本中的特殊字符进行替换或删除，得到所述目标歌词文本。

8.如权利要求1-6任一项所述的歌词文本生成方法，其特征在于，所述获取参考文本之后，还包括：

将所述参考文本转换为参考文本序列，所述参考文本序列包括所述参考文本以及第二预设特殊字符，所述第二预设特殊字符包括用于标识所述参考文本开始的字符、预设分隔符、以及用于标识所述目标歌词文本序列开始的字符；

所述基于所述歌词生成模型对所述参考文本进行自回归生成操作，包括：

将所述参考文本序列输入所述歌词生成模型；

所述歌词生成模型基于所述参考文本序列进行自回归生成操作。

9.如权利要求8所述的歌词文本生成方法，其特征在于，所述歌词生成模型基于所述参考文本序列进行自回归生成操作，包括：

所述歌词生成模型基于所述参考文本序列预测得到目标预测字符；

根据所述参考文本序列和预测字符序列预测得到下一目标预测字符，所述预测字符序列为当前预测得到的所有目标预测字符按照预测顺序组成的序列；

重复执行所述根据所述参考文本序列和预测字符序列预测得到下一目标预测字符的步骤，直至响应于所述下一目标预测字符为所述目标预设字符，停止所述自回归生成操作；

将当前预测得到的所有所述目标预测字符确定为所述参考文本对应的目标歌词文本序列。

10.一种歌词文本生成装置，其特征在于，应用于计算机设备，所述计算机设备部署有歌词生成模型，所述装置包括：

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如权利要求1-9任一项所述的歌词文本生成方法中的步骤。

12.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行权利要求1-9任一项所述的歌词文本生成方法中的步骤。

13.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被处理器执行时实现权利要求1-9任一项所述的歌词文本生成方法中的步骤。