CN116343723B

CN116343723B - 旋律生成方法、装置、存储介质及计算机设备

Info

Publication number: CN116343723B
Application number: CN202310265882.3A
Authority: CN
Inventors: 吴丰; 钟鹏; 屈博佳; 李阳
Original assignee: Guangzhou Quyan Network Technology Co ltd
Current assignee: Guangzhou Quyan Network Technology Co ltd
Priority date: 2023-03-17
Filing date: 2023-03-17
Publication date: 2024-02-06
Anticipated expiration: 2043-03-17
Also published as: WO2024192864A1; CN116343723A

Abstract

本申请提供了一种旋律生成方法、装置、存储介质及计算机设备，所述方法包括：在接收到自定义歌词文本时，获取所述自定义歌词文本的文本信息；根据所述文本信息和预先生成的第一原始旋律，生成所述自定义歌词文本对应的初始歌词旋律；所述初始歌词旋律包括多个音高信息；按照预设的掩码规则对所述初始歌词旋律的部分音高信息进行掩码，以得到目标掩码旋律；将所述目标掩码旋律输入至音高预测模型中，并根据所述音高预测模型输出的音高预测信息生成所述自定义歌词文本对应的最终歌词旋律；其中，所述音高预测模型是基于掩码语言模型进行模型预训练的神经网络模型。采用本申请的方案可以兼顾多样化的旋律和较低的时间复杂度。

Description

旋律生成方法、装置、存储介质及计算机设备

技术领域

本申请涉及人工智能技术领域，尤其涉及一种旋律生成方法、装置、存储介质及计算机设备。

背景技术

随着人工智能和神经网络技术的不断发展，人工智能和神经网络技术已经被应用到音乐领域中，用于根据用户输入的自定义歌词自动生成对应的歌词旋律，进而实现自动作曲功能。

目前，现有技术一般会通过两种方式来实现自动作曲。其中一种方式是将用户输入的自定义歌词直接套用到已有的歌词旋律之中。也即，提前确定多段歌词旋律，并在用户输入自定义歌词后，选用其中一段歌词旋律作为自定义歌词的歌词旋律。可以理解，当旋律的生成次数达到一定程度后，自动生成的多段旋律之间会具备重复性，这种实现方式无法输出多样化的旋律。

另一种实现方式则是对已有的多段音乐片段进行数据标注，标注信息会将该音乐片段的歌词文本、节奏、时值、伴奏和弦与歌词旋律等信息进行绑定表示。以各段音乐片段对应的标注信息作为训练数据，对神经网络模型进行训练，以得到训练后的神经网络模型。如此，在将自定义歌词输入到训练后的神经网络模型时，训练后的神经网络模型可以自动输出自定义歌词所对应的节奏和歌词旋律。

虽然这种方式可以输出多样化的旋律，但由于标注信息需要对多维度信息进行绑定表示，表示形式复杂，因此数据的标注时间较长，且标注难度大。同时，多维度信息的绑定表示还会增加神经网络模型的词库大小，这导致现有技术需要使用结构复杂的神经网络模型来实现，模型参数量大且时间复杂度高。

综上所述，现有技术无法兼顾多样化的旋律和较低的时间复杂度。

发明内容

本申请的目的旨在至少能解决上述的技术缺陷之一，特别是现有技术中无法兼顾多样化的旋律和较低的时间复杂度的技术缺陷。

第一方面，本申请实施例提供了一种旋律生成方法，该方法包括：

在接收到自定义歌词文本时，获取所述自定义歌词文本的文本信息；

根据所述文本信息和预先生成的第一原始旋律，生成所述自定义歌词文本对应的初始歌词旋律；所述初始歌词旋律包括多个音高信息；

按照预设的掩码规则对所述初始歌词旋律的部分音高信息进行掩码，以得到目标掩码旋律；

将所述目标掩码旋律输入至音高预测模型中，并根据所述音高预测模型输出的音高预测信息生成所述自定义歌词文本对应的最终歌词旋律；其中，所述音高预测模型是基于掩码语言模型进行模型预训练的神经网络模型。

第二方面，本申请实施例提供了一种旋律生成装置，该装置包括：

文本获取模块，用于在接收到自定义歌词文本时，获取所述自定义歌词文本的文本信息；

第一歌词旋律生成模块，用于根据所述文本信息和预先生成的第一原始旋律，生成所述自定义歌词文本对应的初始歌词旋律；所述初始歌词旋律包括多个音高信息；

掩码模块，用于按照预设的掩码规则对所述初始歌词旋律的部分音高信息进行掩码，以得到目标掩码旋律；

第二歌词旋律生成模块，用于将所述目标掩码旋律输入至音高预测模型中，并根据所述音高预测模型输出的音高预测信息生成所述自定义歌词文本对应的最终歌词旋律；其中，所述音高预测模型是基于掩码语言模型进行模型预训练的神经网络模型。

第三方面，本申请实施例提供了一种存储介质，该存储介质中存储有计算机可读指令，该计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任一实施例所述旋律生成方法的步骤。

第四方面，本申请实施例提供了一种计算机设备，该计算机设备包括：一个或多个处理器，以及存储器；

所述存储器中存储有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，执行上述任一实施例所述旋律生成方法的步骤。

在本申请的旋律生成模型、装置、存储介质及计算机设备中，计算机设备可根据自定义歌词文本的文本信息和预设的第一原始旋律生成初始歌词旋律，并按照预设的掩码规则对初始歌词旋律中的部分音高信息进行掩码，以得到掩码旋律，且将掩码旋律输入到音高预测模型中。由于音高预测模型是基于掩码语言模型进行模型预训练的神经网络模型，因此，音高预测模型可以结合每个掩码符号的上下文信息预测各个掩码符号的音高信息，并输出音高预测信息，使得计算机设备可基于该音高预测信息生成最终歌词旋律。如此，计算机设备可以以数量有限的原始旋律作为作曲基础，采用掩码和模型预测的手段进行旋律调整，从而可生成多样化旋律。同时，由于音高预测模型是根据掩码旋律来预测各个掩码符号的音高信息的，因此音高预测模型的词库大小与音高的数量多少相关联。又由于音高的数量级有限，因此，音高预测模型的词库量级较低，模型参数量少，从而可降低模型的时间复杂度，进而可兼顾多样化的旋律和较低的时间复杂度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为一个实施例中旋律生成方法的流程示意图；

图2为一个实施例中，按照预设的掩码规则对初始歌词旋律的部分音高信息进行掩码，以得到目标掩码旋律步骤的流程示意图；

图3为一个实施例中，将目标掩码旋律输入至音高预测模型中，并根据目标推理方式和音高预测信息生成最终歌词旋律步骤的流程示意图；

图4为一个实施例中，基于文本信息，生成自定义歌词文本对应的歌词节奏信息步骤的流程示意图；

图5为一个实施例中旋律生成装置的结构示意图；

图6为一个实施例中计算机设备的内部结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在一些实施例中，本申请提供的旋律生成方法可以应用于任意具备数据处理功能的计算机设备上，该计算机设备可以但不限于应用在各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。

在一个实施例中，本申请提供了一种旋律生成方法，该方法可以应用于计算机设备中。如图1所示，本文的旋律生成方法可以包括如下步骤：

S102：在接收到自定义歌词文本时，获取自定义歌词文本的文本信息。

其中，自定义歌词文本可以是由用户编写的歌词文本。在文学角度上，自定义歌词文本可视为一个或多个句子的集合。本文所述的文本信息可用于反映自定义歌词文本在文学角度上的构成形式，例如文本信息可包括自定义歌词文本的文本大小、总字数、原始分句数量和每个原始分句对应的字数等信息的任意一种或任意组合。

计算机设备可以在接收到自定义歌词文本的情况下，获取该自定义歌词文本的文本信息。可以理解，计算机设备可以依据文本信息的信息类型，采用相应的方式来处理自定义歌词文本，以实现文本信息的获取。例如，当文本信息包括自定义歌词文本的原始分句数量时，计算机设备可按照预设的分句规则对自定义歌词文本进行分句，并根据分句结果确定原始分句数量。又如，当文本信息包括每个原始分句对应的字数时，计算机设备可采用字数统计方法分别统计每个原始分句的字数。

S104：根据文本信息和预先生成的第一原始旋律，生成自定义歌词文本对应的初始歌词旋律；初始歌词旋律包括多个音高信息。

具体而言，第一原始旋律可以是从样本歌曲中提取得出的歌词旋律，其中，样本歌曲可以是计算机设备历史创作完成的歌曲。也即，计算机设备可以预先提取样本歌曲的歌词旋律，并以此作为第一原始旋律。在接收到自定义歌词文本时，计算机设备可以根据文本信息和预先提取得到的第一原始旋律，生成自定义歌词文本所对应得的初始歌词旋律，使得该初始歌词旋律包括有多个音高信息。每个音高信息可用于指示音的高低，如“1”/“do”、“2”/“rei”。示例性地，计算机设备可以根据自定义歌词文本的总字数调整第一原始旋律中各个音高信息的排列次序，以此得到初始歌词旋律。

S106：按照预设的掩码规则对初始歌词旋律的部分音高信息进行掩码，以得到目标掩码旋律。

具体而言，在得到初始歌词旋律后，计算机设备可以根据预设的掩码规则，将初始歌词旋律中的部分音高信息替换为掩码符号，以得到目标掩码旋律。该目标掩码旋律包括一个或多个的音高信息，以及一个或多个的掩码符号。例如，若初始歌词旋律为[52,60,55,52,55,57,60,57]，则其对应的目标掩码旋律可以为['52','60','[mask]','52','55','[mask]','60','[mask]']，其中[mask]为掩码符号。

可以理解，掩码规则的具体规则内容可以根据实际情况确定，本实施例对此不作具体限定。例如，掩码规则可以是根据预设比例阈值对初始歌词旋律进行掩码，使得掩码符号在初始歌词旋律中的占比不低于该预设比例阈值。又如，掩码规则可以是根据预设的乐理冲突检测规则分别判断初始歌词旋律中的每个音高信息是否存在乐理冲突，并将存在乐理冲突的音高信息替换为掩码符号。

S108：将目标掩码旋律输入至音高预测模型中，并根据音高预测模型输出的音高预测信息生成自定义歌词文本对应的最终歌词旋律；其中，音高预测模型是基于掩码语言模型进行模型预训练的神经网络模型。

具体而言，初始歌词旋律的掩码过程可以视为向初始歌词旋律加入噪音的过程，目标掩码旋律可以视为加噪后的初始歌词旋律。计算机设备可以基于目标掩码旋律进行音高预测，以确定目标掩码旋律中各个掩码符号所对应的音高信息，实现去噪。在确定各个掩码符号对应的音高信息后，即可得到自定义歌词文本对应的最终歌词旋律。

在音高预测的过程中，计算机设备可以将目标掩码旋律输入到音高预测模型中。由于音高预测模型是基于掩码语言模型(Masked Language Model，简称MLM)进行模型预训练的神经网络模型，因此，音高预测模型可以结合目标掩码旋律的上下文信息(即目标掩码旋律中的各个音高信息)实现音高预测，并输出音高预测信息，以便于计算机设备根据音高预测信息分别确定每个掩码符号所对应的音高，进而得到最终歌词旋律。

可以理解，音高预测模型的模型选择和/或具体模型结构均可依据实际情况确定，本文对此不作具体限制，只需音高预测模型是基于掩码语言模型进行模型预训练的神经网络模型即可。

在一个示例中，音高预测模型可以是BERT(Bidirectional EncoderRepresentation from Transformers，来自变换器的双向编码表)模型。进一步地，由于音高预测模型是根据掩码旋律来预测各个掩码符号的音高信息的，因此音高预测模型的词库大小与音高的数量多少相关联。又由于音高的数量级有限，因此，音高预测模型的词库量级较低。在此情况下，音高预测模型可以仅设置4层编码器和128维度的变换器前反馈来实现，相比于现有技术使用12层编码器、12层解码器和1024维度的变换器前反馈来实现的方案，本申请的模型参数量大大减少。

本申请中，计算机设备可根据自定义歌词文本的文本信息和预设的第一原始旋律生成初始歌词旋律，并按照预设的掩码规则对初始歌词旋律中的部分音高信息进行掩码，以得到掩码旋律，且将掩码旋律输入到音高预测模型中。由于音高预测模型是基于掩码语言模型进行模型预训练的神经网络模型，因此，音高预测模型可以结合每个掩码符号的上下文信息预测各个掩码符号的音高信息，并输出音高预测信息，使得计算机设备可基于该音高预测信息生成最终歌词旋律。如此，计算机设备可以以数量有限的原始旋律作为作曲基础，采用掩码和模型预测的手段进行旋律调整，从而可生成多样化旋律。同时，由于音高预测模型是根据掩码旋律来预测各个掩码符号的音高信息的，因此音高预测模型的词库大小与音高的数量多少相关联。又由于音高的数量级有限，因此，音高预测模型的词库量级较低，模型参数量少，从而可降低模型的时间复杂度，进而可兼顾多样化的旋律和较低的时间复杂度。

在一个实施例中，如图2所示，按照预设的掩码规则对初始歌词旋律的部分音高信息进行掩码，以得到目标掩码旋律的步骤，包括：

S202：获取自定义歌词文本对应的伴奏旋律；

S204：按照伴奏旋律和预设的乐理规则，分别判断初始歌词旋律的每个音高信息是否符合乐理；

S206：将初始歌词旋律中不符合乐理的音高信息进行掩码，以得到第一掩码旋律；

S208：基于第一掩码旋律生成目标掩码旋律。

其中，歌曲旋律可以包括伴奏旋律和歌词旋律。当歌词旋律与伴奏旋律匹配度不高时，听众在聆听歌曲时有可能会产生刺耳感。为使得计算机自动生成的歌词旋律能够更加合理，提高歌词旋律与伴奏旋律之间的匹配度，在本实施例中，计算机设备可以按照自定义歌词文本对应的伴奏旋律和预设的乐理规则对初始歌词旋律进行掩码，以将初始歌词旋律中不合乐理的音高信息替换为掩码符号。

具体而言，计算机设备可以获取自定义歌词文本对应的伴奏旋律。在其中一个实施例中，计算机设备可以根据接收到的风格标签确定对应的伴奏旋律，例如根据风格标签即时生成伴奏旋律或者根据风格标签从预设的多段伴奏旋律中选取一段与该风格标签对应的伴奏旋律。

在获取到伴奏旋律的情况下，计算机设备可以根据伴奏旋律和预设的乐理规则，分别判断初始歌词旋律的每个音高信息是否符合乐理，并将初始歌词旋律中每个不符合乐理的音高信息替换掩码符号，并得到第一掩码旋律。

可以理解，乐理规则的具体规则内容可以根据实际情况确定，本文对此不作具体限制。在一个示例中，伴奏旋律可包括多个和弦，该乐理规则可用于判断初始歌词旋律的每个音高信息是否为调外音以及是否为与伴奏旋律的和弦相冲突的规避音，并将初始歌词旋律中的每个调外音和规避音替换为掩码符号，以得到第一掩码旋律。

在第一掩码旋律后，计算机设备可以基于该第一掩码旋律得到目标掩码旋律。例如，计算机设备可以直接将第一掩码旋律作为目标掩码旋律，或者对第一掩码旋律进行调整且将调整后的第一掩码旋律作为目标掩码旋律。

在一个实施例中，基于第一掩码旋律生成目标掩码旋律的步骤，包括：

计算第一掩码旋律的掩码比例；

若第一掩码旋律的掩码比例小于预设比例阈值，则根据预设比例阈值对第一掩码旋律的各个音高信息进行随机掩码，以得到目标掩码旋律；其中，目标掩码旋律的掩码比例大于或等于预设比例阈值。

其中，第一掩码旋律的掩码比例是指掩码符号的总数量占音高总量的比例，音高总量是指第一掩码旋律中掩码符号的总数量与音高信息的总数量之和。例如，当第一掩码旋律为['52','60','[mask]','52','55','[mask]','60','57']时，音高总量为8，掩码符号的总数量为2，那么第一掩码旋律的掩码比例为25％。

计算机设备可以将第一掩码旋律的掩码比例与预设比例阈值进行比较，以确定第一掩码旋律的掩码比例是否小于预设比例阈值。当第一掩码旋律的掩码比例小于预设比例阈值时，第一掩码旋律中掩码符号的数量有限。若直接将第一掩码旋律输入到音高预测模型中进行音高预测，并据此得到最终歌词旋律，则在掩码符号数量的限制下，最终歌词旋律的多样性也有所限制。因此，为进一步提升歌词旋律的多样性，在第一掩码旋律的掩码比例小于预设比例阈值的情况下，计算机设备可以对第一掩码旋律的各个音高信息进行随机掩码，使得随机掩码后的第一掩码旋律的掩码比例大于或等于预设比例阈值，并将该随机掩码后的第一掩码旋律作为目标掩码旋律。

可以理解，预设比例阈值的具体数值可以依据实际情况确定，本文对此不作具体限制。在一个示例中，预设比例阈值可以大于或等于12％。

在一个实施例中，基于第一掩码旋律生成目标掩码旋律的步骤，包括：计算第一掩码旋律的掩码比例；若第一掩码旋律的掩码比例大于或等于预设比例阈值，则将第一掩码旋律作为目标掩码旋律。

其中，关于第一掩码旋律的掩码比例和预设比例阈值的相关说明可参阅上述实施例，在此不再赘述。当第一掩码旋律的掩码比例大于或等于预设比例阈值时，表明第一掩码旋律的掩码符号数量足够多，因此可直接将第一掩码旋律直接作为目标掩码旋律，无需再对第一掩码旋律进行随机掩码。如此，可进一步提升旋律生成效率。

在一个实施例中，将目标掩码旋律输入至音高预测模型中，并根据音高预测模型输出的音高预测信息生成自定义歌词文本对应的最终歌词旋律的步骤，包括：

根据预设的多种音高推理方式和每种音高推理方式对应的选取概率，在多种音高推理方式中选取出目标推理方式；

将目标掩码旋律输入至音高预测模型中，并根据目标推理方式和音高预测信息生成最终歌词旋律。

其中，音高推理方式可以是根据音高预测信息推理各个掩码符号对应的音高信息的方式。

具体而言，计算机设备可以根据每种音高推理方式的选取概率，从多种不同的音高推理方式中选取出一种音高推理方式作为目标推理方式，并按照目标推理方式和音高预测模型输出的音高预测信息，推理出目标掩码旋律中各个掩码符号所对应的音高信息，以得出最终歌词旋律。

本实施例中，计算机设备可以从多种不同的音高推理方式中随机选取出目标推理方式，并据此生成最终歌词旋律，如此可进一步丰富旋律的多样性。

在一个实施例中，音高预测信息包括所述目标掩码旋律中每个掩码符号所对应的各个预测音高概率。也即，一个掩码符号会对应着多个预测音高概率，且每个预测音高概率对应的音高信息互不相同。例如，当音高预测模型的词库包括do、rei、mi、fa、so、la、si这7个音高时，在将['mi','[mask]','do']这一目标掩码旋律输入到音高预测模型后，音高预测模型输出的音高预测信息可以是[0.3,0.2,0.2,0.25,0.01,0.02,0.02]。其中，0.3为do对应的预测概率，0.2分别为rei和mi对应的预测概率，0.25为fa对应的预测概率，以此类推。

如图3所示，将目标掩码旋律输入至音高预测模型中，并根据目标推理方式和音高预测信息生成最终歌词旋律的步骤，包括：

S302：当目标推理方式为一次推理方式时，将目标掩码旋律输入至音高预测模型中，以得到音高预测信息；

S304：针对目标掩码旋律中的每个掩码符号，确定目标概率阈值，根据目标概率阈值，在该掩码符号对应的各个预测音高概率中选取出目标音高概率，并将目标音高概率对应的音高信息作为该掩码符号对应的音高信息，其中，目标音高概率大于或等于目标概率阈值；

S306：分别将每个掩码符号对应的音高信息填入目标掩码旋律中，以得到最终歌词旋律。

其中，一次推理方式是指一次性确定目标掩码旋律中每个掩码符号对应的音高信息。每次将目标掩码旋律输入音高预测模型后，音高预测模型都会输出每个掩码符号对应的各个预测音高概率。当目标推理方式为一次推理方式时，计算机设备可根据音高预测模型同次输出的各个预测音高概率，推理出各个掩码符号所对应的音高信息。

具体而言，在将目标掩码旋律输入到音高预测模型后，音高预测模型会分别输出每个掩码符号所对应的各个预测音高概率。针对每个掩码符号，计算机设备可以确定该掩码符号所对应的目标概率阈值，并在该掩码符号对应的各个预测音高概率中，选取出大于或等于目标概率阈值的一个预测音高概率作为目标音高概率，并将该目标音高概率对应的音高信息作为该掩码符号对应的音高信息。例如，在前述['mi','[mask]','do']的示例中，若掩码符号对应的目标概率阈值为0.22，则计算机设备会选取“do”或“fa”作为该掩码符号对应的音高信息。

在其中一个实施例中，计算机设备可以将大于或等于目标概率阈值的最大预测音高概率作为目标音高概率，并将最大预测音高概率对应的音高信息作为掩码符号对应的音高信息。

需要说明的是，本文所述的目标概率阈值可以是预先设置的，也可以是动态生成的(例如将同个掩码符号对应的各个预测音高概率的概率均值作为该掩码符号对应的目标概率阈值)，本文对此不作具体限制。同时，每个掩码符号对应的目标概率阈值可以相同，也可以不同。

计算机设备可以根据每个掩码符号在目标掩码旋律中的位置，分别将每个掩码符号对应的音高信息填入到目标掩码旋律的相应位置处，以替代目标掩码旋律中的各个掩码符号并得到最终歌词旋律。

本实施例中，通过一次性确定目标掩码旋律中每个掩码符号对应的音高信息，从而可缩短最终歌词旋律的生成时间，以进一步提高旋律生成效率。

在一个实施例中，根据预设概率阈值，在该掩码符号对应的各个预测音高概率中选取出目标音高概率的步骤，包括：

在该掩码符号对应的各个预测音高概率中，将大于或等于预设概率阈值的各个预测音高概率作为候选音高概率；

从各个候选音高概率中随机选取出目标音高概率。

具体而言，针对每个掩码符号，若在该掩码符号对应的各个预测音高概率中，存在至少两个大于或等于目标概率阈值的预测音高概率，则计算机设备可从各个大于或等于目标概率阈值的预测音高概率中，随机选取出一个作为目标音高概率。例如，在前述['mi','[mask]','do']的示例中，当掩码符号对应的目标概率阈值为0.22时，计算机设备可以随机选取0.3或者0.25作为目标音高概率，也即，计算机设备可以随机选取“do”或“fa”作为掩码符号对应的音高信息。如此，可在确保歌词旋律合理的情况下，进一步增加旋律的多样性。

在一个实施例中，音高预测信息包括所述目标掩码旋律中每个掩码符号所对应的各个预测音高概率。关于音高预测信息的具体说明可参阅上述实施例所述，在此不再赘述。

将目标掩码旋律输入至音高预测模型中，并根据目标推理方式和音高预测信息生成最终歌词旋律的步骤，包括：

当目标推理方式为多次推理方式，且目标掩码旋律包括至少一个掩码符号时，将目标掩码旋律输入至音高预测模型中，以得到音高预测信息，并根据预设概率阈值，在音高预测模型最新输出的音高预测信息中选取出N个目标音高概率，且基于N个目标音高概率对应的掩码符号位置，分别将N个目标音高概率对应的音高信息填入目标掩码旋律中，以更新目标掩码旋律，直至更新后的目标掩码旋律不包括掩码符号并得到最终歌词旋律；

其中，每个目标音高概率大于或等于预设概率阈值，N为预设正整数且小于目标掩码旋律的初始掩码符号数量。

具体而言，多次推理方式是指分多次确定每个掩码符号对应的音高信息，且需要根据前次确定的音高信息进行当次音高信息确定的方式。由于多次推理方式需要分多次确定各掩码符号对应的音高信息，且前次确定结果需要作为当次确定过程的依据，因此，在多次推理方式中需要根据每次确定的音高信息对目标掩码旋律进行更新，并利用更新后的目标掩码旋律进行当次推理。而目标掩码旋律的初始掩码符号数量是指在对目标掩码旋律进行至少一次更新前，目标掩码旋律的最大掩码符号数量。例如，步骤S106得出的目标掩码旋律共有4个掩码符号，在推理过程中，每次推理出2个掩码符号对应的音高信息并据此更新目标掩码旋律，使得目标掩码旋律的掩码符号数量在每次更新后递减2。那么在此示例中，目标掩码旋律的初始掩码符号数量为4。

当目标推理方式为多次推理方式时，若目标掩码旋律包括至少一个掩码符号，则表明目标掩码旋律并未完成预测。因此，每当目标推理方式为多次推理方式，且目标掩码旋律包括至少一个掩码符号时，计算机设备都会将目标掩码旋律输入到音高预测模型中，以使音高预测模型对当次输入的目标掩码旋律进行预测并输出当次的音高预测信息，以便于计算机设备根据当次的音高预测信息进行当次推理。

在当次推理过程中，计算机设备可以确定目标概率阈值，并在当次的音高预测信息中选取出N个大于或等于目标概率阈值的预测音高概率作为目标音高概率。在确定出N个目标音高概率后，计算机设备可以根据N个目标音高概率对应的掩码符号位置(即掩码符号在目标掩码旋律的位置)，分别将N个目标音高概率对应的音高信息填入所述目标掩码旋律中，以实现目标掩码旋律的更新。若更新后的目标掩码旋律不包括掩码符号，则可将更新后的目标掩码旋律作为最终歌词旋律。若更新后的目标掩码旋律还包括至少一个掩码符号，则参照前述过程执行下一次推理。

可以理解，N可以是任意小于初始掩码符号数量的正整数，为便于说明，本文的一些实施例以N为1作为示例进行描述。例如，当步骤S106得出的目标掩码旋律共有4个掩码符号时，计算机设备可以逐个确定各掩码符号所对应的音高信息，并在每确定出一个掩码符号所对应的音高信息时，将该音高信息填入到目标掩码旋律中，而后再将更新后的目标掩码旋律重新输入到音高预测模型中，使得音高预测模型可以根据本就确定的音高信息和后期推理预测得到的音高信息进行音高预测，并进行当次推理。在进行4次推理后，计算机设备可以确定出4个掩码符号所对应的音高信息，并得到最终歌词旋律。

需要说明的是，本文所述的目标概率阈值可以是预先设置的，也可以是动态生成的(例如将同次输出的各个预测音高概率的概率均值作为该次推理过程的目标概率阈值)，本文对此不作具体限制。同时，每次推理过程对应的目标概率阈值可以相同，也可以不同。

本实施例中，通过模仿人类的作曲思维，先确定概率较大的音高信息，再根据本就确定的音高信息和后期推理预测得到的音高信息确定其余掩码符号对应的音高信息，从而可提高最终歌词旋律的旋律合理性，提高歌词旋律与伴奏旋律之间的匹配度。

在一个实施例中，根据文本信息和预先生成的第一原始旋律，生成自定义歌词文本对应的初始歌词旋律的步骤，包括：

基于文本信息，生成自定义歌词文本对应的歌词节奏信息；

在预先生成的多个第二原始旋律中随机选取出与歌词节奏信息相匹配的第二原始旋律作为第一原始旋律；

根据第一原始旋律生成初始歌词旋律。

具体而言，每个第二原始旋律均可以是从样本歌曲中提取得出的歌词旋律。在其中一个实施例中，计算机设备可以对pop909数据集的各个MIDI(Musical InstrumentDigital Interface，乐器数字接口)数据进行处理，以得到长度和格式均满足预设要求的多个第二原始旋律。例如，每个第二原始旋律均可包括1到22个乐句，且每个乐句包括至少3个音高信息。

计算机设备可根据自定义歌词文本的文本信息生成器对应的歌词节奏信息，并在多个第二原始旋律中随机选取出与歌词节奏信息相匹配的第二原始旋律作为第一原始旋律。换言之，若存在至少两个第二原始旋律与歌词节奏信息相匹配，则计算机设备可以匹配的各个第二原始旋律中随机选取一个作为第一原始旋律，并据此生成初始歌词旋律。如此，可进一步提高旋律生成的多样性。

在一个实施例中，文本信息包括自定义歌词文本的输入分句数量和文本字数。其中，用户在输入自定义歌词文本时，可能会通过特殊字符(可以但不限于是标点符号或空格)将自定义歌词文本划分为多个输入分句，本文的输入分句数量是指在用户输入自定义歌词文本时的分句数量。例如，当用户输入的自定义歌词文本为“已是黄昏独自愁，更著风和雨”，那么输入分句数量可为2。

如图4所示，基于文本信息，生成自定义歌词文本对应的歌词节奏信息的步骤，包括：

S402：根据输入分句数量和文本字数，判断自定义歌词文本是否满足预设的作曲分句规则；

S404：若不满足作曲分句规则，则按照作曲分句规则对自定义歌词文本进行断句，以得到各个作曲分句；

S406：若满足作曲分句规则，则分别将自定义歌词文本的各个输入分句作为各个作曲分句；

S408：根据各个作曲分句的分句信息，对预先生成的多个原始节奏信息进行筛选，以得到基准节奏信息，并基于基准节奏信息生成歌词节奏信息。

具体而言，多个原始节奏信息均可以是从样本歌曲中提取得出的节奏信息。在其中一个实施例中，计算机设备可通过智能扒谱得到多首样本歌曲所对应的节奏信息，其中，每个原始节奏信息可以包括以单句或单段(多句)作为颗粒度的节奏信息，进一步地，每个节奏信息可以包括句内(或段内)歌词对应的歌曲结构类型、分词情况、长短搭配、每个字对应的歌唱时长等。

计算机设备可以根据自定义歌词文本的输入分句数量、文本字数和预设的作曲分句规则，判断是否需要对自定义歌词文本进行重新断句。若需要，则按照预设的作曲分句规则对自定义歌词文本进行重新断句，以得到各个作曲分句，在此情况下，作曲分句数量可以与输入分句数量可以相同或不同。若不需要重新断句，则可按照用户的断句方式来确定各个作曲分句，也即可以将各个输入分句作为各个作曲分句。

在确定各个作曲分句后，计算机设备可依据各个作曲分句的分句信息，在多个原始节奏信息中筛选出一个或多个原始节奏信息作为基准节奏信息，并以基准节奏信息作为基础生成自定义歌词文本的歌词节奏信息。其中，分句信息可以是对该作曲分句进行作曲时需要考虑的因素集合，例如可包括作曲分句的分句字数和分词情况等。

本实施例中，通过根据输入分句数量和文本字数判断自定义歌词文本是否满足预设的作曲分句规则，并据此确定各个作曲分句，且基于各个作曲分句的分句信息确定用于生成歌词节奏信息的基准节奏信息，如此，可以避免由于分句不当而导致的无法匹配或匹配结果不准的问题，从而可自动生成合理的歌词节奏信息。

在一个实施例中，作曲分句的分句信息包括该作曲分句对应的歌曲结构类型，歌曲结构类型可以但不限于是主歌、副歌、桥或预备副歌等。

根据各个作曲分句的分句信息，对预先生成的多个原始节奏信息进行筛选，以得到基准节奏信息的步骤，包括：基于各个歌曲结构类型及每个歌曲结构类型对应的作曲分句数量，对多个原始节奏信息进行筛选，以得到基准节奏信息。

具体地，通过每个作曲分句对应的歌曲结构类型，计算机设备可以统计出需要对哪种类型的歌曲结构进行编曲和每种需要编曲的歌曲结构类型对应的作曲分句数量，使得计算机设备可以根据统计信息从多个原始节奏信息进行数据筛选并得到基准节奏信息。例如，当全部作曲分句包括6句主歌和5句副歌时，基准节奏信息可以包括6句主歌的原始分句节奏信息和5句副歌的原始分句节奏信息。如此，可以得到更为合理的基准节奏信息，以提高后续作曲质量。

在一个实施例中，基准节奏信息包括至少一个原始分句节奏信息，原始分句节奏信息是指从样本歌曲中提取得到的单个乐句的节奏信息。进一步地，每个原始分句节奏信息可以包括句内歌词对应的歌曲结构类型、分词情况、长短搭配、每个字对应的歌唱时长等。

基于基准节奏信息生成歌词节奏信息的步骤，包括：针对每个作曲分句，在基准节奏信息中确定与该作曲分句的排列次序相匹配的原始分句节奏信息作为目标节奏信息，并对该作曲分句进行分词处理，基于分词的结果调整目标节奏信息，以得到该作曲分句对应的歌词节奏信息。

具体而言，当基准节奏信息包括多个原始分句节奏信息时，各个原始分句节奏信息可以按照一定的顺序排列。对于每个作曲分句，计算机设备可以根据该作曲分句在全部作曲分句中的排列次序，将基准节奏信息中排列次序与之相匹配的原始分句节奏信息作为目标节奏信息。例如，当基准节奏信息包括依次排列的第一原始分句节奏、第二原始分句节奏和第三原始分句节奏时，若当前的作曲分句是第2个作曲分句，则计算机设备可以将第二原始分句节奏作为当前的作曲分句所对应的目标节奏信息。

对于每个作曲分句，在确定该作曲分句对应的目标节奏信息后，计算机设备可以根据该作曲分句的文本分词结果对目标节奏信息进行调整，并以目标节奏信息作为发展基础来生成该作曲分句对应的歌词节奏信息。

在一个示例中，计算机设备可以根据作曲分句的文本分词结果、各个分词的文本长度和词性，以及原始分句节奏信息对应的文本分词结果、各个分词的文本长度和词性，构建出作曲分句对应的歌词节奏旋律。

进一步地，在得到各个作曲分句对应的歌词节奏信息后，计算机设备还可以根据自定义歌词文本的节奏信息，对各个歌词节奏信息进行调整，使得调整后的各个歌词节奏信息具备节奏重复呼应的效果，进而提高歌词节奏的合理性。

本实施例中，通过结合作曲分句的分词结果来生成该作曲分句对应的歌词节奏信息，从而令歌词节奏信息更为智能和合理。

在一个实施例中，第一原始旋律包括至少一个第一原始分句旋律，第一原始分句旋律是指从样本歌曲中提取得到的单个乐句的旋律信息。初始歌词旋律包括各个作曲分句对应的初始分句旋律，初始分句旋律是指单个作曲分句对应的歌词旋律。

根据第一原始旋律生成初始歌词旋律的步骤，包括：针对每个作曲分句，在第一原始旋律中确定与该作曲分句的排列次序相匹配的第一原始分句旋律作为基准旋律，并根据该作曲分句的分句字数、基准旋律的音高数量和基准旋律的各个音高信息生成该作曲分句的初始分句旋律。

其中，基准旋律的音高数量是指基准旋律所含音高信息的总数量，例如当基准旋律为“1234”时，基准旋律中包括了“1”(do)、“2”(rei)、“3”(mi)、“4”(fa)这4个音高信息，因此其音高数量为4。

具体而言，当第一原始旋律包括多个第一原始分句旋律时，各个第一原始分句旋律可以按照一定的顺序排列。对于每个作曲分句，计算机设备可以根据该作曲分句在全部作曲分句中的排列次序，将第一原始旋律中排列次序与之相匹配的第一原始分句旋律作为基准旋律。

由于作曲分句的分句字数与该作曲分句对应的最终歌词旋律的音高数量相关联，因此计算机设备可以依据作曲分句的分句字数确定该作曲分句对应的最终歌词旋律需要包含的音高数量，并依据最终歌词旋律需要包含的音高数量和基准旋律的音高数量，判断基准旋律包括的音高信息是否充足，并依据该判断结果和基准旋律的各个音高信息生成作曲分句的初始分句旋律。

本实施例中，计算机设备可结合作曲分句中待确定的音高数量和基准旋律的音高数量调整基准旋律，以得到作曲分句对应的初始歌词旋律，使得计算机设备可以以数量有限的原始旋律作为作曲基础，从而可生成多样化旋律。

在一个实施例中，根据该作曲分句的分句字数、基准旋律的音高数量和基准旋律的各个音高信息生成该作曲分句的初始分句旋律的步骤，包括：

若该作曲分句的分句字数大于基准旋律的音高数量，则对该作曲分句进行分词处理以得到各个分词文本，根据预设的旋律填写规则分别确定基准旋律中每个音高信息所对应的分词文本；

根据各个第一分词文本在该作曲分句中的文本位置和各个第一分词文本对应的音高信息，确定各第二分词文本的旋律信息，以得到该作曲分句的初始分句旋律；

其中，第一分词文本为已对应有音高信息的分词文本，第二分词文本为未对应有音高信息的分词文本，每个第二分词文本的旋律信息为音高信息或掩码符号。

具体而言，对于每个作曲分句而言，若该作曲分句的分句字数大于基准旋律的音高数量，则表明该作曲分句对应的最终歌词旋律所需的音高数量多于基准旋律的音高数量，因此仅仅通过旋律裁剪或重新分配音基准旋律的各个音高信息不足够的。在此情况下，计算机设备可以根据作曲分句的分词情况和预设的旋律填写规则，分别确定基准旋律中每个音高信息所对应的分词文本。进一步地，本文的旋律填写规则可以是依据分词、旋律走向和/或韵母发音进行旋律分配的规则。

由于作曲分句的分句字数大于基准旋律的音高数量，因此，在确定基准旋律中每个音高信息对应的分词文本后，一部分分词文本对应着音高信息(这部分分词文本即本文所述的第一分词文本)，另一部分分词文本未对应有音高信息(这部分分词文本即本文所述的第二分词文本)。计算机设备可以依据各个第一分词文本的音高信息和各个第一分词文本在作曲分句中的文本位置，确定该作曲分句的大致旋律走向，并据此确定各个第二分词文本的旋律信息，每个第二分词文本的旋律信息可以是音高信息或掩码符号。在一个示例中，计算机设备可以根据预设的旋律确定规则或者概率统计模型，确定各个第二分词文本的旋律信息。

通过本实施例所述的方法，计算机设备可以以以基准旋律作为作曲基础发展出多样化的旋律，以进一步提高旋律的多样性。

在一个实施例中，所述根据该作曲分句的分句字数、所述基准旋律的音高数量和所述基准旋律的各个音高信息生成该作曲分句的初始分句旋律的步骤，包括：

若所述该作曲分句的分句字数小于所述基准旋律的音高数量，则根据该作曲分句的分句字数和预设的旋律裁剪规则，对所述基准旋律的音高信息进行裁剪，以使裁剪后的基准旋律的音高数量等于该作曲分句的分句字数；

将所述裁剪后的基准旋律作为该作曲分句的初始分句旋律。

具体而言，对于每个作曲分句而言，若该作曲分句的分句字数小于基准旋律的音高数量，则表明该作曲分句对应的最终歌词旋律所需的音高数量小于基准旋律的音高数量，在此情况下，计算机设备可以按照预设的旋律裁剪规则，对基准旋律包含的各个音高信息进行裁剪，以将基准旋律裁剪至与该作曲分句相同的长度。例如，当作曲分句的分句字数为8，且其对应的基准旋律为[52,60,57,55,52,52,55,57,60,57,55,57]时，那么裁剪后的基准旋律可以为[52,60,55,52,55,57,60,57]。

在得到裁剪后的基准旋律后，计算机设备可以以该裁剪后的基准旋律作为作曲基础，以发展出多样化的旋律。如此，可缩短初始歌词旋律的生成时间，进而缩短最终歌词旋律的生成时间，以进一步提高旋律生成效率。

在一个实施例中，获取所述音高预测模型的过程，包括：

获取预先生成的各个第二原始旋律；

采用多种掩码方式对各个所述第二原始旋律进行掩码，并得到各个第二掩码旋律；

以各个所述第二掩码旋律和每个所述第二掩码旋律对应的所述第二原始旋律作为训练集合，对初始预测模型进行模型训练，直至训练完成并得到所述音高预测模型；其中，所述初始预测模型用于根据所述掩码语言模型进行模型预训练。

其中，关于第二原始旋律的具体说明可参阅上述实施例，本文在此不再赘述。

具体而言，在生成用于获取音高预测模型的训练集合时，计算机设备可以采用多种不同的掩码方式对第二原始旋律进行掩码，并根据掩码的结果得到多个第二掩码旋律。换言之，对于任意两个第二掩码旋律而言，其掩码方式可能相同，也可能不同。

可以理解，具体的掩码方式可依据实际情况确定，本文对此不作具体限制。在一个示例中，计算机设备可采用以token(字)颗粒度进行随机掩码，以及以乐句颗粒度进行随机掩码。例如，第二原始旋律可以为[64 64 64 64 6262 62],[64 67 64 67 67],[64 64 5555 52 55 55 57 57 60 60 60 60 62]]，其中“,”为乐句分隔符，那么在以token颗粒度进行随机掩码后，所得的掩码结果可以为[64[mask][mask]64 62 62 62],[64 67[mask]6767],[64 64[mask]55 52[mask]55 57[mask]60 60 60 60 62]。而在以乐句颗粒度进行随机掩码后，所得的掩码结果可以为[[mask][mask][mask][mask][mask][mask][mask]],[646764 67 67],[64 64 55 55 52 55 55 57 57 60 60 60 60 62]。

在得到各个第二掩码旋律后，计算机设备可以以一个第二掩码旋律和用于生成该第二掩码旋律的第二原始旋律作为一组训练数据，并分别生成各个第二掩码旋律对应的训练数据，以得到包括各组训练数据的训练集合。而后，采用该训练集合对对初始预测模型进行模型训练，使得初始预测模型可以根据掩码语言模型进行预训练，并在训练完成时得到音高预测模型。

本实施例中，计算机设备采用多种不同的掩码方式来生成训练集合，使得训练集合可以模拟通过不同的加噪过程生成的加噪数据。由于音高预测模型是采用该训练集合训练得到的，因此音高预测模型可以具备更好的预测效果。

在一个实施例中，每个第二原始旋律包括至少一个第二原始分句旋律，其中，第二原始分句旋律是指从样本歌曲中提取得到的单个乐句的旋律信息。

采用多种掩码方式对各个第二原始旋律进行掩码，并得到各个第二掩码旋律的步骤，包括：

采用多种掩码方式对各个第二原始旋律进行掩码，以得到各个第三掩码旋律；

针对每个第三掩码旋律，将该第三掩码旋律中不包含掩码符号的第二原始分句旋律作为目标分句旋律，并将目标分句旋律的各个音高信息进行乱序，以得到第二掩码旋律。

具体而言，在对第二原始旋律进行掩码后，所得的掩码结果为第三掩码旋律。在第三掩码旋律中，部分第二原始分句旋律存在掩码符号，另一部分第二原始分句旋律不存在掩码符号。计算机设备将不存在掩码符号的第二原始分句旋律作为目标分句旋律，并调整目标分句旋律中各个音高信息的排列次序，并将调整后的各个第二原始分句旋律作为第二掩码旋律。

例如，当第二原始旋律为[64 64 64 64 62 62 62],[64 67 64 67 67],[64 645555 52 55 55 57 57 60 60 60 60 62]]，随机掩码的结果为[[mask][mask][mask][mask][mask][mask][mask]],[64 67 64 67 67],[64 64 55 55 52 55 55 57 57 6060 60 6062]时，第二掩码旋律可以是[[mask][mask][mask][mask][mask][mask][mask]],[67 6467 67 64],[55 52 55 64 64 55 55 57 60 60 60 60 62 57]。

在本实施例中，通过调整不包含掩码符号的第二原始分句旋律中各个音高信息的次序，在模型训练时，所有token的损失值均会被回传以作为模型参数的更新依据，而避免仅根据被掩码的token的损失值来更新模型参数。如此，可优化音高预测模型的预测性能，以进一步提高歌词旋律的多样性。

下面对本申请实施例提供的旋律生成装置进行描述，下文描述的旋律生成装置与上文描述的旋律生成方法可相互对应参照。

在一个实施例中，本申请提供了一种旋律生成装置500。如图5所示，该装置500可以包括：

文本获取模块510，用于在接收到自定义歌词文本时，获取自定义歌词文本的文本信息；

第一歌词旋律生成模块520，用于根据文本信息和预先生成的第一原始旋律，生成自定义歌词文本对应的初始歌词旋律；初始歌词旋律包括多个音高信息；

掩码模块530，用于按照预设的掩码规则对初始歌词旋律的部分音高信息进行掩码，以得到目标掩码旋律；

第二歌词旋律生成模块540，用于将目标掩码旋律输入至音高预测模型中，并根据音高预测模型输出的音高预测信息生成自定义歌词文本对应的最终歌词旋律；其中，音高预测模型是基于掩码语言模型进行模型预训练的神经网络模型。

在一个实施例中，掩码模块530包括伴奏获取单元、乐理判断单元、第一掩码单元和目标掩码旋律生成单元。其中，伴奏获取单元用于获取自定义歌词文本对应的伴奏旋律。乐理判断单元用于按照伴奏旋律和预设的乐理规则，分别判断初始歌词旋律的每个音高信息是否符合乐理。第一掩码单元用于将初始歌词旋律中不符合乐理的音高信息进行掩码，以得到第一掩码旋律。目标掩码旋律生成单元用于基于第一掩码旋律生成目标掩码旋律。

在一个实施例中，目标掩码旋律生成单元包括掩码比例计算单元和随机掩码单元。其中，掩码比例计算单元用于计算第一掩码旋律的掩码比例。随机掩码单元用于在第一掩码旋律的掩码比例小于预设比例阈值的情况下，根据预设比例阈值对第一掩码旋律的各个音高信息进行随机掩码，以得到目标掩码旋律；其中，目标掩码旋律的掩码比例大于或等于预设比例阈值。

在一个实施例中，目标掩码旋律生成单元包括掩码比例计算单元和第一旋律确定单元。其中，掩码比例计算单元用于计算第一掩码旋律的掩码比例。第一旋律确定单元用于在第一掩码旋律的掩码比例大于或等于预设比例阈值的情况下，将第一掩码旋律作为目标掩码旋律。

在一个实施例中，第二歌词旋律生成模块540包括推理方式选取单元和最终歌词旋律生成单元。其中，推理方式选取单元用于根据预设的多种音高推理方式和每种音高推理方式对应的选取概率，在多种音高推理方式中选取出目标推理方式。最终歌词旋律生成单元用于将目标掩码旋律输入至音高预测模型中，并根据目标推理方式和音高预测信息生成最终歌词旋律。

在一个实施例中，音高预测信息包括目标掩码旋律中每个掩码符号所对应的各个预测音高概率。

最终歌词旋律生成单元包括音高预测信息获取单元、第一音高确定单元和旋律填写单元。其中，音高预测信息获取单元用于当目标推理方式为一次推理方式时，将目标掩码旋律输入至音高预测模型中，以得到音高预测信息。第一音高确定单元用于针对目标掩码旋律中的每个掩码符号，确定目标概率阈值，根据目标概率阈值，在该掩码符号对应的各个预测音高概率中选取出目标音高概率，并将目标音高概率对应的音高信息作为该掩码符号对应的音高信息，其中，目标音高概率大于或等于目标概率阈值。旋律填写单元用于分别将每个掩码符号对应的音高信息填入目标掩码旋律中，以得到最终歌词旋律。

在一个实施例中，第一音高确定单元包括候选音高概率选取单元和随机选取单元。其中，候选音高概率选取单元用于在该掩码符号对应的各个预测音高概率中，将大于或等于目标概率阈值的各个预测音高概率作为候选音高概率。随机选取单元用于从各个候选音高概率中随机选取出目标音高概率。

最终歌词旋律生成单元包括第二音高确定单元。该第二音高确定单元用于当目标推理方式为多次推理方式，且目标掩码旋律包括至少一个掩码符号时，将目标掩码旋律输入至音高预测模型中，以得到音高预测信息，并确定目标概率阈值，根据目标概率阈值，在音高预测模型最新输出的音高预测信息中选取出N个目标音高概率，且基于N个目标音高概率对应的掩码符号位置，分别将N个目标音高概率对应的音高信息填入目标掩码旋律中，以更新目标掩码旋律，直至更新后的目标掩码旋律不包括掩码符号并得到最终歌词旋律；其中，每个目标音高概率大于或等于目标概率阈值，N为预设正整数且小于目标掩码旋律的初始掩码符号数量。

在一个实施例中，第一歌词旋律生成模块520包括歌词节奏生成单元、第一原始旋律选取单元和初始歌词旋律生成单元。其中，歌词节奏生成单元用于基于文本信息，生成自定义歌词文本对应的歌词节奏信息。第一原始旋律选取单元用于在预先生成的多个第二原始旋律中随机选取出与歌词节奏信息相匹配的第二原始旋律作为第一原始旋律。初始歌词旋律生成单元用于根据第一原始旋律生成初始歌词旋律。

在一个实施例中，文本信息包括自定义歌词文本的输入分句数量和文本字数。

歌词节奏生成单元包括作曲分句规则判定单元、第一作曲分句确定单元、第二作曲分句确定单元和基准节奏获取单元。作曲分句规则判定单元用于根据输入分句数量和文本字数，判断自定义歌词文本是否满足预设的作曲分句规则。第一作曲分句确定单元用于若不满足作曲分句规则，则按照作曲分句规则对自定义歌词文本进行断句，以得到各个作曲分句。第二作曲分句确定单元用于若满足作曲分句规则，则分别将自定义歌词文本的各个输入分句作为各个作曲分句。基准节奏获取单元用于根据各个作曲分句的分句信息，对预先生成的多个原始节奏信息进行筛选，以得到基准节奏信息，并基于基准节奏信息生成歌词节奏信息。

在一个实施例中，作曲分句的分句信息包括该作曲分句对应的歌曲结构类型。基准节奏获取单元包括筛选单元。该筛选单元用于基于各个歌曲结构类型及每个歌曲结构类型对应的作曲分句数量，对多个原始节奏信息进行筛选，以得到基准节奏信息

在一个实施例中，基准节奏信息包括至少一个原始分句节奏信息。基准节奏获取单元包括节奏调整单元。该节奏调整单元用于针对每个作曲分句，在基准节奏信息中确定与该作曲分句的排列次序相匹配的原始分句节奏信息作为目标节奏信息，并对该作曲分句进行分词处理，基于分词的结果调整目标节奏信息，以得到该作曲分句对应的歌词节奏信息。

在一个实施例中，第一原始旋律包括至少一个第一原始分句旋律，初始歌词旋律包括各个作曲分句对应的初始分句旋律。基准节奏获取单元包括旋律调整单元。该旋律调整单元用于针对每个作曲分句，在第一原始旋律中确定与该作曲分句的排列次序相匹配的第一原始分句旋律作为基准旋律，并根据该作曲分句的分句字数、基准旋律的音高数量和基准旋律的各个音高信息生成该作曲分句的初始分句旋律。

在一个实施例中，旋律调整单元包括第三音高确定模块和第二旋律确定模块。第三音高确定模块用于若该作曲分句的分句字数大于基准旋律的音高数量，则对该作曲分句进行分词处理以得到各个分词文本，根据预设的旋律填写规则分别确定基准旋律中每个音高信息所对应的分词文本。第二旋律确定模块用于根据各个第一分词文本在该作曲分句中的文本位置和各个第一分词文本对应的音高信息，确定各第二分词文本的旋律信息，以得到该作曲分句的初始分句旋律；其中，第一分词文本为已对应有音高信息的分词文本，第二分词文本为未对应有音高信息的分词文本，每个第二分词文本的旋律信息为音高信息或掩码符号

在一个实施例中，旋律调整单元包括旋律裁剪单元和初始分句旋律确定单元。其中，旋律裁剪单元用于若该作曲分句的分句字数小于基准旋律的音高数量，则根据该作曲分句的分句字数和预设的旋律裁剪规则，对基准旋律的音高信息进行裁剪，以使裁剪后的基准旋律的音高数量等于该作曲分句的分句字数。初始分句旋律确定单元用于将裁剪后的基准旋律作为该作曲分句的初始分句旋律

在一个实施例中，本申请的旋律生成模块还包括第二原始旋律获取模块、第二掩码旋律获取模块和模型训练模块。其中，第二原始旋律获取模块用于获取预先生成的各个第二原始旋律。第二掩码旋律获取模块用于采用多种掩码方式对各个第二原始旋律进行掩码，并得到各个第二掩码旋律。模型训练模块用于以各个第二掩码旋律和每个第二掩码旋律对应的第二原始旋律作为训练集合，对初始预测模型进行模型训练，直至训练完成并得到音高预测模型；其中，初始预测模型用于根据掩码语言模型进行模型预训练。

在一个实施例中，每个第二原始旋律包括至少一个第二原始分句旋律。第二掩码旋律获取模块包括第二掩码单元和乱序单元。其中，第二掩码单元用于采用多种掩码方式对各个第二原始旋律进行掩码，以得到各个第三掩码旋律。乱序单元用于针对每个第三掩码旋律，将该第三掩码旋律中不包含掩码符号的第二原始分句旋律作为目标分句旋律，并将目标分句旋律的各个音高信息进行乱序，以得到第二掩码旋律。

在一个实施例中，本申请还提供了一种存储介质，该存储介质中存储有计算机可读指令，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如任意实施例中旋律生成方法的步骤。

在一个实施例中，本申请还提供了一种计算机设备，所述计算机设备中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如任意实施例中旋律生成方法的步骤。

示意性地，图6为本申请实施例提供的一种计算机设备的内部结构示意图，在一个示例中，该计算机设备可以为服务器。参照图6，计算机设备900包括处理组件902，其进一步包括一个或多个处理器，以及由存储器901所代表的存储器资源，用于存储可由处理组件902的执行的指令，例如应用程序。存储器901中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件902被配置为执行指令，以执行上述任意实施例所述旋律生成方法的步骤。

计算机设备900还可以包括一个电源组件903被配置为执行计算机设备900的电源管理，一个有线或无线网络接口904被配置为将计算机设备900连接到网络，和一个输入输出(I/O)接口905。计算机设备900可以操作基于存储在存储器901的操作系统，例如WindowsServer TM、Mac OS XTM、Unix TM、Linux TM、Free BSDTM或类似。

本领域技术人员可以理解，本申请示出的计算机设备的内部结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本文中，“一”、“一个”、“所述”、“该”和“其”也可以包括复数形式，除非上下文清楚指出另外的方式。多个是指至少两个的情况，如2个、3个、5个或8个等。“和/或”包括相关所列项目的任何及所有组合。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间可以根据需要进行组合，且相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种旋律生成方法，其特征在于，所述方法包括：

将所述目标掩码旋律输入至音高预测模型中，并根据所述音高预测模型输出的音高预测信息生成所述自定义歌词文本对应的最终歌词旋律；其中，所述音高预测模型是基于掩码语言模型进行模型预训练的神经网络模型；

其中，所述按照预设的掩码规则对所述初始歌词旋律的部分音高信息进行掩码，以得到目标掩码旋律的步骤，包括：

获取所述自定义歌词文本对应的伴奏旋律；

按照所述伴奏旋律和预设的乐理规则，分别判断所述初始歌词旋律的每个音高信息是否符合乐理；

将所述初始歌词旋律中不符合乐理的音高信息进行掩码，以得到第一掩码旋律；

基于所述第一掩码旋律生成所述目标掩码旋律；

所述将所述目标掩码旋律输入至音高预测模型中，并根据所述音高预测模型输出的音高预测信息生成所述自定义歌词文本对应的最终歌词旋律的步骤，包括：

根据预设的多种音高推理方式和每种所述音高推理方式对应的选取概率，在多种所述音高推理方式中选取出目标推理方式；

将所述目标掩码旋律输入至所述音高预测模型中，并根据所述目标推理方式和所述音高预测信息生成所述最终歌词旋律。

2.根据权利要求1所述的旋律生成方法，其特征在于，所述基于所述第一掩码旋律生成所述目标掩码旋律的步骤，包括：

计算所述第一掩码旋律的掩码比例；

若所述第一掩码旋律的掩码比例小于预设比例阈值，则根据所述预设比例阈值对所述第一掩码旋律的各个音高信息进行随机掩码，以得到所述目标掩码旋律；

其中，所述目标掩码旋律的掩码比例大于或等于所述预设比例阈值。

3.根据权利要求1所述的旋律生成方法，其特征在于，所述基于所述第一掩码旋律生成所述目标掩码旋律的步骤，包括：

计算所述第一掩码旋律的掩码比例；

若所述第一掩码旋律的掩码比例大于或等于预设比例阈值，则将所述第一掩码旋律作为所述目标掩码旋律。

4.根据权利要求1所述的旋律生成方法，其特征在于，所述音高预测信息包括所述目标掩码旋律中每个掩码符号所对应的各个预测音高概率；

所述将所述目标掩码旋律输入至所述音高预测模型中，并根据所述目标推理方式和所述音高预测信息生成所述最终歌词旋律的步骤，包括：

当所述目标推理方式为一次推理方式时，将所述目标掩码旋律输入至所述音高预测模型中，以得到所述音高预测信息；

针对所述目标掩码旋律中的每个所述掩码符号，确定目标概率阈值，根据所述目标概率阈值，在该掩码符号对应的各个所述预测音高概率中选取出目标音高概率，并将所述目标音高概率对应的音高信息作为该掩码符号对应的音高信息，其中，所述目标音高概率大于或等于所述目标概率阈值；

分别将每个所述掩码符号对应的音高信息填入所述目标掩码旋律中，以得到所述最终歌词旋律。

5.根据权利要求4所述的旋律生成方法，其特征在于，所述根据所述目标概率阈值，在该掩码符号对应的各个所述预测音高概率中选取出目标音高概率的步骤，包括：

在该掩码符号对应的各个所述预测音高概率中，将大于或等于所述目标概率阈值的各个所述预测音高概率作为候选音高概率；

从各个所述候选音高概率中随机选取出所述目标音高概率。

6.根据权利要求1所述的旋律生成方法，其特征在于，所述音高预测信息包括所述目标掩码旋律中每个掩码符号所对应的各个预测音高概率；

当所述目标推理方式为多次推理方式，且所述目标掩码旋律包括至少一个掩码符号时，将所述目标掩码旋律输入至所述音高预测模型中，以得到所述音高预测信息，并确定目标概率阈值，根据所述目标概率阈值，在所述音高预测模型最新输出的所述音高预测信息中选取出N个目标音高概率，且基于N个所述目标音高概率对应的掩码符号位置，分别将N个所述目标音高概率对应的音高信息填入所述目标掩码旋律中，以更新所述目标掩码旋律，直至更新后的所述目标掩码旋律不包括掩码符号并得到所述最终歌词旋律；

其中，每个所述目标音高概率大于或等于所述目标概率阈值，N为预设正整数且小于所述目标掩码旋律的初始掩码符号数量。

7.根据权利要求1至6任一项所述的旋律生成方法，其特征在于，所述根据所述文本信息和预先生成的第一原始旋律，生成所述自定义歌词文本对应的初始歌词旋律的步骤，包括：

基于所述文本信息，生成所述自定义歌词文本对应的歌词节奏信息；

在预先生成的多个第二原始旋律中随机选取出与所述歌词节奏信息相匹配的第二原始旋律作为所述第一原始旋律；

根据所述第一原始旋律生成所述初始歌词旋律。

8.根据权利要求7所述的旋律生成方法，其特征在于，所述文本信息包括所述自定义歌词文本的输入分句数量和文本字数；

所述基于所述文本信息，生成所述自定义歌词文本对应的歌词节奏信息的步骤，包括：

根据所述输入分句数量和所述文本字数，判断所述自定义歌词文本是否满足预设的作曲分句规则；

若不满足所述作曲分句规则，则按照所述作曲分句规则对所述自定义歌词文本进行断句，以得到各个作曲分句；

若满足所述作曲分句规则，则分别将所述自定义歌词文本的各个输入分句作为各个所述作曲分句；

根据各个所述作曲分句的分句信息，对预先生成的多个原始节奏信息进行筛选，以得到基准节奏信息，并基于所述基准节奏信息生成所述歌词节奏信息。

9.根据权利要求8所述的旋律生成方法，其特征在于，所述作曲分句的分句信息包括该作曲分句对应的歌曲结构类型；

所述根据各个所述作曲分句的分句信息，对预先生成的多个原始节奏信息进行筛选，以得到基准节奏信息的步骤，包括：

基于各个所述歌曲结构类型及每个所述歌曲结构类型对应的作曲分句数量，对多个所述原始节奏信息进行筛选，以得到所述基准节奏信息。

10.根据权利要求8所述的旋律生成方法，其特征在于，所述基准节奏信息包括至少一个原始分句节奏信息；

所述基于所述基准节奏信息生成所述歌词节奏信息的步骤，包括：

针对每个所述作曲分句，在所述基准节奏信息中确定与该作曲分句的排列次序相匹配的原始分句节奏信息作为目标节奏信息，并对该作曲分句进行分词处理，基于分词的结果调整所述目标节奏信息，以得到该作曲分句对应的歌词节奏信息。

11.根据权利要求8所述的旋律生成方法，其特征在于，所述第一原始旋律包括至少一个第一原始分句旋律，所述初始歌词旋律包括各个所述作曲分句对应的初始分句旋律；

所述根据所述第一原始旋律生成所述初始歌词旋律的步骤，包括：

针对每个所述作曲分句，在所述第一原始旋律中确定与该作曲分句的排列次序相匹配的第一原始分句旋律作为基准旋律，并根据该作曲分句的分句字数、所述基准旋律的音高数量和所述基准旋律的各个音高信息生成该作曲分句的初始分句旋律。

12.根据权利要求11所述的旋律生成方法，其特征在于，所述根据该作曲分句的分句字数、所述基准旋律的音高数量和所述基准旋律的各个音高信息生成该作曲分句的初始分句旋律的步骤，包括：

若所述该作曲分句的分句字数大于所述基准旋律的音高数量，则对该作曲分句进行分词处理以得到各个分词文本，根据预设的旋律填写规则分别确定所述基准旋律中每个音高信息所对应的分词文本；

根据各个第一分词文本在该作曲分句中的文本位置和各个所述第一分词文本对应的音高信息，确定各第二分词文本的旋律信息，以得到该作曲分句的初始分句旋律；

其中，所述第一分词文本为已对应有音高信息的分词文本，所述第二分词文本为未对应有音高信息的分词文本，每个所述第二分词文本的旋律信息为音高信息或掩码符号。

13.根据权利要求11所述的旋律生成方法，其特征在于，所述根据该作曲分句的分句字数、所述基准旋律的音高数量和所述基准旋律的各个音高信息生成该作曲分句的初始分句旋律的步骤，包括：

将所述裁剪后的基准旋律作为该作曲分句的初始分句旋律。

14.根据权利要求1至6任一项所述的旋律生成方法，其特征在于，获取所述音高预测模型的过程，包括：

获取预先生成的各个第二原始旋律；

15.根据权利要求14所述的旋律生成方法，其特征在于，每个所述第二原始旋律包括至少一个第二原始分句旋律；

所述采用多种掩码方式对各个所述第二原始旋律进行掩码，并得到各个第二掩码旋律的步骤，包括：

采用多种所述掩码方式对各个所述第二原始旋律进行掩码，以得到各个第三掩码旋律；

针对每个所述第三掩码旋律，将该第三掩码旋律中不包含掩码符号的所述第二原始分句旋律作为目标分句旋律，并将所述目标分句旋律的各个音高信息进行乱序，以得到第二掩码旋律。

16.一种旋律生成装置，其特征在于，所述装置包括：

掩码模块，用于按照预设的掩码规则对所述初始歌词旋律的部分音高信息进行掩码，以得到目标掩码旋律；其中，所述掩码模块包括伴奏获取单元、乐理判断单元、第一掩码单元和目标掩码旋律生成单元；所述伴奏获取单元用于获取所述自定义歌词文本对应的伴奏旋律；所述乐理判断单元用于按照所述伴奏旋律和预设的乐理规则，分别判断所述初始歌词旋律的每个音高信息是否符合乐理；所述第一掩码单元用于将所述初始歌词旋律中不符合乐理的音高信息进行掩码，以得到第一掩码旋律；所述目标掩码旋律生成单元用于基于所述第一掩码旋律生成所述目标掩码旋律；

第二歌词旋律生成模块，用于将所述目标掩码旋律输入至音高预测模型中，并根据所述音高预测模型输出的音高预测信息生成所述自定义歌词文本对应的最终歌词旋律；其中，所述音高预测模型是基于掩码语言模型进行模型预训练的神经网络模型；其中，所述第二歌词旋律生成模块包括推理方式选取单元和最终歌词旋律生成单元；所述推理方式选取单元用于根据预设的多种音高推理方式和每种所述音高推理方式对应的选取概率，在多种所述音高推理方式中选取出目标推理方式；所述最终歌词旋律生成单元用于将所述目标掩码旋律输入至所述音高预测模型中，并根据所述目标推理方式和所述音高预测信息生成所述最终歌词旋律。

17.一种存储介质，其特征在于，所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至15中任一项所述旋律生成方法的步骤。

18.一种计算机设备，其特征在于，包括：一个或多个处理器，以及存储器；

所述存储器中存储有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，执行如权利要求1至15中任一项所述旋律生成方法的步骤。