CN117012171A

CN117012171A - 音乐文件生成方法、装置、设备和介质

Info

Publication number: CN117012171A
Application number: CN202211077138.2A
Authority: CN
Inventors: 崔国辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-09-05
Filing date: 2022-09-05
Publication date: 2023-11-07

Abstract

本申请涉及一种音乐文件生成方法、装置、设备和介质，属于人工智能技术领域。方法包括：获取目标主题音乐片段；确定对目标主题音乐片段提取的主题音乐特征；在本轮音乐片段预测过程中，确定本轮的基础音乐片段序列；将主题音乐特征和基础音乐片段序列中各基础音乐片段的基础音乐特征进行融合，基于融合得到的目标音乐特征进行音乐片段预测，得到本轮的预测音乐片段；将本轮的预测音乐片段添加至基础音乐片段序列中，作为下一轮的基础音乐片段序列，将下一轮作为本轮继续迭代进行音乐片段预测；在停止迭代音乐片段预测后，根据各轮的预测音乐片段，生成与目标主题音乐片段的目标主题相符的目标音乐文件。采用本方法可提升音乐的韵律丰富度。

Description

音乐文件生成方法、装置、设备和介质

技术领域

本申请涉及人工智能技术，更涉及音乐生成领域，特别是涉及一种音乐文件生成方法、装置、设备和介质。

背景技术

随着计算机技术的发展，出现了音乐生成技术。通过音乐生成技术，可以为很多业务场景生成不涉及版权问题的音乐文件。比如，通过音乐生成技术可以为自媒体创作者、音乐爱好者或者后期制作人员生成音乐文件，以实现对现有的素材配乐，或者寻找音乐创作的灵感等。传统技术中，通常是利用音乐生成模型随机生成音乐。然而，传统音乐生成方法所生成的音乐中，其各个音乐片段都是随机生成的，从而导致生成的音乐缺乏主题，音乐的韵律不够丰富。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升音乐韵律丰富度的音乐文件生成方法、装置、设备和介质。

第一方面，本申请提供了一种音乐文件生成方法，所述方法包括：

获取目标主题音乐片段；

确定对所述目标主题音乐片段提取的主题音乐特征；

在本轮音乐片段预测过程中，确定本轮的基础音乐片段序列；

将所述主题音乐特征和所述基础音乐片段序列中各基础音乐片段的基础音乐特征进行特征融合，并基于融合得到的目标音乐特征进行音乐片段预测，得到本轮的预测音乐片段；

将所述本轮的预测音乐片段添加至所述基础音乐片段序列中，作为下一轮的基础音乐片段序列，并将下一轮作为本轮继续迭代进行音乐片段预测；

在停止迭代音乐片段预测后，根据各轮的预测音乐片段，生成与所述目标主题音乐片段的目标主题相符的目标音乐文件。

第二方面，本申请提供了一种音乐文件生成装置，所述装置包括：

获取模块，用于获取目标主题音乐片段；

确定模块，用于确定对所述目标主题音乐片段提取的主题音乐特征；在本轮音乐片段预测过程中，确定本轮的基础音乐片段序列；

预测模块，用于将所述主题音乐特征和所述基础音乐片段序列中各基础音乐片段的基础音乐特征进行特征融合，并基于融合得到的目标音乐特征进行音乐片段预测，得到本轮的预测音乐片段；将所述本轮的预测音乐片段添加至所述基础音乐片段序列中，作为下一轮的基础音乐片段序列，并将下一轮作为本轮继续迭代进行音乐片段预测；

生成模块，用于在停止迭代音乐片段预测后，根据各轮的预测音乐片段，生成与所述目标主题音乐片段的目标主题相符的目标音乐文件。

在一个实施例中，所述预测模块还用于针对所述基础音乐片段序列中的每个基础音乐片段，将所述主题音乐特征和所述基础音乐片段的基础音乐特征进行融合，得到与所述基础音乐片段对应的交叉注意力特征；对所述基础音乐片段的基础音乐特征进行特征处理，得到与所述基础音乐片段对应的自注意力特征；根据各所述基础音乐片段分别对应的交叉注意力特征和自注意力特征，生成与所述基础音乐片段序列对应的目标音乐特征；根据所述目标音乐特征进行音乐片段预测，得到本轮的预测音乐片段。

在一个实施例中，所述预测模块还用于将各所述基础音乐片段分别对应的交叉注意力特征进行融合，得到第一融合特征；将各所述基础音乐片段分别对应的自注意力特征进行融合，得到第二融合特征；根据所述第一融合特征和所述第二融合特征，生成与所述基础音乐片段序列对应的目标音乐特征。

在一个实施例中，所述预测模块还用于根据各所述基础音乐片段分别对应的第一屏蔽指示参数，对各所述基础音乐片段分别对应的交叉注意力特征进行过滤处理，并将过滤后的各个交叉注意力特征进行融合，得到第一融合特征；其中，每个基础音乐片段的第一屏蔽指示参数用于指示是否需要屏蔽相应基础音乐片段对应的交叉注意力特征；根据各所述基础音乐片段分别对应的第二屏蔽指示参数，对各所述基础音乐片段分别对应的自注意力特征进行过滤处理，并将过滤后的各个自注意力特征进行融合，得到第二融合特征；其中，每个基础音乐片段的第二屏蔽指示参数用于指示是否需要屏蔽相应基础音乐片段对应的自注意力特征。

在一个实施例中，每轮的音乐片段预测过程包括多次音符预测处理；所述预测模块还用于在本轮的多次音符预测处理的过程中，将所述目标音乐特征作为首次的音符预测参考特征，将首次作为本次，根据本次的音符预测参考特征进行音符预测，得到本次的预测音符；将本次的所述预测音符的音符特征和所述音符预测参考特征进行融合，将融合后得到的特征作为下一次音符预测处理需要使用的音符预测参考特征，并将下一次作为本次继续迭代进行音符预测；在停止迭代音符预测后，根据各次的预测音符生成本轮的预测音乐片段。

在一个实施例中，所述预测音乐片段是通过音乐生成模型预测得到的；所述音乐生成模型包括交叉注意力网络和自注意力网络；所述预测模块还用于将所述主题音乐特征和所述基础音乐片段的基础音乐特征输入至所述交叉注意力网络，以通过所述交叉注意力网络对所述主题音乐特征和所述基础音乐片段的基础音乐特征进行融合，得到与所述基础音乐片段对应的交叉注意力特征；将所述基础音乐片段的基础音乐特征输入至所述自注意力网络，以通过所述自注意力网络对所述基础音乐片段的基础音乐特征进行特征处理，得到与所述基础音乐片段对应的自注意力特征。

在一个实施例中，所述预测音乐片段是通过音乐生成模型预测得到的；所述装置还包括：

训练模块，用于获取至少一个样本音乐片段序列；所述样本音乐片段序列中包括多个第一样本音乐片段；所述样本音乐片段序列中还包括至少一个样本主题音乐片段；所述样本主题音乐片段为所述多个第一样本音乐片段中的至少一个；从所述至少一个样本主题音乐片段中确定目标样本主题音乐片段；确定对所述目标样本主题音乐片段提取的样本主题音乐特征；将所述样本主题音乐特征和所述样本音乐片段序列中各第一样本音乐片段的样本基础音乐特征，输入至待训练的音乐生成模型中，预测得到音乐片段；根据预测得到的所述音乐片段与所述样本音乐片段序列之间的差异，对所述待训练的音乐生成模型进行迭代训练，以得到所述音乐生成模型。

在一个实施例中，所述训练模块还用于获取至少一个样本音乐文件；针对每一个样本音乐文件，将所述样本音乐文件进行分段处理，得到多个第一样本音乐片段；对所述多个第一样本音乐片段进行聚类，得到至少一个候选聚类簇；根据各所述候选聚类簇中的所述第一样本音乐片段的数量，确定从所述至少一个候选聚类簇中确定目标聚类簇；从所述目标聚类簇中选取至少一个所述第一样本音乐片段作为所述样本主题音乐片段。

在一个实施例中，所述训练模块还用于针对每一个样本音乐文件，将所述样本音乐文件进行分段处理，得到多个初始样本音乐片段；针对每一个初始样本音乐片段，将所述初始样本音乐片段中的非旋律音符剔除，得到与所述初始样本音乐片段对应的第一样本音乐片段。

在一个实施例中，所述多个第一样本音乐片段是依据各所述第一样本音乐片段的样本音乐片段特征进行聚类的；所述样本音乐片段特征是通过特征编码模型生成得到；所述训练模块还用于获取训练数据；所述训练数据包括至少一个正例音乐片段对和至少一个负例音乐片段对；所述正例音乐片段对中包括满足相似性接近条件的两个第二样本音乐片段；所述负例音乐片段对中包括满足疏远性条件的两个第二样本音乐片段；分别确定各个所述正例音乐片段对中的两个第二样本音乐片段之间的正例相似度；分别确定各个所述负例音乐片段对中的两个第二样本音乐片段之间的负例相似度；根据各个所述正例音乐片段对分别对应的正例相似度，以及各个所述负例音乐片段对分别对应的负例相似度，确定损失值；根据所述损失值对待训练的特征编码模型进行迭代训练，以得到特征编码模型。

更新模块，用于获取训练得到的音乐生成模型；响应于系数调整操作，对所述音乐生成模型的分布影响系数进行调整，以更新所述音乐生成模型；其中，所述分布影响系数，是对所述音乐生成模型的输出结果的概率分布情况起影响作用的系数。

在一个实施例中，所述获取模块还用于响应于主题音乐上传操作，获取用户上传的目标主题音乐片段；或，响应于主题音乐生成操作，随机生成目标主题音乐片段。

第三方面，本申请提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现本申请各方法实施例中的步骤。

第四方面，本申请提供了一种计算机可读存储介质，存有计算机程序，该计算机程序被处理器执行时实现本申请各方法实施例中的步骤。

第五方面，本申请提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现本申请各方法实施例中的步骤。

上述音乐文件生成方法、装置、设备、介质和计算机程序产品，通过获取目标主题音乐片段，并确定对目标主题音乐片段提取的主题音乐特征。在本轮音乐片段预测过程中，确定本轮的基础音乐片段序列，将主题音乐特征和基础音乐片段序列中各基础音乐片段的基础音乐特征进行特征融合，并基于融合得到的目标音乐特征进行音乐片段预测，得到本轮的预测音乐片段。由于对目标主题音乐片段提取的主题音乐特征可用于表征该目标主题音乐片段的目标主题，因此，该主题音乐特征和各基础音乐特征融合后的目标音乐特征，也具备与目标主题类似的主题，进而，基于该目标音乐特征进行音乐片段预测得到预测音乐片段，也具备与目标主题类似的主题。将本轮的预测音乐片段添加至基础音乐片段序列中，作为下一轮的基础音乐片段序列，并将下一轮作为本轮继续迭代进行音乐片段预测。在停止迭代音乐片段预测后，根据各轮得到的、且与目标主题均具有类似主题的预测音乐片段，可以生成与目标主题音乐片段的目标主题相符的目标音乐文件，从而提升生成音乐的韵律丰富度。

附图说明

图1为一个实施例中音乐文件生成方法的应用环境图；

图2为一个实施例中音乐文件生成方法的流程示意图；

图3为一个实施例中音乐生成的原理示意图；

图4为一个实施例中样本主题音乐片段的获取流程示意图；

图5为一个实施例中特征编码模型的训练流程示意图；

图6为一个实施例中音乐文件生成方法的应用场景示意图；

图7为另一个实施例中音乐文件生成方法的流程示意图；

图8为一个实施例中音乐文件生成装置的结构框图；

图9为一个实施例中计算机设备的内部结构图；

图10为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的音乐文件生成方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他服务器上。其中，终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端102以及服务器104可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

终端102可获取目标主题音乐片段，并确定对目标主题音乐片段提取的主题音乐特征。在本轮音乐片段预测过程中，终端102可确定本轮的基础音乐片段序列，将主题音乐特征和基础音乐片段序列中各基础音乐片段的基础音乐特征进行特征融合，并基于融合得到的目标音乐特征进行音乐片段预测，得到本轮的预测音乐片段。终端102可将本轮的预测音乐片段添加至基础音乐片段序列中，作为下一轮的基础音乐片段序列，并将下一轮作为本轮继续迭代进行音乐片段预测。在停止迭代音乐片段预测后，终端102可根据各轮的预测音乐片段，生成与目标主题音乐片段的目标主题相符的目标音乐文件。

可以理解，终端102可以响应于主题音乐获取操作，获取目标主题音乐片段。终端102也可以从服务器104中获取目标主题音乐片段。终端102还也可以将生成的目标音乐文件发送至服务器104进行存储。本实施例对此不做限定，可以理解，图1中的应用场景仅为示意说明，并不限定于此。

需要说明的是，本申请一些实施例中的音乐文件生成方法使用到了人工智能技术。比如，主题音乐特征和基础音乐特征，则属于使用人工智能技术对目标主题音乐片段进行特征编码得到，以及，预测音乐片段，也属于使用人工智能技术预测得到。

在一个实施例中，如图2所示，提供了一种音乐文件生成方法，该方法可应用于计算机设备，计算机设备可以是终端或服务器，由终端或服务器自身单独执行，也可以通过终端和服务器之间的交互来实现。本实施例以该方法应用于计算机设备为例进行说明，包括以下步骤：

步骤202，获取目标主题音乐片段。

其中，目标主题音乐片段，是音乐生成过程中所参考的、且具有目标主题的音乐片段。主题用于体现音乐片段的风格。可以理解，一首音乐中反复出现的段落可以作为这首音乐的主题。若一首音乐中缺乏主题，则会导致这首音乐的韵律不够丰富。

在一个实施例中，获取目标主题音乐片段，包括以下至少一种处理：响应于主题音乐上传操作，获取用户上传的目标主题音乐片段；响应于主题音乐生成操作，随机生成目标主题音乐片段。

在一个实施例中，计算机设备可提供上传模式和随机生成模式来获取目标主题音乐片段。具体地，用户可从上传模式和随机生成模式中任意选择其中一种模式进行指导音乐生成，在用户选择上传模式的情况下，计算机设备可响应于主题音乐上传操作，获取用户上传的目标主题音乐片段。在用户选择随机生成模式的情况下，计算机设备可响应于主题音乐生成操作，随机生成目标主题音乐片段。

上述实施例中，用户可以上传自己感兴趣的目标主题音乐片段，以使得计算机设备可以基于用户上传的目标主题音乐片段，生成与上传的目标主题音乐片段具有类似风格的音乐，从而实现音乐的个性化生成，提升音乐生成准确率。同时，计算机设备还可以随机生成目标主题音乐片段，并基于随机生成的目标主题音乐片段生成音乐，使得生成的音乐具有更丰富的韵律。

步骤204，确定对目标主题音乐片段提取的主题音乐特征。

其中，主题音乐特征是目标主题音乐片段的音乐特征，可以理解，主题音乐特征可用于表征目标主题音乐片段的目标主题。

具体地，计算机设备可对目标主题音乐片段进行特征编码，以从目标主题音乐片段中提取主题音乐特征。

步骤206，在本轮音乐片段预测过程中，确定本轮的基础音乐片段序列。

其中，本轮的基础音乐片段序列，是本轮音乐片段预测过程中所参考的音乐片段序列。

具体地，每一轮音乐片段预测过程均分别对应有各自的基础音乐片段序列，计算机设备可将每一轮分别作为本轮，在本轮音乐片段预测过程中，计算机设备可确定本轮的基础音乐片段序列。

步骤208，将主题音乐特征和基础音乐片段序列中各基础音乐片段的基础音乐特征进行特征融合，并基于融合得到的目标音乐特征进行音乐片段预测，得到本轮的预测音乐片段。

其中，基础音乐特征是基础音乐片段的音乐特征。目标音乐特征，是主题音乐特征和各基础音乐特征融合后得到的音乐特征。

具体地，基础音乐片段序列中包括至少一个基础音乐片段。计算机设备可分别对各个基础音乐片段进行特征编码，得到各个基础音乐片段分别对应的基础音乐特征。计算机设备可将主题音乐特征和各基础音乐片段分别对应的基础音乐特征进行特征融合，得到融合后的目标音乐特征。计算机设备可基于目标音乐特征进行音乐片段预测，得到本轮的预测音乐片段。

在一个实施例中，针对基础音乐片段序列中的每一个基础音乐片段，计算机设备可将主题音乐特征和该基础音乐片段的基础音乐特征进行融合，得到与该基础音乐片段对应的交叉注意力特征。计算机设备可将各个基础音乐片段分别对应的交叉注意力特征进行融合，得到与基础音乐片段序列对应的目标音乐特征。进而，计算机设备可根据目标音乐特征进行音乐片段预测，得到本轮的预测音乐片段。其中，交叉注意力特征，是主题音乐特征和基础音乐特征融合生成得到的特征。

步骤210，将本轮的预测音乐片段添加至基础音乐片段序列中，作为下一轮的基础音乐片段序列，并将下一轮作为本轮继续迭代进行音乐片段预测。

在一个实施例中，若本轮是音乐片段预测的首轮，则计算机设备可获取初始化的音乐片段序列，并将初始化的音乐片段序列作为本轮的基础音乐片段序列。可以理解，初始化的音乐片段序列中可包括至少一个初始化的音乐片段。

在一个实施例中，若本轮是音乐片段预测的第二轮起的每一轮，则计算机设备可将本轮之前的每一轮音乐片段预测所得到的预测音乐片段，添加至初始化的音乐片段序列中，得到本轮的基础音乐片段序列。

具体地，计算机设备可将本轮的预测音乐片段添加至基础音乐片段序列中，作为下一轮的基础音乐片段序列，并将下一轮作为本轮继续迭代进行音乐片段预测，即，返回将主题音乐特征和基础音乐片段序列中各基础音乐片段的基础音乐特征进行特征融合，并基于融合得到的目标音乐特征进行音乐片段预测，得到本轮的预测音乐片段的步骤以迭代执行，直至满足音乐片段预测迭代停止条件时停止。可以理解，本轮的基础音乐片段序列中包括上一轮的预测音乐片段，以及上一轮的基础音乐片段序列中的各基础音乐片段。

在一个实施例中，音乐片段预测迭代停止条件可以是预测得到的各个预测音乐片段对应的音乐时长达到预设的时长阈值，还可以是音乐片段预测迭代的迭代次数达到预设迭代次数阈值。

步骤212，在停止迭代音乐片段预测后，根据各轮的预测音乐片段，生成与目标主题音乐片段的目标主题相符的目标音乐文件。

其中，目标音乐文件是根据各轮的预测音乐片段生成的音乐文件。与目标主题音乐片段的目标主题相符的目标音乐文件，可以理解为，目标音乐文件的主题与目标主题音乐片段的目标主题具有较高的相似度，即，目标音乐文件的音乐风格与目标主题音乐片段的音乐风格具有较高的相似度。

在一个实施例中，在停止迭代音乐片段预测后，计算机设备可将各轮的预测音乐片段按照生成时间的先后顺序进行拼接，得到与目标主题音乐片段的目标主题相符的目标音乐文件。

在一个实施例中，在停止迭代音乐片段预测后，计算机设备可从各轮的预测音乐片段中选取其中一部分预测音乐片段，并根据选取的预测音乐片段，生成与目标主题音乐片段的目标主题相符的目标音乐文件。

为便于理解，现参考图3进行举例说明，Y为获取得到的目标主题音乐片段，{X0,X1,X2,X3}为基础音乐片段序列，X0，X1，X2，X3分别代表基础音乐片段，X4为某一轮音乐片段预测生成得到的预测音乐片段。可以理解，若X4为本轮的预测音乐片段，则在预测X4的下一个音乐片段的情况下，计算机设备可将X4添加至本轮的基础音乐片段序列，即{X0,X1,X2,X3}中，得到下一轮的基础音乐片段序列{X0,X1,X2,X3,X4}，并将下一轮作为本轮继续迭代进行音乐片段预测。还可以理解，X0可以为上述初始化的音乐片段。

上述音乐文件生成方法中，通过获取目标主题音乐片段，并确定对目标主题音乐片段提取的主题音乐特征。在本轮音乐片段预测过程中，确定本轮的基础音乐片段序列，将主题音乐特征和基础音乐片段序列中各基础音乐片段的基础音乐特征进行特征融合，并基于融合得到的目标音乐特征进行音乐片段预测，得到本轮的预测音乐片段。由于对目标主题音乐片段提取的主题音乐特征可用于表征该目标主题音乐片段的目标主题，因此，该主题音乐特征和各基础音乐特征融合后的目标音乐特征，也具备与目标主题类似的主题，进而，基于该目标音乐特征进行音乐片段预测得到预测音乐片段，也具备与目标主题类似的主题。将本轮的预测音乐片段添加至基础音乐片段序列中，作为下一轮的基础音乐片段序列，并将下一轮作为本轮继续迭代进行音乐片段预测。在停止迭代音乐片段预测后，根据各轮得到的、且与目标主题均具有类似主题的预测音乐片段，可以生成与目标主题音乐片段的目标主题相符的目标音乐文件，从而提升生成音乐的韵律丰富度。

在一个实施例中，将主题音乐特征和基础音乐片段序列中各基础音乐片段的基础音乐特征进行特征融合，并基于融合得到的目标音乐特征进行音乐片段预测，得到本轮的预测音乐片段，包括：针对基础音乐片段序列中的每个基础音乐片段，将主题音乐特征和基础音乐片段的基础音乐特征进行融合，得到与基础音乐片段对应的交叉注意力特征；对基础音乐片段的基础音乐特征进行特征处理，得到与基础音乐片段对应的自注意力特征；根据各基础音乐片段分别对应的交叉注意力特征和自注意力特征，生成与基础音乐片段序列对应的目标音乐特征；根据目标音乐特征进行音乐片段预测，得到本轮的预测音乐片段。

其中，自注意力特征，是对基础音乐特征的自身进行特征处理所得到的特征。

具体地，基础音乐片段序列中包括至少一个基础音乐片段。计算机设备可分别对各个基础音乐片段进行特征编码，得到各个基础音乐片段分别对应的基础音乐特征。针对基础音乐片段序列中的每个基础音乐片段，计算机设备可将主题音乐特征和该基础音乐片段的基础音乐特征进行融合，得到与该基础音乐片段对应的交叉注意力特征。同时，计算机设备可对基础音乐片段的基础音乐特征进行特征处理，得到与基础音乐片段对应的自注意力特征。计算机设备可根据各基础音乐片段分别对应的交叉注意力特征和自注意力特征，生成与基础音乐片段序列对应的目标音乐特征，并根据目标音乐特征进行音乐片段预测，得到本轮的预测音乐片段。

在一个实施例中，计算机设备可将各基础音乐片段分别对应的交叉注意力特征和自注意力特征进行融合，以得到与基础音乐片段序列对应的目标音乐特征。

在一个实施例中，预测音乐片段包括至少一个预测音符。计算机设备可根据目标音乐特征进行音符预测，并根据预测得到的各个预测音符，生成本轮的预测音乐片段。其中，预测音符是进行音符预测处理所生成得到的音符。

在一个实施例中，预测音乐片段是通过音乐生成模型预测得到的。计算机设备可将主题音乐特征和基础音乐片段的基础音乐特征输入至音乐生成模型，以通过音乐生成模型对主题音乐特征和基础音乐片段的基础音乐特征进行融合，得到与基础音乐片段对应的交叉注意力特征。计算机设备可将基础音乐片段的基础音乐特征输入至音乐生成模型，以通过音乐生成模型对基础音乐片段的基础音乐特征进行特征处理，得到与基础音乐片段对应的自注意力特征。其中，音乐生成模型是用于进行音乐生成的神经网络模型。

上述实施例中，通过将主题音乐特征和基础音乐片段的基础音乐特征进行融合，得到与基础音乐片段对应的交叉注意力特征，可使得交叉注意力特征在关注基础音乐片段自身的基础音乐特征的同时，也能关注到主题音乐特征。通过对基础音乐片段的基础音乐特征进行特征处理，得到与基础音乐片段对应的自注意力特征，可使得自注意力特征仅关注基础音乐片段自身的基础音乐特征，进而使得根据交叉注意力特征和自注意力特征生成的目标音乐特征，也可在关注基础音乐片段自身的基础音乐特征的同时，也能关注到主题音乐特征，从而进一步使得本轮的预测音乐片段具备与目标主题类似的主题。

在一个实施例中，根据各基础音乐片段分别对应的交叉注意力特征和自注意力特征，生成与基础音乐片段序列对应的目标音乐特征，包括：将各基础音乐片段分别对应的交叉注意力特征进行融合，得到第一融合特征；将各基础音乐片段分别对应的自注意力特征进行融合，得到第二融合特征；根据第一融合特征和第二融合特征，生成与基础音乐片段序列对应的目标音乐特征。

其中，第一融合特征，是将各基础音乐片段分别对应的交叉注意力特征进行融合所得到的音乐特征。第二融合特征，是将各基础音乐片段分别对应的自注意力特征进行融合所得到的音乐特征。

具体地，计算机设备可将各基础音乐片段分别对应的交叉注意力特征进行融合，得到第一融合特征，并将各基础音乐片段分别对应的自注意力特征进行融合，得到第二融合特征。进而，计算机设备可将第一融合特征和第二融合特征进行融合，得到与基础音乐片段序列对应的目标音乐特征。

在一个实施例中，计算机设备可将各基础音乐片段分别对应的交叉注意力特征进行累加处理，得到第一融合特征。同时，计算机设备可将各基础音乐片段分别对应的自注意力特征进行累加处理，得到第二融合特征。进而，计算机设备可将第一融合特征和第二融合特征进行相加，得到与基础音乐片段序列对应的目标音乐特征。

上述实施例中，将各基础音乐片段分别对应的交叉注意力特征进行融合，得到第一融合特征，同时，将各基础音乐片段分别对应的自注意力特征进行融合，得到第二融合特征，可使得本轮的音乐片段预测可参考在先轮次对应的预测音乐片段的特征信息，从而提升本轮的目标音乐特征的准确率。

在一个实施例中，将各基础音乐片段分别对应的交叉注意力特征进行融合，得到第一融合特征，包括：根据各基础音乐片段分别对应的第一屏蔽指示参数，对各基础音乐片段分别对应的交叉注意力特征进行过滤处理，并将过滤后的各个交叉注意力特征进行融合，得到第一融合特征；其中，每个基础音乐片段的第一屏蔽指示参数用于指示是否需要屏蔽相应基础音乐片段对应的交叉注意力特征；将各基础音乐片段分别对应的自注意力特征进行融合，得到第二融合特征，包括：根据各基础音乐片段分别对应的第二屏蔽指示参数，对各基础音乐片段分别对应的自注意力特征进行过滤处理，并将过滤后的各个自注意力特征进行融合，得到第二融合特征；其中，每个基础音乐片段的第二屏蔽指示参数用于指示是否需要屏蔽相应基础音乐片段对应的自注意力特征。

在一个实施例中，同一个基础音乐片段对应的第一屏蔽指示参数和第二屏蔽指示参数满足参数相反条件。其中，参数相反条件，是指同一个基础音乐片段对应的第一屏蔽指示参数和第二屏蔽指示参数之和为1。比如，针对基础音乐片段X，该基础音乐片段X对应的第一屏蔽指示参数为1，则该基础音乐片段X对应的第二屏蔽指示参数为0。

具体地，计算机设备可获取各基础音乐片段分别对应的第一屏蔽指示参数和第二屏蔽指示参数。计算机设备可根据各基础音乐片段分别对应的第一屏蔽指示参数，对各基础音乐片段分别对应的交叉注意力特征进行过滤处理，并将过滤后的各个交叉注意力特征进行融合，得到第一融合特征。计算机设备可根据各基础音乐片段分别对应的第二屏蔽指示参数，对各基础音乐片段分别对应的自注意力特征进行过滤处理，并将过滤后的各个自注意力特征进行融合，得到第二融合特征。

在一个实施例中，针对基础音乐片段序列中的每一个基础音乐片段，计算机设备可响应于参数赋值操作，获取用户对该基础音乐片段的进行赋值后的参数，分别得到该基础音乐片段对应的第一屏蔽指示参数和第二屏蔽指示参数。这样，可进一步控制本轮生成的预测音乐片段与目标主题音乐片段的相关程度，从而实现目标音乐文件的个性化生成。

在一个实施例中，计算机设备可将各基础音乐片段分别对应的第一屏蔽指示参数，分别与各基础音乐片段分别对应的交叉注意力特征进行相乘运算，并将相乘后的各个交叉注意力特征进行相加运算，得到第一融合特征。计算机设备可将各基础音乐片段分别对应的第二屏蔽指示参数，分别与各基础音乐片段分别对应的自注意力特征进行相乘运算，并将相乘后的各个自注意力特征进行相加运算，得到第二融合特征。

在一个实施例中，第一融合特征可通过以下公式表示：

∑_i(mask*cross_attention)，

其中，i表示基础音乐片段的数量，mask表示第一屏蔽指示参数，cross_attention表示交叉注意力特征。

在一个实施例中，第二融合特征可通过以下公式表示：

其中，i表示基础音乐片段的数量，表示第二屏蔽指示参数，self_attention表示自注意力特征。

在一个实施例中，参考图3所示，基础音乐片段序列{X0,X1,X2,X3}中各个基础音乐片段分别对应的第一屏蔽指示参数分别为1,1,0,1。基础音乐片段序列{X0,X1,X2,X3}中各个基础音乐片段分别对应的第二屏蔽指示参数分别为0,0,1,0。

上述实施例中，根据各基础音乐片段分别对应的第一屏蔽指示参数，对各基础音乐片段分别对应的交叉注意力特征进行过滤处理，从而可控制在预测音乐片段时对主题音乐特征的关注程度。根据各基础音乐片段分别对应的第二屏蔽指示参数，对各基础音乐片段分别对应的自注意力特征进行过滤处理，从而可控制在预测音乐片段时对基础音乐特征的关注程度，从而提升音乐片段预测的准确性。

在一个实施例中，每轮的音乐片段预测过程包括多次音符预测处理；根据目标音乐特征进行音乐片段预测，得到本轮的预测音乐片段，包括：在本轮的多次音符预测处理的过程中，将目标音乐特征作为首次的音符预测参考特征，将首次作为本次，根据本次的音符预测参考特征进行音符预测，得到本次的预测音符；将本次的预测音符的音符特征和音符预测参考特征进行融合，将融合后得到的特征作为下一次音符预测处理需要使用的音符预测参考特征，并将下一次作为本次继续迭代进行音符预测；在停止迭代音符预测后，根据各次的预测音符生成本轮的预测音乐片段。

其中，音符预测参考特征，是音符预测处理的过程中所参考的音乐特征。

具体地，每轮的音乐片段预测过程包括多次音符预测处理。在本轮的多次音符预测处理的过程中，计算机设备可将目标音乐特征作为首次的音符预测参考特征，将首次作为本次，并根据本次的音符预测参考特征进行音符预测，得到本次的预测音符。计算机设备可将本次的预测音符的音符特征和音符预测参考特征进行融合，将融合后得到的特征作为下一次音符预测处理需要使用的音符预测参考特征，并将下一次作为本次继续迭代进行音符预测。在停止迭代音符预测后，计算机设备可根据各次的预测音符生成本轮的预测音乐片段。

上述实施例中，在每一次音符预测处理的过程中，均考虑在先轮次的预测音符的音符特征，可提升预测音符的准确率，从而进一步提升生成音乐的韵律丰富度。

在一个实施例中，预测音乐片段是通过音乐生成模型预测得到的；音乐生成模型包括交叉注意力网络和自注意力网络；将主题音乐特征和基础音乐片段的基础音乐特征进行融合，得到与基础音乐片段对应的交叉注意力特征，包括：将主题音乐特征和基础音乐片段的基础音乐特征输入至交叉注意力网络，以通过交叉注意力网络对主题音乐特征和基础音乐片段的基础音乐特征进行融合，得到与基础音乐片段对应的交叉注意力特征；对基础音乐片段的基础音乐特征进行特征处理，得到与基础音乐片段对应的自注意力特征，包括：将基础音乐片段的基础音乐特征输入至自注意力网络，以通过自注意力网络对基础音乐片段的基础音乐特征进行特征处理，得到与基础音乐片段对应的自注意力特征。

其中，交叉注意力网络，是用于同时关注主题音乐特征和基础音乐特征的神经网络。自注意力网络，是用于关注基础音乐特征自身的神经网络。

具体地，预测音乐片段是通过音乐生成模型预测得到的，音乐生成模型包括交叉注意力网络和自注意力网络。计算机设备可将主题音乐特征和基础音乐片段的基础音乐特征输入至交叉注意力网络，以通过交叉注意力网络对主题音乐特征和基础音乐片段的基础音乐特征进行融合，得到与基础音乐片段对应的交叉注意力特征。同时，计算机设备可将基础音乐片段的基础音乐特征输入至自注意力网络，以通过自注意力网络对基础音乐片段的基础音乐特征进行特征处理，得到与基础音乐片段对应的自注意力特征。

在一个实施例中，参考图3所示，音乐生成模型包括交叉注意力网络和自注意力网络，还包括编码网络、融合网络和预测网络。编码网络用于对目标主题音乐片段进行特别编码，得到主题音乐特征。交叉注意力网络用于对主题音乐特征和基础音乐片段的基础音乐特征进行融合，得到与基础音乐片段对应的交叉注意力特征。自注意力网络用于对基础音乐片段的基础音乐特征进行特征处理，得到与基础音乐片段对应的自注意力特征。可以理解，计算机设备可将各基础音乐片段分别对应的交叉注意力特征进行融合，得到第一融合特征，将各基础音乐片段分别对应的自注意力特征进行融合，得到第二融合特征。融合网络用于对第一融合特征和第二融合特征进行再次融合，得到与基础音乐片段序列对应的目标音乐特征。预测网络用于基于目标音乐特征进行音乐片段预测。

上述实施例中，通过交叉注意力网络对主题音乐特征和基础音乐片段的基础音乐特征进行融合，得到与基础音乐片段对应的交叉注意力特征，可提升交叉注意力特征的生成准确率。通过自注意力网络对基础音乐片段的基础音乐特征进行特征处理，得到与基础音乐片段对应的自注意力特征，可提升自注意力特征的生成准确率，从而进一步提升生成音乐的韵律丰富度。

在一个实施例中，预测音乐片段是通过音乐生成模型预测得到的；方法还包括：获取至少一个样本音乐片段序列；样本音乐片段序列中包括多个第一样本音乐片段；样本音乐片段序列中还包括至少一个样本主题音乐片段；样本主题音乐片段为多个第一样本音乐片段中的至少一个；从至少一个样本主题音乐片段中确定目标样本主题音乐片段；确定对目标样本主题音乐片段提取的样本主题音乐特征；将样本主题音乐特征和样本音乐片段序列中各第一样本音乐片段的样本基础音乐特征，输入至待训练的音乐生成模型中，预测得到音乐片段；根据预测得到的音乐片段与样本音乐片段序列之间的差异，对待训练的音乐生成模型进行迭代训练，以得到音乐生成模型。

其中，样本音乐片段序列，是用于训练音乐生成模型的音乐片段序列。第一样本音乐片段，是用于训练音乐生成模型的音乐片段。样本主题音乐片段，是具有样本主题的第一样本音乐片段。目标样本主题音乐片段，是在训练音乐生成模型过程中所参考的主题音乐片段。样本主题音乐特征，是目标样本主题音乐片段的音乐特征。样本基础音乐特征，是第一样本音乐片段的音乐特征。

具体地，计算机设备可获取至少一个包括多个第一样本音乐片段的样本音乐片段序列，多个第一样本音乐片段中包括至少一个样本主题音乐片段。计算机设备可从至少一个样本主题音乐片段中选取一个目标样本主题音乐片段。计算机设备可对目标样本主题音乐片段进行特征编码，得到目标样本主题音乐片段的样本主题音乐特征。计算机设备可对第一样本音乐片段进行特征编码，得到第一样本音乐片段的样本基础音乐特征，并将样本主题音乐特征和样本音乐片段序列中各第一样本音乐片段的样本基础音乐特征，输入至待训练的音乐生成模型中，预测得到音乐片段。进而，计算机设备可根据预测得到的音乐片段与样本音乐片段序列之间的差异，确定针对音乐生成模型训练的损失值，并根据该损失值，对待训练的音乐生成模型进行迭代训练，以得到音乐生成模型。

在一个实施例中，计算机设备可获取至少一个样本音乐文件，针对每一个样本音乐文件，计算机设备可按照音乐的节拍将该样本音乐文件进行分段处理(比如，每两小节作为一段)，得到多个第一样本音乐片段。针对每一个样本音乐文件，计算机设备可从该样本音乐文件对应的多个第一样本音乐片段中，确定出至少一个样本主题音乐片段。其中，样本音乐文件，是用于训练音乐生成模型的音乐文件。

上述实施例中，将样本主题音乐特征和样本音乐片段序列中各第一样本音乐片段的样本基础音乐特征，输入至待训练的音乐生成模型中，预测得到音乐片段，根据预测得到的音乐片段与样本音乐片段序列之间的差异，对待训练的音乐生成模型进行迭代训练，可以提升已训练的音乐生成模型的音乐预测准确率，从而进一步提升生成音乐的韵律丰富度。

在一个实施例中，获取至少一个样本音乐片段序列，包括：获取至少一个样本音乐文件；针对每一个样本音乐文件，将样本音乐文件进行分段处理，得到多个第一样本音乐片段；对多个第一样本音乐片段进行聚类，得到至少一个候选聚类簇；根据各候选聚类簇中的第一样本音乐片段的数量，确定从至少一个候选聚类簇中确定目标聚类簇；从目标聚类簇中选取至少一个第一样本音乐片段作为样本主题音乐片段。

其中，候选聚类簇，是确定样本主题音乐片段过程中作为候选的聚类簇。目标聚类簇，是确定样本主题音乐片段过程中作为目标的聚类簇。

具体地，计算机设备可获取至少一个样本音乐文件，针对每一个样本音乐文件，计算机设备可按照音乐的节拍将样本音乐文件进行分段处理(比如，每两小节作为一段)，得到多个第一样本音乐片段。计算机设备可对多个第一样本音乐片段进行聚类分析，得到至少一个候选聚类簇。计算机设备可确定各候选聚类簇中第一样本音乐片段的数量，并根据各候选聚类簇中的第一样本音乐片段的数量，确定从至少一个候选聚类簇中确定至少一个目标聚类簇。计算机设备可从目标聚类簇中选取至少一个第一样本音乐片段作为样本主题音乐片段。

在一个实施例中，针对每一个样本音乐文件，计算机设备可将样本音乐文件进行分段处理，并将分段后得到的音乐片段直接作为该样本音乐文件对应的第一样本音乐片段。

在一个实施例中，计算机设备可对各第一样本音乐片段进行特征编码，得到各第一样本音乐片段分别对应的样本音乐片段特征。进而，计算机设备可根据各第一样本音乐片段分别对应的样本音乐片段特征，对上述多个第一样本音乐片段进行聚类，得到至少一个候选聚类簇。

上述实施例中，通过对多个第一样本音乐片段进行聚类，得到至少一个候选聚类簇，根据各候选聚类簇中的第一样本音乐片段的数量，确定从至少一个候选聚类簇中确定目标聚类簇，并从目标聚类簇中自动选取至少一个第一样本音乐片段作为样本主题音乐片段，可以提升样本主题音乐片段的获取效率。

在一个实施例中，针对每一个样本音乐文件，将样本音乐文件进行分段处理，得到多个第一样本音乐片段，包括：针对每一个样本音乐文件，将样本音乐文件进行分段处理，得到多个初始样本音乐片段；针对每一个初始样本音乐片段，将初始样本音乐片段中的非旋律音符剔除，得到与初始样本音乐片段对应的第一样本音乐片段。

其中，初始样本音乐片段，是将样本音乐文件进行分段处理所得到的音乐片段。非旋律音符，是与音乐旋律无关的音符。可以理解，旋律音符则是与音乐旋律紧密相关的音符。

具体地，针对每一个样本音乐文件，计算机设备可按照音乐的节拍将样本音乐文件进行分段处理(比如，每两小节作为一段)，得到多个初始样本音乐片段。针对每一个初始样本音乐片段，计算机设备可识别出该初始样本音乐片段中的非旋律音符，并将初始样本音乐片段中的非旋律音符剔除，得到与初始样本音乐片段对应的第一样本音乐片段。

在一个实施例中，参考图4所示，计算机设备可获取样本音乐文件，并将样本音乐文件进行分段处理，得到多个初始样本音乐片段。针对每一个初始样本音乐片段，计算机设备可将初始样本音乐片段中的非旋律音符剔除，得到与初始样本音乐片段对应的第一样本音乐片段。计算机设备可对第一样本音乐片段进行编码，得到第一样本音乐片段特征，并基于第一样本音乐片段特征，对多个第一样本音乐片段进行聚类，得到至少一个候选聚类簇，根据各候选聚类簇中的第一样本音乐片段的数量，确定从至少一个候选聚类簇中确定目标聚类簇，并从目标聚类簇中选取至少一个第一样本音乐片段作为样本主题音乐片段。

上述实施例中，通过将初始样本音乐片段中的非旋律音符剔除，得到与初始样本音乐片段对应的第一样本音乐片段，可以使得每一个第一样本音乐片段中均包括旋律音符。由于主题通常与旋律音符具有紧密联系，因此，剔除初始样本音乐片段中的非旋律音符，可提升样本主题音乐片段的获取准确率。

在一个实施例中，多个第一样本音乐片段是依据各第一样本音乐片段的样本音乐片段特征进行聚类的；样本音乐片段特征是通过特征编码模型生成得到；方法还包括：获取训练数据；训练数据包括至少一个正例音乐片段对和至少一个负例音乐片段对；正例音乐片段对中包括满足相似性接近条件的两个第二样本音乐片段；负例音乐片段对中包括满足疏远性条件的两个第二样本音乐片段；分别确定各个正例音乐片段对中的两个第二样本音乐片段之间的正例相似度；分别确定各个负例音乐片段对中的两个第二样本音乐片段之间的负例相似度；根据各个正例音乐片段对分别对应的正例相似度，以及各个负例音乐片段对分别对应的负例相似度，确定损失值；根据损失值对待训练的特征编码模型进行迭代训练，以得到特征编码模型。

其中，特征编码模型，是用于对样本音乐片段特征进行特征编码的神经网络模型。训练数据，是用于训练特征编码模型的数据。第二样本音乐片段，是用于训练特征编码模型的音乐片段。正例相似度，是正例音乐片段对中的两个第二样本音乐片段之间的相似度。负例相似度，是负例音乐片段对中的两个第二样本音乐片段之间的相似度。

在一个实施例中，相似性接近条件可以是正例音乐片段对中两个第二样本音乐片段之间的相似度大于或等于预设的相似度阈值，也可以是正例音乐片段对中两个第二样本音乐片段之间的相似度落在预设的相似度范围之内。相似性疏远性条件可以是负例音乐片段对中两个第二样本音乐片段之间的相似度小于预设的相似度阈值。

具体地，多个第一样本音乐片段是依据各第一样本音乐片段的样本音乐片段特征进行聚类的；样本音乐片段特征是通过特征编码模型生成得到；方法还包括：获取训练数据；训练数据包括至少一个正例音乐片段对和至少一个负例音乐片段对；正例音乐片段对中包括满足相似性接近条件的两个第二样本音乐片段；负例音乐片段对中包括满足疏远性条件的两个第二样本音乐片段；分别确定各个正例音乐片段对中的两个第二样本音乐片段之间的正例相似度；分别确定各个负例音乐片段对中的两个第二样本音乐片段之间的负例相似度；根据各个正例音乐片段对分别对应的正例相似度，以及各个负例音乐片段对分别对应的负例相似度，确定损失值；根据损失值对待训练的特征编码模型进行迭代训练，以得到特征编码模型。

在一个实施例中，计算机设备可根据各个正例音乐片段对分别对应的正例相似度，确定第一参数。计算机设备可根据各个正例音乐片段对分别对应的正例相似度，以及各个负例音乐片段对分别对应的负例相似度，确定第二参数。进而，计算机设备可根据第一参数和第二参数，确定损失值。

在一个实施例中，用于训练特征编码模型的损失值可通过以下损失函数确定得到：

其中，Z_i和Z_j表示满足相似性接近条件的两个第二样本音乐片段，(Z_i,Z_j)表示正例音乐片段对，Z_i和Z_k表示满足疏远性条件的两个第二样本音乐片段，(Z_i,Z_k)表示正例音乐片段对和负例音乐片段对，α为常数。Loss表示损失值。

在一个实施例中，计算机设备可获取至少一个样本音乐文件，计算机设备可将样本音乐文件进行分段处理，得到多个原始的样本音乐片段。计算机设备可对原始的样本音乐片段进行数据增广处理，得到增广的样本音乐片段。进而，计算机设备可通过原始的样本音乐片段和增广的样本音乐片段，生成正例音乐片段对和负例音乐片段对。其中，对原始的样本音乐片段进行数据增广处理，具体可包括对原始的样本音乐片段进行调整音高、调整音符持续时长和拆分音符等中的至少一种处理。

举例说明，原始的样本音乐片段包括a和b，对a进行数据增广处理得到增广的样本音乐片段a1，对b进行数据增广处理得到增广的样本音乐片段b1，则正例音乐片段对可以包括(a，a1)和(b，b1)，负例音乐片段对可以包括(a，b)、(a，b1)和(b，a1)。

在一个实施例中，参考图5所示，计算机设备可获取样本音乐文件，并将样本音乐文件进行分段处理，得到多个初始样本音乐片段。针对每一个初始样本音乐片段，计算机设备可将初始样本音乐片段中的非旋律音符剔除，得到与初始样本音乐片段对应的样本音乐片段。计算机设备将样本音乐片段进行数据增广处理，并根据增广后的样本音乐片段确定损失值，并通过损失值对特征编码模型进行迭代训练。

上述实施例中，通过包括正例音乐片段对和负例音乐片段对的训练数据对特征编码模型进行训练，可以使得正例音乐片段对中的第二样本音乐片段编码越来越相似，同时，使得负例音乐片段对中的第二样本音乐片段编码越来越疏远，从而提升特征编码模型的编码准确率。

在一个实施例中，预测音乐片段是通过音乐生成模型预测得到的；方法还包括：获取训练得到的音乐生成模型；响应于系数调整操作，对音乐生成模型的分布影响系数进行调整，以更新音乐生成模型；其中，分布影响系数，是对音乐生成模型的输出结果的概率分布情况起影响作用的系数。

其中，分布影响系数，是对音乐生成模型的输出结果的概率分布情况起影响作用的系数。可以理解，分布影响系数可以影响生成的音乐的丰富度，比如，调整分布影响系数，可以使得生成的音乐的节奏平缓，也可使得生成的音乐的节奏抑扬顿挫。

具体地，预测音乐片段是通过音乐生成模型预测得到的。计算机设备可获取训练得到的音乐生成模型，并响应于系数调整操作，对音乐生成模型的分布影响系数进行调整，以更新音乐生成模型。可以理解，通过更新后的音乐生成模型进行音乐片段预测，可以改变生成的音乐的丰富度。

上述实施例中，通过响应于系数调整操作，对音乐生成模型的分布影响系数进行调整，可以更新音乐生成模型，从而可灵活便捷地调整生成的音乐的丰富度。

在一个实施例中，参考图6所示，计算机设备可提供上传模式和随机生成模式来获取目标主题音乐片段。具体地，用户可从上传模式和随机生成模式中任意选择其中一种模式进行指导音乐生成，在用户选择上传模式的情况下，计算机设备可响应于主题音乐上传操作，获取用户上传的目标主题音乐片段。在用户选择随机生成模式的情况下，计算机设备可响应于主题音乐生成操作，随机生成目标主题音乐片段。进而，计算机设备可基于目标主题音乐片段生成目标音乐文件，并可选择音乐的音频输出格式，比如可输出mp3(MovingPicture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)格式或输出midi(Musical Instrument Digital Interface，音乐设备数字接口)格式。此外，计算机设备还可基于采样接口进行系数调整，响应于系数调整操作，对音乐生成模型的分布影响系数进行调整，以更新音乐生成模型。可以理解，通过更新后的音乐生成模型进行音乐片段预测，可以改变生成的音乐的丰富度。

如图7所示，在一个实施例中，提供了一种音乐文件生成方法，该方法可应用于计算机设备，计算机设备可以是终端或服务器，由终端或服务器自身单独执行，也可以通过终端和服务器之间的交互来实现。本实施例以该方法应用于计算机设备为例进行说明，该方法具体包括以下步骤：

步骤702，响应于主题音乐上传操作，获取用户上传的目标主题音乐片段；或，响应于主题音乐生成操作，随机生成目标主题音乐片段。

步骤704，确定对目标主题音乐片段提取的主题音乐特征。

步骤706，在本轮音乐片段预测过程中，确定本轮的基础音乐片段序列。

步骤708，针对基础音乐片段序列中的每个基础音乐片段，将主题音乐特征和基础音乐片段的基础音乐特征输入至音乐生成模型的交叉注意力网络，以通过交叉注意力网络对主题音乐特征和基础音乐片段的基础音乐特征进行融合，得到与基础音乐片段对应的交叉注意力特征。

步骤710，将基础音乐片段的基础音乐特征输入至音乐生成模型的自注意力网络，以通过自注意力网络对基础音乐片段的基础音乐特征进行特征处理，得到与基础音乐片段对应的自注意力特征。

步骤712，根据各基础音乐片段分别对应的第一屏蔽指示参数，对各基础音乐片段分别对应的交叉注意力特征进行过滤处理，并将过滤后的各个交叉注意力特征进行融合，得到第一融合特征；其中，每个基础音乐片段的第一屏蔽指示参数用于指示是否需要屏蔽相应基础音乐片段对应的交叉注意力特征。

步骤714，根据各基础音乐片段分别对应的第二屏蔽指示参数，对各基础音乐片段分别对应的自注意力特征进行过滤处理，并将过滤后的各个自注意力特征进行融合，得到第二融合特征；其中，每个基础音乐片段的第二屏蔽指示参数用于指示是否需要屏蔽相应基础音乐片段对应的自注意力特征。

步骤716，根据第一融合特征和第二融合特征，生成与基础音乐片段序列对应的目标音乐特征。

步骤718，在本轮的多次音符预测处理的过程中，将目标音乐特征作为首次的音符预测参考特征，将首次作为本次，根据本次的音符预测参考特征进行音符预测，得到本次的预测音符。

步骤720，将本次的预测音符的音符特征和音符预测参考特征进行融合，将融合后得到的特征作为下一次音符预测处理需要使用的音符预测参考特征，并将下一次作为本次继续迭代进行音符预测。

步骤722，在停止迭代音符预测后，根据各次的预测音符生成本轮的预测音乐片段。

步骤724，将本轮的预测音乐片段添加至基础音乐片段序列中，作为下一轮的基础音乐片段序列，并将下一轮作为本轮继续迭代进行音乐片段预测。

步骤726，在停止迭代音乐片段预测后，根据各轮的预测音乐片段，生成与目标主题音乐片段的目标主题相符的目标音乐文件。

本申请还提供一种应用场景，该应用场景应用上述的音乐文件生成方法。具体地，该音乐文件生成方法可应用于基于midi格式的主题音乐片段来生成音乐的场景。计算机设备可响应于主题音乐上传操作，获取用户上传的midi格式的目标主题音乐片段；或，响应于主题音乐生成操作，随机生成midi格式的目标主题音乐片段。确定对midi格式的目标主题音乐片段提取的主题音乐特征。在本轮音乐片段预测过程中，确定本轮的基础音乐片段序列。针对基础音乐片段序列中的每个基础音乐片段，将主题音乐特征和基础音乐片段的基础音乐特征输入至音乐生成模型的交叉注意力网络，以通过交叉注意力网络对主题音乐特征和基础音乐片段的基础音乐特征进行融合，得到与基础音乐片段对应的交叉注意力特征。将基础音乐片段的基础音乐特征输入至音乐生成模型的自注意力网络，以通过自注意力网络对基础音乐片段的基础音乐特征进行特征处理，得到与基础音乐片段对应的自注意力特征。

计算机设备可根据各基础音乐片段分别对应的第一屏蔽指示参数，对各基础音乐片段分别对应的交叉注意力特征进行过滤处理，并将过滤后的各个交叉注意力特征进行融合，得到第一融合特征；其中，每个基础音乐片段的第一屏蔽指示参数用于指示是否需要屏蔽相应基础音乐片段对应的交叉注意力特征。根据各基础音乐片段分别对应的第二屏蔽指示参数，对各基础音乐片段分别对应的自注意力特征进行过滤处理，并将过滤后的各个自注意力特征进行融合，得到第二融合特征；其中，每个基础音乐片段的第二屏蔽指示参数用于指示是否需要屏蔽相应基础音乐片段对应的自注意力特征。计算机设备可根据第一融合特征和第二融合特征，生成与基础音乐片段序列对应的目标音乐特征。在本轮的多次音符预测处理的过程中，将目标音乐特征作为首次的音符预测参考特征，将首次作为本次，根据本次的音符预测参考特征进行音符预测，得到本次的预测音符。

计算机设备可将本次的预测音符的音符特征和音符预测参考特征进行融合，将融合后得到的特征作为下一次音符预测处理需要使用的音符预测参考特征，并将下一次作为本次继续迭代进行音符预测。在停止迭代音符预测后，根据各次的预测音符生成本轮的预测音乐片段。将本轮的预测音乐片段添加至基础音乐片段序列中，作为下一轮的基础音乐片段序列，并将下一轮作为本轮继续迭代进行音乐片段预测。在停止迭代音乐片段预测后，根据各轮的预测音乐片段，生成与midi格式的目标主题音乐片段的目标主题相符的目标音乐文件。

本申请还另外提供一种应用场景，该应用场景应用上述的音乐文件生成方法。具体地，该音乐文件生成方法可应用于基于mp3格式、wma(Windows Media Audio，微软音频格式)格式或flac(Free Lossless Audio Codec，无损音频压缩编码)格式的主题音乐片段来生成音乐的场景。可以理解，针对基于mp3格式的主题音乐片段来生成音乐的场景，计算机设备可基于mp3格式的目标主题音乐片段来生成目标音乐文件。针对基于wma格式的主题音乐片段来生成音乐的场景，计算机设备可基于wma格式的目标主题音乐片段来生成目标音乐文件。针对基于flac格式的主题音乐片段来生成音乐的场景，计算机设备可基于flac格式的目标主题音乐片段来生成目标音乐文件。

应该理解的是，虽然上述各实施例的流程图中的各个步骤按照顺序依次显示，但是这些步骤并不是必然按照顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种音乐文件生成装置800，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：

获取模块802，用于获取目标主题音乐片段。

确定模块804，用于确定对目标主题音乐片段提取的主题音乐特征；在本轮音乐片段预测过程中，确定本轮的基础音乐片段序列。

预测模块806，用于将主题音乐特征和基础音乐片段序列中各基础音乐片段的基础音乐特征进行特征融合，并基于融合得到的目标音乐特征进行音乐片段预测，得到本轮的预测音乐片段；将本轮的预测音乐片段添加至基础音乐片段序列中，作为下一轮的基础音乐片段序列，并将下一轮作为本轮继续迭代进行音乐片段预测。

生成模块808，用于在停止迭代音乐片段预测后，根据各轮的预测音乐片段，生成与目标主题音乐片段的目标主题相符的目标音乐文件。

在一个实施例中，预测模块806还用于针对基础音乐片段序列中的每个基础音乐片段，将主题音乐特征和基础音乐片段的基础音乐特征进行融合，得到与基础音乐片段对应的交叉注意力特征；对基础音乐片段的基础音乐特征进行特征处理，得到与基础音乐片段对应的自注意力特征；根据各基础音乐片段分别对应的交叉注意力特征和自注意力特征，生成与基础音乐片段序列对应的目标音乐特征；根据目标音乐特征进行音乐片段预测，得到本轮的预测音乐片段。

在一个实施例中，预测模块806还用于将各基础音乐片段分别对应的交叉注意力特征进行融合，得到第一融合特征；将各基础音乐片段分别对应的自注意力特征进行融合，得到第二融合特征；根据第一融合特征和第二融合特征，生成与基础音乐片段序列对应的目标音乐特征。

在一个实施例中，预测模块806还用于根据各基础音乐片段分别对应的第一屏蔽指示参数，对各基础音乐片段分别对应的交叉注意力特征进行过滤处理，并将过滤后的各个交叉注意力特征进行融合，得到第一融合特征；其中，每个基础音乐片段的第一屏蔽指示参数用于指示是否需要屏蔽相应基础音乐片段对应的交叉注意力特征；根据各基础音乐片段分别对应的第二屏蔽指示参数，对各基础音乐片段分别对应的自注意力特征进行过滤处理，并将过滤后的各个自注意力特征进行融合，得到第二融合特征；其中，每个基础音乐片段的第二屏蔽指示参数用于指示是否需要屏蔽相应基础音乐片段对应的自注意力特征。

在一个实施例中，每轮的音乐片段预测过程包括多次音符预测处理；预测模块806还用于在本轮的多次音符预测处理的过程中，将目标音乐特征作为首次的音符预测参考特征，将首次作为本次，根据本次的音符预测参考特征进行音符预测，得到本次的预测音符；将本次的预测音符的音符特征和音符预测参考特征进行融合，将融合后得到的特征作为下一次音符预测处理需要使用的音符预测参考特征，并将下一次作为本次继续迭代进行音符预测；在停止迭代音符预测后，根据各次的预测音符生成本轮的预测音乐片段。

在一个实施例中，预测音乐片段是通过音乐生成模型预测得到的；音乐生成模型包括交叉注意力网络和自注意力网络；预测模块806还用于将主题音乐特征和基础音乐片段的基础音乐特征输入至交叉注意力网络，以通过交叉注意力网络对主题音乐特征和基础音乐片段的基础音乐特征进行融合，得到与基础音乐片段对应的交叉注意力特征；将基础音乐片段的基础音乐特征输入至自注意力网络，以通过自注意力网络对基础音乐片段的基础音乐特征进行特征处理，得到与基础音乐片段对应的自注意力特征。

在一个实施例中，预测音乐片段是通过音乐生成模型预测得到的；装置还包括：

训练模块，用于获取至少一个样本音乐片段序列；样本音乐片段序列中包括多个第一样本音乐片段；样本音乐片段序列中还包括至少一个样本主题音乐片段；样本主题音乐片段为多个第一样本音乐片段中的至少一个；从至少一个样本主题音乐片段中确定目标样本主题音乐片段；确定对目标样本主题音乐片段提取的样本主题音乐特征；将样本主题音乐特征和样本音乐片段序列中各第一样本音乐片段的样本基础音乐特征，输入至待训练的音乐生成模型中，预测得到音乐片段；根据预测得到的音乐片段与样本音乐片段序列之间的差异，对待训练的音乐生成模型进行迭代训练，以得到音乐生成模型。

在一个实施例中，训练模块还用于获取至少一个样本音乐文件；针对每一个样本音乐文件，将样本音乐文件进行分段处理，得到多个第一样本音乐片段；对多个第一样本音乐片段进行聚类，得到至少一个候选聚类簇；根据各候选聚类簇中的第一样本音乐片段的数量，确定从至少一个候选聚类簇中确定目标聚类簇；从目标聚类簇中选取至少一个第一样本音乐片段作为样本主题音乐片段。

在一个实施例中，训练模块还用于针对每一个样本音乐文件，将样本音乐文件进行分段处理，得到多个初始样本音乐片段；针对每一个初始样本音乐片段，将初始样本音乐片段中的非旋律音符剔除，得到与初始样本音乐片段对应的第一样本音乐片段。

在一个实施例中，多个第一样本音乐片段是依据各第一样本音乐片段的样本音乐片段特征进行聚类的；样本音乐片段特征是通过特征编码模型生成得到；训练模块还用于获取训练数据；训练数据包括至少一个正例音乐片段对和至少一个负例音乐片段对；正例音乐片段对中包括满足相似性接近条件的两个第二样本音乐片段；负例音乐片段对中包括满足疏远性条件的两个第二样本音乐片段；分别确定各个正例音乐片段对中的两个第二样本音乐片段之间的正例相似度；分别确定各个负例音乐片段对中的两个第二样本音乐片段之间的负例相似度；根据各个正例音乐片段对分别对应的正例相似度，以及各个负例音乐片段对分别对应的负例相似度，确定损失值；根据损失值对待训练的特征编码模型进行迭代训练，以得到特征编码模型。

更新模块，用于获取训练得到的音乐生成模型；响应于系数调整操作，对音乐生成模型的分布影响系数进行调整，以更新音乐生成模型；其中，分布影响系数，是对音乐生成模型的输出结果的概率分布情况起影响作用的系数。

在一个实施例中，获取模块802还用于响应于主题音乐上传操作，获取用户上传的目标主题音乐片段；或，响应于主题音乐生成操作，随机生成目标主题音乐片段。

上述音乐文件生成装置，通过获取目标主题音乐片段，并确定对目标主题音乐片段提取的主题音乐特征。在本轮音乐片段预测过程中，确定本轮的基础音乐片段序列，将主题音乐特征和基础音乐片段序列中各基础音乐片段的基础音乐特征进行特征融合，并基于融合得到的目标音乐特征进行音乐片段预测，得到本轮的预测音乐片段。由于对目标主题音乐片段提取的主题音乐特征可用于表征该目标主题音乐片段的目标主题，因此，该主题音乐特征和各基础音乐特征融合后的目标音乐特征，也具备与目标主题类似的主题，进而，基于该目标音乐特征进行音乐片段预测得到预测音乐片段，也具备与目标主题类似的主题。将本轮的预测音乐片段添加至基础音乐片段序列中，作为下一轮的基础音乐片段序列，并将下一轮作为本轮继续迭代进行音乐片段预测。在停止迭代音乐片段预测后，根据各轮得到的、且与目标主题均具有类似主题的预测音乐片段，可以生成与目标主题音乐片段的目标主题相符的目标音乐文件，从而提升生成音乐的韵律丰富度。

上述音乐文件生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音乐文件生成方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种音乐文件生成方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置，显示屏可以是液晶显示屏或电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9和图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种音乐文件生成方法，其特征在于，所述方法包括：

获取目标主题音乐片段；

确定对所述目标主题音乐片段提取的主题音乐特征；

2.根据权利要求1所述的方法，其特征在于，所述将所述主题音乐特征和所述基础音乐片段序列中各基础音乐片段的基础音乐特征进行特征融合，并基于融合得到的目标音乐特征进行音乐片段预测，得到本轮的预测音乐片段，包括：

针对所述基础音乐片段序列中的每个基础音乐片段，将所述主题音乐特征和所述基础音乐片段的基础音乐特征进行融合，得到与所述基础音乐片段对应的交叉注意力特征；

对所述基础音乐片段的基础音乐特征进行特征处理，得到与所述基础音乐片段对应的自注意力特征；

根据各所述基础音乐片段分别对应的交叉注意力特征和自注意力特征，生成与所述基础音乐片段序列对应的目标音乐特征；

根据所述目标音乐特征进行音乐片段预测，得到本轮的预测音乐片段。

3.根据权利要求2所述的方法，其特征在于，所述根据各所述基础音乐片段分别对应的交叉注意力特征和自注意力特征，生成与所述基础音乐片段序列对应的目标音乐特征，包括：

将各所述基础音乐片段分别对应的交叉注意力特征进行融合，得到第一融合特征；

将各所述基础音乐片段分别对应的自注意力特征进行融合，得到第二融合特征；

根据所述第一融合特征和所述第二融合特征，生成与所述基础音乐片段序列对应的目标音乐特征。

4.根据权利要求3所述的方法，其特征在于，所述将各所述基础音乐片段分别对应的交叉注意力特征进行融合，得到第一融合特征，包括：

根据各所述基础音乐片段分别对应的第一屏蔽指示参数，对各所述基础音乐片段分别对应的交叉注意力特征进行过滤处理，并将过滤后的各个交叉注意力特征进行融合，得到第一融合特征；其中，每个基础音乐片段的第一屏蔽指示参数用于指示是否需要屏蔽相应基础音乐片段对应的交叉注意力特征；

所述将各所述基础音乐片段分别对应的自注意力特征进行融合，得到第二融合特征，包括：

根据各所述基础音乐片段分别对应的第二屏蔽指示参数，对各所述基础音乐片段分别对应的自注意力特征进行过滤处理，并将过滤后的各个自注意力特征进行融合，得到第二融合特征；其中，每个基础音乐片段的第二屏蔽指示参数用于指示是否需要屏蔽相应基础音乐片段对应的自注意力特征。

5.根据权利要求2所述的方法，其特征在于，每轮的音乐片段预测过程包括多次音符预测处理；所述根据所述目标音乐特征进行音乐片段预测，得到本轮的预测音乐片段，包括：

在本轮的多次音符预测处理的过程中，将所述目标音乐特征作为首次的音符预测参考特征，将首次作为本次，根据本次的音符预测参考特征进行音符预测，得到本次的预测音符；

将本次的所述预测音符的音符特征和所述音符预测参考特征进行融合，将融合后得到的特征作为下一次音符预测处理需要使用的音符预测参考特征，并将下一次作为本次继续迭代进行音符预测；

在停止迭代音符预测后，根据各次的预测音符生成本轮的预测音乐片段。

6.根据权利要求2所述的方法，其特征在于，所述预测音乐片段是通过音乐生成模型预测得到的；所述音乐生成模型包括交叉注意力网络和自注意力网络；

所述将所述主题音乐特征和所述基础音乐片段的基础音乐特征进行融合，得到与所述基础音乐片段对应的交叉注意力特征，包括：

将所述主题音乐特征和所述基础音乐片段的基础音乐特征输入至所述交叉注意力网络，以通过所述交叉注意力网络对所述主题音乐特征和所述基础音乐片段的基础音乐特征进行融合，得到与所述基础音乐片段对应的交叉注意力特征；

所述对所述基础音乐片段的基础音乐特征进行特征处理，得到与所述基础音乐片段对应的自注意力特征，包括：

将所述基础音乐片段的基础音乐特征输入至所述自注意力网络，以通过所述自注意力网络对所述基础音乐片段的基础音乐特征进行特征处理，得到与所述基础音乐片段对应的自注意力特征。

7.根据权利要求1所述的方法，其特征在于，所述预测音乐片段是通过音乐生成模型预测得到的；所述方法还包括：

获取至少一个样本音乐片段序列；所述样本音乐片段序列中包括多个第一样本音乐片段；所述样本音乐片段序列中还包括至少一个样本主题音乐片段；所述样本主题音乐片段为所述多个第一样本音乐片段中的至少一个；

从所述至少一个样本主题音乐片段中确定目标样本主题音乐片段；

确定对所述目标样本主题音乐片段提取的样本主题音乐特征；

将所述样本主题音乐特征和所述样本音乐片段序列中各第一样本音乐片段的样本基础音乐特征，输入至待训练的音乐生成模型中，预测得到音乐片段；

根据预测得到的所述音乐片段与所述样本音乐片段序列之间的差异，对所述待训练的音乐生成模型进行迭代训练，以得到所述音乐生成模型。

8.根据权利要求7所述的方法，其特征在于，所述获取至少一个样本音乐片段序列，包括：

获取至少一个样本音乐文件；

针对每一个样本音乐文件，将所述样本音乐文件进行分段处理，得到多个第一样本音乐片段；

对所述多个第一样本音乐片段进行聚类，得到至少一个候选聚类簇；

根据各所述候选聚类簇中的所述第一样本音乐片段的数量，确定从所述至少一个候选聚类簇中确定目标聚类簇；

从所述目标聚类簇中选取至少一个所述第一样本音乐片段作为所述样本主题音乐片段。

9.根据权利要求8所述的方法，其特征在于，所述针对每一个样本音乐文件，将所述样本音乐文件进行分段处理，得到多个第一样本音乐片段，包括：

针对每一个样本音乐文件，将所述样本音乐文件进行分段处理，得到多个初始样本音乐片段；

针对每一个初始样本音乐片段，将所述初始样本音乐片段中的非旋律音符剔除，得到与所述初始样本音乐片段对应的第一样本音乐片段。

10.根据权利要求8所述的方法，其特征在于，所述多个第一样本音乐片段是依据各所述第一样本音乐片段的样本音乐片段特征进行聚类的；所述样本音乐片段特征是通过特征编码模型生成得到；所述方法还包括：

获取训练数据；所述训练数据包括至少一个正例音乐片段对和至少一个负例音乐片段对；所述正例音乐片段对中包括满足相似性接近条件的两个第二样本音乐片段；所述负例音乐片段对中包括满足疏远性条件的两个第二样本音乐片段；

分别确定各个所述正例音乐片段对中的两个第二样本音乐片段之间的正例相似度；

分别确定各个所述负例音乐片段对中的两个第二样本音乐片段之间的负例相似度；

根据各个所述正例音乐片段对分别对应的正例相似度，以及各个所述负例音乐片段对分别对应的负例相似度，确定损失值；

根据所述损失值对待训练的特征编码模型进行迭代训练，以得到特征编码模型。

11.根据权利要求1所述的方法，其特征在于，所述预测音乐片段是通过音乐生成模型预测得到的；所述方法还包括：

获取训练得到的音乐生成模型；

响应于系数调整操作，对所述音乐生成模型的分布影响系数进行调整，以更新所述音乐生成模型；

其中，所述分布影响系数，是对所述音乐生成模型的输出结果的概率分布情况起影响作用的系数。

12.根据权利要求1至11中任一项所述的方法，其特征在于，所述获取目标主题音乐片段，包括以下至少一种处理：

响应于主题音乐上传操作，获取用户上传的目标主题音乐片段；

响应于主题音乐生成操作，随机生成目标主题音乐片段。

13.一种音乐文件生成装置，其特征在于，所述装置包括：

获取模块，用于获取目标主题音乐片段；

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。

15.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。

16.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。