CN116386575A

CN116386575A - 音乐生成方法、装置、电子设备及存储介质

Info

Publication number: CN116386575A
Application number: CN202310216561.4A
Authority: CN
Inventors: 陈佳丽; 刘晨雨; 毕梦霄; 吕唐杰; 范长杰; 胡志鹏
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2023-03-01
Filing date: 2023-03-01
Publication date: 2023-07-04

Abstract

本申请公开了一种音乐生成方法、装置、电子设备及存储介质，涉及计算机技术领域。该方法包括：确定目标音乐的首个乐句；根据首个乐句，自回归生成目标音乐的乐句结构信息；根据首个乐句的和弦子序列及目标音乐的乐句结构信息，生成目标音乐各其余乐句的和弦子序列，得到目标音乐的和弦序列；根据目标音乐的和弦序列，生成目标音乐各其余乐句的旋律子序列，得到目标音乐的旋律序列；将目标音乐的和弦序列和旋律序列合并，得到目标音乐。在本申请中，可以生成音乐的乐句结构，乐句结构体现了音乐的各乐句间的局部关系，并据此将长时音乐的生成拆分为以乐句为单位的分步乐句生成，自上而下地指导音乐的结构，从而实现了长时音乐的结构化生成。

Description

音乐生成方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，具体涉及一种音乐生成方法、装置、电子设备及计算机可读存储介质。

背景技术

如今，人们对精神需求日益重视，音乐已成为人们日常生活中不可或缺的一部分。随着人工智能技术的成熟，探索计算机创造力的音乐自动化生成领域也在不断发展，为流行乐作曲、辅助创作、视频配乐、音乐治疗等应用提供新的可能性。目前，音乐的长时结构化生成，仍是人工智能追求的目标。

发明内容

本申请提供了一种音乐生成方法、装置、电子设备及计算机可读存储介质，以解决或至少部分解决上述音乐长时结构化生成的问题。具体如下。

第一方面，本申请提供了一种音乐生成方法，所述方法包括：

确定目标音乐的首个乐句；所述首个乐句包括第一和弦子序列和第一旋律子序列；

根据所述首个乐句，自回归生成所述目标音乐的乐句结构信息；所述目标音乐的乐句结构信息包括所述目标音乐的各乐句对应的相关乐句，以及所述目标音乐的各乐句与对应的相关乐句之间的相关性类型；

根据所述第一和弦子序列和所述目标音乐的乐句结构信息，生成所述目标音乐除所述首个乐句之外的各其余乐句的和弦子序列，得到所述目标音乐的和弦序列；

根据所述目标音乐的和弦序列，生成所述目标音乐除所述首个乐句之外的各其余乐句的旋律子序列，得到所述目标音乐的旋律序列；

将所述目标音乐的和弦序列和旋律序列合并，得到所述目标音乐。

第二方面，本申请实施例还提供了一种音乐生成装置，所述装置包括：

确定模块，用于确定目标音乐的首个乐句；所述首个乐句包括第一和弦子序列和第一旋律子序列；

乐句结构生成模块，用于根据所述首个乐句，自回归生成所述目标音乐的乐句结构信息；所述目标音乐的乐句结构信息包括所述目标音乐的各乐句对应的相关乐句，以及所述目标音乐的各乐句与对应的相关乐句之间的相关性类型；

和弦生成模块，用于根据所述第一和弦子序列和所述目标音乐的乐句结构信息，生成所述目标音乐除所述首个乐句之外的各其余乐句的和弦子序列，得到所述目标音乐的和弦序列；

旋律生成模块，用于根据所述目标音乐的和弦序列，生成所述目标音乐除所述首个乐句之外的各其余乐句的旋律子序列，得到所述目标音乐的旋律序列；

合并模块，用于将所述目标音乐的和弦序列和旋律序列合并，得到所述目标音乐。

第三方面，本申请实施例还提供了一种电子设备，包括：

处理器；以及

存储器，用于存储程序，该电子设备通电并通过所述处理器运行该程序后，执行如第一方面所述的方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，存储有程序，该程序被处理器运行，执行如第一方面所述的方法。

与现有技术相比，本申请具有以下优点：

本申请实施例提供的音乐生成方法，首先确定目标音乐的首个乐句，根据目标音乐首个乐句，自回归生成目标音乐的乐句结构信息；然后根据目标音乐首个乐句的第一和弦子序列，以及目标音乐的乐句结构信息，生成目标音乐除首个乐句之外的各其余乐句的和弦子序列，获得目标音乐的和弦序列，进而根据目标音乐的和弦序列，生成目标音乐除首个乐句之外的各其余乐句的旋律子序列，获得目标音乐的旋律序列；之后将目标音乐的和弦序列和旋律序列合并，即可得到目标音乐。在本申请中，可以生成音乐的乐句结构信息，乐句结构信息体现了音乐的各乐句间的局部关系，并据此将长时音乐的生成拆分为以乐句为单位的分步乐句生成，自上而下地指导音乐的结构，从而实现了长时音乐的结构化生成。

附图说明

图1是本申请实施例提供的一种音乐生成方法的流程图；

图2是本申请实施例提供的另一种音乐生成方法的流程图；

图3是本申请实施例提供的一种一个小节的和弦序列、节奏序列和音高序列的示意图；

图4是本申请实施例提供的一种第一条件自回归模型的模型架构；

图5是本申请实施例提供的一种乐句和弦子序列的生成流程图；

图6是本申请实施例提供的一种节奏数据和音高数据的无条件自回归生成的具体流程图；

图7是本申请实施例提供的一种节奏数据和音高数据的有条件自回归生成的具体流程图；

图8是本申请实施例提供的一种音乐生成装置的框图；

图9是本申请实施例提供的一种用于实现音乐生成的电子设备的逻辑结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

本申请提供了一种音乐生成方法，本申请提供的音乐生成方法的执行主体可以为电子设备或服务器，该电子设备可以为台式电脑、笔记本电脑、游戏机、智能手表、平板电脑、手机、电视机等，也可以为其他电子设备，本申请不具体限定。该服务器用于为电子设备中的应用程序的客户端提供后台服务。例如，服务器可以是上述应用程序的后台服务器。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器，本申请不具体限定。

如图1所示，该方法包括以下步骤S10～步骤S50。

步骤S10：确定目标音乐的首个乐句；该首个乐句包括第一和弦子序列和第一旋律子序列。

对于待生成的目标音乐，首先可以人工选取或人工生成目标音乐的首个乐句，在本申请实施例中，乐句具体是通过符号化表示的乐句，因此，该首个乐句是一个符号化序列。其中，乐句是构成一首音乐的基本结构单位，它能表达出相对完整的意思，如同文章中的句子。该首个乐句包括第一和弦子序列和第一旋律子序列，通过和弦和旋律，即可表达出一个乐句。一个乐句的和弦子序列可以表征该乐句的和弦进行。

步骤S20：根据该首个乐句，自回归生成目标音乐的乐句结构信息；目标音乐的乐句结构信息包括目标音乐的各乐句对应的相关乐句，以及目标音乐的各乐句与对应的相关乐句之间的相关性类型。

自回归方式认为本期数据与前期数据具有相关性，可以通过前期数据，预测本期数据。在本申请实施例中，首先可以自回归学习每首音乐中的各乐句之间的相关性，进而在本步骤中，仅提供目标音乐的首个乐句，即可通过自回归的方式依次生成目标音乐的后续各乐句、以及目标音乐后续各乐句对应的相关乐句，以及目标音乐后续各乐句与对应的相关乐句之间的相关性类型。

其中，目标音乐首个乐句的相关乐句和相关性类型可以直接设定。

步骤S30：根据第一和弦子序列和目标音乐的乐句结构信息，生成目标音乐除首个乐句之外的各其余乐句的和弦子序列，得到目标音乐的和弦序列。

在本步骤中，可以根据目标音乐首个乐句的和弦，以及目标音乐的乐句结构信息，生成目标音乐的和弦序列。其中，目标音乐中各乐句之间的相关性类型，决定了采用何种方式生成目标音乐的和弦序列。

在一种实施方式中，当需要生成某乐句的和弦时，若某乐句与其对应的相关乐句的和弦一致，则可以直接复制相关乐句的和弦作为该乐句的和弦；若某乐句与其对应的相关乐句的和弦不一致，则可以采用自回归方式生成该乐句的和弦。

步骤S40：根据目标音乐的和弦序列，生成目标音乐除首个乐句之外的各其余乐句的旋律子序列，得到目标音乐的旋律序列。

在本申请实施例中，为保证目标音乐在和弦进行和词格上的可解耦，本方法基于步骤S20生成的乐句结构和步骤S30生成的和弦序列，分步实现目标音乐的旋律生成。首先，基于和弦自回归生成节奏，也即词格序列。其次，基于和弦和节奏自回归生成音高。至此，生成了目标音乐的和弦序列和旋律序列，其中，旋律序列包括节奏序列和音高序列。

步骤S50：将目标音乐的和弦序列和旋律序列合并，得到目标音乐。

在本步骤中，将目标音乐的和弦序列和旋律序列合并，整合为音乐文件，即生成了目标音乐。

图2示出了本申请实施例提供的另一种音乐生成方法的流程图，下文将根据图2进行介绍。

在一种可选的实施方式中，步骤S20可以通过下述步骤实现：将首个乐句输入第一条件自回归模型，以使第一条件自回归模型输出目标音乐的乐句结构信息。

参照图2，在该实施方式中，目标音乐的乐句结构信息可以通过条件自回归的方式确定。其中，第一条件自回归模型的输入数据为目标音乐的首个乐句，第一条件自回归模型的输出数据为目标音乐的乐句结构信息。

在一可选方案中，第一条件自回归模型可以选用Transformer(变换器)模型，具体地，可以是CompoundWord Transformer(复合词变换器)模型。

第一条件自回归模型需要通过训练数据进行训练得到，以下示例性地介绍一种第一条件自回归模型的训练数据获取和模型训练过程。

参照图2，本申请提供的音乐生成方法还可以包括以下步骤S60-S90，通过以下步骤S60-S90可以实现第一条件自回归模型的训练数据获取和模型训练过程。

步骤S60：获取包括多个音乐数据的音乐数据集。

在该步骤中，如图2，首先获取用于训练第一条件自回归模型的音乐数据集。可选地，音乐数据集中的音乐数据可以是单音多轨音乐数据，单音表示一种音色，例如钢琴音色，多轨包括伴奏轨、主旋律轨等，单音多轨表示多个音轨都是同一个音色。还可选地，该音乐数据具体可以是MIDI(Musical Instrument Digital Interface，乐器数字接口)格式的音乐数据。

该音乐数据集可以根据需要生成的音乐风格进行获取，例如当需要生成流行音乐风格的音乐时，音乐数据可以选取流行音乐风格的音乐数据。

其中，每个音乐数据可以具有对应的标注信息，该标注信息可以是直接获取他人对音乐数据的标注信息，也可以是获取到音乐数据集后，再人工对音乐数据进行标注，本申请不作限定。

可选地，标注信息可以包括和弦标注、乐句划分标注、乐句类型标注等，借助标注信息可以便于对音乐数据的处理。其中，和弦标注为音乐数据的和弦，具体可以是柱式和弦，柱式和弦是指所有的和弦音符同时发声(例如同时奏响三个或四个和弦音)，并以一定的节奏重复，在五线谱书写时看上去如同一根根的柱，这样的和弦结构叫柱式和弦。乐句划分标注为音乐数据的乐句划分方式，也即将音乐数据的哪些小节划分为一个乐句。乐句类型标注为音乐数据中各乐句的乐句类型，乐句类型可以包括主歌(Verse)、副歌(Chorus)、(桥Bridge)等。

还可选地，为了便于模型学习，在本步骤中，如图2所示，可以对音乐数据集中音乐数据进行预处理，以对齐各音乐数据，然后分乐句从音乐数据中提取每个乐句的和弦子序列、节奏子序列和音高子序列，从而实现音乐数据的符号化表示。

以下介绍一种音乐数据预处理的具体示例，可以理解的是，该示例对于本申请并不构成限定。

在该示例中，首先，收集单音多轨MIDI音乐数据集。其次，将MIDI音乐文件进行时间刻度对齐和时长量化，并提取MIDI音乐文件中的旋律。然后，根据标注信息对齐每个MIDI音乐文件的和弦进行和旋律，并将伴奏轨替换为和弦标注所标注的柱式和弦。最后，分乐句提取MIDI音乐文件的和弦序列、节奏序列、音高序列，三个序列在时间轴上对齐。

具体地，获取带标注信息的MIDI音乐数据集后，为确保每首音乐的各小节长度相等，筛选出4/4拍的音乐数据，并将筛选后的各音乐数据的时间分辨率参数(ticksperbeat)统一设为480，也即一分钟统一为480个节拍。将筛选后的各音乐数据的0时间刻度对齐小节线，固定每首音乐的最短音符长度为16分音符(120tick)，据此对每个音符的持续时长进行量化，也即确定每个音乐的持续时长占几个时间步。由于本方法可以仅学习主旋律与和弦进行之间的关系，无需生成复杂的伴奏织体，因此，只需要音乐数据中的主旋律轨和标注信息中的柱式和弦轨，并且需要将所有音乐数据转换到C调，也即按照C调调整每首音乐的音高。根据标注信息中的乐句拆分标注和乐句类型标注，对每首音乐进行乐句拆分并对应其乐句类型(包括主歌Verse、副歌Chorus和桥Bridge)，进而筛选出乐句长度为8小节的乐句。

需要说明的是，也可以直接选取4/4拍、时间分辨率参数为480、最短音符长度为16分音符、音阶为C调，以及乐句长度为8小节的乐句的音乐数据，本申请不作限定。

对于每个乐句，提取和弦子序列、节奏子序列、音高子序列，从而得到整首音乐数据的和弦序列、节奏序列和音高序列。各序列的时间轴长度均可以为128(8小节*16时间步/小节)。具体地，音高序列可表示为1*128的一维向量，其中，每个时间步的取值范围为0-37。0-35对应MIDI音高的48(C3)-83(B5)，即旋律轨的音高范围在三个八度以内。36表示前一个音符的持续，37表示当前时间步休止。类似地，节奏序列表示为1*128的一维向量，每个时间步的取值范围为0-2。对应于音高序列，0表示当前时间步休止，1表示持续，2表示音符的开始(onset)。和弦序列表示为12*128的多维向量，对应为每个时间步的柱式和弦中每个音的音名。参照图3，示出了一个小节的和弦序列、节奏序列和音高序列的示意图，其中，一小节的时间步长度为16。

步骤S70：确定音乐数据的各乐句对应的相关乐句，以及音乐数据的各乐句与对应的相关乐句之间的相关性类型。

在一可选的实施方式中，步骤S70可以通过下述步骤S71-S73实现。

步骤S71：对于音乐数据的每个乐句，确定该乐句与音乐数据中除该乐句之外的各其余乐句的旋律以及和弦进行的相关程度；

步骤S72：将音乐数据中除该乐句之外的各其余乐句中与该乐句的旋律以及和弦进行的相关程度最高的乐句确定为该乐句对应的相关乐句；

步骤S73：根据该乐句与对应的相关乐句的旋律以及和弦进行的相关程度，确定该乐句与对应的相关乐句之间的相关性类型。

其中，一个乐句及其对应的相关乐句属于同一个音乐数据，一个乐句与所属音乐数据中的各其余乐句具有不同的相关程度，一个乐句对应的相关乐句为所属音乐数据中该乐句之前出现的各乐句中与该乐句的相关程度最高的乐句。例如，一个音乐数据中有8个乐句，其中，第5个乐句对应的相关乐句为这8个乐句的前4个乐句中，与第5个乐句相关程度最高的乐句。

其中，乐句之间的相关程度可以通过相关性类型表示，相关性类型可以指示乐句之间的和弦进行相关程度，以及旋律相关程度。

在一可选方案中，相关性类型可以包括旋律或和弦进行相关类型，和旋律及和弦进行不相关类型。

进一步可选地，旋律或和弦进行相关类型可以包括旋律一致且和弦进行一致、旋律一致且和弦进行不一致、旋律变奏且和弦进行一致、旋律变奏且和弦进行不一致、节奏一致且和弦进行一致、节奏一致且和弦进行不一致，以及旋律无关且和弦进行一致。旋律及和弦进行不相关类型可以包括旋律无关且和弦进行不一致。上述相关性类型可以归纳为如下表1。

表1

相关性类型序号	旋律相关程度	和弦进行相关程度
			1	完全一致	完全一致
2	完全一致	不一致
			3	旋律变奏	完全一致
4	旋律变奏	不一致
			5	节奏一致	完全一致
6	节奏一致	不一致
			7	无关	完全一致
8	无关	不一致

其中，旋律变奏表示乐句与对应的相关乐句50％及以上的音高相同，但节奏不一致，节奏一致即乐句与对应的相关乐句音高不同但节奏一致。

如此，在确定一个乐句对应的相关乐句后，还可以确定出该乐句与对应的相关乐句之间的相关性类型。

步骤S80：将音乐数据的各乐句、音乐数据的各乐句对应的相关乐句，以及音乐数据的各乐句与对应的相关乐句之间的相关性类型作为训练数据，对初始第一条件自回归模型进行训练，得到第一条件自回归模型。

在本步骤中，可以将音乐数据的各乐句、每个乐句对应的相关乐句，以及每个乐句与对应的相关乐句之间的相关性类型作为训练数据，对初始第一条件自回归模型进行训练，从而得到第一条件自回归模型。

具体地，在本申请实施例中，可以将音乐数据的各乐句、音乐数据的各乐句对应的相关乐句，以及音乐数据的各乐句与对应的相关乐句之间的相关性类型转化为三元组序列表示，即Seq_relation＝[(phrase1,related1,type1),(phrase2,related2,type2),…,(phrasen,relatedn,typen)]，其中，phrase1-n为音乐数据中的第1-n个乐句，related1-n为音乐数据中的第1-n个乐句对应的相关乐句序号，type1-n为音乐数据中的第1-n个乐句与对应的相关乐句之间的相关性类型序号。

初始第一条件自回归模型采用CompoundWord Transformer模型架构，给定输入序列Seq_phrase＝(phrase1,phrase2,...,phrasen)，使用标准Transformer模型的self-attention(自注意力)模块学习该输入序列的高级表示，再通过不同的解码器(decoder)预测每个乐句的相关乐句和相关类型，即可得到三元组序列Seq_relation。如此，即可训练得到第一条件自回归模型。第一条件自回归模型的推理过程，可以实现输入序列phrase1，输出序列[(related1,type1),(related2,type2),…,(relatedn,typen)]。

其中，图4提供了一种第一条件自回归模型的模型架构，其中，self-attention模块具体可以采用多头注意力机制。需要说明的是，该模型架构仅为一种示例，并不对本申请构成限定。

进一步可选地，如图2所示，第一条件自回归模型的训练数据还可以根据各种音乐整体结构的出现频次，从音乐数据集中采样(如随机采样)得到。相应地，在步骤S60之后，该方法还可以包括以下步骤S90-S110。

步骤S90：统计音乐数据集中出现的多种音乐整体结构。

其中，音乐整体结构为音乐数据的乐句类型组合方式。以下提供一种从音乐数据集中统计得到的出现过的各种音乐整体结构的示例，如下表2所示，表2示出了音乐数据集中出现频率最高的十种音乐结构。

表2

在上述表2中，V表示乐句的乐句类型为主歌(Verse)，C表示乐句的乐句类型为副歌(Chorus)，B表示乐句的乐句类型为桥(Bridge)。

步骤S110：根据各音乐整体结构的出现频率，对音乐数据集中的各音乐数据进行采样，得到多个采样音乐数据。

在本步骤中，可以根据各音乐整体结构的出现频率，对各音乐数据进行采样，也即某种音乐整体结构的出现频率越高，则具有该种音乐整体结构的音乐数据被采样到的概率越大。

相应地，上述步骤S80具体包括：将采样音乐数据的各乐句、采样音乐数据的各乐句对应的相关乐句，以及采样音乐数据的各乐句与对应的相关乐句之间的相关性类型作为训练数据，对初始第一条件自回归模型进行训练，得到第一条件自回归模型。

如图2所示，通过根据各音乐整体结构在音乐数据集中的出现频率，对各音乐数据进行采样，进而利用采样得到的音乐数据构建第一条件自回归模型的训练数据，如此，不仅可以使最终生成的音乐具有乐句间的局部关系，也即乐句相关性，还可以使最终生成的音乐具有一定的音乐整体结构，从而提高了生成音乐的结构性。

此外，通过对音乐数据进行采样，还可以减少第一条件自回归模型的训练数据的数量，从而避免第一条件自回归模型的过拟合。

参照图2，在本申请实施例中，目标音乐中每个乐句的和弦子序列和旋律子序列都是按照乐句顺序依次生成，待生成和弦子序列和旋律子序列的乐句需要根据已生成乐句的和弦子序列和旋律子序列生成。

以下将介绍目标音乐的和弦序列的具体生成方式。

在本申请的一种可选实施方式中，步骤S30具体可以通过以下步骤实现：根据第一和弦子序列和目标音乐的乐句结构信息，按照目标音乐的乐句顺序依次生成目标音乐除首个乐句之外的各其余乐句的和弦子序列，得到目标音乐的和弦序列。

其中，目标音乐的和弦序列以乐句为单位生成。

图5示出了一种乐句和弦子序列的生成流程图，下文将结合图5进行介绍。

可选地，在目标音乐中，乐句对应的相关乐句位于该乐句之前，相应地，上述步骤具体可以通过以下步骤S31-S33实现：

步骤S31：对于目标音乐中待生成和弦子序列的目标乐句，从目标音乐的乐句结构信息中，确定目标乐句与对应的相关乐句之间的相关性类型。

步骤S32：若目标乐句与对应的相关乐句之间的相关性类型指示目标乐句与对应的相关乐句的和弦进行不一致，则根据至少目标音乐中位于目标乐句之前的所有乐句的和弦子序列，自回归生成目标乐句的和弦子序列。

此外，还可选地，步骤S32具体还可以包括以下步骤S323：若目标乐句与对应的相关乐句之间的相关性类型指示目标乐句与对应的相关乐句的和弦进行一致，则复制目标乐句对应的相关乐句的和弦子序列，作为目标乐句的和弦子序列。

其中，参照图5，对于目标音乐中待生成和弦子序列的目标乐句，目标音乐中位于目标乐句之前的所有乐句的和弦子序列已生成得到，进而可以判断该目标乐句与对应的相关乐句的和弦进行是否一致(即和弦子序列是否一致)。若一致，也即相关性类型为表1中的第1种、第3种、第4种、第7种相关性类型之一，则直接复制目标乐句对应的相关乐句的和弦进行，作为目标乐句的和弦子序列；若不一致，也即相关性类型为表1中的第2种、第4种、第6种、第8种相关性类型之一，则根据至少目标音乐中位于目标乐句之前的所有乐句的和弦子序列，通过自回归方式生成目标乐句的和弦子序列。

更进一步地，步骤S32具体可以通过以下步骤S321-S322实现。

步骤S321：若目标乐句与对应的相关乐句之间的相关性类型指示目标乐句与对应的相关乐句的和弦进行不一致且旋律无关，则根据目标音乐中位于目标乐句之前的所有乐句的和弦子序列，无条件自回归生成目标乐句的和弦子序列。

本步骤中，参照图5，若目标乐句对应的相关乐句之间的相关性类型为表1中的第8种相关性类型，即和弦进行和旋律均无相关性，则可以根据目标音乐中位于目标乐句之前的所有乐句的和弦子序列，无条件自回归生成目标乐句的和弦子序列。

其中，本步骤可以通过第一无条件自回归模型生成目标乐句的和弦子序列。

步骤S322：若目标乐句与对应的相关乐句之间的相关性类型指示目标乐句与对应的相关乐句的和弦进行不一致且旋律相关，则根据目标音乐中位于目标乐句之前的所有乐句的和弦子序列，以及目标乐句与对应的相关乐句之间的相关性类型，有条件自回归生成目标乐句的和弦子序列。

本步骤中，参照图5，若目标乐句对应的相关乐句之间的相关性类型为表1中的第2种、第4种、第6种相关性类型之一，即和弦进行和旋律均不一致但有相关性，则可以根据目标音乐中位于目标乐句之前的所有乐句的和弦子序列，以及目标乐句与对应的相关乐句之间的相关性类型，有条件自回归生成目标乐句的和弦子序列。

其中，本步骤可以通过第二有条件自回归模型生成目标乐句的和弦子序列。

在本申请实施例中，第一无条件自回归模型可以采用Compound WordTransformer模型结构，每个时间步的复合词包含和弦根音、和弦类型、以及和弦转位，共3个token。该模型通过学习和弦的转位等高级特征，捕捉和弦进行的合理发展和变化。第二有条件自回归模型与第一无条件自回归生成模型的结构基本一致，但第二有条件自回归模型需要采用目标乐句与对应的相关乐句之间的相关性类型作为条件，即第二有条件自回归模型的训练阶段输入序列为[(相关乐句和弦子序列related phrase chords),(当前乐句与对应相关乐句的相关性类型relation type),(当前乐句和弦子序列current phrasechords)]。在第二有条件自回归模型的推理阶段，输入[(relatedphrase chords),(relatetype)]，第二有条件自回归模型会自回归地往后预测下一乐句的和弦进行。

在本申请实施例中，当目标乐句与相关乐句的和弦进行不同且旋律不相关时，使用无条件自回归生成模型生成目标乐句的和弦子序列；当目标乐句存在和弦进行不同但旋律相关时，基于相关性类型(作为条件)和相关乐句的和弦子序列，使用条件生成模型生成目标乐句的和弦子序列。目标音乐的首个乐句的第一和弦子序列可以指定，也可以根据训练数据中的首个乐句的和弦子序列的出现频率随机采样。

在步骤S322中，先根据目标音乐第1个乐句的和弦子序列，以及第2个乐句与对应的相关乐句的相关性类型(第1个乐句的相关性类型为表1中的第8种相关性类型，即和弦进行和旋律均不一致)，生成目标音乐第2个乐句的和弦子序列。然后根据目标音乐第1-2个乐句的和弦子序列，以及第3个乐句与对应的相关乐句的相关性类型，生成目标音乐第3个乐句的和弦子序列。之后根据目标音乐第1-3个乐句的和弦子序列，以及第4个乐句与对应的相关乐句的相关性类型，生成目标音乐第4个乐句的和弦子序列。也即每个乐句可以根据之前所有乐句的和弦子序列，以及

以此类推，可以按照目标音乐的乐句顺序，依次分步生成目标音乐各乐句的和弦子序列，得到目标音乐的和弦序列。

以下将介绍目标音乐的旋律序列的具体生成方式。

在本申请的一种可选实施方式中，步骤S40具体可以通过以下步骤实现：根据目标音乐的和弦序列，按照目标音乐的乐句顺序依次生成目标音乐除首个乐句之外的各其余乐句的旋律子序列，得到目标音乐的旋律序列。

其中，目标音乐的旋律序列以乐句为单位生成。

进一步地，目标音乐中的每个乐句在时间维度上包括多个时间步，相应地，上述步骤具体可以通过以下步骤实现：对于目标音乐中待生成旋律子序列的目标乐句，根据目标音乐的和弦序列，按照目标乐句的时间步顺序依次生成目标乐句的各时间步的旋律数据，得到目标乐句的旋律子序列。

其中，目标音乐中每个乐句的旋律子序列以时间步为单位生成。

更具体地，目标乐句的和弦子序列包括目标乐句的各时间步的和弦数据，相应地，上述步骤“对于目标音乐中待生成旋律子序列的目标乐句，根据目标音乐的和弦序列，按照目标乐句的时间步顺序依次生成目标乐句的各时间步的旋律数据，得到目标乐句的旋律子序列”具体可以通过以下步骤S41-S42实现：

步骤S41：对于目标乐句中待生成旋律数据的目标时间步，从目标音乐的乐句结构信息中，确定目标乐句与对应的相关乐句之间的相关性类型；

步骤S42：若目标乐句与对应的相关乐句之间的相关性类型指示目标乐句与对应的相关乐句的节奏不一致，则根据至少目标音乐中位于目标时间步之前的所有时间步的和弦数据和旋律数据，自回归生成目标时间步的旋律数据。

此外，还可选地，上述步骤“对于目标音乐中待生成旋律子序列的目标乐句，根据目标音乐的和弦序列，按照目标乐句的时间步顺序依次生成目标乐句的各时间步的旋律数据，得到目标乐句的旋律子序列”还可以包括以下步骤S43。

步骤S43：若目标乐句与对应的相关乐句之间的相关性类型指示目标乐句与对应的相关乐句的节奏一致，则复制目标乐句对应的相关乐句中的同位置时间步的旋律数据，作为目标时间步的旋律数据；该同位置时间步在目标乐句对应的相关乐句中的位置与目标时间步在目标乐句中的位置相同。

其中，对于目标乐句中待生成旋律数据的目标时间步，目标音乐中位于目标时间步之前的所有时间步的旋律数据已生成得到，进而可以判断该目标乐句与对应的相关乐句的节奏是否一致。若一致，也即相关性类型为表1中的第1种、第2种、第5种、第6种相关性类型之一，则直接复制目标乐句对应相关乐句中与目标时间步位置相同的时间步的旋律数据，作为目标时间步的旋律数据；若不一致，也即相关性类型为表1中的第3种、第4种、第7种、第8种相关性类型之一，则根据至少目标音乐中位于目标时间步之前的所有时间步的和弦数据和旋律数据，通过自回归方式生成目标时间步的旋律数据。

更进一步地，旋律数据可以包括节奏数据和音高数据，步骤S42具体可以通过以下步骤S421-S422实现：

步骤S421：若目标乐句与对应的相关乐句之间的相关性类型指示目标乐句与对应的相关乐句的节奏不一致，则根据至少目标音乐中位于目标时间步之前的所有时间步的和弦数据和节奏数据，自回归生成目标时间步的节奏数据；

步骤S422：根据至少目标音乐中位于目标时间步之前的所有时间步的和弦数据、节奏数据和音高数据，自回归生成目标时间步的音高数据。

在该实现方式中，旋律数据的生成分为节奏数据和音高数据的依次生成，其中，节奏数据的生成以和弦数据为依据，音高数据的生成以和弦数据和节奏数据为依据。首先，基于和弦数据自回归生成节奏数据，也即词格数据。其次，根据和弦数据和节奏数据等参考信息自回归生成音高数据。

其中，本申请实施例基于上文生成的乐句结构信息以及和弦序列，实现旋律序列的生成。与和弦序列的生成类似，旋律序列的生成也分为无条件自回归生成、有条件自回归生成和复制生成。其中，无条件自回归生成和有条件自回归生成都是分步生成，即先基于和弦数据自回归生成节奏数据，再生成音高数据。

基于此，可选地，上述步骤S421具体可以包括步骤S4211(节奏数据的无条件自回归生成)：若目标乐句与对应的相关乐句之间的相关性类型指示目标乐句与对应的相关乐句的节奏不一致且音高不一致，则根据目标音乐中位于目标时间步之前的所有时间步的和弦数据和节奏数据，无条件自回归生成目标时间步的节奏数据。

相应地，上述步骤S422具体可以包括步骤S4221(音高数据的无条件自回归生成)：根据目标音乐中位于目标时间步之前的所有时间步的和弦数据、节奏数据和音高数据，无条件自回归生成目标时间步的音高数据。

其中，当目标乐句与对应的相关乐句的节奏不一致且音高不一致时，也即相关性类型为表1中的第7种、第8种相关性类型之一，则根据目标音乐中位于目标时间步之前的所有时间步的和弦数据和节奏数据，通过无条件自回归方式生成目标时间步的节奏数据。之后，可以根据目标音乐中位于目标时间步之前的所有时间步的和弦数据、节奏数据和音高数据，通过无条件自回归方式生成目标时间步的音高数据。

具体地，可以通过第二无条件自回归模型生成目标音乐中每个乐句的每个时间步的节奏数据和音高数据，也即目标音乐的节奏序列和音高序列。

图6示出了一种节奏数据和音高数据的无条件自回归生成的具体流程图，参照图6，进一步可选地，步骤S4211(节奏数据的无条件自回归生成)具体可以包括：

步骤S4211-a1：对目标音乐中位于目标时间步之前的所有时间步的和弦数据进行编码，得到和弦隐表示；

步骤S4211-a2：将目标音乐中位于目标时间步之前的所有时间步的节奏数据与和弦隐表示进行向量连接，得到第一连接向量；

步骤S4211-a3：对第一连接向量进行解码，得到目标音乐中位于目标时间步之前的所有时间步的节奏数据的节奏隐表示；

步骤S4211-a4：根据该节奏隐表示，通过分类器确定目标时间步的节奏数据。

相应地，步骤S4221(音高数据的无条件自回归生成)具体可以包括：

步骤S4221-a1：将目标音乐中位于目标时间步之前的所有时间步的音高数据、和弦隐表示和节奏隐表示进行向量连接，得到第二连接向量；

步骤S4221-a2：对第二连接向量进行解码，得到目标音乐中位于目标时间步之前的所有时间步的音高数据的音高隐表示；

步骤S4221-a3：根据该音高隐表示，通过分类器确定目标时间步的音高数据。

参照图6，第二无条件自回归模型可包括和弦编码器、节奏解码器和音高解码器。设定目标音乐的总时间步数为T，第二无条件自回归模型可以根据目标音乐的和弦序列C_1:T＝{C1,…,CT}，生成目标音乐的节奏序列R_1:T＝{R1,…,RT}和音高序列P_1:T＝{P1,…,PT}。

和弦编码器将和弦序列C_1:T(其中包括目标时间步之前的所有时间步的和弦数据C_1:t-1)通过BiLSTM(Bi-directional Long Short-Term Memory，双向长短记忆网络)编码得到目标音乐的和弦隐表示HC_1:T(其中包括目标时间步之前的所有时间步的和弦数据的和弦隐表示HC_1:t-1)。

节奏解码器由N(例如N＝6)层self-attention模块堆叠而成，在自回归生成时，目标时间步t以及其后时间步的和弦序列C_t:T需要被mask(掩蔽)，仅保留HC_1:t-1。目标时间步t之前的所有时间步的节奏数据R_1:t-1首先与和弦隐表示HC_1:t-1进行向量连接，得到第一连接向量，然后将第一连接向量送入节奏解码器进行解码，获得时间步1至t-1的节奏隐表示HR_1:t-1。最后，将HR_1:t-1送入前馈层和softmax层(即softmax分类器)，获得目标时间步t的节奏数据的预测概率Pr(R_t)，即得到了目标时间步t的节奏数据。

类似地，音高解码器由N(例如N＝6)层self-attention模块堆叠而成，同样需要采取mask机制，掩蔽目标时间步t以及其后时间步的和弦序列C_t:T。将目标时间步t之前的所有时间步的音高数据P_1:t-1与和弦隐表示HC_1:t-1和节奏隐表示HR_1:t-1进行向量连接，得到第二连接向量，然后将第二连接向量送入音高解码器，获得时间步1至t-1的音高隐表示HP_1:t-1，最后将HP_1:t-1送入前馈层和softmax层，获得目标时间步t的音高数据的预测概率Pr(P_t)，即得到了目标时间步t的音高数据。

其中，第二无条件自回归模型的损失由节奏损失和音高损失组成。节奏损失函数使用nll loss负对数似然损失函数，音高损失函数为避免样本不平衡造成的干扰，采用focal loss损失函数。

还可选地，上述步骤S421具体可以包括步骤S4212(节奏数据的有条件自回归生成)：若目标乐句与对应的相关乐句之间的相关性类型指示目标乐句与对应的相关乐句的节奏不一致且音高一致，则根据目标音乐中位于目标时间步之前的所有时间步的和弦数据和节奏数据，以及目标音乐的相关乐句序列中位于参考时间步之前的所有时间步的和弦数据和节奏数据，有条件自回归生成目标时间步的节奏数据。

其中，相关乐句序列包括目标乐句对应的相关乐句和目标音乐中位于目标乐句之前的各乐句对应的相关乐句，上述各相关乐句依次排列，即为相关乐句序列。参考时间步在相关乐句序列中的位置与目标时间步在目标音乐中的位置相同。

相应地，上述步骤S422具体可以包括步骤S4222(音高数据的有条件自回归生成)：根据目标音乐中位于目标时间步之前的所有时间步的和弦数据、节奏数据和音高数据，以及目标音乐的相关乐句序列中位于参考时间步之前的所有时间步的和弦数据、节奏数据和音高数据，有条件自回归生成目标时间步的音高数据。

其中，当目标乐句与对应的相关乐句的节奏不一致且音高一致时，也即相关性类型为表1中的第3种、第4种相关性类型之一，则根据目标音乐中位于目标时间步之前的所有时间步的和弦数据和节奏数据，以及目标音乐的相关乐句序列中位于参考时间步之前的所有时间步的和弦数据和节奏数据(作为条件)，通过有条件自回归方式生成目标时间步的节奏数据。之后，可以根据目标音乐中位于目标时间步之前的所有时间步的和弦数据、节奏数据和音高数据，以及目标音乐的相关乐句序列中位于参考时间步之前的所有时间步的和弦数据、节奏数据和音高数据(作为条件)，通过有条件自回归方式生成目标时间步的音高数据。

具体地，可以通过第三有条件自回归模型生成目标音乐中每个乐句的每个时间步的节奏数据和音高数据，也即目标音乐的节奏序列和音高序列。

图7示出了一种节奏数据和音高数据的无条件自回归生成的具体流程图，参照图7，进一步可选地，步骤S4211(节奏数据的无条件自回归生成)具体可以包括：

步骤S4211-b1：对目标音乐中位于目标时间步之前的所有时间步的和弦数据进行编码，得到和弦隐表示，以及对目标音乐的相关乐句序列中位于参考时间步之前的所有时间步的和弦数据进行编码，得到条件和弦隐表示；

步骤S4211-b2：将目标音乐的相关乐句序列中位于参考时间步之前的所有时间步的节奏数据与该条件和弦隐表示进行向量连接，得到第三连接向量；

步骤S4211-b3：对第三连接向量进行编码，得到条件节奏表示；

步骤S4211-b4：将目标音乐中位于目标时间步之前的所有时间步的节奏数据、和弦隐表示和条件节奏表示进行向量连接，得到第四连接向量；

步骤S4211-b5：对第四连接向量进行解码，得到目标音乐中位于目标时间步之前的所有时间步的节奏数据的节奏隐表示；

步骤S4211-b6：根据该节奏隐表示，通过分类器确定目标时间步的节奏数据。

步骤S4221-b1：将目标音乐的相关乐句序列中位于参考时间步之前的所有时间步的音高数据与和弦隐表示进行向量连接，得到第五连接向量；

步骤S4221-b2：对第五连接向量进行编码，得到条件音高表示；

步骤S4221-b3：将目标音乐中位于目标时间步之前的所有时间步的音高数据、和弦隐表示、节奏隐表示和条件音高表示进行向量连接，得到第六连接向量；

步骤S4221-b4：对第六连接向量进行解码，得到目标音乐中位于目标时间步之前的所有时间步的音高数据的音高隐表示；

步骤S4221-b5：根据音高隐表示，通过分类器确定目标时间步的音高数据。

参照图7，第三有条件自回归模型可包括和弦编码器、节奏编码器、节奏解码器、音高编码器和音高解码器。设定目标音乐的总时间步数为T，第三有条件自回归模型可以根据目标音乐的和弦序列C_1:T＝{C1,…,CT}，以及相关乐句的和弦Cr、节奏Rr及音高Pr，生成目标音乐的节奏序列R_1:T＝{R1,…,RT}和音高序列P_1:T＝{P1,…,PT}。

和弦编码器将和弦序列C_1:T(其中包括目标时间步之前的所有时间步的和弦数据C_1:t-1)以及相关乐句序列的和弦序列Cr_1:t-1(即参考时间步之前的所有时间步的和弦数据)，分别通过BiLSTM编码得到目标音乐的和弦隐表示HC_1:T(其中包括目标时间步之前的所有时间步的和弦数据的和弦隐表示HC_1:t-1)，以及条件和弦隐表示HCr_1:t-1。

将相关乐句序列的节奏序列Rr_1:t-1与条件和弦隐表示HCr_1:t-1进行向量连接，得到第三连接向量，然后将第三连接向量送入节奏编码器进行编码，得到条件节奏表示ERcond_1:t-1。

R_1:t-1首先与和弦隐表示HC_1:t-1和条件节奏表示ERcond_1:t-1进行向量连接，得到第四连接向量，然后将第四连接向量送入节奏解码器进行解码，获得时间步1至t-1的节奏隐表示HR_1:t-1。最后，将HR_1:t-1送入前馈层和softmax层(即softmax分类器)，获得目标时间步t的节奏数据的预测概率Pr(R_t)，即得到了目标时间步t的节奏数据。

将相关乐句序列的音高序列Pr_1:t-1与条件和弦隐表示HCr_1:t-1进行向量连接，得到第五连接向量，然后将第五连接向量送入音高编码器进行编码，得到条件音高表示EPcond_1:t-1。

将音高数据P_1:t-1与和弦隐表示HC_1:t-1、节奏隐表示HR_1:t-1和条件音高表示EPcond_1:t-1进行向量连接，得到第六连接向量，然后将第六连接向量送入音高解码器，获得时间步1至t-1的音高隐表示HP_1:t-1，最后将HP_1:t-1送入前馈层和softmax层，获得目标时间步t的音高数据的预测概率Pr(P_t)，即得到了目标时间步t的音高数据。

其中，第三有条件自回归模型的损失由节奏损失和音高损失组成。节奏损失函数使用nll loss负对数似然损失函数，音高损失函数为避免样本不平衡造成的干扰，采用focal loss损失函数。

此外，该音乐生成方法还可以包括以下步骤：将目标音乐中任意乐句的和弦子序列替换为目标和弦子序列，以对目标音乐的和弦序列进行调控。

此外，该音乐生成方法还可以包括以下步骤：将目标音乐中任意乐句的旋律子序列替换为目标旋律子序列，以对目标音乐的旋律序列进行调控。

在本申请实施例中，将音乐生成分解为基于乐句的和弦子序列和旋律子序列的旋律生成。其中，每个乐句的和弦子序列和旋律序列均可进行替换，从而实现和弦和旋律的个性化人工干预，且人工干预的施加灵活可控，如此，使得生成的目标音乐具有了可控性。

综上，本申请实施例提供的音乐生成方法具有以下优点。

(1)多层次结构生成。自动化生成音乐的结构框架，包括主副歌段落的整体结构和各乐句间的局部关系，并据此将长时音乐生成拆分成以乐句为单位的分步条件生成，自上而下地指导生成音乐的结构。

(2)可解耦可控生成。将符号化音乐生成分解为和弦序列和旋律序列的生成。其中，每个乐句的和弦序列和旋律序列均可基于结构框架自动化生成并能够人为调控，本方法可直接提取生成的音乐的节奏型作为词格，且人工干预的施加灵活可控。

本申请实施例提供的音乐生成方法可以保证长时结构化生成的同时兼顾生成的可控性。

与本申请实施例提供的音乐生成方法相对应的，本申请实施例还提供一种音乐生成装置800。如图8所示，所述装置包括：

确定模块801，用于确定目标音乐的首个乐句；所述首个乐句包括第一和弦子序列和第一旋律子序列；

乐句结构生成模块802，用于根据所述首个乐句，自回归生成所述目标音乐的乐句结构信息；所述目标音乐的乐句结构信息包括所述目标音乐的各乐句对应的相关乐句，以及所述目标音乐的各乐句与对应的相关乐句之间的相关性类型；

和弦生成模块803，用于根据所述第一和弦子序列和所述目标音乐的乐句结构信息，生成所述目标音乐除所述首个乐句之外的各其余乐句的和弦子序列，得到所述目标音乐的和弦序列；

旋律生成模块804，用于根据所述目标音乐的和弦序列，生成所述目标音乐除所述首个乐句之外的各其余乐句的旋律子序列，得到所述目标音乐的旋律序列；

合并模块805，用于将所述目标音乐的和弦序列和旋律序列合并，得到所述目标音乐。

与本申请实施例提供的音乐生成方法相对应的，本申请实施例还提供了一种用于生成音乐的电子设备。如图9所示，所述电子设备包括：处理器901；以及存储器902，用于存储音乐生成方法的程序，该设备通电并通过所述处理器运行该音乐生成方法的程序后，执行如下步骤：

与本申请实施例提供的音乐生成方法相对应的，本申请实施例提供一种计算机可读存储介质，存储有音乐生成方法的程序，该程序被处理器运行，执行下述步骤：

需要说明的是，对于本申请实施例提供的装置、电子设备及计算机可读存储介质的详细描述可以参考对本申请实施例中对方法的相关描述，这里不再赘述。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他属性的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储介质或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种音乐生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一和弦子序列和所述目标音乐的乐句结构信息，生成所述目标音乐除所述首个乐句之外的各其余乐句的和弦子序列，得到所述目标音乐的和弦序列，包括：

根据所述第一和弦子序列和所述目标音乐的乐句结构信息，按照所述目标音乐的乐句顺序依次生成所述目标音乐除所述首个乐句之外的各其余乐句的和弦子序列，得到所述目标音乐的和弦序列。

3.根据权利要求2所述的方法，其特征在于，在所述目标音乐中，乐句对应的相关乐句位于所述乐句之前；所述根据所述第一和弦子序列和所述目标音乐的乐句结构信息，按照所述目标音乐的乐句顺序依次生成所述目标音乐除所述首个乐句之外的各其余乐句的和弦子序列，得到所述目标音乐的和弦序列，包括：

对于所述目标音乐中待生成和弦子序列的目标乐句，从所述目标音乐的乐句结构信息中，确定所述目标乐句与对应的相关乐句之间的相关性类型；

若所述目标乐句与对应的相关乐句之间的相关性类型指示所述目标乐句与对应的相关乐句的和弦进行不一致，则根据至少所述目标音乐中位于所述目标乐句之前的所有乐句的和弦子序列，自回归生成所述目标乐句的和弦子序列。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一和弦子序列和所述目标音乐的乐句结构信息，按照所述目标音乐的乐句顺序依次生成所述目标音乐除所述首个乐句之外的各其余乐句的和弦子序列，得到所述目标音乐的和弦序列，还包括：

若所述目标乐句与对应的相关乐句之间的相关性类型指示所述目标乐句与对应的相关乐句的和弦进行一致，则复制所述目标乐句对应的相关乐句的和弦子序列，作为所述目标乐句的和弦子序列。

5.根据权利要求3所述的方法，其特征在于，所述若所述目标乐句与对应的相关乐句之间的相关性类型指示所述目标乐句与对应的相关乐句的和弦进行不一致，则根据至少所述目标音乐中位于所述目标乐句之前的所有乐句的和弦子序列，自回归生成所述目标乐句的和弦子序列，包括：

若所述目标乐句与对应的相关乐句之间的相关性类型指示所述目标乐句与对应的相关乐句的和弦进行不一致且旋律无关，则根据所述目标音乐中位于所述目标乐句之前的所有乐句的和弦子序列，无条件自回归生成所述目标乐句的和弦子序列；

若所述目标乐句与对应的相关乐句之间的相关性类型指示所述目标乐句与对应的相关乐句的和弦进行不一致且旋律相关，则根据所述目标音乐中位于所述目标乐句之前的所有乐句的和弦子序列，以及所述目标乐句与对应的相关乐句之间的相关性类型，有条件自回归生成所述目标乐句的和弦子序列。

6.根据权利要求1所述的方法，其特征在于，所述根据所述目标音乐的和弦序列，生成所述目标音乐除所述首个乐句之外的各其余乐句的旋律子序列，得到所述目标音乐的旋律序列，包括：

根据所述目标音乐的和弦序列，按照所述目标音乐的乐句顺序依次生成所述目标音乐除所述首个乐句之外的各其余乐句的旋律子序列，得到所述目标音乐的旋律序列。

7.根据权利要求6所述的方法，其特征在于，所述目标音乐中的每个乐句在时间维度上包括多个时间步；所述根据所述目标音乐的和弦序列，按照所述目标音乐的乐句顺序依次生成所述目标音乐除所述首个乐句之外的各其余乐句的旋律子序列，得到所述目标音乐的旋律序列，包括：

对于所述目标音乐中待生成旋律子序列的目标乐句，根据所述目标音乐的和弦序列，按照所述目标乐句的时间步顺序依次生成所述目标乐句的各时间步的旋律数据，得到所述目标乐句的旋律子序列。

8.根据权利要求7所述的方法，其特征在于，所述目标乐句的和弦子序列包括所述目标乐句的各时间步的和弦数据；所述根据所述目标音乐的和弦序列，按照所述目标乐句的时间步顺序依次生成所述目标乐句的各时间步的旋律数据，得到所述目标乐句的旋律子序列，包括：

对于所述目标乐句中待生成旋律数据的目标时间步，从所述目标音乐的乐句结构信息中，确定所述目标乐句与对应的相关乐句之间的相关性类型；

若所述目标乐句与对应的相关乐句之间的相关性类型指示所述目标乐句与对应的相关乐句的节奏不一致，则根据至少所述目标音乐中位于所述目标时间步之前的所有时间步的和弦数据和旋律数据，自回归生成所述目标时间步的旋律数据。

9.根据权利要求8所述的方法，其特征在于，所述根据所述目标音乐的和弦序列，按照所述目标乐句的时间步顺序依次生成所述目标乐句的各时间步的旋律数据，得到所述目标乐句的旋律子序列，还包括：

若所述目标乐句与对应的相关乐句之间的相关性类型指示所述目标乐句与对应的相关乐句的节奏一致，则复制所述目标乐句对应的相关乐句中的同位置时间步的旋律数据，作为所述目标时间步的旋律数据；所述同位置时间步在所述目标乐句对应的相关乐句中的位置与所述目标时间步在所述目标乐句中的位置相同。

10.根据权利要求8所述的方法，其特征在于，所述旋律数据包括节奏数据和音高数据；所述若所述目标乐句与对应的相关乐句之间的相关性类型指示所述目标乐句与对应的相关乐句的节奏不一致，则根据至少所述目标音乐中位于所述目标时间步之前的所有时间步的和弦数据和旋律数据，自回归生成所述目标时间步的旋律数据，包括：

若所述目标乐句与对应的相关乐句之间的相关性类型指示所述目标乐句与对应的相关乐句的节奏不一致，则根据至少所述目标音乐中位于所述目标时间步之前的所有时间步的和弦数据和节奏数据，自回归生成所述目标时间步的节奏数据；

根据至少所述目标音乐中位于所述目标时间步之前的所有时间步的和弦数据、节奏数据和音高数据，自回归生成所述目标时间步的音高数据。

11.根据权利要求10所述的方法，其特征在于，所述若所述目标乐句与对应的相关乐句之间的相关性类型指示所述目标乐句与对应的相关乐句的节奏不一致，则根据至少所述目标音乐中位于所述目标时间步之前的所有时间步的和弦数据和节奏数据，自回归生成所述目标时间步的节奏数据，包括：

若所述目标乐句与对应的相关乐句之间的相关性类型指示所述目标乐句与对应的相关乐句的节奏不一致且音高不一致，则根据所述目标音乐中位于所述目标时间步之前的所有时间步的和弦数据和节奏数据，无条件自回归生成所述目标时间步的节奏数据；

所述根据至少所述目标音乐中位于所述目标时间步之前的所有时间步的和弦数据、节奏数据和音高数据，自回归生成所述目标时间步的音高数据，包括：

根据所述目标音乐中位于所述目标时间步之前的所有时间步的和弦数据、节奏数据和音高数据，无条件自回归生成所述目标时间步的音高数据。

12.根据权利要求11所述的方法，其特征在于，所述根据所述目标音乐中位于所述目标时间步之前的所有时间步的和弦数据和节奏数据，无条件自回归生成所述目标时间步的节奏数据，包括：

对所述目标音乐中位于所述目标时间步之前的所有时间步的和弦数据进行编码，得到和弦隐表示；

将所述目标音乐中位于所述目标时间步之前的所有时间步的节奏数据与所述和弦隐表示进行向量连接，得到第一连接向量；

对所述第一连接向量进行解码，得到所述目标音乐中位于所述目标时间步之前的所有时间步的节奏数据的节奏隐表示；

根据所述节奏隐表示，通过分类器确定所述目标时间步的节奏数据。

13.根据权利要求12所述的方法，其特征在于，所述根据至少所述目标音乐中位于所述目标时间步之前的所有时间步的和弦数据、节奏数据和音高数据，无条件自回归生成所述目标时间步的音高数据，包括：

将所述目标音乐中位于所述目标时间步之前的所有时间步的音高数据、所述和弦隐表示和所述节奏隐表示进行向量连接，得到第二连接向量；

对所述第二连接向量进行解码，得到所述目标音乐中位于所述目标时间步之前的所有时间步的音高数据的音高隐表示；

根据所述音高隐表示，通过分类器确定所述目标时间步的音高数据。

14.根据权利要求8所述的方法，其特征在于，所述若所述目标乐句与对应的相关乐句之间的相关性类型指示所述目标乐句与对应的相关乐句的节奏不一致，则根据至少所述目标音乐中位于所述目标时间步之前的所有时间步的和弦数据和节奏数据，自回归生成所述目标时间步的节奏数据，包括：

若所述目标乐句与对应的相关乐句之间的相关性类型指示所述目标乐句与对应的相关乐句的节奏不一致且音高一致，则根据所述目标音乐中位于所述目标时间步之前的所有时间步的和弦数据和节奏数据，以及所述目标音乐的相关乐句序列中位于参考时间步之前的所有时间步的和弦数据和节奏数据，有条件自回归生成所述目标时间步的节奏数据；所述相关乐句序列包括所述目标乐句对应的相关乐句和所述目标音乐中位于所述目标乐句之前的各乐句对应的相关乐句，所述参考时间步在所述相关乐句序列中的位置与所述目标时间步在所述目标音乐中的位置相同；

根据所述目标音乐中位于所述目标时间步之前的所有时间步的和弦数据、节奏数据和音高数据，以及所述目标音乐的相关乐句序列中位于所述参考时间步之前的所有时间步的和弦数据、节奏数据和音高数据，有条件自回归生成所述目标时间步的音高数据。

15.根据权利要求14所述的方法，其特征在于，所述根据所述目标音乐中位于所述目标时间步之前的所有时间步的和弦数据和节奏数据，以及所述目标音乐的相关乐句序列中位于参考时间步之前的所有时间步的和弦数据和节奏数据，有条件自回归生成所述目标时间步的节奏数据，包括：

对所述目标音乐中位于所述目标时间步之前的所有时间步的和弦数据进行编码，得到和弦隐表示，以及对所述目标音乐的相关乐句序列中位于所述参考时间步之前的所有时间步的和弦数据进行编码，得到条件和弦隐表示；

将所述目标音乐的相关乐句序列中位于所述参考时间步之前的所有时间步的节奏数据与所述条件和弦隐表示进行向量连接，得到第三连接向量；

对所述第三连接向量进行编码，得到条件节奏表示；

将所述目标音乐中位于所述目标时间步之前的所有时间步的节奏数据、所述和弦隐表示和所述条件节奏表示进行向量连接，得到第四连接向量；

对所述第四连接向量进行解码，得到所述目标音乐中位于所述目标时间步之前的所有时间步的节奏数据的节奏隐表示；

16.根据权利要求15所述的方法，其特征在于，所述根据所述目标音乐中位于所述目标时间步之前的所有时间步的和弦数据、节奏数据和音高数据，以及所述目标音乐的相关乐句序列中位于所述参考时间步之前的所有时间步的和弦数据、节奏数据和音高数据，有条件自回归生成所述目标时间步的音高数据，包括：

将所述目标音乐的相关乐句序列中位于所述参考时间步之前的所有时间步的音高数据与所述和弦隐表示进行向量连接，得到第五连接向量；

对所述第五连接向量进行编码，得到条件音高表示；

将所述目标音乐中位于所述目标时间步之前的所有时间步的音高数据、所述和弦隐表示、所述节奏隐表示和所述条件音高表示进行向量连接，得到第六连接向量；

对所述第六连接向量进行解码，得到所述目标音乐中位于所述目标时间步之前的所有时间步的音高数据的音高隐表示；

17.根据权利要求1所述的方法，其特征在于，所述根据所述首个乐句，自回归生成所述目标音乐的乐句结构信息，包括：

将所述首个乐句输入第一条件自回归模型，以使所述第一条件自回归模型输出所述目标音乐的乐句结构信息。

18.根据权利要求17所述的方法，其特征在于，所述方法还包括：

获取包括多个音乐数据的音乐数据集；

确定所述音乐数据的各乐句对应的相关乐句，以及所述音乐数据的各乐句与对应的相关乐句之间的相关性类型；

将所述音乐数据的各乐句、所述音乐数据的各乐句对应的相关乐句，以及所述音乐数据的各乐句与对应的相关乐句之间的相关性类型作为训练数据，对初始第一条件自回归模型进行训练，得到第一条件自回归模型。

19.根据权利要求18所述的方法，其特征在于，所述确定所述音乐数据的各乐句对应的相关乐句，以及所述音乐数据的各乐句与对应的相关乐句之间的相关性类型，包括：

对于所述音乐数据的每个乐句，确定所述乐句与所述音乐数据中除所述乐句之外的各其余乐句的旋律以及和弦进行的相关程度；

将所述音乐数据中除所述乐句之外的各其余乐句中与所述乐句的旋律以及和弦进行的相关程度最高的乐句确定为所述乐句对应的相关乐句；

根据所述乐句与对应的相关乐句的旋律以及和弦进行的相关程度，确定所述乐句与对应的相关乐句之间的相关性类型。

20.根据权利要求18所述的方法，其特征在于，所述获取包括多个音乐数据的音乐数据集之后，还包括：

统计所述音乐数据集中出现的多种音乐整体结构；

根据各所述音乐整体结构的出现频率，对所述音乐数据集中的各所述音乐数据进行采样，得到多个采样音乐数据；

所述将所述音乐数据的各乐句、所述音乐数据的各乐句对应的相关乐句，以及所述音乐数据的各乐句与对应的相关乐句之间的相关性类型作为训练数据，对初始第一条件自回归模型进行训练，得到第一条件自回归模型，包括：

将所述采样音乐数据的各乐句、所述采样音乐数据的各乐句对应的相关乐句，以及所述采样音乐数据的各乐句与对应的相关乐句之间的相关性类型作为训练数据，对初始第一条件自回归模型进行训练，得到第一条件自回归模型。

21.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述目标音乐中任意乐句的和弦子序列替换为目标和弦子序列，以对所述目标音乐的和弦序列进行调控。

22.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述目标音乐中任意乐句的旋律子序列替换为目标旋律子序列，以对所述目标音乐的旋律序列进行调控。

23.根据权利要求1所述的方法，其特征在于，所述相关性类型包括旋律或和弦进行相关类型，和旋律及和弦进行不相关类型。

24.根据权利要求23所述的方法，其特征在于，所述旋律或和弦进行相关类型包括旋律一致且和弦进行一致、旋律一致且和弦进行不一致、旋律变奏且和弦进行一致、旋律变奏且和弦进行不一致、节奏一致且和弦进行一致、节奏一致且和弦进行不一致，以及旋律无关且和弦进行一致；

所述旋律及和弦进行不相关类型包括旋律无关且和弦进行不一致。

25.一种音乐生成装置，其特征在于，所述装置包括：

26.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储程序，该电子设备通电并通过所述处理器运行该程序后，执行如权利要求1-24中任一项所述的方法。

27.一种计算机可读存储介质，其特征在于，存储有程序，该程序被处理器运行，执行如权利要求1-24中任一项所述的方法。