CN113066457A

CN113066457A - 梵叹音乐生成方法、装置、设备及存储介质

Info

Publication number: CN113066457A
Application number: CN202110285836.0A
Authority: CN
Inventors: 蒋慧军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2021-07-02
Anticipated expiration: 2041-03-17
Also published as: CN113066457B

Abstract

本发明涉及人工智能领域，公开了一种梵叹音乐生成方法、装置、设备及存储介质，用于提高梵叹音乐生成的准确性和多样性。梵叹音乐生成方法包括：从预设的梵叹音乐数据集中获取第一音乐片段信息和第二音乐片段信息；调用变分自编码器分别对第一音乐片段信息和第二音乐片段信息进行编码，得到第一低维向量序列和第二低维向量序列；通过结合注意力机制的循环神经网络模型对第一低维向量序列和第二低维向量序列进行修复处理，得到输出向量序列；通过变分自编码器对输出向量序列进行解码，得到多个音乐修复片段；按照多个音乐修复片段进行交互式音乐创作，得到目标梵叹音乐。此外，本发明还涉及区块链技术，目标梵叹音乐可存储于区块链节点中。

Description

梵叹音乐生成方法、装置、设备及存储介质

技术领域

本发明涉及人工智能的神经网络领域，尤其涉及一种梵叹音乐生成方法、装置、设备及存储介质。

背景技术

梵叹音乐属于佛教音乐，也属于音乐的一种类别，音乐作曲往往需要专业的作曲学习经验以及一定的创作天赋。目前有很多研究是利用深层生成模型来完成多种不同的音乐生成任务，如单音音乐生成、复调音乐生成等。但是这些模型生成的音乐只参考了过去的音乐语境，并没有参考未来的音乐语境。这种顺序生成音乐的方式限制了深层生成模型的交互性程度，并无法对特定部分进行调整。

在音乐创作研究中可以通过乐谱的修复来完成音乐创作，所以可以针对乐谱的修复方法展开研究。早期有针对音频修复方法的研究，主要是依靠矩阵分解、非局部相似度量和音频相似图等方法，但是这些方法只对基于音频的任务有效，不容易扩展到音乐符号中，所以对乐谱的修复与生成的效果不佳。后期在针对音乐符号展开的研究中，主要的方法是基于马尔科夫链蒙特卡洛方法(MCMC)和迭代梯度下降法，但是使用这些方法乐谱修复的速度较慢，不适合在交互的场景下应用。也有研究提出了预期循环神经网络RNN框架，该框架使用RNN在修复期间强制执行用户定义的约束，用户可以选择性地再生特定的音乐部分，进而完成交互性的实时生成。但是对于普通的RNN模型而言，随着输入的音乐长度增加，最终得出的乐谱修复结果准确性低。

发明内容

本发明提供了一种梵叹音乐生成方法、装置、设备及存储介质，用于提高梵叹音乐生成的准确性和多样性。

为实现上述目的，本发明第一方面提供了一种梵叹音乐生成方法，包括：从预设的梵叹音乐数据集中获取第一音乐片段信息和第二音乐片段信息，所述第一音乐片段信息和所述第二音乐片段信息为不衔接且不重叠的音乐片段；调用变分自编码器中的编码器分别对所述第一音乐片段信息和所述第二音乐片段信息进行编码，得到第一低维向量序列和第二低维向量序列；通过结合注意力机制的循环神经网络模型对所述第一低维向量序列和所述第二低维向量序列进行修复处理，得到输出向量序列；通过所述变分自编码器中的解码器对所述输出向量序列进行解码，得到多个音乐修复片段，每个音乐修复片段为符合上下文的音乐序列；按照所述多个音乐修复片段进行交互式音乐创作，得到目标梵叹音乐。

可选的，在本发明第一方面的第一种实现方式中，所述调用变分自编码器中的编码器分别对所述第一音乐片段信息和所述第二音乐片段信息进行编码，得到第一低维向量序列和第二低维向量序列，包括：对所述第一音乐片段信息和所述第二音乐片段信息分别进行数据预处理，得到第一处理后的音乐片段信息和第二处理后的音乐片段信息，并将所述第一处理后的音乐片段信息和所述第二处理后的音乐片段信息分别输入至变分自编码器中的编码器，所述编码器包括一个嵌入embedding网络层、一个双向长短期记忆网络层和两个线性层；通过所述embedding网络层、所述双向长短期记忆网络层和所述线性层依次分别对所述第一处理后的音乐片段信息和所述第二处理后的音乐片段信息进行编码处理，得到第一低维向量序列和第二低维向量序列。

可选的，在本发明第一方面的第二种实现方式中，所述通过所述embedding网络层、所述双向长短期记忆网络层和所述线性层依次分别对所述第一处理后的音乐片段信息和所述第二处理后的音乐片段信息进行编码处理，得到第一低维向量序列和第二低维向量序列，包括：通过所述embedding网络层分别对所述第一处理后的音乐片段信息和所述第二处理后的音乐片段信息进行特征向量提取，得到第一嵌入向量序列和第二嵌入向量序列；调用所述双向长短期记忆网络层分别对所述第一嵌入向量序列和所述第二嵌入向量序列进行标准化处理，得到第一标准化后的向量序列和第二标准化后的向量序列；基于所述线性层分别对所述第一标准化后的向量序列和所述第二标准化后的向量序列进行正态分布计算和随机采样，得到第一低维向量序列和第二低维向量序列。

可选的，在本发明第一方面的第三种实现方式中，所述通过结合注意力机制的循环神经网络模型对所述第一低维向量序列和所述第二低维向量序列进行修复处理，得到输出向量序列，包括：将所述第一低维向量序列和所述第二低维向量序列作为输入向量序列，通过所述结合注意力机制的循环神经网络模型中的双向上下文循环神经网络层对所述输入向量序列进行注意力处理和语义融合，得到融合特征向量序列；通过所述结合注意力机制的循环神经网络模型中的单向长短期记忆网络层对所述融合特征向量序列进行向量生成处理，得到隐藏向量序列，并将所述隐藏向量序列设置为输出向量序列。

可选的，在本发明第一方面的第四种实现方式中，所述通过所述变分自编码器中的解码器对所述输出向量序列进行解码，得到多个音乐修复片段，每个音乐修复片段为符合上下文的音乐序列，包括：将所述输出向量序列输入至所述变分自编码器中的解码器，调用双向循环神经网络层和线性网络层依次对所述输出向量序列进行解码，得到多个音乐修复片段，所述解码器包括所述双向循环神经网络层和所述线性网络层，每个音乐修复片段为符合上下文的音乐序列；获取梵叹音乐标识信息，按照所述梵叹音乐标识信息将所述多个音乐修复片段存储至预设数据库中。

可选的，在本发明第一方面的第五种实现方式中，所述按照所述多个音乐修复片段进行交互式音乐创作，得到目标梵叹音乐，包括：对每个音乐修复片段分别与所述第一音乐片段信息和所述第二音乐片段信息进行信息拼接，得到多个待验证音乐信息；通过预设音乐评分模型分别对所述多个待验证音乐信息进行评分，得到多个评分结果，按照所述多个评分结果确定目标梵叹音乐。

可选的，在本发明第一方面的第六种实现方式中，在所述从预设的梵叹音乐数据集中获取第一音乐片段信息和第二音乐片段信息，所述第一音乐片段信息和所述第二音乐片段信息为不衔接且不重叠的音乐片段之前，所述梵叹音乐生成方法还包括：基于预设的训练样本数据集进行模型预训练，得到预训练模型，所述预设的训练数据样本集包括海量的音乐乐谱数据；获取梵叹音乐样本数据集，并基于所述梵叹音乐样本数据集分别微调训练所述预训练模型和初始结合注意力机制的神经网络模型，得到所述变分自编码器和所述结合注意力机制的循环神经网络模型。

本发明第二方面提供了一种梵叹音乐生成装置，包括：获取模块，用于从预设的梵叹音乐数据集中获取第一音乐片段信息和第二音乐片段信息，所述第一音乐片段信息和所述第二音乐片段信息为不衔接且不重叠的音乐片段；编码模块，用于调用变分自编码器中的编码器分别对所述第一音乐片段信息和所述第二音乐片段信息进行编码，得到第一低维向量序列和第二低维向量序列；修复模块，用于通过结合注意力机制的循环神经网络模型对所述第一低维向量序列和所述第二低维向量序列进行修复处理，得到输出向量序列；解码模块，用于通过所述变分自编码器中的解码器对所述输出向量序列进行解码，得到多个音乐修复片段，每个音乐修复片段为符合上下文的音乐序列；创作模块，用于按照所述多个音乐修复片段进行交互式音乐创作，得到目标梵叹音乐。

可选的，在本发明第二方面的第一种实现方式中，所述编码模块包括：预处理单元，用于对所述第一音乐片段信息和所述第二音乐片段信息分别进行数据预处理，得到第一处理后的音乐片段信息和第二处理后的音乐片段信息，并将所述第一处理后的音乐片段信息和所述第二处理后的音乐片段信息分别输入至变分自编码器中的编码器，所述编码器包括一个嵌入embedding网络层、一个双向长短期记忆网络层和两个线性层；编码单元，用于通过所述embedding网络层、所述双向长短期记忆网络层和所述线性层依次分别对所述第一处理后的音乐片段信息和所述第二处理后的音乐片段信息进行编码处理，得到第一低维向量序列和第二低维向量序列。

可选的，在本发明第二方面的第二种实现方式中，所述编码单元具体用于：通过所述embedding网络层分别对所述第一处理后的音乐片段信息和所述第二处理后的音乐片段信息进行特征向量提取，得到第一嵌入向量序列和第二嵌入向量序列；调用所述双向长短期记忆网络层分别对所述第一嵌入向量序列和所述第二嵌入向量序列进行标准化处理，得到第一标准化后的向量序列和第二标准化后的向量序列；基于所述线性层分别对所述第一标准化后的向量序列和所述第二标准化后的向量序列进行正态分布计算和随机采样，得到第一低维向量序列和第二低维向量序列。

可选的，在本发明第二方面的第三种实现方式中，所述修复模块具体用于：将所述第一低维向量序列和所述第二低维向量序列作为输入向量序列，通过所述结合注意力机制的循环神经网络模型中的双向上下文循环神经网络层对所述输入向量序列进行注意力处理和语义融合，得到融合特征向量序列；通过所述结合注意力机制的循环神经网络模型中的单向长短期记忆网络层对所述融合特征向量序列进行向量生成处理，得到隐藏向量序列，并将所述隐藏向量序列设置为输出向量序列。

可选的，在本发明第二方面的第四种实现方式中，所述解码模块具体用于：将所述输出向量序列输入至所述变分自编码器中的解码器，调用双向循环神经网络层和线性网络层依次对所述输出向量序列进行解码，得到多个音乐修复片段，所述解码器包括所述双向循环神经网络层和所述线性网络层，每个音乐修复片段为符合上下文的音乐序列；获取梵叹音乐标识信息，按照所述梵叹音乐标识信息将所述多个音乐修复片段存储至预设数据库中。

可选的，在本发明第二方面的第五种实现方式中，所述创作模块具体用于：对每个音乐修复片段分别与所述第一音乐片段信息和所述第二音乐片段信息进行信息拼接，得到多个待验证音乐信息；通过预设音乐评分模型分别对所述多个待验证音乐信息进行评分，得到多个评分结果，按照所述多个评分结果确定目标梵叹音乐。

可选的，在本发明第二方面的第六种实现方式中，所述梵叹音乐生成装置还包括：预训练模块，用于基于预设的训练样本数据集进行模型预训练，得到预训练模型，所述预设的训练数据样本集包括海量的音乐乐谱数据；微调训练模块，用于获取梵叹音乐样本数据集，并基于所述梵叹音乐样本数据集分别微调训练所述预训练模型和初始结合注意力机制的神经网络模型，得到所述变分自编码器和所述结合注意力机制的循环神经网络模型。

本发明第三方面提供了一种梵叹音乐生成设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述梵叹音乐生成设备执行上述的梵叹音乐生成方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的梵叹音乐生成方法。

本发明提供的技术方案中，从预设的梵叹音乐数据集中获取第一音乐片段信息和第二音乐片段信息，所述第一音乐片段信息和所述第二音乐片段信息为不衔接且不重叠的音乐片段；调用变分自编码器中的编码器分别对所述第一音乐片段信息和所述第二音乐片段信息进行编码，得到第一低维向量序列和第二低维向量序列；通过结合注意力机制的循环神经网络模型对所述第一低维向量序列和所述第二低维向量序列进行修复处理，得到输出向量序列；通过所述变分自编码器中的解码器对所述输出向量序列进行解码，得到多个音乐修复片段，每个音乐修复片段为符合上下文的音乐序列；按照所述多个音乐修复片段进行交互式音乐创作，得到目标梵叹音乐。本发明实施例中，通过变分自编码器和结合注意力机制的循环神经网络模型对预设的梵叹音乐数据集中音乐片段依次进行编码、修复和解码处理，得到多个符合上下文的音乐修复序列，增加了音乐创造性与多样性，按照多个音乐修复序列进行交互式音乐创作，得到目标梵叹音乐。其中，变分自编码器采用抽象方式学习音乐的表示特征，结合注意力机制的循环神经网络模型用于预测时间序列上的音乐特征，包括续创和改编等，提高了梵叹音乐生成的准确性。

附图说明

图1为本发明实施例中梵叹音乐生成方法的一个实施例示意图；

图2为本发明实施例中梵叹音乐生成方法的另一个实施例示意图；

图3为本发明实施例中梵叹音乐生成装置的一个实施例示意图；

图4为本发明实施例中梵叹音乐生成装置的另一个实施例示意图；

图5为本发明实施例中梵叹音乐生成设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种梵叹音乐生成方法、装置、设备及存储介质，用于通过变分自编码器和结合注意力机制的循环神经网络模型对预设的梵叹音乐数据集中音乐片段依次进行编码、修复和解码处理，得到多个符合上下文的音乐修复序列，增加了音乐创造性与多样性。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中梵叹音乐生成方法的一个实施例包括：

101、从预设的梵叹音乐数据集中获取第一音乐片段信息和第二音乐片段信息，第一音乐片段信息和第二音乐片段信息为不衔接且不重叠的音乐片段。

其中，第一音乐片段信息和第二音乐片段信息为不衔接且不重叠的音乐片段，也就是，第一音乐片段信息的结束时刻早于第二音乐片段信息的开始时刻，或者第一音乐片段信息的开始时刻晚于第二音乐片段信息的结束时刻。

具体的，服务器获取梵叹音乐标识信息和修复类型；服务器根据梵叹音乐标识信息和修复类型从预设的梵叹音乐数据集中读取获取第一音乐片段信息和第二音乐片段信息，第一音乐片段信息和第二音乐片段信息为不衔接且不重叠的音乐片段。例如，第一音乐片段信息和第二音乐片段信息使用预设编码方式进行表示，例如，采用C4或者D4等表示乐谱中每个音符的音高，采用“_”表示音符的时长信息。

需要说明的是，预设的梵叹音乐数据集为待修复的梵叹音乐数据集合，可以存储在预设数据库中，预设数据库包括内存数据库或者关系数据库，也可以将每个梵叹音乐数据采用文件进行保存，例如，图片形式(.jpg或者.png)或者文本文档形式(.word)，具体此处不做限定。

可以理解的是，本发明的执行主体可以为梵叹音乐生成装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

102、调用变分自编码器中的编码器分别对第一音乐片段信息和第二音乐片段信息进行编码，得到第一低维向量序列和第二低维向量序列。

其中，变分自编码器为预先已训练好的编码器，服务器采用变分自编码器中的编码器分别对第一音乐片段信息和第二音乐片段信息进行降维处理，得到第一低维向量序列和第二低维向量序列。例如，第一音乐片段信息为“D4_,_,G4,_,_G4,_,F#4,_G4,_,F#4,_,_G4,_,_,A4,_,_C5,_,_”，其中，时值的最小单位为十六分之一音符，服务器调用变分自编码器中的编码器获取第一低维向量序列为“15,3,3,32,3,3,18,3,21,3,32,3,21,3,3,32,3,3,8,3,3,25,3,3”。需要说明的是，服务器对第二音乐片段信息的处理过程与第一音乐片段信息处理过程相似，具体此处不再赘述。

103、通过结合注意力机制的循环神经网络模型对第一低维向量序列和第二低维向量序列进行修复处理，得到输出向量序列。

其中，结合注意力机制的循环神经网络模型为旋律生成模型。具体的，服务器调用结合注意力机制的循环神经网络模型中的上下文RNN循环神经网络层按照时刻先后顺序处理对第一低维向量序列和第二低维向量序列进行特征融合处理，并将融合处理后的特征向量作为生成器RNN(属于结合注意力机制的循环神经网络模型)的初始输入，得到生成器RNN的输出向量序列。其中，结合注意力机制的循环神经网络模型提高了音乐创作的多样性。

104、通过变分自编码器中的解码器对输出向量序列进行解码，得到多个音乐修复片段，每个音乐修复片段为符合上下文的音乐序列。

其中，变分自编码器中的解码器也是预先训练好的编码器。每个音乐修复片段为符合上下文的音乐序列，用于衔接第一音乐片段信息和第二音乐片段信息。具体的，服务器将输出向量序列输入至变分自编码器中的解码器中，通过变分自编码器中的解码器对输出向量序列进行解码处理，得到多个音乐修复片段，每个音乐修复片段为符合上下文的音乐序列。例如，服务器将输出向量序列为“15,3,3,32,3,3,18,3,21,3,32,3,21,3,3,32,3,3,8,3,3,25,3,3”生成的一个音乐修复片段为“D4_,_,G4,_,_G4,_,F#4,_G4,_,F#4,_,_G4,_,_,A4,_,_C5,_,_”。

进一步地，服务器将多个音乐修复片段分别转换为目标格式音乐文件，并对目标格式音乐文件进行存储。例如，目标格式音乐文件为MIDI格式音乐文件，也可以为其他格式的音乐文件，具体此处不做限定。

105、按照多个音乐修复片段进行交互式音乐创作，得到目标梵叹音乐。

其中，目标梵叹音乐为合成的梵叹音乐，具有明确的梵叹节奏和旋律，同时目标梵叹音乐中各音乐元素之间协和一致。因此，服务器可以将多个音乐修复片段分别结合第一音乐片段信息和第二音乐片段信息进行交互式音乐创作，得到目标梵叹音乐。例如，服务器得到多个音乐修复片段C₁、C₂、C₃、C₄、C₅和C₆，服务器筛选出音乐修复片段C₅，并将音乐修复片段C₅与第一音乐片段信息C_p和第二音乐片段信息C_f结合的音乐片段设置为目标梵叹音乐。进一步地，服务器还可以将目标梵叹音乐与其他音乐片段(同一首梵叹音乐中的剩余音乐片段)进行融合与生成处理，创建一首完整的梵叹音乐。进一步地，将目标梵叹音乐存储于区块链数据库中，具体此处不做限定。可以理解的是，服务器针对任意两个时序不重叠的梵叹音乐片段进行编码、修复与解码处理，得到具有上下文音乐语境意义的多个音乐修复片段。而服务器对修复和创作梵叹音乐作品的过程，不仅参考了过去的音乐语境，还将未来的音乐语境融入到创作过程中。也就是，服务器在利用模型学习完整的梵叹音乐背景的情况下，对梵叹乐谱中缺失信息的填补修复，从而实现交互式的梵叹音乐生成。

本发明实施例中，通过变分自编码器和结合注意力机制的循环神经网络模型对预设的梵叹音乐数据集中音乐片段依次进行编码、修复和解码处理，得到多个符合上下文的音乐修复序列，增加了音乐创造性与多样性，按照多个音乐修复序列进行交互式音乐创作，得到目标梵叹音乐。其中，变分自编码器采用抽象方式学习音乐的表示特征，结合注意力机制的循环神经网络模型用于预测时间序列上的音乐特征，包括续创和改编等，提高了梵叹音乐生成的准确性。

请参阅图2，本发明实施例中梵叹音乐生成方法的另一个实施例包括：

201、从预设的梵叹音乐数据集中获取第一音乐片段信息和第二音乐片段信息，第一音乐片段信息和第二音乐片段信息为不衔接且不重叠的音乐片段。

该步骤201与步骤101的执行过程相似，具体此处不再赘述。

202、对第一音乐片段信息和第二音乐片段信息分别进行数据预处理，得到第一处理后的音乐片段信息和第二处理后的音乐片段信息，并将第一处理后的音乐片段信息和第二处理后的音乐片段信息分别输入至变分自编码器中的编码器，编码器包括一个嵌入embedding网络层、一个双向长短期记忆网络层和两个线性层。

其中，两个线性层的网络结构相同。具体的，服务器从第一音乐片段信息和第二音乐片段信息中分别获取多个音乐音素；服务器判断多个音乐音素是否符合预定义的梵叹音乐标准；若多个音乐音素全部符合预定义的梵叹音乐标准，则服务器确定第一音乐片段信息和第二音乐片段信息对应的乐谱合格；若至少一个音乐音素不符合预定义的梵叹音乐标准，则服务器对不符合预定的梵叹音乐标准的音乐音素进行修正处理，得到第一处理后的音乐片段信息和第二处理后的音乐片段信息，并将第一处理后的音乐片段信息和第二处理后的音乐片段信息按照梵叹音乐标识信息映射存储至预设数据库中。

进一步地，服务器对第一处理后的音乐片段信息和第二处理后的音乐片段信息分别输入至变分自编码器中的编码器中的输入层中，编码器还可以包括一个嵌入embedding网络层、一个双向长短期记忆网络层和两个线性层，具体粗出不做限定。

203、通过embedding网络层、双向长短期记忆网络层和线性层依次分别对第一处理后的音乐片段信息和第二处理后的音乐片段信息进行编码处理，得到第一低维向量序列和第二低维向量序列。

可以理解的是，服务器通过embedding网络层、双向长短期记忆网络层和线性层依次分别对第一处理后的音乐片段信息C_f和第二处理后的音乐片段信息C_p进行编码处理后，分别输出正太分布的均值μ和正太分布的随机数σ，接着服务器根据μ和σ确定正态分布后，基于正态分布确定隐空间向量Z_f和Z_p(也就是，第一低维向量序列和第二低维向量序列)，也就是Z_f和Z_p均服从N(μ,σ²)。可选的，服务器通过embedding网络层分别对第一处理后的音乐片段信息和第二处理后的音乐片段信息进行特征向量提取，得到第一嵌入向量序列和第二嵌入向量序列；服务器调用双向长短期记忆网络层分别对第一嵌入向量序列和第二嵌入向量序列进行标准化处理，得到第一标准化后的向量序列和第二标准化后的向量序列；服务器基于网络相同的线性层分别对第一标准化后的向量序列和第二标准化后的向量序列进行正态分布计算和随机采样，得到第一低维向量序列和第二低维向量序列。

进一步地，服务器计算σ的平方，得到正太分布的方差σ²，服务器对符合标准正态分布的第一标准化后的向量序列和第二标准化后的向量序列进行随机采样，得到采样值，服务器根据采样值、σ²和μ确定采样后的第一低维向量序列和第二低维向量序列。

204、通过结合注意力机制的循环神经网络模型对第一低维向量序列和第二低维向量序列进行修复处理，得到输出向量序列。

其中，结合注意力机制的循环神经网络模型为attention-RNN模型，attention-RNN模型包括双向上下文循环神经网络层和单向长短期记忆网络层。可选的，服务器将第一低维向量序列和第二低维向量序列作为输入向量序列，服务器通过结合注意力机制的循环神经网络模型中的双向上下文循环神经网络层对输入向量序列进行注意力处理和语义融合，得到融合特征向量序列；服务器通过结合注意力机制的循环神经网络模型中的单向长短期记忆网络层对融合特征向量序列进行向量生成处理，得到隐藏向量序列，并将隐藏向量序列设置为输出向量序列。也就是，服务器通过attention-RNN模型将Z_f和Z_p转换为输出向量序列Z_i。

205、通过变分自编码器中的解码器对输出向量序列进行解码，得到多个音乐修复片段，每个音乐修复片段为符合上下文的音乐序列。

也就是，服务器变分自编码器的解码器将输出向量序列Z_i解码多个音乐修复片段，每个音乐修复片段为符合上下文的音乐序列，转换成midi格式音乐文件C_i，其中i的取值范围为正整数。可选的，服务器将输出向量序列输入至变分自编码器中的解码器，调用双向循环神经网络层和线性网络层依次对输出向量序列进行解码，得到多个音乐修复片段，解码器包括双向循环神经网络层和线性网络层，每个音乐修复片段为符合上下文的音乐序列；服务器获取梵叹音乐标识信息，按照梵叹音乐标识信息将多个音乐修复片段存储至预设数据库中。其中，梵叹音乐标识信息可以为music_001，也可以为其他字符组成，具体此处不做限定。

206、按照多个音乐修复片段进行交互式音乐创作，得到目标梵叹音乐。

其中，交互式音乐创作是指服务器基于第一音乐片段信息和第二音乐片段信息分别与每个音乐修复片段按照音乐时刻属性进行拼接，例如，服务器将第一音乐片段信息、每个音乐修复片段和第二音乐片段信息依次进行拼接，其中，第一音乐片段信息的结束时刻早于第二音乐片段信息的开始时刻；或者服务器将第二音乐片段信息、每个音乐修复片段和第一音乐片段信息依次进行拼接，其中，第一音乐片段信息的开始时刻晚于第二音乐片段信息的结束时刻。可选的，服务器对每个音乐修复片段分别与第一音乐片段信息和第二音乐片段信息进行信息拼接，得到多个待验证音乐信息；服务器通过预设音乐评分模型分别对多个待验证音乐信息进行评分，得到多个评分结果，服务器按照多个评分结果确定目标梵叹音乐。其中，预设音乐评分模型可以多维度音乐对多个待验证音乐信息进行评分，然后将各维度的评分进行加权计算，得到多个评分结果，多维度可包括音乐音调、音乐风格以及音乐情感等，还可以包括其他维度信息，具体此处不做限定。最后，服务器将多个评分结果按照分值从大到小顺序进行排列，筛选最高分值的评分结果，服务器将最高分值的评分结果对应的待验证音乐信息设置为目标梵叹音乐。

进一步地，服务器基于预设的训练样本数据集进行模型预训练，得到预训练模型，预设的训练数据样本集包括海量的音乐乐谱数据(例如，20万首音乐乐谱数据)，其中，预设的训练数据样本集可为大型可视化数据库imagenet，具体此处不做限定；服务器获取梵叹音乐样本数据集，并基于梵叹音乐样本数据集分别微调训练预训练模型和初始结合注意力机制的神经网络模型，具体的，服务器在训练模型的过程中，服务器采用均匀分布的采样方式抽取随机抽取要修复的梵叹音乐片段数和其上下文中的音乐梵叹片段数，将输入序列按照音乐片段衔接关系划分成过去上下文序列、未来上下文序列和目标上下文序列，训练模型，使其能在给定过去上下文序列和未来上下文序列的情况下预测出目标上下文序列。这种随机训练确保模型能够学习处理可变长度的上下文，并且能够在梵叹音乐的任意位置执行修复。结合注意力机制的神经网络模型可通过激活函数softmax计算输入训练音乐片段的权值，随着训练的进行，学习编码器输入的梵叹音乐片段中重要片段信息，并不断调整权值，以使得解码器产生更好的音乐创作结果。例如，服务器采用梯度下降算法对预训练模型和初始结合注意力机制的神经网络模型进行网络学习与参数调整，当损失值loss降低至预设阈值以下时，服务器确定模型训练结束，得到变分自编码器和结合注意力机制的循环神经网络模型。

需要说明的是，服务器还可以将多个音乐修复片段添加至梵叹音乐样本数据集中，得到更新后的梵叹音乐样本数据集中，并基于更新后的梵叹音乐样本数据集对预训练模型和初始结合注意力机制的神经网络模型进行迭代优化。

上面对本发明实施例中梵叹音乐生成方法进行了描述，下面对本发明实施例中梵叹音乐生成装置进行描述，请参阅图3，本发明实施例中梵叹音乐生成装置的一个实施例包括：

获取模块301，用于从预设的梵叹音乐数据集中获取第一音乐片段信息和第二音乐片段信息，第一音乐片段信息和第二音乐片段信息为不衔接且不重叠的音乐片段；

编码模块302，用于调用变分自编码器中的编码器分别对第一音乐片段信息和第二音乐片段信息进行编码，得到第一低维向量序列和第二低维向量序列；

修复模块303，用于通过结合注意力机制的循环神经网络模型对第一低维向量序列和第二低维向量序列进行修复处理，得到输出向量序列；

解码模块304，用于通过变分自编码器中的解码器对输出向量序列进行解码，得到多个音乐修复片段，每个音乐修复片段为符合上下文的音乐序列；

创作模块305，用于按照多个音乐修复片段进行交互式音乐创作，得到目标梵叹音乐。

进一步地，将目标梵叹音乐存储于区块链数据库中，具体此处不做限定。

请参阅图4，本发明实施例中梵叹音乐生成装置的另一个实施例包括：

可选的，编码模块302还包括：

预处理单元3021，用于对第一音乐片段信息和第二音乐片段信息分别进行数据预处理，得到第一处理后的音乐片段信息和第二处理后的音乐片段信息，并将第一处理后的音乐片段信息和第二处理后的音乐片段信息分别输入至变分自编码器中的编码器，编码器包括一个嵌入embedding网络层、一个双向长短期记忆网络层和两个线性层；

编码单元3022，用于通过embedding网络层、双向长短期记忆网络层和线性层依次分别对第一处理后的音乐片段信息和第二处理后的音乐片段信息进行编码处理，得到第一低维向量序列和第二低维向量序列。

可选的，编码单元3022还可以具体用于：

通过embedding网络层分别对第一处理后的音乐片段信息和第二处理后的音乐片段信息进行特征向量提取，得到第一嵌入向量序列和第二嵌入向量序列；

调用双向长短期记忆网络层分别对第一嵌入向量序列和第二嵌入向量序列进行标准化处理，得到第一标准化后的向量序列和第二标准化后的向量序列；

基于线性层分别对第一标准化后的向量序列和第二标准化后的向量序列进行正态分布计算和随机采样，得到第一低维向量序列和第二低维向量序列。

可选的，修复模块303还可以具体用于：

将第一低维向量序列和第二低维向量序列作为输入向量序列，通过结合注意力机制的循环神经网络模型中的双向上下文循环神经网络层对输入向量序列进行注意力处理和语义融合，得到融合特征向量序列；

通过结合注意力机制的循环神经网络模型中的单向长短期记忆网络层对融合特征向量序列进行向量生成处理，得到隐藏向量序列，并将隐藏向量序列设置为输出向量序列。

可选的，解码模块304还可以具体用于：

将输出向量序列输入至变分自编码器中的解码器，调用双向循环神经网络层和线性网络层依次对输出向量序列进行解码，得到多个音乐修复片段，解码器包括双向循环神经网络层和线性网络层，每个音乐修复片段为符合上下文的音乐序列；

获取梵叹音乐标识信息，按照梵叹音乐标识信息将多个音乐修复片段存储至预设数据库中。

可选的，创作模块305还可以具体用于：

对每个音乐修复片段分别与第一音乐片段信息和第二音乐片段信息进行信息拼接，得到多个待验证音乐信息；

通过预设音乐评分模型分别对多个待验证音乐信息进行评分，得到多个评分结果，按照多个评分结果确定目标梵叹音乐。

可选的，梵叹音乐生成装置还包括：

预训练模块306，用于基于预设的训练样本数据集进行模型预训练，得到预训练模型，预设的训练数据样本集包括海量的音乐乐谱数据；

微调训练模块307，用于获取梵叹音乐样本数据集，并基于梵叹音乐样本数据集分别微调训练预训练模型和初始结合注意力机制的神经网络模型，得到变分自编码器和结合注意力机制的循环神经网络模型。

上面图3和图4从模块化的角度对本发明实施例中的梵叹音乐生成装置进行详细描述，下面从硬件处理的角度对本发明实施例中梵叹音乐生成设备进行详细描述。

图5是本发明实施例提供的一种梵叹音乐生成设备的结构示意图，该梵叹音乐生成设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对梵叹音乐生成设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在梵叹音乐生成设备500上执行存储介质530中的一系列指令操作。

梵叹音乐生成设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的梵叹音乐生成设备结构并不构成对梵叹音乐生成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述梵叹音乐生成方法的步骤。

本发明还提供一种梵叹音乐生成设备，所述梵叹音乐生成设备包括存储器和处理器，存储器中存储有指令，所述指令被处理器执行时，使得处理器执行上述各实施例中的所述梵叹音乐生成方法的步骤。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种梵叹音乐生成方法，其特征在于，所述梵叹音乐生成方法包括：

从预设的梵叹音乐数据集中获取第一音乐片段信息和第二音乐片段信息，所述第一音乐片段信息和所述第二音乐片段信息为不衔接且不重叠的音乐片段；

调用变分自编码器中的编码器分别对所述第一音乐片段信息和所述第二音乐片段信息进行编码，得到第一低维向量序列和第二低维向量序列；

通过结合注意力机制的循环神经网络模型对所述第一低维向量序列和所述第二低维向量序列进行修复处理，得到输出向量序列；

通过所述变分自编码器中的解码器对所述输出向量序列进行解码，得到多个音乐修复片段，每个音乐修复片段为符合上下文的音乐序列；

按照所述多个音乐修复片段进行交互式音乐创作，得到目标梵叹音乐。

2.根据权利要求1所述的梵叹音乐生成方法，其特征在于，所述调用变分自编码器中的编码器分别对所述第一音乐片段信息和所述第二音乐片段信息进行编码，得到第一低维向量序列和第二低维向量序列，包括：

对所述第一音乐片段信息和所述第二音乐片段信息分别进行数据预处理，得到第一处理后的音乐片段信息和第二处理后的音乐片段信息，并将所述第一处理后的音乐片段信息和所述第二处理后的音乐片段信息分别输入至变分自编码器中的编码器，所述编码器包括一个嵌入embedding网络层、一个双向长短期记忆网络层和两个线性层；

通过所述embedding网络层、所述双向长短期记忆网络层和所述线性层依次分别对所述第一处理后的音乐片段信息和所述第二处理后的音乐片段信息进行编码处理，得到第一低维向量序列和第二低维向量序列。

3.根据权利要求2所述的梵叹音乐生成方法，其特征在于，所述通过所述embedding网络层、所述双向长短期记忆网络层和所述线性层依次分别对所述第一处理后的音乐片段信息和所述第二处理后的音乐片段信息进行编码处理，得到第一低维向量序列和第二低维向量序列，包括：

通过所述embedding网络层分别对所述第一处理后的音乐片段信息和所述第二处理后的音乐片段信息进行特征向量提取，得到第一嵌入向量序列和第二嵌入向量序列；

调用所述双向长短期记忆网络层分别对所述第一嵌入向量序列和所述第二嵌入向量序列进行标准化处理，得到第一标准化后的向量序列和第二标准化后的向量序列；

基于所述线性层分别对所述第一标准化后的向量序列和所述第二标准化后的向量序列进行正态分布计算和随机采样，得到第一低维向量序列和第二低维向量序列。

4.根据权利要求1所述的梵叹音乐生成方法，其特征在于，所述通过结合注意力机制的循环神经网络模型对所述第一低维向量序列和所述第二低维向量序列进行修复处理，得到输出向量序列，包括：

将所述第一低维向量序列和所述第二低维向量序列作为输入向量序列，通过所述结合注意力机制的循环神经网络模型中的双向上下文循环神经网络层对所述输入向量序列进行注意力处理和语义融合，得到融合特征向量序列；

通过所述结合注意力机制的循环神经网络模型中的单向长短期记忆网络层对所述融合特征向量序列进行向量生成处理，得到隐藏向量序列，并将所述隐藏向量序列设置为输出向量序列。

5.根据权利要求1所述的梵叹音乐生成方法，其特征在于，所述通过所述变分自编码器中的解码器对所述输出向量序列进行解码，得到多个音乐修复片段，每个音乐修复片段为符合上下文的音乐序列，包括：

将所述输出向量序列输入至所述变分自编码器中的解码器，调用双向循环神经网络层和线性网络层依次对所述输出向量序列进行解码，得到多个音乐修复片段，所述解码器包括所述双向循环神经网络层和所述线性网络层，每个音乐修复片段为符合上下文的音乐序列；

获取梵叹音乐标识信息，按照所述梵叹音乐标识信息将所述多个音乐修复片段存储至预设数据库中。

6.根据权利要求1所述的梵叹音乐生成方法，其特征在于，所述按照所述多个音乐修复片段进行交互式音乐创作，得到目标梵叹音乐，包括：

对每个音乐修复片段分别与所述第一音乐片段信息和所述第二音乐片段信息进行信息拼接，得到多个待验证音乐信息；

通过预设音乐评分模型分别对所述多个待验证音乐信息进行评分，得到多个评分结果，按照所述多个评分结果确定目标梵叹音乐。

7.根据权利要求1-6中任意一项所述的梵叹音乐生成方法，其特征在于，在所述从预设的梵叹音乐数据集中获取第一音乐片段信息和第二音乐片段信息，所述第一音乐片段信息和所述第二音乐片段信息为不衔接且不重叠的音乐片段之前，所述梵叹音乐生成方法还包括：

基于预设的训练样本数据集进行模型预训练，得到预训练模型，所述预设的训练数据样本集包括海量的音乐乐谱数据；

获取梵叹音乐样本数据集，并基于所述梵叹音乐样本数据集分别微调训练所述预训练模型和初始结合注意力机制的神经网络模型，得到所述变分自编码器和所述结合注意力机制的循环神经网络模型。

8.一种梵叹音乐生成装置，其特征在于，所述梵叹音乐生成装置包括：

获取模块，用于从预设的梵叹音乐数据集中获取第一音乐片段信息和第二音乐片段信息，所述第一音乐片段信息和所述第二音乐片段信息为不衔接且不重叠的音乐片段；

编码模块，用于调用变分自编码器中的编码器分别对所述第一音乐片段信息和所述第二音乐片段信息进行编码，得到第一低维向量序列和第二低维向量序列；

修复模块，用于通过结合注意力机制的循环神经网络模型对所述第一低维向量序列和所述第二低维向量序列进行修复处理，得到输出向量序列；

解码模块，用于通过所述变分自编码器中的解码器对所述输出向量序列进行解码，得到多个音乐修复片段，每个音乐修复片段为符合上下文的音乐序列；

创作模块，用于按照所述多个音乐修复片段进行交互式音乐创作，得到目标梵叹音乐。

9.一种梵叹音乐生成设备，其特征在于，所述梵叹音乐生成设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述梵叹音乐生成设备执行如权利要求1-7中任意一项所述的梵叹音乐生成方法。

10.一种计算机可读存储介质，其上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任意一项所述的梵叹音乐生成方法。