CN113223482A

CN113223482A - 一种基于神经网络的音乐生成方法、系统

Info

Publication number: CN113223482A
Application number: CN202110372661.7A
Authority: CN
Inventors: 马鹏程; 卢树强; 王晓岸
Original assignee: Beijing Brain Up Technology Co ltd
Current assignee: Beijing Brain Up Technology Co ltd
Priority date: 2021-04-07
Filing date: 2021-04-07
Publication date: 2021-08-06

Abstract

本发明公开了一种基于神经网络的音乐生成方法及系统，该方法包括数据采集模块获取特定音乐人的原始音乐序列数据；数据处理系统采用深度学习模型对原始音乐序列数据进行处理，并采用监管员机制对所述深度学习模型进行音乐特征约束，输出得到混轨音乐和单轨音乐；后期处理系统将得到的混轨音乐和单轨音乐，通过音乐修剪，以单轨作为整体音乐的补充合并，最后得到生成的音乐。该方法针对特定风格音乐进行长时间、连续方式的生成，实现自动化生成风格高度相似音乐的效果。

Description

一种基于神经网络的音乐生成方法、系统

技术领域

本发明涉及深度学习算法技术领域，特别是涉及一种基于神经网络的音乐生成方法、系统。

背景技术

音乐创作是指专业人员或作曲家创造具有音乐美的乐曲的复杂的精神与技能生茶过程。主要方式是按照不同音节对应时间序列关系进行组和，如旋律和和声，并配以相宜的节奏进行组织生产的具有特殊音色和纹理动态声波。音乐创作通常是受过专业音乐培训和教育的作曲家创造具有优美音乐美的乐曲，是一项极其复杂的技术和任务。

现有的音乐生成方法主要是通过专业人士的长时间灵感创作，耗时耗力，最终可能达不到理想的结果。另外，现有研究中出现的一些基于深度学习的音乐生成算法是对特定节律进行分析，而缺乏针对特定风格音乐进行长时间、连续方式的生成，缺乏自动化生成风格高度相似音乐的方法。

发明内容

本发明的目的是提供一种基于神经网络的音乐生成方法、系统，以针对特定风格音乐进行长时间、连续方式的生成，实现自动化生成风格高度相似的音乐。

为解决上述技术问题，本发明提供一种基于神经网络的音乐生成方法，包括：

数据采集模块获取特定音乐人的原始音乐序列数据；

数据处理系统采用深度学习模型对原始音乐序列数据进行处理，并采用监管员机制对所述深度学习模型进行音乐特征约束，输出得到混轨音乐和单轨音乐；

后期处理系统将得到的混轨音乐和单轨音乐，通过音乐修剪，以单轨作为整体音乐的补充合并，最后得到生成的音乐。

优选的，所述数据采集模块从音乐数据库中选择出特定音乐人的多首音乐作为训练数据集1，对所述多首音乐进行分轨提取后，将分轨音乐作为训练数据集2，由训练数据集1和训练数据集2组成原始音乐序列数据。

优选的，所述深度学习模型采用基于RNN机制的LSTM模型，实现遗忘和记忆机制，从而学习利用以前的信息对当前任务进行相应的操作。

优选的，所述监管员机制用于对LSTM模型的中间生产序列结果进行检查，对不满足音乐特征约束的序列进行剔除，使得LSTM模型的输入单个音乐序列不用过长。

优选的，所述音乐特征约束包括音调约束和音乐风格约束。

优选的，所述数据处理系统采用深度学习模型对原始音乐序列数据进行处理之前，还包括：

采用训练数据集1和训练数据集2对深度学习模型进行训练，得到训练后的深度学习模型。

本发明还提供一种基于神经网络的音乐生成系统，用于实现上述方法，包括：

数据采集模块，用于获取特定音乐人的原始音乐序列数据；

数据处理系统，用于采用深度学习模型对原始音乐序列数据进行处理，并采用监管员机制对所述深度学习模型进行音乐特征约束，输出得到混轨音乐和单轨音乐；

后期处理系统，用于将得到的混轨音乐和单轨音乐，通过音乐修剪，以单轨作为整体音乐的补充合并，最后得到生成的音乐。

本发明所提供的一种基于神经网络的音乐生成方法、系统，通过深度学习模型对原始音乐序列数据进行处理，并对数据进行音乐条件约束，通过后期音乐修剪得到自动化生成的音乐。本发明可以对特定风格音乐进行长时间、连续方式的生成，实现自动化生成风格高度相似的音乐，取得了优秀的音乐生成效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明所提供的一种基于神经网络的音乐生成方法的流程图；

图2为本发明所提供的RNN模型网络结构示意图；

图3为本发明所提供的一种基于神经网络的音乐生成系统的结构示意图。

具体实施方式

本发明的核心是提供一种基于神经网络的音乐生成方法、系统，以针对特定风格音乐进行长时间、连续方式的生成，实现自动化生成风格高度相似的音乐。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明所提供的一种基于神经网络的音乐生成方法的流程图。结合图1，本方法具体包含以下流程：

1、数据采集模块获取特定音乐人的原始音乐序列数据；

本实施例收集了著名音乐人周杰伦所作音乐的midi格式作曲素材，共250首。平均每首时长约2到4分钟，从中选择了满足3-4分钟时长的60首作为训练数据集1(Dataset1)。而后对60首midi歌曲进行了分轨提取与处理，将分轨音乐作为训练数据集2(Dataset2)。训练数据集1和训练数据集2作为原始音乐序列数据。

2、数据处理系统采用深度学习模型对原始音乐序列数据进行处理，并采用监管员机制对所述深度学习模型进行音乐特征约束；

其中，关于音乐数据结构与模型选择，具体如下：

定义1：如果M为音乐数据，则Mt∈N，N为有限集，Mt为t时刻该音乐的音节；

定义2：如果M为序列数据集，则Mt＝f(M(t-1),M(t-2),……M(t-n))；

定义3：如果M为音乐数据，则f(M)≤C，C为约束条件集。

音乐数据结构是一种标准化的时序数据，不同时刻的数据对应的是一个有限集，如定义1所述。同时，音乐又是一种时序关联数据，所具有的特性如定义2所述。最后，由于音乐的生产最后是需要满足一定美学和艺术功能需求的，所以音乐数据本身最后得需要对应的约束条件，如定义3所述。

基于上述定义1，定义2，定义3的音乐数据结构的特性，潜在的满足处理该类特征数据的模型方案有基于RNN结构的深度学习模型，基于专家设计的音乐规则组和模型的生成模型，基于神经网络进行音乐生成的模型，基于隐马尔可夫HMM的音乐序列生成模型，基于神经网络和搜索树结合的音乐生成模型，基于蒙特卡洛模拟采样进行的音乐生成模型，基于对抗生成网络GAN的音乐生成模型等。

结合生成音乐需求，除了满足时序特征处理的功能，还需要基于处理建模后进行音乐生成，本实施例优选能够捕捉更多时序信息的RNN(Recurrent Neural Network，循环神经网络)结构的LSTM(Long Short-Term Memory，长短期记忆网络)模型进行音乐序列数据处理，进行音乐合成。LSTM模型是一种特殊的RNN网络，该网络设计目的是为了解决长依赖问题。所有神经网络都具有神经网络的重复模块链的形式，该重复模块链具有简单的结构。例如单个tanh层。标准的RNN网络模型如图2所示。本文中利用深度学习模型对原始音乐序列数据进行时序特征处理。

对应的LSTM结构是基于RNN结构的改良模型，LSTM网络能够通过一种被称为“门”的结构对细胞状态进行删除或添加信息，“门”能够有选择性的决定让哪些信息通过，可以实现遗忘和记忆机制。所以利用其在进行音乐时序数据处理时，可将以前的信息与当前的任务进行连接。在这种情况下，相关信息与需要该信息的位置距离较近，而LSTM能够学习利用以前的信息对当前任务进行相应的操作。本实施例中，可用音乐模型通过利用以前的音乐序列信息来预测下一个音节和音符，而不需要其他的信息，通过前面的音乐风格就能推出后面的音节。

不管是RNN还是LSTM及其衍生模型，主要是随着时间推移进行顺序处理，长期信息及t-n时刻信息需要在进入t时刻单元前顺序遍历所有单元，这会导致梯度消失的问题。同时，虽然LSTM模型能够记住长期的信息，但是只能记住100个左右量级的序列，这对于长序列音乐生成会有一定的限制。同时，LSTM模型的训练对硬件要求非常高，即对计算单元要求较多，这使得计算时间会较慢。因此本实施例优选以LSTM作为主要模型架构，并通过监管器机制来进行音乐条件约束，从而使得LSTM处理序列要求降低，能够在音乐生成效率上进行提高，以此来满足音乐生成性能，规避LSTM模型本身的局限。

采用监管员机制主要是对LSTM的中间生产序列结果(即中间计算音乐序列)进行检查，然后并对不满足监管规则(即音乐特征约束，主要配置为音调约束和音乐风格约束)的序列进行剔除。这种机制会使得LSTM的输入单个音乐序列不用过长，实现处理速度和效率的提升，从而使得生成训练过程更加收敛。

3、后期处理系统将基于数据集1和数据集2训练的深度学习模型处理得到的混轨音乐和单轨音乐，通过音乐修剪，以单轨作为整体音乐的补充合并，最后得到生成的音乐。

此外，为了使LSTM模型的准确率得到优化提高，还可以对LSTM模型进行训练。在人工智能模型训练过程中，可使用4卡TitanXP GPU深度学习服务器，进行10000次左右的迭代训练，通过控制模型损失函数和Softmax函数实现准确率优化提高，最后使得模型有效率达到90％以上。

请参考图3，图3为本发明所提供的一种基于神经网络的音乐生成系统的结构示意图，该系统用于实现上述方法，包括：

数据采集模块101，用于获取特定音乐人的原始音乐序列数据；

数据处理系统102，用于采用深度学习模型对原始音乐序列数据进行处理，并采用监管员机制对所述深度学习模型进行音乐特征约束，输出得到混轨音乐和单轨音乐；

后期处理系统103，用于将得到的混轨音乐和单轨音乐，通过音乐修剪，以单轨作为整体音乐的补充合并，最后得到生成的音乐。

可见，该系统通过深度学习模型对原始音乐序列数据进行处理，并对数据进行音乐条件约束，通过后期音乐修剪得到自动化生成的音乐。本发明可以对特定风格音乐进行长时间、连续方式的生成，实现自动化生成风格高度相似的音乐，取得了优秀的音乐生成效果。

对于本发明提供的基于神经网络的音乐生成系统的介绍请参照前述的基于神经网络的音乐生成方法的实施例，本发明实施例在此不再赘述。本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的一种基于神经网络的音乐生成方法、系统进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种基于神经网络的音乐生成方法，其特征在于，包括：

数据采集模块获取特定音乐人的原始音乐序列数据；

2.如权利要求1所述的基于神经网络的音乐生成方法，其特征在于，所述数据采集模块从音乐数据库中选择出特定音乐人的多首音乐作为训练数据集1，对所述多首音乐进行分轨提取后，将分轨音乐作为训练数据集2，由训练数据集1和训练数据集2组成原始音乐序列数据。

3.如权利要求1所述的基于神经网络的音乐生成方法，其特征在于，所述深度学习模型采用基于RNN机制的LSTM模型，实现遗忘和记忆机制，从而学习利用以前的信息对当前任务进行相应的操作。

4.如权利要求3所述的基于神经网络的音乐生成方法，其特征在于，所述监管员机制用于对LSTM模型的中间生产序列结果进行检查，对不满足音乐特征约束的序列进行剔除，使得LSTM模型的输入单个音乐序列不用过长。

5.如权利要求1所述的基于神经网络的音乐生成方法，其特征在于，所述音乐特征约束包括音调约束和音乐风格约束。

6.如权利要求2所述的基于神经网络的音乐生成方法，其特征在于，所述数据处理系统采用深度学习模型对原始音乐序列数据进行处理之前，还包括：

7.一种基于神经网络的音乐生成系统，其特征在于，用于实现如权利要求1至6中任意一项所述的方法，包括：

数据采集模块，用于获取特定音乐人的原始音乐序列数据；