CN109727590A

CN109727590A - 基于循环神经网络的音乐生成方法及装置

Info

Publication number: CN109727590A
Application number: CN201811578987.XA
Authority: CN
Inventors: 尹学渊; 江天宇; 陈超
Original assignee: Chengdu Hi House Turning Technology Co Ltd
Current assignee: Chengdu Potential Artificial Intelligence Technology Co ltd
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2019-05-07
Anticipated expiration: 2038-12-24
Also published as: CN109727590B

Abstract

本发明公开了基于循环神经网络的音乐生成方法及装置，涉及深度学习技术领域，方法包括以下步骤：建立循环神经网络；将MIDI格式的第一音符序列进行预处理，得到训练数据集；通过训练数据集对循环神经网络进行训练，得到神经网络模型；通过神经网络模型及采样策略对输入的第二音符序列的各个音符事件进行计算、排序，输出第三音符序列；将第三音符序列解码转换为MIDI格式的音符序列文件；将音符序列文件转换为音频格式的输出文件；本发明通过神经网络模型生成音乐，借助深度神经网络强大的学习、表示能力，通过采样策略，快速有效的得到优质的旋律，便于用户生成原始的旋律，有效提高了音乐创作的效率。

Description

基于循环神经网络的音乐生成方法及装置

技术领域

本发明涉及深度学习技术领域，尤其是涉及基于循环神经网络的音乐生成方法及装置。

背景技术

音乐是一种重要的艺术形式，通常，音乐包涵旋律和和弦两种成分。其中，旋律是沿着时间顺序分布的集合，被广泛认为是音乐的最重要组成部分，具体而言，旋律是一系列音符沿时间分布的集合。其中，每个音符均包涵音高和时长两个要素，音高决定了这个音符的频率高低，时长则决定了这个音符将被弹奏多久。

现有的旋律生成、音乐生成方案都需要人工参与、人工预制参数，不能产生艺术性的音乐，本专利从海量的历史音乐数据中自动学习，无须人工预制参数，效果较好。

发明内容

为了解决上述问题，本发明提出了基于循环神经网络的音乐生成方法及装置，通过神经网络模型和采样技术，智能生成音乐文件。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明实施例提供了一种基于循环神经网络的音乐生成方法，包括以下步骤：

建立循环神经网络；

将MIDI格式的第一音符序列进行预处理，得到训练数据集；

通过训练数据集对循环神经网络进行训练，得到神经网络模型；

通过神经网络模型及采样策略对输入的第二音符序列的各个音符事件进行计算、排序，输出第三音符序列；

将所述第三音符序列解码转换为MIDI格式的音符序列文件；

将所述音符序列文件转换为音频格式的输出文件。

进一步的，所述预处理包括以下步骤：

以音高为纵坐标，以时间为横坐标建立坐标系；

设定时间步，将所述第一音符序列在横坐标时间轴上分割为多个时间步；

根据所述第一音符序列在每个时间步上的音高设定每个时间步的事件编号；

通过独热编码依次对所述第一音符序列的每个事件编号进行编码，得到第一音符序列的训练数据集。

进一步的，以最小音符时值作为所述时间步。

进一步的，纵坐标的范围为0～128，其中，1～127分别对应不同的音高，0表示继续输入前一个音符，128表示无音符输入。

优选的，所述循环神经网络包括依次连接的输入层、多个LSTM层、多个全连接层及输出层。

进一步的，所述采样策略包括：

设定音符事件为y(i)，i为大于0的自然数，所述第二音符序列的总时间步长为N；

将第二音符序列输入神经网络模型，将第二音符序列的各个音符事件按可能出现的概率输出；通过概率计算公式计算神经网络模型输出的音符序列各个音符事件在第n个时间步出现的最终概率，去掉神经网络模型输出的音符序列第一个音符事件，将在第n个时间步出现的最终概率最大的音符事件添加到神经网络模型输出的音符序列的末尾，得到新的音符序列，将得到的新的音符序列输入到神经网络模型，重复迭代过程，直至迭代次数达到N，结束迭代，得到所述第三音符序列，其中，i＝1,2，。。。，N，n＝1,2，。。。，N。

进一步的，所述概率计算公式为：

其中，e为自然对数，T为调节音符事件y_(i)概率分布的参数。

第二方面，本发明实施例提供了一种基于循环神经网络的音乐生成装置，包括：

数据输入模块，用于输入MIDI格式的音符序列；

数据预处理模块，用于建立以时间为横坐标及以音高为纵坐标的坐标系、设定时间步，并将输入的音符序列在横坐标上以时间步为单位进行分割，对每个时间步按音高进行编号，并通过独热编码对各个编号进行二进制编码，提取音符序列的各个音符事件，得到音符序列的数据集；

模型训练模块，用于通过音符序列的数据集构建循环神经网络算法；

数据处理模块，用于通过循环神经网络算法计算各音符事件可能出现的概率，输出处理后的音符序列；

采样模块，用于计算数据处理模块输出的音符序列各个音符事件的最终出现概率并排序，输出最终音符序列；

解码模块，用于将最终音符序列解码、转换为MIDI格式的最终音符序列；

转换模块，用于将MIDI格式的最终音符序列转换为音频格式的文件。

与现有技术相比，本发明的有益效果在于：

通过神经网络模型生成音乐，借助深度神经网络强大的学习、表示能力，通过采样策略，快速有效的得到优质的旋律，便于用户生成原始的旋律，有效提高了音乐创作的效率。

附图说明

图1为本发明优选实施例的流程图；

图2为本发明优选实施例的坐标系示意图；

图3为本发明优选实施例的循环神经网络结构示意图；

图4为本发明优选实施例的采样策略流程图；

图5为本发明优选实施例的基于循环神经网络的音乐生成装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种基于循环神经网络的音乐生成方法，应用于基于循环神经网络的音乐生成装置，也可以独立实施，包括以下步骤；：

建立循环神经网络；

将MIDI格式的第一音符序列进行预处理，得到训练数据集；

通过神经网络模型及采样策略对输入的第二音符序列的各个音符事件进行计算、排序，输出第三音符序列，第二音符序列可以由用户指定或者随机从音符列表中选择；

将第三音符序列解码转换为MIDI格式的音符序列文件；

将音符序列文件转换为音频格式的输出文件。

预处理包括以下步骤：

如图2所示，以音高为纵坐标，以时间为横坐标建立坐标系；

设定时间步，以输入的最小音符时值作为时间步,以时间步为单位，将第一音符序列在横坐标时间轴上分割为多个时间步,本实施例以64分音符时值作为时间步，设定64分音符的时值为1，则32分音符为2，16分音符为4，依次类推；

根据MIDI格式的规定，纵坐标的范围为0～128，其中，1～127分别对应不同的音高，0表示继续输入前一个音符，128表示无音符输入。

根据第一音符序列在每个时间步上的音高设定每个时间步的事件编号，得到长度为总时间步长的音符事件序列；

通过独热编码依次对第一音符序列的每个事件编号进行编码，得到第一音符序列的训练数据集，具体为，根据每个时间步上的音高编号，对各个编号采用独热编码为由0和1组成的数据序列的集合，具体为，事件编号为1时，其对应的独热编码为第一位为1，其余位为0，事件编号为2时，其对应的独热编码为第二位为1，其余位为0，以此类推。

如图3所示，本实施例采用LSTM循环神经网络，包括依次连接的输入层、3个LSTM层、2个全连接层及输出层，输出层采用softmax函数，通过训练数据集对LSTM循环神经网络进行训练，得到LSTM模型。

循环神经网络利用深层网络强大的处理、记忆能力处理序列数据，对于具有常规结构的序列型数据具有很好的效果，因此本专利将循环神经网络应用于旋律生成,音乐作品中的旋律符合乐理，遵循一定规律，具有统计结构，与自然语言处理中的语言模型类似，音乐中存在“音乐模型”,假设音符序列表示为<note-1,note-2,note-3,…,note-s>，音乐生成问题可以转换为，在已知前s个音符的情况下，预测下一个最有可能出现的音符，借助语言模型中常用的循环神经网络，本发明在音乐生成任务中引入长短时记忆网络(LSTM)，表示音乐模型，学习音乐数据的隐空间(Latent Spaces)。

如图4所示，采样策略包括：

设定音符事件为y_(i)，i为大于0的自然数，第二音符序列的总时间步长为N；

将第二音符序列输入LSTM模型，将第二音符序列的各个音符事件按可能出现的概率输出；通过概率计算公式计算LSTM模型输出的音符序列各个音符事件在第n个时间步出现的最终概率，去掉LSTM模型输出的音符序列第一个音符事件，将在第n个时间步出现的最终概率最大的音符事件添加到LSTM模型输出的音符序列的末尾，得到新的音符序列，将得到的新的音符序列输入到LSTM模型，重复迭代过程，直至迭代次数达到N，结束迭代，得到第三音符序列，其中，i＝1,2，。。。，N，n＝1,2，。。。，N。

具体过程为：

设定初始音符或者初始音符序列，本实施例以第二音符序列作为初始音符序列，设为音符序列1，设定总时间步步长N，表示初始音符序列的长度；

将总时间步步长为N的,音符序列1按照数据预处理方式转换为向量序列，输入到LSTM模型中，将音符序列1的每个音符事件按可能的概率输出；

通过概率计算公式，得到经LSTM模型输出的音符序列的各音符事件在第1时间步的最终出现概率最大的音符事件，去掉音符序列1的第一个音符事件，设定为音符1，将得到的最终出现概率最大的音符事件加入到音符序列1的末尾，生成新的音符序列2；

将音符序列2输入LSTM模型，将音符序列2的每个音符事件按可能的概率输出；通过概率计算公式，得到经LSTM模型输出的音符序列的各音符事件在第1时间步的最终出现概率最大的音符事件，去掉音符序列2的第一个音符事件，设定为音符2，将得到的最终出现概率最大的音符事件加入到音符序列2的末尾，生成新的音符序列3；

以此类推，重复上述迭代过程，直至迭代次数达到指定长度N，跳出上述循环，得到经排序后的最终序列，即第三音符序列。

进一步的，概率计算公式为：

其中，e为自然对数，T为调节音符事件y(i)概率分布的参数，当T＝1时，对应原始的Softmax分布，T值越小，得到的最终的音符序列越趋于稳定，T值越大，得到的最终的音符序列越趋于无序，更容易得到艺术性的效果，为各音符事件在第i时间步的最终出现概率。

如图5所示，本发明实施例提供了一种基于循环神经网络的音乐生成装置，包括：

数据输入模块，用于输入MIDI格式的音符序列；

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

Claims

1.基于循环神经网络的音乐生成方法，其特征在于，包括以下步骤；

建立循环神经网络；

将MIDI格式的第一音符序列进行预处理，得到训练数据集；

将所述第三音符序列解码转换为MIDI格式的音符序列文件；

将所述音符序列文件转换为音频格式的输出文件。

2.根据权利要求1所述的基于循环神经网络的音乐生成方法，其特征在于，所述预处理包括以下步骤：

以音高为纵坐标，以时间为横坐标建立坐标系；

3.根据权利要求2所述的基于循环神经网络的音乐生成方法，其特征在于，以最小音符时值作为所述时间步。

4.根据权利要求2所述的基于循环神经网络的音乐生成方法，其特征在于，纵坐标的范围为0～128，其中，1～127分别对应不同的音高，0表示继续输入前一个音符，128表示无音符输入。

5.根据权利要求1所述的基于循环神经网络的音乐生成方法，其特征在于，所述循环神经网络包括依次连接的输入层、多个LSTM层、多个全连接层及输出层。

6.根据权利要求2所述的基于循环神经网络的音乐生成方法，其特征在于，所述采样策略包括：

设定音符事件为y_(i)，i为大于0的自然数，所述第二音符序列的总时间步长为N；

7.根据权利要求6所述的基于循环神经网络的音乐生成方法，其特征在于，所述概率计算公式为：

其中，e为自然对数，T为调节音符事件y_(i)概率分布的参数。

8.基于循环神经网络的音乐生成装置，应用如权利要求1～7任意一项所述的基于循环神经网络的音乐生成方法，其特征在于，包括：

数据输入模块，用于输入MIDI格式的音符序列；