CN112435642B

CN112435642B - 一种基于深度神经网络的旋律midi伴奏生成方法

Info

Publication number: CN112435642B
Application number: CN202011264139.9A
Authority: CN
Inventors: 计紫豪; 汪凯巍
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2022-08-26
Anticipated expiration: 2040-11-12
Also published as: CN112435642A

Abstract

本发明公开了一种基于深度神经网络的旋律MIDI伴奏生成方法，属于人工智能、音乐科技技术领域。该旋律MIDI伴奏生成方法包括收集有体裁标签的MIDI数据集，将MIDI数据集处理后获得数据集，通过MuMIDI进行编码，获得词条，将词条输入GC‑Transformer模型中进行训练，直至总损失函数收敛，完成对GC‑Transformer模型的训练，最后将仅含有旋律的MIDI片段进行编码，并输入至训练好的GC‑Transformer模型中，最终输出生成好伴奏的MIDI片段。本发明的旋律MIDI伴奏生成方法具有生成时间短、生成质量高、耗费硬件资源少、训练数据量少等诸多优点。

Description

一种基于深度神经网络的旋律MIDI伴奏生成方法

技术领域

本发明涉及人工智能、音乐科技技术领域，特别涉及一种基于深度神经网络的旋律MIDI伴奏生成方法。

背景技术

艺术创作一直以来被认为是艺术家的专属领域，然而在近几年来，随着深度学习的发展，艺术创作取得了重大进展，达到了前所未有的高度，比如可以生成指定风格的绘画作品，或是生成可以通过图灵测试的音乐作品。音乐生成是一个巨大的领域，它面临着诸多挑战，尤其是当用户希望控制音乐生成的诸多属性时(比如生成的乐器种类数量，音乐体裁等)，所得到的音乐有很大的提升空间，将这一类任务统称条件可控的音乐生成。

目前主流的条件可控的音乐生成有以下几种工作：第一种是体裁可控的单一体裁的音乐生成，如

Hadjeres的DeepBach，Ji-Sung Kim的DeepJazz。两种工作均实现了指定体裁的音乐生成，但缺陷也很明显，它们均无法生成其他体裁的音乐。第二种是乐器种类数量可控，且可以将其中一个乐器作为条件的音乐生成，典型的工作如Hao-Wen Dong的MuseGAN。这个工作能够实现多轨道的伴奏生成，但它的缺点在于无法生成时间长度可控、体裁可控的音乐。第三种工作融合了上面工作的功能，可以实现时间长度可控、体裁可控的多轨道音乐，典型的例子如MuseNet；但其需要海量的MIDI作为训练集(数量级为百万级)，且由于训练的参数量大，使得要生成一个指定曲子，它的时间成本将会很高。同时该工作没有办法实现片段续写，旋律伴奏的功能，仅能从头开始生成指定时间的音乐片段，且其展示的demo中，各个轨道的音符密度较为稀疏，音乐的质量较低。综上所述，如果需要在短时间内作出一首风格可控任意时间长度的多轨道音乐片段，市面上没有现成的能够满足上述所有要求的方案。

发明内容

针对现有技术中存在的问题，本发明提供了一种基于深度神经网络的旋律MIDI伴奏生成方法。该方法能从多维度对生成的音乐进行控制，同时，也能拓展到从头开始的音乐生成的任务中去。

本发明的目的是通过如下技术方案实现的：一种基于深度神经网络的旋律MIDI伴奏生成方法，具体包括如下步骤：

(1)使用爬虫的方法在互联网上收集有体裁标签的MIDI数据集，并按照体裁标签进行分类；所述体裁包括：流行，乡村，爵士；

(2)将步骤(1)收集的MIDI数据经旋律抽取、轨道压缩、数据过滤、整曲分割、和弦识别后，获得MIDI片段，并将所述MIDI片段打乱，获得数据集；

(3)将所述数据集通过MuMIDI进行编码，获得词条，根据不同的任务将所述词条分成目标词条和条件词条；所述编码的维度包括：小节序数、音符位置、轨道序数、音符属性、和弦以及元属性；所述元属性中加入“体裁”符号，编码数据集的体裁信息；

(4)将目标词条和条件词条输入至GC-Transformer模型中进行训练，输出带有伴奏的MIDI片段，当总损失函数收敛时，完成对GC-Transformer模型的训练；保存训练后得到的GC-Transformer模型的参数和超参数；所述总损失函数为全局语义损失函数、体裁损失函数与语言模型损失函数之和；

(5)用户将仅含有旋律的MIDI片段进行编码，并输入至步骤(4)训练好的GC-Transformer模型中，最终输出生成好伴奏的MIDI片段。

进一步地，所述GC-Transformer模型包括：基础组件、语义表征组件和域对抗组件；所述语义表征组件与域对抗组件连接，所述语义表征组件与基础组件连接；

所述语义表征组件由递归编码器、递归参考编码器、条件词条的隐层、多头语义注意力层、线性层组成；所述递归编码器、条件词条的隐层和线性层依次连接；所述递归参考编码器与多头语义注意力层连接；

所述基础组件由递归编码器、条件词条的隐层和递归解码器依次连接；

所述域对抗组件由梯度反转层、线性层、一维小批次正则层、Relu激活函数和线性层依次连接组成。

进一步地，其特征在于，所述超参数为：注意力层数为4，注意力头数为8，编码器层数为4，编码器头数为8，解码器层数为8，解码器头数为8；所述参数为所有隐层的大小均为256，词嵌入维度为256，训练输入词条的长度和记忆长度均为512。

与现有技术相比，本发明具有如下有益效果：

(1)本发明能生成风格可控且时长任意的音乐片段；

(2)本发明所需训练数据量较少，通常在1k的量级；

(3)本发明耗费硬件资源少，生成时间短，在前向传播时可以使用非GPU硬件，如在CPU条件下也能实现平均每个小节1.5秒的生成时间；

(4)本发明生成音乐质量高，生成的音乐已通过图灵测试。

附图说明

图1为收集的MIDI数据处理流程图；

图2为GC-Transformer模型的结构图；

图3为输入的八小节旋律图；

图4为通过本发明方法生成的伴奏图。

具体实施方式

本发明公开了一种基于深度神经网络的旋律MIDI伴奏生成方法，具体包括如下步骤：

(1)使用爬虫的方法在互联网上收集有体裁标签的MIDI数据集，并按照体裁标签进行分类；所述体裁包括：流行，乡村，爵士；收集MIDI数据集的渠道包括FreeMidi网站、Lakh Midi Dataset公开数据集、MidiShow网站。

(2)将步骤(1)收集的MIDI数据经旋律抽取、轨道压缩、数据过滤、整曲分割、和弦识别后，获得MIDI片段，并将所述MIDI片段打乱，获得数据集；具体处理过程如图1所示，包括如下子步骤：

(2.1)旋律抽取：采用开源工具：Midi Miner，该工具的功能是可以分析出一首多轨道的Midi中哪一轨道是旋律轨。使用Midi Miner对收集的每一个MIDI数据的旋律轨进行标注，如果遇到没有旋律轨的情况，将MIDI数据中的音色改为长笛，即GM音色表序号为74的轨道标记为旋律轨，因为在大部分情况下，长笛音色被用作主旋律的音色。

(2.2)轨道压缩：对收集的每一个MIDI数据中，通常会含有各种复杂的乐器。而本发明的技术方案中仅要求五种乐器，分别是贝斯、鼓、吉他、钢琴和弦乐。因此，对于其他乐器演奏的轨道，直接丢弃，仅保留由上述乐器演奏的轨道。同时当有多个轨道是由同一种乐器演奏时，仅保留其中音符数量最多的一个轨道。

(2.3)数据过滤：对收集的每一个MIDI数据中的每一个轨道进行判断，若其少于二十个音符，则直接丢弃该轨道。然后再对每一个MIDI数据进行判断，若该MIDI数据没有旋律轨道或者仅有旋律轨道而没有其他轨道，则丢弃这个MIDI数据。

(2.4)整曲分割：本发明的模型只考虑4/4拍的音乐，因为这个拍号是目前音乐中使用最多的拍号。因此所有其他拍号的音乐均不考虑。所以我们对每一个MIDI数据做如下处理：MIDI数据中可能出现不同的拍号，以拍号变化的那个小节作为分界线，对每一个MIDI数据进行分割，最后仅保留拍号为4/4拍的MIDI数据。

(2.5)和弦识别：使用开源工具：Google Magenta的Chord Inference工具对MIDI数据的单轨道或者多轨道进行和弦识别，并最终得到一个和弦与拍数交替的python列表，如：['C',4,'F',4,'G',4,'C',4]，表示在谱号默认为4/4的情况下，每小节换一个和弦，分别为C，F，G，C。使用Chord Inference工具对每一个MIDI数据进行和弦识别，并将和弦标签打在MIDI格式的标记区，获得MIDI片段。

(2.6)获得数据集：经上述处理后，将MIDI片段打乱，获得各体裁的数据集；所述数据集分为训练集、测试集和验证集。

(3)将所述数据集通过MuMIDI采用离散序列的符号化音乐方式进行编码，获得词条，根据不同的任务将所述词条分成目标词条和条件词条，目标词条和条件词条唯一的区别是条件词条是已知的，目标词条是未知的，目标词条是根据条件词条预测得到。所述编码的维度包括：小节序数、音符位置、轨道序数、音符属性(音高，持续时间，响度)、和弦以及元属性；这种编码方法可以学习不同轨道之间音符的相关依赖，从而提高生成音乐的整体和谐性。所述元属性中加入“体裁”符号，编码数据集的体裁信息，具体来讲，仅考虑三种体裁：流行、乡村、爵士，因此，分别给这三种体裁一个体裁符号：0、1、2。这个信息将会作为元属性之一被编码。

(4)将目标词条和条件词条输入至GC-Transformer模型中进行训练，输出带有伴奏的MIDI片段，当总损失函数收敛时，完成对GC-Transformer模型的训练；保存训练后得到的GC-Transformer模型的参数和超参数，所述超参数为：注意力层数为4，注意力头数为8，编码器层数为4，编码器头数为8，解码器层数为8，解码器头数为8，编码器参数与语义表征组件编码器参数相同，且共享梯度；所述参数为所有隐层的大小均为256，词嵌入维度为256，训练输入词条的长度和记忆长度均为512。所述总损失函数为全局语义损失函数，体裁损失函数与语言模型损失函数之和。

如图2，所述GC-Transformer模型包括：基础组件、语义表征组件和域对抗组件；所述语义表征组件与域对抗组件连接，所述语义表征组件与基础组件连接；

所述语义表征组件由递归编码器、递归参考编码器、条件词条的隐层、多头语义注意力层、线性层组成；所述递归编码器、条件词条的隐层和线性层依次连接；所述递归参考编码器与多头语义注意力层连接；递归参考编码器与递归编码器具有相同的结构，且有独立的超参数和梯度。多头语义注意力层用于提取通过递归参考编码器的目标词条所含有的语义信息，最终输出全局语义逻辑值。虽然在推理阶段没有目标词条的输入，但仍旧希望保留语义信息，因此用一个线性层对条件词条进行编码，其输出维度与多头语义注意力层的输出相同。在训练阶段，语义表征组件的损失函数为全局语义损失函数，具体为线性层输出(全局语义概率预测值)和多头语义注意力层输出(全局语义概率值)的交叉熵。

所述基础组件由递归编码器、条件词条的隐层和递归解码器依次连接；该基础组件增加了递归的部分，这意味着编码器可以保存上个时间步的词条隐层，并将其与当前时间步的词条隐层连接。所述基础组件的损失函数为递归解码器输出的语言模型损失函数。

MIDI的伴奏中通常含有许多与体裁相关的语义信息，这会在推理阶段造成体裁元属性与全局语义逻辑预测中体裁信息的冲突，导致体裁预测的混乱。因此，我们设计了域对抗组件来解决这种混乱，所述域对抗组件由梯度反转层、线性层、一维小批次正则层、Relu激活函数和线性层依次连接组成。全局语义概率值进入梯度反转层，在正向传播中与正常层相同，在反向传播中，将返回原始梯度与负常数的乘积，然后全局语义概率值依次经过一个线性层、一个一维小批次正则层、一个Relu激活函数和一个线性层，最终得到域体裁概率。所述域对抗组件在训练阶段的损失函数为域体裁概率和体裁标签的负对数似然损失函数。

(5)用户将仅含有旋律的MIDI片段进行编码，并输入至步骤(4)训练好的GC-Transformer模型中，最终输出生成好伴奏的MIDI片段，该MIDI片段中除了有刚才的旋律轨道外，会多加数个不同乐器的轨道，分别为鼓，贝斯，吉他，弦乐，钢琴。

如图3，给出了一个八小节旋律，以五线谱的形式展示该旋律，将其输入本发明的GC-Transformer模型中，生成如图4所述的乐谱，在乐谱中的最下面一行为输入的旋律，其余轨道为生成的伴奏。在该乐谱案例中，速度从原本的133被转化为120，伴奏乐器分别为：鼓组，原音吉他，贝斯和钢琴共四种乐器。每种乐器在时间上与其他乐器的和弦都是相对应的。在每次生成过程中，伴奏所使用的乐器具有一定的随机性，但均是鼓，贝斯，吉他，弦乐和钢琴这五种乐器的集合。整个乐谱的音符密度适中，具有一定的欣赏性。

Claims

1.一种基于深度神经网络的旋律MIDI伴奏生成方法，其特征在于，具体包括如下步骤：

（1）使用爬虫的方法在互联网上收集有体裁标签的MIDI数据集，并按照体裁标签进行分类；所述体裁包括：流行，乡村，爵士；

（2）将步骤（1）收集的MIDI数据经旋律抽取、轨道压缩、数据过滤、整曲分割、和弦识别后，获得MIDI片段，并将所述MIDI片段打乱，获得数据集；

（3）将所述数据集通过MuMIDI进行编码，获得词条，根据不同的任务将所述词条分成目标词条和条件词条；所述编码的维度包括：小节序数、音符位置、轨道序数、音符属性、和弦以及元属性；所述元属性中加入“体裁”符号，编码数据集的体裁信息；

（4）将目标词条和条件词条输入至GC-Transformer模型中进行训练，输出带有伴奏的MIDI片段，当总损失函数收敛时，完成对GC-Transformer模型的训练；保存训练后得到的GC-Transformer模型的参数和超参数；所述总损失函数为全局语义损失函数、体裁损失函数与语言模型损失函数之和；

（5）用户将仅含有旋律的MIDI片段进行编码，并输入至步骤（4）训练好的GC-Transformer模型中，最终输出生成好伴奏的MIDI片段；

所述GC-Transformer模型包括：基础组件、语义表征组件和域对抗组件；所述语义表征组件与域对抗组件连接，所述语义表征组件与基础组件连接；

2.根据权利要求1所述基于深度神经网络的旋律MIDI伴奏生成方法，其特征在于，所述超参数为：注意力层数为4，注意力头数为8，编码器层数为4，编码器头数为8，解码器层数为8，解码器头数为8；所述参数为所有隐层的大小均为256，词嵌入维度为256，训练输入词条的长度和记忆长度均为512。