CN112017621B

CN112017621B - 基于对位和声关系的lstm多轨音乐生成方法

Info

Publication number: CN112017621B
Application number: CN202010772227.3A
Authority: CN
Inventors: 姚潇; 何欣楠; 徐宁; 王海滨; 刘小峰
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2024-05-28
Anticipated expiration: 2040-08-04
Also published as: CN112017621A

Abstract

本发明公开了基于对位和声关系的LSTM多轨音乐生成方法，包括如下步骤：S1，构建音频MIDI数据集，S2，提取MIDI文件中的主旋律与和声旋律，并且构建对位关系矩阵。S3，利用主旋律训练生成旋律的长短期神经网络，并用对位关系矩阵训练生成和声的长短期神经网络。通过两条网络分别生成多条旋律，合成为多轨音乐。本发明在音频MIDI数据集的基础上，实现了带有和声的复杂音乐旋律的生成，打破了传统基于和弦编曲的固定套路，为乐曲创作提供了一种新的方法。

Description

基于对位和声关系的LSTM多轨音乐生成方法

技术领域

本发明涉及一种基于对位和声关系的LSTM多轨音乐生成方法，属于计算机算法作曲领域。

背景技术

随着计算机和神经网络算法的不断发展，人工智能已经应用到众多的领域。在音乐创作方面，利用神经网络算法进行编曲已经取得了一定阶段的突破。对于现有的算法而言，大多通过对乐曲中音符的上下文关系进行分析，没有考虑伴奏及和声与主旋律直接的对位关系。

发明内容

发明目的：为了克服现有技术的不足，基于对位和声关系的LSTM(长短期神经网络)多轨音乐生成方法。

本发明采用的技术方案为：

一种基于对位和声关系的LSTM多轨音乐生成方法，具体包括以下步骤：

S1，构建音频MIDI数据集；

S2，提取MIDI文件中的主旋律与和声旋律，构建对位关系矩阵；

S3，利用主旋律训练生成旋律的长短期神经网络，并用对位关系矩阵训练生成和声的长短期神经网络，通过网络生成多轨音乐。

在所述步骤S2中，提取MIDI文件中的主旋律与和声旋律，构建对位关系矩阵，包括以下过程：

S21，选取MIDI文件中的主旋律，将非和声旋律剔除，其余旋律依次编号；

S22，将每时刻的旋律信息制作为矩阵，将每条和声旋律与主旋律做差值操作，得到对位关系矩阵。

在所述步骤S22中，将每条和声旋律与主旋律做差值操作，对位关系矩阵，包括以下过程：

MIDI文件由头块与音轨块组成，音轨块数据区包含以下两种信息：

其中，I_j表示第j条MIDI消息，Δt_i表示第i段MIDI消息所执行的时间长度，m_i表示第i段MIDI消息。MIDI消息存储该时间段内的音符，强弱等信息。值得注意的是，i＝0，表示主旋律所对应的音轨块数据区。

对位关系矩阵可根据以下公式得出：

D_j＝I_j-I₀

其中，D表示对位关系矩阵，对位关系矩阵通过计算差值，表示了和声旋律与主旋律之间的相对关系。

在所述步骤S3中，利用主旋律训练生成旋律的长短期神经网络，并用对位关系矩阵训练生成和声的长短期神经网络，包括以下过程：

S31：将主旋律送入一个长短期神经网络中进行训练，该长短期神经网络用以生成主旋律。

S32：将和声旋律送入另一个长短期神经网络中进行训练，该长短期神经网络用以生成多轨和声旋律。

S33：将生成的主旋律与多轨和声旋律融合，生成新的多轨音乐。

所述长短期神经网络由遗忘门、输入门和输出门构成。遗忘门决定上一时刻的单元状态C_t-1有多少保留到当前时刻的C_t，输入们决定当前时刻网络的输入x_t有多少保存到单元状态C_t，输出门控制单元状态C_t-1有多少输出到LSTM的当前输出值h_t。

在所述步骤S33中，生成的主旋律与多轨和声旋律融合，生成新的多轨音乐，采用对多轨道音频的直接混缩法进行融合。

在所述步骤S3中，长短期神经网络的遗忘门、输入门和输出门的激活函数分别各自采用了sigmoid函数与tanh函数。通过采用激活函数，可以将线性关系转化为非线性关系，便于神经网络判断更好地学习数据特征。

有益效果：

1.本发明提取了主旋律与和声旋律之间的特征，有助于神经网络算法能够更加直观地对和声旋律的生成进行处理。

2.本发明所使用了两次长短期神经网络，不仅可以生成一条新的旋律，而且可以在新旋律的基础上生成关于旋律的和声，大大简化了复杂情况下编曲的过程。

附图说明

图1所示为本发明的流程图；

图2所示为长短期神经网络结构图。

具体实施方法

下面结合附图对本发明作更进一步的说明。

下面结合实例对本发明作更进一步的说明。

如图1所示，基于对位和声关系的LSTM多轨音乐生成方法，首先构建音频MIDI数据集，提取MIDI文件中的主旋律与和声旋律，并且构建对位关系矩阵。利用主旋律训练生成旋律的长短期神经网络，并用对位关系矩阵训练生成和声的长短期神经网络。通过两条网络分别生成多条旋律，合成多轨音乐。具体过程如下：

S1，构建音频MIDI数据集；

从现有的开源音频MIDI数据集中获取多轨音频MIDI数据集。

将每条和声旋律与主旋律做差值操作，对位关系矩阵，包括以下过程：

对位关系矩阵可根据以下公式得出：

D_j＝I_j-I₀

S3，利用主旋律训练生成旋律的长短期神经网络，并用对位关系矩阵训练生成和声的长短期神经网络。通过网络生成多轨音乐。

利用主旋律训练生成旋律的长短期神经网络，并用对位关系矩阵训练生成和声的长短期神经网络，包括以下过程：

将主旋律送入一个长短期神经网络中进行训练，该长短期神经网络用以生成主旋律；

将和声旋律送入另一个长短期神经网络中进行训练，该长短期神经网络用以生成多轨和声旋律；

将生成的主旋律与多轨和声旋律融合，生成新的多轨音乐。

长短期神经网络由遗忘门、输入门和输出门构成。遗忘门决定上一时刻的单元状态C_t-1有多少保留到当前时刻的C_t，输入们决定当前时刻网络的输入x_t有多少保存到单元状态C_t，输出门控制单元状态C_t-1有多少输出到LSTM的当前输出值h_t。

将生成的主旋律与多轨和声旋律融合，生成新的多轨音乐。采用对多轨道音频的直接混缩法进行融合。

长短期神经网络的遗忘门、输入门和输出门的激活函数分别各自采用了sigmoid函数与tanh函数。通过采用激活函数，可以将线性关系转化为非线性关系，便于神经网络判断更好地学习数据特征。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于对位和声关系的LSTM多轨音乐生成方法，其特征在于包括以下步骤：

S1，构建音频MIDI数据集；

提取MIDI文件中的主旋律与和声旋律，构建对位关系矩阵，包括以下过程：

S22，将每时刻的旋律信息制作为矩阵，将每条和声旋律与主旋律做差值操作，得到对位关系矩阵；

将每条和声旋律与主旋律做差值操作，得到对位关系矩阵，包括以下过程：

其中，I_j表示第j条MIDI消息，Δt_i表示第i段MIDI消息所执行的时间长度，m_i表示第i段MIDI消息；MIDI消息存储该时间段内的音符，强弱的信息；i＝0，表示主旋律所对应的音轨块数据区；

对位关系矩阵根据以下公式得出：

D_j＝I_j-I₀

其中，D表示对位关系矩阵，对位关系矩阵通过计算差值，表示了和声旋律与主旋律之间的相对关系；

S3，利用主旋律训练生成旋律的长短期神经网络，并用对位关系矩阵训练生成和声的长短期神经网络；通过两条网络分别生成多条旋律，生成多轨音乐。

2.根据权利要求1所述的基于对位和声关系的LSTM多轨音乐生成方法，其特征在于所述步骤S3中，利用主旋律训练生成旋律的长短期神经网络，并用对位关系矩阵训练生成和声的长短期神经网络，包括以下过程：

S31：将主旋律送入一个长短期神经网络中进行训练，该长短期神经网络用以生成主旋律；

S32：将和声旋律送入另一个长短期神经网络中进行训练，该长短期神经网络用以生成多轨和声旋律；

3.根据权利要求2所述的基于对位和声关系的LSTM多轨音乐生成方法，其特征在于所述旋律长短期神经网络和和声的长短期神经网络由遗忘门、输入门和输出门构成；遗忘门决定上一时刻的单元状态C_t-1有多少保留到当前时刻的C_t，输入门决定当前时刻网络的输入x_t有多少保存到单元状态C_t，输出门控制单元状态C_t-1有多少输出到LSTM的当前输出值h_t。

4.根据权利要求2所述的基于对位和声关系的LSTM多轨音乐生成方法，其特征是在于步骤S33中采用对多轨道音频的直接混缩法对主旋律与多轨和声旋律进行融合。

5.根据权利要求2所述的基于对位和声关系的LSTM多轨音乐生成方法，其特征在于所述旋律长短期神经网络和和声的长短期神经网络的遗忘门、输入门和输出门的激活函数分别各自采用了sigmoid函数与tanh函数：

通过采用激活函数，将线性关系转化为非线性关系，便于神经网络判断更好地学习数据特征。