CN113299255A

CN113299255A - 基于深度神经网络和音乐元素驱动的情感音乐生成方法

Info

Publication number: CN113299255A
Application number: CN202110521289.1A
Authority: CN
Inventors: 郑凯桐; 桑晋秋; 孟瑞洁; 郑成诗; 李晓东; 蔡娟娟; 王杰
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2021-08-24

Abstract

本发明涉及智能音乐生成技术领域，尤其涉及基于深度神经网络和音乐元素驱动的情感音乐生成方法。所述方法包括：获取用户指定的情感类型，并转换为对应的音乐元素特征；将音乐元素特征输入预先建立和训练好的情感音乐生成模型，得到对应的情感音乐序列；对情感音乐序列进行解码及合成处理，得到情感音乐。本发明使用人工智能算法生成音乐，并将情感因素融入智能音乐的生成系统中，以提升智能音乐的艺术感染力和情感渲染力；并且情感音乐生成不依赖大量的人工标记音乐数据。

Description

基于深度神经网络和音乐元素驱动的情感音乐生成方法

技术领域

本发明涉及智能音乐生成技术领域，尤其涉及基于深度神经网络和音乐元素驱动的情感音乐生成方法。

背景技术

智能音乐生成方法运用人工智能方法进行机器作曲，通过模拟作曲家的创作思维，提高音乐的生成效率和音乐创作的普遍性，更促进了音乐与计算机科学、神经科学、心理学等多学科交叉领域的发展。国外在智能音乐生成领域发展较为迅速，国外人工智能巨头公司都对智能音乐生成技术展开了深入研究，我国在智能音乐生成领域发展尚处于起步阶段,智能音乐生成系统和作品还较为零星，还未形成完整体系，且作品的可听性有待提高。智能音乐生成是现今国内外计算机音乐领域的热点研究课题，也是深度学习网络在音乐创作方面的一个主要应用方向。递归神经网络及其变体已被广泛应用于序列数据的建模，其出色的时间建模能力使其适合于音乐生成。

情感是作曲家创作作品的重要元素，因此在音乐自动生成系统中十分重要。然而目前基于深度神经网络的音乐生成系统在生成音乐时很少考虑情感的影响，因此系统缺乏基于特定情感生成音乐的能力。

在音乐心理学中，音乐情感与音乐元素之间的关系已经被证实。大量实验结果表明，快速的音乐能够激发快乐和紧张的情绪，而缓慢的音乐能够激发平静和悲伤的情绪。用大调作曲的音乐能够激发正面的情绪，而用小调作曲的音乐能够激发负面的情绪。

目前的情感音乐生成模型大多基于情感标签，直接使用情感标签和对应情感的音乐进行标签映射，没有考虑音乐结构的影响。基于标签的方法需要一个人工标注的带有不同情绪标签的音乐数据集，人工标记这个音乐数据集需要大量的人力物力。本方法结合音乐心理学，将音乐调式和音乐速度作为两种音乐元素特征用于训练深度神经网络，使其能够生成具有特定情感的音乐。

以往的相关专利或论文均未采用过此种方法来搭建情感音乐生成的深度神经网络模型。

发明内容

本发明的目的在于克服现有技术缺陷，提出了基于深度神经网络和音乐元素驱动的情感音乐生成方法。

为了实现上述目的，本发明提出了一种基于深度神经网络和音乐元素驱动的情感音乐生成方法，所述方法包括：

获取用户指定的情感类型，并转换为对应的音乐元素特征；

将音乐元素特征输入预先建立和训练好的情感音乐生成模型，得到对应的情感音乐序列；

对情感音乐序列进行解码及合成处理，得到情感音乐。

作为上述方法的一种改进，所述情感类型包括快乐、紧张、平静和悲伤情绪。

作为上述方法的一种改进，所述获取用户指定的情感类型，并转换为对应的音乐元素特征；具体包括：

根据获取的情感类型，进行对应的音乐调式和音乐速度的转换；其中，

快乐情绪对应大调音乐，快速音乐；

紧张情绪对应小调音乐，快速音乐；

平静情绪对应大调音乐，慢速音乐；

悲伤情绪对应小调音乐，慢速音乐；

所述快速音乐为设定秒内音符个数大于阈值的音乐，所述慢速音乐为设定秒内音符个数小于阈值的音乐。

作为上述方法的一种改进，所述情感音乐生成模型为门控循环单元网络，输入为音乐元素特征，输出为对应不同音乐元素特征的音乐序列。

作为上述方法的一种改进，所述方法还包括情感音乐生成模型的训练步骤；具体包括：

获取MIDI格式的音乐文件作为样本集；

对样本集的每个音乐文件进行预处理，得到若干个音乐序列，以及每个音乐序列对应的音乐元素特征，构成训练集；

将训练集依次输入情感音乐生成模型，将交叉熵损失函数作为损失函数，使用设定衰减率的Adam优化器进行训练，得到训练好的情感音乐生成模型。

作为上述方法的一种改进，所述预处理具体包括：

对每个音乐文件进行切分，得到若干个音乐段；

从每个音乐段中读取每个音符的起始时间、终止时间、音高信息、音量信息四种音符信息，由起始时间确定音符开始事件，由终止时间确定音符结束事件和时移事件，对音量信息进行设定范围值的映射，得到音量改变事件，对音符开始事件、音符结束事件、时移事件和音量改变事件进行编码得到音乐序列；

遍历每个音乐段，统计不同音高的音符出现次数以及每设定秒内音符的个数，得到对应的音高统计图，并由每设定秒内音符的个数计算得到音乐速度；

将音乐序列以及对应的音乐调式和音乐速度，构成训练集。

作为上述方法的一种改进，所述交叉熵损失函数L为：

其中，y表示实际的音符概率分布，

表示预测的音符概率分布，i表示第i个音乐序列，n表示音乐序列总数。

作为上述方法的一种改进，所述对样本集的每个音乐文件进行预处理之前还包括：对每个样本文件进行人工标注，得到情感标签。

一种基于深度神经网络和音乐元素驱动的情感音乐生成系统，所述系统包括：情感音乐生成模型、情感类型转换模块、情感音乐序列输出模块和解码合成模块；其中，

所述情感类型转换模块，用于获取用户指定的情感类型，并转换为对应的音乐元素特征；

所述情感音乐序列输出模块，用于将音乐元素特征输入预先建立和训练好的情感音乐生成模型，得到对应的情感音乐序列；

所述解码合成模块，用于对情感音乐序列进行解码及合成处理，得到情感音乐。

与现有技术相比，本发明的优势在于：

1、使用人工智能算法生成音乐，并将情感因素融入智能音乐的生成系统中，以提升智能音乐的艺术感染力和情感渲染力；

2、基于音乐元素驱动自动生成包含特定的情感的音乐，使情感音乐生成不再依赖大量的人工标记音乐数据。

附图说明

图1是本发明实施例1的情感音乐生成方法架构流程图；

图2是门控循环单元网络框图；

图3是本发明实施例2的情感音乐生成方法架构流程图。

具体实施方式

该方法可以基于音乐元素驱动自动生成包含特定的情感的音乐，使情感音乐生成不再依赖大量的人工标记音乐数据，使情感音乐生成的模型更加容易训练。

在此，本发明提供一种基于深度神经网络和音乐元素驱动的情感音乐生成方法。该方法可以基于音乐元素驱动自动生成出包含一种特定的情感的音乐，使情感音乐生成不再依赖大量的标记数据，并且使情感音乐生成的模型更加容易训练。

步骤一：准备MIDI格式的音乐数据集；

步骤二：将MIDI格式的音乐读取成音符信息；

步骤三：对音符信息进行预处理并且编码成音乐序列；

步骤四：提取节奏以及音乐调式等音乐元素特征；

步骤五：设计深度神经网络结构；

步骤六：将音乐序列和音乐元素特征输入神经网络，开始训练；

步骤七：加载训练完成的神经网络参数，完成情感音乐生成模型的训练；

步骤八：用户指定特定情感，由生成模型生成对应的情感音乐序列；

步骤九：将情感音乐序列解码为情感音乐；

下面结合附图和实施例对本发明的技术方案进行详细的说明。

实施例1

如图1所示，本发明的实施例1提供了一种基于深度神经网络和音乐元素驱动的情感音乐生成方法。读取音乐数据集并进行预处理以及编码。提取音乐元素特征，将音乐序列与音乐元素特征作为深度神经网络的输入对网络进行训练。深度神经网络训练完成后，可以根据用户指定的情感生成包含指定情感的音乐序列，再通过解码输出包含指定情感的音乐。

步骤一：准备MIDI格式的音乐数据集作为训练数据，本次采用了包含23位钢古典琴演奏家的329首钢琴曲，这些钢琴曲作曲风格多样，包含不同的节奏和调式，适合用于训练情感音乐生成模型。

步骤二：使用python的pretty-midi工具包，将MIDI文件读取为音符信息。音符信息包含每个音符的起始时间、终止时间、音高信息、音量信息。

步骤三：对音符信息进行预处理并且编码成音乐序列。由于钢琴曲开头可能存在空白，因此需要调制每个音符的起始时间，使第一个音符的起始时间为第0秒。随后进行编码，音乐序列包含4个音乐事件：音符开始、音符结束、时移、音量改变。音符开始表示在当前时间点有哪些音符被演奏，音符结束表示在当前时间点有哪些音符停止演奏，时移表示当前时间点即将发生移动，移动的时长对应时移量的大小，音量改变表示在当前时间点音量改变成对应的新的音量值，在MIDI格式文件中，音量大小的范围是0-127，为了压缩动态范围，将音量值通过函数映射到0-31。

MIDI编解码详细说明：

钢琴的音高范围是MIDI音高范围的子集，因此，编解码中只考虑在钢琴音高范围内的音高，即MIDI音高21-108。

MIDI音乐被表示为由以下四种事件组成的序列，其中包含

88个音符开始事件：每个事件表示开始演奏一个音高为(21-108)MIDI音高的音符。

88个音符结束事件：每个事件表示结束演奏一个音高为(21-108)MIDI音高的音符。

32个时移事件：每个时移事件表示沿时间轴移动不同的时间距离，不同的值对应不同的时移量，最小为15毫秒，最大为1.17秒。

32个音量改变事件：设置下一个音符的音量大小，不同的值对应不同的音量。

例如，频率为440Hz的a1音符(MIDI音高为69，钢琴上第49个音)以31的音量被演奏，1秒后该音符结束演奏。经过15毫秒，频率为220Hz的a音符(MIDI音高为57，钢琴上第37个音)以25的音量被演奏，0.5秒后该音符结束演奏。

可以将上述音符信息编码成如下音乐事件序列：

1.音量改变31事件(设置第一个音符的音量大小)

2.音符开始49事件(钢琴上第49个音，即a1音符被演奏)

3.时移30事件(沿时间轴移动1秒)

4.音符结束49事件(第49个音，即a1音符被停止演奏)

5.时移0事件(沿时间轴移动15毫秒)

6.音量改变25事件(设置下一个音符(第二个音符)的音量大小)

7.音符开始37事件(钢琴上第37个音，即a音符被演奏)

8.时移25事件(沿时间轴移动0.5秒)

9.音符结束37事件(第37个音，即a音符被停止演奏)

步骤四：提取节奏以及音乐调式等音乐元素特征。遍历整个音乐序列，统计音阶中不同音高的音符出现的次数以及每两秒弹奏音符的个数。通过统计音阶中音符的出现次数，可以计算出对应的音高统计图，不同调式的音乐对应不同的音高统计图。因此，音高统计图可以作为表示音乐调式的特征。通过统计每两秒弹奏音符的个数，可以计算出音乐在两秒内演奏的快慢程度，因此可以作为表示音乐速度的特征。

步骤五：设计深度神经网络结构，如图2所示。在序列生成的任务中，需要对数据序列进行时序建模。本方法采用门控循环单元进行时序建模。在每个时间节点，网络将接收上一个时间点的输出以及当前时间点的序列输入，通过门控单元以及张量计算输出当前时间点的输出。网络输出为当前时间点对应不同音乐事件的概率，将交叉熵损失函数作为损失函数。

步骤六：将步骤三的音乐序列进行切分。每两百个音乐序列组成一段，每段之间的段移为10个音乐事件，使用分段的音乐序列进行训练。将音乐序列和音乐元素特征输入深度神经网络进行训练。在训练阶段，神经网络的初始音乐事件设置为时移事件，之后的音乐事件使用训练集的音乐事件进行训练，对生成的音乐序列与原始音乐序列求损失函数，进行反向传播。交叉熵损失函数L为：

其中，y表示实际的音符概率分布，

表示预测的音符概率分布

步骤七：网络的训练批次为64，迭代次数为50次，使用衰减率为0.0002的Adam优化器对网络训练进行优化。网络训练结束后，加载训练好的神经网络框架与参数，完成情感音乐生成模型的训练

步骤八：根据Russell情感模型，可以将情感划分为四种主要情感，即快乐，紧张，平静，悲伤。如图例所示，这四种情感分别对应两个情感评价维度的四个象限。根据情感的激烈程度划分，快乐和紧张属于高强度的情绪，平静和悲伤属于低强度的情绪。根据情感的性质划分，快乐和平静属于正面的情绪，紧张和悲伤属于负面的情绪。根据音乐心理学实验，将音乐调式和音乐速度分别与情感的性质和激烈程度对应。大调音乐表示正面情感的音乐，小调音乐表示负面情感的音乐。快速的音乐表示高激烈程度的音乐，缓慢的音乐表示低激烈程度的音乐。根据音乐调式和音乐速度的四种组合可以生成对应四种不同情感的音乐。

步骤九：将情感音乐序列解码为音符信息，再通过pretty-midi工具包转换最终的MIDI音乐文件输出。

实施例2

如图3所示，本发明的实施例2提出了又一种情感音乐生成方法。将带有情感标签的音乐数据集进行预处理以及编码，并且提取音乐元素特征和对应的情感标签。将音乐序列、音乐元素特征和情感标签作为深度神经网络的输入对网络进行训练。网络训练完成之后，可以根据用户指定的情感生成包含指定情感的音乐序列，再通过解码输出包含指定情感的音乐。

步骤一：准备MIDI格式的带有人工标注的情感音乐数据集作为训练数据，本实施方式采用了包含4中不同情感的钢琴曲，其中有56首包含快乐情感，58首包含平静情感，40首包含悲伤情感，47首包含紧张情感的钢琴曲。这些钢琴曲作曲风格多样，包含不同的节奏和调式，适合用于训练情感音乐生成模型。

步骤五：设计深度神经网络结构。在序列生成的任务中，需要对数据序列进行时序建模。本方法采用门控循环单元进行时序建模。在每个时间节点，网络将接收上一个时间点的输出以及当前时间点的序列输入，通过门控单元以及张量计算输出当前时间点的输出。网络输出为当前时间点对应不同音乐事件的概率，将交叉熵损失函数作为损失函数。

步骤六：将步骤三的音乐序列进行切分。每两百个音乐序列组成一段，每段之间的段移为10个音乐事件，使用分段的音乐序列进行训练。将音乐序列、音乐元素特征和情感标签输入深度神经网络进行训练。在训练阶段，神经网络的初始音乐事件设置为时移事件，之后的音乐事件使用训练集的音乐事件进行训练，对生成的音乐序列与原始音乐序列求损失函数，进行反向传播。交叉熵损失函数L为：

其中，y表示实际的音符概率分布，

表示预测的音符概率分布。

步骤七：网络的训练批次为64，迭代次数为50次，使用衰减率为0.0002的Adam优化器对网络训练进行优化。网络训练结束后，加载训练好的神经网络框架与参数，完成情感音乐生成模型的训练。

步骤八：根据Russell情感模型，可以将情感划分为四种主要情感，即快乐，紧张，平静，悲伤。这四种情感分别对应两个情感评价维度的四个象限。根据情感的激烈程度划分，快乐和紧张属于高强度的情绪，平静和悲伤属于低强度的情绪。根据情感的性质划分，快乐和平静属于正面的情绪，紧张和悲伤属于负面的情绪。根据音乐心理学实验，将音乐调式和音乐速度分别与情感的性质和激烈程度对应。大调音乐表示正面情感的音乐，小调音乐表示负面情感的音乐。快速的音乐表示高激烈程度的音乐，缓慢的音乐表示低激烈程度的音乐。用户输入指定情感，模型根据情感模型分别将情感转换成对应的音乐元素特征。快乐对应快节奏和大调的音乐元素特征，紧张对应快节奏和小调的音乐元素特征，平静对应慢节奏和大调的音乐元素特征，悲伤对应慢节奏和小调的音乐元素特征。神经网络输入特定情感对应的音乐元素特征以及情感标签，生成对应特定情感的音乐序列。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于深度神经网络和音乐元素驱动的情感音乐生成方法，所述方法包括：

获取用户指定的情感类型，并转换为对应的音乐元素特征；

对情感音乐序列进行解码及合成处理，得到情感音乐。

2.根据权利要求1所述的基于深度神经网络和音乐元素驱动的情感音乐生成方法，其特征在于，所述情感类型包括快乐、紧张、平静和悲伤情绪。

3.根据权利要求2所述的基于深度神经网络和音乐元素驱动的情感音乐生成方法，所述获取用户指定的情感类型，并转换为对应的音乐元素特征；具体包括：

根据获取的情感类型，进行对应音乐元素特征的转换，所述音乐元素特征包括音乐调式和音乐速度；其中，

快乐情绪对应大调音乐，快速音乐；

紧张情绪对应小调音乐，快速音乐；

平静情绪对应大调音乐，慢速音乐；

悲伤情绪对应小调音乐，慢速音乐；

4.根据权利要求1所述的基于深度神经网络和音乐元素驱动的情感音乐生成方法，其特征在于，所述情感音乐生成模型为门控循环单元网络，输入为音乐元素特征，输出为对应不同音乐元素特征的音乐序列。

5.根据权利要求4所述的基于深度神经网络和音乐元素驱动的情感音乐生成方法，其特征在于，所述方法还包括情感音乐生成模型的训练步骤；具体包括：

获取MIDI格式的音乐文件作为样本集；

6.根据权利要求5所述的基于深度神经网络和音乐元素驱动的情感音乐生成方法，其特征在于，所述预处理具体包括：

对每个音乐文件进行切分，得到若干个音乐段；

将音乐序列以及对应的音乐调式和音乐速度，构成训练集。

7.根据权利要求5所述的基于深度神经网络和音乐元素驱动的情感音乐生成方法，其特征在于，所述交叉熵损失函数L为：

其中，y表示实际的音符概率分布，

8.根据权利要求5所述所述的基于深度神经网络和音乐元素驱动的情感音乐生成方法，其特征在于，所述对样本集的每个音乐文件进行预处理之前还包括：对每个样本文件进行人工标注，得到情感标签。

9.根据权利要求8所述所述的基于深度神经网络和音乐元素驱动的情感音乐生成方法，其特征在于，所述训练集还包括音乐序列对应的情感标签。

10.一种基于深度神经网络和音乐元素驱动的情感音乐生成系统，其特征在于，所述系统包括：情感音乐生成模型、情感类型转换模块、情感音乐序列输出模块和解码合成模块；其中，