CN113299255A - 基于深度神经网络和音乐元素驱动的情感音乐生成方法 - Google Patents

基于深度神经网络和音乐元素驱动的情感音乐生成方法 Download PDF

Info

Publication number
CN113299255A
CN113299255A CN202110521289.1A CN202110521289A CN113299255A CN 113299255 A CN113299255 A CN 113299255A CN 202110521289 A CN202110521289 A CN 202110521289A CN 113299255 A CN113299255 A CN 113299255A
Authority
CN
China
Prior art keywords
music
emotion
sequence
note
generation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110521289.1A
Other languages
English (en)
Inventor
郑凯桐
桑晋秋
孟瑞洁
郑成诗
李晓东
蔡娟娟
王杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CN202110521289.1A priority Critical patent/CN113299255A/zh
Publication of CN113299255A publication Critical patent/CN113299255A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • G10H1/0025Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0033Recording/reproducing or transmission of music for electrophonic musical instruments
    • G10H1/0041Recording/reproducing or transmission of music for electrophonic musical instruments in coded form
    • G10H1/0058Transmission between separate instruments or between individual components of a musical system
    • G10H1/0066Transmission between separate instruments or between individual components of a musical system using a MIDI interface
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

本发明涉及智能音乐生成技术领域,尤其涉及基于深度神经网络和音乐元素驱动的情感音乐生成方法。所述方法包括:获取用户指定的情感类型,并转换为对应的音乐元素特征;将音乐元素特征输入预先建立和训练好的情感音乐生成模型,得到对应的情感音乐序列;对情感音乐序列进行解码及合成处理,得到情感音乐。本发明使用人工智能算法生成音乐,并将情感因素融入智能音乐的生成系统中,以提升智能音乐的艺术感染力和情感渲染力;并且情感音乐生成不依赖大量的人工标记音乐数据。

Description

基于深度神经网络和音乐元素驱动的情感音乐生成方法
技术领域
本发明涉及智能音乐生成技术领域,尤其涉及基于深度神经网络和音乐元素驱动的情感音乐生成方法。
背景技术
智能音乐生成方法运用人工智能方法进行机器作曲,通过模拟作曲家的创作思维,提高音乐的生成效率和音乐创作的普遍性,更促进了音乐与计算机科学、神经科学、心理学等多学科交叉领域的发展。国外在智能音乐生成领域发展较为迅速,国外人工智能巨头公司都对智能音乐生成技术展开了深入研究,我国在智能音乐生成领域发展尚处于起步阶段,智能音乐生成系统和作品还较为零星,还未形成完整体系,且作品的可听性有待提高。智能音乐生成是现今国内外计算机音乐领域的热点研究课题,也是深度学习网络在音乐创作方面的一个主要应用方向。递归神经网络及其变体已被广泛应用于序列数据的建模,其出色的时间建模能力使其适合于音乐生成。
情感是作曲家创作作品的重要元素,因此在音乐自动生成系统中十分重要。然而目前基于深度神经网络的音乐生成系统在生成音乐时很少考虑情感的影响,因此系统缺乏基于特定情感生成音乐的能力。
在音乐心理学中,音乐情感与音乐元素之间的关系已经被证实。大量实验结果表明,快速的音乐能够激发快乐和紧张的情绪,而缓慢的音乐能够激发平静和悲伤的情绪。用大调作曲的音乐能够激发正面的情绪,而用小调作曲的音乐能够激发负面的情绪。
目前的情感音乐生成模型大多基于情感标签,直接使用情感标签和对应情感的音乐进行标签映射,没有考虑音乐结构的影响。基于标签的方法需要一个人工标注的带有不同情绪标签的音乐数据集,人工标记这个音乐数据集需要大量的人力物力。本方法结合音乐心理学,将音乐调式和音乐速度作为两种音乐元素特征用于训练深度神经网络,使其能够生成具有特定情感的音乐。
以往的相关专利或论文均未采用过此种方法来搭建情感音乐生成的深度神经网络模型。
发明内容
本发明的目的在于克服现有技术缺陷,提出了基于深度神经网络和音乐元素驱动的情感音乐生成方法。
为了实现上述目的,本发明提出了一种基于深度神经网络和音乐元素驱动的情感音乐生成方法,所述方法包括:
获取用户指定的情感类型,并转换为对应的音乐元素特征;
将音乐元素特征输入预先建立和训练好的情感音乐生成模型,得到对应的情感音乐序列;
对情感音乐序列进行解码及合成处理,得到情感音乐。
作为上述方法的一种改进,所述情感类型包括快乐、紧张、平静和悲伤情绪。
作为上述方法的一种改进,所述获取用户指定的情感类型,并转换为对应的音乐元素特征;具体包括:
根据获取的情感类型,进行对应的音乐调式和音乐速度的转换;其中,
快乐情绪对应大调音乐,快速音乐;
紧张情绪对应小调音乐,快速音乐;
平静情绪对应大调音乐,慢速音乐;
悲伤情绪对应小调音乐,慢速音乐;
所述快速音乐为设定秒内音符个数大于阈值的音乐,所述慢速音乐为设定秒内音符个数小于阈值的音乐。
作为上述方法的一种改进,所述情感音乐生成模型为门控循环单元网络,输入为音乐元素特征,输出为对应不同音乐元素特征的音乐序列。
作为上述方法的一种改进,所述方法还包括情感音乐生成模型的训练步骤;具体包括:
获取MIDI格式的音乐文件作为样本集;
对样本集的每个音乐文件进行预处理,得到若干个音乐序列,以及每个音乐序列对应的音乐元素特征,构成训练集;
将训练集依次输入情感音乐生成模型,将交叉熵损失函数作为损失函数,使用设定衰减率的Adam优化器进行训练,得到训练好的情感音乐生成模型。
作为上述方法的一种改进,所述预处理具体包括:
对每个音乐文件进行切分,得到若干个音乐段;
从每个音乐段中读取每个音符的起始时间、终止时间、音高信息、音量信息四种音符信息,由起始时间确定音符开始事件,由终止时间确定音符结束事件和时移事件,对音量信息进行设定范围值的映射,得到音量改变事件,对音符开始事件、音符结束事件、时移事件和音量改变事件进行编码得到音乐序列;
遍历每个音乐段,统计不同音高的音符出现次数以及每设定秒内音符的个数,得到对应的音高统计图,并由每设定秒内音符的个数计算得到音乐速度;
将音乐序列以及对应的音乐调式和音乐速度,构成训练集。
作为上述方法的一种改进,所述交叉熵损失函数L为:
Figure BDA0003064060530000031
其中,y表示实际的音符概率分布,
Figure BDA0003064060530000032
表示预测的音符概率分布,i表示第i个音乐序列,n表示音乐序列总数。
作为上述方法的一种改进,所述对样本集的每个音乐文件进行预处理之前还包括:对每个样本文件进行人工标注,得到情感标签。
一种基于深度神经网络和音乐元素驱动的情感音乐生成系统,所述系统包括:情感音乐生成模型、情感类型转换模块、情感音乐序列输出模块和解码合成模块;其中,
所述情感类型转换模块,用于获取用户指定的情感类型,并转换为对应的音乐元素特征;
所述情感音乐序列输出模块,用于将音乐元素特征输入预先建立和训练好的情感音乐生成模型,得到对应的情感音乐序列;
所述解码合成模块,用于对情感音乐序列进行解码及合成处理,得到情感音乐。
与现有技术相比,本发明的优势在于:
1、使用人工智能算法生成音乐,并将情感因素融入智能音乐的生成系统中,以提升智能音乐的艺术感染力和情感渲染力;
2、基于音乐元素驱动自动生成包含特定的情感的音乐,使情感音乐生成不再依赖大量的人工标记音乐数据。
附图说明
图1是本发明实施例1的情感音乐生成方法架构流程图;
图2是门控循环单元网络框图;
图3是本发明实施例2的情感音乐生成方法架构流程图。
具体实施方式
该方法可以基于音乐元素驱动自动生成包含特定的情感的音乐,使情感音乐生成不再依赖大量的人工标记音乐数据,使情感音乐生成的模型更加容易训练。
在此,本发明提供一种基于深度神经网络和音乐元素驱动的情感音乐生成方法。该方法可以基于音乐元素驱动自动生成出包含一种特定的情感的音乐,使情感音乐生成不再依赖大量的标记数据,并且使情感音乐生成的模型更加容易训练。
步骤一:准备MIDI格式的音乐数据集;
步骤二:将MIDI格式的音乐读取成音符信息;
步骤三:对音符信息进行预处理并且编码成音乐序列;
步骤四:提取节奏以及音乐调式等音乐元素特征;
步骤五:设计深度神经网络结构;
步骤六:将音乐序列和音乐元素特征输入神经网络,开始训练;
步骤七:加载训练完成的神经网络参数,完成情感音乐生成模型的训练;
步骤八:用户指定特定情感,由生成模型生成对应的情感音乐序列;
步骤九:将情感音乐序列解码为情感音乐;
下面结合附图和实施例对本发明的技术方案进行详细的说明。
实施例1
如图1所示,本发明的实施例1提供了一种基于深度神经网络和音乐元素驱动的情感音乐生成方法。读取音乐数据集并进行预处理以及编码。提取音乐元素特征,将音乐序列与音乐元素特征作为深度神经网络的输入对网络进行训练。深度神经网络训练完成后,可以根据用户指定的情感生成包含指定情感的音乐序列,再通过解码输出包含指定情感的音乐。
步骤一:准备MIDI格式的音乐数据集作为训练数据,本次采用了包含23位钢古典琴演奏家的329首钢琴曲,这些钢琴曲作曲风格多样,包含不同的节奏和调式,适合用于训练情感音乐生成模型。
步骤二:使用python的pretty-midi工具包,将MIDI文件读取为音符信息。音符信息包含每个音符的起始时间、终止时间、音高信息、音量信息。
步骤三:对音符信息进行预处理并且编码成音乐序列。由于钢琴曲开头可能存在空白,因此需要调制每个音符的起始时间,使第一个音符的起始时间为第0秒。随后进行编码,音乐序列包含4个音乐事件:音符开始、音符结束、时移、音量改变。音符开始表示在当前时间点有哪些音符被演奏,音符结束表示在当前时间点有哪些音符停止演奏,时移表示当前时间点即将发生移动,移动的时长对应时移量的大小,音量改变表示在当前时间点音量改变成对应的新的音量值,在MIDI格式文件中,音量大小的范围是0-127,为了压缩动态范围,将音量值通过函数映射到0-31。
MIDI编解码详细说明:
钢琴的音高范围是MIDI音高范围的子集,因此,编解码中只考虑在钢琴音高范围内的音高,即MIDI音高21-108。
MIDI音乐被表示为由以下四种事件组成的序列,其中包含
88个音符开始事件:每个事件表示开始演奏一个音高为(21-108)MIDI音高的音符。
88个音符结束事件:每个事件表示结束演奏一个音高为(21-108)MIDI音高的音符。
32个时移事件:每个时移事件表示沿时间轴移动不同的时间距离,不同的值对应不同的时移量,最小为15毫秒,最大为1.17秒。
32个音量改变事件:设置下一个音符的音量大小,不同的值对应不同的音量。
例如,频率为440Hz的a1音符(MIDI音高为69,钢琴上第49个音)以31的音量被演奏,1秒后该音符结束演奏。经过15毫秒,频率为220Hz的a音符(MIDI音高为57,钢琴上第37个音)以25的音量被演奏,0.5秒后该音符结束演奏。
可以将上述音符信息编码成如下音乐事件序列:
1.音量改变31事件(设置第一个音符的音量大小)
2.音符开始49事件(钢琴上第49个音,即a1音符被演奏)
3.时移30事件(沿时间轴移动1秒)
4.音符结束49事件(第49个音,即a1音符被停止演奏)
5.时移0事件(沿时间轴移动15毫秒)
6.音量改变25事件(设置下一个音符(第二个音符)的音量大小)
7.音符开始37事件(钢琴上第37个音,即a音符被演奏)
8.时移25事件(沿时间轴移动0.5秒)
9.音符结束37事件(第37个音,即a音符被停止演奏)
步骤四:提取节奏以及音乐调式等音乐元素特征。遍历整个音乐序列,统计音阶中不同音高的音符出现的次数以及每两秒弹奏音符的个数。通过统计音阶中音符的出现次数,可以计算出对应的音高统计图,不同调式的音乐对应不同的音高统计图。因此,音高统计图可以作为表示音乐调式的特征。通过统计每两秒弹奏音符的个数,可以计算出音乐在两秒内演奏的快慢程度,因此可以作为表示音乐速度的特征。
步骤五:设计深度神经网络结构,如图2所示。在序列生成的任务中,需要对数据序列进行时序建模。本方法采用门控循环单元进行时序建模。在每个时间节点,网络将接收上一个时间点的输出以及当前时间点的序列输入,通过门控单元以及张量计算输出当前时间点的输出。网络输出为当前时间点对应不同音乐事件的概率,将交叉熵损失函数作为损失函数。
步骤六:将步骤三的音乐序列进行切分。每两百个音乐序列组成一段,每段之间的段移为10个音乐事件,使用分段的音乐序列进行训练。将音乐序列和音乐元素特征输入深度神经网络进行训练。在训练阶段,神经网络的初始音乐事件设置为时移事件,之后的音乐事件使用训练集的音乐事件进行训练,对生成的音乐序列与原始音乐序列求损失函数,进行反向传播。交叉熵损失函数L为:
Figure BDA0003064060530000061
其中,y表示实际的音符概率分布,
Figure BDA0003064060530000062
表示预测的音符概率分布
步骤七:网络的训练批次为64,迭代次数为50次,使用衰减率为0.0002的Adam优化器对网络训练进行优化。网络训练结束后,加载训练好的神经网络框架与参数,完成情感音乐生成模型的训练
步骤八:根据Russell情感模型,可以将情感划分为四种主要情感,即快乐,紧张,平静,悲伤。如图例所示,这四种情感分别对应两个情感评价维度的四个象限。根据情感的激烈程度划分,快乐和紧张属于高强度的情绪,平静和悲伤属于低强度的情绪。根据情感的性质划分,快乐和平静属于正面的情绪,紧张和悲伤属于负面的情绪。根据音乐心理学实验,将音乐调式和音乐速度分别与情感的性质和激烈程度对应。大调音乐表示正面情感的音乐,小调音乐表示负面情感的音乐。快速的音乐表示高激烈程度的音乐,缓慢的音乐表示低激烈程度的音乐。根据音乐调式和音乐速度的四种组合可以生成对应四种不同情感的音乐。
步骤九:将情感音乐序列解码为音符信息,再通过pretty-midi工具包转换最终的MIDI音乐文件输出。
实施例2
如图3所示,本发明的实施例2提出了又一种情感音乐生成方法。将带有情感标签的音乐数据集进行预处理以及编码,并且提取音乐元素特征和对应的情感标签。将音乐序列、音乐元素特征和情感标签作为深度神经网络的输入对网络进行训练。网络训练完成之后,可以根据用户指定的情感生成包含指定情感的音乐序列,再通过解码输出包含指定情感的音乐。
步骤一:准备MIDI格式的带有人工标注的情感音乐数据集作为训练数据,本实施方式采用了包含4中不同情感的钢琴曲,其中有56首包含快乐情感,58首包含平静情感,40首包含悲伤情感,47首包含紧张情感的钢琴曲。这些钢琴曲作曲风格多样,包含不同的节奏和调式,适合用于训练情感音乐生成模型。
步骤二:使用python的pretty-midi工具包,将MIDI文件读取为音符信息。音符信息包含每个音符的起始时间、终止时间、音高信息、音量信息。
步骤三:对音符信息进行预处理并且编码成音乐序列。由于钢琴曲开头可能存在空白,因此需要调制每个音符的起始时间,使第一个音符的起始时间为第0秒。随后进行编码,音乐序列包含4个音乐事件:音符开始、音符结束、时移、音量改变。音符开始表示在当前时间点有哪些音符被演奏,音符结束表示在当前时间点有哪些音符停止演奏,时移表示当前时间点即将发生移动,移动的时长对应时移量的大小,音量改变表示在当前时间点音量改变成对应的新的音量值,在MIDI格式文件中,音量大小的范围是0-127,为了压缩动态范围,将音量值通过函数映射到0-31。
步骤四:提取节奏以及音乐调式等音乐元素特征。遍历整个音乐序列,统计音阶中不同音高的音符出现的次数以及每两秒弹奏音符的个数。通过统计音阶中音符的出现次数,可以计算出对应的音高统计图,不同调式的音乐对应不同的音高统计图。因此,音高统计图可以作为表示音乐调式的特征。通过统计每两秒弹奏音符的个数,可以计算出音乐在两秒内演奏的快慢程度,因此可以作为表示音乐速度的特征。
步骤五:设计深度神经网络结构。在序列生成的任务中,需要对数据序列进行时序建模。本方法采用门控循环单元进行时序建模。在每个时间节点,网络将接收上一个时间点的输出以及当前时间点的序列输入,通过门控单元以及张量计算输出当前时间点的输出。网络输出为当前时间点对应不同音乐事件的概率,将交叉熵损失函数作为损失函数。
步骤六:将步骤三的音乐序列进行切分。每两百个音乐序列组成一段,每段之间的段移为10个音乐事件,使用分段的音乐序列进行训练。将音乐序列、音乐元素特征和情感标签输入深度神经网络进行训练。在训练阶段,神经网络的初始音乐事件设置为时移事件,之后的音乐事件使用训练集的音乐事件进行训练,对生成的音乐序列与原始音乐序列求损失函数,进行反向传播。交叉熵损失函数L为:
Figure BDA0003064060530000081
其中,y表示实际的音符概率分布,
Figure BDA0003064060530000082
表示预测的音符概率分布。
步骤七:网络的训练批次为64,迭代次数为50次,使用衰减率为0.0002的Adam优化器对网络训练进行优化。网络训练结束后,加载训练好的神经网络框架与参数,完成情感音乐生成模型的训练。
步骤八:根据Russell情感模型,可以将情感划分为四种主要情感,即快乐,紧张,平静,悲伤。这四种情感分别对应两个情感评价维度的四个象限。根据情感的激烈程度划分,快乐和紧张属于高强度的情绪,平静和悲伤属于低强度的情绪。根据情感的性质划分,快乐和平静属于正面的情绪,紧张和悲伤属于负面的情绪。根据音乐心理学实验,将音乐调式和音乐速度分别与情感的性质和激烈程度对应。大调音乐表示正面情感的音乐,小调音乐表示负面情感的音乐。快速的音乐表示高激烈程度的音乐,缓慢的音乐表示低激烈程度的音乐。用户输入指定情感,模型根据情感模型分别将情感转换成对应的音乐元素特征。快乐对应快节奏和大调的音乐元素特征,紧张对应快节奏和小调的音乐元素特征,平静对应慢节奏和大调的音乐元素特征,悲伤对应慢节奏和小调的音乐元素特征。神经网络输入特定情感对应的音乐元素特征以及情感标签,生成对应特定情感的音乐序列。
步骤九:将情感音乐序列解码为音符信息,再通过pretty-midi工具包转换最终的MIDI音乐文件输出。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种基于深度神经网络和音乐元素驱动的情感音乐生成方法,所述方法包括:
获取用户指定的情感类型,并转换为对应的音乐元素特征;
将音乐元素特征输入预先建立和训练好的情感音乐生成模型,得到对应的情感音乐序列;
对情感音乐序列进行解码及合成处理,得到情感音乐。
2.根据权利要求1所述的基于深度神经网络和音乐元素驱动的情感音乐生成方法,其特征在于,所述情感类型包括快乐、紧张、平静和悲伤情绪。
3.根据权利要求2所述的基于深度神经网络和音乐元素驱动的情感音乐生成方法,所述获取用户指定的情感类型,并转换为对应的音乐元素特征;具体包括:
根据获取的情感类型,进行对应音乐元素特征的转换,所述音乐元素特征包括音乐调式和音乐速度;其中,
快乐情绪对应大调音乐,快速音乐;
紧张情绪对应小调音乐,快速音乐;
平静情绪对应大调音乐,慢速音乐;
悲伤情绪对应小调音乐,慢速音乐;
所述快速音乐为设定秒内音符个数大于阈值的音乐,所述慢速音乐为设定秒内音符个数小于阈值的音乐。
4.根据权利要求1所述的基于深度神经网络和音乐元素驱动的情感音乐生成方法,其特征在于,所述情感音乐生成模型为门控循环单元网络,输入为音乐元素特征,输出为对应不同音乐元素特征的音乐序列。
5.根据权利要求4所述的基于深度神经网络和音乐元素驱动的情感音乐生成方法,其特征在于,所述方法还包括情感音乐生成模型的训练步骤;具体包括:
获取MIDI格式的音乐文件作为样本集;
对样本集的每个音乐文件进行预处理,得到若干个音乐序列,以及每个音乐序列对应的音乐元素特征,构成训练集;
将训练集依次输入情感音乐生成模型,将交叉熵损失函数作为损失函数,使用设定衰减率的Adam优化器进行训练,得到训练好的情感音乐生成模型。
6.根据权利要求5所述的基于深度神经网络和音乐元素驱动的情感音乐生成方法,其特征在于,所述预处理具体包括:
对每个音乐文件进行切分,得到若干个音乐段;
从每个音乐段中读取每个音符的起始时间、终止时间、音高信息、音量信息四种音符信息,由起始时间确定音符开始事件,由终止时间确定音符结束事件和时移事件,对音量信息进行设定范围值的映射,得到音量改变事件,对音符开始事件、音符结束事件、时移事件和音量改变事件进行编码得到音乐序列;
遍历每个音乐段,统计不同音高的音符出现次数以及每设定秒内音符的个数,得到对应的音高统计图,并由每设定秒内音符的个数计算得到音乐速度;
将音乐序列以及对应的音乐调式和音乐速度,构成训练集。
7.根据权利要求5所述的基于深度神经网络和音乐元素驱动的情感音乐生成方法,其特征在于,所述交叉熵损失函数L为:
Figure FDA0003064060520000021
其中,y表示实际的音符概率分布,
Figure FDA0003064060520000022
表示预测的音符概率分布,i表示第i个音乐序列,n表示音乐序列总数。
8.根据权利要求5所述所述的基于深度神经网络和音乐元素驱动的情感音乐生成方法,其特征在于,所述对样本集的每个音乐文件进行预处理之前还包括:对每个样本文件进行人工标注,得到情感标签。
9.根据权利要求8所述所述的基于深度神经网络和音乐元素驱动的情感音乐生成方法,其特征在于,所述训练集还包括音乐序列对应的情感标签。
10.一种基于深度神经网络和音乐元素驱动的情感音乐生成系统,其特征在于,所述系统包括:情感音乐生成模型、情感类型转换模块、情感音乐序列输出模块和解码合成模块;其中,
所述情感类型转换模块,用于获取用户指定的情感类型,并转换为对应的音乐元素特征;
所述情感音乐序列输出模块,用于将音乐元素特征输入预先建立和训练好的情感音乐生成模型,得到对应的情感音乐序列;
所述解码合成模块,用于对情感音乐序列进行解码及合成处理,得到情感音乐。
CN202110521289.1A 2021-05-13 2021-05-13 基于深度神经网络和音乐元素驱动的情感音乐生成方法 Pending CN113299255A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110521289.1A CN113299255A (zh) 2021-05-13 2021-05-13 基于深度神经网络和音乐元素驱动的情感音乐生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110521289.1A CN113299255A (zh) 2021-05-13 2021-05-13 基于深度神经网络和音乐元素驱动的情感音乐生成方法

Publications (1)

Publication Number Publication Date
CN113299255A true CN113299255A (zh) 2021-08-24

Family

ID=77321917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110521289.1A Pending CN113299255A (zh) 2021-05-13 2021-05-13 基于深度神经网络和音乐元素驱动的情感音乐生成方法

Country Status (1)

Country Link
CN (1) CN113299255A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113923517A (zh) * 2021-09-30 2022-01-11 北京搜狗科技发展有限公司 一种背景音乐生成方法、装置及电子设备
CN116030777A (zh) * 2023-03-13 2023-04-28 南京邮电大学 一种特定情感音乐生成方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036355A (zh) * 2018-06-29 2018-12-18 平安科技(深圳)有限公司 自动作曲方法、装置、计算机设备和存储介质
CN110085263A (zh) * 2019-04-28 2019-08-02 东华大学 一种音乐情感分类和机器作曲方法
US20190278978A1 (en) * 2018-03-08 2019-09-12 Electronics And Telecommunications Research Institute Apparatus and method for determining video-related emotion and method of generating data for learning video-related emotion
CN110555126A (zh) * 2018-06-01 2019-12-10 微软技术许可有限责任公司 旋律的自动生成
CN112189193A (zh) * 2018-05-24 2021-01-05 艾米有限公司 音乐生成器

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190278978A1 (en) * 2018-03-08 2019-09-12 Electronics And Telecommunications Research Institute Apparatus and method for determining video-related emotion and method of generating data for learning video-related emotion
CN112189193A (zh) * 2018-05-24 2021-01-05 艾米有限公司 音乐生成器
CN110555126A (zh) * 2018-06-01 2019-12-10 微软技术许可有限责任公司 旋律的自动生成
CN109036355A (zh) * 2018-06-29 2018-12-18 平安科技(深圳)有限公司 自动作曲方法、装置、计算机设备和存储介质
CN110085263A (zh) * 2019-04-28 2019-08-02 东华大学 一种音乐情感分类和机器作曲方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113923517A (zh) * 2021-09-30 2022-01-11 北京搜狗科技发展有限公司 一种背景音乐生成方法、装置及电子设备
CN113923517B (zh) * 2021-09-30 2024-05-07 北京搜狗科技发展有限公司 一种背景音乐生成方法、装置及电子设备
CN116030777A (zh) * 2023-03-13 2023-04-28 南京邮电大学 一种特定情感音乐生成方法及系统
CN116030777B (zh) * 2023-03-13 2023-08-18 南京邮电大学 一种特定情感音乐生成方法及系统

Similar Documents

Publication Publication Date Title
CN113299255A (zh) 基于深度神经网络和音乐元素驱动的情感音乐生成方法
CN111583891B (zh) 基于上下文信息的音符向量的自动作曲系统及方法
CN107123415A (zh) 一种自动编曲方法及系统
CN110853604A (zh) 基于变分自编码器的具有特定地域风格的中国民歌自动生成方法
Wang et al. To catch a chorus, verse, intro, or anything else: Analyzing a song with structural functions
Zhao et al. A review of intelligent music generation systems
Gao et al. A novel music emotion recognition model for scratch-generated music
CN111785236A (zh) 一种基于动机提取模型与神经网络的自动作曲方法
Glickman et al. (A) Data in the Life: Authorship Attribution of Lennon-McCartney Songs
CN103116646B (zh) 一种基于云基因表达式编程的音乐情感识别方法
CN110134823B (zh) 基于归一化音符显马尔可夫模型的midi音乐流派分类方法
CN116052621A (zh) 一种基于语言模型的音乐创作辅助方法
Elowsson Deep layered learning in MIR
CN115762449A (zh) 基于Transformer的条件音乐主题旋律自动生成方法及系统
CN111627410B (zh) 一种midi多轨序列表示方法和应用
Zhuang et al. GCA: A chord music generation algorithm based on double-layer LSTM
Fuentes Multi-scale computational rhythm analysis: a framework for sections, downbeats, beats, and microtiming
CN115206269A (zh) 音乐生成模型的训练方法及训练装置、存储介质、设备
CN118690854A (zh) 一种基于生成式ai的结构化歌词-旋律生成方法和系统
Liang et al. PianoBART: Symbolic Piano Music Generation and Understanding with Large-Scale Pre-Training
CN116863893A (zh) 一种基于旋律生成和弦的方法和系统
Chen et al. Learned String Quartet Music with Variational Auto Encoder
Jayatharan et al. Alapana Generation using Finite State Machines and Generative Adversarial Networks
Wang et al. Chinese style pop music generation based on recurrent neural network
CN110162671B (zh) 通过音乐情感识别视频广告的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210824

RJ01 Rejection of invention patent application after publication