CN110085263B

CN110085263B - 一种音乐情感分类和机器作曲方法

Info

Publication number: CN110085263B
Application number: CN201910349104.6A
Authority: CN
Inventors: 徐亦捷; 周武能
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2019-04-28
Filing date: 2019-04-28
Publication date: 2021-08-06
Anticipated expiration: 2039-04-28
Also published as: CN110085263A

Abstract

本发明公开了一种基于adaBoost算法和生成对抗网络的音乐情感分类和机器作曲方法，包括：利用adaBoost算法进行音乐情感分类；加入自注意力机制的生成对抗网络的建立；根据需求生成特定情感的乐段。本发明的创新点在于能够有效地对不同曲风的音乐进行分类并辅助作曲家直接针对特定曲风要求进行作曲。与传统的RNN算法等音乐生成方法相比，也有着更优质的生成质量，并且可以帮助解决多音轨样本生成的难题。

Description

一种音乐情感分类和机器作曲方法

技术领域

本发明涉及一种根据特定情感生成音乐的方法，特别涉及一种基于adaBoost算法和生成对抗网络的音乐情感分类和机器作曲的方法。

背景技术

人工智能已经在诸多领域带来变革，而在艺术创作方面也具有很大的潜力。在AI生成艺术的范畴中，与生成图像、文字不同的是，生成音乐更具挑战性，因为首先音乐是一种关于时间的艺术，其次音乐通常由多个音轨/乐器并行演奏而成，随着时间推移互相联系地展开。

基于特定情感的算法作曲可以为广告、游戏等视频的配乐节约大量时间和金钱成本，这一研究并不会取代人类作曲家，相反它会辅助人类作曲，给予人类作曲家新的灵感；同时也可以用于辅助心理治疗以及音乐播放软件的娱乐功能上。

音乐是表达情绪的艺术，它通过某种精确的组合，来传递某种特定的情绪，这种情绪可能因人而异，但是大多感受到的情绪比较相似。adaBoost算法是一种典型的Boosting算法，以弱分类器作为基础分类器，基于分类器的错误率分配不同的权重参数，最后累加加权的预测结果作为输出，非常适合音乐的情感分类。

生成对抗网络是一种深度学习模型，是近年来复杂分布上无监督学习最具前景的方法之一。模型框架中往往有两个模块：生成模型和判别模型，生成模型主要用来学习真实数据分布从而让自身生成的图像更加真实，以骗过判别模型。判别模型则需要对生成的数据进行真假判别。通过这一互相博弈学习的过程，可以生成能以假乱真的数据。

发明内容

本发明的目的是提供一种基于adaBoost算法和生成对抗网络的音乐情感分类和机器作曲的方法。

为了达到上述目的，本发明的技术方案是提供了一种音乐情感分类和机器作曲方法，其特征在于，包括如下步骤：

(1)获取用于情感分类的音频数据训练集，采用人工标注，将音频数据训练集中的数据分为不同情绪类别，所有情绪类别充分反映音乐情感分析研究中常用的两个指标：正负面和强烈程度；

(2)提取音频数据训练集中数据的频谱和节拍特征，提取出音色、节奏两个特征来反映音乐的情绪，其中，节奏特征通过分析40-150Hz频带的调制谱子带能量得到；音色特征由子带特征、谱质心C_t，带宽B_t及短时能量E_t刻画

(3)采用adaBoost算法进行情感分类的训练获得音乐情感分类模型，每一次循环生成一个弱分类器，最终的结果又构成了一个强分类器，针对步骤(1)中的每个情绪类别都训练一个adaBoost分类器；

(4)用训练好的音乐情感分类模型对一个比步骤(1)中的音频数据训练集更庞大的音乐数据集进行分类，分为不同情绪类别的训练数据集；

(5)对训练数据集中的音频数据做预处理，转化为包含音符事件与时间步的二维矩阵；

(6)建立带有自注意力机制的生成对抗网络GAN，每个生成对抗网络GAN由一个生成器和一个判别器构成，样本由两段音轨组成，一段音轨生成和弦，另一轨音轨生成旋律，每一段音轨都建立一个仅使用轨道内损失训练的生成对抗网络GAN，由两个生成对抗网络GAN去分别负责创作和弦与旋律；再建立一个使用轨道间损失训练的生成对抗网络GAN去学习和弦与旋律两个轨道的关系；GAN的判别器与生成器均是采用卷积神经网络；

(7)用分好的不同类别的训练集同时训练对应的生成对抗网络GAN，训练完成后针对不同类别的情感就都有了一个生成模型，用户需要哪种类型情绪的音乐时就可以调用对应的生成对抗网络GAN去生成。

优选地，步骤(1)中，所述情绪类别包括“平静”、“悲伤”、“激动”、“愉悦”。

优选地，步骤(2)中，所述谱质心C_t的计算公式为：

式中，S_t(n)是第t帧短时傅里叶变换的幅度值；N表示序列中观测数据的个数；

所述带宽B_t的计算公式为：

所述短时能量E_t的计算公式为：

优选地，步骤(3)中，所述adaBoost分类器定义为F(x)，则有：

式中，G_m(x)表示弱分类器；α_m为弱分类器在强分类器中所占的比重，强分类器为adaBoost分类器。

优选地，步骤(6)中生成对抗网络GAN的算法公式如下：

式中，V(D，G)表示生成对抗网络优化问题的目标函数；P_data代表真实数据的分布；P_z代表噪声信号的分布；x表示输入的真实样本，当x～P_data，D(x)＝1，

最大，D(x)表示x为真实数据的概率，

表示真实数据的数学期望；z表示随机噪声，当z～P_z，D(G(z))＝0，

最大，G(z)表示生成模型的输出，

表示随机噪声的数学期望。判别器使V(D，G)最大，生成器使V(D，G)最小。

本发明能够有效地对不同曲风的音乐进行分类并辅助作曲家直接针对特定曲风要求进行作曲。与传统的RNN算法等音乐生成方法相比，也有着更优质的生成质量，并且可以帮助解决多音轨样本生成的难题。。

附图说明

图1为本发明实施的流程算法；

图2为本方法中用于作曲的生成对抗网络模型图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明提供了一种音乐情感分类和机器作曲方法，包括以下步骤：

(1)获取用于情感分类的音频数据训练集，采用人工标注，将其分为四类：“平静”、“悲伤”、“激动”、“愉悦”。这四种情绪可以充分反映音乐情感分析研究中常用的两个指标：正负面和强烈程度。

(2)进行音频数据训练集的频谱和节拍特征提取，提取出音色、节奏两个特征来反映音乐的情绪。其中，节奏特征可以通过分析40-150Hz频带的调制谱子带能量得到。而音色特征可以由多个角度刻画，例如子带特征、谱质心C_t，带宽B_t，短时能量E_t等等。

式中，S_t(n)是第t帧短时傅里叶变换的幅度值；N表示序列中观测数据的个数。除此之外还有很多种分析音色的特征，特征越多分类越准确，但也耗时越长。

(3)采用adaBoost算法进行情感分类的训练，每一次循环都会生成一个弱分类器，最终的结果又构成了一个“强分类器”。由于人工标注将音乐情绪分为了四类，所以针对每一种情绪都训练一个adaBoost分类器F(x)。

式中，G_m(x)为弱分类器，α_m为弱分类器在强分类器中所占的比重。

(4)用训练好的音乐情感分类模型对一个更庞大的音乐数据集进行分类，分为四种情绪的训练数据集。

(5)对音频数据做预处理，转化为包含音符事件与时间步的二维矩阵。

(6)建立带有自注意力机制(self-attention)的生成对抗网络(GAN)，每个生成对抗网络由一个生成器和一个判别器构成。本方法生成的样本由两段音轨组成，一轨生成和弦，一轨生成旋律。每一段音轨都建立一个仅使用轨道内损失训练的GAN，相当于有两个“作曲家”去分别负责创作和弦与旋律；为了不至于两轨音乐听感上的脱节，再建立一个使用轨道间损失训练的GAN去学习和弦与旋律两个轨道的关系，相当于作曲的“指挥”。

生成对抗网络GAN的算法公式如下：

最大，D(x)表示x为真实数据的概率，

最大，G(z)表示生成模型的输出，

表示随机噪声的数学期望。最好的判别器是使V(D，G)最大，而最好的生成器是使V(D，G)最小。GAN的本质是学习数据分布，最终得到两个一样的数据分布的零和博弈问题。

本发明中的GAN的判别器与生成器均是采用卷积神经网络，针对二维矩阵有更快的训练速度且易于并行化。

自注意力机制的引入对于音乐生成这类全局相关度很高的任务有显著帮助，即用带有自注意力的特征图去代替传统的卷积特征图。

式中，B_i，j表示在合成第j个区域时，模型注意到第i个位置的程度；S_ij是由卷积层输出的特征图f(x)转置与g(x)的乘积。

(7)用分好的四类训练集同时训练对应的GAN，训练完成后针对四种情感就都有了一个生成模型，用户需要哪种类型情绪的音乐时就可以调用对应的GAN去生成。

图2为本方法中用于作曲的生成对抗网络模型图，两条轨道的生成器G1、G2分别生成和弦与旋律，此外建立一对生成器G与判别器D学习两条音轨间的关系。

Claims

1.一种音乐情感分类和机器作曲方法，其特征在于，包括如下步骤：

(1)获取用于情感分类的音频数据训练集，采用人工标注，将音频数据训练集中的数据分为不同情感类别，所有情绪类别充分反映音乐情感分析研究中常用的两个指标：正负面和强烈程度；

(2)提取音频数据训练集中数据的频谱和节拍特征，提取出音色、节奏两个特征来反映音乐的情绪，其中，节奏特征通过分析40-150Hz频带的调制谱子带能量得到；音色特征由子带特征、谱质心C_t、带宽B_t及短时能量E_t刻画

(4)用训练好的音乐情感分类模型对一个比步骤(1)中的音频数据训练集更庞大的音乐数据集进行分类，分为不同情感类别的训练数据集；

(5)对步骤(4)所述训练数据集中的音频数据做预处理，转化为包含音符事件与时间步的二维矩阵；

(6)建立带有自注意力机制的生成对抗网络GAN，每个生成对抗网络GAN由一个生成器和一个判别器构成，样本由两段音轨组成，一段音轨生成和弦，另一段轨音轨生成旋律，每一段音轨都建立一个仅使用轨道内损失训练的生成对抗网络GAN，由两个生成对抗网络GAN去分别负责创作和弦与旋律；再建立一个使用轨道间损失训练的生成对抗网络GAN去学习和弦与旋律两个轨道的关系；GAN的判别器与生成器均是采用卷积神经网络；

(7)用分好的不同情感类别的步骤(4)所述训练数据集同时训练对应的生成对抗网络GAN，训练完成后针对不同类别的情感就都有了一个生成模型，用户需要哪种类型情感的音乐时就可以调用对应的生成对抗网络GAN去生成。

2.如权利要求1所述的一种音乐情感分类和机器作曲方法，其特征在于，步骤(1)中，所述情感类别包括“平静”、“悲伤”、“激动”、“愉悦”。

3.如权利要求1所述的一种音乐情感分类和机器作曲方法，其特征在于，步骤(2)中，所述谱质心C_t的计算公式为：