CN110852181A

CN110852181A - 基于注意力机制卷积神经网络钢琴乐谱难度识别方法

Info

Publication number: CN110852181A
Application number: CN201910994951.8A
Authority: CN
Inventors: 闫晗晗; 李锵; 关欣
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2020-02-28

Abstract

本发明属于音乐信息检索领域，为从众多信息中选择出对当前任务目标更关键的信息，充分使用源数据集中包含的所有信息，以提高分类准确率,为钢琴教学和学生学习，提供可靠的钢琴难度信息，同时也大大提高乐谱网站的用户体验。为此，本发明，基于注意力机制卷积神经网络钢琴乐谱难度识别方法，搭建并训练基于注意机制的改进卷积神经网络模型，在训练过程中，将n个不同难度等级的MIDI乐谱文件当做神经网络的n个通道输入到网络模型中进行训练，以便融合不同难度等级数据集的多个特征，进行准确率更高的难度分类，利用训练好的网络模型进行钢琴乐谱难度识别。本发明主要应用于乐谱难度自动识别场合。

Description

基于注意力机制卷积神经网络钢琴乐谱难度识别方法

技术领域

本发明属于音乐信息检索领域，将注意力机制和卷积神经网络结合起来，去实现钢琴乐谱难度识别。具体涉及基于注意力机制的改进卷积神经网络钢琴乐谱难度识别方法。

背景技术

钢琴乐谱难度等级识别即用一种算法能够自动识别某一钢琴乐谱的难度等级，给予使用者参考意见。每天有大量的钢琴乐谱被创作出来，并且在音乐历史中已经有大量的钢琴乐谱存在。然而，如何从庞大的钢琴乐谱数据中找到与学习者学习等级匹配的乐谱是一个很大的挑战。对于专业钢琴学习者，一般都有固定进阶教材，但不利于个性化学习以激发学习者的热情和兴趣，有必要对网上海量的乐谱进行难度等级的衡量。对于音乐业余爱好者，选择合适自己的难度等级乐谱，以防学习信心受挫，学习热情降低，有利于自身音乐学习水平更快的提升。判断钢琴乐谱的难度等级是一个相对较复杂的任务。首先，钢琴乐谱难度判断的标准和准则较难完全客观地定义出来，现在绝大部分乐谱难度等级仍然需要专业人士进行主观判断。然而对于现在网络中数以万计的数字乐谱，人为逐个去判断其难度等级将会是一个耗时耗力的巨大工程，是不现实的。再者，影响人为主观判断的因素有很多，尤其对于多类别问题，人为主观感知很难一直准确地把握每一个难度等级之间的区别。不同的人对于同一首乐谱可能会给出不同的难度等级，甚至对于同一首乐谱，同一个人在不同的时间也会给出不同的难度等级。为给网络中共享的海量数字钢琴乐谱提供难度等级标签，同时避免耗费大量人为工作时间以及避免人为主观判断难度等级的不一致性，依据机器学习与模式识别相关理论，设计一种能够自动识别乐谱难度等级的算法将会是一个有效的策略。

数字钢琴乐谱难度等级识别是一个较新但很有潜力和应用前景的技术领域。Shih-Chuan Chiu等人最先开始研究提出钢琴乐谱难度等级识别领域。他们首先定义一些和钢琴难度密切相关的特征，并利用特征选择算法对特征重要程度进行排序，然后考虑用三种回归方法去实现钢琴难度的自动识别。无论是多元线性回归还是逐步回归都是以特征和难度等级之间是线性关系的假设为前提，此模型过于简化特征和难度等级之间的实际关系，而支持向量回归虽可实现非线性拟合，但其拟合效果不令人满意。另外，回归算法更倾向于解释型，即可以较明了地表示特征与难度等级之间的函数关系，建立模型，适合拟合数据，预测定量的输出(即输出是连续值)，但对于输出是离散值的分类问题能力有限。

Véronique Sébastien等人根据音乐教学的过程，提出一种基于乐谱分析的方法实现钢琴乐谱难度识别。首先也定义一些难度相关特征，然后利用PCA(PrincipalComponent Analysis)降维，将特征投影到二维空间，经过分层聚类(hierarchicalclustering)和k均值聚类得到难度类别标签。人主观判断会权衡各个难度准则的重要程度，并且不会受到乐谱题材的影响，而PCA和聚类算法不会权衡特征重要性，并且也会受到音乐题材的影响。聚类算法属于非监督分类算法，虽然能够充分利用特征与难度等级之间的自然分布关系，但无法利用已有的难度等级标签作为先验知识帮助分类。例如实验中，原始乐谱数据是四个类别，经过PCA降维后，应用聚类算法，最终仅得到三个难度类别。

郭龙伟等人将乐谱难度等级识别视为分类问题。为更好地描述数字钢琴乐谱，重新定义了七个难度相关特征，并结合之前的特征总共有25个特征。并利用回归拟合对比实验和ReliefF算法对难度相关特征进行有效性的判断，证明新提出特征的有效性，然后通过散点图分析特征与难度等级的自然分布关系后，决定使用非线性分类算法实现乐谱难度等级识别，首先利用测度学习理论改进k最近邻(k nearest neighbors，KNN)，即P-KNN(KNNin projected feature space)算法。基于求解大间隔优化问题，利用KNN算法分类原理实现待定乐谱难度等级的识别。他们也采用了基于测度学习理论，从数据本身有监督地学习到距离测度DML(Distance Metric Learning)，并用之改进支持向量机(SVM,supportvector machine)算法中的高斯径向基核函数，提出一种ML-SVM(metric learning withsupport vector machine)算法，并利用网格搜索算法寻找最优的模型参数组合。本研究基于两个数据集，并且ML-SVM算法在九类难度等级数据集上达到准确率为84.67％。本文实验数据还是比较少的，为了提高算法的适用性和泛化能力，更好的验证算法的性能，应将算法在更大的钢琴乐谱数据库中进行测试。

因此需要一种解决或至少改善现有技术中固有的一个或多个问题的钢琴乐谱难度等级识别方法。

发明内容

为克服现有技术的不足，本发明旨在提出一种基于注意力机制的改进卷积神经网络的钢琴乐谱难度识别方法。从众多信息中选择出对当前任务目标更关键的信息，充分使用源数据集中包含的所有信息，以提高分类准确率,为钢琴教学和学生学习，提供可靠的钢琴难度信息，同时也大大提高乐谱网站的用户体验。为此，本发明采取的技术方案是，基于注意力机制卷积神经网络钢琴乐谱难度识别方法，搭建并训练基于注意机制的改进卷积神经网络模型，在训练过程中，将n个不同难度等级的MIDI(Musical Instrument DigitalInterface)乐谱文件当做神经网络的n个通道输入到网络模型中进行训练，以便融合不同难度等级数据集的多个特征，进行准确率更高的难度分类，利用训练好的网络模型进行钢琴乐谱难度识别。

进行网络训练前先进行训练数据预处理：收集具有难度标签的实验数据源即两种不同评价体系下的数据集，在提取特征之前要先对MIDI乐谱文件进行量化处理，使得音符起振时间和持续时间出现在正确的节奏位置。

搭建并训练基于注意机制的改进卷积神经网络模型，以U-Net作为基础，网络包括一个用于分析整首乐谱文件，获取上下文信息的分析路径和一个连续扩展的合成路径；

每个路径都有四个分辨率步骤层，两条路径中每层均包含两个内核大小为3×3×3的卷积层，每个卷积层后跟一个ReLu(The Rectified Linear Unit)激活函数；相邻两层之间分别是最大池化层和上采样层，步长均为2内核大小均为2×2×2；为了避免瓶颈，分析路径中在最大池化层之前已将通道数量加倍，合成路径中亦将通道数量加倍；在最后一层，内核大小为1×1×1的卷积层将输出通道的数量减少到标签数量；

在为合成路径提供基本的难度相关度高的特征的来自分析路径中同层的快捷连接中加入注意门AG(Attention Gate)模型，利用门控信号删减跳过连接中的不相关的特征，突出显示通过跳过连接传递的显著特征，将该网络称为AG_Unet。

对所有卷积层的非线性部分采用PReLU激活函数，标准化方式采用实例标准化，在训练过程中使用可数据增强技术进行数据增强，并选用多类Dice损失函数作为损失函数；

将预处理后的MIDI乐谱文件分为训练集和测试集，利用训练集对基于注意机制的改进卷积神经网络模型进行训练；

本发明的特点及有益效果是：

1.易用性，本发明提出的基于注意机制的改进卷积神经网络是一个可以端到端进行训练的神经网络，并且可以直接应用于MIDI乐谱数据处理，方便易用；

2.创新性，本发明提出的基于注意机制的改进卷积神经网络首次应用于钢琴乐谱难度等级识别领域。

附图说明：

图1量化。

图2AG示意图。

图3基于注意机制的改进卷积神经网络结构图。

具体实施方式

本发明介绍了一种基于注意力机制的改进卷积神经网络的钢琴乐谱难度识别方法，此方法用卷积神经网络的思想去实现钢琴乐谱难度等级的自动识别。本发明基于两个数据集，同一乐谱不同章节难度等级不同，在卷积神经网络上加入注意力机制，可以使分类模型对于难度较高的章节多加“注意”，从众多信息中选择出对当前任务目标更关键的信息，充分使用源数据集中包含的所有信息，以提高分类准确率。本发明为钢琴教学和学生学习，提供可靠的钢琴难度信息，同时也大大提高乐谱网站的用户体验。

本发明的目的在于提供一种基于注意力机制的改进卷积神经网络的钢琴乐谱难度识别方法。该方法面向现存的数以万计的钢琴乐谱，结合乐谱不同章节音符密度及音高范围等差异较大的特点，在卷积神经网络中加入注意力机制，可以使分类模型对于难度较高的章节多加“注意”，从众多信息中选择出对当前任务目标更关键的信息，充分利用注意力机制的原理与优势，提高数据信息的利用率，提高学习模型的泛化能力。此方法具有适应乐谱数据变化的能力，并具有高的识别稳定性和识别准确率，为钢琴教学和学习过程，提供可靠的钢琴难度等级信息。

本发明采用的技术方案是，一种基于注意力机制的改进神经网络的钢琴乐谱难度识别方法，包括下列步骤：

1)数据预处理：收集具有难度标签的实验数据源(两种不同评价体系下的数据集)，由于MIDI键盘产生的乐谱文件时间分辨率一般较高，导致一些音符没有出现在正确的节奏位置，故在提取特征之前要先对MIDI乐谱文件进行量化处理，使得音符起振时间(onset time)和持续时间(duration)能够出现在正确的节奏位置。并对类别间数据不均衡现象进行均衡化处理。

2)搭建并训练基于注意机制的改进卷积神经网络模型。

在训练过程中，将不同难度等级(n个难度等级)的MIDI乐谱文件当做神经网络的n个通道输入到网络模型中进行训练，以便融合不同难度等级数据集的多个特征，进行准确率更高的难度分类；以U-Net作为基础，网络包括一个用于分析整首乐谱文件，获取上下文信息的分析路径和一个连续扩展的合成路径；每个路径都有四个分辨率步骤层，两条路径中每层均包含两个内核大小为3×3×3的卷积层，每个卷积层后跟一个ReLu激活函数；相邻两层之间分别是最大池化层和上采样层，步长均为2内核大小均为2×2×2；为了避免瓶颈，分析路径中在最大池化层之前已将通道数量加倍，合成路径中同理；在最后一层，内核大小为1×1×1的卷积层将输出通道的数量减少到标签数量；

U-Net网络为合成路径提供难度相关特征的同层分析路径，本发明是在同层分析路径的快捷连接中加入AG模型，利用门控信号删减跳过连接中的不相关的特征，突出显示通过跳过连接传递的显著特征，将该网络称为AG_UNet；对所有卷积层的非线性部分采用leaky ReLu激活函数，标准化方式采用实例标准化，在训练过程中使用可数据增强技术进行数据增强，并选用多类Dice损失函数作为损失函数；

3)测试分类结果：当基于注意机制的改进卷积神经网络模型训练好后，在测试集上测试模型，并使用相应的评价指标对分类结果进行评估。

本发明的实验基于两个不同评价体系的数据集，乐谱数据源从大型音乐网站http://www.ambrosepianotabs.com上收集到，分别是分类较细致的九个难度等级的数据集，我们命名为NineS数据集，其包含3010首乐谱，另一个分类相对粗糙的四个难度等级的数据集，我们命名为FiveS数据集，其包含1253首乐谱。两个数据集都存在类别间数据不均衡的现象，并且每首乐谱存在不同章节音符密度及音高范围等差异较大的特点，在卷积神经网络中加入注意力机制，使网络可以更加合理处理类别间不均衡和对于同一首乐谱难度较高的章节多加“注意”，从众多信息中选择出对当前任务目标更关键的信息，充分利用注意力机制的原理与优势，提高数据信息的利用率，提高学习模型的泛化能力，优势体现在：

下面结合附图和具体实例，进一步详细说明本发明。

1.数据预处理

首先由于MIDI键盘产生的乐谱文件时间分辨率一般较高，导致一些音符没有出现在正确的节奏位置，故在提取特征之前要先对MIDI乐谱文件进行量化处理，使得音符起振时间(onset time)和持续时间(duration)能够出现在正确的节奏位置，具体量化过程如图1所示。

根据收集到的两种不同评价体系的乐谱数据集，FiveS数据集中不同难度等级数据量差别较大，其中难度等级beginner：intermediate的比例约为1:17,而NineS数据集中数据量差别最大的两个难度等级数据比例为1:5，由于NineS数据集中最大的不平衡比率约为1:5，还是比较小的，所以可采用过采样(oversampling)方法解决数据不平衡问题。即重复利用数据较少的类别，以使得和数据多的类别之间达到平衡。对于数据严重不平衡(不平衡比率大于1:10)的FiveS数据集，少数类别过多次重复利用将会出现过拟合问题。故可采用改进的过采样SMOTE(Synthetic Minority Oversampling)方法平衡数据。针对数据不均衡现象，本发明使用SMOTE方法平衡数据以生成的少类别数据，对于简单的分类算法而言，效果并不显著。故考虑在类别不均衡问题上除使用SMOTE算法外，在后期的网络训练中，针对类别分类时的判决中也加入注意力机制原理。

3.注意力机制

注意力模型最近几年在深度学习各个领域被广泛使用，无论是图像处理、语音识别还是自然语言处理的各种不同类型的任务中，都使用到注意力模型。

视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像，获得需要重点关注的目标区域，也就是一般所说的注意力焦点，而后对这一区域投入更多注意力资源，以获取更多所需要关注目标的细节信息，而抑制其他无用信息。这是人类利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段，是人类在长期进化中形成的一种生存机制，人类视觉注意力机制极大地提高了视觉信息处理的效率与准确性。深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似，核心目标也是从众多信息中选择出对当前任务目标更关键的信息。

同一乐谱不同章节难度等级不同，在识别算法中加入注意力机制，可以使分类模型对于难度较高的章节多加“注意”，充分使用源数据集中包含的所有信息，以提高分类准确率。

目前大多数注意力模型附着在Encoder-Decoder(编码-解码)框架下，文本处理领域的Encoder-Decoder框架可以这么直观地去理解：可以把它看作适合处理由一个句子(或篇章)生成另外一个句子(或篇章)的通用处理模型。对于句子对<Source(源对象),Target(目标对象)>，我们的目标是给定输入句子Source，期待通过Encoder-Decoder框架来生成目标句子Target。Source和Target可以是同一种语言，也可以是两种不同的语言。而Source和Target分别由各自的单词序列构成：

Source＝<x₁,x₂…x_m>；Target＝<y₁,y₂…y_n>

Encoder即对输入句子Source进行编码，将输入句子通过非线性变换转化为中间语义表示C：C＝F(x₁,x₂…x_m)

对于解码器Decoder来说，其任务是根据句子Source的中间语义表示C和之前已经生成的历史信息y₁,y₂…y_n-1来生成i时刻要生成的单词y_i＝G(C,y₁,y₂…y_i-1)

每个yi都依次这么产生，那么看起来就是整个系统根据输入句子Source生成了目标句子Target。如果Source是中文句子，Target是英文句子，那么这就是解决机器翻译问题的Encoder-Decoder框架；如果Source是一篇文章，Target是概括性的几句描述语句，那么这是文本摘要的Encoder-Decoder框架；如果Source是一句问句，Target是一句回答，那么这是问答系统或者对话机器人的Encoder-Decoder框架。由此可见，在文本处理领域，Encoder-Decoder的应用领域相当广泛。本发明首次将注意力机制加入到卷积神经网络中应用于MIDI乐谱文件识别领域。

4.卷积神经网络模型

卷积神经网络包括一维卷积神经网络，二维卷积神经网络以及三维卷积神经网络。一维卷积神经网络主要用于序列类的数据处理，二维卷积神经网络常应用于图像类文本的识别，三维卷积神经网络主要应用于医学图像以及视频类数据识别。本发明使用一维卷积神经网络应用于钢琴乐谱难度等级识别研究。

神经网络，也指人工神经网络(Artificial Neural Networks，简称ANNs)，是一种模仿生物神经网络行为特征的算法数学模型，由神经元、节点与节点之间的连接(突触)所构成，每个神经网络单元抽象出来的数学模型如下，也叫感知器，它接收多个输入(x1，x2，x3...)，产生一个输出，这就好比是神经末梢感受各种外部环境的变化(外部刺激)，然后产生电信号，以便于转导到神经细胞(又叫神经元)。单个的感知器就构成了一个简单的模型，但在现实世界中，实际的决策模型则要复杂得多，往往是由多个感知器组成的多层网络，经典的神经网络模型，由输入层、隐含层、输出层构成。人工神经网络可以映射任意复杂的非线性关系，具有很强的鲁棒性、记忆能力、自学习等能力，在分类、预测、模式识别等方面有着广泛的应用。

一般的，卷积神经网络CNN(Convolutional Neural Networks)的基本结构包括两层，其一为特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid激励函数作为卷积网络的激活函数，使得特征映射具有位移不变性。此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层，这种特有的两次特征提取结构减小了特征分辨率。

Claims

1.一种基于注意力机制卷积神经网络钢琴乐谱难度识别方法，其特征是，搭建并训练基于注意机制的改进卷积神经网络模型，在训练过程中，将n个不同难度等级的MIDI(Musical Instrument Digital Interface)乐谱文件当做神经网络的n个通道输入到网络模型中进行训练，以便融合不同难度等级数据集的多个特征，进行准确率更高的难度分类，利用训练好的网络模型进行钢琴乐谱难度识别。

2.如权利要求1所述的基于注意力机制卷积神经网络钢琴乐谱难度识别方法，其特征是，进行网络训练前先进行训练数据预处理：收集具有难度标签的实验数据源即两种不同评价体系下的数据集，在提取特征之前要先对MIDI乐谱文件进行量化处理，使得音符起振时间和持续时间出现在正确的节奏位置。

3.如权利要求1所述的基于注意力机制卷积神经网络钢琴乐谱难度识别方法，其特征是，搭建并训练基于注意机制的改进卷积神经网络模型，以U-Net作为基础，网络包括一个用于分析整首乐谱文件，获取上下文信息的分析路径和一个连续扩展的合成路径；

4.如权利要求1所述的基于注意力机制卷积神经网络钢琴乐谱难度识别方法，其特征是，对所有卷积层的非线性部分采用PReLU激活函数，标准化方式采用实例标准化，在训练过程中使用可数据增强技术进行数据增强，并选用多类Dice损失函数作为损失函数；

将预处理后的MIDI乐谱文件分为训练集和测试集，利用训练集对基于注意机制的改进卷积神经网络模型进行训练。