CN110443127A

CN110443127A - 结合残差卷积结构和循环神经网络的乐谱图像识别方法

Info

Publication number: CN110443127A
Application number: CN201910571835.5A
Authority: CN
Inventors: 吴琼; 李锵; 关欣
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-11-12

Abstract

本发明涉及一种基于残差结构卷积神经网络和循环神经网络的乐谱图像识别方法，包括：1)建立乐谱图像的数据集；2)构建模型：将残差结构卷积神经网络和循环神经网络结合，构建深度学习网络模型，设置模型结构参数；3)训练模型：利用数据集对构建好的深度学习网络模型进行训练，深度学习网络模型输入为数据集中乐谱图像，真值标签为乐谱图像中各音符对应的语义信息，通过链式时序分类损失函数逐步调整网络各参数并达到最优，最终输出音符语义信息的预测值。

Description

结合残差卷积结构和循环神经网络的乐谱图像识别方法

技术领域

本发明是序列化图像识别领域的重要分支，将神经网络应用于乐谱图像的识别中，采用端对端的训练方式改进传统框架中出现的问题，实现对乐谱图像实时、有效的转换。

背景技术

乐谱是我们想要学习音乐最直接的来源，它对音符的信息有最为全面的描述。而通常情况下，乐谱是以纸质版来保存于图书馆，博物馆或者作曲家手中。但是随着时间推移，保存环境的变化，乐谱就会收到污染，损害等。随着计算机科学在音乐领域的不断渗入，计算机给人类的音乐活动带来了生产方式的变革，逐渐考虑将纸质版乐谱转化为电子版，这样更容易存储与保护。然而，目前人工读谱和手工操作的乐谱录入方式成为了乐谱数字化的瓶颈^[1]。随着计算机网络、数字娱乐的不断发展，计算机音乐成为智能多媒体的重要组成部分并在人机交互领域扮演着重要的角色。通过光学音符识别技术(Optical MusicRecognition，OMR)让计算机能够听懂音乐。此系统由于能简便快速地实现乐谱的计算机录入工作,在电脑音乐、计算机辅助作曲及音乐作品数字化等领域有广阔的应用前景^[2]。

OMR研究自1966年以来开始，1966年，Pruslin首次尝试自动识别乐谱。他的系统能够识别出音符的头和和弦；1970年，Prerau引入了图像分割的概念来检测音乐符号的原始元素。Kassler随后对这两项OMR创始著作进行了修订，并随着廉价光学扫描仪的普及，OMR研究在20世纪80年代后期得到了扩展。1997年，Bainbridge总结了现有的技术，并提出了一个可扩展的音乐识别系统，它不局限于特定的原始形状和语义特征。与Bell一起，他们归纳了OMR系统的通用框架：乐谱图像预处理，五线谱检测与删除，音符基元的识别以及音符基元的重组^[3,4]。Homenda和Rebelo提出了将模式识别研究应用在音乐标注。Jones等人提出了一项关于音乐片数字化、识别和恢复的研究^[5]。随后Pruslin于2006年提出将隐马尔可夫模型(HMM)应用于音符的识别阶段，避免了在处理之前对谱线进行删除的繁琐步骤，这样使得学习过程是在不需要在标签中指定符号位置的情况下开始的，这极大地简化了训练数据的创建^[6,7]；2009年文献[2]中提出对音符基元识别之前先进行预分割之后再进行处理的方法，将输入的乐谱图像进行预处理后对五线谱进行检测与删除，采用游程分析与二次投影技术对乐谱图像进行处理，先对图像中的音符进行初步分类，对每一类的音符采用不同的处理方法，结合乐谱的语法特征对乐谱图像进行分析。如果乐谱中的直线在五线谱删除后或者本身存在较多断裂时，分割效果将会下降；2010年文献[8]中提出基于“作用场”的音符基元关系，将输入乐谱图像进行预处理后对五线谱进行检测与删除，对音符基元进行识别后对音符基元之间的关系利用“作用场”进行描述并判断各基元之间位置关系，进行音符重构。但是当乐谱复杂度增加，识别率降低明显；2013年在会议上^[9]提出了加入谱线分组提示信息进行识别将输入图像进行预处理后加入了描述了被处理乐谱的结构信息，对乐谱整个系统的结构进行描述，再对五线谱进行检测与删除以及音符的识别与重构，在总结之前研究之后^[10]，同样使用了MusicStavesGamera工具包，它提供了许多不同的算法来检测图像中五线谱的位置并删除。这样一来就需要人工对谱线分组提示信息进行标注，当数据集在逐渐增加时耗费大量的人力且人工干预增加了出错的可能。

这些研究现状大多数是基于传统的OMR框架，而其中每一步都比较困难，并且会使得错误顺延至下一步，带来精准度的下降问题，针对每一类音符识别方法也将做出调整，并没有统一的识别技术，且它在手写乐谱图像识别中无法用相同的指标进行评估^[12]。文献[13]中对其做出调整与改变，首先将卷积神经网络(Convolutional Neural Network，CNN)与循环神经网络(Recurrent Neural Networks，RNN)相结合并应用在场景文本识别中，在乐谱图像中进行验证得到16％的序列错误率。

参考文献：

[1]Rebelo A,Capela G,Cardoso J S.Optical recognition of music symbols[J].International Journal on Document Analysis&Recognition,2010,13(1):19-31.

[2]高雪松.基于MIDI的乐器控制系统和音符的自动识别方法研究[D].南京理工大学,2012.

[3]王育峰,赵力.乐谱识别中音符分割技术的研究[J].中国科技论文,2009,4(2):109-114

[4]Wel E V D,Ullrich K.Optical Music Recognition with ConvolutionalSequence-to-Sequence Models[J].2017.

[5]Rebelo A,Fujinaga I,Paszkiewicz F,et al.Optical music recognition:state-of-the-art and open issues[J].International Journal of MultimediaInformation Retrieval,2012,1(3):173-190.

[6]Pugin L.Optical Music Recognitoin of Early Typographic Printsusing Hidden Markov Models[C]//Ismir 2006,International Conference on MusicInformation Retrieval,Victoria,Canada,8-12October 2006,Proceedings.DBLP,2006:53-56.

[7]Pugin L,Burgoyne J A,Fujinaga I.MAP Adaptation to Improve OpticalMusic Recognition of Early Music Documents Using Hidden Markov Models[C]//International Conference on Music Information Retrieval,Ismir 2007,Vienna,Austria,September.DBLP,2007:513-516.

[8]刘晓翔.乐谱图像中的音符识别方法[J].计算机工程,2010,36(9):163-167.

[9]http://ismir2013.ismir.net/wp-content/uploads/2013/09/207_Paper.pdf

[10]Vigliensoni G,Burgoyne J A,Hankinson A,et al.Automatic PitchDetection in Printed Square Notation[C]//International Society for MusicInformation Retrieval Conference,Ismir 2011,Miami,Florida,Usa,October.DBLP,2011:423-428.

[11]Blanes A R,Bisquerra A F.Camera-Based Optical Music RecognitionUsing a Convolutional Neural Network[C]//Iapr International Conference onDocument Analysis and Recognition.IEEE,2018.

[12]Rebelo A,Capela G,Cardoso J S.Optical recognition of musicsymbols[J].International Journal on Document Analysis&Recognition,2010,13(1):19-31.

[13]Shi B,Bai X,Yao C.An End-to-End Trainable Neural Network forImage-based Sequence Recognition and Its Application to Scene TextRecognition[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2017,PP(99):1-1.

发明内容

本发明的目的在于结合神经网络，通过对数据增强对数据进行扩充，并利用残差结构的CNN提取有效特征，RNN对序列化特征进行识别，以端对端的训练方式解决传统框架中分为子任务的繁杂问题，从而简化乐谱识别研究的复杂度。技术方案如下：

一种基于残差结构卷积神经网络和循环神经网络的乐谱图像识别方法，包括以下步骤：

1)建立乐谱图像的数据集：对已有数据集上进行数据增强以扩充数据集，随机选取部分数据加入柏林噪声，高斯白噪声，弹性形变以模拟不理想情况下乐谱图像数据，并将其划分为训练集、验证集和测试集；

2)构建模型：将残差结构卷积神经网络和循环神经网络结合，构建深度学习网络模型，设置模型结构参数，残差结构卷积神经网络中由5层残差块构成，每一层残差块内部由卷积层、BN层、激活函数层三部分构成，每一层残差块后连接最大池化层；五层残差块中卷积核尺寸均为3*3，卷积核数量逐层变化分别为32、64、128、256和256，最大池化层尺寸为2*2，且步长为2，激活函数采用LeakyReLU函数；循环神经网络采用双向长短时记忆网络BiLSTM，共包含两层BiLSTM，每一层中隐藏层由512个神经网络单元构成；

3)训练模型：利用数据集对构建好的深度学习网络模型进行训练，深度学习网络模型输入为数据集中乐谱图像，真值标签为乐谱图像中各音符对应的语义信息，通过链式时序分类损失函数逐步调整网络各参数并达到最优，最终输出音符语义信息的预测值；

4)利用乐谱显示软件Verovio将深度学习网络输出的预测值转化为结果易于观察的乐谱图像。

本发明对以往CNN与RNN相结合的框架进行改进，特征提取部分利用残差结构的CNN解决网络因层数的增加而带来的梯度消失/爆炸问题；特征识别部分采用RNN中的双向LSTM对前后存在依赖关系的长序列数据处理。在增强的数据集上训练并测试，在符号级的的错误率达到1.844％，序列错误率下降至8.1071％，与以往相比，识别效果良好。

附图说明

图1数据增强，(a)原图(b)加入高斯白噪声(c)加入柏林噪声(d)加入弹性形变

图2残差结构的CNN

图3网络结构图

图4损失以及精度对比图

图5乐谱对比图

具体实施方式

实验环境如下：Ubuntu16.04操作系统，Intel Core i7-8700CPU,16G运行内存，Nvidia GTX1080Ti GPU，深度学习框架Tensorflow。网络采用Adam优化，学习率设置为1e-3，batch_size设置为16，均加入BN层以加快收敛，每1000次迭代后对损失进行一次打印，并验证其精准度，共经过64000次迭代训练，经过约8个小时的训练得到模型。

本发明首先对增强数据对数据集扩充，以图1(a)为例通过加入高斯白噪声、柏林噪声以及旋转拉伸等弹性形变来模仿乐谱在低质量打印或者在长久保留过程中存在的一些可能的噪声以及畸变，以提高模型的抗噪能力。高斯白噪声是一种常用的图像增强方法，它是幅度服从高斯分布，功率谱密度服从均匀分布的一种噪声。加入高斯白噪声来模拟在打印质量较差时图像中存在的一些噪声，效果如图1(b)所示。柏林噪声是一种程序生成的梯度噪声，可以模仿自然界中常见的噪声现象，比如波浪、云朵等复杂纹理。利用柏林噪声对乐谱中一些区域做出变淡甚至褪色的效果来近似乐谱图像中打印墨粉不均匀或因存留时间已久导致的图片质量出现偏差的情况，如图1(c)所示。弹性形变是一种图像处理方法，通过计算机程序来对图像做拉伸、旋转、歪斜、缩放等变换模拟图像在印刷过程中出现的轻微折叠、畸变等现象以补充数据集，如图1(d)所示。

在特征提取部分，采用残差结构的CNN构成残差块，每一个残差块跳跃两个特征提取模块，每一个特征提取模块包含一个卷积层，一个BN层以及一个激活函数层，如图2所示。常用的激活函数包括Sigmoid、Tanh以及ReLU等，考虑到ReLU激活函数负半轴为0，呈“死区”状态，梯度在更新过程中可能会消失，于是本文选择LeakyReLU函数，在负半轴时仍有很小的梯度值，具体可表示为：

输入图像数据依次通过五个残差块卷积层后得到特征图C1，C2，C3，C4以及C5，如图3所示。其卷积核尺寸均为3×3，卷积核数量以32、64、128、256和256进行变化。最后对特征进行维度上的转换，以满足RNN序列模型的输入要求。

在特征提取部分本发明采用RNN中经典的双向LSTM，每个方向均由两层含有512个隐藏层单元的LSTM构成，以CTC作为损失函数进行训练得到模型。网络具体的参数如表1所示。

本发明采用序列错误率和符号错误率对模型的能力进行评估。

·序列错误率(Sequence Error Rate)：错误预测的序列的比率。(序列中至少有一个音符、音高、休止符等出现错误均属于错误序列)。

·符号错误率(Symbol Error Rate)：从模型预测的序列中产生标签序列所需的基本编辑操作(插入、修改或删除)的平均数量占总符号数量的比例。

这里序列错误率与符号错误率并没有绝对的关系。在几例谱例的识别过程中，错误率可能会集中于一部分谱例或分散于所有谱例，这就会出现在符号错误率相同的情况下序列错误率存在很大的差异的情况，故在本文中对于精准度的衡量更侧重于符号错误率这一评价指标。

根据评价指标，我们对本发明提到的识别算法与文献[13]中提到的CNN与RNN结合的C-BiLSTM算法进行对比，统一在一个数据集上进行训练其损失下降情况如图4(a)所示，验证集中对其准确率进行验证，对比如图4(b)所示。通过对模型测试后的乐谱进行恢复，将其转化为图像，对比结果如图5所示，图5(a)为测试谱例，图5(b)为经过统一数据集训练C-BiLSTM模型测试得到的乐谱，图5(c)为经过本发明所提模型测试得到的乐谱。

表1网络具体参数

表2网络结果对比

Claims

1.一种基于残差结构卷积神经网络和循环神经网络的乐谱图像识别方法，包括以下步骤：

1)建立乐谱图像的数据集：对已有数据集上进行数据增强以扩充数据集，随机选取部分数据加入柏林噪声，高斯白噪声，弹性形变等以模拟不理想情况下乐谱图像数据，并将其划分为训练集、验证集和测试集；