CN110443127A - 结合残差卷积结构和循环神经网络的乐谱图像识别方法 - Google Patents

结合残差卷积结构和循环神经网络的乐谱图像识别方法 Download PDF

Info

Publication number
CN110443127A
CN110443127A CN201910571835.5A CN201910571835A CN110443127A CN 110443127 A CN110443127 A CN 110443127A CN 201910571835 A CN201910571835 A CN 201910571835A CN 110443127 A CN110443127 A CN 110443127A
Authority
CN
China
Prior art keywords
musical score
recognition
score image
layer
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910571835.5A
Other languages
English (en)
Inventor
吴琼
李锵
关欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910571835.5A priority Critical patent/CN110443127A/zh
Publication of CN110443127A publication Critical patent/CN110443127A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/30Character recognition based on the type of data
    • G06V30/304Music notations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Character Discrimination (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明涉及一种基于残差结构卷积神经网络和循环神经网络的乐谱图像识别方法,包括:1)建立乐谱图像的数据集;2)构建模型:将残差结构卷积神经网络和循环神经网络结合,构建深度学习网络模型,设置模型结构参数;3)训练模型:利用数据集对构建好的深度学习网络模型进行训练,深度学习网络模型输入为数据集中乐谱图像,真值标签为乐谱图像中各音符对应的语义信息,通过链式时序分类损失函数逐步调整网络各参数并达到最优,最终输出音符语义信息的预测值。

Description

结合残差卷积结构和循环神经网络的乐谱图像识别方法
技术领域
本发明是序列化图像识别领域的重要分支,将神经网络应用于乐谱图像的识别中,采用端对端的训练方式改进传统框架中出现的问题,实现对乐谱图像实时、有效的转换。
背景技术
乐谱是我们想要学习音乐最直接的来源,它对音符的信息有最为全面的描述。而通常情况下,乐谱是以纸质版来保存于图书馆,博物馆或者作曲家手中。但是随着时间推移,保存环境的变化,乐谱就会收到污染,损害等。随着计算机科学在音乐领域的不断渗入,计算机给人类的音乐活动带来了生产方式的变革,逐渐考虑将纸质版乐谱转化为电子版,这样更容易存储与保护。然而,目前人工读谱和手工操作的乐谱录入方式成为了乐谱数字化的瓶颈[1]。随着计算机网络、数字娱乐的不断发展,计算机音乐成为智能多媒体的重要组成部分并在人机交互领域扮演着重要的角色。通过光学音符识别技术(Optical MusicRecognition,OMR)让计算机能够听懂音乐。此系统由于能简便快速地实现乐谱的计算机录入工作,在电脑音乐、计算机辅助作曲及音乐作品数字化等领域有广阔的应用前景[2]
OMR研究自1966年以来开始,1966年,Pruslin首次尝试自动识别乐谱。他的系统能够识别出音符的头和和弦;1970年,Prerau引入了图像分割的概念来检测音乐符号的原始元素。Kassler随后对这两项OMR创始著作进行了修订,并随着廉价光学扫描仪的普及,OMR研究在20世纪80年代后期得到了扩展。1997年,Bainbridge总结了现有的技术,并提出了一个可扩展的音乐识别系统,它不局限于特定的原始形状和语义特征。与Bell一起,他们归纳了OMR系统的通用框架:乐谱图像预处理,五线谱检测与删除,音符基元的识别以及音符基元的重组[3,4]。Homenda和Rebelo提出了将模式识别研究应用在音乐标注。Jones等人提出了一项关于音乐片数字化、识别和恢复的研究[5]。随后Pruslin于2006年提出将隐马尔可夫模型(HMM)应用于音符的识别阶段,避免了在处理之前对谱线进行删除的繁琐步骤,这样使得学习过程是在不需要在标签中指定符号位置的情况下开始的,这极大地简化了训练数据的创建[6,7];2009年文献[2]中提出对音符基元识别之前先进行预分割之后再进行处理的方法,将输入的乐谱图像进行预处理后对五线谱进行检测与删除,采用游程分析与二次投影技术对乐谱图像进行处理,先对图像中的音符进行初步分类,对每一类的音符采用不同的处理方法,结合乐谱的语法特征对乐谱图像进行分析。如果乐谱中的直线在五线谱删除后或者本身存在较多断裂时,分割效果将会下降;2010年文献[8]中提出基于“作用场”的音符基元关系,将输入乐谱图像进行预处理后对五线谱进行检测与删除,对音符基元进行识别后对音符基元之间的关系利用“作用场”进行描述并判断各基元之间位置关系,进行音符重构。但是当乐谱复杂度增加,识别率降低明显;2013年在会议上[9]提出了加入谱线分组提示信息进行识别将输入图像进行预处理后加入了描述了被处理乐谱的结构信息,对乐谱整个系统的结构进行描述,再对五线谱进行检测与删除以及音符的识别与重构,在总结之前研究之后[10],同样使用了MusicStavesGamera工具包,它提供了许多不同的算法来检测图像中五线谱的位置并删除。这样一来就需要人工对谱线分组提示信息进行标注,当数据集在逐渐增加时耗费大量的人力且人工干预增加了出错的可能。
这些研究现状大多数是基于传统的OMR框架,而其中每一步都比较困难,并且会使得错误顺延至下一步,带来精准度的下降问题,针对每一类音符识别方法也将做出调整,并没有统一的识别技术,且它在手写乐谱图像识别中无法用相同的指标进行评估[12]。文献[13]中对其做出调整与改变,首先将卷积神经网络(Convolutional Neural Network,CNN)与循环神经网络(Recurrent Neural Networks,RNN)相结合并应用在场景文本识别中,在乐谱图像中进行验证得到16%的序列错误率。
参考文献:
[1]Rebelo A,Capela G,Cardoso J S.Optical recognition of music symbols[J].International Journal on Document Analysis&Recognition,2010,13(1):19-31.
[2]高雪松.基于MIDI的乐器控制系统和音符的自动识别方法研究[D].南京理工大学,2012.
[3]王育峰,赵力.乐谱识别中音符分割技术的研究[J].中国科技论文,2009,4(2):109-114
[4]Wel E V D,Ullrich K.Optical Music Recognition with ConvolutionalSequence-to-Sequence Models[J].2017.
[5]Rebelo A,Fujinaga I,Paszkiewicz F,et al.Optical music recognition:state-of-the-art and open issues[J].International Journal of MultimediaInformation Retrieval,2012,1(3):173-190.
[6]Pugin L.Optical Music Recognitoin of Early Typographic Printsusing Hidden Markov Models[C]//Ismir 2006,International Conference on MusicInformation Retrieval,Victoria,Canada,8-12October 2006,Proceedings.DBLP,2006:53-56.
[7]Pugin L,Burgoyne J A,Fujinaga I.MAP Adaptation to Improve OpticalMusic Recognition of Early Music Documents Using Hidden Markov Models[C]//International Conference on Music Information Retrieval,Ismir 2007,Vienna,Austria,September.DBLP,2007:513-516.
[8]刘晓翔.乐谱图像中的音符识别方法[J].计算机工程,2010,36(9):163-167.
[9]http://ismir2013.ismir.net/wp-content/uploads/2013/09/207_Paper.pdf
[10]Vigliensoni G,Burgoyne J A,Hankinson A,et al.Automatic PitchDetection in Printed Square Notation[C]//International Society for MusicInformation Retrieval Conference,Ismir 2011,Miami,Florida,Usa,October.DBLP,2011:423-428.
[11]Blanes A R,Bisquerra A F.Camera-Based Optical Music RecognitionUsing a Convolutional Neural Network[C]//Iapr International Conference onDocument Analysis and Recognition.IEEE,2018.
[12]Rebelo A,Capela G,Cardoso J S.Optical recognition of musicsymbols[J].International Journal on Document Analysis&Recognition,2010,13(1):19-31.
[13]Shi B,Bai X,Yao C.An End-to-End Trainable Neural Network forImage-based Sequence Recognition and Its Application to Scene TextRecognition[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2017,PP(99):1-1.
发明内容
本发明的目的在于结合神经网络,通过对数据增强对数据进行扩充,并利用残差结构的CNN提取有效特征,RNN对序列化特征进行识别,以端对端的训练方式解决传统框架中分为子任务的繁杂问题,从而简化乐谱识别研究的复杂度。技术方案如下:
一种基于残差结构卷积神经网络和循环神经网络的乐谱图像识别方法,包括以下步骤:
1)建立乐谱图像的数据集:对已有数据集上进行数据增强以扩充数据集,随机选取部分数据加入柏林噪声,高斯白噪声,弹性形变以模拟不理想情况下乐谱图像数据,并将其划分为训练集、验证集和测试集;
2)构建模型:将残差结构卷积神经网络和循环神经网络结合,构建深度学习网络模型,设置模型结构参数,残差结构卷积神经网络中由5层残差块构成,每一层残差块内部由卷积层、BN层、激活函数层三部分构成,每一层残差块后连接最大池化层;五层残差块中卷积核尺寸均为3*3,卷积核数量逐层变化分别为32、64、128、256和256,最大池化层尺寸为2*2,且步长为2,激活函数采用LeakyReLU函数;循环神经网络采用双向长短时记忆网络BiLSTM,共包含两层BiLSTM,每一层中隐藏层由512个神经网络单元构成;
3)训练模型:利用数据集对构建好的深度学习网络模型进行训练,深度学习网络模型输入为数据集中乐谱图像,真值标签为乐谱图像中各音符对应的语义信息,通过链式时序分类损失函数逐步调整网络各参数并达到最优,最终输出音符语义信息的预测值;
4)利用乐谱显示软件Verovio将深度学习网络输出的预测值转化为结果易于观察的乐谱图像。
本发明对以往CNN与RNN相结合的框架进行改进,特征提取部分利用残差结构的CNN解决网络因层数的增加而带来的梯度消失/爆炸问题;特征识别部分采用RNN中的双向LSTM对前后存在依赖关系的长序列数据处理。在增强的数据集上训练并测试,在符号级的的错误率达到1.844%,序列错误率下降至8.1071%,与以往相比,识别效果良好。
附图说明
图1数据增强,(a)原图(b)加入高斯白噪声(c)加入柏林噪声(d)加入弹性形变
图2残差结构的CNN
图3网络结构图
图4损失以及精度对比图
图5乐谱对比图
具体实施方式
实验环境如下:Ubuntu16.04操作系统,Intel Core i7-8700CPU,16G运行内存,Nvidia GTX1080Ti GPU,深度学习框架Tensorflow。网络采用Adam优化,学习率设置为1e-3,batch_size设置为16,均加入BN层以加快收敛,每1000次迭代后对损失进行一次打印,并验证其精准度,共经过64000次迭代训练,经过约8个小时的训练得到模型。
本发明首先对增强数据对数据集扩充,以图1(a)为例通过加入高斯白噪声、柏林噪声以及旋转拉伸等弹性形变来模仿乐谱在低质量打印或者在长久保留过程中存在的一些可能的噪声以及畸变,以提高模型的抗噪能力。高斯白噪声是一种常用的图像增强方法,它是幅度服从高斯分布,功率谱密度服从均匀分布的一种噪声。加入高斯白噪声来模拟在打印质量较差时图像中存在的一些噪声,效果如图1(b)所示。柏林噪声是一种程序生成的梯度噪声,可以模仿自然界中常见的噪声现象,比如波浪、云朵等复杂纹理。利用柏林噪声对乐谱中一些区域做出变淡甚至褪色的效果来近似乐谱图像中打印墨粉不均匀或因存留时间已久导致的图片质量出现偏差的情况,如图1(c)所示。弹性形变是一种图像处理方法,通过计算机程序来对图像做拉伸、旋转、歪斜、缩放等变换模拟图像在印刷过程中出现的轻微折叠、畸变等现象以补充数据集,如图1(d)所示。
在特征提取部分,采用残差结构的CNN构成残差块,每一个残差块跳跃两个特征提取模块,每一个特征提取模块包含一个卷积层,一个BN层以及一个激活函数层,如图2所示。常用的激活函数包括Sigmoid、Tanh以及ReLU等,考虑到ReLU激活函数负半轴为0,呈“死区”状态,梯度在更新过程中可能会消失,于是本文选择LeakyReLU函数,在负半轴时仍有很小的梯度值,具体可表示为:
输入图像数据依次通过五个残差块卷积层后得到特征图C1,C2,C3,C4以及C5,如图3所示。其卷积核尺寸均为3×3,卷积核数量以32、64、128、256和256进行变化。最后对特征进行维度上的转换,以满足RNN序列模型的输入要求。
在特征提取部分本发明采用RNN中经典的双向LSTM,每个方向均由两层含有512个隐藏层单元的LSTM构成,以CTC作为损失函数进行训练得到模型。网络具体的参数如表1所示。
本发明采用序列错误率和符号错误率对模型的能力进行评估。
·序列错误率(Sequence Error Rate):错误预测的序列的比率。(序列中至少有一个音符、音高、休止符等出现错误均属于错误序列)。
·符号错误率(Symbol Error Rate):从模型预测的序列中产生标签序列所需的基本编辑操作(插入、修改或删除)的平均数量占总符号数量的比例。
这里序列错误率与符号错误率并没有绝对的关系。在几例谱例的识别过程中,错误率可能会集中于一部分谱例或分散于所有谱例,这就会出现在符号错误率相同的情况下序列错误率存在很大的差异的情况,故在本文中对于精准度的衡量更侧重于符号错误率这一评价指标。
根据评价指标,我们对本发明提到的识别算法与文献[13]中提到的CNN与RNN结合的C-BiLSTM算法进行对比,统一在一个数据集上进行训练其损失下降情况如图4(a)所示,验证集中对其准确率进行验证,对比如图4(b)所示。通过对模型测试后的乐谱进行恢复,将其转化为图像,对比结果如图5所示,图5(a)为测试谱例,图5(b)为经过统一数据集训练C-BiLSTM模型测试得到的乐谱,图5(c)为经过本发明所提模型测试得到的乐谱。
表1网络具体参数
表2网络结果对比

Claims (1)

1.一种基于残差结构卷积神经网络和循环神经网络的乐谱图像识别方法,包括以下步骤:
1)建立乐谱图像的数据集:对已有数据集上进行数据增强以扩充数据集,随机选取部分数据加入柏林噪声,高斯白噪声,弹性形变等以模拟不理想情况下乐谱图像数据,并将其划分为训练集、验证集和测试集;
2)构建模型:将残差结构卷积神经网络和循环神经网络结合,构建深度学习网络模型,设置模型结构参数,残差结构卷积神经网络中由5层残差块构成,每一层残差块内部由卷积层、BN层、激活函数层三部分构成,每一层残差块后连接最大池化层;五层残差块中卷积核尺寸均为3*3,卷积核数量逐层变化分别为32、64、128、256和256,最大池化层尺寸为2*2,且步长为2,激活函数采用LeakyReLU函数;循环神经网络采用双向长短时记忆网络BiLSTM,共包含两层BiLSTM,每一层中隐藏层由512个神经网络单元构成;
3)训练模型:利用数据集对构建好的深度学习网络模型进行训练,深度学习网络模型输入为数据集中乐谱图像,真值标签为乐谱图像中各音符对应的语义信息,通过链式时序分类损失函数逐步调整网络各参数并达到最优,最终输出音符语义信息的预测值;
4)利用乐谱显示软件Verovio将深度学习网络输出的预测值转化为结果易于观察的乐谱图像。
CN201910571835.5A 2019-06-28 2019-06-28 结合残差卷积结构和循环神经网络的乐谱图像识别方法 Pending CN110443127A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910571835.5A CN110443127A (zh) 2019-06-28 2019-06-28 结合残差卷积结构和循环神经网络的乐谱图像识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910571835.5A CN110443127A (zh) 2019-06-28 2019-06-28 结合残差卷积结构和循环神经网络的乐谱图像识别方法

Publications (1)

Publication Number Publication Date
CN110443127A true CN110443127A (zh) 2019-11-12

Family

ID=68428374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910571835.5A Pending CN110443127A (zh) 2019-06-28 2019-06-28 结合残差卷积结构和循环神经网络的乐谱图像识别方法

Country Status (1)

Country Link
CN (1) CN110443127A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104869A (zh) * 2019-11-26 2020-05-05 杭州电子科技大学 一种可识别小字符内容的工尺谱数字化方法
CN111507406A (zh) * 2020-04-17 2020-08-07 上海眼控科技股份有限公司 一种用于优化神经网络文本识别模型的方法与设备
CN112686104A (zh) * 2020-12-19 2021-04-20 北京工业大学 基于深度学习的多声部乐谱识别方法
CN112926603A (zh) * 2021-03-26 2021-06-08 平安科技(深圳)有限公司 乐谱识别方法、装置、设备及存储介质
CN112986950A (zh) * 2020-12-25 2021-06-18 南京理工大学 基于深度学习的单脉冲激光雷达回波特征提取方法
CN113065432A (zh) * 2021-03-23 2021-07-02 内蒙古工业大学 一种基于数据增强和ECA-Net的手写体蒙古文识别方法
CN114092946A (zh) * 2021-11-22 2022-02-25 重庆理工大学 一种乐谱识别方法
CN114282725A (zh) * 2021-12-24 2022-04-05 山东大学 基于深度学习的瞬态油藏代理模型的构建及油藏预测方法
CN114332903A (zh) * 2021-12-02 2022-04-12 厦门大学 一种基于端到端神经网络的琵琶乐谱识别方法及系统
CN114419634A (zh) * 2022-03-28 2022-04-29 之江实验室 一种基于特征规则的曲谱解析方法与装置
CN115146649A (zh) * 2022-06-24 2022-10-04 厦门大学 一种架子鼓乐谱识别方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446952A (zh) * 2016-09-28 2017-02-22 北京邮电大学 一种乐谱图像识别方法及装置
CN108509881A (zh) * 2018-03-22 2018-09-07 五邑大学 一种无切分的脱机手写汉字文本识别方法
CN108805000A (zh) * 2018-04-09 2018-11-13 平安科技(深圳)有限公司 电子装置、基于深度学习的乐谱识别方法及存储介质
CN109767759A (zh) * 2019-02-14 2019-05-17 重庆邮电大学 基于改进型cldnn结构的端到端语音识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446952A (zh) * 2016-09-28 2017-02-22 北京邮电大学 一种乐谱图像识别方法及装置
CN108509881A (zh) * 2018-03-22 2018-09-07 五邑大学 一种无切分的脱机手写汉字文本识别方法
CN108805000A (zh) * 2018-04-09 2018-11-13 平安科技(深圳)有限公司 电子装置、基于深度学习的乐谱识别方法及存储介质
CN109767759A (zh) * 2019-02-14 2019-05-17 重庆邮电大学 基于改进型cldnn结构的端到端语音识别方法

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
BAOGUANG SHI等: ""An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition"", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
HONGJIAN ZHAN等: ""Handwritten Digit String Recognition by Combination of Residual Network and RNN-CTC"", 《ICONIP 2017》 *
JORGE CALVO-ZARAGOZA等: ""End-to-End optical music recognition using neural networks"", 《ISMIR 2017》 *
SANGEUN KUM等: ""Joint Detection and Classification of Singing Voice Melody Using Convolutional Recurrent Neural Networks"", 《APPLIED SCIENCES》 *
SHOTA NAKAYAMA等: ""Residual DNN-CRF Model for Audio Chord Recognition"", 《PROCEEDINGS OF THE 5TH IIAE INTERNATIONAL CONFERENCE ON INTELLIGENT SYSTEMS AND IMAGE PROCESSING》 *
SIDDHARTH SIGTIA等: ""An End-to-End Neural Network for Polyphonic Piano Music Transcription"", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *
YIMING WU等: ""MUSIC CHORD RECOGNITION BASED ON MIDI-TRAINED DEEP FEATURE AND BLSTM-CRF HYBIRD DECODING"", 《ICASSP 2018》 *
文常保等: "《人工神经网络理论及应用》", 31 March 2019, 西安电子科技大学出版社 *
方清: ""基于深度学习的自然场景文本检测与识别"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
王茂森等: ""一种新的场景文本识别模型"", 《北京理工大学学报》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104869A (zh) * 2019-11-26 2020-05-05 杭州电子科技大学 一种可识别小字符内容的工尺谱数字化方法
CN111507406A (zh) * 2020-04-17 2020-08-07 上海眼控科技股份有限公司 一种用于优化神经网络文本识别模型的方法与设备
CN112686104A (zh) * 2020-12-19 2021-04-20 北京工业大学 基于深度学习的多声部乐谱识别方法
CN112686104B (zh) * 2020-12-19 2024-05-28 北京工业大学 基于深度学习的多声部乐谱识别方法
CN112986950A (zh) * 2020-12-25 2021-06-18 南京理工大学 基于深度学习的单脉冲激光雷达回波特征提取方法
CN113065432A (zh) * 2021-03-23 2021-07-02 内蒙古工业大学 一种基于数据增强和ECA-Net的手写体蒙古文识别方法
CN112926603B (zh) * 2021-03-26 2024-01-23 平安科技(深圳)有限公司 乐谱识别方法、装置、设备及存储介质
CN112926603A (zh) * 2021-03-26 2021-06-08 平安科技(深圳)有限公司 乐谱识别方法、装置、设备及存储介质
CN114092946A (zh) * 2021-11-22 2022-02-25 重庆理工大学 一种乐谱识别方法
CN114092946B (zh) * 2021-11-22 2024-08-20 重庆理工大学 一种乐谱识别方法
CN114332903A (zh) * 2021-12-02 2022-04-12 厦门大学 一种基于端到端神经网络的琵琶乐谱识别方法及系统
CN114332903B (zh) * 2021-12-02 2024-09-17 厦门大学 一种基于端到端神经网络的琵琶乐谱识别方法及系统
CN114282725A (zh) * 2021-12-24 2022-04-05 山东大学 基于深度学习的瞬态油藏代理模型的构建及油藏预测方法
CN114419634A (zh) * 2022-03-28 2022-04-29 之江实验室 一种基于特征规则的曲谱解析方法与装置
CN115146649A (zh) * 2022-06-24 2022-10-04 厦门大学 一种架子鼓乐谱识别方法及装置
CN115146649B (zh) * 2022-06-24 2024-09-13 厦门大学 一种架子鼓乐谱识别方法及装置

Similar Documents

Publication Publication Date Title
CN110443127A (zh) 结合残差卷积结构和循环神经网络的乐谱图像识别方法
Pacha et al. Handwritten music object detection: Open issues and baseline results
CN110032737B (zh) 一种基于神经网络的边界组合命名实体识别方法
NL2018758B1 (en) Optical music recognition (OMR) assembly for converting sheet music
Calvo-Zaragoza et al. Camera-PrIMuS: Neural End-to-End Optical Music Recognition on Realistic Monophonic Scores.
Bainbridge et al. The challenge of optical music recognition
CN111160343B (zh) 一种基于Self-Attention的离线数学公式符号识别方法
Calvo-Zaragoza et al. End-to-end optical music recognition using neural networks
CN104966097A (zh) 一种基于深度学习的复杂文字识别方法
CN110580458A (zh) 结合多尺度残差式cnn和sru的乐谱图像识别方法
CN109829482A (zh) 歌曲训练数据处理方法、装置及计算机可读存储介质
CN110852375A (zh) 基于深度学习的端到端乐谱音符识别方法
CN117219067B (zh) 一种基于语音理解的短视频自动生成字幕的方法及系统
Cosovic et al. Classification methods in cultural heritage
Ríos-Vila et al. On the use of transformers for end-to-end optical music recognition
Wu et al. Music chord recognition based on midi-trained deep feature and blstm-crf hybird decoding
Dongmei Design of English text-to-speech conversion algorithm based on machine learning
CN114330328B (zh) 基于Transformer-CRF的藏文分词方法
CN116416967B (zh) 一种通过迁移学习提升重庆方言语音识别的方法
Ríos-Vila et al. Sheet music transformer: End-to-end optical music recognition beyond monophonic transcription
Wen et al. A sequence-to-sequence framework based on transformer with masked language model for optical music recognition
Schneider et al. Automatic Transcription of Organ Tablature Music Notation with Deep Neural Networks.
Wang et al. Weakly Supervised Chinese short text classification algorithm based on ConWea model
Ríos-Vila et al. Sheet Music Transformer++: End-to-End Full-Page Optical Music Recognition for Pianoform Sheet Music
CN114896415A (zh) 基于轻量级自注意力机制的实体关系联合抽取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191112

RJ01 Rejection of invention patent application after publication