CN115393875B - 基于MobileNetV3的五线谱识别与简谱转换的方法及系统 - Google Patents

基于MobileNetV3的五线谱识别与简谱转换的方法及系统 Download PDF

Info

Publication number
CN115393875B
CN115393875B CN202211045268.8A CN202211045268A CN115393875B CN 115393875 B CN115393875 B CN 115393875B CN 202211045268 A CN202211045268 A CN 202211045268A CN 115393875 B CN115393875 B CN 115393875B
Authority
CN
China
Prior art keywords
staff
identification
musical notation
picture
numbered musical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211045268.8A
Other languages
English (en)
Other versions
CN115393875A (zh
Inventor
胡楚哲
滕旭阳
郭明宇
周一鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202211045268.8A priority Critical patent/CN115393875B/zh
Publication of CN115393875A publication Critical patent/CN115393875A/zh
Application granted granted Critical
Publication of CN115393875B publication Critical patent/CN115393875B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/30Character recognition based on the type of data
    • G06V30/304Music notations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/147Determination of region of interest
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Character Discrimination (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明公开了一种基于MobileNetV3的五线谱识别与简谱转换的方法及系统,方法按如下步骤:步骤一:获取五线谱图片;步骤二:选定识别区域,并进行倾斜校正,将图片以五线谱的行为单位划分,形成样本集;步骤三:对预备的五线谱数据集,进行数据增强,得到扩充后的数据集,在MobileNetV3的基础上进行训练迭代,获得五线谱识别模型;步骤四:统计所有步骤二中输入样本集,输入至步骤三所得到的模型中进行检测识别,将识别出的信息以MusicXML文件形式保存;步骤五:对步骤四的识别结果进行预览核对,给出能供修改的候选项,更改识别的错误信息,将错误内容反馈给五线谱识别模型进行再训练;步骤六:根据数据处理结果以及选择的简谱调式,完成文本整合,得到简谱转换结果。

Description

基于MobileNetV3的五线谱识别与简谱转换的方法及系统
技术领域
本发明属于乐谱识别技术领域,特别是涉及一种基于深度学习网络MobileNetV3的五线谱识别与简谱转换的方法及系统。
背景技术
乐谱识别(OMR)是一个较为宽泛的概念,它包括将已有的乐谱转换成可编辑的音频文件,或是识别过去历史上的手写乐谱,或是不同乐谱辨识方法之间的转换,此类工作至今仍大多由人工处理,没有出现自动处理的技术方案。随着深度学习的发展,卷积神经网络模型已被证明能够对谱面进行完全的物体检测。近几十年来,乐谱识别方面已有一些成果,但是仍无法将乐谱识别变成一件较为容易的事,这个领域也需要更多的在音乐方面有一定专业基础的研究人员加入。
五线谱(common western music notation,CWMN)通过音在谱面的相对位置表示音的高低,而简谱(numbered notation)则使用数字和符号进行标记。将五线谱转换成简谱不仅要识别每个音的音高和节奏,还要识别不同音符之间的关系,即谱面上的其他信息。一个五线谱与简谱转换系统给出的结果需要同时兼有音符本身和乐段信息,整合成一个方便理解符合逻辑的文本文件。
目前西方音乐使用的标准记谱方式是使用五线谱,而在中国,音乐普及教育中大多使用的是简谱,专业教育则使用五线谱。两者在记谱方式上有些许差别,使用时在思维上也有所不同。在音乐教育时,两种记谱方式的差异也给音乐教育者、家长和学生带来许多困扰。因此,依靠人工智能寻找一个可行的五线谱与简谱转换的技术是有必要的。
MobileNetV3是一个轻量级神经网络的代表性作品,其在保证准确性的同时做到了体积小、计算少,具备在移动端、嵌入式设备上部署的可能性。MusicXML是一种数字的音乐记谱方式,可以实现对音乐乐谱的全面完整记录,且可以在多平台进行交互,转换成其他音频格式。基于现状,本发明将深度学习网络MobileNetV3和数字记谱方式MusicXML两者结合,以实现在移动端部署具有较高的五线谱识别水准的乐谱转换系统,并能轻松的与其他平台交互。
发明内容
针对上述现状,本发明提供了一种基于MobileNetV3的五线谱识别与简谱转换的方法和系统,其可在移动端实现五线谱与简谱的转化,并对识别错误提供数据库以供用户进行文本修改,在改正后系统给出一个完整的简谱文本。
本发明采用如下技术方案:
基于MobileNetV3的五线谱识别与简谱转换的方法,其按如下步骤:
步骤一:获取图像:获取五线谱图片;
步骤二:图像预处理:选定识别区域,并进行倾斜校正,将图片以五线谱的行为单位划分,形成样本集η;
步骤三:网络模型训练:对预备的五线谱数据集ξ,进行数据增强,得到扩充后的数据集,在MobileNetV3的基础上进行训练迭代,获得五线谱识别模型M;
步骤四:图像内容处理:统计所有步骤二中输入样本集η,输入至步骤三所得到的模型M中进行检测识别,将识别出的信息以MusicXML文件形式保存;
步骤五:数据再处理:对步骤四的识别结果进行预览核对,给出可供修改的候选项(音名、节奏及其强弱标注),更改识别的错误信息,将错误内容反馈给五线谱识别模型M进行再训练;
步骤六:文本生成:根据数据再处理的结果以及选择的简谱调式,完成文本整合,最终给出完整的简谱转换结果。
进一步,所述步骤二的具体做法是:根据所上传的图片情况,选定识别区域后,对图片进行调整,使得谱面的行与行之间尽量平行、间隔相等,而后以行为单位设置检测框。在此基础上,根据检测框对图片进行裁剪,各个矩形框的裁剪结果作为单个样本组成集合η。
进一步,所述步骤三的具体改进包括如下步骤:
步骤3.1:对于已有的五线谱数据集样本ξ,通过倾斜变形、增加笔画、裁剪、旋转、增加图片噪声、手写笔记等数据增强手段,按6:2:2的比例分别扩充到训练集、测试集、验证集中;
步骤3.2:基于MobileNetV3模型,通过已有样本集ξ进行训练,提高模型对于五线谱识别的精准度,最终得到可靠的五线谱识别模型M。
进一步,所述步骤五的具体做法是:在系统给出识别生成的简谱预览图片后,对其中较为模糊、系统难以识别的部分,系统根据一般乐理规则提供给用户相关候选项,以供纠正错误内容;同时,将更改的信息反馈到数据库进行记录,做数据增强以丰富数据集内容,并对模型M进行优化。
进一步,所述步骤六的具体做法是:由用户选择简谱书写的调号,将MusicXML文件的内容进行转换,最终将简谱以图片形式给到用户。
本发明还公开了一种基于MobileNetV3的五线谱识别与简谱转换的系统,其包括如下模块:
图像预处理模块:获取五线谱图片,选定识别区域,进行倾斜校正,将图片以五线谱的行为单位划分,构成待识别样本集η;
图像数据增强模块:对预备的五线谱数据集ξ进行数据增强,得到扩充的数据集;
网络模型训练模块:将经过数据增强的五线谱数据集在MobileNetV3网络中进行训练迭代,得到五线谱识别模型M;
图像内容处理模块:采用五线谱识别模型M对待识别样本集η进行识别,获得初步识别结果,以MusicXML文件的形式保存;
数据再处理模块:对初步识别结果进行预览核对,给出可供修改的候选项(音名、节奏以及强弱标注),更改识别的错误信息,将错误内容反馈给五线谱识别模型M进行再训练;
文本生成模块:根据数据再处理模块的结果以及选择的简谱调式,完成文本整合,最终给出完整的简谱转换结果。
进一步地,所述图像预处理模块中,在获取到五线谱图片后对其做一定的校正,使五线谱尽量做到横平竖直,方便后续进行图片分割。
五线谱的分割方式将由其格式决定:深度学习模型选择合适的方式划分五线谱图片,并对五线谱的行进行检测,而后将其分割为单行的五线谱图片,保存为待识别样本集η。
进一步地,所述的数据增强模块中,对于所述的五线谱数据集样本ξ,通过倾斜变形、增加笔画、裁剪、旋转、增加图片噪声、手写标注等数据增强手段处理。例如,对谱面音符增加笔画或标注,增加谱面的噪声干扰;或对样本图片进行歪曲变形,使五线谱线有一定的歪曲倾斜。其中,标注具体表现为部分区域色彩增强、高亮;歪曲变形具体表现为在水平方向上和垂直方向上进行一定的旋转和变形。其目的是模仿五线谱文件在实际的拍照上传中可能出现的情况,使得网络对各种不同情况的五线谱图片有较高的容差率。
进一步地,所述网络模型训练模块中,将经过数据增强的单行五线谱数据集以6:2:2的比例分入训练集、验证集和测试集中,用以训练MobileNetV3对五线谱内容的识别准确率。在网络的识别准确率率达到一定的标准后认为网络模型的训练完成,可以应用在实际的五线谱识别当中。
进一步地,所述数据再处理模块中,根据常规的旋律走向和先后音符之间的音程关系,以及常规节奏型和乐谱的节拍,给出用户所选的修改部分的候选内容。
进一步地,所述文本生成模块中,根据用户选择的调号形式,将由MobileNetV3识别并且修订过后保存的MusicXML信息,转换生成相对应的简谱图片。
与现有技术相比,本发明具有如下有益效果:
1.本发明是一种创新的五线谱转换简谱的方法,设计差错修改的数据再处理环节,对转换信息进行校正。同时可以设置所转换的简谱调号,功能多样,方便学习使用;
2.本发明使用轻量级深度学习网络MobileNetV3,为实际应用在移动端提供可能,可以应用在音乐普及教学、家长陪练等环境中;
3.训练一个可以有效分割五线谱谱面的网络模型,为发展更加复杂的五线谱谱面分析方法提供基础。
附图说明
图1是本发明一种基于MobileNetV3的五线谱识别与简谱转换方法的具体流程图。
图2是本发明一种基于MobileNetV3的五线谱识别与简谱转换系统的结构示意图。
图3是本发明一种基于MobileNetV3的五线谱识别与简谱转换方法中的五线谱示意图。
图4是本发明数据增强方法中的五线谱倾斜变形示意图。
图5是本发明数据增强方法中的五线谱手写标注示意图。
图6是本发明的简谱图片示意图。
具体实施方式
本发明总体思路如下:对已有五线谱数据集通过数据增强进行扩充,用以训练五线谱识别模型;对传入的五线谱图片按行分割后通过由深度学习得到的五线谱模型进行处理得到简谱预览,对识别误差处提供相关候选项以进行选择修正;识别过程中所有的数据将在经过数据增强后返回到数据集,以训练模型提高识别的准确率;最终系统给出正确的简谱文件,完成对五线谱的识别以及与简谱的转化。
下面结合附图对本发明优选实施例做详细说明。
实施例1
如图1所示,本实施例一种基于MobileNetV3的五线谱识别与简谱转换的方法,其按如下步骤:
步骤一:获取图像:用户通过拍摄照片或是上传图片文件,将五线谱图片给到系统;
步骤二:图像预处理:用户选定识别区域,系统对图片进行倾斜校正,对图像内容划分,以五线谱的行为单位形成样本集η;
步骤三:网络模型训练:根据已有的五线谱数据集ξ,通过对数据集图片随机进行歪曲变形、增加笔画、手写标注等方式增强数据,扩充数据集,训练MobileNetV3网络,获得可靠五线谱识别模型M;
步骤四:图像内容处理:统计所有步骤二中输入样本集η,输入至步骤三所得到的模型M中进行检测识别,将识别出的信息以MusicXML文件进行保存;
步骤五:数据再处理:用户核对系统的初步识别结果,根据数据库给出相关候选项,更改错误信息,并将更改信息反馈给模型进行再训练;
步骤六:文本生成:根据数据处理结果,完成文本整合,根据用户所选调式给出完整的简谱转换结果。
本实施例中,步骤二具体包括:将五线谱按行划分,具体划分标准按其音乐织体为单音(monophonic)、谐音(homophonic)或复音(polyphony)进行划分。通过图片分割网络,将整页的图片分割成样本集η。对于复音作品,每一声部转换出一份简谱,即复调作品的每一声部有其各自的待识别数据集η1,η2,η3…,整体的样本集η则由子样本集η1,η2,η3…构成。
本实施例中,对五线谱的分割也由深度学习网络来实现,使用MobileNetV3为基本模型进行训练得到。
本实施例中,步骤三具体包括如下步骤:
步骤3.1:对于已有的五线谱数据集样本ξ,通过倾斜变形、增加笔画、裁剪、旋转、增加图片噪声、手写笔记等数据增强手段,按6:2:2的比例分别扩充到训练集、测试集、验证集中;
步骤3.2:基于MobileNetV3模型,通过已有样本进行训练,提高模型对于五线谱识别的精准度,最终得到可靠模型M。
数据增强手段包括对谱面音符增加笔画或标注,增加谱面的噪声干扰;或对样本图片进行歪曲变形,使五线谱线有一定的歪曲倾斜。其中,标注具体表现为部分区域色彩增强、高亮;歪曲变形具体表现为在水平方向上和垂直方向上进行一定的旋转和变形。
MobileNetV3是一个具有较小体积、较少计算量,可以实现较快速度、较高精度检测识别的深度学习网络,在轻量级神经网络中具有极大优势。该网络可以应用在移动端实现目标分类、人脸识别等功能。本发明主要发展mobileNetV3在五线谱识别上的能力,使用数据增强后的数据集训练,使得网络对五线谱有更强的识别能力。
本实施例中,步骤四中,通过已训练好的网络模型识别分割后的五线谱集,其识别结果以MusicXML文件的形式进行保存。MusicXML文件中保存包括谱面上的节拍、调号以及音符的音高、节奏等信息,方便实现简谱文件的生成。
本实施例中,步骤五具体包括:通过MusicXML文件生成简谱预览图片,用户可通过与五线谱进行对照,针对识别错误的信息,按照数据库提供的候选项进行修改。修改的内容会同时给到MusicXML文件和图像识别模型,改正识别的错误信息的同时对模型进行再训练,提高识别的精确度。
本实施例中,步骤六具体包括:用户选择生成简谱的调式,选择对乐曲使用首调或固定调,最终生成方便阅读的简谱文件。比如,对于
Figure BDA0003822155550000061
调的乐谱,用户可以选择转换成/>
Figure BDA0003822155550000062
调的简谱或是C调、D调等常用调号的简谱;对于乐曲中间有转调的,也可以选择是否需要在简谱中部分小节更换调号。
最终简谱以图片形式导出,下载到本地。
实施例2
如图2所示,本实施例公开了一种基于MobileNetV3的五线谱识别与简谱转换的系统,其包括如下模块:
图像预处理模块:完成五线谱图行的获取以及倾斜校正,将图片以五线谱的行为单位划分构成待识别样本集η;具体实施时,图片的获取可以是拍照获取新图像或是上传本地图片;图片的分割则根据其五线谱格式选择不同方案,具体有单音(monophonic)、谐音(homophonic)或复音(polyphony)三种形式;
图像数据增强模块:对五线谱数据集进行倾斜变形、增加笔画、手写标注等操作,达到数据增强的目的,扩充图片集;
网络模型训练模块:将经过数据增强的五线谱数据集ξ以6:2:2的比例分割为训练集、测试集和发展集中,用于训练MobileNetV3网络,从而得到可靠的五线谱识别网络模型M;
图像内容处理模块:应用网络模型M对样本集η进行识别,获得初步的五线谱识别结果,以MusicXML文件的形式保存音符信息;
数据再处理模块:对谱面上系统难以识别的模糊信息,根据一般乐理规则提供用户候选选项,用户修改网络识别的差错,得到正确的谱面信息;
文本生成模块:将修改完成后的信息整合,根据用户所选调式给出相应的简谱图片。
本实施例的图像预处理模块中,在获取到五线谱图片后对其做一定的校正,使五线谱尽量做到横平竖直,方便后续进行图片分割;
五线谱的分割方式将由其格式决定:深度学习模型选择合适的方式划分五线谱图片,并对五线谱的行进行检测,而后将其分割为单行的五线谱图片,保存为待识别样本集η。
本实施例的数据增强模块包括对谱面音符增加笔画或标注,增加谱面的噪声干扰;或对样本图片进行歪曲变形,使五线谱线有一定的歪曲倾斜。其中,标注具体表现为部分区域色彩增强、高亮;歪曲变形具体表现为在水平方向上和垂直方向上进行一定的旋转和变形。其目的是模仿五线谱文件在实际的拍照上传中可能出现的情况,使得网络对各种不同情况的五线谱图片有较高的容差率。
本实施例的网络模型训练模块中,将经过数据增强的单行五线谱数据集以6:2:2的比例分入训练集、验证集和测试集中,用以训练MobileNetV3对五线谱内容的识别准确率。在网络的识别准确率率达到一定的标准后认为网络模型的训练完成,可以应用在实际的五线谱识别当中。
本实施例的图像内容处理模块中,通过已训练好的网络模型识别分割后的五线谱集,其识别结果以MusicXML文件的形式进行保存。MusicXML文件中保存包括谱面上的节拍、调号以及音符的音高、节奏等信息,方便实现简谱文件的生成。
本实施例的数据再处理模块中,可以根据常规的旋律走向和先后音符之间的音程关系,以及常规节奏型和乐谱的节拍,给出用户所选的修改部分的候选内容。此模块的作用是完成对网络模型识别的错误内容的修正。
本实施例的文本生成模块中,根据用户选择的调号形式,将由MobileNetV3识别并且修订过后保存的MusicXML信息,转换生成相对应的简谱图片。
用户选择生成简谱的调式,选择对乐曲使用首调或固定调,最终生成方便阅读的简谱文件。比如,对于
Figure BDA0003822155550000071
调的乐谱,用户可以选择转换成/>
Figure BDA0003822155550000072
调的简谱或是C调、D调等常用调号的简谱;对于乐曲中间有转调的,也可以选择是否需要在简谱中部分小节更换调号。
系统最终给出的简谱以图片形式导出。
综上所述,本发明的优点在于:创新研发了一种五线谱转换简谱的技术方案,通过深度学习网络,基于MobileNetV3框架训练出适合五线谱识别的模型,基于MobileNetV3计算量小的特点提供将五线谱与简谱转化系统部署在移动端的可能性。系统中设置差错修改的环节,用户可将模型识别错误的部分进行改正;同时用户可以所转换的简谱调号,使得系统最终给出的简谱文件符合用户的使用习惯。用户做手动修改的信息都将反馈给网络模型优化其算法参数,以达到更高的准确率和五线谱识别完成度。相较于现有的五线谱识别技术,本发明应用轻量级的深度学习网络,满足在移动端使用的需要,提高五线谱与简谱的转换效率。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,本发明所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。

Claims (4)

1.基于MobileNetV3的五线谱识别与简谱转换的方法,其特征是按如下步骤:
步骤一:获取五线谱图片;
步骤二:选定识别区域,并进行倾斜校正,将图片以五线谱的行为单位划分,形成样本集η;
步骤三:对预备的五线谱数据集ξ,进行数据增强,得到扩充后的数据集,在MobileNetV3的基础上进行训练迭代,获得五线谱识别模型M;
步骤四:统计所有步骤二中输入样本集η,输入至步骤三所得到的模型M中进行检测识别,将识别出的信息以MusicXML文件形式保存;
步骤五:对步骤四的识别结果进行预览核对,给出能供修改的候选项,更改识别的错误信息,将错误内容反馈给五线谱识别模型M进行再训练;
步骤六:根据数据再处理的结果以及选择的简谱调式,完成文本整合,最终给出完整的简谱转换结果;
步骤二具体是:选定识别区域后,对图片进行调整,使得谱面的行与行之间平行、间隔相等,再以行为单位设置检测框;在此基础上,根据检测框对图片进行裁剪,各个矩形框的裁剪结果作为单个样本组成集合η;
在步骤三中,对于所述的五线谱数据集ξ,通过倾斜变形、增加笔画、裁剪、旋转、增加图片噪声、手写标注数据增强手段处理;
步骤五具体如下:识别生成简谱预览图片后,对难以识别的部分,根据一般乐理规则提供候选项;同时,将更改的信息反馈到数据库进行记录,进行数据增强,并对模型M进行优化;
步骤六具体如下:选择简谱书写的调号,将MusicXML文件的内容进行转换,最终将简谱以图片形式呈现。
2.如权利要求1所述基于MobileNetV3的五线谱识别与简谱转换的方法,其特征是,步骤三具体包括如下步骤:
步骤3.1:对于所述的五线谱数据集ξ,按6:2:2的比例分别扩充到训练集、测试集、验证集中;
步骤3.2:基于MobileNetV3模型,通过已有五线谱数据集ξ进行训练,得到五线谱识别模型M。
3.基于MobileNetV3的五线谱识别与简谱转换的系统,其特征是包括如下模块:
图像预处理模块:获取五线谱图片,选定识别区域,进行倾斜校正,将图片以五线谱的行为单位划分,构成待识别样本集η;
图像数据增强模块:对预备的五线谱数据集ξ进行数据增强,得到扩充的数据集;
网络模型训练模块:将经过数据增强的五线谱数据集在MobileNetV3网络中进行训练迭代,得到五线谱识别模型M;
图像内容处理模块:采用五线谱识别模型M对待识别样本集η进行识别,获得初步识别结果,以MusicXML文件的形式保存;
数据再处理模块:对初步识别结果进行预览核对,给出能供修改的候选项,更改识别的错误信息,将错误内容反馈给五线谱识别模型M进行再训练;
文本生成模块:根据数据再处理模块的结果以及选择的简谱调式,完成文本整合,最终给出完整的简谱转换结果;
数据增强模块中,对于所述的五线谱数据集ξ,通过倾斜变形、增加笔画、裁剪、旋转、增加图片噪声、手写标注数据增强手段处理;
数据再处理模块中,识别生成简谱预览图片后,对难以识别的部分,根据一般乐理规则提供候选项;同时,将更改的信息反馈到数据库进行记录,进行数据增强,并对模型M进行优化;
文本生成模块中,选择简谱书写的调号,将MusicXML文件的内容进行转换,最终将简谱以图片形式呈现。
4.如权利要求3所述基于MobileNetV3的五线谱识别与简谱转换的系统,其特征是,网络模型训练模块中,对于所述的五线谱数据集ξ,按6:2:2的比例分别扩充到训练集、测试集、验证集中;基于MobileNetV3模型,通过已有五线谱数据集ξ进行训练,得到五线谱识别模型M。
CN202211045268.8A 2022-08-30 2022-08-30 基于MobileNetV3的五线谱识别与简谱转换的方法及系统 Active CN115393875B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211045268.8A CN115393875B (zh) 2022-08-30 2022-08-30 基于MobileNetV3的五线谱识别与简谱转换的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211045268.8A CN115393875B (zh) 2022-08-30 2022-08-30 基于MobileNetV3的五线谱识别与简谱转换的方法及系统

Publications (2)

Publication Number Publication Date
CN115393875A CN115393875A (zh) 2022-11-25
CN115393875B true CN115393875B (zh) 2023-05-26

Family

ID=84123473

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211045268.8A Active CN115393875B (zh) 2022-08-30 2022-08-30 基于MobileNetV3的五线谱识别与简谱转换的方法及系统

Country Status (1)

Country Link
CN (1) CN115393875B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117253240B (zh) * 2023-08-31 2024-03-26 暨南大学 一种基于图像识别技术的简谱提取转换方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106485984A (zh) * 2015-08-27 2017-03-08 中国移动通信集团公司 一种钢琴的智能教学方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113674584B (zh) * 2021-08-24 2023-04-28 北京金三惠科技有限公司 多种乐谱综合转换方法和综合转换系统
CN114332877A (zh) * 2021-12-02 2022-04-12 厦门大学 一种基于深度学习的印刷体古筝简谱识别方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106485984A (zh) * 2015-08-27 2017-03-08 中国移动通信集团公司 一种钢琴的智能教学方法和装置

Also Published As

Publication number Publication date
CN115393875A (zh) 2022-11-25

Similar Documents

Publication Publication Date Title
WO2022147965A1 (zh) 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统
CN111325203B (zh) 一种基于图像校正的美式车牌识别方法及系统
CN110489760B (zh) 基于深度神经网络文本自动校对方法及装置
CN109947836B (zh) 英语试卷结构化方法和装置
CN1107283C (zh) 手写体输入字符识别的方法和设备
Fornés et al. CVC-MUSCIMA: a ground truth of handwritten music score images for writer identification and staff removal
CN108986186A (zh) 文字转化视频的方法和系统
US11461638B2 (en) Figure captioning system and related methods
CN104966097A (zh) 一种基于深度学习的复杂文字识别方法
CN115393875B (zh) 基于MobileNetV3的五线谱识别与简谱转换的方法及系统
CN112686104A (zh) 基于深度学习的多声部乐谱识别方法
CN111274891B (zh) 一种面向简谱图像的音高及对应歌词提取方法及系统
CN110164473B (zh) 一种基于深度学习的和弦排列检测方法
CN116704508A (zh) 信息处理方法及装置
CN114202763B (zh) 一种音乐简谱语义翻译方法及系统
CN115909364A (zh) 一种基于深度学习技术下的实时的字帖评分方法
CN115424280A (zh) 基于改进Faster-RCNN的手写数字检测方法
Shishido et al. Production of MusicXML from locally inclined sheetmusic photo image by using measure-based multimodal deep-learning-driven assembly method
CN210348859U (zh) 一种试卷批改一体机
Sotoodeh et al. A music symbols recognition method using pattern matching along with integrated projection and morphological operation techniques
CN112668628A (zh) 一种空调外机质量检测与可视化方法
CN114332877A (zh) 一种基于深度学习的印刷体古筝简谱识别方法及系统
CN113205527A (zh) 一种试卷智能切割方法、系统及存储介质
Mehta et al. Optical music notes recognition for printed piano music score sheet
CN112015925B (zh) 多媒体文件合并生成教学素材包的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant