CN115393875B

CN115393875B - 基于MobileNetV3的五线谱识别与简谱转换的方法及系统

Info

Publication number: CN115393875B
Application number: CN202211045268.8A
Authority: CN
Inventors: 胡楚哲; 滕旭阳; 郭明宇; 周一鸣
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2023-05-26
Anticipated expiration: 2042-08-30
Also published as: CN115393875A

Abstract

本发明公开了一种基于MobileNetV3的五线谱识别与简谱转换的方法及系统，方法按如下步骤：步骤一：获取五线谱图片；步骤二：选定识别区域，并进行倾斜校正，将图片以五线谱的行为单位划分，形成样本集；步骤三：对预备的五线谱数据集，进行数据增强，得到扩充后的数据集，在MobileNetV3的基础上进行训练迭代，获得五线谱识别模型；步骤四：统计所有步骤二中输入样本集，输入至步骤三所得到的模型中进行检测识别，将识别出的信息以MusicXML文件形式保存；步骤五：对步骤四的识别结果进行预览核对，给出能供修改的候选项，更改识别的错误信息，将错误内容反馈给五线谱识别模型进行再训练；步骤六：根据数据处理结果以及选择的简谱调式，完成文本整合，得到简谱转换结果。

Description

基于MobileNetV3的五线谱识别与简谱转换的方法及系统

技术领域

本发明属于乐谱识别技术领域，特别是涉及一种基于深度学习网络MobileNetV3的五线谱识别与简谱转换的方法及系统。

背景技术

乐谱识别(OMR)是一个较为宽泛的概念，它包括将已有的乐谱转换成可编辑的音频文件，或是识别过去历史上的手写乐谱，或是不同乐谱辨识方法之间的转换，此类工作至今仍大多由人工处理，没有出现自动处理的技术方案。随着深度学习的发展，卷积神经网络模型已被证明能够对谱面进行完全的物体检测。近几十年来，乐谱识别方面已有一些成果，但是仍无法将乐谱识别变成一件较为容易的事，这个领域也需要更多的在音乐方面有一定专业基础的研究人员加入。

五线谱(common western music notation,CWMN)通过音在谱面的相对位置表示音的高低，而简谱(numbered notation)则使用数字和符号进行标记。将五线谱转换成简谱不仅要识别每个音的音高和节奏，还要识别不同音符之间的关系，即谱面上的其他信息。一个五线谱与简谱转换系统给出的结果需要同时兼有音符本身和乐段信息，整合成一个方便理解符合逻辑的文本文件。

目前西方音乐使用的标准记谱方式是使用五线谱，而在中国，音乐普及教育中大多使用的是简谱，专业教育则使用五线谱。两者在记谱方式上有些许差别，使用时在思维上也有所不同。在音乐教育时，两种记谱方式的差异也给音乐教育者、家长和学生带来许多困扰。因此，依靠人工智能寻找一个可行的五线谱与简谱转换的技术是有必要的。

MobileNetV3是一个轻量级神经网络的代表性作品，其在保证准确性的同时做到了体积小、计算少，具备在移动端、嵌入式设备上部署的可能性。MusicXML是一种数字的音乐记谱方式，可以实现对音乐乐谱的全面完整记录，且可以在多平台进行交互，转换成其他音频格式。基于现状，本发明将深度学习网络MobileNetV3和数字记谱方式MusicXML两者结合，以实现在移动端部署具有较高的五线谱识别水准的乐谱转换系统，并能轻松的与其他平台交互。

发明内容

针对上述现状，本发明提供了一种基于MobileNetV3的五线谱识别与简谱转换的方法和系统，其可在移动端实现五线谱与简谱的转化，并对识别错误提供数据库以供用户进行文本修改，在改正后系统给出一个完整的简谱文本。

本发明采用如下技术方案：

基于MobileNetV3的五线谱识别与简谱转换的方法，其按如下步骤：

步骤一：获取图像：获取五线谱图片；

步骤二：图像预处理：选定识别区域，并进行倾斜校正，将图片以五线谱的行为单位划分，形成样本集η；

步骤三：网络模型训练：对预备的五线谱数据集ξ，进行数据增强，得到扩充后的数据集，在MobileNetV3的基础上进行训练迭代，获得五线谱识别模型M；

步骤四：图像内容处理：统计所有步骤二中输入样本集η，输入至步骤三所得到的模型M中进行检测识别，将识别出的信息以MusicXML文件形式保存；

步骤五：数据再处理：对步骤四的识别结果进行预览核对，给出可供修改的候选项(音名、节奏及其强弱标注)，更改识别的错误信息，将错误内容反馈给五线谱识别模型M进行再训练；

步骤六：文本生成：根据数据再处理的结果以及选择的简谱调式，完成文本整合，最终给出完整的简谱转换结果。

进一步，所述步骤二的具体做法是：根据所上传的图片情况，选定识别区域后，对图片进行调整，使得谱面的行与行之间尽量平行、间隔相等，而后以行为单位设置检测框。在此基础上，根据检测框对图片进行裁剪，各个矩形框的裁剪结果作为单个样本组成集合η。

进一步，所述步骤三的具体改进包括如下步骤：

步骤3.1：对于已有的五线谱数据集样本ξ，通过倾斜变形、增加笔画、裁剪、旋转、增加图片噪声、手写笔记等数据增强手段，按6:2:2的比例分别扩充到训练集、测试集、验证集中；

步骤3.2：基于MobileNetV3模型，通过已有样本集ξ进行训练，提高模型对于五线谱识别的精准度，最终得到可靠的五线谱识别模型M。

进一步，所述步骤五的具体做法是：在系统给出识别生成的简谱预览图片后，对其中较为模糊、系统难以识别的部分，系统根据一般乐理规则提供给用户相关候选项，以供纠正错误内容；同时，将更改的信息反馈到数据库进行记录，做数据增强以丰富数据集内容，并对模型M进行优化。

进一步，所述步骤六的具体做法是：由用户选择简谱书写的调号，将MusicXML文件的内容进行转换，最终将简谱以图片形式给到用户。

本发明还公开了一种基于MobileNetV3的五线谱识别与简谱转换的系统，其包括如下模块：

图像预处理模块：获取五线谱图片，选定识别区域，进行倾斜校正，将图片以五线谱的行为单位划分，构成待识别样本集η；

图像数据增强模块：对预备的五线谱数据集ξ进行数据增强，得到扩充的数据集；

网络模型训练模块：将经过数据增强的五线谱数据集在MobileNetV3网络中进行训练迭代，得到五线谱识别模型M；

图像内容处理模块：采用五线谱识别模型M对待识别样本集η进行识别，获得初步识别结果，以MusicXML文件的形式保存；

数据再处理模块：对初步识别结果进行预览核对，给出可供修改的候选项(音名、节奏以及强弱标注)，更改识别的错误信息，将错误内容反馈给五线谱识别模型M进行再训练；

文本生成模块：根据数据再处理模块的结果以及选择的简谱调式，完成文本整合，最终给出完整的简谱转换结果。

进一步地，所述图像预处理模块中，在获取到五线谱图片后对其做一定的校正，使五线谱尽量做到横平竖直，方便后续进行图片分割。

五线谱的分割方式将由其格式决定：深度学习模型选择合适的方式划分五线谱图片，并对五线谱的行进行检测，而后将其分割为单行的五线谱图片，保存为待识别样本集η。

进一步地，所述的数据增强模块中，对于所述的五线谱数据集样本ξ，通过倾斜变形、增加笔画、裁剪、旋转、增加图片噪声、手写标注等数据增强手段处理。例如，对谱面音符增加笔画或标注，增加谱面的噪声干扰；或对样本图片进行歪曲变形，使五线谱线有一定的歪曲倾斜。其中，标注具体表现为部分区域色彩增强、高亮；歪曲变形具体表现为在水平方向上和垂直方向上进行一定的旋转和变形。其目的是模仿五线谱文件在实际的拍照上传中可能出现的情况，使得网络对各种不同情况的五线谱图片有较高的容差率。

进一步地，所述网络模型训练模块中，将经过数据增强的单行五线谱数据集以6:2:2的比例分入训练集、验证集和测试集中，用以训练MobileNetV3对五线谱内容的识别准确率。在网络的识别准确率率达到一定的标准后认为网络模型的训练完成，可以应用在实际的五线谱识别当中。

进一步地，所述数据再处理模块中，根据常规的旋律走向和先后音符之间的音程关系，以及常规节奏型和乐谱的节拍，给出用户所选的修改部分的候选内容。

进一步地，所述文本生成模块中，根据用户选择的调号形式，将由MobileNetV3识别并且修订过后保存的MusicXML信息，转换生成相对应的简谱图片。

与现有技术相比，本发明具有如下有益效果：

1.本发明是一种创新的五线谱转换简谱的方法，设计差错修改的数据再处理环节，对转换信息进行校正。同时可以设置所转换的简谱调号，功能多样，方便学习使用；

2.本发明使用轻量级深度学习网络MobileNetV3，为实际应用在移动端提供可能，可以应用在音乐普及教学、家长陪练等环境中；

3.训练一个可以有效分割五线谱谱面的网络模型，为发展更加复杂的五线谱谱面分析方法提供基础。

附图说明

图1是本发明一种基于MobileNetV3的五线谱识别与简谱转换方法的具体流程图。

图2是本发明一种基于MobileNetV3的五线谱识别与简谱转换系统的结构示意图。

图3是本发明一种基于MobileNetV3的五线谱识别与简谱转换方法中的五线谱示意图。

图4是本发明数据增强方法中的五线谱倾斜变形示意图。

图5是本发明数据增强方法中的五线谱手写标注示意图。

图6是本发明的简谱图片示意图。

具体实施方式

本发明总体思路如下：对已有五线谱数据集通过数据增强进行扩充，用以训练五线谱识别模型；对传入的五线谱图片按行分割后通过由深度学习得到的五线谱模型进行处理得到简谱预览，对识别误差处提供相关候选项以进行选择修正；识别过程中所有的数据将在经过数据增强后返回到数据集，以训练模型提高识别的准确率；最终系统给出正确的简谱文件，完成对五线谱的识别以及与简谱的转化。

下面结合附图对本发明优选实施例做详细说明。

实施例1

如图1所示，本实施例一种基于MobileNetV3的五线谱识别与简谱转换的方法，其按如下步骤：

步骤一：获取图像：用户通过拍摄照片或是上传图片文件，将五线谱图片给到系统；

步骤二：图像预处理：用户选定识别区域，系统对图片进行倾斜校正，对图像内容划分，以五线谱的行为单位形成样本集η；

步骤三：网络模型训练：根据已有的五线谱数据集ξ，通过对数据集图片随机进行歪曲变形、增加笔画、手写标注等方式增强数据，扩充数据集，训练MobileNetV3网络，获得可靠五线谱识别模型M；

步骤四：图像内容处理：统计所有步骤二中输入样本集η，输入至步骤三所得到的模型M中进行检测识别，将识别出的信息以MusicXML文件进行保存；

步骤五：数据再处理：用户核对系统的初步识别结果，根据数据库给出相关候选项，更改错误信息，并将更改信息反馈给模型进行再训练；

步骤六：文本生成：根据数据处理结果，完成文本整合，根据用户所选调式给出完整的简谱转换结果。

本实施例中，步骤二具体包括：将五线谱按行划分，具体划分标准按其音乐织体为单音(monophonic)、谐音(homophonic)或复音(polyphony)进行划分。通过图片分割网络，将整页的图片分割成样本集η。对于复音作品，每一声部转换出一份简谱，即复调作品的每一声部有其各自的待识别数据集η1,η2,η3…，整体的样本集η则由子样本集η1,η2,η3…构成。

本实施例中，对五线谱的分割也由深度学习网络来实现，使用MobileNetV3为基本模型进行训练得到。

本实施例中，步骤三具体包括如下步骤：

步骤3.2：基于MobileNetV3模型，通过已有样本进行训练，提高模型对于五线谱识别的精准度，最终得到可靠模型M。

数据增强手段包括对谱面音符增加笔画或标注，增加谱面的噪声干扰；或对样本图片进行歪曲变形，使五线谱线有一定的歪曲倾斜。其中，标注具体表现为部分区域色彩增强、高亮；歪曲变形具体表现为在水平方向上和垂直方向上进行一定的旋转和变形。

MobileNetV3是一个具有较小体积、较少计算量，可以实现较快速度、较高精度检测识别的深度学习网络，在轻量级神经网络中具有极大优势。该网络可以应用在移动端实现目标分类、人脸识别等功能。本发明主要发展mobileNetV3在五线谱识别上的能力，使用数据增强后的数据集训练，使得网络对五线谱有更强的识别能力。

本实施例中，步骤四中，通过已训练好的网络模型识别分割后的五线谱集，其识别结果以MusicXML文件的形式进行保存。MusicXML文件中保存包括谱面上的节拍、调号以及音符的音高、节奏等信息，方便实现简谱文件的生成。

本实施例中，步骤五具体包括：通过MusicXML文件生成简谱预览图片，用户可通过与五线谱进行对照，针对识别错误的信息，按照数据库提供的候选项进行修改。修改的内容会同时给到MusicXML文件和图像识别模型，改正识别的错误信息的同时对模型进行再训练，提高识别的精确度。

本实施例中，步骤六具体包括：用户选择生成简谱的调式，选择对乐曲使用首调或固定调，最终生成方便阅读的简谱文件。比如，对于

调的乐谱，用户可以选择转换成/>

调的简谱或是C调、D调等常用调号的简谱；对于乐曲中间有转调的，也可以选择是否需要在简谱中部分小节更换调号。

最终简谱以图片形式导出，下载到本地。

实施例2

如图2所示，本实施例公开了一种基于MobileNetV3的五线谱识别与简谱转换的系统，其包括如下模块：

图像预处理模块：完成五线谱图行的获取以及倾斜校正，将图片以五线谱的行为单位划分构成待识别样本集η；具体实施时，图片的获取可以是拍照获取新图像或是上传本地图片；图片的分割则根据其五线谱格式选择不同方案，具体有单音(monophonic)、谐音(homophonic)或复音(polyphony)三种形式；

图像数据增强模块：对五线谱数据集进行倾斜变形、增加笔画、手写标注等操作，达到数据增强的目的，扩充图片集；

网络模型训练模块：将经过数据增强的五线谱数据集ξ以6:2:2的比例分割为训练集、测试集和发展集中，用于训练MobileNetV3网络，从而得到可靠的五线谱识别网络模型M；

图像内容处理模块：应用网络模型M对样本集η进行识别，获得初步的五线谱识别结果，以MusicXML文件的形式保存音符信息；

数据再处理模块：对谱面上系统难以识别的模糊信息，根据一般乐理规则提供用户候选选项，用户修改网络识别的差错，得到正确的谱面信息；

文本生成模块：将修改完成后的信息整合，根据用户所选调式给出相应的简谱图片。

本实施例的图像预处理模块中，在获取到五线谱图片后对其做一定的校正，使五线谱尽量做到横平竖直，方便后续进行图片分割；

本实施例的数据增强模块包括对谱面音符增加笔画或标注，增加谱面的噪声干扰；或对样本图片进行歪曲变形，使五线谱线有一定的歪曲倾斜。其中，标注具体表现为部分区域色彩增强、高亮；歪曲变形具体表现为在水平方向上和垂直方向上进行一定的旋转和变形。其目的是模仿五线谱文件在实际的拍照上传中可能出现的情况，使得网络对各种不同情况的五线谱图片有较高的容差率。

本实施例的网络模型训练模块中，将经过数据增强的单行五线谱数据集以6:2:2的比例分入训练集、验证集和测试集中，用以训练MobileNetV3对五线谱内容的识别准确率。在网络的识别准确率率达到一定的标准后认为网络模型的训练完成，可以应用在实际的五线谱识别当中。

本实施例的图像内容处理模块中，通过已训练好的网络模型识别分割后的五线谱集，其识别结果以MusicXML文件的形式进行保存。MusicXML文件中保存包括谱面上的节拍、调号以及音符的音高、节奏等信息，方便实现简谱文件的生成。

本实施例的数据再处理模块中，可以根据常规的旋律走向和先后音符之间的音程关系，以及常规节奏型和乐谱的节拍，给出用户所选的修改部分的候选内容。此模块的作用是完成对网络模型识别的错误内容的修正。

本实施例的文本生成模块中，根据用户选择的调号形式，将由MobileNetV3识别并且修订过后保存的MusicXML信息，转换生成相对应的简谱图片。

用户选择生成简谱的调式，选择对乐曲使用首调或固定调，最终生成方便阅读的简谱文件。比如，对于

调的乐谱，用户可以选择转换成/>

系统最终给出的简谱以图片形式导出。

综上所述，本发明的优点在于：创新研发了一种五线谱转换简谱的技术方案，通过深度学习网络，基于MobileNetV3框架训练出适合五线谱识别的模型，基于MobileNetV3计算量小的特点提供将五线谱与简谱转化系统部署在移动端的可能性。系统中设置差错修改的环节，用户可将模型识别错误的部分进行改正；同时用户可以所转换的简谱调号，使得系统最终给出的简谱文件符合用户的使用习惯。用户做手动修改的信息都将反馈给网络模型优化其算法参数，以达到更高的准确率和五线谱识别完成度。相较于现有的五线谱识别技术，本发明应用轻量级的深度学习网络，满足在移动端使用的需要，提高五线谱与简谱的转换效率。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，本发明所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.基于MobileNetV3的五线谱识别与简谱转换的方法，其特征是按如下步骤：

步骤一：获取五线谱图片；

步骤二：选定识别区域，并进行倾斜校正，将图片以五线谱的行为单位划分，形成样本集η；

步骤三：对预备的五线谱数据集ξ，进行数据增强，得到扩充后的数据集，在MobileNetV3的基础上进行训练迭代，获得五线谱识别模型M；

步骤四：统计所有步骤二中输入样本集η，输入至步骤三所得到的模型M中进行检测识别，将识别出的信息以MusicXML文件形式保存；

步骤五：对步骤四的识别结果进行预览核对，给出能供修改的候选项，更改识别的错误信息，将错误内容反馈给五线谱识别模型M进行再训练；

步骤六：根据数据再处理的结果以及选择的简谱调式，完成文本整合，最终给出完整的简谱转换结果；

步骤二具体是：选定识别区域后，对图片进行调整，使得谱面的行与行之间平行、间隔相等，再以行为单位设置检测框；在此基础上，根据检测框对图片进行裁剪，各个矩形框的裁剪结果作为单个样本组成集合η；

在步骤三中，对于所述的五线谱数据集ξ，通过倾斜变形、增加笔画、裁剪、旋转、增加图片噪声、手写标注数据增强手段处理；

步骤五具体如下：识别生成简谱预览图片后，对难以识别的部分，根据一般乐理规则提供候选项；同时，将更改的信息反馈到数据库进行记录，进行数据增强，并对模型M进行优化；

步骤六具体如下：选择简谱书写的调号，将MusicXML文件的内容进行转换，最终将简谱以图片形式呈现。

2.如权利要求1所述基于MobileNetV3的五线谱识别与简谱转换的方法，其特征是，步骤三具体包括如下步骤：

步骤3.1：对于所述的五线谱数据集ξ，按6:2:2的比例分别扩充到训练集、测试集、验证集中；

步骤3.2：基于MobileNetV3模型，通过已有五线谱数据集ξ进行训练，得到五线谱识别模型M。

3.基于MobileNetV3的五线谱识别与简谱转换的系统，其特征是包括如下模块：

数据再处理模块：对初步识别结果进行预览核对，给出能供修改的候选项，更改识别的错误信息，将错误内容反馈给五线谱识别模型M进行再训练；

文本生成模块：根据数据再处理模块的结果以及选择的简谱调式，完成文本整合，最终给出完整的简谱转换结果；

数据增强模块中，对于所述的五线谱数据集ξ，通过倾斜变形、增加笔画、裁剪、旋转、增加图片噪声、手写标注数据增强手段处理；

数据再处理模块中，识别生成简谱预览图片后，对难以识别的部分，根据一般乐理规则提供候选项；同时，将更改的信息反馈到数据库进行记录，进行数据增强，并对模型M进行优化；

文本生成模块中，选择简谱书写的调号，将MusicXML文件的内容进行转换，最终将简谱以图片形式呈现。

4.如权利要求3所述基于MobileNetV3的五线谱识别与简谱转换的系统，其特征是，网络模型训练模块中，对于所述的五线谱数据集ξ，按6:2:2的比例分别扩充到训练集、测试集、验证集中；基于MobileNetV3模型，通过已有五线谱数据集ξ进行训练，得到五线谱识别模型M。