CN116884014A

CN116884014A - 一种基于图像处理的乐谱数据集生成方法及系统

Info

Publication number: CN116884014A
Application number: CN202310681841.2A
Authority: CN
Inventors: 姚俊峰; 张帆; 王钰菲
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2023-06-09
Filing date: 2023-06-09
Publication date: 2023-10-13

Abstract

本发明提供了乐谱数据集构建技术领域的一种基于图像处理的乐谱数据集生成方法及系统，方法包括如下步骤：步骤S10、获取大量的乐谱文件，将各所述乐谱文件转换为乐谱图片；步骤S20、对各所述乐谱图片进行预处理；步骤S30、对预处理后的各所述乐谱图片进行分割，得到若干张乐谱子图片；步骤S40、对各所述乐谱子图片进行标注；步骤S50、设定包含若干个图像增强规则的规则集，从所述规则集中随机选取若干个图像增强规则，依次对标注后的各所述乐谱子图片进行图像增强操作；步骤S60、基于图像增强后的各所述乐谱子图片生成乐谱数据集。本发明的优点在于：极大的提升了乐谱数据集的多样性。

Description

一种基于图像处理的乐谱数据集生成方法及系统

技术领域

本发明涉及乐谱数据集构建技术领域，特别指一种基于图像处理的乐谱数据集生成方法及系统。

背景技术

乐谱是一种用符号来记录音乐的方法，对于音乐的初学者来说，如何读懂乐谱至关重要，如果不能掌握乐谱，也就不能演奏出美妙的音乐，因此产生了识别乐谱以进行辅助教学的需求，类似英语点读机识别英文单词。

为了对乐谱进行识别，需要使用乐谱数据集对基于神经网络创建的乐谱识别模型进行训练。然而，传统的乐谱数据集仅是简单的采用原始的乐谱图像，并未进行相应的增强处理，导致训练出来的乐谱识别模型的泛化性欠佳。

因此，如何提供一种基于图像处理的乐谱数据集生成方法及系统，实现提升乐谱数据集的多样性，成为一个亟待解决的技术问题。

发明内容

本发明要解决的技术问题，在于提供一种基于图像处理的乐谱数据集生成方法及系统，实现提升乐谱数据集的多样性。

第一方面，本发明提供了一种基于图像处理的乐谱数据集生成方法，包括如下步骤：

步骤S10、获取大量的乐谱文件，将各所述乐谱文件转换为乐谱图片；

步骤S20、对各所述乐谱图片进行预处理；

步骤S30、对预处理后的各所述乐谱图片进行分割，得到若干张乐谱子图片；

步骤S40、对各所述乐谱子图片进行标注；

步骤S50、设定包含若干个图像增强规则的规则集，从所述规则集中随机选取若干个图像增强规则，依次对标注后的各所述乐谱子图片进行图像增强操作；

步骤S60、基于图像增强后的各所述乐谱子图片生成乐谱数据集。

进一步地，所述步骤S10具体为：

获取大量的MusicXML格式的乐谱文件，将各所述乐谱文件转换为PNG格式的乐谱图片；

所述步骤S20具体为：

对各所述乐谱图片进行灰度二值化的预处理。

进一步地，所述步骤S30具体为：

基于所述乐谱图片中黑色像素的宽度定位谱线，基于所述谱线定位乐谱行，基于所述乐谱行对预处理后的各所述乐谱图片进行分割，得到若干张乐谱子图片。

进一步地，所述步骤S40具体为：

对各所述乐谱子图片进行音高、音符时长、是否和弦的标注。

进一步地，所述步骤S50中，所述图像增强规则至少包括添加椒盐噪声、添加高斯噪声、高斯滤波模糊、图像放射变换、图像透射变换、亮度调节、对比度调节、光照颜色调节、图像侵蚀、图像膨胀以及图像旋转；

所述步骤S60具体为：

移除图像增强后的各所述乐谱子图片中的谱线得到无谱线子图片，基于图像增强后的各所述乐谱子图片以及无谱线子图片生成乐谱数据集。

第二方面，本发明提供了一种基于图像处理的乐谱数据集生成系统，包括如下模块：

乐谱文件转换模块，用于获取大量的乐谱文件，将各所述乐谱文件转换为乐谱图片；

乐谱图片预处理模块，用于对各所述乐谱图片进行预处理；

乐谱图片分割模块，用于对预处理后的各所述乐谱图片进行分割，得到若干张乐谱子图片；

乐谱子图片标注模块，用于对各所述乐谱子图片进行标注；

图像增强模块，用于设定包含若干个图像增强规则的规则集，从所述规则集中随机选取若干个图像增强规则，依次对标注后的各所述乐谱子图片进行图像增强操作；

乐谱数据集生成模块，用于基于图像增强后的各所述乐谱子图片生成乐谱数据集。

进一步地，所述乐谱文件转换模块具体用于：

所述乐谱图片预处理模块具体用于：

对各所述乐谱图片进行灰度二值化的预处理。

进一步地，所述乐谱图片分割模块具体用于：

进一步地，所述乐谱子图片标注模块具体用于：

进一步地，所述图像增强模块中，所述图像增强规则至少包括添加椒盐噪声、添加高斯噪声、高斯滤波模糊、图像放射变换、图像透射变换、亮度调节、对比度调节、光照颜色调节、图像侵蚀、图像膨胀以及图像旋转；

所述乐谱数据集生成模块具体用于：

本发明的优点在于：

通过将获取的各乐谱文件转换为乐谱图片并进行预处理后，对的各乐谱图片进行分割得到若干张乐谱子图片，再对各乐谱子图片进行标注；接着设定包含若干个图像增强规则的规则集，从规则集中随机选取若干个图像增强规则，依次对标注后的各乐谱子图片进行图像增强操作，移除图像增强后的各乐谱子图片中的谱线得到无谱线子图片，基于图像增强后的各乐谱子图片以及无谱线子图片生成乐谱数据集；即对乐谱子图片进行添加椒盐噪声、添加高斯噪声、高斯滤波模糊、图像放射变换、图像透射变换、亮度调节、对比度调节、光照颜色调节、图像侵蚀、图像膨胀以及图像旋转的随机图像增强操作，并生成去除乐谱子图片中的谱线的无谱线子图片，极大的扩展了乐谱数据集的样本量，极大的提升了乐谱数据集的多样性，进而极大的提升了使用乐谱数据集训练的乐谱识别模型的泛化性。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1是本发明一种基于图像处理的乐谱数据集生成方法的流程图。

图2是本发明一种基于图像处理的乐谱数据集生成系统的结构示意图。

图3是本发明乐谱图片分割的示意图。

图4是本发明添加椒盐噪声的对比示意图。

图5是本发明添加高斯噪声的对比示意图。

图6是本发明高斯滤波模糊的对比示意图。

图7是本发明图像放射变换的对比示意图。

图8是本发明图像透射变换的对比示意图。

图9是本发明亮度和对比度调节的对比示意图之一。

图10是本发明亮度和对比度调节的对比示意图之二。

图11是本发明光照颜色调节的对比示意图。

图12是本发明图像侵蚀和图像膨胀的对比示意图。

图13是本发明添加椒盐噪声+图像旋转的对比示意图。

图14是本发明图像透射变换+添加高斯噪声的对比示意图。

图15是本发明图像膨胀+亮度调节+对比度调节的对比示意图。

图16是本发明图像旋转+图像透射变换+椒盐噪声的对比示意图。

图17是本发明图像侵蚀+图像旋转+添加高斯噪声+光照颜色调节的对比示意图。

图18是本发明谱线移除的对比示意图。

具体实施方式

本申请实施例中的技术方案，总体思路如下：对乐谱子图片进行添加椒盐噪声、添加高斯噪声、高斯滤波模糊、图像放射变换、图像透射变换、亮度调节、对比度调节、光照颜色调节、图像侵蚀、图像膨胀以及图像旋转的随机图像增强操作，并生成去除乐谱子图片中的谱线的无谱线子图片，以提升了乐谱数据集的多样性。

请参照图1至图18所示，本发明一种基于图像处理的乐谱数据集生成方法的较佳实施例，包括如下步骤：

步骤S10、获取大量的乐谱文件，将各所述乐谱文件转换为乐谱图片；具体实施时，可从MuseScore官网获取所述乐谱文件，并使用MuseScore4软件去除所述乐谱文件中的冗余部分；

步骤S20、对各所述乐谱图片进行预处理；

步骤S40、对各所述乐谱子图片进行标注；

所述步骤S10具体为：

所述步骤S20具体为：

对各所述乐谱图片进行灰度二值化的预处理，即将乐谱的谱线、谱号和音符等的像素点的灰度值设为0，背景的像素点的灰度值设为255。

所述步骤S30具体为：

考虑到对于大多数OMR而言，整张的乐谱图片识别难度过大，因此进行分割，具体实施时可以两行的乐谱行进行分割，也就是以一段和弦为单位分割成多张乐谱子图片；在数据处理时，也可将一张乐谱图片分割出的多张乐谱子图片进行不同的数据处理，以提高乐谱数据集的多样性。

所述步骤S40具体为：

对各所述乐谱子图片进行音高、音符时长、是否和弦的标注；所述音高即音符的高度；所述音符时长也表示为音符类型。

具体实施时，可运用TinyXML来解析musicxml文件：按顺序遍历musicxml文件中的measure节点，根据measure的子节点print来判断是否换行或者换页；print具有两个属性，new-system表示换行，new-page表示换页，基于这两个属性对measure进行分组，分组的结果与分割的乐谱子图片所对应；接着遍历measure节点下的各个note节点，note就存储了音符的相关信息。

所述步骤S50中，所述图像增强规则至少包括添加椒盐噪声、添加高斯噪声、高斯滤波模糊、图像放射变换、图像透射变换、亮度调节、对比度调节、光照颜色调节、图像侵蚀、图像膨胀以及图像旋转；

椒盐噪声也称为脉冲噪声，通过对图像像素值的随机处理，产生黑白相间的噪声点；具体实现过程为，指定为图像添加多少个噪声点或者噪声点占比图像的多少，然后随机抽取图像上的某个像素点，再随机判断将其像素点变为白噪声或黑噪声。

高斯噪声是指图像噪声分布的概率密度函数服从正态分布的一种噪声，相比于椒盐函数的随机选取像素点添加噪声，高斯噪声对每一个像素点都进行添加噪声，但噪声的深度随机，且服从正态分布，不像椒盐噪声的非黑即白；通过设置期望值及标准方差来确定高斯噪声的概率密度函数。

高斯滤波模糊按像素点与中心点的不同距离，赋予像素点不同的权重值，越靠近中心点权重值越大，越远离中心点权重值越小，根据权重值计算邻域内所有像素点的和，将和作为中心点的像素值，设置所需的高斯内核大小以及x轴和y轴的标准差。

图像放射变换即对图像进行平移和旋转。

图像透射变换即利用透视中心、像点、目标点三点共线的条件,按透视旋转定律使承影面(透视面)绕迹线(透视轴)旋转某一角度，破坏原有的投影光线束，仍能保持承影面上投影几何图形不变的变换。

亮度和对比度调节的公式为：g(i,j)＝αf(i,j)+β。

光照颜色调节即通过HSV颜色模型的定义，改变图像的色调，饱和度和亮度，达到改变图像光照颜色。

图像膨胀即求局部最大值的操作，用核与图形卷积，即计算核覆盖区域的像素点的最大值，并把这最大值赋值给中心点，直到把整个图像遍历完；图像侵蚀与图像膨胀是相反的一对操作，侵蚀就是求局部最小值的操作，同样用核进行卷积，遍历整个图像。

所述步骤S60具体为：

谱线移除即对对乐谱子图片进行灰度二值化处理，再利用图像水平投影得到的投影图，根据谱线为图像最长的一条直线的特征，定位到谱线所在位置；判断该谱线上的像素点，如果该点上存在音符等信息，则不予以处理，如果该像素点上没有音符等，将其置为白色像素点(值为255),逐行进行处理，达到谱线移除的效果。

本发明一种基于图像处理的乐谱数据集生成系统的较佳实施例，包括如下模块：

乐谱文件转换模块，用于获取大量的乐谱文件，将各所述乐谱文件转换为乐谱图片；具体实施时，可从MuseScore官网获取所述乐谱文件，并使用MuseScore4软件去除所述乐谱文件中的冗余部分；

乐谱图片预处理模块，用于对各所述乐谱图片进行预处理；

乐谱子图片标注模块，用于对各所述乐谱子图片进行标注；

所述乐谱文件转换模块具体用于：

所述乐谱图片预处理模块具体用于：

所述乐谱图片分割模块具体用于：

所述乐谱子图片标注模块具体用于：

所述图像增强模块中，所述图像增强规则至少包括添加椒盐噪声、添加高斯噪声、高斯滤波模糊、图像放射变换、图像透射变换、亮度调节、对比度调节、光照颜色调节、图像侵蚀、图像膨胀以及图像旋转；

图像放射变换即对图像进行平移和旋转。

亮度和对比度调节的公式为：g(i,j)＝αf(i,j)+β。

所述乐谱数据集生成模块具体用于：

综上所述，本发明的优点在于：

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种基于图像处理的乐谱数据集生成方法，其特征在于：包括如下步骤：

步骤S20、对各所述乐谱图片进行预处理；

步骤S40、对各所述乐谱子图片进行标注；

2.如权利要求1所述的一种基于图像处理的乐谱数据集生成方法，其特征在于：所述步骤S10具体为：

所述步骤S20具体为：

对各所述乐谱图片进行灰度二值化的预处理。

3.如权利要求1所述的一种基于图像处理的乐谱数据集生成方法，其特征在于：所述步骤S30具体为：

4.如权利要求1所述的一种基于图像处理的乐谱数据集生成方法，其特征在于：所述步骤S40具体为：

5.如权利要求1所述的一种基于图像处理的乐谱数据集生成方法，其特征在于：所述步骤S50中，所述图像增强规则至少包括添加椒盐噪声、添加高斯噪声、高斯滤波模糊、图像放射变换、图像透射变换、亮度调节、对比度调节、光照颜色调节、图像侵蚀、图像膨胀以及图像旋转；

所述步骤S60具体为：

6.一种基于图像处理的乐谱数据集生成系统，其特征在于：包括如下模块：

乐谱图片预处理模块，用于对各所述乐谱图片进行预处理；

乐谱子图片标注模块，用于对各所述乐谱子图片进行标注；

7.如权利要求6所述的一种基于图像处理的乐谱数据集生成系统，其特征在于：所述乐谱文件转换模块具体用于：

所述乐谱图片预处理模块具体用于：

对各所述乐谱图片进行灰度二值化的预处理。

8.如权利要求6所述的一种基于图像处理的乐谱数据集生成系统，其特征在于：所述乐谱图片分割模块具体用于：

9.如权利要求6所述的一种基于图像处理的乐谱数据集生成系统，其特征在于：所述乐谱子图片标注模块具体用于：

10.如权利要求6所述的一种基于图像处理的乐谱数据集生成系统，其特征在于：所述图像增强模块中，所述图像增强规则至少包括添加椒盐噪声、添加高斯噪声、高斯滤波模糊、图像放射变换、图像透射变换、亮度调节、对比度调节、光照颜色调节、图像侵蚀、图像膨胀以及图像旋转；

所述乐谱数据集生成模块具体用于：