CN116884014A - 一种基于图像处理的乐谱数据集生成方法及系统 - Google Patents
一种基于图像处理的乐谱数据集生成方法及系统 Download PDFInfo
- Publication number
- CN116884014A CN116884014A CN202310681841.2A CN202310681841A CN116884014A CN 116884014 A CN116884014 A CN 116884014A CN 202310681841 A CN202310681841 A CN 202310681841A CN 116884014 A CN116884014 A CN 116884014A
- Authority
- CN
- China
- Prior art keywords
- music score
- picture
- image
- sub
- music
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000007781 pre-processing Methods 0.000 claims abstract description 19
- 238000002372 labelling Methods 0.000 claims abstract description 5
- 230000003595 spectral effect Effects 0.000 claims description 49
- 230000009466 transformation Effects 0.000 claims description 23
- 238000001228 spectrum Methods 0.000 claims description 22
- 238000005286 illumination Methods 0.000 claims description 15
- 230000005540 biological transmission Effects 0.000 claims description 14
- 230000003628 erosive effect Effects 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 11
- 230000010339 dilation Effects 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 7
- 230000005855 radiation Effects 0.000 claims description 5
- 235000012434 pretzels Nutrition 0.000 claims description 2
- 238000010276 construction Methods 0.000 abstract description 2
- 230000000052 comparative effect Effects 0.000 description 13
- 239000006002 Pepper Substances 0.000 description 12
- 235000002566 Capsicum Nutrition 0.000 description 6
- 241000722363 Piper Species 0.000 description 6
- 235000016761 Piper aduncum Nutrition 0.000 description 6
- 235000017804 Piper guineense Nutrition 0.000 description 6
- 235000008184 Piper nigrum Nutrition 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 150000003839 salts Chemical class 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30204—Marker
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明提供了乐谱数据集构建技术领域的一种基于图像处理的乐谱数据集生成方法及系统,方法包括如下步骤:步骤S10、获取大量的乐谱文件,将各所述乐谱文件转换为乐谱图片;步骤S20、对各所述乐谱图片进行预处理;步骤S30、对预处理后的各所述乐谱图片进行分割,得到若干张乐谱子图片;步骤S40、对各所述乐谱子图片进行标注;步骤S50、设定包含若干个图像增强规则的规则集,从所述规则集中随机选取若干个图像增强规则,依次对标注后的各所述乐谱子图片进行图像增强操作;步骤S60、基于图像增强后的各所述乐谱子图片生成乐谱数据集。本发明的优点在于:极大的提升了乐谱数据集的多样性。
Description
技术领域
本发明涉及乐谱数据集构建技术领域,特别指一种基于图像处理的乐谱数据集生成方法及系统。
背景技术
乐谱是一种用符号来记录音乐的方法,对于音乐的初学者来说,如何读懂乐谱至关重要,如果不能掌握乐谱,也就不能演奏出美妙的音乐,因此产生了识别乐谱以进行辅助教学的需求,类似英语点读机识别英文单词。
为了对乐谱进行识别,需要使用乐谱数据集对基于神经网络创建的乐谱识别模型进行训练。然而,传统的乐谱数据集仅是简单的采用原始的乐谱图像,并未进行相应的增强处理,导致训练出来的乐谱识别模型的泛化性欠佳。
因此,如何提供一种基于图像处理的乐谱数据集生成方法及系统,实现提升乐谱数据集的多样性,成为一个亟待解决的技术问题。
发明内容
本发明要解决的技术问题,在于提供一种基于图像处理的乐谱数据集生成方法及系统,实现提升乐谱数据集的多样性。
第一方面,本发明提供了一种基于图像处理的乐谱数据集生成方法,包括如下步骤:
步骤S10、获取大量的乐谱文件,将各所述乐谱文件转换为乐谱图片;
步骤S20、对各所述乐谱图片进行预处理;
步骤S30、对预处理后的各所述乐谱图片进行分割,得到若干张乐谱子图片;
步骤S40、对各所述乐谱子图片进行标注;
步骤S50、设定包含若干个图像增强规则的规则集,从所述规则集中随机选取若干个图像增强规则,依次对标注后的各所述乐谱子图片进行图像增强操作;
步骤S60、基于图像增强后的各所述乐谱子图片生成乐谱数据集。
进一步地,所述步骤S10具体为:
获取大量的MusicXML格式的乐谱文件,将各所述乐谱文件转换为PNG格式的乐谱图片;
所述步骤S20具体为:
对各所述乐谱图片进行灰度二值化的预处理。
进一步地,所述步骤S30具体为:
基于所述乐谱图片中黑色像素的宽度定位谱线,基于所述谱线定位乐谱行,基于所述乐谱行对预处理后的各所述乐谱图片进行分割,得到若干张乐谱子图片。
进一步地,所述步骤S40具体为:
对各所述乐谱子图片进行音高、音符时长、是否和弦的标注。
进一步地,所述步骤S50中,所述图像增强规则至少包括添加椒盐噪声、添加高斯噪声、高斯滤波模糊、图像放射变换、图像透射变换、亮度调节、对比度调节、光照颜色调节、图像侵蚀、图像膨胀以及图像旋转;
所述步骤S60具体为:
移除图像增强后的各所述乐谱子图片中的谱线得到无谱线子图片,基于图像增强后的各所述乐谱子图片以及无谱线子图片生成乐谱数据集。
第二方面,本发明提供了一种基于图像处理的乐谱数据集生成系统,包括如下模块:
乐谱文件转换模块,用于获取大量的乐谱文件,将各所述乐谱文件转换为乐谱图片;
乐谱图片预处理模块,用于对各所述乐谱图片进行预处理;
乐谱图片分割模块,用于对预处理后的各所述乐谱图片进行分割,得到若干张乐谱子图片;
乐谱子图片标注模块,用于对各所述乐谱子图片进行标注;
图像增强模块,用于设定包含若干个图像增强规则的规则集,从所述规则集中随机选取若干个图像增强规则,依次对标注后的各所述乐谱子图片进行图像增强操作;
乐谱数据集生成模块,用于基于图像增强后的各所述乐谱子图片生成乐谱数据集。
进一步地,所述乐谱文件转换模块具体用于:
获取大量的MusicXML格式的乐谱文件,将各所述乐谱文件转换为PNG格式的乐谱图片;
所述乐谱图片预处理模块具体用于:
对各所述乐谱图片进行灰度二值化的预处理。
进一步地,所述乐谱图片分割模块具体用于:
基于所述乐谱图片中黑色像素的宽度定位谱线,基于所述谱线定位乐谱行,基于所述乐谱行对预处理后的各所述乐谱图片进行分割,得到若干张乐谱子图片。
进一步地,所述乐谱子图片标注模块具体用于:
对各所述乐谱子图片进行音高、音符时长、是否和弦的标注。
进一步地,所述图像增强模块中,所述图像增强规则至少包括添加椒盐噪声、添加高斯噪声、高斯滤波模糊、图像放射变换、图像透射变换、亮度调节、对比度调节、光照颜色调节、图像侵蚀、图像膨胀以及图像旋转;
所述乐谱数据集生成模块具体用于:
移除图像增强后的各所述乐谱子图片中的谱线得到无谱线子图片,基于图像增强后的各所述乐谱子图片以及无谱线子图片生成乐谱数据集。
本发明的优点在于:
通过将获取的各乐谱文件转换为乐谱图片并进行预处理后,对的各乐谱图片进行分割得到若干张乐谱子图片,再对各乐谱子图片进行标注;接着设定包含若干个图像增强规则的规则集,从规则集中随机选取若干个图像增强规则,依次对标注后的各乐谱子图片进行图像增强操作,移除图像增强后的各乐谱子图片中的谱线得到无谱线子图片,基于图像增强后的各乐谱子图片以及无谱线子图片生成乐谱数据集;即对乐谱子图片进行添加椒盐噪声、添加高斯噪声、高斯滤波模糊、图像放射变换、图像透射变换、亮度调节、对比度调节、光照颜色调节、图像侵蚀、图像膨胀以及图像旋转的随机图像增强操作,并生成去除乐谱子图片中的谱线的无谱线子图片,极大的扩展了乐谱数据集的样本量,极大的提升了乐谱数据集的多样性,进而极大的提升了使用乐谱数据集训练的乐谱识别模型的泛化性。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1是本发明一种基于图像处理的乐谱数据集生成方法的流程图。
图2是本发明一种基于图像处理的乐谱数据集生成系统的结构示意图。
图3是本发明乐谱图片分割的示意图。
图4是本发明添加椒盐噪声的对比示意图。
图5是本发明添加高斯噪声的对比示意图。
图6是本发明高斯滤波模糊的对比示意图。
图7是本发明图像放射变换的对比示意图。
图8是本发明图像透射变换的对比示意图。
图9是本发明亮度和对比度调节的对比示意图之一。
图10是本发明亮度和对比度调节的对比示意图之二。
图11是本发明光照颜色调节的对比示意图。
图12是本发明图像侵蚀和图像膨胀的对比示意图。
图13是本发明添加椒盐噪声+图像旋转的对比示意图。
图14是本发明图像透射变换+添加高斯噪声的对比示意图。
图15是本发明图像膨胀+亮度调节+对比度调节的对比示意图。
图16是本发明图像旋转+图像透射变换+椒盐噪声的对比示意图。
图17是本发明图像侵蚀+图像旋转+添加高斯噪声+光照颜色调节的对比示意图。
图18是本发明谱线移除的对比示意图。
具体实施方式
本申请实施例中的技术方案,总体思路如下:对乐谱子图片进行添加椒盐噪声、添加高斯噪声、高斯滤波模糊、图像放射变换、图像透射变换、亮度调节、对比度调节、光照颜色调节、图像侵蚀、图像膨胀以及图像旋转的随机图像增强操作,并生成去除乐谱子图片中的谱线的无谱线子图片,以提升了乐谱数据集的多样性。
请参照图1至图18所示,本发明一种基于图像处理的乐谱数据集生成方法的较佳实施例,包括如下步骤:
步骤S10、获取大量的乐谱文件,将各所述乐谱文件转换为乐谱图片;具体实施时,可从MuseScore官网获取所述乐谱文件,并使用MuseScore4软件去除所述乐谱文件中的冗余部分;
步骤S20、对各所述乐谱图片进行预处理;
步骤S30、对预处理后的各所述乐谱图片进行分割,得到若干张乐谱子图片;
步骤S40、对各所述乐谱子图片进行标注;
步骤S50、设定包含若干个图像增强规则的规则集,从所述规则集中随机选取若干个图像增强规则,依次对标注后的各所述乐谱子图片进行图像增强操作;
步骤S60、基于图像增强后的各所述乐谱子图片生成乐谱数据集。
所述步骤S10具体为:
获取大量的MusicXML格式的乐谱文件,将各所述乐谱文件转换为PNG格式的乐谱图片;
所述步骤S20具体为:
对各所述乐谱图片进行灰度二值化的预处理,即将乐谱的谱线、谱号和音符等的像素点的灰度值设为0,背景的像素点的灰度值设为255。
所述步骤S30具体为:
基于所述乐谱图片中黑色像素的宽度定位谱线,基于所述谱线定位乐谱行,基于所述乐谱行对预处理后的各所述乐谱图片进行分割,得到若干张乐谱子图片。
考虑到对于大多数OMR而言,整张的乐谱图片识别难度过大,因此进行分割,具体实施时可以两行的乐谱行进行分割,也就是以一段和弦为单位分割成多张乐谱子图片;在数据处理时,也可将一张乐谱图片分割出的多张乐谱子图片进行不同的数据处理,以提高乐谱数据集的多样性。
所述步骤S40具体为:
对各所述乐谱子图片进行音高、音符时长、是否和弦的标注;所述音高即音符的高度;所述音符时长也表示为音符类型。
具体实施时,可运用TinyXML来解析musicxml文件:按顺序遍历musicxml文件中的measure节点,根据measure的子节点print来判断是否换行或者换页;print具有两个属性,new-system表示换行,new-page表示换页,基于这两个属性对measure进行分组,分组的结果与分割的乐谱子图片所对应;接着遍历measure节点下的各个note节点,note就存储了音符的相关信息。
所述步骤S50中,所述图像增强规则至少包括添加椒盐噪声、添加高斯噪声、高斯滤波模糊、图像放射变换、图像透射变换、亮度调节、对比度调节、光照颜色调节、图像侵蚀、图像膨胀以及图像旋转;
椒盐噪声也称为脉冲噪声,通过对图像像素值的随机处理,产生黑白相间的噪声点;具体实现过程为,指定为图像添加多少个噪声点或者噪声点占比图像的多少,然后随机抽取图像上的某个像素点,再随机判断将其像素点变为白噪声或黑噪声。
高斯噪声是指图像噪声分布的概率密度函数服从正态分布的一种噪声,相比于椒盐函数的随机选取像素点添加噪声,高斯噪声对每一个像素点都进行添加噪声,但噪声的深度随机,且服从正态分布,不像椒盐噪声的非黑即白;通过设置期望值及标准方差来确定高斯噪声的概率密度函数。
高斯滤波模糊按像素点与中心点的不同距离,赋予像素点不同的权重值,越靠近中心点权重值越大,越远离中心点权重值越小,根据权重值计算邻域内所有像素点的和,将和作为中心点的像素值,设置所需的高斯内核大小以及x轴和y轴的标准差。
图像放射变换即对图像进行平移和旋转。
图像透射变换即利用透视中心、像点、目标点三点共线的条件,按透视旋转定律使承影面(透视面)绕迹线(透视轴)旋转某一角度,破坏原有的投影光线束,仍能保持承影面上投影几何图形不变的变换。
亮度和对比度调节的公式为:g(i,j)=αf(i,j)+β。
光照颜色调节即通过HSV颜色模型的定义,改变图像的色调,饱和度和亮度,达到改变图像光照颜色。
图像膨胀即求局部最大值的操作,用核与图形卷积,即计算核覆盖区域的像素点的最大值,并把这最大值赋值给中心点,直到把整个图像遍历完;图像侵蚀与图像膨胀是相反的一对操作,侵蚀就是求局部最小值的操作,同样用核进行卷积,遍历整个图像。
所述步骤S60具体为:
移除图像增强后的各所述乐谱子图片中的谱线得到无谱线子图片,基于图像增强后的各所述乐谱子图片以及无谱线子图片生成乐谱数据集。
谱线移除即对对乐谱子图片进行灰度二值化处理,再利用图像水平投影得到的投影图,根据谱线为图像最长的一条直线的特征,定位到谱线所在位置;判断该谱线上的像素点,如果该点上存在音符等信息,则不予以处理,如果该像素点上没有音符等,将其置为白色像素点(值为255),逐行进行处理,达到谱线移除的效果。
本发明一种基于图像处理的乐谱数据集生成系统的较佳实施例,包括如下模块:
乐谱文件转换模块,用于获取大量的乐谱文件,将各所述乐谱文件转换为乐谱图片;具体实施时,可从MuseScore官网获取所述乐谱文件,并使用MuseScore4软件去除所述乐谱文件中的冗余部分;
乐谱图片预处理模块,用于对各所述乐谱图片进行预处理;
乐谱图片分割模块,用于对预处理后的各所述乐谱图片进行分割,得到若干张乐谱子图片;
乐谱子图片标注模块,用于对各所述乐谱子图片进行标注;
图像增强模块,用于设定包含若干个图像增强规则的规则集,从所述规则集中随机选取若干个图像增强规则,依次对标注后的各所述乐谱子图片进行图像增强操作;
乐谱数据集生成模块,用于基于图像增强后的各所述乐谱子图片生成乐谱数据集。
所述乐谱文件转换模块具体用于:
获取大量的MusicXML格式的乐谱文件,将各所述乐谱文件转换为PNG格式的乐谱图片;
所述乐谱图片预处理模块具体用于:
对各所述乐谱图片进行灰度二值化的预处理,即将乐谱的谱线、谱号和音符等的像素点的灰度值设为0,背景的像素点的灰度值设为255。
所述乐谱图片分割模块具体用于:
基于所述乐谱图片中黑色像素的宽度定位谱线,基于所述谱线定位乐谱行,基于所述乐谱行对预处理后的各所述乐谱图片进行分割,得到若干张乐谱子图片。
考虑到对于大多数OMR而言,整张的乐谱图片识别难度过大,因此进行分割,具体实施时可以两行的乐谱行进行分割,也就是以一段和弦为单位分割成多张乐谱子图片;在数据处理时,也可将一张乐谱图片分割出的多张乐谱子图片进行不同的数据处理,以提高乐谱数据集的多样性。
所述乐谱子图片标注模块具体用于:
对各所述乐谱子图片进行音高、音符时长、是否和弦的标注;所述音高即音符的高度;所述音符时长也表示为音符类型。
具体实施时,可运用TinyXML来解析musicxml文件:按顺序遍历musicxml文件中的measure节点,根据measure的子节点print来判断是否换行或者换页;print具有两个属性,new-system表示换行,new-page表示换页,基于这两个属性对measure进行分组,分组的结果与分割的乐谱子图片所对应;接着遍历measure节点下的各个note节点,note就存储了音符的相关信息。
所述图像增强模块中,所述图像增强规则至少包括添加椒盐噪声、添加高斯噪声、高斯滤波模糊、图像放射变换、图像透射变换、亮度调节、对比度调节、光照颜色调节、图像侵蚀、图像膨胀以及图像旋转;
椒盐噪声也称为脉冲噪声,通过对图像像素值的随机处理,产生黑白相间的噪声点;具体实现过程为,指定为图像添加多少个噪声点或者噪声点占比图像的多少,然后随机抽取图像上的某个像素点,再随机判断将其像素点变为白噪声或黑噪声。
高斯噪声是指图像噪声分布的概率密度函数服从正态分布的一种噪声,相比于椒盐函数的随机选取像素点添加噪声,高斯噪声对每一个像素点都进行添加噪声,但噪声的深度随机,且服从正态分布,不像椒盐噪声的非黑即白;通过设置期望值及标准方差来确定高斯噪声的概率密度函数。
高斯滤波模糊按像素点与中心点的不同距离,赋予像素点不同的权重值,越靠近中心点权重值越大,越远离中心点权重值越小,根据权重值计算邻域内所有像素点的和,将和作为中心点的像素值,设置所需的高斯内核大小以及x轴和y轴的标准差。
图像放射变换即对图像进行平移和旋转。
图像透射变换即利用透视中心、像点、目标点三点共线的条件,按透视旋转定律使承影面(透视面)绕迹线(透视轴)旋转某一角度,破坏原有的投影光线束,仍能保持承影面上投影几何图形不变的变换。
亮度和对比度调节的公式为:g(i,j)=αf(i,j)+β。
光照颜色调节即通过HSV颜色模型的定义,改变图像的色调,饱和度和亮度,达到改变图像光照颜色。
图像膨胀即求局部最大值的操作,用核与图形卷积,即计算核覆盖区域的像素点的最大值,并把这最大值赋值给中心点,直到把整个图像遍历完;图像侵蚀与图像膨胀是相反的一对操作,侵蚀就是求局部最小值的操作,同样用核进行卷积,遍历整个图像。
所述乐谱数据集生成模块具体用于:
移除图像增强后的各所述乐谱子图片中的谱线得到无谱线子图片,基于图像增强后的各所述乐谱子图片以及无谱线子图片生成乐谱数据集。
谱线移除即对对乐谱子图片进行灰度二值化处理,再利用图像水平投影得到的投影图,根据谱线为图像最长的一条直线的特征,定位到谱线所在位置;判断该谱线上的像素点,如果该点上存在音符等信息,则不予以处理,如果该像素点上没有音符等,将其置为白色像素点(值为255),逐行进行处理,达到谱线移除的效果。
综上所述,本发明的优点在于:
通过将获取的各乐谱文件转换为乐谱图片并进行预处理后,对的各乐谱图片进行分割得到若干张乐谱子图片,再对各乐谱子图片进行标注;接着设定包含若干个图像增强规则的规则集,从规则集中随机选取若干个图像增强规则,依次对标注后的各乐谱子图片进行图像增强操作,移除图像增强后的各乐谱子图片中的谱线得到无谱线子图片,基于图像增强后的各乐谱子图片以及无谱线子图片生成乐谱数据集;即对乐谱子图片进行添加椒盐噪声、添加高斯噪声、高斯滤波模糊、图像放射变换、图像透射变换、亮度调节、对比度调节、光照颜色调节、图像侵蚀、图像膨胀以及图像旋转的随机图像增强操作,并生成去除乐谱子图片中的谱线的无谱线子图片,极大的扩展了乐谱数据集的样本量,极大的提升了乐谱数据集的多样性,进而极大的提升了使用乐谱数据集训练的乐谱识别模型的泛化性。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
Claims (10)
1.一种基于图像处理的乐谱数据集生成方法,其特征在于:包括如下步骤:
步骤S10、获取大量的乐谱文件,将各所述乐谱文件转换为乐谱图片;
步骤S20、对各所述乐谱图片进行预处理;
步骤S30、对预处理后的各所述乐谱图片进行分割,得到若干张乐谱子图片;
步骤S40、对各所述乐谱子图片进行标注;
步骤S50、设定包含若干个图像增强规则的规则集,从所述规则集中随机选取若干个图像增强规则,依次对标注后的各所述乐谱子图片进行图像增强操作;
步骤S60、基于图像增强后的各所述乐谱子图片生成乐谱数据集。
2.如权利要求1所述的一种基于图像处理的乐谱数据集生成方法,其特征在于:所述步骤S10具体为:
获取大量的MusicXML格式的乐谱文件,将各所述乐谱文件转换为PNG格式的乐谱图片;
所述步骤S20具体为:
对各所述乐谱图片进行灰度二值化的预处理。
3.如权利要求1所述的一种基于图像处理的乐谱数据集生成方法,其特征在于:所述步骤S30具体为:
基于所述乐谱图片中黑色像素的宽度定位谱线,基于所述谱线定位乐谱行,基于所述乐谱行对预处理后的各所述乐谱图片进行分割,得到若干张乐谱子图片。
4.如权利要求1所述的一种基于图像处理的乐谱数据集生成方法,其特征在于:所述步骤S40具体为:
对各所述乐谱子图片进行音高、音符时长、是否和弦的标注。
5.如权利要求1所述的一种基于图像处理的乐谱数据集生成方法,其特征在于:所述步骤S50中,所述图像增强规则至少包括添加椒盐噪声、添加高斯噪声、高斯滤波模糊、图像放射变换、图像透射变换、亮度调节、对比度调节、光照颜色调节、图像侵蚀、图像膨胀以及图像旋转;
所述步骤S60具体为:
移除图像增强后的各所述乐谱子图片中的谱线得到无谱线子图片,基于图像增强后的各所述乐谱子图片以及无谱线子图片生成乐谱数据集。
6.一种基于图像处理的乐谱数据集生成系统,其特征在于:包括如下模块:
乐谱文件转换模块,用于获取大量的乐谱文件,将各所述乐谱文件转换为乐谱图片;
乐谱图片预处理模块,用于对各所述乐谱图片进行预处理;
乐谱图片分割模块,用于对预处理后的各所述乐谱图片进行分割,得到若干张乐谱子图片;
乐谱子图片标注模块,用于对各所述乐谱子图片进行标注;
图像增强模块,用于设定包含若干个图像增强规则的规则集,从所述规则集中随机选取若干个图像增强规则,依次对标注后的各所述乐谱子图片进行图像增强操作;
乐谱数据集生成模块,用于基于图像增强后的各所述乐谱子图片生成乐谱数据集。
7.如权利要求6所述的一种基于图像处理的乐谱数据集生成系统,其特征在于:所述乐谱文件转换模块具体用于:
获取大量的MusicXML格式的乐谱文件,将各所述乐谱文件转换为PNG格式的乐谱图片;
所述乐谱图片预处理模块具体用于:
对各所述乐谱图片进行灰度二值化的预处理。
8.如权利要求6所述的一种基于图像处理的乐谱数据集生成系统,其特征在于:所述乐谱图片分割模块具体用于:
基于所述乐谱图片中黑色像素的宽度定位谱线,基于所述谱线定位乐谱行,基于所述乐谱行对预处理后的各所述乐谱图片进行分割,得到若干张乐谱子图片。
9.如权利要求6所述的一种基于图像处理的乐谱数据集生成系统,其特征在于:所述乐谱子图片标注模块具体用于:
对各所述乐谱子图片进行音高、音符时长、是否和弦的标注。
10.如权利要求6所述的一种基于图像处理的乐谱数据集生成系统,其特征在于:所述图像增强模块中,所述图像增强规则至少包括添加椒盐噪声、添加高斯噪声、高斯滤波模糊、图像放射变换、图像透射变换、亮度调节、对比度调节、光照颜色调节、图像侵蚀、图像膨胀以及图像旋转;
所述乐谱数据集生成模块具体用于:
移除图像增强后的各所述乐谱子图片中的谱线得到无谱线子图片,基于图像增强后的各所述乐谱子图片以及无谱线子图片生成乐谱数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310681841.2A CN116884014A (zh) | 2023-06-09 | 2023-06-09 | 一种基于图像处理的乐谱数据集生成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310681841.2A CN116884014A (zh) | 2023-06-09 | 2023-06-09 | 一种基于图像处理的乐谱数据集生成方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116884014A true CN116884014A (zh) | 2023-10-13 |
Family
ID=88255789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310681841.2A Pending CN116884014A (zh) | 2023-06-09 | 2023-06-09 | 一种基于图像处理的乐谱数据集生成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116884014A (zh) |
-
2023
- 2023-06-09 CN CN202310681841.2A patent/CN116884014A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7298900B2 (en) | Image processing method, image processing apparatus and image processing program | |
US7702182B2 (en) | Method and apparatus for creating a high-fidelity glyph prototype from low-resolution glyph images | |
CN110032989B (zh) | 一种基于框线特征和像素分布的表格文档图像分类方法 | |
EP0461793B1 (en) | Method for image analysis | |
JP2005523530A (ja) | 取り込み画像データから文字列を識別して抜出するシステムおよび方法 | |
CN109635805B (zh) | 图像文本定位方法及装置、图像文本识别方法及装置 | |
CN110598566A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN110991403A (zh) | 一种基于视觉深度学习的文档信息碎片化抽取方法 | |
CN112861865B (zh) | 一种基于ocr技术的辅助审计方法 | |
CN110443235B (zh) | 一种智能纸质试卷总分识别方法及系统 | |
CN111915635A (zh) | 支持自阅卷的试题解析信息生成方法及系统 | |
CN113592735A (zh) | 文本页面图像还原方法及系统、电子设备和计算机可读介质 | |
CN111626145A (zh) | 一种简捷有效的残缺表格识别及跨页拼接方法 | |
CN110298236B (zh) | 一种基于深度学习的盲文图像自动识别方法和系统 | |
CN115909378A (zh) | 单据文本检测模型的训练方法及单据文本检测方法 | |
US20140086473A1 (en) | Image processing device, an image processing method and a program to be used to implement the image processing | |
CN111797832B (zh) | 一种图像感兴趣区域自动生成方法及系统及图像处理方法 | |
JP2003067738A (ja) | 網点除去方法及びシステム | |
CN114519788A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN116884014A (zh) | 一种基于图像处理的乐谱数据集生成方法及系统 | |
CN116030472A (zh) | 文字坐标确定方法及装置 | |
CN115731550A (zh) | 一种基于深度学习的药品说明书自动识别方法、系统及存储介质 | |
CN112733857B (zh) | 自动分割字符区域的图像文字检测模型训练方法及装置 | |
CN112712080B (zh) | 一种用于走字屏采集图像的文字识别处理方法 | |
Bloomberg et al. | Document image applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |