CN114219952A - 一种基于图像分割和模版匹配的架子鼓谱识别方法及系统 - Google Patents
一种基于图像分割和模版匹配的架子鼓谱识别方法及系统 Download PDFInfo
- Publication number
- CN114219952A CN114219952A CN202111459665.5A CN202111459665A CN114219952A CN 114219952 A CN114219952 A CN 114219952A CN 202111459665 A CN202111459665 A CN 202111459665A CN 114219952 A CN114219952 A CN 114219952A
- Authority
- CN
- China
- Prior art keywords
- note
- drum set
- spectrum
- template
- pictures
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 101
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000003709 image segmentation Methods 0.000 title claims abstract description 28
- 230000003595 spectral effect Effects 0.000 claims abstract description 64
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000010801 machine learning Methods 0.000 claims description 12
- 238000002372 labelling Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了乐谱识别技术领域的一种基于图像分割和模版匹配的架子鼓谱识别方法及系统,方法包括如下步骤:步骤S10、获取架子鼓谱文件,将所述架子鼓谱文件转换为架子鼓谱图片并进行预处理;步骤S20、识别预处理后的所述架子鼓谱图片中的谱线;步骤S30、基于列切割框选所述谱线上的各音符,得到若干张音符图片;步骤S40、创建若干张音符模板图片,通过OpenCV模板匹配算法匹配所述音符图片和音符模板图片,以对所述音符图片进行识别。本发明的优点在于:在保障架子鼓谱图像信息完整性的前提下,准确识别架子鼓谱。
Description
技术领域
本发明涉及乐谱识别技术领域,特别指一种基于图像分割和模版匹配的架子鼓谱识别方法及系统。
背景技术
乐谱是一种用符号来记录音乐的方法,对于音乐的初学者来说,如何读懂乐谱至关重要,如果不能掌握乐谱,也就不能演奏出美妙的音乐,因此产生了识别乐谱以进行辅助教学的需求,类似英语点读机识别英文单词。
针对架子鼓谱(架子鼓的乐谱)的识别,传统上采用二值法进行识别,即将架子鼓谱图像转换为二值图像,使用交叉相关函数对二值图像的各区域进行水平修正,获得水平图像,再对水平图像进行谱线定位,并删除谱线,获得删除谱线的图像;在删除谱线的图像中定位符干,获得符干基元的坐标数据,并删除符干的图像;在删除符干的图像中定位尾桥,获得尾桥基元的坐标数据,并删除尾桥的图像;在删除尾桥的图像中定位符头,得到符头基元的坐标数据;将符干、尾桥、符头的数据进行匹配,以完成架子鼓谱的识别。
由上述内容可知,传统的方法需要不断删除图像来完成架子鼓谱的识别,导致架子鼓谱的图像信息缺失。因此,如何提供一种基于图像分割和模版匹配的架子鼓谱识别方法及系统,实现在保障架子鼓谱图像信息完整性的前提下,准确识别架子鼓谱,成为一个亟待解决的技术问题。
发明内容
本发明要解决的技术问题,在于提供一种基于图像分割和模版匹配的架子鼓谱识别方法及系统,实现在保障架子鼓谱图像信息完整性的前提下,准确识别架子鼓谱。
第一方面,本发明提供了一种基于图像分割和模版匹配的架子鼓谱识别方法,包括如下步骤:
步骤S10、获取架子鼓谱文件,将所述架子鼓谱文件转换为架子鼓谱图片并进行预处理;
步骤S20、识别预处理后的所述架子鼓谱图片中的谱线;
步骤S30、基于列切割框选所述谱线上的各音符,得到若干张音符图片;
步骤S40、创建若干张音符模板图片,通过OpenCV模板匹配算法匹配所述音符图片和音符模板图片,以对所述音符图片进行识别。
进一步地,所述步骤S10具体为:
获取格式为PDF的架子鼓谱文件,将所述架子鼓谱文件转换为格式为PNG的架子鼓谱图片,并对所述架子鼓谱图片进行降噪的预处理。
进一步地,所述步骤S20具体为:
通过机器学习技术识别预处理后的所述架子鼓谱图片中的谱线,并基于各所述谱线之间的间隔规律,对各所述谱线进行分组并编号。
进一步地,所述步骤S30具体为:
通过机器学习技术,基于列切割框选各组所述谱线上的各音符,得到若干张音符图片,并对各所述音符图片进行编号。
进一步地,所述步骤S40具体为:
创建若干张音符模板图片,对各所述音符模板图片进行标注,设定OpenCV模板匹配的阈值;
通过OpenCV模板匹配算法以及所述阈值,依据编号按序匹配各所述音符图片和音符模板图片,以对各所述音符图片进行自动识别并关联对应的标注。
第二方面,本发明提供了一种基于图像分割和模版匹配的架子鼓谱识别系统,包括如下模块:
架子鼓谱文件获取转换模块,用于获取架子鼓谱文件,将所述架子鼓谱文件转换为架子鼓谱图片并进行预处理;
谱线识别模块,用于识别预处理后的所述架子鼓谱图片中的谱线;
音符图像分割模块,用于基于列切割框选所述谱线上的各音符,得到若干张音符图片;
模版匹配模块,用于创建若干张音符模板图片,通过OpenCV模板匹配算法匹配所述音符图片和音符模板图片,以对所述音符图片进行识别。
进一步地,所述架子鼓谱文件获取转换模块具体为:
获取格式为PDF的架子鼓谱文件,将所述架子鼓谱文件转换为格式为PNG的架子鼓谱图片,并对所述架子鼓谱图片进行降噪的预处理。
进一步地,所述谱线识别模块具体为:
通过机器学习技术识别预处理后的所述架子鼓谱图片中的谱线,并基于各所述谱线之间的间隔规律,对各所述谱线进行分组并编号。
进一步地,所述音符图像分割模块具体为:
通过机器学习技术,基于列切割框选各组所述谱线上的各音符,得到若干张音符图片,并对各所述音符图片进行编号。
进一步地,所述模版匹配模块具体为:
创建若干张音符模板图片,对各所述音符模板图片进行标注,设定OpenCV模板匹配的阈值;
通过OpenCV模板匹配算法以及所述阈值,依据编号按序匹配各所述音符图片和音符模板图片,以对各所述音符图片进行自动识别并关联对应的标注。
本发明的优点在于:
通过识别架子鼓谱图片中的谱线,再基于列切割框选位于谱线上的各音符得到若干张音符图片,通过OpenCV模板匹配算法匹配音符图片和预先创建的音符模板图片,以对音符图片进行识别,相对于传统的二值法识别,不需要不断删除图像来完成架子鼓谱的识别,且通过设定OpenCV模板匹配的阈值有效克服重叠音符的识别问题,最终实现在保障架子鼓谱图像信息完整性的前提下,极大的提升了架子鼓谱识别的准确性。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1是本发明一种基于图像分割和模版匹配的架子鼓谱识别方法的流程图。
图2是本发明一种基于图像分割和模版匹配的架子鼓谱识别系统的结构示意图。
图3是本发明音符框选的效果图。
具体实施方式
本申请实施例中的技术方案,总体思路如下:通过列切割框选位于谱线上的各音符得到若干张音符图片,通过OpenCV模板匹配算法匹配音符图片和预先创建的音符模板图片,以对音符图片进行识别,不需删除图像来完成架子鼓谱的识别,且通过设定OpenCV模板匹配的阈值有效克服重叠音符的识别问题,以实现在保障架子鼓谱图像信息完整性的前提下,准确识别架子鼓谱。
请参照图1至图3所示,本发明一种基于图像分割和模版匹配的架子鼓谱识别方法的较佳实施例,包括如下步骤:
步骤S10、获取架子鼓谱文件,将所述架子鼓谱文件转换为架子鼓谱图片并进行预处理;所述架子鼓谱文件可从任意渠道获取,例如从MuseScore获取;
步骤S20、识别预处理后的所述架子鼓谱图片中的谱线;识别所述线谱的目的是便于后续的音符切割(框选);
步骤S30、基于列切割框选所述谱线上的各音符,得到若干张音符图片;
步骤S40、创建若干张音符模板图片,通过OpenCV模板匹配算法匹配所述音符图片和音符模板图片,以对所述音符图片进行识别。
所述步骤S10具体为:
获取格式为PDF的架子鼓谱文件,将所述架子鼓谱文件转换为格式为PNG的架子鼓谱图片,并对所述架子鼓谱图片进行降噪的预处理。通过对所述架子鼓谱图片进行降噪的预处理,能极大的提升音符识别匹配的准确性。
所述步骤S20具体为:
通过机器学习技术识别预处理后的所述架子鼓谱图片中的谱线,并基于各所述谱线之间的间隔规律,对各所述谱线进行分组并编号。
所述步骤S30具体为:
通过机器学习技术,基于列切割框选各组所述谱线上的各音符,得到若干张音符图片,并对各所述音符图片进行编号。由于音符之间的距离是不均匀的,即不是等间距分布,导致采用行切割的处理效果不是很好,而采用列切割能很好的克服这个问题。行切割指用固定的高度来框选音符从而进行识别,这会导致一次获得多个音符的小部分信息,使得行切割远不如列切割更容易识别音符;列切割与行切割正好相反,列切割使用固定宽度的框来选择音符,使得它可以选定一个或两个音符的大部分符体,大大提高了音符的识别准确率。
通过对所述谱线进行分组并编号,对所述音符图片进行编号,使得最终对架子鼓谱进行识别时,能知晓识别的是第几组线谱的第几个音符。
所述步骤S40具体为:
创建若干张音符模板图片,对各所述音符模板图片进行标注,设定OpenCV模板匹配的阈值;
通过OpenCV模板匹配算法以及所述阈值,依据编号按序匹配各所述音符图片和音符模板图片,以对各所述音符图片进行自动识别并关联对应的标注。由于音符的符头会存在重叠的情况,而传统上重叠符头的音符无法进行很好的识别匹配,而本发明通过设定OpenCV模板匹配的阈值,能有效克服重叠音符的识别问题,进而极大的提升架子鼓谱识别的准确性。
本发明一种基于图像分割和模版匹配的架子鼓谱识别系统的较佳实施例,包括如下模块:
架子鼓谱文件获取转换模块,用于获取架子鼓谱文件,将所述架子鼓谱文件转换为架子鼓谱图片并进行预处理;所述架子鼓谱文件可从任意渠道获取,例如从MuseScore获取;
谱线识别模块,用于识别预处理后的所述架子鼓谱图片中的谱线;识别所述线谱的目的是便于后续的音符切割(框选);
音符图像分割模块,用于基于列切割框选所述谱线上的各音符,得到若干张音符图片;
模版匹配模块,用于创建若干张音符模板图片,通过OpenCV模板匹配算法匹配所述音符图片和音符模板图片,以对所述音符图片进行识别。
所述架子鼓谱文件获取转换模块具体为:
获取格式为PDF的架子鼓谱文件,将所述架子鼓谱文件转换为格式为PNG的架子鼓谱图片,并对所述架子鼓谱图片进行降噪的预处理。通过对所述架子鼓谱图片进行降噪的预处理,能极大的提升音符识别匹配的准确性。
所述谱线识别模块具体为:
通过机器学习技术识别预处理后的所述架子鼓谱图片中的谱线,并基于各所述谱线之间的间隔规律,对各所述谱线进行分组并编号。
所述音符图像分割模块具体为:
通过机器学习技术,基于列切割框选各组所述谱线上的各音符,得到若干张音符图片,并对各所述音符图片进行编号。由于音符之间的距离是不均匀的,即不是等间距分布,导致采用行切割的处理效果不是很好,而采用列切割能很好的克服这个问题。行切割指用固定的高度来框选音符从而进行识别,这会导致一次获得多个音符的小部分信息,使得行切割远不如列切割更容易识别音符;列切割与行切割正好相反,列切割使用固定宽度的框来选择音符,使得它可以选定一个或两个音符的大部分符体,大大提高了音符的识别准确率。
通过对所述谱线进行分组并编号,对所述音符图片进行编号,使得最终对架子鼓谱进行识别时,能知晓识别的是第几组线谱的第几个音符。
所述模版匹配模块具体为:
创建若干张音符模板图片,对各所述音符模板图片进行标注,设定OpenCV模板匹配的阈值;
通过OpenCV模板匹配算法以及所述阈值,依据编号按序匹配各所述音符图片和音符模板图片,以对各所述音符图片进行自动识别并关联对应的标注。由于音符的符头会存在重叠的情况,而传统上重叠符头的音符无法进行很好的识别匹配,而本发明通过设定OpenCV模板匹配的阈值,能有效克服重叠音符的识别问题,进而极大的提升架子鼓谱识别的准确性。
综上所述,本发明的优点在于:
通过识别架子鼓谱图片中的谱线,再基于列切割框选位于谱线上的各音符得到若干张音符图片,通过OpenCV模板匹配算法匹配音符图片和预先创建的音符模板图片,以对音符图片进行识别,相对于传统的二值法识别,不需要不断删除图像来完成架子鼓谱的识别,且通过设定OpenCV模板匹配的阈值有效克服重叠音符的识别问题,最终实现在保障架子鼓谱图像信息完整性的前提下,极大的提升了架子鼓谱识别的准确性。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
Claims (10)
1.一种基于图像分割和模版匹配的架子鼓谱识别方法,其特征在于:包括如下步骤:
步骤S10、获取架子鼓谱文件,将所述架子鼓谱文件转换为架子鼓谱图片并进行预处理;
步骤S20、识别预处理后的所述架子鼓谱图片中的谱线;
步骤S30、基于列切割框选所述谱线上的各音符,得到若干张音符图片;
步骤S40、创建若干张音符模板图片,通过OpenCV模板匹配算法匹配所述音符图片和音符模板图片,以对所述音符图片进行识别。
2.如权利要求1所述的一种基于图像分割和模版匹配的架子鼓谱识别方法,其特征在于:所述步骤S10具体为:
获取格式为PDF的架子鼓谱文件,将所述架子鼓谱文件转换为格式为PNG的架子鼓谱图片,并对所述架子鼓谱图片进行降噪的预处理。
3.如权利要求1所述的一种基于图像分割和模版匹配的架子鼓谱识别方法,其特征在于:所述步骤S20具体为:
通过机器学习技术识别预处理后的所述架子鼓谱图片中的谱线,并基于各所述谱线之间的间隔规律,对各所述谱线进行分组并编号。
4.如权利要求1所述的一种基于图像分割和模版匹配的架子鼓谱识别方法,其特征在于:所述步骤S30具体为:
通过机器学习技术,基于列切割框选各组所述谱线上的各音符,得到若干张音符图片,并对各所述音符图片进行编号。
5.如权利要求1所述的一种基于图像分割和模版匹配的架子鼓谱识别方法,其特征在于:所述步骤S40具体为:
创建若干张音符模板图片,对各所述音符模板图片进行标注,设定OpenCV模板匹配的阈值;
通过OpenCV模板匹配算法以及所述阈值,依据编号按序匹配各所述音符图片和音符模板图片,以对各所述音符图片进行自动识别并关联对应的标注。
6.一种基于图像分割和模版匹配的架子鼓谱识别系统,其特征在于:包括如下模块:
架子鼓谱文件获取转换模块,用于获取架子鼓谱文件,将所述架子鼓谱文件转换为架子鼓谱图片并进行预处理;
谱线识别模块,用于识别预处理后的所述架子鼓谱图片中的谱线;
音符图像分割模块,用于基于列切割框选所述谱线上的各音符,得到若干张音符图片;
模版匹配模块,用于创建若干张音符模板图片,通过OpenCV模板匹配算法匹配所述音符图片和音符模板图片,以对所述音符图片进行识别。
7.如权利要求6所述的一种基于图像分割和模版匹配的架子鼓谱识别系统,其特征在于:所述架子鼓谱文件获取转换模块具体为:
获取格式为PDF的架子鼓谱文件,将所述架子鼓谱文件转换为格式为PNG的架子鼓谱图片,并对所述架子鼓谱图片进行降噪的预处理。
8.如权利要求6所述的一种基于图像分割和模版匹配的架子鼓谱识别系统,其特征在于:所述谱线识别模块具体为:
通过机器学习技术识别预处理后的所述架子鼓谱图片中的谱线,并基于各所述谱线之间的间隔规律,对各所述谱线进行分组并编号。
9.如权利要求6所述的一种基于图像分割和模版匹配的架子鼓谱识别系统,其特征在于:所述音符图像分割模块具体为:
通过机器学习技术,基于列切割框选各组所述谱线上的各音符,得到若干张音符图片,并对各所述音符图片进行编号。
10.如权利要求6所述的一种基于图像分割和模版匹配的架子鼓谱识别系统,其特征在于:所述模版匹配模块具体为:
创建若干张音符模板图片,对各所述音符模板图片进行标注,设定OpenCV模板匹配的阈值;
通过OpenCV模板匹配算法以及所述阈值,依据编号按序匹配各所述音符图片和音符模板图片,以对各所述音符图片进行自动识别并关联对应的标注。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111459665.5A CN114219952A (zh) | 2021-12-02 | 2021-12-02 | 一种基于图像分割和模版匹配的架子鼓谱识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111459665.5A CN114219952A (zh) | 2021-12-02 | 2021-12-02 | 一种基于图像分割和模版匹配的架子鼓谱识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114219952A true CN114219952A (zh) | 2022-03-22 |
Family
ID=80699428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111459665.5A Pending CN114219952A (zh) | 2021-12-02 | 2021-12-02 | 一种基于图像分割和模版匹配的架子鼓谱识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114219952A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180086656A (ko) * | 2017-01-23 | 2018-08-01 | 국민대학교산학협력단 | 스마트 실로폰 및 구동 제어 방법 |
CN110598581A (zh) * | 2019-08-25 | 2019-12-20 | 南京理工大学 | 基于卷积神经网络的光学乐谱识别方法 |
-
2021
- 2021-12-02 CN CN202111459665.5A patent/CN114219952A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180086656A (ko) * | 2017-01-23 | 2018-08-01 | 국민대학교산학협력단 | 스마트 실로폰 및 구동 제어 방법 |
CN110598581A (zh) * | 2019-08-25 | 2019-12-20 | 南京理工大学 | 基于卷积神经网络的光学乐谱识别方法 |
Non-Patent Citations (1)
Title |
---|
王育峰;赵力;: "乐谱识别中音符分割技术的研究", 中国科技论文在线, no. 02, 15 February 2009 (2009-02-15), pages 35 - 40 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111582241B (zh) | 视频字幕识别方法、装置、设备及存储介质 | |
CN109858488B (zh) | 一种基于样本增强的手写样本识别方法与系统 | |
US7970213B1 (en) | Method and system for improving the recognition of text in an image | |
CN109670494B (zh) | 一种附带识别置信度的文本检测方法及系统 | |
CN112085022B (zh) | 一种用于识别文字的方法、系统及设备 | |
CN110647956B (zh) | 一种联合二维码识别的发票信息提取方法 | |
CN114005123A (zh) | 一种印刷体文本版面数字化重建系统及方法 | |
CN112037769B (zh) | 一种训练数据生成方法、装置以及计算机可读存储介质 | |
CN107301414A (zh) | 一种自然场景图像中的中文定位、分割和识别方法 | |
Castellanos et al. | A Neural Approach for Full-Page Optical Music Recognition of Mensural Documents. | |
CN112488222B (zh) | 一种众包数据标注方法、系统、服务器及存储介质 | |
CN114119949A (zh) | 一种增强文本合成图像的生成方法和系统 | |
CN111680669A (zh) | 一种试题分割方法、系统及可读存储介质 | |
CN110825874A (zh) | 一种中文文本分类方法和装置及计算机可读存储介质 | |
CN112508000B (zh) | 一种用于ocr图像识别模型训练数据生成的方法及设备 | |
Ríos-Vila et al. | End-to-End Full-Page Optical Music Recognition for Mensural Notation. | |
CN114051154A (zh) | 一种新闻视频拆条方法和系统 | |
CN109213970B (zh) | 笔录生成方法及装置 | |
CN114219952A (zh) | 一种基于图像分割和模版匹配的架子鼓谱识别方法及系统 | |
CN116863476A (zh) | 基于掩模引导的去除印章噪声的图像生成方法及系统 | |
CN115393875B (zh) | 基于MobileNetV3的五线谱识别与简谱转换的方法及系统 | |
CN111178042A (zh) | 一种数据处理方法、装置及计算机存储介质 | |
CN110956174A (zh) | 一种器件编号的识别方法 | |
CN116189212A (zh) | 一种基于图像的表格智能识别与计分方法 | |
CN111611986B (zh) | 一种基于手指交互的焦点文本提取和识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |