CN110598581B - 基于卷积神经网络的光学乐谱识别方法 - Google Patents
基于卷积神经网络的光学乐谱识别方法 Download PDFInfo
- Publication number
- CN110598581B CN110598581B CN201910787063.9A CN201910787063A CN110598581B CN 110598581 B CN110598581 B CN 110598581B CN 201910787063 A CN201910787063 A CN 201910787063A CN 110598581 B CN110598581 B CN 110598581B
- Authority
- CN
- China
- Prior art keywords
- spectral line
- neural network
- path
- image
- convolutional neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Character Discrimination (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明公开了一种基于卷积神经网络的光学乐谱识别方法,包括:对乐谱图像进行谱线检测;根据谱线的位置进行谱线删除;音符分割,得到一系列音符图像;将音符图像输入到已经训练好的神经网络中完成识别。本发明采用基于图论的谱线检测算法进行谱线检测,不受乐谱图像的质量、谱线扭曲形变等影响,可以准确检测出谱线的位置;采用基于线轨迹高度+局部游程直方图算法进行谱线删除,可以有效避免过删除现象;采用基于层次分级+模板匹配的分割算法,可以有效进行音符分割且保证音符的完整性;利用卷积神经网络对分割之后音符进行识别,结果具有较好的识别精度和识别速率。
Description
技术领域
本发明属于图像视觉领域,具体涉及一种基于卷积神经网络的光学乐谱识别方法。
背景技术
纸质乐谱是表达和描述音乐作品的主要载体,但是纸质乐谱的保存需要占用大量的存储空间,并且在交流的时候必须以十分不便的实物传递的方式,十分费时。纸质乐谱的这些缺点,严重地妨碍了音乐资源的利用以及音乐文化的发展与交流。于是,人们自然地想到将现代计算机科学与音乐艺术的结合,从而产生了计算机音乐,即基于数字乐谱的数字音乐系统,乐谱数字化是指将纸质乐谱由扫描仪输入到计算机,经过处理,把乐谱图像自动转化为计算机能“读懂”的数字音乐,乐谱数字化包括以下几个主要步骤。
1)谱线检测
谱线检测是进行光学乐谱识别系统的关键步骤,准确的谱线检测是后续步骤准确进行的前提。水平投影算法是最为经典的谱线检测算法。但在实际应用过程中由于噪声、谱线的扭曲形变、阈值的设置等影响会导致此算法的失败。
2)谱线删除
谱线删除是音符分割的基础,只有把谱线移除之后才方便把每个音符分割出来,传统的谱线删除方法有邻近图算法、线轨迹高度算法等。以上方法都存在谱线过删除现象,破坏原有的音乐符号,增大后续音符识别的难度。
3)音符分割
连通域分割方法在图像分割领域占有重要的地位,使用连通域分割算法对单独的音符进行分割,但是此算法对已经破坏的音符不能很好地分割,产生许多无效的分割,使后面的音符识别无法进行。
4)音符识别
传统的音符识别主要使用支持向量机、模板匹配、边界尺寸大小的方法,但这些方法都有识别精度不高,识别效率不高的问题。
综上所述,在谱线检测方面,传统水平投影算法准确度容易受图像噪声、谱线的扭曲形变和阈值的影响;在谱线删除方面,传统方法容易出现谱线过删除现象,破坏原有的音乐符号,增大后续音符识别的难度;在音符分割方面,传统分割方法对不完整的音符不能进行很好地分割,增大后续的识别难度。
发明内容
本发明的目的在于提供一种基于卷积神经网络的光学乐谱识别方法,不受乐谱图像的质量、谱线扭曲形变等影响,可以准确检测出谱线的位置。
实现本发明目的的技术方案为:一种基于卷积神经网络的光学乐谱识别方法,包括以下步骤:
步骤1、利用图论的稳定路径方法进行谱线检测,获得谱线的位置,即一系列像素点坐标;
步骤2、根据谱线的位置,利用线轨迹高度+局部游程直方图算法进行谱线删除;
步骤3、利用层次分解+模板匹配方法对图像进行分割,获得一系列独立的音符;
步骤4、将分割出来的音符输入到一个已经训练好的神经网络,得到音符类型;如果识别音符中含有符头,则根据谱线位置判定其符头的音高;
步骤5、对步骤4中识别的音符类型进行乐谱语义重构,并将结果转化为通用的数字音乐格式。
与现有技术相比,本发明的显著优点为:(1)本发明提出一种基于图论的谱线检测算法进行谱线检测,不受乐谱图像的质量、谱线扭曲形变等影响,可以准确检测出谱线的位置;(2)提出一种基于线轨迹高度+局部游程直方图算法进行谱线删除,可以有效避免过删除现象;(3)提出一种基于层次分级+模板匹配的分割算法,可以有效进行音符分割且保证音符的完整性;(4)本发明利用卷积神经网络对分割之后音符进行识别,结果具有较好的识别精度和识别速率。
附图说明
图1为本发明基于卷积神经网络的光学乐谱识别方法流程图。
图2为本发明所用神经网络结构图。
图3为乐谱扫描图。
图4为谱线检测结果图。
图5为谱线删除结果图。
图6为音符分割结果图。
具体实施方式
如图1、图2所示,一种基于卷积神经网络的光学乐谱识别方法,包括以下步骤:
步骤1、利用图论的稳定路径方法进行谱线检测,获得谱线的位置,即一系列像素点坐标;
步骤2、根据谱线的位置,利用线轨迹高度+局部游程直方图算法进行谱线删除;
步骤3、利用层次分解+模板匹配方法对图像进行分割,获得一系列独立的音符;
步骤4、将分割出来的音符输入到一个已经训练好的神经网络,得到音符类型;如果识别音符中含有符头,则需要根据步骤2中谱线位置判定其符头的音高;
步骤5、对步骤4中识别的音符类型进行乐谱语义重构,并将结果转化为通用的数字音乐格式。
进一步的,步骤1谱线检测利用图论中稳定路径的思想,稳定路径所过的像素点属于谱线,即得到稳定路径就找出属于谱线的像素点,具体方法为:
步骤1-1、将乐谱图转化为图论中的单向有权图;
步骤1-2、根据图论中的最短路径搜索算法,迭代寻找出所有的稳定路径;主要包括寻找稳定路径、验证路径的有效性、把有效路径保存到路径队列中并从乐谱图像中擦除这条路径并更新权重图等步骤。
步骤1-3、对所得路径进行后处理,包括处理交叉路径、对所得路径进行修剪和平滑。
进一步的,有权图的构造规则:像素点为节点,即用像素点的图像坐标进行表示,相邻像素之间存在一条边,且不同像素点之间边的权重不一样;
进一步的,步骤2利用局部游程直方图一些统计量去减少使用线轨迹高度方法而造成的过删除现象,谱线删除具体方法为:
步骤2-1、根据步骤1求得多个稳定路径,分别用数组记录每条稳定路径的所经过像素点在当前列下的黑色垂直游程长度;如果黑色游程长度大于阈值,则当前列的黑色像素不需要删除,否则需要进一步判断。
步骤2-2、针对上一步骤中需要进一步判断的情况,采取局部游程直方图分析方法,主要方法为:构建当前点和相邻位置局部黑色垂直游程直方图,计算其统计值,统计值包括标准差和均值,利用直方图的标准离差率与直方图的极差乘积大小去判定路径中的像素点是否要删除;如果标准离差率小于设定阈值,删除当前列的黑色像素,否则保留当前列黑色像素。
进一步的,谱线检测前对乐谱图像预处理,具体为:
对所得乐谱图像进行滤波和阈值处理:使用3*3的高斯低通滤波器进行平滑滤波;计算乐谱图像的均值average和标准差standardDeviation,阈值选用average+2*standardDeviation进行二值操作,生成二值图像;
对图像进行矫正处理:使用霍夫直线检测+角度插值的方法,利用图像原点与谱线的关系,得出图像的旋转角度,然后利用旋转矩阵变换是谱线保证相对的水平;
使用二值图像游程编码压缩技术,求取谱线宽度和谱线间距。
针对谱线删除存在过删除的问题,本发明提出一种基于线轨迹高度+局部游程直方图算法进行谱线删除,可以有效避免过删除现象;针对音符分割存在无效分割问题,本发明提出一种基于层次分级+模板匹配的分割算法,可以有效进行音符分割且保证音符的完整性;针对传统音符识别的算法存在识别精度不高、识别速度慢等问题,本发明提出利用卷积神经网络对分割之后音符进行识别,保持较高的识别精度和识别速率。
下面结合附图及实施例对本发明做详细说明。
实施例
本实施例所用的乐谱为《Adeste Fideles》钢琴谱,如图3所示。
步骤1、对所得乐谱图像进行滤波和阈值处理。滤波是使用3*3的高斯低通滤波器进行平滑滤波;计算乐谱图像的均值(average)和标准差(standardDeviation),阈值选用average+2*standardDeviation进行二值操作,生成二值图像。
步骤2、对图像进行矫正处理,图像矫正使用霍夫直线检测+角度插值的方法,利用图像原点与谱线的关系,得出图像的旋转角度,然后利用旋转矩阵变换是谱线保证相对的水平。
步骤3、使用二值图像游程编码压缩技术,求取谱线宽度和谱线间距。
步骤4、构建与图像尺寸相同的单向权重图,并拷贝一张矫正之后的二值图像(CopyBinaryImage)。每一个像素点认为是一个节点,每个节点边的指向只能是从左指向右,且被指向的节点必须位于此节点的8邻域中。对于4邻域,边两端节点只要一个为黑色像素时,边的权重为4,否则边的权重为8;对于8邻域,边两端节点只要一个为黑色像素时,边的权重为6,否则边的权重为12。
步骤5、对上述的单向有权图寻找出稳定路径,第一次迭代发现的所有路径的黑度数组中值提供了必要的参考。计算方式如下:保留第一次迭代寻找出来的稳定路径,计算每条路径穿过黑色像素点的个数并用数组记录结果,对数组进行从小到大的排序,取数组的中间值作为黑度参考值。如图4所示。
步骤6、验证每条稳定路径的有效性,验证规则是将每条路径穿过黑色像素点的个数与步骤5中的黑度参考值进行比较。如果此路径的黑度值没有超过黑度参考值,则该路径将被丢弃,否则为有效路径,用数组保存器其路径。
步骤7、在CopyBinaryImage中删除路径所经过的像素点,并更新步骤4中单向权重图对应节点边的权重。
步骤8、重复步骤5、步骤6和步骤7所述过程,直至找不到满足条件的路径跳出循环过程,并用数组记录每条路径经过的节点坐标,一条路径对应的是一条谱线。
步骤9、针对每条路径判断路径中节点所在垂直黑游程是否删除。使用线轨迹高度算法检查通过此节点的垂直黑游程长度是否大于两倍的谱线宽度,如果大于则此节点对应的垂直黑游程不需要删除,否则需要进一步判定,如图5所示。
步骤10、对于需要进一步判断此节点的垂直黑游程是否要删除,我们采用局部游程直方图的方法。利用局部游程直方图的标准离差率和极差的乘积与参考阈值进行比较,阈值大小为0.35,如果大于阈值,此节点的黑游程不需要删除,否则需要在步骤2图像中删除黑游程。
步骤11、钢琴谱中每五条谱线为一组,记录每个谱线组第一条谱线和第五条谱线的水平坐标,上下平移谱线的水平坐标,平移距离为6*staffLineSpaceDistance,即第一条谱线的水平坐标向上平移6*staffLineSpaceDistance的距离,第五条谱线向下平移6*staffLineSpaceDistance的距离,平移之后的水平坐标分别Y1和Y2,把二值图像中水平坐标位于Y1和Y2之间的图像拷贝出来,即含有一组谱线的乐谱图像。
步骤12、重复步骤11的操作,获得多个只含有一组谱线乐谱图像,对只含有一组谱线的乐谱进行垂直投影,分割出独立的音符,用一个边界框框出孤立的音符,如图6所示。
步骤13、对于边界框的宽度大于2*staffLineSpaceDistance,则需要载入填充符头的模板图像,与边界框里的音符进行模板匹配操作;如果检测到多个符头,则把多个符头单独分割出来。
步骤14、将孤立的音符输入到已经训练好的神经网络中,经过神经网络的计算,最终得到每个音符的类别。如果识别音符中含有符头,则需要根据步骤2中谱线位置判定其符头的音高和时值。本实例选取的乐谱图像为《Adeste Fideles》钢琴谱,结果识别的类别全部正确。
步骤15、对步骤10中识别的出音符类型进行乐谱语义重构,并将结果转化为通用的数字音乐格式。
Claims (7)
1.一种基于卷积神经网络的光学乐谱识别方法,其特征在于,包括以下步骤:
步骤1、利用图论的稳定路径方法进行谱线检测,获得谱线的位置,即一系列像素点坐标;
步骤2、根据谱线的位置,利用线轨迹高度+局部游程直方图算法进行谱线删除;
步骤3、利用层次分解+模板匹配方法对图像进行分割,获得一系列独立的音符;
步骤4、将分割出来的音符输入到一个已经训练好的神经网络,得到音符类型;如果识别音符中含有符头,则根据谱线位置判定其符头的音高;
步骤5、对步骤4中识别的音符类型进行乐谱语义重构,并将结果转化为通用的数字音乐格式。
2.根据权利要求1所述的基于卷积神经网络的光学乐谱识别方法,其特征在于,步骤1谱线检测的具体方法为:
步骤1-1、将乐谱图转化为图论中的单向有权图;
步骤1-2、根据图论中的最短路径搜索算法,迭代寻找出所有的稳定路径;
步骤1-3、对所得路径进行后处理,包括处理交叉路径、对所得路径进行修剪和平滑。
3.根据权利要求2所述的基于卷积神经网络的光学乐谱识别方法,其特征在于,有权图的构造规则:像素点为节点,即用像素点的图像坐标进行表示,相邻像素之间存在一条边,且不同像素点之间边的权重不一样。
4.根据权利要求2所述的基于卷积神经网络的光学乐谱识别方法,其特征在于,步骤1-2包括:寻找稳定路径、验证路径的有效性、把有效路径保存到路径队列中并从乐谱图像中擦除这条路径,更新权重图。
5.根据权利要求1所述的基于卷积神经网络的光学乐谱识别方法,其特征在于,步骤2谱线删除的具体方法为:
步骤2-1、根据步骤1求得多个稳定路径,分别用数组记录每条稳定路径的所经过像素点在当前列下的黑色垂直游程长度;如果黑色游程长度大于阈值,则当前列的黑色像素不需要删除,否则需要进一步判断;
步骤2-2、针对上一步骤中需要进一步判断的情况,采取局部游程直方图分析方法,主要方法为:构建当前点和相邻位置局部黑色垂直游程直方图,计算其统计值,利用直方图的标准离差率与直方图的极差乘积大小去判定路径中的像素点是否要删除;如果标准离差率小于设定阈值,删除当前列的黑色像素,否则保留当前列黑色像素。
6.根据权利要求5所述的基于卷积神经网络的光学乐谱识别方法,其特征在于,统计值包括标准差和均值。
7.根据权利要求1所述的基于卷积神经网络的光学乐谱识别方法,其特征在于,谱线检测前对乐谱图像预处理,具体为:
对所得乐谱图像进行滤波和阈值处理:使用3*3的高斯低通滤波器进行平滑滤波;计算乐谱图像的均值average和标准差standardDeviation,阈值选用average+2*standardDeviation进行二值操作,生成二值图像;
对图像进行矫正处理:使用霍夫直线检测+角度插值的方法,利用图像原点与谱线的关系,得出图像的旋转角度,然后利用旋转矩阵变换是谱线保证相对的水平;
使用二值图像游程编码压缩技术,求取谱线宽度和谱线间距。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910787063.9A CN110598581B (zh) | 2019-08-25 | 2019-08-25 | 基于卷积神经网络的光学乐谱识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910787063.9A CN110598581B (zh) | 2019-08-25 | 2019-08-25 | 基于卷积神经网络的光学乐谱识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110598581A CN110598581A (zh) | 2019-12-20 |
CN110598581B true CN110598581B (zh) | 2022-09-27 |
Family
ID=68855416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910787063.9A Active CN110598581B (zh) | 2019-08-25 | 2019-08-25 | 基于卷积神经网络的光学乐谱识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110598581B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111950552A (zh) * | 2020-08-14 | 2020-11-17 | 上海画笙智能科技有限公司 | 一种利用计算机识别南音乐谱的识别方法 |
CN114219952A (zh) * | 2021-12-02 | 2022-03-22 | 厦门大学 | 一种基于图像分割和模版匹配的架子鼓谱识别方法及系统 |
CN114419634B (zh) * | 2022-03-28 | 2022-07-26 | 之江实验室 | 一种基于特征规则的曲谱解析方法与装置 |
CN114724151A (zh) * | 2022-04-22 | 2022-07-08 | 厦门大学 | 一种基于卷积神经网络的古筝简谱识别方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106446952A (zh) * | 2016-09-28 | 2017-02-22 | 北京邮电大学 | 一种乐谱图像识别方法及装置 |
CN109522959A (zh) * | 2018-11-19 | 2019-03-26 | 哈尔滨理工大学 | 一种乐谱识别分类及演奏控制方法 |
-
2019
- 2019-08-25 CN CN201910787063.9A patent/CN110598581B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106446952A (zh) * | 2016-09-28 | 2017-02-22 | 北京邮电大学 | 一种乐谱图像识别方法及装置 |
CN109522959A (zh) * | 2018-11-19 | 2019-03-26 | 哈尔滨理工大学 | 一种乐谱识别分类及演奏控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110598581A (zh) | 2019-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598581B (zh) | 基于卷积神经网络的光学乐谱识别方法 | |
WO2020221298A1 (zh) | 文本检测模型训练方法、文本区域、内容确定方法和装置 | |
EP1598770B1 (en) | Low resolution optical character recognition for camera acquired documents | |
CN110032938B (zh) | 一种藏文识别方法、装置及电子设备 | |
US8345978B2 (en) | Detecting position of word breaks in a textual line image | |
CN105654072A (zh) | 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法 | |
CN112052852A (zh) | 一种基于深度学习的手写气象档案资料的字符识别方法 | |
CN108509950B (zh) | 基于概率特征加权融合的铁路接触网支柱号牌检测识别法 | |
CN109948621B (zh) | 一种基于图片验证码的图像处理与字符分割方法 | |
CN112861865A (zh) | 一种基于ocr技术的辅助审计方法 | |
CN112364834A (zh) | 一种基于深度学习和图像处理的表格识别的还原方法 | |
CN111488911A (zh) | 基于Mask R-CNN与GAN的图像实体抽取方法 | |
CN114359538A (zh) | 一种水表读数定位与识别方法 | |
CN116824608A (zh) | 基于目标检测技术的答题卡版面分析方法 | |
CN112200789B (zh) | 一种图像识别的方法及装置、电子设备和存储介质 | |
CN109002821B (zh) | 一种基于连通域和切线斜率的网银盾数字识别方法 | |
CN116912865A (zh) | 表格图像识别方法、装置、设备及介质 | |
CN116030472A (zh) | 文字坐标确定方法及装置 | |
CN116363655A (zh) | 一种财务票据识别方法及系统 | |
Nath et al. | Improving various offline techniques used for handwritten character recognition: a review | |
CN115457580A (zh) | 数字化档案表格转换方法及系统 | |
CN111488870A (zh) | 文字识别方法和文字识别装置 | |
CN116416624A (zh) | 一种基于版面校正的文档电子化方法、装置以及存储介质 | |
CN112926603A (zh) | 乐谱识别方法、装置、设备及存储介质 | |
JP2004094427A (ja) | 帳票画像処理装置及び該装置を実現するためのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |