CN114419634A - 一种基于特征规则的曲谱解析方法与装置 - Google Patents

一种基于特征规则的曲谱解析方法与装置 Download PDF

Info

Publication number
CN114419634A
CN114419634A CN202210309939.0A CN202210309939A CN114419634A CN 114419634 A CN114419634 A CN 114419634A CN 202210309939 A CN202210309939 A CN 202210309939A CN 114419634 A CN114419634 A CN 114419634A
Authority
CN
China
Prior art keywords
data
note
music score
image
spectral line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210309939.0A
Other languages
English (en)
Other versions
CN114419634B (zh
Inventor
查长海
黄志勇
钟灵
袁海辉
顾建军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210309939.0A priority Critical patent/CN114419634B/zh
Publication of CN114419634A publication Critical patent/CN114419634A/zh
Application granted granted Critical
Publication of CN114419634B publication Critical patent/CN114419634B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明公开了一种基于特征规则的曲谱解析方法与装置。首先使用摄像头对纸质版的曲谱进行图像采集,在采集到的图像中检测曲谱所在的区域,并针对区域内的曲谱图像进行旋转校正。在校正后的曲谱图像中,先根据曲谱的谱线特征分离出谱线和符号,同时获取谱线及符号在图像上的像素坐标。分离出的符号根据符号特征进行分类,分为符号、描述符两种类型的符号,同时根据像素坐标可以获得三者之间的关联。符号可以获取音符的音调和拍号信息,描述符可以获取调号、谱号、连音、升降调等曲谱信息。综合符号和描述符及他们之间的关联关系,就能够智能解析出曲谱所包含的乐曲信息。本发明公开的曲谱解析方法具有音符识别准确率高的特点。

Description

一种基于特征规则的曲谱解析方法与装置
技术领域
本发明属于光学音乐图像识别领域,具体设计一种基于特征规则的曲谱解析方法与装置。
背景技术
光学音乐图像识别是计算机技术在音乐领域的发展和应用,主要利用图像处理、模式识别、文档图像分析等相关技术,把乐谱图像转化成通用的数字音乐格式。光学音乐图像识别实现传统乐谱数字化,在计算机音乐、计算机辅助音乐教学、数字音乐图书馆等众多领域有着广泛的应用前景。
在曲谱解析中,对音符对象的识别、分类、理解是主要的难点。主要方法是先对摄像头获取的图像信息进行预处理,得到完整准确的乐谱信息,再根据分类识别的算法,进行乐谱的解析工作。由于音乐数据不同于一般的图像数据,音符之间有一定的关联性和逻辑性,并且需要遵循一定的乐理基础知识。目前的曲谱解析算法,大部分都是基于图像识别的方法,直接对于特征进行识别,不足之处在于容易出现误识别且出现较大的偏差。少部分曲谱解析算法会基于曲谱前后文的联系进行逻辑判断增加识别准确率,不足之处在于无法准确地将音符的一些特有经验和规则进行运用。
发明内容
针对现有技术存在的问题,本发明提供了一种基于特征规则的曲谱解析方法与装置,该方法通过对音乐符号进行多次分类,再对其特征描述并根据规则进行匹配和筛选,提高音符识别的准确率。
本发明的目的是通过如下技术方案实现的:
本发明实施例的第一方面提供了一种基于特征规则的曲谱解析方法,包括以下步骤:
S1,采集图像,对图像中曲谱区域的进行特征检测,将图像的前景部分作为曲谱区域;
S2,计算曲谱区域的仿射变换关系得到仿射矩阵,根据仿射矩阵进行投影,并通过归一化得到相同分辨率的曲谱校正图像;
S3,计算曲谱校正图像中水平方向的像素点数量来统计谱线特征,根据谱线特征进行分类得到谱线数据和符号数据;
S4,根据聚类算法将符号数据分割为子符号数据,并以包络框的形式存储;通过霍夫变换对每个子符号数据行圆形检测和直线检测;根据是否包含圆形特征和直线特征将符号数据划分为音符数据和描述符数据;
S5,通过区域分割算法将音符数据划分为符头、符干和符尾;根据符头与音符所在谱线的相对位置关系,获得每个音符的音调;解析符头和符尾的特征信息,获得每个音符的节拍;
S6,通过描述符和包络框的特征信息,将描述符数据进行分类,得到描述符类型;
S7,综合描述符类型、音符数据对应的音调和节拍,完成曲谱解析。
优选地,所述步骤S1中,对图像中曲谱区域的进行特征检测,计算图像中所有像素点的颜色梯度值,根据该颜色梯度值得到边缘角点,将该边缘角点范围内的图像作为图像的前景部分,即曲谱区域。
优选地,所述步骤S3具体为:计算曲谱校正图像中水平方向的黑色像素点数量,在该黑色像素点数量超过当前行像素点数量的70%时,则认为当前行为一条谱线,以此统计谱线特征,根据谱线特征划分得到谱线数据和符号数据。
优选地,所述谱线特征包含谱线的起始位置横纵坐标、终止位置横纵坐标以及谱线的线宽;所述谱线的起始位置横纵坐标为图像坐标系下的像素坐标。
优选地,根据聚类算法将符号数据分割为子符号数据,并以包络框的形式存储;通过霍夫变换对每个子符号数据行圆形检测和直线检测,得到圆形检测的结果和直线检测的结果;所述圆形检测的结果包含圆形特征的数量,圆形是否实心,所述直线检测的结果包含直线特征的数量,每条直线的长短和角度;根据每个子符号数据及其包含的图像特征信息,对特征信息进行分类;其中所有仅包含圆形特征和直线特征的子符号数据即为包含音符的数据,将这些子符号数据统计进入音符数据,将不包含音符的数据统计进入描述符数据。
优选地,根据符头与音符所在谱线的相对位置关系,获得每个音符的音调的过程具体为:再利用霍夫圆特征检测算法,检测圆形所在的位置,对符头和符尾进行分辨;记录符头数据中利用霍夫圆检测识别到的圆心位置,结合谱线位数据,计算谱线间距,基于符头圆心计算音符距离最下方谱线的距离通过谱线间距与音符距离最下方谱线的距离的比值得到调号差,由声部和调号差推断出音符的音调。
优选地,所述描述符数据为调号、拍号、谱号、符点、符杠、延音线、小节线。
优选地,包络框和符号的特征信息包括包络框的尺寸、长宽比、符号的形状、位置。
本发明实施例的第二方面提供了一种基于特征规则的曲谱智能解析装置,包括一个或多个处理器,用于实现上述的基于特征规则的曲谱解析方法。
本发明实施例的第三方面提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,用于实现上述的基于特征规则的曲谱解析方法。
与现有技术相比,本发明具有如下有益效果:通过对每个符号数据设计规则,并根据规则和特征进行匹配,让解析出的乐谱数据更加符合乐理规则,从而提高准确性。本发明对图像预处理的归一化方法,对于原始输入图像的尺寸、角度具有较好的适应性。针对每种需要识别的描述符,设计了独特的特征规则,提升了描述符的识别准确度,从而提升曲谱解析的精度。
附图说明
图1为本发明基于特征规则的曲谱解析方法的流程图;
图2为纸质曲谱的原始输入图像;
图3为符号数据的识别效果图;
图4为最终识别结果转化为musicxml形式输出并在音乐软件final中可视化的结果图;
图5为本发明基于特征规则的曲谱解析装置的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
下面结合附图,对本发明提出的基于特征规则的曲谱解析方法和装置进行详细说明。在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
如图1为本发明基于特征规则的曲谱解析方法的流程图,所述曲谱解析方法包括以下步骤:
步骤S1:布置识别场景,采集曲谱图像,进行图像中曲谱区域的特征检测,将曲谱图像分类为前景和背景两类;将曲谱图像的前景部分作为曲谱区域;具体包括以下步骤:
本发明实施例中,布置识别场景的过程具体为:首先在室内环境中,放置一台机器人,所述机器人前方放置一台电子琴,所述电子琴琴架上放有纸质曲谱,所述纸质曲谱为A4纸影印版。所述机器人的头部安装有RGB相机,所述RGB相机距离琴架高度差为30-40cm,距离为25-30cm,在此位置摄像头可以获得高清晰度的图像数据,且符合人在弹琴演奏时,人眼与琴谱的距离。所述RGB相机安装方向为向下倾斜,面对琴架上的曲谱,该设计也是为了模仿人在钢琴弹奏时的视角和姿态,且保证纸质琴谱在相机30度的视场角范围之内,没有遮挡。本发明实施例中,采集到的纸质曲谱的原始输入图像如图2所示。
使用机器人的RGB相机对纸质曲谱进行图像采集,获得原始图像I0;在采集到的原始图像I0上进行曲谱区域的特征检测,将图像分类为前景和背景两类,所述前景部分即原始曲谱图像所在的区域;具体为:
现实的曲谱纸张为标准矩形区域ABCD,所述曲谱纸张在原始图像I0中与背景差异主要为颜色特征,所述纸张的前景颜色特征为白色,RGB颜色亮度较高,所述曲谱纸张的背景颜色特征为黑色琴架,RGB颜色亮度较低。计算图像中所有像素点的颜色梯度值,根据该颜色梯度值得到边缘角点A1B1C1D1。在A1B1C1D1范围内的所有图像数据为前景图像I1,其余图像数据为背景图像I2
步骤S2:计算曲谱区域的仿射变换关系得到仿射矩阵,根据仿射矩阵进行投影,并通过归一化得到相同分辨率的曲谱校正图像;具体为:
由原始的标准矩形区域ABCD是A4纸的影印版可以得知原始的图像长宽比,根据成像的仿射变换原理进行计算,得到变换后的矩阵图像A2B2C2D2,公式如下:
Figure 168041DEST_PATH_IMAGE001
Figure 819603DEST_PATH_IMAGE002
为RGB相机在水平方向上的焦距,
Figure 68181DEST_PATH_IMAGE003
为RGB相机在竖直方向上的焦距,
Figure 932232DEST_PATH_IMAGE004
为RGB相 机在水平方向上成像中心与图像中心的偏差值,
Figure 215446DEST_PATH_IMAGE005
为RGB相机在竖直方向上成像中心与图 像中心的偏差值,
Figure 506750DEST_PATH_IMAGE006
为计算得到的校正旋转角度。将得到矩阵图像A2B2C2D2进行像素尺度上 的归一化,将分辨率进行尺度上的缩放,得到曲谱校正后的矩阵图像A3B3C3D3,即:
Figure 508204DEST_PATH_IMAGE007
Figure 175946DEST_PATH_IMAGE008
为尺度缩放比例,矩阵图像A3B3C3D3的分辨率统一为2560*1660,该分辨率下 可以清晰地识别并区分曲谱中的音符符号。
步骤S3:计算曲谱校正图像中水平方向的像素点数量来统计谱线特征,根据谱线特征每五根距离相近的谱线就是一节曲谱,在每一节曲谱中根据谱线特征进行分类,得到谱线数据和符号数据;具体为:
在曲谱校正后的图像A3B3C3D3中,计算水平方向的像素点,即纵坐标为row时,其水平方向满足要求的当前行统计的黑色像素点数量Hrow,公式如下:
Figure 313666DEST_PATH_IMAGE009
其中,row为图像坐标系的横坐标,cols为图像坐标系的纵坐标。
Figure 539986DEST_PATH_IMAGE010
为当前像素点 的亮度数据,在校正后琴谱的图像A3B3C3D3中,当亮度不超过最大阈值
Figure 763157DEST_PATH_IMAGE011
且大于最小阈值
Figure 969010DEST_PATH_IMAGE012
时,计入黑色像素点数量Hrow的统计中。五线谱的特征 为谱线为五条水平平行的细直线,因此当黑色像素点数量Hrow超过一定数值的阈值
Figure 226816DEST_PATH_IMAGE013
时,
Figure 125502DEST_PATH_IMAGE014
为当前行像素点数量,认为row纵坐标的线上存在一条 谱线,计入谱线的列表
Figure 835969DEST_PATH_IMAGE015
中。当两条谱线的纵坐标差值为1时, 认为是同一条谱线,不做重复记录,并将谱线的线宽累加。遍历所有像素点后,得到所有谱 线的列表L。列表L中相邻五条谱线为同一小节的五线谱,且间距相同。因此将列表L进行分 割,得到每个小节的列表
Figure 579934DEST_PATH_IMAGE016
,其中每个
Figure 692247DEST_PATH_IMAGE017
中都包含有5条谱线,分别为
Figure 496255DEST_PATH_IMAGE018
,每条谱线
Figure 458132DEST_PATH_IMAGE019
中记录了谱线的位置坐标,包括 谱线的起始位置横纵坐标、终止位置横纵坐标和谱线的线宽。所述横纵坐标为图像坐标系 下的像素坐标。从矩阵图像A3B3C3D3图像坐标点中,将所有谱线所在的坐标点全部删除,剩 下来得到的图像
Figure 5788DEST_PATH_IMAGE020
就是包含曲谱所有符号数据图像。所述符号数据包含所有五线 谱上的音乐符号。本发明实施例中,识别到符号数据的效果图如图3所示。
步骤S4:根据聚类算法将符号数据分割为子符号数据,并以包络框的形式存储;通过霍夫变换对每个子符号数据行圆形检测和直线检测;根据是否包含圆形特征和直线特征将符号数据划分为音符数据和描述符数据;具体为:
在符号数据
Figure 972607DEST_PATH_IMAGE020
中,使用聚类算法对符号数据进行分割,得到离散的子符号 数据
Figure 478675DEST_PATH_IMAGE021
。每个符号数据集合
Figure 898155DEST_PATH_IMAGE022
包含单个的子符号数据,以包络框的 形式存储。提取每个子符号数据
Figure 249502DEST_PATH_IMAGE022
的图像特征,通过霍夫变换(Hough变换)的检测方法 对每个子符号数据
Figure 70827DEST_PATH_IMAGE022
进行圆形检测和直线检测,得到圆形检测的结果
Figure 482217DEST_PATH_IMAGE023
和直线 检测的结果
Figure 654572DEST_PATH_IMAGE023
。所述圆形检测的结果包含圆形特征的数量,圆形是否实心的参数,所 述直线检测结果包含直线特征的数量,每条直线的长短和角度。根据每个子符号数据
Figure 48425DEST_PATH_IMAGE024
及其包含的图像特征信息,对特征信息进行分类。其中所有仅包含圆形特征和直线特征的 子符号数据即为包含音符的数据,将这些子符号数据统计进入音符数据
Figure 989837DEST_PATH_IMAGE025
,将不包含 音符的数据统计进入描述符数据
Figure 837707DEST_PATH_IMAGE026
步骤S5:通过区域分割算法将音符数据划分为符头、符干和符尾;根据符头与音符所在谱线的相对位置关系,获得每个音符的音调;解析符头和符尾的特征信息,获得每个音符的节拍;具体为:
解析音符数据
Figure 231779DEST_PATH_IMAGE025
,遍历
Figure 190508DEST_PATH_IMAGE025
中的每一个符号数据rect,首先使用竖直生 长的区域分割算法,以符干为的竖直线为生长方向,分割得到符头、符干和符尾。再利用 Hough圆特征检测算法,检测圆形所在的位置,对符头和符尾进行分辨。记录符头数据中利 用Hough检测识别到的圆心位置,结合步骤S3中的谱线位置坐标。即存在圆心的纵坐标为
Figure 720846DEST_PATH_IMAGE027
,该小节乐谱所在的五线谱的五条谱线分别为
Figure 474039DEST_PATH_IMAGE028
, 谱线间距为
Figure 355407DEST_PATH_IMAGE029
,音符距离最下方谱线的距离为
Figure 852247DEST_PATH_IMAGE030
, 音符距离谱线最底部的调号差为
Figure 768251DEST_PATH_IMAGE031
,由声部和调号差推断出音符的音调。例如高声部 时,调号差为0时,代表的音调为E4调。
根据符头和符尾的特征信息,可以获得每个音符的节拍,具体为:节拍数首先通过符头包含的圆心是否为空心,为空心且没有符干、符尾则为全音符,有符干、符尾则为二分之一音符。若为符头实心且只有符干没有符尾则为四分之一音符。若为实心且有符干有一条符尾则为八分之一音符,若为实心且有符干有两条符尾则为十六分之一音符。
步骤S6:在描述符数据中,通过符号和包络框的特征数据,将描述符进行分类,得到具体的描述符类型。具体为:
解析描述符数据
Figure 925300DEST_PATH_IMAGE032
,遍历符数据
Figure 293965DEST_PATH_IMAGE032
中的每一个符号数据rect,将其中 的描述符数据根据特征数据进行分类,得到描述符类型特征,所述描述符包括但不限于为 调号、拍号、谱号、符点、符杠、延音线、小节线。所述描述符类型特征包括但不限于包络框的 尺寸、长宽比、符号的形状、位置。
本发明实施例中对于每种描述符数据,都设计了独特的特征匹配规则,具体如下:
所述调号的特征为固定的形状特征,包络框的位置位于曲谱开头;调号在每个小 节的开始,通常表示高低音。调号之后通常是拍号,所述拍号的特征为纵向并行的两个阿拉 伯数字构成。所述谱号的特征为固定的形状特征,其包络框的位置位于拍号之后。所述符点 的特征为其包络框的位置位于音符两侧,且符点的包络框尺寸极小且在符头特征左右。所 述符杠的特征为其包络框的位置位于相邻的若干音符之间,且首尾位置具有音符数据。且 符杠的包络框的长宽比较高,且包含至少一条直线特征。所述小节线的特征为其包络框的 位置位于一段音符之后,且在谱线范围之内。且小节线长宽比较低,竖直方向的长度与
Figure 594496DEST_PATH_IMAGE033
几乎一致。所述延音线的特征为固定的形状特征。延音线长度较长,与符杠 的包络框特征较为相似,但不包含直线特征,却包含曲线特征。根据以上特征信息进行规则 的划分,可以得到具体的描述符信息。
步骤S7:综合步骤S7得到的描述符信息和步骤S5得到的音符信息,即可得到完整的音符解析结果。
所述音符解析结果可以转化为多种格式的输出。所述音符解析结果包含音符的类型、拍号、调号、声部。具体操作为:将音符的解析结果按照musiclxml或midi的既定格式填入字段,输出文本格式数据,保存后修改后缀名。以musicxml输出格式为例,beats和beat-type字段表示整段曲谱的拍号,clef字段表示乐谱的声部,note字段表示音符,step字段表示音符的音调所在大区,octave字段表示音符的音调调高,type字段表示音符的拍号。将每个音符结果按序填入对应的字段,从属字段由缩进表示,以txt格式输出保存后,修改后缀名为mxl,即可得到musicxml格式的输出结果。可由音乐软件final直接进行导入、查看和修改。最终识别结果转化为musicxml形式输出并在音乐软件final中可视化的结果如图4所示。
与前述基于特征规则的曲谱解析方法的实施例相对应,本发明还提供了基于特征规则的曲谱解析装置的实施例。
参见图5,本发明实施例提供的一种基于特征规则的曲谱解析装置,包括一个或多个处理器,用于实现上述实施例中的基于特征规则的曲谱解析方法。
本发明基于特征规则的曲谱解析装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本发明基于特征规则的曲谱解析装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于特征规则的曲谱解析方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
本发明实施例还提供了曲谱解析精度的验证实验结果。曲谱解析的精度计算采用统计解析正确的音符数量占全部音符数量的占比,所述解析正确的音符包括音符的含义解析正确和音符的顺序解析正确,即错解析,漏解析,多解析都算作解析错误。实验过程如本发明的实施例所述,用于实验的曲谱测试数据为《欢乐颂》、《我和我的祖国》、《在阿维翁大桥上》,三首曲谱的解析难度由高到低排序为《我和我的祖国》、《在阿维翁大桥上》、《欢乐颂》。所述《欢乐颂》曲谱包含音符数据215个,描述符数据18个,共233个符号,所述《我和我的祖国》曲谱包含音符数据333个,描述符数据266个,共599个符号,所述《在阿维翁大桥上》曲谱包含音符数据235个,描述符数据22个,共257个符号。本发明根据实施例分别对所述三个曲谱数据进行测试,其中《欢乐颂》曲谱的音符数据解析错误数量为2个,描述符数据解析错误数量为0个,总体正确率为99.14%,《我和我的祖国》曲谱的音符数据解析错误数量为17个,描述符数据解析错误数量为12个,总体正确率为95.15%,《在阿维翁大桥上》曲谱的音符数据解析错误数量为5个,描述符数据错误数量为0个,总体正确率为98.05%。在单次实验的实验结果验证中,三首测试曲谱的正确率都在95%以上。为了进一步验证实验结果的准确性以及算法的稳定性,在相同的实验条件下进行了十次相同的实验,《欢乐颂》曲谱的十次实验结果总体正确率分别为99.14%,98.71%,99.14%,99.57%,98.71%,98.71%,98.28%,99.14%,99.14%,99.57%,《我和我的祖国》曲谱的十次实验结果总体正确率分别为95.15%,94.15%,94.66%,94.99%,95.66%,96.16%,95.33%,94.15%,95.15%,95.33%,《在阿维翁大桥上》曲谱的十次实验结果总体正确率分别为98.05%,98.44%,99.22%,97.27%,97.67%,98.83%,97.27%,97.27%,97.67%,98.44%。以往的曲谱解析算法的正确率大多在90%左右,本发明的方法在整体正确率上是要超过以往的曲谱解析算法的。
综上所述,本发明方法通过对每个符号数据设计规则,并根据规则和特征进行匹配,让解析出的乐谱数据更加符合乐理规则,从而提高准确性。本发明方法对图像预处理进行归一化处理,对于原始输入图像的尺寸、角度具有较好的适应性。本发明方法针对每种需要识别的描述符,设计了独特的特征规则,提升了描述符的识别准确度,从而提升曲谱解析的精度。
以上所述仅为本发明的一个实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于特征规则的曲谱解析方法,其特征在于,包括以下步骤:
S1,采集图像,对图像中曲谱区域的进行特征检测,将图像的前景部分作为曲谱区域;
S2,计算曲谱区域的仿射变换关系得到仿射矩阵,根据仿射矩阵进行投影,并通过归一化得到相同分辨率的曲谱校正图像;
S3,计算曲谱校正图像中水平方向的像素点数量来统计谱线特征,根据谱线特征进行分类得到谱线数据和符号数据;
S4,根据聚类算法将符号数据分割为子符号数据,并以包络框的形式存储;通过霍夫变换对每个子符号数据行圆形检测和直线检测;根据是否包含圆形特征和直线特征将符号数据划分为音符数据和描述符数据;
S5,通过区域分割算法将音符数据划分为符头、符干和符尾;根据符头与音符所在谱线的相对位置关系,获得每个音符的音调;解析符头和符尾的特征信息,获得每个音符的节拍;
S6,通过描述符和包络框的特征信息,将描述符数据进行分类,得到描述符类型;
S7,综合描述符类型、音符数据对应的音调和节拍,完成曲谱解析。
2.根据权利要求1所述的基于特征规则的曲谱解析方法,其特征在于,所述步骤S1中,对图像中曲谱区域的进行特征检测,计算图像中所有像素点的颜色梯度值,根据该颜色梯度值得到边缘角点,将该边缘角点范围内的图像作为图像的前景部分,即曲谱区域。
3.根据权利要求1所述的基于特征规则的曲谱解析方法,其特征在于,所述步骤S3具体为:计算曲谱校正图像中水平方向的黑色像素点数量,在该黑色像素点数量超过当前行像素点数量的70%时,则认为当前行为一条谱线,以此统计谱线特征,根据谱线特征划分得到谱线数据和符号数据。
4.根据权利要求3所述的基于特征规则的曲谱解析方法,其特征在于,所述谱线特征包含谱线的起始位置横纵坐标、终止位置横纵坐标以及谱线的线宽;所述谱线的起始位置横纵坐标为图像坐标系下的像素坐标。
5.根据权利要求1所述的基于特征规则的曲谱解析方法,其特征在于,根据聚类算法将符号数据分割为子符号数据,并以包络框的形式存储;通过霍夫变换对每个子符号数据行圆形检测和直线检测,得到圆形检测的结果和直线检测的结果;所述圆形检测的结果包含圆形特征的数量,圆形是否实心,所述直线检测的结果包含直线特征的数量,每条直线的长短和角度;根据每个子符号数据及其包含的图像特征信息,对特征信息进行分类;其中所有仅包含圆形特征和直线特征的子符号数据即为包含音符的数据,将这些子符号数据统计进入音符数据,将不包含音符的数据统计进入描述符数据。
6.根据权利要求1所述的基于特征规则的曲谱解析方法,其特征在于,根据符头与音符所在谱线的相对位置关系,获得每个音符的音调的过程具体为:再利用霍夫圆特征检测算法,检测圆形所在的位置,对符头和符尾进行分辨;记录符头数据中利用霍夫圆检测识别到的圆心位置,结合谱线位数据,计算谱线间距,基于符头圆心计算音符距离最下方谱线的距离通过谱线间距与音符距离最下方谱线的距离的比值得到调号差,由声部和调号差推断出音符的音调。
7.根据权利要求1所述的基于特征规则的曲谱解析方法,其特征在于,所述描述符数据为调号、拍号、谱号、符点、符杠、延音线、小节线。
8.根据权利要求1所述的基于特征规则的曲谱解析方法,其特征在于,包络框和符号的特征信息包括包络框的尺寸、长宽比、符号的形状、位置。
9.一种基于特征规则的曲谱智能解析装置,其特征在于,包括一个或多个处理器,用于实现权利要求1-8中任一项所述的基于特征规则的曲谱解析方法。
10.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时,用于实现权利要求1-8中任一项所述的基于特征规则的曲谱解析方法。
CN202210309939.0A 2022-03-28 2022-03-28 一种基于特征规则的曲谱解析方法与装置 Active CN114419634B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210309939.0A CN114419634B (zh) 2022-03-28 2022-03-28 一种基于特征规则的曲谱解析方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210309939.0A CN114419634B (zh) 2022-03-28 2022-03-28 一种基于特征规则的曲谱解析方法与装置

Publications (2)

Publication Number Publication Date
CN114419634A true CN114419634A (zh) 2022-04-29
CN114419634B CN114419634B (zh) 2022-07-26

Family

ID=81263720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210309939.0A Active CN114419634B (zh) 2022-03-28 2022-03-28 一种基于特征规则的曲谱解析方法与装置

Country Status (1)

Country Link
CN (1) CN114419634B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116434725A (zh) * 2023-06-14 2023-07-14 之江实验室 一种嵌入式视听触同步呈现的音乐盲符转换系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663423A (zh) * 2012-03-28 2012-09-12 北京航空航天大学 一种简谱图像的自动识别和演奏的方法
CN103106403A (zh) * 2013-01-08 2013-05-15 沈阳理工大学 一种基于图像处理及乐符知识的音符基元分割方法
JP2015056149A (ja) * 2013-09-13 2015-03-23 株式会社河合楽器製作所 楽譜認識装置及びプログラム
CN104778467A (zh) * 2015-02-12 2015-07-15 北京邮电大学 一种曲谱拍照自动播放系统
CN106203465A (zh) * 2016-06-24 2016-12-07 百度在线网络技术(北京)有限公司 一种基于图像识别生成曲谱的方法及装置
CN106446952A (zh) * 2016-09-28 2017-02-22 北京邮电大学 一种乐谱图像识别方法及装置
CN108416359A (zh) * 2018-03-09 2018-08-17 湖南女子学院 一种乐谱识别系统及识别方法
CN110443127A (zh) * 2019-06-28 2019-11-12 天津大学 结合残差卷积结构和循环神经网络的乐谱图像识别方法
CN110598581A (zh) * 2019-08-25 2019-12-20 南京理工大学 基于卷积神经网络的光学乐谱识别方法
CN111680187A (zh) * 2020-05-26 2020-09-18 平安科技(深圳)有限公司 乐谱跟随路径的确定方法、装置、电子设备及存储介质
CN113076967A (zh) * 2020-12-08 2021-07-06 无锡乐骐科技有限公司 一种基于图像和音频的乐谱双重识别系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663423A (zh) * 2012-03-28 2012-09-12 北京航空航天大学 一种简谱图像的自动识别和演奏的方法
CN103106403A (zh) * 2013-01-08 2013-05-15 沈阳理工大学 一种基于图像处理及乐符知识的音符基元分割方法
JP2015056149A (ja) * 2013-09-13 2015-03-23 株式会社河合楽器製作所 楽譜認識装置及びプログラム
CN104778467A (zh) * 2015-02-12 2015-07-15 北京邮电大学 一种曲谱拍照自动播放系统
CN106203465A (zh) * 2016-06-24 2016-12-07 百度在线网络技术(北京)有限公司 一种基于图像识别生成曲谱的方法及装置
CN106446952A (zh) * 2016-09-28 2017-02-22 北京邮电大学 一种乐谱图像识别方法及装置
CN108416359A (zh) * 2018-03-09 2018-08-17 湖南女子学院 一种乐谱识别系统及识别方法
CN110443127A (zh) * 2019-06-28 2019-11-12 天津大学 结合残差卷积结构和循环神经网络的乐谱图像识别方法
CN110598581A (zh) * 2019-08-25 2019-12-20 南京理工大学 基于卷积神经网络的光学乐谱识别方法
CN111680187A (zh) * 2020-05-26 2020-09-18 平安科技(深圳)有限公司 乐谱跟随路径的确定方法、装置、电子设备及存储介质
CN113076967A (zh) * 2020-12-08 2021-07-06 无锡乐骐科技有限公司 一种基于图像和音频的乐谱双重识别系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
邓翔宇等: "《纸质简谱图像的分割、倾斜校正及音符歌词提取》", 《电子学报》 *
黄志清等: "《基于深度学习的端到端乐谱音符识别》", 《天津大学学报(自然科学与工程技术版)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116434725A (zh) * 2023-06-14 2023-07-14 之江实验室 一种嵌入式视听触同步呈现的音乐盲符转换系统
CN116434725B (zh) * 2023-06-14 2023-09-08 之江实验室 一种嵌入式视听触同步呈现的音乐盲符转换系统

Also Published As

Publication number Publication date
CN114419634B (zh) 2022-07-26

Similar Documents

Publication Publication Date Title
US8750616B2 (en) Character image extracting apparatus and character image extracting method
CN109117885B (zh) 一种基于深度学习的邮票识别方法
JPH05143707A (ja) 符号化画像データの処理方法および装置
BRPI0613103A2 (pt) anÁlise gramatical de estruturas visuais de documento
WO2023000160A1 (zh) 高光谱遥感影像半监督分类方法、装置、设备及存储介质
US9478201B1 (en) System and method for optical music recognition
CN114419634B (zh) 一种基于特征规则的曲谱解析方法与装置
CN109635808B (zh) 一种在自然场景图像中对中文关键词及上下文的提取方法
CN107506769A (zh) 一种城市水体信息的提取方法及系统
RU2673015C1 (ru) Способы и системы оптического распознавания символов серии изображений
Li et al. What is happening in a still picture?
Bainbridge Extensible optical music recognition
CN110705535A (zh) 一种试卷版面文字行自动检测的方法
CN113762100B (zh) 医疗票据中名称提取及标准化方法、装置、计算设备及存储介质
Novotný et al. Introduction to Optical Music Recognition: Overview and Practical Challenges.
CN111274891B (zh) 一种面向简谱图像的音高及对应歌词提取方法及系统
CN114357206A (zh) 基于语义分析的教育类视频彩色字幕生成方法及系统
CN111144466B (zh) 一种图像样本自适应的深度度量学习方法
CN111104869B (zh) 一种可识别小字符内容的工尺谱数字化方法
JP4738135B2 (ja) 楽譜認識装置および楽譜認識プログラム
Deb et al. An image analysis approach for transcription of music played on keyboard-like instruments
CN111612045B (zh) 一种获取目标检测数据集的通用方法
Rebelo et al. Global constraints for syntactic consistency in OMR: an ongoing approach
Ringwalt et al. Optical music recognition for interactive score display.
Tambouratzis Identification of key music symbols for optical music recognition and on-screen presentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant