CN106446952A - 一种乐谱图像识别方法及装置 - Google Patents

一种乐谱图像识别方法及装置 Download PDF

Info

Publication number
CN106446952A
CN106446952A CN201610859746.7A CN201610859746A CN106446952A CN 106446952 A CN106446952 A CN 106446952A CN 201610859746 A CN201610859746 A CN 201610859746A CN 106446952 A CN106446952 A CN 106446952A
Authority
CN
China
Prior art keywords
note
image
head
symbol head
complete
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610859746.7A
Other languages
English (en)
Other versions
CN106446952B (zh
Inventor
宋晴
杨录
王智慧
杨李怡
贾文赫
刘小欧
辛学仕
陈海鹏
杨敏
姜佳男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201610859746.7A priority Critical patent/CN106446952B/zh
Publication of CN106446952A publication Critical patent/CN106446952A/zh
Application granted granted Critical
Publication of CN106446952B publication Critical patent/CN106446952B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/48Extraction of image or video features by mapping characteristic values of the pattern into a parameter space, e.g. Hough transformation

Abstract

本发明公开的乐谱图像识别方法及装置,包括,获得待处理的五线谱图像;对待处理的五线谱图像采用边缘检测方法描绘出图像的边缘信息,再通过直线检测方法检测出五线位置坐标;采用预设的音符分类器,对待处理的五线谱图像进行音符定位分割,得到每个完整音符在图像中的位置;采用预设的卷积神经网络对分割获得的音符符头进行识别,判断是实心符头还是空心符头,并得到符头的位置;根据所述得到的五线位置坐标、每个完整音符的相对位置、是实心符头还是空心符头及符头的位置,识别出每个完整音符。本发明乐谱图像识别方法及装置,相较于传统计算机视觉方法,识别精度高且识别速度快。

Description

一种乐谱图像识别方法及装置
技术领域
本发明涉及图像识别技术领域,特别涉及一种乐谱图像识别方法及装置。
背景技术
图像识别,是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。
现有技术中的乐谱图像识别方法,大多基于传统计算机视觉方法,在识别精度和识别速度上不是十分理想,无法做到快速精准识别,甚至需要对待识别的乐谱做出高度规范化要求,不利于日常场景的使用。
发明内容
本发明实施例的目的在于提供一种乐谱图像识别方法及装置,可以解决现有技术中存在的乐谱识别精度和识别速度不理想的问题。
为达到上述目的,本发明实施例公开了,一种乐谱图像识别方法,包括:
获得待处理的五线谱图像;
对待处理的五线谱图像采用边缘检测方法描绘出图像的边缘信息,再通过直线检测方法检测出五线位置坐标;
采用预设的音符分类器,对待处理的五线谱图像进行音符定位分割,得到每个完整音符在图像中的位置;
采用预设的卷积神经网络对分割获得的音符符头进行识别,判断是实心符头还是空心符头,并得到符头的位置;
根据所述得到的五线位置坐标、每个完整音符的相对位置、是实心符头还是空心符头及符头的位置,识别出每个完整音符。
优选的,所述的音符分类器的训练过程,包括:
建立正样本数据集和负样本数据集,数据集中包括定位框的位置数据及定位框内的五线谱图像的图像数据,正样本数据集为包括完整音符的图像数据,负样本数据集为包括除过完整音符之外的其余乐谱可能出现的图像数据;
提取正样本数据集和负样本数据集中每个样本的通道特征,训练音符分类器。
优选的,所述的每个样本的通道特征,包括,灰度和颜色、线性滤波、非线性变换、逐点变换、梯度直方图。
优选的,对待处理的五线谱图像进行音符定位分割,包括,
在待处理的五线谱图像上随机选取若干个候选定位框,逐个扫描定位框,对每个定位框内的图像提取所述的通道特征,将提取的通道特征输入到音符分类器中,判断定位框内的图像为正样本或者为负样本,正样本判定为乐谱中的完整音符,负样本判定为乐谱背景舍弃,从而得到待处理的五线谱图像中的完整音符,对照音符分类器中定位框的位置数据得到每个完整音符在图像中的位置。
优选的,所述的卷积神经网络的训练过程,包括,
建立音符符头数据集,包括实心符头、空心符头和背景三种分类数据;
构建卷积神经网络,包括2个卷积层,2个下采样层和1个全连接层;
将音符符头数据集中的符头图像数据输入到卷积神经网络中,完成训练。
优选的,所述的采用卷积神经网络对分割获得的音符符头进行识别,包括,
将音符定位分割得到的完整音符,输入到卷积神经网络中,通过和音符符头数据集里的数据对比,得出是实心符头、空心符头或者背景,舍弃背景,同时对照音符符头数据集里的符头的位置数据,确定完整音符中符头的位置。
优选的,所述的待处理的五线谱图像,具体为:对五线谱图像进行去噪、对比度增强、灰度化、减少噪声或光照不均匀的处理,得到的二值图像。
优选的,所述的边缘检测方法为单边边缘检测方法,包括:
a)选用Sobel算子,分别求出水平方向上和垂直方向上的梯度值:
水平梯度:sx=(a2+2a3+a4)-(a0+2a7+a6)
垂直梯度:sy=(a0+2a1+a2)-(a6+2a5+a4)
幅值:
Sobel模板:
其中,a0-a7代表8个邻域像素点;
b)采用非极大值抑制对水平方向上和垂直方向上的梯度值进行抑制,即仅保留每个方向梯度直线上的最大值的点,其余点的值均设为0;
c)采用自适应阈值方法,得到每个区域中待设置阈值的大小,使用该阈值作为是否连接边缘的条件限制,描绘出图像的边缘信息。
优选的,所述的直线检测方法采用hough直线检测方法。
本发明实施例还公开了,一种乐谱图像识别装置,包括,
图像获取单元,获得待处理的五线谱图像;
五线位置坐标检测单元,对待处理的五线谱图像采用边缘检测方法描绘出图像的边缘信息,再通过直线检测方法检测出五线位置坐标;
音符定位分割单元,采用预设的音符分类器,对待处理的五线谱图像进行音符定位分割,得到每个完整音符在图像中的位置;
音符符头识别单元,采用预设的卷积神经网络对分割获得的音符符头进行识别,判断是实心符头还是空心符头,并得到符头的位置;
乐谱图像识别单元,根据所述得到的五线位置坐标、每个完整音符的相对位置、是实心符头还是空心符头及符头的位置,识别出每个完整音符。
由上述的技术方案可见,本发明实施例,对待处理的五线谱图像采用边缘检测方法描绘出图像的边缘信息,再通过直线检测方法检测出五线位置坐标;采用预设的音符分类器,对待处理的五线谱图像进行音符定位分割,得到每个完整音符在图像中的位置;采用预设的卷积神经网络对分割获得的音符符头进行识别,判断是实心符头还是空心符头,并得到符头的位置;根据所述得到的五线位置坐标、每个完整音符的相对位置、是实心符头还是空心符头及符头的位置,识别出每个完整音符。相较于传统计算机视觉方法,本发明采用音符分类器与卷积神经网络级联进行音符识别,具有识别速度快,识别精度高的优点。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明乐谱识别方法第一种实施例的流程图;
图2是本发明乐谱识别方法第二种实施例的流程图;
图3是本发明乐谱识别方法第二种实施例中单边边缘检测方法原理图;
图4是本发明乐谱识别方法第二种实施例中五线位置坐标检测的效果图;
图5是本发明乐谱识别方法第二种实施例中音符分类器的训练过程示意图;
图6是本发明乐谱识别方法第二种实施例中正样本数据集和负样本数据集的样本示意图;
图7是本发明乐谱识别方法第二种实施例中音符定位分割的流程图;
图8是本发明乐谱识别方法第二种实施例中音符定位分割的效果图;
图9是本发明乐谱识别方法第二种实施例中卷积神经网络的训练过程示意图;
图10是本发明乐谱识别方法第二种实施例中卷积神经网络结构图;
图11是本发明乐谱识别方法第二种实施例中音符符头识别的流程图;
图12是本发明乐谱识别装置的一种实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明乐谱识别方法第一种实施例,如图1所示,包括以下步骤:
步骤101:获得待处理的五线谱图像;
步骤102:对待处理的五线谱图像采用边缘检测方法描绘出图像的边缘信息,再通过直线检测方法检测出五线位置坐标;
步骤103:采用预设的音符分类器,对待处理的五线谱图像进行音符定位分割,得到每个完整音符在图像中的位置;
步骤104:采用预设的卷积神经网络对分割获得的音符符头进行识别,判断是实心符头还是空心符头,并得到符头的位置;
步骤105:根据所述得到的五线位置坐标、每个完整音符的相对位置、是实心符头还是空心符头及符头的位置,识别出每个完整音符。
本发明乐谱识别方法第二种实施例,如图2所示,包括以下步骤:
步骤201:获取五线谱图像;
步骤202:对得到的五线谱图像进行去噪、对比度增强、灰度化、减少噪声或光照不均匀的处理,得到二值图像;
步骤203:对得到的二值图像采用单边边缘检测方法描绘出图像的边缘信息,再通过hough直线检测方法检测出五线位置坐标;
优选的,步骤203中的单边边缘检测方法,包括:
a)选用Sobel算子,分别求出水平方向上和垂直方向上的梯度值:
水平梯度:sx=(a2+2a3+a4)-(a0+2a7+a6)
垂直梯度:sy=(a0+2a1+a2)-(a6+2a5+a4)
幅值:
Sobel模板:
其中,a0-a7代表8个邻域像素点;
b)采用非极大值抑制对水平方向上和垂直方向上的梯度值进行抑制,即仅保留每个方向梯度直线上的最大值的点,其余点的值均设为0;
c)采用自适应阈值方法得到每个区域中待设置阈值的大小,使用该阈值作为是否连接边缘的条件限制,描绘出图像的边缘信息。
为了更好的说明单边边缘检测方法的有益效果,以下将传统的canny边缘检测方法和本发明采用的单边边缘检测方法做一对比说明:
1)传统的canny边缘检测方法步骤包括:
a)通过求取图像中每个像素的一阶偏导并计算梯度方向和幅值,从而得出各点在不同方向上的幅值,过程中会涉及到不同的算子模板,例如Robert算子、Prewitt算子等;
b)对梯度幅值进行非极值抑制,图像梯度幅值矩阵中的元素值越大,说明图像中该点的梯度值越大,但不足以确定该点就是边缘点,故需要寻找像素点在一条直线上的极值,将非极值点所对应的灰度值置为0,这样可以剔除掉一大部分非边缘的点;
c)用双阈值算法检测和连接边缘,选择两个阈值,根据高阈值得到一个边缘图像。在高阈值图像中把边缘链接成轮廓,当到达轮廓的端点时,算法会在断点的8值邻域点中寻找满足低阈值的点,再根据此点收集新的边缘,直到整个图像边缘闭合,形成整个边缘图像。
2)本发明采用的单边边缘检测方法步骤包括:
a)改变原有的canny算法常用的模板算子,进而选用Sobel算子(a0-a7代表8个邻域像素点),分别求出水平方向上和垂直方向上的梯度值;
水平梯度:sx=(a2+2a3+a4)-(a0+2a7+a6)
垂直梯度:sy=(a0+2a1+a2)-(a6+2a5+a4)
幅值:
Sobel模板:
b)同样对每个方向上的梯度值进行抑制,但由于需要的是直线单边的边缘,所以需要改变抑制方法,将原方法中的非极值抑制改为非极大值抑制,即仅保留每个方向梯度直线上的最大值的点,其余点的值均设为0,如图3所示,以(3*3)的区域作为比较块,分别将中心像素与(1、5)(2、6)(3、7)(4、8)相比较,将非极大值点设为0;
c)采用自适应阈值方法得到每个区域中待设置阈值的大小,使用该阈值作为是否连接边缘的条件限制,该方法借鉴了自适应二值化中的方式,这样同时减少了光照等因素对不同区域的影响。
应该说明的是,所述的自适应阈值方法,为现有技术中的常用方法。
经上述对比,传统canny方法检测时发现每条五线均出现双边边缘,影响定位效果,本发明采用非极大值抑制仅保留梯度单边极值,加入自适应阈值条件,使得五线较好的呈现出单边边缘;
应该说明的是,步骤203中的hough直线检测方法,是现有技术中的常用直线检测方法,能够根据得到的图像的边缘信息检测出五线位置坐标,如图4所示,为本实施例中五线谱定位的效果图。
步骤204:采用预设的音符分类器,对得到的二值图像进行音符定位分割,得到每个完整音符在图像中的位置;
优选的,音符分类器的训练过程,如图5所示,包括:
步骤2041:建立正样本数据集和负样本数据集,如图6所示,数据集中包括定位框的位置数据及定位框内的五线谱图像的图像数据,正样本数据集为包括完整音符的图像数据,负样本数据集为包括除过完整音符之外的其余乐谱可能出现的图像数据;
步骤2042:提取正样本数据集和负样本数据集中每个样本的通道特征,训练音符分类器。
应该说明的是,此处的负样本可以是残缺的音符图像、五线谱图像、乐谱背景图像等,但不限于列举的上述图像。
优选的,每个样本的通道特征,包括,灰度和颜色、线性滤波、非线性变换、逐点变换、梯度直方图。应该说明的是,所述的5种通道特征,为现有技术中的积分通道特征,定义解释如下:
灰度和颜色:灰度是一种简单的通道,LUV颜色空间也是三个常用的通道;
线性滤波:利用线性变换得到通道,如将图像与不同方向的Gabor滤波器进行卷积得到的通道,其中的每一个通道包含不同方向的边缘信息,从而得到图像不同尺度的纹理信息;
非线性变换:计算图像梯度幅值,捕获边缘强度信息;捕获边缘梯度信息,梯度则既包含边缘强度又包含边缘方向,对于彩图而言,则需要在3个通道分别计算梯度,并将对应位置的3个梯度的最大响应作为最后输出;二值化图像,将图像分别以两个不同阈值进行二值化;
逐点变换:通道中的任一像素可以通过任意一个函数作为后处理进行变化。如通过Log运算,可以得到局部乘法算子exp(∑ilog(xi))=∏ixi,类似的,对每个像素计算p次幂可用于求解广义均值;
梯度直方图:是一个加权直方图,它的bin索引是通过梯度的方向计算出来的,而其权值则是通过梯度的幅值计算而来的,也就是说这里的通道是这样计算的:Qθ(x,y)=G(x,y)*1[Θ(x,y)=θ],这里G(x,y)和Θ(x,y)分别是代表图像的梯度幅值和量化梯度方向,与此同时进行不同尺度的模糊,可以计算出来不同尺度的梯度信息。此外,借助于梯度幅值信息,对计算出来的直方图进行归一化,此方法类似于HOG特征。
优选的,定位框为矩形块定位框,根据五线间距interval确定定位框的大小,定位框高度height和宽度width分别根据公式计算得出:
height=5*interval;width=2.5*interval。
优选的,步骤204中对待处理的五线谱图像进行音符定位分割,如图7所示,包括,
在待识别的二值图上随机选取若干个候选定位框,逐个扫描定位框,对每个定位框内的图像提取所述的通道特征,将提取的通道特征输入到音符分类器中,判断定位框内的图像为正样本或者为负样本,正样本判定为乐谱中的完整音符,负样本判定为乐谱背景舍弃,从而得到待识别的二值图中的完整音符,对照音符分类器中定位框的位置数据得到每个完整音符在图像中的位置,如图8所示。
本实施例中随机选取2000个候选定位框。
步骤205:采用预设的卷积神经网络对分割获得的音符符头进行识别,判断是实心符头还是空心符头,并得到符头的位置;
优选的,步骤205中的卷积神经网络的训练过程,如图9所示,包括,
步骤2051:建立音符符头数据集,包括实心符头、空心符头和背景三种分类数据;
步骤2052:如图10所示,构建卷积神经网络,包括2个卷积层,2个下采样层和1个全连接层;
步骤2053:将音符符头数据集中的符头图像数据输入到卷积神经网络中,完成训练。
本实施例中的音符符头数据集包括2000张实心符头,1500张空心符头和4000张背景图像。
本实施例采用caffe框架卷积神经网络,caffe框架是一个清晰,可读性高,快速的深度学习框架,其模型结构简单、参数较少,在许多环境下(笔记本、手机等)只需要实现简单的卷积和全连接前向网络即可进行音符识别,不需要另行配置caffe环境,十分方便简单。
优选的,步骤205中的采用卷积神经网络对分割获得的音符符头进行识别,如图11所示,包括,
将音符定位分割得到的完整音符,输入到卷积神经网络中,通过和音符符头数据集里的数据对比,得出是实心符头、空心符头或者背景,舍弃背景,同时对照音符符头数据集里的符头的位置数据,确定完整音符中符头的位置。
步骤206:根据所述得到的五线位置坐标、每个完整音符的相对位置、是实心符头还是空心符头及符头的位置,识别出每个完整音符。
实际应用中,可根据识别出来的音符信息生成可播放的电子乐谱,进行播放。
采用上述第二种实施例进行音符识别,硬件为三星galaxy S3,CPU进行测试,音符识别速度达到了500fps,准确率为98.71%。
本发明乐谱图像识别装置一种实施例的结构,如图12所示,包括,
图像获取单元301,获得待处理的五线谱图像;
五线位置坐标检测单元302,对待处理的五线谱图像采用边缘检测方法描绘出图像的边缘信息,再通过直线检测方法检测出五线位置坐标;
音符定位分割单元303,采用预设的音符分类器,对待处理的五线谱图像进行音符定位分割,得到每个完整音符在图像中的位置;
音符符头识别单元304,采用预设的卷积神经网络对分割获得的音符符头进行识别,判断是实心符头还是空心符头,并得到符头的位置;
乐谱图像识别单元305,根据所述得到的五线位置坐标、每个完整音符的相对位置、是实心符头还是空心符头及符头的位置,识别出每个完整音符。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种乐谱图像识别方法,其特征在于,包括:
获得待处理的五线谱图像;
对待处理的五线谱图像采用边缘检测方法描绘出图像的边缘信息,再通过直线检测方法检测出五线位置坐标;
采用预设的音符分类器,对待处理的五线谱图像进行音符定位分割,得到每个完整音符在图像中的位置;
采用预设的卷积神经网络对分割获得的音符符头进行识别,判断是实心符头还是空心符头,并得到符头的位置;
根据所述得到的五线位置坐标、每个完整音符的相对位置、是实心符头还是空心符头及符头的位置,识别出每个完整音符。
2.根据权利要求1所述的乐谱图像识别方法,其特征在于,所述的音符分类器的训练过程,包括:
建立正样本数据集和负样本数据集,数据集中包括定位框的位置数据及定位框内的五线谱图像的图像数据,正样本数据集为包括完整音符的图像数据,负样本数据集为包括除过完整音符之外的其余乐谱可能出现的图像数据;
提取正样本数据集和负样本数据集中每个样本的通道特征,训练音符分类器。
3.根据权利要求2所述的乐谱图像识别方法,其特征在于,所述的每个样本的通道特征,包括,灰度和颜色、线性滤波、非线性变换、逐点变换、梯度直方图。
4.根据权利要求2或3所述的乐谱图像识别方法,其特征在于,所述的对待处理的五线谱图像进行音符定位分割,包括,
在待处理的五线谱图像上随机选取若干个候选定位框,逐个扫描定位框,对每个定位框内的图像提取所述的通道特征,将提取的通道特征输入到音符分类器中,判断定位框内的图像为正样本或者为负样本,正样本判定为乐谱中的完整音符,负样本判定为乐谱背景舍弃,从而得到待处理的五线谱图像中的完整音符,对照音符分类器中定位框的位置数据得到每个完整音符在图像中的位置。
5.根据权利要求1所述的乐谱图像识别方法,其特征在于,所述的卷积神经网络的训练过程,包括,
建立音符符头数据集,包括实心符头、空心符头和背景三种分类数据;
构建卷积神经网络,包括2个卷积层,2个下采样层和1个全连接层;
将音符符头数据集中的符头图像数据输入到卷积神经网络中,完成训练。
6.根据权利要求5所述的乐谱图像识别方法,其特征在于,所述的采用卷积神经网络对分割获得的音符符头进行识别,包括,
将音符定位分割得到的完整音符,输入到卷积神经网络中,通过和音符符头数据集里的数据对比,得出是实心符头、空心符头或者背景,舍弃背景,同时对照音符符头数据集里的符头的位置数据,确定完整音符中符头的位置。
7.根据权利要求1所述的乐谱图像识别方法,其特征在于,所述的待处理的五线谱图像,具体为:对五线谱图像进行去噪、对比度增强、灰度化、减少噪声或光照不均匀的处理,得到的二值图像。
8.根据权利要求1所述的乐谱图像识别方法,其特征在于,所述的边缘检测方法为单边边缘检测方法,包括:
a)选用Sobel算子,分别求出水平方向上和垂直方向上的梯度值:
水平梯度:sx=(a2+2a3+a4)-(a0+2a7+a6)
垂直梯度:sy=(a0+2a1+a2)-(a6+2a5+a4)
幅值:
Sobel模板:
其中,a0-a7代表8个邻域像素点;
b)采用非极大值抑制对水平方向上和垂直方向上的梯度值进行抑制,即仅保留每个方向梯度直线上的最大值的点,其余点的值均设为0;
c)采用自适应阈值方法,得到每个区域中待设置阈值的大小,使用该阈值作为是否连接边缘的条件限制,描绘出图像的边缘信息。
9.根据权利要求1所述的乐谱图像识别方法,其特征在于,所述的直线检测方法采用hough直线检测方法。
10.一种乐谱图像识别装置,其特征在于,包括,
图像获取单元,获得待处理的五线谱图像;
五线位置坐标检测单元,对待处理的五线谱图像采用边缘检测方法描绘出图像的边缘信息,再通过直线检测方法检测出五线位置坐标;
音符定位分割单元,采用预设的音符分类器,对待处理的五线谱图像进行音符定位分割,得到每个完整音符在图像中的位置;
音符符头识别单元,采用预设的卷积神经网络对分割获得的音符符头进行识别,判断是实心符头还是空心符头,并得到符头的位置;
乐谱图像识别单元,根据所述得到的五线位置坐标、每个完整音符的相对位置、是实心符头还是空心符头及符头的位置,识别出每个完整音符。
CN201610859746.7A 2016-09-28 2016-09-28 一种乐谱图像识别方法及装置 Active CN106446952B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610859746.7A CN106446952B (zh) 2016-09-28 2016-09-28 一种乐谱图像识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610859746.7A CN106446952B (zh) 2016-09-28 2016-09-28 一种乐谱图像识别方法及装置

Publications (2)

Publication Number Publication Date
CN106446952A true CN106446952A (zh) 2017-02-22
CN106446952B CN106446952B (zh) 2019-08-16

Family

ID=58170026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610859746.7A Active CN106446952B (zh) 2016-09-28 2016-09-28 一种乐谱图像识别方法及装置

Country Status (1)

Country Link
CN (1) CN106446952B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229659A (zh) * 2017-12-29 2018-06-29 陕西科技大学 基于深度学习的钢琴单键音识别方法
CN108769846A (zh) * 2018-05-15 2018-11-06 广东小天才科技有限公司 一种识别乐谱的方法及麦克风
CN108766463A (zh) * 2018-04-28 2018-11-06 平安科技(深圳)有限公司 电子装置、基于深度学习的乐曲演奏风格识别方法及存储介质
CN108805000A (zh) * 2018-04-09 2018-11-13 平安科技(深圳)有限公司 电子装置、基于深度学习的乐谱识别方法及存储介质
CN110164473A (zh) * 2019-05-21 2019-08-23 江苏师范大学 一种基于深度学习的和弦排列检测方法
CN110443127A (zh) * 2019-06-28 2019-11-12 天津大学 结合残差卷积结构和循环神经网络的乐谱图像识别方法
CN110598581A (zh) * 2019-08-25 2019-12-20 南京理工大学 基于卷积神经网络的光学乐谱识别方法
CN110852375A (zh) * 2019-11-09 2020-02-28 北京工业大学 基于深度学习的端到端乐谱音符识别方法
CN111079093A (zh) * 2019-12-11 2020-04-28 北京阿尔山区块链联盟科技有限公司 乐谱处理方法、装置和电子设备
CN111104869A (zh) * 2019-11-26 2020-05-05 杭州电子科技大学 一种可识别小字符内容的工尺谱数字化方法
CN111222503A (zh) * 2020-04-16 2020-06-02 湖南师范大学 一种古琴减字谱指法的手写谱字识别方法
CN111950552A (zh) * 2020-08-14 2020-11-17 上海画笙智能科技有限公司 一种利用计算机识别南音乐谱的识别方法
CN112204562A (zh) * 2018-03-28 2021-01-08 恩科达有限公司 音乐字符系统
CN112926603A (zh) * 2021-03-26 2021-06-08 平安科技(深圳)有限公司 乐谱识别方法、装置、设备及存储介质
CN113076967A (zh) * 2020-12-08 2021-07-06 无锡乐骐科技有限公司 一种基于图像和音频的乐谱双重识别系统
CN114419634A (zh) * 2022-03-28 2022-04-29 之江实验室 一种基于特征规则的曲谱解析方法与装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007122277A (ja) * 2005-10-26 2007-05-17 Kawai Musical Instr Mfg Co Ltd 楽譜認識装置および楽譜認識プログラム
CN102663423A (zh) * 2012-03-28 2012-09-12 北京航空航天大学 一种简谱图像的自动识别和演奏的方法
CN102867526A (zh) * 2007-02-14 2013-01-09 缪斯亚米有限公司 用于分布式音频文件编辑的门户网站
CN103646247A (zh) * 2013-09-26 2014-03-19 惠州学院 一种乐谱识别方法
JP2015056149A (ja) * 2013-09-13 2015-03-23 株式会社河合楽器製作所 楽譜認識装置及びプログラム
CN105022993A (zh) * 2015-06-30 2015-11-04 北京邮电大学 一种基于图像识别技术的五线谱播放系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007122277A (ja) * 2005-10-26 2007-05-17 Kawai Musical Instr Mfg Co Ltd 楽譜認識装置および楽譜認識プログラム
CN102867526A (zh) * 2007-02-14 2013-01-09 缪斯亚米有限公司 用于分布式音频文件编辑的门户网站
CN102663423A (zh) * 2012-03-28 2012-09-12 北京航空航天大学 一种简谱图像的自动识别和演奏的方法
JP2015056149A (ja) * 2013-09-13 2015-03-23 株式会社河合楽器製作所 楽譜認識装置及びプログラム
CN103646247A (zh) * 2013-09-26 2014-03-19 惠州学院 一种乐谱识别方法
CN105022993A (zh) * 2015-06-30 2015-11-04 北京邮电大学 一种基于图像识别技术的五线谱播放系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
QUANG NHAT VO.ETC: "Distorted Music Score Recognition without Staffline Removal", 《2014 22ND INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION》 *
刘晓翔等: "乐谱图像中的音符识别方法", 《计算机工程》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229659A (zh) * 2017-12-29 2018-06-29 陕西科技大学 基于深度学习的钢琴单键音识别方法
CN112204562A (zh) * 2018-03-28 2021-01-08 恩科达有限公司 音乐字符系统
WO2019196301A1 (zh) * 2018-04-09 2019-10-17 平安科技(深圳)有限公司 电子装置、基于深度学习的乐谱识别方法、系统及存储介质
CN108805000A (zh) * 2018-04-09 2018-11-13 平安科技(深圳)有限公司 电子装置、基于深度学习的乐谱识别方法及存储介质
CN108805000B (zh) * 2018-04-09 2019-12-17 平安科技(深圳)有限公司 电子装置、基于深度学习的乐谱识别方法及存储介质
CN108766463A (zh) * 2018-04-28 2018-11-06 平安科技(深圳)有限公司 电子装置、基于深度学习的乐曲演奏风格识别方法及存储介质
WO2019205383A1 (zh) * 2018-04-28 2019-10-31 平安科技(深圳)有限公司 电子装置、基于深度学习的乐曲演奏风格识别方法及存储介质
CN108769846A (zh) * 2018-05-15 2018-11-06 广东小天才科技有限公司 一种识别乐谱的方法及麦克风
CN110164473A (zh) * 2019-05-21 2019-08-23 江苏师范大学 一种基于深度学习的和弦排列检测方法
CN110164473B (zh) * 2019-05-21 2021-03-26 江苏师范大学 一种基于深度学习的和弦排列检测方法
CN110443127A (zh) * 2019-06-28 2019-11-12 天津大学 结合残差卷积结构和循环神经网络的乐谱图像识别方法
CN110598581A (zh) * 2019-08-25 2019-12-20 南京理工大学 基于卷积神经网络的光学乐谱识别方法
CN110598581B (zh) * 2019-08-25 2022-09-27 南京理工大学 基于卷积神经网络的光学乐谱识别方法
CN110852375A (zh) * 2019-11-09 2020-02-28 北京工业大学 基于深度学习的端到端乐谱音符识别方法
CN111104869A (zh) * 2019-11-26 2020-05-05 杭州电子科技大学 一种可识别小字符内容的工尺谱数字化方法
CN111079093A (zh) * 2019-12-11 2020-04-28 北京阿尔山区块链联盟科技有限公司 乐谱处理方法、装置和电子设备
CN111222503A (zh) * 2020-04-16 2020-06-02 湖南师范大学 一种古琴减字谱指法的手写谱字识别方法
CN111950552A (zh) * 2020-08-14 2020-11-17 上海画笙智能科技有限公司 一种利用计算机识别南音乐谱的识别方法
CN113076967A (zh) * 2020-12-08 2021-07-06 无锡乐骐科技有限公司 一种基于图像和音频的乐谱双重识别系统
CN112926603A (zh) * 2021-03-26 2021-06-08 平安科技(深圳)有限公司 乐谱识别方法、装置、设备及存储介质
CN112926603B (zh) * 2021-03-26 2024-01-23 平安科技(深圳)有限公司 乐谱识别方法、装置、设备及存储介质
CN114419634A (zh) * 2022-03-28 2022-04-29 之江实验室 一种基于特征规则的曲谱解析方法与装置

Also Published As

Publication number Publication date
CN106446952B (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
CN106446952A (zh) 一种乐谱图像识别方法及装置
CN110334706B (zh) 一种图像目标识别方法及装置
CN109816644B (zh) 一种基于多角度光源影像的轴承缺陷自动检测系统
CN105139004B (zh) 基于视频序列的人脸表情识别方法
CN107491730A (zh) 一种基于图像处理的化验单识别方法
CN104794479B (zh) 基于局部笔画宽度变换的自然场景图片中文本检测方法
CN111402209B (zh) 一种基于U-Net的高速铁路钢轨损伤检测方法
CN104408449B (zh) 智能移动终端场景文字处理方法
CN113592845A (zh) 一种电池涂布的缺陷检测方法及装置、存储介质
CN109409355B (zh) 一种新型变压器铭牌识别的方法及装置
CN105205488B (zh) 基于Harris角点和笔画宽度的文字区域检测方法
CN102999886B (zh) 图像边缘检测器及标尺光栅栅线精度检测系统
CN112837290B (zh) 一种基于种子填充算法的裂缝图像自动识别方法
CN106023220A (zh) 一种基于深度学习的车辆外观部件图像分割方法
CN105445277A (zh) 一种fpc表面质量视觉智能检测方法
CN104217221A (zh) 基于纹理特征的书画作品检测方法
CN106297755A (zh) 一种用于乐谱图像识别的电子设备及识别方法
CN103324944A (zh) 一种基于svm和稀疏表示的假指纹检测方法
CN105893946A (zh) 一种正面人脸图像的检测方法
CN103034838A (zh) 一种基于图像特征的特种车辆仪表类型识别与标定方法
CN109376740A (zh) 一种基于视频的水尺读数检测方法
CN102508547A (zh) 基于计算机视觉的手势输入法构建方法及系统
CN103295009B (zh) 基于笔画分解的车牌字符识别方法
CN104036521A (zh) 一种新的视网膜眼底图像分割方法
CN106778754A (zh) 一种鲁棒的工业电表数字识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant