CN108664977B - 一种基于实时视频流的五线谱图像识别与编码方法及系统 - Google Patents

一种基于实时视频流的五线谱图像识别与编码方法及系统 Download PDF

Info

Publication number
CN108664977B
CN108664977B CN201810456356.4A CN201810456356A CN108664977B CN 108664977 B CN108664977 B CN 108664977B CN 201810456356 A CN201810456356 A CN 201810456356A CN 108664977 B CN108664977 B CN 108664977B
Authority
CN
China
Prior art keywords
music
music score
images
spectral line
video stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810456356.4A
Other languages
English (en)
Other versions
CN108664977A (zh
Inventor
陈鑫
周莉
肖哲
胡欣月
费婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN201810456356.4A priority Critical patent/CN108664977B/zh
Publication of CN108664977A publication Critical patent/CN108664977A/zh
Application granted granted Critical
Publication of CN108664977B publication Critical patent/CN108664977B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明提供了一种基于实时视频流的五线谱图像识别与编码方法及系统,包括:实时视频流循环采集模块、视频流动态翻页判断模块、五线谱图像处理与识别模块、MIDI文件生成模块;基于实时视频流的方式,进行乐谱图像的翻页动态性判断,根据所述五线谱图像处理与识别模块对五线谱图像进行处理和识别,并按照标准电子音乐文件格式MIDI对所述音乐符号流进行编码和保存。本发明的有益效果是:本发明实现了纸质乐谱的数字化存储和传输,在视频流的基础上,解决了机器人实时演奏过程中的动态翻页过程的判断问题和复杂情况下乐谱识别及编码的问题,能够连续识别出多张乐谱,抗干扰能力好,具有很强的实用性。

Description

一种基于实时视频流的五线谱图像识别与编码方法及系统
技术领域
本发明涉及乐谱识别领域,尤其涉及一种基于实时视频流的五线谱图像识别与编码系统。
背景技术
历年来,经典的音乐作品大多数都以纸质的形式存储了下来,实际上,直到计算机迅速发展的今天,纸质乐谱仍然是音乐发表和音乐创作最主要的形式。然而,纸质乐谱文件不易于携带、传播、检索和存储,长久放置后的纸质乐谱还会褪色、损坏、片段丢失等。
近年来伴随着计算机科学的迅速发展,人类社会进入了一个数字化的时代。计算机大容量的存储能力、超高速检索能力、以及互联网带来良好的信息传播能力让各种资料都开始了数值化的存储和传播。因此乐谱的数字化是顺应时代发展规律的必然结果。
光学乐谱识别技术(Optical Music Recognition,简称OMR)的研究范畴属于文档图像分析(Document Image Analysis,简称DIA),具体实现是指将乐谱图像输入至计算机中,运用图像处理和模式识别的有关知识,将纸质乐谱上的音符信息以及各种符号识别出来,并将其转化为时间上连续的音符数字化信息,最后编码成标准电子音乐格式(MIDI)。
传统的乐谱识别通常使用扫描仪或打印机,采用扫描的方式将乐谱图像信息输入至计算机中,如果在摆放平整、强光对照、近距离、高精度、无背景噪声干扰的扫描条件下,能够通过扫描仪或打印机能得到非常理想的乐谱图像,但是,这里需要的光照环境等要求非常苛刻,在现实中几乎不能达到,因此,在现实中要想得到理想的乐谱图像,就需要解决在摄像头采集的图像质量不高的情况下对乐谱的识别问题,即解决摄像头采集的图像中出现光照不均匀、乐谱不平整和存在拍摄阴影等的问题。
随着机器人技术的快速发展,目前机器人的发展方向从工业机器人,逐步开始转向家庭机器人和各种服务型、表演型机器人,在表演型机器人完成实时乐谱读谱并演奏的过程中,在实际的环境下拍摄的图片多受乐谱质量、摆放位置、光照阴影以及拍摄背景等因素的影响呈现不同程度的信息缺失。另外,实时演奏过程中,一首歌曲的长度通常不止简单的一张纸质乐谱图像,而是包含多张纸质乐谱,在这种情况下,解决表演型机器人实时演奏过程中的动态翻页过程的判断问题和复杂情况下乐谱识别编码的问题成为了一个难题。
发明内容
为了以上问题,本发明提供了一种基于实时视频流的五线谱图像识别与编码方法及系统。一种基于实时视频流的五线谱图像识别与编码方法及系统,一种基于实时视频流的五线谱图像识别与编码方法,用于演奏机器人,所述演奏机器人具有摄像头和乐谱存放支架,解决所述演奏机器人实时演奏过程中的动态翻页过程的判断问题和乐谱识别及编码的问题,包括了实时视频流循环采集步骤、视频流动态翻页判断步骤、五线谱图像处理与识别步骤、MIDI文件生成步骤;
所述实时视频流循环采集步骤,用于对所述摄像头实时拍摄的所述乐谱存放支架上的乐谱视频流进行采集,得到多张乐谱图像;
所述视频流动态翻页判断步骤,对所述实时视频流循环采集步骤得到的所述多张乐谱图像进行动态翻页判断,判断所述多张乐谱图像间是否为翻页过程,若是,则丢弃所述多张乐谱图像,回到所述实时视频流循环采集步骤,重新进行采集,得到新的多张乐谱图像;若否,则所述多张乐谱图像为稳定的乐谱图像,对所述稳定的乐谱图像进行时间序列上的平均滤波处理,并发布平均滤波处理过的所述稳定的乐谱图像;
所述五线谱图像处理与识别步骤,对所述稳定的乐谱图像进行处理,识别出多种音乐符号;
所述MIDI文件生成步骤,结合音乐先验知识,修正识别出的所述多种音乐符号的包括音高、时值和强度的信息,并按照标准电子音乐文件格式MIDI对修正过的所述多种音乐符号进行编码和保存。
进一步地,所述实时视频流循环采集步骤中,利用摄像头,实时抓取乐谱视频流,将所述乐谱视频流以时间上连续的序列进行储存乐谱图像。
进一步地,所述视频流动态翻页判断步骤中,动态翻页判断的过程为:采用背景差分法,得到所述多张乐谱图像间总动态变化率;通过比较所述总动态变化率与预设的标准阈值的大小,判断所述多张乐谱图像间是否为动态翻页过程,若所述总动态变化率小于所述预设的标准阈值,则所述多张乐谱图像间不是动态翻页过程,所述张乐谱图像为所述稳定的乐谱图像。
进一步地,所述五线谱图像处理与识别步骤中,对所述稳定的乐谱图像进行处理与识别的过程为:首先根据最大类间方差的方法对所述稳定的乐谱图像进行二值化处理,根据水平投影,定位所述稳定的乐谱图像中的五线谱区域,进行谱线矫正处理;然后采用谱线修补法,对矫正后的所述稳定的乐谱图像进行谱线修补和多余谱线删除处理;再通过快速连通域标记法和垂直游程分析法对谱线删除后的所述稳定的乐谱图像做音符群识别,并在记录下所述音符群后,删除所述音符群,以提高剩余的独立的音乐符号的识别率;最后根据特征提取的方法提取音乐符号的特征并计算相似度,识别出剩余的独立的多种音乐符号。
进一步地,所述MIDI文件生成步骤中,首先提取所述多种音乐符号的包括音高、时值和强度的信息,然后结合音乐先验知识,根据所述多张乐谱图像中包括谱号、调号和临时升降符号调整所述多种音乐符号的音高,根据附点、休止符调整所述多种音乐符号的时值,将所述多种音乐符号转化为音高、时值、强度三部分进行编码。
一种基于实时视频流的五线谱图像识别与编码系统,集成于演奏机器人中,所述系统包括:实时视频流循环采集模块、视频流动态翻页判断模块、五线谱图像处理与识别模块、MIDI文件生成模块;
所述实时视频流循环采集模块,用于对实时拍摄的乐谱视频流进行采集,得到多张乐谱图像;
所述视频流动态翻页判断模块,接收由所述视频流循环采集模块得到的所述多张乐谱图像,并判断所述多张乐谱图像是否进行动态翻页,若是,则丢弃所述多张乐谱图像,回到所述实时视频流循环采集模块,重新进行采集,得到新的多张乐谱图像;若否,则所述多张乐谱图像为稳定的乐谱图像,对所述稳定的乐谱图像进行时间序列上的平均滤波处理,并发布平均滤波处理过的所述稳定的乐谱图像;
所述五线谱图像处理与识别模块,接收由所述视频流动态判断模块得到的稳定的乐谱图像,并对所述稳定的乐谱图像进行处理,识别出多种音乐符号;
所述MIDI文件生成模块,接收由所述五线谱图像处理与识别模块识别出的所述多种音乐符号,并按照标准电子音乐文件格式MIDI对所述多种音乐符号进行编码和保存。
进一步地,所述实时视频流循环采集模块中,利用所述摄像头,实时抓取乐谱视频流,将所述乐谱视频流以时间上连续的序列进行储存乐谱图像。
进一步地,所述视频流动态翻页判断模块中,动态翻页判断的过程为:采用背景差分法,得到所述多张乐谱图像间总动态变化率;通过比较所述总动态变化率与预设的标准阈值的大小,判断所述多张乐谱图像间是否为动态翻页过程,若所述总动态变化率小于所述预设的标准阈值,则所述多张乐谱图像间不是动态翻页过程,所述张乐谱图像为所述稳定的乐谱图像。
进一步地,所述五线谱图像处理与识别模块中,对所述稳定的乐谱图像进行处理与识别的过程为:首先根据最大类间方差的方法对所述稳定的乐谱图像进行二值化处理,根据水平投影,定位所述稳定的乐谱图像中的五线谱区域,进行谱线矫正处理;然后采用谱线修补法,对矫正后的所述稳定的乐谱图像进行谱线修补和多余谱线删除处理;再通过快速连通域标记法和垂直游程分析法对谱线删除后的所述稳定的乐谱图像做音符群识别,并在记录下所述音符群后,删除所述音符群,以提高剩余的独立的音乐符号的识别率;最后根据特征提取的方法提取音乐符号的特征并计算相似度,识别出剩余的独立的多种音乐符号。
进一步地,所述MIDI文件生成模块中,首先提取所述多种音乐符号的包括音高、时值和强度的信息,然后结合音乐先验知识,根据所述多张乐谱图像中包括谱号、调号和临时升降符号调整所述多种音乐符号的音高,根据附点、休止符调整所述多种音乐符号的时值,将所述多种音乐符号转化为音高、时值、强度三部分进行编码。
本发明提供的技术方案带来的有益效果是:本发明实现了纸质乐谱的数字化存储和传输,在视频流的基础上,解决了机器人实时演奏过程中的动态翻页过程的判断问题和复杂情况下乐谱识别及编码的问题,能够连续识别出多张乐谱,抗干扰能力好,具有很强的实用性。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例中一种基于实时视频流的五线谱图像识别与编码方法的流程图;
图2是本发明实施例中摄像头循环采集视频流和判断视频流是否为动态翻页的示意图;
图3是五线谱图像处理与识别及MIDI文件生成的流程图;
图4为在本实施例中对图像进行垂直游程编码的示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
本发明的实施例提供了一种基于实时视频流的五线谱图像识别与编码方法及系统。在本实施例中,所述乐谱具体指的是五线谱。请参考图1,图1是本发明实施例中一种基于实时视频流的五线谱图像识别与编码方法的流程图,一种基于实时视频流的五线谱图像识别与编码方法,用于演奏机器人,所述演奏机器人具有摄像头和乐谱存放支架,所述方法包括实时视频流循环采集步骤、视频流动态翻页判断步骤、五线谱图像处理与识别步骤、MIDI文件生成步骤;
所述实时视频流循环采集步骤,用于对实时拍摄的乐谱视频流进行采集,得到多张乐谱图像;利用摄像头,实时抓取乐谱视频流,将所述乐谱视频流以时间上连续的序列进行储存乐谱图像;
所述视频流动态翻页判断步骤,对所述实时视频流循环采集步骤得到的所述多张乐谱图像进行动态翻页判断,判断所述多张乐谱图像间是否为翻页过程,若是,则丢弃所述多张乐谱图像,回到所述实时视频流循环采集步骤,重新进行采集,得到新的多张乐谱图像;若否,则所述多张乐谱图像为稳定的乐谱图像,对所述稳定的乐谱图像进行时间序列上的平均滤波处理,并发布平均滤波处理过的所述稳定的乐谱图像;动态翻页判断的过程为:采用背景差分法,得到所述多张乐谱图像间总动态变化率;通过比较所述总动态变化率与预设的标准阈值的大小,判断所述多张乐谱图像间是否为动态翻页过程,若所述总动态变化率小于所述预设的标准阈值,则所述多张乐谱图像间不是动态翻页过程,所述张乐谱图像为所述稳定的乐谱图像;
所述五线谱图像处理与识别步骤,对所述稳定的乐谱图像进行处理,识别出多种音乐符号;对所述稳定的乐谱图像进行处理与识别的过程为:首先根据最大类间方差的方法对所述稳定的乐谱图像进行二值化处理,根据水平投影,定位所述稳定的乐谱图像中的五线谱区域,进行谱线矫正处理;然后采用谱线修补法,对矫正后的所述稳定的乐谱图像进行谱线修补和多余谱线删除处理;再通过快速连通域标记法和垂直游程分析法对谱线删除后的所述稳定的乐谱图像做音符群识别,并在记录下所述音符群后,删除所述音符群,以提高剩余的独立的音乐符号的识别率;最后根据特征提取的方法提取音乐符号的特征并计算相似度,识别出剩余的独立的多种音乐符号。
所述MIDI文件生成步骤,结合音乐先验知识,修正识别出的所述多种音乐符号的包括音高、时值和强度的信息,并按照标准电子音乐文件格式MIDI对修正过的所述多种音乐符号进行编码和保存。首先提取所述多种音乐符号的包括音高、时值和强度的信息,然后结合音乐先验知识,根据所述多张乐谱图像中包括谱号、调号和临时升降符号调整所述多种音乐符号的音高,根据附点、休止符调整所述多种音乐符号的时值,将所述多种音乐符号转化为音高、时值、强度三部分进行编码,并对编码的文件进行保存。提取所述多种音乐符号的包括音高、时值和强度的信息的过程为:对比所述多种音乐符号的符头的中心和谱线相对高低位置得到所述多种音乐符号的音高、通过判断和所述多种音乐符号的符头相连通的符杠的个数得到所述多种音乐符号的时值,通过节奏型的变化得到所述音符强度。
一种基于实时视频流的五线谱图像识别与编码系统,集成于演奏机器人中,所述系统包括:实时视频流循环采集模块、视频流动态翻页判断模块、五线谱图像处理与识别模块、MIDI文件生成模块;
所述实时视频流循环采集模块,用于对实时拍摄的乐谱视频流进行采集,得到多张乐谱图像;利用所述摄像头,实时抓取乐谱视频流,将所述乐谱视频流以时间上连续的序列进行储存乐谱图像;
所述视频流动态翻页判断模块,接收由所述视频流循环采集模块得到的所述多张乐谱图像,并判断所述多张乐谱图像是否进行动态翻页,若是,则丢弃所述多张乐谱图像,回到所述实时视频流循环采集模块,重新进行采集,得到新的多张乐谱图像;若否,则所述多张乐谱图像为稳定的乐谱图像,对所述稳定的乐谱图像进行时间序列上的平均滤波处理,并发布平均滤波处理过的所述稳定的乐谱图像;动态翻页判断的过程为:采用背景差分法,得到所述多张乐谱图像间总动态变化率;通过比较所述总动态变化率与预设的标准阈值的大小,判断所述多张乐谱图像间是否为动态翻页过程,若所述总动态变化率小于所述预设的标准阈值,则所述多张乐谱图像间不是动态翻页过程,所述张乐谱图像为所述稳定的乐谱图像;
请参见图2,图2是本发明实施例中摄像头循环采集视频流和判断视频流是否为动态翻页的示意图,所述视频流循环采集模块是利用摄像头,实时抓取乐谱视频流,在1秒内连续抓取5帧乐谱图像,将所述乐谱视频流以时间上连续的序列进行储存乐谱图像;首先取出5张时间上连续的所述乐谱图像,通过背景差分法,将相邻的两张乐谱图像的像素点g(x,y)的相减,像素的灰度差异值gray_dif在15以下的像素点为噪声干扰,除去噪声干扰,定义像素变化点的个数占总像素点个数比为视频流的变化率Ratei,通过4次差分,累加变化率,得到5张乐谱图像间总动态变化率
Figure BDA0001659771180000071
判断将所述总动态变化率Rate_sum是否大于预设的标准阈值Rate_thr,若是,则所述乐谱图像为翻页过程,丢弃检测到的所述动态视频流,进入下一次视频流的采集,即利用所述视频流循环采集模块进行再次采集视频流;若否,则所述乐谱图像即为稳定的乐谱图像,所述动态视频流稳定,将5张时间上连续的图像像素值g(x,y)做累加后,再根据公式
Figure BDA0001659771180000072
对5张所述稳定的乐谱图像在时间上进行平均滤波的处理,减少在拍摄过程中由于摄像头感光元件、光线因素等而造成的噪声干扰,发布经过平均滤波处理过的所述稳定的乐谱图像;
请参考图3,图3是五线谱图像处理与识别及MIDI文件生成的流程图;通过订阅图像,接收由所述视频流动态判断模块发布的所述稳定的乐谱图像,并将所述稳定的乐谱图像进行实时处理与识别,对所述稳定的图像进行实时处理即是先对所述稳定的图像进行预处理,所述预处理包括:首先对所述稳定的图像进行去噪二值化处理,然后对所述稳定的乐谱图像中的五线谱区域进行谱线矫正处理,最后再对所述稳定的乐谱图像做谱线定位检测和谱线删除处理;预处理后,判断所述稳定的图像是否为五线谱图像,若是,则对所述稳定的图像进行音符识别,若否,则等待所述视频流动态判断模块发布所述稳定的乐谱图像;所述音符识别包括:对谱线删除后的所述稳定的乐谱图像做音符群识别和分类;音符识别后,进行MIDI编码处理:修正音符的音高、时值和强度,生成MIDI文件,并发布编码结果。
所述五线谱图像处理与识别模块,用于接收由所述视频流动态判断模块得到的稳定的乐谱图像,并对所述稳定的乐谱图像进行处理,识别出多种音乐符号;所述五线谱图像处理与识别模块具体的处理过程以下:
S101:订阅图像,接收所述稳定的乐谱图像,通过Otsu算法,以最大类间方差法对所述稳定的乐谱图像进行二值化处理;所述订阅图像是指,若所述视频流动态判断模块发布了所述稳定的乐谱图像,则所述五线谱图像处理与识别模块接收所述稳定的乐谱图像,若所述视频流动态判断模块没有发布所述稳定的乐谱图像,则所述五线谱图像处理与识别模块等待发布所述稳定的乐谱图像,知道最后接收到所述稳定的乐谱图像;
S102:定位二值化后的所述稳定的乐谱图像中的五线谱区域,并进行谱线矫正处理;因为纸质乐谱人工放置的因素,拍摄到的乐谱图像总存在小角度的倾斜,因此需要做谱线矫正处理,由于谱线断裂,表现为断断续续的小线段,所以将水平投影和Hough变换结合在一起,在多个角度做投影累积,累积投影长度最长的角度为最终的图像倾斜角;本实施例中,采取了上下各20°为最大倾斜角,每1°进行一次投影,记录累积后的长度leni,选取最长的投影长度leni所对应的角度为最终的图像倾斜角θ,根据公式g'(x,y)=g(x-ytanθ,y+xtanθ)进行谱线矫正处理;
请参考图4,图4为在本实施例中对图像进行垂直游程编码的示意图,在所述的谱线矫正后的图像中,对图像进行垂直游程编码,以200像素为游程长度最大值,分别得到黑白游程的长度分布直方图blank[i](0<i<200)和white[i](0<i<200),取其黑色游程长度出现频率最大的值max_blank作为谱线线宽linewidth,取其白色游程长度出现频率最大的值max_white作为谱线线间距linespacing。
S103:对矫正后的所述稳定的乐谱图像做谱线定位检测和谱线删除处理;在矫正后的所述稳定的乐谱图像中,通过水平投影初步定位谱线位置,采用谱线修补法,通过判断投影峰值所对应的行的白色游程最大值run_white,若run_white大于λrun,投影为由于谱线上下加线而存在的多余的谱线投影,则删除由于谱线上下加线而存在的多余的谱线投影;根据谱线本身的特性,所述谱线在乐谱图像中表现为五条平行等距的直线,若run_white小于λrun,则补全由于谱线断裂而未能成功形成投影峰值的谱线;在成功定位谱线后,采用垂直游程分析法将谱线删除,删除垂直方向上谱线线宽小于阈值ε的谱线,其中,λrun=2×linespacing,ε=2×linewidth;
S104:对谱线删除后的所述稳定的乐谱图像进行音符群识别,并在记录下所述音符群后,删除所述音符群,以减少连通域标记的计算量和对独立音符识别的干扰;乐谱识别是需要识别出所有的音乐符号,然后将所有的音乐符号进行排序,就形成了一首曲子;所述音乐符号在乐谱中存在的两种形式是音符群和独立的音乐符号;音符群是由多个音乐符号任意组合起来的符号,因此音符群的形状具有多样性和无穷性,需要单独处理;通过基元分解可以将音符群分解为符头、符杆和符杠,所述音符群包括多个音符的符头、符杆和一个符杠,所述符杠是由多个音符的符尾连接在一起形成,在谱线删除后的乐谱图像中,根据谱线组的个数,将乐谱分为多个小节,从上到下依次处理,首先通过快速连通域标记法,得到每个乐谱符号的连通标记,再通过垂直游程分析,选取垂直游程达到一定长度且游程宽度小于一定阈值的游程作为符杆,删除符杆,分离出独立不连通的符头和符杠,对删除符杆后的乐谱图像做第二次连通域标定,将第二次连通域标定和第一次连通域标定做比较,取出第二次标定中和第一次标定中所在连通域标记相同的连通域,并计算所述相同的连通域的宽、高、面积比以及上下表面线性度,判断所述相同的连通域是符头还是符杠;若是符头,就和谱线相比较,得到音符的音高;若是符杠,就计算符杠的厚度,得到音符的时值;
在本实施例中,对一副W×H的乐谱图像I(x,y),判断所述连通域是符头还是符杠的具体流程为:
S201:首先对所述乐谱图像进行垂直游程编码,得到小节内的黑色垂直游程链表cc_flag,每段游程信息包括起始点I(x,y)、游程长度len、连通标志位flag以及链表双向指针*before、*next,对游程进行连通域分析,将处于同一连通域的游程标志位flag标志为相同值;
S202:提取连通域的几何特征,对链表cc_flag中标志位flag相同的游程,计算所述连通域外圈包围框,左边界width_min,右边界width_max,上边界height_min,下边界height_max,面积area;
S203:若连通域满足width_max-width_min>μmin、width_max-width_min<μmax且area<μarea,则所述连通域为符头;μmin=1.5×linespacing,μmax=2×linespacing,μarea=0.7;
S204:若连通域满足条件width_max-width_min>γmin且其上下表面线性度满足liner_top>γline||liner_bot>γline,则所述连通域为符杠;γmin=2×linespacing,γline=0.8;
S205:判断所述符头和所述符杠连通与否,因为音乐符号包括音高和时值,音高通过符头和谱线的相对位置判断,时值通过符杠的厚度判断,若所述符头和所述符杠连通,则说明对应的音高和时值是属于同一个音乐符号,将两者组合起来,就相当于识别出了这个音符的音高和时值;否则,就不是同一个音乐符号的音高和时值;若所述符头与所述符杠连通,则将所述符头与符杠组成的音符、音高和时值信息添加至音乐符号信息序列中,若所述符头或所述符杠单独存在,则将所述符头或符杠判断为误识别对象,剔除出音乐符号序列。
S105:对删除音符群后的所述稳定的乐谱图像,做音乐符号的特征提取并计算相似度,以识别剩余的多种独立的音乐符号;在所述的删除音符群的乐谱图像中,对剩下的音乐符号做连通域分析,计算每个连通域的7个不变矩以及外包围框的宽、高、面积,共10个形状描述符,将所述10个形状描述符与标准乐谱符号相比较,通过比例相似度来计算音乐符号的相似度,以达到识别不同的乐谱符号的效果;其中,得到7个不变矩的计算过程为:
对于灰度分布为f(x,y),面积为D的乐谱图像,其(p+q)阶几何矩定义为:
Figure BDA0001659771180000111
其中,x、y分别为矩阵中的任意一点坐标;
(p+q)阶中心距定义为:
Figure BDA0001659771180000112
其中,
Figure BDA0001659771180000113
Figure BDA0001659771180000114
为图像重心,且
Figure BDA0001659771180000115
Figure BDA0001659771180000116
的值如公式(3)所示:
Figure BDA0001659771180000117
其中,m10、m00和m01分别为1+0阶几何矩、0+0阶几何矩和0+1阶几何矩;
归一化的中心距定义为:
Figure BDA0001659771180000118
其中,ρ=(p+q)/2+1;
通过二阶和三阶归一化中心矩构建所述7个不变矩M1,…,M7,因为所述7个不变矩,具有良好的旋转、平移和尺度不变性,可以用来描述不同的音符符号,从而对音符进行识别,所述7个不变矩M1,…,M7如公式(5)~(11)所示:
M1=(η2002) (5)
M2=(η2002)2+4η11 2 (6)
M3=(η30-3η12)2+(3η2103)2 (7)
M4=(η3012)2+(η2103)2 (8)
M5=(η30-3η12)(η3012)[(η3012)2-3(η2103)2]
+(3η2103)(η2103)[3(η3012)2-(η2103)2] (9)
M6=(η2002)[(η3012)2-(η2130)2]+4η113012)(η2130) (10)
M7=(3η2103)(η3012)[(η3012)2-3(η2103)2]
+(η30-3η12)(η2130)[3(η3012)2-(η2130)2] (11)
利用五线谱的线间距linespacing对每个连通域外包围框宽ccwidth、高ccheight和面积ccarea进行归一化处理,如公式(12)~(14)所示:
Figure BDA0001659771180000121
Figure BDA0001659771180000122
Figure BDA0001659771180000123
其中,width_max、width_min分别为连通域外包围框宽的最大值和最小值,height_max、height_min分别为连通域外包围框高的最大值和最小值,linespacing为五线谱的线间距。
将得到的每个连通域的所述7个不变矩以及外包围框的宽、高和面积这10个形状描述符,与标准乐谱符号相比较,通过比例相似度来计算相似度,从而识别不同的乐谱符号;
所述MIDI文件生成模块,用于接收由所述五线谱图像处理与识别模块识别出的所述多种音乐符号,并按照标准电子音乐文件格式MIDI对所述多种音乐符号进行编码和保存。首先提取所述音乐符号的音高、时值和强度的信息,通过比较音符的符头的中心和谱线相对高低位置得到音符的音高、通过判断与音符的符头相连通的符杠的个数得到音乐符号的时值,最后通过节奏型的变化得到音乐符号强度;然后结合音乐先验知识,将所述音乐符号作用在音符上,修正每个音乐符号的音高、时值和强度,根据所述乐谱图像中谱号、调号和临时升降符号来调整乐谱的音高,根据附点、休止符等音乐符号来调整乐谱不同符号的时值,将所有的音乐符号转化为音高、时值、强度三部分,最后按照MIDI格式对处理过的乐谱进行编码和保存。
本发明的有益效果是:本发明实现了纸质乐谱的数字化存储和传输,在视频流的基础上,解决了机器人实时演奏过程中的动态翻页过程与复杂情况下乐谱识别编码的难题,能够连续识别多张乐谱,抗干扰能力好,具有很强的实用性。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于实时视频流的五线谱图像识别与编码方法,用于演奏机器人,所述演奏机器人具有摄像头和乐谱存放支架,其特征在于:所述方法包括实时视频流循环采集步骤、视频流动态翻页判断步骤、五线谱图像处理与识别步骤、MIDI文件生成步骤;
所述实时视频流循环采集步骤,用于对所述摄像头实时拍摄的所述乐谱存放支架上的乐谱视频流进行采集,得到多张乐谱图像;
所述视频流动态翻页判断步骤,对所述实时视频流循环采集步骤得到的所述多张乐谱图像进行动态翻页判断,判断所述多张乐谱图像间是否为翻页过程,若是,则丢弃所述多张乐谱图像,回到所述实时视频流循环采集步骤,重新进行采集,得到新的多张乐谱图像;若否,则所述多张乐谱图像为稳定的乐谱图像,对所述稳定的乐谱图像进行时间序列上的平均滤波处理,并发布平均滤波处理过的所述稳定的乐谱图像;
动态翻页判断的过程为:采用背景差分法,得到所述多张乐谱图像间总动态变化率;通过比较所述总动态变化率与预设的标准阈值的大小,判断所述多张乐谱图像间是否为动态翻页过程,若所述总动态变化率小于所述预设的标准阈值,则所述多张乐谱图像间不是动态翻页过程,所述多张乐谱图像为所述稳定的乐谱图像;
所述五线谱图像处理与识别步骤,对所述稳定的乐谱图像进行处理,识别出多种音乐符号;
对所述稳定的乐谱图像进行处理与识别的过程为:首先根据最大类间方差的方法对所述稳定的乐谱图像进行二值化处理,根据水平投影,定位所述稳定的乐谱图像中的五线谱区域,进行谱线矫正处理;由于谱线断裂,表现为断断续续的线段,所以将水平投影和Hough变换结合在一起,在多个角度做投影累积,累积投影长度最长的角度为最终的图像倾斜角;采取上下各20°为最大倾斜角,每1°进行一次投影,记录累积后的长度leni,选取最长的投影长度leni所对应的角度为最终的图像倾斜角θ,根据公式g'(x,y)=g(x-y tanθ,y+x tanθ)进行谱线矫正处理;然后采用谱线修补法,对矫正后的所述稳定的乐谱图像进行谱线修补和多余谱线删除处理;在矫正后的所述稳定的乐谱图像中,通过水平投影初步定位谱线位置,采用谱线修补法,通过判断投影峰值所对应的行的白色游程最大值run_white,若run_white大于λrun,投影为由于谱线上下加线而存在的多余的谱线投影,则删除由于谱线上下加线而存在的多余的谱线投影;根据谱线本身的特性,所述谱线在乐谱图像中表现为五条平行等距的直线,若run_white小于λrun,则补全由于谱线断裂而未能成功形成投影峰值的谱线;在成功定位谱线后,采用垂直游程分析法将谱线删除,删除垂直方向上谱线线宽小于阈值ε的谱线,其中,λrun=2×linespacing,ε=2×linewidth,linespacing为谱线线间距,linewidth为谱线线宽;再通过快速连通域标记法和垂直游程分析法对谱线删除后的所述稳定的乐谱图像做音符群识别,并在记录下所述音符群后,删除所述音符群,以提高剩余的独立的音乐符号的识别率;最后根据特征提取的方法提取音乐符号的特征并计算相似度,识别出剩余的独立的多种音乐符号;
所述MIDI文件生成步骤,结合音乐先验知识,修正识别出的所述多种音乐符号的包括音高、时值和强度的信息,并按照标准电子音乐文件格式MIDI对修正过的所述多种音乐符号进行编码和保存;
所述MIDI文件生成步骤中,首先提取所述多种音乐符号的包括音高、时值和强度的信息,然后结合音乐先验知识,根据所述多张乐谱图像中包括谱号、调号和临时升降符号调整所述多种音乐符号的音高,根据附点、休止符调整所述多种音乐符号的时值,将所述多种音乐符号转化为音高、时值、强度三部分进行编码。
2.如权利要求1所述的一种基于实时视频流的五线谱图像识别与编码方法,其特征在于:所述实时视频流循环采集步骤中,利用所述摄像头,实时抓取乐谱视频流,将所述乐谱视频流以时间上连续的序列进行储存乐谱图像。
3.一种基于实时视频流的五线谱图像识别与编码系统,集成于演奏机器人中,其特征在于:所述系统包括:实时视频流循环采集模块、视频流动态翻页判断模块、五线谱图像处理与识别模块、MIDI文件生成模块;
所述实时视频流循环采集模块,用于对实时拍摄的乐谱视频流进行采集,得到多张乐谱图像;
所述视频流动态翻页判断模块,用于接收由所述视频流循环采集模块得到的所述多张乐谱图像,并判断所述多张乐谱图像是否进行动态翻页,若是,则丢弃所述多张乐谱图像,回到所述实时视频流循环采集模块,重新进行采集,得到新的多张乐谱图像;若否,则所述多张乐谱图像为稳定的乐谱图像,对所述稳定的乐谱图像进行时间序列上的平均滤波处理,并发布平均滤波处理过的所述稳定的乐谱图像;
动态翻页判断的过程为:采用背景差分法,得到所述多张乐谱图像间总动态变化率;通过比较所述总动态变化率与预设的标准阈值的大小,判断所述多张乐谱图像间是否为动态翻页过程,若所述总动态变化率小于所述预设的标准阈值,则所述多张乐谱图像间不是动态翻页过程,所述多张乐谱图像为所述稳定的乐谱图像;
所述五线谱图像处理与识别模块,用于接收由所述视频流动态判断模块得到的稳定的乐谱图像,并对所述稳定的乐谱图像进行处理,识别出多种音乐符号;对所述稳定的乐谱图像进行处理与识别的过程为:首先根据最大类间方差的方法对所述稳定的乐谱图像进行二值化处理,根据水平投影,定位所述稳定的乐谱图像中的五线谱区域,进行谱线矫正处理;然后采用谱线修补法,对矫正后的所述稳定的乐谱图像进行谱线修补和多余谱线删除处理;再通过快速连通域标记法和垂直游程分析法对谱线删除后的所述稳定的乐谱图像做音符群识别,并在记录下所述音符群后,删除所述音符群,以提高剩余的独立的音乐符号的识别率;最后根据特征提取的方法提取音乐符号的特征并计算相似度,识别出剩余的独立的多种音乐符号;
对所述稳定的乐谱图像进行处理与识别的过程为:首先根据最大类间方差的方法对所述稳定的乐谱图像进行二值化处理,根据水平投影,定位所述稳定的乐谱图像中的五线谱区域,进行谱线矫正处理;由于谱线断裂,表现为断断续续的线段,所以将水平投影和Hough变换结合在一起,在多个角度做投影累积,累积投影长度最长的角度为最终的图像倾斜角;采取上下各20°为最大倾斜角,每1°进行一次投影,记录累积后的长度leni,选取最长的投影长度leni所对应的角度为最终的图像倾斜角θ,根据公式g'(x,y)=g(x-y tanθ,y+x tanθ)进行谱线矫正处理;然后采用谱线修补法,对矫正后的所述稳定的乐谱图像进行谱线修补和多余谱线删除处理;在矫正后的所述稳定的乐谱图像中,通过水平投影初步定位谱线位置,采用谱线修补法,通过判断投影峰值所对应的行的白色游程最大值run_white,若run_white大于λrun,投影为由于谱线上下加线而存在的多余的谱线投影,则删除由于谱线上下加线而存在的多余的谱线投影;根据谱线本身的特性,所述谱线在乐谱图像中表现为五条平行等距的直线,若run_white小于λrun,则补全由于谱线断裂而未能成功形成投影峰值的谱线;在成功定位谱线后,采用垂直游程分析法将谱线删除,删除垂直方向上谱线线宽小于阈值ε的谱线,其中,λrun=2×linespacing,ε=2×linewidth,linespacing为谱线线间距,linewidth为谱线线宽;再通过快速连通域标记法和垂直游程分析法对谱线删除后的所述稳定的乐谱图像做音符群识别,并在记录下所述音符群后,删除所述音符群,以提高剩余的独立的音乐符号的识别率;最后根据特征提取的方法提取音乐符号的特征并计算相似度,识别出剩余的独立的多种音乐符号;
所述MIDI文件生成模块,用于接收由所述五线谱图像处理与识别模块识别出的所述多种音乐符号,并按照标准电子音乐文件格式MIDI对所述多种音乐符号进行编码和保存;
所述MIDI文件生成模块中,首先提取所述多种音乐符号的包括音高、时值和强度的信息,然后结合音乐先验知识,根据所述多张乐谱图像中包括谱号、调号和临时升降符号调整所述多种音乐符号的音高,根据附点、休止符调整所述多种音乐符号的时值,将所述多种音乐符号转化为音高、时值、强度三部分进行编码。
4.如权利要求3所述的一种基于实时视频流的五线谱图像识别与编码系统,其特征在于:所述实时视频流循环采集模块中,利用摄像头,实时抓取乐谱视频流,将所述乐谱视频流以时间上连续的序列进行储存乐谱图像。
CN201810456356.4A 2018-05-14 2018-05-14 一种基于实时视频流的五线谱图像识别与编码方法及系统 Expired - Fee Related CN108664977B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810456356.4A CN108664977B (zh) 2018-05-14 2018-05-14 一种基于实时视频流的五线谱图像识别与编码方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810456356.4A CN108664977B (zh) 2018-05-14 2018-05-14 一种基于实时视频流的五线谱图像识别与编码方法及系统

Publications (2)

Publication Number Publication Date
CN108664977A CN108664977A (zh) 2018-10-16
CN108664977B true CN108664977B (zh) 2020-12-25

Family

ID=63779419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810456356.4A Expired - Fee Related CN108664977B (zh) 2018-05-14 2018-05-14 一种基于实时视频流的五线谱图像识别与编码方法及系统

Country Status (1)

Country Link
CN (1) CN108664977B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109202935A (zh) * 2018-10-30 2019-01-15 希格斯动力科技(珠海)有限公司 弹奏机器人的手部步进电机控制方法及装置
CN111639649B (zh) * 2020-05-26 2024-03-01 中国地质大学(武汉) 一种基于实时图像流的简谱图像识别与编码方法及系统
CN112652279A (zh) * 2020-12-17 2021-04-13 广东爱乐社教育科技有限公司 乐谱自动电子化演奏方法、系统、装置、设备及存储介质
US20220203536A1 (en) * 2020-12-31 2022-06-30 Robert Bosch Gmbh Dynamic spatiotemporal beamforming self-diagonostic system

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101944180A (zh) * 2010-09-07 2011-01-12 东南大学 基于乐符知识及双投影法的乐符基元分割方法
CN101964049A (zh) * 2010-09-07 2011-02-02 东南大学 基于分段投影与乐符结构的谱线检测及删除方法
CN202512877U (zh) * 2012-03-08 2012-10-31 苏州市职业大学 一种用于乐谱识别及自动演奏的装置
CN103179315A (zh) * 2011-12-20 2013-06-26 长沙鹏阳信息技术有限公司 连续视频图像处理的纸质文档扫描仪及扫描方法
CN105280170A (zh) * 2015-10-10 2016-01-27 北京百度网讯科技有限公司 一种乐谱演奏的方法和装置
CN107146631A (zh) * 2016-02-29 2017-09-08 北京搜狗科技发展有限公司 音乐识别方法、音符识别模型建立方法、装置及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7297856B2 (en) * 1996-07-10 2007-11-20 Sitrick David H System and methodology for coordinating musical communication and display

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101944180A (zh) * 2010-09-07 2011-01-12 东南大学 基于乐符知识及双投影法的乐符基元分割方法
CN101964049A (zh) * 2010-09-07 2011-02-02 东南大学 基于分段投影与乐符结构的谱线检测及删除方法
CN103179315A (zh) * 2011-12-20 2013-06-26 长沙鹏阳信息技术有限公司 连续视频图像处理的纸质文档扫描仪及扫描方法
CN202512877U (zh) * 2012-03-08 2012-10-31 苏州市职业大学 一种用于乐谱识别及自动演奏的装置
CN105280170A (zh) * 2015-10-10 2016-01-27 北京百度网讯科技有限公司 一种乐谱演奏的方法和装置
CN107146631A (zh) * 2016-02-29 2017-09-08 北京搜狗科技发展有限公司 音乐识别方法、音符识别模型建立方法、装置及电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Development of an Image Processing Based Sheet Music Recognition System for iOS Devices;Bo-Ren Wang 等;《 2014 IEEE International Conference on Consumer Electronics》;20140922;第223-224页 *
基于图像识别的虚拟翻书系统;李炜 等;《微型机与应用》;20101231(第5期);第12-14,17页 *
电子乐谱综述;许锦生 等;《微处理机》;20120228(第1期);第88-91页 *

Also Published As

Publication number Publication date
CN108664977A (zh) 2018-10-16

Similar Documents

Publication Publication Date Title
CN108664977B (zh) 一种基于实时视频流的五线谱图像识别与编码方法及系统
CN106156761B (zh) 面向移动终端拍摄的图像表格检测与识别方法
CN110210413B (zh) 一种基于深度学习的多学科试卷内容检测与识别系统及方法
EP1598770B1 (en) Low resolution optical character recognition for camera acquired documents
CN109657665A (zh) 一种基于深度学习的发票批量自动识别系统
CN116071763B (zh) 基于文字识别的教辅图书智能校编系统
CN112052852A (zh) 一种基于深度学习的手写气象档案资料的字符识别方法
CN109446873A (zh) 手写字体识别方法、系统以及终端设备
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
Suryani et al. The handwritten sundanese palm leaf manuscript dataset from 15th century
CN110598581B (zh) 基于卷积神经网络的光学乐谱识别方法
Chamchong et al. Character segmentation from ancient palm leaf manuscripts in Thailand
Tardón et al. Optical music recognition for scores written in white mensural notation
CN106778717A (zh) 一种基于图像识别和k近邻的测评表识别方法
CN108304836A (zh) 一种基于图像的图书排序检测方法
CN113139535A (zh) 一种ocr文档识别方法
CN111639649B (zh) 一种基于实时图像流的简谱图像识别与编码方法及系统
CN104766043A (zh) 一种选票图像快速识别的方法
CN110598665B (zh) 一种基于车载移动深度学习平台的杆号识别方法
CN115240210A (zh) 一种用于手写汉字辅助练习的系统及方法
CN111274891B (zh) 一种面向简谱图像的音高及对应歌词提取方法及系统
CN111104869B (zh) 一种可识别小字符内容的工尺谱数字化方法
CN116012937B (zh) 一种交警手势识别方法
CN115273108B (zh) 一种人工智能识别自动归集方法及系统
Haghighi et al. A new large-scale multi-purpose handwritten Farsi database

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201225

CF01 Termination of patent right due to non-payment of annual fee