CN108664977A

CN108664977A - 一种基于实时视频流的五线谱图像识别与编码方法及系统

Info

Publication number: CN108664977A
Application number: CN201810456356.4A
Authority: CN
Inventors: 陈鑫; 周莉; 肖哲; 胡欣月; 费婷
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2018-05-14
Filing date: 2018-05-14
Publication date: 2018-10-16
Anticipated expiration: 2038-05-14
Also published as: CN108664977B

Abstract

本发明提供了一种基于实时视频流的五线谱图像识别与编码方法及系统，包括：实时视频流循环采集模块、视频流动态翻页判断模块、五线谱图像处理与识别模块、MIDI文件生成模块；基于实时视频流的方式，进行乐谱图像的翻页动态性判断，根据所述五线谱图像处理与识别模块对五线谱图像进行处理和识别，并按照标准电子音乐文件格式MIDI对所述音乐符号流进行编码和保存。本发明的有益效果是：本发明实现了纸质乐谱的数字化存储和传输，在视频流的基础上，解决了机器人实时演奏过程中的动态翻页过程的判断问题和复杂情况下乐谱识别及编码的问题，能够连续识别出多张乐谱，抗干扰能力好，具有很强的实用性。

Description

一种基于实时视频流的五线谱图像识别与编码方法及系统

技术领域

本发明涉及乐谱识别领域，尤其涉及一种基于实时视频流的五线谱图像识别与编码系统。

背景技术

历年来，经典的音乐作品大多数都以纸质的形式存储了下来，实际上，直到计算机迅速发展的今天，纸质乐谱仍然是音乐发表和音乐创作最主要的形式。然而，纸质乐谱文件不易于携带、传播、检索和存储，长久放置后的纸质乐谱还会褪色、损坏、片段丢失等。

近年来伴随着计算机科学的迅速发展，人类社会进入了一个数字化的时代。计算机大容量的存储能力、超高速检索能力、以及互联网带来良好的信息传播能力让各种资料都开始了数值化的存储和传播。因此乐谱的数字化是顺应时代发展规律的必然结果。

光学乐谱识别技术(Optical Music Recognition，简称OMR)的研究范畴属于文档图像分析(Document Image Analysis，简称DIA)，具体实现是指将乐谱图像输入至计算机中，运用图像处理和模式识别的有关知识，将纸质乐谱上的音符信息以及各种符号识别出来，并将其转化为时间上连续的音符数字化信息，最后编码成标准电子音乐格式(MIDI)。

传统的乐谱识别通常使用扫描仪或打印机，采用扫描的方式将乐谱图像信息输入至计算机中，如果在摆放平整、强光对照、近距离、高精度、无背景噪声干扰的扫描条件下，能够通过扫描仪或打印机能得到非常理想的乐谱图像，但是，这里需要的光照环境等要求非常苛刻，在现实中几乎不能达到，因此，在现实中要想得到理想的乐谱图像，就需要解决在摄像头采集的图像质量不高的情况下对乐谱的识别问题，即解决摄像头采集的图像中出现光照不均匀、乐谱不平整和存在拍摄阴影等的问题。

随着机器人技术的快速发展，目前机器人的发展方向从工业机器人，逐步开始转向家庭机器人和各种服务型、表演型机器人，在表演型机器人完成实时乐谱读谱并演奏的过程中，在实际的环境下拍摄的图片多受乐谱质量、摆放位置、光照阴影以及拍摄背景等因素的影响呈现不同程度的信息缺失。另外，实时演奏过程中，一首歌曲的长度通常不止简单的一张纸质乐谱图像，而是包含多张纸质乐谱，在这种情况下，解决表演型机器人实时演奏过程中的动态翻页过程的判断问题和复杂情况下乐谱识别编码的问题成为了一个难题。

发明内容

为了以上问题，本发明提供了一种基于实时视频流的五线谱图像识别与编码方法及系统。一种基于实时视频流的五线谱图像识别与编码方法及系统，一种基于实时视频流的五线谱图像识别与编码方法，用于演奏机器人,所述演奏机器人具有摄像头和乐谱存放支架,解决所述演奏机器人实时演奏过程中的动态翻页过程的判断问题和乐谱识别及编码的问题，包括了实时视频流循环采集步骤、视频流动态翻页判断步骤、五线谱图像处理与识别步骤、MIDI文件生成步骤；

所述实时视频流循环采集步骤，用于对所述摄像头实时拍摄的所述乐谱存放支架上的乐谱视频流进行采集，得到多张乐谱图像；

所述视频流动态翻页判断步骤，对所述实时视频流循环采集步骤得到的所述多张乐谱图像进行动态翻页判断，判断所述多张乐谱图像间是否为翻页过程，若是，则丢弃所述多张乐谱图像，回到所述实时视频流循环采集步骤，重新进行采集，得到新的多张乐谱图像；若否，则所述多张乐谱图像为稳定的乐谱图像，对所述稳定的乐谱图像进行时间序列上的平均滤波处理，并发布平均滤波处理过的所述稳定的乐谱图像；

所述五线谱图像处理与识别步骤，对所述稳定的乐谱图像进行处理，识别出多种音乐符号；

所述MIDI文件生成步骤，结合音乐先验知识，修正识别出的所述多种音乐符号的包括音高、时值和强度的信息，并按照标准电子音乐文件格式MIDI对修正过的所述多种音乐符号进行编码和保存。

进一步地，所述实时视频流循环采集步骤中，利用摄像头，实时抓取乐谱视频流，将所述乐谱视频流以时间上连续的序列进行储存乐谱图像。

进一步地，所述视频流动态翻页判断步骤中，动态翻页判断的过程为：采用背景差分法，得到所述多张乐谱图像间总动态变化率；通过比较所述总动态变化率与预设的标准阈值的大小，判断所述多张乐谱图像间是否为动态翻页过程，若所述总动态变化率小于所述预设的标准阈值，则所述多张乐谱图像间不是动态翻页过程，所述张乐谱图像为所述稳定的乐谱图像。

进一步地，所述五线谱图像处理与识别步骤中，对所述稳定的乐谱图像进行处理与识别的过程为：首先根据最大类间方差的方法对所述稳定的乐谱图像进行二值化处理，根据水平投影，定位所述稳定的乐谱图像中的五线谱区域，进行谱线矫正处理；然后采用谱线修补法，对矫正后的所述稳定的乐谱图像进行谱线修补和多余谱线删除处理；再通过快速连通域标记法和垂直游程分析法对谱线删除后的所述稳定的乐谱图像做音符群识别，并在记录下所述音符群后，删除所述音符群，以提高剩余的独立的音乐符号的识别率；最后根据特征提取的方法提取音乐符号的特征并计算相似度，识别出剩余的独立的多种音乐符号。

进一步地，所述MIDI文件生成步骤中，首先提取所述多种音乐符号的包括音高、时值和强度的信息，然后结合音乐先验知识，根据所述多张乐谱图像中包括谱号、调号和临时升降符号调整所述多种音乐符号的音高，根据附点、休止符调整所述多种音乐符号的时值，将所述多种音乐符号转化为音高、时值、强度三部分进行编码。

一种基于实时视频流的五线谱图像识别与编码系统，集成于演奏机器人中,所述系统包括：实时视频流循环采集模块、视频流动态翻页判断模块、五线谱图像处理与识别模块、MIDI文件生成模块；

所述实时视频流循环采集模块，用于对实时拍摄的乐谱视频流进行采集，得到多张乐谱图像；

所述视频流动态翻页判断模块，接收由所述视频流循环采集模块得到的所述多张乐谱图像，并判断所述多张乐谱图像是否进行动态翻页,若是，则丢弃所述多张乐谱图像，回到所述实时视频流循环采集模块，重新进行采集，得到新的多张乐谱图像；若否，则所述多张乐谱图像为稳定的乐谱图像，对所述稳定的乐谱图像进行时间序列上的平均滤波处理，并发布平均滤波处理过的所述稳定的乐谱图像；

所述五线谱图像处理与识别模块，接收由所述视频流动态判断模块得到的稳定的乐谱图像，并对所述稳定的乐谱图像进行处理，识别出多种音乐符号；

所述MIDI文件生成模块，接收由所述五线谱图像处理与识别模块识别出的所述多种音乐符号，并按照标准电子音乐文件格式MIDI对所述多种音乐符号进行编码和保存。

进一步地，所述实时视频流循环采集模块中，利用所述摄像头，实时抓取乐谱视频流，将所述乐谱视频流以时间上连续的序列进行储存乐谱图像。

进一步地，所述视频流动态翻页判断模块中，动态翻页判断的过程为：采用背景差分法，得到所述多张乐谱图像间总动态变化率；通过比较所述总动态变化率与预设的标准阈值的大小，判断所述多张乐谱图像间是否为动态翻页过程，若所述总动态变化率小于所述预设的标准阈值，则所述多张乐谱图像间不是动态翻页过程，所述张乐谱图像为所述稳定的乐谱图像。

进一步地，所述五线谱图像处理与识别模块中，对所述稳定的乐谱图像进行处理与识别的过程为：首先根据最大类间方差的方法对所述稳定的乐谱图像进行二值化处理，根据水平投影，定位所述稳定的乐谱图像中的五线谱区域，进行谱线矫正处理；然后采用谱线修补法，对矫正后的所述稳定的乐谱图像进行谱线修补和多余谱线删除处理；再通过快速连通域标记法和垂直游程分析法对谱线删除后的所述稳定的乐谱图像做音符群识别，并在记录下所述音符群后，删除所述音符群，以提高剩余的独立的音乐符号的识别率；最后根据特征提取的方法提取音乐符号的特征并计算相似度，识别出剩余的独立的多种音乐符号。

进一步地，所述MIDI文件生成模块中，首先提取所述多种音乐符号的包括音高、时值和强度的信息，然后结合音乐先验知识，根据所述多张乐谱图像中包括谱号、调号和临时升降符号调整所述多种音乐符号的音高，根据附点、休止符调整所述多种音乐符号的时值，将所述多种音乐符号转化为音高、时值、强度三部分进行编码。

本发明提供的技术方案带来的有益效果是：本发明实现了纸质乐谱的数字化存储和传输，在视频流的基础上，解决了机器人实时演奏过程中的动态翻页过程的判断问题和复杂情况下乐谱识别及编码的问题，能够连续识别出多张乐谱，抗干扰能力好，具有很强的实用性。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例中一种基于实时视频流的五线谱图像识别与编码方法的流程图；

图2是本发明实施例中摄像头循环采集视频流和判断视频流是否为动态翻页的示意图；

图3是五线谱图像处理与识别及MIDI文件生成的流程图；

图4为在本实施例中对图像进行垂直游程编码的示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

本发明的实施例提供了一种基于实时视频流的五线谱图像识别与编码方法及系统。在本实施例中，所述乐谱具体指的是五线谱。请参考图1，图1是本发明实施例中一种基于实时视频流的五线谱图像识别与编码方法的流程图，一种基于实时视频流的五线谱图像识别与编码方法,用于演奏机器人,所述演奏机器人具有摄像头和乐谱存放支架,所述方法包括实时视频流循环采集步骤、视频流动态翻页判断步骤、五线谱图像处理与识别步骤、MIDI文件生成步骤；

所述实时视频流循环采集步骤，用于对实时拍摄的乐谱视频流进行采集，得到多张乐谱图像；利用摄像头，实时抓取乐谱视频流，将所述乐谱视频流以时间上连续的序列进行储存乐谱图像；

所述视频流动态翻页判断步骤，对所述实时视频流循环采集步骤得到的所述多张乐谱图像进行动态翻页判断，判断所述多张乐谱图像间是否为翻页过程，若是，则丢弃所述多张乐谱图像，回到所述实时视频流循环采集步骤，重新进行采集，得到新的多张乐谱图像；若否，则所述多张乐谱图像为稳定的乐谱图像，对所述稳定的乐谱图像进行时间序列上的平均滤波处理，并发布平均滤波处理过的所述稳定的乐谱图像；动态翻页判断的过程为：采用背景差分法，得到所述多张乐谱图像间总动态变化率；通过比较所述总动态变化率与预设的标准阈值的大小，判断所述多张乐谱图像间是否为动态翻页过程，若所述总动态变化率小于所述预设的标准阈值，则所述多张乐谱图像间不是动态翻页过程，所述张乐谱图像为所述稳定的乐谱图像；

所述五线谱图像处理与识别步骤，对所述稳定的乐谱图像进行处理，识别出多种音乐符号；对所述稳定的乐谱图像进行处理与识别的过程为：首先根据最大类间方差的方法对所述稳定的乐谱图像进行二值化处理，根据水平投影，定位所述稳定的乐谱图像中的五线谱区域，进行谱线矫正处理；然后采用谱线修补法，对矫正后的所述稳定的乐谱图像进行谱线修补和多余谱线删除处理；再通过快速连通域标记法和垂直游程分析法对谱线删除后的所述稳定的乐谱图像做音符群识别，并在记录下所述音符群后，删除所述音符群，以提高剩余的独立的音乐符号的识别率；最后根据特征提取的方法提取音乐符号的特征并计算相似度，识别出剩余的独立的多种音乐符号。

所述MIDI文件生成步骤，结合音乐先验知识，修正识别出的所述多种音乐符号的包括音高、时值和强度的信息，并按照标准电子音乐文件格式MIDI对修正过的所述多种音乐符号进行编码和保存。首先提取所述多种音乐符号的包括音高、时值和强度的信息，然后结合音乐先验知识，根据所述多张乐谱图像中包括谱号、调号和临时升降符号调整所述多种音乐符号的音高，根据附点、休止符调整所述多种音乐符号的时值，将所述多种音乐符号转化为音高、时值、强度三部分进行编码，并对编码的文件进行保存。提取所述多种音乐符号的包括音高、时值和强度的信息的过程为：对比所述多种音乐符号的符头的中心和谱线相对高低位置得到所述多种音乐符号的音高、通过判断和所述多种音乐符号的符头相连通的符杠的个数得到所述多种音乐符号的时值，通过节奏型的变化得到所述音符强度。

所述实时视频流循环采集模块，用于对实时拍摄的乐谱视频流进行采集，得到多张乐谱图像；利用所述摄像头，实时抓取乐谱视频流，将所述乐谱视频流以时间上连续的序列进行储存乐谱图像；

所述视频流动态翻页判断模块，接收由所述视频流循环采集模块得到的所述多张乐谱图像，并判断所述多张乐谱图像是否进行动态翻页,若是，则丢弃所述多张乐谱图像，回到所述实时视频流循环采集模块，重新进行采集，得到新的多张乐谱图像；若否，则所述多张乐谱图像为稳定的乐谱图像，对所述稳定的乐谱图像进行时间序列上的平均滤波处理，并发布平均滤波处理过的所述稳定的乐谱图像；动态翻页判断的过程为：采用背景差分法，得到所述多张乐谱图像间总动态变化率；通过比较所述总动态变化率与预设的标准阈值的大小，判断所述多张乐谱图像间是否为动态翻页过程，若所述总动态变化率小于所述预设的标准阈值，则所述多张乐谱图像间不是动态翻页过程，所述张乐谱图像为所述稳定的乐谱图像；

请参见图2，图2是本发明实施例中摄像头循环采集视频流和判断视频流是否为动态翻页的示意图，所述视频流循环采集模块是利用摄像头，实时抓取乐谱视频流，在1秒内连续抓取5帧乐谱图像，将所述乐谱视频流以时间上连续的序列进行储存乐谱图像；首先取出5张时间上连续的所述乐谱图像，通过背景差分法，将相邻的两张乐谱图像的像素点g(x,y)的相减，像素的灰度差异值gray_dif在15以下的像素点为噪声干扰，除去噪声干扰，定义像素变化点的个数占总像素点个数比为视频流的变化率Rate_i，通过4次差分，累加变化率，得到5张乐谱图像间总动态变化率判断将所述总动态变化率Rate_sum是否大于预设的标准阈值Rate_thr，若是，则所述乐谱图像为翻页过程，丢弃检测到的所述动态视频流，进入下一次视频流的采集，即利用所述视频流循环采集模块进行再次采集视频流；若否，则所述乐谱图像即为稳定的乐谱图像，所述动态视频流稳定，将5张时间上连续的图像像素值g(x,y)做累加后，再根据公式对5张所述稳定的乐谱图像在时间上进行平均滤波的处理，减少在拍摄过程中由于摄像头感光元件、光线因素等而造成的噪声干扰，发布经过平均滤波处理过的所述稳定的乐谱图像；

请参考图3，图3是五线谱图像处理与识别及MIDI文件生成的流程图；通过订阅图像，接收由所述视频流动态判断模块发布的所述稳定的乐谱图像，并将所述稳定的乐谱图像进行实时处理与识别，对所述稳定的图像进行实时处理即是先对所述稳定的图像进行预处理，所述预处理包括：首先对所述稳定的图像进行去噪二值化处理，然后对所述稳定的乐谱图像中的五线谱区域进行谱线矫正处理，最后再对所述稳定的乐谱图像做谱线定位检测和谱线删除处理；预处理后，判断所述稳定的图像是否为五线谱图像，若是，则对所述稳定的图像进行音符识别，若否，则等待所述视频流动态判断模块发布所述稳定的乐谱图像；所述音符识别包括：对谱线删除后的所述稳定的乐谱图像做音符群识别和分类；音符识别后，进行MIDI编码处理：修正音符的音高、时值和强度，生成MIDI文件，并发布编码结果。

所述五线谱图像处理与识别模块，用于接收由所述视频流动态判断模块得到的稳定的乐谱图像，并对所述稳定的乐谱图像进行处理，识别出多种音乐符号；所述五线谱图像处理与识别模块具体的处理过程以下：

S101：订阅图像，接收所述稳定的乐谱图像，通过Otsu算法，以最大类间方差法对所述稳定的乐谱图像进行二值化处理；所述订阅图像是指，若所述视频流动态判断模块发布了所述稳定的乐谱图像，则所述五线谱图像处理与识别模块接收所述稳定的乐谱图像，若所述视频流动态判断模块没有发布所述稳定的乐谱图像，则所述五线谱图像处理与识别模块等待发布所述稳定的乐谱图像，知道最后接收到所述稳定的乐谱图像；

S102：定位二值化后的所述稳定的乐谱图像中的五线谱区域，并进行谱线矫正处理；因为纸质乐谱人工放置的因素，拍摄到的乐谱图像总存在小角度的倾斜，因此需要做谱线矫正处理，由于谱线断裂，表现为断断续续的小线段，所以将水平投影和Hough变换结合在一起，在多个角度做投影累积，累积投影长度最长的角度为最终的图像倾斜角；本实施例中，采取了上下各20^°为最大倾斜角，每1°进行一次投影，记录累积后的长度len_i，选取最长的投影长度len_i所对应的角度为最终的图像倾斜角θ，根据公式g'(x,y)＝g(x-ytanθ,y+xtanθ)进行谱线矫正处理；

请参考图4，图4为在本实施例中对图像进行垂直游程编码的示意图，在所述的谱线矫正后的图像中，对图像进行垂直游程编码，以200像素为游程长度最大值，分别得到黑白游程的长度分布直方图blank[i](0<i<200)和white[i](0<i<200),取其黑色游程长度出现频率最大的值max_blank作为谱线线宽linewidth，取其白色游程长度出现频率最大的值max_white作为谱线线间距linespacing。

S103：对矫正后的所述稳定的乐谱图像做谱线定位检测和谱线删除处理；在矫正后的所述稳定的乐谱图像中，通过水平投影初步定位谱线位置，采用谱线修补法，通过判断投影峰值所对应的行的白色游程最大值run_white，若run_white大于λ_run，投影为由于谱线上下加线而存在的多余的谱线投影，则删除由于谱线上下加线而存在的多余的谱线投影；根据谱线本身的特性，所述谱线在乐谱图像中表现为五条平行等距的直线，若run_white小于λ_run，则补全由于谱线断裂而未能成功形成投影峰值的谱线；在成功定位谱线后，采用垂直游程分析法将谱线删除，删除垂直方向上谱线线宽小于阈值ε的谱线，其中，λ_run＝2×linespacing，ε＝2×linewidth；

S104：对谱线删除后的所述稳定的乐谱图像进行音符群识别，并在记录下所述音符群后，删除所述音符群，以减少连通域标记的计算量和对独立音符识别的干扰；乐谱识别是需要识别出所有的音乐符号，然后将所有的音乐符号进行排序，就形成了一首曲子；所述音乐符号在乐谱中存在的两种形式是音符群和独立的音乐符号；音符群是由多个音乐符号任意组合起来的符号，因此音符群的形状具有多样性和无穷性，需要单独处理；通过基元分解可以将音符群分解为符头、符杆和符杠，所述音符群包括多个音符的符头、符杆和一个符杠，所述符杠是由多个音符的符尾连接在一起形成，在谱线删除后的乐谱图像中，根据谱线组的个数，将乐谱分为多个小节，从上到下依次处理，首先通过快速连通域标记法，得到每个乐谱符号的连通标记，再通过垂直游程分析，选取垂直游程达到一定长度且游程宽度小于一定阈值的游程作为符杆，删除符杆，分离出独立不连通的符头和符杠，对删除符杆后的乐谱图像做第二次连通域标定，将第二次连通域标定和第一次连通域标定做比较，取出第二次标定中和第一次标定中所在连通域标记相同的连通域，并计算所述相同的连通域的宽、高、面积比以及上下表面线性度，判断所述相同的连通域是符头还是符杠；若是符头，就和谱线相比较，得到音符的音高；若是符杠，就计算符杠的厚度，得到音符的时值；

在本实施例中，对一副W×H的乐谱图像I(x,y)，判断所述连通域是符头还是符杠的具体流程为：

S201：首先对所述乐谱图像进行垂直游程编码，得到小节内的黑色垂直游程链表cc_flag，每段游程信息包括起始点I(x,y)、游程长度len、连通标志位flag以及链表双向指针*before、*next，对游程进行连通域分析，将处于同一连通域的游程标志位flag标志为相同值；

S202：提取连通域的几何特征，对链表cc_flag中标志位flag相同的游程，计算所述连通域外圈包围框，左边界width_min，右边界width_max，上边界height_min，下边界height_max，面积area；

S203：若连通域满足width_max-width_min>μ_min、width_max-width_min<μ_max且area<μ_area，则所述连通域为符头；μ_min＝1.5×linespacing，μ_max＝2×linespacing，μ_area＝0.7；

S204：若连通域满足条件width_max-width_min>γ_min且其上下表面线性度满足liner_top>γ_line||liner_bot>γ_line，则所述连通域为符杠；γ_min＝2×linespacing，γ_line＝0.8；

S205：判断所述符头和所述符杠连通与否，因为音乐符号包括音高和时值，音高通过符头和谱线的相对位置判断，时值通过符杠的厚度判断，若所述符头和所述符杠连通，则说明对应的音高和时值是属于同一个音乐符号，将两者组合起来，就相当于识别出了这个音符的音高和时值；否则，就不是同一个音乐符号的音高和时值；若所述符头与所述符杠连通，则将所述符头与符杠组成的音符、音高和时值信息添加至音乐符号信息序列中，若所述符头或所述符杠单独存在，则将所述符头或符杠判断为误识别对象，剔除出音乐符号序列。

S105：对删除音符群后的所述稳定的乐谱图像，做音乐符号的特征提取并计算相似度，以识别剩余的多种独立的音乐符号；在所述的删除音符群的乐谱图像中，对剩下的音乐符号做连通域分析，计算每个连通域的7个不变矩以及外包围框的宽、高、面积，共10个形状描述符，将所述10个形状描述符与标准乐谱符号相比较，通过比例相似度来计算音乐符号的相似度，以达到识别不同的乐谱符号的效果；其中，得到7个不变矩的计算过程为：

对于灰度分布为f(x,y)，面积为D的乐谱图像，其(p+q)阶几何矩定义为：

其中，x、y分别为矩阵中的任意一点坐标；

(p+q)阶中心距定义为：

其中，和为图像重心，且和的值如公式(3)所示：

其中，m10、m00和m01分别为1+0阶几何矩、0+0阶几何矩和0+1阶几何矩；

归一化的中心距定义为：

其中，ρ＝(p+q)/2+1；

通过二阶和三阶归一化中心矩构建所述7个不变矩M₁,…,M₇，因为所述7个不变矩，具有良好的旋转、平移和尺度不变性，可以用来描述不同的音符符号，从而对音符进行识别，所述7个不变矩M₁,…,M₇如公式(5)～(11)所示：

M₁＝(η₂₀+η₀₂) (5)

M₂＝(η₂₀-η₀₂)²+4η₁₁ ² (6)

M₃＝(η₃₀-3η₁₂)²+(3η₂₁-η₀₃)² (7)

M₄＝(η₃₀+η₁₂)²+(η₂₁+η₀₃)² (8)

M₅＝(η₃₀-3η₁₂)(η₃₀+η₁₂)[(η₃₀+η₁₂)²-3(η₂₁+η₀₃)²]

+(3η₂₁-η₀₃)(η₂₁+η₀₃)[3(η₃₀+η₁₂)²-(η₂₁+η₀₃)²] (9)

M₆＝(η₂₀-η₀₂)[(η₃₀+η₁₂)²-(η₂₁+η₃₀)²]+4η₁₁(η₃₀+η₁₂)(η₂₁+η₃₀) (10)

M₇＝(3η₂₁+η₀₃)(η₃₀+η₁₂)[(η₃₀+η₁₂)²-3(η₂₁+η₀₃)²]

+(η₃₀-3η₁₂)(η₂₁+η₃₀)[3(η₃₀+η₁₂)²-(η₂₁+η₃₀)²] (11)

利用五线谱的线间距linespacing对每个连通域外包围框宽cc_width、高cc_height和面积cc_area进行归一化处理，如公式(12)～(14)所示：

其中,width_max、width_min分别为连通域外包围框宽的最大值和最小值，height_max、height_min分别为连通域外包围框高的最大值和最小值，linespacing为五线谱的线间距。

将得到的每个连通域的所述7个不变矩以及外包围框的宽、高和面积这10个形状描述符，与标准乐谱符号相比较，通过比例相似度来计算相似度，从而识别不同的乐谱符号；

所述MIDI文件生成模块，用于接收由所述五线谱图像处理与识别模块识别出的所述多种音乐符号，并按照标准电子音乐文件格式MIDI对所述多种音乐符号进行编码和保存。首先提取所述音乐符号的音高、时值和强度的信息，通过比较音符的符头的中心和谱线相对高低位置得到音符的音高、通过判断与音符的符头相连通的符杠的个数得到音乐符号的时值，最后通过节奏型的变化得到音乐符号强度；然后结合音乐先验知识，将所述音乐符号作用在音符上，修正每个音乐符号的音高、时值和强度，根据所述乐谱图像中谱号、调号和临时升降符号来调整乐谱的音高，根据附点、休止符等音乐符号来调整乐谱不同符号的时值，将所有的音乐符号转化为音高、时值、强度三部分，最后按照MIDI格式对处理过的乐谱进行编码和保存。

本发明的有益效果是：本发明实现了纸质乐谱的数字化存储和传输，在视频流的基础上，解决了机器人实时演奏过程中的动态翻页过程与复杂情况下乐谱识别编码的难题，能够连续识别多张乐谱，抗干扰能力好，具有很强的实用性。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于实时视频流的五线谱图像识别与编码方法,用于演奏机器人,所述演奏机器人具有摄像头和乐谱存放支架,其特征在于:所述方法包括实时视频流循环采集步骤、视频流动态翻页判断步骤、五线谱图像处理与识别步骤、MIDI文件生成步骤；

2.如权利要求1所述的一种基于实时视频流的五线谱图像识别与编码方法，其特征在于：所述实时视频流循环采集步骤中，利用所述摄像头，实时抓取乐谱视频流，将所述乐谱视频流以时间上连续的序列进行储存乐谱图像。

3.如权利要求1所述的一种基于实时视频流的五线谱图像识别与编码方法，其特征在于：所述视频流动态翻页判断步骤中，动态翻页判断的过程为：采用背景差分法，得到所述多张乐谱图像间总动态变化率；通过比较所述总动态变化率与预设的标准阈值的大小，判断所述多张乐谱图像间是否为动态翻页过程，若所述总动态变化率小于所述预设的标准阈值，则所述多张乐谱图像间不是动态翻页过程，所述张乐谱图像为所述稳定的乐谱图像。

4.如权利要求1所述的一种基于实时视频流的五线谱图像识别与编码方法，其特征在于：所述五线谱图像处理与识别步骤中，对所述稳定的乐谱图像进行处理与识别的过程为：首先根据最大类间方差的方法对所述稳定的乐谱图像进行二值化处理，根据水平投影，定位所述稳定的乐谱图像中的五线谱区域，进行谱线矫正处理；然后采用谱线修补法，对矫正后的所述稳定的乐谱图像进行谱线修补和多余谱线删除处理；再通过快速连通域标记法和垂直游程分析法对谱线删除后的所述稳定的乐谱图像做音符群识别，并在记录下所述音符群后，删除所述音符群，以提高剩余的独立的音乐符号的识别率；最后根据特征提取的方法提取音乐符号的特征并计算相似度，识别出剩余的独立的多种音乐符号。

5.如权利要求1所述的一种基于实时视频流的五线谱图像识别与编码方法，其特征在于：所述MIDI文件生成步骤中，首先提取所述多种音乐符号的包括音高、时值和强度的信息，然后结合音乐先验知识，根据所述多张乐谱图像中包括谱号、调号和临时升降符号调整所述多种音乐符号的音高，根据附点、休止符调整所述多种音乐符号的时值，将所述多种音乐符号转化为音高、时值、强度三部分进行编码。

6.一种基于实时视频流的五线谱图像识别与编码系统，集成于演奏机器人中,其特征在于：所述系统包括：实时视频流循环采集模块、视频流动态翻页判断模块、五线谱图像处理与识别模块、MIDI文件生成模块；

所述视频流动态翻页判断模块，用于接收由所述视频流循环采集模块得到的所述多张乐谱图像，并判断所述多张乐谱图像是否进行动态翻页,若是，则丢弃所述多张乐谱图像，回到所述实时视频流循环采集模块，重新进行采集，得到新的多张乐谱图像；若否，则所述多张乐谱图像为稳定的乐谱图像，对所述稳定的乐谱图像进行时间序列上的平均滤波处理，并发布平均滤波处理过的所述稳定的乐谱图像；

所述五线谱图像处理与识别模块，用于接收由所述视频流动态判断模块得到的稳定的乐谱图像，并对所述稳定的乐谱图像进行处理，识别出多种音乐符号；

所述MIDI文件生成模块，用于接收由所述五线谱图像处理与识别模块识别出的所述多种音乐符号，并按照标准电子音乐文件格式MIDI对所述多种音乐符号进行编码和保存。

7.如权利要求6所述的一种基于实时视频流的五线谱图像识别与编码系统，其特征在于：所述实时视频流循环采集模块中，利用所述摄像头，实时抓取乐谱视频流，将所述乐谱视频流以时间上连续的序列进行储存乐谱图像。

8.如权利要求6所述的一种基于实时视频流的五线谱图像识别与编码系统，其特征在于：所述视频流动态翻页判断模块中，动态翻页判断的过程为：采用背景差分法，得到所述多张乐谱图像间总动态变化率；通过比较所述总动态变化率与预设的标准阈值的大小，判断所述多张乐谱图像间是否为动态翻页过程，若所述总动态变化率小于所述预设的标准阈值，则所述多张乐谱图像间不是动态翻页过程，所述张乐谱图像为所述稳定的乐谱图像。

9.如权利要求6所述的一种基于实时视频流的五线谱图像识别与编码系统，其特征在于：所述五线谱图像处理与识别模块中，对所述稳定的乐谱图像进行处理与识别的过程为：首先根据最大类间方差的方法对所述稳定的乐谱图像进行二值化处理，根据水平投影，定位所述稳定的乐谱图像中的五线谱区域，进行谱线矫正处理；然后采用谱线修补法，对矫正后的所述稳定的乐谱图像进行谱线修补和多余谱线删除处理；再通过快速连通域标记法和垂直游程分析法对谱线删除后的所述稳定的乐谱图像做音符群识别，并在记录下所述音符群后，删除所述音符群，以提高剩余的独立的音乐符号的识别率；最后根据特征提取的方法提取音乐符号的特征并计算相似度，识别出剩余的独立的多种音乐符号。

10.如权利要求6所述的一种基于实时视频流的五线谱图像识别与编码系统，其特征在于：所述MIDI文件生成模块中，首先提取所述多种音乐符号的包括音高、时值和强度的信息，然后结合音乐先验知识，根据所述多张乐谱图像中包括谱号、调号和临时升降符号调整所述多种音乐符号的音高，根据附点、休止符调整所述多种音乐符号的时值，将所述多种音乐符号转化为音高、时值、强度三部分进行编码。