CN111639649A

CN111639649A - 一种基于实时图像流的简谱图像识别与编码方法及系统

Info

Publication number: CN111639649A
Application number: CN202010454466.4A
Authority: CN
Inventors: 陈鑫; 周莉; 肖哲; 刘苗
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2020-09-08
Anticipated expiration: 2040-05-26
Also published as: CN111639649B

Abstract

本发明提供了一种基于实时图像流的简谱图像识别与编码方法及系统，包括：实时图像流循环采集模块、简谱图像处理与识别模块、MIDI文件生成模块；基于实时图像流的方式，循环采集直至得到最稳定的简谱图像，根据所述简谱图像处理与识别模块对简谱图像进行处理和识别，并按照标准电子音乐文件格式MIDI对所述音乐信息进行编码和保存。本发明的有益效果是：本发明实现了纸质简谱的数字化存储和传输，在图像流的基础上，解决了机器人实时读谱演奏过程中稳定图像的获取问题和复杂情况下简谱识别及编码的问题，能够连续识别出多张乐谱，抗干扰能力好，具有比较强的实用性。

Description

一种基于实时图像流的简谱图像识别与编码方法及系统

技术领域

本发明涉及乐谱识别和机器人领域，尤其涉及一种基于实时图像流的简谱图像识别与编码方法及系统。

背景技术

历年来，经典的音乐作品大多数都以纸质的形式存储了下来，实际上，直到计算机迅速发展的今天，纸质乐谱仍然是音乐发表和音乐创作最主要的形式。然而，纸质乐谱文件不易于携带、传播、检索和存储，长久放置后的纸质乐谱还会褪色、损坏、片段丢失等。

近年来伴随着计算机科学的迅速发展，人类社会进入了一个数字化的时代。计算机大容量的存储能力、超高速检索能力、以及互联网带来良好的信息传播能力让各种资料都开始了数值化的存储和传播。因此乐谱的数字化是顺应时代发展规律的必然结果。

光学乐谱识别技术(Optical Music Recognition，简称OMR)的研究范畴属于文档图像分析(Document Image Analysis，简称DIA)，具体实现是指将乐谱图像输入至计算机中，运用图像处理和模式识别的有关知识，将纸质乐谱上的音符信息以及各种符号识别出来，并将其转化为时间上连续的音符数字化信息，最后编码成标准电子音乐格式(MIDI)。

传统的乐谱识别通常使用扫描仪或打印机，采用扫描的方式将乐谱图像信息输入至计算机中，如果在摆放平整、强光对照、近距离、高精度、无背景噪声干扰的扫描条件下，能够通过扫描仪或打印机能得到非常理想的乐谱图像，但是，这里需要的光照环境等要求非常苛刻，在现实中几乎不能达到，因此，在现实中要想得到理想的乐谱图像，就需要解决在摄像头采集的图像质量不高的情况下对乐谱的识别问题，即解决摄像头采集的图像中出现光照不均匀、乐谱不平整和存在拍摄阴影等的问题。

随着机器人技术的快速发展，目前机器人的发展方向从工业机器人，逐步开始转向家庭机器人和各种服务型、表演型机器人，在表演型机器人完成实时乐谱读谱并演奏的过程中，在实际的环境下拍摄的图片多受乐谱质量、摆放位置、光照阴影以及拍摄背景等因素的影响呈现不同程度的信息缺失。另外，实时演奏过程中，一首歌曲的长度通常不止简单的一张纸质乐谱图像，而是包含多张纸质乐谱，在这种情况下，解决表演型机器人实时演奏过程中稳定图像获取问题和复杂情况下乐谱识别编码的问题成为了一个难题。

发明内容

为了解决上述问题，本发明提供了一种基于实时图像流的简谱图像识别与编码方法及系统，一种基于实时图像流的简谱图像识别与编码方法主要包括以下步骤：

S1：对利用所述摄像头实时抓取的简谱图像流进行采集，并将所述简谱图像流以时间上连续的简谱图像进行序列化储存；选择简谱图像流中稳定的简谱图像，平均滤波处理后保存该简谱图像；

S2：获取步骤S1中保存的简谱图像，并对该简谱图像做二值化处理，识别二值化后的简谱图像中的小节线和下划线；根据识别出的下划线的角度对简谱图像做图片旋转矫正处理；根据所述小节线和下划线，通过基于特征学习的双层图像算子训练方法识别和定位所述旋转矫正后的简谱图像中的各种简谱音乐符号；

S3：按照标准电子音乐文件格式MIDI对步骤S2中得到的各种简谱音乐符号进行编码和保存，生成MIDI文件，即完成了对简谱图像的识别和编码，以便演奏机器人进行演奏该简谱对应的乐曲；MIDI文件的生成包含简谱调式的生成、简谱音高序列生成、简谱各音高对应音符时值生成与匹配、简谱音符信息序列中音高与时值的调整和简谱二进制文件编码与存储。

进一步地，摄像头在1秒内连续拍摄抓取5帧乐谱图像；选择选择简谱图像流中稳定的简谱图像，平均滤波处理后保存该简谱图像的过程为：取出5张所述的时间上连续的乐谱图片，对其中连续的两张做直接做背景差分算法，将相邻的两张图片像素点直接相减，将像素灰度差异值在15以下像素点的视为噪声干扰，忽略此差异，像素灰度差异值在15及以上像素点时，定义像素变化点的个数占总像素点个数比为视频流的变化率，通过4次差分，累加变化率得到5张图片间的视频流变化率；将所述的视频流变化率和预设的动态变化阈值相比较，若大于动态变化阈值，则视频为动态翻页过程，丢弃检测到的动态视频流，循环进入下一次视频流采集；若小于动态变化阈值，则说明在视频流稳定，将5张时间上连续的图片像素值做累加后再平均，达到在时间上平均滤波的效果，减少在一次拍摄过程中由于摄像头感光元件、光线因素等所造成的噪声干扰，最后保存平均滤波处理后的稳定乐谱图像。

进一步地，二值化处理的过程为：通过Otsu算法，以聚类的思想将图像像素灰度分为两类，以最大化类间方差为目标，将采集到的灰度图像进行二值化处理，即黑色灰度值为0，白色灰度值为255。

进一步地，小节线和下划线的识别通过基于特征学习的双层图像算子训练方法实现，将带标签的训练样本作为输入—输出图像对，以机器学习的方式，在训练过程中主动学习样本特征，并以图像算子的形式保存；

训练双层图像算子的过程为，将带标签的训练样本作为输入—输出图像对，将二值化后的图像作为输入图像，输出图像为输入图像中仅含有小节线和下划线的部分图像，该部分图像为带有标签的训练样本，以此为输入—输出图像对，采用Relief算法训练第一层图像算子，得到的图像算子表示学习到小节线的特有特征，训练出来的算子和原始图像卷积就能得到仅剩小节线和下划线的输出图像，以这种方式完成对原始图像中小节线和下划线的识别，所述原始图像是指二值化及旋转矫正处理后的简谱图像。

进一步地，在所述的仅剩小节线和下划线的输出图像中，通过检测下划线的角度，将其与水平线之间的角度差作为图像旋转角度，对图像进行旋转矫正；所述多种简谱音乐符号包括数字：“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”，字母：“C”、“D”、“E”、“F”、“G”、“A”、“B”，其他符号：连音符、附点、升音符、降音符和还原符，共23种不同类型。

进一步地，各种简谱音乐符号的识别通过所述的基于特征学习的双层图像算子训练方法实现，将带标签的训练样本作为输入—输出图像对，以机器学习的方式，在训练过程中主动学习样本特征，并以图像算子的形式保存；每次训练只将原始图像分为两类，经过多次训练，得到多个图像算子，进而实现对每种音乐符号的识别和高精度分类。这是因为，简谱图像中，音乐符号种类多样，一个分类器难以实现对所有符号的高精度分类。而对每种音乐符号来说，将多种音乐符号分为两类，此类A和非此类B，非此类B是指除了此类A之外剩余的多类符号的集合，训练一个符合此类A的音乐符号特征的图像算子，即训练一个识别此类A的分类器。经过多次类似训练，可以针对每种音乐符号训练一个特定的分类器，最终可以得到多个分类器，即得到多个图像算子，从而实现对每种符号的高精度识别。

进一步地，简谱调式的生成，实质上是对“C”、“D”、“E”、“F”、“G”、“A”、“B”七个大写字母的识别，即对所述的经过旋转矫正后的简谱图像，分别与学习到的字母“C”、“D”、“E”、“F”、“G”、“A”、“B”的特征图像算子做卷积，输出图像中含有的字母即为本首乐曲的调式基础；

简谱音高序列生成，实质上是对“1”、“2”、“3”、“4”、“5”、“6”、“7”七个数字和附点、升音符、降音符、还原符四种音乐符号的识别；将所述的经过旋转矫正后的简谱图像，分别与学习到的字母“1”、“2”、“3”、“4”、“5”、“6”、“7”的特征图像算子做卷积，输出图像中含有的数字即为音符音高，再根据不同音的位置关系，将识别的音高按位置先后顺序编码成音符序列；

简谱各音高对应音符时值生成与匹配，实质上是对各音符音高附近下划线的识别；将所述的经过旋转矫正后的简谱图像，与学习到的包含下划线和小节线的特征的图像算子做卷积，输出图像即仅含下划线和小节线的图像，定位各下划线在图像中的起始位置和终止位置，结合位置关系，将其与识别到的音符音高做匹配，即可得到各音高对应的时值；

简谱音符信息序列中音高与时值的调整，实质上是对连音符号的识别，将所述的经过旋转矫正后的简谱图像，与学习到的包含连音符号特征的图像算子做卷积，输出图像即仅含连音符号的图像，定位各下划线在图像中的起始位置和终止位置，结合位置关系，将相邻两相同音高的音符连在一起，时值为两相同音高时值之和，在乐理先验知识的基础上，结合调号，最终确定音符音高和时值；

简谱二进制文件编码与存储，实质上是将识别到的所有包含音符音高与时值的音符序列按照MIDI格式转化为二进制文件，即标准电子音乐文件格式进行存储。

一种基于实时图像流的简谱图像识别与编码系统，用于演奏机器人，所述演奏机器人具有摄像头和乐谱存放架；并实现上述任一项基于实时图像流的简谱图像识别与编码方法；具体包括：实时图像流循环采集模块、简谱图像处理与识别模块、MIDI文件生成模块；

实时图像流循环采集模块，用于对实时拍摄的简谱图像流进行采集，将所述简谱图像流以时间上连续的简谱图像进行序列化储存，选择简谱图像流中稳定的简谱图像，并发布平均滤波处理后的稳定的简谱图像；

所述简谱图像处理与识别模块，用于接收由所述简谱图像流循环采集节点发布的稳定的简谱图像，并对所述稳定的简谱图像进行二值化处理，通过基于特征学习的双层图像算子训练方法识别出多种简谱音乐符号；

MIDI文件生成模块，用于接收由所述五线谱图像处理与识别模块识别出的所述多种简谱音乐符号，并按照标准电子音乐文件格式MIDI对所述多种简谱音乐符号进行编码和保存；MIDI文件的生成包含简谱调式的生成，简谱音高序列生成，简谱各音高对应音符时值生成与匹配，简谱音符信息序列中音高与时值的调整，简谱二进制文件编码与存储。

进一步地，实时图像流循环采集模块中，摄像头在1秒内连续拍摄抓取5帧乐谱图像；选择选择简谱图像流中稳定的简谱图像，并发布平均滤波处理后的稳定的简谱图像的过程为：取出5张所述的时间上连续的乐谱图片，对其中连续的两张做直接做背景差分算法，将相邻的两张图片像素点直接相减，将像素灰度差异值在15以下像素点的视为噪声干扰，忽略此差异，定义像素变化点的个数占总像素点个数比为视频流的变化率，通过4次差分，累加变化率得到5张图片间总动态变化率；将所述的视频流变化率和预设的动态变化阈值相比较，若大于动态变化阈值，则视频为动态翻页过程，丢弃检测到的动态视频流，循环进入下一次视频流采集；若小于动态变化阈值，则说明在视频流稳定，将5张时间上连续的图片像素值做累加后再平均，达到在时间上平均滤波的效果，减少在一次拍摄过程中由于摄像头感光元件、光线因素等所造成的噪声干扰，最后发布平均滤波处理后的稳定乐谱图像。

进一步地，所述简谱图像处理与识别模块中，二值化处理的过程为：通过Otsu算法，以聚类的思想将图像像素灰度分为两类，以最大化类间方差为目标，将采集到的灰度图像进行二值化处理，即黑色灰度值为0，白色灰度值为255；

小节线和下划线的识别通过基于特征学习的双层图像算子训练方法实现，将带标签的训练样本作为输入—输出图像对，以机器学习的方式，在训练过程中主动学习样本特征，并以图像算子的形式保存；

将二值化后的图像作为输入图像，输出图像为输入图像中仅含有小节线和下划线的部分图像，该部分图像为带有标签的训练样本，以此为输入—输出图像对，采用Relief算法训练第一层图像算子，得到的图像算子表示学习到小节线的特有特征，训练出来的算子和原始图像卷积就能得到仅剩小节线和下划线的输出图像，以这种方式完成对原始图像中小节线和下划线的识别，所述原始图像是指二值化及旋转矫正处理后的简谱图像。

本发明提供的技术方案带来的有益效果是：本发明实现了纸质简谱的数字化存储和传输，在图像流的基础上，解决了表演型音乐机器人实时演奏过程中的稳定图像获取问题和复杂情况下简谱识别及编码的问题，能够连续识别出多张乐谱，抗干扰能力好，具有较强的实用性。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例中一种基于实时图像流的简谱图像识别与编码方法的流程图；

图2是本发明实施例中输入—输出图像对的具体实例示意图；图2中的(a)图为输入图像示意图，图2中的(b)图为输出图像示意图；

图3是本发明实施例中学习到的9个大小为9*9的第一层特征图像算子的示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

本发明的实施例提供了一种基于实时图像流的简谱图像识别与编码方法及系统。

请参考图1，图1是本发明实施例中一种基于实时图像流的简谱图像识别与编码方法的流程图，该基于实时图像流的简谱图像识别与编码方法用于演奏机器人，所述演奏机器人具有摄像头和乐谱存放支架，具体包括：实时图像流循环采集步骤、简谱图像处理与识别步骤、MIDI文件生成步骤；

所述实时图像流循环采集步骤，用于对实时拍摄的简谱图像流进行采集，得到多张简谱图像；利用摄像头，实时抓取简谱图像流，将所述简谱图像流以时间上连续的序列进行储存，在此基础上，结合图片与当前图像流中其他图像的差异判断当前简谱图像是否为稳定图像；若否，则丢弃所述当前简谱图像，回到所述实时图像流循环采集步骤，重新进行采集，得到新的多张简谱图像；若是，则所述当前简谱图像为稳定的简谱图像，对所述稳定的简谱图像进行时间序列上的平均滤波处理，并发布平均滤波处理过的所述稳定的简谱图像；

稳定图像的判断具体过程为：在1秒内连续抓取5帧简谱图像，将所述简谱图像流以时间上连续的序列进行储存；首先取出5张时间上连续的所述简谱图像，通过背景差分法，将相邻的两张乐谱图像的像素点g(x,y)的相减，像素的灰度差异值gray_dif在15以下的像素点为噪声干扰，除去噪声干扰，定义像素变化点的个数占总像素点个数比为视频流的变化率Rate_i，通过4次差分，累加变化率，得到5张乐谱图像间总动态变化率

判断将所述总动态变化率Rate_sum是否大于预设的标准阈值Rate_threshold，若是，则所述简谱图像为不稳定图像，丢弃检测到的所述动态简谱图像流，进入下一次图像流的采集，即利用所述图像流循环采集模块进行再次采集图像流；若否，则所述简谱图像为稳定的简谱图像，对5张所述稳定的简谱图像在时间上进行平均滤波的处理，减少在拍摄过程中由于摄像头感光元件、光线因素等而造成的噪声干扰，发布经过平均滤波处理过的所述稳定的简谱图像。

所述简谱图像处理与识别步骤，用于接收由所述简谱图像流循环采集节点发布的稳定的简谱图像，并对所述稳定的简谱图像进行处理，识别出多种音乐符号；所述简谱图像处理与识别模块具体的处理过程如下：

简谱图像处理与识别节点获取所述稳定的乐谱图像，在此基础上，通过Otsu算法，以聚类的思想将图像像素灰度分为两类，以最大化类间方差为目标，将采集到的灰度图像进行二值化处理，即输出图像只有黑白两种颜色，对应两种灰度值，黑色灰度值为0，白色灰度值为255。

首先检测二值化后的简谱图像中小节线和下划线的位置，根据下划线的角度信息，将其与水平线之间的角度差作为图像旋转角度，对图像进行旋转矫正。本实施例中，识别出各下划线的起始坐标(x_s,y_s)和终止坐标(x_e,y_e)，得到最长下划线与水平线之间的夹角θ，通过图像倾角θ，根据公式G(x₁,y₁)＝g(x-ytanθ,y+xtanθ)进行简谱图像矫正处理；其中，x代表待矫正图像中的横坐标，y代表待矫正图像中的纵坐标，经过上述公式校正后，得到校正后图像坐标G(x₁,y₁)，从而实现图像校正。

最后通过所述的基于特征学习的双层图像算子训练方法实现对各个音乐符号的识别，将原始图像和仅含小节线和下划线标签的图像作为输入—输出图像对，作为基于特征学习的双层图像算子训练方法的训练样本，即以原始图像为输入，以仅含小节线和下划线标签的图像为输出，以机器学习的方式，在训练过程中主动学习样本特征，并以图像算子的形式保存。然后采用训练好的图像算子进行测试，识别出对应音乐符号，完成多种简谱音乐符号的识别。

所述的基于特征学习的双层图像算子训练方法基于双层图像训练的架构实现，主要分为两步：

1.第一层图像特征算子训练；

2.第二层图像特征算子训练；

所述的第一层图像特征算子训练主要采用Relief算法，在本实施例中，输入—输出图像对请参考图2。输入图像为二值化且矫正处理后的原始图像，输出图像为仅含下划线和小节线的图像(以小节线和下划线识别为例，其它符号同理)。

将灰度分布为f_in(x,y)的原始图像作为输入图像，和灰度分布为f_out(x,y)的对应样本图像作为输出图像。定义图像特征算子ζ面积大小为W×H，对于图像中任一点像素点i，若f_in(x_i,y_i)＝f_out(x_i,y_i)＝0，则认为当前像素点为正例，将其邻域W×H范围内像素分布作为正例样本，加入正例样本集S⁺，若对任一点像素点if_in(x_i,y_i)＝0&&f_out(x_i,y_i)≠0，则认为当前像素点为反例，将其邻域W×H范围内像素分布作为反例样本，加入反例样本集S^-。然后采用Relief算法进行训练，得到基于学习的样本特征。

Relief算法的基本思想为：将训练集样本分为正例和反例两大类，每次从中随机取出三个样本，将取出的相同类别(如两个正例或两个反例)的多个特征值进行比较，若相同则该特征的权重增加，若不同则该特征权重减少。将取出的不同类别(如一个正例和一个反例)的多个特征值进行比较，若相同则权重减少，若不同则权重增加，重复上述步骤迭代多次，既可选择出权重较高的多个特征，作为学习到的对分类最有帮助的特征。

Relief算法具体如下：

Relief算法可以将邻域W×H范围内的像素按相关性大小排序，从而学习到样本在邻域W×H范围内的像素特征分布，同时其具有随机性，每次训练学习到的样本特征可能会不一样，通过多次执行Relief算法，可以得到多组不同的图像特征算子ζ_i，即训练学习得到多个第一层图像特征算子，请参考图3，可以看出所述的基于特征学习的双层图像算子训练方法能学习到下划线为水平方向直线的这一特征。

所述的第二层图像特征算子训练也采用Relief算法实现，主要差别在于，从样本集中选取样本不再是对邻域内的像素值进行相关性分析，而是对学习到的第一层图像特征算子按照相关性排序，由于不同的第一层图像特征算子表示样本不同的局部邻域特征，如何综合考虑第一层算子，结合不同的局部特征差异最大化表示样本成为了第二层图像特征算子需要解决的问题，通过对学习到的第一层图像特征算子按照相关性分析，选取其中相关度较高的多个特征算子，进行最后决策，判断当前像素点是否为正例，从而决定是否在原图中删除当前像素点。

由于Relief算法具有随机性，多次训练，得到多个不同的第一层图像算子，表示训练样本的多种特征，也就是带有小节线和下划线标签的简谱图像多种特征；第二层图像算子也采用Relief算法，在第一层图像算子的基础上对样本进行训练，且只学习一个，即学习如何结合第一层学习到的多个图像特征算子，做最终决策，采用这种双层训练的方式，增强Relief算法的有效性。

测试过程则分别将根据各个不同样本学习到的对应的特征算子，依次应用于原始图像，输出图像中记录各个符号的在图像中起始位置(x_start,y_start)和终止位置(x_end,y_end)，即可完成各种音乐符号的识别与定位，在上述过程，每次对符号的识别过程均可看做是一个二分类问题，相较于多分类问题，准确度更高，更易于实现。同时，此过程需要学习的分类器数量等于待分类样本类别数，分类器数量相对于目前主流分类算法(如SVM)更少。

所述MIDI文件生成步骤，用于接收由所述五线谱图像处理与识别模块识别出的所述多种音乐符号，并按照标准电子音乐文件格式MIDI对所述多种音乐符号进行编码和保存。MIDI文件的生成包含简谱调式的生成，简谱音高序列生成，简谱各音高对应音符时值生成与匹配，简谱音符信息序列中音高与时值的调整，简谱二进制文件编码与存储。

所述简谱调式的识别，实质上是对“C”、“D”、“E”、“F”、“G”、“A”、“B”七个大写字母的识别。将所述的经过旋转矫正后的简谱图像，分别与学习到的字母“C”、“D”、“E”、“F”、“G”、“A”、“B”的特征图像算子做卷积，输出图像中含有的字母即为本首乐曲的调式基础。

所述简谱音高的识别，实质上是对“1”、“2”、“3”、“4”、“5”、“6”、“7”七个数字和附点、升音符、降音符、还原符四种音乐符号的识别；将所述的经过旋转矫正后的简谱图像，分别与学习到的字母“1”、“2”、“3”、“4”、“5”、“6”、“7”的特征图像算子做卷积，输出图像中含有的数字即为音符音高。再根据其他音乐符号与数字的位置关系，修改音符音高。若附点位于音符上方，则该音符音高提高一个八度，若附点位于音符上方，则该音符音高降低一个八度。若升音符位于音符前面，则该音符音高升一度，若降音符位于音符前面，则该音符音高降低一度，最后根据不同音的前后位置关系，将识别的音高按位置先后顺序编码成音符序列。

所述简谱时值的识别，实质上是对下划线的识别；将所述的经过旋转矫正后的简谱图像，与学习到的下划线和小节线的特征图像算子做卷积，得到输出图像中各横线起始位置(x_start,y_start)和终止位置(x_end,y_end)。若下划线在音符下方，则当前音符时值减半，从而依次修改音符序列中各音高的时值，完成简谱时值的识别。

所述简谱音符信息序列中音高与时值的调整，实际上是对连音符号的识别，将所述的经过旋转矫正后的简谱图像，与学习到的包含连音符号特征的图像算子做卷积，输出图像即仅含连音符号的图像，定位各下划线在图像中的起始位置和终止位置，结合位置关系，将相邻两相同音高的音符连在一起，时值为两相同音高时值之和，在乐理先验知识的基础上，结合调号，最终确定音符音高和时值。

所述简谱二进制文件编码与存储，实质上是将识别到的所有包含音符音高与时值的音符序列按照MIDI格式转化为二进制文件，即标准电子音乐文件格式进行存储。

一种基于实时图像流的简谱图像识别与编码系统，用于演奏机器人，所述演奏机器人具有摄像头和乐谱存放架；并实现上述任一项基于实时图像流的简谱图像识别与编码方法；其特征在于：包括：实时图像流循环采集模块、简谱图像处理与识别模块、MIDI文件生成模块；

本发明的有益效果是：本发明实现了纸质简谱的数字化存储和传输，在图像流的基础上，解决了表演性音乐机器人实时演奏过程中的稳定图像获取问题与复杂情况下乐谱识别编码的难题，能够连续识别多张简谱，抗干扰能力好，具有很强的实用性。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于实时图像流的简谱图像识别与编码方法，用于演奏机器人，所述演奏机器人具有摄像头和乐谱存放架；其特征在于：包括：

2.如权利要求1所述的一种基于实时图像流的简谱图像识别与编码方法，其特征在于：步骤S1中，摄像头在1秒内连续拍摄抓取5帧乐谱图像；选择选择简谱图像流中稳定的简谱图像，平均滤波处理后保存该简谱图像的过程为：取出5张所述的时间上连续的乐谱图片，对其中连续的两张做直接做背景差分算法，将相邻的两张图片像素点直接相减，将像素灰度差异值在15以下像素点的视为噪声干扰，忽略此差异，像素灰度差异值在15及以上像素点时，定义像素变化点的个数占总像素点个数比为视频流的变化率，通过4次差分，累加变化率得到5张图片间的视频流变化率；将所述的视频流变化率和预设的动态变化阈值相比较，若大于动态变化阈值，则视频为动态翻页过程，丢弃检测到的动态视频流，循环进入下一次视频流采集；若小于动态变化阈值，则说明在视频流稳定，将5张时间上连续的图片像素值做累加后再平均，达到在时间上平均滤波的效果，减少在一次拍摄过程中由于摄像头感光元件、光线因素等所造成的噪声干扰，最后保存平均滤波处理后的稳定乐谱图像。

3.如权利要求1所述的一种基于实时图像流的简谱图像识别与编码方法，其特征在于：步骤S2中，二值化处理的过程为：通过Otsu算法，以聚类的思想将图像像素灰度分为两类，以最大化类间方差为目标，将采集到的灰度图像进行二值化处理，即黑色灰度值为0，白色灰度值为255。

4.如权利要求1所述的一种基于实时图像流的简谱图像识别与编码方法，其特征在于：步骤S2中，小节线和下划线的识别通过基于特征学习的双层图像算子训练方法实现，事先通过某一训练集中的训练数据对双层图像算子进行训练，以机器学习的方式，在训练过程中主动学习样本特征，并以图像算子的形式保存；

5.如权利要求1所述的一种基于实时图像流的简谱图像识别与编码方法，其特征在于：步骤S2中，在所述的仅剩小节线和下划线的输出图像中，通过检测下划线的角度，将其与水平线之间的角度差作为图像旋转角度，对图像进行旋转矫正；所述多种简谱音乐符号包括数字：“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”，字母：“C”、“D”、“E”、“F”、“G”、“A”、“B”，其他符号：连音符、附点、升音符、降音符和还原符，共23种不同类型。

6.如权利要求5所述的一种基于实时图像流的简谱图像识别与编码方法，其特征在于：步骤S2中，各种简谱音乐符号的识别通过所述的基于特征学习的双层图像算子训练方法实现，将带标签的训练样本作为输入—输出图像对，以机器学习的方式，在训练过程中主动学习样本特征，并以图像算子的形式保存；每次训练只将原始图像分为两类，经过多次训练，得到多个图像算子，进而实现对每种音乐符号的识别和高精度分类。

7.如权利要求1所述的一种基于实时图像流的简谱图像识别与编码方法，其特征在于：步骤S3中，简谱调式的生成，实质上是对“C”、“D”、“E”、“F”、“G”、“A”、“B”七个大写字母的识别，即对所述的经过旋转矫正后的简谱图像，分别与学习到的字母“C”、“D”、“E”、“F”、“G”、“A”、“B”的特征图像算子做卷积，输出图像中含有的字母即为本首乐曲的调式基础；

8.一种基于实时图像流的简谱图像识别与编码系统，用于演奏机器人，所述演奏机器人具有摄像头和乐谱存放架；并实现上述任一项基于实时图像流的简谱图像识别与编码方法；其特征在于：包括：实时图像流循环采集模块、简谱图像处理与识别模块、MIDI文件生成模块；

9.如权利要求8所述的一种基于实时图像流的简谱图像识别与编码系统，其特征在于：实时图像流循环采集模块中，摄像头在1秒内连续拍摄抓取5帧乐谱图像；选择选择简谱图像流中稳定的简谱图像，并发布平均滤波处理后的稳定的简谱图像的过程为：取出5张所述的时间上连续的乐谱图片，对其中连续的两张做直接做背景差分算法，将相邻的两张图片像素点直接相减，将像素灰度差异值在15以下像素点的视为噪声干扰，忽略此差异，定义像素变化点的个数占总像素点个数比为视频流的变化率，通过4次差分，累加变化率得到5张图片间总动态变化率；将所述的视频流变化率和预设的动态变化阈值相比较，若大于动态变化阈值，则视频为动态翻页过程，丢弃检测到的动态视频流，循环进入下一次视频流采集；若小于动态变化阈值，则说明在视频流稳定，将5张时间上连续的图片像素值做累加后再平均，达到在时间上平均滤波的效果，减少在一次拍摄过程中由于摄像头感光元件、光线因素等所造成的噪声干扰，最后发布平均滤波处理后的稳定乐谱图像。

10.如权利要求8所述的一种基于实时图像流的简谱图像识别与编码系统，其特征在于：所述简谱图像处理与识别模块中，二值化处理的过程为：通过Otsu算法，以聚类的思想将图像像素灰度分为两类，以最大化类间方差为目标，将采集到的灰度图像进行二值化处理，即黑色灰度值为0，白色灰度值为255；