CN111274891B - 一种面向简谱图像的音高及对应歌词提取方法及系统 - Google Patents

一种面向简谱图像的音高及对应歌词提取方法及系统 Download PDF

Info

Publication number
CN111274891B
CN111274891B CN202010036491.0A CN202010036491A CN111274891B CN 111274891 B CN111274891 B CN 111274891B CN 202010036491 A CN202010036491 A CN 202010036491A CN 111274891 B CN111274891 B CN 111274891B
Authority
CN
China
Prior art keywords
character
pitch
image
characters
musical notation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010036491.0A
Other languages
English (en)
Other versions
CN111274891A (zh
Inventor
尹学渊
祁松茂
江天宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Potential Artificial Intelligence Technology Co ltd
Original Assignee
Chengdu Potential Artificial Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Potential Artificial Intelligence Technology Co ltd filed Critical Chengdu Potential Artificial Intelligence Technology Co ltd
Priority to CN202010036491.0A priority Critical patent/CN111274891B/zh
Publication of CN111274891A publication Critical patent/CN111274891A/zh
Application granted granted Critical
Publication of CN111274891B publication Critical patent/CN111274891B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Auxiliary Devices For Music (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种面向简谱图像的音高及对应歌词提取方法及系统,系统应用该方法,方法包括:将待识别的简谱图像转化为灰度图,并进行矫正;将处理后的简谱图像输入训练好的字符识别模型,识别得到简谱图像的字符及字符的位置信息的集合;根据字符的位置信息对字符进行排序分行,得到每行字符的字符集合;根据字符集合进行字符筛选,筛除无关信息,并将多个字符行的集合分为音高行和歌词行两个集合;将歌词行内的字符逐一与音高行内的字符进行距离计算;根据计算得到的距离以及单个字符的位置信息对音高字符和歌词字符进行匹配;从简谱图像中剪切出音高字符图像;分析剪切图像中浮点的存在性及位置占比,判断音高;更新歌词与对应音高的匹配结果。

Description

一种面向简谱图像的音高及对应歌词提取方法及系统
技术领域
本发明属于光学乐谱识别技术领域,具体地说,涉及一种面向简谱图像的音高及对应歌词提取方法及系统。
背景技术
在千万年的历史中,人类创作的音乐,发明了用于记录音乐的乐谱,为了便于学习,又发明了音乐简谱。曾经中国古代四大发明之一的造纸术,使得古人创作的各种作品得以一代一代保存并传递下来,其中就包括乐谱。在数字化信息化的现在,通过纸张保存下来的各种文字信息需要通过数字化的形式进行保存并传递,以便于检索、管理和利用。光学字符识别技术(Optical Character Recognition,OCR)近年来已经得到蓬勃发展。
申请号为201210086072.3的发明专利公开了一种简谱图像的自动识别和演奏的方法,该方法有三大步骤:步骤一、简谱图像预处理;步骤二、简谱基元识别;步骤三、数字音频的生成和播放。本发明在深入分析简谱特征基础上,克服了简谱识别的诸多难点,提出一整套简谱自动识别和智能播放方法。该方法可以自动识别印刷体简谱、带歌词简谱、简谱与五线谱混合谱、简谱与吉他谱混合谱等多种形式的印刷体简谱,正确率均在95%以上;此外,该方法可以模拟钢琴、小提琴、吉他等多种乐器对简谱的演奏效果,并且可以实现简谱的实时识别和播放。
该方案中采用支持向量机来识别简谱基元,通过构建样本分类器来分类音符基元,构建的样本分类器智能分类14类音符基元的两两组合,无法对简谱中的重要信息—歌词,进行定位和分类。不能够实现字符和音高匹配。
发明内容
针对现有技术中上述的不足,本发明提供一种面向简谱图像的音高及对应歌词提取方法及系统,该方法对简谱图像进行识别,实现字符和音高匹配,可以对互联网上存在的简谱数字图像有着较高的识别率和准确率,且识别速度较快,可以极大的降低人工成本,节省时间,提升效率;系统应用该方法,结构简单,识别速度较快。
为了达到上述目的,本发明采用的解决方案是:一种面向简谱图像的音高及对应歌词提取方法,包括如下步骤:
S1:简谱图像预处理,将待识别的简谱图像转化为灰度图,并对图像进行矫正;
S101:将简谱图像转换为单通道的灰度图,采用如下公式:
Gray=(R*a+G*b+B*c)/d,其中Gray为灰度通道,R为原图像红色通道值,G为绿色通道值,B为蓝色通道值,a、b、c、d是各个系数且均为正整数;
S102:采用透视变换对灰度图进行矫正,通过二值化和图像开闭运算获取灰度图的四角作为初始点坐标,指定变换后的四角坐标,根据矫正变换公式求出变换矩阵a,再按照变换矩阵对图像进行插值,完成图像矫正,矫正变换公式为:
Figure BDA0002366209030000021
其中,[x',y',w']是变换后的坐标点,[u,v,w]是初始的点坐标,由于初始点坐标源于二维图像,所以初始坐标的w恒为1;a矩阵是变换矩阵。
S2:将处理后的简谱图像输入训练好的字符识别模型,字符识别模型包括两个,一个是CTPN模型,另一个是DenseNet与CTC的组合模型,CTPN模型用于字符的定位,DenseNet与CTC的组合模型用于字符的识别,简谱图像输入两个字符识别模型后得到简谱图像的字符及字符的位置信息的集合,字符的位置信息也就是字符框的四角坐标。
S3:根据字符的位置信息对字符进行排序分行,得到每行字符的字符集合;
S301:按将字符照y轴坐标升序排序;
S302:将所有的字符分类成一行一行的字符行,分类标准为:若两个字符的y轴坐标相差不超过m个像素单位,则这两个字符属于同一行,m为一个正整数;
S303:将每一个字符行内的字符按照x轴坐标升序排序,得到以字符行为单位,每行字符行都按照x坐标升序排序的字符集合。
S4:根据字符集合进行字符筛选,筛除无关信息,并将多个字符行的集合分为音高行和歌词行两个集合;
S401:根据字符集合,以字符行为单位,判断字符集合与所有筛选信息的集合是否存在交集,若不存在交集,则跳过该字符集合,若存在交集,则删除对应字符集合;
S402:根据每行字符的类型以及其相邻字符行的类型判断出音高行和歌词行,将筛选后的字符集合进一步分为音高行和歌词行两个集合。
S5:根据识别得到的字符及字符的位置信息,将歌词行内的字符逐一与音高行内的字符进行距离计算,采用曼哈顿距离公式,计算两个字符的字符框左上顶点的坐标,公式如下:d(i,j)=|x1-x2|+|y1-y2|,其中,d(i,j)表示是i、j两个字符之间的曼哈顿距离;x1和y1是第i个字符位置框的左上顶点的坐标;x2和y2是第j个字符位置框的左上顶点坐标。
S6:根据计算得到的距离以及单个字符的位置信息对音高字符和歌词字符进行匹配:当且仅当音高字符和歌词字符中,音高字符y坐标大于歌词字符y坐标并且两个字符的曼哈顿距离最小时,两个字符相匹配。
S7:根据音高字符的位置信息,从简谱图像中剪切出音高字符图像。
S8:分析剪切图像中浮点的存在性及位置占比,判断音高;采用轮廓跟踪算法检测剪切图像的音高浮点:
S801:若检测到不存在浮点,则判定音高字符对应着本音,不存在高低八度;
S802:若检测到浮点,则判断音高字符属于哪种音高;
A.若音高字符的剪切图像的上方α*height部分存在浮点,则该音高字符为高八度的音高字符,α是(0,0.5)区间的某值;
B.若音高字符的剪切图像的下方β*height部分存在浮点,则该音高字符为低八度的音高字符,β是(0.5,1)区间的某值;
C.若音高字符剪切图像其余位置出现浮点,音高字符保持原音。
S9:根据判断的音高更新歌词与对应音高的匹配结果。
应用面向简谱图像的音高及对应歌词提取方法的系统,包括图像处理模块、字符识别模块、字符处理模块、字符匹配模块、音高字符图像获取模块和音高匹配模块;
所述的图像处理模块将待识别的简谱图像转化为灰度图,并对图像进行矫正;
所述的字符识别模块采用训练好的字符识别模型识别得到简谱图像的字符及字符的位置信息的集合;
所述的字符处理模块根据字符的位置信息对字符进行排序分行,再根据排序分行的结果进行字符筛选,筛除无关信息,最后将多个字符行的集合分为音高行和歌词行两个集合;
所述的字符匹配模块用于将将歌词行内的字符逐一与音高行内的字符进行距离计算,根据计算得到的距离以及单个字符的位置信息对音高字符和歌词字符进行匹配;
所述的音高字符图像获取模块用于根据音高字符的位置信息,从简谱图像中剪切出音高字符图像;
所述的音高匹配模块用于分析剪切图像中浮点的存在性及位置占比,判断音高,并将音高更新到歌词与对应音高的匹配结果中。
本发明的有益效果是:
(1)使用本方法对简谱图像进行识别,可以对互联网上存在的简谱数字图像有着较高的识别率和准确率,且识别速度较快,可以极大地降低人工成本,节省时间,提升效率。
(2)此外,本方法返回的匹配结果对于歌唱和人声旋律的应用也极有帮助;在一定程度上,可以缓解歌唱数据或旋律数据的缺乏。
附图说明
图1为本发明音高及对应歌词提取方法流程图;
图2为本发明音高及对应歌词提取系统框图;
图3为简谱图像样例;
图4为根据字符识别模型的识别结果在简谱图像样例上识别框选出字符信息示意图。
具体实施方式
以下结合附图对本发明作进一步描述:
如图1所示,一种面向简谱图像的音高及对应歌词提取方法,包括如下步骤:
S1:简谱图像预处理,将待识别的简谱图像转化为灰度图,并对图像进行矫正;
S101:将简谱图像转换为单通道的灰度图,采用如下公式:
Gray=(R*a+G*b+B*c)/d,其中Gray为灰度通道,R为原图像红色通道值,G为绿色通道值,B为蓝色通道值,a、b、c、d是各个系数且均为正整数;
S102:采用透视变换对灰度图进行矫正,通过二值化和图像开闭运算获取灰度图的四角作为初始点坐标,指定变换后的四角坐标,根据矫正变换公式求出变换矩阵a,再按照变换矩阵对图像进行插值,完成图像矫正,矫正变换公式为:
Figure BDA0002366209030000061
其中,[x',y',w']是变换后的坐标点,[u,v,w]是初始的点坐标,由于初始点坐标源于二维图像,所以初始坐标的w恒为1;a矩阵是变换矩阵。
S2:将处理后的简谱图像输入训练好的字符识别模型,字符识别模型包括两个,一个是CTPN模型,另一个是DenseNet与CTC的组合模型,CTPN模型用于字符的定位,DenseNet与CTC的组合模型用于字符的识别,简谱图像输入两个字符识别模型后得到简谱图像的字符及字符的位置信息的集合,字符的位置信息也就是字符框的四角坐标。
S3:根据字符的位置信息对字符进行排序分行,得到每行字符的字符集合;
S301:按将字符照y轴坐标升序排序;
S302:将所有的字符分类成一行一行的字符行,分类标准为:若两个字符的y轴坐标相差不超过m个像素单位,则这两个字符属于同一行,m为一个正整数;
S303:将每一个字符行内的字符按照x轴坐标升序排序,得到以字符行为单位,每行字符行都按照x坐标升序排序的字符集合。
S4:根据字符集合进行字符筛选,筛除无关信息,并将多个字符行的集合分为音高行和歌词行两个集合;
S401:根据字符集合,以字符行为单位,判断字符集合与所有筛选信息的集合是否存在交集,若不存在交集,则跳过该字符集合,若存在交集,则删除对应字符集合;
S402:根据每行字符的类型以及其相邻字符行的类型判断出音高行和歌词行,将筛选后的字符集合进一步分为音高行和歌词行两个集合。
S5:根据识别得到的字符及字符的位置信息,将歌词行内的字符逐一与音高行内的字符进行距离计算,采用曼哈顿距离公式,计算两个字符的字符框左上顶点的坐标,公式如下:d(i,j)=|x1-x2|+|y1-y2|,其中,d(i,j)表示是i、j两个字符之间的曼哈顿距离;x1和y1是第i个字符位置框的左上顶点的坐标;x2和y2是第j个字符位置框的左上顶点坐标。
S6:根据计算得到的距离以及单个字符的位置信息对音高字符和歌词字符进行匹配:当且仅当音高字符和歌词字符中,音高字符y坐标大于歌词字符y坐标并且两个字符的曼哈顿距离最小时,两个字符相匹配。
S7:根据音高字符的位置信息,从简谱图像中剪切出音高字符图像。
S8:分析剪切图像中浮点的存在性及位置占比,判断音高;采用轮廓跟踪算法检测剪切图像的音高浮点:
S801:若检测到不存在浮点,则判定音高字符对应着本音,不存在高低八度;
S802:若检测到浮点,则判断音高字符属于哪种音高;
A.若音高字符的剪切图像的上方α*height部分存在浮点,则该音高字符为高八度的音高字符,α是(0,0.5)区间的某值。也就是说,若音高字符位于剪切图像的上半部分的任意位置,都认为该音高字符为高八度的音高字符;
B.若音高字符的剪切图像的下方β*height部分存在浮点,则该音高字符为低八度的音高字符,β是(0.5,1)区间的某值。也就是说,若音高字符位于剪切图像的下半部分的任意位置,都认为该音高字符为低八度的音高字符;
C.若音高字符剪切图像其余位置出现浮点,音高字符保持原音。
S9:根据判断的音高更新歌词与对应音高的匹配结果。
如图2所示,应用面向简谱图像的音高及对应歌词提取方法的系统,包括图像处理模块、字符识别模块、字符处理模块、字符匹配模块、音高字符图像获取模块和音高匹配模块;
所述的图像处理模块将待识别的简谱图像转化为灰度图,并对图像进行矫正;
所述的字符识别模块采用训练好的字符识别模型识别得到简谱图像的字符及字符的位置信息的集合;
所述的字符处理模块根据字符的位置信息对字符进行排序分行,再根据排序分行的结果进行字符筛选,筛除无关信息,最后将多个字符行的集合分为音高行和歌词行两个集合;
所述的字符匹配模块用于将将歌词行内的字符逐一与音高行内的字符进行距离计算,根据计算得到的距离以及单个字符的位置信息对音高字符和歌词字符进行匹配;
所述的音高字符图像获取模块用于根据音高字符的位置信息,从简谱图像中剪切出音高字符图像;
所述的音高匹配模块用于分析剪切图像中浮点的存在性及位置占比,判断音高,并将音高更新到歌词与对应音高的匹配结果中。
现存于网络上的简谱数字图像大致分为3种:RGB三通道图像,如大部分.jpg、.jpeg格式的图像;RGBA四通道图像,如.png格式的图像;Y单通道图像,如部分.jpg、.jpeg图像。因此在获取到简谱图像后首先将非单通道图像做预处理,转化为单通道的灰度图,以降低运算量,同时降低图像背景对模型识别的干扰如图3所示为输入的简谱图像样例,其图像分辨率为2480*3508像素。
由于简谱数字图像中,存在部分使用设备拍摄或是扫描的照片,可能存在简谱的倾斜、变形等情况;为了提升检测效果,采用透视变换将这类图片的灰度图进行矫正。
校正后的图像分别输入训练好的DenseNet与CTC的组合模型、CTPN模型,CTPN模型使用天池ICPR2018、MSRA_TD500和自己制作简谱标注数据集,共三个数据集训练得到,DenseNet与CTC的组合模型利用中文语料库,通过字体、大小、灰度、模糊、透视、拉伸等变化随机生成的数据集;包含了汉字、英文字母、数字和标点共5990种字符。字符识别模型识别后得到简谱图像的字符及字符的位置信息的集合。
根据简谱的结构,简谱包含的信息是按行构建的,字符识别模型输出的是单个字符的坐标信息。因此需要对字符进行排序分行,得到每行字符的字符集合,如图4所示为根据字符识别模型的识别结果在简谱图像样例上识别框选出字符信息。
得到字符集合后需要筛除大部分无关信息,例如广告信息和图片的水印信息。字符行经过筛选后需要将多个字符行的集合分为音高行和歌词行两个集合。参考绝大部分简谱的特征:一行音高之下,对应一行歌词或多行歌词;按照这样的规律,再根据每行字符的类型(数字、汉字或英文字母等)以及其相邻字符行的类型判断出音高行和歌词行,将判断出的音高行和歌词行各自组成一个集合。
然后根据识别得到的字符及字符的位置信息,将歌词行内的字符逐一与音高行内的字符进行距离计算,根据计算得到的距离以及单个字符的位置信息对音高字符和歌词字符进行匹配。
受限于训练集数据的原因,字符识别模型无法对音高字符的高低八度做出检测识别;因此在得到歌词与音高的匹配结果之后,需要单独的对音高字符的图像做关于浮点的检测。根据音高字符的位置信息,从简谱图像中剪切出音高字符图像,然后分析剪切图像中浮点的存在性及位置占比,判断音高。根据判断的音高更新歌词与对应音高的匹配结果,得到最终音高与歌词匹配的结果。
可选的,得到的匹配结果可以进一步生成音频文件输出。
以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (7)

1.一种面向简谱图像的音高及对应歌词提取方法,其特征在于:包括如下步骤:
S1:简谱图像预处理,将待识别的简谱图像转化为灰度图,并对图像进行矫正;
S2:将处理后的简谱图像输入训练好的字符识别模型,识别得到简谱图像的字符及字符的位置信息的集合;
S3:根据字符的位置信息对字符进行排序分行,得到每行字符的字符集合;
S4:根据字符集合进行字符筛选,筛除无关信息,并将多个字符行的集合分为音高行和歌词行两个集合;
S5:根据识别得到的字符及字符的位置信息,将歌词行内的字符逐一与音高行内的字符进行距离计算;
S6:根据计算得到的距离以及单个字符的位置信息对音高字符和歌词字符进行匹配;所述的对音高字符和歌词字符进行匹配的依据是:当且仅当音高字符和歌词字符中,音高字符y坐标大于歌词字符y坐标并且两个字符的曼哈顿距离最小时,两个字符相匹配;
S7:根据音高字符的位置信息,从简谱图像中剪切出音高字符图像;
S8:分析剪切图像中浮点的存在性及位置占比,判断音高;具体为采用轮廓跟踪算法检测剪切图像的音高浮点;S801:若检测到不存在浮点,则判定音高字符对应着本音,不存在高低八度;S802:若检测到浮点,则判断音高字符属于哪种音高;A.若音高字符的剪切图像的上方α*height部分存在浮点,则该音高字符为高八度的音高字符,α是(0,0.5)区间的某值;B.若音高字符的剪切图像的下方β*height部分存在浮点,则该音高字符为低八度的音高字符,β是(0.5,1)区间的某值;C.若音高字符剪切图像其余位置出现浮点,音高字符保持原音;
S9:根据判断的音高更新歌词与对应音高的匹配结果。
2.根据权利要求1所述的面向简谱图像的音高及对应歌词提取方法,其特征在于:所述的图像预处理具体包括:
S101:将简谱图像转换为单通道的灰度图,采用如下公式:
Gray=(R*a+G*b+B*c)/d,其中Gray为灰度通道,R为原图像红色通道值,G为绿色通道值,B为蓝色通道值,a、b、c、d是各个系数且均为正整数;
S102:采用透视变换对灰度图进行矫正,通过二值化和图像开闭运算获取灰度图的四角作为初始点坐标,指定变换后的四角坐标,根据矫正变换公式求出变换矩阵a,再按照变换矩阵对图像进行插值,完成图像矫正,矫正变换公式为:
Figure FDA0004086088240000021
其中,[x',y',w']是变换后的坐标点,[u,v,w]是初始的点坐标,由于初始点坐标源于二维图像,所以初始坐标的w恒为1;a矩阵是变换矩阵。
3.根据权利要求1所述的面向简谱图像的音高及对应歌词提取方法,其特征在于:所述的字符识别模型包括两个,一个是CTPN模型,另一个是DenseNet与CTC的组合模型。
4.根据权利要求1所述的面向简谱图像的音高及对应歌词提取方法,其特征在于:所述的步骤S3具体包括:
S301:按将字符照y轴坐标升序排序;
S302:将所有的字符分类成一行一行的字符行,分类标准为:若两个字符的y轴坐标相差不超过m个像素单位,则这两个字符属于同一行,m为一个正整数;
S303:将每一个字符行内的字符按照x轴坐标升序排序,得到以字符行为单位,每行字符行都按照x坐标升序排序的字符集合。
5.根据权利要求1所述的面向简谱图像的音高及对应歌词提取方法,其特征在于:所述的步骤S4包括:
S401:根据字符集合,以字符行为单位,判断字符集合与所有筛选信息的集合是否存在交集,若不存在交集,则跳过该字符集合,若存在交集,则删除字符集合;
S402:根据每行字符的类型以及其相邻字符行的类型判断出音高行和歌词行,将筛选后的字符集合进一步分为音高行和歌词行两个集合。
6.根据权利要求1所述的面向简谱图像的音高及对应歌词提取方法,其特征在于:所述的步骤S5中采用曼哈顿距离公式,计算两个字符的字符框左上顶点的坐标,公式如下:d(i,j)=|x1-x2|+|y1-y2|,其中,d(i,j)表示是i、j两个字符之间的曼哈顿距离;x1和y1是第i个字符位置框的左上顶点的坐标;x2和y2是第j个字符位置框的左上顶点坐标。
7.应用权利要求1-6中任意一项所述的面向简谱图像的音高及对应歌词提取方法的系统,其特征在于:包括图像处理模块、字符识别模块、字符处理模块、字符匹配模块、音高字符图像获取模块和音高匹配模块;
所述的图像处理模块将待识别的简谱图像转化为灰度图,并对图像进行矫正;
所述的字符识别模块采用训练好的字符识别模型识别得到简谱图像的字符及字符的位置信息的集合;
所述的字符处理模块根据字符的位置信息对字符进行排序分行,再根据排序分行的结果进行字符筛选,筛除无关信息,最后将多个字符行的集合分为音高行和歌词行两个集合;
所述的字符匹配模块用于将将歌词行内的字符逐一与音高行内的字符进行距离计算,根据计算得到的距离以及单个字符的位置信息对音高字符和歌词字符进行匹配;
所述的音高字符图像获取模块用于根据音高字符的位置信息,从简谱图像中剪切出音高字符图像;
所述的音高匹配模块用于分析剪切图像中浮点的存在性及位置占比,判断音高,并将音高更新到歌词与对应音高的匹配结果中。
CN202010036491.0A 2020-01-14 2020-01-14 一种面向简谱图像的音高及对应歌词提取方法及系统 Active CN111274891B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010036491.0A CN111274891B (zh) 2020-01-14 2020-01-14 一种面向简谱图像的音高及对应歌词提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010036491.0A CN111274891B (zh) 2020-01-14 2020-01-14 一种面向简谱图像的音高及对应歌词提取方法及系统

Publications (2)

Publication Number Publication Date
CN111274891A CN111274891A (zh) 2020-06-12
CN111274891B true CN111274891B (zh) 2023-05-02

Family

ID=71000274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010036491.0A Active CN111274891B (zh) 2020-01-14 2020-01-14 一种面向简谱图像的音高及对应歌词提取方法及系统

Country Status (1)

Country Link
CN (1) CN111274891B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111968654B (zh) * 2020-08-24 2022-09-16 成都潜在人工智能科技有限公司 一种自适应混合域音频水印嵌入方法
CN114202763A (zh) * 2021-12-02 2022-03-18 厦门大学 一种音乐简谱语义翻译方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005004107A (ja) * 2003-06-13 2005-01-06 Sony Corp 歌声合成方法、歌声合成装置、プログラム及び記録媒体並びにロボット装置
CN104866870A (zh) * 2015-06-02 2015-08-26 杭州师范大学 一种面向工尺谱的多层集成分类网络及音乐语义评估装置
GB201805066D0 (en) * 2018-03-28 2018-05-09 Nkoda Ltd Musical notation system

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2682382B2 (ja) * 1992-08-03 1997-11-26 ヤマハ株式会社 楽譜認識装置
JP2003015641A (ja) * 2001-06-27 2003-01-17 Konica Corp 電子カメラ
JP4803797B2 (ja) * 2005-10-26 2011-10-26 株式会社河合楽器製作所 楽譜認識装置および楽譜認識プログラム
US20080167739A1 (en) * 2007-01-05 2008-07-10 National Taiwan University Of Science And Technology Autonomous robot for music playing and related method
CN101178738B (zh) * 2007-12-07 2010-10-20 深圳市迅雷网络技术有限公司 一种音乐信息搜索方法、系统、服务端及客户端
CN102682752B (zh) * 2011-03-07 2014-11-05 卡西欧计算机株式会社 乐谱信息生成装置及其方法、乐音生成控制装置及其方法
CN102663423B (zh) * 2012-03-28 2014-01-15 北京航空航天大学 一种简谱图像的自动识别和演奏的方法
US9406241B2 (en) * 2013-04-10 2016-08-02 Peter Declan Cosgrove Apparatus and method of teaching musical notation
US9196171B2 (en) * 2013-06-06 2015-11-24 Thomas Nguyen 3JCN music notation
CN103646247B (zh) * 2013-09-26 2016-11-23 惠州学院 一种乐谱识别方法
US20150302086A1 (en) * 2014-04-22 2015-10-22 Gracenote, Inc. Audio identification during performance
KR101793184B1 (ko) * 2016-06-29 2017-11-03 전남대학교산학협력단 촬영된 음악 악보 영상의 자동연주를 위한 가사 영역 추출장치 및 방법
CN111052220B (zh) * 2017-09-07 2023-06-27 雅马哈株式会社 和弦信息提取装置、和弦信息提取方法及存储装置
US20190147841A1 (en) * 2017-11-13 2019-05-16 Facebook, Inc. Methods and systems for displaying a karaoke interface
CN109117848B (zh) * 2018-09-07 2022-11-18 泰康保险集团股份有限公司 一种文本行字符识别方法、装置、介质和电子设备
CN109522959A (zh) * 2018-11-19 2019-03-26 哈尔滨理工大学 一种乐谱识别分类及演奏控制方法
CN109493684B (zh) * 2018-12-10 2021-02-23 北京金三惠科技有限公司 一种多功能数字音乐教学系统
CN109671416B (zh) * 2018-12-24 2023-07-21 成都潜在人工智能科技有限公司 基于增强学习的音乐旋律生成方法、装置及用户终端
CN110310666B (zh) * 2019-06-27 2021-07-23 成都潜在人工智能科技有限公司 一种基于se卷积网络的乐器识别方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005004107A (ja) * 2003-06-13 2005-01-06 Sony Corp 歌声合成方法、歌声合成装置、プログラム及び記録媒体並びにロボット装置
CN104866870A (zh) * 2015-06-02 2015-08-26 杭州师范大学 一种面向工尺谱的多层集成分类网络及音乐语义评估装置
GB201805066D0 (en) * 2018-03-28 2018-05-09 Nkoda Ltd Musical notation system

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Fu-Hai Frank Wu.An Architecture for Optical Music Recognition of Numbered Music Notation.《ICIMCS '14: Proceedings of International Conference on Internet Multimedia Computing and Service》.2014,第241-245页. *
John Ashley Burgoyne.lyric extraction and recognition on digital images of early music sources.《10th International Society for Music Information Retrieval Conference(ISMIR 2009))》.2009,第723-727页. *
陈根方.基于数学形态学和记谱法的数字乐谱音乐信息提取.《计算机应用与软件》.2008,(第8(2008)期),第75-78页. *

Also Published As

Publication number Publication date
CN111274891A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN111325203B (zh) 一种基于图像校正的美式车牌识别方法及系统
CN110210413B (zh) 一种基于深度学习的多学科试卷内容检测与识别系统及方法
JP5379085B2 (ja) スキャンされた文書画像内の前景画素群の連結グループをマーキング種類に基づき分類する方法及びシステム
JP2001167131A (ja) 文書シグネチュアを使用する文書の自動分類方法
JP2005242579A (ja) 文書処理装置、文書処理方法、および文書処理プログラム
CN112836650B (zh) 一种质量检验报告扫描图像表格语义解析方法与系统
CN113128442A (zh) 基于卷积神经网络的汉字书法风格识别方法和评分方法
CN111274891B (zh) 一种面向简谱图像的音高及对应歌词提取方法及系统
CN111626292B (zh) 一种基于深度学习技术的楼宇指示标识的文字识别方法
CN109784342A (zh) 一种基于深度学习模型的ocr识别方法及终端
CN112307919B (zh) 一种基于改进YOLOv3的单证图像中数字信息区域识别方法
CN110929746A (zh) 一种基于深度神经网络的电子卷宗标题定位提取与分类方法
Tardón et al. Optical music recognition for scores written in white mensural notation
CN113901952A (zh) 一种基于深度学习的印刷体与手写体分开文字识别方法
CN112686104A (zh) 基于深度学习的多声部乐谱识别方法
JPH11345339A (ja) 画像セグメンテ―ション方法及び装置及びシステム及びコンピュ―タ可読メモリ
CN114187595A (zh) 基于视觉特征和语义特征融合的文档布局识别方法及系统
CN114821620A (zh) 基于行文本框纵向合并的文本内容提取识别方法
CN109635808B (zh) 一种在自然场景图像中对中文关键词及上下文的提取方法
CN113657377B (zh) 一种机打票据图像结构化识别方法
CN110705535A (zh) 一种试卷版面文字行自动检测的方法
CN111832497B (zh) 一种基于几何特征的文本检测后处理方法
CN111104869B (zh) 一种可识别小字符内容的工尺谱数字化方法
CN115393875B (zh) 基于MobileNetV3的五线谱识别与简谱转换的方法及系统
CN111639649A (zh) 一种基于实时图像流的简谱图像识别与编码方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230412

Address after: Room 1210, 12 / F, unit 1, building 1, No. 722, middle section of Yizhou Avenue, high tech Zone, Chengdu, Sichuan 610000

Applicant after: Chengdu potential Artificial Intelligence Technology Co.,Ltd.

Address before: 610041 Building No. 722, Building No. 1, Unit 12, Layer 121, Middle Section of Yizhou Avenue, Chengdu High-tech Zone, Sichuan Province

Applicant before: CHENGDU HIFIVE TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant