CN111274891B

CN111274891B - 一种面向简谱图像的音高及对应歌词提取方法及系统

Info

Publication number: CN111274891B
Application number: CN202010036491.0A
Authority: CN
Inventors: 尹学渊; 祁松茂; 江天宇
Original assignee: Chengdu Potential Artificial Intelligence Technology Co ltd
Current assignee: Chengdu Potential Artificial Intelligence Technology Co ltd
Priority date: 2020-01-14
Filing date: 2020-01-14
Publication date: 2023-05-02
Anticipated expiration: 2040-01-14
Also published as: CN111274891A

Abstract

本发明公开了一种面向简谱图像的音高及对应歌词提取方法及系统，系统应用该方法，方法包括：将待识别的简谱图像转化为灰度图，并进行矫正；将处理后的简谱图像输入训练好的字符识别模型，识别得到简谱图像的字符及字符的位置信息的集合；根据字符的位置信息对字符进行排序分行，得到每行字符的字符集合；根据字符集合进行字符筛选，筛除无关信息，并将多个字符行的集合分为音高行和歌词行两个集合；将歌词行内的字符逐一与音高行内的字符进行距离计算；根据计算得到的距离以及单个字符的位置信息对音高字符和歌词字符进行匹配；从简谱图像中剪切出音高字符图像；分析剪切图像中浮点的存在性及位置占比，判断音高；更新歌词与对应音高的匹配结果。

Description

一种面向简谱图像的音高及对应歌词提取方法及系统

技术领域

本发明属于光学乐谱识别技术领域，具体地说，涉及一种面向简谱图像的音高及对应歌词提取方法及系统。

背景技术

在千万年的历史中，人类创作的音乐，发明了用于记录音乐的乐谱，为了便于学习，又发明了音乐简谱。曾经中国古代四大发明之一的造纸术，使得古人创作的各种作品得以一代一代保存并传递下来，其中就包括乐谱。在数字化信息化的现在，通过纸张保存下来的各种文字信息需要通过数字化的形式进行保存并传递，以便于检索、管理和利用。光学字符识别技术(Optical Character Recognition，OCR)近年来已经得到蓬勃发展。

申请号为201210086072.3的发明专利公开了一种简谱图像的自动识别和演奏的方法，该方法有三大步骤：步骤一、简谱图像预处理；步骤二、简谱基元识别；步骤三、数字音频的生成和播放。本发明在深入分析简谱特征基础上，克服了简谱识别的诸多难点，提出一整套简谱自动识别和智能播放方法。该方法可以自动识别印刷体简谱、带歌词简谱、简谱与五线谱混合谱、简谱与吉他谱混合谱等多种形式的印刷体简谱，正确率均在95％以上；此外，该方法可以模拟钢琴、小提琴、吉他等多种乐器对简谱的演奏效果，并且可以实现简谱的实时识别和播放。

该方案中采用支持向量机来识别简谱基元，通过构建样本分类器来分类音符基元，构建的样本分类器智能分类14类音符基元的两两组合，无法对简谱中的重要信息—歌词，进行定位和分类。不能够实现字符和音高匹配。

发明内容

针对现有技术中上述的不足，本发明提供一种面向简谱图像的音高及对应歌词提取方法及系统，该方法对简谱图像进行识别，实现字符和音高匹配，可以对互联网上存在的简谱数字图像有着较高的识别率和准确率，且识别速度较快，可以极大的降低人工成本，节省时间，提升效率；系统应用该方法，结构简单，识别速度较快。

为了达到上述目的，本发明采用的解决方案是：一种面向简谱图像的音高及对应歌词提取方法，包括如下步骤：

S1：简谱图像预处理，将待识别的简谱图像转化为灰度图，并对图像进行矫正；

S101：将简谱图像转换为单通道的灰度图，采用如下公式：

Gray＝(R*a+G*b+B*c)/d，其中Gray为灰度通道，R为原图像红色通道值，G为绿色通道值，B为蓝色通道值，a、b、c、d是各个系数且均为正整数；

S102：采用透视变换对灰度图进行矫正，通过二值化和图像开闭运算获取灰度图的四角作为初始点坐标，指定变换后的四角坐标，根据矫正变换公式求出变换矩阵a，再按照变换矩阵对图像进行插值，完成图像矫正，矫正变换公式为：

其中，[x',y',w']是变换后的坐标点，[u,v,w]是初始的点坐标，由于初始点坐标源于二维图像，所以初始坐标的w恒为1；a矩阵是变换矩阵。

S2：将处理后的简谱图像输入训练好的字符识别模型，字符识别模型包括两个，一个是CTPN模型，另一个是DenseNet与CTC的组合模型，CTPN模型用于字符的定位，DenseNet与CTC的组合模型用于字符的识别，简谱图像输入两个字符识别模型后得到简谱图像的字符及字符的位置信息的集合，字符的位置信息也就是字符框的四角坐标。

S3：根据字符的位置信息对字符进行排序分行，得到每行字符的字符集合；

S301：按将字符照y轴坐标升序排序；

S302：将所有的字符分类成一行一行的字符行，分类标准为：若两个字符的y轴坐标相差不超过m个像素单位，则这两个字符属于同一行，m为一个正整数；

S303：将每一个字符行内的字符按照x轴坐标升序排序，得到以字符行为单位，每行字符行都按照x坐标升序排序的字符集合。

S4：根据字符集合进行字符筛选，筛除无关信息，并将多个字符行的集合分为音高行和歌词行两个集合；

S401：根据字符集合，以字符行为单位，判断字符集合与所有筛选信息的集合是否存在交集，若不存在交集，则跳过该字符集合，若存在交集，则删除对应字符集合；

S402：根据每行字符的类型以及其相邻字符行的类型判断出音高行和歌词行，将筛选后的字符集合进一步分为音高行和歌词行两个集合。

S5：根据识别得到的字符及字符的位置信息，将歌词行内的字符逐一与音高行内的字符进行距离计算，采用曼哈顿距离公式，计算两个字符的字符框左上顶点的坐标，公式如下：d(i,j)＝|x₁-x₂|+|y₁-y₂|，其中，d(i,j)表示是i、j两个字符之间的曼哈顿距离；x₁和y₁是第i个字符位置框的左上顶点的坐标；x₂和y₂是第j个字符位置框的左上顶点坐标。

S6：根据计算得到的距离以及单个字符的位置信息对音高字符和歌词字符进行匹配：当且仅当音高字符和歌词字符中，音高字符y坐标大于歌词字符y坐标并且两个字符的曼哈顿距离最小时，两个字符相匹配。

S7：根据音高字符的位置信息，从简谱图像中剪切出音高字符图像。

S8：分析剪切图像中浮点的存在性及位置占比，判断音高；采用轮廓跟踪算法检测剪切图像的音高浮点：

S801：若检测到不存在浮点，则判定音高字符对应着本音，不存在高低八度；

S802：若检测到浮点，则判断音高字符属于哪种音高；

A.若音高字符的剪切图像的上方α*height部分存在浮点，则该音高字符为高八度的音高字符，α是(0,0.5)区间的某值；

B.若音高字符的剪切图像的下方β*height部分存在浮点，则该音高字符为低八度的音高字符，β是(0.5,1)区间的某值；

C.若音高字符剪切图像其余位置出现浮点，音高字符保持原音。

S9：根据判断的音高更新歌词与对应音高的匹配结果。

应用面向简谱图像的音高及对应歌词提取方法的系统，包括图像处理模块、字符识别模块、字符处理模块、字符匹配模块、音高字符图像获取模块和音高匹配模块；

所述的图像处理模块将待识别的简谱图像转化为灰度图，并对图像进行矫正；

所述的字符识别模块采用训练好的字符识别模型识别得到简谱图像的字符及字符的位置信息的集合；

所述的字符处理模块根据字符的位置信息对字符进行排序分行，再根据排序分行的结果进行字符筛选，筛除无关信息，最后将多个字符行的集合分为音高行和歌词行两个集合；

所述的字符匹配模块用于将将歌词行内的字符逐一与音高行内的字符进行距离计算，根据计算得到的距离以及单个字符的位置信息对音高字符和歌词字符进行匹配；

所述的音高字符图像获取模块用于根据音高字符的位置信息，从简谱图像中剪切出音高字符图像；

所述的音高匹配模块用于分析剪切图像中浮点的存在性及位置占比，判断音高，并将音高更新到歌词与对应音高的匹配结果中。

本发明的有益效果是：

(1)使用本方法对简谱图像进行识别，可以对互联网上存在的简谱数字图像有着较高的识别率和准确率，且识别速度较快，可以极大地降低人工成本，节省时间，提升效率。

(2)此外，本方法返回的匹配结果对于歌唱和人声旋律的应用也极有帮助；在一定程度上，可以缓解歌唱数据或旋律数据的缺乏。

附图说明

图1为本发明音高及对应歌词提取方法流程图；

图2为本发明音高及对应歌词提取系统框图；

图3为简谱图像样例；

图4为根据字符识别模型的识别结果在简谱图像样例上识别框选出字符信息示意图。

具体实施方式

以下结合附图对本发明作进一步描述：

如图1所示，一种面向简谱图像的音高及对应歌词提取方法，包括如下步骤：

S101：将简谱图像转换为单通道的灰度图，采用如下公式：

S301：按将字符照y轴坐标升序排序；

S802：若检测到浮点，则判断音高字符属于哪种音高；

A.若音高字符的剪切图像的上方α*height部分存在浮点，则该音高字符为高八度的音高字符，α是(0,0.5)区间的某值。也就是说，若音高字符位于剪切图像的上半部分的任意位置，都认为该音高字符为高八度的音高字符；

B.若音高字符的剪切图像的下方β*height部分存在浮点，则该音高字符为低八度的音高字符，β是(0.5,1)区间的某值。也就是说，若音高字符位于剪切图像的下半部分的任意位置，都认为该音高字符为低八度的音高字符；

S9：根据判断的音高更新歌词与对应音高的匹配结果。

如图2所示，应用面向简谱图像的音高及对应歌词提取方法的系统，包括图像处理模块、字符识别模块、字符处理模块、字符匹配模块、音高字符图像获取模块和音高匹配模块；

现存于网络上的简谱数字图像大致分为3种：RGB三通道图像，如大部分.jpg、.jpeg格式的图像；RGBA四通道图像，如.png格式的图像；Y单通道图像，如部分.jpg、.jpeg图像。因此在获取到简谱图像后首先将非单通道图像做预处理，转化为单通道的灰度图，以降低运算量，同时降低图像背景对模型识别的干扰如图3所示为输入的简谱图像样例，其图像分辨率为2480*3508像素。

由于简谱数字图像中，存在部分使用设备拍摄或是扫描的照片，可能存在简谱的倾斜、变形等情况；为了提升检测效果，采用透视变换将这类图片的灰度图进行矫正。

校正后的图像分别输入训练好的DenseNet与CTC的组合模型、CTPN模型，CTPN模型使用天池ICPR2018、MSRA_TD500和自己制作简谱标注数据集，共三个数据集训练得到，DenseNet与CTC的组合模型利用中文语料库，通过字体、大小、灰度、模糊、透视、拉伸等变化随机生成的数据集；包含了汉字、英文字母、数字和标点共5990种字符。字符识别模型识别后得到简谱图像的字符及字符的位置信息的集合。

根据简谱的结构，简谱包含的信息是按行构建的，字符识别模型输出的是单个字符的坐标信息。因此需要对字符进行排序分行，得到每行字符的字符集合，如图4所示为根据字符识别模型的识别结果在简谱图像样例上识别框选出字符信息。

得到字符集合后需要筛除大部分无关信息，例如广告信息和图片的水印信息。字符行经过筛选后需要将多个字符行的集合分为音高行和歌词行两个集合。参考绝大部分简谱的特征：一行音高之下，对应一行歌词或多行歌词；按照这样的规律，再根据每行字符的类型(数字、汉字或英文字母等)以及其相邻字符行的类型判断出音高行和歌词行，将判断出的音高行和歌词行各自组成一个集合。

然后根据识别得到的字符及字符的位置信息，将歌词行内的字符逐一与音高行内的字符进行距离计算，根据计算得到的距离以及单个字符的位置信息对音高字符和歌词字符进行匹配。

受限于训练集数据的原因，字符识别模型无法对音高字符的高低八度做出检测识别；因此在得到歌词与音高的匹配结果之后，需要单独的对音高字符的图像做关于浮点的检测。根据音高字符的位置信息，从简谱图像中剪切出音高字符图像，然后分析剪切图像中浮点的存在性及位置占比，判断音高。根据判断的音高更新歌词与对应音高的匹配结果，得到最终音高与歌词匹配的结果。

可选的，得到的匹配结果可以进一步生成音频文件输出。

以上所述实施例仅表达了本发明的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种面向简谱图像的音高及对应歌词提取方法，其特征在于：包括如下步骤：

S2：将处理后的简谱图像输入训练好的字符识别模型，识别得到简谱图像的字符及字符的位置信息的集合；

S5：根据识别得到的字符及字符的位置信息，将歌词行内的字符逐一与音高行内的字符进行距离计算；

S6：根据计算得到的距离以及单个字符的位置信息对音高字符和歌词字符进行匹配；所述的对音高字符和歌词字符进行匹配的依据是：当且仅当音高字符和歌词字符中，音高字符y坐标大于歌词字符y坐标并且两个字符的曼哈顿距离最小时，两个字符相匹配；

S7：根据音高字符的位置信息，从简谱图像中剪切出音高字符图像；

S8：分析剪切图像中浮点的存在性及位置占比，判断音高；具体为采用轮廓跟踪算法检测剪切图像的音高浮点；S801：若检测到不存在浮点，则判定音高字符对应着本音，不存在高低八度；S802：若检测到浮点，则判断音高字符属于哪种音高；A.若音高字符的剪切图像的上方α*height部分存在浮点，则该音高字符为高八度的音高字符，α是(0,0.5)区间的某值；B.若音高字符的剪切图像的下方β*height部分存在浮点，则该音高字符为低八度的音高字符，β是(0.5,1)区间的某值；C.若音高字符剪切图像其余位置出现浮点，音高字符保持原音；

S9：根据判断的音高更新歌词与对应音高的匹配结果。

2.根据权利要求1所述的面向简谱图像的音高及对应歌词提取方法，其特征在于：所述的图像预处理具体包括：

S101：将简谱图像转换为单通道的灰度图，采用如下公式：

3.根据权利要求1所述的面向简谱图像的音高及对应歌词提取方法，其特征在于：所述的字符识别模型包括两个，一个是CTPN模型，另一个是DenseNet与CTC的组合模型。

4.根据权利要求1所述的面向简谱图像的音高及对应歌词提取方法，其特征在于：所述的步骤S3具体包括：

S301：按将字符照y轴坐标升序排序；

5.根据权利要求1所述的面向简谱图像的音高及对应歌词提取方法，其特征在于：所述的步骤S4包括：

S401：根据字符集合，以字符行为单位，判断字符集合与所有筛选信息的集合是否存在交集，若不存在交集，则跳过该字符集合，若存在交集，则删除字符集合；

6.根据权利要求1所述的面向简谱图像的音高及对应歌词提取方法，其特征在于：所述的步骤S5中采用曼哈顿距离公式，计算两个字符的字符框左上顶点的坐标，公式如下：d(i,j)＝|x₁-x₂|+|y₁-y₂|，其中，d(i,j)表示是i、j两个字符之间的曼哈顿距离；x₁和y₁是第i个字符位置框的左上顶点的坐标；x₂和y₂是第j个字符位置框的左上顶点坐标。

7.应用权利要求1-6中任意一项所述的面向简谱图像的音高及对应歌词提取方法的系统，其特征在于：包括图像处理模块、字符识别模块、字符处理模块、字符匹配模块、音高字符图像获取模块和音高匹配模块；