CN115273104A

CN115273104A - 乐谱识别方法、装置、电子设备及存储介质

Info

Publication number: CN115273104A
Application number: CN202210910703.2A
Authority: CN
Inventors: 杨松林
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-11-01

Abstract

本申请公开了一种乐谱识别方法、装置、电子设备及存储介质，属于人工智能技术领域。该方法包括：获取第一乐谱图像；将第一乐谱图像进行剪裁，得到M个第一图像块，M个第一图像块中的每个第一图像块中均包含至少一个音符；M为正整数；获取每个第一图像块中的每个音符的第一目标候选框；分别以每个音符的第一候选框在第一乐谱图像上对应的位置为中心，在第一乐谱图像中剪裁出每个音符对应的第二图像块；获取每个音符对应的第二图像块中的每个音符的第二目标候选框；根据每个音符的第二候选框，对第一乐谱图像进行识别；其中，第二图像块的分辨率大于第一乐谱图像块的分辨率。

Description

乐谱识别方法、装置、电子设备及存储介质

技术领域

本申请属于人工智能技术领域，具体涉及一种乐谱识别方法、装置、电子设备及存储介质。

背景技术

目前，用户可以通过电子设备对第一乐谱图像进行识别处理，以获取与该乐谱相关的乐谱信息(例如乐谱名称或乐谱作者)。

相关技术中，电子设备通过将第一乐谱图像输入至多目标检测网络模型中，以检测出该第一乐谱图像中音符的颜色特征和纹理特征，进而根据音符的颜色特征和纹理特征确定乐谱信息。

然而，由于音符在第一乐谱图像中占比较小，因此第一乐谱图像中的音符可能变成一个黑点，则会导致电子设备无法准确识别到乐谱中的音符的颜色特征和纹理特征，进而造成电子设备识别乐谱的准确性较差。

发明内容

本申请实施例的目的是提供一种乐谱识别方法、装置、存储介质及电子设备，能够解决电子设备识别乐谱的准确性较差的问题。

第一方面，本申请实施例提供了一种乐谱识别方法，该乐谱识别方法包括：获取第一乐谱图像；将第一乐谱图像进行剪裁，得到M个第一图像块，M个第一图像块中的每个第一图像块中均包含至少一个音符；M为正整数；获取每个第一图像块中的每个音符的第一目标候选框，每个音符的第一候选框分别对应每个第一乐谱图像块中的每个音符的位置信息；分别以每个音符的第一候选框在第一乐谱图像上对应的位置为中心，在第一乐谱图像中剪裁出每个音符对应的第二图像块；获取每个音符对应的第二图像块中的每个音符的第二目标候选框，每个音符的第二候选框分别对应第二图像块中的每个音符位置信息；根据每个音符的第二候选框，对第一乐谱图像进行识别；其中，第二图像块的分辨率大于第一乐谱图像块的分辨率。

第二方面，本申请实施例提供了一种乐谱识别装置，该乐谱识别装置包括：获取模块、裁剪模块和处理模块。获取模块，用于获取第一乐谱图像。裁剪模块，用于将第一乐谱图像进行剪裁，得到M个第一图像块，M个第一图像块中的每个第一图像块中均包含至少一个音符；M为正整数。获取模块，还用于获取每个第一图像块中的每个音符的第一目标候选框，每个音符的第一候选框分别对应每个第一乐谱图像块中的每个音符的位置信息。裁剪模块，还用于分别以每个音符的第一候选框在第一乐谱图像上对应的位置为中心，在第一乐谱图像中剪裁出每个音符对应的第二图像块。获取模块，还用于获取每个音符对应的第二图像块中的每个音符的第二目标候选框，每个音符的第二候选框分别对应第二图像块中的每个音符位置信息。处理模块，用于根据每个音符的第二候选框，对第一乐谱图像进行识别；其中，第二图像块的分辨率大于第一图像块的分辨率。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

第六方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的方法。

在本申请实施例中，电子设备可以对第一乐谱图像进行裁剪，得到M个图像块，并根据M个第一图像块，获取M第一个图像块中每个第一图像块中的每个音符的第一目标候选框，并分别以每个音符的第一目标候选框在第一乐谱图像上对应的位置为中心，在第一乐谱图像中剪裁出所每个音符对应的第二图像块；以获取每个音符对应的第二图像块中的每个音符的第二目标候选框，从而根据每个音符的第二候选框，对第一乐谱图像进行识别，第二图像块的分辨率大于第一图像块的分辨。本方案中，电子设备通过对第一乐谱图像进行第一次裁剪，得到每个音符的第一目标候选框，从而通过第一目标候选框初步识别出第一乐谱图像中的音符的第一位置信息，然后，基于该第一目标候选框对第一乐谱图像进行第二次裁剪，从而得到分辨率更高的第二图像块，进而基于该分辨率更高的第二图像块识别出第一乐谱图像中音符的精确度更高的第二目标候选框，从而通过第二目标候选框确定第二图像块中的每个音符在第一乐谱图像中的位置信息，进而通过每个音符的第二候选框，对所述第一乐谱图像进行识别，通过二次裁剪电子设备可以进一步准确地识别出第一乐谱图像中的音符位置，从而根据该第一乐谱图像中的音符位置可以准确地识别乐谱，如此，提升了电子设备识别乐谱的准确性。

附图说明

图1是本申请实施例提供的一种乐谱识别方法的流程图之一；

图2是本申请实施例提供的一种乐谱识别方法的实例示意图之一；

图3是本申请实施例提供的一种乐谱识别方法的示意图之二；

图4是本申请实施例提供的一种乐谱识别方法的示意图之三；

图5是本申请实施例提供的一种乐谱识别方法的示意图之四；

图6是本申请实施例提供的一种乐谱识别装置的结构示意图；

图7是本申请实施例提供的一种电子设备的硬件结构示意图之一；

图8是本申请实施例提供的一种电子设备的硬件结构示意图之二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的乐谱识别方法进行详细地说明。

目前，随着电子设备的发展，电子设备中的功能也越来越多，例如，用户可以通过电子设备进行乐谱识别，以获取该乐谱的乐谱信息(例如乐谱名称或乐谱作者)，相关技术中，电子设备可以通过多目标检测网络模型(例如SSD、YOLO或CenterNet)，识别乐谱，以得到乐谱信息，具体地，用户可以将高分辨率的乐谱图像输入至多目标检测网络模型中，当用户将高分辨率的乐谱图像输入至多目标检测网络模型中后，为了提高多目标检测网络模型的运算速度，多目标检测网络模型会将高分辨率的乐谱图像转换为低分辨率(例如256×256或512×512)的乐谱图像，由于音符在乐谱图像中占比较小，因此低分辨率的第一乐谱图像中的音符可能变成一个黑点，从而电子设备无法准确识别乐谱图像中的音符，而且，音符缺乏颜色信息和纹理特征，多目标检测网络模型难以提取到用于分类和识别的深度神经网络特征，如此，电子设备识别乐谱的准确性较差。

本申请实施例中，电子设备可以对第一乐谱图像进行裁剪，得到M个图像块，并根据M个第一图像块，获取M第一个图像块中每个第一图像块中的每个音符的第一目标候选框，并分别以每个音符的第一目标候选框在第一乐谱图像上对应的位置为中心，在第一乐谱图像中剪裁出所每个音符对应的第二图像块；以获取每个音符对应的第二图像块中的每个音符的第二目标候选框，从而根据每个音符的第二候选框，对第一乐谱图像进行识别，第二图像块的分辨率大于第一图像块的分辨。本方案中，电子设备通过对第一乐谱图像进行第一次裁剪，得到每个音符的第一目标候选框，从而通过第一目标候选框初步识别出第一乐谱图像中的音符的第一位置信息，然后，基于该第一目标候选框对第一乐谱图像进行第二次裁剪，从而得到分辨率更高的第二图像块，进而基于该分辨率更高的第二图像块识别出第一乐谱图像中音符的精确度更高的第二目标候选框，从而通过第二目标候选框确定第二图像块中的每个音符在第一乐谱图像中的位置信息，进而通过每个音符的第二候选框，对所述第一乐谱图像进行识别，通过二次裁剪电子设备可以进一步准确地识别出第一乐谱图像中的音符位置，从而根据该第一乐谱图像中的音符位置可以准确地识别乐谱，如此，提升了电子设备识别乐谱的准确性。

本申请实施例提供的乐谱识别方法的执行主体可以为乐谱识别装置，该乐谱识别装置可以为电子设备，或电子设备中的功能模块。以下以电子设备为例，对本申请实施例提供的技术方案进行说明。

本申请实施例提供一种乐谱识别方法，图1示出了本申请实施例提供的一种乐谱识别方法的流程图。如图1所示，本申请实施例提供的乐谱识别方法可以包括下述的步骤201至步骤206。

步骤201、电子设备获取第一乐谱图像。

本申请实施例中，电子设备可以对第一乐谱图像进行识别，以确定该第一乐谱图像中的音符位置信息，从而根据该音符位置信息，获取第一乐谱图像的乐谱信息。

具体地，电子设备可以识别第一乐谱图像中符头的位置信息，从而根据该符头位置信息，获取第一乐谱图像的乐谱信息。

可选地，本申请实施例中，上述第一乐谱图像可以为用户选择的乐谱图像；或者，上述第一乐谱图像电子设备通过摄像头采集的乐谱图像。

具体地，上述用户选择的乐谱图像可以为用户从目标应用程序中(例如相册应用程序)选择的，或者用户通过电子设备中的浏览器应用程序下载的乐谱图像。

可选地，本申请实施例中，上述摄像头可以包括以下至少一项：长焦摄像头、微距摄像头、广角摄像头和超广角摄像头等。具体地可以根据实际使用需求确定，本申请实施例不做限制。

可选地，本申请实施例中，上述第一乐谱图像可以以下任一项：五线谱图像、吉他谱图像或古琴谱图像。

可选地，本申请实施例中，上述乐谱信息可以包括以下任一项：乐谱名称、乐谱作者和乐谱音调。

可选地，本申请实施例中，用户可以通过对第一乐谱图像进行第一输入，从而将第一乐谱图像输入至图像识别控件中，以使得电子设备可以通过识别模块对第一乐谱图像进行识别，以得到第一乐谱图像的乐谱信息。

可选地，本申请实施例中，上述第一输入可以为用户对第一乐谱图像的点击输入、长按输入、滑动输入、预设轨迹输入。具体地可以根据实际使用需求确定，本申请实施例不做限制。

可选地，本申请实施例中，电子设备在获取第一乐谱图像之后，电子设备可以通过目标阈值分割算法获取第一乐谱图像中的像素值的最佳分割阈值(例如140)，然后，电子设备可以对该第一乐谱图像进行二值化处理，以得到二值化处理后的第一乐谱图像中像素的像素值(下述简称为第一像素值)，从而将该第一像素值中大于或等于最佳分割阈值的像素的像素值赋值为255(即白色)，将第一像素值中小于最佳分割阈值的像素的像素值赋值为0(即黑色)。

具体地，上述目标阈值分割算法可以为大津法。

可选地，本申请实施例中，电子设备在得到二值化处理后的第一乐谱图像(下述简称为第五乐谱图像)之后，电子设备可以通过目标直线检测算法，在第五乐谱图像中检测水平直线，并保留预设长度(例如超过第五乐谱图像的图像宽度一半以上)的水平直线。

具体地，上述目标直线检测算法可以为霍夫直线检测算法。

可选地，本申请实施例中，若电子设备通过霍夫直线检测算法检测到的直线并不是水平的，则电子设备可以通过旋转倾角将第五乐谱图像中至少一条倾斜直线转化为至少一条水平直线。

示例性地，如图2中的(A)所示，电子设备在得到第五乐谱图像至少一条倾斜直线之后，如图2中的(B)所示，电子设备可以通过霍夫直线检测算法获取至少一条第一直线与水平直线的至少一个倾角，并去掉该至少一个倾角中最大值和最小值，并获取剩余倾角的平均值，然后，将至少一条第一直线的端点输入至旋转公式(下述公式一)，得到水平直线的端点，并根据水平直线的端点对至少一条倾斜直线进行旋转，以得到水平直线，具体公式一为：

(x1,y1)＝(x,y)*[1,1-cos(alpha)]^T＝(x,y*(1-cos(alpha))) (公式一)

其中，x1,y1为水平直线的端点，x,y为倾斜的直线的端点，alpha为剩余倾角的平均值。

需要说明的是，上述直线包括横线和竖线，上述端点包括左端点和右端点，电子设备可以根据水平直线的端点，对倾斜直线进行旋转处理，以得到水平的横线和垂直的竖线。

可选地，本申请实施例中，电子设备在得到水平横线和垂直竖线之后，电子设备可以计算至少一条中的每条水平横线和至少一条中的每条垂直的竖线之间的交点，并随机选择两条水平横线和垂直竖线之间的交点，计算透视矫正矩阵，然后通过透视矫正矩阵对旋转矫正后的第五乐谱图像进行透视矫正。

示例性地，如图2中的(C)所示，电子设备在得到两条水平横线和垂直竖线之间的交点之后，电子设备可以将两条水平横线和垂直竖线之间的交点输入至OpenCV(即开源计算机视觉算法库)库中的cvGetPerspectiveTransform函数中，从而获得矫正矩阵，然后，电子设备再调用OpenCV中的透视变换函数(例如cvWarpPerspective)，即可获得透视矫正后的第五乐谱图像。

本申请实施例中，电子设备通过对第一乐谱图像进行透视变换处理，无需用户需要反复地对电子设备采集的乐谱图像进行位置矫正，然后电子设备才可以识别出准确的乐谱信息，如此，在简化了用户操作的同时，提升了电子设备识别乐谱图像的灵活性。

可选地，本申请实施例中，电子设备子得到第一乐谱图像之后，电子设备可以通过第一方式将第一乐谱图像从RGB彩色通道转化为单通道的灰度图。

可选地，本申请实施例中，上述第一方式可以为以下任一项：平均法、加权平均法、最大值法或最大最小值平均法。

可以理解，由于乐谱图像中的音符一般为黑色，背景一般为浅色，乐谱图像的色彩信息对于识别音符并无实质性帮助，所以本申请实施例中通过将第一乐谱图像从RGB彩色通道转化为单通道的灰度图可以减少电子设备的运算量，从而提高电子设备的识别乐谱图像的运算速度。

可选地，本申请实施例中，上述步骤201具体可以通过下述的步骤201a实现。

步骤201a、电子设备基于原始乐谱图像，构建多层乐谱图像。

本申请实施例中，上述多层乐谱图像为第一乐谱图像；该多层乐谱图像中的每层乐谱图像的图像尺寸不同。

本申请实施中，电子设备可以基于原始乐谱图像，通过等比例缩放，得到至少一张第二乐谱图像，然后，电子设备可以将原始乐谱图像作为多层乐谱图像的第一层，将至少一张第二乐谱图像依次叠加在原始乐谱图像之上，以得到多层乐谱图像。

需要说明的是，上述将至少一张第二乐谱图像依次叠加在原始乐谱图像之上并不是物理意义上的叠加，而是至少一张第二乐谱图像的图像尺寸和原始乐谱图像的图像尺寸具有对应关系，并且至少一张第二乐谱图像中的音符位置与原始乐谱图像中的音符位置具有对应关系。

可选地，本申请实施例中，上述原始乐谱图像为用户选择的乐谱图像。

可选地，本申请实施例中，上述等比例缩放可以为放大原始乐谱图像或者缩小原始乐谱图像。

可选地，本申请实施例中，上述原始乐谱图像的图像尺寸可以大于或小于至少一张第二乐谱图像。

可选地，本申请实施例中，上述原始乐谱图像可以位于多层乐谱图像的底层或顶层。

示例性地，如图3所示，以原始乐谱图像可以位于多层乐谱图像的底层为例，电子设备在得到原始乐谱图像10之后，电子设备可以对该原始乐谱图像10进行等比例缩小处理，以得到第一分辨率的第二乐谱图像11，并将该第二乐谱图像11叠加在原始乐谱图像10之上，然后，电子设备可以第二乐谱图像11再次进行等比例缩小处理，以得到第二分辨率的第三乐谱图像12，并将该第三乐谱图像12叠加在第二乐谱图像11之上，然后，电子设备可以对第三乐谱图像12再次进行等比例缩小处理，以得到第三分辨率的第四乐谱图像13，并将该第四乐谱图像13叠加在第三乐谱图像11之上，如此，得到多层乐谱图像，其中，原始乐谱图像的图像分辨率大于第一分辨率，该第一分辨率大于第二分辨率，该第二分辨率大于第三分辨率。

本申请实施例中，电子设备在得到多层乐谱图像之后，电子设备可以将该多层乐谱图像中的每一层乐谱图像均输入至识别模块中，以确定不同分辨率下乐谱图像中的音符位置，如此，可以提高电子设备识别乐谱的灵活性。

步骤202、电子设备将第一乐谱图像进行剪裁，得到M个第一图像块。

本申请实施例中，上述M个第一图像块中的每个第一图像块中均包含至少一个音符；M为正整数。

本申请实施例中，电子设备可以根据第一预设尺寸(例如12×12)，采用第一顺序对第一乐谱图像进行剪裁，得到N个图像块，然后电子设备可以将N个图像块与L个标注图像块进行对比，以得到M个第一图像块，其中，L为正整数，N为小于或等于L的整数，M为小于或等于N的整数。

可选地，本申请实施例中，上述第一顺序可以为从上到下或从左到右，可以理解，电子设备通过第一顺序剪裁第一乐谱图像，以得到N个不重复的图像块。

需要说明的是，上述标注图像块为人工标注的包含音符的图像块。

具体地，电子设备可以将N个图像块的位置信息与L个标注图像块的位置信息进行交并比(Intersection over Union，IOU)处理，以得到N个图像块与L个标注图像块交并比比值，然后，电子设备可以通过N个图像块与L个标注图像块交并比比值，得到M个第一图像块。

示例性地，电子设备在得到N个图像块与L个标注图像块交并比比值之后，电子设备可以将N个图像块与L个标注图像块的交并比比值中交并比比值大于预设阈值(例如0.7)对应的图像块，确定为M个第一图像块。

可选地，本申请实施例中，上述步骤202具体可以通过下述的步骤202a实现。

步骤202a、电子设备将多层乐谱图像中的每层乐谱图像进行剪裁，得到M个第一图像块。

本申请实施例中，电子设备可以通过第一预设尺寸对多层乐谱图像中的每层乐谱图像进行剪裁，得到N个图像块，然后电子设备可以将N个图像块与L个标注图像块进行对比，以得到M个第一图像块，其中，L为正整数，N为小于或等于L的整数。

需要说明的是，具体实施过程可以参见上述步骤202，为避免重复，此处不在赘述。

本申请实施例中，电子设备可以通过对不同分辨率的乐谱图像进行剪裁，以得到不同分辨率下的图像块，从而电子设备可以对不同分辨率下的图像块进行识别，以确定不同分辨率下的乐谱图像的音符位置，如此，可以提高电子设备识别不同分辨率乐谱图像中音符的准确性。

步骤203、电子设备获取每个第一图像块中的每个音符的第一目标候选框。

本申请实施例中，上述至少一个音符中的每个音符的第一候选框分别对应每个第一乐谱图像块中的每个音符的位置信息。

本申请实施例中，电子设备可以对每个第一图像块中的每个音符进行框选处理，得到每个音符对应的第一候选框，从而根据该第一候选框获取每个音符的第一位置信息(即第一候选框分别对应每个第一乐谱图像块中的每个音符的位置信息)。

可选地，本申请实施例中，上述第一位置信息可以为第一候选框的中心坐标信息；或者，上述第一位置信息可以为第一候选框的顶点坐标信息。

可选地，本申请实施例中，上述第一候选框的形状可以为以下任一项：正方形、长方形、矩形、三角性或平行四边形等。具体地可以根据实际使用需求确定，本申请实施例不做限制。

可选地，本申请实施例中，上述第一候选框的尺寸可以为1×1或者2×2等。具体地可以根据实际使用需求确定，本申请实施例不做限制。

可选地，本申请实施例中，上述步骤203具体可以通过下述的步骤203a实现。

步骤203a、电子设备将M个第一图像块输入第一识别模块进行音符位置识别，以输出每个第一图像块中的每个音符的第一位置信息。

本申请实施例中，针对于M个第一图像块中的每个第一图像块，电子设备可以将该每个第一图像块输入至第一识别模块中，然后，该第一识别模块可以对对每个第一图像块进行卷积处理，以得到卷积处理后的第一图像块，并通过目标分类器和目标函数，预测输出每个第一图像块中的每个音符的第一位置信息。

本申请实施例中，电子设备通过对M个第一图像块进行三次卷积处理，可以浅层的得到M个第一图像块中趋近于人工标注的音符的第一位置信息，如此，可以提升电子设备进行乐谱识别的效率。

可选地，本申请实施例中，上述步骤203a具体可以通过下述的步骤203a1和步骤203a2实现。

步骤203a1、电子设备将第i个第一图像块输入第一识别模块后，基于第一识别模块在第i个第一图像块中确定至少一个第一候选框，并得到至少一个第一候选框中的每个第一候选框在所述第i个第一图像块上的位置信息。

本申请实施例中，电子设备可以根据目标分类器和目标函数，预测输出包含每个第一图像块中的每个音符的位置信息的至少一个第一候选框。

可选地，本申请实施例中，电子设备可以根据目标分类器和目标函数，预测输出至少一个第一候选框中的每个第一候选框的分类信息。

可选地，本申请实施例中，电子设备可以通过目标标识，指示每个第一候选框的分类。

可选地，本申请实施例中，上述目标标识可以为以下任一项：数字标识、字母标识、特殊符号标识、数字字母组合标识等。

示例性地，电子设备可以通过0和1指示第一候选框的分类，其中，0代表预测输出的第一候选框中不包含音符，1代表预测输出第一候选框中包含音符。

本申请实施例中，虽然上述实施例中通过IOU算法，得到了第一乐谱图像中包含音符的M个图像块，但是M个图像块中可能存在图像噪声，从而，电子设备可以预测并输出包含每个第一图像块中的每个音符的位置信息的至少一个第一候选框和该第一候选框的分类信息，如此，电子设备可以通过第一候选框的分类信息，进而更加准确地识别出第一乐谱图像音符所在的位置。

可选地，本申请实施例中，上述步骤203a1具体可以通过下述的步骤203a11和步骤203a112实现。

步骤203a11、电子设备对第i个第一乐谱图像块进行卷积处理，得到第i个第一乐谱图像块的图像特征。

具体地，上述第一识别模块可以包括三层卷积层，每层卷积层之间的卷积核为3×3，该每层卷积层之间的卷积层数为10、16、12。

步骤203a112、电子设备根据第i个第一乐谱图像块的图像特征，确定第一候选框，并得到第一候选框在第i个第一乐谱图像块上的位置信息。

本申请实施例中，电子设备在得到第i个第一乐谱图像块的图像特征之后，电子设备可以通过目标分类器和目标函数，预测输出每个第一图像块中的每个音符的第一位置信息。

具体地，上述目标分类器可以为softmax分类器；上述目标函数可以为边框回归函数。

示例性地，如图4所示，电子设备可以将每个第一图像块14输入至第一识别模块中，然后通过第一层卷积层，得到5×5×10的特征图15(即feature map，下述简称为第一特征图)，然后将第一特征图输入至第二层卷积层，得到3×3×16特征图16(下述简称为第二特征图)，然后将第二特征图输入至第三层卷积层，得到1×1×12特征图17(下述简称为第三特征图)，然后，电子设备可以将第三特征图输入至softmax分类器和边框回归函数中，预测输出每个第一图像块中的每个音符的第一位置信息，其中，第一特征图、第二特征图和第三特征图中的前两位数字表示该特征图的图像尺寸，该第一特征图、第二特征图和第三特征图中后一位数字表示该特征图的中包含的特征个数。

步骤203a2、电子设备基于第一识别模块，合并至少一个第一候选框，得到第一目标候选框，以获取第一目标候选框在第i个第一图像块上的第一位置信息。

本申请实施例中，上述第i个第一图像块为M个第一图像中的任意一个。

本申请实施例中，由于上述步骤203a1产生了不同尺度的至少一个第一候选框，所以电子设备可以通过非极大值抑制(non maximum suppression，NMS)算法，合并至少一个第一候选框，以得到第一目标候选框在第i个第一图像块上的第一位置信息。

示例性地，如图5中的(A)所示，以一个第一图像块为例，经过第一识别模块后的第一图像块上包含有4个第一候选框，由于该4个第一候选框均指示一个图像特征(图5中以人脸表示)，所以，如5中的(B)所示，电子设备可以通过NMS算法，将4个第一候选框，合并为一个第一目标候选框，并获取第一目标候选框在第一图像的第一位置信息。

本申请实施例中，上述第一识别模块识别速度块，但是准确率并不高，所以产生了不同尺度的至少一个第一候选框，电子设备可以通过NMS算法，过滤掉指示相同音符的至少一个第一候选框，如此，电子设备可以更进一步准确地获取第i个第一图像块中音符所在的位置。

步骤204、电子设备分别以每个音符的第一候选框在第一乐谱图像上对应的位置为中心，在第一乐谱图像中剪裁出每个音符对应的第二图像块。

本申请实施例中，上述第二图像块的分辨率大于第一图像块的分辨率。

本申请实施例中，电子设备在得到每个第一图像块中的第一目标候选框的第一位置信息之后，电子设备可以根据每个音符的第一位置信息的中心点坐标，以第二尺寸(例如24×24)在第一乐谱图像进行剪裁，以得到每个音符对应的第二图像块。

具体地，电子设备可以根据第一目标候选框的顶点坐标，确定每个音符的中心点坐标。

步骤205、电子设备获取每个音符对应的第二图像块中的每个音符的第二目标候选框。

本申请实施例中，上述至少一个音符中的每个音符的第二候选框分别对第二图像块中的每个音符位置信息。

本申请实施例中，电子设备可以对每个第一图像块中的每个音符进行框选处理，得到每个音符对应的第二候选框，从而根据该第二候选框获取每个音符的第二位置信息。

可选地，本申请实施例中，上述第一位置信息可以为音符的中心坐标信息；或者，上述第二位置信息可以为音符的顶点坐标信息。

可选地，本申请实施例中，上述第二候选框的形状可以为以下任一项：正方形、长方形、矩形、三角性或平行四边形等。具体地可以根据实际使用需求确定，本申请实施例不做限制。

可选地，本申请实施例中，上述第二候选框的尺寸可以为1×1或者2×2等。具体地可以根据实际使用需求确定，本申请实施例不做限制。

可选地，本申请实施例中，上述步骤205具体可以通过下述的步骤205a实现。

步骤205a、电子设备将每个音符对应的第二图像块输入第二识别模块进行音符位置识别，以输出第二图像块中的每个音符的第二位置信息。

本申请实施例中，上述第二识别模块的识别精度大于第一识别模块的识别精度。

可选地，本申请实施例中，上述步骤205a具体可以通过下述的步骤205a1和步骤205a2实现。

步骤205a1、电子设备将第j个第二图像块输入第二识别模块后，基于第二识别模块在第j个第二图像块中确定至少一个第二候选框，并得到至少一个第二候选框中的每个第二候选框在第j个第二图像块上的位置信息。

本申请实施例中，电子设备可以根据目标分类器、目标函数和全连接层，预测输出更为准确的包含每个第一图像块中的每个音符的位置信息的至少一个第二候选框。

本申请实施例中，由于第二识别模块，具有更多的卷积层数，而且，第二识别模块是在第一识别模块提供的第一候选框的基础上进行调优，因此，电子设备可以第二识别模块输出比第一识别模块更精准的边框信息，如此，提升了电子设备识别乐谱图像的准确性。

可选地，本申请实施例中，上述步骤205a1具体可以通过下述的步骤205a11至步骤205a13实现。

步骤205a11、电子设备对第j个第二图像块进行卷积处理，得到第j个第二图像块的图像特征。

本申请实施例中，电子设备可以对每个音符对应的第二图像块再次进行卷积处理，以得到第j个第二图像块的图像特征。

具体地，上述第二识别模块可以包括三层卷积层和全连接层，每层卷积层之间的卷积核为3×3，该每层卷积层之间的卷积层数为24、48、64。

需要说明的是，相较于第一识别模块，电子设备输入至第二识别模块中的第二图像块的分辨率扩展到了24×24，第二识别模块仅处理包含有音符的第二图像块，而且相对于第一识别模块，第二识别模块拥有更多的卷积层数，且增加了全连接层，第二识别模块是在第一识别模块提供的第一候选框的基础上进行调优，因此，第二识别模块可以输出比第一识别模块更精准的边框信息。

步骤205a12、电子设备对第j个第二图像块的图像特征进行全连接，得到全连接后的图像特征。

本申请实施例中，电子设备在得到第j个第二图像块的图像特征之后，电子设备可以将第j个第二图像块的图像特征输入至全连接层中，以得到全连接后的图像特征。

步骤205a13、电子设备根据全连接后的图像特征，确定第二候选框，并得到第二候选框在第j个第二图像块上的位置信息。

本申请实施例中，电子设备可以通过目标分类器、目标函数和全连接层，预测输出第二图像块中的每个音符的第二位置信息。

本申请实施例中，由于第二识别模块，具有更多的卷积层数，且增加了全连接层，而且，第二识别模块是在第一识别模块提供的第一候选框的基础上进行调优，因此，电子设备可以第二识别模块输出比第一识别模块更精准的边框信息，如此，提升了电子设备识别乐谱图像的准确性。

步骤205a2、电子设备基于第二识别模块，合并至少一个第二候选框，得到第二目标候选框，以获取第二目标候选框在第j个第二图像块上的第二位置信息。

本申请实施例中，上述第j个第二图像块为每个音符对应的第二图像块中的任意一个。

本申请实施例中，电子设备可以通过NMS算法合并至少一个第二候选框，以得到第二目标候选框在第j个第二图像块上的第二位置信息。

本申请实施例中，电子设备可以通过NMS算法，过滤掉指示相同音符的至少一个第二候选框，如此，电子设备可以更进一步准确地确定第j个第二图像块中音符所在的位置。

步骤206、电子设备根据每个音符的第二候选框，对第一乐谱图像进行识别。

可选地，本申请实施例中，上述第一乐谱图像中包括至少一组五线谱；上述步骤206具体可以通过下述的步骤206a至步骤206c实现。

步骤206a、基于所述第二图像块中的每个音符的第二目标候选框的位置信息，在每个音符在第一乐谱图像上的位置处添加第一标识。

本申请实施例中，电子设备可以将至少一组五线谱中的每组五线谱平均划分为K个区间，并按照第一顺序，在每个音符在第一乐谱图像上的位置处添加第一标识，以得到每组五线谱对应的目标标识串。

可选地，本申请实施例中，上述第一顺序可以为从左到右或者从上到下。

可选地，本申请实施例中，上述第一标识可以为以下任一项：数字标识、字母标识、特殊符号标识。

步骤206b、电子设备获取并存储至少一组无线谱中的每组五线谱对应的目标标识串。

本申请实施例中，上述至少一组五线谱中的任一五线谱对应的目标标识串是：由任一五线谱中的每个音符对应的第一标识组成的；任一五线谱对应的目标标识串是按照任一五线谱中的音符的排列顺序排列的。

本申请实施例中，电子设备在得到每组五线谱对应的目标标识串(下述下简称为第一标识串)之后，电子设备可以将该第一标识串，存储至第一应用程序中，并建立第一标识串与第一乐谱的乐谱信息之间的对应关系。

可选地，本申请实施例中，电子设备可以通过内连接或者外连接建立第一标识串与第一乐谱的乐谱信息之间的对应关系。

可选地，本申请实施例中，上述第一应用程序可以为数据库或服务器。

步骤206c、电子设备根据目标标识串，对第一乐谱图像进行识别。

本申请实施例中，电子设备在得到每组五线谱对应的目标标识串(下述下简称为第一标识串)之后，电子设备可以将该第一标识串，存储至第一应用程序中，并建立第一标识串与第一乐谱的乐谱信息之间的对应关系，从而电子设备可以根据根据目标标识串，对第一乐谱图像进行识别。

可选地，本申请实施例中，上述第一应用程序可以为数据库或服务器

本申请实施例中，电子设备通过将第一标识串与第一乐谱的乐谱信息建立对应关系，从而电子设备可以根据第一标识串快速查找到与第一标识串对应的乐谱信息，如此，提高了电子设备查找乐谱信息的效率和便捷性。

本申请实施例提供一种乐谱识别方法，电子设备可以对第一乐谱图像进行裁剪，得到M个图像块，并根据M个第一图像块，获取M第一个图像块中每个第一图像块中的每个音符的第一目标候选框，并分别以每个音符的第一目标候选框在第一乐谱图像上对应的位置为中心，在第一乐谱图像中剪裁出所每个音符对应的第二图像块；以获取每个音符对应的第二图像块中的每个音符的第二目标候选框，从而根据每个音符的第二候选框，对第一乐谱图像进行识别，第二图像块的分辨率大于第一图像块的分辨。本方案中，电子设备通过对第一乐谱图像进行第一次裁剪，得到每个音符的第一目标候选框，从而通过第一目标候选框初步识别出第一乐谱图像中的音符的第一位置信息，然后，基于该第一目标候选框对第一乐谱图像进行第二次裁剪，从而得到分辨率更高的第二图像块，进而基于该分辨率更高的第二图像块识别出第一乐谱图像中音符的精确度更高的第二目标候选框，从而通过第二目标候选框确定第二图像块中的每个音符在第一乐谱图像中的位置信息，进而通过每个音符的第二候选框，对所述第一乐谱图像进行识别，通过二次裁剪电子设备可以进一步准确地识别出第一乐谱图像中的音符位置，从而根据该第一乐谱图像中的音符位置可以准确地识别乐谱，如此，提升了电子设备识别乐谱的准确性。

需要说明的是，本申请实施例提供的乐谱识别方法，执行主体可以为乐谱识别装置，或者电子设备，或者还可以为电子设备中的功能模块或实体。本申请实施例中以乐谱识别装置执行乐谱识别方法为例，说明本申请实施例提供的乐谱识别装置。

图6示出了本申请实施例中涉及的乐谱识别装置的一种可能的结构示意图。如图6所示，该乐谱识别装置70可以包括：获取模块71、裁剪模块72和处理模块73。

其中，获取模块71，用于获取第一乐谱图像。裁剪模块72，用于将第一乐谱图像进行剪裁，得到M个第一图像块，M个第一图像块中的每个第一图像块中均包含至少一个音符；M为正整数。获取模块71，还用于获取每个第一图像块中的每个音符的第一目标候选框，每个音符的第一候选框分别对应每个第一乐谱图像块中的每个音符的位置信息；裁剪模块72，还用于分别以每个音符的第一候选框在第一乐谱图像上对应的位置为中心，在第一乐谱图像中剪裁出每个音符对应的第二图像块。获取模块71，还用于获取每个音符对应的第二图像块中的每个音符的第二目标候选框，每个音符的第二候选框分别对应第二图像块中的每个音符位置信息；处理模块73，用于根据每个音符的第二候选框，对第一乐谱图像进行识别；其中，第二图像块的分辨率大于第一图像块的分辨率。

在一种可能的实现方式中，上述获取模块71，具体用于将第i个第一乐谱图像块输入第一识别模块后，基于第一识别模块在第i个第一乐谱图像块中确定至少一个第一候选框，并得到至少一个第一候选框中的每个第一候选框在第i个第一乐谱图像块上的位置信息；并基于第一识别模块，合并至少一个第一候选框，得到第一目标候选框，并获取第一目标候选框在第i个第一乐谱图像块上的第一位置信息；其中，第i个第一乐谱图像块为M个第一乐谱图像中的任意一个；获取模块，具体用于将第j个第二图像块输入第二识别模块后，基于第二识别模块在第j个第二图像块中确定至少一个第二候选框，并得到至少一个第二候选框中的每个第二候选框在第j个第二图像块上的位置信息；并基于第二识别模块，合并至少一个第二候选框，得到第二目标候选框，并获取第二目标候选框在第j个第二图像块上的第二位置信息；其中，第j个第二图像块为每个音符对应的第二图像块中的任意一个；其中，第二识别模块的识别精度大于第一识别模块的识别精度。

在一种可能的实现方式中，上述获取模块71，具体用于对第i个第一乐谱图像块进行卷积处理，得到第i个第一乐谱图像块的图像特征；并根据第i个第一乐谱图像块的图像特征，确定第一候选框，并得到第一候选框在第i个第一乐谱图像块上的位置信息。

在一种可能的实现方式中，上述获取模块71，具体用于对第j个第二图像块进行卷积处理，得到第j个第二图像块的图像特征；并对第j个第二图像块的图像特征进行全连接，得到全连接后的图像特征；以及根据全连接后的图像特征，确定第二候选框，并得到第二候选框在第j个第二图像块上的位置信息。

在一种可能的实现方式中，上述获取模块71，具体用于基于原始乐谱图像，构建多层乐谱图像；其中，该多层乐谱图像为第一乐谱图像；该多层乐谱图像中的每层乐谱图像的图像尺寸不同。上述裁剪模块72，具体用于将多层乐谱图像中的每层乐谱图像进行剪裁，得到M个第一图像块。

在一种可能的实现方式中，上述第一乐谱图像中包括至少一组五线谱；上述处理模块73，具体用于基于获取模块获取每个音符的第二目标候选框的位置信息，在每个音符在第一乐谱图像上的位置处添加第一标识；获取并存储至少一组无线谱中的每组五线谱对应的目标标识串；以及目标标识串，对第一乐谱图像进行识别；其中，至少一组五线谱中的任一五线谱对应的目标标识串是：由任一五线谱中的每个音符对应的第一标识组成的；任一五线谱对应的目标标识串是按照任一五线谱中的音符的排列顺序排列的。

本申请实施例提供一种乐谱识别装置，乐谱识别装置通过对第一乐谱图像进行第一次裁剪，得到每个音符的第一目标候选框，从而通过第一目标候选框初步识别出第一乐谱图像中的音符的第一位置信息，然后，基于该第一目标候选框对第一乐谱图像进行第二次裁剪，从而得到分辨率更高的第二图像块，进而基于该分辨率更高的第二图像块识别出第一乐谱图像中音符的精确度更高的第二目标候选框，从而通过第二目标候选框确定第二图像块中的每个音符在第一乐谱图像中的位置信息，进而通过每个音符的第二候选框，对所述第一乐谱图像进行识别，如此，通过二次裁剪电子设备可以进一步准确地识别出第一乐谱图像中的音符位置，从而根据该第一乐谱图像中的音符位置可以准确地识别乐谱，如此，提升了乐谱识别装置识别乐谱的准确性。

本申请实施例中的乐谱识别装置可以是装置，也可以是电子设备中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(MobileInternet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的乐谱识别装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为IOS操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的乐谱识别装置能够实现图1至图5的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图7所示，本申请实施例还提供一种电子设备90，包括处理器91和存储器92，存储器92上存储有可在所述处理器91上运行的程序或指令，该程序或指令被处理器91执行时实现上述乐谱识别方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图8为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备100包括但不限于：射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、以及处理器110等部件。

本领域技术人员可以理解，电子设备100还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图8中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器110，获取第一乐谱图像；将第一乐谱图像进行剪裁，得到M个第一图像块，M个第一图像块中的每个第一图像块中均包含至少一个音符；M为正整数；获取每个第一图像块中的每个音符的第一目标候选框，每个音符的第一候选框分别对应每个第一乐谱图像块中的每个音符的位置信息；分别以每个音符的第一候选框在第一乐谱图像上对应的位置为中心，在第一乐谱图像中剪裁出每个音符对应的第二图像块；获取每个音符对应的第二图像块中的每个音符的第二目标候选框，每个音符的第二候选框分别对应第二图像块中的每个音符位置信息；根据每个音符的第二候选框，对第一乐谱图像进行识别；其中，第二图像块的分辨率大于第一乐谱图像块的分辨率。

本申请实施例提供一种电子设备，电子设备通过对第一乐谱图像进行第一次裁剪，得到每个音符的第一目标候选框，从而通过第一目标候选框初步识别出第一乐谱图像中的音符的第一位置信息，然后，基于该第一目标候选框对第一乐谱图像进行第二次裁剪，从而得到分辨率更高的第二图像块，进而基于该分辨率更高的第二图像块识别出第一乐谱图像中音符的精确度更高的第二目标候选框，从而通过第二目标候选框确定第二图像块中的每个音符在第一乐谱图像中的位置信息，进而通过每个音符的第二候选框，对所述第一乐谱图像进行识别，如此，通过二次裁剪电子设备可以进一步准确地识别出第一乐谱图像中的音符位置，从而根据该第一乐谱图像中的音符位置可以准确地识别乐谱，如此，提升了电子设备识别乐谱的准确性。

可选地，本申请实施例中，上述处理器110，将第i个第一图像块输入第一识别模块后，基于第一识别模块在第i个第一图像块中确定至少一个第一候选框，并得到至少一个第一候选框中的每个第一候选框在第i个第一图像块上的位置信息；基于第一识别模块，合并至少一个第一候选框，得到第一目标候选框，并获取第一目标候选框在第i个第一图像块上的第一位置信息；其中，第i个第一图像块为M个第一图像中的任意一个；并将第j个第二图像块输入第二识别模块后，基于第二识别模块在第j个第二图像块中确定至少一个第二候选框，并得到至少一个第二候选框中的每个第二候选框在第j个第二图像块上的位置信息；基于第二识别模块，合并至少一个第二候选框，得到第二目标候选框，并获取第二目标候选框在第j个第二图像块上的第二位置信息；其中，第j个第二图像块为每个音符对应的第二图像块中的任意一个；其中，第二识别模块的识别精度大于第一识别模块的识别精度。

可选地，本申请实施例中，上述处理器110，具体用于对第i个第一乐谱图像块进行卷积处理，得到第i个第一乐谱图像块的图像特征；根据第i个第一乐谱图像块的图像特征，确定第一候选框，并得到第一候选框在第i个第一乐谱图像块上的位置信息。

可选地，本申请实施例中，上述处理器110，具体用于对第j个第二图像块进行卷积处理，得到第j个第二图像块的图像特征；对第j个第二图像块的图像特征进行全连接，得到全连接后的图像特征；根据全连接后的图像特征，确定第二候选框，并得到第二候选框在第j个第二图像块上的位置信息。

可选地，本申请实施例中，上述处理器110，具体用于基于原始乐谱图像，构建多层乐谱图像；其中，多层乐谱图像为第一乐谱图像；多层乐谱图像中的每层乐谱图像的图像尺寸不同；并将多层乐谱图像中的每层乐谱图像进行剪裁，得到M个第一图像块。

可选地，本申请实施例中，上述第一乐谱图像中包括至少一组五线谱；上述处理器110，具体用于基于第二图像块中的每个音符的第二目标候选框的位置信息，在每个音符在第一乐谱图像上的位置处添加第一标识；获取并存储至少一组无线谱中的每组五线谱对应的目标标识串；根据目标标识串，对第一乐谱图像进行识别；其中，至少一组五线谱中的任一五线谱对应的目标标识串是：由任一五线谱中的每个音符对应的第一标识组成的；任一五线谱对应的目标标识串是按照任一五线谱中的音符的排列顺序排列的。

本申请实施例提供的电子设备能够实现上述方法实施例实现的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本实施例中各种实现方式具有的有益效果具体可以参见上述方法实施例中相应实现方式所具有的有益效果，为避免重复，此处不再赘述。

应理解的是，本申请实施例中，输入单元104可以包括图形处理器(GraphicsProcessing Unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元106可包括显示面板1061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板1061。用户输入单元107包括触控面板1071以及其他输入设备1072中的至少一种。触控面板1071，也称为触摸屏。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器109可以包括易失性存储器或非易失性存储器，或者，存储器109可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器109包括但不限于这些和任意其它适合类型的存储器。

处理器110可包括一个或多个处理单元；可选的，处理器110集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述乐谱识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种乐谱识别方法，其特征在于，所述方法包括：

获取第一乐谱图像；

将所述第一乐谱图像进行剪裁，得到M个第一图像块，所述M个第一图像块中的每个第一图像块中均包含至少一个音符；M为正整数；

获取所述每个第一图像块中的每个音符的第一目标候选框，所述每个音符的第一候选框分别对应所述每个第一乐谱图像块中的每个音符的位置信息；

分别以所述每个音符的第一候选框在所述第一乐谱图像上对应的位置为中心，在所述第一乐谱图像中剪裁出所述每个音符对应的第二图像块；

获取所述每个音符对应的第二图像块中的每个音符的第二目标候选框，所述每个音符的第二候选框分别对应所述第二图像块中的每个音符位置信息；

根据所述每个音符的第二候选框，对所述第一乐谱图像进行识别；

其中，所述第二图像块的分辨率大于所述第一乐谱图像块的分辨率。

2.根据权利要求1所述的方法，其特征在于，所述获取所述每个第一乐谱图像块中的每个音符的第一目标候选框，包括：

将第i个第一图像块输入第一识别模块后，基于所述第一识别模块在所述第i个第一图像块中确定至少一个第一候选框，并得到所述至少一个第一候选框中的每个第一候选框在所述第i个第一图像块上的位置信息；

基于所述第一识别模块，合并所述至少一个第一候选框，得到第一目标候选框，并获取所述第一目标候选框在所述第i个第一图像块上的第一位置信息；

其中，所述第i个第一图像块为所述M个第一图像中的任意一个；

所述获取所述每个音符对应的第二图像块中的每个音符的第二目标候选框，包括：

将第j个第二图像块输入第二识别模块后，基于所述第二识别模块在所述第j个第二图像块中确定至少一个第二候选框，并得到所述至少一个第二候选框中的每个第二候选框在所述第j个第二图像块上的位置信息；

基于所述第二识别模块，合并所述至少一个第二候选框，得到第二目标候选框，并获取所述第二目标候选框在所述第j个第二图像块上的第二位置信息；

其中，所述第j个第二图像块为所述每个音符对应的第二图像块中的任意一个；

其中，所述第二识别模块的识别精度大于所述第一识别模块的识别精度。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一识别模块在所述第i个第一乐谱图像块中确定至少一个第一候选框，并得到所述至少一个第一候选框中的每个第一候选框在所述第i个第一乐谱图像块上的位置信息，包括：

对所述第i个第一乐谱图像块进行卷积处理，得到所述第i个第一乐谱图像块的图像特征；

根据所述第i个第一乐谱图像块的图像特征，确定所述第一候选框，并得到所述第一候选框在所述第i个第一乐谱图像块上的位置信息。

4.根据权利要求2所述的方法，其特征在于，所述将第j个第二图像块输入第二识别模块后，基于所述第二识别模块在所述第j个第二图像块中确定至少一个第二候选框，并得到所述至少一个第二候选框中的每个第二候选框在所述第j个第二图像块上的位置信息，包括：

对所述第j个第二图像块进行卷积处理，得到所述第j个第二图像块的图像特征；

对所述第j个第二图像块的图像特征进行全连接，得到全连接后的图像特征；

根据所述全连接后的图像特征，确定所述第二候选框，并得到所述第二候选框在所述第j个第二图像块上的位置信息。

5.根据权利要求1所述的方法，其特征在于，所述获取第一乐谱图像，包括：

基于原始乐谱图像，构建多层乐谱图像；

其中，所述多层乐谱图像为所述第一乐谱图像；

所述多层乐谱图像中的每层乐谱图像的图像尺寸不同；

所述将所述第一乐谱图像进行剪裁，得到M个第一乐谱图像块，包括：

将所述多层乐谱图像中的每层乐谱图像进行剪裁，得到M个第一图像块。

6.根据权利要求1所述的方法，其特征在于，所述第一乐谱图像中包括至少一组五线谱；所述根据所述每个音符的第二候选框，对所述第一乐谱图像进行识别，包括：

基于所述第二图像块中的每个音符的第二目标候选框的位置信息，在所述每个音符在所述第一乐谱图像上的位置处添加第一标识；

获取并存储所述至少一组无线谱中的每组五线谱对应的目标标识串；

根据所述目标标识串，对所述第一乐谱图像进行识别；

其中，所述至少一组五线谱中的任一五线谱对应的目标标识串是：由所述任一五线谱中的每个音符对应的第一标识组成的；所述任一五线谱对应的目标标识串是按照所述任一五线谱中的音符的排列顺序排列的。

7.一种乐谱识别装置，其特征在于，所述乐谱识别装置包括：获取模块、裁剪模块和处理模块；

所述获取模块，用于获取第一乐谱图像；

所述裁剪模块，用于将所述第一乐谱图像进行剪裁，得到M个第一图像块，所述M个第一图像块中的每个第一图像块中均包含至少一个音符；M为正整数；

所述获取模块，还用于获取所述每个第一图像块中的每个音符的第一目标候选框，所述每个音符的第一候选框分别对应所述每个第一乐谱图像块中的每个音符的位置信息；

所述裁剪模块，还用于分别以所述每个音符的第一候选框在所述第一乐谱图像上对应的位置为中心，在所述第一乐谱图像中剪裁出所述每个音符对应的第二图像块；

所述获取模块，还用于获取所述每个音符对应的第二图像块中的每个音符的第二目标候选框，所述每个音符的第二候选框分别对应所述第二图像块中的每个音符位置信息；

处理模块，用于根据所述每个音符的第二候选框，对所述第一乐谱图像进行识别；

其中，所述第二图像块的分辨率大于所述第一图像块的分辨率。

8.根据权利要求7所述的装置，其特征在于，

所述获取模块，具体用于将第i个第一乐谱图像块输入第一识别模块后，基于所述第一识别模块在所述第i个第一乐谱图像块中确定至少一个第一候选框，并得到所述至少一个第一候选框中的每个第一候选框在所述第i个第一乐谱图像块上的位置信息；并基于所述第一识别模块，合并所述至少一个第一候选框，得到第一目标候选框，并获取所述第一目标候选框在所述第i个第一乐谱图像块上的第一位置信息；其中，所述第i个第一乐谱图像块为所述M个第一乐谱图像中的任意一个；所述获取模块，具体用于将第j个第二图像块输入第二识别模块后，基于所述第二识别模块在所述第j个第二图像块中确定至少一个第二候选框，并得到所述至少一个第二候选框中的每个第二候选框在所述第j个第二图像块上的位置信息；并基于所述第二识别模块，合并所述至少一个第二候选框，得到第二目标候选框，并获取所述第二目标候选框在所述第j个第二图像块上的第二位置信息；其中，所述第j个第二图像块为所述每个音符对应的第二图像块中的任意一个；

9.根据权利要求8所述的装置，其特征在于，所述获取模块，具体用于对所述第i个第一乐谱图像块进行卷积处理，得到所述第i个第一乐谱图像块的图像特征；并根据所述第i个第一乐谱图像块的图像特征，确定所述第一候选框，并得到所述第一候选框在所述第i个第一乐谱图像块上的位置信息。

10.根据权利要求8所述的装置，其特征在于，所述获取模块，具体用于对所述第j个第二图像块进行卷积处理，得到所述第j个第二图像块的图像特征；并对所述第j个第二图像块的图像特征进行全连接，得到全连接后的图像特征；以及根据所述全连接后的图像特征，确定所述第二候选框，并得到所述第二候选框在所述第j个第二图像块上的位置信息。

11.根据权利要求7所述的装置，其特征在于，所述获取模块，具体用于基于原始乐谱图像，构建多层乐谱图像；其中，所述多层乐谱图像为所述第一乐谱图像；所述多层乐谱图像中的每层乐谱图像的图像尺寸不同；

所述裁剪模块，具体用于将所述多层乐谱图像中的每层乐谱图像进行剪裁，得到M个第一图像块。

12.根据权利要求所述的装置，其特征在于，所述第一乐谱图像中包括至少一组五线谱；

所述处理模块，具体用于基于所述获取模块获取所述每个音符的第二目标候选框的位置信息，在所述每个音符在所述第一乐谱图像上的位置处添加第一标识；获取并存储所述至少一组无线谱中的每组五线谱对应的目标标识串；以及所述目标标识串，对所述第一乐谱图像进行识别；其中，所述至少一组五线谱中的任一五线谱对应的目标标识串是：由所述任一五线谱中的每个音符对应的第一标识组成的；所述任一五线谱对应的目标标识串是按照所述任一五线谱中的音符的排列顺序排列的。

13.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至6中任一项所述的乐谱识别方法的步骤。

14.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至6中任一项所述的乐谱识别方法的步骤。