CN113723264A

CN113723264A - 一种用于辅助钢琴教学的智能识别弹奏错误的方法及系统

Info

Publication number: CN113723264A
Application number: CN202110982026.0A
Authority: CN
Inventors: 韩冰冰; 陶之雨; 郑庆伟
Original assignee: Guilin Zhishen Information Technology Co Ltd
Current assignee: Guilin Zhishen Information Technology Co Ltd
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2021-11-30

Abstract

本发明提供一种用于辅助钢琴教学的智能识别弹奏错误的方法，包括：从钢琴键盘上方获取弹奏钢琴的包含完整钢琴键盘的2D图像；通过钢琴键盘检测网络对所述2D图像进行目标检测以检测出以2D图像的相对位置坐标表示的钢琴键盘区域，并通过转换获得2D图像原始坐标下的钢琴键盘位置坐标；通过手部检测网络对以钢琴键盘位置坐标表示的钢琴键盘区域进行目标检测以检测出以钢琴键盘区域的相对位置坐标表示的手部区域，并通过转换获得2D图像原始坐标下的手部位置坐标；通过手型错误检测网络识别以手部位置坐标表示的手部区域中的手型错误类型以及以手部区域的相对位置坐标表示的手型错误位置，并通过转换获得2D图像原始坐标下的手型错位位置坐标。

Description

一种用于辅助钢琴教学的智能识别弹奏错误的方法及系统

技术领域

本发明涉及深度学习领域，尤其涉及一种用于辅助钢琴教学的智能识别弹奏错误的方法及系统。

背景技术

目前钢琴教学大多数采用的是教师当面指导教学的方式，这种方式受人力、时间、金钱、教师水平等因素限制，大大增加了钢琴学习的难度。随着AI时代的到来，人工智能技术成为了解决钢琴学习问题的一个突破口，诞生了越来越多的智能钢琴教学系统。现有的智能钢琴教学系统存在以下主要缺点：

1、大部分方案采用的是基于特征比对的方法，首先，通过数学模型，建立一个正确手型的标准数据库；然后，构建预测模型，用于抽取预测图片的特征，将该特征与标准数据库进行比对，从而判断是否为错误的弹奏手型。这种方式的难点在于构建标准数据库是一个复杂且低效的过程，由于人手的大小、关节比例等具有很大的差异，这就导致在使用关节角度或关节长度构建标准手型时，具有较大的主观性，是不太准确的。同时，由于手与相机角度的变化，即使是差异很大的手型，在做比对时，也可能得出一个很高的相似度，导致得出错误结论。因此，特征比对的方法鲁棒性差，主观性高，识别率低。

2、在构建预测模型时，很多方法使用双目或者深度相机得到三维数据，从而构建3D模型。相比于2D视觉模型，3D模型计算量大、设计复杂、性差，对硬件要求高，需要大算力的芯片支持，深度相机和大算力芯片都会大大增加成本。

3、现有方法缺少一个系统全面的钢琴手型和指法校正方案。手型错误只能判断对与错，不能判断是哪种错误，也不能指出错误位置在哪里，指导学生矫正错误的能力不足。当前还没有很好的方法对按键和手指进行精确绑定，5根手指与88个键的组合有成百上千种，现有方法无法对指法错误进行精确的识别。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种能够准确识别弹奏错误的用于辅助钢琴教学的智能识别弹奏错误的方法及系统。

根据本发明的第一方面，提供一种用于辅助钢琴教学的智能识别弹奏错误的方法，用于从弹奏钢琴的2D图像中识别出手型错误、和/或指法错误，所述方法包括：从钢琴键盘上方获取弹奏钢琴的包含完整钢琴键盘的2D图像；通过钢琴键盘检测网络对所述2D图像进行目标检测以检测出以2D图像的相对位置坐标表示的钢琴键盘区域，并将所述用于表示钢琴键盘区域的2D图像的相对位置坐标转换为2D图像原始坐标系下的坐标以获得2D图像原始坐标下的钢琴键盘位置坐标；通过手部检测网络对以钢琴键盘位置坐标表示的钢琴键盘区域进行目标检测以检测出以钢琴键盘区域的相对位置坐标表示的手部区域，并将所述用于表示手部区域的钢琴键盘区域的相对位置坐标转换为2D图像原始坐标系下的坐标以获得2D图像原始坐标下的手部位置坐标；通过手型错误检测网络识别以手部位置坐标表示的手部区域中的手型错误类型以及以手部区域的相对位置坐标表示的手型错误位置，并将所述用于表示手型错误位置的手部区域的相对位置坐标转换为2D图像原始坐标系下的坐标以获得2D图像原始坐标下的手型错位位置坐标。在本发明的一些实施例中，本发明方法还包括：从所述以钢琴键盘位置坐标表示的钢琴键盘区域中将每个琴键划分出来得到以钢琴键盘区域的相对位置坐标表示的不同琴键，并将每个用于表示琴键的钢琴键盘区域的相对位置坐标转换为2D图像原始坐标系下的坐标以获得2D图像原始坐标下的琴键坐标；通过指尖特征点检测网络从以手部位置坐标表示的手部区域中检测出以手部区域的相对位置坐标表示的不同手指的指尖特征点，并将每个用于表示不同手指的指尖特征点的手部区域的相对位置坐标转换为2D图像原始坐标系下的坐标以获得2D图像原始坐标下的指尖坐标；基于指尖坐标和琴键坐标进行位置判断，将落在琴键上的指尖与该琴键进行绑定获得手指按键绑定关系，并将弹奏同一个音符的手指按键绑定关系和曲谱数据库中的标准绑定关系进行对比以检测指法错误。采用本发明方法，可以直接通过2D图像精确识别出弹奏过程中的具体错误，计算量小。

优选的，上述方法中，在检测出钢琴键盘区域后，将钢琴键盘区域对应的钢琴键盘位置坐标进行第一预设像素的扩展，获得包含完整手部的钢琴键盘有效区域，然后基于钢琴键盘有效区域进行后续处理。优选的，所述第一预设像素为200像素。通过像素扩展，可以有效避免因有些2D图像中因为拍照角度或者手在键盘的位置不同导致的手部不完整而带来的识别不准确的问题，同时，通过直接对钢琴键盘有效区域进行弹奏错误的识别，无需对整个图像进行识别，极大的减少了计算工作量，降低了硬件开销。

优选的，在本发明的一些实施例中，在检测出手部区域后，基于钢琴键盘位置坐标和手部位置坐标的对比，过滤掉未落在钢琴键盘上的手的坐标即去掉未落在钢琴键盘上的手的信息，将落在钢琴键盘上的手的坐标边界向四个方向进行第二预设像素的扩展，获得包含落在钢琴键盘上的手的完整手部的手部有效区域以及对应手部位置坐标。优选的，所述第二预设像素为30像素。通过手部位置坐标的过滤，可以有效剔除未落在钢琴键盘上的手的数据无需对其进行弹奏错误识别，仅对落在钢琴键盘上的手进行弹奏错误识别，缩短了识别时间，减少计算工作量。

上述方法中，钢琴键盘检测网络、手部检测网络、手型错误检测网络、指尖特征点检测网络均通过神经网络训练得到，可以智能准确地进行目标检测是错误识别。在本发明的一些实施例中，通过如下方式对神经网络进行训练以获得所述钢琴键盘检测网络、手部检测网络、手型错误检测网络、指尖特征点检测网络：

S1、采集多个人在多种场景下的弹奏不同类型钢琴的图像，形成原始数据集，使原始数据集中的图像覆盖现有技术下所有钢琴类型对应的场景和全错误类型；

S2、对原始数据集进行标注，包括标注钢琴键盘位置坐标，标注手部位置坐标，标注手型错误类型和手型错误位置坐标，标注不同手指指尖特征点坐标，所有标注均在同一个二维坐标系中；

S3、根据标注的钢琴键盘位置坐标对原始数据集中的图像进行处理，获得包含以标注的钢琴键盘位置坐标表示的钢琴键盘区域的图像以形成第一数据集；进一步地，对钢琴键盘区域进行扩充得到的钢琴键盘有效区域，根据标注的键盘位置坐标和手部位置坐标以原始数据集为基础对原图进行裁剪，获得每张原图中的钢琴键盘有效区域形成第二数据集，其中，第二数据集中将在原图中标注的手部位置坐标转换为与钢琴键盘有效区域同一坐标系下的坐标；进一步地，对手部区域进行扩充得到的手部有效区域，根据标注的手部位置坐标和手型错误位置坐标以原始数据集为基础对原图进行裁剪获得每张原图中的手部有效区域形成第三数据集，其中，第三数据集中将在原图中标注的手型错误位置坐标转换为与手部有效区域同一坐标系下的坐标；根据标注的手部位置坐标和不同手指指尖特征点坐标以原始数据集为基础对对原图进行裁剪获得每张原图中的手部有效区域形成第四数据集，其中，第四数据集中将在原图中标注的不同手指指尖特征点坐标转换为与手部有效区域同一坐标系下的坐标；

S4、用第一数据集将预定神经网络进行训练至收敛获得钢琴键盘检测网络，用第二数据集将预定神经网络进行训练至收敛获得手部检测网络；用第三数据集将预定神经网络进行训练至收敛获得手型错误检测网络；用第四数据集将预定神经网络进行训练至收敛获得指尖特征点检测网络。

在本发明的一些实施例中，分别用第一数据集、第二数据集、第三数据集将yolov4网络训练至收敛以分别获得钢琴键盘检测网络、手部检测网络、手型错误检测网络。用第四数据集将ResNet18和级联金字塔网络组成的网络训练至收敛获得指尖特征点检测网络。

通过神经网络训练得到的钢琴键盘检测网络可以智能识别钢琴键盘位置得到钢琴键盘位置坐标；通过神经网络训练得到的手部检测网络可以智能准确地识别以输入钢琴键盘区域的相对位置坐标表示的手部位置，将用于表示手部位置的钢琴键盘区域的相对位置坐标转换为原始图像坐标系下的坐标可直接获得原始图像中的手部位置坐标；通过神经网络训练得到的手型错误检测网络可以智能准确地识别出具体的手型错误类型以及手型错误位置坐标；通过神经网络训练得到的指尖特征点检测网络可以智能准确地识别出不同手指的以输入手部区域的相对位置坐标表示的指尖位置，将用于表示指尖位置的输入手部区域的相对位置坐标转换为原始图像坐标系下的坐标可以直接获得原始图像中的指尖坐标，方便后续指法识别。上述采用标注的数据集对神经网络进行训练获得的检测网络，无需建立标准的手型错误对比数据库即可准确的识别出弹奏中的手型错误，鲁棒性好，准确度高。

根据本发明的第二方面，提供一种用于实现本发明第一方面所述方法的系统，包括：图像采集模块，用于采集弹奏钢琴的包含完整钢琴键盘的2D图像；钢琴键盘检测模块，用于对所述2D图像进行目标检测以检测出以2D图像的相对位置坐标表示的钢琴键盘区域，并将所述用于表示钢琴键盘区域的2D图像的相对位置坐标转换为2D图像原始坐标系下的坐标以获得2D图像原始坐标下的钢琴键盘位置坐标；手部检测模块，用于对所述以钢琴键盘位置坐标表示的钢琴键盘区域进行目标检测以检测出以钢琴键盘区域的相对位置坐标表示的手部区域，并将所述用于表示手部区域的钢琴键盘区域的相对位置坐标转换为2D图像原始坐标系下的坐标以获得2D图像原始坐标下的手部位置坐标；手型错误检测模块，用于从以手部位置坐标表示的手部区域中的手型错误类型以及以手部区域的相对位置坐标表示的手型错误位置，并将所述用于表示手型错误位置的手部区域的相对位置坐标转换为2D图像原始坐标系下的坐标以获得2D图像原始坐标下的手型错误位置坐标。优选的，所述系统还包括：琴键划分模块，用于从所述以钢琴键盘位置坐标表示的钢琴键盘区域中将每个琴键划分出来得到以钢琴键盘区域的相对位置坐标表示的不同琴键，并将每个用于表示琴键的钢琴键盘区域的相对位置坐标转换为2D图像原始坐标系下的坐标以获得2D图像原始坐标下的琴键坐标；指尖特征点检测网络，用于从以手部位置坐标表示的手部区域中检测出以手部区域的相对位置坐标表示的不同手指的指尖特征点，并将每个用于表示不同手指的指尖特征点的手部区域的相对位置坐标转换为2D图像原始坐标系下的坐标以获得2D图像原始坐标下的指尖坐标；指法错误检测模块，用于基于指尖坐标和琴键坐标进行位置判断，将落在琴键上的指尖与该琴键进行绑定获得手指按键绑定关系，并将弹奏同一个音符的手指按键绑定关系和曲谱数据库中的标准绑定关系进行对比以检测指法错误。在本发明的一些实施例中，所述系统还包括：用户交互与显示模块，用于将弹奏过程中出现的弹奏错误与弹奏钢琴的图像进行合并并进行显示，以及提供模式选择和功能选择的交互界面。

在本发明的一些实施例中，所述图像采集模块采用任意可拍照电子设备，例如手机、照相机、摄像头等。

在本发明系统中，采用2D图像，计算量小，硬件成本低。因此，2D视觉模型具有不可替代的优势。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1为根据本发明实施例的一种用于辅助钢琴教学的智能识别弹奏错误的方法中主要工作内容示意图；

图2为根据本发明实施例的一种用于辅助钢琴教学的智能识别弹奏错误的系统框架示意图；

图3为根据本发明实施例的采集到的2D图像示例示意图；

图4为根据本发明实施例的从图3所示的2D图像中检测到的钢琴键盘区域示意图；

图5为根据本发明实施例的从图4所示的钢琴键盘区域中检测到的手部区域示意图；

图6为根据本发明实施例的从图5所示的手部区域中检测指尖特征点示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明建立在2D图像的基础上，将手型错误看作一个检测任务，将指法错误看成特征点检测任务和图像分割任务，构建2D视觉模型来解决识别弹奏错误的问题，由此不需要进行3D建模，也不需要建立标准数据库进行比对，极大的降低了计算任务量和硬件开销。

根据本发明的一个实施例，如图1所示，一种用于辅助钢琴教学的智能识别弹奏错误的方法，用于通过对采集的弹奏钢琴的2D图像进行检测以识别是否有弹奏错误，主要包括以下几个部分：首先对采集到的弹奏钢琴的2D图像进行钢琴键盘检测，从中截取钢琴键盘区域；然后针对截取到的钢琴键盘区域分别进行手部检测和琴键分割，手部检测是从钢琴键盘区域中检测出手部区域，琴键分割是基于钢琴键盘区域将琴键进行分割获得每个琴键；其次，针对手部区域，分别进行手型错误检测和指尖检测，手型错误检测检测手型错误并输出手型错误类型和手型错误位置坐标，指尖检测是对手部区域进行指尖特征点检测以获得不同手指的指尖位置坐标；最后将指尖位置坐标与琴键位置坐标进行位置判断，将落在琴键上的指尖与琴键进行绑定获得手指按键绑定关系，并将手指按键绑定关系与曲谱数据库中弹奏同一个音符的绑定关系进行对比以判断是否有指法错误，并输出存在的指法错误。图2示出了采用本发明方法识别弹奏错误过程中的主要功能模块，其中，通过图像采集模块从钢琴键盘上方采集弹奏钢琴的包含完整键盘的2D图像，通过钢琴键盘检测模块对2D图像进行钢琴键盘检测得到钢琴键盘区域，通过手部检测模块对钢琴键盘区域进行手部检测得到手部区域，通过手型错误检测模块对手部区域进行手型错误检测获得手型错误类型和手型错误位置坐标，通过琴键划分模块基于钢琴键盘区域对琴键进行分割获得每个琴键的坐标，通过指尖特征点检测网络对手部区域进行指尖特征点检测获得不同手指的指尖坐标，通过指法错误检测模块将指尖坐标和琴键坐标进行位置对比判断以将落在琴键上的指尖与该琴键进行绑定获得手指按键绑定关系，如果手指的指尖坐标表示的区域和琴键坐标表示的区域有重叠，那么这个手指落在与其指尖坐标有区域重叠的琴键上，将该手指与琴键进行绑定获得手指按键绑定关系，将弹奏同一个音符的手指按键绑定关系和曲谱数据库中的标准绑定关系进行对比以检测指法错误。

为了更好的理解本发明，下面结合附图对本发明进行详细说明。

一、图像采集

通过图像采集模块从钢琴键盘上方采集弹奏者弹奏钢琴时的包含完整钢琴键盘的2D图像(采集到的2D图像中，人位于图像上方，图像中的钢琴键盘区域在图像上呈矩形或近似矩形)，并对采集到的2D图像运用图像处理算法进行处理，得到处理后的2D图像。这里的图像采集模块采用任意可拍照电子设备来采集2D图像，例如手机、照相机、摄像头等，拍摄前或拍摄过程中调整设备的角度，使拍摄到的2D图像包含完整的钢琴键盘以及部分或者全部手部。这里的图像处理算法包括但不限于黑电平补偿、镜头校正、坏像素校正、颜色插值、去噪声、gamma校正、色彩空间转换、白平衡校正、色彩与对比度增强、格式转换等算法，用于对拍摄到的2D图像进行处理，以使处理后的2D图像适用于后续的操作。举例而言，可以将拍摄到的原始2D图像转换为格式上与钢琴键盘检测兼容的2D图像，如bmp、jpg、png、tif、gif、pcx、tga、exif、fpx、svg、psd、cdr、pcd、dxf、ufo、eps、ai、raw、WMF、webp、avif、apng等格式的图像，具体格式可以根据实际应用需求进行设定。如图3所示的一个示例，是采集到的包括完整的钢琴键盘以及弹奏者弹奏钢琴时的全部手部的2D图像。

二、钢琴键盘检测

通过钢琴键盘检测模块从2D图像中检测出钢琴键盘位置，从而得到钢琴键盘位置坐标表示的钢琴键盘区域。钢琴键盘检测模块采用钢琴键盘检测网络对2D图像做目标检测，获得钢琴键盘位置坐标，其中，钢琴键盘检测网络输出的是输入2D图像的相对位置坐标，将其转换为2D图像原始坐标系下的坐标以得到2D图像原始坐标系下的钢琴键盘位置坐标，该钢琴键盘位置坐标用于指示2D图像中的钢琴键盘区域。其中，钢琴键盘检测网络是以弹奏钢琴的2D图像为输入，钢琴键盘在2D图像中的相对位置坐标为输出，对神经网络进行训练获得。对2D图像进行钢琴键盘的识别时，将2D图像中的钢琴键盘完全落入钢琴键盘检测网络的矩形目标检测框，使得矩形目标检测框中囊括整个钢琴键盘，并以矩形目标检测框的对角或者中心点二维坐标((x、y)的形式)来表示钢琴键盘在输入2D图像中的相对位置坐标，将钢琴键盘检测网络输出的相对于输入2D图像中的相对位置坐标转换为2D图像原始坐标系下的坐标即可获得钢琴键盘在原始2D图像中的钢琴键盘位置坐标。例如，可以表示为矩形目标检测框左上角坐标(x1、y1)、右下角坐标(x2、y2)，左上角坐标(x1、y1)、右下角坐标(x2、y2)所表示的2D图像中的长方形区域即为钢琴键盘区域；或者，钢琴键盘区域也可以表示为矩形目标检测框中心点坐标(x0,y0)和矩形目标检测框的宽度w及高度h，两种方式均可，本发明实施例中采用第一种对角方式{(x1、y1)，(x2、y2)}进行描述，且未来方便说明，本发明中所有的坐标均是指已经转换为2D图像原始坐标系下的坐标。

钢琴键盘区域的作用有两个，一是作为手部检测模块的输入，检测出手的位置；二是作为琴键划分模块的输入，将每个琴键个体分割出来，得出每个琴键的位置。

三、手部检测

通过手部检测模块从钢琴键盘区域中检测出以钢琴键盘区域的相对位置坐标表示的手部区域，并将用于表示手部区域的钢琴键盘区域的相对位置坐标转换为2D图像原始坐标系下的坐标从而得到2D图像原始坐标系下的手部位置坐标，该手部位置坐标用于指示2D图像中的手部区域。其中，所述手部检测网络是以钢琴键盘区域为输入，钢琴键盘区域中手部位置的相对位置坐标为输出，对神经网络进行训练获得。在图像中，通过对比手部位置坐标和钢琴键盘位置坐标来判断二者是否有重叠，如果手部位置坐标表示的矩形区域和钢琴键盘坐标表示的矩形区域有重叠，则手部区域与钢琴键盘区域有重叠，那么就认为该手落在键盘上，对这些手进行接下来的手型错误检测、指法错误检测等；相反，如果没有重叠，那么就认为该手没有落在键盘上，也就无需再进行接下来的手型错误检测、指法错误检测等检测流程。

需要考虑的是，钢琴键盘区域中的手有可能是不完整的，如手指放在键盘上，而手掌在键盘外部，为了保证放在键盘上的手的检测完整性，本发明需要将钢琴键盘区域的上边缘向图像上方扩充一定像素(例如，200像素)，形成扩充后的钢琴键盘区域，又称钢琴键盘有效区域，这样可以保证在该区域内，所有放在键盘上的手都是完整的，根据本发明的一个实施例，钢琴键盘区域向上扩充200个像素，扩充后的钢琴键盘有效区域坐标表示为{(x1、y1-200)，(x2、y2)}。

手部检测模块通过手部检测网络对钢琴键盘位置坐标表示的钢琴键盘有效区域进行目标检测得到以钢琴键盘区域的相对位置坐标表示的手部区域，并将用于表示手部区域的钢琴键盘区域的相对位置坐标转换为2D图像原始坐标系下的坐标从而得到2D图像原始坐标系下的手部位置坐标。可以看出，手部位置坐标是通过手部检测网络检测并转换得到的，虽然最简单的方式是将整张图片输入到手部检测网络，但这样会增大计算量，因此，本发明以钢琴键盘有效区域来做手部检测，对钢琴键盘有效区域进行手部的识别时，将{(x1、y1-200)，(x2、y2)}所表示的钢琴键盘有效区域中的手部完全落入手部检测网络的矩形目标检测框，并以手部检测网络的矩形目标检测框的左上角和右下角坐标来表示手部区域，手部区域的位置坐标(即手部位置坐标)与钢琴键盘有效区域的位置坐标处于同一坐标系，分别用于指示2D图像中的手部区域和钢琴键盘有效区域，方便进行位置判断。假设手部检测网络的矩形目标检测框检测到手部时的左上角坐标为(x1‘、y1‘)，右下角坐标为(x2‘、y2‘)}，那么手部区域的位置坐标可表示为{(x1‘、y1‘)，(x2‘、y2‘)}。由于从钢琴键盘有效区域中检测出手部区域时，手部区域有可能是不完整的或者有些手并未落在钢琴键盘上，对比手部位置坐标{(x1‘、y1‘)，(x2‘、y2‘)}和钢琴键盘位置坐标{(x1、y1)，(x2、y2)}，如果手部区域与键盘区域有重叠，那么就认为该手在键盘上，本发明对这些手进行接下来的手型错误检测、指法错误检测等；相反，如果没有重叠，那么就认为该手没有放在键盘上，也就无需再进行接下来的手型错误检测、指法错误检测等检测流程。由于在钢琴键盘有效区域进行手部检测获得的手部区域是手部检测网络的矩形目标检测框所限定的范围，有可能没有包含完整的手部，例如同一只手的部分手指的指尖在钢琴键盘上，另一部分的手指的指尖在钢琴键盘外，检测的时候钢琴键盘外的指尖未被包含在目标检测框中，对此，本发明首先去掉未落在钢琴键盘上的手的坐标，然后对落在钢琴键盘上的手的区域边界(手部区域)向四方进行一定像素的边界扩展以获得包含落在钢琴键盘上的手的完整手部的扩充后的手部区域，又称手部有效区域，根据本发明的一个实施例，手部区域边界扩展30个像素，扩充后的手部有效区域的坐标可表示为{(x1‘-30、y1‘-30)，(x2‘+30、y2‘+30)}，这样可以保证检测到的落在钢琴键盘上的手是完整的。其中，需要注意的是，在扩充手部区域时，需要对手部区域的四条边界进行越界检查，如果扩充后的某条边界超出原始2D图像边界范围，就需要用2D图像的边界代替手部区域该越界边界即越过边界就不再扩充该条边界。如图5所示的图像为从图4所示的钢琴键盘有效区域中识别出手部有效区域的示意图。

通过截取手部有效区域，去掉不在钢琴键盘上的手，可以减少后续处理时间，提高弹奏错误识别精度。此处的手部有效区域的作用有两个，一是作为手型错误检测模块的输入，检测出手型错误；二是作为指尖特征点检测网络的输入，检测出指尖特征点。

四、手型错误检测

通过手型错误检测模块从手部位置坐标表示的手部有效区域中检测手型错误获得手型错误类型和手型错误位置坐标，所述手型错误检测模块采用手型错误检测网络对手部有效区域进行检测并获得以输入手部有效区域的相对位置坐标表示的手型错误位置，将用于表示手型错误位置的手部有效区域的相对位置坐标转换为2D图像原始坐标系下的坐标获得手型错误位置坐标。其中，所述手型错误检测网络是以手部有效区域为输入，手型错误类型和手型错误在手部有效区域中的相对位置坐标为输出，对神经网络进行训练获得。也就是说，手型错误检测模块中采用基于深度学习的方法对输入的手部有效区域进行检测，其输出结果为手型错误的类别和手型错误位置坐标，指导用户矫正错误手型。

其中，手型错误分为折指、指尖未立住、指尖朝上、压腕、掌关节塌陷，每种错误就是一个类别，本发明将手型错误看作一个检测任务，手型错误检测网络输出的是2D图像中的手部区域出现错误的手型错误类别和该错误在输入手部有效区域中的相对位置坐标，有多少个错误就输出多少个检测结果。

五、指法错误检测

1、指尖特征点检测

通过指尖特征点检测网络从以手部位置坐标表示的手部区域中检测出以手部区域的相对位置坐标表示的不同手指的指尖特征点，并将每个用于表示不同手指的指尖特征点的手部区域的相对位置坐标转换为2D图像原始坐标系下的坐标以获得2D图像原始坐标下的指尖坐标。其中，指尖特征点检测网络是手部有效区域为输入、不同手指的指尖在手部有效区域中的相对位置坐标为输出，通过对神经网络进行训练获得的网络。指尖特征点检测网络对手部有效区域进行图像分割，将每一个手指的指尖分割，获得每个手指指尖的特征点，例如，如图6所示的图像为从图5所示的手部有效区域中识别出每个手指的指尖特征点的示意图，最终获得每个手指在手部有效区域中的相对位置坐标，例如拇指指尖坐标、食指指尖坐标、中指指尖坐标等，每个手指对应的指尖坐标以指尖对应的矩形检测框对角表示，将每个指尖的相对位置坐标转换为2D图像原始坐标系下的坐标以获得每个指尖在2D图像原始坐标系的指尖坐标。

2、琴键划分

通过琴键划分模块从所述以钢琴键盘位置坐标表示的钢琴键盘区域中将每个琴键划分出来得到以钢琴键盘区域的相对位置坐标表示的不同琴键，并将每个用于表示琴键的钢琴键盘区域的相对位置坐标转换为2D图像原始坐标系下的坐标以获得2D图像原始坐标下的琴键坐标；获得每个琴键的坐标所限定的范围即为该琴键有效区域，对琴键有效区域进行形态学处理获得每个琴键的有效边缘。对键盘区域进行划分的目的是为了结合指尖特征点判断指法是否正确。实际划分形式就是从边缘第一个键开始编号，如琴键编号为[K1,K2,K3,...,K88]的集合。每个键在图像中的像素区域有一个多边形的表达，如K1键的区域表达为一系列顶点的集和[(x_K10,y_K10),...,(x_K1n,y_K1n)]，其中(x_K1n,y_K1n)表示2D图像坐标系中的一个点，x_K1n为该点横坐标，y_K1n为该点纵坐标，由这些点构成的多边形包裹的像素点即为K1键有效区域。琴键划分模块以检测到的钢琴键盘区域为输入，将其转为灰度图，然后进行形态学操作，去除光照噪声等的影响，利用边缘检测算法(如sobel算子)提取边缘，最后进行连通域分析，得到键盘边缘。钢琴键盘只有黑键和白键两种，且边界都是规则线段，根据像素统计特性，将边缘与各个键绑定，不同边缘交点即为该键有效区域多边形的顶点，经过琴键划分模块的分割，在2D图像坐标系中建立各个键的数学表达模型。

3、指法识别

通过指法错误检测模块将指尖坐标和琴键坐标进行位置对比判断以将落在琴键上的指尖与该琴键进行绑定获得手指按键绑定关系，如果手指的指尖坐标表示的区域和琴键坐标表示的区域有重叠，那么这个手指落在与其指尖坐标有区域重叠的琴键上，将该手指与琴键进行绑定获得手指按键绑定关系，将弹奏同一个音符的手指按键绑定关系和曲谱数据库中的标准绑定关系进行对比，如果不一致，则判断为指法错误，提示用户正确的指法以纠正错误。

其中，当某一个手指的指尖坐标表示的区域与多个琴键坐标表示的区域有重叠时，会得到在弹奏某个音符时同一个手指与多个琴键的手指按键绑定关系，这和曲谱数据库中的标准绑定关系肯定不一致，该手指则是明显的指法错误。

指法识别的目的是判断哪根手指按了哪个键，实现手指按键的绑定。它依赖琴键划分模块和指尖特征点检测网络的输出。同时，琴键上的声音传感器能够感知按下琴键所产生的信号，从而确定是哪个琴键按下，以及获得当前弹奏的音符。从琴键划分模块输出的结果中取出该键的有效区域，依次计算检测出的指尖特征点是否落入该键区域，如果落入，则将该手指与该键绑定。从曲谱数据库中，查找该音符处手指与琴键的标准绑定关系，并与指法识别获得的预测的绑定关系做比对，如果不一致，则判断为指法错误，提示用户正确的指法以纠正错误。

从上述实施例可知，本发明采用基于深度学习的手段完成检测任务和分割任务，并通过训练神经网络来获得检测网络。本发明提供一套完整的神经网络训练方式来获得钢琴键盘检测网络、手部检测网络、手型错误检测网络、指尖特征点检测网络。本发明分析了每种手型错误和指法错误产生的生物力学原理，归纳各个错误的本质的视觉特征，以这个特征作为神经网络学习和预测的依据。然后将该特征以矩形框(但不限于矩形框)标注出来，得到样本数据集，并将数据集按照一定比例分为训练集、验证集和测试集(例如按照比例7：2：1划分样本数据集)。其中，训练集和验证集用于训练神经网络，测试集用于测试评价最终网络模型的效果。

根据本发明的一个实施例，本发明提供一种对神经网络进行训练以获得所述钢琴键盘检测网络、手部检测网络、手型错误检测网络、指尖特征点检测网络的方法，包括如下部分：

a.数据集采集

部署图像采集模块，采集不同年龄段、不同性别、不同学龄、不同肤色的多人在多种场景、不同类型和型号的钢琴、不同角度和不同光照下的钢琴弹奏影像，数据集覆盖全场景和全错误类型。

b.数据集标注

分为键盘标注、手部标注、手型错误标注、指尖特征点标注。其中，在手型错误标注中，归纳总结了各个手型错误的本质特征，将手型错误类别和手型错误位置标注出来。具体来说，包括标注钢琴键盘位置坐标、标注手部位置坐标、标注手型错误类型和手型错误位置坐标、标注不同手指指尖特征点坐标，所有标注均在图像原始坐标系中。

c.数据集处理

根据标注的钢琴键盘位置坐标对原始数据集中的图像进行处理，获得包含以标注的钢琴键盘位置坐标表示的钢琴键盘区域的图像以形成第一数据集；进一步地，对钢琴键盘区域进行扩充得到的钢琴键盘有效区域，根据标注的键盘位置坐标和手部位置坐标以原始数据集为基础对原图进行裁剪，获得每张原图中的钢琴键盘有效区域形成第二数据集，其中，第二数据集中将在原图中标注的手部位置坐标转换为与钢琴键盘有效区域同一坐标系下的坐标；进一步地，对手部区域进行扩充得到的手部有效区域，根据标注的手部位置坐标和手型错误位置坐标以原始数据集为基础对原图进行裁剪获得每张原图中的手部有效区域形成第三数据集，其中，第三数据集中将在原图中标注的手型错误位置坐标转换为与手部有效区域同一坐标系下的坐标；根据标注的手部位置坐标和不同手指指尖特征点坐标以原始数据集为基础对对原图进行裁剪获得每张原图中的手部有效区域形成第四数据集，其中，第四数据集中将在原图中标注的不同手指指尖特征点坐标转换为与手部有效区域同一坐标系下的坐标。

d.模型训练

(1)钢琴键盘检测网络、手部检测网络和手型错误检测网络

本发明将钢琴键盘检测、手部检测和手型错误检测作为多分支检测任务，设计多任务分支网络结构，然后对其进行训练获得检测网络。

其中，钢琴键盘检测网络只有一个任务分支即钢琴键盘检测分支。

对于手部检测网络，只有一个任务分支，即手部检测分支。该网络需要完成三个任务，一是输出手部的坐标位置，二是输出手部的左右属性，三是输出手部的正反属性。本发明将手部分为四个类别，正左手、正右手、反左手、反右手，正左手表示左手手背朝上，反左手表示左手手心朝上，右手类之。

对于手型错误检测网络，有多个任务分支，每一个分支是一种错误类型的检测子网络，子网络的预测类型只有该错误一种类别，即有多少个错误类别就有多少个子分支，所有的错误检测子分支网络共享主干网络。例如，分为折指检测分支、掌关节塌陷检测分支、塌腕检测分支等。

用第一数据集将yolov4网络进行训练至收敛获得钢琴键盘检测网络，用第二数据集将yolov4网络进行训练至收敛获得手部检测网络；用第三数据集将yolov4网络进行训练至收敛获得手型错误检测网络，其中，检测任务的每个分支都采用相同的损失函数。其中，对于单任务分支网络，该检测任务分支的损失即是整个网络的总损失；对于多任务分支网络，各个检测任务分支损失的加权和，才是整个网络的总损失。对于神经网络的训练以及损失函数的设计是本领域常见手段，此处不再赘述。训练过程中可对图像进行在线数据增强，包括但不限于颜色、对比度、亮度、噪声、平滑模糊、翻转、形变、畸变、随机遮挡和擦除等，提高网络鲁棒性。

需要说明的是，神经网络的选择并不局限于yolov4网络，其他神经网络也可以。

(2)指尖特征点检测网络

将指尖特征点检测作为一个图像分割任务，用第四数据集将ResNet18作为主干网、检测头采用级联金字塔网络的神经网络进行训练至收敛获得指尖特征点检测网络。所谓级联金字塔网络，是指以多尺度特征做为输入的两个网络级联起来，第一个网络称为GlobalNet，对指尖特征点做初步检测，采用L2损失函数。GlobalNet产生的特征图再经过卷积层抽取特征后，输入到RefineNet网络，对预测的特征点进行微调，产生更加精确的结果。

从上述实施例可知，本发明具有以下优点：1、速度快效率高，2D图像计算量小，算法轻量简单，效果好，性高；2、能够精确地输出错误类型、错误位置信息，区分手型错误与指法错误，矫正错误时更具有针对性；3、以数据驱动的方式来训练每个具体的模型，不需要经验性地建立标准比对数据库，鲁棒性高；4、采用自顶向下的方式预测结果，从粗粒度的键盘检测，到细粒度的手型错误检测和指法错误识别，多个网络之间采用级联的方式，上级网络能够为下级网络提供更多的先验知识，同时每个子网络采用多任务分支的方式，取得了更高的性能。

需要说明的是，上面的实施例以矩形、近似矩形的形状来描述位置坐标，在拍摄角度不同的情况下，当钢琴键盘在2D图像上不呈现矩形时，以包含完整钢琴键盘的多边形的顶点坐标来表示钢琴键盘区域。

需要说明的是，虽然上文按照特定顺序描述了各个步骤，但是并不意味着必须按照上述特定顺序来执行各个步骤，实际上，这些步骤中的一些可以并发执行，甚至改变顺序，只要能够实现所需要的功能即可。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于辅助钢琴教学的智能识别弹奏错误的方法，其特征在于，所述方法包括：

从钢琴键盘上方获取弹奏钢琴的包含完整钢琴键盘的2D图像；

通过钢琴键盘检测网络对所述2D图像进行目标检测以检测出以2D图像的相对位置坐标表示的钢琴键盘区域，并将所述用于表示钢琴键盘区域的2D图像的相对位置坐标转换为2D图像原始坐标系下的坐标以获得2D图像原始坐标下的钢琴键盘位置坐标；

通过手部检测网络对以钢琴键盘位置坐标表示的钢琴键盘区域进行目标检测以检测出以钢琴键盘区域的相对位置坐标表示的手部区域，并将所述用于表示手部区域的钢琴键盘区域的相对位置坐标转换为2D图像原始坐标系下的坐标以获得2D图像原始坐标下的手部位置坐标；

通过手型错误检测网络识别以手部位置坐标表示的手部区域中的手型错误类型以及以手部区域的相对位置坐标表示的手型错误位置，并将所述用于表示手型错误位置的手部区域的相对位置坐标转换为2D图像原始坐标系下的坐标以获得2D图像原始坐标下的手型错位位置坐标。

2.根据权利要求1所述的用于辅助钢琴教学的智能识别弹奏错误的方法，其特征在于，所述方法还包括：

从所述以钢琴键盘位置坐标表示的钢琴键盘区域中将每个琴键划分出来得到以钢琴键盘区域的相对位置坐标表示的不同琴键，并将每个用于表示琴键的钢琴键盘区域的相对位置坐标转换为2D图像原始坐标系下的坐标以获得2D图像原始坐标下的琴键坐标；

通过指尖特征点检测网络从以手部位置坐标表示的手部区域中检测出以手部区域的相对位置坐标表示的不同手指的指尖特征点，并将每个用于表示不同手指的指尖特征点的手部区域的相对位置坐标转换为2D图像原始坐标系下的坐标以获得2D图像原始坐标下的指尖坐标；

基于指尖坐标和琴键坐标进行位置判断，将落在琴键上的指尖与该琴键进行绑定获得手指按键绑定关系，并将弹奏同一个音符的手指按键绑定关系和曲谱数据库中的标准绑定关系进行对比以检测指法错误。

3.根据权利要求1所述的用于辅助钢琴教学的智能识别弹奏错误的方法，其特征在于，还包括：

在检测出钢琴键盘区域后，将钢琴键盘区域进行第一预设像素的扩展，获得包含完整手部的钢琴键盘有效区域。

4.根据权利要求3所述的用于辅助钢琴教学的智能识别弹奏错误的方法，其特征在于，所述第一预设像素为200像素。

5.根据权利要求1所述的用于辅助钢琴教学的智能识别弹奏错误的方法，其特征在于，还包括：

在检测出手部区域后，基于钢琴键盘位置坐标和手部位置坐标的对比，过滤掉未落在钢琴键盘上的手，将落在钢琴键盘上的手的坐标边界向四个方向进行第二预设像素的扩展，获得包含落在钢琴键盘上的手的完整手部的手部区域以及对应手部位置坐标。

6.根据权利要求5所述的用于辅助钢琴教学的智能识别弹奏错误的方法，其特征在于，所述第二预设像素为30像素。

7.根据权利要求2所述的用于辅助钢琴教学的智能识别弹奏错误的方法，其特征在于，通过如下方式对神经网络进行训练以获得所述钢琴键盘检测网络、手部检测网络、手型错误检测网络、指尖特征点检测网络：

8.根据权利要求7所述的用于辅助钢琴教学的智能识别弹奏错误的方法，其特征在于，分别用第一数据集、第二数据集、第三数据集将yolov4网络训练至收敛以分别获得钢琴键盘检测网络、手部检测网络、手型错误检测网络。

9.根据权利要求7所述的用于辅助钢琴教学的智能识别弹奏错误的方法，其特征在于，用第四数据集将ResNet18和级联金字塔网络组成的网络训练至收敛获得指尖特征点检测网络。

10.一种用于辅助钢琴教学的智能识别弹奏错误的系统，其特征在于，所述系统包括：

图像采集模块，用于采集弹奏钢琴的包含完整钢琴键盘的2D图像；

钢琴键盘检测模块，用于对所述2D图像进行目标检测以检测出以2D图像的相对位置坐标表示的钢琴键盘区域，并将所述用于表示钢琴键盘区域的2D图像的相对位置坐标转换为2D图像原始坐标系下的坐标以获得2D图像原始坐标下的钢琴键盘位置坐标；

手部检测模块，用于对所述以钢琴键盘位置坐标表示的钢琴键盘区域进行目标检测以检测出以钢琴键盘区域的相对位置坐标表示的手部区域，并将所述用于表示手部区域的钢琴键盘区域的相对位置坐标转换为2D图像原始坐标系下的坐标以获得2D图像原始坐标下的手部位置坐标；

手型错误检测模块，用于从以手部位置坐标表示的手部区域中的手型错误类型以及以手部区域的相对位置坐标表示的手型错误位置，并将所述用于表示手型错误位置的手部区域的相对位置坐标转换为2D图像原始坐标系下的坐标以获得2D图像原始坐标下的手型错位位置坐标。

11.根据权利要求10所述的一种用于辅助钢琴教学的智能识别弹奏错误的系统，其特征在于，所述系统还包括：

琴键划分模块，用于从所述以钢琴键盘位置坐标表示的钢琴键盘区域中将每个琴键划分出来得到以钢琴键盘区域的相对位置坐标表示的不同琴键，并将每个用于表示琴键的钢琴键盘区域的相对位置坐标转换为2D图像原始坐标系下的坐标以获得2D图像原始坐标下的琴键坐标；

指尖特征点检测网络，用于从以手部位置坐标表示的手部区域中检测出以手部区域的相对位置坐标表示的不同手指的指尖特征点，并将每个用于表示不同手指的指尖特征点的手部区域的相对位置坐标转换为2D图像原始坐标系下的坐标以获得2D图像原始坐标下的指尖坐标；

指法错误检测模块，用于基于指尖坐标和琴键坐标进行位置判断，将落在琴键上的指尖与该琴键进行绑定获得手指按键绑定关系，并将弹奏同一个音符的手指按键绑定关系和曲谱数据库中的标准绑定关系进行对比以检测指法错误。

12.根据权利要求11任一所述的一种用于辅助钢琴教学的智能识别弹奏错误的系统，其特征在于，所述系统还包括：

用户交互与显示模块，用于将弹奏过程中出现的弹奏错误与弹奏钢琴的图像进行合并并进行显示，以及提供模式选择和功能选择的交互界面。

13.一种计算机可读存储介质，其特征在于，其上包含有计算机程序，所述计算机程序可被处理器执行以实现权利要求1至9任一所述方法的步骤。

14.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如权利要求1至9中任一项所述方法的步骤。