CN113657184A

CN113657184A - 一种钢琴弹奏指法的评估方法及装置

Info

Publication number: CN113657184A
Application number: CN202110842933.5A
Authority: CN
Inventors: 胡建华; 魏嘉俊; 唐浩鑫; 郑燊浩; 吴伟美
Original assignee: Guangdong Institute of Science and Technology
Current assignee: Guangdong Institute of Science and Technology
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2021-11-16
Anticipated expiration: 2041-07-26
Also published as: CN113657184B

Abstract

本发明实施例公开一种钢琴弹奏指法的评估方法及装置，能够更真实、准确的评估钢琴弹奏指法。所述方法包括：将演奏视频逐帧分解成图像，并对所述图像进行校正；将所述演奏视频逐帧分解的图像输入到预设的深度学习模型，提取手部关节骨骼图，输出手势关节点的时序图；采用动态时间调整算法对基于不同演奏视频得到不同的手势关节点的时序图进行相似性比对，进而评估钢琴弹奏指法的准确性，其中，相似性比对包括：计算不同手势关节点的时序图中的距离矩阵；寻找一条从矩阵左上角到右下角的路径，使得路径上的元素和最小的路径，其中，路径上的元素之和为相似性评价指标，元素之和越小，相似性越高。

Description

一种钢琴弹奏指法的评估方法及装置

技术领域

本发明涉及深度学习领域，尤其涉及一种钢琴弹奏指法的评估方法及装置。

背景技术

随着人们生活水平和艺术修养的提高，学习乐器的用户越来越多。比如，钢琴初学者由于音乐基础薄弱，按照曲谱找到相应的琴键是一个很大的学习障碍，因此在弹奏过程对五线谱和钢琴琴键位置掌握不熟练难免出现按键错误或音符错误。目前，钢琴手势识别的评分方法一般默认练习者的弹奏速度与教学视频中老师的弹奏速度一致，截取同一时刻的图像进行比对，判断错误类型，进而打分，但是由于不同的人弹奏同一首曲子，弹奏的速度存在一定的差别，倘若默认速度一致，会在一定程度上影响评估的准确性，此外，在录制弹奏视频的过程中，摄像头不总是正对手部，导致拍摄的关节姿势变形，影响手部姿态的预测精确性，从而在一定程度上影响评估的准确性，因此，如何克服上述影响评分准确性的因素，进而准确评估弹奏的水平，是待解决的问题。

发明内容

本发明提供一一种钢琴弹奏指法的评估方法及装置，旨在至少解决现有技术中存在的技术问题之一。

本发明的技术方案的第一方面为一种钢琴弹奏指法的评估方法，包括：将第一演奏视频逐帧分解成图像，并对所述图像进行校正；将所述第一演奏视频逐帧分解的图像输入到预设的深度学习模型，提取手部关节骨骼图，输出第一手势关节点的时序图；将第二演奏视频逐帧分解成图像，并对所述图像进行预处理；将所述第二演奏视频逐帧分解的图像输入到预设的深度学习模型，提取手部关节骨骼图，输出第二手势关节点的时序图；采用动态时间调整算法对第一手势关节点的时序图与第二手势关节点的时序图进行相似性比对，进而评估钢琴弹奏指法的准确性，其中，相似性比对包括：计算第一手势关节点的时序图和第二手势关节点的时序图中的距离矩阵；寻找一条从矩阵左上角到右下角的路径，使得路径上的元素和最小的路径，其中，路径上的元素之和为相似性评价指标，元素之和越小，相似性越高。

可选的，所述的一种钢琴弹奏指法的评估方法，采用张正友棋盘格标定法对图像进行标定，计算相机的内部参数和外部参数，使得世界坐标与图像中的坐标一一对应；计算相机的畸变参数，对图像进行去畸变处理以来对图像进行校正。

可选的，所述的一种钢琴弹奏指法的评估方法，获取手部的特征图用来预测手部遮罩的置信图，预测手部关键点用来获取手部关节点的置信图以提取手部关节骨骼图，其中，手势关节点的时序图由图像的手势关节点的序列图按照时间顺序组成，其中，手部关节点序列图由所述手部关节点坐标有序连接组成。

可选的，所述的一种钢琴弹奏指法的评估方法，其中，图像校正包括：通过变换不同的角度，采集多张图像，采用张正友棋盘格标定法对所述图像进行标定；提取每一张标定图像的信息，其中，所述信息包括角点信息和/或亚像素角点信息；计算出相机内、外参数矩阵以及畸变系数最优值；输入待校正图像，通过相机内、外参数矩阵以及畸变系数最优值，变换坐标得到最终校正图像。

可选的，所述的一种钢琴弹奏指法的评估方法，还包括：基于所述第一演奏视频逐帧分解的图像提取被按下的琴键的坐标信息，输出第一琴键的坐标时序图；基于所述第二演奏视频逐帧分解的图像提取被按下的琴键的坐标信息，输出第二琴键的坐标时序图；采用动态时间调整算法对第一琴键的坐标时序图与第二琴键的坐标时序图进行相似性比对，进而评估钢琴弹奏音符的准确性。

可选的，所述的一种钢琴弹奏指法的评估方法，琴键坐标时序图由琴键坐标的序列图按照时间顺序组成，其中，琴键坐标的序列图由被按下的琴键坐标有序连接组成，其中，基于演奏视频逐帧分解的图像的时间帧关联琴键被触发后的产生的信息，通过信息采集模块，唯一确定按下琴键的位置信息，从而关联被按下的琴键的坐标信息。

可选的，所述的一种钢琴弹奏指法的评估方法，还包括，结合琴键坐标的时序图与手势关节点的时序图的相似性比对结果，评估弹奏手势与音符的综合水平。

可选的，所述的一种钢琴弹奏指法的评估方法，其中，手势关节点的时序图中每一个时间帧，对应一张手势关节点的序列图，比对第一手势关节点的时序图和第二手势关节点的时序图的相似性，需要比对每一个手势关键点组成的时序图，因此，两个手势关节点时序图的相似性的评估即为每个手势关键点组成的时序图的相似性之和。

第二方面，本发明的实施例还提供一种钢琴弹奏指法的评估装置，包括：视频分解模块，用于将视频分解为图像；图像预处理模块，用于统一世界坐标到图像坐标的变换以及图像去畸化处理；信息采集模块，用于识别被按下琴键坐标；手势检测模块，用于预测手部遮罩的置信图；手势识别模块，用于预测手部关节点的置信图；手势评分模块，用于评估当前弹奏的指法准确性水平。

本发明的有益效果如下：

1、通过对视频帧分解图像的校正，使得世界坐标到图像坐标的统一映射，减少了因角度变换不一致、图像畸变等带来时间序列比较误差；

2、根据钢琴演奏视频，采用深度学习方法精确提取手部关节骨骼图，形成当前手部关节骨骼图的点的序列图；

3、将弹奏时间上的差异性考虑在内，采用动态时间调整算法更真实准确的评估不同时序图相似程度。

附图说明

图1为根据本发明的一种钢琴弹奏指法的评估方法的总体流程图。

图2为根据本发明的一种钢琴弹奏指法的评估方法的细节流程图。

图3为根据本发明的一种钢琴弹奏指法的评估方法的坐标变换映射图。

图4为根据本发明的一种钢琴弹奏指法的评估方法的坐标变换相关参数寻优流程图。

图5为根据本发明的一种钢琴弹奏指法的评估方法的音符评估流程图。

具体实施方式

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本发明的目的、方案和效果。

需要说明的是，如无特殊说明，当某一特征被称为“固定”、“连接”在另一个特征，它可以直接固定、连接在另一个特征上，也可以间接地固定、连接在另一个特征上。本文所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。此外，除非另有定义，本文所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本文说明书中所使用的术语只是为了描述具体的实施例，而不是为了限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种元件，但这些元件不应限于这些术语。这些术语仅用来将同一类型的元件彼此区分开。例如，在不脱离本公开范围的情况下，第一元件也可以被称为第二元件，类似地，第二元件也可以被称为第一元件。本文所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例，并且除非另外要求，否则不会对本发明的范围施加限制。

第一方面，本发明的实施例还提供一种钢琴弹奏指法的评估方法，能够更加真实的评估弹奏手势准确性。

如图1所示，一种钢琴弹奏指法的评估方法包括以下步骤：

S1，将第一演奏视频逐帧分解成图像，并对所述图像进行校正；

S2，将所述第一演奏视频逐帧分解的图像输入到预设的深度学习模型，提取手部关节骨骼图，输出第一手势关节点的时序图；

S3，将第二演奏视频逐帧分解成图像，并对所述图像进行预处理；

S4，将所述第二演奏视频逐帧分解的图像输入到预设的深度学习模型，提取手部关节骨骼图，输出第二手势关节点的时序图；

S5，采用动态时间调整算法对第一手势关节点的时序图与第二手势关节点的时序图进行相似性比对，进而评估钢琴弹奏指法的准确性，其中，相似性比对包括：计算第一手势关节点的时序图和第二手势关节点的时序图中的距离矩阵；寻找一条从矩阵左上角到右下角的路径，使得路径上的元素和最小的路径，其中，路径上的元素之和为相似性评价指标，元素之和越小，相似性越高。

其中，步骤S1，步骤S3中第一和/或第二演奏视频可以是钢琴、口风琴等键盘乐器弹奏的视频，第一演奏视频和第二演奏视频应保证是同一种键盘乐器且同一首曲子弹奏得到，视频分解的时间帧长相同以来保证第一图像与第二图像实时同步，其中第一和/或第二演奏视频可以通过视频采集装置进行录制，第一和/或第二图像可以是一张或多张琴键图像，其中第一和/或第二图像可以覆盖整个琴键或者琴键的局部，第一演奏视频可以是学生练习视频分解得到第一图像，第二演奏视频可以是老师教学视频分解得到第二图像。

下面结合图2所示的流程图，在多个实施例中描述上述步骤的细节实施方式。

在一实施例中，步骤S1，S3具体包括：

S11，分解视频帧：采用OpenCV将视频帧转成一张或多张图像输出，其中OpenCV是一个用于图像处理、分析、机器视觉方面的开源函数库，在一实施例中，时间帧长设为30毫秒；

S12，图像预处理：在一实施例中，由于镜头畸变、相机内部参数不一致、环境影响等诸多因素，实际相机采集到的图像会产生扭曲、变形等等，针对同一现实物体采集得到的图像的大小不一样，上述问题若不及时处理会严重影响手势的识别的精确性进而难以准确的评估弹奏者手势，如何确立现实物体和实际图像的唯一对应关系，首先需对图像进行预处理，其中图像预处理主要包括图像的校正，旨在将世界坐标与图像中的坐标一一对应，以及对图像进行相应的去畸化处理，具体的，设P＝(x,y,z)为真实世界中的一点，需通过旋转和平移从世界坐标系变换到相机坐标系P₁＝(x′,y′,z′)、通过透视投影从相机坐标系变换到图像坐标系P₂＝(x″,y″)、通过缩放和平移从图像坐标系变换到像素坐标系P₃＝(x″′,y″′)三个过程，如图3所示，具体变换如式(1)所示。

其中，式(1)中z₀为尺度因子，a，b分别表示x轴与y轴单位距离上像素长度相关的系数，u₀，v₀分别表示相机感光板中心在像素坐标系下的坐标，外参矩阵由旋转矩阵R与平移矩阵T组成，相机的内参数如式(2)所示。

其中，f为相机的焦距，矩阵K为相机的内部参数。

在一实施例中，由视频帧分解得到的图像可能存在一定的畸变问题，需对图像进行去畸变处理，即真实世界中的点P＝(x,y,z)经坐标变换得到图像中的点P₃＝(x″′,y″′)，去畸变后为点

其中桶形畸变如式(3)所示。

枕形畸变，如式(4)所示。

其中，r²＝x″′²+y″′²，去畸变参数k₁，k₂，k₃，p₁，p₂可由相机标定后计算得到的，进而对图像进行去畸变处理。

通过对模型不断训练可得到上述参数的最优值，具体可参见图4，其中，采用反投影误差评估模型的结果，反投影误差越接近0，选取的参数越逼近最优值。

S12-1，输入多张棋盘格标定图：变换不同的角度，采集多张图像，例举的，采集的图像数设为20张，其中一张图像为相机镜头位于手指正上方拍摄得到，预处理包括将图像尺寸压缩四倍以及进行图像的标定，其中，采用张正友棋盘格标定法对图像标定，图像的标定过程即将图像的像素坐标转换为实际坐标的过程；

S12-2，提取棋盘格角点：对每一张标定图像，提取角点信息以及进一步提取亚像素角点信息，确定方格的亚像素的精确角点；

S12-3，计算出相机内、外参数矩阵以及畸变系数：首先设置上述参数以及的最大迭代次数的初始值，计算误差参数，若误差参数允许范围内，确定此次的设定值为相机内、外参数矩阵以及畸变系数最优值，否则，不断迭代运算直至误差参数在允许范围内或者达到最大迭代次数，输出相机内、外参数矩阵以及畸变系数最优值；

S12-4，坐标变换与矫正：输入待校正图像，通过相机内、外参数矩阵以及畸变系数最优值，变换坐标得到最终校正图像。

在一实施例中，最大迭代次数设为500次，反投影误差设为0.001。

在一实施例中，步骤S2，S4具体包括：

S21，确定被按下的琴键的坐标信息：当触发按下琴键动作时，通过信息采集模块，可唯一确定按下琴键的位置信息，例举的，当同时按下多个琴键时，由于每个琴键被触发后产生的信息均不相同，因此每个信息关联唯一的琴键坐标。步骤S1，S3中每张图像对应视频中的一个时刻，通过时间关联琴键被触发后的产生的信息，从而关联被按下的琴键的坐标信息；

S22，提取手部关节骨骼图主要包括获取手部的特征图与预测手部关键点两个步骤，步骤一用来预测手部遮罩的置信图，步骤二用来预测手部关节点的置信图，上述两个步骤采用迭代级联结构，利用端到端训练的反向传播，有效提高手势识别的精度：

S22-1，获取手部的特征图：

数据集的选取，可选的，选取MSCOCO数据集作为训练集，MSCOCO数据集是微软构建的一个数据集，其包含检测、分割、关键点等任务，提供的类别有80多类，超过20万张的图像，采集来自二十多位钢琴学童弹钢琴的图像素材作为微调的数据集，其中训练完成的模型进行微调可进一步提高目标检测的准确率，选取5000张RHD中的图像作为测试集，其中RHD数据集是常用的测试手势识别数据集。

将包含人体手部信息的图像作为输入，以得到目标为手部的特征图，例举的，目标检测模型基于Yolov3的神经网络结构，具体的，卷积层Conv层对输入图像采用多个不同的卷积核进行处理，得到不同的响应特征图，BN层对所有的批处理数据规范化，采用步长为2的卷积来进行下采样，通过特征融合可以使检测网络同时利用到所提取的浅层特征与深层特征，输出手部的特征图，获得有效姿态识别区域，基于Yolov3的神经网络的目标检测模型实现了高层特征和底层特征的融合，使用多尺度的特征图来预测结果，充分发挥多核处理器和GPU并行运算的功能，高速获取手部的特征图，以来实时检测视频帧。

在一实施例中，首先对输入的图像进行预处理，然后对彩色图像中手的空间布局进行编码。可选的，使用VGG-19网络到com4的卷积阶段产生512通道的特征F，通道数的增加，使得更多的信息可以被提取出来，然后将特征F卷积得到二通道的手部遮罩部分，其中，VGG19总共19层，包括16层卷积层和最后的3层全连接层，中间采用池化层。

在一实施例中：

1，输入层：输入一张64x64x3三通道的彩色图像，其中输入的图像中每个像素减去RGB的平均值；

2，卷积层：输入维度为64x64x3，将预处理后的图像经64个5x5的卷积核作五次卷积+ReLU，步长为1，卷积后的尺寸变为60x60x64；

3，采样层：输入维度为60x60x64，作最大化池化，池化单元尺寸为2x2，效果为图像尺寸减半，池化后的尺寸变为30x30x64；

4，卷积层：输入维度为30x30x64，经96个5x5的卷积核作五次卷积+ReLU，步长为1，尺寸变为26x26x96；

5，采样层：输入维度为26x26x96，作3x3的最大化池化，尺寸变为13x13x96；

6，卷积层：输入维度为13x13x96，经128个5x5的卷积核作五次卷积+ReLU，步长为1，尺寸变为9x9x128；

7，采样层：输入维度为9x9x128，作3x3的最大化池化，尺寸变为5x5x128；

8，局部连接层：输入为5x5x128，经过3x3的卷积核作三次卷积，步长为1，尺寸变为3x3x160；

9，连接层：输入为3x3x160，经过三层全连接层进行全连接+ReLU，例举的，手部轮廓点估计中，估计19个手部轮廓点，设置连接层的结构，最终得到1x1x38维的向量。

在一实施例中，测试阶段，3层全连接层替换为3个卷积层，使得测试得到的全卷积网络因为没有全连接的限制，因而可以接收任意宽或高为的输入。

在一实施例中，模型的训练有两个阶段，第一个阶段在合成数据集上进行训练，第二个阶段将第一阶段的模型在真实数据集上微调，使模型更加鲁棒，从而能够在真实场景下表现更好

S22-2，预测手部关键点，输出手部关键点坐标：

数据集的选取，可选的，采用Interhand2.6M数据集作为训练集，Interhand2.6M数据集是最大的3D双手交互估计数据集，它由360万张视频帧组成；采集来自二十多位钢琴学童弹钢琴的图像素材作为微调的数据集，其中训练完成的模型进行微调可进一步提高姿态估计的精准度；

手部关键点的预测，将步骤S22识别出的手势预测框图像传入到HRnet作为主干神经网络，采用卷积、反卷积模块来生成多分辨率和高分辨率的独热图，对手势识别关节点的预测，输出手指坐标；

在一实施例中，根据步骤S22-1给出的人手轮廓框，估计其中42个手部关键点，其中左手右手各21个关键节点；

在一实施例中，分别将原始的图像和S22-1的输出作为手部关键点的预测的输入，手部关键点的预测使用的模型结构与S22-1相同，最后全连接层输出为84维向量；

S23，输出手势关节点的时序图：基于S22-2得到手部关键点坐标，将上述坐标有序连成序列图；

在一实施例中，分解视频帧得到图像，其中每张图像可输出一张手势关节点的序列图，对于由视频帧分解得到多张图像的演奏视频，可将所有图像的手势关节点的序列图按照时间顺序组成手势关节点的时序图。

在一实施例中，手势关节点的时序图中每一个时间帧，即时间切片，对应一张手势关节点的序列图，比对第一手势关节点的时序图和第二手势关节点的时序图的相似性，需要比对每一个手势关键点组成的时序图，因此，两个手势关节点时序图的相似性的评估实质上是每个手势关键点组成的时序图的相似性之和。

在一实施例中，步骤S5具体包括：

不同的演奏者弹奏同一首曲子，弹奏的速度存在一定的差别，即使同一个演奏者弹奏同一首曲子也难以保证每个音符停留的时间与之前弹奏的音符停留时间保持一致，即不同的手势关节点的时序图长度会存在差异，本发明采用动态时间调整(Dynamic TimeWarping，DTW)算法来比较不同长度的时序图的相似性，具体的，DTW通过把时间序列进行延伸和缩短，从而计算两个时间序列性之间的相似性。

S51，计算时序图各个点之间的距离矩阵：矩阵M表示第一手势关节点的时序图和第二手势关节点的时序图中各个点之间的距离，例举的，第一手势关节点的时序图由6个点组成，记为A_i,i＝1,2,...,6，其中，

第二手势关节点的时序图由6个点组成，记为B_j,j＝1,2,...,6，其中，

其中M(i,j)＝|A-B|,i>＝1,j<＝6；

S52，寻找最小的路径并计算相似性：寻找一条从矩阵左上角到右下角的路径，使得路径上的元素和最小的路径，本发明采用模型进行训练，其中初始条件为L_min(1,1)＝M(1,1)，其中L_min(i,j)表示从矩阵左上角(1，1)到任一点(i,j)的最短路径长度，其中递推规则为式(5)所示。

L_min(i,j)＝min{L_min(i,j-1),L_min(i-1,j),L_min(i-1,j-1)}+M(1,1) (5)

其中，L_min(6,6)用来衡量两个不同的序列的相似性，当L_min(6,6)＝0时，两个不同的序列相似性达到最大值，即，学生弹奏的手势与老师弹奏的手势几乎一样。

在一实施例中，基于按下的琴键坐标，可以得到基于琴键坐标的序列图，分解视频帧得到图像，其中每张图像可输出一张基于琴键坐标的序列图，对于由视频帧分解得到多张图像的演奏视频，可将所有图像的基于琴键坐标的序列图按照时间顺序组成基于琴键坐标的时序图。

在一实施例中，如图5所示，基于第一演奏视频逐帧分解得到第一琴键坐标的时序图，基于第二演奏视频逐帧分解得到第二琴键坐标的时序图，采用步骤5的DTW算法来进行序列比较，可评估弹奏音符的准确性，具体为：

S61，基于所述第一演奏视频逐帧分解的图像提取被按下的琴键的坐标信息，输出第一琴键的坐标时序图；

S61-1，提取被按下的琴键的坐标信息：当触发按下琴键动作时，通过信息采集模块，可唯一确定按下琴键的位置信息，即，按下琴键的位置信息与触发按下琴键动作相关联，触发按下琴键动作与时间帧相关联，因此基于所述第一演奏视频逐帧分解的图像提取被按下的琴键的坐标信息；

S61-2，第一琴键坐标时序图生成：琴键坐标时序图由琴键坐标的序列图按照时间顺序组成，其中，琴键坐标的序列图由被按下的琴键坐标有序连接组成，其中时间顺序为截取视频的时间帧顺序；

S62，基于所述第二演奏视频逐帧分解的图像提取被按下的琴键的坐标信息，输出第二琴键的坐标时序图；

S62-1，提取被按下的琴键的坐标信息：当触发按下琴键动作时，通过信息采集模块，可唯一确定按下琴键的位置信息，即，按下琴键的位置信息与触发按下琴键动作相关联，触发按下琴键动作与时间帧相关联，因此基于所述第二演奏视频逐帧分解的图像提取被按下的琴键的坐标信息；

S62-2，第二琴键坐标时序图生成：琴键坐标时序图由琴键坐标的序列图按照时间顺序组成，其中，琴键坐标的序列图由被按下的琴键坐标有序连接组成，其中时间顺序为截取视频的时间帧顺序；

S63，采用动态时间调整算法对第一琴键的坐标时序图与第二琴键的坐标时序图进行相似性比对，进而评估钢琴弹奏音符的准确性。

S63-1，计算第一琴键的坐标时序图与第二琴键的坐标时序图中的距离矩阵；

S63-2，寻找一条从矩阵左上角到右下角的路径，使得路径上的元素和最小的路径，其中，路径上的元素之和为相似性评价指标，元素之和越小，相似性越高。

在一实施例中，综合琴键坐标的时序图与手势关节点的时序图的相似性，可以评估弹奏者手势与音符综合水平，例举的，若基于学生的演奏视频与基于老师的演奏视频进行指法与琴键坐标的相似性比对，若相似性均很高，则评估学生整体的弹奏水平较高，倘若音符相似性远高于指法相似性，则说明学生的指法尚待加强练习。

在一实施例中，通过分析历史弹奏数据，分析弹奏者的进步情况或者弹奏缺陷，制定练习计划。

第二方面，本发明的实施例还提供一种钢琴弹奏指法的评估装置，能够精准识别手势坐标、准确评估手势正确性。

本发明实施例中一种钢琴弹奏指法的评估装置，包括：

视频分解模块，用于将视频分解为图像，可以选择需要分解的时长，设置分解时间帧；图像预处理模块，用于统一世界坐标到图像坐标的变换以及图像去畸化处理；信息采集模块，用于识别被按下琴键坐标；手势检测模块，用于预测手部遮罩的置信图；手势识别模块，用于预测手部关节点的置信图；手势评分模块，用于评估当前弹奏的指法准确性水平。

应当认识到，本发明实施例中的方法步骤可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还可以包括计算机本身。

计算机程序能够应用于输入数据以执行本文所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

Claims

1.一种钢琴弹奏指法的评估方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的一种钢琴弹奏指法的评估方法，其中，所述步骤S1和S3中的任一步骤包括：

采用张正友棋盘格标定法对图像进行标定，计算相机的内部参数和外部参数，使得世界坐标与图像中的坐标一一对应；

计算相机的畸变参数，对图像进行去畸变处理；

以来对图像进行校正。

3.根据权利要求1所述的一种钢琴弹奏指法的评估方法，其中，所述步骤S2和S4中的任一步骤包括：获取手部的特征图用来预测手部遮罩的置信图，预测手部关键点用来获取手部关节点的置信图以提取手部关节骨骼图，其中，手势关节点的时序图由图像的手势关节点的序列图按照时间顺序组成，其中，手部关节点序列图由所述手部关节点坐标有序连接组成。

4.根据权利要求2所述的一种钢琴弹奏指法的评估方法，其中，图像校正包括：

S12-1，通过变换不同的角度，采集多张图像，采用张正友棋盘格标定法对所述图像进行标定；

S12-2，提取每一张标定图像的信息，其中，所述信息包括角点信息和/或亚像素角点信息；

S12-3，计算出相机内、外参数矩阵以及畸变系数最优值；

S12-4，输入待校正图像，通过相机内、外参数矩阵以及畸变系数最优值，变换坐标得到最终校正图像。

5.根据权利要求1所述的一种钢琴弹奏指法的评估方法，还包括：

6.根据权利要求5所述的一种钢琴弹奏指法的评估方法，其中，所述步骤S61和S62中的任一步骤包括：琴键坐标时序图由琴键坐标的序列图按照时间顺序组成，其中，琴键坐标的序列图由被按下的琴键坐标有序连接组成，其中，基于演奏视频逐帧分解的图像的时间帧关联琴键被触发后的产生的信息，通过信息采集模块，唯一确定按下琴键的位置信息，从而关联被按下的琴键的坐标信息。

7.根据权利要求1所述的一种钢琴弹奏指法的评估方法，还包括，结合琴键坐标的时序图与手势关节点的时序图的相似性比对结果，评估弹奏手势与音符的综合水平。

8.根据权利要求1所述的一种钢琴弹奏指法的评估方法，其中，手势关节点的时序图中每一个时间帧，对应一张手势关节点的序列图，比对第一手势关节点的时序图和第二手势关节点的时序图的相似性，需要比对每一个手势关键点组成的时序图，因此，两个手势关节点时序图的相似性的评估即为每个手势关键点组成的时序图的相似性之和。

9.一种钢琴弹奏指法的评估装置，包括：

视频分解模块，用于将视频分解为图像；

图像预处理模块，用于统一世界坐标到图像坐标的变换以及图像去畸化处理；

信息采集模块，用于识别被按下琴键坐标；

手势检测模块，用于预测手部遮罩的置信图；

手势识别模块，用于预测手部关节点的置信图；

手势评分模块，用于评估当前弹奏的指法准确性水平。

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于该指令被处理器执行时实现如权利要求1至8中任一项权利要求所述的方法的步骤。