CN109446952A

CN109446952A - 一种钢琴监督方法、装置、计算机设备及存储介质

Info

Publication number: CN109446952A
Application number: CN201811204923.3A
Authority: CN
Inventors: 赵笑婷; 葛胜奎
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-10-16
Filing date: 2018-10-16
Publication date: 2019-03-08

Abstract

本发明适用于钢琴弹奏领域，提供了一种钢琴监督方法、装置、计算机设备及存储介质，所述方法包括如下步骤：通过图像采集设备获取弹奏区域深度图像；根据所述弹奏区域深度图像获取弹奏者的手部姿势信息；采用经过训练的神经网络分类器对所述手部姿势信息进行识别，判断所述手部姿势信息对应的姿势是否正确；将判断结果向所述弹奏者进行输出。本发明基于深度图像及人工神经网络的运用，实现了对演奏者手部动作的判断，从而实现了对钢琴演奏者/学习者手部动作/姿势的无教师化监督，节约了大量资源，也提高了钢琴教学效率。

Description

一种钢琴监督方法、装置、计算机设备及存储介质

技术领域

本发明属于钢琴教学领域，尤其涉及一种钢琴监督方法、装置、计算机设备及存储介质。

背景技术

随着生活水平的不断提高，钢琴已经走进千家万户，然而要成为一名优秀的钢琴演奏者并不是一件容易的事，钢琴学习者需要进行大量的训练才能让水平提高到令人满意的程度。

钢琴演奏的专业性要求很高，其中，指法、手型等手部姿势是否正确尤为关键，一旦前期基础打歪了，后期想要纠正就相当得困难，甚至有的人因此前功尽弃。因此，在钢琴演奏学习的前期需要比较专业的钢琴老师进行辅导，但是囿于诸多原因，这些辅导往往达不到预期效果，例如钢琴辅导老师的水平参差不齐，学习质量难以保证；另外，钢琴教学资源紧张，大多数钢琴学习者在独自练习时缺少监督，若手部姿势有误且得不到及时指正，不但达不到练习效果，还会影响自身钢琴技能的健康发展。

发明内容

基于上述问题，本发明实施例提供一种钢琴监督方法、装置、计算机设备及存储介质。

本发明实施例是这样实现的，一种钢琴监督方法，所述方法包括如下步骤：

通过图像采集设备获取弹奏区域深度图像；

根据所述弹奏区域深度图像获取弹奏者的手部姿势信息；

采用经过训练的神经网络分类器对所述手部姿势信息进行识别，判断所述手部姿势信息对应的姿势是否正确；

将判断结果向所述弹奏者进行输出。

本发明实施例还提供一种钢琴监督装置，所述钢琴监督装置包括：

图像获取单元，用于通过图像采集设备获取弹奏区域深度图像；

手部姿势获取单元，用于根据所述弹奏区域深度图像获取弹奏者的手部姿势信息；

识别单元，用于采用经过训练的神经网络分类器对所述手部姿势信息进行识别，判断所述手部姿势信息对应的姿势是否正确；以及

输出单元，用于将判断结果向所述弹奏者进行输出。

本发明还实施例还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述任一项权利要求所述钢琴监督方法的步骤。

本发明实施例还提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述任一项权利要求所述钢琴监督方法的步骤。

本发明实施例，基于深度图像及人工神经网络的运用，实现了对演奏者手部动作的判断，从而实现了对钢琴演奏者/学习者手部动作/姿势的无教师化监督，节约了大量资源，也提高了钢琴教学效率。

附图说明

图1是本发明实施例提供的一种钢琴监督方法的实施例环境图；

图2是本发明实施例提供的一种钢琴监督方法的流程图；

图3是本发明实施例提供的一种基于解剖学的手部模型的骨骼模型的示意图；

图4是本发明实施例提供的一种基于解剖学的手部模型的自由度示意图；

图5是本发明实施例提供的一种基于解剖学的手部模型的构建流程图；

图6是本发明实施例提供的另一种基于解剖学的手部模型的构建流程图

图7是本发明实施例提供的一种钢琴监督装置的结构图；

图8是本发明实施例提供的一种计算机设备。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但除非特别说明，这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一xx脚本称为第二xx脚本，且类似地，可将第二xx脚本称为第一xx脚本。

本发明实施例提供了一种钢琴监督方法，基于深度图像及人工神经网络的运用，实现了对演奏者手部动作的判断，从而实现了对钢琴演奏者/学习者手部动作/姿势的无教师化监督，节约了大量资源，也提高了钢琴教学效率。

图1示出了本发明提供的一种钢琴监督系统的实施环境图，为了便于描述，图1中仅示出与本发明相关的内容，详述如下。

该钢琴监督系统中，包括钢琴10、计算机设备20、图像采集设备30、输出设备40、弹奏者手部A、B；上述各部件在图1中的摆放位置只作为一种参考示例，实际的摆放方式不限于此。

其中，计算机设备20与图像采集设备30、输出设备40相连，作为其中一种实施例，此处的连接采用有线方式，如图1所示；在另一种实施例中，还可以采用无线方式连接，具体不作限定。

计算机设备20主要用于协调各个模块工作，其上搭载有相关软件、程序，可执行本发明的钢琴监督方法；该计算机设备20可以是独立的物理服务器或终端，也可以是多个物理服务器构成的服务器集群，可以是提供云服务器、云数据库、云存储和CDN等基础云计算服务的云服务器。

输出设备40，可以是专门配置的显示装置，也可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等具有显示功能的外接设备，但并不局限于此。

图像采集设备30，主要用于采集包含弹奏者手部姿势的深度图像，本发明中的图像采集设备可采用深度感应摄像机，通过红外线光源照明，以获取钢琴演奏者手部的深度图像。具体的，本发明中可以采用双目深感摄像头，其易于部署在现有钢琴结构上。

实施例一

如图2所示，在本发明的一个实施例中，提供了一种钢琴监督方法，应用于上述的计算机设备20，该方法包括：

步骤S201，通过图像采集设备获取弹奏区域深度图像；

在本发明的一个实施例中，深度图像也被称为距离影像，是指将从图像采集设备到场景中各点的距离(深度)作为像素值的图像，它直接反映了景物可见表面的几何形状；深度图像经过坐标转换可以计算为点数据集合(简称点集)，也即点云数据(点云是带有目标表面特性的海量点集合)，有规则及必要信息的点云数据也可以反算为深度图像数据。

一般根据摄影测量原理得到的点云，包括三维坐标(XYZ)和颜色信息(RGB)，在获取物体表面每个采样点的空间坐标后，得到的是一个点的集合，即上述的点云，点云的格式一般有：*.pts、*.asc、*.dat、*.stl、*.imw、*.xyz等。

深度数据流所提供的深度图像帧中，每一个像素点代表的是在深度感应器的视野中，该特定的(x,y)坐标处物体到离摄像头平面最近的物体到该平面的距离。

在本发明的一个实施例中，图像采集设备采用深感摄像机，主要目的是采集弹奏区域的深度图像。

步骤S202，根据所述弹奏区域深度图像获取弹奏者的手部姿势信息。

在本发明的一个实施例中，如图5所示，在步骤S202之前还包括以下步骤：

步骤S301，基于解剖学自由度建立手部模型，所述虚拟手部模型由手部骨骼模型以及手部皮肤模型组成。

在本发明的一个实施例中，如图3、4所示，基于手部解剖学自由度可以获知：手部骨骼模型拥有21个自由度(不考虑手腕)，其中食指、中指、无名指和小拇指各有4个自由度，这4个自由度依次如下：

第一自由度，distal phalange(远端指骨)与middle phalange(中间指骨)之间的张开闭合；

第二自由度，middle phalange(中间指骨)与proximal phalange(近端指骨)之间的张开闭合；

第三自由度，proximal phalange(近端指骨)与metacarpus(掌骨)之间的张开闭合；

第四自由度，proximal phalange(近端指骨)与metacarpus(掌骨)之间的外展内收。

大拇指有5个自由度，依次是：

第一自由度，distal phalange(远端指骨)与proximal phalange(近端指骨)之间的张开闭合；

第二自由度，proximal phalanx(近端指骨)与metacarpal(掌骨)之间的张开闭合；

第三自由度，proximal phalanx(近端指骨)与metacarpal(掌骨)之间的外展内收；

第四自由度，metacarpal(掌骨)与trapezium(大多角骨)之间的张开闭合；

第五自由度，metacarpal(掌骨)与trapezium(大多脚骨)之间的外展内收。

在空间范围内，手腕自由度有6个，3个自由度的平移(Translation)和3个自由度的旋转(Rotation)。

本发明实施例中，以上述手部模型作为基础，采集弹奏区域的深度图像，并通过弹奏区域深度图像中的手部区域深度图像对手部模型进行优化和更新，更新后的手部模型包含了手部姿势信息，可用作手部姿势/动作判断，如图6所示，详细步骤如下：

步骤S302，对所述手部模型的参数进行初始化。

参数初始化是为手部姿势估计做准备，具体实现过程为如下步骤：

a.读取手部模型的点集数据(也即点云数据)。

这里的点集数据是指手部模型的三维坐标信息、法向量信息、手部皮肤节点的三维坐标信息和骨骼节点对皮肤节点的权重分配信息。

b.对手部模型的皮肤模型进行随机采样得到用于姿势估计的模型点集。

从步骤a获得皮肤模型的三维坐标信息后，由于皮肤节点坐标数目很多，用于姿势估计并不需要那么多点，且为了保证估计算法的速度，点集的规模应该适中。因此，在这一步骤中，对皮肤模型进行随机采样得到用于姿势估计的模型点集。在一个实施例中，采样点数目取300。

c.初始化手部模型的姿势参数。

这一步是对手部模型的姿势参数进行初始化，姿势参数是指骨路模型的参数和经过随机采样的皮肤模型的参数，包括手部模型的空间变换参数以及每个皮肤节点的平移、旋转和关节角的参数。我们设平移量和旋转量的初始值为0，各关节角的初始值也为0。

d.获取手部模型的骨路模型的关节变换矩阵。

关节变换矩阵是指从子关节自身的局部坐标系到其父关节的局部坐标系的变换矩阵。从子关节局部坐标系到父关节局部坐标系的变换矩阵由平移矩阵和旋转矩阵组成。从每个关节的局部坐标系到世界坐标系的变换矩阵可以将多个子父坐标系变换矩阵级联得到。

e.获取骨髓模型的关节角变换矩阵。

关节角变换矩阵是以关节角为变量的从子关节到父关节的旋转矩阵。在本步骤中，先定义出每个子关节到父关节的旋转矩阵，然后求出每个旋转矩阵对关节角的导数，为姿势估计中计算目标函数的梯度做准备。

步骤S303，从所述弹奏区域深度图像中获取手部区域深度图像，并对所述手部区域深度图像进行滤波处理。

在本发明的一个实施例中，对包含手部区域深度图像的当前帧进行滤波，该深度图像是通过深度摄像机拍摄得到的，是需要进行人体姿势估计的图像。得到本发明的估计姿势后就可以模拟出该深度图像对应的手部模型。

深度图像滤波步骤是对深度图像的当前帧进行处理以用于姿势估计。具体实现过程为：

a、获取深度图像的当前帧。

根据本发明的一个实施例，深度图像的数据源是一个dat文件和一个分割后的手部轮廓图像，dat文件存储了深度图像的数据。先将dat文件里的灰度值以二进制的形式读出，即得完整的深度图像。然后将深度图像和手部轮廓图像做像素级的“与”运算，即可得到人体部分的深度信息。具体来说，手部轮廓图像中的人体区域像素值为1，非手部区域像素值为0，深度图像和手部轮廓图像相与后得到人手部分的深度值，而非人手部分为0。

b、对深度图像中的人手部分的深度信息进行随机采样得到深度图像点集。

步骤a获得的是像素点，而姿势估计并不需要所有的像素点，因此需要进行随机采样。对人手部分的深度信息进行随机采样得到深度图像点集。根据本发明的一个实施例，采样数目为300。

c、对随机采样后得到的深度图像点集进行平滑处理。

由于实际拍摄的图像可能因为光照发射等原因出现一些不真实的深度信息，我们称为深度噪声。因此对随机采样后得到的深度图像点集，我们使用5像素×5像素大小的模板对其进行高斯平滑滤波处理。

d、将深度图像点集的灰度值量化到手部模型的深度范围以内。

初始的深度信息是取值例如是在0-10000的灰度值，为了用灰度值来表示深度信息，我们需要将深度图像点集的灰度值量化到合理的人体深度范围以内，具体的范围与手部模型的深度范围一致。

步骤S304，对所述手部模型和所述手部区域深度图像进行对应点检测。

在本发明的一个实施例中，对应点检测是预处理的关键过程。主要分两步：

其一，对从步骤S303获得的手部区域深度图像对应的点集建立多维搜索树。

多维搜索树是一种二叉树结构，每个结点是深度图像点集的一个点，每层按照分辨器决定的一个维度对点集进行划分。划分的规则是：对于每一层，取该层选定的维度分量的中位数作为该层的结点，小于该中位数的数据划分为左子树，大于该中位数的数据划分为右子树，这样每次划分保证左右子树的数据量几乎相等。采用的分辨器为：(n)mod(k)，其中，n表示树的第n层，k表示维数。

其二，根据所述多维搜索树，采用最近点搜索和法向量差异最小的原则寻找人体模型点集和深度图像点集的对应关系。

给定手部模型的一个点，手部区域深度图像中与其对应的点要满足：1)距离和最近距离的比小于给定的阔值；2)两个点的法向量的夹角的平方小于给定的阔值。

步骤S305，对于所述手部区域深度图像，根据所述对应点检测的结果建立并优化目标函数，所述目标函数用于描述所述手部模型和所述手部区域深度图像之间的姿势差异的大小，通过最小化目标函数的值更新所述手部模型的当前姿势信息，将所述手部模型的当前姿势信息作为所述手部姿势信息。

在本发明的一个实施例中，采用分层姿势估计法进行姿势估计，分层姿势估计是整个本发明的方法的核心。传统的姿势估计方法是对所有参数同时进行估计，这样可能导致目标函数落入局部最小值的问题。为了避免这个问题，我们采用分层估计的方法来对目标函数进行优化，即在每一步迭代中，先对平移和旋转参数进行估计，然后再对关节角参数进行估计。具体实现过程为：

1、对于手部区域深度图像的每一帧，获取所述手部模型的上一帧姿势估计结果。对于第一帧手部区域深度图像，获取初始的姿势参数，对于第一帧以后的图像，则获取前一帧的姿势参数估计结果。

2、建立用于姿势估计的目标函数，计算手部模型的当前姿势下的目标函数值。此步骤记录目标函数在本次迭代的初始值。

3、对于深度图像的每一帧，估计虚拟手部模型的平移和旋转参数。此步骤为使用最速下降法对平移和旋转参数进行估计，然后更新姿势参数和目标函数，再继续后续的参数估计。具体实现过程为：

31、计算平移梯度。先计算均方误差对每个平移分量的梯度，利用基于洛伦兹分布建模的梯度公式计算出目标函数对平移参数的梯度向量并归一化。

32、计算旋转梯度。先计算均方误差对每个旋转分量的梯度，利用基于洛伦兹分布建模的梯度公式计算出目标函数对旋转参数的梯度向量并归一化。

33、黄金分割法求迭代步长。取步骤31和步骤32得出的平移和旋转梯度的负梯度方向作为迭代方向，然后以当前姿势参数为起点沿迭代方向进行一维搜索，得出迭代步长。黄金分割法求法代步长步骤会在后面进行详细描述。

34、更新平移和旋转参数。将上一步计算得到的迭代步长和迭代方向相乘得到平移和旋转参数的增加量，然后在原姿势参数的基础上加上此增加量。

35、计算当前姿势下的目标函数值以更新目标函数，为下一步的姿势参数估计做准备。

4、对于深度图像的每一帧，估计手部模型的关节角参数。在对模型整体的平移和旋转参数估计完毕后，再对关节角参数进行估计，具体实现过程为：

41、选择第一个关节角。第一个关节角取骨路模型的根关节。

42、计算当前关节角的梯度。关节角的梯度计算需要用到关节旋转矩阵对关节角分量的导数。由于从每个关节的局部坐标系到世界坐标系的变换需要多个子父关节的坐标变换矩阵级联来实现，因此计算关节角的梯度可以使用递归的算法来实现，分别计算出目标函数对关节角各自由度分量的梯度，从而得到梯度向量并，然后归一化处理。

43、黄金分割法求迭代步长。取步骤42的关节角梯度向量的负方向为迭代方向，以当前姿势参数为起点沿迭代方向进行一维搜索，得到迭代步长。黄金分割法求迭代步长步骤会在后面进行详细描述。

44、更新当前关节角。将上一步计算得到的步长和迭代方向相乘得到当前关节角参数的增加量，然后在原姿势参数的基础上加上此增加量。

45、计算当前姿势下的目标函数值。更新目标函数，为下一个关节角参数估计做准备。

46、判断是否所有的关节角都估计完毕。如果还有关节角没有估计，则选择下一个关节角，一直循环下去，直到所有关节角估计完毕；如果所有关节角估计完毕，则结束关节角参数估计步骤。

47、选择下一个关节角。选择关节角的原则是按照从躯干到四肢由里向外的顺序进行选择的。这样保证分层估计的效果最佳。

48、判断目标函数差值是否满足误差要求，此步骤决定是否继续进行优化迭代。如果最新的目标函数值与本次迭代初始的目标函数值，即步骤2记录的目标函数值的差小于给定的阔值，则将本次迭代得到的姿势参数作为结果，并更新人体运动模型，结束分层姿势估计步骤；如果大于给定的阔值，则转到步骤2，继续进行下一次迭代。

49、输出所述虚拟手部模型。此步是在一帧图像姿势估计完毕后更新当前帧最终的模型姿势并输出显示。

黄金分割法求迭代步长步骤在平移和旋转参数估计步骤3及关节角参数估计步骤4中都被用到。黄金分割法是收敛速度较快且精度较高的一维搜索算法，每次搜索以黄金分割点作为区间断点，逐步缩短搜索区间，从而找到最小点的数值近似解。具体实现过程为：

331、输入迭代方向。在平移和旋转参数估计步骤3，迭代方向为归一化的平移和旋转梯度向量的负方向。在关节角参数估计步骤4，迭代方向为归一化的关节角梯度向量的负方向。

332、确定初始搜索区间。初始分割区间的左边界为0，右边界为允许的最大的迭代步长，即要满足：迭代步长乘以迭代方向得到的向量各分量大小不能超过允许的取值范围。

333、取两分割点。此步为确定初始的分割点。假设初始搜索区间为[a，b]时，则初始分割点为rl＝a+0.382(b-a)和r2＝a+0.618(b-a)。

334、判断两分割点之差是否满足精度，如果满足精度，则转步骤335；如果不满足，则转步骤336，继续进行迭代搜索。两分割点之差即分割区间的长度，精度预先设定。

335、取两分割点的中点为步长。一维搜索收敛到误差范围内后，取最终两个分割点的中点作为迭代步长，结束黄金分割法求迭代步长模块。

336、计算以两分割点为步长的目标函数值，即计算E(rl)和E(r2)的值，为下一步判决做准备。

337、更新搜索区间和两分割点。假设当前搜索区间为[a，b]时，分割点为rl、r2,己知步骤336计算出的两分割点为步长的目标函数值E(rl)和E(r2)，更新分割区间和两分割点的具体实现方法如下：

3371、判断E(rl)是否小于E(r2)，如果小于，则令b＝r2,r2＝rl,rl＝a+0.382(b-a)，转第四步。如果不小于，则转第二步。

3372、判断E(rl)是否大于E(r2)，如果大于，则令a＝rl,rl＝r2,r2＝a+0.618(b-a)，转第四步。如果不大于，则转第三步。

3373、这是E(rl)等于E(r2)的情况，令a＝rl,b＝r2,rl＝a+0.382(b a),r2＝a+0.618(b-a)，转第四步。

3374、更新搜索区间和分割点完毕，转到步骤334，继续进行分割搜索不断缩短搜索区间，直至收敛到误差范围内。

步骤S203，采用经过训练的神经网络分类器对所述手部姿势信息进行识别，判断所述手部姿势信息对应的姿势是否正确。

在本发明的一个实施例中，神经网络分类器基于BP神经网络进行构建，BP神经网络全称为前馈神经网络，它被用到监督学习中的主体思想是(假定各个层Layer间采用的是全链接)：通过各个Layer层的激励和权值以及偏置的处理向前传递，最终得到一个预期的值，然后通过标签值和预期的值得到一个残差值，残差值的大小反映了预期值和残差值的偏离程度，然后使用反向传播算法，对上一层的推倒公式进行梯度(就是对应每一个变量x1、x2、x3、x4、x5，.....xn求偏导)求解，然后代入各个变量x，得到各个变量x在当前layer层对应的权值w'(这个w'其实就是当前w偏离真实的w的残差值)，然后依次的向上一层反向传播，最终到达输入层，这时候我们会就会得到各个层相对应的权值w的偏离值，然后我们可以设定一个学习率(也就是步长)，来设置我们参数更新的大小，其实就是各个layer层当前的权值w加上对应的w的偏离值乘上这个步长即w+＝w’*l_r，这样就达到了参数的更新，然后通过数次迭代调整好w、b参数，特别需要强调一下的是，参数b可以是固定的，也可以设置成跟w权值相关的，比如b＝w/2等等，视情况而定。

在本发明的一个实施例中，构建完神经网络分类器，在使用其进行手部姿势信息识别前，要先对其进行训练。具体步骤如下：

采集包含手部姿势信息的训练样本集和验证样本集，其中，所述训练样本集和验证样本集中标记了正确手部姿势与错误手部姿势；

利用所述训练样本集训练所述神经网络分类器；

利用所述验证样本集对所述神经网络分类器进行验证；

若验证结果满足预设期望值则训练完成，将所述神经网络分类器进行部署使用，以用于判断所述手部姿势信息对应的姿势是否正确。

在本发明实施例中，手部姿势信息对应上述的手部模型，在之前步骤中可知，手部模型经过深度图像的更新后，与深度图像中的手部姿势趋同，通过本发明前述的实施例获取这些手部模型，将一部分当作训练样本集，一部分当作验证样本集，这些手部模型中标记了正确手部姿势与错误手部姿势，通过训练集对神经网络分类器进行训练，并通过验证样本集对神经网络分类器进行验证，若验证结果满足预设期望值，比如识别准确度达到一定的程度，比如识别的准确率超过97％，则认为满足预设期望值，那么可以部署该神经网络分类器，并将其投入使用，用于判断所述手部姿势信息对应的姿势是否正确。

步骤S204，将判断结果向所述弹奏者进行输出。

在本发明实施例中，上述对手部姿势信息的判断结果可以通过显示装置向用户输出，优选的，还可以配置相应的语音模块，通过显示结合语音，向弹奏者呈现判断结果。

在本发明的一个优选实施例中，步骤S204包括：

统计各种错误姿势的出现频率；

当第一错误姿势的出现频率达到预设值时，当所述第一错误姿势再次出现时，将所述第一错误姿势进行突出显示。

在该实施例中，通过统计，将出现频率较高的错误姿势通过突出显示的方式向用户呈现，可以让用户有重点、有针对地进行手部姿势调整，提高了训练效果。

本发明的上述实施例中，通过建立手部模型来提取深度图像中的手部姿势信息，并通过神经网络分类器对手部姿势信息进行识别，从而判断其是否正确，而实现了对钢琴演奏者/学习者手部动作/姿势的无教师化监督，节约了大量资源，也提高了钢琴教学效率。

实施例二

如图7所示，在本发明的一个实施例中，提供了一种钢琴监督装置，所述钢琴监督装置用于：

图像获取单元210，用于通过图像采集设备获取弹奏区域深度图像；

手部姿势获取单元220，用于根据所述弹奏区域深度图像获取弹奏者的手部姿势信息；

识别单元230，用于采用经过训练的神经网络分类器对所述手部姿势信息进行识别，判断所述手部姿势信息对应的姿势是否正确；

输出单元240，用于将判断结果向所述弹奏者进行输出。

本实施例为钢琴监督方法对应的虚拟装置，其所涉及的内容与实施例一相同，具体可以参见实施例一的描述，此处不做赘述。

实施例三

图8示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的计算机设备20。如图8所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现钢琴监督方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行钢琴监督方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的钢琴监督装置可以实现为一种计算机程序的形式，计算机程序可在如图8所示的计算机设备上运行。计算机设备的存储器中可存储组成该钢琴监督装置的各个程序模块，比如，图7所示的图像获取单元210、手部姿势获取单元220、识别单元230和输出单元240。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的钢琴监督方法中的步骤。

例如，图8所示的计算机设备可以通过如图7所示的钢琴监督装置中的图像获取单元210执行步骤S201。计算机设备可通过手部姿势获取单元220执行步骤S202。计算机设备可通过识别单元230执行步骤S203。计算机设备可通过输出单元240执行步骤S204。

在本发明的一个实施例中，提出了一种计算机设备，所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现实施例一所示的任一钢琴监督方法的步骤。

在本发明的一个实施例中，提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，使得处理器执行实施例一所示的任一钢琴监督方法的步骤。

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种钢琴监督方法，其特征在于，所述方法包括如下步骤：

通过图像采集设备获取弹奏区域深度图像；

根据所述弹奏区域深度图像获取弹奏者的手部姿势信息；

将判断结果向所述弹奏者进行输出。

2.如权利要求1所述的方法，其特征在于，所述根据所述弹奏区域深度图像提取弹奏者的手部姿势信息之前，还包括：

基于解剖学自由度建立手部模型，所述虚拟手部模型由手部骨骼模型以及皮肤模型组成。

3.如权利要求2所述的方法，其特征在于，所述根据所述弹奏区域深度图像获取弹奏者的手部姿势信息，包括：

对所述手部模型的参数进行初始化；

从所述弹奏区域深度图像中获取手部区域深度图像，并对所述手部区域深度图像进行滤波处理；

对所述手部模型和所述手部区域深度图像进行对应点检测；

对于所述手部区域深度图像，根据所述对应点检测的结果建立并优化目标函数，所述目标函数用于描述所述手部模型和所述手部区域深度图像之间的姿势差异的大小，通过最小化目标函数的值更新所述手部模型的当前姿势信息，将所述手部模型的当前姿势信息作为所述手部姿势信息。

4.如权利要求3所述的方法，其特征在于，所述采用经过训练的神经网络分类器对所述手部姿势信息进行识别，判断所述手部姿势信息对应的姿势是否正确之前，包括：

利用所述训练样本集训练所述神经网络分类器；

利用所述验证样本集对所述神经网络分类器进行验证；

5.如权利要求1所述的方法，其特征在于，所述将判断结果向所述弹奏者进行输出，包括：

统计各种错误姿势的出现频率；

6.一种钢琴监督装置，其特征在于，所述钢琴监督装置包括：

输出单元，用于将判断结果向所述弹奏者进行输出。

7.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1至5中任一项权利要求所述钢琴监督方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1至5中任一项权利要求所述钢琴监督方法的步骤。