CN114170868A

CN114170868A - 智能钢琴训练的方法和系统

Info

Publication number: CN114170868A
Application number: CN202010939320.9A
Authority: CN
Inventors: 郑庆伟; 张元元; 谭金龙; 孙伟
Original assignee: Guilin Zhishen Information Technology Co Ltd
Current assignee: Guilin Zhishen Information Technology Co Ltd
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2022-03-11

Abstract

本发明提供一种智能钢琴训练方法，包括：获取用户弹奏钢琴的音频信息和视频信息；从所述音频信息中提取用户音频数据，并与音频数据库中存储的对应的参照音频数据相比较，获得所述用户音频数据与所述对应的参照音频数据的匹配度；从所述视频信息中截取与所述用户音频数据相对应的用户手部图像，通过手部模型识别所述用户手部图像中的用户手部数据，并与手部数据库中存储的对应的正确的手部数据相比较，获得所述用户手部数据与所述对应的参照手部数据的匹配度；以及基于所述用户音频数据与所述对应的参照音频数据的匹配度以及所述用户手部数据与所述对应的参照手部数据的匹配度，向用户反馈弹奏结果。

Description

智能钢琴训练的方法和系统

技术领域

本发明涉及深度学习领域，尤其涉及智能钢琴训练的方法和系统。

背景技术

钢琴弹奏中的音准、节奏、指法、手型等因素十分关键，是初学者必须反复练习的基本功，因此通常需要在专业的钢琴老师的监督、辅导下练习。然而，囿于受专业老师辅导的时间有限，初学者往往独自练习，导致各种错误得不到及时地反馈与纠正，练习效果欠佳。

现有技术中已有不少针对初学者进行自我练习时的钢琴训练方法，有的是依据所弹奏乐曲的音频数据来判断练习者弹奏乐曲的准确性，例如，将演奏者的音频信息与大师演奏的正确声音数据相比较，以此来判断音准、节奏、速度、力度，以此评估演奏结果；有的是基于钢琴演奏的视频图像来评估弹奏的准确性，例如，通过从钢琴教学视频中截取指关节和钢琴按键的图像建立标准指法模型图和标准按键顺序模型图，然后将练习视频与标准模型图进行对比分析，来实现自动纠错和智能教学；还有的综合考量演奏的音频数据和视频数据以判断钢琴演奏的正确性，例如，将音频数据及时间信号与标准音符数据相比较得到正确音符数据，并据此调取对应的演奏图像数据并进行视觉识别分析以获得演奏图像中正确手部数据，根据正确音符数据、正确手部数据以及标准音符数据计算钢琴演奏的评分，等等。

然而，现有的钢琴训练方法仍存在一些不足。一方面，仅以弹奏乐曲的音频数据作为评定基础的练习(或测评)方法可能会由于环境中杂音的干扰导致判断结果不准确。另外，由于该类方法仅关注弹奏的音符是否准确，因而无法对弹奏者的手部姿势、指法等其他重要方面进行反馈或纠正。另一方面，仅以弹奏的视频(或图像)数据作为判断基础的练习(或测评)方法可能会因其仅针对截取的弹奏者手部及琴键的图像孤立地进行识别，故无法与弹奏的乐曲有机结合。即使弹奏的指法和音符都正确，也会由于忽略了乐曲的节奏、速度等重要因素而影响判断结果的准确性。此外，现有的综合考虑弹奏者的音频和视频(或图像)数据的练习(或测评)方法中，但无法正确判断演奏者的指法，也不能进行及时反馈或纠正，因此无法实现真正专业的指导。

另外，对于手部信息的采集，现有技术中通过使用可穿戴设备(例如，数据手套)、移动追踪技术(例如，微型雷达系统)、或人工提取图像中的手势数据等技术。然而，在钢琴弹奏中，可穿戴设备的使用可能影响手臂(或手指)的灵活性，移动追踪技术对于探测手指在琴键上的移动或摁压琴键此类细微动作的精确度不高，而人工提取手势数据的工作量较大、专业性较高、泛化能力和鲁棒性都不尽如人意。

因此，亟需一种更加准确、合理的智能钢琴训练方法和系统。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种智能钢琴训练方法，所述方法包括：获取用户弹奏钢琴的音频信息和视频信息；从所述音频信息中提取用户音频数据，并与音频数据库中存储的对应的参照音频数据相比较，获得所述用户音频数据与所述对应的参照音频数据的匹配度；从所述视频信息中截取与所述用户音频数据相对应的用户手部图像，通过手部模型识别所述用户手部图像中的用户手部数据，并与手部数据库中存储的对应的正确的手部数据相比较，获得所述用户手部数据与所述对应的参照手部数据的匹配度，其中，所述手部模型以手部图像为输入数据，以所述手部图像中手部数据为输出数据，通过对神经网络进行训练获得；以及基于所述用户音频数据与所述对应的参照音频数据的匹配度以及所述用户手部数据与所述对应的参照手部数据的匹配度，向用户反馈弹奏结果。

可选的，上述方法还包括：基于所述用户弹奏钢琴中产生的全部所述用户音频数据与所述对应的参照音频数据的匹配度以及所述用户弹奏钢琴中产生的全部所述用户手部数据与所述对应的参照手部数据的匹配度，向用户反馈弹奏结果。

可选的，上述方法还包括：当所述用户音频数据与所述对应的参照音频数据的匹配度小于指定阈值时，向所述用户提示所述对应的参照音频数据所对应的琴键信息。

可选的，上述方法还包括：当所述用户手部数据与所述对应的参照手部数据的匹配度小于指定阈值时，向所述用户显示错误的手部动作，和/或向所述用户提示所述对应的参照手部数据所对应的手部动作。

可选的，其中，所述用户音频数据包括提取时间、音符、基频和音强。

可选的，其中，所述用户手部数据包括截取时间和左右手各21个关键关节点的相对位置。

可选的，其中，所述从所述音频信息中提取用户音频数据包括：按照第一时间间隔从所述音频信息中提取所述用户音频数据，以及其中，所述用户音频数据根据其提取时间与所述音频数据库中参照音频数据相对应。

可选的，其中，所述从所述视频信息中截取与所述用户音频数据相对应的用户手部图像包括：按照第二时间间隔从所述视频信息中截取所述用户手部图像，以及其中，所述用户手部图像通过其截取时间与所述用户音频数据相对应。

可选的，其中，所述第二时间间隔与所述第一时间间隔相同，或者所述第二时间间隔是所述第一时间间隔的整数倍。

可选的，其中，用户手部数据的截取时间与所述用户手部图像的图像截取时间相同，所述用户手部数据根据其截取时间信息与所述数据库中参照手部数据相对应。

可选的，其中，所述手部模型采用循环神经网络或者长短时记忆神经网络训练获得。

可选的，上述方法还包括：从所述用户手部图像中选取包含钢琴琴键的用户手部图像用于识别所述用户手部数据。

可选的，上述方法还包括：获取所述用户的触键力度数据；将所述用户的触键力度数据与数据库中对应的参照触键力度数据相比较，获得所述用户触键力度数据与所述对应的参照触键力度数据的匹配度；基于所述用户音频数据与所述对应的参照音频数据的匹配度、所述用户手部数据与所述对应的参照手部数据的匹配度以及所述用户触键力度数据与所述对应的参照触键力度数据的匹配度确定所述用户弹奏钢琴的评分。

本发明另一方面提供了一种智能钢琴训练系统，包括：音频和视频采集单元，用于获取用户钢琴弹奏的音频信息和视频信息；数据提取单元，用于从所述音频信息中提取用户音频数据，以及从所述视频信息中截取与所述用户音频数据相对应的用户手部图像；数据识别单元，用于通过手部模型识别所述用户手部图像中的用户手部数据，其中，所述手部模型以手部图像为输入数据，以所述手部图像中手部数据为输出数据，通过对神经网络进行训练获得；数据匹配单元，用于将所述用户音频数据与音频数据库中对应的参照音频数据相比较，获得所述用户音频数据与所述对应的参照音频数据的匹配度，以及将所述用户手部数据与手部数据库中对应的参照手部数据相比较，获得所述用户手部数据与所述对应的参照手部数据的匹配度；以及用户交互单元，用于基于所述用户音频数据与所述对应的参照音频数据的匹配度以及所述用户手部数据与所述对应的参照手部数据的匹配度，向用户反馈弹奏结果。

可选的，其中，所述用户交互单元还用于：向所述用户提示所述对应的参照音频数据所对应的琴键信息；和/或向所述用户提示所述对应的参照手部数据所对应的手部动作。

可选的，其中，所述视频和音频采集单元包括音频采集装置和视频采集装置，以及其中，所述视频采集装置包括一个或多个单目摄像头、双目摄像头或深度摄像头，所述视频采集装置被固定在钢琴周围定点采集手部视频信息，或者被安装在滑轨上自动追踪采集手部视频信息。

可选的，上述系统还包括：传感器，所述传感器安装于琴键下方，用于采集用户弹奏钢琴时的触键力度数据。

本发明另一方面提供了一种存储介质，其中存储有计算机程序，在所述计算机程序被处理器执行时，能够用于实现上述任一项所述的方法。

本发明另一方面提供了一种电子设备，包括处理器和存储器，所述存储器中存储有计算机程序，在所述计算机程序被处理器执行时，能够用于实现上述任一项所述的方法。

与现有技术相比，本发明的优点在于：

本发明通过手部模型精确识别用户手部图像中的手部数据，并在综合考量用户在弹奏钢琴时产生的音频数据和手部数据的基础上，对用户钢琴弹奏的结果作出整体判断，使得用户在缺乏专业老师指导的情况下，也能够迅速获得练习中有关音符及指法方面的有效反馈，有利于用户及时发现并纠正错误，提高练习效率。此外，在本发明的一些实施例中，通过实时向用户显示错误的琴键信息或手部动作，或提示正确的琴键信息和/或手部动作，能够帮助用户及时获得正确的示范和指导，有助于用户自学弹奏钢琴。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1是钢琴练习中常见的6种错误手部动作及对应的正确手部动作示意图；

图2是根据本发明一个实施例的单个手掌中的21个关键关节点的示意图；

图3是根据本发明一个实施例的智能钢琴练习方法；

图4是根据本发明一个实施例的音频数据库中标准音频数据存储示意图；

图5是根据本发明一个实施例的手部数据库中标准手部数据存储示意图；

图6是根据本发明一个实施例的综合数据库的存储示意图；

图7是根据本发明一个实施例的智能钢琴训练方法；

图8是根据本发明一个实施例的智能钢琴训练方法；

图9是根据本发明一个实施例的智能钢琴训练系统。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

通常情况下，对于练习者钢琴弹奏的判断和评价至少包括音符和手部动作两个方面，其中，音符可以包括基音和泛音的频谱、力度、速度、节奏等因素。在时间信息相对应的情况下，可以通过将弹奏时的音频数据信号转换为音频数据，并与标准音频数据相比较，以此判断弹奏的音符是否正确。在本发明中，“标准音频数据”、“标准手部数据”是指用于与用户音频数据、用户手部数据做比较以判断用户钢琴弹奏结果的“参照音频数据”、“参照手部数据”。

手部动作包括指法和手形两个方面，其中，指法是用于确定在曲目练习时使用了正确的手指弹奏相应的音符，指法包括单个手指的位置(或位置变化)以及多个手指间的相对位置变化。常见的指法例如可以包括顺指(即一个手指对应一个琴键)、穿指(即一个手指从另外一个或多个手指下面穿过去以弹奏更高音)、跨指(即一个手指从另外一个或多个手指上面跨过去以弹奏更低音)、括指、缩指以及轮指等等。手形是用于确定弹奏任意音符时有无折指、指尖不站立、掌关节塌陷、晃腕、抬指、手指紧张等问题。图1示出了钢琴练习中常见的6种错误手部动作及对应的正确手部动作，其中图1A示出了折指及对应的正确手部动作，图1B示出了指尖站立时错误及正确的手部动作，图1C示出了掌关节塌陷及对应的正确手部动作，图1D示出了晃腕及对应的正确手部动作，图1E示出了抬指及对应的正确手部动作，图1F示出了手指紧张及对应的正确手部动作。手部动作的变化可以取得不同的发音效果，对音符的连贯性、节奏、速度、音色都有很大影响，是能够弹奏出良好的效果的关键。

根据本发明的一个实施例，单个手掌至少包括21个关键关节点，可以根据21个关键关节点的坐标位置或者相对位置来表征该手掌的手部数据。得益于深度学习的发展，可以利用训练好的手部模型(即神经网络模型)识别弹奏者双手关键关节点的坐标位置或相对位置，即弹奏者的手部数据，并将该手部数据与标准弹奏的手部数据进行比较，以此判断弹奏的手部动作是否准确。

图2示出了本发明一个实施例的单个手掌中的21个关键关节点的示意图。如图2所示，可以从单个手掌中选出21个关键关节点，分别用序列号0-20表示，其中，[0、1、2、3、4]代表拇指中从手腕到指尖的5个关键关节点；[5、6、7、8]代表食指中从手腕到指尖的4个关键关节点；[9、10、11、12]代表中指中从手腕到指尖的4个关键关节点；[13、14、15、16]代表无名指中从手腕到指尖的4个关键关节点；[17、18、19、20]代表小拇指中从手腕到指尖的4个关键关节点。

手部数据可以用每个关键关节点的坐标位置来表示，也可以通过各个关键关节点的相对位置来表示。在一个实施例中，可以选择拇指中的“0”关节点作为中心原点，其他关节点的相对位置可以用该关节点相对于拇指中的“0”关节点的相对坐标位置来表示，其中，每个关键关节点的坐标位置可以用平面坐标(x,y)来表示。在另一个实施例中，也可以用(x，y，v)来表示一个关节点的坐标，其中v表示该关节点是否被遮挡。当v＝1时，表示该关节点未被遮挡；当v＝0时，表示该关节点被其他部分遮挡。在一个实施例中，还可以标注“left”或者“right”，用以区分该关键关节点是位于左手还是位于右手。手部各个关键关节点的相对位置可以通过其他关节点相对于某一关节点的相对位置来表示。

手部模型是以手部图像为输入数据，以手部图像中手部数据为输出数据，通过对神经网络模型进行训练获得。在一个实施例中，由于钢琴演奏中的手部图像具有时序性，手部模型中的神经网络可以采用循环神经网络(Recurrent Neural Network,RNN)或者长短时记忆神经网络(Long Short-Term Memory，LSTM)。RNN是在普通多层BP神经网络基础上，增加了隐藏层各单元间的横向联系，并通过一个权重矩阵将上一个时间序列的神经单元的值传递至当前的神经单元，从而使神经网络具备了记忆功能。RNN对于处理有上下文联系的NLP、或者时间序列的机器学习问题，有很好的应用性。然而，RNN虽然具备记忆性，但由于存在梯度爆炸或者梯度消失，不能记忆太前或者太后的内容。因此，根据本发明的一个实施例，在采样间隔较长的情况下，采用LSTM来识别手部图像。LSTM在普通RNN基础上，在隐藏层各神经单元中增加记忆单元，从而使时间序列上的记忆信息可控，每次在隐藏层各单元间传递时通过几个可控门(遗忘门、输入门、候选门、输出门)，可以控制之前信息和当前信息的记忆和遗忘程度，从而使RNN网络具备了长期记忆功能。

手部模型的训练集可以包括各种不同样本的手部图片，例如，不同年龄(如老人、成人、孩子)和不同性别(如男性、女性)的不同手部动作的手部图像。手部图像中的手部动作不限于弹钢琴，可以包含各种动作，例如握拳、全掌伸展、推、拉、竖拇指等等。训练集中手部图像的手部数据(例如关键关节点的坐标位置或相对位置等)可以由人工标注，也可以从已有数据库中获得。利用训练好的手部模型(即神经网络模型)可以识别手部图像中弹奏者双手关键关节点的坐标位置或相对位置，即用户手部数据。

基于上述研究，本发明提供了一种智能钢琴训练方法，该方法从获取到的用户弹奏钢琴的音频信息和视频信息中，按照一定的时间间隔从用户音频信息中提取用户音频数据，与音频数据库中对应的标准音频数据相比较，获得用户音频数据与标准音频数据的匹配度，并且按照一定的时间间隔从用户视频信息中截取与用户音频数据对应的用户手部图像，通过手部模型识别用户手部图像中的用户手部数据，与手部数据库中对应的标准手部数据相比较，获得用户手部数据与标准手部数据的匹配度，依据该用户的所有用户音频数据与对应的标准音频数据的匹配度以及所有用户手部数据与对应的标准手部数据的匹配度，向用户反馈弹奏结果。

图3示出了本发明一个实施例的智能钢琴训练方法。如图3所示，该方法包括以下步骤：

S310，获取用户弹奏钢琴的音频信息和视频信息。

如上所述，音符练习和手部动作练习是钢琴练习中的两个主要方面，因此需要同时获取用户弹奏钢琴时的音频信息和视频信息。在一些实施中，可以通过音频和视频采集设备(例如麦克风和摄像头，或者带有麦克风的摄像头)采集用户弹奏钢琴的音频信息和视频信息。这种情况下，可以对采集到的音频信息进行去除静音段或去噪、降噪等预处理，以避免外部干扰，提高评分的准确性。在另一些实施例中，对于在电子钢琴上弹奏的音频信息，可以通过连接电子钢琴上的MIDI接口(Musical Instrument Digital Interface)收集用户弹奏钢琴的MIDI音频数字信号。MIDI音频数字信号是由电子钢琴输出的、代表弹奏的某一音符的、并且可以被计算机识别和处理的二进制数据。对于视频信息，可以通过摄像头或其他具有图像采集功能的设备拍摄用户弹奏钢琴的手部动作。可以由同一摄像头拍摄双手的手部动作，也可以由多个摄像头分别从不同角度分开拍摄左右手的手部动作，在这种情况下，可以对左右手的视频信息进行拼接。

在一个实施例中，还可以通过安装在琴键下方的压力传感器采集用户弹奏钢琴的触键力度，以与上述音频和视频信息结合，共同确定用户弹奏钢琴的评分。

S320，从音频信息中提取用户音频数据，并与音频数据库中对应的标准音频数据相比较，获得用户音频数据与对应的标准音频数据的匹配度。

音频数据库中包含有大量标准的钢琴弹奏曲目(例如由钢琴教师或者专业人员演奏的曲目，或者由人工智能根据乐谱自动生成的曲目)的音频数据。可以按照一定的时间间隔从标准的钢琴演奏曲目的音频信息中提取标准音频数据，并以曲目为单位进行存储，形成音频数据库。音频数据库中的音频数据至少可以包括曲目名称、提取时间、音符、基频以及音强等信息。

在一个实施例中，可以按照10ms或者更短的时间间隔从标准钢琴演奏曲目的音频信息中提取标准音频数据并存在在音频数据库中。当前世界吉尼斯记录中最快钢琴手记录为1s摁压钢琴琴键14次。以1s摁压钢琴琴键20次为例，摁压一次钢琴琴键的视角为50ms。因此，按10ms的时间间隔从钢琴演奏曲目的音频信息中提取音频数据可以涵盖演奏产生的所有音符。

图4示出了一个实施例的音频数据库中标准音频数据存储示意图。如图4所示，音频数据库中可以包括一级表格和二级表格，其中，一级表格用于存储标准钢琴演奏曲目的基本信息，包括序号、名称、等级、音调和音频数据二级表格序号等信息。二级表格用于存储每个曲目的音频数据，包括提取时间、按固定的时间间隔从该曲目的音频信息中提取的音符及其基频和音强等数据。如图4(A)所示，在一级表格中存储有若干标准钢琴演奏曲目，例如，曲目0001的名称为“春之歌”，一级，A大调，其音频数据存储在二级表格0001中；曲目0036的名称为“回旋曲”，四级，C大调，音频数据存储在二级表格0036中；曲目0180的名称为“卡农”，其他，D大调，音频数据存储在二级表格0180中，等等。如图4(B)所示，在二级表格0001中存储有在0001曲目完整的演奏时间内每间隔10ms所提取的全部音符以及对应的基频和音强等数据，例如，在“0.000”时刻，没有音符，基频为0，音强为0；在“0.010”时刻，音符为G4，基频为391Hz，音强为10dB；在“0.020”时刻，音符仍为G4，基频为391Hz，音强为15dB；在“0.030”时刻，音符仍为G4，基频为391Hz，音强为20dB；…；在“0.250”时刻，音符为D4，基频为293Hz，音强为10；…，等等。

可以按照固定的间隔从音频信息中提取用户音频数据，将提取到的用户音频数据与音频数据库中对应的标准音频数据相比较，可以获得用户音频数据与对应的标准音频数据的匹配度。

在一个实施例中，可以按照第一时间间隔从音频信息中提取用户音频数据。第一时间间隔可以与音频数据库中从标准演奏曲目中提取标准音频数据的时间间隔相同，也可以是上述时间间隔的整数倍。提取到的用户音频数据至少可以包含即提取时间、音符及其基频和音强等信息。用户音频数据可以通过其提取时间信息与音频数据库中标准音频数据相对应。以图3中音频数据库为例，当用户弹奏“春之歌”曲目时，可以按照30ms的时间间隔从采集到的音频信息中提取用户音频数据，假若在0.030s时提取到的音符为G4，基频为391，音强为15的用户音频数据，则与该用户音频数据相对应的标准音频数据为音频数据库中一级表格中曲目0001以及二级表格0001中在0.030s时的音频数据(包括音符及其基频和音强)。

在用户弹奏钢琴前，可以由用户自行在数据库中选择其将要弹奏的曲目，也可以在用户开始弹奏钢琴后，智能识别用户所弹奏的曲目并查询该曲目在音频数据库中的标准音频数据，然后将用户音频数据与音频数据库中对应的标准音频数据相比较，以获得用户音频数据与对应的标准音频数据的匹配度。

在一个实施例中，音频数据库中可以存储有同一曲目不同曲风的标准音频数据。在用户开始弹奏钢琴后，智能识别用户所弹奏的曲目及曲风，并查询该曲目及曲风在音频数据库中对应的标准音频数据，然后将用户音频数据与音频数据库中对应的标准音频数据相比较，以获得用户音频数据与对应的标准音频数据的匹配度。

在一个实施例中，可以为音频数据中的不同信息设置不同的权重值，以计算用户音频数据与对应的标准音频数据的匹配度。例如，可以设置音符的基频权重大于其音强权重，使得音符的基频信息在计算匹配度中占比更大。在一个实施例中，还可以为音频数据库中的标准音频数据设置误差冗余区间，例如，为音符的基频信息设置±10Hz的误差冗余区间，当用户音频数据落入该区间内时，可以认为该用户音频数据中音符的基频信息与对应的标准音频数据中音符的基频信息基本一致。

在一个实施例中，音频数据库还可以进一步细分为单音数据库和曲目数据库，其中，单音数据库中存储有单个音符对应的标准音频数据，曲目数据库中存储有大量标准的钢琴弹奏曲目对应的标准音频数据。由此，当用户在练习钢琴时，既可以判断用户弹奏单个音符时的音频数据，也能够判断用户弹奏某个曲目时的音频数据。

S330，基于用户音频数据与对应的标准音频数据的匹配度，从视频信息中截取与用户音频数据相对应的用户手部图像。

在钢琴弹奏中，只有当弹奏音符正确或基本正确时，手部动作的判断才有意义。因此，根据本发明的一个实施例，基于用户音频数据与对应的标准音频数据的匹配度，决定是否需要从视频信息中截取与用户音频数据相对应的用户手部图像。

在一个实施例，可以设置一个音频匹配度阈值。音频匹配度阈值可以由用户设置、系统默认、或者在联网状态下由系统统计其他钢琴弹奏者对同一曲目的弹奏水平后智能设定。当提取到的用户音频数据与对应的标准音频数据的匹配度大于或等于该音频匹配度阈值时，表示用户弹奏的音符正确或基本正确，进而可以从视频信息中截取与该用户音频数据相对应的用户手部图像以判断用户的手部动作；当提取到的用户音频数据与对应的标准音频数据的匹配度小于该音频匹配度阈值时，表示用户弹奏的音符错误，因而不必再进行手部动作判断。

视频泛指一系列静态影像以电信号的方式加以捕捉、纪录、处理、储存、传送与重现的各种技术。因此视频实际上是由一系列图像按时序排列构成。当连续的图像变化每秒超过24帧图像以上时，根据视觉暂留原理，人眼无法辨别单幅的静态图像，看上去是平滑连续的视觉效果。因此，可以按照固定的间隔从视频信息中截取用户手部图像。用户手部图像可以通过其截取时间信息与视频信息中的用户音频数据相对应。

在一个实施例中，可以按照第二时间间隔从视频信息中截取用户手部图像。第二时间间隔可以与从音频信息中提取用户音频数据的时间间隔相同，也可以是上述时间间隔的整数倍。在时间信息一致的情况下，此刻截取的用户手部图像即为产生该用户音频数据时相应的用户手部图像。例如，假若在0.030s时提取到音符为G4，音强为15，音高为1750的用户音频数据，则在0.030s从视频信息中截取到的用户手部图像则为产生该用户音频数据时相应的用户手部图像。在一个实施例中，第二时间间隔不大于30ms。

在一个实施例中，为减少手部模型的计算量，可以对截取到的用户手部图像进行筛选，仅选出包含有钢琴琴键区域的用户手部图像用于识别用户手部数据。

在一个实施例中，除了基于用户音频数据与对应的标准音频数据的匹配度，还可以由用户自行设置是否截取用户手部图像并识别用户手部数据。

S340，通过手部模型识别用户手部图像中的用户手部数据，并与手部数据库中对应的标准手部数据相比较，获得用户手部数据与对应的标准手部数据的匹配度。

如上所述，手部模型是以手部图像为输入数据，以该手部图像中手部数据为输出数据，通过对神经网络进行训练获得。通过手部模型可以识别用户手部图像中的用户手部数据，例如手部关节点的坐标位置或相对位置，包括左右手中各21个关键关节点的坐标位置或相对位置，或者多于或少于21个关节点的坐标位置或相对位置。在一个实施例中，用户手部数据还可以包括腕部的坐标位置或相对位置。

在一个实施例中，手部模型可以采用训练好的循环神经网络或者长短时记忆神经网络。在一个实施例中，当用户手部图像包含有钢琴琴键区域时，可以首先在视场背景下检测出钢琴琴键区域，并画出琴键候选框，然后通过手部模型在琴键候选框区域内进行手部关键点回归检测，以提取用户手部数据。

手部数据库中包含有大量标准手部数据。可以按照一定的时间间隔，从钢琴弹奏曲目的标准演奏视频信息中截取标准手部图像，再由手部模型识别标准手部图像中的标准手部数据，并以曲目为单位进行存储，形成手部数据库。在一个实施例中，可以按照与音频数据库中从标准演奏曲目提取标准音频数据相同的时间间隔，或者是上述时间间隔的整数倍，从标准钢琴演奏曲目的视频信息中截取标准手部图像，再由手部模型识别标准手部图像中的标准手部数据，并存在手部数据库中。标准手部数据可以包含有时间(即截取时间)、左右手各自关键关节点的坐标位置或相对位置等信息。用户手部数据可以通过其时间信息与手部数据库中的标准手部数据相对应。

图5示出了一个实施例的手部数据库中标准手部数据存储示意图。如图5所示，手部数据库中可以包括一级表格和二级表格，其中，一级表格(如图5(A)所示)用于存储标准钢琴演奏曲目的基本信息，包括序号、名称、等级、音调和手部数据二级表格序号等信息；二级表格(如图5(B)所示)用于存储每个曲目的手部数据，包括截取时间、按固定的时间间隔从该曲目的视频信息中截取的手部图像中左右手21个关节点的相对位置等数据。

在一个实施例中，可以将音频数据库与手部数据库相关联，即以曲目为单位，将时间信息一致的标准音频数据和标准手部数据关联存储，形成综合数据库。当从标准演奏曲目提取标准音频数据的时间间隔与从标准演奏曲目截取标准手部图像的时间间隔不一致，或者从标准演奏曲目提取标准音频数据的时间间隔是从标准演奏曲目截取标准手部图像的时间间隔的整数倍时，仅存储与标准音频数据的时间信息一致时的标准手部数据。

图6示出了一个实施例的综合数据库的存储示意图。如图6所示，综合数据库可以包括一级表格和二级表格，其中，一级表格(如图6(A)所示)用于存储标准钢琴演奏曲目的基本信息，包括序号、名称、等级、音调和综合数据二级表格序号等信息；二级表格(如图6(B)所示)用于存储每个曲目的音频数据和手部数据。

通过将提取到的用户手部数据与手部数据库中对应的标准手部数据相比较，可以获得用户手部数据与对应的标准手部数据的匹配度。在一个实施例中，还可以为手部数据库中的标准手部数据设置误差冗余区间，当用户手部数据落入误差冗余区间内时，可以认为该用户手部数据与标准手部数据基本一致。

在一个实施例中，可以设置一个手部数据匹配度阈值。手部数据匹配度阈值可以由用户设置、系统默认、或者在联网状态下由系统统计其他钢琴弹奏者对同一曲目的弹奏水平后智能设定。当用户手部数据与标准手部数据的匹配度大于或等于该手部数据匹配度阈值时，表示用户弹奏的手部动作正确或基本正确；当提取到的用户手部数据与对应的标准手部数据的匹配度小于该手部数据匹配度阈值时，表示用户弹奏的手部动作错误，此时可以自动保存该用户手部数据对应的用户手部图像，便于用户查看。在一个实施例中，还可以向用户显示错误的手部动作，例如，通过动画渲染生成虚拟手部轮廓，当指法错误时，向用户显示错误的手指；当手形错误时，向用户显示错误的手部区域(如手掌、指尖等)。

S350，基于用户音频数据与对应的标准音频数据的匹配度以及用户手部数据与对应的标准手部数据的匹配度，向用户反馈弹奏结果。

用户音频数据与对应的标准音频数据的匹配度越高，表示用户钢琴弹奏的音符准确度越高；同样地，用户手部数据与对应的标准手部数据的匹配度越高，表示用户钢琴弹奏的手部动作准确度越高。因此，用户音频数据与对应的标准音频数据的匹配度和用户手部数据与对应的标准手部数据的匹配度能够从音符和手部动作两个方面综合考量用户钢琴弹奏的水平。

在一个实施例中，可以设置用户音频数据与对应的标准音频数据的匹配度以及用户手部数据与对应的标准手部数据的匹配度在确定用户钢琴演奏评分中的权重，由此可以针对不同用户的弹奏习惯个性化制定评分规则。例如，若某用户弹奏的音符较准但手部动作经常出现错误，可以将用户手部数据与对应的标准手部数据的匹配度设置较大权重，以着重反馈该用户在钢琴弹奏中的手部动作情况。

在一个实施例中，数据库中还存储有标准触键力度数据，可以将采集到的用户触键力度数据与标准触键力度数据相比较，获取用户触键力度与标准触键力度的匹配度，并结合用户音频数据与对应的标准音频数据的匹配度以及用户手部数据与对应的标准手部数据的匹配度综合考量用户钢琴弹奏的水平。

通过上述智能钢琴训练方法，能够使用户在缺乏老师指导的情况下，也能够及时、准确地得知在自己练习钢琴时的音符和手部动作情况，有助于用户及时纠错，有效提高练习效率。

在一些实施例中，用户钢琴弹奏的结果可以以延时的方式向用户反馈。例如，也可以在用户钢琴弹奏结束时，显示该曲目的综合评分；也可以详细记录用户在弹奏中具体的音频错误和手部动作错误，并形成评分报告，以使用户能够针对性的练习或改正钢琴弹奏中的错误；还可以将当前的评分或评分报告与该用户以往的弹奏记录或其他用户的弹奏记录做对比，综合评价该用户当前的弹奏水平。

在其他实施例中，还可以同时比较用户音频数据和用户手部数据，并基于用户音频数据与对应的标准音频数据的匹配度以及用户手部数据与所述对应的标准手部数据的匹配度，向用户反馈弹奏结果。在这种情况下，可以在获取用户弹奏钢琴时的音频信息和视频信息时，实时提取并分析用户音频数据和用户手部图像。

在一些情况下，可以在用户弹奏完某一曲目后，向用户反馈该曲目的整体弹奏结果。

图7示出了本发明一个实施例的智能钢琴训练方法。如图7所示，该方法包括以下步骤：

S710，获取用户弹奏钢琴的音频信息和视频信息。

S720，从音频信息中提取用户音频数据，并与音频数据库中对应的标准音频数据相比较，获得用户音频数据与对应的标准音频数据的匹配度。

步骤S710-S720与上述步骤S310-S320类似，在此不再赘述。

S730，将用户音频数据与对应的标准音频数据的匹配度与指定阈值N₁相比较，当用户音频数据与对应的标准音频数据的匹配度大于或等于指定阈值N₁时，执行步骤S740；当用户音频数据与对应的标准音频数据的匹配度小于指定阈值N₁时，执行步骤S760。

S740，从视频信息中截取与用户音频数据相对应的用户手部图像。

S750，通过手部模型识别用户手部图像中的用户手部数据，并与手部数据库中对应的标准手部数据相比较，获得用户音频数据与对应的标准手部数据的匹配度。

S760，判断用户钢琴弹奏是否结束，若结束，执行步骤S770；若尚未结束，执行步骤S710-S760。

S770，基于用户弹奏钢琴中产生的全部用户音频数据与对应的标准音频数据的匹配度，以及用户弹奏钢琴中产生的全部用户手部数据与对应的标准手部数据的匹配度，向用户反馈弹奏结果。

上述方法通过在用户钢琴弹奏结束后向用户反馈其钢琴弹奏的综合效果，有利于用户整体把握其弹奏的完整曲目或其中一段旋律。

在一些实施例中，当用户音频数据与对应的标准音频数据的匹配度小于指定阈值时，可以向用户提示标准音频数据所对应的琴键信息，例如，通过动画渲染生成虚拟键盘并提示出正确的琴键；以及/或者当用户手部数据与对应的标准手部数据的匹配度小于指定阈值时，可以向用户提示标准手部数据所对应的手部动作，例如，通过动画渲染生成虚拟手部轮廓并提示出正确的手部动作。

图8示出了本发明一个实施例的智能钢琴训练方法。如图8所示，该方法包括以下步骤：

S810，获取用户弹奏钢琴的音频信息和视频信息。

S820，从音频信息中提取用户音频数据，并与音频数据库中对应的标准音频数据相比较，获得用户音频数据与对应的标准音频数据的匹配度。

S830，将用户音频数据与对应的标准音频数据的匹配度与指定阈值N₁相比较，当用户音频数据与对应的标准音频数据的匹配度大于或等于指定阈值N₁时，执行步骤S840；当用户音频数据与对应的标准音频数据的匹配度小于指定阈值N₁时，向用户提示标准音频数据对应的琴键信息，并执行步骤S870。

S840，从视频信息中截取与用户音频数据相对应的用户手部图像。

S850，通过手部模型识别用户手部图像中的用户手部数据，并与手部数据库中对应的标准手部数据相比较，获得用户音频数据与对应的标准手部数据的匹配度。

S860，将用户手部数据与对应的标准手部数据的匹配度与指定阈值N₂相比较，当用户手部数据与对应的标准手部数据的匹配度小于指定阈值N₂时，向用户提示标准手部数据对应的手部动作。

S870，判断用户钢琴弹奏是否结束，若结束，执行步骤S880；若尚未结束，执行步骤S810-S870。

S880，基于用户弹奏钢琴中产生的全部用户音频数据与对应的标准音频数据的匹配度，以及用户弹奏钢琴中产生的全部用户手部数据与对应的标准手部数据的匹配度，向用户反馈弹奏结果。

通过上述方法，能够针对用户钢琴弹奏中产生的在音符和/或手部动作错误的进行实时指导与示范，以使用户能够及时掌握正确的弹奏音符和/或手部动作，提高练习效率。

综上，本发明通过利用手部模型精确识别用户手部图像中的手部数据，并在综合考量用户在弹奏钢琴时产生的音频数据和手部数据的基础上，对用户弹奏的结果作出整体判断，使得用户在缺乏专业老师指导的情况下，能够有效获得在练习中有关音符及手部动作方面的反馈，有利于用户发现并纠正错误，提高练习效率。此外，通过实时向用户提示正确的琴键信息和/或手部动作，还可以帮助用户及时获得正确的示范和指导，有助于用户自学弹奏钢琴。

另一方面，本发明还提供了一种实施上述方法的智能钢琴训练系统，该系统包括：音频和视频采集单元，用于获取用户钢琴弹奏的音频信息和视频信息；数据提取单元，用于从音频信息中提取用户音频数据，以及从视频信息中截取与用户音频数据相对应的用户手部图像；数据识别单元，用于通过手部模型识别用户手部图像中的用户手部数据，其中，手部模型以手部图像为输入数据，以手部图像中手部数据为输出数据，通过对神经网络进行训练获得；数据匹配单元，用于将用户音频数据与音频数据库中对应的标准音频数据相比较，获得用户音频数据与对应的标准音频数据的匹配度，以及将用户手部数据与手部数据库中对应的标准手部数据相比较，获得用户手部数据与对应的标准手部数据的匹配度；用户交互单元，用于基于用户音频数据与对应的标准音频数据的匹配度以及用户手部数据与对应的标准手部数据的匹配度，向用户反馈弹奏结果。

在一个实施例中，智能钢琴训练系统中的用户交互单元还用于：向用户提示对应的标准音频数据所对应的琴键信息，向用户提示对应的标准手部数据所对应的手部动作。

在一个实施例中，智能钢琴训练系统中还包括控制单元，用于控制音频和视频采集单元、数据提取单元、数据识别单元、数据匹配单元、以及用户交互单元之间的相互配合，并基于用户音频数据与对应的标准音频数据的匹配度确定是否激活数据识别单元，以及基于用户音频数据与对应的标准音频数据的匹配度或基于用户手部法据与对应的标准手部数据的匹配度判断用户弹奏钢琴曲目是否结束，并确定是否激活音频和视频采集单元或者用户交互单元。

图9示出了本发明一个实施例的智能钢琴练习系统。如图9所述，该智能钢琴练习系统900包括音频和视频采集单元901、数据提取单元902、数据识别单元903、数据匹配单元904以及用户交互单元905。

音频和视频采集单元901，包括声音采集装置9011和视频采集装置9012，用于获取用户在弹奏钢琴时产生的音频信息和视频信息。其中，声音采集装置9011例如可以是安装在钢琴附近的一个或多个麦克风。声音采集装置9011可以通过有线或者无线的方式与数据提取单元902相连，将获取的音频信息发送给数据提取单元902。视频采集装置9012可以是具有摄影或图像采集功能的设备，例如可以是单目摄像头、双目摄像头或深度摄像头。视频采集装置9012可以被固定在钢琴周围定点采集手部视频信息，例如，可以仅仅安装在钢琴键盘的前上方，也可以在键盘的上方、前方、左侧和/或右侧分别安装多个具有摄影功能的设备；也可以被安装在滑轨上自动追踪采集手部视频信息，自动调整其拍摄位置和/或角度。类似地，视频采集装置9012也可以通过有线或者无线的方式与数据提取单元902相连，将获取的视频信息发送给数据提取单元902。在一个实施例中，声音采集装置9011和视频采集装置9012可以集成在一个装置中，以同时获取用户弹奏钢琴时的音频信息和视频信息。

数据提取单元902，包括音频数据提取单元9021和图像数据截取单元9022，其中，音频数据提取单元9021用于从音频信息中提取用户音频数据，并发送给数据匹配单元904；图像数据截取单元9022用于从视频信息中截取与用户音频数据相对应的用户手部图像，并发送给数据识别单元903。

数据识别单元903，其中包含手部模型9031，并与图像数据截取单元9022相连接，用于通过手部模型识别用户手部图像中的用户手部数据，并发送给数据匹配单元904。其中，手部模型9031以手部图像为输入数据，以手部图像中手部数据为输出数据，通过对神经网络进行训练获得。

数据匹配单元904，包括音频数据匹配单元9041和手部数据匹配单元9042。其中，音频数据匹配单元9041中包含音频数据库，用于将来自数据提取单元902的用户音频数据与音频数据库中对应的标准音频数据相比较，获得用户音频数据与对应的标准音频数据的匹配度，并发送给用户交互单元905和控制单元906。手部数据匹配单元9042中包含手部数据库，用于将来自数据识别单元903的用户手部数据与手部数据库中对应的标准音频数据相比较，获得用户手部数据与对应的标准手部数据的匹配度，并发送给用户交互单元905。音频数据库和手部数据库可以作为内置文件存储在音频数据匹配单元9041和手部数据匹配单元9042中，也可以通过API程序接口与音频数据匹配单元9041和手部数据匹配单元9042相连接。

用户交互单元905，包括处理器9051和显示设备9052，其中，处理器9051用于接收来自音频数据匹配单元9041的用户音频数据与对应的标准音频数据的匹配度，以及接收来自手部数据匹配单元9042的用户手部数据与对应的标准手部数据的匹配度，并基于用户音频数据与对应的标准音频数据的匹配度以及所述用户手部数据与所述对应的标准手部数据的匹配度，确定所述用户钢琴演奏的评分。显示设备9052例如可以是智能手机、IPAD、智能眼镜、液晶显示屏、电子水墨屏等具有显示功能的电子设备，用于显示处理器9051的评分结果。在一个实施例中，处理器9051可以基于用户音频数据与对应的标准音频数据的匹配度，确定正确的琴键信息并显示在显示设备9052上，例如，通过动画渲染生成虚拟键盘并提示出正确的琴键。在一个实施例中，处理器9051还可以基于用户手部数据与对应的标准手部数据的匹配度，构建正确的手部动作并显示在显示设备9052上，例如，可以生成虚拟手部轮廓并提示出正确的手部动作，也可根据用户手部信息建立不同用户的特定的骨骼系统，通过蒙皮、动画渲染等手段生成该用户个性化的虚拟手部轮廓，并根据标准手部数据控制虚拟手部轮廓提示正确的手部动作。

在一个实施例中，智能钢琴练习系统中还可以包括传感器，传感器可以安装于琴键下方，用于采集用户弹奏钢琴时的触键力度数据。

在本发明的一个实施例中，可以以计算机程序的形式来实现本发明。计算机程序可以存储于各种存储介质(例如，硬盘、光盘、闪存等)中，当该计算机程序被处理器执行时，能够用于实现本发明的方法。

在本发明的另一个实施例中，可以以电子设备的形式来实现本发明。该电子设备包括处理器和存储器，在存储器中存储有计算机程序，当该计算机程序被处理器执行时，能够用于实现本发明的方法。

本文中针对“各个实施例”、“一些实施例”、“一个实施例”、或“实施例”等的参考指代的是结合所述实施例所描述的特定特征、结构、或性质包括在至少一个实施例中。因此，短语“在各个实施例中”、“在一些实施例中”、“在一个实施例中”、或“在实施例中”等在整个本文中各处的出现并非必须指代相同的实施例。此外，特定特征、结构、或性质可以在一个或多个实施例中以任何合适方式组合。因此，结合一个实施例中所示出或描述的特定特征、结构或性质可以整体地或部分地与一个或多个其他实施例的特征、结构、或性质无限制地组合，只要该组合不是不符合逻辑的或不能工作。本文中出现的类似于“根据A”、“基于A”、“通过A”或“使用A”的表述意指非排他性的，也即，“根据A”可以涵盖“仅仅根据A”，也可以涵盖“根据A和B”，除非特别声明其含义为“仅仅根据A”。在本申请中为了清楚说明，以一定的顺序描述了一些示意性的操作步骤，但本领域技术人员可以理解，这些操作步骤中的每一个并非是必不可少的，其中的一些步骤可以被省略或者被其他步骤替代。这些操作步骤也并非必须以所示的方式依次执行，相反，这些操作步骤中的一些可以根据实际需要以不同的顺序执行，或者并行执行，只要新的执行方式不是不符合逻辑的或不能工作。例如，在一些实施例中，可以先设置虚拟对象相对于电子设备的距离或深度，再确定虚拟对象相对于电子设备的方向。

由此描述了本发明的至少一个实施例的几个方面，可以理解，对本领域技术人员来说容易地进行各种改变、修改和改进。这种改变、修改和改进意于在本发明的精神和范围内。虽然本发明已经通过优选实施例进行了描述，然而本发明并非局限于这里所描述的实施例，在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。

Claims

1.一种智能钢琴训练方法，包括：

获取用户弹奏钢琴的音频信息和视频信息；

从所述音频信息中提取用户音频数据，并与音频数据库中存储的对应的参照音频数据相比较，获得所述用户音频数据与所述对应的参照音频数据的匹配度；

从所述视频信息中截取与所述用户音频数据相对应的用户手部图像，通过手部模型识别所述用户手部图像中的用户手部数据，并与手部数据库中存储的对应的参照手部数据相比较，获得所述用户手部数据与所述对应的参照手部数据的匹配度，其中，所述手部模型以手部图像为输入数据，以所述手部图像中手部数据为输出数据，通过对神经网络进行训练获得；以及

基于所述用户音频数据与所述对应的参照音频数据的匹配度以及所述用户手部数据与所述对应的参照手部数据的匹配度，向用户反馈弹奏结果。

2.根据权利要求1所述的钢琴训练方法，还包括：

基于所述用户弹奏钢琴的全部所述用户音频数据与所述对应的参照音频数据的匹配度以及所述用户弹奏钢琴的全部所述用户手部数据与所述对应的参照手部数据的匹配度，向用户反馈弹奏结果。

3.根据权利要求1所述的钢琴训练方法，其中，还包括：

当所述用户音频数据与所述对应的参照音频数据的匹配度小于指定阈值时，向所述用户提示所述对应的参照音频数据所对应的琴键信息。

4.根据权利要求1所述的钢琴训练方法，其中，还包括：

当所述用户手部数据与所述对应的参照手部数据的匹配度小于指定阈值时，向所述用户显示错误的手部动作，和/或向所述用户提示所述对应的参照手部数据所对应的手部动作。

5.根据权利要求1所述的钢琴训练方法，其中，所述用户音频数据包括提取时间、音符、基频和音强。

6.根据权利要求1所述的钢琴训练方法，其中，所述用户手部数据包括截取时间和左右手各21个关键关节点的相对位置。

7.根据权利要求1所述的钢琴训练方法，其中，所述从所述音频信息中提取用户音频数据包括：按照第一时间间隔从所述音频信息中提取所述用户音频数据；以及其中，所述用户音频数据根据其提取时间与所述音频数据库中参照音频数据相对应。

8.根据权利要求7所述的钢琴训练方法，其中，所述从所述视频信息中截取与所述用户音频数据相对应的用户手部图像包括：按照第二时间间隔从所述视频信息中截取所述用户手部图像；以及其中，所述用户手部图像根据其截取时间与所述用户音频数据相对应。

9.根据权利要求8所述的钢琴训练方法，其中，所述第二时间间隔与所述第一时间间隔相同，或者所述第二时间间隔是所述第一时间间隔的整数倍。

10.根据权利要求8所述的钢琴训练方法，其中，所述用户手部数据的截取时间与所述用户手部图像的图像截取时间相同，所述用户手部数据根据其截取时间信息与所述数据库中参照手部数据相对应。

11.根据权利要求1所述的钢琴训练方法，其中，所述手部模型采用循环神经网络或者长短时记忆神经网络训练获得。

12.根据权利要求1所述的钢琴训练方法，还包括：

从所述用户手部图像中选取包含钢琴琴键的用户手部图像用于识别所述用户手部数据。

13.根据权利要求1所述的钢琴训练方法，还包括：

获取所述用户的触键力度数据；

将所述用户的触键力度数据与数据库中存储的对应的参照触键力度数据相比较，获得所述用户触键力度数据与所述对应的参照触键力度数据的匹配度；

基于所述用户音频数据与所述对应的参照音频数据的匹配度、所述用户手部数据与所述对应的参照手部数据的匹配度以及所述用户触键力度数据与所述对应的参照触键力度数据的匹配度，向用户反馈弹奏结果。

14.一种智能钢琴训练系统，包括：

音频和视频采集单元，用于获取用户钢琴弹奏的音频信息和视频信息；

数据提取单元，用于从所述音频信息中提取用户音频数据，以及从所述视频信息中截取与所述用户音频数据相对应的用户手部图像；

数据识别单元，用于通过手部模型识别所述用户手部图像中的用户手部数据，其中，所述手部模型以手部图像为输入数据，以所述手部图像中手部数据为输出数据，通过对神经网络进行训练获得；

数据匹配单元，用于将所述用户音频数据与音频数据库中对应的参照音频数据相比较，获得所述用户音频数据与所述对应的参照音频数据的匹配度，以及将所述用户手部数据与手部数据库中对应的参照手部数据相比较，获得所述用户手部数据与所述对应的参照手部数据的匹配度；

用户交互单元，用于基于所述用户音频数据与所述对应的参照音频数据的匹配度以及所述用户手部数据与所述对应的参照手部数据的匹配度，向用户反馈弹奏结果。

15.根据权利要求14所述的钢琴训练系统，其中，所述用户交互单元还用于：

向所述用户提示所述对应的参照音频数据所对应的琴键信息；和/或

向所述用户提示所述对应的参照手部数据所对应的手部动作。

16.根据权利要求14所述的钢琴训练系统，其中，所述视频和音频采集单元包括音频采集装置和视频采集装置，以及其中，所述视频采集装置包括一个或多个单目摄像头、双目摄像头或深度摄像头，所述视频采集装置被固定在钢琴周围定点采集手部视频信息，或者被安装在滑轨上自动追踪采集手部视频信息。

17.根据权利要求14所述的钢琴训练系统，还包括：传感器，所述传感器安装于琴键下方，用于采集用户弹奏钢琴时的触键力度数据。

18.一种存储介质，其中存储有计算机程序，在所述计算机程序被处理器执行时，能够用于实现权利要求1-13中任一项所述的方法。

19.一种电子设备，包括处理器和存储器，所述存储器中存储有计算机程序，在所述计算机程序被处理器执行时，能够用于实现权利要求1-13中任一项所述的方法。