CN112883804B - 一种乐器演奏手部动作的纠错方法、装置及电子设备 - Google Patents
一种乐器演奏手部动作的纠错方法、装置及电子设备 Download PDFInfo
- Publication number
- CN112883804B CN112883804B CN202110084776.6A CN202110084776A CN112883804B CN 112883804 B CN112883804 B CN 112883804B CN 202110084776 A CN202110084776 A CN 202110084776A CN 112883804 B CN112883804 B CN 112883804B
- Authority
- CN
- China
- Prior art keywords
- key
- neural network
- hand
- network model
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009471 action Effects 0.000 title claims abstract description 148
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000012937 correction Methods 0.000 title claims abstract description 50
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 212
- 230000033001 locomotion Effects 0.000 claims abstract description 96
- 230000000994 depressogenic effect Effects 0.000 claims description 106
- 238000003062 neural network model Methods 0.000 claims description 72
- 210000002478 hand joint Anatomy 0.000 claims description 65
- 238000011156 evaluation Methods 0.000 claims description 20
- 230000011218 segmentation Effects 0.000 claims description 20
- 238000001514 detection method Methods 0.000 claims description 15
- 238000010586 diagram Methods 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 230000007774 longterm Effects 0.000 claims description 6
- 238000003672 processing method Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 210000003811 finger Anatomy 0.000 description 56
- 210000004247 hand Anatomy 0.000 description 45
- 210000000707 wrist Anatomy 0.000 description 17
- 230000008569 process Effects 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 11
- 238000005457 optimization Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000002372 labelling Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 210000003813 thumb Anatomy 0.000 description 4
- 210000003857 wrist joint Anatomy 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Social Psychology (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Psychiatry (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开一种乐器演奏手部动作的纠错方法、装置及电子设备,涉及乐器演奏技术领域,为有效提高演奏手部动作的纠错效率而发明。所述方法包括:获取乐器演奏图像,所述乐器演奏图像中包括键盘图像信息和演奏者的手部图像信息;基于预设的卷积神经网络模型,在所述乐器演奏图像中识别所述演奏者的演奏手部动作,所述演奏手部动作包括演奏指法和/或演奏手型;根据所述演奏手部动作与预设的标准手部动作的差异,对所述演奏手部动作纠错。本申请实施例适用于对乐器演奏手部动作进行纠错。
Description
技术领域
本申请涉及乐器演奏技术领域,尤其涉及一种乐器演奏手部动作的纠错方法、装置、电子设备及存储介质。
背景技术
在乐器演奏中,错误的手部动作会造成各种演奏的问题,因此,在进行乐器教育的过程中,让演奏者使用正确的手部动作如演奏指法和演奏手型来演奏是乐器教育中基本的要求。目前,对于演奏者手部动作的纠错只能通过老师这种人工的方式来实现,纠错效率低下。
发明内容
有鉴于此,本申请实施例提供一种乐器演奏手部动作的纠错方法、装置、电子设备及存储介质,能够大大提高对演奏者手部动作的纠错效率。
第一方面,本申请实施例提供一种乐器演奏手部动作的纠错方法,包括:获取乐器演奏图像,所述乐器演奏图像中包括键盘图像信息和演奏者的手部图像信息;基于预设的卷积神经网络模型,在所述乐器演奏图像中识别所述演奏者的演奏手部动作,所述演奏手部动作包括演奏指法和/或演奏手型;根据所述演奏手部动作与预设的标准手部动作的差异,对所述演奏手部动作纠错。
可选的,所述手部动作为演奏指法;所述卷积神经网络模型包括第一卷积神经网络模型和第二卷积神经网络模型;所述基于预设的卷积神经网络模型,在所述乐器演奏图像中识别所述演奏者的演奏指法,包括:基于预设的第一卷积神经网络模型,在所述乐器演奏图像中识别出被按下的琴键的坐标信息;基于预设的第二卷积神经网络模型,在所述乐器演奏图像中识别出所述演奏者的手部关节的坐标信息;根据所述被按下的琴键的坐标信息和所述手部关节的坐标信息,识别出所述演奏者的演奏指法。
可选的,所述第一卷积神经网络模型包括第一子卷积神经网络模型;所述基于预设的第一卷积神经网络模型,在所述乐器演奏图像中识别出被按下的琴键的坐标信息,包括:基于预设的第一子卷积神经网络模型,识别被按下的琴键;根据所述被按下的琴键以及预先识别出的乐器各个琴键的坐标信息,识别出被按下的琴键的坐标信息;或者,所述第一卷积神经网络模型包括第一子卷积神经网络模型和第二子卷积神经网络模型;所述基于第一卷积神经网络模型,在所述乐器演奏图像中识别出被按下的琴键的坐标信息,包括:基于所述第一子卷积神经网络模型,识别出被按下的琴键;基于所述第二子卷积神经网络模型,在所述乐器演奏图像中识别出所述键盘上的各个琴键的坐标信息;根据所述各个琴键的坐标信息及所述被按下的琴键,识别出被按下的琴键的坐标信息。
可选的,所述基于所述第二子卷积神经网络模型,在所述乐器演奏图像中识别出所述键盘上的各个琴键的坐标信息,包括:基于所述第二子卷积神经网络模型,在所述乐器演奏图像中识别出各个琴键的轮廓信息;根据所述各个琴键的轮廓信息,识别出各个琴键的坐标信息。
可选的,所述基于所述第二子卷积神经网络模型,在所述乐器演奏图像中识别各个琴键的轮廓信息,包括:基于所述第二子卷积神经网络模型,在所述乐器演奏图像中,识别黑色琴键的轮廓信息;根据所述黑色琴键的轮廓信息以及预设的黑琴键与白琴键的对应关系,识别白色琴键的轮廓信息;所述根据所述各个琴键的轮廓信息,识别各个琴键的坐标信息,包括:根据所述黑色琴键的轮廓信息和所述白色琴键的轮廓信息,识别所述键盘上的各个琴键的坐标信息。
可选的,所述乐器演奏图像包括预定时间段内的多个图像;每个图像中包括被按下的琴键的图像信息和时间戳信息;所述基于所述第一子卷积神经网络模型,识别被按下的琴键,包括:基于所述第一子卷积神经网络模型,根据所述多个图像中包括的被按下的琴键的图像信息和时间戳信息,识别被按下的琴键。
可选的,所述第二卷积神经网络模型包括第三子卷积神经网络模型和第四子卷积神经网络模型;所述基于预设的第二卷积神经网络模型,在所述乐器演奏图像中识别所述演奏者的手部关节的坐标信息,包括:基于预设的第三子卷积神经网络模型,在所述乐器演奏图像中识别演奏者的手部所占的区域信息;基于预设的第四子卷积神经网络模型以及所述手部所占的区域信息,识别所述演奏者的手部关节的坐标信息。
可选的,所述基于预设的第三子卷积神经网络模型,在所述乐器演奏图像中识别演奏者的手部所占的区域信息,包括:基于预设的第三子卷积神经网络模型以及在所述乐器演奏图像中的演奏者的手部图像信息,确定所述演奏者的手掌所占的区域信息和与手掌相关的关节点坐标;根据所述与手掌相关的关节点坐标,确定所述手部的旋转角度;根据预设的手掌和手指比例关系、所述旋转角度以及所述手掌所占的区域信息,识别演奏者的手部所占的区域信息。
可选的,所述演奏手部动作为演奏手型;所述基于预设的卷积神经网络模型,在所述乐器演奏图像中识别所述演奏者的演奏手型,包括:基于预设的卷积神经网络模型,在所述乐器演奏图像中识别所述演奏者的手部关节的坐标信息;根据所述手部关节的坐标信息,识别出所述演奏者的演奏手型。
可选的,所述卷积神经网络模型包括第三子卷积神经网络模型和第四子卷积神经网络模型;所述基于预设的卷积神经网络模型,在所述乐器演奏图像中识别所述演奏者的手部关节的坐标信息,包括:基于预设的第三子卷积神经网络模型,在所述乐器演奏图像中识别演奏者的手部所占的区域信息;基于预设的第四子卷积神经网络模型以及所述手部所占的区域信息,识别所述演奏者的手部关节的坐标信息。
可选的,所述基于预设的第三子卷积神经网络模型,在所述乐器演奏图像中识别演奏者的手部所占的区域信息,包括:基于预设的第三子卷积神经网络模型以及在所述乐器演奏图像中的演奏者的手部图像信息,确定所述演奏者的手掌所占的区域信息和与手掌相关的关节点坐标;根据所述与手掌相关的关节点坐标,确定所述手部的旋转角度;根据预设的手掌和手指比例关系、所述旋转角度以及所述手掌所占的区域信息,识别演奏者的手部所占的区域信息。
可选的,所述根据所述演奏手部动作与预设的标准手部动作的差异,对所述演奏手部动作纠错,包括:确定用户演奏第一音符时对应的所述演奏手部动作与所述标准手部动作是否一致;所述第一音符的数量为至少一个;响应于用户演奏所述第一音符时对应的所述演奏手部动作与所述标准手部动作不一致,展示不一致的所述演奏手部动作与对应的所述标准手部动作的对比图,并等待所述用户再次演奏所述第一音符;响应于用户所述第一音符对应的所述演奏手部动作与所述标准手部动作一致,等待用户演奏第二音符。
可选的,所述根据所述演奏手部动作与预设的标准手部动作的差异,对所述演奏手部动作纠错,包括:待用户演奏完预设乐谱后,根据所述预设乐谱中全部音符的所述演奏手部动作与对应的所述标准手部动作的差异,生成测评报告;展示所述测评报告。
可选的,所述预设的卷积神经网络模型包括深度可分离卷积层。
第二方面,本申请实施例提供一种乐器演奏手部动作的纠错装置,包括:获取模块,用于获取乐器演奏图像,所述乐器演奏图像中包括键盘图像信息和演奏者的手部图像信息;识别模块,用于基于预设的卷积神经网络模型,在所述乐器演奏图像中识别所述演奏者的演奏手部动作,所述演奏手部动作包括演奏指法和/或演奏手型;纠错模块,用于根据所述演奏手部动作与预设的标准手部动作的差异,对所述演奏手部动作纠错。
可选的,所述手部动作为演奏指法;所述卷积神经网络模型包括第一卷积神经网络模型和第二卷积神经网络模型;所述识别模块,包括:第一识别子模块,用于基于预设的第一卷积神经网络模型,在所述乐器演奏图像中识别出被按下的琴键的坐标信息;第二识别子模块,用于基于预设的第二卷积神经网络模型,在所述乐器演奏图像中识别出所述演奏者的手部关节的坐标信息;第三识别子模块,用于根据所述被按下的琴键的坐标信息和所述手部关节的坐标信息,识别出所述演奏者的演奏指法。
可选的,所述第一卷积神经网络模型包括第一子卷积神经网络模型;所述第一识别子模块,包括:第一识别单元,用于基于预设的第一子卷积神经网络模型,识别被按下的琴键;第二识别单元,用于根据所述被按下的琴键以及预先识别出的乐器各个琴键的坐标信息,识别出被按下的琴键的坐标信息;或者,
所述第一卷积神经网络模型包括第一子卷积神经网络模型和第二子卷积神经网络模型;所述第一识别子模块,包括:第三识别单元,用于基于所述第一子卷积神经网络模型,识别出被按下的琴键;第四识别单元,用于基于所述第二子卷积神经网络模型,在所述乐器演奏图像中识别出所述键盘上的各个琴键的坐标信息;第五识别单元,用于根据所述各个琴键的坐标信息及所述被按下的琴键,识别出被按下的琴键的坐标信息。
可选的,所述第四识别单元,包括:第一识别子单元,用于基于所述第二子卷积神经网络模型,在所述乐器演奏图像中识别出各个琴键的轮廓信息;第二识别子单元,用于根据所述各个琴键的轮廓信息,识别出各个琴键的坐标信息。
可选的,所述第一识别子单元,包括:黑色琴键轮廓信息识别子单元,用于基于所述第二子卷积神经网络模型,在所述乐器演奏图像中,识别黑色琴键的轮廓信息;白色琴键轮廓信息识别子单元,用于根据所述黑色琴键的轮廓信息以及预设的黑琴键与白琴键的对应关系,识别白色琴键的轮廓信息;
所述第二识别子单元,包括:各个琴键坐标信息识别子单元,用于根据所述黑色琴键的轮廓信息和所述白色琴键的轮廓信息,识别所述键盘上的各个琴键的坐标信息。
可选的,所述乐器演奏图像包括预定时间段内的多个图像;每个图像中包括被按下的琴键的图像信息和时间戳信息;所述第一识别单元,包括:第三识别子单元,用于基于所述第一子卷积神经网络模型,根据所述多个图像中包括的被按下的琴键的图像信息和时间戳信息,识别被按下的琴键。
可选的,所述第二卷积神经网络模型包括第三子卷积神经网络模型和第四子卷积神经网络模型;所述第二识别子模块,包括:第六识别单元,用于基于预设的第三子卷积神经网络模型,在所述乐器演奏图像中识别演奏者的手部所占的区域信息;第七识别单元,用于基于预设的第四子卷积神经网络模型以及所述手部所占的区域信息,识别所述演奏者的手部关节的坐标信息。
可选的,所述第六识别单元,包括:第一确定子单元,用于基于预设的第三子卷积神经网络模型以及在所述乐器演奏图像中的演奏者的手部图像信息,确定所述演奏者的手掌所占的区域信息和与手掌相关的关节点坐标;第二确定子单元,用于根据所述与手掌相关的关节点坐标,确定所述手部的旋转角度;第四识别子单元,用于根据预设的手掌和手指比例关系、所述旋转角度以及所述手掌所占的区域信息,识别演奏者的手部所占的区域信息。
可选的,所述演奏手部动作为演奏手型;所述识别模块,包括:第四识别子模块,用于基于预设的卷积神经网络模型,在所述乐器演奏图像中识别所述演奏者的手部关节的坐标信息;第五识别子模块,用于根据所述手部关节的坐标信息,识别出所述演奏者的演奏手型。
可选的,所述卷积神经网络模型包括第三子卷积神经网络模型和第四子卷积神经网络模型;所述第四识别子模块,包括:第八识别单元,用于基于预设的第三子卷积神经网络模型,在所述乐器演奏图像中识别演奏者的手部所占的区域信息;第九识别单元,用于基于预设的第四子卷积神经网络模型以及所述手部所占的区域信息,识别所述演奏者的手部关节的坐标信息。
可选的,所述第八识别单元,包括:第三确定子单元,用于基于预设的第三子卷积神经网络模型以及在所述乐器演奏图像中的演奏者的手部图像信息,确定所述演奏者的手掌所占的区域信息和与手掌相关的关节点坐标;第四确定子单元,用于根据所述与手掌相关的关节点坐标,确定所述手部的旋转角度;第五识别子单元,用于根据预设的手掌和手指比例关系、所述旋转角度以及所述手掌所占的区域信息,识别演奏者的手部所占的区域信息。
可选的,所述纠错模块,包括:确定模块,用于确定用户演奏第一音符时对应的所述演奏手部动作与所述标准手部动作是否一致;所述第一音符的数量为至少一个;第一展示模块,用于响应于用户演奏所述第一音符时对应的所述演奏手部动作与所述标准手部动作不一致,展示不一致的所述演奏手部动作与对应的所述标准手部动作的对比图,并等待所述用户再次演奏所述第一音符;等待模块,用于响应于用户所述第一音符对应的所述演奏手部动作与所述标准手部动作一致,等待用户演奏第二音符。
可选的,所述纠错模块,包括:生成模块,用于待用户演奏完预设乐谱后,根据所述预设乐谱中全部音符的所述演奏手部动作与对应的所述标准手部动作的差异,生成测评报告;第二展示模块,用于展示所述测评报告。
可选的,所述预设的卷积神经网络模型包括深度可分离卷积层。
第三方面,本申请的实施例还提供一种电子设备,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行上述任一实现方式所述的乐器演奏手部动作的纠错方法。
第四方面,本申请的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述任一实现方式所述的乐器演奏手部动作的纠错方法。
本申请的实施例提供的乐器演奏手部动作的纠错方法、装置、电子设备及存储介质,通过获取包括键盘图像信息和演奏者的手部图像信息的乐器演奏图像,再基于预设的卷积神经网络模型,在乐器演奏图像中识别演奏者的演奏手部动作,演奏手部动作包括演奏指法和/或演奏手型,最后,根据演奏手部动作与预设的标准手部动作的差异,对演奏手部动作纠错,能够自动地对演奏者手部动作进行纠错,从而,在无需教师在场的情况下及时地提醒演奏者,有效提高了演奏手部动作的纠错效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请一实施例提供的乐器演奏手部动作的纠错方法;
图2为本申请一实施例中,基于预设的卷积神经网络模型,在所述乐器演奏图像中识别所述演奏者的演奏指法的流程示意图;
图3为本申请一实施例中,基于预设的卷积神经网络模型,在所述乐器演奏图像中识别所述演奏者的演奏手型的流程示意图;
图4为本申请一实施例中,指法正确时的逐音模式示意图;
图5为本申请一实施例中,指法错误时的逐音模式示意图;
图6为本申请一实施例中,全曲模式的测评报告示意图;
图7为本申请一实施例提供的乐器演奏手部动作的纠错装置的结构示意图;
图8为本申请的实施例提供的电子设备的一种结构示意图。
具体实施方式
下面结合附图对本申请实施例进行详细描述。
应当明确,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
第一方面,本申请的实施例提供一种乐器演奏手部动作的纠错方法,在对演奏者手部动作进行纠错的过程中,能够提高对演奏者手部动作的纠错效率。
图1为本申请一实施例提供的乐器演奏手部动作的纠错方法的流程示意图,如图1所示,本实例的纠错方法可以包括:
S101、获取乐器演奏图像,乐器演奏图像中包括键盘图像信息和演奏者的手部图像信息。
本实施例的乐器可以为具有键盘的、且通过演奏者手部进行演奏的乐器,例如,可以为钢琴、电子琴、手风琴等等。演奏图像可以为包括键盘图像信息和演奏者的手部图像信息的一幅或多幅键盘照片,也可以为包括多帧图片的视频段。
键盘可以包括黑键和白键,在一个例子中,键盘可为钢琴键盘。演奏者的手部可包括手指和/或手掌。
可通过摄像头等装置拍摄乐器演奏图像。
S102、基于预设的卷积神经网络模型,在乐器演奏图像中识别所述演奏者的演奏手部动作,演奏手部动作包括演奏指法和/或演奏手型。
预设的卷积神经网络模型可以是预先设置的深度学习模型,该预设的卷积神经网络模型可以用于从乐器演奏图像中识别出演奏者的手部动作。可以理解的是,该预设的卷积神经网络模型是利用大量的演奏图像进行模型训练得到的。
预设的卷积神经网络模型(CNN,Convolutional Neural Networks)可以包括一个输入层,一个输出层,以及连接输入层与输出层的多个隐层。每个输入层可以输入一个或多个乐器演奏图像,卷积神经网络可以对这些乐器演奏图像进行并行处理,并从输出端输出结果,该结果演奏者的演奏手部动作,也可以是中间结果,利用该中间结果可以进一步确定演奏者的演奏手部动作。
演奏指法可以指键盘上的某个琴键是通过哪一只手(左手或右手)的哪一根手指按下的;演奏手型可以指手部的形状或称为姿势。
S103、根据演奏手部动作与预设的标准手部动作的差异,对演奏手部动作纠错。
在演奏乐器时,对演奏者的手部动作会有相应的要求,即存在标准的手部动作。例如,在演奏曲谱中的每个音符,要求演奏者使用特定的手指,当使用其它手指按下曲谱中的音符,即演奏手部动作与标准手部动作之间存在差异;又如在演奏过程中,演奏者的手型不应出现踏指、折指、掌关节塌陷、压手腕、抬手腕、手指翘起以及未抬手指等手型,当出现上述情况,即演奏手部动作与标准手部动作之间存在差异。
对演奏手部动作纠错,可借助文字、图片、语音等进行提示,可以理解的是对对演奏手部动作纠错,不限于上述形式。
本实施例,通过获取包括键盘图像信息和演奏者的手部图像信息的乐器演奏图像,再基于预设的卷积神经网络模型,在乐器演奏图像中识别演奏者的演奏手部动作,演奏手部动作包括演奏指法和/或演奏手型,最后,根据演奏手部动作与预设的标准手部动作的差异,对演奏手部动作纠错,能够自动地对演奏时演奏者手部动作进行纠错,从而在无需教师在场的情况下及时地提醒演奏者,有效提高了演奏手部动作的纠错效率。
参见图2,当需要对演奏的指法是否正确进行判断时,需要识别出演奏时使用的是哪只手的哪根手指,在本申请一实施例中,手部动作为演奏指法时,所述卷积神经网络模型包括第一卷积神经网络模型和第二卷积神经网络模型;基于预设的卷积神经网络模型,在所述乐器演奏图像中识别所述演奏者的演奏指法(S102)包括:
S102a、基于预设的第一卷积神经网络模型,在乐器演奏图像中识别出被按下的琴键的坐标信息。
通过预设的第一卷积神经网络模型,能够从乐器演奏图像中识别出被按下的琴键的坐标信息。预设的第一卷积神经网络模型可以包括一个输入层,一个输出层,以及连接输入层与输出层的多个隐层。每个输入层可以输入一个或多个乐器演奏图像,卷积神经网络可以对这些乐器演奏图像进行并行处理,并从输出端输出中间结果,再利用中间结果能够得到被按下的琴键的坐标信息。
被按下的琴键为由演奏者某个手指按下的琴键。
被按下的琴键的坐标信息可以包括琴键上的各个拐角处的坐标信息,如琴键表面为长方形时,可用该长方形的四个顶点处的坐标信息表示被按下的琴键的坐标信息。当琴键为多边形时,可用多边形的各个顶点处的坐标信息表示被按下的琴键的坐标信息。在图像中,用像素点的坐标信息表示被按下的琴键的坐标信息。被按下琴键的坐标信息的参考点可为演奏图像的左上角像素点的坐标。
可以通过乐器上各个琴键的坐标信息以及确定被按下的琴键,来得到被按下的琴键的坐标信息。在本申请的一个实施例中,第一卷积神经网络模型包括第一子卷积神经网络模型;基于预设的第一卷积神经网络模型,在所述乐器演奏图像中识别出被按下的琴键的坐标信息(S102a),包括:
A1、基于预设的第一子卷积神经网络模型,识别被按下的琴键。
第一子卷积神经网络模型能够从乐器演奏图像中识别出被按下的琴键。
琴键从被按下的时刻起到琴键完全抬起前的过程,可分解为不同时刻的多个动作,在乐器演奏图像中可通过具有时间信息的多个图像记录该琴键的多个动作。
在一些例子中,乐器演奏图像可以包括预定时间段内的多个图像,且每个图像中包括被按下的琴键的图像信息和时间戳信息;步骤A1中识别被按下的琴键,可以包括:
基于所述第一子卷积神经网络模型,根据多个图像中包括的被按下的琴键的图像信息和时间戳信息,识别被按下的琴键。
在本申请一个实施例中,可利用3D-CNN神经网络运动检测模型,对预定时间段内的视频(即连续帧如7张连续图片)的动作进行分类与定位,输出结果包括琴键的动作以及动作的位置,即有按下的动作发生以及被按下的是哪个琴键。
3D-CNN神经网络运动检测模型是经过训练的网络模型,训练时,可输入三通道的视频段(连续帧序列,如连续7帧作为一个整体)以及标注信息,例如每帧上被按下的键的位置的bounding box坐标信息以及每帧的时间戳信息,经过一定的网络迭代次数,网络达到最优后取其网络参数作为最终的网络优化参数。
A2、根据被按下的琴键以及预先识别出的乐器各个琴键的坐标信息,识别出被按下的琴键的坐标信息。
预先识别出的乐器各个琴键的坐标信息,具体可通过具有图像识别功能的卷积神经网路模型识别出乐器各个琴键的坐标信息。
具体地,可采用基于CNN的图像语义分割技术分割出黑琴键的轮廓信息。该CNN模型在训练时,将大量的图像和标注信息输入到该模型,经过一定的网络迭代次数,网络达到最优后取其网络参数作为最终的网络优化参数,推理部分利用网络的最终优化参数对输入的一张图片进行推理得出分割结果,如输入三通道的彩色图以及标签(标签为标注好的分割图,只保留目标roi,如目标黑琴键roi的区域为1,别的背景区域值为0,标注好的分割图可以看作是一个像素级的分类图,即是图像中的每一个像素均被打上了标签)。
利用训练好的CNN对输入的三通道图像进行特征提取,提取出能代表黑琴键的特征(如颜色等),根据提取出来的特征对图像中的每一个像素点进行分类(如:某一个像素点代表黑琴键还是背景),最终输出像素级的分类结果图作为最终的黑琴键分割结果,并依据此分割结果运用图像处理方法求出黑琴键的轮廓信息,再根据先验信息(如黑琴键的长款比、面积等)对得到的黑琴键轮廓信息进行过滤,过滤掉分割错误的(如轮廓面积不再设定范围内的)黑琴键信息,然后根据先验信息(如黑白琴键的长款比、黑白琴键的位置关系等)计算出白琴键的轮廓信息,最终可求出每个八度的坐标信息,即每个琴键的坐标信息。该三通道图像可为对琴键位置进行校准拍摄的,具体校准方式可为用户调整摄像头位置,保证钢琴键盘在指定的矩形区域内,并且将钢琴的中央C键的位置对准标记线,校准完成以后,将不再移动摄像头,使摄像头和乐器相对位置固定,其它图像可在此基础上进行拍摄。
由于被按下的琴键是乐器键盘上的琴键,从图像中识别出来的被按下的琴键是演奏图像中的各个琴键中的一个,这样,根据步骤A1识别出的被按下的琴键以及预先识别出的乐器各个琴键的坐标信息,能够识别出被按下的琴键的坐标信息。
在本申请的又一个实施例中,第一卷积神经网络模型包括第一子卷积神经网络模型和第二子卷积神经网络模型;
基于第一卷积神经网络模型,在所述乐器演奏图像中识别出被按下的琴键的坐标信息(S102a),包括:
B1、基于第一子卷积神经网络模型,识别出被按下的琴键。
本步骤的识别过程与步骤A1类似,在此不再赘述。
B2、基于第二子卷积神经网络模型,在乐器演奏图像中识别出所述键盘上的各个琴键的坐标信息。
基于第二子卷积神经网络模型能够从乐器演奏图像中识别出键盘上的各个琴键的坐标信息。
键盘上的每个琴键的坐标信息可以包括该琴键上的各个拐角处的坐标信息,如琴键表面为长方形时,可用该长方形的四个顶点处的坐标信息表示被按下的琴键的坐标信息。当琴键为多边形时,可用多边形的各个顶点处的坐标信息表示被按下的琴键的坐标信息。在图像中,用像素点的坐标信息表示被按下的琴键的坐标信息。被按下琴键的坐标信息的参考点可为演奏图像的左上角像素点的坐标。
示例性的,在本申请一实施例中,步骤B2可以进一步地包括:
B21、基于第二子卷积神经网络模型,在乐器演奏图像中识别出各个琴键的轮廓信息。
乐器演奏图像中,除了琴键外,可能存在背景,利用该第二子卷积神经网络模型可以从乐器演奏图像中识别出哪些像素代表琴键。琴键分为黑琴键和白琴键时,在一些例子中,该第二子卷积神经网络模型可以从乐器演奏图像中识别出,哪些像素代表黑琴键,哪些像素代表白琴键;在另一些例子中,也可以利用该第二子卷积神经网络模型,从乐器演奏图像中识别出哪些像素代表白琴键,再利用白琴键和黑琴键的位置关系,识别出白琴键的轮廓信息;在又一些例子中,基于所述第二子卷积神经网络模型,在所述乐器演奏图像中,识别黑色琴键的轮廓信息;再根据所述黑色琴键的轮廓信息以及预设的黑琴键与白琴键的对应关系,识别白色琴键的轮廓信息。
预设的第二子卷积神经网络模型基于图像语义分割技术,对乐器演奏图像实现语义分割。预设的第二子卷积神经网络模型是经过训练的模型,输入训练样本及标注好的信息,标注好的信息可为标注好的分割图,只保留目标roi,如目标黑琴键roi的区域为1,别的背景区域值为0,标注好的分割图可以看作是一个像素级的分类图,即是图像中的每一个像素均被打上了标签,经过一定次数的网络迭代,使模型达到最优后取其网络参数作为最终的网络优化参数,在使用时,可以利用模型的最终优化参数对输入的一张图片进行特征计算,最终得出分割结果。
可以将三通道的演奏图像输入到预设的第二子卷积神经网络模型中,通过提取能够代表黑琴键的特征,例如黑色特征。在乐器图像中,每个黑键可以对应着一些像素点的集合,根据提取出来的特征对图像中的每个像素点进行分类,即可以将黑色琴键从图像中分割出来,进一步地,可以根据像素集合的边缘上的像素点的坐标即可确定每个黑键的轮廓,通过第二子卷积神经网络模型能够输出像素级的分类结果图。
再根据预设的黑琴键的长宽比例和/或面积,对得到的黑琴键轮廓信息进行过滤,过滤掉错误的黑琴键信息,例如可以将不再设定的范围内的轮廓面积除去;再根据预设的黑琴键与白琴键的关系如黑白琴键的长宽比、黑白琴键的位置关系等等,计算出白琴键的轮廓信息。
B22、根据各个琴键的轮廓信息,识别出各个琴键的坐标信息。
在步骤B21中,识别出各个琴键的轮廓信息后,为了后续计算过程方便,可以使用各个琴键的坐标信息来表示各个琴键的在图像中的位置。
在一些例子中,可以根据黑色琴键的轮廓信息和白色琴键的轮廓信息,识别键盘上的黑琴键和白琴键的坐标信息。
B3、根据所述各个琴键的坐标信息及所述被按下的琴键,识别出被按下的琴键的坐标信息。
本步骤的识别过程与步骤A2类似,在此不再赘述。
S102b、基于预设的第二卷积神经网络模型,在所述乐器演奏图像中识别出所述演奏者的手部关节的坐标信息。
利用预设的第二卷积神经网络模型,能够用于从乐器演奏图像中识别出演奏者的手部关节的坐标信息。
演奏者的手部关节可以包括腕关节、手掌与各个手指连接处的关节、大拇指与手腕连接处的关节以及每个手指上的关节,其中大拇指上有两个关节,其它手指上有三个关节。可选择手部关节处的任一点的坐标作为手部关节的坐标。手部关节的坐标信息的参考点可为演奏图像的左上角像素点的坐标。
为了提高手部关节点的计算精度,减少乐器演奏图像背景对手部计算的影响,在本申请一实施例中,第二卷积神经网络模型包括第三子卷积神经网络模型和第四子卷积神经网络模型;S102b可以包括:
C1、基于预设的第三子卷积神经网络模型,在乐器演奏图像中识别演奏者的手部所占的区域信息。
将乐器演奏图像输入到预设的第三子卷积神经网络模型,输出结果可为演奏者的手部所占的区域信息,输出的结果也可为中间结果,再对该中间结果进行处理,以得演奏者的手部所占的区域信息。
在本申请一实施例中,步骤C1可以包括:
C10、基于预设的第三子卷积神经网络模型以及在所述乐器演奏图像中的演奏者的手部图像信息,确定所述演奏者的手掌所占的区域信息和与手掌相关的关节点坐标。
第三子卷积神经网络模型可采用卷积神经网络后接具有目标检测功能的模型,即第三子卷积神经网络模型可为CNN-SSD,目标检测算法(SSD,Single Shot MultiBoxDetector)是目前主要的检测框架之一。
将三通道的图像输入到第三子卷积神经网络模型中,输出可以为演奏者的手掌所占的区域信息和与手掌相关的关节点坐标。
可以理解的是,第三子卷积神经网络模型是经过训练得到的,把标注好的图像和标注信息输入到网络,其中,标注信息包括手掌的bounding box信息以及手掌7个关节点的坐标信息,手掌的bounding box信息包含左上角和右下角坐标和类别等信息,经过一定的网络迭代次数,网络达到最优后取其网络参数作为最终的网络优化参数。
将三通道的图像输入训练好的网络模型,能够得出该图像中手掌的位置以及与手掌相关的七个关节点的位置。
利用模型对输入的三通道图像进行特征提取,提取出能代表手掌的特征(如肤色等),从而得出根据SSD算法生成的每个bounding box的分类信息、根据回归技术得到每个bounding box的坐标的偏移量(偏移量包含中心点cx,cy以及矩形框的宽高的偏移量)和手掌关节点的坐标的偏移量,然后根据SSD的编解码处理,得到在输入原始图像上的boundingbox的坐标(包含目标物体的矩形框的左上角和右下角坐标)和手掌的关节点坐标,其中,bounding box的坐标即为手掌所占的区域信息;可以得到7个手掌关节点坐标,其中包括手腕坐标和与中指相连的手掌上的关节点的坐标。
C12、根据所述与手掌相关的关节点坐标,确定所述手部的旋转角度。
手部的旋转角度可以是相对琴键长度方向的旋转角度,在一些例子中,手腕坐标和与中指相连的手掌上的关节点的坐标构成的直线,与琴键长度方向的夹角作为旋转角。
C14、根据预设的手掌和手指比例关系、所述旋转角度以及所述手掌所占的区域信息,识别演奏者的手部所占的区域信息。
通常情况下,人的手掌和手指的长度具有一定的比例关系,这样,可按照该比例对手掌所占的区域进行放大,使手掌和手指在放大后的区域内,示例性地,可将手掌的bounding box进行放大,使手掌和手指在放大后的bounding box内,结合放大后的bounding box、旋转角度,可得到旋转一定角度后的矩形框RotatedRect,该矩形框RotatedRect信息包括矩形框的中心点坐标、矩形的宽、高以及旋转角度,该信息即为即手部所占的区域信息。
C2、基于预设的第四子卷积神经网络模型以及手部所占的区域信息,识别所述演奏者的手部关节的坐标信息。
该步骤采用基于CNN的关节点检测技术回归得到手部21个3d(x,y,z)关节点坐标信息。
根据步骤C1确定的手部所占的区域信息,从乐器演奏图像中将手部所占的区域剪裁下来,为满足下一步的处理要求,可对该剪裁下来的部分进行预处理,如可对其添加像素点,以使预处理后的图像的大小,满足预设的第四子卷积神经网络模型对输入图像的大小要求,如剪裁下来的图像为128×128(像素点),而预设的第四子卷积神经网络模型要求输入的图像为512×512,因此,需对剪裁下来的图像进行预处理,使预处理后的图像大小为512×512,在一些例子中,输入该模型的图像为三通道的彩色图像。
在一些例子中,该步骤根据手掌检测恢复出来的手部的RotatedRect信息,把手部从输入的三通道彩色图像上裁剪下来,然后对其做预处理然后输入到预设的第四子卷积神经网络模型中。
预设的第四子卷积神经网络模型用于识别演奏者的手部关节的坐标信息以及演奏者的左和/或右手,其中,坐标信息为三维坐标信息,如手部关节点的坐标为(x,y,z),其中,x,y为相对与图像的左上角为坐标原点的数值,z表示该手部关节的深度。可以理解的是,输入预设的第四子卷积神经网络模型的图像可为由深度摄像头拍摄的图像。
可以理解的是,预设的第四子卷积神经网络模型,是经过训练得到的,在进行训练时,将标注好的图片和标注信息输入到该网络模型,具体地,将三通道的彩色图以及标签(每个关节点的位置信息、手与非否的标识、左右手标识)信息输入该模型进行训练,经过一定的网络迭代次数,网络达到最优后取其网络参数作为最终的网络优化参数。
利用训练好的第四子CNN网络模型对输入的三通道图像进行特征提取,提取出手部的特征(如肤色等),根据特征对整张图像进行左右手以及是否是手的分类,并回归得到此图片中手部的21个关节点的坐标信息。
手部关节的数量为21个关节点,该步骤中识别出的手部关节点的坐标可为21个关节点,也可少于21个关节点。可以理解的是,关节点的数量至少应为能够确定指法的数量。
S102c、根据所述被按下的琴键的坐标信息和所述手部关节的坐标信息,识别出所述演奏者的演奏指法。
在演奏的图像中,按下琴键的手指应至少部分地处于被按下的琴键的范围内,因此,可以计算被按下的琴键的范围内的手部关节点的所属的手指,即可识别出演奏者的演奏指法。在一些实施例中,可设定阈值,当处于被按下的琴键的范围内的属于同一手指的关节点数超过设定阈值,则该手指即为按下琴键的手指。示例性地,设定阈值为2,当有属于同一手指的两个关节点处于被按下的琴键的范围内时,即可认为该手指是按下琴键的手指。
本实施例,当手部动作为演奏指法时,基于预设的第一卷积神经网络模型,在乐器演奏图像中识别出被按下的琴键的坐标信息,再基于预设的第二卷积神经网络模型,在乐器演奏图像中识别出演奏者的手部关节的坐标信息,最后,根据被按下的琴键的坐标信息和手部关节的坐标信息,能够自动识别出演奏者的演奏指法,从而,节省了人工成本。
可以理解的是,步骤102b可位于步骤102a之后,也可位于步骤102a之前。
参见图3,当需要对演奏的手型是否正确进行判断时,需要识别出演奏时的手部关节点的坐标信息,在本申请一实施例中,演奏手部动作为演奏手型时,基于预设的卷积神经网络模型,在所述乐器演奏图像中识别所述演奏者的演奏手型(S102),包括:
S102d、基于预设的卷积神经网络模型,在所述乐器演奏图像中识别所述演奏者的手部关节的坐标信息。
利用预设的卷积神经网络模型,能够用于从乐器演奏图像中识别出演奏者的手部关节的坐标信息。
演奏者的手部关节可以包括腕关节、手掌与各个手指连接处的关节、大拇指与手腕连接处的关节以及每个手指上的关节,其中大拇指上有两个关节,其它手指上有三个关节。可选择手部关节处的任一点的坐标作为手部关节的坐标。手部关节的坐标信息的参考点可为演奏图像的左上角像素点的坐标。
为了提高手部关节点的计算精度,减少乐器演奏图像背景对手部计算的影响,在本申请一实施例中,基于预设的卷积神经网络模型,在所述乐器演奏图像中识别所述演奏者的手部关节的坐标信息(S102d)包括:
D1、基于预设的第三子卷积神经网络模型,在乐器演奏图像中识别演奏者的手部所占的区域信息。
将乐器演奏图像输入到预设的第三子卷积神经网络模型,输出结果可为演奏者的手部所占的区域信息,输出的结果也可为中间结果,再对该中间结果进行处理,以得演奏者的手部所占的区域信息。
在本申请一实施例中,步骤D1可以包括:
D10、基于预设的第三子卷积神经网络模型以及在所述乐器演奏图像中的演奏者的手部图像信息,确定所述演奏者的手掌所占的区域信息和与手掌相关的关节点坐标。
第三子卷积神经网络模型可采用卷积神经网络后接具有目标检测功能的模型,即第三子卷积神经网络模型可为CNN-SSD,目标检测算法(SSD,Single Shot MultiBoxDetector)是目前主要的检测框架之一。
将三通道的图像输入到第三子卷积神经网络模型中,输出可以为演奏者的手掌所占的区域信息和与手掌相关的关节点坐标。
利用模型对输入的三通道图像进行特征提取,提取出能代表手掌的特征(如肤色等),从而得出根据SSD算法生成的每个bounding box的分类信息、根据回归技术得到每个bounding box的坐标的偏移量(偏移量包含中心点cx,cy以及矩形框的宽高的偏移量)和手掌关节点的坐标的偏移量,然后根据SSD的编解码处理,得到在输入原始图像上的boundingbox的坐标(包含目标物体的矩形框的左上角和右下角坐标)和手掌的关节点坐标,其中,bounding box的坐标即为手掌所占的区域信息;可以得到7个手掌关节点坐标,其中包括手腕坐标和与中指相连的手掌上的关节点的坐标。
D12、根据所述与手掌相关的关节点坐标,确定所述手部的旋转角度。
手部的旋转角度可以是相对琴键长度方向的旋转角度,在一些例子中,手腕坐标和与中指相连的手掌上的关节点的坐标构成的直线,与琴键长度方向的夹角作为旋转角。
D14、根据预设的手掌和手指比例关系、所述旋转角度以及所述手掌所占的区域信息,识别演奏者的手部所占的区域信息。
通常情况下,人的手掌和手指的长度具有一定的比例关系,这样,可按照该比例对手掌所占的区域进行放大,使手掌和手指在放大后的区域内,示例性地,可将手掌的bounding box进行放大,使手掌和手指在放大后的bounding box内,结合放大后的bounding box、旋转角度,可得到旋转一定角度后的矩形框,矩形框信息包括矩形框的中心点坐标、矩形的宽、高以及旋转角度,该信息即为即手部所占的区域信息。
D2、基于预设的第四子卷积神经网络模型以及手部所占的区域信息,识别所述演奏者的手部关节的坐标信息。
根据步骤D1确定的手部所占的区域信息,从乐器演奏图像中将手部所占的区域剪裁下来,为满足下一步的处理要求,可对该剪裁下来的部分进行预处理,如可对其添加像素点,以使预处理后的图像的大小,满足预设的第四子卷积神经网络模型对输入图像的大小要求,如剪裁下来的图像为128×128(像素点),而预设的第四子卷积神经网络模型要求输入的图像为512×512,因此,需对剪裁下来的图像进行预处理,使预处理后的图像大小为512×512。
预设的第四子卷积神经网络模型用于识别演奏者的手部关节的坐标信息,该坐标信息为三维坐标信息,如手部关节点的坐标为(x,y,z),其中,x,y为相对与图像的左上角为坐标原点的数值,z表示该手部关节的深度。
手部关节的数量为21个关节点,该步骤中识别出的手部关节点的坐标可为21个关节点,也可少于21个关节点。可以理解的是,关节点的数量至少应为能够确定指法的数量。
为了减少后续的计算量,在本步骤中,还可以通过预设的第四子卷积神经网络模型,识别出图像中的手部是演奏者的左和/或右手。
S102e、根据所述手部关节的坐标信息,识别出所述演奏者的演奏手型。
标准手部动作中,标准手型的各个关节之间的相对位置具有预设标准,如果识别出的演奏手型中关节之间的相对位置不符合该预设标准,则可以确定演奏手型存在错误。常见的演奏者的演奏手型错误例如可以包括:塌指或折指、掌关节塌陷、压手腕、抬手腕、手指翘起、未抬手指等。其中,塌指或折指:表现为手指的第二关节内凹;掌关节塌陷:表现为手指根部关节的内凹;压手腕:表现为手腕过低;抬手腕:表现为手腕过高;手指翘起:手指未自然下垂而是成直线向上翘起;未抬手指:钢琴演奏中要求在每个音弹下之前先把手指高高抬起,如果直接未将手指抬起直接按下则算错误。
根据识别出的手部关节的坐标信息,可以识别出所述演奏者的演奏手型。示例性的,塌指、折指:手指第二关节z坐标较低;掌关节塌陷:若掌关节点z坐标值低于手指的指尖关节点的z坐标值则可认为掌关节塌陷;压手腕:若腕关节的z坐标值低于掌关节z坐标值可判断为压手腕;抬手腕:可类比压手腕。其它的手型识别可依照手型的具体特点进行。
为了减少预设的卷积神经网络模型的参数,进一步减少计算时间提高计算效率,在本申请一实施例中,预设的卷积神经网络模型包括深度可分离卷积层。
下面以一具体实施例,对本申请技术方案的实施进行详细说明。
该实施例中包括摄像头、钢琴、支持iOS,Android等移动设备等硬件资源。
步骤1、从摄像头采集到琴键以及演奏者手部的视频画面;其中,摄像头负责采集视频,摄像头通过线和移动设备相连接,摄像头通过可伸缩的支架安装于钢琴的正上方;摄像头自带补光灯;摄像头可以从钢琴的正上方朝下拍摄图像,可伸缩的支架可用于调整摄像头高度;
步骤2、识别出每个琴键的坐标位置;
步骤3、识别出每个手的关节点的坐标;
步骤4、识别出当前被按下的键的坐标;
步骤5、计算出当前按键所对应的手指,并且跟曲谱中的标准指法作对比,确定错误的指法;
步骤6、根据每个手的关节点的坐标,计算出错误的手型类型。
步骤7、通过移动终端的显示模块,将错误的指法信息和手型信息标注到电子曲谱上。
为了减少每一帧都要计算键盘的运算量,在演奏前先进行琴键位置的校准;校准方式为,用户调整摄像头位置,保证钢琴键盘在指定的矩形区域内,并且将钢琴的中央C键的位置对准标记线;校准完成以后,将不再移动摄像头,即摄像头和键盘的相对位置固定,接下来只做手部检测。
本申请一实施例,与上述实施例基本相同,不同之处在于,本实施例的纠错方法中根据所述演奏手部动作与预设的标准手部动作的差异,对所述演奏手部动作纠错(S103),包括:
S103A、确定用户演奏第一音符时对应的所述演奏手部动作与所述标准手部动作是否一致;所述第一音符的数量为至少一个。
第一音符可为演奏乐谱中的任一音符。演奏的第一音符的数量可为一个、两个等等。
S103B、响应于用户演奏所述第一音符时对应的所述演奏手部动作与所述标准手部动作不一致,展示不一致的所述演奏手部动作与对应的所述标准手部动作的对比图,并等待所述用户再次演奏所述第一音符。
当户演奏第一音符时对应的所述演奏手部动作与所述标准手部动作不一致时,用于指示演奏音符的光标不动,向用户展示不一致的所述演奏手部动作与对应的所述标准手部动作的对比图,而后等待用户再次演奏所述第一音符。
S103C、响应于用户所述第一音符对应的所述演奏手部动作与所述标准手部动作一致,等待用户演奏第二音符。
当户演奏第一音符时对应的所述演奏手部动作与所述标准手部动作一致时,用于指示演奏音符的光标移动指示到第二音符,等待用户演奏第二音符。
作为一可替换方式,本申请又一实施例中,根据所述演奏手部动作与预设的标准手部动作的差异,对所述演奏手部动作纠错(S103),包括:
S103D、待用户演奏完预设乐谱后,根据所述预设乐谱中全部音符的所述演奏手部动作与对应的所述标准手部动作的差异,生成测评报告。
等待用户演奏完全曲时,根据所述预设乐谱中全部音符的所述演奏手部动作与对应的所述标准手部动作的差异,生成测评报告。
在一些例子中,所述根据所述预设乐谱中全部音符的所述演奏手部动作与对应的所述标准手部动作的差异,生成测评报告包括:
A、遍历所述预设乐谱中每个音符的所述演奏手部动作与对应的所述标准动作,以确定所述预设乐谱的手部动作错误信息。
对弹奏每个音符的手部动作进行与对应的所述标准动作进行对比,从而,确定所述预设乐谱的手部动作错误信息。
B、将所述手部动作错误信息标注到所述预设乐谱中对应的音符上,得到待提示音符,以生成所述测评报告。
可将手部动作错误信息与所述预设乐谱中对应的音符关联,从而能够得到待提示音符,进一步地,可以生成所述测评报告。
S103E、展示所述测评报告。
在生成测评报告的基础上,展示所述测评报告包括:
C、接收用户对所述待提示音符的点击操作。
为获知标准手部动作,用户可点击待提示音符。
D、根据所述点击操作,展示所述待提示音符对应的所述演奏手部动作与所述标准手部动作的对比图。
参见图4-图6,本实施例可以分为两大交互模式:逐音提示模式和全曲提示模式。
逐音提示模式:
(1)在曲谱上用光标展示当前弹奏位置;
(2)用户弹下一个音;
(3)如果音准和指法都正确,则当前音符变绿(表示为弹奏正确,包括但不限于音符变绿这种展示方式),光标移动到下一个音符的位置;
(4)如果音准正确但是指法错误,则光标不移动,出现指法提示界面,提示正确的指法和手型(提示方法可以是文字,图片,语音,不限制具体展示方式);
(5)如果音准错误,则出现音准提示界面,提示正确的音准(不属于本专利范畴);
(6)如果当前光标下对应的音符数大于一个,则依次判断每一个音的正误,所有音都正确以后光标才移动到下一个位置;
(7)初始化时,光标放到该曲目(或分段)的第一个音的位置。
全曲提示模式:
(1)用户先完整演奏完全曲(或指定片段),演奏过程中不进行错误提示;
(2)经过服务器计算之后,展示测评报告;
(3)测评报告中,把出现错误的指法和手型,标注到对应的音符上;
(4)点击出现错误指法或手型的音符,出现正确的指法和手型的提示(不限于文字,图片,语音等方式)。
图7为本申请一实施例提供的乐器演奏手部动作的纠错装置的结构示意图,在无需教师在场的情况下及时地提醒演奏者,有效提高了演奏手部动作的纠错效率,所述装置,可以包括:
获取模块11,用于获取乐器演奏图像,所述乐器演奏图像中包括键盘图像信息和演奏者的手部图像信息;
识别模块12,用于基于预设的卷积神经网络模型,在所述乐器演奏图像中识别所述演奏者的演奏手部动作,所述演奏手部动作包括演奏指法和/或演奏手型;
纠错模块13,用于根据所述演奏手部动作与预设的标准手部动作的差异,对所述演奏手部动作纠错。
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本实施例的装置,通过获取包括键盘图像信息和演奏者的手部图像信息的乐器演奏图像,再基于预设的卷积神经网络模型,在乐器演奏图像中识别演奏者的演奏手部动作,演奏手部动作包括演奏指法和/或演奏手型,最后,根据演奏手部动作与预设的标准手部动作的差异,对演奏手部动作纠错,能够自动地对演奏时演奏者手部动作进行纠错,从而,在无需教师在场的情况下及时地提醒演奏者,有效提高了演奏手部动作的纠错效率,避免了通过人工对演奏者手部动作进行纠错时,由于人的注意力不够集中等因素而导致不能及时地提醒演奏者的问题。
作为一可选实施方式,所述手部动作为演奏指法;所述卷积神经网络模型包括第一卷积神经网络模型和第二卷积神经网络模型;所述识别模块,包括:第一识别子模块,用于基于预设的第一卷积神经网络模型,在所述乐器演奏图像中识别出被按下的琴键的坐标信息;第二识别子模块,用于基于预设的第二卷积神经网络模型,在所述乐器演奏图像中识别出所述演奏者的手部关节的坐标信息;第三识别子模块,用于根据所述被按下的琴键的坐标信息和所述手部关节的坐标信息,识别出所述演奏者的演奏指法。
作为一可选实施方式,所述第一卷积神经网络模型包括第一子卷积神经网络模型;所述第一识别子模块,包括:第一识别单元,用于基于预设的第一子卷积神经网络模型,识别被按下的琴键;第二识别单元,用于根据所述被按下的琴键以及预先识别出的乐器各个琴键的坐标信息,识别出被按下的琴键的坐标信息;或者,
所述第一卷积神经网络模型包括第一子卷积神经网络模型和第二子卷积神经网络模型;所述第一识别子模块,包括:第三识别单元,用于基于所述第一子卷积神经网络模型,识别出被按下的琴键;第四识别单元,用于基于所述第二子卷积神经网络模型,在所述乐器演奏图像中识别出所述键盘上的各个琴键的坐标信息;第五识别单元,用于根据所述各个琴键的坐标信息及所述被按下的琴键,识别出被按下的琴键的坐标信息。
作为一可选实施方式,所述第四识别单元,包括:第一识别子单元,用于基于所述第二子卷积神经网络模型,在所述乐器演奏图像中识别出各个琴键的轮廓信息;第二识别子单元,用于根据所述各个琴键的轮廓信息,识别出各个琴键的坐标信息。
作为一可选实施方式,所述第一识别子单元,包括:黑色琴键轮廓信息识别子单元,用于基于所述第二子卷积神经网络模型,在所述乐器演奏图像中,识别黑色琴键的轮廓信息;白色琴键轮廓信息识别子单元,用于根据所述黑色琴键的轮廓信息以及预设的黑琴键与白琴键的对应关系,识别白色琴键的轮廓信息;所述第二识别子单元,包括:各个琴键坐标信息识别子单元,用于根据所述黑色琴键的轮廓信息和所述白色琴键的轮廓信息,识别所述键盘上的各个琴键的坐标信息。
作为一可选实施方式,所述乐器演奏图像包括预定时间段内的多个图像;每个图像中包括被按下的琴键的图像信息和时间戳信息;所述第一识别单元,包括:第三识别子单元,用于基于所述第一子卷积神经网络模型,根据所述多个图像中包括的被按下的琴键的图像信息和时间戳信息,识别被按下的琴键。
作为一可选实施方式,所述第二卷积神经网络模型包括第三子卷积神经网络模型和第四子卷积神经网络模型;所述第二识别子模块,包括:第六识别单元,用于基于预设的第三子卷积神经网络模型,在所述乐器演奏图像中识别演奏者的手部所占的区域信息;第七识别单元,用于基于预设的第四子卷积神经网络模型以及所述手部所占的区域信息,识别所述演奏者的手部关节的坐标信息。
所述第六识别单元,包括:第一确定子单元,用于基于预设的第三子卷积神经网络模型以及在所述乐器演奏图像中的演奏者的手部图像信息,确定所述演奏者的手掌所占的区域信息和与手掌相关的关节点坐标;第二确定子单元,用于根据所述与手掌相关的关节点坐标,确定所述手部的旋转角度;第四识别子单元,用于根据预设的手掌和手指比例关系、所述旋转角度以及所述手掌所占的区域信息,识别演奏者的手部所占的区域信息。
作为一可选实施方式,所述演奏手部动作为演奏手型;所述识别模块,包括:第四识别子模块,用于基于预设的卷积神经网络模型,在所述乐器演奏图像中识别所述演奏者的手部关节的坐标信息;第五识别子模块,用于根据所述手部关节的坐标信息,识别出所述演奏者的演奏手型。
作为一可选实施方式,所述卷积神经网络模型包括第三子卷积神经网络模型和第四子卷积神经网络模型;所述第四识别子模块,包括:第八识别单元,用于基于预设的第三子卷积神经网络模型,在所述乐器演奏图像中识别演奏者的手部所占的区域信息;第九识别单元,用于基于预设的第四子卷积神经网络模型以及所述手部所占的区域信息,识别所述演奏者的手部关节的坐标信息。
作为一可选实施方式,所述第八识别单元,包括:第三确定子单元,用于基于预设的第三子卷积神经网络模型以及在所述乐器演奏图像中的演奏者的手部图像信息,确定所述演奏者的手掌所占的区域信息和与手掌相关的关节点坐标;第四确定子单元,用于根据所述与手掌相关的关节点坐标,确定所述手部的旋转角度;第五识别子单元,用于根据预设的手掌和手指比例关系、所述旋转角度以及所述手掌所占的区域信息,识别演奏者的手部所占的区域信息。
作为一可选实施方式,所述纠错模块,包括:确定模块,用于确定用户演奏第一音符时对应的所述演奏手部动作与所述标准手部动作是否一致;所述第一音符的数量为至少一个;第一展示模块,用于响应于用户演奏所述第一音符时对应的所述演奏手部动作与所述标准手部动作不一致,展示不一致的所述演奏手部动作与对应的所述标准手部动作的对比图,并等待所述用户再次演奏所述第一音符;等待模块,用于响应于用户所述第一音符对应的所述演奏手部动作与所述标准手部动作一致,等待用户演奏第二音符。
作为一可选实施方式,所述纠错模块,包括:生成模块,用于待用户演奏完预设乐谱后,根据所述预设乐谱中全部音符的所述演奏手部动作与对应的所述标准手部动作的差异,生成测评报告;第二展示模块,用于展示所述测评报告。
作为一可选实施方式,所述生成模块包括:确定子模块,用于遍历所述预设乐谱中每个音符的所述演奏手部动作与对应的所述标准动作,以确定所述预设乐谱的手部动作错误信息;标注子模块,用于将所述手部动作错误信息标注到所述预设乐谱中对应的音符上,得到待提示音符,以生成所述测评报告。
作为一可选实施方式,所述第二展示模块包括:接收子模块,用于接收用户对所述待提示音符的点击操作;第二展示子模块,用于根据所述点击操作,展示所述待提示音符对应的所述演奏手部动作与所述标准手部动作的对比图。
作为一可选实施方式,所述预设的卷积神经网络模型包括深度可分离卷积层。
上述实施例的装置,可以用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
第三方面,本申请的实施例还提供一种电子设备,在对演奏者手部动作进行纠错的过程中,能够降低人工成本。
如图8所示,本申请的实施例提供的电子设备,可以包括:壳体51、处理器52、存储器53、电路板54和电源电路55,其中,电路板54安置在壳体51围成的空间内部,处理器52和存储器53设置在电路板54上;电源电路55,用于为上述电子设备的各个电路或器件供电;存储器53用于存储可执行程序代码;处理器52通过读取存储器53中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述任一实施例提供的乐器演奏手部动作的纠错方法。
处理器52对上述步骤的具体执行过程以及处理器52通过运行可执行程序代码来进一步执行的步骤,可以参见前述实施例的描述,在此不再赘述。
上述电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子设备。
相应的,本申请的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述实施例提供的任一种乐器演奏手部动作的纠错方法,因此也能实现相应的技术效果,前文已经进行了详细说明,此处不再赘述。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
为了描述的方便,描述以上装置是以功能分为各种单元/模块分别描述。当然,在实施本申请时可以把各单元/模块的功能在同一个或多个软件和/或硬件中实现。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (26)
1.一种乐器演奏手部动作的纠错方法,其特征在于,包括:
获取乐器演奏图像,所述乐器演奏图像中包括键盘图像信息和演奏者的手部图像信息;
基于预设的卷积神经网络模型,在所述乐器演奏图像中识别所述演奏者的演奏手部动作,所述演奏手部动作包括演奏指法和/或演奏手型;
根据所述演奏手部动作与预设的标准手部动作的差异,对所述演奏手部动作纠错;
所述卷积神经网络模型包括第一卷积神经网络模型和第二卷积神经网络模型;
所述手部动作为演奏指法,所述基于预设的卷积神经网络模型,在所述乐器演奏图像中识别所述演奏者的演奏指法,包括:基于预设的第一卷积神经网络模型,在所述乐器演奏图像中识别出被按下的琴键的坐标信息;基于预设的第二卷积神经网络模型,在所述乐器演奏图像中识别出所述演奏者的手部关节的坐标信息;根据所述被按下的琴键的坐标信息和所述手部关节的坐标信息,识别出所述演奏者的演奏指法;所述被按下的琴键为由演奏者某个手指按下的琴键;所述被按下的琴键的坐标信息包括琴键上的各个拐角处的坐标信息;
所述基于预设的第一卷积神经网络模型,在所述乐器演奏图像中识别出被按下的琴键的坐标信息,包括:
所述预设的第一卷积神经网络模型包括一个输入层,一个输出层,以及连接输入层与输出层的多个隐层;每个输入层输入一个或多个乐器演奏图像,卷积神经网络对所述乐器演奏图像进行并行处理,从输出端输出中间结果,再利用所述中间结果得到被按下的琴键的坐标信息;所述被按下的琴键的坐标信息包括琴键上的各个拐角处的坐标信息,当琴键表面为长方形时,用所述长方形的四个顶点处的坐标信息表示被按下的琴键的坐标信息;当琴键为多边形时,用所述多边形的各个顶点处的坐标信息表示被按下的琴键的坐标信息;其中,在所述乐器演奏图像中,用像素点的坐标信息表示被按下的琴键的坐标信息;所述被按下琴键的坐标信息的参考点为演奏图像的左上角像素点的坐标;通过乐器上各个琴键的坐标信息以及确定被按下的琴键,得到被按下的琴键的坐标信息;或者,
所述第一卷积神经网络模型包括第一子卷积神经网络模型和第二子卷积神经网络模型;所述基于预设的第一卷积神经网络模型,在所述乐器演奏图像中识别出被按下的琴键的坐标信息,包括:
基于所述第一子卷积神经网络模型,识别出被按下的琴键;所述乐器演奏图像包括预定时间段内的多个图像;所述第一子卷积神经网络模型包括:3D-CNN神经网络运动检测模型;所述基于预设的第一子卷积神经网络模型,识别被按下的琴键,包括:利用所述3D-CNN神经网络运动检测模型,对所述预定时间段内的多个图像的动作进行分类与定位,获取琴键的动作以及动作的位置;根据所述琴键的动作以及动作的位置识别出被按下的琴键;
基于所述第二子卷积神经网络模型,在所述乐器演奏图像中识别出所述键盘上的各个琴键的坐标信息;
根据所述各个琴键的坐标信息及所述被按下的琴键,识别出被按下的琴键的坐标信息;
所述基于所述第二子卷积神经网络模型,在所述乐器演奏图像中识别出所述键盘上的各个琴键的坐标信息,包括:
基于所述第二子卷积神经网络模型,在所述乐器演奏图像中识别出各个琴键的轮廓信息;所述琴键包括黑琴键和白琴键;所述第二子卷积神经网络模型包括:基于CNN的图像语义分割技术的CNN模型;
根据所述各个琴键的轮廓信息,识别出各个琴键的坐标信息;
所述基于所述第二子卷积神经网络模型,在所述乐器演奏图像中识别出各个琴键的轮廓信息,包括:利用训练好的CNN模型对输入的三通道乐器演奏图像进行特征提取,提取出能代表黑琴键的特征,所述特征包括颜色,根据所述提取出来的特征对图像中的每一个像素点进行分类,获取像素点分类结果,所述像素点分类结果分类结果包括一个像素点代表黑琴键或者一个像素点代表背景,最终输出像素级的分类结果图作为最终的黑琴键分割结果;依据所述分割结果运用图像处理方法求出黑琴键的轮廓信息,再根据第一先验信息对所述黑琴键轮廓信息进行过滤,过滤掉分割错误的黑琴键信息,然后根据第二先验信息计算出白琴键的轮廓信息,最终求出每个八度的坐标信息,即每个琴键的坐标信息;所述第一先验信息包括黑琴键的长款比、面积;所述第二先验信息包括黑白琴键的长款比、黑白琴键的位置关系。
2.根据权利要求1所述的方法,其特征在于,所述第一卷积神经网络模型包括第一子卷积神经网络模型;所述基于预设的第一卷积神经网络模型,在所述乐器演奏图像中识别出被按下的琴键的坐标信息,包括:
基于预设的第一子卷积神经网络模型,识别被按下的琴键;
根据所述被按下的琴键以及预先识别出的乐器各个琴键的坐标信息,识别出被按下的琴键的坐标信息。
3.根据权利要求1所述的方法,其特征在于,所述基于所述第二子卷积神经网络模型,在所述乐器演奏图像中识别各个琴键的轮廓信息,包括:
基于所述第二子卷积神经网络模型,在所述乐器演奏图像中,识别黑色琴键的轮廓信息;
根据所述黑色琴键的轮廓信息以及预设的黑琴键与白琴键的对应关系,识别白色琴键的轮廓信息;
所述根据所述各个琴键的轮廓信息,识别各个琴键的坐标信息,包括:
根据所述黑色琴键的轮廓信息和所述白色琴键的轮廓信息,识别所述键盘上的各个琴键的坐标信息。
4.根据权利要求1所述的方法,其特征在于,所述乐器演奏图像包括预定时间段内的多个图像;每个图像中包括被按下的琴键的图像信息和时间戳信息;
所述基于所述第一子卷积神经网络模型,识别被按下的琴键,包括:
基于所述第一子卷积神经网络模型,根据所述多个图像中包括的被按下的琴键的图像信息和时间戳信息,识别被按下的琴键。
5.根据权利要求1所述的方法,其特征在于,所述第二卷积神经网络模型包括第三子卷积神经网络模型和第四子卷积神经网络模型;
所述基于预设的第二卷积神经网络模型,在所述乐器演奏图像中识别所述演奏者的手部关节的坐标信息,包括:
基于预设的第三子卷积神经网络模型,在所述乐器演奏图像中识别演奏者的手部所占的区域信息;
基于预设的第四子卷积神经网络模型以及所述手部所占的区域信息,识别所述演奏者的手部关节的坐标信息。
6.根据权利要求5所述的方法,其特征在于,所述基于预设的第三子卷积神经网络模型,在所述乐器演奏图像中识别演奏者的手部所占的区域信息,包括:
基于预设的第三子卷积神经网络模型以及在所述乐器演奏图像中的演奏者的手部图像信息,确定所述演奏者的手掌所占的区域信息和与手掌相关的关节点坐标;
根据所述与手掌相关的关节点坐标,确定所述手部的旋转角度;
根据预设的手掌和手指比例关系、所述旋转角度以及所述手掌所占的区域信息,识别演奏者的手部所占的区域信息。
7.根据权利要求1所述的方法,其特征在于,所述演奏手部动作为演奏手型;
所述基于预设的卷积神经网络模型,在所述乐器演奏图像中识别所述演奏者的演奏手型,包括:
基于预设的卷积神经网络模型,在所述乐器演奏图像中识别所述演奏者的手部关节的坐标信息;
根据所述手部关节的坐标信息,识别出所述演奏者的演奏手型。
8.根据权利要求7所述的方法,其特征在于,所述卷积神经网络模型包括第三子卷积神经网络模型和第四子卷积神经网络模型;
所述基于预设的卷积神经网络模型,在所述乐器演奏图像中识别所述演奏者的手部关节的坐标信息,包括:
基于预设的第三子卷积神经网络模型,在所述乐器演奏图像中识别演奏者的手部所占的区域信息;
基于预设的第四子卷积神经网络模型以及所述手部所占的区域信息,识别所述演奏者的手部关节的坐标信息。
9.根据权利要求8所述的方法,其特征在于,所述基于预设的第三子卷积神经网络模型,在所述乐器演奏图像中识别演奏者的手部所占的区域信息,包括:
基于预设的第三子卷积神经网络模型以及在所述乐器演奏图像中的演奏者的手部图像信息,确定所述演奏者的手掌所占的区域信息和与手掌相关的关节点坐标;
根据所述与手掌相关的关节点坐标,确定所述手部的旋转角度;
根据预设的手掌和手指比例关系、所述旋转角度以及所述手掌所占的区域信息,识别演奏者的手部所占的区域信息。
10.根据权利要求1所述的方法,其特征在于,所述根据所述演奏手部动作与预设的标准手部动作的差异,对所述演奏手部动作纠错,包括:
确定用户演奏第一音符时对应的所述演奏手部动作与所述标准手部动作是否一致;所述第一音符的数量为至少一个;
响应于用户演奏所述第一音符时对应的所述演奏手部动作与所述标准手部动作不一致,展示不一致的所述演奏手部动作与对应的所述标准手部动作的对比图,并等待所述用户再次演奏所述第一音符;
响应于用户所述第一音符对应的所述演奏手部动作与所述标准手部动作一致,等待用户演奏第二音符。
11.根据权利要求1所述的方法,其特征在于,所述根据所述演奏手部动作与预设的标准手部动作的差异,对所述演奏手部动作纠错,包括:
待用户演奏完预设乐谱后,根据所述预设乐谱中全部音符的所述演奏手部动作与对应的所述标准手部动作的差异,生成测评报告;
展示所述测评报告。
12.根据权利要求1-11任一项所述的方法,其特征在于,所述预设的卷积神经网络模型包括深度可分离卷积层。
13.一种乐器演奏手部动作的纠错装置,其特征在于,包括:
获取模块,用于获取乐器演奏图像,所述乐器演奏图像中包括键盘图像信息和演奏者的手部图像信息;
识别模块,用于基于预设的卷积神经网络模型,在所述乐器演奏图像中识别所述演奏者的演奏手部动作,所述演奏手部动作包括演奏指法和/或演奏手型;
纠错模块,用于根据所述演奏手部动作与预设的标准手部动作的差异,对所述演奏手部动作纠错;
所述手部动作为演奏指法;所述卷积神经网络模型包括第一卷积神经网络模型和第二卷积神经网络模型;所述识别模块,包括:
第一识别子模块,用于基于预设的第一卷积神经网络模型,在所述乐器演奏图像中识别出被按下的琴键的坐标信息;所述被按下的琴键为由演奏者某个手指按下的琴键;所述被按下的琴键的坐标信息包括琴键上的各个拐角处的坐标信息;
第二识别子模块,用于基于预设的第二卷积神经网络模型,在所述乐器演奏图像中识别出所述演奏者的手部关节的坐标信息;
第三识别子模块,用于根据所述被按下的琴键的坐标信息和所述手部关节的坐标信息,识别出所述演奏者的演奏指法;
所述第一识别子模块,具体用于所述预设的第一卷积神经网络模型包括一个输入层,一个输出层,以及连接输入层与输出层的多个隐层;每个输入层输入一个或多个乐器演奏图像,卷积神经网络对所述乐器演奏图像进行并行处理,从输出端输出中间结果,再利用所述中间结果得到被按下的琴键的坐标信息;所述被按下的琴键的坐标信息包括琴键上的各个拐角处的坐标信息,当琴键表面为长方形时,用所述长方形的四个顶点处的坐标信息表示被按下的琴键的坐标信息;当琴键为多边形时,用所述多边形的各个顶点处的坐标信息表示被按下的琴键的坐标信息;其中,在所述乐器演奏图像中,用像素点的坐标信息表示被按下的琴键的坐标信息;所述被按下琴键的坐标信息的参考点为演奏图像的左上角像素点的坐标;通过乐器上各个琴键的坐标信息以及确定被按下的琴键,得到被按下的琴键的坐标信息;
所述第一卷积神经网络模型包括第一子卷积神经网络模型和第二子卷积神经网络模型;
所述第一识别子模块,包括:
第三识别单元,用于基于所述第一子卷积神经网络模型,识别出被按下的琴键;所述乐器演奏图像包括预定时间段内的多个图像;所述第一子卷积神经网络模型包括:3D-CNN神经网络运动检测模型;
所述第三识别单元,具体用于利用所述3D-CNN神经网络运动检测模型,对所述预定时间段内的多个图像的动作进行分类与定位,获取琴键的动作以及动作的位置;根据所述琴键的动作以及动作的位置识别出被按下的琴键;
第四识别单元,用于基于所述第二子卷积神经网络模型,在所述乐器演奏图像中识别出所述键盘上的各个琴键的坐标信息;
第五识别单元,用于根据所述各个琴键的坐标信息及所述被按下的琴键,识别出被按下的琴键的坐标信息;
所述第四识别单元,包括:
第一识别子单元,用于基于所述第二子卷积神经网络模型,在所述乐器演奏图像中识别出各个琴键的轮廓信息;所述琴键包括黑琴键和白琴键;所述第二子卷积神经网络模型包括:基于CNN的图像语义分割技术的CNN模型;
第二识别子单元,用于根据所述各个琴键的轮廓信息,识别出各个琴键的坐标信息;
所述第一识别子单元,具体用于利用训练好的CNN模型对输入的三通道乐器演奏图像进行特征提取,提取出能代表黑琴键的特征,所述特征包括颜色,根据所述提取出来的特征对图像中的每一个像素点进行分类,获取像素点分类结果,所述像素点分类结果分类结果包括一个像素点代表黑琴键或者一个像素点代表背景,最终输出像素级的分类结果图作为最终的黑琴键分割结果;依据所述分割结果运用图像处理方法求出黑琴键的轮廓信息,再根据第一先验信息对所述黑琴键轮廓信息进行过滤,过滤掉分割错误的黑琴键信息,然后根据第二先验信息计算出白琴键的轮廓信息,最终求出每个八度的坐标信息,即每个琴键的坐标信息;所述第一先验信息包括黑琴键的长款比、面积;所述第二先验信息包括黑白琴键的长款比、黑白琴键的位置关系。
14.根据权利要求13所述的装置,其特征在于,所述第一卷积神经网络模型包括第一子卷积神经网络模型;所述第一识别子模块,包括:
第一识别单元,用于基于预设的第一子卷积神经网络模型,识别被按下的琴键;
第二识别单元,用于根据所述被按下的琴键以及预先识别出的乐器各个琴键的坐标信息,识别出被按下的琴键的坐标信息。
15.根据权利要求13所述的装置,其特征在于,所述第一识别子单元,包括:
黑色琴键轮廓信息识别子单元,用于基于所述第二子卷积神经网络模型,在所述乐器演奏图像中,识别黑色琴键的轮廓信息;
白色琴键轮廓信息识别子单元,用于根据所述黑色琴键的轮廓信息以及预设的黑琴键与白琴键的对应关系,识别白色琴键的轮廓信息;
所述第二识别子单元,包括:
各个琴键坐标信息识别子单元,用于根据所述黑色琴键的轮廓信息和所述白色琴键的轮廓信息,识别所述键盘上的各个琴键的坐标信息。
16.根据权利要求14所述的装置,其特征在于,所述乐器演奏图像包括预定时间段内的多个图像;每个图像中包括被按下的琴键的图像信息和时间戳信息;
所述第一识别单元,包括:
第三识别子单元,用于基于所述第一子卷积神经网络模型,根据所述多个图像中包括的被按下的琴键的图像信息和时间戳信息,识别被按下的琴键。
17.根据权利要求13所述的装置,其特征在于,所述第二卷积神经网络模型包括第三子卷积神经网络模型和第四子卷积神经网络模型;
所述第二识别子模块,包括:
第六识别单元,用于基于预设的第三子卷积神经网络模型,在所述乐器演奏图像中识别演奏者的手部所占的区域信息;
第七识别单元,用于基于预设的第四子卷积神经网络模型以及所述手部所占的区域信息,识别所述演奏者的手部关节的坐标信息。
18.根据权利要求17所述的装置,其特征在于,所述第六识别单元,包括:
第一确定子单元,用于基于预设的第三子卷积神经网络模型以及在所述乐器演奏图像中的演奏者的手部图像信息,确定所述演奏者的手掌所占的区域信息和与手掌相关的关节点坐标;
第二确定子单元,用于根据所述与手掌相关的关节点坐标,确定所述手部的旋转角度;
第四识别子单元,用于根据预设的手掌和手指比例关系、所述旋转角度以及所述手掌所占的区域信息,识别演奏者的手部所占的区域信息。
19.根据权利要求13所述的装置,其特征在于,所述演奏手部动作为演奏手型;
所述识别模块,包括:
第四识别子模块,用于基于预设的卷积神经网络模型,在所述乐器演奏图像中识别所述演奏者的手部关节的坐标信息;
第五识别子模块,用于根据所述手部关节的坐标信息,识别出所述演奏者的演奏手型。
20.根据权利要求19所述的装置,其特征在于,所述卷积神经网络模型包括第三子卷积神经网络模型和第四子卷积神经网络模型;
所述第四识别子模块,包括:
第八识别单元,用于基于预设的第三子卷积神经网络模型,在所述乐器演奏图像中识别演奏者的手部所占的区域信息;
第九识别单元,用于基于预设的第四子卷积神经网络模型以及所述手部所占的区域信息,识别所述演奏者的手部关节的坐标信息。
21.根据权利要求20所述的装置,其特征在于,所述第八识别单元,包括:
第三确定子单元,用于基于预设的第三子卷积神经网络模型以及在所述乐器演奏图像中的演奏者的手部图像信息,确定所述演奏者的手掌所占的区域信息和与手掌相关的关节点坐标;
第四确定子单元,用于根据所述与手掌相关的关节点坐标,确定所述手部的旋转角度;
第五识别子单元,用于根据预设的手掌和手指比例关系、所述旋转角度以及所述手掌所占的区域信息,识别演奏者的手部所占的区域信息。
22.根据权利要求13所述的装置,其特征在于,所述纠错模块,包括:
确定模块,用于确定用户演奏第一音符时对应的所述演奏手部动作与所述标准手部动作是否一致;所述第一音符的数量为至少一个;
第一展示模块,用于响应于用户演奏所述第一音符时对应的所述演奏手部动作与所述标准手部动作不一致,展示不一致的所述演奏手部动作与对应的所述标准手部动作的对比图,并等待所述用户再次演奏所述第一音符;
等待模块,用于响应于用户所述第一音符对应的所述演奏手部动作与所述标准手部动作一致,等待用户演奏第二音符。
23.根据权利要求13所述的装置,其特征在于,所述纠错模块,包括:
生成模块,用于待用户演奏完预设乐谱后,根据所述预设乐谱中全部音符的所述演奏手部动作与对应的所述标准手部动作的差异,生成测评报告;
第二展示模块,用于展示所述测评报告。
24.根据权利要求13-23任一项所述的装置,其特征在于,所述预设的卷积神经网络模型包括深度可分离卷积层。
25.一种电子设备,其特征在于,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述权利要求1-12中任一项所述的乐器演奏手部动作的纠错方法。
26.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述权利要求1-12中任一项所述的乐器演奏手部动作的纠错方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110084776.6A CN112883804B (zh) | 2021-01-21 | 2021-01-21 | 一种乐器演奏手部动作的纠错方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110084776.6A CN112883804B (zh) | 2021-01-21 | 2021-01-21 | 一种乐器演奏手部动作的纠错方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112883804A CN112883804A (zh) | 2021-06-01 |
CN112883804B true CN112883804B (zh) | 2024-03-15 |
Family
ID=76051660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110084776.6A Active CN112883804B (zh) | 2021-01-21 | 2021-01-21 | 一种乐器演奏手部动作的纠错方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112883804B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723264A (zh) * | 2021-08-25 | 2021-11-30 | 桂林智神信息技术股份有限公司 | 一种用于辅助钢琴教学的智能识别弹奏错误的方法及系统 |
CN113327482A (zh) * | 2021-06-17 | 2021-08-31 | 上海松鼠课堂人工智能科技有限公司 | 基于视频监控的弦乐乐器弹奏教学方法与系统 |
CN113657184B (zh) * | 2021-07-26 | 2023-11-07 | 广东科学技术职业学院 | 一种钢琴弹奏指法的评估方法及装置 |
CN113657185A (zh) * | 2021-07-26 | 2021-11-16 | 广东科学技术职业学院 | 一种钢琴练习智能辅助方法、装置及介质 |
CN114677431A (zh) * | 2022-02-23 | 2022-06-28 | 福建星网视易信息系统有限公司 | 钢琴指法识别方法及计算机可读存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101524279B1 (ko) * | 2014-03-21 | 2015-06-01 | 국민대학교산학협력단 | Rgb-d 카메라를 이용한 피아노 교육 시스템 및 그 방법 |
CA2885712A1 (en) * | 2015-03-20 | 2016-09-20 | claVision Inc. | Methods and systems for visual music transcription |
CN108074440A (zh) * | 2016-11-18 | 2018-05-25 | 北京酷我科技有限公司 | 一种钢琴演奏的纠错方法及系统 |
CN108648520A (zh) * | 2018-03-27 | 2018-10-12 | 小叶子(北京)科技有限公司 | 一种钢琴演奏学习方法及装置 |
CN108985148A (zh) * | 2018-05-31 | 2018-12-11 | 成都通甲优博科技有限责任公司 | 一种手部关键点检测方法及装置 |
CN109446952A (zh) * | 2018-10-16 | 2019-03-08 | 赵笑婷 | 一种钢琴监督方法、装置、计算机设备及存储介质 |
CN109887375A (zh) * | 2019-04-17 | 2019-06-14 | 西安邮电大学 | 基于图像识别处理的钢琴练习纠错方法 |
CN111259863A (zh) * | 2020-03-03 | 2020-06-09 | 森兰信息科技(上海)有限公司 | 弹奏手型检测/展示方法、介质、钢琴、终端及服务端 |
CN111695499A (zh) * | 2020-06-09 | 2020-09-22 | 小叶子(北京)科技有限公司 | 一种琴键识别方法、装置、电子设备及存储介质 |
-
2021
- 2021-01-21 CN CN202110084776.6A patent/CN112883804B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101524279B1 (ko) * | 2014-03-21 | 2015-06-01 | 국민대학교산학협력단 | Rgb-d 카메라를 이용한 피아노 교육 시스템 및 그 방법 |
CA2885712A1 (en) * | 2015-03-20 | 2016-09-20 | claVision Inc. | Methods and systems for visual music transcription |
CN108074440A (zh) * | 2016-11-18 | 2018-05-25 | 北京酷我科技有限公司 | 一种钢琴演奏的纠错方法及系统 |
CN108648520A (zh) * | 2018-03-27 | 2018-10-12 | 小叶子(北京)科技有限公司 | 一种钢琴演奏学习方法及装置 |
CN108985148A (zh) * | 2018-05-31 | 2018-12-11 | 成都通甲优博科技有限责任公司 | 一种手部关键点检测方法及装置 |
CN109446952A (zh) * | 2018-10-16 | 2019-03-08 | 赵笑婷 | 一种钢琴监督方法、装置、计算机设备及存储介质 |
CN109887375A (zh) * | 2019-04-17 | 2019-06-14 | 西安邮电大学 | 基于图像识别处理的钢琴练习纠错方法 |
CN111259863A (zh) * | 2020-03-03 | 2020-06-09 | 森兰信息科技(上海)有限公司 | 弹奏手型检测/展示方法、介质、钢琴、终端及服务端 |
CN111695499A (zh) * | 2020-06-09 | 2020-09-22 | 小叶子(北京)科技有限公司 | 一种琴键识别方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112883804A (zh) | 2021-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112883804B (zh) | 一种乐器演奏手部动作的纠错方法、装置及电子设备 | |
CN110232311B (zh) | 手部图像的分割方法、装置及计算机设备 | |
CN109359538B (zh) | 卷积神经网络的训练方法、手势识别方法、装置及设备 | |
CN110532984B (zh) | 关键点检测方法、手势识别方法、装置及系统 | |
CN110110715A (zh) | 文本检测模型训练方法、文本区域、内容确定方法和装置 | |
CN112818981B (zh) | 一种乐器演奏键位提示方法、装置、电子设备及存储介质 | |
CN108304762B (zh) | 一种人体姿态匹配方法及其设备、存储介质、终端 | |
Rusiñol et al. | Augmented songbook: an augmented reality educational application for raising music awareness | |
WO2022174605A1 (zh) | 一种手势识别方法、手势识别装置及智能设备 | |
US20230027412A1 (en) | Method and apparatus for recognizing subtitle region, device, and storage medium | |
CN111639527A (zh) | 英文手写文本识别方法、装置、电子设备及存储介质 | |
CN113723264A (zh) | 一种用于辅助钢琴教学的智能识别弹奏错误的方法及系统 | |
CN111695499B (zh) | 一种琴键识别方法、装置、电子设备及存储介质 | |
CN111738769A (zh) | 视频处理方法及装置 | |
CN111160308B (zh) | 手势动作识别方法、装置、设备及可读存储介质 | |
CN109376618B (zh) | 图像处理方法、装置及电子设备 | |
CN112132750B (zh) | 一种视频处理方法与装置 | |
CN112835807A (zh) | 界面识别方法、装置、电子设备和存储介质 | |
US11314981B2 (en) | Information processing system, information processing method, and program for displaying assistance information for assisting in creation of a marker | |
KR101582225B1 (ko) | 인터랙티브 증강현실 서비스 시스템 및 방법 | |
CN111507139A (zh) | 图像效果生成方法、装置和电子设备 | |
CN111582281B (zh) | 一种图片显示优化的方法、装置、电子设备和存储介质 | |
CN111711758B (zh) | 多指定位的试题拍摄方法、装置、电子设备和存储介质 | |
CN114511877A (zh) | 一种行为识别方法、装置、存储介质及终端 | |
CN110119202B (zh) | 一种实现场景交互的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240606 Address after: 100024 Room 401, 4th floor, building 1, No.36 courtyard, Chuangyuan Road, Chaoyang District, Beijing Patentee after: WANAKA (BEIJING) TECHNOLOGY Co.,Ltd. Country or region after: China Address before: No.1 Suzhou street, Haidian District, Beijing 100080 857 Patentee before: XIAOYEZI (BEIJING) TECHNOLOGY CO.,LTD. Country or region before: China |