CN117043818A - 图像处理方法、图像处理系统及程序 - Google Patents

图像处理方法、图像处理系统及程序 Download PDF

Info

Publication number
CN117043818A
CN117043818A CN202280022994.XA CN202280022994A CN117043818A CN 117043818 A CN117043818 A CN 117043818A CN 202280022994 A CN202280022994 A CN 202280022994A CN 117043818 A CN117043818 A CN 117043818A
Authority
CN
China
Prior art keywords
image
performance
finger
region
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280022994.XA
Other languages
English (en)
Inventor
前泽阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Publication of CN117043818A publication Critical patent/CN117043818A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G3/00Recording music in notation form, e.g. recording the mechanical operation of a musical instrument
    • G10G3/04Recording music in notation form, e.g. recording the mechanical operation of a musical instrument using electrical means

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

演奏解析系统(100)具有:区域推定部,其对包含乐器的图像和演奏该乐器的利用者的多个手指的图像在内的演奏图像之中的包含乐器的图像的特定区域进行推定;以及区域提取部,其对演奏图像之中的所述特定区域进行提取。

Description

图像处理方法、图像处理系统及程序
技术领域
本发明涉及对利用者的演奏进行解析的技术。
背景技术
以往提出有对例如由拍摄装置拍摄到的图像之中的特定的物体所存在的区域进行推定的技术。例如,在专利文献1中公开了利用深度神经网络对物体进行检测的技术。
专利文献1:日本特表2020-528176号公报
专利文献2:美国专利申请第2021/0248788号说明书
发明内容
但是,如果能够对拍摄到鍵盤乐器等乐器的演奏的演奏图像之中的键盘的区域等特定的区域进行提取,则能够利用于例如利用者的运指的解析等,是便利的。考虑到以上的情况,本发明的一个方式目的在于提高演奏图像的便利性。
为了解决以上的课题,本发明的一个方式涉及的图像处理方法,对包含乐器的图像和演奏该乐器的利用者的多个手指的图像在内的演奏图像之中的包含所述乐器的图像的特定区域进行推定,对所述演奏图像之中的所述特定区域进行提取。
本发明的一个方式涉及的图像处理系统具有:区域推定部,其对包含乐器的图像和演奏该乐器的利用者的多个手指的图像在内的演奏图像之中的包含所述乐器的图像的特定区域进行推定;以及区域提取部,其对所述演奏图像之中的所述特定区域进行提取。
本发明的一个方式涉及的程序使计算机系统作为下述功能部起作用:区域推定部,其对包含乐器的图像和演奏该乐器的利用者的多个手指的图像在内的演奏图像之中的包含所述乐器的图像的特定区域进行推定;以及区域提取部,其对所述演奏图像之中的所述特定区域进行提取。
附图说明
图1是例示出第1实施方式涉及的演奏解析系统的结构的框图。
图2是演奏图像的示意图。
图3是例示出演奏解析系统的功能结构的框图。
图4是解析画面的示意图。
图5是手指位置推定处理的流程图。
图6是左右判定处理的流程图。
图7是图像提取处理的说明图。
图8是图像提取处理的流程图。
图9是对推定模型进行创建的机器学习的说明图。
图10是参照图像的示意图。
图11是矩阵生成处理的流程图。
图12是初始设定处理的流程图。
图13是设定画面的示意图。
图14是演奏解析处理的流程图。
图15是与运指推定的课题相关的说明图。
图16是例示出第2实施方式的演奏解析系统的结构的框图。
图17是第2实施方式的控制数据的示意图。
图18是第2实施方式的演奏解析处理的流程图。
图19是第3实施方式的演奏解析处理的流程图。
图20是第4实施方式的初始设定处理的流程图。
图21是例示出第5实施方式的演奏解析系统的结构的框图。
图22是例示出第6实施方式的图像处理系统的功能结构的框图。
图23是第6实施方式的第1图像处理的流程图。
图24是例示出第7实施方式的图像处理系统的功能结构的框图。
图25是第7实施方式的第2图像处理的流程图。
具体实施方式
1:第1实施方式
图1是例示出第1实施方式涉及的演奏解析系统100的结构的框图。在演奏解析系统100,键盘乐器200以有线或无线的方式进行连接。键盘乐器200是具有排列了多个(N个)键21的键盘22的电子乐器。键盘22的多个键21各自与不同的音高n(n=1~N)对应。利用者(即,演奏者)通过自身的左手及右手依次对键盘乐器200的希望的键21进行操作。键盘乐器200将表示利用者的演奏的演奏数据P供给至演奏解析系统100。演奏数据P是针对利用者依次演奏的多个音符各自而指定该音符的音高n的时间序列数据。例如,演奏数据P是例如遵照MIDI(Musical Instrument Digital Interface)标准的形式的数据。
演奏解析系统100是对由利用者进行的键盘乐器200的演奏进行解析的计算机系统。具体而言,演奏解析系统100对利用者的运指进行解析。运指是在键盘乐器200的演奏中利用者使用左手及右手的各手指的方法(即,运指技巧)。即,利用者利用哪根手指对键盘乐器200的各键21进行操作之类的信息作为利用者的运指进行解析。
演奏解析系统100具有控制装置11、存储装置12、操作装置13、显示装置14和拍摄装置15。演奏解析系统100例如由智能手机或平板终端等可移动型的信息装置、或个人计算机等可移动型或固定型的信息装置实现。此外,演奏解析系统100除了作为单体的装置而实现,还可以由彼此分体地构成的多个装置实现。另外,演奏解析系统100可以搭载于键盘乐器200。
控制装置11由对演奏解析系统100的各要素进行控制的单个或多个处理器构成。例如,控制装置11由CPU(Central Processing Unit)、SPU(Sound Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、或ASIC(Application Specific Integrated Circuit)等1种以上的处理器构成。
存储装置12是对控制装置11执行的程序和控制装置11使用的各种数据进行存储的单个或多个存储器。存储装置12例如由磁记录介质或半导体记录介质等公知的记录介质、或多种记录介质的组合构成。此外,也可以将相对于演奏解析系统100可拆装的可移动型的记录介质、或例如能够经由互联网等通信网而由控制装置11执行写入或读出的记录介质(例如,云存储)作为存储装置12进行利用。
操作装置13是接受来自利用者的指示的输入设备。操作装置13例如是由利用者进行操作的操作件、或对利用者的接触进行检测的触摸面板。此外,可以将与演奏解析系统100分体的操作装置13(例如鼠标或键盘)以有线或无线的方式与演奏解析系统100连接。
显示装置14基于由控制装置11进行的控制对图像进行显示。例如,液晶显示面板或有机EL(Electroluminescence)面板等各种显示面板作为显示装置14进行利用。此外,可以将与演奏解析系统100分体的显示装置14以有线或无线的方式与演奏解析系统100连接。
拍摄装置15是通过被摄物体的拍摄而生成图像数据D1的时间序列的图像输入设备。图像数据D1的时间序列是表示动画的动画数据。例如,拍摄装置15具有拍摄透镜等光学系统、对来自光学系统的入射光进行受光的摄像元件、和生成与摄像元件的受光量相对应的图像数据D1的处理电路。此外,可以将与演奏解析系统100分体的拍摄装置15通过有线或无线的方式与演奏解析系统100连接。
利用者以实现由演奏解析系统100的提供者推荐的拍摄条件的方式,对拍摄装置15相对于键盘乐器200的位置或角度进行调整。具体而言,拍摄装置15设置于键盘乐器200的上方,对键盘乐器200的键盘22和利用者的左手及右手进行拍摄。因此,如图2所例示的那样,表示包含键盘乐器200的键盘22的图像(以下,称为“键盘图像”)g1和利用者的左手及右手的图像(以下,称为“手指图像”)g2在内的演奏图像G1的图像数据D1的时间序列是由拍摄装置15生成的。即,表示由利用者演奏键盘乐器200的动画的动画数据是与该演奏并行地生成的。此外,拍摄装置15的拍摄条件例如是拍摄范围或拍摄方向。拍摄范围是拍摄装置15拍摄的范围(视场角)。拍摄方向是拍摄装置15相对于键盘乐器200的方向。
图3是例示出演奏解析系统100的功能结构的框图。控制装置11通过执行在存储装置12存储的程序而作为演奏解析部30及显示控制部40起作用。演奏解析部30通过演奏数据P及图像数据D1的解析,生成表示利用者的运指的运指数据Q。运指数据Q对键盘乐器200的多个键21各自由利用者的多个手指之中的哪个手指进行了操作进行指定。具体而言,运指数据Q对与利用者操作的键21对应的音高n和利用者在该键21的操作中使用的手指的编号(以下,称为“手指编号”)k进行指定。音高n例如是MIDI标准的音符编号。手指编号k是对利用者的左手及右手的各手指标注的编号。
显示控制部40使各种的图像显示于显示装置14。例如,显示控制部40表示演奏解析部30的解析的结果的图像(以下,称为“解析画面”)61显示于显示装置14。图4是解析画面61的示意图。解析画面61是在设定了横向的时间轴和纵向的音高轴的坐标平面配置有多个音符图像611的图像。音符图像611针对利用者演奏的每个音符而显示。音高轴的方向的音符图像611的位置与该音符图像611表示的音符的音高n相对应地设定。时间轴的方向的音符图像611的位置及全长与该音符图像611表示的音符的发音期间相对应地设定。
在各音符的音符图像611配置与由运指数据Q针对该音符而指定的手指编号k对应的标号(以下,称为“运指标号”)612。运指标号612的字符“L”代表左手,运指标号612的字符“R”代表右手。另外,运指标号612的数字代表各手指。具体而言,运指标号612的数字“1”代表拇指,数字“2”代表食指,数字“3”代表中指,数字“4”代表无名指,数字“5”代表小指。因此,例如运指标号612“R2”代表右手的食指,运指标号612“L4”代表左手的无名指。音符图像611及运指标号612针对右手和左手而由不同的方式(例如色相或灰度)进行显示。显示控制部40利用运指数据Q而使图4的解析画面61显示于显示装置14。
此外,针对解析画面61内的多个音符图像611之中的手指编号k的推定结果的可靠性低的音符,以与通常的音符图像611不同的方式(例如,虚线状的框线)对音符图像611进行显示,并且,代表手指编号k的推定结果无效的特定的标号例如显示“??”。
如图3所例示的那样,演奏解析部30具有手指位置数据生成部31和运指数据生成部32。手指位置数据生成部31通过演奏图像G1的解析而生成手指位置数据F。手指位置数据F是表示利用者的左手的各手指的位置和右手的各手指的位置的数据。如以上所述,在第1实施方式中,利用者的各手指的位置被区分为左手和右手,因此能够对区分出利用者的左手和右手的运指进行推定。另一方面,运指数据生成部32利用演奏数据P和手指位置数据F而生成运指数据Q。手指位置数据F及运指数据Q是针对时间轴上的每个单位期间而生成的。各单位期间是规定长度的期间(时间帧Frame)。
A:手指位置数据生成部31
手指位置数据生成部31具有图像提取部311、矩阵生成部312、手指位置推定部313和射影变换部314。
[手指位置推定部313]
手指位置推定部313通过图像数据D1表示的演奏图像G1的解析而对利用者的左手及右手的各手指的位置c[h,f]进行推定。各手指的位置c[h,f]是设定于演奏图像G1的x-y坐标系的各指尖的位置。位置c[h,f]由演奏图像G1的x-y坐标系的x轴上的坐标x[h,f]和y轴上的坐标y[h,f]的组合(x[h,f],y[h,f])表现。x轴的正方向相当于键盘22的右方向(从低音朝向高音的方向),x轴的负方向相当于键盘22的左方向(从高音朝向低音的方向)。记号h是表示左手及右手的任意者的变量(h=1,2)。具体而言,变量h的数值“1”代表左手,变量h的数值“2”代表右手。变量f是左手及右手各自的各手指的编号(f=1~5)。变量f的数值“1”代表拇指,数值“2”代表食指,数值“3”代表中指,数值“4”代表无名指,数值“5”代表小指。因此,例如,图2所例示的位置c[1,2]是左手(h=1)的食指(f=2)的指尖的位置,位置c[2,4]是右手(h=2)的无名指(f=4)的指尖的位置。
图5是例示出手指位置推定部313对利用者的各手指的位置进行推定的处理(以下,称为“手指位置推定处理”)的具体流程的流程图。手指位置推定处理包含图像解析处理Sa1、左右判定处理Sa2和插补处理Sa3。
图像解析处理Sa1是通过演奏图像G1的解析对利用者的左手及右手的一者(以下,称为“第1手”)的各手指的位置c[h,f]和利用者的左手及右手的另一者(以下,称为“第2手”)的各手指的位置c[h,f]进行推定的处理。具体而言,手指位置推定部313通过图像识别处理对第1手的各手指的位置c[h,1]~c[h,5]和第2手的各手指的位置c[h,1]~c[h,5]进行推定,该图像识别处理是通过图像的解析对利用者的骨格或关节进行推定。对于图像解析处理Sa1例如利用MediaPipe或OpenPose等公知的图像识别处理。此外,在从演奏图像G1未检测出指尖的情况下,x轴上的该指尖的坐标x[h,f]设定为“0”等无效值。
在图像解析处理Sa1中,对利用者的第1手的各手指的位置c[h,1]~c[h,5]和第2手的各手指的位置c[h,1]~c[h,5]进行推定,但无法确认到第1手及第2手各自属于利用者的左手及右手的哪一者为止。另外,在键盘乐器200的演奏中,有时利用者的右腕和左腕相交叉,因此仅根据由图像解析处理Sa1推定出的各位置c[h,f]的坐标x[h,f]对左手或右手进行确定是不适当的。此外,如果通过拍摄装置15对包含利用者的两腕及躯体的部分进行拍摄,则能够基于利用者的两肩及两腕的坐标,根据演奏图像G1对利用者的左手或右手进行推定。但是,存在需要通过拍摄装置15对较广范围进行拍摄的问题、及图像解析处理Sa1的处理负荷增大的问题。
考虑到以上情况,第1实施方式的手指位置推定部313执行对第1手及第2手各自属于利用者的左手及右手的哪一者进行判定的图5的左右判定处理Sa2。即,手指位置推定部313将第1手及第2手各自的手指的位置c[h,f]的变量h确定为代表左手的数值“1”及代表右手的数值“2”的任意者。
在演奏键盘乐器200的状态下,由于左手及右手这两者的甲位于铅锤方向的上方,因此拍摄装置15拍摄的演奏图像G1包含利用者的左手及右手这两者的甲的图像。因此,在演奏图像G1内的左手中,拇指的位置c[h,1]与小指的位置c[h,5]相比位于右方,在演奏图像G1内的右手中,拇指的位置c[h,1]与小指的位置c[h,5]相比位于左方。考虑到以上情况,手指位置推定部313在左右判定处理Sa2中,将第1手及第2手之中的拇指的位置c[h,1]与小指的位置c[h,5]相比位于右方(x轴的正方向)的手判定为左手(h=1)。另一方面,手指位置推定部313将第1手及第2手之中的拇指的位置c[h,1]与小指的位置c[h,5]相比位于左方(x轴的负方向)的手判定为右手。
图6是例示出左右判定处理Sa2的具体流程的流程图。手指位置推定部313针对第1手及第2手各自对判定指标γ[h]进行计算(Sa21)。判定指标γ[h]例如通过以下的数式(1)进行计算。
[数式1]
数式(1)的记号μ[h]是第1手及第2手各自的5根手指的坐标x[h,1]~x[h,5]的平均(例如,单纯平均)。如根据数式(1)所理解的那样,在从拇指至小指为止坐标x[h,f]减小的情况(左手)下,判定指标γ[h]为负数,在从拇指至小指为止坐标x[h,f]增加的情况(右手)下,判定指标γ[h]为正数。因此,手指位置推定部313将第1手及第2手之中的判定指标γ[h]为负数的手判定为左手,将变量h设定为数值“1”(Sa22)。另外,手指位置推定部313将第1手及第2手之中的判定指标γ[h]为正数的手判定为右手,将变量h设定为数值“2”(Sa23)。根据以上说明的左右判定处理Sa2,能够通过利用了拇指的位置和小指的位置之间的关系的简单处理,将利用者的各手指的位置c[h,f]区分为右手和左手。
通过图像解析处理Sa1及左右判定处理Sa2,将利用者的各手指的位置c[h,f]针对每个单位期间进行推定。但是,有时根据存在于演奏图像G1的噪声等各种情况而无法适当地推定出位置c[h,f]。因此,手指位置推定部313在特定的单位期间(以下,称为“欠缺期间”)中位置c[h,f]欠缺的情况下,通过利用了该欠缺期间的前后的单位期间的位置c[h,f]的插补处理Sa3,对欠缺期间的位置c[h,f]进行计算。例如,在时间轴上相连续的3个单位期间之中的、中央的单位期间(欠缺期间)中位置c[h,f]欠缺的情况下,计算出欠缺期间的前一个单位期间的位置c[h,f]和后一个单位期间的位置c[h,f]的平均作为欠缺期间的位置c[h,f]。
[图像提取部311]
如前述那样,演奏图像G1包含键盘图像g1和手指图像g2。图3的图像提取部311如图7所例示的那样,对演奏图像G1之中的特定的区域(以下,称为“特定区域”)B进行提取。特定区域B是演奏图像G1之中的包含键盘图像g1和手指图像g2的区域。手指图像g2相当于利用者的身体的至少一部分的图像。
图8是例示出由图像提取部311从演奏图像G1提取出特定区域B的处理(以下,称为“图像提取处理”)的具体流程的流程图。图像提取处理包含区域推定处理Sb1和区域提取处理Sb2。
区域推定处理Sb1是针对由图像数据D1表示的演奏图像G1而对特定区域B进行推定的处理。具体而言,图像提取部311通过区域推定处理Sb1,根据图像数据D1生成表示特定区域B的图像处理掩码M。图像处理掩码M如图7所例示的那样,是与演奏图像G1相等的尺寸的掩码,由与演奏图像G1的不同的像素对应的多个要素构成。具体而言,图像处理掩码M是如下二进制掩码,即,与演奏图像G1的特定区域B对应的区域内的各要素设定为数值“1”,特定区域B以外的区域内的各要素设定为数值“0”。控制装置11执行区域推定处理Sb1,由此实现对演奏图像G1的特定区域B进行推定的要素(区域推定部)。
如图3所例示的那样,在由图像提取部311进行的图像处理掩码M的生成中利用推定模型51。即,图像提取部311通过将表示演奏图像G1的图像数据D1输入至推定模型51而生成图像处理掩码M。推定模型51是通过机器学习对图像数据D1和图像处理掩码M之间的关系进行了学习的统计模型。推定模型51例如由深度神经网络(DNN:Deep Neural Network)构成。例如,将卷积神经网络(CNN:Convolutional Neural Network)或递归神经网络(RNN:Recurrent Neural Network)等任意的形式的深度神经网络作为推定模型51进行利用。也可以由多种深度神经网络的组合构成推定模型51。另外,可以将长短期存储(LSTM:LongShort-Term Memory)等附加性要素搭载于推定模型51。
图9是对推定模型51进行创建的机器学习的说明图。例如,通过由与演奏解析系统100分体的机器学习系统900进行的机器学习而创建推定模型51,将该推定模型51提供给演奏解析系统100。机器学习系统900是可以经由例如互联网等通信网与演奏解析系统100进行通信的服务器系统。从机器学习系统900经由通信网向演奏解析系统100发送推定模型51。
在推定模型51的机器学习中利用多个学习数据T。多个学习数据T各自由学习用的图像数据Dt和学习用的图像处理掩码Mt的组合构成。图像数据Dt表示包含键盘乐器的键盘图像g1和该键盘乐器的周围的图像在内的已知图像。键盘乐器的机型及拍摄条件(例如,拍摄范围及拍摄方向)针对每个图像数据Dt而不同。即,通过不同的拍摄条件对多种键盘乐器各自进行拍摄,由此事先准备图像数据Dt。此外,可以通过公知的图像合成技术准备图像数据Dt。各学习数据T的图像处理掩码Mt是表示由该学习数据T的图像数据Dt表示的已知图像之中的特定区域B的掩码。具体而言,图像处理掩码Mt之中的与特定区域B对应的区域内的要素设定为数值“1”,特定区域B以外的区域内的要素设定为数值“0”。即,图像处理掩码Mt代表针对图像数据Dt的输入而推定模型51应当输出的正解。
机器学习系统900对误差函数进行计算,该误差函数表示在输入了各学习数据T的图像数据Dt时由初始的或临时的模型(以下,称为“临时模型”)51a输出的图像处理掩码M和该学习数据T的图像处理掩码M之间的误差。而且,机器学习系统900对临时模型51a的多个变量进行更新,以使得误差函数减小。针对多个学习数据T各自而反复进行了以上的处理的时间点的临时模型51a被确定为推定模型51。因此,推定模型51基于在多个学习数据T的图像数据Dt和图像处理掩码Mt之间潜在的关系,输出针对未知的图像数据D1而统计上合理的图像处理掩码M。即,推定模型51是对图像数据Dt和图像处理掩码Mt之间的关系进行了学习的训练好的模型。
如以上所述,在第1实施方式中,通过对完成机器学习的推定模型51输入演奏图像G1的图像数据D1而生成表示特定区域B的图像处理掩码M。因此,能够针对未知的多种演奏图像G1而高精度地对特定区域B进行确定。
图8的区域提取处理Sb2是对由图像数据D1表示的演奏图像G1之中的特定区域B进行提取的处理。具体而言,区域提取处理Sb2是通过将演奏图像G1之中的除了特定区域以外的区域选择性地去除而相对地强调特定区域B的图像处理。第1实施方式的图像提取部311通过将图像处理掩码M应用于图像数据D1(演奏图像G1)而生成图像数据D2。具体而言,图像提取部311针对演奏图像G1的各像素的像素值乘以图像处理掩码M之中的与该像素对应的要素。通过区域提取处理Sb2,如图7所例示的那样,生成表示演奏图像G1之中的去除了特定区域B以外的区域的图像(以下,称为“演奏图像G2”)的图像数据D2。即,由图像数据D2表示的演奏图像G2是提取了演奏图像G1之中的键盘图像g1和手指图像g2的图像。通过由控制装置11执行区域提取处理Sb2而实现对演奏图像G1的特定区域B进行提取的要素(区域提取部)。
[射影变换部314]
由手指位置推定处理推定出的各手指的位置c[h,f]是设定于演奏图像G1的x-y坐标系的坐标。由拍摄装置15设定的键盘乐器200的拍摄条件可以与键盘乐器200的使用环境等各种的情况相对应地不同。例如,设想与图2所例示的理想的拍摄条件相比而拍摄范围过宽的(或过窄的)情况或拍摄方向相对于铅锤方向而倾斜的情况。各位置c[h,f]的坐标x[h,f]及坐标y[h,f]的数值依赖于由拍摄装置15设定的演奏图像G1的拍摄条件。因此,第1实施方式的射影变换部314将与演奏图像G1相关的各手指的位置c[h,f]变换(imageregistration)为实质上不依赖于由拍摄装置15设定的拍摄条件的X-Y坐标系的位置C[h,f]。由手指位置数据生成部31生成的手指位置数据F是表示由射影变换部314变换后的位置C[h,f]的数据。即,手指位置数据F对利用者的左手的各手指的位置C[1,1]~C[1,5]和利用者的右手的各手指的位置C[2,1]~C[2,5]进行指定。
X-Y坐标系如图10所例示的那样,设定为规定的图像(以下,称为“参照图像”)Gref。参照图像Gref是在标准的拍摄条件下对标准的键盘乐器的键盘(以下,称为“参照乐器”)进行了拍摄的图像。此外,参照图像Gref不限定于对实际存在的键盘进行了拍摄的图像。例如可以将通过公知的图像合成技术合成的图像作为参照图像Gref进行利用。表示参照图像Gref的图像数据(以下,称为“参照数据”)Dref和与该参照图像Gref相关的辅助数据A存储于存储装置12。
辅助数据A是对在参照图像Gref内参照乐器的各键21所处的区域(以下,称为“单位区域”)Rn和与该键21对应的音高n的组合进行指定的数据。即,辅助数据A还换称为对参照图像Gref之中的与各音高n对应的单位区域Rn进行定义的数据。
在从x-y坐标系的位置c[h,f]向X-Y坐标系的位置C[h,f]的变换中,如由以下的数式(2)表现的那样利用射影变换,该射影变换利用了变换矩阵W。数式(2)的记号X代表X-Y坐标系的X轴上的坐标,记号Y代表Y轴上的坐标。另外,记号s是用于在x-y坐标系和X-Y坐标系之间对缩尺(比例尺)进行整合的调整值。
[数式2]
[矩阵生成部312]
图3的矩阵生成部312生成由射影变换部314应用于射影变换的数式(2)的变换矩阵W。图11是例示出由矩阵生成部312生成变换矩阵W的处理(以下,称为“矩阵生成处理”)的具体流程的流程图。第1实施方式的矩阵生成处理将由图像提取处理进行处理后的演奏图像G2(图像数据D2)作为处理对象而执行。根据以上的结构,与将还包含除了特定区域B以外的区域在内的演奏图像G1的整体作为处理对象而执行矩阵生成处理的结构相比,能够生成使键盘图像g1与参照图像Gref高精度地近似的适当的变换矩阵W。
矩阵生成处理包含初始设定处理Sc1和矩阵更新处理Sc2。初始设定处理Sc1是对变换矩阵W的初始值即初始矩阵W0进行设定的处理。针对初始设定处理Sc1的详细内容,将后述。
矩阵更新处理Sc2是通过反复更新初始矩阵W0而生成变换矩阵W的处理。即,射影变换部314以使得演奏图像G2的键盘图像g1通过利用了变换矩阵W的射影变换而更接近参照图像Gref的方式反复更新初始矩阵W0,由此生成变换矩阵W。例如,以使得参照图像Gref的特定的地点的X轴上的坐标X/s与键盘图像g1之中的对应于该地点的地点的x轴上的坐标x近似或一致、并且参照图像Gref的特定的地点的Y轴上的坐标Y/s与键盘图像g1之中的对应于该地点的地点的y轴上的坐标y近似或一致的方式,生成变换矩阵W。即,以使得键盘图像g1之中的与特定的音高对应的键21的坐标通过应用了变换矩阵W的射影变换而变换为参照图像Gref之中的与该音高对应的键21的坐标的方式,生成变换矩阵W。通过由控制装置11执行以上所例示的矩阵更新处理Sc2,实现生成变换矩阵W的要素(矩阵生成部312)。
但是,作为矩阵更新处理Sc2,设想以使得例如SIFT(Scale-Invariant FeatureTransform)等图像特征量在参照图像Gref和键盘图像g1之间接近的方式对变换矩阵W进行更新的处理。但是,在键盘图像g1中多个键21同样地排列的图案反复,因此在利用了图像特征量的方式中有可能无法适当地对变换矩阵W进行推定。
考虑到以上情况,第1实施方式的矩阵生成部312在矩阵更新处理Sc2中,反复更新初始矩阵W0,以使得参照图像Gref和键盘图像g1之间的增强相关系数(ECC:EnhancedCorrelation Coefficient)增加(理想情况为最大化)。根据以上的方式,与利用了图像特征量的前述的方式相比,能够生成使得键盘图像g1与参照图像Gref高精度地近似的适当的变换矩阵W。Georgios D.Evangelidis and Emmanouil Z.Psarakis,"Parametric ImageAlignment Using Enhanced Correlation Coefficient Maximization",IEEETRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE,VOL.30,NO.10,October 2008中也公开了利用了增强相关系数的变换矩阵W的生成。此外,如前述那样,对于在键盘图像g1的变换中利用的变换矩阵W的生成,增强相关系数是适当的,但也可以以前述的SIFT等的图像特征量在参照图像Gref和键盘图像g1之间接近的方式生成变换矩阵W。
图3的射影变换部314执行射影变换处理。射影变换处理是利用了通过矩阵生成处理生成的变换矩阵W的演奏图像G1的射影变换。通过射影变换处理,使得演奏图像G1变换为在与参照图像Gref同等的拍摄条件下拍摄出的图像(以下,称为“变换图像”)。例如,变换图像之中的与音高n的键21对应的区域实质上与参照图像Gref的该音高n的单位区域Rn一致。另外,变换图像的x-y坐标系实质上与参照图像Gref的X-Y坐标系一致。在以上说明的射影变换处理中,射影变换部314如由前述的数式(2)表现的那样,将各手指的位置c[h,f]变换为X-Y坐标系的位置C[h,f]。通过由控制装置11执行以上例示的射影变换处理,而实现执行演奏图像G1的射影变换的要素(射影变换部314)。
显示控制部40使显示装置14对由射影变换处理生成的变换图像进行显示。例如,显示控制部40使显示装置14以变换图像和参照图像Gref相互重叠的状态进行显示。如前述那样,变换图像之中的与各音高n的键21对应的区域和参照图像Gref之中的与该音高n对应的单位区域Rn相互重叠。
如以上所述,在第1实施方式中,以使得演奏图像G1的键盘图像g1接近参照图像Gref的方式生成变换矩阵W,针对演奏图像G1而执行利用了变换矩阵W的射影变换处理。因此,能够将利用者演奏的键盘乐器200的演奏图像G1变换为与参照图像Gref的参照乐器的拍摄条件对应的变换图像。
图12是例示出初始设定处理Sc1的具体流程的流程图。如果开始初始设定处理Sc1,则射影变换部314将图13所例示的设定画面62显示于显示装置14(Sc11)。设定画面62包含拍摄装置15拍摄的演奏图像G1和针对利用者的指示622。指示622是选择演奏图像G1内的键盘图像g1之中的与1个以上的特定的音高(以下,称为“目标音高”)n对应的区域(以下,称为“目标区域”)621这一状况的消息。利用者一边视觉确认设定画面62一边对操作装置13进行操作,由此选择演奏图像G1之中的与目标音高n对应的目标区域621。射影变换部314接受利用者对目标区域621的选择(Sc12)。
射影变换部314对由参照数据Dref表示的参照图像Gref之中的辅助数据A针对目标音高n而指定的1个以上的单位区域Rn进行确定(Sc13)。而且,射影变换部314对用于将演奏图像G1的目标区域621射影变换为从参照图像Gref确定出的1个以上的单位区域Rn的矩阵进行计算,作为初始矩阵W0(Sc14)。如根据以上的说明所理解的那样,第1实施方式的初始设定处理Sc1是以通过利用了初始矩阵W0的射影变换使得键盘图像g1之中的由利用者指示的目标区域621接近参照图像Gref之中的与目标音高n对应的单位区域Rn的方式,对初始矩阵W0进行设定的处理。
对于通过矩阵更新处理Sc2生成适当的变换矩阵W,初始矩阵W0的设定是重要的。在对矩阵更新处理Sc2利用增强相关系数的方式中,特别地,存在初始矩阵W0的适当与否容易影响最终的变换矩阵W的适当与否这样的倾向。在第1实施方式中,以使演奏图像G1之中的与来自利用者的指示相对应的目标区域621接近参照图像Gref之中的与目标音高n对应的单位区域Rn的方式,设定初始矩阵W0。因此,能够生成使得键盘图像g1与参照图像Gref高精度地近似的适当的变换矩阵W。另外,在第1实施方式中,演奏图像G1之中的以利用者针对操作装置13的操作所指定的区域作为目标区域621而利用于初始矩阵W0的设定。因此,与例如通过运算处理对演奏图像G1之中的与目标音高n对应的区域进行推定的方式相比,能够降低处理负荷并且生成适当的初始矩阵W0。此外,在以上的说明中,将演奏图像G1作为对象而执行了初始设定处理Sc1,但也可以针对演奏图像G2而执行初始设定处理Sc1。
B:运指数据生成部32
图3的运指数据生成部32如前述那样,利用由键盘乐器200生成的演奏数据P和由手指位置数据生成部31生成的手指位置数据F而生成运指数据Q。运指数据Q的生成是针对每个单位期间而执行的。第1实施方式的运指数据生成部32具有概率计算部321和运指推定部322。此外,在以上的说明中,将利用者的1个手指通过变量h和变量f的组合而表现,但在以下的说明中,将利用者的1个手指由手指编号k(k=1~10)表现。因此,手指位置数据F针对各手指而指定的位置C[h,f]在以下的说明中标记为位置C[k]。
[概率计算部321]
概率计算部321针对每个手指编号k而对通过各手指编号k的手指演奏出由演奏数据P指定的音高n的概率p进行计算。概率p是由手指编号k的手指对音高n的键21进行了操作的准确度的指标(似然度)。概率计算部321与手指编号k的手指的位置C[k]是否存在于音高n的单位区域Rn内相对应地,对概率p进行计算。概率p是针对时间轴上的每个单位期间而进行计算的。具体而言,在演奏数据P对音高n进行指定的情况下,概率计算部321通过以下例示出的数式(3)的运算而对概率p(C[k]|ηk=n)进行计算。
[数式3]
概率p(C[k]|ηk=n)的条件“ηk=n”代表由手指编号k的手指正在演奏音高n这一条件。即,概率p(C[k]|ηk=n)代表在手指编号k的手指正在演奏音高n的状況下针对该手指而观测位置C[k]的概率。
数式(3)的记号I(C[k]∈Rn)是如下指示函数,即,在位置C[k]存在于单位区域Rn内的情况下设定为数值“1”,在位置C[k]存在于单位区域Rn外的情况下设定为数值“0”。记号|Rn|代表单位区域Rn的面积。另外,记号ν(0,σ2E)代表观测噪声,由平均0及方差σ2的正态分布表现。记号E为2行2列的单位矩阵。记号*代表观测噪声ν(0,σ2E)的卷积。
如根据以上的说明所理解的那样,由概率计算部321计算的概率p(C[k]|ηk=n)是在通过手指编号k的手指演奏出由演奏数据P指定的音高n这样的条件下,该手指的位置为由手指位置数据F针对该手指而指定的位置C[k]的准确度。因此,概率p(C[k]|ηk=n)在手指编号k的手指的位置C[k]处于演奏状态的单位区域Rn内的情况成为极大,该位置C[k]越远离单位区域Rn则越减小。
另一方面,在演奏数据P未指定任意的音高n的情况、即利用者未操作N个键21的任意者的情况下,概率计算部321通过以下的数式(4)对各手指的概率p(C[k]|ηk=0)进行计算。
[数式4]
数式(4)的记号|R|代表参照图像Gref的N个单位区域R1~RN的总面积。根据数式(4)所理解的那样,在利用者未操作任意的键21的状态下,概率p(C[k]|ηk=0)针对全部的手指编号k而设定为共通的数值(1/|R|)。
如以上所述,在演奏数据P指定了音高n的期间内,与不同的手指对应的多个概率p(C[k]|ηk=n)是针对时间轴上的每个单位期间而计算的。另一方面,在演奏数据P未指定音高n的期间内的各单位期间中,与不同的手指对应的多个概率p(C[k]|ηk=0)设定为充分小的固定值(1/|R|)。
[运指推定部322]
运指推定部322对利用者的运指进行推定的。具体而言,运指推定部322根据各手指的概率p(C[k]|ηk=n),对演奏出由演奏数据P指定的音高n的手指(手指编号k)进行推定。由运指推定部322进行的手指编号k的推定(运指数据Q的生成)是针对各手指的概率p(C[k]|ηk=n)的每次计算(即,每个单位期间)而执行的。具体而言,运指推定部322对与不同的手指对应的多个概率p(C[k]|ηk=n)之中的最大值对应的手指编号k进行确定。而且,运指推定部322生成对由演奏数据P指定的音高n和根据概率p(C[k]|ηk=n)确定出的手指编号k进行指定的运指数据Q。
此外,在演奏数据P指定了音高n的期间内,多个概率p(C[k]|ηk=n)之中的最大值小于规定的阈值的情况代表推定出运指的结果的可靠性低。因此,运指推定部322在多个概率p(C[k]|ηk=n)的最大值小于阈值的单位期间中,将手指编号k设定为代表推定结果的无效的无效值。针对手指编号k被设定为无效值的音符,显示控制部40如图4所例示的那样,以与通常的音符图像611不同的方式对音符图像611进行显示,对代表手指编号k的推定结果无效的标号“??”进行显示。运指数据生成部32的结构及动作如上述那样。
图14是例示出由演奏解析部30执行的处理(以下,称为“演奏解析处理”)的具体流程的流程图。例如,将针对操作装置13的来自利用者的指示作为契机而开始演奏解析处理。
如果开始演奏解析处理,则控制装置11(图像提取部311)执行图8的图像提取处理(S11)。即,控制装置11通过对演奏图像G1之中的包含键盘图像g1和手指图像g2的特定区域B进行提取而生成演奏图像G2。图像提取处理如前述那样,包含区域推定处理Sb1和区域提取处理Sb2。
如果执行图像提取处理,则控制装置11(矩阵生成部312)执行图11的矩阵生成处理(S12)。即,控制装置11反复更新初始矩阵W0以使得参照图像Gref和键盘图像g1之间的增强相关系数增加,由此生成变换矩阵W。矩阵生成处理如前述那样,包含初始设定处理Sc1和矩阵更新处理Sc2。
如果生成变换矩阵W,则控制装置11针对每个单位期间而反复进行以下例示的处理(S13~S18)。首先,控制装置11(手指位置推定部313)执行图5的手指位置推定处理(S13)。即,控制装置11通过演奏图像G1的解析而对利用者的左手及右手的各手指的位置c[h,f]进行推定。手指位置推定处理如前述那样,包含图像解析处理Sa1、左右判定处理Sa2和插补处理Sa3。
控制装置11(射影变换部314)执行射影变换处理(S14)。即,控制装置11通过利用了变换矩阵W的演奏图像G1的射影变换而生成变换图像。在射影变换处理中,控制装置11将利用者的各手指的位置c[h,f]变换为X-Y坐标系的位置C[h,f],生成表示各手指的位置C[h,f]的手指位置数据F。
如果通过以上的处理而生成手指位置数据F,则控制装置11(概率计算部321)执行概率计算处理(S15)。即,控制装置11对演奏数据P所指定的音高n由各手指编号k的手指演奏出的概率p(C[k]|ηk=n)进行计算。而且,控制装置11(运指推定部322)执行运指推定处理(S16)。即,控制装置11根据各手指的概率p(C[k]|ηk=n)对演奏了音高n的手指的手指编号k进行推定,生成对音高n和手指编号k进行指定的运指数据Q。
如果通过以上的处理而生成运指数据Q,则控制装置11(显示控制部40)与运指数据Q相对应地对解析画面61进行更新(S17)。另外,控制装置11对规定的结束条件是否成立进行判定(S18)。例如在通过针对操作装置13的操作而从利用者指示了演奏解析处理的结束的情况下,控制装置11判定为结束条件成立。在结束条件不成立的情况下(S18:NO),控制装置11针对下一个单位期间而反复进行手指位置推定处理以后的处理(S13~S18)。另一方面,在结束条件成立的情况下(S18:YES),控制装置11将演奏解析处理结束。
如以上说明的那样,在第1实施方式中,利用通过演奏图像G1的解析而生成的手指位置数据F和表示利用者的演奏的演奏数据P,生成运指数据Q。因此,与仅根据演奏数据P对运指进行推定的结构相比能够高精度地对运指进行推定。
另外,在第1实施方式中,利用用于使键盘图像g1接近参照图像Gref的射影变换的变换矩阵W,对通过手指位置推定处理推定出的各手指的位置c[h,f]进行变换。即,对将参照图像Gref作为基准的各手指的位置C[h,f]进行推定。因此,与将各手指的位置c[h,f]不变换为以参照图像Gref为基准的位置的结构相比,能够高精度地对运指进行推定。
在第1实施方式中,提取出演奏图像G1之中的包含键盘图像g1的特定区域B。因此,如前述那样,能够生成可以使键盘图像g1与参照图像Gref高精度地近似的适当的变换矩阵W。另外,能够通过特定区域B的提取而提高演奏图像G1的便利性。在第1实施方式中,特别地,对演奏图像G1之中的包含键盘图像g1和手指图像g2的特定区域B进行提取。因此,能够生成可有效地视觉确认键盘乐器200的键盘22的状况和利用者的手指的状况的演奏图像G2。
2:第2实施方式
对第2实施方式进行说明。此外,在以下所例示的各方式中对于功能与第1实施方式相同的要素,沿用与在第1实施方式的说明中使用的标号相同的标号而适当地省略各自的详细说明。
在第1实施方式中,与手指编号k的手指的位置C[k]是否存在于音高n的单位区域Rn内相对应地对概率p(C[k]|ηk=n)进行计算。如果以在单位区域Rn内仅存在1根手指为前提,则在第1实施方式中也能够高精度地对运指进行推定。但是,设想在键盘乐器200的实际的演奏中在1个单位区域Rn内存在多个手指的位置C[k]的情况。
例如,如图15所例示的那样,在利用者用左手的中指对1个键21进行了操作的状态下,在使该左手的食指向铅锤方向的上方移动的情况下,在演奏图像G1中左手的中指和食指相互重叠。即,左手的中指的位置C[k]和食指的位置C[k]存在于1个单位区域Rn内。另外,在利用者用1根手指对键21进行了操作的状态下使其他手指通过该手指的上方或下方的演奏方法(穿指)中,有时多个手指相互重叠。如以上所述,在多个手指在1个单位区域Rn内相互重叠的情况下,在第1实施方式的方法中有可能无法高精度地对运指进行推定。第2实施方式是用于解决以上的课题的方式。具体而言,在第2实施方式中,在运指的推定中追加多个手指的位置关系和各手指的位置的时间变动(波动)。
图16是例示出第2实施方式的演奏解析系统100的功能结构的框图。第2实施方式的演奏解析系统100是对与第1实施方式相同的要素追加了控制数据生成部323的结构。
控制数据生成部323生成与不同的音高n对应的N个控制数据Z[1]~Z[N]。图17是与任意的1个音高n对应的控制数据Z[n]的示意图。控制数据Z[n]是表示各手指相对于音高n的单位区域Rn的相对位置(以下,称为“相对位置”)C'[k]的特征的向量数据。相对位置C'[k]是将由手指位置数据F表示的位置C[k]变换为相对于单位区域Rn的相对位置的信息。
与1个音高n对应的控制数据Z[n]除了包含该音高n以外,还针对多个手指各自而包含位置平均Za[n,k]、位置方差Zb[n,k]、速度平均Zc[n,k]和速度方差Zd[n,k]。位置平均Za[n,k]是包含当前的单位期间的规定长度的期间(以下,称为“观测期间”)内的相对位置C'[k]的平均。观测期间例如是相当于将当前的单位期间作为末尾而在时间轴上排列于前方的多个单位期间的期间。位置方差Zb[n,k]是观测期间内的相对位置C'[k]的方差。速度平均Zc[n,k]是在观测期间内相对位置C'[k]发生变化的速度(即,变化率)的平均。速度方差Zd[n,k]是在观测期间内相对位置C'[k]发生变化的速度的方差。
如以上所述,控制数据Z[n]针对多个手指各自而包含与相对位置C'[k]相关的信息(Za[n,k],Zb[n,k].Zc[n,k],Zd[n,k])。因此,控制数据Z[n]是反映出利用者的多个手指的位置关系的数据。另外,控制数据Z[n]针对多个手指各自而包含与相对位置C'[k]的变动相关的信息(Zb[n,k],Zd[n,k])。因此,控制数据Z[n]是反映出各手指的位置的时间变动的数据。
在第2实施方式的由概率计算部321进行的概率计算处理中,利用针对不同的手指而事先准备的多个推定模型52[k](52[1]~52[10])。各手指的推定模型52[k]是对控制数据Z[n]和与该手指相关的概率p[k]之间的关系进行了学习的训练好的模型。概率p[k]是由手指编号k的手指演奏出由演奏数据P指定的音高n的准确度的指标(概率)。概率计算部321针对多个手指各自,通过将N个控制数据Z[1]~Z[N]输入至该手指的推定模型52[k]而对概率p[k]进行计算。
与任意的1个手指编号k对应的推定模型52[k]是由以下的数式(5)表现的logit回归模型。
[数式5]
数式(5)的变量βk及变量ωk,n通过由机器学习系统900进行的机器学习而设定。即,通过由机器学习系统900进行的机器学习而创建各推定模型52[k],将各推定模型52[k]提供给演奏解析系统100。例如,各推定模型52[k]的变量βk及变量ωk,n被从机器学习系统900发送至演奏解析系统100。
位于处于按键状态的手指的上方的手指、或在处于按键状态的手指的上方或下方移动的手指与处于按键状态的手指相比存在易于移动的倾向。如果考虑以上的倾向,则推定模型52[k]以使得针对相对位置C'[k]的变化率高的手指而概率p[k]成为小的数值的方式,对控制数据Z[n]和概率p[k]之间的关系进行学习。概率计算部321通过对多个推定模型52[k]各自输入控制数据Z[n]而针对每个单位期间对与不同的手指相关的多个概率p[k]进行计算。
运指推定部322通过应用了多个概率p[k]的运指推定处理对利用者的运指进行推定。具体而言,运指推定部322根据各手指的概率p[k]对演奏出由演奏数据P指定的音高n的手指(手指编号k)进行推定。由运指推定部322进行的手指编号k的推定(运指数据Q的生成)是针对各手指的概率p[k]的每次计算(即,每个单位期间)而执行的。具体而言,运指推定部322对与不同的手指对应的多个概率p[k]之中的最大值对应的手指编号k进行确定。而且,运指推定部322生成运指数据Q,该运指数据Q对由演奏数据P指定的音高n和根据概率p[k]而确定的手指编号k进行指定。
图18是例示出第2实施方式的演奏解析处理的具体流程的流程图。在第2实施方式的演奏解析处理中,对与第1实施方式相同的处理追加控制数据Z[n]的生成(S19)。具体而言,控制装置11(控制数据生成部323)根据由手指位置数据生成部31生成的手指位置数据F(即,各手指的位置C[h,f])而生成与不同的音高n对应的N个控制数据Z[1]~Z[N]。
控制装置11(概率计算部321)通过对各推定模型52[k]输入N个控制数据Z[1]~Z[N]的概率计算处理,对与手指编号k对应的概率p[k]进行计算(S15)。另外,控制装置11(运指推定部322)通过应用了多个概率p[k]的运指推定处理,对利用者的运指进行推定(S16)。运指数据生成部32以外的要素的动作(S11~S14,S17~S18)与第1实施方式相同。
在第2实施方式中,也实现与第1实施方式相同的效果。另外,在第2实施方式中,向推定模型52[k]输入的控制数据Z[k]包含各手指的相对位置C'[k]的平均Za[n,k]及方差Zb[n,k]、和相对位置C'[k]的变化率的平均Zc[n,k]及方差Zd[n,k]。因此,即使在由于例如穿指等而多个手指相互重叠的状态下,也能够高精度地对利用者的运指进行推定。
此外,在以上的说明中,作为推定模型52[k]而例示出logit回归模型,但推定模型52[k]的种类不限定于以上的例示。例如,也可以将多层感知器等统计模型作为推定模型52[k]进行利用。另外,可以将卷积神经网络或递归神经网络等的深度神经网络作为推定模型52[k]进行利用。也可以将多种统计模型的组合作为推定模型52[k]进行利用。以上例示的各种推定模型52[k]可以总括地表现为对控制数据Z[n]和概率p[k]之间的关系进行了学习的训练好的模型。
3:第3实施方式
图19是例示出第3实施方式的演奏解析处理的具体流程的流程图。如果执行图像提取处理及矩阵生成处理,则控制装置11通过参照演奏数据P而对有无利用者对键盘乐器200的演奏进行判定(S21)。具体而言,控制装置11对键盘乐器200的多个键21的任意者是否被操作进行判定。
在键盘乐器200被演奏的情况下(S21:YES),控制装置11与第1实施方式相同地,执行手指位置数据F的生成(S13~S14)、运指数据Q的生成(S15~S16)和解析画面61的更新(S17)。另一方面,在键盘乐器200未被演奏的情况下(S21:NO),控制装置11使处理进入至步骤S18。即,不执行手指位置数据F的生成(S13~14)、运指数据Q的生成(S15~S16)和解析画面61的更新(S17)。
在第3实施方式中也实现与第1实施方式相同的效果。另外,在第3实施方式中,在键盘乐器200未被演奏的情况下,停止手指位置数据F及运指数据Q的生成。因此,与无论有无键盘乐器200的演奏都继续手指位置数据F的生成的结构相比,能够降低运指数据Q的生成所需的处理负荷。此外,第3实施方式对于第2实施方式也适用。
4:第4实施方式
第4实施方式是对前述的各方式的初始设定处理Sc1进行了变更的方式。图20是例示出由第4实施方式的控制装置11(矩阵生成部312)执行的初始设定处理Sc1的具体流程的流程图。
如果开始初始设定处理Sc1,则利用者通过特定的手指(以下,称为“特定手指”)对键盘乐器200的多个键21之中的与希望的音高(以下,称为“特定音高”)n对应的键21进行操作。特定手指是例如通过显示装置14的显示或键盘乐器200的操作说明书等向利用者通知的手指(例如右手的食指)。利用者的演奏的结果、对特定音高n进行指定的演奏数据P从键盘乐器200供给至演奏解析系统100。控制装置11通过从键盘乐器200取得演奏数据P而识别利用者对特定音高n的演奏(Sc15)。控制装置11对参照图像Gref的N个单位区域R1~RN之中的与特定音高n对应的单位区域Rn进行确定(Sc16)。
另一方面,手指位置数据生成部31通过手指位置推定处理而生成手指位置数据F。手指位置数据F包含利用者在特定音高n的演奏中使用的特定手指的位置C[h,f]。控制装置11通过取得手指位置数据F而对特定手指的位置C[h,f]进行确定(Sc17)。
控制装置11利用与特定音高n对应的单位区域Rn和由手指位置数据F表示的特定手指的位置C[h,f],对初始矩阵W0进行设定(Sc18)。即,控制装置11以使得由手指位置数据F表示的特定手指的位置C[h,f]接近参照图像Gref之中的特定音高n的单位区域Rn的方式,对初始矩阵W0进行设定。具体而言,用于将特定手指的位置C[h,f]射影变换于单位区域Rn的中心的矩阵被设定为初始矩阵W0。
在第4实施方式中也实现与第1实施方式相同的效果。另外,在第4实施方式中,如果利用者用特定手指对希望的特定音高n进行演奏,则以使得演奏图像G1的特定手指的位置c[h,f]接近参照图像Gref之中的与特定音高n对应的部分(单位区域Rn)的方式,设定初始矩阵W0。利用者对希望的音高n进行演奏即可,因此与例如需要利用者通过操作装置13的操作而选择目标区域621的第1实施方式相比,减轻初始矩阵W0的设定所需的利用者的作业的负荷。另一方面,根据由利用者对目标区域621进行指定的第1实施方式,不需要利用者的手指的位置C[h,f]的推定,因此与第2实施方式相比,能够降低推定误差的影响而设定适当的初始矩阵W0。此外,第4实施方式对于第2实施方式或第3实施方式也同样适用。
此外,在第4实施方式中设想了由利用者对1个特定音高n进行演奏的情况,但也可以由利用者通过特定手指对多个特定音高n进行演奏。控制装置11针对多个特定音高n各自,以使得演奏该特定音高n时的特定手指的位置C[h,f]和该特定音高n的单位区域Rn相接近的方式,设定初始矩阵W0。
5:第5实施方式
图21是例示出第5实施方式的演奏解析系统100的功能结构的框图。第5实施方式的演奏解析系统100具有拾音装置16。拾音装置16对通过利用者的演奏而从键盘乐器200播放的音响进行拾音,由此生成音响信号V。音响信号V是表示由键盘乐器200播放的音响的波形的时间区域的音频信号。此外,可以将与演奏解析系统100分体的拾音装置16以有线或无线的方式与演奏解析系统100连接。此外,可以将构成音响信号V的样本的时间序列解释为“演奏数据P”。
演奏解析系统100的控制装置11通过执行在存储装置12存储的程序而作为演奏解析部30起作用。演奏解析部30利用从拾音装置16供给的音响信号V和从拍摄装置15供给的图像数据D1而生成运指数据Q。与第1实施方式相同地,运指数据Q对与由利用者操作的键21对应的音高n和利用者操作该键21时使用的手指的手指编号k进行指定。在第1实施方式中,音高n由演奏数据P指定,但第5实施方式的音响信号V不是直接指定音高n的信号。因此,演奏解析部30利用音响信号V及图像数据D1而同时对音高n和手指编号k进行推定。
为了音高n及手指编号k的推定,设想潜在变量wt,n,k。记号t是表示时刻的变量。时间轴上的1个单位期间可以由变量t指示。另外,第5实施方式的手指编号k设定为如包含与不同的手指对应的10个数值(k=1~10)和规定的无效值(k=0)在内的11个数值的任一者。
针对音高n和手指编号k的每个组合而准备潜在变量wt,n,k。潜在变量wt,n,k是用于设定为“0”及“1”的2值的任一者的one-hot(独热)表现的变量。潜在变量wt,n,k的数值“1”代表通过手指编号k的手指对音高n进行演奏,潜在变量wt,n,k的数值“0”代表任意手指都未用于演奏。
另外,设想事后概率Ut,n和概率πt,n,k。事后概率Ut,n是在观测到音响信号V的条件下在时刻t发音出音高n的事后概率。因此,概率(1-Ut,n)相当于在观测到音响信号V的条件下潜在变量wt,n,0为数值“1”的概率(任意音高n都未被演奏的概率)。事后概率Ut,n通过对音响信号V和事后概率Ut,n之间的关系进行了学习的公知的推定模型进行推定。推定模型是自动采谱用的训练好的模型。例如,卷积神经网络或递归神经网络等的深度神经网络作为用于对事后概率Ut,n进行推定的推定模型进行利用。概率πt,n,k是在演奏出音高n的状态下该音高n由手指编号k的手指进行演奏的概率。
观测到音响信号V和概率πt,n,k时的潜在变量wt,n,k的概率p(w|V,π)由以下的数式(6)表现。
[数式6]
数式(6)的右边的第1项代表任意的音高n都未发音的概率,第2项代表在音高n发音的情况下该音高n由手指编号k的手指进行演奏的概率。
另外,在观测到潜在变量wt,n,k时从演奏图像G1观测到位置C[k]的概率p(C[k]|w)由以下的数式(7)表现。
[数式7]
数式(7)的概率p(C[k]|σ2,Rn)是由前述的数式(3)或数式(4)表现的概率。
另外,作为概率πt,n,k的事前分布,设想由以下的数式(8)表现的对称狄利克雷分布(Dir)。
[数式8]
数式(8)的记号α是规定对称狄利克雷分布的形状的变量。
在以上的前提下,通过执行将潜在变量wt,n,k的事后概率p(z|V,π,C[k])最大化的最大事后概率推定(MAP:Maximum A Posteriori),能够同时对音高n的有无和手指编号k进行推定。但是,事后概率p(z|V,π,C[k])的概率分布的推定是困难的,因此在第5实施方式中,研究平均场近似(变分贝叶斯估计)。
具体而言,确定如以下的数式(9)那样因子分解出的分布之中的与事后概率p(z|V,π,C[k])的概率分布最近似的分布。例如,确定与事后概率p(z|V,π,C[k])的KL(Kullback-Leibler)距离成为最小的分布。
[数式9]
具体而言,演奏解析部30反复进行以下的数式(10)及数式(11)的运算。
[数式10]
[数式11]
q(πt,n,k)=Dir(πt,n,k|α+ρt,n,k) (11)
数式(10)的记号c是以使得多个手指编号k范围的概率分布ρt,n,k的合计成为“1”的方式对该概率分布ρt,n,k进行标准化的系数。另外,记号〈〉代表期待值。
具体而言,演奏解析部30针对时间轴上的1个时刻t,对音高n和手指编号k的全部组合反复进行数式(10)及数式(11)的运算。演奏解析部30将以规定的次数反复进行了数式(10)及数式(11)的运算的时间点的数式(10)的运算结果确定为潜在变量wt,n,k的概率分布ρt,n,k。针对时间轴上的每个时刻t而计算概率分布ρt,n,k
但是,在根据针对时间轴上的每个时刻t独立地计算出的概率分布ρt,n,k而针对每个时刻t计算音高n及手指编号k的方式中,有时在利用者对1个音符进行演奏的期间内在前后的时刻t手指编号k发生变化,或者音高n持续的期间过短。因此,第5实施方式的演奏解析部30利用应用了概率分布ρt,n,k的HMM(Hidden Markov Model)而生成音高n和手指编号k的组合(即,运指数据Q)的时间序列。
具体而言,运指推定用的HMM由与音高n的发音(按键)及消音各自对应的潜在状态和与不同的手指编号k对应的多个潜在状态构成。作为状态跳转,仅容许(1)自己跳转、(2)无音→任意的手指编号k、及(3)任意的手指编号k→无音这3种,其他状态跳转涉及的跳转概率设定为“0”。以上的条件是用于使得在1个音符进行发音的期间内手指编号k不变化的限制条件。另外,通过数式(10)及数式(11)的运算而计算出的概率分布ρt,n,k的期待值设定为与HMM的各潜在状态相关的观测概率。演奏解析部30利用以上说明的HMM,通过例如维特比算法等动态计划法对状态序列进行推定。演奏解析部30与推定出状态序列的结果相对应地生成运指数据Q的时间序列。
根据第5实施方式,利用音响信号V和图像数据D1而生成运指数据Q。即,即使在无法取得演奏数据P的状况下也能够生成运指数据Q。另外,在第5实施方式中,利用音响信号V及图像数据D1而同时对音高n和手指编号k进行推定,因此,与独立地对音高n及手指编号k各自进行推定的方式相比,能够减轻处理负荷而高精度地对运指进行推定。此外,第5实施方式对于2实施方式至第4实施方式也适用。
6:第6实施方式
如前述的各方式所例示的那样,射影变换部314根据演奏图像G1而生成变换图像。即,射影变换部314使演奏图像G1的拍摄条件发生变化。第6实施方式是利用了使演奏图像G1的拍摄条件发生变化的以上的功能的图像处理系统700。此外,第1实施方式至第5实施方式的演奏解析系统100如果着眼于由射影变换部314进行的演奏图像G1的处理,则也表现为图像处理系统700。此外,在第6实施方式中,利用者的运指的推定不是必须的。
图22是例示出第6实施方式的图像处理系统700的功能结构的框图。图像处理系统700与第1实施方式的演奏解析系统100相同地,具有控制装置11、存储装置12、操作装置13、显示装置14和拍摄装置15。拍摄装置15与第1实施方式相同地,通过在特定的拍摄条件下对键盘乐器200进行拍摄,而生成表示演奏图像G1的图像数据D1的时间序列。
存储装置12对多个参照数据Dref进行存储。多个参照数据Dref各自表示对标准的键盘乐器的键盘即参照乐器进行了拍摄的参照图像Gref。参照乐器的拍摄条件针对每个参照图像Gref(每个参照数据Dref)而不同。具体而言,例如拍摄范围或拍摄方向之中的1个以上的条件针对每个参照图像Gref而不同。另外,存储装置12针对每个参照数据Dref而存储辅助数据A。
控制装置11通过执行在存储装置12存储的程序而实现矩阵生成部312、射影变换部314和显示控制部40。矩阵生成部312选择性地利用多个参照数据Dref的任意者而生成变换矩阵W。射影变换部314通过利用了变换矩阵W的射影变换,根据演奏图像G1的图像数据D1而生成变换图像G3的图像数据D3。显示控制部40将由图像数据D3表示的变换图像G3显示于显示装置14。
图23是例示出由第6实施方式的控制装置11执行的处理(以下,称为“第1图像处理”)的具体流程的流程图。例如,以针对操作装置13的来自利用者的指示作为契机而开始第1图像处理。
利用者通过对操作装置13进行操作而选择与不同的参照图像Gref对应的多个拍摄条件的任意者。控制装置11(矩阵生成部312)对是否从利用者接受到拍摄条件的选择进行判定(S31)。在接受到拍摄条件的选择的情况下(S31:YES),控制装置11(矩阵生成部312)取得在存储装置12存储的多个参照数据Dref之中的与利用者选择出的拍摄条件对应的参照数据Dref(以下,称为“选择参照数据Dref”)(S32)。利用者对拍摄条件的选择相当于选择与不同的拍摄条件对应的多个参照图像Gref(参照数据Dref)的任意者的动作。
控制装置11(矩阵生成部312)利用选择参照数据Dref而执行与第1实施方式相同的矩阵生成处理(S33)。具体而言,控制装置11通过利用了选择参照数据Dref的初始设定处理Sc1而设定初始矩阵W0。另外,控制装置11通过以使得演奏图像G1的键盘图像g1接近选择参照数据Dref的参照图像Gref的方式反复更新初始矩阵W0的矩阵更新处理Sc2,生成变换矩阵W。另一方面,在未接受到拍摄条件的选择的情况下(S31:NO),不执行参照数据Dref的选择(S32)及矩阵生成处理(S33)。
控制装置11(射影变换部314)通过针对演奏图像G1执行利用了变换矩阵W的射影变换处理,而生成变换图像G3(S34)。射影变换处理与第1实施方式相同。生成表示射影变换处理的结果、变换图像G3的图像数据D3。具体而言,根据演奏图像G1而生成变换图像G3,该变换图像G3与和选择参照数据Dref的参照图像Gref同等的拍摄条件对应。即,变换图像G3是将演奏图像G1的拍摄条件变换为与参照图像Gref同等的拍摄条件的图像。如根据以上的说明所理解的那样,根据第6实施方式,生成与利用者选择出的拍摄条件对应的变换图像G3。
控制装置11(显示控制部40)使通过射影变换处理而生成的变换图像G3显示于显示装置14(S35)。控制装置11对结束条件是否成立进行判定(S36)。在例如通过针对操作装置13的操作而从利用者指示了第1图像处理的结束的情况下,控制装置11判定为结束条件成立。在结束条件不成立的情况下(S36:NO),控制装置11将处理进入至步骤S31。即,执行将拍摄条件的选择的接受(S31:YES)作为条件的变换矩阵W的生成(S32~S33)和变换图像G3的生成及显示(S34~S35)。另一方面,在结束条件成立的情况下(S36:YES),控制装置11将第1图像处理结束。
如以上所述,在第6实施方式中,以使得演奏图像G1的键盘图像g1接近参照图像Gref的方式生成变换矩阵W,针对演奏图像G1执行利用了该变换矩阵W的射影变换处理。因此,能够将由利用者演奏的键盘乐器200的演奏图像G1变换为与参照图像Gref的参照乐器的拍摄条件对应的变换图像G3。
另外,在第6实施方式中,拍摄条件不同的多个参照数据Dref的任意者被选择性地利用于矩阵生成处理。因此,能够根据在特定的拍摄条件下拍摄到的演奏图像G1,生成与多种拍摄条件对应的变换图像G3。在第6实施方式中,特别地将多个参照数据Dref之中的与利用者选择出的拍摄条件对应的参照数据Dref利用于矩阵生成处理,因此能够生成与利用者希望的拍摄条件对应的变换图像G3。如以上所述,通过使演奏图像G1的拍摄条件发生变化,能够生成可利用于各种用途的变换图像G3。例如,通过针对由音乐教学的指导者拍摄了自身的演奏的多个演奏图像G1各自执行第6实施方式的第1图像处理,能够将统一了拍摄条件的多个变换图像G3作为音乐教学的教材而生成。
7:第7实施方式
如前述的各方式所例示的那样,图像提取部311对演奏图像G1之中的包含键盘图像g1和手指图像g2的特定区域B进行提取。第7实施方式是利用了对演奏图像G1的特定区域B进行提取的以上的功能的图像处理系统700。此外,第1实施方式至第5实施方式的演奏解析系统100如果着眼于由图像提取部311进行的演奏图像G1的处理,则也表现为图像处理系统700。此外,在第7实施方式中,利用者的运指的推定不是必须的。
图24是例示出第7实施方式的图像处理系统700的功能结构的框图。图像处理系统700与第1实施方式的演奏解析系统100相同地,具有控制装置11、存储装置12、操作装置13、显示装置14和拍摄装置15。拍摄装置15通过在特定的拍摄条件下对键盘乐器200进行拍摄,生成表示演奏图像G1的图像数据D1的时间序列。演奏图像G1与前述的各方式相同地,包含键盘图像g1和手指图像g2。
控制装置11通过执行在存储装置12存储的程序而作为图像提取部311及显示控制部40起作用。图像提取部311生成表示提取出演奏图像G1之中的一部分的区域的演奏图像G2的图像数据D2。具体而言,图像提取部311与第1实施方式相同地,执行生成图像处理掩码M的区域推定处理Sb1和将图像处理掩码M应用于演奏图像G1的区域提取处理Sb2。显示控制部40使由图像数据D2表示的演奏图像G2显示于显示装置14。
在第1实施方式中例示出单体的推定模型51。在第7实施方式中,区域推定处理Sb1所利用的推定模型51包含第1模型511及第2模型512。第1模型511及第2模型512各自由卷积神经网络或递归神经网络等的深度神经网络构成。
第1模型511是用于生成表示演奏图像G1之中的第1区域的第1掩码的统计模型。第1区域是演奏图像G1之中的包含键盘图像g1的区域。手指图像g2不包含于第1区域。第1掩码例如是如下二进制掩码,即,第1区域内的各要素设定为数值“1”,第1区域以外的区域内的各要素设定为数值“0”。图像提取部311通过将表示演奏图像G1的图像数据D1输入至第1模型511而生成第1掩码。即,第1模型511是通过机器学习对图像数据D1和第1掩码(第1区域)之间的关系进行了学习的训练好的模型。
第2模型512是用于生成表示演奏图像G1之中的第2区域的第2掩码的统计模型。第2区域是演奏图像G1之中的包含手指图像g2的区域。键盘图像g1不包含于第2区域。第2掩码例如是如下二进制掩码,即,第2区域内的各要素设定为数值“1”,第2区域以外的区域内的各要素设定为数值“0”。图像提取部311通过将表示演奏图像G1的图像数据D1输入至第2模型512而生成第2掩码。即,第2模型512是通过机器学习对图像数据D1和第2掩码(第2区域)之间的关系进行了学习的训练好的模型。
图25是例示出第7实施方式的由控制装置11执行的处理(以下,称为“第2图像处理”)的具体流程的流程图。例如以针对操作装置13的来自利用者的指示作为契机而开始第2图像处理。
如果开始第2图像处理,则控制装置11(图像提取部311)执行区域推定处理Sb1(S41~S43)。第7实施方式的区域推定处理Sb1包含第1推定处理(S41)、第2推定处理(S42)和区域合成处理(S43)。
第1推定处理是对演奏图像G1的第1区域进行推定的处理。具体而言,控制装置11通过将表示演奏图像G1的图像数据D1输入至第1模型511而生成表示第1区域的第1掩码(S41)。第2推定处理是对演奏图像G2的第2区域进行推定的处理。具体而言,控制装置11通过将表示演奏图像G1的图像数据D1输入至第2模型512而生成表示第2区域的第2掩码(S42)。
区域合成处理是生成表示包含第1区域和第2区域的特定区域B的图像处理掩码M的处理。具体而言,由图像处理掩码M表示的特定区域B相当于第1区域和第2区域之和。即,控制装置11通过对第1掩码和第2掩码进行合成而生成图像处理掩码M(S43)。如根据以上的说明所理解的那样,图像处理掩码M与第1实施方式相同地,是用于对演奏图像G1之中的包含键盘图像g1和手指图像g2的特定区域B进行提取的二进制掩码。
控制装置11(图像提取部311)利用在区域推定处理Sb1中生成的图像处理掩码M而执行与第1实施方式相同的区域提取处理Sb2(S44)。即,控制装置11通过图像处理掩码M对由图像数据D1表示的演奏图像G1之中的特定区域B进行提取,由此生成表示演奏图像G2的图像数据D2。
控制装置11(显示控制部40)使通过区域提取处理Sb2而生成的演奏图像G2显示于显示装置14(S45)。控制装置11对结束条件是否成立进行判定(S46)。在例如通过针对操作装置13的操作而从利用者指示了第2图像处理的结束的情况下,控制装置11判定为结束条件成立。在结束条件不成立的情况下(S46:NO),控制装置11使处理进入至步骤S41。即,执行区域推定处理Sb1(S41~S43)、区域提取处理Sb2(S44)和演奏图像G2的显示(S45)。另一方面,在结束条件成立的情况下(S46:YES),控制装置11将第2图像处理结束。
在第7实施方式中,与第1实施方式相同地,提取演奏图像G1之中的包含键盘图像g1的特定区域B。因此,能够提高演奏图像G1的便利性。在第7实施方式中,特别地,提取演奏图像G1之中的包含键盘图像g1和手指图像g2的特定区域B。因此,能够生成有效地视觉确认键盘乐器200的键盘22的状况和利用者的手指的状况的演奏图像G2。
另外,根据第7实施方式,演奏图像G1之中的包含键盘图像g1的第1区域由第1模型511进行推定,演奏图像G1之中的包含手指图像g2的第2区域由第2模型512进行推定。因此,与利用将键盘图像g1和手指图像g2这两者集中地提取的单体的推定模型51的结构相比,能够高精度地对包含键盘图像g1和手指图像g2的特定区域B进行提取。另外,第1模型511及第2模型512各自通过独立的机器学习进行创建,因此能够减轻与第1模型511及第2模型512的机器学习相关的处理负荷。
此外,还设想图像提取部311能够对第1模式和第2模式进行切换的结构。第1模式是从演奏图像G1提取键盘图像g1及手指图像g2这两者的动作模式。即,在第1模式中,图像提取部311执行第1推定处理及第2推定处理这两者。因此,与第7实施方式相同地,生成表示特定区域B的图像处理掩码M。即,在第1模式中,从演奏图像G1提取包含键盘图像g1及手指图像g2这两者的特定区域B。
第2模式是从演奏图像G1提取键盘图像g1的动作模式。即,在第2模式中,图像提取部311执行第1推定处理但不执行第2推定处理。即,通过第1推定处理而生成的第1掩码被确定为应用于区域提取处理Sb2的图像处理掩码M。因此,在第2模式中,从演奏图像G1提取键盘图像g1。
如以上所述,根据能够对第1模式和第2模式进行切换的方式,能够简单地对来自演奏图像G1的提取对象进行切换。此外,在以上的说明中,图像提取部311在第2模式下执行了第1推定处理,但还设想在第2模式下,图像提取部311执行第2推定处理但不执行第1推定处理的方式。在以上的方式中,从演奏图像G1提取手指图像g2。如根据以上的例示所理解的那样,第2模式表现为执行第1推定处理及第2推定处理中的一者的动作模式。
8:变形例
以下,例示出对以上例示的各方式附加的具体变形的方式。可以将从以下的例示任意地选择出的2个以上的方式在不相互矛盾的范围适当地合并。
(1)在前述的各方式中,将通过图像提取处理(图8)进行处理后的演奏图像G2作为处理对象而执行了矩阵生成处理,但也可以将由拍摄装置15拍摄的演奏图像G1作为处理对象而执行矩阵生成处理。即,可以省略根据演奏图像G1而生成演奏图像G2的图像提取处理(图像提取部311)。
在前述的各方式中,例示出利用了演奏图像G1的手指位置推定处理,但也可以利用由图像提取处理进行处理后的演奏图像G2而执行手指位置推定处理。即,可以通过演奏图像G2的解析而推定利用者的各手指的位置C[h,f]。另外,在前述的各方式中,将演奏图像G1作为对象而执行了射影变换处理,但也可以将由图像提取处理进行处理后的演奏图像G2作为对象而执行射影变换处理。即,可以通过针对演奏图像G2的射影变换而生成变换图像。
(2)在前述的各方式中,将利用者的各手指的位置c[h,f]通过射影变换处理而变换为X-Y坐标系的位置C[h,f],但也可以生成表示各手指的位置c[h,f]的手指位置数据F。即,将位置c[h,f]变换为位置C[h,f]的射影变换处理(射影变换部314)可以省略。
(3)在第1实施方式至第5实施方式中,例示出在刚开始演奏解析处理之后生成的变换矩阵W在以后的处理中继续利用的方式,但也可以在演奏解析处理执行中的适当的时间点更新变换矩阵W。例如,设想在拍摄装置15相对于键盘乐器200的位置发生了变化的情况下对变换矩阵W进行更新的方式。具体而言,在通过演奏图像G1的解析而检测出拍摄装置15的位置的变化(以下,称为“位置变化”)的情况下,或者在从利用者指示了拍摄装置15的位置变化的情况下,更新变换矩阵W。
具体而言,矩阵生成部312生成表示拍摄装置15的位置变化(偏移)的变换矩阵δ。例如,针对位置变化后的演奏图像G(G1,G2)内的坐标(x,y)而设想由以下的数式(12)表现的关系。
[数式12]
矩阵生成部312以使得根据位置变化后的特定地点的x坐标而由数式(12)计算出的坐标x'/ε与位置变化前的演奏图像G之中的与该地点对应的地点的x坐标近似或一致,并且根据位置变换后的特定的地点的y坐标而由数式(12)计算出的坐标y'/ε与位置变化前的演奏图像G之中的与该地点对应的地点的y坐标近似或一致的方式,生成变换矩阵δ。而且,矩阵生成部312将位置变化前的变换矩阵W和表示位置变化的变换矩阵δ之积Wδ作为初始矩阵W0而生成,通过矩阵更新处理Sc2对该初始矩阵W0进行更新,由此生成变换矩阵W。
在以上的结构中,利用在位置变化前计算出的变换矩阵W和表示位置变化的变换矩阵δ,生成位置变化后的变换矩阵W。因此,能够减轻矩阵生成处理的负荷而生成能够高精度地确定各手指的位置C[h,f]的变换矩阵W。此外,在以上的说明中,设想了第1实施方式至第5实施方式,但在第6实施方式中也同样地,可以在第1图像处理执行中的适当的时间点更新变换矩阵W。
(4)在前述的各方式中,例示出具有键盘22的键盘乐器200,但应用本发明的乐器的种类是任意的。例如,对于弦乐器、管乐器或打击乐器等利用者能够手动地操作的任意乐器,前述的各方式同样适用。乐器的典型例是利用者通过单手或两手的手指进行演奏的种类的乐器。
(5)可以通过与例如智能手机或平板终端等信息装置进行通信的服务器装置而实现演奏解析系统100。例如,由与信息装置连接的键盘乐器200生成的演奏数据P和由在该信息装置搭载或连接的拍摄装置15生成的图像数据D1从信息装置发送至演奏解析系统100。演奏解析系统100通过针对从信息装置接收到的演奏数据P及图像数据D1执行演奏解析处理而生成运指数据Q,将该运指数据Q发送至信息装置。另外,第6实施方式或第7实施方式所例示的图像处理系统700也同样地,可以通过与信息装置进行通信的服务器装置而实现。
(6)第1实施方式至第5实施方式涉及的演奏解析系统100、或第6实施方式至第7实施方式涉及的图像处理系统700的功能如前述那样,通过构成控制装置11的单个或多个处理器、和存储于存储装置12的程序的协同动作而实现。本发明涉及的程序以储存于计算机可读取的记录介质的方式提供而安装于计算机。记录介质例如是非临时性(non-transitory)的记录介质,优选是CD-ROM等光学式记录介质(光盘),还包含半导体记录介质或磁记录介质等公知的任意形式的记录介质。此外,作为非临时性的记录介质,包含除了临时性的输送信号(transitory,propagating signal)以外的任意的记录介质,也可以不将易失性的记录介质除外。在传送装置经由通信网而传送程序的结构中,在该传送装置中对程序进行存储的记录介质12相当于前述的非临时性的记录介质。
9:附录
根据以上例示的方式,例如掌握以下的结构。
本发明的一个的方式(方式1)涉及的图像处理方法,其中,对包含乐器的图像和演奏该乐器的利用者的多个手指的图像在内的演奏图像之中的包含所述乐器的图像的特定区域进行推定,对所述演奏图像之中的所述特定区域进行提取。在以上的方式中,提取包含乐器的图像和利用者的多个手指的图像在内的演奏图像之中的包含乐器的图像的特定区域。因此,能够提高演奏图像的便利性。
在方式1的具体例(方式2)中,所述特定区域是包含所述乐器的图像和所述利用者的身体的至少一部分的图像的区域。在以上的方式中,提取包含乐器的图像和利用者的身体的图像的特定区域。因此,能够生成可有效地视觉确认乐器的状况和利用者的身体的状况的图像。
在方式2的具体例(方式3)中,在所述特定区域的推定中,通过将表示所述演奏图像的图像数据输入至完成机器学习的推定模型而生成表示所述特定区域的图像处理掩码,在所述特定区域的提取中,通过将所述图像处理掩码应用于所述演奏图像而对所述特定区域进行提取。在以上的方式中,通过对完成机器学习的推定模型输入演奏图像的图像数据而生成表示特定区域的图像处理掩码。因此,能够针对未知的多种演奏图像而高精度地对特定区域进行确定。
在方式3的具体例(方式4)中,所述推定模型包含第1模型和第2模型,所述特定区域的推定包含:第1推定处理,通过将表示所述演奏图像的图像数据输入至所述第1模型而对该演奏图像之中的包含所述乐器的图像的第1区域进行推定;第2推定处理,通过将表示所述演奏图像的图像数据输入至所述第2模型而对该演奏图像之中的包含所述多个手指的图像的第2区域进行推定;以及区域合成处理,生成表示包含所述第1区域和所述第2区域的所述特定区域的所述图像处理掩码。在以上的方式中,演奏图像之中的包含乐器的图像的第1区域由第1模型进行推定,演奏图像之中的包含利用者的图像的第2区域与第2模型进行推定。因此,与利用将乐器的图像和利用者的图像这两者一并提取的单体的模型的结构相比,能够高精度地对包含乐器的图像和利用者的图像的特定区域进行提取。另外,第1模型及第2模型各自通过独立的机器学习进行创建,因此能够减轻与第1模型及第2模型的机器学习相关的处理负荷。
在方式4的具体例(方式5)中,能够对第1模式和第2模式进行切换,在该第1模式下,执行所述第1推定处理及所述第2推定处理这两者,在该第2模式下,执行所述第1推定处理及所述第2推定处理中的一者。在以上的方式中,在第1模式下,从演奏图像提取包含乐器的图像和利用者的图像的特定区域。另一方面,在第2模式下,从演奏图像提取包含乐器的乐器和利用者的图像中的一者的特定区域。如以上所述,能够简单地对从演奏图像的提取对象进行切换。
本发明的一个方式(方式6)涉及的图像处理系统具有:区域推定部,其对包含乐器的图像和演奏该乐器的利用者的多个手指的图像在内的演奏图像之中的包含所述乐器的图像的特定区域进行推定;以及区域提取部,其对所述演奏图像之中的所述特定区域进行提取。
本发明的一个方式(方式7)涉及的程序使计算机系统作为下述功能部起作用:区域推定部,其对包含乐器的图像和演奏该乐器的利用者的多个手指的图像在内的演奏图像之中的包含所述乐器的图像的特定区域进行推定;以及区域提取部,其对所述演奏图像之中的所述特定区域进行提取。
此外,本申请基于2021年3月25日申请的日本专利申请(特愿2021-051181),其内容通过参照而引入至本申请中。
标号的说明
100…演奏解析系统
11…控制装置
12…存储装置
13…操作装置
14…显示装置
15…拍摄装置
200…键盘乐器
21…键
22…键盘
30…演奏解析部
31…手指位置数据生成部
311…图像提取部
312…矩阵生成部
313…手指位置推定部
314…射影变换部
32…运指数据生成部
321…概率计算部
322…运指推定部
323…控制数据生成部
40…显示控制部
51…推定模型
51a…临时模型
52[k]…推定模型
700…图像处理系统

Claims (11)

1.一种图像处理方法,其是由计算机系统实现的,
对包含乐器的图像和演奏该乐器的利用者的多个手指的图像在内的演奏图像之中的包含所述乐器的图像的特定区域进行推定,
对所述演奏图像之中的所述特定区域进行提取。
2.根据权利要求1所述的图像处理方法,其中,
所述特定区域是包含所述乐器的图像和所述利用者的身体的至少一部分的图像的区域。
3.根据权利要求2所述的图像处理方法,其中,
在所述特定区域的推定中,通过将表示所述演奏图像的图像数据输入至完成机器学习的推定模型而生成表示所述特定区域的图像处理掩码,
在所述特定区域的提取中,通过将所述图像处理掩码应用于所述演奏图像而对所述特定区域进行提取。
4.根据权利要求3所述的图像处理方法,其中,
所述推定模型包含第1模型和第2模型,
所述特定区域的推定包含:
第1推定处理,通过将表示所述演奏图像的图像数据输入至所述第1模型而对该演奏图像之中的包含所述乐器的图像的第1区域进行推定;
第2推定处理,通过将表示所述演奏图像的图像数据输入至所述第2模型而对该演奏图像之中的包含所述多个手指的图像的第2区域进行推定;以及
区域合成处理,生成表示包含所述第1区域和所述第2区域的所述特定区域的所述图像处理掩码。
5.根据权利要求4所述的图像处理方法,其中,
能够对第1模式和第2模式进行切换,在该第1模式下,执行所述第1推定处理及所述第2推定处理这两者,在该第2模式下,执行所述第1推定处理及所述第2推定处理中的一者。
6.一种图像处理系统,其具有:
区域推定部,其对包含乐器的图像和演奏该乐器的利用者的多个手指的图像在内的演奏图像之中的包含所述乐器的图像的特定区域进行推定;以及
区域提取部,其对所述演奏图像之中的所述特定区域进行提取。
7.根据权利要求6所述的图像处理系统,其中,
所述特定区域是包含所述乐器的图像和所述利用者的身体的至少一部分的图像的区域。
8.根据权利要求7所述的图像处理系统,其中,
所述区域推定部通过将表示所述演奏图像的图像数据输入至完成机器学习的推定模型而生成表示所述特定区域的图像处理掩码,
在所述特定区域的提取中,通过将所述图像处理掩码应用于所述演奏图像而对所述特定区域进行提取。
9.根据权利要求8所述的图像处理系统,其中,
所述推定模型包含第1模型和第2模型、
所述区域推定部包含:
第1推定处理,通过将表示所述演奏图像的图像数据输入至所述第1模型而对该演奏图像之中的包含所述乐器的图像的第1区域进行推定;
第2推定处理,通过将表示所述演奏图像的图像数据输入至所述第2模型而对该演奏图像之中的包含所述多个手指的图像的第2区域进行推定;以及
区域合成处理,生成表示包含所述第1区域和所述第2区域的所述特定区域的所述图像处理掩码。
10.根据权利要求9所述的图像处理系统,其中,
能够对第1模式和第2模式进行切换,在该第1模式下,执行所述第1推定处理及所述第2推定处理这两者,在该第2模式下,执行所述第1推定处理及所述第2推定处理中的一者。
11.一种程序,其使计算机系统作为下述功能部起作用:
区域推定部,其对包含乐器的图像和演奏该乐器的利用者的多个手指的图像在内的演奏图像之中的包含所述乐器的图像的特定区域进行推定;以及
区域提取部,其对所述演奏图像之中的所述特定区域进行提取。
CN202280022994.XA 2021-03-25 2022-03-07 图像处理方法、图像处理系统及程序 Pending CN117043818A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2021-051181 2021-03-25
JP2021051181A JP2022149159A (ja) 2021-03-25 2021-03-25 画像処理方法、画像処理システムおよびプログラム
PCT/JP2022/009830 WO2022202266A1 (ja) 2021-03-25 2022-03-07 画像処理方法、画像処理システムおよびプログラム

Publications (1)

Publication Number Publication Date
CN117043818A true CN117043818A (zh) 2023-11-10

Family

ID=83397016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280022994.XA Pending CN117043818A (zh) 2021-03-25 2022-03-07 图像处理方法、图像处理系统及程序

Country Status (3)

Country Link
JP (1) JP2022149159A (zh)
CN (1) CN117043818A (zh)
WO (1) WO2022202266A1 (zh)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020046500A (ja) * 2018-09-18 2020-03-26 ソニー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Also Published As

Publication number Publication date
WO2022202266A1 (ja) 2022-09-29
JP2022149159A (ja) 2022-10-06

Similar Documents

Publication Publication Date Title
US10629175B2 (en) Smart detecting and feedback system for smart piano
US11557269B2 (en) Information processing method
EP3759707B1 (en) A method and system for musical synthesis using hand-drawn patterns/text on digital and non-digital surfaces
US11967302B2 (en) Information processing device for musical score data
WO2020059245A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
Gillian Gesture recognition for musician computer interaction
JP7432124B2 (ja) 情報処理方法、情報処理装置およびプログラム
US20230230493A1 (en) Information Processing Method, Information Processing System, and Recording Medium
CN117043818A (zh) 图像处理方法、图像处理系统及程序
CN117043847A (zh) 演奏解析方法、演奏解析系统及程序
CN117083635A (zh) 图像处理方法、图像处理系统及程序
CN117121090A (zh) 信息处理方法、信息处理系统及程序
Moryossef et al. At your fingertips: Extracting piano fingering instructions from videos
WO2023032422A1 (ja) 処理方法、プログラムおよび処理装置
US20230230494A1 (en) Information Processing Method and Information Processing System
Moryossef et al. At your fingertips: Automatic piano fingering detection
CN116600863A (zh) 信息处理方法、信息处理系统、信息终端和计算机程序
CN113657185A (zh) 一种钢琴练习智能辅助方法、装置及介质
Jin et al. Audio Matters Too! Enhancing Markerless Motion Capture with Audio Signals for String Performance Capture

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination