JP2022149158A

JP2022149158A - 画像処理方法、画像処理システムおよびプログラム

Info

Publication number: JP2022149158A
Application number: JP2021051180A
Authority: JP
Inventors: 陽前澤; Akira Maezawa
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2022-10-06
Also published as: WO2022202265A1; CN117083635A

Abstract

【課題】利用者が演奏する楽器を特定の撮影条件で撮影した画像を生成する。【解決手段】演奏解析システム１００は、楽器の画像と当該楽器を演奏する利用者の複数の手指の画像とを含む演奏画像における楽器の画像が、参照画像に含まれる参照楽器の画像に近付くように、演奏画像を射影変換する変換行列Ｗを生成する行列生成部３１２と、変換行列Ｗを利用して演奏画像の射影変換を実行する射影変換部３１４とを具備する。【選択図】図３

Description

本開示は、利用者による演奏を解析する技術に関する。

例えば鍵盤楽器等の楽器を演奏する利用者を撮影装置により撮影した画像を解析する各種の技術が従来から提案されている。例えば特許文献１には、利用者による鍵盤楽器の演奏を撮影した画像を解析することで当該演奏に係る楽曲の楽譜を生成する技術が開示されている。

米国特許第９４１８６３７号明細書

しかし、鍵盤楽器の鍵盤に対する撮影装置の撮影条件は、撮影毎に相違する可能性がある。以上の事情を考慮して、本開示のひとつの態様は、利用者が演奏する楽器を特定の撮影条件で撮影した画像を生成することを目的とする。

以上の課題を解決するために、本開示のひとつの態様に係る画像処理方法は、楽器の画像と当該楽器を演奏する利用者の複数の手指の画像とを含む演奏画像における前記楽器の画像が、参照楽器を表す参照画像に近付くように、前記演奏画像の座標を射影変換する変換行列を生成し、前記変換行列を利用して前記演奏画像の射影変換を実行する。

本開示のひとつの態様に係る画像処理システムは、楽器の画像と当該楽器を演奏する利用者の複数の手指の画像とを含む演奏画像における前記楽器の画像が、参照画像に含まれる参照楽器の画像に近付くように、前記演奏画像を射影変換する変換行列を生成する行列生成部と、前記変換行列を利用して前記演奏画像の射影変換を実行する射影変換部とを具備する。

本開示のひとつの態様に係るプログラムは、楽器の画像と当該楽器を演奏する利用者の複数の手指の画像とを含む演奏画像における前記楽器の画像が、参照画像に含まれる参照楽器の画像に近付くように、前記演奏画像を射影変換する変換行列を生成する行列生成部、および、前記変換行列を利用して前記演奏画像の射影変換を実行する射影変換部、としてコンピュータシステムを機能させる。

第１実施形態に係る演奏解析システムの構成を例示するブロック図である。演奏画像の模式図である。演奏解析システムの機能的な構成を例示するブロック図である。解析画面の模式図である。指位置推定処理のフローチャートである。左右判定処理のフローチャートである。画像抽出処理の説明図である。画像抽出処理のフローチャートである。推定モデルを確立する機械学習の説明図である。参照画像の模式図である。行列生成処理のフローチャートである。初期設定処理のフローチャートである。設定画面の模式図である。演奏解析処理のフローチャートである。運指推定の課題に関する説明図である。第２実施形態における演奏解析システムの構成を例示するブロック図である。第２実施形態における制御データの模式図である。第２実施形態における演奏解析処理のフローチャートである。第３実施形態における演奏解析処理のフローチャートである。第４実施形態における初期設定処理のフローチャートである。第５実施形態における演奏解析システムの構成を例示するブロック図である。第６実施形態における画像処理システムの機能的な構成を例示するブロック図である。第６実施形態における第１画像処理のフローチャートである。第７実施形態における画像処理システムの機能的な構成を例示するブロック図である。第７実施形態における第２画像処理のフローチャートである。

１：第１実施形態
図１は、第１実施形態に係る演奏解析システム１００の構成を例示するブロック図である。演奏解析システム１００には、鍵盤楽器２００が有線または無線により接続される。鍵盤楽器２００は、複数（Ｎ個）の鍵２１が配列された鍵盤２２を具備する電子楽器である。鍵盤２２の複数の鍵２１の各々は、相異なる音高ｎ（ｎ＝１～Ｎ）に対応する。利用者（すなわち演奏者）は、自身の左手および右手により鍵盤楽器２００の所望の鍵２１を順次に操作する。鍵盤楽器２００は、利用者による演奏を表す演奏データＰを演奏解析システム１００に供給する。演奏データＰは、利用者が順次に演奏する複数の音符の各々について当該音符の音高ｎを指定する時系列データである。例えば、演奏データＰは、例えばＭＩＤＩ（Musical Instrument Digital Interface）規格に準拠した形式のデータである。

演奏解析システム１００は、利用者による鍵盤楽器２００の演奏を解析するコンピュータシステムである。具体的には、演奏解析システム１００は、利用者の運指を解析する。運指は、鍵盤楽器２００の演奏において利用者が左手および右手の各手指を使用する方法（すなわち指使い）である。すなわち、利用者が鍵盤楽器２００の各鍵２１を何れの手指により操作するかという情報が、利用者の運指として解析される。

演奏解析システム１００は、制御装置１１と記憶装置１２と操作装置１３と表示装置１４と撮影装置１５とを具備する。演奏解析システム１００は、例えばスマートフォンまたはタブレット端末等の可搬型の情報装置、またはパーソナルコンピュータ等の可搬型または据置型の情報装置により実現される。なお、演奏解析システム１００は、単体の装置として実現されるほか、相互に別体で構成された複数の装置でも実現される。また、演奏解析システム１００は、鍵盤楽器２００に搭載されてもよい。

制御装置１１は、演奏解析システム１００の各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置１１は、ＣＰＵ（Central Processing Unit）、ＳＰＵ（Sound Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field Programmable Gate Array）、またはＡＳＩＣ（Application Specific Integrated Circuit）等の１種類以上のプロセッサにより構成される。

記憶装置１２は、制御装置１１が実行するプログラムと、制御装置１１が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置１２は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成される。なお、演奏解析システム１００に対して着脱される可搬型の記録媒体、または例えばインターネット等の通信網を介して制御装置１１が書込または読出を実行可能な記録媒体（例えばクラウドストレージ）を、記憶装置１２として利用してもよい。

操作装置１３は、利用者からの指示を受付ける入力機器である。操作装置１３は、例えば、利用者が操作する操作子、または、利用者による接触を検知するタッチパネルである。なお、演奏解析システム１００とは別体の操作装置１３（例えばマウスまたはキーボード）を、演奏解析システム１００に対して有線または無線により接続してもよい。

表示装置１４は、制御装置１１による制御のもとで画像を表示する。例えば液晶表示パネルまたは有機ＥＬ（Electroluminescence）パネル等の各種の表示パネルが表示装置１４として利用される。なお、演奏解析システム１００とは別体の表示装置１４を、演奏解析システム１００に対して有線または無線により接続してもよい。

撮影装置１５は、被写体の撮影により画像データＤ1の時系列を生成する画像入力機器である。画像データＤ1の時系列は、動画を表す動画データである。例えば、撮影装置１５は、撮影レンズ等の光学系と、光学系からの入射光を受光する撮像素子と、撮像素子による受光量に応じた画像データＤ1を生成する処理回路とを具備する。なお、演奏解析システム１００とは別体の撮影装置１５を演奏解析システム１００に対して有線または無線により接続してもよい。

利用者は、演奏解析システム１００の提供者から推奨された撮影条件が実現されるように、鍵盤楽器２００に対する撮影装置１５の位置または角度を調整する。具体的には、撮影装置１５は、鍵盤楽器２００の上方に設置され、鍵盤楽器２００の鍵盤２２と利用者の左手および右手とを撮影する。したがって、図２に例示される通り、鍵盤楽器２００の鍵盤２２の画像（以下「鍵盤画像」という）ｇ1と利用者の左手および右手の画像（以下「手指画像」という）ｇ2とを含む演奏画像Ｇ1を表す画像データＤ1の時系列が、撮影装置１５により生成される。すなわち、利用者が鍵盤楽器２００を演奏する動画を表す動画データが、当該演奏に並行して生成される。なお、撮影装置１５による撮影条件は、例えば撮影範囲または撮影方向である。撮影範囲は、撮影装置１５が撮影する範囲（画角）である。撮影方向は、鍵盤楽器２００に対する撮影装置１５の方向である。

図３は、演奏解析システム１００の機能的な構成を例示するブロック図である。制御装置１１は、記憶装置１２に記憶されたプログラムを実行することで、演奏解析部３０および表示制御部４０として機能する。演奏解析部３０は、演奏データＰおよび画像データＤ1の解析により、利用者の運指を表す運指データＱを生成する。運指データＱは、鍵盤楽器２００の複数の鍵２１の各々が利用者の複数の手指のうち何れの手指により操作されたかを指定する。具体的には、運指データＱは、利用者が操作した鍵２１に対応する音高ｎと、利用者が当該鍵２１の操作に使用した手指の番号（以下「指番号」という）ｋとを指定する。音高ｎは、例えばＭＩＤＩ規格におけるノート番号である。指番号ｋは、利用者の左手および右手の各手指に付与された番号である。

表示制御部４０は、各種の画像を表示装置１４に表示させる。例えば、表示制御部４０は、演奏解析部３０による解析の結果を表す画像（以下「解析画面」という）６１を表示装置１４に表示させる。図４は、解析画面６１の模式図である。解析画面６１は、横方向の時間軸と縦方向の音高軸とが設定された座標平面に複数の音符画像６１１が配置された画像である。音符画像６１１は利用者が演奏した音符毎に表示される。音高軸の方向における音符画像６１１の位置は、当該音符画像６１１が表す音符の音高ｎに応じて設定される。時間軸の方向における音符画像６１１の位置および全長は、当該音符画像６１１が表す音符の発音期間に応じて設定される。

各音符の音符画像６１１には、運指データＱが当該音符について指定する指番号ｋに対応する符号（以下「運指符号」という）６１２が配置される。運指符号６１２の文字「Ｌ」は左手を意味し、運指符号６１２の文字「Ｒ」は右手を意味する。また、運指符号６１２の数字は各手指を意味する。具体的には、運指符号６１２の数字「１」は親指を意味し、数字「２」は人差指を意味し、数字「３」は中指を意味し、数字「４」は薬指を意味し、数字「５」は小指を意味する。したがって、例えば運指符号６１２「Ｒ2」は右手の人差指を意味し、運指符号６１２「Ｌ4」は左手の薬指を意味する。音符画像６１１および運指符号６１２は、右手と左手とについて相異なる態様（例えば色相または階調）で表示される。表示制御部４０は、運指データＱを利用して図４の解析画面６１を表示装置１４に表示させる。

なお、解析画面６１内の複数の音符画像６１１のうち、指番号ｋの推定結果の信頼性が低い音符については、通常の音符画像６１１とは相違する態様（例えば破線状の枠線）で音符画像６１１が表示され、かつ、指番号ｋの推定結果が無効であることを意味する特定の符号「？？」が表示される。

図３に例示される通り、演奏解析部３０は、指位置データ生成部３１と運指データ生成部３２とを具備する。指位置データ生成部３１は、演奏画像Ｇ1の解析により指位置データＦを生成する。指位置データＦは、利用者の左手の各手指の位置と右手の各手指の位置とを表すデータである。以上の通り、第１実施形態においては、利用者の各手指の位置が左手と右手とに区別されるから、利用者の左手と右手とを区別した運指を推定できる。他方、運指データ生成部３２は、演奏データＰと指位置データＦとを利用して運指データＱを生成する。指位置データＦおよび運指データＱは、時間軸上の単位期間毎に生成される。各単位期間は、所定長の期間（フレーム）である。

Ａ：指位置データ生成部３１
指位置データ生成部３１は、画像抽出部３１１と行列生成部３１２と指位置推定部３１３と射影変換部３１４とを具備する。

［指位置推定部３１３］
指位置推定部３１３は、画像データＤ1が表す演奏画像Ｇ1の解析により利用者の左手および右手の各手指の位置ｃ[h,f]を推定する。各手指の位置ｃ[h,f]は、演奏画像Ｇ1に設定されるｘ-ｙ座標系における各指先の位置である。位置ｃ[h,f]は、演奏画像Ｇ1のｘ-ｙ座標系におけるｘ軸上の座標ｘ[h,f]とｙ軸上の座標ｙ[h,f]との組合せ（ｘ[h,f]，ｙ[h,f]）で表現される。ｘ軸の正方向は、鍵盤２２の右方向（低音から高音に向かう方向）に相当し、ｘ軸の負方向は、鍵盤２２の左方向（高音から低音に向かう方向）に相当する。記号ｈは、左手および右手の何れかを示す変数である（ｈ＝１，２）。具体的には、変数ｈの数値「１」は左手を意味し、変数ｈの数値「２」は右手を意味する。変数ｆは、左手および右手の各々における各手指の番号（ｆ＝１～５）である。変数ｆの数値「１」は親指を意味し、数値「２」は人差指を意味し、数値「３」は中指を意味し、数値「４」は薬指を意味し、数値「５」は小指を意味する。したがって、例えば図２に例示された位置ｃ[1,2]は、左手（ｈ＝１）の人差指（ｆ＝２）の指先の位置であり、位置ｃ[2,4]は、右手（ｈ＝２）の薬指（ｆ＝４）の指先の位置である。

図５は、指位置推定部３１３が利用者の各手指の位置を推定する処理（以下「指位置推定処理」という）の具体的な手順を例示するフローチャートである。指位置推定処理は、画像解析処理Ｓa1と左右判定処理Ｓa2と補間処理Ｓa3とを含む。

画像解析処理Ｓa1は、利用者の左手および右手の一方（以下「第１手」という）における各手指の位置ｃ[h,f]と、利用者の左手および右手の他方（以下「第２手」という）における各手指の位置ｃ[h,f]とを、演奏画像Ｇ1の解析により推定する処理である。具体的には、指位置推定部３１３は、画像の解析により利用者の骨格または関節を推定する画像認識処理により、第１手の各手指の位置ｃ[h,1]～ｃ[h,5]と第２手の各手指の位置ｃ[h,1]～ｃ[h,5]とを推定する。画像解析処理Ｓa1には、例えばMediaPipeまたはOpenPose等の公知の画像認識処理が利用される。なお、演奏画像Ｇ1から指先が検出されない場合、ｘ軸上における当該指先の座標ｘ[h,f]は「０」等の無効値に設定される。

画像解析処理Ｓa1においては、利用者の第１手の各手指の位置ｃ[h,1]～ｃ[h,5]と第２手の各手指の位置ｃ[h,1]～ｃ[h,5]とは推定されるが、第１手および第２手の各々が利用者の左手および右手の何れに該当するのかまでは特定できない。また、鍵盤楽器２００の演奏においては、利用者の右腕と左腕とが交差する場合があるため、画像解析処理Ｓa1により推定された各位置ｃ[h,f]の座標ｘ[h,f]のみから左手／右手を確定することは適切でない。なお、利用者の両腕および胴体を含む部分を撮影装置１５により撮影すれば、利用者の両肩および両腕の座標から、利用者の左手／右手を演奏画像Ｇ1から推定できる。しかし、撮影装置１５により広範囲を撮影する必要があるという問題、および、画像解析処理Ｓa1の処理負荷が増大するという問題がある。

以上の事情を考慮して、第１実施形態の指位置推定部３１３は、第１手および第２手の各々が利用者の左手および右手の何れに該当するのかを判定する図５の左右判定処理Ｓa2を実行する。すなわち、指位置推定部３１３は、第１手および第２手の各々の手指の位置ｃ[h,f]における変数ｈを、左手を意味する数値「１」および右手を意味する数値「２」の何れかに確定する。

鍵盤楽器２００を演奏する状態では、左手および右手の双方の甲が鉛直方向の上方に位置するから、撮影装置１５が撮影する演奏画像Ｇ1は、利用者の左手および右手の双方の甲の画像を含む。したがって、演奏画像Ｇ1内の左手においては、親指の位置ｃ[h,1]が小指の位置ｃ[h,5]よりも右方に位置し、演奏画像Ｇ1内の右手においては、親指の位置ｃ[h,1]が小指の位置ｃ[h,5]よりも左方に位置する。以上の事情を考慮して、指位置推定部３１３は、左右判定処理Ｓa2において、第１手および第２手のうち、親指の位置ｃ[h,1]が小指の位置ｃ[h,5]よりも右方（ｘ軸の正方向）に位置する手を左手（ｈ＝１）と判定する。他方、指位置推定部３１３は、第１手および第２手のうち、親指の位置ｃ[h,1]が小指の位置ｃ[h,5]よりも左方（ｘ軸の負方向）に位置する手を右手と判定する。

図６は、左右判定処理Ｓa2の具体的な手順を例示するフローチャートである。指位置推定部３１３は、第１手および第２手の各々について判定指標γ[h]を算定する（Ｓa21）。判定指標γ[h]は、例えば以下の数式(1)により算定される。

数式(1)の記号μ[h]は、第１手および第２手の各々における５本の手指の座標ｘ[h,1]～ｘ[h,5]の平均値（例えば単純平均）である。数式(1)から理解される通り、親指から小指にかけて座標ｘ[h,f]が減少する場合（左手）には判定指標γ[h]が負数となり、親指から小指にかけて座標ｘ[h,f]が増加する場合（右手）には判定指標γ[h]が正数となる。そこで、指位置推定部３１３は、第１手および第２手のうち判定指標γ[h]が負数である手を左手と判定し、変数ｈを数値「１」に設定する（Ｓa22）。また、指位置推定部３１３は、第１手および第２手のうち判定指標γ[h]が正数である手を右手と判定し、変数ｈを数値「２」に設定する（Ｓa23）。以上に説明した左右判定処理Ｓa2によれば、親指の位置と小指の位置との関係を利用した簡便な処理により、利用者の各手指の位置ｃ[h,f]を右手と左手とに区別できる。

画像解析処理Ｓa1および左右判定処理Ｓa2により、利用者の各手指の位置ｃ[h,f]が、単位期間毎に推定される。しかし、演奏画像Ｇ1に存在するノイズ等の種々の事情により、位置ｃ[h,f]が適正に推定されない場合がある。そこで、指位置推定部３１３は、特定の単位期間（以下「欠落期間」という）において位置ｃ[h,f]が欠落した場合に、当該欠落期間の前後の単位期間における位置ｃ[h,f]を利用した補間処理Ｓa3により、欠落期間における位置ｃ[h,f]を算定する。例えば、時間軸上で連続する３個の単位期間のうち中央の単位期間（欠落期間）において位置ｃ[h,f]が欠落した場合、欠落期間の直前の単位期間における位置ｃ[h,f]と直後の単位期間における位置ｃ[h,f]との平均が、欠落期間における位置ｃ[h,f]として算定される。

［画像抽出部３１１］
前述の通り、演奏画像Ｇ1は、鍵盤画像ｇ1と手指画像ｇ2とを含む。図３の画像抽出部３１１は、図７に例示される通り、演奏画像Ｇ1のうち特定の領域（以下「特定領域」という）Ｂを抽出する。特定領域Ｂは、演奏画像Ｇ1のうち鍵盤画像ｇ1と手指画像ｇ2とを含む領域である。手指画像ｇ2は、利用者の身体の少なくとも一部の画像に相当する。

図８は、画像抽出部３１１が演奏画像Ｇ1から特定領域Ｂを抽出する処理（以下「画像抽出処理」という）の具体的な手順を例示するフローチャートである。画像抽出処理は、領域推定処理Ｓb1と領域抽出処理Ｓb2とを含む。

領域推定処理Ｓb1は、画像データＤ1が表す演奏画像Ｇ1について特定領域Ｂを推定する処理である。具体的には、画像抽出部３１１は、領域推定処理Ｓb1により、特定領域Ｂを表す画像処理マスクＭを画像データＤ1から生成する。画像処理マスクＭは、図７に例示される通り、演奏画像Ｇ1と同等のサイズのマスクであり、演奏画像Ｇ1の相異なる画素に対応する複数の要素で構成される。具体的には、画像処理マスクＭは、演奏画像Ｇ1の特定領域Ｂに対応する領域内の各要素が数値「１」に設定され、特定領域Ｂ以外の領域内の各要素が数値「０」に設定されたバイナリマスクである。制御装置１１が領域推定処理Ｓb1を実行することで、演奏画像Ｇ1の特定領域Ｂを推定する要素（領域推定部）が実現される。

図３に例示される通り、画像抽出部３１１による画像処理マスクＭの生成には推定モデル５１が利用される。すなわち、画像抽出部３１１は、演奏画像Ｇ1を表す画像データＤ1を推定モデル５１に入力することで画像処理マスクＭを生成する。推定モデル５１は、画像データＤ1と画像処理マスクＭとの関係を機械学習により学習した統計モデルである。推定モデル５１は、例えば深層ニューラルネットワーク（ＤＮＮ：Deep Neural Network）で構成される。例えば、畳込ニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）または再帰型ニューラルネットワーク（ＲＮＮ：Recurrent Neural Network）等の任意の形式の深層ニューラルネットワークが推定モデル５１として利用される。複数種の深層ニューラルネットワークの組合せで推定モデル５１が構成されてもよい。また、長短期記憶（ＬＳＴＭ：Long Short-Term Memory）等の付加的な要素が推定モデル５１に搭載されてもよい。

図９は、推定モデル５１を確立する機械学習の説明図である。例えば演奏解析システム１００とは別体の機械学習システム９００による機械学習で推定モデル５１が確立され、当該推定モデル５１が演奏解析システム１００に提供される。機械学習システム９００は、例えばインターネット等の通信網を介して演奏解析システム１００と通信可能なサーバシステムである。機械学習システム９００から通信網を介して演奏解析システム１００に推定モデル５１が送信される。

推定モデル５１の機械学習には複数の学習データＴが利用される。複数の学習データＴの各々は、学習用の画像データＤtと学習用の画像処理マスクＭtとの組合せで構成される。画像データＤtは、鍵盤楽器の鍵盤画像ｇ1と当該鍵盤楽器の周囲の画像とを含む既知画像を表す。鍵盤楽器の機種および撮影条件（例えば撮影範囲および撮影方向）は、画像データＤt毎に相違する。すなわち、複数種の鍵盤楽器の各々を相異なる撮影条件により撮影することで画像データＤtが事前に用意される。なお、公知の画像合成技術により画像データＤtが用意されてもよい。各学習データＴの画像処理マスクＭtは、当該学習データＴの画像データＤtが表す既知画像のうち特定領域Ｂを表すマスクである。具体的には、画像処理マスクＭtのうち特定領域Ｂに対応する領域内の要素は数値「１」に設定され、特定領域Ｂ以外の領域内の要素は数値「０」に設定される。すなわち、画像処理マスクＭtは、画像データＤtの入力に対して推定モデル５１が出力すべき正解を意味する。

機械学習システム９００は、各学習データＴの画像データＤtを入力したときに初期的または暫定的なモデル（以下「暫定モデル」という）５１aが出力する画像処理マスクＭと、当該学習データＴの画像処理マスクＭとの誤差を表す誤差関数を算定する。そして、機械学習システム９００は、誤差関数が低減されるように暫定モデル５１aの複数の変数を更新する。複数の学習データＴの各々について以上の処理が反復された時点の暫定モデル５１aが、推定モデル５１として確定される。したがって、推定モデル５１は、複数の学習データＴにおける画像データＤtと画像処理マスクＭtとの間に潜在する関係のもとで、未知の画像データＤ1に対して統計的に妥当な画像処理マスクＭを出力する。すなわち、推定モデル５１は、画像データＤtと画像処理マスクＭtとの関係を学習した学習済モデルである。

以上の通り、第１実施形態においては、機械学習済の推定モデル５１に演奏画像Ｇ1の画像データＤ1を入力することで、特定領域Ｂを表す画像処理マスクＭが生成される。したがって、未知の多様な演奏画像Ｇ1について特定領域Ｂを高精度に特定できる。

図８の領域抽出処理Ｓb2は、画像データＤ1が表す演奏画像Ｇ1のうち特定領域Ｂを抽出する処理である。具体的には、領域抽出処理Ｓb2は、演奏画像Ｇ1のうち特定領域以外の領域を選択的に除去することで特定領域Ｂを相対的に強調する画像処理である。第１実施形態の画像抽出部３１１は、画像処理マスクＭを画像データＤ1（演奏画像Ｇ1）に適用することで画像データＤ2を生成する。具体的には、画像抽出部３１１は、演奏画像Ｇ1における各画素の画素値に対して、画像処理マスクＭのうち当該画素に対応する要素を乗算する。領域抽出処理Ｓb2により、図７に例示される通り、演奏画像Ｇ1のうち特定領域Ｂ以外の領域が除去された画像（以下「演奏画像Ｇ2」という）を表す画像データＤ2が生成される。すなわち、画像データＤ2が表す演奏画像Ｇ2は、演奏画像Ｇ1のうち鍵盤画像ｇ1と手指画像ｇ2とが抽出された画像である。制御装置１１が領域抽出処理Ｓb2を実行することで、演奏画像Ｇ1の特定領域Ｂを抽出する要素（領域抽出部）が実現される。

［射影変換部３１４］
指位置推定処理により推定された各手指の位置ｃ[h,f]は、演奏画像Ｇ1に設定されたｘ-ｙ座標系における座標である。撮影装置１５による鍵盤楽器２００の撮影条件は、鍵盤楽器２００の使用環境等の各種の事情に応じて相違し得る。例えば、図２に例示した理想的な撮影条件と比較して撮影範囲が広過ぎる（または狭過ぎる）場合または撮影方向が鉛直方向に対して傾斜する場合が想定される。各位置ｃ[h,f]における座標ｘ[h,f]および座標ｙ[h,f]の数値は、撮影装置１５による演奏画像Ｇ1の撮影条件に依存する。そこで、第１実施形態の射影変換部３１４は、演奏画像Ｇ1に関する各手指の位置ｃ[h,f]を、撮影装置１５による撮影条件に実質的に依存しないＸ-Ｙ座標系における位置Ｃ[h,f]に変換（image registration）する。指位置データ生成部３１が生成する指位置データＦは、射影変換部３１４による変換後の位置Ｃ[h,f]を表すデータである。すなわち、指位置データＦは、利用者の左手の各手指の位置Ｃ[1,1]～Ｃ[1,5]と、利用者の右手の各手指の位置Ｃ[2,1]～Ｃ[2,5]とを指定する。

Ｘ-Ｙ座標系は、図１０に例示される通り、所定の画像（以下「参照画像」という）Ｇrefに設定される。参照画像Ｇrefは、標準的な鍵盤楽器の鍵盤（以下「参照楽器」という）を標準的な撮影条件で撮影した画像である。なお、参照画像Ｇrefは、実在の鍵盤を撮影した画像に限定されない。例えば公知の画像合成技術により合成された画像が参照画像Ｇrefとして利用されてもよい。参照画像Ｇrefを表す画像データ（以下「参照データ」という）Ｄrefと、当該参照画像Ｇrefに関する補助データＡとが、記憶装置１２に記憶される。

補助データＡは、参照画像Ｇref内において参照楽器の各鍵２１が存在する領域（以下「単位領域」という）Ｒnと、当該鍵２１に対応する音高ｎとの組合せを指定するデータである。すなわち、補助データＡは、参照画像Ｇrefのうち各音高ｎに対応する単位領域Ｒnを定義するデータとも換言される。

ｘ-ｙ座標系の位置ｃ[h,f]からＸ-Ｙ座標系の位置Ｃ[h,f]への変換には、以下の数式(2)で表現される通り、変換行列Ｗを利用した射影変換が利用される。数式(2)の記号Ｘは、Ｘ-Ｙ座標系におけるＸ軸上の座標を意味し、記号ＹはＹ軸上の座標を意味する。また、記号ｓは、ｘ-ｙ座標系とＸ-Ｙ座標系との間で縮尺（スケール）を整合させるための調整値である。

［行列生成部３１２］
図３の行列生成部３１２は、射影変換部３１４が射影変換に適用する数式(2)の変換行列Ｗを生成する。図１１は、行列生成部３１２が変換行列Ｗを生成する処理（以下「行列生成処理」という）の具体的な手順を例示するフローチャートである。第１実施形態の行列生成処理は、画像抽出処理による処理後の演奏画像Ｇ2（画像データＤ2）を処理対象として実行される。以上の構成によれば、特定領域Ｂ以外の領域も含む演奏画像Ｇ1の全体を処理対象として行列生成処理が実行される構成と比較して、鍵盤画像ｇ1を参照画像Ｇrefに高精度に近似させる適切な変換行列Ｗを生成できる。

行列生成処理は、初期設定処理Ｓc1と行列更新処理Ｓc2とを含む。初期設定処理Ｓc1は、変換行列Ｗの初期値である初期行列Ｗ0を設定する処理である。初期設定処理Ｓc1の詳細については後述する。

行列更新処理Ｓc2は、初期行列Ｗ0を反復的に更新することで変換行列Ｗを生成する処理である。すなわち、射影変換部３１４は、演奏画像Ｇ2の鍵盤画像ｇ1が、変換行列Ｗを利用した射影変換により参照画像Ｇrefに近付くように、初期行列Ｗ0を反復的に更新することで、変換行列Ｗを生成する。例えば、参照画像Ｇrefにおける特定の地点のＸ軸上の座標Ｘ/ｓが、鍵盤画像ｇ1のうち当該地点に対応する地点のｘ軸上の座標ｘに近似または一致し、かつ、参照画像Ｇrefにおける特定の地点のＹ軸上の座標Ｙ/ｓが、鍵盤画像ｇ1のうち当該地点に対応する地点のｙ軸上の座標ｙに近似または一致するように、変換行列Ｗが生成される。すなわち、鍵盤画像ｇ1のうち特定の音高に対応する鍵２１の座標が、変換行列Ｗを適用した射影変換により、参照画像Ｇrefのうち当該音高に対応する鍵２１の座標に変換されるように、変換行列Ｗが生成される。以上に例示した行列更新処理Ｓc2を制御装置１１が実行することで、変換行列Ｗを生成する要素（行列生成部３１２）が実現される。

ところで、行列更新処理Ｓc2としては、例えばＳＩＦＴ（Scale-Invariant Feature Transform）等の画像特徴量が参照画像Ｇrefと鍵盤画像ｇ1との間で近付くように変換行列Ｗを更新する処理が想定される。しかし、鍵盤画像ｇ1においては、複数の鍵２１が同様に配列されたパターンが反復されるから、画像特徴量を利用した形態では変換行列Ｗを適切に推定できない可能性がある。

以上の事情を考慮して、第１実施形態の行列生成部３１２は、行列更新処理Ｓc2において、参照画像Ｇrefと鍵盤画像ｇ1との間の拡張相関係数（ＥＣＣ：Enhanced Correlation Coefficient）が増加（理想的には最大化）するように初期行列Ｗ0を反復的に更新する。以上の形態によれば、画像特徴量を利用した前述の形態と比較して、鍵盤画像ｇ1を参照画像Ｇrefに高精度に近似させ得る適切な変換行列Ｗを生成できる。拡張相関係数を利用した変換行列Ｗの生成については、Georgios D. Evangelidis and Emmanouil Z. Psarakis, "Parametric Image Alignment Using Enhanced Correlation Coefficient Maximization", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 30, NO. 10, October 2008、にも開示されている。なお、前述の通り、鍵盤画像ｇ1の変換に利用される変換行列Ｗの生成には拡張相関係数が好適であるが、前述のＳＩＦＴ等の画像特徴量が参照画像Ｇrefと鍵盤画像ｇ1との間で近付くように変換行列Ｗを生成してもよい。

図３の射影変換部３１４は、射影変換処理を実行する。射影変換処理は、行列生成処理により生成された変換行列Ｗを利用した演奏画像Ｇ1の射影変換である。射影変換処理により、演奏画像Ｇ1は、参照画像Ｇrefと同等の撮影条件のもとで撮影された画像（以下「変換画像」という）に変換される。例えば、変換画像のうち音高ｎの鍵２１に対応する領域は、参照画像Ｇrefにおける当該音高ｎの単位領域Ｒnに実質的に一致する。また、変換画像のｘ-ｙ座標系は、参照画像ＧrefのＸ-Ｙ座標系に実質的に一致する。以上に説明した射影変換処理において、射影変換部３１４は、前述の数式(2)で表現される通り、各手指の位置ｃ[h,f]を、Ｘ-Ｙ座標系の位置Ｃ[h,f]に変換する。以上に例示した射影変換処理を制御装置１１が実行することで、演奏画像Ｇ1の射影変換を実行する要素（射影変換部３１４）が実現される。

表示制御部４０は、射影変換処理により生成された変換画像を表示装置１４に表示させる。例えば、表示制御部４０は、変換画像と参照画像Ｇrefと相互に重複させた状態で表示装置１４に表示させる。前述の通り、変換画像のうち各音高ｎの鍵２１に対応する領域と、参照画像Ｇrefのうち当該音高ｎに対応する単位領域Ｒnとは、相互に重複する。

以上の通り、第１実施形態においては、演奏画像Ｇ1の鍵盤画像ｇ1が参照画像Ｇrefに近付くように変換行列Ｗが生成され、変換行列Ｗを利用した射影変換処理が演奏画像Ｇ1に対して実行される。したがって、利用者が演奏する鍵盤楽器２００の演奏画像Ｇ1を、参照画像Ｇrefにおける参照楽器の撮影条件に対応する変換画像に変換できる。

図１２は、初期設定処理Ｓc1の具体的な手順を例示するフローチャートである。初期設定処理Ｓc1が開始されると、射影変換部３１４は、図１３に例示される設定画面６２を表示装置１４に表示させる（Ｓc11）。設定画面６２は、撮影装置１５が撮影する演奏画像Ｇ1と、利用者に対する指示６２２とを含む。指示６２２は、演奏画像Ｇ1内の鍵盤画像ｇ1のうち１個以上の特定の音高（以下「目標音高」という）ｎに対応する領域（以下「目標領域」という）６２１を選択する旨のメッセージである。利用者は、設定画面６２を視認しながら操作装置１３を操作することで、演奏画像Ｇ1のうち、目標音高ｎに対応する目標領域６２１を選択する。射影変換部３１４は、利用者による目標領域６２１の選択を受付ける（Ｓc12）。

射影変換部３１４は、参照データＤrefが表す参照画像Ｇrefのうち補助データＡが目標音高ｎについて指定する１個以上の単位領域Ｒnを特定する（Ｓc13）。そして、射影変換部３１４は、演奏画像Ｇ1の目標領域６２１を、参照画像Ｇrefから特定された１個以上の単位領域Ｒnに射影変換するための行列を、初期行列Ｗ0として算定する（Ｓc14）。以上の説明から理解される通り、第１実施形態の初期設定処理Ｓc1は、鍵盤画像ｇ1のうち利用者から指示された目標領域６２１が、初期行列Ｗ0を利用した射影変換により、参照画像Ｇrefのうち目標音高ｎに対応する単位領域Ｒnに近付くように、初期行列Ｗ0を設定する処理である。

行列更新処理Ｓc2により適切な変換行列Ｗを生成するには、初期行列Ｗ0の設定が重要である。行列更新処理Ｓc2に拡張相関係数を利用する形態においては特に、初期行列Ｗ0の適否が最終的な変換行列Ｗの適否に影響し易いという傾向がある。第１実施形態においては、演奏画像Ｇ1のうち利用者からの指示に応じた目標領域６２１が、参照画像Ｇrefのうち目標音高ｎに対応する単位領域Ｒnに近付くように、初期行列Ｗ0が設定される。したがって、鍵盤画像ｇ1を参照画像Ｇrefに高精度に近似させ得る適切な変換行列Ｗを生成できる。また、第１実施形態においては、演奏画像Ｇ1のうち利用者が操作装置１３に対する操作で指定した領域が目標領域６２１として初期行列Ｗ0の設定に利用される。したがって、例えば演奏画像Ｇ1のうち目標音高ｎに対応する領域を演算処理により推定する形態と比較して、処理負荷を低減しながら適切な初期行列Ｗ0を生成できる。なお、以上の説明においては演奏画像Ｇ1を対象として初期設定処理Ｓc1を実行したが、演奏画像Ｇ2について初期設定処理Ｓc1が実行されてもよい。

Ｂ：運指データ生成部３２
図３の運指データ生成部３２は、前述の通り、鍵盤楽器２００が生成する演奏データＰと指位置データ生成部３１が生成する指位置データＦとを利用して運指データＱを生成する。運指データＱの生成は、単位期間毎に実行される。第１実施形態の運指データ生成部３２は、確率算定部３２１と運指推定部３２２とを具備する。なお、以上の説明においては、利用者の１個の手指を変数ｈと変数ｆとの組合せで表現したが、以下の説明においては、利用者の１個の手指を指番号ｋ（ｋ＝１～１０）で表現する。したがって、指位置データＦが各手指について指定する位置Ｃ[h,f]は、以下の説明では位置Ｃ[k]と表記される。

［確率算定部３２１］
確率算定部３２１は、演奏データＰにより指定された音高ｎが各指番号ｋの手指により演奏された確率ｐを、指番号ｋ毎に算定する。確率ｐは、指番号ｋの手指が音高ｎの鍵２１を操作した確度の指標（尤度）である。確率算定部３２１は、指番号ｋの手指の位置Ｃ[k]が音高ｎの単位領域Ｒn内に存在するか否かに応じて確率ｐを算定する。確率ｐは、時間軸上の単位期間毎に算定される。具体的には、演奏データＰが音高ｎを指定する場合、確率算定部３２１は、以下に例示する数式(3)の演算により、確率ｐ(C[k]|ηk=n)を算定する。

確率ｐ(C[k]|ηk=n)における条件「ηk＝ｎ」は、指番号ｋの手指が音高ｎを演奏しているという条件を意味する。すなわち、確率ｐ(C[k]|ηk=n)は、指番号ｋの手指が音高ｎを演奏している状況のもとで当該手指について位置Ｃ[k]が観測される確率を意味する。

数式(3)の記号Ｉ(C[k]∈Rn)は、位置Ｃ[k]が単位領域Ｒn内に存在する場合に数値「１」に設定され、位置Ｃ[k]が単位領域Ｒn外に存在する場合に数値「０」に設定される指示関数である。記号|Ｒn|は、単位領域Ｒnの面積を意味する。また、記号ν(0,σ²E)は、観測ノイズを意味し、平均０および分散σ²の正規分布で表現される。記号Ｅは２行２列の単位行列である。記号＊は観測ノイズν(0,σ²E)の畳込を意味する。

以上の説明から理解される通り、確率算定部３２１が算定する確率ｐ(C[k]|ηk=n)は、演奏データＰにより指定される音高ｎが指番号ｋの手指により演奏されるという条件のもとで、当該手指の位置が、指位置データＦが当該手指について指定する位置Ｃ[k]である確度である。したがって、確率ｐ(C[k]|ηk=n)は、指番号ｋの手指の位置Ｃ[k]が演奏状態の単位領域Ｒn内にある場合に極大となり、当該位置Ｃ[k]が単位領域Ｒnから離間するほど減少する。

他方、演奏データＰが何れの音高ｎも指定しない場合、すなわち、利用者がＮ個の鍵２１の何れも操作していない場合、確率算定部３２１は、各手指の確率ｐ(C[k]|ηk=0)を以下の数式(4)により算定する。

以上の通り、演奏データＰが音高ｎを指定する期間内においては、相異なる手指に対応する複数の確率ｐ(C[k]|ηk=n)が、時間軸上の単位期間毎に算定される。他方、演奏データＰが音高ｎを指定しない期間内の各単位期間においては、相異なる手指に対応する複数の確率ｐ(C[k]|ηk=0)が、充分に小さい固定値（１/|Ｒ|）に設定される。

［運指推定部３２２］
運指推定部３２２は、利用者の運指を推定する。具体的には、運指推定部３２２は、各手指の確率ｐ(C[k]|ηk=n)から、演奏データＰにより指定される音高ｎを演奏した手指（指番号ｋ）を推定する。運指推定部３２２による指番号ｋの推定（運指データＱの生成）は、各手指の確率ｐ(C[k]|ηk=n)の算定毎（すなわち単位期間毎）に実行される。具体的には、運指推定部３２２は、相異なる手指に対応する複数の確率ｐ(C[k]|ηk=n)のうち最大値に対応する指番号ｋを特定する。そして、運指推定部３２２は、演奏データＰが指定する音高ｎと、確率ｐ(C[k]|ηk=n)から特定した指番号ｋとを指定する運指データＱを生成する。

なお、演奏データＰが音高ｎを指定する期間内において、複数の確率ｐ(C[k]|ηk=n)のうちの最大値が所定の閾値を下回る場合には、運指を推定した結果の信頼性が低いことを意味する。そこで、運指推定部３２２は、複数の確率ｐ(C[k]|ηk=n)の最大値が閾値を下回る単位期間においては、指番号ｋを、推定結果の無効を意味する無効値に設定する。指番号ｋが無効値に設定された音符について、表示制御部４０は、図４の例示の通り、通常の音符画像６１１とは相違する態様で音符画像６１１を表示し、指番号ｋの推定結果が無効であることを意味する符号「？？」を表示する。運指データ生成部３２の構成および動作は以上の通りである。

図１４は、演奏解析部３０が実行する処理（以下「演奏解析処理」という）の具体的な手順を例示するフローチャートである。例えば操作装置１３に対する利用者からの指示を契機として演奏解析処理が開始される。

演奏解析処理が開始されると、制御装置１１（画像抽出部３１１）は、図８の画像抽出処理を実行する（Ｓ11）。すなわち、制御装置１１は、演奏画像Ｇ1のうち鍵盤画像ｇ1と手指画像ｇ2とを含む特定領域Ｂを抽出することで演奏画像Ｇ2を生成する。画像抽出処理は、前述の通り、領域推定処理Ｓb1と領域抽出処理Ｓb2とを含む。

画像抽出処理を実行すると、制御装置１１（行列生成部３１２）は、図１１の行列生成処理を実行する（Ｓ12）。すなわち、制御装置１１は、参照画像Ｇrefと鍵盤画像ｇ1との間の拡張相関係数が増加するように初期行列Ｗ0を反復的に更新することで、変換行列Ｗを生成する。行列生成処理は、前述の通り、初期設定処理Ｓc1と行列更新処理Ｓc2とを含む。

変換行列Ｗが生成されると、制御装置１１は、以下に例示する処理（Ｓ13～Ｓ18）を単位期間毎に反復する。まず、制御装置１１（指位置推定部３１３）は、図５の指位置推定処理を実行する（Ｓ13）。すなわち、制御装置１１は、演奏画像Ｇ1の解析により利用者の左手および右手の各手指の位置ｃ[h,f]を推定する。指位置推定処理は、前述の通り、画像解析処理Ｓa1と左右判定処理Ｓa2と補間処理Ｓa3とを含む。

制御装置１１（射影変換部３１４）は、射影変換処理を実行する（Ｓ14）。すなわち、制御装置１１は、変換行列Ｗを利用した演奏画像Ｇ1の射影変換により変換画像を生成する。射影変換処理において、制御装置１１は、利用者の各手指の位置ｃ[h,f]を、Ｘ-Ｙ座標系における位置Ｃ[h,f]に変換し、各手指の位置Ｃ[h,f]を表す指位置データＦを生成する。

以上の処理により指位置データＦを生成すると、制御装置１１（確率算定部３２１）は、確率算定処理を実行する（Ｓ15）。すなわち、制御装置１１は、演奏データＰが指定する音高ｎが各指番号ｋの手指により演奏された確率ｐ(C[k]|ηk=n)を算定する。そして、制御装置１１（運指推定部３２２）は、運指推定処理を実行する（Ｓ16）。すなわち、制御装置１１は、音高ｎを演奏した手指の指番号ｋを各手指の確率ｐ(C[k]|ηk=n)から推定し、音高ｎと指番号ｋとを指定する運指データＱを生成する。

以上の処理により運指データＱを生成すると、制御装置１１（表示制御部４０）は、運指データＱに応じて解析画面６１を更新する（Ｓ17）。また、制御装置１１は、所定の終了条件が成立したか否かを判定する（Ｓ18）。例えば操作装置１３に対する操作で利用者から演奏解析処理の終了が指示された場合に、制御装置１１は終了条件が成立したと判定する。終了条件が成立しない場合（Ｓ18：NO）、制御装置１１は、直後の単位期間について、指位置推定処理以降の処理（Ｓ13～Ｓ18）を反復する。他方、終了条件が成立した場合（Ｓ18：YES）、制御装置１１は、演奏解析処理を終了する。

以上に説明した通り、第１実施形態においては、演奏画像Ｇ1の解析により生成される指位置データＦと、利用者による演奏を表す演奏データＰとを利用して、運指データＱが生成される。したがって、演奏データＰのみから運指を推定する構成と比較して運指を高精度に推定できる。

また、第１実施形態においては、鍵盤画像ｇ1を参照画像Ｇrefに近付ける射影変換のための変換行列Ｗを利用して、指位置推定処理により推定された各手指の位置ｃ[h,f]が変換される。すなわち、参照画像Ｇrefを基準とした各手指の位置Ｃ[h,f]が推定される。したがって、各手指の位置ｃ[h,f]を、参照画像Ｇrefを基準とした位置に変換しない構成と比較して、運指を高精度に推定できる。

第１実施形態においては、演奏画像Ｇ1のうち鍵盤画像ｇ1を含む特定領域Ｂが抽出される。したがって、前述の通り、鍵盤画像ｇ1を参照画像Ｇrefに高精度に近似させ得る適切な変換行列Ｗを生成できる。また、特定領域Ｂの抽出により、演奏画像Ｇ1の利便性を向上させることが可能である。第１実施形態においては特に、演奏画像Ｇ1のうち鍵盤画像ｇ1と手指画像ｇ2とを含む特定領域Ｂが抽出される。したがって、鍵盤楽器２００の鍵盤２２の様子と利用者の手指の様子とを効率的に視認可能な演奏画像Ｇ2を生成できる。

２：第２実施形態
第２実施形態を説明する。なお、以下に例示する各形態において機能が第１実施形態と同様である要素については、第１実施形態の説明で使用したのと同様の符号を流用して各々の詳細な説明を適宜に省略する。

第１実施形態においては、指番号ｋの手指の位置Ｃ[k]が音高ｎの単位領域Ｒn内に存在するか否かに応じて確率ｐ(C[k]|ηk=n)が算定される。単位領域Ｒn内に１本の手指のみが存在することを前提とすれば、第１実施形態においても運指を高精度に推定できる。ただし、鍵盤楽器２００の実際の演奏においては、１個の単位領域Ｒn内に複数の手指の位置Ｃ[k]が存在する場合が想定される。

例えば、図１５に例示される通り、利用者が左手の中指で１個の鍵２１を操作した状態で、当該左手の人差指を鉛直方向の上方に移動させた場合、演奏画像Ｇ1においては、左手の中指と人差指とが相互に重複する。すなわち、左手の中指の位置Ｃ[k]と人差指の位置Ｃ[k]とが１個の単位領域Ｒn内に存在する。また、利用者が１本の指で鍵２１を操作した状態で当該手指の上方または下方に他の他指を通過させる演奏方法（指くぐり）においては、複数の手指が相互に重複する場合がある。以上のように複数の手指が１個の単位領域Ｒn内において相互に重複する場合には、第１実施形態の方法では、運指を高精度に推定できない可能性がある。第２実施形態は、以上の課題を解決するための形態である。具体的には、第２実施形態においては、複数の手指の位置関係と各手指の位置の時間的な変動（ばらつき）とが、運指の推定に加味される。

図１６は、第２実施形態における演奏解析システム１００の機能的な構成を例示するブロック図である。第２実施形態の演奏解析システム１００は、第１実施形態と同様の要素に制御データ生成部３２３を追加した構成である。

制御データ生成部３２３は、相異なる音高ｎに対応するＮ個の制御データＺ[1]～Ｚ[N]を生成する。図１７は、任意の１個の音高ｎに対応する制御データＺ[n]の模式図である。制御データＺ[n]は、音高ｎの単位領域Ｒnに対する各手指の相対的な位置（以下「相対位置」という）Ｃ'[k]の特徴を表すベクトルデータである。相対位置Ｃ'[k]は、指位置データＦが表す位置Ｃ[k]を単位領域Ｒnに対する相対的な位置に変換した情報である。

１個の音高ｎに対応する制御データＺ[n]は、当該音高ｎを含むほか、複数の手指の各々について、位置平均Ｚa[n,k]と位置分散Ｚb[n,k]と速度平均Ｚc[n,k]と速度分散Ｚd[n,k]とを含む。位置平均Ｚa[n,k]は、現在の単位期間を含む所定長の期間（以下「観測期間」という）内における相対位置Ｃ'[k]の平均である。観測期間は、例えば、現在の単位期間を末尾として時間軸上で前方に配列する複数の単位期間に相当する期間である。位置分散Ｚb[n,k]は、観測期間内における相対位置Ｃ'[k]の分散である。速度平均Ｚc[n,k]は、観測期間内において相対位置Ｃ'[k]が変化する速度（すなわち変化率）の平均である。速度分散Ｚd[n,k]は、観測期間内において相対位置Ｃ'[k]が変化する速度の分散である。

以上の通り、制御データＺ[n]は、複数の手指の各々について相対位置Ｃ'[k]に関する情報（Ｚa[n,k]，Ｚb[n,k]．Ｚc[n,k]，Ｚd[n,k]）を含む。したがって、制御データＺ[n]は、利用者の複数の手指の位置関係が反映されたデータである。また、制御データＺ[n]は、複数の手指の各々について相対位置Ｃ'[k]の変動に関する情報（Ｚb[n,k]，Ｚd[n,k]）を含む。したがって、制御データＺ[n]は、各手指の位置の時間的な変動が反映されたデータである。

第２実施形態の確率算定部３２１による確率算定処理には、相異なる手指について事前に用意された複数の推定モデル５２[k]（５２[1]～５２[10]）が利用される。各手指の推定モデル５２[k]は、制御データＺ[n]と当該手指に関する確率ｐ[k]との関係を学習した学習済モデルである。確率ｐ[k]は、演奏データＰが指定する音高ｎを指番号ｋの手指が演奏した確度の指標（確率）である。確率算定部３２１は、複数の手指の各々について、Ｎ個の制御データＺ[1]～Ｚ[N]を当該手指の推定モデル５２[k]に入力することで確率ｐ[k]を算定する。

任意の１個の指番号ｋに対応する推定モデル５２[k]は、以下の数式(5)で表現されるロジスティック回帰モデルである。

数式(5)の変数βkおよび変数ωk,nは、機械学習システム９００による機械学習で設定される。すなわち、機械学習システム９００による機械学習で各推定モデル５２[k]が確立され、各推定モデル５２[k]が演奏解析システム１００に提供される。例えば、各推定モデル５２[k]の変数βkおよび変数ωk,nが、機械学習システム９００から演奏解析システム１００に送信される。

押鍵状態にある手指の上方に位置する手指、または、押鍵状態にある手指の上方または下方を移動する手指は、押鍵状態にある手指と比較して移動し易いという傾向がある。以上の傾向を考慮すると、推定モデル５２[k]は、相対位置Ｃ'[k]の変化率が高い手指について確率ｐ[k]が小さい数値となるように、制御データＺ[n]と確率ｐ[k]との関係を学習する。確率算定部３２１は、複数の推定モデル５２[k]の各々に制御データＺ[n]を入力することで、相異なる手指に関する複数の確率ｐ[k]を単位期間毎に算定する。

運指推定部３２２は、複数の確率ｐ[k]を適用した運指推定処理により、利用者の運指を推定する。具体的には、運指推定部３２２は、演奏データＰが指定する音高ｎを演奏した手指（指番号ｋ）を、各手指の確率ｐ[k]から推定する。運指推定部３２２による指番号ｋの推定（運指データＱの生成）は、各手指の確率ｐ[k]の算定毎（すなわち単位期間毎）に実行される。具体的には、運指推定部３２２は、相異なる手指に対応する複数の確率ｐ[k]のうち最大値に対応する指番号ｋを特定する。そして、運指推定部３２２は、演奏データＰが指定する音高ｎと、確率ｐ[k]から特定した指番号ｋとを指定する運指データＱを生成する。

図１８は、第２実施形態における演奏解析処理の具体的な手順を例示するフローチャートである。第２実施形態の演奏解析処理においては、第１実施形態と同様の処理に制御データＺ[n]の生成（Ｓ19）が追加される。具体的には、制御装置１１（制御データ生成部３２３）は、指位置データ生成部３１が生成する指位置データＦ（すなわち各手指の位置Ｃ[h,f]）から、相異なる音高ｎに対応するＮ個の制御データＺ[1]～Ｚ[N]を生成する。

制御装置１１（確率算定部３２１）は、各推定モデル５２[k]にＮ個の制御データＺ[1]～Ｚ[N]を入力する確率算定処理により、指番号ｋに対応する確率ｐ[k]を算定する（Ｓ15）。また、制御装置１１（運指推定部３２２）は、複数の確率ｐ[k]を適用した運指推定処理により、利用者の運指を推定する（Ｓ16）。運指データ生成部３２以外の要素の動作（Ｓ11～Ｓ14，Ｓ17～Ｓ18）は第１実施形態と同様である。

第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態において推定モデル５２[k]に入力される制御データＺ[k]は、各手指の相対位置Ｃ'[k]の平均Ｚa[n,k]および分散Ｚb[n,k]と、相対位置Ｃ'[k]の変化率の平均Ｚc[n,k]および分散Ｚd[n,k]とを含む。したがって、例えば指くぐり等に起因して複数の手指が相互に重複する状態でも、利用者の運指を高精度に推定できる。

なお、以上の説明においては、推定モデル５２[k]としてロジスティック回帰モデルを例示したが、推定モデル５２[k]の種類は以上の例示に限定されない。例えば、多層パーセプトロン等の統計モデルを推定モデル５２[k]として利用してもよい。また、畳込ニューラルネットワークまたは再帰型ニューラルネットワーク等の深層ニューラルネットワークを推定モデル５２[k]として利用してもよい。複数種の統計モデルの組合せを推定モデル５２[k]として利用してもよい。以上に例示した各種の推定モデル５２[k]は、制御データＺ[n]と確率ｐ[k]との関係を学習した学習済モデルとして包括的に表現される。

３：第３実施形態
図１９は、第３実施形態における演奏解析処理の具体的な手順を例示するフローチャートである。画像抽出処理および行列生成処理を実行すると、制御装置１１は、演奏データＰを参照することで、利用者による鍵盤楽器２００の演奏の有無を判定する（Ｓ21）。具体的には、制御装置１１は、鍵盤楽器２００の複数の鍵２１の何れかが操作されているか否かを判定する。

鍵盤楽器２００が演奏されている場合（Ｓ21：YES）、制御装置１１は、第１実施形態と同様に、指位置データＦの生成（Ｓ13～Ｓ14）と運指データＱの生成（Ｓ15～Ｓ16）と解析画面６１の更新（Ｓ17）とを実行する。他方、鍵盤楽器２００が演奏されていない場合（Ｓ21：NO）、制御装置１１は処理をステップＳ18に移行する。すなわち、指位置データＦの生成（Ｓ13～14）と運指データＱの生成（Ｓ15～Ｓ16）と解析画面６１の更新（Ｓ17）とは実行されない。

第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態においては、鍵盤楽器２００が演奏されていない場合には、指位置データＦおよび運指データＱの生成が停止される。したがって、鍵盤楽器２００の演奏の有無に関わらず指位置データＦの生成が継続される構成と比較して、運指データＱの生成に必要な処理負荷を低減できる。なお、第３実施形態は第２実施形態にも適用される。

４：第４実施形態
第４実施形態は、前述の各形態における初期設定処理Ｓc1を変更した形態である。図２０は、第４実施形態の制御装置１１（行列生成部３１２）が実行する初期設定処理Ｓc1の具体的な手順を例示するフローチャートである。

初期設定処理Ｓc1が開始されると、利用者は、鍵盤楽器２００の複数の鍵２１のうち所望の音高（以下「特定音高」という）ｎに対応する鍵２１を、特定の手指（以下「特定手指」という）により操作する。特定手指は、例えば表示装置１４による表示または鍵盤楽器２００の取扱説明書等により利用者に通知された手指（例えば右手の人差指）である。利用者による演奏の結果、特定音高ｎを指定する演奏データＰが鍵盤楽器２００から演奏解析システム１００に供給される。制御装置１１は、鍵盤楽器２００から演奏データＰを取得することで利用者による特定音高ｎの演奏を認識する（Ｓc15）。制御装置１１は、参照画像ＧrefのＮ個の単位領域Ｒ1～ＲNのうち特定音高ｎに対応する単位領域Ｒnを特定する（Ｓc16）。

他方、指位置データ生成部３１は、指位置推定処理により指位置データＦを生成する。指位置データＦは、利用者が特定音高ｎの演奏に使用した特定手指の位置Ｃ[h,f]を含む。制御装置１１は、指位置データＦを取得することで、特定手指の位置Ｃ[h,f]を特定する（Ｓc17）。

制御装置１１は、特定音高ｎに対応する単位領域Ｒnと、指位置データＦが表す特定手指の位置Ｃ[h,f]とを利用して、初期行列Ｗ0を設定する（Ｓc18）。すなわち、制御装置１１は、指位置データＦが表す特定手指の位置Ｃ[h,f]が、参照画像Ｇrefのうち特定音高ｎの単位領域Ｒnに近付くように、初期行列Ｗ0を設定する。具体的には、特定手指の位置Ｃ[h,f]を単位領域Ｒnの中心に射影変換するための行列が、初期行列Ｗ0として設定される。

第４実施形態においても第１実施形態と同様の効果が実現される。また、第４実施形態においては、利用者が所望の特定音高ｎを特定手指で演奏すると、演奏画像Ｇ1における特定手指の位置ｃ[h,f]が、参照画像Ｇrefのうち特定音高ｎに対応する部分（単位領域Ｒn）に近付くように、初期行列Ｗ0が設定される。利用者は所望の音高ｎを演奏すればよいから、例えば利用者が操作装置１３の操作により目標領域６２１を選択する必要がある第１実施形態と比較して、初期行列Ｗ0の設定に必要な利用者の作業の負荷が軽減される。他方、利用者が目標領域６２１を指定する第１実施形態によれば、利用者の手指の位置Ｃ[h,f]の推定が不要であるから、第２実施形態と比較して、推定誤差の影響を低減しながら適切な初期行列Ｗ0を設定できる。なお、第４実施形態は、第２実施形態または第３実施形態にも同様に適用される。

なお、第４実施形態においては利用者が１個の特定音高ｎを演奏する場合を想定したが、複数の特定音高ｎを利用者が特定手指により演奏してもよい。制御装置１１は、複数の特定音高ｎの各々について、当該特定音高ｎの演奏時における特定手指の位置Ｃ[h,f]と、当該特定音高ｎの単位領域Ｒnとが近付くように、初期行列Ｗ0を設定する。

５：第５実施形態
図２１は、第５実施形態における演奏解析システム１００の機能的な構成を例示するブロック図である。第５実施形態の演奏解析システム１００は、収音装置１６を具備する。収音装置１６は、利用者による演奏で鍵盤楽器２００から再生される音響を収音することで音響信号Ｖを生成する。音響信号Ｖは、鍵盤楽器２００が再生する音響の波形を表す時間領域のオーディオ信号である。なお、演奏解析システム１００とは別体の収音装置１６を、演奏解析システム１００に対して有線または無線により接続してもよい。なお、音響信号Ｖを構成するサンプルの時系列を「演奏データＰ」と解釈してもよい。

演奏解析システム１００の制御装置１１は、記憶装置１２に記憶されたプログラムを実行することで演奏解析部３０として機能する。演奏解析部３０は、収音装置１６から供給される音響信号Ｖと撮影装置１５から供給される画像データＤ1とを利用して運指データＱを生成する。運指データＱは、第１実施形態と同様に、利用者が操作した鍵２１に対応する音高ｎと、利用者が当該鍵２１の操作に使用した手指の指番号ｋとを指定する。第１実施形態においては音高ｎが演奏データＰにより指定されるが、第５実施形態の音響信号Ｖは音高ｎを直接的に指定する信号ではない。そこで、演奏解析部３０は、音響信号Ｖおよび画像データＤ1を利用して音高ｎと指番号ｋとを同時に推定する。

音高ｎおよび指番号ｋの推定のために、潜在変数ｗ_t,n,kを想定する。記号ｔは時刻を示す変数である。時間軸上の１個の単位期間が変数ｔにより指示されてもよい。また、第５実施形態における指番号ｋは、相異なる手指に対応する１０個の数値（ｋ＝１～10）と所定の無効値（ｋ＝０）とを含む１１通り数値の何れかに設定される。

音高ｎと指番号ｋとの組合せ毎に潜在変数ｗ_t,n,kが用意される。潜在変数ｗ_t,n,kは、「０」および「１」の２値の何れかに設定されるone-hot表現のための変数である。潜在変数ｗ_t,n,kの数値「１」は、音高ｎが指番号ｋの手指により演奏されていることを意味し、潜在変数ｗ_t,n,kの数値「０」は、何れの手指も演奏に使用されていないことを意味する。

また、事後確率Ｕ_t,nと確率π_t,n,kとを想定する。事後確率Ｕ_t,nは、音響信号Ｖが観測された条件のもとで時刻ｔにおいて音高ｎが発音されている事後確率である。したがって、確率(１－Ｕ_t,n)は、音響信号Ｖが観測された条件のもとで潜在変数ｗ_t,n,0が数値「１」である確率（何れの音高ｎも演奏されていない確率）に相当する。事後確率Ｕ_t,nは、音響信号Ｖと事後確率Ｕ_t,nとの関係を学習した公知の推定モデルにより推定される。推定モデルは、自動採譜用の学習済モデルである。例えば畳込ニューラルネットワークまたは再帰型ニューラルネットワーク等の深層ニューラルネットワークが、事後確率Ｕ_t,nを推定するための推定モデルとして利用される。確率π_t,n,kは、音高ｎが演奏されている状態において当該音高ｎが指番号ｋの手指により演奏されている確率である。

音響信号Ｖと確率π_t,n,kとが観測されたときの潜在変数ｗ_t,n,kの確率ｐ(ｗ|V,π)は、以下の数式(6)で表現される。

数式(6)における右辺の第１項は、何れの音高ｎも発音されていない確率を意味し、第２項は、音高ｎが発音されている場合に当該音高ｎが指番号ｋの手指により演奏されている確率を意味する。

また、潜在変数ｗ_t,n,kが観測されたときに演奏画像Ｇ1から位置Ｃ[k]が観測される確率ｐ(C[k]|w)は、以下の数式(7)で表現される。

数式(7)における確率ｐ(C[k]|σ²,Rn)は、前掲の数式(3)または数式(4)で表現される確率である。

また、確率π_t,n,kの事前分布としては、以下の数式(8)で表現される対称ディリクレ分布(Dir)を想定する。

数式(8)の記号αは、対称ディリクレ分布の形状を規定する変数である。

以上の前提において、潜在変数ｗ_t,n,kの事後確率ｐ(z|V,π,C[k])を最大化する最大事後確率推定（ＭＡＰ：Maximum A Posteriori）を実行することで、音高ｎの有無と指番号ｋとを同時に推定できる。しかし、事後確率ｐ(z|V,π,C[k])の確率分布の推定は困難であるため、第５実施形態においては平均場近似（変分ベイズ推定）を検討する。

具体的には、以下の数式(9)のように因子分解される分布のうち事後確率ｐ(z|V,π,C[k])の確率分布に最も近似する分布が特定される。例えば、事後確率ｐ(z|V,π,C[k])とのＫＬ（Kullback-Leibler）距離が最小となる分布が特定される。

具体的には、演奏解析部３０は、以下の数式(10)および数式(11)の演算を反復する。

数式(10)の記号ｃは、複数の指番号ｋにわたる確率分布ρ_t,n,kの合計が「１」となるように当該確率分布ρ_t,n,kを正規化する係数である。また、記号〈〉は、期待値を意味する。

具体的には、演奏解析部３０は、時間軸上の１個の時刻ｔについて、音高ｎと指番号ｋとの全通りの組合せについて数式(10)および数式(11)の演算を反復する。演奏解析部３０は、所定の回数にわたり数式(10)および数式(11)の演算を反復した時点の数式(10)の演算結果を、潜在変数ｗ_t,n,kの確率分布ρ_t,n,kとして確定する。時間軸上の時刻ｔ毎に確率分布ρ_t,n,kが算定される。

ところで、時間軸上の時刻ｔ毎に個別に算定された確率分布ρ_t,n,kから、音高ｎおよび指番号ｋを時刻ｔ毎に算定する形態では、利用者が１個の音符を演奏する期間内において前後の時刻ｔで指番号ｋが変化する場合、または、音高ｎが継続する期間が過度に短くなる場合がある。そこで、第５実施形態の演奏解析部３０は、確率分布ρ_t,n,kを適用したＨＭＭ（Hidden Markov Model）を利用して、音高ｎと指番号ｋとの組合せ（すなわち運指データＱ）の時系列を生成する。

具体的には、運指推定用のＨＭＭは、音高ｎの発音（押鍵）および消音の各々に対応する潜在状態と、相異なる指番号ｋに対応する複数の潜在状態とで構成される。状態遷移としては、（１）自己遷移、（２）無音→任意の指番号ｋ、および（３）任意の指番号ｋ→無音、の３種類のみが許容され、他の状態遷移に係る遷移確率は「０」に設定される。以上の条件は、１個の音符が発音される期間内において指番号ｋを変化させないための制約条件である。また、数式(10)および数式(11)の演算により算定された確率分布ρ_t,n,kの期待値が、ＨＭＭの各潜在状態に関する観測確率として設定される。演奏解析部３０は、以上に説明したＨＭＭを利用し、例えばビタビアルゴリズム等の動的計画法により状態系列を推定する。演奏解析部３０は、状態系列を推定した結果に応じて運指データＱの時系列を生成する。

第５実施形態によれば、音響信号Ｖと画像データＤ1とを利用して運指データＱが生成される。すなわち、演奏データＰを取得できない状況でも運指データＱを生成できる。また、第５実施形態においては、音響信号Ｖおよび画像データＤ1を利用して音高ｎと指番号ｋとが同時に推定されるから、音高ｎおよび指番号ｋの各々を個別に推定する形態と比較して処理負荷を軽減しながら高精度に運指を推定できる。なお、第５実施形態は第２実施形態から第４実施形態にも適用される。

６：第６実施形態
前述の各形態において例示した通り、射影変換部３１４は、演奏画像Ｇ1から変換画像を生成する。すなわち、射影変換部３１４は、演奏画像Ｇ1の撮影条件を変化させる。第６実施形態は、演奏画像Ｇ1の撮影条件を変化させる以上の機能を利用した画像処理システム７００である。なお、第１実施形態から第５実施形態の演奏解析システム１００も、射影変換部３１４による演奏画像Ｇ1の処理に着目すれば、画像処理システム７００と表現される。なお、第６実施形態においては、利用者の運指の推定は必須ではない。

図２２は、第６実施形態における画像処理システム７００の機能的な構成を例示するブロック図である。画像処理システム７００は、第１実施形態の演奏解析システム１００と同様に、制御装置１１と記憶装置１２と操作装置１３と表示装置１４と撮影装置１５とを具備する。撮影装置１５は、第１実施形態と同様に、特定の撮影条件のもとで鍵盤楽器２００を撮影することで、演奏画像Ｇ1を表す画像データＤ1の時系列を生成する。

記憶装置１２は、複数の参照データＤrefを記憶する。複数の参照データＤrefの各々は、標準的な鍵盤楽器の鍵盤である参照楽器を撮影した参照画像Ｇrefを表す。参照楽器の撮影条件は、参照画像Ｇref毎（参照データＤref毎）に相違する。具体的には、例えば撮影範囲または撮影方向のうち１以上の条件が、参照画像Ｇref毎に相違する。また、記憶装置１２は、参照データＤref毎に補助データＡを記憶する。

制御装置１１は、記憶装置１２に記憶されたプログラムを実行することで、行列生成部３１２と射影変換部３１４と表示制御部４０とを実現する。行列生成部３１２は、複数の参照データＤrefの何れかを選択的に利用して変換行列Ｗを生成する。射影変換部３１４は、変換行列Ｗを利用した射影変換により、演奏画像Ｇ1の画像データＤ1から変換画像Ｇ3の画像データＤ3を生成する。表示制御部４０は、画像データＤ3が表す変換画像Ｇ3を表示装置１４に表示させる。

図２３は、第６実施形態の制御装置１１が実行する処理（以下「第１画像処理」という）の具体的な手順を例示するフローチャートである。例えば操作装置１３に対する利用者からの指示を契機として第１画像処理が開始される。

利用者は、操作装置１３を操作することで、相異なる参照画像Ｇrefに対応する複数の撮影条件の何れかを選択する。制御装置１１（行列生成部３１２）は、撮影条件の選択を利用者から受付けたか否かを判定する（Ｓ31）。撮影条件の選択を受付けた場合（Ｓ31：YES）、制御装置１１（行列生成部３１２）は、記憶装置１２に記憶された複数の参照データＤrefのうち、利用者が選択した撮影条件に対応する参照データＤref（以下「選択参照データＤref」という）を取得する（Ｓ32）。利用者による撮影条件の選択は、相異なる撮影条件に対応する複数の参照画像Ｇref（参照データＤref）の何れかを選択する動作に相当する。

制御装置１１（行列生成部３１２）は、選択参照データＤrefを利用して、第１実施形態と同様の行列生成処理を実行する（Ｓ33）。具体的には、制御装置１１は、選択参照データＤrefを利用した初期設定処理Ｓc1により初期行列Ｗ0を設定する。また、制御装置１１は、演奏画像Ｇ1の鍵盤画像ｇ1が選択参照データＤrefの参照画像Ｇrefに近付くように初期行列Ｗ0を反復的に更新する行列更新処理Ｓc2により、変換行列Ｗを生成する。他方、撮影条件の選択を受付けない場合（Ｓ31：NO）、参照データＤrefの選択（Ｓ32）および行列生成処理（Ｓ33）は実行されない。

制御装置１１（射影変換部３１４）は、変換行列Ｗを利用した射影変換処理を演奏画像Ｇ1に対して実行することで変換画像Ｇ3を生成する（Ｓ34）。射影変換処理は、第１実施形態と同様である。射影変換処理の結果、変換画像Ｇ3を表す画像データＤ3が生成される。具体的には、選択参照データＤrefの参照画像Ｇrefと同等の撮影条件に対応する変換画像Ｇ3が演奏画像Ｇ1から生成される。すなわち、変換画像Ｇ3は、演奏画像Ｇ1の撮影条件を参照画像Ｇrefと同等の撮影条件に変換した画像である。以上の説明から理解される通り、第６実施形態によれば、利用者が選択した撮影条件に対応する変換画像Ｇ3が生成される。

制御装置１１（表示制御部４０）は、射影変換処理により生成された変換画像Ｇ3を表示装置１４に表示させる（Ｓ35）。制御装置１１は、終了条件が成立したか否かを判定する（Ｓ36）。例えば操作装置１３に対する操作で利用者から第１画像処理の終了が指示された場合に、制御装置１１は終了条件が成立したと判定する。終了条件が成立しない場合（Ｓ36：NO）、制御装置１１は、処理をステップＳ31に移行する。すなわち、撮影条件の選択の受付（Ｓ31：YES）を条件とした変換行列Ｗの生成（Ｓ32～Ｓ33）と、変換画像Ｇ3の生成および表示（Ｓ34～Ｓ35）とが実行される。他方、終了条件が成立した場合（Ｓ36：YES）、制御装置１１は、第１画像処理を終了する。

以上の通り、第６実施形態においては、演奏画像Ｇ1における鍵盤画像ｇ1が参照画像Ｇrefに近付くように変換行列Ｗが生成され、当該変換行列Ｗを利用した射影変換処理が演奏画像Ｇ1に対して実行される。したがって、利用者が演奏する鍵盤楽器２００の演奏画像Ｇ1を、参照画像Ｇrefにおける参照楽器の撮影条件に対応する変換画像Ｇ3に変換できる。

また、第６実施形態においては、撮影条件が相違する複数の参照データＤrefの何れかが選択的に行列生成処理に利用される。したがって、特定の撮影条件のもとで撮影された演奏画像Ｇ1から、多様な撮影条件に対応する変換画像Ｇ3を生成できる。第６実施形態では特に、複数の参照データＤrefのうち利用者が選択した撮影条件に対応する参照データＤrefが行列生成処理に利用されるから、利用者の所望の撮影条件に対応する変換画像Ｇ3を生成できる。以上のように演奏画像Ｇ1の撮影条件を変化させることで、多様な用途に利用可能な変換画像Ｇ3を生成できる。例えば、音楽教習の指導者が自身の演奏を撮影した複数の演奏画像Ｇ1の各々について第６実施形態の第１画像処理を実行することで、撮影条件が統一された複数の変換画像Ｇ3を、例えば音楽教習の教材として生成できる。

７：第７実施形態
前述の各形態において例示した通り、画像抽出部３１１は、演奏画像Ｇ1のうち鍵盤画像ｇ1と手指画像ｇ2とを含む特定領域Ｂを抽出する。第７実施形態は、演奏画像Ｇ1の特定領域Ｂを抽出する以上の機能を利用した画像処理システム７００である。なお、第１実施形態から第５実施形態の演奏解析システム１００も、画像抽出部３１１による演奏画像Ｇ1の処理に着目すれば、画像処理システム７００と表現される。なお、第７実施形態においては、利用者の運指の推定は必須ではない。

図２４は、第７実施形態における画像処理システム７００の機能的な構成を例示するブロック図である。画像処理システム７００は、第１実施形態の演奏解析システム１００と同様に、制御装置１１と記憶装置１２と操作装置１３と表示装置１４と撮影装置１５とを具備する。撮影装置１５は、特定の撮影条件のもとで鍵盤楽器２００を撮影することで、演奏画像Ｇ1を表す画像データＤ1の時系列を生成する。演奏画像Ｇ1は、前述の各形態と同様に、鍵盤画像ｇ1と手指画像ｇ2とを含む。

制御装置１１は、記憶装置１２に記憶されたプログラムを実行することで、画像抽出部３１１および表示制御部４０として機能する。画像抽出部３１１は、演奏画像Ｇ1のうち一部の領域を抽出した演奏画像Ｇ2を表す画像データＤ2を生成する。具体的には、画像抽出部３１１は、第１実施形態と同様に、画像処理マスクＭを生成する領域推定処理Ｓb1と、画像処理マスクＭを演奏画像Ｇ1に適用する領域抽出処理Ｓb2とを実行する。表示制御部４０は、画像データＤ2が表す演奏画像Ｇ2を表示装置１４に表示させる。

第１実施形態においては単体の推定モデル５１を例示した。第７実施形態において領域推定処理Ｓb1に利用される推定モデル５１は、第１モデル５１１および第２モデル５１２を含む。第１モデル５１１および第２モデル５１２の各々は、畳込ニューラルネットワークまたは再帰型ニューラルネットワーク等の深層ニューラルネットワークで構成される。

第１モデル５１１は、演奏画像Ｇ1のうち第１領域を表す第１マスクを生成するための統計モデルである。第１領域は、演奏画像Ｇ1のうち鍵盤画像ｇ1を含む領域である。手指画像ｇ2は第１領域に含まれない。第１マスクは、例えば、第１領域内の各要素が数値「１」に設定され、第１領域以外の領域内の各要素が数値「０」に設定されたバイナリマスクである。画像抽出部３１１は、演奏画像Ｇ1を表す画像データＤ1を第１モデル５１１に入力することで第１マスクを生成する。すなわち、第１モデル５１１は、画像データＤ1と第１マスク（第１領域）との関係を機械学習により学習した学習済モデルである。

第２モデル５１２は、演奏画像Ｇ1のうち第２領域を表す第２マスクを生成するための統計モデルである。第２領域は、演奏画像Ｇ1のうち手指画像ｇ2を含む領域である。鍵盤画像ｇ1は第２領域に含まれない。第２マスクは、例えば、第２領域内の各要素が数値「１」に設定され、第２領域以外の領域内の各要素が数値「０」に設定されたバイナリマスクである。画像抽出部３１１は、演奏画像Ｇ1を表す画像データＤ1を第２モデル５１２に入力することで第２マスクを生成する。すなわち、第２モデル５１２は、画像データＤ1と第２マスク（第２領域）との関係を機械学習により学習した学習済モデルである。

図２５は、第７実施形態の制御装置１１が実行する処理（以下「第２画像処理」という）の具体的な手順を例示するフローチャートである。例えば操作装置１３に対する利用者からの指示を契機として第２画像処理が開始される。

第２画像処理が開始されると、制御装置１１（画像抽出部３１１）は、領域推定処理Ｓb1を実行する（Ｓ41～Ｓ43）。第７実施形態の領域推定処理Ｓb1は、第１推定処理（Ｓ41）と第２推定処理（Ｓ42）と領域合成処理（Ｓ43）とを含む。

第１推定処理は、演奏画像Ｇ1の第１領域を推定する処理である。具体的には、制御装置１１は、演奏画像Ｇ1を表す画像データＤ1を第１モデル５１１に入力することで、第１領域を表す第１マスクを生成する（Ｓ41）。第２推定処理は、演奏画像Ｇ2の第２領域を推定する処理である。具体的には、制御装置１１は、演奏画像Ｇ1を表す画像データＤ1を第２モデル５１２に入力することで、第２領域を表す第２マスクを生成する（Ｓ42）。

領域合成処理は、第１領域と第２領域とを含む特定領域Ｂを表す画像処理マスクＭを生成する処理である。具体的には、画像処理マスクＭが表す特定領域Ｂは、第１領域と第２領域との和に相当する。すなわち、制御装置１１は、第１マスクと第２マスクとを合成することで画像処理マスクＭを生成する（Ｓ43）。以上の説明から理解される通り、画像処理マスクＭは、第１実施形態と同様に、演奏画像Ｇ1のうち鍵盤画像ｇ1と手指画像ｇ2とを含む特定領域Ｂを抽出するためのバイナリマスクである。

制御装置１１（画像抽出部３１１）は、領域推定処理Ｓb1で生成された画像処理マスクＭを利用して第１実施形態と同様の領域抽出処理Ｓb2を実行する（Ｓ44）。すなわち、制御装置１１は、画像データＤ1が表す演奏画像Ｇ1のうち特定領域Ｂを画像処理マスクＭにより抽出することで、演奏画像Ｇ2を表す画像データＤ2を生成する。

制御装置１１（表示制御部４０）は、領域抽出処理Ｓb2により生成された演奏画像Ｇ2を表示装置１４に表示させる（Ｓ45）。制御装置１１は、終了条件が成立したか否かを判定する（Ｓ46）。例えば操作装置１３に対する操作で利用者から第２画像処理の終了が指示された場合に、制御装置１１は終了条件が成立したと判定する。終了条件が成立しない場合（Ｓ46：NO）、制御装置１１は、処理をステップＳ41に移行する。すなわち、領域推定処理Ｓb1（Ｓ41～Ｓ43）と、領域抽出処理Ｓb2（Ｓ44）と、演奏画像Ｇ2の表示（Ｓ45）とが実行される。他方、終了条件が成立した場合（Ｓ46：YES）、制御装置１１は、第２画像処理を終了する。

第７実施形態においては、第１実施形態と同様に、演奏画像Ｇ1のうち鍵盤画像ｇ1を含む特定領域Ｂが抽出される。したがって、演奏画像Ｇ1の利便性を向上させることが可能である。第７実施形態においては特に、演奏画像Ｇ1のうち鍵盤画像ｇ1と手指画像ｇ2とを含む特定領域Ｂが抽出される。したがって、鍵盤楽器２００の鍵盤２２の様子と利用者の手指の様子とを効率的に視認可能な演奏画像Ｇ2を生成できる。

また、第７実施形態によれば、演奏画像Ｇ1のうち鍵盤画像ｇ1を含む第１領域が第１モデル５１１により推定され、演奏画像Ｇ1のうち手指画像ｇ2を含む第２領域が第２モデル５１２により推定される。したがって、鍵盤画像ｇ1と手指画像ｇ2との双方を一括的に抽出する単体の推定モデル５１を利用する構成と比較して、鍵盤画像ｇ1と手指画像ｇ2とを含む特定領域Ｂを高精度に抽出できる。また、第１モデル５１１および第２モデル５１２の各々が個別の機械学習により確立されるから、第１モデル５１１および第２モデル５１２の機械学習に関する処理負荷が軽減される。

なお、画像抽出部３１１が第１モードと第２モードとを切替可能な構成も想定される。第１モードは、演奏画像Ｇ1から鍵盤画像ｇ1および手指画像ｇ2の双方を抽出する動作モードである。すなわち、第１モードにおいて、画像抽出部３１１は、第１推定処理および第２推定処理の双方を実行する。したがって、第７実施形態と同様に、特定領域Ｂを表す画像処理マスクＭが生成される。すなわち、第１モードにおいては、鍵盤画像ｇ1および手指画像ｇ2の双方を含む特定領域Ｂが演奏画像Ｇ1から抽出される。

第２モードは、演奏画像Ｇ1から鍵盤画像ｇ1を抽出する動作モードである。すなわち、第２モードにおいて、画像抽出部３１１は、第１推定処理を実行する一方で第２推定処理を実行しない。すなわち、第１推定処理により生成される第１マスクが、領域抽出処理Ｓb2に適用される画像処理マスクＭとして確定される。したがって、第２モードにおいては、鍵盤画像ｇ1が演奏画像Ｇ1から抽出される。

以上の通り、第１モードと第２モードとを切替可能な形態によれば、演奏画像Ｇ1からの抽出対象を簡便に切替えることが可能である。なお、以上の説明においては、画像抽出部３１１が第２モードにおいて第１推定処理を実行したが、第２モードにおいて、画像抽出部３１１が、第２推定処理を実行する一方で第１推定処理を実行しない形態も想定される。以上の形態においては、手指画像ｇ2が演奏画像Ｇ1から抽出される。以上の例示から理解される通り、第２モードは、第１推定処理および第２推定処理の一方が実行される動作モードとして表現される。

８：変形例
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

（１）前述の各形態においては、画像抽出処理（図８）による処理後の演奏画像Ｇ2を処理対象として行列生成処理を実行したが、撮影装置１５が撮影する演奏画像Ｇ1を処理対象として行列生成処理が実行されてもよい。すなわち、演奏画像Ｇ1から演奏画像Ｇ2を生成する画像抽出処理（画像抽出部３１１）は省略されてもよい。

前述の各形態においては、演奏画像Ｇ1を利用した指位置推定処理を例示したが、画像抽出処理による処理後の演奏画像Ｇ2を利用して指位置推定処理が実行されてもよい。すなわち、演奏画像Ｇ2の解析により利用者の各手指の位置Ｃ[h,f]が推定されてもよい。また、前述の各形態においては、演奏画像Ｇ1を対象として射影変換処理を実行したが、画像抽出処理による処理後の演奏画像Ｇ2を対象として射影変換処理が実行されてもよい。すなわち、演奏画像Ｇ2に対する射影変換により変換画像が生成されてもよい。

（２）前述の各形態においては、利用者の各手指の位置ｃ[h,f]を射影変換処理によりＸ-Ｙ座標系の位置Ｃ[h,f]に変換したが、各手指の位置ｃ[h,f]を表す指位置データＦが生成されてもよい。すなわち、位置ｃ[h,f]を位置Ｃ[h,f]に変換する射影変換処理（射影変換部３１４）は省略されてもよい。

（３）第１実施形態から第５実施形態においては、演奏解析処理の開始の直後に生成される変換行列Ｗが、以降の処理において継続的に利用される形態を例示したが、演奏解析処理の実行中の適切な時点において変換行列Ｗが更新されてもよい。例えば、鍵盤楽器２００に対する撮影装置１５の位置が変化した場合に、変換行列Ｗを更新する形態が想定される。具体的には、演奏画像Ｇ1の解析により撮影装置１５の位置の変化（以下「位置変化」という）が検出された場合、または、撮影装置１５の位置変化が利用者から指示された場合に、変換行列Ｗが更新される。

具体的には、行列生成部３１２は、撮影装置１５の位置変化（ズレ）を表す変換行列δを生成する。例えば、位置変化後の演奏画像Ｇ（Ｇ1，Ｇ2）内の座標（ｘ,ｙ）について、以下の数式(12)で表現される関係を想定する。

行列生成部３１２は、位置変化後の特定の地点のｘ座標から数式(12)で算定される座標ｘ'/εが、位置変化前における演奏画像Ｇのうち当該地点に対応する地点のｘ座標に近似または一致し、かつ、位置変換後の特定の地点のｙ座標から数式(12)で算定される座標ｙ'/εが、位置変化前における演奏画像Ｇのうち当該地点に対応する地点のｙ座標に近似または一致するように、変換行列δを生成する。そして、行列生成部３１２は、位置変化前の変換行列Ｗと位置変化を表す変換行列δとの積Ｗδを初期行列Ｗ0として生成し、当該初期行列Ｗ0を行列更新処理Ｓc2により更新することで変換行列Ｗを生成する。

以上の構成においては、位置変化前に算定された変換行列Ｗと位置変化を表す変換行列δとを利用して、位置変化後の変換行列Ｗが生成される。したがって、行列生成処理の負荷を軽減しながら、各手指の位置Ｃ[h,f]を高精度に特定可能な変換行列Ｗを生成できる。なお、以上の説明においては第１実施形態から第５実施形態を想定したが、第６実施形態においても同様に、第１画像処理の実行中の適切な時点において変換行列Ｗが更新されてもよい。

（４）前述の各形態においては、鍵盤２２を具備する鍵盤楽器２００を例示したが、本開示が適用される楽器の種類は任意である。例えば、弦楽器，管楽器または打楽器等、利用者が手動で操作可能な任意の楽器について、前述の各形態は同様に適用される。楽器の典型例は、利用者が片手または両手の手指により演奏する種類の楽器である。

（５）例えばスマートフォンまたはタブレット端末等の情報装置と通信するサーバ装置により演奏解析システム１００が実現されてもよい。例えば、情報装置に接続された鍵盤楽器２００が生成する演奏データＰと、当該情報装置に搭載または接続された撮影装置１５が生成する画像データＤ1とが、情報装置から演奏解析システム１００に送信される。演奏解析システム１００は、情報装置から受信した演奏データＰおよび画像データＤ1に対して演奏解析処理を実行することで運指データＱを生成し、当該運指データＱを情報装置に送信する。また、第６実施形態または第７実施形態に例示した画像処理システム７００も同様に、情報装置と通信するサーバ装置により実現されてよい。

（６）第１実施形態から第５実施形態に係る演奏解析システム１００、または第６実施形態から第７実施形態に係る画像処理システム７００の機能は、前述の通り、制御装置１１を構成する単数または複数のプロセッサと、記憶装置１２に記憶されたプログラムとの協働により実現される。本開示に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記憶装置１２が、前述の非一過性の記録媒体に相当する。

９：付記
以上に例示した形態から、例えば以下の構成が把握される。

本開示のひとつの態様（態様１）に係る画像処理方法は、楽器の画像と当該楽器を演奏する利用者の複数の手指の画像とを含む演奏画像における前記楽器の画像が、参照楽器を表す参照画像に近付くように、前記演奏画像の座標を射影変換する変換行列を生成し、前記変換行列を利用して前記演奏画像の射影変換を実行する。以上の態様においては、演奏画像における楽器の画像が参照画像に近付くように変換行列が生成され、当該変換行列を利用した射影変換が演奏画像に対して実行される。したがって、利用者が演奏する楽器の演奏画像を、参照画像における参照楽器の撮影条件に対応する画像に変換できる。

本開示のひとつの態様（態様２）に係る画像処理方法は、鍵盤楽器の鍵盤の画像と当該鍵盤楽器を演奏する利用者の複数の手指の画像とを含む演奏画像における前記鍵盤の画像が、参照楽器を表す参照画像に近付くように、前記演奏画像を射影変換する変換行列を生成し、前記変換行列を利用して前記演奏画像の射影変換を実行する。以上の態様においては、演奏画像における鍵盤の画像が参照画像に近付くように変換行列が生成され、当該変換行列を利用した射影変換が演奏画像に対して実行される。したがって、利用者が演奏する鍵盤楽器の演奏画像を、参照画像における参照楽器の撮影条件に対応する画像に変換できる。

態様２の具体例（態様３）において、前記変換行列の生成においては、前記変換行列の初期値である初期行列を設定し、前記変換行列の生成においては、前記参照画像と前記演奏画像における前記鍵盤の画像との間の拡張相関係数が増加するように、前記初期行列を反復的に更新する。鍵盤の画像においては、複数の鍵が同様に配列されたパターンが反復されるから、例えばＳＩＦＴ（Scale-Invariant Feature Transform）等の画像特徴量を利用する形態では、変換行列を適切に推定できない可能性がある。拡張相関係数（ＥＣＣ：Enhanced Correlation Coefficient）が増加するように初期行列を反復的に更新する形態によれば、同種のパターンの反復を含む画像を対象とした場合でも、変換行列を適切に推定できるという利点がある。

態様３の具体例（態様４）において、前記初期行列の設定においては、前記演奏画像における鍵盤の画像のうち前記利用者からの指示に応じた目標領域を、前記参照画像のうち特定の音高に対応する領域に射影変換するための行列を、前記初期行列として設定する。拡張相関係数が増加するように初期行列を反復的に更新する処理においては、初期行列の適否が最終的な変換行列の適否に影響し易いという傾向がある。利用者からの指示に応じた目標領域に応じて初期行列を設定する構成によれば。鍵盤の画像を参照画像に高精度に近似させ得る適切な変換行列を生成できる。

態様４の具体例（態様５）において、前記初期行列の設定においては、前記演奏画像のうち前記利用者が操作装置に対する操作で指定した領域を前記目標領域として、前記初期行列を設定する。以上の態様において、利用者は、演奏画像のうち利用者が操作装置に対する操作で指定した領域が目標領域として初期行列の設定に利用される。したがって、例えば演奏画像のうち特定の音高に対応する領域を演算処理により推定する形態と比較して、処理負荷を低減しながら適切な初期行列を設定できる。

態様４の具体例（態様６）において、前記初期行列の設定においては、前記利用者が前記鍵盤楽器により演奏した音高を指定する演奏データと、前記演奏画像において前記利用者が前記音高を演奏した手指の位置を表す指位置データとを取得し、前記指位置データが表す手指の位置が、前記参照画像のうち前記演奏データが指定する音高に対応する部分に近付くように、前記初期行列を設定する。以上の態様においては、利用者が所望の音高を特定の手指で演奏すると、演奏画像における当該手指の位置が、参照画像のうち当該音高に対応する部分に近付くように、初期行列が設定される。以上の構成によれば、利用者は所望の音高を演奏すればよいから、初期行列の設定に必要な利用者の作業の負荷が軽減される。

本開示のひとつの態様（態様７）に係る画像処理システムは、楽器の画像と当該楽器を演奏する利用者の複数の手指の画像とを含む演奏画像における前記楽器の画像が、参照画像に含まれる参照楽器の画像に近付くように、前記演奏画像を射影変換する変換行列を生成する行列生成部と、前記変換行列を利用して前記演奏画像の射影変換を実行する射影変換部とを具備する。

本開示のひとつの態様（態様８）に係るプログラムは、楽器の画像と当該楽器を演奏する利用者の複数の手指の画像とを含む演奏画像における前記楽器の画像が、参照画像に含まれる参照楽器の画像に近付くように、前記演奏画像を射影変換する変換行列を生成する行列生成部、および、前記変換行列を利用して前記演奏画像の射影変換を実行する射影変換部、としてコンピュータシステムを機能させる。

１００…演奏解析システム、１１…制御装置、１２…記憶装置、１３…操作装置、１４…表示装置、１５…撮影装置、２００…鍵盤楽器、２１…鍵、２２…鍵盤、３０…演奏解析部、３１…指位置データ生成部、３１１…画像抽出部、３１２…行列生成部、３１３…指位置推定部、３１４…射影変換部、３２…運指データ生成部、３２１…確率算定部、３２２…運指推定部、３２３…制御データ生成部、４０…表示制御部、５１…推定モデル、５１a…暫定モデル、５２[k]…推定モデル、７００…画像処理システム。

Claims

楽器の画像と当該楽器を演奏する利用者の複数の手指の画像とを含む演奏画像における前記楽器の画像が、参照楽器を表す参照画像に近付くように、前記演奏画像の座標を射影変換する変換行列を生成し、
前記変換行列を利用して前記演奏画像の射影変換を実行する
コンピュータシステムにより実現される画像処理方法。
鍵盤楽器の鍵盤の画像と当該鍵盤楽器を演奏する利用者の複数の手指の画像とを含む演奏画像における前記鍵盤の画像が、参照楽器を表す参照画像に近付くように、前記演奏画像を射影変換する変換行列を生成し、
前記変換行列を利用して前記演奏画像の射影変換を実行する
コンピュータシステムにより実現される画像処理方法。
前記変換行列の生成においては、
前記変換行列の初期値である初期行列を設定し、
前記変換行列の生成においては、前記参照画像と前記演奏画像における前記鍵盤の画像との間の拡張相関係数が増加するように、前記初期行列を反復的に更新する
請求項２の画像処理方法。
前記初期行列の設定においては、
前記演奏画像における鍵盤の画像のうち前記利用者からの指示に応じた目標領域を、前記参照画像のうち特定の音高に対応する領域に射影変換するための行列を、前記初期行列として設定する
請求項３の画像処理方法。
前記初期行列の設定においては、
前記演奏画像のうち前記利用者が操作装置に対する操作で指定した領域を前記目標領域として、前記初期行列を設定する
請求項４の画像処理方法。
前記初期行列の設定においては、
前記利用者が前記鍵盤楽器により演奏した音高を指定する演奏データと、前記演奏画像において前記利用者が前記音高を演奏した手指の位置を表す指位置データとを取得し、
前記指位置データが表す手指の位置が、前記参照画像のうち前記演奏データが指定する音高に対応する部分に近付くように、前記初期行列を設定する
請求項４の画像処理方法。
楽器の画像と当該楽器を演奏する利用者の複数の手指の画像とを含む演奏画像における前記楽器の画像が、参照画像に含まれる参照楽器の画像に近付くように、前記演奏画像を射影変換する変換行列を生成する行列生成部と、
前記変換行列を利用して前記演奏画像の射影変換を実行する射影変換部と
を具備する画像処理システム。
楽器の画像と当該楽器を演奏する利用者の複数の手指の画像とを含む演奏画像における前記楽器の画像が、参照画像に含まれる参照楽器の画像に近付くように、前記演奏画像を射影変換する変換行列を生成する行列生成部、および、
前記変換行列を利用して前記演奏画像の射影変換を実行する射影変換部
としてコンピュータシステムを機能させるプログラム。