JP2023142375A

JP2023142375A - 情報処理方法、情報処理システムおよびプログラム

Info

Publication number: JP2023142375A
Application number: JP2022049259A
Authority: JP
Inventors: 陽前澤; Akira Maezawa; 貴久井上; Takahisa Inoue; 隆山城; Takashi Yamashiro; 大樹吉岡; Daiki Yoshioka; 翔太郎渡邉; Shotaro Watanabe; 晋吾江國; Shingo EKUNI
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2022-03-25
Filing date: 2022-03-25
Publication date: 2023-10-05
Anticipated expiration: 2042-03-25
Also published as: WO2023181570A1; JP7528971B2

Abstract

【課題】利用者が弦楽器を演奏するときの運指に関する運指情報を提供する。【解決手段】情報処理システム１００は、弦楽器２００を演奏する利用者の指および当該弦楽器２００の指板の画像に関する指情報Ｙと、利用者が弦楽器２００により演奏する音に関する音情報Ｘとを含む入力情報Ｃを取得する情報取得部２１と、学習用の入力情報と学習用の運指情報との関係を学習した生成モデルＭにより、取得した入力情報Ｃを処理することで、運指を表す運指情報Ｚを生成する情報生成部２２とを具備する。【選択図】図２

Description

本開示は、弦楽器の演奏を解析する技術に関する。

弦楽器の演奏を支援するための各種の技術が従来から提案されている。例えば特許文献１には、弦楽器のコードを演奏するときの運指を表す運指画像を、表示装置に表示する技術が開示されている。

特開２００５－２４１８７７号公報

弦楽器の特定の音高は、相異なる複数の運指により演奏され得る。利用者が弦楽器の演奏を練習する場面においては、模範的な運指または特定の演奏者の運指等、自分の独自の運指以外の運指を確認したいという要望がある。また、弦楽器を演奏する利用者は、演奏時における自身の運指を確認したい場合がある。以上の事情を考慮して、本開示のひとつの態様は、利用者が弦楽器を演奏するときの運指に関する運指情報を提供することを目的とする。

以上の課題を解決するために、本開示のひとつの態様に係る情報処理方法は、弦楽器を演奏する利用者の指および当該弦楽器の指板の画像に関する指情報と、前記利用者が前記弦楽器により演奏する音に関する音情報とを含む入力情報を取得し、学習用の入力情報と学習用の運指情報との関係を学習した生成モデルにより、前記取得した入力情報を処理することで、運指を表す運指情報を生成する。

本開示のひとつの態様に係る情報処理システムは、弦楽器を演奏する利用者の指および当該弦楽器の指板の画像に関する指情報と、前記利用者が前記弦楽器により演奏する音に関する音情報とを含む入力情報を取得する情報取得部と、学習用の入力情報と学習用の運指情報との関係を学習した生成モデルにより、前記取得した入力情報を処理することで、運指を表す運指情報を生成する情報生成部とを具備する。

本開示のひとつの態様に係るプログラムは、弦楽器を演奏する利用者の指および当該弦楽器の指板の画像に関する指情報と、前記利用者が前記弦楽器により演奏する音に関する音情報とを含む入力情報を取得する情報取得部、および、学習用の入力情報と学習用の運指情報との関係を学習した生成モデルにより、前記取得した入力情報を処理することで、運指を表す運指情報を生成する情報生成部、としてコンピュータシステムを機能させる。

情報処理システムの構成を例示するブロック図である。演奏画像の模式図である。情報処理システムの機能的な構成を例示するブロック図である。画像解析処理のフローチャートである。参照画像の模式図である。演奏解析処理のフローチャートである。機械学習システムの構成を例示するブロック図である。機械学習システムの機能的な構成を例示するブロック図である。機械学習処理のフローチャートである。第３実施形態における情報処理システムの機能的な構成を例示するブロック図である。第４実施形態における情報処理システムの機能的な構成を例示するブロック図である。第４実施形態における機械学習システムの機能的な構成を例示するブロック図である。変形例における参照画像の模式図である。変形例における情報処理システムの機能的な構成を例示するブロック図である。変形例における情報処理システムの機能的な構成を例示するブロック図である。

Ａ：第１実施形態
図１は、第１実施形態に係る情報処理システム１００の構成を例示するブロック図である。情報処理システム１００は、利用者Ｕによる弦楽器２００の演奏を解析するためのコンピュータシステム（演奏解析システム）である。弦楽器２００は、例えば、指板と複数の弦とを含むアコースティックギター等の自然楽器である。第１実施形態の情報処理システム１００は、利用者Ｕによる弦楽器２００の演奏における運指を解析する。運指は、弦楽器２００の演奏において利用者Ｕが自身の指を使用する方法である。具体的には、利用者Ｕが各弦を指板に対して押圧（以下「押弦」という）する指と、指板上における押弦の位置（弦とフレットとの組合せ）とが、弦楽器２００の運指として解析される。

情報処理システム１００は、制御装置１１と記憶装置１２と操作装置１３と表示装置１４と収音装置１５と撮像装置１６とを具備する。情報処理システム１００は、例えばスマートフォンまたはタブレット端末等の可搬型の情報装置、またはパーソナルコンピュータ等の可搬型または据置型の情報装置により実現される。なお、情報処理システム１００は、単体の装置として実現されるほか、相互に別体で構成された複数の装置でも実現される。

制御装置１１は、情報処理システム１００の動作を制御する単数または複数のプロセッサである。具体的には、例えばＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＳＰＵ（Sound Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field Programmable Gate Array）、またはＡＳＩＣ（Application Specific Integrated Circuit）等の１種類以上のプロセッサにより、制御装置１１が構成される。

記憶装置１２は、制御装置１１が実行するプログラムと、制御装置１１が使用する各種のデータとを記憶する単数または複数のメモリである。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置１２として利用される。なお、例えば、情報処理システム１００に対して着脱される可搬型の記録媒体、または、制御装置１１が通信網を介してアクセス可能な記録媒体（例えばクラウドストレージ）が、記憶装置１２として利用されてもよい。

操作装置１３は、利用者Ｕによる操作を受付ける入力機器である。例えば、利用者Ｕが操作する操作子、または、利用者Ｕによる接触を検知するタッチパネルが、操作装置１３として利用される。表示装置１４は、制御装置１１による制御のもとで各種の画像を表示する。例えば、液晶表示パネルまたは有機ＥＬパネル等の各種の表示パネルが、表示装置１４として利用される。なお、情報処理システム１００とは別体の操作装置１３または表示装置１４が、情報処理システム１００に対して有線または無線により接続されてもよい。

収音装置１５は、利用者Ｕによる演奏で弦楽器２００から発音される楽音を収音することで音響信号Ｑxを生成するマイクロホンである。音響信号Ｑxは、弦楽器２００が発音する楽音の波形を表す信号である。なお、情報処理システム１００とは別体の収音装置１５が、有線または無線により情報処理システム１００に接続されてもよい。音響信号Ｑxをアナログからデジタルに変換するＡ/Ｄ変換器の図示は便宜的に省略されている。

撮像装置１６は、利用者Ｕが弦楽器２００を演奏する様子を撮像することで画像信号Ｑyを生成する。画像信号Ｑyは、利用者Ｕが弦楽器２００を演奏する動画を表す信号である。具体的には、撮像装置１６は、撮影レンズ等の光学系と、光学系からの入射光を受光する撮像素子と、撮像素子による受光量に応じた画像信号Ｑyを生成する処理回路とを具備する。なお、情報処理システム１００とは別体の撮像装置１６が、有線または無線により情報処理システム１００に接続されてもよい。

図２は、撮像装置１６が撮像する画像に関する説明図である。画像信号Ｑyが表す画像（以下「演奏画像」という）Ｇは、奏者画像Ｇaと楽器画像Ｇbとを含む。奏者画像Ｇaは、弦楽器２００を演奏する利用者Ｕの画像である。楽器画像Ｇbは、利用者Ｕが演奏する弦楽器２００の画像である。奏者画像Ｇaは、利用者Ｕの左手の画像（以下「左手画像」という）Ｇa1と、利用者Ｕの右手の画像（以下「右手画像」という）Ｇa2とを含む。以下の説明においては、利用者Ｕが左手で押弦し、右手で撥弦する場合を想定する。ただし、利用者Ｕが左手で撥弦し、右手で押弦してもよい。楽器画像Ｇbは、弦楽器の指板の画像（以下「指板画像」という）Ｇb1を含む。

図３は、情報処理システム１００の機能的な構成を例示するブロック図である。制御装置１１は、記憶装置１２に記憶されたプログラムを実行することで、利用者Ｕによる弦楽器２００の演奏を解析するための複数の機能（情報取得部２１，情報生成部２２，提示処理部２３）を実現する。

情報取得部２１は、入力情報Ｃを取得する。入力情報Ｃは、音情報Ｘと指情報Ｙとを含む制御データである。音情報Ｘは、利用者Ｕが弦楽器２００により演奏する楽音に関するデータである。指情報Ｙは、弦楽器２００を演奏する利用者Ｕの演奏画像Ｇに関するデータである。情報取得部２１による入力情報Ｃの生成は、利用者Ｕによる弦楽器２００の演奏に並行して順次に反復される。第１実施形態の情報取得部２１は、音響解析部２１１と画像解析部２１２とを含む。

音響解析部２１１は、音響信号Ｑxの解析により音情報Ｘを生成する。第１実施形態の音情報Ｘは、利用者Ｕが弦楽器２００により演奏した音高を指定する。すなわち、音響解析部２１１は、音響信号Ｑxが表す音響の音高を推定し、当該音高を指定する音情報Ｘを生成する。なお、音響信号Ｑxの音高の推定には、公知の解析技術が任意に採用される。

また、音響解析部２１１は、音響信号Ｑxの解析により発音点を順次に検出する。発音点は、弦楽器２００による発音が開始される時点（すなわちオンセット）である。具体的には、音響解析部２１１は、音響信号Ｑxの音量を所定の周期で順次に特定し、音量が所定の閾値を上回る時点を発音点として検出する。なお、利用者Ｕの撥弦により弦楽器２００は発音する。したがって、弦楽器２００の発音点は、利用者Ｕが弦楽器２００を撥弦する時点とも換言される。

音響解析部２１１は、発音点の検出を契機として音情報Ｘを生成する。すなわち、弦楽器２００の発音点毎に音情報Ｘが生成される。例えば、音響解析部２１１は、音響信号Ｑxのうち、各発音点から所定の時間（例えば１５０ミリ秒）が経過した時点のサンプルを解析することで、音情報Ｘを生成する。各発音点に対応する音情報Ｘは、当該発音点において発音される楽音の音高を表す情報である。

画像解析部２１２は、画像信号Ｑyの解析により指情報Ｙを生成する。第１実施形態の指情報Ｙは、利用者Ｕの左手画像Ｇa1と弦楽器２００の指板画像Ｇb1とを表す。画像解析部２１２は、音響解析部２１１による発音点の検出を契機として指情報Ｙを生成する。すなわち、弦楽器２００の発音点毎に指情報Ｙが生成される。例えば、画像解析部２１２は、画像信号Ｑyのうち、各発音点から所定の時間（例えば１５０ミリ秒）が経過した時点の演奏画像Ｇを解析することで、指情報Ｙを生成する。各発音点に対応する指情報Ｙは、当該発音点における左手画像Ｇa1と指板画像Ｇb1とを表す。

図４は、画像解析部２１２が指情報Ｙを生成する処理（以下「画像解析処理」という）Ｓa3のフローチャートである。発音点の検出を契機として画像解析処理Ｓa3が開始される。画像解析処理Ｓa3が開始されると、画像解析部２１２は、画像検出処理を実行する（Ｓa31）。画像検出処理は、画像信号Ｑyが表す演奏画像Ｇから、利用者Ｕの左手画像Ｇa1と当該弦楽器２００の指板画像Ｇb1とを抽出する処理である。画像検出処理には、例えば、深層ニューラルネットワーク等の統計モデルを利用した物体検出処理が利用される。

画像解析部２１２は、画像変換処理を実行する（Ｓa32）。画像変換処理は、図２に例示される通り、指板画像Ｇb1が、所定の方向および距離から指板を観測した画像に変換されるように、演奏画像Ｇを変換する画像処理である。例えば、画像解析部２１２は、所定の方向に配置された長方形の基準画像Ｇrefに指板画像Ｇb1が近似するように、演奏画像Ｇを変換する。利用者Ｕの左手画像Ｇa1も指板画像Ｇb1とともに変換される。画像変換処理には、指板画像Ｇb1と基準画像Ｇrefとから生成される変換行列を演奏画像Ｇに作用させる射影変換等の公知の画像処理が利用される。画像解析部２１２は、画像変換処理後の演奏画像Ｇを表す指情報Ｙを生成する。

以上の説明の通り、音情報Ｘおよび指情報Ｙは発音点毎に生成される。すなわち、情報取得部２１は、弦楽器２００の発音点毎に入力情報Ｃを生成する。相異なる発音点に対応する複数の入力情報Ｃの時系列が生成される。

図３の情報生成部２２は、入力情報Ｃを利用して運指情報Ｚを生成する。運指情報Ｚは、弦楽器２００の運指を表す任意の形式のデータである。具体的には、運指情報Ｚは、弦楽器２００の押弦に使用される１以上の指の指番号と、当該指による押弦位置とを指定する。押弦位置は、例えば、弦楽器２００の複数の弦のうちの何れかと、指板に設置された複数のフレットの何れかとの組合せにより指定される。

前述の通り、入力情報Ｃは発音点毎に生成される。したがって、情報生成部２２は、発音点毎に運指情報Ｚを生成する。すなわち、相異なる発音点に対応する複数の運指情報Ｚの時系列が生成される。各発音点に対応する運指情報Ｚは、当該発音点における運指を表す情報である。以上の説明から理解される通り、第１実施形態においては、弦楽器２００の発音点毎に、入力情報Ｃの取得と運指情報Ｚの生成とが実行される。したがって、利用者Ｕが押弦しているけれども撥弦はしていない状態において、運指情報が無駄に生成されることを抑制できる。ただし、発音点とは無関係な所定の周期により、入力情報Ｃの取得と運指情報Ｚの生成とが反復されてもよい。

情報生成部２２による運指情報Ｚの生成には生成モデルＭが利用される。具体的には、情報生成部２２は、生成モデルＭにより入力情報Ｃを処理することで運指情報Ｚを生成する。生成モデルＭは、入力情報Ｃと運指情報Ｚとの関係を機械学習により学習した学習済モデルである。すなわち、生成モデルＭは、入力情報Ｃに対して統計的に妥当な運指情報Ｚを出力する。

生成モデルＭは、入力情報Ｃから運指情報Ｚを生成する演算を制御装置１１に実行させるプログラムと、当該演算に適用される複数の変数（例えば加重値およびバイアス）との組合せで実現される。生成モデルＭを実現するプログラムおよび複数の変数は、記憶装置１２に記憶される。生成モデルＭの複数の変数は、機械学習により事前に設定される。

生成モデルＭは、例えば深層ニューラルネットワークで構成される。例えば、再帰型ニューラルネットワーク（RNN：Recurrent Neural Network）、または畳込ニューラルネットワーク（CNN：Convolutional Neural Network）等の任意の形式の深層ニューラルネットワークが、生成モデルＭとして利用される。複数種の深層ニューラルネットワークの組合せにより生成モデルＭが構成されてもよい。また、長短期記憶（LSTM：Long Short-Term Memory）またはAttention等の付加的な要素が生成モデルＭに搭載されてもよい。

提示処理部２３は、運指情報Ｚを利用者Ｕに提示する。具体的には、提示処理部２３は、図５に例示される参照画像Ｒ1を表示装置１４に表示する。参照画像Ｒ1は、利用者Ｕによる弦楽器２００の演奏に対応する譜面Ｂ（Ｂ1，Ｂ2）を含む。譜面Ｂ1は、運指情報Ｚが表す運指に対応する五線譜である。譜面Ｂ2は、運指情報Ｚが表す運指に対応するタブ譜である。すなわち、譜面Ｂ2は、弦楽器２００の相異なる弦に対応する複数（６本）の横線を含む画像である。譜面Ｂ2においては、押弦位置に対応するフレットの番号が弦毎に時系列に表示される。提示処理部２３は、運指情報Ｚの時系列を利用して譜面情報Ｐを生成する。譜面情報Ｐは、図５の譜面Ｂを表す任意の形式のデータである。提示処理部２３は、譜面情報Ｐが表す譜面Ｂを表示装置１４に表示する。

図６は、制御装置１１が実行する処理（以下「演奏解析処理」という）Ｓaのフローチャートである。例えば操作装置１３に対する利用者Ｕからの指示を契機として演奏解析処理Ｓaが開始される。

演奏解析処理Ｓaが開始されると、制御装置１１（音響解析部２１１）は、音響信号Ｑxの解析により発音点を検出するまで待機する（Ｓa1：NO）。発音点が検出された場合（Ｓa1：YES）、制御装置１１（音響解析部２１１）は、音響信号Ｑxの解析により音情報Ｘを生成する（Ｓa2）。また、制御装置１１（画像解析部２１２）は、図４の画像解析処理Ｓa3により指情報Ｙを生成する。なお、音情報Ｘの生成（Ｓa2）および指情報Ｙの生成（Ｓa3）の順序は反転されてもよい。以上の説明の通り、弦楽器２００の発音点毎に入力情報Ｃが生成される。なお、所定の周期で入力情報Ｃが生成されてもよい。

制御装置１１（情報生成部２２）は、入力情報Ｃを生成モデルＭにより処理することで運指情報Ｚを生成する（Ｓa4）。また、制御装置１１（提示処理部２３）は、運指情報Ｚを利用者Ｕに提示する（Ｓa5，Ｓa6）。具体的には、制御装置１１は、譜面Ｂを表す譜面情報Ｐを運指情報Ｚから生成し（Ｓa5）、当該譜面情報Ｐが表す譜面Ｂを表示装置１４に表示する（Ｓa6）。

制御装置１１は、所定の終了条件が成立したか否かを判定する（Ｓa7）。終了条件は、例えば操作装置１３に対する利用者Ｕからの演奏解析処理Ｓaの終了が指示されたこと、または弦楽器２００の最新の発音点から所定の時間が経過したことである。終了条件が成立しない場合（Ｓa7：NO）、制御装置１１は処理をステップＳa1に移行する。すなわち、入力情報Ｃの取得（Ｓa2，Ｓa3）と運指情報Ｚの生成（Ｓa4）と運指情報Ｚの提示（Ｓa5，Ｓa6）とが、弦楽器２００の発音点毎に反復される。他方、終了条件が成立した場合（Ｓa7：YES）演奏解析処理Ｓaは終了する。

以上の説明から理解される通り、第１実施形態においては、音情報Ｘと指情報Ｙとを含む入力情報Ｃを生成モデルＭにより処理することで運指情報Ｚが生成される。したがって、利用者Ｕによる演奏で弦楽器２００が発音する楽音（音響信号Ｑx）と、利用者Ｕが弦楽器２００を演奏する画像（画像信号Ｑy）とに対応する運指情報Ｚを生成できる。すなわち、利用者Ｕによる弦楽器２００の演奏に対応する運指情報Ｚを提供できる。第１実施形態においては特に、運指情報Ｚを利用して譜面情報Ｐが生成される。したがって、利用者Ｕは、譜面Ｂの表示により運指情報Ｚを有効に利用できる。

図７は、第１実施形態に係る機械学習システム４００の構成を例示するブロック図である。機械学習システム４００は、情報処理システム１００が使用する生成モデルＭを機械学習により確立するコンピュータシステムである。機械学習システム４００は、制御装置４１と記憶装置４２とを具備する。

制御装置４１は、機械学習システム４００の各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置４１は、ＣＰＵ、ＧＰＵ、ＳＰＵ、ＤＳＰ、ＦＰＧＡ、またはＡＳＩＣ等の１種類以上のプロセッサにより構成される。

記憶装置４２は、制御装置４１が実行するプログラムと、制御装置４１が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置４２は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体で構成される。複数種の記録媒体の組合せにより記憶装置４２が構成されてもよい。なお、機械学習システム４００に対して着脱される可搬型の記録媒体、または制御装置４１が通信網を介してアクセス可能な記録媒体（例えばクラウドストレージ）が、記憶装置４２として利用されてもよい。

図８は、機械学習システム４００の機能的な構成を例示するブロック図である。記憶装置４２は、複数の訓練データＴを記憶する。複数の訓練データＴの各々は、訓練用の入力情報Ｃtと訓練用の運指情報Ｚtとを含む教師データである。

訓練用の入力情報Ｃtは、音情報Ｘtと指情報Ｙtとを含む。音情報Ｘtは、多数の演奏者（以下「参照演奏者」という）が弦楽器２０１により演奏する楽音に関するデータである。具体的には、音情報Ｘtは、参照演奏者が弦楽器２０１により演奏した音高を指定する。また、指情報Ｙtは、参照演奏者の左手と当該弦楽器２０１の指板とを撮像した画像に関するデータである。具体的には、指情報Ｙtは、参照演奏者の左手の画像と弦楽器２０１の指板の画像とを表す。

訓練データＴの運指情報Ｚtは、参照演奏者による弦楽器２０１の運指を表すデータである。すなわち、各訓練データＴの運指情報Ｚtは、当該訓練データＴの入力情報Ｃtに対して生成モデルＭが生成すべき正解ラベルである。

具体的には、運指情報Ｚtは、参照演奏者が弦楽器２０１の押弦に使用する左手の指番号と、押弦位置とを指定する。運指情報Ｚtの押弦位置は、弦楽器２０１に設置された検出装置２５０が検出した位置である。検出装置２５０は、例えば弦楽器２０１の指板に設置された光学的または機械的なセンサである。なお、運指情報Ｚtの押弦位置の検出には、例えば米国特許第９６４６５９１号明細書に記載された技術等の公知の技術が任意に採用される。以上の説明から理解される通り、学習用の運指情報Ｚtは、弦楽器２０１に設置された検出装置２５０が参照演奏者による演奏を検出した結果を利用して生成される。したがって、生成モデルＭの機械学習に利用される訓練データＴを準備する負荷を軽減できる。

機械学習システム４００の制御装置４１は、記憶装置４２に記憶されたプログラムを実行することで、生成モデルＭを生成するための複数の機能（訓練データ取得部５１、学習処理部５２）を実現する。訓練データ取得部５１は、複数の訓練データＴを取得する。学習処理部５２は、複数の訓練データＴを利用した機械学習により生成モデルＭを確立する。

図９は、制御装置４１が機械学習により生成モデルＭを確立する処理（以下「機械学習処理」という）Ｓbのフローチャートである。例えば、機械学習システム４００の運営者からの指示を契機として機械学習処理Ｓbが開始される。

機械学習処理Ｓbが開始されると、制御装置４１（訓練データ取得部５１）は、複数の訓練データＴの何れか（以下「選択訓練データＴ」という）を選択する（Ｓb1）。制御装置４１（学習処理部５２）は、初期的または暫定的な生成モデルＭ（以下「暫定モデルＭ0」という）の複数の係数を、選択訓練データＴを利用して反復的に更新する（Ｓb2～Ｓb4）。

制御装置４１は、選択訓練データＴの入力情報Ｃtを暫定モデルＭ0により処理することで運指情報Ｚを生成する（Ｓb2）。制御装置４１は、暫定モデルＭ0が生成する運指情報Ｚと選択訓練データＴの運指情報Ｚtとの誤差を表す損失関数を算定する（Ｓb3）。制御装置４１は、損失関数が低減（理想的には最小化）されるように、暫定モデルＭ0の複数の変数を更新する（Ｓb4）。損失関数に応じた各変数の更新には、例えば誤差逆伝播法が利用される。

制御装置４１は、所定の終了条件が成立したか否かを判定する（Ｓb5）。終了条件は、損失関数が所定の閾値を下回ること、または、損失関数の変化量が所定の閾値を下回ることである。終了条件が成立しない場合（Ｓb5：NO）、制御装置４１は、未選択の訓練データＴを新たな選択訓練データＴとして選択する（Ｓb1）。すなわち、終了条件の成立（Ｓb5：YES）まで、暫定モデルＭ0の複数の変数を更新する処理（Ｓb1～Ｓb4）が反復される。終了条件が成立した場合（Ｓb5：YES）、制御装置４１は機械学習処理Ｓbを終了する。終了条件が成立した時点における暫定モデルＭ0が、訓練済の生成モデルＭとして確定される。

以上の説明から理解される通り、生成モデルＭは、複数の訓練データＴにおける入力情報Ｃtと運指情報Ｚtとの間に潜在する関係を学習する。したがって、訓練済の生成モデルＭは、以上の関係のもとで未知の入力情報Ｃに対して統計的に妥当な運指情報Ｚを出力する。

制御装置４１は、機械学習処理Ｓbにより確立された生成モデルＭを情報処理システム１００に送信する。具体的には、生成モデルＭを規定する複数の変数が、情報処理システム１００に送信される。情報処理システム１００の制御装置１１は、機械学習システム４００から送信された生成モデルＭを受信し、当該生成モデルＭを記憶装置１２に保存する。

Ｂ：第２実施形態
第２実施形態を説明する。なお、以下に例示する各態様において機能が第１実施形態と同様である要素については、第１実施形態の説明と同様の符号を流用して各々の詳細な説明を適宜に省略する。

第２実施形態における情報処理システム１００の構成および動作は第１実施形態と同様である。したがって、第２実施形態においても第１実施形態と同様の効果が実現される。第２実施形態においては、機械学習処理Ｓbに適用される訓練データＴの運指情報Ｚtが、第１実施形態とは相違する。

第１実施形態においては、複数の参照演奏者の各々による演奏に対応する入力情報Ｃt（音情報Ｘtおよび指情報Ｙt）と、各参照演奏者による演奏に対応する運指情報Ｚtとを含む訓練データＴが、生成モデルＭの機械学習処理Ｓbに利用される。すなわち、訓練データＴにおける入力情報Ｃtと運指情報Ｚtとは、共通の参照演奏者による演奏に対応する。

第２実施形態において、各訓練データＴの入力情報Ｃtは、第１実施形態と同様に、多数の参照演奏者による演奏に対応する情報（音情報Ｘtおよび指情報Ｙt）である。他方、第２実施形態における各訓練データＴの運指情報Ｚtは、特定の１人の演奏者（以下「目標演奏者」という）による演奏時の運指を表す。目標演奏者は、例えば、特徴的な運指により弦楽器２００を演奏する音楽アーティスト、または模範的な運指により弦楽器２００を演奏する音楽指導者である。すなわち、第２実施形態の訓練データＴにおける入力情報Ｃtと運指情報Ｚtとは、相異なる演奏者（参照演奏者／目標演奏者）による演奏に対応する。

訓練データＴにおける目標演奏者の運指情報Ｚtは、当該目標演奏者が弦楽器を演奏する様子を撮影した画像を解析することで用意される。例えば、目標演奏者が出演する音楽ライブまたはミュージックビデオの画像から運指情報Ｚtが生成される。したがって、運指情報Ｚtには、目標演奏者に特有の運指が反映される。例えば、弦楽器の指板のうち特定の範囲内で押弦する頻度が高いといった傾向、または、左手の特定の指で押弦する頻度が高いといった傾向が、運指情報Ｚtに反映される。

以上の説明から理解される通り、第２実施形態の生成モデルＭは、利用者Ｕによる演奏（音情報Ｘtおよび指情報Ｙt）に対応し、かつ、目標演奏者による運指の傾向が反映された運指情報Ｚを生成する。例えば、運指情報Ｚは、利用者Ｕと同様の楽曲を目標演奏者が演奏したと仮定した場合に、当該目標演奏者が採用する可能性が高い運指を表す。したがって、利用者Ｕは、運指情報Ｚに応じて表示される譜面Ｂを確認することで、当該利用者Ｕが演奏した楽曲を目標演奏者ならば如何なる運指により演奏するかを確認できる。

第２実施形態によれば、例えば音楽アーティストまたは音楽指導者等の目標演奏者は、自身の運指情報Ｚを多数の利用者Ｕに対して簡便に提供できるという顧客体験を享受できる。また、利用者Ｕは、所望の目標演奏者の運指情報Ｚを参照しながら弦楽器を練習するといった顧客体験を享受できる。

Ｃ：第３実施形態
図１０は、第３実施形態における情報処理システム１００の機能的な構成を例示するブロック図である。第３実施形態においては、相異なる目標演奏者に対応する複数の生成モデルＭが選択的に利用される。複数の生成モデルＭの各々は、第２実施形態の１個の生成モデルＭに相当する。各目標演奏者に対応する１個の生成モデルＭは、学習用の入力情報Ｃtと、当該目標演奏者による運指を表す学習用の運指情報Ｚtとの関係を学習したモデルである。

具体的には、第３実施形態においては、目標演奏者毎に複数の訓練データＴが用意される。各目標演奏者の生成モデルＭは、当該目標演奏者の複数の訓練データＴを利用した機械学習処理Ｓbにより確立される。したがって、各目標演奏者に対応する生成モデルＭは、利用者Ｕによる演奏（音情報Ｘtおよび指情報Ｙt）に対応し、かつ、当該目標演奏者による運指の傾向が反映された運指情報Ｚを生成する。

利用者Ｕは、操作装置１３を操作することで、複数の目標演奏者の何れかを選択可能である。情報生成部２２は、利用者Ｕによる目標演奏者の選択を受付ける。情報生成部２２は、複数の生成モデルＭのうち利用者Ｕが選択した目標演奏者に対応する生成モデルＭにより入力情報Ｃを処理することで、運指情報Ｚを生成する（Ｓa4）。したがって、生成モデルＭが生成する運指情報Ｚは、利用者Ｕが選択した目標演奏者が利用者Ｕと同様の楽曲を演奏したと仮定した場合に、当該目標演奏者が採用する可能性が高い運指を表す。

第３実施形態においても第２実施形態と同様の効果が実現される。第３実施形態においては特に、相異なる目標演奏者に対応する複数の生成モデルＭの何れかが選択的に利用される。したがって、各目標演奏者に特有の運指の傾向が反映された運指情報Ｚを生成できる。

Ｄ：第４実施形態
図１１は、第４実施形態における情報処理システム１００の機能的な構成を例示するブロック図である。第４実施形態の入力情報Ｃは、第１実施形態と同様の音情報Ｘおよび指情報Ｙに加えて識別情報Ｄを含む。識別情報Ｄは、複数の目標演奏者の何れかを識別するための符号列である。

第３実施形態と同様に、利用者Ｕは、操作装置１３を操作することで、複数の目標演奏者の何れかを選択可能である。情報取得部２１は、利用者Ｕが選択した目標演奏者の識別情報Ｄを生成する。すなわち、情報取得部２１は、音情報Ｘと指情報Ｙと識別情報Ｄとを含む入力情報Ｃを生成する。

図１２は、第４実施形態における機械学習システム４００の機能的な構成を例示するブロック図である。第４実施形態においては第３実施形態と同様に、目標演奏者毎に複数の訓練データＴが用意される。各目標演奏者に対応する訓練データＴは、第１実施形態と同様の音情報Ｘtおよび指情報Ｙtに加えて学習用の識別情報Ｄtを含む。識別情報Ｄtは、複数の目標演奏者の何れかを識別するための符号列である。また、各目標演奏者に対応する訓練データＴの運指情報Ｚtは、当該目標演奏者による弦楽器２００の運指を表す。すなわち、各目標演奏者の運指情報Ｚtには、当該目標演奏者による弦楽器２００の演奏の傾向が反映される。

第３実施形態においては、各目標演奏者の複数の訓練データＴを利用した機械学習処理Ｓbにより、目標演奏者毎に生成モデルＭが個別に生成される。第４実施形態においては、相異なる目標演奏者に対応する複数の訓練データＴを利用した機械学習処理Ｓbにより１個の生成モデルＭが生成される。すなわち、第４実施形態の生成モデルＭは、複数の目標演奏者の各々について、当該目標演奏者の識別情報Ｄを含む学習用の入力情報Ｃtと、当該目標演奏者による運指を表す学習用の運指情報Ｚtとの関係を学習したモデルである。したがって、生成モデルＭは、利用者Ｕによる演奏（音情報Ｘtおよび指情報Ｙt）に対応し、かつ、当該利用者Ｕが選択した目標演奏者による運指の傾向が反映された運指情報Ｚを生成する。

以上に説明した通り、第４実施形態においても第２実施形態と同様の効果が実現される。第４実施形態においては特に、入力情報Ｃが目標演奏者の識別情報Ｄを含む。したがって、第３実施形態と同様に、各目標演奏者に固有の運指の傾向が反映された運指情報Ｚを生成できる。

Ｅ：第５実施形態
第５実施形態の提示処理部２３は、運指情報Ｚを利用して図１３の参照画像Ｒ2を表示装置１４に表示する。なお、提示処理部２３以外の構成および動作は、第１実施形態から第４実施形態と同様である。したがって、第５実施形態においても第１実施形態から第４実施形態と同様の効果が実現される。

参照画像Ｒ2は、仮想空間内に存在する仮想的なオブジェクト（以下「仮想オブジェクト」という）Ｏを含む。仮想オブジェクトＯは、仮想的な演奏者Ｏaが仮想的な弦楽器Ｏbを演奏する様子を表す立体画像である。仮想駅な演奏者Ｏaは、弦楽器Ｏbを押弦する左手Ｏa1と、弦楽器Ｏbを撥弦する右手Ｏa2とを含む。仮想オブジェクトＯの状態（特に左手Ｏa1の状態）は、情報生成部２２が順次に生成する運指情報Ｚに応じて経時的に変化する。以上の通り、第５実施形態の提示処理部２３は、仮想的な演奏者Ｏa（Ｏa1，Ｏa2）と仮想的な弦楽器Ｏbとを表す参照画像Ｒ2を、表示装置１４に表示する。

第５実施形態においても第１実施形態から第４実施形態と同様の効果が実現される。第５実施形態においては特に、運指情報Ｚが表す運指に対応する仮想的な演奏者Ｏaが、仮想的な弦楽器Ｏbとともに表示装置１４に表示される。したがって、利用者Ｕは、運指情報Ｚが表す運指を視覚的および直観的に確認できる。

なお、表示装置１４は、利用者Ｕの頭部に装着されるＨＭＤ（Head Mounted Display）に搭載されてもよい。提示処理部２３は、仮想空間内の仮想カメラにより撮影された仮想オブジェクトＯ（演奏者Ｏaおよび弦楽器Ｏb）を、参照画像Ｒ2として表示装置１４に表示する。提示処理部２３は、利用者Ｕの頭部の挙動（例えば位置および方向）に応じて、仮想空間内の仮想カメラの位置および方向を動的に制御する。したがって、利用者Ｕは、自身の頭部を適宜に移動することで、仮想空間内の任意の位置および方向から仮想オブジェクトＯを視認できる。なお、表示装置１４が搭載されたＨＭＤは、仮想オブジェクトＯの背景として利用者Ｕが現実空間を視認可能な透過型、および、仮想オブジェクトＯが仮想空間の背景画像とともに表示される非透過型の何れでもよい。透過型のＨＭＤは、例えば拡張現実（ＡＲ：Augmented Reality）または複合現実（ＭＲ：Mixed Reality）により仮想オブジェクトＯを表示し、非透過型のＨＭＤは、例えば仮想現実（ＶＲ：Virtual Reality）により仮想オブジェクトＯを表示する。

また、表示装置１４は、例えばインターネット等の通信網を介して情報処理システム１００と通信可能な端末装置に搭載されてもよい。提示処理部２３は、参照画像Ｒ2を表す画像データを端末装置に送信することで、当該端末装置の表示装置１４に参照画像Ｒ2を表示する。端末装置の表示装置１４は、利用者Ｕの頭部に装着されてもよいし頭部に装着されなくてもよい。

Ｆ：変形例
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。前述の実施形態および以下に例示する変形例から任意に選択された複数の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

（１）前述の各形態においては、運指情報Ｚに対応する譜面Ｂを表示装置１４に表示する形態を例示したが、運指情報Ｚの用途は以上の例示に限定されない。例えば、図１４に例示される通り、提示処理部２３が、運指情報Ｚと音情報Ｘとに応じたコンテンツＮを生成してもよい。コンテンツＮは、運指情報Ｚの時系列から生成される前述の譜面Ｂと、発音点毎の音情報Ｘが指定する音高の時系列とを含む。再生装置によりコンテンツが再生されると、譜面Ｂの表示に並行して、各音情報Ｘの音高に対応する楽音が再生される。したがって、コンテンツの視聴者は、楽曲の譜面Ｂを視認しながら、当該楽曲の演奏音を聴取できる。以上のコンテンツは、例えば弦楽器２００の演奏の練習または指導に使用される教材として有用である。

（２）前述の各形態においては、音情報Ｘが音高を指定する形態を例示したが、音情報Ｘが指定する情報は音高に限定されない。例えば、音響信号Ｑxの周波数特性が音情報Ｘとして使用されてもよい。音響信号Ｑxの周波数特性は、例えば強度スペクトル（振幅スペクトルまたはパワースペクトル）またはＭＦＣＣ（Mel-Frequency Cepstrum Coefficients）等の情報である。また、音響信号Ｑxを構成するサンプルの時系列が音情報Ｘとして使用されてもよい。以上の例示から理解される通り、音情報Ｘは、利用者Ｕが弦楽器２００により演奏する音に関する情報として包括的に表現される。

（３）前述の各形態においては、音響信号Ｑxの解析により音情報Ｘを生成する形態を例示したが、音情報Ｘを生成する方法は以上の例示に限定されない。例えば、図１５に例示される通り、電子弦楽器２０２から順次に供給される演奏情報Ｅから音響解析部２１１が音情報Ｘを生成してもよい。電子弦楽器２０２は、利用者Ｕによる演奏を表す演奏情報Ｅを出力するＭＩＤＩ（Musical Instrument Digital Interface）楽器である。演奏情報Ｅは、利用者Ｕが演奏した音高および強度を指定するイベントデータであり、利用者Ｕによる撥弦毎に電子弦楽器２０２から出力される。音響解析部２１１は、例えば、演奏情報Ｅに含まれる音高を音情報Ｘとして生成する。音響解析部２１１は、演奏情報Ｅから発音点を検出してもよい。例えば、発音を意味する演奏情報Ｅが電子弦楽器２０２から供給された時点が、発音点として検出される。

（４）前述の各形態においては、音響信号Ｑxの解析により弦楽器２００の発音点を検出したが、発音点を検出する方法は以上の例示に限定されない。例えば、画像解析部２１２は、画像信号Ｑyの解析により弦楽器２００の発音源を検出してもよい。前述の通り、画像信号Ｑyが表す奏者画像Ｇaは、利用者Ｕが撥弦に使用する右手の右手画像Ｇa2を含む。画像解析部２１２は、右手画像Ｇa2を演奏画像Ｇから抽出し、当該右手画像Ｇa2の変化を解析することで撥弦を検出する。利用者Ｕによる撥弦の時点が発音点として検出される。

（５）例えばギター等の弦楽器２００を演奏する手法として、複数の楽音の各々を順番に演奏するアルペジオ奏法と、和音を構成する複数の楽音を略同時に演奏するストローク奏法とがある。弦楽器２００の演奏（特に発音点）の解析においては、アルペジオ奏法とストローク奏法とを区別してもよい。例えば、所定の閾値を上回る間隔で順次に演奏される複数の楽音については、楽音毎に発音点が検出される（アルペジオ奏法）。他方、所定の閾値を下回る間隔で演奏される複数の楽音については、複数の楽音について共通の１個の発音点が検出される（ストローク奏法）。以上の通り、発音点の検出に弦楽器２００の奏法が反映されてもよい。また、時間軸上において発音点を離散化してもよい。発音点が離散化される形態においては、所定の閾値を下回る間隔で発音された複数の楽音について１個の発音点が特定される。

（６）前述の各形態においては、指情報Ｙが左手画像Ｇa1と指板画像Ｇb1とを含む形態を例示したが、指情報Ｙが、左手画像Ｇa1および指板画像Ｇb1に加えて右手画像Ｇa2を含む形態も想定される。以上の構成によれば、利用者Ｕの左手による押弦に加えて右手による撥弦も、運指情報Ｚの生成に反映される。同様に、各訓練データＴの入力情報Ｃtにおける指情報Ｙtが、参照演奏者が撥弦に使用する右手の画像を含む形態も想定される。

（７）前述の各形態においては、指情報Ｙが奏者画像Ｇa（左手画像Ｇa1および右手画像Ｇa2）と楽器画像Ｇb（指板画像Ｇb1）とを含む形態を例示したが、指情報Ｙの形式は任意である。演奏画像Ｇから抽出される特徴点の座標を、画像解析部２１２が指情報Ｙとして生成してもよい。指情報Ｙは、例えば、利用者Ｕの左手画像Ｇa1における各節点（例えば関節または先端）の座標、または、弦楽器２００の指板画像Ｇb1において各弦と各フレットとが交差する地点の座標を指定する。右手画像Ｇa2が指情報Ｙに反映される形態において、指情報Ｙは、例えば利用者Ｕの右手画像Ｇa2における各節点（例えば関節または先端）の座標を指定する。以上の例示から理解される通り、指情報Ｙは、奏者画像Ｇaと楽器画像Ｇbとに関する情報として包括的に表現される。

（８）第３実施形態においては、利用者Ｕからの指示に応じて複数の生成モデルＭの何れかを選択したが、生成モデルＭを選択する方法は以上の例示に限定されない。すなわち、複数の目標演奏者の何れかを選択する方法は任意である。例えば、外部装置からの指示または所定の演算処理の結果に応じて、情報生成部２２が複数の生成モデルＭの何れかを選択してもよい。第４実施形態においても同様に、複数の目標演奏者の何れかを選択する方法は任意である。例えば、外部装置からの指示または所定の演算処理の結果に応じて、情報取得部２１が複数の目標演奏者の何れかの識別情報Ｄを生成してもよい。

（９）前述の各形態においては、運指情報Ｚを生成するための生成モデルＭとして深層ニューラルネットワークを例示したが、生成モデルＭの形態は以上の例示に限定されない。例えば、ＨＭＭ（Hidden Markov Model）またはＳＶＭ（Support Vector Machine）等の統計モデルが、生成モデルＭとして利用されてもよい。

（１０）前述の各形態においては、入力情報Ｃと運指情報Ｚとの関係を学習した生成モデルＭを利用したが、入力情報Ｃから運指情報Ｚを生成するための構成および方法は、以上の例示に限定されない。例えば、相異なる複数の入力情報Ｃの各々に運指情報Ｚが対応付けられた参照テーブルが、情報生成部２２による運指情報Ｚの生成に利用されてもよい。参照テーブルは、入力情報Ｃと運指情報Ｚとの対応が登録されたデータテーブルであり、例えば記憶装置１２に記憶される。情報生成部２２は、情報取得部２１が取得した入力情報Ｃに対応する運指情報Ｚを参照テーブルから検索する。

（１１）前述の各形態においては、機械学習システム４００が生成モデルＭを確立したが、生成モデルＭを確立する機能（訓練データ取得部５１および学習処理部５２）は、情報処理システム１００に搭載されてもよい。

（１２）前述の各形態においては、指番号と押弦位置とを指定する運指情報Ｚを例示したが、運指情報Ｚの形態は以上の例示に限定されない。例えば、指番号と押弦位置とで規定される通常の運指に加えて、音楽的な表現のための各種の演奏法が、運指情報Ｚにより指定されてもよい。運指情報Ｚが指定する演奏法としては、例えば、ビブラート，スライド，グリッサンド，プリング，ハンマリングまたはチョーキング等が例示される。演奏法の推定には公知の表情推定モデルが利用される。

（１３）弦楽器２００の種類は任意である。弦楽器２００は、弦の振動により発音する楽器として包括的に表現され、例えば撥弦楽器と擦弦楽器とを含む。撥弦楽器は、撥弦により発音する弦楽器２００である。撥弦楽器には、例えばアコースティックギター、エレキギター、アコースティックベース、エレキベース、ウクレレ、バンジョー、マンドリン、琴または三味線等が含まれる。擦弦楽器は、擦弦により発音する弦楽器である。擦弦楽器には、例えばバイオリン、ビオラ、チェロまたはコントラバス等が含まれる。以上に例示した任意の種類の弦楽器を対象として、演奏の解析のために本開示が適用される。

（１４）例えばスマートフォンまたはタブレット端末等の端末装置との間で通信するサーバ装置により、情報処理システム１００が実現されてもよい。例えば、情報処理システム１００の情報取得部２１は、音響信号Ｑx（または演奏情報Ｅ）と画像信号Ｑyとを端末装置から受信し、音響信号Ｑxに応じた音情報Ｘと画像信号Ｑyに応じた指情報Ｙとを生成する。情報生成部２２は、音情報Ｘと指情報Ｙとを含む入力情報Ｃから運指情報Ｚを生成する。提示処理部２３は、運指情報Ｚから譜面情報Ｐを生成し、当該譜面情報Ｐを端末装置に送信する。端末装置の表示装置は、譜面情報Ｐが表す譜面Ｂを表示する。

なお、音響解析部２１１および画像解析部２１２が端末装置に搭載された構成において、情報取得部２１は、音情報Ｘおよび指情報Ｙを端末装置から受信する。以上の説明から理解される通り、情報取得部２１は、音情報Ｘおよび指情報Ｙを生成する要素、または、音情報Ｘおよび指情報Ｙを端末装置等の他装置から受信する要素である。すなわち、音情報Ｘおよび指情報Ｙの「取得」には、生成および受信の双方が包含される。

また、提示処理部２３が端末装置に搭載された構成においては、情報生成部２２が生成した運指情報Ｚが情報処理システム１００から端末装置に送信される。提示処理部２３は、運指情報Ｚから譜面情報Ｐを生成して表示装置に表示する。以上の説明から理解される通り、情報処理システム１００から提示処理部２３は省略されてもよい。

（１５）前述の各形態に係る情報処理システム１００の機能は、前述の通り、制御装置１１を構成する単数または複数のプロセッサと、記憶装置１２に記憶されたプログラムとの協働により実現される。以上に例示したプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記録媒体が、前述の非一過性の記録媒体に相当する。

Ｇ：付記
以上に例示した形態から、例えば以下の構成が把握される。

本開示のひとつの態様（態様１）に係る情報処理方法は、弦楽器を演奏する利用者の指および当該弦楽器の指板の画像に関する指情報と、前記利用者が前記弦楽器により演奏する音に関する音情報とを含む入力情報を取得し、学習用の入力情報と学習用の運指情報との関係を学習した生成モデルにより、前記取得した入力情報を処理することで、運指を表す運指情報を生成する。以上の態様においては、指情報と音情報とを含む入力情報を機械学習済の生成モデルにより処理することで運指情報が生成される。すなわち、利用者が弦楽器を演奏するときの運指に関する運指情報を提供できる。

「指情報」は、利用者の指の画像と弦楽器の指板の画像とに関する任意の形式のデータである。例えば、利用者の指の画像と弦楽器の指板の画像とを表す画像情報、または、画像情報の解析により生成される解析情報が、指情報として利用される。解析情報は、例えば、利用者の指の各節点（関節または先端）の座標を表す情報、節点間の線分を表す情報、指板を表す情報、指板上のフレットを表す情報である。

「音情報」は、利用者が弦楽器により演奏する音に関する任意の形式のデータである。例えば、音情報は、利用者が演奏した音の特徴量を表す。特徴量は、例えば音高または周波数特性であり、例えば弦楽器の弦の振動を表す音響信号の解析により特定される。また、例えばＭＩＤＩ形式の演奏情報を出力する弦楽器においては、当該演奏情報の音高を指定する音情報が生成される。音響信号のサンプルの時系列が音情報として利用されてもよい。

「運指情報」は、弦楽器の運指を表す任意の形式のデータである。例えば、押弦する指を表す指番号と、押弦の位置（フレットおよび弦の組合せ）とが、運指情報として利用される。

「生成モデル」は、入力情報と運指情報との関係を機械学習により習得した学習済モデルである。生成モデルの機械学習には複数の訓練データが利用される。各訓練データは、学習用の入力情報と学習用の運指情報（正解ラベル）とを含む。例えば深層ニューラルネットワーク（ＤＮＮ：Deep Neural Network）、隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）、またはＳＶＭ（Support Vector Machine）等の各種の統計モデルが、生成モデルとして例示される。

態様１の具体例（態様２）において、さらに、前記弦楽器の発音点を検出し、前記発音点毎に前記入力情報の取得と前記運指情報の生成とを実行する。以上の態様においては、弦楽器の発音点毎に入力情報の取得と運指情報の生成とが実行される。したがって、利用者が押弦しているけれども発音操作を実行していない状態において運指情報が無駄に生成されることを抑制できる。「発音操作」は、押弦操作に対応する音を弦楽器に発音させるための利用者の動作である。具体的には、発音操作は、例えば撥弦楽器に対する撥弦動作、または擦弦楽器に対する擦弦動作である。

態様１または態様２の具体例（態様３）において、さらに、前記利用者による前記弦楽器の演奏に対応する譜面を表す譜面情報を、前記運指情報を利用して生成する。以上の態様においては、運指情報を利用して譜面情報が生成される。利用者は、譜面の出力（例えば表示または印刷）により運指情報を有効に利用できる。「譜面情報」が表す「譜面」は、例えば弦楽器の各弦について押弦位置が表示されたタブ譜である。ただし、各音高の演奏に使用される指番号が指定された五線譜を、譜面情報が表す形態も想定される。

態様１から態様３の何れかの具体例（態様４）において、さらに、前記運指情報が表す運指に対応する仮想的な演奏者と、当該指により演奏される仮想的な弦楽器とを表す参照画像を、表示装置に表示する。以上の態様においては、運指情報が表す運指に対応する仮想的な指が仮想的な弦楽器とともに表示装置に表示されるから、利用者は、運指情報が表す運指を視覚的および直観的に確認できる。

態様４の具体例（態様５）において、前記表示装置は、前記利用者の頭部に装着され、前記参照画像の表示においては、前記利用者の頭部の挙動に応じて仮想空間内の位置および方向が制御される仮想カメラにより、前記仮想空間内の前記仮想的な演奏者と前記仮想的な弦楽器とを撮影した画像を、前記参照画像として前記表示装置に表示する。以上の態様によれば、仮想的な演奏者と仮想的な弦楽器とを、利用者は所望の位置および方向から視認できる。

態様４または態様５の具体例（態様６）において、前記参照画像の表示においては、前記参照画像を表す画像データを、通信網を介して端末装置に送信することで、当該端末装置の前記表示装置に前記参照画像を表示する。以上の態様によれば、運指情報を生成する機能が端末装置に搭載されていなくても、運指情報に対応する仮想的な演奏者および弦楽器を、端末装置の利用者が視認できる。

態様１から態様６の何れかの具体例（態様７）において、さらに、前記音情報と前記運指情報とに応じたコンテンツを生成する。以上の態様によれば、音情報と運指情報との対応を確認できるコンテンツを生成できる。以上のコンテンツは、弦楽器の演奏の練習または指導に有用である。

態様１から態様７の何れかの具体例（態様８）において、前記入力情報は、複数の演奏者の何れかの識別情報を含み、前記生成モデルは、前記複数の演奏者の各々について、当該演奏者の識別情報を含む前記学習用の入力情報と、当該演奏者による運指を表す前記学習用の運指情報との関係を学習したモデルである。以上の態様においては、入力情報が演奏者の識別情報を含む。したがって、各演奏者に特有の運指の傾向が反映された運指情報を生成できる。

態様１から態様７の何れかの具体例（態様９）において、前記運指情報の生成においては、相異なる演奏者に対応する複数の生成モデルの何れかにより、前記取得した入力情報を処理することで、前記運指情報を生成し、前記複数の生成モデルの各々は、前記学習用の入力情報と、当該生成モデルに対応する演奏者による運指を表す前記学習用の運指情報と、の関係を学習したモデルである。以上の態様においては、相異なる演奏者に対応する複数の単位モデルの何れかが選択的に利用される。したがって、各演奏者に特有の運指の傾向が反映された運指情報を生成できる。

態様１から態様９の何れかの具体例（態様１０）において、前記学習用の運指情報は、弦楽器に設置された検出装置が演奏者による演奏を検出した結果を利用して生成される。以上の態様においては、弦楽器に設置された検出装置による検出結果を利用して、学習用の運指情報が生成される。したがって、生成モデルの機械学習に利用される訓練データを準備する負荷を軽減できる。

本開示のひとつの態様（態様１１）に係る情報処理システムは、弦楽器を演奏する利用者の指および当該弦楽器の指板の画像に関する指情報と、前記利用者が前記弦楽器により演奏する音に関する音情報とを含む入力情報を取得する情報取得部と、学習用の入力情報と学習用の運指情報との関係を学習した生成モデルにより、前記取得した入力情報を処理することで、運指を表す運指情報を生成する情報生成部とを具備する。

本開示のひとつの態様（態様１２）に係るプログラムは、弦楽器を演奏する利用者の指および当該弦楽器の指板の画像に関する指情報と、前記利用者が前記弦楽器により演奏する音に関する音情報とを含む入力情報を取得する情報取得部、および、学習用の入力情報と学習用の運指情報との関係を学習した生成モデルにより、前記取得した入力情報を処理することで、運指を表す運指情報を生成する情報生成部、としてコンピュータシステムを機能させる。

１００…情報処理システム、２００，２０１…弦楽器、２０２…電子弦楽器、２５０…検出装置、１１，４１…制御装置、１２，４２…記憶装置、１３…操作装置、１４…表示装置、１５…収音装置、１６…撮像装置、２１…情報取得部、２１１…音響解析部、２１２…画像解析部、２２…情報生成部、２３…提示処理部、４００…機械学習システム、５１…訓練データ取得部、５２…学習処理部。

Claims

弦楽器を演奏する利用者の指および当該弦楽器の指板の画像に関する指情報と、前記利用者が前記弦楽器により演奏する音に関する音情報とを含む入力情報を取得し、
学習用の入力情報と学習用の運指情報との関係を学習した生成モデルにより、前記取得した入力情報を処理することで、運指を表す運指情報を生成する
コンピュータシステムにより実現される情報処理方法。
さらに、前記弦楽器の発音点を検出し、
前記発音点毎に前記入力情報の取得と前記運指情報の生成とを実行する
請求項１の情報処理方法。
さらに、前記利用者による前記弦楽器の演奏に対応する譜面を表す譜面情報を、前記運指情報を利用して生成する
請求項１または請求項２の情報処理方法。
さらに、前記運指情報が表す運指に対応する仮想的な演奏者と、当該指により演奏される仮想的な弦楽器とを表す参照画像を、表示装置に表示する
請求項１から請求項３の何れかの情報処理方法。
前記表示装置は、前記利用者の頭部に装着され、
前記参照画像の表示においては、前記利用者の頭部の挙動に応じて仮想空間内の位置および方向が制御される仮想カメラにより、前記仮想空間内の前記仮想的な演奏者と前記仮想的な弦楽器とを撮影した画像を、前記参照画像として前記表示装置に表示する
請求項４の情報処理方法。
前記参照画像の表示においては、前記参照画像を表す画像データを、通信網を介して端末装置に送信することで、当該端末装置の前記表示装置に前記参照画像を表示する
請求項４または請求項５の情報処理方法。
さらに、前記音情報と前記運指情報とに応じたコンテンツを生成する
請求項１から請求項６の何れかの情報処理方法。
前記入力情報は、複数の演奏者の何れかの識別情報を含み、
前記生成モデルは、前記複数の演奏者の各々について、当該演奏者の識別情報を含む前記学習用の入力情報と、当該演奏者による運指を表す前記学習用の運指情報との関係を学習したモデルである
請求項１から請求項７の何れかの情報処理方法。
前記運指情報の生成においては、相異なる演奏者に対応する複数の生成モデルの何れかにより、前記取得した入力情報を処理することで、前記運指情報を生成し、
前記複数の生成モデルの各々は、前記学習用の入力情報と、当該生成モデルに対応する演奏者による運指を表す前記学習用の運指情報と、の関係を学習したモデルである
請求項１から請求項７の何れかの情報処理方法。
前記学習用の運指情報は、弦楽器に設置された検出装置が演奏者による演奏を検出した結果を利用して生成される
請求項１から請求項９の何れかの情報処理方法。
弦楽器を演奏する利用者の指および当該弦楽器の指板の画像に関する指情報と、前記利用者が前記弦楽器により演奏する音に関する音情報とを含む入力情報を取得する情報取得部と、
学習用の入力情報と学習用の運指情報との関係を学習した生成モデルにより、前記取得した入力情報を処理することで、運指を表す運指情報を生成する情報生成部と
を具備する情報処理システム。
弦楽器を演奏する利用者の指および当該弦楽器の指板の画像に関する指情報と、前記利用者が前記弦楽器により演奏する音に関する音情報とを含む入力情報を取得する情報取得部、および、
学習用の入力情報と学習用の運指情報との関係を学習した生成モデルにより、前記取得した入力情報を処理することで、運指を表す運指情報を生成する情報生成部、
としてコンピュータシステムを機能させるプログラム。