JP2023142375A - 情報処理方法、情報処理システムおよびプログラム - Google Patents
情報処理方法、情報処理システムおよびプログラム Download PDFInfo
- Publication number
- JP2023142375A JP2023142375A JP2022049259A JP2022049259A JP2023142375A JP 2023142375 A JP2023142375 A JP 2023142375A JP 2022049259 A JP2022049259 A JP 2022049259A JP 2022049259 A JP2022049259 A JP 2022049259A JP 2023142375 A JP2023142375 A JP 2023142375A
- Authority
- JP
- Japan
- Prior art keywords
- information
- fingering
- stringed instrument
- image
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 54
- 238000003672 processing method Methods 0.000 title claims description 14
- 238000012545 processing Methods 0.000 claims description 54
- 238000001514 detection method Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 14
- 238000004891 communication Methods 0.000 claims description 6
- 238000000034 method Methods 0.000 abstract description 48
- 230000008569 process Effects 0.000 abstract description 28
- 238000012549 training Methods 0.000 description 42
- 238000010801 machine learning Methods 0.000 description 35
- 238000004458 analytical method Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 20
- 238000010191 image analysis Methods 0.000 description 20
- 238000003860 storage Methods 0.000 description 19
- 239000011295 pitch Substances 0.000 description 17
- 238000003825 pressing Methods 0.000 description 17
- 238000004519 manufacturing process Methods 0.000 description 9
- 238000003384 imaging method Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000538562 Banjos Species 0.000 description 1
- 208000023514 Barrett esophagus Diseases 0.000 description 1
- 241000405217 Viola <butterfly> Species 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B15/00—Teaching music
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10G—REPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
- G10G1/00—Means for the representation of music
- G10G1/02—Chord or note indicators, fixed or adjustable, for keyboard of fingerboards
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
【課題】利用者が弦楽器を演奏するときの運指に関する運指情報を提供する。【解決手段】情報処理システム100は、弦楽器200を演奏する利用者の指および当該弦楽器200の指板の画像に関する指情報Yと、利用者が弦楽器200により演奏する音に関する音情報Xとを含む入力情報Cを取得する情報取得部21と、学習用の入力情報と学習用の運指情報との関係を学習した生成モデルMにより、取得した入力情報Cを処理することで、運指を表す運指情報Zを生成する情報生成部22とを具備する。【選択図】図2
Description
本開示は、弦楽器の演奏を解析する技術に関する。
弦楽器の演奏を支援するための各種の技術が従来から提案されている。例えば特許文献1には、弦楽器のコードを演奏するときの運指を表す運指画像を、表示装置に表示する技術が開示されている。
弦楽器の特定の音高は、相異なる複数の運指により演奏され得る。利用者が弦楽器の演奏を練習する場面においては、模範的な運指または特定の演奏者の運指等、自分の独自の運指以外の運指を確認したいという要望がある。また、弦楽器を演奏する利用者は、演奏時における自身の運指を確認したい場合がある。以上の事情を考慮して、本開示のひとつの態様は、利用者が弦楽器を演奏するときの運指に関する運指情報を提供することを目的とする。
以上の課題を解決するために、本開示のひとつの態様に係る情報処理方法は、弦楽器を演奏する利用者の指および当該弦楽器の指板の画像に関する指情報と、前記利用者が前記弦楽器により演奏する音に関する音情報とを含む入力情報を取得し、学習用の入力情報と学習用の運指情報との関係を学習した生成モデルにより、前記取得した入力情報を処理することで、運指を表す運指情報を生成する。
本開示のひとつの態様に係る情報処理システムは、弦楽器を演奏する利用者の指および当該弦楽器の指板の画像に関する指情報と、前記利用者が前記弦楽器により演奏する音に関する音情報とを含む入力情報を取得する情報取得部と、学習用の入力情報と学習用の運指情報との関係を学習した生成モデルにより、前記取得した入力情報を処理することで、運指を表す運指情報を生成する情報生成部とを具備する。
本開示のひとつの態様に係るプログラムは、弦楽器を演奏する利用者の指および当該弦楽器の指板の画像に関する指情報と、前記利用者が前記弦楽器により演奏する音に関する音情報とを含む入力情報を取得する情報取得部、および、学習用の入力情報と学習用の運指情報との関係を学習した生成モデルにより、前記取得した入力情報を処理することで、運指を表す運指情報を生成する情報生成部、としてコンピュータシステムを機能させる。
A:第1実施形態
図1は、第1実施形態に係る情報処理システム100の構成を例示するブロック図である。情報処理システム100は、利用者Uによる弦楽器200の演奏を解析するためのコンピュータシステム(演奏解析システム)である。弦楽器200は、例えば、指板と複数の弦とを含むアコースティックギター等の自然楽器である。第1実施形態の情報処理システム100は、利用者Uによる弦楽器200の演奏における運指を解析する。運指は、弦楽器200の演奏において利用者Uが自身の指を使用する方法である。具体的には、利用者Uが各弦を指板に対して押圧(以下「押弦」という)する指と、指板上における押弦の位置(弦とフレットとの組合せ)とが、弦楽器200の運指として解析される。
図1は、第1実施形態に係る情報処理システム100の構成を例示するブロック図である。情報処理システム100は、利用者Uによる弦楽器200の演奏を解析するためのコンピュータシステム(演奏解析システム)である。弦楽器200は、例えば、指板と複数の弦とを含むアコースティックギター等の自然楽器である。第1実施形態の情報処理システム100は、利用者Uによる弦楽器200の演奏における運指を解析する。運指は、弦楽器200の演奏において利用者Uが自身の指を使用する方法である。具体的には、利用者Uが各弦を指板に対して押圧(以下「押弦」という)する指と、指板上における押弦の位置(弦とフレットとの組合せ)とが、弦楽器200の運指として解析される。
情報処理システム100は、制御装置11と記憶装置12と操作装置13と表示装置14と収音装置15と撮像装置16とを具備する。情報処理システム100は、例えばスマートフォンまたはタブレット端末等の可搬型の情報装置、またはパーソナルコンピュータ等の可搬型または据置型の情報装置により実現される。なお、情報処理システム100は、単体の装置として実現されるほか、相互に別体で構成された複数の装置でも実現される。
制御装置11は、情報処理システム100の動作を制御する単数または複数のプロセッサである。具体的には、例えばCPU(Central Processing Unit)、GPU(Graphics Processing Unit)、SPU(Sound Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、またはASIC(Application Specific Integrated Circuit)等の1種類以上のプロセッサにより、制御装置11が構成される。
記憶装置12は、制御装置11が実行するプログラムと、制御装置11が使用する各種のデータとを記憶する単数または複数のメモリである。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置12として利用される。なお、例えば、情報処理システム100に対して着脱される可搬型の記録媒体、または、制御装置11が通信網を介してアクセス可能な記録媒体(例えばクラウドストレージ)が、記憶装置12として利用されてもよい。
操作装置13は、利用者Uによる操作を受付ける入力機器である。例えば、利用者Uが操作する操作子、または、利用者Uによる接触を検知するタッチパネルが、操作装置13として利用される。表示装置14は、制御装置11による制御のもとで各種の画像を表示する。例えば、液晶表示パネルまたは有機ELパネル等の各種の表示パネルが、表示装置14として利用される。なお、情報処理システム100とは別体の操作装置13または表示装置14が、情報処理システム100に対して有線または無線により接続されてもよい。
収音装置15は、利用者Uによる演奏で弦楽器200から発音される楽音を収音することで音響信号Qxを生成するマイクロホンである。音響信号Qxは、弦楽器200が発音する楽音の波形を表す信号である。なお、情報処理システム100とは別体の収音装置15が、有線または無線により情報処理システム100に接続されてもよい。音響信号Qxをアナログからデジタルに変換するA/D変換器の図示は便宜的に省略されている。
撮像装置16は、利用者Uが弦楽器200を演奏する様子を撮像することで画像信号Qyを生成する。画像信号Qyは、利用者Uが弦楽器200を演奏する動画を表す信号である。具体的には、撮像装置16は、撮影レンズ等の光学系と、光学系からの入射光を受光する撮像素子と、撮像素子による受光量に応じた画像信号Qyを生成する処理回路とを具備する。なお、情報処理システム100とは別体の撮像装置16が、有線または無線により情報処理システム100に接続されてもよい。
図2は、撮像装置16が撮像する画像に関する説明図である。画像信号Qyが表す画像(以下「演奏画像」という)Gは、奏者画像Gaと楽器画像Gbとを含む。奏者画像Gaは、弦楽器200を演奏する利用者Uの画像である。楽器画像Gbは、利用者Uが演奏する弦楽器200の画像である。奏者画像Gaは、利用者Uの左手の画像(以下「左手画像」という)Ga1と、利用者Uの右手の画像(以下「右手画像」という)Ga2とを含む。以下の説明においては、利用者Uが左手で押弦し、右手で撥弦する場合を想定する。ただし、利用者Uが左手で撥弦し、右手で押弦してもよい。楽器画像Gbは、弦楽器の指板の画像(以下「指板画像」という)Gb1を含む。
図3は、情報処理システム100の機能的な構成を例示するブロック図である。制御装置11は、記憶装置12に記憶されたプログラムを実行することで、利用者Uによる弦楽器200の演奏を解析するための複数の機能(情報取得部21,情報生成部22,提示処理部23)を実現する。
情報取得部21は、入力情報Cを取得する。入力情報Cは、音情報Xと指情報Yとを含む制御データである。音情報Xは、利用者Uが弦楽器200により演奏する楽音に関するデータである。指情報Yは、弦楽器200を演奏する利用者Uの演奏画像Gに関するデータである。情報取得部21による入力情報Cの生成は、利用者Uによる弦楽器200の演奏に並行して順次に反復される。第1実施形態の情報取得部21は、音響解析部211と画像解析部212とを含む。
音響解析部211は、音響信号Qxの解析により音情報Xを生成する。第1実施形態の音情報Xは、利用者Uが弦楽器200により演奏した音高を指定する。すなわち、音響解析部211は、音響信号Qxが表す音響の音高を推定し、当該音高を指定する音情報Xを生成する。なお、音響信号Qxの音高の推定には、公知の解析技術が任意に採用される。
また、音響解析部211は、音響信号Qxの解析により発音点を順次に検出する。発音点は、弦楽器200による発音が開始される時点(すなわちオンセット)である。具体的には、音響解析部211は、音響信号Qxの音量を所定の周期で順次に特定し、音量が所定の閾値を上回る時点を発音点として検出する。なお、利用者Uの撥弦により弦楽器200は発音する。したがって、弦楽器200の発音点は、利用者Uが弦楽器200を撥弦する時点とも換言される。
音響解析部211は、発音点の検出を契機として音情報Xを生成する。すなわち、弦楽器200の発音点毎に音情報Xが生成される。例えば、音響解析部211は、音響信号Qxのうち、各発音点から所定の時間(例えば150ミリ秒)が経過した時点のサンプルを解析することで、音情報Xを生成する。各発音点に対応する音情報Xは、当該発音点において発音される楽音の音高を表す情報である。
画像解析部212は、画像信号Qyの解析により指情報Yを生成する。第1実施形態の指情報Yは、利用者Uの左手画像Ga1と弦楽器200の指板画像Gb1とを表す。画像解析部212は、音響解析部211による発音点の検出を契機として指情報Yを生成する。すなわち、弦楽器200の発音点毎に指情報Yが生成される。例えば、画像解析部212は、画像信号Qyのうち、各発音点から所定の時間(例えば150ミリ秒)が経過した時点の演奏画像Gを解析することで、指情報Yを生成する。各発音点に対応する指情報Yは、当該発音点における左手画像Ga1と指板画像Gb1とを表す。
図4は、画像解析部212が指情報Yを生成する処理(以下「画像解析処理」という)Sa3のフローチャートである。発音点の検出を契機として画像解析処理Sa3が開始される。画像解析処理Sa3が開始されると、画像解析部212は、画像検出処理を実行する(Sa31)。画像検出処理は、画像信号Qyが表す演奏画像Gから、利用者Uの左手画像Ga1と当該弦楽器200の指板画像Gb1とを抽出する処理である。画像検出処理には、例えば、深層ニューラルネットワーク等の統計モデルを利用した物体検出処理が利用される。
画像解析部212は、画像変換処理を実行する(Sa32)。画像変換処理は、図2に例示される通り、指板画像Gb1が、所定の方向および距離から指板を観測した画像に変換されるように、演奏画像Gを変換する画像処理である。例えば、画像解析部212は、所定の方向に配置された長方形の基準画像Grefに指板画像Gb1が近似するように、演奏画像Gを変換する。利用者Uの左手画像Ga1も指板画像Gb1とともに変換される。画像変換処理には、指板画像Gb1と基準画像Grefとから生成される変換行列を演奏画像Gに作用させる射影変換等の公知の画像処理が利用される。画像解析部212は、画像変換処理後の演奏画像Gを表す指情報Yを生成する。
以上の説明の通り、音情報Xおよび指情報Yは発音点毎に生成される。すなわち、情報取得部21は、弦楽器200の発音点毎に入力情報Cを生成する。相異なる発音点に対応する複数の入力情報Cの時系列が生成される。
図3の情報生成部22は、入力情報Cを利用して運指情報Zを生成する。運指情報Zは、弦楽器200の運指を表す任意の形式のデータである。具体的には、運指情報Zは、弦楽器200の押弦に使用される1以上の指の指番号と、当該指による押弦位置とを指定する。押弦位置は、例えば、弦楽器200の複数の弦のうちの何れかと、指板に設置された複数のフレットの何れかとの組合せにより指定される。
前述の通り、入力情報Cは発音点毎に生成される。したがって、情報生成部22は、発音点毎に運指情報Zを生成する。すなわち、相異なる発音点に対応する複数の運指情報Zの時系列が生成される。各発音点に対応する運指情報Zは、当該発音点における運指を表す情報である。以上の説明から理解される通り、第1実施形態においては、弦楽器200の発音点毎に、入力情報Cの取得と運指情報Zの生成とが実行される。したがって、利用者Uが押弦しているけれども撥弦はしていない状態において、運指情報が無駄に生成されることを抑制できる。ただし、発音点とは無関係な所定の周期により、入力情報Cの取得と運指情報Zの生成とが反復されてもよい。
情報生成部22による運指情報Zの生成には生成モデルMが利用される。具体的には、情報生成部22は、生成モデルMにより入力情報Cを処理することで運指情報Zを生成する。生成モデルMは、入力情報Cと運指情報Zとの関係を機械学習により学習した学習済モデルである。すなわち、生成モデルMは、入力情報Cに対して統計的に妥当な運指情報Zを出力する。
生成モデルMは、入力情報Cから運指情報Zを生成する演算を制御装置11に実行させるプログラムと、当該演算に適用される複数の変数(例えば加重値およびバイアス)との組合せで実現される。生成モデルMを実現するプログラムおよび複数の変数は、記憶装置12に記憶される。生成モデルMの複数の変数は、機械学習により事前に設定される。
生成モデルMは、例えば深層ニューラルネットワークで構成される。例えば、再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)、または畳込ニューラルネットワーク(CNN:Convolutional Neural Network)等の任意の形式の深層ニューラルネットワークが、生成モデルMとして利用される。複数種の深層ニューラルネットワークの組合せにより生成モデルMが構成されてもよい。また、長短期記憶(LSTM:Long Short-Term Memory)またはAttention等の付加的な要素が生成モデルMに搭載されてもよい。
提示処理部23は、運指情報Zを利用者Uに提示する。具体的には、提示処理部23は、図5に例示される参照画像R1を表示装置14に表示する。参照画像R1は、利用者Uによる弦楽器200の演奏に対応する譜面B(B1,B2)を含む。譜面B1は、運指情報Zが表す運指に対応する五線譜である。譜面B2は、運指情報Zが表す運指に対応するタブ譜である。すなわち、譜面B2は、弦楽器200の相異なる弦に対応する複数(6本)の横線を含む画像である。譜面B2においては、押弦位置に対応するフレットの番号が弦毎に時系列に表示される。提示処理部23は、運指情報Zの時系列を利用して譜面情報Pを生成する。譜面情報Pは、図5の譜面Bを表す任意の形式のデータである。提示処理部23は、譜面情報Pが表す譜面Bを表示装置14に表示する。
図6は、制御装置11が実行する処理(以下「演奏解析処理」という)Saのフローチャートである。例えば操作装置13に対する利用者Uからの指示を契機として演奏解析処理Saが開始される。
演奏解析処理Saが開始されると、制御装置11(音響解析部211)は、音響信号Qxの解析により発音点を検出するまで待機する(Sa1:NO)。発音点が検出された場合(Sa1:YES)、制御装置11(音響解析部211)は、音響信号Qxの解析により音情報Xを生成する(Sa2)。また、制御装置11(画像解析部212)は、図4の画像解析処理Sa3により指情報Yを生成する。なお、音情報Xの生成(Sa2)および指情報Yの生成(Sa3)の順序は反転されてもよい。以上の説明の通り、弦楽器200の発音点毎に入力情報Cが生成される。なお、所定の周期で入力情報Cが生成されてもよい。
制御装置11(情報生成部22)は、入力情報Cを生成モデルMにより処理することで運指情報Zを生成する(Sa4)。また、制御装置11(提示処理部23)は、運指情報Zを利用者Uに提示する(Sa5,Sa6)。具体的には、制御装置11は、譜面Bを表す譜面情報Pを運指情報Zから生成し(Sa5)、当該譜面情報Pが表す譜面Bを表示装置14に表示する(Sa6)。
制御装置11は、所定の終了条件が成立したか否かを判定する(Sa7)。終了条件は、例えば操作装置13に対する利用者Uからの演奏解析処理Saの終了が指示されたこと、または弦楽器200の最新の発音点から所定の時間が経過したことである。終了条件が成立しない場合(Sa7:NO)、制御装置11は処理をステップSa1に移行する。すなわち、入力情報Cの取得(Sa2,Sa3)と運指情報Zの生成(Sa4)と運指情報Zの提示(Sa5,Sa6)とが、弦楽器200の発音点毎に反復される。他方、終了条件が成立した場合(Sa7:YES)演奏解析処理Saは終了する。
以上の説明から理解される通り、第1実施形態においては、音情報Xと指情報Yとを含む入力情報Cを生成モデルMにより処理することで運指情報Zが生成される。したがって、利用者Uによる演奏で弦楽器200が発音する楽音(音響信号Qx)と、利用者Uが弦楽器200を演奏する画像(画像信号Qy)とに対応する運指情報Zを生成できる。すなわち、利用者Uによる弦楽器200の演奏に対応する運指情報Zを提供できる。第1実施形態においては特に、運指情報Zを利用して譜面情報Pが生成される。したがって、利用者Uは、譜面Bの表示により運指情報Zを有効に利用できる。
図7は、第1実施形態に係る機械学習システム400の構成を例示するブロック図である。機械学習システム400は、情報処理システム100が使用する生成モデルMを機械学習により確立するコンピュータシステムである。機械学習システム400は、制御装置41と記憶装置42とを具備する。
制御装置41は、機械学習システム400の各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置41は、CPU、GPU、SPU、DSP、FPGA、またはASIC等の1種類以上のプロセッサにより構成される。
記憶装置42は、制御装置41が実行するプログラムと、制御装置41が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置42は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体で構成される。複数種の記録媒体の組合せにより記憶装置42が構成されてもよい。なお、機械学習システム400に対して着脱される可搬型の記録媒体、または制御装置41が通信網を介してアクセス可能な記録媒体(例えばクラウドストレージ)が、記憶装置42として利用されてもよい。
図8は、機械学習システム400の機能的な構成を例示するブロック図である。記憶装置42は、複数の訓練データTを記憶する。複数の訓練データTの各々は、訓練用の入力情報Ctと訓練用の運指情報Ztとを含む教師データである。
訓練用の入力情報Ctは、音情報Xtと指情報Ytとを含む。音情報Xtは、多数の演奏者(以下「参照演奏者」という)が弦楽器201により演奏する楽音に関するデータである。具体的には、音情報Xtは、参照演奏者が弦楽器201により演奏した音高を指定する。また、指情報Ytは、参照演奏者の左手と当該弦楽器201の指板とを撮像した画像に関するデータである。具体的には、指情報Ytは、参照演奏者の左手の画像と弦楽器201の指板の画像とを表す。
訓練データTの運指情報Ztは、参照演奏者による弦楽器201の運指を表すデータである。すなわち、各訓練データTの運指情報Ztは、当該訓練データTの入力情報Ctに対して生成モデルMが生成すべき正解ラベルである。
具体的には、運指情報Ztは、参照演奏者が弦楽器201の押弦に使用する左手の指番号と、押弦位置とを指定する。運指情報Ztの押弦位置は、弦楽器201に設置された検出装置250が検出した位置である。検出装置250は、例えば弦楽器201の指板に設置された光学的または機械的なセンサである。なお、運指情報Ztの押弦位置の検出には、例えば米国特許第9646591号明細書に記載された技術等の公知の技術が任意に採用される。以上の説明から理解される通り、学習用の運指情報Ztは、弦楽器201に設置された検出装置250が参照演奏者による演奏を検出した結果を利用して生成される。したがって、生成モデルMの機械学習に利用される訓練データTを準備する負荷を軽減できる。
機械学習システム400の制御装置41は、記憶装置42に記憶されたプログラムを実行することで、生成モデルMを生成するための複数の機能(訓練データ取得部51、学習処理部52)を実現する。訓練データ取得部51は、複数の訓練データTを取得する。学習処理部52は、複数の訓練データTを利用した機械学習により生成モデルMを確立する。
図9は、制御装置41が機械学習により生成モデルMを確立する処理(以下「機械学習処理」という)Sbのフローチャートである。例えば、機械学習システム400の運営者からの指示を契機として機械学習処理Sbが開始される。
機械学習処理Sbが開始されると、制御装置41(訓練データ取得部51)は、複数の訓練データTの何れか(以下「選択訓練データT」という)を選択する(Sb1)。制御装置41(学習処理部52)は、初期的または暫定的な生成モデルM(以下「暫定モデルM0」という)の複数の係数を、選択訓練データTを利用して反復的に更新する(Sb2~Sb4)。
制御装置41は、選択訓練データTの入力情報Ctを暫定モデルM0により処理することで運指情報Zを生成する(Sb2)。制御装置41は、暫定モデルM0が生成する運指情報Zと選択訓練データTの運指情報Ztとの誤差を表す損失関数を算定する(Sb3)。制御装置41は、損失関数が低減(理想的には最小化)されるように、暫定モデルM0の複数の変数を更新する(Sb4)。損失関数に応じた各変数の更新には、例えば誤差逆伝播法が利用される。
制御装置41は、所定の終了条件が成立したか否かを判定する(Sb5)。終了条件は、損失関数が所定の閾値を下回ること、または、損失関数の変化量が所定の閾値を下回ることである。終了条件が成立しない場合(Sb5:NO)、制御装置41は、未選択の訓練データTを新たな選択訓練データTとして選択する(Sb1)。すなわち、終了条件の成立(Sb5:YES)まで、暫定モデルM0の複数の変数を更新する処理(Sb1~Sb4)が反復される。終了条件が成立した場合(Sb5:YES)、制御装置41は機械学習処理Sbを終了する。終了条件が成立した時点における暫定モデルM0が、訓練済の生成モデルMとして確定される。
以上の説明から理解される通り、生成モデルMは、複数の訓練データTにおける入力情報Ctと運指情報Ztとの間に潜在する関係を学習する。したがって、訓練済の生成モデルMは、以上の関係のもとで未知の入力情報Cに対して統計的に妥当な運指情報Zを出力する。
制御装置41は、機械学習処理Sbにより確立された生成モデルMを情報処理システム100に送信する。具体的には、生成モデルMを規定する複数の変数が、情報処理システム100に送信される。情報処理システム100の制御装置11は、機械学習システム400から送信された生成モデルMを受信し、当該生成モデルMを記憶装置12に保存する。
B:第2実施形態
第2実施形態を説明する。なお、以下に例示する各態様において機能が第1実施形態と同様である要素については、第1実施形態の説明と同様の符号を流用して各々の詳細な説明を適宜に省略する。
第2実施形態を説明する。なお、以下に例示する各態様において機能が第1実施形態と同様である要素については、第1実施形態の説明と同様の符号を流用して各々の詳細な説明を適宜に省略する。
第2実施形態における情報処理システム100の構成および動作は第1実施形態と同様である。したがって、第2実施形態においても第1実施形態と同様の効果が実現される。第2実施形態においては、機械学習処理Sbに適用される訓練データTの運指情報Ztが、第1実施形態とは相違する。
第1実施形態においては、複数の参照演奏者の各々による演奏に対応する入力情報Ct(音情報Xtおよび指情報Yt)と、各参照演奏者による演奏に対応する運指情報Ztとを含む訓練データTが、生成モデルMの機械学習処理Sbに利用される。すなわち、訓練データTにおける入力情報Ctと運指情報Ztとは、共通の参照演奏者による演奏に対応する。
第2実施形態において、各訓練データTの入力情報Ctは、第1実施形態と同様に、多数の参照演奏者による演奏に対応する情報(音情報Xtおよび指情報Yt)である。他方、第2実施形態における各訓練データTの運指情報Ztは、特定の1人の演奏者(以下「目標演奏者」という)による演奏時の運指を表す。目標演奏者は、例えば、特徴的な運指により弦楽器200を演奏する音楽アーティスト、または模範的な運指により弦楽器200を演奏する音楽指導者である。すなわち、第2実施形態の訓練データTにおける入力情報Ctと運指情報Ztとは、相異なる演奏者(参照演奏者/目標演奏者)による演奏に対応する。
訓練データTにおける目標演奏者の運指情報Ztは、当該目標演奏者が弦楽器を演奏する様子を撮影した画像を解析することで用意される。例えば、目標演奏者が出演する音楽ライブまたはミュージックビデオの画像から運指情報Ztが生成される。したがって、運指情報Ztには、目標演奏者に特有の運指が反映される。例えば、弦楽器の指板のうち特定の範囲内で押弦する頻度が高いといった傾向、または、左手の特定の指で押弦する頻度が高いといった傾向が、運指情報Ztに反映される。
以上の説明から理解される通り、第2実施形態の生成モデルMは、利用者Uによる演奏(音情報Xtおよび指情報Yt)に対応し、かつ、目標演奏者による運指の傾向が反映された運指情報Zを生成する。例えば、運指情報Zは、利用者Uと同様の楽曲を目標演奏者が演奏したと仮定した場合に、当該目標演奏者が採用する可能性が高い運指を表す。したがって、利用者Uは、運指情報Zに応じて表示される譜面Bを確認することで、当該利用者Uが演奏した楽曲を目標演奏者ならば如何なる運指により演奏するかを確認できる。
第2実施形態によれば、例えば音楽アーティストまたは音楽指導者等の目標演奏者は、自身の運指情報Zを多数の利用者Uに対して簡便に提供できるという顧客体験を享受できる。また、利用者Uは、所望の目標演奏者の運指情報Zを参照しながら弦楽器を練習するといった顧客体験を享受できる。
C:第3実施形態
図10は、第3実施形態における情報処理システム100の機能的な構成を例示するブロック図である。第3実施形態においては、相異なる目標演奏者に対応する複数の生成モデルMが選択的に利用される。複数の生成モデルMの各々は、第2実施形態の1個の生成モデルMに相当する。各目標演奏者に対応する1個の生成モデルMは、学習用の入力情報Ctと、当該目標演奏者による運指を表す学習用の運指情報Ztとの関係を学習したモデルである。
図10は、第3実施形態における情報処理システム100の機能的な構成を例示するブロック図である。第3実施形態においては、相異なる目標演奏者に対応する複数の生成モデルMが選択的に利用される。複数の生成モデルMの各々は、第2実施形態の1個の生成モデルMに相当する。各目標演奏者に対応する1個の生成モデルMは、学習用の入力情報Ctと、当該目標演奏者による運指を表す学習用の運指情報Ztとの関係を学習したモデルである。
具体的には、第3実施形態においては、目標演奏者毎に複数の訓練データTが用意される。各目標演奏者の生成モデルMは、当該目標演奏者の複数の訓練データTを利用した機械学習処理Sbにより確立される。したがって、各目標演奏者に対応する生成モデルMは、利用者Uによる演奏(音情報Xtおよび指情報Yt)に対応し、かつ、当該目標演奏者による運指の傾向が反映された運指情報Zを生成する。
利用者Uは、操作装置13を操作することで、複数の目標演奏者の何れかを選択可能である。情報生成部22は、利用者Uによる目標演奏者の選択を受付ける。情報生成部22は、複数の生成モデルMのうち利用者Uが選択した目標演奏者に対応する生成モデルMにより入力情報Cを処理することで、運指情報Zを生成する(Sa4)。したがって、生成モデルMが生成する運指情報Zは、利用者Uが選択した目標演奏者が利用者Uと同様の楽曲を演奏したと仮定した場合に、当該目標演奏者が採用する可能性が高い運指を表す。
第3実施形態においても第2実施形態と同様の効果が実現される。第3実施形態においては特に、相異なる目標演奏者に対応する複数の生成モデルMの何れかが選択的に利用される。したがって、各目標演奏者に特有の運指の傾向が反映された運指情報Zを生成できる。
D:第4実施形態
図11は、第4実施形態における情報処理システム100の機能的な構成を例示するブロック図である。第4実施形態の入力情報Cは、第1実施形態と同様の音情報Xおよび指情報Yに加えて識別情報Dを含む。識別情報Dは、複数の目標演奏者の何れかを識別するための符号列である。
図11は、第4実施形態における情報処理システム100の機能的な構成を例示するブロック図である。第4実施形態の入力情報Cは、第1実施形態と同様の音情報Xおよび指情報Yに加えて識別情報Dを含む。識別情報Dは、複数の目標演奏者の何れかを識別するための符号列である。
第3実施形態と同様に、利用者Uは、操作装置13を操作することで、複数の目標演奏者の何れかを選択可能である。情報取得部21は、利用者Uが選択した目標演奏者の識別情報Dを生成する。すなわち、情報取得部21は、音情報Xと指情報Yと識別情報Dとを含む入力情報Cを生成する。
図12は、第4実施形態における機械学習システム400の機能的な構成を例示するブロック図である。第4実施形態においては第3実施形態と同様に、目標演奏者毎に複数の訓練データTが用意される。各目標演奏者に対応する訓練データTは、第1実施形態と同様の音情報Xtおよび指情報Ytに加えて学習用の識別情報Dtを含む。識別情報Dtは、複数の目標演奏者の何れかを識別するための符号列である。また、各目標演奏者に対応する訓練データTの運指情報Ztは、当該目標演奏者による弦楽器200の運指を表す。すなわち、各目標演奏者の運指情報Ztには、当該目標演奏者による弦楽器200の演奏の傾向が反映される。
第3実施形態においては、各目標演奏者の複数の訓練データTを利用した機械学習処理Sbにより、目標演奏者毎に生成モデルMが個別に生成される。第4実施形態においては、相異なる目標演奏者に対応する複数の訓練データTを利用した機械学習処理Sbにより1個の生成モデルMが生成される。すなわち、第4実施形態の生成モデルMは、複数の目標演奏者の各々について、当該目標演奏者の識別情報Dを含む学習用の入力情報Ctと、当該目標演奏者による運指を表す学習用の運指情報Ztとの関係を学習したモデルである。したがって、生成モデルMは、利用者Uによる演奏(音情報Xtおよび指情報Yt)に対応し、かつ、当該利用者Uが選択した目標演奏者による運指の傾向が反映された運指情報Zを生成する。
以上に説明した通り、第4実施形態においても第2実施形態と同様の効果が実現される。第4実施形態においては特に、入力情報Cが目標演奏者の識別情報Dを含む。したがって、第3実施形態と同様に、各目標演奏者に固有の運指の傾向が反映された運指情報Zを生成できる。
E:第5実施形態
第5実施形態の提示処理部23は、運指情報Zを利用して図13の参照画像R2を表示装置14に表示する。なお、提示処理部23以外の構成および動作は、第1実施形態から第4実施形態と同様である。したがって、第5実施形態においても第1実施形態から第4実施形態と同様の効果が実現される。
第5実施形態の提示処理部23は、運指情報Zを利用して図13の参照画像R2を表示装置14に表示する。なお、提示処理部23以外の構成および動作は、第1実施形態から第4実施形態と同様である。したがって、第5実施形態においても第1実施形態から第4実施形態と同様の効果が実現される。
参照画像R2は、仮想空間内に存在する仮想的なオブジェクト(以下「仮想オブジェクト」という)Oを含む。仮想オブジェクトOは、仮想的な演奏者Oaが仮想的な弦楽器Obを演奏する様子を表す立体画像である。仮想駅な演奏者Oaは、弦楽器Obを押弦する左手Oa1と、弦楽器Obを撥弦する右手Oa2とを含む。仮想オブジェクトOの状態(特に左手Oa1の状態)は、情報生成部22が順次に生成する運指情報Zに応じて経時的に変化する。以上の通り、第5実施形態の提示処理部23は、仮想的な演奏者Oa(Oa1,Oa2)と仮想的な弦楽器Obとを表す参照画像R2を、表示装置14に表示する。
第5実施形態においても第1実施形態から第4実施形態と同様の効果が実現される。第5実施形態においては特に、運指情報Zが表す運指に対応する仮想的な演奏者Oaが、仮想的な弦楽器Obとともに表示装置14に表示される。したがって、利用者Uは、運指情報Zが表す運指を視覚的および直観的に確認できる。
なお、表示装置14は、利用者Uの頭部に装着されるHMD(Head Mounted Display)に搭載されてもよい。提示処理部23は、仮想空間内の仮想カメラにより撮影された仮想オブジェクトO(演奏者Oaおよび弦楽器Ob)を、参照画像R2として表示装置14に表示する。提示処理部23は、利用者Uの頭部の挙動(例えば位置および方向)に応じて、仮想空間内の仮想カメラの位置および方向を動的に制御する。したがって、利用者Uは、自身の頭部を適宜に移動することで、仮想空間内の任意の位置および方向から仮想オブジェクトOを視認できる。なお、表示装置14が搭載されたHMDは、仮想オブジェクトOの背景として利用者Uが現実空間を視認可能な透過型、および、仮想オブジェクトOが仮想空間の背景画像とともに表示される非透過型の何れでもよい。透過型のHMDは、例えば拡張現実(AR:Augmented Reality)または複合現実(MR:Mixed Reality)により仮想オブジェクトOを表示し、非透過型のHMDは、例えば仮想現実(VR:Virtual Reality)により仮想オブジェクトOを表示する。
また、表示装置14は、例えばインターネット等の通信網を介して情報処理システム100と通信可能な端末装置に搭載されてもよい。提示処理部23は、参照画像R2を表す画像データを端末装置に送信することで、当該端末装置の表示装置14に参照画像R2を表示する。端末装置の表示装置14は、利用者Uの頭部に装着されてもよいし頭部に装着されなくてもよい。
F:変形例
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。前述の実施形態および以下に例示する変形例から任意に選択された複数の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。前述の実施形態および以下に例示する変形例から任意に選択された複数の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
(1)前述の各形態においては、運指情報Zに対応する譜面Bを表示装置14に表示する形態を例示したが、運指情報Zの用途は以上の例示に限定されない。例えば、図14に例示される通り、提示処理部23が、運指情報Zと音情報Xとに応じたコンテンツNを生成してもよい。コンテンツNは、運指情報Zの時系列から生成される前述の譜面Bと、発音点毎の音情報Xが指定する音高の時系列とを含む。再生装置によりコンテンツが再生されると、譜面Bの表示に並行して、各音情報Xの音高に対応する楽音が再生される。したがって、コンテンツの視聴者は、楽曲の譜面Bを視認しながら、当該楽曲の演奏音を聴取できる。以上のコンテンツは、例えば弦楽器200の演奏の練習または指導に使用される教材として有用である。
(2)前述の各形態においては、音情報Xが音高を指定する形態を例示したが、音情報Xが指定する情報は音高に限定されない。例えば、音響信号Qxの周波数特性が音情報Xとして使用されてもよい。音響信号Qxの周波数特性は、例えば強度スペクトル(振幅スペクトルまたはパワースペクトル)またはMFCC(Mel-Frequency Cepstrum Coefficients)等の情報である。また、音響信号Qxを構成するサンプルの時系列が音情報Xとして使用されてもよい。以上の例示から理解される通り、音情報Xは、利用者Uが弦楽器200により演奏する音に関する情報として包括的に表現される。
(3)前述の各形態においては、音響信号Qxの解析により音情報Xを生成する形態を例示したが、音情報Xを生成する方法は以上の例示に限定されない。例えば、図15に例示される通り、電子弦楽器202から順次に供給される演奏情報Eから音響解析部211が音情報Xを生成してもよい。電子弦楽器202は、利用者Uによる演奏を表す演奏情報Eを出力するMIDI(Musical Instrument Digital Interface)楽器である。演奏情報Eは、利用者Uが演奏した音高および強度を指定するイベントデータであり、利用者Uによる撥弦毎に電子弦楽器202から出力される。音響解析部211は、例えば、演奏情報Eに含まれる音高を音情報Xとして生成する。音響解析部211は、演奏情報Eから発音点を検出してもよい。例えば、発音を意味する演奏情報Eが電子弦楽器202から供給された時点が、発音点として検出される。
(4)前述の各形態においては、音響信号Qxの解析により弦楽器200の発音点を検出したが、発音点を検出する方法は以上の例示に限定されない。例えば、画像解析部212は、画像信号Qyの解析により弦楽器200の発音源を検出してもよい。前述の通り、画像信号Qyが表す奏者画像Gaは、利用者Uが撥弦に使用する右手の右手画像Ga2を含む。画像解析部212は、右手画像Ga2を演奏画像Gから抽出し、当該右手画像Ga2の変化を解析することで撥弦を検出する。利用者Uによる撥弦の時点が発音点として検出される。
(5)例えばギター等の弦楽器200を演奏する手法として、複数の楽音の各々を順番に演奏するアルペジオ奏法と、和音を構成する複数の楽音を略同時に演奏するストローク奏法とがある。弦楽器200の演奏(特に発音点)の解析においては、アルペジオ奏法とストローク奏法とを区別してもよい。例えば、所定の閾値を上回る間隔で順次に演奏される複数の楽音については、楽音毎に発音点が検出される(アルペジオ奏法)。他方、所定の閾値を下回る間隔で演奏される複数の楽音については、複数の楽音について共通の1個の発音点が検出される(ストローク奏法)。以上の通り、発音点の検出に弦楽器200の奏法が反映されてもよい。また、時間軸上において発音点を離散化してもよい。発音点が離散化される形態においては、所定の閾値を下回る間隔で発音された複数の楽音について1個の発音点が特定される。
(6)前述の各形態においては、指情報Yが左手画像Ga1と指板画像Gb1とを含む形態を例示したが、指情報Yが、左手画像Ga1および指板画像Gb1に加えて右手画像Ga2を含む形態も想定される。以上の構成によれば、利用者Uの左手による押弦に加えて右手による撥弦も、運指情報Zの生成に反映される。同様に、各訓練データTの入力情報Ctにおける指情報Ytが、参照演奏者が撥弦に使用する右手の画像を含む形態も想定される。
(7)前述の各形態においては、指情報Yが奏者画像Ga(左手画像Ga1および右手画像Ga2)と楽器画像Gb(指板画像Gb1)とを含む形態を例示したが、指情報Yの形式は任意である。演奏画像Gから抽出される特徴点の座標を、画像解析部212が指情報Yとして生成してもよい。指情報Yは、例えば、利用者Uの左手画像Ga1における各節点(例えば関節または先端)の座標、または、弦楽器200の指板画像Gb1において各弦と各フレットとが交差する地点の座標を指定する。右手画像Ga2が指情報Yに反映される形態において、指情報Yは、例えば利用者Uの右手画像Ga2における各節点(例えば関節または先端)の座標を指定する。以上の例示から理解される通り、指情報Yは、奏者画像Gaと楽器画像Gbとに関する情報として包括的に表現される。
(8)第3実施形態においては、利用者Uからの指示に応じて複数の生成モデルMの何れかを選択したが、生成モデルMを選択する方法は以上の例示に限定されない。すなわち、複数の目標演奏者の何れかを選択する方法は任意である。例えば、外部装置からの指示または所定の演算処理の結果に応じて、情報生成部22が複数の生成モデルMの何れかを選択してもよい。第4実施形態においても同様に、複数の目標演奏者の何れかを選択する方法は任意である。例えば、外部装置からの指示または所定の演算処理の結果に応じて、情報取得部21が複数の目標演奏者の何れかの識別情報Dを生成してもよい。
(9)前述の各形態においては、運指情報Zを生成するための生成モデルMとして深層ニューラルネットワークを例示したが、生成モデルMの形態は以上の例示に限定されない。例えば、HMM(Hidden Markov Model)またはSVM(Support Vector Machine)等の統計モデルが、生成モデルMとして利用されてもよい。
(10)前述の各形態においては、入力情報Cと運指情報Zとの関係を学習した生成モデルMを利用したが、入力情報Cから運指情報Zを生成するための構成および方法は、以上の例示に限定されない。例えば、相異なる複数の入力情報Cの各々に運指情報Zが対応付けられた参照テーブルが、情報生成部22による運指情報Zの生成に利用されてもよい。参照テーブルは、入力情報Cと運指情報Zとの対応が登録されたデータテーブルであり、例えば記憶装置12に記憶される。情報生成部22は、情報取得部21が取得した入力情報Cに対応する運指情報Zを参照テーブルから検索する。
(11)前述の各形態においては、機械学習システム400が生成モデルMを確立したが、生成モデルMを確立する機能(訓練データ取得部51および学習処理部52)は、情報処理システム100に搭載されてもよい。
(12)前述の各形態においては、指番号と押弦位置とを指定する運指情報Zを例示したが、運指情報Zの形態は以上の例示に限定されない。例えば、指番号と押弦位置とで規定される通常の運指に加えて、音楽的な表現のための各種の演奏法が、運指情報Zにより指定されてもよい。運指情報Zが指定する演奏法としては、例えば、ビブラート,スライド,グリッサンド,プリング,ハンマリングまたはチョーキング等が例示される。演奏法の推定には公知の表情推定モデルが利用される。
(13)弦楽器200の種類は任意である。弦楽器200は、弦の振動により発音する楽器として包括的に表現され、例えば撥弦楽器と擦弦楽器とを含む。撥弦楽器は、撥弦により発音する弦楽器200である。撥弦楽器には、例えばアコースティックギター、エレキギター、アコースティックベース、エレキベース、ウクレレ、バンジョー、マンドリン、琴または三味線等が含まれる。擦弦楽器は、擦弦により発音する弦楽器である。擦弦楽器には、例えばバイオリン、ビオラ、チェロまたはコントラバス等が含まれる。以上に例示した任意の種類の弦楽器を対象として、演奏の解析のために本開示が適用される。
(14)例えばスマートフォンまたはタブレット端末等の端末装置との間で通信するサーバ装置により、情報処理システム100が実現されてもよい。例えば、情報処理システム100の情報取得部21は、音響信号Qx(または演奏情報E)と画像信号Qyとを端末装置から受信し、音響信号Qxに応じた音情報Xと画像信号Qyに応じた指情報Yとを生成する。情報生成部22は、音情報Xと指情報Yとを含む入力情報Cから運指情報Zを生成する。提示処理部23は、運指情報Zから譜面情報Pを生成し、当該譜面情報Pを端末装置に送信する。端末装置の表示装置は、譜面情報Pが表す譜面Bを表示する。
なお、音響解析部211および画像解析部212が端末装置に搭載された構成において、情報取得部21は、音情報Xおよび指情報Yを端末装置から受信する。以上の説明から理解される通り、情報取得部21は、音情報Xおよび指情報Yを生成する要素、または、音情報Xおよび指情報Yを端末装置等の他装置から受信する要素である。すなわち、音情報Xおよび指情報Yの「取得」には、生成および受信の双方が包含される。
また、提示処理部23が端末装置に搭載された構成においては、情報生成部22が生成した運指情報Zが情報処理システム100から端末装置に送信される。提示処理部23は、運指情報Zから譜面情報Pを生成して表示装置に表示する。以上の説明から理解される通り、情報処理システム100から提示処理部23は省略されてもよい。
(15)前述の各形態に係る情報処理システム100の機能は、前述の通り、制御装置11を構成する単数または複数のプロセッサと、記憶装置12に記憶されたプログラムとの協働により実現される。以上に例示したプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記録媒体が、前述の非一過性の記録媒体に相当する。
G:付記
以上に例示した形態から、例えば以下の構成が把握される。
以上に例示した形態から、例えば以下の構成が把握される。
本開示のひとつの態様(態様1)に係る情報処理方法は、弦楽器を演奏する利用者の指および当該弦楽器の指板の画像に関する指情報と、前記利用者が前記弦楽器により演奏する音に関する音情報とを含む入力情報を取得し、学習用の入力情報と学習用の運指情報との関係を学習した生成モデルにより、前記取得した入力情報を処理することで、運指を表す運指情報を生成する。以上の態様においては、指情報と音情報とを含む入力情報を機械学習済の生成モデルにより処理することで運指情報が生成される。すなわち、利用者が弦楽器を演奏するときの運指に関する運指情報を提供できる。
「指情報」は、利用者の指の画像と弦楽器の指板の画像とに関する任意の形式のデータである。例えば、利用者の指の画像と弦楽器の指板の画像とを表す画像情報、または、画像情報の解析により生成される解析情報が、指情報として利用される。解析情報は、例えば、利用者の指の各節点(関節または先端)の座標を表す情報、節点間の線分を表す情報、指板を表す情報、指板上のフレットを表す情報である。
「音情報」は、利用者が弦楽器により演奏する音に関する任意の形式のデータである。例えば、音情報は、利用者が演奏した音の特徴量を表す。特徴量は、例えば音高または周波数特性であり、例えば弦楽器の弦の振動を表す音響信号の解析により特定される。また、例えばMIDI形式の演奏情報を出力する弦楽器においては、当該演奏情報の音高を指定する音情報が生成される。音響信号のサンプルの時系列が音情報として利用されてもよい。
「運指情報」は、弦楽器の運指を表す任意の形式のデータである。例えば、押弦する指を表す指番号と、押弦の位置(フレットおよび弦の組合せ)とが、運指情報として利用される。
「生成モデル」は、入力情報と運指情報との関係を機械学習により習得した学習済モデルである。生成モデルの機械学習には複数の訓練データが利用される。各訓練データは、学習用の入力情報と学習用の運指情報(正解ラベル)とを含む。例えば深層ニューラルネットワーク(DNN:Deep Neural Network)、隠れマルコフモデル(HMM:Hidden Markov Model)、またはSVM(Support Vector Machine)等の各種の統計モデルが、生成モデルとして例示される。
態様1の具体例(態様2)において、さらに、前記弦楽器の発音点を検出し、前記発音点毎に前記入力情報の取得と前記運指情報の生成とを実行する。以上の態様においては、弦楽器の発音点毎に入力情報の取得と運指情報の生成とが実行される。したがって、利用者が押弦しているけれども発音操作を実行していない状態において運指情報が無駄に生成されることを抑制できる。「発音操作」は、押弦操作に対応する音を弦楽器に発音させるための利用者の動作である。具体的には、発音操作は、例えば撥弦楽器に対する撥弦動作、または擦弦楽器に対する擦弦動作である。
態様1または態様2の具体例(態様3)において、さらに、前記利用者による前記弦楽器の演奏に対応する譜面を表す譜面情報を、前記運指情報を利用して生成する。以上の態様においては、運指情報を利用して譜面情報が生成される。利用者は、譜面の出力(例えば表示または印刷)により運指情報を有効に利用できる。「譜面情報」が表す「譜面」は、例えば弦楽器の各弦について押弦位置が表示されたタブ譜である。ただし、各音高の演奏に使用される指番号が指定された五線譜を、譜面情報が表す形態も想定される。
態様1から態様3の何れかの具体例(態様4)において、さらに、前記運指情報が表す運指に対応する仮想的な演奏者と、当該指により演奏される仮想的な弦楽器とを表す参照画像を、表示装置に表示する。以上の態様においては、運指情報が表す運指に対応する仮想的な指が仮想的な弦楽器とともに表示装置に表示されるから、利用者は、運指情報が表す運指を視覚的および直観的に確認できる。
態様4の具体例(態様5)において、前記表示装置は、前記利用者の頭部に装着され、前記参照画像の表示においては、前記利用者の頭部の挙動に応じて仮想空間内の位置および方向が制御される仮想カメラにより、前記仮想空間内の前記仮想的な演奏者と前記仮想的な弦楽器とを撮影した画像を、前記参照画像として前記表示装置に表示する。以上の態様によれば、仮想的な演奏者と仮想的な弦楽器とを、利用者は所望の位置および方向から視認できる。
態様4または態様5の具体例(態様6)において、前記参照画像の表示においては、前記参照画像を表す画像データを、通信網を介して端末装置に送信することで、当該端末装置の前記表示装置に前記参照画像を表示する。以上の態様によれば、運指情報を生成する機能が端末装置に搭載されていなくても、運指情報に対応する仮想的な演奏者および弦楽器を、端末装置の利用者が視認できる。
態様1から態様6の何れかの具体例(態様7)において、さらに、前記音情報と前記運指情報とに応じたコンテンツを生成する。以上の態様によれば、音情報と運指情報との対応を確認できるコンテンツを生成できる。以上のコンテンツは、弦楽器の演奏の練習または指導に有用である。
態様1から態様7の何れかの具体例(態様8)において、前記入力情報は、複数の演奏者の何れかの識別情報を含み、前記生成モデルは、前記複数の演奏者の各々について、当該演奏者の識別情報を含む前記学習用の入力情報と、当該演奏者による運指を表す前記学習用の運指情報との関係を学習したモデルである。以上の態様においては、入力情報が演奏者の識別情報を含む。したがって、各演奏者に特有の運指の傾向が反映された運指情報を生成できる。
態様1から態様7の何れかの具体例(態様9)において、前記運指情報の生成においては、相異なる演奏者に対応する複数の生成モデルの何れかにより、前記取得した入力情報を処理することで、前記運指情報を生成し、前記複数の生成モデルの各々は、前記学習用の入力情報と、当該生成モデルに対応する演奏者による運指を表す前記学習用の運指情報と、の関係を学習したモデルである。以上の態様においては、相異なる演奏者に対応する複数の単位モデルの何れかが選択的に利用される。したがって、各演奏者に特有の運指の傾向が反映された運指情報を生成できる。
態様1から態様9の何れかの具体例(態様10)において、前記学習用の運指情報は、弦楽器に設置された検出装置が演奏者による演奏を検出した結果を利用して生成される。以上の態様においては、弦楽器に設置された検出装置による検出結果を利用して、学習用の運指情報が生成される。したがって、生成モデルの機械学習に利用される訓練データを準備する負荷を軽減できる。
本開示のひとつの態様(態様11)に係る情報処理システムは、弦楽器を演奏する利用者の指および当該弦楽器の指板の画像に関する指情報と、前記利用者が前記弦楽器により演奏する音に関する音情報とを含む入力情報を取得する情報取得部と、学習用の入力情報と学習用の運指情報との関係を学習した生成モデルにより、前記取得した入力情報を処理することで、運指を表す運指情報を生成する情報生成部とを具備する。
本開示のひとつの態様(態様12)に係るプログラムは、弦楽器を演奏する利用者の指および当該弦楽器の指板の画像に関する指情報と、前記利用者が前記弦楽器により演奏する音に関する音情報とを含む入力情報を取得する情報取得部、および、学習用の入力情報と学習用の運指情報との関係を学習した生成モデルにより、前記取得した入力情報を処理することで、運指を表す運指情報を生成する情報生成部、としてコンピュータシステムを機能させる。
100…情報処理システム、200,201…弦楽器、202…電子弦楽器、250…検出装置、11,41…制御装置、12,42…記憶装置、13…操作装置、14…表示装置、15…収音装置、16…撮像装置、21…情報取得部、211…音響解析部、212…画像解析部、22…情報生成部、23…提示処理部、400…機械学習システム、51…訓練データ取得部、52…学習処理部。
Claims (12)
- 弦楽器を演奏する利用者の指および当該弦楽器の指板の画像に関する指情報と、前記利用者が前記弦楽器により演奏する音に関する音情報とを含む入力情報を取得し、
学習用の入力情報と学習用の運指情報との関係を学習した生成モデルにより、前記取得した入力情報を処理することで、運指を表す運指情報を生成する
コンピュータシステムにより実現される情報処理方法。 - さらに、前記弦楽器の発音点を検出し、
前記発音点毎に前記入力情報の取得と前記運指情報の生成とを実行する
請求項1の情報処理方法。 - さらに、前記利用者による前記弦楽器の演奏に対応する譜面を表す譜面情報を、前記運指情報を利用して生成する
請求項1または請求項2の情報処理方法。 - さらに、前記運指情報が表す運指に対応する仮想的な演奏者と、当該指により演奏される仮想的な弦楽器とを表す参照画像を、表示装置に表示する
請求項1から請求項3の何れかの情報処理方法。 - 前記表示装置は、前記利用者の頭部に装着され、
前記参照画像の表示においては、前記利用者の頭部の挙動に応じて仮想空間内の位置および方向が制御される仮想カメラにより、前記仮想空間内の前記仮想的な演奏者と前記仮想的な弦楽器とを撮影した画像を、前記参照画像として前記表示装置に表示する
請求項4の情報処理方法。 - 前記参照画像の表示においては、前記参照画像を表す画像データを、通信網を介して端末装置に送信することで、当該端末装置の前記表示装置に前記参照画像を表示する
請求項4または請求項5の情報処理方法。 - さらに、前記音情報と前記運指情報とに応じたコンテンツを生成する
請求項1から請求項6の何れかの情報処理方法。 - 前記入力情報は、複数の演奏者の何れかの識別情報を含み、
前記生成モデルは、前記複数の演奏者の各々について、当該演奏者の識別情報を含む前記学習用の入力情報と、当該演奏者による運指を表す前記学習用の運指情報との関係を学習したモデルである
請求項1から請求項7の何れかの情報処理方法。 - 前記運指情報の生成においては、相異なる演奏者に対応する複数の生成モデルの何れかにより、前記取得した入力情報を処理することで、前記運指情報を生成し、
前記複数の生成モデルの各々は、前記学習用の入力情報と、当該生成モデルに対応する演奏者による運指を表す前記学習用の運指情報と、の関係を学習したモデルである
請求項1から請求項7の何れかの情報処理方法。 - 前記学習用の運指情報は、弦楽器に設置された検出装置が演奏者による演奏を検出した結果を利用して生成される
請求項1から請求項9の何れかの情報処理方法。 - 弦楽器を演奏する利用者の指および当該弦楽器の指板の画像に関する指情報と、前記利用者が前記弦楽器により演奏する音に関する音情報とを含む入力情報を取得する情報取得部と、
学習用の入力情報と学習用の運指情報との関係を学習した生成モデルにより、前記取得した入力情報を処理することで、運指を表す運指情報を生成する情報生成部と
を具備する情報処理システム。 - 弦楽器を演奏する利用者の指および当該弦楽器の指板の画像に関する指情報と、前記利用者が前記弦楽器により演奏する音に関する音情報とを含む入力情報を取得する情報取得部、および、
学習用の入力情報と学習用の運指情報との関係を学習した生成モデルにより、前記取得した入力情報を処理することで、運指を表す運指情報を生成する情報生成部、
としてコンピュータシステムを機能させるプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022049259A JP7528971B2 (ja) | 2022-03-25 | 2022-03-25 | 情報処理方法、情報処理システムおよびプログラム |
PCT/JP2022/048174 WO2023181570A1 (ja) | 2022-03-25 | 2022-12-27 | 情報処理方法、情報処理システムおよびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022049259A JP7528971B2 (ja) | 2022-03-25 | 2022-03-25 | 情報処理方法、情報処理システムおよびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023142375A true JP2023142375A (ja) | 2023-10-05 |
JP7528971B2 JP7528971B2 (ja) | 2024-08-06 |
Family
ID=88100910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022049259A Active JP7528971B2 (ja) | 2022-03-25 | 2022-03-25 | 情報処理方法、情報処理システムおよびプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7528971B2 (ja) |
WO (1) | WO2023181570A1 (ja) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005241877A (ja) | 2004-02-25 | 2005-09-08 | Yamaha Corp | 運指指示装置およびプログラム |
JP5590350B2 (ja) | 2012-09-24 | 2014-09-17 | ブラザー工業株式会社 | 楽曲演奏装置及び楽曲演奏用プログラム |
-
2022
- 2022-03-25 JP JP2022049259A patent/JP7528971B2/ja active Active
- 2022-12-27 WO PCT/JP2022/048174 patent/WO2023181570A1/ja unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023181570A1 (ja) | 2023-09-28 |
JP7528971B2 (ja) | 2024-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7223913B2 (en) | Method and apparatus for sensing and displaying tablature associated with a stringed musical instrument | |
US6995310B1 (en) | Method and apparatus for sensing and displaying tablature associated with a stringed musical instrument | |
US11749246B2 (en) | Systems and methods for music simulation via motion sensing | |
US11557269B2 (en) | Information processing method | |
US10748515B2 (en) | Enhanced real-time audio generation via cloud-based virtualized orchestra | |
CN102610222A (zh) | 音乐转录的方法,系统和装置 | |
JP7432124B2 (ja) | 情報処理方法、情報処理装置およびプログラム | |
US20150206521A1 (en) | Device, method and system for making music | |
US20210350783A1 (en) | Sound signal synthesis method, neural network training method, and sound synthesizer | |
Kapur | Digitizing North Indian music: preservation and extension using multimodal sensor systems, machine learning and robotics | |
Chudy | Discriminating music performers by timbre: On the relation between instrumental gesture, tone quality and perception in classical cello performance | |
JP7528971B2 (ja) | 情報処理方法、情報処理システムおよびプログラム | |
JP7544154B2 (ja) | 情報処理システム、電子楽器、情報処理方法およびプログラム | |
JP6733487B2 (ja) | 音響解析方法および音響解析装置 | |
Freire et al. | Real-Time Symbolic Transcription and Interactive Transformation Using a Hexaphonic Nylon-String Guitar | |
Nichols II | The vbow: An expressive musical controller haptic human-computer interface | |
WO2022172732A1 (ja) | 情報処理システム、電子楽器、情報処理方法および機械学習システム | |
Scherrer | Physically-informed indirect acquisition of instrumental gestures on the classical guitar: Extracting the angle of release | |
WO2023182005A1 (ja) | データ出力方法、プログラム、データ出力装置および電子楽器 | |
US20210366453A1 (en) | Sound signal synthesis method, generative model training method, sound signal synthesis system, and recording medium | |
Gómez | Modeling instrumental gestures: an analysis/synthesis framework for violin bowing | |
Franjou | Arty: Expressive timbre transfer using articulation detection for guitar | |
Laurson et al. | Production of virtual acoustic guitar music | |
Poepel | An investigation of audio signal-driven sound synthesis with a focus on its use for bowed stringed synthesisers | |
Lazcano | Sonifying Physical Gesture: Sensor Augmented Electric Guitar |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230601 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240625 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240708 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7528971 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |