JP7069768B2 - 情報処理方法、情報処理装置およびプログラム - Google Patents

情報処理方法、情報処理装置およびプログラム Download PDF

Info

Publication number
JP7069768B2
JP7069768B2 JP2018019140A JP2018019140A JP7069768B2 JP 7069768 B2 JP7069768 B2 JP 7069768B2 JP 2018019140 A JP2018019140 A JP 2018019140A JP 2018019140 A JP2018019140 A JP 2018019140A JP 7069768 B2 JP7069768 B2 JP 7069768B2
Authority
JP
Japan
Prior art keywords
data
performance
control
analysis
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018019140A
Other languages
English (en)
Other versions
JP2019139294A (ja
Inventor
陽 前澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2018019140A priority Critical patent/JP7069768B2/ja
Priority to PCT/JP2019/004114 priority patent/WO2019156091A1/ja
Publication of JP2019139294A publication Critical patent/JP2019139294A/ja
Priority to US16/985,434 priority patent/US20200365123A1/en
Priority to JP2022075889A priority patent/JP7432124B2/ja
Application granted granted Critical
Publication of JP7069768B2 publication Critical patent/JP7069768B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G1/00Means for the representation of music
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • G06F9/453Help systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Processing Or Creating Images (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

本発明は、演奏者等の実演者を表すオブジェクトの動作を制御するための技術に関する。
演奏者を表す画像であるオブジェクトの動作を、楽曲の演奏データに応じて制御する技術が従来から提案されている(特許文献1,2および非特許文献1,2)。例えば特許文献1には、演奏データが指定する音高に応じて、当該楽曲を演奏する演奏者の動画像を生成する技術が開示されている。
特開2000-10560号公報 特開2010-134790号公報
山本和樹ほか5名,"ピアノ演奏における自然な手指動作CGの自動生成",TVRSJ Vol.15 No.3 p.495-502,2010 釘本望美ほか5名,"モーションキャプチャを用いたピアノ演奏動作のCG表現と音楽演奏インタフェースへの応用",社団法人情報処理学会 研究報告,2007-MUS-72(15),2007/10/12
特許文献1の技術のもとでは、記憶装置に事前に記憶された演奏データがオブジェクトの動作の制御に利用される。したがって、演奏データにより指定される音符の発音の時点が動的に変化する状況では、オブジェクトの動作を適切に制御できない。以上の事情を考慮して、本発明は、各音符の発音の時点が可変である状況でもオブジェクトの動作を適切に制御することを目的とする。
以上の課題を解決するために、本発明の好適な態様に係る情報処理方法は、時間軸上の可変の時点における音符の発音を表す演奏データを順次に取得し、複数の単位期間の各々について、当該単位期間と、当該単位期間の前方および後方の期間とを含む解析期間内の音符の時系列を表す解析データを、前記演奏データの取得に並行して、当該演奏データの時系列から順次に生成し、実演者を表すオブジェクトの動作を制御するための制御データを、前記演奏データの取得に並行して、前記解析データから順次に生成する。
本発明の好適な態様に係る情報処理装置は、時間軸上の可変の時点における音符の発音を表す演奏データを順次に取得し、複数の単位期間の各々について、当該単位期間と、当該単位期間の前方および後方の期間とを含む解析期間内の音符の時系列を表す解析データを、前記演奏データの取得に並行して、当該演奏データの時系列から順次に生成する解析データ生成部と、実演者を表すオブジェクトの動作を制御するための制御データを、前記演奏データの取得に並行して、前記解析データから順次に生成する制御データ生成部とを具備する。
本発明の実施形態に係る演奏システムの構成を例示するブロック図である。 情報処理装置の機能的な構成を例示するブロック図である。 表示装置による表示画面の説明図である。 解析データの説明図である。 制御データの説明図である。 制御データ生成部の構成を例示するブロック図である。 第1統計モデルの構成を例示するブロック図である。 第2統計モデルの構成を例示するブロック図である。 教師データの説明図である。 動作制御処理を例示するフローチャートである。
<本発明の好適な形態>
図1は、本発明の好適な形態に係る演奏システム100の構成を例示するブロック図である。演奏システム100は、演奏者Pが所在する音響ホール等の空間に設置されたコンピュータシステムである。演奏者Pは、例えば楽器の演奏者または楽曲の歌唱者である。演奏システム100は、演奏者Pによる楽曲の演奏に並行して当該楽曲の自動演奏を実行する。
図1に例示される通り、演奏システム100は、情報処理装置11と演奏装置12と収音装置13と表示装置14とを具備する。情報処理装置11は、演奏システム100の各要素を制御するコンピュータシステムであり、例えばタブレット端末またはパーソナルコンピュータ等の情報端末で実現される。
演奏装置12は、情報処理装置11による制御のもとで楽曲の自動演奏を実行する。具体的には、演奏装置12は、駆動機構121と発音機構122とを具備する自動演奏楽器(例えば自動演奏ピアノ)である。発音機構122は、自然楽器の鍵盤楽器と同様に、鍵盤の各鍵の変位に連動して弦(発音体)を発音させる打弦機構を鍵毎に具備する。駆動機構121は、発音機構122を駆動することで対象楽曲の自動演奏を実行する。情報処理装置11からの指示に応じて駆動機構121が発音機構122を駆動することで自動演奏が実現される。なお、情報処理装置11を演奏装置12に搭載してもよい。
収音装置13は、演奏者Pによる演奏で発音された音響(例えば楽器音または歌唱音)を収音するマイクロホンである。収音装置13は、音響の波形を表す音響信号Aを生成する。なお、電気弦楽器等の電気楽器から出力される音響信号Aを利用してもよい。したがって、収音装置13は省略され得る。表示装置14は、情報処理装置11による制御のもとで各種の画像を表示する。例えば液晶表示パネルまたはプロジェクタが表示装置14として好適に利用される。
図1に例示される通り、情報処理装置11は、制御装置111と記憶装置112とを具備するコンピュータシステムで実現される。制御装置111は、例えばCPU(Central Processing Unit)等の処理回路であり、演奏システム100を構成する各要素(演奏装置12,収音装置13および表示装置14)を統括的に制御する。制御装置111は、少なくとも1個の回路を含んで構成される。
記憶装置(メモリ)112は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せで構成され、制御装置111が実行するプログラムと制御装置111が使用する各種のデータとを記憶する。なお、演奏システム100とは別体の記憶装置112(例えばクラウドストレージ)を用意し、移動体通信網またはインターネット等の通信網を介して制御装置111が記憶装置112に対する書込および読出を実行してもよい。すなわち、記憶装置112を演奏システム100から省略してもよい。
本実施形態の記憶装置112は、楽曲データDを記憶する。楽曲データDは、例えばMIDI(Musical Instrument Digital Interface)規格に準拠した形式のファイル(SMF:Standard MIDI File)である。楽曲データDは、楽曲を構成する音符の時系列を指定する。具体的には、楽曲データDは、音符を指定して演奏を指示する演奏データEと、各演奏データEの読出の時点を指定する時間データとが配列された時系列データである。演奏データEは、例えば音符の音高と強度とを指定する。時間データは、例えば相前後する演奏データEの読出の間隔を指定する。
図2は、情報処理装置11の機能的な構成を例示するブロック図である。図2に例示される通り、制御装置111は、記憶装置112に記憶されたプログラムに従って複数のタスクを実行することで、図2に例示された複数の機能(演奏制御部21,解析データ生成部22,制御データ生成部23および表示制御部24)を実現する。なお、複数の装置の集合(すなわちシステム)で制御装置111の機能を実現してもよいし、制御装置111の機能の一部または全部を専用の電子回路(例えば信号処理回路)で実現してもよい。また、演奏装置12と収音装置13と表示装置14とが設置された音響ホール等の空間から離間した位置にあるサーバ装置が、制御装置111の一部または全部の機能を実現してもよい。
演奏制御部21は、楽曲データDの各演奏データEを演奏装置12に対して順次に出力するシーケンサである。演奏装置12は、演奏制御部21から順次に供給される演奏データEで指定された音符を演奏する。本実施形態の演奏制御部21は、演奏装置12による自動演奏が演奏者Pによる実演奏に追従するように、演奏装置12に対する演奏データEの出力の時点を可変に制御する。演奏者Pが楽曲の各音符を演奏する時点は、当該演奏者Pが意図する音楽的な表現等に起因して動的に変化する。したがって、演奏制御部21が演奏装置12に演奏データEを出力する時点も可変である。
具体的には、演奏制御部21は、楽曲内で演奏者Pが現に演奏している時点(以下「演奏時点」という)を音響信号Aの解析により推定する。演奏時点の推定は、演奏者Pによる実演奏に並行して順次に実行される。演奏時点の推定には、例えば特開2015-79183号公報等の公知の音響解析技術(スコアアライメント)が任意に採用され得る。演奏制御部21は、演奏装置12による自動演奏が演奏時点の進行に同期するように各演奏データEを演奏装置12に出力する。具体的には、演奏制御部21は、楽曲データDの各時間データにより指定された時点に演奏時点が到達するたびに、当該時間データに対応する演奏データEを演奏装置12に出力する。したがって、演奏装置12による自動演奏の進行が演奏者Pによる実演奏に同期する。すなわち、演奏装置12と演奏者Pとが相互に協調して合奏しているかのような雰囲気が演出される。
表示制御部24は、図3に例示される通り、仮想的な演奏者を表す画像(以下「演奏者オブジェクト」という)Obを表示装置14に表示させる。演奏者オブジェクトObが演奏する鍵盤楽器を表す画像も演奏者オブジェクトObとともに表示装置14に表示される。図3に例示された演奏者オブジェクトObは、演奏者の両腕部と胸部と頭部とを含む上半身を表す画像である。表示制御部24は、演奏装置12による自動演奏に並行して演奏者オブジェクトObを動的に変化させる。具体的には、演奏装置12による自動演奏に連動した演奏動作を演奏者オブジェクトObが実行するように、表示制御部24は演奏者オブジェクトObを制御する。例えば、自動演奏のリズムで演奏者オブジェクトObが身体を揺動させ、自動演奏による音符の発音時には演奏者オブジェクトObが押鍵の動作を実行する。したがって、表示装置14による表示画像を視認する利用者(例えば演奏者Pまたは観客)は、演奏者オブジェクトObが楽曲を演奏しているかのような感覚を知覚することが可能である。図2の解析データ生成部22および制御データ生成部23は、演奏者オブジェクトObの動作を自動演奏に連動させるための要素である。
解析データ生成部22は、自動演奏される各音符の時系列を表す解析データXを生成する。解析データ生成部22は、演奏制御部21が出力する演奏データEを順次に取得し、演奏データEの時系列から解析データXを生成する。演奏制御部21が出力する演奏データEの取得に並行して、時間軸上の複数の単位期間(フレーム)の各々について解析データXが順次に生成される。すなわち、演奏者Pによる実演奏および演奏装置12による自動演奏に並行して解析データXが順次に生成される。
図4は、解析データXの説明図である。本実施形態の解析データXは、K行N列の行列(以下「演奏行列」という)Zを表す(K,Nは自然数)。演奏行列Zは、演奏制御部21が順次に出力する演奏データEの時系列を表す2値行列である。演奏行列Zの横方向は時間軸に相当する。演奏行列Zの任意の1列は、N個(例えば60個)の単位期間のうちの1個の単位期間に対応する。また、演奏行列Zの縦方向は音高軸に相当する。演奏行列Zの任意の1行は、K個(例えば128個)の音高のうちの1個の音高に対応する。演奏行列Zのうち第k行第n列(k=1~K,n=1~N)の1個の要素は、第n列に対応する単位期間において第k行に対応する音高が発音されるか否かを表す。具体的には、任意の音高に対応する第k行のN個の要素のうち、当該音高が発音される各単位期間に対応する要素は「1」に設定され、当該音高が発音されない各単位期間に対応する要素は「0」に設定される。
時間軸上の1個の単位期間(以下「特定単位期間」という)U0について生成される解析データXは、図4に例示される通り、特定単位期間U0を含む解析期間Q内の音符の時系列を表す。時間軸上の複数の単位期間の各々が時系列の順番で順次に特定単位期間U0として選択される。解析期間Qは、特定単位期間U0を含むN個の単位期間で構成される期間である。すなわち、演奏行列Zの第n列は、解析期間Qを構成するN個の単位期間のうち第n番目の単位期間に対応する。具体的には、解析期間Qは、1個の特定単位期間U0(現在)と、特定単位期間U0の前方(過去)に位置する期間U1と、特定単位期間U0の後方(未来)に位置する期間U2とで構成される。期間U1および期間U2の各々は、複数の単位期間で構成された約1秒程度の期間である。
演奏行列Zのうち期間U1内の各単位期間に対応する要素は、演奏制御部21から既に取得した各演奏データEに応じて「1」または「0」に設定される。他方、演奏行列Zのうち期間U2内の各単位期間に対応する要素(すなわち、演奏データEを未だ取得していない未来の期間に対応する要素)は、特定単位期間U0以前の音符の時系列と楽曲データDとから予測される。期間U2内の各単位期間に対応する要素の予測には、公知の時系列解析技術(例えば線形予測またはカルマンフィルタ)が任意に採用される。以上の説明から理解される通り、解析データXは、演奏者Pによる演奏に応じた可変の時点で発音される音符の時系列を表すデータである。
図2の制御データ生成部23は、演奏者オブジェクトObの動作を制御するための制御データYを、解析データ生成部22が生成した解析データXから生成する。制御データYは、単位期間毎に順次に生成される。具体的には、任意の1個の単位期間の解析データXから当該単位期間の制御データYが生成される。演奏制御部21による演奏データEの出力に並行して制御データYが生成される。すなわち、演奏者Pによる実演奏および演奏装置12による自動演奏に並行して制御データYの時系列が生成される。以上の例示の通り、本実施形態では、演奏装置12による自動演奏と制御データYの生成とに共通の演奏データEが利用される。したがって、演奏装置12による自動演奏と制御データYの生成とに別個のデータを利用する構成と比較して、演奏装置12による自動演奏に連動した動作をオブジェクトに実行させるための処理が簡素化されるという利点がある。
図5は、演奏者オブジェクトObおよび制御データYの説明図である。図5に例示される通り、演奏者オブジェクトObは、複数の制御点41と複数の連結部42(リンク)とで骨格が表現される。各制御点41は、仮想空間内で移動可能な点であり、連結部42は、各連結部42を相互に連結する直線である。図3および図5から理解される通り、楽器の演奏に直接的に関与する両腕部だけでなく、演奏中に揺動する胸部および頭部にも、連結部42および制御点41が設定される。各制御点41を移動させることで演奏者オブジェクトObの動作が制御される。以上に説明した通り、本実施形態では、両腕部に加えて胸部および頭部にも制御点41が設定されるから、両腕部により楽器を演奏する動作だけでなく、演奏中に胸部および頭部を揺動させる動作を含む自然な演奏動作を、演奏者オブジェクトObに実行させることができる。すなわち、演奏者オブジェクトObが仮想的な演奏者として自動演奏しているような演出を実現できる。なお、制御点41および連結部42の位置または個数は任意であり、以上の例示には限定されない。
制御データ生成部23が生成する制御データYは、座標空間内における複数の制御点41の各々の位置を表すベクトルである。本実施形態の制御データYは、図5に例示される通り、相互に直交するAx軸とAy軸とが設定された2次元座標空間内における各制御点41の座標を表す。制御データYが表す各制御点41の座標は、複数の制御点41について平均が0で分散が1となるように正規化されている。複数の制御点41の各々についてAx軸上の座標とAy軸上の座標とを配列したベクトルが制御データYとして利用される。ただし、制御データYの形式は任意である。以上に例示した制御データYの時系列は、演奏者オブジェクトObの動作(すなわち、各制御点41および各連結部42の経時的な移動)を表現する。
本実施形態の制御データ生成部23は、図6に例示される通り、学習済モデルMを利用して解析データXから制御データYを生成する。学習済モデルMは、解析データXと制御データYとの関係を学習した統計的予測モデル(典型的にはニューラルネットワーク)であり、解析データXの入力に対して制御データYを出力する。本実施形態の学習済モデルMは、図6に例示される通り、第1統計モデルMaと第2統計モデルMbとを直列に接続した構成である。
第1統計モデルMaは、解析データXの特徴を表す特徴ベクトルFを生成する。例えば特徴の抽出に好適な畳込みニューラルネットワーク(CNN:Convolutional Neural Network)が第1統計モデルMaとして好適に利用される。図7に例示される通り、第1統計モデルMaは、例えば第1層La1と第2層La2と全結合層La3とを積層した構成である。第1層La1および第2層La2の各々は、畳込層と最大プーリング層とで構成される。
第2統計モデルMbは、特徴ベクトルFに応じた制御データYを生成する。例えば時系列データの処理に好適な長期短期記憶(LSTM:Long Short Term Memory)ユニットを含む再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)が第2統計モデルMbとして好適に利用される。具体的には、図8に例示される通り、第2統計モデルMbは、例えば第1層Lb1と第2層Lb2と全結合層Lb3とを積層した構成である。第1層Lb1および第2層Lb2の各々は、長期短期記憶ユニットで構成される。以上に例示した通り、本実施形態によれば、畳込みニューラルネットワークと再帰型ニューラルネットワークとの組合せにより、演奏データEの時系列に応じた適切な制御データYを生成できる。ただし、学習済モデルMの構成は任意であり、以上の例示には限定されない。
学習済モデルMは、解析データXから制御データYを生成する演算を制御装置111に実行させるプログラム(例えば人工知能ソフトウェアを構成するプログラムモジュール)と、当該演算に適用される複数の係数Cとの組合せで実現される。複数の係数Cは、多数の教師データTを利用した機械学習(特に深層学習)により設定されて記憶装置112に保持される。具体的には、第1統計モデルMaを規定する複数の係数Cと第2統計モデルMbを規定する複数の係数Cとが、複数の教師データTを利用した機械学習により一括的に設定される。
図9は、教師データTの説明図である。図9に例示される通り、複数の教師データTの各々は、解析データxと制御データyとの組合せを表す。演奏者オブジェクトObが仮想的に演奏する楽器と同種の楽器を特定の演奏者(以下「標本演奏者」という)が実際に演奏する場面を観測することで、機械学習用の複数の教師データTが収集される。具体的には、標本演奏者が演奏した音符の時系列を表す解析データxが順次に生成される。また、標本演奏者による演奏の様子を撮像した動画像から標本演奏者の各制御点の位置が特定され、各制御点の位置を表す制御データyが生成される。時間軸上の1個の時点について生成された解析データxと制御データyとを相互に対応させることで1個の教師データTが生成される。なお、複数の標本演奏者から教師データTを収集してもよい。
機械学習では、教師データTの解析データxを暫定的なモデルに入力したときに生成される制御データYと、当該教師データTの制御データy(すなわち正解)との差異を表す損失関数が最小化されるように、学習済モデルMの複数の係数Cが設定される。例えば、暫定的なモデルが生成する制御データYと教師データTの制御データyとの間の平均絶対誤差が損失関数として好適である。
なお、損失関数の最小化という条件だけでは、各制御点41の間隔(すなわち各連結部42の全長)が一定であることが保証されない。したがって、演奏者オブジェクトObの各連結部42が不自然に伸縮する可能性がある。そこで、本実施形態では、損失関数の最小化という条件のほか、制御データyが表す各制御点41の間隔の時間的な変化が最小化されるという条件のもとで、学習済モデルMの複数の係数Cが最適化される。したがって、各連結部42の伸縮が低減された自然な動作を演奏者オブジェクトObに実行させることが可能である。以上に説明した機械学習で生成された学習済モデルMは、標本演奏者による演奏内容と演奏時の身体の動作との関係から抽出される傾向のもとで、未知の解析データXに対して統計的に妥当な制御データYを出力する。また、第1統計モデルMaは、解析データXと制御データYとの間に以上の関係を成立させるために最適な特徴ベクトルFを抽出するように学習される。
図2の表示制御部24は、制御データ生成部23が単位期間毎に生成した制御データYに応じて演奏者オブジェクトObを表示装置14に表示させる。具体的には、制御データYで指定される座標に各制御点41が位置するように、演奏者オブジェクトObの状態が単位期間毎に更新される。単位期間毎に以上の制御が実行されることで各制御点41は経時的に移動する。すなわち、演奏者オブジェクトObは演奏動作を実行する。以上の説明から理解される通り、制御データYの時系列は演奏者オブジェクトObの動作を規定する。
図10は、演奏者オブジェクトObの動作を制御するための処理(以下「動作制御処理」という)を例示するフローチャートである。動作制御処理は、時間軸上の単位期間毎に実行される。動作制御処理を開始すると、解析データ生成部22は、特定単位期間U0とその前方および後方の期間(U1,U2)とを含む解析期間Q内の音符の時系列を表す解析データXを生成する(S1)。制御データ生成部23は、解析データ生成部22が生成した解析データXを学習済モデルMに入力することで制御データYを生成する(S2)。表示制御部24は、制御データ生成部23が生成した制御データYに応じて演奏者オブジェクトObを更新する(S3)。解析データXの生成(S1)と制御データYの生成(S2)と演奏者オブジェクトObの表示(S3)とは、演奏データEの取得に並行して実行される。
以上に説明した通り、本実施形態では、特定単位期間U0とその前後の期間とを含む解析期間Q内の解析データXから、演奏データEの取得に並行して、演奏者オブジェクトObの動作を制御するための制御データYが生成される。したがって、楽曲内の各音符の発音の時点が可変であるにも関わらず、演奏者オブジェクトObの動作を適切に制御できる。
また、本実施形態では、学習済モデルMに解析データXを入力することで制御データYが生成されるから、機械学習に利用された複数の教師データTから特定される傾向のもとで、未知の解析データXに対して統計的に妥当な動作を表す多様な制御データYを生成できる。また、複数の制御点41の各々の位置を示す座標が正規化されているから、多様なサイズの演奏者オブジェクトObの動作を制御データYにより制御できるという利点もある。
<変形例>
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
(1)前述の形態では、解析期間Q内の音符の時系列を表す2値行列を演奏行列Zとして例示したが、演奏行列Zは以上の例示に限定されない。例えば、解析期間Q内の音符の演奏強度(音量)を表す演奏行列Zを生成してもよい。具体的には、演奏行列Zのうち第k行第n列の1個の要素は、第n列に対応する単位期間において第k行に対応する音高が演奏される強度を表す。以上の構成によれば、各音符の演奏強度が制御データYに反映されるから、演奏強度の強弱に応じて演奏者の動作が相違する傾向を演奏者オブジェクトObの動作に付与することができる。
(2)前述の形態では、第1統計モデルMaが生成した特徴ベクトルFを第2統計モデルMbに入力したが、第1統計モデルMaが生成した特徴ベクトルFに他の要素を付加したうえで第2統計モデルMbに入力してもよい。例えば、演奏者Pによる楽曲の演奏時点(例えば小節線からの距離)、演奏速度、楽曲の拍子を表す情報、または演奏強度(例えば強度値もしくは強度記号)を、特徴ベクトルFに付加したうえで第2統計モデルMbに入力してもよい。
(3)前述の形態では、演奏装置12の制御に利用される演奏データEを演奏者オブジェクトObの制御にも流用したが、演奏データEを利用した演奏装置12の制御を省略してもよい。また、演奏データEは、MIDI規格に準拠したデータに限定されない。例えば、収音装置13が出力する音響信号Aの周波数スペクトルを演奏データEとして利用してもよい。演奏データEの時系列は、音響信号Aのスペクトログラムに相当する。音響信号Aの周波数スペクトルは、楽器が発音する音符の音高に対応した帯域にピークが観測されるから、音符の発音を表すデータに相当する。以上の説明から理解される通り、演奏データEは、音符の発音を表すデータとして包括的に表現される。
(4)前述の形態では、自動演奏の対象となる楽曲を演奏する演奏者を表す演奏者オブジェクトObを例示したが、制御データYにより動作が制御されるオブジェクトの態様は以上の例示に限定されない。例えば、演奏装置12による自動演奏に連動してダンスを実施するダンサーを表すオブジェクトを表示装置14に表示させてもよい。具体的には、楽曲に合わせてダンスするダンサーを撮像した動画像から制御点の位置が特定され、各制御点の位置を表すデータが教師データTの制御データyとして利用される。したがって、学習済モデルMは、演奏される音符とダンサーの身体の動作との関係から抽出される傾向を学習する。以上の説明から理解される通り、制御データYは、実演者(例えば演奏者またはダンサー)を表すオブジェクトの動作を制御するためのデータとして包括的に表現される。
(5)前述の形態に係る情報処理装置11の機能は、コンピュータ(例えば制御装置111)とプログラムとの協働により実現される。前述の形態に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされる。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を含む。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。
(6)学習済モデルMを実現するための人工知能ソフトウェアの実行主体はCPUに限定されない。例えば、Tensor Processing UnitおよびNeural Engine等のニューラルネットワーク用の処理回路、または、人工知能に専用されるDSP(Digital Signal Processor)が、人工知能ソフトウェアを実行してもよい。また、以上の例示から選択された複数種の処理回路が協働して人工知能ソフトウェアを実行してもよい。
<付記>
以上に例示した形態から、例えば以下の構成が把握される。
本発明の好適な態様(第1態様)に係る情報処理方法は、時間軸上の可変の時点における音符の発音を表す演奏データを順次に取得し、複数の単位期間の各々について、当該単位期間と、当該単位期間の前方および後方の期間とを含む解析期間内の音符の時系列を表す解析データを、前記演奏データの取得に並行して、当該演奏データの時系列から順次に生成し、実演者を表すオブジェクトの動作を制御するための制御データを、前記演奏データの取得に並行して、前記解析データから順次に生成する。以上の態様では、単位期間とその前後の期間とを含む解析期間内の解析データから、演奏データの取得に並行して、オブジェクトの動作を制御するための制御データが生成される。したがって、各音符の発音の時点が可変である状況でもオブジェクトの動作を適切に制御することができる。
第1態様の好適例(第2態様)に係る情報処理方法は、前記演奏データを順次に供給することで演奏装置に自動演奏を実行させる。以上の態様では、演奏装置による自動演奏と制御データの生成とに共通の演奏データが利用されるから、演奏装置による自動演奏に連動した動作をオブジェクトに実行させるための処理が簡素化されるという利点がある。
第2態様の好適例(第3態様)において、前記制御データは、前記オブジェクトによる楽器の演奏時の動作を制御するためのデータである。以上の態様によれば、オブジェクトが仮想的な演奏者として自動演奏しているような演出を実現できる。
100…演奏システム、11…情報処理装置、111…制御装置、112…記憶装置、12…演奏装置、121…駆動機構、122…発音機構、13…収音装置、14…表示装置、21…演奏制御部、22…解析データ生成部、23…制御データ生成部、24…表示制御部、41…制御点、42…連結部、M…学習済モデル、Ma…第1統計モデル、Mb…第2統計モデル。

Claims (11)

  1. 時間軸上の可変の時点における音符の発音を表す演奏データを順次に取得し、複数の単位期間の各々について、当該単位期間と、当該単位期間の前方および後方の期間とを含む解析期間内の音符の時系列を表す解析データを、前記演奏データの取得に並行して、当該演奏データの時系列から順次に生成し、
    解析データと制御データとの関係を学習した学習済モデルに、前記生成した解析データを入力することで、実演者を表すオブジェクトの動作を制御するための制御データを、前記演奏データの取得に並行し順次に生成する
    コンピュータにより実現される情報処理方法。
  2. 前記学習済モデルは、
    前記解析データの特徴を表す特徴ベクトルを当該解析データから生成する畳込みニューラルネットワークと、
    前記特徴ベクトルに応じた前記制御データを生成する再帰型ニューラルネットワークとを含む
    請求項1の情報処理方法。
  3. 演奏者による楽曲の演奏に追従するように前記演奏データが表す発音の時点を可変に制御し、
    前記再帰型ニューラルネットワークには、前記特徴ベクトルと、前記演奏者による前記楽曲の演奏に関する情報とが入力される
    請求項2の情報処理方法。
  4. 前記制御データは、前記オブジェクトにおける複数の制御点の各々の位置を表し、
    前記学習済モデルは、前記制御データが表す前記各制御点の間隔の時間的な変化が最小化されるという条件のもとで、機械学習される
    請求項1から請求項3の何れかの情報処理方法。
  5. 前記解析データは、前記解析期間内の2以上の単位期間の各々について、相異なる音高に対応する複数の要素を含み、前記各単位期間における前記複数の要素のうち当該単位期間において発音される音高に対応する要素と、当該単位期間において発音されない音高に対応する要素とは、相異なる数値に設定される
    請求項1から請求項4の何れかの情報処理方法。
  6. 前記各単位期間における前記複数の要素のうち当該単位期間において発音される音高に対応する要素は、当該単位期間における当該音高の演奏強度を表す数値に設定される
    請求項5の情報処理方法。
  7. 前記演奏データを順次に供給することで演奏装置に自動演奏を実行させる
    請求項1から請求項6の何れかの情報処理方法。
  8. 時間軸上の可変の時点における音符の発音を表す演奏データを順次に取得し、複数の単位期間の各々について、当該単位期間と、当該単位期間の前方および後方の期間とを含む解析期間内の音符の時系列を表す解析データを、前記演奏データの取得に並行して、当該演奏データの時系列から順次に生成する解析データ生成部と、
    解析データと制御データとの関係を学習した学習済モデルに、前記生成した解析データを入力することで、実演者を表すオブジェクトの動作を制御するための制御データを、前記演奏データの取得に並行し順次に生成する制御データ生成部と
    を具備する情報処理装置。
  9. 前記演奏データを順次に供給することで演奏装置に自動演奏を実行させる演奏制御部
    を具備する請求項の情報処理装置。
  10. 時間軸上の可変の時点における音符の発音を表す演奏データを順次に取得し、複数の単位期間の各々について、当該単位期間と、当該単位期間の前方および後方の期間とを含む解析期間内の音符の時系列を表す解析データを、前記演奏データの取得に並行して、当該演奏データの時系列から順次に生成する解析データ生成部、および、
    解析データと制御データとの関係を学習した学習済モデルに、前記生成した解析データを入力することで、実演者を表すオブジェクトの動作を制御するための制御データを、前記演奏データの取得に並行して順次に生成する制御データ生成部
    としてコンピュータを機能させるプログラム。
  11. さらに、
    前記演奏データを順次に供給することで演奏装置に自動演奏を実行させる演奏制御部
    として前記コンピュータを機能させる、請求項10のプログラム。
JP2018019140A 2018-02-06 2018-02-06 情報処理方法、情報処理装置およびプログラム Active JP7069768B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2018019140A JP7069768B2 (ja) 2018-02-06 2018-02-06 情報処理方法、情報処理装置およびプログラム
PCT/JP2019/004114 WO2019156091A1 (ja) 2018-02-06 2019-02-05 情報処理方法
US16/985,434 US20200365123A1 (en) 2018-02-06 2020-08-05 Information processing method
JP2022075889A JP7432124B2 (ja) 2018-02-06 2022-05-02 情報処理方法、情報処理装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018019140A JP7069768B2 (ja) 2018-02-06 2018-02-06 情報処理方法、情報処理装置およびプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022075889A Division JP7432124B2 (ja) 2018-02-06 2022-05-02 情報処理方法、情報処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2019139294A JP2019139294A (ja) 2019-08-22
JP7069768B2 true JP7069768B2 (ja) 2022-05-18

Family

ID=67549361

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2018019140A Active JP7069768B2 (ja) 2018-02-06 2018-02-06 情報処理方法、情報処理装置およびプログラム
JP2022075889A Active JP7432124B2 (ja) 2018-02-06 2022-05-02 情報処理方法、情報処理装置およびプログラム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2022075889A Active JP7432124B2 (ja) 2018-02-06 2022-05-02 情報処理方法、情報処理装置およびプログラム

Country Status (3)

Country Link
US (1) US20200365123A1 (ja)
JP (2) JP7069768B2 (ja)
WO (1) WO2019156091A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6699677B2 (ja) * 2018-02-06 2020-05-27 ヤマハ株式会社 情報処理方法、情報処理装置およびプログラム
JP6724938B2 (ja) * 2018-03-01 2020-07-15 ヤマハ株式会社 情報処理方法、情報処理装置およびプログラム
CN115699161A (zh) * 2020-06-09 2023-02-03 雅马哈株式会社 音响处理方法、音响处理系统及程序
JP7152535B2 (ja) * 2021-01-15 2022-10-12 ソフトバンク株式会社 情報処理プログラム及び情報処理装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6898759B1 (en) 1997-12-02 2005-05-24 Yamaha Corporation System of generating motion picture responsive to music
US20160104469A1 (en) 2013-05-23 2016-04-14 Yamaha Corporation Musical-performance analysis method and musical-performance analysis device

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08195070A (ja) * 1995-01-20 1996-07-30 Toyota Motor Corp 車載選曲装置
JP2002086378A (ja) * 2000-09-08 2002-03-26 Sony Corp 脚式ロボットに対する動作教示システム及び動作教示方法
US8358311B1 (en) * 2007-10-23 2013-01-22 Pixar Interpolation between model poses using inverse kinematics
JP6019858B2 (ja) * 2011-07-27 2016-11-02 ヤマハ株式会社 楽曲解析装置および楽曲解析方法
JP6295597B2 (ja) * 2013-10-22 2018-03-20 ヤマハ株式会社 複数人による協調演奏を実現する装置およびシステム
JP6313159B2 (ja) * 2014-08-15 2018-04-18 国立研究開発法人産業技術総合研究所 ダンス動作データ作成システム及びダンス動作データ作成方法
JP6337698B2 (ja) * 2014-08-29 2018-06-06 ヤマハ株式会社 音響処理装置
US10140745B2 (en) * 2015-01-09 2018-11-27 Vital Mechanics Research Inc. Methods and systems for computer-based animation of musculoskeletal systems
KR20170086317A (ko) * 2016-01-18 2017-07-26 한국전자통신연구원 타이밍 변환을 이용한 3차원 캐릭터 동작 생성 장치 및 방법
JP6805422B2 (ja) * 2016-03-08 2020-12-23 株式会社電通 装置、プログラム及び情報処理方法
US10535174B1 (en) * 2017-09-14 2020-01-14 Electronic Arts Inc. Particle-based inverse kinematic rendering system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6898759B1 (en) 1997-12-02 2005-05-24 Yamaha Corporation System of generating motion picture responsive to music
US20160104469A1 (en) 2013-05-23 2016-04-14 Yamaha Corporation Musical-performance analysis method and musical-performance analysis device

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
後藤真孝 ほか,仮想ジャズセッションシステム:VirJa Session,情報処理学会論文誌,日本,社団法人情報処理学会,1999年04月15日,第40巻, 第4号,p.1910-1921,ISSN 0387-5806
浜中雅俊,個性を模倣した仮想演奏者の実現,情報処理,日本,社団法人情報処理学会,2006年04月15日,第47巻, 第4号,p.374-380,ISSN 0447-8053
青谷芳宏 ほか,深層強化学習による移動マニピュレータの学習制御,ロボティクスメカトロニクス講演会2016講演会論文集,一般社団法人日本機械学会,2016年06月08日,p.(1P1-04b4(1))-(1P1-04b4(2))

Also Published As

Publication number Publication date
JP2019139294A (ja) 2019-08-22
WO2019156091A1 (ja) 2019-08-15
US20200365123A1 (en) 2020-11-19
JP7432124B2 (ja) 2024-02-16
JP2022115956A (ja) 2022-08-09

Similar Documents

Publication Publication Date Title
JP6699677B2 (ja) 情報処理方法、情報処理装置およびプログラム
JP7432124B2 (ja) 情報処理方法、情報処理装置およびプログラム
US9558727B2 (en) Performance method of electronic musical instrument and music
US10878789B1 (en) Prediction-based communication latency elimination in a distributed virtualized orchestra
JP6776788B2 (ja) 演奏制御方法、演奏制御装置およびプログラム
US10748515B2 (en) Enhanced real-time audio generation via cloud-based virtualized orchestra
US11749246B2 (en) Systems and methods for music simulation via motion sensing
US11869465B2 (en) Musical performance analysis method and musical performance analysis apparatus
Solis et al. Musical robots and interactive multimodal systems: An introduction
US20230090995A1 (en) Virtual-musical-instrument-based audio processing method and apparatus, electronic device, computer-readable storage medium, and computer program product
JP2018063315A (ja) 演奏システムおよび自動演奏方法
JP7528971B2 (ja) 情報処理方法、情報処理システムおよびプログラム
JP6838357B2 (ja) 音響解析方法および音響解析装置
Lopes et al. Tumaracatu: an ubiquitous digital musical experience of maracatu
WO2023170757A1 (ja) 再生制御方法、情報処理方法、再生制御システムおよびプログラム
WO2023032422A1 (ja) 処理方法、プログラムおよび処理装置
Luo et al. Learning to Play Guitar with Robotic Hands
JP2020129146A (ja) 自動演奏システムおよび自動演奏方法
JP3535360B2 (ja) 音響生成方法および音響生成装置および記録媒体
Frisson et al. ENTERFACE’09 COMPLETE PROJECT PROPOSAL: MULTIMODAL GUITAR: PERFORMANCE TOOLKIT AND/OR STUDY WORKBENCH
BAGHERI ZIDEH SARAEI The sound simulation of ancient musical instruments: state of the art and challenges

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220418

R151 Written notification of patent or utility model registration

Ref document number: 7069768

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151