JP2007225661A

JP2007225661A - 音楽情報解析方法及び装置

Info

Publication number: JP2007225661A
Application number: JP2006043560A
Authority: JP
Inventors: Shigeki Sagayama; 茂樹嵯峨山; Ryuichi Yoneda; 隆一米田; Takuya Nishimoto; 卓也西本
Original assignee: University of Tokyo NUC
Current assignee: University of Tokyo NUC
Priority date: 2006-02-21
Filing date: 2006-02-21
Publication date: 2007-09-06

Abstract

【課題】ラベル付け問題を処理する場合において、より広い文脈を重視した手法を提供する。
【解決手段】音楽情報を、マルコフ確率場を用いて周辺の文脈に依存するとしてモデル化し、前記マルコフ確率場モデルを用いて、入力された音楽情報に対してラベル付与を行う、音楽情報解析方法である。前記ラベル付与は、対旋律付与、和声付与、和声解析、ドミナント定型句の同定、調認識の少なくとも１つを含む。入力された音楽情報は、楽譜のテキストファイル、ＭＩＤＩファイルである。マルコフ確率場モデルは、最大エントロピーモデルである。
【選択図】図１

Description

本発明は、音楽情報解析に係り、詳しくは、Standard MIDI File、楽譜等のシンボリックな音楽情報を入力として対旋律、和音、調等のラベルを付与する手法に関するものである。

このような音楽のラベル付与問題は、音声認識における言語モデルとの類似性から、マルコフモデルを適用することが多かった。しかしながら、MIDI、楽譜などは、縦の和音、横の声部進行等、2次元的な情報であり、マルコフ連鎖のような一次元的なモデリングでは不十分であり、より広い文脈の重視が必須である。

和声付け、対位法についての研究が非特許文献１，２に記載されているが、これらの研究は、HMM、マルコフモデルに基づくため、基本的にとなり同士の和音間/音符間の状態遷移のみをみる。よって和声常套句の導入、リズム単語の導入等、HMMの階層化によるスムージングを必要とした。
川上隆, 中井満, 下平博, 嵯峨山茂樹,"隠れマルコフモデルを用いた旋律への自動和声付け,"情報処理学会研究報告(MUS), 99-MUS-34, pp.59-66, 2000. 中潟昌平, 西本卓也, 嵯峨山茂樹,"動的計画法と音列出現確率を用いた対位法の対旋律の自動生成,"情報処理学会研究報告(MUS), 2004-MUS-56, pp. 65-70,2004. A. L. Berger,S. A. Della Pietra, and V. J. Della Pietra,"A maximum entropy approach to natural language processing,"Computational Linguistics, 1996. AndrewMccallum, Dayne Freitag, Fernando Pereira,"Maximum Entropy Markov Models for Information Extraction and Segmentation," ICML 2000, 2000. J. Lafferty, A.McCallum, and F. Pereira,"Conditional Random Fields: Probabilistic models for segmenting andlabeling sequence data,"Proc. of ICML, 2001. Hanna M.Wallach,"ConditionalRandom Fields: An Introduction,"Technical ReportMS-CIS-04-21, Department of Computer and Information Science, University of Pennsylvania, 2004. J. Darroch andD. Ratcliff, "Generalizediterative scaling for log-linear models,"In Ann. Math.Statistics, 43, pp. 1470-1480, 1972. Dong C. Liu andJorge Nocedal, "On thelimited memory BFGS method for large scale optimization," Math. Programming 45(3, (Ser. B)), pp.503-528, 1989. Stanley F. Chen and Ronald. Rosenfeld. "A gaussian prior for smoothingmaximum entropy models," Technical report, CarnegieMellon University, 1999. Lance A.Ramshaw and Mitchell P. Marcus, "Text chunking using transformation-based learning," In Proceedings of the Third ACL Workshop on Very Large Corpora,1995 Kamal Nigam,John Lafferty and Andrew McCallum, "Using Maximum Entropy for Text Classification," In IJCAI-99 Workshop on Machine Learning for Information Filtering,pp. 61-67, 1999.

このような背景のもと、ラベル付け問題を処理する場合において、より広い文脈を重視した手法が要望されていた。

かかる課題を達成するために本発明が採用した音楽情報解析手段は、音楽情報を、マルコフ確率場を用いて周辺の文脈に依存するとしてモデル化し、前記マルコフ確率場モデルを用いて、入力された音楽情報に対してラベル付与を行うものである。本発明では、周辺の文脈に依存するラベル列のモデル化に適したマルコフ確率場モデルを音楽情報の解析に適用することで、シンボリックな音楽情報を入力とする種々のラベル付与を統一的な枠組みで扱うことができる。本発明の具体的な態様例として、対旋律付け、和声付け、ドミナント定型の同定、和声解析、調認識（転調の検出を含む）が挙げられる。各ラベル付与に適合するようなマルコフ確率場モデルが定義され（マルコフ確率場モデルの定義は、具体的には音楽的知識に基づく素性関数の定義によって行われる）、各マルコフ確率場モデルを用いて、対旋律付与、和声付与、和声解析、ドミナント定型句の同定、調認識が行われる。

本発明は、以下の構成で音楽情報解析を行う。先ず、マルコフ確率場を用いて、演奏情報および楽譜等における音階などの音楽情報を、周辺の文脈に依存する値としてモデル化を行う。具体的には、「数１」に示す式においてＶｃを素性関数ｆｉとそれに対応する重みλｉの積であるとみなす。素性関数ｆｉは通常ラベル（和声や調など解析結果として得たい情報）の有無を表す２値関数を用いる。これは、「数２」に示す最大エントロピーモデルにおける確率分布関数の式と本質的に同一である。最大エントロピーモデルの重みは、学習データセットを用いて学習する。最大エントロピーモデルのモデルパラメータの推定手段としては、1つの好ましい態様では、反復スケーリング法を用いた手段が挙げられる。

そして、入力された音楽情報に対して、マルコフ確率場モデルを用いて確率の積が最大となるラベル系列を探索する。１つの態様では、マルコフ確率場モデルを用いて確率が最大となるラベル系列を決定する際に、Maximum Entropy Markov Model (MEMM) の手法を用いる。MEMMの手法を用いる場合は、最大エントロピー法(ME)の順次適用により実現することができ、最適解の探索にはビームサーチ等が適用できる。１つの態様では、Conditional Random Fields (CRF) の手法を用いることができる。Conditional Random Fields (CRF) の手法を用いる場合は、MEの特殊形、かつ、HMMの一般化に相当する手法となり、入力系列そのものに関するグローバルな最適解が得られる。MEMM, CRF ともに、モデルパラメータλの推定には反復スケーリング法、または L-BFGS を適用することができる。

本発明では、音楽情報解析においてマルコフ確率場(最大エントロピーモデル) を用いて、音楽的知識を素性関数の設計（エッジの設計）という操作に還元することにより、汎用性が高く高性能な手法を実現する。マルコフ確率場(Markov random field)モデルは、ノード間の関連をエッジであらわす一種の無向グラフモデルであり、エッジを設計することにより広い文脈を柔軟に設定できる。

ここで素性関数を設計する際に用いられる音楽的知識についてより具体的に説明する。「(2声の)対位法」においては、「2声間の音程に制約がある」、「平行5度音程は禁止されている」、「同一音程の4度以上連続は禁止されている」が例示される。「和声付け」においては、「典型的な和声の終止定型(曲末に至る数個の和音系列)の存在(e.g. II-I-V-I-曲末)」、「複数旋律が入力であれば、同時刻に鳴る音高の組み合わせから和音の決定が可能」、「楽曲は局所的にカデンツ(和音Iに代表されるトニックや、和音Vに代表されるドミナントと呼ばれる和音機能の数個の系列)を形成している」が例示される。「調認識、転調検出」においては、「調の認識は、旋律、分散和音などの音高情報の認識に基づく」、「調の認識は12種の音高の頻度分布に基づく」が例示される。

本発明に係る確率モデルを構築するための素性関数について具体的に説明する。「和声付け」においては、素性関数は、「現和音、現音高のペア」の事例の有無をあらわす2値関数であり、「現音高」の部分は様々な文脈を設定できるが、経験的には以下が好ましい。現音高；1個先の音高；2個先の音高；1個前の音高；2個前の音高；現音高、1個先の音高の組み合わせ；現音高、1個前の音高の組み合わせ；である。「対位法」においては、「定旋律の現音高、対旋律の現音高のペア」をみる。複数旋律からの和音推定の場合は、それぞれの声部に対して「現和音、現音高のペア」をみる。現音高は複数あるため、現音高の組み合わせをみることも可能である。「調認識、転調検出」においては、楽曲全体あるいは楽曲の一部(2〜3小節)に対する音高頻度(12種の音高で正規化)をみる。尚、上記の素性関数は例示に過ぎないものであって、本発明で用いられる素性関数はこれらに限定されるものではなく、その他の素性関数の設計が可能である。

図２Ａ〜Ｃは、マルコフ確率場のグラフによる表現を示す。黒のノードは入力、グレイのノードは出力、グレイの線で囲まれた領域は最適解を表す。本発明の幾つかの態様では、前記ラベル付与は、対旋律付け、和声付け、和声解析、ドミナント定型句の同定、調認識の少なくとも１つを含む。一つの態様例では、和声解析は図２Ａの概念図のようにMEMMを用いて、各声部の音高と前和音から最尤の和音を求める操作を繰返し適用していく。１つの態様例では、対旋律付けおよび和声付けは、図２Ｂの概念図のようにCRFを用いて、入力系列そのものから、グローバルな最適解を求める。１つの態様例では、調認識は図２Ｃの概念図の構造を使用し、楽曲全体の音高頻度により調を決定する。

さらに、マルコフ確率場(最大エントロピーモデル)によるラベル付けについて、和音推定を例にとって説明する。図３Ａに示す３段の３つの式は、素性関数を例示するものである。上段の式は、前音高がmiであり現和音がIであれば1を返し、そうでない場合0を返す関数である。つまり、そのような事例が観測されたかどうかを表す。中段の式は、原音高がsoであり現和音がIであれば1を返し、そうでない場合0を返す関数である。下段の式は、前音高がmi、原音高がsoであり現和音がIであれば1を返し、そうでない場合0を返す関数である。図３Ａに、さらに、簡単な文脈設計の例を示す。ここでは現和音ｙを決定する際、前音高ｘ_１と現在音高ｘ_２に依存すると考える。図３Ｂ上図における２つの楽譜において、左は学習データを示し、各音高に対して予め正解の和音が付与されている。枠は現和音がIであるような文脈に着目していることを示している。右は、和音を付与しようとするテストデータであり、この例に限り(説明の簡単化のため)先頭の和音(I)は既知であるとする。図３Ｂ下図は、学習データにて観測された事例の個数を書き込む図であり、ｘ_１、ｘ_２、ｙを３軸とする３次元図である。図３Ｃ上図は、３次元図にて観測事例の個数をすべて書きこんだ後、yが(例えば) I の部分を切り出したものである。尚、図３Ｂ下図，３Ｃにおいて数値は単なる例示に過ぎない。図３Ｃ中図は、上図と中図で、各素性関数が活性化する(値が１となる)部分の合計が一致するようエントロピーを最大にした結果を示す。エントロピーとは、直観的には「一様さの度合」である。前音高(ｘ₁)、現音高(ｘ₂)ともにとり得る値はdo,re,miの3個であり、素性関数は次の6個となる：「x₁=do＆y=I」、「x₁=re＆y=I」、「x₁=mi＆y=I」、「x₂=do＆y=I」、「x₂=re＆y=I」、「x₂=mi＆y=I」。図３Ｃ下図は、すべてのyについて(ここではIの他IV,Vも同様に)エントロピー最大化をおこなった後、あるテスト事例ｘ₁,ｘ₂(２つの楽譜のうち右の枠に相当)に対し各和音の持つ確率を算出(合計が1になるよう正規化)した結果である。和音としてI（確率が最も大きい）が選択されて、ラベル付けが行われる。

本発明は、音楽情報解析装置、音楽情報付与のためのコンピュータプログラム、あるいは当該プログラムを記録した記録媒体としても提供され得る。本発明が採用した音楽情報解析装置は、音楽情報を入力する手段と、音楽情報を周辺の文脈に依存してモデル化したマルコフ確率場モデルを格納する手段と、入力された音楽情報に対してマルコフ確率場モデルを適用して条件付き確率を算出する手段と、算出された条件付き確率に基づいて、入力された音楽情報にラベルを付与する手段と、からなる。1つの態様では、前記マルコフ確率場モデルを格納する手段は、音楽的知識に基づいて定義された素性関数を格納している。本発明に係る音楽情報解析はコンピュータを主要構成とする音楽情報解析装置によって行われ、該音楽情報解析装置を構成するコンピュータは、各種データを入力する入力部（マウス、キーボードを含む）、所定のプログラムに基づいて各種制御を行う処理装置、各種データを出力する出力装置（表示装置を含む）、各種データを記憶する記憶装置（メモリ及び外部記憶装置を含む）、コンピュータを動作させる制御プログラム等を備えている。

本発明は、より広い文脈を考慮してラベル付け問題を処理することができる。

［Ａ］音楽の確率定式化
［Ａ−１］一般化した数理構造
図１は、マルコフ確率場の概念を幾何学的に表現したものである。各ノードは音高、和音等のラベルを表し、黒のノードは現在付与しようとするラベルである。矢印はノード同士が関係を持っていることを表す。これは、MIDI、楽譜が持つ2次元的な情報によくマッチする。すなわち、旋律、和音等を作成する際、縦の和音構成、横の声部進行共に考慮にいれなければならない。さらに、音楽の持つ繰返し、模倣等の構造を考えると、より遠くの文脈まで影響が及んでいると考えられる。この点で、言語と比較して圧倒的に語彙サイズが小さいにもかかわらず音楽がリッチな表現力を持ちうる。

［Ａ−２］対位法、和声法の音楽モデル
対位法は、複数の旋律の組み合わせによる作曲法であり、単純な作曲法としては、与えられた旋律に適合する対旋律の付与(2声対位法)がある。2声の対位法においては、2声間の音程の制約、平行5度、同一音程の4度以上連続の禁止等の制約がある。つまり、与えられた旋律のある箇所の数音符前後の文脈により対旋律決定が可能だといえる。

和声付けとは、与えられた旋律に適合し楽曲として適切な和音進行を付与することである。和声学においては、典型的な和声の終止定型が存在し、バス旋律より和音系列の決定が可能である(e.g. fa-so-so-do に対するII-I-V-I-曲末)。これも旋律の数音符前後の文脈により和音の決定が可能であるといえる。

また、入力は1次元的な旋律に限らず、2次元的なものもある。例えば、和声解析は複数旋律を入力として和音、非和声音等の種類を決定する。入力が複数旋律を持つという点で2次元的であり、非和声音の種類の決定は和音と同様、文脈依存である。

また、楽曲のやや浅い構造解析法として、和音系列、和音機能(e.g. トニック、ドミナント)、カデンツをこの順に段階的に付与する。つまり、構造を持つ点で1次元的でない。ここでも、和音機能は和音系列に依存し、カデンツの箇所は和音機能に依存しているといえる。

本発明では、対旋律付け/和声付け問題を、定旋律が与えられた下での対旋律/和音系列の条件付き確率を最大にする問題として捉える。この問題における文脈依存性の設計は、マルコフ確率場モデルの素性関数の設計、つまりノード同士の関連の設計により可能である。

［Ａ−３］調認識の音楽モデル
調は、西洋音楽の音階に基づいて決められるものである。人間が聞いている音楽の調を認知するには、演奏されている音楽の旋律、分散和音などの音高情報を認識しその音高情報をもとに音楽的知識を用いて調を推測すると考えられる。従来から、tone profile による手法(Krumhansl-Schmuckler法)等、音高のヒストグラムに基づく手法が主流であり、本研究でも同様のアプローチをとる。マルコフ確率場モデルでは、12種の音高に対応するノードと、調のノードを用意し、音高と調の間に関連があると考える(図２Ｃ)。エッジは音高頻度に対応し、直観的には、音高頻度が高いほど関連が高いと考える。

［Ｂ］マルコフ確率場モデル
［Ｂ−１］マルコフ確率場
本発明で用いる確率モデルであるマルコフ確率場は、呼称は分野により異なり、概してコンピュータビジョンや画像処理の分野ではマルコフ確率場、自然言語処理やバイオインフォマティクスの分野では最大エントロピーモデル、conditional random fields、Markov network等の呼称がある。マルコフ確率場は、周辺の文脈に依存する値をモデル化するのに適した手法である。図１において、近隣同士の関係をグラフのエッジとみなしたとき、クリーク(完全部分グラフ)集合Ｃが構成される。確率は、各クリークｃに対応するポテンシャル関数Ｖｃのlog-linearモデルになるといわれている(Hammersley-Clifford's
theorem)。

本発明の音楽情報解析では、Ｖ_ｃを素性関数ｆ_ｉとそれに対応する重みλ_ｉの積であるとみなす。これは、最大エントロピーモデル(以下、ME)における確率分布関数の式と本質的に同一である。自然言語処理における最大エントロピーモデルの適用については非特許文献３に記載されており、最大エントロピーモデルの基本的内容については当該文献を参照することができる。

素性関数ｆ_ｉは通常、事例の有無を表す2値関数を考える。式(２)は和声付けで考える素性関数のひとつであり、図１の黒のノードが現和音に、エッジで張られた近隣のノードのひとつが前和音に相当する。黒のノードの候補(この例では和音の候補)をすべて考慮するという点で、マルコフ確率場モデルは識別モデルであり、生成源(隠れ状態)を仮定する生成モデルとは異なる。

［Ｂ−２］ＭＥＭＭ，ＣＲＦ
Maximum Entropy Markov Model(以下、MEMM) はMEの順次適用により、確率の積が最大となるラベル系列を最適解とみなす手法である。最適解の探索にはビームサーチ等が適用できる。MEMM の基本的な内容については、非特許文献４を参照することができる。Conditional Random Fields (以下、CRF)は入力系列そのものを入力とするグローバルな最適解を求める手法であり、MEの特殊形、かつ、HMMの一般化となっている。ＣＲＦの基本的な内容については、非特許文献５を参照することができる。図２Ａ−Ｃは、概念を幾何学的に表現したものである。

CRFでは、可能な解系列の数は入力系列に対し指数的に増えるが、動的計画法の一種であるforward-backwardアルゴリズムにより効率よい計算が実現可能である（非特許文献６参照）。また、式(１)におけるモデルパラメータλの推定には反復スケーリング法（非特許文献７参照）や準ニュートン法の一種(L-BFGS、非特許文献８参照)が適用できる。反復スケーリング法によるパラメータ推定は、先ずモデルパラメータに適当な初期値を与え、次に対数尤度を増加させるようにモデルパラメータの値を更新するものである。実験には、汎用の分類器（http://homepages.inf.ed.ac.uk/s0450736/maxent_toolkit.html）、チャンカー（http://chasen.org/~taku/software/CRF++/）を用いた。両者ともパラメータ推定にL-BFGSが使用されている。なお、式(１)におけるモデルパラメータλの事前分布として、通常、正規分布を仮定し（非特許文献９参照）、ハイパーパラメータ(正規分布の分散)の値を変化させながら交差検定し、最適な値を選択する。

［Ｃ］評価実験
Ｃ−１，Ｃ−２，Ｃ−３において、Humdrum Toolkitに付属する和声ラベル付きのバッハのコラール16曲(humdrum-kernフォーマット)をすべて階名に変換したものを評価実験に用いた。音符を持たない弱拍部(連続する8分音符をもつソプラノ旋律に対応する4分音符のバス旋律の弱拍部)等には、ダミーのラベルを与えた。また、曲頭、曲末にもまた別のダミーのラベルを与えた。表１の入力形式において、「humdrum」は楽譜既述言語の１つであり、テキストファイルである。「独自形式」とは、音高と、「ドミナント定型句の始まり(B)か、内側(I)か、その他(O)をあらわすラベル」のペアを時間に沿って列挙したテキストファイルである。B,I,Oラベル法については非特許文献１０を参照することができる。

［Ｃ−１］対旋律付け
バッハのコラール風のソプラノ音自身と前後のソプラノ音を文脈とし、バス旋律をCRFで推定するバス生成タスクを行った。学習データはソプラノ・バスの旋律ペア（バッハのコラール１６曲のソプラノ・バスペア）とした。テスト旋律(e.g. ベートーヴェン第9交響曲第4楽章の主旋律)に対旋律付けしたところ、妥当な音符系列が確認された(図４)。

［Ｃ−２］和声付け
ソプラノ音自身と前後のソプラノ音を文脈とし、和音系列をCRFで推定する和声付けタスクを行った。学習データはソプラノ旋律と和音のペア（バッハのコラール１６曲のソプラノ・コードペア）とした。テスト旋律を和声付けしたところ、を妥当な和音系列が確認された(図５)。正解は一意ではないので、定量的評価として、前和音、現在音、前音を文脈とする現在和音の推定を ME で行なった。評価は、1曲とそれ以外に分割する交差検定で行った。ソプラノ音と和音のペアの学習、バス音と和音のペアの学習それぞれにおいて、和音の正解率は61%, 64%であった。

［Ｃ−３］和声解析
文脈(前音の階名、現在音の階名、前和音)を考慮する MEMM で決定した。各声部の音自身とその前後音、前和音を文脈とし、和音系列をCRFで推定する和声解析タスクを行った（非和声音の種類の同定はこのタスクに含まれない）。学習データは4声部すべての旋律と和音のペアとした。1曲とそれ以外に分割する交差検定で評価を行ったところ、正解率は75%であった。

［Ｃ−４］ドミナント定型句の同定
島岡讓, “音楽の理論と実習I,”音楽之友社, 1982.のpp.114-115のバス課題において、ドミナント定型、終止定式の決定にあたり、階名を入力とし、定型句の始まりをB, 終了までをI, その他をOとラベル付けする方法を考えた(BIOラベル法、非特許文献１０参照、図６)。現在音、前後2音、前音+現在音の組み合わせ、現在音+次音の組み合わせを素性とする CRF で学習した。1曲とそれ以外に分割する交差検定で、総音符数174中、誤りは1個所(精度99%)であった。尚、ドミナント定型同定から構文解析(カデンツ同定等の楽曲構造解析)への拡張も可能である。

BIOラベル法には様々な変種が提案されているが、特に、既存ラベルに Begin, Insideラベルを追加する方法は音楽においても有用である。音楽大学の教科書では、カデンツを3種に分類できるとされている(e.g. K1:T-D-T)。それぞれのカデンツに対し B, I付きラベルを用意する(e.g. K1についてはK1-B, K1-I)。そして、B, I付きのシンボルの最適系列を求めることにより、カデンツ認識も可能である。

［Ｃ−５］調認識
MIDIの音高(mod 12)の相対頻度を素性関数として調を決定する手法を用いた。これは、テキスト分類タスクの定式化（非特許文献１１参照）において単語頻度を音高頻度におきかえたものと同一である。すなわち、式(２)において素性関数を12個用意し、値を楽曲全体から得られる相対頻度とした。学習には、24の調を4曲ずつ含む96曲の Standard MIDI File (30秒程度)を用いた。自身の調以外のあらゆる調に移調する(例えば、ニ長調の学習データがあった場合、曲全体の音高を2半音下げることにより、その曲がハ長調であるとしたときの学習データが得られることになる)ことにより、学習データを増やした。すべての調が1セット中に含まれるよう4分割し交差検定したところ、誤りは17曲(精度82%)であった。

［Ｄ］付記
従来から、最適系列を求める問題では、より遠くの文脈を考慮するためbigram, trigramの導入が主であったが、本発明では、素性関数の設計にこれらを容易に行うことができる。さらに、本発明では、様々な要素を素性関数として還元することができる。例えば、図４、図５では平行5度等の禁則を犯しているが、これは、階名のみを素性としているためと考えられ、旋律間の音程の導入で改善される可能性がある。また、データスパースネスに関しても、エントロピーを最大にすることによってスムージングの効果が自動的に達成されると考えられ、少量の学習データでの効果が期待できる。また、本発明では、より遠くの文脈を取り入れることが容易であり、さらに、任意のシンボル(音符の種別(4分音符、8分音符,...)等)を素性関数として設計することも可能である。

近年、隠れCRFモデルが音響入力の音声認識タスクに適用できることが示され、高精度を得られることが報告されている。さらに近年、音響を入力とした音声認識のCRFによる定式化(隠れCRF)が提案され、これにより、単にシンボルの系列だけではなく、値を持つ系列でも扱えることがわかる。素性設計に対する柔軟性というマルコフ確率場モデルの利点を活かし、隠れCRFモデルによる高性能化を期待できる。

音楽的な文法的説明については、上述した古典的な対位法、和声法に加えて、あるいは代えて、それらを計算機が扱いやすいよう知識化されたアイディア(e.g. Winogradによる和声解析、generative theory of tonal music, 以下GTTM)を利用してもよい。また、音楽において、制約に基づく文法(e.g. head-driven phrase structure grammar,以下HPSG)による定式化もすでに提案されている。この定式化に、GTTMによる構造解析、Winogradによる和声解析等の知識を取り込みつつ、マルコフ確率場モデルのような統計モデルを取り込むことも可能である。

本発明は、演奏情報(MIDI)および楽譜等のシンボリックな音楽情報を入力として、対旋律、和音、調などのラベルを付与する汎用的な手法であり、具体的な適用例としては、音楽情報検索、作曲や編曲の支援、楽器の練習支援、高機能な電子楽器や音楽を理解し演奏を行うロボットやコンピュータを実現するための基盤技術として利用され得る。

音楽を一般化した数理的な構造。和声解析の概念図(MEMM)。各声部の音高と前和音から最尤の和音を求める操作を繰返し適用していく。対旋律付け、和声付け等の概念図(CRF)。入力系列そのものから、グローバルな最適解を求める。調認識の概念図。楽曲全体の音高頻度により調を決定する。最大エントロピーモデルを用いた和音推定における素数関数の例示、及び、文脈設計の例示である。上図における２つの楽譜において、左は学習データを示し、右は、和音を付与しようとするテストデータである。下図は、学習データにて観測された事例の個数を書き込む３次元図である。上図は、３次元図にて観測事例の個数をすべて書きこんだ後、yが(例えば) I の部分を切り出したものである。中図は、上図と中図で、各素性関数が活性化する(値が１となる)部分の合計が一致するようエントロピーを最大にした結果を示す。下図は、すべてのyについてエントロピー最大化をおこなった後、あるテスト事例に対し各和音の持つ確率を算出(合計が1になるよう正規化)した結果である。第9の主旋律への対旋律付け。音符を持たない弱拍部(ダミーのラベルを付与)を入力に含めるか否かで、4分音符の多い旋律(1-4小節)、8分音符の多い旋律(5-8小節)ともに出力可能である。第9の主旋律への和声付け。和音記号中の “b” は第2転回形をあらわす。得られる出力は和音系列のみなので、和音パートとバスパートは、音域が1オクターブにおさまるよう手で与えた。島岡讓, “音楽の理論と実習I,”音楽之友社, 1982.の p. 113 のバス課題の例題。書の説明によると半終止(第4小節)決定後、終止定型(6小節2拍め〜最後)、ドミナント定型 (1小節2拍め〜2小節1拍め、2小節2拍め〜3小節1拍め、5小節2拍め〜6小節1拍め)の順に決定する。本明細書では、終止定型個所、ドミナント定型個所の決定を、ドミナント定型同定タスクと呼ぶことにする。

Claims

音楽情報を、マルコフ確率場を用いて周辺の文脈に依存するとしてモデル化し、
前記マルコフ確率場モデルを用いて、入力された音楽情報に対してラベル付与を行う、
音楽情報解析方法。
前記ラベル付与は、対旋律付与、和声付与、和声解析、ドミナント定型句の同定、調認識の少なくとも１つを含む、請求項１に記載の音楽情報解析方法。
前記入力された音楽情報は、楽譜のテキストファイルである、請求項１，２いずれかに記載の音楽情報解析方法。
前記入力された音楽情報は、ＭＩＤＩファイルである、請求項１，２いずれかに記載の音楽情報解析方法。
前記マルコフ確率場モデルは、最大エントロピーモデルである、請求項１乃至４いずれかに記載の音楽情報解析方法。
前記最大エントロピーモデルには、ＭＥＭＭが含まれる、請求項５に記載の音楽情報解析方法。
前記最大エントロピーモデルには、ＣＲＦが含まれる、請求項５に記載の音楽情報解析方法。
音楽情報を入力する手段と、
音楽情報を周辺の文脈に依存してモデル化したマルコフ確率場モデルを格納する手段と、
入力された音楽情報に対してマルコフ確率場モデルを適用して条件付き確率を算出する手段と、
算出された条件付き確率に基づいて、入力された音楽情報にラベルを付与する手段と、
からなる音楽情報解析装置。
前記ラベル付与手段は、対旋律付与手段、和声付与手段、和声解析手段、ドミナント定型句の同定手段、調認識手段の少なくとも１つを含む、請求項８に記載の音楽情報解析装置。
前記入力された音楽情報は、楽譜のテキストファイルである、請求項８，９いずれかに記載の音楽情報解析装置。
前記入力された音楽情報は、ＭＩＤＩファイルである、請求項８，９いずれかに記載の音楽情報解析装置。
前記マルコフ確率場モデルは、最大エントロピーモデルである、請求項８乃至１１いずれかに記載の音楽情報解析装置。
前記最大エントロピーモデルには、ＭＥＭＭが含まれる、請求項１２に記載の音楽情報解析装置。
前記最大エントロピーモデルには、ＣＲＦが含まれる、請求項１２に記載の音楽情報解析装置。
前記マルコフ確率場モデルを格納する手段は、音楽的知識に基づいて定義された素性関数を格納している、請求項８乃至１４いずれかに記載の音楽情報解析装置。
音楽情報を解析するためにコンピュータを、
音楽情報を入力する手段と、
音楽情報を周辺の文脈に依存してモデル化したマルコフ確率場モデルを格納する手段と、
入力された音楽情報に対してマルコフ確率場モデルを適用して条件付き確率を算出する手段と、
算出された条件付き確率に基づいて、入力された音楽情報にラベルを付与する手段と、
して機能させるためのコンピュータプログラム。
音楽情報を解析するためにコンピュータを、
音楽情報を入力する手段と、
音楽情報を周辺の文脈に依存してモデル化したマルコフ確率場モデルを格納する手段と、
入力された音楽情報に対してマルコフ確率場モデルを適用して条件付き確率を算出する手段と、
算出された条件付き確率に基づいて、入力された音楽情報にラベルを付与する手段と、
して機能させるためのコンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体。