JP2007225661A - 音楽情報解析方法及び装置 - Google Patents
音楽情報解析方法及び装置 Download PDFInfo
- Publication number
- JP2007225661A JP2007225661A JP2006043560A JP2006043560A JP2007225661A JP 2007225661 A JP2007225661 A JP 2007225661A JP 2006043560 A JP2006043560 A JP 2006043560A JP 2006043560 A JP2006043560 A JP 2006043560A JP 2007225661 A JP2007225661 A JP 2007225661A
- Authority
- JP
- Japan
- Prior art keywords
- music information
- markov random
- random field
- information analysis
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Auxiliary Devices For Music (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
【課題】ラベル付け問題を処理する場合において、より広い文脈を重視した手法を提供する。
【解決手段】音楽情報を、マルコフ確率場を用いて周辺の文脈に依存するとしてモデル化し、前記マルコフ確率場モデルを用いて、入力された音楽情報に対してラベル付与を行う、音楽情報解析方法である。前記ラベル付与は、対旋律付与、和声付与、和声解析、ドミナント定型句の同定、調認識の少なくとも1つを含む。入力された音楽情報は、楽譜のテキストファイル、MIDIファイルである。マルコフ確率場モデルは、最大エントロピーモデルである。
【選択図】図1
【解決手段】音楽情報を、マルコフ確率場を用いて周辺の文脈に依存するとしてモデル化し、前記マルコフ確率場モデルを用いて、入力された音楽情報に対してラベル付与を行う、音楽情報解析方法である。前記ラベル付与は、対旋律付与、和声付与、和声解析、ドミナント定型句の同定、調認識の少なくとも1つを含む。入力された音楽情報は、楽譜のテキストファイル、MIDIファイルである。マルコフ確率場モデルは、最大エントロピーモデルである。
【選択図】図1
Description
本発明は、音楽情報解析に係り、詳しくは、Standard MIDI File、楽譜等のシンボリックな音楽情報を入力として対旋律、和音、調等のラベルを付与する手法に関するものである。
このような音楽のラベル付与問題は、音声認識における言語モデルとの類似性から、マルコフモデルを適用することが多かった。しかしながら、MIDI、楽譜などは、縦の和音、横の声部進行等、2次元的な情報であり、マルコフ連鎖のような一次元的なモデリングでは不十分であり、より広い文脈の重視が必須である。
和声付け、対位法についての研究が非特許文献1,2に記載されているが、これらの研究は、HMM、マルコフモデルに基づくため、基本的にとなり同士の和音間/音符間の状態遷移のみをみる。よって和声常套句の導入、リズム単語の導入等、HMMの階層化によるスムージングを必要とした。
川上 隆, 中井満, 下平 博, 嵯峨山 茂樹,"隠れマルコフモデルを用いた旋律への自動和声付け,"情報処理学会研究報告(MUS), 99-MUS-34, pp.59-66, 2000. 中潟昌平, 西本卓也, 嵯峨山茂樹,"動的計画法と音列出現確率を用いた対位法の対旋律の自動生成,"情報処理学会研究報告(MUS), 2004-MUS-56, pp. 65-70,2004. A. L. Berger,S. A. Della Pietra, and V. J. Della Pietra,"A maximum entropy approach to natural language processing,"Computational Linguistics, 1996. AndrewMccallum, Dayne Freitag, Fernando Pereira,"Maximum Entropy Markov Models for Information Extraction and Segmentation," ICML 2000, 2000. J. Lafferty, A.McCallum, and F. Pereira,"Conditional Random Fields: Probabilistic models for segmenting andlabeling sequence data,"Proc. of ICML, 2001. Hanna M.Wallach,"ConditionalRandom Fields: An Introduction,"Technical ReportMS-CIS-04-21, Department of Computer and Information Science, University of Pennsylvania, 2004. J. Darroch andD. Ratcliff, "Generalizediterative scaling for log-linear models,"In Ann. Math.Statistics, 43, pp. 1470-1480, 1972. Dong C. Liu andJorge Nocedal, "On thelimited memory BFGS method for large scale optimization," Math. Programming 45(3, (Ser. B)), pp.503-528, 1989. Stanley F. Chen and Ronald. Rosenfeld. "A gaussian prior for smoothingmaximum entropy models," Technical report, CarnegieMellon University, 1999. Lance A.Ramshaw and Mitchell P. Marcus, "Text chunking using transformation-based learning," In Proceedings of the Third ACL Workshop on Very Large Corpora,1995 Kamal Nigam,John Lafferty and Andrew McCallum, "Using Maximum Entropy for Text Classification," In IJCAI-99 Workshop on Machine Learning for Information Filtering,pp. 61-67, 1999.
川上 隆, 中井満, 下平 博, 嵯峨山 茂樹,"隠れマルコフモデルを用いた旋律への自動和声付け,"情報処理学会研究報告(MUS), 99-MUS-34, pp.59-66, 2000. 中潟昌平, 西本卓也, 嵯峨山茂樹,"動的計画法と音列出現確率を用いた対位法の対旋律の自動生成,"情報処理学会研究報告(MUS), 2004-MUS-56, pp. 65-70,2004. A. L. Berger,S. A. Della Pietra, and V. J. Della Pietra,"A maximum entropy approach to natural language processing,"Computational Linguistics, 1996. AndrewMccallum, Dayne Freitag, Fernando Pereira,"Maximum Entropy Markov Models for Information Extraction and Segmentation," ICML 2000, 2000. J. Lafferty, A.McCallum, and F. Pereira,"Conditional Random Fields: Probabilistic models for segmenting andlabeling sequence data,"Proc. of ICML, 2001. Hanna M.Wallach,"ConditionalRandom Fields: An Introduction,"Technical ReportMS-CIS-04-21, Department of Computer and Information Science, University of Pennsylvania, 2004. J. Darroch andD. Ratcliff, "Generalizediterative scaling for log-linear models,"In Ann. Math.Statistics, 43, pp. 1470-1480, 1972. Dong C. Liu andJorge Nocedal, "On thelimited memory BFGS method for large scale optimization," Math. Programming 45(3, (Ser. B)), pp.503-528, 1989. Stanley F. Chen and Ronald. Rosenfeld. "A gaussian prior for smoothingmaximum entropy models," Technical report, CarnegieMellon University, 1999. Lance A.Ramshaw and Mitchell P. Marcus, "Text chunking using transformation-based learning," In Proceedings of the Third ACL Workshop on Very Large Corpora,1995 Kamal Nigam,John Lafferty and Andrew McCallum, "Using Maximum Entropy for Text Classification," In IJCAI-99 Workshop on Machine Learning for Information Filtering,pp. 61-67, 1999.
このような背景のもと、ラベル付け問題を処理する場合において、より広い文脈を重視した手法が要望されていた。
かかる課題を達成するために本発明が採用した音楽情報解析手段は、音楽情報を、マルコフ確率場を用いて周辺の文脈に依存するとしてモデル化し、前記マルコフ確率場モデルを用いて、入力された音楽情報に対してラベル付与を行うものである。本発明では、周辺の文脈に依存するラベル列のモデル化に適したマルコフ確率場モデルを音楽情報の解析に適用することで、シンボリックな音楽情報を入力とする種々のラベル付与を統一的な枠組みで扱うことができる。本発明の具体的な態様例として、対旋律付け、和声付け、ドミナント定型の同定、和声解析、調認識(転調の検出を含む)が挙げられる。各ラベル付与に適合するようなマルコフ確率場モデルが定義され(マルコフ確率場モデルの定義は、具体的には音楽的知識に基づく素性関数の定義によって行われる)、各マルコフ確率場モデルを用いて、対旋律付与、和声付与、和声解析、ドミナント定型句の同定、調認識が行われる。
本発明は、以下の構成で音楽情報解析を行う。先ず、マルコフ確率場を用いて、演奏情報および楽譜等における音階などの音楽情報を、周辺の文脈に依存する値としてモデル化を行う。具体的には、「数1」に示す式においてVcを素性関数fiとそれに対応する重みλiの積であるとみなす。素性関数fiは通常ラベル(和声や調など解析結果として得たい情報)の有無を表す2値関数を用いる。これは、「数2」に示す最大エントロピーモデルにおける確率分布関数の式と本質的に同一である。最大エントロピーモデルの重みは、学習データセットを用いて学習する。最大エントロピーモデルのモデルパラメータの推定手段としては、1つの好ましい態様では、反復スケーリング法を用いた手段が挙げられる。
そして、入力された音楽情報に対して、マルコフ確率場モデルを用いて確率の積が最大となるラベル系列を探索する。1つの態様では、マルコフ確率場モデルを用いて確率が最大となるラベル系列を決定する際に、Maximum Entropy Markov Model (MEMM) の手法を用いる。MEMMの手法を用いる場合は、最大エントロピー法(ME)の順次適用により実現することができ、最適解の探索にはビームサーチ等が適用できる。1つの態様では、Conditional Random Fields (CRF) の手法を用いることができる。Conditional Random Fields (CRF) の手法を用いる場合は、MEの特殊形、かつ、HMMの一般化に相当する手法となり、入力系列そのものに関するグローバルな最適解が得られる。MEMM, CRF ともに、モデルパラメータλの推定には反復スケーリング法、または L-BFGS を適用することができる。
本発明では、音楽情報解析においてマルコフ確率場(最大エントロピーモデル) を用いて、音楽的知識を素性関数の設計(エッジの設計)という操作に還元することにより、汎用性が高く高性能な手法を実現する。マルコフ確率場(Markov random field)モデルは、ノード間の関連をエッジであらわす一種の無向グラフモデルであり、エッジを設計することにより広い文脈を柔軟に設定できる。
ここで素性関数を設計する際に用いられる音楽的知識についてより具体的に説明する。「(2声の)対位法」においては、「2声間の音程に制約がある」、「平行5度音程は禁止されている」、「同一音程の4度以上連続は禁止されている」が例示される。「和声付け」においては、「典型的な和声の終止定型(曲末に至る数個の和音系列)の存在(e.g. II-I-V-I-曲末)」、「複数旋律が入力であれば、同時刻に鳴る音高の組み合わせから和音の決定が可能」、「楽曲は局所的にカデンツ(和音Iに代表されるトニックや、和音Vに代表されるドミナントと呼ばれる和音機能の数個の系列)を形成している」が例示される。「調認識、転調検出」においては、「調の認識は、旋律、分散和音などの音高情報の認識に基づく」、「調の認識は12種の音高の頻度分布に基づく」が例示される。
本発明に係る確率モデルを構築するための素性関数について具体的に説明する。「和声付け」においては、素性関数は、「現和音、現音高のペア」の事例の有無をあらわす2値関数であり、「現音高」の部分は様々な文脈を設定できるが、経験的には以下が好ましい。現音高;1個先の音高;2個先の音高;1個前の音高;2個前の音高;現音高、1個先の音高の組み合わせ;現音高、1個前の音高の組み合わせ;である。「対位法」においては、「定旋律の現音高、対旋律の現音高のペア」をみる。複数旋律からの和音推定の場合は、それぞれの声部に対して「現和音、現音高のペア」をみる。現音高は複数あるため、現音高の組み合わせをみることも可能である。「調認識、転調検出」においては、楽曲全体あるいは楽曲の一部(2〜3小節)に対する音高頻度(12種の音高で正規化)をみる。尚、上記の素性関数は例示に過ぎないものであって、本発明で用いられる素性関数はこれらに限定されるものではなく、その他の素性関数の設計が可能である。
図2A〜Cは、マルコフ確率場のグラフによる表現を示す。黒のノードは入力、グレイのノードは出力、グレイの線で囲まれた領域は最適解を表す。本発明の幾つかの態様では、前記ラベル付与は、対旋律付け、和声付け、和声解析、ドミナント定型句の同定、調認識の少なくとも1つを含む。一つの態様例では、和声解析は図2Aの概念図のようにMEMMを用いて、各声部の音高と前和音から最尤の和音を求める操作を繰返し適用していく。1つの態様例では、対旋律付けおよび和声付けは、図2Bの概念図のようにCRFを用いて、入力系列そのものから、グローバルな最適解を求める。1つの態様例では、調認識は図2Cの概念図の構造を使用し、楽曲全体の音高頻度により調を決定する。
さらに、マルコフ確率場(最大エントロピーモデル)によるラベル付けについて、和音推定を例にとって説明する。図3Aに示す3段の3つの式は、素性関数を例示するものである。上段の式は、前音高がmiであり現和音がIであれば1を返し、そうでない場合0を返す関数である。つまり、そのような事例が観測されたかどうかを表す。中段の式は、原音高がsoであり現和音がIであれば1を返し、そうでない場合0を返す関数である。下段の式は、前音高がmi、原音高がsoであり現和音がIであれば1を返し、そうでない場合0を返す関数である。図3Aに、さらに、簡単な文脈設計の例を示す。ここでは現和音yを決定する際、前音高x1と現在音高x2に依存すると考える。図3B上図における2つの楽譜において、左は学習データを示し、各音高に対して予め正解の和音が付与されている。枠は現和音がIであるような文脈に着目していることを示している。右は、和音を付与しようとするテストデータであり、この例に限り(説明の簡単化のため)先頭の和音(I)は既知であるとする。図3B下図は、学習データにて観測された事例の個数を書き込む図であり、x1、x2、yを3軸とする3次元図である。図3C上図は、3次元図にて観測事例の個数をすべて書きこんだ後、yが(例えば) I の部分を切り出したものである。尚、図3B下図,3Cにおいて数値は単なる例示に過ぎない。図3C中図は、上図と中図で、各素性関数が活性化する(値が1となる)部分の合計が一致するようエントロピーを最大にした結果を示す。エントロピーとは、直観的には「一様さの度合」である。前音高(x1)、現音高(x2)ともにとり得る値はdo,re,miの3個であり、素性関数は次の6個となる:「x1=do&y=I」、「x1=re&y=I」、「x1=mi&y=I」、「x2=do&y=I」、「x2=re&y=I」、「x2=mi&y=I」。図3C下図は、すべてのyについて(ここではIの他IV,Vも同様に)エントロピー最大化をおこなった後、あるテスト事例x1,x2(2つの楽譜のうち右の枠に相当)に対し各和音の持つ確率を算出(合計が1になるよう正規化)した結果である。和音としてI(確率が最も大きい)が選択されて、ラベル付けが行われる。
本発明は、音楽情報解析装置、音楽情報付与のためのコンピュータプログラム、あるいは当該プログラムを記録した記録媒体としても提供され得る。 本発明が採用した音楽情報解析装置は、音楽情報を入力する手段と、音楽情報を周辺の文脈に依存してモデル化したマルコフ確率場モデルを格納する手段と、入力された音楽情報に対してマルコフ確率場モデルを適用して条件付き確率を算出する手段と、算出された条件付き確率に基づいて、入力された音楽情報にラベルを付与する手段と、からなる。1つの態様では、前記マルコフ確率場モデルを格納する手段は、音楽的知識に基づいて定義された素性関数を格納している。本発明に係る音楽情報解析はコンピュータを主要構成とする音楽情報解析装置によって行われ、該音楽情報解析装置を構成するコンピュータは、各種データを入力する入力部(マウス、キーボードを含む)、所定のプログラムに基づいて各種制御を行う処理装置、各種データを出力する出力装置(表示装置を含む)、各種データを記憶する記憶装置(メモリ及び外部記憶装置を含む)、コンピュータを動作させる制御プログラム等を備えている。
本発明は、より広い文脈を考慮してラベル付け問題を処理することができる。
[A]音楽の確率定式化
[A−1]一般化した数理構造
図1は、マルコフ確率場の概念を幾何学的に表現したものである。各ノードは音高、和音等のラベルを表し、黒のノードは現在付与しようとするラベルである。矢印はノード同士が関係を持っていることを表す。これは、MIDI、楽譜が持つ2次元的な情報によくマッチする。すなわち、旋律、和音等を作成する際、縦の和音構成、横の声部進行共に考慮にいれなければならない。さらに、音楽の持つ繰返し、模倣等の構造を考えると、より遠くの文脈まで影響が及んでいると考えられる。この点で、言語と比較して圧倒的に語彙サイズが小さいにもかかわらず音楽がリッチな表現力を持ちうる。
[A−1]一般化した数理構造
図1は、マルコフ確率場の概念を幾何学的に表現したものである。各ノードは音高、和音等のラベルを表し、黒のノードは現在付与しようとするラベルである。矢印はノード同士が関係を持っていることを表す。これは、MIDI、楽譜が持つ2次元的な情報によくマッチする。すなわち、旋律、和音等を作成する際、縦の和音構成、横の声部進行共に考慮にいれなければならない。さらに、音楽の持つ繰返し、模倣等の構造を考えると、より遠くの文脈まで影響が及んでいると考えられる。この点で、言語と比較して圧倒的に語彙サイズが小さいにもかかわらず音楽がリッチな表現力を持ちうる。
[A−2]対位法、和声法の音楽モデル
対位法は、複数の旋律の組み合わせによる作曲法であり、単純な作曲法としては、与えられた旋律に適合する対旋律の付与(2声対位法)がある。2声の対位法においては、2声間の音程の制約、平行5度、同一音程の4度以上連続の禁止等の制約がある。つまり、与えられた旋律のある箇所の数音符前後の文脈により対旋律決定が可能だといえる。
対位法は、複数の旋律の組み合わせによる作曲法であり、単純な作曲法としては、与えられた旋律に適合する対旋律の付与(2声対位法)がある。2声の対位法においては、2声間の音程の制約、平行5度、同一音程の4度以上連続の禁止等の制約がある。つまり、与えられた旋律のある箇所の数音符前後の文脈により対旋律決定が可能だといえる。
和声付けとは、与えられた旋律に適合し楽曲として適切な和音進行を付与することである。和声学においては、典型的な和声の終止定型が存在し、バス旋律より和音系列の決定が可能である(e.g. fa-so-so-do に対するII-I-V-I-曲末)。これも旋律の数音符前後の文脈により和音の決定が可能であるといえる。
また、入力は1次元的な旋律に限らず、2次元的なものもある。例えば、和声解析は複数旋律を入力として和音、非和声音等の種類を決定する。入力が複数旋律を持つという点で2次元的であり、非和声音の種類の決定は和音と同様、文脈依存である。
また、楽曲のやや浅い構造解析法として、和音系列、和音機能(e.g. トニック、ドミナント)、カデンツをこの順に段階的に付与する。つまり、構造を持つ点で1次元的でない。ここでも、和音機能は和音系列に依存し、カデンツの箇所は和音機能に依存しているといえる。
本発明では、対旋律付け/和声付け問題を、定旋律が与えられた下での対旋律/和音系列の条件付き確率を最大にする問題として捉える。この問題における文脈依存性の設計は、マルコフ確率場モデルの素性関数の設計、つまりノード同士の関連の設計により可能である。
[A−3]調認識の音楽モデル
調は、西洋音楽の音階に基づいて決められるものである。人間が聞いている音楽の調を認知するには、演奏されている音楽の旋律、分散和音などの音高情報を認識しその音高情報をもとに音楽的知識を用いて調を推測すると考えられる。従来から、tone profile による手法(Krumhansl-Schmuckler法)等、音高のヒストグラムに基づく手法が主流であり、本研究でも同様のアプローチをとる。マルコフ確率場モデルでは、12種の音高に対応するノードと、調のノードを用意し、音高と調の間に関連があると考える(図2C)。エッジは音高頻度に対応し、直観的には、音高頻度が高いほど関連が高いと考える。
調は、西洋音楽の音階に基づいて決められるものである。人間が聞いている音楽の調を認知するには、演奏されている音楽の旋律、分散和音などの音高情報を認識しその音高情報をもとに音楽的知識を用いて調を推測すると考えられる。従来から、tone profile による手法(Krumhansl-Schmuckler法)等、音高のヒストグラムに基づく手法が主流であり、本研究でも同様のアプローチをとる。マルコフ確率場モデルでは、12種の音高に対応するノードと、調のノードを用意し、音高と調の間に関連があると考える(図2C)。エッジは音高頻度に対応し、直観的には、音高頻度が高いほど関連が高いと考える。
[B]マルコフ確率場モデル
[B−1]マルコフ確率場
本発明で用いる確率モデルであるマルコフ確率場は、呼称は分野により異なり、概してコンピュータビジョンや画像処理の分野ではマルコフ確率場、自然言語処理やバイオインフォマティクスの分野では最大エントロピーモデル、conditional random fields、Markov network等の呼称がある。マルコフ確率場は、周辺の文脈に依存する値をモデル化するのに適した手法である。図1において、近隣同士の関係をグラフのエッジとみなしたとき、クリーク(完全部分グラフ)集合Cが構成される。確率は、各クリークcに対応するポテンシャル関数Vcのlog-linearモデルになるといわれている(Hammersley-Clifford's
theorem)。
本発明の音楽情報解析では、Vcを素性関数fiとそれに対応する重みλiの積であるとみなす。これは、最大エントロピーモデル(以下、ME)における確率分布関数の式と本質的に同一である。自然言語処理における最大エントロピーモデルの適用については非特許文献3に記載されており、最大エントロピーモデルの基本的内容については当該文献を参照することができる。
素性関数fiは通常、事例の有無を表す2値関数を考える。式(2)は和声付けで考える素性関数のひとつであり、図1の黒のノードが現和音に、エッジで張られた近隣のノードのひとつが前和音に相当する。黒のノードの候補(この例では和音の候補)をすべて考慮するという点で、マルコフ確率場モデルは識別モデルであり、生成源(隠れ状態)を仮定する生成モデルとは異なる。
[B−1]マルコフ確率場
本発明で用いる確率モデルであるマルコフ確率場は、呼称は分野により異なり、概してコンピュータビジョンや画像処理の分野ではマルコフ確率場、自然言語処理やバイオインフォマティクスの分野では最大エントロピーモデル、conditional random fields、Markov network等の呼称がある。マルコフ確率場は、周辺の文脈に依存する値をモデル化するのに適した手法である。図1において、近隣同士の関係をグラフのエッジとみなしたとき、クリーク(完全部分グラフ)集合Cが構成される。確率は、各クリークcに対応するポテンシャル関数Vcのlog-linearモデルになるといわれている(Hammersley-Clifford's
theorem)。
[B−2]MEMM,CRF
Maximum Entropy Markov Model(以下、MEMM) はMEの順次適用により、確率の積が最大となるラベル系列を最適解とみなす手法である。最適解の探索にはビームサーチ等が適用できる。MEMM の基本的な内容については、非特許文献4を参照することができる。Conditional Random Fields (以下、CRF)は入力系列そのものを入力とするグローバルな最適解を求める手法であり、MEの特殊形、かつ、HMMの一般化となっている。CRFの基本的な内容については、非特許文献5を参照することができる。図2A−Cは、概念を幾何学的に表現したものである。
Maximum Entropy Markov Model(以下、MEMM) はMEの順次適用により、確率の積が最大となるラベル系列を最適解とみなす手法である。最適解の探索にはビームサーチ等が適用できる。MEMM の基本的な内容については、非特許文献4を参照することができる。Conditional Random Fields (以下、CRF)は入力系列そのものを入力とするグローバルな最適解を求める手法であり、MEの特殊形、かつ、HMMの一般化となっている。CRFの基本的な内容については、非特許文献5を参照することができる。図2A−Cは、概念を幾何学的に表現したものである。
CRFでは、可能な解系列の数は入力系列に対し指数的に増えるが、動的計画法の一種であるforward-backwardアルゴリズムにより効率よい計算が実現可能である(非特許文献6参照)。また、式(1)におけるモデルパラメータλの推定には反復スケーリング法(非特許文献7参照)や準ニュートン法の一種(L-BFGS、非特許文献8参照)が適用できる。反復スケーリング法によるパラメータ推定は、先ずモデルパラメータに適当な初期値を与え、次に対数尤度を増加させるようにモデルパラメータの値を更新するものである。実験には、汎用の分類器(http://homepages.inf.ed.ac.uk/s0450736/maxent_toolkit.html)、チャンカー(http://chasen.org/~taku/software/CRF++/)を用いた。両者ともパラメータ推定にL-BFGSが使用されている。なお、式(1)におけるモデルパラメータλの事前分布として、通常、正規分布を仮定し(非特許文献9参照)、ハイパーパラメータ(正規分布の分散)の値を変化させながら交差検定し、最適な値を選択する。
[C]評価実験
C−1,C−2,C−3において、Humdrum Toolkitに付属する和声ラベル付きのバッハのコラール16曲(humdrum-kernフォーマット)をすべて階名に変換したものを評価実験に用いた。音符を持たない弱拍部(連続する8分音符をもつソプラノ旋律に対応する4分音符のバス旋律の弱拍部)等には、ダミーのラベルを与えた。また、曲頭、曲末にもまた別のダミーのラベルを与えた。表1の入力形式において、「humdrum」は楽譜既述言語の1つであり、テキストファイルである。「独自形式」とは、音高と、「ドミナント定型句の始まり(B)か、内側(I)か、その他(O)をあらわすラベル」のペアを時間に沿って列挙したテキストファイルである。B,I,Oラベル法については非特許文献10を参照することができる。
C−1,C−2,C−3において、Humdrum Toolkitに付属する和声ラベル付きのバッハのコラール16曲(humdrum-kernフォーマット)をすべて階名に変換したものを評価実験に用いた。音符を持たない弱拍部(連続する8分音符をもつソプラノ旋律に対応する4分音符のバス旋律の弱拍部)等には、ダミーのラベルを与えた。また、曲頭、曲末にもまた別のダミーのラベルを与えた。表1の入力形式において、「humdrum」は楽譜既述言語の1つであり、テキストファイルである。「独自形式」とは、音高と、「ドミナント定型句の始まり(B)か、内側(I)か、その他(O)をあらわすラベル」のペアを時間に沿って列挙したテキストファイルである。B,I,Oラベル法については非特許文献10を参照することができる。
[C−1]対旋律付け
バッハのコラール風のソプラノ音自身と前後のソプラノ音を文脈とし、バス旋律をCRFで推定するバス生成タスクを行った。学習データはソプラノ・バスの旋律ペア(バッハのコラール16曲のソプラノ・バスペア)とした。テスト旋律(e.g. ベートーヴェン第9交響曲第4楽章の主旋律)に対旋律付けしたところ、妥当な音符系列が確認された(図4)。
バッハのコラール風のソプラノ音自身と前後のソプラノ音を文脈とし、バス旋律をCRFで推定するバス生成タスクを行った。学習データはソプラノ・バスの旋律ペア(バッハのコラール16曲のソプラノ・バスペア)とした。テスト旋律(e.g. ベートーヴェン第9交響曲第4楽章の主旋律)に対旋律付けしたところ、妥当な音符系列が確認された(図4)。
[C−2]和声付け
ソプラノ音自身と前後のソプラノ音を文脈とし、和音系列をCRFで推定する和声付けタスクを行った。学習データはソプラノ旋律と和音のペア(バッハのコラール16曲のソプラノ・コードペア)とした。テスト旋律を和声付けしたところ、を妥当な和音系列が確認された(図5)。正解は一意ではないので、定量的評価として、前和音、現在音、前音を文脈とする現在和音の推定を ME で行なった。評価は、1曲とそれ以外に分割する交差検定で行った。ソプラノ音と和音のペアの学習、バス音と和音のペアの学習それぞれにおいて、和音の正解率は61%, 64%であった。
ソプラノ音自身と前後のソプラノ音を文脈とし、和音系列をCRFで推定する和声付けタスクを行った。学習データはソプラノ旋律と和音のペア(バッハのコラール16曲のソプラノ・コードペア)とした。テスト旋律を和声付けしたところ、を妥当な和音系列が確認された(図5)。正解は一意ではないので、定量的評価として、前和音、現在音、前音を文脈とする現在和音の推定を ME で行なった。評価は、1曲とそれ以外に分割する交差検定で行った。ソプラノ音と和音のペアの学習、バス音と和音のペアの学習それぞれにおいて、和音の正解率は61%, 64%であった。
[C−3]和声解析
文脈(前音の階名、現在音の階名、前和音)を考慮する MEMM で決定した。各声部の音自身とその前後音、前和音を文脈とし、和音系列をCRFで推定する和声解析タスクを行った(非和声音の種類の同定はこのタスクに含まれない)。学習データは4声部すべての旋律と和音のペアとした。1曲とそれ以外に分割する交差検定で評価を行ったところ、正解率は75%であった。
文脈(前音の階名、現在音の階名、前和音)を考慮する MEMM で決定した。各声部の音自身とその前後音、前和音を文脈とし、和音系列をCRFで推定する和声解析タスクを行った(非和声音の種類の同定はこのタスクに含まれない)。学習データは4声部すべての旋律と和音のペアとした。1曲とそれ以外に分割する交差検定で評価を行ったところ、正解率は75%であった。
[C−4]ドミナント定型句の同定
島岡讓, “音楽の理論と実習I,”音楽之友社, 1982.のpp.114-115のバス課題において、ドミナント定型、終止定式の決定にあたり、階名を入力とし、定型句の始まりをB, 終了までをI, その他をOとラベル付けする方法を考えた(BIOラベル法、非特許文献10参照、図6)。現在音、前後2音、前音+現在音の組み合わせ、現在音+次音の組み合わせを素性とする CRF で学習した。1曲とそれ以外に分割する交差検定で、総音符数174中、誤りは1個所(精度99%)であった。尚、ドミナント定型同定から構文解析(カデンツ同定等の楽曲構造解析)への拡張も可能である。
島岡讓, “音楽の理論と実習I,”音楽之友社, 1982.のpp.114-115のバス課題において、ドミナント定型、終止定式の決定にあたり、階名を入力とし、定型句の始まりをB, 終了までをI, その他をOとラベル付けする方法を考えた(BIOラベル法、非特許文献10参照、図6)。現在音、前後2音、前音+現在音の組み合わせ、現在音+次音の組み合わせを素性とする CRF で学習した。1曲とそれ以外に分割する交差検定で、総音符数174中、誤りは1個所(精度99%)であった。尚、ドミナント定型同定から構文解析(カデンツ同定等の楽曲構造解析)への拡張も可能である。
BIOラベル法には様々な変種が提案されているが、特に、既存ラベルに Begin, Insideラベルを追加する方法は音楽においても有用である。音楽大学の教科書では、カデンツを3種に分類できるとされている(e.g. K1:T-D-T)。それぞれのカデンツに対し B, I付きラベルを用意する(e.g. K1についてはK1-B, K1-I)。そして、B, I付きのシンボルの最適系列を求めることにより、カデンツ認識も可能である。
[C−5]調認識
MIDIの音高(mod 12)の相対頻度を素性関数として調を決定する手法を用いた。これは、テキスト分類タスクの定式化(非特許文献11参照)において単語頻度を音高頻度におきかえたものと同一である。すなわち、式(2)において素性関数を12個用意し、値を楽曲全体から得られる相対頻度とした。学習には、24の調を4曲ずつ含む96曲の Standard MIDI File (30秒程度)を用いた。自身の調以外のあらゆる調に移調する(例えば、ニ長調の学習データがあった場合、曲全体の音高を2半音下げることにより、その曲がハ長調であるとしたときの学習データが得られることになる)ことにより、学習データを増やした。すべての調が1セット中に含まれるよう4分割し交差検定したところ、誤りは17曲(精度82%)であった。
MIDIの音高(mod 12)の相対頻度を素性関数として調を決定する手法を用いた。これは、テキスト分類タスクの定式化(非特許文献11参照)において単語頻度を音高頻度におきかえたものと同一である。すなわち、式(2)において素性関数を12個用意し、値を楽曲全体から得られる相対頻度とした。学習には、24の調を4曲ずつ含む96曲の Standard MIDI File (30秒程度)を用いた。自身の調以外のあらゆる調に移調する(例えば、ニ長調の学習データがあった場合、曲全体の音高を2半音下げることにより、その曲がハ長調であるとしたときの学習データが得られることになる)ことにより、学習データを増やした。すべての調が1セット中に含まれるよう4分割し交差検定したところ、誤りは17曲(精度82%)であった。
[D]付記
従来から、最適系列を求める問題では、より遠くの文脈を考慮するためbigram, trigramの導入が主であったが、本発明では、素性関数の設計にこれらを容易に行うことができる。さらに、本発明では、様々な要素を素性関数として還元することができる。例えば、図4、図5では平行5度等の禁則を犯しているが、これは、階名のみを素性としているためと考えられ、旋律間の音程の導入で改善される可能性がある。また、データスパースネスに関しても、エントロピーを最大にすることによってスムージングの効果が自動的に達成されると考えられ、少量の学習データでの効果が期待できる。また、本発明では、より遠くの文脈を取り入れることが容易であり、さらに、任意のシンボル(音符の種別(4分音符、8分音符,...)等)を素性関数として設計することも可能である。
従来から、最適系列を求める問題では、より遠くの文脈を考慮するためbigram, trigramの導入が主であったが、本発明では、素性関数の設計にこれらを容易に行うことができる。さらに、本発明では、様々な要素を素性関数として還元することができる。例えば、図4、図5では平行5度等の禁則を犯しているが、これは、階名のみを素性としているためと考えられ、旋律間の音程の導入で改善される可能性がある。また、データスパースネスに関しても、エントロピーを最大にすることによってスムージングの効果が自動的に達成されると考えられ、少量の学習データでの効果が期待できる。また、本発明では、より遠くの文脈を取り入れることが容易であり、さらに、任意のシンボル(音符の種別(4分音符、8分音符,...)等)を素性関数として設計することも可能である。
近年、隠れCRFモデルが音響入力の音声認識タスクに適用できることが示され、高精度を得られることが報告されている。さらに近年、音響を入力とした音声認識のCRFによる定式化(隠れCRF)が提案され、これにより、単にシンボルの系列だけではなく、値を持つ系列でも扱えることがわかる。素性設計に対する柔軟性というマルコフ確率場モデルの利点を活かし、隠れCRFモデルによる高性能化を期待できる。
音楽的な文法的説明については、上述した古典的な対位法、和声法に加えて、あるいは代えて、それらを計算機が扱いやすいよう知識化されたアイディア(e.g. Winogradによる和声解析、generative theory of tonal music, 以下GTTM)を利用してもよい。また、音楽において、制約に基づく文法(e.g. head-driven phrase structure grammar,以下HPSG)による定式化もすでに提案されている。この定式化に、GTTMによる構造解析、Winogradによる和声解析等の知識を取り込みつつ、マルコフ確率場モデルのような統計モデルを取り込むことも可能である。
本発明は、演奏情報(MIDI)および楽譜等のシンボリックな音楽情報を入力として、対旋律、和音、調などのラベルを付与する汎用的な手法であり、具体的な適用例としては、音楽情報検索、作曲や編曲の支援、楽器の練習支援、高機能な電子楽器や音楽を理解し演奏を行うロボットやコンピュータを実現するための基盤技術として利用され得る。
Claims (17)
- 音楽情報を、マルコフ確率場を用いて周辺の文脈に依存するとしてモデル化し、
前記マルコフ確率場モデルを用いて、入力された音楽情報に対してラベル付与を行う、
音楽情報解析方法。 - 前記ラベル付与は、対旋律付与、和声付与、和声解析、ドミナント定型句の同定、調認識の少なくとも1つを含む、請求項1に記載の音楽情報解析方法。
- 前記入力された音楽情報は、楽譜のテキストファイルである、請求項1,2いずれかに記載の音楽情報解析方法。
- 前記入力された音楽情報は、MIDIファイルである、請求項1,2いずれかに記載の音楽情報解析方法。
- 前記マルコフ確率場モデルは、最大エントロピーモデルである、請求項1乃至4いずれかに記載の音楽情報解析方法。
- 前記最大エントロピーモデルには、MEMMが含まれる、請求項5に記載の音楽情報解析方法。
- 前記最大エントロピーモデルには、CRFが含まれる、請求項5に記載の音楽情報解析方法。
- 音楽情報を入力する手段と、
音楽情報を周辺の文脈に依存してモデル化したマルコフ確率場モデルを格納する手段と、
入力された音楽情報に対してマルコフ確率場モデルを適用して条件付き確率を算出する手段と、
算出された条件付き確率に基づいて、入力された音楽情報にラベルを付与する手段と、
からなる音楽情報解析装置。 - 前記ラベル付与手段は、対旋律付与手段、和声付与手段、和声解析手段、ドミナント定型句の同定手段、調認識手段の少なくとも1つを含む、請求項8に記載の音楽情報解析装置。
- 前記入力された音楽情報は、楽譜のテキストファイルである、請求項8,9いずれかに記載の音楽情報解析装置。
- 前記入力された音楽情報は、MIDIファイルである、請求項8,9いずれかに記載の音楽情報解析装置。
- 前記マルコフ確率場モデルは、最大エントロピーモデルである、請求項8乃至11いずれかに記載の音楽情報解析装置。
- 前記最大エントロピーモデルには、MEMMが含まれる、請求項12に記載の音楽情報解析装置。
- 前記最大エントロピーモデルには、CRFが含まれる、請求項12に記載の音楽情報解析装置。
- 前記マルコフ確率場モデルを格納する手段は、音楽的知識に基づいて定義された素性関数を格納している、請求項8乃至14いずれかに記載の音楽情報解析装置。
- 音楽情報を解析するためにコンピュータを、
音楽情報を入力する手段と、
音楽情報を周辺の文脈に依存してモデル化したマルコフ確率場モデルを格納する手段と、
入力された音楽情報に対してマルコフ確率場モデルを適用して条件付き確率を算出する手段と、
算出された条件付き確率に基づいて、入力された音楽情報にラベルを付与する手段と、
して機能させるためのコンピュータプログラム。 - 音楽情報を解析するためにコンピュータを、
音楽情報を入力する手段と、
音楽情報を周辺の文脈に依存してモデル化したマルコフ確率場モデルを格納する手段と、
入力された音楽情報に対してマルコフ確率場モデルを適用して条件付き確率を算出する手段と、
算出された条件付き確率に基づいて、入力された音楽情報にラベルを付与する手段と、
して機能させるためのコンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006043560A JP2007225661A (ja) | 2006-02-21 | 2006-02-21 | 音楽情報解析方法及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006043560A JP2007225661A (ja) | 2006-02-21 | 2006-02-21 | 音楽情報解析方法及び装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007225661A true JP2007225661A (ja) | 2007-09-06 |
Family
ID=38547579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006043560A Pending JP2007225661A (ja) | 2006-02-21 | 2006-02-21 | 音楽情報解析方法及び装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007225661A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10431191B2 (en) | 2017-12-18 | 2019-10-01 | Tatsuya Daikoku | Method and apparatus for analyzing characteristics of music information |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5887593A (ja) * | 1981-11-20 | 1983-05-25 | リコーエレメックス株式会社 | 和音付け装置 |
JPH05289672A (ja) * | 1992-04-09 | 1993-11-05 | Hitachi Ltd | 和音解析方法 |
JP2003143408A (ja) * | 2001-10-31 | 2003-05-16 | Canon Inc | 画像処理装置 |
JP2004302318A (ja) * | 2003-03-31 | 2004-10-28 | Doshisha | 音楽データ生成システム、音楽データ生成装置、および音楽データ生成方法 |
-
2006
- 2006-02-21 JP JP2006043560A patent/JP2007225661A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5887593A (ja) * | 1981-11-20 | 1983-05-25 | リコーエレメックス株式会社 | 和音付け装置 |
JPH05289672A (ja) * | 1992-04-09 | 1993-11-05 | Hitachi Ltd | 和音解析方法 |
JP2003143408A (ja) * | 2001-10-31 | 2003-05-16 | Canon Inc | 画像処理装置 |
JP2004302318A (ja) * | 2003-03-31 | 2004-10-28 | Doshisha | 音楽データ生成システム、音楽データ生成装置、および音楽データ生成方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10431191B2 (en) | 2017-12-18 | 2019-10-01 | Tatsuya Daikoku | Method and apparatus for analyzing characteristics of music information |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Allan et al. | Harmonising chorales by probabilistic inference | |
Temperley et al. | Statistical analysis of harmony and melody in rock music | |
Rohrmeier et al. | Principles of structure building in music, language and animal song | |
Mauch | Automatic chord transcription from audio using computational models of musical context | |
Marsden | Schenkerian analysis by computer: A proof of concept | |
Meredith et al. | Algorithms for discovering repeated patterns in multidimensional representations of polyphonic music | |
Raczyński et al. | Melody harmonization with interpolated probabilistic models | |
Conklin | Chord sequence generation with semiotic patterns | |
Tsunoo et al. | Beyond timbral statistics: Improving music classification using percussive patterns and bass lines | |
Bimbot et al. | System & contrast: a polymorphous model of the inner organization of structural segments within music pieces | |
Şentürk et al. | Linking scores and audio recordings in makam music of Turkey | |
Herremans et al. | Composer classification models for music-theory building | |
Granroth-Wilding et al. | Harmonic analysis of music using combinatory categorial grammar | |
Pauwels et al. | Combining musicological knowledge about chords and keys in a simultaneous chord and local key estimation system | |
Cambouropoulos | The harmonic musical surface and two novel chord representation schemes | |
Sears et al. | Beneath (or beyond) the surface: Discovering voice-leading patterns with skip-grams | |
Sinith et al. | Raga recognition using fibonacci series based pitch distribution in Indian Classical Music | |
Conklin | Melodic analysis with segment classes | |
Lieck et al. | The Tonal Diffusion Model. | |
Arronte Alvarez et al. | Distributed vector representations of folksong motifs | |
Clement | Diatonic and chromatic tonicization in rock music | |
Buys et al. | Chorale harmonization with weighted finite-state transducers | |
Bigo et al. | A viewpoint approach to symbolic music transformation | |
US10431191B2 (en) | Method and apparatus for analyzing characteristics of music information | |
Paiement et al. | A graphical model for chord progressions embedded in a psychoacoustic space |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090202 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100330 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100712 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20101109 |