JP3776673B2 - 音楽情報解析装置、音楽情報解析方法及び音楽情報解析プログラムを記録した記録媒体 - Google Patents

音楽情報解析装置、音楽情報解析方法及び音楽情報解析プログラムを記録した記録媒体 Download PDF

Info

Publication number
JP3776673B2
JP3776673B2 JP2000105063A JP2000105063A JP3776673B2 JP 3776673 B2 JP3776673 B2 JP 3776673B2 JP 2000105063 A JP2000105063 A JP 2000105063A JP 2000105063 A JP2000105063 A JP 2000105063A JP 3776673 B2 JP3776673 B2 JP 3776673B2
Authority
JP
Japan
Prior art keywords
note
probability
model
music
information analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000105063A
Other languages
English (en)
Other versions
JP2001290474A (ja
Inventor
茂樹 嵯峨山
博 下平
満 中井
直樹 斎藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Science and Technology Agency
National Institute of Japan Science and Technology Agency
Original Assignee
Japan Science and Technology Agency
National Institute of Japan Science and Technology Agency
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Science and Technology Agency, National Institute of Japan Science and Technology Agency filed Critical Japan Science and Technology Agency
Priority to JP2000105063A priority Critical patent/JP3776673B2/ja
Publication of JP2001290474A publication Critical patent/JP2001290474A/ja
Application granted granted Critical
Publication of JP3776673B2 publication Critical patent/JP3776673B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、音楽情報解析装置、音楽情報解析方法及び音楽情報解析プログラムを記録した記録媒体に係る。本発明は、特に、隠れマルコフモデル(HMM,Hidden Markov Model)の適用及びビタビ経路探索処理により、音楽演奏から、音符列、演奏テンポ、拍子、小節境界位置等を推定するための音楽情報解析装置、音楽情報解析方法及び音楽情報解析プログラムを記録した記録媒体に関する。
【0002】
【従来の技術】
一般に、楽譜の浄書やMIDI(Musical Instrument Digital Interface)演奏を目的にして、コンピュータへ楽譜を投入するソフトウェアツールが普及している。
【0003】
図21は、閾値処理による音符への誤変換の例を示す図である。演奏者の音楽的意図は同図左のようであり、同図右の物理的演奏情報に忠実な変換であるが、このような変換は必ずしも実用的ではない。この揺らぎに対して補正する研究は幾つか報告されており、閾値処理をベースとして、ヒストグラム処理による基準拍の設定手法、音楽的・文法的な強制或いはフレーズなどのルールの付加、またはテンポ情報を閾値設定に用いるものなどがある(H. C. Ronguet-Higgins: Mental Processes, The Mit Press,1987. 片寄, 井口: ``知的採譜システム,'' 人工知能学会誌,Vol.5, No.1, pp.59-66, 1990. 海野, 中西: ``音楽情景分析における楽音認識と自動採譜,''インタラクション99予稿集, 1999. P. Desain, H. Honing: ``Quantization of Musical Time;A Connectionist Approach,'' Computer Music Journal, Vol. 13,pp. 56--66, 1989.、参照)。また自動演奏という視点から、演奏情報と楽譜情報との比較から演奏の表情規則を抽出し、その規則により表情付けされた演奏からの採譜システムとして応用しているものや(野池, 乾,野瀬, 小谷: ``演奏情報と楽譜情報の対からの演奏表情規則の獲得とその応用,'' 情報処理学会音楽情報科学研究会,97-MUS-26-16, pp.109-114, 1998.、参照)、曲のビートを解析するビートトラッキングをマルチエージェントによりモデルベースで音楽的解析を行う報告もされている(後藤真孝, 村岡洋一: ``音楽音響信号を対象としたビートトラッキングシステム -小節線の検出と打楽器音の有無に応じた音楽的知識の選択- ,'' 情報処理学会研究技術報告, 97-MUS-21-8, pp.45-52, 1997. Masataka Goto and Yoichi Muraoka: ``Real-time RhythmTracking for Drumless Audio Signals -- Chord Change Detection forMusical Decisions --,'' IJCAL-97 Workshop on Computational Auditory Scene Analysis, 1997.、参照)。
【0004】
【発明が解決しようとする課題】
しかし、鍵盤入力等により演奏された音楽から演奏者(ユーザ)の意図した楽譜に変換するのは単純なことではない。たとえばMIDI鍵盤入力の場合、音高情報は正確に得られるが、音価(音符の長さ)は、(MIDIの時間分解能を単位として)ほぼ連続的な値として得られ、それを単純(忠実に)に処理しただけでは、意図された音符とは程遠いものになり、正確にそれを得ることはできない場合が多い。その理由は、実際の人間が演奏する際、意図した音符の正規の長さと実際に演奏した音符長とは、長短のずれ、テンポの揺らぎ等を含むからである。どうしても音符の長短、テンポの揺らぎがあり、それを忠実に音符に変換すると、とても読めないような楽譜が生じる。これが、いわゆる「打ち込み」の作業の面倒な点であり、一般にはしかたなくマウスを使った楽譜投入や修正が行われているが、時間を要し、効率が悪い。
【0005】
この変動を吸収するために、メトロノームを用いて演奏テンポを一定にした上で、音符長を量子化(quantize)する機能が用いられるが、よほどの熟達者ですら、2分音符から16分音符までを機械的に正確に弾き分けるのは困難である。まして、音楽初心者が演奏する場合、テンポや正規の音符長に対し忠実に演奏することができない場合が多い。一方、音響信号入力からの自動採譜では、この点はさらに困難になる。採譜システムとしては、主にMIDI信号を対象とし音楽的分析を行うシステムと音響信号から周波数解析・音楽的分析を行い、様々な音楽解釈から楽譜を推定する手法がある(長嶋洋一, 橋本周司, 平賀護, 平田圭二: コンピュータと音楽の世界, bit別冊, 共立出版株式会社, 1998.、参照)。これらは一般に人間の演奏情報を対象としている。楽譜化を目的とした演奏でない限り、曲のスタイル・表情付け、演奏者の音楽意図などにより、テンポや音長は意識的な変動を受ける。
【0006】
以上のように、さまざまな音長変動要因のため、音長系列から音符シンボル列への変換は困難となる。従来手法や市販品の殆どは閾値処理をベースとしている。しかし、そのような単純な処理では、ある市販ソフトウェアによっては、以上の例のように誤って音符推定されることになる。
しかし、一般に、演奏された音楽は、人間が聴けば、どんな意図のどんなリズムパターンで弾かれているのかはすぐわかる。慣れた人なら、ゆっくりなら、聴きながらでも楽譜に書ける。これはリズムをパターンとして理解できるからである。
【0007】
そこで、本発明は、以上の点に鑑み、演奏の音長系列から音楽的意図に基づく音符列を確率モデルを用い推定して、意図した楽譜を作成することを目的とする。また、本発明は、例えば、MIDI楽器などを用いた自動演奏、あるいは楽譜の清書などに頻繁に行われているように、鍵盤、管楽器、弦楽器等から音楽を演奏した際に、その音楽に基づき演奏データを楽譜化するための音楽情報解析装置、音楽情報解析方法及び音楽情報解析プログラムを記録した記録媒体を提供することを目的とする。本発明は、さらに、MIDI演奏データ以外にも、歌声、ハミング、楽器演奏などの音楽(音情報)から、楽譜化(採譜)することに応用することを目的とする。本発明のユーザは、例えば、プロの音楽製作者、アマの音楽愛好家、音楽教師、音楽学習者、楽譜出版などを想定している。
【0008】
【課題を解決するための手段】
本発明は、音声認識の技術であるHMM(隠れマルコフモデル)を使って、主に、(1)演奏されたリズムの正確な楽譜化、(2)拍子(3拍子や4拍子)の推定、(3)拍節(どこに小節線を入れるか)の推定、及び、(4)テンポの変動の推定、を実現する。
【0009】
本発明では、隠れマルコフモデルを用いて人間によって、鍵盤演奏された音符音長系列情報(スタンダードMIDIファイル)から意図された音符列を推定する手法を提案し、実験によりその有効性を実証する。本発明では、連続音声認識の定式化に倣って、演奏入力を音楽的に理解する原理を隠れマルコフモデル(HMM)によりモデル化し、意図された音符列を推定する。更に、本発明は、同じ原理によりテンポ変化推定・小節線推定・拍子推定を提案する。また、本発明は、評価実験により、一般に用いられている閾値処理より良好な結果が得られることを示される。
【0010】
本発明の第1の解決手段によると、
演奏された音楽演奏データを入力する入力部と、
第1の状態から第2の状態へ遷移する状態遷移確率と、各音符列が生成される確率を含むリズムパターンの確率モデルを記憶するリズムパターンモデル記憶部と、
各音符がある音長で演奏される出力確率分布に関する情報を記憶する音符長伸縮モデル記憶部と、
前記入力部により入力された音楽演奏データから音符長列データを求め、前記リズムパターンモデル記憶部及び前記音符長伸縮モデル記憶部に記憶されたデータを参照し、隠れマルコフモデルを適用して、ビタビ経路探索により状態列を求め、演奏者が演奏を意図したと推定される推定音符列データを生成する処理部とを備えた音楽情報解析装置を提供する。
【0011】
本発明の第2の解決手段によると、
演奏された音楽演奏データを入力する入力ステップと、
前記入力ステップにより入力された音楽演奏データから音符長列データを求めるステップと、
第1の状態から第2の状態へ遷移する状態遷移確率を含むリズムパターンの確率モデルと、各音符がある音長で演奏される出力確率分布とを参照し、隠れマルコフモデルを適用して、ビタビ経路探索により状態列を求め、演奏者が演奏を意図したと推定される推定音符列データを生成するステップと
を含む音楽情報解析方法及び音楽情報解析プログラムを記録した記録媒体を提供する。
【0012】
【発明の実施の形態】
(1)音楽情報解析装置及び方法
図1に、音楽情報解析装置の構成図を示す。この音楽情報解析装置は、入力部1、出力部2、リズムパターンモデル記憶部3、音符長伸縮モデル記憶部4、処理部5、ビタビ経路探索プログラム記憶部6を備える。図2に、音楽情報解析処理のフローチャートを示す。
【0013】
リズムパターンモデル記憶部3は、ある音符iから音符jへ遷移する確率ai,jのように、第1の状態から第2の状態へ遷移する確率と、音符列Qが生成される確率P(Q)(ある演奏情報Xが音符列Qを意図したものである場合の音符列が生成される確率P(Q))とを含むリズムパターンの確率モデルに関する情報を記憶する。音符長伸縮モデル記憶部4は、音符jが音長xで演奏される分布確率密度b(x)等の出力確率分布に関する情報を記憶する。出力確率分布に関する情報としては、正規分布等の適宜の分布を用いることができる。ビタビ経路探索プログラム記憶部6は、周知のビタビ復号化アルゴリズム(経路探索処理)のプログラムを記憶する。なお、ここでは「音長」は当該音符が占める時間であり、通常は当該音符が発音されてから次の音符が発音されるまでの時間を意味する。休符については、一定時間以上の無音を休符と認定するなどの処理が必要である。
【0014】
入力部1は、演奏された音楽演奏データを入力する(S10)。
処理部5は、入力された音楽演奏データから音符長列データを求め、リズムパターンモデル記憶部3及び音符長伸縮モデル記憶部4に記憶されたデータを参照し、隠れマルコフモデルを適用して、ビタビ経路探索により状態列を求め、演奏者が演奏を意図したと推定される推定音符列データを生成する(S30)。ここで、例えば、隠れマルコフモデルの出力確率分布は、音符が演奏される時間変動を表現し、隠れマルコフモデルの状態遷移確率は、用いられるリズムパターンの確率を表現する。
【0015】
出力部2は、推定音符列データを、楽譜、可聴、可視等の適宜の方式で、印刷表示、ディスプレイ表示、MIDI演奏、外部出力等の適宜の手段で出力する(S50)。
【0016】
本発明の音楽情報解析装置により、リズムパターンモデル記憶部3は、複数のテンポに対応する複数のリズムパターンモデルを記憶し、処理部5は、ビタビ復号化アルゴリズムによって所定のテンポのリズムパターンの確率モデルを選択することによって演奏テンポを推定することができる。また、本発明の音楽情報解析装置により、リズムパターンモデル記憶部3は、複数のテンポに対応し且つテンポが変動する遷移状態を含むリズムパターンモデルを記憶し、処理部5は、ビタビ復号化アルゴリズムによって所定のテンポのリズムパターンの確率モデルを逐次的に選択することによって演奏テンポの変動を推定することができる。また、本発明の音楽情報解析装置により、リズムパターンモデル記憶部3は、複数の拍子に対応する複数のリズムパターンの確率モデルを記憶し、処理部5は、ビタビ復号化アルゴリズムによって所定の拍子のリズムパターンのモデルを選択することによって楽曲の拍子を推定することができる。また、本発明の音楽情報解析装置により、リズムパターンモデル記憶部3は、弱起(アウフタクト)のパターンを含む複数の拍子に対応するリズムパターンの確率モデルを記憶し、処理部5は、ビタビ復号化アルゴリズムによって所定の小節境界位置を推定することができる。
【0017】
(2)HMMによる音符列推定
以下に、HMMによる音符列推定について説明する。
まず、連続音声認識問題との同型性について説明する。
【0018】
本発明では、揺らぎのある音長列から音符列を推定するために、ボトムアップ的にずれを持つ音長をいかに音符に割り振るかを考える手法でなく、主に、トップダウン的にどのような音符を意図して演奏した結果、入力演奏が観測されるかを仮説検証する、または解釈するという音声認識で成功している考え方を用いる。そこで、整数関係にある正規の音符長が演奏によって揺らぎを持つ音長に変換される過程(音長系列生成過程)を確率モデル化し、その逆問題として音符列を推定する問題を考える。
【0019】
図3に、逆問題としての音符列推定の説明図を示す。具体的には、2レベルの確率モデルを作成し、それを基に隠れマルコフモデル(HMM,Hidden Markov Model)を用いて音長系列生成モデルを作成する。HMMでは尤度最大の原理によって音長系列が生成する遷移系列の中で最も尤度が高い系列をビタビ(Viterbi)探索によって求める。これによって、トップダウンアプローチで入力演奏を音楽的に解釈し、音長やテンポの揺らぎに頑健な推定を可能にする。
【0020】
HMMは、音声認識において広く用いられているモデルで、本問題と連続音声認識は次の図のように同種の問題と考えることができ、HMMを用いて尤度最大の状態遷移系列を探索(Viterbi経路探索)することにより音符列を求める問題として定式化できる(中川聖一: 確率モデルによる音声認識, 電子情報通信学会, 1988. L. Rabiner, B.-H. Juang: Fundamentals of SpeechRecognition, Prentice-Hall, 1993.、参照)。図4に、音声認識とリズム認識の対応についての説明図を示す。
【0021】
図中、連続音声認識と音楽リズム認識との対応関係が示される。入力単位について、文音声と楽曲が対応し、語彙について、単語とリズムパターンが対応し、隠れ状態について、音響イベント音符が対応し、観測値について、スペクトル列と物理的音符長列が対応する。
【0022】
(3)リズムパターンモデル記憶部
つぎに、リズムパターンモデル記憶部3に記憶されるリズムパターンの確率モデル(音符列モデル)について説明する。音長に揺らぎがある演奏でも、聴き手には意図した音符列(さらに、時には伸縮の意図も)が伝わるのはなぜかを考える。これは聴き手は出現しうる音符列に関する常識を持っているからであろう。たとえば従来技術で説明した、閾値処理により変換された楽譜は理論上は可能ではあるが常識に合わない。そこで、聴き手や音楽家の常識をモデル化するために、本手法では音楽的な制約として音符の推移をモデル化する。これは音声認識における言語モデルあるいは文法に相当する部分である。ここでは簡単のため以下の2種類の音符列モデルを扱う。これらのモデルにより、それぞれ、第1の状態から第2の状態への遷移と、その遷移確率、各音符列が生成される確認が与えられる。
【0023】
第1のモデルは、2音符連鎖(bigram)確率モデルである。図5は、音符連接のリズムモデル例を示す図である。図に示すように、このモデルは、任意の音符に任意の音符がそれぞれ確率で後続するモデルである。制約力は弱いが、どんなリズムパターンにも対処できる。
【0024】
第2のモデルは、リズムパターンモデルである。図6は、2拍単位パターンのリズムモデル例を示す図である。図に示すように、「リズム語彙」を定義し、リズムパターンの連鎖により曲が成立しているとするモデルである。このモデルは、状態滞留確率を0とする点で、音声認識のHMMと若干異なる場合がある。この各リズムパターンを最小単位と捉えると、曲全体はリズムパターンの連結により成り立っていると考えることができる。
【0025】
これらのモデルパラメータは、楽曲データから学習することができる。これは、人間の音楽経験による常識の形成に譬えられる。このようないわば「リズム文法」は、複雑に精度良く作成するほど、リズムパターン認識精度は向上する。また、これらはモデル楽曲のジャンルやスタイルに依存する。たとえば、ジャズのスィングリズムは、西洋古典派音楽として捉えると、演奏者が下手であると理解されることがある。
【0026】
実際に、童謡・民謡・歌曲(中学生の音楽1,2,3, 教育芸術社, 1983-85. 楽しく歌おう, 神奈川県中学校音楽教育研究会, 1983. 世界名歌110曲集, 全音楽譜出版社.、参照)を対象に4/4拍子の曲88曲より音符連接確率及びリズムパターンの統計を取った。パターンの分類として1小節単位パターンと2拍単位パターンの2種類を作成し、リズムパターンの種類は1小節単位パターン267種類、2拍単位パターン137種類が得られた。また3/4拍子についても同様に25曲から統計をとり、1小節単位パターン68種類が得られた。
【0027】
図7は、音符列パターンの出現頻度例(4/4拍子)を示す図である。図中、頻度順で、小節単位、2拍単位の音符列パターンが示される。
【0028】
(4)音符長伸縮モデル記憶部4
つぎに、音符長伸縮モデル記憶部4に記憶された出力確率分布に関する情報(音長の伸縮変動モデル)について説明する。同一の音価の音符でも、既に述べたさまざまな要因により、その物理的音長が変動する。ここでは、単純化して考えるため、これらを確率変動と見なす。図8は、テンポ指定時の演奏の音長分布の説明図である。図中、テンポ指定つき演奏実験で得られた約50の演奏のデータから、4分音符、8分音符、符点4分音符の音長ヒストグラムの例(1/960秒単位)が示される。横軸(tick)は指定テンポにおいての4分音符の分解能を示す。今回は4分音符を480 ticksとして統計をとった。
【0029】
本発明では、一例として、各音符の音長の分布を正規分布で近似する。なお、正規分布以外の他の分布で近似してもよい。正規分布の平均μは各音符長の正規の長さとし、標準偏差σは正規の音符長に比例する分と、固定分の和σ=aμ+bの形で与えられると仮定する。ここで、aは、統計結果から、各音符の分散が音符が長い程広がるということに基づいた音符間での分散の相違を示し、bは、どの音符でも人間の演奏内に含まれる固定分の物理的なずれを表す。図から最小二乗法で得られた実験式は、一例として、
σ=0.05μ+0.011(秒単位)
である。このように、統計により得られた分布の平均と分散から音長の変動を確率分布としてモデル化し、この変動を正規分布によって近似する。
【0030】
しかし、実際の演奏テンポとモデルが仮定するテンポとにミスマッチがあること、この分布は演奏者に依存すること、また統計サンプル数が多くないことなどを考慮して、モデルの標準偏差を若干広めに設定し、以下では、一例として、
σ=0.06μ+0.0114(秒)
としてモデル化に用いている。
【0031】
図9に、各音符音長の変動モデルの説明図を示す。このように音符jが音長xで演奏される正規分布確率密度をb(x)と書く。確率モデルパラメータは、上述のように演奏データから学習することができる。これは、人間の音楽経験による音長の揺らぎの常識の形成に譬えられる。
【0032】
(5)処理部5
つぎに、処理部5による具体的な処理について説明する。まず、逆問題としての音符列推定について説明する。
【0033】
上述のような2階層の確率モデルにより、意図した音符列Qを演奏すると、音長時系列Xがとして観測される確率が求められる。すなわち、音長系列Xの生成確率P(X|Q)は上記の2つの確率の積で表すことができ、次式となる。
【0034】
【数1】
Figure 0003776673
【0035】
は時刻tにおける音符の種類である。逆に、演奏情報Xが音符列Qを意図したものである確率P(X|Q)は、ベイズ(Bayes)の定理
P(Q|X)=P(X|Q)P(Q)/P(X)
によって、P(X|Q)P(Q)を求める問題(逆問題)と考えることができ、先の音長系列生成確率を求めることになる。ここで、P(Q)は音符列が生成される確率であるので、P(Q)をリズムパターンの連結確率としてモデルに組み込む。
【0036】
ここで、リズムパターンモデル記憶部3に記憶されたデータにより、a t-1 ,q tが与えられ、音符長伸縮モデル記憶部4に記憶されたデータにより、b t(x)が与えられるので、(数1)で示された式から、P(X|Q)が求められる。さらに、リズムパターンモデル記憶部3にはP(Q)が記憶されており、これと求められたP(X|Q)により、Bayesの定理からP(Q|X)が求められる。なお、P(X)は与えられないものの、共通的な分母として付加されるので、P(Q|X)の比較ができる。
【0037】
つぎに、HMMによる音符列推定について説明する。P(X|Q)、P(Q)を求めるためHMMを用いて、2つの確率モデルを統合し、最も尤もらしい音符列を推定することができる。HMMによるモデル化において各パラメータは以下のような意味を持つ。
・状態s:音符i
・初期確率π:ある音符iから曲が始まる確率
・遷移確率ai,j:音符iから音符jへ遷移する確率
・出力確率b(x):音符jが音長xで演奏される確率
・入力系列X:演奏された音符長系列
X={x,…,x
【0038】
図10に、HMMによる音符列推定の概念図を示す。図11に、ビタビ経路推定に関する説明図を示す。演奏された音長系列X(秒)が入力された時、この系列Xを生成する確率が最も大きい音符列Qを、隠れ状態系列のViterbi探索により求めることができる。そのために、最小単位となるリズムモデルを作成する。図5及び図6のような音符連接モデルとリズムパターンモデルの一方又は両方を作成し、HMMの出力確率を音長の変動モデルに相当させる。リズム推定においては最小単位となるリズムの連結として楽譜を推定する。
【0039】
すなわち、音符列推定の定式化として、ビタビ経路推定では、音長時系列Xが与えらえれたとき、音符列Qの中で、確率が最大となる音符列Q*は(数2)上式のように、求めることができる。これを、上述したBayesの定理による逆問題の定式化の結果、(数2)下式により求めることができる。
【0040】
【数2】
Figure 0003776673
【0041】
(7)音符列推定実験
つぎに、HMMによる音符列推定実験について説明する。ここで、モデルとしては、4/4拍子の曲から統計をとった音符連接モデル及び2拍単位リズムパターンモデル(図6及びその説明箇所参照)を用いた。得られたパターン数は音符列モデルについての説明で述べた通りである。
【0042】
また、入力としては、楽譜投入の際に演奏者がテンポ通りに演奏できないことを想定した実験条件として、
条件1 : テンポ指定ありでなるべく忠実な演奏
条件2 : テンポ指定なしでテンポ一定の演奏
条件3 : テンポ指定なしでテンポ変動を含む演奏
について扱った。条件1の演奏について被験者10名(合計16曲)に対し、音符列推定実験を行った。実験の対象曲としては、よく知られていて比較的短く音符の種類が豊富な「もろびとこぞりて(ニ長調)」を選んだ。図12は、入力曲「もろびとこぞりて」の楽譜を示す図である。
【0043】
ここで、評価方法としては、本発明では主に、MIDI信号を対象としているので、実験の評価としては、一例として、各音長が正しく音符変換されているかのみを評価する。正解精度は以下により評価する。
accuracy=(N−sub−del−ins)×100/N(%)
・N:未知入力の総音符数
・sub:誤った音符に置換された数
・del:正しい音符が脱落した誤り数
・ins:異なる音符が挿入された誤り数
【0044】
図13は、音符列推定精度を示す図である。この図は、一例として20曲について、閾値処理(第1汎用プログラム)、閾値処理(第2汎用プログラム)、音符連接、2拍 Rhythm HMMの各方法により、休符挿入及び休符削除の音符認識率(%)を求めたものである。すなわち、同音反復の場合などに演奏に短いポーズが挿入されるが、そのまま音符列推定を行った場合(表中「休符挿入」)と、閾値処理により除いて処理した場合(表中「休符削除」)の両方の場合についての認識率を示す。これらの短いポーズを放置すると、評価上では挿入誤りが増加して認識率が低下する。従来の閾値処理の場合は不要なタイや短い休符が多く出現するが、実験の主旨により、タイで表現されている部分についての記譜誤りは除き、また、不要な16分休符を除いて集計した場合を表中の「休符削除」の欄に掲載した。このように、HMMによる音符認識率の精度が向上することがわかる。
【0045】
(8)HMMによるテンポ推定(固定テンポ/変動テンポ推定)
上述のリズムパターンモデルは、時間情報として各音符音長がとりうる値を出力確率に対応させたモデル化であるため、ある一定のテンポの入力のみ解析可能である。そこで、本発明では、各リズムパターンモデルを複数のテンポ毎に作成し、入力に対して各テンポ毎に並列に尤度計算を行い、尤度が最大となるテンポを推定結果とすることでテンポによる適用範囲を広げる。
【0046】
図14に、一定テンポモデルについての説明図を示す。ここでは、一例として、テンポは67〜120の間で対数的に5分割し、6つのテンポを採用した。固定テンポモデルでは、リズムパターンをテンポ数セット用意して、各テンポモデル間の遷移は行わないものとする。
【0047】
また、図15に、変動テンポモデルについての説明図を示す。テンポの前後の揺らぎが激しい入力に対処するために、図15のように、図14の一定テンポモデル間に遷移確率を設け、階層型HMMを作成する。これにより、移り変わるテンポに追従した解析を可能にする。
【0048】
つぎに、固定テンポ推定実験について説明する。入力は、一例として、条件2(テンポ指定なしでテンポ一定の演奏)「もろびとこぞりて」について被験者10人(10演奏)を対象とする。用いるモデルは図14の一定テンポモデルにより、6つの固定テンポ候補中から演奏されたテンポを一つ推定する。評価方法としては、演奏が奏者の演奏技術による揺らぎ以外の表情付けなどの変動要因は含まないことをふまえ、その曲全体が演奏された平均テンポ(例えば、1分間の四分音符の数)を
演奏テンポ = 拍数/演奏時間(分)
により定義し、比較対象とする。
【0049】
図16は、テンポ推定結果を示す図である。ここでは、一例として、条件2で10曲、A欄は、拍数(38個)/演奏時間(分)を示し、B欄は、一定テンポHMMを示す。テンポ推定結果は、曲の演奏時間から求めた平均テンポと一定テンポHMMの選択されたモデル(最も尤度が高いモデル)を示したものである。認識率によって多少異なる場合もあるが、6種のテンポのうち一番近いモデルが選択され、テンポ推定率は100%であった。
【0050】
つぎに、テンポ変動問題に対する推定結果について説明する。入力同じ入力曲(条件3)で大幅なテンポ変動を含む演奏に対する実験を行う。モデルは図15に示す変動テンポモデルを用いる。一番多く採用されたテンポのモデルをその曲が演奏された平均のテンポとする。
【0051】
図17に、変動するテンポと音符列推定についての説明図を示す。なお丸で囲った部分は誤推定がなされる。図中、意図的に極端なテンポ変動を行った演奏に対するテンポ変動推定実験結果が示される。尤度最大の状態遷移系列をたどると、以下のテンポモデル間の遷移を行っていることがわかった。
Tempo 120(初期モデル)→120→120→107→107→95→107→95→95→107→95→95→107→85→120→120→95→85→76→67
【0052】
この例では、極端に遅い演奏個所では、音価は倍にテンポは速めに推定された結果、誤推定が生じたが、妥当な推定であるとも考えられる。2拍単位パターンモデルなので小節毎にテンポが推移するような場合は、小節内での急激な変化や、小節毎に誤推定されたりすることがある。テンポ間の遷移確率を調整することにより、この誤認識が減少できる可能性がある。たとえば、テンポの近い間の遷移は、テンポが離れた場合より確率を高くすること等があげられる。
【0053】
(9)HMMによる拍節推定
つぎに、拍子/開始拍/小節線位置推定問題について説明する。
演奏から楽譜を復元する場合には、音符列のみならず拍子の推定、開始拍(弱起、アウフタクトかどうか)の推定、すなわち小節線をどのように入れればよいかという課題を解決する必要がある。これらの課題も、以上に述べた本発明の確率モデルによって定式化できる。
【0054】
まず、拍子推定のモデル化について説明する。拍子特性が顕著に現れるのは、1小節中に含まれる音符パターンであると考えられる。そこで4/4拍子、3/4拍子毎に1小節1パターンのリズム統計をとり、各モデルで入力された旋律の尤度を並列計算し音符列を推定する。ここで尤度最大の原理を利用し、尤度が高い遷移系列を求めその系列が4/4であるか3/4であるかを判定し、拍子推定結果とする。
【0055】
小節線推定は、事後処理による挿入とモデルを用いた挿入方法の2種類を試みた。事後処理による挿入では、拍子情報を基に曲の冒頭から拍数分カウントし挿入する。ここで、図18に、モデルによる小節線推定の説明図を示す。モデルによる推定手法では、図5、図6のようなリズムパターンを図のように1小節1パターンのリズムモデルとして複数セット用いる。これにより、各リズムパターンの最終状態が選択された後、小節線を挿入する。
【0056】
アウフタクト(上げ拍)の可能性も含めた小節線位置の推定では、さらにアウフタクトに関するリズムパターンのセットを付加する。そして、事後処理による推定では、最後に数があわない場合にアウフタクト(上げ拍)であると判断し、最初にもどり2つ目の音符からカウントを始める。モデルでは、アウフタクトの小節を初期確率のみ持つ別のリズムパターンとして与える。これにより、曲の途中でそのパターンが選択されることを防げる。
【0057】
つぎに、拍節推定実験について説明する。図19にモデルによる小節線推定の説明図を示す。モデルと入力データとしては、この図のモデルを用い、4/4拍子10曲、3/4拍10曲に対し条件1の演奏を入力した。リズムの最小単位としては双方とも1小節単位パターンのモデルを用いた。2拍1パターンのものはパターン2つにつき小節線を出力という形式で行った。
【0058】
つぎに、図20に、拍子推定における誤認識例の説明図を示す。この図は、一例として、「赤とんぼ(3/4拍子)」でありリズムパターンの観点からは妥当な解を示す。拍子・小節線推定結果では、4/4拍子については10曲全てについて正しく拍子推定できた。3/4拍子10曲中8曲は正しく推定できたが、残る2曲は音符列としては正しく推定されたが、拍子は4/4拍子と誤推定された。リズムパターンとしては、1フレーズが3小節になっているところに違和感があるが、4/4拍子と考えても矛盾はない。このような場合の拍子推定は、旋律あるいは想定される和声まで含めたさらに高度な総合モデルが必要となる。なお、本発明の小節線推定では、拍子を誤推定した場合、小節線は本来の楽譜と全く違う箇所に挿入される。また、拍子推定が正しくとも、音符列(リズムパターン)が正しいかどうかによって小節線位置の推定結果も変わる。
【0059】
本発明は、音楽情報解析方法は、音楽情報解析プログラムを記録した記録媒体又はそのような記録媒体を含むプログラム製品により提供されることができる。
【0060】
【発明の効果】
本発明によると、以上のように、音楽演奏の音符音長系列データに対し、連続音声認識の方法論を適用して統合的な確率モデルと最尤経路探索により、意図された音符リズム推定、テンポ推定、拍子推定、小節線位置推定などが統一的に行えい、人間の演奏を解析するメカニズムをHMMを用いて実現することができた。
【0061】
本発明は、ジャンルやスタイルを考慮(に依存)したリズムパターンのモデル学習方法、楽曲フレーズのようなより大きな曲構造を反映したモデル、未知リズムパターンへの対処(音声認識における未知語対策に対応)、リズムパターンに依存した音長伸縮特性を考慮した推定(同じく文脈依存モデルに対応)、ユーザのスキルや癖を学習するユーザ適応技術(同じく話者適応に対応)、Aアルゴリズムなどの効率的な解探索、N-bestアルゴリズムの適用などの発展により、その適用可能性を広げることができる。さらに、本発明は、音響信号入力に対して適用し、自動採譜の一要素技術として用いることができる。
【図面の簡単な説明】
【図1】音楽情報解析装置の構成図。
【図2】音楽情報解析処理のフローチャート。
【図3】逆問題としての音符列推定の説明図。
【図4】音声認識とリズム認識の対応についての説明図。
【図5】音符連接のリズムモデル例を示す図。
【図6】2拍単位パターンのリズムモデル例を示す図。
【図7】2拍単位パターンのリズムモデル例を示す図。
【図8】テンポ指定時の演奏の音長分布の説明図。
【図9】テンポ指定時の演奏の音長分布の説明図。
【図10】HMMによる音符列推定の概念図。
【図11】ビタビ経路推定に関する説明図。
【図12】入力曲「もろびとこぞりて」の楽符を示す図。
【図13】音符列推定精度を示す図。
【図14】一定テンポモデルについての説明図。
【図15】変動テンポモデルについての説明図。
【図16】テンポ推定結果を示す図。
【図17】変動するテンポと音符列推定についての説明図。
【図18】モデルによる小節線推定の説明図。
【図19】モデルによる小節線推定の説明図。
【図20】拍子推定における誤認識例の説明図。
【図21】閾値処理による音符への誤変換の例を示す図。
【符号の説明】
1 入力部
2 出力部
3 リズムパターンモデル記憶部
4 音符長伸縮モデル記憶部
5 処理部
6 ビタビ経路探索プログラム記憶部

Claims (8)

  1. 演奏された音楽演奏データを入力する入力部と、
    る音符から音符へ遷移する確率と、ある音符長列データXが音符列Qを意図したものである場合の音符列Qが生成される確率P(Q)とを含むリズムパターンの確率モデルに関する情報を記憶するリズムパターンモデル記憶部と、
    各音符がある音長で演奏される分布確率密度に関する情報を記憶する音符長伸縮モデル記憶部と、
    前記入力部により入力された音楽演奏データから音符長列データXを求め、前記リズムパターンモデル記憶部に記憶された前記遷移する確率及びP(Q)と、前記音符長伸縮モデル記憶部に記憶された前記分布確率密度に基づき、前記遷移する確率と前記分布確率密度との積を音符長列データXの全てにわたり順に積算することにより、音符長列データXが音符列Qを意図したものである確率P(X|Q)を求め、さらに、次式により、演奏者が演奏を意図したと推定される推定音符列データQ*を生成する処理部と、
    生成された推定音符列データQ*を出力する出力部と、
    を備えた音楽情報解析装置。
    Figure 0003776673
  2. 請求項1に記載された音楽情報解析装置において、
    前記分布確率密度は、各音符の音長の分布を正規分布で近似したものであることを特徴とする音楽情報解析装置。
  3. 請求項1又は2に記載された音楽情報解析装置において、
    前記状態遷移確率は、任意の音符に任意の音符がそれぞれの確率で後続するモデルである2音符連鎖確率モデルが用いられることを特徴とする音楽情報解析装置。
  4. 請求項1乃至3のいずれかに記載された音楽情報解析装置において、
    前記リズムパターンモデル記憶部は、複数のテンポに対応し、テンポ毎に複数個のリズムパターンモデルを記憶し、
    前記処理部は、入力に対して各テンポ毎に並列に尤度計算を行い、尤度が最大となるテンポを推定結果とすることで演奏テンポを推定することを特徴とする音楽情報解析装置。
  5. 請求項1乃至4のいずれかに記載された音楽情報解析装置において、
    前記リズムパターンモデルは、時間情報として各音符音長がとりうる値を出力確率に対応させたモデルであることを特徴とする音楽情報解析装置。
  6. 請求項1乃至5のいずれかに記載された音楽情報解析装置において、
    前記リズムパターンモデル記憶部は、複数の拍子に対応し、拍子毎に複数個のリズムパターンの確率モデルを記憶し、
    前記処理部は、各モデルで入力された旋律の尤度を計算し、尤度が高い遷移系列を求めその系列がどの拍子のリズムパターンであるかを判定し、楽曲の拍子を推定することを特徴とする音楽情報解析装置。
  7. 処理部が、演奏された音楽演奏データを入力部から入力する入力ステップと、
    処理部が、前記入力ステップにより入力された音楽演奏データから音符長列データXを求めるステップと、
    処理部が、ある音符から音符へ遷移する確率、及び、ある音符長列データXが音符列Qを意図したものである場合の音符列Qが生成される確率P(Q)を含むリズムパターンの確率モデルに関する情報と、各音符がある音長で演奏される分布確率密度に関する情報を記憶部から参照し、前記遷移する確率及びP(Q)及び前記分布確率密度に基づき、前記遷移する確率と前記分布確率密度との積を音符長列データXの全てにわたり順に積算することにより、音符長列データXが音符列Qを意図したものである確率P(X|Q)を求め、さらに、次式により、演奏者が演奏を意図したと推定される推定音符列データQ*を生成するステップと、
    処理部が、前記生成するステップにより生成された推定音符列データQ*を出力部により出力するステップと、
    を含む音楽情報解析方法。
    Figure 0003776673
  8. 処理部が、演奏された音楽演奏データを入力部から入力する入力ステップと、
    処理部が、前記入力ステップにより入力された音楽演奏データから音符長列データXを求めるステップと、
    処理部が、ある音符から音符へ遷移する確率、及び、ある音符長列データXが音符列Qを意図したものである場合の音符列Qが生成される確率P(Q)を含むリズムパターンの確率モデルに関する情報と、各音符がある音長で演奏される分布確率密度に関する情報を記憶部から参照し、前記遷移する確率及びP(Q)及び前記分布確率密度に基づき、前記遷移する確率と前記分布確率密度との積を音符長列データXの全てにわたり順に積算することにより、音符長列データXが音符列Qを意図したものである確率P(X|Q)を求め、さらに、次式により、演奏者が演奏を意図したと推定される推定音符列データQ*を生成するステップと、
    処理部が、前記生成するステップにより生成された推定音符列データQ*を出力部により出力するステップと、
    をコンピュータに実行させるための音楽情報解析プログラムを記録したコンピュータ読み取り可能な記録媒体。
    Figure 0003776673
JP2000105063A 2000-04-06 2000-04-06 音楽情報解析装置、音楽情報解析方法及び音楽情報解析プログラムを記録した記録媒体 Expired - Fee Related JP3776673B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000105063A JP3776673B2 (ja) 2000-04-06 2000-04-06 音楽情報解析装置、音楽情報解析方法及び音楽情報解析プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000105063A JP3776673B2 (ja) 2000-04-06 2000-04-06 音楽情報解析装置、音楽情報解析方法及び音楽情報解析プログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2001290474A JP2001290474A (ja) 2001-10-19
JP3776673B2 true JP3776673B2 (ja) 2006-05-17

Family

ID=18618500

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000105063A Expired - Fee Related JP3776673B2 (ja) 2000-04-06 2000-04-06 音楽情報解析装置、音楽情報解析方法及び音楽情報解析プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP3776673B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2002047066A1 (ja) * 2000-12-07 2004-04-08 ソニー株式会社 コンテンツ検索装置及び方法並びに通信システム及び方法
JP4714479B2 (ja) * 2005-02-21 2011-06-29 セイコーインスツル株式会社 電子式メトロノームおよび電子式メトロノームのテンポ設定方法
JP2007193222A (ja) * 2006-01-20 2007-08-02 Casio Comput Co Ltd メロディ入力装置及び楽曲検索装置
JP2007241034A (ja) * 2006-03-10 2007-09-20 Univ Of Tokyo 楽器演奏における運指決定方法及びシステム
JP5625235B2 (ja) * 2008-11-21 2014-11-19 ソニー株式会社 情報処理装置、音声解析方法、及びプログラム
JP5593608B2 (ja) * 2008-12-05 2014-09-24 ソニー株式会社 情報処理装置、メロディーライン抽出方法、ベースライン抽出方法、及びプログラム
JP6323159B2 (ja) * 2014-05-15 2018-05-16 ヤマハ株式会社 音響解析装置
JP6722165B2 (ja) 2017-12-18 2020-07-15 大黒 達也 音楽情報の特徴解析方法及びその装置
JP6724938B2 (ja) * 2018-03-01 2020-07-15 ヤマハ株式会社 情報処理方法、情報処理装置およびプログラム
CN112567450B (zh) * 2018-08-10 2024-03-29 雅马哈株式会社 乐谱数据的信息处理装置
JP7103106B2 (ja) * 2018-09-19 2022-07-20 ヤマハ株式会社 情報処理方法および情報処理装置
JP7143816B2 (ja) * 2019-05-23 2022-09-29 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
EP4027329B1 (en) * 2019-09-04 2024-04-10 Roland Corporation Automatic musical performance device, automatic musical performance program and method
WO2024085175A1 (ja) * 2022-10-18 2024-04-25 ヤマハ株式会社 データ処理方法およびプログラム

Also Published As

Publication number Publication date
JP2001290474A (ja) 2001-10-19

Similar Documents

Publication Publication Date Title
Papadopoulos et al. Joint estimation of chords and downbeats from an audio signal
US8244546B2 (en) Singing synthesis parameter data estimation system
JP3776673B2 (ja) 音楽情報解析装置、音楽情報解析方法及び音楽情報解析プログラムを記録した記録媒体
US20050086052A1 (en) Humming transcription system and methodology
Raphael Aligning music audio with symbolic scores using a hybrid graphical model
US10032443B2 (en) Interactive, expressive music accompaniment system
CN112382257B (zh) 一种音频处理方法、装置、设备及介质
Paulus Signal processing methods for drum transcription and music structure analysis
Lerch Software-based extraction of objective parameters from music performances
Liang et al. Musical Offset Detection of Pitched Instruments: The Case of Violin.
Konev et al. The program complex for vocal recognition
Jie et al. A violin music transcriber for personalized learning
Trochidis et al. CAMeL: Carnatic percussion music generation using n-gram models
Noland et al. Influences of signal processing, tone profiles, and chord progressions on a model for estimating the musical key from audio
Camurri et al. An experiment on analysis and synthesis of musical expressivity
Eronen Signal processing methods for audio classification and music content analysis
Shibata et al. Joint transcription of lead, bass, and rhythm guitars based on a factorial hidden semi-Markov model
Duggan Machine annotation of traditional Irish dance music
Meron et al. Automatic alignment of a musical score to performed music
Ryynänen Automatic transcription of pitch content in music and selected applications
Samson et al. Estimating note phrase aesthetic similarity using feature-based taxicab geometry
Müller et al. Tempo and Beat Tracking
Pauwels Exploiting prior knowledge during automatic key and chord estimation from musical audio
Marshall Gaussian process audio segmentation
Chan Simple Score Follower: A Contextual Switching Approach to Polyphonic Score Following on the Web using Deep-Learning Pitch Detection

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050906

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051101

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051129

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060221

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060223

R150 Certificate of patent (=grant) or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100303

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees