JP3776673B2

JP3776673B2 - 音楽情報解析装置、音楽情報解析方法及び音楽情報解析プログラムを記録した記録媒体

Info

Publication number: JP3776673B2
Application number: JP2000105063A
Authority: JP
Inventors: 茂樹嵯峨山; 博下平; 満中井; 直樹斎藤
Original assignee: Japan Science and Technology Agency; National Institute of Japan Science and Technology Agency
Current assignee: Japan Science and Technology Agency; National Institute of Japan Science and Technology Agency
Priority date: 2000-04-06
Filing date: 2000-04-06
Publication date: 2006-05-17
Anticipated expiration: 2020-04-06
Also published as: JP2001290474A

Description

【０００１】
【発明の属する技術分野】
本発明は、音楽情報解析装置、音楽情報解析方法及び音楽情報解析プログラムを記録した記録媒体に係る。本発明は、特に、隠れマルコフモデル(HMM，Hidden Markov Model)の適用及びビタビ経路探索処理により、音楽演奏から、音符列、演奏テンポ、拍子、小節境界位置等を推定するための音楽情報解析装置、音楽情報解析方法及び音楽情報解析プログラムを記録した記録媒体に関する。
【０００２】
【従来の技術】
一般に、楽譜の浄書やMIDI(Musical Instrument Digital Interface)演奏を目的にして、コンピュータへ楽譜を投入するソフトウェアツールが普及している。
【０００３】
図２１は、閾値処理による音符への誤変換の例を示す図である。演奏者の音楽的意図は同図左のようであり、同図右の物理的演奏情報に忠実な変換であるが、このような変換は必ずしも実用的ではない。この揺らぎに対して補正する研究は幾つか報告されており、閾値処理をベースとして、ヒストグラム処理による基準拍の設定手法、音楽的・文法的な強制或いはフレーズなどのルールの付加、またはテンポ情報を閾値設定に用いるものなどがある(H. C. Ronguet-Higgins: Mental Processes, The Mit Press,1987. 片寄, 井口: ``知的採譜システム,'' 人工知能学会誌,Vol.5, No.1, pp.59-66, 1990. 海野, 中西: ``音楽情景分析における楽音認識と自動採譜,''インタラクション99予稿集, 1999. P. Desain, H. Honing: ``Quantization of Musical Time;A Connectionist Approach,'' Computer Music Journal, Vol. 13,pp. 56--66, 1989.、参照)。また自動演奏という視点から、演奏情報と楽譜情報との比較から演奏の表情規則を抽出し、その規則により表情付けされた演奏からの採譜システムとして応用しているものや(野池, 乾,野瀬, 小谷: ``演奏情報と楽譜情報の対からの演奏表情規則の獲得とその応用,'' 情報処理学会音楽情報科学研究会,97-MUS-26-16, pp.109-114, 1998.、参照)、曲のビートを解析するビートトラッキングをマルチエージェントによりモデルベースで音楽的解析を行う報告もされている(後藤真孝, 村岡洋一: ``音楽音響信号を対象としたビートトラッキングシステム -小節線の検出と打楽器音の有無に応じた音楽的知識の選択- ,'' 情報処理学会研究技術報告, 97-MUS-21-8, pp.45-52, 1997. Masataka Goto and Yoichi Muraoka: ``Real-time RhythmTracking for Drumless Audio Signals -- Chord Change Detection forMusical Decisions --,'' IJCAL-97 Workshop on Computational Auditory Scene Analysis, 1997.、参照)。
【０００４】
【発明が解決しようとする課題】
しかし、鍵盤入力等により演奏された音楽から演奏者(ユーザ)の意図した楽譜に変換するのは単純なことではない。たとえばMIDI鍵盤入力の場合、音高情報は正確に得られるが、音価(音符の長さ)は、(MIDIの時間分解能を単位として)ほぼ連続的な値として得られ、それを単純（忠実に）に処理しただけでは、意図された音符とは程遠いものになり、正確にそれを得ることはできない場合が多い。その理由は、実際の人間が演奏する際、意図した音符の正規の長さと実際に演奏した音符長とは、長短のずれ、テンポの揺らぎ等を含むからである。どうしても音符の長短、テンポの揺らぎがあり、それを忠実に音符に変換すると、とても読めないような楽譜が生じる。これが、いわゆる「打ち込み」の作業の面倒な点であり、一般にはしかたなくマウスを使った楽譜投入や修正が行われているが、時間を要し、効率が悪い。
【０００５】
この変動を吸収するために、メトロノームを用いて演奏テンポを一定にした上で、音符長を量子化（quantize）する機能が用いられるが、よほどの熟達者ですら、2分音符から16分音符までを機械的に正確に弾き分けるのは困難である。まして、音楽初心者が演奏する場合、テンポや正規の音符長に対し忠実に演奏することができない場合が多い。一方、音響信号入力からの自動採譜では、この点はさらに困難になる。採譜システムとしては、主にMIDI信号を対象とし音楽的分析を行うシステムと音響信号から周波数解析・音楽的分析を行い、様々な音楽解釈から楽譜を推定する手法がある(長嶋洋一, 橋本周司, 平賀護, 平田圭二: コンピュータと音楽の世界, bit別冊, 共立出版株式会社, 1998.、参照)。これらは一般に人間の演奏情報を対象としている。楽譜化を目的とした演奏でない限り、曲のスタイル・表情付け、演奏者の音楽意図などにより、テンポや音長は意識的な変動を受ける。
【０００６】
以上のように、さまざまな音長変動要因のため、音長系列から音符シンボル列への変換は困難となる。従来手法や市販品の殆どは閾値処理をベースとしている。しかし、そのような単純な処理では、ある市販ソフトウェアによっては、以上の例のように誤って音符推定されることになる。
しかし、一般に、演奏された音楽は、人間が聴けば、どんな意図のどんなリズムパターンで弾かれているのかはすぐわかる。慣れた人なら、ゆっくりなら、聴きながらでも楽譜に書ける。これはリズムをパターンとして理解できるからである。
【０００７】
そこで、本発明は、以上の点に鑑み、演奏の音長系列から音楽的意図に基づく音符列を確率モデルを用い推定して、意図した楽譜を作成することを目的とする。また、本発明は、例えば、MIDI楽器などを用いた自動演奏、あるいは楽譜の清書などに頻繁に行われているように、鍵盤、管楽器、弦楽器等から音楽を演奏した際に、その音楽に基づき演奏データを楽譜化するための音楽情報解析装置、音楽情報解析方法及び音楽情報解析プログラムを記録した記録媒体を提供することを目的とする。本発明は、さらに、MIDI演奏データ以外にも、歌声、ハミング、楽器演奏などの音楽(音情報)から、楽譜化(採譜)することに応用することを目的とする。本発明のユーザは、例えば、プロの音楽製作者、アマの音楽愛好家、音楽教師、音楽学習者、楽譜出版などを想定している。
【０００８】
【課題を解決するための手段】
本発明は、音声認識の技術であるHMM(隠れマルコフモデル)を使って、主に、（１）演奏されたリズムの正確な楽譜化、（２）拍子(3拍子や4拍子)の推定、（３）拍節(どこに小節線を入れるか)の推定、及び、（４）テンポの変動の推定、を実現する。
【０００９】
本発明では、隠れマルコフモデルを用いて人間によって、鍵盤演奏された音符音長系列情報(スタンダードMIDIファイル)から意図された音符列を推定する手法を提案し、実験によりその有効性を実証する。本発明では、連続音声認識の定式化に倣って、演奏入力を音楽的に理解する原理を隠れマルコフモデル(HMM)によりモデル化し、意図された音符列を推定する。更に、本発明は、同じ原理によりテンポ変化推定・小節線推定・拍子推定を提案する。また、本発明は、評価実験により、一般に用いられている閾値処理より良好な結果が得られることを示される。
【００１０】
本発明の第１の解決手段によると、
演奏された音楽演奏データを入力する入力部と、
第１の状態から第２の状態へ遷移する状態遷移確率と、各音符列が生成される確率を含むリズムパターンの確率モデルを記憶するリズムパターンモデル記憶部と、
各音符がある音長で演奏される出力確率分布に関する情報を記憶する音符長伸縮モデル記憶部と、
前記入力部により入力された音楽演奏データから音符長列データを求め、前記リズムパターンモデル記憶部及び前記音符長伸縮モデル記憶部に記憶されたデータを参照し、隠れマルコフモデルを適用して、ビタビ経路探索により状態列を求め、演奏者が演奏を意図したと推定される推定音符列データを生成する処理部とを備えた音楽情報解析装置を提供する。
【００１１】
本発明の第２の解決手段によると、
演奏された音楽演奏データを入力する入力ステップと、
前記入力ステップにより入力された音楽演奏データから音符長列データを求めるステップと、
第１の状態から第２の状態へ遷移する状態遷移確率を含むリズムパターンの確率モデルと、各音符がある音長で演奏される出力確率分布とを参照し、隠れマルコフモデルを適用して、ビタビ経路探索により状態列を求め、演奏者が演奏を意図したと推定される推定音符列データを生成するステップと
を含む音楽情報解析方法及び音楽情報解析プログラムを記録した記録媒体を提供する。
【００１２】
【発明の実施の形態】
（１）音楽情報解析装置及び方法
図１に、音楽情報解析装置の構成図を示す。この音楽情報解析装置は、入力部１、出力部２、リズムパターンモデル記憶部３、音符長伸縮モデル記憶部４、処理部５、ビタビ経路探索プログラム記憶部６を備える。図２に、音楽情報解析処理のフローチャートを示す。
【００１３】
リズムパターンモデル記憶部３は、ある音符ｉから音符ｊへ遷移する確率ａ_ｉ，ｊのように、第１の状態から第２の状態へ遷移する確率と、音符列Ｑが生成される確率Ｐ（Ｑ）（ある演奏情報Ｘが音符列Ｑを意図したものである場合の音符列が生成される確率Ｐ(Ｑ)）とを含むリズムパターンの確率モデルに関する情報を記憶する。音符長伸縮モデル記憶部４は、音符ｊが音長ｘで演奏される分布確率密度ｂ_ｊ（ｘ）等の出力確率分布に関する情報を記憶する。出力確率分布に関する情報としては、正規分布等の適宜の分布を用いることができる。ビタビ経路探索プログラム記憶部６は、周知のビタビ復号化アルゴリズム（経路探索処理）のプログラムを記憶する。なお、ここでは「音長」は当該音符が占める時間であり、通常は当該音符が発音されてから次の音符が発音されるまでの時間を意味する。休符については、一定時間以上の無音を休符と認定するなどの処理が必要である。
【００１４】
入力部１は、演奏された音楽演奏データを入力する（Ｓ１０）。
処理部５は、入力された音楽演奏データから音符長列データを求め、リズムパターンモデル記憶部３及び音符長伸縮モデル記憶部４に記憶されたデータを参照し、隠れマルコフモデルを適用して、ビタビ経路探索により状態列を求め、演奏者が演奏を意図したと推定される推定音符列データを生成する（Ｓ３０）。ここで、例えば、隠れマルコフモデルの出力確率分布は、音符が演奏される時間変動を表現し、隠れマルコフモデルの状態遷移確率は、用いられるリズムパターンの確率を表現する。
【００１５】
出力部２は、推定音符列データを、楽譜、可聴、可視等の適宜の方式で、印刷表示、ディスプレイ表示、MIDI演奏、外部出力等の適宜の手段で出力する（Ｓ５０）。
【００１６】
本発明の音楽情報解析装置により、リズムパターンモデル記憶部３は、複数のテンポに対応する複数のリズムパターンモデルを記憶し、処理部５は、ビタビ復号化アルゴリズムによって所定のテンポのリズムパターンの確率モデルを選択することによって演奏テンポを推定することができる。また、本発明の音楽情報解析装置により、リズムパターンモデル記憶部３は、複数のテンポに対応し且つテンポが変動する遷移状態を含むリズムパターンモデルを記憶し、処理部５は、ビタビ復号化アルゴリズムによって所定のテンポのリズムパターンの確率モデルを逐次的に選択することによって演奏テンポの変動を推定することができる。また、本発明の音楽情報解析装置により、リズムパターンモデル記憶部３は、複数の拍子に対応する複数のリズムパターンの確率モデルを記憶し、処理部５は、ビタビ復号化アルゴリズムによって所定の拍子のリズムパターンのモデルを選択することによって楽曲の拍子を推定することができる。また、本発明の音楽情報解析装置により、リズムパターンモデル記憶部３は、弱起(アウフタクト)のパターンを含む複数の拍子に対応するリズムパターンの確率モデルを記憶し、処理部５は、ビタビ復号化アルゴリズムによって所定の小節境界位置を推定することができる。
【００１７】
（２）ＨＭＭによる音符列推定
以下に、ＨＭＭによる音符列推定について説明する。
まず、連続音声認識問題との同型性について説明する。
【００１８】
本発明では、揺らぎのある音長列から音符列を推定するために、ボトムアップ的にずれを持つ音長をいかに音符に割り振るかを考える手法でなく、主に、トップダウン的にどのような音符を意図して演奏した結果、入力演奏が観測されるかを仮説検証する、または解釈するという音声認識で成功している考え方を用いる。そこで、整数関係にある正規の音符長が演奏によって揺らぎを持つ音長に変換される過程(音長系列生成過程)を確率モデル化し、その逆問題として音符列を推定する問題を考える。
【００１９】
図３に、逆問題としての音符列推定の説明図を示す。具体的には、2レベルの確率モデルを作成し、それを基に隠れマルコフモデル(HMM，Hidden Markov Model)を用いて音長系列生成モデルを作成する。HMMでは尤度最大の原理によって音長系列が生成する遷移系列の中で最も尤度が高い系列をビタビ(Viterbi)探索によって求める。これによって、トップダウンアプローチで入力演奏を音楽的に解釈し、音長やテンポの揺らぎに頑健な推定を可能にする。
【００２０】
HMMは、音声認識において広く用いられているモデルで、本問題と連続音声認識は次の図のように同種の問題と考えることができ、HMMを用いて尤度最大の状態遷移系列を探索(Viterbi経路探索)することにより音符列を求める問題として定式化できる(中川聖一: 確率モデルによる音声認識, 電子情報通信学会, 1988. L. Rabiner, B.-H. Juang: Fundamentals of SpeechRecognition, Prentice-Hall, 1993.、参照)。図４に、音声認識とリズム認識の対応についての説明図を示す。
【００２１】
図中、連続音声認識と音楽リズム認識との対応関係が示される。入力単位について、文音声と楽曲が対応し、語彙について、単語とリズムパターンが対応し、隠れ状態について、音響イベント音符が対応し、観測値について、スペクトル列と物理的音符長列が対応する。
【００２２】
（３）リズムパターンモデル記憶部
つぎに、リズムパターンモデル記憶部３に記憶されるリズムパターンの確率モデル（音符列モデル）について説明する。音長に揺らぎがある演奏でも、聴き手には意図した音符列（さらに、時には伸縮の意図も）が伝わるのはなぜかを考える。これは聴き手は出現しうる音符列に関する常識を持っているからであろう。たとえば従来技術で説明した、閾値処理により変換された楽譜は理論上は可能ではあるが常識に合わない。そこで、聴き手や音楽家の常識をモデル化するために、本手法では音楽的な制約として音符の推移をモデル化する。これは音声認識における言語モデルあるいは文法に相当する部分である。ここでは簡単のため以下の2種類の音符列モデルを扱う。これらのモデルにより、それぞれ、第１の状態から第２の状態への遷移と、その遷移確率、各音符列が生成される確認が与えられる。
【００２３】
第１のモデルは、2音符連鎖(bigram)確率モデルである。図５は、音符連接のリズムモデル例を示す図である。図に示すように、このモデルは、任意の音符に任意の音符がそれぞれ確率で後続するモデルである。制約力は弱いが、どんなリズムパターンにも対処できる。
【００２４】
第２のモデルは、リズムパターンモデルである。図６は、２拍単位パターンのリズムモデル例を示す図である。図に示すように、「リズム語彙」を定義し、リズムパターンの連鎖により曲が成立しているとするモデルである。このモデルは、状態滞留確率を0とする点で、音声認識のHMMと若干異なる場合がある。この各リズムパターンを最小単位と捉えると、曲全体はリズムパターンの連結により成り立っていると考えることができる。
【００２５】
これらのモデルパラメータは、楽曲データから学習することができる。これは、人間の音楽経験による常識の形成に譬えられる。このようないわば「リズム文法」は、複雑に精度良く作成するほど、リズムパターン認識精度は向上する。また、これらはモデル楽曲のジャンルやスタイルに依存する。たとえば、ジャズのスィングリズムは、西洋古典派音楽として捉えると、演奏者が下手であると理解されることがある。
【００２６】
実際に、童謡・民謡・歌曲(中学生の音楽1,2,3, 教育芸術社, 1983-85. 楽しく歌おう, 神奈川県中学校音楽教育研究会, 1983. 世界名歌110曲集, 全音楽譜出版社.、参照)を対象に4/4拍子の曲88曲より音符連接確率及びリズムパターンの統計を取った。パターンの分類として1小節単位パターンと2拍単位パターンの2種類を作成し、リズムパターンの種類は1小節単位パターン267種類、2拍単位パターン137種類が得られた。また3/4拍子についても同様に25曲から統計をとり、1小節単位パターン68種類が得られた。
【００２７】
図７は、音符列パターンの出現頻度例(4/4拍子)を示す図である。図中、頻度順で、小節単位、2拍単位の音符列パターンが示される。
【００２８】
（４）音符長伸縮モデル記憶部４
つぎに、音符長伸縮モデル記憶部４に記憶された出力確率分布に関する情報（音長の伸縮変動モデル）について説明する。同一の音価の音符でも、既に述べたさまざまな要因により、その物理的音長が変動する。ここでは、単純化して考えるため、これらを確率変動と見なす。図８は、テンポ指定時の演奏の音長分布の説明図である。図中、テンポ指定つき演奏実験で得られた約50の演奏のデータから、4分音符、8分音符、符点4分音符の音長ヒストグラムの例(１/960秒単位)が示される。横軸(tick)は指定テンポにおいての4分音符の分解能を示す。今回は4分音符を480 ticksとして統計をとった。
【００２９】
本発明では、一例として、各音符の音長の分布を正規分布で近似する。なお、正規分布以外の他の分布で近似してもよい。正規分布の平均μは各音符長の正規の長さとし、標準偏差σは正規の音符長に比例する分と、固定分の和σ＝ａμ＋ｂの形で与えられると仮定する。ここで、ａは、統計結果から、各音符の分散が音符が長い程広がるということに基づいた音符間での分散の相違を示し、ｂは、どの音符でも人間の演奏内に含まれる固定分の物理的なずれを表す。図から最小二乗法で得られた実験式は、一例として、
σ＝0.05μ＋0.011(秒単位)
である。このように、統計により得られた分布の平均と分散から音長の変動を確率分布としてモデル化し、この変動を正規分布によって近似する。
【００３０】
しかし、実際の演奏テンポとモデルが仮定するテンポとにミスマッチがあること、この分布は演奏者に依存すること、また統計サンプル数が多くないことなどを考慮して、モデルの標準偏差を若干広めに設定し、以下では、一例として、
σ＝0.06μ＋0.0114(秒)
としてモデル化に用いている。
【００３１】
図９に、各音符音長の変動モデルの説明図を示す。このように音符ｊが音長ｘで演奏される正規分布確率密度をｂ_ｊ(ｘ)と書く。確率モデルパラメータは、上述のように演奏データから学習することができる。これは、人間の音楽経験による音長の揺らぎの常識の形成に譬えられる。
【００３２】
（５）処理部５
つぎに、処理部５による具体的な処理について説明する。まず、逆問題としての音符列推定について説明する。
【００３３】
上述のような2階層の確率モデルにより、意図した音符列Ｑを演奏すると、音長時系列Ｘがとして観測される確率が求められる。すなわち、音長系列Ｘの生成確率Ｐ(Ｘ｜Ｑ)は上記の2つの確率の積で表すことができ、次式となる。
【００３４】
【数１】

【００３５】
ｑ_ｔは時刻ｔにおける音符の種類である。逆に、演奏情報Ｘが音符列Ｑを意図したものである確率Ｐ(Ｘ｜Ｑ)は、ベイズ（Bayes）の定理
Ｐ(Ｑ｜Ｘ)＝Ｐ(Ｘ｜Ｑ)Ｐ(Ｑ)／Ｐ(Ｘ)
によって、Ｐ(Ｘ｜Ｑ)Ｐ(Ｑ)を求める問題(逆問題)と考えることができ、先の音長系列生成確率を求めることになる。ここで、Ｐ(Ｑ)は音符列が生成される確率であるので、Ｐ(Ｑ)をリズムパターンの連結確率としてモデルに組み込む。
【００３６】
ここで、リズムパターンモデル記憶部３に記憶されたデータにより、ａ_ｑ _t-1 _，ｑ _tが与えられ、音符長伸縮モデル記憶部４に記憶されたデータにより、ｂ_ｑ _t（ｘ_ｔ）が与えられるので、（数１）で示された式から、Ｐ(Ｘ｜Ｑ)が求められる。さらに、リズムパターンモデル記憶部３にはＰ(Ｑ)が記憶されており、これと求められたＰ(Ｘ｜Ｑ)により、Bayesの定理からＰ(Ｑ｜Ｘ)が求められる。なお、Ｐ（Ｘ）は与えられないものの、共通的な分母として付加されるので、Ｐ(Ｑ｜Ｘ)の比較ができる。
【００３７】
つぎに、HMMによる音符列推定について説明する。Ｐ(Ｘ｜Ｑ)、Ｐ(Ｑ)を求めるためHMMを用いて、２つの確率モデルを統合し、最も尤もらしい音符列を推定することができる。ＨＭＭによるモデル化において各パラメータは以下のような意味を持つ。
・状態ｓ_ｉ：音符ｉ
・初期確率π_ｉ：ある音符ｉから曲が始まる確率
・遷移確率ａ_ｉ，ｊ：音符ｉから音符ｊへ遷移する確率
・出力確率ｂ_ｊ（ｘ）：音符ｊが音長ｘで演奏される確率
・入力系列Ｘ：演奏された音符長系列
Ｘ＝｛ｘ_１，…，ｘ_ｎ｝
【００３８】
図１０に、ＨＭＭによる音符列推定の概念図を示す。図１１に、ビタビ経路推定に関する説明図を示す。演奏された音長系列Ｘ（秒）が入力された時、この系列Ｘを生成する確率が最も大きい音符列Ｑを、隠れ状態系列のＶｉｔｅｒｂｉ探索により求めることができる。そのために、最小単位となるリズムモデルを作成する。図５及び図６のような音符連接モデルとリズムパターンモデルの一方又は両方を作成し、HMMの出力確率を音長の変動モデルに相当させる。リズム推定においては最小単位となるリズムの連結として楽譜を推定する。
【００３９】
すなわち、音符列推定の定式化として、ビタビ経路推定では、音長時系列Ｘが与えらえれたとき、音符列Ｑの中で、確率が最大となる音符列Ｑ＊は（数２）上式のように、求めることができる。これを、上述したBayesの定理による逆問題の定式化の結果、（数２）下式により求めることができる。
【００４０】
【数２】

【００４１】
（７）音符列推定実験
つぎに、HMMによる音符列推定実験について説明する。ここで、モデルとしては、4/4拍子の曲から統計をとった音符連接モデル及び2拍単位リズムパターンモデル(図６及びその説明箇所参照)を用いた。得られたパターン数は音符列モデルについての説明で述べた通りである。
【００４２】
また、入力としては、楽譜投入の際に演奏者がテンポ通りに演奏できないことを想定した実験条件として、
条件1 : テンポ指定ありでなるべく忠実な演奏
条件2 : テンポ指定なしでテンポ一定の演奏
条件3 : テンポ指定なしでテンポ変動を含む演奏
について扱った。条件1の演奏について被験者10名(合計16曲)に対し、音符列推定実験を行った。実験の対象曲としては、よく知られていて比較的短く音符の種類が豊富な「もろびとこぞりて(ニ長調)」を選んだ。図１２は、入力曲「もろびとこぞりて」の楽譜を示す図である。
【００４３】
ここで、評価方法としては、本発明では主に、MIDI信号を対象としているので、実験の評価としては、一例として、各音長が正しく音符変換されているかのみを評価する。正解精度は以下により評価する。
accuracy＝(N−sub−del−ins)×100／N(％)
・N：未知入力の総音符数
・sub：誤った音符に置換された数
・del：正しい音符が脱落した誤り数
・ins：異なる音符が挿入された誤り数
【００４４】
図１３は、音符列推定精度を示す図である。この図は、一例として20曲について、閾値処理(第１汎用プログラム)、閾値処理(第２汎用プログラム)、音符連接、２拍 Rhythm HMMの各方法により、休符挿入及び休符削除の音符認識率（％）を求めたものである。すなわち、同音反復の場合などに演奏に短いポーズが挿入されるが、そのまま音符列推定を行った場合(表中「休符挿入」)と、閾値処理により除いて処理した場合(表中「休符削除」)の両方の場合についての認識率を示す。これらの短いポーズを放置すると、評価上では挿入誤りが増加して認識率が低下する。従来の閾値処理の場合は不要なタイや短い休符が多く出現するが、実験の主旨により、タイで表現されている部分についての記譜誤りは除き、また、不要な16分休符を除いて集計した場合を表中の「休符削除」の欄に掲載した。このように、HMMによる音符認識率の精度が向上することがわかる。
【００４５】
（８）HMMによるテンポ推定(固定テンポ／変動テンポ推定)
上述のリズムパターンモデルは、時間情報として各音符音長がとりうる値を出力確率に対応させたモデル化であるため、ある一定のテンポの入力のみ解析可能である。そこで、本発明では、各リズムパターンモデルを複数のテンポ毎に作成し、入力に対して各テンポ毎に並列に尤度計算を行い、尤度が最大となるテンポを推定結果とすることでテンポによる適用範囲を広げる。
【００４６】
図１４に、一定テンポモデルについての説明図を示す。ここでは、一例として、テンポは67〜120の間で対数的に5分割し、6つのテンポを採用した。固定テンポモデルでは、リズムパターンをテンポ数セット用意して、各テンポモデル間の遷移は行わないものとする。
【００４７】
また、図１５に、変動テンポモデルについての説明図を示す。テンポの前後の揺らぎが激しい入力に対処するために、図１５のように、図１４の一定テンポモデル間に遷移確率を設け、階層型HMMを作成する。これにより、移り変わるテンポに追従した解析を可能にする。
【００４８】
つぎに、固定テンポ推定実験について説明する。入力は、一例として、条件2(テンポ指定なしでテンポ一定の演奏)「もろびとこぞりて」について被験者10人(10演奏)を対象とする。用いるモデルは図１４の一定テンポモデルにより、6つの固定テンポ候補中から演奏されたテンポを一つ推定する。評価方法としては、演奏が奏者の演奏技術による揺らぎ以外の表情付けなどの変動要因は含まないことをふまえ、その曲全体が演奏された平均テンポ(例えば、1分間の四分音符の数)を
演奏テンポ＝拍数／演奏時間(分)
により定義し、比較対象とする。
【００４９】
図１６は、テンポ推定結果を示す図である。ここでは、一例として、条件2で10曲、A欄は、拍数(38個)/演奏時間(分)を示し、B欄は、一定テンポHMMを示す。テンポ推定結果は、曲の演奏時間から求めた平均テンポと一定テンポHMMの選択されたモデル(最も尤度が高いモデル)を示したものである。認識率によって多少異なる場合もあるが、6種のテンポのうち一番近いモデルが選択され、テンポ推定率は100％であった。
【００５０】
つぎに、テンポ変動問題に対する推定結果について説明する。入力同じ入力曲(条件3)で大幅なテンポ変動を含む演奏に対する実験を行う。モデルは図１５に示す変動テンポモデルを用いる。一番多く採用されたテンポのモデルをその曲が演奏された平均のテンポとする。
【００５１】
図１７に、変動するテンポと音符列推定についての説明図を示す。なお丸で囲った部分は誤推定がなされる。図中、意図的に極端なテンポ変動を行った演奏に対するテンポ変動推定実験結果が示される。尤度最大の状態遷移系列をたどると、以下のテンポモデル間の遷移を行っていることがわかった。
Tempo 120(初期モデル)→120→120→107→107→95→107→95→95→107→95→95→107→85→120→120→95→85→76→67
【００５２】
この例では、極端に遅い演奏個所では、音価は倍にテンポは速めに推定された結果、誤推定が生じたが、妥当な推定であるとも考えられる。2拍単位パターンモデルなので小節毎にテンポが推移するような場合は、小節内での急激な変化や、小節毎に誤推定されたりすることがある。テンポ間の遷移確率を調整することにより、この誤認識が減少できる可能性がある。たとえば、テンポの近い間の遷移は、テンポが離れた場合より確率を高くすること等があげられる。
【００５３】
（９）HMMによる拍節推定
つぎに、拍子／開始拍／小節線位置推定問題について説明する。
演奏から楽譜を復元する場合には、音符列のみならず拍子の推定、開始拍(弱起、アウフタクトかどうか)の推定、すなわち小節線をどのように入れればよいかという課題を解決する必要がある。これらの課題も、以上に述べた本発明の確率モデルによって定式化できる。
【００５４】
まず、拍子推定のモデル化について説明する。拍子特性が顕著に現れるのは、1小節中に含まれる音符パターンであると考えられる。そこで4/4拍子、3/4拍子毎に1小節1パターンのリズム統計をとり、各モデルで入力された旋律の尤度を並列計算し音符列を推定する。ここで尤度最大の原理を利用し、尤度が高い遷移系列を求めその系列が4/4であるか3/4であるかを判定し、拍子推定結果とする。
【００５５】
小節線推定は、事後処理による挿入とモデルを用いた挿入方法の2種類を試みた。事後処理による挿入では、拍子情報を基に曲の冒頭から拍数分カウントし挿入する。ここで、図１８に、モデルによる小節線推定の説明図を示す。モデルによる推定手法では、図５、図６のようなリズムパターンを図のように1小節1パターンのリズムモデルとして複数セット用いる。これにより、各リズムパターンの最終状態が選択された後、小節線を挿入する。
【００５６】
アウフタクト(上げ拍)の可能性も含めた小節線位置の推定では、さらにアウフタクトに関するリズムパターンのセットを付加する。そして、事後処理による推定では、最後に数があわない場合にアウフタクト(上げ拍)であると判断し、最初にもどり2つ目の音符からカウントを始める。モデルでは、アウフタクトの小節を初期確率のみ持つ別のリズムパターンとして与える。これにより、曲の途中でそのパターンが選択されることを防げる。
【００５７】
つぎに、拍節推定実験について説明する。図１９にモデルによる小節線推定の説明図を示す。モデルと入力データとしては、この図のモデルを用い、4/4拍子10曲、3/4拍10曲に対し条件1の演奏を入力した。リズムの最小単位としては双方とも1小節単位パターンのモデルを用いた。2拍1パターンのものはパターン2つにつき小節線を出力という形式で行った。
【００５８】
つぎに、図２０に、拍子推定における誤認識例の説明図を示す。この図は、一例として、「赤とんぼ(3/4拍子)」でありリズムパターンの観点からは妥当な解を示す。拍子・小節線推定結果では、4/4拍子については10曲全てについて正しく拍子推定できた。3/4拍子10曲中8曲は正しく推定できたが、残る2曲は音符列としては正しく推定されたが、拍子は4/4拍子と誤推定された。リズムパターンとしては、1フレーズが3小節になっているところに違和感があるが、4/4拍子と考えても矛盾はない。このような場合の拍子推定は、旋律あるいは想定される和声まで含めたさらに高度な総合モデルが必要となる。なお、本発明の小節線推定では、拍子を誤推定した場合、小節線は本来の楽譜と全く違う箇所に挿入される。また、拍子推定が正しくとも、音符列(リズムパターン)が正しいかどうかによって小節線位置の推定結果も変わる。
【００５９】
本発明は、音楽情報解析方法は、音楽情報解析プログラムを記録した記録媒体又はそのような記録媒体を含むプログラム製品により提供されることができる。
【００６０】
【発明の効果】
本発明によると、以上のように、音楽演奏の音符音長系列データに対し、連続音声認識の方法論を適用して統合的な確率モデルと最尤経路探索により、意図された音符リズム推定、テンポ推定、拍子推定、小節線位置推定などが統一的に行えい、人間の演奏を解析するメカニズムをHMMを用いて実現することができた。
【００６１】
本発明は、ジャンルやスタイルを考慮(に依存)したリズムパターンのモデル学習方法、楽曲フレーズのようなより大きな曲構造を反映したモデル、未知リズムパターンへの対処(音声認識における未知語対策に対応)、リズムパターンに依存した音長伸縮特性を考慮した推定(同じく文脈依存モデルに対応)、ユーザのスキルや癖を学習するユーザ適応技術(同じく話者適応に対応)、Ａ^＊アルゴリズムなどの効率的な解探索、N-bestアルゴリズムの適用などの発展により、その適用可能性を広げることができる。さらに、本発明は、音響信号入力に対して適用し、自動採譜の一要素技術として用いることができる。
【図面の簡単な説明】
【図１】音楽情報解析装置の構成図。
【図２】音楽情報解析処理のフローチャート。
【図３】逆問題としての音符列推定の説明図。
【図４】音声認識とリズム認識の対応についての説明図。
【図５】音符連接のリズムモデル例を示す図。
【図６】２拍単位パターンのリズムモデル例を示す図。
【図７】２拍単位パターンのリズムモデル例を示す図。
【図８】テンポ指定時の演奏の音長分布の説明図。
【図９】テンポ指定時の演奏の音長分布の説明図。
【図１０】ＨＭＭによる音符列推定の概念図。
【図１１】ビタビ経路推定に関する説明図。
【図１２】入力曲「もろびとこぞりて」の楽符を示す図。
【図１３】音符列推定精度を示す図。
【図１４】一定テンポモデルについての説明図。
【図１５】変動テンポモデルについての説明図。
【図１６】テンポ推定結果を示す図。
【図１７】変動するテンポと音符列推定についての説明図。
【図１８】モデルによる小節線推定の説明図。
【図１９】モデルによる小節線推定の説明図。
【図２０】拍子推定における誤認識例の説明図。
【図２１】閾値処理による音符への誤変換の例を示す図。
【符号の説明】
１入力部
２出力部
３リズムパターンモデル記憶部
４音符長伸縮モデル記憶部
５処理部
６ビタビ経路探索プログラム記憶部

Claims

演奏された音楽演奏データを入力する入力部と、
ある音符から音符へ遷移する確率と、ある音符長列データＸが音符列Ｑを意図したものである場合の音符列Ｑが生成される確率Ｐ(Ｑ)とを含むリズムパターンの確率モデルに関する情報を記憶するリズムパターンモデル記憶部と、
各音符がある音長で演奏される分布確率密度に関する情報を記憶する音符長伸縮モデル記憶部と、
前記入力部により入力された音楽演奏データから音符長列データＸを求め、前記リズムパターンモデル記憶部に記憶された前記遷移する確率及びＰ（Ｑ）と、前記音符長伸縮モデル記憶部に記憶された前記分布確率密度に基づき、前記遷移する確率と前記分布確率密度との積を音符長列データＸの全てにわたり順に積算することにより、音符長列データＸが音符列Ｑを意図したものである確率Ｐ(Ｘ｜Ｑ)を求め、さらに、次式により、演奏者が演奏を意図したと推定される推定音符列データＱ＊を生成する処理部と、
生成された推定音符列データＱ＊を出力する出力部と、
を備えた音楽情報解析装置。
請求項１に記載された音楽情報解析装置において、
前記分布確率密度は、各音符の音長の分布を正規分布で近似したものであることを特徴とする音楽情報解析装置。
請求項１又は２に記載された音楽情報解析装置において、
前記状態遷移確率は、任意の音符に任意の音符がそれぞれの確率で後続するモデルである２音符連鎖確率モデルが用いられることを特徴とする音楽情報解析装置。
請求項１乃至３のいずれかに記載された音楽情報解析装置において、
前記リズムパターンモデル記憶部は、複数のテンポに対応し、テンポ毎に複数個のリズムパターンモデルを記憶し、
前記処理部は、入力に対して各テンポ毎に並列に尤度計算を行い、尤度が最大となるテンポを推定結果とすることで演奏テンポを推定することを特徴とする音楽情報解析装置。
請求項１乃至４のいずれかに記載された音楽情報解析装置において、
前記リズムパターンモデルは、時間情報として各音符音長がとりうる値を出力確率に対応させたモデルであることを特徴とする音楽情報解析装置。
請求項１乃至５のいずれかに記載された音楽情報解析装置において、
前記リズムパターンモデル記憶部は、複数の拍子に対応し、拍子毎に複数個のリズムパターンの確率モデルを記憶し、
前記処理部は、各モデルで入力された旋律の尤度を計算し、尤度が高い遷移系列を求めその系列がどの拍子のリズムパターンであるかを判定し、楽曲の拍子を推定することを特徴とする音楽情報解析装置。
処理部が、演奏された音楽演奏データを入力部から入力する入力ステップと、
処理部が、前記入力ステップにより入力された音楽演奏データから音符長列データＸを求めるステップと、
処理部が、ある音符から音符へ遷移する確率、及び、ある音符長列データＸが音符列Ｑを意図したものである場合の音符列Ｑが生成される確率Ｐ(Ｑ)を含むリズムパターンの確率モデルに関する情報と、各音符がある音長で演奏される分布確率密度に関する情報を記憶部から参照し、前記遷移する確率及びＰ（Ｑ）及び前記分布確率密度に基づき、前記遷移する確率と前記分布確率密度との積を音符長列データＸの全てにわたり順に積算することにより、音符長列データＸが音符列Ｑを意図したものである確率Ｐ(Ｘ｜Ｑ)を求め、さらに、次式により、演奏者が演奏を意図したと推定される推定音符列データＱ＊を生成するステップと、
処理部が、前記生成するステップにより生成された推定音符列データＱ＊を出力部により出力するステップと、
を含む音楽情報解析方法。
処理部が、演奏された音楽演奏データを入力部から入力する入力ステップと、
処理部が、前記入力ステップにより入力された音楽演奏データから音符長列データＸを求めるステップと、
処理部が、ある音符から音符へ遷移する確率、及び、ある音符長列データＸが音符列Ｑを意図したものである場合の音符列Ｑが生成される確率Ｐ(Ｑ)を含むリズムパターンの確率モデルに関する情報と、各音符がある音長で演奏される分布確率密度に関する情報を記憶部から参照し、前記遷移する確率及びＰ（Ｑ）及び前記分布確率密度に基づき、前記遷移する確率と前記分布確率密度との積を音符長列データＸの全てにわたり順に積算することにより、音符長列データＸが音符列Ｑを意図したものである確率Ｐ(Ｘ｜Ｑ)を求め、さらに、次式により、演奏者が演奏を意図したと推定される推定音符列データＱ＊を生成するステップと、
処理部が、前記生成するステップにより生成された推定音符列データＱ＊を出力部により出力するステップと、
をコンピュータに実行させるための音楽情報解析プログラムを記録したコンピュータ読み取り可能な記録媒体。