JP2007240552A

JP2007240552A - 楽器音認識方法、楽器アノテーション方法、及び楽曲検索方法

Info

Publication number: JP2007240552A
Application number: JP2006058649A
Authority: JP
Inventors: Tetsuro Kitahara; 鉄朗北原; Hiroshi Okuno; 博奥乃
Original assignee: Kyoto University NUC
Current assignee: Kyoto University NUC
Priority date: 2006-03-03
Filing date: 2006-03-03
Publication date: 2007-09-20

Abstract

【課題】発音時刻及びＦ０推定処理に依存しない新規な楽器音認識方法を提供する。
【解決手段】不特定楽器存在確率を求めるステップと、条件付き楽器存在確率を求めるステップと、両者の積を算出するステップとを備えることを特徴とする。本発明に係る楽器音認識方法は、楽器音認識を単音ごとに行うのではなく、楽器存在確率を求めるため、従来よりも認識精度が高い。また、各楽器ごとに、時間ｔ−周波数ｆ平面上にインストログラムとして可視化することも容易であり、これを用いて楽器アノテーションを行ったり或いは楽曲構成に基づく類似楽曲検索を行うなど、様々な用途が考えられる。
【選択図】図１

Description

本発明は、ディジタル音楽情報の検索技術など様々な応用用途が可能な多重奏の音源認識の技術分野に関するものである。

ディジタル音楽情報に含まれる音源を同定する技術（本明細書ではこれを「楽器音認識技術」という。）は、これまで主に単一音を対象に研究されてきたが（非特許文献１）、近年は多重奏を対象とした研究が増えつつある（非特許文献２等）。

K.D.Martin; Sound-Source Recognition: A Theory and Computional Model, PhD Thesis, MIT, 1999. 北原他：混合音からの特徴量テンプレート作成と音楽的文脈利用による多重奏の音源同定，音講論集（秋），2-10-15,2005

従来の多重奏の楽器音認識技術は、単音（１つの音符に相当する一単位の音）ごとに楽器を認識する。そのため、各単音の調波構造（基本周波数Ｆ０とそのｎ次倍音からなる高調波が重ね合わされた信号波形）が複数重ね合わせられて構成される多重奏の調波構造を、単音ごとの調波構造に分離する作業が必要となる。

そのためには、各単音のオンセット時刻（発音時刻）と基本周波数（Ｆ０）を正しく推定することが求められる。しかし、多重奏の場合、一つの単音の基本周波数と別の単音のｎ次倍音高調波とが重なる等の理由から、多重奏の数が増えるほど推定誤差が大きくなるため、識別精度は極めて低いのが実情である。

例えば、図１３（ａ）は、多重奏の音響信号から各単音の発音時刻、音高（基本周波数Ｆ０）及び音長を推定して生成されたピアノロールとよばれる図であり、横軸は時刻を、縦軸は周波数を表している。図１３（ｂ）は、図１３（ａ）から各単音の楽器名を同定した様子を示している。しかし、従来の方法は、最初のステップである発音時刻及びＦ０の推定の誤差が大きいと、事後の計算は最初の推定誤差の影響が最終計算結果に大きく影響する仕組みであるため、認識率が悪い。

本発明は、発音時刻及びＦ０推定処理に依存しない新規な楽器音認識方法を提供することを主たる技術的課題とする。

本発明に係る楽器音認識方法は、不特定楽器存在確率を求めるステップ（ＳＡ１）と、条件付き楽器存在確率を求めるステップ（ＳＡ２）と、両者の積を算出するステップ（ＳＡ３）とを備えることを特徴とする。

本発明に係る楽器音認識方法における前記不特定楽器存在確率を求めるステップ（ＳＡ１）は、基本周波数（Ｆ０）の確率密度関数を計算するステップ（ＳＡ１−１）と、所定のアルゴリズムにより重みを推定する（ＳＡ１−２）ステップと、
を備えていてもよい。

また、本発明に係る楽器音認識方法における前記条件付き楽器存在確率を求めるステップ（ＳＡ２）は、入力音響信号に対して短時間フーリエ変換を行うステップ（ＳＡ２−１）と、許容される全ての周波数ｆに対して、ｆをＦ０とする（例えば１０次倍音までの）調波構造の時系列Ｈ（ｔ，ｆ）を抽出するステップ（ＳＡ２−２）と、周波数ｆごとに、
調波構造Ｈ（ｔ，ｆ）から、長さＴの断片Ｈｔ（τ、ｆ）（ｔ≦τ＜ｔ＋Ｔ）を抽出し、ここから予め定めたテーブルに示す多次元特徴ベクトルｘ（ｔ、ｆ）を求め、これを音響信号の始めから終わりまでΔｔごとに繰り返すことで特徴ベクトルの時系列を得るステップ（ＳＡ２−３）と、
条件付き楽器存在確率ｐ（ω_ｉ｜Ｘ；ｔ，ｆ）を求めるステップ（ＳＡ２−４）と、
を備えていてもよい。

本発明に係る楽器音認識方法における前記条件付き楽器存在確率を求めるステップ（ＳＡ２）は、楽器ω_１，・・・，ω_ｍ及びサイレンスの各々に対して複数の状態からなる時系列の隠れマルコフモデル（ＨＭＭ）のマルコフ連鎖から生成されたとみなし、このとき、各ＨＭＭＭ_ｉ（ｉ＝１，…，ｍ，サイレンス）に対して、ｘ（ｔ，ｆ）が時刻ｔにおいてＭ_ｉから生成された確率ｐ（ｘ（ｔ、ｆ）｜Ｍ_ｉ；ｔ）は、時刻ｔにおいてｆをＦ０とする楽器音がω_ｉである確率を表すことを特徴とするものとすることもできる。

本発明にかかるインストログラム作成方法は、上述した楽器音認識方法を用いたインストログラム作成方法であって、対象楽器をΩ＝｛ω_１，…，ω_ｍ｝ごとに、各ω∈Ωに対して、横軸を時刻、縦軸を周波数で表示すると共に、時間ｔ−周波数ｆ平面上に上述の楽器存在確率ｐ（ω；ｔ，ｆ）の大きさを表示することを特徴とする。

この場合、対象楽器をΩ＝｛ω_１，…，ω_ｍ｝ごとに、各ω∈Ωに対して、横軸を時刻、縦軸を周波数（但し、全周波数区間をＮ個の区間に区分し、その区間内にある楽器存在確率の値を統合して）で表示すると共に、時間ｔ−周波数ｆ平面上に上述の楽器存在確率ｐ（ω；ｔ，ｆ）の大きさを前記区間内を所定の対応関係を用いて視覚的に表示するように構成してもよい。このようにすると、直感的に理解し易い。

この場合、前記所定の対応関係は、楽器存在確率の大きさに対応するカラーマップを作成しておき、その対応関係に基づいて表現されるように構成してもよい。色相或いは濃淡などと対応づけることにより直感的に理解できるからである。

本発明にかかる楽器アノテーション方法は、楽器存在確率を含むインストログラムから時刻及び周波数ごとに楽器存在確率が最大の楽器名を出力する最大楽器名を出力するステップ（ＳＢ１）と、
周波数ごとに上記ステップ１で出力された最大楽器名が所定のマルコフチェインから生成されたとみなして最尤パスを求める最尤パス探索ステップ（ＳＢ２）と、
前記マルコフチェインの状態遷移図を用いて所定の楽器アノテーションを行うためのタグ付けステップ（ＳＢ３）とを備えることを特徴とする。

本発明にかかる楽曲検索方法は、ディジタル音楽情報に含まれる複数の楽器情報のうち、時間ｔ及び周波数ごとの楽器存在確率を各楽器ごとに求め、指定した楽曲と楽曲構成が同一又は類似した楽曲を検索することを特徴とする。

この場合、前記楽曲検索方法は、インストログラムの画像の類似度を計算することにより行うように構成してもよい。

本発明に係る楽器音認識方法は、楽器音認識を単音ごとに行うのではなく、多重奏を前提として楽器を単位として楽器存在確率を求めるため、従来よりも認識精度が高い。また、各楽器ごとに、時間ｔ−周波数ｆ平面上にインストログラムとして可視化することも容易であり、これを用いて楽器アノテーションを行ったり或いは楽曲構成に基づく類似楽曲検索を行うなど、様々な用途が考えられる。

以下、本発明に係る「楽器音認識方法、インストログラム及びその作成方法、楽器アノテーション方法、及び楽曲検索方法」を実施するための最良の形態（以下「実施形態」という）を詳細に説明する。なお、以下説明する実施形態は、最初に楽器音認識方法の基本原理（「楽器音認識方法の基本的な考え方」、「原理及び数式の説明」）を説明し、その後、この楽器音認識方法を具現化した「楽器音認識装置」を具体的に説明する。

なお、以下の実施例で説明される「楽器」は、ピアノやクラリネットといったものが用いられるが本明細書において「楽器」は音源全てを指し、楽器の種別は限定されない。例えば、人の声も楽器に含まれることは当然である。

−楽器音認識方法の基本的な考え方−
始めに、本発明に係る楽器音認識方法の基本原理について説明する。本発明では、楽器ω_ｉごとに、時間ｔ−周波数ｆ平面の各点（ｔ，ｆ）に対して「楽器存在確率」というものを定義して、これをｐ（ω_ｉ；ｔ，ｆ）と表現するものとする。
本発明に係る楽器音認識方法は、最終的には楽器存在確率の計算に帰着するが、まず始めに、これを最も単純化して定式化すると次のとおりとなる：
（楽器存在確率）＝（不特定楽器存在確率）×（条件付き楽器存在確率）

ここで、不特定楽器存在確率とは、「時刻ｔ、周波数ｆに何らかの楽器音が存在する確率」と定義して、ｐ（Ｘ；ｔ，ｆ）と表現するものとする。
なお、不特定楽器存在確率を求めるステップは、発音時刻及びＦ０推定を行う従来の楽器音認識方法における、各単音の発音時刻検出及びＦ０推定ステップに対応する。但し、ここでの目的はＦ０推定ではなくあくまでｐ（Ｘ；ｔ，ｆ）の計算であるから、Ｆ０確率密度関数の計算までの処理でよい。

また、条件付き楽器存在確率とは、「時刻ｔ、周波数ｆに楽器音が存在するとすると、それが楽器ω_ｉである確率」と定義して、「何らかの楽器音が存在するという全対象楽器の和事象Ｘ、すなわち、Ｘ（＝ω_１∪…∪ω_ｍ）を用いて、ｐ（ω_ｉ｜Ｘ；ｔ，ｆ）と表現するものとする。
なお、条件付き楽器存在確率を求めるステップは、発音時刻及びＦ０推定を行う従来の楽器音認識方法における、各単音の楽器同定のステップに対応する。

従って、楽器存在確率ｐ（ω_ｉ；ｔ，ｆ）を、不特定楽器存在確率ｐ（Ｘ；ｔ，ｆ）と、条件付き楽器存在確率ｐ（ω_ｉ｜Ｘ；ｔ，ｆ）を用いて表すと、

と表される。

図１は、本発明に係る楽器音認識方法の基本的なステップを示したものである。この図に示すように、本発明に係る楽器音認識方法は、不特定楽器存在確率を求めるステップ（ＳＡ１）と、条件付き楽器存在確率を求めるステップ（ＳＡ２）と、これらの結果得られる値を乗算して楽器存在確率を求めるステップ（ＳＡ３）とで構成される。

１．不特定楽器存在確率を求めるステップ（ＳＡ１）
不特定楽器存在確率ｐ（Ｘ；ｔ，ｆ）を求めるには、フレームごとに観測されたスペクトルを音モデルの加重混合でモデル化する方法が考えられる。もし、観測されたパワースペクトルがｐ（ｘ；θ^（ｔ））から生成されたかのように、モデルがパラメータθ^（ｔ）を推定できれば、パワースペクトルが個々の音モデルへ分解されたとみなすことができ、このとき、重みω^（ｔ）Ｆは、ＦをＦ０とする音モデルの相対的な優勢さを表していると考えることができる。そこで、この重みω^（ｔ）（Ｆ）を不特定楽器存在確率ｐ（Ｘ；ｔ，ｆ）とみなすのである。

すなわち、ｐ（ｘ｜Ｆ）を、図２（ａ）に示すような典型的な調波構造を表現した確率分布（音モデル）と考えて、周波数成分の確率密度関数が、全ての可能なＦ０に対する音モデルの重み付き和からなる確率モデル、

から生成されたと考える。ここで、ＦｈとＦｌは許容されるＦ０の上限と下限とする。この時、式２に含まれるω^（ｔ）（Ｆ）は

を満たす音モデルの重みである。この重みω^（ｔ）（Ｆ）は、所定のＥＭ（Expectation Maximization）アルゴリズムで推定し、それをＦ０の確率密度関数と解釈する。

具体的に、以上の計算を実行するには、音源数を仮定しない音高推定手法（PreFEst）により求める方法が考えられる（日本音響学会誌６０巻１１号（２００４），ｐｐ６７６参照）。PreFEstは、制限された周波数帯域において最も優勢な調波構造を持つＦ０を推定する手法の一つである。調波構造の形状を表す確率分布をあらゆる音高（基本周波数）に対して用意し、それらの混合分布（加重混合＝重み付き和）として入力の周波数成分をモデル化する。但し、PreFEstは元々はメロディとベースのＦ０を推定する手法であるが、ここでの目的はＦ０推定ではなくｐ（Ｘ；ｔ，ｆ）の計算までの処理（PreFEst-core)のみ用いればよい。

Pre-FEst-coreによると、観測されたパワースペクトルを、ある典型的な調波構造のスペクトルをモデル化した音モデルｐ（ｘ｜Ｆ）の加重混合と考え、そのモデルパラメータをＥＭアルゴリズムにより最大事後確率推定することで、混合音の各構成音の音量（重み）と調波構造の形状が同時に求められる。

図２（ｂ）は、不特定楽器存在確率を求める手順を簡単に示したものである。先ず、Ｆ０確率密度関数を計算し（ＳＡ１−１）、所定のＥＭアルゴリズムにより重みを推定する（ＳＡ１−２）。この重みが不特定楽器存在確率である。

２．条件付き楽器存在確率を求めるステップ（ＳＡ２）
図３は、条件付き楽器存在確率ｐ（ω_ｉ｜Ｘ；ｔ，ｆ）を求めるステップを示したものである。以下、各ステップについて詳述する。
（１）短時間フーリエ変換（ＳＡ２−１）
入力音響信号に対して短時間フーリエ変換を行う。
後述の実験例では、シフト幅１０ｍｓ、窓幅８１９２点ハミング窓を用いた。

（２）調波構造の抽出（ＳＡ２−２）
時間ｔ−周波数ｆ平面上に表された各周波数の音の振幅（音の強さ）を表す入力音響信号のスペクトログラムから、Ｆ０＝ｆの調波構造Ｈ（ｔ，ｆ）を求め、調波構造抽出をＦｌ［Ｈｚ］からＦｈ［Ｈｚ］までΔｆ［ｃｅｎｔ］ごとに行う。これにより、各周波数に対して調波構造を抽出する（なお、高次倍音まで抽出すればするほど精度は上がるが計算量が増えるデメリットがある。実験では１０次倍音まで抽出した。）。

（３）特徴抽出（ＳＡ２−３）
周波数ｆごとに特徴ベクトルの時系列を抽出する。
Ｆ０＝ｆの調波構造Ｈ（ｔ，ｆ）から、Ｔ秒間の断片Ｈｔ（τ，ｆ）（ｔ≦τ≦ｔ＋Ｔ）を抽出し、これをｔ秒ずつずらして繰り返す。この作業により、周波数ごとに予め定めた特徴の各データを特徴ベクトルｘ（ｔ，ｆ）として、その特徴ベクトルの時系列を抽出する。

図４は、特徴ベクトルの一例を示す一覧表を示す図である。この特徴ベクトルは２８次元で構成される。このうち、１の周波数重心は、スペクトルにおけるパワーを重みとした平均周波数）を意味するもので、例えばピアノとフルートでは同じような強さであっても周波数重心が異なるといった特徴を抽出できる。１の周波数重心、２の全倍音のパワー値の合計に対する基音成分のパワー値の割合、３−１０の全倍音のパワー値の合計に対するｉ次までの倍音のパワー値の割合（ｉ＝２，３，…，９）、１１−２０の奇数次倍音と偶数次倍音のパワー比、持続時間が、最長の倍音のそれのｐ％以上ある倍音の個数（ｐ＝１０，２０，…，９０）などは概ね、スペクトルの時間平均に関する特徴である。
２１のパワー包絡の近似直線の傾きはパワーの時間変化を意味するもので、例えば、同じ周波数でもピアノは時間の経過と共にパワーが減衰していくという特徴があるのに対し、フルートは最初から終わりまでほぼ一定のパワーが持続するという特徴がある。２１のパワー包絡近似曲線の傾き、２２−２４の時刻ｔから時刻ｔ＋ｉＴ／３までのパワー包絡の微分係数の中央値（ｉ＝１，２，３）などは、いずれもパワーの時間変化に関する特徴である。
２５−２６の振幅変調（ＡＭ）の振幅と振動数、２７−２８の周波数変調（ＦＭ）は変調に関する特徴（２５−２８）である。
これらの特徴ベクトルを用いて次のステップで各周波数ごとに楽器存在確率を計算する。

（４）確率計算（ＳＡ２−４）
最終的な確率計算には、所定の隠れマルコフモデル（例えばＬ−ｔｏ−Ｒ型隠れマルコフモデル（L-to-R ＨＭＭ））を用意し、特徴ベクトルの時系列ｘ（ｔ，ｆ）がこのｍ＋１個のＨＭＭのマルコフ連鎖から生成されたとみなす。このとき、各ＨＭＭＭ_ｉ（ｉ＝１，…，ｍ，サイレンス）に対して、ｘ（ｔ，ｆ）が時刻ｔにおいてＭ_ｉから生成された確率ｐ（ｘ（ｔ，ｆ）｜Ｍ_ｉ；ｔ）は、時刻ｔにおいてｆをＦ０とする楽器音がω_ｉである確率を表す。すなわち、条件付き楽器存在確率ｐ（ω_ｉ｜Ｘ；ｔ，ｆ）＝ｐ（ｘ（ｔ，ｆ）｜Ｍ_ｉ；ｔ）として計算できる。

図５は、隠れマルコフモデル（ＨＭＭ）による確率計算の手法を示している。この例では、ピアノとバイオリンとサイレンス（無音）のそれぞれについて状態遷移を表している。

以上のように、従来の楽器音認識方法は発音時刻及びＦ０推定を誤った単音は楽器同定不可能であるのに対し、本発明に係る楽器音認識方法は、互いに独立する２つの確率計算の結果を乗算する（すなわち、単音推定と楽器同定とを並列に行っている）ため、誤差の影響が出力に影響しない点で従来方法よりも優れている。

これらの各ステップは、全て計算機上でディジタル音楽情報をデータ処理することにより具現化される。

−インストログラム作成方法−
次に、本発明に係る楽器音認識方法を用いてインストログラムの作成方法について説明する。本発明におけるインストログラム(Instrogram)とは、スペクトログラムに似た楽器存在確率の視覚表現の一つであり、解析対象となる楽器ごとに１つ生成される。なお、単に「インストログラム」という場合も、本明細書では、多重奏を前提とし、かつそれぞれの楽器の楽器存在確率を含むインストログラムを意味するものとする。

上述した楽器存在確率ｐ（ω；ｔ，ｆ）は、ある時刻ｔにおいて周波数ｆをＦ０とする楽器ωの音が存在する確率を示すものである。したがって、対象楽器をΩ＝｛ω_１，…，ω_ｍ｝とすると、インストログラムは、各ω∈Ωに対して、上述の楽器存在確率ｐ（ω；ｔ，ｆ）を可視化したもの、つまり、横軸を時刻、縦軸を周波数で表し、時間ｔ−周波数ｆ平面上にこれを表せばそれが即ちインストログラムとなる。

図６（ａ）乃至図６（ｄ）は、本発明にかかるインストログラムの一例である。この例では、ピアノとバイオリンとフルートによる「蛍の光」の三重奏を、ピアノ、バイオリン、クラリネット、フルートを対象に本発明にかかるインストログラムで表示している。横軸は時間、縦軸は周波数であるが、ここではノートナンバーで表示している。なお、ノートナンバーとは、それぞれの音符に与えられる整数値であり、中央「ド」の音を６０として半音上がるごとに１ずつノートナンバーが増加するものである。
なお、時間分解能は１０ｍｓ、周波数分解能は２０ｃｅｎｔ（１２００ｃｅｎｔで１オクターブ即ち周波数が２倍）とした。

−インストログラムの略式表現−
インストログラムは周波数分解能を高くすれば正確ではあるが、逆に直感的に理解しにくいという欠点がある。そこで、予め周波数軸をいくつかの区間に区分して区間内の値をマージすることで周波数分解能を粗く（すなわち簡略化して表現）することにより、より直感的に分かりやすく表現することができる。
具体的には、全周波数区間をＮ個の区間に区分し、ｋ番目の区間Ｉ_ｋの楽器存在確率ｐ（ω_ｉ；ｔ，Ｉ_ｋ）を、

のように和事象を計算して求める。すなわち、全周波数区間をＮ個の区間に区分し、その区間内にある楽器存在確率の値を統合して）で表示すると共に、時間ｔ−周波数ｆ平面上に上述の楽器存在確率ｐ（ω；ｔ，ｆ）の大きさを前記区間内を所定の対応関係を用いて視覚的に表示するのである。この対応関係は例えばサーモグラフィのように、カラーマップと対応付け、楽器存在確率が大きいときは赤、中くらいは黄色、低いときは青というように色相を確率の大きさと対応づけてグラデーション表示或いは濃淡で表示すると分かりやすい。

図７は、この手法により、図６（ａ）乃至（ｄ）に示すインストログラムを簡略化したものである。図７において、縦軸の記号と４桁の数字は、楽器名と周波数区分の両端のノートナンバーを示している。
例えば、「ＰＦ（４５５０）」という表示は、楽器名がピアノであり、ノートナンバーが４５〜５０であることを示している。この区分と単位時間（時間分解能）で区分される矩形領域に属する楽器存在確率の値に応じて予めカラーマップを作成したり或いは濃淡を決めておくことにより、時間経過に伴ってどの楽器が最も多く含まれているのかを視覚的に判断することができる。

図６及び図７は、いずれも同じ楽曲のインストログラムを示している。この楽曲（蛍の光）は、いずれも高音部はフルートＦＬ、中音部はバイオリンＶＮ、低音部はピアノＰＦによる演奏であることを示しているが、略式表現である図７の方が、より直感的に理解できることがわかる（図７は便宜的に確率が高い方が色が濃くなるように白黒の濃淡で表示しているが、実際に作成したカラーのインストログラムはさらに直感的に理解しやすい。）。なお、クラリネットはこの楽曲には含まれていないため、ノイズであると考えられる。

（インストログラムを用いた楽器音認識の具体例）
＜実験＞
楽曲・・・蛍の光（３重奏）
楽譜・・・省略
対象楽器・・・ピアノＰＦ、バイオリンＶＮ、クラリネットＣＬ、フルートＦＬ
時間分解能・・・１０ｍｓ、周波数分解能２０ｃｅｎｔ
簡略化したインストログラム・・・６００ｃｅｎｔごとに周波数区分を分割
ＰｒｅＦＥｓｔ；ＨＭＭ（ＨＴＫ３．０）

＜結果＞
図８（ａ），（ｂ）及び図９の（ｃ），（ｄ）は、指定した楽曲（蛍の光）を３つの異なる楽器で重奏された楽曲のディジタル音楽情報に対して、本発明に係る楽器音認識方法を適用した結果得られるインストログラム（簡略化版）を示している。なお、図８及び図９は、図７同様に便宜的に確率が高い方が色が濃くなるように白黒の濃淡で表示しているが、実際に作成したカラーのインストログラムはさらに直感的に理解しやすい。
図８（ａ）はフルートＦＬとクラリネットＣＬとピアノＰＦの３重奏、（ｂ）はバイオリンＶＮとクラリネットＣＬとピアノＰＦの３重奏、図９（ｃ）はバイオリンＶＮとバイオリンＶＮとピアノＰＦの３重奏である。（ｄ）はピアノＰＦとピアノＰＦとピアノＰＦの３重奏である。一部に雑音も見られるが概ね正解が得られた。

以下、本発明に係る楽器音認識方法（及びインストログラム作成方法）の適用事例について説明する。
（実施例１）［楽器アノテーション（タグ付け）］
従来から、楽曲名や歌手名などの所定の情報をメタデータとして、これに基づいて希望の楽曲を検索する検索技術が知られているが、メタデータが記述されていない楽曲或いはクエリーにするためのタグが存在しないディジタル音楽情報は、クエリー検索ができない。また、例えば「明るい」、「暗い」などの感性に依存するデータをメタデータとして検索する方法が提案されているが、このような主観的な情報をメタデータとして利用することは、ディジタル音楽情報の汎用性を狭めるので好ましくない。
一方、楽器名は聴取者の好みや感性に依存しないので客観的であり、メタデータの一つとしてふさわしいと考えられる。

本発明に係る楽器存在確率の計算方法を用いることにより、ディジタル音楽情報に含まれる楽器名を高い正解率で識別できるため、この特徴を活かしてディジタル音楽データから自動的に楽器名をメタデータに記述することが考えられる。

例えば、図１０（ａ）は、どの楽器がいつ演奏を開始していつ終了するかといった情報をタグ付けしたメタデータを示している。ここでは、楽器名と音域と開始時刻と終了時刻をメタデータとして定義している。本発明に係る楽器音認識方法により、楽器存在確率を計算すれば、これらの情報は容易に抽出することができる。

図１１は、楽器アノテーションを実現するための方法を説明するための図である。

１．最大楽器名を出力するステップ（ＳＢ１）
インストログラムから時刻及び周波数ごとに楽器存在確率が最大の楽器名を出力する。
図１０（ｂ）は、ステップＳＢ１において、インストログラム（不図示）から最大楽器名を出力した出力結果を示している。インストログラムにより、ある時刻及び周波数において、どの楽器が存在しているかが分かるので、インストログラムからこの最大楽器名の列を得ることは容易である。

２．最尤パス探索ステップ（ＳＢ２）
周波数ごとに上記ステップ１で出力された最大楽器名が所定のマルコフチェインから生成されたとみなして最尤パスを求める。最尤パスを求める探索方法は一般的に知られている方法を用いればよい。
図１０（ｃ）は、ステップＳＢ２において、ステップＳＢ１で出力した楽器名の列を、マルコフチェインによってモデル化した状態遷移図を表している。この図に示すマルは各状態（スタート、エンド、サイレンス（無音）、楽器ω_１（例えばピアノ）、…）を表し、矢印は状態の遷移を示し、数値は実験的に決定した遷移確率を示している。

この中から、最も確からしいパス（最尤パス）、（例えば、”サイレンス→バイオリン→フルート→フルート→フルート→…”）を検索する。検索アルゴリズムは特に限定されないが、例えばビタビ（Ｖｉｔｅｒｂｉ）探索によって求めることができる。

３．タグ付けステップ（ＳＢ３）
最終的に、楽器アノテーションを行うためのタグ付けステップである。例えば、楽器ω_ｉの演奏開始タグは、「無音」状態から「楽器ω_ｉ」状態への遷移時刻を、楽器ω_ｉの演奏終了を、それぞれタグ付けすればよい（図１０（ａ））。

種々の楽器構成による楽曲（いずれも、ピアノＰＦ・バイオリンＶＮ・クラリネットＣＬ・フルートＦＬのいずれかを用いた３重奏で「蛍の光」を演奏したディジタル音楽情報）のインストログラムを作成し、これをもとに上述したステップＳＢ１乃至ＳＢ３により、楽器アノテーションを行った結果得られた、認識率（正解フレーム数／全フレーム数）は、下記の通りである。

＜認識率の結果＞
ＰＦ−ＰＦ−ＰＦ９７．１％
ＰＦ−ＶＮ−ＰＦ８４．７％
ＰＦ−ＣＬ−ＰＦ８６．９％
ＶＮ−ＰＦ−ＰＦ８１．１％
ＶＮ−ＶＮ−ＰＦ８６．７％
ＶＮ−ＣＬ−ＰＦ７３．２％
ＦＬ−ＰＦ−ＰＦ８２．８％
ＦＬ−ＶＮ−ＰＦ７８．５％
ＦＬ−ＣＬ−ＰＦ７８．７％

認識率は最も悪いもので７３．２％（ＶＮ−ＣＬ−ＰＦ）、その他は７８％以上という結果が得られた。

その他の応用例として、次のようなものがある。すなわち、本実施例に係る楽器アノテーション方法は、動画コンテンツのアノテーションのための標準規格「ＭＰＥＧ−７」に適用すれば、楽器名等の情報をＭＰＥＧ−７規格におけるメタデータとして含めるなどことができると考えられる。

このように、本発明に係る楽器音認識方法を用いてディジタル音楽情報に対し計算機により楽器アノテーションを行ってメタデータに楽器名を含めておけば、楽器名をクエリーにしてその楽器を含む楽曲を検索することが可能となる。

特に、クラッシック音楽では使用楽器は楽曲を特徴づける重要なファクターであり、メタデータに楽器名の情報がなくても、ディジタル音楽情報そのものから例えば「弦楽四重奏を検索する」といったことが可能となる。

（実施例２）楽器構成に基づく類似楽曲検索
楽曲構成は楽曲の雰囲気を特徴づける重要な要素である。ある楽曲から作成したインストログラムと類似したインストログラムを持つ別の楽曲を検索することは、プレイリストの自動作成や音楽推薦につながるキーテクノロジーとなりうる。本発明に係る楽器音認識方法（特に、インストログラム作成方法）によれば、楽曲構成に着目した類似楽曲検索方法を提供することができる。

具体的には、インストログラムにより楽器存在確率を視覚的に表現することができるため、対比される「楽曲構成同士の類似度」を「インストログラム同士の類似度」に置き換えることができることを意味する。そのためには、既存の画像類似判定アルゴリズムを利用することが考えられる。つまり、画像の類似度を判定するプログラムを用いてインストログラムを対比し、楽器構成の類似度を計算すれば、画像の類似度を計算することがすなわち楽曲構成の類似度を計算することになる。

例えば、高音部がバイオリンＶＮ、中音部がクラリネットＣＬ、低音部がピアノＰＦからなる３重奏（以下、「ＶＮ−ＣＬ−ＰＦ」と省略する）と、そのうち２つ、「ＦＬ−ＣＬ−ＰＦ」を対比する。ＦＬとＶＮの点で相違するが、他の２つの楽器構成（ＣＬ，ＰＦ）は一致する。
一方、ＶＮ−ＶＮ−ＰＦと、ＰＦ−ＰＦ−ＰＦとを対比すると、一つのパートのＰＦのみ一致し、他の２つは相違する。
両者の楽曲構成類似度は直感的にも、前者の方が後者よりも大きく、ゆえに楽曲の雰囲気も前者の方が後者よりも似ていると感じることが予想される。

そこで、各種の楽曲構成で演奏した２つの楽曲同士を、それぞれのインストログラムの類似度（すなわち画像の類似度）を計算するアルゴリズムにより計算し、対比した。

図１２は２つの異なる楽曲の楽曲構成に基づく類似度計算を行った結果を示す図である。この画像類似計算アルゴリズムは最終結果がスコア０〜１２８として表示される。スコア０は完全同一の画像を示し、スコア１２８は類似度がゼロ（全く類似点がない）ことを示す。

いずれの結果も、３パート（高音部、中音部、低音部）のうち楽器構成が共通する数が多い組み合わせほど、類似度が高い。すなわち、楽曲構成の類似度を画像の類似度により計算できることが明らかとなった。

なお、より精度を高めるためには、楽器音同士の音色の類似度を反映させるような工夫が必要であると考えられる。例えば、フルートとクラリネットの組み合わせはフルートとピアノの組み合わせよりも一般的には音色が近いと考えられるが、上述した画像類似計算ではこの結果は反映されないからである。

（実施例３）演奏楽器に着目した娯楽用音楽可視化
本発明に係るインストログラムは演奏中の楽曲名と関連づけすることができるため、演奏中に取り出した楽器をイラストなどに変換することができる。例えば、ピアノの音が演奏されたとき、ピアノのイラストがモニターなどの表示部に現れるようにすることができる。楽曲サムネイルとしての使用法、或いは、楽曲の演奏中に楽器存在確率の変化に連動して楽器イラストの大きさや位置や色等を変化させることで、見て楽しいという娯楽的な効果や或いは幼児等に対する知育学習効果などが期待される。

本発明に係る楽器音認識方法は、楽器の指定による検索或いは楽器構成の類似度に基づく検索を可能にするキーテクノロジーとして位置づけられ、産業上の利用可能性は極めて大きい。具体的には、以下のような産業上の利用可能性を有する。
（１）楽器の指定による音楽検索（実施例１）
特定の楽器を指定して、その楽器を含む楽曲を検索する方法に適用することができる。
（２）楽器構成に基づく類似検索（実施例２）
ユーザーが指定した楽曲から作成したインストログラムと類似したインストログラムを持つ楽曲を検索する検索方法に適用することができる。
（３）演奏楽器に着目した娯楽用音楽可視化（実施例３）
本発明に係るインストログラムを適切なイラストなどに変換することによる音楽の可視化をすることに適用することができる。

図１は、本発明に係る楽器音認識方法の基本的なステップを示したものである。図２（ａ）は典型的な調波構造示すスペクトルを示している。図２（ｂ）は、不特定楽器存在確率を求める手順を簡単に示したものである。図３は、条件付き楽器存在確率ｐ（ω_ｉ｜Ｘ；ｔ，ｆ）を求めるステップを示したものである。図４は、特徴ベクトルの一例を示す一覧表を示す図である。図５は、隠れマルコフモデル（ＨＭＭ）による確率計算の手法を示している。図６（ａ）及び（ｄ）は、本発明にかかるインストログラムの一例である。図７は、図６（ａ）乃至（ｄ）に示すインストログラムを簡略化したものである。図８（ａ），（ｂ）は、指定した楽曲（蛍の光）を３つの異なる楽器で重奏された楽曲のディジタル音楽情報に対して、本発明に係る楽器音認識方法を適用した結果得られるインストログラム（簡略化版）を示している。図９（ｃ），（ｄ）は、指定した楽曲（蛍の光）を３つの異なる楽器で重奏された楽曲のディジタル音楽情報に対して、本発明に係る楽器音認識方法を適用した結果得られるインストログラム（簡略化版）を示している。図１０（ａ）は、どの楽器がいつ演奏を開始していつ終了するかといった情報をタグ付けしたメタデータを示している。図１０（ｂ）は、ステップＳＢ１において、インストログラム（不図示）から最大楽器名を出力した出力結果を示している。図１０（ｃ）は、ステップＳＢ２において、ステップＳＢ１で出力した楽器名の列を、マルコフチェインによってモデル化した状態遷移図を表している。図１１は、楽器アノテーションを実現するための方法を説明するための図である。図１２は２つの異なる楽曲の楽曲構成に基づく類似度計算を行った結果を示す図である。図１３（ａ）は、多重奏の音響信号から各単音の発音時刻、音高（基本周波数Ｆ０）及び音長を推定して生成されたピアノロールとよばれる図であり、横軸は時刻を、縦軸は周波数を表している。図１３（ｂ）は、図１３（ａ）から各単音の楽器名を同定した様子を示している。

Claims

不特定楽器存在確率を求めるステップ（ＳＡ１）と、条件付き楽器存在確率を求めるステップ（ＳＡ２）と、両者の積を算出するステップ（ＳＡ３）とを備えることを特徴とする楽器音認識方法。
前記不特定楽器存在確率を求めるステップ（ＳＡ１）は、基本周波数（Ｆ０）の確率密度関数を計算するステップ（ＳＡ１−１）と、所定のアルゴリズムにより重みを推定する（ＳＡ１−２）ステップと、
を備えていることを特徴とする請求項１記載の楽器音認識方法。
前記条件付き楽器存在確率を求めるステップ（ＳＡ２）は、入力音響信号に対して短時間フーリエ変換を行うステップ（ＳＡ２−１）と、許容される全ての周波数ｆに対して、ｆをＦ０とする（例えば１０次倍音までの）調波構造の時系列Ｈ（ｔ，ｆ）を抽出するステップ（ＳＡ２−２）と、周波数ｆごとに、
調波構造Ｈ（ｔ，ｆ）から、長さＴの断片Ｈｔ（τ、ｆ）（ｔ≦τ＜ｔ＋Ｔ）を抽出し、ここから予め定めたテーブルに示す多次元特徴ベクトルｘ（ｔ、ｆ）を求め、これを音響信号の始めから終わりまでΔｔごとに繰り返すことで特徴ベクトルの時系列を得るステップ（ＳＡ２−３）と、
条件付き楽器存在確率ｐ（ω_ｉ｜Ｘ；ｔ，ｆ）を求めるステップ（ＳＡ２−４）と、
を備えていることを特徴とする請求項１記載の楽器音認識方法。
前記条件付き楽器存在確率を求めるステップ（ＳＡ２）は、楽器ω_１，・・・，ω_ｍ及びサイレンスの各々に対して複数の状態からなる時系列の隠れマルコフモデル（ＨＭＭ）のマルコフ連鎖から生成されたとみなし、このとき、各ＨＭＭＭ_ｉ（ｉ＝１，…，ｍ，サイレンス）に対して、ｘ（ｔ，ｆ）が時刻ｔにおいてＭ_ｉから生成された確率ｐ（ｘ（ｔ、ｆ）｜Ｍ_ｉ；ｔ）は、時刻ｔにおいてｆをＦ０とする楽器音がω_ｉである確率を表すことを特徴とする請求項１乃至請求項３のいずれか１項に記載の楽器音認識方法。
請求項１乃至請求項４のいずれか１項に記載の楽器音認識方法を用いたインストログラム作成方法であって、
対象楽器をΩ＝｛ω_１，…，ω_ｍ｝ごとに、各ω∈Ωに対して、横軸を時刻、縦軸を周波数で表示すると共に、時間ｔ−周波数ｆ平面上に上述の楽器存在確率ｐ（ω；ｔ，ｆ）の大きさを表示することを特徴とするインストログラム作成方法。
請求項１乃至請求項４のいずれか１項に記載の楽器音認識方法を用いたインストログラム作成方法であって、
対象楽器をΩ＝｛ω_１，…，ω_ｍ｝ごとに、各ω∈Ωに対して、横軸を時刻、縦軸を周波数（但し、全周波数区間をＮ個の区間に区分し、その区間内にある楽器存在確率の値を統合して）で表示すると共に、時間ｔ−周波数ｆ平面上に上述の楽器存在確率ｐ（ω；ｔ，ｆ）の大きさを前記区間内を所定の対応関係を用いて視覚的に表示することを特徴とするインストログラム作成方法。
前記所定の対応関係は、楽器存在確率の大きさに対応するカラーマップを作成しておき、その対応関係に基づいて表現されることを特徴とする請求項６記載のインストログラム作成方法。
楽器存在確率を含むインストログラムから時刻及び周波数ごとに楽器存在確率が最大の楽器名を出力する最大楽器名を出力するステップ（ＳＢ１）と、
周波数ごとに上記ステップ１で出力された最大楽器名が所定のマルコフチェインから生成されたとみなして最尤パスを求める最尤パス探索ステップ（ＳＢ２）と、
前記マルコフチェインの状態遷移図を用いて所定の楽器アノテーションを行うためのタグ付けステップ（ＳＢ３）とを備えることを特徴とする楽器アノテーション方法。
ディジタル音楽情報に含まれる複数の楽器情報のうち、時間ｔ及び周波数ごとの楽器存在確率を各楽器ごとに求め、指定した楽曲と楽曲構成が同一又は類似した楽曲を検索することを特徴とする楽曲検索方法。
前記楽曲検索方法は、インストログラムの画像の類似度を計算することにより行うことを特徴とする請求項９記載の楽曲検索方法。