JP2007240552A - 楽器音認識方法、楽器アノテーション方法、及び楽曲検索方法 - Google Patents

楽器音認識方法、楽器アノテーション方法、及び楽曲検索方法 Download PDF

Info

Publication number
JP2007240552A
JP2007240552A JP2006058649A JP2006058649A JP2007240552A JP 2007240552 A JP2007240552 A JP 2007240552A JP 2006058649 A JP2006058649 A JP 2006058649A JP 2006058649 A JP2006058649 A JP 2006058649A JP 2007240552 A JP2007240552 A JP 2007240552A
Authority
JP
Japan
Prior art keywords
instrument
musical instrument
time
frequency
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006058649A
Other languages
English (en)
Inventor
Tetsuro Kitahara
鉄朗 北原
Hiroshi Okuno
博 奥乃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyoto University NUC
Original Assignee
Kyoto University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyoto University NUC filed Critical Kyoto University NUC
Priority to JP2006058649A priority Critical patent/JP2007240552A/ja
Publication of JP2007240552A publication Critical patent/JP2007240552A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)

Abstract

【課題】発音時刻及びF0推定処理に依存しない新規な楽器音認識方法を提供する。
【解決手段】不特定楽器存在確率を求めるステップと、条件付き楽器存在確率を求めるステップと、両者の積を算出するステップとを備えることを特徴とする。本発明に係る楽器音認識方法は、楽器音認識を単音ごとに行うのではなく、楽器存在確率を求めるため、従来よりも認識精度が高い。また、各楽器ごとに、時間t−周波数f平面上にインストログラムとして可視化することも容易であり、これを用いて楽器アノテーションを行ったり或いは楽曲構成に基づく類似楽曲検索を行うなど、様々な用途が考えられる。
【選択図】図1

Description

本発明は、ディジタル音楽情報の検索技術など様々な応用用途が可能な多重奏の音源認識の技術分野に関するものである。
ディジタル音楽情報に含まれる音源を同定する技術(本明細書ではこれを「楽器音認識技術」という。)は、これまで主に単一音を対象に研究されてきたが(非特許文献1)、近年は多重奏を対象とした研究が増えつつある(非特許文献2等)。
K.D.Martin; Sound-Source Recognition: A Theory and Computional Model, PhD Thesis, MIT, 1999. 北原 他:混合音からの特徴量テンプレート作成と音楽的文脈利用による多重奏の音源同定,音講論集(秋),2-10-15,2005
従来の多重奏の楽器音認識技術は、単音(1つの音符に相当する一単位の音)ごとに楽器を認識する。そのため、各単音の調波構造(基本周波数F0とそのn次倍音からなる高調波が重ね合わされた信号波形)が複数重ね合わせられて構成される多重奏の調波構造を、単音ごとの調波構造に分離する作業が必要となる。
そのためには、各単音のオンセット時刻(発音時刻)と基本周波数(F0)を正しく推定することが求められる。しかし、多重奏の場合、一つの単音の基本周波数と別の単音のn次倍音高調波とが重なる等の理由から、多重奏の数が増えるほど推定誤差が大きくなるため、識別精度は極めて低いのが実情である。
例えば、図13(a)は、多重奏の音響信号から各単音の発音時刻、音高(基本周波数F0)及び音長を推定して生成されたピアノロールとよばれる図であり、横軸は時刻を、縦軸は周波数を表している。図13(b)は、図13(a)から各単音の楽器名を同定した様子を示している。しかし、従来の方法は、最初のステップである発音時刻及びF0の推定の誤差が大きいと、事後の計算は最初の推定誤差の影響が最終計算結果に大きく影響する仕組みであるため、認識率が悪い。
本発明は、発音時刻及びF0推定処理に依存しない新規な楽器音認識方法を提供することを主たる技術的課題とする。
本発明に係る楽器音認識方法は、不特定楽器存在確率を求めるステップ(SA1)と、条件付き楽器存在確率を求めるステップ(SA2)と、両者の積を算出するステップ(SA3)とを備えることを特徴とする。
本発明に係る楽器音認識方法における前記不特定楽器存在確率を求めるステップ(SA1)は、基本周波数(F0)の確率密度関数を計算するステップ(SA1−1)と、所定のアルゴリズムにより重みを推定する(SA1−2)ステップと、
を備えていてもよい。
また、本発明に係る楽器音認識方法における前記条件付き楽器存在確率を求めるステップ(SA2)は、入力音響信号に対して短時間フーリエ変換を行うステップ(SA2−1)と、許容される全ての周波数fに対して、fをF0とする(例えば10次倍音までの)調波構造の時系列H(t,f)を抽出するステップ(SA2−2)と、周波数fごとに、
調波構造H(t,f)から、長さTの断片Ht(τ、f)(t≦τ<t+T)を抽出し、ここから予め定めたテーブルに示す多次元特徴ベクトルx(t、f)を求め、これを音響信号の始めから終わりまでΔtごとに繰り返すことで特徴ベクトルの時系列を得るステップ(SA2−3)と、
条件付き楽器存在確率p(ω|X;t,f)を求めるステップ(SA2−4)と、
を備えていてもよい。
本発明に係る楽器音認識方法における前記条件付き楽器存在確率を求めるステップ(SA2)は、楽器ω,・・・,ω及びサイレンスの各々に対して複数の状態からなる時系列の隠れマルコフモデル(HMM)のマルコフ連鎖から生成されたとみなし、このとき、各HMM M(i=1,…,m,サイレンス)に対して、x(t,f)が時刻tにおいてMから生成された確率p(x(t、f)|M;t)は、時刻tにおいてfをF0とする楽器音がωである確率を表すことを特徴とするものとすることもできる。
本発明にかかるインストログラム作成方法は、上述した楽器音認識方法を用いたインストログラム作成方法であって、対象楽器をΩ={ω,…,ω}ごとに、各ω∈Ωに対して、横軸を時刻、縦軸を周波数で表示すると共に、時間t−周波数f平面上に上述の楽器存在確率p(ω;t,f)の大きさを表示することを特徴とする。
この場合、対象楽器をΩ={ω,…,ω}ごとに、各ω∈Ωに対して、横軸を時刻、縦軸を周波数(但し、全周波数区間をN個の区間に区分し、その区間内にある楽器存在確率の値を統合して)で表示すると共に、時間t−周波数f平面上に上述の楽器存在確率p(ω;t,f)の大きさを前記区間内を所定の対応関係を用いて視覚的に表示するように構成してもよい。このようにすると、直感的に理解し易い。
この場合、前記所定の対応関係は、楽器存在確率の大きさに対応するカラーマップを作成しておき、その対応関係に基づいて表現されるように構成してもよい。色相或いは濃淡などと対応づけることにより直感的に理解できるからである。
本発明にかかる楽器アノテーション方法は、楽器存在確率を含むインストログラムから時刻及び周波数ごとに楽器存在確率が最大の楽器名を出力する最大楽器名を出力するステップ(SB1)と、
周波数ごとに上記ステップ1で出力された最大楽器名が所定のマルコフチェインから生成されたとみなして最尤パスを求める最尤パス探索ステップ(SB2)と、
前記マルコフチェインの状態遷移図を用いて所定の楽器アノテーションを行うためのタグ付けステップ(SB3)とを備えることを特徴とする。
本発明にかかる楽曲検索方法は、ディジタル音楽情報に含まれる複数の楽器情報のうち、時間t及び周波数ごとの楽器存在確率を各楽器ごとに求め、指定した楽曲と楽曲構成が同一又は類似した楽曲を検索することを特徴とする。
この場合、前記楽曲検索方法は、インストログラムの画像の類似度を計算することにより行うように構成してもよい。
本発明に係る楽器音認識方法は、楽器音認識を単音ごとに行うのではなく、多重奏を前提として楽器を単位として楽器存在確率を求めるため、従来よりも認識精度が高い。また、各楽器ごとに、時間t−周波数f平面上にインストログラムとして可視化することも容易であり、これを用いて楽器アノテーションを行ったり或いは楽曲構成に基づく類似楽曲検索を行うなど、様々な用途が考えられる。
以下、本発明に係る「楽器音認識方法、インストログラム及びその作成方法、楽器アノテーション方法、及び楽曲検索方法」を実施するための最良の形態(以下「実施形態」という)を詳細に説明する。なお、以下説明する実施形態は、最初に楽器音認識方法の基本原理(「楽器音認識方法の基本的な考え方」、「原理及び数式の説明」)を説明し、その後、この楽器音認識方法を具現化した「楽器音認識装置」を具体的に説明する。
なお、以下の実施例で説明される「楽器」は、ピアノやクラリネットといったものが用いられるが本明細書において「楽器」は音源全てを指し、楽器の種別は限定されない。例えば、人の声も楽器に含まれることは当然である。
−楽器音認識方法の基本的な考え方−
始めに、本発明に係る楽器音認識方法の基本原理について説明する。本発明では、楽器ωごとに、時間t−周波数f平面の各点(t,f)に対して「楽器存在確率」というものを定義して、これをp(ω;t,f)と表現するものとする。
本発明に係る楽器音認識方法は、最終的には楽器存在確率の計算に帰着するが、まず始めに、これを最も単純化して定式化すると次のとおりとなる:
(楽器存在確率)=(不特定楽器存在確率)×(条件付き楽器存在確率)
ここで、不特定楽器存在確率とは、「時刻t、周波数fに何らかの楽器音が存在する確率」と定義して、p(X;t,f)と表現するものとする。
なお、不特定楽器存在確率を求めるステップは、発音時刻及びF0推定を行う従来の楽器音認識方法における、各単音の発音時刻検出及びF0推定ステップに対応する。但し、ここでの目的はF0推定ではなくあくまでp(X;t,f)の計算であるから、F0確率密度関数の計算までの処理でよい。
また、条件付き楽器存在確率とは、「時刻t、周波数fに楽器音が存在するとすると、それが楽器ωである確率」と定義して、「何らかの楽器音が存在するという全対象楽器の和事象X、すなわち、X(=ω∪…∪ω)を用いて、p(ω|X;t,f)と表現するものとする。
なお、条件付き楽器存在確率を求めるステップは、発音時刻及びF0推定を行う従来の楽器音認識方法における、各単音の楽器同定のステップに対応する。
従って、楽器存在確率p(ω;t,f)を、不特定楽器存在確率p(X;t,f)と、条件付き楽器存在確率p(ω|X;t,f)を用いて表すと、
Figure 2007240552
と表される。
図1は、本発明に係る楽器音認識方法の基本的なステップを示したものである。この図に示すように、本発明に係る楽器音認識方法は、不特定楽器存在確率を求めるステップ(SA1)と、条件付き楽器存在確率を求めるステップ(SA2)と、これらの結果得られる値を乗算して楽器存在確率を求めるステップ(SA3)とで構成される。
1.不特定楽器存在確率を求めるステップ(SA1)
不特定楽器存在確率p(X;t,f)を求めるには、フレームごとに観測されたスペクトルを音モデルの加重混合でモデル化する方法が考えられる。もし、観測されたパワースペクトルがp(x;θ(t))から生成されたかのように、モデルがパラメータθ(t)を推定できれば、パワースペクトルが個々の音モデルへ分解されたとみなすことができ、このとき、重みω(t)Fは、FをF0とする音モデルの相対的な優勢さを表していると考えることができる。そこで、この重みω(t)(F)を不特定楽器存在確率p(X;t,f)とみなすのである。
すなわち、p(x|F)を、図2(a)に示すような典型的な調波構造を表現した確率分布(音モデル)と考えて、周波数成分の確率密度関数が、全ての可能なF0に対する音モデルの重み付き和からなる確率モデル、
Figure 2007240552
Figure 2007240552
から生成されたと考える。ここで、FhとFlは許容されるF0の上限と下限とする。この時、式2に含まれるω(t)(F)は
Figure 2007240552
を満たす音モデルの重みである。この重みω(t)(F)は、所定のEM(Expectation Maximization)アルゴリズムで推定し、それをF0の確率密度関数と解釈する。
具体的に、以上の計算を実行するには、音源数を仮定しない音高推定手法(PreFEst)により求める方法が考えられる(日本音響学会誌60巻11号(2004),pp676参照)。PreFEstは、制限された周波数帯域において最も優勢な調波構造を持つF0を推定する手法の一つである。調波構造の形状を表す確率分布をあらゆる音高(基本周波数)に対して用意し、それらの混合分布(加重混合=重み付き和)として入力の周波数成分をモデル化する。但し、PreFEstは元々はメロディとベースのF0を推定する手法であるが、ここでの目的はF0推定ではなくp(X;t,f)の計算までの処理(PreFEst-core)のみ用いればよい。
Pre-FEst-coreによると、観測されたパワースペクトルを、ある典型的な調波構造のスペクトルをモデル化した音モデルp(x|F)の加重混合と考え、そのモデルパラメータをEMアルゴリズムにより最大事後確率推定することで、混合音の各構成音の音量(重み)と調波構造の形状が同時に求められる。
図2(b)は、不特定楽器存在確率を求める手順を簡単に示したものである。先ず、F0確率密度関数を計算し(SA1−1)、所定のEMアルゴリズムにより重みを推定する(SA1−2)。この重みが不特定楽器存在確率である。
2.条件付き楽器存在確率を求めるステップ(SA2)
図3は、条件付き楽器存在確率p(ω|X;t,f)を求めるステップを示したものである。以下、各ステップについて詳述する。
(1)短時間フーリエ変換(SA2−1)
入力音響信号に対して短時間フーリエ変換を行う。
後述の実験例では、シフト幅10ms、窓幅8192点ハミング窓を用いた。
(2)調波構造の抽出(SA2−2)
時間t−周波数f平面上に表された各周波数の音の振幅(音の強さ)を表す入力音響信号のスペクトログラムから、F0=fの調波構造H(t,f)を求め、調波構造抽出をFl[Hz]からFh[Hz]までΔf[cent]ごとに行う。これにより、各周波数に対して調波構造を抽出する(なお、高次倍音まで抽出すればするほど精度は上がるが計算量が増えるデメリットがある。実験では10次倍音まで抽出した。)。
(3)特徴抽出(SA2−3)
周波数fごとに特徴ベクトルの時系列を抽出する。
F0=fの調波構造H(t,f)から、T秒間の断片Ht(τ,f)(t≦τ≦t+T)を抽出し、これをt秒ずつずらして繰り返す。この作業により、周波数ごとに予め定めた特徴の各データを特徴ベクトルx(t,f)として、その特徴ベクトルの時系列を抽出する。
図4は、特徴ベクトルの一例を示す一覧表を示す図である。この特徴ベクトルは28次元で構成される。このうち、1の周波数重心は、スペクトルにおけるパワーを重みとした平均周波数)を意味するもので、例えばピアノとフルートでは同じような強さであっても周波数重心が異なるといった特徴を抽出できる。1の周波数重心、2の全倍音のパワー値の合計に対する基音成分のパワー値の割合、3−10の全倍音のパワー値の合計に対するi次までの倍音のパワー値の割合(i=2,3,…,9)、11−20の奇数次倍音と偶数次倍音のパワー比、持続時間が、最長の倍音のそれのp%以上ある倍音の個数(p=10,20,…,90)などは概ね、スペクトルの時間平均に関する特徴である。
21のパワー包絡の近似直線の傾きはパワーの時間変化を意味するもので、例えば、同じ周波数でもピアノは時間の経過と共にパワーが減衰していくという特徴があるのに対し、フルートは最初から終わりまでほぼ一定のパワーが持続するという特徴がある。21のパワー包絡近似曲線の傾き、22−24の時刻tから時刻t+iT/3までのパワー包絡の微分係数の中央値(i=1,2,3)などは、いずれもパワーの時間変化に関する特徴である。
25−26の振幅変調(AM)の振幅と振動数、27−28の周波数変調(FM)は変調に関する特徴(25−28)である。
これらの特徴ベクトルを用いて次のステップで各周波数ごとに楽器存在確率を計算する。
(4)確率計算(SA2−4)
最終的な確率計算には、所定の隠れマルコフモデル(例えばL−to−R型隠れマルコフモデル(L-to-R HMM))を用意し、特徴ベクトルの時系列x(t,f)がこのm+1個のHMMのマルコフ連鎖から生成されたとみなす。このとき、各HMM M(i=1,…,m,サイレンス)に対して、x(t,f)が時刻tにおいてMから生成された確率p(x(t,f)|M;t)は、時刻tにおいてfをF0とする楽器音がωである確率を表す。すなわち、条件付き楽器存在確率p(ω|X;t,f)=p(x(t,f)|M;t)として計算できる。
図5は、隠れマルコフモデル(HMM)による確率計算の手法を示している。この例では、ピアノとバイオリンとサイレンス(無音)のそれぞれについて状態遷移を表している。
以上のように、従来の楽器音認識方法は発音時刻及びF0推定を誤った単音は楽器同定不可能であるのに対し、本発明に係る楽器音認識方法は、互いに独立する2つの確率計算の結果を乗算する(すなわち、単音推定と楽器同定とを並列に行っている)ため、誤差の影響が出力に影響しない点で従来方法よりも優れている。
これらの各ステップは、全て計算機上でディジタル音楽情報をデータ処理することにより具現化される。
−インストログラム作成方法−
次に、本発明に係る楽器音認識方法を用いてインストログラムの作成方法について説明する。本発明におけるインストログラム(Instrogram)とは、スペクトログラムに似た楽器存在確率の視覚表現の一つであり、解析対象となる楽器ごとに1つ生成される。なお、単に「インストログラム」という場合も、本明細書では、多重奏を前提とし、かつそれぞれの楽器の楽器存在確率を含むインストログラムを意味するものとする。
上述した楽器存在確率p(ω;t,f)は、ある時刻tにおいて周波数fをF0とする楽器ωの音が存在する確率を示すものである。したがって、対象楽器をΩ={ω,…,ω}とすると、インストログラムは、各ω∈Ωに対して、上述の楽器存在確率p(ω;t,f)を可視化したもの、つまり、横軸を時刻、縦軸を周波数で表し、時間t−周波数f平面上にこれを表せばそれが即ちインストログラムとなる。
図6(a)乃至図6(d)は、本発明にかかるインストログラムの一例である。この例では、ピアノとバイオリンとフルートによる「蛍の光」の三重奏を、ピアノ、バイオリン、クラリネット、フルートを対象に本発明にかかるインストログラムで表示している。横軸は時間、縦軸は周波数であるが、ここではノートナンバーで表示している。なお、ノートナンバーとは、それぞれの音符に与えられる整数値であり、中央「ド」の音を60として半音上がるごとに1ずつノートナンバーが増加するものである。
なお、時間分解能は10ms、周波数分解能は20cent(1200centで1オクターブ即ち周波数が2倍)とした。
−インストログラムの略式表現−
インストログラムは周波数分解能を高くすれば正確ではあるが、逆に直感的に理解しにくいという欠点がある。そこで、予め周波数軸をいくつかの区間に区分して区間内の値をマージすることで周波数分解能を粗く(すなわち簡略化して表現)することにより、より直感的に分かりやすく表現することができる。
具体的には、全周波数区間をN個の区間に区分し、k番目の区間Iの楽器存在確率p(ω;t,I)を、
Figure 2007240552
のように和事象を計算して求める。すなわち、全周波数区間をN個の区間に区分し、その区間内にある楽器存在確率の値を統合して)で表示すると共に、時間t−周波数f平面上に上述の楽器存在確率p(ω;t,f)の大きさを前記区間内を所定の対応関係を用いて視覚的に表示するのである。この対応関係は例えばサーモグラフィのように、カラーマップと対応付け、楽器存在確率が大きいときは赤、中くらいは黄色、低いときは青というように色相を確率の大きさと対応づけてグラデーション表示或いは濃淡で表示すると分かりやすい。
これらの各ステップは、全て計算機上でディジタル音楽情報をデータ処理することにより具現化される。
図7は、この手法により、図6(a)乃至(d)に示すインストログラムを簡略化したものである。図7において、縦軸の記号と4桁の数字は、楽器名と周波数区分の両端のノートナンバーを示している。
例えば、「PF(4550)」という表示は、楽器名がピアノであり、ノートナンバーが45〜50であることを示している。この区分と単位時間(時間分解能)で区分される矩形領域に属する楽器存在確率の値に応じて予めカラーマップを作成したり或いは濃淡を決めておくことにより、時間経過に伴ってどの楽器が最も多く含まれているのかを視覚的に判断することができる。
図6及び図7は、いずれも同じ楽曲のインストログラムを示している。この楽曲(蛍の光)は、いずれも高音部はフルートFL、中音部はバイオリンVN、低音部はピアノPFによる演奏であることを示しているが、略式表現である図7の方が、より直感的に理解できることがわかる(図7は便宜的に確率が高い方が色が濃くなるように白黒の濃淡で表示しているが、実際に作成したカラーのインストログラムはさらに直感的に理解しやすい。)。なお、クラリネットはこの楽曲には含まれていないため、ノイズであると考えられる。
(インストログラムを用いた楽器音認識の具体例)
<実験>
楽曲・・・蛍の光(3重奏)
楽譜・・・省略
対象楽器・・・ピアノPF、バイオリンVN、クラリネットCL、フルートFL
時間分解能・・・10ms、周波数分解能20cent
簡略化したインストログラム・・・600centごとに周波数区分を分割
PreFEst; HMM(HTK3.0)
<結果>
図8(a),(b)及び図9の(c),(d)は、指定した楽曲(蛍の光)を3つの異なる楽器で重奏された楽曲のディジタル音楽情報に対して、本発明に係る楽器音認識方法を適用した結果得られるインストログラム(簡略化版)を示している。なお、図8及び図9は、図7同様に便宜的に確率が高い方が色が濃くなるように白黒の濃淡で表示しているが、実際に作成したカラーのインストログラムはさらに直感的に理解しやすい。
図8(a)はフルートFLとクラリネットCLとピアノPFの3重奏、(b)はバイオリンVNとクラリネットCLとピアノPFの3重奏、図9(c)はバイオリンVNとバイオリンVNとピアノPFの3重奏である。(d)はピアノPFとピアノPFとピアノPFの3重奏である。一部に雑音も見られるが概ね正解が得られた。
以下、本発明に係る楽器音認識方法(及びインストログラム作成方法)の適用事例について説明する。
(実施例1)[楽器アノテーション(タグ付け)]
従来から、楽曲名や歌手名などの所定の情報をメタデータとして、これに基づいて希望の楽曲を検索する検索技術が知られているが、メタデータが記述されていない楽曲或いはクエリーにするためのタグが存在しないディジタル音楽情報は、クエリー検索ができない。また、例えば「明るい」、「暗い」などの感性に依存するデータをメタデータとして検索する方法が提案されているが、このような主観的な情報をメタデータとして利用することは、ディジタル音楽情報の汎用性を狭めるので好ましくない。
一方、楽器名は聴取者の好みや感性に依存しないので客観的であり、メタデータの一つとしてふさわしいと考えられる。
本発明に係る楽器存在確率の計算方法を用いることにより、ディジタル音楽情報に含まれる楽器名を高い正解率で識別できるため、この特徴を活かしてディジタル音楽データから自動的に楽器名をメタデータに記述することが考えられる。
例えば、図10(a)は、どの楽器がいつ演奏を開始していつ終了するかといった情報をタグ付けしたメタデータを示している。ここでは、楽器名と音域と開始時刻と終了時刻をメタデータとして定義している。本発明に係る楽器音認識方法により、楽器存在確率を計算すれば、これらの情報は容易に抽出することができる。
図11は、楽器アノテーションを実現するための方法を説明するための図である。
1.最大楽器名を出力するステップ(SB1)
インストログラムから時刻及び周波数ごとに楽器存在確率が最大の楽器名を出力する。
図10(b)は、ステップSB1において、インストログラム(不図示)から最大楽器名を出力した出力結果を示している。インストログラムにより、ある時刻及び周波数において、どの楽器が存在しているかが分かるので、インストログラムからこの最大楽器名の列を得ることは容易である。
2.最尤パス探索ステップ(SB2)
周波数ごとに上記ステップ1で出力された最大楽器名が所定のマルコフチェインから生成されたとみなして最尤パスを求める。最尤パスを求める探索方法は一般的に知られている方法を用いればよい。
図10(c)は、ステップSB2において、ステップSB1で出力した楽器名の列を、マルコフチェインによってモデル化した状態遷移図を表している。この図に示すマルは各状態(スタート、エンド、サイレンス(無音)、楽器ω(例えばピアノ)、…)を表し、矢印は状態の遷移を示し、数値は実験的に決定した遷移確率を示している。
この中から、最も確からしいパス(最尤パス)、(例えば、”サイレンス→バイオリン→フルート→フルート→フルート→…”)を検索する。検索アルゴリズムは特に限定されないが、例えばビタビ(Viterbi)探索によって求めることができる。
3.タグ付けステップ(SB3)
最終的に、楽器アノテーションを行うためのタグ付けステップである。例えば、楽器ωの演奏開始タグは、「無音」状態から「楽器ω」状態への遷移時刻を、楽器ω の演奏終了を、それぞれタグ付けすればよい(図10(a))。
種々の楽器構成による楽曲(いずれも、ピアノPF・バイオリンVN・クラリネットCL・フルートFLのいずれかを用いた3重奏で「蛍の光」を演奏したディジタル音楽情報)のインストログラムを作成し、これをもとに上述したステップSB1乃至SB3により、楽器アノテーションを行った結果得られた、認識率(正解フレーム数/全フレーム数)は、下記の通りである。
<認識率の結果>
PF−PF−PF 97.1%
PF−VN−PF 84.7%
PF−CL−PF 86.9%
VN−PF−PF 81.1%
VN−VN−PF 86.7%
VN−CL−PF 73.2%
FL−PF−PF 82.8%
FL−VN−PF 78.5%
FL−CL−PF 78.7%
認識率は最も悪いもので73.2%(VN−CL−PF)、その他は78%以上という結果が得られた。
その他の応用例として、次のようなものがある。すなわち、本実施例に係る楽器アノテーション方法は、動画コンテンツのアノテーションのための標準規格「MPEG−7」に適用すれば、楽器名等の情報をMPEG−7規格におけるメタデータとして含めるなどことができると考えられる。
このように、本発明に係る楽器音認識方法を用いてディジタル音楽情報に対し計算機により楽器アノテーションを行ってメタデータに楽器名を含めておけば、楽器名をクエリーにしてその楽器を含む楽曲を検索することが可能となる。
特に、クラッシック音楽では使用楽器は楽曲を特徴づける重要なファクターであり、メタデータに楽器名の情報がなくても、ディジタル音楽情報そのものから例えば「弦楽四重奏を検索する」といったことが可能となる。
(実施例2)楽器構成に基づく類似楽曲検索
楽曲構成は楽曲の雰囲気を特徴づける重要な要素である。ある楽曲から作成したインストログラムと類似したインストログラムを持つ別の楽曲を検索することは、プレイリストの自動作成や音楽推薦につながるキーテクノロジーとなりうる。本発明に係る楽器音認識方法(特に、インストログラム作成方法)によれば、楽曲構成に着目した類似楽曲検索方法を提供することができる。
具体的には、インストログラムにより楽器存在確率を視覚的に表現することができるため、対比される「楽曲構成同士の類似度」を「インストログラム同士の類似度」に置き換えることができることを意味する。そのためには、既存の画像類似判定アルゴリズムを利用することが考えられる。つまり、画像の類似度を判定するプログラムを用いてインストログラムを対比し、楽器構成の類似度を計算すれば、画像の類似度を計算することがすなわち楽曲構成の類似度を計算することになる。
例えば、高音部がバイオリンVN、中音部がクラリネットCL、低音部がピアノPFからなる3重奏(以下、「VN−CL−PF」と省略する)と、そのうち2つ、「FL−CL−PF」を対比する。FLとVNの点で相違するが、他の2つの楽器構成(CL,PF)は一致する。
一方、VN−VN−PFと、PF−PF−PFとを対比すると、一つのパートのPFのみ一致し、他の2つは相違する。
両者の楽曲構成類似度は直感的にも、前者の方が後者よりも大きく、ゆえに楽曲の雰囲気も前者の方が後者よりも似ていると感じることが予想される。
そこで、各種の楽曲構成で演奏した2つの楽曲同士を、それぞれのインストログラムの類似度(すなわち画像の類似度)を計算するアルゴリズムにより計算し、対比した。
図12は2つの異なる楽曲の楽曲構成に基づく類似度計算を行った結果を示す図である。この画像類似計算アルゴリズムは最終結果がスコア0〜128として表示される。スコア0は完全同一の画像を示し、スコア128は類似度がゼロ(全く類似点がない)ことを示す。
いずれの結果も、3パート(高音部、中音部、低音部)のうち楽器構成が共通する数が多い組み合わせほど、類似度が高い。すなわち、楽曲構成の類似度を画像の類似度により計算できることが明らかとなった。
なお、より精度を高めるためには、楽器音同士の音色の類似度を反映させるような工夫が必要であると考えられる。例えば、フルートとクラリネットの組み合わせはフルートとピアノの組み合わせよりも一般的には音色が近いと考えられるが、上述した画像類似計算ではこの結果は反映されないからである。
(実施例3)演奏楽器に着目した娯楽用音楽可視化
本発明に係るインストログラムは演奏中の楽曲名と関連づけすることができるため、演奏中に取り出した楽器をイラストなどに変換することができる。例えば、ピアノの音が演奏されたとき、ピアノのイラストがモニターなどの表示部に現れるようにすることができる。楽曲サムネイルとしての使用法、或いは、楽曲の演奏中に楽器存在確率の変化に連動して楽器イラストの大きさや位置や色等を変化させることで、見て楽しいという娯楽的な効果や或いは幼児等に対する知育学習効果などが期待される。
本発明に係る楽器音認識方法は、楽器の指定による検索或いは楽器構成の類似度に基づく検索を可能にするキーテクノロジーとして位置づけられ、産業上の利用可能性は極めて大きい。具体的には、以下のような産業上の利用可能性を有する。
(1)楽器の指定による音楽検索(実施例1)
特定の楽器を指定して、その楽器を含む楽曲を検索する方法に適用することができる。
(2)楽器構成に基づく類似検索(実施例2)
ユーザーが指定した楽曲から作成したインストログラムと類似したインストログラムを持つ楽曲を検索する検索方法に適用することができる。
(3)演奏楽器に着目した娯楽用音楽可視化(実施例3)
本発明に係るインストログラムを適切なイラストなどに変換することによる音楽の可視化をすることに適用することができる。
図1は、本発明に係る楽器音認識方法の基本的なステップを示したものである。 図2(a)は典型的な調波構造示すスペクトルを示している。図2(b)は、不特定楽器存在確率を求める手順を簡単に示したものである。 図3は、条件付き楽器存在確率p(ω|X;t,f)を求めるステップを示したものである。 図4は、特徴ベクトルの一例を示す一覧表を示す図である。 図5は、隠れマルコフモデル(HMM)による確率計算の手法を示している。 図6(a)及び(d)は、本発明にかかるインストログラムの一例である。 図7は、図6(a)乃至(d)に示すインストログラムを簡略化したものである。 図8(a),(b)は、指定した楽曲(蛍の光)を3つの異なる楽器で重奏された楽曲のディジタル音楽情報に対して、本発明に係る楽器音認識方法を適用した結果得られるインストログラム(簡略化版)を示している。 図9(c),(d)は、指定した楽曲(蛍の光)を3つの異なる楽器で重奏された楽曲のディジタル音楽情報に対して、本発明に係る楽器音認識方法を適用した結果得られるインストログラム(簡略化版)を示している。 図10(a)は、どの楽器がいつ演奏を開始していつ終了するかといった情報をタグ付けしたメタデータを示している。図10(b)は、ステップSB1において、インストログラム(不図示)から最大楽器名を出力した出力結果を示している。図10(c)は、ステップSB2において、ステップSB1で出力した楽器名の列を、マルコフチェインによってモデル化した状態遷移図を表している。 図11は、楽器アノテーションを実現するための方法を説明するための図である。 図12は2つの異なる楽曲の楽曲構成に基づく類似度計算を行った結果を示す図である。 図13(a)は、多重奏の音響信号から各単音の発音時刻、音高(基本周波数F0)及び音長を推定して生成されたピアノロールとよばれる図であり、横軸は時刻を、縦軸は周波数を表している。図13(b)は、図13(a)から各単音の楽器名を同定した様子を示している。

Claims (10)

  1. 不特定楽器存在確率を求めるステップ(SA1)と、条件付き楽器存在確率を求めるステップ(SA2)と、両者の積を算出するステップ(SA3)とを備えることを特徴とする楽器音認識方法。
  2. 前記不特定楽器存在確率を求めるステップ(SA1)は、基本周波数(F0)の確率密度関数を計算するステップ(SA1−1)と、所定のアルゴリズムにより重みを推定する(SA1−2)ステップと、
    を備えていることを特徴とする請求項1記載の楽器音認識方法。
  3. 前記条件付き楽器存在確率を求めるステップ(SA2)は、入力音響信号に対して短時間フーリエ変換を行うステップ(SA2−1)と、許容される全ての周波数fに対して、fをF0とする(例えば10次倍音までの)調波構造の時系列H(t,f)を抽出するステップ(SA2−2)と、周波数fごとに、
    調波構造H(t,f)から、長さTの断片Ht(τ、f)(t≦τ<t+T)を抽出し、ここから予め定めたテーブルに示す多次元特徴ベクトルx(t、f)を求め、これを音響信号の始めから終わりまでΔtごとに繰り返すことで特徴ベクトルの時系列を得るステップ(SA2−3)と、
    条件付き楽器存在確率p(ω|X;t,f)を求めるステップ(SA2−4)と、
    を備えていることを特徴とする請求項1記載の楽器音認識方法。
  4. 前記条件付き楽器存在確率を求めるステップ(SA2)は、楽器ω,・・・,ω及びサイレンスの各々に対して複数の状態からなる時系列の隠れマルコフモデル(HMM)のマルコフ連鎖から生成されたとみなし、このとき、各HMM M(i=1,…,m,サイレンス)に対して、x(t,f)が時刻tにおいてMから生成された確率p(x(t、f)|M;t)は、時刻tにおいてfをF0とする楽器音がωである確率を表すことを特徴とする請求項1乃至請求項3のいずれか1項に記載の楽器音認識方法。
  5. 請求項1乃至請求項4のいずれか1項に記載の楽器音認識方法を用いたインストログラム作成方法であって、
    対象楽器をΩ={ω,…,ω}ごとに、各ω∈Ωに対して、横軸を時刻、縦軸を周波数で表示すると共に、時間t−周波数f平面上に上述の楽器存在確率p(ω;t,f)の大きさを表示することを特徴とするインストログラム作成方法。
  6. 請求項1乃至請求項4のいずれか1項に記載の楽器音認識方法を用いたインストログラム作成方法であって、
    対象楽器をΩ={ω,…,ω}ごとに、各ω∈Ωに対して、横軸を時刻、縦軸を周波数(但し、全周波数区間をN個の区間に区分し、その区間内にある楽器存在確率の値を統合して)で表示すると共に、時間t−周波数f平面上に上述の楽器存在確率p(ω;t,f)の大きさを前記区間内を所定の対応関係を用いて視覚的に表示することを特徴とするインストログラム作成方法。
  7. 前記所定の対応関係は、楽器存在確率の大きさに対応するカラーマップを作成しておき、その対応関係に基づいて表現されることを特徴とする請求項6記載のインストログラム作成方法。
  8. 楽器存在確率を含むインストログラムから時刻及び周波数ごとに楽器存在確率が最大の楽器名を出力する最大楽器名を出力するステップ(SB1)と、
    周波数ごとに上記ステップ1で出力された最大楽器名が所定のマルコフチェインから生成されたとみなして最尤パスを求める最尤パス探索ステップ(SB2)と、
    前記マルコフチェインの状態遷移図を用いて所定の楽器アノテーションを行うためのタグ付けステップ(SB3)とを備えることを特徴とする楽器アノテーション方法。
  9. ディジタル音楽情報に含まれる複数の楽器情報のうち、時間t及び周波数ごとの楽器存在確率を各楽器ごとに求め、指定した楽曲と楽曲構成が同一又は類似した楽曲を検索することを特徴とする楽曲検索方法。
  10. 前記楽曲検索方法は、インストログラムの画像の類似度を計算することにより行うことを特徴とする請求項9記載の楽曲検索方法。
JP2006058649A 2006-03-03 2006-03-03 楽器音認識方法、楽器アノテーション方法、及び楽曲検索方法 Pending JP2007240552A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006058649A JP2007240552A (ja) 2006-03-03 2006-03-03 楽器音認識方法、楽器アノテーション方法、及び楽曲検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006058649A JP2007240552A (ja) 2006-03-03 2006-03-03 楽器音認識方法、楽器アノテーション方法、及び楽曲検索方法

Publications (1)

Publication Number Publication Date
JP2007240552A true JP2007240552A (ja) 2007-09-20

Family

ID=38586206

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006058649A Pending JP2007240552A (ja) 2006-03-03 2006-03-03 楽器音認識方法、楽器アノテーション方法、及び楽曲検索方法

Country Status (1)

Country Link
JP (1) JP2007240552A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009101703A1 (ja) * 2008-02-15 2009-08-20 Pioneer Corporation 楽曲データ分析装置及び楽器種類検出装置、楽曲データ分析方法及び楽器種類検出装置並びに楽曲データ分析用プログラム及び楽器種類検出用プログラム
JP2010134231A (ja) * 2008-12-05 2010-06-17 Sony Corp 情報処理装置、音素材の切り出し方法、及びプログラム
JP2014059483A (ja) * 2012-09-18 2014-04-03 Fuji Xerox Co Ltd 分類装置及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10319948A (ja) * 1997-05-15 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> 音楽演奏に含まれる楽器音の音源種類判別方法
JP2001125562A (ja) * 1999-10-27 2001-05-11 Natl Inst Of Advanced Industrial Science & Technology Meti 音高推定方法及び装置
JP2005202354A (ja) * 2003-12-19 2005-07-28 Toudai Tlo Ltd 信号解析方法
JP2006285052A (ja) * 2005-04-01 2006-10-19 National Institute Of Advanced Industrial & Technology 音高推定方法及び装置並びに音高推定用プラグラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10319948A (ja) * 1997-05-15 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> 音楽演奏に含まれる楽器音の音源種類判別方法
JP2001125562A (ja) * 1999-10-27 2001-05-11 Natl Inst Of Advanced Industrial Science & Technology Meti 音高推定方法及び装置
JP2005202354A (ja) * 2003-12-19 2005-07-28 Toudai Tlo Ltd 信号解析方法
JP2006285052A (ja) * 2005-04-01 2006-10-19 National Institute Of Advanced Industrial & Technology 音高推定方法及び装置並びに音高推定用プラグラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009101703A1 (ja) * 2008-02-15 2009-08-20 Pioneer Corporation 楽曲データ分析装置及び楽器種類検出装置、楽曲データ分析方法及び楽器種類検出装置並びに楽曲データ分析用プログラム及び楽器種類検出用プログラム
JPWO2009101703A1 (ja) * 2008-02-15 2011-06-02 パイオニア株式会社 楽曲データ分析装置及び楽器種類検出装置、楽曲データ分析方法並びに楽曲データ分析用プログラム及び楽器種類検出用プログラム
JP2010134231A (ja) * 2008-12-05 2010-06-17 Sony Corp 情報処理装置、音素材の切り出し方法、及びプログラム
JP2014059483A (ja) * 2012-09-18 2014-04-03 Fuji Xerox Co Ltd 分類装置及びプログラム
US9218540B2 (en) 2012-09-18 2015-12-22 Fuji Xerox Co., Ltd. Apparatus and computer readable medium for signal classification using spectrogram and templates

Similar Documents

Publication Publication Date Title
Mion et al. Score-independent audio features for description of music expression
Bosch et al. Evaluation and combination of pitch estimation methods for melody extraction in symphonic classical music
Lehner et al. Online, loudness-invariant vocal detection in mixed music signals
JP2010521021A (ja) 楽曲ベースの検索エンジン
JP2007322598A (ja) 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
Six et al. Tarsos, a modular platform for precise pitch analysis of Western and non-Western music
Kirchhoff et al. Evaluation of features for audio-to-audio alignment
JP4479701B2 (ja) 楽曲練習支援装置、動的時間整合モジュールおよびプログラム
Yang Computational modelling and analysis of vibrato and portamento in expressive music performance
Lerch Audio content analysis
Lerch Software-based extraction of objective parameters from music performances
JP2005202354A (ja) 信号解析方法
JP2007240552A (ja) 楽器音認識方法、楽器アノテーション方法、及び楽曲検索方法
Konev et al. The program complex for vocal recognition
Odekerken et al. Decibel: Improving audio chord estimation for popular music by alignment and integration of crowd-sourced symbolic representations
Kitahara Mid-level representations of musical audio signals for music information retrieval
JP2008040258A (ja) 楽曲練習支援装置、動的時間整合モジュールおよびプログラム
Joysingh et al. Development of large annotated music datasets using HMM based forced Viterbi alignment
Tian A cross-cultural analysis of music structure
Bader Characterization of guitars through fractal correlation dimensions of initial transients
Cheng Exploiting Piano Acoustics in Automatic Transcription
Zhang Cooperative music retrieval based on automatic indexing of music by instruments and their types
JP5953743B2 (ja) 音声合成装置及びプログラム
Campolina et al. Musical Note Attacks Description in Reverberant Environments
Kouroupetroglou et al. Formant tuning in Byzantine chanting

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110301

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111004