JP3413634B2

JP3413634B2 - 音高推定方法及び装置

Info

Publication number: JP3413634B2
Application number: JP30577099A
Authority: JP
Inventors: 真孝後藤
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 1999-10-27
Filing date: 1999-10-27
Publication date: 2003-06-03
Anticipated expiration: 2019-10-27
Also published as: JP2001125562A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、市販のCD (compact di
sc)などに収録されている、歌声や複数種類の楽器音を
同時に含む音楽音響信号を対象に、メロディーとベース
の音高(本明細書では基本周波数の意味で用いる)を推定
する音高推定方法及び装置に関する。

【０００２】

【従来の技術】多数の音源の音が混ざり合ったモノラル
の音響信号中から、ある特定の音源の音高を推定するこ
とは、非常に困難である。従来、音高推定手法の多く
は、単一音のみか、非周期的な雑音を伴った単一音を収
録した音響信号を対象としていた（Rabiner, L.R., Che
ng, M.J., Rosenberg, A.E. and McGonegal, C.A.: A C
omparative Performance Study of Several Pitch Dete
ction Algorithms,IEEE Trans. on ASSP, Vol.ASSP-24,
No.5, pp. 399-418 (1976); Charpentier,F.J.:Pitch
detection using the short-term phase spectrum, Pro
c. of ICASSP 86,pp. 113-116 (1986).参照）。音源分
離や自動採譜の研究では、複数の楽器による混合音に対
して、各音を分離したり各音に対応するシンボルを得る
処理が取り組まれてきたが（Chafe, C. and Jaffe, D.:
Source separation and note identification in poly
phonic music, Proc. of ICASSP 86,pp. 1289-1292 (19
86);Brown, G.J. and Cooke, M.: Perceptual Grouping
of Musical Sounds: A Computational Model, J. of N
ew Music Research, Vol.23,pp. 107-132 (1994)参
照）、それらは高々三つの楽器音や歌声が同時に鳴る演
奏しか扱うことができず、市販のCDによる複雑な音響信
号に対して音高を推定することはできなかった。CDによ
る音響信号からボーカル音を分離する研究（柏野邦夫,
村瀬洋: パート譜を用いたボーカル音分離システム,
音講論集春季 2-9-1(1998)参照）も報告されている
が、事前に与えたボーカル音の楽譜(パート譜)とのDPマ
ッチングが不可欠であり、本研究のような入力信号の楽
譜がない一般的な場合には適用できなかった。このよう
に、複数種類の楽器音や歌声を含む実世界の音楽音響信
号に対して、その中のある特定の音源の音高（メロディ
ーやベース等の音高）を推定する手法はまだ実現されて
いなかった。

【０００３】

【発明が解決しようとする課題】本発明は、各音の高調
波構造に対応する確率分布の混合分布(重み付き和)とし
て混合音をモデル化する。その重みの値をEM (Expectat
ion-Maximization)アルゴリズム（Dempster, A.P., Lai
rd, N.M. and Rubin, D.B.: Maximum likelihood from
incomplete data via the EM algorithm, J. Roy. Sta
t. Soc. B, Vol.39, No.1, pp.1-38 (1977)参照）を用
いて推定することで、基本周波数成分の存在に依存せず
に、最も優勢な高調波構造を求めることができる。メロ
ディーは中高域において最も優勢な高調波構造を持ち、
ベースは低域において最も優勢な高調波構造を持つこと
が多いため、これを意図的に制限した周波数帯域に対し
て適用すれば、メロディーとベースの音高が推定でき
る。さらに本発明では、マルチエージェントモデルを導
入し、音高の時間的な軌跡を追跡しながら安定した推定
を実現する。

【０００４】本発明では、モノラルの音楽音響信号に対
し、その中のある音源の音高を推定する。その最も重要
な例として、ここではメロディーラインとベースライン
を推定する。メロディーは他よりも際立って聞こえる単
音の系列、ベースはアンサンブル中で最も低い単音の系
列であり、その時間的な変化の軌跡をそれぞれメロディ
ーラインDm(t)、ベースライン Db(t) と呼ぶ。時刻tに
おける基本周波数(F0)を Fi(t)(i = m,b)、振幅を Ai
(t) とすると、これらは以下のように表される。

【０００５】

【数１】

【数２】

【０００６】混合音に対して音高推定することが難しい
本質的な理由の一つに、時間周波数領域において、ある
音の周波数成分が同時に鳴っている他の音の周波数成分
と重複することが挙げられる。例えば、歌声、鍵盤楽器
(ピアノ等)、ギター、ベースギター、ドラムス等で演奏
される典型的なポピュラー音楽では、メロディーを担う
歌声の高調波構造の一部(特に基本周波数成分)は、鍵盤
楽器、ギターの高調波成分やベースギターの高次の高調
波成分、スネアドラム等の音に含まれるノイズ成分など
と頻繁に重複する。そのため、各周波数成分を局所的に
追跡するような手法は、複雑な混合音に対しては安定し
て機能しない。基本周波数成分が存在することを前提に
高調波構造を推定する手法もあるが、そのような手法
は、ミッシングファンダメンタル(missing fundamenta
l)現象を扱えないという大きな欠点を持つ。さらに、同
時に鳴っている他の音の周波数成分が基本周波数成分と
重複すると、有効に機能しない。

【０００７】メロディーとベースの音高を推定する際の
主要な課題は、以上を考慮して次の三つにまとめられ
る。 (1)多数の音源の中で、どのようにしてメロディーとベ
ースに着目するか。 (2)音源数が不明な混合音に対して、どのようにして音
高を推定するか。 (3)音高の候補が複数あるときに、どのようにして適切
な音高を選択するか。

【０００８】本発明では、以下の三つを仮定してこれら
を解決する。・メロディーとベースは高調波構造を持つ。ただし、基
本周波数成分の有無は問わない。・メロディーは中高域において最も優勢な(パワーの大
きい)高調波構造を持ち、ベースは低域において最も優
勢な高調波構造を持つ。・メロディーとベースの音高は、発音中の時間的な軌跡
が連続する傾向を持つ。

【０００９】以上は多くの場合に当てはまる妥当な仮定
である。各課題に対応する本発明の解決法を以下に示
す。 (1)メロディーを求める場合は中高域に、ベースを求め
る場合は低域に周波数帯域を意図的に制限し、その帯域
に含まれる周波数成分が、高調波成分として最も支持す
るような高調波構造の音高を推定する。その際、その帯
域に基本周波数成分が含まれているかどうかは問わな
い。 (2)音源数を仮定せず、対象とするあらゆる音高の高調
波構造に対応する確率分布を考え、その混合分布(重み
付き和)として観測した周波数成分をモデル化する。そ
して、その重みの値をEM (Expectation-Maximization)
アルゴリズムを用いて推定する。EMアルゴリズムは、隠
れ変数を含む確率モデルに対して最尤推定をおこなうた
めの反復アルゴリズムであり、局所最適解を求められ
る。ここで、最も大きな重みの値を持つ確率分布は、そ
の時点で最も優勢な高調波構造であるとみなせるため、
あとはその音高を求めればよい。この手法は基本周波数
成分の存在に依存しないため、ミッシングファンダメン
タル現象も適切に扱える。 (3)複数の優勢な音高があるときに、それぞれの時間的
な軌跡の連続性を考慮し、最も安定してパワーの大きい
軌跡を持つ音高を出力とする。このような軌跡の追跡処
理を実現するためにマルチエージェントモデルを導入
し、複数のエージェントがそれぞれ異なる音高を追跡す
ることで、安定な音高推定結果を得る。

【００１０】このように、本発明は、入力音響信号に対
してあるパート(メロディーやベース)の音高推定を可能
にするために、混合音中で優勢な音高を推定することを
目的としている。

【００１１】

【課題を解決するための手段】本発明で提案する、最も
優勢な音高を推定する手法の処理の流れを図１に示す。
まず、入力音響信号に対してマルチレート信号処理をお
こなって瞬時周波数を計算し、瞬時周波数に関連した尺
度に基づいて周波数成分の候補を抽出する。次に、2種
類のバンドパスフィルタ(メロディーライン用とベース
ライン用)を適用し、それぞれの出力に基づいて、基本
周波数(音高)の確率密度関数を求める。そして、マルチ
エージェントモデルを導入し、その確率密度関数の中で
有望な各ピークの軌跡を異なるエージェントが追跡し
て、それぞれの信頼度を評価する。最後に、最も信頼度
の高いエージェントが持つ優勢な基本周波数の軌跡を出
力する。

【００１２】

【発明の実施の形態】瞬時周波数の算出本発明では、ま
ず、フィルタバンクの各出力信号に対し、位相の時間微
分である瞬時周波数（Flanagan, J.L. and Golden, R.
M.: Phase Vocoder, The BellSystem Technical J., Vo
l.45, pp.1493-1509 (1966)参照）を計算する。ここで
は、上記Flanaganの手法を用い、短時間フーリエ変換(S
TFT)の出力をフィルタバンク出力と解釈して、効率良く
瞬時周波数を計算する。入力音響信号 x(t) に対する窓
関数 h(t) を用いたSTFTが

【００１３】

【数３】

【数４】で定義されるとき、瞬時周波数 λ(ω,t) は次式で求め
ることができる。

【数５】ここでh(t)は時間周波数の局所化を与える窓関数とする
(例えば、最適な時間周波数の局所化を与えるガウス関
数に2階のカーディナルB-スプライン関数を畳み込んで
作成した時間窓など)。

【００１４】この瞬時周波数を計算するのに、ウェーブ
レット変換を用いても良い。ここでは、計算量を減らす
ためにSTFTを用いるが、単一のSTFTのみを用いたので
は、ある周波数帯域における時間分解能や周波数分解能
が悪くなってしまう。そこで、マルチレートフィルタバ
ンク（Vetterli, M.: A Theory of Multirate Filter B
anks, IEEE Trans. on ASSP, Vol.ASSP-35, No.3, pp.
356-372 (1987)、参照）を構成し、リアルタイムに実行
可能という制約のもとで、ある程度妥当な時間周波数分
解能を得る。

【００１５】設計したバイナリツリー状のフィルタバン
クの構成を図２に示す。ツリーの各分岐後において、ア
ンチエリアシングフィルタ(FIRローパスフィルタ)と1/2
ダウンサンプラーによって構成されるデシメータ(decim
ator)によって、音響信号をダウンサンプリングする。
各デシメータのローパスフィルタの遮断周波数は 0.45
fs (fs は各分岐における標本化周波数)である。現在の
実装では、音響信号を標本化周波数 16 kHz、量子化ビ
ット数 16 bitでA/D変換し、それが最終的に標本化周波
数 1kHz までダウンサンプリングされる。STFTの窓幅は
512点で、ツリーのそれぞれの葉において時間遅延を補
償しながら高速フーリエ変換(FFT)によって計算する。
その際、FFTのフレームを16 kHzにおいて160点ずつシフ
トするため、フレームシフト時間(1フレームシフト)は
10 msec となる。このフレームシフトを、すべての処理
の時間単位とする。

【００１６】周波数成分の候補の抽出フィルタの中心周波数からその瞬時周波数への写像に基
づいて、周波数成分の候補を抽出する（Charpentier,
F.J.: Pitch detection using the short-termphase sp
ectrum, Proc. of ICASSP 86, pp.113-116 (1986)参
照）。あるSTFTフィルタの中心周波数 ω からその出力
の瞬時周波数 λ(ω,t) への写像を考える。すると、も
し周波数 ψ の周波数成分があるときには、ψ がこの
写像の不動点に位置し、その周辺の瞬時周波数の値はほ
ぼ一定となる。つまり、全周波数成分の瞬時周波数Ψ_f
^(t) は、次式によって抽出することができる。

【００１７】

【数６】これらの周波数成分のパワーは、Ψ_f ^(t)の各周波数にお
けるSTFTパワースペクトルの値として得られるため、周
波数成分のパワー分布関数 Ψ_p ^(t)(ω) を次のように定
義できる。

【数７】

【００１８】周波数帯域の制限抽出した周波数成分に重み付けすることで、周波数帯域
を制限する。ここでは、メロディーラインとベースライ
ン用に、二種類のバンドパスフィルタ(BPF)を用意す
る。メロディーライン用のBPFは、典型的なメロディー
ラインの主要な高調波成分の多くを通過させることがで
き、かつ、基本周波数付近の重複が頻繁に起きる周波数
帯域をある程度遮断できるように設計する。一方、ベー
スライン用のBPFは、典型的なベースラインの主要な高
調波成分の多くを通過させることができ、かつ、他の演
奏パートがベースラインよりも優勢になるような周波数
帯域をある程度遮断できるように設計する。

【００１９】現在の実装で用いたBPFの周波数応答を図
３に示す。本稿では以下、対数スケールの周波数をcent
の単位(本来は音高差(音程)を表す尺度)で表し、Hzで表
された周波数 fHz を、次のようにcentで表された周波
数 fcent に変換する。

【数８】

【数９】平均律の半音は100 centに、1オクターブは1200 centに
相当する。

【００２０】周波数 x centでのBPFの周波数応答を BPF
_i(x)(i = m,b) とし、周波数成分のパワー分布関数を
Ψ'_p ^(t)(x) とすると、BPFを通過した周波数成分はBPF_i
(x)Ψ'_p ^(t)(x) と表せる。ただし、Ψ'_p ^(t)(x) は、周
波数軸がcentで表されていることを除けばΨ_p ^(t)(ω)
と同じ関数である。ここで、次の段階の準備として、BP
Fを通過した周波数成分の確率密度関数ｐ_Ψ ^(t)(x)を定
義する。

【００２１】

【数１０】 Pow^(t) はBPFを通過した周波数成分のパワーの合計を表
す。

【数１１】

【００２２】基本周波数の確率密度関数の推定それぞれのBPFを通過した周波数成分の候補に対し、各
高調波構造が相対的にどれくらい優勢かを表す基本周波
数の確率密度関数を求める。そのために本手法では、周
波数成分の確率密度関数ｐ_Ψ ^(t)(x) が、高調波構造を
持つ音をモデル化した確率分布(音モデル)の混合分布モ
デル(重み付き和のモデル)から生成されたと考える。基
本周波数が F の音モデルの確率密度関数を p(x|F) と
すると、その混合分布モデル p(x;θ^(t)) は次式で定義
できる。

【００２３】

【数１２】

【数１３】ここで、 Fh_i と Fl_i は、許容される基本周波数の上限
と下限であり、w^(t)(F)は、次式を満たすような、音モ
デル p(x|F) の重みである。

【数１４】 CD等による実世界の音響信号に対して事前に音源数を仮
定することは不可能なため、このように、あらゆる基本
周波数の可能性を同時に考慮してモデル化することが重
要となる。もし、観測した周波数成分ｐ_Ψ ^(t)(x) がモ
デル p(x;θ^(t))から生成されたかのようにモデルパラ
メータ θ^(t) を推定できれば、ｐ_Ψ ^(t)(x) は個々の音
モデルへと分解されたとみなすことができ、その重み w
^(t)(F) を、基本周波数の確率密度関数 p_FO ^(t)(F) と解
釈することができる。

【００２４】

【数１５】つまり、混合分布中において、ある音モデル p(x|F) が
優勢になればなるほど(w ^(t)(F)が大きくなるほど)、p_FO
^(t)(F) において、そのモデルの基本周波数 F の確率が
高くなる。

【００２５】以上から、確率密度関数ｐ_Ψ ^(t)(x) を観
測したときに、そのモデル p(x;θ⁽ ^t)) のパラメータ
θ^(t) を推定する問題を解けばよいことがわかる。θ
^(t) の最尤推定量は、次式で定義される平均対数尤度を
最大化することで得られる。

【数１６】

【００２６】この最大化問題は解析的に解くことが困難
なため、前述のEM(Expectation-Maximization)アルゴリ
ズムを用いて θ^(t) を推定する。EMアルゴリズムは、E
ステップ(expectationstep)とMステップ(maximization
step)を交互に繰返し適用することで、不完全な観測デ
ータ(この場合、ｐ_Ψ ^(t)(x)から最尤推定をおこなうた
めの反復アルゴリズムである。ここでは各繰返しにおい
て、パラメータ θ^(t)に関して、古いパラメータ推定値
θ'^(t) を更新して新しい(より尤もらしい)パラメー
タ推定値

【数２８】を求めていく。θ'^(t) の初期値には、一つ前の時刻 t
-1 における最終的な推定値を用いる。

【００２７】周波数 x において観測した各周波数成分
が、どの音モデルから生成されたのかを表す隠れ変数
(観測できない変数) F を導入して、EMアルゴリズムを
以下のように定式化することができる。

【００２８】１．(Eステップ) 平均対数尤度の条件付き期待値 Q(θ^(t) |θ'^(t) ) を
計算する。

【数１７】ここで、条件付き期待値 E_F[a|b] は、条件 b により決
定される確率分布を持つ隠れ変数 F に関する、a の期
待値を意味する。２．(Mステップ) Q(θ^(t) |θ'^(t) )をθ^(t) の関数として最大化して、
更新後の新しい推定値

【数２９】を得る。

【数１８】 Eステップにおいて、式（１７）より

【数１９】が得られる。この式中の完全データの対数尤度は

【数２０】で与えられる。次に、Mステップに関しては、式（１
８）が式（１４）を条件とする条件付き変分問題となっ
ている。この問題は、Lagrangeの乗数 λ を導入し、次
のEuler-Lagrangeの微分方程式を用いて解くことができ
る。

【００２９】

【数２１】これより、

【数２２】が得られる。この式において、λ は式（１４）からλ
= 1 と定まり、p(F|x ; θ'^(t))はベイズの定理から、

【数２３】となる。ここで、w'^(t)(F) は古いパラメータ推定値で
ある(θ'(t) = w'^(t)(F))。以上から、新しいパラメー
タ推定値

【数３０】を求める式は次のようになる。

【数２４】

【００３０】式（２４）を計算するためには、音モデル
の確率密度関数 p(x|F) を仮定する必要がある。これ
は、基本周波数が F のときに、その高調波成分がどの
周波数にどれくらい現れるかをモデル化したものであ
る。本研究では、メロディーライン (i = m) とベース
ライン (i = b) 用に、次のような高調波構造の音モデ
ルを仮定する。

【００３１】

【数２５】

【数２６】ここで、α は正規化係数、N_i は考慮する高調波成分の
数(基本周波数成分も数える)、 W_i ² はガウス分布 G(x;
m,σ) の分散を表す。c(h) は、第h次高調波成分の振
幅を決める関数で、本研究では c(h) = G(h; 1, H_i) (H
_i は定数)とする。この音モデルは、実世界の音響信号
中の高調波構造と完全には一致しないが、高調波構造が
相対的にどれくらい優勢かを評価する目的においては有
効に機能する。また、高調波構造に限定されておらず、
あらゆる音モデルを適用可能である。例えば、音記憶を
導入することで、よりある楽器に特化した処理も実現で
きる。

【００３２】最も優勢な基本周波数 F_i(t) を決定する
には、基本周波数の確率密度関数p_F0 ^(t)(F) (式（１
５）より、式（２４）を反復計算した最終的な推定値と
して得られる)を最大にする周波数を求めればよい。

【数２７】こうして得られた周波数を求める音高としてもよい。た
だし、基本周波数の確率密度関数において、同時に鳴っ
ている音の基本周波数に対応する複数のピークが拮抗す
ると、それらのピークが確率密度関数の最大値として次
々に選ばれてしまうことがあるため、このように単純に
求めた結果は安定しないことがある。したがって、次節
で述べるように、基本周波数に対応するピークの時間的
な連続性を考慮するとよい。

【００３３】マルチエージェントモデルによる基本周波
数の継時的な追跡大局的な観点から基本周波数を推定するために、基本周
波数の確率密度関数の時間変化において複数のピークの
軌跡を継時的に追跡し、その中で最も優勢で安定した基
本周波数の軌跡を選択する。このような追跡処理を動的
で柔軟に制御するために、マルチエージェントモデルを
導入する。

【００３４】提案するマルチエージェントモデルは、一
つの特徴検出器と複数のエージェントで構成される(図
４)。特徴検出器は、基本周波数の確率密度関数の中で
目立つピークを拾い上げる。エージェントは基本的に、
それらのピークに駆動されて軌跡を追跡していく。つま
り、ここで提案するマルチエージェントモデルは、入力
中で目立つ特徴を時間的に追跡する汎用の枠組みであ
る。具体的には、各時刻において以下の処理がおこなわ
れる。

【００３５】(1)基本周波数の確率密度関数が求まった
後、特徴検出器は目立つピーク(最大ピークに応じて動
的に変化する閾値を越えたピーク)を複数検出する。そ
して、目立つピークのそれぞれについて、周波数成分の
パワーの合計 Pow^(t) も考慮しながら、どれくらい将来
有望なピークかを評価する。これは、現在時刻を数フレ
ーム先の時刻とみなして、ピークの軌跡をその時刻まで
先読みして追跡することで実現する。

【００３６】(2)既に生成されたエージェントがあると
きは、それらが相互作用しながら、目立つピークをそれ
に近い軌跡を持つエージェントへと排他的に割り当て
る。複数のエージェントが割り当て候補に上がる場合に
は、最も信頼度の高いエージェントへと割り当てる。

【００３７】(3)最も有望で目立つピークがまだ割り当
てられていないときは、そのピークを追跡する新たなエ
ージェントを生成する。

【００３８】(4)各エージェントは累積ペナルティーを
持っており、それが一定の閾値を越えると消滅する。

【００３９】(5)目立つピークが割り当てられなかった
エージェントは、一定のペナルティーを受け、基本周波
数の確率密度関数の中から自分の追跡する次のピークを
直接見つけようとする。もしそのピークも見つからない
ときは、さらにペナルティーを受ける。さもなければ、
ペナルティーはリセットされる。

【００４０】(6)各エージェントは、今割り当てられた
ピークがどれくらい有望で目立つかを表す度合いと、一
つ前の時刻の信頼度との重み付き和によって、信頼度を
自己評価する。

【００４１】(7)時刻tにおける基本周波数 F_i(t) は、
信頼度が高く、追跡しているピークの軌跡に沿ったパワ
ーの合計が大きいエージェントに基づいて決定する。振
幅 A_i(t)は、基本周波数 F_i(t) の高調波成分をΨ
_p ^(t)(ω) から抽出して決定する。

【００４２】

【実施例】音楽音響信号を入力し、推定したメロディー
ラインとベースラインをリアルタイムに出力するシステ
ムを、提案した手法に基づいて構築した(パラメータの
値を表１に示す)。出力形式として、視覚化のためのコ
ンピュータグラフィックス、聴覚化のための音響信号、
アプリケーションで使用するための連続的に変化する数
値(タイムスタンプ付き)の三種類に対応した。コンピュ
ータグラフィックスの出力では、時間周波数平面上をス
クロールする音高の軌跡を表示するウィンドウと、それ
と同期してスクロールする周波数成分の候補を表示する
ウィンドウが提示される(図５)。音響信号の出力では、
検出した D_i(t) の高調波成分に基づいて、正弦波重畳
モデルを用いて合成する。

【００４３】表１：パラメータの値 Fhm = 9600 cent (4186 Hz) Fhb = 4800 cent (261.6 Hz) Flm = 3600 cent (130.8 Hz) Flb = 1000 cent (29.14 Hz) Nm = 16 Nb = 6 Wm = 17 cent Wb = 17 cent Hm = 5.5 Hb = 2.7

【００４４】本システムを分散環境で実装し、音響信号
の入出力、前述した手法の計算、中間結果や出力の視覚
化といったシステムを構成する各機能を、LAN (Etherne
t)上に分散した異なるプロセスとして実行できるように
した。その際、システムの拡張やアプリケーションの開
発を容易にするために、RACP (Remote Audio ControlPr
otocol)を設計し、それに基づいて実装した。RACPは、R
MCP (Remote Music Control Protocol) （後藤真孝, 根
山亮, 村岡洋一: RMCP: 遠隔音楽制御用プロトコルを中
心とした音楽情報処理, 情報処理学会論文誌, Vol.40,
No.3, pp.1335-1345 (1999)、参照）を音響信号の伝送
用に拡張したネットワークプロトコルである。提案手法
の計算はパーソナルコンピュータ(Pentium II 450 MHz
CPU x2, Linux 2.2)上で実行され、音響信号の入出力や
視覚化の処理はワークステーション(SGI Octane R10000
250 MHz CPU, Irix 6.4)上で実行される。

【００４５】ポピュラー音楽、ジャズ、クラシックの楽
曲10曲を用いて、システムの動作を確認する実験をおこ
なった．入力は市販のCDからサンプリングしたモノラル
の音響信号で、それぞれが単音のメロディーと複数種類
の楽器音を含んでいる。

【００４６】実験の結果、各曲の多くの部分において、
歌声や中域の単音楽器によるメロディーラインと、ベー
スギターやコントラバスによるベースラインを正しく検
出できた。

【００４７】

【発明の効果】本発明は、基本周波数成分の有無を問わ
ず、意図的に制限した周波数帯域から得られる部分情報
だけを利用して、ロバストに優勢な音高の軌跡を推定で
きる特長を持つ。音源数を仮定せずに混合音をモデル化
し、EMアルゴリズムを適用することで、各高調波構造が
相対的にどれくらい優勢かを表す基本周波数の確率密度
関数を推定することができた。さらに、マルチエージェ
ントモデルを導入することで、基本周波数の時間的な連
続性を考慮しながら、優勢で安定な音高の軌跡を得るこ
とができた。

【図面の簡単な説明】

【図１】本発明で提案する、最も優勢な音高を推定する
手法の処理の流れを示す図である。

【図２】バイナリツリー状のフィルタバンクの構成を示
す図である。

【図３】バンドパスフィルタ(BPF)の周波数応答を示す
図である。

【図４】一つの特徴検出器と複数のエージェントで構成
されるマルチエージェントモデルによる基本周波数の経
時的な追跡を示す図である。

【図５】ウインドウの画面表示例を示す図である。

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10G 3/04 G10H 1/00

Claims

(57)【特許請求の範囲】

【請求項１】多数の音源の音が混ざり合った入力音響信
号に対してその中のある特定の音源の基本周波数を推定
して出力する音高推定方法において、前記入力音響信号
に対して前記多数の音源の音の高調波成分となるべき周
波数成分の候補を瞬時周波数とパワーとして抽出し、前
記周波数成分の候補に基づいて、それらの周波数成分の
候補が高調波成分として支持する高調波構造の基本周波
数の確率密度関数を推定し、前記確率密度関数の中でピークを複数検出し、それぞれ
のピークの信頼度に基づき信頼度が高くパワーの大きい
基本周波数を出力することから成る音高推定方法。
【請求項２】前記周波数成分の候補は、バンドパスフィ
ルタで帯域制限して抽出する請求項１に記載の音高推定
方法。
【請求項３】前記基本周波数の出力は、マルチエージェ
ントモデルを導入し、確率密度関数の中で所定の基準を
満たす各ピークの軌跡を異なるエージェントが追跡し
て、信頼度が高くパワーの大きいエージェントが持つ基
本周波数の軌跡を出力する請求項１又は２に記載の音高
推定方法。
【請求項４】前記帯域制限は、メロディーライン用とベ
ースライン用の２種類のバンドパスフィルタを適用し、
それぞれの出力に基づいてメロディーとベースの音高を
求める請求項２に記載の音高推定方法。
【請求項５】多数の音源の音が混ざり合った入力音響信
号に対してその中のある特定の音源の基本周波数を推定
して出力する音高推定装置において、前記入力音響信号
に対して前記多数の音源の音の高調波成分となるべき周
波数成分の候補を瞬時周波数とパワーとして抽出する手
段と、前記周波数成分の候補に基づいて、それらの周波
数成分の候補が高調波成分として支持する高調波構造の
基本周波数の確率密度関数を推定する手段と、前記確率密度関数の中でピークを複数検出し、それぞれ
のピークの信頼度に基づき信頼度が高くパワーの大きい
基本周波数を出力する手段と、から成る音高推定装置。
【請求項６】前記周波数成分の候補は、バンドパスフィ
ルタで帯域制限して抽出する請求項５に記載の音高推定
装置。
【請求項７】前記基本周波数の出力は、マルチエージェ
ントモデルを導入し、確率密度関数の中で所定の基準を
満たす各ピークの軌跡を異なるエージェントが追跡し
て、信頼度が高くパワーの大きいエージェントが持つ基
本周波数の軌跡を出力する請求項５又は６に記載の音高
推定装置。
【請求項８】前記帯域制限は、メロディーライン用とベ
ースライン用の２種類のバンドパスフィルタを適用し、
それぞれの出力に基づいてメロディーとベースの音高を
求める請求項６に記載の音高推定装置。