JP3413634B2 - 音高推定方法及び装置 - Google Patents

音高推定方法及び装置

Info

Publication number
JP3413634B2
JP3413634B2 JP30577099A JP30577099A JP3413634B2 JP 3413634 B2 JP3413634 B2 JP 3413634B2 JP 30577099 A JP30577099 A JP 30577099A JP 30577099 A JP30577099 A JP 30577099A JP 3413634 B2 JP3413634 B2 JP 3413634B2
Authority
JP
Japan
Prior art keywords
frequency
pitch
fundamental frequency
probability density
density function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP30577099A
Other languages
English (en)
Other versions
JP2001125562A (ja
Inventor
真孝 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP30577099A priority Critical patent/JP3413634B2/ja
Publication of JP2001125562A publication Critical patent/JP2001125562A/ja
Application granted granted Critical
Publication of JP3413634B2 publication Critical patent/JP3413634B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、市販のCD (compact di
sc)などに収録されている、歌声や複数種類の楽器音を
同時に含む音楽音響信号を対象に、メロディーとベース
の音高(本明細書では基本周波数の意味で用いる)を推定
する音高推定方法及び装置に関する。
【0002】
【従来の技術】多数の音源の音が混ざり合ったモノラル
の音響信号中から、ある特定の音源の音高を推定するこ
とは、非常に困難である。従来、音高推定手法の多く
は、単一音のみか、非周期的な雑音を伴った単一音を収
録した音響信号を対象としていた(Rabiner, L.R., Che
ng, M.J., Rosenberg, A.E. and McGonegal, C.A.: A C
omparative Performance Study of Several Pitch Dete
ction Algorithms,IEEE Trans. on ASSP, Vol.ASSP-24,
No.5, pp. 399-418 (1976); Charpentier,F.J.:Pitch
detection using the short-term phase spectrum, Pro
c. of ICASSP 86,pp. 113-116 (1986).参照)。音源分
離や自動採譜の研究では、複数の楽器による混合音に対
して、各音を分離したり各音に対応するシンボルを得る
処理が取り組まれてきたが(Chafe, C. and Jaffe, D.:
Source separation and note identification in poly
phonic music, Proc. of ICASSP 86,pp. 1289-1292 (19
86);Brown, G.J. and Cooke, M.: Perceptual Grouping
of Musical Sounds: A Computational Model, J. of N
ew Music Research, Vol.23,pp. 107-132 (1994)参
照)、それらは高々三つの楽器音や歌声が同時に鳴る演
奏しか扱うことができず、市販のCDによる複雑な音響信
号に対して音高を推定することはできなかった。CDによ
る音響信号からボーカル音を分離する研究(柏野邦夫,
村瀬洋: パート譜を用いたボーカル音 分離システム,
音講論集 春季 2-9-1(1998)参照)も報告されている
が、事前に与えたボーカル音の楽譜(パート譜)とのDPマ
ッチングが不可欠であり、本研究のような入力信号の楽
譜がない一般的な場合には適用できなかった。このよう
に、複数種類の楽器音や歌声を含む実世界の音楽音響信
号に対して、その中のある特定の音源の音高(メロディ
ーやベース等の音高)を推定する手法はまだ実現されて
いなかった。
【0003】
【発明が解決しようとする課題】本発明は、各音の高調
波構造に対応する確率分布の混合分布(重み付き和)とし
て混合音をモデル化する。その重みの値をEM (Expectat
ion-Maximization)アルゴリズム(Dempster, A.P., Lai
rd, N.M. and Rubin, D.B.: Maximum likelihood from
incomplete data via the EM algorithm, J. Roy. Sta
t. Soc. B, Vol.39, No.1, pp.1-38 (1977)参照)を用
いて推定することで、基本周波数成分の存在に依存せず
に、最も優勢な高調波構造を求めることができる。メロ
ディーは中高域において最も優勢な高調波構造を持ち、
ベースは低域において最も優勢な高調波構造を持つこと
が多いため、これを意図的に制限した周波数帯域に対し
て適用すれば、メロディーとベースの音高が推定でき
る。さらに本発明では、マルチエージェントモデルを導
入し、音高の時間的な軌跡を追跡しながら安定した推定
を実現する。
【0004】本発明では、モノラルの音楽音響信号に対
し、その中のある音源の音高を推定する。その最も重要
な例として、ここではメロディーラインとベースライン
を推定する。メロディーは他よりも際立って聞こえる単
音の系列、ベースはアンサンブル中で最も低い単音の系
列であり、その時間的な変化の軌跡をそれぞれメロディ
ーラインDm(t)、ベースライン Db(t) と呼ぶ。時刻tに
おける基本周波数(F0)を Fi(t)(i = m,b)、振幅を Ai
(t) とすると、これらは以下のように表される。
【0005】
【数1】
【数2】
【0006】混合音に対して音高推定することが難しい
本質的な理由の一つに、時間周波数領域において、ある
音の周波数成分が同時に鳴っている他の音の周波数成分
と重複することが挙げられる。例えば、歌声、鍵盤楽器
(ピアノ等)、ギター、ベースギター、ドラムス等で演奏
される典型的なポピュラー音楽では、メロディーを担う
歌声の高調波構造の一部(特に基本周波数成分)は、鍵盤
楽器、ギターの高調波成分やベースギターの高次の高調
波成分、スネアドラム等の音に含まれるノイズ成分など
と頻繁に重複する。そのため、各周波数成分を局所的に
追跡するような手法は、複雑な混合音に対しては安定し
て機能しない。基本周波数成分が存在することを前提に
高調波構造を推定する手法もあるが、そのような手法
は、ミッシングファンダメンタル(missing fundamenta
l)現象を扱えないという大きな欠点を持つ。さらに、同
時に鳴っている他の音の周波数成分が基本周波数成分と
重複すると、有効に機能しない。
【0007】メロディーとベースの音高を推定する際の
主要な課題は、以上を考慮して次の三つにまとめられ
る。 (1)多数の音源の中で、どのようにしてメロディーとベ
ースに着目するか。 (2)音源数が不明な混合音に対して、どのようにして音
高を推定するか。 (3)音高の候補が複数あるときに、どのようにして適切
な音高を選択するか。
【0008】本発明では、以下の三つを仮定してこれら
を解決する。 ・メロディーとベースは高調波構造を持つ。ただし、基
本周波数成分の有無は問わない。 ・メロディーは中高域において最も優勢な(パワーの大
きい)高調波構造を持ち、ベースは低域において最も優
勢な高調波構造を持つ。 ・メロディーとベースの音高は、発音中の時間的な軌跡
が連続する傾向を持つ。
【0009】以上は多くの場合に当てはまる妥当な仮定
である。各課題に対応する本発明の解決法を以下に示
す。 (1)メロディーを求める場合は中高域に、ベースを求め
る場合は低域に周波数帯域を意図的に制限し、その帯域
に含まれる周波数成分が、高調波成分として最も支持す
るような高調波構造の音高を推定する。その際、その帯
域に基本周波数成分が含まれているかどうかは問わな
い。 (2)音源数を仮定せず、対象とするあらゆる音高の高調
波構造に対応する確率分布を考え、その混合分布(重み
付き和)として観測した周波数成分をモデル化する。そ
して、その重みの値をEM (Expectation-Maximization)
アルゴリズムを用いて推定する。EMアルゴリズムは、隠
れ変数を含む確率モデルに対して最尤推定をおこなうた
めの反復アルゴリズムであり、局所最適解を求められ
る。ここで、最も大きな重みの値を持つ確率分布は、そ
の時点で最も優勢な高調波構造であるとみなせるため、
あとはその音高を求めればよい。この手法は基本周波数
成分の存在に依存しないため、ミッシングファンダメン
タル現象も適切に扱える。 (3)複数の優勢な音高があるときに、それぞれの時間的
な軌跡の連続性を考慮し、最も安定してパワーの大きい
軌跡を持つ音高を出力とする。このような軌跡の追跡処
理を実現するためにマルチエージェントモデルを導入
し、複数のエージェントがそれぞれ異なる音高を追跡す
ることで、安定な音高推定結果を得る。
【0010】このように、本発明は、入力音響信号に対
してあるパート(メロディーやベース)の音高推定を可能
にするために、混合音中で優勢な音高を推定することを
目的としている。
【0011】
【課題を解決するための手段】本発明で提案する、最も
優勢な音高を推定する手法の処理の流れを図1に示す。
まず、入力音響信号に対してマルチレート信号処理をお
こなって瞬時周波数を計算し、瞬時周波数に関連した尺
度に基づいて周波数成分の候補を抽出する。次に、2種
類のバンドパスフィルタ(メロディーライン用とベース
ライン用)を適用し、それぞれの出力に基づいて、基本
周波数(音高)の確率密度関数を求める。そして、マルチ
エージェントモデルを導入し、その確率密度関数の中で
有望な各ピークの軌跡を異なるエージェントが追跡し
て、それぞれの信頼度を評価する。最後に、最も信頼度
の高いエージェントが持つ優勢な基本周波数の軌跡を出
力する。
【0012】
【発明の実施の形態】瞬時周波数の算出本発明では、ま
ず、フィルタバンクの各出力信号に対し、位相の時間微
分である瞬時周波数(Flanagan, J.L. and Golden, R.
M.: Phase Vocoder, The BellSystem Technical J., Vo
l.45, pp.1493-1509 (1966)参照)を計算する。ここで
は、上記Flanaganの手法を用い、短時間フーリエ変換(S
TFT)の出力をフィルタバンク出力と解釈して、効率良く
瞬時周波数を計算する。入力音響信号 x(t) に対する窓
関数 h(t) を用いたSTFTが
【0013】
【数3】
【数4】 で定義されるとき、瞬時周波数 λ(ω,t) は次式で求め
ることができる。
【数5】 ここでh(t)は時間周波数の局所化を与える窓関数とする
(例えば、最適な時間周波数の局所化を与えるガウス関
数に2階のカーディナルB-スプライン関数を畳み込んで
作成した時間窓など)。
【0014】この瞬時周波数を計算するのに、ウェーブ
レット変換を用いても良い。ここでは、計算量を減らす
ためにSTFTを用いるが、単一のSTFTのみを用いたので
は、ある周波数帯域における時間分解能や周波数分解能
が悪くなってしまう。そこで、マルチレートフィルタバ
ンク(Vetterli, M.: A Theory of Multirate Filter B
anks, IEEE Trans. on ASSP, Vol.ASSP-35, No.3, pp.
356-372 (1987)、参照)を構成し、リアルタイムに実行
可能という制約のもとで、ある程度妥当な時間周波数分
解能を得る。
【0015】設計したバイナリツリー状のフィルタバン
クの構成を図2に示す。ツリーの各分岐後において、ア
ンチエリアシングフィルタ(FIRローパスフィルタ)と1/2
ダウンサンプラーによって構成されるデシメータ(decim
ator)によって、音響信号をダウンサンプリングする。
各デシメータのローパスフィルタの遮断周波数は 0.45
fs (fs は各分岐における標本化周波数)である。現在の
実装では、音響信号を標本化周波数 16 kHz、量子化ビ
ット数 16 bitでA/D変換し、それが最終的に標本化周波
数 1kHz までダウンサンプリングされる。STFTの窓幅は
512点で、ツリーのそれぞれの葉において時間遅延を補
償しながら高速フーリエ変換(FFT)によって計算する。
その際、FFTのフレームを16 kHzにおいて160点ずつシフ
トするため、フレームシフト時間(1フレームシフト)は
10 msec となる。このフレームシフトを、すべての処理
の時間単位とする。
【0016】周波数成分の候補の抽出 フィルタの中心周波数からその瞬時周波数への写像に基
づいて、周波数成分の候補を抽出する(Charpentier,
F.J.: Pitch detection using the short-termphase sp
ectrum, Proc. of ICASSP 86, pp.113-116 (1986)参
照)。あるSTFTフィルタの中心周波数 ω からその出力
の瞬時周波数 λ(ω,t) への写像を考える。すると、も
し周波数 ψ の周波数成分があるときには、ψ がこの
写像の不動点に位置し、その周辺の瞬時周波数の値はほ
ぼ一定となる。つまり、全周波数成分の瞬時周波数Ψf
(t) は、次式によって抽出することができる。
【0017】
【数6】 これらの周波数成分のパワーは、Ψf (t)の各周波数にお
けるSTFTパワースペクトルの値として得られるため、周
波数成分のパワー分布関数 Ψp (t)(ω) を次のように定
義できる。
【数7】
【0018】周波数帯域の制限 抽出した周波数成分に重み付けすることで、周波数帯域
を制限する。ここでは、メロディーラインとベースライ
ン用に、二種類のバンドパスフィルタ(BPF)を用意す
る。メロディーライン用のBPFは、典型的なメロディー
ラインの主要な高調波成分の多くを通過させることがで
き、かつ、基本周波数付近の重複が頻繁に起きる周波数
帯域をある程度遮断できるように設計する。一方、ベー
スライン用のBPFは、典型的なベースラインの主要な高
調波成分の多くを通過させることができ、かつ、他の演
奏パートがベースラインよりも優勢になるような周波数
帯域をある程度遮断できるように設計する。
【0019】現在の実装で用いたBPFの周波数応答を図
3に示す。本稿では以下、対数スケールの周波数をcent
の単位(本来は音高差(音程)を表す尺度)で表し、Hzで表
された周波数 fHz を、次のようにcentで表された周波
数 fcent に変換する。
【数8】
【数9】 平均律の半音は100 centに、1オクターブは1200 centに
相当する。
【0020】周波数 x centでのBPFの周波数応答を BPF
i(x)(i = m,b) とし、周波数成分のパワー分布関数を
Ψ'p (t)(x) とすると、BPFを通過した周波数成分はBPFi
(x)Ψ'p (t)(x) と表せる。ただし、Ψ'p (t)(x) は、周
波数軸がcentで表されていることを除けばΨp (t)(ω)
と同じ関数である。ここで、次の段階の準備として、BP
Fを通過した周波数成分の確率密度関数 pΨ (t)(x)を定
義する。
【0021】
【数10】 Pow(t) はBPFを通過した周波数成分のパワーの合計を表
す。
【数11】
【0022】基本周波数の確率密度関数の推定 それぞれのBPFを通過した周波数成分の候補に対し、各
高調波構造が相対的にどれくらい優勢かを表す基本周波
数の確率密度関数を求める。そのために本手法では、周
波数成分の確率密度関数 pΨ (t)(x) が、高調波構造を
持つ音をモデル化した確率分布(音モデル)の混合分布モ
デル(重み付き和のモデル)から生成されたと考える。基
本周波数が F の音モデルの確率密度関数を p(x|F) と
すると、その混合分布モデル p(x;θ(t)) は次式で定義
できる。
【0023】
【数12】
【数13】 ここで、 Fhi と Fli は、許容される基本周波数の上限
と下限であり、w(t)(F)は、次式を満たすような、音モ
デル p(x|F) の重みである。
【数14】 CD等による実世界の音響信号に対して事前に音源数を仮
定することは不可能なため、このように、あらゆる基本
周波数の可能性を同時に考慮してモデル化することが重
要となる。もし、観測した周波数成分 pΨ (t)(x) がモ
デル p(x;θ(t))から生成されたかのようにモデルパラ
メータ θ(t) を推定できれば、pΨ (t)(x) は個々の音
モデルへと分解されたとみなすことができ、その重み w
(t)(F) を、基本周波数の確率密度関数 pFO (t)(F) と解
釈することができる。
【0024】
【数15】 つまり、混合分布中において、ある音モデル p(x|F) が
優勢になればなるほど(w (t)(F)が大きくなるほど)、pFO
(t)(F) において、そのモデルの基本周波数 F の確率が
高くなる。
【0025】以上から、確率密度関数 pΨ (t)(x) を観
測したときに、そのモデル p(x;θ( t)) のパラメータ
θ(t) を推定する問題を解けばよいことがわかる。θ
(t) の最尤推定量は、次式で定義される平均対数尤度を
最大化することで得られる。
【数16】
【0026】この最大化問題は解析的に解くことが困難
なため、前述のEM(Expectation-Maximization)アルゴリ
ズムを用いて θ(t) を推定する。EMアルゴリズムは、E
ステップ(expectationstep)とMステップ(maximization
step)を交互に繰返し適用することで、不完全な観測デ
ータ(この場合、pΨ (t)(x)から最尤推定をおこなうた
めの反復アルゴリズムである。ここでは各繰返しにおい
て、パラメータ θ(t)に関して、古いパラメータ推定値
θ'(t) を更新して新しい(より尤もらしい)パラメー
タ推定値
【数28】 を求めていく。θ'(t) の初期値には、一つ前の時刻 t
-1 における最終的な推定値を用いる。
【0027】周波数 x において観測した各周波数成分
が、どの音モデルから生成されたのかを表す隠れ変数
(観測できない変数) F を導入して、EMアルゴリズムを
以下のように定式化することができる。
【0028】1.(Eステップ) 平均対数尤度の条件付き期待値 Q(θ(t) |θ'(t) ) を
計算する。
【数17】 ここで、条件付き期待値 EF[a|b] は、条件 b により決
定される確率分布を持つ隠れ変数 F に関する、a の期
待値を意味する。 2.(Mステップ) Q(θ(t) |θ'(t) )をθ(t) の関数として最大化して、
更新後の新しい推定値
【数29】 を得る。
【数18】 Eステップにおいて、式(17)より
【数19】 が得られる。この式中の完全データの対数尤度は
【数20】 で与えられる。次に、Mステップに関しては、式(1
8)が式(14)を条件とする条件付き変分問題となっ
ている。この問題は、Lagrangeの乗数 λ を導入し、次
のEuler-Lagrangeの微分方程式を用いて解くことができ
る。
【0029】
【数21】 これより、
【数22】 が得られる。この式において、λ は式(14)からλ
= 1 と定まり、p(F|x ; θ'(t))はベイズの定理から、
【数23】 となる。ここで、w'(t)(F) は古いパラメータ推定値で
ある(θ'(t) = w'(t)(F))。以上から、新しいパラメー
タ推定値
【数30】 を求める式は次のようになる。
【数24】
【0030】式(24)を計算するためには、音モデル
の確率密度関数 p(x|F) を仮定する必要がある。これ
は、基本周波数が F のときに、その高調波成分がどの
周波数にどれくらい現れるかをモデル化したものであ
る。本研究では、メロディーライン (i = m) とベース
ライン (i = b) 用に、次のような高調波構造の音モデ
ルを仮定する。
【0031】
【数25】
【数26】 ここで、α は正規化係数、Ni は考慮する高調波成分の
数(基本周波数成分も数える)、 Wi 2 はガウス分布 G(x;
m,σ) の分散を表す。c(h) は、第h次高調波成分の振
幅を決める関数で、本研究では c(h) = G(h; 1, Hi) (H
i は定数)とする。この音モデルは、実世界の音響信号
中の高調波構造と完全には一致しないが、高調波構造が
相対的にどれくらい優勢かを評価する目的においては有
効に機能する。また、高調波構造に限定されておらず、
あらゆる音モデルを適用可能である。例えば、音記憶を
導入することで、よりある楽器に特化した処理も実現で
きる。
【0032】最も優勢な基本周波数 Fi(t) を決定する
には、基本周波数の確率密度関数pF0 (t)(F) (式(1
5)より、式(24)を反復計算した最終的な推定値と
して得られる)を最大にする周波数を求めればよい。
【数27】 こうして得られた周波数を求める音高としてもよい。た
だし、基本周波数の確率密度関数において、同時に鳴っ
ている音の基本周波数に対応する複数のピークが拮抗す
ると、それらのピークが確率密度関数の最大値として次
々に選ばれてしまうことがあるため、このように単純に
求めた結果は安定しないことがある。したがって、次節
で述べるように、基本周波数に対応するピークの時間的
な連続性を考慮するとよい。
【0033】マルチエージェントモデルによる基本周波
数の継時的な追跡 大局的な観点から基本周波数を推定するために、基本周
波数の確率密度関数の時間変化において複数のピークの
軌跡を継時的に追跡し、その中で最も優勢で安定した基
本周波数の軌跡を選択する。このような追跡処理を動的
で柔軟に制御するために、マルチエージェントモデルを
導入する。
【0034】提案するマルチエージェントモデルは、一
つの特徴検出器と複数のエージェントで構成される(図
4)。特徴検出器は、基本周波数の確率密度関数の中で
目立つピークを拾い上げる。エージェントは基本的に、
それらのピークに駆動されて軌跡を追跡していく。つま
り、ここで提案するマルチエージェントモデルは、入力
中で目立つ特徴を時間的に追跡する汎用の枠組みであ
る。具体的には、各時刻において以下の処理がおこなわ
れる。
【0035】(1)基本周波数の確率密度関数が求まった
後、特徴検出器は目立つピーク(最大ピークに応じて動
的に変化する閾値を越えたピーク)を複数検出する。そ
して、目立つピークのそれぞれについて、周波数成分の
パワーの合計 Pow(t) も考慮しながら、どれくらい将来
有望なピークかを評価する。これは、現在時刻を数フレ
ーム先の時刻とみなして、ピークの軌跡をその時刻まで
先読みして追跡することで実現する。
【0036】(2)既に生成されたエージェントがあると
きは、それらが相互作用しながら、目立つピークをそれ
に近い軌跡を持つエージェントへと排他的に割り当て
る。複数のエージェントが割り当て候補に上がる場合に
は、最も信頼度の高いエージェントへと割り当てる。
【0037】(3)最も有望で目立つピークがまだ割り当
てられていないときは、そのピークを追跡する新たなエ
ージェントを生成する。
【0038】(4)各エージェントは累積ペナルティーを
持っており、それが一定の閾値を越えると消滅する。
【0039】(5)目立つピークが割り当てられなかった
エージェントは、一定のペナルティーを受け、基本周波
数の確率密度関数の中から自分の追跡する次のピークを
直接見つけようとする。もしそのピークも見つからない
ときは、さらにペナルティーを受ける。さもなければ、
ペナルティーはリセットされる。
【0040】(6)各エージェントは、今割り当てられた
ピークがどれくらい有望で目立つかを表す度合いと、一
つ前の時刻の信頼度との重み付き和によって、信頼度を
自己評価する。
【0041】(7)時刻tにおける基本周波数 Fi(t) は、
信頼度が高く、追跡しているピークの軌跡に沿ったパワ
ーの合計が大きいエージェントに基づいて決定する。振
幅 Ai(t)は、基本周波数 Fi(t) の高調波成分をΨ
p (t)(ω) から抽出して決定する。
【0042】
【実施例】音楽音響信号を入力し、推定したメロディー
ラインとベースラインをリアルタイムに出力するシステ
ムを、提案した手法に基づいて構築した(パラメータの
値を表1に示す)。出力形式として、視覚化のためのコ
ンピュータグラフィックス、聴覚化のための音響信号、
アプリケーションで使用するための連続的に変化する数
値(タイムスタンプ付き)の三種類に対応した。コンピュ
ータグラフィックスの出力では、時間周波数平面上をス
クロールする音高の軌跡を表示するウィンドウと、それ
と同期してスクロールする周波数成分の候補を表示する
ウィンドウが提示される(図5)。音響信号の出力では、
検出した Di(t) の高調波成分に基づいて、正弦波重畳
モデルを用いて合成する。
【0043】 表1:パラメータの値 Fhm = 9600 cent (4186 Hz) Fhb = 4800 cent (261.6 Hz) Flm = 3600 cent (130.8 Hz) Flb = 1000 cent (29.14 Hz) Nm = 16 Nb = 6 Wm = 17 cent Wb = 17 cent Hm = 5.5 Hb = 2.7
【0044】本システムを分散環境で実装し、音響信号
の入出力、前述した手法の計算、中間結果や出力の視覚
化といったシステムを構成する各機能を、LAN (Etherne
t)上に分散した異なるプロセスとして実行できるように
した。その際、システムの拡張やアプリケーションの開
発を容易にするために、RACP (Remote Audio ControlPr
otocol)を設計し、それに基づいて実装した。RACPは、R
MCP (Remote Music Control Protocol) (後藤真孝, 根
山亮, 村岡洋一: RMCP: 遠隔音楽制御用プロトコルを中
心とした音楽情報処理, 情報処理学会論文誌, Vol.40,
No.3, pp.1335-1345 (1999)、参照)を音響信号の伝送
用に拡張したネットワークプロトコルである。提案手法
の計算はパーソナルコンピュータ(Pentium II 450 MHz
CPU x2, Linux 2.2)上で実行され、音響信号の入出力や
視覚化の処理はワークステーション(SGI Octane R10000
250 MHz CPU, Irix 6.4)上で実行される。
【0045】ポピュラー音楽、ジャズ、クラシックの楽
曲10曲を用いて、システムの動作を確認する実験をおこ
なった.入力は市販のCDからサンプリングしたモノラル
の音響信号で、それぞれが単音のメロディーと複数種類
の楽器音を含んでいる。
【0046】実験の結果、各曲の多くの部分において、
歌声や中域の単音楽器によるメロディーラインと、ベー
スギターやコントラバスによるベースラインを正しく検
出できた。
【0047】
【発明の効果】本発明は、基本周波数成分の有無を問わ
ず、意図的に制限した周波数帯域から得られる部分情報
だけを利用して、ロバストに優勢な音高の軌跡を推定で
きる特長を持つ。音源数を仮定せずに混合音をモデル化
し、EMアルゴリズムを適用することで、各高調波構造が
相対的にどれくらい優勢かを表す基本周波数の確率密度
関数を推定することができた。さらに、マルチエージェ
ントモデルを導入することで、基本周波数の時間的な連
続性を考慮しながら、優勢で安定な音高の軌跡を得るこ
とができた。
【図面の簡単な説明】
【図1】本発明で提案する、最も優勢な音高を推定する
手法の処理の流れを示す図である。
【図2】バイナリツリー状のフィルタバンクの構成を示
す図である。
【図3】バンドパスフィルタ(BPF)の周波数応答を示す
図である。
【図4】一つの特徴検出器と複数のエージェントで構成
されるマルチエージェントモデルによる基本周波数の経
時的な追跡を示す図である。
【図5】ウインドウの画面表示例を示す図である。
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10G 3/04 G10H 1/00

Claims (8)

    (57)【特許請求の範囲】
  1. 【請求項1】多数の音源の音が混ざり合った入力音響信
    号に対してその中のある特定の音源の基本周波数を推定
    して出力する音高推定方法において、前記入力音響信号
    に対して前記多数の音源の音の高調波成分となるべき周
    波数成分の候補を瞬時周波数とパワーとして抽出し、前
    記周波数成分の候補に基づいて、それらの周波数成分の
    候補が高調波成分として支持する高調波構造の基本周波
    数の確率密度関数を推定し、前記確率密度関数の中でピークを複数検出し、それぞれ
    のピークの信頼度に基づき信頼度が高くパワーの大きい
    基本周波数を出力することから成る音高推定方法。
  2. 【請求項2】前記周波数成分の候補は、バンドパスフィ
    ルタで帯域制限して抽出する請求項1に記載の音高推定
    方法。
  3. 【請求項3】前記基本周波数の出力は、マルチエージェ
    ントモデルを導入し、確率密度関数の中で所定の基準を
    満たす各ピークの軌跡を異なるエージェントが追跡し
    て、信頼度が高くパワーの大きいエージェントが持つ基
    本周波数の軌跡を出力する請求項1又は2に記載の音高
    推定方法。
  4. 【請求項4】前記帯域制限は、メロディーライン用とベ
    ースライン用の2種類のバンドパスフィルタを適用し、
    それぞれの出力に基づいてメロディーとベースの音高を
    求める請求項2に記載の音高推定方法。
  5. 【請求項5】多数の音源の音が混ざり合った入力音響信
    号に対してその中のある特定の音源の基本周波数を推定
    して出力する音高推定装置において、前記入力音響信号
    に対して前記多数の音源の音の高調波成分となるべき周
    波数成分の候補を瞬時周波数とパワーとして抽出する手
    段と、前記周波数成分の候補に基づいて、それらの周波
    数成分の候補が高調波成分として支持する高調波構造の
    基本周波数の確率密度関数を推定する手段と、前記確率密度関数の中でピークを複数検出し、それぞれ
    のピークの信頼度に基づき信頼度が高くパワーの大きい
    基本周波数を出力する手段と、から成る音高推定装置。
  6. 【請求項6】前記周波数成分の候補は、バンドパスフィ
    ルタで帯域制限して 抽出する請求項5に記載の音高推定
    装置。
  7. 【請求項7】前記基本周波数の出力は、マルチエージェ
    ントモデルを導入し、確率密度関数の中で所定の基準を
    満たす各ピークの軌跡を異なるエージェントが追跡し
    て、信頼度が高くパワーの大きいエージェントが持つ基
    本周波数の軌跡を出力する請求項5又は6に記載の音高
    推定装置。
  8. 【請求項8】前記帯域制限は、メロディーライン用とベ
    ースライン用の2種類のバンドパスフィルタを適用し、
    それぞれの出力に基づいてメロディーとベースの音高を
    求める請求項6に記載の音高推定装置。
JP30577099A 1999-10-27 1999-10-27 音高推定方法及び装置 Expired - Lifetime JP3413634B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP30577099A JP3413634B2 (ja) 1999-10-27 1999-10-27 音高推定方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP30577099A JP3413634B2 (ja) 1999-10-27 1999-10-27 音高推定方法及び装置

Publications (2)

Publication Number Publication Date
JP2001125562A JP2001125562A (ja) 2001-05-11
JP3413634B2 true JP3413634B2 (ja) 2003-06-03

Family

ID=17949145

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30577099A Expired - Lifetime JP3413634B2 (ja) 1999-10-27 1999-10-27 音高推定方法及び装置

Country Status (1)

Country Link
JP (1) JP3413634B2 (ja)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006106946A1 (ja) * 2005-04-01 2006-10-12 National Institute Of Advanced Industrial Science And Technology 音高推定方法及び装置並びに音高推定用プログラム
JPWO2005066927A1 (ja) * 2004-01-09 2007-12-20 株式会社東京大学Tlo 多重音信号解析方法
JP2008058885A (ja) * 2006-09-04 2008-03-13 National Institute Of Advanced Industrial & Technology 音高推定装置、音高推定方法およびプログラム
JP2008058754A (ja) * 2006-09-01 2008-03-13 National Institute Of Advanced Industrial & Technology 音分析装置およびプログラム
JP2008058755A (ja) * 2006-09-01 2008-03-13 National Institute Of Advanced Industrial & Technology 音分析装置およびプログラム
JP2008058886A (ja) * 2006-09-04 2008-03-13 National Institute Of Advanced Industrial & Technology 音高推定装置、音高推定方法およびプログラム
JP2008058753A (ja) * 2006-09-01 2008-03-13 National Institute Of Advanced Industrial & Technology 音分析装置およびプログラム
EP1962274A2 (en) 2007-02-26 2008-08-27 National Institute of Advanced Industrial Science and Technology Sound analysis apparatus and programm
JP2008209547A (ja) * 2007-02-26 2008-09-11 National Institute Of Advanced Industrial & Technology 音高推定装置、音高推定方法およびプログラム
JP2008209546A (ja) * 2007-02-26 2008-09-11 National Institute Of Advanced Industrial & Technology 音高推定装置、音高推定方法およびプログラム
JP2008209579A (ja) * 2007-02-26 2008-09-11 National Institute Of Advanced Industrial & Technology 音分析装置およびプログラム
JP2008209550A (ja) * 2007-02-26 2008-09-11 National Institute Of Advanced Industrial & Technology 和音判別装置、和音判別方法およびプログラム
JP2008209548A (ja) * 2007-02-26 2008-09-11 National Institute Of Advanced Industrial & Technology 音高推定装置、音高推定方法およびプログラム
WO2008133097A1 (ja) * 2007-04-13 2008-11-06 Kyoto University 音源分離システム、音源分離方法及び音源分離用コンピュータプログラム
JP2009244703A (ja) * 2008-03-31 2009-10-22 Brother Ind Ltd 楽曲編集システムおよびプログラム
JP2010286857A (ja) * 2010-08-25 2010-12-24 National Institute Of Advanced Industrial Science & Technology 音高推定装置、音高推定方法およびプログラム

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3674950B2 (ja) * 2002-03-07 2005-07-27 ヤマハ株式会社 音楽データのテンポ推定方法および装置
JP4179091B2 (ja) * 2003-07-28 2008-11-12 日本電気株式会社 電力分配回路及び周波数逓倍器
WO2005066927A1 (ja) * 2004-01-09 2005-07-21 Toudai Tlo, Ltd. 多重音信号解析方法
US7598447B2 (en) * 2004-10-29 2009-10-06 Zenph Studios, Inc. Methods, systems and computer program products for detecting musical notes in an audio signal
KR101244232B1 (ko) * 2005-05-27 2013-03-18 오디언스 인코포레이티드 오디오 신호 분석 및 변경을 위한 시스템 및 방법
JP4624879B2 (ja) * 2005-07-07 2011-02-02 株式会社エクシング 楽音情報発生プログラムおよび楽音情報発生装置
JP2007240552A (ja) * 2006-03-03 2007-09-20 Kyoto Univ 楽器音認識方法、楽器アノテーション方法、及び楽曲検索方法
US8005666B2 (en) 2006-10-24 2011-08-23 National Institute Of Advanced Industrial Science And Technology Automatic system for temporal alignment of music audio signal with lyrics
JP5088030B2 (ja) 2007-07-26 2012-12-05 ヤマハ株式会社 演奏音の類似度を評価する方法、装置およびプログラム
JP5046211B2 (ja) 2008-02-05 2012-10-10 独立行政法人産業技術総合研究所 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法
JP5593608B2 (ja) * 2008-12-05 2014-09-24 ソニー株式会社 情報処理装置、メロディーライン抽出方法、ベースライン抽出方法、及びプログラム
JP5747562B2 (ja) 2010-10-28 2015-07-15 ヤマハ株式会社 音響処理装置
JP6035702B2 (ja) 2010-10-28 2016-11-30 ヤマハ株式会社 音響処理装置および音響処理方法
KR20180088184A (ko) 2017-01-26 2018-08-03 삼성전자주식회사 전자 장치 및 그 제어 방법
JP2020003536A (ja) * 2018-06-25 2020-01-09 カシオ計算機株式会社 学習装置、自動採譜装置、学習方法、自動採譜方法及びプログラム

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2005066927A1 (ja) * 2004-01-09 2007-12-20 株式会社東京大学Tlo 多重音信号解析方法
WO2006106946A1 (ja) * 2005-04-01 2006-10-12 National Institute Of Advanced Industrial Science And Technology 音高推定方法及び装置並びに音高推定用プログラム
GB2440079A (en) * 2005-04-01 2008-01-16 Nat Inst Of Advanced Ind Scien Pitch estimating method and device and pitch estimating program
GB2440079B (en) * 2005-04-01 2009-07-29 Nat Inst Of Advanced Ind Scien Pitch estimating method and device and pitch estimating program
JP2008058754A (ja) * 2006-09-01 2008-03-13 National Institute Of Advanced Industrial & Technology 音分析装置およびプログラム
JP2008058755A (ja) * 2006-09-01 2008-03-13 National Institute Of Advanced Industrial & Technology 音分析装置およびプログラム
JP2008058753A (ja) * 2006-09-01 2008-03-13 National Institute Of Advanced Industrial & Technology 音分析装置およびプログラム
JP4660739B2 (ja) * 2006-09-01 2011-03-30 独立行政法人産業技術総合研究所 音分析装置およびプログラム
US7754958B2 (en) 2006-09-01 2010-07-13 Yamaha Corporation Sound analysis apparatus and program
JP4625934B2 (ja) * 2006-09-01 2011-02-02 独立行政法人産業技術総合研究所 音分析装置およびプログラム
JP4625933B2 (ja) * 2006-09-01 2011-02-02 独立行政法人産業技術総合研究所 音分析装置およびプログラム
JP2008058886A (ja) * 2006-09-04 2008-03-13 National Institute Of Advanced Industrial & Technology 音高推定装置、音高推定方法およびプログラム
US8543387B2 (en) 2006-09-04 2013-09-24 Yamaha Corporation Estimating pitch by modeling audio as a weighted mixture of tone models for harmonic structures
JP4630980B2 (ja) * 2006-09-04 2011-02-09 独立行政法人産業技術総合研究所 音高推定装置、音高推定方法およびプログラム
JP4630979B2 (ja) * 2006-09-04 2011-02-09 独立行政法人産業技術総合研究所 音高推定装置、音高推定方法およびプログラム
JP2008058885A (ja) * 2006-09-04 2008-03-13 National Institute Of Advanced Industrial & Technology 音高推定装置、音高推定方法およびプログラム
JP4625935B2 (ja) * 2007-02-26 2011-02-02 独立行政法人産業技術総合研究所 音分析装置およびプログラム
JP4630983B2 (ja) * 2007-02-26 2011-02-09 独立行政法人産業技術総合研究所 音高推定装置、音高推定方法およびプログラム
EP1962274A2 (en) 2007-02-26 2008-08-27 National Institute of Advanced Industrial Science and Technology Sound analysis apparatus and programm
JP2008209547A (ja) * 2007-02-26 2008-09-11 National Institute Of Advanced Industrial & Technology 音高推定装置、音高推定方法およびプログラム
JP2008209548A (ja) * 2007-02-26 2008-09-11 National Institute Of Advanced Industrial & Technology 音高推定装置、音高推定方法およびプログラム
JP2008209550A (ja) * 2007-02-26 2008-09-11 National Institute Of Advanced Industrial & Technology 和音判別装置、和音判別方法およびプログラム
JP2008209579A (ja) * 2007-02-26 2008-09-11 National Institute Of Advanced Industrial & Technology 音分析装置およびプログラム
JP4630981B2 (ja) * 2007-02-26 2011-02-09 独立行政法人産業技術総合研究所 音高推定装置、音高推定方法およびプログラム
JP2008209546A (ja) * 2007-02-26 2008-09-11 National Institute Of Advanced Industrial & Technology 音高推定装置、音高推定方法およびプログラム
JP4630982B2 (ja) * 2007-02-26 2011-02-09 独立行政法人産業技術総合研究所 音高推定装置、音高推定方法およびプログラム
WO2008133097A1 (ja) * 2007-04-13 2008-11-06 Kyoto University 音源分離システム、音源分離方法及び音源分離用コンピュータプログラム
JP5201602B2 (ja) * 2007-04-13 2013-06-05 国立大学法人京都大学 音源分離システム、音源分離方法及び音源分離用コンピュータプログラム
JP2009244703A (ja) * 2008-03-31 2009-10-22 Brother Ind Ltd 楽曲編集システムおよびプログラム
JP2010286857A (ja) * 2010-08-25 2010-12-24 National Institute Of Advanced Industrial Science & Technology 音高推定装置、音高推定方法およびプログラム

Also Published As

Publication number Publication date
JP2001125562A (ja) 2001-05-11

Similar Documents

Publication Publication Date Title
JP3413634B2 (ja) 音高推定方法及び装置
Goto A real-time music-scene-description system: Predominant-F0 estimation for detecting melody and bass lines in real-world audio signals
EP1895506B1 (en) Sound analysis apparatus and program
Goto A robust predominant-F0 estimation method for real-time detection of melody and bass lines in CD recordings
US9111526B2 (en) Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal
Holzapfel et al. Three dimensions of pitched instrument onset detection
KR101564151B1 (ko) 시간 변화 정보를 갖는 기저 함수를 사용한 음악 신호의 분해
Pertusa et al. Multiple fundamental frequency estimation using Gaussian smoothness
JP2008209572A (ja) 演奏判定装置およびプログラム
Ryynanen et al. Accompaniment separation and karaoke application based on automatic melody transcription
Argenti et al. Automatic transcription of polyphonic music based on the constant-Q bispectral analysis
Benetos et al. Auditory spectrum-based pitched instrument onset detection
Goto A predominant-f0 estimation method for real-world musical audio signals: MAP estimation for incorporating prior knowledge about f0s and tone models
WO2005062291A1 (ja) 信号解析方法
JP4625933B2 (ja) 音分析装置およびプログラム
Amado et al. Pitch detection algorithms based on zero-cross rate and autocorrelation function for musical notes
Chanrungutai et al. Singing voice separation for mono-channel music using non-negative matrix factorization
Rigaud et al. Drum extraction from polyphonic music based on a spectro-temporal model of percussive sounds
Gurunath Reddy et al. Predominant melody extraction from vocal polyphonic music signal by time-domain adaptive filtering-based method
Villavicencio et al. Efficient pitch estimation on natural opera-singing by a spectral correlation based strategy
Woodruff et al. Resolving overlapping harmonics for monaural musical sound separation using pitch and common amplitude modulation
Theimer et al. Definitions of audio features for music content description
Paradzinets et al. Use of continuous wavelet-like transform in automated music transcription
Verma et al. Real-time melodic accompaniment system for indian music using tms320c6713
Pardo et al. Applying source separation to music

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
R150 Certificate of patent or registration of utility model

Ref document number: 3413634

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090404

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100404

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110404

Year of fee payment: 8

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110404

Year of fee payment: 8

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130404

Year of fee payment: 10

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130404

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140404

Year of fee payment: 11

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term