JP4625935B2 - 音分析装置およびプログラム - Google Patents

音分析装置およびプログラム Download PDF

Info

Publication number
JP4625935B2
JP4625935B2 JP2007045236A JP2007045236A JP4625935B2 JP 4625935 B2 JP4625935 B2 JP 4625935B2 JP 2007045236 A JP2007045236 A JP 2007045236A JP 2007045236 A JP2007045236 A JP 2007045236A JP 4625935 B2 JP4625935 B2 JP 4625935B2
Authority
JP
Japan
Prior art keywords
probability density
density function
sound
fundamental frequency
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007045236A
Other languages
English (en)
Other versions
JP2008209579A (ja
Inventor
真孝 後藤
琢哉 藤島
慶太 有元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
Yamaha Corp
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp, National Institute of Advanced Industrial Science and Technology AIST filed Critical Yamaha Corp
Priority to JP2007045236A priority Critical patent/JP4625935B2/ja
Publication of JP2008209579A publication Critical patent/JP2008209579A/ja
Application granted granted Critical
Publication of JP4625935B2 publication Critical patent/JP4625935B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)

Description

この発明は、市販のCD(compact disc)などに収録されている、歌声や複数種類の楽器音を同時に含む音楽音響信号を対象に、メロディ音やベース音の音高(本明細書では基本周波数の意味で用いる)を推定する音分析装置およびプログラムに関する。
多数の音源の音が混ざり合ったモノラルの音響信号中から、ある特定の音源の音高を推定することは、非常に困難である。混合音に対して音高推定することが難しい本質的な理由の1つに、時間周波数領域において、ある音の周波数成分が同時に鳴っている他の音の周波数成分と重複することが挙げられる。例えば、歌声、鍵盤楽器(ピアノ等)、ギター、ベースギター、ドラムス等で演奏される典型的なポピュラー音楽では、メロディを担う歌声の高調波構造の一部(特に基本周波数成分)は、鍵盤楽器、ギターの高調波成分やベースギターの高次の高調波成分、スネアドラム等の音に含まれるノイズ成分などと頻繁に重複する。そのため、各周波数成分を局所的に追跡するような手法は、複雑な混合音に対しては安定して機能しない。基本周波数成分が存在することを前提に高調波構造を推定する手法もあるが、そのような手法は、ミッシングファンダメンタル(missing fundamental)現象を扱えないという大きな欠点を持つ。さらに、同時に鳴っている他の音の周波数成分が基本周波数成分と重複すると、有効に機能しない。
以上のような理由により、従来、単一音のみか、非周期的な雑音を伴った単一音を収録した音響信号を対象とした音高の推定技術はあったが、市販のCDに記録された音響信号のように複数の音が混ざり合ったものについて音高を推定する技術はなかった。
しかしながら、近年、統計的手法を利用することにより、混合音に含まれる各音の音高を適切に推定する技術が提案されるに至った。特許文献1の技術である。
この特許文献1の技術では、メロディ音のものと考えられる帯域に属する周波数成分と、ベース音のものと考えられる帯域に属する周波数成分とを入力音響信号からBPFにより別々に取り出し、それらの各帯域の周波数成分に基づき、メロディ音およびベース音の各々の基本周波数の推定を行う。
さらに詳述すると、特許文献1の技術では、音の高調波構造に対応した確率分布を持った音モデルを用意し、メロディ音の帯域の各周波数成分、ベース音の帯域の各周波数成分が、様々な基本周波数に対応した各音モデルを重み付け加算した混合分布であると考える。そして、各音モデルの重みの値をEM(Expectation−Maximization)アルゴリズムを用いて推定する。
このEMアルゴリズムは、隠れ変数を含む確率モデルに対して最尤推定を行うための反復アルゴリズムであり、局所最適解を求めることができる。ここで、最も大きな重みの値を持つ確率分布は、その時点で最も優勢な高調波構造であるとみなすことができるため、あとはその優勢な高調波構造における基本周波数を音高として求めればよい。この手法は基本周波数成分の存在に依存しないため、ミッシングファンダメンタル現象も適切に扱うことができ、基本周波数成分の存在に依存せずに、最も優勢な高調波構造を求めることができる。
特許第3413634号 特許第3660599号
ところで、上述した従来の音分析装置では、入力音響信号を一定時間長のフレームに分割し、フレーム単位でEMアルゴリズムを実行し、音源の音の基本周波数の推定を行っていた。また、各フレームにおいて、EMアルゴリズムの繰り返しにより各種の基本周波数の音モデルに対する重み値を更新して最適化する際には、前フレームにおいて推定された重み値の最終値を引き継ぎ、これを初期状態として当該フレームにおけるEMアルゴリズムを実行していた。しかしながら、一般に楽音は、アタック区間において波形が不安定なものとなり易い。このため、従来の音分析装置は、波形が不安定なアタック区間の入力音響信号の基本周波数の推定処理を行うときに、推定処理が不安定な状態に陥り、基本周波数の誤推定が連続して発生し易いという問題があった。
この発明は、以上説明した事情に鑑みてなされたものであり、入力音響信号の波形がアタック区間において不安定なものとなる場合においても、全体としての基本周波数の推定精度を高めることができる音分析装置および音分析プログラムを提供することを目的としている。
この発明は、入力音響信号を所定時間長のフレームに分割し、フレーム毎に入力音響信号がアタック区間の信号であるか否かを判定するアタック検出手段と、フレーム毎に、各々音源の音の高調波構造に対応した構造を有する確率密度関数である音モデルを使用して、各種の基本周波数に対応した複数の音モデルを重み付け加算した混合分布を構成し、この混合分布が入力音響信号の周波数成分の分布となるように、各音モデルに対する重み値を逐次更新して最適化し、最適化された各音モデルの重み値を前記音源の音の基本周波数の確率密度関数として推定する確率密度関数推定手段と、前記基本周波数の確率密度関数に基づいて前記入力音響信号に含まれる1または複数の音源の音の基本周波数を推定して出力する基本周波数推定手段と、前記確率密度関数推定手段の処理対象となるフレームがアタック区間のものであるか否かにより前記確率密度関数推定手段における基本周波数の確率密度関数の推定のための演算または前記基本周波数推定手段における基本周波数の推定のための演算の態様を切り換える演算制御手段とを具備することを特徴とする音分析装置並びにコンピュータを前記音分析装置として機能させるコンピュータプログラムを提供する。
かかる発明によれば、確率密度関数推定手段の処理対象となるフレームがアタック区間のものであるか否かにより前記確率密度関数推定手段における基本周波数の確率密度関数の推定のための演算または前記基本周波数推定手段における基本周波数の推定のための演算の態様を切り換える演算制御手段とを設けたので、全体としての基本周波数の推定精度を高めるのに適した適切な演算の態様を選択し、確率密度関数推定手段または基本周波数推定手段に実行させることができ、例えば曲全体としての基本周波数の精度を高めることができる。
以下、図面を参照し、この発明の実施の形態を説明する。
<全体構成>
図1は、この発明の一実施形態による音分析プログラムの処理内容を示す図である。この音分析プログラムは、自然界から音響信号を取得する収音機能、CD等の記録媒体から音楽の音響信号を再生する再生機能またはネットワークを介して音楽の音響信号を取得する通信機能等の音響信号取得機能を備えたパーソナルコンピュータ等のコンピュータにインストールされて実行される。本実施形態による音分析プログラムを実行するコンピュータは、本実施形態による音分析装置として機能する。
本実施形態による音分析プログラムは、音響信号取得機能を介して取得されたモノラルの音楽音響信号に対し、その中のある音源の音高を推定する。その最も重要な例として、ここではメロディラインとベースラインを推定する。メロディは他よりも際立って聞こえる単音の系列、ベースはアンサンブル中で最も低い単音の系列であり、その時間的な変化の軌跡をそれぞれメロディラインDm(t)、ベースラインDb(t)と呼ぶ。時刻tにおける基本周波数F0をFi(t)(i=m,b)、振幅をAi(t)とすると、これらは以下のように表される。
Figure 0004625935

Figure 0004625935
このメロディラインDm(t)およびベースラインDb(t)を入力音響信号から得るための手段として、音分析プログラムは、瞬時周波数の算出1、アタック検出1a、周波数成分の候補の抽出2、周波数帯域の制限3、メロディラインの推定4aおよびベースラインの推定4bの各処理を含む。また、メロディラインの推定4aおよびベースラインの推定4bの各処理は、基本周波数の確率密度関数の推定41およびマルチエージェントモデルによる基本周波数の継時的な追跡42の各処理を各々含む。本実施形態において、瞬時周波数の算出1、周波数成分の候補の抽出2、周波数帯域の制限3の処理内容は、前掲特許文献1に開示されたものと基本的に同様である。本実施形態の特徴は、アタック検出1aを設けた点並びにこのアタック検出1aの処理結果に基づいて制御されるメロディラインの推定4aおよびベースラインの推定4bの処理内容にある。以下、本実施形態による音分析プログラムを構成する各処理の内容を説明する。
<瞬時周波数の算出1>
この瞬時周波数の算出1と、アタック検出1aと、周波数成分の候補の抽出2と、周波数帯域の制限3と、メロディラインの推定4aおよびベースラインの推定4bにおける基本周波数の確率密度関数の推定41の各処理は、時間軸上において音響信号を分割した一定時間長のフレームを単位として実行される。以下において時刻tは、具体的にはフレームの番号である。瞬時周波数の算出1では、入力音響信号を複数のBPFからなるフィルタバンクに与え、フィルタバンクの各BPFの出力信号について、位相の時間微分である瞬時周波数(Flanagan, J.L. and Golden, R.M.: Phase Vocoder, The BellSystem
Technical J., Vol.45, pp.1493-1509 (1966)参照)を計算する。ここでは、上記Flanaganの手法を用い、短時間フーリエ変換(STFT)の出力をフィルタバンク出力と解釈して、効率良く瞬時周波数を計算する。入力音響信号x(t)に対する窓関数h(t)を用いたSTFTが式(3)および(4)により与えられるとき、瞬時周波数λ(ω,t)は式(5)により求めることができる。
Figure 0004625935

Figure 0004625935

Figure 0004625935
ここで、h(t)は時間周波数の局所化を与える窓関数である(例えば、最適な時間周波数の局所化を与えるガウス関数に2階のカーディナルB−スプライン関数を畳み込んで作成した時間窓など)。
この瞬時周波数を計算するのに、ウェーブレット変換を用いても良い。ここでは、計算量を減らすためにSTFTを用いるが、単一のSTFTのみを用いたのでは、ある周波数帯域における時間分解能や周波数分解能が悪くなってしまう。そこで、マルチレートフィルタバンク(Vetterli, M.: A Theory of Multirate Filter Banks, IEEE Trans. on ASSP,
Vol.ASSP-35, No.3, pp. 356-372 (1987)、参照)を構成し、リアルタイムに実行可能という制約のもとで、ある程度妥当な時間周波数分解能を得る。
<アタック検出1a>
この処理では、時間軸上において入力音響信号を分割した各フレームが入力音響信号のアタック区間内のフレームであるか否かの判定を行い、フレーム毎にそのフレームがアタック区間のものか否かを示す情報をメロディラインの推定4aおよびベースラインの推定4bに引き渡す。フレームが入力音響信号のアタック区間のものであるか否かの判定方法には周知の各種の方法があるが、例えば特許文献2に開示されているように、各フレームをより時間長の短い複数の解析区間に分割し、これらの複数の解析区間における音響信号のエネルギーの変動を解析することにより、当該フレームがアタック区間のものか否かを判定することが可能である。
<周波数成分の候補の抽出2>
この処理では、フィルタの中心周波数からその瞬時周波数への写像に基づいて、周波数成分の候補を抽出する(Charpentier, F.J.: Pitch detection using the short-termphase
spectrum, Proc. of ICASSP 86, pp.113-116 (1986)参照)。あるSTFTフィルタの中心周波数ωからその出力の瞬時周波数λ(ω,t)への写像を考える。すると、もし周波数ψの周波数成分があるときには、ψがこの写像の不動点に位置し、その周辺の瞬時周波数の値はほぼ一定となる。つまり、全周波数成分の瞬時周波数Ψf (t)は、次式によって抽出することができる。
Figure 0004625935

これらの周波数成分のパワーは、Ψf (t)の各周波数におけるSTFTパワースペクトルの値として得られるため、周波数成分のパワー分布関数Ψp (t)(ω)を次のように定義することができる。
Figure 0004625935
<周波数帯域の制限3>
この処理では、抽出した周波数成分に重み付けすることで、周波数帯域を制限する。ここでは、メロディラインとベースライン用に、2種類のBPFを用意する。メロディライン用BPFは、典型的なメロディラインの主要な基本波成分および高調波成分の多くを通過させることができ、かつ、基本周波数付近の重複が頻繁に起きる周波数帯域をある程度遮断する。一方、ベースライン用BPFは、典型的なベースラインの主要な基本周波数成分および高調波成分の多くを通過させることができ、かつ、他の演奏パートがベースラインよりも優勢になるような周波数帯域をある程度遮断する。
本実施形態では、以下、対数スケールの周波数をcentの単位(本来は音高差(音程)を表す尺度)で表し、Hzで表された周波数fHzを、次のようにcentで表された周波数fcentに変換する。
Figure 0004625935

Figure 0004625935

平均律の半音は100centに、1オクターブは1200centに相当する。
周波数x centでのBPFの周波数応答をBPFi(x)(i=m,b)とし、周波数成分のパワー分布関数をΨ’ (t)(x)とすると、BPFを通過した周波数成分はBPFi(x)Ψ’ (t)(x)と表すことができる。ただし、Ψ’ (t)(x)は、周波数軸がcentで表されていることを除けばΨ (t)(ω)と同じ関数である。ここで、次の段階の準備として、BPFを通過した周波数成分の確率密度関数pΨ (t)(x)を定義する。
Figure 0004625935
ここで、Pow(t)は次式に示すようにBPFを通過した周波数成分のパワーの合計である。
Figure 0004625935
<基本周波数の確率密度関数の推定41>
この処理では、BPFを通過した周波数成分の候補に対し、各高調波構造が相対的にどれくらい優勢かを表す基本周波数の確率密度関数を求める。そのために、本実施形態では、周波数成分の確率密度関数pΨ (t)(x)が、高調波構造を持つ音をモデル化した確率分布(音モデル)の混合分布モデル(重み付き和のモデル)から生成されたと考える。基本周波数がFの音モデルの確率密度関数をp(x|F)とすると、その混合分布モデルp(x;θ(t))は、次式により定義することができる。
Figure 0004625935

Figure 0004625935
ここで、FhiとFliは、許容される基本周波数の上限と下限であり、BPFの通過帯域により決定される。また、w(t)(F)は、次式を満たすような、音モデルp(x|F)の重みである。
Figure 0004625935
CD等による実世界の音響信号に対して事前に音源数を仮定することは不可能なため、このように、あらゆる基本周波数の可能性を同時に考慮してモデル化することが重要となる。もし、観測した周波数成分pΨ (t)(x)がモデルp(x;θ(t))から生成されたかのようにモデルパラメータθ(t)を推定できれば、pΨ (t)(x)は個々の音モデルへと分解されたとみなすことができ、次式に示すように、各基本周波数Fの音モデルに対する重みw(t)(F)を、基本周波数Fの確率密度関数pFO (t)(F)と解釈することができる。
Figure 0004625935
つまり、混合分布中において、ある音モデルp(x|F)が優勢になればなるほど(すなわち、w(t)(F)が大きくなるほど)、pFO(t)(F)において、そのモデルの基本周波数Fの確率が高くなる。
以上から、確率密度関数pΨ (t)(x)を観測したときに、そのモデルp(x;θ(t))のパラメータθ(t)を推定する問題を解けばよいことがわかる。θ(t)の最尤推定量は、次式で定義される平均対数尤度を最大化することで得られる。
Figure 0004625935
この最大化問題は解析的に解くことが困難なため、前述のEM(Expectation−Maximization)アルゴリズムを用いてθ(t)を推定する。EMアルゴリズムは、Eステップ(expectation step)とMステップ(maximization step)を交互に繰返し適用することで、不完全な観測データ(この場合、pΨ (t)(x))から最尤推定をおこなうための反復アルゴリズムである。本実施形態では、EMアルゴリズムを繰り返すことにより、BPFを通過した周波数成分の確率密度関数pΨ (t)(x)を、各種の基本周波数Fに対応した複数の音モデルp(x|F)を重み付け加算した混合分布と考える場合において、最も尤もらしい重みのパラメータθ(t)(={w(t)(F)|Fli≦F≦Fhi}を求める。ここで、EMアルゴリズムの各繰り返しでは、パラメータθ(t)(={w(t)(F)|Fli≦F≦Fhi})に関して、古いパラメータ推定値θold (t)(={wold (t)(F)|Fli≦F≦Fhi})を更新して新しい(より尤もらしい)パラメータ推定値θnew (t)(={wnew (t)(F)|Fli≦F≦Fhi})を求めていく。この古いパラメータ推定値θold (t)から新しいパラメータ推定値θnew (t)を求める漸化式は、次のようになる。なお、この漸化式の導出過程は特許文献1に詳細に説明されているので、そちらを参照されたい。
Figure 0004625935
図2は、本実施形態において音モデルp(x|F)に対する重みのパラメータθ(t)(={w(t)(F)|Fli≦F≦Fhi}がEMアルゴリズムにより更新される過程を例示したものである。なお、図2では、図示を簡素化するために、周波数成分の数が4個である音モデルを使用した場合の例が示されている。
本実施形態におけるEMアリゴリズムでは、各基本周波数Fに対応した音モデルp(x|F)と現状における各音モデルに対する重み値wold (t)(F)とに基づき、次式に従い、周波数x毎に各音モデルに対応したスペクトル分配比を求める。
Figure 0004625935
上記式(18)に示すように、ある周波数xにおける各音モデルp(x|F)に対応したスペクトル分配比(x|F)は、重み値wold(F)(t)の乗算された各音モデルp(x|F)の周波数xにおける各振幅値wold(F)(t)p(x|F)の総和(式(18)における分母の積分値に相当)を求め、その総和により各振幅値wold(F)(t)p(x|F)を除算することにより得られる。式(18)から明らかなように、各周波数xにおいて、各音モデルp(x|F)に対応した各スペクトル分配比(x|F)は、総和が1となるように正規化されたものとなる。
そして、本実施形態では、各周波数xにおいて、その周波数xにおける確率密度関数pΨ (t)(x)の関数値をその周波数xにおける各音モデルp(x|F)のスペクトル分配比により分配し、音モデルp(x|F)毎に、このようにして分配された確率密度関数pΨ (t)(x)の関数値を総計して、各音モデルp(x|F)の取り分とする。そして、全音モデルの取り分を合計し、その合計値によって各音モデルの取り分を除算し、総和が1となるように正規化された各音モデルp(x|F)の取り分を新たな重みパラメータwnew (t)(F)とするのである。以上の処理が繰り返されることにより、基本周波数Fの異なった各音モデルp(x|F)のうち混合音の周波数成分の確率密度関数pΨ (t)(x)によって支持されている確率の高いものに対する重みパラメータw(t)(F)が次第に強調されてゆく。この結果、重みパラメータw(t)(F)は、BPFを通過した混合音における基本周波数の確率密度関数を示すに至る。
<マルチエージェントモデルによる基本周波数の継時的な追跡42(基本周波数推定手段としての処理)>
本実施形態による音分析プログラムは、以上のようにして得られる基本周波数の確率密度関数に基づいて、入力音響信号に含まれる1または複数の音源の音の基本周波数を推定して出力する基本周波数推定手段としての処理を含む。この処理では、最も優勢な基本周波数Fi(t)を決定するために、次式に示すように、基本周波数の確率密度関数pF0 (t)(F)(式(15)より、式(17)を反復計算した最終的な推定値として得られる)を最大にする周波数を基本周波数の推定値として求める。
Figure 0004625935
ところで、基本周波数の確率密度関数において、同時に鳴っている音の基本周波数に対応する複数のピークが拮抗すると、それらのピークが確率密度関数の最大値として次々に選ばれてしまうことがあるため、このように単純に求めた結果は安定しないことがある。そこで、本実施形態における基本周波数推定手段としての処理では、大局的な観点から基本周波数を推定するために、基本周波数の確率密度関数の時間変化において複数のピークの軌跡を継時的に追跡し、その中で最も優勢で安定した基本周波数の軌跡を選択する。このような追跡処理を動的で柔軟に制御するために、マルチエージェントモデルを導入する。
マルチエージェントモデルは、1つの特徴検出器と複数のエージェントにより構成される(図3参照)。特徴検出器は、基本周波数の確率密度関数の中で目立つピークを拾い上げる。エージェントは基本的に、それらのピークに駆動されて軌跡を追跡していく。つまり、マルチエージェントモデルは、入力中で目立つ特徴を時間的に追跡する汎用の枠組みである。具体的には、各時刻において以下の処理がおこなわれる。
(1)基本周波数の確率密度関数が求まった後、特徴検出器は目立つピーク(最大ピークに応じて動的に変化する閾値を越えたピーク)を複数検出する。そして、目立つピークのそれぞれについて、周波数成分のパワーの合計Pow(t)も考慮しながら、どれくらい将来有望なピークかを評価する。これは、現在時刻を数フレーム先の時刻とみなして、ピークの軌跡をその時刻まで先読みして追跡することで実現する。
(2)既に生成されたエージェントがあるときは、それらが相互作用しながら、目立つピークをそれに近い軌跡を持つエージェントへと排他的に割り当てる。複数のエージェントが割り当て候補に上がる場合には、最も信頼度の高いエージェントへと割り当てる。
(3)最も有望で目立つピークがまだ割り当てられていないときは、そのピークを追跡する新たなエージェントを生成する。
(4)各エージェントは累積ペナルティを持っており、それが一定の閾値を越えると消滅する。
(5)目立つピークが割り当てられなかったエージェントは、一定のペナルティを受け、基本周波数の確率密度関数の中から自分の追跡する次のピークを直接見つけようとする。もしそのピークも見つからないときは、さらにペナルティを受ける。さもなければ、ペナルティはリセットされる。
(6)各エージェントは、今割り当てられたピークがどれくらい有望で目立つかを表す度合いと、1つ前の時刻の信頼度との重み付き和によって、信頼度を自己評価する。
(7)時刻tにおける基本周波数Fi(t)は、信頼度が高く、追跡しているピークの軌跡に沿ったパワーの合計が大きいエージェントに基づいて決定する。振幅Ai(t)は、基本周波数Fi(t)の高調波成分等をΨ (t)(ω)から抽出して決定する。
<<特許文献1の技術に対する本実施形態の改良点>>
図4は本実施形態における基本周波数の確率密度関数の推定41の処理内容を示している。図4に示すように、基本周波数の確率密度関数の推定41においては、EMアルゴリズムのEステップおよびMステップ411と、収束判定412とを繰り返す。
まず、EステップおよびMステップ411では、前掲式(17)の漸化式に従い、基本周波数の確率密度関数、すなわち、各種の基本周波数Fに対応した音モデルの重み値θ=θnew (t)(={wnew (t)(F)|Fli≦F≦Fhi})を求める。
次に収束判定412では、今回のEステップおよびMステップ411において得られた各種の基本周波数Fに対応した音モデルの重み値θ=θnew (t)とその前の重み値θ=θold (t)とを比較し、重み値θの変化分が許容範囲内に収まったか否かを判定する。そして、重み値θの変化分が許容範囲内に収まったと判定した場合には、基本周波数の確率密度関数の推定41の処理を終了し、基本周波数の確率密度関数の最終値をマルチエージェントモデルによる基本周波数の継時的な追跡42に引き渡す。
本実施形態による音分析プログラムには、アタック検出1aから出力される情報に基づいて、基本周波数の確率密度関数の推定41または基本周波数推定手段であるマルチエージェントモデルによる基本周波数の継時的な追跡42の処理の演算態様を制御する演算制御手段が設けられている。これが特許文献1の技術に対する本実施形態の改良点である。基本周波数の確率密度関数の推定41または基本周波数推定手段としてのマルチエージェントモデルによる基本周波数の継時的な追跡42の処理の演算態様の制御には、以下の4態様がある。ユーザは、図示しない操作部の操作により、音分析プログラムの演算制御手段にいずれの態様で演算態様の制御を行わせるかを指定することができる。
<<<第1の態様>>>
この第1の態様は、処理対象であるフレームがアタック区間のものである場合には、当該フレームにおける重み値w(t)(F)の逐次更新が所定の初期値wflat(F)から開始されるように、基本周波数の確率密度関数の推定41の演算制御を行い、処理対象であるフレームがアタック区間のものでない場合には、当該フレームにおける重み値w(t)(F)の逐次更新が前フレームにおける重み値w(t-1)(F)の最終値を初期値として開始されるように基本周波数の確率密度関数の推定41のための演算制御を行う態様である。
従来の技術の下では、フレーム毎に、上述した漸化式(17)を繰り返して基本周波数の確率密度関数の推定を行う場合に、w(t)(F)の初期値として、1つ前の時刻t−1(1つ前のフレーム)における重み値の最終値w(t-1)(F)を用いた。しかし、このように前フレームにおける基本周波数の確率密度関数の最終状態を初期値として用いると、波形が不安定なアタック区間のフレームの基本周波数の推定を行う際に、推定の処理が不安定になり、誤推定に陥り易い。そこで、この第1の態様では、各フレームに関して重み値w(t)(F)の逐次更新を開始する際、そのフレームがアタック区間以外のものである場合には前フレームにおける重み値の最終値w(t-1)(F)を初期値とし、アタック区間のものである場合には、例えば全周波数帯域においてフラットな重み値を持った所定の初期値wflat(F)を初期値とするのである。より具体的には、次の通りである。
まず、本実施形態では、各フレームでの重み値w(t)(F)の逐次更新を開始するとき、図4に示すように、前フレームでの重み値の最終値w(t-1)(F)に係数rを乗算したものと、所定の初期値wflat(F)に係数1−rを乗算したものとを加算し、その加算結果を当該フレームにおける重み値w(t)(F)の初期値とする。
そして、図5に示すように、アタック区間に属しないフレームの処理時には、rの値を1とすることにより、前フレームにおける重み値の最終値w(t-1)(F)を重み値w(t)(F)の初期値とし、アタック区間に属するフレームの処理時には、rの値を0とすることにより、所定の初期値wflat(F)を重み値w(t)(F)の初期値とするのである。
以上のように、この態様によれば、アタック区間のフレームの処理時には、当該フレームでの重み値w(t)(F)の逐次更新の際に、前フレームにおける最終的な重み値w(t-1)(F)が初期値として採用されない。従って、アタック区間に入力音響信号の波形が不安定となり、基本周波数の推定処理が不安定になる場合でも、連続して基本周波数の誤推定が発生するのを回避することができ、全体としての基本周波数の推定精度を高めることができる。
<<<第2の態様>>>
強いタッチで楽器演奏が行われた等の場合には、音響信号のアタック区間が終了しても暫くの間は波形の不安定な状態が続くことがある。そのような場合、アタック区間が終了した後のフレームであっても、前フレームの最終的な重み値w(t-1)(F)を初期値として使用して、重み値w(t)(F)の逐次更新を行うと、誤った基本周波数において重み値がピークとなり、基本周波数の誤推定が発生するおそれがある。
そこで、この第2の態様では、次のようにして、重み値w(t)(F)の初期値を制御する。まず、第2の態様でも、上記第1の態様と同様、各フレームでの重み値w(t)(F)の逐次更新を開始するとき、図4に示すように、前フレームでの重み値の最終値w(t-1)(F)に係数rを乗算したものと、所定の初期値wflat(F)に係数1−rを乗算したものとを加算し、その加算結果を当該フレームにおける重み値w(t)(F)の初期値とする。
そして、図6に示すように、アタック区間に属するフレームの処理時には、rの値を0とすることにより、所定の初期値wflat(F)を重み値w(t)(F)の初期値とする。
そして、アタック区間が終了した後は、フレームが切り換わる都度、rの値を0から1に向けて徐々に高めてゆく。すなわち、第2の態様では、アタック区間に属しない各フレームの処理時には、当該フレームにおける重み値w(t)(F)の逐次更新が前フレームにおける重み値の最終値w(t-1)(F)と所定の初期値wflat(F)とをミキシングした重み値を初期値として開始されるように基本周波数の確率密度関数の推定41の演算制御を行い、かつ、直前のアタック区間の終了時からの経過時間が長くなるに従って、前フレームでの重み値の最終値w(t-1)(F)が強調されるように、前フレームにおける重み値の最終値w(t-1)(F)と所定の初期値wflat(F)とのミキシング比を制御するのである。
この態様によれば、アタック区間が終了しても暫くの間は音響信号の波形が不安定になる状況でも、基本周波数の誤推定が連続して発生するのを回避し、基本周波数の推定の精度を高めることができる。
<<<第3の態様>>>
上記第1の態様および第2の態様では、アタック検出1aから引き渡される情報に従い、音モデルに対する重み値w(t)(F)の初期値の制御を行った。これに対し、第3の態様では、図7に示すように、アタック区間以外の区間では、通常の音モデルが用いられ、アタック区間では、アタック区間用の音モデルが用いられるように、EステップおよびMステップ411に用いられる音モデルの切り換えを行う。
ここで、アタック区間用の音モデルとしては、実際の楽音の高調波構造よりも顕著なピークが少なく、周波数軸上において各高調波成分の振幅値が緩やかなカーブを描いて変化する高調波構造を持った音モデルを用いる。アタック区間においてこのような音モデルを用いることにより、入力音響信号の波形の変化に対して安定性の良い基本周波数の推定を行うことが可能となる。
<<<第4の態様>>>
上記第1〜第3の態様では、基本周波数の確率密度関数の推定41が、アタック検出1aの処理結果に基づく制御の対象となった。これに対し、この第4の態様では、基本周波数推定手段であるマルチエージェントモデルによる基本周波数の継時的な追跡42が、アタック検出1aの処理結果に基づく制御の対象となる。すなわち、この第4の態様において音分析プログラムの演算制御手段は、アタック区間では、基本周波数の確率密度関数の推定41により得られる基本周波数の確率密度関数が得られたとしても、その確率密度関数に基づく基本周波数の推定および出力を行わないように、マルチエージェントモデルによる基本周波数の継時的な追跡42を制御する。すなわち、基本周波数の誤推定が発生するアタック区間では、基本周波数の推定および出力を行わず、出力される基本周波数についてのみ推定の精度を高める趣旨である。
<他の実施形態>
以上、この発明の一実施形態について説明したが、この発明には他にも実施形態があり得る。例えば次の通りである。
(1)第1の態様または第2の態様の一方と、第3の態様とを併用し得るように音分析プログラムの演算制御手段を構成してもよい。
(2)第3の態様において、アタック区間のみならず、アタック区間が終了してから所定時間が経過するまでの期間についても、アタック区間用の音モデルを使用して、基本周波数の確率密度関数の推定41を実行するように制御してもよい。
(3)第4の態様において、アタック区間のみならず、アタック区間が終了してから所定時間が経過するまでの期間についても、基本周波数の推定および出力を停止させてもよい。
この発明の一実施形態である音分析プログラムの処理内容を示す図である。 同実施形態において音モデルに対する重みのパラメータがEMアルゴリズムにより更新される過程を例示した図である。 1つの特徴検出器と複数のエージェントにより構成されるマルチエージェントモデルによる基本周波数の経時的な追跡を示す図である。 同実施形態における基本周波数の確率密度関数の推定41の処理内容を示す図である。 同実施形態による音分析プログラムの演算制御手段により実行される演算制御の第1の態様を示すタイムチャートである。 同演算制御手段により実行される演算制御の第2の態様を示すタイムチャートである。 同演算制御手段により実行される演算制御の第3の態様を示すタイムチャートである。
符号の説明
1……瞬時周波数の算出、1a……アタック検出、2……周波数成分の候補の抽出、3……周波数帯域の制限、4a……メロディラインの推定、4b……ベースラインの推定、41……基本周波数の確率密度関数の推定、42……マルチエージェントモデルによる基本周波数の継時的な追跡。

Claims (5)

  1. 入力音響信号を所定時間長のフレームに分割し、フレーム毎に入力音響信号がアタック区間の信号であるか否かを判定するアタック検出手段と、
    フレーム毎に、各々音源の音の高調波構造に対応した構造を有する確率密度関数である音モデルを使用して、各種の基本周波数に対応した複数の音モデルを重み付け加算した混合分布を構成し、この混合分布が入力音響信号の周波数成分の分布となるように、各音モデルに対する重み値を逐次更新して最適化し、最適化された各音モデルの重み値を前記入力音響信号における音源の音の基本周波数の確率密度関数として推定する確率密度関数推定手段と、
    前記基本周波数の確率密度関数に基づいて前記入力音響信号に含まれる1または複数の音源の音の基本周波数を推定して出力する基本周波数推定手段と、
    前記確率密度関数推定手段の処理対象となるフレームがアタック区間のものであるか否かにより前記確率密度関数推定手段における基本周波数の確率密度関数の推定のための演算の態様を切り換える手段であって、前記確率密度関数推定手段の処理対象であるフレームがアタック区間のものである場合には、当該フレームにおける重み値の逐次更新が所定の初期値から開始されるように前記確率密度関数推定手段における基本周波数の確率密度関数の推定のための演算の制御を行い、前記確率密度関数推定手段の処理対象であるフレームがアタック区間のものでない場合には、当該フレームにおける重み値の逐次更新が前フレームにおける重み値の最終値を初期値として開始されるように前記確率密度関数推定手段における基本周波数の確率密度関数の推定のための演算の制御を行う演算制御手段と
    を具備することを特徴とする音分析装置。
  2. 入力音響信号を所定時間長のフレームに分割し、フレーム毎に入力音響信号がアタック区間の信号であるか否かを判定するアタック検出手段と、
    フレーム毎に、各々音源の音の高調波構造に対応した構造を有する確率密度関数である音モデルを使用して、各種の基本周波数に対応した複数の音モデルを重み付け加算した混合分布を構成し、この混合分布が入力音響信号の周波数成分の分布となるように、各音モデルに対する重み値を逐次更新して最適化し、最適化された各音モデルの重み値を前記入力音響信号における音源の音の基本周波数の確率密度関数として推定する確率密度関数推定手段と、
    前記基本周波数の確率密度関数に基づいて前記入力音響信号に含まれる1または複数の音源の音の基本周波数を推定して出力する基本周波数推定手段と、
    前記確率密度関数推定手段の処理対象となるフレームがアタック区間のものであるか否かにより前記確率密度関数推定手段における基本周波数の確率密度関数の推定のための演算の態様を切り換える手段であって、前記確率密度関数推定手段の処理対象であるフレームがアタック区間のものである場合には、当該フレームにおける重み値の逐次更新が所定の初期値から開始されるように前記確率密度関数推定手段における基本周波数の確率密度関数の推定のための演算の制御を行い、前記確率密度関数推定手段の処理対象であるフレームがアタック区間のものでない場合には、当該フレームにおける重み値の逐次更新が前フレームにおける重み値の最終値と所定の初期値とをミキシングした重み値を初期値として開始されるように前記確率密度関数推定手段における基本周波数の確率密度関数の推定のための演算の制御を行い、かつ、直前のアタック区間の終了時からの経過時間が長くなるに従って、前フレームでの重み値の最終値が強調されるように、前フレームにおける重み値の最終値と所定の初期値とのミキシング比を制御する演算制御手段と
    を具備することを特徴とする音分析装置。
  3. 前記演算制御手段は、前記確率密度関数推定手段の処理対象であるフレームがアタック区間のものであるか否かにより、前記基本周波数の確率密度関数の推定に用いられる音モデルの切り換えを行うことを特徴とする請求項1または2に記載の音分析装置。
  4. コンピュータを、
    入力音響信号を所定時間長のフレームに分割し、フレーム毎に入力音響信号がアタック区間の信号であるか否かを判定するアタック検出手段と、
    フレーム毎に、各々音源の音の高調波構造に対応した構造を有する確率密度関数である音モデルを使用して、各種の基本周波数に対応した複数の音モデルを重み付け加算した混合分布を構成し、この混合分布が入力音響信号の周波数成分の分布となるように、各音モデルに対する重み値を逐次更新して最適化し、最適化された各音モデルの重み値を前記入力音響信号における音源の音の基本周波数の確率密度関数として推定する確率密度関数推定手段と、
    前記基本周波数の確率密度関数に基づいて前記入力音響信号に含まれる1または複数の音源の音の基本周波数を推定して出力する基本周波数推定手段と、
    前記確率密度関数推定手段の処理対象となるフレームがアタック区間のものであるか否かにより前記確率密度関数推定手段における基本周波数の確率密度関数の推定のための演算の態様を切り換える手段であって、前記確率密度関数推定手段の処理対象であるフレームがアタック区間のものである場合には、当該フレームにおける重み値の逐次更新が所定の初期値から開始されるように前記確率密度関数推定手段における基本周波数の確率密度関数の推定のための演算の制御を行い、前記確率密度関数推定手段の処理対象であるフレームがアタック区間のものでない場合には、当該フレームにおける重み値の逐次更新が前フレームにおける重み値の最終値を初期値として開始されるように前記確率密度関数推定手段における基本周波数の確率密度関数の推定のための演算の制御を行う演算制御手段と
    して機能させることを特徴とするコンピュータプログラム。
  5. コンピュータを、
    入力音響信号を所定時間長のフレームに分割し、フレーム毎に入力音響信号がアタック区間の信号であるか否かを判定するアタック検出手段と、
    フレーム毎に、各々音源の音の高調波構造に対応した構造を有する確率密度関数である音モデルを使用して、各種の基本周波数に対応した複数の音モデルを重み付け加算した混合分布を構成し、この混合分布が入力音響信号の周波数成分の分布となるように、各音モデルに対する重み値を逐次更新して最適化し、最適化された各音モデルの重み値を前記入力音響信号における音源の音の基本周波数の確率密度関数として推定する確率密度関数推定手段と、
    前記基本周波数の確率密度関数に基づいて前記入力音響信号に含まれる1または複数の音源の音の基本周波数を推定して出力する基本周波数推定手段と、
    前記確率密度関数推定手段の処理対象となるフレームがアタック区間のものであるか否かにより前記確率密度関数推定手段における基本周波数の確率密度関数の推定のための演算の態様を切り換える手段であって、前記確率密度関数推定手段の処理対象であるフレームがアタック区間のものである場合には、当該フレームにおける重み値の逐次更新が所定の初期値から開始されるように前記確率密度関数推定手段における基本周波数の確率密度関数の推定のための演算の制御を行い、前記確率密度関数推定手段の処理対象であるフレームがアタック区間のものでない場合には、当該フレームにおける重み値の逐次更新が前フレームにおける重み値の最終値と所定の初期値とをミキシングした重み値を初期値として開始されるように前記確率密度関数推定手段における基本周波数の確率密度関数の推定のための演算の制御を行い、かつ、直前のアタック区間の終了時からの経過時間が長くなるに従って、前フレームでの重み値の最終値が強調されるように、前フレームにおける重み値の最終値と所定の初期値とのミキシング比を制御する演算制御手段と
    として機能させることを特徴とするコンピュータプログラム。
JP2007045236A 2007-02-26 2007-02-26 音分析装置およびプログラム Expired - Fee Related JP4625935B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007045236A JP4625935B2 (ja) 2007-02-26 2007-02-26 音分析装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007045236A JP4625935B2 (ja) 2007-02-26 2007-02-26 音分析装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2008209579A JP2008209579A (ja) 2008-09-11
JP4625935B2 true JP4625935B2 (ja) 2011-02-02

Family

ID=39785951

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007045236A Expired - Fee Related JP4625935B2 (ja) 2007-02-26 2007-02-26 音分析装置およびプログラム

Country Status (1)

Country Link
JP (1) JP4625935B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5593608B2 (ja) 2008-12-05 2014-09-24 ソニー株式会社 情報処理装置、メロディーライン抽出方法、ベースライン抽出方法、及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134269A (ja) * 1999-11-05 2001-05-18 Yamaha Corp 音響信号分析方法
JP2001154698A (ja) * 1999-11-29 2001-06-08 Victor Co Of Japan Ltd オーディオ符号化装置及びその方法
JP3413634B2 (ja) * 1999-10-27 2003-06-03 独立行政法人産業技術総合研究所 音高推定方法及び装置
JP3660599B2 (ja) * 2001-03-09 2005-06-15 日本電信電話株式会社 音響信号の立ち上がり・立ち下がり検出方法及び装置並びにプログラム及び記録媒体
WO2005066927A1 (ja) * 2004-01-09 2005-07-21 Toudai Tlo, Ltd. 多重音信号解析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3413634B2 (ja) * 1999-10-27 2003-06-03 独立行政法人産業技術総合研究所 音高推定方法及び装置
JP2001134269A (ja) * 1999-11-05 2001-05-18 Yamaha Corp 音響信号分析方法
JP2001154698A (ja) * 1999-11-29 2001-06-08 Victor Co Of Japan Ltd オーディオ符号化装置及びその方法
JP3660599B2 (ja) * 2001-03-09 2005-06-15 日本電信電話株式会社 音響信号の立ち上がり・立ち下がり検出方法及び装置並びにプログラム及び記録媒体
WO2005066927A1 (ja) * 2004-01-09 2005-07-21 Toudai Tlo, Ltd. 多重音信号解析方法

Also Published As

Publication number Publication date
JP2008209579A (ja) 2008-09-11

Similar Documents

Publication Publication Date Title
JP4660739B2 (ja) 音分析装置およびプログラム
JP4322283B2 (ja) 演奏判定装置およびプログラム
US9111526B2 (en) Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal
US6798886B1 (en) Method of signal shredding
JP5088030B2 (ja) 演奏音の類似度を評価する方法、装置およびプログラム
US8831762B2 (en) Music audio signal generating system
JP3413634B2 (ja) 音高推定方法及び装置
EP1895507B1 (en) Pitch estimation, apparatus, pitch estimation method, and program
Dressler Pitch estimation by the pair-wise evaluation of spectral peaks
KR20130010118A (ko) 인벨롭 섀이핑을 사용하는 오디오 신호를 변조하는 방법 및 장치
JP6035702B2 (ja) 音響処理装置および音響処理方法
WO2011132184A1 (en) Generating pitched musical events corresponding to musical content
JP4613923B2 (ja) 楽音処理装置およびプログラム
JP4625933B2 (ja) 音分析装置およびプログラム
JP5924968B2 (ja) 楽譜位置推定装置、及び楽譜位置推定方法
JP4625935B2 (ja) 音分析装置およびプログラム
Gowriprasad et al. Onset detection of tabla strokes using lp analysis
JP4625934B2 (ja) 音分析装置およびプログラム
JPH0675562A (ja) 自動採譜装置
Verma et al. Real-time melodic accompaniment system for indian music using tms320c6713
Paradzinets et al. Use of continuous wavelet-like transform in automated music transcription
Yao et al. Efficient vocal melody extraction from polyphonic music signals
Lin et al. Sinusoidal Partials Tracking for Singing Analysis Using the Heuristic of the Minimal Frequency and Magnitude Difference.
Siao et al. Pitch Detection/Tracking Strategy for Musical Recordings of Solo Bowed-String and Wind Instruments.
Kreutzer et al. Time domain attack and release modeling-applied to spectral domain sound synthesis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20080930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100906

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101012

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101013

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131119

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees