JP2008058753A - 音分析装置およびプログラム - Google Patents

音分析装置およびプログラム Download PDF

Info

Publication number
JP2008058753A
JP2008058753A JP2006237269A JP2006237269A JP2008058753A JP 2008058753 A JP2008058753 A JP 2008058753A JP 2006237269 A JP2006237269 A JP 2006237269A JP 2006237269 A JP2006237269 A JP 2006237269A JP 2008058753 A JP2008058753 A JP 2008058753A
Authority
JP
Japan
Prior art keywords
sound
fundamental frequency
frequency
types
models
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006237269A
Other languages
English (en)
Other versions
JP4625933B2 (ja
Inventor
Masataka Goto
真孝 後藤
Takuya Fujishima
琢哉 藤島
Keita Arimoto
慶太 有元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
Yamaha Corp
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp, National Institute of Advanced Industrial Science and Technology AIST filed Critical Yamaha Corp
Priority to JP2006237269A priority Critical patent/JP4625933B2/ja
Publication of JP2008058753A publication Critical patent/JP2008058753A/ja
Application granted granted Critical
Publication of JP4625933B2 publication Critical patent/JP4625933B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】 記憶する音モデルの個数が比較的少なくて済み、かつ、高い推定精度で基本周波数を推定できるようにする。
【解決手段】 音モデル補間処理5では、記憶装置に記憶された複数種類の音モデルに補間処理を施し、各音モデルの中間の基本周波数に対応した複数種類の音モデルを生成する。基本周波数の確率密度関数の推定41では、記憶された音モデルおよび補間処理により得られた音モデルを用いて、様々な基本周波数の音モデルの混合分布を構成し、この混合分布が入力音響信号の周波数成分の分布となるように、各音モデルに対する重み値を最適化し、最適化された各音モデルの重み値を音源の音の基本周波数の確率密度関数とする。
【選択図】図1

Description

この発明は、市販のCD(compact disc)などに収録されている、歌声や複数種類の楽器音を同時に含む音楽音響信号を対象に、メロディ音やベース音の音高(本明細書では基本周波数の意味で用いる)を推定する音分析装置およびプログラムに関する。
多数の音源の音が混ざり合ったモノラルの音響信号中から、ある特定の音源の音高を推定することは、非常に困難である。混合音に対して音高推定することが難しい本質的な理由の1つに、時間周波数領域において、ある音の周波数成分が同時に鳴っている他の音の周波数成分と重複することが挙げられる。例えば、歌声、鍵盤楽器(ピアノ等)、ギター、ベースギター、ドラムス等で演奏される典型的なポピュラー音楽では、メロディを担う歌声の高調波構造の一部(特に基本周波数成分)は、鍵盤楽器、ギターの高調波成分やベースギターの高次の高調波成分、スネアドラム等の音に含まれるノイズ成分などと頻繁に重複する。そのため、各周波数成分を局所的に追跡するような手法は、複雑な混合音に対しては安定して機能しない。基本周波数成分が存在することを前提に高調波構造を推定する手法もあるが、そのような手法は、ミッシングファンダメンタル(missing fundamental)現象を扱えないという大きな欠点を持つ。さらに、同時に鳴っている他の音の周波数成分が基本周波数成分と重複すると、有効に機能しない。
以上のような理由により、従来、単一音のみか、非周期的な雑音を伴った単一音を収録した音響信号を対象とした音高の推定技術はあったが、市販のCDに記録された音響信号のように複数の音が混ざり合ったものについて音高を推定する技術はなかった。
しかしながら、近年、統計的手法を利用することにより、混合音に含まれる各音の音高を適切に推定する技術が提案されるに至った。特許文献1の技術である。
この特許文献1の技術では、メロディ音のものと考えられる帯域に属する周波数成分と、ベース音のものと考えられる帯域に属する周波数成分とを入力音響信号からBPFにより別々に取り出し、それらの各帯域の周波数成分に基づき、メロディ音およびベース音の各々の基本周波数の推定を行う。
さらに詳述すると、特許文献1の技術では、音の高調波構造に対応した確率分布を持った音モデルを用意し、メロディ音の帯域の各周波数成分、ベース音の帯域の各周波数成分が、様々な基本周波数に対応した各音モデルを重み付け加算した混合分布であると考える。そして、各音モデルの重みの値をEM(Expectation−Maximization)アルゴリズムを用いて推定する。
このEMアルゴリズムは、隠れ変数を含む確率モデルに対して最尤推定を行うための反復アルゴリズムであり、局所最適解を求めることができる。ここで、最も大きな重みの値を持つ確率分布は、その時点で最も優勢な高調波構造であるとみなすことができるため、あとはその優勢な高調波構造における基本周波数を音高として求めればよい。この手法は基本周波数成分の存在に依存しないため、ミッシングファンダメンタル現象も適切に扱うことができ、基本周波数成分の存在に依存せずに、最も優勢な高調波構造を求めることができる。
非特許文献1は、特許文献1の技術に対して次の拡張を行った技術を開示している。
<拡張1:音モデルの多重化>
特許文献1の技術では、同一基本周波数には1つの音モデルしか用意されていなかったが、実際には、ある基本周波数に、異なる高調波構造を持つ音が入れ替わり立ち替わり現れることがある。そこで、同一基本周波数に対して複数の音モデルを用意し、入力音響信号をそれらの混合分布としてモデル化した。
<拡張2:音モデルのパラメータの推定>
特許文献1の技術では、音モデルにおいて各高調波成分の大きさの比を固定していた(ある理想的な音モデルを仮定していた)。これは実世界の混合音中の高調波構造とは必ずしも一致しておらず、精度向上のためには洗練される余地が残されていた。そこで、音モデルの高調波成分の比率もモデルパラメータに加え、各時刻においてEMアルゴリズムにより推定するようにした。
<拡張3:モデルパラメータに関する事前分布の導入>
特許文献1の技術では、音モデルの重み(基本周波数の確率密度関数)に関する事前知識は仮定していなかった。しかし、この基本周波数の推定技術の用途によっては、たとえ事前に基本周波数がどの周波数の近傍にあるかを与えてでも、より誤検出の少ない基本周波数を求めたいというような要求も発生し得る。例えば、演奏分析やビブラート分析等の目的では、楽曲をヘッドホン聴取しながらの歌唱や楽器演奏によって、各時刻におけるおおよその基本周波数を事前知識として用意しておき、実際の楽曲中のより正確な基本周波数を得ることが求められている。そこで、特許文献1におけるモデルパラメータ(音モデルに対する重み値)の最尤推定の枠組みを拡張し、モデルパラメータに関する事前分布に基づいて最大事後確率推定(MAP推定;Maximum A Posteriori Probability Estimation)を行うようにした。その際、<拡張2>においてモデルパラメータに加えた音モデルの高調波成分の大きさの比率に関する事前分布も導入した。
特許第3413634号 後藤 真孝:"リアルタイム音楽情景記述システム: 全体構想と音高推定手法の拡張", 情報処理学会 音楽情報科学研究会 研究報告 2000-MUS-37-2,Vol.2000, No.94, pp.9-16, 2000年10月16日
非特許文献1に開示された技術によれば、上記「拡張1」を導入したことにより、例えば音源が高調波構造の異なった複数の音を発生し得るような場合に、それらの各高調波構造に対応した複数の音モデルを用意しておくことで、各音の基本周波数の推定精度が向上することが期待される。しかしながら、基本周波数の推定精度を高めるために、多数の音モデルを用いるとなると、そのような多数の音モデルを作成するのに多大な工数を要し、また、多数の音モデルを記憶させるための記憶容量を音分析装置内に確保しなければならないという問題がある。
この発明は、以上説明した事情に鑑みてなされたものであり、記憶する音モデルの個数が比較的少なくて済み、かつ、高い推定精度で基本周波数の推定を行うことができる音分析装置およびプログラムを提供することを目的としている。
この発明は、楽器から発音される複数種類の音の高調波構造を各々定義した複数種類の音モデルを記憶する記憶手段と、前記記憶手段に記憶された複数種類の音モデルを各々の基本周波数に従って序列化し、序列化された複数種類の音モデルに対して、基本周波数に基づく補間処理を施し、序列化された各音モデルの中間の基本周波数に対応した複数種類の音モデルを生成する補間手段と、前記記憶手段に記憶された複数種類の音モデルおよび前記補間手段により生成された複数種類の音モデルを用いて、各種の高調波構造および基本周波数を有する複数の音モデルを重み付け加算した混合分布を構成し、この混合分布が入力音響信号の周波数成分の分布となるように、各音モデルに対する重み値を最適化し、最適化された各音モデルの重み値を前記入力音響信号の元である音源の音の基本周波数の確率密度関数として推定する確率密度関数推定手段と、前記基本周波数の確率密度関数に基づいて前記入力音響信号における1または複数の音源の音の基本周波数を推定して出力する基本周波数推定手段とを具備することを特徴とする音分析装置並びにコンピュータを該音分析装置として機能させるコンピュータプログラムを提供する。
かかる発明によれば、基本周波数に基づく音モデルの補間が行われ、音モデルが補充された状態で、音モデルを用いた基本周波数の推定が行われるので、記憶手段に記憶させる音モデルの個数が比較的少ない場合であっても高い精度で基本周波数の推定を行うことができる。
以下、図面を参照し、この発明の実施の形態を説明する。
<A.第1実施形態>
<全体構成>
図1は、この発明の第1実施形態による音分析プログラムの処理内容を示す図である。この音分析プログラムは、自然界から音響信号を取得する収音機能、CD等の記録媒体から音楽の音響信号を再生する再生機能またはネットワークを介して音楽の音響信号を取得する通信機能等の音響信号取得機能を備えたパーソナルコンピュータ等のコンピュータにインストールされて実行される。本実施形態による音分析プログラムを実行するコンピュータは、本実施形態による音分析装置として機能する。
本実施形態による音分析プログラムは、音響信号取得機能を介して取得されたモノラルの音楽音響信号に対し、その中のある音源の音高を推定する。その最も重要な例として、ここではメロディラインとベースラインを推定する。メロディは他よりも際立って聞こえる単音の系列、ベースはアンサンブル中で最も低い単音の系列であり、その時間的な変化の軌跡をそれぞれメロディラインDm(t)、ベースラインDb(t)と呼ぶ。時刻tにおける基本周波数F0をFi(t)(i=m,b)、振幅をAi(t)とすると、これらは以下のように表される。
Figure 2008058753
Figure 2008058753
このメロディラインDm(t)およびベースラインDb(t)を入力音響信号から得るための手段として、音分析プログラムは、瞬時周波数の算出1、周波数成分の候補の抽出2、周波数帯域の制限3、メロディラインの推定4aおよびベースラインの推定4b並びに音モデル補間処理5の各処理を含む。また、メロディラインの推定4aおよびベースラインの推定4bの各処理は、基本周波数の確率密度関数の推定41およびマルチエージェントモデルによる基本周波数の継時的な追跡42の各処理を各々含む。本実施形態において、瞬時周波数の算出1、周波数成分の候補の抽出2、周波数帯域の制限3、メロディラインの推定4aおよびベースラインの推定4bの処理内容は、前掲特許文献1および非特許文献1に開示されたものと基本的に同様である。本実施形態の特徴は、音モデル補間処理5を追加した点にある。以下、本実施形態による音分析プログラムを構成する各処理の内容を説明する。
<瞬時周波数の算出1>
この処理では、入力音響信号を複数のBPFからなるフィルタバンクに与え、フィルタバンクの各BPFの出力信号について、位相の時間微分である瞬時周波数(Flanagan, J.L. and Golden, R.M.: Phase Vocoder, The BellSystem
Technical J., Vol.45, pp.1493-1509 (1966)参照)を計算する。ここでは、上記Flanaganの手法を用い、短時間フーリエ変換(STFT)の出力をフィルタバンク出力と解釈して、効率良く瞬時周波数を計算する。入力音響信号x(t)に対する窓関数h(t)を用いたSTFTが式(3)および(4)により与えられるとき、瞬時周波数λ(ω,t)は式(5)により求めることができる。
Figure 2008058753
Figure 2008058753
Figure 2008058753
ここで、h(t)は時間周波数の局所化を与える窓関数である(例えば、最適な時間周波数の局所化を与えるガウス関数に2階のカーディナルB−スプライン関数を畳み込んで作成した時間窓など)。
この瞬時周波数を計算するのに、ウェーブレット変換を用いても良い。ここでは、計算量を減らすためにSTFTを用いるが、単一のSTFTのみを用いたのでは、ある周波数帯域における時間分解能や周波数分解能が悪くなってしまう。そこで、マルチレートフィルタバンク(Vetterli, M.: A Theory of Multirate Filter Banks, IEEE Trans. on
ASSP, Vol.ASSP-35, No.3, pp. 356-372 (1987)、参照)を構成し、リアルタイムに実行可能という制約のもとで、ある程度妥当な時間周波数分解能を得る。
<周波数成分の候補の抽出2>
この処理では、フィルタの中心周波数からその瞬時周波数への写像に基づいて、周波数成分の候補を抽出する(Charpentier, F.J.: Pitch detection using the short-termphase spectrum,
Proc. of ICASSP 86, pp.113-116 (1986)参照)。あるSTFTフィルタの中心周波数ωからその出力の瞬時周波数λ(ω,t)への写像を考える。すると、もし周波数ψの周波数成分があるときには、ψがこの写像の不動点に位置し、その周辺の瞬時周波数の値はほぼ一定となる。つまり、全周波数成分の瞬時周波数Ψf (t)は、次式によって抽出することができる。
Figure 2008058753
これらの周波数成分のパワーは、Ψf (t)の各周波数におけるSTFTパワースペクトルの値として得られるため、周波数成分のパワー分布関数Ψp (t)(ω)を次のように定義することができる。
Figure 2008058753
<周波数帯域の制限3>
この処理では、抽出した周波数成分に重み付けすることで、周波数帯域を制限する。ここでは、メロディラインとベースライン用に、2種類のBPFを用意する。メロディライン用BPFは、典型的なメロディラインの主要な基本波成分および高調波成分の多くを通過させることができ、かつ、基本周波数付近の重複が頻繁に起きる周波数帯域をある程度遮断する。一方、ベースライン用BPFは、典型的なベースラインの主要な基本周波数成分および高調波成分の多くを通過させることができ、かつ、他の演奏パートがベースラインよりも優勢になるような周波数帯域をある程度遮断する。
本実施形態では、以下、対数スケールの周波数をcentの単位(本来は音高差(音程)を表す尺度)で表し、Hzで表された周波数fHzを、次のようにcentで表された周波数fcentに変換する。
Figure 2008058753
Figure 2008058753
平均律の半音は100centに、1オクターブは1200centに相当する。
周波数x centでのBPFの周波数応答をBPFi(x)(i=m,b)とし、周波数成分のパワー分布関数をΨ’ (t)(x)とすると、BPFを通過した周波数成分はBPFi(x)Ψ’ (t)(x)と表すことができる。ただし、Ψ’ (t)(x)は、周波数軸がcentで表されていることを除けばΨ (t)(ω)と同じ関数である。ここで、次の段階の準備として、BPFを通過した周波数成分の確率密度関数pΨ (t)(x)を定義する。
Figure 2008058753
ここで、Pow(t)は次式に示すようにBPFを通過した周波数成分のパワーの合計である。
Figure 2008058753
<基本周波数の確率密度関数の推定41>
この基本周波数の確率密度関数の推定41では、BPFを通過した周波数成分の候補に対し、各高調波構造が相対的にどれくらい優勢かを表す基本周波数の確率密度関数を求める。この基本周波数の確率密度関数の推定41の処理内容は、非特許文献1に開示された内容となっている。
基本周波数の確率密度関数の推定41では、上述した「拡張1」と「拡張2」を実現するために、同一基本周波数に対してMi種類の音モデルがあるものとし(iはメロディ用(i=m)かベース用(i=b)かを示す)、基本周波数がFであり、音モデルの種類がm番目の種類であり、モデルパラメータμ(t)(F,m)を持った音モデルp(x|F,m,μ(t)(F,m))を次のように定義する。
Figure 2008058753
Figure 2008058753
Figure 2008058753
Figure 2008058753
この音モデルは、基本周波数がFのときに、その高調波成分がどの周波数にどれくらい現れるかをモデル化したものである。Hiは基本周波数成分も含めた高調波成分の数、W はガウス分布G(x;x0,σ)の分散を表す。c(t)(h|F,m)は、基本周波数がFであるm番目の音モデルの第h次調波成分の大きさを表し、次式を満たす。
Figure 2008058753
m番目の音モデルがある基本周波数Fの音モデルとして使用され、基本周波数の確率密度関数の推定に用いられる場合、その基本周波数Fの音モデルにおける重みc(t)(h|F,m)として、上記式(16)に示すように、総和が1となるように予め定義された重みc(t)(h|F,m)が用いられる。
基本周波数の確率密度関数の推定41では、以上のような音モデルを使用し、周波数成分の確率密度関数pΨ (t)(x)が、次式で定義されるようなp(x|F,m,μ(t)(F,m))の混合分布モデルp(x|θ(t))から生成されたと考える。
Figure 2008058753
Figure 2008058753
Figure 2008058753
Figure 2008058753
ここで、FhiとFliは、許容される基本周波数の上限と下限であり、w(t)(F,m)は次式を満たすような音モデルの重みである。
Figure 2008058753
実世界の混合音に対して事前に音源数を仮定することは不可能なため、式(17)のように、あらゆる基本周波数の可能性を同時に考慮してモデル化することが重要となる。最終的に、モデルp(x|θ(t))から、観測した確率密度関数pΨ (t)(x)が生成されたかのようにモデルパラメータθ(t)を推定できれば、その重みw(t)(F,m)は各高調波構造が相対的にどれくらい優勢かを表すため、次式のように基本周波数の確率密度関数pF0 (t)(F)と解釈することができる。
Figure 2008058753
次に、上述した「拡張3」を実現するために、θ(t)の事前分布p0i(θ(t))を、式(23)のように式(24)と式(25)の積で与える。
Figure 2008058753
Figure 2008058753
Figure 2008058753
ここで、p0i(w(t))とp0i(μ(t))は、最も起こりやすいパラメータをw0i (t)(F,m)とμ0i (t)(F,m)としたときに、そこで最大値を取るような単峰性の事前分布である。ただし、Z、Zμは正規化係数、βwi (t)、βμi (t)(F,m)は、最大値をどれくらい重視した事前分布とするかを決めるパラメータで、0のときに無情報事前分布(一様分布)となる。また、D(w0i (t);w(t))、Dμ(μ0i (t)(F,m);μ(t)(F,m))は、次のようなK−L情報量(Kullback−Leibler’s information)である。
Figure 2008058753
Figure 2008058753
以上から、確率密度関数pΨ (t)(x)を観測したときに、そのモデルp(x|θ(t))のパラメータθ(t)を、事前分布p0i(θ(t))に基づいて推定する問題を解けばよいことがわかる。この事前分布に基づくθ(t)の最大事後確率推定量(MAP推定量)は、次式を最大化することで得られる。
Figure 2008058753
この最大化問題は解析的に解くことが困難なため、前述のEM(Expectation−Maximization)アルゴリズムを用いてθ(t)を推定する。EMアルゴリズムは、Eステップ(expectation step)とMステップ(maximization step)を交互に繰返し適用することで、不完全な観測データ(この場合、pΨ (t)(x))から最尤推定をおこなうための反復アルゴリズムである。本実施形態では、EMアルゴリズムを繰り返すことにより、BPFを通過した周波数成分の確率密度関数pΨ (t)(x)を、各種の基本周波数Fに対応した複数の音モデルp(x|F,m,μ(t)(F,m))を重み付け加算した混合分布と考える場合において、最も尤もらしい重みのパラメータθ(t)(={w(t)(F,m),μ(t)(F,m)})を求める。ここで、EMアルゴリズムの各繰り返しでは、パラメータθ(t)(={w(t)(F,m),μ(t)(F,m))に関して、古いパラメータ推定値θold (t)(={wold (t)(F,m),μold (t)(F,m)})を更新して新しい(より尤もらしい)パラメータ推定値θnew (t)(={wnew (t)(F,m),μnew (t)(F,m)})を求めていく。θold (t)の初期値には、1つ前の時刻t−1における最終的な推定値を用いる。この古いパラメータ推定値θold (t)から新しいパラメータ推定値θnew (t)を求める漸化式は、次のようになる。なお、この漸化式の導出過程は非特許文献1に詳細に説明されているので、そちらを参照されたい。
Figure 2008058753
Figure 2008058753
上記式(29)および(30)におけるwML (t)(F,m)とcML (t)(h|F,m)は、βwi (t)=0、βμi (t)(F,m)=0の無情報事前分布のとき、つまり、最尤推定の場合の推定値であり、次式により与えられる。
Figure 2008058753
Figure 2008058753
これらの反復計算により、事前分布を考慮した基本周波数の確率密度関数pF0 (t)(F)が、式(22)によってw(t)(F,m)から求まる。さらに、すべての音モデルp(x|F,m,μ(t)(F,m))の各高調波成分の大きさの比率c(t)(h|F,m)も求まり、「拡張1」〜「拡張3」が実現される。
最も優勢な基本周波数Fi(t)を決定するには、次式に示すように、基本周波数の確率密度関数pF0 (t)(F)(式(22)より、式(29)〜(32)を反復計算した最終的な推定値として得られる)を最大にする周波数を求めればよい。
Figure 2008058753
こうして得られた周波数を音高とする。これが、本実施形態において、基本周波数の確率密度関数に基づいて入力音響信号における1または複数の音源の音の基本周波数を推定して出力する基本周波数推定手段としての処理である。
<マルチエージェントモデルによる基本周波数の継時的な追跡42>
基本周波数の確率密度関数において、同時に鳴っている音の基本周波数に対応する複数のピークが拮抗すると、それらのピークが確率密度関数の最大値として次々に選ばれてしまうことがあるため、このように単純に求めた結果は安定しないことがある。そこで、本実施形態における基本周波数推定手段としての処理では、大局的な観点から基本周波数を推定するために、基本周波数の確率密度関数の時間変化において複数のピークの軌跡を継時的に追跡し、その中で最も優勢で安定した基本周波数の軌跡を選択する。このような追跡処理を動的で柔軟に制御するために、マルチエージェントモデルを導入する。
マルチエージェントモデルは、1つの特徴検出器と複数のエージェントにより構成される(図2参照)。特徴検出器は、基本周波数の確率密度関数の中で目立つピークを拾い上げる。エージェントは基本的に、それらのピークに駆動されて軌跡を追跡していく。つまり、マルチエージェントモデルは、入力中で目立つ特徴を時間的に追跡する汎用の枠組みである。具体的には、各時刻において以下の処理がおこなわれる。
(1)基本周波数の確率密度関数が求まった後、特徴検出器は目立つピーク(最大ピークに応じて動的に変化する閾値を越えたピーク)を複数検出する。そして、目立つピークのそれぞれについて、周波数成分のパワーの合計Pow(t)も考慮しながら、どれくらい将来有望なピークかを評価する。これは、現在時刻を数フレーム先の時刻とみなして、ピークの軌跡をその時刻まで先読みして追跡することで実現する。
(2)既に生成されたエージェントがあるときは、それらが相互作用しながら、目立つピークをそれに近い軌跡を持つエージェントへと排他的に割り当てる。複数のエージェントが割り当て候補に上がる場合には、最も信頼度の高いエージェントへと割り当てる。
(3)最も有望で目立つピークがまだ割り当てられていないときは、そのピークを追跡する新たなエージェントを生成する。
(4)各エージェントは累積ペナルティを持っており、それが一定の閾値を越えると消滅する。
(5)目立つピークが割り当てられなかったエージェントは、一定のペナルティを受け、基本周波数の確率密度関数の中から自分の追跡する次のピークを直接見つけようとする。もしそのピークも見つからないときは、さらにペナルティを受ける。さもなければ、ペナルティはリセットされる。
(6)各エージェントは、今割り当てられたピークがどれくらい有望で目立つかを表す度合いと、1つ前の時刻の信頼度との重み付き和によって、信頼度を自己評価する。
(7)時刻tにおける基本周波数Fi(t)は、信頼度が高く、追跡しているピークの軌跡に沿ったパワーの合計が大きいエージェントに基づいて決定する。振幅Ai(t)は、基本周波数Fi(t)の高調波成分等をΨ (t)(ω)から抽出して決定する。
<本実施形態の改良点(音モデル補間処理5)>
一般に楽器から発音される音のスペクトル形状は音高(基本周波数)に依存して変化する。従って、基本周波数の推定精度を高めるためには、様々な基本周波数を持った音を楽器から収音し、これらの各音から作成した多くの音モデルを用いて、基本周波数の確率密度関数の推定41を実行した方が好ましい。しかし、そのような多数の音モデルを基本周波数の確率密度関数の推定41に用いるとなると、それらの多数の音モデルを作成するのには多大な工数を要し、また、多数の音モデルを記憶させるための記憶容量を音分析装置内に確保しなければならないという問題がある。そこで、本実施形態では、次のような改良が行われている。すなわち、音分析装置の記憶装置には、様々な基本周波数に対応した比較的少数の代表的な音モデルのみを各々の基本周波数と対応付けて記憶させ、音分析プログラムの実行時に、この記憶装置に記憶された比較的少数の代表的な音モデルから多数の音モデルを生成し、基本周波数の確率密度関数の推定41に引き渡すのである。
そして、本実施形態では、記憶装置に記憶された比較的少数の代表的な音モデルから多数の音モデルを生成し、基本周波数の確率密度関数の推定41に引き渡すための手段として、図1に示す音モデル補間処理5が音分析プログラムに追加されている。この音モデル補間処理は、記憶装置に記憶された複数種類の音モデルを各々の基本周波数に従って序列化し、序列化された複数種類の音モデルに対して、基本周波数に基づく補間処理を施し、序列化された各音モデルの中間の基本周波数に対応した複数種類の音モデルを生成する処理である。本実施形態による音分析プログラムは、その実行開始の初期に、この音モデル補間処理5を実行し、記憶装置に記憶された代表的な音モデルとこの音モデル補間処理5により得られた音モデルとを基本周波数の確率密度関数の推定41に引き渡すように構成されている。
図3は代表的な音モデルの選出と音モデル補間処理5の具体例を示すものである。この例では、ギターの全フレットにおいて5フレット毎に代表フレットを選び、それらの各代表フレットを指で押さえたときのギター音の音モデルを作成し、代表的な音モデルとして音分析装置の記憶装置に記憶させる。そして、各代表フレットに挟まれた中間フレットに対応したギター音の音モデルは、音モデル補間処理5に生成させる。音モデル補間処理5では、中間フレットに対応した音モデルのh次倍音成分(h=1〜Hi)を、その中間フレットの低音側の代表フレットに対応した音モデルのh次倍音成分(h=1〜Hi)とその中間フレットの高音側の代表フレットに対応した音モデルのh次倍音成分(h=1〜Hi)とから生成する。この音モデル補間処理5に関しては各種の態様が考えられる。ある好ましい態様では、低音側の代表フレットに対応した音モデルの基本周波数をFa、h次倍音成分をc(h|Fa、ma)、高音側の代表フレットに対応した音モデルの基本周波数をFb、h次倍音成分をc(h|Fb、mb)、中間フレットに対応した音モデルの基本周波数をFc、h次倍音成分をc(h|Fc、mc)とした場合に、次式に示す1次補間により中間フレットに対応した音モデルのh次倍音成分c(h|Fc、mc)を求める。
Figure 2008058753
基本周波数の確率密度関数の推定41では、このようにして得られる中間フレットに対応した音モデルと元々記憶装置に記憶されていた代表フレットに対応した代表的な音モデルの両方が用いられる。
代表的な音モデルを作成する基本周波数は、楽器の構造により定まる倍音特性の特徴に着目して選出するのが好ましい。具体的には、倍音構造が急激に変化する基本周波数領域においては、密に代表的な音モデルを作成して記憶装置に記憶させるのが効果的である。
例えばギターでは、ある弦の最高フレットまでは倍音構造が連続的に変化するが、それより半音高い音を出すには、より高い音を発音しうる別の弦を奏さねばならず、ここで倍音構造が不連続となる。さらにいえば、弦の開放弦および低いフレット付近では倍音構造の変化は緩やかであり、高いフレット付近では1フレットの違いでも大きく倍音構造が変化するから、これを反映し、低域では粗い間隔で、高域になるほど密に、代表的な音モデルを作成する基本周波数を選ぶと有効である。また、ピアノでは最低音域は1本の弦、低音域は2本の弦、高音域は3本の弦、最高音域は、3本の弦であるが他と異なりミュート機構がない、といったように周波数帯域により弦構造が異なり、これに呼応して音色すなわち倍音構造も特定の周波数で不連続に変化する。そのような不連続点では代表的な音モデルを密に配置すれば、少ない数の音モデルでも、基本周波数の推定精度を高めることが可能となる。
以上説明した本実施形態によれば、記憶する音モデルのデータ量を削減しつつ、音域ごとに異なる音源特性をより詳細に音モデルとして表現し、さらには少数のパラメータ調整により実際の入力音に最適に音モデルの形状を調整することが可能となる。
<B.第2実施形態>
上記第1実施形態では、基本周波数によって音のスペクトル形状が異なることを考慮し、比較的少ない代表的な音モデルからより多くの種類の基本周波数に対応した音モデルを補間処理により生成した。本実施形態では、基本周波数の確率密度関数の推定41において、各音モデル(代表的な音モデルおよび音モデル補間処理5により得られた音モデル)の種類毎に、当該音モデルが本来有していた基本周波数に合わせて、基本周波数の範囲を設定し、この設定した基本周波数の範囲外の周波数における当該音モデルに対する重み値を制限して、各音モデルに対する重み値の最適化を行う。さらに詳述すると、次の通りである。
まず、EMアルゴリズムによる基本周波数の確率密度関数の推定に関して、音モデルの種類毎に基本周波数の適用範囲を定める。基本周波数の適用範囲の下限Flmおよび上限Fhmの定め方には各種の方法が考えられる。例えばm番目の種類の音モデルp(x|F,m,μ(t)(F,m))があるフレット位置におけるギター音の音モデルである場合に、そのフレット位置での基本周波数と隣接する低音側のフレット位置での基本周波数との中間の周波数をFlmとし、そのフレット位置での基本周波数と隣接する高音側のフレット位置での基本周波数との中間の周波数をFhmとしてもよい。あるいはFlmとFhmとの間をもっと広くとり、基本周波数の隣接した各音モデル間で基本周波数の適用範囲をオーバラップさせてもよい。
そして、本実施形態では、EMアルゴリズムの過程において、m番目の種類の音モデルp(x|F,m,μ(t)(F,m))は、その適用範囲から外れるような基本周波数(すなわち、F<FlmまたはF>Fhmであるような基本周波数)の確率密度の推定に使われないようにする。具体的には、m番目の種類の音モデルp(x|F,m,μ(t)(F,m))は、何ら策を講じないとすると、EMアルゴリズムにおいて多くの種類の基本周波数Fに対応した音モデルとして使用され得るが、式(29)〜(32)の漸化式を繰り返す際、各基本周波数Fに対応した各音モデルp(x|F,m,μ(t)(F,m))のうちF<FlmまたはF>Fhmであるような基本周波数Fに対応した音モデルについては、それらに対する重み値w(F,m)の初期値を0にするのである。
このようにすることで、m番目の種類の音モデルp(x|F,m,μ(t)(F,m))は、F<FlmまたはF>Fhmであるような基本周波数Fの確率密度の推定には一切使われないようになる。このような処理を全ての種類の音モデルについて行う。
この態様によれば、音源から発生し得る各音の基本周波数の範囲に合わせて、その音に対応した音モデルの適用可能な基本周波数の範囲(Flm,Fhm)を個別的に定義しておくことで、各音の基本周波数の範囲を考慮した適切な基本周波数の推定を行うことができる。
<他の実施形態>
以上、この発明の一実施形態について説明したが、この発明には他にも実施形態があり得る。例えば次の通りである。
(1)音モデル補間処理5には、1次補間に限らず、0次補間、スプライン補間など一般に知られる補間法を広く用いることができる。さらに、代表的な音モデルにも誤差が含まれ得るので、自己回帰を用いることにより、代表的な音モデルの各間の音モデルを求めてもよい。
(2)形状の異なった多くの種類の音モデルを用いることは基本周波数の推定精度の向上に寄与するが、同じような形状の音モデルを多数用いたとしても基本周波数の推定精度の向上は期待できない。そこで、音モデル補間処理5では、代表的な音モデルの各間の全てではなく、音モデルの形状がある程度以上変化する一部区間のみについて補間を行うようにしてもよい。
(3)音モデル補間処理5において、周波数領域により異なる補間演算方法で音モデルの補間を行ってもよい。例えば基本周波数の変化に対する音モデルの形状の変化が緩やかな周波数領域では1次補間により音モデルを求め、基本周波数の変化に対する音モデルの形状の変化が比較的急激な周波数領域ではより高次の補間により音モデルを求める、といった態様が考えられる。あるいは補間演算方法自体を変える代わりに、補間演算用のパラメータを周波数領域に応じて変えてもよい。
(4)上記各実施形態では、基本周波数の確率密度関数の推定41により得られる基本周波数をマルチエージェントに追跡させることにより、最終的な基本周波数を決定したが、基本周波数の確率密度関数の推定41において誤推定の確率が低く、信頼性の高い推定結果が得られる場合には、マルチエージェントによる追跡を省略してもよい。
(5)上記各実施形態では、音分析装置に「拡張1」(音モデルの多重化)に加えて、「拡張2」(音モデルのパラメータの推定)を導入したが、「拡張2」は導入せず、基本周波数の確率密度関数の推定では、例えば漸化式(29)および(30)のうち漸化式(29)のみを逐次演算し、音モデルに対する重みw(F,m)の更新のみを行うようにしてもよい。
(6)上記各実施形態では、音分析装置に「拡張3」(モデルパラメータに関する事前分布の導入)を導入したが、音分析装置はこれを導入しない構成としてもよい。
この発明の第1実施形態である音分析プログラムの処理内容を示す図である。 1つの特徴検出器と複数のエージェントにより構成されるマルチエージェントモデルによる基本周波数の経時的な追跡を示す図である。 同実施形態における代表的な音モデルの選出例と音モデル補間処理の内容を示す図である。
符号の説明
1……瞬時周波数の算出、2……周波数成分の候補の算出、3……周波数帯域の制限、4a……メロディラインの推定、4b……ベースラインの推定、41……基本周波数の確率密度関数の推定、42……マルチエージェントモデルによる基本周波数の継時的な追跡、5……音モデル補間処理。

Claims (4)

  1. 楽器から発音される複数種類の音の高調波構造を各々定義した複数種類の音モデルを記憶する記憶手段と、
    前記記憶手段に記憶された複数種類の音モデルを各々の基本周波数に従って序列化し、序列化された複数種類の音モデルに対して、基本周波数に基づく補間処理を施し、序列化された各音モデルの中間の基本周波数に対応した複数種類の音モデルを生成する補間手段と、
    前記記憶手段に記憶された複数種類の音モデルおよび前記補間手段により生成された複数種類の音モデルを用いて、各種の高調波構造および基本周波数を有する複数の音モデルを重み付け加算した混合分布を構成し、この混合分布が入力音響信号の周波数成分の分布となるように、各音モデルに対する重み値を最適化し、最適化された各音モデルの重み値を前記入力音響信号の元である音源の音の基本周波数の確率密度関数として推定する確率密度関数推定手段と、
    前記基本周波数の確率密度関数に基づいて前記入力音響信号における1または複数の音源の音の基本周波数を推定して出力する基本周波数推定手段と
    を具備することを特徴とする音分析装置。
  2. 前記確率密度推定手段は、各音モデルの種類毎に、当該音モデルが本来有していた基本周波数に合わせて、基本周波数の範囲を設定し、この設定した基本周波数の範囲外の周波数における当該音モデルに対する重み値を制限して、前記各音モデルに対する重み値の最適化を行うことを特徴とする請求項1に記載の音分析装置。
  3. 前記基本周波数推定手段は、前記確率密度関数におけるピークを複数検出し、各ピークの信頼度に基づき、信頼度が高くパワーの大きい基本周波数を出力することを特徴とする請求項1に記載の音分析装置。
  4. コンピュータを、
    楽器から発音される複数種類の音の高調波構造を各々定義した複数種類の音モデルを記憶する記憶手段と、
    前記記憶手段に記憶された複数種類の音モデルを各々の基本周波数に従って序列化し、序列化された複数種類の音モデルに対して、基本周波数に基づく補間処理を施し、序列化された各音モデルの中間の基本周波数に対応した複数種類の音モデルを生成する補間手段と、
    前記記憶手段に記憶された複数種類の音モデルおよび前記補間手段により生成された複数種類の音モデルを用いて、各種の高調波構造および基本周波数を有する複数の音モデルを重み付け加算した混合分布を構成し、この混合分布が入力音響信号の周波数成分の分布となるように、各音モデルに対する重み値を最適化し、最適化された各音モデルの重み値を前記入力音響信号の元である音源の音の基本周波数の確率密度関数として推定する確率密度関数推定手段と、
    前記基本周波数の確率密度関数に基づいて前記入力音響信号における1または複数の音源の音の基本周波数を推定して出力する基本周波数推定手段と
    して機能させることを特徴とするコンピュータプログラム。
JP2006237269A 2006-09-01 2006-09-01 音分析装置およびプログラム Expired - Fee Related JP4625933B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006237269A JP4625933B2 (ja) 2006-09-01 2006-09-01 音分析装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006237269A JP4625933B2 (ja) 2006-09-01 2006-09-01 音分析装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2008058753A true JP2008058753A (ja) 2008-03-13
JP4625933B2 JP4625933B2 (ja) 2011-02-02

Family

ID=39241531

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006237269A Expired - Fee Related JP4625933B2 (ja) 2006-09-01 2006-09-01 音分析装置およびプログラム

Country Status (1)

Country Link
JP (1) JP4625933B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008058885A (ja) * 2006-09-04 2008-03-13 National Institute Of Advanced Industrial & Technology 音高推定装置、音高推定方法およびプログラム
JP2008058755A (ja) * 2006-09-01 2008-03-13 National Institute Of Advanced Industrial & Technology 音分析装置およびプログラム
JP2008058886A (ja) * 2006-09-04 2008-03-13 National Institute Of Advanced Industrial & Technology 音高推定装置、音高推定方法およびプログラム
DE112016004046T5 (de) 2015-09-07 2018-06-07 Yamaha Corporation Vorrichtung und Verfahren zur musikalischen Ausführungsunterstützung

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62242996A (ja) * 1986-04-15 1987-10-23 ヤマハ株式会社 楽音信号発生装置
JP2001083970A (ja) * 2000-08-01 2001-03-30 Casio Comput Co Ltd 音声信号処理装置
JP3413634B2 (ja) * 1999-10-27 2003-06-03 独立行政法人産業技術総合研究所 音高推定方法及び装置
JP2003233378A (ja) * 2002-02-13 2003-08-22 Yamaha Corp 楽音生成装置および楽音生成方法
WO2005066927A1 (ja) * 2004-01-09 2005-07-21 Toudai Tlo, Ltd. 多重音信号解析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62242996A (ja) * 1986-04-15 1987-10-23 ヤマハ株式会社 楽音信号発生装置
JP3413634B2 (ja) * 1999-10-27 2003-06-03 独立行政法人産業技術総合研究所 音高推定方法及び装置
JP2001083970A (ja) * 2000-08-01 2001-03-30 Casio Comput Co Ltd 音声信号処理装置
JP2003233378A (ja) * 2002-02-13 2003-08-22 Yamaha Corp 楽音生成装置および楽音生成方法
WO2005066927A1 (ja) * 2004-01-09 2005-07-21 Toudai Tlo, Ltd. 多重音信号解析方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008058755A (ja) * 2006-09-01 2008-03-13 National Institute Of Advanced Industrial & Technology 音分析装置およびプログラム
JP4660739B2 (ja) * 2006-09-01 2011-03-30 独立行政法人産業技術総合研究所 音分析装置およびプログラム
JP2008058885A (ja) * 2006-09-04 2008-03-13 National Institute Of Advanced Industrial & Technology 音高推定装置、音高推定方法およびプログラム
JP2008058886A (ja) * 2006-09-04 2008-03-13 National Institute Of Advanced Industrial & Technology 音高推定装置、音高推定方法およびプログラム
JP4630979B2 (ja) * 2006-09-04 2011-02-09 独立行政法人産業技術総合研究所 音高推定装置、音高推定方法およびプログラム
JP4630980B2 (ja) * 2006-09-04 2011-02-09 独立行政法人産業技術総合研究所 音高推定装置、音高推定方法およびプログラム
DE112016004046T5 (de) 2015-09-07 2018-06-07 Yamaha Corporation Vorrichtung und Verfahren zur musikalischen Ausführungsunterstützung
US10403166B2 (en) 2015-09-07 2019-09-03 Yamaha Corporation Musical performance assistance device and method
DE112016004046B4 (de) 2015-09-07 2022-05-05 Yamaha Corporation Vorrichtung und Verfahren zur musikalischen Ausführungsunterstützung und rechnerlesbares Speichermedium

Also Published As

Publication number Publication date
JP4625933B2 (ja) 2011-02-02

Similar Documents

Publication Publication Date Title
JP4322283B2 (ja) 演奏判定装置およびプログラム
JP4660739B2 (ja) 音分析装置およびプログラム
US9111526B2 (en) Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal
Klapuri Automatic music transcription as we know it today
Salamon et al. Melody extraction from polyphonic music signals: Approaches, applications, and challenges
JP3413634B2 (ja) 音高推定方法及び装置
KR101564151B1 (ko) 시간 변화 정보를 갖는 기저 함수를 사용한 음악 신호의 분해
JP5088030B2 (ja) 演奏音の類似度を評価する方法、装置およびプログラム
US20120046771A1 (en) Music audio signal generating system
WO2005066927A1 (ja) 多重音信号解析方法
US20170243571A1 (en) Context-dependent piano music transcription with convolutional sparse coding
Argenti et al. Automatic transcription of polyphonic music based on the constant-Q bispectral analysis
Jonason The control-synthesis approach for making expressive and controllable neural music synthesizers
US20130339011A1 (en) Systems, methods, apparatus, and computer-readable media for pitch trajectory analysis
JP4625933B2 (ja) 音分析装置およびプログラム
Lerch Software-based extraction of objective parameters from music performances
JP2005202354A (ja) 信号解析方法
Abeßer et al. Parametric audio coding of bass guitar recordings using a tuned physical modeling algorithm
JP4625935B2 (ja) 音分析装置およびプログラム
JP4625934B2 (ja) 音分析装置およびプログラム
Paradzinets et al. Use of continuous wavelet-like transform in automated music transcription
Pardo et al. Applying source separation to music
Wiggins et al. A Differentiable Acoustic Guitar Model for String-Specific Polyphonic Synthesis
Fonseca et al. Low-latency f0 estimation for the finger plucked electric bass guitar using the absolute difference function
Müller et al. Musically Informed Audio Decomposition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090617

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090618

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100906

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101012

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101013

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131119

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4625933

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees