JP4660739B2 - 音分析装置およびプログラム - Google Patents

音分析装置およびプログラム Download PDF

Info

Publication number
JP4660739B2
JP4660739B2 JP2006237274A JP2006237274A JP4660739B2 JP 4660739 B2 JP4660739 B2 JP 4660739B2 JP 2006237274 A JP2006237274 A JP 2006237274A JP 2006237274 A JP2006237274 A JP 2006237274A JP 4660739 B2 JP4660739 B2 JP 4660739B2
Authority
JP
Japan
Prior art keywords
sound
probability density
fundamental frequencies
frequency
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006237274A
Other languages
English (en)
Other versions
JP2008058755A (ja
Inventor
真孝 後藤
慶太 有元
琢哉 藤島
Original Assignee
ヤマハ株式会社
独立行政法人産業技術総合研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社, 独立行政法人産業技術総合研究所 filed Critical ヤマハ株式会社
Priority to JP2006237274A priority Critical patent/JP4660739B2/ja
Publication of JP2008058755A publication Critical patent/JP2008058755A/ja
Application granted granted Critical
Publication of JP4660739B2 publication Critical patent/JP4660739B2/ja
Application status is Active legal-status Critical
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS
    • G10H3/00Instruments in which the tones are generated by electromechanical means
    • G10H3/12Instruments in which the tones are generated by electromechanical means using mechanical resonant generators, e.g. strings or percussive instruments, the tones of which are picked up by electromechanical transducers, the electrical signals being further manipulated or amplified and subsequently converted to sound by a loudspeaker or equivalent instrument
    • G10H3/125Extracting or recognising the pitch or fundamental frequency of the picked up signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental

Description

この発明は、市販のCD(compact disc)などに収録されている、歌声や複数種類の楽器音を同時に含む音楽音響信号を対象に、メロディ音やベース音の音高(本明細書では基本周波数の意味で用いる)を推定する音分析装置およびプログラムに関する。

多数の音源の音が混ざり合ったモノラルの音響信号中から、ある特定の音源の音高を推定することは、非常に困難である。混合音に対して音高推定することが難しい本質的な理由の1つに、時間周波数領域において、ある音の周波数成分が同時に鳴っている他の音の周波数成分と重複することが挙げられる。例えば、歌声、鍵盤楽器(ピアノ等)、ギター、ベースギター、ドラムス等で演奏される典型的なポピュラー音楽では、メロディを担う歌声の高調波構造の一部(特に基本周波数成分)は、鍵盤楽器、ギターの高調波成分やベースギターの高次の高調波成分、スネアドラム等の音に含まれるノイズ成分などと頻繁に重複する。そのため、各周波数成分を局所的に追跡するような手法は、複雑な混合音に対しては安定して機能しない。基本周波数成分が存在することを前提に高調波構造を推定する手法もあるが、そのような手法は、ミッシングファンダメンタル(missing fundamental)現象を扱えないという大きな欠点を持つ。さらに、同時に鳴っている他の音の周波数成分が基本周波数成分と重複すると、有効に機能しない。

以上のような理由により、従来、単一音のみか、非周期的な雑音を伴った単一音を収録した音響信号を対象とした音高の推定技術はあったが、市販のCDに記録された音響信号のように複数の音が混ざり合ったものについて音高を推定する技術はなかった。

しかしながら、近年、統計的手法を利用することにより、混合音に含まれる各音の音高を適切に推定する技術が提案されるに至った。特許文献1の技術である。

この特許文献1の技術では、メロディ音のものと考えられる帯域に属する周波数成分と、ベース音のものと考えられる帯域に属する周波数成分とを入力音響信号からBPFにより別々に取り出し、それらの各帯域の周波数成分に基づき、メロディ音およびベース音の各々の基本周波数の推定を行う。

さらに詳述すると、特許文献1の技術では、音の高調波構造に対応した確率密度分布を持った音モデルを用意し、メロディ音の帯域の各周波数成分、ベース音の帯域の各周波数成分が、様々な基本周波数に対応した各音モデルを重み付け加算した混合分布であると考える。そして、各音モデルの重みの値をEM(Expectation−Maximization)アルゴリズムを用いて推定する。

このEMアルゴリズムは、隠れ変数を含む確率モデルに対して最尤推定を行うための反復アルゴリズムであり、局所最適解を求めることができる。ここで、最も大きな重みの値を持つ確率密度分布は、その時点で最も優勢な高調波構造であるとみなすことができるため、あとはその優勢な高調波構造における基本周波数を音高として求めればよい。この手法は基本周波数成分の存在に依存しないため、ミッシングファンダメンタル現象も適切に扱うことができ、基本周波数成分の存在に依存せずに、最も優勢な高調波構造を求めることができる。

ところで、基本周波数の確率密度関数において、同時に鳴っている音の基本周波数に対応する複数のピークが拮抗すると、それらのピークが確率密度関数の最大値として次々に選ばれてしまうことがあるため、このように単純に求めた結果は安定しないことがある。そこで、特許文献1の技術では、大局的な観点から基本周波数を推定するために、基本周波数の確率密度関数の時間変化において複数のピークの軌跡を継時的に追跡し、その中で最も優勢で安定した基本周波数の軌跡を選択している。このような追跡処理を動的で柔軟に制御するために、マルチエージェントモデルを導入している。

マルチエージェントモデルは、1つの特徴検出器と複数のエージェントにより構成される。特徴検出器は、基本周波数の確率密度関数の中で目立つピークを拾い上げる。エージェントは基本的に、それらのピークに駆動されて軌跡を追跡していく。つまり、マルチエージェントモデルは、入力中で目立つ特徴を時間的に追跡する汎用の枠組みである。
特許第3413634号

ところで、上述した特許文献1に開示の技術では、BPFの通過帯域内のあらゆる周波数が基本周波数として推定される可能性を有しており、例えば入力音響信号が特定の楽器の演奏によるものである場合に、その楽器の演奏では発生し得ないような音の基本周波数が基本周波数として誤って推定される可能性を排除することができないという問題があった。

この発明は、以上説明した事情に鑑みてなされたものであり、EMアルゴリズムにより入力音響信号の基本周波数の確率密度関数を推定して、発音されている音の基本周波数を求める際に、楽器固有の事前知識を活用して、発音されている音の基本周波数を精度良く推定することができる音分析装置およびプログラムを提供することを目的としている。

ある態様において、この発明は、各々音源の音の高調波構造に対応した構造を有し、各種の基本周波数に対応した確率密度関数である複数の音モデルを重み付け加算した混合分布が、入力音響信号の周波数成分の分布となるように、各種の基本周波数に対応した各音モデルに対する重み値を逐次更新して最適化し、最適化された各音モデルの重み値を前記音源の音の基本周波数の確率密度関数として推定する確率密度推定手段であって、(a)前記音源が同時に発音可能な1または複数の音に関する制約条件を定義する音源構造データを記憶する記憶手段と、(b)前記各種の基本周波数に対応した各音モデルに対する重み値を逐次更新して最適化する過程において、前記音源構造データにより定義された制約条件を満たすように、重み値がピークとなる各基本周波数の中から、発音されている可能性が高いと推定される1または複数の音の基本周波数を選択し、選択した基本周波数を示すフォームデータを作成するフォーム推定手段と、(c)前記フォーム推定手段により作成されたフォームデータが示す基本周波数に対応した重み値が強調されるように、前記各種の基本周波数に対応した各音モデルに対する重み値に事前分布を与える事前分布付与手段とを具備する確率密度推定手段と、前記確率密度推定手段により推定された基本周波数の確率密度関数に基づいて前記音源の音の基本周波数を確定させる基本周波数確定手段とを具備することを特徴とする音分析装置並びにコンピュータを該音分析装置として機能させるコンピュータプログラムである音分析プログラムを提供する。

他の態様において、この発明は、各々音源の音の高調波構造に対応した構造を有し、各種の基本周波数に対応した確率密度関数である複数の音モデルを重み付け加算した混合分布が、入力音響信号の周波数成分の分布となるように、各種の基本周波数に対応した各音モデルに対する重み値を逐次更新して最適化し、最適化された各音モデルの重み値を前記音源の音の基本周波数の確率密度関数として推定する確率密度関数推定手段と、前記確率密度推定手段により推定される確率密度関数に基づいて前記音源の音の基本周波数を確定させる基本周波数確定手段であって、(a)前記音源が同時に発音可能な1または複数の音に関する制約条件を定義した音源構造データを記憶する記憶手段と、(b)前記音源構造データにより定義された制約条件を満たすように、前記確率密度関数推定手段により推定された確率密度関数において重み値がピークとなる各基本周波数の中から、発音されている可能性が高いと推定される1または複数の音の基本周波数を選択し、選択した基本周波数を示すフォームデータを作成するフォーム推定手段とを具備し、前記フォームデータに基づいて前記音源の音の基本周波数を確定させる基本周波数確定手段とを具備することを特徴とする音分析装置並びにコンピュータを該音分析装置として機能させるコンピュータプログラムである音分析プログラムを提供する。

さらに他の態様において、この発明は、各々音源の音の高調波構造に対応した構造を有し、各種の基本周波数に対応した確率密度関数である複数の音モデルを重み付け加算した混合分布が、入力音響信号の周波数成分の分布となるように、各種の基本周波数に対応した各音モデルに対する重み値を逐次更新して最適化し、最適化された各音モデルの重み値を前記音源の音の基本周波数の確率密度関数として推定する確率密度推定手段であって、(a)前記音源が同時に発音可能な1または複数の音に関する制約条件を定義する音源構造データを記憶する記憶手段と、(b)前記入力音響信号の周波数成分に基づいて、前記各種の基本周波数に対応した各音モデルに対する重み値を所定回数更新する第1の更新手段と、(c)前記第1の更新手段の処理を経た前記各種の基本周波数に対応した各音モデルに対する重み値に基づき、重み値がピークとなる各基本周波数を求め、前記音源構造データにより定義された制約条件を満たすように、前記重み値がピークとなる各基本周波数の中から、発音されている可能性が高いと推定される1または複数の音の基本周波数を選択する基本周波数選択手段と、(d)前記基本周波数選択手段により選択された基本周波数に対応した重み値が強調されるように、前記各種の基本周波数に対応した各音モデルに対する重み値に事前分布を付与し、前記入力音響信号の周波数成分に基づいて、前記各種の基本周波数に対応した各音モデルに対する重み値を所定回数更新する第2の更新手段とを具備する確率密度推定手段と、前記確率密度推定手段により推定された基本周波数の確率密度関数に基づいて前記音源の音の基本周波数を確定させる基本周波数確定手段と
を具備することを特徴とする音分析装置並びにコンピュータを該音分析装置として機能させるコンピュータプログラムである音分析プログラムを提供する。

これらの音分析装置および音分析プログラムによれば、音源が同時に発音可能な1または複数の音に関する制約条件を定義する音源構造データに基づき、各種の基本周波数に対応した各音モデルに対する重み値のうち、発音されている可能性の高い音に対応した重み値を強調し、発音されている音の基本周波数を精度良く推定することができる。

以下、図面を参照し、この発明の実施の形態を説明する。

<第1実施形態>
<<全体構成>>
図1は、この発明の第1実施形態による音分析プログラムの処理内容を示す図である。この音分析プログラムは、自然界から音響信号を取得する収音機能、CD等の記録媒体から音楽の音響信号を再生する再生機能またはネットワークを介して音楽の音響信号を取得する通信機能等の音響信号取得機能を備えたパーソナルコンピュータ等のコンピュータにインストールされて実行される。本実施形態による音分析プログラムを実行するコンピュータは、本実施形態による音分析装置として機能する。

本実施形態による音分析プログラムは、音響信号取得機能を介して取得されたモノラルの音楽音響信号に対し、その中のある音源の音高を推定する。その最も重要な例として、ここではメロディラインとベースラインを推定する。メロディは他よりも際立って聞こえる音の系列、ベースはアンサンブル中で最も低い音の系列であり、その時間的な変化の軌跡をそれぞれメロディラインDm(t)、ベースラインDb(t)と呼ぶ。時刻tにおける基本周波数F0をFi(t)(i=m,b)、振幅をAi(t)とすると、これらは以下のように表される。

このメロディラインDm(t)およびベースラインDb(t)を入力音響信号から得るための手段として、音分析プログラムは、瞬時周波数の算出1、周波数成分の候補の抽出2、周波数帯域の制限3、メロディラインの推定4aおよびベースラインの推定4bの各処理を含む。また、メロディラインの推定4aおよびベースラインの推定4bの各処理は、基本周波数の確率密度関数の推定41および基本周波数の確定42を各々含む。本実施形態において、瞬時周波数の算出1、周波数成分の候補の抽出2、周波数帯域の制限3の処理内容は、前掲特許文献1に開示されたものと基本的に同様である。本実施形態の特徴は、音分析プログラムの各処理のうち、メロディラインの推定4aおよびベースラインの推定4bの処理内容、具体的には、これらの各処理4aおよび4bにおいて、特許文献1が採用していたマルチエージェントモデルによる基本周波数の継時的な追跡を省略し、その代わりに基本周波数の確率密度関数の推定41および基本周波数の確定42の処理内容に改良を加えた点にある。以下、本実施形態による音分析プログラムを構成する各処理の内容を説明する。

<<瞬時周波数の算出1>>
この処理では、入力音響信号を複数のBPFからなるフィルタバンクに与え、フィルタバンクの各BPFの出力信号について、位相の時間微分である瞬時周波数(Flanagan, J.L. and Golden, R.M.: Phase Vocoder, The BellSystem
Technical J., Vol.45, pp.1493-1509 (1966)参照)を計算する。ここでは、上記Flanaganの手法を用い、短時間フーリエ変換(STFT)の出力をフィルタバンク出力と解釈して、効率良く瞬時周波数を計算する。入力音響信号x(t)に対する窓関数h(t)を用いたSTFTが式(3)および(4)により与えられるとき、瞬時周波数λ(ω,t)は式(5)により求めることができる。

ここで、h(t)は時間周波数の局所化を与える窓関数である(例えば、最適な時間周波数の局所化を与えるガウス関数に2階のカーディナルB−スプライン関数を畳み込んで作成した時間窓など)。

この瞬時周波数を計算するのに、ウェーブレット変換を用いても良い。ここでは、計算量を減らすためにSTFTを用いるが、単一のSTFTのみを用いたのでは、ある周波数帯域における時間分解能や周波数分解能が悪くなってしまう。そこで、マルチレートフィルタバンク(Vetterli, M.: A Theory of Multirate Filter Banks, IEEE Trans. on
ASSP, Vol.ASSP-35, No.3, pp. 356-372 (1987)、参照)を構成し、リアルタイムに実行可能という制約のもとで、ある程度妥当な時間周波数分解能を得る。

<<周波数成分の候補の抽出2>>
この処理では、フィルタの中心周波数からその瞬時周波数への写像に基づいて、周波数成分の候補を抽出する(Charpentier, F.J.: Pitch detection using the short-termphase
spectrum, Proc. of ICASSP 86, pp.113-116 (1986)参照)。あるSTFTフィルタの中心周波数ωからその出力の瞬時周波数λ(ω,t)への写像を考える。すると、もし周波数ψの周波数成分があるときには、ψがこの写像の不動点に位置し、その周辺の瞬時周波数の値はほぼ一定となる。つまり、全周波数成分の瞬時周波数Ψf (t)は、次式によって抽出することができる。

これらの周波数成分のパワーは、Ψf (t)の各周波数におけるSTFTパワースペクトルの値として得られるため、周波数成分のパワー分布関数Ψp (t)(ω)を次のように定義することができる。

<<周波数帯域の制限3>>
この処理では、抽出した周波数成分に重み付けすることで、周波数帯域を制限する。ここでは、メロディラインとベースライン用に、2種類のBPFを用意する。メロディライン用BPFは、典型的なメロディラインの主要な基本波成分および高調波成分の多くを通過させることができ、かつ、基本周波数付近の重複が頻繁に起きる周波数帯域をある程度遮断する。一方、ベースライン用BPFは、典型的なベースラインの主要な基本周波数成分および高調波成分の多くを通過させることができ、かつ、他の演奏パートがベースラインよりも優勢になるような周波数帯域をある程度遮断する。

本実施形態では、以下、対数スケールの周波数をcentの単位(本来は音高差(音程)を表す尺度)で表し、Hzで表された周波数fHzを、次のようにcentで表された周波数fcentに変換する。
平均律の半音は100centに、1オクターブは1200centに相当する。

周波数x centでのBPFの周波数応答をBPFi(x)(i=m,b)とし、周波数成分のパワー分布関数をΨ’ (t)(x)とすると、BPFを通過した周波数成分はBPFi(x)Ψ’ (t)(x)と表すことができる。ただし、Ψ’ (t)(x)は、周波数軸がcentで表されていることを除けばΨ (t)(ω)と同じ関数である。ここで、次の段階の準備として、BPFを通過した周波数成分の確率密度関数pΨ (t)(x)を定義する。

ここで、Pow(t)は次式に示すようにBPFを通過した周波数成分のパワーの合計である。

<<基本周波数の確率密度関数の推定41>>
この処理では、BPFを通過した周波数成分の候補に対し、各高調波構造が相対的にどれくらい優勢かを表す基本周波数の確率密度関数を求める。そのために、本実施形態では、周波数成分の確率密度関数pΨ (t)(x)が、高調波構造を持つ音をモデル化した確率分布(音モデル)の混合分布モデル(重み付き和のモデル)から生成されたと考える。基本周波数がFの音モデルの確率密度関数をp(x|F)とすると、その混合分布モデルp(x;θ(t))は、次式により定義することができる。

ここで、FhiとFliは、許容される基本周波数の上限と下限であり、BPFの通過帯域により決定される。また、w(t)(F)は、次式を満たすような、音モデルp(x|F)の重みである。

CD等による実世界の音響信号に対して事前に音源数を仮定することは不可能なため、このように、あらゆる基本周波数の可能性を同時に考慮してモデル化することが重要となる。もし、観測した周波数成分pΨ (t)(x)がモデルp(x;θ(t))から生成されたかのようにモデルパラメータθ(t)を推定できれば、pΨ (t)(x)は個々の音モデルへと分解されたとみなすことができ、次式に示すように、各基本周波数Fの音モデルに対する重みw(t)(F)を、基本周波数Fの確率密度関数pFO (t)(F)と解釈することができる。

つまり、混合分布中において、ある音モデルp(x|F)が優勢になればなるほど(すなわち、w(t)(F)が大きくなるほど)、pFO (t)(F)において、そのモデルの基本周波数Fの確率が高くなる。

以上から、確率密度関数pΨ (t)(x)を観測したときに、そのモデルp(x;θ(t))のパラメータθ(t)を推定する問題を解けばよいことがわかる。θ(t)の最尤推定量は、次式で定義される平均対数尤度を最大化することで得られる。

この最大化問題は解析的に解くことが困難なため、前述のEM(Expectation−Maximization)アルゴリズムを用いてθ(t)を推定する。EMアルゴリズムは、Eステップ(expectation step)とMステップ(maximization step)を交互に繰返し適用することで、不完全な観測データ(この場合、pΨ (t)(x))から最尤推定をおこなうための反復アルゴリズムである。本実施形態では、EMアルゴリズムを繰り返すことにより、BPFを通過した周波数成分の確率密度関数pΨ (t)(x)を、各種の基本周波数Fに対応した複数の音モデルp(x|F)を重み付け加算した混合分布と考える場合において、最も尤もらしい重みのパラメータθ(t)(={w(t)(F)|Fli≦F≦Fhi}を求める。ここで、EMアルゴリズムの各繰り返しでは、パラメータθ(t)(={w(t)(F)|Fli≦F≦Fhi})に関して、古いパラメータ推定値θold (t)(={wold (t)(F)|Fli≦F≦Fhi})を更新して新しい(より尤もらしい)パラメータ推定値θnew (t)(={wnew (t)(F)|Fli≦F≦Fhi})を求めていく。θold (t)の初期値には、1つ前の時刻t−1における最終的な推定値を用いる。この古いパラメータ推定値θold (t)から新しいパラメータ推定値θnew (t)を求める漸化式は、次のようになる。なお、この漸化式の導出過程は特許文献1に詳細に説明されているので、そちらを参照されたい。

図2は、本実施形態において音モデルp(x|F)に対する重みのパラメータθ(t)(={w(t)(F)|Fli≦F≦Fhi}がEMアルゴリズムにより更新される過程を例示したものである。なお、図2では、図示を簡素化するために、周波数成分の数が4個である音モデルを使用した場合の例が示されている。

本実施形態におけるEMアリゴリズムでは、各基本周波数Fに対応した音モデルp(x|F)と現状における各音モデルに対する重み値wold (t)(F)とに基づき、次式に従い、周波数x毎に各音モデルに対応したスペクトル分配比を求める。

上記式(18)に示すように、ある周波数xにおける各音モデルp(x|F)に対応したスペクトル分配比(x|F)は、重み値wold (t)(F)の乗算された各音モデルp(x|F)の周波数xにおける各振幅値wold (t)(F)p(x|F)の総和(式(18)における分母の積分値に相当)を求め、その総和により各振幅値wold (t)(F)p(x|F)を除算することにより得られる。式(18)から明らかなように、各周波数xにおいて、各音モデルp(x|F)に対応した各スペクトル分配比(x|F)は、総和が1となるように正規化されたものとなる。

そして、本実施形態では、各周波数xにおいて、その周波数xにおける確率密度関数pΨ (t)(x)の関数値をその周波数xにおける各音モデルp(x|F)のスペクトル分配比により分配し、音モデルp(x|F)毎に、このようにして分配された確率密度関数pΨ (t)(x)の関数値を総計して、各音モデルp(x|F)の取り分とする。そして、全音モデルの取り分を合計し、その合計値によって各音モデルの取り分を除算し、総和が1となるように正規化された各音モデルp(x|F)の取り分を新たな重みパラメータwnew (t)(F)とするのである。以上の処理が繰り返されることにより、基本周波数Fの異なった各音モデルp(x|F)のうち混合音の周波数成分の確率密度関数pΨ (t)(x)によって支持されている確率の高いものに対する重みパラメータw(t)(F)が次第に強調されてゆく。この結果、重みパラメータw(t)(F)は、BPFを通過した混合音における基本周波数の確率密度関数を示すに至る。

<<基本周波数の確定42>>
最も優勢な基本周波数Fi(t)を決定するには、次式に示すように、基本周波数の確率密度関数pF0 (t)(F)(式(15)より、式(17)を反復計算した最終的な推定値として得られる)を最大にする周波数を求めればよい。
こうして得られた周波数を音高とする。

<<特許文献1の技術に対する本実施形態の改良点>>
上述した基本周波数の確率密度関数の推定41において、EMアルゴリズムにより得られる基本周波数の確率密度関数は、複数のピークを持ったものとなる。これらのピークの中には、実際に鳴っている音の基本周波数に対応したピークもあるが、実際には音が鳴っていないにも拘わらず誤って確率密度が高められた結果生じたピークもある。なお、以下では、このように誤って発生したピークをゴーストという。

特許文献1の技術では、このようなゴーストが発生する状況下において、EMアルゴリスムにより逐次得られる確率密度関数において確率密度がピークとなる各基本周波数の中から実際に鳴っている音の基本周波数を求めるために、マルチエージェントモデルによる基本周波数の継時的な追跡を行った。

これに対し、本実施形態では、マルチエージェントモデルによる基本周波数の継時的な追跡は行わない。その代わりに、本実施形態では、入力音響信号の発生元である音源に関する事前知識を音分析プログラムに与える。そして、音分析プログラムでは、図2に示すように、EMアルゴリズムのEステップおよびMステップの実行により得られた基本周波数の確率密度関数を用いてさらにEステップおよびMステップを繰り返す際に、この事前知識を利用して、確率密度関数を操作する。そして、この確率密度関数の操作を繰り返すことにより、EステップおよびMステップの実行により得られる確率密度関数を、実際に鳴っている可能性の高い音の基本周波数に対応した確率密度のピークのみが強調された確率密度関数に変化させてゆく。

さらに詳述すると、本実施形態による音分析プログラムでは、図1に示すように、基本周波数の確率密度関数の推定41において、EMアルゴリズムのEステップおよびMステップ411と、収束判定412と、上述した“事前知識”を利用した処理であるフォーム推定413と、事前分布付与414とを繰り返す。

まず、EステップおよびMステップ411では、前掲式(17)の漸化式に従い、基本周波数の確率密度関数、すなわち、各種の基本周波数Fに対応した音モデルの重み値θ=θnew (t)(={wnew (t)(F)|Fli≦F≦Fhi})を求める。

次に収束判定412では、今回のEステップおよびMステップ411において得られた各種の基本周波数Fに対応した音モデルの重み値θ=θnew (t)とその前の重み値θ=θold (t)とを比較し、重み値θの変化分が許容範囲内に収まったか否かを判定する。そして、重み値θの変化分が許容範囲内に収まったと判定した場合には、基本周波数の確率密度関数の推定41の処理を終了し、基本周波数の確定42へと進む。一方、重み値θの変化分が許容範囲内に収まっていないと判定した場合には、フォーム推定413へと進む。

フォーム推定413では、EステップおよびMステップ411において得られた確率密度関数において、確率密度がピークとなる各基本周波数Fの中から、実際に鳴っている可能性が高いと推定される音の基本周波数Fを求める。このフォーム推定413を行うに当たり、本実施形態では、音分析装置のメモリに予め記憶された音源構造データ413Fを参照する。この音源構造データ413Fは、入力音響信号の発生元である音源の構造に関するデータであり、音源が発音可能な音を定義するデータおよび音源が同時に発音可能な音に関する制約条件を定義するデータを含む。この例では、音源は6本の弦を有するギターである。このため、音源構造データ413Fは、例えば次のような内容になっている。

<<<音源構造データ413Fの内容>>>
(1)音源が発音可能な音を定義するデータ
音源がギターである場合、弦を弾くことにより発生される音は、その弦の番号と、指板上において押さえられているその弦のフレット位置とにより決定される。弦の番号ksを1〜6、フレット番号kfを0〜N(ただし、kf=0はフレットを指で押さえない開放弦の状態に相当)とした場合、ギターでは弦番号ksとフレット番号kfの組み合わせに対応した6×(N+1)種類の音(この中には基本周波数が互いに同じであるものも含まれている)を発生可能である。音源構造データは、弦番号ksとフレット番号kfの各組み合わせに対応付けて、その組み合わせにおいて弦から発生される音の基本周波数を定義するデータを含んでいる。
(2)音源が同時に発音可能な音に関する制約条件を定義するデータ
制約条件a.同時に発音可能な音の個数
弦の本数が6本であるため、発音可能な音の数は最大6個である。
制約条件b.押さえることが可能なフレット位置の組み合わせに関する制約
人間の手指の長さによる制約があるため、ある限度を越えてフレット番号のかけ離れた2つのフレットを同時に指で押さえることはできない。音源構造データ413Fには、同時に押さえることができる複数のフレットのうち最も大きなフレット番号と最も小さなフレット番号の差分の上限値が定義されている。
制約条件c.弦1本当たりの発音可能数
1本の弦は、同時に発音することができる音は1個である。

図3は、フォーム推定413の処理内容を示している。図示のように、フォーム推定413は、第1フェーズ(フォーム当てはめフェーズ)と第2フェーズ(フォーム選択フェーズ)とからなる。

第1フェーズでは、音源構造データ413Fにおける「音源が発音可能な音を定義するデータ」を参照する。そして、音源であるギターの指板上において、EステップおよびMステップ411により得られた確率密度関数において確率密度がピークとなる各基本周波数F=F1、F2、…の音を発生するために指をおくべき指位置P1、P2、…を求める。そして、このようにして求めた指位置毎に、その元となった基本周波数F、確率密度関数におけるその基本周波数Fに対応した確率密度(重み値θ)、指位置を特定する弦番号ksおよびフレット番号kfからなるフォームデータを作成し、フォームバッファに蓄積する。ここで、同一基本周波数Fの音を発生可能な指位置が複数組存在する場合もある。その場合には、それらの全ての指位置について、各々基本周波数F、重み値θ、弦番号ksおよびフレット番号kfからなる複数のフォームデータを作成し、フォームバッファに蓄積する。

フォーム推定413の第2フェーズでは、フォームバッファに蓄積された各フォームデータの中から、互いに異なる基本周波数Fに対応したフォームデータを上記制約条件aに反しない範囲でなるべく多数選択する。フォームデータの選択に当たっては、選択される各フォームデータが選択される他のフォームデータとの関係で上記制約条件bおよびcに反しないようにする。

図3に示す例では、指位置P1と指位置P2は同一弦上にあるため、これらの両指位置に対応したフォームデータの両方を残すことは制約条件cに反する。従って、これらのうちの一方(例えば指位置P1)に対応したフォームデータを選択する。このように制約条件cの下で、排他的な関係に立つ複数のフォームデータがある場合にいずれを選択するかに関しては各種の方法が考えられる。ある好ましい態様では、より低い基本周波数Fに対応したフォームデータを選択し、他のフォームデータを排除する。他の好ましい態様では、より高い重み値θを含んだフォームデータを選択し、他のフォームデータを排除する。

また、図3に示す例では、指位置は、フレット番号kf=1〜10のフレット位置の範囲に分布しており、フレット番号kf=1のフレットとフレット番号kf=10のフレットとの間が開きすぎているため、制約条件bが満たされていない。そして、この例では、フレット番号の若い指位置(P1〜P4等)が多数派であり、フレット番号kfが10である指位置P10は少数派である。従って、第2フェーズでは、指位置P10に対応したフォームデータを排除する。

このように第2フェーズでは、フォームバッファ内のフォームデータのうち制約条件bおよびcを満足させる上での障害となるフォームデータを排除してゆく。この排除の結果、6個以下のフォームデータが残った場合には、それらのフォームデータを実際に鳴っている可能性が高い音に対応したフォームデータとして決定する。また、残ったフォームデータが7個以上あり、制約条件aが満たされない場合には、例えば重み値θの低いフォームデータを排除する、といった方法により、6個以内のフォームデータを選択し、実際に鳴っている可能性が高い音に対応したフォームデータとして決定する。

事前分布付与414では、フォーム推定413により得られた実際に鳴っている可能性が高い音に対応したフォームデータを用いて、EステップおよびMステップ411により得られた基本周波数Fの確率密度関数の操作を行う。図4は、この事前分布付与414の処理内容を例示するものである。この図に示すように、事前分布付与414では、EステップおよびMステップ411により得られた基本周波数Fの確率密度関数における確率密度のピークのうち、実際に鳴っている可能性が高い音に対応したフォームデータが示す基本周波数F(図示の例ではF1、F3)に対応した確率密度(重み値θ)のピークを増大させ、それ以外のピーク(図示の例ではF2、F4、Fm)を低下させる。そして、このようにして事前分布の付与された基本周波数Fの確率密度関数を次回のEステップおよびMステップ411に引き渡す。

以上のような処理が繰り返される結果、EステップおよびMステップ411の実行により得られる確率密度関数は、実際に鳴っている可能性の高い音の基本周波数に対応した確率密度のピークのみが強調された確率密度関数に変化してゆく。そして、EステップおよびMステップ411の実行前後における確率密度(=重み値θ)の変化分が許容範囲内に収まったとき、収束判定412では、EステップおよびMステップ411の繰り返しを終了させ、基本周波数の確率密度関数を基本周波数の確定42に引き渡す。

本実施形態における基本周波数の確定42では、まず、フォーム推定413により得られた各フォームデータが示す各基本周波数に対応した確率密度のピーク値を基本周波数の確率密度関数の推定41により得られた確率密度関数から求める。次に、それらの確率密度のピーク値の中から最大値を求め、この最大値に所定の係数prior_thresを乗じて閾値THを求める。そして、各フォームデータが示す各基音周波数のうち確率密度のピーク値が閾値THより大きいものを選択し、鳴っている音の基本周波数として確定させるのである。このような処理により鳴っている音の基本周波数を選択する理由は次の通りである。

まず、確率密度関数は全周波数範囲についての積分値が1になるものである。従って、実際に鳴っている音の数が少ないときには、確率密度のピーク値の最大値は高くなり、一方、実際に鳴っている音の数が多ければ、確率密度のピーク値の最大値は低くなる。そこで、本実施形態では、確率密度関数に現れる各ピークが実際に鳴っている音のものであるか否かを判定する際に、確率密度の各ピーク値との比較に用いる閾値THを確率密度のピーク値の最大値に連動させ、実際に鳴っている音の基本周波数を選択が適切に行われるようにしているのである。

図5(a)および(b)は、本実施形態における基本周波数の確定42の実行例を示すものである。まず、図5(a)に示す例では、鳴っている音の数が多い。このため、基本周波数の確率密度のピーク値は、平均的に低く、かつ、分散は小さめである。この場合、ピーク値の最大値も低くなるため、閾値THも低くなる。従って、フォーム推定により選択された全ての基本周波数におけるピーク値(図示の6個のピーク値)が閾値THを越え、これらの基本周波数が鳴っている音の基本周波数として確定される。一方、図5(b)に示す例では、鳴っている音の数が少ない。このため、確率密度関数に現れる確率密度の各ピーク値は、実際に鳴っている音のものは大きく、そうでないもののピーク値は小さくなり、両者の間には顕著な差が生じる。この場合、ピーク値の最大値に基づいて閾値THが決定されると、フォーム推定により選択された各基本周波数におけるピーク値のうち比較的少数のピーク値(図示の例では1個のピーク値)のみが閾値THを越え、この基本周波数が鳴っている音の基本周波数として確定される。
以上が本実施形態の詳細である。

以上のように、本実施形態によれば、EMアルゴリズムにより入力音響信号の基本周波数の確率密度関数を推定して、鳴っている音の基本周波数を求める際に、楽器固有の事前知識を活用して、発音されている音の基本周波数を精度良く推定することができる。

<第2実施形態>
図6は、この発明の第2実施形態による音分析プログラムの処理内容を示す図である。上記第1実施形態では、基本周波数の確率密度関数の推定41において、EステップおよびMステップ411が繰り返される毎に、フォーム推定413および事前分布付与414を行った。これに対し、本実施形態において基本周波数の確率密度関数の推定41では、EステップおよびMステップ411と収束判定412のみを繰り返す。そして、本実施形態では、基本周波数の確定42aにおいて、基本周波数を確定させるのに先立つ前処理として、上記第1実施形態におけるフォーム推定413と同じ内容の処理を基本周波数Fの確率密度関数に対して施し、鳴っている可能性のある音の基本周波数を求める。次いで上記第1実施形態における基本周波数の確定42と同じ内容の処理を実行し、鳴っている可能性のある音の基本周波数の中から1または複数の基本周波数を選択し、鳴っている音の基本周波数として確定させる。

本実施形態においても上記第1実施形態と同様な効果が得られる。また、本実施形態によれば、上記第1実施形態よりも、フォーム推定413の実行回数が少なくなり、かつ、事前分布付与414を実行しないので、第1実施形態よりも演算量を減らすことができる。

<第3実施形態>
図7は、この発明の第3実施形態による音分析プログラムのうち上記第1実施形態における基本周波数の確率密度関数の推定41および基本周波数の確定42に相当する部分の処理内容を示すフローチャートである。本実施形態では、1フレーム分の混合音の確率密度関数pΨ (t)(x)が得られる毎に、図7に示す各処理を実行する。

(1)まず、第1の更新手段としての処理を実行する。すなわち、事前分布を与えることなく、確率密度関数pΨ (t)(x)に基づき、上記第1実施形態におけるEステップおよびMステップをM1回(M1は2以上の整数)繰り返し、各基本周波数Fに対応した音モデルに対する重み値θ=w(t)(F)を更新する(ステップS10およびS11)。

(2)次に基本周波数選択手段としての処理を実行する。すなわち、上記第1実施形態におけるフォーム推定413に相当するピーク選択処理(ステップS12)を実行し、鳴っている可能性のある1または複数の音の基本周波数をメモリに格納する。

(3)次に第2の更新手段としての処理を実行する。すなわち、メモリに記憶された1または複数の基本周波数における確率密度を強調する事前分布付与を確率密度関数に対して施す処理(ステップS13)と、EステップおよびMステップを実行して各基本周波数Fに対応した音モデルに対する重み値θ=w(t)(F)を更新する処理(ステップS14)とをM2回(M2は2以上の整数)に亙って繰り返す(ステップS15)。

(4)次に第3の更新手段としての処理を実行する。すなわち、事前分布付与を行うことなく、EステップおよびMステップをM3回(M3は2以上の整数)繰り返し、各基本周波数Fに対応した音モデルに対する重み値θ=w(t)(F)を更新する(ステップS16およびS17)。このステップS16およびS17の処理を実行するのは、ステップS13〜S15の繰り返しにより強調された確率密度のピークの中に実際に鳴っていない音の基本周波数の確率密度のピークが含まれている場合に、そのようなピークを減衰させるためである。なお、上記第2の更新手段としての処理において、実際に鳴っていない音の基本周波数の確率密度のピークが強調される可能性が低い場合には、この第3の更新手段としての処理を省略してもよい。

(5)次に基本周波数の確定のための処理を実行する。すなわち、メモリに記憶された各基本周波数に対応した確率密度のピーク値について、上記第1実施形態と同様な方法により、閾値THの算出(ステップS18)および閾値THを用いることによる基本周波数の確定(ステップS19)を行い、実際に鳴っている音の基本周波数を確定させる。

本実施形態では、フォーム推定413に相当するステップS12の処理を、基本周波数の確率密度関数の推定と、基本周波数の確定の両方で共有することができ、1回だけで済ませることができる。また、本実施形態では、フォーム推定(ステップS12)の結果を利用した事前分布付与を伴う所定回数のEM推定(ステップS13〜S15)を行った後、さらに事前分布付与を行わない所定回数のEM推定(ステップS16〜S17)を行うので、例えば鳴っている音の数が少ないにも拘わらずステップS13〜S15の処理により発音可能数の最大値である6個の基本周波数における確率密度が強調されてしまったとしても、誤って強調された確率密度がその後のEM推定(ステップS16〜S17)によって正解に収束していくことが期待される。従って、本実施形態によれば、上記第1実施形態および第2実施形態よりもさらに精度良く鳴っている音の基本周波数を確定させることができる。

<他の実施形態>
以上、この発明の第1〜第3実施形態について説明したが、この発明には他にも実施形態があり得る。例えば次の通りである。

(1)上記各実施形態におけるフォーム推定413において、実際に鳴っている可能性の高い音のフォームデータの絞り込みをさらに強化するために次の操作を追加してもよい。すなわち、制約条件に基づいて選択された各フォームデータについて、確率密度関数における当該フォームデータが示す基本周波数Fに対応した重み値θを強制的に0とし、EステップおよびMステップ411を1回実行する。この実行前後において確率密度関数に大きな変化がない場合、当該基本周波数Fにおいて生じている重み値θのピークはゴーストである可能性が高い。従って、そのような基本周波数Fに対応したフォームデータは、実際に鳴っている可能性の高い音のフォームデータの中から排除する。この処理を制約条件に基づいて選択された各フォームデータについて実行することにより、実際に鳴っている可能性の高い音のフォームデータの絞り込みをさらに強化し、ゴーストに対応したものが除外されたフォームデータを得ることができる。

(2)上記第1実施形態において、ある瞬時についての基本周波数の確率密度の推定41が開始されて間もなく、基本周波数の確率密度関数の変動が大きい段階では、フォーム推定413の第2フェーズ(フォーム選択フェーズ)を実行する際に、制約条件aを課さないで、なるべく多くの音に対応したフォームデータを残し、基本周波数の確率密度関数の変動がある程度収束した段階で、フォーム推定413の第2フェーズ(フォーム選択フェーズ)の実行の際に制約条件aを課すようにしてもよい。

この発明の第1実施形態である音分析プログラムの処理内容を示す図である。 同実施形態において音モデルに対する重みのパラメータがEMアルゴリズムにより更新される過程を例示した図である。 同実施形態において行われるフォーム推定の処理内容を例示する図である。 同実施形態において行われる事前分布付与の処理内容を例示する図である。 同実施形態において行われる基本周波数の確定の実行例を示す図である。 この発明の第2実施形態である音分析プログラムの処理内容を示す図である。 この発明の第3実施形態である音分析プログラムの処理内容のうち基本周波数の確率密度関数の推定および基本周波数の確定に相当する部分の処理内容を示すフローチャートである。

符号の説明

1……瞬時周波数の算出、2……周波数成分の候補の算出、3……周波数帯域の制限、4a……メロディラインの推定、4b……ベースラインの推定、41……基本周波数の確率密度関数の推定、42,42a……基本周波数の確定、411……EステップおよびMステップ、412……収束判定、413……フォーム推定、414……事前分布付与。

Claims (9)

  1. 各々音源の音の高調波構造に対応した構造を有し、各種の基本周波数に対応した確率密度関数である複数の音モデルを重み付け加算した混合分布が、入力音響信号の周波数成分の分布となるように、各種の基本周波数に対応した各音モデルに対する重み値を逐次更新して最適化し、最適化された各音モデルの重み値を前記入力音響信号における音源の音の基本周波数の確率密度関数として推定する確率密度関数推定手段であって、
    (a)前記音源が同時に発音可能な1または複数の音に関する制約条件を定義する音源構造データを記憶する記憶手段と、
    (b)前記各種の基本周波数に対応した各音モデルに対する重み値を逐次更新して最適化する過程において、重み値がピークとなる各基本周波数の中から前記音源構造データにより定義された制約条件を満たさない音の基本周波数を除き、残った1または複数の音の基本周波数を示すフォームデータを作成するフォーム推定手段と、
    (c)前記フォーム推定手段により作成されたフォームデータが示す基本周波数に対応した重み値が強調されるように、前記各種の基本周波数に対応した各音モデルに対する重み値に事前分布を与える事前分布付与手段とを具備する確率密度関数推定手段と、
    前記確率密度関数推定手段により推定された基本周波数の確率密度関数に基づいて前記入力音響信号における音源の音の基本周波数を確定させる基本周波数確定手段と
    を具備することを特徴とする音分析装置。
  2. 各々音源の音の高調波構造に対応した構造を有し、各種の基本周波数に対応した確率密度関数である複数の音モデルを重み付け加算した混合分布が、入力音響信号の周波数成分の分布となるように、各種の基本周波数に対応した各音モデルに対する重み値を逐次更新して最適化し、最適化された各音モデルの重み値を前記入力音響信号における音源の音の基本周波数の確率密度関数として推定する確率密度関数推定手段と、
    前記確率密度関数推定手段により推定される確率密度関数に基づいて前記音源の音の基本周波数を確定させる基本周波数確定手段であって、
    (a)前記音源が同時に発音可能な1または複数の音に関する制約条件を定義した音源構造データを記憶する記憶手段と、
    (b)前記確率密度関数推定手段により推定された確率密度関数において重み値がピークとなる各基本周波数の中から、前記音源構造データにより定義された制約条件を満たさない1または複数の音の基本周波数を除き、残った基本周波数を示すフォームデータを作成するフォーム推定手段とを具備し、前記フォームデータに基づいて前記入力音響信号における音源の音の基本周波数を確定させる基本周波数確定手段と
    を具備することを特徴とする音分析装置。
  3. 各々音源の音の高調波構造に対応した構造を有し、各種の基本周波数に対応した確率密度関数である複数の音モデルを重み付け加算した混合分布が、入力音響信号の周波数成分の分布となるように、各種の基本周波数に対応した各音モデルに対する重み値を逐次更新して最適化し、最適化された各音モデルの重み値を前記入力音響信号における音源の音の基本周波数の確率密度関数として推定する確率密度関数推定手段であって、
    (a)前記音源が同時に発音可能な1または複数の音に関する制約条件を定義する音源構造データを記憶する記憶手段と、
    (b)前記入力音響信号の周波数成分に基づいて、前記各種の基本周波数に対応した各音モデルに対する重み値を所定回数更新する第1の更新手段と、
    (c)前記第1の更新手段の処理を経た前記各種の基本周波数に対応した各音モデルに対する重み値に基づき、重み値がピークとなる各基本周波数を求め、前記重み値がピークとなる各基本周波数の中から、前記音源構造データにより定義された制約条件を満たさない1または複数の音の基本周波数を除き、残った1または複数の基本周波数を示すフォームデータを生成するフォーム推定手段を含む基本周波数選択手段と、
    (d)前記フォームデータが示す基本周波数に対応した重み値が強調されるように、前記各種の基本周波数に対応した各音モデルに対する重み値に事前分布を付与し、前記入力音響信号の周波数成分に基づいて、前記各種の基本周波数に対応した各音モデルに対する重み値を所定回数更新する第2の更新手段とを具備する確率密度関数推定手段と、
    前記確率密度関数推定手段により推定された基本周波数の確率密度関数に基づいて前記入力音響信号における音源の音の基本周波数を確定させる基本周波数確定手段と
    を具備することを特徴とする音分析装置。
  4. 前記確率密度関数推定手段は、前記事前分布の付与を行うことなく、前記第2の更新手段の処理を経た前記各種の基本周波数に対応した各音モデルに対する重み値を前記入力音響信号の周波数成分に基づいて所定回数更新する第3の更新手段を具備することを特徴とする請求項3に記載の音分析装置。
  5. 前記基本周波数確定手段は、前記フォームデータが示す各基本周波数に対応した確率密度の各ピーク値の中の最大値に応じた閾値を算出し、前記フォームデータが示す各基本周波数の中から確率密度のピーク値が前記閾値を越えるものを選択し、前記入力音響信号における音源の音の基本周波数として確定させる手段を具備することを特徴とする請求項1〜4のいずれか1の請求項に記載の音分析装置。
  6. 前記フォーム推定手段は、前記フォームデータが示す各基本周波数を選択し、この選択した基本周波数に対応した重み値を0として、各種の基本周波数に対応した各音モデルに対する重み値を更新する処理を1回実行し、この結果、各種の基本周波数に対応した各音モデルに対する重み値に大きな変化がない場合に、前記フォームデータが示す基本周波数の中から当該基本周波数を除外する手段を含むことを特徴とする請求項1〜5のいずれか1の請求項に記載の音分析装置。
  7. コンピュータを、
    各々音源の音の高調波構造に対応した構造を有し、各種の基本周波数に対応した確率密度関数である複数の音モデルを重み付け加算した混合分布が、入力音響信号の周波数成分の分布となるように、各種の基本周波数に対応した各音モデルに対する重み値を逐次更新して最適化し、最適化された各音モデルの重み値を前記入力音響信号における音源の音の基本周波数の確率密度関数として推定する確率密度関数推定手段であって、
    (a)前記音源が同時に発音可能な1または複数の音に関する制約条件を定義する音源構造データを記憶する記憶手段と、
    (b)前記各種の基本周波数に対応した各音モデルに対する重み値を逐次更新して最適化する過程において、重み値がピークとなる各基本周波数の中から前記音源構造データにより定義された制約条件を満たさない音の基本周波数を除き、残った1または複数の音の基本周波数を示すフォームデータを作成するフォーム推定手段と、
    (c)前記フォーム推定手段により作成されたフォームデータが示す基本周波数に対応した重み値が強調されるように、前記各種の基本周波数に対応した各音モデルに対する重み値に事前分布を与える事前分布付与手段とを具備する確率密度関数推定手段と、
    前記確率密関数度推定手段により推定された基本周波数の確率密度関数に基づいて前記入力音響信号における音源の音の基本周波数を確定させる基本周波数確定手段として機能させることを特徴とするコンピュータプログラム。
  8. コンピュータを、
    各々音源の音の高調波構造に対応した構造を有し、各種の基本周波数に対応した確率密度関数である複数の音モデルを重み付け加算した混合分布が、入力音響信号の周波数成分の分布となるように、各種の基本周波数に対応した各音モデルに対する重み値を逐次更新して最適化し、最適化された各音モデルの重み値を前記入力音響信号における音源の音の基本周波数の確率密度関数として推定する確率密度関数推定手段と、
    前記確率密度関数推定手段により推定される確率密度関数に基づいて前記音源の音の基本周波数を確定させる基本周波数確定手段であって、
    (a)前記音源が同時に発音可能な1または複数の音に関する制約条件を定義した音源構造データを記憶する記憶手段と、
    (b)前記確率密度関数推定手段により推定された確率密度関数において重み値がピークとなる各基本周波数の中から、前記音源構造データにより定義された制約条件を満たさない1または複数の音の基本周波数を除き、残った基本周波数を示すフォームデータを作成するフォーム推定手段とを具備し、前記フォームデータに基づいて前記入力音響信号における音源の音の基本周波数を確定させる基本周波数確定手段として機能させることを特徴とするコンピュータプログラム。
  9. コンピュータを、
    各々音源の音の高調波構造に対応した構造を有し、各種の基本周波数に対応した確率密度関数である複数の音モデルを重み付け加算した混合分布が、入力音響信号の周波数成分の分布となるように、各種の基本周波数に対応した各音モデルに対する重み値を逐次更新して最適化し、最適化された各音モデルの重み値を前記入力音響信号における音源の音の基本周波数の確率密度関数として推定する確率密度関数推定手段であって、
    (a)前記音源が同時に発音可能な1または複数の音に関する制約条件を定義する音源構造データを記憶する記憶手段と、
    (b)前記入力音響信号の周波数成分に基づいて、前記各種の基本周波数に対応した各音モデルに対する重み値を所定回数更新する第1の更新手段と、
    (c)前記第1の更新手段の処理を経た前記各種の基本周波数に対応した各音モデルに対する重み値に基づき、重み値がピークとなる各基本周波数を求め、前記重み値がピークとなる各基本周波数の中から、前記音源構造データにより定義された制約条件を満たさない1または複数の音の基本周波数を除き、残った1または複数の基本周波数を示すフォームデータを生成するフォーム推定手段を含む基本周波数選択手段と、
    (d)前記フォームデータが示す基本周波数に対応した重み値が強調されるように、前記各種の基本周波数に対応した各音モデルに対する重み値に事前分布を付与し、前記入力音響信号の周波数成分に基づいて、前記各種の基本周波数に対応した各音モデルに対する重み値を所定回数更新する第2の更新手段とを具備する確率密度関数推定手段と、
    前記確率密度関数推定手段により推定された基本周波数の確率密度関数に基づいて前記入力音響信号における音源の音の基本周波数を確定させる基本周波数確定手段として機能させることを特徴とするコンピュータプログラム。
JP2006237274A 2006-09-01 2006-09-01 音分析装置およびプログラム Active JP4660739B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006237274A JP4660739B2 (ja) 2006-09-01 2006-09-01 音分析装置およびプログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006237274A JP4660739B2 (ja) 2006-09-01 2006-09-01 音分析装置およびプログラム
EP07016921.4A EP1895506B1 (en) 2006-09-01 2007-08-29 Sound analysis apparatus and program
US11/849,232 US7754958B2 (en) 2006-09-01 2007-08-31 Sound analysis apparatus and program

Publications (2)

Publication Number Publication Date
JP2008058755A JP2008058755A (ja) 2008-03-13
JP4660739B2 true JP4660739B2 (ja) 2011-03-30

Family

ID=38627010

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006237274A Active JP4660739B2 (ja) 2006-09-01 2006-09-01 音分析装置およびプログラム

Country Status (3)

Country Link
US (1) US7754958B2 (ja)
EP (1) EP1895506B1 (ja)
JP (1) JP4660739B2 (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7459624B2 (en) 2006-03-29 2008-12-02 Harmonix Music Systems, Inc. Game controller simulating a musical instrument
JP4630979B2 (ja) * 2006-09-04 2011-02-09 ヤマハ株式会社 音高推定装置、音高推定方法およびプログラム
JP4630980B2 (ja) * 2006-09-04 2011-02-09 ヤマハ株式会社 音高推定装置、音高推定方法およびプログラム
US20100043625A1 (en) * 2006-12-12 2010-02-25 Koninklijke Philips Electronics N.V. Musical composition system and method of controlling a generation of a musical composition
JP4322283B2 (ja) * 2007-02-26 2009-08-26 ヤマハ株式会社 演奏判定装置およびプログラム
US8678896B2 (en) 2007-06-14 2014-03-25 Harmonix Music Systems, Inc. Systems and methods for asynchronous band interaction in a rhythm action game
EP2173444A2 (en) 2007-06-14 2010-04-14 Harmonix Music Systems, Inc. Systems and methods for simulating a rock band experience
JP5088030B2 (ja) * 2007-07-26 2012-12-05 ヤマハ株式会社 演奏音の類似度を評価する方法、装置およびプログラム
JP4375471B2 (ja) * 2007-10-05 2009-12-02 ソニー株式会社 信号処理装置、信号処理方法、およびプログラム
US8494842B2 (en) * 2007-11-02 2013-07-23 Soundhound, Inc. Vibrato detection modules in a system for automatic transcription of sung or hummed melodies
JP5188300B2 (ja) * 2008-07-14 2013-04-24 日本電信電話株式会社 基本周波数軌跡モデルパラメータ抽出装置、基本周波数軌跡モデルパラメータ抽出方法、プログラム及び記録媒体
JP5593608B2 (ja) 2008-12-05 2014-09-24 ソニー株式会社 情報処理装置、メロディーライン抽出方法、ベースライン抽出方法、及びプログラム
US8660678B1 (en) * 2009-02-17 2014-02-25 Tonara Ltd. Automatic score following
US8449360B2 (en) 2009-05-29 2013-05-28 Harmonix Music Systems, Inc. Displaying song lyrics and vocal cues
US8465366B2 (en) 2009-05-29 2013-06-18 Harmonix Music Systems, Inc. Biasing a musical performance input to a part
US8017854B2 (en) * 2009-05-29 2011-09-13 Harmonix Music Systems, Inc. Dynamic musical part determination
US8026435B2 (en) * 2009-05-29 2011-09-27 Harmonix Music Systems, Inc. Selectively displaying song lyrics
US8080722B2 (en) * 2009-05-29 2011-12-20 Harmonix Music Systems, Inc. Preventing an unintentional deploy of a bonus in a video game
US7982114B2 (en) * 2009-05-29 2011-07-19 Harmonix Music Systems, Inc. Displaying an input at multiple octaves
US8076564B2 (en) * 2009-05-29 2011-12-13 Harmonix Music Systems, Inc. Scoring a musical performance after a period of ambiguity
US7935880B2 (en) * 2009-05-29 2011-05-03 Harmonix Music Systems, Inc. Dynamically displaying a pitch range
US9981193B2 (en) 2009-10-27 2018-05-29 Harmonix Music Systems, Inc. Movement based recognition and evaluation
EP2494432B1 (en) 2009-10-27 2019-05-29 Harmonix Music Systems, Inc. Gesture-based user interface
US8874243B2 (en) 2010-03-16 2014-10-28 Harmonix Music Systems, Inc. Simulating musical instruments
US8562403B2 (en) 2010-06-11 2013-10-22 Harmonix Music Systems, Inc. Prompting a player of a dance game
EP2579955A1 (en) 2010-06-11 2013-04-17 Harmonix Music Systems, Inc. Dance game and tutorial
US9358456B1 (en) 2010-06-11 2016-06-07 Harmonix Music Systems, Inc. Dance competition game
US9024166B2 (en) 2010-09-09 2015-05-05 Harmonix Music Systems, Inc. Preventing subtractive track separation
US8965832B2 (en) 2012-02-29 2015-02-24 Adobe Systems Incorporated Feature estimation in sound sources
EP2875508A4 (en) * 2012-07-20 2015-12-30 Interactive Intelligence Inc Method and system for real-time keyword spotting for speech analytics
JP6123995B2 (ja) * 2013-03-14 2017-05-10 ヤマハ株式会社 音響信号分析装置及び音響信号分析プログラム
JP6179140B2 (ja) 2013-03-14 2017-08-16 ヤマハ株式会社 音響信号分析装置及び音響信号分析プログラム
JP2014219607A (ja) * 2013-05-09 2014-11-20 ソニー株式会社 音楽信号処理装置および方法、並びに、プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3413634B2 (ja) * 1999-10-27 2003-06-03 真孝 後藤 音高推定方法及び装置
JP2006285052A (ja) * 2005-04-01 2006-10-19 National Institute Of Advanced Industrial & Technology 音高推定方法及び装置並びに音高推定用プラグラム
JP2007041234A (ja) * 2005-08-02 2007-02-15 Univ Of Tokyo 音楽音響信号の調推定方法および調推定装置
JP2008058753A (ja) * 2006-09-01 2008-03-13 National Institute Of Advanced Industrial & Technology 音分析装置およびプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6140568A (en) * 1997-11-06 2000-10-31 Innovative Music Systems, Inc. System and method for automatically detecting a set of fundamental frequencies simultaneously present in an audio signal
US20010045153A1 (en) * 2000-03-09 2001-11-29 Lyrrus Inc. D/B/A Gvox Apparatus for detecting the fundamental frequencies present in polyphonic music
WO2005066927A1 (ja) * 2004-01-09 2005-07-21 Toudai Tlo, Ltd. 多重音信号解析方法
JP4630980B2 (ja) * 2006-09-04 2011-02-09 ヤマハ株式会社 音高推定装置、音高推定方法およびプログラム
US8005666B2 (en) * 2006-10-24 2011-08-23 National Institute Of Advanced Industrial Science And Technology Automatic system for temporal alignment of music audio signal with lyrics
JP4322283B2 (ja) * 2007-02-26 2009-08-26 ヤマハ株式会社 演奏判定装置およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3413634B2 (ja) * 1999-10-27 2003-06-03 真孝 後藤 音高推定方法及び装置
JP2006285052A (ja) * 2005-04-01 2006-10-19 National Institute Of Advanced Industrial & Technology 音高推定方法及び装置並びに音高推定用プラグラム
JP2007041234A (ja) * 2005-08-02 2007-02-15 Univ Of Tokyo 音楽音響信号の調推定方法および調推定装置
JP2008058753A (ja) * 2006-09-01 2008-03-13 National Institute Of Advanced Industrial & Technology 音分析装置およびプログラム

Also Published As

Publication number Publication date
JP2008058755A (ja) 2008-03-13
EP1895506B1 (en) 2016-10-05
US20080053295A1 (en) 2008-03-06
EP1895506A1 (en) 2008-03-05
US7754958B2 (en) 2010-07-13

Similar Documents

Publication Publication Date Title
Helen et al. Separation of drums from polyphonic music using non-negative matrix factorization and support vector machine
Serra Musical sound modeling with sinusoids plus noise
Durrieu et al. A musically motivated mid-level representation for pitch estimation and musical audio source separation
Maher et al. Fundamental frequency estimation of musical signals using a two‐way mismatch procedure
Salamon et al. Melody extraction from polyphonic music signals using pitch contour characteristics
US6140568A (en) System and method for automatically detecting a set of fundamental frequencies simultaneously present in an audio signal
CN1174368C (zh) 修改复合波形的泛音含量的方法
Godsill et al. Bayesian harmonic models for musical pitch estimation and analysis
Gillet et al. Transcription and separation of drum signals from polyphonic music
Duxbury et al. Separation of transient information in musical audio using multiresolution analysis techniques
US6541691B2 (en) Generation of a note-based code
US8168877B1 (en) Musical harmony generation from polyphonic audio signals
Davy et al. Bayesian analysis of polyphonic western tonal music
Goto A real-time music-scene-description system: Predominant-F0 estimation for detecting melody and bass lines in real-world audio signals
Yeh et al. Multiple fundamental frequency estimation and polyphony inference of polyphonic music signals
Kostek Perception-based data processing in acoustics: applications to music information retrieval and psychophysiology of hearing
US6930236B2 (en) Apparatus for analyzing music using sounds of instruments
FitzGerald et al. Extended nonnegative tensor factorisation models for musical sound source separation
EP1962274B1 (en) Sound analysis apparatus and programm
Virtanen Monaural sound source separation by nonnegative matrix factorization with temporal continuity and sparseness criteria
Brossier Automatic annotation of musical audio for interactive applications
US6798886B1 (en) Method of signal shredding
Laurson et al. Methods for modeling realistic playing in acoustic guitar synthesis
Holzapfel et al. Three dimensions of pitched instrument onset detection
US9111526B2 (en) Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090617

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090618

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100706

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101012

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101130

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101208

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140114

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250