JP4625935B2 - 音分析装置およびプログラム - Google Patents
音分析装置およびプログラム Download PDFInfo
- Publication number
- JP4625935B2 JP4625935B2 JP2007045236A JP2007045236A JP4625935B2 JP 4625935 B2 JP4625935 B2 JP 4625935B2 JP 2007045236 A JP2007045236 A JP 2007045236A JP 2007045236 A JP2007045236 A JP 2007045236A JP 4625935 B2 JP4625935 B2 JP 4625935B2
- Authority
- JP
- Japan
- Prior art keywords
- probability density
- density function
- sound
- fundamental frequency
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Electrophonic Musical Instruments (AREA)
- Auxiliary Devices For Music (AREA)
Description
図1は、この発明の一実施形態による音分析プログラムの処理内容を示す図である。この音分析プログラムは、自然界から音響信号を取得する収音機能、CD等の記録媒体から音楽の音響信号を再生する再生機能またはネットワークを介して音楽の音響信号を取得する通信機能等の音響信号取得機能を備えたパーソナルコンピュータ等のコンピュータにインストールされて実行される。本実施形態による音分析プログラムを実行するコンピュータは、本実施形態による音分析装置として機能する。
この瞬時周波数の算出1と、アタック検出1aと、周波数成分の候補の抽出2と、周波数帯域の制限3と、メロディラインの推定4aおよびベースラインの推定4bにおける基本周波数の確率密度関数の推定41の各処理は、時間軸上において音響信号を分割した一定時間長のフレームを単位として実行される。以下において時刻tは、具体的にはフレームの番号である。瞬時周波数の算出1では、入力音響信号を複数のBPFからなるフィルタバンクに与え、フィルタバンクの各BPFの出力信号について、位相の時間微分である瞬時周波数(Flanagan, J.L. and Golden, R.M.: Phase Vocoder, The BellSystem
Technical J., Vol.45, pp.1493-1509 (1966)参照)を計算する。ここでは、上記Flanaganの手法を用い、短時間フーリエ変換(STFT)の出力をフィルタバンク出力と解釈して、効率良く瞬時周波数を計算する。入力音響信号x(t)に対する窓関数h(t)を用いたSTFTが式(3)および(4)により与えられるとき、瞬時周波数λ(ω,t)は式(5)により求めることができる。
Vol.ASSP-35, No.3, pp. 356-372 (1987)、参照)を構成し、リアルタイムに実行可能という制約のもとで、ある程度妥当な時間周波数分解能を得る。
この処理では、時間軸上において入力音響信号を分割した各フレームが入力音響信号のアタック区間内のフレームであるか否かの判定を行い、フレーム毎にそのフレームがアタック区間のものか否かを示す情報をメロディラインの推定4aおよびベースラインの推定4bに引き渡す。フレームが入力音響信号のアタック区間のものであるか否かの判定方法には周知の各種の方法があるが、例えば特許文献2に開示されているように、各フレームをより時間長の短い複数の解析区間に分割し、これらの複数の解析区間における音響信号のエネルギーの変動を解析することにより、当該フレームがアタック区間のものか否かを判定することが可能である。
この処理では、フィルタの中心周波数からその瞬時周波数への写像に基づいて、周波数成分の候補を抽出する(Charpentier, F.J.: Pitch detection using the short-termphase
spectrum, Proc. of ICASSP 86, pp.113-116 (1986)参照)。あるSTFTフィルタの中心周波数ωからその出力の瞬時周波数λ(ω,t)への写像を考える。すると、もし周波数ψの周波数成分があるときには、ψがこの写像の不動点に位置し、その周辺の瞬時周波数の値はほぼ一定となる。つまり、全周波数成分の瞬時周波数Ψf (t)は、次式によって抽出することができる。
これらの周波数成分のパワーは、Ψf (t)の各周波数におけるSTFTパワースペクトルの値として得られるため、周波数成分のパワー分布関数Ψp (t)(ω)を次のように定義することができる。
この処理では、抽出した周波数成分に重み付けすることで、周波数帯域を制限する。ここでは、メロディラインとベースライン用に、2種類のBPFを用意する。メロディライン用BPFは、典型的なメロディラインの主要な基本波成分および高調波成分の多くを通過させることができ、かつ、基本周波数付近の重複が頻繁に起きる周波数帯域をある程度遮断する。一方、ベースライン用BPFは、典型的なベースラインの主要な基本周波数成分および高調波成分の多くを通過させることができ、かつ、他の演奏パートがベースラインよりも優勢になるような周波数帯域をある程度遮断する。
平均律の半音は100centに、1オクターブは1200centに相当する。
この処理では、BPFを通過した周波数成分の候補に対し、各高調波構造が相対的にどれくらい優勢かを表す基本周波数の確率密度関数を求める。そのために、本実施形態では、周波数成分の確率密度関数pΨ (t)(x)が、高調波構造を持つ音をモデル化した確率分布(音モデル)の混合分布モデル(重み付き和のモデル)から生成されたと考える。基本周波数がFの音モデルの確率密度関数をp(x|F)とすると、その混合分布モデルp(x;θ(t))は、次式により定義することができる。
本実施形態による音分析プログラムは、以上のようにして得られる基本周波数の確率密度関数に基づいて、入力音響信号に含まれる1または複数の音源の音の基本周波数を推定して出力する基本周波数推定手段としての処理を含む。この処理では、最も優勢な基本周波数Fi(t)を決定するために、次式に示すように、基本周波数の確率密度関数pF0 (t)(F)(式(15)より、式(17)を反復計算した最終的な推定値として得られる)を最大にする周波数を基本周波数の推定値として求める。
図4は本実施形態における基本周波数の確率密度関数の推定41の処理内容を示している。図4に示すように、基本周波数の確率密度関数の推定41においては、EMアルゴリズムのEステップおよびMステップ411と、収束判定412とを繰り返す。
この第1の態様は、処理対象であるフレームがアタック区間のものである場合には、当該フレームにおける重み値w(t)(F)の逐次更新が所定の初期値wflat(F)から開始されるように、基本周波数の確率密度関数の推定41の演算制御を行い、処理対象であるフレームがアタック区間のものでない場合には、当該フレームにおける重み値w(t)(F)の逐次更新が前フレームにおける重み値w(t-1)(F)の最終値を初期値として開始されるように基本周波数の確率密度関数の推定41のための演算制御を行う態様である。
強いタッチで楽器演奏が行われた等の場合には、音響信号のアタック区間が終了しても暫くの間は波形の不安定な状態が続くことがある。そのような場合、アタック区間が終了した後のフレームであっても、前フレームの最終的な重み値w(t-1)(F)を初期値として使用して、重み値w(t)(F)の逐次更新を行うと、誤った基本周波数において重み値がピークとなり、基本周波数の誤推定が発生するおそれがある。
上記第1の態様および第2の態様では、アタック検出1aから引き渡される情報に従い、音モデルに対する重み値w(t)(F)の初期値の制御を行った。これに対し、第3の態様では、図7に示すように、アタック区間以外の区間では、通常の音モデルが用いられ、アタック区間では、アタック区間用の音モデルが用いられるように、EステップおよびMステップ411に用いられる音モデルの切り換えを行う。
上記第1〜第3の態様では、基本周波数の確率密度関数の推定41が、アタック検出1aの処理結果に基づく制御の対象となった。これに対し、この第4の態様では、基本周波数推定手段であるマルチエージェントモデルによる基本周波数の継時的な追跡42が、アタック検出1aの処理結果に基づく制御の対象となる。すなわち、この第4の態様において音分析プログラムの演算制御手段は、アタック区間では、基本周波数の確率密度関数の推定41により得られる基本周波数の確率密度関数が得られたとしても、その確率密度関数に基づく基本周波数の推定および出力を行わないように、マルチエージェントモデルによる基本周波数の継時的な追跡42を制御する。すなわち、基本周波数の誤推定が発生するアタック区間では、基本周波数の推定および出力を行わず、出力される基本周波数についてのみ推定の精度を高める趣旨である。
以上、この発明の一実施形態について説明したが、この発明には他にも実施形態があり得る。例えば次の通りである。
(1)第1の態様または第2の態様の一方と、第3の態様とを併用し得るように音分析プログラムの演算制御手段を構成してもよい。
(2)第3の態様において、アタック区間のみならず、アタック区間が終了してから所定時間が経過するまでの期間についても、アタック区間用の音モデルを使用して、基本周波数の確率密度関数の推定41を実行するように制御してもよい。
(3)第4の態様において、アタック区間のみならず、アタック区間が終了してから所定時間が経過するまでの期間についても、基本周波数の推定および出力を停止させてもよい。
Claims (5)
- 入力音響信号を所定時間長のフレームに分割し、フレーム毎に入力音響信号がアタック区間の信号であるか否かを判定するアタック検出手段と、
フレーム毎に、各々音源の音の高調波構造に対応した構造を有する確率密度関数である音モデルを使用して、各種の基本周波数に対応した複数の音モデルを重み付け加算した混合分布を構成し、この混合分布が入力音響信号の周波数成分の分布となるように、各音モデルに対する重み値を逐次更新して最適化し、最適化された各音モデルの重み値を前記入力音響信号における音源の音の基本周波数の確率密度関数として推定する確率密度関数推定手段と、
前記基本周波数の確率密度関数に基づいて前記入力音響信号に含まれる1または複数の音源の音の基本周波数を推定して出力する基本周波数推定手段と、
前記確率密度関数推定手段の処理対象となるフレームがアタック区間のものであるか否かにより前記確率密度関数推定手段における基本周波数の確率密度関数の推定のための演算の態様を切り換える手段であって、前記確率密度関数推定手段の処理対象であるフレームがアタック区間のものである場合には、当該フレームにおける重み値の逐次更新が所定の初期値から開始されるように前記確率密度関数推定手段における基本周波数の確率密度関数の推定のための演算の制御を行い、前記確率密度関数推定手段の処理対象であるフレームがアタック区間のものでない場合には、当該フレームにおける重み値の逐次更新が前フレームにおける重み値の最終値を初期値として開始されるように前記確率密度関数推定手段における基本周波数の確率密度関数の推定のための演算の制御を行う演算制御手段と
を具備することを特徴とする音分析装置。 - 入力音響信号を所定時間長のフレームに分割し、フレーム毎に入力音響信号がアタック区間の信号であるか否かを判定するアタック検出手段と、
フレーム毎に、各々音源の音の高調波構造に対応した構造を有する確率密度関数である音モデルを使用して、各種の基本周波数に対応した複数の音モデルを重み付け加算した混合分布を構成し、この混合分布が入力音響信号の周波数成分の分布となるように、各音モデルに対する重み値を逐次更新して最適化し、最適化された各音モデルの重み値を前記入力音響信号における音源の音の基本周波数の確率密度関数として推定する確率密度関数推定手段と、
前記基本周波数の確率密度関数に基づいて前記入力音響信号に含まれる1または複数の音源の音の基本周波数を推定して出力する基本周波数推定手段と、
前記確率密度関数推定手段の処理対象となるフレームがアタック区間のものであるか否かにより前記確率密度関数推定手段における基本周波数の確率密度関数の推定のための演算の態様を切り換える手段であって、前記確率密度関数推定手段の処理対象であるフレームがアタック区間のものである場合には、当該フレームにおける重み値の逐次更新が所定の初期値から開始されるように前記確率密度関数推定手段における基本周波数の確率密度関数の推定のための演算の制御を行い、前記確率密度関数推定手段の処理対象であるフレームがアタック区間のものでない場合には、当該フレームにおける重み値の逐次更新が前フレームにおける重み値の最終値と所定の初期値とをミキシングした重み値を初期値として開始されるように前記確率密度関数推定手段における基本周波数の確率密度関数の推定のための演算の制御を行い、かつ、直前のアタック区間の終了時からの経過時間が長くなるに従って、前フレームでの重み値の最終値が強調されるように、前フレームにおける重み値の最終値と所定の初期値とのミキシング比を制御する演算制御手段と
を具備することを特徴とする音分析装置。 - 前記演算制御手段は、前記確率密度関数推定手段の処理対象であるフレームがアタック区間のものであるか否かにより、前記基本周波数の確率密度関数の推定に用いられる音モデルの切り換えを行うことを特徴とする請求項1または2に記載の音分析装置。
- コンピュータを、
入力音響信号を所定時間長のフレームに分割し、フレーム毎に入力音響信号がアタック区間の信号であるか否かを判定するアタック検出手段と、
フレーム毎に、各々音源の音の高調波構造に対応した構造を有する確率密度関数である音モデルを使用して、各種の基本周波数に対応した複数の音モデルを重み付け加算した混合分布を構成し、この混合分布が入力音響信号の周波数成分の分布となるように、各音モデルに対する重み値を逐次更新して最適化し、最適化された各音モデルの重み値を前記入力音響信号における音源の音の基本周波数の確率密度関数として推定する確率密度関数推定手段と、
前記基本周波数の確率密度関数に基づいて前記入力音響信号に含まれる1または複数の音源の音の基本周波数を推定して出力する基本周波数推定手段と、
前記確率密度関数推定手段の処理対象となるフレームがアタック区間のものであるか否かにより前記確率密度関数推定手段における基本周波数の確率密度関数の推定のための演算の態様を切り換える手段であって、前記確率密度関数推定手段の処理対象であるフレームがアタック区間のものである場合には、当該フレームにおける重み値の逐次更新が所定の初期値から開始されるように前記確率密度関数推定手段における基本周波数の確率密度関数の推定のための演算の制御を行い、前記確率密度関数推定手段の処理対象であるフレームがアタック区間のものでない場合には、当該フレームにおける重み値の逐次更新が前フレームにおける重み値の最終値を初期値として開始されるように前記確率密度関数推定手段における基本周波数の確率密度関数の推定のための演算の制御を行う演算制御手段と
して機能させることを特徴とするコンピュータプログラム。 - コンピュータを、
入力音響信号を所定時間長のフレームに分割し、フレーム毎に入力音響信号がアタック区間の信号であるか否かを判定するアタック検出手段と、
フレーム毎に、各々音源の音の高調波構造に対応した構造を有する確率密度関数である音モデルを使用して、各種の基本周波数に対応した複数の音モデルを重み付け加算した混合分布を構成し、この混合分布が入力音響信号の周波数成分の分布となるように、各音モデルに対する重み値を逐次更新して最適化し、最適化された各音モデルの重み値を前記入力音響信号における音源の音の基本周波数の確率密度関数として推定する確率密度関数推定手段と、
前記基本周波数の確率密度関数に基づいて前記入力音響信号に含まれる1または複数の音源の音の基本周波数を推定して出力する基本周波数推定手段と、
前記確率密度関数推定手段の処理対象となるフレームがアタック区間のものであるか否かにより前記確率密度関数推定手段における基本周波数の確率密度関数の推定のための演算の態様を切り換える手段であって、前記確率密度関数推定手段の処理対象であるフレームがアタック区間のものである場合には、当該フレームにおける重み値の逐次更新が所定の初期値から開始されるように前記確率密度関数推定手段における基本周波数の確率密度関数の推定のための演算の制御を行い、前記確率密度関数推定手段の処理対象であるフレームがアタック区間のものでない場合には、当該フレームにおける重み値の逐次更新が前フレームにおける重み値の最終値と所定の初期値とをミキシングした重み値を初期値として開始されるように前記確率密度関数推定手段における基本周波数の確率密度関数の推定のための演算の制御を行い、かつ、直前のアタック区間の終了時からの経過時間が長くなるに従って、前フレームでの重み値の最終値が強調されるように、前フレームにおける重み値の最終値と所定の初期値とのミキシング比を制御する演算制御手段と
として機能させることを特徴とするコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007045236A JP4625935B2 (ja) | 2007-02-26 | 2007-02-26 | 音分析装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007045236A JP4625935B2 (ja) | 2007-02-26 | 2007-02-26 | 音分析装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008209579A JP2008209579A (ja) | 2008-09-11 |
JP4625935B2 true JP4625935B2 (ja) | 2011-02-02 |
Family
ID=39785951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007045236A Expired - Fee Related JP4625935B2 (ja) | 2007-02-26 | 2007-02-26 | 音分析装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4625935B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5593608B2 (ja) | 2008-12-05 | 2014-09-24 | ソニー株式会社 | 情報処理装置、メロディーライン抽出方法、ベースライン抽出方法、及びプログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001134269A (ja) * | 1999-11-05 | 2001-05-18 | Yamaha Corp | 音響信号分析方法 |
JP2001154698A (ja) * | 1999-11-29 | 2001-06-08 | Victor Co Of Japan Ltd | オーディオ符号化装置及びその方法 |
JP3413634B2 (ja) * | 1999-10-27 | 2003-06-03 | 独立行政法人産業技術総合研究所 | 音高推定方法及び装置 |
JP3660599B2 (ja) * | 2001-03-09 | 2005-06-15 | 日本電信電話株式会社 | 音響信号の立ち上がり・立ち下がり検出方法及び装置並びにプログラム及び記録媒体 |
WO2005066927A1 (ja) * | 2004-01-09 | 2005-07-21 | Toudai Tlo, Ltd. | 多重音信号解析方法 |
-
2007
- 2007-02-26 JP JP2007045236A patent/JP4625935B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3413634B2 (ja) * | 1999-10-27 | 2003-06-03 | 独立行政法人産業技術総合研究所 | 音高推定方法及び装置 |
JP2001134269A (ja) * | 1999-11-05 | 2001-05-18 | Yamaha Corp | 音響信号分析方法 |
JP2001154698A (ja) * | 1999-11-29 | 2001-06-08 | Victor Co Of Japan Ltd | オーディオ符号化装置及びその方法 |
JP3660599B2 (ja) * | 2001-03-09 | 2005-06-15 | 日本電信電話株式会社 | 音響信号の立ち上がり・立ち下がり検出方法及び装置並びにプログラム及び記録媒体 |
WO2005066927A1 (ja) * | 2004-01-09 | 2005-07-21 | Toudai Tlo, Ltd. | 多重音信号解析方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2008209579A (ja) | 2008-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4660739B2 (ja) | 音分析装置およびプログラム | |
JP4322283B2 (ja) | 演奏判定装置およびプログラム | |
US9111526B2 (en) | Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal | |
US6798886B1 (en) | Method of signal shredding | |
JP5088030B2 (ja) | 演奏音の類似度を評価する方法、装置およびプログラム | |
US8831762B2 (en) | Music audio signal generating system | |
JP3413634B2 (ja) | 音高推定方法及び装置 | |
EP1895507B1 (en) | Pitch estimation, apparatus, pitch estimation method, and program | |
Dressler | Pitch estimation by the pair-wise evaluation of spectral peaks | |
KR20130010118A (ko) | 인벨롭 섀이핑을 사용하는 오디오 신호를 변조하는 방법 및 장치 | |
JP6035702B2 (ja) | 音響処理装置および音響処理方法 | |
WO2011132184A1 (en) | Generating pitched musical events corresponding to musical content | |
JP4613923B2 (ja) | 楽音処理装置およびプログラム | |
JP4625933B2 (ja) | 音分析装置およびプログラム | |
JP5924968B2 (ja) | 楽譜位置推定装置、及び楽譜位置推定方法 | |
JP4625935B2 (ja) | 音分析装置およびプログラム | |
Gowriprasad et al. | Onset detection of tabla strokes using lp analysis | |
JP4625934B2 (ja) | 音分析装置およびプログラム | |
JPH0675562A (ja) | 自動採譜装置 | |
Verma et al. | Real-time melodic accompaniment system for indian music using tms320c6713 | |
Paradzinets et al. | Use of continuous wavelet-like transform in automated music transcription | |
Yao et al. | Efficient vocal melody extraction from polyphonic music signals | |
Lin et al. | Sinusoidal Partials Tracking for Singing Analysis Using the Heuristic of the Minimal Frequency and Magnitude Difference. | |
Siao et al. | Pitch Detection/Tracking Strategy for Musical Recordings of Solo Bowed-String and Wind Instruments. | |
Kreutzer et al. | Time domain attack and release modeling-applied to spectral domain sound synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080929 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20080930 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100706 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100906 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101012 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101013 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131119 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |