JP5771582B2 - 音響信号分析装置、方法、及びプログラム - Google Patents

音響信号分析装置、方法、及びプログラム Download PDF

Info

Publication number
JP5771582B2
JP5771582B2 JP2012186441A JP2012186441A JP5771582B2 JP 5771582 B2 JP5771582 B2 JP 5771582B2 JP 2012186441 A JP2012186441 A JP 2012186441A JP 2012186441 A JP2012186441 A JP 2012186441A JP 5771582 B2 JP5771582 B2 JP 5771582B2
Authority
JP
Japan
Prior art keywords
dimensional array
sound
parameter
probability
transition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012186441A
Other languages
English (en)
Other versions
JP2014044296A (ja
Inventor
康智 大石
康智 大石
知範 泉谷
知範 泉谷
弘和 亀岡
弘和 亀岡
柏野 邦夫
邦夫 柏野
大地 持橋
大地 持橋
松井 知子
知子 松井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012186441A priority Critical patent/JP5771582B2/ja
Publication of JP2014044296A publication Critical patent/JP2014044296A/ja
Application granted granted Critical
Publication of JP5771582B2 publication Critical patent/JP5771582B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Auxiliary Devices For Music (AREA)

Description

本発明は、音響信号分析装置、方法、及びプログラムに係り、特に、音響信号の時系列から、信号パラメータを分析する音響信号分析装置、方法、及びプログラムに関する。
一般に、音響信号などの大規模なメディアデータを用いたアプリケーションにおいて、そのデータにいかに有効なラベルを付与するか、大量のデータをいかに計算効率良く処理するかが重要な課題となっている。
従来は、教師あり学習の下で、音響信号に含まれる音イベントを自動的にラベリングする技術が一般的であった。すなわち、学習データとして、ラベル付けされた音イベントの音源信号を事前に用意し、それを周波数分析して得られる音響的特徴と統計モデルを用いて、未知の音響信号の時系列データにラベル付けを行った(例えば、非特許文献1、非特許文献2、及び非特許文献3)。統計モデルでは、例えば、ガウス混合モデル(GMM) を用いる場合、各音イベントを表現しうる音響的特徴の頻度分布が学習される。隠れマルコフモデル(HMM)を用いる場合、音響的特徴の統計的な時間遷移が学習され、これを用いて未知の音響信号の時系列データにラベル付けを行う。これらのラベル付けの多段処理技術(音響信号が無音なのかそうでないか、音楽か話声かを段階的に識別する)も提案されている(例えば、非特許文献4)。また、音の重ね合わせを考慮して、音響信号をあらかじめ、非負値行列分解(NMF)によって音源分離し、分離信号を学習データに用いる技術も提案されている(例えば、非特許文献5)。
J. Saunders," Real-time discrimination of broadcast speech/music, "in Proc. ICASSP 1996. T. Butko and C. Nadeu," Audio segmentation of broadcast news in the Albayzin-2010 evaluation: overview, results, and discussion, " EURASIP Journal onAudio, Speech, and Music Processing, 2011. A. Mesaros, T. Heittola, A. Eronen and T. Virtanen," Acoustic event detection in real life recordings, "in Proc. EUSIPCO 2010. T. Butko and C. Nadeu, " Audio segmentation of broadcast news:A hierarchical system with feature selection for the Albayzin-2010 evaluation, " in Proc.ICASSP 2011. T. Heittola, A. Mesaros, T. Virtanen and A. Eronen," Sound Event Detection in Multisource Environments Using Source Separation, "in Proc. CHiME 2011.
従来は、各音イベントの音響的特徴をあらかじめラベル付けされたデータから学習する必要があった。これには、人手で構築されたラベル付音響信号データが必要であり、その構築にはコストがかかる。また、そもそも観測される音響信号に、どのような音イベントが含まれているか事前知識がないことも多く、音イベントの総数や音イベントを表現するための音響的特徴はモデルが大量の音響信号データから自動的に決定してくれることが理想的である。
本発明は、上記の事情を考慮してなされたもので、音響信号の時系列データから、そこに含まれる音イベントの数、音イベントの状態数を自動的に決定して、全ての音イベントの音響的特徴とその発音区間を自律的に推定することができる音響信号分析装置、方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明に係る音響信号分析装置は、複数の音イベントが混在する音響信号の時系列データを入力として、観測時間周波数成分Yω,t(ωは周波数、tは時刻のインデックスである。)を要素にもつ二次元配列Y^を出力する時間周波数分解手段と、予め定められたD個の音イベントdの各々における所定の基底の状態kの基底スペクトルを表わすパラメータHω,d (k)を要素にもつ三次元配列H^、前記D個の音イベントの各々に対する各時刻tの発音の有無を表すパラメータUd,t(={0、1})を要素にもつ二次元配列U^、及び前記D個の音イベントdの各々に対して各時刻tに前記基底の状態が何れであるかを表わすパラメータZd,tを要素にもつ二次元配列Z^の各々の初期値を設定すると共に、D個(D=D+1)の音イベントdの各々について、前記パラメータUd,tが0から1へ遷移する遷移確率ad(a1>a2>・・・>aD-1>aD>aD†)、及び前記パラメータUd,tが1から1へ遷移する遷移確率bdの各々の初期値を設定するパラメータ初期値設定手段と、0からUd,t=1となるtをもつ音イベントdの中で最も小さい値となる遷移確率adまでの一様分布に従って、補助変数sをサンプリングにより決定し、遷移確率aD†及び補助変数sに応じて音イベントdを追加する場合、D、Dを更新すると共に、追加する音イベントdに対するパラメータUd,t及び前記所定個の基底の状態kを表わすパラメータHω,d (k)の初期値を設定する補助変数推論手段と、(ω、t、d)の全ての組み合わせについて、前記二次元配列Z^、前記三次元配列H^、及び前記二次元配列U^に基づいてパラメータpω,t,dを算出し、算出した各パラメータpω,t,dと、前記二次元配列Y^とをパラメータとする多項分布に従って、D個の音イベントdの各々に対する時間周波数成分Cω,t,dを要素にもつ三次元配列C^をサンプリングにより決定する音源分離手段と、D個の音イベントdの各々について、前記二次元配列Z^、前記三次元配列C^,及び前記二次元配列U^に基づいて、各時刻tに前記基底の状態が各状態kである事後確率、及び各時刻tに前記基底の状態が新規の状態である事後確率を算出し、算出した事後確率に従って、前記二次元配列Z^をサンプリングにより決定する状態系列推論手段と、(k、ω、d)の全ての組み合わせについて、前記二次元配列Z^、及び前記三次元配列C^に基づいて、パラメータφω,d (k)、ψω,d (k)を算出し、算出したパラメータφω,d (k)、ψω,d (k)をパラメータとする確率分布に従って、前記三次元配列H^をサンプリングにより決定する基底スペクトル推論手段と、(d、t)の全ての組み合わせについて、前記三次元配列C^、前記二次元配列Z^、前記三次元配列H^、及び前記遷移行列ad,bdに基づいて、パラメータUd,tの事後分布を算出し、算出したパラメータUd,Tの事後分布に従って、Ud,Tをサンプリングにより決定し、t=T−1,・・・,1について、算出したパラメータUd,tの事後分布と、前記遷移行列ad,bdに基づく事後分布p(Ud,t+1|Ud,t)との積に従って、Ud,tをサンプリングにより決定することにより、前記二次元配列U^を求めるアクティベーション推論手段と、前記D個の音イベントdの各々について、前記遷移確率ad-1、ad+1及び前記二次元配列U^に基づく遷移確率adの確率分布に従って、遷移確率adをサンプリングにより決定し、前記遷移確率aD†に基づく遷移確率adの確率分布に従って、遷移確率aD†をサンプリングにより決定すると共に、前記D個の音イベントdの各々について、前記二次元配列U^に基づく遷移確率bdの確率分布に従って、遷移確率bdをサンプリングにより決定する遷移確率推論手段と、予め定められた収束条件を満たすまで、前記補助変数推論手段、前記音源分離手段、前記状態系列推論手段、前記基底スペクトル推論手段、前記アクティベーション推論手段、及び前記遷移確率推論手段による各処理を繰り返し行い、前記三次元配列C^、前記二次元配列Z^、前記三次元配列H^、及び前記二次元配列U^を出力する収束判定手段と、を含んで構成されている。
本発明に係る音響信号分析方法は、時間周波数分解手段、パラメータ初期値設定手段、補助変数推論手段、音源分離手段、基底スペクトル推論手段、アクティベーション推論手段、遷移確率推論手段、及び収束判定手段を含む音響信号分析装置における音響信号分析方法であって、前記時間周波数分解手段によって、複数の音イベントが混在する音響信号の時系列データを入力として、観測時間周波数成分Yω,t(ωは周波数、tは時刻のインデックスである。)を要素にもつ二次元配列Y^を出力し、前記パラメータ初期値設定手段によって、予め定められたD個の音イベントdの各々における所定の基底の状態kの基底スペクトルを表わすパラメータHω,d (k)を要素にもつ三次元配列H^、前記D個の音イベントの各々に対する各時刻tの発音の有無を表すパラメータUd,t(={0、1})を要素にもつ二次元配列U^、及び前記D個の音イベントdの各々に対して各時刻tに前記基底の状態が何れであるかを表わすパラメータZd,tを要素にもつ二次元配列Z^の各々の初期値を設定すると共に、D個(D=D+1)の音イベントdの各々について、前記パラメータUd,tが0から1へ遷移する遷移確率ad(a1>a2>・・・>aD-1>aD>aD†)、及び前記パラメータUd,tが1から1へ遷移する遷移確率bdの各々の初期値を設定し、前記補助変数推論手段によって、0からUd,t=1となるtをもつ音イベントdの中で最も小さい値となる遷移確率adまでの一様分布に従って、補助変数sをサンプリングにより決定し、遷移確率aD†及び補助変数sに応じて音イベントdを追加する場合、D、Dを更新すると共に、追加する音イベントdに対するパラメータUd,t及び前記所定個の基底の状態kを表わすパラメータHω,d (k)の初期値を設定し、前記音源分離手段によって、(ω、t、d)の全ての組み合わせについて、前記二次元配列Z^、前記三次元配列H^、及び前記二次元配列U^に基づいてパラメータpω,t,dを算出し、算出した各パラメータpω,t,dと、前記二次元配列Y^とをパラメータとする多項分布に従って、D個の音イベントdの各々に対する時間周波数成分Cω,t,dを要素にもつ三次元配列C^をサンプリングにより決定し、前記状態系列推論手段によって、D個の音イベントdの各々について、前記二次元配列Z^、前記三次元配列C^,及び前記二次元配列U^に基づいて、各時刻tに前記基底の状態が各状態kである事後確率、及び各時刻tに前記基底の状態が新規の状態である事後確率を算出し、算出した事後確率に従って、前記二次元配列Z^をサンプリングにより決定するステップと、前記基底スペクトル推論手段によって、(k、ω、d)の全ての組み合わせについて、前記二次元配列Z^、及び前記三次元配列C^に基づいて、パラメータφω,d (k)、ψω,d (k)を算出し、算出したパラメータφω,d (k)、ψω,d (k)をパラメータとする確率分布に従って、前記三次元配列H^をサンプリングにより決定し、前記アクティベーション推論手段によって、(d、t)の全ての組み合わせについて、前記三次元配列C^、前記二次元配列Z^、前記三次元配列H^、及び前記遷移行列ad,bdに基づいて、パラメータUd,tの事後分布を算出し、算出したパラメータUd,Tの事後分布に従って、Ud,Tをサンプリングにより決定し、t=T−1,・・・,1について、算出したパラメータUd,tの事後分布と、前記遷移行列ad,bdに基づく事後分布p(Ud,t+1|Ud,t)との積に従って、Ud,tをサンプリングにより決定することにより、前記二次元配列U^を求め、前記遷移確率推論手段によって、前記D個の音イベントdの各々について、前記遷移確率ad-1、ad+1及び前記二次元配列U^に基づく遷移確率adの確率分布に従って、遷移確率adをサンプリングにより決定し、前記遷移確率aD†に基づく遷移確率adの確率分布に従って、遷移確率aD†をサンプリングにより決定すると共に、前記D個の音イベントdの各々について、前記二次元配列U^に基づく遷移確率bdの確率分布に従って、遷移確率bdをサンプリングにより決定し、前記収束判定手段によって、予め定められた収束条件を満たすまで、前記補助変数推論手段、前記音源分離手段、前記状態系列推論手段、前記基底スペクトル推論手段、前記アクティベーション推論手段、及び前記遷移確率推論手段による各処理を繰り返し行い、前記三次元配列C^、前記二次元配列Z^、前記三次元配列H^、及び前記二次元配列U^を出力する。
本発明に係るプログラムは、上記の音響信号分析装置の各手段としてコンピュータを機能させるためのプログラムである。
以上説明したように、本発明の音響信号分析装置、方法、及びプログラムによれば、補助変数sをサンプリングにより決定して音イベントを追加し、音イベントdの各々に対する時間周波数成分Cω,t,dを要素にもつ三次元配列C^をサンプリングにより決定し、音イベントdの各々に対して各時刻tに基底の状態が何れであるか、または新規の状態であることを表わすパラメータZd,tを要素にもつ二次元配列Z^をサンプリングにより決定し、音イベントdの各々における基底の各状態kの基底スペクトルを表わすパラメータHω,d (k)を要素にもつ三次元配列H^をサンプリングにより決定し、音イベントdの各々に対する各時刻tの発音の有無を表すパラメータUd,tを要素にもつ二次元配列U^をサンプリングにより決定し、音イベントdの各々について、パラメータUd,tが0から1へ遷移する遷移確率adをサンプリングにより決定すると共にパラメータUd,tが1から1へ遷移する遷移確率bdをサンプリングにより決定し、予め定められた収束条件を満たすまで、各処理を繰り返し行い、三次元配列C^、二次元配列Z^、三次元配列H^、及び二次元配列U^を出力することにより、音響信号の時系列データから、そこに含まれる音イベントの数、音イベントの状態数を自動的に決定して、全ての音イベントの音響的特徴とその発音区間を自律的に推定することができる、という効果が得られる。
音響信号への音イベントのマルチラベリングを示すイメージ図である。 音響信号のモデルパラメータの構造を示すイメージ図である。 本発明の実施の形態に係る提案モデルのグラフィカル表現図である。 本発明の実施の形態に係る音響信号分析装置の構成を示す概略図である。 本発明の実施の形態に係る音響信号分析装置における音響信号分析処理ルーチンの内容を示すフローチャートである。 本発明の実施の形態での予備実験に用いた音響信号のスペクトログラム(ピアノのC4、バイオリンのE4、オーボエのG4による演奏)を示す図である。 本発明の実施の形態での予備実験結果である、楽器音のスペクトルグラムへのマルチラベリングとセグメンテーションを示す図である。 本発明の実施の形態での予備実験結果である、学習された各楽器音のスペクトル集合を示す図である。 本発明の実施の形態におけるスライスサンプリングによるパラメータ更新(音イベント追加)のイメージ図である。 本発明の実施の形態におけるスライスサンプリングによるパラメータ更新(音イベント追加なし)のイメージ図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。以下では、まず本発明の実施の形態の概要及び原理について説明する。
<発明の概要>
本発明の実施の形態は、テレビやラジオ放送、ポッドキャスト、動画投稿サイトにおける動画などの音響信号の時系列データに対して、そこに含まれる様々な音イベント(音楽、会話、ナレーター、ベル音、ノイズなどの音のカテゴリを指す)のマルチラベリングを行うアルゴリズムに関する。具体的には、音響信号を周波数分析して得られるスペクトログラムから、そこに含まれる様々な音イベントの音響的特徴を表現するための基底となるスペクトルの集合(以降、基底スペクトル集合と呼ぶ)、各音イベントのスペクトルの状態遷移を表現する状態系列、そして各音イベントの発音区間(音が鳴っているか否か、ON/OFFの状態からなる)を表現するアクティベーション集合を抽出する音響信号分析装置、方法及びプログラムに関する。図1は、音響信号への音イベントのマルチラベリングの概略図を示す。また、図2は、観測スペクトログラムから抽出する基底スペクトル集合、状態系列、アクティベーション集合の概略図を示す。
本発明の実施の形態では、機械学習分野で注目されるノンパラメトリックベイズ法を利用して、大規模な音響信号の時系列データから、そこに含まれる全ての音イベントの音響的特徴とその発音区間を自律的に学習させるフレームワークを提供する。具体的には、音響信号に含まれる音イベントの数(図2に示すDに相当する)が無限大の可能性を持つと仮定し、各音イベントの音源の持続性をマルコフモデルとして導入したMarkov Indian Buffet Process を用いて、各音イベントの音響的特徴およびそれらの発音区間を確率的に推定する。
<原理>
[1.音イベント検出のための非負値行列分解型スペクトログラムモデル]
非負値行列分解(NMF)を音響信号に適用する場合、一般的には振幅スペクトログラム、またはパワースペクトログラムY^=(Yω,tΩ×T∈R≧0,Ω×T(ただし、ω=1,... ,Ωは周波数のインデックス、t=1,...,Tは時間のインデックス)を基底スペクトル集合H^=(Hω,dΩ×D∈R≧0,Ω×Dと各基底スペクトルのアクティベーション集合U^= (Ud,tD×T∈R≧0,D×Tの積で表現できるという仮定に基づいている(例えば、文献:P. Smaragdis and J. C. Brown. Nonnegativematrix factorization for polyphonic music transcription. In Proc. WASPAA 2003.や文献:T. Virtanen,“Monaural sound source separation by nonnegative matrix factorizationwith temporal continuity and sparseness criteria, ”IEEE Transactions on Audio, Speech,and Language Processing, vol. 15, pp. 1066-1074, Mar. 2007.)。すなわち、

のように観測スペクトログラムY^をD個の頻出の基底スペクトルh^=[H1,d,..., HΩ,d]とそれぞれ基底スペクトルの音量変化を表すアクティベーションu^=[Ud,1,...,Ud,T]で近似することに相当する。ここで、h^とu^のペアを音イベントのコンポーネントと呼ぶ。このコンポーネントによって、一つの音イベントが表現されることが望ましいが、実際の音イベントのスペクトルは時間的に変化し、非定常であると言える。基底スペクトルが時間にともなって変化するように拡張したモデルが提案されており、そこでは各基底スペクトルは時刻tに、ある一つの状態Zd,t∈Nを取ると見なし、

と表現する(例えば、文献:A. Ozerov, C. F´evotte, and M. Charbit, “ Factorial scaledhidden Markov model for polyphonic audio representation and source separation, ”in Proc.WASPAA 2009. や文献:M. Nakano, J. Le Roux, H. Kameoka, N. Ono and S. Sagayama,“ Infinite-state spectrum model for music signal analysis, ”in Proc. ICASSP 2011.)。なお、記号に付された「^」は、当該記号が行列または多次元配列またはベクトルであることを表わしている。本実施の形態はこのような基底スペクトルの状態遷移を考慮した非負値行列分解型のスペクトログラムモデルを土台とする。ただし、目的が音響信号に含まれる様々な音イベントの発音区間(ON/OFF)の推定を含むため、アクティベーションは0(OFF)もしくは1(ON)の値を取るものとする。すなわち、Ud,t∈{0,1}となる。したがって、これまでアクティベーションによって表現された音響信号の音量に関する情報はすべて、基底スペクトルに含まれて表現されることを想定する。
NMFは一般的に観測データとモデル間の距離尺度を用いて目的関数を設計し、それを最小化する制約付きの最適化問題として定式化される。この距離尺度の選び方は重要であり、従来さまざまな研究が行われてきた。よく用いられる尺度としては、Euclidean distance、一般化Kullback-Leibler divergence やItakura-Saito divergence などが挙げられるが、最近ではこれらを含むより広いクラスのβ-divergence が用いられることも多い(文献:D.FitzGerald,M.Cranitch and E.Coyle,“On the use of the Beta Divergence for Musical Source Separation,”in Proc. ISSC 2009.)。本実施の形態では距離尺度の選び方は中心的な話題ではないため、音源分離において性能が良いと報告されている振幅スペクトログラムに対する一般化Kullback-Leibler (KL) divergence(文献:A.T.Cemgil, “ Bayesian inference in non-negative matrixfactorisation models, ”in University of Cambridge, 2008)を用いた状況に限定して議論する。ただし、本実施の形態は距離尺度の選び方に依存したものではなく、軽微な修正によって他の尺度を用いることが可能である。観測スペクトログラムがD個の音イベントC^=(Cω,t,dΩ×T×Dの重ね合わせとして表現されていると考えると、

のように書ける。上記(4)式で示されるポアソン分布の再生性より、

が成り立つ。これは前述したように、モデルと観測スペクトログラムの間の距離尺度をKLdivergence とした場合と等価である。二乗誤差規準やItakura-Saito divergence 規準の場合においては、上記(5)式 をガウス分布、複素ガウス分布とすることで同様に議論できる。
[2.スペクトログラムモデルのグラフィカル表現]
スペクトログラムモデルをベイズ的な枠組みの下でグラフィカル表現したものが図3である。スペクトログラムの生成過程を以下、順番に説明する。
[2.1 基底スペクトルの生成(H^の事前分布)]
基底スペクトルを生成するための事前分布として、上記(5)式で示されるポアソン分布の共役事前分布であるガンマ分布を利用する。実際、ガンマ分布の事前分布はスパースな解を導くという報告もある。そこで、

とする。ここで、kは基底スペクトルのインデックスであり、音イベントdに対して合計K個の基底スペクトルを準備する。このとき、基底スペクトル集合H^の同時分布は

と書ける。上記(7)式で示される分布に従って、基底スペクトル集合の各要素を生成する。ここで、Θ={φ1,11,12,12,1,..., φΩ,DΩ,D}とする。
[2.2 アクティベーションの生成(U^の事前分布)]
アクティベーションは各音イベントの発音区間を表現する。音源の持続性を表現するために、アクティベーションの系列のマルコフ性を仮定して、各音イベントごとに遷移行列

を用意する。つまり、0→0の遷移確率は1−a,0→1の遷移確率はa,1→0の遷移確率は1−b,1→1 の遷移確率はbとし、これらの状態遷移によって、0と1からなる音イベントdのアクティベーションを生成する。具体的には、Ud,0=0として、

のように上記(9)式で示されるベルヌーイ分布から生成される確率変数として記述できる。このとき、すべての音イベントのアクティベーション集合の同時分布p(U^|a^,b^)は

と書ける。ここで、a^={a,...,a}、b^={b,...,b}とし、c 00、c 01、c 10、c 11はそれぞれ0→0,0→1,1→0,1→1に遷移する回数とする。さらに、aとbの事前分布をそれらの共役性から、

とおくと、Θ={α,γ,δ}に対するすべての音イベントのアクティベーションの同時分布は

となる。この分布に従って、アクティベーション集合を生成する。
[2.3 基底スペクトルの状態系列の生成(Z^の事前分布)]
d番目の音イベントの基底スペクトルの状態系列{Zd,t,...,Zd,T}はそれぞれ離散的な値1,...,K(状態のインデックス) を取る。

を各基底スペクトルの生起確率とすると、状態系列の同時分布は、

となる。ただし、δ(x−k)はクロネッカーのデルタであり、x=kのとき1、それ以外は0とする。n (k)はZd,t’=k(t’=1,...,T)を満たすt’の個数を表す。ここで、π^に対して、次のような事前分布を考える。

ただし、βは正のパラメータとする。生起確率π^を周辺化すると、βに対する状態系列の同時分布は

と書ける。したがって、状態系列集合の同時分布は

となる。上記(16)式で示される分布に従って、状態系列集合を生成する。ここで、Θ={β,...,β} とする。
[2.4 モデルパラメータの同時分布]
図3のグラフィカル表現に基づいて、観測スペクトログラムとパラメータC^,Z^,H^,U^の同時分布を書き起こすと、

となる。Θは超パラメータと呼び、Θ={Θ}とする。
[2.5 観測スペクトログラムY^および分離スペクトログラムC^の対数尤度関数]
観測スペクトログラムY^の対数尤度関数は、

となる。ここで、rd,t (k)=δ(Zd,t−k)のようなインジケータを利用する。一方、観測スペクトログラムおよび音源分離された各音イベントのスペクトログラムからなる完全データY^、C^の対数尤度関数は

となる。
[3.音イベント数、基底スペクトルの状態数の決定方法]
2.で説明したスペクトログラムモデルを利用する上で、考えなければならない問題として、以下の2点を取り上げる。
1.観測スペクトログラムに含まれる音イベントの総数Dの決定方法
2.各音イベントを表現するための基底スペクトルの数(状態数)Kの決定方法
従来は、音イベントの総数は事前に固定し、基底スペクトルの状態数はどの音イベントに対しても同数としたり、対象に応じて(例えば、話し声と音楽)、異なる状態数を与えることが多かった。しかし、一般的には観測される音響信号の事前知識がないことも多く、そこに含まれている音イベントの総数や必要な基底スペクトルの状態数はモデルが大量の音響信号データから自動的に決定されることが理想的である。
本実施の形態では、機械学習の分野で注目されているノンパラメトリックベイズ法を利用して、DとKの値を大規模データから自動的に決定する推論アルゴリズムを導出する。具体的には、以下の確率過程に基づいてアクティベーションU^と状態系列Z^を生成する。
1.音イベント数を観測データから学習するために、Indian Buffet Process(T. L. Griffithsand Z. Ghahramani, “ Infinite latent feature models and the Indian buffet process,”In Proc. NIPS 2006.)にマルコフ性を導入したMarkov Indian Buffet Process(文献:J. V. Gael, Y. W. Teh, and Z. Ghahramani, “ The infinite factorial hidden Markov model, ”In Proc. NIPS 2008.)に基づいて、アクティベーションを生成する
2.各音イベントの基底スペクトルの状態数を観測データから学習するために、ChineseRestaurant Process(文献:Y. W. Teh, M. I. Jordan, “ Hierarchical Bayesian NonparametricModels with Applications,”in Bayesian Nonparametrics in Practice, Cambridge,UK: Cambridge University Press.)に基づいて、状態系列を生成する。ここで、Stick-breaking construction(文献:Y. W. Teh, D. G¨or¨ur, and Z. Ghahramani,“ Stick-breaking construction for the indian buffet process, ”in Proc. AISTAT 2007.)を利用して、Markov Indian Buffet Process を構成するため、遷移行列のパラメータa^とb^の周辺化は行わない。具体的に、上記(17)式 の観測データY^とパラメータC^,Z^,H^,U^,a^,b^の同時分布は、

と修正する。ここで、a^={a,a,...,a}は、a>a>...>aのように順序付け、Stick-breaking construction より、D→∞とすることで、音イベント数を観測される音響信号の時系列データから自動的に学習させる。このときaは、

によって生成される。ここで、Dをアクティベーション集合U^の行数に相当し(U^はD×Tの行列をイメージされたい)、a^={a,a,...,aD†}とする。一方、d<Dとなるdは、少なくとも1回はUd,:において1の値を持つ(アクティブとなる)とする。b^={b,...,bD†}は、前述と同様に、b〜Beta(γ,δ)に従って生成する。
基底スペクトルの状態数Kをデータから学習させるためのChinese restaurant processについては、後述する4.3にて具体的に説明する。
[4.スライスサンプリングによるパラメータ推論]
スライスサンプリングと動的計画法を組み合わせて、提案モデルのパラメータを推論する。これは、Stick-breaking constructionの打ち切り数(音イベント数)を予め大きな値に固定するのではなく、スライスサンプリングによって適応的に打ち切り数を選択しながら、パラメータを推論する方法である。まず、スライス補助変数sを導入する。

sが与えられたとき、U^の条件付き確率は、

となる。ここで、I(A) は,Aが真であるときI(A)=1となり、それ以外で0となる関数とする。この式は、a<sとなるすべての音イベントdのUd,:を0とする。ここで、DをaD*>sとなる最大の音イベントのインデックスとする。
アクティブな音イベントd(すなわち,d:∃t,Ud,t=1)に対して、d<DとなるインデックスDを導入する(D自体は非アクティブな音イベントとする)。スライスサンプリングにおいて推論すべきパラメータは、スライス補助変数sとD番目までの音イベントとなる。すなわち,<s,D,D,C:,:,1:D†,Z1:D†,:,H(:) :,1:D†,U1:D†,:,a1:D†,b1:D†>であり、尤度関数の値が収束するまで、これらを繰り返しサンプリングする。各パラメータのサンプリング方法を以下に示す。
[4.1 スライス補助変数sのサンプリング]
上記(22)式から、スライス補助変数sをサンプリングする。
(s<aD†の場合)
=Dと更新する。D<Dである必要があるので、

にしたがって、d=D+1についてaをサンプリングする(音イベントを追加する)。この分布はlogaについて対数凹分布となるため、適応的棄却サンプリング(Adaptive rejection sampling, ARS)を利用できる。s>aとなるまで、aを繰り返しサンプリングし、s>aとなった初めてのdをDとするように更新する。さらに、ここで追加された音イベントdに関しては、Ud,:=0、H(1) ω,d〜Gamma(φω,d,ψω,d)としてパラメータを初期化する。
(s≧aD†の場合)
s<aとなる最大の音イベントのインデックスdをD=dと更新する。D=D+1と更新する。D<Dなので音イベントを追加する必要はない。また、音イベントDよりもインデックスの大きいイベントdは削除する。
[4.2 Cω,t,1,... ,Cω,t,D†のサンプリング]
ω,t,1,... ,Cω,t,D†の条件付き確率は,

となる。ここで、rd,t (k)=δ(Zd,t−k)とし、pω,t,d

とする。上記(25)式で示される多項分布からCω,t,1,... ,Cω,t,D†をサンプリングする。
[4.3 Zd,tのサンプリング]
4.2の推論によって、音イベントごとの音源分離スペクトログラムC^が得られる。次は、分離された音イベントdの各時刻のスペクトルC:,1,d,...,C:,T,dが、どの基底スペクトルによって表現されるか、状態系列Zd,1,...,Zd,Tを推論する。
p(Zd,1,...,Zd,T|C:,1,d,...,C:,T,d)を最大化する基底スペクトルの状態系列Zd,1,...,Zd,Tを求める際、単純に、Zd,1,...,Zd,Tの全ての可能な値で評価するのは計算量的に非現実である。そこで、p(Zd,1,...,Zd,T|C:,1,d,...,C:,T,d)からZd,1,...,Zd,Tをサンプリングすることによって、p(Zd,1,...,Zd,T|C:,1,d,...,C:,T,d)の値の大きなZd,1,...,Zd,Tを確率的に求める。このサンプリングを効率良く実現する方法として、Gibbsサンプリングを利用する。
Gibbsサンプリングでは、p(Zd,1,...,Zd,T|C:,1,d,...,C:,T,d)からZd,1,...,Zd,Tを同時にサンプリングするのではなく、逐次的にサンプリングする。すなわち、Zd,tをサンプリングする際、Zd,t以外の{Zd,1,..., Zd,t−1, Zd,t+1,..., Zd,T}(以降Zd, \t^と記述する)の値は既知とした,p(Zd,t|Zd,\t^,C:,t,d,Θ)より、Zd,tをサンプリングする。
d,tの条件付き確率は、Y^の尤度関数を考慮して,

と書ける。ここで、

とする。上記(27)式に従って、既存の状態kの各々について条件付き確率を算出し、新規の状態knewについて条件付き確率を算出し、算出された各状態の条件付き確率により、Zd,tをサンプリングして決定する。
上式から分かるように、状態数Kを無限極限としたスペクトログラムモデルにおいて、各時刻に用いられる状態に着目すると、他の時刻に多く用いられている状態ほど使われやすくなる性質がある。また、新しい状態が用いられやすくなるか否かについてはパラメータβが影響している。このような状態系列の生成方法はChinese restaurant process (CRP)と呼ばれ、ディリクレ混合過程の一構成を与える。CRPの重要な性質である交換可能性(Exchangeability)より、Zd,tの任意のtの入れ替えをおこなって出現順序を変えても結果は変わらない。
[4.4 Hω,d (k)のサンプリング]
ω,d (k)の条件付き確率は、

となる。上記(29)式で示されるガンマ分布からHω,d (k)をサンプリングする。
[4.5 Ud,1,...,Ud,Tのサンプリング]
Forward-filtering backward-sampling アルゴリズムを利用して、Ud,1,...,Ud,Tを推論する。
このとき、U^のd行以外の値はすべて固定する。まず、t=1,...,Tに対して、

を再帰的に計算する。次に、p(Ud,T|Y:,1:T,C:,1:T,d,Zd,:,H(:) :,d)からUd,Tをサンプリングする。そして、t=T−1,...,1に対して、Ud,t+1が与えられた下で、

に従って、Ud,tを後方から順番にサンプリングする。
[4.6 aのサンプリング]
d=1,...,D−1対して、aの条件付き確率は、

となり、上記(32)式で示されるベータ分布からaをサンプリングする。d=Dの音イベントは非アクティブとなるが、スライスサンプリングの打ち切り数のために、aD†を計算する必要がある。aD†の条件付き確率は,上記(24)式をd=Dとしたときであり、適応的棄却サンプリングを用いて、aD†をサンプリングする。
[4.7 bのサンプリング]
d=1,...,Dに対して、bの条件付き確率は、

となり、上記(33)式で示されるベータ分布からbをサンプリングする。
<システム構成>
次に、音響信号の信号パラメータを分析して出力する音響信号分析装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。
図4に示すように、本実施の形態に係る音響信号分析装置は、CPUと、RAMと、後述する音響信号分析処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
本実施の形態に係る音響信号分析装置は、入力部1と、記憶部2と、演算部3と、出力部4とを備えている。また、演算部3は、短時間フーリエ変換部10と、パラメータ初期値生成部12と、スライス補助変数推論部16と、音源分離推論部18と、状態系列推論部20と、基底スペクトル推論部22と、アクティベーション推論部24と、遷移確率推論部26と、収束判定部28とを備えている。また、スライス補助変数推論部16、音源分離推論部18、状態系列推論部20、基底スペクトル推論部22、アクティベーション推論部24、遷移確率推論部26、及び収束判定部28は、モデルパラメータ更新部14を構成する。この実施形態は、前述したパラメータ推定アルゴリズムを用いて信号解析を行う構成である。
入力部1には、分析する対象である音響信号の時系列が入力される。記憶部2は、入力部1に入力された音響信号の時系列を記憶する。また、記憶部2は、後述する各処理での結果等を記憶する。
短時間フーリエ変換部10は、記憶部2に記憶された音響信号の時系列を読み出して、音響信号の振幅スペクトログラムを計算する。このとき、音響信号の時系列に対して時間フレームを設定し、時間フレーム長64ms、時間フレームシフト長32msとして、時間フレームごとに短時間フーリエ変換を行い、観測時間周波数成分Yω,tを各(ω,t)の要素にもつ二次元配列Y^(=観測スペクトログラムY^)を生成し、記憶部2に格納する。このとき、周波数のインデックスの最大値Ω=512であり、時間のインデックスの最大値Tはフレームの総数に相当する。また、上記(5)式 に示すように、本実施の形態ではポアソン分布に従う確率変数として、スペクトログラムをモデル化するため、Y^の全ての要素を整数値に丸め込む。
また、記憶部2には、予め定められた超パラメータα=4、β,...,βD†=1、γ=500、δ=1、φ1,11,12,12,1,...,φΩ,D†Ω,D†=1からなるパラメータが記憶されている。
パラメータ初期値生成部12は、基底スペクトル集合H^、アクティベーション集合U^、状態系列Z^、音イベント数D、及び遷移確率a^並びにb^の各パラメータの初期値を生成し、記憶部2へ格納する。
基底スペクトル集合H^及びアクティベーション集合U^については、記憶部2に記憶された二次元配列Y^に対し、上記(1)式に従って、通常のNMFを適用し、推定されたH^とU^を初期値とし、記憶部2に格納する。具体的には、基底の状態kを1のみとし、基底スペクトル集合H^の要素である全てのパラメータHω,d (1)が非負値であり、アクティベーション集合U^の要素である全てのパラメータUd,tが非負値である、という条件の下で、パラメータHω,d (1)とパラメータUd,tとの積を、全てのdについて足し合わせたモデルについて、二次元配列Y^とモデルとの距離を表わした目的関数の値が小さくなるように、パラメータHω,d (1)及びパラメータUd,tの各々を推定して、基底スペクトル集合H^及びアクティベーション集合U^の初期値を設定する。
この部分のNMFは、周知技術により実現でき、例えば、文献:A.T.Cemgil,“ Bayesian inference in non-negative matrix factorisation models, ” in University of Cambridge, 2008. や文献:M. Hoffman, D. Blei, and P. Cook,“ Bayesian nonparametric matrix factorization for recorded music, ”in Proc. ICML, 2010.で提案されるNMF手法を利用する。ただし、U^に関しては、その平均値よりも大きい要素は1に、平均値よりも小さい要素は0に二値化して初期値とする。
状態系列Z^については、全ての要素の初期値としては1が設定され、記憶部2に格納される。
音イベント数Dについては、適切な初期値が設定され、記憶部2に格納される。例えば、初期値として音イベント数D=10とすることができる。
また、遷移確率a^については、上記(21)式に従って、a^={a,... ,a,aD†}についての初期値が生成され、そして遷移確率b^については、上記(11)式に従って、初期値が生成され、各々の初期値が記憶部2に格納される。
出力部4は、モデルパラメータ更新部14で求めた各パラメータを出力する。
次に、モデルパラメータ更新部14の具体処理について説明する。
スライス補助変数推論部16は、上記(22)式に従って、スライスサンプリングのためのスライス補助変数sを生成し、これに従って、図9及び図10に示すように、a、bの追加・削減をおこなって、DとDを更新し、U^のサイズを再構成する。ここでDはアクティベーションU^の行数に相当する。
具体的には、記憶部2に記憶された遷移確率a^、及びアクティベーション集合U^に基づいて、上記(22)式に従って、スライス補助変数sを生成し、記憶部2へ格納する。そして、生成されたスライス補助変数sと、遷移確率aD†を比較し、s<aD†の場合には、図9に示すように、上記(24)式に従ってaをサンプリングして、新たな音イベントを追加すると共に、DとDを更新する。s≧aD†の場合には、図10に示すように、s<aとなる最大の音イベントのインデックスdをD=dと更新する。D=D+1と更新する。D<Dなので音イベントを追加する必要はない。また、音イベントDよりもインデックスの大きいイベントdは削除する。
また新たに音イベントが追加された場合には、新たに追加された音イベントに対応する基底スペクトルH(1) 1,d,・・・,(1) Ω,d、及びアクティベーションUd,:も生成し、記憶部2に格納する。具体的には、追加された音イベントdに関して、Ud,:=0、H(1) ω,d〜Gamma(φω,d,ψω,d)としてパラメータを初期化し、記憶部2に格納する。
音源分離推論部18は、上記(25)式及び(26)式から、数値的サンプリングによってC^のすべての要素を推論する。具体的には、記憶部2に記憶された二次元配列Y^、状態系列Z^、基底スペクトル集合H^、及びアクティベーション集合U^に基づいて、上記(25)式及び(26)式に従って、C^のすべての要素をサンプリングして推論し、記憶部2に格納する。
状態系列推論部20は、上記(27)式及び(28)式から、ギブスサンプリングによってZ^のすべての要素の推論を行う。具体的には、記憶部2に記憶された二次元配列Y^、超パラメータβ,...,βD†、φ1,11,12,12,1,...,φΩ,D†Ω,D†、音源分離スペクトログラムC^、状態系列Z^、及びアクティベーション集合U^に基づいて、上記(27)式及び(28)式に従って、p(Zd,1,...,Zd,T|C・,1,d,...,C・,T,d)の値の大きなZd,1,...,Zd,Tを確率的に求め、記憶部2に格納する。なお、Zd,tを求める際の状態系列Z^については、Zd,t以外の{Zd,1,...,Zd,t−1,Zd,t+1,...,Zd,t}(=Zd,\t)の値を既知として、Zd,tをサンプリングして推論し、記憶部2に格納する。
基底スペクトル推論部22は、上記(29)式から、数値的サンプリングによってH^のすべての要素を推論する。具体的には、記憶部2に記憶された超パラメータφ1,11,12,12,1,...,φΩ,D†Ω,D†、音源分離スペクトログラムC^、状態系列Z^、及びアクティベーション集合U^に基づいて、上記(29)式に従って、数値的サンプリングによってH^のすべての要素をサンプリングして推論し、記憶部2に格納する。
アクティベーション推論部24は、上記(30)式及び(31)式からなるForward filtering backward sampling アルゴリズムに基づいて、U^のすべての要素を推論する。具体的には、記憶部2に記憶された二次元配列Y^、音源分離スペクトログラムC^、状態系列Z^、基底スペクトル集合H^、及びアクティベーション集合U^に基づいて、まずForward filteringによって、上記(30)式を再帰的に計算した後、Backward samplingによって、上記(31)式に従ってUd,tを数値的にサンプリングして求め、記憶部2に格納する。なお、Ud,tを求める際のアクティベーション集合U^については、Forward filteringでは、Ud,t-1を用い、Backward samplingでは、Ud,t+1を用いて、U^の全ての要素をサンプリングして推論し、記憶部2に格納する。
遷移確率推論部26は、記憶部2に記憶された超パラメータα、γ、δ、及びアクティベーション集合U^に基づいて、上記(24)式、上記(32)式、及び上記(33)式に従って、遷移確率a及びbを推論する。具体的には、記憶部2に記憶された遷移確率a^、及びアクティベーション集合U^に基づいて、上記(32)式に従って、d=1,...,D−1に対するaをサンプリングして推論し、記憶部2に格納する。一方、d=Dの場合には、超パラメータα及びaD†−1に基づいて、上記(24)式に従って、aD†をサンプリングして推論し、記憶部2に格納する。また、bについては、記憶部2に記憶された超パラメータγ、δ、及びアクティベーション集合U^に基づいて、上記(33)式に従って、d=1,...,Dに対するbをサンプリングにより推論し、記憶部2に格納する。
収束判定部28は、記憶部2に記憶された、二次元配列Y^と推論されたZ^、H^、U^を用いて、上記(18)式の対数尤度関数を計算する。更新前のモデルパラメータを用いて計算した対数尤度関数の値と更新後の値との誤差が、所定の閾値ε以下であれば、収束したと判定する。
出力部4は、収束判定部28で収束したと判定された場合には、記憶部2に記憶されているモデルパラメータC^、Z^、H^、U^をすべて出力する。なお、本実施形態ではこの誤差を実験的にε=1.0×10−5とした。
なお、収束したか否かを判定する方法としては、対数尤度関数を用いる方法以外に、モデルパラメータ各々の値を更新前と更新後とで比較しても良いし、予め定めた繰り返し回数に到達したか否かで判定を行っても良い。本実施形態ではモデルパラメータ各々の値を更新前と更新後とで比較する場合、この誤差がε=1.0×10−5であれば良好な結果であることを実験的に確認した。また、予め定めた繰り返し回数に到達したか否かで判定をする場合、1000回の繰り返し回数が必要であることも実験的に確認している。
次に、本実施の形態に係る音響信号分析装置の作用について説明する。まず、分析対象の時系列信号として音響信号が音響信号分析装置に入力され、記憶部2に格納される。そして、音響信号分析装置において、図5に示す音響信号分析処理ルーチンが実行される。
まず、ステップS100において、記憶部2から、各フレーム内の音響信号の時系列を読み込む。そして、音響信号の時系列に対して、短時間フーリエ変換を用いた時間周波数分析を行った結果から、観測時間周波数成分Yω,tを各(ω,t)の要素にもつ二次元配列Y^を生成して、記憶部2に記憶する。
そして、ステップS102において、記憶部2に記憶されている超パラメータα、β,...,βD†、γ、δ、φ1,11,12,12,1,...,φΩ,D†Ω,D†(=Θ)の値を読み込む。
次にステップS104では、パラメータ初期値生成部12が、基底スペクトル集合H^、アクティベーション集合U^、状態系列Z^、音イベント数D、及び遷移確率a^並びにb^の各パラメータの初期値を生成する。
具体的には、上記(1)式に従って、上記ステップS100において生成された二次元配列Y^に基づいて、基底スペクトル集合H^とアクティベーション集合U^を推定し、初期値として記憶部2へ記憶する。状態系列Z^については、全ての要素の初期値として1を設定し、音イベント数Dについては、初期値として例えばD=10を設定する。また遷移確率a^については、上記(21)式に従って、a^={a,...,aD†}についての初期値が生成され、遷移確率b^については、上記(11)式に従って初期値が生成される。そして、生成された各々の初期値を記憶部2へ記憶する。
ステップS106では、スライス補助変数sの推論をする。具体的には、上記ステップS104で生成された遷移確率a^又は後述するステップS116で前回推論された遷移確率a^、及び上記ステップS104で生成されたアクティベーション集合U^又は後述するステップS114で前回推論されたアクティベーション集合U^に基づいて、上記(22)式に従って、スライス補助変数sを生成する。そして、生成されたスライス補助変数sと、遷移確率aD†を比較し、s<aD†の場合には、上記図9に示すように、上記(24)式に従ってaをサンプリングして、新たな音イベントを追加すると共に、D、Dを更新する。s≧aD†の場合には、上記図10に示すように、s<aとなる最大の音イベントのインデックスdをD=dと更新する。D=D+1と更新する。D<Dなので音イベントを追加する必要はない。また、音イベントDよりもインデックスの大きいイベントdは削除する。
また新たに音イベントが追加された場合には、新たに追加された音イベントに対応する基底スペクトルH(1) 1,d,・・・,(1) Ω,d、及びアクティベーションUd,:も生成する。具体的には、追加された音イベントdに関して、Ud,:=0、H(1) ω,d〜Gamma(φω,d,ψω,d)としてパラメータを初期化する。
ステップS108では、音源分離スペクトログラムC^の全ての要素を推論する。具体的には、上記ステップS100において生成された二次元配列Y^、及び上記ステップS104で生成された状態系列Z^、基底スペクトル集合H^並びにアクティベーション集合U^、又は、後述するステップS110〜ステップS114で前回推論された状態系列Z^、基底スペクトル集合H^並びにアクティベーション集合U^に基づいて、上記(25)式及び(26)式に従って、C^のすべての要素をサンプリングして推論し、記憶部2へ記憶する。
ステップS110では、ギブスサンプリングによって、状態系列Z^のすべての要素の推論を行う。具体的には、上記ステップS100で生成された二次元配列Y^、上記ステップS102で読み込まれた超パラメータβ,...,βD†、φ1,11,12,12,1,...,φΩ,D†Ω,D†、上記ステップS104で生成された状態系列Z^並びにアクティベーション集合U^、又は本ステップS110及び後述するステップS114で前回推論された状態系列Z^並びにアクティベーション集合U^、及び上記ステップS108で推論された音源分離スペクトログラムC^に基づいて、上記(27)式及び(28)式に従って、Zd,1,...,Zd,Tをサンプリングして推論する。
なお、Zd,tを求める際の状態系列Z^については、Zd,t以外の{Zd,1,...,Zd,t−1,Zd,t+1,...,Zd,t}(=Zd,\t)の値を既知として、Zd,tをサンプリングして推論する。ここで、Zd,1,...,Zd,t−1までは、本ステップS110で推論された直前の値を用い、Zd,t+1,...,Zd,tについては、上記ステップS104で生成された状態系列Z^又は本ステップS110で前回推論された状態系列Z^を用いて、Zd,tをサンプリングして推論し、記憶部2へ記憶する。
ステップS112では、基底スペクトル集合H^の全ての要素の推論を行う。具体的には、上記ステップS102で読み込まれた超パラメータφ1,11,12,12,1,...,φΩ,D†Ω,D†、上記ステップS104で生成されたアクティベーション集合U^、又は後述するステップS112で前回推論されたアクティベーション集合U^、上記ステップS108で推論された音源分離スペクトログラムC^、及びステップS110で推論された状態系列Z^に基づいて、上記(29)式に従って、H^のすべての要素をサンプリングして推論し、記憶部2へ記憶する。
ステップS114では、アクティベーション集合U^の全ての要素の推論を行う。具体的には、上記ステップS100において生成された二次元配列Y^、上記ステップS106で推論された音源分離スペクトログラムC^、上記ステップS110で推論された状態系列Z^、上記ステップS112で推論された基底スペクトル集合H^、及び上記ステップS104で生成されたアクティベーション集合U^又は本ステップS114で前回推論されたアクティベーション集合U^に基づいて、上記(30)式及び(31)式に従って、U^の全ての要素の推論を行う。詳細には、まずForward filteringによって、上記(30)式を再帰的に計算した後、Backward samplingによって、上記(31)式に従ってUd,tを数値的にサンプリングして求めることにより、U^の全ての要素を推論し、記憶部2へ記憶する。
ステップS116では、遷移確率a、bの推論を行う。具体的には、本ステップS104で今回または前回生成された遷移確率a、上記ステップS102で読み込まれた超パラメータα、γ、δ、及び上記ステップS114で推論されたUd,1,..., Ud,Tに基づいて、上記(24)式、(32)式、及び(33)式に従って、遷移確率a、bの推論を行う。まず、上記(32)式に基づいて、d=1,...,D−1に対するaを推論する。一方、d=Dの場合には、上記(24)式に従って、aD†をサンプリングして推論する。また、bについては、上記(33)式に基づいて、d=1,...,Dに対するbを推論する。そして、推論された遷移確率a、bを記憶部2へ記憶する。
ステップS118では、二次元配列Y^と推論されたZ^、H^、U^を用いて、対数尤度関数logp(Y^|Z^,H^,U^,Θ)を計算する。そして、更新前のモデルパラメータを用いて計算した対数尤度関数の値と更新後の値との誤差が、所定の閾値以下であれば、収束したと判定する。収束していないと判定された場合には、ステップS106へ移行し、上記ステップS106〜ステップS116で推論したパラメータを用いて、上記ステップS106〜ステップS116の処理を繰り返す。収束したと判定された場合には、ステップS120へ移行する。
ステップS120では、推論されたパラメータが結果として出力部4に出力され、音響信号分析処理ルーチンが終了する。
<実験結果>
予備実験として、オーボエ(G4、ソ音)、バイオリン(E4、ミ音)、ピアノ(C4、ド音)の音が混合された音響信号に対して、上記のアルゴリズムの適用を試みた。図6は、サンプリング周波数16kHz、量子化ビット数16の音響信号をフレーム長64ms、フレームシフト長32msで周波数分析したときの振幅スペクトログラムである。パラメータの初期化方法については前述したとおりである。図7にマルチラベリング、およびセグメンテーションの結果を示す。この図から、オーボエ、ピアノ、バイオリンにうまく分離して特徴を捉えていることがわかり、本アルゴリズムの有効性が期待できる。図8は学習された各楽器音のスペクトル集合を示す。各楽器の音を表現しうるスペクトル数(バイオリンは6個、オーボエは5個、ピアノは7個)が、音響信号データから推定される。それぞれのスペクトル形状が各楽器に対応していることを定性的に確認した。
以上説明したように、本発明の実施の形態に係る音響信号分析装置によれば、補助変数sをサンプリングにより決定して音イベントを追加し、音イベントdの各々に対する時間周波数成分Cω,t,dを要素にもつ三次元配列C^をサンプリングにより決定し、音イベントdの各々に対して各時刻tに基底の状態が何れであるか、または新規の状態であることを表わすパラメータZd,tを要素にもつ二次元配列Z^をサンプリングにより決定し、音イベントdの各々における基底の各状態kの基底スペクトルを表わすパラメータHω,d (k)を要素にもつ三次元配列H^をサンプリングにより決定し、音イベントdの各々に対する各時刻tの発音の有無を表すパラメータUd,tを要素にもつ二次元配列U^をサンプリングにより決定し、音イベントdの各々について、パラメータUd,tが0から1へ遷移する遷移確率adをサンプリングにより決定すると共にパラメータUd,tが1から1へ遷移する遷移確率bdをサンプリングにより決定し、予め定められた収束条件を満たすまで、各処理を繰り返し行い、三次元配列C^、二次元配列Z^、三次元配列H^、及び二次元配列U^を出力することにより、音響信号の時系列データから、そこに含まれる音イベントの数、音イベントの状態数を自動的に決定して、全ての音イベントの音響的特徴とその発音区間を自律的に推定することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
また、上述の音響信号分析装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
1 入力部
3 演算部
4 出力部
10 短時間フーリエ変換部
12 パラメータ初期値生成部
14 モデルパラメータ更新部
16 スライス補助変数推論部
18 音源分離推論部
20 状態系列推論部
22 基底スペクトル推論部
24 アクティベーション推論部
26 遷移確率推論部
28 収束判定部

Claims (5)

  1. 複数の音イベントが混在する音響信号の時系列データを入力として、観測時間周波数成分Yω,t(ωは周波数、tは時刻のインデックスである。)を要素にもつ二次元配列Y^を出力する時間周波数分解手段と、
    予め定められたD個の音イベントdの各々における所定の基底の状態kの基底スペクトルを表わすパラメータHω,d (k)を要素にもつ三次元配列H^、前記D個の音イベントの各々に対する各時刻tの発音の有無を表すパラメータUd,t(={0、1})を要素にもつ二次元配列U^、及び前記D個の音イベントdの各々に対して各時刻tに前記基底の状態が何れであるかを表わすパラメータZd,tを要素にもつ二次元配列Z^の各々の初期値を設定すると共に、D個(D=D+1)の音イベントdの各々について、前記パラメータUd,tが0から1へ遷移する遷移確率ad(a1>a2>・・・>aD-1>aD>aD†)、及び前記パラメータUd,tが1から1へ遷移する遷移確率bdの各々の初期値を設定するパラメータ初期値設定手段と、
    0からUd,t=1となるtをもつ音イベントdの中で最も小さい値となる遷移確率adまでの一様分布に従って、補助変数sをサンプリングにより決定し、遷移確率aD†及び補助変数sに応じて音イベントdを追加する場合、D、Dを更新すると共に、追加する音イベントdに対するパラメータUd,t及び前記所定個の基底の状態kを表わすパラメータHω,d (k)の初期値を設定する補助変数推論手段と、
    (ω、t、d)の全ての組み合わせについて、前記二次元配列Z^、前記三次元配列H^、及び前記二次元配列U^に基づいてパラメータpω,t,dを算出し、算出した各パラメータpω,t,dと、前記二次元配列Y^とをパラメータとする多項分布に従って、D個の音イベントdの各々に対する時間周波数成分Cω,t,dを要素にもつ三次元配列C^をサンプリングにより決定する音源分離手段と、
    個の音イベントdの各々について、前記二次元配列Z^、前記三次元配列C^,及び前記二次元配列U^に基づいて、各時刻tに前記基底の状態が各状態kである事後確率、及び各時刻tに前記基底の状態が新規の状態である事後確率を算出し、算出した事後確率に従って、前記二次元配列Z^をサンプリングにより決定する状態系列推論手段と、
    (k、ω、d)の全ての組み合わせについて、前記二次元配列Z^、及び前記三次元配列C^に基づいて、パラメータφω,d (k)、ψω,d (k)を算出し、算出したパラメータφω,d (k)、ψω,d (k)をパラメータとする確率分布に従って、前記三次元配列H^をサンプリングにより決定する基底スペクトル推論手段と、
    (d、t)の全ての組み合わせについて、前記三次元配列C^、前記二次元配列Z^、前記三次元配列H^、及び前記遷移行列ad,bdに基づいて、パラメータUd,tの事後分布を算出し、算出したパラメータUd,Tの事後分布に従って、Ud,Tをサンプリングにより決定し、t=T−1,・・・,1について、算出したパラメータUd,tの事後分布と、前記遷移行列ad,bdに基づく事後分布p(Ud,t+1|Ud,t)との積に従って、Ud,tをサンプリングにより決定することにより、前記二次元配列U^を求めるアクティベーション推論手段と、
    前記D個の音イベントdの各々について、前記遷移確率ad-1、ad+1及び前記二次元配列U^に基づく遷移確率adの確率分布に従って、遷移確率adをサンプリングにより決定し、前記遷移確率aD†に基づく遷移確率adの確率分布に従って、遷移確率aD†をサンプリングにより決定すると共に、前記D個の音イベントdの各々について、前記二次元配列U^に基づく遷移確率bdの確率分布に従って、遷移確率bdをサンプリングにより決定する遷移確率推論手段と、
    予め定められた収束条件を満たすまで、前記補助変数推論手段、前記音源分離手段、前記状態系列推論手段、前記基底スペクトル推論手段、前記アクティベーション推論手段、及び前記遷移確率推論手段による各処理を繰り返し行い、前記三次元配列C^、前記二次元配列Z^、前記三次元配列H^、及び前記二次元配列U^を出力する収束判定手段と、
    を含む音響信号分析装置。
  2. 前記補助変数推論手段は、0からUd,t=1となるtをもつ音イベントdの中で最も小さい値となる遷移確率adまでの一様分布に従って、補助変数sをサンプリングにより決定し、
    前記遷移確率aD†が、前記補助変数sより大きい場合、追加する音イベントdの遷移確率adを、前記遷移確率aD†に基づく遷移確率adの確率分布に従ってサンプリングにより決定すると共に、前記追加する音イベントdに対するパラメータUd,t及び前記所定個の基底の状態kを表わすパラメータHω,d (k)の初期値を設定し、DをDに更新すると共に、サンプリングにより決定され、かつ、前記補助変数sより小さくなる遷移確率aにおけるdに、Dを更新し、
    前記遷移確率aD†が、前記補助変数s以下である場合、s<aとなる最大の音イベントのインデックスdをD=dと更新し、D=D+1と更新し、音イベントDよりもインデックスの大きいイベントdは削除する請求項1記載の音響信号分析装置。
  3. 初期値設定手段は、
    前記予め定められたD個の音イベントdの各々における基底の状態数を1とし、全てのパラメータHω,d (1)が非負値であり、全てのパラメータUd,tが非負値である、という条件の下で、前記パラメータHω,d (1)と前記パラメータUd,tとの積を、全てのdについて足し合わせたモデルについて、前記時間周波数分解手段によって出力された観測時間周波数成分Yω,tと前記モデルとの距離を表わした目的関数の値が小さくなるように、前記パラメータHω,d (1)及び前記パラメータUd,tの各々を推定し、前記推定された前記パラメータUd,tの各々を二値化することにより、前記三次元配列H^及び前記二次元配列U^の初期値を設定すると共に、前記パラメータZd,tの各々を1とした二次元配列Z^の初期値を設定する請求項1又は2記載の音響信号分析装置。
  4. 時間周波数分解手段、パラメータ初期値設定手段、補助変数推論手段、音源分離手段、状態系列推論手段、基底スペクトル推論手段、アクティベーション推論手段、遷移確率推論手段、及び収束判定手段を含む音響信号分析装置における音響信号分析方法であって、
    前記音響信号分析装置は、
    前記時間周波数分解手段によって、複数の音イベントが混在する音響信号の時系列データを入力として、観測時間周波数成分Yω,t(ωは周波数、tは時刻のインデックスである。)を要素にもつ二次元配列Y^を出力するステップと、
    前記パラメータ初期値設定手段によって、予め定められたD個の音イベントdの各々における所定の基底の状態kの基底スペクトルを表わすパラメータHω,d (k)を要素にもつ三次元配列H^、前記D個の音イベントの各々に対する各時刻tの発音の有無を表すパラメータUd,t(={0、1})を要素にもつ二次元配列U^、及び前記D個の音イベントdの各々に対して各時刻tに前記基底の状態が何れであるかを表わすパラメータZd,tを要素にもつ二次元配列Z^の各々の初期値を設定すると共に、D個(D=D+1)の音イベントdの各々について、前記パラメータUd,tが0から1へ遷移する遷移確率ad(a1>a2>・・・>aD-1>aD>aD†)、及び前記パラメータUd,tが1から1へ遷移する遷移確率bdの各々の初期値を設定するステップと、
    前記補助変数推論手段によって、0からUd,t=1となるtをもつ音イベントdの中で最も小さい値となる遷移確率adまでの一様分布に従って、補助変数sをサンプリングにより決定し、遷移確率aD†及び補助変数sに応じて音イベントdを追加する場合、D、Dを更新すると共に、追加する音イベントdに対するパラメータUd,t及び前記所定個の基底の状態kを表わすパラメータHω,d (k)の初期値を設定するステップと、
    前記音源分離手段によって、(ω、t、d)の全ての組み合わせについて、前記二次元配列Z^、前記三次元配列H^、及び前記二次元配列U^に基づいてパラメータpω,t,dを算出し、算出した各パラメータpω,t,dと、前記二次元配列Y^とをパラメータとする多項分布に従って、D個の音イベントdの各々に対する時間周波数成分Cω,t,dを要素にもつ三次元配列C^をサンプリングにより決定するステップと、
    前記状態系列推論手段によって、D個の音イベントdの各々について、前記二次元配列Z^、前記三次元配列C^,及び前記二次元配列U^に基づいて、各時刻tに前記基底の状態が各状態kである事後確率、及び各時刻tに前記基底の状態が新規の状態である事後確率を算出し、算出した事後確率に従って、前記二次元配列Z^をサンプリングにより決定するステップと、
    前記基底スペクトル推論手段によって、(k、ω、d)の全ての組み合わせについて、前記二次元配列Z^、及び前記三次元配列C^に基づいて、パラメータφω,d (k)、ψω,d (k)を算出し、算出したパラメータφω,d (k)、ψω,d (k)をパラメータとする確率分布に従って、前記三次元配列H^をサンプリングにより決定するステップと、
    前記アクティベーション推論手段によって、(d、t)の全ての組み合わせについて、前記三次元配列C^、前記二次元配列Z^、前記三次元配列H^、及び前記遷移行列ad,bdに基づいて、パラメータUd,tの事後分布を算出し、算出したパラメータUd,Tの事後分布に従って、Ud,Tをサンプリングにより決定し、t=T−1,・・・,1について、算出したパラメータUd,tの事後分布と、前記遷移行列ad,bdに基づく事後分布p(Ud,t+1|Ud,t)との積に従って、Ud,tをサンプリングにより決定することにより、前記二次元配列U^を求めるステップと、
    前記遷移確率推論手段によって、前記D個の音イベントdの各々について、前記遷移確率ad-1、ad+1及び前記二次元配列U^に基づく遷移確率adの確率分布に従って、遷移確率adをサンプリングにより決定し、前記遷移確率aD†に基づく遷移確率adの確率分布に従って、遷移確率aD†をサンプリングにより決定すると共に、前記D個の音イベントdの各々について、前記二次元配列U^に基づく遷移確率bdの確率分布に従って、遷移確率bdをサンプリングにより決定するステップと、
    前記収束判定手段によって、予め定められた収束条件を満たすまで、前記補助変数推論手段、前記音源分離手段、前記状態系列推論手段、前記基底スペクトル推論手段、前記アクティベーション推論手段、及び前記遷移確率推論手段による各処理を繰り返し行い、前記三次元配列C^、前記二次元配列Z^、前記三次元配列H^、及び前記二次元配列U^を出力するステップと、
    を含む音響信号分析方法。
  5. コンピュータを、請求項1〜請求項3の何れか1項記載の音響信号分析装置の各手段として機能させるためのプログラム。
JP2012186441A 2012-08-27 2012-08-27 音響信号分析装置、方法、及びプログラム Active JP5771582B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012186441A JP5771582B2 (ja) 2012-08-27 2012-08-27 音響信号分析装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012186441A JP5771582B2 (ja) 2012-08-27 2012-08-27 音響信号分析装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2014044296A JP2014044296A (ja) 2014-03-13
JP5771582B2 true JP5771582B2 (ja) 2015-09-02

Family

ID=50395606

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012186441A Active JP5771582B2 (ja) 2012-08-27 2012-08-27 音響信号分析装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5771582B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6448506B2 (ja) * 2015-10-13 2019-01-09 日本電信電話株式会社 パターン抽出装置、方法、及びプログラム
CN112562647B (zh) * 2020-11-24 2022-09-06 中电海康集团有限公司 一种音频起始点的标注方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101165779B (zh) * 2006-10-20 2010-06-02 索尼株式会社 信息处理装置和方法、程序及记录介质

Also Published As

Publication number Publication date
JP2014044296A (ja) 2014-03-13

Similar Documents

Publication Publication Date Title
Huang et al. Joint optimization of masks and deep recurrent neural networks for monaural source separation
US9721202B2 (en) Non-negative matrix factorization regularized by recurrent neural networks for audio processing
Févotte Majorization-minimization algorithm for smooth Itakura-Saito nonnegative matrix factorization
Ycart et al. A study on LSTM networks for polyphonic music sequence modelling
US9553681B2 (en) Source separation using nonnegative matrix factorization with an automatically determined number of bases
Ntalampiras Bird species identification via transfer learning from music genres
Sigtia et al. A hybrid recurrent neural network for music transcription
JP2014164126A (ja) 音響信号分析方法、装置、及びプログラム
Boulanger-Lewandowski et al. High-dimensional sequence transduction
Bandela et al. Unsupervised feature selection and NMF de-noising for robust Speech Emotion Recognition
Chien et al. Bayesian factorization and learning for monaural source separation
Fuentes et al. Adaptive harmonic time-frequency decomposition of audio using shift-invariant PLCA
Boulanger-Lewandowski et al. Exploiting long-term temporal dependencies in NMF using recurrent neural networks with application to source separation
Haque et al. High-fidelity audio generation and representation learning with guided adversarial autoencoder
JP5771582B2 (ja) 音響信号分析装置、方法、及びプログラム
US10839823B2 (en) Sound source separating device, sound source separating method, and program
Sunnydayal Speech enhancement using posterior regularized NMF with bases update
JP5818759B2 (ja) 状況生成モデル作成装置、状況推定装置、およびプログラム
JP2009204808A (ja) 音響特徴抽出方法及び、その装置、そのプログラム、そのプログラムを記録した記録媒体
Guo et al. Optimized phase-space reconstruction for accurate musical-instrument signal classification
Lee et al. High-order hidden Markov model for piecewise linear processes and applications to speech recognition
JP2012027196A (ja) 信号分析装置、方法、及びプログラム
Févotte et al. Temporal extensions of nonnegative matrix factorization
JP2013195575A (ja) 音響信号分析装置、方法、及びプログラム
Grais et al. Initialization of nonnegative matrix factorization dictionaries for single channel source separation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140815

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150528

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150629

R150 Certificate of patent (=grant) or registration of utility model

Ref document number: 5771582

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150