JP5771582B2 - 音響信号分析装置、方法、及びプログラム - Google Patents
音響信号分析装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP5771582B2 JP5771582B2 JP2012186441A JP2012186441A JP5771582B2 JP 5771582 B2 JP5771582 B2 JP 5771582B2 JP 2012186441 A JP2012186441 A JP 2012186441A JP 2012186441 A JP2012186441 A JP 2012186441A JP 5771582 B2 JP5771582 B2 JP 5771582B2
- Authority
- JP
- Japan
- Prior art keywords
- dimensional array
- sound
- parameter
- probability
- transition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Auxiliary Devices For Music (AREA)
Description
従来は、教師あり学習の下で、音響信号に含まれる音イベントを自動的にラベリングする技術が一般的であった。すなわち、学習データとして、ラベル付けされた音イベントの音源信号を事前に用意し、それを周波数分析して得られる音響的特徴と統計モデルを用いて、未知の音響信号の時系列データにラベル付けを行った(例えば、非特許文献1、非特許文献2、及び非特許文献3)。統計モデルでは、例えば、ガウス混合モデル(GMM) を用いる場合、各音イベントを表現しうる音響的特徴の頻度分布が学習される。隠れマルコフモデル(HMM)を用いる場合、音響的特徴の統計的な時間遷移が学習され、これを用いて未知の音響信号の時系列データにラベル付けを行う。これらのラベル付けの多段処理技術(音響信号が無音なのかそうでないか、音楽か話声かを段階的に識別する)も提案されている(例えば、非特許文献4)。また、音の重ね合わせを考慮して、音響信号をあらかじめ、非負値行列分解(NMF)によって音源分離し、分離信号を学習データに用いる技術も提案されている(例えば、非特許文献5)。
本発明の実施の形態は、テレビやラジオ放送、ポッドキャスト、動画投稿サイトにおける動画などの音響信号の時系列データに対して、そこに含まれる様々な音イベント(音楽、会話、ナレーター、ベル音、ノイズなどの音のカテゴリを指す)のマルチラベリングを行うアルゴリズムに関する。具体的には、音響信号を周波数分析して得られるスペクトログラムから、そこに含まれる様々な音イベントの音響的特徴を表現するための基底となるスペクトルの集合(以降、基底スペクトル集合と呼ぶ)、各音イベントのスペクトルの状態遷移を表現する状態系列、そして各音イベントの発音区間(音が鳴っているか否か、ON/OFFの状態からなる)を表現するアクティベーション集合を抽出する音響信号分析装置、方法及びプログラムに関する。図1は、音響信号への音イベントのマルチラベリングの概略図を示す。また、図2は、観測スペクトログラムから抽出する基底スペクトル集合、状態系列、アクティベーション集合の概略図を示す。
[1.音イベント検出のための非負値行列分解型スペクトログラムモデル]
非負値行列分解(NMF)を音響信号に適用する場合、一般的には振幅スペクトログラム、またはパワースペクトログラムY^=(Yω,t)Ω×T∈R≧0,Ω×T(ただし、ω=1,... ,Ωは周波数のインデックス、t=1,...,Tは時間のインデックス)を基底スペクトル集合H^=(Hω,d)Ω×D∈R≧0,Ω×Dと各基底スペクトルのアクティベーション集合U^= (Ud,t)D×T∈R≧0,D×Tの積で表現できるという仮定に基づいている(例えば、文献:P. Smaragdis and J. C. Brown. Nonnegativematrix factorization for polyphonic music transcription. In Proc. WASPAA 2003.や文献:T. Virtanen,“Monaural sound source separation by nonnegative matrix factorizationwith temporal continuity and sparseness criteria, ”IEEE Transactions on Audio, Speech,and Language Processing, vol. 15, pp. 1066-1074, Mar. 2007.)。すなわち、
のように観測スペクトログラムY^をD個の頻出の基底スペクトルhd^=[H1,d,..., HΩ,d]Tとそれぞれ基底スペクトルの音量変化を表すアクティベーションud^=[Ud,1,...,Ud,T]で近似することに相当する。ここで、hd^とud^のペアを音イベントのコンポーネントと呼ぶ。このコンポーネントによって、一つの音イベントが表現されることが望ましいが、実際の音イベントのスペクトルは時間的に変化し、非定常であると言える。基底スペクトルが時間にともなって変化するように拡張したモデルが提案されており、そこでは各基底スペクトルは時刻tに、ある一つの状態Zd,t∈Nを取ると見なし、
と表現する(例えば、文献:A. Ozerov, C. F´evotte, and M. Charbit, “ Factorial scaledhidden Markov model for polyphonic audio representation and source separation, ”in Proc.WASPAA 2009. や文献:M. Nakano, J. Le Roux, H. Kameoka, N. Ono and S. Sagayama,“ Infinite-state spectrum model for music signal analysis, ”in Proc. ICASSP 2011.)。なお、記号に付された「^」は、当該記号が行列または多次元配列またはベクトルであることを表わしている。本実施の形態はこのような基底スペクトルの状態遷移を考慮した非負値行列分解型のスペクトログラムモデルを土台とする。ただし、目的が音響信号に含まれる様々な音イベントの発音区間(ON/OFF)の推定を含むため、アクティベーションは0(OFF)もしくは1(ON)の値を取るものとする。すなわち、Ud,t∈{0,1}となる。したがって、これまでアクティベーションによって表現された音響信号の音量に関する情報はすべて、基底スペクトルに含まれて表現されることを想定する。
NMFは一般的に観測データとモデル間の距離尺度を用いて目的関数を設計し、それを最小化する制約付きの最適化問題として定式化される。この距離尺度の選び方は重要であり、従来さまざまな研究が行われてきた。よく用いられる尺度としては、Euclidean distance、一般化Kullback-Leibler divergence やItakura-Saito divergence などが挙げられるが、最近ではこれらを含むより広いクラスのβ-divergence が用いられることも多い(文献:D.FitzGerald,M.Cranitch and E.Coyle,“On the use of the Beta Divergence for Musical Source Separation,”in Proc. ISSC 2009.)。本実施の形態では距離尺度の選び方は中心的な話題ではないため、音源分離において性能が良いと報告されている振幅スペクトログラムに対する一般化Kullback-Leibler (KL) divergence(文献:A.T.Cemgil, “ Bayesian inference in non-negative matrixfactorisation models, ”in University of Cambridge, 2008)を用いた状況に限定して議論する。ただし、本実施の形態は距離尺度の選び方に依存したものではなく、軽微な修正によって他の尺度を用いることが可能である。観測スペクトログラムがD個の音イベントC^=(Cω,t,d)Ω×T×Dの重ね合わせとして表現されていると考えると、
のように書ける。上記(4)式で示されるポアソン分布の再生性より、
が成り立つ。これは前述したように、モデルと観測スペクトログラムの間の距離尺度をKLdivergence とした場合と等価である。二乗誤差規準やItakura-Saito divergence 規準の場合においては、上記(5)式 をガウス分布、複素ガウス分布とすることで同様に議論できる。
スペクトログラムモデルをベイズ的な枠組みの下でグラフィカル表現したものが図3である。スペクトログラムの生成過程を以下、順番に説明する。
基底スペクトルを生成するための事前分布として、上記(5)式で示されるポアソン分布の共役事前分布であるガンマ分布を利用する。実際、ガンマ分布の事前分布はスパースな解を導くという報告もある。そこで、
とする。ここで、kは基底スペクトルのインデックスであり、音イベントdに対して合計Kd個の基底スペクトルを準備する。このとき、基底スペクトル集合H^の同時分布は
と書ける。上記(7)式で示される分布に従って、基底スペクトル集合の各要素を生成する。ここで、ΘH={φ1,1,ψ1,1,φ2,1,ψ2,1,..., φΩ,D,ψΩ,D}とする。
アクティベーションは各音イベントの発音区間を表現する。音源の持続性を表現するために、アクティベーションの系列のマルコフ性を仮定して、各音イベントごとに遷移行列
を用意する。つまり、0→0の遷移確率は1−ad,0→1の遷移確率はad,1→0の遷移確率は1−bd,1→1 の遷移確率はbdとし、これらの状態遷移によって、0と1からなる音イベントdのアクティベーションを生成する。具体的には、Ud,0=0として、
のように上記(9)式で示されるベルヌーイ分布から生成される確率変数として記述できる。このとき、すべての音イベントのアクティベーション集合の同時分布p(U^|a^,b^)は
と書ける。ここで、a^={a1,...,aD}、b^={b1,...,bD}とし、cd 00、cd 01、cd 10、cd 11はそれぞれ0→0,0→1,1→0,1→1に遷移する回数とする。さらに、adとbdの事前分布をそれらの共役性から、
とおくと、ΘU={α,γ,δ}に対するすべての音イベントのアクティベーションの同時分布は
となる。この分布に従って、アクティベーション集合を生成する。
d番目の音イベントの基底スペクトルの状態系列{Zd,t,...,Zd,T}はそれぞれ離散的な値1,...,Kd(状態のインデックス) を取る。
を各基底スペクトルの生起確率とすると、状態系列の同時分布は、
となる。ただし、δ(x−k)はクロネッカーのデルタであり、x=kのとき1、それ以外は0とする。nd (k)はZd,t’=k(t’=1,...,T)を満たすt’の個数を表す。ここで、πd^に対して、次のような事前分布を考える。
ただし、βdは正のパラメータとする。生起確率πd^を周辺化すると、βdに対する状態系列の同時分布は
と書ける。したがって、状態系列集合の同時分布は
となる。上記(16)式で示される分布に従って、状態系列集合を生成する。ここで、ΘZ={β1,...,βD} とする。
図3のグラフィカル表現に基づいて、観測スペクトログラムとパラメータC^,Z^,H^,U^の同時分布を書き起こすと、
となる。ΘZ,ΘH,ΘUは超パラメータと呼び、Θ={ΘZ,ΘH,ΘU}とする。
観測スペクトログラムY^の対数尤度関数は、
となる。ここで、rd,t (k)=δ(Zd,t−k)のようなインジケータを利用する。一方、観測スペクトログラムおよび音源分離された各音イベントのスペクトログラムからなる完全データY^、C^の対数尤度関数は
となる。
2.で説明したスペクトログラムモデルを利用する上で、考えなければならない問題として、以下の2点を取り上げる。
2.各音イベントを表現するための基底スペクトルの数(状態数)Kdの決定方法
従来は、音イベントの総数は事前に固定し、基底スペクトルの状態数はどの音イベントに対しても同数としたり、対象に応じて(例えば、話し声と音楽)、異なる状態数を与えることが多かった。しかし、一般的には観測される音響信号の事前知識がないことも多く、そこに含まれている音イベントの総数や必要な基底スペクトルの状態数はモデルが大量の音響信号データから自動的に決定されることが理想的である。
2.各音イベントの基底スペクトルの状態数を観測データから学習するために、ChineseRestaurant Process(文献:Y. W. Teh, M. I. Jordan, “ Hierarchical Bayesian NonparametricModels with Applications,”in Bayesian Nonparametrics in Practice, Cambridge,UK: Cambridge University Press.)に基づいて、状態系列を生成する。ここで、Stick-breaking construction(文献:Y. W. Teh, D. G¨or¨ur, and Z. Ghahramani,“ Stick-breaking construction for the indian buffet process, ”in Proc. AISTAT 2007.)を利用して、Markov Indian Buffet Process を構成するため、遷移行列のパラメータa^とb^の周辺化は行わない。具体的に、上記(17)式 の観測データY^とパラメータC^,Z^,H^,U^,a^,b^の同時分布は、
と修正する。ここで、a^={a1,a2,...,aD}は、a1>a2>...>aDのように順序付け、Stick-breaking construction より、D→∞とすることで、音イベント数を観測される音響信号の時系列データから自動的に学習させる。このときadは、
によって生成される。ここで、D†をアクティベーション集合U^の行数に相当し(U^はD†×Tの行列をイメージされたい)、a^={a1,a2,...,aD†}とする。一方、d<D†となるdは、少なくとも1回はUd,:において1の値を持つ(アクティブとなる)とする。b^={b1,...,bD†}は、前述と同様に、bd〜Beta(γ,δ)に従って生成する。
基底スペクトルの状態数Kdをデータから学習させるためのChinese restaurant processについては、後述する4.3にて具体的に説明する。
スライスサンプリングと動的計画法を組み合わせて、提案モデルのパラメータを推論する。これは、Stick-breaking constructionの打ち切り数(音イベント数)を予め大きな値に固定するのではなく、スライスサンプリングによって適応的に打ち切り数を選択しながら、パラメータを推論する方法である。まず、スライス補助変数sを導入する。
sが与えられたとき、U^の条件付き確率は、
となる。ここで、I(A) は,Aが真であるときI(A)=1となり、それ以外で0となる関数とする。この式は、ad<sとなるすべての音イベントdのUd,:を0とする。ここで、D*をaD*>sとなる最大の音イベントのインデックスとする。
アクティブな音イベントd(すなわち,d:∃t,Ud,t=1)に対して、d<D†となるインデックスD†を導入する(D†自体は非アクティブな音イベントとする)。スライスサンプリングにおいて推論すべきパラメータは、スライス補助変数sとD†番目までの音イベントとなる。すなわち,<s,D*,D†,C:,:,1:D†,Z1:D†,:,H(:) :,1:D†,U1:D†,:,a1:D†,b1:D†>であり、尤度関数の値が収束するまで、これらを繰り返しサンプリングする。各パラメータのサンプリング方法を以下に示す。
上記(22)式から、スライス補助変数sをサンプリングする。
D*=D†と更新する。D*<D†である必要があるので、
にしたがって、d=D*+1についてadをサンプリングする(音イベントを追加する)。この分布はlogadについて対数凹分布となるため、適応的棄却サンプリング(Adaptive rejection sampling, ARS)を利用できる。s>adとなるまで、adを繰り返しサンプリングし、s>adとなった初めてのdをD†とするように更新する。さらに、ここで追加された音イベントdに関しては、Ud,:=0、H(1) ω,d〜Gamma(φω,d,ψω,d)としてパラメータを初期化する。
s<adとなる最大の音イベントのインデックスdをD*=dと更新する。D†=D*+1と更新する。D*<D†なので音イベントを追加する必要はない。また、音イベントD†よりもインデックスの大きいイベントdは削除する。
Cω,t,1,... ,Cω,t,D†の条件付き確率は,
となる。ここで、rd,t (k)=δ(Zd,t−k)とし、pω,t,dは
とする。上記(25)式で示される多項分布からCω,t,1,... ,Cω,t,D†をサンプリングする。
4.2の推論によって、音イベントごとの音源分離スペクトログラムC^が得られる。次は、分離された音イベントdの各時刻のスペクトルC:,1,d,...,C:,T,dが、どの基底スペクトルによって表現されるか、状態系列Zd,1,...,Zd,Tを推論する。
p(Zd,1,...,Zd,T|C:,1,d,...,C:,T,d)を最大化する基底スペクトルの状態系列Zd,1,...,Zd,Tを求める際、単純に、Zd,1,...,Zd,Tの全ての可能な値で評価するのは計算量的に非現実である。そこで、p(Zd,1,...,Zd,T|C:,1,d,...,C:,T,d)からZd,1,...,Zd,Tをサンプリングすることによって、p(Zd,1,...,Zd,T|C:,1,d,...,C:,T,d)の値の大きなZd,1,...,Zd,Tを確率的に求める。このサンプリングを効率良く実現する方法として、Gibbsサンプリングを利用する。
Gibbsサンプリングでは、p(Zd,1,...,Zd,T|C:,1,d,...,C:,T,d)からZd,1,...,Zd,Tを同時にサンプリングするのではなく、逐次的にサンプリングする。すなわち、Zd,tをサンプリングする際、Zd,t以外の{Zd,1,..., Zd,t−1, Zd,t+1,..., Zd,T}(以降Zd, \t^と記述する)の値は既知とした,p(Zd,t|Zd,\t^,C:,t,d,Θ)より、Zd,tをサンプリングする。
と書ける。ここで、
とする。上記(27)式に従って、既存の状態kの各々について条件付き確率を算出し、新規の状態knewについて条件付き確率を算出し、算出された各状態の条件付き確率により、Zd,tをサンプリングして決定する。
Hω,d (k)の条件付き確率は、
となる。上記(29)式で示されるガンマ分布からHω,d (k)をサンプリングする。
Forward-filtering backward-sampling アルゴリズムを利用して、Ud,1,...,Ud,Tを推論する。
このとき、U^のd行以外の値はすべて固定する。まず、t=1,...,Tに対して、
を再帰的に計算する。次に、p(Ud,T|Y:,1:T,C:,1:T,d,Zd,:,H(:) :,d)からUd,Tをサンプリングする。そして、t=T−1,...,1に対して、Ud,t+1が与えられた下で、
に従って、Ud,tを後方から順番にサンプリングする。
d=1,...,D†−1対して、adの条件付き確率は、
となり、上記(32)式で示されるベータ分布からadをサンプリングする。d=D†の音イベントは非アクティブとなるが、スライスサンプリングの打ち切り数のために、aD†を計算する必要がある。aD†の条件付き確率は,上記(24)式をd=D†としたときであり、適応的棄却サンプリングを用いて、aD†をサンプリングする。
d=1,...,D†に対して、bdの条件付き確率は、
となり、上記(33)式で示されるベータ分布からbdをサンプリングする。
次に、音響信号の信号パラメータを分析して出力する音響信号分析装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。
基底スペクトル集合H^及びアクティベーション集合U^については、記憶部2に記憶された二次元配列Y^に対し、上記(1)式に従って、通常のNMFを適用し、推定されたH^とU^を初期値とし、記憶部2に格納する。具体的には、基底の状態kを1のみとし、基底スペクトル集合H^の要素である全てのパラメータHω,d (1)が非負値であり、アクティベーション集合U^の要素である全てのパラメータUd,tが非負値である、という条件の下で、パラメータHω,d (1)とパラメータUd,tとの積を、全てのdについて足し合わせたモデルについて、二次元配列Y^とモデルとの距離を表わした目的関数の値が小さくなるように、パラメータHω,d (1)及びパラメータUd,tの各々を推定して、基底スペクトル集合H^及びアクティベーション集合U^の初期値を設定する。
この部分のNMFは、周知技術により実現でき、例えば、文献:A.T.Cemgil,“ Bayesian inference in non-negative matrix factorisation models, ” in University of Cambridge, 2008. や文献:M. Hoffman, D. Blei, and P. Cook,“ Bayesian nonparametric matrix factorization for recorded music, ”in Proc. ICML, 2010.で提案されるNMF手法を利用する。ただし、U^に関しては、その平均値よりも大きい要素は1に、平均値よりも小さい要素は0に二値化して初期値とする。
状態系列Z^については、全ての要素の初期値としては1が設定され、記憶部2に格納される。
音イベント数Dについては、適切な初期値が設定され、記憶部2に格納される。例えば、初期値として音イベント数D=10とすることができる。
また、遷移確率a^については、上記(21)式に従って、a^={a1,... ,aD,aD†}についての初期値が生成され、そして遷移確率b^については、上記(11)式に従って、初期値が生成され、各々の初期値が記憶部2に格納される。
具体的には、記憶部2に記憶された遷移確率a^、及びアクティベーション集合U^に基づいて、上記(22)式に従って、スライス補助変数sを生成し、記憶部2へ格納する。そして、生成されたスライス補助変数sと、遷移確率aD†を比較し、s<aD†の場合には、図9に示すように、上記(24)式に従ってadをサンプリングして、新たな音イベントを追加すると共に、D†とD*を更新する。s≧aD†の場合には、図10に示すように、s<adとなる最大の音イベントのインデックスdをD*=dと更新する。D†=D*+1と更新する。D*<D†なので音イベントを追加する必要はない。また、音イベントD†よりもインデックスの大きいイベントdは削除する。
また新たに音イベントが追加された場合には、新たに追加された音イベントに対応する基底スペクトルH(1) 1,d,・・・,H(1) Ω,d、及びアクティベーションUd,:も生成し、記憶部2に格納する。具体的には、追加された音イベントdに関して、Ud,:=0、H(1) ω,d〜Gamma(φω,d,ψω,d)としてパラメータを初期化し、記憶部2に格納する。
具体的には、上記(1)式に従って、上記ステップS100において生成された二次元配列Y^に基づいて、基底スペクトル集合H^とアクティベーション集合U^を推定し、初期値として記憶部2へ記憶する。状態系列Z^については、全ての要素の初期値として1を設定し、音イベント数Dについては、初期値として例えばD=10を設定する。また遷移確率a^については、上記(21)式に従って、a^={a1,...,aD†}についての初期値が生成され、遷移確率b^については、上記(11)式に従って初期値が生成される。そして、生成された各々の初期値を記憶部2へ記憶する。
また新たに音イベントが追加された場合には、新たに追加された音イベントに対応する基底スペクトルH(1) 1,d,・・・,H(1) Ω,d、及びアクティベーションUd,:も生成する。具体的には、追加された音イベントdに関して、Ud,:=0、H(1) ω,d〜Gamma(φω,d,ψω,d)としてパラメータを初期化する。
なお、Zd,tを求める際の状態系列Z^については、Zd,t以外の{Zd,1,...,Zd,t−1,Zd,t+1,...,Zd,t}(=Zd,\t)の値を既知として、Zd,tをサンプリングして推論する。ここで、Zd,1,...,Zd,t−1までは、本ステップS110で推論された直前の値を用い、Zd,t+1,...,Zd,tについては、上記ステップS104で生成された状態系列Z^又は本ステップS110で前回推論された状態系列Z^を用いて、Zd,tをサンプリングして推論し、記憶部2へ記憶する。
予備実験として、オーボエ(G4、ソ音)、バイオリン(E4、ミ音)、ピアノ(C4、ド音)の音が混合された音響信号に対して、上記のアルゴリズムの適用を試みた。図6は、サンプリング周波数16kHz、量子化ビット数16の音響信号をフレーム長64ms、フレームシフト長32msで周波数分析したときの振幅スペクトログラムである。パラメータの初期化方法については前述したとおりである。図7にマルチラベリング、およびセグメンテーションの結果を示す。この図から、オーボエ、ピアノ、バイオリンにうまく分離して特徴を捉えていることがわかり、本アルゴリズムの有効性が期待できる。図8は学習された各楽器音のスペクトル集合を示す。各楽器の音を表現しうるスペクトル数(バイオリンは6個、オーボエは5個、ピアノは7個)が、音響信号データから推定される。それぞれのスペクトル形状が各楽器に対応していることを定性的に確認した。
3 演算部
4 出力部
10 短時間フーリエ変換部
12 パラメータ初期値生成部
14 モデルパラメータ更新部
16 スライス補助変数推論部
18 音源分離推論部
20 状態系列推論部
22 基底スペクトル推論部
24 アクティベーション推論部
26 遷移確率推論部
28 収束判定部
Claims (5)
- 複数の音イベントが混在する音響信号の時系列データを入力として、観測時間周波数成分Yω,t(ωは周波数、tは時刻のインデックスである。)を要素にもつ二次元配列Y^を出力する時間周波数分解手段と、
予め定められたD個の音イベントdの各々における所定の基底の状態kの基底スペクトルを表わすパラメータHω,d (k)を要素にもつ三次元配列H^、前記D個の音イベントの各々に対する各時刻tの発音の有無を表すパラメータUd,t(={0、1})を要素にもつ二次元配列U^、及び前記D個の音イベントdの各々に対して各時刻tに前記基底の状態が何れであるかを表わすパラメータZd,tを要素にもつ二次元配列Z^の各々の初期値を設定すると共に、D†個(D†=D+1)の音イベントdの各々について、前記パラメータUd,tが0から1へ遷移する遷移確率ad(a1>a2>・・・>aD-1>aD>aD†)、及び前記パラメータUd,tが1から1へ遷移する遷移確率bdの各々の初期値を設定するパラメータ初期値設定手段と、
0からUd,t=1となるtをもつ音イベントdの中で最も小さい値となる遷移確率adまでの一様分布に従って、補助変数sをサンプリングにより決定し、遷移確率aD†及び補助変数sに応じて音イベントdを追加する場合、D、D†を更新すると共に、追加する音イベントdに対するパラメータUd,t及び前記所定個の基底の状態kを表わすパラメータHω,d (k)の初期値を設定する補助変数推論手段と、
(ω、t、d)の全ての組み合わせについて、前記二次元配列Z^、前記三次元配列H^、及び前記二次元配列U^に基づいてパラメータpω,t,dを算出し、算出した各パラメータpω,t,dと、前記二次元配列Y^とをパラメータとする多項分布に従って、D†個の音イベントdの各々に対する時間周波数成分Cω,t,dを要素にもつ三次元配列C^をサンプリングにより決定する音源分離手段と、
D†個の音イベントdの各々について、前記二次元配列Z^、前記三次元配列C^,及び前記二次元配列U^に基づいて、各時刻tに前記基底の状態が各状態kである事後確率、及び各時刻tに前記基底の状態が新規の状態である事後確率を算出し、算出した事後確率に従って、前記二次元配列Z^をサンプリングにより決定する状態系列推論手段と、
(k、ω、d)の全ての組み合わせについて、前記二次元配列Z^、及び前記三次元配列C^に基づいて、パラメータφω,d (k)、ψω,d (k)を算出し、算出したパラメータφω,d (k)、ψω,d (k)をパラメータとする確率分布に従って、前記三次元配列H^をサンプリングにより決定する基底スペクトル推論手段と、
(d、t)の全ての組み合わせについて、前記三次元配列C^、前記二次元配列Z^、前記三次元配列H^、及び前記遷移行列ad,bdに基づいて、パラメータUd,tの事後分布を算出し、算出したパラメータUd,Tの事後分布に従って、Ud,Tをサンプリングにより決定し、t=T−1,・・・,1について、算出したパラメータUd,tの事後分布と、前記遷移行列ad,bdに基づく事後分布p(Ud,t+1|Ud,t)との積に従って、Ud,tをサンプリングにより決定することにより、前記二次元配列U^を求めるアクティベーション推論手段と、
前記D†個の音イベントdの各々について、前記遷移確率ad-1、ad+1及び前記二次元配列U^に基づく遷移確率adの確率分布に従って、遷移確率adをサンプリングにより決定し、前記遷移確率aD†に基づく遷移確率adの確率分布に従って、遷移確率aD†をサンプリングにより決定すると共に、前記D†個の音イベントdの各々について、前記二次元配列U^に基づく遷移確率bdの確率分布に従って、遷移確率bdをサンプリングにより決定する遷移確率推論手段と、
予め定められた収束条件を満たすまで、前記補助変数推論手段、前記音源分離手段、前記状態系列推論手段、前記基底スペクトル推論手段、前記アクティベーション推論手段、及び前記遷移確率推論手段による各処理を繰り返し行い、前記三次元配列C^、前記二次元配列Z^、前記三次元配列H^、及び前記二次元配列U^を出力する収束判定手段と、
を含む音響信号分析装置。 - 前記補助変数推論手段は、0からUd,t=1となるtをもつ音イベントdの中で最も小さい値となる遷移確率adまでの一様分布に従って、補助変数sをサンプリングにより決定し、
前記遷移確率aD†が、前記補助変数sより大きい場合、追加する音イベントdの遷移確率adを、前記遷移確率aD†に基づく遷移確率adの確率分布に従ってサンプリングにより決定すると共に、前記追加する音イベントdに対するパラメータUd,t及び前記所定個の基底の状態kを表わすパラメータHω,d (k)の初期値を設定し、DをD†に更新すると共に、サンプリングにより決定され、かつ、前記補助変数sより小さくなる遷移確率adにおけるdに、D†を更新し、
前記遷移確率aD†が、前記補助変数s以下である場合、s<adとなる最大の音イベントのインデックスdをD*=dと更新し、D†=D*+1と更新し、音イベントD†よりもインデックスの大きいイベントdは削除する請求項1記載の音響信号分析装置。 - 初期値設定手段は、
前記予め定められたD個の音イベントdの各々における基底の状態数を1とし、全てのパラメータHω,d (1)が非負値であり、全てのパラメータUd,tが非負値である、という条件の下で、前記パラメータHω,d (1)と前記パラメータUd,tとの積を、全てのdについて足し合わせたモデルについて、前記時間周波数分解手段によって出力された観測時間周波数成分Yω,tと前記モデルとの距離を表わした目的関数の値が小さくなるように、前記パラメータHω,d (1)及び前記パラメータUd,tの各々を推定し、前記推定された前記パラメータUd,tの各々を二値化することにより、前記三次元配列H^及び前記二次元配列U^の初期値を設定すると共に、前記パラメータZd,tの各々を1とした二次元配列Z^の初期値を設定する請求項1又は2記載の音響信号分析装置。 - 時間周波数分解手段、パラメータ初期値設定手段、補助変数推論手段、音源分離手段、状態系列推論手段、基底スペクトル推論手段、アクティベーション推論手段、遷移確率推論手段、及び収束判定手段を含む音響信号分析装置における音響信号分析方法であって、
前記音響信号分析装置は、
前記時間周波数分解手段によって、複数の音イベントが混在する音響信号の時系列データを入力として、観測時間周波数成分Yω,t(ωは周波数、tは時刻のインデックスである。)を要素にもつ二次元配列Y^を出力するステップと、
前記パラメータ初期値設定手段によって、予め定められたD個の音イベントdの各々における所定の基底の状態kの基底スペクトルを表わすパラメータHω,d (k)を要素にもつ三次元配列H^、前記D個の音イベントの各々に対する各時刻tの発音の有無を表すパラメータUd,t(={0、1})を要素にもつ二次元配列U^、及び前記D個の音イベントdの各々に対して各時刻tに前記基底の状態が何れであるかを表わすパラメータZd,tを要素にもつ二次元配列Z^の各々の初期値を設定すると共に、D†個(D†=D+1)の音イベントdの各々について、前記パラメータUd,tが0から1へ遷移する遷移確率ad(a1>a2>・・・>aD-1>aD>aD†)、及び前記パラメータUd,tが1から1へ遷移する遷移確率bdの各々の初期値を設定するステップと、
前記補助変数推論手段によって、0からUd,t=1となるtをもつ音イベントdの中で最も小さい値となる遷移確率adまでの一様分布に従って、補助変数sをサンプリングにより決定し、遷移確率aD†及び補助変数sに応じて音イベントdを追加する場合、D、D†を更新すると共に、追加する音イベントdに対するパラメータUd,t及び前記所定個の基底の状態kを表わすパラメータHω,d (k)の初期値を設定するステップと、
前記音源分離手段によって、(ω、t、d)の全ての組み合わせについて、前記二次元配列Z^、前記三次元配列H^、及び前記二次元配列U^に基づいてパラメータpω,t,dを算出し、算出した各パラメータpω,t,dと、前記二次元配列Y^とをパラメータとする多項分布に従って、D†個の音イベントdの各々に対する時間周波数成分Cω,t,dを要素にもつ三次元配列C^をサンプリングにより決定するステップと、
前記状態系列推論手段によって、D†個の音イベントdの各々について、前記二次元配列Z^、前記三次元配列C^,及び前記二次元配列U^に基づいて、各時刻tに前記基底の状態が各状態kである事後確率、及び各時刻tに前記基底の状態が新規の状態である事後確率を算出し、算出した事後確率に従って、前記二次元配列Z^をサンプリングにより決定するステップと、
前記基底スペクトル推論手段によって、(k、ω、d)の全ての組み合わせについて、前記二次元配列Z^、及び前記三次元配列C^に基づいて、パラメータφω,d (k)、ψω,d (k)を算出し、算出したパラメータφω,d (k)、ψω,d (k)をパラメータとする確率分布に従って、前記三次元配列H^をサンプリングにより決定するステップと、
前記アクティベーション推論手段によって、(d、t)の全ての組み合わせについて、前記三次元配列C^、前記二次元配列Z^、前記三次元配列H^、及び前記遷移行列ad,bdに基づいて、パラメータUd,tの事後分布を算出し、算出したパラメータUd,Tの事後分布に従って、Ud,Tをサンプリングにより決定し、t=T−1,・・・,1について、算出したパラメータUd,tの事後分布と、前記遷移行列ad,bdに基づく事後分布p(Ud,t+1|Ud,t)との積に従って、Ud,tをサンプリングにより決定することにより、前記二次元配列U^を求めるステップと、
前記遷移確率推論手段によって、前記D†個の音イベントdの各々について、前記遷移確率ad-1、ad+1及び前記二次元配列U^に基づく遷移確率adの確率分布に従って、遷移確率adをサンプリングにより決定し、前記遷移確率aD†に基づく遷移確率adの確率分布に従って、遷移確率aD†をサンプリングにより決定すると共に、前記D†個の音イベントdの各々について、前記二次元配列U^に基づく遷移確率bdの確率分布に従って、遷移確率bdをサンプリングにより決定するステップと、
前記収束判定手段によって、予め定められた収束条件を満たすまで、前記補助変数推論手段、前記音源分離手段、前記状態系列推論手段、前記基底スペクトル推論手段、前記アクティベーション推論手段、及び前記遷移確率推論手段による各処理を繰り返し行い、前記三次元配列C^、前記二次元配列Z^、前記三次元配列H^、及び前記二次元配列U^を出力するステップと、
を含む音響信号分析方法。 - コンピュータを、請求項1〜請求項3の何れか1項記載の音響信号分析装置の各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012186441A JP5771582B2 (ja) | 2012-08-27 | 2012-08-27 | 音響信号分析装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012186441A JP5771582B2 (ja) | 2012-08-27 | 2012-08-27 | 音響信号分析装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014044296A JP2014044296A (ja) | 2014-03-13 |
JP5771582B2 true JP5771582B2 (ja) | 2015-09-02 |
Family
ID=50395606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012186441A Active JP5771582B2 (ja) | 2012-08-27 | 2012-08-27 | 音響信号分析装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5771582B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6448506B2 (ja) * | 2015-10-13 | 2019-01-09 | 日本電信電話株式会社 | パターン抽出装置、方法、及びプログラム |
CN112562647B (zh) * | 2020-11-24 | 2022-09-06 | 中电海康集团有限公司 | 一种音频起始点的标注方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101165779B (zh) * | 2006-10-20 | 2010-06-02 | 索尼株式会社 | 信息处理装置和方法、程序及记录介质 |
-
2012
- 2012-08-27 JP JP2012186441A patent/JP5771582B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014044296A (ja) | 2014-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Huang et al. | Joint optimization of masks and deep recurrent neural networks for monaural source separation | |
US9721202B2 (en) | Non-negative matrix factorization regularized by recurrent neural networks for audio processing | |
Févotte | Majorization-minimization algorithm for smooth Itakura-Saito nonnegative matrix factorization | |
Ycart et al. | A study on LSTM networks for polyphonic music sequence modelling | |
US9553681B2 (en) | Source separation using nonnegative matrix factorization with an automatically determined number of bases | |
Ntalampiras | Bird species identification via transfer learning from music genres | |
Sigtia et al. | A hybrid recurrent neural network for music transcription | |
JP2014164126A (ja) | 音響信号分析方法、装置、及びプログラム | |
Boulanger-Lewandowski et al. | High-dimensional sequence transduction | |
Bandela et al. | Unsupervised feature selection and NMF de-noising for robust Speech Emotion Recognition | |
Chien et al. | Bayesian factorization and learning for monaural source separation | |
Fuentes et al. | Adaptive harmonic time-frequency decomposition of audio using shift-invariant PLCA | |
Boulanger-Lewandowski et al. | Exploiting long-term temporal dependencies in NMF using recurrent neural networks with application to source separation | |
Haque et al. | High-fidelity audio generation and representation learning with guided adversarial autoencoder | |
JP5771582B2 (ja) | 音響信号分析装置、方法、及びプログラム | |
US10839823B2 (en) | Sound source separating device, sound source separating method, and program | |
Sunnydayal | Speech enhancement using posterior regularized NMF with bases update | |
JP5818759B2 (ja) | 状況生成モデル作成装置、状況推定装置、およびプログラム | |
JP2009204808A (ja) | 音響特徴抽出方法及び、その装置、そのプログラム、そのプログラムを記録した記録媒体 | |
Guo et al. | Optimized phase-space reconstruction for accurate musical-instrument signal classification | |
Lee et al. | High-order hidden Markov model for piecewise linear processes and applications to speech recognition | |
JP2012027196A (ja) | 信号分析装置、方法、及びプログラム | |
Févotte et al. | Temporal extensions of nonnegative matrix factorization | |
JP2013195575A (ja) | 音響信号分析装置、方法、及びプログラム | |
Grais et al. | Initialization of nonnegative matrix factorization dictionaries for single channel source separation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140815 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150528 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150602 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150629 |
|
R150 | Certificate of patent (=grant) or registration of utility model |
Ref document number: 5771582 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |