JP6316669B2

JP6316669B2 - 状況モデル学習装置、その方法及びプログラム

Info

Publication number: JP6316669B2
Application number: JP2014122063A
Authority: JP
Inventors: 桂右井本; 尚植松; 仲大室
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-06-13
Filing date: 2014-06-13
Publication date: 2018-04-25
Anticipated expiration: 2034-06-13
Also published as: JP2016004054A

Description

本発明は、音響信号やその音響信号が何の音であるかをラベル付けした音響イベントを利用して、ある状況が生成されるモデル（以下「音響信号-状況生成モデル」ともいう）、及び、ある状況から音響イベントが生成されるモデル（以下「状況-音響イベント生成モデル」ともいう）を作成しながら状況を推定する技術、また、生成されたモデルを利用して状況を分析、推定する技術に関する。

非特許文献１に開示された従来技術では、連続する有限個の短時間フレーム毎の音響信号が何の音であるか（「足音」、「水が流れる音」など。以後、音響信号によって示されるイベント（事象）を「音響イベント」ともいう）を示す音響イベントの系列（以下「音響イベント列」ともいう）の生成過程を、長時間の音響信号から状況が生成される過程と、状況から音響イベントが生成される過程とを考慮してモデル化し、そのパラメータを推定する。従来技術では、生成モデルから、長時間音響信号毎の状況の生成確率を分析したり、新たに入力された音響イベント列とモデルとの距離を利用して、対応する音響信号が示す状況を推定することを可能とする。

井本他、"音響イベント列の確率的生成モデルを利用した音響トピックとユーザ行動との関係分析"、日本音響学会2013年春季研究発表会、2013、pp。825-826(1-P-3)

従来技術では、状況を分析、推定するためのモデルを作成する際、事前に大規模なモデル作成用の長時間の音響信号を用意しておき、それらの音響信号全てを利用して生成モデルのパラメータを推定する必要がある。そのため、モデル作成用の音響信号が事前に全て得られない場合は生成モデルの作成が困難である。また、全ての音響信号を用いて生成モデルを作成するため、大規模な音響信号に対しては、生成モデルの作成に要する時間や一時記憶装置が非常に大規模になる。また、従来技術ではモデル化する状況の種類の数を、モデル作成の前に設定しておく必要がある。そのため、もし逐次的に得られる音響信号や音響イベント列を利用してモデル化可能であったとしても、事前に設定した状況の種類の数と実際の状況の種類の数とが異なれば精度が大幅に劣化する事が考えられる。

本発明は、状況をモデル化する際に、音響信号や音響イベント列が有する状況の数を事前に設定することなく、さらに、逐次的に音響信号が得られる場合にもモデルの学習を可能とする状況モデル学習技術、並びに、状況の分析および推定を可能とする状況推定技術を提供することを目的とする。

上記の課題を解決するために、本発明の一態様によれば、状況モデル学習装置は、ある音響イベント列から状況が生成される確率の分布である第三確率分布は、第一確率分布によって規定されるものとし、第一確率分布は、音響イベント列と、発生しうる全ての状況が生成される確率との関係を、離散的な分布で表現したものであり、第一確率分布と第三確率分布とは階層的なディリクレ過程に従うものとし、各状況が音響イベントの生成確率分布である第二確率分布を規定するものとし、逐次入力される音響イベント列を用いて、第一確率分布と、第二確率分布と、第三確率分布とを同時に算出し、算出した第二確率分布を、状況から音響イベントを生成する状況-音響イベント生成モデルとして取得し、音響イベント列から状況を生成する音響信号-状況生成モデルを取得する状況モデル化部を含む。

上記の課題を解決するために、本発明の他の態様によれば、状況モデル学習方法は、状況モデル学習装置が実行する。状況モデル学習方法は、ある音響イベント列から状況が生成される確率の分布である第三確率分布は、第一確率分布によって規定されるものとし、第一確率分布は、音響イベント列と、発生しうる全ての状況が生成される確率との関係を、離散的な分布で表現したものであり、第一確率分布と第三確率分布とは階層的なディリクレ過程に従うものとし、各状況が音響イベントの生成確率分布である第二確率分布を規定するものとし、状況モデル化部が、逐次入力される音響イベント列を用いて、第一確率分布と、第二確率分布と、第三確率分布とを同時に算出し、算出した第二確率分布を、状況から音響イベントを生成する状況-音響イベント生成モデルとして取得し、音響イベント列から状況を生成する音響信号-状況生成モデルを取得する状況モデル化ステップを含む。

本発明によれば、音響信号や音響イベント列が有する状況の数を事前に設定することなく、さらに、逐次的に音響信号が得られる場合にもモデルの学習、状況の分析および推定を行うことができる。

状況モデル生成装置の機能ブロック図。状況モデル生成装置の処理フローの例を示す図。第一確率分布、第二確率分布及び第三確率分布を説明するための図。状況モデル化部の処理フローの例を示す図。状況推定装置の機能ブロック図。状況推定装置の処理フローの例を示す図。

以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第一実施形態＞
＜第一実施形態のポイント＞
本実施形態では、逐次的に得られた、音響イベント列から、音響信号と状況、状況と音響イベントの関係を同時に考慮して、音響信号-状況生成モデル及び状況-音響イベント生成モデルを作成し、同時に、状況の数やその中身の分析及び推定を行う技術について説明する。なお、音響信号-状況生成モデルとは音響信号（または、音響信号から得られる音響特徴量列や音響イベント列全体）から状況が生成される確率分布であり、この分布(モデル)により音響信号と状況が関係づけられる。つまりこの分布(モデル)を用いることで音響信号（または、音響信号から得られる音響特徴量列や音響イベント列全体）から状況が推定可能になる。また、同様に、状況-音響イベント生成モデルとは状況から音響イベントが生成される確率分布であり、この分布(モデル)により状況と音響イベントが関係づけられる。つまり、この分布(モデル)を用いることで音響イベントから状況が推定可能となる。

ここで、状況とは、音響イベント列に付与された音響イベントのラベルの組み合わせによって規定される、潜在的な音響状態を指すものとする。

＜第一実施形態に係る状況モデル学習装置２００＞
図１は本実施形態に係る状況モデル学習装置２００の機能ブロック図を、図２はその処理フローの例を示す。

状況モデル学習装置２００は、音響イベント列合成部２０３と、状況モデル化部２０４と保存ＤＢ２０８とを含む。

状況モデル学習装置２００は、単一または複数の音響イベント列から構成される、音響イベント列の集合２０１ｈを逐次的に入力として受け取り(ｈは時間のインデックス)、音響イベント列合成部２０３及び状況モデル化部２０４を用いて、音響信号-状況生成モデル２０５、状況-音響イベント生成モデル２０６を算出し、保存ＤＢ２０８に格納する。

また、状況モデル化部２０４は、下記に示す方法を用いて、状況ラベル列２０７を同時に出力しても良い。この状況ラベル列２０７を分析することにより、入力された音響イベント列の集合２０１ｈの各音響イベントが示す状況が推定可能となる。

音響イベント列２０１ｈ−ａ、２０１ｈ−ｂなどは、音響イベントラベルが1つ以上組み合わされた音響イベントの系列である。なお、音響イベントラベルは、音響信号に対して短時間毎(数10msec〜数sec毎)に付与されるラベルである。モデル化の対象となる音響信号に対応する様々な音響イベント列を入力とすることが望ましい。

＜音響イベント列合成部２０３＞
音響イベント列合成部２０３は、複数の音響イベント列（例えば、音響イベント列２０１ｈ−ａ、２０１ｈ−ｂ）を含む音響インベント列の集合２０１ｈが入力された場合、これらをつなぎあわせて一つの音響イベント列とし、その結果を状況モデル化部２０４に送出する（Ｓ２０３）。なお、音響イベント列合成部２０３を設けず、単一の音響イベント列を状況モデル化部２０４に直接入力する構成としても良い。

＜状況モデル化部２０４及び保存ＤＢ２０８＞
状況モデル化部２０４では、入力された音響イベント列から、例えば、以下の手順に従って、逐次的に、音響信号-状況生成モデル２０５、状況-音響イベント生成モデル２０６、(状況ラベル列２０７)を算出し、保存ＤＢ２０８に保存する（Ｓ２０４）。なお、音響信号-状況生成モデル２０５と状況-音響イベント生成モデル２０６、状況ラベル列２０７を保存する保存ＤＢ２０８を別の構成としても良い。

また、各時刻ｈに算出された音響信号-状況生成モデル２０５、状況-音響イベント生成モデル２０６、(状況ラベル列２０７)をそれぞれ保存ＤＢ２０８に保存しても良いし、音響信号-状況生成モデル２０５、状況-音響イベント生成モデル２０６、(状況ラベル列２０７)が算出される度に上書きしても良い。

〔状況から音響イベントが生成される過程の理論的説明〕
状況モデル化部２０４では、逐次的に、(1)音響イベント列の集合εに含まれる音響イベント列sが状況kを生成する確率の「種」となる確率と、(2)その確率によって変化する、音響イベント列sが状況tを生成する確率と、(3)状況kが音響イベントeを生成する確率を同時に算出し、そこから、音響信号-状況生成モデル２０５と状況-音響イベント生成モデル２０６とを生成し、出力する。なお、kは「種」となる状況のインデックスを表し、tは各音響イベント列が有する状況のインデックスを表す。各音響イベント列が有する状況は、「種」となる全ての状況の中から生じやすい状況を抽出したものであり、各音響イベント列が有する状況の総数は、「種」となる状況の総数よりも小さい。本実施形態では、図３に示すように、各音響イベント列が状況を生成する確率には、その「種」となる確率が存在し（図３の最上段の確率分布を参照）、各音響イベント列が状況を生成する確率（図３の中段の確率分布を参照）はこの「種」に規定されていると考える。さらに、各状況が音響イベントの生成確率（図３の最下段の確率分布を参照）を規定すると考える。状況モデル化部２０４は、これらの関係を生成モデルとして記述し、生成モデルのパラメータを推定することで状況の分析を可能とする。

この「種」となる確率は、理論的には無限種類の状況を生成できると考え、各音響イベント列が状況を生成する確率が決められる際には、「種」となる確率に基づいて任意の個数の状況の種類が生成され得ると考えることで、状況の種類の数を柔軟に変化させモデル化することが可能となる。実際のモデル化では、音響イベント列が状況を生成する確率が小さいものについて打ち切ることで、必要な数の状況が正しくモデル化されることとなる。具体的にこれらのモデル化には、例えば階層的なディリクレ過程を利用して、どの状況を生成するかを決定し、各音響イベント列がどの状況を生成しやすいかを表す確率と、各状況がどの音響イベントを生成しやすいかを表す確率には、それぞれ多項分布を用いることなどが可能である。

言い換えると、本実施形態では、ある音響イベント列から状況が生成される確率の分布（以下「第三確率分布」ともいい、図３の中段の確率分布に相当する）は、「種」となる確率の分布（以下「第一確率分布」ともいい、図３の最上段の確率分布に相当する）によって規定されるものとする。

この第一確率分布は、例えば所定の場所（家の中など）で発生しうる全ての音響イベント列と、発生しうる全ての状況が生成される確率との関係を、離散的な分布で表現したものである。

また、第三確率分布は、例えば所定の場所及び所定の期間（昼間のリビングなど）に発生しうる音響イベント列と、状況が生成される確率との関係を、離散的な分布で表現したものである。ここで、第一確率分布と第三確率分布とは階層的なディリクレ過程に従う。

そして、状況モデル化部２０４は、音響イベント列の集合εを用いて、第一確率分布と、第三確率分布と、各状況に対する音響イベントの生成確率分布（以下「第二確率分布」ともいい、図３の下段の確率分布に相当する）とを同時に算出し、状況から音響イベントを生成する状況-音響イベント生成モデル２０６と、音響イベント列から状況を生成する音響信号-状況生成モデル２０５とを生成する（Ｓ２０４）。

一例として、上記の生成過程は以下のように定式化することができる。まず、「種」となる確率は以下のように生成する事が可能である。

ここで、θ_kは音響イベント列が示す状況、β_kは状況θ_kが生成される確率、γはBeta分布のパラメータ、HはSymmetricなディリクレ分布、G₀は各音響イベント列から状況が生成される分布の「種」となる分布、δはクロネッカーのデルタ関数、kは「種」となる分布の状況のインデックス、Beta()はBeta分布を表す。また「〜」は右辺に示された分布から左辺に示されたパラメータを生成する事を表す。なお、クロネッカーのデルタ関数δ_{θ_k}は状況θ_kが発生する（または発生しやすい）場合には１を、発生しない（または発生しづらい）場合には０を返す関数である。確率β_kは図３の最上段の確率分布の各棒の値に相当し、分布G₀は図３の最上段の確率分布の各棒の値の内、発生する（または発生しやすい）状況θ_kに対応するもののみの総和を表す。

次に、各音響イベント列に対する状況の分布が以下のように生成される。

ここで、η_stは全ての音響イベント列に共有の、「種」となる状況、π_stはη_stに対応する状況が生成される確率、α₀はBeta分布のパラメータ、G_sは音響イベント列から状況が生成される分布、sは音響イベント列毎のインデックス、tは音響イベント列が示す状況のインデックスを表す。確率π_stは図３の中段の確率分布の各棒の値に相当し、分布G_sは図３の中段の確率分布の各棒の値の内、発生する（または発生しやすい）状況η_stに対応するもののみの総和を表す。

その後、各音響イベント列に対応する状況の分布から、音響イベント列毎に状況が生成され、状況毎に生成された音響イベントの生成分布から音響イベントが生成される。その生成過程は以下で表す事が可能である。

ここで、c_stはs番目の音響イベント列の状況tと対応する「種」となる状況のインデックス、z_siはs番目の音響イベント列のi番目の音響イベントが示す状況、e_siはs番目の音響イベント列のi番目の音響イベント、Mult()は多項分布を表す。φ_siは図３最下段の確率分布のパラメータであり、Mult（φ_si）は図３最下段の×印で表される確率分布を表す。音響イベントe_siは図３の最下段の確率分布から生成される音響イベントを表すとも言える。

この生成過程が、各音響イベント列に含まれる音響イベントの数、そして音響イベント列の数だけ繰り返されることで、音響イベント列の集合が生成される。

〔各生成モデルのパラメータ推定の理論的説明〕
音響信号-状況生成モデル２０５及び状況-音響イベント生成モデル２０６を算出するためには、上記の生成過程を基に変分ベイズ法(VB法、Variational Bayes methods)などの手法を用いることが可能である。

以下では、その一例として、変分ベイズ法に基づくモデルの算出手法を記載する。

また、ここでは、まず、モデル算出に利用する音響イベント列の集合が事前に得られている場合のパラメータ推定手法を先に説明し、その後、逐次的に得られる音響イベント列に対してパラメータを推定する手法を説明する。

上記生成モデルのパラメータを推定するためには、p(β',π',c, z,φ|ε)、（ここで、p(・)は「・」に対する確率を表すものとする）を最大化するパラメータを推定したい。ここで、β'={β'₁,β'₂,…,β'_k,…}、π'={π'₁₁,π'₁₂,…,π'_st,…}、c={c₁₁,c₁₂,…,c_st,…}、z={z₁₁,z₁₂,…,z_si,…}、φ={φ₁₁,φ₁₂,…,φ_si,…}、εは音響イベント列の集合を表すものとする。

上記モデルパラメータを直接推定することは一般的に困難であるため、変分ベイズ法に基づく手法では、q(β',π',c,z,φ)なる変分事後分布という分布を設定し、これを真のパラメータに近づけることで、上記モデルパラメータを推定する。

ここで、変分ベイズ法に基づく手法ではさらに、以下のような平均場近似と呼ばれる近似を適用する。

このとき、u_k、w_k、a_st、b_stはそれぞれBeta分布のパラメータを、ξ_st、ζ_si、λ_kはそれぞれ多項分布のパラメータを、Kは「種」となる状況の最大数を、Sは音響イベント列の数を、Tは各音響イベント列が有する状況の最大数を、N_sは音響イベント列sに含まれる音響イベントの数を表す。なお、各音響イベント列が有する状況は、「種」となる全ての状況の中から抽出されたものであり、T＜Kである。T及びKには状況の最大数として十分に大きな値を設定すればよい。

ここで、logp(ε;γ,α₀,υ)という周辺対数尤度を考え、ここにイェンセンの不等式を適用することで得られる変分自由パラメータを最大化することで、目的のモデルパラメータが推定できる事が分かる。

一般的な変分ベイズ法と同等の手順によりパラメータを求めることにより、最終的に、音響イベント列の集合に対して、以下の更新式を繰り返し適用することでモデルパラメータが推定可能である。

各音響イベント列に関するパラメータの更新式:

ただし、exp(・)は自然対数の底数の・乗を、E_q[・]は・の期待値演算を、e_siは音響イベント列sのi番目の音響イベントを表す。

全ての音響イベント列に関連するパラメータの更新式:

ただし、I[A=B]は値Aと値Bとが一致する場合に１を返し、異なる場合に0を返す関数であり、υはディリクレ分布のパラメータを表す。mは想定される音響イベントのインデックスであり、予め状況モデル学習装置２００の利用者等により与えられるものとする。この式では、音響イベントe_siが想定される音響イベントmであれば、対応するζ_sitを加算する。このような構成により想定される音響イベントmに対応するパラメータλ_kmの値を大きくすることができる。

さらに本実施形態では、逐次的に得られる音響信号に対して効率的にモデルの算出を可能とするための処理を実現可能にする。ここで、更新のための重み係数ρを例えば、以下のように設定する。

但し、κ、τ₀、hは、それぞれ忘却係数(κ∈(0.5,1.0]等)、更新の時間重みを制御するパラメータ(τ₀≧0等)、音響イベント列が入力された回数(時間に対するパラメータ)を表す。ここで、x^(y)は、xをy回更新したときに得られる値を表す。一定の重みを用いる場合には式（A）を、音響イベント列の入力回数に応じて重みを更新する場合には式（B）を用いればよい。式(B)では、更新回数が大きくなるほど、パラメータは収束していくと考え、新しく受け取った音響イベント列の集合により得られる値の影響が小さくなるように（重みρ^(h)が小さくなるように）、言い換えると、過去に得られた（一つ前の更新により得られた）パラメータu^(h-1) _k、w^(h-1) _k、λ^(h-1) _kmに対する重み（1-ρ^(h)）が大きくなるように、重みを変更する。本実施形態では、逐次的に式(B)により重み係数ρ^(h)を更新するものとする。

これらのパラメータを用いて、全ての音響イベント列に関連するパラメータの更新式を以下のように変形する。

本実施形態では、これらを利用して、潜在変数及びパラメータの変分事後分布を更新し、音響信号-状況生成モデル２０５、状況-音響イベント生成モデル２０６を算出する。

＜生成モデル算出の流れ：状況モデル化部２０４の流れの例＞
図４は、状況モデル化部２０４の処理フローの例を示す。

(i).事前分布のハイパパラメータ及び更新のための重み係数、γ,α₀,υ,τ₀,κを設定し（Ｓ２０４ａ）、各変分事後分布のハイパパラメータ及び更新のための重み係数a_st,b_st,u_k,w_k,λ_km,ξ_stk,ζ_sik,ρを初期化する（Ｓ２０４ｂ）。初期化の例として以下のような設定が可能である。
(i-1).s=1,2,…,S、t=1,2,…,Tに対して
a⁽⁰⁾ _st=1, b⁽⁰⁾ _st=α₀
(i-2).k=1,2,…,Kに対して
u⁽⁰⁾ _k=1,w⁽⁰⁾ _k=γ
(i-3).k=1,2,…,K、m=1,2,…,Mに対して
λ⁽⁰⁾ _km=1/M
ただし、Mは想定される音響イベントの数を表し、mは想定される音響イベントのインデックスであり、予め状況モデル学習装置２００の利用者等により与えられるものとする。
(i-4).s=1,2,…,S、t=1,2,…,T、k=1,2,…,Kに対して
ξ⁽⁰⁾ _stk=1/(T×K)
(i-5).s=1,2,…,S、i=1,2,…,N_s、k=1,2,…,Kに対して
ζ⁽⁰⁾ _sik=1/K
(i-6).τ₀,κ,h=0に対して
ρ⁽⁰⁾=(τ₀+h)^-κ
として、h←1とする（Ｓ２０４ｃ）。

(ii).逐次的に得られる音響イベント列ｓ’を取得し（Ｓ２０４ｄ）、音響イベント列ｓ’に対して、変分事後分布を更新する。

(ii-1).以下の処理Ｓ２０４ｅを所定の条件を満たすまで（Ｓ２０４ｆ）繰り返す。所定の条件としては、(1)規定の繰り返し回数(正値、1〜1000回程度)を超えることや、(2)所望の結果が得ること(例えば、更新の前後において、各パラメータの変化の平均値が、一定の閾値(例えば0.01%)以下になること)等が考えられる。

i=1,2,…,N_s'、k=1,2,…,K、t=1,2,…,Tに対して、以下のようにパラメータa_s't、b_s't、ξ_s'tk、ζ_s'itを更新する（ｓ２０４ｅ）。

ただし、ψ（・）はディガンマ関数を表す。なお、状況モデル化部２０４は、a_st、b_stをパラメータとしたBeta分布により第三確率分布（図３の中段の確率分布）を表現することができる。パラメータξ_s'tkは第一確率分布の状況kと音響イベント列s'の第二確率分布の状況tとの対応関係を表すパラメータであり、状況kが状況tに対応する確率を表し、Σ_kξ_s'tk=１である。パラメータζ_s'itは音響イベント列s'のi番目の音響イベントe_s'iが状況tに由来する確率を表し、Σ_tζ_s'it=１である。

(ii-2).所定の条件を満たした場合には（Ｓ２０４ｆ）、k=1,2,…,K、m=1,2,…,Mに対してパラメータu_k,w_k,λ_kmの変分事後分布を以下のように更新する（Ｓ２０４ｇ）。

状況モデル化部２０４は、u_k,w_kをパラメータとしたBeta分布により第一確率分布（図３の最上段の確率分布）を表現することができる。また、第二確率分布（図３の最下段の確率分布）に相当するパラメータλ_kmを算出することができる。

h←h+1とし、さらに、重み係数ρ^(h)を更新する（ρ^(h)←(τ₀+h)^-κ、Ｓ２０４ｈ）。

(iii).状況モデル化部２０４は、Beta(u_k,w_k)、Beta(a_st,b_st)、u_kおよびa_stからそれぞれ所定の値（例えば、10^-4）よりも小さい確率に対応する状況ｋ及びtに対する処理を打ち切り、打ち切った状況分だけK及びTを小さくし、残った状況ｋ及びtに対する確率を正規化する（Ｓ２０４ｉ）。なお、状況tの打ち切り処理、正規化処理は、パラメータa_st、b_stの更新（Ｓ２０４ｅ）を終える度に行ってもよい。

状況モデル化部２０４は、更新の結果得られたζ_s'itおよびξ_s'tkを用いて音響信号‐状況生成モデル２０５（Σ_tΣ_iξ_s'tkζ_s'it）を算出し、取得する。また、更新の結果得られた第二確率分布に相当するパラメータλ^(h) _kmを状況‐音響イベント生成モデル２０６として取得する（Ｓ２０４ｊ）。

最後の音響イベント列までＳ２０４ｄ〜Ｓ２０４ｊを繰り返す（Ｓ２０４ｋ）。

このような構成とすることで、音響イベント列s'を取得するたびに、逐次的に、第一確率分布、第二確率分布、第三確率分布、音響信号‐状況生成モデル２０５及び状況‐音響イベント生成モデル２０６を更新し、取得することができる。ただし、第三確率分布については、パラメータの更新毎に（Ｓ２０４ｅ）取得してもよい。

また、上記更新の結果で割り当てられた状況を分析することで、各音響イベントがどの状況により生成されたものかを知ることも可能である。つまり、更新の結果得られたパラメータζ_s'itに対して、音響イベント列s'における、i番目のフレームの状況tの生成確率を最大化するζ_s'itを該当フレームにおける状況と推定する。また、該当フレームにおける状況の推定値は、ζ_s'itのtにおける最大のものでも良く、最大値から複数個でも良く、設定された閾値を超えるものを全てとしても良い。

＜効果＞
このような構成により、音響信号や音響イベント列が有する状況の数を事前に設定することなく、さらに、逐次的に音響信号が得られる場合にもモデルの学習、状況の分析および推定を行うことができる。従来技術では、逐次的に得られる音響信号を用いて、音響信号全体をモデル化することは困難であったが、本実施形態の構成であれば、逐次的に得られる音響信号を用いて、音響信号と状況、音響イベント列の関係を考慮して、音響信号全体をモデル化することができる。

＜第一実施形態の変形例１＞
第一実施形態と異なる部分を中心に説明する。

本変形例では、逐次的に得られた、音響信号取得器等を用いて取得した音響信号から、短時間毎の音響特徴量を算出する。さらに、音響特徴量の列の集合から音響イベント列の集合を求める。そして、第一実施形態と同様に、音響イベント列の集合から状況の生成モデル、音響イベントの生成モデルをモデル化し、状況及び音響イベントを分析する。

状況モデル学習装置２００は、逐次的に、音響信号列の集合３０１ｈを入力とし、音響信号‐状況生成モデル２０５、状況‐音響イベント生成モデル２０６を算出し、同時に状況ラベル列２０７を算出し、状況の分析を行う。なお、音響信号列とは、1つ以上の音響信号がつなぎ合わされた信号列を指すものとする。

状況モデル学習装置２００は、音響イベント列合成部２０３と、状況モデル化部２０４と保存ＤＢ２０８とに加え、特徴量算出部３０２と音響イベント判定部３０３と音響イベントモデルＤＢ３０４とを含む（図１参照）。

＜特徴量算出部３０２＞
特徴量算出部３０２では、入力された音響信号列の集合３０１ｈに対して、短時間(数10msec〜数sec)毎に例えば音圧レベルや音響パワー、MFCC特徴量、LPC特徴量などの特徴量を算出し、音響特徴量列の集合４０１ｈを音響イベント判定部３０３に送出する（図２のＳ３０２）。また、特徴量算出部３０２では、これらの特徴量と、非特許文献1に示す、立ち上がり特性、調波性、時間周期性などの特徴量を組み合わせて用いても良い。

また、音響イベント列合成部２０３と同等の合成処理は、特徴量算出部３０２の前段に行っても良い。

＜音響イベント判定部３０３及び音響イベントモデルＤＢ３０４＞
音響イベントモデルＤＢ３０４には、予め音響イベントのラベルとその音響イベントに対する音響特徴量とを求めておき、記憶しておく。

音響イベント判定部３０３は、音響特徴量列の集合４０１ｈを受け取り、音響イベントモデルＤＢ３０４に保存されている各音響イベントに対応する音響特徴量と、入力された音響特徴量列の集合４０１ｈに含まれる音響特徴量列の音響特徴量とを短時間毎に比較し、例えばユークリッド距離やコサイン距離が最も近い音響特徴量に対する音響イベントのラベルを、入力された入力された音響特徴量列の集合４０１ｈに含まれる音響特徴量列の音響特徴量に付与する（図２のＳ３０３）。この処理（Ｓ３０２及びＳ３０３）を、入力された音響信号列の集合３０１ｈ全体に渡って行い、その結果取得される音響イベント列の集合２０１ｈを音響イベント列合成部２０３に送出する。

その他の処理は第一実施形態と同様とする。

このような構成とすることで、逐次的に得られる音響信号列の集合３０１ｈから状況の生成モデル、音響イベントの生成モデルをモデル化し、状況及び音響イベントを分析することができる。

＜第一実施形態の変形例２＞
第一実施形態と異なる部分を中心に説明する。

この例では、逐次的に得られた、短時間の音響信号の毎の音響特徴量の列を入力とし、音響特徴量の列の集合から音響イベント列の集合を求める。そして、第一実施形態と同様に、音響イベント列の集合から状況の生成モデル、音響イベントの生成モデルをモデル化し、状況及び音響イベントを分析する。

状況モデル学習装置２００は、音響特徴量列の集合４０１ｈを入力として、音響信号‐状況生成モデル２０５及び状況-音響イベント生成モデル２０６を算出し、同時に状況ラベル列２０７を算出し、状況の分析を行う。

状況モデル学習装置２００は、音響イベント列合成部２０３と、状況モデル化部２０４と保存ＤＢ２０８とに加え、音響イベント判定部３０３と音響イベントモデルＤＢ３０４とを含む（図１参照）。

音響イベント判定部３０３は、音響特徴量列の集合４０１ｈを受け取り、音響イベントモデルＤＢ３０４に保存されている各音響イベントに対応する音響特徴量と、入力された音響特徴量列の集合４０１ｈに含まれる音響特徴量列の音響特徴量とを短時間毎に比較し、例えばユークリッド距離やコサイン距離が最も近い音響特徴量に対する音響イベントのラベルを、入力された入力された音響特徴量列の集合４０１ｈに含まれる音響特徴量列の音響特徴量に付与する（図２のＳ３０３）。この処理（Ｓ３０２及びＳ３０３）を、入力された音響特徴量列の集合４０１ｈ全体に渡って行い、その結果取得される音響イベント列の集合２０１ｈを音響イベント列合成部２０３に送出する。

その他の処理は第一実施形態と同様とする。

このような構成とすることで、逐次的に得られる音響特徴量列の集合４０１ｈから状況の生成モデル、音響イベントの生成モデルをモデル化し、状況及び音響イベントを分析することができる。

＜その他の変形例＞
図５のＳ２０４ｉの打ち切り処理、正規化処理は必ずしも行わなくともよい。仮に行わずとも、打ち切り対象となる状況k,tに対応する確率は非常に小さなもの（ほぼ0）となるため、学習されたモデルの精度や推定精度には大きな影響を与えない。

＜第二実施形態＞
本実施形態では、モデルを更新することなく、音響イベント列から状況を推定する。

図５は本実施形態に係る状況推定装置５００の機能ブロック図を、図６はその処理フローの例を示す。

状況推定装置５００は、生成モデル比較部５０２と保存ＤＢ２０８とを含む。

本実施形態では、第一実施形態で算出した、状況‐音響イベント生成モデル２０６を用いて、音響信号‐状況生成モデル２０５及び状況‐音響イベント生成モデル２０６を更新することなく、新たに入力された音響イベント列５０１から状況を推定することを可能とする。このとき、音響イベント列５０１に含まれる音響イベントの数をN_sとする。

生成モデル比較部５０２では、音響イベント列５０１と状況-音響イベント生成モデルとを受け取り、入力された音響イベント列５０１に対して、第一実施形態に係る状況モデル学習装置２００で算出された複数の状況‐音響イベント生成モデル２０６に基づく状況毎の事後確率、または、状況-音響イベント生成モデル（前述の通り、状況から音響イベントが生成される確率分布）と想定される全ての音響イベントに対する各音響イベントの確率分布との差異を表す状況毎の情報量を求め、状況毎の事後確率または情報量を比較し、入力された音響イベント列５０１が生成された状況を推定し（Ｓ５０２）、推定結果を出力する。

（比較方法１）
まず、情報量を比較する方法について説明する。

本手法では生成モデル比較部５０２において、入力された音響イベント列５０１に対して、想定される全ての音響イベントに対する想定される各音響イベントの確率分布P(m)を求める。例えば、入力された音響イベント列５０１（式中、ｅ_ｓｉは音響イベント列sのi番目の音響イベントを表す）から

を算出する。但し、γは緩和パラメータを表し、事前に設定しておく。例えば、γは、0.01などの非負値をとる。前述の通り、Mは想定される音響イベントの数を表し、mは想定される音響イベントのインデックスを表す。全てのmに対して確率分布P(m)を算出する。

次に、生成モデル比較部５０２は、確率分布P(m)と状況k毎の状況-音響イベント生成モデル２０６（より詳しく言うとパラメータλ_km）との差異の大きさを求める。例えば、この確率分布P(m)と状況-音響イベント生成モデル２０６（より詳しく言うとパラメータλ_km）とを、下記に記すカルバックライブラー情報量(Kullback-Leibler divergence, KL divergence)やイェンセンシャノン情報量(Jensen-Shannon divergence, JS divergence)などの情報量基準によって比較することで、入力された音響イベント列の状況を推定する。

但し、Q(m)はP(m)と比較するための確率分布が入力され、本実施形態の場合パラメータλ_kmを代入し、Q(m)＝λ_kmとする。各kに対して、KL divergenceやJS divergenceなどの情報量基準を求める。なお、これらの情報量が大きいほど、差異が大きいことを意味する。

さらに、生成モデル比較部５０２は、各状況kについて算出された情報量のうち、(i-1)最も近いと判断される状況(確率分布P(m)との情報量が最も小さくなる状況-音響イベント生成モデル２０６に対応する状況)、もしくは、(i-2)近いものから複数個である判断された状況（確率分布P(m)との情報量が最も小さい状況-音響イベント生成モデル２０６から昇順に所定の個数の状況-音響イベント生成モデル２０６に対応する所定の個数の状況）、もしくは、(i-3)ある情報量（閾値）よりも小さいと判断された状況（確率分布P(m)との情報量が閾値以下の状況-音響イベント生成モデル２０６に対応する状況）、もしくは、(i-4)これらの条件(i-1)〜(i-3)の組合せを満たす状況（例えば、(i-3)の条件を満たす状況の個数が１個以上所定の個数より小さい場合には、(i-3)の条件を満たす状況を判定結果とし、(i-3)の条件を満たす状況の個数が所定の個数以上の場合には、（i-2）の条件を満たす状況を判定結果とし、(i-3)の条件を満たす状況が一つもない場合には、(i-1)の状況を満たす状況を判定結果とする）を判定結果（つまり、新たに入力された音響イベント列５０１に対する状況の推定値）として出力する。

（比較方法２）
次に、事後確率を比較する方法について説明する。

本手法では、生成モデル比較部５０２において、入力された音響イベント列５０１に対して、以下の事後確率を求める。

ただし、ｚ_siはs 番目の音響イベント列のi 番目の音響イベントが示す状況を表すものとする。ただし、一行目から二行目の変形にはベイズの定理を用いた。

上記式によって算出された各状況の事後確率P(z_si=k|e,α,β)を比較することで、入力された音響イベント列sまたは音響信号列の状況を推定する。

各状況について算出された事後確率のうち、(ii-1)最も事後確率の高い状況、若しくは、(ii-2)最も事後確率の高い状況から降順に所定の個数の状況、若しくは、(ii-3)閾値よりも事後確率の高い状況、若しくは、(ii-4)これらの条件(ii-1)〜(ii-3)の組合せを満たす状況（例えば、情報量を比較する方法で説明した組合せと同様の組合せ）を、判定結果（つまり、新たに入力された音響イベント列５０１に対する状況の推定値）として出力する。

＜効果＞
このような構成とすることで、第一実施形態で学習した状況-音響イベント生成モデル２０６を更新することなく、音響イベント列から状況を推定することができる。

＜第二実施形態の変形例１＞
第二実施形態と異なる部分を中心に説明する。

本実施形態では、モデルを更新することなく、音響信号列から状況を推定する。

状況推定装置５００は、生成モデル比較部５０２と保存ＤＢ２０８とに加え、さらに、特徴量算出部３０２と音響イベント判定部３０３と音響イベントモデルＤＢ３０４とを含む（図５参照）。

この構成では、音響信号列６０１を入力として、対応する状況を推定する。

特徴量算出部３０２、音響イベント判定部３０３、音響イベントモデルＤＢ３０４では第一実施形態の変形例１と同様の処理を行い、音響イベントの判定結果を音響イベントラベル付き音響信号列として送出する。

その他の処理は第二実施形態と同様とする。

このような構成とすることで、第一実施形態で学習した状況-音響イベント生成モデル２０６を更新することなく、音響信号列から状況を推定することができる。

＜第二実施形態の変形例２＞
第二実施形態と異なる部分を中心に説明する。

この例ではモデルを更新することなく、音響特徴量列から状況を推定する。

状況推定装置５００は、生成モデル比較部５０２と保存ＤＢ２０８とに加え、さらに、音響イベント判定部３０３と音響イベントモデルＤＢ３０４とを含む（図５参照）。

音響イベント判定部３０３、音響イベントモデルＤＢ３０４では、第一実施形態の変形例２と同様の処理を行い、音響イベントの判定結果を音響イベントラベル付き音響特徴量列として送出する。

その他の処理は第二実施形態と同様とする。

このような構成とすることで、第一実施形態で学習した状況-音響イベント生成モデル２０６を更新することなく、音響特徴量列から状況を推定することができる。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

ある音響イベント列から状況が生成される確率の分布である第三確率分布は、第一確率分布によって規定されるものとし、第一確率分布は、音響イベント列と、発生しうる全ての状況が生成される確率との関係を、離散的な分布で表現したものであり、第一確率分布と第三確率分布とは階層的なディリクレ過程に従うものとし、各状況が音響イベントの生成確率分布である第二確率分布を規定するものとし、
逐次入力される音響イベント列を用いて、第一確率分布と、第二確率分布と、第三確率分布とを同時に算出し、算出した前記第二確率分布を、状況から音響イベントを生成する状況-音響イベント生成モデルとして取得し、音響イベント列から状況を生成する音響信
号-状況生成モデルを取得する状況モデル化部を含む、
状況モデル学習装置。
状況モデル学習装置が実行する状況モデル学習方法であって、
ある音響イベント列から状況が生成される確率の分布である第三確率分布は、第一確率分布によって規定されるものとし、第一確率分布は、音響イベント列と、発生しうる全ての状況が生成される確率との関係を、離散的な分布で表現したものであり、第一確率分布と第三確率分布とは階層的なディリクレ過程に従うものとし、各状況が音響イベントの生成確率分布である第二確率分布を規定するものとし、
状況モデル化部が、逐次入力される音響イベント列を用いて、第一確率分布と、第二確率分布と、第三確率分布とを同時に算出し、算出した前記第二確率分布を、状況から音響イベントを生成する状況-音響イベント生成モデルとして取得し、音響イベント列から状
況を生成する音響信号-状況生成モデルを取得する状況モデル化ステップを含む、
状況モデル学習方法。
請求項１の状況モデル学習装置としてコンピュータを機能させるためのプログラム。