JP5818759B2

JP5818759B2 - 状況生成モデル作成装置、状況推定装置、およびプログラム

Info

Publication number: JP5818759B2
Application number: JP2012192225A
Authority: JP
Inventors: 桂右井本; 島内　末廣; 末廣島内; 仲大室; 羽田　陽一; 陽一羽田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-08-31
Filing date: 2012-08-31
Publication date: 2015-11-18
Anticipated expiration: 2032-08-31
Also published as: JP2014048522A

Description

この発明は、音響イベント情報を利用して、場の状況の生成モデルを作成する技術、及び、作成された生成モデルを利用して状況を推定する技術に関する。

非特許文献１に開示された従来技術では、状況を表す音響信号に対して、短時間（２０ｍｓｅｃ〜１００ｍｓｅｃ程度）ごとにその短時間音響信号が何の音（足音，水が流れる音；以後、音響イベントとする）であるかを示すラベルが付与された、音響イベントラベル付き音響信号列を入力とし、連続する有限個のフレーム分の音響イベントラベルを用いて音響イベントラベルごとのヒストグラムを作成する。また、生成された音響イベントラベルごとのヒストグラムに対してＧＭＭ（Gaussian Mixture Model）、ＨＭＭ（Hidden Markov Model）、ＳＶＭ（Support Vector Machine）等のモデル化手法を用い、状況モデルを生成する。

さらに、上記状況モデルと新たに入力されたラベル付き音響信号列から算出された音響イベントのヒストグラムをそれぞれ比較し（例えば、ユークリッド距離やコサイン距離などを用いて比較する）、複数の状況モデルのうち、最も判断基準に適合しているものをその音響信号列に対応する状況を表すと判定する。このように、従来技術では音響信号列から状況を推定することができる。

井本他，「複数の生活音の出現頻度に基づくユーザ行動の識別手法とコミュニケーションへの応用」，画像電子学会第３２回ＶＭＡ研究会

従来技術では、モデル算出に利用するデータが表す音響イベントの発生頻度そのものを直接モデル化している。このような方法では、他の音響イベントの発生頻度を適切にモデル化できない。このような方法で生成された状況モデルは、モデル算出に利用したデータに過剰にフィッティングしてしまう。そのため、従来技術によって算出された状況モデルを用いて状況識別を行う際、モデル算出に利用するデータから、わずかに異なるデータが入力されただけでも、類似度が非常に低い状況と判定されてしまう。しかしながら、状況モデルを算出する際に利用したデータと、推定時に入力されるデータがほぼ同一であることは稀である。よって、従来技術の状況モデルの利用は、状況推定精度の劣化につながる。

本発明では、生成されたモデルがモデル算出に利用されたデータに過剰にフィッティングすることなく、新たなデータに対して精度のよい状況推定を行うことを可能にする技術を提供する。

本発明では、時系列の音響信号列の集合と、音響信号列に対応する音響イベントを表す音響イベント情報と、を含む学習用情報を用い、音響イベントによって規定される潜在的な場の状況が音響イベントを生成する確率Ｐ（音響イベント｜状況）と、音響信号列が状況を生成する確率Ｐ（状況｜音響信号列）とを得て生成モデルを作成する。

本発明では、音響イベントの発生頻度そのものを直接モデル化するのではなく、生成モデルの生成過程を、確率Ｐ（音響イベント｜状況）及び確率Ｐ（状況｜音響信号列）によって確率的に取り扱う。これにより、生成モデルがそのモデル算出に利用されたデータに過剰にフィッティングすることを抑制でき、新たなデータに対して精度のよい推定を行うことが可能となる。

第１実施形態の状況生成モデル作成装置のブロック図。音響イベントラベル付き音響信号列を例示した図。第１実施形態の変形例１の状況生成モデル作成装置のブロック図。第１実施形態の変形例２の状況生成モデル作成装置のブロック図。第２実施形態の状況推定装置のブロック図。第２実施形態の変形例１の状況推定装置のブロック図。第２実施形態の変形例２の状況推定装置のブロック図。第３実施形態の状況推定装置のブロック図。第３，４実施形態の変形例１の状況推定装置のブロック図。第３，４実施形態の変形例２の状況推定装置のブロック図。第４実施形態の状況推定装置のブロック図。

以下、図面を参照して本発明の実施形態を説明する。
＜用語の定義＞
実施形態で用いる用語を定義する。
「音響イベント」とは、音の事象を意味する。「音響イベント」の具体例は、「包丁の音」「水が流れる音」「水音」「着火音」「火の音」「足音」「掃除機の排気音」などである。
「状況」とは、音響イベントによって規定される、潜在的な場の状況を意味する。状況の生成確率は、その状況が起こる時間区間での行動に規定され、状況は、その状況が起こる時間区間での音響イベントの生成確率を規定する。すなわち、状況は、行動と、行動によって規定される生成確率とによって表現可能である。また、音響イベントは、状況と、状況によって規定される生成確率とによって表現可能である。なお「行動」とは、人間、動物、装置などの主体が行う何らかの行動を意味する。「行動」の具体例は「料理」「掃除」などである。
「ＸがＹを生成する確率」とは、事象Ｘが起こるという条件のもとでの事象Ｙが起こる確率をいう。「ＸがＹを生成する確率」は、「ＸのもとでのＹの条件付き確率」や「ＸにおけるＹの条件付き確率」とも表現できる。

＜第１実施形態＞
第１実施形態では、学習用情報として音響イベントラベル付き音響信号を入力とし、学習によって、音響信号列が状況を生成する確率をＰ（状況｜音響信号列）としたときの音響信号−状況生成モデル、及び、状況が音響イベントを生成する確率をＰ（音響イベント｜状況）としたときの状況−音響イベント生成モデルを算出する。

図１に例示するように、本形態の状況生成モデル作成装置１００は、音響信号列合成部１０１、状況モデル化部１０２、及び記憶部１０３を有する。状況生成モデル作成装置１００は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。

まず音響信号列合成部１０１に、音響イベントラベル付き音響信号列１１−１，・・・，１１−Ｓ（ただし、Ｓは１以上の整数）が入力される。図２に例示するように、各音響イベントラベル付き音響信号列１１−ｓ（ただし、ｓ∈｛１，・・・，Ｓ｝）は、時系列の音響信号列１１ａ−ｓ、各音響信号列１１ａ−sに対応する音響信号列番号、短時間（数１０ｍｓｅｃ〜数ｓｅｃ）ごとに区分された音響信号列の各要素に対応する要素番号、及び短時間ごとに決定されて付与された音響イベントラベル（「音響イベント情報」に相当）を含む。各音響信号列１１ａ−ｓは音を表すデジタル信号列である。音響イベントラベルは、音響信号列の各要素に対応する音響イベントを表すラベルであり、音響信号列の要素ごとに付与される。１個の音響信号列番号には、１個以上の要素番号が対応する。

複数個の音響イベントラベル付き音響信号列１１−１，・・・，１１−Ｓ（以下、単に「ラベル付き音響信号列１１−１，・・・，１１−Ｓ」という）が音響信号列合成部１０１に入力された場合、音響信号列合成部１０１は、それらを時系列方向につなぎ合わせ、それによって１つの音響イベントラベル付き音響信号列１１（以下、単に「ラベル付き音響信号列１１」という）を得て出力する（合成処理）。音響信号列合成部１０１に１つの音響信号列１１−１のみが入力された場合、音響信号列合成部１０１はそれをラベル付き音響信号列１１として出力する。音響信号列合成部１０１から出力された音響イベントラベル付き音響信号列は、状況モデル化部１０２に入力される。なお、音響信号列合成部１０１を経由することなく、１つラベル付き音響信号列１１がそのまま状況モデル化部１０２に入力されてもよい。

状況モデル化部１０２は、以下の手順に従って、入力されたラベル付き音響信号列１１から、音響信号−状況生成モデル１２、及び状況−音響イベント生成モデル１３を生成し、それらを記憶部１０３に格納する。

［状況から音響イベントが生成される過程の論理的説明］
状況モデル化部１０２は、ラベル付き音響信号列１１から、音響信号列が状況を生成する確率Ｐ（状況｜音響信号列）と、状況が音響イベントを生成する確率Ｐ（音響イベント｜状況）とを算出する。状況モデル化部１０２は、確率Ｐ（状況｜音響信号列）としたときの音響信号−状況生成モデル１２と、確率Ｐ（音響イベント｜状況）としたときの状況−音響イベント生成モデル１３とを生成する。つまり本形態では、音響信号列が潜在的な場の状況の生成確率を規定し、状況が音響イベントの生成確率を規定すると考え、これらの関係を各生成モデルとして記述する。

生成確率Θ、生成確率Φ、音響信号列の集合Ωが与えられた場合における、音響イベントの列ｅの生成確率Ｐ（ｅ｜Θ，Φ，Ｓ）は以下の通りである。

ただし、Ｓはラベル付き音響信号列１１に含まれる音響信号列１１ａ−ｓ（ただし、ｓ∈｛１，・・・，Ｓ｝）の個数、Ｔは状況の種類の個数、Ｅは音響イベントの種類の個数、ｅはラベル付き音響信号列１１に与えられた音響イベントの列（ベクトル）、Θは音響信号列１１ａ−ｓ（ただし、ｓ∈｛１，・・・，Ｓ｝）が状況ｔ（ただし、ｔ∈｛１，・・・，Ｔ｝）を生成する確率Ｐ（ｔ｜ｓ）を（ｓ，ｔ）要素とするＳ×Ｔ行列、Φは状況ｔ（ただし、ｔ∈｛１，・・・，Ｔ｝）が音響イベントε（ただし、ε∈｛１，・・・，Ｅ｝）を生成する確率Ｐ（ε｜ｔ）を（ｔ，ε）要素とするＴ×Ｅ行列、Ωは音響信号列１１ａ−１，・・・，１１ａ−Ｓと成り得る列の集合、ｅ’_ｓは音響信号列１１ａ−ｓに与えられた音響イベントの列（Ｎ_ｓ次元ベクトル：Ｎ_ｓは音響信号列１１ａ−ｓに対応する音響イベントの個数）を表す。

生成確率Θ、生成確率Φが与えられたときの、音響イベントの列ｅ’_ｓの生成確率Ｐ（ｅ’_ｓ｜Θ，Φ）は、以下の通りである。

ただし、ｅ_ｉは音響信号列１１ａ−ｓの要素番号ｉに対応する音響イベントラベルが表す音響イベント、Ｎ_ｓは音響信号列１１ａ−ｓに対応する要素数（要素番号ｉの最大値）、ｚ_ｉは音響信号列１１ａ−ｓの要素番号ｉに対応する状況、φ_ｔは状況ｔが音響イベントε（ただし、ε∈｛１，・・・，Ｅ｝）を生成する確率Ｐ（ε｜ｔ）をε番目の要素とするＥ次元ベクトル、θ_ｓは音響信号列１１ａ−ｓが状況ｔ（ただし、ｔ∈｛１，・・・，Ｔ｝）を生成する確率Ｐ（ｔ｜ｓ）をｔ番目の要素とするＴ次元ベクトル、φ_ｅｉ，ｔ（下付き添え字の「ｅｉ，ｔ」は「ｅ_ｉ，ｔ」）は状況ｔが音響イベントｅ_ｉを生成する確率Ｐ（ｅ_ｉ｜ｔ）、θ_ｔｓは音響信号列１１ａ−ｓが状況ｔを生成する確率Ｐ（ｔ｜ｓ））、αはθ_ｓ及びθ_ｔｓが従うＤｉｒｉｃｈｌｅｔ分布の性質を決める超パラメータ（例えば０．０１などの非負値をとる）、βはφ_ｔ及びφ_ｅｉ，ｔが従うＤｉｒｉｃｈｌｅｔ分布の性質を決める超パラメータ（例えば０．０１などの非負値をとる）を表す。ここで、Ｐ（φ_ｔ｜β）及びＰ（θ_ｓ｜α）はそれぞれβ，αをパラメータとするＤｉｒｉｃｈｌｅｔ分布に従うと仮定する。Ｗ−１次（Ｗは２以上の整数）のＤｉｒｉｃｈｌｅｔ分布の確率密度関数は以下の通りである。

ただし、Γはガンマ関数を表す。

［生成モデルの算出過程の説明］
状況モデル化部１０２は、音響信号列が状況を生成する確率Ｐ（状況｜音響信号列）、及び状況が音響イベントを生成する確率Ｐ（音響イベント｜状況）を算出し、それぞれと対応する音響信号−状況生成モデル１２、及び状況−音響イベント生成モデル１３を算出する。

音響信号−状況生成モデル１２及び状況−音響イベント生成モデル１３の算出には、マルコフ連鎖モンテカルロ法（ＭＣＭＣ法：Markov Chain Monte Carlo methods）や変分ベイズ法（ＶＢ法：Variational Bayes methods）などの手法を用いることができる。また、ＭＣＭＣ法には，Ｍ−Ｈアルゴリズムやギブスサンプリングなどの手法があるが、ここではギブスサンプリングによる生成モデルの算出手法について説明を行う。

［生成モデルの算出方法の例示］
以下に、ギブスサンプリングを用いた音響信号−状況生成モデル１２及び状況−音響イベント生成モデル１３の算出方法を例示する。

(I)状況モデル化部１０２は、ハイパパラメータα，βを決定する。ハイパパラメータα，βは、状況モデル化部１０２が持つ記憶部にあらかじめ保存された値を用いても良いし、ランダムに決定しても良い。また、ハイパパラメータα，βは、状況モデル化部１０２が持つ記憶部にあらかじめ保存された値やランダムに決定された値を初期値として、以下の手順により算出、更新してもよい。

(II)状況モデル化部１０２は、入力されたラベル付き音響信号列１１が含む音響信号列１１ａ−１，・・・，１１ａ−Ｓの各要素に状況ｔを一様分布に従って割り当てる。或いは、状況モデル化部１０２は、事前に状況モデル化部１０２に設定されていた方法に従って、音響信号列１１ａ−１，・・・，１１ａ−Ｓの各要素に状況ｔを割り当ててもよい。

さらにＳ≧２の場合、状況モデル化部１０２は、ラベル付き音響信号列１１が含む音響信号１１ａ−１，・・・，１１ａ−Ｓの各要素に対して要素番号ｉを付与しなおす。すなわち、ラベル付き音響信号列１１が含むすべての要素に対して互いに異なる要素番号ｉ（ただし、ｉ∈｛１，・・・，Ｕ｝）を付与する。ただし、Ｕはラベル付き音響信号列１１に対応する要素の総数であり、Ｕ＝Ｎ_１＋・・・＋Ｎ_Ｓを満たす。

状況モデル化部１０２は、各要素に状況ｔが割り当てられ、要素番号ｉが付与しなおされた（Ｓ≧２の場合）音響信号列を、「更新対象のラベル付き音響信号列」の初期値とする。

(III)状況モデル化部１０２は、更新対象のラベル付き音響信号列の全ての要素（要素番号ｉ∈｛１，・・・，Ｎ｝）について、以下の(III-1)及び(III-2)を規定の回数（正値、１〜１０００回程度）、若しくは、所望の結果が得られるまで（例えば、割り当ての前後において、状況の割り当て先の変化が一定の閾値（例えば３０％）以下になるまでなど）繰り返す。

(III-1)状況モデル化部１０２は、更新対象のラベル付き音響信号列について、要素番号ｉの音響イベントεに状況ｔが割り当てられる確率分布を、全ての状況ｔについて更新する。以下に、更新後の確率分布Ｐ（ｚ_ｉ＝ｔ｜ｅ_ｉ＝ε，ｚ_−ｉ，ｅ_−ｉ，Ω，α，β）を示す。

ただし、Ｃ_εｔ ^ＥＴは更新対象のラベル付き音響信号列で音響イベントεに状況ｔが割り当てられた回数を表し、Ｃ_ｔｓ ^ＴＳは更新対象のラベル付き音響信号列で状況ｔが音響信号列１１ａ−ｓに割り当てられた回数を表す。なお、表記制約上の都合から「Ｃ_εｔ ^ＥＴ」「Ｃ_ｔｓ ^ＴＳ」と表記するが、本来は式（３）に示すように「Ｃ_εｔ ^ＥＴ」の「ＥＴ」は「εｔ」の上に表記され、「Ｃ_ｔｓ ^ＴＳ」の「ＴＳ」は「ｔｓ」の上に表記される。ｚ_−ｉは要素番号ｉ以外の要素番号に対応する状況からなる列、ｅ_−ｉは要素番号ｉ以外の要素番号に対応する音響イベントからなる列を表す。

(III-2)状況モデル化部１０２は、上記の更新式（３）で得られた確率分布Ｐ（ｚ_ｉ＝ｔ｜ｅ_ｉ＝ε，ｚ_−ｉ，ｅ_−ｉ，Ω，α，β）に従って、各要素番号ｉに割り当てる状況をランダムにサンプリングする。状況モデル化部１０２は、このようにサンプリングした状況を各要素番号ｉの要素に割り当て、更新対象のラベル付き音響信号列を更新する。

(IV)状況モデル化部１０２は、上記の(III-1)(III-2)の繰り返しによって最終的に得られたＣ_εｔ ^ＥＴ及びＣ_ｔｓ ^ＴＳを用い、以下を計算する。

これによって状況モデル化部１０２は、音響信号列が状況を生成する確率θ_ｔｓ（ただし、ｓ∈｛１，・・・，Ｓ｝，ｔ∈｛１，・・・，Ｔ｝）の集合及び状況が音響イベントを生成する確率φ_εｔ（ただし、ｔ∈｛１，・・・，Ｔ｝，ε∈｛１，・・・，Ｅ｝）の集合を得、それぞれを音響信号−状況生成モデル１２及び状況−音響イベント生成モデル１３とする。例えば状況モデル化部１０２は、確率θ_ｔｓを（ｓ，ｔ）要素とするＳ×Ｔ行列を音響信号−状況生成モデル１２とし、確率φ_εｔを（ｔ，ε）要素とするＴ×Ｅ行列を状況−音響イベント生成モデル１３とする。

或いは、状況モデル化部１０２は、(III-1)の繰り返し処理時に、式（３）の算出過程で得られる確率θ_ｔｓ及び確率φ_εｔをそれぞれ１個以上サンプリングし、式（４）（５）に代えて、サンプリングされた確率θ_ｔｓの平均値及び確率φ_εｔの平均値を用い、音響信号−状況生成モデル１２及び状況−音響イベント生成モデル１３を得てもよい。

また状況モデル化部１０２は、(III)に示す更新処理を１回行うごとに、以下に示す更新式を用いてハイパパラメータα,βを更新することも可能である。

ただし、α_ｎｅｘｔ，β_ｎｅｘｔは更新後のハイパパラメータα，βであり、ψ（ｚ）はディガンマ関数を表す。また、ディガンマ関数は以下の式で表わされる、ガンマ関数Γ（ｚ）の対数微分である。

ただし、Γ’（ｚ）はガンマ関数Γ（ｚ）の導関数である。

また、α及びβの更新を行った結果、α及びβの値がある閾値δ_１（＞０），δ_２（＞０）を超える又は下回る場合に対して、
ｉｆ α＜δ_１ｔｈｅｎ α＝δ_１
ｉｆ β＜δ_２ｔｈｅｎ β＝δ_２
等の処理を加えてもよい。

＜第１実施形態の変形例１＞
第１実施形態の変形例１では、音響信号列を入力として、学習によって、音響信号−状況生成モデル１２、及び状況−音響イベント生成モデル１３を算出する。以降、同一のものには同じ参照符号を付し、説明は繰り返さない。

図３に例示するように、本形態の状況生成モデル作成装置１１０は、特徴量算出部１１１、音響イベント判定部１１２、音響イベントモデルデータベース（ＤＢ）１１３、音響信号列合成部１０１、状況モデル化部１０２、及び記憶部１０３を有する。状況生成モデル作成装置１１０は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。

まず特徴量算出部１１１にラベルなし音響信号列１５−１，・・・，１５−Ｓが入力される。各ラベルなし音響信号列１５−ｓ（ただし、ｓ∈｛１，・・・，Ｓ｝）は、短時間（数１０ｍｓｅｃ〜数ｓｅｃ）ごとに区分された要素からなり、各要素には要素番号が付されている。

特徴量算出部１１１は、各ラベルなし音響信号列１５−ｓから、音響特徴量列（ベクトル）を算出して出力する。例えば特徴量算出部１１１は、入力されたラベルなし音響信号列１５−ｓに対し、前述の短時間（数１０ｍｓｅｃ〜数ｓｅｃ）からなるフレームごとに、音圧レベル、音響パワー、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficient）特徴量、ＬＰＣ（Linear Predictive Coding）特徴量などを算出し、これらを音響特徴量列として出力する。さらに立ち上がり特性、調波性、時間周期性など（例えば、非特許文献１参照）の音響特徴量が音響特徴量列に加えられてもよい。

立ち上がり特性とは、数十から数百ミリ秒ごとにおける、音響信号の大きさを表す指標の増加の度合いを表す指標である。ここで、音響信号の大きさを表す指標とは、例えば、音響信号の振幅の絶対値、音響信号の振幅の絶対値の対数値、音響信号のパワー又は音響信号のパワーの対数値である。例えば、以下の式（１０）で得られる値が０以上であればその値が立ち上がり特性とされ、式（１０）で得られる値が０未満であれば０が立ち上がり特性とされる。

ただし、ｋはフレームをＫ個の微小な時間区間（例えば１ｍｓｅｃ程度）に区分した場合の各時間区間に対応し、ｐ￣_ｋはｋ番目の時間区間でのサンプルの大きさを表す指標の代表値又は平均値を表す。なお、「サンプルの大きさを表す指標」の例は、サンプルの振幅、サンプルの振幅の絶対値、サンプルの振幅の対数値、サンプルのエネルギー、サンプルのパワー、又はサンプルのパワーの対数値などである。「サンプル」は音響信号列の各音響信号を表す。また、Δｐ￣_ｋはｐ￣_ｋの変化率を表す。例えば、Δｐ⁻ _ｋ＝ｐ⁻ _ｋ−ｐ⁻ _ｋ−１である。Δｐ⁻ _ｋ＝ｐ⁻ _ｋ＋１−ｐ⁻ _ｋとしてもよい。また、最小二乗法等の近似手法を用いてｋ番目の時間区間におけるｐ⁻ _ｋを近似した直線を求め、その時間区間におけるその直線の傾きをΔｐ⁻ _ｋとしてもよい。また、ｋ番目の時間区間を含む複数の時間区間におけるｐ￣_ｋ-κ，・・・，ｐ￣_ｋ-1，ｐ⁻ _ｋ，ｐ￣_ｋ+1,...ｐ￣_ｋ-κ’の近時曲線を求め、そのｋ番目の時間区間に対応する点での傾き（微分値）をΔｐ⁻ _ｋとしてもよい。またχを任意の文字として、χの右肩の「−」は、χの上付きバーを意味する。また式（１０）の分子における（ｐ￣_ｎ）^２を（ｐ￣_ｎ）^ｍとし、ｍを任意の値としても良い。

以下に調波性を例示する。

また、Ｎはフレームに含まれるサンプル数を表す１以上の整数、ｎはフレーム内の各サンプル点を表す１以上のＮ以下の整数、ｘ（ｎ）はサンプル点ｎでのサンプルの大きさを表す指標である。Ｒ_ｆｆ（τ）はｆ（ｎ）のラグτでの自己相関係数、ｍａｘ｛・｝は「・」の最大値を表す。ラグτは１以上Ｎ以下の整数である。Ｒ_ｆｆ（τ）は、例えば以下のように定義される。

以下に時間周期性を例示する。

ただし、Ｌは一周期とみなすサンプル数、Ｍは時間周期性の度合を計算するための周期数を表す１以上の整数、ｐ（・）はサンプルの大きさを表す指標を時間平滑化した値、ｐ￣はフレーム内でのサンプルの大きさを表す指標の平均値を表す。

音響イベントモデルＤＢ１１３には、事前に算出された音響イベントモデルが複数保存されている。各音響イベントモデルは、音響イベントラベルが付された学習用の音響信号列から音響特徴量列を算出し、各音響イベントに対応する音響特徴量列をＧＭＭ，ＨＭＭ，ＳＶＭ等の周知のモデル化手法を用いてモデル化することで得られる（例えば参考文献：奥村学、高村大也、「言語処理のための機械学習入門」コロナ社）。

例えば、ＧＭＭの場合、音響イベントごとに音響特徴量の各種別に対応する音響イベントモデルが得られる。例えば、音響特徴量列がＦ種類（Ｆが１以上の整数）の音響特徴量ｙ_ι（ただし、ι∈｛１，・・・，Ｆ｝）からなる列ｙ_１，・・・，ｙ_Ｆである場合、各音響イベントに対応する音響イベントモデルは、それぞれ、以下のような確率モデルｐ（ｙ_ι）を要素とする列ｐ（ｙ_１），・・・，ｐ（ｙ_Ｆ）となる。

ただし、ｙ_ιは音響特徴量列（ベクトル）の要素、Ｊは正規分布の混合数、π_ｊは混合係数、Ｎ（・）は正規分布の確率密度関数、μ_ｊは分布の平均、Σ_ｊは分布の分散である。

或いは、音響イベントごとに音響特徴量列が対応付けられたものが音響イベントモデルとされてもよい。

特徴量算出部１１１から出力された音響特徴量列は音響イベント判定部１１２に入力される。音響イベント判定部１１２は、入力された音響特徴量列と、音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとをそれぞれ比較し、各フレーム（各要素番号ｉに対応）の音響特徴量列に対応する音響イベントを決定する。例えばＧＭＭが音響イベントモデルとして用いられる場合、音響イベント判定部１１２は、フレーム（要素番号ｉ）ごとに、入力された音響特徴量列の各要素ρ_ι（ただし、ι∈｛１，・・・，Ｆ｝）を各音響イベントに対応する式（１３）の各確率モデルに代入し、各音響イベントに対応する確率ｐ（ρ_１）×・・・×ｐ（ρ_Ｆ）を最大にする音響イベントを決定する。或いは、例えば音響イベントごとに音響特徴量列が対応付けられた音響イベントモデルの場合、音響イベント判定部１１２は、フレーム（要素番号ｉ）ごとに、入力された音響特徴量列との距離（ユークリッド距離やコサイン距離）が最も近い音響イベントモデルに対応する音響イベントを選択する。

音響イベント判定部１１２は、各要素番号ｉに対して決定した音響イベントを表す音響イベントラベルを、ラベルなし音響信号列１５−ｓの各要素番号ｉの要素に付与する。音響イベント判定部１１２は、この処理を入力されたラベルなし音響信号列１５−１，・・・，１５−Ｓのすべての要素（すべての要素番号ｉ）について行い、その結果得られる音響イベントラベル付き音響信号列１１−１，・・・，１１−Ｓを出力する。

音響イベントラベル付き音響信号列１１−１，・・・，１１−Ｓは、音響信号列合成部１０１に入力される。以降の処理は第１実施形態と同じである。

なお、音響信号列合成部１０１で音響イベントラベル付き音響信号列１１−１，・・・，１１−Ｓの合成処理を行うことに代えて、特徴量算出部１１１の前段でラベルなし音響信号列１５−１，・・・，１５−Ｄの合成処理を行っても良いし、音響イベント判定部１１２の前段で音響特徴量列の合成処理を行っても良い。

＜第１実施形態の変形例２＞
第１実施形態の変形例２では、ラベルなし音響特徴量列を入力として、学習によって、音響信号−状況生成モデル１２、及び状況−音響イベント生成モデル１３を算出する。

図４に例示するように、本形態の状況生成モデル作成装置１２０は、音響イベント判定部１１２、音響イベントモデルデータベース（ＤＢ）１１３、音響信号列合成部１０１、状況モデル化部１０２、及び記憶部１０３を有する。状況生成モデル作成装置１２０は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。

まず音響イベント判定部１１２に、ラベルなし音響特徴量列１６−１，・・・，１６−Ｓが入力される。各ラベルなし音響特徴量列１６−ｓ（ただし、ｓ∈｛１，・・・，Ｓ｝）は、短時間（数１０ｍｓｅｃ〜数ｓｅｃ）ごとに区分された時系列の音響信号列、短時間ごとに区分された音響信号列の各要素に対応する要素番号、及び音響信号列の短時間ごとの音響特徴量列を含む。音響特徴量列の具体例は、第１実施形態で説明した通りである。

音響イベント判定部１１２は、入力されたラベルなし音響特徴量列１６−ｓの音響特徴量列と、音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルを、第１実施形態の変形例１で説明したようにそれぞれ比較し、各フレーム（各要素番号ｉに対応）の音響特徴量列に対応する音響イベントを決定する。音響イベント判定部１１２は、各要素番号ｉに対して決定した音響イベントを表す音響イベントラベルを、ラベルなし音響特徴量列１６−ｓの各要素番号ｉの要素に付与する。音響イベント判定部１１２は、この処理をラベルなし音響特徴量列１６−１，・・・，１６−Ｓのすべての要素（すべての要素番号ｉ）について行い、その結果得られる音響イベントラベル付き音響信号列１１−１，・・・，１１−Ｓを出力する。

なお、音響信号列合成部１０１で合成処理を行うことに代えて、音響イベント判定部１１２の前段でラベルなし音響特徴量列１６−１，・・・，１６−Ｓの合成処理を行っても良い。

＜第２実施形態＞
第２実施形態では、第１実施形態で説明したように得られた状況−音響イベント生成モデル１３を用い、新たに入力された音響イベントラベル付き音響信号列から状況を推定する。

図５に例示するように、本形態の状況推定装置２００は、記憶部１０３及び生成モデル比較部２０１を有する。状況推定装置２００は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。

まず生成モデル比較部２０１に音響イベントラベル付き音響信号列２１（「音響イベントを表す音響イベント情報を含む入力情報」に相当）が入力される。音響イベントラベル付き音響信号列２１は、短時間（数１０ｍｓｅｃ〜数ｓｅｃ）ごとに区分された時系列の音響信号列、短時間ごとに区分された音響信号列の各要素に対応する要素番号、及び短時間ごとに決定されて付与された音響イベントラベル（「音響イベント情報」に相当）を含む。要素番号及び音響イベントラベルは、音響信号列の要素ごとに付与される。

生成モデル比較部２０１は、入力された音響イベントラベル付き音響信号列２１と、記憶部１０３に格納された状況−音響イベント生成モデル１３とを比較し、音響イベントラベル付き音響信号列２１に対し、最も適切であると判断した状況、又は最も適切なものから順番に複数個の状況を決定し、それらを判定結果として出力する。

［比較方法の例１］
音響イベントラベル付き音響信号列２１と状況−音響イベント生成モデル１３との比較方法を例示する。この例では、まず生成モデル比較部２０１が、入力された音響イベントラベル付き音響信号列２１から、以下のようにｐ（ε）（ただし、ε∈｛１，・・・，Ｅ｝）を算出する。

ただし、γは事前に設定された緩和パラメータ（例えば０．０１などの非負値）を表し、Ｃ_εは、音響イベントラベル付き音響信号列２１で音響イベントεを表す音響イベントラベルが付された要素の個数を表し、Ｎ_ｓ’は音響イベントラベル付き音響信号列２１が含む音響信号列の要素数を表す。Ｎ_ｓ’＝Ｎ_ｓであってもよいし、Ｎ_ｓ’≠Ｎ_ｓであってもよい。

次に生成モデル比較部２０１は、ｐ（ε）と状況−音響イベント生成モデル１３を、下記に記すカルバックライブラー情報量（Kullback-Leibler divergence: KL divergence）やイェンセンシャノン情報量（Jensen-Shannon divergence: JS divergence）などの情報量基準に基づいて比較することで、入力された音響イベントラベル付き音響信号列２１に対応する状況を推定する。

式（１５）又は（１６）の例の場合、生成モデル比較部２０１は、Ｐ（ε）にｐ（ε）（ただし、ε∈｛１，・・・，Ｅ｝）を代入し、Ｑ（ε）に式（５）のφ_εｔ（ただし、ε∈｛１，・・・，Ｅ），ｔ∈｛１，・・・，Ｔ｝）を代入する。これにより、生成モデル比較部２０１は、各状況ｔ∈｛１，・・・，Ｔ｝に対応する情報量（合計Ｔ個の情報量）を得る。生成モデル比較部２０１は、各状況ｔ∈｛１，・・・，Ｔ｝について算出された情報量のうち、最も小さな情報量に対応する状況、又は、最も小さな情報量から順番に選択した複数個の情報量に対応する複数個の状況を、音響イベントラベル付き音響信号列２１に対応する状況として決定して出力する。

［比較方法の例２］
以下のように状況−音響イベント生成モデル１３と音響イベントラベル付き音響信号列２１との比較を行ってもよい。この手法では、生成モデル比較部２０１が、入力されたラベル付き音響信号列２１に対し、状況−音響イベント生成モデル１３のもとでの状況の尤度の和や積を求める。以下に具体例を示す。

≪状況−音響イベント生成モデル１３のもとでの状況の尤度の和の例≫

≪状況−音響イベント生成モデル１３のもとでの状況の尤度の積の例≫

ただし、式（１９）（２０）のｅ_ｉは、入力された音響イベントラベル付き音響信号列２１の要素番号ｉに対応する音響イベントラベルが表す音響イベントを表す。式（１９）（２０）は、式（５）の確率φ_εｔと、入力された音響イベントラベル付き音響信号列２１のｅ_ｉとから算出できる。

生成モデル比較部２０１は、各状況について算出した尤度のうち、最も尤度の高い状況、又は、最も尤度の高いものから順番に選択した複数個の状況を、入力された音響イベントラベル付き音響信号列２１に対応する状況として決定して出力する。

＜第２実施形態の変形例１＞
第２実施形態の変形例１では、第１実施形態で説明したように得られた状況−音響イベント生成モデル１３を用い、新たに入力された音響信号列から状況を推定する。

図６に例示するように、本形態の状況推定装置２１０は、特徴量算出部２１１、音響イベント判定部２１２、音響イベントモデルＤＢ１１３、記憶部１０３、生成モデル比較部２０１を有する。状況推定装置２１０は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。

まず特徴量算出部２１１にラベルなし音響信号列２２が入力される。ラベルなし音響信号列２２は、短時間（数１０ｍｓｅｃ〜数ｓｅｃ）ごとに区分された時系列の音響信号列、及び短時間ごとに区分された音響信号列の各要素に対応する要素番号を含む。

特徴量算出部２１１は、ラベルなし音響信号列２２から音響特徴量列（ベクトル）を算出して出力する。例えば特徴量算出部２１１は、第１実施形態で説明した特徴量算出部１１１と同じ方法で音響特徴量列を算出する。

音響イベント判定部２１２は、第１実施形態の音響イベント判定部１１２と同じ方法で、特徴量算出部２１１から出力された音響特徴量列と、音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとをそれぞれ比較し、ラベルなし音響信号列２２の全ての要素について音響イベントを決定する。音響イベント判定部２１２は、決定した音響イベントを表す音響イベントラベルをラベルなし音響信号列２２の各要素に付することで、音響イベントラベル付き音響信号列２１を生成して出力する。

音響イベントラベル付き音響信号列２１は、生成モデル比較部２０１に入力される。以降の処理は第２実施形態と同じである。

＜第２実施形態の変形例２＞
第２実施形態の変形例２では、第１実施形態で説明したように得られた状況−音響イベント生成モデル１３を用い、新たに入力された音響特徴量列から状況を推定する。

図７に例示するように、本形態の状況推定装置２２０は、音響イベント判定部２１２、音響イベントモデルＤＢ１１３、記憶部１０３、生成モデル比較部２０１を有する。状況推定装置２２０は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。

まず音響イベント判定部２１２にラベルなし音響特徴量列２３が入力される。ラベルなし音響特徴量列２３は、短時間（数１０ｍｓｅｃ〜数ｓｅｃ）ごとに区分された時系列の音響信号列、短時間ごとに区分された音響信号列の各要素に対応する要素番号、及び音響信号列の音響特徴量列を含む。音響特徴量列の具体例は、第１実施形態で説明した通りである。

音響イベント判定部２１２は、第１実施形態の音響イベント判定部１１２と同じ方法で、ラベルなし音響特徴量列２３の音響特徴量列と、音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとをそれぞれ比較し、ラベルなし音響特徴量列２３が含む全ての要素について音響イベントを決定する。音響イベント判定部２１２は、決定した各要素の音響イベントを表す音響イベントラベルを、ラベルなし音響特徴量列２３が含む音響信号列に付することで、音響イベントラベル付き音響信号列２１を生成して出力する。

＜第３実施形態＞
本形態は第１実施形態と第２実施形態の組み合わせである。
本形態では、音響イベントラベル付き音響信号列２１を入力として状況を推定することに加え、音響イベントラベル付き音響信号列１１−１，・・・，１１−Ｓを入力とし、音響信号−状況生成モデル１２、及び状況−音響イベント生成モデル１３の算出も行う。

図８に例示するように、本形態の状況推定装置３００は、記憶部１０３，３０３、音響信号列合成部３０１、状況モデル化部１０２、及び生成モデル比較部２０１を有する。状況推定装置３００は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。

記憶部３０３には、第１実施形態で説明した音響イベントラベル付き音響信号列１１−１，・・・，１１−Ｓ、及び第２実施形態で説明した音響イベントラベル付き音響信号列２１が格納されている。

音響イベントラベル付き音響信号列１１−１，・・・，１１−Ｓ，２１は音響信号列合成部３０１に入力される。音響信号列合成部３０１は、音響イベントラベル付き音響信号列１１−１，・・・，１１−Ｓ，２１を時系列方向につなぎ合わせて一つの音響イベントラベル付き音響信号列を生成し、状況モデル化部１０２に送出する。状況モデル化部１０２は、第１実施形態で説明したように、入力された音響イベントラベル付き音響信号列から、音響信号−状況生成モデル１２、及び状況−音響イベント生成モデル１３を生成し、それらを記憶部１０３に格納する。

音響イベントラベル付き音響信号列２１は生成モデル比較部２０１に入力される。音響イベントラベル付き音響信号列２１は、第２実施形態で説明したように、入力された音響イベントラベル付き音響信号列２１と、記憶部１０３に格納された状況−音響イベント生成モデル１３とを比較し、音響イベントラベル付き音響信号列２１に対し、最も適切であると判断した状況、又は最も適切なものから順番に複数個の状況を選択し、それらを判定結果として出力する。

また、生成モデル比較部２０１の処理及び状況モデル化部１０２の処理のどちらを先に行っても良い。ただし、状況モデル化部１０２の処理を行う前にモデル比較部２０１の処理を行う場合、記憶部１０３に予め得られた各生成モデルが格納されていることが必要である。

また、音響イベントラベル付き音響信号列２１’が、新たに入力された音響イベントラベル付き音響信号列とともに音響信号列合成部３０１に入力されてもよい。この場合、音響信号列合成部３０１がこれらを時系列方向につなぎ合わせ、状況モデル化部１０２に送出してもよい。
その他の処理は第１実施形態及び第２実施形態と同様とする。

＜第３実施形態の変形例１＞
本形態は第１実施形態の変形例１と第２実施形態の変形例１の組み合わせである。
本形態では、ラベルなし音響信号列１５−１，・・・，１５−Ｓ，２２を入力として、学習によって、音響信号−状況生成モデル１２、及び状況−音響イベント生成モデル１３を算出する。さらに本形態では、状況−音響イベント生成モデル１３を用い、ラベルなし音響信号列２２から状況を推定する。

図９に例示するように、本形態の状況推定装置３１０は、特徴量算出部１１１−１，・・・，１１１−Ｓ，２１１、音響イベント判定部１１２−１，・・・，１１２−Ｓ，２１２、音響イベントモデルＤＢ１１３、及び第３実施形態の状況推定装置３００（図８参照）を有する。

ラベルなし音響信号列１５−１，・・・，１５−Ｓは、それぞれ特徴量算出部１１１−１，・・・，１１１−Ｓに入力される。特徴量算出部１１１−１，・・・，１１１−Ｓは、第１実施形態の変形例１で説明したように、ラベルなし音響信号列１５−１，・・・，１５−Ｓから、それぞれ音響特徴量列を得て出力する。音響イベント判定部１１２−１，・・・，１１２−Ｓは、それぞれ、第１実施形態の変形例１の音響イベント判定部１１２と同様に、入力された音響特徴量列と音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとから、音響イベントラベル付き音響信号列１１−１，・・・，１１−Ｓ（「学習用情報」に相当）を生成して出力する。

ラベルなし音響信号列２２は特徴量算出部２１１に入力される。特徴量算出部２１１は、第２実施形態の変形例１で説明したように、ラベルなし音響信号列２２から音響特徴量列（ベクトル）を算出して出力する。音響イベント判定部２１２は、第２実施形態の変形例１で説明したように、入力された音響特徴量列と音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとから、音響イベントラベル付き音響信号列２１（「入力情報」に相当）を生成して出力する。

音響イベントラベル付き音響信号列１１−１，・・・，１１−Ｓ、２１は、記憶部３０３（図８）に格納される。以降の処理は第３実施形態と同じである。

＜第３実施形態の変形例２＞
本形態は第１実施形態の変形例２と第２実施形態の変形例２の組み合わせである。
本形態では、ラベルなし音響特徴量列１６−１，・・・，１６−Ｓ，２３を入力として、学習によって、音響信号−状況生成モデル１２、及び状況−音響イベント生成モデル１３を算出する。さらに本形態では、音響信号−状況生成モデル１２、及び状況−音響イベント生成モデル１３を用い、ラベルなし音響特徴量列２３から状況を推定する。

図１０に例示するように、本形態の状況推定装置３２０は、音響イベント判定部１１２−１，・・・，１１２−Ｓ，２１２、音響イベントモデルＤＢ１１３、及び第３実施形態の状況推定装置３００（図８参照）を有する。

ラベルなし音響特徴量列１６−１，・・・，１６−Ｓは、それぞれ音響イベント判定部１１２−１，・・・，１１２−Ｓに入力される。音響イベント判定部１１２−１，・・・，１１２−Ｓは、それぞれ、第１実施形態の変形例２の音響イベント判定部１１２と同様に、入力された音響特徴量列と音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとから、音響イベントラベル付き音響信号列１１−１，・・・，１１−Ｓ（「学習用情報」に相当）を生成して出力する。

ラベルなし音響特徴量列２３は音響イベント判定部２１２に入力される。音響イベント判定部２１２は、第２実施形態の変形例２と同様に、入力されたラベルなし音響特徴量列２３の音響特徴量列と音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとから、音響イベントラベル付き音響信号列２１（「入力情報」に相当）を生成して出力する。

音響イベントラベル付き音響信号列１１−１，・・・，１１−Ｓ、音響イベントラベル付き音響信号列２１は、記憶部３０３（図８）に格納される。以降の処理は第３実施形態と同じである。

＜第４実施形態＞
本形態は第３実施形態の変形である。
本形態では、音響イベントラベル付き音響信号列１１−１，・・・，１１−Ｓ（「第１学習用情報」に相当）、及び音響イベントラベル付き音響信号列２１（「第２学習用情報」に相当）を入力とし、音響信号−状況生成モデル１２、及び状況−音響イベント生成モデル１３を算出することに加え、音響イベントラベル付き音響信号列２１に対応する状況を推定する。

図１１に例示するように、本形態の状況推定装置４００は、記憶部１０３、３０３、音響信号列合成部４０１、状況モデル化部４０２、及び生成モデル比較部４０３を有する。状況推定装置４００は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。

音響信号列合成部４０１に、音響イベントラベル付き音響信号列１１−１，・・・，１１−Ｓ（「第１学習用情報」に相当）及び音響イベントラベル付き音響信号列２１（「第２学習用情報」に相当）が入力される。音響信号列合成部４０１は、音響イベントラベル付き音響信号列１１−１，・・・，１１−Ｓ、音響イベントラベル付き音響信号列２１を時系列方向につなぎ合わせ、それによって１つの音響イベントラベル付き音響信号列４１（以下、単に「ラベル付き音響信号列４１」という）を得て出力する。ラベル付き音響信号列４１は、状況モデル化部４０２に入力される。なお、予め、音響イベントラベル付き音響信号列１１−１，・・・，１１−Ｓ，２１からラベル付き音響信号列４１が得られている場合には、音響信号列合成部４０１を経由することなく、ラベル付き音響信号列４１がそのまま状況モデル化部４０２に入力されてもよい。

状況モデル化部４０２は、入力されたラベル付き音響信号列４１を用い、第１実施形態の状況モデル化部１０２と同じ方法で、音響信号−状況生成モデル１２、及び状況−音響イベント生成モデル１３を算出する。音響信号−状況生成モデル１２、及び状況−音響イベント生成モデル１３は、記憶部１０３に格納される。

生成モデル比較部４０３には、音響イベントラベル付き音響信号列２１が入力される。生成モデル比較部４０３は、第２実施形態の生成モデル比較部２０１と同様に、入力された音響イベントラベル付き音響信号列２１と、記憶部１０３に格納された状況−音響イベント生成モデル１３とを比較し、音響イベントラベル付き音響信号列２１に対し、最も適切であると判断した状況、又は最も適切なものから順番に複数個の状況を決定し、それらを判定結果として出力する。

また、音響イベントラベル付き音響信号列２１が、さらに新たに入力された音響イベントラベル付き音響信号列とともに音響信号列合成部４０１に入力されてもよい。音響信号列合成部４０１は、これらを時系列方向につなぎ合わせ、状況モデル化部４０２に送出してもよい。
その他の処理は第１実施形態、第２実施形態及び第３実施形態と同様とする。

＜第４実施形態の変形例１＞
本形態は第３実施形態の変形例１の変形である。
本形態では、ラベルなし音響信号列１５−１，・・・，１５−Ｓ，２２を入力として、学習によって、音響信号−状況生成モデル１２、及び状況−音響イベント生成モデル１３を算出する。さらに本形態では、音響信号−状況生成モデル１２、及び状況−音響イベント生成モデル１３を用い、ラベルなし音響信号列２２に対応する状況を推定する。

図９に例示するように、本形態の状況推定装置４１０は、特徴量算出部１１１−１，・・・，１１１−Ｓ，２１１、音響イベント判定部１１２−１，・・・，１１２−Ｓ，２１２、音響イベントモデルＤＢ１１３、及び第４実施形態の状況推定装置４００（図１１参照）を有する。

ラベルなし音響信号列１５−１，・・・，１５−Ｓは、それぞれ特徴量算出部１１１−１，・・・，１１１−Ｓに入力される。特徴量算出部１１１−１，・・・，１１１−Ｓは、第１実施形態の変形例１で説明したように、ラベルなし音響信号列１５−１，・・・，１５−Ｓから、それぞれ音響特徴量列を得て出力する。音響イベント判定部１１２−１，・・・，１１２−Ｓは、それぞれ、第１実施形態の変形例１の音響イベント判定部１１２と同様に、入力された音響特徴量列と音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとから、音響イベントラベル付き音響信号列１１−１，・・・，１１−Ｓ（「第１学習用情報」に相当）を生成して出力する。

ラベルなし音響信号列２２は特徴量算出部２１１に入力される。特徴量算出部２１１及び音響イベント判定部２１２は、第２実施形態の変形例１で説明したように、ラベルなし音響信号列２２から音響特徴量列（ベクトル）を算出して出力する。音響イベント判定部２１２は、第２実施形態の変形例１で説明したように、入力された音響特徴量列と音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとから、音響イベントラベル付き音響信号列２１（「第２学習用情報」に相当）を生成して出力する。

音響イベントラベル付き音響信号列１１−１，・・・，１１−Ｓ，２１は、記憶部３０３（図１１）に格納される。以降の処理は第４実施形態と同じである。

＜第４実施形態の変形例２＞
本形態は第３実施形態の変形例２の変形である。
本形態では、ラベルなし音響特徴量列１６−１，・・・，１６−Ｓ，２３を入力として、学習によって、音響信号−状況生成モデル１２、及び状況−音響イベント生成モデル１３を算出する。さらに本形態では、音響信号−状況生成モデル１２、及び状況−音響イベント生成モデル１３を用い、ラベルなし音響特徴量列２３に対応する状況を推定する。

図１０に例示するように、本形態の状況推定装置４２０は、音響イベント判定部１１２−１，・・・，１１２−Ｓ，２１２、音響イベントモデルＤＢ１１３、及び第４実施形態の状況推定装置４００（図１１参照）を有する。

ラベルなし音響特徴量列１６−１，・・・，１６−Ｓは、それぞれ音響イベント判定部１１２−１，・・・，１１２−Ｓに入力される。音響イベント判定部１１２−１，・・・，１１１−Ｓは、それぞれ、第１実施形態の変形例２の音響イベント判定部１１２と同様に、入力された音響特徴量列と音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとから、音響イベントラベル付き音響信号列１１−１，・・・，１１−Ｓ（「第１学習用情報」に相当）を生成して出力する。

ラベルなし音響特徴量列２３は音響イベント判定部２１２に入力される。音響イベント判定部２１２は、第２実施形態の変形例２と同様に、入力されたラベルなし音響特徴量列２３の音響特徴量列と音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとから、音響イベントラベル付き音響信号列２１（「第２学習用情報」に相当）を生成して出力する。

音響イベントラベル付き音響信号列１１−１，・・・，１１−Ｓ，２１は、記憶部３０３（図１１）に格納される。以降の処理は第３実施形態と同じである。

＜変形例等＞
本発明は上述の各実施形態に限定されるものではない。例えば、状況生成モデル作成装置や状況推定装置の処理が複数の装置で分散処理されてもよいし、上記の各実施形態で記憶部やＤＢに格納された各データが複数の記憶部やＤＢに分散して格納されてもよい。例えば、音響信号−状況生成モデル１２、及び状況−音響イベント生成モデル１３が互いに異なる記憶部に格納されてもよい。また、音響信号列が時系列の順に入力され順次処理されるのであれば、短時間ごとに区分された音響信号列の各要素に対応する要素番号が、音響イベントラベル付き音響信号列に含まれなくてもよい。

上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。各部での処理の結果得られたデータは逐一メモリに格納され、必要に応じて読み出されて利用される。

処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な（non-transitory）記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。

このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。

上記実施形態では、コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されたが、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。

１００，１１０，１２０状況生成モデル作成装置
２００，２１０，２２０，３００，３１０，３２０，４００，４１０，４２０状況推定装置

Claims

時系列の音響信号列の集合と、前記音響信号列に対応する音響イベントを表す音響イベント情報と、を含む学習用情報を用い、音響イベントによって規定される潜在的な場の状況が音響イベントを生成する確率Ｐ（音響イベント｜状況）と、音響信号列が状況を生成する確率Ｐ（状況｜音響信号列）とを得る状況モデル化部、を有する状況生成モデル作成装置。
請求項１の状況生成モデル作成装置であって、
前記音響信号列から、音響特徴量を算出する特徴量算出部と、
前記音響特徴量を用い、音響イベントを決定する音響イベント判定部と、を有し、
前記学習用情報が含む音響イベント情報は、前記音響イベント判定部で決定された前記音響イベントを表す、
ことを特徴とする状況生成モデル作成装置。
請求項１の状況生成モデル作成装置であって、
前記音響信号列に対応する音響特徴量を用い、音響イベントを決定する音響イベント判定部を有し、
前記学習用情報が含む音響イベント情報は、前記音響イベント判定部で決定された音響イベントを表す、
ことを特徴とする状況生成モデル作成装置。
時系列の音響信号列の集合と、前記音響信号列に対応する音響イベントを表す音響イベント情報と、を含む学習用情報を用い、音響イベントによって規定される潜在的な場の状況が音響イベントを生成する確率Ｐ（音響イベント｜状況）と、音響信号列が状況を生成する確率Ｐ（状況｜音響信号列）とを得る状況モデル化部と、
前記確率Ｐ（音響イベント｜状況）に対応する状況−音響イベント生成モデルを用い、音響イベントを表す音響イベント情報を含む入力情報に対応する状況を推定する生成モデル比較部と、
を有する状況推定装置。
請求項４の状況推定装置であって、
時系列の第１音響信号列から、第１音響特徴量を算出する第１特徴量算出部と、
前記第１音響特徴量を用い、音響イベントを決定する第１音響イベント判定部と、
時系列の第２音響信号列から、第２音響特徴量を算出する第２特徴量算出部と、
前記第２音響特徴量を用い、音響イベントを決定する第２音響イベント判定部と、を有し、
前記学習用情報が含む音響信号列は、前記第１音響信号列であり、
前記学習用情報が含む音響イベント情報は、前記第１音響イベント判定部で決定された前記音響イベントを表し、
前記入力情報が含む音響イベント情報は、前記第２音響イベント判定部で決定された前記音響イベントを表す、
ことを特徴とする状況推定装置。
請求項４の状況推定装置であって、
第１音響特徴量を用い、音響イベントを決定する第１音響イベント判定部と、
第２音響特徴量を用い、音響イベントを決定する第２音響イベント判定部を有し、
前記学習用情報が含む音響信号列は、前記第１音響特徴量に対応し、
前記学習用情報が含む音響イベント情報は、前記第１音響イベント判定部で決定された前記音響イベントを表し、
前記入力情報が含む音響イベント情報は、前記第２音響イベント判定部で決定された前記音響イベントを表す、
ことを特徴とする状況推定装置。
時系列の音響信号列の集合と、前記音響信号列に対応する音響イベントを表す音響イベント情報と、を含む第１，２学習用情報を用い、音響イベントによって規定される潜在的な場の状況が音響イベントを生成する確率Ｐ（音響イベント｜状況）と、音響信号列が状況を生成する確率Ｐ（状況｜音響信号列）とを得る、状況モデル化部と、
前記確率Ｐ（音響イベント｜状況）に対応する状況−音響イベント生成モデルを用い、前記第２学習用情報が含む音響イベント情報に対応する状況を推定する生成モデル比較部と、
を有する状況推定装置。
請求項７の状況推定装置であって、
時系列の第１音響信号列から、第１音響特徴量を算出する第１特徴量算出部と、
前記第１音響特徴量を用い、音響イベントを決定する第１音響イベント判定部と、
時系列の第２音響信号列から、第２音響特徴量を算出する第２特徴量算出部と、
前記第２音響特徴量を用い、音響イベントを決定する第２音響イベント判定部と、を有し、
前記第１学習用情報が含む音響信号列は、前記第１音響信号列であり、
前記第１学習用情報が含む音響イベント情報は、前記第１音響イベント判定部で決定された前記音響イベントを表し、
前記第２学習用情報が含む音響信号列は、前記第２音響信号列であり、
前記第２学習用情報が含む音響イベント情報は、前記第２音響イベント判定部で決定された前記音響イベントを表す、
ことを特徴とする状況推定装置。
請求項７の状況推定装置であって、
第１音響特徴量を用い、音響イベントを決定する第１音響イベント判定部と、
第２音響特徴量を用い、音響イベントを決定する第２音響イベント判定部と、を有し、
前記第１学習用情報が含む音響信号列は、前記第１音響特徴量に対応し、
前記第１学習用情報が含む音響イベント情報は、前記第１音響イベント判定部で決定された前記音響イベントを表し、
前記第２学習用情報が含む音響信号列は、前記第２音響特徴量に対応し、
前記第２学習用情報が含む音響イベント情報は、前記第２音響イベント判定部で決定された前記音響イベントを表す、
ことを特徴とする状況推定装置。
請求項１から３の何れかの状況生成モデル作成装置としてコンピュータを機能させるためのプログラム。
請求項４から９の何れかの状況推定装置としてコンピュータを機能させるためのプログラム。