JP6078441B2

JP6078441B2 - モデル処理装置、分析装置、それらの方法およびプログラム

Info

Publication number: JP6078441B2
Application number: JP2013182435A
Authority: JP
Inventors: 桂右井本; 尚植松
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-07-03
Filing date: 2013-09-03
Publication date: 2017-02-08
Anticipated expiration: 2033-09-03
Also published as: JP2015028579A

Description

本発明は、どのような行動および／または状況が音響イベントを生じさせたかを推定または分析するための技術に関する。

非特許文献１に開示された従来技術では、行動（例えば、人が料理をしている行動等）によって生じた音響信号に対して、短時間（２０ｍｓｅｃ〜１００ｍｓｅｃ程度）ごとにその音響信号が何の音（足音，水が流れる音；以後、音響イベントとする）であるかを表すラベルを付与した音響イベントラベル付き音響信号列を入力とし、連続する有限個のフレーム分の音響イベントラベルから音響イベントラベルごとのヒストグラムを作成する。生成された音響イベントラベルごとのヒストグラムに対してＧＭＭ（Gaussian Mixture Model）、ＨＭＭ（Hidden Markov Model）、ＳＶＭ（Support Vector Machine）等のモデル化手法を用い、行動を推定するためのモデル（行動モデル）を生成する。

さらに、上記行動モデルと新たに入力された音響イベントラベル付き音響信号列から算出された音響イベントのヒストグラムをそれぞれ比較し（例えば、ユークリッド距離やコサイン距離などを用いて比較する）、複数の行動モデルのうち、最も判断基準に適合しているものをその音響信号列に対応する行動を表すと判定する。このように、従来技術では音響信号列から行動を推定することができる。

井本他，「複数の生活音の出現頻度に基づくユーザ行動の識別手法とコミュニケーションへの応用」，画像電子学会第３２回ＶＭＡ研究会

従来技術のモデルには時間情報が考慮されておらず、時間情報によって特徴付けられる行動や音響イベントをモデル化していなかった。これは、時間情報によって特徴付けられた行動の推定精度の劣化につながる。このことは、行動を推定する場合に限られたことではない。行動を分析する場合、または状況を分析もしくは推定する場合にも同様である。

本発明は、時間情報を考慮してモデル化を行い、行動および／または状況の推定および／または分析の精度を向上させることを課題とする。

本発明では、モデルの学習処理に、少なくとも、各時間区間の音響信号を生じさせた音響イベントの時系列の並びを表す音響イベントラベル列、ならびに、音響イベントを生じさせた行動の候補を表す行動ラベル候補および音響イベントを生じさせた状況の候補の総数の少なくとも一方を用いる。この学習処理は、音響イベントの時系列の並びにおける、行動の候補に対応する音響イベントの組み合わせと行動の候補の時系列の並びとの同時事後確率、音響イベントの時系列の並びにおける、行動の候補に対応する音響イベントの組み合わせと行動の候補の時系列の並びと行動の候補に対応する状況の候補の組み合わせとの同時事後確率、または音響イベントの時系列の並びにおける、状況の候補に対応する音響イベントの組み合わせと状況の候補の時系列の並びとの同時事後確率の何れかを最大化するための処理を含む。これにより、行動の候補が音響イベントを生成する確率Ｐ（音響イベント｜行動の候補）および状況の候補が音響イベントを生成する確率Ｐ（音響イベント｜状況の候補）の少なくとも一方を得る。

本発明では、行動および／または状況の候補の時系列情報を考慮してモデル学習を行うため、行動および／または状況の推定および／または分析の精度を向上できる。

実施例（１）−１−１のモデル処理装置を説明するためのブロック図。音響イベントラベルおよび行動ラベル候補付き音響信号列のデータ構成を例示した図。実施例（１）−１−２のモデル処理装置を説明するためのブロック図。実施例（１）−１−３のモデル処理装置を説明するためのブロック図。実施例（１）−２−１のモデル処理装置を説明するためのブロック図。実施例（１）−２−２のモデル処理装置を説明するためのブロック図。実施例（１）−２−３のモデル処理装置を説明するためのブロック図。実施例（１）−３−１のモデル処理装置を説明するためのブロック図。実施例（１）−３−２，（１）−４−２のモデル処理装置を説明するためのブロック図。実施例（１）−３−３，（１）−４−３のモデル処理装置を説明するためのブロック図。実施例（１）−４−１のモデル処理装置を説明するためのブロック図。実施例（２）−１−１のモデル処理装置を説明するためのブロック図である。音響イベントラベルおよび行動ラベル候補付き音響信号列のデータ構成を例示した図。実施例（２）−１−２のモデル処理装置を説明するためのブロック図。実施例（２）−１−３のモデル処理装置を説明するためのブロック図。実施例（２）−２−１のモデル処理装置を説明するためのブロック図。実施例（２）−２−２のモデル処理装置を説明するためのブロック図。実施例（２）−２−３のモデル処理装置を説明するためのブロック図。実施例（２）−３−１のモデル処理装置を説明するためのブロック図。実施例（２）−３−２，（２）−４−２のモデル処理装置を説明するためのブロック図。実施例（２）−３−３，（２）−４−３のモデル処理装置を説明するためのブロック図。実施例（２）−４−１のモデル処理装置を説明するためのブロック図。実施例（３）−１−１のモデル処理装置を説明するためのブロック図。音響イベントラベル付き音響信号列のデータ構成を例示した図。実施例（３）−１−２のモデル処理装置を説明するためのブロック図。実施例（３）−１−３のモデル処理装置を説明するためのブロック図。実施例（３）−２−１のモデル処理装置を説明するためのブロック図。実施例（３）−２−２のモデル処理装置を説明するためのブロック図。実施例（３）−２−３のモデル処理装置を説明するためのブロック図。実施例（３）−３−１のモデル処理装置を説明するためのブロック図。実施例（３）−３−２のモデル処理装置を説明するためのブロック図。実施例（３）−３−３のモデル処理装置を説明するためのブロック図。

以下、図面を参照して本発明の実施形態を説明する。なお、同一構成要素ないし同一処理には同一符号を割り当てて重複説明を省略する。
＜用語の定義＞
各実施例で用いる用語を定義する。
「行動」とは、人間、動物、装置などの主体が行う何らかの行動を意味する。「行動」の具体例は「料理」「掃除」などである。また、音響信号が収録された場所や時間や場に人が何人いるか等の音響信号を発生させる状態を「行動」としてもよい。
「音響イベント」とは、行動に伴って発生する音の事象を意味する。「音響イベント」の具体例は、「包丁の音」「水が流れる音」「水音」「着火音」「火の音」「足音」「掃除機の排気音」などである。例えば、「包丁の音」「水が流れる音」等は、「料理」という行動に伴って発生する音響イベントである。
「状況」とは、音響イベントの組み合わせ、および状況そのものの遷移確率で特徴付けられた状況の種別（番号）である。言い換えると「状況」は、音響イベントおよび自身の遷移確率によって規定される潜在的な場の状況を表す。状況の生成確率は、その状況が起こる時間区間での行動または、その状況が起こる時間区間での音響信号そのものに規定され、状況は、その状況が起こる時間区間での音響イベントの生成確率を規定する。状況は、行動と、行動によって規定される生成確率、または、音響信号と、音響信号によって規定される生成確率とによって表現可能である。音響イベントは、行動と、行動によって規定される生成確率、または、状況と、状況によって規定される生成確率とによって表現可能である。なお、行動や状況の推定は長時間の音響イベントの組み合わせによって実現される。
「ＸがＹを生成する確率」とは、事象Ｘが起こるという条件のもとでの事象Ｙが起こる確率をいう。「ＸがＹを生成する確率」は、「ＸのもとでのＹの条件付き確率」や「ＸにおけるＹの条件付き確率」とも表現できる。「Ｘにおける、ＹとＺとの同時事後確率」とは、事象Ｘが起きたという条件のもとでの、事象Ｙと事象Ｚとの同時確率をいう。

＜実施例（１）−１−１：図１＞
［行動の時間変化を考慮に入れた、音響イベントラベルおよび行動ラベル候補付き音響信号列から行動−音響イベント生成モデルおよび行動遷移モデルを算出し、同時に、行動を分析］
本実施例では、行動の時間変化を考慮に入れ、音響イベントラベルおよび行動ラベル候補付き音響信号から、行動−音響イベント生成モデルを算出する。同時に、行動の時間遷移を表す行動遷移モデルも算出してもよく、行動の分析も行ってもよい。

すなわち本実施例では、各時間区間の音響信号を生じさせた音響イベントの時系列の並びを表す音響イベントラベル列、ならびに、音響イベントを生じさせた行動の候補を表す行動ラベル候補を用い、「音響イベントの時系列の並びにおける、行動の候補に対応する音響イベントの組み合わせと行動の候補の時系列の並びとの同時事後確率」を最大化するための処理を行う学習処理を行う。例えば、この学習処理は、行動の時間遷移に基づく行動の出現確率と、行動に対する音響イベントの出現確率に基づいて、音響イベントの時系列の並びにおける、行動の候補に対する音響イベントの組み合わせと行動の候補の時系列の並びとの同時事後確率を最大化するための処理である。例えば、音響イベントの時系列の並びからなる音響イベントの組み合わせに対する尤度関数Ｐ（音響イベントの組み合わせ｜行動の候補の時系列の並び）を最大にする処理が行われる。それにより、行動の候補が音響イベントを生成する確率Ｐ（音響イベント｜行動の候補）を「行動−音響イベントの生成モデル」として得る。また、この学習処理によって、行動の候補の時系列の遷移確率を「行動遷移モデル」として得てもよい。さらに、この学習処理の過程で何れかの行動の候補を選択し、各音響イベントがどの行動によって生成されたのかを分析してもよい。この場合には選択した行動の候補を表す行動ラベルを出力してもよい。

図１に例示するように、本実施例のモデル処理装置１００は、音響信号列合成部１０１、モデル化部１０２、および記憶部１０３を有する。モデル処理装置１００は、例えば、汎用又は専用の公知のコンピュータに所定のプログラムが読み込まれることで構成される。

まず音響信号列合成部１０１に、音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓ（ただし、Ｓは１以上の整数）が入力される。図２に例示するように、音響イベントラベルおよび行動ラベル候補付き音響信号列は、短時間（数１０ｍｓｅｃ〜数ｓｅｃ）の時間区間（以下単に「時間区間」という）ごとに区分された時系列の音響信号列、当該時間区間ごとに区分された音響信号列の各要素に対応する要素番号、当該時間区間ごとに決定されて付与された音響イベントラベル、および当該時間区間ごとに付与された行動ラベル候補を含む。当該時間区間ごとに複数個の行動ラベル候補が付与されてもよいし（例えば、図２の要素番号１の時間区間）、単一の行動ラベル候補が付与されてもよい（例えば、図２の要素番号ｉの時間区間）。音響信号列は音を表すデジタル信号列（例えば、５〜２０秒程度のデジタル信号列）である。音響信号列は、例えば単一又は複数の行動がなされる環境での録音によって得られ、単一又は複数の行動によって生じた音を表す。音響信号列の各時間区間の区分を音響信号とよぶ。音響信号列は、各時間区間の音響信号の時系列の並びと解釈できる。音響イベントラベルは、それぞれ、上記の時間区間の音響信号を生じさせた音響イベントを表す。各時間区間の音響イベントラベルの時系列の並びを音響イベントラベル列と呼ぶ。音響イベントラベル列は、各時間区間の音響信号を生じさせた音響イベントの時系列の並びを表す。行動ラベル候補は、音響イベントを生じさせた行動の候補を表すラベルである。

複数個の音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓ（以下、単に「ラベル付き音響信号列１１−１，・・・，１１−Ｓ」という）が音響信号列合成部１０１に入力された場合、音響信号列合成部１０１は、それらを時系列方向につなぎ合わせ、それによって１つの音響イベントラベルおよび行動ラベル候補付き音響信号列１１（以下、単に「ラベル付き音響信号列１１」という）を得て出力する（合成処理）。音響信号列合成部１０１に１つの音響信号列１１−１のみが入力された場合、音響信号列合成部１０１はそれをラベル付き音響信号列１１として出力する。音響信号列合成部１０１から出力された音響イベントラベルおよび行動ラベル候補付き音響信号列は、モデル化部１０２に入力される。なお、音響信号列合成部１０１を経由することなく、１つラベル付き音響信号列１１がそのままモデル化部１０２に入力されてもよい。

モデル化部１０２は、以下の手順に従って、入力されたラベル付き音響信号列１１から、行動−音響イベント生成モデル１４を生成し、それを記憶部１０３に格納する。モデル化部１０２は、行動遷移モデルを生成してもよいし、行動ラベル１８を生成してもよい。生成された行動遷移モデル１７や行動ラベル１８も記憶部１０３に格納される。

［行動から音響イベントが生成される過程の論理的説明］
モデル化部１０２は、ラベル付き音響信号列１１から、行動の候補が音響イベントを生成する確率Ｐ（音響イベント｜行動の候補）としたときの行動−音響イベント生成モデル１４を得る。このとき、行動が音響イベントの生成確率を規定するとともに、ある時刻の行動が次時刻に生じる行動を規定すると考え、この関係を生成モデルとして記述する。この際、行動-音響イベント生成モデル１４のみを得てもよいし、行動の候補の時系列の遷移確率である行動遷移モデル１７を同時に得てもよい。

ラベル付き音響信号列１１が有する各音響信号列が取りうる行動ラベル候補を音響信号列分並べて列とした、集合のベクトルΩ、行動ラベル候補が表す行動の候補における音響イベントの生成確率Φ、および行動ラベル候補が表す行動の候補の遷移確率Πが与えられた場合における、音響イベントの列ｅの生成確率Ｐ（ｅ｜Π，Φ，Ω）は以下の通りである。

ただし、Ａは行動の候補の総数（行動の候補の種類の個数）、Ｅは音響イベントの種類の個数、ｅはラベル付き音響信号列１１に与えられた音響イベントの列（ベクトル）、Πは各時間区間の行動の候補ａ（ただし、ａ∈｛１，・・・，Ａ｝）が次の時間区間で行動の候補ａ’（ただし、ａ’∈｛１，・・・，Ａ｝）に遷移する確率を（ａ，ａ’）要素とするＡ×Ａ行列、Φは行動の候補ａ（ただし、ａ∈｛１，・・・，Ａ｝）が音響イベントε（ただし、ε∈｛１，・・・，Ｅ｝）を生成する確率Ｐ（ε｜ａ）を（ａ，ε）要素とするＡ×Ｅ行列、Ωは各音響信号列がとり得る行動ラベル候補を音響信号列分並べて列とした、集合のベクトル、ｅ’_ｓは各ラベル付き音響信号列１１−ｓに与えられた音響イベントの列（Ｎ_ｓ次元ベクトル：Ｎ_ｓはラベル付き音響信号列１１−ｓに対応する音響イベントの個数）、ａ_ｓはラベル付き音響信号列１１−ｓに付与された行動ラベル候補が表す行動の候補の集合、Ｓはラベル付き音響信号列１１を構成するラベル付き音響信号列１１−ｓの個数を表す。なお、Ωとａ_ｓの関係は以下のように表される。
Ω＝[ａ_１,ａ_２,…,ａ_ｓ,…,ａ_Ｓ］

行動の候補の集合ａ_ｓ、行動の候補ａの遷移確率π_ａの事前分布のパラメータ（Ｄｉｒｉｃｈｌｅｔ分布に従うものとする）γ、行動の候補ａにおける音響イベントεの生成確率φ_ａの事前分布のパラメータ（Ｄｉｒｉｃｈｌｅｔ分布に従うものとする）βが与えられたときの、音響イベントの列ｅ’_ｓの生成確率Ｐ（ｅ’_ｓ，Π，Φ｜γ，β，ａ_ｓ）は、以下の通りである。

ただし、ｅ_ｉはラベル付き音響信号列１１−ｓの要素番号ｉに対応する音響イベント、Ｎ_ｓはラベル付き音響信号列１１−ｓに対応する要素数（要素番号ｉの最大値）、ｘ_ｉはラベル付き音響信号列１１−ｓの要素番号ｉに対応する行動ラベル候補が表す行動の候補、π^ｘｉ−１ _ｘｉはラベル付き音響信号列１１−ｓの要素番号ｉ−１に対応する行動ラベル候補が表す行動の候補ｘ_ｉ−１から要素番号ｉに対応する行動ラベル候補が表す行動の候補ｘ_ｉへの遷移確率を表す。ただし、π^ｘｉ−１ _ｘｉの上付き「ｘｉ−１」はｘ_ｉ−１を表し、下付き「ｘｉ」はｘ_ｉを表す。また、π_aは、ラベル付き音響信号列１１に付与されたすべての行動ラベル候補を対象とした遷移確率π^ｘｉ−１ _ｘｉを（ｘ_ｉ−１，ｘ_ｉ）要素とするＡ×Ａ行列、φ_ａは行動の候補ａが音響イベントε（ただし、ε∈｛１，・・・，Ｅ｝）を生成する確率Ｐ（ε｜ａ）をε番目の要素とするＥ次元ベクトルを表す。Ｗ−１次（Ｗは２以上の整数）のＤｉｒｉｃｈｌｅｔ分布の確率密度関数は以下の通りである。

ただし、τはτ_ｉ（ｉ＝１，...，Ｗ）からなるパラメータ、μは確率変数、Γはガンマ関数を表す。

［生成モデルの算出過程の説明］
モデル化部１０２は、入力されたラベル付き音響信号列１１から行動の候補が音響イベントを生成する確率Ｐ（音響イベント｜行動の候補）および行動の遷移確率を算出する。また、モデル化部１０２は、少なくとも行動−音響イベント生成モデル１４を出力し、記憶部１０３に格納する。また、モデル化部１０２は、算出された行動の候補の遷移確率を行動遷移モデル１７として記憶部１０３に格納してもよい。行動の候補の遷移確率は、第１時間区間での行動の候補が、第１時間区間よりも後の第２時間区間での行動の候補を生成する確率Ｐ（第２時間区間での行動の候補｜第１時間区間での行動の候補）である。例えば、第２時間区間は第１時間区間の直後の時間区間である。しかしながら、第１時間区間よりもξ個後（ξは２以上の整数）の時間区間が第２時間区間であってもよい。また、第1時間区間から第ξ時間区間の同時確率を考えてもよい。さらにモデル化部１０２は、入力されたラベル付き音響信号列１１が有する行動ラベル候補から尤もらしいラベルを選択し、選択した行動ラベル候補からなる行動ラベル列１８を外部に出力したり、記憶部１０３に格納したりしてもよい。尤もらしいラベルは、各時間区間に対して１個でもよいし、複数個でもよい。また、各時間区間において尤もらしさが閾値を超えたすべての行動ラベル候補を選択し、選択した時間区間ごとに単一または複数の行動ラベル候補からなる行動ラベル１８の列を外部に出力したり、記憶部１０３に格納したりしてもよい。

行動−音響イベント生成モデル１４および行動遷移モデル１７の算出は、入力されたラベル付き音響信号列１１の音響イベントの時系列の並びにおける、行動の候補に対応する音響イベントの組み合わせと行動の候補の時系列の並びとの同時事後確率を最大化する処理を用いて行われる。例えば、マルコフ連鎖モンテカルロ法（ＭＣＭＣ法：Markov Chain Monte Carlo methods）や変分ベイズ法（ＶＢ法：Variational Bayes methods）などの手法を用いることができる。ＭＣＭＣ法には、Ｍ−Ｈアルゴリズムやギブスサンプリングなどの手法がある。ここでは一例としてギブスサンプリングによる算出手法を説明する。

［生成モデル算出の流れの例示］
(i)モデル化部１０２は、ハイパパラメータとしてパラメータβおよびγを事前に決定する。
(ii)モデル化部１０２は、全てのラベル付き音響信号列１１−ｓ（ただしｓ＝１，...，Ｓ）の全ての要素番号ｉに対応する要素に行動の候補ｘ_ｉをランダムに割り当てる（割り当てはラベル付き音響信号列１１−ｓに与えられた行動ラベル候補が表す行動の候補からランダムに行う）。あるいは、要素番号ｉに対応する要素への行動の候補ｘ_ｉの割り当ては、事前にモデル化部１０２に設定しておいた割り当てであってもよい。

(iii)モデル化部１０２は、全てのラベル付き音響信号列１１−ｓ（ただしｓ＝１，...，Ｓ）の各要素番号ｉ（要素番号ｉ−１またはｉ＋１に対応する要素が存在しない要素番号ｉを除く）について、以下の(iii-1)および(iii-2)を規定の回数（正値であり、例えば１〜３０００回程度）、もしくは、所望の結果が得られるまで（例えば、割り当ての前後において、行動の割り当て先の変化が一定の閾値（例えば０．３％）以下になるまでなど）繰り返す。
(iii-1)モデル化部１０２は、以下の式により、更新対象のラベル付き音響信号列の要素番号ｉを除いた要素番号に対応する音響信号列に対して、要素番号ｉの要素に行動の候補ａ∈Ωに割り当てられる確率分布Ｐ（ｘ_ｉ＝ａ｜ｅ_ｉ＝ε，ｘ_−ｉ，ｅ_−ｉ，Ω，β，γ）を更新する。

ただし、Ｃ_εａ ^ＥＡは、更新対象のラベル付き音響信号列（初期値はラベル付き音響信号列１１）の音響イベントεに行動の候補ａが割り当てられた回数を表す。

Ｒ^ｘｉ _ｘｉ＋１は、更新対象のラベル付き音響信号列に対応するすべて行動の候補の並びの中で、行動の候補ｘ_ｉ＝ａ∈Ωと同一の候補から行動の候補ｘ_ｉ＋１と同一の候補に遷移した回数を表す。ただし、ｘ_ｉ＝ａ∈Ωであり、ｘ_ｉ以外の行動の候補「・・・，ｘ_ｉ−１，ｘ_ｉ＋１，・・・」は、(ii)でランダムに割り当てられた行動の候補〔(iii-2)が実行されていない場合〕または直前の(iii-2)で得られた行動の候補〔(iii-2)が実行されている場合〕である。ｘ_ｉ−１からｘ_ｉへの遷移「ｘ_ｉ−１→ｘ_ｉ」およびｘ_ｉからｘ_ｉ＋１への遷移「ｘ_ｉ→ｘ_ｉ＋１」はＲ^ｘｉ _ｘｉ＋１を得るためのカウント対象とせず、遷移「ｘ_ｉ−１→ｘ_ｉ」が遷移「ａ→ｘ_ｉ＋１」と同じになることはＩ（ｘ_ｉ−１＝ｘ_ｉ）×Ｉ（ｘ_ｉ＝ｘ_ｉ＋１）によってカウントされる。ただし、Ｉ（ｘ_ｉ−１＝ｘ_ｉ）およびＩ（ｘ_ｉ＝ｘ_ｉ＋１）は、ｘ_ｉ−１＝ｘ_ｉのときにＩ（ｘ_ｉ−１＝ｘ_ｉ）＝１、ｘ_ｉ−１≠ｘ_ｉのときにＩ（ｘ_ｉ−１＝ｘ_ｉ）＝０となり、ｘ_ｉ＝ｘ_ｉ＋１のときにＩ（ｘ_ｉ＝ｘ_ｉ＋１）＝１、ｘ_ｉ≠ｘ_ｉ＋１ｉのときにＩ（ｘ_ｉ＝ｘ_ｉ＋１）＝０となる関数である。遷移「ｘ_ｉ−１→ｘ_ｉ」が遷移「ａ→ｘ_ｉ＋１」と同じになることがＩ（ｘ_ｉ−１＝ｘ_ｉ）×Ｉ（ｘ_ｉ＝ｘ_ｉ＋１）によってカウントできるのは、遷移「ｘ_ｉ−１→ｘ_ｉ」が遷移「ａ→ｘ_ｉ＋１」と同じになるのは、ａ＝ｘ_ｉ＝ｘ_ｉ＋１かつａ＝ｘ_ｉ−１＝ｘ_ｉの場合に限られるからである。

例えば、Ω＝｛１，２，・・・，９｝であり、前回の繰り返し処理時に得られた各要素番号ｉに対応する行動の候補の並びが［ｘ_１，ｘ_２，ｘ_３，ｘ_４，ｘ_５，ｘ_６，ｘ_７，ｘ_８］＝［１，２，１，１，２，３，１，６］であったとする。この例でｉ＝２についてＲ^ｘｉ _ｘｉ＋１を求める場合には、ｘ_２＝ａ∈｛１，２，・・・，９｝とした［１，ａ，１，１，２，１，１，６］の中で「ａ→１」と遷移する回数をカウントする。ただし、遷移「ｘ_１→ｘ_２」＝「１→ａ」および「ｘ_２→ｘ_３」＝「ａ→１」はＲ^ｘｉ _ｘｉ＋１を得るためのカウント対象としない。
ｘ_１ → ｘ_２ → ｘ_３ → ｘ_４ → ｘ_５ → ｘ_６ → ｘ_７ → ｘ_８
１ａ１１２１２６
１
２
…
９
ｘ_２＝ａ＝１の場合、「ａ→１」＝「１→１」であり、［１，１，１，１，２，１，２，６］の中で「１→１」と遷移するのは、「ｘ_１→ｘ_２」＝「１→１」，「ｘ_２→ｘ_３」＝「１→１」，「ｘ_３→ｘ_４」＝「１→１」の３回である。しかしながら、「ｘ_１→ｘ_２」＝「１→１」および「ｘ_２→ｘ_３」＝「１→１」はＲ^ｘｉ _ｘｉ＋１を得るためのカウント対象とせず、ａ＝１およびｉ＝２についてＲ^ｘｉ _ｘｉ＋１＝１とする。なお「ｘ_１→ｘ_２」＝「１→１」が「ｘ_１→ｘ_２」＝「１→１」と一致することは、Ｉ（ｘ_１＝ｘ_２＝１）×Ｉ（ｘ_２＝ｘ_３＝１）＝１によってカウントされる。ａ＝２の場合、「ａ→１」＝「２→１」であり、［１，２，１，１，２，１，２，６］の中で「２→１」と遷移するのは、「ｘ_２→ｘ_３」＝「２→１」，「ｘ_５→ｘ_６」＝「２→１」の２回である。しかしながら、「ｘ_２→ｘ_３」＝「２→１」はＲ^ｘｉ _ｘｉ＋１を得るためのカウント対象とせず、ａ＝２およびｉ＝２についてＲ^ｘｉ _ｘｉ＋１＝１とする。なお「ｘ_１→ｘ_２」＝「１→１」については、ｘ_１≠ｘ_２＝２かつ２＝ｘ_２≠ｘ_３であるため、Ｉ（ｘ_１＝ｘ_２）×Ｉ（ｘ_２＝ｘ_３）＝０となり、カウントされない。

Σ_{ｘ’ｉ＋１∈Ω}Ｒ^ｘｉ _{ｘ’ｉ＋１}は、更新対象のラベル付き音響信号列に対応するすべて行動の候補の並びの中で、行動の候補ｘ_ｉ＝ａ∈Ωと同一の候補から遷移した行動の候補の総数を表す。この場合も、ｘ_ｉ−１を基点とする遷移およびｘ_ｉ＝ａを基点とする遷移は、Σ_{ｘ’ｉ＋１∈Ω}Ｒ^ｘｉ _{ｘ’ｉ＋１}を得るためのカウント対象とせず、ｘ_ｉ−１を基点とする遷移がｘ_ｉ＝ａを基点とする遷移となることは、Ｉ（ｘ_ｉ−１＝ｘ_ｉ）によってカウントされる。ｘ_ｉ−１を基点とする遷移がｘ_ｉ＝ａを基点とする遷移となることがＩ（ｘ_ｉ−１＝ｘ_ｉ）によってカウントできるのは、ｘ_ｉ−１を基点とする遷移がｘ_ｉ＝ａを基点とする遷移となるのはｘ_ｉ−１＝ａの場合、すなわちｘ_ｉ−１＝ｘ_ｉ＝ａの場合だからである。
例えば、上述の行動の候補の並びの例［ｘ_１，ｘ_２，ｘ_３，ｘ_４，ｘ_５，ｘ_６，ｘ_７，ｘ_８］＝［１，２，１，１，２，３，１，６］において、ｉ＝２についてΣ_{ｘ’ｉ＋１∈Ω}Ｒ^ｘｉ _{ｘ’ｉ＋１}を求める場合には、ｘ_２＝ａ∈｛１，２，・・・，９｝とした［１，ａ，１，１，２，１，１，６］の中で「ａ」を基点とする遷移回数をカウントする。ただし、遷移「ｘ_１→ｘ_２」＝「１→ａ」および「ｘ_２→ｘ_３」＝「ａ→１」はΣ_{ｘ’ｉ＋１∈Ω}Ｒ^ｘｉ _{ｘ’ｉ＋１}を得るためのカウント対象としない。ａ＝１の場合、［１，１，１，１，２，１，２，６］の中でｘ_２＝１を基点として遷移するのは、「ｘ_１→ｘ_２」＝「１→１」，「ｘ_２→ｘ_３」＝「１→１」，「ｘ_３→ｘ_４」＝「１→１」，「ｘ_６→ｘ_７」＝「１→１」の４回である。しかしながら、「ｘ_１→ｘ_２」＝「１→１」および「ｘ_２→ｘ_３」＝「１→１」はΣ_{ｘ’ｉ＋１∈Ω}Ｒ^ｘｉ _{ｘ’ｉ＋１}を得るためのカウント対象とぜず、ａ＝１およびｉ＝２についてΣ_{ｘ’ｉ＋１∈Ω}Ｒ^ｘｉ _{ｘ’ｉ＋１}＝２とする。なお、ｘ_１を基点とする遷移がｘ_２＝１を基点とする遷移となることは、Ｉ（ｘ_１＝ｘ_２＝１）＝１によってカウントされる。
ａ＝２の場合、［１，２，１，１，２，１，２，６］の中でｘ_２＝２を基点として遷移するのは、「ｘ_２→ｘ_３」＝「２→１」，「ｘ_５→ｘ_６」＝「２→１」，「ｘ_７→ｘ_８」＝「２→６」の３回である。しかしながら、「ｘ_２→ｘ_３」＝「２→１」はΣ_{ｘ’ｉ＋１∈Ω}Ｒ^ｘｉ _{ｘ’ｉ＋１}を得るためのカウント対象とぜず、ａ＝２およびｉ＝２についてΣ_{ｘ’ｉ＋１∈Ω}Ｒ^ｘｉ _{ｘ’ｉ＋１}＝２とする。なお「ｘ_１→ｘ_２」＝「１→１」については、ｘ_１≠ｘ_２＝２であるため、Ｉ（ｘ_１＝ｘ_２）＝０となり、カウントされない。

なお、表記制約上の都合から「Ｃ_εａ ^ＥＡ」「Ｒ^ｘｉ _ｘｉ＋１」と表記するが、本来は式（３）に示すように「Ｃ_εａ ^ＥＡ」の「ＥＡ」は「εａ」の上に表記され、「Ｒ^ｘｉ _ｘｉ＋１」の「ｘｉ」はｘ_ｉを表し、「ｘｉ＋１」はｘ_ｉ＋１を表し、ｘ_ｉはｘ_ｉ＋１の上に表記される。また、ｘ_−ｉは要素番号ｉ以外の要素番号に対応する行動の候補からなる列、ｅ_−ｉは要素番号ｉ以外の要素番号に対応する音響イベントからなる列を表す。

(iii-2)モデル化部１０２は、上記の更新式（３）で得られた確率分布Ｐ（ｘ_ｉ＝ａ｜ｅ_ｉ＝ε，ｘ_−ｉ，ｅ_−ｉ，Ω，β，γ）に従って、各要素番号ｉの要素に割り当てる行動の候補ｘ_ｉをサンプリング（選択）する。モデル化部１０２は、このようにサンプリングした行動の候補ｘ_ｉを要素番号ｉの要素に割り当て、要素番号ｉに対応する行動の候補を更新する。これにより更新対象のラベル付き音響信号列を更新する。

(iv)モデル化部１０２は、上記の(iii-1)(iii-2)の繰り返しによって最終的に得られたＣ_εａ ^ＥＡおよびＲ^ｘｉ _ｘｉ＋１を用い、以下を計算する。

これによってモデル化部１０２は、行動の候補が音響イベントを生成する確率φ_εａ（ただし、ａ∈｛１，・・・，Ａ｝，ε∈｛１，・・・，Ｅ｝）の集合を得、それを行動−音響イベント生成モデル１４とする。例えばモデル化部１０２は、確率φ_εａを（ａ，ε）要素とするＡ×Ｅ行列を行動−音響イベント生成モデル１４とする。また、モデル化部１０２は、これによって行動の候補の遷移確率π^ｘｉ _ｘｉ＋１（ただし、ｘ_ｉ，ｘ_ｉ+１∈｛１，・・・，Ａ｝）の集合を得、それを行動遷移モデル１７とする。例えばモデル化部１０２は、ｘ_ｉ，ｘ_ｉ+１∈｛１，・・・，Ａ｝に対応する遷移確率π^ｘｉ _ｘｉ＋１を（ｘ_ｉ，ｘ_ｉ＋１）要素とするＡ×Ａ行列を行動遷移モデル１７とする。

或いは、モデル化部１０２は、(iii-1)の繰り返し処理時に、式（３）の算出過程で確率φ_εａを１個以上サンプリング（計算）し、式（４）に代えて、サンプリングされた確率φ_εａの平均値を用い、行動−音響イベント生成モデル１４を得てもよい。同様に、モデル化部１０２は、(iii-1)の繰り返し処理時に、式（３）の算出過程で遷移確率π^ｘｉ _ｘｉ＋１を１個以上サンプリングし、式（５）に代えて、サンプリングされた遷移確率π^ｘｉ _ｘｉ＋１の平均値を用い、行動遷移モデル１７を得てもよい。

また、上記更新過程でサンプリング（選択）し、各要素番号ｉの要素に割り当てた行動の候補ｘ_ｉを分析することで、各ラベル付き音響信号列１１−ｓの音響信号列がどの行動によって生成されたかを知ることができる。モデル化部１０２は、このように各要素番号ｉの要素に割り当てた行動の候補ｘ_ｉを表すラベル、またはそれらの一部を行動ラベル１８として出力してもよい。

本実施例では、行動が音響イベントを生成する確率のみではなく、行動の時間遷移確率も考慮して学習処理を行うことで、遷移確率によって特徴付けられる行動も精度よくモデル化できる。また、遷移確率によって特徴付けられる行動を精度よく分析できる。

＜実施例（１）−１−２：図３＞
［行動ラベル候補付き音響信号列から行動−音響イベント生成モデルおよび行動遷移モデルを算出し、行動を分析］
本実施例では、行動ラベル候補付き音響信号１５−１，・・・，１５−Ｓを入力とし、行動の時間変化を考慮に入れ、行動−音響イベント生成モデル１４を算出する。すなわち本実施例では、音響信号から音響特徴量を得、得られた音響特徴量を用いて音響イベントを決定し、それによって音響イベントラベル列を得てから学習処理を行い、行動−音響イベント生成モデル１４を生成する。なお、この際、行動の時間遷移を表す行動遷移モデル１７も算出してもよく、行動の分析を行ってもよい。

図３に例示するように、本実施例のモデル処理装置１１０は、特徴量算出部１１１、音響イベント判定部１１２、音響イベントモデルデータベース（ＤＢ）１１３、音響信号列合成部１０１、モデル化部１０２、および記憶部１０３を有する。モデル処理装置１１０は、例えば、汎用又は専用の公知のコンピュータに所定のプログラムが読み込まれることで構成される。

まず特徴量算出部１１１に行動ラベル候補付き音響信号列１５−１，・・・，１５−Ｓが入力される。各行動ラベル候補付き音響信号列１５−ｓ（ただし、ｓ∈｛１，・・・，Ｓ｝）は、前述の時間区間ごとに区分された時系列の音響信号列、当該時間区間ごとに区分された音響信号列の各要素に対応する要素番号、および当該時間区間ごとに付与された行動ラベル候補を含む。要素番号および行動ラベル候補は、音響信号列の要素ごとに付与される。１つの時間区間に複数種類の行動ラベル候補が対応してもよいし、１つの時間区間に複数種類の行動ラベル候補が対応してもよい。

特徴量算出部１１１は、各行動ラベル候補付き音響信号列１５−ｓが含む音響信号列から、各行動ラベル候補付き音響信号列１５−ｓに対応する音響特徴量列（ベクトル）を算出して出力する。例えば特徴量算出部１１１は、入力された行動ラベル候補付き音響信号１５−ｓが含む音響信号列に対し、前述の各時間区間であるフレームごとに、音圧レベル、音響パワー、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficient）特徴量、ＬＰＣ（Linear Predictive Coding）特徴量などを算出し、これらを音響特徴量列として出力する。さらに立ち上がり特性、調波性、時間周期性など（例えば、非特許文献１参照）の音響特徴量が音響特徴量列に加えられてもよい。

立ち上がり特性とは、数十から数百ミリ秒ごとにおける、音響信号の大きさを表す指標の増加の度合いを表す指標である。ここで、音響信号の大きさを表す指標とは、例えば、音響信号の振幅の絶対値、音響信号の振幅の絶対値の対数値、音響信号のパワー又は音響信号のパワーの対数値である。例えば、以下の式（１０）で得られる値が０以上であればその値が立ち上がり特性とされ、式（１０）で得られる値が０未満であれば０が立ち上がり特性とされる。

ただし、ｋはフレームをＫ個の微小な時間区間（例えば１ｍｓｅｃ程度）に区分した場合の各時間区間に対応し、ｐ￣_ｋはｋ番目の時間区間でのサンプルの大きさを表す指標の代表値又は平均値を表す。なお、「サンプルの大きさを表す指標」の例は、サンプルの振幅、サンプルの振幅の絶対値、サンプルの振幅の対数値、サンプルのエネルギー、サンプルのパワー、又はサンプルのパワーの対数値などである。「サンプル」は音響信号列の各音響信号を表す。また、Δｐ￣_ｋはｐ￣_ｋの変化率を表す。例えば、Δｐ⁻ _ｋ＝ｐ⁻ _ｋ−ｐ⁻ _ｋ−１である。Δｐ⁻ _ｋ＝ｐ⁻ _ｋ＋１−ｐ⁻ _ｋとしてもよい。また、最小二乗法等の近似手法を用いてｋ番目の時間区間におけるｐ⁻ _ｋを近似した直線を求め、その時間区間におけるその直線の傾きをΔｐ⁻ _ｋとしてもよい。また、ｋ番目の時間区間を含む複数の時間区間におけるｐ￣_ｋ-κ，・・・，ｐ￣_ｋ-1，ｐ⁻ _ｋ，ｐ￣_ｋ+1,...ｐ￣_ｋ-κ’の近時曲線を求め、そのｋ番目の時間区間に対応する点での傾き（微分値）をΔｐ⁻ _ｋとしてもよい。またχを任意の文字として、χの右肩の「−」は、χの上付きバーを意味する。また式（１０）の分子における（ｐ￣_ｎ）^２を（ｐ￣_ｎ）^ｍとし、ｍを任意の値としても良い。

以下に調波性を例示する。

また、Ｎはフレームに含まれるサンプル数を表す１以上の整数、ｎはフレーム内の各サンプル点を表す１以上のＮ以下の整数、ｘ（ｎ）はサンプル点ｎでのサンプルの大きさを表す指標である。Ｒ_ｆｆ（τ）はｆ（ｎ）のラグτでの自己相関係数、ｍａｘ｛・｝は「・」の最大値を表す。ラグτは１以上Ｎ以下の整数である。Ｒ_ｆｆ（τ）は、例えば以下のように定義される。

以下に時間周期性を例示する。

ただし、Ｌは一周期とみなすサンプル数、Ｍは時間周期性の度合を計算するための周期数を表す１以上の整数、ｐ（・）はサンプルの大きさを表す指標を時間平滑化した値、ｐ￣はフレーム内でのサンプルの大きさを表す指標の平均値を表す。

音響イベントモデルＤＢ１１３には、事前に算出された音響イベントモデルが複数保存されている。各音響イベントモデルは、音響イベントラベルが付された学習用の音響信号列から音響特徴量列を算出し、各音響イベントに対応する音響特徴量列をＧＭＭ，ＨＭＭ，ＳＶＭ等の周知のモデル化手法を用いてモデル化することで得られる（例えば参考文献：奥村学、高村大也、「言語処理のための機械学習入門」コロナ社）。

例えば、ＧＭＭの場合、音響イベントごとに音響特徴量の各種別に対応する音響イベントモデルが得られる。例えば、音響特徴量列がＦ種類（Ｆが１以上の整数）の音響特徴量ｙ_ι（ただし、ι∈｛１，・・・，Ｆ｝）からなる列ｙ_１，・・・，ｙ_Ｆである場合、各音響イベントに対応する音響イベントモデルは、それぞれ、以下のような確率モデルｐ（ｙ_ι）を要素とする列ｐ（ｙ_１），・・・，ｐ（ｙ_Ｆ）となる。

ただし、ｙ_ιは音響特徴量列（ベクトル）の要素、Ｊは正規分布の混合数、π_ｊは混合係数、Ｎ（・）は正規分布の確率密度関数、μ_ｊは分布の平均、Σ_ｊは分布の分散である。

或いは、音響イベントごとに音響特徴量列が対応付けられたものが音響イベントモデルとされてもよい。

特徴量算出部１１１から出力された音響特徴量列は音響イベント判定部１１２に入力される。音響イベント判定部１１２は、入力された音響特徴量列と、音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとをそれぞれ比較し、各フレーム（各要素番号ｉに対応）の音響特徴量列に対応する音響イベントを決定する。例えばＧＭＭが音響イベントモデルとして用いられる場合、音響イベント判定部１１２は、フレーム（要素番号ｉ）ごとに、入力された音響特徴量列の各要素ρ_ι（ただし、ι∈｛１，・・・，Ｆ｝）を各音響イベントに対応する式（１３）の各確率モデルに代入し、各音響イベントに対応する確率ｐ（ρ_１）×・・・×ｐ（ρ_Ｆ）を最大にする音響イベントを決定する。或いは、例えば音響イベントごとに音響特徴量列が対応付けられた音響イベントモデルの場合、音響イベント判定部１１２は、フレーム（要素番号ｉ）ごとに、入力された音響特徴量列との距離（ユークリッド距離やコサイン距離）が最も近い音響イベントモデルに対応する音響イベントを選択する。

音響イベント判定部１１２は、各要素番号ｉに対して決定した音響イベントを表す音響イベントラベルを、行動ラベル候補付き音響信号列１５−ｓの各要素番号ｉの要素に付与する。音響イベント判定部１１２は、この処理を入力された行動ラベル候補付き音響信号列１５−１，・・・，１５−Ｓのすべての要素（すべての要素番号ｉ）について行い、その結果得られる音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓを出力する。

音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓは、音響信号列合成部１０１に入力される。以降の処理は実施例（１）−１−１と同じである。

なお、音響信号列合成部１０１で音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓの合成処理を行うことに代えて、特徴量算出部１１１の前段で行動ラベル候補付き音響信号列１５−１，・・・，１５−Ｓの合成処理を行っても良いし、音響イベント判定部１１２の前段で音響特徴量列の合成処理を行っても良い。

＜実施例（１）−１−３：図４＞
［行動ラベル候補付き音響特徴量から行動−音響イベント生成モデルおよび行動遷移モデルを算出し、行動を分析］
本実施例では、行動の時間変化を考慮に入れ、行動ラベル候補付き音響特徴量から、行動−音響イベントの生成モデルを算出する。同時に、行動の時間遷移を表す行動遷移モデルも算出してもよく、行動の分析も行ってもよい。すなわち本実施例では、音響信号に対応する音響特徴量を用いて音響イベントを決定し、それによって音響イベントラベル列を得てから学習処理を行い、行動−音響イベント生成モデルを生成する。なお、行動の時間遷移を表す行動遷移モデルも算出してもよく、行動の分析も行ってもよい。

図４に例示するように、本実施例のモデル処理装置１２０は、音響イベント判定部１１２、音響イベントモデルデータベース（ＤＢ）１１３、音響信号列合成部１０１、モデル化部１０２、および記憶部１０３を有する。モデル処理装置１２０は、例えば、汎用又は専用の公知のコンピュータに所定のプログラムが読み込まれることで構成される。

まず音響イベント判定部１１２に、行動ラベル候補付き音響特徴量列１６−１，・・・，１６−Ｓが入力される。各行動ラベル候補付き音響特徴量列１６−ｓ（ただし、ｓ∈｛１，・・・，Ｓ｝）は、時間区間ごとに区分された時系列の音響信号列、時間区間ごとに区分された音響信号列の各要素に対応する要素番号、長時間（数ｓｅｃ以上）ごとに決定されて時間区間ごとに付与された行動ラベル（「行動情報」に相当）、および音響信号列の時間区間ごとの音響特徴量列を含む。音響特徴量列の具体例は、実施例（１）−１−２で説明した通りである。

音響イベント判定部１１２は、入力された行動ラベル候補付き音響特徴量列１６−ｓの音響特徴量列と、音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルを、実施例（１）−１−２で説明したようにそれぞれ比較し、各フレーム（各要素番号ｉに対応）の音響特徴量列に対応する音響イベントを決定する。音響イベント判定部１１２は、各要素番号ｉに対して決定した音響イベントを表す音響イベントラベルを、行動ラベル候補付き音響特徴量列１６−ｓの各要素番号ｉの要素に付与する。音響イベント判定部１１２は、この処理を行動ラベル候補付き音響特徴量列１６−１，・・・，１６−Ｓのすべての要素（すべての要素番号ｉ）について行い、その結果得られる音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓを出力する。

音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓは、音響信号列合成部１０１に入力される。以降の処理は実施例（１）−１−１，（１）−１−２と同じである。

なお、音響信号列合成部１０１で音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓの合成処理を行うことに代えて、音響イベント判定部１１２の前段で音響特徴量列の合成処理を行っても良い。

＜実施例（１）−２−１：図５＞
［音響イベントラベル付き音響信号列から行動を推定］
実施例（１）−２−１では、実施例（１）−１−１〜（１）−１−３で説明したように得られた行動−音響イベント生成モデル１４および/または行動遷移モデル１７を用い、新たに入力された音響イベントラベル付き音響信号列から行動を推定する。

図５に例示するように、本実施例のモデル処理装置２００は、記憶部１０３および生成モデル比較部２０１を有する。モデル処理装置２００は、例えば、汎用又は専用の公知のコンピュータに所定のプログラムが読み込まれることで構成される。

まず生成モデル比較部２０１に音響イベントラベル付き音響信号列２１が入力される。音響イベントラベル付き音響信号列２１は、前述の時間区間ごとに区分された時系列の音響信号列、当該時間区間ごとに区分された音響信号列の各要素に対応する要素番号、および当該時間区間ごとに決定されて付与された音響イベントラベルを含む。要素番号および音響イベントラベルは、音響信号列の要素ごとに付与される。

生成モデル比較部２０１は、入力された音響イベントラベル付き音響信号列２１と、記憶部１０３に格納された行動−音響イベント生成モデル１４および/または行動遷移モデル１７とを比較し、音響イベントラベル付き音響信号列２１に対し、最も適切であると判断した行動、又は最も適切なものから順番に複数個の行動を決定し、それらを推定結果として出力する。以下に音響イベントラベル付き音響信号列２１と各生成モデルとの比較方法を例示する。

［比較方法の例（１）−１］
音響イベントラベル付き音響信号列２１が有する音響イベントの分布と、行動の候補に対応する確率Ｐ（音響イベント｜行動の候補）で表される音響イベントの分布との近さに基づいて、行動が推定されてもよい。また、前時刻からの行動の候補の遷移確率に基づいて、行動が推定されてもよい。なお、行動の探索範囲は予め定められたものであってもよいし、音響イベントラベル付き音響信号列２１がこの探索範囲を特定するための情報を含み、この情報によって探索範囲が定められてもよい。探索範囲を特定するための情報の例は、行動の候補を表す行動ラベル候補である。このような行動ラベル候補は、要素番号毎に設定されていてもよいし、複数の要素番号に対して共通であってもよい。この場合、探索範囲が適切に設定されていれば行動の推定精度が向上する。

音響イベントラベル付き音響信号列２１が有する音響イベントの分布と、行動の候補に対応する確率Ｐ（音響イベント｜行動の候補）で表される音響イベントの分布との近さに基づいて、行動が推定される例では、まず生成モデル比較部２０１が、入力された音響イベントラベル付き音響信号列２１から、以下のようにｐ（ε）（ただし、ε∈｛１，・・・，Ｅ｝）を算出する。

ただし、γは事前に設定された緩和パラメータ（例えば０．０１などの非負値）を表し、Ｃ_εは、音響イベントラベル付き音響信号列２１で音響イベントεを表す音響イベントラベルが付された要素の個数を表し、Ｎ_ｓ’は音響イベントラベル付き音響信号列２１が含む音響信号列の要素数を表す。Ｎ_ｓ’＝Ｎ_ｓであってもよいし、Ｎ_ｓ’≠Ｎ_ｓであってもよい。

次に生成モデル比較部２０１は、ｐ（ε）と行動−音響イベント生成モデル１４とを、下記に記すカルバックライブラー情報量（Kullback-Leibler divergence: KL divergence）やイェンセンシャノン情報量（Jensen-Shannon divergence: JS divergence）などの情報量基準に基づいて比較することで、入力された音響イベントラベル付き音響信号列２１に対応する行動を推定する。

式（１５）又は（１６）の例の場合、生成モデル比較部２０１は、Ｐ（ε）にｐ（ε）（ただし、ε∈｛１，・・・，Ｅ｝）を代入し、Ｑ（ε）に式（４）のφ_εａ（ただし、ε∈｛１，・・・，Ｅ），ａ∈｛１，・・・，Ａ｝）を代入する。これにより、生成モデル比較部２０１は、各行動の候補ａ∈｛１，・・・，Ａ｝に対応する情報量（合計Ａ個の情報量）を得る。行動の探索範囲が予め定められたものである場合にはＡは定数である。一方、行動の探索範囲が音響イベントラベル付き音響信号列２１に含まれる情報（行動ラベル候補等）によって特定される場合には、その探索範囲に属する行動の候補の総数がＡとなる。

生成モデル比較部２０１は、各行動ａ∈｛１，・・・，Ａ｝について算出された情報量のうち、最も小さな情報量に対応する行動、又は、最も小さな情報量から順番に選択した複数個の情報量に対応する複数個の行動を、音響イベントラベル付き音響信号列２１に対応する行動として決定して出力する。

生成モデル比較部２０１は、以下のように、行動遷移モデル１７が表す遷移確率π^ｘｉ-1 _ｘｉと前時刻（要素番号ｉ−１の時間区間）の行動推定結果ｘ_ｉ−１を利用して、現時刻（要素番号ｉの時間区間）の行動ｘ_ｉ＝ａを推定しても良い。

［比較方法の例（１）−２］
音響イベントラベル付き音響信号列２１が有する音響イベントの時系列の並びに対する、確率Ｐ（音響イベント｜行動の候補）のもとでの行動の候補の尤もらしさに基づいて、行動が推定されてもよい。また、音響イベントラベル付き音響信号列２１が有する音響イベントの時系列の並びに対する、確率Ｐ（音響イベント｜行動の候補）のもとでの行動の候補の尤もらしさおよび、前時刻からの行動の候補の遷移確率の両方に基づいて行動が推定されても良い。ここでも上述のように、行動の探索範囲は予め定められたものであってもよいし、音響イベントラベル付き音響信号列２１がこの探索範囲を特定するための情報（例えば、行動の候補を表す行動ラベル候補）を含み、この情報によって探索範囲が定められてもよい。

以下に具体例を示す。以下の例では、生成モデル比較部２０１が、入力されたラベル付き音響信号列２１に対し、行動−音響イベント生成モデル１４のもとでの行動の尤度の和や積を求める。

≪行動−音響イベント生成モデル１４のもとでの行動の尤度の和の例≫

≪行動−音響イベント生成モデル１４のもとでの行動の尤度の積の例≫

ただし、式（１７）および（１８）のｅ_ｉは、入力された音響イベントラベル付き音響信号列２１の要素番号ｉに対応する音響イベントラベルが表す音響イベントを表す。式（１７）および（１８）は、式（４）のφ_εａと、入力された音響イベントラベル付き音響信号列２１のｅ_ｉとから算出できる。

行動の探索範囲が予め定められたものである場合には、その探索範囲に属する各行動の候補ａについて上記の尤度が算出され、行動の探索範囲が音響イベントラベル付き音響信号列２１に含まれる情報（行動ラベル候補等）によって特定される場合には、その探索範囲に属する各行動の候補ａについて上記の尤度が算出される。生成モデル比較部２０１は、各行動の候補ａについて算出した尤度のうち、最も尤度の高い行動の候補、又は、最も尤度の高いものから順番に選択した複数個の行動の候補を、入力された音響イベントラベル付き音響信号列２１に対応する行動として決定して出力する。

生成モデル比較部２０１は、以下のように、行動−音響イベント生成モデル１４のもとでの行動の尤度の和や積および、行動遷移モデル１７が表す遷移確率π^ｘｉ-1 _ｘｉと前時刻（要素番号ｉ−１の時間区間）の行動推定結果ｘ_ｉ−１を利用して、現時刻（要素番号ｉの時間区間）の行動ｘ_ｉ＝ａを推定しても良い。

≪行動−音響イベント生成モデル１４のもとでの行動の尤度の和および、行動遷移モデル１７と前時刻の行動推定結果を利用する場合の例≫

≪行動−音響イベント生成モデル１４のもとでの行動の尤度の積および、行動遷移モデル１７と前時刻の行動推定結果を利用する場合の例≫

＜実施例（１）−２−２：図６＞
［音響信号列から行動を推定］
本実施例では、実施例（１）−１−１〜（１）−１−３で説明したように得られた行動−音響イベント生成モデル１４および/または行動遷移モデル１７を用い、新たに入力された音響信号列から行動を推定する。

図６に例示するように、本実施例のモデル処理装置２１０は、特徴量算出部２１１、音響イベント判定部２１２、音響イベントモデルＤＢ１１３、記憶部１０３、生成モデル比較部２０１を有する。モデル処理装置２１０は、例えば、汎用又は専用の公知のコンピュータに所定のプログラムが読み込まれることで構成される。

まず特徴量算出部２１１に音響信号列２２が入力される。音響信号列２２は、時間区間ごとに区分された時系列の音響信号列、および時間区間ごとに区分された音響信号列の各要素に対応する要素番号を含む。

特徴量算出部２１１は、音響信号列２２から音響特徴量列（ベクトル）を算出して出力する。例えば特徴量算出部２１１は、前述した特徴量算出部１１１と同じ方法で音響特徴量列を算出する。

音響イベント判定部２１２は、前述した音響イベント判定部１１２と同じ方法で、特徴量算出部２１１から出力された音響特徴量列と、音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとをそれぞれ比較し、音響信号列２２の全ての要素について音響イベントを決定する。音響イベント判定部２１２は、決定した音響イベントを表す音響イベントラベルを音響信号列２２の各要素に付することで、音響イベントラベル付き音響信号列２１を生成して出力する。

音響イベントラベル付き音響信号列２１は、生成モデル比較部２０１に入力される。以降の処理は実施例（１）−２−１と同じである。

＜実施例（１）−２−３：図７＞
[音響特徴量から行動を推定]
本実施例では、実施例（１）−１−１〜（１）−１−３で説明したように得られた行動−音響イベント生成モデル１４および/または行動遷移モデル１７を用い、新たに入力された音響特徴量列から行動を推定する。

図７に例示するように、本実施例のモデル処理装置２２０は、音響イベント判定部２１２、音響イベントモデルＤＢ１１３、記憶部１０３、生成モデル比較部２０１を有する。モデル処理装置２２０は、例えば、汎用又は専用の公知のコンピュータに所定のプログラムが読み込まれることで構成される。

まず音響イベント判定部２１２に音響特徴量列２３が入力される。音響特徴量列２３は、時間区間ごとに区分された時系列の音響信号列、当該時間区間ごとに区分された音響信号列の各要素に対応する要素番号、および音響信号列の音響特徴量列を含む。音響特徴量列の具体例は、実施例（１）−１−２で説明した通りである。

音響イベント判定部２１２は、前述した音響イベント判定部１１２と同じ方法で、音響特徴量列２３の音響特徴量列と、音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとをそれぞれ比較し、音響特徴量列２３が含む音響信号列の全ての要素について音響イベントを決定する。音響イベント判定部２１２は、決定した各要素の音響イベントを表す音響イベントラベルを、音響特徴量列２３が含む音響信号列に付することで、音響イベントラベル付き音響信号列２１を生成して出力する。

＜実施例（１）−３−１：図８＞
［音響イベントラベル付き音響信号列から行動を推定すると共に、音響イベントラベルおよび行動ラベル候補付き音響信号列から行動−音響イベント生成モデルおよび行動遷移モデルを算出］
本実施例は、実施例（１）−１−１と実施例（１）−２−１との組み合わせである。本実施例では、音響イベントラベル付き音響信号列２１を入力として行動を推定することに加え、音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓを入力とし、行動−音響イベント生成モデル１４の生成も行う。さらに行動遷移モデル１７や行動ラベル１８の生成を行ってもよい。さらに、推定結果である行動を表す行動ラベル候補を、音響イベントラベル付き音響信号列２１が含む音響信号列の各要素に付与することで、音響イベントラベルおよび行動ラベル候補付き音響信号列を得、それを生成モデルの更新に利用することもできる。

図８に例示するように、本実施例のモデル処理装置３００は、記憶部１０３，３０３、音響信号列合成部１０１、モデル化部１０２、および生成モデル比較部２０１を有する。モデル処理装置３００は、例えば、汎用又は専用の公知のコンピュータに所定のプログラムが読み込まれることで構成される。

記憶部３０３には、前述した音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓ、および前述した音響イベントラベル付き音響信号列２１が格納されている。

音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓは音響信号列合成部１０１に入力される。音響信号列合成部１０１およびモデル化部１０２は、実施例（１）−１−１で説明したように、音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓから行動−音響イベント生成モデル１４を生成し、それを記憶部１０３に格納する。また、実施例（１）−１−１で説明したように、モデル化部１０２が行動遷移モデル１７を生成して記憶部１０３に格納してもよいし、行動ラベル１８を生成して記憶部１０３に格納してもよい。

音響イベントラベル付き音響信号列２１は生成モデル比較部２０１に入力される。音響イベントラベル付き音響信号列２１は、実施例（１）−２−１で説明したように、入力された音響イベントラベル付き音響信号列２１と、記憶部１０３に格納された行動−音響イベント生成モデル１４および/または行動遷移モデル１７とを比較し、音響イベントラベル付き音響信号列２１に対し、最も適切であると判断した行動、又は最も適切なものから順番に複数個の行動を選択し、それらを推定結果として出力する。

さらに生成モデル比較部２０１は、決定した行動を表す行動ラベル候補を、音響イベントラベル付き音響信号列２１の対応する各要素に付与し、それによって新たな音響イベントラベルおよび行動ラベル候補付き音響信号列２１’を生成して出力してもよい。この場合、音響イベントラベルおよび行動ラベル候補付き音響信号列２１’が、音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓとともに音響信号列合成部１０１に入力されてもよい。この場合、音響信号列合成部１０１は、入力されたすべての音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓ，２１’を時系列方向につなぎ合わせ（合成）、それによって一つの音響イベントラベルおよび行動ラベル候補付き音響信号列１１’（「第３音響イベントラベル列」および「第３行動ラベル候補」）を得て出力する。モデル化部１０２は、実施例（１）−１−１のラベル付き音響信号列１１（「音響イベントラベル列」および「行動ラベル候補」）に代えて、音響イベントラベルおよび行動ラベル候補付き音響信号列１１’（「第３音響イベントラベル列」および「第３行動ラベル候補」）を用い、再度、実施例（１）−１−１で説明したように、行動−音響イベント生成モデル１４を生成し、それを記憶部１０３に格納する。さらにモデル化部１０２が、ラベル付き音響信号列１１に代えて、入力された音響イベントラベルおよび行動ラベル候補付き音響信号列１１’を用い、再度、実施例（１）−１−１で説明したように、行動遷移モデル１７を生成して記憶部１０３に格納してもよいし、行動ラベル１８を生成して記憶部１０３に格納してもよい。

また、生成モデル比較部２０１の処理およびモデル化部１０２の処理のどちらを先に行っても良い。ただし、モデル化部１０２の処理を行う前に生成モデル比較部２０１の処理を行う場合、記憶部１０３に予め得られた行動−音響イベント生成モデル１４および/または行動遷移モデル１７が格納されている必要がある。

また、音響イベントラベルおよび行動ラベル候補付き音響信号列２１’が、新たに入力された音響イベントラベルおよび行動ラベル候補付き音響信号列とともに音響信号列合成部１０１に入力されてもよい。音響信号列合成部１０１は、これらを時系列方向につなぎ合わせ（合成）、それによって一つの音響イベントラベルおよび行動ラベル候補付き音響信号列（「第３音響イベントラベル列」および「第３行動ラベル候補」）を得て、モデル化部１０２に送出し、モデル化部１０２が上述の処理を行ってもよい。
その他の処理は実施例（１）−１−１および実施例（１）−２−１と同じである。

＜実施例（１）−３−２：図９＞
［音響信号列から行動を推定すると共に、行動ラベル候補付き音響信号列から行動−音響イベント生成モデルおよび行動遷移モデルを算出］
本実施例は実施例（１）−１−２と実施例（１）−２−２の組み合わせである。
本実施例では、行動ラベル候補付き音響信号列１５−１，・・・，１５−Ｓを入力として、学習によって、行動−音響イベント生成モデル１４を算出する。さらに行動遷移モデル１７や行動ラベル１８の生成を行ってもよい。さらに本実施例では、行動−音響イベント生成モデル１４および/または行動遷移モデル１７を用い、新たに入力された音響信号列２２から行動を推定する。

図９に例示するように、本実施例のモデル処理装置３１０は、特徴量算出部１１１−１，・・・，１１１−Ｓ，２１１、音響イベント判定部１１２−１，・・・，１１２−Ｓ，２１２、音響イベントモデルＤＢ１１３、および実施例（１）−３−１のモデル処理装置３００（図８参照）を有する。

行動ラベル候補付き音響信号列１５−１，・・・，１５−Ｓは、それぞれ特徴量算出部１１１−１，・・・，１１１−Ｓに入力される。特徴量算出部１１１−１，・・・，１１１−Ｓは、実施例（１）−１−２で説明したように、行動ラベル候補付き音響信号列１５−１，・・・，１５−Ｓから、それぞれ音響特徴量列を得て出力する。音響イベント判定部１１２−１，・・・，１１２−Ｓは、それぞれ、前述の音響イベント判定部１１２と同様に、入力された音響特徴量列と音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとから、音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓを生成して出力する。

音響信号列２２は特徴量算出部２１１に入力される。特徴量算出部２１１は、実施例（１）−２−２で説明したように、音響信号列２２から音響特徴量列（ベクトル）を算出して出力する。音響イベント判定部２１２は、実施例（１）−２−２で説明したように、入力された音響特徴量列と音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとから、音響イベントラベル付き音響信号列２１を生成して出力する。

音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓ、音響イベントラベル付き音響信号列２１は、記憶部３０３（図８）に格納される。以降の処理は実施例（１）−３−１と同じである。

＜実施例（１）−３−３：図１０＞
［音響特徴量から行動を推定すると共に、行動ラベル候補付き音響信号列から行動−音響イベント生成モデルおよび行動遷移モデルを算出］
本実施例は実施例（１）−１−３と実施例（１）−２−３との組み合わせである。
本実施例では、行動ラベル候補付き音響特徴量列１６−１，・・・，１６−Ｓを入力として、学習によって、行動−音響イベント生成モデル１４を算出する。行動遷移モデル１７や行動ラベル１８の生成を行ってもよい。さらに本実施例では、行動−音響イベント生成モデル１４を用い、新たに入力された音響特徴量列２３から行動を推定する。

図１０に例示するように、本実施例のモデル処理装置３２０は、音響イベント判定部１１２−１，・・・，１１２−Ｓ，２１２、音響イベントモデルＤＢ１１３、および前述のモデル処理装置３００（図８参照）を有する。

行動ラベル候補付き音響特徴量列１６−１，・・・，１６−Ｓは、それぞれ音響イベント判定部１１２−１，・・・，１１２−Ｓに入力される。音響イベント判定部１１２−１，・・・，１１２−Ｓは、それぞれ、前述の音響イベント判定部１１２と同様に、行動ラベル候補付き音響特徴量列１６−１，・・・，１６−Ｓの音響特徴量列と音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとから、音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓを生成して出力する。

音響特徴量列２３は音響イベント判定部２１２に入力される。音響イベント判定部２１２は、実施例（１）−２−３と同様に、入力された音響特徴量列２３の音響特徴量列と音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとから、音響イベントラベル付き音響信号列２１を生成して出力する。

＜実施例（１）−４−１：図１１＞
［音響イベントラベル付き音響信号列から行動を推定すると共に、音響イベントラベルおよび行動ラベル候補付き音響信号列から行動−音響イベント生成モデルおよび行動遷移モデルを算出。特別なシンボルを用いる］
本実施例は実施例（１）−３−１の変形である。
本実施例では、音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓ、および音響イベントラベル付き音響信号列２１を入力とし、行動−音響イベント生成モデル１４を算出する。行動遷移モデル１７や行動ラベル１８の生成を行ってもよい。さらに、音響イベントラベル付き音響信号列２１に対応する行動を推定する。さらに、推定された行動を表す行動ラベル候補を、音響イベントラベル付き音響信号列２１が含む音響信号列の各要素に付与することで、音響イベントラベルおよび行動ラベル候補付き音響信号列を得、それを生成モデルの更新に利用することもできる。

図１１に例示するように、本実施例のモデル処理装置４００は、記憶部１０３、３０３、音響信号列合成部４０１、モデル化部４０２、および生成モデル比較部４０３を有する。モデル処理装置４００は、例えば、汎用又は専用の公知のコンピュータに所定のプログラムが読み込まれることで構成される。

音響信号列合成部４０１に、音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓおよび音響イベントラベル付き音響信号列２１が入力される。音響信号列合成部４０１は、音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓ、音響イベントラベル付き音響信号列２１を時系列方向につなぎ合わせ、それによって１つの音響イベントラベルおよび行動ラベル候補付き音響信号列４１（以下、単に「ラベル付き音響信号列４１」という）を得て出力する。ここで前述のように、音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓは、行動ラベル候補によって行動の候補が表された音響イベント（第４音響イベント）の時系列の並びを含む。一方、音響イベントラベル付き音響信号列２１は、行動ラベル候補によって行動の候補が表されていない音響イベント（第５音響イベント）の時系列の並びを含む。したがって、ラベル付き音響信号列４１が含む音響イベントの時系列の並びは、行動ラベル候補によって行動の候補が表された第４音響イベントの時系列の並び、および行動ラベル候補によって行動の候補が表されていない第５音響イベントの時系列の並びを含む。ラベル付き音響信号列４１は、モデル化部４０２に入力される。なお、予め、音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓ、音響イベントラベル付き音響信号列２１からラベル付き音響信号列４１が得られている場合には、音響信号列合成部４０１を経由することなく、ラベル付き音響信号列４１がそのままモデル化部４０２に入力されてもよい。

モデル化部４０２は、実施例（１）−１−１のラベル付き音響信号列１１に代えて、入力されたラベル付き音響信号列４１を用い、実施例（１）−１−１のモデル化部１０２と同じ方法で、行動−音響イベント生成モデル１４を算出する。行動遷移モデル１７や行動ラベル１８の生成を行ってもよい。ただし、モデル化部４０２は、上述の「第５音響イベント」を生じさせた行動の候補として特別なシンボルを用いて学習処理を行う。すなわちモデル化部４０２は、この特別なシンボルを一つの独立した特別な行動ラベル候補とみなす。この特別な行動ラベル候補は、一般的な何れの行動（料理、掃除など）を表すものでもない。例えば、この特別な行動ラベル候補が、「行動の候補が未知であること」を表してもよい。

すなわちモデル化部４０２は、行動の候補が音響イベントを生成する確率Ｐ（音響イベント｜行動の候補）、およびこの特別なシンボルが音響イベントを生成する確率Ｐ（音響イベント｜特別なシンボル）を得、それらに対応する行動−音響イベント生成モデル１４を得る。行動−音響イベント生成モデル１４は、記憶部１０３に格納される。行動遷移モデル１７や行動ラベル１８の生成を行った場合には、それらも記憶部１０３に格納される。

生成モデル比較部４０３には、行動−音響イベント生成モデル１４および/または行動遷移モデル１７が入力される。生成モデル比較部４０３は、入力された行動−音響イベント生成モデル１４に対応する、確率Ｐ（音響イベント｜行動の候補）と確率Ｐ（音響イベント｜特別なシンボル）とを比較し、特別なシンボルに対応する行動の内容を推定し、それらの推定結果を出力する。また、生成モデル比較部４０３は、入力された行動遷移モデル１７に対応する、遷移確率Ｐ（現時刻の行動の候補｜前時刻の行動の候補）と遷移確率Ｐ（特別なシンボル｜前時刻の行動の候補）とを比較し、特別なシンボルに対応する行動の内容を推定し、それらの推定結果を出力してもよい。例えば、生成モデル比較部４０３は、音響イベントラベル付き音響信号列２１に対し、最も適切であると判断した行動、又は最も適切なものから順番に複数個の行動を選択し、それらを推定結果として出力する。

［比較方法の例示］
生成モデル比較部４０３による比較は、例えば、実施例（１）−２−１で説明した情報量基準に基づいて行うことができる。例えば、式（１５）又は（１６）の情報量基準を用い、確率Ｐ（音響イベント｜行動の候補）と確率Ｐ（音響イベント｜特別なシンボル）とを比較する場合、生成モデル比較部４０３は、Ｐ（ε）に式（４）のφ_εａのうち特別なシンボルａ’∈｛１，・・・，Ａ｝に対応するφ_εａ’（ただし、ε∈｛１，・・・，Ｅ）｝を代入し、Ｑ（ε）に他の行動の候補ａ’’≠ａ’（ただし、ａ’’∈｛１，・・・，Ａ｝）に対応するφ_εａ’’（ただし、ε∈｛１，・・・，Ｅ））を代入する。遷移確率Ｐ（現時刻の行動の候補｜前時刻の行動の候補）と遷移確率Ｐ（特別なシンボル｜前時刻の行動の候補）とを比較する場合、生成モデル比較部４０３は、Ｐ（ε）に特別なシンボルａ’に対応するＰ（ｘ_ｉ＝ａ’｜ｘ_ｉ−１，π^ｘｉ−１ _ｘｉ）を代入し、Ｑ（ε）に他の行動の候補ａ’’≠ａ’に対応するＰ（ｘ_ｉ＝ａ’’｜ｘ_ｉ−１，π^ｘｉ−１ _ｘｉ）を代入する。

これにより、生成モデル比較部４０３は、他の行動ａ’’≠ａ’（ただし、ａ’’∈｛１，・・・，Ａ｝）に対応する情報量（合計Ａ−１個の情報量）を得る。生成モデル比較部４０３は、各行動ａ’’について算出された情報量のうち、最も小さな情報量に対応する行動の候補、又は、最も小さな情報量から順番に選択した複数個の情報量に対応する複数個の行動の候補を、音響イベントラベル付き音響信号列２１に対応する行動として決定して出力する。

生成モデル比較部４０３は、以上のように決定した行動を表す行動ラベル候補を、音響イベントラベル付き音響信号列２１の対応する各要素に付与し、それによって新たな音響イベントラベルおよび行動ラベル候補付き音響信号列４１’を生成して出力してもよい。この場合、音響イベントラベルおよび行動ラベル候補付き音響信号列４１’が、音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓとともに音響信号列合成部４０１に入力されてもよい。この場合、音響信号列合成部４０１は、入力されたすべての音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓ，４１’を時系列方向につなぎ合わせ（合成）、それによって一つの音響イベントラベルおよび行動ラベル候補付き音響信号列４１’’を得て出力する。モデル化部４０２は、実施例（１）−１−１のラベル付き音響信号列１１に代えて、音響イベントラベルおよび行動ラベル候補付き音響信号列４１’’を用い、再度、実施例（１）−１−１で説明したように、行動−音響イベント生成モデル１４を生成し、それを記憶部１０３に格納する。さらにモデル化部４０２が、入力された音響イベントラベルおよび行動ラベル候補付き音響信号列４１’’を用い、再度、実施例（１）−１−１で説明したように、行動遷移モデル１７を生成して記憶部１０３に格納してもよいし、行動ラベル１８を生成して記憶部１０３に格納してもよい。

また、音響イベントラベルおよび行動ラベル候補付き音響信号列２１’が、新たに入力された音響イベントラベルおよび行動ラベル候補付き音響信号列とともに音響信号列合成部４０１に入力されてもよい。音響信号列合成部４０１は、これらを時系列方向につなぎ合わせ（合成）、それによって一つの音響イベントラベルおよび行動ラベル候補付き音響信号列を得て、モデル化部４０２に送出し、モデル化部１０２が上述の処理を行ってもよい。
その他の処理は実施例（１）−１−１、実施例（１）−２−１、および実施例（１）−３−１と同じである。

＜実施例（１）−４−２：図９＞
［音響信号列から行動を推定すると共に、行動ラベル候補付き音響信号列から行動−音響イベント生成モデルおよび行動遷移モデルを算出。特別なシンボルを用いる］
本実施例は実施例（１）−３−２の変形である。
本実施例では、行動ラベル候補付き音響信号列１５−１，・・・，１５−Ｓおよび音響信号列２２を入力として、学習によって、行動−音響イベント生成モデル１４を算出する。さらに行動遷移モデル１７や行動ラベル１８の生成を行ってもよい。さらに本実施例では、行動−音響イベント生成モデル１４を用い、音響信号列２２に対応する行動を推定する。

図９に例示するように、本実施例のモデル処理装置４１０は、特徴量算出部１１１−１，・・・，１１１−Ｓ，２１１、音響イベント判定部１１２−１，・・・，１１２−Ｓ，２１２、音響イベントモデルＤＢ１１３、および実施例（１）−４−１のモデル処理装置４００（図１１参照）を有する。

音響信号列２２は特徴量算出部２１１に入力される。特徴量算出部２１１および音響イベント判定部２１２は、実施例（１）−２−２で説明したように、音響信号列２２から音響特徴量列（ベクトル）を算出して出力する。音響イベント判定部２１２は、実施例（１）−２−２で説明したように、入力された音響特徴量列と音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとから、音響イベントラベル付き音響信号列２１を生成して出力する。

音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓ、音響イベントラベル付き音響信号列２１は、記憶部３０３（図１１）に格納される。以降の処理は実施例（１）−３−１と同じである。

＜実施例（１）−４−３：図１０＞
［音響特徴量から行動を推定すると共に、行動ラベル候補付き音響信号列から行動−音響イベント生成モデルおよび行動遷移モデルを算出。特別なシンボルを用いる］
本実施例は実施例（１）−３−３の変形である。
本実施例では、行動ラベル候補付き音響特徴量列１６−１，・・・，１６−Ｓおよび音響特徴量列２３を入力として、学習によって、行動−音響イベント生成モデル１４を算出する。行動遷移モデル１７や行動ラベル１８の生成を行ってもよい。さらに本実施例では、行動−音響イベント生成モデル１４を用い、音響特徴量列２３に対応する行動を推定する。

図１０に例示するように、本実施例のモデル処理装置４２０は、音響イベント判定部１１２−１，・・・，１１２−Ｓ，２１２、音響イベントモデルＤＢ１１３、および前述のモデル処理装置４００（図１１参照）を有する。

行動ラベル候補付き音響特徴量列１６−１，・・・，１６−Ｓは、それぞれ音響イベント判定部１１２−１，・・・，１１２−Ｓに入力される。音響イベント判定部１１２−１，・・・，１１２−Ｓは、それぞれ、前述の音響イベント判定部１１２と同様に、入力された音響特徴量列と音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとから、音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓを生成して出力する。

音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓ、音響イベントラベル付き音響信号列２１は、記憶部３０３（図１１）に格納される。以降の処理は実施例（１）−４−１と同じである。

＜実施例（２）−１−１：図１２＞
［行動の時間変化および/または状況の時間変化を考慮に入れ、音響イベントラベルおよび行動ラベル候補付き音響信号から行動−音響イベント生成モデル、状況−音響イベント生成モデル、行動−状況生成モデル、および行動遷移モデルを算出し、同時に、行動や状況を分析］
本実施例では、行動の時間変化および/または状況の時間変化を考慮に入れ、音響イベントラベルおよび行動ラベル候補付き音響信号から、状況−音響イベント生成モデルを算出する。同時に、行動−状況生成モデルを算出してもよく、行動−音響イベント生成モデルを算出してもよく、行動の時間遷移を表す行動遷移モデルを算出してもよく、状況の時間遷移を表す状況遷移モデルを算出してもよく、行動や状況の分析も行ってもよい。

すなわち、本実施例では、各時間区間の音響信号を生じさせた音響イベントの時系列の並びを表す音響イベントラベル列、音響イベントを生じさせた行動の候補を表す行動ラベル候補、および音響イベントを生じさせた状況の候補の総数を用い、「音響イベントの時系列の並びにおける、行動の候補に対応する音響イベントの組み合わせと行動の候補の時系列の並びおよび/または状況の時系列の並びと行動の候補に対応する状況の候補の組み合わせとの同時事後確率」を最大化するための処理を行う学習処理を行う。例えば、この学習処理は、行動の時間遷移/または状況の時間遷移に基づく行動または状況の出現確率および、行動または状況による音響イベントの出現確率に基づいて、音響イベントの時系列の並びにおける、行動の候補に対する音響イベントの組み合わせと行動の候補の時系列の並びと行動に対する状況の候補の組み合わせとの同時事後確率を最大化するための処理である。例えば、音響イベントの時系列の並びからなる音響イベントの組み合わせに対する尤度関数Ｐ（音響イベントの組み合わせ｜行動の候補の時系列の並びおよび/または状況の時系列の並び，行動の候補に対応する状況の候補の組み合わせ）を最大にする処理が行われる。それにより、状況の候補が音響イベントを生成する確率Ｐ（音響イベント｜状況の候補）を「状況−音響イベント生成モデル」として得る。また、この学習処理によって、行動の候補が状況の候補を生成する確率Ｐ（状況の候補｜行動の候補）を「行動−状況生成モデル」として得てもよいし、行動の候補が音響イベントを生成する確率Ｐ（音響イベント｜行動の候補）を「行動−音響イベント生成モデル」として得てもよいし、行動の候補の時系列の遷移確率を「行動遷移モデル」として得てもよいし、状況の候補の時系列の遷移確率を「状況遷移モデル」として得てもよい。なお「状況遷移モデル」とは、状況の候補の時系列の遷移確率である。状況遷移モデルの例は、ラベル付き音響信号列１１に付与されたすべての行動ラベル候補を対象とした遷移確率π’^zｉ−１ _zｉを（z_ｉ−１，z_ｉ）要素とするＴ×Ｔ行列である。ただし、遷移確率π’^zｉ−１ _zｉは、前時刻での状況の候補ｚ_ｉ−１（要素番号ｉ−１での状況の候補）から現時刻での状況の候補ｚ_ｉ（要素番号ｉでの状況の候補）への遷移確率を表し、π’^ｚｉ−１ _ｚｉの上付き「ｚｉ−１」はｚ_ｉ−１を表し、下付き「ｚｉ」はｚ_ｉを表し、Ｔは状況の候補の総数（状況の候補の種類の個数）を表す。さらに、この学習処理の過程で何れかの行動の候補を選択し、各音響イベントがどの行動によって生成されたのかを分析してもよい。この場合には選択した行動の候補を表す行動ラベルを出力してもよい。またさらに、この学習処理の過程で何れかの状況の候補を選択し、各音響イベントがどの状況によって生成されたのかを分析してもよい。この場合には選択した状況の候補を表す状況ラベルを出力してもよい。なお「状況の候補の総数」は、音響イベントラベル列とともに入力される値であってもよいし、予め定められた定数であってもよい。

図１２に例示するように、本実施例のモデル処理装置１００は、音響信号列合成部１０１、モデル化部１１０２、および記憶部１１０３を有する。モデル処理装置１００は、例えば、汎用又は専用の公知のコンピュータに所定のプログラムが読み込まれることで構成される。

まず音響信号列合成部１０１に、音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓ（ただし、Ｓは１以上の整数）が入力される。図１３に例示するように、音響イベントラベルおよび行動ラベル候補付き音響信号列１１−ｓ（ただし、ｓ＝１，・・・，Ｓ）は、前述の時間区間ごとに区分された時系列の音響信号列、当該時間区間ごとに区分された音響信号列の各要素に対応する要素番号ｉ（ただし、ｉ＝１，・・・，Ｎ_ｓ、Ｎ_ｓは正整数）、当該時間区間ごとに決定されて付与された音響イベントラベル、当該時間区間ごとに付与された行動ラベル候補、および響イベントラベルおよび行動ラベル候補付き音響信号列１１−ｓに対応する音響信号列番号ｓを含む。上記時間区間ごとに複数個の行動ラベル候補が付与されてもよいし（例えば、図１３の音響信号列番号１−要素番号１の時間区間）、単一の行動ラベル候補が付与されてもよい（例えば、図１３の音響信号列番号２−要素番号１の時間区間）。

複数個の音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓ（以下、単に「ラベル付き音響信号列１１−１，・・・，１１−Ｓ」という）が音響信号列合成部１０１に入力された場合、音響信号列合成部１０１は、それらを時系列方向につなぎ合わせ、それによって１つの音響イベントラベルおよび行動ラベル候補付き音響信号列１１（以下、単に「ラベル付き音響信号列１１」という）を得て出力する（合成処理）。音響信号列合成部１０１に１つの音響信号列１１−１のみが入力された場合、音響信号列合成部１０１はそれをラベル付き音響信号列１１として出力する。音響信号列合成部１０１から出力された音響イベントラベルおよび行動ラベル候補付き音響信号列は、モデル化部１１０２に入力される。なお、音響信号列合成部１０１を経由することなく、１つラベル付き音響信号列１１がそのままモデル化部１１０２に入力されてもよい。

モデル化部１１０２は、以下の手順に従って、入力されたラベル付き音響信号列１１から、行動−状況生成モデル１２、状況−音響イベント生成モデル１３、および行動−音響イベント生成モデル１４の少なくとも何れかを生成し、それらを記憶部１１０３に格納する。モデル化部１０２は、行動遷移モデル１７を生成してもよいし、状況遷移モデルを生成してもよいし、行動ラベル１８を生成してもよいし、状況ラベル１９を生成してもよい。生成された行動遷移モデル１７や状況遷移モデルや行動ラベル１８や状況ラベル１９も記憶部１１０３に格納される。

［行動から音響イベントが生成される過程の論理的説明］
モデル化部１１０２は、ラベル付き音響信号列１１から、行動の候補が状況の候補を生成する確率Ｐ（状況の候補｜行動の候補）としたときの行動−状況生成モデル１２と、状況の候補が音響イベントを生成する確率Ｐ（音響イベント｜状況の候補）としたときの状況−音響イベント生成モデル１３と、行動の候補が音響イベントを生成する確率Ｐ（音響イベント｜行動の候補）としたときの行動−音響イベント生成モデル１４との少なくとも何れかを算出する。つまり本実施例では、行動の候補が状況の候補の生成確率を規定し、状況の候補が音響イベントの生成確率を規定すると考え（つまり、間接的に行動の候補が音響イベントの生成確率を規定するとも考えられる）、これらの関係を各生成モデルとして記述する。また、行動の候補の時系列の遷移確率を算出し、行動遷移モデル１７を得てもよい。

状況の候補における音響イベントの生成確率Φ’、ラベル付き音響信号列１１が有する行動ラベル候補が表す行動の候補のすべてからなる集合Ω、行動ラベル候補が表す行動の候補における状況の候補の生成確率Θ、および行動ラベル候補が表す行動の候補の遷移確率Πおよび／または状況の候補の遷移確率Π’が与えられた場合における、音響イベントの列ｅの生成確率Ｐ（ｅ｜Π，Θ，Φ’，Ω），Ｐ（ｅ｜Π’，Θ，Φ’，Ω），Ｐ（ｅ｜Π，Π’，Θ，Φ’，Ω）は以下の通りである。

ただし、Ａは行動の候補の総数、Ｔは状況の候補の総数（状況の候補の種類の個数）、Ｅは音響イベントの種類の個数、ｅはラベル付き音響信号列１１に与えられた音響イベントの列（ベクトル）、Πは各時間区間の行動の候補ａ（ただし、ａ∈｛１，・・・，Ａ｝）が次の時間区間で行動の候補ａ’（ただし、ａ’∈｛１，・・・，Ａ｝）に遷移する確率を（ａ，ａ’）要素とするＡ×Ａ行列、Π’は各時間区間の状況の候補ｔ（ただし、ｔ∈｛１，・・・，Ｔ｝）が次の時間区間で行動の候補ｔ’（ただし、ｔ’∈｛１，・・・，Ｔ｝）に遷移する確率を（ｔ，ｔ’）要素とするＴ×Ｔ行列、Θは行動の候補ａ（ただし、ａ∈｛１，・・・，Ａ｝）が状況の候補ｔ（ただし、ｔ∈｛１，・・・，Ｔ｝）を生成する確率Ｐ（ｔ｜ａ）を（ａ，ｔ）要素とするＡ×Ｔ行列、Φ’は状況の候補ｔ（ただし、ｔ∈｛１，・・・，Ｔ｝）が音響イベントε（ただし、ε∈｛１，・・・，Ｅ｝）を生成する確率Ｐ（ε｜ｔ）を（ｔ，ε）要素とするＴ×Ｅ行列、Ωは各音響信号列がとり得る行動ラベル候補を音響信号列分並べて列とした、集合のベクトル、ｅ’_ｓは各ラベル付き音響信号列１１−ｓに与えられた音響イベントの列（Ｎ_ｓ次元ベクトル：Ｎ_ｓはラベル付き音響信号列１１−ｓに対応する音響イベントの個数）、ａ_ｓはラベル付き音響信号列１１−ｓに付与され得る行動の集合、Ｓはラベル付き音響信号列１１を構成するラベル付き音響信号列１１−ｓの個数を表す。なお、Ωとａ_ｓの関係は以下のように表される。
Ω＝[ａ_１,ａ_２,…,ａ_ｓ,…,ａ_Ｓ］

行動の候補の集合ａ_ｓ、行動の候補ａの遷移確率π_ａの事前分布のパラメータ（Ｄｉｒｉｃｈｌｅｔ分布に従うものとする）γ、行動の候補ａにおける状況の候補ｔの生成確率θ_ａの事前分布のパラメータ(Ｄｉｒｉｃｈｌｅｔ分布に従うものとする)α、状況の候補ｔにおける音響イベントεの生成確率φ_ｔの事前分布のパラメータ（Ｄｉｒｉｃｈｌｅｔ分布に従うものとする）β’が与えられたときの、音響イベントの列ｅ’_ｓの生成確率Ｐ（ｅ’_ｓ，Π，Θ，Φ’｜γ，α，β’，Ω）、行動の候補の集合ａ_ｓ、状況の候補ｔの遷移確率π’_ｔの事前分布のパラメータ（Ｄｉｒｉｃｈｌｅｔ分布に従うものとする）γ’、パラメータα，β’が与えられたときの、音響イベントの列ｅ’_ｓの生成確率Ｐ（ｅ’_ｓ，Π’，Θ，Φ’｜γ’，α，β’，Ω）、および行動の候補の集合ａ_ｓ、パラメータγ，γ’，α，β’が与えられたときの、音響イベントの列ｅ’_ｓの生成確率Ｐ（ｅ’_ｓ，Π，Π’，Θ，Φ’｜γ，γ’，α，β’，Ω）は、以下の通りである。

ただし、ｅ_ｉはラベル付き音響信号列１１−ｓの要素番号ｉに対応する音響イベント、Ｎ_ｓはラベル付き音響信号列１１−ｓに対応する要素数（要素番号ｉの最大値）、ｚ_ｉはラベル付き音響信号列１１−ｓの要素番号ｉに対応する音響信号が表状況の候補、ｘ_ｉはラベル付き音響信号列１１−ｓの要素番号ｉに対応する行動ラベル候補が表す行動の候補、π^ｘｉ−１ _ｘｉはラベル付き音響信号列１１−ｓの要素番号ｉ−１に対応する行動ラベル候補が表す行動の候補ｘ_ｉ−１から要素番号ｉに対応する行動ラベル候補が表す行動の候補ｘ_ｉへの遷移確率を表す。また、φ_ｔは状況の候補ｔが音響イベントε（ただし、ε∈｛１，・・・，Ｅ｝）を生成する確率Ｐ（ε｜ｔ）をε番目の要素とするＥ次元ベクトルを表す。θ_ａは行動の候補ａが状況の候補ｔ（ただし、ｔ∈｛１，・・・，Ｔ｝）を生成する確率Ｐ（ｔ｜ａ）をｔ番目の要素とするＴ次元ベクトルを表す。

［生成モデルの算出過程の説明］
モデル化部１１０２は、入力されたラベル付き音響信号列１１から、状況の候補が音響イベントを生成する確率Ｐ（音響イベント｜状況の候補）を算出し、それを状況−音響イベント生成モデル１３として記憶部１１０３に格納する。モデル化部１１０２は、行動の候補が状況の候補を生成する確率Ｐ（状況の候補｜行動の候補）を算出し、それを行動−状況生成モデル１２として記憶部１１０３に格納してもよい。また、モデル化部１１０２は、行動の候補が音響イベントを生成する確率Ｐ（音響イベント｜行動の候補）を行動−音響イベント生成モデル１４として算出してもよいし、行動の候補の遷移確率を算出し、それを行動遷移モデル１７として記憶部１１０３に格納してもよい。

さらにモデル化部１１０２は、入力されたラベル付き音響信号列１１が有する行動ラベル候補から尤もらしいラベルを選択し、選択した行動ラベル候補からなる行動ラベル列１８を外部に出力したり、記憶部１１０３に格納したりしてもよい。尤もらしいラベルは、各時間区間に対して１つでもよいし、複数個でもよい。また、各時間区間において尤もらしさが閾値を超えたすべての行動ラベル候補を選択し、選択した時間区間ごとに単一または複数の行動ラベル候補からなる行動ラベル１８の列を外部に出力したり、記憶部１１０３に格納したりしてもよい。

またモデル化部１１０２は、入力されたラベル付き音響信号列１１に対して尤もらしい状況を表す状況ラベル１９を選択して外部に出力したり、記憶部１１０３に格納したりしてもよい。選択される状況ラベル１９は、各時間区間に対して１個でもよいし、複数個でもよい。また、各時間区間において尤もらしさが閾値を超えたすべての状況を表すラベルを状況ラベル１９の列を外部に出力したり、記憶部１１０３に格納したりしてもよい。

行動−状況生成モデル１２および状況−音響イベント生成モデル１３の算出は、入力されたラベル付き音響信号列１１の音響イベントの時系列の並びにおける、行動の候補に対応する音響イベントの組み合わせと、行動の候補の時系列の並びと、行動の候補に対応する状況の候補の組み合わせと、の同時事後確率を最大化する処理を用いて行われる。例えば、マルコフ連鎖モンテカルロ法（ＭＣＭＣ法：Markov Chain Monte Carlo methods）や変分ベイズ法（ＶＢ法：Variational Bayes methods）などの手法を用いることができる。ＭＣＭＣ法には，Ｍ−Ｈアルゴリズムやギブスサンプリングなどの手法がある。ここでは一例としてギブスサンプリングによる生成モデルの算出手法を説明する。

(i)モデル化部１１０２は、ハイパパラメータとしてパラメータα，β’ならびにγおよび／またはγ’を事前に決定する。
(ii)モデル化部１１０２は、全てのラベル付き音響信号列１１−ｓ（ただしｓ＝１，...，Ｓ）の全ての要素番号ｉに対応する要素に行動の候補ｘ_ｉをランダムに割り当てる（割り当てはラベル付き音響信号列１１−ｓに与えられた行動ラベル候補が表す行動の候補からランダムに行う）。あるいは、要素番号ｉに対応する要素への行動の候補ｘ_ｉの割り当ては、事前にモデル化部１１０２に設定しておいた割り当てであってもよい。

(iii)モデル化部１１０２は、全てのラベル付き音響信号列１１−ｓ（ただしｓ＝１，...，Ｓ）の各要素番号ｉ（要素番号ｉ−１またはｉ＋１に対応する要素が存在しない要素番号ｉを除く）について、以下の(iii-a)および(iii-b)を交互に、規定の回数（正値であり、例えば１〜３０００回程度）、もしくは、所望の結果が得られるまで（例えば、割り当ての前後において、行動の割り当て先の変化が一定の閾値（例えば０．３％）以下になるまでなど）繰り返す。

(iii-a)は以下の(iii-a-1)および(iii-a-2)からなる。
(iii-a-1)モデル化部１１０２は、以下の式（２３ａ−１）〜（２３ａ−３）の何れかにより、更新対象のラベル付き音響信号列の要素番号ｉを除いた要素番号に対応する音響信号列に対して、要素番号ｉの要素に行動の候補ａに割り当てられる確率分布Ｐ（ｘ_ｉ＝ａ｜ｘ_−ｉ，ｅ，Ω，α，γ），Ｐ（ｘ_ｉ＝ａ｜ｘ_−ｉ，ｚ_−ｉ，ｅ，Ω，α，γ’），Ｐ（ｘ_ｉ＝ａ｜ｘ_−ｉ，ｚ_−ｉ，ｅ，Ω，α，γ，γ’）の何れかを更新する。

ただし、Ｃ_ｔａ ^ＴＡは更新対象のラベル付き音響信号列（初期値はラベル付き音響信号列１１）で状況の候補ｔに行動の候補ａが割り当てられた回数を表す。ｚ_−ｉは要素番号ｉ以外の要素番号に対応する状況からなる列を表す。なお、表記制約上の都合から「Ｃ_ｔａ ^ＴＡ」と表記するが、本来は式（２３ａ−１）〜（２３ａ−３）に示すように「Ｃ_ｔａ ^ＴＡ」の「ＴＡ」は「ｔａ」の上に表記される。Ｒ^ｚｉ _ｚｉ＋１は、更新対象のラベル付き音響信号列に対応するすべて状況の候補の並びの中で、状況の候補ｚ_ｉ＝ｔ∈Ω”＝｛１，・・・，Ｔ｝と同一の候補から行動の候補ｚ_ｉ＋１と同一の候補に遷移した回数を表す。その他は、前述の式（３）に用いた記号の定義と同じである。

(iii-a-2)モデル化部１１０２は、上記の更新式（２３ａ−１）〜（２３ａ−３）の何れかで得られた確率分布Ｐ（ｘ_ｉ＝ａ｜ｘ_−ｉ，ｅ，Ω，α，γ），Ｐ（ｘ_ｉ＝ａ｜ｘ_−ｉ，ｚ_−ｉ，ｅ，Ω，α，γ’），Ｐ（ｘ_ｉ＝ａ｜ｘ_−ｉ，ｚ_−ｉ，ｅ，Ω，α，γ，γ’）の何れかに従って、各要素番号ｉの要素に割り当てる行動の候補ｘ_ｉをサンプリング（選択）する。モデル化部１１０２は、このようにサンプリングした行動の候補ｘ_ｉを要素番号ｉの要素に割り当て、要素番号ｉに対応する行動の候補を更新する。これにより更新対象のラベル付き音響信号列を更新する。

(iii-ｂ-1)モデル化部１１０２は、以下の式により、更新対象のラベル付き音響信号列の要素番号ｉを除いた要素番号に対応する音響信号列に対して、要素番号ｉに対応する音響イベントが状況の候補ｔに割り当てられる確率分布Ｐ（ｚ_ｉ＝ｔ｜ｚ_−ｉ，ｅ，Ω，α，β’）を更新する。

ただし、Ｃ_εｔ ^ＥＴは更新対象のラベル付き音響信号列で音響イベントεに状況の候補ｔが割り当てられた回数を表す。その他は、前述の式（２３ａ−１）〜（２３ａ−３）に用いた記号の定義と同じである。

(iii-ｂ-2)モデル化部１１０２は、上記の更新式（２３ｂ）で得られた確率分布Ｐ（ｚ_ｉ＝ｔ｜ｚ_−ｉ，ｅ，Ω，α，β’）に従って、各要素番号ｉの要素に割り当てる状況の候補をサンプリング（選択）する。モデル化部１１０２は、このようにサンプリングした状況の候補を各要素番号ｉの要素に割り当て、更新対象のラベル付き音響信号列を更新する。

(iv)モデル化部１１０２は、上記の（ｉｉｉ−ａ）（ｉｉｉ−ｂ）の繰り返しによって最終的に得られたＣ_εｔ ^ＥＴ，Ｃ_ｔａ ^ＴＡならびにＲ^ｘｉ _ｘｉ＋１および／またはＲ^ｚｉ _ｚｉ＋１を用い、以下を計算する。なお、式（２６−１）および（２６−２）の両方が計算されてもよいし、その何れか一方のみが計算されてもよい。

これによってモデル化部１１０２は、状況が音響イベントを生成する確率φ_εｔ（ただし、ｔ∈｛１，・・・，Ｔ｝，ε∈｛１，・・・，Ｅ｝）の集合を得、それを状況−音響イベント生成モデル１３とする。例えばモデル化部１１０２は、確率φ_εｔを（ｔ，ε）要素とするＴ×Ｅ行列を状況−音響イベント生成モデル１３とする。また、モデル化部１１０２は、行動が状況を生成する確率θ_ｔａ（ただし、ａ∈｛１，・・・，Ａ｝，ｔ∈｛１，・・・，Ｔ｝）の集合を得、それを行動−状況生成モデル１２とする。例えばモデル化部１１０２は、確率θ_ｔａを（ａ，ｔ）要素とするＡ×Ｔ行列を行動−状況生成モデル１２とする。また、モデル化部１１０２は、これによって行動の候補の遷移確率π^ｘｉ _ｘｉ＋１（ただし、ｘ_ｉ，ｘ_ｉ+１∈｛１，・・・，Ａ｝）の集合を得、それを行動遷移モデル１７としてもよい。例えばモデル化部１０２は、ｘ_ｉ，ｘ_ｉ+１∈｛１，・・・，Ａ｝に対応する遷移確率π^ｘｉ _ｘｉ＋１を（ｘ_ｉ，ｘ_ｉ＋１）要素とするＡ×Ａ行列を行動遷移モデル１７とする。また、モデル化部１１０２は、これによって行動の候補の遷移確率π’^ｚｉ _ｚｉ＋１（ただし、ｚ_ｉ，ｚ_ｉ+１∈｛１，・・・，Ｔ｝）の集合を得、それを状況遷移モデルとしてもよい。例えばモデル化部１０２は、ｚ_ｉ，ｚ_ｉ+１∈｛１，・・・，Ｔ｝に対応する遷移確率π’^ｚｉ _ｚｉ＋１を（ｚ_ｉ，ｚ_ｉ＋１）要素とするＴ×Ｔ行列を状況遷移モデルとする。

或いは、モデル化部１１０２は、(iii-ｂ-1)の繰り返し処理時に、式（２３ｂ）の算出過程で確率φ_εｔおよび確率θ_ｔａをそれぞれ１個以上サンプリング（計算）し、式（２４）（２５）に代えて、サンプリングされた確率φ_εｔの平均値および確率θ_ｔａの平均値を用い、状況−音響イベント生成モデル１３および行動−状況生成モデル１２を得てもよい。同様に、モデル化部１１０２は、(iii-1)の繰り返し処理時に、式（２３ａ−１）〜（２３ａ−３）の算出過程で遷移確率π^ｘｉ _ｘｉ＋１を１個以上サンプリング（計算）し、式（２６−１）に代えて、サンプリングされた遷移確率π^ｘｉ _ｘｉ＋１の平均値を用い、行動遷移モデル１７を得てもよい。同様に、モデル化部１１０２は、(iii-1)の繰り返し処理時に、式（２３ａ−１）〜（２３ａ−３）の算出過程で遷移確率π’^ｚｉ _ｚｉ＋１を１個以上サンプリング（計算）し、式（２６−２）に代えて、サンプリングされた遷移確率π’^ｚｉ _ｚｉ＋１の平均値を用い、状況遷移を得てもよい。

さらにモデル化部１１０２は、以下のように周辺化することで、行動の候補ａ（ただし、ａ∈｛１，・・・，Ａ｝）がラベル付き音響信号列１１−ｓに与えられた音響イベントの列ｅ’_ｓを生成する確率Ｐ（ｅ’_ｓ｜Θ，Φ，Ω）の集合を得、これらに対応する行動−音響イベント生成モデル１４を得てもよい。

ただし、εは要素番号ｉに対応する音響イベント、ａ_ｉは要素番号ｉに対応する行動の候補を表す。

また、上記更新過程でサンプリング（選択）し、各要素番号ｉの要素に割り当てた行動の候補ｘ_ｉを分析することで、各ラベル付き音響信号列１１−ｓの音響信号列がどの行動によって生成されたかを知ることができる。モデル化部１１０２は、このように各要素番号ｉの要素に割り当てた行動の候補ｘ_ｉを表すラベル、またはそれらの一部を行動ラベル１８として出力してもよい。

また、上記更新過程でサンプリング（選択）し、各要素番号ｉの要素に割り当てた状況の候補ｚ_ｉを分析することで、各ラベル付き音響信号列１１−ｓの音響信号列がどの状況によって生成されたかを知ることができる。モデル化部１１０２は、このように各要素番号ｉの要素に割り当てた状況の候補ｚ_ｉを表すラベル、またはそれらの一部を状況ラベル１９として出力してもよい。

本実施例では、行動が音響イベントを生成する確率のみではなく、行動の時間遷移確率および／または状況の時間遷移確率も考慮して学習処理を行うことで、遷移確率によって特徴付けられる行動やそれに対応する状況を精度よくモデル化できる。また、遷移確率によって特徴付けられる行動やそれに対応する状況を精度よく分析できる。

＜実施例（２）−１−２：図１４＞
[行動ラベル候補付き音響信号列から行動−音響イベント生成モデル、状況−音響イベント生成モデル、行動−状況生成モデル、および行動遷移モデルを算出し、行動や状況を分析]
本実施例では、行動ラベル候補付き音響信号列１５−１，・・・，１５−Ｓを入力とし、行動の時間変化および/または状況の時間変化を考慮に入れ、状況−音響イベント生成モデル１３を算出する。すなわち、本実施例では、音響信号から音響特徴量を得、得られた音響特徴量を用いて音響イベントを決定し、それによって音響イベントラベル列を得てから学習処理を行い、状況−音響イベント生成モデル１３を算出する。この際、行動−状況生成モデル１２を算出してもよいし、状況の時間遷移を表す状況遷移モデルを算出してもよいし、行動−音響イベント生成モデル１４を算出してもよいし、行動遷移モデル１７を算出してもよいし、行動や状況の分析を行ってもよい。

図１４に例示するように、本実施例のモデル処理装置１１１０は、特徴量算出部１１１、音響イベント判定部１１２、音響イベントモデルデータベース（ＤＢ）１１３、音響信号列合成部１０１、モデル化部１１０２、および記憶部１１０３を有する。モデル処理装置１１１０は、例えば、汎用又は専用の公知のコンピュータに所定のプログラムが読み込まれることで構成される。

まず特徴量算出部１１１に行動ラベル候補付き音響信号列１５−１，・・・，１５−Ｓが入力される。特徴量算出部１１１は、各行動ラベル候補付き音響信号列１５−ｓ（ただし、ｓ∈｛１，・・・，Ｓ｝）が含む音響信号列から、各行動ラベル候補付き音響信号列１５−ｓに対応する音響特徴量列（ベクトル）を算出して出力する。音響特徴量列の具体例は、実施例（１）−１−２と同じである。

音響イベント判定部１１２は、実施例（１）−１−２で例示した方法等によって、特徴量算出部１１１で得られた音響特徴量を用いて各要素番号ｉに対して音響イベントを決定する。音響イベント判定部１１２は、各要素番号ｉに対して決定した音響イベントを表す音響イベントラベルを、行動ラベル候補付き音響信号列１５−ｓの各要素番号ｉの要素に付与する。音響イベント判定部１１２は、この処理を入力された行動ラベル候補付き音響信号列１５−１，・・・，１５−Ｓのすべての要素（すべての要素番号ｉ）について行い、その結果得られる音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓを出力する。

音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓは、音響信号列合成部１０１に入力される。以降の処理は実施例（２）−１−１と同じである。

＜実施例（２）−１−３：図１５＞
[行動ラベル候補付き音響特徴量から行動−音響イベント生成モデル、状況−音響イベント生成モデル、行動−状況生成モデル、および行動遷移モデルを算出し、行動や状況を分析]
本実施例では、行動ラベル候補付き音響特徴量列１６−１，・・・，１６−Ｓを入力とし、行動の時間変化および/または状況の時間変化を考慮に入れ、状況−音響イベント生成モデル１３を算出する。すなわち、本実施例では、入力された音響特徴量を用いて音響イベントを決定し、それによって音響イベントラベル列を得てから学習処理を行い、状況−音響イベント生成モデル１３を算出する。この際、行動−状況生成モデル１２を算出してもよいし、行動−音響イベント生成モデル１４を算出してもよいし、行動遷移モデル１７を算出してもよいし、状況の時間遷移を表す状況遷移モデルを算出してもよいし、行動や状況の分析を行ってもよい。

図１５に例示するように、本実施例のモデル処理装置１１２０は、音響イベント判定部１１２、音響イベントモデルデータベース（ＤＢ）１１３、音響信号列合成部１０１、モデル化部１１０２、および記憶部１１０３を有する。モデル処理装置１１２０は、例えば、汎用又は専用の公知のコンピュータに所定のプログラムが読み込まれることで構成される。

まず音響イベント判定部１１２に、行動ラベル候補付き音響特徴量列１６−１，・・・，１６−Ｓが入力される。音響イベント判定部１１２は、実施例（１）−１−２で例示した方法等によって、音響特徴量列１６−１，・・・，１６−Ｓを用いて各要素番号ｉに対して音響イベントを決定する。音響イベント判定部１１２は、各要素番号ｉに対して決定した音響イベントを表す音響イベントラベルを、行動ラベル候補付き音響信号列１６−ｓの各要素番号ｉの要素に付与する。音響イベント判定部１１２は、この処理を入力された行動ラベル候補付き音響信号列１６−１，・・・，１６−Ｓのすべての要素（すべての要素番号ｉ）について行い、その結果得られる音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓを出力する。

＜実施例（２）−２−１：図１６＞
[音響イベントラベル付き音響信号列から行動や状況を推定］
本実施例では、実施例（２）−１−１〜（２）−１−３で説明したように得られた行動−状況生成モデル１２、状況−音響イベント生成モデル１３、行動−音響イベント生成モデル１４および/または行動遷移モデル１７および/または状況遷移モデルを用い、新たに入力された音響イベントラベル付き音響信号列から行動や状況を推定する。

図１６に例示するように、本実施例のモデル処理装置１２００は、記憶部１１０３および生成モデル比較部１２０１を有する。モデル処理装置１２００は、例えば、汎用又は専用の公知のコンピュータに所定のプログラムが読み込まれることで構成される。

まず生成モデル比較部１２０１に音響イベントラベル付き音響信号列２１が入力される。生成モデル比較部１２０１は、入力された音響イベントラベル付き音響信号列２１と、記憶部１１０３に格納された行動−状況生成モデル１２、状況−音響イベント生成モデル１３、および行動−音響イベント生成モデル１４および/または行動遷移モデル１７および/または状況遷移モデルとを比較し、音響イベントラベル付き音響信号列２１に対し、最も適切であると判断した行動や状況、又は最も適切なものから順番に複数個の行動や状況を決定し、それらを推定結果として出力する。以下に音響イベントラベル付き音響信号列２１と各生成モデルとの比較方法を例示する。

［比較方法の例（２）−１］
音響イベントの分布と、行動の候補に対応する確率Ｐ（音響イベント｜行動の候補）で表される音響イベントの分布との近さに基づいて、行動が推定されてもよい。この具体例は、実施例（１）−２−１の［比較方法の例（１）−１］で説明した通りである。

また、第２音響イベントの分布と、状況の候補に対応する確率Ｐ（音響イベント｜状況の候補）で表される音響イベントの分布との近さに基づいて、状況が推定されてもよい。この場合、生成モデル比較部１２０１は、式（１４）のｐ（ε）と状況−音響イベント生成モデル１３とを［比較方法の例（１）−１］と同様な方法を用いて比較することにより、入力された音響イベントラベル付き音響信号列２１の状況を推定することもできる。例えば、式（１５）又は（１６）を用いる場合、生成モデル比較部１２０１は、Ｐ（ε）にｐ（ε）（ただし、ε∈｛１，・・・，Ｅ｝）を代入し、Ｑ（ε）に式（２４）のφ_εｔ（ただし、ε∈｛１，・・・，Ｅ），ｔ∈｛１，・・・，Ｔ｝）を代入する。これにより、生成モデル比較部１２０１は、各状況ｔ∈｛１，・・・，Ｔ｝に対応する情報量（合計Ｔ個の情報量）を得る。生成モデル比較部１２０１は、各状況ｔ∈｛１，・・・，Ｔ｝について算出された情報量のうち、最も小さな情報量に対応する状況、又は、最も小さな情報量から順番に選択した複数個の情報量に対応する複数個の状況を、音響イベントラベル付き音響信号列２１に対応する状況として決定して出力する。なお、状況の探索範囲は予め定められたものであってもよいし、音響イベントラベル付き音響信号列２１がこの探索範囲を特定するための情報を含み、この情報によって探索範囲が定められてもよい。探索範囲を特定するための情報の例は、状況の候補の総数Ｔである。このような状況の候補の総数Ｔは、要素番号毎に特定されてもよいし、複数の要素番号に対して共通であってもよい。この場合、探索範囲が適切に設定されていれば状況の推定精度が向上する。

生成モデル比較部１２０１は、以下のように、状況遷移モデルが表す遷移確率π’^ｚｉ−１ _ｚｉと前時刻（要素番号ｉ−１の時間区間）の状況推定結果ｚ_ｉ−１を利用して、現時刻（要素番号ｉの時間区間）の状況ｚ_ｉ＝ｔを推定しても良い。

［比較方法の例（２）−２］
音響イベントラベル付き音響信号列２１が有する音響イベントの時系列の並びに対する、確率Ｐ（音響イベント｜行動の候補）のもとでの行動の候補の尤もらしさに基づいて、行動が推定されてもよい。この具体例は、実施例（１）−２−１の［比較方法の例（１）−２］で説明した通りである。

音響イベントラベル付き音響信号列２１が有する音響イベントの時系列の並びに対する、確率Ｐ（音響イベント｜状況の候補）のもとでの状況の候補の尤もらしさに基づいて、状況が推定されてもよい。ここでも前述のように、状況の探索範囲は予め定められたものであってもよいし、音響イベントラベル付き音響信号列２１がこの探索範囲を特定するための情報（例えば、状況の候補の総数）を含み、この情報によって探索範囲が定められてもよい。

以下に具体例を示す。以下の例では、入力されたラベル付き音響信号列２１に対し、状況−音響イベント生成モデル１３のもとでの状況の尤度の和や積を求める。

≪状況−音響イベント生成モデル１３のもとでの状況の尤度の和の例≫

≪状況−音響イベント生成モデル１３のもとでの状況の尤度の積の例≫

ただし、式（２８）（２９）のｅ_ｉは、入力された音響イベントラベル付き音響信号列２１の要素番号ｉに対応する音響イベントラベルが表す音響イベントを表す。式（２８）（２９）は、式（２４）（２５）（２７）の確率φ_εｔ，θ_ｔａ，Ｐ（ｅ’_ｓ｜Θ，Φ，Ω）と、入力された音響イベントラベル付き音響信号列２１のｅ_ｉとから算出できる。

状況の探索範囲が予め定められたものである場合には、その探索範囲に属する各状況の候補ｔについて上記の尤度が算出され、状況の探索範囲が音響イベントラベル付き音響信号列２１に含まれる情報（例えば、状況の候補の総数等）によって特定される場合には、その探索範囲に属する各状況の候補ｔについて上記の尤度が算出される。生成モデル比較部１２０１は、各状況の候補について算出した尤度のうち、最も尤度の高い状況の候補、又は、最も尤度の高いものから順番に選択した複数個の状況の候補を、入力された音響イベントラベル付き音響信号列２１に対応する状況として決定して出力する。

生成モデル比較部１２０１は、以下のように、行動−音響イベント生成モデル１４のもとでの状況の尤度の和や積および、状況遷移モデルが表す遷移確率π’^ｚｉ−１ _ｚｉと前時刻（要素番号ｉ−１の時間区間）の状況推定結果ｚ_ｉ−１を利用して、現時刻（要素番号ｉの時間区間）の状況ｚ_ｉ＝ｔを推定しても良い

≪行動−音響イベント生成モデル１４のもとでの状況の尤度の和および、状況遷移モデルと前時刻の状況推定結果を利用する場合の例≫

≪行動−音響イベント生成モデル１４のもとでの状況の尤度の積および、状況遷移モデルと前時刻の状況推定結果を利用する場合の例≫

なお、上述の行動を決定する処理と状況を決定する処理とが、互いに異なる処理部で実行されてもよい。

＜実施例（２）−２−２：図１７＞
[音響信号列から行動および状況を推定]
本実施例では、実施例（２）−１−１〜（２）−１−３で説明したように得られた行動−状況生成モデル１２、状況−音響イベント生成モデル１３、行動−音響イベント生成モデル１４および/または行動遷移モデル１７および/または状況遷移モデルを用い、新たに入力された音響信号列から行動や状況を推定する。

図１７に例示するように、本実施例のモデル処理装置１２１０は、特徴量算出部２１１、音響イベント判定部２１２、音響イベントモデルＤＢ１１３、記憶部１１０３、生成モデル比較部１２０１を有する。モデル処理装置１２１０は、例えば、汎用又は専用の公知のコンピュータに所定のプログラムが読み込まれることで構成される。

まず特徴量算出部２１１に音響信号列２２が入力される。特徴量算出部２１１は、音響信号列２２から音響特徴量列（ベクトル）を算出して出力する。例えば特徴量算出部２１１は、前述した特徴量算出部１１１と同じ方法で音響特徴量列を算出する。

音響イベントラベル付き音響信号列２１は、生成モデル比較部１２０１に入力される。以降の処理は実施例（２）−２−１と同じである。

＜実施例（２）−２−３：図１８＞
[音響特徴量から行動や状況を推定]
本実施例では、実施例（２）−１−１〜（２）−１−３で説明したように得られた行動−状況生成モデル１２、状況−音響イベント生成モデル１３、行動−音響イベント生成モデル１４、および/または行動遷移モデル１７および/または状況遷移モデルを用い、新たに入力された音響特徴量列から行動や状況を推定する。

図１８に例示するように、本実施例のモデル処理装置１２２０は、音響イベント判定部２１２、音響イベントモデルＤＢ１１３、記憶部１１０３、生成モデル比較部１２０１を有する。モデル処理装置１２２０は、例えば、汎用又は専用の公知のコンピュータに所定のプログラムが読み込まれることで構成される。

まず音響イベント判定部２１２に音響特徴量列２３が入力される。音響イベント判定部２１２は、前述した音響イベント判定部１１２と同じ方法で、音響特徴量列２３の音響特徴量列と、音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとをそれぞれ比較し、音響特徴量列２３が含む音響信号列の全ての要素について音響イベントを決定する。音響イベント判定部２１２は、決定した各要素の音響イベントを表す音響イベントラベルを、音響特徴量列２３が含む音響信号列に付することで、音響イベントラベル付き音響信号列２１を生成して出力する。

＜実施例（２）−３−１：図１９＞
[音響イベントラベル付き音響信号列から行動や状況を推定すると共に，音響イベントラベルおよび行動ラベル候補付き音響信号列から行動−音響イベント生成モデル、状況−音響イベント生成モデル、行動−状況生成モデル、および行動遷移モデルを算出]
本実施例は実施例（２）−１−１と実施例（２）−２−１の組み合わせである。本実施例では、音響イベントラベル付き音響信号列２１を入力として行動や状況を推定することに加え、音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓを入力とし、行動−状況生成モデル１２、状況−音響イベント生成モデル１３、行動−音響イベント生成モデル１４の少なくとも何れかの算出も行う。さらに行動遷移モデル１７や行動ラベル１８や状況ラベル１９の生成を行ってもよい。さらに、推定された行動を表す行動ラベル候補を、音響イベントラベル付き音響信号列２１が含む音響信号列の各要素に付与することで、音響イベントラベルおよび行動ラベル候補付き音響信号列を得、それを生成モデルの更新に利用することもできる。

図１９に例示するように、本実施例のモデル処理装置１３００は、記憶部１１０３，１３０３、音響信号列合成部１０１、モデル化部１１０２、および生成モデル比較部１２０１を有する。モデル処理装置１３００は、例えば、汎用又は専用の公知のコンピュータに所定のプログラムが読み込まれることで構成される。

音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓは音響信号列合成部１０１に入力される。音響信号列合成部１０１およびモデル化部１１０２は、実施例（２）−１−１で説明したように、音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓから、行動−状況生成モデル１２、状況−音響イベント生成モデル１３、および行動−音響イベント生成モデル１４の少なくとも何れかを生成し、それらを記憶部１１０３に格納する。また、実施例（２）−１−１で説明したように、モデル化部１１０２が行動遷移モデル１７を生成して記憶部１１０３に格納してもよいし、行動ラベル１８を生成して記憶部１０３に格納してもよいし、状況ラベル１９を生成して記憶部１１０３に格納してもよい。

音響イベントラベル付き音響信号列２１は生成モデル比較部１２０１に入力される。音響イベントラベル付き音響信号列２１は、実施例（２）−２−１で説明したように、入力された音響イベントラベル付き音響信号列２１と、記憶部１１０３に格納された行動−状況生成モデル１２、状況−音響イベント生成モデル１３、行動−音響イベント生成モデル１４、および/または行動遷移モデル１７および/または状況遷移モデルとを比較し、音響イベントラベル付き音響信号列２１に対し、最も適切であると判断した行動や状況、又は最も適切なものから順番に複数個の行動や状況を選択し、それらを推定結果として出力する。

さらに生成モデル比較部１２０１は、決定した行動を表す行動ラベル候補を、音響イベントラベル付き音響信号列２１の対応する各要素に付与し、それによって新たな音響イベントラベルおよび行動ラベル候補付き音響信号列２１’を生成して出力してもよい。この場合、音響イベントラベルおよび行動ラベル候補付き音響信号列２１’が、音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓとともに音響信号列合成部１０１に入力されてもよい。この場合、音響信号列合成部１０１は、入力されたすべての音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓ，２１’を時系列方向につなぎ合わせ（合成）、それによって一つの音響イベントラベルおよび行動ラベル候補付き音響信号列１１’（「第３音響イベントラベル列」および「第３行動ラベル候補」）を得て出力する。モデル化部１１０２は、実施例（２）−１−１のラベル付き音響信号列１１（「音響イベントラベル列」および「行動ラベル候補」）に代えて、音響イベントラベルおよび行動ラベル候補付き音響信号列１１’（「第３音響イベントラベル列」および「第３行動ラベル候補」）を用い、再度、実施例（２）−１−１で説明したように、行動−状況生成モデル１２、状況−音響イベント生成モデル１３、および行動−音響イベント生成モデル１４の少なくとも何れかを生成し、それを記憶部１１０３に格納する。さらにモデル化部１１０２が、ラベル付き音響信号列１１に代えて、入力された音響イベントラベルおよび行動ラベル候補付き音響信号列１１’を用い、再度、実施例（２）−１−１で説明したように、行動遷移モデル１７を生成して記憶部１１０３に格納してもよいし、行動ラベル１８や状況ラベル１９を生成して記憶部１１０３に格納してもよい。

また、生成モデル比較部１２０１の処理およびモデル化部１１０２の処理のどちらを先に行っても良い。ただし、モデル化部１１０２の処理を行う前に生成モデル比較部１２０１の処理を行う場合、記憶部１１０３に予め得られた各生成モデルおよび/または行動遷移モデル１７および/または状況遷移モデルが格納されている必要がある。

また、音響イベントラベルおよび行動ラベル候補付き音響信号列２１’が、新たに入力された音響イベントラベルおよび行動ラベル候補付き音響信号列とともに音響信号列合成部１０１に入力されてもよい。音響信号列合成部１０１は、これらを時系列方向につなぎ合わせ（合成）、それによって一つの音響イベントラベルおよび行動ラベル候補付き音響信号列（「第３音響イベントラベル列」および「第３行動ラベル候補」）を得て、モデル化部１１０２に送出してもよい。
その他の処理は実施例（２）−１−１および実施例（２）−２−１と同様とする。

＜実施例（２）−３−２：図２０＞
[音響信号列から行動，状況を推定すると共に，行動ラベル候補付き音響信号列から行動−音響イベント生成モデル、状況−音響イベント生成モデル、行動−状況生成モデル、および行動遷移モデルを算出]
本実施例は、実施例（２）−１−２と実施例（２）−２−２の組み合わせである。
本実施例では、行動ラベル候補付き音響信号列１５−１，・・・，１５−Ｓを入力として、学習によって、行動−状況生成モデル１２、状況−音響イベント生成モデル１３、行動−音響イベント生成モデル１４の少なくとも何れかを算出する。さらに行動遷移モデル１７や行動ラベル１８や状況ラベル１９の生成を行ってもよい。さらに本実施例では、行動−状況生成モデル１２、状況−音響イベント生成モデル１３、行動−音響イベント生成モデル１４、および/または行動遷移モデル１７および／または状況遷移モデルを用い、新たに入力された音響信号列２２から行動や状況を推定する。

図２０に例示するように、本実施例のモデル処理装置１３１０は、特徴量算出部１１１−１，・・・，１１１−Ｓ，２１１、音響イベント判定部１１２−１，・・・，１１２−Ｓ，２１２、音響イベントモデルＤＢ１１３、および前述のモデル処理装置１３００（図１９参照）を有する。

音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓ、音響イベントラベル付き音響信号列２１は、記憶部１３０３（図１９）に格納される。以降の処理は実施例（２）−３−１と同じである。

＜実施例（２）−３−３：図２１＞
[音響特徴量から行動や状況を推定すると共に，行動ラベル候補付き音響信号列から行動−音響イベント生成モデル、状況−音響イベント生成モデル、行動−状況生成モデル、および行動遷移モデルを算出]
本実施例は、実施例（２）−１−３と実施例（２）−２−３の組み合わせである。
本実施例では、行動ラベル候補付き音響特徴量列１６−１，・・・，１６−Ｓを入力として、学習によって、行動−状況生成モデル１２、状況−音響イベント生成モデル１３、行動−音響イベント生成モデル１４の少なくとも何れかを算出する。行動遷移モデル１７や行動ラベル１８や状況ラベル１９の生成を行ってもよい。さらに本実施例では、行動−状況生成モデル１２、状況−音響イベント生成モデル１３、行動−音響イベント生成モデル１４を用い、新たに入力された音響特徴量列２３から行動や状況を推定する。

図２１に例示するように、本実施例のモデル処理装置１３２０は、音響イベント判定部１１２−１，・・・，１１２−Ｓ，２１２、音響イベントモデルＤＢ１１３、および前述のモデル処理装置１３００（図１９参照）を有する。

音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓ、音響イベントラベル付き音響信号列２１は、記憶部３０３（図１９）に格納される。以降の処理は実施例（２）−３−１と同じである。

＜実施例（２）−４−１：図２２＞
[音響イベントラベル付き音響信号列から行動，状況を推定すると共に，音響イベントラベルおよび行動ラベル候補付き音響信号列から行動−音響イベント生成モデル状況−音響イベント生成モデル、行動−状況生成モデル、および行動遷移モデルを算出。特別なシンボルを用いる]
本実施例は実施例（２）−３−１の変形である。
本実施例では、音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓ、および音響イベントラベル付き音響信号列２１を入力とし、行動−状況生成モデル１２、状況−音響イベント生成モデル１３、行動−音響イベント生成モデル１４の少なくとも何れかを算出する。また行動遷移モデル１７の生成や行動や状況の推定を行ってもよい。さらに、推定された行動を表す行動ラベル候補を、音響イベントラベル付き音響信号列２１が含む音響信号列の各要素に付与することで、音響イベントラベルおよび行動ラベル候補付き音響信号列を得、それを生成モデルの更新に利用することもできる。

図２２に例示するように、本実施例のモデル処理装置１４００は、記憶部１１０３、１３０３、音響信号列合成部４０１、モデル化部１４０２、および生成モデル比較部１４０３を有する。モデル処理装置１４００は、例えば、汎用又は専用の公知のコンピュータに所定のプログラムが読み込まれることで構成される。

音響信号列合成部４０１に、音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓおよび音響イベントラベル付き音響信号列２１が入力される。音響信号列合成部４０１は、音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓ、音響イベントラベル付き音響信号列２１を時系列方向につなぎ合わせ、それによって１つの音響イベントラベルおよび行動ラベル候補付き音響信号列４１（以下、単に「ラベル付き音響信号列４１」という）を得て出力する。実施例（１）−４−１で説明したように、ラベル付き音響信号列４１が含む音響イベントの時系列の並びは、行動ラベル候補によって行動の候補が表された第４音響イベントの時系列の並び、および行動ラベル候補によって行動の候補が表されていない第５音響イベントの時系列の並びを含む。ラベル付き音響信号列４１は、モデル化部１４０２に入力される。なお、予め、音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓ、音響イベントラベル付き音響信号列２１からラベル付き音響信号列４１が得られている場合には、音響信号列合成部４０１を経由することなく、ラベル付き音響信号列４１がそのままモデル化部１４０２に入力されてもよい。

モデル化部１４０２は、実施例（２）−１−１のラベル付き音響信号列１１に代えて、ラベル付き音響信号列４１を用い、実施例（２）−１−１のモデル化部１１０２と同じ方法で、行動−状況生成モデル１２、状況−音響イベント生成モデル１３、および行動−音響イベント生成モデル１４の少なくとも何れかを算出する。行動遷移モデル１７や行動ラベル１８の生成を行ってもよい。ただし、モデル化部１４０２は、実施例（１）−４−１のモデル化部４０２と同様、上述の「第５音響イベント」を生じさせた行動の候補として特別なシンボルを用いて学習処理を行う。

すなわちモデル化部１４０２は、状況の候補が音響イベントを生成する確率Ｐ（音響イベント｜状況の候補）、行動の候補が状況の候補を生成する確率Ｐ（状況の候補｜行動の候補）、およびこの特別なシンボルが状況の候補を生成する確率Ｐ（状況の候補｜特別なシンボル）を得る。またモデル化部１４０２は、確率Ｐ（音響イベント｜状況の候補）と確率Ｐ（状況の候補｜行動の候補）とから、行動の候補が音響イベントを生成する確率Ｐ（音響イベント｜行動の候補）を得、確率Ｐ（音響イベント｜状況の候補）と確率Ｐ（状況の候補｜特別なシンボル）とから、特別なシンボルが音響イベントを生成する確率Ｐ（音響イベント｜特別なシンボ）を得る。行動−状況生成モデル１２は、確率Ｐ（状況の候補｜行動の候補），Ｐ（状況の候補｜特別なシンボル）に対応し、状況−音響イベント生成モデル１３は、確率Ｐ（音響イベント｜状況の候補）に対応し、行動−音響イベント生成モデル１４は、確率Ｐ（音響イベント｜行動の候補），Ｐ（音響イベント｜特別なシンボル）に対応する。モデル化部１４０２で算出された、行動−状況生成モデル１２、状況−音響イベント生成モデル１３、および行動−音響イベント生成モデル１４は、記憶部１１０３に格納される。行動遷移モデル１７や行動ラベル１８や状況ラベル１９の生成を行った場合には、それらも記憶部１０３に格納される。

生成モデル比較部１４０３には、行動−音響イベント生成モデル１４および/または行動遷移モデル１７が入力される。生成モデル比較部１４０３は、入力された行動−音響イベント生成モデル１４に対応する、確率Ｐ（音響イベント｜行動）と確率Ｐ（音響イベント｜特別なシンボル）とを比較し、特別なシンボルに対応する行動の内容を推定し、それらの推定結果を出力する。また、生成モデル比較部１４０３は、入力された行動遷移モデル１７に対応する、遷移確率Ｐ（現時刻の行動の候補｜前時刻の行動の候補）と遷移確率Ｐ（特別なシンボル｜前時刻の行動の候補）とを比較し、特別なシンボルに対応する行動の内容を推定し、それらの推定結果を出力してもよい。例えば、生成モデル比較部１４０３は、音響イベントラベル付き音響信号列２１に対し、最も適切であると判断した行動、又は最も適切なものから順番に複数個の行動を選択し、それらを推定結果として出力する。

［比較方法の例示］
生成モデル比較部１４０３による比較は、例えば、実施例（１）−２−１で説明した情報量基準に基づいて行うことができる。例えば、式（１５）又は（１６）の情報量基準を用い、確率Ｐ（音響イベント｜行動の候補）と確率Ｐ（音響イベント｜特別なシンボル）とを比較する場合、生成モデル比較部１４０３は、Ｐ（ε）に特別なシンボルａ_ｉ＝ａ’∈｛１，・・・，Ａ｝に対応する式（２７）の確率（ただし、ε_ｉ＝ε∈｛１，・・・，Ｅ）｝を代入し、Ｑ（ε）に他の行動ａ_ｉ＝ａ’’≠ａ’（ただし、ａ’’∈｛１，・・・，Ａ｝）に対応する式（２７）の確率（ただし、ε_ｉ＝ε∈｛１，・・・，Ｅ））を代入する。これにより、生成モデル比較部１４０３は、他の行動ａ’’≠ａ’（ただし、ａ’’∈｛１，・・・，Ａ｝）に対応する情報量（合計Ａ−１個の情報量）を得る。

生成モデル比較部１４０３は、各行動ａ’’について算出された情報量のうち、最も小さな情報量に対応する行動の候補、又は、最も小さな情報量から順番に選択した複数個の情報量に対応する複数個の行動の候補を、音響イベントラベル付き音響信号列２１に対応する行動として決定して出力する。

生成モデル比較部１４０３は、以上のように決定した行動を表す行動ラベル候補を、音響イベントラベル付き音響信号列２１の対応する各要素に付与し、それによって新たな音響イベントラベルおよび行動ラベル候補付き音響信号列４１’を生成して出力してもよい。この場合、音響イベントラベルおよび行動ラベル候補付き音響信号列４１’が、音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓとともに音響信号列合成部４０１に入力されてもよい。この場合、音響信号列合成部４０１は、入力されたすべての音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓ，４１’を時系列方向につなぎ合わせ（合成）、それによって一つの音響イベントラベルおよび行動ラベル候補付き音響信号列４１’’を得て出力する。モデル化部１４０２は、実施例（２）−１−１のラベル付き音響信号列１１に代えて、音響イベントラベルおよび行動ラベル候補付き音響信号列４１’’を用い、再度、実施例（２）−１−１で説明したように、行動−状況生成モデル１２、状況−音響イベント生成モデル１３、および行動−音響イベント生成モデル１４の少なくとも何れかを生成し、それを記憶部１１０３に格納する。さらにモデル化部１４０２が、入力された音響イベントラベルおよび行動ラベル候補付き音響信号列４１’’を用い、再度、実施例（２）−１−１で説明したように、行動遷移モデル１７を生成して記憶部１１０３に格納してもよいし、行動ラベル１８や状況ラベル１９を生成して記憶部１１０３に格納してもよい。

また、音響イベントラベルおよび行動ラベル候補付き音響信号列２１’が、新たに入力された音響イベントラベルおよび行動ラベル候補付き音響信号列とともに音響信号列合成部４０１に入力されてもよい。音響信号列合成部４０１は、これらを時系列方向につなぎ合わせ（合成）、それによって一つの音響イベントラベルおよび行動ラベル候補付き音響信号列を得て、モデル化部１４０２に送出し、モデル化部１０２が上述の処理を行ってもよい。
その他の処理は実施例（２）−１−１、実施例（２）−２−１、および実施例（２）−３−１と同じである。

＜実施例（２）−４−２：図２０＞
[音響信号列から行動、状況を推定すると共に、行動ラベル候補付き音響信号列から行動−音響イベント生成モデル、状況−音響イベント生成モデル、行動−状況生成モデル、および行動遷移モデルを算出。特別なシンボルを用いる]
本実施例は実施例（２）−３−２の変形である。
本実施例では、行動ラベル候補付き音響信号列１５−１，・・・，１５−Ｓおよび音響信号列２２を入力として、学習によって、行動−状況生成モデル１２、状況−音響イベント生成モデル１３、行動−音響イベント生成モデル１４の少なくとも何れかを算出する。さらに行動遷移モデル１７や行動ラベル１８の生成を行ってもよい。さらに本実施例では、行動−状況生成モデル１２、状況−音響イベント生成モデル１３、行動−音響イベント生成モデル１４を用い、音響信号列２２に対応する行動や状況を推定する。

図２０に例示するように、本実施例のモデル処理装置１４１０は、特徴量算出部１１１−１，・・・，１１１−Ｓ，２１１、音響イベント判定部１１２−１，・・・，１１２−Ｓ，２１２、音響イベントモデルＤＢ１１３、および前述のモデル処理装置１４００（図２２参照）を有する。

行動ラベル候補付き音響信号列１５−１，・・・，１５−Ｓは、それぞれ特徴量算出部１１１−１，・・・，１１１−Ｓに入力され、音響信号列２２は特徴量算出部２１１に入力される。特徴量算出部１１１−１，・・・，１１１−Ｓ，２１１、音響イベント判定部１１２−１，・・・，１１２−Ｓ，２１２は、実施例（２）−３−２で説明したように、音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓ、音響イベントラベル付き音響信号列２１を生成して出力する。音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓ、音響イベントラベル付き音響信号列２１は、記憶部１３０３（図２２）に格納される。以降の処理は実施例（２）−４−１と同じである。

＜実施例（２）−４−３：図２１＞
[音響特徴量から行動，状況を推定すると共に，行動ラベル候補付き音響信号列から行動−音響イベント生成モデル、状況−音響イベント生成モデル、行動−状況生成モデル、および行動遷移モデルを算出。特別なシンボルを用いる]
本実施例は実施例（２）−３−３の変形である。
本実施例では、行動ラベル候補付き音響特徴量列１６−１，・・・，１６−Ｓおよび音響特徴量列２３を入力として、学習によって、行動−状況生成モデル１２、状況−音響イベント生成モデル１３、行動−音響イベント生成モデル１４の少なくとも何れかを算出する。行動遷移モデル１７や行動ラベル１８や状況ラベル１９の生成を行ってもよい。さらに本実施例では、行動−状況生成モデル１２、状況−音響イベント生成モデル１３、行動−音響イベント生成モデル１４を用い、音響特徴量列２３に対応する行動や状況を推定する。

図２１に例示するように、本実施例のモデル処理装置１４２０は、音響イベント判定部１１２−１，・・・，１１２−Ｓ，２１２、音響イベントモデルＤＢ１１３、および前述のモデル処理装置１４００（図２２参照）を有する。

行動ラベル候補付き音響特徴量列１６−１，・・・，１６−Ｓは、それぞれ音響イベント判定部１１２−１，・・・，１１２−Ｓに入力され、音響特徴量列２３は、音響イベント判定部２１２に入力される。音響イベント判定部１１２−１，・・・，１１２−Ｓ，２１２は、実施例（２）−３−３で説明したように、音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓ、音響イベントラベル付き音響信号列２１を生成して出力する。音響イベントラベルおよび行動ラベル候補付き音響信号列１１−１，・・・，１１−Ｓ、音響イベントラベル付き音響信号列２１は、記憶部１３０３（図２２）に格納される。以降の処理は実施例（２）−４−１と同じである。

＜実施例（３）−１−１：図２３＞
［音響イベントラベル付き音響信号から音響信号-状況生成モデルおよび状況-音響イベントの生成モデルを、状況の時間変化を考慮に入れて算出し、同時に、状況を分析］
本実施例では、状況の時間変化を考慮に入れ、音響イベントラベル付き音響信号から、状況−音響イベント生成モデルを算出する。同時に、音響信号−状況生成モデルを算出してもよく、状況の時間遷移を表す状況遷移モデルを算出してもよく、状況の分析も行ってもよい。

すなわち、本実施例では、各時間区間の音響信号を生じさせた音響イベントの時系列の並びを表す音響イベントラベル列、および音響イベントを生じさせた状況の候補の総数を用い、「音響イベントの時系列の並びにおける、状況の候補に対応する音響イベントの組み合わせと状況の候補の時系列の並びとの同時事後確率」を最大化するための処理を含む学習処理を行う。例えば、この学習処理は、状況の時間遷移に基づく状況の出現確率および、状況における音響イベントの出現確率に基づいて、音響イベントの時系列の並びにおける、状況の候補に対する音響イベントの組み合わせと状況の候補の時系列の並びとの同時事後確率を最大化するための処理である。例えば、音響イベントの時系列の並びからなる音響イベントの組み合わせに対する尤度関数Ｐ（音響イベントの組み合わせ｜状況の候補の時系列の並び）を最大にする処理が行われる。それにより、状況の候補が音響イベントを生成する確率Ｐ（音響イベント｜状況の候補）を「状況−音響イベント生成モデル」として得る。また、この学習処理によって、音響信号列が状況を生成する確率Ｐ（状況｜音響信号列）を「音響信号−状況生成モデル」として得てもよいし、状況の候補の時系列の遷移確率を「状況遷移モデル」として得てもよい。また、この学習処理の過程で何れかの状況の候補を選択し、各音響イベントがどの状況によって生成されたのかを分析してもよい。この場合には選択した状況の候補を表す状況ラベルを出力してもよい。

図２３に例示するように、本実施例のモデル処理装置２１００は、音響信号列合成部２１０１、モデル化部２１０２、および記憶部２１０３を有する。モデル処理装置２１００は、例えば、汎用又は専用の公知のコンピュータに所定のプログラムが読み込まれることで構成される。

まず音響信号列合成部２１０１に、音響イベントラベル付き音響信号列２０１１−１，・・・，２０１１−Ｓ（ただし、Ｓは１以上の整数）が入力される。各音響イベントラベル付き音響信号列２０１１−ｓ（ただし、ｓ∈｛１，・・・，Ｓ｝）は、時系列の音響信号列２０１１ａ−ｓ、各音響信号列２０１１ａ−sに対応する音響信号列番号、前述の時間区間ごとに区分された音響信号列の各要素に対応する要素番号、および当該時間区間ごとに決定されて付与された音響イベントラベルを含む。各音響信号列２０１１ａ−ｓは音を表すデジタル信号列である。音響イベントラベルは、音響信号列の各要素に対応する音響イベントを表すラベルであり、音響信号列の要素ごとに付与される。１個の音響信号列番号には、１個以上の要素番号が対応する。

複数個の音響イベントラベル付き音響信号列２０１１−１，・・・，２０１１−Ｓ（以下、単に「ラベル付き音響信号列２０１１−１，・・・，２０１１−Ｓ」という）が音響信号列合成部２１０１に入力された場合、音響信号列合成部２１０１は、それらを時系列方向につなぎ合わせ、それによって１つの音響イベントラベル付き音響信号列２０１１（以下、単に「ラベル付き音響信号列２０１１」という）を得て出力する（合成処理）。音響信号列合成部２１０１に１つの音響信号列２０１１−１のみが入力された場合、音響信号列合成部２１０１はそれをラベル付き音響信号列２０１１として出力する。音響信号列合成部２１０１から出力された音響イベントラベル付き音響信号列は、モデル化部２１０２に入力される。なお、音響信号列合成部２１０１を経由することなく、１つラベル付き音響信号列２０１１がそのままモデル化部２１０２に入力されてもよい。また、ラベル付き音響信号列２０１１が含む合成された音響信号列２０１１ａ−１，・・・，２０１１ａ−Ｓの並びを音響信号列２０１１ａと表記する。

モデル化部２１０２は、以下の手順に従って、入力されたラベル付き音響信号列２０１１から、音響信号−状況生成モデル１２、および状況−音響イベント生成モデル１３の少なくとも何れかを生成し、それらを記憶部２１０３に格納する。モデル化部１０２は、状況の候補の遷移を表す状況遷移モデル２０１７を生成してもよいし、状況ラベル１９を生成してもよい。生成された状況遷移モデル２０１７や状況ラベル１９も記憶部２１０３に格納される。

［状況から音響イベントが生成される過程の論理的説明］
モデル化部２１０２は、ラベル付き音響信号列２０１１から、音響信号列が状況の候補を生成する確率Ｐ（状況の候補｜音響信号列）としたときの音響信号−状況生成モデル１２と、状況の候補が音響イベントを生成する確率Ｐ（音響イベント｜状況の候補）としたときの状況−音響イベント生成モデル１３の少なくとも何れかを算出する。つまり本実施例では、音響信号列が潜在的な場の状況の生成確率を規定し、状況が音響イベントの生成確率を規定すると考え、これらの関係を各生成モデルとして記述する。また、状況の候補の時系列の遷移確率を算出し、状況遷移モデル２０１７を得てもよい。

合成された音響信号列における状況の候補の生成確率Θ’、状況の候補における音響イベントの生成確率Φ’、音響信号列の集合Ω’が与えられた場合における、音響イベントの列ｅの生成確率Ｐ（ｅ｜Π’,Θ’，Φ’，Ω’）は以下の通りである。

ただし、Ｓは合成された音響信号列２０１１ａに含まれる音響信号列２０１１ａ−ｓ（ただし、ｓ∈｛１，・・・，Ｓ｝）の個数、Ｔは状況の候補の総数、Ｅは音響イベントの総数（音響イベントの種類の個数）、ｅはラベル付き音響信号列２０１１に与えられた音響イベントの列（ベクトル）、Π’は各時間区間の状況の候補ｔ（ただし、ｔ∈｛１，・・・，Ｔ｝）が次の時間区間で状況の候補ｔ’（ただし、ｔ’∈｛１，・・・，Ｔ｝）に遷移する確率を（ｔ，ｔ’）要素とするＴ×Ｔ行列、Θ’は音響信号列２０１１ａ−ｓ（ただし、ｓ∈｛１，・・・，Ｓ｝）が状況の候補ｔ（ただし、ｔ∈｛１，・・・，Ｔ｝）を生成する確率Ｐ（ｔ｜ｓ）を（ｓ，ｔ）要素とするＳ×Ｔ行列、Φ’は状況の候補ｔ（ただし、ｔ∈｛１，・・・，Ｔ｝）が音響イベントε（ただし、ε∈｛１，・・・，Ｅ｝）を生成する確率Ｐ（ε｜ｔ）を（ｔ，ε）要素とするＴ×Ｅ行列、ｅ’_ｓは音響信号列２０１１ａ−ｓに与えられた音響イベントの列（Ｎ_ｓ次元ベクトル：Ｎ_ｓは音響信号列２０１１ａ−ｓに対応する音響イベントの個数）、Ω’は音響信号列２０１１ａと成り得る列の集合を表す。

ラベル付き音響信号列２０１１に対応する状況の候補ｔの遷移確率π_ｔの事前分布のパラメータ（Ｄｉｒｉｃｈｌｅｔ分布に従うものとする）γ’、各音響信号列２０１１ａ−ｓにおける状況の候補ｔの生成確率θ_ｓの事前分布のパラメータ(Ｄｉｒｉｃｈｌｅｔ分布に従うものとする)α’、状況の候補ｔにおける音響イベントεの生成確率φ_ｔの事前分布のパラメータ（Ｄｉｒｉｃｈｌｅｔ分布に従うものとする）β’が与えられたときの、音響イベントの列ｅ’_ｓの生成確率Ｐ（ｅ’_ｓ，Π’，Θ’，Φ’｜γ’，α’，β’）は、以下の通りである。

ただし、ｅ_ｉはラベル付き音響信号列２０１１−ｓの要素番号ｉに対応する音響イベントラベルが表す音響イベント、Ｎ_ｓはラベル付き音響信号列２０１１−ｓの要素数（要素番号ｉの最大値）、ｚ_ｉは音響信号列２０１１ａ−ｓの要素番号ｉに対応する音響信号が表す状況の候補、π’^tｉ−１ _tｉは音響信号列２０１１ａ−ｓの要素番号ｉ−１に対応する音響信号が表す状況の候補ｔ_ｉ−１から要素番号ｉに対応する音響信号が表す状況の候補ｔ_ｉへの遷移確率を表す。また、φ_ｔは状況の候補ｔが音響イベントε（ただし、ε∈｛１，・・・，Ｅ｝）を生成する確率Ｐ（ε｜ｔ）をε番目の要素とするＥ次元ベクトルを表す。θ_ｓは音響信号列２０１１ａ−ｓが状況の候補ｔ（ただし、ｔ∈｛１，・・・，Ｔ｝）を生成する確率Ｐ（ｔ｜ｓ）をｔ番目の要素とするＴ次元ベクトルを表す。

［生成モデルの算出過程の説明］
モデル化部２１０２は、入力されたラベル付き音響信号列２０１１から、音響信号列が状況の候補を生成する確率Ｐ（状況の候補｜音響信号列）を算出し、それを音響信号−状況生成モデル１２として記憶部２１０３に格納する。モデル化部２１０２は、状況の候補が音響イベントを生成する確率Ｐ（音響イベント｜状況の候補）を算出し、それを状況−音響イベント生成モデル１３として記憶部２１０３に格納してもよい。また、モデル化部２１０２は、状況の候補の遷移確率を算出し、それを状況遷移モデル２０１７として記憶部２１０３に格納してもよい。

さらにモデル化部２１０２は、入力されたラベル付き音響信号列２０１１に対して尤もらしい状況を表す状況ラベル１９を選択して外部に出力したり、記憶部２１０３に格納したりしてもよい。選択される状況ラベル１９は、各時間区間に対して１個でもよいし、複数個でもよい。また、各時間区間において尤もらしさが閾値を超えたすべての状況を表すラベルを状況ラベル１９の列を外部に出力したり、記憶部２１０３に格納したりしてもよい。

音響信号−状況生成モデル１２および状況−音響イベント生成モデル１３の算出は、入力されたラベル付き音響信号列２０１１の音響イベントの時系列の並びにおける、状況の候補に対応する音響イベントの組み合わせと状況の候補の時系列の並びとの同時事後確率を最大化する処理を用いて行われる。例えば、マルコフ連鎖モンテカルロ法（ＭＣＭＣ法：Markov Chain Monte Carlo methods）や変分ベイズ法（ＶＢ法：Variational Bayes methods）などの手法を用いることができる。ＭＣＭＣ法には，Ｍ−Ｈアルゴリズムやギブスサンプリングなどの手法がある。ここでは一例としてギブスサンプリングによる生成モデルの算出手法を説明する。

［生成モデルの算出方法の例示］
(i)モデル化部２１０２は、ハイパパラメータとしてパラメータα’，β’およびγ’を事前に決定する。
(ii)モデル化部２１０２は、全ての音響信号列２０１１ａ−ｓ（ただしｓ＝１，...，Ｓ）の全ての要素番号ｉに対応する要素に状況の候補ｔ_ｉをランダムに割り当てる。また、要素番号ｉに対応する要素への状況の候補ｔ_ｉの割り当ては、事前にモデル化部２１０２に設定しておいた割り当てであってもよい。

(iii)モデル化部２１０２は、全ての音響信号列２０１１ａ−ｓ（ただしｓ＝１，...，Ｓ）の各要素番号ｉ（要素番号ｉ−１またはｉ＋１に対応する要素が存在しない要素番号ｉを除く）について、以下の(iii-1)および(iii-2)を交互に、規定の回数（正値であり、例えば１〜３０００回程度）、もしくは、所望の結果が得られるまで（例えば、割り当ての前後において、状況の割り当て先の変化が一定の閾値（例えば０．３％）以下になるまでなど）繰り返す。

(iii-1)モデル化部２１０２は、以下の式により、更新対象のラベル付き音響信号列の要素番号ｉを除いた要素番号に対応する音響信号列に対して、要素番号ｉの要素に状況の候補ｚ_ｉに割り当てられる確率分布Ｐ（ｚ_ｉ｜ｚ_−ｉ，ｅ_−ｉ，α’，β’，γ’）を更新する。

ただし、Ｃ_εｔ ^ＥＴは更新対象のラベル付き音響信号列（初期値はラベル付き音響信号列２０１１）で音響イベントεに状況ｔが割り当てられた回数を表し、Ｃ_ｔｓ ^ＴＳは更新対象のラベル付き音響信号列で状況ｔが更新対象の音響信号列（初期値は音響信号列２０１１ａ−ｓ）に割り当てられた回数を表す。なお、表記制約上の都合から「Ｃ_εｔ ^ＥＴ」「Ｃ_ｔｓ ^ＴＳ」と表記するが、本来は式（３３）に示すように「Ｃ_εｔ ^ＥＴ」の「ＥＴ」は「εｔ」の上に表記され、「Ｃ_ｔｓ ^ＴＳ」の「ＴＳ」は「ｔｓ」の上に表記される。ｚ_−ｉは要素番号ｉ以外の要素番号に対応する状況からなる列、ｅ_−ｉは要素番号ｉ以外の要素番号に対応する音響イベントからなる列を表す。また、ｔ_ｉ−１＝ｔ_ｉのときにＩ（ｔ_ｉ−１＝ｔ_ｉ）＝１、ｔ_ｉ−１≠ｔ_ｉのときにＩ（ｔ_ｉ−１＝ｔ_ｉ）＝０となり、ｔ_ｉ＝ｔ_ｉ＋１のときにＩ（ｔ_ｉ＝ｔ_ｉ＋１）＝１、ｔ_ｉ≠ｔ_ｉ＋１ｉのときにＩ（ｔ_ｉ＝ｔ_ｉ＋１）＝０となる。

(iii-2)モデル化部２１０２は、上記の更新式（３３）で得られた確率分布Ｐ（ｚ_ｉ｜ｚ_−ｉ，ｅ_−ｉ，α’，β’，γ’）に従って、各要素番号ｉの要素に割り当てる状況の候補ｚ_ｉをサンプリング（選択）する。モデル化部２１０２は、このようにサンプリングした状況の候補ｚ_ｉを要素番号ｉの要素に割り当て、要素番号ｉに対応する状況の候補を更新する。これにより更新対象のラベル付き音響信号列を更新する。

(iv)モデル化部２１０２は、上記の(iii-1)(iii-2)の繰り返しによって最終的に得られたＣ_εｔ ^ＥＴ，Ｃ_ｔｓ ^ＴＳおよびＲ^ｔｉ _ｔｉ＋１を用い、以下を計算する。

これによってモデル化部２１０２は、状況が音響イベントを生成する確率φ_εｔ（ただし、ｔ∈｛１，・・・，Ｔ｝，ε∈｛１，・・・，Ｅ｝）の集合を得、それを状況−音響イベント生成モデル１３とする。例えばモデル化部２１０２は、確率φ_εｔを（ｔ，ε）要素とするＴ×Ｅ行列を状況−音響イベント生成モデル１３とする。また、モデル化部２１０２は、音響信号列が状況を生成する確率θ_ｔｓ（ただし、ｓ∈｛１，・・・，Ｓ｝，ｔ∈｛１，・・・，Ｔ｝）の集合を得、それを音響信号−状況生成モデル１２とする。例えばモデル化部２１０２は、確率θ_ｔｓを（ｓ，ｔ）要素とするＳ×Ｔ行列を音響信号−状況生成モデル１２とする。また、モデル化部２１０２は、これによって状況の候補の遷移確率π’^ｔｉ _ｔｉ＋１（ただし、ｔ_ｉ，ｔ_ｉ+１∈｛１，・・・，Ｔ｝）の集合を得、それを状況遷移モデル２０１７とする。例えばモデル化部２１０２は、ｔ_ｉ，ｔ_ｉ+１∈｛１，・・・，Ｔ｝に対応する遷移確率π’^ｔｉ _ｔｉ＋１を（ｔ_ｉ，ｔ_ｉ+１）要素とするＴ×Ｔ行列を状況遷移モデル２０１７とする。

或いは、モデル化部２１０２は、(iii-1)の繰り返し処理時に、式（３３）の算出過程で確率φ_εｔ，θ_ｔｓ，π’^ｔｉ _ｔｉ＋１をそれぞれ１個以上サンプリング（計算）し、式（３４）（３５）（３６）に代えて、サンプリングされた確率φ_εｔの平均値、確率θ_ｔｓの平均値、およびπ’^ｔｉ _ｔｉ＋１の平均値を用い、それぞれ、状況−音響イベント生成モデル１３、音響信号−状況生成モデル２０１２、および状況遷移モデル２０１７を得てもよい。

また、上記更新過程でサンプリング（選択）し、各要素番号ｉの要素に割り当てた状況の候補ｚ_ｉを分析することで、各ラベル付き音響信号列２０１１−ｓの音響信号列がどの状況によって生成されたかを知ることができる。モデル化部１１０２は、このように各要素番号ｉの要素に割り当てた状況の候補ｚ_ｉを表すラベル、またはそれらの一部を状況ラベル１９として出力してもよい。

本実施例では、音響信号が状況を生成する確率や状況が音響イベントを生成する確率のみでなく、状況の時間遷移確率も考慮して学習処理を行うことで、遷移確率によって特徴付けられる状況を精度よくモデル化できる。また、遷移確率によって特徴付けられる状況を精度よく分析できる。

＜実施例（３）−１−２：図２５＞
［音響信号列から音響信号-状況生成モデル、状況−音響イベント生成モデルおよび状況遷移モデルを算出し、状況を分析］
本実施例では、音響信号列２０１５−１，・・・，２０１５−Ｓを入力とし、状況の時間変化を考慮に入れ、音響信号−状況生成モデル２０１２、状況−音響イベント生成モデル１３、状況遷移モデル２０１７の少なくとも何れかを得る。すなわち、本実施例では、音響信号から音響特徴量を得、得られた音響特徴量を用いて音響イベントを決定し、それによって音響イベントラベル列を得てから学習処理を行い、音響信号−状況生成モデル２０１２、状況−音響イベント生成モデル１３、状況遷移モデル２０１７の少なくとも何れかを得る。また状況の分析を行ってもよい。

図２５に例示するように、本実施例のモデル処理装置２１１０は、特徴量算出部１１１、音響イベント判定部１１２、音響イベントモデルデータベース（ＤＢ）１１３、音響信号列合成部２１０１、モデル化部２１０２、および記憶部２１０３を有する。モデル処理装置２１１０は、例えば、汎用又は専用の公知のコンピュータに所定のプログラムが読み込まれることで構成される。

まず特徴量算出部１１１に音響信号列２０１５−１，・・・，２０１５−Ｓが入力される。各音響信号列２０１５−ｓ（ただし、ｓ∈｛１，・・・，Ｓ｝）は、前述の時間区間ごとに区分された要素からなり、各要素には要素番号が付されている。

特徴量算出部１１１は、各音響信号列２０１５−ｓから、それぞれに対応する音響特徴量列（ベクトル）を算出して出力する。音響特徴量列の具体例は、実施例（１）−１−２と同じである。

音響イベント判定部１１２は、各要素番号ｉに対して決定した音響イベントを表す音響イベントラベルを、音響信号列２０１５−ｓの各要素番号ｉの要素に付与する。音響イベント判定部１１２は、この処理を入力された音響信号列２０１５−１，・・・，２０１５−Ｓのすべての要素（すべての要素番号ｉ）について行い、その結果得られる音響イベントラベル付き音響信号列２０１１−１，・・・，２０１１−Ｓを出力する。

音響イベントラベル付き音響信号列２０１１−１，・・・，２０１１−Ｓは、音響信号列合成部２１０１に入力される。以降の処理は実施例（３）−１−１と同じである。

なお、音響信号列合成部２１０１で音響イベントラベル付き音響信号列２０１１−１，・・・，２０１１−Ｓの合成処理を行うことに代えて、特徴量算出部１１１の前段で音響信号列２０１５−１，・・・，２０１５−Ｓの合成処理を行っても良いし、音響イベント判定部１１２の前段で音響特徴量列の合成処理を行っても良い。

＜実施例（３）−１−３：図２６＞
［音響特徴量列から音響信号-状況生成モデル、状況−音響イベント生成モデルおよび状況遷移モデルを算出し、状況を分析］
本実施例では、音響特徴量列２０１６−１，・・・，２０１６−Ｓを入力とし、状況の時間変化を考慮に入れ、音響信号−状況生成モデル２０１２、状況−音響イベント生成モデル１３、状況遷移モデル２０１７の少なくとも何れかを得る。すなわち、本実施例では、音響信号から音響特徴量を得、得られた音響特徴量を用いて音響イベントを決定し、それによって音響イベントラベル列を得てから学習処理を行い、音響信号−状況生成モデル２０１２、状況−音響イベント生成モデル１３、状況遷移モデル２０１７の少なくとも何れかを得る。また状況の分析を行ってもよい。

図２６に例示するように、本実施例のモデル処理装置２１２０は、音響イベント判定部１１２、音響イベントモデルデータベース（ＤＢ）１１３、音響信号列合成部２１０１、モデル化部２１０２、および記憶部２１０３を有する。モデル処理装置２１２０は、例えば、汎用又は専用の公知のコンピュータに所定のプログラムが読み込まれることで構成される。

まず音響イベント判定部１１２に、音響特徴量列２０１６−１，・・・，２０１６−Ｓが入力される。音響イベント判定部１１２は、実施例（１）−１−２で例示した方法等によって、音響特徴量列２０１６−１，・・・，２０１６−Ｓを用いて各要素番号ｉに対して音響イベントを決定する。音響イベント判定部１１２は、各要素番号ｉに対して決定した音響イベントを表す音響イベントラベルを、音響特徴量列２０１６−ｓの各要素番号ｉの要素に付与する。音響イベント判定部１１２は、この処理を音響特徴量列２０１６−１，・・・，２０１６−Ｓのすべての要素（すべての要素番号ｉ）について行い、その結果得られる音響イベントラベル付き音響信号列２０１１−１，・・・，２０１１−Ｓを出力する。

なお、音響信号列合成部２１０１で合成処理を行うことに代えて、音響イベント判定部１１２の前段で音響特徴量列２０１６−１，・・・，２０１６−Ｓの合成処理を行っても良い。

＜実施例（３）−２−１：図２７＞
［音響イベントラベル付き音響信号列から状況を推定］
本実施例では、実施例（３）−１−１〜（３）−１−３で説明したように得られた状況−音響イベント生成モデル１３および/または状況遷移モデルを用い、新たに入力された音響イベントラベル付き音響信号列から状況を推定する。

図２７に例示するように、本実施例のモデル処理装置２２００は、記憶部２１０３および生成モデル比較部２２０１を有する。モデル処理装置２２００は、例えば、汎用又は専用の公知のコンピュータに所定のプログラムが読み込まれることで構成される。

まず生成モデル比較部２２０１に音響イベントラベル付き音響信号列２０２１が入力される。音響イベントラベル付き音響信号列２０２１は、前述の時間区間ごとに区分された時系列の音響信号列、当該時間区間ごとに区分された音響信号列の各要素に対応する要素番号、および当該時間区間ごとに決定されて付与された音響イベントラベルを含む。要素番号および音響イベントラベルは、音響信号列の要素ごとに付与される。

生成モデル比較部２２０１は、入力された音響イベントラベル付き音響信号列２０２１と、記憶部２１０３に格納された状況−音響イベント生成モデル１３および/または状況遷移モデルとを比較し、音響イベントラベル付き音響信号列２０２１に対し、最も適切であると判断した状況、又は最も適切なものから順番に複数個の状況を決定し、それらを推定結果として出力する。具体的には、例えば、実施例（２）−２−１の生成モデル比較部１２０１と同じ方法で、音響イベントラベル付き音響信号列２０２１に対応する状況の推定を行うことができる。入力された音響イベントラベル付き音響信号列２０２１の音響イベントの分布と、状況の候補に対応する確率Ｐ（音響イベント｜状況の候補）で表される音響イベントの分布との近さに基づいて、状況が推定されてもよい。また、入力された音響イベントラベル付き音響信号列２０２１の音響イベントの時系列の並びに対する、確率Ｐ（音響イベント｜状況の候補）のもとでの、状況の候補の尤もらしさに基づいて、状況が推定されてもよい。

＜実施例（３）−２−２：図２８＞
［音響信号列から状況を推定］
本実施例では、実施例（３）−１−１〜（３）−１−３で説明したように得られた状況−音響イベント生成モデル１３および/または状況遷移モデルを用い、新たに入力された音響信号列から状況を推定する。

図２８に例示するように、本実施例のモデル処理装置２２１０は、特徴量算出部２１１、音響イベント判定部２１２、音響イベントモデルＤＢ１１３、記憶部２１０３、生成モデル比較部２２０１を有する。モデル処理装置２２１０は、例えば、汎用又は専用の公知のコンピュータに所定のプログラムが読み込まれることで構成される。

音響イベント判定部２１２は、前述した音響イベント判定部１１２と同じ方法で、特徴量算出部２１１から出力された音響特徴量列と、音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとをそれぞれ比較し、音響信号列２２の全ての要素について音響イベントを決定する。音響イベント判定部２１２は、決定した音響イベントを表す音響イベントラベルを音響信号列２２の各要素に付することで、音響イベントラベル付き音響信号列２０２１を生成して出力する。

音響イベントラベル付き音響信号列２０２１は、生成モデル比較部２２０１に入力される。以降の処理は実施例（３）−２−１と同じである。

＜実施例（３）−２−３：図２９＞
[音響特徴量から状況を推定]
本実施例では、実施例（３）−１−１〜（３）−１−３で説明したように得られた状況−音響イベント生成モデル１３および/または状況遷移モデルを用い、新たに入力された音響特徴量列から状況を推定する。

図２９に例示するように、本実施例のモデル処理装置２２２０は、音響イベント判定部２１２、音響イベントモデルＤＢ１１３、記憶部２１０３、生成モデル比較部２２０１を有する。モデル処理装置２２２０は、例えば、汎用又は専用の公知のコンピュータに所定のプログラムが読み込まれることで構成される。

まず音響イベント判定部２１２に音響特徴量列２３が入力される。音響イベント判定部２１２は、前述した音響イベント判定部１１２と同じ方法で、音響特徴量列２３の音響特徴量列と、音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとをそれぞれ比較し、音響特徴量列２３が含む全ての要素について音響イベントを決定する。音響イベント判定部２１２は、決定した各要素の音響イベントを表す音響イベントラベルを、音響特徴量列２３が含む音響信号列に付することで、音響イベントラベル付き音響信号列２０２１を生成して出力する。

＜実施例（３）−３−１：図３０＞
［音響イベントラベル付き音響信号列から状況を推定すると共に、状況−音響イベント生成モデル、音響信号−状況生成モデル、および状況遷移モデルを算出］
本実施例は実施例（３）−１−１と実施例（３）−２−１の組み合わせである。本実施例では、音響イベントラベル付き音響信号列２０２１を入力として状況を推定することに加え、音響イベントラベル付き音響信号列２０１１−１，・・・，２０１１−Ｓを入力とし、音響信号−状況生成モデル１２、および状況−音響イベント生成モデル１３の少なくとも何れかの算出も行う。さらに状況遷移モデル２０１７や状況ラベル１９の生成を行ってもよい。

図３０に例示するように、本実施例のモデル処理装置２３００は、記憶部２１０３，２３０３、音響信号列合成部３０１、モデル化部２１０２、および生成モデル比較部２２０１を有する。モデル処理装置２３００は、例えば、汎用又は専用の公知のコンピュータに所定のプログラムが読み込まれることで構成される。

記憶部２３０３には、前述した音響イベントラベル付き音響信号列２０１１−１，・・・，２０１１−Ｓ、および前述した音響イベントラベル付き音響信号列２０２１が格納されている。

音響イベントラベル付き音響信号列２０１１−１，・・・，２０１１−Ｓ，２０２１は音響信号列合成部３０１に入力される。音響信号列合成部３０１は、音響イベントラベル付き音響信号列２０１１−１，・・・，２０１１−Ｓ，２０２１を時系列方向につなぎ合わせて一つの音響イベントラベル付き音響信号列を生成し、モデル化部２１０２に送出する。モデル化部２１０２は、実施例（３）−１−１で説明したように、入力された音響イベントラベル付き音響信号列から、音響信号−状況生成モデル２０１２、および状況−音響イベント生成モデル１３を生成し、それらを記憶部２１０３に格納する。また、実施例（３）−１−１で説明したように、モデル化部２１０２が状況遷移モデル２０１７を生成して記憶部２１０３に格納してもよいし、状況ラベル１９を生成して記憶部２１０３に格納してもよい。

音響イベントラベル付き音響信号列２０２１は生成モデル比較部２２０１に入力される。音響イベントラベル付き音響信号列２０２１は、実施例（３）−２−１で説明したように、入力された音響イベントラベル付き音響信号列２０２１と、記憶部２１０３に格納された状況−音響イベント生成モデル１３および/または状況遷移モデルとを比較し、音響イベントラベル付き音響信号列２０２１に対し、最も適切であると判断した状況、又は最も適切なものから順番に複数個の状況を選択し、それらを推定結果として出力する。

さらに、音響イベントラベル付き音響信号列２０２１が、音響イベントラベル付き音響信号列２０１１−１，・・・，２０１１−Ｓとともに音響信号列合成部３０１に入力されてもよい。この場合、音響信号列合成部３０１は、入力されたすべての音響イベントラベル付き音響信号列２０１１−１，・・・，２０１１−Ｓ，２０２１を時系列方向につなぎ合わせ（合成）、それによって一つの音響イベントラベル付き音響信号列２０１１’（「第３音響イベントラベル列」）を得て出力する。モデル化部１１０２は、実施例（３）−１−１のラベル付き音響信号列２０１１（「音響イベントラベル列」）に代えて、音響イベントラベル付き音響信号列２０１１’（「第３音響イベントラベル列」）を用い、再度、実施例（３）−１−１で説明したように、音響信号−状況生成モデル２０１２、および状況−音響イベント生成モデル１３の少なくとも何れかを生成し、それを記憶部２１０３に格納する。さらにモデル化部１１０２が、ラベル付き音響信号列２０１１に代えて、入力された音響イベントラベル付き音響信号列２０１１’を用い、再度、実施例（３）−１−１で説明したように、状況遷移モデル２０１７を生成して記憶部２１０３に格納してもよいし、状況ラベル１９を生成して記憶部２１０３に格納してもよい。

また、生成モデル比較部２２０１の処理およびモデル化部２１０２の処理のどちらを先に行っても良い。ただし、モデル化部２１０２の処理を行う前に生成モデル比較部２２０１の処理を行う場合、記憶部２１０３に予め得られた各生成モデルおよび/または状況遷移モデルが格納されている必要がある。

また、音響イベントラベル付き音響信号列２０２１が、新たに入力された音響イベントラベル付き音響信号列とともに音響信号列合成部３０１に入力されてもよい。この場合、音響信号列合成部３０１がこれらを時系列方向につなぎ合わせ（合成）、それによって一つの音響イベントラベル付き音響信号列（「第３音響イベントラベル列」）を得て、モデル化部２１０２に送出してもよい。
その他の処理は実施例（３）−１−１および実施例（３）−２−１と同様とする。

＜実施例（３）−３−２：図３１＞
［音響信号列から状況を推定すると共に、状況−音響イベントの生成モデル、音響信号−状況生成モデル、および状況遷移モデルを算出］
本実施例は、実施例（３）−１−２と実施例（３）−２−２の組み合わせである。
本実施例では、音響信号列２０１５−１，・・・，２０１５−Ｓ，２２を入力として、学習によって、音響信号−状況生成モデル１２、および状況−音響イベント生成モデル１３の少なくとも何れかを算出する。さらに状況遷移モデル２０１７や状況ラベル１９の生成を行ってもよい。さらに本実施例では、状況−音響イベント生成モデル１３および/または状況遷移モデルを用い、音響信号列２２から状況を推定する。

図３１に例示するように、本実施例のモデル処理装置３１０は、特徴量算出部１１１−１，・・・，１１１−Ｓ，２１１、音響イベント判定部１１２−１，・・・，１１２−Ｓ，２１２、音響イベントモデルＤＢ１１３、および前述のモデル処理装置２３００（図３０参照）を有する。

音響信号列２０１５−１，・・・，２０１５−Ｓは、それぞれ特徴量算出部１１１−１，・・・，１１１−Ｓに入力される。特徴量算出部１１１−１，・・・，１１１−Ｓは、実施例（１）−１−２で説明したように、音響信号列２０１５−１，・・・，２０１５−Ｓから、それぞれ音響特徴量列を得て出力する。音響イベント判定部１１２−１，・・・，１１２−Ｓは、それぞれ、前述の音響イベント判定部１１２と同様に、入力された音響特徴量列と音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとから、音響イベントラベル付き音響信号列２０１１−１，・・・，２０１１−Ｓを生成して出力する。

音響信号列２２は特徴量算出部２１１に入力される。特徴量算出部２１１は、実施例（１）−２−２で説明したように、音響信号列２２から音響特徴量列（ベクトル）を算出して出力する。音響イベント判定部２１２は、実施例（１）−２−２で説明したように、入力された音響特徴量列と音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとから、音響イベントラベル付き音響信号列２０２１を生成して出力する。

音響イベントラベル付き音響信号列２０１１−１，・・・，２０１１−Ｓ、２０２１は、記憶部２３０３（図３０）に格納される。以降の処理は実施例（３）−３−１と同じである。

＜実施例（３）−３−３：図３２＞
［音響特徴量から状況を推定すると共に、状況−音響イベント生成モデル、音響信号−状況生成モデル、および状況遷移モデルを算出］
本実施例は、実施例（３）−１−３と実施例（３）−２−３の組み合わせである。
本実施例では、音響特徴量列２０１６−１，・・・，２０１６−Ｓ，２３を入力として、学習によって、音響信号−状況生成モデル１２、および状況−音響イベント生成モデル１３の少なくとも何れかを算出する。状況遷移モデル２０１７や状況ラベル１９の生成を行ってもよい。さらに本実施例では、音響信号−状況生成モデル１２、および状況−音響イベント生成モデル１３を用い、音響特徴量列２３から状況を推定する。

図３２に例示するように、本実施例のモデル処理装置２３２０は、音響イベント判定部１１２−１，・・・，１１２−Ｓ，２１２、音響イベントモデルＤＢ１１３、および前述のモデル処理装置２３００（図３０参照）を有する。

音響特徴量列２０１６−１，・・・，２０１６−Ｓは、それぞれ音響イベント判定部１１２−１，・・・，１１２−Ｓに入力される。音響イベント判定部１１２−１，・・・，１１２−Ｓは、それぞれ、前述の音響イベント判定部１１２と同様に、入力された音響特徴量列と音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとから、音響イベントラベル付き音響信号列２０１１−１，・・・，２０１１−Ｓを生成して出力する。

音響特徴量列２３は音響イベント判定部２１２に入力される。音響イベント判定部２１２は、実施例（１）−２−３と同様に、入力された音響特徴量列２３の音響特徴量列と音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとから、音響イベントラベル付き音響信号列２０２１を生成して出力する。

音響イベントラベル付き音響信号列２０１１−１，・・・，２０１１−Ｓ、音響イベントラベル付き音響信号列２０２１は、記憶部２３０３（図３０）に格納される。以降の処理は実施例（２）−３−１と同じである。

＜変形例等＞
なお、本発明は上述の実施例に限定されるものではない。例えば、モデル処理装置の処理が複数の装置で分散処理されてもよいし、上記の各実施例で記憶部やＤＢに格納された各データが複数の記憶部やＤＢに分散して格納されてもよい。例えば、行動−状況生成モデル、状況−音響イベント生成モデル、行動−音響イベント生成モデル、音響信号−状況生成モデル等の生成モデルや、行動遷移モデルや状況遷移モデル等が互いに異なる記憶部に格納されてもよい。

音響信号列を使用しない場合（例えば、実施例（１）−１−１等）には、音響イベントラベルおよび行動ラベル候補付き音響信号列に代えて、音響イベントラベルおよび行動ラベル候補列が用いられてもよい。同様に、音響信号列を使用しない場合（例えば、実施例（１）−３−１等）には、音響イベントラベル付き音響信号列に代えて、音響イベントラベル列が用いられてもよい。また、音響イベントラベル列と行動ラベル候補列とが別々に入力されてもよい。

音響イベントラベルおよび行動ラベル候補列の例は、音響イベントラベルおよび行動ラベル候補付き音響信号列から音響信号列を除いた列である。また、音響イベントラベル列の例は、音響イベントラベル付き音響信号列から音響信号列を除いた列である。

また、ラベル列が時系列の順に入力され順次処理されるのであれば、音響イベントラベル付き音響信号列、音響イベントラベルおよび行動ラベル候補付き音響信号列等が要素番号を含まなくてもよい。

また、各実施例のモデル処理装置が行動や状況の分析を行う場合には分析装置として機能する。各実施例のモデル処理装置が、生成モデルを出力することなく、行動や状況の分析のみを行い、その推定結果を出力してもよい。

上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な（non-transitory）記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。

このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。

上記実施形態では、コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されたが、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。

Claims

少なくとも、各時間区間の音響信号を生じさせた音響イベントの時系列の並びを表す音響イベントラベル列、ならびに、前記音響イベントを生じさせた行動の候補を表す行動ラベル候補および前記音響イベントを生じさせた状況の候補の総数の少なくとも一方を用い、
前記音響イベントの時系列の並びにおける、前記行動の候補に対応する前記音響イベントの組み合わせと前記行動の候補の時系列の並びとの同時事後確率、
前記音響イベントの時系列の並びにおける、前記行動の候補に対応する前記音響イベントの組み合わせと前記行動の候補の時系列の並びと前記行動の候補に対応する前記状況の候補の組み合わせとの同時事後確率、または
前記音響イベントの時系列の並びにおける、前記状況の候補に対応する前記音響イベントの組み合わせと前記状況の候補の時系列の並びとの同時事後確率
の何れかを最大化するための処理を含む学習処理によって、行動の候補が音響イベントを生成する確率Ｐ（音響イベント｜行動の候補）および状況の候補が音響イベントを生成する確率Ｐ（音響イベント｜状況の候補）の少なくとも一方を得るモデル化部
を有するモデル処理装置。
請求項１のモデル処理装置であって、
前記モデル化部は、
前記学習処理によって、行動の候補の時系列の遷移確率、および状況の候補の時系列の遷移確率の少なくとも一方を得る、モデル処理装置。
請求項１または２のモデル処理装置であって、
前記モデル化部は、
少なくとも、前記音響イベントラベル列および前記行動ラベル候補を用い、前記音響イベントの時系列の並びにおける、前記行動の候補に対応する前記音響イベントの組み合わせと前記行動の候補の時系列の並びとの同時事後確率を最大化するための処理を含む学習処理によって、少なくとも、前記確率Ｐ（音響イベント｜行動の候補）を得る、モデル処理装置。
請求項１または２のモデル処理装置であって、
前記モデル化部は、
少なくとも、前記音響イベントラベル列、前記行動ラベル候補、および前記状況の候補の総数を用い、前記音響イベントの時系列の並びにおける、前記行動の候補に対応する前記音響イベントの組み合わせと前記行動の候補の時系列の並びと前記行動の候補に対応する前記状況の候補の組み合わせとの同時事後確率を最大化するための処理を含む学習処理によって、少なくとも、前記確率Ｐ（音響イベント｜状況の候補）、および行動の候補が状況の候補を生成する確率Ｐ（状況の候補｜行動の候補）を得る、モデル処理装置。
請求項１または２のモデル処理装置であって、
前記モデル化部は、
少なくとも、前記音響イベントラベル列、前記行動ラベル候補、および前記状況の候補の総数を用い、前記音響イベントの時系列の並びにおける、前記行動の候補に対応する前記音響イベントの組み合わせと前記行動の候補の時系列の並びおよび/または状況の時系列の並びと前記行動の候補に対応する前記状況の候補の組み合わせとの同時事後確率を最大化するための処理を含む学習処理によって、
前記確率Ｐ（音響イベント｜行動の候補）および前記確率Ｐ（音響イベント｜状況の候補）の少なくとも一方を得る、モデル処理装置。
請求項１または２のモデル処理装置であって、
前記モデル化部は、
少なくとも、前記音響イベントラベル列、および前記状況の候補の総数を用い、前記音響イベントの時系列の並びにおける、前記状況の候補に対応する前記音響イベントの組み合わせと前記状況の候補の時系列の並びとの同時事後確率を最大化するための処理を含む学習処理によって、少なくとも、前記確率Ｐ（音響イベント｜状況の候補）を得る、モデル処理装置。
請求項１から６の何れかのモデル処理装置であって、
前記音響信号に対応する音響特徴量を用いて前記音響イベントを決定し、前記音響イベントラベル列を得る音響イベント判定部を有する、モデル処理装置。
請求項７のモデル処理装置であって、
前記音響信号から音響特徴量を得る特徴量算出部を有し、
前記音響イベント判定部は、前記特徴量算出部で得られた前記音響特徴量を用いて前記音響イベントを決定し、
前記音響特徴量は、音圧レベル、音響パワー、ＭＦＣＣ特徴量、ＬＰＣ特徴量、立ち上がり特性、調波性、時間周期性の何れかを含む、モデル処理装置。
少なくとも、行動の候補が音響イベントを生成する確率Ｐ（音響イベント｜行動の候補）および状況の候補が音響イベントを生成する確率Ｐ（音響イベント｜状況の候補）の少なくとも一方、ならびに、各時間区間の音響信号を生じさせた第２音響イベントの時系列の並びを表す第２音響イベントラベル列を用い、
前記第２音響イベントの時系列の並びに対する、前記確率Ｐ（音響イベント｜行動の候補）のもとでの、行動の候補の尤もらしさ、
前記第２音響イベントの分布と、行動の候補に対応する前記確率Ｐ（音響イベント｜行動の候補）で表される音響イベントの分布との近さ、
前記第２音響イベントの時系列の並びに対する、前記確率Ｐ（音響イベント｜状況の候補）のもとでの、状況の候補の尤もらしさ、および
前記第２音響イベントの分布と、状況の候補に対応する前記確率Ｐ（音響イベント｜状況の候補）で表される音響イベントの分布との近さ、
の少なくとも何れかに基づいて、行動の候補の何れかおよび状況の候補の何れかの少なくとも一方を選択する生成モデル比較部
を有するモデル処理装置。
少なくとも、請求項３の確率Ｐ（音響イベント｜行動の候補）、ならびに
各時間区間の音響信号を生じさせた第２音響イベントの時系列の並びを表す第２音響イベントラベル列を用い、
前記第２音響イベントの時系列の並びに対する、前記確率Ｐ（音響イベント｜行動の候補）のもとでの、行動の候補の尤もらしさ、および
前記第２音響イベントの分布と、行動の候補に対応する前記確率Ｐ（音響イベント｜行動の候補）で表される音響イベントの分布との近さ、
の少なくとも何れかに基づいて、少なくとも、行動の候補の何れかを選択する生成モデル比較部を有するモデル処理装置。
少なくとも、請求項４の確率Ｐ（音響イベント｜行動の候補）、および前記確率Ｐ（音響イベント｜状況の候補）、ならびに
各時間区間の音響信号を生じさせた第２音響イベントの時系列の並びを表す第２音響イベントラベル列を用い、
前記第２音響イベントの時系列の並びに対する、前記確率Ｐ（音響イベント｜行動の候補）のもとでの、行動の候補の尤もらしさ、
前記第２音響イベントの分布と、行動の候補に対応する前記確率Ｐ（音響イベント｜行動の候補）で表される音響イベントの分布との近さ、
前記第２音響イベントの時系列の並びに対する、前記確率Ｐ（音響イベント｜状況の候補）のもとでの、状況の候補の尤もらしさ、および
前記第２音響イベントの分布と、状況の候補に対応する前記確率Ｐ（音響イベント｜状況の候補）で表される音響イベントの分布との近さ、
の少なくとも何れかに基づいて、少なくとも、行動の候補の何れかおよび状況の候補の何れかを選択する生成モデル比較部を有するモデル処理装置。
少なくとも、請求項５の確率Ｐ（音響イベント｜状況の候補）、ならびに
各時間区間の音響信号を生じさせた第２音響イベントの時系列の並びを表す第２音響イベントラベル列を用い、
前記第２音響イベントの時系列の並びに対する、前記確率Ｐ（音響イベント｜状況の候補）のもとでの、状況の候補の尤もらしさ、および
前記第２音響イベントの分布と、状況の候補に対応する前記確率Ｐ（音響イベント｜状況の候補）で表される音響イベントの分布との近さ、
の少なくとも何れかに基づいて、少なくとも、状況の候補の何れかを選択する生成モデル比較部を有するモデル処理装置。
請求項１から３の何れかのモデル処理装置であって、
少なくとも、前記確率Ｐ（音響イベント｜行動の候補）、ならびに
各時間区間の音響信号を生じさせた第２音響イベントの時系列の並びを表す第２音響イベントラベル列を用い、
前記第２音響イベントの時系列の並びに対する、前記確率Ｐ（音響イベント｜行動の候補）のもとでの、行動の候補の尤もらしさ、および
前記第２音響イベントの分布と、行動の候補に対応する前記確率Ｐ（音響イベント｜行動の候補）で表される音響イベントの分布との近さ、
の少なくとも何れかに基づいて、行動の候補の何れかを選択する生成モデル比較部と、
少なくとも、前記前記第２音響イベントラベル列を含む第３音響イベントラベル列、および前記生成モデル比較部で選択された行動の候補を表す第２行動ラベル候補を含む第３行動ラベル候補を用い、
前記第３音響イベントラベル列が表す第３音響イベントの時系列の並びにおける、前記第３行動ラベル候補が表す行動の候補に対応する音響イベントの組み合わせと前記第３行動ラベル候補が表す行動の候補の時系列の並びとの同時事後確率を最大化するための処理を含む学習処理によって、行動の候補が音響イベントを生成する確率Ｐ２（音響イベント｜行動の候補）を得る第２モデル化部と、
を有するモデル処理装置。
請求項１，２または４のモデル処理装置であって、
少なくとも、前記確率Ｐ（音響イベント｜行動の候補）、および前記確率Ｐ（音響イベント｜状況の候補）、ならびに
各時間区間の音響信号を生じさせた第２音響イベントの時系列の並びを表す第２音響イベントラベル列を用い、
前記第２音響イベントの時系列の並びに対する、前記確率Ｐ（音響イベント｜行動の候補）のもとでの、行動の候補の尤もらしさ、
前記第２音響イベントの分布と、行動の候補に対応する前記確率Ｐ（音響イベント｜行動の候補）で表される音響イベントの分布との近さ、
前記第２音響イベントの時系列の並びに対する、前記確率Ｐ（音響イベント｜状況の候補）のもとでの、状況の候補の尤もらしさ、および
前記第２音響イベントの分布と、状況の候補に対応する前記確率Ｐ（音響イベント｜状況の候補）で表される音響イベントの分布との近さ、
の少なくとも何れかに基づいて、行動の候補の何れかおよび状況の候補の何れかを選択する生成モデル比較部と、
少なくとも、前記第２音響イベントラベル列を含む第３音響イベントラベル列、前記生成モデル比較部で選択された行動の候補を表す第２行動ラベル候補を含む第３行動ラベル候補を用い、
前記第３音響イベントラベル列が表す第３音響イベントの時系列の並びにおける、前記第３行動ラベル候補が表す行動の候補に対応する前記第３音響イベントの組み合わせと、前記第３行動ラベル候補が表す行動の候補の時系列の並びと、前記第３行動ラベル候補が表す行動の候補に対応する状況の候補の組み合わせと、の同時事後確率を最大化するための処理を含む学習処理によって、行動の候補が音響イベントを生成する確率Ｐ２（音響イベント｜行動の候補）、および状況の候補が音響イベントを生成する確率Ｐ２（音響イベント｜状況の候補）を得る第２モデル化部と、
を有するモデル処理装置。
請求項１，２または５のモデル処理装置であって、
少なくとも、前記確率Ｐ（音響イベント｜状況の候補）、ならびに
各時間区間の音響信号を生じさせた第２音響イベントの時系列の並びを表す第２音響イベントラベル列を用い、
前記第２音響イベントの時系列の並びに対する、前記確率Ｐ（音響イベント｜状況の候補）のもとでの、状況の候補の尤もらしさ、および
前記第２音響イベントの分布と、状況の候補に対応する前記確率Ｐ（音響イベント｜状況の候補）で表される音響イベントの分布との近さ、
の少なくとも何れかに基づいて、状況の候補の何れかを選択する生成モデル比較部と、
少なくとも、前記第２音響イベントラベル列を含む第３音響イベントラベル列を用い、
前記第３音響イベントラベル列が表す第３音響イベントの時系列の並びにおける、状況の候補に対応する前記第３音響イベントラベル列が表す第３音響イベントの組み合わせと当該状況の候補の時系列の並びとの同時事後確率を最大化するための処理を含む学習処理によって、状況の候補が音響イベントを生成する確率Ｐ２（音響イベント｜状況の候補）を得る第２モデル化部と、
を有するモデル処理装置。
請求項１から３の何れかのモデル処理装置であって
前記音響イベントの時系列の並びは、前記行動ラベル候補によって行動の候補が表された第４音響イベントの時系列の並び、および前記行動ラベル候補によって行動の候補が表されていない第５音響イベントの時系列の並びを含み、
前記モデル化部は、前記第５音響イベントを生じさせた行動の候補として特別なシンボルを用いて前記学習処理を行い、前記確率Ｐ（音響イベント｜状況の候補）を得る、モデル処理装置。
請求項１，２，４の何れかのモデル処理装置であって、
前記音響イベントの時系列の並びは、前記行動ラベル候補によって行動の候補が表された第４音響イベントの時系列の並び、および前記行動ラベル候補によって行動の候補が表されていない第５音響イベントの時系列の並びを含み、
前記モデル化部は、前記第５音響イベントを生じさせた行動の候補として特別なシンボルを用いて前記学習処理を行い、前記確率Ｐ（音響イベント｜行動の候補）および前記確率Ｐ（音響イベント｜状況の候補）を得る、モデル処理装置。
請求項９から１７の何れかのモデル処理装置であって、
前記音響信号に対応する音響特徴量を用いて前記第２音響イベントを決定し、前記第２音響イベントラベル列を得る音響イベント判定部を有するモデル処理装置。
請求項１８のモデル処理装置であって、
前記音響信号から音響特徴量を得る特徴量算出部、を有し、
前記音響イベント判定部は、前記特徴量算出部で得られた前記音響特徴量を用いて前記音響イベントを決定し、
前記音響特徴量は、音圧レベル、音響パワー、ＭＦＣＣ特徴量、ＬＰＣ特徴量、立ち上がり特性、調波性、時間周期性の何れかを含む、モデル処理装置。
少なくとも、各時間区間の音響信号を生じさせた音響イベントの時系列の並びを表す音響イベントラベル列、ならびに、前記音響イベントを生じさせた行動の候補を表す行動ラベル候補および前記音響イベントを生じさせた状況の候補の総数の少なくとも一方を用い、
前記音響イベントの時系列の並びにおける、前記行動の候補に対応する前記音響イベントの組み合わせと前記行動の候補の時系列の並びとの同時事後確率、
前記音響イベントの時系列の並びにおける、前記行動の候補に対応する前記音響イベントの組み合わせと前記行動の候補の時系列の並びと前記行動の候補に対応する前記状況の候補の組み合わせとの同時事後確率、または
前記音響イベントの時系列の並びにおける、前記状況の候補に対応する前記音響イベントの組み合わせと前記状況の候補の時系列の並びとの同時事後確率
の何れかを最大化するための処理を含む処理を行って、行動の候補の何れかおよび状況の候補の何れかの少なくとも一方を選択する分析装置。
モデル処理装置によって行われるモデル処理方法であって、
少なくとも、各時間区間の音響信号を生じさせた音響イベントの時系列の並びを表す音響イベントラベル列、ならびに、前記音響イベントを生じさせた行動の候補を表す行動ラベル候補および前記音響イベントを生じさせた状況の候補の総数の少なくとも一方を用い、
前記音響イベントの時系列の並びにおける、前記行動の候補に対応する前記音響イベントの組み合わせと前記行動の候補の時系列の並びとの同時事後確率、
前記音響イベントの時系列の並びにおける、前記行動の候補に対応する前記音響イベントの組み合わせと前記行動の候補の時系列の並びと前記行動の候補に対応する前記状況の候補の組み合わせとの同時事後確率、または
前記音響イベントの時系列の並びにおける、前記状況の候補に対応する前記音響イベントの組み合わせと前記状況の候補の時系列の並びとの同時事後確率
の何れかを最大化するための処理を含む学習処理によって、行動の候補が音響イベントを生成する確率Ｐ（音響イベント｜行動の候補）および状況の候補が音響イベントを生成する確率Ｐ（音響イベント｜状況の候補）の少なくとも一方を得る、モデル処理方法。
モデル処理装置によって行われるモデル処理方法であって、
少なくとも、行動の候補が音響イベントを生成する確率Ｐ（音響イベント｜行動の候補）および状況の候補が音響イベントを生成する確率Ｐ（音響イベント｜状況の候補）の少なくとも一方、ならびに、
各時間区間の音響信号を生じさせた第２音響イベントの時系列の並びを表す第２音響イベントラベル列を用い、
前記第２音響イベントの時系列の並びに対する、前記確率Ｐ（音響イベント｜行動の候補）のもとでの、行動の候補の尤もらしさ、
前記第２音響イベントの分布と、行動の候補に対応する前記確率Ｐ（音響イベント｜行動の候補）で表される音響イベントの分布との近さ、
前記第２音響イベントの時系列の並びに対する、前記確率Ｐ（音響イベント｜状況の候補）のもとでの、状況の候補の尤もらしさ、および
前記第２音響イベントの分布と、状況の候補に対応する前記確率Ｐ（音響イベント｜状況の候補）で表される音響イベントの分布との近さ、
の少なくとも何れかに基づいて、行動の候補の何れかおよび状況の候補の何れかの少なくとも一方を選択する、モデル処理方法。
分析装置によって行われる分析方法であって、
少なくとも、各時間区間の音響信号を生じさせた音響イベントの時系列の並びを表す音響イベントラベル列、ならびに、前記音響イベントを生じさせた行動の候補を表す行動ラベル候補および前記音響イベントを生じさせた状況の候補の総数の少なくとも一方を用い、
前記音響イベントの時系列の並びにおける、前記行動の候補に対応する前記音響イベントの組み合わせと前記行動の候補の時系列の並びとの同時事後確率、
前記音響イベントの時系列の並びにおける、前記行動の候補に対応する前記音響イベントの組み合わせと前記行動の候補の時系列の並びと前記行動の候補に対応する前記状況の候補の組み合わせとの同時事後確率、または
前記音響イベントの時系列の並びにおける、前記状況の候補に対応する前記音響イベントの組み合わせと前記状況の候補の時系列の並びとの同時事後確率
の何れかを最大化するための処理を含む処理を行って、行動の候補の何れかおよび状況の候補の何れかの少なくとも一方を選択する分析方法。
請求項１から１９の何れかのモデル処理装置、または請求項２０の分析装置としてコンピュータを機能させるためのプログラム。