JP5781040B2

JP5781040B2 - 行動推定装置およびそのプログラム

Info

Publication number: JP5781040B2
Application number: JP2012192226A
Authority: JP
Inventors: 桂右井本; 島内　末廣; 末廣島内; 仲大室; 羽田　陽一; 陽一羽田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-08-31
Filing date: 2012-08-31
Publication date: 2015-09-16
Anticipated expiration: 2032-08-31
Also published as: JP2014048523A

Description

この発明は、行動情報及び音響イベント情報を利用して行動生成モデルを作成する技術、及び、作成された行動生成モデルを利用して行動を推定する技術に関する。

非特許文献１に開示された従来技術では、行動（例えば、人が料理をしている行動等）を表す音響信号に対して、短時間（２０ｍｓｅｃ〜１００ｍｓｅｃ程度）ごとにその短時間音響信号が何の音（足音，水が流れる音；以後、音響イベントとする）であるかを示すラベルが付与された、音響イベントラベル付き音響信号列を入力とし、連続する有限個のフレーム分の音響イベントラベルを用いて音響イベントラベルごとのヒストグラムを作成する。また、生成された音響イベントラベルごとのヒストグラムに対してＧＭＭ（Gaussian Mixture Model）、ＨＭＭ（Hidden Markov Model）、ＳＶＭ（Support Vector Machine）等のモデル化手法を用い、行動モデルを生成する。

さらに、上記行動モデルと新たに入力されたラベル付き音響信号列から算出された音響イベントのヒストグラムをそれぞれ比較し（例えば、ユークリッド距離やコサイン距離などを用いて比較する）、複数の行動モデルのうち、最も判断基準に適合しているものをその音響信号列に対応する行動を表すと判定する。このように、従来技術では音響信号列から行動を推定することができる。

井本他，「複数の生活音の出現頻度に基づくユーザ行動の識別手法とコミュニケーションへの応用」，画像電子学会第３２回ＶＭＡ研究会

従来技術では、モデル算出に利用するデータが表す音響イベントの発生頻度そのものを直接モデル化している。このような方法では、他の音響イベントの発生頻度を適切にモデル化できない。このような方法で生成された行動モデルは、モデル算出に利用したデータに過剰にフィッティングしてしまう。そのため、従来技術によって算出された行動モデルを用いて行動識別を行う際、モデル算出に利用するデータから、わずかに異なるデータが入力されただけでも、類似度が非常に低い行動と判定されてしまう。しかしながら、行動モデルを算出する際に利用したデータと、推定時に入力されるデータがほぼ同一であることは稀である。よって、従来技術の行動モデルの利用は、行動推定精度の劣化につながる。

本発明では、生成されたモデルがモデル算出に利用されたデータに過剰にフィッティングすることなく、新たなデータに対して精度のよい行動推定を行うことを可能にする技術を提供する。

本発明では、行動の内容を表す行動情報と、行動に付随する音響イベントを表す音響イベント情報と、を含む学習用情報を用い、行動が音響イベントを生成する確率をＰ（音響イベント｜行動）としたときの行動−音響イベント生成モデルを得る。

本発明では、音響イベントの発生頻度そのものを直接モデル化するのではなく、生成モデルの生成過程を、確率Ｐ（音響イベント｜行動）によって確率的に取り扱う。これにより、生成モデルがそのモデル算出に利用されたデータに過剰にフィッティングすることを抑制でき、新たなデータに対して精度のよい推定を行うことが可能となる。

第１実施形態の行動生成モデル作成装置のブロック図。音響イベントラベル及び行動ラベル付き音響信号列を例示した図。第１実施形態の変形例１の行動生成モデル作成装置のブロック図。第１実施形態の変形例２の行動生成モデル作成装置のブロック図。第２実施形態の行動推定装置のブロック図。第２実施形態の変形例１の行動推定装置のブロック図。第２実施形態の変形例２の行動推定装置のブロック図。第３実施形態の行動推定装置のブロック図。第３，４実施形態の変形例１の行動推定装置のブロック図。第３，４実施形態の変形例２の行動推定装置のブロック図。第４実施形態の行動推定装置のブロック図。

以下、図面を参照して本発明の実施形態を説明する。
＜用語の定義＞
実施形態で用いる用語を定義する。
「行動」とは、人間、動物、装置などの主体が行う何らかの行動を意味する。「行動」の具体例は「料理」「掃除」などである。
「音響イベント」とは、行動に伴って発生する音の事象を意味する。「音響イベント」の具体例は、「包丁の音」「水が流れる音」「水音」「着火音」「火の音」「足音」「掃除機の排気音」などである。例えば、「包丁の音」「水が流れる音」等は、「料理」という行動に伴って発生する音響イベントである。
「ＸがＹを生成する確率」とは、事象Ｘが起こるという条件のもとでの事象Ｙが起こる確率をいう。「ＸがＹを生成する確率」は、「ＸのもとでのＹの条件付き確率」や「ＸにおけるＹの条件付き確率」とも表現できる。

＜第１実施形態＞
第１実施形態では、学習用情報として音響イベントラベル及び行動ラベル付き音響信号を入力とし、学習によって、行動が音響イベントを生成する確率をＰ（音響イベント｜行動）としたときの行動−音響イベント生成モデルを算出する。

図１に例示するように、本形態の行動生成モデル作成装置１００は、音響信号列合成部１０１、行動モデル化部１０２、及び記憶部１０３を有する。行動生成モデル作成装置１００は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。

まず音響信号列合成部１０１に、音響イベントラベル及び行動ラベル付き音響信号列１１−１，・・・，１１−Ｄ（ただし、Ｄは１以上の整数）が入力される。図２に例示するように、音響イベントラベル及び行動ラベル付き音響信号列は、短時間（数１０ｍｓｅｃ〜数ｓｅｃ）ごとに区分された時系列の音響信号列、短時間ごとに区分された音響信号列の各要素に対応する要素番号、短時間ごとに決定されて付与された音響イベントラベル（「音響イベント情報」に相当）、及び長時間（数ｓｅｃ以上）ごとに決定されて短時間ごとに付与された行動ラベル（「行動情報」に相当）を含む。音響信号列は行動に付随する音を表すデジタル信号列（例えば、５〜２０秒程度のデジタル信号列）である。音響信号列は、例えば単一又は複数の行動がなされる環境での録音によって得られる。音響イベントラベルは、行動に付随する音響イベントを表すラベルである。行動ラベルは、行動の内容を表すラベルである。要素番号、音響イベントラベル及び行動ラベルは、音響信号列の要素ごとに付与される。１つの音響信号列に複数種類の行動ラベルが対応してもよい。また、１つの要素番号に複数種類の行動ラベルが対応してもよい。

複数個の音響イベントラベル及び行動ラベル付き音響信号列１１−１，・・・，１１−Ｄ（以下、単に「ラベル付き音響信号列１１−１，・・・，１１−Ｄ」という）が音響信号列合成部１０１に入力された場合、音響信号列合成部１０１は、それらを時系列方向につなぎ合わせ、それによって１つの音響イベントラベル及び行動ラベル付き音響信号列１１（以下、単に「ラベル付き音響信号列１１」という）を得て出力する（合成処理）。音響信号列合成部１０１に１つの音響信号列１１−１のみが入力された場合、音響信号列合成部１０１はそれをラベル付き音響信号列１１として出力する。音響信号列合成部１０１から出力された音響イベントラベル及び行動ラベル付き音響信号列は、行動モデル化部１０２に入力される。なお、音響信号列合成部１０１を経由することなく、１つラベル付き音響信号列１１がそのまま行動モデル化部１０２に入力されてもよい。

行動モデル化部１０２は、以下の手順に従って、入力されたラベル付き音響信号列１１から、行動−音響イベント生成モデル１４を生成し、それを記憶部１０３に格納する。

［行動から音響イベントが生成される過程の論理的説明］
行動モデル化部１０２は、ラベル付き音響信号列１１から、行動が音響イベントを生成する確率Ｐ（音響イベント｜行動）を算出し、それに対応する行動−音響イベント生成モデル１４を得る。つまり本形態では、行動が音響イベントの生成確率を規定すると考え、この関係を生成モデルとして記述する。

生成確率Φ及び行動の列Ωが与えられた場合における、音響イベントの列ｅの生成確率Ｐ（ｅ｜Φ，Ω）は以下の通りである。

ただし、Ａは行動の種類の個数、Ｅは音響イベントの種類の個数、ｅはラベル付き音響信号列１１に与えられた音響イベントの列（ベクトル）、Φは行動ａ（ただし、ａ∈｛１，・・・，Ａ｝）が音響イベントε（ただし、ε∈｛１，・・・，Ｅ｝）を生成する確率Ｐ（ε｜ｔ）を（ｔ，ε）要素とするＡ×Ｅ行列、Ωはラベル付き音響信号列１１を構成する、ラベル付き音響信号列１１−ｄに付与される行動の集合の列（ただし、各ラベル付き音響信号列１１−ｄには複数個の行動が付与されてもよい）、ｅ’_ｄは各ラベル付き音響信号列１１−ｄに与えられた音響イベントの列（Ｎ_ｄ次元ベクトル：Ｎ_ｄはラベル付き音響信号列１１−ｄに対応する音響イベントの個数）、ａ_ｄはラベル付き音響信号列１１−ｄに付与され得る行動の集合、Ｄはラベル付き音響信号列１１を構成するラベル付き音響信号列１１−ｄの個数を表す。なお、Ωとａ_ｄの関係は以下のように表される。
Ω＝[ａ_１,ａ_２,…,ａ_ｄ,…,ａ_Ｄ］

生成確率Φ及び行動の集合の列Ωが与えられたときの、音響イベントの列ｅ’_ｄの生成確率Ｐ（ｅ’_ｄ｜Φ，Ω）は、以下の通りである。

ただし、ｅ_ｉはラベル付き音響信号列１１−ｄの要素番号ｉに対応する音響イベントラベルが表す音響イベント、Ｎ_ｄはラベル付き音響信号列１１−ｄに対応する要素数（要素番号ｉの最大値）、ｘ_ｉはラベル付き音響信号列１１−ｄの要素番号ｉに対応する行動ラベルが表す行動、Ａ_ｄはラベル付き音響信号列１１−ｄの行動ラベルが表す行動の総数（行動の種類数）、φ_aは行動ａが音響イベントε（ただし、ε∈｛１，・・・，Ｅ｝）を生成する確率Ｐ（ε｜a）をε番目の要素とするＥ次元ベクトル、φ_ｅｉ，ａ（下付き添え字の「ｅｉ，ａ」は「ｅ_ｉ，ａ」）は行動ａが音響イベントｅ_ｉを生成する確率Ｐ（ｅ_ｉ｜ａ）、βはφ_ａ及びφ_ｅｉ，ａが従うＤｉｒｉｃｈｌｅｔ分布の性質を決める超パラメータ（例えば０．０１などの非負値をとる）、Ｕｎｉ（・｜・）は一様分布を表す。ここで、Ｐ（ｘ_ｉ＝ａ｜ａ_ｄ）は一様分布に従い、Ｐ（φ_ａ｜β）はそれぞれβをパラメータとするＤｉｒｉｃｈｌｅｔ分布に従うと仮定する。Ｗ−１次（Ｗは２以上の整数）のＤｉｒｉｃｈｌｅｔ分布の確率密度関数は以下の通りである。

ただし、Γはガンマ関数を表す。

［生成モデルの算出過程の説明］
行動モデル化部１０２は、行動が音響イベントを生成する確率Ｐ（音響イベント｜行動）を算出し、それに対応する行動−音響イベント生成モデル１４を算出する。

行動−音響イベント生成モデル１４の算出には、マルコフ連鎖モンテカルロ法（ＭＣＭＣ法：Markov Chain Monte Carlo methods）や変分ベイズ法（ＶＢ法：Variational Bayes methods）などの手法を用いることができる。また、ＭＣＭＣ法には，Ｍ−Ｈアルゴリズムやギブスサンプリングなどの手法があるが、ここではギブスサンプリングによる生成モデルの算出手法について説明を行う。

［生成モデルの算出方法の例示］
以下に、ギブスサンプリングを用いた行動−音響イベント生成モデル１４の算出方法を例示する。

(I)行動モデル化部１０２は、ハイパパラメータβを決定する。ハイパパラメータβは、行動モデル化部１０２が持つ記憶部にあらかじめ保存された値を用いても良いし、ランダムに決定しても良い。また、ハイパパラメータβは、行動モデル化部１０２が持つ記憶部にあらかじめ保存された値やランダムに決定された値を初期値として、以下の手順により算出、更新してもよい。

(II)行動モデル化部１０２は、入力されたラベル付き音響信号列１１が含む音響信号列の各要素に行動ａを一様分布に従って割り当てる。ただし、行動ａの割り当ては、各ラベル付き音響信号列１１−ｄに与えられた行動ａ_ｄから一様分布に従って行われる。或いは、行動モデル化部１０２は、事前に行動モデル化部１０２に設定されていた方法に従って、音響信号列の各要素に行動ａを割り当ててもよい。

さらにＤ≧２の場合、行動モデル化部１０２は、ラベル付き音響信号列１１が含む音響信号の各要素に対して要素番号ｉを付与しなおす。すなわち、ラベル付き音響信号列１１が含むすべての要素に対して互いに異なる要素番号ｉ（ただし、ｉ∈｛１，・・・，Ｕ｝）を付与する。ただし、Ｕはラベル付き音響信号列１１に対応する要素の総数であり、Ｕ＝Ｎ_１＋・・・＋Ｎ_Ｄを満たす。

行動モデル化部１０２は、各要素に行動ａが割り当てられ、要素番号ｉが付与しなおされた（Ｄ≧２の場合）音響信号列を、「更新対象のラベル付き音響信号列」の初期値とする。

(III)行動モデル化部１０２は、更新対象のラベル付き音響信号列の全ての要素（要素番号ｉ∈｛１，・・・，Ｎ｝）について、以下の(III-1)及び(III-2)を規定の回数（正値、１〜１０００回程度）、若しくは、所望の結果が得られるまで（例えば、割り当ての前後において、行動の割り当て先の変化が一定の閾値（例えば３０％）以下になるまでなど）繰り返す。

(III-1)行動モデル化部１０２は、更新対象のラベル付き音響信号列について、要素番号ｉの音響イベントεに行動ａが割り当てられる確率分布を、全ての行動ａについて更新する。以下に、更新後の確率分布Ｐ（ｘ_ｉ＝ａ｜ｅ_ｉ＝ε，ｘ_−ｉ，ｅ_−ｉ，Ω，β）を示す。

ただし、Ｃ_εａ ^ＥＡは更新対象のラベル付き音響信号列で音響イベントεに行動ａが割り当てられた回数を表す。なお、表記制約上の都合から「Ｃ_εａ ^ＥＡ」と表記するが、本来は式（３）に示すように「Ｃ_εａ ^ＥＡ」の「ＥＡ」は「εａ」の上に表記される。また、ｘ_−ｉは要素番号ｉ以外の要素番号に対応する行動からなる列、ｅ_−ｉは要素番号ｉ以外の要素番号に対応する音響イベントからなる列を表す。

(III-2)行動モデル化部１０２は、上記の更新式（３）で得られた確率分布Ｐ（ｘ_ｉ＝ａ｜ｅ_ｉ＝ε，ｘ_−ｉ，ｅ_−ｉ，Ω，β）に従って、各要素番号ｉの要素に割り当てる行動をランダムにサンプリングする。行動モデル化部１０２は、このようにサンプリングした行動を各要素番号ｉの要素に割り当て、更新対象のラベル付き音響信号列を更新する。

(IV)行動モデル化部１０２は、上記の(III-1)(III-2)の繰り返しによって最終的に得られたＣ_εａ ^ＥＡを用い、以下を計算する。

これによって行動モデル化部１０２は、行動が音響イベントを生成する確率φ_εａ（ただし、ａ∈｛１，・・・，Ａ｝，ε∈｛１，・・・，Ｅ｝）の集合を得、それを行動−音響イベント生成モデル１４とする。例えば行動モデル化部１０２は、確率φ_εａを（ａ，ε）要素とするＡ×Ｅ行列を行動−音響イベント生成モデル１４とする。

或いは、行動モデル化部１０２は、(III-1)の繰り返し処理時に、式（３）の算出過程で得られる確率φ_εａをそれぞれ１個以上サンプリングし、式（４）に代えて、サンプリングされた確率φ_εａの平均値を用い、行動−音響イベント生成モデル１４を得てもよい。

また行動モデル化部１０２は、(III)に示す更新処理を１回行うごとに、以下に示す更新式を用いてハイパパラメータβを更新することも可能である。

ただし、β_ｎｅｘｔは更新後のハイパパラメータβであり、ψ（ｚ）はディガンマ関数を表す。また、ディガンマ関数は以下の式で表わされる、ガンマ関数Γ（ｚ）の対数微分である。

ただし、Γ’（ｚ）はガンマ関数Γ（ｚ）の導関数である。

また、βの更新を行った結果、βの値がある閾値δ（＞０）を超える又は下回る場合に対して、
ｉｆ β＜δ ｔｈｅｎ β＝δ
等の処理を加えてもよい。

＜第１実施形態の変形例１＞
第１実施形態の変形例１では、行動ラベル付き音響信号列（「行動情報付き音響信号列」に相当）を入力として、学習によって、行動−音響イベント生成モデル１４を算出する。以降、同一のものには同じ参照符号を付し、説明は繰り返さない。

図３に例示するように、本形態の行動生成モデル作成装置１１０は、特徴量算出部１１１、音響イベント判定部１１２、音響イベントモデルデータベース（ＤＢ）１１３、音響信号列合成部１０１、行動モデル化部１０２、及び記憶部１０３を有する。行動生成モデル作成装置１１０は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。

まず特徴量算出部１１１に行動ラベル付き音響信号列１５−１，・・・，１５−Ｄが入力される。各行動ラベル付き音響信号列１５−ｄ（ただし、ｄ∈｛１，・・・，Ｄ｝）は、短時間（数１０ｍｓｅｃ〜数ｓｅｃ）ごとに区分された時系列の音響信号列、短時間ごとに区分された音響信号列の各要素に対応する要素番号、及び長時間（数ｓｅｃ以上）ごとに決定されて短時間ごとに付与された行動ラベル（「行動情報」に相当）を含む。要素番号及び行動ラベルは、音響信号列の要素ごとに付与される。１つの音響信号列に複数種類の行動ラベルが対応してもよい。また、１つの要素番号に複数種類の行動ラベルが対応してもよい。

特徴量算出部１１１は、各行動ラベル付き音響信号列１５−ｄが含む音響信号列（「行動情報が表す行動に付随する音を表す時系列の音響信号列」に相当）から、各行動ラベル付き音響信号列１５−ｄに対応する音響特徴量列（ベクトル）を算出して出力する。例えば特徴量算出部１１１は、入力された行動ラベル付き音響信号１５−ｄが含む音響信号列に対し、前述の短時間（数１０ｍｓｅｃ〜数ｓｅｃ）からなるフレームごとに、音圧レベル、音響パワー、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficient）特徴量、ＬＰＣ（Linear Predictive Coding）特徴量などを算出し、これらを音響特徴量列として出力する。さらに立ち上がり特性、調波性、時間周期性など（例えば、非特許文献１参照）の音響特徴量が音響特徴量列に加えられてもよい。

立ち上がり特性とは、数十から数百ミリ秒ごとにおける、音響信号の大きさを表す指標の増加の度合いを表す指標である。ここで、音響信号の大きさを表す指標とは、例えば、音響信号の振幅の絶対値、音響信号の振幅の絶対値の対数値、音響信号のパワー又は音響信号のパワーの対数値である。例えば、以下の式（１０）で得られる値が０以上であればその値が立ち上がり特性とされ、式（１０）で得られる値が０未満であれば０が立ち上がり特性とされる。

ただし、ｋはフレームをＫ個の微小な時間区間（例えば１ｍｓｅｃ程度）に区分した場合の各時間区間に対応し、ｐ￣_ｋはｋ番目の時間区間でのサンプルの大きさを表す指標の代表値又は平均値を表す。なお、「サンプルの大きさを表す指標」の例は、サンプルの振幅、サンプルの振幅の絶対値、サンプルの振幅の対数値、サンプルのエネルギー、サンプルのパワー、又はサンプルのパワーの対数値などである。「サンプル」は音響信号列の各音響信号を表す。また、Δｐ￣_ｋはｐ￣_ｋの変化率を表す。例えば、Δｐ⁻ _ｋ＝ｐ⁻ _ｋ−ｐ⁻ _ｋ−１である。Δｐ⁻ _ｋ＝ｐ⁻ _ｋ＋１−ｐ⁻ _ｋとしてもよい。また、最小二乗法等の近似手法を用いてｋ番目の時間区間におけるｐ⁻ _ｋを近似した直線を求め、その時間区間におけるその直線の傾きをΔｐ⁻ _ｋとしてもよい。また、ｋ番目の時間区間を含む複数の時間区間におけるｐ￣_ｋ-κ，・・・，ｐ￣_ｋ-1，ｐ⁻ _ｋ，ｐ￣_ｋ+1,...ｐ￣_ｋ-κ’の近時曲線を求め、そのｋ番目の時間区間に対応する点での傾き（微分値）をΔｐ⁻ _ｋとしてもよい。またχを任意の文字として、χの右肩の「−」は、χの上付きバーを意味する。また式（１０）の分子における（ｐ￣_ｎ）^２を（ｐ￣_ｎ）^ｍとし、ｍを任意の値としても良い。

以下に調波性を例示する。

また、Ｎはフレームに含まれるサンプル数を表す１以上の整数、ｎはフレーム内の各サンプル点を表す１以上のＮ以下の整数、ｘ（ｎ）はサンプル点ｎでのサンプルの大きさを表す指標である。Ｒ_ｆｆ（τ）はｆ（ｎ）のラグτでの自己相関係数、ｍａｘ｛・｝は「・」の最大値を表す。ラグτは１以上Ｎ以下の整数である。Ｒ_ｆｆ（τ）は、例えば以下のように定義される。

以下に時間周期性を例示する。

ただし、Ｌは一周期とみなすサンプル数、Ｍは時間周期性の度合を計算するための周期数を表す１以上の整数、ｐ（・）はサンプルの大きさを表す指標を時間平滑化した値、ｐ￣はフレーム内でのサンプルの大きさを表す指標の平均値を表す。

音響イベントモデルＤＢ１１３には、事前に算出された音響イベントモデルが複数保存されている。各音響イベントモデルは、音響イベントラベルが付された学習用の音響信号列から音響特徴量列を算出し、各音響イベントに対応する音響特徴量列をＧＭＭ，ＨＭＭ，ＳＶＭ等の周知のモデル化手法を用いてモデル化することで得られる（例えば参考文献：奥村学、高村大也、「言語処理のための機械学習入門」コロナ社）。

例えば、ＧＭＭの場合、音響イベントごとに音響特徴量の各種別に対応する音響イベントモデルが得られる。例えば、音響特徴量列がＦ種類（Ｆが１以上の整数）の音響特徴量ｙ_ι（ただし、ι∈｛１，・・・，Ｆ｝）からなる列ｙ_１，・・・，ｙ_Ｆである場合、各音響イベントに対応する音響イベントモデルは、それぞれ、以下のような確率モデルｐ（ｙ_ι）を要素とする列ｐ（ｙ_１），・・・，ｐ（ｙ_Ｆ）となる。

ただし、ｙ_ιは音響特徴量列（ベクトル）の要素、Ｊは正規分布の混合数、π_ｊは混合係数、Ｎ（・）は正規分布の確率密度関数、μ_ｊは分布の平均、Σ_ｊは分布の分散である。

或いは、音響イベントごとに音響特徴量列が対応付けられたものが音響イベントモデルとされてもよい。

特徴量算出部１１１から出力された音響特徴量列は音響イベント判定部１１２に入力される。音響イベント判定部１１２は、入力された音響特徴量列と、音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとをそれぞれ比較し、各フレーム（各要素番号ｉに対応）の音響特徴量列に対応する音響イベントを決定する。例えばＧＭＭが音響イベントモデルとして用いられる場合、音響イベント判定部１１２は、フレーム（要素番号ｉ）ごとに、入力された音響特徴量列の各要素ρ_ι（ただし、ι∈｛１，・・・，Ｆ｝）を各音響イベントに対応する式（１３）の各確率モデルに代入し、各音響イベントに対応する確率ｐ（ρ_１）×・・・×ｐ（ρ_Ｆ）を最大にする音響イベントを決定する。或いは、例えば音響イベントごとに音響特徴量列が対応付けられた音響イベントモデルの場合、音響イベント判定部１１２は、フレーム（要素番号ｉ）ごとに、入力された音響特徴量列との距離（ユークリッド距離やコサイン距離）が最も近い音響イベントモデルに対応する音響イベントを選択する。

音響イベント判定部１１２は、各要素番号ｉに対して決定した音響イベントを表す音響イベントラベルを、行動ラベル付き音響信号列１５−ｄの各要素番号ｉの要素に付与する。音響イベント判定部１１２は、この処理を入力された行動ラベル付き音響信号列１５−１，・・・，１５−Ｄのすべての要素（すべての要素番号ｉ）について行い、その結果得られる音響イベントラベル及び行動ラベル付き音響信号列１１−１，・・・，１１−Ｄを出力する。

音響イベントラベル及び行動ラベル付き音響信号列１１−１，・・・，１１−Ｄは、音響信号列合成部１０１に入力される。以降の処理は第１実施形態と同じである。

なお、音響信号列合成部１０１で音響イベントラベル及び行動ラベル付き音響信号列１１−１，・・・，１１−Ｄの合成処理を行うことに代えて、特徴量算出部１１１の前段で行動ラベル付き音響信号列１５−１，・・・，１５−Ｄの合成処理を行っても良いし、音響イベント判定部１１２の前段で音響特徴量列の合成処理を行っても良い。

＜第１実施形態の変形例２＞
第１実施形態の変形例２では、行動ラベル付き音響特徴量列（「行動情報付き音響特徴量列」に相当）を入力として、学習によって、行動−音響イベント生成モデル１４を算出する。

図４に例示するように、本形態の行動生成モデル作成装置１２０は、音響イベント判定部１１２、音響イベントモデルデータベース（ＤＢ）１１３、音響信号列合成部１０１、行動モデル化部１０２、及び記憶部１０３を有する。行動生成モデル作成装置１２０は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。

まず音響イベント判定部１１２に、行動ラベル付き音響特徴量列１６−１，・・・，１６−Ｄが入力される。各行動ラベル付き音響特徴量列１６−ｄ（ただし、ｄ∈｛１，・・・，Ｄ｝）は、短時間（数１０ｍｓｅｃ〜数ｓｅｃ）ごとに区分された時系列の音響信号列、短時間ごとに区分された音響信号列の各要素に対応する要素番号、長時間（数ｓｅｃ以上）ごとに決定されて短時間ごとに付与された行動ラベル（「行動情報」に相当）、及び音響信号列の短時間ごとの音響特徴量列を含む。音響特徴量列の具体例は、第１実施形態で説明した通りである。

音響イベント判定部１１２は、入力された行動ラベル付き音響特徴量列１６−ｄの音響特徴量列と、音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルを、第１実施形態の変形例１で説明したようにそれぞれ比較し、各フレーム（各要素番号ｉに対応）の音響特徴量列に対応する音響イベントを決定する。音響イベント判定部１１２は、各要素番号ｉに対して決定した音響イベントを表す音響イベントラベルを、行動ラベル付き音響特徴量列１６−ｄの各要素番号ｉの要素に付与する。音響イベント判定部１１２は、この処理を行動ラベル付き音響特徴量列１６−１，・・・，１６−Ｄのすべての要素（すべての要素番号ｉ）について行い、その結果得られる音響イベントラベル及び行動ラベル付き音響信号列１１−１，・・・，１１−Ｄを出力する。

なお、音響信号列合成部１０１で音響イベントラベル及び行動ラベル付き音響信号列１１−１，・・・，１１−Ｄの合成処理を行うことに代えて、音響イベント判定部１１２の前段で音響特徴量列の合成処理を行っても良い。

＜第２実施形態＞
第２実施形態では、第１実施形態で説明したように得られた行動−音響イベント生成モデル１４を用い、新たに入力された音響イベントラベル付き音響信号列から行動を推定する。

図５に例示するように、本形態の行動推定装置２００は、記憶部１０３及び生成モデル比較部２０１を有する。行動推定装置２００は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。

まず生成モデル比較部２０１に音響イベントラベル付き音響信号列２１（「音響イベントを表す音響イベント情報を含む入力情報」に相当）が入力される。音響イベントラベル付き音響信号列２１は、短時間（数１０ｍｓｅｃ〜数ｓｅｃ）ごとに区分された時系列の音響信号列、短時間ごとに区分された音響信号列の各要素に対応する要素番号、及び短時間ごとに決定されて付与された音響イベントラベル（「音響イベント情報」に相当）を含む。要素番号及び音響イベントラベルは、音響信号列の要素ごとに付与される。

生成モデル比較部２０１は、入力された音響イベントラベル付き音響信号列２１と、記憶部１０３に格納された行動−音響イベント生成モデル１４とを比較し、音響イベントラベル付き音響信号列２１に対し、最も適切であると判断した行動、又は最も適切なものから順番に複数個の行動を決定し、それらを判定結果として出力する。

［比較方法の例１］
音響イベントラベル付き音響信号列２１と各生成モデルとの比較方法を例示する。この例では、まず生成モデル比較部２０１が、入力された音響イベントラベル付き音響信号列２１から、以下のようにｐ（ε）（ただし、ε∈｛１，・・・，Ｅ｝）を算出する。

ただし、γは事前に設定された緩和パラメータ（例えば０．０１などの非負値）を表し、Ｃ_εは、音響イベントラベル付き音響信号列２１で音響イベントεを表す音響イベントラベルが付された要素の個数を表し、Ｎ_ｓは音響イベントラベル付き音響信号列２１が含む音響信号列の要素数を表す。Ｎ_ｓ＝Ｎ_ｄであってもよいし、Ｎ_ｓ≠Ｎ_ｄであってもよい。

次に生成モデル比較部２０１は、ｐ（ε）と行動−音響イベント生成モデル１４とを、下記に記すカルバックライブラー情報量（Kullback-Leibler divergence: KL divergence）やイェンセンシャノン情報量（Jensen-Shannon divergence: JS divergence）などの情報量基準に基づいて比較することで、入力された音響イベントラベル付き音響信号列２１に対応する行動を推定する。

式（１５）又は（１６）の例の場合、生成モデル比較部２０１は、Ｐ（ε）にｐ（ε）（ただし、ε∈｛１，・・・，Ｅ｝）を代入し、Ｑ（ε）に式（４）のφ_εａ（ただし、ε∈｛１，・・・，Ｅ），ａ∈｛１，・・・，Ａ｝）を代入する。これにより、生成モデル比較部２０１は、各行動ａ∈｛１，・・・，Ａ｝に対応する情報量（合計Ａ個の情報量）を得る。

生成モデル比較部２０１は、各行動ａ∈｛１，・・・，Ａ｝について算出された情報量のうち、最も小さな情報量に対応する行動、又は、最も小さな情報量から順番に選択した複数個の情報量に対応する複数個の行動を、音響イベントラベル付き音響信号列２１に対応する行動として決定して出力する。

［比較方法の例２］
以下のように各生成モデルと音響イベントラベル付き音響信号列２１との比較を行ってもよい。この手法では、生成モデル比較部２０１が、入力されたラベル付き音響信号列２１に対し、行動−音響イベント生成モデル１４のもとでの行動の尤度の和や積を求める。以下に具体例を示す。

≪行動−音響イベント生成モデル１４のもとでの行動の尤度の和の例≫

≪行動−音響イベント生成モデル１４のもとでの行動の尤度の積の例≫

ただし、式（１７）及び（１８）のｅ_ｉは、入力された音響イベントラベル付き音響信号列２１の要素番号ｉに対応する音響イベントラベルが表す音響イベントを表す。式（１７）及び（１８）は、式（４）のφ_εａと、入力された音響イベントラベル付き音響信号列２１のｅ_ｉとから算出できる。

生成モデル比較部２０１は、各行動について算出した尤度のうち、最も尤度の高い行動、又は、最も尤度の高いものから順番に選択した複数個の行動を、入力された音響イベントラベル付き音響信号列２１に対応する行動として決定して出力する。

＜第２実施形態の変形例１＞
第２実施形態の変形例１では、第１実施形態で説明したように得られた行動−音響イベント生成モデル１４を用い、新たに入力された音響信号列から行動を推定する。

図６に例示するように、本形態の行動推定装置２１０は、特徴量算出部２１１、音響イベント判定部２１２、音響イベントモデルＤＢ１１３、記憶部１０３、生成モデル比較部２０１を有する。行動推定装置２１０は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。

まず特徴量算出部２１１にラベルなし音響信号列２２が入力される。ラベルなし音響信号列２２は、短時間（数１０ｍｓｅｃ〜数ｓｅｃ）ごとに区分された時系列の音響信号列、及び短時間ごとに区分された音響信号列の各要素に対応する要素番号を含む。

特徴量算出部２１１は、ラベルなし音響信号列２２から音響特徴量列（ベクトル）を算出して出力する。例えば特徴量算出部２１１は、第１実施形態で説明した特徴量算出部１１１と同じ方法で音響特徴量列を算出する。

音響イベント判定部２１２は、第１実施形態の音響イベント判定部１１２と同じ方法で、特徴量算出部２１１から出力された音響特徴量列と、音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとをそれぞれ比較し、ラベルなし音響信号列２２の全ての要素について音響イベントを決定する。音響イベント判定部２１２は、決定した音響イベントを表す音響イベントラベルをラベルなし音響信号列２２の各要素に付することで、音響イベントラベル付き音響信号列２１を生成して出力する。

音響イベントラベル付き音響信号列２１は、生成モデル比較部２０１に入力される。以降の処理は第２実施形態と同じである。

＜第２実施形態の変形例２＞
第２実施形態の変形例２では、第１実施形態で説明したように得られた行動−音響イベント生成モデル１４を用い、新たに入力された音響特徴量列から行動を推定する。

図７に例示するように、本形態の行動推定装置２２０は、音響イベント判定部２１２、音響イベントモデルＤＢ１１３、記憶部１０３、生成モデル比較部２０１を有する。行動推定装置２２０は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。

まず音響イベント判定部２１２にラベルなし音響特徴量列２３が入力される。ラベルなし音響特徴量列２３は、短時間（数１０ｍｓｅｃ〜数ｓｅｃ）ごとに区分された時系列の音響信号列、短時間ごとに区分された音響信号列の各要素に対応する要素番号、及び音響信号列の音響特徴量列を含む。音響特徴量列の具体例は、第１実施形態で説明した通りである。

音響イベント判定部２１２は、第１実施形態の音響イベント判定部１１２と同じ方法で、ラベルなし音響特徴量列２３の音響特徴量列と、音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとをそれぞれ比較し、ラベルなし音響特徴量列２３が含む音響信号列の全ての要素について音響イベントを決定する。音響イベント判定部２１２は、決定した各要素の音響イベントを表す音響イベントラベルを、ラベルなし音響特徴量列２３が含む音響信号列に付することで、音響イベントラベル付き音響信号列２１を生成して出力する。

＜第３実施形態＞
本形態は第１実施形態と第２実施形態の組み合わせである。
本形態では、音響イベントラベル付き音響信号列２１を入力として行動を推定することに加え、音響イベントラベル及び行動ラベル付き音響信号列１１−１，・・・，１１−Ｄを入力とし、行動−音響イベント生成モデル１４の算出も行う。さらに、推定された行動を表す行動ラベルを、音響イベントラベル付き音響信号列２１が含む音響信号列の各要素に付与することで、音響イベントラベル及び行動ラベル付き音響信号列を得、それを生成モデルの更新に利用することもできる。

図８に例示するように、本形態の行動推定装置３００は、記憶部１０３，３０３、音響信号列合成部１０１、行動モデル化部１０２、及び生成モデル比較部２０１を有する。行動推定装置３００は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。

記憶部３０３には、第１実施形態で説明した音響イベントラベル及び行動ラベル付き音響信号列１１−１，・・・，１１−Ｄ、及び第２実施形態で説明した音響イベントラベル付き音響信号列２１が格納されている。

音響イベントラベル及び行動ラベル付き音響信号列１１−１，・・・，１１−Ｄは音響信号列合成部１０１に入力される。音響信号列合成部１０１及び行動モデル化部１０２は、第１実施形態で説明したように、音響イベントラベル及び行動ラベル付き音響信号列１１−１，・・・，１１−Ｄから行動−音響イベント生成モデル１４を生成し、それを記憶部１０３に格納する。

音響イベントラベル付き音響信号列２１は生成モデル比較部２０１に入力される。音響イベントラベル付き音響信号列２１は、第２実施形態で説明したように、入力された音響イベントラベル付き音響信号列２１と、記憶部１０３に格納された行動−音響イベント生成モデル１４とを比較し、音響イベントラベル付き音響信号列２１に対し、最も適切であると判断した行動、又は最も適切なものから順番に複数個の行動を選択し、それらを判定結果として出力する。

さらに生成モデル比較部２０１は、決定した行動を表す行動ラベルを、音響イベントラベル付き音響信号列２１の対応する各要素に付与し、それによって新たな音響イベントラベル及び行動ラベル付き音響信号列２１’を生成して出力してもよい。この場合、音響イベントラベル及び行動ラベル付き音響信号列２１’が、音響イベントラベル及び行動ラベル付き音響信号列１１−１，・・・，１１−Ｄとともに音響信号列合成部１０１に入力されてもよい。この場合、音響信号列合成部１０１は、入力されたすべての音響イベントラベル及び行動ラベル付き音響信号列１１−１，・・・，１１−Ｄ，２１’を時系列方向につなぎ合わせ、それによって一つの音響イベントラベル及び行動ラベル付き音響信号列１１’を得て出力する。行動モデル化部１０２は、入力された音響イベントラベル及び行動ラベル付き音響信号列１１’から、第１実施形態で説明したように、再度、行動−音響イベント生成モデル１４を生成し、それを記憶部１０３に格納してもよい。

また、生成モデル比較部２０１の処理及び行動モデル化部１０２の処理のどちらを先に行っても良い。ただし、行動モデル化部１０２の処理を行う前に生成モデル比較部２０１の処理を行う場合、記憶部１０３に予め得られた行動−音響イベント生成モデル１４が格納されていることが必要である。

また、音響イベントラベル及び行動ラベル付き音響信号列２１’が、新たに入力された音響イベントラベル及び行動ラベル付き音響信号列とともに音響信号列合成部１０１に入力されてもよい。音響信号列合成部１０１は、これらを時系列方向につなぎ合わせ、行動モデル化部１０２に送出してもよい。
その他の処理は第１実施形態及び第２実施形態と同様とする。

＜第３実施形態の変形例１＞
本形態は第１実施形態の変形例１と第２実施形態の変形例１の組み合わせである。
本形態では、行動ラベル付き音響信号列１５−１，・・・，１５−Ｄを入力として、学習によって、行動−音響イベント生成モデル１４を算出する。さらに本形態では、行動−音響イベント生成モデル１４を用い、新たに入力されたラベルなし音響信号列２２から行動を推定する。

図９に例示するように、本形態の行動推定装置３１０は、特徴量算出部１１１−１，・・・，１１１−Ｄ，２１１、音響イベント判定部１１２−１，・・・，１１２−Ｄ，２１２、音響イベントモデルＤＢ１１３、及び第３実施形態の行動推定装置３００（図８参照）を有する。

行動ラベル付き音響信号列１５−１，・・・，１５−Ｄは、それぞれ特徴量算出部１１１−１，・・・，１１１−Ｄに入力される。特徴量算出部１１１−１，・・・，１１１−Ｄは、第１実施形態の変形例１で説明したように、行動ラベル付き音響信号列１５−１，・・・，１５−Ｄから、それぞれ音響特徴量列を得て出力する。音響イベント判定部１１２−１，・・・，１１２−Ｄは、それぞれ、第１実施形態の変形例１の音響イベント判定部１１２と同様に、入力された音響特徴量列と音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとから、音響イベントラベル及び行動ラベル付き音響信号列１１−１，・・・，１１−Ｄ（「学習用情報」に相当）を生成して出力する。

ラベルなし音響信号列２２は特徴量算出部２１１に入力される。特徴量算出部２１１は、第２実施形態の変形例１で説明したように、ラベルなし音響信号列２２から音響特徴量列（ベクトル）を算出して出力する。音響イベント判定部２１２は、第２実施形態の変形例１で説明したように、入力された音響特徴量列と音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとから、音響イベントラベル付き音響信号列２１（「入力情報」に相当）を生成して出力する。

音響イベントラベル及び行動ラベル付き音響信号列１１−１，・・・，１１−Ｄ、音響イベントラベル付き音響信号列２１は、記憶部３０３（図８）に格納される。以降の処理は第３実施形態と同じである。

＜第３実施形態の変形例２＞
本形態は第１実施形態の変形例２と第２実施形態の変形例２の組み合わせである。
本形態では、行動ラベル付き音響特徴量列１６−１，・・・，１６−Ｄを入力として、学習によって、行動−音響イベント生成モデル１４を算出する。さらに本形態では、行動−音響イベント生成モデル１４を用い、新たに入力されたラベルなし音響特徴量列２３から行動を推定する。

図１０に例示するように、本形態の行動推定装置３２０は、音響イベント判定部１１２−１，・・・，１１２−Ｄ，２１２、音響イベントモデルＤＢ１１３、及び第３実施形態の行動推定装置３００（図８参照）を有する。

行動ラベル付き音響特徴量列１６−１，・・・，１６−Ｄは、それぞれ音響イベント判定部１１２−１，・・・，１１２−Ｄに入力される。音響イベント判定部１１２−１，・・・，１１２−Ｄは、それぞれ、第１実施形態の変形例２の音響イベント判定部１１２と同様に、行動ラベル付き音響特徴量列１６−１，・・・，１６−Ｄの音響特徴量列と音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとから、音響イベントラベル及び行動ラベル付き音響信号列１１−１，・・・，１１−Ｄ（「学習用情報」に相当）を生成して出力する。

ラベルなし音響特徴量列２３は音響イベント判定部２１２に入力される。音響イベント判定部２１２は、第２実施形態の変形例２と同様に、入力されたラベルなし音響特徴量列２３の音響特徴量列と音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとから、音響イベントラベル付き音響信号列２１（「入力情報」に相当）を生成して出力する。

＜第４実施形態＞
本形態は第３実施形態の変形である。
本形態では、音響イベントラベル及び行動ラベル付き音響信号列１１−１，・・・，１１−Ｄ（「第１学習用情報」に相当）、及び音響イベントラベル付き音響信号列２１（「第２学習用情報」に相当）を入力とし、行動−音響イベント生成モデル１４を算出することに加え、音響イベントラベル付き音響信号列２１に対応する行動を推定する。さらに、推定された行動を表す行動ラベルを、音響イベントラベル付き音響信号列２１が含む音響信号列の各要素に付与することで、音響イベントラベル及び行動ラベル付き音響信号列を得、それを生成モデルの更新に利用することもできる。

図１１に例示するように、本形態の行動推定装置４００は、記憶部１０３、３０３、音響信号列合成部４０１、行動モデル化部４０２、及び生成モデル比較部４０３を有する。行動推定装置４００は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。

音響信号列合成部４０１に、音響イベントラベル及び行動ラベル付き音響信号列１１−１，・・・，１１−Ｄ（「行動の内容を表す行動情報と、行動に付随する音響イベントを表す音響イベント情報と、を含む第１学習用情報」に相当）及び音響イベントラベル付き音響信号列２１（「未知の行動に付随する音響イベントを表す音響イベント情報を含む第２学習用情報」に相当）が入力される。音響信号列合成部４０１は、音響イベントラベル及び行動ラベル付き音響信号列１１−１，・・・，１１−Ｄ、音響イベントラベル付き音響信号列２１を時系列方向につなぎ合わせ、それによって１つの音響イベントラベル及び行動ラベル付き音響信号列４１（以下、単に「ラベル付き音響信号列４１」という）を得て出力する。ラベル付き音響信号列４１は、行動モデル化部４０２に入力される。なお、予め、音響イベントラベル及び行動ラベル付き音響信号列１１−１，・・・，１１−Ｄ、音響イベントラベル付き音響信号列２１からラベル付き音響信号列４１が得られている場合には、音響信号列合成部４０１を経由することなく、ラベル付き音響信号列４１がそのまま行動モデル化部４０２に入力されてもよい。

行動モデル化部４０２は、入力されたラベル付き音響信号列４１を用い、第１実施形態の行動モデル化部１０２と同じ方法で、行動−音響イベント生成モデル１４を算出する。ただし、行動モデル化部４０２は、ラベル付き音響信号列４１に含まれる音響イベントラベル付き音響信号列２１の各要素に「行動が未知」であることを表す特別な行動ラベルが付与されているものとして算出処理を行う。すなわち行動モデル化部４０２は、「行動が未知」であることを一つの独立した「行動」（「未知の行動」と呼ぶ）とみなす。この特別な行動ラベルは、一般的な何れの行動（料理、掃除など）を表すものでもない。

すなわち行動モデル化部４０２は、行動が音響イベントを生成する確率Ｐ（音響イベント｜行動）、及び未知の行動が音響イベントを生成する確率Ｐ（音響イベント｜未知の行動）を得、それらに対応する行動−音響イベント生成モデル１４を得る。行動−音響イベント生成モデル１４は、記憶部１０３に格納される。

生成モデル比較部４０３には、行動−音響イベント生成モデル１４が入力される。生成モデル比較部４０３は、入力された行動−音響イベント生成モデル１４に対応する、確率Ｐ（音響イベント｜行動）と確率Ｐ（音響イベント｜未知の行動）とを比較し、未知の行動（音響イベントラベル付き音響信号列２１に対応する行動）の内容を推定し、それらの推定結果を出力する。例えば、生成モデル比較部４０３は、音響イベントラベル付き音響信号列２１に対し、最も適切であると判断した行動、又は最も適切なものから順番に複数個の行動を選択し、それらを判定結果として出力する。

［比較方法の例示］
生成モデル比較部４０３による比較は、例えば、第２実施形態で説明した情報量基準に基づいて行うことができる。例えば、式（１５）又は（１６）の情報量基準を用いる場合、生成モデル比較部４０３は、Ｐ（ε）に式（４）のφ_εａのうち未知の行動ａ’∈｛１，・・・，Ａ｝に対応するφ_εａ’（ただし、ε∈｛１，・・・，Ｅ）｝を代入し、Ｑ（ε）に他の行動ａ’’≠ａ’（ただし、ａ’’∈｛１，・・・，Ａ｝）に対応するφ_εａ’’（ただし、ε∈｛１，・・・，Ｅ））を代入する。これにより、生成モデル比較部４０３は、他の行動ａ’’≠ａ’（ただし、ａ’’∈｛１，・・・，Ａ｝）に対応する情報量（合計Ａ−１個の情報量）を得る。

生成モデル比較部４０３は、各行動ａ’’について算出された情報量のうち、最も小さな情報量に対応する行動、又は、最も小さな情報量から順番に選択した複数個の情報量に対応する複数個の行動を、音響イベントラベル付き音響信号列２１に対応する行動として決定して出力する。

生成モデル比較部４０３は、以上のように決定した行動を表す行動ラベルを、音響イベントラベル付き音響信号列２１の対応する各要素に付与し、それによって新たな音響イベントラベル及び行動ラベル付き音響信号列４１’を生成して出力してもよい。この場合、音響イベントラベル及び行動ラベル付き音響信号列４１’が、音響イベントラベル及び行動ラベル付き音響信号列１１−１，・・・，１１−Ｄとともに音響信号列合成部４０１に入力されてもよい。この場合、音響信号列合成部４０１は、入力されたすべての音響イベントラベル及び行動ラベル付き音響信号列１１−１，・・・，１１−Ｄ，４１’を時系列方向につなぎ合わせ、それによって一つの音響イベントラベル及び行動ラベル付き音響信号列４１’’を得て出力する。行動モデル化部４０２は、入力された音響イベントラベル及び行動ラベル付き音響信号列４１’’から、再度、行動−音響イベント生成モデル１４を生成し、それらを記憶部１０３に格納してもよい。

また、音響イベントラベル及び行動ラベル付き音響信号列２１’が、新たに入力された音響イベントラベル及び行動ラベル付き音響信号列とともに音響信号列合成部４０１に入力されてもよい。音響信号列合成部４０１は、これらを時系列方向につなぎ合わせ、行動モデル化部４０２に送出してもよい。
その他の処理は第１実施形態、第２実施形態及び第３実施形態と同様とする。

＜第４実施形態の変形例１＞
本形態は第３実施形態の変形例１の変形である。
本形態では、行動ラベル付き音響信号列１５−１，・・・，１５−Ｄ及びラベルなし音響信号列２２を入力として、学習によって、行動−音響イベント生成モデル１４を算出する。さらに本形態では、行動−音響イベント生成モデル１４を用い、ラベルなし音響信号列２２に対応する行動を推定する。

図９に例示するように、本形態の行動推定装置４１０は、特徴量算出部１１１−１，・・・，１１１−Ｄ，２１１、音響イベント判定部１１２−１，・・・，１１２−Ｄ，２１２、音響イベントモデルＤＢ１１３、及び第４実施形態の行動推定装置４００（図１１参照）を有する。

行動ラベル付き音響信号列１５−１，・・・，１５−Ｄは、それぞれ特徴量算出部１１１−１，・・・，１１１−Ｄに入力される。特徴量算出部１１１−１，・・・，１１１−Ｄは、第１実施形態の変形例１で説明したように、行動ラベル付き音響信号列１５−１，・・・，１５−Ｄから、それぞれ音響特徴量列を得て出力する。音響イベント判定部１１２−１，・・・，１１２−Ｄは、それぞれ、第１実施形態の変形例１の音響イベント判定部１１２と同様に、入力された音響特徴量列と音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとから、音響イベントラベル及び行動ラベル付き音響信号列１１−１，・・・，１１−Ｄ（「第１学習用情報」に相当）を生成して出力する。

ラベルなし音響信号列２２は特徴量算出部２１１に入力される。特徴量算出部２１１及び音響イベント判定部２１２は、第２実施形態の変形例１で説明したように、ラベルなし音響信号列２２から音響特徴量列（ベクトル）を算出して出力する。音響イベント判定部２１２は、第２実施形態の変形例１で説明したように、入力された音響特徴量列と音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとから、音響イベントラベル付き音響信号列２１（「第２学習用情報」に相当）を生成して出力する。

音響イベントラベル及び行動ラベル付き音響信号列１１−１，・・・，１１−Ｄ、音響イベントラベル付き音響信号列２１は、記憶部３０３（図１１）に格納される。以降の処理は第４実施形態と同じである。

＜第４実施形態の変形例２＞
本形態は第３実施形態の変形例２の変形である。
本形態では、行動ラベル付き音響特徴量列１６−１，・・・，１６−Ｄ及びラベルなし音響特徴量列２３を入力として、学習によって、行動−音響イベント生成モデル１４を算出する。さらに本形態では、行動−音響イベント生成モデル１４を用い、ラベルなし音響特徴量列２３に対応する行動を推定する。

図１０に例示するように、本形態の行動推定装置４２０は、音響イベント判定部１１２−１，・・・，１１２−Ｄ，２１２、音響イベントモデルＤＢ１１３、及び第４実施形態の行動推定装置４００（図１１参照）を有する。

行動ラベル付き音響特徴量列１６−１，・・・，１６−Ｄは、それぞれ音響イベント判定部１１２−１，・・・，１１２−Ｄに入力される。音響イベント判定部１１２−１，・・・，１１２−Ｄは、それぞれ、第１実施形態の変形例２の音響イベント判定部１１２と同様に、入力された音響特徴量列と音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとから、音響イベントラベル及び行動ラベル付き音響信号列１１−１，・・・，１１−Ｄ（「第１学習用情報」に相当）を生成して出力する。

ラベルなし音響特徴量列２３は音響イベント判定部２１２に入力される。音響イベント判定部２１２は、第２実施形態の変形例２と同様に、入力されたラベルなし音響特徴量列２３の音響特徴量列と音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとから、音響イベントラベル付き音響信号列２１（「第２学習用情報」に相当）を生成して出力する。

音響イベントラベル及び行動ラベル付き音響信号列１１−１，・・・，１１−Ｄ、音響イベントラベル付き音響信号列２１は、記憶部３０３（図１１）に格納される。以降の処理は第３実施形態と同じである。

＜変形例等＞
本発明は上述の各実施形態に限定されるものではない。例えば、行動生成モデル作成装置や行動推定装置の処理が複数の装置で分散処理されてもよいし、上記の各実施形態で記憶部やＤＢに格納された各データが複数の記憶部やＤＢに分散して格納されてもよい。

音響イベントラベル及び行動ラベル付き音響信号列に代えて、音響イベントラベル及び行動ラベル列が用いられてもよい。音響イベントラベル付き音響信号列に代えて、音響イベントラベル列が用いられてもよい。例えば、音響イベントラベル及び行動ラベル列のみが行動モデル化部１０２に入力されてもよし、音響イベントラベル列のみが生成モデル比較部２０１に入力されてもよいし、音響イベントラベル及び行動ラベル列、並びに音響イベントラベル列のみが行動モデル化部４０２に入力されてもよい。

音響イベントラベル及び行動ラベル列の例は、音響イベントラベル及び行動ラベル付き音響信号列から音響信号列を除いた列である。また、音響イベントラベル列の例は、音響イベントラベル付き音響信号列から音響信号列を除いた列である。ただし、ラベル列が時系列の順に入力され順次処理されるのであれば、音響イベントラベル及び行動ラベル列や音響イベントラベル列の例が要素番号を含まなくてもよい。

また、音響信号列が時系列の順に入力され順次処理されるのであれば、短時間ごとに区分された音響信号列の各要素に対応する要素番号が、音響イベントラベル付き音響信号列や、音響イベントラベル及び行動ラベル付き音響信号列に、含まれなくてもよい。

上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。各部での処理の結果得られたデータは逐一メモリに格納され、必要に応じて読み出されて利用される。

処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な（non-transitory）記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。

このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。

上記実施形態では、コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されたが、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。

１００，１１０，１２０行動生成モデル作成装置
２００，２１０，２２０，３００，３１０，３２０，４００，４１０，４２０行動推定装置

Claims

行動の内容を表す行動情報と、前記行動に付随する音響イベントを表す音響イベント情報と、を含む第１学習用情報と、未知の行動に付随する音響イベントを表す音響イベント情報を含む第２学習用情報とを用い、行動が音響イベントを生成する確率Ｐ（音響イベント｜行動）と、前記未知の行動が音響イベントを生成する確率Ｐ（音響イベント｜未知の行動）とを得る、行動モデル化部と、
前記確率Ｐ（音響イベント｜行動）と、前記確率Ｐ（音響イベント｜未知の行動）とを比較し、前記未知の行動の内容を推定する生成モデル比較部と、
を有する行動推定装置。
請求項１の行動推定装置であって、
前記行動情報が表す行動に付随する音を表す時系列の第１音響信号列から、第１音響特徴量を算出する第１特徴量算出部と、
前記第１音響特徴量を用い、音響イベントを決定する第１音響イベント判定部と、
時系列の第２音響信号列から、第２音響特徴量を算出する第２特徴量算出部と、
前記第２音響特徴量を用い、音響イベントを決定する第２音響イベント判定部と、を有し、
前記第１学習用情報が含む音響イベント情報は、前記第１音響イベント判定部で決定された前記音響イベントを表し、
前記第２学習用情報が含む音響イベント情報は、前記第２音響イベント判定部で決定された前記音響イベントを表す、
ことを特徴とする行動推定装置。
請求項１の行動推定装置であって、
前記行動情報が表す行動に付随する音を表す時系列の音響信号列に対応する第１音響特徴量を用い、音響イベントを決定する第１音響イベント判定部と、
第２音響特徴量を用い、音響イベントを決定する第２音響イベント判定部と、を有し、
前記第１学習用情報が含む音響イベント情報は、前記第１音響イベント判定部で決定された前記音響イベントを表し、
前記第２学習用情報が含む音響イベント情報は、前記第２音響イベント判定部で決定された前記音響イベントを表す、
ことを特徴とする行動推定装置。
請求項１から３の何れかの行動推定装置としてコンピュータを機能させるためのプログラム。