JP6220694B2

JP6220694B2 - モデル処理装置、その方法、およびプログラム

Info

Publication number: JP6220694B2
Application number: JP2014027139A
Authority: JP
Inventors: 桂右井本; 尚植松; 仲大室
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-10-31
Filing date: 2014-02-17
Publication date: 2017-10-25
Anticipated expiration: 2034-02-17
Also published as: JP2015111232A

Description

本発明は、状況のモデル処理技術に関する。

非特許文献１に開示された従来技術では、連続する有限個の短時間フレーム毎の音響信号が何の音を表しているか（例えば、足音や水が流れる音など。以後、「音響イベント」とする）を示す音響イベント列の生成過程を、長時間音響信号から状況が生成される過程と、状況から音響イベントが生成される過程とを考慮してモデル化し、そのパラメータを推定する。

井本他，"音響イベント列の確率的生成モデルを利用した音響トピックとユーザ行動との関係分析"，日本音響学会，２０１３年春期音響学会

上述従来技術では、事前に大規模なモデル作成用の長時間音響信号に対応する音響イベント列を用意しておき、それら全てを利用してモデルのパラメータを推定していた。そのため、モデル作成用の音響イベント列が事前に全て得られない場合はモデルの作成が困難であるという問題があった。また、全ての音響信号列に対応する音響イベント列を用いてモデルを作成するため、大規模な音響信号列に対しては、モデルの作成に要する時間や一時記憶装置が非常に大規模になるという問題点があった。

本発明は、このような点に鑑みてなされたものであり、逐次的に得られる音響イベント列を用いて状況のモデル処理を行う。

入力された音響イベント列ごとに、音響イベント列が状況を生成する確率に基づく値を、所定の条件を満たすまで更新する。音響イベント列が状況を生成する確率に基づく値が当該所定の条件を満たすまで更新された後に、状況が音響イベントを生成する確率に基づく値を求める。これにより、状況が音響イベントを生成する確率に基づく値を得るモデルを生成する。

本発明では、逐次的に得られる音響イベント列を用いて状況のモデル処理を行うことができる。

実施例１−１−１および１−１−２のモデル処理装置を例示したブロック図。実施例１−１−１および１−１−２のモデル処理方法を例示するためのフロー図。実施例１−２のモデル処理装置を例示したブロック図。実施例１−３のモデル処理装置を例示したブロック図。実施例２−１のモデル処理装置を例示したブロック図。実施例２−２のモデル処理装置を例示したブロック図。実施例２−３のモデル処理装置を例示したブロック図。

以下、図面を参照して本発明の実施形態を説明する。
＜用語の定義＞
実施例で用いる用語を定義する。
「音響イベント」とは、音の事象を意味する。各実施例では、所定の時間区間（短時間フレーム）における音響信号が表している音の事象を「音響イベント」と呼ぶことにする。「音響イベント」の具体例は、「包丁の音」「水が流れる音」「水音」「着火音」「火の音」「足音」「掃除機の排気音」などである。「音響イベント列」とは、時系列に並んだ所定の時間区間ごとの音響イベントからなる列（音響イベントの時系列）を意味する。各時間区間の音響イベントを表す要素（ラベル等）からなる時系列を「音響イベント列」と呼ぶ。音響イベント列は１個以上の要素からなる。「音響信号列」とは、各時間区間の音響信号からなる時系列である。音響信号列は１個以上の音響信号からなる。

「状況」とは、音響イベント列の組み合わせによって規定される、潜在的な音響状態を意味する。言い換えると、「状況」とは、音響イベントによって規定される、潜在的な場の状況を意味する。予め定められた有限個の「状況」が存在することにする。

「ＸがＹを生成する確率」とは、事象Ｘが起こるという条件のもとでの事象Ｙが起こる確率をいう。「ＸがＹを生成する確率」は、「ＸのもとでのＹの条件付き確率」や「ＸにおけるＹの条件付き確率」や「ＸのもとでのＹの生成確率」や「ＸにおけるＹの生成確率」や「ＸからどんなＹが出やすいかという確率」や「ＸからどんなＹが生じやすいかという確率」とも表現できる。

［実施例１−１−１］
本実施例では、逐次的に得られる音響イベント列から、音響信号−状況生成モデルおよび状況−音響イベント生成モデルを作成する。そのために、入力された音響イベント列ごとに、音響イベント列が状況を生成する確率に基づく値を、所定の条件を満たすまで更新し、音響イベント列が状況を生成する確率に基づく値がこの所定の条件を満たすまで更新された後に、状況が音響イベントを生成する確率に基づく値を求める。

本実施例では、まず初期化部で、状況が音響イベントを生成する確率を表す第１のパラメータを初期化する。その後、更新部で、第１のパラメータと、入力された音響イベント列に対応する情報に応じて第１のパラメータを更新して得られる第２のパラメータと、の重み付け和を第３のパラメータとする。なお、第３のパラメータは、状況が音響イベントを生成する確率（状況が音響イベントを生成する確率に基づく値）を表す。制御部は、第３のパラメータを第１のパラメータとし、入力される音響イベント列を逐次的に更新しつつ、更新部の処理を再び実行させる処理を繰り返し実行させる。その結果得られた第１のパラメータまたは第３のパラメータを用い、状況が音響イベントを生成する確率Ｐ（音響イベント｜状況）を表す状況−音響イベント生成モデルを得ることができる。

より具体的には、さらに音響イベント列が状況を生成する確率（音響イベント列が状況を生成する確率に基づく値）を表す第４のパラメータを初期化する第２初期化部を有する。なお、音響イベント列が状況を生成する確率は、当該音響イベント列に対応する音響信号が状況を生成する確率であるともいえる。更新部は、第１のパラメータおよび入力された音響イベント列に対応する情報に応じて第４のパラメータを所定の条件を満たすまで更新して得られた値を第５のパラメータとする第１更新部と、第５のパラメータに対応する情報および入力された音響イベント列に対応する情報に応じて第１のパラメータを更新した値を第２のパラメータとし、第１のパラメータと第２のパラメータとの重み付け和を第３のパラメータとする第２更新部とを含む。なお、第５のパラメータは、音響イベント列が状況を生成する確率（音響イベント列が状況を生成する確率に基づく値）を表す。制御部は、更新部に入力される音響イベント列を逐次的に更新し、第５のパラメータを第４のパラメータとし、第３のパラメータを第１のパラメータとして更新部の処理を再び実行させる処理を繰り返し実行させる。その結果得られた第４のパラメータまたは第５のパラメータを用い、音響信号が状況を生成する確率Ｐ（状況｜音響信号）を表す音響信号−状況生成モデルを得る。

更新部の処理を再び実行させる処理の繰り返し回数が多いほど、上記の重み付け和における第２のパラメータの重みを小さくすることの望ましい。繰り返し回数が多いほど第１のパラメータが適切な値に近いことが推測され、第２のパラメータの重みを小さくしたほうが、適切な値へ収束する可能性が高いからである。また、上記の過程において、分析部で状況の分析および推定を行ってもよい。以下に本実施例の詳細を説明する。

図１に例示するように、本実施例のモデル処理装置１１０は、音響イベント列合成部１１１、モデル化部１１２、および記憶部１１３を有する。モデル化部１１２は、例えば、初期化部１１２ａ、更新部１１２ｂ、制御部１１２ｃ、分析部１１２ｄ、およびモデル出力部１１２ｅを有し、更新部１１２ｂは、初期化部１１２ｂａ（第２初期化部）、第１更新部１１２ｂｂ、および第２更新部１１２ｂｃを有する。モデル処理装置１１０は、例えば、ＣＰＵ（central processing unit）やＲＡＭ（random-access memory）等を備えた公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。

音響イベント列合成部１１１には、音響イベント列の集合１１_ｋが逐次的に入力される。ただし、音響イベント列の集合１１_ｋは、単数個または複数個の音響イベント列１１_ｋ−１，１１_ｋ−２，・・・，１１_ｋ−Ｓ_ｋから構成される。Ｓ_ｋは１以上の整数（正整数）であり、音響イベント列の集合１１_ｋを構成する音響イベント列１１_ｋ−ｓ_ｋの個数を表す。ｋは１以上の整数（正整数）であり、時間インデックスを表す。ｋの値が大きいほど後の時刻に対応する。各音響イベント列１１_ｋ−ｓ_ｋ（ｓ_ｋ＝１，・・・，Ｓ_ｋ）は、短時間区間ごと（数１０ｍｓｅｃ〜数ｓｅｃ程度ごと）の音響イベントを時系列順につなぎ合わせた列であり、単一または複数の音響イベントを含む。ただし、ｓ_ｋは入力された音響イベント列１１_ｋ−ｓ_ｋに対応するインデックスである。

音響イベント列の集合１１_ｋが複数個の音響イベント列１１_ｋ−１，１１_ｋ−２，・・・，１１_ｋ−Ｓ_ｋから構成される場合、音響イベント列合成部１１１は、音響イベント列１１_ｋ−１，１１_ｋ−２，・・・，１１_ｋ−Ｓ_ｋを時系列順につなぎ合わせ、それによって得られた１個の音響イベント列１_ｋを得て出力する。音響イベント列の集合１１_ｋが単数個の音響イベント列１１_ｋ−１のみから構成される場合、音響イベント列合成部１１１は、音響イベント列１１_ｋ−１を音響イベント列１_ｋとして出力する。音響イベント列合成部１１１から出力された音響イベント列１_ｋは、逐次的にモデル化部１１２に入力される。なお、音響イベント列合成部１１１を経由することなく、１個の音響イベント列１_ｋがそのままモデル化部１１２に入力されてもよい。

モデル化部１１２は、以下の手順に従って、逐次的に入力された音響イベント列１_ｋから、音響信号が状況を生成する確率Ｐ（状況｜音響信号）である音響信号−状況生成モデル１２、および状況が音響イベントを生成する確率Ｐ（音響イベント｜状況）である状況−音響イベント生成モデル１３を算出して出力する。さらに、モデル化部１１２は、入力された音響イベント列１_ｋを構成する各音響イベントに対応する状況を表す状況ラベル列１４を生成してもよい。この状況ラベル列１４を分析することにより、各音響イベントが示す状況が推定できる。ただし、モデル化部１１２が、音響信号−状況生成モデル１２や状況ラベル列１４を生成することは必須ではない。

モデル化部１１２が生成したモデルや列は記憶部１１３に格納される。音響信号‐状況生成モデル１２、状況‐音響イベント生成モデル１３、および状況ラベル列１４は、同一のデータベースに格納されてもよいし、互いに異なるデータベースに格納されてもよい。また、各時間インデックスｋに対応するすべての音響信号‐状況生成モデル１２、状況‐音響イベント生成モデル１３、および／または、状況ラベル列１４が記憶部１１３に格納されてもよいし、各時間インデックスｋに対応する音響信号‐状況生成モデル１２、状況‐音響イベント生成モデル１３、および／または、状況ラベル列１４が算出されるたびに、記憶部１１３に格納された音響信号‐状況生成モデル１２、状況‐音響イベント生成モデル１３、および／または、状況ラベル列１４が上書きされてもよい。

＜状況から音響イベントが生成される過程の理論的説明＞
本実施例のモデル化部１１２は、逐次的に、音響信号が状況を生成する確率、および状況が音響イベントを生成する確率を同時に算出し、それぞれを音響信号‐状況生成モデル１２、および状況‐音響イベント生成モデル１３とする。つまり、本実施例では、各音響信号が状況の生成確率を規定し、各状況が音響イベントの生成確率を規定すると考え、これらの関係を生成モデルとして記述する。

モデル化部１１２に入力される音響イベント列１を構成する音響イベント列１−ｓ（ただし、ｓ＝１，・・・，Ｓ）に対応する音響信号が各状況ｔ（ただし、ｔは各状況に対応するインデックスｔ＝１，・・・，Ｔであり、インデックスｔに対応する状況を「状況ｔ」と表現する）を生成する確率Ｐ（Θ）（例えばＳ×Ｔ行列で表現可能）、各状況ｔ（ただし、ｔ＝１，・・・，Ｔ）が音響イベントｍ（ただし、ｍは各音響イベントに対応するインデックスｍ＝１，・・・，Ｍであり、インデックスｍに対応する音響イベントを「音響イベントｍ」と表現する）を生成する確率Ｐ（Φ）（例えばＴ×Ｍ行列で表現可能）が与えられたときの、音響イベント列１の生成確率Ｐ（ｅ｜Θ，Φ，Ω）は以下の通りである。

ただし、音響イベント列１はモデル化部１１２に入力されるすべての音響イベント列１_１，・・・，１_ｍａｘ（ただし、ｍａｘは正整数）からなり、各音響イベント列１−ｓは、何れかの音響イベント列１１ｋ−ｓである。ＳはＳ_ｋ以上の正整数であり、音響イベント列１を構成する音響イベント列１−ｓの総数を表す。Ωは音響イベント列１を構成する音響イベント列１−ｓ（ただし、ｓ＝１，・・・，Ｓ）からなる集合を表す。Ｔは１以上の整数であり、潜在的な状況の種類の数（状況の種類の総数）を表す。Ｍは１以上の整数であり、音響イベントの種類の数（音響イベントの種類の総数）を表す。Θは音響イベント列１−ｓに対応する音響信号と状況ｔとの組からなる集合を表し、Ｐ（Θ）は、例えば、音響イベント列１−ｓに対応する音響信号が状況ｔを生成する確率θ_ｓｔをｓ行ｔ列の要素とするＳ×Ｔ行列で表現できる。Φは状況ｔと音響イベントｍとの組からなる集合を表し、Ｐ（Φ）は、例えば状況ｔが音響イベントｍを生成する確率φ_ｔｍをｔ行ｍ列の要素とするＴ×Ｍ行列で表現できる。ｅは音響イベントからなる集合（ベクトル）を表す変数（音響イベントを表す変数）、ｅ_ｓは音響イベント列１−ｓを構成する要素である音響イベントからなる集合（Ｎ_ｓ次元ベクトル）を表す。Ｎ_ｓは音響イベント列１−ｓに含まれる要素数（音響イベントの個数）を表す。

音響イベント列１−ｓの生成確率Ｐ（ｅ_ｓ）は、例えば、音響イベント列１−ｓに対応する音響信号における状況ｔの生成確率θ＝Ｐ（Θ）の事前分布（Ｄｉｒｃｈｌｅｔ分布に従うものとする）のパラメータ（ハイパパラメータ）α、各状況ｔにおける音響イベントｍの生成確率φ＝Ｐ（Φ）の事前分布（Ｄｉｒｃｈｌｅｔ分布に従うものとする）のパラメータ（ハイパパラメータ）βを用いて以下のように表すことができる。

ただし、Ｎ_ｓは音響イベント列１−ｓに含まれる要素数（音響イベントの個数）を表す。θ_ｓは音響イベント列１−ｓに対応する音響信号が何れかの状況ｔ（ｔ＝１，・・・，Ｔ）を生成する確率を表す。例えば、音響イベント列１−ｓに対応する音響信号が状況ｔを生成する確率θ_ｓｔをｓ行ｔ列の要素とするＳ×Ｔ行列でθ＝Ｐ（Θ）を表現した場合、θ_ｓはθのｓ行の要素の和で表現できる。φ_ｔは状況ｔが何れかの音響イベントｍ（ｍ＝１，・・・，Ｍ）を生成する確率を表す。例えば、状況ｔが音響イベントｍを生成する確率φ_ｔｍをｔ行ｍ列の要素とするＴ×Ｍ行列でφ＝Ｐ（Φ）を表現した場合、φ_ｔはΦのｔ行の要素の和で表現できる。ｅ_ｓ，ｎはＮ_ｓ次元ベクトルｅ_ｓのｎ番目（ただし、ｎ＝１，・・・，Ｎ_ｓ）の要素である音響イベントを表す。ｚ_ｓ，ｎは音響イベント列１−ｓのｎ番目の音響イベントｔを表す変数である。パラメータαはＴ次元ベクトルであり、パラメータβはＭ次元ベクトルである。以下では、αがＴ個の同一の要素α_０（例えばα_０≧０）からなるＴ次元ベクトルα＝（α_０，・・・，α_０）であり、βがＭ個の同一の要素β_０（例えばβ_０≧０）からなるＭ次元ベクトルβ＝（β_０，・・・，β_０）である場合を例示する。Ｄｉｒ（・）はＤｉｒｉｃｈｌｅｔ分布の確率密度関数を表す。Ｋ−１次（Ｋは２以上の整数）のＤｉｒｉｃｈｌｅｔ分布の確率密度関数Ｄｉｒ（ι｜ξ）は以下の通りである。

ただし、ξはξ_ｉ（ｉ＝１，...，Ｋ）からなるパラメータの列、ιは確率変数、Γはガンマ関数を表す。

＜生成モデルの算出過程の説明＞
モデル化部１１２は、逐次的に入力される音響イベント列１_１，...１_ｍａｘから、学習処理によって、前述の生成モデルやラベル列等を生成する。この例のモデル化部１１２は、音響信号が状況を生成する確率Ｐ（状況｜音響信号）、および状況が音響イベントを生成する確率Ｐ（音響イベント｜状況）おいて、音響イベント列１の事後確率を最大化する学習処理を行う。これは例えば、尤度関数Ｌ（音響イベント列｜パラメータ）＝Ｐ（音響イベント列｜パラメータ）または対数尤度関数ｌｏｇＬ（音響イベント列｜パラメータ））を最大化する学習処理によって実現可能で、、その結果を用いて各生成モデルや各ラベル列を生成する。「ｌｏｇ」は自然対数を表す。

このような学習には、上記の生成過程に基づいたマルコフ連鎖モンテカルロ法（ＭＣＭＣ法，ＭａｒｋｏｖＣｈａｉｎＭｏｎｔｅＣａｒｌｏｍｅｔｈｏｄｓ）や変分ベイズ法（ＶＢ法，ＶａｒｉａｔｉｏｎａｌＢａｙｅｓｍｅｔｈｏｄｓ）などの手法を用いることができる。ここでは変分ベイズ法による生成モデルのパラメータ算出手法について説明を行う。

＜生成モデルの算出のための準備＞
確率ｐ（ｅ，ｚ，φ，θ｜α，β）に対するｌｏｇｐ（ｅ，ｚ，φ，θ｜α，β）の未知のパラメータｚ，φ，θを確率変数として扱い、音響イベント列１を構成する要素である音響イベントからなる集合ｅについての対数尤度関数を最大化することを考える。ただし、ｚは状況を表す変数（潜在変数）である。新たな分布ｑ（ｚ，φ，θ）（以下、「変分事後分布」と呼ぶ）を導入すると、Ｊｅｎｓｅｎの不等式によって、以下のような周辺対数尤度の下限値（ＬｏｗｅｒＢｏｕｎｄ）Ｆ［ｑ］を求めることができる。

ただし、＜Ｐ（・）＞_ｑ（・）はＰ（・）のｑ（・）に関する期待値を表す。「≡」の左辺が右辺によって定義されるか、「≡」の右辺が左辺によって定義されている。下限値Ｆ［ｑ］は変分事後分布ｑ（ｚ，φ，θ）を変関数とする汎関数である。

また、上記の式から以下が成り立つ。

よって、以下の関係が成り立つ。
Ｌ（ｅ）＝Ｆ［ｑ］＋ＫＬ（ｑ（ｚ，φ，θ），ｐ（ｚ，φ，θ｜ｅ））
ただし、ＫＬ（・）は、ＫＬはダイバージェンスを表す。

ここで、Ｌ（ｅ）がｅのみに依存することに注意すると、下限値Ｆ［ｑ］を最大化することは、ｑ（ｚ，φ，θ）とｐ（ｚ，φ，θ｜ｅ）とのＫＬダイバージェンスを最小化することと等価であることがわかる。言い換えると、下限値Ｆ［ｑ］を最大化する変分事後分布ｑ（ｚ，φ，θ）は、真の事後分布ｐ（ｚ，φ，θ｜ｅ）の最良近似となる。ここで、変分事後分布についてｑ（ｚ，φ，θ｜λ，γ）＝ｑ（ｚ）ｑ（φ｜λ）ｑ（θ｜γ）を仮定する。ただし、λは各状況ｔ（ｔ＝１，・・・，Ｔ）が各音響イベントｍ（ｍ＝１，・・・，Ｍ）を生成する確率λ_ｔｍの分布を表すパラメータであり、γは各音響イベント列１−ｓに対応する音響信号が各状況ｔ（ｔ＝１，・・・，Ｔ）を生成する確率γ_ｓｔの分布を表すパラメータである。例えば、λは状況ｔが音響イベントｍを生成する確率λ_ｔｍをｔ行ｍ列の要素とするＴ×Ｍ行列で表現でき、γは音響イベント列１−ｓに対応する音響信号が状況ｔを生成する確率γ_ｓｔをｓ行ｔ列の要素とするＳ×Ｔ行列で表現できる。

すると、下限値Ｆ［ｑ］は以下のように変形できる。

Ｆ［ｑ］において、パラメータθ，φ，ｚに依存しない項を定数項と見なし、ラグランジュの未定乗数法などを用いて、θ，φ，ｚの変分事後分布ｑ（θ｜γ），ｑ（φ｜λ），ｑ（ｚ）を導出する。

［θの変分事後分布ｑ（θ｜γ）の算出］
式（２）のＦ［ｑ］を変形し、ｑ（θ｜γ）に依存しない項を定数項とすると以下のようになる。

ただし、「ｃｏｎｓｔ.」はｑ（θ｜γ）に依存しない定数項を表す。

ここで、変分事後分布ｑ（θ）を変関数とする汎関数Ｊ［ｑ（θ）］の極値問題を考える。

ただし、μはラグランジュ乗数を表す。すると、式（４）から以下が成立する。

また、式（５）を用い、変分事後分布ｑ（θ｜γ）を変関数とする汎関数Ｊ［ｑ（θ｜γ）］の極値問題を考えると、以下のようになる。

式（５）（６）より、ｑ（θ_ｓｔ｜γ_ｓｔ）は以下のように表現可能である。

ここで

と定義する。すると、式（７）は以下のように表現できる。

ただし、η_ｓｎｚは音響イベント列１−ｓのｎ番目の要素の状況ｚについての変分事後分布ｑ（ｚ）を表す。また、α_０はＴ次元ベクトルα＝（α_０，・・・，α_０）の要素である。

式（８）より、γ_ｓｔは以下のように表現可能である。

［φの変分事後分布ｑ（Φ｜λ）の算出］
式（２）のＦ［ｑ］を変形し、ｑ（Φ｜λ）に依存しない項を定数項とすると以下のようになる。

ただし、「ｃｏｎｓｔ.２」はｑ（Φ｜λ）に依存しない定数項を表す。

ここで、変分事後分布ｑ（φ｜λ）を変関数とする汎関数Ｊ［ｑ（φ｜λ）］の極値問題を考える。

すると、式（１１）から以下が成立する。

また、式（１２）を用い、変分事後分布ｑ（φ｜λ）を変関数とする汎関数Ｊ［ｑ（φ｜λ）］の極値問題を考えると、以下のようになる。

式（１２）（１３）より、ｑ（φ_ｔｍ｜λ_ｔｍ）は以下のように表現可能である。

ここで

と定義する。すると、式（１４）は以下のように表現できる。

ただし、β_０はＭ次元ベクトルβ＝（β_０，・・・，β_０）の要素である

式（１５）より、λ_ｔｍは以下のように表現可能である。

［ｚの変分事後分布ｑ（ｚ）の算出］
式（２）のＦ［ｑ］を変形し、ｑ（ｚ）に依存しない項を定数項とすると以下のようになる。

ただし、「ｃｏｎｓｔ.３」はｑ（ｚ）に依存しない定数項を表す。

ここで、変分事後分布ｑ（ｚ）を変関数とする汎関数Ｊ［ｑ（ｚ）］の極値問題を考える。

すると、式（１８）から以下が成立する。

また、式（１９）を用い、変分事後分布ｑ（ｚ）を変関数とする汎関数Ｊ［ｑ（ｚ）］の極値問題を考えると、以下のようになる。

式（１９）（２０）より、ｑ（ｚ＝ｔ）は以下のように表現可能である。

ここで

と定義する。すると、式（２１）は以下のように表現できる。

次に、式（２２）の各項を計算する。式（１）より、以下が成立する。

ただし、Ψはディガンマ関数を表し、ｚ_ｓ，ｎは音響イベント列１−ｓのｎ番目の音響イベントに対応する状況を表し、λ_ｔｍは状況ｔが音響イベントｍを生成する確率を表し、φ_ｔｍは状況ｔが音響イベントｍを生成する確率を表す。また、ｅについての和Σ_ｅはｅ＝１，・・・，Ｍについての和を表す。

また、式（１）より、以下が成立する。

ただし、γ_ｓｔは音響イベント列１−ｓに対応する音響信号が状況ｔを生成する確率を表し、θ_ｓｔは音響イベント列１−ｓに対応する音響信号が状況ｔを生成する確率を表し、θ_ｓｎｔは音響イベント列１−ｓのｎ番目の音響イベントに対応する音響信号が状況ｔを生成する確率を表す。また、ｚについての和Σ_ｚはｚ＝１，・・・，Ｔについての和を表す。

式（２３）（２４）より、式（２２）は以下のように表現可能である。

式（２５）をｔについて正規化すると以下のようになる。

ここで以下のような定義を行う。

すると、以下が成り立つ。

以上のように、式（９）（１６）（２７）に沿ってパラメータλ，γおよび潜在変数ｚを更新することで、下限値Ｆ［ｑ］を最大化する変分事後分布ｑ（ｚ，φ，θ｜λ，γ）＝ｑ（ｚ）ｑ（φ｜λ）ｑ（θ｜γ）を得ることができる。つまり、ある時刻における生成モデルを推定する際は、パラメータλ，γおよび潜在変数ｚを式（９）（１６）（２７）に沿って更新すればよい。

ただし、本実施例では、すべての音響イベント列１を一度に用いるのではなく、逐次的に入力される音響イベント列１_１，...１_ｍａｘから生成モデルを算出する。そのために、過去の時点の音響イベント列に対する音響イベント列が状況を生成する確率と、その状況が音響イベントを生成する確率を考慮しつつも、逐次的に得られる音響イベント列に対して、効率的に生成モデルを算出するための処理を行う。すなわち、過去の時点の音響イベント列に対して得られた生成モデルのパラメータと逐次的に得られる音響イベント列に対して得られるパラメータとの重み付け和を新たなパラメータとして更新する。ここで、更新のための重み係数ρ_ｋは、例えば以下の式（２８）または式（２９）のように設定する。
ρ_ｋ＝κ （２８）
ρ_ｋ＝（τ_０＋ｋ）^−κ （２９）
ただし、κは忘却係数（κ∈（０．５，１．０］等）を表し、τ_０は更新の時間重みを制御するパラメータ（τ_０≧０等）を表し、ｋは時間インデックスを表す。

本実施例では、以上の点を考慮し、下記のように潜在変数ｚ及びパラメータλ，γを更新し、音響信号‐状況生成モデル１２、状況‐音響イベント生成モデル１３を算出する。また、その過程で状況ラベル１４を算出してもよい。

［生成モデル算出の流れ］
モデル化部１１２の初期化部１１２ａは、状況が音響イベントを生成する確率を表す第１のパラメータλ_ｔｍ ^{（ｈ−１）}を初期化する。更新部１１２ｂの初期化部１１２ｂａは、入力された音響イベント列１_ｋに対して、音響イベント列が状況を生成する確率を表す第４のパラメータγ_{ｓ（ｋ）ｔ} ^（ｈ）を初期化する。更新部１１２ｂの第１更新部１１２ｂｂは、第１のパラメータλ_ｔｍ ^{（ｈ−１）}および入力された音響イベント列に対応する情報に応じて第４のパラメータγ_{ｓ（ｋ）ｔ} ^（ｈ）を所定の条件を満たすまで更新して得られた値を第５のパラメータγ_{ｓ（ｋ）ｔ} ^（ｈ）とする。更新部１１２ｂの第２更新部１１２ｂｃは、得られた第５のパラメータγ_{ｓ（ｋ）ｔ} ^（ｈ）に対応する情報および入力された音響イベント列１_ｋに対応する情報に応じて第１のパラメータλ_ｔｍ ^{（ｈ−１）}を更新した値を第２のパラメータλ^〜 _ｔｍ ^（ｈ）とし、第１のパラメータλ_ｔｍ ^（ｈ）と第２のパラメータλ^〜 _ｔｍ ^（ｈ）との重み付け和を第３のパラメータλ_ｔｍ ^（ｈ）とする。制御部１１２ｃは、更新部１１２ｂに入力される音響イベント列１_ｋを逐次的に更新し、第５のパラメータγ_{ｓ（ｋ）ｔ} ^（ｈ）を新たな第４のパラメータγ_{ｓ（ｋ）ｔ} ^（ｈ）とし、第３のパラメータλ_ｔｍ ^（ｈ）を新たな第１のパラメータλ_ｔｍ ^{（ｈ−１）}として更新部１１２ｂの処理を再び実行させる処理を繰り返し実行させる。また、本実施例では、更新部１１２ｂの処理を再び実行させる処理の繰り返し回数が多いほど、重み付け和における第２のパラメータλ^〜 _ｔｍ ^（ｈ）の重みを小さくする。以下、図２を用いてこれらの処理の具体例を示す。

（ｉ）初期化部１１２ａは、パラメータα_０，β_０，τ_０および忘却係数κを設定し、それらを用い、変分事後分布のパラメータλ_ｔｍ ^（ｈ）および重み係数ρ_ｋを以下のように初期化し、ｋ＝１およびｈ＝１とする（ステップＳ１）。
λ_ｔｍ ^（０）＝β_０
ρ_０＝（τ_０）^−κ
ただし、λ_ｔｍ ^（０）はλ_ｔｍ ^（ｈ）（第１のパラメータ）の初期値を表し、ρ_０は重み係数ρ_ｋの初期値を表す。

（ｉｉ）モデル化部１１２は、音響イベント列１_ｋを入力とし（ステップＳ２）、以下のようにパラメータλ_ｔｍ ^（ｈ）およびパラメータγ_{ｓ（ｋ）ｔ} ^（ｈ）を更新する。ただし、下付添え字の「ｓ（ｋ）」は「ｓ_ｋ」を表す（ｓ（ｋ）＝ｓ_ｋ）。また、ｈは更新回数を表す正整数である。

（ｉｉ−０）初期化部１１２ｂａは、ｓ_ｋ＝１，…，Ｓ_ｋについて（入力された音響イベント列１_ｋについて）、以下のように変分事後分布のパラメータγ_{ｓ（ｋ）ｔ} ^（ｈ）（第４のパラメータ）を初期化する（ステップＳ３）。
γ_{ｓ（ｋ）ｔ} ^（ｈ）＝α_０

（ｉｉ−１）第１更新部１１２ｂｂは、音響イベント列１_ｋならびにパラメータλ_ｔｍ ^{（ｈ−１）}およびγ_{ｓ（ｋ）ｔ} ^（ｈ）を入力とし、ｓ_ｋ＝１，…，Ｓ_ｋ、ｎ_ｓｋ＝１，…，Ｎ_ｓｋ、ｔ＝１，…，Ｔについて、以下の式（３０）（３１）の処理を行い、潜在変数の変分事後分布η^（ｈ） _{ｓ（ｋ）ｎ（ｓｋ）ｔ}を更新する。ただし、下付添え字の「ｎ（ｓｋ）」は「ｎ_ｓｋ」を表す（ｎ（ｓｋ）＝ｎ_ｓｋ）。また、上付添え字の「（ｈ）」は下付添え字「ｓ（ｋ）ｎ（ｓｋ）ｔ」の真上に記載されるべきであるが、記載の制約上、下付添え字の真上に記載されていない。また、式（３０）のように「^〜」は「η」の真上に記載されるべきであるが、記載の制約上、「η^〜」と表記する場合がある。

なお、λ_ｔｍ ^{（ｈ−１）}は第１のパラメータに相当し、γ_{ｓ（ｋ）ｔ} ^（ｈ）の初期値は第４のパラメータに相当する。δ_ｎｍは、入力された音響イベント列１_ｋを構成する音響イベント列１１_ｋ−ｓ_ｋ（インデックスｓ_ｋに対応する音響イベント列）のｎ＝ｎ_ｓｋ番目の要素が表す音響イベントに対応するインデックスがｍであるときにδ_ｎｍ＝１となり、当該ｎ＝ｎ_ｓｋ番目の要素が表す音響イベントに対応するインデックスがｍでないときにδ_ｎｍ＝０となるデルタ関数である。ｎ＝ｎ_ｓｋに対応するδ_ｎｍは、入力された音響イベント列１１_ｋ−ｓ_ｋに対応する情報である。Ｎ_ｓｋはインデックスｓ_ｋに対応する音響イベント列１１_ｋ−ｓ_ｋの要素数、すなわち、音響イベント列１１_ｋ−ｓ_ｋに含まれる音響イベントの個数（要素数）を表す（ステップＳ４）。

（ｉｉ−２）さらに第１更新部１１２ｂｂは、α_０およびステップＳ４で更新されたη^（ｈ） _{ｓ（ｋ）ｎ（ｓｋ）ｔ}を入力とし、ｓ_ｋ＝１，…，Ｓ_ｋ、ｎ_ｓｋ＝１，…，Ｎ_ｓｋ、ｔ＝１，…，Ｔについて、以下の式（３２）（３３）の処理を行い、潜在変数の変分事後分布γ_{ｓ（ｋ）ｔ} ^（ｈ）を更新する（ステップＳ５）。

（ｉｉ−３）次に、制御部１１２ｃは終了条件（所定の条件）を満たすか否かを判定する（ステップＳ６）。制御部１１２ｃが終了条件を満たすと判定しない場合、制御部１１２ｃはステップＳ４およびＳ５の処理を再び実行させる。ただし、ステップＳ４の式（３０）の処理には、式（３３）で得られたγ_{ｓ（ｋ）ｔ} ^（ｈ）の更新値が用いられる。なお、「終了条件」の例は、ステップＳ４およびＳ５の処理を再び実行する処理の繰り返し回数が規定の回数（正値、例えば、１〜３００回）に達したこと、所望の更新結果が得られたこと（例えば、更新の前後において、ｔについてのγ_{ｓ（ｋ）ｔ} ^（ｈ）の変化の平均値が所定の閾値（例えば、０．０１％）以下になったこと）等である。

一方、制御部１１２ｃが終了条件を満たすと判定した場合、第２更新部１１２ｂｃは、音響イベント列１_ｋ、最後に式（３３）で得られたγ_{ｓ（ｋ）ｔ} ^（ｈ）（所定の条件を満たすまで繰り返し処理を行って得られたγ_{ｓ（ｋ）ｔ} ^（ｈ）（第５のパラメータ））、最後に式（３１）で得られたη_{ｓ（ｋ）ｎ（ｓｋ）ｔ} ^（ｈ）（第５のパラメータγ_{ｓ（ｋ）ｔ} ^（ｈ）に対応するη_{ｓ（ｋ）ｎ（ｓｋ）ｔ} ^（ｈ））、パラメータλ_ｔｍ ^{（ｈ−１）}およびβ_０、Ｓ、Ｓ_ｋ、ならびに重み係数ρ_ｋを入力とし、ｔ＝１，…，Ｔ、ｍ＝１，…，Ｍについて、以下の式（３４）〜（３６）の処理を実行し、変分事後分布のパラメータλ_ｔｍ ^（ｈ）を更新する。

なお、λ_ｔｍ ^{（ｈ−１）}は第１のパラメータに相当し、λ^〜 _ｔｍ ^（ｈ）は第２のパラメータに相当し、λ_ｔｍ ^（ｈ）は第３のパラメータに相当する（ステップＳ７）。

制御部１１２ｃは、ｋを更新し（ステップＳ８）、ρ_ｋ＝（τ_０＋ｋ）^−κとし（ステップＳ９）、ｈ＋１を新たなｈとした（ステップＳ８）更新部１１２ｂの処理（ステップＳ２〜Ｓ７）を再び実行させる処理を繰り返し実行させる。ｋの更新方法に限定はない。例えば、ｈ＋１を新たなｈとするたびにｋ＋１を新たなｋとする更新が行われてもよいし（すなわちｋ＝ｈ）、ｈ＋１を新たなｈとする更新が複数回（例えば２回）行われるたびにｋ＋１を新たなｋとする更新が行われてもよい。ｋ＝ｈの場合、制御部１１２ｃはｋまたはｈのみをカウントすればよい。また、ｋ＝ｍａｘとなるまで更新部１１２ｂの処理が繰り返し実行されてもよいし、所定の繰り返し回数まで更新部１１２ｂの処理が繰り返し実行されてもよいし、所望の更新結果が得られるまで（例えば、更新の前後において、ｔについてのλ_ｔｍ ^（ｈ）の変化の平均値が所定の閾値（例えば、０．０１％）以下になるまで）更新部１１２ｂの処理が繰り返し実行されてもよい。また、ρ_ｋ＝（τ_０＋ｋ）^−κのように重み係数を更新することで、更新部１１２ｂの処理の繰り返し回数（ｋの更新回数）が多いほど、重み付け和におけるλ^〜 _ｔｍ ^（ｈ）の重みを小さくでき、前述のように適切な値へ収束する可能性が高くなる。

モデル出力部１１２ｅは、ステップＳ７で得られたλ_ｔｍ ^（ｈ）またはその更新前のλ_ｔｍ ^{（ｈ−１）}を、状況が音響イベントを生成する確率を表す状況−音響イベント生成モデル１３として出力して記憶部１１３に格納する。状況−音響イベント生成モデル１３の例は、λ_ｔｍ ^（ｈ）またはλ_ｔｍ ^{（ｈ−１）}をｔ行ｍ列の要素としたＴ×Ｍの行列である。また、更新部１１２ｂは、ステップＳ７で得られたλ_ｔｍ ^（ｈ）に対応するγ_{ｓ（ｋ）ｔ} ^（ｈ）またはその更新前のλ_ｔｍ ^{（ｈ−１）}に対応するγ_{ｓ（ｋ）ｔ} ^{（ｈ−１）}を、音響信号が状況を生成する確率を表す音響信号−状況生成モデル１２として出力して記憶部１１３に格納する。音響信号−状況生成モデル１２の例は、γ_{ｓ（ｋ）ｔ} ^（ｈ）またはγ_{ｓ（ｋ）ｔ} ^{（ｈ−１）}をｓ_ｋ行ｔ列の要素としたＳ_ｋ×Ｔ行列である。なお、音響信号−状況生成モデル１２や状況−音響イベント生成モデル１３は、ステップＳ７の処理のたびに行われてもよいし、すべての更新部１１２ｂの処理が終了した後に得られてもよい。また、音響信号−状況生成モデル１２や状況−音響イベント生成モデル１３が得られるたびに、それらが記憶部１１３の新たな記憶領域に格納されてもよいし、新たな音響信号−状況生成モデル１２や状況−音響イベント生成モデル１３で古い音響信号−状況生成モデル１２や状況−音響イベント生成モデル１３が上書きされてもよい。

また、分析部１１２ｄが、式（３１）で得られたη_{ｓ（ｋ）ｎ（ｓｋ）ｔ} ^（ｈ）（インデックスｓ_ｋに対応する音響イベント列１１_ｋ−ｓ_ｋのｎ_ｓｋ番目の要素に対応するη_{ｓ（ｋ）ｎ（ｓｋ）ｔ} ^（ｈ））を用い、ｎ_ｓｋ番目の要素に対応する状況を推定し、その推定結果を示す状況ラベル列１４を出力して記憶部１１３に格納してもよい。例えば、分析部１１２ｄは、ｓ_ｋとｎ_ｓｋとの組み合わせごとにη_{ｓ（ｋ）ｎ（ｓｋ）ｔ} ^（ｈ）が最大となるｔを求め、そのｔを音響イベント列１１_ｋ−ｓ_ｋのｎ_ｓｋ番目の要素に対応する状況ラベルとし、それらの列を状況ラベル列１４としてもよい。或いは、分析部１１２ｄは、ｓ_ｋとｎ_ｓｋとの組み合わせごとに、η_{ｓ（ｋ）ｎ（ｓｋ）ｔ} ^（ｈ）の大きい順にｔを選択し、それらを音響イベント列１１_ｋ−ｓ_ｋのｎ_ｓｋ番目の要素に対応する状況ラベルとし、それらの列を状況ラベル列１４としてもよい。或いは、分析部１１２ｄは、ｓ_ｋとｎ_ｓｋとの組み合わせごとに、閾値を超えるη_{ｓ（ｋ）ｎ（ｓｋ）ｔ} ^（ｈ）に対応するｔを選択し、それらを音響イベント列１１_ｋ−ｓ_ｋのｎ_ｓｋ番目の要素に対応する状況ラベルとし、それらの列を状況ラベル列１４としてもよい。また、分析部１１２ｄは式（３１）でη_{ｓ（ｋ）ｎ（ｓｋ）ｔ} ^（ｈ）が得られるたびに、得られたη_{ｓ（ｋ）ｎ（ｓｋ）ｔ} ^（ｈ）を用いて状況ラベル列１４を計算してもよいし、ステップＳ６で終了条件を満たしたときのη_{ｓ（ｋ）ｎ（ｓｋ）ｔ} ^（ｈ）を用いて状況ラベル列１４を計算してもよいし、すべての更新部１１２ｂの処理が終了したときに最後に得られた最新のη_{ｓ（ｋ）ｎ（ｓｋ）ｔ} ^（ｈ）を用いて状況ラベル列１４を計算してもよい。また、新たな状況ラベル列１４が得られるたびに、記憶部１１３の新たな記憶領域に格納されてもよいし、新たな状況ラベル列１４で古い状況ラベル列１４が上書きされてもよい。

以上より、モデル化部１１２は、逐次的に入力される音響イベント列１_ｋを用い、生成モデルの算出や状況の分析を行うことができる。

［実施例１−１−２］
実施例１−１−１では、音響信号が状況を生成する確率θと、状況が音響イベントを生成する確率φと、状況を表す潜在確率ｚと、がそれぞれ独立であると仮定し、ｑ（ｚ，φ，θ｜λ，γ）＝ｑ（ｚ）ｑ（φ｜λ）ｑ（θ｜γ）であるとの前提のもと、逐次的なモデル学習を行っていた。しかしながら、実際にはθとφはｚに依存することが多い。実施例１−１−２では、θとφがｚに依存することに基づいてｑ（ｚ，φ，θ｜λ，γ）＝ｑ（θ，φ｜ｚ）ｑ（ｚ）とおき、高精度なモデル学習を行う。以下では、実施例１−１−１との相違点を中心に説明し、これまで説明した事項については、これまでに用いた参照番号を用いて説明を省略する。

本実施例でも、逐次的に得られる音響イベント列から、音響信号−状況生成モデルおよび状況−音響イベント生成モデルを作成する。そのために、入力された音響イベント列ごとに、音響イベント列が状況を生成する確率に基づく値を、所定の条件を満たすまで更新し、音響イベント列が状況を生成する確率に基づく値がこの所定の条件を満たすまで更新された後に、状況が音響イベントを生成する確率に基づく値を求める。

本実施例では、まず初期化部で、状況が音響イベントを生成する頻度（状況が音響イベントを生成する確率的な個数）を表す第６のパラメータを初期化する。その後、更新部で、第６のパラメータと、入力された音響イベント列に対応する情報に応じて第６のパラメータを更新して得られる第７のパラメータと、の重み付け和を第８のパラメータとする。なお、第８のパラメータは、状況が音響イベントを生成する頻度（状況が音響イベントを生成する確率に基づく値）を表す。制御部は、第８のパラメータを第６のパラメータとし、入力される音響イベント列を逐次的に更新しつつ、更新部の処理を再び実行させる処理を繰り返し実行させる。その結果得られた第６のパラメータまたは第８のパラメータを用い、状況が音響イベントを生成する確率Ｐ（音響イベント｜状況）を表す状況−音響イベント生成モデルを得ることができる。

より具体的には、さらに、音響イベント列に含まれる各音響イベントが状況を生成する確率を表す第９のパラメータと、音響イベント列が状況を生成する頻度を表す第１０のパラメータとを初期化する第２初期化部を有する。更新部は、第６のパラメータおよび第１０のパラメータに応じて第９のパラメータを更新する処理と、入力された音響イベント列に対応する情報と第９のパラメータとに応じて第１０のパラメータを更新する処理とを所定の条件を満たすまで行い、第９のパラメータから更新された第１１のパラメータを得、第１０のパラメータから更新された第１２のパラメータを得る第１更新部と、第６のパラメータと、入力された音響イベント列に対応する情報および第１１のパラメータに応じて第６のパラメータを更新して得られる第７のパラメータと、の重み付け和を第８のパラメータとする第２更新部とを含む。制御部は、第１更新部および第２更新部に入力される音響イベント列を逐次的に更新し、第８のパラメータを第６のパラメータとし、第１１のパラメータを第９のパラメータとし、第１２のパラメータを第１０のパラメータとして、第１更新部および第２更新部の処理を再び実行させる処理を繰り返し実行させる。

本形態でも、更新部の処理を再び実行させる処理の繰り返し回数が多いほど、上記の重み付け和における第７のパラメータの重みを小さくすることの望ましい。繰り返し回数が多いほど第６のパラメータが適切な値に近いことが推測され、第７のパラメータの重みを小さくしたほうが、適切な値へ収束する可能性が高いからである。また、上記の過程において、分析部で状況の分析および推定を行ってもよい。以下に本実施例の詳細を説明する。

図１に例示するように、本実施例のモデル処理装置１１１０は、音響イベント列合成部１１１、モデル化部１１１２、および記憶部１１３を有する。モデル化部１１１２は、例えば、初期化部１１１２ａ、更新部１１１２ｂ、制御部１１１２ｃ、分析部１１１２ｄ、およびモデル出力部１１１２ｅを有する。更新部１１１２ｂは、初期化部１１１２ｂａ（第２初期化部）、第１更新部１１１２ｂｂ、および第２更新部１１１２ｂｃを有する。モデル処理装置１１１０は、例えば、ＣＰＵやＲＡＭ等を備えた公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。

本実施例の実施例１−１−１との相違点はモデル化部１１１２である。モデル化部１１１２は、以下の手順に従って、逐次的に入力された音響イベント列１_ｋから、音響信号が状況を生成する確率Ｐ（状況｜音響信号）である音響信号−状況生成モデル１２、および状況が音響イベントを生成する確率Ｐ（音響イベント｜状況）である状況−音響イベント生成モデル１３を算出して出力する。さらに、モデル化部１１１２は、入力された音響イベント列１_ｋを構成する各音響イベントに対応する状況を表す状況ラベル列１４を生成してもよい。この状況ラベル列１４を分析することにより、各音響イベントが示す状況が推定できる。ただし、モデル化部１１１２が、音響信号−状況生成モデル１２や状況ラベル列１４を生成することは必須ではない。

モデル化部１１１２が生成したモデルや列は記憶部１１３に格納される。音響信号‐状況生成モデル１２、状況‐音響イベント生成モデル１３、および状況ラベル列１４は、同一のデータベースに格納されてもよいし、互いに異なるデータベースに格納されてもよい。また、各時間インデックスｋに対応するすべての音響信号‐状況生成モデル１２、状況‐音響イベント生成モデル１３、および／または、状況ラベル列１４が記憶部１１３に格納されてもよいし、各時間インデックスｋに対応する音響信号‐状況生成モデル１２、状況‐音響イベント生成モデル１３、および／または、状況ラベル列１４が算出されるたびに、記憶部１１３に格納された音響信号‐状況生成モデル１２、状況‐音響イベント生成モデル１３、および／または、状況ラベル列１４が上書きされてもよい。

＜状況から音響イベントが生成される過程の理論的説明＞
実施例１−１−１と同じである。

＜生成モデルの算出過程の説明＞
モデル化部１１１２は、逐次的に入力される音響イベント列１_１，...１_ｍａｘから、学習処理によって、前述の生成モデルやラベル列等を生成する。この例のモデル化部１１１２は、音響信号が状況を生成する確率Ｐ（状況｜音響信号）、および状況が音響イベントを生成する確率Ｐ（音響イベント｜状況）おいて、音響イベント列１に対する，音響信号−状況生成モデル１２のモデルパラメータ、および状況−音響イベント生成モデル１３のモデルパラメータの事後確率を最大化する学習処理を行う。これは例えば、尤度関数Ｌ（音響イベント列｜パラメータ）＝Ｐ（音響イベント列｜パラメータ）または対数尤度関数ｌｏｇＬ（音響イベント列｜パラメータ））を最大化する学習処理によって実現可能で、その結果を用いて各生成モデルや各ラベル列を生成する。「ｌｏｇ」は自然対数を表す。

このような学習には、上記の生成過程に基づいたマルコフ連鎖モンテカルロ法や変分ベイズ法などの手法を用いることができる。ここでは変分ベイズ法による生成モデルのパラメータ算出手法について説明を行う。

本実施例では、確率ｐ（ｅ，ｚ，φ，θ｜α_０，β_０）に対するｌｏｇｐ（ｅ，ｚ，φ，θ｜α_０，β_０）の未知のパラメータｚ，φ，θを確率変数として扱い、音響イベント列１を構成する要素である音響イベントからなる集合ｅについての対数尤度関数を最大化することを考える。前述のように、周辺対数尤度の下限値Ｆ［ｑ］は以下のようになる。

前述のように、下限値Ｆ［ｑ］を最大化する変分事後分布ｑ（ｚ，φ，θ）は、真の事後分布ｐ（ｚ，φ，θ｜ｅ）の最良近似となる。ただし本実施例では、θとφがｚに依存することに基づき、ｑ（ｚ，φ，θ｜λ，γ）＝ｑ（θ，φ｜ｚ）ｑ（ｚ）とおく。下限値Ｆ［ｑ］は、ｑ（θ，φ｜ｚ）ｑ（ｚ）＝ｐ（θ，φ｜ｅ，ｚ，α_０，β_０）ｑ（ｚ）のときにｑ（θ，φ｜ｚ）対して最大値をとる。

ここで、下限値Ｆ［ｑ］を変形すると以下のようになる。

モデル化部１１１２に入力される音響イベント列１を構成する音響イベント列１−ｓ（ただし、ｓ＝１，・・・，Ｓ）のｉ番目（ただし、ｉ＝１，・・・，Ｎ_ｓ）の音響イベントに状況ｔ（ただし、ｔ＝１，・・・，Ｔ）が割り当てられる確率（音響イベント列１−ｓのｉ番目の音響イベントに対応する状況がｔとなる確率）をγ_ｓｉｔとする。すると、式（３７）の第１項は以下のように変形できる。

ただし、δ_{ｓ’ｉ’ｔ’}は、音響イベント列１−ｓ’（ただし、ｓ’＝１，・・・，Ｓ）のｉ’番目（ただし、ｉ’＝１，・・・，Ｎ_ｓ’）の音響イベントに対応する状況がｔ’（ただし、ｔ’＝１，・・・，Ｔ）となるときに１となり、音響イベント列１−ｓ’のｉ’番目の音響イベントに対応する状況がｔ’でないときに０となる関数である。また、ｚ_ｓｉは音響イベント列１−ｓのｉ番目の音響イベントに割り当てられる状況ｔを表す変数である（ただし、ｚ_ｓｉ＝１，・・・，Ｔ）。また、「ｎ_ｓ..」は、音響イベント列１−ｓに含まれる音響イベントｍ（ただし、ｍ＝１，・・・，Ｍ）に対応する状況がｔ（ただし、ｔ＝１，・・・，Ｔ）である確率ｎ’_ｓｍｔのｍ＝１，・・・，Ｍおよびｔ＝１，・・・，Ｔについての総和である。同様に、「ｎ_ｓ.ｔ」は確率ｎ’_ｓｍｔのｍ＝１，・・・，Ｍについての総和であり、「ｎ_..ｔ」は確率ｎ’_ｓｍｔのｓ＝１，・・・，Ｓおよびｍ＝１，・・・，Ｍについての総和であり、「ｎ_.ｍｔ」は確率ｎ’_ｓｍｔのｓ＝１，・・・，Ｓについての総和である。すなわち、これらは以下のように定義される。

式（３８）をγ_ｓｉｔで偏微分すると以下のようになる。

ただし、「χ^／ｓｉ」はχから音響イベント列１−ｓのｉ番目の音響イベントに対応するものを除いたものを表す。また、ｓ’＝１，・・・，Ｓ、ｉ’＝１，・・・，Ｎ_ｓ’、ｔ’＝１，・・・，Ｔである。また、音響イベント列１−ｓのｉ番目の音響イベントｅ_ｉ（ただし、ｅ_ｉ＝１，・・・，Ｍ）に対応する状況がｔ（ただし、ｔ＝１，・・・，Ｔ）である確率

のｓ＝１，・・・，Ｓについての総和

を表す。

また、式（３７）の第２項をγ_ｓｉｔで偏微分すると以下のようになる。

ただし、「ｃｏｎｓｔ.」は定数である。

式（３７）（３９）（４０）より、

を満たすγ_ｓｉｔは以下のようになる。

このγ_ｓｉｔをΣ_ｔγ_ｓｉｔについて正規化したものをγ＾_ｓｉｔとすると、γ＾_ｓｉｔは以下のように表現可能である。

なお、式（４２）のように「＾」は「γ」の真上に記載されるべきであるが、記載の制約上、「γ＾」と表記する場合がある。

ここで、式（４２）の

を０次のテイラー展開により近似すると以下のようになる。

ここで、これらを正確に計算するためには高い計算コストが必要になるため、さらにこれらのガウス近似を行う。すなわち、以下のような近似を行う。

よって、以下のような近似表現が可能である。

よって、最終的に式（４２）は以下のように近似できる。

つまり、ある時刻における生成モデルを推定する際は、式（４３）に沿ってパラメータを更新すればよい。ただし、実施例１−１−１と同様、本実施例でも、すべての音響イベント列１を一度に用いるのではなく、逐次的に入力される音響イベント列１_１，...１_ｍａｘから生成モデルを算出する。そのために、過去の時点の音響イベント列に対する音響イベント列が状況を生成する確率と、その状況が音響イベントを生成する確率を考慮しつつも、逐次的に得られる音響イベント列に対して、効率的に生成モデルを算出するための処理を行う。すなわち、過去の時点の音響イベント列に対して得られた生成モデルのパラメータと逐次的に得られる音響信号に対して得られるパラメータとの重み付け和を新たなパラメータとして更新する。ここで、更新のための重み係数ρ_ｋは、例えば以下の式（２８）または式（２９）のように設定する。

本実施例では、以上の点を考慮し、下記のようにパラメータを更新し、音響信号‐状況生成モデル１２、状況‐音響イベント生成モデル１３を算出する。また、その過程で状況ラベル１４を算出してもよい。

［生成モデル算出の流れ］
モデル化部１１１２の初期化部１１１２ａは、状況が音響イベントを生成する頻度を表す第６のパラメータＮ_ｔｍ ^{（ｈ−１）}を初期化する。更新部１１１２ｂの初期化部１１１２ｂａは、音響イベント列に含まれる各音響イベントが状況を生成する確率を表す第９のパラメータγ＾_{ｓ（ｋ）ｉ（ｓｋ）ｔ} ^（ｈ）と、音響イベント列が状況を生成する頻度を表す第１０のパラメータＮ_{ｓ（ｋ）ｔ} ^{（ｈ−１）}とを初期化する。その後、更新部１１１２ｂの第１更新部１１１２ｂｂは、第６のパラメータＮ_ｔｍ ^{（ｈ−１）}および第１０のパラメータＮ_{ｓ（ｋ）ｔ} ^{（ｈ−１）}に応じて第９のパラメータγ＾_{ｓ（ｋ）ｉ（ｓｋ）ｔ} ^（ｈ）を更新する処理と、入力された音響イベント列１_ｋに対応する情報と第９のパラメータγ＾_{ｓ（ｋ）ｉ（ｓｋ）ｔ} ^（ｈ）とに応じて第１０のパラメータＮ_{ｓ（ｋ）ｔ} ^{（ｈ−１）}を更新する処理とを所定の条件を満たすまで行い、第９のパラメータγ＾_{ｓ（ｋ）ｉ（ｓｋ）ｔ} ^（ｈ）から更新された第１１のパラメータγ＾_{ｓ（ｋ）ｉ（ｓｋ）ｔ} ^（ｈ）を得、第１０のパラメータＮ_{ｓ（ｋ）ｔ} ^{（ｈ−１）}から更新された第１２のパラメータＮ_{ｓ（ｋ）ｔ} ^（ｈ）を得る。更新部１１１２ｂの第２更新部１１１２ｂｂは、第６のパラメータＮ_ｔｍ ^{（ｈ−１）}と、入力された音響イベント列１_ｋに対応する情報および第１１のパラメータγ＾_{ｓ（ｋ）ｉ（ｓｋ）ｔ} ^（ｈ）に応じて第６のパラメータを更新して得られる第７のパラメータと、の重み付け和を第８のパラメータＮ_ｔｍ ^（ｈ）とする。制御部１１１２ｃは、更新部１１１２ｂに入力される音響イベント列１_ｋを逐次的に更新し、第８のパラメータＮ_ｔｍ ^（ｈ）を新たな第６のパラメータとし、第１１のパラメータγ＾_{ｓ（ｋ）ｉ（ｓｋ）ｔ} ^（ｈ）を新たな第９のパラメータとし、第１２のパラメータＮ_{ｓ（ｋ）ｔ} ^（ｈ）を新たな第１０のパラメータＮ_{ｓ（ｋ）ｔ} ^{（ｈ−１）}として、更新部１１１２ｂの処理を再び実行させる処理を繰り返し実行させる。また、更新部１１１２ｂの処理を再び実行させる処理の繰り返し回数が多いほど、重み付け和における第７のパラメータの重みを小さくする。以下、図２を用いてこれらの処理の具体例を示す。

（ｉ）初期化部１１１２ａは、パラメータα_０，β_０，τ_０および忘却係数κを設定し、変分事後分布のパラメータＮ_ｔｍ ^{（ｈ−１）}（第６のパラメータ）およびＮ_ｔ ^{（ｈ−１）}の初期値Ｎ_ｔｍ ^（０）およびＮ_ｔ ^（０）、ならびに重み係数ρ_ｋを以下のように初期化し、ｋ＝１およびｈ＝１とする（ステップＳ１１）。

ρ_０＝（τ_０）^−κ
ただし、Ｎは正の定数であり、例えばすべての音響イベント列１に含まれる音響イベントの個数（またはその想定値）である。ρ_０は重み係数ρ_ｋの初期値を表す。

（ｉｉ）モデル化部１１１２は、音響イベント列１_ｋを入力とし（ステップＳ１２）、以下のようにパラメータＮ_{ｓ（ｋ）ｔ} ^{（ｈ−１）}およびＮ_ｔｍ ^{（ｈ−１）}を更新する。ただし、下付添え字の「ｓ（ｋ）」は「ｓ_ｋ」を表す（ｓ（ｋ）＝ｓ_ｋ）。下付添え字の「ｉ（ｓｋ）」は、ｉ_ｓ（ｋ）、すなわち、

を表し、音響イベント列１_ｋを構成する音響イベント列１１_ｋ−ｓ_ｋ（ただし、ｓ_ｋ＝１，・・・，Ｓ_ｋ）が含む各音響イベントに対応するインデックスである。また、ｈは更新回数を表す正整数である。

（ｉｉ−０）初期化部１１１２ｂａは、ｓ_ｋ＝１，…，Ｓ_ｋ、ｉ（ｓｋ）＝１，…，Ｎ_ｓｋ、およびｔ＝１，…，Ｔについて、以下のように変分事後分布のパラメータＮ_{ｓ（ｋ）ｔ} ^（ｈ）（第１０のパラメータ）およびγ＾_{ｓ（ｋ）ｉ（ｓｋ）ｔ} ^（ｈ）を初期化する（ステップＳ１３）。

ただし、Ｎ_ｓｋはインデックスｓ_ｋに対応する音響イベント列１１_ｋ−ｓ_ｋの要素数、すなわち、音響イベント列１１_ｋ−ｓ_ｋに含まれる音響イベントの個数（要素数）を表す。

（ｉｉ−１）第１更新部１１１２ｂｂは、パラメータＮ_ｔｍ ^{（ｈ−１）}、Ｎ_{ｓ（ｋ）ｔ} ^{（ｈ−１）}およびγ＾_{ｓ（ｋ）ｉ（ｓｋ）ｔ} ^{（ｈ−１）}を入力とし、ｓ_ｋ＝１，…，Ｓ_ｋ、ｍ＝１，…，Ｍ、ｔ＝１，…，Ｔについて、以下の式（４４）（４５）の処理を行い、パラメータγ＾_{ｓ（ｋ）ｉ（ｓｋ）ｔ} ^（ｈ）（第９のパラメータ）を更新する。

なお、各ｓ_ｋおよびｔおいて同じｅ_{ｉ（ｓｋ）}＝ｍとなるすべてのｉ（ｓｋ）に対してパラメータγ＾_{ｓ（ｋ）ｉ（ｓｋ）ｔ} ^（ｈ）は同じ値となる。言い換えると、ｉ（ｓｋ）にかかわらず、ｓ_ｋ，ｔおよびｅ_{ｉ（ｓｋ）}＝ｍの組み合わせに対してパラメータγ＾_{ｓ（ｋ）ｉ（ｓｋ）ｔ} ^（ｈ）が決まる。そのため、すべてのｉ（ｓｋ）＝１，・・・，Ｎ_ｓｋについてパラメータγ＾_{ｓ（ｋ）ｉ（ｓｋ）ｔ} ^（ｈ）を計算する必要はなく、ｓ_ｋ，ｔおよびｅ_{ｉ（ｓｋ）}＝ｍの組み合わせごとにパラメータγ＾_{ｓ（ｋ）ｉ（ｓｋ）ｔ} ^（ｈ）を計算すればよい（ステップＳ１４）。

（ｉｉ−２）さらに第１更新部１１１２ｂｂは、ｎ_{ｓ（ｋ）ｍ}（入力された音響イベント列１_ｋに対応する情報）およびステップＳ１４で更新されたパラメータγ＾_{ｓ（ｋ）ｉ（ｓｋ）ｔ} ^（ｈ）を用い、ｓ_ｋ＝１，…，Ｓ_ｋ、ｔ＝１，…，Ｔについて、以下の式（４６）の処理を行い、パラメータＮ_{ｓ（ｋ）ｔ} ^{（ｈ−１）}を更新してＮ_{ｓ（ｋ）ｔ} ^（ｈ）を得る。

を満たすｉ（ｓｋ）の集合を表す。ｅ_{ｉ（ｓｋ）}は音響イベント列１１_ｋ−ｓ_ｋのｉ（ｓｋ）番目の音響イベントを表す。またｎ_{ｓ（ｋ）ｍ}は、音響イベント列１１_ｋ−ｓ_ｋが含む音響イベントｍの個数を表す（ステップＳ１５）。

（ｉｉ−３）次に、制御部１１１２ｃは終了条件（所定の条件）を満たすか否かを判定する（ステップＳ１６）。制御部１１１２ｃが終了条件を満たすと判定しない場合、制御部１１１２ｃはステップＳ１４およびＳ１５の処理を再び実行させる。ただし、ステップＳ１４の式（４４）の処理には、式（４６）で得られたＮ_{ｓ（ｋ）ｔ} ^（ｈ）を新たなＮ_{ｓ（ｋ）ｔ} ^{（ｈ−１）}として用いる。なお、「終了条件」の例は、ステップＳ１４およびＳ１５の処理を再び実行する処理の繰り返し回数が規定の回数（正値、例えば、１〜３００回）に達したこと、所望の更新結果が得られたこと（例えば、更新の前後において、ｔについてのＮ_{ｓ（ｋ）ｔ} ^（ｈ）の変化の平均値が所定の閾値（例えば、０．０１％）以下になったこと）等である。

（ｉｉ−４）一方、制御部１１１２ｃが終了条件を満たすと判定した場合、第２更新部１１１２ｂｃは、音響イベント列１_ｋ、パラメータＮ_ｔｍ ^{（ｈ−１）}、最後に式（４５）で得られたパラメータγ＾_{ｓ（ｋ）ｉ（ｓｋ）ｔ} ^（ｈ）（第１１のパラメータ）、Ｓ、Ｓ_ｋ、ならびに重み係数ρ_ｋを入力とし、ｔ＝１，…，Ｔ、ｍ＝１，…，Ｍについて、以下の式（４７）の処理を実行し、パラメータＮ_ｔｍ ^{（ｈ−１）}を更新してパラメータＮ_ｔｍ ^（ｈ）を得、さらにパラメータＮ_ｔｍ ^（ｈ）を得て出力する。

なお、

が第７のパラメータに相当する（ステップＳ１７）。

制御部１１１２ｃは、ｋを更新し（ステップＳ１８）、ρ_ｋ＝（τ_０＋ｋ）^−κとし（ステップＳ１９）、ｈ＋１を新たなｈとした（ステップＳ１８）更新部１１１２ｂの処理（ステップＳ１２〜Ｓ１７）を再び実行させる処理を繰り返し実行させる。実施例１−１−１と同様、ｋの更新方法に限定はない。例えば、ｋ＝ｈの場合、制御部１１１２ｃはｋまたはｈのみをカウントすればよい。また、ｋ＝ｍａｘとなるまで更新部１１１２ｂの処理が繰り返し実行されてもよいし、所定の繰り返し回数まで更新部１１１２ｂの処理が繰り返し実行されてもよいし、所望の更新結果が得られるまで（例えば、更新の前後において、ｔについてのＮ_{ｓ（ｋ）ｔ} ^（ｈ）の変化の平均値が所定の閾値（例えば、０．０１％）以下になるまで）更新部１１１２ｂの処理が繰り返し実行されてもよい。また、ρ_ｋ＝（τ_０＋ｋ）^−κのように重み係数を更新することで、更新部１１１２ｂの処理の繰り返し回数（ｋの更新回数）が多いほど、式（４７）の重み付け和における第２項の重みを小さくでき、前述のように適切な値へ収束する可能性が高くなる。

モデル出力部１１１２ｅは、ステップＳ１５で得られたパラメータＮ_{ｓ（ｋ）ｔ} ^（ｈ）をｔに関して正規化したもの、すなわち、

を、音響信号が状況を生成する確率を表す音響信号−状況生成モデル１２として出力して記憶部１１３に格納する。音響信号−状況生成モデル１２の例は、式（４７−１）の値をｓ_ｋ行ｔ列の要素としたＳ_ｋ×Ｔ行列である。また、モデル出力部１１１２ｅは、ステップＳ１７で得られたパラメータＮ_ｔｍ ^（ｈ）をｍに関して正規化したもの、すなわち、

を、状況が音響イベントを生成する確率を表す状況−音響イベント生成モデル１３として出力して記憶部１１３に格納する。状況−音響イベント生成モデル１３の例は、式（４７−２）の値をｔ行ｍ列の要素としたＴ×Ｍの行列である。その他、モデル出力部１１１２ｅが、パラメータＮ_{ｓ（ｋ）ｔ} ^（ｈ）またはそれに対応するその他の値を音響信号−状況生成モデル１２としてもよいし、パラメータＮ_ｔｍ ^（ｈ）またはそれに対応するその他の値を状況−音響イベント生成モデル１３としてもよい。なお、音響信号−状況生成モデル１２や状況−音響イベント生成モデル１３は、ステップＳ１７の処理のたびに行われてもよいし、すべての更新部１１１２ｂの処理が終了した後に得られてもよい。また、音響信号−状況生成モデル１２や状況−音響イベント生成モデル１３が得られるたびに、それらが記憶部１１３の新たな記憶領域に格納されてもよいし、新たな音響信号−状況生成モデル１２や状況−音響イベント生成モデル１３で古い音響信号−状況生成モデル１２や状況−音響イベント生成モデル１３が上書きされてもよい。

また、分析部１１１２ｄが、式（４５）で得られたγ＾_{ｓ（ｋ）ｉ（ｓｋ）ｔ} ^（ｈ）（インデックスｓ_ｋに対応する音響イベント列１１_ｋ−ｓ_ｋのｉ（ｓｋ）番目の要素に対応するγ＾_{ｓ（ｋ）ｉ（ｓｋ）ｔ} ^（ｈ））を用い、ｉ（ｓｋ）番目の要素に対応する状況を推定し、その推定結果を示す状況ラベル列１４を出力して記憶部１１３に格納してもよい。例えば、分析部１１１２ｄは、ｓ_ｋとｉ（ｓｋ）との組み合わせごとにγ＾_{ｓ（ｋ）ｉ（ｓｋ）ｔ} ^（ｈ）が最大となるｔを求め、そのｔを音響イベント列１１_ｋ−ｓ_ｋのｉ（ｓｋ）番目の要素に対応する状況ラベルとし、それらの列を状況ラベル列１４としてもよい。或いは、分析部１１１２ｄは、ｓ_ｋとｉ（ｓｋ）との組み合わせごとに、γ＾_{ｓ（ｋ）ｉ（ｓｋ）ｔ} ^（ｈ）の大きい順にｔを選択し、それらを音響イベント列１１_ｋ−ｓ_ｋのｉ（ｓｋ）番目の要素に対応する状況ラベルとし、それらの列を状況ラベル列１４としてもよい。或いは、分析部１１１２ｄは、ｓ_ｋとｉ（ｓｋ）との組み合わせごとに、閾値を超えるγ＾_{ｓ（ｋ）ｉ（ｓｋ）ｔ} ^（ｈ）に対応するｔを選択し、それらを音響イベント列１１_ｋ−ｓ_ｋのｉ（ｓｋ）番目の要素に対応する状況ラベルとし、それらの列を状況ラベル列１４としてもよい。また、分析部１１１２ｄは式（４５）でγ＾_{ｓ（ｋ）ｉ（ｓｋ）ｔ} ^（ｈ）が得られるたびに、得られたγ＾_{ｓ（ｋ）ｉ（ｓｋ）ｔ} ^（ｈ）を用いて状況ラベル列１４を計算してもよいし、ステップＳ１６で終了条件を満たしたときのγ＾_{ｓ（ｋ）ｉ（ｓｋ）ｔ} ^（ｈ）を用いて状況ラベル列１４を計算してもよいし、すべての更新部１１１２ｂの処理が終了したときに最後に得られた最新のγ＾_{ｓ（ｋ）ｉ（ｓｋ）ｔ} ^（ｈ）を用いて状況ラベル列１４を計算してもよい。また、新たな状況ラベル列１４が得られるたびに、記憶部１１３の新たな記憶領域に格納されてもよいし、新たな状況ラベル列１４で古い状況ラベル列１４が上書きされてもよい。

以上より、モデル化部１１１２は、逐次的に入力される音響イベント列１_ｋを用い、生成モデルの算出や状況の分析を行うことができる。

［実施例１−２］
実施例１−２では、逐次的に入力された音響信号列を用い、学習処理によって、音響信号−状況生成モデル１２、および状況−音響イベント生成モデル１３を生成する。さらに、状況ラベル列１４を生成してもよい。ただし、モデル化部１１２が、音響信号−状況生成モデル１２や状況ラベル列１４を生成することは必須ではない。以降、同一のものには同じ参照符号を付し、説明は繰り返さない。

図３に例示するように、本実施例のモデル処理装置１２０は、特徴量算出部１２１、音響イベント判定部１２２、音響イベントモデルデータベース（ＤＢ）１２３、音響イベント列合成部１１１、モデル化部１１２（またはモデル化部１１１２）、及び記憶部１１３を有する。モデル処理装置１２０は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。

まず特徴量算出部１２１に、音響信号列１５_ｋ−１，・・・，１５_ｋ−Ｓ_ｋからなる音響信号列の集合１５_ｋが逐次的に入力される。各音響信号列１５_ｋ−ｓ_ｋは、短時間区間ごとの音響信号を時系列順につなぎ合わせた列であり、単一または複数の音響信号を含む。

特徴量算出部１２１は、各音響信号列１５_ｋ−ｓ_ｋから、音響特徴量列（ベクトル）を逐次的に算出して出力する。例えば特徴量算出部１２１は、入力された音響信号列１５_ｋ−ｓ_ｋに対し、前述の短時間区間からなるフレームごとに、音圧レベル、音響パワー、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficient）特徴量、ＬＰＣ（Linear Predictive Coding）特徴量などを算出し、これらを音響特徴量列として出力する。さらに立ち上がり特性、調波性、時間周期性など（例えば、「井本他，「複数の生活音の出現頻度に基づくユーザ行動の識別手法とコミュニケーションへの応用」，画像電子学会第３２回ＶＭＡ研究会」参照）の音響特徴量が音響特徴量列に加えられてもよい。

音響イベントモデルＤＢ１２３には、事前に算出された音響イベントモデルが複数保存されている。各音響イベントモデルは、音響イベントラベルが付された学習用の音響信号列から音響特徴量列を算出し、各音響イベントに対応する音響特徴量列をＧＭＭ，ＨＭＭ，ＳＶＭ等の周知のモデル化手法を用いてモデル化することで得られる（例えば「奥村学、高村大也、「言語処理のための機械学習入門」コロナ社」等参照）。

特徴量算出部１２１から逐次的に出力された音響特徴量列は音響イベント判定部１２２に入力される。音響イベント判定部１２２は、逐次的に入力された音響特徴量列と、音響イベントモデルＤＢ１２３に記憶されている複数の音響イベントモデルとをそれぞれ比較し、短時間区間ごとに、逐次的に各音響特徴量に対応する音響イベントを決定して音響イベント列１１_ｋ−ｓ_ｋ（ｓ_ｋ＝１，・・・，Ｓ_ｋ）を得て出力する。例えば音響イベントごとに音響特徴量列が対応付けられた音響イベントモデルを用いる場合、音響イベント判定部１２２は、入力された音響特徴量列との距離（ユークリッド距離やコサイン距離）が最も近い音響イベントモデルに対応する音響イベントを選択する。

音響イベント列１１_ｋ−ｓ_ｋ（ｓ_ｋ＝１，・・・，Ｓ_ｋ）は、音響イベント列合成部１１１に入力される。以降の処理は実施例１−１−１（または実施例１−１−２）と同じである。

［実施例１−３］
実施例１−３では、逐次的に入力された音響特徴量列から、学習によって、音響信号−状況生成モデル１２および状況−音響イベント生成モデル１３の算出や状況ラベル列１４の生成を行う。

図４に例示するように、本実施例のモデル処理装置１３０は、音響イベント判定部１２２、音響イベントモデルデータベース（ＤＢ）１２３、音響イベント列合成部１１１、モデル化部１１２（またはモデル化部１１１２）、及び記憶部１１３を有する。モデル処理装置１３０は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。

まず音響イベント判定部１２２に、音響特徴量列１７_ｋ−１，・・・，１７_ｋ−Ｓ_ｋからなる音響特徴量列の集合１７_ｋが逐次的に入力される。各響特徴量列１７_ｋ−ｓ_ｋは、短時間区間ごとの音響特徴量を時系列順につなぎ合わせた列であり、単一または複数の音響特徴量を含む。音響特徴量の具体例は実施例１−２で説明した通りである。音響特徴量列の集合１７_ｋは音響イベント判定部１２２に入力される。その後の処理は実施例１−２と同じである。

［実施例２−１］
実施例２−１では、実施例１−１−１，１−１−２，１−２〜３で説明したように得られた状況−音響イベント生成モデル１３を用い、新たに入力された音響イベント列から状況を推定する。

図５に例示するように、本実施例のモデル処理装置２１０は、記憶部１１３及び生成モデル比較部２１１を有する。モデル処理装置２１０は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。

まずモデル処理装置２１０に音響イベント列２１（新たに入力された音響イベント列）が入力される。音響イベント列２１は、短時間区間ごとの音響イベントを時系列順につなぎ合わせた列であり、単一または複数の音響イベントを含む。

生成モデル比較部２１１は、入力された音響イベント列２１と、記憶部１１３に格納された状況−音響イベント生成モデル１３とを比較し、音響イベント列２１に対し、最も適切であると判断した状況、最も適切なものから順番に複数個の状況、または適切さが閾値を超える状況を決定し、それらを判定結果として出力する。

［比較方法の例１］
音響イベント列２１と状況−音響イベント生成モデル１３との比較方法を例示する。この例では、まず生成モデル比較部２１１が、入力された音響イベント列２１から、以下のようにｐ（ε）（ただし、ε∈｛１，・・・，Ｍ｝）を算出する。

ただし、νは事前に設定された緩和パラメータ（例えば０．０１などの非負値）を表し、Ｃ_εは、音響イベント列２１が含む音響イベントεの個数を表し、Ｎ_ｓ’は音響イベント列２１が含む音響イベントの総数（要素数）を表す。Ｎ_ｓ’＝Ｎ_ｓであってもよいし、Ｎ_ｓ’≠Ｎ_ｓであってもよい。

次に生成モデル比較部２１１は、ｐ（ε）と状況−音響イベント生成モデル１３を、下記に記すカルバックライブラー情報量（Kullback-Leibler divergence: KL divergence）（式３８）またはイェンセンシャノン情報量（Jensen-Shannon divergence: JS divergence）（式３９）などの情報量基準に基づいて比較することで、入力された音響イベント列２１に対応する状況を推定する。

式（４９）や式（５０）の例の場合、生成モデル比較部２１１は、Ｐ（ε）にｐ（ε）（ただし、ε∈｛１，・・・，Ｍ｝）を代入し、Ｑ（ε）に音響イベントｍ＝εに対応する状況−音響イベント生成モデル１３を代入する。例えば、ステップＳ７で得られたλ_ｔｍ ^（ｈ）を状況−音響イベント生成モデル１３とする場合には、Ｑ（ε）にλ_ｔε ^（ｈ）（ただし、ε∈｛１，・・・，Ｍ），ｔ∈｛１，・・・，Ｔ｝）を代入する。例えば、式（４７−２）で得られた状況−音響イベント生成モデル１３を用いる場合には、Ｑ（ε）に

（ただし、ε∈｛１，・・・，Ｍ），ｔ∈｛１，・・・，Ｔ｝）を代入する。これにより、生成モデル比較部２１１は、各状況ｔ∈｛１，・・・，Ｔ｝に対応する情報量（合計Ｔ個の情報量）を得る。生成モデル比較部２１１は、各状況ｔ∈｛１，・・・，Ｔ｝について算出された情報量のうち、最も小さな情報量に対応する状況、最も小さな情報量から順番に選択した複数個の情報量に対応する複数個の状況、または閾値未満の情報量に対応するすべての状況を、音響イベント列２１に対応する状況として決定して出力する。

［比較方法の例２］
以下のように状況−音響イベント生成モデル１３と音響イベント列２１との比較を行ってもよい。この手法では、生成モデル比較部２１１が、入力されたラベル付き音響信号列２１に対し、状況−音響イベント生成モデル１３のもとでの状況の尤度の和や積を求める。以下に具体例を示す。

≪状況−音響イベント生成モデル１３のもとでの状況の尤度の和の例≫

≪状況−音響イベント生成モデル１３のもとでの状況の尤度の積の例≫

ただし、式（５１）（５２）のｅ_ｉは、入力された音響イベント列２１のｉ番目の音響イベントを表す。式（５１）（５２）の計算は、状況−音響イベント生成モデル１３（例えば、ステップＳ７で得られたλ_ｔｍ ^（ｈ））と、入力された音響イベント列２１のｅ_ｉとから実行できる。具体的には、例えば、音響イベント列２１のｅ_ｉに対応する式（３１）（３６）を式（５１）（５２）に代入することで、各状況ｔの尤度の和または積を求める。ただし、式（３６）の代入はそれぞれ正規化λ_ｔｍ ^（ｈ）／Σ_ｔλ_ｔｍ ^（ｈ）を行ってから行う。すなわち、例えば、ステップＳ７で得られたｍ＝ｅ_ｉに対応する式（３６）のλ_ｔｍ ^（ｈ）を正規化したλ_ｔｍ ^（ｈ）／Σ_ｔλ_ｔｍ ^（ｈ）をＰ（ｅ_ｉ＝ε｜ｚ_ｉ＝ｔ，α，β）とし、これらのλ_ｔｍ ^（ｈ）に対応する式（３１）の何れかのη^（ｈ） _{ｓ（ｋ）ｎ（ｓｋ）ｔ}をＰ（ｚ_ｉ＝ｔ，α，β）とし、各状況ｔについて式（５１）または（５２）を計算し、各状況ｔの尤度の和または積を求める。

生成モデル比較部２１１は、各状況について算出した尤度のうち、最も尤度の高い状況、最も尤度の高いものから順番に選択した複数個の状況、または閾値を超える尤度に対応するすべての状況を、入力された音響イベント列２１に対応する状況として決定して出力する。

［実施例２−２］
実施例２−２では、実施例１−１−１，１−１−２，１−２〜３で説明したように得られた状況−音響イベント生成モデル１３を用い、新たに入力された音響信号列から状況を推定する。

図６に例示するように、本形態のモデル処理装置２２０は、特徴量算出部２２１、音響イベント判定部２２２、音響イベントモデルＤＢ１２３、記憶部１１３、生成モデル比較部２１１を有する。モデル処理装置２２０は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。

まず特徴量算出部２２１に音響信号列２２が入力される。音響信号列２２は、短時間区間ごとに区分された時系列の音響信号列を含む。特徴量算出部２２１は、音響信号列２２から音響特徴量列（ベクトル）を算出して出力する。例えば特徴量算出部２２１は、実施例１−２の特徴量算出部１２１と同じ方法で音響特徴量列を算出する。

音響イベント判定部２２２は、実施例１−２の音響イベント判定部１２２と同じ方法で、特徴量算出部２２１から出力された音響特徴量列と、音響イベントモデルＤＢ１２３に記憶されている複数の音響イベントモデルとをそれぞれ比較し、音響信号列２２の全ての要素について音響イベントを決定する。音響イベント判定部２２２は、決定した音響イベントを時系列順につなぎ合わせることで音響イベント列２１を生成して出力する。

音響イベント列２１は、生成モデル比較部２１１に入力される。以降の処理は実施例２−１と同じである。

［実施例２−３］
実施例２−３では、実施例１−１−１，１−１−２，１−２〜３で説明したように得られた状況−音響イベント生成モデル１３を用い、新たに入力された音響特徴量列から状況を推定する。

図７に例示するように、本実施例のモデル処理装置２３０は、音響イベント判定部２２２、音響イベントモデルＤＢ１２３、記憶部１１３、生成モデル比較部２１１を有する。モデル処理装置２３０は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。

まず音響イベント判定部２２２に音響特徴量列２３が入力される。音響特徴量列２３は、短時間区間ごとの音響特徴量を時系列順につなぎ合わせた列であり、単一または複数の音音響特徴量を含む。音響特徴量列の具体例は、実施例１−２で説明した通りである。

音響イベント判定部２２２は、実施例１−２の音響イベント判定部１２２と同じ方法で、音響特徴量列２３の音響特徴量列と、音響イベントモデルＤＢ１２３に記憶されている複数の音響イベントモデルとをそれぞれ比較し、音響特徴量列２３が含む全ての要素について音響イベントを決定する。音響イベント判定部２２２は、決定した音響イベントを時系列順につなぎ合わせることで音響イベント列２１を生成して出力する。

［特徴］
以上のように、音響信号が逐次的に得られる場合に、すべての音響信号が得られる前に、音響信号全体について音響信号と状況や音響イベントの関係をモデル化することができる。また、このように得られた生成モデルを用いて状況の推定を行うことができる。

［変形例等］
なお、本発明は上述の実施の形態に限定されるものではない。例えば、上記のモデル処理装置の処理が複数の装置で分散処理されてもよいし、記憶部に格納された生成モデルやデータが複数の記憶部に分散して格納されてもよい。また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な（non-transitory）記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。

このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。

上記実施例では、コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されたが、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。

１１０，１２０，１３０，２１０，２２０，２３０モデル処理装置

Claims

音響イベントの時系列である音響イベント列を入力とし、状況が音響イベントを生成する確率に基づく値を得るモデルを生成するモデル処理装置であって、
入力された音響イベント列ごとに、音響イベント列が状況を生成する確率に基づく値を、所定の条件を満たすまで更新する第１更新部と、
前記音響イベント列が状況を生成する確率に基づく値が前記所定の条件を満たすまで更新された後に、状況が音響イベントを生成する確率に基づく値を求める第２更新部と、
を有するモデル処理装置。
請求項１のモデル処理装置であって、
さらに初期化部と制御部とを有し、
前記状況が音響イベントを生成する確率に基づく値は、状況が音響イベントを生成する確率を表す第３のパラメータであり、
前記初期化部は、状況が音響イベントを生成する確率を表す第１のパラメータを初期化し、
前記第２更新部は、前記第１のパラメータと、前記入力された音響イベント列に対応する情報に応じて前記第１のパラメータを更新して得られる第２のパラメータと、の重み付け和を前記第３のパラメータとし、
前記制御部は、前記音響イベント列を逐次的に更新し、前記第３のパラメータを前記第１のパラメータとして前記第１更新部および前記第２更新部の処理を再び実行させる処理を繰り返し実行させる、モデル処理装置。
請求項２のモデル処理装置であって、
さらに音響イベント列が状況を生成する確率を表す第４のパラメータを初期化する第２初期化部を有し、
前記音響イベント列が状況を生成する確率に基づく値は、音響イベント列が状況を生成する確率を表す第５のパラメータであり、
前記第１更新部は、前記第１のパラメータおよび前記入力された音響イベント列に対応する情報に応じ、前記第４のパラメータを所定の条件を満たすまで更新して得られた値を前記第５のパラメータとし、
前記第２更新部は、前記第５のパラメータに対応する情報および前記入力された音響イベント列に対応する情報に応じて前記第１のパラメータを更新した値を前記第２のパラメータとし、前記第１のパラメータと前記第２のパラメータとの重み付け和を前記第３のパラメータとし、
前記制御部は、前記音響イベント列を逐次的に更新し、前記第５のパラメータを前記第４のパラメータとし、前記第３のパラメータを前記第１のパラメータとして前記第１更新部および前記第２更新部の処理を再び実行させる処理を繰り返し実行させる、モデル処理装置。
請求項３のモデル処理装置であって、
ｚが状況を表す変数であり、ｅが音響イベントを表す変数であり、各状況に対応するインデックスがｔ＝１，…，Ｔであり、各音響イベントに対応するインデックスがｍ＝１，…，Ｍであり、前記入力された音響イベント列に対応するインデックスがｓ_ｋ＝１，…，Ｓ_ｋであり、Ｔ，Ｍ，Ｓ_ｋ，ｈ，ｋが正整数であり、ＳがＳ_ｋ以上の正整数であり、Ｎ_ｓｋがインデックスｓ_ｋに対応する音響イベント列の要素数であり、δ_ｎｍがインデックスｓ_ｋに対応する音響イベント列のｎ＝ｎ_ｓｋ番目の要素が表す音響イベントに対応するインデックスがｍであるときにδ_ｎｍ＝１となり、ｍでないときにδ_ｎｍ＝０となるデルタ関数であり、Ψがディガンマ関数であり、α_０，β_０がパラメータであり、前記第１のパラメータがλ_ｔｍ ^{（ｈ−１）}であり、前記第４のパラメータがγ_{ｓ（ｋ）ｔ} ^（ｈ）であり、ｓ（ｋ）＝ｓ_ｋであり、
前記第１更新部は、
ｓ_ｋ＝１，…，Ｓ_ｋ，ｎ_ｓｋ＝１，…，Ｎ_ｓｋ，ｔ＝１，…，Ｔについて、

を実行する処理と、

を実行する処理と、を前記所定の条件を満たすまで繰り返し行って得られたγ_{ｓ（ｋ）ｔ} ^（ｈ）を前記第５のパラメータとし、
前記第２更新部は、
前記第５のパラメータγ_{ｓ（ｋ）ｔ} ^（ｈ）および前記第５のパラメータγ_{ｓ（ｋ）ｔ} ^（ｈ）に対応するη_{ｓ（ｋ）ｎ（ｓｋ）ｔ} ^（ｈ）（ただし、ｎ（ｓｋ）＝ｎ_ｓｋ）について

を実行して得られたλ^〜 _ｔｍ ^（ｈ）を前記第２のパラメータとし、
前記第１のパラメータλ_ｔｍ ^{（ｈ−１）}と前記第２のパラメータλ^〜 _ｔｍ ^（ｈ）との重み付け和を前記第３のパラメータλ_ｔｍ ^（ｈ）とし、
前記制御部は、ｋを更新しつつ、ｈ＋１を新たなｈとした前記第１更新部および前記第２更新部の処理を再び実行させる処理を繰り返し実行させる、モデル処理装置。
請求項２から４の何れかのモデル処理装置であって、
前記第１更新部および前記第２更新部の処理を再び実行させる処理の繰り返し回数が多いほど、前記重み付け和における前記第２のパラメータの重みが小さい、モデル処理装置。
請求項４のモデル処理装置であって、
前記インデックスｓ_ｋに対応する音響イベント列のｎ_ｓｋ番目の要素に対応するη_{ｓ（ｋ）ｎ（ｓｋ）ｔ} ^（ｈ）を用い、前記ｎ_ｓｋ番目の要素に対応する状況を推定する分析部を有する、モデル処理装置。
請求項１のモデル処理装置であって、
さらに初期化部と制御部とを有し、
前記状況が音響イベントを生成する確率に基づく値は、状況が音響イベントを生成する頻度を表す第８のパラメータであり、
前記初期化部は、状況が音響イベントを生成する頻度を表す第６のパラメータを初期化し、
前記第２更新部は、前記第６のパラメータと、前記入力された音響イベント列に対応する情報に応じて前記第６のパラメータを更新して得られる第７のパラメータと、の重み付け和を前記第８のパラメータとし、
前記制御部は、前記音響イベント列を逐次的に更新し、前記第８のパラメータを前記第６のパラメータとして前記第１更新部および前記第２更新部の処理を再び実行させる処理を繰り返し実行させる、モデル処理装置。
請求項７のモデル処理装置であって、
各状況に対応するインデックスがｔ＝１，…，Ｔであり、各音響イベントに対応するインデックスがｍ＝１，…，Ｍであり、前記入力された音響イベント列に対応するインデックスがｓ_ｋ＝１，…，Ｓ_ｋであり、Ｔ，Ｍ，Ｓ_ｋ，ｈ，ｋが正整数であり、ＳがＳ_ｋ以上の正整数であり、Ｎ_ｓｋがインデックスｓ_ｋに対応する音響イベント列の要素数であり、下付き添え字のｓ（ｋ）がｓ_ｋであり、下付添え字のｉ（ｓｋ）がｉ_ｓ（ｋ）であり、ｅ_{ｉ（ｓｋ）}が前記インデックスｓ_ｋに対応する前記音響イベント列のｉ（ｓｋ）番目の音響イベントであり、α_０，β_０がパラメータであり、前記第６のパラメータがＮ_ｔｍ ^{（ｈ−１）}であり、前記第８のパラメータがＮ_ｔｍ ^（ｈ）であり、
前記第１更新部は、
Ｎ_ｔｍ ^{（ｈ−１）}、Ｎ_{ｓ（ｋ）ｔ} ^{（ｈ−１）}およびγ＾_{ｓ（ｋ）ｉ（ｓｋ）ｔ} ^{（ｈ−１）}を入力とし、ｓ_ｋ＝１，…，Ｓ_ｋ、ｍ＝１，…，Ｍ、ｔ＝１，…，Ｔについて、

を実行する処理と、
前記インデックスｓ_ｋに対応する前記音響イベント列が含む音響イベントの個数ｎ_{ｓ（ｋ）ｍ}、およびγ＾_{ｓ（ｋ）ｉ（ｓｋ）ｔ} ^（ｈ）を用い、ｓ_ｋ＝１，…，Ｓ_ｋ、ｔ＝１，…，Ｔについて、

を実行する処理を、前記所定の条件を満たすまで、Ｎ_{ｓ（ｋ）ｔ} ^（ｈ）を新たなＮ_{ｓ（ｋ）ｔ} ^{（ｈ−１）}として用いながら繰り返し、
前記第２更新部は、前記第６のパラメータＮ_ｔｍ ^{（ｈ−１）}と、前記第７のパラメータである

と、の重み付け和を前記第８のパラメータＮ_ｔｍ ^（ｈ）とし、
前記制御部は、ｋを更新しつつ、ｈ＋１を新たなｈとした前記第１更新部および前記第２更新部の処理を再び実行させる処理を繰り返し実行させる、モデル処理装置。
請求項１から８の何れかのモデル処理装置であって、
逐次的に入力された音響信号列から、逐次的に音響特徴量列を算出する特徴量算出部と、
前記音響特徴量列から、逐次的に音響イベント列を決定する音響イベント判定部と、を有し、
前記入力された音響イベント列は、前記音響イベント判定部で決定された前記音響イベント列である、モデル処理装置。
請求項１から８の何れかのモデル処理装置であって、
逐次的に入力された音響特徴量列から、逐次的に音響イベント列を決定する音響イベント判定部を有し、
前記入力された音響イベント列は、前記音響イベント判定部で決定された前記音響イベント列である、モデル処理装置。
音響イベントの時系列である音響イベント列を入力とし、状況が音響イベントを生成する確率に基づく値を得るモデルを生成するモデル処理方法であって、
入力された音響イベント列ごとに、音響イベント列が状況を生成する確率に基づく値を、所定の条件を満たすまで更新する第１更新ステップと、
前記音響イベント列が状況を生成する確率に基づく値が前記所定の条件を満たすまで更新された後に、状況が音響イベントを生成する確率に基づく値を求める第２更新ステップと、
を有するモデル処理方法。
請求項１から１０の何れかのモデル処理装置としてコンピュータを機能させるためのプログラム。