JP6114209B2 - モデル処理装置、モデル処理方法、およびプログラム - Google Patents

モデル処理装置、モデル処理方法、およびプログラム Download PDF

Info

Publication number
JP6114209B2
JP6114209B2 JP2014022040A JP2014022040A JP6114209B2 JP 6114209 B2 JP6114209 B2 JP 6114209B2 JP 2014022040 A JP2014022040 A JP 2014022040A JP 2014022040 A JP2014022040 A JP 2014022040A JP 6114209 B2 JP6114209 B2 JP 6114209B2
Authority
JP
Japan
Prior art keywords
acoustic
situation
parameter
event
acoustic event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014022040A
Other languages
English (en)
Other versions
JP2015148740A (ja
Inventor
桂右 井本
桂右 井本
尚 植松
尚 植松
仲 大室
仲 大室
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014022040A priority Critical patent/JP6114209B2/ja
Publication of JP2015148740A publication Critical patent/JP2015148740A/ja
Application granted granted Critical
Publication of JP6114209B2 publication Critical patent/JP6114209B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Stereophonic System (AREA)

Description

この発明は、状況のモデル処理技術に関する。
非特許文献1に開示された従来技術では、連続する有限個の短時間フレーム毎の音響信号が何の音を表しているか(例えば、足音や水が流れる音など。以後、「音響イベント」とする)を示す音響イベント列の生成過程を、長時間音響信号から状況が生成される過程と、状況から音響イベントが生成される過程とを考慮してモデル化し、そのパラメータを推定する。
従来技術では、状況を分析、推定するためのモデルと音響イベントラベルを作成するためのモデルとが別々に作成されていた。そのため、これらのモデルの同時最適化ができず、音響信号列や音響特徴量列から状況をモデル化する際に誤差が生じるという問題点があった。
また従来技術では、事前に大規模なモデル作成用の長時間音響信号に対応する音響イベント列を用意しておき、それら全てを利用してモデルのパラメータを推定していた。そのため、モデル作成用の音響イベント列が事前に全て得られない場合はモデルの作成が困難であるという問題があった。また、全ての音響信号列に対応する音響イベント列を用いてモデルを作成するため、大規模な音響信号列に対しては、モデルの作成に要する時間や一時記憶装置が非常に大規模になるという問題点があった。
本発明の課題は、逐次的に得られる音響特徴量列から、状況を推定するためのモデルと音響イベントラベルを作成するためのモデルとを同時最適化することである。
状況が音響イベントを生成する確率に対応する第1の状況−音響イベントパラメータ、および音響イベントが音響特徴量を生成する確率に対応する第1の音響イベント−音響特徴量パラメータを初期化する。第1の状況−音響イベントパラメータと、入力された音響特徴量列に応じて第1の状況−音響イベントパラメータを更新して得られる第2の状況−音響イベントパラメータと、の重み付け和を第3の状況−音響イベントパラメータとして得、音響特徴量列に応じて第1の音響イベント−音響特徴量パラメータを更新して第2の音響イベント−音響特徴量パラメータを得る処理を、音響特徴量列を逐次的に更新し、第3の状況−音響イベントパラメータを第1の状況−音響イベントパラメータとし、かつ、第2の音響イベント−音響特徴量パラメータを第1の音響イベント−音響特徴量パラメータとして繰り返し、第3の状況−音響イベントパラメータに対応する状況−音響イベント生成モデル、および第2の音響イベント−音響特徴量パラメータに対応する音響イベント−音響特徴量生成モデルを出力する。
本発明では、逐次的に得られる音響特徴量列から、状況を推定するためのモデルと音響イベントラベルを作成するためのモデルとを同時最適化することができる。
実施例1−1のモデル処理装置を例示したブロック図。 実施例1−1,2のモデル処理方法を例示するためのフロー図。 実施例1−2のモデル処理装置を例示したブロック図。 実施例2−1のモデル処理装置を例示したブロック図。 実施例2−1,2のモデル処理方法を例示するためのフロー図。 実施例2−2のモデル処理装置を例示したブロック図。
以下、図面を参照して本発明の実施形態を説明する。
<用語の定義>
実施例で用いる用語を定義する。
「音響イベント」とは、音の事象を意味する。例えば、所定の時間区間(短時間フレーム)における音響信号が表している音の事象を「音響イベント」と呼ぶ。「音響イベント」の具体例は、「包丁の音」「水が流れる音」「水音」「着火音」「火の音」「足音」「掃除機の排気音」などである。「音響イベント列」とは、時系列に並んだ所定の時間区間ごとの音響イベントからなる列を意味する。各時間区間の音響イベントを表す要素(ラベル等)からなる時系列を「音響イベント列」と呼ぶ。音響イベント列は1個以上の要素からなる。「音響信号列」とは、各時間区間の音響信号からなる時系列である。音響信号列は1個以上の音響信号からなる。「音響特徴量列」とは、各時間区間の音響特徴量からなる時系列である。音響特徴量列は、1個以上の音響特徴量からなる。「音響特徴量」とは、音響の特徴を表す値やベクトルである。音響特徴量の例は、音圧レベル、音響パワー、MFCC(Mel-Frequency Cepstrum Coefficient)特徴量、LPC(Linear Predictive Coding)特徴量、立ち上がり特性、調波性、時間周期(例えば、「井本他,「複数の生活音の出現頻度に基づくユーザ行動の識別手法とコミュニケーションへの応用」,画像電子学会第32回VMA研究会」参照)の少なくとも一部を要素とするベクトルである。
「状況」とは、音響イベント列の組み合わせによって規定される、潜在的な音響状態を意味する。言い換えると、「状況」とは、音響イベントによって規定される、潜在的な場の状況を意味する。予め定められた有限個の「状況」が存在することにする。
「XがYを生成する確率」とは、事象Xが起こるという条件のもとでの事象Yが起こる確率をいう。「XがYを生成する確率」は、「XのもとでのYの条件付き確率」や「XにおけるYの条件付き確率」や「XのもとでのYの生成確率」や「XにおけるYの生成確率」とも表現できる。
[実施例1−1]
本実施例では、逐次的に得られる音響特徴量列から、少なくとも、状況−音響イベント生成モデルおよび音響イベント−音響特徴量生成モデルを作成する。
初期化部で、状況が音響イベントを生成する確率に対応する第1の状況−音響イベントパラメータ、および音響イベントが音響特徴量を生成する確率に対応する第1の音響イベント−音響特徴量パラメータを初期化する。その後、更新部で、第1の状況−音響イベントパラメータと、入力された音響特徴量列に応じて第1の状況−音響イベントパラメータを更新して得られる第2の状況−音響イベントパラメータ(状況が音響イベントを生成する確率に対応する)と、の重み付け和を第3の状況−音響イベントパラメータとして得、音響特徴量列に応じて第1の音響イベント−音響特徴量パラメータを更新して第2の音響イベント−音響特徴量パラメータ(音響イベントが音響特徴量を生成する確率に対応する)を得る。制御部は、更新部に入力される音響特徴量列を逐次的に更新し、第3の状況−音響イベントパラメータを第1の状況−音響イベントパラメータとし、かつ、第2の音響イベント−音響特徴量パラメータを第1の音響イベント−音響特徴量パラメータとして、更新部の処理を再び実行させる。モデル出力部は、第3の状況−音響イベントパラメータに対応する状況−音響イベント生成モデル、および第2の音響イベント−音響特徴量パラメータに対応する音響イベント−音響特徴量生成モデルを出力する。
以上により、逐次的に得られる音響特徴量列(リアルタイムな音響特徴量列)から、状況−音響イベント生成モデルおよび音響イベント−音響特徴量生成モデルを同時に得ることができる。ここで、更新部には逐次的に得られる音響特徴量列しか入力されない。しかしながら、各時間区間での「状況が音響イベントを生成する確率」はその時間区間の音響特徴量列のみによって規定されるものではなく、その時間区間を含む長時間の音響特徴量列によって規定されるものである。そのため、逐次的に得られる一部の音響特徴量列のみを用いて状況−音響イベント生成モデルを生成したのでは、適切なモデル化を行うことができない。本実施例では、過去に得られた第1の状況−音響イベントパラメータと、逐次的に得られる音響特徴量列に応じて第1の状況−音響イベントパラメータを更新して得られる第2の状況−音響イベントパラメータと、の重み付け和を第3の状況−音響イベントパラメータとし、それから状況−音響イベント生成モデルを生成する。これにより、逐次的に得られる音響特徴量列を用いつつ、適切なモデル化を行うことが可能となる。一方、各時間区間での「音響イベントが音響特徴量を生成する確率」はその時間区間の音響特徴量列によって規定されるため、逐次的に得られる音響特徴量列を単純に用いて音響イベント−音響特徴量生成モデルを得ても、適切なモデル化を行うことができる。ただし、音響イベント−音響特徴量生成モデルについても同様に、過去に得られた第1の音響イベント−音響特徴量パラメータと逐次的に得られる音響特徴量列から得られた音響イベント−音響特徴量パラメータとの重み付け和を第2の音響イベント−音響特徴量パラメータとしてもよい。
なお、更新部の処理の繰り返し回数が多いほど、上記の重み付け和における第2の状況−音響イベントパラメータの重みを小さくすること(言い換えると、上記の重み付け和における第1の状況−音響イベントパラメータの重みを大きくすること)が望ましい。繰り返し回数が多いほど第1の状況−音響イベントパラメータが適切な値に近いことが推測され、第2の状況−音響イベントパラメータの重みを小さくしたほうが、適切な値へ収束する可能性が高いからである。
上記の過程において、解析部で状況や音響イベントの分析および推定を行ってもよい。この場合、初期化部は、さらに、音響特徴量列の各時点での各音響イベントの確率に対応する第1の音響イベントパラメータ、および音響特徴量列の各時点での各状況の確率に対応する第1の状況パラメータを初期化する。更新部は、逐次的に得られる音響特徴量列および第1の音響イベント−音響特徴量パラメータに基づいて、第1の音響イベントパラメータを更新して第2の音響イベントパラメータ(音響特徴量列の各時点での各音響イベントの確率に対応する)を得、第1の音響イベント−音響特徴量パラメータに基づいて、第1の状況パラメータを更新して第2の状況パラメータ(音響特徴量列の各時点での各状況の確率に対応する)を得、第2の音響イベントパラメータおよび第2の状況パラメータに基づいて得られる第2の状況−音響イベントパラメータから、第3の状況−音響イベントパラメータを得、逐次的に得られる音響特徴量列、第2の音響イベントパラメータおよび第2の状況パラメータに基づいて、第2の音響イベント−音響特徴量パラメータを得る。制御部は、更新部の処理を再び実行させる際に、第2の音響イベントパラメータを第1の音響イベントパラメータとし、かつ、第2の状況パラメータを第1の状況パラメータとする。そして、解析部で、第2の状況パラメータから得られる状況の推定情報(状況ラベル列)、および、第2の音響イベントパラメータから得られる音響イベントの推定情報(音響イベントラベル列)の少なくとも一方を出力する。状況ラベル列や音響イベントラベル列を分析することにより、入力された音響特徴量列に対応する音響イベントや状況を推定できる。
以下に本実施例の詳細を説明する。図1に例示するように、本実施例のモデル処理装置110は、音響イベント列合成部111、モデル化部112、および記憶部113を有する。モデル化部112は、例えば、初期化部1121、更新部1122、制御部1123、およびモデル出力部1124を有する。さらにモデル化部112が解析部1125を有していてもよい。更新部1122は、第1〜4更新部1122a〜1122dを有する。モデル処理装置110は、例えば、CPU(central processing unit)やRAM(random-access memory)等を備えた汎用又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。
音響特徴量列合成部111には、音響特徴量列の集合11が逐次的に入力される。ただし、音響特徴量列の集合11は、単数個または複数個の音響特徴量列11−MIN,11−(MIN+1),・・・,11−MAXから構成される。MINおよびMAXは1以上の整数(正整数)であり、MIN≦MAXかつMINk’≦MINk’+1かつMAXk’≦MAXk’+1を満たす。例えば、MAXk’+1=MINk’+1であるがこれは本発明を限定しない。kは0以上の整数k=0,・・・,Kであり、時間インデックスを表す。kの値が大きいほど後の時刻に対応する。Kは1以上の整数である。また、kは0以上の整数k’=0,・・・,K−1である。また、S=MAX−MIN+1は、音響特徴量列の集合11を構成する音響特徴量列11−s(ただし、s=MIN,・・・,MAX)の個数を表す。すなわち、音響特徴量列合成部111には、時系列に沿った音響特徴量列の集合11,・・・,11の一部である音響特徴量列の集合11が逐次的に入力される。音響特徴量列の集合11を構成する各音響特徴量列11−s(ただし、s=MIN,・・・,MAX)は、短時間区間ごと(数10msec〜数sec程度ごと)の1個の音響特徴量または2個以上の音響特徴量を時系列方向(例えば、時系列順)につなぎ合わせた列であり、単一または複数の音響特徴量を含む。各音響特徴量は、短時間区間ごとの音響信号から得られる。各音響特徴量は複数個の要素からなるベクトルであってもよいし、単数の要素からなるスカラーであってもよい。ただし、sは入力された音響特徴量列11−sに対応するインデックスである。
音響特徴量列の集合11が複数個の音響特徴量列11−MIN,・・・,11−MAXから構成される場合、音響特徴量列合成部111は、例えば、音響特徴量列11−MIN,・・・,11−MAXを時系列順につなぎ合わせ、それによって得られた1個の音響特徴量列1を得て出力する。音響特徴量列の集合11が単数個の音響特徴量列11−1のみから構成される場合、音響特徴量列合成部111は、音響特徴量列11−1を音響特徴量列1として出力する。音響特徴量列合成部111から出力された音響特徴量列1は、逐次的にモデル化部112に入力される。なお、音響特徴量列合成部111が、音響特徴量列11−MIN,・・・,11−MAXを時系列順以外の順序でつなぎ合わせ、それによって得られた1個の音響特徴量列1を得て出力してもよい。また、音響特徴量列合成部111を経由することなく、1個の音響特徴量列1がそのままモデル化部112に入力されてもよい。
モデル化部112は、逐次的に入力される音響特徴量列1から、例えば、以下の手順に従って、逐次的に、音響信号列が状況を生成する確率を表す音響信号−状況生成モデル12、状況が音響イベントを生成する確率を表す状況−音響イベント生成モデル13、および音響イベントが音響特徴量を生成する確率を表す音響イベント−音響特徴量モデル14、状況の推定情報である状況ラベル列15、および音響イベントの推定情報である音響イベントラベル列16を算出し、これらを記憶部113に保存する。なお、記憶部113は単一の記憶装置であってもよいし、複数個の記憶装置の集合であってもよい。音響信号−状況生成モデル12、状況−音響イベント生成モデル13、および音響イベント−音響特徴量モデル14、状況ラベル列15、および音響イベントラベル列16は、同一の記憶装置に格納されてもよいし、別個の記憶装置に格納されてもよい。また、算出されたすべての音響信号−状況生成モデル12、状況−音響イベント生成モデル13、および音響イベント−音響特徴量モデル14、状況ラベル列15、および音響イベントラベル列16を記憶部113に保存しておいてもよいし、新たな音響信号−状況生成モデル12、状況−音響イベント生成モデル13、および音響イベント−音響特徴量モデル14、状況ラベル列15、および音響イベントラベル列16が算出されるたびに、記憶部113に上書き保存してもよい。なお、音響信号−状況生成モデル12、状況ラベル列15、および音響イベントラベル列16の算出や保存は必須ではない。
<状況から音響特徴量が生成される過程の理論的説明>
本実施例のモデル化部112は、逐次的に、音響特徴量列11−s(ただし、s=MIN,・・・,MAX)に対応する音響信号列が状況t(ただし、t=1,・・・,T)を生成する確率と、状況tが音響イベントm(ただし、m=1,・・・,M)を生成する確率と、音響イベントmが音響特徴量を生成する確率を同時に算出し、それぞれを音響信号‐状況生成モデル12、状況‐音響イベント生成モデル13、および音響イベント−音響特徴量生成モデル14とする。つまり、本実施例では、各音響信号が状況の生成確率を規定し、各状況が音響イベントの生成確率を規定し、音響イベントが音響特徴量の生成確率を規定すると考え、これらの関係を生成モデルとして記述する。
モデル化部112に入力されるすべての音響特徴量列1,・・・,1からなる集合である音響特徴量列1を構成する各音響特徴量列11−s(ただし、k=1,・・・,K、s=MIN,・・・,MAX)に対応する音響信号が状況t(ただし、t=1,・・・,T)を生成する確率の集合θ(例えばS×T行列で表現可能)、各状況t(ただし、t=1,・・・,T)が音響イベントm(ただし、m=1,・・・,M)を生成する確率の集合φ(例えばT×M行列で表現可能)、および各音響イベントm(ただし、m=1,・・・,M)が音響特徴量を生成する確率P(μ,Σ)(例えば、M×Dの平均行列とM個のD×Dの精度行列(分散行列の逆行列)で表現可能)が与えられたときの、音響特徴量列11の生成確率P(f|θ,Φ,μ,Σ,Λ)は以下の通りである。
Figure 0006114209

ただし、Sは1以上の整数であり、すべての音響特徴量列1,・・・,1からなる集合である音響特徴量列1を構成する音響特徴量列11−sの個数を表す。S=S+S+・・・+Sを満たす。Tは1以上の整数であり、潜在的な状況の種類の数(状況の種類の総数)を表す。Mは1以上の整数であり、音響イベントの種類の数(音響イベントの種類の総数)を表す。Dは1以上の整数定数であり、音響特徴量の次元数を表す。fは音響特徴量列1を構成する音響特徴量を要素とする集合である。θは各音響特徴量列11−sが状況tを生成する確率の集合を表し、例えば、各音響特徴量列11−sが状況tを生成する確率をs行t列の要素とするS×T行列で表現できる。φは状況tが音響イベントmを生成する確率の集合を表し、例えば状況tが音響イベントmを生成する確率をt行m列の要素とするT×M行列で表現できる。μは音響イベントmによって発生した音響信号の音響特徴量の平均値μからなる列μ,・・・,μを表す。例えば、音響イベントmによって発生した各音響特徴量が複数の要素vcmd(ただし、d=1,・・・,D)からなるベクトル(vcm1,・・・,vcmD)である場合(D≧2の場合)、μは要素vcm1dからvcmEd(ただし、vcmd∈{vcm1d,・・・,vcmEd}であり、Eは音響イベントmに割り当てられる音響特徴量の数を表す)についてのvcmdの期待値mean(vcmd)を要素とするベクトル(mean(vcm1),・・・,mean(vcmD))である。Σは音響イベントmによって発生した音響信号の音響特徴量の分散の逆数(精度)Σからなる列Σ,・・・,Σを表す。例えば、音響イベントmによって発生した各音響特徴量が複数の要素vcmdからなるベクトル(vcm1,・・・,vcmD)である場合(D≧2の場合)、Σは要素vcm1dからvcmEd(ただし、Eは音響イベントmに割り当てられる音響特徴量の数を表す)の分散ver(vcmd)の逆数1/ver(vcmd)を要素とするベクトル(1/ver(vcm1),・・・,1/ver(vcmD))である。Λは音響特徴量列1を表す。fは音響特徴量列1を構成する音響特徴量列11−sを表し、音響特徴量列11−sが含むN個の音響特徴量からなる列(ベクトル)を表す。Nは1以上の整数であり、音響特徴量列11−sが含む短時間区間ごとの音響特徴量の個数を表す。言い換えると、Nは音響特徴量列11−sに含まれる音響特徴量の個数を表す。ただし、MIN=1、MAX=Sであり、{音響特徴量列11−1,・・・,11−S}={音響特徴量列11−MIN,・・・,11−MAX,・・・,11−MIN,・・・,11−MAX}である。
また、音響特徴量列11−sの生成確率P(f)は、例えば、各音響信号が状況を生成する確率θの事前分布(Dirchlet分布に従うものとする)のパラメータα(例えば1.0等の値をとるものとする)、各状況が音響イベントを生成する確率φの事前分布(Dirchlet分布に従うものとする)のパラメータγ(例えば1.0等の値をとるものとする)、各音響イベントにおける音響特徴量の平均の超パラメータβ(例えば3.0等の値をとるものとする),μ(D次元ベクトル。例えばゼロベクトル等のベクトル値をとるものとする)、各音響イベントにおける音響特徴量の精度の超パラメータν(例えば音響特徴量の次元数D+1.0等の値をとるものとする),B(D×D行列。例えば単位行列等を設定ものとする)を用いて以下のように表すことができる。
Figure 0006114209

ただし、fs,iは音響特徴量列11−sに含まれる先頭からi番目の短時間区間での音響特徴量を表し、Nは音響特徴量列11−sに含まれる音響特徴量の個数(短時間区間の個数)を表し、zs,iは音響特徴量列11−sに含まれる先頭からi番目の短時間区間での音響特徴量に対応する状況、ms,iは音響特徴量列11−sに含まれる先頭からi番目の短時間区間での音響特徴量に対応する音響イベントを表す。θは音響特徴量列11−sが何れかの状況t(ただし、t=1,・・・,T)を生成する確率を表す。例えば、音響特徴量列11−sが状況tを生成する確率θstをs行t列の要素とするS×T行列で確率の集合θを表現した場合、θはθのs行の要素の和で表現できる。φは状況tが何れかの音響イベントm(m=1,・・・,M)を生成する確率を表す。例えば、状況tが音響イベントmを生成する確率φtmをt行m列の要素とするT×M行列で確率の集合φを表現した場合、φはφのt行の要素の和で表現できる。Dir(・),N(・),W(・)は、それぞれ、Dirichlet分布の確率密度関数、Normal分布の確率密度関数、Wishart分布の確率密度関数を表す。
ここでH’−1次(H’は2以上の整数)のDirichlet分布の確率密度関数Dir(ι|τ)、およびD次のGauss−Wishart分布の確率密度関数N(μ|β,μ,Σ)W(Σ|ν,B)は以下の通りである。
Figure 0006114209

ただし、τはτh’(ただし、h’=1,・・・,H’)からなるパラメータ、ιは確率変数、Γはガンマ関数を表す。(・)は(・)の転置を表す。また、
Figure 0006114209

である。また、μは音響イベントmによって発生した音響信号の音響特徴量の平均値を表し、Σは音響イベントmによって発生した音響信号の音響特徴量の分散の逆数(精度)を表す。また、|B|は行列Bの行列式を表す。
<生成モデルの算出過程の説明>
モデル化部112は、音響信号が状況を生成する確率と、状況が音響イベントを生成する確率と、音響イベントが音響特徴量を生成する確率とを、入力された音響特徴量列について、入力された音響特徴量列が示す状況z=t、入力された音響特徴量列が示す音響イベントm、各音響特徴量列11−sに対する状況の生成確率θ、各状況tに対する音響イベントの生成確率φ、各音響イベントmに対する音響特徴量の生成確率を制御するパラメータμ,Σの同時確率に対する事後確率を最大化することにより算出し、それぞれを音響信号‐状況生成モデル12、状況‐音響イベント生成モデル13、および音響イベント−音響特徴量生成モデル14とする。ただし、zは状況t(t=1,・・・,T)を表す変数(潜在変数)である。
このような学習には、上記の生成過程に基づいたマルコフ連鎖モンテカルロ法(MCMC法,Markov Chain Monte Carlo methods)や変分ベイズ法(VB法,Variational Bayes methods)などの手法を用いることができる。ここでは変分ベイズ法による生成モデルのパラメータ算出手法について例示する。
<生成モデルの算出のための準備>
確率p(f,m,z,μ,Σ,φ,θ|α,γ,μ,β,ν,B)に対するlog p(f,m,z,μ,Σ,φ,θ|α,γ,μ,β,ν,B)の未知のパラメータm,z,μ,Σ,φ,θを確率変数として扱い、音響特徴量列1を構成する音響特徴量を要素とする集合fについての対数尤度関数を最大化することを考える。ここでモデルの新たな分布q(m,z,μ,Λ,φ,θ)(以下、「変分事後分布」と呼ぶ)を導入すると、Jensenの不等式によって、以下のような対数周辺尤度の下限値(Lower Bound)L[f]を求めることができる。
Figure 0006114209
ただし、<P(・)>q(・)はP(・)のq(・)に関する期待値を表す。また、「≡」は「≡」の左辺と右辺が等しいと定義することを意味する。
また、上記の式から以下が成り立つ。
Figure 0006114209
よって、以下の関係が成り立つ。
L(f)=F[q]+KL(q(m,z,μ,Σ,φ,θ),p(m,z,μ,Σ,φ,θ|f))
ただし、KL(・)は、KLはダイバージェンスを表す。
上記の関係より、下限値F[q]を最大化することは、q(m,z,μ,Σ,φ,θ)とp(m,z,μ,Σ,φ,θ|f)とのKLダイバージェンスを最小化することと等価であることがわかる。言い換えると、下限値F[q]を最大化する変分事後分布q(m,z,μ,Σ,φ,θ)は、真の事後分布p(m,z,μ,Σ,φ,θ|f)の最良近似となる。ここで,変分事後分布についてq(m,z,μ,Σ,φ,θ)=q(m,z)q(μ,Σ,φ,θ)を仮定する。すると、下限値F[q]は以下のように変形できる。
Figure 0006114209
まず、q(m,z)=q(m|z)q(z)とし、下限値F[q]を最大化するm,z(隠れ変数に相当)の変分事後分布の導出を行う。F[q]はq(z)について上に凸である。zに依存しない項を定数項とみなすと、F[q]を最大化するzの変分事後分布q(z)は以下を満たす。
Figure 0006114209

このような変分事後分布q(z)をラグランジュの未定乗数法などを用いて導出するとq(z)は多項分布の積で表現可能であることがわかる。そこで、q(z)のパラメータrsntを導入する。すると、q(z)は以下のように表現できる。
Figure 0006114209

ただし、zsntは音響特徴量列11−sに含まれる先頭からn番目の音響特徴量が状況tに対応する場合に1となり、そうでない場合に0となる。
同様に、下限値F[q]を最大化するmの変分事後分布q(m|z)を導出すると、q(m|z)は多項分布の積で表現可能であることが分かる。そこで、q(m|z)のパラメータusnmを導入する。すると、q(m|z)は以下のように表現できる。
Figure 0006114209

ただし、ysnmは音響特徴量列11−sに含まれる先頭からn番目の音響特徴量が音響イベントmに対応する場合に1となり、そうでない場合に0となる。
次に、q(μ,Σ,φ,θ)=q(φ)q(θ)q(μ|Σ)q(Σ)と仮定し、同様に下限値F[q]を最大化するパラメータμ,Σ,φ,θの変分事後分布を導出する。
下限値F[q]を最大化するパラメータθの変分事後分布q(θ)は、以下の形のディリクレ分布となる。
Figure 0006114209

ただし、
Figure 0006114209

である。また、θstは音響信号sが状況tを生成する確率を表し、Cθsはq(θ)の規格化定数である(例えば、q(θ)のθについての全空間積分値を1とするための規格化定数)。
下限値F[q]を最大化するパラメータφの変分事後分布q(φ)は、以下の形のディリクレ分布となる。
Figure 0006114209

ただし、
Figure 0006114209

であり、Cφtはq(φ)の規格化定数である(例えば、q(φ)のφについての全空間積分値を1とするための規格化定数)。
下限値F[q]を最大化するμの変分事後分布q(μ|Σ)は以下のようになる。
Figure 0006114209

つまり、q(μ|Σ)は平均がμ、共分散がβΣのガウス分布であることが分かる。なお、μ,μはD次元の縦ベクトルである。また、fsnは音響特徴量列11−sが含む短時間区間ごとのn番目(ただし、n=1,・・・,N)の音響特徴量を表す。すなわち、f={fs1,・・・,fsNs}の関係を満たす。
さらに、下限値F[q]を最大化するΣの変分事後分布q(Σ)は以下の様に記述可能である。
Figure 0006114209

ただし、以下を満たす。
Figure 0006114209

snはD次元の縦ベクトルである。また、Tr(・)は行列(・)のトレースを表す。以上より、q(Σ)はνおよびBをパラメータとするWishart分布であることが分かる。
以上によって下限値F[q]を最大化するパラメータμ,Σ,φ,θの変分事後分布q(μ,Σ,φ,θ)が導出できたので、再び、隠れ変数m,zの変分事後分布の導出に戻り、パラメータrsntおよびusnmを導出する。まず、F[q]を最大化する(例えば、変分事後分布q(z)のzについての全空間積分値が1であるとの制約条件のもとで)q(z)は以下のようになる。
Figure 0006114209

ただし、Cはq(z)の規格化定数である(例えば、q(z)のzについての全空間積分値を1とするための規格化定数)。
ここで以下の関係を満たす。
Figure 0006114209

また、Ψはディガンマ関数を表す。
同様に以下の関係を満たす。
Figure 0006114209
よって最終的に、式(1)のパラメータrsntは以下のように表現できる。
Figure 0006114209

ただし、
Figure 0006114209

である。
また、F[q]を最大化する(例えば、変分事後分布q(m|z)のmについての全空間積分値が1であるとの制約条件のもとで)q(m|z)は以下のようになる。
Figure 0006114209
ただし、Cm,zはq(m,z)の規格化定数である(例えば、q(m,z)の(m,z)についての全空間積分値を1とするための規格化定数)。
この各項をzの変分事後分布q(z)の場合と同様に算出していくと、以下のようになる。
Figure 0006114209
Figure 0006114209
最終的に、式(2)のパラメータusnmは以下のように表現できる。
Figure 0006114209
ただし、
Figure 0006114209

である。
以上のようにパラメータμ,Σ,φ,θおよび潜在変数m,zを更新することで、下限値F[q]を最大化する変分事後分布q(m,z,μ,Σ,φ,θ)を得ることができる。つまり、ある時刻における生成モデルを推定する際は、パラメータμ,Σ,φ,θおよび潜在変数m,zを上述に沿って更新すればよい。
ただし、本実施例では、すべての音響特徴量列1を一度に用いるのではなく、逐次的に入力される音響特徴量列1から生成モデルを算出する。そのために、過去の時点の音響特徴量列に対する、状況が音響イベントを生成する確率を考慮しつつも、逐次的に得られる音響信号に対して、効率的に生成モデルを算出するための処理を行う。すなわち、過去の時点の音響特徴量列に対して得られた生成モデルのパラメータと逐次的に得られる音響特徴量列に対して得られるパラメータとの重み付け和を新たなパラメータとして更新する。ここで、更新のための重み係数ρは、例えば以下の式(3)または式(4)のように設定する。
ρ=κ (3)
ρ=(τ+k)−κ (4)
ただし、κは正の忘却係数(κ∈(0.5,1.0]等)を表し、τは更新の時間重みを制御するパラメータ(τ≧0等)を表し、kは時間インデックスを表す。
本実施例では、以上の点を考慮し、音響信号‐状況生成モデル12、状況‐音響イベント生成モデル13、音響イベント−音響特徴量生成モデル14、状況ラベル列15、および音響イベントラベル列16を算出する。
[生成モデル算出の流れ]
モデル化部112の初期化部1121は、状況が音響イベントを生成する確率に対応する第1の状況−音響イベントパラメータ(γtm (k))、および音響イベントが音響特徴量を生成する確率に対応する第1の音響イベント−音響特徴量パラメータ(μ (k),B (k),gμm (k),Σμm (k))を初期化する。更新部1122は、第1の状況−音響イベントパラメータ(γtm (k))と、入力された音響特徴量列(1)に応じて第1の状況−音響イベントパラメータ(γtm (k))を更新して得られる第2の状況−音響イベントパラメータ(γ tm (k))と、の重み付け和を第3の状況−音響イベントパラメータ(γtm (k+1))として得、音響特徴量列1に応じて第1の音響イベント−音響特徴量パラメータ(μ (k),B (k),gμm (k),Σμm (k))を更新して第2の音響イベント−音響特徴量パラメータ(μ (k+1),B (k+1),gμm (k+1),Σμm (k+1))を得る。ただし、下付け添え字の「μm」は「μ」を表す。制御部1123は、更新部1122に入力される音響特徴量列1を逐次的に更新し、第3の状況−音響イベントパラメータ(γtm (k+1))を第1の状況−音響イベントパラメータ(γtm (k))とし、かつ、第2の音響イベント−音響特徴量パラメータ(μ (k+1),B (k+1),gμm (k+1),Σμm (k+1))を第1の音響イベント−音響特徴量パラメータ(μ (k),B (k),gμm (k),Σμm (k))として、更新部1122の処理を再び実行させることを繰り返す。モデル出力部1124は、更新部1122で得られる第3の状況−音響イベントパラメータ(γtm (k+1))に対応する状況−音響イベント生成モデル、および第2の音響イベント−音響特徴量パラメータ(μ (k+1),B (k+1),gμm (k+1),Σμm (k+1))に対応する音響イベント−音響特徴量生成モデルを出力する。
本実施例では、初期化部1121が、さらに、音響特徴量列(1)の各時点(n)での各音響イベント(m)の確率に対応する第1の音響イベントパラメータ(Usknm (k))、および音響特徴量列(1)の各時点(n)での各状況(t)の確率に対応する第1の状況パラメータ(Rsknt (k))を初期化する。ただし、下付け添え字の「sknm」は「snm」を表し、下付け添え字の「sknt」は「snt」を表す。また、上付き添え字の「(k)」は下付き添え字の真上に記載すべきであるが、記載表記の制約上、下付き添え字の右上に記載している。下付き添え字の右上に記載した(k)は下付き添え字の真上に記載した(k)(ただし、k=0,・・・,K)と同義である。また、更新部1122の第1更新部1122aは、音響特徴量列(1)および第1の音響イベント−音響特徴量パラメータ(μ (k),B (k),gμm (k),Σμm (k))に基づいて、第1の音響イベントパラメータ(Usknm (k))を更新して第2の音響イベントパラメータ(Usknm (k+1))を得る。第2更新部1122bは、第1の音響イベント−音響特徴量パラメータ(μ (k),B (k),gμm (k),Σμm (k))に基づいて、第1の状況パラメータ(Rsknt (k))を更新して第2の状況パラメータ(Rsknt (k+1))を得る。また、第3更新部1122cは、第2の状況パラメータ(Rsknt (k+1))に基づいて、音響特徴量列(1)を構成する各音響特徴量列(11−s)が状況(t)を生成する確率に対応するパラメータ(αskt (k+1))を得る。ただし、下付け添え字の「skt」は「st」を表す。第4更新部1122dは、第1の状況−音響イベントパラメータ(γtm (k))と、第2の音響イベントパラメータ(Usknm (k+1))および第2の状況パラメータ(Rsknt (k+1))に基づいて得られる第2の状況−音響イベントパラメータ(γ tm (k))とから、第3の状況−音響イベントパラメータ(γtm (k+1))を得る。さらに第4更新部1122dは、音響特徴量列(1)、第2の音響イベントパラメータ(Usknm (k+1))および第2の状況パラメータ(Rsknt (k+1))に基づいて、第2の音響イベント−音響特徴量パラメータ(μ (k+1),B (k+1),gμm (k+1),Σμm (k+1))を得る。制御部1123は、更新部1122の処理を再び実行させる際に、第2の音響イベントパラメータ(Usknm (k+1))を第1の音響イベントパラメータ(Usknm (k))とし、かつ、第2の状況パラメータ(Rsknt (k+1))を第1の状況パラメータ(Rsknt (k))とする。なお、以下では、更新部1122の処理の繰り返し回数(k)が多いほど、上記の重み付け和における第2の状況−音響イベントパラメータ(γ tm (k))の重みを小さくする。さらに、更新部112が解析部1125を有する場合には、例えば、解析部1125が、第2の状況パラメータ(Rsknt (k+1))から得られる状況の推定情報(状況ラベル列15)、および、第2の音響イベントパラメータ(Usknm (k+1))から得られる音響イベントの推定情報(音響イベントラベル列16)の少なくとも一方を出力してもよい。
以下、図2を用いてこれらの処理の具体例を示す。
(i)初期化部1121は、事前分布の超パラメータα,γ,β,μ,ν,B,τおよび更新のための忘却係数κを設定し、それらを用い、各変分事後分布の超パラメータγtm (k),Ntm (k),N (k),μ (k),ν (k),B (k),gμm (k),Σμm (k)および重み係数ρを以下のように初期化し、k=0とする(ステップS101)。
(i−1)t=1,・・・,Tおよびm=1,・・・,Mについて、
γtm (0)=γ
tm (0)=N/(T×M)
(0)=N/M
μ (0)=μ
ν (0)=ν
(0)=B
Figure 0006114209

と初期化する。
(i−2)k=0について、
ρ=(τ−κ
と初期化する。
(ii)制御部1123は、音響特徴量列1,・・・,1の一部である音響特徴量列1をモデル化部112に入力させる(ステップS102)。
(ii−0)初期化部1121は、s=MIN,・・・,MAX、n=1,・・・,Nsk、t=1,・・・,T、およびm=1,・・・Mについて、
Figure 0006114209

と初期化する(ステップS103)。ただし、Nskは1以上の整数であり、音響特徴量列11−sが含む短時間区間ごとの音響特徴量の個数を表す。ただし、「Nsk」の下付き添え字の「sk」は「s」を表す。
(ii−1)制御部1123は、更新部1122に音響特徴量列1を入力し、以下の(ii−1−1)、(ii−1−2)、および(ii−1−3)を、終了条件を満たすまで繰り返し実行させる。終了条件の例は、(ii−1−1)、(ii−1−2)、および(ii−1−3)を規定の回数(正値、例えば1〜3000回程度)繰り返すこと、または、所望の結果が得られこと(例えば、更新の前後において、tに対するγskntの変化が一定の閾値(例えば0.01%)以下になること等)である。
(ii−1−1)第1更新部1122aは、s=MIN,・・・,MAX、n=1,・・・,Nsk、およびm=1,・・・Mについて、ν,N (k),B (k),ν (k),gμm (k),Σμm (k),μ (k),Rsknt (k),γ,Ntm (k)、および音響特徴量列11−sのn番目の音響特徴量fsknを入力とし、以下のように潜在変数の事後分布を更新し、新たなusknm (k)およびUsknm (k)(音響イベントパラメータ)を出力する。なお、各演算の順序に制約はなく、各入力に対応する出力が得られるのであれば、どのような順序で演算が行われてもよい。以降のその他の演算についても同様である。
Figure 0006114209
ただし、usknm (k)およびUsknm (k)の下付き添え字「sknm」は「snm」を表す。fsknの下付き添え字「skn」は「sn」を表す。以後の処理で用いられるusknm (k)およびUsknm (k)は、これらの新たなusknm (k)およびUsknm (k)である(ステップS104)。
(ii−1−2)次に、第2更新部1122bは、s=MIN,・・・,MAX、n=1,・・・,Nsk、およびt=1,・・・Tについて、Usknm (k),γ,Ntm (k),α,Nskmを入力とし、以下のように潜在変数の事後分布を更新し、新たなrsknt (k)およびRsknt (k)(状況パラメータ)を得て出力する。
Figure 0006114209

ただし、rsknt (k)およびRsknt (k)の下付き添え字「sknt」は「snt」を表す。Nskt (k)の下付き添え字「skt」は「st」を表す。以後の処理で用いられるrsknt (k)およびRsknt (k)は、これらの新たなrsknt (k)およびRsknt (k)である(ステップS105)。
(ii−1−3)次に、第3更新部1122cは、s=MIN,・・・,MAX、n=1,・・・,Nsk、およびt=1,・・・Tについて、Rsknt (k)およびαを入力とし、以下のようにパラメータの変分事後分布を更新し、新たなNskt (k)およびαskt (k)を得て出力する。
Figure 0006114209

ただし、Nskt (k)およびαskt (k)の下付き添え字「skt」は「st」を表す。以後の処置で用いられるNskt (k)およびαskt (k)は、これらの新たなNskt (k)およびαskt (k)である(ステップS106)。
次に、制御部1123は、前述の終了条件を満たすかを判定する(ステップS107)。前述の終了条件を満たさないと判定した場合、制御部1123は、処理をステップS104に戻す。前述の終了条件を満たす判定した場合、制御部1123は、
Figure 0006114209

とみなし、処理をステップS108に進める。
(ii−2)ステップS108では、第4更新部1122dが、s=MIN,・・・,MAX、n=1,・・・,Nsk、t=1,・・・T、およびm=1,・・・Mについて、以下のように変分事後分布を更新する。まず、第4更新部1122dは、Usknm (k+1)およびRsknt (k+1)を入力とし、以下のようにNtm (k+1),γtm (k+1)(状況−音響イベントパラメータ)を得て出力する。
Figure 0006114209

ただし、S=MAX−MIN+1である。
次に、第4更新部1122dは、Ntm (k+1),Usknm (k+1),Rsknt (k+1),usknm (k+1),rsknt (k+1),β,μ,ν,Bおよび音響特徴量列11−sのn番目の音響特徴量fsknを入力とし、以下のようにμ (k+1),B (k+1),gμm (k+1),Σμm (k+1),ν (k+1)(音響イベント−音響特徴量パラメータ)を得て出力する。
Figure 0006114209
(iii)次にモデル出力部1124は、上述のように得られたパラメータαskt (k+1)(式(5))に対応する音響信号−状況生成モデル12、パラメータλtm (k+1)(式(8))に対応する状況−音響イベント生成モデル13、およびパラメータμ (k+1),B (k+1),gμm (k+1),Σμm (k+1)(式(9)〜(12))に対応する音響イベント−音響特徴量生成モデル14を生成して出力する(ステップS109)。例えば、モデル出力部1124は、音響信号−状況生成モデル12として以下の式(13)を得て出力し、状況−音響イベント生成モデル13として以下の式(14)を得て出力し、音響イベント−音響特徴量生成モデル14として以下の式(15)を得て出力する。
Figure 0006114209
また、モデル化部112が解析部1125を備える場合、解析部1125が、上述のように得られたパラメータRsknt (k+1)(式(7))から状況の推定情報である状況ラベル列15を得て出力してもよいし、パラメータUsknm (k+1)(式(6))から音響イベントの推定情報である音響イベントラベル列16を得て出力してもよい(ステップS110)。これにより、音響特徴量列1がどの状況や音響イベントにより生成されたものかを分析することが可能となる。
例えば、各(s,n)についてパラメータRsknt (k+1)(式(7))を最大化する状況t(ただし、t=1,・・・,T)を各音響特徴量列11−sにおけるn番目の短時間区間での状況tと推定し、各(s,n)について推定された状況tの列を状況ラベル列15として出力してもよい。或いは、パラメータRsknt (k+1)を最大化するtのみならず、各(s,n)について大きい順に複数個のパラメータRsknt (k+1)を選択し、選択したパラメータRsknt (k+1)に対応する状況t(ただし、t=1,・・・,T)を各音響特徴量列11−sにおけるn番目の短時間区間での状況tと推定し、それらを状況ラベル列15として出力してもよい。或いは、各(s,n)についてパラメータRsknt (k+1)が閾値を超えるパラメータRsknt (k+1)を選択し、選択したパラメータRsknt (k+1)に対応する状況t(ただし、t=1,・・・,T)を各音響特徴量列11−sにおけるn番目の短時間区間での状況tと推定し、それらを状況ラベル列15として出力してもよい。また、各kについてそれぞれ状況ラベル列15を出力するのではなく、(s,n)についてパラメータRsknt (k+1)がこれまでで最大であった場合のみに、その(s,n)について状況ラベル列15を出力してもよい。或いは、(s,n)についてパラメータRsknt (k+1)がこれまでの最大値から所定番目までであった場合や閾値を超える場合にのみ、その(s,n)について状況ラベル列15を出力してもよい。
同様に、例えば、各(s,n)についてパラメータUsknm (k+1)(式(6))を最大化する音響イベントm(ただし、m=1,・・・,M)を各音響特徴量列11−sにおけるn番目の短時間区間での音響イベントmと推定し、各(s,n)について推定された音響イベントmの列を音響イベントラベル列16として出力してもよい。或いは、パラメータUsknm (k+1)を最大化するmのみならず、各(s,n)について大きい順に複数個のパラメータUsknm (k+1)を選択し、選択したパラメータUsknm (k+1)に対応する音響イベントm(ただし、m=1,・・・,M)を各音響特徴量列11−sにおけるn番目の短時間区間での音響イベントmと推定し、それらを音響イベントラベル列16として出力してもよい。或いは、各(s,n)についてパラメータUsknm (k+1)が閾値を超えるパラメータUsknm (k+1)を選択し、選択したパラメータUsknm (k+1)に対応する音響イベントm(ただし、m=1,・・・,M)を各音響特徴量列11−sにおけるn番目の短時間区間での音響イベントmと推定し、それらを音響イベントラベル列16として出力してもよい。また、各kについてそれぞれ音響イベントラベル列16を出力するのではなく、(s,n)についてパラメータUsknm (k+1)がこれまでで最大であった場合のみに、その(s,n)について音響イベントラベル列16を出力してもよい。或いは、(s,n)についてパラメータUsknm (k+1)がこれまでの最大値から所定番目までであった場合や閾値を超える場合にのみ、その(s,n)について音響イベントラベル列16を出力してもよい。
以上のように出力された音響信号−状況生成モデル12、状況−音響イベント生成モデル13、音響イベント−音響特徴量生成モデル14、状況ラベル列15、音響イベントラベル列16は、記憶部113に格納される。なお、前述のように、音響信号−状況生成モデル12、状況ラベル列15、および音響イベントラベル列16の算出や保存は必須ではない。
次に、制御部1123は、k=Kであるか(入力されたのが最後の音響特徴量列1であるか)を判定する(ステップS111)。k=Kでなければ、制御部1123は、k+1を新たなkとし(ステップS112)、ρ=(τ+k)−κによって重み係数ρを更新して(ステップS113)、処理をステップS102に戻す。一方、k=Kであれば処理を終了する。
<本実施例の特徴>
本実施例では、逐次的に得られた音響特徴量列を用い、それらに対応する音響信号列が状況を生成する確率や状況が音響イベントを生成する確率のみでなく、音響イベントが音響特徴量列を生成する確率を同時にモデルに組み込んだ。これにより、音響イベント間の類似度を精度良くモデルに組み込むことが可能となり、精度の高いモデル化が可能となる。
また、本実施例のモデル処理装置110をモデル推定器として捉えた場合、例えば、状況‐音響イベント生成モデル13および音響イベント−音響特徴量生成モデル14の出力(およびそれらに対応するパラメータの更新部1122への再入力)が必須となる。一方で、本実施例のモデル処理装置110を状況及び音響イベント推定器として捉えた場合には、例えば、状況ラベル列15および音響イベントラベル列16の少なくとも一方の出力が必須となる。
なお、上述の説明では、各kについてステップS109やS110を実行する例を示したがこれは本発明を限定しない。すなわち、ステップS111でk=Kであると判定されるまではステップS109やS110の処理を実行せず、ステップS111でk=Kであると判定されてから、各kについてステップS109やS110の処理をまとめて実行してもよいし、一部のkのみについてステップS109やS110の処理を実行してもよい。例えば、k=KのみについてステップS109やS110の処理を実行してもよい。或いは、また、各(s,n)について最大のパラメータRsknt (k+1)のみについて、その(s,n)について状況ラベル列15を出力してもよい。或いは、各(s,n)について最大値から所定番目までのパラメータRsknt (k+1)のみまたは所定の閾値以上のRsknt (k+1)のみについて、それらの(s,n)について状況ラベル列15を出力してもよい。同様に、各(s,n)について最大のパラメータUsknm (k+1)のみについて、その(s,n)について音響イベントラベル列16を出力してもよい。或いは、各(s,n)について最大値から所定番目までのパラメータUsknm (k+1)のみまたは所定の閾値以上のUsknm (k+1)のみについて、それらの(s,n)について音響イベントラベル列16を出力してもよい。
[実施例1−2]
実施例1−2では、逐次的に入力された音響信号列を用い、学習処理によって、状況−音響イベント生成モデル13、および音響イベント−音響特徴量生成モデル14を生成する。さらに、音響信号−状況生成モデル12、状況ラベル列14、音響イベントラベル列16を生成してもよい。ただし、モデル化部112が、音響信号−状況生成モデル12や状況ラベル列14や音響イベントラベル列16を生成することは必須ではない。以降、同一のものには同じ参照符号を付し、説明は繰り返さない。
図2に例示するように、本実施例のモデル処理装置120は、音響特徴量算出部121、音響イベント列合成部111、モデル化部112、及び記憶部113を有する。モデル処理装置120は、例えば、汎用又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。
まず音響特徴量算出部121に、音響信号列の集合10が逐次的に入力される。ただし、音響信号列の集合10は、単数個または複数個の音響信号列10−MIN,10−(MIN+1),・・・,10−MAXから構成される。すなわち、音響特徴量算出部121には、時系列に沿った音響信号列の集合10,・・・,10の一部である音響信号列の集合11が逐次的に入力される。音響信号列の集合10を構成する各音響信号列10−s(ただし、s=MIN,・・・,MAX)は、短時間区間ごとの音響信号を時系列方向(例えば、時系列順)につなぎ合わせた列であり、単一または複数の音響信号を含む。
音響特徴量算出部121は、各音響信号列10−sから、音響特徴量列(ベクトル)を逐次的に算出して出力する。例えば音響特徴量算出部121は、入力された音響信号列10−sに対し、前述の短時間区間ごとに、音圧レベル、音響パワー、MFCC(Mel-Frequency Cepstrum Coefficient)特徴量、LPC(Linear Predictive Coding)特徴量などを算出し、これらを音響特徴量列11−sとして出力する。さらに立ち上がり特性、調波性、時間周期性などの音響特徴量が音響特徴量列に加えられてもよい。
得られた音響特徴量列11−MIN,・・・,11−MAXからなる音響特徴量列の集合11は、音響特徴量列合成部111に入力される。以降の処理は、実施例1−1と同じである。なお、音響特徴量算出部121が各音響信号列10−sから音響特徴量列を算出する前に、音響信号列10−MIN,10−(MIN+1),・・・,10−MAXを時系列順につなぎ合わせて1個の音響信号列1を得、各音響信号列10−sから音響特徴量列を算出することに代えて、音響信号列1から音響特徴量列を算出することで音響特徴量列1を得てもよい。このように得られた音響特徴量列1は、モデル化部112に入力され、それ以降、実施例1−1と同じ処理が実行される。
[実施例2−1]
実施例2−1では、実施例1−1で説明したように得られた状況−音響イベント生成モデル13および音響イベント−音響特徴量生成モデル14を用い、新たに入力された音響信号列から状況を推定する。
図4に例示するように、本形態のモデル処理装置210は、記憶部213及び生成モデル比較部211を有する。生成モデル比較部211は、例えば、音響イベント推定部211aおよび比較部211bを有する。モデル処理装置210は、例えば、汎用又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。また記憶部213には、実施例1−1で説明したように得られた状況−音響イベント生成モデル13および音響イベント−音響特徴量生成モデル14が格納されている。
図5に例示するように、音響イベントの種類の総数M、状況の種類の総数T、音響特徴量列21(第2の音響特徴量列)が生成モデル比較部211に入力される(ステップS211)。音響特徴量列21は、1個の音響特徴量または2個以上の音響特徴量を時系列方向(例えば、時系列順)につなぎ合わせた列である。実施例1−1で説明したように、各音響特徴量は、短時間区間ごとの音響信号から得られたものである。各音響特徴量は複数個の要素からなるベクトルであってもよいし、単数の要素からなるスカラーであってもよい。生成モデル比較部211は、例えば、入力された情報を用い、音響特徴量列21と、状況−音響イベント生成モデル13とを比較し、最も近いと判断された状況、若しくは近いと判断された状況から複数個、またはある尤度よりも高いと判断された状況を判定結果として出力する。また、生成モデル比較部211が、音響特徴量列21と音響イベント−音響特徴量生成モデル14とを用い、音響特徴量列21に対応する音響イベント列を推定して出力してもよい。以下に、生成モデル比較部211の処理を例示する。
まず、生成モデル比較部211の音響イベント推定部211aは、記憶部213から読み込んだ音響イベント−音響特徴量生成モデル14を用い、音響特徴量列21を構成する各音響特徴量について音響イベントが音響特徴量を生成する確率P(音響特徴量|音響イベント)を最大にする音響イベント列(入力された第2の音響特徴量列に対する生成確率が最大となる音響イベント列)を得て出力する(ステップS212)。例えば、音響特徴量列21の音響イベント推定部211aは、以下のように音響イベント列m,・・・,mN’を得る。
Figure 0006114209

ただし、fは音響特徴量列21に対応する時間区間の先頭からi番目(i=1,・・・,N’)の短時間区間に対応する音響特徴量を表す(音響特徴量列21は音響特徴量f,・・・,fN’の列である)。mは音響特徴量列21に対応する時間区間の先頭からi番目の短時間区間に対応する音響イベントを表す。また、N’は正の整数であり、音響特徴量列21に対応する時間区間が含む短時間区間の数を表す。N’=Nであってもよいし、N’≠Nであってもよい。p(f|m,μ,Λ)は音響イベント−音響特徴量生成モデル14から得られる。例えば、μは平均ν (k+1)であり、ΛはΣμm (k+1)の要素の逆数を要素とするD×Dの行列である。例えばp(f|m,μ,Λ)は、ν (k+1)を平均、Λを分散、gμm (k+1)を自由度とするStudent−t分布に従う確率密度関数によって算出可能である。p(m)は予め定められた事象mの事前確率である。また、音響イベント推定部211aは、音響特徴量列21を構成する各音響特徴量について確率P(音響特徴量|音響イベント)が大きい方から選択された複数個の音響イベントからなる音響イベント列を音響イベント判定結果としてもよいし、当該確率P(音響特徴量|音響イベント)が閾値以上(又は閾値を超える)1個または複数個の音響イベントからなる音響イベント列を音響イベント判定結果としてもよい。
生成モデル比較部211の比較部211bは、音響イベント推定部211aで得られた音響イベント列m,・・・,mN’から得られる音響イベントの分布と、状況−音響イベント生成モデル13が表す音響イベントを確率変数としたP(音響イベント|状況)の各状況に対応する分布(各状況についての音響イベントを確率変数とした確率P(音響イベント|状況)の分布)とを比較し、これらの分布の距離に基づいて音響特徴量列21に対応する状況または状況の列を推定し(ステップS213)、その推定結果を状況判定結果として出力する(ステップS214)。なお、音響イベントを確率変数としたP(音響イベント|状況)の各状況に対応する分布は、状況ごとに定まる、音響イベントを確率変数としたP(音響イベント|状況)の分布である。例えば、これらの分布が最も近くなる状況を状況判定結果として出力してもよいし、これらの分布が近いほうから選択した複数個の状況を状況判定結果として出力してもよいし、これらの分布の距離が閾値以下(または未満)となる1個または複数個の状況を状況判定結果として出力してもよい。
<比較部211bの処理の具体例1>
まず比較部211bが、入力された音響イベント列から、以下のように音響イベントの分布p’(m)(ただし、m=1,・・・,M)を算出する。
Figure 0006114209

ただし、γ’は事前に設定された緩和パラメータ(例えば0.01などの非負値)を表し、Cは、入力された音響イベント列のうち音響イベントmを表す音響イベントの個数を表す。
次に比較部211bは、p’(m)と状況−音響イベント生成モデル13を、下記に記すカルバックライブラー情報量(Kullback-Leibler divergence: KL divergence)やイェンセンシャノン情報量(Jensen-Shannon divergence: JS divergence)などの情報量基準に基づいて比較することで、入力された音響イベント列m,・・・,mN’に対応する状況を推定する。
Figure 0006114209
式(17)又は(18)の例の場合、比較部211bは、P(m)にp’(m)(ただし、m=1,・・・,M)を代入し、Q(m)にγtm (k+1)(式(8))または
Figure 0006114209

(ただし、m=1,・・・,M,t=1,・・・,T)(音響イベントm=1,・・・,Mを確率変数とした確率P(音響イベントm|状況t)の各状況tに対応する分布)を代入する。これにより、比較部211bは、各状況t=1,・・・,Tに対応する情報量(合計T個の情報量)を得る。比較部211bは、各状況t=1,・・・,Tについて算出された情報量のうち、最も小さな情報量に対応する状況、または、最も小さな情報量から順番に選択した複数個の情報量に対応する複数個の状況、または、閾値以下(又は未満)の1個または複数個に対応する状況を、音響特徴量列21に対応する状況(状況判定結果)として出力する。
<比較部211bの処理の具体例2>
比較部211bは、状況−音響イベント生成モデル13と入力された音響イベント列との比較を以下のように行ってもよい。この手法では、比較部211bが、入力された音響イベント列に対し、状況−音響イベント生成モデル13のもとでの状況の尤度の和や積を求める。比較部211bは、尤度の和や積が最大となる状況を状況判定結果として出力してもよいし、尤度の和や積が大きい順に選択した複数個の状況を状況判定結果として出力してもよいし、尤度の和や積が閾値以上(又は閾値を超える)の1個または複数個の状況を、状況判定結果として出力してもよい。
≪状況−音響イベント生成モデル13のもとでの状況tの尤度の和の例≫
Figure 0006114209

ただし、zは音響特徴量列21に対応する時間区間の先頭からi番目の短時間区間に対応する状況を表し、mは音響特徴量列21に対応する時間区間の先頭からi番目の短時間区間に対応する音響イベントを表す。
≪状況−音響イベント生成モデル13のもとでの状況tの尤度の積の例≫
Figure 0006114209
[実施例2−2]
実施例2−2では、実施例1−1で説明したように得られた状況−音響イベント生成モデル13および音響イベント−音響特徴量生成モデル14を用い、新たに入力された音響信号列から状況を推定する。
図6に例示するように、本形態のモデル処理装置220は、記憶部213、特徴量算出部211、及び生成モデル比較部211を有する。モデル処理装置220は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。
まず特徴量算出部211に音響信号列20が入力される。音響信号列20は、短時間区間ごとに区分された要素からなり、各要素には要素番号が付されている。特徴量算出部211は、音響信号列20から前述のように音響信号列21を算出して出力する。音響信号列21は、生成モデル比較部211に入力される。これ以降の処理は実施例2−1と同じであるため説明を省略する。
[その他の変形例等]
なお、本発明は上述の各実施例に限定されるものではない。例えば、例えば、生成モデルの作成処理や状況/音響イベント判定処理が複数の装置で分散処理されてもよいし、生成モデルやデータが複数の記憶部に分散して格納されてもよい。また、短時間区間ごとに区分された各要素に対応する要素番号が、音響特徴量列や音響信号列に含まれていてもよい。また上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。
上記実施形態では、コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されたが、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。
110,120,210,220 モデル処理装置

Claims (8)

  1. 状況が音響イベントを生成する確率に対応する第1の状況−音響イベントパラメータ、および音響イベントが音響特徴量を生成する確率に対応する第1の音響イベント−音響特徴量パラメータを初期化する初期化部と、
    前記第1の状況−音響イベントパラメータと、入力された音響特徴量列に応じて前記第1の状況−音響イベントパラメータを更新して得られる第2の状況−音響イベントパラメータと、の重み付け和を第3の状況−音響イベントパラメータとして得、前記音響特徴量列に応じて前記第1の音響イベント−音響特徴量パラメータを更新して第2の音響イベント−音響特徴量パラメータを得る更新部と、
    前記更新部に入力される前記音響特徴量列を逐次的に更新し、前記第3の状況−音響イベントパラメータを前記第1の状況−音響イベントパラメータとし、かつ、前記第2の音響イベント−音響特徴量パラメータを前記第1の音響イベント−音響特徴量パラメータとして、前記更新部の処理を再び実行させる制御部と、
    前記第3の状況−音響イベントパラメータに対応する状況−音響イベント生成モデル、および前記第2の音響イベント−音響特徴量パラメータに対応する音響イベント−音響特徴量生成モデルを出力するモデル出力部と、
    を有するモデル処理装置。
  2. 請求項1のモデル処理装置であって、
    前記初期化部は、
    さらに、前記音響特徴量列の各時点での各音響イベントの確率に対応する第1の音響イベントパラメータ、および前記音響特徴量列の各時点での各状況の確率に対応する第1の状況パラメータを初期化し、
    前記更新部は、
    前記音響特徴量列および前記第1の音響イベント−音響特徴量パラメータに基づいて、前記第1の音響イベントパラメータを更新して第2の音響イベントパラメータを得、
    前記第1の音響イベント−音響特徴量パラメータに基づいて、前記第1の状況パラメータを更新して第2の状況パラメータを得、
    前記第1の状況−音響イベントパラメータと、前記第2の音響イベントパラメータおよび前記第2の状況パラメータに基づいて得られる前記第2の状況−音響イベントパラメータとから、前記第3の状況−音響イベントパラメータを得、
    前記音響特徴量列、前記第2の音響イベントパラメータおよび前記第2の状況パラメータに基づいて、前記第2の音響イベント−音響特徴量パラメータを得、
    前記制御部は、
    前記更新部の処理を再び実行させる際に、前記第2の音響イベントパラメータを前記第1の音響イベントパラメータとし、かつ、前記第2の状況パラメータを前記第1の状況パラメータとする、モデル処理装置。
  3. 請求項2のモデル処理装置であって、
    前記第2の状況パラメータから得られる状況の推定情報、および、前記第2の音響イベントパラメータから得られる音響イベントの推定情報の少なくとも一方を出力する解析部をさらに有するモデル処理装置。
  4. 請求項1から3の何れかのモデル処理装置であって、
    入力された音響信号列から前記音響特徴量列を得て出力する音響特徴量算出部をさらに有するモデル処理装置。
  5. 請求項1から4の何れかのモデル処理装置で得られた前記音響イベント−音響特徴量生成モデルに基づいて、入力された第2の音響特徴量列に対する生成確率が最大となる音響イベント列を得る音響イベント推定部と、
    前記音響イベント列から得られる音響イベントの分布と、請求項1から4の何れかのモデル処理装置で得られた前記状況−音響イベント生成モデルに対応する、各状況についての音響イベントを確率変数とした確率P(音響イベント|状況)の分布と、の距離に基づいて、前記第2の音響特徴量列に対応する状況または状況の列を得る比較部と、
    を有するモデル処理装置。
  6. 請求項5のモデル処理装置であって、
    入力された第2の音響信号列から前記第2の音響特徴量列を得て出力する第2の音響特徴量算出部をさらに有するモデル処理装置。
  7. 状況が音響イベントを生成する確率に対応する第1の状況−音響イベントパラメータ、および音響イベントが音響特徴量を生成する確率に対応する第1の音響イベント−音響特徴量パラメータを初期化する初期化ステップと、
    前記第1の状況−音響イベントパラメータと、入力された音響特徴量列に応じて前記第1の状況−音響イベントパラメータを更新して得られる第2の状況−音響イベントパラメータと、の重み付け和を第3の状況−音響イベントパラメータとして得、前記音響特徴量列に応じて前記第1の音響イベント−音響特徴量パラメータを更新して第2の音響イベント−音響特徴量パラメータを得る更新ステップと、
    前記第3の状況−音響イベントパラメータに対応する状況−音響イベント生成モデル、および前記第2の音響イベント−音響特徴量パラメータに対応する音響イベント−音響特徴量生成モデルを出力するモデル出力ステップと、を有し、
    前記音響特徴量列を逐次的に更新し、前記第3の状況−音響イベントパラメータを前記第1の状況−音響イベントパラメータとし、かつ、前記第2の音響イベント−音響特徴量パラメータを前記第1の音響イベント−音響特徴量パラメータとして、前記更新ステップが再び実行される、モデル処理方法。
  8. 請求項1から6の何れかのモデル処理装置としてコンピュータを機能させるためのプログラム。
JP2014022040A 2014-02-07 2014-02-07 モデル処理装置、モデル処理方法、およびプログラム Active JP6114209B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014022040A JP6114209B2 (ja) 2014-02-07 2014-02-07 モデル処理装置、モデル処理方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014022040A JP6114209B2 (ja) 2014-02-07 2014-02-07 モデル処理装置、モデル処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2015148740A JP2015148740A (ja) 2015-08-20
JP6114209B2 true JP6114209B2 (ja) 2017-04-12

Family

ID=53892128

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014022040A Active JP6114209B2 (ja) 2014-02-07 2014-02-07 モデル処理装置、モデル処理方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6114209B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115331697B (zh) * 2022-10-14 2023-01-24 中国海洋大学 多尺度环境声音事件识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5800718B2 (ja) * 2012-01-12 2015-10-28 日本電信電話株式会社 特定状況モデルデータベース作成装置とその方法と状況推定装置とプログラム

Also Published As

Publication number Publication date
JP2015148740A (ja) 2015-08-20

Similar Documents

Publication Publication Date Title
JP6933264B2 (ja) ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体
CN107564513B (zh) 语音识别方法及装置
Alfons et al. Sparse least trimmed squares regression for analyzing high-dimensional large data sets
JP6283331B2 (ja) 流れ推定装置、予測装置、及びプログラム
JP5229478B2 (ja) 統計モデル学習装置、統計モデル学習方法、およびプログラム
US20110288835A1 (en) Data processing device, data processing method and program
JP6749282B2 (ja) 人流量予測装置、人流量予測方法、及び人流量予測プログラム
Oudelha et al. HMM parameters estimation using hybrid Baum-Welch genetic algorithm
JP6967197B2 (ja) 異常検出装置、異常検出方法及びプログラム
JP6517760B2 (ja) マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム
Tokdar et al. Simultaneous linear quantile regression: A semiparametric bayesian approach
JP6665071B2 (ja) 人流量予測装置、人流量予測方法、及び人流量予測プログラム
JP5818759B2 (ja) 状況生成モデル作成装置、状況推定装置、およびプログラム
US8972254B2 (en) Turbo processing for speech recognition with local-scale and broad-scale decoders
JP6114209B2 (ja) モデル処理装置、モデル処理方法、およびプログラム
JP6241790B2 (ja) 生成モデル作成装置、推定装置、それらの方法およびプログラム
JP3920749B2 (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
JP4950600B2 (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP2014048523A (ja) 行動生成モデル作成装置及び行動推定装置
JP6093670B2 (ja) モデル処理装置、モデル処理方法、およびプログラム
JP5783979B2 (ja) 生成モデル作成装置及び推定装置
JP6078441B2 (ja) モデル処理装置、分析装置、それらの方法およびプログラム
JP6220694B2 (ja) モデル処理装置、その方法、およびプログラム
JP6316669B2 (ja) 状況モデル学習装置、その方法及びプログラム
Vakilzadeh Stochastic model updating and model selection with application to structural dynamics

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160302

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170223

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170314

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170316

R150 Certificate of patent or registration of utility model

Ref document number: 6114209

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150