JP6220694B2 - モデル処理装置、その方法、およびプログラム - Google Patents

モデル処理装置、その方法、およびプログラム Download PDF

Info

Publication number
JP6220694B2
JP6220694B2 JP2014027139A JP2014027139A JP6220694B2 JP 6220694 B2 JP6220694 B2 JP 6220694B2 JP 2014027139 A JP2014027139 A JP 2014027139A JP 2014027139 A JP2014027139 A JP 2014027139A JP 6220694 B2 JP6220694 B2 JP 6220694B2
Authority
JP
Japan
Prior art keywords
acoustic event
parameter
situation
acoustic
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014027139A
Other languages
English (en)
Other versions
JP2015111232A (ja
Inventor
桂右 井本
桂右 井本
尚 植松
尚 植松
仲 大室
仲 大室
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014027139A priority Critical patent/JP6220694B2/ja
Publication of JP2015111232A publication Critical patent/JP2015111232A/ja
Application granted granted Critical
Publication of JP6220694B2 publication Critical patent/JP6220694B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Stereophonic System (AREA)

Description

本発明は、状況のモデル処理技術に関する。
非特許文献1に開示された従来技術では、連続する有限個の短時間フレーム毎の音響信号が何の音を表しているか(例えば、足音や水が流れる音など。以後、「音響イベント」とする)を示す音響イベント列の生成過程を、長時間音響信号から状況が生成される過程と、状況から音響イベントが生成される過程とを考慮してモデル化し、そのパラメータを推定する。
上述従来技術では、事前に大規模なモデル作成用の長時間音響信号に対応する音響イベント列を用意しておき、それら全てを利用してモデルのパラメータを推定していた。そのため、モデル作成用の音響イベント列が事前に全て得られない場合はモデルの作成が困難であるという問題があった。また、全ての音響信号列に対応する音響イベント列を用いてモデルを作成するため、大規模な音響信号列に対しては、モデルの作成に要する時間や一時記憶装置が非常に大規模になるという問題点があった。
本発明は、このような点に鑑みてなされたものであり、逐次的に得られる音響イベント列を用いて状況のモデル処理を行う。
入力された音響イベント列ごとに、音響イベント列が状況を生成する確率に基づく値を、所定の条件を満たすまで更新する。音響イベント列が状況を生成する確率に基づく値が当該所定の条件を満たすまで更新された後に、状況が音響イベントを生成する確率に基づく値を求める。これにより、状況が音響イベントを生成する確率に基づく値を得るモデルを生成する。
本発明では、逐次的に得られる音響イベント列を用いて状況のモデル処理を行うことができる。
実施例1−1−1および1−1−2のモデル処理装置を例示したブロック図。 実施例1−1−1および1−1−2のモデル処理方法を例示するためのフロー図。 実施例1−2のモデル処理装置を例示したブロック図。 実施例1−3のモデル処理装置を例示したブロック図。 実施例2−1のモデル処理装置を例示したブロック図。 実施例2−2のモデル処理装置を例示したブロック図。 実施例2−3のモデル処理装置を例示したブロック図。
以下、図面を参照して本発明の実施形態を説明する。
<用語の定義>
実施例で用いる用語を定義する。
「音響イベント」とは、音の事象を意味する。各実施例では、所定の時間区間(短時間フレーム)における音響信号が表している音の事象を「音響イベント」と呼ぶことにする。「音響イベント」の具体例は、「包丁の音」「水が流れる音」「水音」「着火音」「火の音」「足音」「掃除機の排気音」などである。「音響イベント列」とは、時系列に並んだ所定の時間区間ごとの音響イベントからなる列(音響イベントの時系列)を意味する。各時間区間の音響イベントを表す要素(ラベル等)からなる時系列を「音響イベント列」と呼ぶ。音響イベント列は1個以上の要素からなる。「音響信号列」とは、各時間区間の音響信号からなる時系列である。音響信号列は1個以上の音響信号からなる。
「状況」とは、音響イベント列の組み合わせによって規定される、潜在的な音響状態を意味する。言い換えると、「状況」とは、音響イベントによって規定される、潜在的な場の状況を意味する。予め定められた有限個の「状況」が存在することにする。
「XがYを生成する確率」とは、事象Xが起こるという条件のもとでの事象Yが起こる確率をいう。「XがYを生成する確率」は、「XのもとでのYの条件付き確率」や「XにおけるYの条件付き確率」や「XのもとでのYの生成確率」や「XにおけるYの生成確率」や「XからどんなYが出やすいかという確率」や「XからどんなYが生じやすいかという確率」とも表現できる。
[実施例1−1−1]
本実施例では、逐次的に得られる音響イベント列から、音響信号−状況生成モデルおよび状況−音響イベント生成モデルを作成する。そのために、入力された音響イベント列ごとに、音響イベント列が状況を生成する確率に基づく値を、所定の条件を満たすまで更新し、音響イベント列が状況を生成する確率に基づく値がこの所定の条件を満たすまで更新された後に、状況が音響イベントを生成する確率に基づく値を求める。
本実施例では、まず初期化部で、状況が音響イベントを生成する確率を表す第1のパラメータを初期化する。その後、更新部で、第1のパラメータと、入力された音響イベント列に対応する情報に応じて第1のパラメータを更新して得られる第2のパラメータと、の重み付け和を第3のパラメータとする。なお、第3のパラメータは、状況が音響イベントを生成する確率(状況が音響イベントを生成する確率に基づく値)を表す。制御部は、第3のパラメータを第1のパラメータとし、入力される音響イベント列を逐次的に更新しつつ、更新部の処理を再び実行させる処理を繰り返し実行させる。その結果得られた第1のパラメータまたは第3のパラメータを用い、状況が音響イベントを生成する確率P(音響イベント|状況)を表す状況−音響イベント生成モデルを得ることができる。
より具体的には、さらに音響イベント列が状況を生成する確率(音響イベント列が状況を生成する確率に基づく値)を表す第4のパラメータを初期化する第2初期化部を有する。なお、音響イベント列が状況を生成する確率は、当該音響イベント列に対応する音響信号が状況を生成する確率であるともいえる。更新部は、第1のパラメータおよび入力された音響イベント列に対応する情報に応じて第4のパラメータを所定の条件を満たすまで更新して得られた値を第5のパラメータとする第1更新部と、第5のパラメータに対応する情報および入力された音響イベント列に対応する情報に応じて第1のパラメータを更新した値を第2のパラメータとし、第1のパラメータと第2のパラメータとの重み付け和を第3のパラメータとする第2更新部とを含む。なお、第5のパラメータは、音響イベント列が状況を生成する確率(音響イベント列が状況を生成する確率に基づく値)を表す。制御部は、更新部に入力される音響イベント列を逐次的に更新し、第5のパラメータを第4のパラメータとし、第3のパラメータを第1のパラメータとして更新部の処理を再び実行させる処理を繰り返し実行させる。その結果得られた第4のパラメータまたは第5のパラメータを用い、音響信号が状況を生成する確率P(状況|音響信号)を表す音響信号−状況生成モデルを得る。
更新部の処理を再び実行させる処理の繰り返し回数が多いほど、上記の重み付け和における第2のパラメータの重みを小さくすることの望ましい。繰り返し回数が多いほど第1のパラメータが適切な値に近いことが推測され、第2のパラメータの重みを小さくしたほうが、適切な値へ収束する可能性が高いからである。また、上記の過程において、分析部で状況の分析および推定を行ってもよい。以下に本実施例の詳細を説明する。
図1に例示するように、本実施例のモデル処理装置110は、音響イベント列合成部111、モデル化部112、および記憶部113を有する。モデル化部112は、例えば、初期化部112a、更新部112b、制御部112c、分析部112d、およびモデル出力部112eを有し、更新部112bは、初期化部112ba(第2初期化部)、第1更新部112bb、および第2更新部112bcを有する。モデル処理装置110は、例えば、CPU(central processing unit)やRAM(random-access memory)等を備えた公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。
音響イベント列合成部111には、音響イベント列の集合11が逐次的に入力される。ただし、音響イベント列の集合11は、単数個または複数個の音響イベント列11−1,11−2,・・・,11−Sから構成される。Sは1以上の整数(正整数)であり、音響イベント列の集合11を構成する音響イベント列11−sの個数を表す。kは1以上の整数(正整数)であり、時間インデックスを表す。kの値が大きいほど後の時刻に対応する。各音響イベント列11−s(s=1,・・・,S)は、短時間区間ごと(数10msec〜数sec程度ごと)の音響イベントを時系列順につなぎ合わせた列であり、単一または複数の音響イベントを含む。ただし、sは入力された音響イベント列11−sに対応するインデックスである。
音響イベント列の集合11が複数個の音響イベント列11−1,11−2,・・・,11−Sから構成される場合、音響イベント列合成部111は、音響イベント列11−1,11−2,・・・,11−Sを時系列順につなぎ合わせ、それによって得られた1個の音響イベント列1を得て出力する。音響イベント列の集合11が単数個の音響イベント列11−1のみから構成される場合、音響イベント列合成部111は、音響イベント列11−1を音響イベント列1として出力する。音響イベント列合成部111から出力された音響イベント列1は、逐次的にモデル化部112に入力される。なお、音響イベント列合成部111を経由することなく、1個の音響イベント列1がそのままモデル化部112に入力されてもよい。
モデル化部112は、以下の手順に従って、逐次的に入力された音響イベント列1から、音響信号が状況を生成する確率P(状況|音響信号)である音響信号−状況生成モデル12、および状況が音響イベントを生成する確率P(音響イベント|状況)である状況−音響イベント生成モデル13を算出して出力する。さらに、モデル化部112は、入力された音響イベント列1を構成する各音響イベントに対応する状況を表す状況ラベル列14を生成してもよい。この状況ラベル列14を分析することにより、各音響イベントが示す状況が推定できる。ただし、モデル化部112が、音響信号−状況生成モデル12や状況ラベル列14を生成することは必須ではない。
モデル化部112が生成したモデルや列は記憶部113に格納される。音響信号‐状況生成モデル12、状況‐音響イベント生成モデル13、および状況ラベル列14は、同一のデータベースに格納されてもよいし、互いに異なるデータベースに格納されてもよい。また、各時間インデックスkに対応するすべての音響信号‐状況生成モデル12、状況‐音響イベント生成モデル13、および/または、状況ラベル列14が記憶部113に格納されてもよいし、各時間インデックスkに対応する音響信号‐状況生成モデル12、状況‐音響イベント生成モデル13、および/または、状況ラベル列14が算出されるたびに、記憶部113に格納された音響信号‐状況生成モデル12、状況‐音響イベント生成モデル13、および/または、状況ラベル列14が上書きされてもよい。
<状況から音響イベントが生成される過程の理論的説明>
本実施例のモデル化部112は、逐次的に、音響信号が状況を生成する確率、および状況が音響イベントを生成する確率を同時に算出し、それぞれを音響信号‐状況生成モデル12、および状況‐音響イベント生成モデル13とする。つまり、本実施例では、各音響信号が状況の生成確率を規定し、各状況が音響イベントの生成確率を規定すると考え、これらの関係を生成モデルとして記述する。
モデル化部112に入力される音響イベント列1を構成する音響イベント列1−s(ただし、s=1,・・・,S)に対応する音響信号が各状況t(ただし、tは各状況に対応するインデックスt=1,・・・,Tであり、インデックスtに対応する状況を「状況t」と表現する)を生成する確率P(Θ)(例えばS×T行列で表現可能)、各状況t(ただし、t=1,・・・,T)が音響イベントm(ただし、mは各音響イベントに対応するインデックスm=1,・・・,Mであり、インデックスmに対応する音響イベントを「音響イベントm」と表現する)を生成する確率P(Φ)(例えばT×M行列で表現可能)が与えられたときの、音響イベント列1の生成確率P(e|Θ,Φ,Ω)は以下の通りである。
Figure 0006220694

ただし、音響イベント列1はモデル化部112に入力されるすべての音響イベント列1,・・・,1max(ただし、maxは正整数)からなり、各音響イベント列1−sは、何れかの音響イベント列11k−sである。SはS以上の正整数であり、音響イベント列1を構成する音響イベント列1−sの総数を表す。Ωは音響イベント列1を構成する音響イベント列1−s(ただし、s=1,・・・,S)からなる集合を表す。Tは1以上の整数であり、潜在的な状況の種類の数(状況の種類の総数)を表す。Mは1以上の整数であり、音響イベントの種類の数(音響イベントの種類の総数)を表す。Θは音響イベント列1−sに対応する音響信号と状況tとの組からなる集合を表し、P(Θ)は、例えば、音響イベント列1−sに対応する音響信号が状況tを生成する確率θstをs行t列の要素とするS×T行列で表現できる。Φは状況tと音響イベントmとの組からなる集合を表し、P(Φ)は、例えば状況tが音響イベントmを生成する確率φtmをt行m列の要素とするT×M行列で表現できる。eは音響イベントからなる集合(ベクトル)を表す変数(音響イベントを表す変数)、eは音響イベント列1−sを構成する要素である音響イベントからなる集合(N次元ベクトル)を表す。Nは音響イベント列1−sに含まれる要素数(音響イベントの個数)を表す。
音響イベント列1−sの生成確率P(e)は、例えば、音響イベント列1−sに対応する音響信号における状況tの生成確率θ=P(Θ)の事前分布(Dirchlet分布に従うものとする)のパラメータ(ハイパパラメータ)α、各状況tにおける音響イベントmの生成確率φ=P(Φ)の事前分布(Dirchlet分布に従うものとする)のパラメータ(ハイパパラメータ)βを用いて以下のように表すことができる。
Figure 0006220694

ただし、Nは音響イベント列1−sに含まれる要素数(音響イベントの個数)を表す。θは音響イベント列1−sに対応する音響信号が何れかの状況t(t=1,・・・,T)を生成する確率を表す。例えば、音響イベント列1−sに対応する音響信号が状況tを生成する確率θstをs行t列の要素とするS×T行列でθ=P(Θ)を表現した場合、θはθのs行の要素の和で表現できる。φは状況tが何れかの音響イベントm(m=1,・・・,M)を生成する確率を表す。例えば、状況tが音響イベントmを生成する確率φtmをt行m列の要素とするT×M行列でφ=P(Φ)を表現した場合、φはΦのt行の要素の和で表現できる。es,nはN次元ベクトルeのn番目(ただし、n=1,・・・,N)の要素である音響イベントを表す。zs,nは音響イベント列1−sのn番目の音響イベントtを表す変数である。パラメータαはT次元ベクトルであり、パラメータβはM次元ベクトルである。以下では、αがT個の同一の要素α(例えばα≧0)からなるT次元ベクトルα=(α,・・・,α)であり、βがM個の同一の要素β(例えばβ≧0)からなるM次元ベクトルβ=(β,・・・,β)である場合を例示する。Dir(・)はDirichlet分布の確率密度関数を表す。K−1次(Kは2以上の整数)のDirichlet分布の確率密度関数Dir(ι|ξ)は以下の通りである。
Figure 0006220694

ただし、ξはξ(i=1,...,K)からなるパラメータの列、ιは確率変数、Γはガンマ関数を表す。
<生成モデルの算出過程の説明>
モデル化部112は、逐次的に入力される音響イベント列1,...1maxから、学習処理によって、前述の生成モデルやラベル列等を生成する。この例のモデル化部112は、音響信号が状況を生成する確率P(状況|音響信号)、および状況が音響イベントを生成する確率P(音響イベント|状況)おいて、音響イベント列1の事後確率を最大化する学習処理を行う。これは例えば、尤度関数L(音響イベント列|パラメータ)=P(音響イベント列|パラメータ)または対数尤度関数log L(音響イベント列|パラメータ))を最大化する学習処理によって実現可能で、、その結果を用いて各生成モデルや各ラベル列を生成する。「log」は自然対数を表す。
このような学習には、上記の生成過程に基づいたマルコフ連鎖モンテカルロ法(MCMC法,Markov Chain Monte Carlo methods)や変分ベイズ法(VB法,Variational Bayes methods)などの手法を用いることができる。ここでは変分ベイズ法による生成モデルのパラメータ算出手法について説明を行う。
<生成モデルの算出のための準備>
確率p(e,z,φ,θ|α,β)に対するlog p(e,z,φ,θ|α,β)の未知のパラメータz,φ,θを確率変数として扱い、音響イベント列1を構成する要素である音響イベントからなる集合eについての対数尤度関数を最大化することを考える。ただし、zは状況を表す変数(潜在変数)である。新たな分布q(z,φ,θ)(以下、「変分事後分布」と呼ぶ)を導入すると、Jensenの不等式によって、以下のような周辺対数尤度の下限値(Lower Bound)F[q]を求めることができる。
Figure 0006220694

ただし、<P(・)>q(・)はP(・)のq(・)に関する期待値を表す。「≡」の左辺が右辺によって定義されるか、「≡」の右辺が左辺によって定義されている。下限値F[q]は変分事後分布q(z,φ,θ)を変関数とする汎関数である。
また、上記の式から以下が成り立つ。
Figure 0006220694

よって、以下の関係が成り立つ。
L(e)=F[q]+KL(q(z,φ,θ),p(z,φ,θ|e))
ただし、KL(・)は、KLはダイバージェンスを表す。
ここで、L(e)がeのみに依存することに注意すると、下限値F[q]を最大化することは、q(z,φ,θ)とp(z,φ,θ|e)とのKLダイバージェンスを最小化することと等価であることがわかる。言い換えると、下限値F[q]を最大化する変分事後分布q(z,φ,θ)は、真の事後分布p(z,φ,θ|e)の最良近似となる。ここで、変分事後分布についてq(z,φ,θ|λ,γ)=q(z)q(φ|λ)q(θ|γ)を仮定する。ただし、λは各状況t(t=1,・・・,T)が各音響イベントm(m=1,・・・,M)を生成する確率λtmの分布を表すパラメータであり、γは各音響イベント列1−sに対応する音響信号が各状況t(t=1,・・・,T)を生成する確率γstの分布を表すパラメータである。例えば、λは状況tが音響イベントmを生成する確率λtmをt行m列の要素とするT×M行列で表現でき、γは音響イベント列1−sに対応する音響信号が状況tを生成する確率γstをs行t列の要素とするS×T行列で表現できる。
すると、下限値F[q]は以下のように変形できる。
Figure 0006220694

Figure 0006220694
F[q]において、パラメータθ,φ,zに依存しない項を定数項と見なし、ラグランジュの未定乗数法などを用いて、θ,φ,zの変分事後分布q(θ|γ),q(φ|λ),q(z)を導出する。
[θの変分事後分布q(θ|γ)の算出]
式(2)のF[q]を変形し、q(θ|γ)に依存しない項を定数項とすると以下のようになる。
Figure 0006220694

ただし、「const.」はq(θ|γ)に依存しない定数項を表す。
ここで、変分事後分布q(θ)を変関数とする汎関数J[q(θ)]の極値問題を考える。
Figure 0006220694

ただし、μはラグランジュ乗数を表す。すると、式(4)から以下が成立する。
Figure 0006220694
また、式(5)を用い、変分事後分布q(θ|γ)を変関数とする汎関数J[q(θ|γ)]の極値問題を考えると、以下のようになる。
Figure 0006220694
式(5)(6)より、q(θst|γst)は以下のように表現可能である。
Figure 0006220694
ここで
Figure 0006220694

と定義する。すると、式(7)は以下のように表現できる。
Figure 0006220694

ただし、ηsnzは音響イベント列1−sのn番目の要素の状況zについての変分事後分布q(z)を表す。また、αはT次元ベクトルα=(α,・・・,α)の要素である。
式(8)より、γstは以下のように表現可能である。
Figure 0006220694
[φの変分事後分布q(Φ|λ)の算出]
式(2)のF[q]を変形し、q(Φ|λ)に依存しない項を定数項とすると以下のようになる。
Figure 0006220694

ただし、「const.2」はq(Φ|λ)に依存しない定数項を表す。
ここで、変分事後分布q(φ|λ)を変関数とする汎関数J[q(φ|λ)]の極値問題を考える。
Figure 0006220694

すると、式(11)から以下が成立する。
Figure 0006220694
また、式(12)を用い、変分事後分布q(φ|λ)を変関数とする汎関数J[q(φ|λ)]の極値問題を考えると、以下のようになる。
Figure 0006220694
式(12)(13)より、q(φtm|λtm)は以下のように表現可能である。
Figure 0006220694
ここで
Figure 0006220694

と定義する。すると、式(14)は以下のように表現できる。
Figure 0006220694

ただし、βはM次元ベクトルβ=(β,・・・,β)の要素である
式(15)より、λtmは以下のように表現可能である。
Figure 0006220694
[zの変分事後分布q(z)の算出]
式(2)のF[q]を変形し、q(z)に依存しない項を定数項とすると以下のようになる。
Figure 0006220694

ただし、「const.3」はq(z)に依存しない定数項を表す。
ここで、変分事後分布q(z)を変関数とする汎関数J[q(z)]の極値問題を考える。
Figure 0006220694

すると、式(18)から以下が成立する。
Figure 0006220694
また、式(19)を用い、変分事後分布q(z)を変関数とする汎関数J[q(z)]の極値問題を考えると、以下のようになる。
Figure 0006220694
式(19)(20)より、q(z=t)は以下のように表現可能である。
Figure 0006220694
ここで
Figure 0006220694

と定義する。すると、式(21)は以下のように表現できる。
Figure 0006220694
次に、式(22)の各項を計算する。式(1)より、以下が成立する。
Figure 0006220694

ただし、Ψはディガンマ関数を表し、zs,nは音響イベント列1−sのn番目の音響イベントに対応する状況を表し、λtmは状況tが音響イベントmを生成する確率を表し、φtmは状況tが音響イベントmを生成する確率を表す。また、eについての和Σはe=1,・・・,Mについての和を表す。
また、式(1)より、以下が成立する。
Figure 0006220694

ただし、γstは音響イベント列1−sに対応する音響信号が状況tを生成する確率を表し、θstは音響イベント列1−sに対応する音響信号が状況tを生成する確率を表し、θsntは音響イベント列1−sのn番目の音響イベントに対応する音響信号が状況tを生成する確率を表す。また、zについての和Σはz=1,・・・,Tについての和を表す。
式(23)(24)より、式(22)は以下のように表現可能である。
Figure 0006220694
式(25)をtについて正規化すると以下のようになる。
Figure 0006220694
ここで以下のような定義を行う。
Figure 0006220694

すると、以下が成り立つ。
Figure 0006220694
以上のように、式(9)(16)(27)に沿ってパラメータλ,γおよび潜在変数zを更新することで、下限値F[q]を最大化する変分事後分布q(z,φ,θ|λ,γ)=q(z)q(φ|λ)q(θ|γ)を得ることができる。つまり、ある時刻における生成モデルを推定する際は、パラメータλ,γおよび潜在変数zを式(9)(16)(27)に沿って更新すればよい。
ただし、本実施例では、すべての音響イベント列1を一度に用いるのではなく、逐次的に入力される音響イベント列1,...1maxから生成モデルを算出する。そのために、過去の時点の音響イベント列に対する音響イベント列が状況を生成する確率と、その状況が音響イベントを生成する確率を考慮しつつも、逐次的に得られる音響イベント列に対して、効率的に生成モデルを算出するための処理を行う。すなわち、過去の時点の音響イベント列に対して得られた生成モデルのパラメータと逐次的に得られる音響イベント列に対して得られるパラメータとの重み付け和を新たなパラメータとして更新する。ここで、更新のための重み係数ρは、例えば以下の式(28)または式(29)のように設定する。
ρ=κ (28)
ρ=(τ+k)−κ (29)
ただし、κは忘却係数(κ∈(0.5,1.0]等)を表し、τは更新の時間重みを制御するパラメータ(τ≧0等)を表し、kは時間インデックスを表す。
本実施例では、以上の点を考慮し、下記のように潜在変数z及びパラメータλ,γを更新し、音響信号‐状況生成モデル12、状況‐音響イベント生成モデル13を算出する。また、その過程で状況ラベル14を算出してもよい。
[生成モデル算出の流れ]
モデル化部112の初期化部112aは、状況が音響イベントを生成する確率を表す第1のパラメータλtm (h−1)を初期化する。更新部112bの初期化部112baは、入力された音響イベント列1に対して、音響イベント列が状況を生成する確率を表す第4のパラメータγs(k)t (h)を初期化する。更新部112bの第1更新部112bbは、第1のパラメータλtm (h−1)および入力された音響イベント列に対応する情報に応じて第4のパラメータγs(k)t (h)を所定の条件を満たすまで更新して得られた値を第5のパラメータγs(k)t (h)とする。更新部112bの第2更新部112bcは、得られた第5のパラメータγs(k)t (h)に対応する情報および入力された音響イベント列1に対応する情報に応じて第1のパラメータλtm (h−1)を更新した値を第2のパラメータλ tm (h)とし、第1のパラメータλtm (h)と第2のパラメータλ tm (h)との重み付け和を第3のパラメータλtm (h)とする。制御部112cは、更新部112bに入力される音響イベント列1を逐次的に更新し、第5のパラメータγs(k)t (h)を新たな第4のパラメータγs(k)t (h)とし、第3のパラメータλtm (h)を新たな第1のパラメータλtm (h−1)として更新部112bの処理を再び実行させる処理を繰り返し実行させる。また、本実施例では、更新部112bの処理を再び実行させる処理の繰り返し回数が多いほど、重み付け和における第2のパラメータλ tm (h)の重みを小さくする。以下、図2を用いてこれらの処理の具体例を示す。
(i)初期化部112aは、パラメータα,β,τおよび忘却係数κを設定し、それらを用い、変分事後分布のパラメータλtm (h)および重み係数ρを以下のように初期化し、k=1およびh=1とする(ステップS1)。
λtm (0)=β
ρ=(τ−κ
ただし、λtm (0)はλtm (h)(第1のパラメータ)の初期値を表し、ρは重み係数ρの初期値を表す。
(ii)モデル化部112は、音響イベント列1を入力とし(ステップS2)、以下のようにパラメータλtm (h)およびパラメータγs(k)t (h)を更新する。ただし、下付添え字の「s(k)」は「s」を表す(s(k)=s)。また、hは更新回数を表す正整数である。
(ii−0)初期化部112baは、s=1,…,Sについて(入力された音響イベント列1について)、以下のように変分事後分布のパラメータγs(k)t (h)(第4のパラメータ)を初期化する(ステップS3)。
γs(k)t (h)=α
(ii−1)第1更新部112bbは、音響イベント列1ならびにパラメータλtm (h−1)およびγs(k)t (h)を入力とし、s=1,…,S、nsk=1,…,Nsk、t=1,…,Tについて、以下の式(30)(31)の処理を行い、潜在変数の変分事後分布η(h) s(k)n(sk)tを更新する。ただし、下付添え字の「n(sk)」は「nsk」を表す(n(sk)=nsk)。また、上付添え字の「(h)」は下付添え字「s(k)n(sk)t」の真上に記載されるべきであるが、記載の制約上、下付添え字の真上に記載されていない。また、式(30)のように「」は「η」の真上に記載されるべきであるが、記載の制約上、「η」と表記する場合がある。
Figure 0006220694

なお、λtm (h−1)は第1のパラメータに相当し、γs(k)t (h)の初期値は第4のパラメータに相当する。δnmは、入力された音響イベント列1を構成する音響イベント列11−s(インデックスsに対応する音響イベント列)のn=nsk番目の要素が表す音響イベントに対応するインデックスがmであるときにδnm=1となり、当該n=nsk番目の要素が表す音響イベントに対応するインデックスがmでないときにδnm=0となるデルタ関数である。n=nskに対応するδnmは、入力された音響イベント列11−sに対応する情報である。Nskはインデックスsに対応する音響イベント列11−sの要素数、すなわち、音響イベント列11−sに含まれる音響イベントの個数(要素数)を表す(ステップS4)。
(ii−2)さらに第1更新部112bbは、αおよびステップS4で更新されたη(h) s(k)n(sk)tを入力とし、s=1,…,S、nsk=1,…,Nsk、t=1,…,Tについて、以下の式(32)(33)の処理を行い、潜在変数の変分事後分布γs(k)t (h)を更新する(ステップS5)。
Figure 0006220694
(ii−3)次に、制御部112cは終了条件(所定の条件)を満たすか否かを判定する(ステップS6)。制御部112cが終了条件を満たすと判定しない場合、制御部112cはステップS4およびS5の処理を再び実行させる。ただし、ステップS4の式(30)の処理には、式(33)で得られたγs(k)t (h)の更新値が用いられる。なお、「終了条件」の例は、ステップS4およびS5の処理を再び実行する処理の繰り返し回数が規定の回数(正値、例えば、1〜300回)に達したこと、所望の更新結果が得られたこと(例えば、更新の前後において、tについてのγs(k)t (h)の変化の平均値が所定の閾値(例えば、0.01%)以下になったこと)等である。
一方、制御部112cが終了条件を満たすと判定した場合、第2更新部112bcは、音響イベント列1、最後に式(33)で得られたγs(k)t (h)(所定の条件を満たすまで繰り返し処理を行って得られたγs(k)t (h)(第5のパラメータ))、最後に式(31)で得られたηs(k)n(sk)t (h)(第5のパラメータγs(k)t (h)に対応するηs(k)n(sk)t (h))、パラメータλtm (h−1)およびβ、S、S、ならびに重み係数ρを入力とし、t=1,…,T、m=1,…,Mについて、以下の式(34)〜(36)の処理を実行し、変分事後分布のパラメータλtm (h)を更新する。
Figure 0006220694

なお、λtm (h−1)は第1のパラメータに相当し、λ tm (h)は第2のパラメータに相当し、λtm (h)は第3のパラメータに相当する(ステップS7)。
制御部112cは、kを更新し(ステップS8)、ρ=(τ+k)−κとし(ステップS9)、h+1を新たなhとした(ステップS8)更新部112bの処理(ステップS2〜S7)を再び実行させる処理を繰り返し実行させる。kの更新方法に限定はない。例えば、h+1を新たなhとするたびにk+1を新たなkとする更新が行われてもよいし(すなわちk=h)、h+1を新たなhとする更新が複数回(例えば2回)行われるたびにk+1を新たなkとする更新が行われてもよい。k=hの場合、制御部112cはkまたはhのみをカウントすればよい。また、k=maxとなるまで更新部112bの処理が繰り返し実行されてもよいし、所定の繰り返し回数まで更新部112bの処理が繰り返し実行されてもよいし、所望の更新結果が得られるまで(例えば、更新の前後において、tについてのλtm (h)の変化の平均値が所定の閾値(例えば、0.01%)以下になるまで)更新部112bの処理が繰り返し実行されてもよい。また、ρ=(τ+k)−κのように重み係数を更新することで、更新部112bの処理の繰り返し回数(kの更新回数)が多いほど、重み付け和におけるλ tm (h)の重みを小さくでき、前述のように適切な値へ収束する可能性が高くなる。
モデル出力部112eは、ステップS7で得られたλtm (h)またはその更新前のλtm (h−1)を、状況が音響イベントを生成する確率を表す状況−音響イベント生成モデル13として出力して記憶部113に格納する。状況−音響イベント生成モデル13の例は、λtm (h)またはλtm (h−1)をt行m列の要素としたT×Mの行列である。また、更新部112bは、ステップS7で得られたλtm (h)に対応するγs(k)t (h)またはその更新前のλtm (h−1)に対応するγs(k)t (h−1)を、音響信号が状況を生成する確率を表す音響信号−状況生成モデル12として出力して記憶部113に格納する。音響信号−状況生成モデル12の例は、γs(k)t (h)またはγs(k)t (h−1)をs行t列の要素としたS×T行列である。なお、音響信号−状況生成モデル12や状況−音響イベント生成モデル13は、ステップS7の処理のたびに行われてもよいし、すべての更新部112bの処理が終了した後に得られてもよい。また、音響信号−状況生成モデル12や状況−音響イベント生成モデル13が得られるたびに、それらが記憶部113の新たな記憶領域に格納されてもよいし、新たな音響信号−状況生成モデル12や状況−音響イベント生成モデル13で古い音響信号−状況生成モデル12や状況−音響イベント生成モデル13が上書きされてもよい。
また、分析部112dが、式(31)で得られたηs(k)n(sk)t (h)(インデックスsに対応する音響イベント列11−sのnsk番目の要素に対応するηs(k)n(sk)t (h))を用い、nsk番目の要素に対応する状況を推定し、その推定結果を示す状況ラベル列14を出力して記憶部113に格納してもよい。例えば、分析部112dは、sとnskとの組み合わせごとにηs(k)n(sk)t (h)が最大となるtを求め、そのtを音響イベント列11−sのnsk番目の要素に対応する状況ラベルとし、それらの列を状況ラベル列14としてもよい。或いは、分析部112dは、sとnskとの組み合わせごとに、ηs(k)n(sk)t (h)の大きい順にtを選択し、それらを音響イベント列11−sのnsk番目の要素に対応する状況ラベルとし、それらの列を状況ラベル列14としてもよい。或いは、分析部112dは、sとnskとの組み合わせごとに、閾値を超えるηs(k)n(sk)t (h)に対応するtを選択し、それらを音響イベント列11−sのnsk番目の要素に対応する状況ラベルとし、それらの列を状況ラベル列14としてもよい。また、分析部112dは式(31)でηs(k)n(sk)t (h)が得られるたびに、得られたηs(k)n(sk)t (h)を用いて状況ラベル列14を計算してもよいし、ステップS6で終了条件を満たしたときのηs(k)n(sk)t (h)を用いて状況ラベル列14を計算してもよいし、すべての更新部112bの処理が終了したときに最後に得られた最新のηs(k)n(sk)t (h)を用いて状況ラベル列14を計算してもよい。また、新たな状況ラベル列14が得られるたびに、記憶部113の新たな記憶領域に格納されてもよいし、新たな状況ラベル列14で古い状況ラベル列14が上書きされてもよい。
以上より、モデル化部112は、逐次的に入力される音響イベント列1を用い、生成モデルの算出や状況の分析を行うことができる。
[実施例1−1−2]
実施例1−1−1では、音響信号が状況を生成する確率θと、状況が音響イベントを生成する確率φと、状況を表す潜在確率zと、がそれぞれ独立であると仮定し、q(z,φ,θ|λ,γ)=q(z)q(φ|λ)q(θ|γ)であるとの前提のもと、逐次的なモデル学習を行っていた。しかしながら、実際にはθとφはzに依存することが多い。実施例1−1−2では、θとφがzに依存することに基づいてq(z,φ,θ|λ,γ)=q(θ,φ|z)q(z)とおき、高精度なモデル学習を行う。以下では、実施例1−1−1との相違点を中心に説明し、これまで説明した事項については、これまでに用いた参照番号を用いて説明を省略する。
本実施例でも、逐次的に得られる音響イベント列から、音響信号−状況生成モデルおよび状況−音響イベント生成モデルを作成する。そのために、入力された音響イベント列ごとに、音響イベント列が状況を生成する確率に基づく値を、所定の条件を満たすまで更新し、音響イベント列が状況を生成する確率に基づく値がこの所定の条件を満たすまで更新された後に、状況が音響イベントを生成する確率に基づく値を求める。
本実施例では、まず初期化部で、状況が音響イベントを生成する頻度(状況が音響イベントを生成する確率的な個数)を表す第6のパラメータを初期化する。その後、更新部で、第6のパラメータと、入力された音響イベント列に対応する情報に応じて第6のパラメータを更新して得られる第7のパラメータと、の重み付け和を第8のパラメータとする。なお、第8のパラメータは、状況が音響イベントを生成する頻度(状況が音響イベントを生成する確率に基づく値)を表す。制御部は、第8のパラメータを第6のパラメータとし、入力される音響イベント列を逐次的に更新しつつ、更新部の処理を再び実行させる処理を繰り返し実行させる。その結果得られた第6のパラメータまたは第8のパラメータを用い、状況が音響イベントを生成する確率P(音響イベント|状況)を表す状況−音響イベント生成モデルを得ることができる。
より具体的には、さらに、音響イベント列に含まれる各音響イベントが状況を生成する確率を表す第9のパラメータと、音響イベント列が状況を生成する頻度を表す第10のパラメータとを初期化する第2初期化部を有する。更新部は、第6のパラメータおよび第10のパラメータに応じて第9のパラメータを更新する処理と、入力された音響イベント列に対応する情報と第9のパラメータとに応じて第10のパラメータを更新する処理とを所定の条件を満たすまで行い、第9のパラメータから更新された第11のパラメータを得、第10のパラメータから更新された第12のパラメータを得る第1更新部と、第6のパラメータと、入力された音響イベント列に対応する情報および第11のパラメータに応じて第6のパラメータを更新して得られる第7のパラメータと、の重み付け和を第8のパラメータとする第2更新部とを含む。制御部は、第1更新部および第2更新部に入力される音響イベント列を逐次的に更新し、第8のパラメータを第6のパラメータとし、第11のパラメータを第9のパラメータとし、第12のパラメータを第10のパラメータとして、第1更新部および第2更新部の処理を再び実行させる処理を繰り返し実行させる。
本形態でも、更新部の処理を再び実行させる処理の繰り返し回数が多いほど、上記の重み付け和における第7のパラメータの重みを小さくすることの望ましい。繰り返し回数が多いほど第6のパラメータが適切な値に近いことが推測され、第7のパラメータの重みを小さくしたほうが、適切な値へ収束する可能性が高いからである。また、上記の過程において、分析部で状況の分析および推定を行ってもよい。以下に本実施例の詳細を説明する。
図1に例示するように、本実施例のモデル処理装置1110は、音響イベント列合成部111、モデル化部1112、および記憶部113を有する。モデル化部1112は、例えば、初期化部1112a、更新部1112b、制御部1112c、分析部1112d、およびモデル出力部1112eを有する。更新部1112bは、初期化部1112ba(第2初期化部)、第1更新部1112bb、および第2更新部1112bcを有する。モデル処理装置1110は、例えば、CPUやRAM等を備えた公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。
本実施例の実施例1−1−1との相違点はモデル化部1112である。モデル化部1112は、以下の手順に従って、逐次的に入力された音響イベント列1から、音響信号が状況を生成する確率P(状況|音響信号)である音響信号−状況生成モデル12、および状況が音響イベントを生成する確率P(音響イベント|状況)である状況−音響イベント生成モデル13を算出して出力する。さらに、モデル化部1112は、入力された音響イベント列1を構成する各音響イベントに対応する状況を表す状況ラベル列14を生成してもよい。この状況ラベル列14を分析することにより、各音響イベントが示す状況が推定できる。ただし、モデル化部1112が、音響信号−状況生成モデル12や状況ラベル列14を生成することは必須ではない。
モデル化部1112が生成したモデルや列は記憶部113に格納される。音響信号‐状況生成モデル12、状況‐音響イベント生成モデル13、および状況ラベル列14は、同一のデータベースに格納されてもよいし、互いに異なるデータベースに格納されてもよい。また、各時間インデックスkに対応するすべての音響信号‐状況生成モデル12、状況‐音響イベント生成モデル13、および/または、状況ラベル列14が記憶部113に格納されてもよいし、各時間インデックスkに対応する音響信号‐状況生成モデル12、状況‐音響イベント生成モデル13、および/または、状況ラベル列14が算出されるたびに、記憶部113に格納された音響信号‐状況生成モデル12、状況‐音響イベント生成モデル13、および/または、状況ラベル列14が上書きされてもよい。
<状況から音響イベントが生成される過程の理論的説明>
実施例1−1−1と同じである。
<生成モデルの算出過程の説明>
モデル化部1112は、逐次的に入力される音響イベント列1,...1maxから、学習処理によって、前述の生成モデルやラベル列等を生成する。この例のモデル化部1112は、音響信号が状況を生成する確率P(状況|音響信号)、および状況が音響イベントを生成する確率P(音響イベント|状況)おいて、音響イベント列1に対する,音響信号−状況生成モデル12のモデルパラメータ、および状況−音響イベント生成モデル13のモデルパラメータの事後確率を最大化する学習処理を行う。これは例えば、尤度関数L(音響イベント列|パラメータ)=P(音響イベント列|パラメータ)または対数尤度関数log L(音響イベント列|パラメータ))を最大化する学習処理によって実現可能で、その結果を用いて各生成モデルや各ラベル列を生成する。「log」は自然対数を表す。
このような学習には、上記の生成過程に基づいたマルコフ連鎖モンテカルロ法や変分ベイズ法などの手法を用いることができる。ここでは変分ベイズ法による生成モデルのパラメータ算出手法について説明を行う。
本実施例では、確率p(e,z,φ,θ|α,β)に対するlog p(e,z,φ,θ|α,β)の未知のパラメータz,φ,θを確率変数として扱い、音響イベント列1を構成する要素である音響イベントからなる集合eについての対数尤度関数を最大化することを考える。前述のように、周辺対数尤度の下限値F[q]は以下のようになる。
Figure 0006220694
前述のように、下限値F[q]を最大化する変分事後分布q(z,φ,θ)は、真の事後分布p(z,φ,θ|e)の最良近似となる。ただし本実施例では、θとφがzに依存することに基づき、q(z,φ,θ|λ,γ)=q(θ,φ|z)q(z)とおく。下限値F[q]は、q(θ,φ|z)q(z)=p(θ,φ|e,z,α,β)q(z)のときにq(θ,φ|z)対して最大値をとる。
ここで、下限値F[q]を変形すると以下のようになる。
Figure 0006220694
モデル化部1112に入力される音響イベント列1を構成する音響イベント列1−s(ただし、s=1,・・・,S)のi番目(ただし、i=1,・・・,N)の音響イベントに状況t(ただし、t=1,・・・,T)が割り当てられる確率(音響イベント列1−sのi番目の音響イベントに対応する状況がtとなる確率)をγsitとする。すると、式(37)の第1項は以下のように変形できる。
Figure 0006220694
ただし、δs’i’t’は、音響イベント列1−s’(ただし、s’=1,・・・,S)のi’番目(ただし、i’=1,・・・,Ns’)の音響イベントに対応する状況がt’(ただし、t’=1,・・・,T)となるときに1となり、音響イベント列1−s’のi’番目 の音響イベントに対応する状況がt’でないときに0となる関数である。また、zsiは音響イベント列1−sのi番目の音響イベントに割り当てられる状況tを表す変数である(ただし、zsi=1,・・・,T)。また、「ns..」は、音響イベント列1−sに含まれる音響イベントm(ただし、m=1,・・・,M)に対応する状況がt(ただし、t=1,・・・,T)である確率n’smtのm=1,・・・,Mおよびt=1,・・・,Tについての総和である。同様に、「ns.t」は確率n’smtのm=1,・・・,Mについての総和であり、「n..t」は確率n’smtのs=1,・・・,Sおよびm=1,・・・,Mについての総和であり、「n.mt」は確率n’smtのs=1,・・・,Sについての総和である。すなわち、これらは以下のように定義される。
Figure 0006220694
式(38)をγsitで偏微分すると以下のようになる。
Figure 0006220694
ただし、「χ/si」はχから音響イベント列1−sのi番目の音響イベントに対応するものを除いたものを表す。また、s’=1,・・・,S、i’=1,・・・,Ns’、t’=1,・・・,Tである。また、音響イベント列1−sのi番目の音響イベントe(ただし、e=1,・・・,M)に対応する状況がt(ただし、t=1,・・・,T)である確率
Figure 0006220694

のs=1,・・・,Sについての総和
Figure 0006220694

を表す。
また、式(37)の第2項をγsitで偏微分すると以下のようになる。
Figure 0006220694

ただし、「const.」は定数である。
式(37)(39)(40)より、
Figure 0006220694

を満たすγsitは以下のようになる。
Figure 0006220694
このγsitをΣγsitについて正規化したものをγ^sitとすると、γ^sitは以下のように表現可能である。
Figure 0006220694
なお、式(42)のように「^」は「γ」の真上に記載されるべきであるが、記載の制約上、「γ^」と表記する場合がある。
ここで、式(42)の
Figure 0006220694

を0次のテイラー展開により近似すると以下のようになる。
Figure 0006220694
ここで、これらを正確に計算するためには高い計算コストが必要になるため、さらにこれらのガウス近似を行う。すなわち、以下のような近似を行う。
Figure 0006220694
よって、以下のような近似表現が可能である。
Figure 0006220694
よって、最終的に式(42)は以下のように近似できる。
Figure 0006220694
つまり、ある時刻における生成モデルを推定する際は、式(43)に沿ってパラメータを更新すればよい。ただし、実施例1−1−1と同様、本実施例でも、すべての音響イベント列1を一度に用いるのではなく、逐次的に入力される音響イベント列1,...1maxから生成モデルを算出する。そのために、過去の時点の音響イベント列に対する音響イベント列が状況を生成する確率と、その状況が音響イベントを生成する確率を考慮しつつも、逐次的に得られる音響イベント列に対して、効率的に生成モデルを算出するための処理を行う。すなわち、過去の時点の音響イベント列に対して得られた生成モデルのパラメータと逐次的に得られる音響信号に対して得られるパラメータとの重み付け和を新たなパラメータとして更新する。ここで、更新のための重み係数ρは、例えば以下の式(28)または式(29)のように設定する。
本実施例では、以上の点を考慮し、下記のようにパラメータを更新し、音響信号‐状況生成モデル12、状況‐音響イベント生成モデル13を算出する。また、その過程で状況ラベル14を算出してもよい。
[生成モデル算出の流れ]
モデル化部1112の初期化部1112aは、状況が音響イベントを生成する頻度を表す第6のパラメータNtm (h−1)を初期化する。更新部1112bの初期化部1112baは、音響イベント列に含まれる各音響イベントが状況を生成する確率を表す第9のパラメータγ^s(k)i(sk)t (h)と、音響イベント列が状況を生成する頻度を表す第10のパラメータNs(k)t (h−1)とを初期化する。その後、更新部1112bの第1更新部1112bbは、第6のパラメータNtm (h−1)および第10のパラメータNs(k)t (h−1)に応じて第9のパラメータγ^s(k)i(sk)t (h)を更新する処理と、入力された音響イベント列1に対応する情報と第9のパラメータγ^s(k)i(sk)t (h)とに応じて第10のパラメータNs(k)t (h−1)を更新する処理とを所定の条件を満たすまで行い、第9のパラメータγ^s(k)i(sk)t (h)から更新された第11のパラメータγ^s(k)i(sk)t (h)を得、第10のパラメータNs(k)t (h−1)から更新された第12のパラメータNs(k)t (h)を得る。更新部1112bの第2更新部1112bbは、第6のパラメータNtm (h−1)と、入力された音響イベント列1に対応する情報および第11のパラメータγ^s(k)i(sk)t (h)に応じて第6のパラメータを更新して得られる第7のパラメータと、の重み付け和を第8のパラメータNtm (h)とする。制御部1112cは、更新部1112bに入力される音響イベント列1を逐次的に更新し、第8のパラメータNtm (h)を新たな第6のパラメータとし、第11のパラメータγ^s(k)i(sk)t (h)を新たな第9のパラメータとし、第12のパラメータNs(k)t (h)を新たな第10のパラメータNs(k)t (h−1)として、更新部1112bの処理を再び実行させる処理を繰り返し実行させる。また、更新部1112bの処理を再び実行させる処理の繰り返し回数が多いほど、重み付け和における第7のパラメータの重みを小さくする。以下、図2を用いてこれらの処理の具体例を示す。
(i)初期化部1112aは、パラメータα,β,τおよび忘却係数κを設定し、変分事後分布のパラメータNtm (h−1)(第6のパラメータ)およびN (h−1)の初期値Ntm (0)およびN (0)、ならびに重み係数ρを以下のように初期化し、k=1およびh=1とする(ステップS11)。
Figure 0006220694

ρ=(τ−κ
ただし、Nは正の定数であり、例えばすべての音響イベント列1に含まれる音響イベントの個数(またはその想定値)である。ρは重み係数ρの初期値を表す。
(ii)モデル化部1112は、音響イベント列1を入力とし(ステップS12)、以下のようにパラメータNs(k)t (h−1)およびNtm (h−1)を更新する。ただし、下付添え字の「s(k)」は「s」を表す(s(k)=s)。下付添え字の「i(sk)」は、is(k)、すなわち、
Figure 0006220694

を表し、音響イベント列1を構成する音響イベント列11−s(ただし、s=1,・・・,S)が含む各音響イベントに対応するインデックスである。また、hは更新回数を表す正整数である。
(ii−0)初期化部1112baは、s=1,…,S、i(sk)=1,…,Nsk、およびt=1,…,Tについて、以下のように変分事後分布のパラメータNs(k)t (h)(第10のパラメータ)およびγ^s(k)i(sk)t (h)を初期化する(ステップS13)。
Figure 0006220694

ただし、Nskはインデックスsに対応する音響イベント列11−sの要素数、すなわち、音響イベント列11−sに含まれる音響イベントの個数(要素数)を表す。
(ii−1)第1更新部1112bbは、パラメータNtm (h−1)、Ns(k)t (h−1)およびγ^s(k)i(sk)t (h−1)を入力とし、s=1,…,S、m=1,…,M、t=1,…,Tについて、以下の式(44)(45)の処理を行い、パラメータγ^s(k)i(sk)t (h)(第9のパラメータ)を更新する。
Figure 0006220694

なお、各sおよびtおいて同じei(sk)=mとなるすべてのi(sk)に対してパラメータγ^s(k)i(sk)t (h)は同じ値となる。言い換えると、i(sk)にかかわらず、s,tおよびei(sk)=mの組み合わせに対してパラメータγ^s(k)i(sk)t (h)が決まる。そのため、すべてのi(sk)=1,・・・,Nskについてパラメータγ^s(k)i(sk)t (h)を計算する必要はなく、s,tおよびei(sk)=mの組み合わせごとにパラメータγ^s(k)i(sk)t (h)を計算すればよい(ステップS14)。
(ii−2)さらに第1更新部1112bbは、ns(k)m(入力された音響イベント列1に対応する情報)およびステップS14で更新されたパラメータγ^s(k)i(sk)t (h)を用い、s=1,…,S、t=1,…,Tについて、以下の式(46)の処理を行い、パラメータNs(k)t (h−1)を更新してNs(k)t (h)を得る。
Figure 0006220694

を満たすi(sk)の集合を表す。ei(sk)は音響イベント列11−sのi(sk)番目の音響イベントを表す。またns(k)mは、音響イベント列11−sが含む音響イベントmの個数を表す(ステップS15)。
(ii−3)次に、制御部1112cは終了条件(所定の条件)を満たすか否かを判定する(ステップS16)。制御部1112cが終了条件を満たすと判定しない場合、制御部1112cはステップS14およびS15の処理を再び実行させる。ただし、ステップS14の式(44)の処理には、式(46)で得られたNs(k)t (h)を新たなNs(k)t (h−1)として用いる。なお、「終了条件」の例は、ステップS14およびS15の処理を再び実行する処理の繰り返し回数が規定の回数(正値、例えば、1〜300回)に達したこと、所望の更新結果が得られたこと(例えば、更新の前後において、tについてのNs(k)t (h)の変化の平均値が所定の閾値(例えば、0.01%)以下になったこと)等である。
(ii−4)一方、制御部1112cが終了条件を満たすと判定した場合、第2更新部1112bcは、音響イベント列1、パラメータNtm (h−1)、最後に式(45)で得られたパラメータγ^s(k)i(sk)t (h)(第11のパラメータ)、S、S、ならびに重み係数ρを入力とし、t=1,…,T、m=1,…,Mについて、以下の式(47)の処理を実行し、パラメータNtm (h−1)を更新してパラメータNtm (h)を得、さらにパラメータNtm (h)を得て出力する。
Figure 0006220694

なお、
Figure 0006220694

が第7のパラメータに相当する(ステップS17)。
制御部1112cは、kを更新し(ステップS18)、ρ=(τ+k)−κとし(ステップS19)、h+1を新たなhとした(ステップS18)更新部1112bの処理(ステップS12〜S17)を再び実行させる処理を繰り返し実行させる。実施例1−1−1と同様、kの更新方法に限定はない。例えば、k=hの場合、制御部1112cはkまたはhのみをカウントすればよい。また、k=maxとなるまで更新部1112bの処理が繰り返し実行されてもよいし、所定の繰り返し回数まで更新部1112bの処理が繰り返し実行されてもよいし、所望の更新結果が得られるまで(例えば、更新の前後において、tについてのNs(k)t (h)の変化の平均値が所定の閾値(例えば、0.01%)以下になるまで)更新部1112bの処理が繰り返し実行されてもよい。また、ρ=(τ+k)−κのように重み係数を更新することで、更新部1112bの処理の繰り返し回数(kの更新回数)が多いほど、式(47)の重み付け和における第2項の重みを小さくでき、前述のように適切な値へ収束する可能性が高くなる。
モデル出力部1112eは、ステップS15で得られたパラメータNs(k)t (h)をtに関して正規化したもの、すなわち、
Figure 0006220694

を、音響信号が状況を生成する確率を表す音響信号−状況生成モデル12として出力して記憶部113に格納する。音響信号−状況生成モデル12の例は、式(47−1)の値をs行t列の要素としたS×T行列である。また、モデル出力部1112eは、ステップS17で得られたパラメータNtm (h)をmに関して正規化したもの、すなわち、
Figure 0006220694

を、状況が音響イベントを生成する確率を表す状況−音響イベント生成モデル13として出力して記憶部113に格納する。状況−音響イベント生成モデル13の例は、式(47−2)の値をt行m列の要素としたT×Mの行列である。その他、モデル出力部1112eが、パラメータNs(k)t (h)またはそれに対応するその他の値を音響信号−状況生成モデル12としてもよいし、パラメータNtm (h)またはそれに対応するその他の値を状況−音響イベント生成モデル13としてもよい。なお、音響信号−状況生成モデル12や状況−音響イベント生成モデル13は、ステップS17の処理のたびに行われてもよいし、すべての更新部1112bの処理が終了した後に得られてもよい。また、音響信号−状況生成モデル12や状況−音響イベント生成モデル13が得られるたびに、それらが記憶部113の新たな記憶領域に格納されてもよいし、新たな音響信号−状況生成モデル12や状況−音響イベント生成モデル13で古い音響信号−状況生成モデル12や状況−音響イベント生成モデル13が上書きされてもよい。
また、分析部1112dが、式(45)で得られたγ^s(k)i(sk)t (h)(インデックスsに対応する音響イベント列11−sのi(sk)番目の要素に対応するγ^s(k)i(sk)t (h))を用い、i(sk)番目の要素に対応する状況を推定し、その推定結果を示す状況ラベル列14を出力して記憶部113に格納してもよい。例えば、分析部1112dは、sとi(sk)との組み合わせごとにγ^s(k)i(sk)t (h)が最大となるtを求め、そのtを音響イベント列11−sのi(sk)番目の要素に対応する状況ラベルとし、それらの列を状況ラベル列14としてもよい。或いは、分析部1112dは、sとi(sk)との組み合わせごとに、γ^s(k)i(sk)t (h)の大きい順にtを選択し、それらを音響イベント列11−sのi(sk)番目の要素に対応する状況ラベルとし、それらの列を状況ラベル列14としてもよい。或いは、分析部1112dは、sとi(sk)との組み合わせごとに、閾値を超えるγ^s(k)i(sk)t (h)に対応するtを選択し、それらを音響イベント列11−sのi(sk)番目の要素に対応する状況ラベルとし、それらの列を状況ラベル列14としてもよい。また、分析部1112dは式(45)でγ^s(k)i(sk)t (h)が得られるたびに、得られたγ^s(k)i(sk)t (h)を用いて状況ラベル列14を計算してもよいし、ステップS16で終了条件を満たしたときのγ^s(k)i(sk)t (h)を用いて状況ラベル列14を計算してもよいし、すべての更新部1112bの処理が終了したときに最後に得られた最新のγ^s(k)i(sk)t (h)を用いて状況ラベル列14を計算してもよい。また、新たな状況ラベル列14が得られるたびに、記憶部113の新たな記憶領域に格納されてもよいし、新たな状況ラベル列14で古い状況ラベル列14が上書きされてもよい。
以上より、モデル化部1112は、逐次的に入力される音響イベント列1を用い、生成モデルの算出や状況の分析を行うことができる。
[実施例1−2]
実施例1−2では、逐次的に入力された音響信号列を用い、学習処理によって、音響信号−状況生成モデル12、および状況−音響イベント生成モデル13を生成する。さらに、状況ラベル列14を生成してもよい。ただし、モデル化部112が、音響信号−状況生成モデル12や状況ラベル列14を生成することは必須ではない。以降、同一のものには同じ参照符号を付し、説明は繰り返さない。
図3に例示するように、本実施例のモデル処理装置120は、特徴量算出部121、音響イベント判定部122、音響イベントモデルデータベース(DB)123、音響イベント列合成部111、モデル化部112(またはモデル化部1112)、及び記憶部113を有する。モデル処理装置120は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。
まず特徴量算出部121に、音響信号列15−1,・・・,15−Sからなる音響信号列の集合15が逐次的に入力される。各音響信号列15−sは、短時間区間ごとの音響信号を時系列順につなぎ合わせた列であり、単一または複数の音響信号を含む。
特徴量算出部121は、各音響信号列15−sから、音響特徴量列(ベクトル)を逐次的に算出して出力する。例えば特徴量算出部121は、入力された音響信号列15−sに対し、前述の短時間区間からなるフレームごとに、音圧レベル、音響パワー、MFCC(Mel-Frequency Cepstrum Coefficient)特徴量、LPC(Linear Predictive Coding)特徴量などを算出し、これらを音響特徴量列として出力する。さらに立ち上がり特性、調波性、時間周期性など(例えば、「井本他,「複数の生活音の出現頻度に基づくユーザ行動の識別手法とコミュニケーションへの応用」,画像電子学会第32回VMA研究会」参照)の音響特徴量が音響特徴量列に加えられてもよい。
音響イベントモデルDB123には、事前に算出された音響イベントモデルが複数保存されている。各音響イベントモデルは、音響イベントラベルが付された学習用の音響信号列から音響特徴量列を算出し、各音響イベントに対応する音響特徴量列をGMM,HMM,SVM等の周知のモデル化手法を用いてモデル化することで得られる(例えば「奥村学、高村大也、「言語処理のための機械学習入門」コロナ社」等参照)。
特徴量算出部121から逐次的に出力された音響特徴量列は音響イベント判定部122に入力される。音響イベント判定部122は、逐次的に入力された音響特徴量列と、音響イベントモデルDB123に記憶されている複数の音響イベントモデルとをそれぞれ比較し、短時間区間ごとに、逐次的に各音響特徴量に対応する音響イベントを決定して音響イベント列11−s(s=1,・・・,S)を得て出力する。例えば音響イベントごとに音響特徴量列が対応付けられた音響イベントモデルを用いる場合、音響イベント判定部122は、入力された音響特徴量列との距離(ユークリッド距離やコサイン距離)が最も近い音響イベントモデルに対応する音響イベントを選択する。
音響イベント列11−s(s=1,・・・,S)は、音響イベント列合成部111に入力される。以降の処理は実施例1−1−1(または実施例1−1−2)と同じである。
[実施例1−3]
実施例1−3では、逐次的に入力された音響特徴量列から、学習によって、音響信号−状況生成モデル12および状況−音響イベント生成モデル13の算出や状況ラベル列14の生成を行う。
図4に例示するように、本実施例のモデル処理装置130は、音響イベント判定部122、音響イベントモデルデータベース(DB)123、音響イベント列合成部111、モデル化部112(またはモデル化部1112)、及び記憶部113を有する。モデル処理装置130は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。
まず音響イベント判定部122に、音響特徴量列17−1,・・・,17−Sからなる音響特徴量列の集合17が逐次的に入力される。各響特徴量列17−sは、短時間区間ごとの音響特徴量を時系列順につなぎ合わせた列であり、単一または複数の音響特徴量を含む。音響特徴量の具体例は実施例1−2で説明した通りである。音響特徴量列の集合17は音響イベント判定部122に入力される。その後の処理は実施例1−2と同じである。
[実施例2−1]
実施例2−1では、実施例1−1−1,1−1−2,1−2〜3で説明したように得られた状況−音響イベント生成モデル13を用い、新たに入力された音響イベント列から状況を推定する。
図5に例示するように、本実施例のモデル処理装置210は、記憶部113及び生成モデル比較部211を有する。モデル処理装置210は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。
まずモデル処理装置210に音響イベント列21(新たに入力された音響イベント列)が入力される。音響イベント列21は、短時間区間ごとの音響イベントを時系列順につなぎ合わせた列であり、単一または複数の音響イベントを含む。
生成モデル比較部211は、入力された音響イベント列21と、記憶部113に格納された状況−音響イベント生成モデル13とを比較し、音響イベント列21に対し、最も適切であると判断した状況、最も適切なものから順番に複数個の状況、または適切さが閾値を超える状況を決定し、それらを判定結果として出力する。
[比較方法の例1]
音響イベント列21と状況−音響イベント生成モデル13との比較方法を例示する。この例では、まず生成モデル比較部211が、入力された音響イベント列21から、以下のようにp(ε)(ただし、ε∈{1,・・・,M})を算出する。
Figure 0006220694

ただし、νは事前に設定された緩和パラメータ(例えば0.01などの非負値)を表し、Cεは、音響イベント列21が含む音響イベントεの個数を表し、N’は音響イベント列21が含む音響イベントの総数(要素数)を表す。N’=Nであってもよいし、N’≠Nであってもよい。
次に生成モデル比較部211は、p(ε)と状況−音響イベント生成モデル13を、下記に記すカルバックライブラー情報量(Kullback-Leibler divergence: KL divergence)(式38)またはイェンセンシャノン情報量(Jensen-Shannon divergence: JS divergence)(式39)などの情報量基準に基づいて比較することで、入力された音響イベント列21に対応する状況を推定する。
Figure 0006220694
式(49)や式(50)の例の場合、生成モデル比較部211は、P(ε)にp(ε)(ただし、ε∈{1,・・・,M})を代入し、Q(ε)に音響イベントm=εに対応する状況−音響イベント生成モデル13を代入する。例えば、ステップS7で得られたλtm (h)を状況−音響イベント生成モデル13とする場合には、Q(ε)にλtε (h)(ただし、ε∈{1,・・・,M),t∈{1,・・・,T})を代入する。例えば、式(47−2)で得られた状況−音響イベント生成モデル13を用いる場合には、Q(ε)に
Figure 0006220694

(ただし、ε∈{1,・・・,M),t∈{1,・・・,T})を代入する。これにより、生成モデル比較部211は、各状況t∈{1,・・・,T}に対応する情報量(合計T個の情報量)を得る。生成モデル比較部211は、各状況t∈{1,・・・,T}について算出された情報量のうち、最も小さな情報量に対応する状況、最も小さな情報量から順番に選択した複数個の情報量に対応する複数個の状況、または閾値未満の情報量に対応するすべての状況を、音響イベント列21に対応する状況として決定して出力する。
[比較方法の例2]
以下のように状況−音響イベント生成モデル13と音響イベント列21との比較を行ってもよい。この手法では、生成モデル比較部211が、入力されたラベル付き音響信号列21に対し、状況−音響イベント生成モデル13のもとでの状況の尤度の和や積を求める。以下に具体例を示す。
≪状況−音響イベント生成モデル13のもとでの状況の尤度の和の例≫
Figure 0006220694
≪状況−音響イベント生成モデル13のもとでの状況の尤度の積の例≫
Figure 0006220694
ただし、式(51)(52)のeは、入力された音響イベント列21のi番目の音響イベントを表す。式(51)(52)の計算は、状況−音響イベント生成モデル13(例えば、ステップS7で得られたλtm (h))と、入力された音響イベント列21のeとから実行できる。具体的には、例えば、音響イベント列21のeに対応する式(31)(36)を式(51)(52)に代入することで、各状況tの尤度の和または積を求める。ただし、式(36)の代入はそれぞれ正規化λtm (h)/Σλtm (h)を行ってから行う。すなわち、例えば、ステップS7で得られたm=eに対応する式(36)のλtm (h)を正規化したλtm (h)/Σλtm (h)をP(e=ε|z=t,α,β)とし、これらのλtm (h)に対応する式(31)の何れかのη(h) s(k)n(sk)tをP(z=t,α,β)とし、各状況tについて式(51)または(52)を計算し、各状況tの尤度の和または積を求める。
生成モデル比較部211は、各状況について算出した尤度のうち、最も尤度の高い状況、最も尤度の高いものから順番に選択した複数個の状況、または閾値を超える尤度に対応するすべての状況を、入力された音響イベント列21に対応する状況として決定して出力する。
[実施例2−2]
実施例2−2では、実施例1−1−1,1−1−2,1−2〜3で説明したように得られた状況−音響イベント生成モデル13を用い、新たに入力された音響信号列から状況を推定する。
図6に例示するように、本形態のモデル処理装置220は、特徴量算出部221、音響イベント判定部222、音響イベントモデルDB123、記憶部113、生成モデル比較部211を有する。モデル処理装置220は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。
まず特徴量算出部221に音響信号列22が入力される。音響信号列22は、短時間区間ごとに区分された時系列の音響信号列を含む。特徴量算出部221は、音響信号列22から音響特徴量列(ベクトル)を算出して出力する。例えば特徴量算出部221は、実施例1−2の特徴量算出部121と同じ方法で音響特徴量列を算出する。
音響イベント判定部222は、実施例1−2の音響イベント判定部122と同じ方法で、特徴量算出部221から出力された音響特徴量列と、音響イベントモデルDB123に記憶されている複数の音響イベントモデルとをそれぞれ比較し、音響信号列22の全ての要素について音響イベントを決定する。音響イベント判定部222は、決定した音響イベントを時系列順につなぎ合わせることで音響イベント列21を生成して出力する。
音響イベント列21は、生成モデル比較部211に入力される。以降の処理は実施例2−1と同じである。
[実施例2−3]
実施例2−3では、実施例1−1−1,1−1−2,1−2〜3で説明したように得られた状況−音響イベント生成モデル13を用い、新たに入力された音響特徴量列から状況を推定する。
図7に例示するように、本実施例のモデル処理装置230は、音響イベント判定部222、音響イベントモデルDB123、記憶部113、生成モデル比較部211を有する。モデル処理装置230は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。
まず音響イベント判定部222に音響特徴量列23が入力される。音響特徴量列23は、短時間区間ごとの音響特徴量を時系列順につなぎ合わせた列であり、単一または複数の音音響特徴量を含む。音響特徴量列の具体例は、実施例1−2で説明した通りである。
音響イベント判定部222は、実施例1−2の音響イベント判定部122と同じ方法で、音響特徴量列23の音響特徴量列と、音響イベントモデルDB123に記憶されている複数の音響イベントモデルとをそれぞれ比較し、音響特徴量列23が含む全ての要素について音響イベントを決定する。音響イベント判定部222は、決定した音響イベントを時系列順につなぎ合わせることで音響イベント列21を生成して出力する。
音響イベント列21は、生成モデル比較部211に入力される。以降の処理は実施例2−1と同じである。
[特徴]
以上のように、音響信号が逐次的に得られる場合に、すべての音響信号が得られる前に、音響信号全体について音響信号と状況や音響イベントの関係をモデル化することができる。また、このように得られた生成モデルを用いて状況の推定を行うことができる。
[変形例等]
なお、本発明は上述の実施の形態に限定されるものではない。例えば、上記のモデル処理装置の処理が複数の装置で分散処理されてもよいし、記憶部に格納された生成モデルやデータが複数の記憶部に分散して格納されてもよい。また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。
上記実施例では、コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されたが、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。
110,120,130,210,220,230 モデル処理装置

Claims (12)

  1. 音響イベントの時系列である音響イベント列を入力とし、状況が音響イベントを生成する確率に基づく値を得るモデルを生成するモデル処理装置であって、
    入力された音響イベント列ごとに、音響イベント列が状況を生成する確率に基づく値を、所定の条件を満たすまで更新する第1更新部と、
    前記音響イベント列が状況を生成する確率に基づく値が前記所定の条件を満たすまで更新された後に、状況が音響イベントを生成する確率に基づく値を求める第2更新部と、
    を有するモデル処理装置。
  2. 請求項1のモデル処理装置であって、
    さらに初期化部と制御部とを有し、
    前記状況が音響イベントを生成する確率に基づく値は、状況が音響イベントを生成する確率を表す第3のパラメータであり、
    前記初期化部は、状況が音響イベントを生成する確率を表す第1のパラメータを初期化し、
    前記第2更新部は、前記第1のパラメータと、前記入力された音響イベント列に対応する情報に応じて前記第1のパラメータを更新して得られる第2のパラメータと、の重み付け和を前記第3のパラメータとし、
    前記制御部は、前記音響イベント列を逐次的に更新し、前記第3のパラメータを前記第1のパラメータとして前記第1更新部および前記第2更新部の処理を再び実行させる処理を繰り返し実行させる、モデル処理装置。
  3. 請求項2のモデル処理装置であって、
    さらに音響イベント列が状況を生成する確率を表す第4のパラメータを初期化する第2初期化部を有し、
    前記音響イベント列が状況を生成する確率に基づく値は、音響イベント列が状況を生成する確率を表す第5のパラメータであり、
    前記第1更新部は、前記第1のパラメータおよび前記入力された音響イベント列に対応する情報に応じ、前記第4のパラメータを所定の条件を満たすまで更新して得られた値を前記第5のパラメータとし、
    前記第2更新部は、前記第5のパラメータに対応する情報および前記入力された音響イベント列に対応する情報に応じて前記第1のパラメータを更新した値を前記第2のパラメータとし、前記第1のパラメータと前記第2のパラメータとの重み付け和を前記第3のパラメータとし、
    前記制御部は、前記音響イベント列を逐次的に更新し、前記第5のパラメータを前記第4のパラメータとし、前記第3のパラメータを前記第1のパラメータとして前記第1更新部および前記第2更新部の処理を再び実行させる処理を繰り返し実行させる、モデル処理装置。
  4. 請求項3のモデル処理装置であって、
    zが状況を表す変数であり、eが音響イベントを表す変数であり、各状況に対応するインデックスがt=1,…,Tであり、各音響イベントに対応するインデックスがm=1,…,Mであり、前記入力された音響イベント列に対応するインデックスがs=1,…,Sであり、T,M,S,h,kが正整数であり、SがS以上の正整数であり、Nskがインデックスsに対応する音響イベント列の要素数であり、δnmがインデックスsに対応する音響イベント列のn=nsk番目の要素が表す音響イベントに対応するインデックスがmであるときにδnm=1となり、mでないときにδnm=0となるデルタ関数であり、Ψがディガンマ関数であり、α,βがパラメータであり、前記第1のパラメータがλtm (h−1)であり、前記第4のパラメータがγs(k)t (h)であり、s(k)=sであり、
    前記第1更新部は、
    =1,…,S,nsk=1,…,Nsk,t=1,…,Tについて、
    Figure 0006220694

    を実行する処理と、
    Figure 0006220694

    を実行する処理と、を前記所定の条件を満たすまで繰り返し行って得られたγs(k)t (h)を前記第5のパラメータとし、
    前記第2更新部は、
    前記第5のパラメータγs(k)t (h)および前記第5のパラメータγs(k)t (h)に対応するηs(k)n(sk)t (h)(ただし、n(sk)=nsk)について
    Figure 0006220694

    を実行して得られたλ tm (h)を前記第2のパラメータとし、
    前記第1のパラメータλtm (h−1)と前記第2のパラメータλ tm (h)との重み付け和を前記第3のパラメータλtm (h)とし、
    前記制御部は、kを更新しつつ、h+1を新たなhとした前記第1更新部および前記第2更新部の処理を再び実行させる処理を繰り返し実行させる、モデル処理装置。
  5. 請求項2から4の何れかのモデル処理装置であって、
    前記第1更新部および前記第2更新部の処理を再び実行させる処理の繰り返し回数が多いほど、前記重み付け和における前記第2のパラメータの重みが小さい、モデル処理装置。
  6. 請求項4のモデル処理装置であって、
    前記インデックスsに対応する音響イベント列のnsk番目の要素に対応するηs(k)n(sk)t (h)を用い、前記nsk番目の要素に対応する状況を推定する分析部を有する、モデル処理装置。
  7. 請求項1のモデル処理装置であって、
    さらに初期化部と制御部とを有し、
    前記状況が音響イベントを生成する確率に基づく値は、状況が音響イベントを生成する頻度を表す第8のパラメータであり、
    前記初期化部は、状況が音響イベントを生成する頻度を表す第6のパラメータを初期化し、
    前記第2更新部は、前記第6のパラメータと、前記入力された音響イベント列に対応する情報に応じて前記第6のパラメータを更新して得られる第7のパラメータと、の重み付け和を前記第8のパラメータとし、
    前記制御部は、前記音響イベント列を逐次的に更新し、前記第8のパラメータを前記第6のパラメータとして前記第1更新部および前記第2更新部の処理を再び実行させる処理を繰り返し実行させる、モデル処理装置。
  8. 請求項7のモデル処理装置であって、
    各状況に対応するインデックスがt=1,…,Tであり、各音響イベントに対応するインデックスがm=1,…,Mであり、前記入力された音響イベント列に対応するインデックスがs=1,…,Sであり、T,M,S,h,kが正整数であり、SがS以上の正整数であり、Nskがインデックスsに対応する音響イベント列の要素数であり、下付き添え字のs(k)がsであり、下付添え字のi(sk)がis(k)であり、ei(sk)が前記インデックスsに対応する前記音響イベント列のi(sk)番目の音響イベントであり、α,βがパラメータであり、前記第6のパラメータがNtm (h−1)であり、前記第8のパラメータがNtm (h)であり、
    前記第1更新部は、
    tm (h−1)、Ns(k)t (h−1)およびγ^s(k)i(sk)t (h−1)を入力とし、s=1,…,S、m=1,…,M、t=1,…,Tについて、
    Figure 0006220694

    を実行する処理と、
    前記インデックスsに対応する前記音響イベント列が含む音響イベントの個数ns(k)m、およびγ^s(k)i(sk)t (h)を用い、s=1,…,S、t=1,…,Tについて、
    Figure 0006220694

    を実行する処理を、前記所定の条件を満たすまで、Ns(k)t (h)を新たなNs(k)t (h−1)として用いながら繰り返し、
    前記第2更新部は、前記第6のパラメータNtm (h−1)と、前記第7のパラメータである
    Figure 0006220694

    と、の重み付け和を前記第8のパラメータNtm (h)とし、
    前記制御部は、kを更新しつつ、h+1を新たなhとした前記第1更新部および前記第2更新部の処理を再び実行させる処理を繰り返し実行させる、モデル処理装置。
  9. 請求項1から8の何れかのモデル処理装置であって、
    逐次的に入力された音響信号列から、逐次的に音響特徴量列を算出する特徴量算出部と、
    前記音響特徴量列から、逐次的に音響イベント列を決定する音響イベント判定部と、を有し、
    前記入力された音響イベント列は、前記音響イベント判定部で決定された前記音響イベント列である、モデル処理装置。
  10. 請求項1から8の何れかのモデル処理装置であって、
    逐次的に入力された音響特徴量列から、逐次的に音響イベント列を決定する音響イベント判定部を有し、
    前記入力された音響イベント列は、前記音響イベント判定部で決定された前記音響イベント列である、モデル処理装置。
  11. 音響イベントの時系列である音響イベント列を入力とし、状況が音響イベントを生成する確率に基づく値を得るモデルを生成するモデル処理方法であって、
    入力された音響イベント列ごとに、音響イベント列が状況を生成する確率に基づく値を、所定の条件を満たすまで更新する第1更新ステップと、
    前記音響イベント列が状況を生成する確率に基づく値が前記所定の条件を満たすまで更新された後に、状況が音響イベントを生成する確率に基づく値を求める第2更新ステップと、
    を有するモデル処理方法。
  12. 請求項1から1の何れかのモデル処理装置としてコンピュータを機能させるためのプログラム。
JP2014027139A 2013-10-31 2014-02-17 モデル処理装置、その方法、およびプログラム Expired - Fee Related JP6220694B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014027139A JP6220694B2 (ja) 2013-10-31 2014-02-17 モデル処理装置、その方法、およびプログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013226587 2013-10-31
JP2013226587 2013-10-31
JP2014027139A JP6220694B2 (ja) 2013-10-31 2014-02-17 モデル処理装置、その方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2015111232A JP2015111232A (ja) 2015-06-18
JP6220694B2 true JP6220694B2 (ja) 2017-10-25

Family

ID=53526073

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014027139A Expired - Fee Related JP6220694B2 (ja) 2013-10-31 2014-02-17 モデル処理装置、その方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6220694B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5772214B2 (ja) * 2010-05-24 2015-09-02 株式会社デンソー 音声認識装置
JP5800718B2 (ja) * 2012-01-12 2015-10-28 日本電信電話株式会社 特定状況モデルデータベース作成装置とその方法と状況推定装置とプログラム

Also Published As

Publication number Publication date
JP2015111232A (ja) 2015-06-18

Similar Documents

Publication Publication Date Title
US9721202B2 (en) Non-negative matrix factorization regularized by recurrent neural networks for audio processing
CN105810193B (zh) 训练语言模型的方法和设备及识别语言的方法和设备
US9811519B2 (en) Generative discriminative approach for transactional dialog state tracking via collective matrix factorization
JP6328320B2 (ja) 入力信号を変換する方法
Hacine-Gharbi et al. Low bias histogram-based estimation of mutual information for feature selection
JP6283331B2 (ja) 流れ推定装置、予測装置、及びプログラム
JP2015521748A (ja) 入力信号を変換する方法
JP2020525872A (ja) インフルエンザ予測モデルの生成方法、装置及びコンピュータ可読記憶媒体
Chamroukhi Unsupervised learning of regression mixture models with unknown number of components
EP2012243B1 (en) Aerodynamic design optimization using knowledge extraction from analyzing unstructured surface meshes
JP5818759B2 (ja) 状況生成モデル作成装置、状況推定装置、およびプログラム
JP6910002B2 (ja) 対話行為推定方法、対話行為推定装置及びプログラム
JP6662715B2 (ja) 予測装置、予測方法及びプログラム
JP6646337B2 (ja) 音声データ処理装置、音声データ処理方法および音声データ処理プログラム
JP6220694B2 (ja) モデル処理装置、その方法、およびプログラム
JP5781040B2 (ja) 行動推定装置およびそのプログラム
JP4950600B2 (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP6114209B2 (ja) モデル処理装置、モデル処理方法、およびプログラム
JP6078441B2 (ja) モデル処理装置、分析装置、それらの方法およびプログラム
JP2016520220A (ja) 隠れ属性モデル推定装置、方法およびプログラム
JP5783979B2 (ja) 生成モデル作成装置及び推定装置
JP6093670B2 (ja) モデル処理装置、モデル処理方法、およびプログラム
JP6137479B2 (ja) 音声信号解析装置、方法、及びプログラム
JP6665079B2 (ja) 基本周波数モデルパラメータ推定装置、方法、及びプログラム
JP6498141B2 (ja) 音響信号解析装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160302

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170407

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170926

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171002

R150 Certificate of patent or registration of utility model

Ref document number: 6220694

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees