JP6220694B2 - モデル処理装置、その方法、およびプログラム - Google Patents
モデル処理装置、その方法、およびプログラム Download PDFInfo
- Publication number
- JP6220694B2 JP6220694B2 JP2014027139A JP2014027139A JP6220694B2 JP 6220694 B2 JP6220694 B2 JP 6220694B2 JP 2014027139 A JP2014027139 A JP 2014027139A JP 2014027139 A JP2014027139 A JP 2014027139A JP 6220694 B2 JP6220694 B2 JP 6220694B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic event
- parameter
- situation
- acoustic
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 97
- 238000012545 processing Methods 0.000 title claims description 78
- 238000004364 calculation method Methods 0.000 claims description 20
- 108010076504 Protein Sorting Signals Proteins 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 claims description 17
- 238000003672 processing method Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 24
- 230000014509 gene expression Effects 0.000 description 15
- 239000011159 matrix material Substances 0.000 description 12
- AFCARXCZXQIEQB-UHFFFAOYSA-N N-[3-oxo-3-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)propyl]-2-[[3-(trifluoromethoxy)phenyl]methylamino]pyrimidine-5-carboxamide Chemical compound O=C(CCNC(=O)C=1C=NC(=NC=1)NCC1=CC(=CC=C1)OC(F)(F)F)N1CC2=C(CC1)NN=N2 AFCARXCZXQIEQB-UHFFFAOYSA-N 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000012821 model calculation Methods 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- YLZOPXRUQYQQID-UHFFFAOYSA-N 3-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)-1-[4-[2-[[3-(trifluoromethoxy)phenyl]methylamino]pyrimidin-5-yl]piperazin-1-yl]propan-1-one Chemical compound N1N=NC=2CN(CCC=21)CCC(=O)N1CCN(CC1)C=1C=NC(=NC=1)NCC1=CC(=CC=C1)OC(F)(F)F YLZOPXRUQYQQID-UHFFFAOYSA-N 0.000 description 3
- 238000000342 Monte Carlo simulation Methods 0.000 description 3
- NIPNSKYNPDTRPC-UHFFFAOYSA-N N-[2-oxo-2-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)ethyl]-2-[[3-(trifluoromethoxy)phenyl]methylamino]pyrimidine-5-carboxamide Chemical compound O=C(CNC(=O)C=1C=NC(=NC=1)NCC1=CC(=CC=C1)OC(F)(F)F)N1CC2=C(CC1)NN=N2 NIPNSKYNPDTRPC-UHFFFAOYSA-N 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000012733 comparative method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Stereophonic System (AREA)
Description
<用語の定義>
実施例で用いる用語を定義する。
「音響イベント」とは、音の事象を意味する。各実施例では、所定の時間区間(短時間フレーム)における音響信号が表している音の事象を「音響イベント」と呼ぶことにする。「音響イベント」の具体例は、「包丁の音」「水が流れる音」「水音」「着火音」「火の音」「足音」「掃除機の排気音」などである。「音響イベント列」とは、時系列に並んだ所定の時間区間ごとの音響イベントからなる列(音響イベントの時系列)を意味する。各時間区間の音響イベントを表す要素(ラベル等)からなる時系列を「音響イベント列」と呼ぶ。音響イベント列は1個以上の要素からなる。「音響信号列」とは、各時間区間の音響信号からなる時系列である。音響信号列は1個以上の音響信号からなる。
本実施例では、逐次的に得られる音響イベント列から、音響信号−状況生成モデルおよび状況−音響イベント生成モデルを作成する。そのために、入力された音響イベント列ごとに、音響イベント列が状況を生成する確率に基づく値を、所定の条件を満たすまで更新し、音響イベント列が状況を生成する確率に基づく値がこの所定の条件を満たすまで更新された後に、状況が音響イベントを生成する確率に基づく値を求める。
本実施例のモデル化部112は、逐次的に、音響信号が状況を生成する確率、および状況が音響イベントを生成する確率を同時に算出し、それぞれを音響信号‐状況生成モデル12、および状況‐音響イベント生成モデル13とする。つまり、本実施例では、各音響信号が状況の生成確率を規定し、各状況が音響イベントの生成確率を規定すると考え、これらの関係を生成モデルとして記述する。
ただし、音響イベント列1はモデル化部112に入力されるすべての音響イベント列11,・・・,1max(ただし、maxは正整数)からなり、各音響イベント列1−sは、何れかの音響イベント列11k−sである。SはSk以上の正整数であり、音響イベント列1を構成する音響イベント列1−sの総数を表す。Ωは音響イベント列1を構成する音響イベント列1−s(ただし、s=1,・・・,S)からなる集合を表す。Tは1以上の整数であり、潜在的な状況の種類の数(状況の種類の総数)を表す。Mは1以上の整数であり、音響イベントの種類の数(音響イベントの種類の総数)を表す。Θは音響イベント列1−sに対応する音響信号と状況tとの組からなる集合を表し、P(Θ)は、例えば、音響イベント列1−sに対応する音響信号が状況tを生成する確率θstをs行t列の要素とするS×T行列で表現できる。Φは状況tと音響イベントmとの組からなる集合を表し、P(Φ)は、例えば状況tが音響イベントmを生成する確率φtmをt行m列の要素とするT×M行列で表現できる。eは音響イベントからなる集合(ベクトル)を表す変数(音響イベントを表す変数)、esは音響イベント列1−sを構成する要素である音響イベントからなる集合(Ns次元ベクトル)を表す。Nsは音響イベント列1−sに含まれる要素数(音響イベントの個数)を表す。
ただし、Nsは音響イベント列1−sに含まれる要素数(音響イベントの個数)を表す。θsは音響イベント列1−sに対応する音響信号が何れかの状況t(t=1,・・・,T)を生成する確率を表す。例えば、音響イベント列1−sに対応する音響信号が状況tを生成する確率θstをs行t列の要素とするS×T行列でθ=P(Θ)を表現した場合、θsはθのs行の要素の和で表現できる。φtは状況tが何れかの音響イベントm(m=1,・・・,M)を生成する確率を表す。例えば、状況tが音響イベントmを生成する確率φtmをt行m列の要素とするT×M行列でφ=P(Φ)を表現した場合、φtはΦのt行の要素の和で表現できる。es,nはNs次元ベクトルesのn番目(ただし、n=1,・・・,Ns)の要素である音響イベントを表す。zs,nは音響イベント列1−sのn番目の音響イベントtを表す変数である。パラメータαはT次元ベクトルであり、パラメータβはM次元ベクトルである。以下では、αがT個の同一の要素α0(例えばα0≧0)からなるT次元ベクトルα=(α0,・・・,α0)であり、βがM個の同一の要素β0(例えばβ0≧0)からなるM次元ベクトルβ=(β0,・・・,β0)である場合を例示する。Dir(・)はDirichlet分布の確率密度関数を表す。K−1次(Kは2以上の整数)のDirichlet分布の確率密度関数Dir(ι|ξ)は以下の通りである。
ただし、ξはξi(i=1,...,K)からなるパラメータの列、ιは確率変数、Γはガンマ関数を表す。
モデル化部112は、逐次的に入力される音響イベント列11,...1maxから、学習処理によって、前述の生成モデルやラベル列等を生成する。この例のモデル化部112は、音響信号が状況を生成する確率P(状況|音響信号)、および状況が音響イベントを生成する確率P(音響イベント|状況)おいて、音響イベント列1の事後確率を最大化する学習処理を行う。これは例えば、尤度関数L(音響イベント列|パラメータ)=P(音響イベント列|パラメータ)または対数尤度関数log L(音響イベント列|パラメータ))を最大化する学習処理によって実現可能で、、その結果を用いて各生成モデルや各ラベル列を生成する。「log」は自然対数を表す。
確率p(e,z,φ,θ|α,β)に対するlog p(e,z,φ,θ|α,β)の未知のパラメータz,φ,θを確率変数として扱い、音響イベント列1を構成する要素である音響イベントからなる集合eについての対数尤度関数を最大化することを考える。ただし、zは状況を表す変数(潜在変数)である。新たな分布q(z,φ,θ)(以下、「変分事後分布」と呼ぶ)を導入すると、Jensenの不等式によって、以下のような周辺対数尤度の下限値(Lower Bound)F[q]を求めることができる。
ただし、<P(・)>q(・)はP(・)のq(・)に関する期待値を表す。「≡」の左辺が右辺によって定義されるか、「≡」の右辺が左辺によって定義されている。下限値F[q]は変分事後分布q(z,φ,θ)を変関数とする汎関数である。
と定義する。すると、式(7)は以下のように表現できる。
ただし、ηsnzは音響イベント列1−sのn番目の要素の状況zについての変分事後分布q(z)を表す。また、α0はT次元ベクトルα=(α0,・・・,α0)の要素である。
ただし、Ψはディガンマ関数を表し、zs,nは音響イベント列1−sのn番目の音響イベントに対応する状況を表し、λtmは状況tが音響イベントmを生成する確率を表し、φtmは状況tが音響イベントmを生成する確率を表す。また、eについての和Σeはe=1,・・・,Mについての和を表す。
ただし、γstは音響イベント列1−sに対応する音響信号が状況tを生成する確率を表し、θstは音響イベント列1−sに対応する音響信号が状況tを生成する確率を表し、θsntは音響イベント列1−sのn番目の音響イベントに対応する音響信号が状況tを生成する確率を表す。また、zについての和Σzはz=1,・・・,Tについての和を表す。
ρk=κ (28)
ρk=(τ0+k)−κ (29)
ただし、κは忘却係数(κ∈(0.5,1.0]等)を表し、τ0は更新の時間重みを制御するパラメータ(τ0≧0等)を表し、kは時間インデックスを表す。
モデル化部112の初期化部112aは、状況が音響イベントを生成する確率を表す第1のパラメータλtm (h−1)を初期化する。更新部112bの初期化部112baは、入力された音響イベント列1kに対して、音響イベント列が状況を生成する確率を表す第4のパラメータγs(k)t (h)を初期化する。更新部112bの第1更新部112bbは、第1のパラメータλtm (h−1)および入力された音響イベント列に対応する情報に応じて第4のパラメータγs(k)t (h)を所定の条件を満たすまで更新して得られた値を第5のパラメータγs(k)t (h)とする。更新部112bの第2更新部112bcは、得られた第5のパラメータγs(k)t (h)に対応する情報および入力された音響イベント列1kに対応する情報に応じて第1のパラメータλtm (h−1)を更新した値を第2のパラメータλ〜 tm (h)とし、第1のパラメータλtm (h)と第2のパラメータλ〜 tm (h)との重み付け和を第3のパラメータλtm (h)とする。制御部112cは、更新部112bに入力される音響イベント列1kを逐次的に更新し、第5のパラメータγs(k)t (h)を新たな第4のパラメータγs(k)t (h)とし、第3のパラメータλtm (h)を新たな第1のパラメータλtm (h−1)として更新部112bの処理を再び実行させる処理を繰り返し実行させる。また、本実施例では、更新部112bの処理を再び実行させる処理の繰り返し回数が多いほど、重み付け和における第2のパラメータλ〜 tm (h)の重みを小さくする。以下、図2を用いてこれらの処理の具体例を示す。
λtm (0)=β0
ρ0=(τ0)−κ
ただし、λtm (0)はλtm (h)(第1のパラメータ)の初期値を表し、ρ0は重み係数ρkの初期値を表す。
γs(k)t (h)=α0
なお、λtm (h−1)は第1のパラメータに相当し、γs(k)t (h)の初期値は第4のパラメータに相当する。δnmは、入力された音響イベント列1kを構成する音響イベント列11k−sk(インデックスskに対応する音響イベント列)のn=nsk番目の要素が表す音響イベントに対応するインデックスがmであるときにδnm=1となり、当該n=nsk番目の要素が表す音響イベントに対応するインデックスがmでないときにδnm=0となるデルタ関数である。n=nskに対応するδnmは、入力された音響イベント列11k−skに対応する情報である。Nskはインデックスskに対応する音響イベント列11k−skの要素数、すなわち、音響イベント列11k−skに含まれる音響イベントの個数(要素数)を表す(ステップS4)。
なお、λtm (h−1)は第1のパラメータに相当し、λ〜 tm (h)は第2のパラメータに相当し、λtm (h)は第3のパラメータに相当する(ステップS7)。
実施例1−1−1では、音響信号が状況を生成する確率θと、状況が音響イベントを生成する確率φと、状況を表す潜在確率zと、がそれぞれ独立であると仮定し、q(z,φ,θ|λ,γ)=q(z)q(φ|λ)q(θ|γ)であるとの前提のもと、逐次的なモデル学習を行っていた。しかしながら、実際にはθとφはzに依存することが多い。実施例1−1−2では、θとφがzに依存することに基づいてq(z,φ,θ|λ,γ)=q(θ,φ|z)q(z)とおき、高精度なモデル学習を行う。以下では、実施例1−1−1との相違点を中心に説明し、これまで説明した事項については、これまでに用いた参照番号を用いて説明を省略する。
実施例1−1−1と同じである。
モデル化部1112は、逐次的に入力される音響イベント列11,...1maxから、学習処理によって、前述の生成モデルやラベル列等を生成する。この例のモデル化部1112は、音響信号が状況を生成する確率P(状況|音響信号)、および状況が音響イベントを生成する確率P(音響イベント|状況)おいて、音響イベント列1に対する,音響信号−状況生成モデル12のモデルパラメータ、および状況−音響イベント生成モデル13のモデルパラメータの事後確率を最大化する学習処理を行う。これは例えば、尤度関数L(音響イベント列|パラメータ)=P(音響イベント列|パラメータ)または対数尤度関数log L(音響イベント列|パラメータ))を最大化する学習処理によって実現可能で、その結果を用いて各生成モデルや各ラベル列を生成する。「log」は自然対数を表す。
のs=1,・・・,Sについての総和
を表す。
モデル化部1112の初期化部1112aは、状況が音響イベントを生成する頻度を表す第6のパラメータNtm (h−1)を初期化する。更新部1112bの初期化部1112baは、音響イベント列に含まれる各音響イベントが状況を生成する確率を表す第9のパラメータγ^s(k)i(sk)t (h)と、音響イベント列が状況を生成する頻度を表す第10のパラメータNs(k)t (h−1)とを初期化する。その後、更新部1112bの第1更新部1112bbは、第6のパラメータNtm (h−1)および第10のパラメータNs(k)t (h−1)に応じて第9のパラメータγ^s(k)i(sk)t (h)を更新する処理と、入力された音響イベント列1kに対応する情報と第9のパラメータγ^s(k)i(sk)t (h)とに応じて第10のパラメータNs(k)t (h−1)を更新する処理とを所定の条件を満たすまで行い、第9のパラメータγ^s(k)i(sk)t (h)から更新された第11のパラメータγ^s(k)i(sk)t (h)を得、第10のパラメータNs(k)t (h−1)から更新された第12のパラメータNs(k)t (h)を得る。更新部1112bの第2更新部1112bbは、第6のパラメータNtm (h−1)と、入力された音響イベント列1kに対応する情報および第11のパラメータγ^s(k)i(sk)t (h)に応じて第6のパラメータを更新して得られる第7のパラメータと、の重み付け和を第8のパラメータNtm (h)とする。制御部1112cは、更新部1112bに入力される音響イベント列1kを逐次的に更新し、第8のパラメータNtm (h)を新たな第6のパラメータとし、第11のパラメータγ^s(k)i(sk)t (h)を新たな第9のパラメータとし、第12のパラメータNs(k)t (h)を新たな第10のパラメータNs(k)t (h−1)として、更新部1112bの処理を再び実行させる処理を繰り返し実行させる。また、更新部1112bの処理を再び実行させる処理の繰り返し回数が多いほど、重み付け和における第7のパラメータの重みを小さくする。以下、図2を用いてこれらの処理の具体例を示す。
ρ0=(τ0)−κ
ただし、Nは正の定数であり、例えばすべての音響イベント列1に含まれる音響イベントの個数(またはその想定値)である。ρ0は重み係数ρkの初期値を表す。
を表し、音響イベント列1kを構成する音響イベント列11k−sk(ただし、sk=1,・・・,Sk)が含む各音響イベントに対応するインデックスである。また、hは更新回数を表す正整数である。
ただし、Nskはインデックスskに対応する音響イベント列11k−skの要素数、すなわち、音響イベント列11k−skに含まれる音響イベントの個数(要素数)を表す。
なお、各skおよびtおいて同じei(sk)=mとなるすべてのi(sk)に対してパラメータγ^s(k)i(sk)t (h)は同じ値となる。言い換えると、i(sk)にかかわらず、sk,tおよびei(sk)=mの組み合わせに対してパラメータγ^s(k)i(sk)t (h)が決まる。そのため、すべてのi(sk)=1,・・・,Nskについてパラメータγ^s(k)i(sk)t (h)を計算する必要はなく、sk,tおよびei(sk)=mの組み合わせごとにパラメータγ^s(k)i(sk)t (h)を計算すればよい(ステップS14)。
を満たすi(sk)の集合を表す。ei(sk)は音響イベント列11k−skのi(sk)番目の音響イベントを表す。またns(k)mは、音響イベント列11k−skが含む音響イベントmの個数を表す(ステップS15)。
なお、
が第7のパラメータに相当する(ステップS17)。
を、音響信号が状況を生成する確率を表す音響信号−状況生成モデル12として出力して記憶部113に格納する。音響信号−状況生成モデル12の例は、式(47−1)の値をsk行t列の要素としたSk×T行列である。また、モデル出力部1112eは、ステップS17で得られたパラメータNtm (h)をmに関して正規化したもの、すなわち、
を、状況が音響イベントを生成する確率を表す状況−音響イベント生成モデル13として出力して記憶部113に格納する。状況−音響イベント生成モデル13の例は、式(47−2)の値をt行m列の要素としたT×Mの行列である。その他、モデル出力部1112eが、パラメータNs(k)t (h)またはそれに対応するその他の値を音響信号−状況生成モデル12としてもよいし、パラメータNtm (h)またはそれに対応するその他の値を状況−音響イベント生成モデル13としてもよい。なお、音響信号−状況生成モデル12や状況−音響イベント生成モデル13は、ステップS17の処理のたびに行われてもよいし、すべての更新部1112bの処理が終了した後に得られてもよい。また、音響信号−状況生成モデル12や状況−音響イベント生成モデル13が得られるたびに、それらが記憶部113の新たな記憶領域に格納されてもよいし、新たな音響信号−状況生成モデル12や状況−音響イベント生成モデル13で古い音響信号−状況生成モデル12や状況−音響イベント生成モデル13が上書きされてもよい。
実施例1−2では、逐次的に入力された音響信号列を用い、学習処理によって、音響信号−状況生成モデル12、および状況−音響イベント生成モデル13を生成する。さらに、状況ラベル列14を生成してもよい。ただし、モデル化部112が、音響信号−状況生成モデル12や状況ラベル列14を生成することは必須ではない。以降、同一のものには同じ参照符号を付し、説明は繰り返さない。
実施例1−3では、逐次的に入力された音響特徴量列から、学習によって、音響信号−状況生成モデル12および状況−音響イベント生成モデル13の算出や状況ラベル列14の生成を行う。
実施例2−1では、実施例1−1−1,1−1−2,1−2〜3で説明したように得られた状況−音響イベント生成モデル13を用い、新たに入力された音響イベント列から状況を推定する。
音響イベント列21と状況−音響イベント生成モデル13との比較方法を例示する。この例では、まず生成モデル比較部211が、入力された音響イベント列21から、以下のようにp(ε)(ただし、ε∈{1,・・・,M})を算出する。
ただし、νは事前に設定された緩和パラメータ(例えば0.01などの非負値)を表し、Cεは、音響イベント列21が含む音響イベントεの個数を表し、Ns’は音響イベント列21が含む音響イベントの総数(要素数)を表す。Ns’=Nsであってもよいし、Ns’≠Nsであってもよい。
(ただし、ε∈{1,・・・,M),t∈{1,・・・,T})を代入する。これにより、生成モデル比較部211は、各状況t∈{1,・・・,T}に対応する情報量(合計T個の情報量)を得る。生成モデル比較部211は、各状況t∈{1,・・・,T}について算出された情報量のうち、最も小さな情報量に対応する状況、最も小さな情報量から順番に選択した複数個の情報量に対応する複数個の状況、または閾値未満の情報量に対応するすべての状況を、音響イベント列21に対応する状況として決定して出力する。
以下のように状況−音響イベント生成モデル13と音響イベント列21との比較を行ってもよい。この手法では、生成モデル比較部211が、入力されたラベル付き音響信号列21に対し、状況−音響イベント生成モデル13のもとでの状況の尤度の和や積を求める。以下に具体例を示す。
実施例2−2では、実施例1−1−1,1−1−2,1−2〜3で説明したように得られた状況−音響イベント生成モデル13を用い、新たに入力された音響信号列から状況を推定する。
実施例2−3では、実施例1−1−1,1−1−2,1−2〜3で説明したように得られた状況−音響イベント生成モデル13を用い、新たに入力された音響特徴量列から状況を推定する。
以上のように、音響信号が逐次的に得られる場合に、すべての音響信号が得られる前に、音響信号全体について音響信号と状況や音響イベントの関係をモデル化することができる。また、このように得られた生成モデルを用いて状況の推定を行うことができる。
なお、本発明は上述の実施の形態に限定されるものではない。例えば、上記のモデル処理装置の処理が複数の装置で分散処理されてもよいし、記憶部に格納された生成モデルやデータが複数の記憶部に分散して格納されてもよい。また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
Claims (12)
- 音響イベントの時系列である音響イベント列を入力とし、状況が音響イベントを生成する確率に基づく値を得るモデルを生成するモデル処理装置であって、
入力された音響イベント列ごとに、音響イベント列が状況を生成する確率に基づく値を、所定の条件を満たすまで更新する第1更新部と、
前記音響イベント列が状況を生成する確率に基づく値が前記所定の条件を満たすまで更新された後に、状況が音響イベントを生成する確率に基づく値を求める第2更新部と、
を有するモデル処理装置。 - 請求項1のモデル処理装置であって、
さらに初期化部と制御部とを有し、
前記状況が音響イベントを生成する確率に基づく値は、状況が音響イベントを生成する確率を表す第3のパラメータであり、
前記初期化部は、状況が音響イベントを生成する確率を表す第1のパラメータを初期化し、
前記第2更新部は、前記第1のパラメータと、前記入力された音響イベント列に対応する情報に応じて前記第1のパラメータを更新して得られる第2のパラメータと、の重み付け和を前記第3のパラメータとし、
前記制御部は、前記音響イベント列を逐次的に更新し、前記第3のパラメータを前記第1のパラメータとして前記第1更新部および前記第2更新部の処理を再び実行させる処理を繰り返し実行させる、モデル処理装置。 - 請求項2のモデル処理装置であって、
さらに音響イベント列が状況を生成する確率を表す第4のパラメータを初期化する第2初期化部を有し、
前記音響イベント列が状況を生成する確率に基づく値は、音響イベント列が状況を生成する確率を表す第5のパラメータであり、
前記第1更新部は、前記第1のパラメータおよび前記入力された音響イベント列に対応する情報に応じ、前記第4のパラメータを所定の条件を満たすまで更新して得られた値を前記第5のパラメータとし、
前記第2更新部は、前記第5のパラメータに対応する情報および前記入力された音響イベント列に対応する情報に応じて前記第1のパラメータを更新した値を前記第2のパラメータとし、前記第1のパラメータと前記第2のパラメータとの重み付け和を前記第3のパラメータとし、
前記制御部は、前記音響イベント列を逐次的に更新し、前記第5のパラメータを前記第4のパラメータとし、前記第3のパラメータを前記第1のパラメータとして前記第1更新部および前記第2更新部の処理を再び実行させる処理を繰り返し実行させる、モデル処理装置。 - 請求項3のモデル処理装置であって、
zが状況を表す変数であり、eが音響イベントを表す変数であり、各状況に対応するインデックスがt=1,…,Tであり、各音響イベントに対応するインデックスがm=1,…,Mであり、前記入力された音響イベント列に対応するインデックスがsk=1,…,Skであり、T,M,Sk,h,kが正整数であり、SがSk以上の正整数であり、Nskがインデックスskに対応する音響イベント列の要素数であり、δnmがインデックスskに対応する音響イベント列のn=nsk番目の要素が表す音響イベントに対応するインデックスがmであるときにδnm=1となり、mでないときにδnm=0となるデルタ関数であり、Ψがディガンマ関数であり、α0,β0がパラメータであり、前記第1のパラメータがλtm (h−1)であり、前記第4のパラメータがγs(k)t (h)であり、s(k)=skであり、
前記第1更新部は、
sk=1,…,Sk,nsk=1,…,Nsk,t=1,…,Tについて、
を実行する処理と、
を実行する処理と、を前記所定の条件を満たすまで繰り返し行って得られたγs(k)t (h)を前記第5のパラメータとし、
前記第2更新部は、
前記第5のパラメータγs(k)t (h)および前記第5のパラメータγs(k)t (h)に対応するηs(k)n(sk)t (h)(ただし、n(sk)=nsk)について
を実行して得られたλ〜 tm (h)を前記第2のパラメータとし、
前記第1のパラメータλtm (h−1)と前記第2のパラメータλ〜 tm (h)との重み付け和を前記第3のパラメータλtm (h)とし、
前記制御部は、kを更新しつつ、h+1を新たなhとした前記第1更新部および前記第2更新部の処理を再び実行させる処理を繰り返し実行させる、モデル処理装置。 - 請求項2から4の何れかのモデル処理装置であって、
前記第1更新部および前記第2更新部の処理を再び実行させる処理の繰り返し回数が多いほど、前記重み付け和における前記第2のパラメータの重みが小さい、モデル処理装置。 - 請求項4のモデル処理装置であって、
前記インデックスskに対応する音響イベント列のnsk番目の要素に対応するηs(k)n(sk)t (h)を用い、前記nsk番目の要素に対応する状況を推定する分析部を有する、モデル処理装置。 - 請求項1のモデル処理装置であって、
さらに初期化部と制御部とを有し、
前記状況が音響イベントを生成する確率に基づく値は、状況が音響イベントを生成する頻度を表す第8のパラメータであり、
前記初期化部は、状況が音響イベントを生成する頻度を表す第6のパラメータを初期化し、
前記第2更新部は、前記第6のパラメータと、前記入力された音響イベント列に対応する情報に応じて前記第6のパラメータを更新して得られる第7のパラメータと、の重み付け和を前記第8のパラメータとし、
前記制御部は、前記音響イベント列を逐次的に更新し、前記第8のパラメータを前記第6のパラメータとして前記第1更新部および前記第2更新部の処理を再び実行させる処理を繰り返し実行させる、モデル処理装置。 - 請求項7のモデル処理装置であって、
各状況に対応するインデックスがt=1,…,Tであり、各音響イベントに対応するインデックスがm=1,…,Mであり、前記入力された音響イベント列に対応するインデックスがsk=1,…,Skであり、T,M,Sk,h,kが正整数であり、SがSk以上の正整数であり、Nskがインデックスskに対応する音響イベント列の要素数であり、下付き添え字のs(k)がskであり、下付添え字のi(sk)がis(k)であり、ei(sk)が前記インデックスskに対応する前記音響イベント列のi(sk)番目の音響イベントであり、α0,β0がパラメータであり、前記第6のパラメータがNtm (h−1)であり、前記第8のパラメータがNtm (h)であり、
前記第1更新部は、
Ntm (h−1)、Ns(k)t (h−1)およびγ^s(k)i(sk)t (h−1)を入力とし、sk=1,…,Sk、m=1,…,M、t=1,…,Tについて、
を実行する処理と、
前記インデックスskに対応する前記音響イベント列が含む音響イベントの個数ns(k)m、およびγ^s(k)i(sk)t (h)を用い、sk=1,…,Sk、t=1,…,Tについて、
を実行する処理を、前記所定の条件を満たすまで、Ns(k)t (h)を新たなNs(k)t (h−1)として用いながら繰り返し、
前記第2更新部は、前記第6のパラメータNtm (h−1)と、前記第7のパラメータである
と、の重み付け和を前記第8のパラメータNtm (h)とし、
前記制御部は、kを更新しつつ、h+1を新たなhとした前記第1更新部および前記第2更新部の処理を再び実行させる処理を繰り返し実行させる、モデル処理装置。 - 請求項1から8の何れかのモデル処理装置であって、
逐次的に入力された音響信号列から、逐次的に音響特徴量列を算出する特徴量算出部と、
前記音響特徴量列から、逐次的に音響イベント列を決定する音響イベント判定部と、を有し、
前記入力された音響イベント列は、前記音響イベント判定部で決定された前記音響イベント列である、モデル処理装置。 - 請求項1から8の何れかのモデル処理装置であって、
逐次的に入力された音響特徴量列から、逐次的に音響イベント列を決定する音響イベント判定部を有し、
前記入力された音響イベント列は、前記音響イベント判定部で決定された前記音響イベント列である、モデル処理装置。 - 音響イベントの時系列である音響イベント列を入力とし、状況が音響イベントを生成する確率に基づく値を得るモデルを生成するモデル処理方法であって、
入力された音響イベント列ごとに、音響イベント列が状況を生成する確率に基づく値を、所定の条件を満たすまで更新する第1更新ステップと、
前記音響イベント列が状況を生成する確率に基づく値が前記所定の条件を満たすまで更新された後に、状況が音響イベントを生成する確率に基づく値を求める第2更新ステップと、
を有するモデル処理方法。 - 請求項1から10の何れかのモデル処理装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014027139A JP6220694B2 (ja) | 2013-10-31 | 2014-02-17 | モデル処理装置、その方法、およびプログラム |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013226587 | 2013-10-31 | ||
JP2013226587 | 2013-10-31 | ||
JP2014027139A JP6220694B2 (ja) | 2013-10-31 | 2014-02-17 | モデル処理装置、その方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015111232A JP2015111232A (ja) | 2015-06-18 |
JP6220694B2 true JP6220694B2 (ja) | 2017-10-25 |
Family
ID=53526073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014027139A Expired - Fee Related JP6220694B2 (ja) | 2013-10-31 | 2014-02-17 | モデル処理装置、その方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6220694B2 (ja) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5772214B2 (ja) * | 2010-05-24 | 2015-09-02 | 株式会社デンソー | 音声認識装置 |
JP5800718B2 (ja) * | 2012-01-12 | 2015-10-28 | 日本電信電話株式会社 | 特定状況モデルデータベース作成装置とその方法と状況推定装置とプログラム |
-
2014
- 2014-02-17 JP JP2014027139A patent/JP6220694B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2015111232A (ja) | 2015-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9721202B2 (en) | Non-negative matrix factorization regularized by recurrent neural networks for audio processing | |
CN105810193B (zh) | 训练语言模型的方法和设备及识别语言的方法和设备 | |
US9811519B2 (en) | Generative discriminative approach for transactional dialog state tracking via collective matrix factorization | |
JP6328320B2 (ja) | 入力信号を変換する方法 | |
Hacine-Gharbi et al. | Low bias histogram-based estimation of mutual information for feature selection | |
JP6283331B2 (ja) | 流れ推定装置、予測装置、及びプログラム | |
JP2015521748A (ja) | 入力信号を変換する方法 | |
JP2020525872A (ja) | インフルエンザ予測モデルの生成方法、装置及びコンピュータ可読記憶媒体 | |
Chamroukhi | Unsupervised learning of regression mixture models with unknown number of components | |
EP2012243B1 (en) | Aerodynamic design optimization using knowledge extraction from analyzing unstructured surface meshes | |
JP5818759B2 (ja) | 状況生成モデル作成装置、状況推定装置、およびプログラム | |
JP6910002B2 (ja) | 対話行為推定方法、対話行為推定装置及びプログラム | |
JP6662715B2 (ja) | 予測装置、予測方法及びプログラム | |
JP6646337B2 (ja) | 音声データ処理装置、音声データ処理方法および音声データ処理プログラム | |
JP6220694B2 (ja) | モデル処理装置、その方法、およびプログラム | |
JP5781040B2 (ja) | 行動推定装置およびそのプログラム | |
JP4950600B2 (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
JP6114209B2 (ja) | モデル処理装置、モデル処理方法、およびプログラム | |
JP6078441B2 (ja) | モデル処理装置、分析装置、それらの方法およびプログラム | |
JP2016520220A (ja) | 隠れ属性モデル推定装置、方法およびプログラム | |
JP5783979B2 (ja) | 生成モデル作成装置及び推定装置 | |
JP6093670B2 (ja) | モデル処理装置、モデル処理方法、およびプログラム | |
JP6137479B2 (ja) | 音声信号解析装置、方法、及びプログラム | |
JP6665079B2 (ja) | 基本周波数モデルパラメータ推定装置、方法、及びプログラム | |
JP6498141B2 (ja) | 音響信号解析装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160302 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170407 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170926 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171002 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6220694 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |