JP6316669B2 - 状況モデル学習装置、その方法及びプログラム - Google Patents

状況モデル学習装置、その方法及びプログラム Download PDF

Info

Publication number
JP6316669B2
JP6316669B2 JP2014122063A JP2014122063A JP6316669B2 JP 6316669 B2 JP6316669 B2 JP 6316669B2 JP 2014122063 A JP2014122063 A JP 2014122063A JP 2014122063 A JP2014122063 A JP 2014122063A JP 6316669 B2 JP6316669 B2 JP 6316669B2
Authority
JP
Japan
Prior art keywords
situation
acoustic
acoustic event
probability distribution
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014122063A
Other languages
English (en)
Other versions
JP2016004054A (ja
Inventor
桂右 井本
桂右 井本
尚 植松
尚 植松
仲 大室
仲 大室
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014122063A priority Critical patent/JP6316669B2/ja
Publication of JP2016004054A publication Critical patent/JP2016004054A/ja
Application granted granted Critical
Publication of JP6316669B2 publication Critical patent/JP6316669B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音響信号やその音響信号が何の音であるかをラベル付けした音響イベントを利用して、ある状況が生成されるモデル(以下「音響信号-状況生成モデル」ともいう)、及び、ある状況から音響イベントが生成されるモデル(以下「状況-音響イベント生成モデル」ともいう)を作成しながら状況を推定する技術、また、生成されたモデルを利用して状況を分析、推定する技術に関する。
非特許文献1に開示された従来技術では、連続する有限個の短時間フレーム毎の音響信号が何の音であるか(「足音」、「水が流れる音」など。以後、音響信号によって示されるイベント(事象)を「音響イベント」ともいう)を示す音響イベントの系列(以下「音響イベント列」ともいう)の生成過程を、長時間の音響信号から状況が生成される過程と、状況から音響イベントが生成される過程とを考慮してモデル化し、そのパラメータを推定する。従来技術では、生成モデルから、長時間音響信号毎の状況の生成確率を分析したり、新たに入力された音響イベント列とモデルとの距離を利用して、対応する音響信号が示す状況を推定することを可能とする。
井本他、"音響イベント列の確率的生成モデルを利用した音響トピックとユーザ行動との関係分析"、日本音響学会2013年春季研究発表会、2013、pp。825-826(1-P-3)
従来技術では、状況を分析、推定するためのモデルを作成する際、事前に大規模なモデル作成用の長時間の音響信号を用意しておき、それらの音響信号全てを利用して生成モデルのパラメータを推定する必要がある。そのため、モデル作成用の音響信号が事前に全て得られない場合は生成モデルの作成が困難である。また、全ての音響信号を用いて生成モデルを作成するため、大規模な音響信号に対しては、生成モデルの作成に要する時間や一時記憶装置が非常に大規模になる。また、従来技術ではモデル化する状況の種類の数を、モデル作成の前に設定しておく必要がある。そのため、もし逐次的に得られる音響信号や音響イベント列を利用してモデル化可能であったとしても、事前に設定した状況の種類の数と実際の状況の種類の数とが異なれば精度が大幅に劣化する事が考えられる。
本発明は、状況をモデル化する際に、音響信号や音響イベント列が有する状況の数を事前に設定することなく、さらに、逐次的に音響信号が得られる場合にもモデルの学習を可能とする状況モデル学習技術、並びに、状況の分析および推定を可能とする状況推定技術を提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、状況モデル学習装置は、ある音響イベント列から状況が生成される確率の分布である第三確率分布は、第一確率分布によって規定されるものとし、第一確率分布は、音響イベント列と、発生しうる全ての状況が生成される確率との関係を、離散的な分布で表現したものであり、第一確率分布と第三確率分布とは階層的なディリクレ過程に従うものとし、各状況が音響イベントの生成確率分布である第二確率分布を規定するものとし、逐次入力される音響イベント列を用いて、第一確率分布と、第二確率分布と、第三確率分布とを同時に算出し、算出した第二確率分布を、状況から音響イベントを生成する状況-音響イベント生成モデルとして取得し、音響イベント列から状況を生成する音響信号-状況生成モデルを取得する状況モデル化部を含む。
上記の課題を解決するために、本発明の他の態様によれば、状況モデル学習方法は、状況モデル学習装置が実行する。状況モデル学習方法は、ある音響イベント列から状況が生成される確率の分布である第三確率分布は、第一確率分布によって規定されるものとし、第一確率分布は、音響イベント列と、発生しうる全ての状況が生成される確率との関係を、離散的な分布で表現したものであり、第一確率分布と第三確率分布とは階層的なディリクレ過程に従うものとし、各状況が音響イベントの生成確率分布である第二確率分布を規定するものとし、状況モデル化部が、逐次入力される音響イベント列を用いて、第一確率分布と、第二確率分布と、第三確率分布とを同時に算出し、算出した第二確率分布を、状況から音響イベントを生成する状況-音響イベント生成モデルとして取得し、音響イベント列から状況を生成する音響信号-状況生成モデルを取得する状況モデル化ステップを含む。
本発明によれば、音響信号や音響イベント列が有する状況の数を事前に設定することなく、さらに、逐次的に音響信号が得られる場合にもモデルの学習、状況の分析および推定を行うことができる。
状況モデル生成装置の機能ブロック図。 状況モデル生成装置の処理フローの例を示す図。 第一確率分布、第二確率分布及び第三確率分布を説明するための図。 状況モデル化部の処理フローの例を示す図。 状況推定装置の機能ブロック図。 状況推定装置の処理フローの例を示す図。
以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態>
<第一実施形態のポイント>
本実施形態では、逐次的に得られた、音響イベント列から、音響信号と状況、状況と音響イベントの関係を同時に考慮して、音響信号-状況生成モデル及び状況-音響イベント生成モデルを作成し、同時に、状況の数やその中身の分析及び推定を行う技術について説明する。なお、音響信号-状況生成モデルとは音響信号(または、音響信号から得られる音響特徴量列や音響イベント列全体)から状況が生成される確率分布であり、この分布(モデル)により音響信号と状況が関係づけられる。つまりこの分布(モデル)を用いることで音響信号(または、音響信号から得られる音響特徴量列や音響イベント列全体)から状況が推定可能になる。また、同様に、状況-音響イベント生成モデルとは状況から音響イベントが生成される確率分布であり、この分布(モデル)により状況と音響イベントが関係づけられる。つまり、この分布(モデル)を用いることで音響イベントから状況が推定可能となる。
ここで、状況とは、音響イベント列に付与された音響イベントのラベルの組み合わせによって規定される、潜在的な音響状態を指すものとする。
<第一実施形態に係る状況モデル学習装置200>
図1は本実施形態に係る状況モデル学習装置200の機能ブロック図を、図2はその処理フローの例を示す。
状況モデル学習装置200は、音響イベント列合成部203と、状況モデル化部204と保存DB208とを含む。
状況モデル学習装置200は、単一または複数の音響イベント列から構成される、音響イベント列の集合201hを逐次的に入力として受け取り(hは時間のインデックス)、音響イベント列合成部203及び状況モデル化部204を用いて、音響信号-状況生成モデル205、状況-音響イベント生成モデル206を算出し、保存DB208に格納する。
また、状況モデル化部204は、下記に示す方法を用いて、状況ラベル列207を同時に出力しても良い。この状況ラベル列207を分析することにより、入力された音響イベント列の集合201hの各音響イベントが示す状況が推定可能となる。
音響イベント列201h−a、201h−bなどは、音響イベントラベルが1つ以上組み合わされた音響イベントの系列である。なお、音響イベントラベルは、音響信号に対して短時間毎(数10msec〜数sec毎)に付与されるラベルである。モデル化の対象となる音響信号に対応する様々な音響イベント列を入力とすることが望ましい。
<音響イベント列合成部203>
音響イベント列合成部203は、複数の音響イベント列(例えば、音響イベント列201h−a、201h−b)を含む音響インベント列の集合201hが入力された場合、これらをつなぎあわせて一つの音響イベント列とし、その結果を状況モデル化部204に送出する(S203)。なお、音響イベント列合成部203を設けず、単一の音響イベント列を状況モデル化部204に直接入力する構成としても良い。
<状況モデル化部204及び保存DB208>
状況モデル化部204では、入力された音響イベント列から、例えば、以下の手順に従って、逐次的に、音響信号-状況生成モデル205、状況-音響イベント生成モデル206、(状況ラベル列207)を算出し、保存DB208に保存する(S204)。なお、音響信号-状況生成モデル205と状況-音響イベント生成モデル206、状況ラベル列207を保存する保存DB208を別の構成としても良い。
また、各時刻hに算出された音響信号-状況生成モデル205、状況-音響イベント生成モデル206、(状況ラベル列207)をそれぞれ保存DB208に保存しても良いし、音響信号-状況生成モデル205、状況-音響イベント生成モデル206、(状況ラベル列207)が算出される度に上書きしても良い。
〔状況から音響イベントが生成される過程の理論的説明〕
状況モデル化部204では、逐次的に、(1)音響イベント列の集合εに含まれる音響イベント列sが状況kを生成する確率の「種」となる確率と、(2)その確率によって変化する、音響イベント列sが状況tを生成する確率と、(3)状況kが音響イベントeを生成する確率を同時に算出し、そこから、音響信号-状況生成モデル205と状況-音響イベント生成モデル206とを生成し、出力する。なお、kは「種」となる状況のインデックスを表し、tは各音響イベント列が有する状況のインデックスを表す。各音響イベント列が有する状況は、「種」となる全ての状況の中から生じやすい状況を抽出したものであり、各音響イベント列が有する状況の総数は、「種」となる状況の総数よりも小さい。本実施形態では、図3に示すように、各音響イベント列が状況を生成する確率には、その「種」となる確率が存在し(図3の最上段の確率分布を参照)、各音響イベント列が状況を生成する確率(図3の中段の確率分布を参照)はこの「種」に規定されていると考える。さらに、各状況が音響イベントの生成確率(図3の最下段の確率分布を参照)を規定すると考える。状況モデル化部204は、これらの関係を生成モデルとして記述し、生成モデルのパラメータを推定することで状況の分析を可能とする。
この「種」となる確率は、理論的には無限種類の状況を生成できると考え、各音響イベント列が状況を生成する確率が決められる際には、「種」となる確率に基づいて任意の個数の状況の種類が生成され得ると考えることで、状況の種類の数を柔軟に変化させモデル化することが可能となる。実際のモデル化では、音響イベント列が状況を生成する確率が小さいものについて打ち切ることで、必要な数の状況が正しくモデル化されることとなる。具体的にこれらのモデル化には、例えば階層的なディリクレ過程を利用して、どの状況を生成するかを決定し、各音響イベント列がどの状況を生成しやすいかを表す確率と、各状況がどの音響イベントを生成しやすいかを表す確率には、それぞれ多項分布を用いることなどが可能である。
言い換えると、本実施形態では、ある音響イベント列から状況が生成される確率の分布(以下「第三確率分布」ともいい、図3の中段の確率分布に相当する)は、「種」となる確率の分布(以下「第一確率分布」ともいい、図3の最上段の確率分布に相当する)によって規定されるものとする。
この第一確率分布は、例えば所定の場所(家の中など)で発生しうる全ての音響イベント列と、発生しうる全ての状況が生成される確率との関係を、離散的な分布で表現したものである。
また、第三確率分布は、例えば所定の場所及び所定の期間(昼間のリビングなど)に発生しうる音響イベント列と、状況が生成される確率との関係を、離散的な分布で表現したものである。ここで、第一確率分布と第三確率分布とは階層的なディリクレ過程に従う。
そして、状況モデル化部204は、音響イベント列の集合εを用いて、第一確率分布と、第三確率分布と、各状況に対する音響イベントの生成確率分布(以下「第二確率分布」ともいい、図3の下段の確率分布に相当する)とを同時に算出し、状況から音響イベントを生成する状況-音響イベント生成モデル206と、音響イベント列から状況を生成する音響信号-状況生成モデル205とを生成する(S204)。
一例として、上記の生成過程は以下のように定式化することができる。まず、「種」となる確率は以下のように生成する事が可能である。
ここで、θkは音響イベント列が示す状況、βkは状況θkが生成される確率、γはBeta分布のパラメータ、HはSymmetricなディリクレ分布、G0は各音響イベント列から状況が生成される分布の「種」となる分布、δはクロネッカーのデルタ関数、kは「種」となる分布の状況のインデックス、Beta()はBeta分布を表す。また「〜」は右辺に示された分布から左辺に示されたパラメータを生成する事を表す。なお、クロネッカーのデルタ関数δθ_kは状況θkが発生する(または発生しやすい)場合には1を、発生しない(または発生しづらい)場合には0を返す関数である。確率βkは図3の最上段の確率分布の各棒の値に相当し、分布G0は図3の最上段の確率分布の各棒の値の内、発生する(または発生しやすい)状況θkに対応するもののみの総和を表す。
次に、各音響イベント列に対する状況の分布が以下のように生成される。
ここで、ηstは全ての音響イベント列に共有の、「種」となる状況、πstはηstに対応する状況が生成される確率、α0はBeta分布のパラメータ、Gsは音響イベント列から状況が生成される分布、sは音響イベント列毎のインデックス、tは音響イベント列が示す状況のインデックスを表す。確率πstは図3の中段の確率分布の各棒の値に相当し、分布Gsは図3の中段の確率分布の各棒の値の内、発生する(または発生しやすい)状況ηstに対応するもののみの総和を表す。
その後、各音響イベント列に対応する状況の分布から、音響イベント列毎に状況が生成され、状況毎に生成された音響イベントの生成分布から音響イベントが生成される。その生成過程は以下で表す事が可能である。
ここで、cstはs番目の音響イベント列の状況tと対応する「種」となる状況のインデックス、zsiはs番目の音響イベント列のi番目の音響イベントが示す状況、esiはs番目の音響イベント列のi番目の音響イベント、Mult()は多項分布を表す。φsiは図3最下段の確率分布のパラメータであり、Mult(φsi)は図3最下段の×印で表される確率分布を表す。音響イベントesiは図3の最下段の確率分布から生成される音響イベントを表すとも言える。
この生成過程が、各音響イベント列に含まれる音響イベントの数、そして音響イベント列の数だけ繰り返されることで、音響イベント列の集合が生成される。
〔各生成モデルのパラメータ推定の理論的説明〕
音響信号-状況生成モデル205及び状況-音響イベント生成モデル206を算出するためには、上記の生成過程を基に変分ベイズ法(VB法、Variational Bayes methods)などの手法を用いることが可能である。
以下では、その一例として、変分ベイズ法に基づくモデルの算出手法を記載する。
また、ここでは、まず、モデル算出に利用する音響イベント列の集合が事前に得られている場合のパラメータ推定手法を先に説明し、その後、逐次的に得られる音響イベント列に対してパラメータを推定する手法を説明する。
上記生成モデルのパラメータを推定するためには、p(β',π',c, z,φ|ε)、(ここで、p(・)は「・」に対する確率を表すものとする)を最大化するパラメータを推定したい。ここで、β'={β'1,β'2,…,β'k,…}、π'={π'11,π'12,…,π'st,…}、c={c11,c12,…,cst,…}、z={z11,z12,…,zsi,…}、φ={φ1112,…,φsi,…}、εは音響イベント列の集合を表すものとする。
上記モデルパラメータを直接推定することは一般的に困難であるため、変分ベイズ法に基づく手法では、q(β',π',c,z,φ)なる変分事後分布という分布を設定し、これを真のパラメータに近づけることで、上記モデルパラメータを推定する。
ここで、変分ベイズ法に基づく手法ではさらに、以下のような平均場近似と呼ばれる近似を適用する。
このとき、uk、wk、ast、bstはそれぞれBeta分布のパラメータを、ξst、ζsi、λkはそれぞれ多項分布のパラメータを、Kは「種」となる状況の最大数を、Sは音響イベント列の数を、Tは各音響イベント列が有する状況の最大数を、Nsは音響イベント列sに含まれる音響イベントの数を表す。なお、各音響イベント列が有する状況は、「種」となる全ての状況の中から抽出されたものであり、T<Kである。T及びKには状況の最大数として十分に大きな値を設定すればよい。
ここで、logp(ε;γ,α0,υ)という周辺対数尤度を考え、ここにイェンセンの不等式を適用することで得られる変分自由パラメータを最大化することで、目的のモデルパラメータが推定できる事が分かる。
一般的な変分ベイズ法と同等の手順によりパラメータを求めることにより、最終的に、音響イベント列の集合に対して、以下の更新式を繰り返し適用することでモデルパラメータが推定可能である。
各音響イベント列に関するパラメータの更新式:
ただし、exp(・)は自然対数の底数の・乗を、Eq[・]は・の期待値演算を、esiは音響イベント列sのi番目の音響イベントを表す。
全ての音響イベント列に関連するパラメータの更新式:
ただし、I[A=B]は値Aと値Bとが一致する場合に1を返し、異なる場合に0を返す関数であり、υはディリクレ分布のパラメータを表す。mは想定される音響イベントのインデックスであり、予め状況モデル学習装置200の利用者等により与えられるものとする。この式では、音響イベントesiが想定される音響イベントmであれば、対応するζsitを加算する。このような構成により想定される音響イベントmに対応するパラメータλkmの値を大きくすることができる。
さらに本実施形態では、逐次的に得られる音響信号に対して効率的にモデルの算出を可能とするための処理を実現可能にする。ここで、更新のための重み係数ρを例えば、以下のように設定する。
但し、κ、τ0、hは、それぞれ忘却係数(κ∈(0.5,1.0]等)、更新の時間重みを制御するパラメータ(τ0≧0等)、音響イベント列が入力された回数(時間に対するパラメータ)を表す。ここで、x(y)は、xをy回更新したときに得られる値を表す。一定の重みを用いる場合には式(A)を、音響イベント列の入力回数に応じて重みを更新する場合には式(B)を用いればよい。式(B)では、更新回数が大きくなるほど、パラメータは収束していくと考え、新しく受け取った音響イベント列の集合により得られる値の影響が小さくなるように(重みρ(h)が小さくなるように)、言い換えると、過去に得られた(一つ前の更新により得られた)パラメータu(h-1) k、w(h-1) k、λ(h-1) kmに対する重み(1-ρ(h))が大きくなるように、重みを変更する。本実施形態では、逐次的に式(B)により重み係数ρ(h)を更新するものとする。
これらのパラメータを用いて、全ての音響イベント列に関連するパラメータの更新式を以下のように変形する。
本実施形態では、これらを利用して、潜在変数及びパラメータの変分事後分布を更新し、音響信号-状況生成モデル205、状況-音響イベント生成モデル206を算出する。
<生成モデル算出の流れ:状況モデル化部204の流れの例>
図4は、状況モデル化部204の処理フローの例を示す。
(i).事前分布のハイパパラメータ及び更新のための重み係数、γ,α0,υ,τ0,κを設定し(S204a)、各変分事後分布のハイパパラメータ及び更新のための重み係数ast,bst,uk,wkkmstksik,ρを初期化する(S204b)。初期化の例として以下のような設定が可能である。
(i-1).s=1,2,…,S、t=1,2,…,Tに対して
a(0) st=1, b(0) st0
(i-2).k=1,2,…,Kに対して
u(0) k=1,w(0) k
(i-3).k=1,2,…,K、m=1,2,…,Mに対して
λ(0) km=1/M
ただし、Mは想定される音響イベントの数を表し、mは想定される音響イベントのインデックスであり、予め状況モデル学習装置200の利用者等により与えられるものとする。
(i-4).s=1,2,…,S、t=1,2,…,T、k=1,2,…,Kに対して
ξ(0) stk=1/(T×K)
(i-5).s=1,2,…,S、i=1,2,…,Ns、k=1,2,…,Kに対して
ζ(0) sik=1/K
(i-6).τ0,κ,h=0に対して
ρ(0)=(τ0+h)
として、h←1とする(S204c)。
(ii).逐次的に得られる音響イベント列s’を取得し(S204d)、音響イベント列s’に対して、変分事後分布を更新する。
(ii-1).以下の処理S204eを所定の条件を満たすまで(S204f)繰り返す。所定の条件としては、(1)規定の繰り返し回数(正値、1〜1000回程度)を超えることや、(2)所望の結果が得ること(例えば、更新の前後において、各パラメータの変化の平均値が、一定の閾値(例えば0.01%)以下になること)等が考えられる。
i=1,2,…,Ns'、k=1,2,…,K、t=1,2,…,Tに対して、以下のようにパラメータas't、bs't、ξs'tk、ζs'itを更新する(s204e)。
ただし、ψ(・)はディガンマ関数を表す。なお、状況モデル化部204は、ast、bstをパラメータとしたBeta分布により第三確率分布(図3の中段の確率分布)を表現することができる。パラメータξs'tkは第一確率分布の状況kと音響イベント列s'の第二確率分布の状況tとの対応関係を表すパラメータであり、状況kが状況tに対応する確率を表し、Σkξs'tk=1である。パラメータζs'itは音響イベント列s'のi番目の音響イベントes'iが状況tに由来する確率を表し、Σtζs'it=1である。
(ii-2).所定の条件を満たした場合には(S204f)、k=1,2,…,K、m=1,2,…,Mに対してパラメータuk,wkkmの変分事後分布を以下のように更新する(S204g)。
状況モデル化部204は、uk,wkをパラメータとしたBeta分布により第一確率分布(図3の最上段の確率分布)を表現することができる。また、第二確率分布(図3の最下段の確率分布)に相当するパラメータλkmを算出することができる。
h←h+1とし、さらに、重み係数ρ(h)を更新する(ρ(h)←(τ0+h)、S204h)。
(iii).状況モデル化部204は、Beta(uk,wk)、Beta(ast,bst)、ukおよびastからそれぞれ所定の値(例えば、10-4)よりも小さい確率に対応する状況k及びtに対する処理を打ち切り、打ち切った状況分だけK及びTを小さくし、残った状況k及びtに対する確率を正規化する(S204i)。なお、状況tの打ち切り処理、正規化処理は、パラメータast、bstの更新(S204e)を終える度に行ってもよい。
状況モデル化部204は、更新の結果得られたζs'itおよびξs'tkを用いて音響信号‐状況生成モデル205(ΣtΣiξs'tkζs'it)を算出し、取得する。また、更新の結果得られた第二確率分布に相当するパラメータλ(h) kmを状況‐音響イベント生成モデル206として取得する(S204j)。
最後の音響イベント列までS204d〜S204jを繰り返す(S204k)。
このような構成とすることで、音響イベント列s'を取得するたびに、逐次的に、第一確率分布、第二確率分布、第三確率分布、音響信号‐状況生成モデル205及び状況‐音響イベント生成モデル206を更新し、取得することができる。ただし、第三確率分布については、パラメータの更新毎に(S204e)取得してもよい。
また、上記更新の結果で割り当てられた状況を分析することで、各音響イベントがどの状況により生成されたものかを知ることも可能である。つまり、更新の結果得られたパラメータζs'itに対して、音響イベント列s'における、i番目のフレームの状況tの生成確率を最大化するζs'itを該当フレームにおける状況と推定する。また、該当フレームにおける状況の推定値は、ζs'itのtにおける最大のものでも良く、最大値から複数個でも良く、設定された閾値を超えるものを全てとしても良い。
<効果>
このような構成により、音響信号や音響イベント列が有する状況の数を事前に設定することなく、さらに、逐次的に音響信号が得られる場合にもモデルの学習、状況の分析および推定を行うことができる。従来技術では、逐次的に得られる音響信号を用いて、音響信号全体をモデル化することは困難であったが、本実施形態の構成であれば、逐次的に得られる音響信号を用いて、音響信号と状況、音響イベント列の関係を考慮して、音響信号全体をモデル化することができる。
<第一実施形態の変形例1>
第一実施形態と異なる部分を中心に説明する。
本変形例では、逐次的に得られた、音響信号取得器等を用いて取得した音響信号から、短時間毎の音響特徴量を算出する。さらに、音響特徴量の列の集合から音響イベント列の集合を求める。そして、第一実施形態と同様に、音響イベント列の集合から状況の生成モデル、音響イベントの生成モデルをモデル化し、状況及び音響イベントを分析する。
状況モデル学習装置200は、逐次的に、音響信号列の集合301hを入力とし、音響信号‐状況生成モデル205、状況‐音響イベント生成モデル206を算出し、同時に状況ラベル列207を算出し、状況の分析を行う。なお、音響信号列とは、1つ以上の音響信号がつなぎ合わされた信号列を指すものとする。
状況モデル学習装置200は、音響イベント列合成部203と、状況モデル化部204と保存DB208とに加え、特徴量算出部302と音響イベント判定部303と音響イベントモデルDB304とを含む(図1参照)。
<特徴量算出部302>
特徴量算出部302では、入力された音響信号列の集合301hに対して、短時間(数10msec〜数sec)毎に例えば音圧レベルや音響パワー、MFCC特徴量、LPC特徴量などの特徴量を算出し、音響特徴量列の集合401hを音響イベント判定部303に送出する(図2のS302)。また、特徴量算出部302では、これらの特徴量と、非特許文献1に示す、立ち上がり特性、調波性、時間周期性などの特徴量を組み合わせて用いても良い。
また、音響イベント列合成部203と同等の合成処理は、特徴量算出部302の前段に行っても良い。
<音響イベント判定部303及び音響イベントモデルDB304>
音響イベントモデルDB304には、予め音響イベントのラベルとその音響イベントに対する音響特徴量とを求めておき、記憶しておく。
音響イベント判定部303は、音響特徴量列の集合401hを受け取り、音響イベントモデルDB304に保存されている各音響イベントに対応する音響特徴量と、入力された音響特徴量列の集合401hに含まれる音響特徴量列の音響特徴量とを短時間毎に比較し、例えばユークリッド距離やコサイン距離が最も近い音響特徴量に対する音響イベントのラベルを、入力された入力された音響特徴量列の集合401hに含まれる音響特徴量列の音響特徴量に付与する(図2のS303)。この処理(S302及びS303)を、入力された音響信号列の集合301h全体に渡って行い、その結果取得される音響イベント列の集合201hを音響イベント列合成部203に送出する。
その他の処理は第一実施形態と同様とする。
このような構成とすることで、逐次的に得られる音響信号列の集合301hから状況の生成モデル、音響イベントの生成モデルをモデル化し、状況及び音響イベントを分析することができる。
<第一実施形態の変形例2>
第一実施形態と異なる部分を中心に説明する。
この例では、逐次的に得られた、短時間の音響信号の毎の音響特徴量の列を入力とし、音響特徴量の列の集合から音響イベント列の集合を求める。そして、第一実施形態と同様に、音響イベント列の集合から状況の生成モデル、音響イベントの生成モデルをモデル化し、状況及び音響イベントを分析する。
状況モデル学習装置200は、音響特徴量列の集合401hを入力として、音響信号‐状況生成モデル205及び状況-音響イベント生成モデル206を算出し、同時に状況ラベル列207を算出し、状況の分析を行う。
状況モデル学習装置200は、音響イベント列合成部203と、状況モデル化部204と保存DB208とに加え、音響イベント判定部303と音響イベントモデルDB304とを含む(図1参照)。
<音響イベント判定部303及び音響イベントモデルDB304>
音響イベントモデルDB304には、予め音響イベントのラベルとその音響イベントに対する音響特徴量とを求めておき、記憶しておく。
音響イベント判定部303は、音響特徴量列の集合401hを受け取り、音響イベントモデルDB304に保存されている各音響イベントに対応する音響特徴量と、入力された音響特徴量列の集合401hに含まれる音響特徴量列の音響特徴量とを短時間毎に比較し、例えばユークリッド距離やコサイン距離が最も近い音響特徴量に対する音響イベントのラベルを、入力された入力された音響特徴量列の集合401hに含まれる音響特徴量列の音響特徴量に付与する(図2のS303)。この処理(S302及びS303)を、入力された音響特徴量列の集合401h全体に渡って行い、その結果取得される音響イベント列の集合201hを音響イベント列合成部203に送出する。
その他の処理は第一実施形態と同様とする。
このような構成とすることで、逐次的に得られる音響特徴量列の集合401hから状況の生成モデル、音響イベントの生成モデルをモデル化し、状況及び音響イベントを分析することができる。
<その他の変形例>
図5のS204iの打ち切り処理、正規化処理は必ずしも行わなくともよい。仮に行わずとも、打ち切り対象となる状況k,tに対応する確率は非常に小さなもの(ほぼ0)となるため、学習されたモデルの精度や推定精度には大きな影響を与えない。
<第二実施形態>
本実施形態では、モデルを更新することなく、音響イベント列から状況を推定する。
図5は本実施形態に係る状況推定装置500の機能ブロック図を、図6はその処理フローの例を示す。
状況推定装置500は、生成モデル比較部502と保存DB208とを含む。
本実施形態では、第一実施形態で算出した、状況‐音響イベント生成モデル206を用いて、音響信号‐状況生成モデル205及び状況‐音響イベント生成モデル206を更新することなく、新たに入力された音響イベント列501から状況を推定することを可能とする。このとき、音響イベント列501に含まれる音響イベントの数をNsとする。
生成モデル比較部502では、音響イベント列501と状況-音響イベント生成モデルとを受け取り、入力された音響イベント列501に対して、第一実施形態に係る状況モデル学習装置200で算出された複数の状況‐音響イベント生成モデル206に基づく状況毎の事後確率、または、状況-音響イベント生成モデル(前述の通り、状況から音響イベントが生成される確率分布)と想定される全ての音響イベントに対する各音響イベントの確率分布との差異を表す状況毎の情報量を求め、状況毎の事後確率または情報量を比較し、入力された音響イベント列501が生成された状況を推定し(S502)、推定結果を出力する。
(比較方法1)
まず、情報量を比較する方法について説明する。
本手法では生成モデル比較部502において、入力された音響イベント列501に対して、想定される全ての音響イベントに対する想定される各音響イベントの確率分布P(m)を求める。例えば、入力された音響イベント列501(式中、esiは音響イベント列sのi番目の音響イベントを表す)から
を算出する。但し、γは緩和パラメータを表し、事前に設定しておく。例えば、γは、0.01などの非負値をとる。前述の通り、Mは想定される音響イベントの数を表し、mは想定される音響イベントのインデックスを表す。全てのmに対して確率分布P(m)を算出する。
次に、生成モデル比較部502は、確率分布P(m)と状況k毎の状況-音響イベント生成モデル206(より詳しく言うとパラメータλkm)との差異の大きさを求める。例えば、この確率分布P(m)と状況-音響イベント生成モデル206(より詳しく言うとパラメータλkm)とを、下記に記すカルバックライブラー情報量(Kullback-Leibler divergence, KL divergence)やイェンセンシャノン情報量(Jensen-Shannon divergence, JS divergence)などの情報量基準によって比較することで、入力された音響イベント列の状況を推定する。
但し、Q(m)はP(m)と比較するための確率分布が入力され、本実施形態の場合パラメータλkmを代入し、Q(m)=λkmとする。各kに対して、KL divergenceやJS divergenceなどの情報量基準を求める。なお、これらの情報量が大きいほど、差異が大きいことを意味する。
さらに、生成モデル比較部502は、各状況kについて算出された情報量のうち、(i-1)最も近いと判断される状況(確率分布P(m)との情報量が最も小さくなる状況-音響イベント生成モデル206に対応する状況)、もしくは、(i-2)近いものから複数個である判断された状況(確率分布P(m)との情報量が最も小さい状況-音響イベント生成モデル206から昇順に所定の個数の状況-音響イベント生成モデル206に対応する所定の個数の状況)、もしくは、(i-3)ある情報量(閾値)よりも小さいと判断された状況(確率分布P(m)との情報量が閾値以下の状況-音響イベント生成モデル206に対応する状況)、もしくは、(i-4)これらの条件(i-1)〜(i-3)の組合せを満たす状況(例えば、(i-3)の条件を満たす状況の個数が1個以上所定の個数より小さい場合には、(i-3)の条件を満たす状況を判定結果とし、(i-3)の条件を満たす状況の個数が所定の個数以上の場合には、(i-2)の条件を満たす状況を判定結果とし、(i-3)の条件を満たす状況が一つもない場合には、(i-1)の状況を満たす状況を判定結果とする)を判定結果(つまり、新たに入力された音響イベント列501に対する状況の推定値)として出力する。
(比較方法2)
次に、事後確率を比較する方法について説明する。
本手法では、生成モデル比較部502において、入力された音響イベント列501に対して、以下の事後確率を求める。
ただし、zsiはs 番目の音響イベント列のi 番目の音響イベントが示す状況を表すものとする。ただし、一行目から二行目の変形にはベイズの定理を用いた。
上記式によって算出された各状況の事後確率P(zsi=k|e,α,β)を比較することで、入力された音響イベント列sまたは音響信号列の状況を推定する。
各状況について算出された事後確率のうち、(ii-1)最も事後確率の高い状況、若しくは、(ii-2)最も事後確率の高い状況から降順に所定の個数の状況、若しくは、(ii-3)閾値よりも事後確率の高い状況、若しくは、(ii-4)これらの条件(ii-1)〜(ii-3)の組合せを満たす状況(例えば、情報量を比較する方法で説明した組合せと同様の組合せ)を、判定結果(つまり、新たに入力された音響イベント列501に対する状況の推定値)として出力する。
<効果>
このような構成とすることで、第一実施形態で学習した状況-音響イベント生成モデル206を更新することなく、音響イベント列から状況を推定することができる。
<第二実施形態の変形例1>
第二実施形態と異なる部分を中心に説明する。
本実施形態では、モデルを更新することなく、音響信号列から状況を推定する。
状況推定装置500は、生成モデル比較部502と保存DB208とに加え、さらに、特徴量算出部302と音響イベント判定部303と音響イベントモデルDB304とを含む(図5参照)。
この構成では、音響信号列601を入力として、対応する状況を推定する。
特徴量算出部302、音響イベント判定部303、音響イベントモデルDB304では第一実施形態の変形例1と同様の処理を行い、音響イベントの判定結果を音響イベントラベル付き音響信号列として送出する。
その他の処理は第二実施形態と同様とする。
このような構成とすることで、第一実施形態で学習した状況-音響イベント生成モデル206を更新することなく、音響信号列から状況を推定することができる。
<第二実施形態の変形例2>
第二実施形態と異なる部分を中心に説明する。
この例ではモデルを更新することなく、音響特徴量列から状況を推定する。
状況推定装置500は、生成モデル比較部502と保存DB208とに加え、さらに、音響イベント判定部303と音響イベントモデルDB304とを含む(図5参照)。
音響イベント判定部303、音響イベントモデルDB304では、第一実施形態の変形例2と同様の処理を行い、音響イベントの判定結果を音響イベントラベル付き音響特徴量列として送出する。
その他の処理は第二実施形態と同様とする。
このような構成とすることで、第一実施形態で学習した状況-音響イベント生成モデル206を更新することなく、音響特徴量列から状況を推定することができる。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (3)

  1. ある音響イベント列から状況が生成される確率の分布である第三確率分布は、第一確率分布によって規定されるものとし、第一確率分布は、音響イベント列と、発生しうる全ての状況が生成される確率との関係を、離散的な分布で表現したものであり、第一確率分布と第三確率分布とは階層的なディリクレ過程に従うものとし、各状況が音響イベントの生成確率分布である第二確率分布を規定するものとし、
    逐次入力される音響イベント列を用いて、第一確率分布と、第二確率分布と、第三確率分布とを同時に算出し、算出した前記第二確率分布を、状況から音響イベントを生成する状況-音響イベント生成モデルとして取得し、音響イベント列から状況を生成する音響信
    号-状況生成モデルを取得する状況モデル化部を含む、
    状況モデル学習装置。
  2. 状況モデル学習装置が実行する状況モデル学習方法であって、
    ある音響イベント列から状況が生成される確率の分布である第三確率分布は、第一確率分布によって規定されるものとし、第一確率分布は、音響イベント列と、発生しうる全ての状況が生成される確率との関係を、離散的な分布で表現したものであり、第一確率分布と第三確率分布とは階層的なディリクレ過程に従うものとし、各状況が音響イベントの生成確率分布である第二確率分布を規定するものとし、
    状況モデル化部が、逐次入力される音響イベント列を用いて、第一確率分布と、第二確率分布と、第三確率分布とを同時に算出し、算出した前記第二確率分布を、状況から音響イベントを生成する状況-音響イベント生成モデルとして取得し、音響イベント列から状
    況を生成する音響信号-状況生成モデルを取得する状況モデル化ステップを含む、
    状況モデル学習方法。
  3. 請求項1の状況モデル学習装置としてコンピュータを機能させるためのプログラム。
JP2014122063A 2014-06-13 2014-06-13 状況モデル学習装置、その方法及びプログラム Active JP6316669B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014122063A JP6316669B2 (ja) 2014-06-13 2014-06-13 状況モデル学習装置、その方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014122063A JP6316669B2 (ja) 2014-06-13 2014-06-13 状況モデル学習装置、その方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2016004054A JP2016004054A (ja) 2016-01-12
JP6316669B2 true JP6316669B2 (ja) 2018-04-25

Family

ID=55223392

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014122063A Active JP6316669B2 (ja) 2014-06-13 2014-06-13 状況モデル学習装置、その方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6316669B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI384423B (zh) * 2008-11-26 2013-02-01 Ind Tech Res Inst 以聲音事件為基礎之緊急通報方法與系統以及行為軌跡建立方法
JP5818759B2 (ja) * 2012-08-31 2015-11-18 日本電信電話株式会社 状況生成モデル作成装置、状況推定装置、およびプログラム

Also Published As

Publication number Publication date
JP2016004054A (ja) 2016-01-12

Similar Documents

Publication Publication Date Title
JP6090286B2 (ja) 機械学習装置、機械学習方法、分類装置、分類方法、プログラム
JP7055630B2 (ja) 音声認識のための学習方法、学習装置、コンピュータプログラム及び記憶媒体
CN108229667A (zh) 基于人工神经网络类别的修剪
JP5638503B2 (ja) テキスト要約装置、方法及びプログラム
JP2015109084A (ja) 新規物質探索システム及びその探索方法
Soleimani et al. Artificial neural network application in predicting probabilistic seismic demands of bridge components
KR20190045038A (ko) 음성 인식 방법 및 장치
JPWO2018088277A1 (ja) 予測モデル生成システム、方法およびプログラム
JP5432935B2 (ja) 予測器選択装置、予測器選択方法、予測器選択プログラム
JP5818759B2 (ja) 状況生成モデル作成装置、状況推定装置、およびプログラム
US11847389B2 (en) Device and method for optimizing an input parameter in a processing of a semiconductor
JP6316669B2 (ja) 状況モデル学習装置、その方法及びプログラム
JP2014115685A (ja) プロファイル解析装置及び方法及びプログラム
JP5781040B2 (ja) 行動推定装置およびそのプログラム
JP2020086778A (ja) 機械学習モデル構築装置および機械学習モデル構築方法
JP6839001B2 (ja) モデル学習装置、情報判定装置およびそれらのプログラム
JP6114209B2 (ja) モデル処理装置、モデル処理方法、およびプログラム
JP2008064849A (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP2022185799A (ja) 情報処理プログラム、情報処理方法および情報処理装置
JP6078441B2 (ja) モデル処理装置、分析装置、それらの方法およびプログラム
KR102266853B1 (ko) 다중 유형 페어와이즈 기반 아이템 추천 방법 및 장치
JP5244452B2 (ja) 文書特徴表現計算装置、及びプログラム
WO2024057414A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP6220694B2 (ja) モデル処理装置、その方法、およびプログラム
WO2022157862A1 (ja) トラフィック変動予測装置、及びトラフィック変動予測方法、並びにトラフィック変動予測プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160914

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170818

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170905

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171024

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180327

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180328

R150 Certificate of patent or registration of utility model

Ref document number: 6316669

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150