JP5818759B2 - 状況生成モデル作成装置、状況推定装置、およびプログラム - Google Patents

状況生成モデル作成装置、状況推定装置、およびプログラム Download PDF

Info

Publication number
JP5818759B2
JP5818759B2 JP2012192225A JP2012192225A JP5818759B2 JP 5818759 B2 JP5818759 B2 JP 5818759B2 JP 2012192225 A JP2012192225 A JP 2012192225A JP 2012192225 A JP2012192225 A JP 2012192225A JP 5818759 B2 JP5818759 B2 JP 5818759B2
Authority
JP
Japan
Prior art keywords
acoustic
situation
acoustic event
event
signal sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012192225A
Other languages
English (en)
Other versions
JP2014048522A (ja
Inventor
桂右 井本
桂右 井本
島内 末廣
末廣 島内
仲 大室
仲 大室
羽田 陽一
陽一 羽田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012192225A priority Critical patent/JP5818759B2/ja
Publication of JP2014048522A publication Critical patent/JP2014048522A/ja
Application granted granted Critical
Publication of JP5818759B2 publication Critical patent/JP5818759B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Stereophonic System (AREA)

Description

この発明は、音響イベント情報を利用して、場の状況の生成モデルを作成する技術、及び、作成された生成モデルを利用して状況を推定する技術に関する。
非特許文献1に開示された従来技術では、状況を表す音響信号に対して、短時間(20msec〜100msec程度)ごとにその短時間音響信号が何の音(足音,水が流れる音;以後、音響イベントとする)であるかを示すラベルが付与された、音響イベントラベル付き音響信号列を入力とし、連続する有限個のフレーム分の音響イベントラベルを用いて音響イベントラベルごとのヒストグラムを作成する。また、生成された音響イベントラベルごとのヒストグラムに対してGMM(Gaussian Mixture Model)、HMM(Hidden Markov Model)、SVM(Support Vector Machine)等のモデル化手法を用い、状況モデルを生成する。
さらに、上記状況モデルと新たに入力されたラベル付き音響信号列から算出された音響イベントのヒストグラムをそれぞれ比較し(例えば、ユークリッド距離やコサイン距離などを用いて比較する)、複数の状況モデルのうち、最も判断基準に適合しているものをその音響信号列に対応する状況を表すと判定する。このように、従来技術では音響信号列から状況を推定することができる。
井本他,「複数の生活音の出現頻度に基づくユーザ行動の識別手法とコミュニケーションへの応用」,画像電子学会第32回VMA研究会
従来技術では、モデル算出に利用するデータが表す音響イベントの発生頻度そのものを直接モデル化している。このような方法では、他の音響イベントの発生頻度を適切にモデル化できない。このような方法で生成された状況モデルは、モデル算出に利用したデータに過剰にフィッティングしてしまう。そのため、従来技術によって算出された状況モデルを用いて状況識別を行う際、モデル算出に利用するデータから、わずかに異なるデータが入力されただけでも、類似度が非常に低い状況と判定されてしまう。しかしながら、状況モデルを算出する際に利用したデータと、推定時に入力されるデータがほぼ同一であることは稀である。よって、従来技術の状況モデルの利用は、状況推定精度の劣化につながる。
本発明では、生成されたモデルがモデル算出に利用されたデータに過剰にフィッティングすることなく、新たなデータに対して精度のよい状況推定を行うことを可能にする技術を提供する。
本発明では、時系列の音響信号列の集合と、音響信号列に対応する音響イベントを表す音響イベント情報と、を含む学習用情報を用い、音響イベントによって規定される潜在的な場の状況が音響イベントを生成する確率P(音響イベント|状況)と、音響信号列が状況を生成する確率P(状況|音響信号列)とを得て生成モデルを作成する。
本発明では、音響イベントの発生頻度そのものを直接モデル化するのではなく、生成モデルの生成過程を、確率P(音響イベント|状況)及び確率P(状況|音響信号列)によって確率的に取り扱う。これにより、生成モデルがそのモデル算出に利用されたデータに過剰にフィッティングすることを抑制でき、新たなデータに対して精度のよい推定を行うことが可能となる。
第1実施形態の状況生成モデル作成装置のブロック図。 音響イベントラベル付き音響信号列を例示した図。 第1実施形態の変形例1の状況生成モデル作成装置のブロック図。 第1実施形態の変形例2の状況生成モデル作成装置のブロック図。 第2実施形態の状況推定装置のブロック図。 第2実施形態の変形例1の状況推定装置のブロック図。 第2実施形態の変形例2の状況推定装置のブロック図。 第3実施形態の状況推定装置のブロック図。 第3,4実施形態の変形例1の状況推定装置のブロック図。 第3,4実施形態の変形例2の状況推定装置のブロック図。 第4実施形態の状況推定装置のブロック図。
以下、図面を参照して本発明の実施形態を説明する。
<用語の定義>
実施形態で用いる用語を定義する。
「音響イベント」とは、音の事象を意味する。「音響イベント」の具体例は、「包丁の音」「水が流れる音」「水音」「着火音」「火の音」「足音」「掃除機の排気音」などである。
「状況」とは、音響イベントによって規定される、潜在的な場の状況を意味する。状況の生成確率は、その状況が起こる時間区間での行動に規定され、状況は、その状況が起こる時間区間での音響イベントの生成確率を規定する。すなわち、状況は、行動と、行動によって規定される生成確率とによって表現可能である。また、音響イベントは、状況と、状況によって規定される生成確率とによって表現可能である。なお「行動」とは、人間、動物、装置などの主体が行う何らかの行動を意味する。「行動」の具体例は「料理」「掃除」などである。
「XがYを生成する確率」とは、事象Xが起こるという条件のもとでの事象Yが起こる確率をいう。「XがYを生成する確率」は、「XのもとでのYの条件付き確率」や「XにおけるYの条件付き確率」とも表現できる。
<第1実施形態>
第1実施形態では、学習用情報として音響イベントラベル付き音響信号を入力とし、学習によって、音響信号列が状況を生成する確率をP(状況|音響信号列)としたときの音響信号−状況生成モデル、及び、状況が音響イベントを生成する確率をP(音響イベント|状況)としたときの状況−音響イベント生成モデルを算出する。
図1に例示するように、本形態の状況生成モデル作成装置100は、音響信号列合成部101、状況モデル化部102、及び記憶部103を有する。状況生成モデル作成装置100は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。
まず音響信号列合成部101に、音響イベントラベル付き音響信号列11−1,・・・,11−S(ただし、Sは1以上の整数)が入力される。図2に例示するように、各音響イベントラベル付き音響信号列11−s(ただし、s∈{1,・・・,S})は、時系列の音響信号列11a−s、各音響信号列11a−sに対応する音響信号列番号、短時間(数10msec〜数sec)ごとに区分された音響信号列の各要素に対応する要素番号、及び短時間ごとに決定されて付与された音響イベントラベル(「音響イベント情報」に相当)を含む。各音響信号列11a−sは音を表すデジタル信号列である。音響イベントラベルは、音響信号列の各要素に対応する音響イベントを表すラベルであり、音響信号列の要素ごとに付与される。1個の音響信号列番号には、1個以上の要素番号が対応する。
複数個の音響イベントラベル付き音響信号列11−1,・・・,11−S(以下、単に「ラベル付き音響信号列11−1,・・・,11−S」という)が音響信号列合成部101に入力された場合、音響信号列合成部101は、それらを時系列方向につなぎ合わせ、それによって1つの音響イベントラベル付き音響信号列11(以下、単に「ラベル付き音響信号列11」という)を得て出力する(合成処理)。音響信号列合成部101に1つの音響信号列11−1のみが入力された場合、音響信号列合成部101はそれをラベル付き音響信号列11として出力する。音響信号列合成部101から出力された音響イベントラベル付き音響信号列は、状況モデル化部102に入力される。なお、音響信号列合成部101を経由することなく、1つラベル付き音響信号列11がそのまま状況モデル化部102に入力されてもよい。
状況モデル化部102は、以下の手順に従って、入力されたラベル付き音響信号列11から、音響信号−状況生成モデル12、及び状況−音響イベント生成モデル13を生成し、それらを記憶部103に格納する。
[状況から音響イベントが生成される過程の論理的説明]
状況モデル化部102は、ラベル付き音響信号列11から、音響信号列が状況を生成する確率P(状況|音響信号列)と、状況が音響イベントを生成する確率P(音響イベント|状況)とを算出する。状況モデル化部102は、確率P(状況|音響信号列)としたときの音響信号−状況生成モデル12と、確率P(音響イベント|状況)としたときの状況−音響イベント生成モデル13とを生成する。つまり本形態では、音響信号列が潜在的な場の状況の生成確率を規定し、状況が音響イベントの生成確率を規定すると考え、これらの関係を各生成モデルとして記述する。
生成確率Θ、生成確率Φ、音響信号列の集合Ωが与えられた場合における、音響イベントの列eの生成確率P(e|Θ,Φ,S)は以下の通りである。
Figure 0005818759

ただし、Sはラベル付き音響信号列11に含まれる音響信号列11a−s(ただし、s∈{1,・・・,S})の個数、Tは状況の種類の個数、Eは音響イベントの種類の個数、eはラベル付き音響信号列11に与えられた音響イベントの列(ベクトル)、Θは音響信号列11a−s(ただし、s∈{1,・・・,S})が状況t(ただし、t∈{1,・・・,T})を生成する確率P(t|s)を(s,t)要素とするS×T行列、Φは状況t(ただし、t∈{1,・・・,T})が音響イベントε(ただし、ε∈{1,・・・,E})を生成する確率P(ε|t)を(t,ε)要素とするT×E行列、Ωは音響信号列11a−1,・・・,11a−Sと成り得る列の集合、e’は音響信号列11a−sに与えられた音響イベントの列(N次元ベクトル:Nは音響信号列11a−sに対応する音響イベントの個数)を表す。
生成確率Θ、生成確率Φが与えられたときの、音響イベントの列e’の生成確率P(e’|Θ,Φ)は、以下の通りである。
Figure 0005818759

ただし、eは音響信号列11a−sの要素番号iに対応する音響イベントラベルが表す音響イベント、Nは音響信号列11a−sに対応する要素数(要素番号iの最大値)、zは音響信号列11a−sの要素番号iに対応する状況、φは状況tが音響イベントε(ただし、ε∈{1,・・・,E})を生成する確率P(ε|t)をε番目の要素とするE次元ベクトル、θは音響信号列11a−sが状況t(ただし、t∈{1,・・・,T})を生成する確率P(t|s)をt番目の要素とするT次元ベクトル、φei,t(下付き添え字の「ei,t」は「e,t」)は状況tが音響イベントeを生成する確率P(e|t)、θtsは音響信号列11a−sが状況tを生成する確率P(t|s))、αはθ及びθtsが従うDirichlet分布の性質を決める超パラメータ(例えば0.01などの非負値をとる)、βはφ及びφei,tが従うDirichlet分布の性質を決める超パラメータ(例えば0.01などの非負値をとる)を表す。ここで、P(φ|β)及びP(θ|α)はそれぞれβ,αをパラメータとするDirichlet分布に従うと仮定する。W−1次(Wは2以上の整数)のDirichlet分布の確率密度関数は以下の通りである。
Figure 0005818759

ただし、Γはガンマ関数を表す。
[生成モデルの算出過程の説明]
状況モデル化部102は、音響信号列が状況を生成する確率P(状況|音響信号列)、及び状況が音響イベントを生成する確率P(音響イベント|状況)を算出し、それぞれと対応する音響信号−状況生成モデル12、及び状況−音響イベント生成モデル13を算出する。
音響信号−状況生成モデル12及び状況−音響イベント生成モデル13の算出には、マルコフ連鎖モンテカルロ法(MCMC法:Markov Chain Monte Carlo methods)や変分ベイズ法(VB法:Variational Bayes methods)などの手法を用いることができる。また、MCMC法には,M−Hアルゴリズムやギブスサンプリングなどの手法があるが、ここではギブスサンプリングによる生成モデルの算出手法について説明を行う。
[生成モデルの算出方法の例示]
以下に、ギブスサンプリングを用いた音響信号−状況生成モデル12及び状況−音響イベント生成モデル13の算出方法を例示する。
(I)状況モデル化部102は、ハイパパラメータα,βを決定する。ハイパパラメータα,βは、状況モデル化部102が持つ記憶部にあらかじめ保存された値を用いても良いし、ランダムに決定しても良い。また、ハイパパラメータα,βは、状況モデル化部102が持つ記憶部にあらかじめ保存された値やランダムに決定された値を初期値として、以下の手順により算出、更新してもよい。
(II)状況モデル化部102は、入力されたラベル付き音響信号列11が含む音響信号列11a−1,・・・,11a−Sの各要素に状況tを一様分布に従って割り当てる。或いは、状況モデル化部102は、事前に状況モデル化部102に設定されていた方法に従って、音響信号列11a−1,・・・,11a−Sの各要素に状況tを割り当ててもよい。
さらにS≧2の場合、状況モデル化部102は、ラベル付き音響信号列11が含む音響信号11a−1,・・・,11a−Sの各要素に対して要素番号iを付与しなおす。すなわち、ラベル付き音響信号列11が含むすべての要素に対して互いに異なる要素番号i(ただし、i∈{1,・・・,U})を付与する。ただし、Uはラベル付き音響信号列11に対応する要素の総数であり、U=N+・・・+Nを満たす。
状況モデル化部102は、各要素に状況tが割り当てられ、要素番号iが付与しなおされた(S≧2の場合)音響信号列を、「更新対象のラベル付き音響信号列」の初期値とする。
(III)状況モデル化部102は、更新対象のラベル付き音響信号列の全ての要素(要素番号i∈{1,・・・,N})について、以下の(III-1)及び(III-2)を規定の回数(正値、1〜1000回程度)、若しくは、所望の結果が得られるまで(例えば、割り当ての前後において、状況の割り当て先の変化が一定の閾値(例えば30%)以下になるまでなど)繰り返す。
(III-1)状況モデル化部102は、更新対象のラベル付き音響信号列について、要素番号iの音響イベントεに状況tが割り当てられる確率分布を、全ての状況tについて更新する。以下に、更新後の確率分布P(z=t|e=ε,z−i,e−i,Ω,α,β)を示す。
Figure 0005818759

ただし、Cεt ETは更新対象のラベル付き音響信号列で音響イベントεに状況tが割り当てられた回数を表し、Cts TSは更新対象のラベル付き音響信号列で状況tが音響信号列11a−sに割り当てられた回数を表す。なお、表記制約上の都合から「Cεt ET」「Cts TS」と表記するが、本来は式(3)に示すように「Cεt ET」の「ET」は「εt」の上に表記され、「Cts TS」の「TS」は「ts」の上に表記される。z−iは要素番号i以外の要素番号に対応する状況からなる列、e−iは要素番号i以外の要素番号に対応する音響イベントからなる列を表す。
(III-2)状況モデル化部102は、上記の更新式(3)で得られた確率分布P(z=t|e=ε,z−i,e−i,Ω,α,β)に従って、各要素番号iに割り当てる状況をランダムにサンプリングする。状況モデル化部102は、このようにサンプリングした状況を各要素番号iの要素に割り当て、更新対象のラベル付き音響信号列を更新する。
(IV)状況モデル化部102は、上記の(III-1)(III-2)の繰り返しによって最終的に得られたCεt ET及びCts TSを用い、以下を計算する。
Figure 0005818759
これによって状況モデル化部102は、音響信号列が状況を生成する確率θts(ただし、s∈{1,・・・,S},t∈{1,・・・,T})の集合及び状況が音響イベントを生成する確率φεt(ただし、t∈{1,・・・,T},ε∈{1,・・・,E})の集合を得、それぞれを音響信号−状況生成モデル12及び状況−音響イベント生成モデル13とする。例えば状況モデル化部102は、確率θtsを(s,t)要素とするS×T行列を音響信号−状況生成モデル12とし、確率φεtを(t,ε)要素とするT×E行列を状況−音響イベント生成モデル13とする。
或いは、状況モデル化部102は、(III-1)の繰り返し処理時に、式(3)の算出過程で得られる確率θts及び確率φεtをそれぞれ1個以上サンプリングし、式(4)(5)に代えて、サンプリングされた確率θtsの平均値及び確率φεtの平均値を用い、音響信号−状況生成モデル12及び状況−音響イベント生成モデル13を得てもよい。
また状況モデル化部102は、(III)に示す更新処理を1回行うごとに、以下に示す更新式を用いてハイパパラメータα,βを更新することも可能である。
Figure 0005818759

ただし、αnext,βnextは更新後のハイパパラメータα,βであり、ψ(z)はディガンマ関数を表す。また、ディガンマ関数は以下の式で表わされる、ガンマ関数Γ(z)の対数微分である。
Figure 0005818759

ただし、Γ’(z)はガンマ関数Γ(z)の導関数である。
また、α及びβの更新を行った結果、α及びβの値がある閾値δ(>0),δ(>0)を超える又は下回る場合に対して、
if α<δ then α=δ
if β<δ then β=δ
等の処理を加えてもよい。
<第1実施形態の変形例1>
第1実施形態の変形例1では、音響信号列を入力として、学習によって、音響信号−状況生成モデル12、及び状況−音響イベント生成モデル13を算出する。以降、同一のものには同じ参照符号を付し、説明は繰り返さない。
図3に例示するように、本形態の状況生成モデル作成装置110は、特徴量算出部111、音響イベント判定部112、音響イベントモデルデータベース(DB)113、音響信号列合成部101、状況モデル化部102、及び記憶部103を有する。状況生成モデル作成装置110は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。
まず特徴量算出部111にラベルなし音響信号列15−1,・・・,15−Sが入力される。各ラベルなし音響信号列15−s(ただし、s∈{1,・・・,S})は、短時間(数10msec〜数sec)ごとに区分された要素からなり、各要素には要素番号が付されている。
特徴量算出部111は、各ラベルなし音響信号列15−sから、音響特徴量列(ベクトル)を算出して出力する。例えば特徴量算出部111は、入力されたラベルなし音響信号列15−sに対し、前述の短時間(数10msec〜数sec)からなるフレームごとに、音圧レベル、音響パワー、MFCC(Mel-Frequency Cepstrum Coefficient)特徴量、LPC(Linear Predictive Coding)特徴量などを算出し、これらを音響特徴量列として出力する。さらに立ち上がり特性、調波性、時間周期性など(例えば、非特許文献1参照)の音響特徴量が音響特徴量列に加えられてもよい。
立ち上がり特性とは、数十から数百ミリ秒ごとにおける、音響信号の大きさを表す指標の増加の度合いを表す指標である。ここで、音響信号の大きさを表す指標とは、例えば、音響信号の振幅の絶対値、音響信号の振幅の絶対値の対数値、音響信号のパワー又は音響信号のパワーの対数値である。例えば、以下の式(10)で得られる値が0以上であればその値が立ち上がり特性とされ、式(10)で得られる値が0未満であれば0が立ち上がり特性とされる。
Figure 0005818759

ただし、kはフレームをK個の微小な時間区間(例えば1msec程度)に区分した場合の各時間区間に対応し、p ̄はk番目の時間区間でのサンプルの大きさを表す指標の代表値又は平均値を表す。なお、「サンプルの大きさを表す指標」の例は、サンプルの振幅、サンプルの振幅の絶対値、サンプルの振幅の対数値、サンプルのエネルギー、サンプルのパワー、又はサンプルのパワーの対数値などである。「サンプル」は音響信号列の各音響信号を表す。また、Δp ̄はp ̄の変化率を表す。例えば、Δp =p −p k−1である。Δp =p k+1−p としてもよい。また、最小二乗法等の近似手法を用いてk番目の時間区間におけるp を近似した直線を求め、その時間区間におけるその直線の傾きをΔp としてもよい。また、k番目の時間区間を含む複数の時間区間におけるp ̄k-κ,・・・,p ̄k-1,p ,p ̄k+1,...p ̄k-κ’の近時曲線を求め、そのk番目の時間区間に対応する点での傾き(微分値)をΔp としてもよい。またχを任意の文字として、χの右肩の「−」は、χの上付きバーを意味する。また式(10)の分子における(p ̄を(p ̄とし、mを任意の値としても良い。
以下に調波性を例示する。
Figure 0005818759

また、Nはフレームに含まれるサンプル数を表す1以上の整数、nはフレーム内の各サンプル点を表す1以上のN以下の整数、x(n)はサンプル点nでのサンプルの大きさを表す指標である。Rff(τ)はf(n)のラグτでの自己相関係数、max{・}は「・」の最大値を表す。ラグτは1以上N以下の整数である。Rff(τ)は、例えば以下のように定義される。
Figure 0005818759
以下に時間周期性を例示する。
Figure 0005818759

ただし、Lは一周期とみなすサンプル数、Mは時間周期性の度合を計算するための周期数を表す1以上の整数、p(・)はサンプルの大きさを表す指標を時間平滑化した値、p ̄はフレーム内でのサンプルの大きさを表す指標の平均値を表す。
音響イベントモデルDB113には、事前に算出された音響イベントモデルが複数保存されている。各音響イベントモデルは、音響イベントラベルが付された学習用の音響信号列から音響特徴量列を算出し、各音響イベントに対応する音響特徴量列をGMM,HMM,SVM等の周知のモデル化手法を用いてモデル化することで得られる(例えば参考文献:奥村学、高村大也、「言語処理のための機械学習入門」コロナ社)。
例えば、GMMの場合、音響イベントごとに音響特徴量の各種別に対応する音響イベントモデルが得られる。例えば、音響特徴量列がF種類(Fが1以上の整数)の音響特徴量yι(ただし、ι∈{1,・・・,F})からなる列y,・・・,yである場合、各音響イベントに対応する音響イベントモデルは、それぞれ、以下のような確率モデルp(yι)を要素とする列p(y),・・・,p(y)となる。
Figure 0005818759

ただし、yιは音響特徴量列(ベクトル)の要素、Jは正規分布の混合数、πは混合係数、N(・)は正規分布の確率密度関数、μは分布の平均、Σは分布の分散である。
或いは、音響イベントごとに音響特徴量列が対応付けられたものが音響イベントモデルとされてもよい。
特徴量算出部111から出力された音響特徴量列は音響イベント判定部112に入力される。音響イベント判定部112は、入力された音響特徴量列と、音響イベントモデルDB113に記憶されている複数の音響イベントモデルとをそれぞれ比較し、各フレーム(各要素番号iに対応)の音響特徴量列に対応する音響イベントを決定する。例えばGMMが音響イベントモデルとして用いられる場合、音響イベント判定部112は、フレーム(要素番号i)ごとに、入力された音響特徴量列の各要素ρι(ただし、ι∈{1,・・・,F})を各音響イベントに対応する式(13)の各確率モデルに代入し、各音響イベントに対応する確率p(ρ)×・・・×p(ρ)を最大にする音響イベントを決定する。或いは、例えば音響イベントごとに音響特徴量列が対応付けられた音響イベントモデルの場合、音響イベント判定部112は、フレーム(要素番号i)ごとに、入力された音響特徴量列との距離(ユークリッド距離やコサイン距離)が最も近い音響イベントモデルに対応する音響イベントを選択する。
音響イベント判定部112は、各要素番号iに対して決定した音響イベントを表す音響イベントラベルを、ラベルなし音響信号列15−sの各要素番号iの要素に付与する。音響イベント判定部112は、この処理を入力されたラベルなし音響信号列15−1,・・・,15−Sのすべての要素(すべての要素番号i)について行い、その結果得られる音響イベントラベル付き音響信号列11−1,・・・,11−Sを出力する。
音響イベントラベル付き音響信号列11−1,・・・,11−Sは、音響信号列合成部101に入力される。以降の処理は第1実施形態と同じである。
なお、音響信号列合成部101で音響イベントラベル付き音響信号列11−1,・・・,11−Sの合成処理を行うことに代えて、特徴量算出部111の前段でラベルなし音響信号列15−1,・・・,15−Dの合成処理を行っても良いし、音響イベント判定部112の前段で音響特徴量列の合成処理を行っても良い。
<第1実施形態の変形例2>
第1実施形態の変形例2では、ラベルなし音響特徴量列を入力として、学習によって、音響信号−状況生成モデル12、及び状況−音響イベント生成モデル13を算出する。
図4に例示するように、本形態の状況生成モデル作成装置120は、音響イベント判定部112、音響イベントモデルデータベース(DB)113、音響信号列合成部101、状況モデル化部102、及び記憶部103を有する。状況生成モデル作成装置120は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。
まず音響イベント判定部112に、ラベルなし音響特徴量列16−1,・・・,16−Sが入力される。各ラベルなし音響特徴量列16−s(ただし、s∈{1,・・・,S})は、短時間(数10msec〜数sec)ごとに区分された時系列の音響信号列、短時間ごとに区分された音響信号列の各要素に対応する要素番号、及び音響信号列の短時間ごとの音響特徴量列を含む。音響特徴量列の具体例は、第1実施形態で説明した通りである。
音響イベント判定部112は、入力されたラベルなし音響特徴量列16−sの音響特徴量列と、音響イベントモデルDB113に記憶されている複数の音響イベントモデルを、第1実施形態の変形例1で説明したようにそれぞれ比較し、各フレーム(各要素番号iに対応)の音響特徴量列に対応する音響イベントを決定する。音響イベント判定部112は、各要素番号iに対して決定した音響イベントを表す音響イベントラベルを、ラベルなし音響特徴量列16−sの各要素番号iの要素に付与する。音響イベント判定部112は、この処理をラベルなし音響特徴量列16−1,・・・,16−Sのすべての要素(すべての要素番号i)について行い、その結果得られる音響イベントラベル付き音響信号列11−1,・・・,11−Sを出力する。
音響イベントラベル付き音響信号列11−1,・・・,11−Sは、音響信号列合成部101に入力される。以降の処理は第1実施形態と同じである。
なお、音響信号列合成部101で合成処理を行うことに代えて、音響イベント判定部112の前段でラベルなし音響特徴量列16−1,・・・,16−Sの合成処理を行っても良い。
<第2実施形態>
第2実施形態では、第1実施形態で説明したように得られた状況−音響イベント生成モデル13を用い、新たに入力された音響イベントラベル付き音響信号列から状況を推定する。
図5に例示するように、本形態の状況推定装置200は、記憶部103及び生成モデル比較部201を有する。状況推定装置200は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。
まず生成モデル比較部201に音響イベントラベル付き音響信号列21(「音響イベントを表す音響イベント情報を含む入力情報」に相当)が入力される。音響イベントラベル付き音響信号列21は、短時間(数10msec〜数sec)ごとに区分された時系列の音響信号列、短時間ごとに区分された音響信号列の各要素に対応する要素番号、及び短時間ごとに決定されて付与された音響イベントラベル(「音響イベント情報」に相当)を含む。要素番号及び音響イベントラベルは、音響信号列の要素ごとに付与される。
生成モデル比較部201は、入力された音響イベントラベル付き音響信号列21と、記憶部103に格納された状況−音響イベント生成モデル13とを比較し、音響イベントラベル付き音響信号列21に対し、最も適切であると判断した状況、又は最も適切なものから順番に複数個の状況を決定し、それらを判定結果として出力する。
[比較方法の例1]
音響イベントラベル付き音響信号列21と状況−音響イベント生成モデル13との比較方法を例示する。この例では、まず生成モデル比較部201が、入力された音響イベントラベル付き音響信号列21から、以下のようにp(ε)(ただし、ε∈{1,・・・,E})を算出する。
Figure 0005818759

ただし、γは事前に設定された緩和パラメータ(例えば0.01などの非負値)を表し、Cεは、音響イベントラベル付き音響信号列21で音響イベントεを表す音響イベントラベルが付された要素の個数を表し、N’は音響イベントラベル付き音響信号列21が含む音響信号列の要素数を表す。N’=Nであってもよいし、N’≠Nであってもよい。
次に生成モデル比較部201は、p(ε)と状況−音響イベント生成モデル13を、下記に記すカルバックライブラー情報量(Kullback-Leibler divergence: KL divergence)やイェンセンシャノン情報量(Jensen-Shannon divergence: JS divergence)などの情報量基準に基づいて比較することで、入力された音響イベントラベル付き音響信号列21に対応する状況を推定する。
Figure 0005818759
式(15)又は(16)の例の場合、生成モデル比較部201は、P(ε)にp(ε)(ただし、ε∈{1,・・・,E})を代入し、Q(ε)に式(5)のφεt(ただし、ε∈{1,・・・,E),t∈{1,・・・,T})を代入する。これにより、生成モデル比較部201は、各状況t∈{1,・・・,T}に対応する情報量(合計T個の情報量)を得る。生成モデル比較部201は、各状況t∈{1,・・・,T}について算出された情報量のうち、最も小さな情報量に対応する状況、又は、最も小さな情報量から順番に選択した複数個の情報量に対応する複数個の状況を、音響イベントラベル付き音響信号列21に対応する状況として決定して出力する。
[比較方法の例2]
以下のように状況−音響イベント生成モデル13と音響イベントラベル付き音響信号列21との比較を行ってもよい。この手法では、生成モデル比較部201が、入力されたラベル付き音響信号列21に対し、状況−音響イベント生成モデル13のもとでの状況の尤度の和や積を求める。以下に具体例を示す。
≪状況−音響イベント生成モデル13のもとでの状況の尤度の和の例≫
Figure 0005818759
≪状況−音響イベント生成モデル13のもとでの状況の尤度の積の例≫
Figure 0005818759
ただし、式(19)(20)のeは、入力された音響イベントラベル付き音響信号列21の要素番号iに対応する音響イベントラベルが表す音響イベントを表す。式(19)(20)は、式(5)の確率φεtと、入力された音響イベントラベル付き音響信号列21のeとから算出できる。
生成モデル比較部201は、各状況について算出した尤度のうち、最も尤度の高い状況、又は、最も尤度の高いものから順番に選択した複数個の状況を、入力された音響イベントラベル付き音響信号列21に対応する状況として決定して出力する。
<第2実施形態の変形例1>
第2実施形態の変形例1では、第1実施形態で説明したように得られた状況−音響イベント生成モデル13を用い、新たに入力された音響信号列から状況を推定する。
図6に例示するように、本形態の状況推定装置210は、特徴量算出部211、音響イベント判定部212、音響イベントモデルDB113、記憶部103、生成モデル比較部201を有する。状況推定装置210は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。
まず特徴量算出部211にラベルなし音響信号列22が入力される。ラベルなし音響信号列22は、短時間(数10msec〜数sec)ごとに区分された時系列の音響信号列、及び短時間ごとに区分された音響信号列の各要素に対応する要素番号を含む。
特徴量算出部211は、ラベルなし音響信号列22から音響特徴量列(ベクトル)を算出して出力する。例えば特徴量算出部211は、第1実施形態で説明した特徴量算出部111と同じ方法で音響特徴量列を算出する。
音響イベント判定部212は、第1実施形態の音響イベント判定部112と同じ方法で、特徴量算出部211から出力された音響特徴量列と、音響イベントモデルDB113に記憶されている複数の音響イベントモデルとをそれぞれ比較し、ラベルなし音響信号列22の全ての要素について音響イベントを決定する。音響イベント判定部212は、決定した音響イベントを表す音響イベントラベルをラベルなし音響信号列22の各要素に付することで、音響イベントラベル付き音響信号列21を生成して出力する。
音響イベントラベル付き音響信号列21は、生成モデル比較部201に入力される。以降の処理は第2実施形態と同じである。
<第2実施形態の変形例2>
第2実施形態の変形例2では、第1実施形態で説明したように得られた状況−音響イベント生成モデル13を用い、新たに入力された音響特徴量列から状況を推定する。
図7に例示するように、本形態の状況推定装置220は、音響イベント判定部212、音響イベントモデルDB113、記憶部103、生成モデル比較部201を有する。状況推定装置220は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。
まず音響イベント判定部212にラベルなし音響特徴量列23が入力される。ラベルなし音響特徴量列23は、短時間(数10msec〜数sec)ごとに区分された時系列の音響信号列、短時間ごとに区分された音響信号列の各要素に対応する要素番号、及び音響信号列の音響特徴量列を含む。音響特徴量列の具体例は、第1実施形態で説明した通りである。
音響イベント判定部212は、第1実施形態の音響イベント判定部112と同じ方法で、ラベルなし音響特徴量列23の音響特徴量列と、音響イベントモデルDB113に記憶されている複数の音響イベントモデルとをそれぞれ比較し、ラベルなし音響特徴量列23が含む全ての要素について音響イベントを決定する。音響イベント判定部212は、決定した各要素の音響イベントを表す音響イベントラベルを、ラベルなし音響特徴量列23が含む音響信号列に付することで、音響イベントラベル付き音響信号列21を生成して出力する。
音響イベントラベル付き音響信号列21は、生成モデル比較部201に入力される。以降の処理は第2実施形態と同じである。
<第3実施形態>
本形態は第1実施形態と第2実施形態の組み合わせである。
本形態では、音響イベントラベル付き音響信号列21を入力として状況を推定することに加え、音響イベントラベル付き音響信号列11−1,・・・,11−Sを入力とし、音響信号−状況生成モデル12、及び状況−音響イベント生成モデル13の算出も行う。
図8に例示するように、本形態の状況推定装置300は、記憶部103,303、音響信号列合成部301、状況モデル化部102、及び生成モデル比較部201を有する。状況推定装置300は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。
記憶部303には、第1実施形態で説明した音響イベントラベル付き音響信号列11−1,・・・,11−S、及び第2実施形態で説明した音響イベントラベル付き音響信号列21が格納されている。
音響イベントラベル付き音響信号列11−1,・・・,11−S,21は音響信号列合成部301に入力される。音響信号列合成部301は、音響イベントラベル付き音響信号列11−1,・・・,11−S,21を時系列方向につなぎ合わせて一つの音響イベントラベル付き音響信号列を生成し、状況モデル化部102に送出する。状況モデル化部102は、第1実施形態で説明したように、入力された音響イベントラベル付き音響信号列から、音響信号−状況生成モデル12、及び状況−音響イベント生成モデル13を生成し、それらを記憶部103に格納する。
音響イベントラベル付き音響信号列21は生成モデル比較部201に入力される。音響イベントラベル付き音響信号列21は、第2実施形態で説明したように、入力された音響イベントラベル付き音響信号列21と、記憶部103に格納された状況−音響イベント生成モデル13とを比較し、音響イベントラベル付き音響信号列21に対し、最も適切であると判断した状況、又は最も適切なものから順番に複数個の状況を選択し、それらを判定結果として出力する。
また、生成モデル比較部201の処理及び状況モデル化部102の処理のどちらを先に行っても良い。ただし、状況モデル化部102の処理を行う前にモデル比較部201の処理を行う場合、記憶部103に予め得られた各生成モデルが格納されていることが必要である。
また、音響イベントラベル付き音響信号列21’が、新たに入力された音響イベントラベル付き音響信号列とともに音響信号列合成部301に入力されてもよい。この場合、音響信号列合成部301がこれらを時系列方向につなぎ合わせ、状況モデル化部102に送出してもよい。
その他の処理は第1実施形態及び第2実施形態と同様とする。
<第3実施形態の変形例1>
本形態は第1実施形態の変形例1と第2実施形態の変形例1の組み合わせである。
本形態では、ラベルなし音響信号列15−1,・・・,15−S,22を入力として、学習によって、音響信号−状況生成モデル12、及び状況−音響イベント生成モデル13を算出する。さらに本形態では、状況−音響イベント生成モデル13を用い、ラベルなし音響信号列22から状況を推定する。
図9に例示するように、本形態の状況推定装置310は、特徴量算出部111−1,・・・,111−S,211、音響イベント判定部112−1,・・・,112−S,212、音響イベントモデルDB113、及び第3実施形態の状況推定装置300(図8参照)を有する。
ラベルなし音響信号列15−1,・・・,15−Sは、それぞれ特徴量算出部111−1,・・・,111−Sに入力される。特徴量算出部111−1,・・・,111−Sは、第1実施形態の変形例1で説明したように、ラベルなし音響信号列15−1,・・・,15−Sから、それぞれ音響特徴量列を得て出力する。音響イベント判定部112−1,・・・,112−Sは、それぞれ、第1実施形態の変形例1の音響イベント判定部112と同様に、入力された音響特徴量列と音響イベントモデルDB113に記憶されている複数の音響イベントモデルとから、音響イベントラベル付き音響信号列11−1,・・・,11−S(「学習用情報」に相当)を生成して出力する。
ラベルなし音響信号列22は特徴量算出部211に入力される。特徴量算出部211は、第2実施形態の変形例1で説明したように、ラベルなし音響信号列22から音響特徴量列(ベクトル)を算出して出力する。音響イベント判定部212は、第2実施形態の変形例1で説明したように、入力された音響特徴量列と音響イベントモデルDB113に記憶されている複数の音響イベントモデルとから、音響イベントラベル付き音響信号列21(「入力情報」に相当)を生成して出力する。
音響イベントラベル付き音響信号列11−1,・・・,11−S、21は、記憶部303(図8)に格納される。以降の処理は第3実施形態と同じである。
<第3実施形態の変形例2>
本形態は第1実施形態の変形例2と第2実施形態の変形例2の組み合わせである。
本形態では、ラベルなし音響特徴量列16−1,・・・,16−S,23を入力として、学習によって、音響信号−状況生成モデル12、及び状況−音響イベント生成モデル13を算出する。さらに本形態では、音響信号−状況生成モデル12、及び状況−音響イベント生成モデル13を用い、ラベルなし音響特徴量列23から状況を推定する。
図10に例示するように、本形態の状況推定装置320は、音響イベント判定部112−1,・・・,112−S,212、音響イベントモデルDB113、及び第3実施形態の状況推定装置300(図8参照)を有する。
ラベルなし音響特徴量列16−1,・・・,16−Sは、それぞれ音響イベント判定部112−1,・・・,112−Sに入力される。音響イベント判定部112−1,・・・,112−Sは、それぞれ、第1実施形態の変形例2の音響イベント判定部112と同様に、入力された音響特徴量列と音響イベントモデルDB113に記憶されている複数の音響イベントモデルとから、音響イベントラベル付き音響信号列11−1,・・・,11−S(「学習用情報」に相当)を生成して出力する。
ラベルなし音響特徴量列23は音響イベント判定部212に入力される。音響イベント判定部212は、第2実施形態の変形例2と同様に、入力されたラベルなし音響特徴量列23の音響特徴量列と音響イベントモデルDB113に記憶されている複数の音響イベントモデルとから、音響イベントラベル付き音響信号列21(「入力情報」に相当)を生成して出力する。
音響イベントラベル付き音響信号列11−1,・・・,11−S、音響イベントラベル付き音響信号列21は、記憶部303(図8)に格納される。以降の処理は第3実施形態と同じである。
<第4実施形態>
本形態は第3実施形態の変形である。
本形態では、音響イベントラベル付き音響信号列11−1,・・・,11−S(「第1学習用情報」に相当)、及び音響イベントラベル付き音響信号列21(「第2学習用情報」に相当)を入力とし、音響信号−状況生成モデル12、及び状況−音響イベント生成モデル13を算出することに加え、音響イベントラベル付き音響信号列21に対応する状況を推定する。
図11に例示するように、本形態の状況推定装置400は、記憶部103、303、音響信号列合成部401、状況モデル化部402、及び生成モデル比較部403を有する。状況推定装置400は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。
音響信号列合成部401に、音響イベントラベル付き音響信号列11−1,・・・,11−S(「第1学習用情報」に相当)及び音響イベントラベル付き音響信号列21(「第2学習用情報」に相当)が入力される。音響信号列合成部401は、音響イベントラベル付き音響信号列11−1,・・・,11−S、音響イベントラベル付き音響信号列21を時系列方向につなぎ合わせ、それによって1つの音響イベントラベル付き音響信号列41(以下、単に「ラベル付き音響信号列41」という)を得て出力する。ラベル付き音響信号列41は、状況モデル化部402に入力される。なお、予め、音響イベントラベル付き音響信号列11−1,・・・,11−S,21からラベル付き音響信号列41が得られている場合には、音響信号列合成部401を経由することなく、ラベル付き音響信号列41がそのまま状況モデル化部402に入力されてもよい。
状況モデル化部402は、入力されたラベル付き音響信号列41を用い、第1実施形態の状況モデル化部102と同じ方法で、音響信号−状況生成モデル12、及び状況−音響イベント生成モデル13を算出する。音響信号−状況生成モデル12、及び状況−音響イベント生成モデル13は、記憶部103に格納される。
生成モデル比較部403には、音響イベントラベル付き音響信号列21が入力される。生成モデル比較部403は、第2実施形態の生成モデル比較部201と同様に、入力された音響イベントラベル付き音響信号列21と、記憶部103に格納された状況−音響イベント生成モデル13とを比較し、音響イベントラベル付き音響信号列21に対し、最も適切であると判断した状況、又は最も適切なものから順番に複数個の状況を決定し、それらを判定結果として出力する。
また、音響イベントラベル付き音響信号列21が、さらに新たに入力された音響イベントラベル付き音響信号列とともに音響信号列合成部401に入力されてもよい。音響信号列合成部401は、これらを時系列方向につなぎ合わせ、状況モデル化部402に送出してもよい。
その他の処理は第1実施形態、第2実施形態及び第3実施形態と同様とする。
<第4実施形態の変形例1>
本形態は第3実施形態の変形例1の変形である。
本形態では、ラベルなし音響信号列15−1,・・・,15−S,22を入力として、学習によって、音響信号−状況生成モデル12、及び状況−音響イベント生成モデル13を算出する。さらに本形態では、音響信号−状況生成モデル12、及び状況−音響イベント生成モデル13を用い、ラベルなし音響信号列22に対応する状況を推定する。
図9に例示するように、本形態の状況推定装置410は、特徴量算出部111−1,・・・,111−S,211、音響イベント判定部112−1,・・・,112−S,212、音響イベントモデルDB113、及び第4実施形態の状況推定装置400(図11参照)を有する。
ラベルなし音響信号列15−1,・・・,15−Sは、それぞれ特徴量算出部111−1,・・・,111−Sに入力される。特徴量算出部111−1,・・・,111−Sは、第1実施形態の変形例1で説明したように、ラベルなし音響信号列15−1,・・・,15−Sから、それぞれ音響特徴量列を得て出力する。音響イベント判定部112−1,・・・,112−Sは、それぞれ、第1実施形態の変形例1の音響イベント判定部112と同様に、入力された音響特徴量列と音響イベントモデルDB113に記憶されている複数の音響イベントモデルとから、音響イベントラベル付き音響信号列11−1,・・・,11−S(「第1学習用情報」に相当)を生成して出力する。
ラベルなし音響信号列22は特徴量算出部211に入力される。特徴量算出部211及び音響イベント判定部212は、第2実施形態の変形例1で説明したように、ラベルなし音響信号列22から音響特徴量列(ベクトル)を算出して出力する。音響イベント判定部212は、第2実施形態の変形例1で説明したように、入力された音響特徴量列と音響イベントモデルDB113に記憶されている複数の音響イベントモデルとから、音響イベントラベル付き音響信号列21(「第2学習用情報」に相当)を生成して出力する。
音響イベントラベル付き音響信号列11−1,・・・,11−S,21は、記憶部303(図11)に格納される。以降の処理は第4実施形態と同じである。
<第4実施形態の変形例2>
本形態は第3実施形態の変形例2の変形である。
本形態では、ラベルなし音響特徴量列16−1,・・・,16−S,23を入力として、学習によって、音響信号−状況生成モデル12、及び状況−音響イベント生成モデル13を算出する。さらに本形態では、音響信号−状況生成モデル12、及び状況−音響イベント生成モデル13を用い、ラベルなし音響特徴量列23に対応する状況を推定する。
図10に例示するように、本形態の状況推定装置420は、音響イベント判定部112−1,・・・,112−S,212、音響イベントモデルDB113、及び第4実施形態の状況推定装置400(図11参照)を有する。
ラベルなし音響特徴量列16−1,・・・,16−Sは、それぞれ音響イベント判定部112−1,・・・,112−Sに入力される。音響イベント判定部112−1,・・・,111−Sは、それぞれ、第1実施形態の変形例2の音響イベント判定部112と同様に、入力された音響特徴量列と音響イベントモデルDB113に記憶されている複数の音響イベントモデルとから、音響イベントラベル付き音響信号列11−1,・・・,11−S(「第1学習用情報」に相当)を生成して出力する。
ラベルなし音響特徴量列23は音響イベント判定部212に入力される。音響イベント判定部212は、第2実施形態の変形例2と同様に、入力されたラベルなし音響特徴量列23の音響特徴量列と音響イベントモデルDB113に記憶されている複数の音響イベントモデルとから、音響イベントラベル付き音響信号列21(「第2学習用情報」に相当)を生成して出力する。
音響イベントラベル付き音響信号列11−1,・・・,11−S,21は、記憶部303(図11)に格納される。以降の処理は第3実施形態と同じである。
<変形例等>
本発明は上述の各実施形態に限定されるものではない。例えば、状況生成モデル作成装置や状況推定装置の処理が複数の装置で分散処理されてもよいし、上記の各実施形態で記憶部やDBに格納された各データが複数の記憶部やDBに分散して格納されてもよい。例えば、音響信号−状況生成モデル12、及び状況−音響イベント生成モデル13が互いに異なる記憶部に格納されてもよい。また、音響信号列が時系列の順に入力され順次処理されるのであれば、短時間ごとに区分された音響信号列の各要素に対応する要素番号が、音響イベントラベル付き音響信号列に含まれなくてもよい。
上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。各部での処理の結果得られたデータは逐一メモリに格納され、必要に応じて読み出されて利用される。
処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。
上記実施形態では、コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されたが、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。
100,110,120 状況生成モデル作成装置
200,210,220,300,310,320,400,410,420 状況推定装置

Claims (11)

  1. 時系列の音響信号列の集合と、前記音響信号列に対応する音響イベントを表す音響イベント情報と、を含む学習用情報を用い、音響イベントによって規定される潜在的な場の状況が音響イベントを生成する確率P(音響イベント|状況)と、音響信号列が状況を生成する確率P(状況|音響信号列)とを得る状況モデル化部、を有する状況生成モデル作成装置。
  2. 請求項1の状況生成モデル作成装置であって、
    前記音響信号列から、音響特徴量を算出する特徴量算出部と、
    前記音響特徴量を用い、音響イベントを決定する音響イベント判定部と、を有し、
    前記学習用情報が含む音響イベント情報は、前記音響イベント判定部で決定された前記音響イベントを表す、
    ことを特徴とする状況生成モデル作成装置。
  3. 請求項1の状況生成モデル作成装置であって、
    前記音響信号列に対応する音響特徴量を用い、音響イベントを決定する音響イベント判定部を有し、
    前記学習用情報が含む音響イベント情報は、前記音響イベント判定部で決定された音響イベントを表す、
    ことを特徴とする状況生成モデル作成装置。
  4. 時系列の音響信号列の集合と、前記音響信号列に対応する音響イベントを表す音響イベント情報と、を含む学習用情報を用い、音響イベントによって規定される潜在的な場の状況が音響イベントを生成する確率P(音響イベント|状況)と、音響信号列が状況を生成する確率P(状況|音響信号列)とを得る状況モデル化部と、
    前記確率P(音響イベント|状況)に対応する状況−音響イベント生成モデルを用い、音響イベントを表す音響イベント情報を含む入力情報に対応する状況を推定する生成モデル比較部と、
    を有する状況推定装置。
  5. 請求項の状況推定装置であって、
    時系列の第1音響信号列から、第1音響特徴量を算出する第1特徴量算出部と、
    前記第1音響特徴量を用い、音響イベントを決定する第1音響イベント判定部と、
    時系列の第2音響信号列から、第2音響特徴量を算出する第2特徴量算出部と、
    前記第2音響特徴量を用い、音響イベントを決定する第2音響イベント判定部と、を有し、
    前記学習用情報が含む音響信号列は、前記第1音響信号列であり、
    前記学習用情報が含む音響イベント情報は、前記第1音響イベント判定部で決定された前記音響イベントを表し、
    前記入力情報が含む音響イベント情報は、前記第2音響イベント判定部で決定された前記音響イベントを表す、
    ことを特徴とする状況推定装置。
  6. 請求項の状況推定装置であって、
    第1音響特徴量を用い、音響イベントを決定する第1音響イベント判定部と、
    第2音響特徴量を用い、音響イベントを決定する第2音響イベント判定部を有し、
    前記学習用情報が含む音響信号列は、前記第1音響特徴量に対応し、
    前記学習用情報が含む音響イベント情報は、前記第1音響イベント判定部で決定された前記音響イベントを表し、
    前記入力情報が含む音響イベント情報は、前記第2音響イベント判定部で決定された前記音響イベントを表す、
    ことを特徴とする状況推定装置。
  7. 時系列の音響信号列の集合と、前記音響信号列に対応する音響イベントを表す音響イベント情報と、を含む第1,2学習用情報を用い、音響イベントによって規定される潜在的な場の状況が音響イベントを生成する確率P(音響イベント|状況)と、音響信号列が状況を生成する確率P(状況|音響信号列)とを得る、状況モデル化部と、
    前記確率P(音響イベント|状況)に対応する状況−音響イベント生成モデルを用い、前記第2学習用情報が含む音響イベント情報に対応する状況を推定する生成モデル比較部と、
    を有する状況推定装置。
  8. 請求項の状況推定装置であって、
    時系列の第1音響信号列から、第1音響特徴量を算出する第1特徴量算出部と、
    前記第1音響特徴量を用い、音響イベントを決定する第1音響イベント判定部と、
    時系列の第2音響信号列から、第2音響特徴量を算出する第2特徴量算出部と、
    前記第2音響特徴量を用い、音響イベントを決定する第2音響イベント判定部と、を有し、
    前記第1学習用情報が含む音響信号列は、前記第1音響信号列であり、
    前記第1学習用情報が含む音響イベント情報は、前記第1音響イベント判定部で決定された前記音響イベントを表し、
    前記第2学習用情報が含む音響信号列は、前記第2音響信号列であり、
    前記第2学習用情報が含む音響イベント情報は、前記第2音響イベント判定部で決定された前記音響イベントを表す、
    ことを特徴とする状況推定装置。
  9. 請求項の状況推定装置であって、
    第1音響特徴量を用い、音響イベントを決定する第1音響イベント判定部と、
    第2音響特徴量を用い、音響イベントを決定する第2音響イベント判定部と、を有し、
    前記第1学習用情報が含む音響信号列は、前記第1音響特徴量に対応し、
    前記第1学習用情報が含む音響イベント情報は、前記第1音響イベント判定部で決定された前記音響イベントを表し、
    前記第2学習用情報が含む音響信号列は、前記第2音響特徴量に対応し、
    前記第2学習用情報が含む音響イベント情報は、前記第2音響イベント判定部で決定された前記音響イベントを表す、
    ことを特徴とする状況推定装置。
  10. 請求項1から3の何れかの状況生成モデル作成装置としてコンピュータを機能させるためのプログラム。
  11. 請求項4から9の何れかの状況推定装置としてコンピュータを機能させるためのプログラム。
JP2012192225A 2012-08-31 2012-08-31 状況生成モデル作成装置、状況推定装置、およびプログラム Expired - Fee Related JP5818759B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012192225A JP5818759B2 (ja) 2012-08-31 2012-08-31 状況生成モデル作成装置、状況推定装置、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012192225A JP5818759B2 (ja) 2012-08-31 2012-08-31 状況生成モデル作成装置、状況推定装置、およびプログラム

Publications (2)

Publication Number Publication Date
JP2014048522A JP2014048522A (ja) 2014-03-17
JP5818759B2 true JP5818759B2 (ja) 2015-11-18

Family

ID=50608247

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012192225A Expired - Fee Related JP5818759B2 (ja) 2012-08-31 2012-08-31 状況生成モデル作成装置、状況推定装置、およびプログラム

Country Status (1)

Country Link
JP (1) JP5818759B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6078441B2 (ja) * 2013-07-03 2017-02-08 日本電信電話株式会社 モデル処理装置、分析装置、それらの方法およびプログラム
JP6316669B2 (ja) * 2014-06-13 2018-04-25 日本電信電話株式会社 状況モデル学習装置、その方法及びプログラム
JP6241790B2 (ja) * 2014-08-15 2017-12-06 日本電信電話株式会社 生成モデル作成装置、推定装置、それらの方法およびプログラム
JP2021139920A (ja) * 2018-05-31 2021-09-16 ソニーグループ株式会社 音声処理装置および音声処理方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1016985A3 (en) * 1998-12-30 2004-04-14 Xerox Corporation Method and system for topic based cross indexing of text and audio
TWI384423B (zh) * 2008-11-26 2013-02-01 Ind Tech Res Inst 以聲音事件為基礎之緊急通報方法與系統以及行為軌跡建立方法

Also Published As

Publication number Publication date
JP2014048522A (ja) 2014-03-17

Similar Documents

Publication Publication Date Title
Sigtia et al. A hybrid recurrent neural network for music transcription
JP6967197B2 (ja) 異常検出装置、異常検出方法及びプログラム
KR101217525B1 (ko) 비터비 디코더와 이를 이용한 음성 인식 방법
JP6553015B2 (ja) 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム
JP5818759B2 (ja) 状況生成モデル作成装置、状況推定装置、およびプログラム
JP4512848B2 (ja) 雑音抑圧装置及び音声認識システム
JP6392450B2 (ja) マッチング装置、判定装置、これらの方法、プログラム及び記録媒体
JP6499095B2 (ja) 信号処理方法、信号処理装置及び信号処理プログラム
JP5781040B2 (ja) 行動推定装置およびそのプログラム
JP2019008131A (ja) 話者判定装置、話者判定情報生成方法、プログラム
JP5783979B2 (ja) 生成モデル作成装置及び推定装置
JP6078441B2 (ja) モデル処理装置、分析装置、それらの方法およびプログラム
JP6241790B2 (ja) 生成モデル作成装置、推定装置、それらの方法およびプログラム
JP6216809B2 (ja) パラメータ調整システム、パラメータ調整方法、プログラム
JP5924968B2 (ja) 楽譜位置推定装置、及び楽譜位置推定方法
JP4950600B2 (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP2007017911A (ja) 音声認識装置及び音声認識プログラム
JP6093670B2 (ja) モデル処理装置、モデル処理方法、およびプログラム
JP2010054588A (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
Cipli et al. Multi-class acoustic event classification of hydrophone data
JP6114209B2 (ja) モデル処理装置、モデル処理方法、およびプログラム
JP6220694B2 (ja) モデル処理装置、その方法、およびプログラム
JP2020056918A (ja) 音データ学習システム、音データ学習方法および音データ学習装置
Wiśniewski et al. Improved approach to automatic detection of speech disorders based on the Hidden Markov Models approach
JP6139430B2 (ja) 信号処理装置、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140703

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150414

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150924

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150929

R150 Certificate of patent or registration of utility model

Ref document number: 5818759

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees