JP5781040B2 - 行動推定装置およびそのプログラム - Google Patents
行動推定装置およびそのプログラム Download PDFInfo
- Publication number
- JP5781040B2 JP5781040B2 JP2012192226A JP2012192226A JP5781040B2 JP 5781040 B2 JP5781040 B2 JP 5781040B2 JP 2012192226 A JP2012192226 A JP 2012192226A JP 2012192226 A JP2012192226 A JP 2012192226A JP 5781040 B2 JP5781040 B2 JP 5781040B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic
- acoustic event
- behavior
- action
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Stereophonic System (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
<用語の定義>
実施形態で用いる用語を定義する。
「行動」とは、人間、動物、装置などの主体が行う何らかの行動を意味する。「行動」の具体例は「料理」「掃除」などである。
「音響イベント」とは、行動に伴って発生する音の事象を意味する。「音響イベント」の具体例は、「包丁の音」「水が流れる音」「水音」「着火音」「火の音」「足音」「掃除機の排気音」などである。例えば、「包丁の音」「水が流れる音」等は、「料理」という行動に伴って発生する音響イベントである。
「XがYを生成する確率」とは、事象Xが起こるという条件のもとでの事象Yが起こる確率をいう。「XがYを生成する確率」は、「XのもとでのYの条件付き確率」や「XにおけるYの条件付き確率」とも表現できる。
第1実施形態では、学習用情報として音響イベントラベル及び行動ラベル付き音響信号を入力とし、学習によって、行動が音響イベントを生成する確率をP(音響イベント|行動)としたときの行動−音響イベント生成モデルを算出する。
行動モデル化部102は、ラベル付き音響信号列11から、行動が音響イベントを生成する確率P(音響イベント|行動)を算出し、それに対応する行動−音響イベント生成モデル14を得る。つまり本形態では、行動が音響イベントの生成確率を規定すると考え、この関係を生成モデルとして記述する。
ただし、Aは行動の種類の個数、Eは音響イベントの種類の個数、eはラベル付き音響信号列11に与えられた音響イベントの列(ベクトル)、Φは行動a(ただし、a∈{1,・・・,A})が音響イベントε(ただし、ε∈{1,・・・,E})を生成する確率P(ε|t)を(t,ε)要素とするA×E行列、Ωはラベル付き音響信号列11を構成する、ラベル付き音響信号列11−dに付与される行動の集合の列(ただし、各ラベル付き音響信号列11−dには複数個の行動が付与されてもよい)、e’dは各ラベル付き音響信号列11−dに与えられた音響イベントの列(Nd次元ベクトル:Ndはラベル付き音響信号列11−dに対応する音響イベントの個数)、adはラベル付き音響信号列11−dに付与され得る行動の集合、Dはラベル付き音響信号列11を構成するラベル付き音響信号列11−dの個数を表す。なお、Ωとadの関係は以下のように表される。
Ω=[a1,a2,…,ad,…,aD]
ただし、eiはラベル付き音響信号列11−dの要素番号iに対応する音響イベントラベルが表す音響イベント、Ndはラベル付き音響信号列11−dに対応する要素数(要素番号iの最大値)、xiはラベル付き音響信号列11−dの要素番号iに対応する行動ラベルが表す行動、Adはラベル付き音響信号列11−dの行動ラベルが表す行動の総数(行動の種類数)、φaは行動aが音響イベントε(ただし、ε∈{1,・・・,E})を生成する確率P(ε|a)をε番目の要素とするE次元ベクトル、φei,a(下付き添え字の「ei,a」は「ei,a」)は行動aが音響イベントeiを生成する確率P(ei|a)、βはφa及びφei,aが従うDirichlet分布の性質を決める超パラメータ(例えば0.01などの非負値をとる)、Uni(・|・)は一様分布を表す。ここで、P(xi=a|ad)は一様分布に従い、P(φa|β)はそれぞれβをパラメータとするDirichlet分布に従うと仮定する。W−1次(Wは2以上の整数)のDirichlet分布の確率密度関数は以下の通りである。
ただし、Γはガンマ関数を表す。
行動モデル化部102は、行動が音響イベントを生成する確率P(音響イベント|行動)を算出し、それに対応する行動−音響イベント生成モデル14を算出する。
以下に、ギブスサンプリングを用いた行動−音響イベント生成モデル14の算出方法を例示する。
ただし、Cεa EAは更新対象のラベル付き音響信号列で音響イベントεに行動aが割り当てられた回数を表す。なお、表記制約上の都合から「Cεa EA」と表記するが、本来は式(3)に示すように「Cεa EA」の「EA」は「εa」の上に表記される。また、x−iは要素番号i以外の要素番号に対応する行動からなる列、e−iは要素番号i以外の要素番号に対応する音響イベントからなる列を表す。
ただし、βnextは更新後のハイパパラメータβであり、ψ(z)はディガンマ関数を表す。また、ディガンマ関数は以下の式で表わされる、ガンマ関数Γ(z)の対数微分である。
ただし、Γ’(z)はガンマ関数Γ(z)の導関数である。
if β<δ then β=δ
等の処理を加えてもよい。
第1実施形態の変形例1では、行動ラベル付き音響信号列(「行動情報付き音響信号列」に相当)を入力として、学習によって、行動−音響イベント生成モデル14を算出する。以降、同一のものには同じ参照符号を付し、説明は繰り返さない。
ただし、kはフレームをK個の微小な時間区間(例えば1msec程度)に区分した場合の各時間区間に対応し、p ̄kはk番目の時間区間でのサンプルの大きさを表す指標の代表値又は平均値を表す。なお、「サンプルの大きさを表す指標」の例は、サンプルの振幅、サンプルの振幅の絶対値、サンプルの振幅の対数値、サンプルのエネルギー、サンプルのパワー、又はサンプルのパワーの対数値などである。「サンプル」は音響信号列の各音響信号を表す。また、Δp ̄kはp ̄kの変化率を表す。例えば、Δp− k=p− k−p− k−1である。Δp− k=p− k+1−p− kとしてもよい。また、最小二乗法等の近似手法を用いてk番目の時間区間におけるp− kを近似した直線を求め、その時間区間におけるその直線の傾きをΔp− kとしてもよい。また、k番目の時間区間を含む複数の時間区間におけるp ̄k-κ,・・・,p ̄k-1,p− k,p ̄k+1,...p ̄k-κ’の近時曲線を求め、そのk番目の時間区間に対応する点での傾き(微分値)をΔp− kとしてもよい。またχを任意の文字として、χの右肩の「−」は、χの上付きバーを意味する。また式(10)の分子における(p ̄n)2を(p ̄n)mとし、mを任意の値としても良い。
また、Nはフレームに含まれるサンプル数を表す1以上の整数、nはフレーム内の各サンプル点を表す1以上のN以下の整数、x(n)はサンプル点nでのサンプルの大きさを表す指標である。Rff(τ)はf(n)のラグτでの自己相関係数、max{・}は「・」の最大値を表す。ラグτは1以上N以下の整数である。Rff(τ)は、例えば以下のように定義される。
ただし、Lは一周期とみなすサンプル数、Mは時間周期性の度合を計算するための周期数を表す1以上の整数、p(・)はサンプルの大きさを表す指標を時間平滑化した値、p ̄はフレーム内でのサンプルの大きさを表す指標の平均値を表す。
ただし、yιは音響特徴量列(ベクトル)の要素、Jは正規分布の混合数、πjは混合係数、N(・)は正規分布の確率密度関数、μjは分布の平均、Σjは分布の分散である。
第1実施形態の変形例2では、行動ラベル付き音響特徴量列(「行動情報付き音響特徴量列」に相当)を入力として、学習によって、行動−音響イベント生成モデル14を算出する。
第2実施形態では、第1実施形態で説明したように得られた行動−音響イベント生成モデル14を用い、新たに入力された音響イベントラベル付き音響信号列から行動を推定する。
音響イベントラベル付き音響信号列21と各生成モデルとの比較方法を例示する。この例では、まず生成モデル比較部201が、入力された音響イベントラベル付き音響信号列21から、以下のようにp(ε)(ただし、ε∈{1,・・・,E})を算出する。
ただし、γは事前に設定された緩和パラメータ(例えば0.01などの非負値)を表し、Cεは、音響イベントラベル付き音響信号列21で音響イベントεを表す音響イベントラベルが付された要素の個数を表し、Nsは音響イベントラベル付き音響信号列21が含む音響信号列の要素数を表す。Ns=Ndであってもよいし、Ns≠Ndであってもよい。
以下のように各生成モデルと音響イベントラベル付き音響信号列21との比較を行ってもよい。この手法では、生成モデル比較部201が、入力されたラベル付き音響信号列21に対し、行動−音響イベント生成モデル14のもとでの行動の尤度の和や積を求める。以下に具体例を示す。
第2実施形態の変形例1では、第1実施形態で説明したように得られた行動−音響イベント生成モデル14を用い、新たに入力された音響信号列から行動を推定する。
第2実施形態の変形例2では、第1実施形態で説明したように得られた行動−音響イベント生成モデル14を用い、新たに入力された音響特徴量列から行動を推定する。
本形態は第1実施形態と第2実施形態の組み合わせである。
本形態では、音響イベントラベル付き音響信号列21を入力として行動を推定することに加え、音響イベントラベル及び行動ラベル付き音響信号列11−1,・・・,11−Dを入力とし、行動−音響イベント生成モデル14の算出も行う。さらに、推定された行動を表す行動ラベルを、音響イベントラベル付き音響信号列21が含む音響信号列の各要素に付与することで、音響イベントラベル及び行動ラベル付き音響信号列を得、それを生成モデルの更新に利用することもできる。
その他の処理は第1実施形態及び第2実施形態と同様とする。
本形態は第1実施形態の変形例1と第2実施形態の変形例1の組み合わせである。
本形態では、行動ラベル付き音響信号列15−1,・・・,15−Dを入力として、学習によって、行動−音響イベント生成モデル14を算出する。さらに本形態では、行動−音響イベント生成モデル14を用い、新たに入力されたラベルなし音響信号列22から行動を推定する。
本形態は第1実施形態の変形例2と第2実施形態の変形例2の組み合わせである。
本形態では、行動ラベル付き音響特徴量列16−1,・・・,16−Dを入力として、学習によって、行動−音響イベント生成モデル14を算出する。さらに本形態では、行動−音響イベント生成モデル14を用い、新たに入力されたラベルなし音響特徴量列23から行動を推定する。
本形態は第3実施形態の変形である。
本形態では、音響イベントラベル及び行動ラベル付き音響信号列11−1,・・・,11−D(「第1学習用情報」に相当)、及び音響イベントラベル付き音響信号列21(「第2学習用情報」に相当)を入力とし、行動−音響イベント生成モデル14を算出することに加え、音響イベントラベル付き音響信号列21に対応する行動を推定する。さらに、推定された行動を表す行動ラベルを、音響イベントラベル付き音響信号列21が含む音響信号列の各要素に付与することで、音響イベントラベル及び行動ラベル付き音響信号列を得、それを生成モデルの更新に利用することもできる。
生成モデル比較部403による比較は、例えば、第2実施形態で説明した情報量基準に基づいて行うことができる。例えば、式(15)又は(16)の情報量基準を用いる場合、生成モデル比較部403は、P(ε)に式(4)のφεaのうち未知の行動a’∈{1,・・・,A}に対応するφεa’(ただし、ε∈{1,・・・,E)}を代入し、Q(ε)に他の行動a’’≠a’(ただし、a’’∈{1,・・・,A})に対応するφεa’’(ただし、ε∈{1,・・・,E))を代入する。これにより、生成モデル比較部403は、他の行動a’’≠a’(ただし、a’’∈{1,・・・,A})に対応する情報量(合計A−1個の情報量)を得る。
その他の処理は第1実施形態、第2実施形態及び第3実施形態と同様とする。
本形態は第3実施形態の変形例1の変形である。
本形態では、行動ラベル付き音響信号列15−1,・・・,15−D及びラベルなし音響信号列22を入力として、学習によって、行動−音響イベント生成モデル14を算出する。さらに本形態では、行動−音響イベント生成モデル14を用い、ラベルなし音響信号列22に対応する行動を推定する。
本形態は第3実施形態の変形例2の変形である。
本形態では、行動ラベル付き音響特徴量列16−1,・・・,16−D及びラベルなし音響特徴量列23を入力として、学習によって、行動−音響イベント生成モデル14を算出する。さらに本形態では、行動−音響イベント生成モデル14を用い、ラベルなし音響特徴量列23に対応する行動を推定する。
本発明は上述の各実施形態に限定されるものではない。例えば、行動生成モデル作成装置や行動推定装置の処理が複数の装置で分散処理されてもよいし、上記の各実施形態で記憶部やDBに格納された各データが複数の記憶部やDBに分散して格納されてもよい。
200,210,220,300,310,320,400,410,420 行動推定装置
Claims (4)
- 行動の内容を表す行動情報と、前記行動に付随する音響イベントを表す音響イベント情報と、を含む第1学習用情報と、未知の行動に付随する音響イベントを表す音響イベント情報を含む第2学習用情報とを用い、行動が音響イベントを生成する確率P(音響イベント|行動)と、前記未知の行動が音響イベントを生成する確率P(音響イベント|未知の行動)とを得る、行動モデル化部と、
前記確率P(音響イベント|行動)と、前記確率P(音響イベント|未知の行動)とを比較し、前記未知の行動の内容を推定する生成モデル比較部と、
を有する行動推定装置。 - 請求項1の行動推定装置であって、
前記行動情報が表す行動に付随する音を表す時系列の第1音響信号列から、第1音響特徴量を算出する第1特徴量算出部と、
前記第1音響特徴量を用い、音響イベントを決定する第1音響イベント判定部と、
時系列の第2音響信号列から、第2音響特徴量を算出する第2特徴量算出部と、
前記第2音響特徴量を用い、音響イベントを決定する第2音響イベント判定部と、を有し、
前記第1学習用情報が含む音響イベント情報は、前記第1音響イベント判定部で決定された前記音響イベントを表し、
前記第2学習用情報が含む音響イベント情報は、前記第2音響イベント判定部で決定された前記音響イベントを表す、
ことを特徴とする行動推定装置。 - 請求項1の行動推定装置であって、
前記行動情報が表す行動に付随する音を表す時系列の音響信号列に対応する第1音響特徴量を用い、音響イベントを決定する第1音響イベント判定部と、
第2音響特徴量を用い、音響イベントを決定する第2音響イベント判定部と、を有し、
前記第1学習用情報が含む音響イベント情報は、前記第1音響イベント判定部で決定された前記音響イベントを表し、
前記第2学習用情報が含む音響イベント情報は、前記第2音響イベント判定部で決定された前記音響イベントを表す、
ことを特徴とする行動推定装置。 - 請求項1から3の何れかの行動推定装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012192226A JP5781040B2 (ja) | 2012-08-31 | 2012-08-31 | 行動推定装置およびそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012192226A JP5781040B2 (ja) | 2012-08-31 | 2012-08-31 | 行動推定装置およびそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014048523A JP2014048523A (ja) | 2014-03-17 |
JP5781040B2 true JP5781040B2 (ja) | 2015-09-16 |
Family
ID=50608248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012192226A Expired - Fee Related JP5781040B2 (ja) | 2012-08-31 | 2012-08-31 | 行動推定装置およびそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5781040B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6078441B2 (ja) * | 2013-07-03 | 2017-02-08 | 日本電信電話株式会社 | モデル処理装置、分析装置、それらの方法およびプログラム |
JP6448477B2 (ja) * | 2015-06-19 | 2019-01-09 | 株式会社東芝 | 行動判定装置及び行動判定方法 |
WO2019220609A1 (ja) | 2018-05-18 | 2019-11-21 | 日本電気株式会社 | 異常検出装置、異常検出方法及びプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI384423B (zh) * | 2008-11-26 | 2013-02-01 | Ind Tech Res Inst | 以聲音事件為基礎之緊急通報方法與系統以及行為軌跡建立方法 |
JP2012047924A (ja) * | 2010-08-26 | 2012-03-08 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
-
2012
- 2012-08-31 JP JP2012192226A patent/JP5781040B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2014048523A (ja) | 2014-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6933264B2 (ja) | ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体 | |
Sigtia et al. | A hybrid recurrent neural network for music transcription | |
KR20170030923A (ko) | 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법 | |
KR101217525B1 (ko) | 비터비 디코더와 이를 이용한 음성 인식 방법 | |
JP6553015B2 (ja) | 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム | |
JP5818759B2 (ja) | 状況生成モデル作成装置、状況推定装置、およびプログラム | |
JP6499095B2 (ja) | 信号処理方法、信号処理装置及び信号処理プログラム | |
JP5781040B2 (ja) | 行動推定装置およびそのプログラム | |
JP2006201287A (ja) | 雑音抑圧装置及び音声認識システム | |
JP5783979B2 (ja) | 生成モデル作成装置及び推定装置 | |
Doulaty et al. | Automatic optimization of data perturbation distributions for multi-style training in speech recognition | |
JP6910002B2 (ja) | 対話行為推定方法、対話行為推定装置及びプログラム | |
JP6241790B2 (ja) | 生成モデル作成装置、推定装置、それらの方法およびプログラム | |
JP6078441B2 (ja) | モデル処理装置、分析装置、それらの方法およびプログラム | |
JP4950600B2 (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
JP3920749B2 (ja) | 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置 | |
JP4881357B2 (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
JP6158105B2 (ja) | 言語モデル作成装置、音声認識装置、その方法及びプログラム | |
Li et al. | Decision tree based state tying for speech recognition using DNN derived embeddings | |
JP6093670B2 (ja) | モデル処理装置、モデル処理方法、およびプログラム | |
Kim et al. | The use of discriminative belief tracking in pomdp-based dialogue systems | |
JP6114209B2 (ja) | モデル処理装置、モデル処理方法、およびプログラム | |
CN113921018A (zh) | 声纹识别模型训练方法和装置、声纹识别方法和装置 | |
JP2018132678A (ja) | ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体 | |
JP2020056918A (ja) | 音データ学習システム、音データ学習方法および音データ学習装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140703 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150210 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150305 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150707 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150714 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5781040 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |