JP5783979B2 - Generation model creation device and estimation device - Google Patents

Generation model creation device and estimation device Download PDF

Info

Publication number
JP5783979B2
JP5783979B2 JP2012192224A JP2012192224A JP5783979B2 JP 5783979 B2 JP5783979 B2 JP 5783979B2 JP 2012192224 A JP2012192224 A JP 2012192224A JP 2012192224 A JP2012192224 A JP 2012192224A JP 5783979 B2 JP5783979 B2 JP 5783979B2
Authority
JP
Japan
Prior art keywords
acoustic
acoustic event
behavior
action
situation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012192224A
Other languages
Japanese (ja)
Other versions
JP2014048521A (en
Inventor
桂右 井本
桂右 井本
島内 末廣
末廣 島内
仲 大室
仲 大室
羽田 陽一
陽一 羽田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012192224A priority Critical patent/JP5783979B2/en
Publication of JP2014048521A publication Critical patent/JP2014048521A/en
Application granted granted Critical
Publication of JP5783979B2 publication Critical patent/JP5783979B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Stereophonic System (AREA)

Description

この発明は、行動情報及び音響イベント情報を利用して生成モデルを作成する技術、及び、作成された生成モデルを利用して行動や状況を推定する技術に関する。   The present invention relates to a technique for creating a generation model using action information and acoustic event information, and a technique for estimating an action and a situation using the generated generation model.

非特許文献1に開示された従来技術では、行動(例えば、人が料理をしている行動等)を表す音響信号に対して、短時間(20msec〜100msec程度)ごとにその短時間音響信号が何の音(足音,水が流れる音;以後、音響イベントとする)であるかを示すラベルが付与された、音響イベントラベル付き音響信号列または音響イベントラベル列を入力とし、連続する有限個のフレーム分の音響イベントラベルを用いて音響イベントラベルごとのヒストグラムを作成する。また、生成された音響イベントラベルごとのヒストグラムに対してGMM(Gaussian Mixture Model)、HMM(Hidden Markov Model)、SVM(Support Vector Machine)等のモデル化手法を用い、行動モデルを生成する。   In the prior art disclosed in Non-Patent Document 1, an acoustic signal representing an action (for example, an action where a person is cooking) is transmitted for each short time (about 20 to 100 msec). An acoustic signal sequence with an acoustic event label or an acoustic event label sequence with a label indicating what sound (footstep, water flowing sound; hereinafter referred to as an acoustic event) is input, and a finite number of consecutive A histogram for each acoustic event label is created using the acoustic event labels for the frames. In addition, a behavior model is generated using a modeling technique such as GMM (Gaussian Mixture Model), HMM (Hidden Markov Model), or SVM (Support Vector Machine) for the generated histogram for each acoustic event label.

さらに、上記行動モデルと新たに入力されたラベル付き音響信号列から算出された音響イベントのヒストグラムをそれぞれ比較し(例えば、ユークリッド距離やコサイン距離などを用いて比較する)、複数の行動モデルのうち、最も判断基準に適合しているものをその音響信号列に対応する行動を表すと判定する。このように、従来技術では音響信号列から行動を推定することができる。   Furthermore, the behavior model and the histogram of the acoustic event calculated from the newly input labeled acoustic signal sequence are respectively compared (for example, comparison is performed using Euclidean distance, cosine distance, etc.), and among the plurality of behavior models Then, it is determined that the one that is most suitable for the judgment criterion represents the action corresponding to the acoustic signal sequence. As described above, in the prior art, the behavior can be estimated from the acoustic signal sequence.

井本他,「複数の生活音の出現頻度に基づくユーザ行動の識別手法とコミュニケーションへの応用」,画像電子学会第32回VMA研究会Imoto et al., “User Action Identification Based on Frequency of Multiple Living Sounds and its Application to Communication”, The 32nd VMA Research Meeting of the Institute of Image Electronics Engineers of Japan

従来技術では、モデル算出に利用するデータが表す音響イベントの発生頻度そのものを直接モデル化している。このような方法では、他の音響イベントの発生頻度を適切にモデル化できない。このような方法で生成された行動モデルは、モデル算出に利用したデータに過剰にフィッティングしてしまう。そのため、従来技術によって算出された行動モデルを用いて行動識別を行う際、モデル算出に利用するデータから、わずかに異なるデータが入力されただけでも、類似度が非常に低い行動と判定されてしまう。しかしながら、行動モデルを算出する際に利用したデータと、推定時に入力されるデータがほぼ同一であることは稀である。よって、従来技術の行動モデルの利用は、行動推定精度の劣化につながる。   In the prior art, the occurrence frequency itself of the acoustic event represented by the data used for model calculation is directly modeled. Such a method cannot appropriately model the frequency of occurrence of other acoustic events. The behavior model generated by such a method is excessively fitted to the data used for model calculation. Therefore, when performing behavior identification using a behavior model calculated by the conventional technology, even if slightly different data is input from data used for model calculation, it is determined that the behavior is very low in similarity. . However, it is rare that the data used when calculating the behavior model and the data input at the time of estimation are almost the same. Therefore, the use of the behavior model of the prior art leads to degradation of behavior estimation accuracy.

本発明では、生成されたモデルがモデル算出に利用されたデータに過剰にフィッティングすることなく、新たなデータに対して精度のよい推定を行うことを可能にする技術を提供する。   The present invention provides a technique that makes it possible to accurately estimate new data without excessively fitting a generated model to data used for model calculation.

本発明では、行動の内容を表す行動情報と、行動に付随する音響イベントを表す音響イベント情報と、を含む学習用情報を用い、音響イベントによって規定される潜在的な場の状況が音響イベントを生成する確率P(音響イベント|状況)と、行動が状況を生成する確率P(状況|行動)とを得て生成モデルを生成する。   In the present invention, learning information including behavior information representing the content of the behavior and acoustic event information representing the acoustic event associated with the behavior is used, and the situation of the potential field defined by the acoustic event is the acoustic event. The generation model is generated by obtaining the probability P (acoustic event | situation) to be generated and the probability P (situation | action) that the action generates the situation.

本発明では、音響イベントの発生頻度そのものを直接モデル化するのではなく、生成モデルの生成過程を、確率P(音響イベント|状況)及び確率P(状況|行動)によって確率的に取り扱う。これにより、生成モデルがそのモデル算出に利用されたデータに過剰にフィッティングすることを抑制でき、新たなデータに対して精度のよい推定を行うことが可能となる。   In the present invention, the generation frequency of the acoustic event itself is not directly modeled, but the generation process of the generation model is stochastically handled by the probability P (acoustic event | situation) and the probability P (situation | action). Thereby, it is possible to prevent the generated model from being excessively fitted to the data used for the model calculation, and it is possible to perform accurate estimation for new data.

第1実施形態の生成モデル作成装置のブロック図。The block diagram of the production | generation model creation apparatus of 1st Embodiment. 音響イベントラベル及び行動ラベル付き音響信号列を例示した図。The figure which illustrated the acoustic signal sequence with an acoustic event label and an action label. 第1実施形態の変形例1の生成モデル作成装置のブロック図。The block diagram of the production | generation model creation apparatus of the modification 1 of 1st Embodiment. 第1実施形態の変形例2の生成モデル作成装置のブロック図。The block diagram of the production | generation model creation apparatus of the modification 2 of 1st Embodiment. 第2実施形態の推定装置のブロック図。The block diagram of the estimation apparatus of 2nd Embodiment. 第2実施形態の変形例1の推定装置のブロック図。The block diagram of the estimation apparatus of the modification 1 of 2nd Embodiment. 第2実施形態の変形例2の推定装置のブロック図。The block diagram of the estimation apparatus of the modification 2 of 2nd Embodiment. 第3実施形態の推定装置のブロック図。The block diagram of the estimation apparatus of 3rd Embodiment. 第3,4実施形態の変形例1の推定装置のブロック図。The block diagram of the estimation apparatus of the modification 1 of 3rd, 4th embodiment. 第3,4実施形態の変形例2の推定装置のブロック図。The block diagram of the estimation apparatus of the modification 2 of 3rd, 4th embodiment. 第4実施形態の推定装置のブロック図。The block diagram of the estimation apparatus of 4th Embodiment.

以下、図面を参照して本発明の実施形態を説明する。
<用語の定義>
実施形態で用いる用語を定義する。
「行動」とは、人間、動物、装置などの主体が行う何らかの行動を意味する。「行動」の具体例は「料理」「掃除」などである。
「音響イベント」とは、行動に伴って発生する音の事象を意味する。「音響イベント」の具体例は、「包丁の音」「水が流れる音」「水音」「着火音」「火の音」「足音」「掃除機の排気音」などである。例えば、「包丁の音」「水が流れる音」等は、「料理」という行動に伴って発生する音響イベントである。
「状況」とは、音響イベントによって規定される潜在的な場の状況を意味する。状況の生成確率は、その状況が起こる時間区間での行動に規定され、状況は、その状況が起こる時間区間での音響イベントの生成確率を規定する。すなわち、状況は、行動と、行動によって規定される生成確率とによって表現可能である。また、音響イベントは、状況と、状況によって規定される生成確率とによって表現可能である。
「XがYを生成する確率」とは、事象Xが起こるという条件のもとでの事象Yが起こる確率をいう。「XがYを生成する確率」は、「XのもとでのYの条件付き確率」や「XにおけるYの条件付き確率」とも表現できる。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
<Definition of terms>
Terms used in the embodiments are defined.
“Action” means any action performed by a subject such as a human being, an animal, or a device. Specific examples of “action” include “cooking” and “cleaning”.
An “acoustic event” means a sound event that occurs with an action. Specific examples of the “acoustic event” include “knife sound”, “water flowing sound”, “water sound”, “ignition sound”, “fire sound”, “foot sound”, and “vacuum exhaust sound”. For example, “knife sound”, “water flowing sound”, and the like are acoustic events that occur with the action of “cooking”.
“Situation” means a potential field situation defined by an acoustic event. The probability of situation generation is defined by the action in the time interval in which the situation occurs, and the situation defines the probability of acoustic event generation in the time interval in which the situation occurs. That is, the situation can be expressed by an action and a generation probability defined by the action. An acoustic event can be expressed by a situation and a generation probability defined by the situation.
“Probability that X generates Y” refers to the probability that event Y will occur under the condition that event X occurs. The “probability that X generates Y” can also be expressed as “the conditional probability of Y under X” or “the conditional probability of Y in X”.

<第1実施形態>
第1実施形態では、学習用情報として音響イベントラベル及び行動ラベル付き音響信号を入力とし、学習によって、行動が状況を生成する確率をP(状況|行動)としたときの行動−状況生成モデル、状況が音響イベントを生成する確率をP(音響イベント|状況)としたときの状況−音響イベント生成モデル、及び行動が音響イベントを生成する確率をP(音響イベント|行動)としたときの行動−音響イベント生成モデルを算出する。
<First Embodiment>
In the first embodiment, an acoustic event label and an acoustic signal with an action label are input as learning information, and an action-situation generation model when the probability that an action generates a situation by learning is P (situation | action), Situation when the probability that the situation generates an acoustic event is P (acoustic event | situation) -Sound event generation model, and the action when the probability that the action generates an acoustic event is P (acoustic event | action)- An acoustic event generation model is calculated.

図1に例示するように、本形態の生成モデル作成装置100は、音響信号列合成部101、行動/状況モデル化部102、及び記憶部103を有する。生成モデル作成装置100は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。   As illustrated in FIG. 1, the generation model creation apparatus 100 of this embodiment includes an acoustic signal sequence synthesis unit 101, a behavior / situation modeling unit 102, and a storage unit 103. The generation model creation apparatus 100 is configured by, for example, reading a predetermined program into a known or dedicated computer.

まず音響信号列合成部101に、音響イベントラベル及び行動ラベル付き音響信号列11−1,・・・,11−D(ただし、Dは1以上の整数)が入力される。図2に例示するように、音響イベントラベル及び行動ラベル付き音響信号列は、短時間(数10msec〜数sec)ごとに区分された時系列の音響信号列、短時間ごとに区分された音響信号列の各要素に対応する要素番号、短時間ごとに決定されて付与された音響イベントラベル(「音響イベント情報」に相当)、及び長時間(数sec以上)ごとに決定されて短時間ごとに付与された行動ラベル(「行動情報」に相当)を含む。音響信号列は行動に付随する音を表すデジタル信号列(例えば、5〜20秒程度のデジタル信号列)である。音響信号列は、例えば単一又は複数の行動がなされる環境での録音によって得られる。音響イベントラベルは、行動に付随する音響イベントを表すラベルである。行動ラベルは、行動の内容を表すラベルである。要素番号、音響イベントラベル及び行動ラベルは、音響信号列の要素ごとに付与される。1つの音響信号列に複数種類の行動ラベルが対応してもよい。また、1つの要素番号に複数種類の行動ラベルが対応してもよい。   First, acoustic signal strings 11-1,..., 11-D (where D is an integer equal to or greater than 1) are input to the acoustic signal string synthesis unit 101. As illustrated in FIG. 2, the acoustic event label and the acoustic signal sequence with the action label are a time-series acoustic signal sequence divided every short time (several tens of milliseconds to several seconds), and an acoustic signal divided every short time. Element number corresponding to each element in the column, acoustic event label determined and assigned every short time (corresponding to "acoustic event information"), and determined every long time (several seconds or more) and every short time The given action label (corresponding to “behavior information”) is included. The acoustic signal sequence is a digital signal sequence (for example, a digital signal sequence of about 5 to 20 seconds) representing a sound accompanying the action. The acoustic signal sequence is obtained, for example, by recording in an environment where a single action or a plurality of actions are performed. The acoustic event label is a label that represents an acoustic event associated with the action. The action label is a label representing the content of the action. The element number, the acoustic event label, and the action label are given for each element of the acoustic signal sequence. A plurality of types of action labels may correspond to one acoustic signal sequence. A plurality of types of action labels may correspond to one element number.

複数個の音響イベントラベル及び行動ラベル付き音響信号列11−1,・・・,11−D(以下、単に「ラベル付き音響信号列11−1,・・・,11−D」という)が音響信号列合成部101に入力された場合、音響信号列合成部101は、それらを時系列方向につなぎ合わせ、それによって1つの音響イベントラベル及び行動ラベル付き音響信号列11(以下、単に「ラベル付き音響信号列11」という)を得て出力する(合成処理)。音響信号列合成部101に1つの音響信号列11−1のみが入力された場合、音響信号列合成部101はそれをラベル付き音響信号列11として出力する。音響信号列合成部101から出力された音響イベントラベル及び行動ラベル付き音響信号列は、行動/状況モデル化部102に入力される。なお、音響信号列合成部101を経由することなく、1つラベル付き音響信号列11がそのまま行動/状況モデル化部102に入力されてもよい。   A plurality of acoustic event labels and action-labeled acoustic signal sequences 11-1,..., 11-D (hereinafter simply referred to as “labeled acoustic signal sequences 11-1,..., 11-D”) are acoustic. When input to the signal sequence synthesizing unit 101, the acoustic signal sequence synthesizing unit 101 joins them in a time-series direction, whereby one acoustic event label and an action-labeled acoustic signal sequence 11 (hereinafter simply referred to as “labeled”). And obtain and output (synthetic processing). When only one acoustic signal sequence 11-1 is input to the acoustic signal sequence synthesis unit 101, the acoustic signal sequence synthesis unit 101 outputs it as a labeled acoustic signal sequence 11. The acoustic event label and the behavior-labeled acoustic signal sequence output from the acoustic signal sequence synthesis unit 101 are input to the behavior / situation modeling unit 102. Note that one labeled acoustic signal sequence 11 may be directly input to the behavior / situation modeling unit 102 without going through the acoustic signal sequence synthesis unit 101.

行動/状況モデル化部102は、以下の手順に従って、入力されたラベル付き音響信号列11から、行動−状況生成モデル12、状況−音響イベント生成モデル13、及び行動−音響イベント生成モデル14を生成し、それらを記憶部103に格納する。   The behavior / situation modeling unit 102 generates a behavior-situation generation model 12, a situation-acoustic event generation model 13, and a behavior-acoustic event generation model 14 from the input labeled acoustic signal sequence 11 according to the following procedure. These are stored in the storage unit 103.

[行動から音響イベントが生成される過程の論理的説明]
行動/状況モデル化部102は、ラベル付き音響信号列11から、行動が状況を生成する確率P(状況|行動)と、状況が音響イベントを生成する確率P(音響イベント|状況)と、行動が音響イベントを生成する確率P(音響イベント|行動)とを算出する。行動/状況モデル化部102は、確率P(状況|行動)としたときの行動−状況生成モデル12と、確率P(音響イベント|状況)としたときの状況−音響イベント生成モデル13と、確率P(音響イベント|行動)としたときの行動−音響イベント生成モデル14とを生成する。つまり本形態では、行動が状況の生成確率を規定し、状況が音響イベントの生成確率を規定すると考え(つまり、間接的に行動が音響イベントの生成確率を規定するとも考えられる)、これらの関係を各生成モデルとして記述する。
[Logical explanation of the process by which acoustic events are generated from actions]
The behavior / situation modeling unit 102, from the labeled acoustic signal sequence 11, the probability P (situation | action) that the behavior generates a situation, the probability P (acoustic event | situation) that the situation generates an acoustic event, and the behavior Calculates a probability P (acoustic event | action) of generating an acoustic event. The behavior / situation modeling unit 102 includes a behavior-situation generation model 12 when the probability P (situation | action) is assumed, a situation-acoustic event generation model 13 when the probability P (acoustic event | situation) is assumed, and a probability. A behavior-acoustic event generation model 14 when P (acoustic event | action) is set is generated. In other words, in this form, it is considered that the behavior prescribes the probability of generating a situation, and the situation prescribes the probability of generating an acoustic event (that is, the action indirectly prescribes the probability of generating an acoustic event). Is described as each generation model.

生成確率Θ、生成確率Φ、行動の列Ωが与えられた場合における、音響イベントの列eの生成確率P(e|Θ,Φ,Ω)は以下の通りである。

Figure 0005783979

ただし、Aは行動の種類の個数、Tは状況の種類の個数、Eは音響イベントの種類の個数、eはラベル付き音響信号列11に与えられた音響イベントの列(ベクトル)、Θは行動a(ただし、a∈{1,・・・,A})が状況t(ただし、t∈{1,・・・,T})を生成する確率P(t|a)を(a,t)要素とするA×T行列、Φは状況t(ただし、t∈{1,・・・,T})が音響イベントε(ただし、ε∈{1,・・・,E})を生成する確率P(ε|t)を(t,ε)要素とするT×E行列、Ωはラベル付き音響信号列11を構成する、ラベル付き音響信号列11−dに付与される行動の集合の列(ただし、各ラベル付き音響信号列11−dには複数個の行動が付与されてもよい)、e’は各ラベル付き音響信号列11−dに与えられた音響イベントの列(N次元ベクトル:Nはラベル付き音響信号列11−dに対応する音響イベントの個数)、aはラベル付き音響信号列11−dに付与され得る行動の集合、Dはラベル付き音響信号列11を構成するラベル付き音響信号列11−dの個数を表す。なお、Ωとaの関係は以下のように表される。
Ω=[a,a,…,a,…,a] When the generation probability Θ, the generation probability Φ, and the action sequence Ω are given, the generation probability P (e | Θ, Φ, Ω) of the acoustic event sequence e is as follows.
Figure 0005783979

Where A is the number of types of actions, T is the number of types of situations, E is the number of types of acoustic events, e is the sequence (vector) of acoustic events given to the labeled acoustic signal sequence 11, and Θ is the behavior The probability P (t | a) that a (where a∈ {1,..., A}) generates the situation t (where t∈ {1,..., T}) is (a, t). A × T matrix as an element, Φ is the probability that situation t (where t∈ {1,..., T}) generates an acoustic event ε (where ∈∈ {1,..., E}) A T × E matrix having P (ε | t) as an element (t, ε), Ω is a sequence of action sets that are included in the labeled acoustic signal sequence 11-d and that constitutes the labeled acoustic signal sequence 11 ( However, a plurality of actions may be applied to each labeled acoustic signal sequence 11-d), e 'd is applied to each labeled acoustic signal sequence 11-d Column of the acoustic event (N d dimensional vector: N d is the number of acoustic event corresponding to the labeled acoustic signal sequence 11-d), a d is a set of actions that may be applied to the labeled acoustic signal sequence 11-d, D Represents the number of labeled acoustic signal sequences 11-d constituting the labeled acoustic signal sequence 11. The relationship between Ω and a d is expressed as follows.
Ω = [a 1 , a 2 , ..., a d , ..., a D ]

生成確率Θ、生成確率Φ、行動の集合の列Ωが与えられたときの、音響イベントの列e’の生成確率P(e’|Θ,Φ,Ω)は、以下の通りである。

Figure 0005783979

ただし、eはラベル付き音響信号列11−dの要素番号iに対応する音響イベントラベルが表す音響イベント、Nはラベル付き音響信号列11−dに対応する要素数(要素番号iの最大値)、zはラベル付き音響信号列11−dの要素番号iに対応する状況、xはラベル付き音響信号列11−dの要素番号iに対応する行動ラベルが表す行動、Aはラベル付き音響信号列11−dの行動ラベルが表す行動の総数(行動の種類数)、φは状況tが音響イベントε(ただし、ε∈{1,・・・,E})を生成する確率P(ε|t)をε番目の要素とするE次元ベクトル、θは行動aが状況t(ただし、t∈{1,・・・,T})を生成する確率P(t|a)をt番目の要素とするT次元ベクトル、φei,t(下付き添え字の「ei,t」は「e,t」)は状況tが音響イベントeを生成する確率P(e|t)、θtaは行動aが状況tを生成する確率P(t|a)、αはθ及びθtaが従うDirichlet分布の性質を決める超パラメータ(例えば0.01などの非負値をとる)、βはφ及びφei,tが従うDirichlet分布の性質を決める超パラメータ(例えば0.01などの非負値をとる)、Uni(・|・)は一様分布を表す。ここで、P(x=a|a)は一様分布に従い、P(φ|β)及びP(θ|α)はそれぞれβ,αをパラメータとするDirichlet分布に従うと仮定する。W−1次(Wは2以上の整数)のDirichlet分布の確率密度関数は以下の通りである。
Figure 0005783979

ただし、Γはガンマ関数を表す。 Given the generation probability Θ, the generation probability Φ, and the sequence Ω of action sets, the generation probability P (e ′ d | Θ, Φ, Ω) of the acoustic event sequence e ′ d is as follows: .
Figure 0005783979

However, e i is the acoustic event represented by the acoustic event label corresponding to the element number i of the labeled acoustic signal sequence 11-d, and N d is the number of elements corresponding to the labeled acoustic signal sequence 11-d (the maximum of the element number i) Value), z i is the situation corresponding to the element number i of the labeled acoustic signal sequence 11-d, x i is the behavior represented by the action label corresponding to the element number i of the labeled acoustic signal sequence 11-d, and Ad is The total number of actions represented by action labels in the labeled acoustic signal sequence 11-d (the number of kinds of actions), φ t is the situation t that generates an acoustic event ε (where εε {1,..., E}). An E-dimensional vector having probability P (ε | t) as the ε-th element, θ a is a probability P (t | a) that action a generates a situation t (where t∈ {1,..., T}). ) a T-dimensional vector having t-th element, phi ei, t (the subscript " i, t "is" e i, t ") probability P (e i the situation t is to generate an acoustic event e i is | t), θ ta the probability behavior a to generate a situation t P (t | a) , Α is a super parameter that determines the nature of the Dirichlet distribution according to θ a and θ ta (for example, takes a non-negative value such as 0.01), β is a super parameter that determines the nature of the Dirichlet distribution according to φ t and φ ei, t Uni (. |.) Represents a uniform distribution (for example, takes a non-negative value such as 0.01). Here, it is assumed that P (x i = a | a d ) follows a uniform distribution, and P (φ t | β) and P (θ a | α) follow a Dirichlet distribution with β and α as parameters, respectively. The probability density function of the W-1 order (W is an integer of 2 or more) Dirichlet distribution is as follows.
Figure 0005783979

Where Γ represents a gamma function.

[生成モデルの算出過程の説明]
行動/状況モデル化部102は、行動が状況を生成する確率P(状況|行動)、状況が音響イベントを生成する確率P(音響イベント|状況)、及び行動が音響イベントを生成する確率P(音響イベント|行動)を算出し、それぞれと対応する行動−状況生成モデル12、状況−音響イベント生成モデル13、及び行動−音響イベント生成モデル14を算出する。
[Description of generation model calculation process]
The behavior / situation modeling unit 102 includes a probability P (situation | action) that the behavior generates a situation, a probability P (acoustic event | situation) that the situation creates an acoustic event, and a probability P ( Sound event | action is calculated, and the action-situation generation model 12, the situation-acoustic event generation model 13, and the action-acoustic event generation model 14 corresponding to each are calculated.

行動/状況モデル化部102は、行動が状況を生成する確率及び状況が音響イベントを生成する確率のみを算出し、それぞれに対応する行動−状況生成モデル12及び状況−音響イベント生成モデル13のみを得てもよいし、行動が状況を生成する確率及び状況が音響イベントを生成する確率を用いて、行動が音響イベントを生成する確率のみを算出し、それに対応する行動−音響イベント生成モデル14のみを得てもよい。   The behavior / situation modeling unit 102 calculates only the probability that the behavior generates a situation and the probability that the situation generates an acoustic event, and obtains only the behavior-situation generation model 12 and the situation-acoustic event generation model 13 corresponding to each. Only the probability that an action generates an acoustic event is calculated using the probability that the action generates a situation and the probability that the situation generates an acoustic event, and only the corresponding action-acoustic event generation model 14 is calculated. You may get

行動−状況生成モデル12及び状況−音響イベント生成モデル13の算出には、マルコフ連鎖モンテカルロ法(MCMC法:Markov Chain Monte Carlo methods)や変分ベイズ法(VB法:Variational Bayes methods)などの手法を用いることができる。また、MCMC法には,M−Hアルゴリズムやギブスサンプリングなどの手法があるが、ここではギブスサンプリングによる生成モデルの算出手法について説明を行う。   For the calculation of the behavior-situation generation model 12 and the situation-acoustic event generation model 13, a Markov chain Monte Carlo method (MCMC method) or a variational Bayes method (VB method) is used. Can be used. The MCMC method includes methods such as an MH algorithm and Gibbs sampling. Here, a generation model calculation method based on Gibbs sampling will be described.

[生成モデルの算出方法の例示]
以下に、ギブスサンプリングを用いた行動−状況生成モデル12及び状況−音響イベント生成モデル13の算出方法を例示する。
[Example of generation model calculation method]
Below, the calculation method of the action-situation production | generation model 12 and the situation-acoustic event production | generation model 13 which used Gibbs sampling is illustrated.

(I)行動/状況モデル化部102は、ハイパパラメータα,βを決定する。ハイパパラメータα,βは、行動/状況モデル化部102が持つ記憶部にあらかじめ保存された値を用いても良いし、ランダムに決定しても良い。また、ハイパパラメータα,βは、行動/状況モデル化部102が持つ記憶部にあらかじめ保存された値やランダムに決定された値を初期値として、以下の手順により算出、更新してもよい。 (I) The behavior / situation modeling unit 102 determines the hyper parameters α and β. For the hyper parameters α and β, values stored in advance in the storage unit of the behavior / situation modeling unit 102 may be used, or may be determined at random. The hyperparameters α and β may be calculated and updated by the following procedure using values stored in advance in the storage unit of the behavior / situation modeling unit 102 or randomly determined values as initial values.

(II)行動/状況モデル化部102は、入力されたラベル付き音響信号列11が含む音響信号列の各要素に行動aと状況tを一様分布に従って割り当てる。ただし、行動aの割り当ては、各ラベル付き音響信号列11−dに与えられた行動aから一様分布に従って行う。或いは、行動/状況モデル化部102は、事前に行動/状況モデル化部102に設定されていた方法に従って、音響信号列の各要素に行動aと状況tを割り当ててもよい。 (II) The behavior / situation modeling unit 102 assigns behavior a and situation t to each element of the acoustic signal sequence included in the input labeled acoustic signal sequence 11 according to a uniform distribution. However, the allocation of actions a, performed in accordance with uniform distribution from the action a d given to each labeled acoustic signal sequence 11-d. Alternatively, the behavior / situation modeling unit 102 may assign the behavior a and the situation t to each element of the acoustic signal sequence according to the method set in the behavior / situation modeling unit 102 in advance.

さらにD≧2の場合、行動/状況モデル化部102は、ラベル付き音響信号列11が含む音響信号の各要素に対して要素番号iを付与しなおす。すなわち、ラベル付き音響信号列11が含むすべての要素に対して互いに異なる要素番号i(ただし、i∈{1,・・・,U})を付与する。ただし、Uはラベル付き音響信号列11に対応する要素の総数であり、U=N+・・・+Nを満たす。 Further, when D ≧ 2, the behavior / situation modeling unit 102 reassigns the element number i to each element of the acoustic signal included in the labeled acoustic signal sequence 11. That is, different element numbers i (where i∈ {1,..., U}) are assigned to all elements included in the labeled acoustic signal sequence 11. However, U is the total number of elements corresponding to the labeled acoustic signal 11 satisfies U = N 1 + ··· + N D.

行動/状況モデル化部102は、各要素に行動aと状況tが割り当てられ、要素番号iが付与しなおされた(D≧2の場合)音響信号列を、「更新対象のラベル付き音響信号列」の初期値とする。   The behaviour / situation modeling unit 102 assigns an action signal a and a condition t to each element and reassigns the element number i (when D ≧ 2), and obtains an “acoustic signal with a label to be updated”. The initial value of “column”.

(III)行動/状況モデル化部102は、更新対象のラベル付き音響信号列の全ての要素(要素番号i∈{1,・・・,N})について、以下の(III-1)及び(III-2)を規定の回数(正値、1〜1000回程度)、若しくは、所望の結果が得られるまで(例えば、割り当ての前後において、行動や状況の割り当て先の変化が一定の閾値(例えば30%)以下になるまでなど)繰り返す。 (III) The behavior / situation modeling unit 102 performs the following (III-1) and (III) for all elements (element numbers iε {1,..., N}) of the labeled acoustic signal sequence to be updated. III-2) for a specified number of times (positive value, about 1 to 1000 times), or until a desired result is obtained (for example, before and after the assignment, the change in the assignment destination of the action and the situation is a certain threshold (for example, Repeat until 30%) or less.

(III-1)行動/状況モデル化部102は、更新対象のラベル付き音響信号列について、要素番号iの音響イベントεに行動a及び状況tが割り当てられる確率分布を、全ての行動a及び状況tについて更新する。以下に、更新後の確率分布P(x=a,z=t|e=ε,z−i,x−i,e−i,Ω,α,β)を示す。

Figure 0005783979

ただし、Cεt ETは更新対象のラベル付き音響信号列で音響イベントεに状況tが割り当てられた回数を表し、Cta TAは更新対象のラベル付き音響信号列で状況tに行動aが割り当てられた回数を表す。なお、表記制約上の都合から「Cεt ET」「Cta TA」と表記するが、本来は式(3)に示すように「Cεt ET」の「ET」は「εt」の上に表記され、「Cta TA」の「TA」は「ta」の上に表記される。また、z−iは要素番号i以外の要素番号に対応する状況からなる列、x−iは要素番号i以外の要素番号に対応する行動からなる列、e−iは要素番号i以外の要素番号に対応する音響イベントからなる列を表す。 (III-1) The behavior / situation modeling unit 102 calculates a probability distribution in which the behavior a and the situation t are assigned to the acoustic event ε of the element number i for all the behavior a and the situation for the acoustic signal sequence to be updated. Update for t. The updated probability distribution P (x i = a, z i = t | e i = ε, z −i , x −i , e −i , Ω, α, β) is shown below.
Figure 0005783979

However, C εt ET represents the number of times the situation t is assigned to the acoustic event ε in the labeled acoustic signal sequence to be updated, and C ta TA is the action a assigned to the situation t in the labeled acoustic signal sequence to be updated. Represents the number of times In addition, “C εt ET ” and “C ta TA ” are written for convenience of notation, but originally “ ET ” of “C εt ET ” is written above “εt” as shown in Equation (3). “ TA ” of “C ta TA ” is written on “ta”. Also, z- i is a column composed of situations corresponding to element numbers other than element number i, x- i is a column composed of actions corresponding to element numbers other than element number i, and e- i is an element other than element number i. Represents a sequence of acoustic events corresponding to a number.

(III-2)行動/状況モデル化部102は、上記の更新式(3)で得られた確率分布P(x=a,z=t|e=ε,z−i,x−i,e−i,Ω,α,β)に従って、各要素番号iの要素に割り当てる行動及び状況をランダムにサンプリングする。行動/状況モデル化部102は、このようにサンプリングした行動及び状況を各要素番号iの要素に割り当て、更新対象のラベル付き音響信号列を更新する。 (III-2) The behavior / situation modeling unit 102 obtains the probability distribution P (x i = a, z i = t | e i = ε, z −i , x obtained by the above update formula (3). i , e −i , Ω, α, β), the behavior and the situation assigned to the element of each element number i are randomly sampled. The behavior / situation modeling unit 102 assigns the behavior and situation sampled in this way to the element of each element number i, and updates the labeled acoustic signal sequence to be updated.

(IV)行動/状況モデル化部102は、上記の(III-1)(III-2)の繰り返しによって最終的に得られたCεt ET及びCta TAを用い、以下を計算する。

Figure 0005783979
(IV) The behavior / situation modeling unit 102 calculates the following using C εt ET and C ta TA finally obtained by repeating (III-1) and (III-2) above.
Figure 0005783979

これによって行動/状況モデル化部102は、行動が状況を生成する確率θta(ただし、a∈{1,・・・,A},t∈{1,・・・,T})の集合及び状況が音響イベントを生成する確率φεt(ただし、t∈{1,・・・,T},ε∈{1,・・・,E})の集合を得、それぞれを行動−状況生成モデル12及び状況−音響イベント生成モデル13とする。例えば行動/状況モデル化部102は、確率θtaを(a,t)要素とするA×T行列を行動−状況生成モデル12とし、確率φεtを(t,ε)要素とするT×E行列を状況−音響イベント生成モデル13とする。 As a result, the behavior / situation modeling unit 102 sets a set of probabilities θ ta (where a∈ {1,..., A}, t∈ {1,..., T}) that the action generates a situation and A set of probabilities φ εt (where tε {1,..., T}, εε {1,..., E}) that the situation generates an acoustic event is obtained, and each is set as an action-situation generation model 12. And the situation-acoustic event generation model 13. For example, the behavior / situation modeling unit 102 uses the A × T matrix having the probability θ ta as the (a, t) element as the behavior-situation generation model 12 and T × E having the probability φ εt as the (t, ε) element. The matrix is a situation-acoustic event generation model 13.

或いは、行動/状況モデル化部102は、(III-1)の繰り返し処理時に、式(3)の算出過程で得られる確率θta及び確率φεtをそれぞれ1個以上サンプリングし、式(4)(5)に代えて、サンプリングされた確率θtaの平均値及び確率φεtの平均値を用い、行動−状況生成モデル12及び状況−音響イベント生成モデル13を得てもよい。 Alternatively, the behavior / situation modeling unit 102 samples one or more of the probability θ ta and the probability φ εt obtained in the calculation process of the equation (3) during the repetition process of (III-1), and the equation (4) Instead of (5), the behavior-situation generation model 12 and the situation-acoustic event generation model 13 may be obtained by using the average value of the sampled probabilities θ ta and the average value of the probability φ εt .

さらに行動/状況モデル化部102は、以下のように周辺化することで、行動a(ただし、a∈{1,・・・,A})が音響イベントε(ただし、ε∈{1,・・・,E})を生成する確率P(λεa|Θ,Φ,Ω)の集合を得、これらに対応する行動−音響イベント生成モデル14を得る。

Figure 0005783979

例えば行動/状況モデル化部102は、確率P(λεa|Θ,Φ,Ω)を(a,ε)要素とする、以下のようなA×E行列を行動−音響イベント生成モデル14とする。
Figure 0005783979
Further, the behavior / situation modeling unit 102 performs peripheral processing as follows, so that the behavior a (where a∈ {1,..., A}) is an acoustic event ε (where ∈∈ {1,. .. , E}) to obtain a set of probabilities P (λ εa | Θ, Φ, Ω), and obtain a behavior-acoustic event generation model 14 corresponding thereto.
Figure 0005783979

For example, the behavior / situation modeling unit 102 sets the following A × E matrix having the probability P (λ εa | Θ, Φ, Ω) as the (a, ε) element as the behavior-acoustic event generation model 14. .
Figure 0005783979

また行動/状況モデル化部102は、(III)に示す更新処理を1回行うごとに、以下に示す更新式を用いてハイパパラメータα,βを更新することも可能である。

Figure 0005783979

ただし、αnext,βnextは更新後のハイパパラメータα,βであり、ψ(z)はディガンマ関数を表す。また、ディガンマ関数は以下の式で表わされる、ガンマ関数Γ(z)の対数微分である。
Figure 0005783979

ただし、Γ’(z)はガンマ関数Γ(z)の導関数である。 The behavior / situation modeling unit 102 can also update the hyperparameters α and β using the following update formula each time the update process shown in (III) is performed once.
Figure 0005783979

Here, α next and β next are the updated hyperparameters α and β, and ψ (z) represents a digamma function. The digamma function is a logarithmic derivative of the gamma function Γ (z) expressed by the following equation.
Figure 0005783979

Where Γ ′ (z) is a derivative of the gamma function Γ (z).

また、α及びβの更新を行った結果、α及びβの値がある閾値δ(>0),δ(>0)を超える又は下回る場合に対して、
if α<δ then α=δ
if β<δ then β=δ
等の処理を加えてもよい。
In addition, as a result of updating α and β, when α and β values exceed or fall below a certain threshold δ 1 (> 0), δ 2 (> 0),
if α <δ 1 then α = δ 1
if β <δ 2 then β = δ 2
Such processing may be added.

<第1実施形態の変形例1>
第1実施形態の変形例1では、行動ラベル付き音響信号列(「行動情報付き音響信号列」に相当)を入力として、学習によって、行動−状況生成モデル12、状況−音響イベント生成モデル13、及び行動−音響イベント生成モデル14を算出する。また、第1実施形態と同様、行動が状況を生成する確率及び状況が音響イベントを生成する確率のみを算出し、それぞれに対応する行動−状況生成モデル12及び状況−音響イベント生成モデル13のみを算出してもよいし、行動が状況を生成する確率及び状況が音響イベントを生成する確率を用いて、行動が音響イベントを生成する確率を算出し、それに対応する行動−音響イベント生成モデル14のみを得てもよい。以降、同一のものには同じ参照符号を付し、説明は繰り返さない。
<Variation 1 of the first embodiment>
In the first modification of the first embodiment, an action-labeled acoustic signal sequence (corresponding to “acoustic signal sequence with behavior information”) is used as an input, and the behavior-situation generation model 12, the situation-acoustic event generation model 13, And the behavior-acoustic event generation model 14 is calculated. Similarly to the first embodiment, only the probability that an action generates a situation and the probability that the situation generates an acoustic event are calculated, and only the action-situation generation model 12 and the situation-acoustic event generation model 13 corresponding to each of them are calculated. The probability that an action generates an acoustic event is calculated using the probability that the action generates a situation and the probability that the situation generates an acoustic event, and only the corresponding action-acoustic event generation model 14 is calculated. You may get Hereinafter, the same reference numerals are given to the same components, and description thereof will not be repeated.

図3に例示するように、本形態の生成モデル作成装置110は、特徴量算出部111、音響イベント判定部112、音響イベントモデルデータベース(DB)113、音響信号列合成部101、行動/状況モデル化部102、及び記憶部103を有する。生成モデル作成装置110は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。   As illustrated in FIG. 3, the generation model creation device 110 of this embodiment includes a feature amount calculation unit 111, an acoustic event determination unit 112, an acoustic event model database (DB) 113, an acoustic signal sequence synthesis unit 101, an action / situation model. And a storage unit 103. The generation model creation device 110 is configured by, for example, reading a predetermined program into a known or dedicated computer.

まず特徴量算出部111に行動ラベル付き音響信号列15−1,・・・,15−Dが入力される。各行動ラベル付き音響信号列15−d(ただし、d∈{1,・・・,D})は、短時間(数10msec〜数sec)ごとに区分された時系列の音響信号列、短時間ごとに区分された音響信号列の各要素に対応する要素番号、及び長時間(数sec以上)ごとに決定されて短時間ごとに付与された行動ラベル(「行動情報」に相当)を含む。要素番号及び行動ラベルは、音響信号列の要素ごとに付与される。1つの音響信号列に複数種類の行動ラベルが対応してもよい。また、1つの要素番号に複数種類の行動ラベルが対応してもよい。   First, acoustic signal sequences 15-1,..., 15-D with action labels are input to the feature amount calculation unit 111. Each action-labeled acoustic signal sequence 15-d (where dε {1,..., D}) is a time-series acoustic signal sequence divided for each short time (several tens of milliseconds to several seconds). The element number corresponding to each element of the acoustic signal sequence divided every time, and the action label (corresponding to “behavior information”) determined every long time (several seconds or more) and given every short time are included. The element number and the action label are given for each element of the acoustic signal sequence. A plurality of types of action labels may correspond to one acoustic signal sequence. A plurality of types of action labels may correspond to one element number.

特徴量算出部111は、各行動ラベル付き音響信号列15−dが含む音響信号列(「行動情報が表す行動に付随する音を表す時系列の音響信号列」に相当)から、各行動ラベル付き音響信号列15−dに対応する音響特徴量列(ベクトル)を算出して出力する。例えば特徴量算出部111は、入力された行動ラベル付き音響信号15−dが含む音響信号列に対し、前述の短時間(数10msec〜数sec)からなるフレームごとに、音圧レベル、音響パワー、MFCC(Mel-Frequency Cepstrum Coefficient)特徴量、LPC(Linear Predictive Coding)特徴量などを算出し、これらを音響特徴量列として出力する。さらに立ち上がり特性、調波性、時間周期性など(例えば、非特許文献1参照)の音響特徴量が音響特徴量列に加えられてもよい。   The feature amount calculation unit 111 extracts each action label from the sound signal string included in each action label-attached sound signal string 15-d (corresponding to “a time-series sound signal string representing a sound associated with the action represented by the action information”). An acoustic feature quantity sequence (vector) corresponding to the attached acoustic signal sequence 15-d is calculated and output. For example, the feature amount calculation unit 111 performs the sound pressure level and the sound power for each frame of the above-described short time (several tens of milliseconds to several seconds) with respect to the acoustic signal sequence included in the input acoustic signal with action label 15-d. MFCC (Mel-Frequency Cepstrum Coefficient) feature quantity, LPC (Linear Predictive Coding) feature quantity, and the like are calculated and output as an acoustic feature quantity sequence. Furthermore, acoustic feature quantities such as rising characteristics, harmonicity, and time periodicity (see, for example, Non-Patent Document 1) may be added to the acoustic feature quantity sequence.

立ち上がり特性とは、数十から数百ミリ秒ごとにおける、音響信号の大きさを表す指標の増加の度合いを表す指標である。ここで、音響信号の大きさを表す指標とは、例えば、音響信号の振幅の絶対値、音響信号の振幅の絶対値の対数値、音響信号のパワー又は音響信号のパワーの対数値である。例えば、以下の式(10)で得られる値が0以上であればその値が立ち上がり特性とされ、式(10)で得られる値が0未満であれば0が立ち上がり特性とされる。

Figure 0005783979

ただし、kはフレームをK個の微小な時間区間(例えば1msec程度)に区分した場合の各時間区間に対応し、p ̄はk番目の時間区間でのサンプルの大きさを表す指標の代表値又は平均値を表す。なお、「サンプルの大きさを表す指標」の例は、サンプルの振幅、サンプルの振幅の絶対値、サンプルの振幅の対数値、サンプルのエネルギー、サンプルのパワー、又はサンプルのパワーの対数値などである。「サンプル」は音響信号列の各音響信号を表す。また、Δp ̄はp ̄の変化率を表す。例えば、Δp =p −p k−1である。Δp =p k+1−p としてもよい。また、最小二乗法等の近似手法を用いてk番目の時間区間におけるp を近似した直線を求め、その時間区間におけるその直線の傾きをΔp としてもよい。また、k番目の時間区間を含む複数の時間区間におけるp ̄k-κ,・・・,p ̄k-1,p ,p ̄k+1,...p ̄k-κ’の近時曲線を求め、そのk番目の時間区間に対応する点での傾き(微分値)をΔp としてもよい。またχを任意の文字として、χの右肩の「−」は、χの上付きバーを意味する。また式(10)の分子における(p ̄を(p ̄とし、mを任意の値としても良い。 The rising characteristic is an index representing the degree of increase in the index representing the magnitude of the acoustic signal every several tens to several hundreds of milliseconds. Here, the index representing the magnitude of the acoustic signal is, for example, an absolute value of the amplitude of the acoustic signal, a logarithmic value of the absolute value of the amplitude of the acoustic signal, a power of the acoustic signal, or a logarithmic value of the power of the acoustic signal. For example, if the value obtained by the following expression (10) is 0 or more, the value is the rising characteristic, and if the value obtained by the expression (10) is less than 0, 0 is the rising characteristic.
Figure 0005783979

Here, k corresponds to each time interval when the frame is divided into K minute time intervals (for example, about 1 msec), and p ̄ k is a representative index indicating the size of the sample in the kth time interval. Represents a value or average value. Examples of “index indicating sample size” are sample amplitude, absolute value of sample amplitude, logarithm of sample amplitude, sample energy, sample power, logarithm of sample power, etc. is there. “Sample” represents each acoustic signal in the acoustic signal sequence. In addition, Δp¯ k represents the rate of change of the p¯ k. For example, Δp - k = p - a k-1 - k -p. Δp - k = p - k + 1 -p - may be as k. Alternatively, an approximation method such as a least square method may be used to obtain a straight line that approximates p k in the k-th time interval, and the slope of the straight line in that time interval may be Δp k . Also, p のk-κ ,..., P ̄ k−1 , p k , p ̄ k + 1 ,... P ̄ k-κ ′ in a plurality of time intervals including the k-th time interval. A recent curve may be obtained, and a slope (differential value) at a point corresponding to the k-th time interval may be Δp k . Further, with χ as an arbitrary character, “−” on the right shoulder of χ means a superscript bar of χ. Further, (p ̄ n ) 2 in the numerator of formula (10) may be (p ̄ n ) m, and m may be an arbitrary value.

以下に調波性を例示する。

Figure 0005783979

また、Nはフレームに含まれるサンプル数を表す1以上の整数、nはフレーム内の各サンプル点を表す1以上のN以下の整数、x(n)はサンプル点nでのサンプルの大きさを表す指標である。Rff(τ)はf(n)のラグτでの自己相関係数、max{・}は「・」の最大値を表す。ラグτは1以上N以下の整数である。Rff(τ)は、例えば以下のように定義される。
Figure 0005783979
The harmonic characteristics are exemplified below.
Figure 0005783979

N is an integer of 1 or more representing the number of samples included in the frame, n is an integer of 1 or more and N or less representing each sample point in the frame, and x (n) is the size of the sample at the sample point n. It is an index to represent. R ff (τ) represents the autocorrelation coefficient at the lag τ of f (n), and max {·} represents the maximum value of “·”. The lag τ is an integer from 1 to N. R ff (τ) is defined as follows, for example.
Figure 0005783979

以下に時間周期性を例示する。

Figure 0005783979

ただし、Lは一周期とみなすサンプル数、Mは時間周期性の度合を計算するための周期数を表す1以上の整数、p(・)はサンプルの大きさを表す指標を時間平滑化した値、p ̄はフレーム内でのサンプルの大きさを表す指標の平均値を表す。 The time periodicity is exemplified below.
Figure 0005783979

Where L is the number of samples regarded as one period, M is an integer of 1 or more representing the number of periods for calculating the degree of time periodicity, and p (·) is a value obtained by time-smoothing an index representing the sample size. , P ̄ represents the average value of the index indicating the size of the sample in the frame.

音響イベントモデルDB113には、事前に算出された音響イベントモデルが複数保存されている。各音響イベントモデルは、音響イベントラベルが付された学習用の音響信号列から音響特徴量列を算出し、各音響イベントに対応する音響特徴量列をGMM,HMM,SVM等の周知のモデル化手法を用いてモデル化することで得られる(例えば参考文献:奥村学、高村大也、「言語処理のための機械学習入門」コロナ社)。   The acoustic event model DB 113 stores a plurality of acoustic event models calculated in advance. Each acoustic event model calculates an acoustic feature amount sequence from a learning acoustic signal sequence to which an acoustic event label is attached, and converts the acoustic feature amount sequence corresponding to each acoustic event into a well-known model such as GMM, HMM, or SVM. It is obtained by modeling using a technique (for example, reference: Manabu Okumura, Daiya Takamura, “Introduction to Machine Learning for Language Processing” Corona).

例えば、GMMの場合、音響イベントごとに音響特徴量の各種別に対応する音響イベントモデルが得られる。例えば、音響特徴量列がF種類(Fが1以上の整数)の音響特徴量yι(ただし、ι∈{1,・・・,F})からなる列y,・・・,yである場合、各音響イベントに対応する音響イベントモデルは、それぞれ、以下のような確率モデルp(yι)を要素とする列p(y),・・・,p(y)となる。

Figure 0005783979

ただし、yιは音響特徴量列(ベクトル)の要素、Jは正規分布の混合数、πは混合係数、N(・)は正規分布の確率密度関数、μは分布の平均、Σは分布の分散である。 For example, in the case of GMM, an acoustic event model corresponding to each type of acoustic feature is obtained for each acoustic event. For example, the sequence y 1 ,..., Y F of acoustic feature amounts y ι (where ι∈ {1,..., F}) of F types (F is an integer of 1 or more) is included. , The acoustic event model corresponding to each acoustic event is a sequence p (y 1 ),..., P (y F ) whose elements are the following probability models p (y ι ), respectively. .
Figure 0005783979

Where y ι is an element of the acoustic feature string (vector), J is the number of normal distributions, π j is the mixing coefficient, N (•) is the probability density function of the normal distribution, μ j is the average of the distribution, and Σ j Is the distribution of the distribution.

或いは、音響イベントごとに音響特徴量列が対応付けられたものが音響イベントモデルとされてもよい。   Alternatively, an acoustic event model may be obtained by associating an acoustic feature quantity sequence with each acoustic event.

特徴量算出部111から出力された音響特徴量列は音響イベント判定部112に入力される。音響イベント判定部112は、入力された音響特徴量列と、音響イベントモデルDB113に記憶されている複数の音響イベントモデルとをそれぞれ比較し、各フレーム(各要素番号iに対応)の音響特徴量列に対応する音響イベントを決定する。例えばGMMが音響イベントモデルとして用いられる場合、音響イベント判定部112は、フレーム(要素番号i)ごとに、入力された音響特徴量列の各要素ρι(ただし、ι∈{1,・・・,F})を各音響イベントに対応する式(13)の各確率モデルに代入し、各音響イベントに対応する確率p(ρ)×・・・×p(ρ)を最大にする音響イベントを決定する。或いは、例えば音響イベントごとに音響特徴量列が対応付けられた音響イベントモデルの場合、音響イベント判定部112は、フレーム(要素番号i)ごとに、入力された音響特徴量列との距離(ユークリッド距離やコサイン距離)が最も近い音響イベントモデルに対応する音響イベントを選択する。 The acoustic feature amount sequence output from the feature amount calculation unit 111 is input to the acoustic event determination unit 112. The acoustic event determination unit 112 compares the input acoustic feature quantity sequence with a plurality of acoustic event models stored in the acoustic event model DB 113, and the acoustic feature quantity of each frame (corresponding to each element number i). Determine the acoustic event corresponding to the column. For example, when the GMM is used as an acoustic event model, the acoustic event determination unit 112, for each frame (element number i), each element ρ ι (where ι∈ {1,... , F}) is substituted into each probability model of the equation (13) corresponding to each acoustic event, and the sound that maximizes the probability p (ρ 1 ) ×... × p (ρ F ) corresponding to each acoustic event. Determine the event. Alternatively, for example, in the case of an acoustic event model in which an acoustic feature string is associated with each acoustic event, the acoustic event determination unit 112 determines the distance (Euclidean) from the input acoustic feature string for each frame (element number i). The acoustic event corresponding to the acoustic event model with the closest distance or cosine distance) is selected.

音響イベント判定部112は、各要素番号iに対して決定した音響イベントを表す音響イベントラベルを、行動ラベル付き音響信号列15−dの各要素番号iの要素に付与する。音響イベント判定部112は、この処理を入力された行動ラベル付き音響信号列15−1,・・・,15−Dのすべての要素(すべての要素番号i)について行い、その結果得られる音響イベントラベル及び行動ラベル付き音響信号列11−1,・・・,11−Dを出力する。   The acoustic event determination unit 112 assigns an acoustic event label representing the acoustic event determined for each element number i to the element of each element number i of the action-labeled acoustic signal sequence 15-d. The acoustic event determination unit 112 performs this process on all elements (all element numbers i) of the acoustic signal sequences 15-1,. The acoustic signal trains 11-1,..., 11-D with labels and action labels are output.

音響イベントラベル及び行動ラベル付き音響信号列11−1,・・・,11−Dは、音響信号列合成部101に入力される。以降の処理は第1実施形態と同じである。   The acoustic signal labels 11-1,..., 11 -D with the acoustic event label and the action label are input to the acoustic signal string synthesis unit 101. The subsequent processing is the same as in the first embodiment.

なお、音響信号列合成部101で音響イベントラベル及び行動ラベル付き音響信号列11−1,・・・,11−Dの合成処理を行うことに代えて、特徴量算出部111の前段で行動ラベル付き音響信号列15−1,・・・,15−Dの合成処理を行っても良いし、音響イベント判定部112の前段で音響特徴量列の合成処理を行っても良い。   In addition, it replaces with performing the synthetic | combination process of the acoustic signal sequence 11-1, ..., 11-D with an acoustic event label and the action label in the acoustic signal sequence synthetic | combination part 101, and an action label in the front | former stage of the feature-value calculation part 111 is carried out. The attached acoustic signal sequences 15-1,..., 15-D may be combined, or the acoustic feature amount sequence may be combined before the acoustic event determination unit 112.

<第1実施形態の変形例2>
第1実施形態の変形例2では、行動ラベル付き音響特徴量列(「行動情報付き音響特徴量列」に相当)を入力として、学習によって、行動−状況生成モデル12、状況−音響イベント生成モデル13、行動−音響イベント生成モデル14を算出する。また、第1実施形態と同様、行動が状況を生成する確率及び状況が音響イベントを生成する確率のみを算出し、それぞれに対応する行動−状況生成モデル12及び状況−音響イベント生成モデル13のみを算出してもよいし、行動が状況を生成する確率及び状況が音響イベントを生成する確率を用いて、行動が音響イベントを生成する確率を算出し、それに対応する行動−音響イベント生成モデル14のみを算出してもよい。
<Modification 2 of the first embodiment>
In the second modification of the first embodiment, the behavior-situation generation model 12 and the situation-acoustic event generation model are learned by learning using an acoustic feature sequence with action labels (corresponding to “acoustic feature sequence with behavior information”) as an input. 13. The behavior-acoustic event generation model 14 is calculated. Similarly to the first embodiment, only the probability that an action generates a situation and the probability that the situation generates an acoustic event are calculated, and only the action-situation generation model 12 and the situation-acoustic event generation model 13 corresponding to each of them are calculated. The probability that an action generates an acoustic event is calculated using the probability that the action generates a situation and the probability that the situation generates an acoustic event, and only the corresponding action-acoustic event generation model 14 is calculated. May be calculated.

図4に例示するように、本形態の生成モデル作成装置120は、音響イベント判定部112、音響イベントモデルデータベース(DB)113、音響信号列合成部101、行動/状況モデル化部102、及び記憶部103を有する。生成モデル作成装置120は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。   As illustrated in FIG. 4, the generation model creation device 120 of this embodiment includes an acoustic event determination unit 112, an acoustic event model database (DB) 113, an acoustic signal sequence synthesis unit 101, a behavior / situation modeling unit 102, and a storage. Part 103. The generation model creation device 120 is configured by, for example, reading a predetermined program into a known or dedicated computer.

まず音響イベント判定部112に、行動ラベル付き音響特徴量列16−1,・・・,16−Dが入力される。各行動ラベル付き音響特徴量列16−d(ただし、d∈{1,・・・,D})は、短時間(数10msec〜数sec)ごとに区分された時系列の音響信号列、短時間ごとに区分された音響信号列の各要素に対応する要素番号、長時間(数sec以上)ごとに決定されて短時間ごとに付与された行動ラベル(「行動情報」に相当)、及び音響信号列の短時間ごとの音響特徴量列を含む。音響特徴量列の具体例は、第1実施形態で説明した通りである。   First, acoustic feature amount sequences 16-1,..., 16-D with action labels are input to the acoustic event determination unit 112. Each action-labeled acoustic feature sequence 16-d (where dε {1,..., D}) is a time-series acoustic signal sequence, short, divided every short time (several tens of milliseconds to several seconds). Element number corresponding to each element of the acoustic signal sequence divided by time, action label (corresponding to “behavior information”) determined every long time (several seconds or more) and given every short time, and sound An acoustic feature quantity sequence for each short time of the signal sequence is included. A specific example of the acoustic feature amount sequence is as described in the first embodiment.

音響イベント判定部112は、入力された行動ラベル付き音響特徴量列16−dの音響特徴量列と、音響イベントモデルDB113に記憶されている複数の音響イベントモデルを、第1実施形態の変形例1で説明したようにそれぞれ比較し、各フレーム(各要素番号iに対応)の音響特徴量列に対応する音響イベントを決定する。音響イベント判定部112は、各要素番号iに対して決定した音響イベントを表す音響イベントラベルを、行動ラベル付き音響特徴量列16−dの各要素番号iの要素に付与する。音響イベント判定部112は、この処理を行動ラベル付き音響特徴量列16−1,・・・,16−Dのすべての要素(すべての要素番号i)について行い、その結果得られる音響イベントラベル及び行動ラベル付き音響信号列11−1,・・・,11−Dを出力する。   The acoustic event determination unit 112 uses the input acoustic feature sequence 16-d acoustic feature sequence 16-d and a plurality of acoustic event models stored in the acoustic event model DB 113 as a modification of the first embodiment. As described in 1, each is compared, and an acoustic event corresponding to the acoustic feature amount sequence of each frame (corresponding to each element number i) is determined. The acoustic event determination unit 112 assigns an acoustic event label representing the acoustic event determined for each element number i to the element of each element number i in the acoustic feature quantity column 16-d with action label. The acoustic event determination unit 112 performs this process for all the elements (all element numbers i) of the acoustic feature quantity columns 16-1,..., 16-D with action labels, Acoustic signal sequences 11-1,..., 11-D with action labels are output.

音響イベントラベル及び行動ラベル付き音響信号列11−1,・・・,11−Dは、音響信号列合成部101に入力される。以降の処理は第1実施形態と同じである。   The acoustic signal labels 11-1,..., 11 -D with the acoustic event label and the action label are input to the acoustic signal string synthesis unit 101. The subsequent processing is the same as in the first embodiment.

なお、音響信号列合成部101で音響イベントラベル及び行動ラベル付き音響信号列11−1,・・・,11−Dの合成処理を行うことに代えて、音響イベント判定部112の前段で音響特徴量列の合成処理を行っても良い。   In addition, instead of performing the synthesis process of the acoustic signal sequence 11-1,..., 11-D with the acoustic event label and the action label in the acoustic signal sequence synthesizing unit 101, an acoustic feature is provided in the preceding stage of the acoustic event determining unit 112. You may perform the synthetic | combination process of a quantity sequence.

<第2実施形態>
第2実施形態では、第1実施形態で説明したように得られた行動−状況生成モデル12、状況−音響イベント生成モデル13、行動−音響イベント生成モデル14を用い、新たに入力された音響イベントラベル付き音響信号列から行動や状況を推定する。
Second Embodiment
In the second embodiment, an acoustic event newly input using the behavior-situation generation model 12, the situation-acoustic event generation model 13, and the behavior-acoustic event generation model 14 obtained as described in the first embodiment is used. The behavior and situation are estimated from the labeled acoustic signal sequence.

図5に例示するように、本形態の推定装置200は、記憶部103及び生成モデル比較部201を有する。推定装置200は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。   As illustrated in FIG. 5, the estimation apparatus 200 according to the present embodiment includes a storage unit 103 and a generated model comparison unit 201. The estimation device 200 is configured, for example, by reading a predetermined program into a known or dedicated computer.

まず生成モデル比較部201に音響イベントラベル付き音響信号列21(「音響イベントを表す音響イベント情報を含む入力情報」に相当)が入力される。音響イベントラベル付き音響信号列21は、短時間(数10msec〜数sec)ごとに区分された時系列の音響信号列、短時間ごとに区分された音響信号列の各要素に対応する要素番号、及び短時間ごとに決定されて付与された音響イベントラベル(「音響イベント情報」に相当)を含む。要素番号及び音響イベントラベルは、音響信号列の要素ごとに付与される。   First, an acoustic signal string 21 with an acoustic event label (corresponding to “input information including acoustic event information representing an acoustic event”) is input to the generation model comparison unit 201. The acoustic signal label with acoustic event label 21 is a time-series acoustic signal sequence divided every short time (several tens of milliseconds to several seconds), an element number corresponding to each element of the acoustic signal sequence divided every short time, And an acoustic event label determined and given every short time (corresponding to “acoustic event information”). The element number and the acoustic event label are given for each element of the acoustic signal string.

生成モデル比較部201は、入力された音響イベントラベル付き音響信号列21と、記憶部103に格納された行動−状況生成モデル12、状況−音響イベント生成モデル13、及び行動−音響イベント生成モデル14とを比較し、音響イベントラベル付き音響信号列21に対し、最も適切であると判断した行動や状況、又は最も適切なものから順番に複数個の行動や状況を決定し、それらを判定結果として出力する。   The generation model comparison unit 201 receives the input acoustic signal label-attached acoustic signal sequence 21, the action-situation generation model 12, the situation-acoustic event generation model 13, and the action-acoustic event generation model 14 stored in the storage unit 103. And the action and situation determined to be the most appropriate for the acoustic signal string 21 with the acoustic event label, or a plurality of actions and situations are determined in order from the most appropriate, and these are used as the determination results. Output.

[比較方法の例1]
音響イベントラベル付き音響信号列21と各生成モデルとの比較方法を例示する。この例では、まず生成モデル比較部201が、入力された音響イベントラベル付き音響信号列21から、以下のようにp(ε)(ただし、ε∈{1,・・・,E})を算出する。

Figure 0005783979

ただし、γは事前に設定された緩和パラメータ(例えば0.01などの非負値)を表し、Cεは、音響イベントラベル付き音響信号列21で音響イベントεを表す音響イベントラベルが付された要素の個数を表し、Nは音響イベントラベル付き音響信号列21が含む音響信号列の要素数を表す。N=Nであってもよいし、N≠Nであってもよい。 [Comparative Method Example 1]
The comparison method with the acoustic signal sequence 21 with an acoustic event label and each production | generation model is illustrated. In this example, the generation model comparison unit 201 first calculates p (ε) (where εε {1,..., E}) from the input acoustic signal sequence with acoustic event label 21 as follows. To do.
Figure 0005783979

However, (gamma) represents the relaxation parameter set beforehand (for example, nonnegative values, such as 0.01), and C ( epsilon ) is the element to which the acoustic event label showing the acoustic event (epsilon) was attached | subjected in the acoustic signal sequence 21 with an acoustic event label. N s represents the number of elements of the acoustic signal sequence included in the acoustic signal sequence with acoustic event label 21. N s = N d may be satisfied, or N s ≠ N d may be satisfied.

次に生成モデル比較部201は、p(ε)と行動−音響イベント生成モデル14(又は、行動−状況生成モデル12と状況−音響イベント生成モデル13を第1実施形態に示す方法を用いて周辺化することで得られる行動−音響イベント生成モデル14)とを、下記に記すカルバックライブラー情報量(Kullback-Leibler divergence: KL divergence)やイェンセンシャノン情報量(Jensen-Shannon divergence: JS divergence)などの情報量基準に基づいて比較することで、入力された音響イベントラベル付き音響信号列21に対応する行動を推定する。

Figure 0005783979
Next, the generation model comparison unit 201 uses p (ε) and the action-acoustic event generation model 14 (or the action-situation generation model 12 and the situation-acoustic event generation model 13 in the vicinity using the method described in the first embodiment. The behavior-acoustic event generation model 14) obtained by converting the behavior into the following information such as the Kullback-Leibler divergence (KL divergence) and Jensen-Shannon divergence (JS divergence) By performing the comparison based on the information amount criterion, the behavior corresponding to the input acoustic signal label-attached acoustic signal sequence 21 is estimated.
Figure 0005783979

式(15)又は(16)の例の場合、生成モデル比較部201は、P(ε)にp(ε)(ただし、ε∈{1,・・・,E})を代入し、Q(ε)に式(6)のP(λεa|Θ,Φ,Ω)(ただし、ε∈{1,・・・,E),a∈{1,・・・,A})を代入する。これにより、生成モデル比較部201は、各行動a∈{1,・・・,A}に対応する情報量(合計A個の情報量)を得る。 In the case of the example of Expression (15) or (16), the generation model comparison unit 201 substitutes p (ε) (where εε {1,..., E}) for P (ε), and Q ( P ( λεa | Θ, Φ, Ω) (where ε∈ {1,..., E), a∈ {1,..., A}) in Expression (6) is substituted into ε). As a result, the generation model comparison unit 201 obtains an information amount (a total of A information amount) corresponding to each action aε {1,..., A}.

生成モデル比較部201は、各行動a∈{1,・・・,A}について算出された情報量のうち、最も小さな情報量に対応する行動、又は、最も小さな情報量から順番に選択した複数個の情報量に対応する複数個の行動を、音響イベントラベル付き音響信号列21に対応する行動として決定して出力する。   The generation model comparison unit 201 selects the behavior corresponding to the smallest information amount among the information amounts calculated for each behavior aε {1,..., A}, or a plurality selected in order from the smallest information amount. A plurality of actions corresponding to each information amount are determined and output as actions corresponding to the acoustic signal label-attached acoustic signal sequence 21.

さらに生成モデル比較部201は、式(14)のp(ε)と状況−音響イベント生成モデル13とを上記の方法を用いて比較することにより、入力された音響イベントラベル付き音響信号列21の状況を推定することもできる。例えば、式(15)又は(16)を用いる場合、生成モデル比較部201は、P(ε)にp(ε)(ただし、ε∈{1,・・・,E})を代入し、Q(ε)に式(5)のφεt(ただし、ε∈{1,・・・,E),t∈{1,・・・,T})を代入する。これにより、生成モデル比較部201は、各状況t∈{1,・・・,T}に対応する情報量(合計T個の情報量)を得る。生成モデル比較部201は、各状況t∈{1,・・・,T}について算出された情報量のうち、最も小さな情報量に対応する状況、又は、最も小さな情報量から順番に選択した複数個の情報量に対応する複数個の状況を、音響イベントラベル付き音響信号列21に対応する状況として決定して出力する。 Further, the generation model comparison unit 201 compares p (ε) of the equation (14) with the situation-acoustic event generation model 13 by using the above method, so that the input acoustic signal label-attached acoustic signal sequence 21 is obtained. The situation can also be estimated. For example, when using equation (15) or (16), the generation model comparison unit 201 substitutes p (ε) (where εε {1,..., E}) for P (ε), and Q (epsilon) to phi .epsilon.t of formula (5) (wherein, ε∈ {1, ···, E ), t∈ {1, ···, substituting T}). Thereby, the generation model comparison unit 201 obtains the information amount (total T information amount) corresponding to each situation tε {1,..., T}. The generation model comparison unit 201 selects the situation corresponding to the smallest information amount among the information amounts calculated for each situation tε {1,... A plurality of situations corresponding to each information amount is determined and output as a situation corresponding to the acoustic signal label-attached acoustic signal sequence 21.

[比較方法の例2]
以下のように各生成モデルと音響イベントラベル付き音響信号列21との比較を行ってもよい。この手法では、生成モデル比較部201が、入力されたラベル付き音響信号列21に対し、行動−音響イベント生成モデル14のもとでの行動の尤度の和や積、状況−音響イベント生成モデル13のもとでの状況の尤度の和や積を求める。以下に具体例を示す。
[Example 2 of comparison method]
You may compare with each production | generation model and the acoustic signal sequence 21 with an acoustic event label as follows. In this method, the generation model comparison unit 201 performs the sum or product of the likelihood of action under the action-acoustic event generation model 14 or the situation-acoustic event generation model for the input labeled acoustic signal sequence 21. The sum or product of the likelihood of the situation under 13 is obtained. Specific examples are shown below.

≪行動−音響イベント生成モデル14のもとでの行動の尤度の和の例≫

Figure 0005783979
≪Example of sum of likelihood of action under action-acoustic event generation model 14≫
Figure 0005783979

≪行動−音響イベント生成モデル14のもとでの行動の尤度の積の例≫

Figure 0005783979
≪Example of action likelihood product under action-acoustic event generation model 14≫
Figure 0005783979

≪状況−音響イベント生成モデル13のもとでの状況の尤度の和の例≫

Figure 0005783979
<< Situation-Example of sum of likelihood of situation under acoustic event generation model 13 >>
Figure 0005783979

≪状況−音響イベント生成モデル13のもとでの状況の尤度の積の例≫

Figure 0005783979
<< Situation-Example of the product of the likelihood of a situation under the acoustic event generation model 13 >>
Figure 0005783979

ただし、式(17)〜(20)のeは、入力された音響イベントラベル付き音響信号列21の要素番号iに対応する音響イベントラベルが表す音響イベントを表す。式(17)〜(20)は、式(4)(5)(6)の確率θta,φεt,P(λεa|Θ,Φ,Ω)と、入力された音響イベントラベル付き音響信号列21のeとから算出できる。 However, e i in the equations (17) to (20) represents an acoustic event represented by the acoustic event label corresponding to the element number i of the inputted acoustic signal label-attached acoustic signal sequence 21. Equations (17) to (20) are the probabilities θ ta , φ εt , and P (λ εa | Θ, Φ, Ω) of equations (4), (5), and (6), and the input acoustic signal with an acoustic event label. It can be calculated from e i in column 21.

生成モデル比較部201は、各行動,状況について算出した尤度のうち、最も尤度の高い行動,状況、又は、最も尤度の高いものから順番に選択した複数個の行動,状況を、入力された音響イベントラベル付き音響信号列21に対応する行動,状況として決定して出力する。   The generation model comparison unit 201 inputs a plurality of actions and situations selected in order from the highest likelihood action or situation or the highest likelihood among the likelihoods calculated for each action and situation. The action / situation corresponding to the acoustic signal label 21 with the acoustic event label is determined and output.

なお、上述の行動を決定する処理と状況を決定する処理とが、互いに異なる処理部で実行されてもよい。   Note that the processing for determining the above-described action and the processing for determining the situation may be executed by different processing units.

<第2実施形態の変形例1>
第2実施形態の変形例1では、第1実施形態で説明したように得られた行動−状況生成モデル12、状況−音響イベント生成モデル13、行動−音響イベント生成モデル14を用い、新たに入力された音響信号列から行動や状況を推定する。
<Modification Example 1 of Second Embodiment>
In the first modification of the second embodiment, the action-situation generation model 12, the situation-acoustic event generation model 13, and the action-acoustic event generation model 14 obtained as described in the first embodiment are used to newly input. The behavior and situation are estimated from the obtained acoustic signal sequence.

図6に例示するように、本形態の推定装置210は、特徴量算出部211、音響イベント判定部212、音響イベントモデルDB113、記憶部103、生成モデル比較部201を有する。推定装置210は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。   As illustrated in FIG. 6, the estimation apparatus 210 according to the present embodiment includes a feature amount calculation unit 211, an acoustic event determination unit 212, an acoustic event model DB 113, a storage unit 103, and a generation model comparison unit 201. The estimation device 210 is configured, for example, by reading a predetermined program into a known or dedicated computer.

まず特徴量算出部211にラベルなし音響信号列22が入力される。ラベルなし音響信号列22は、短時間(数10msec〜数sec)ごとに区分された時系列の音響信号列、及び短時間ごとに区分された音響信号列の各要素に対応する要素番号を含む。   First, the unlabeled acoustic signal sequence 22 is input to the feature amount calculation unit 211. The unlabeled acoustic signal sequence 22 includes a time-series acoustic signal sequence divided every short time (several tens of milliseconds to several seconds) and an element number corresponding to each element of the acoustic signal sequence divided every short time. .

特徴量算出部211は、ラベルなし音響信号列22から音響特徴量列(ベクトル)を算出して出力する。例えば特徴量算出部211は、第1実施形態で説明した特徴量算出部111と同じ方法で音響特徴量列を算出する。   The feature amount calculation unit 211 calculates and outputs an acoustic feature amount sequence (vector) from the unlabeled acoustic signal sequence 22. For example, the feature amount calculation unit 211 calculates an acoustic feature amount sequence by the same method as the feature amount calculation unit 111 described in the first embodiment.

音響イベント判定部212は、第1実施形態の音響イベント判定部112と同じ方法で、特徴量算出部211から出力された音響特徴量列と、音響イベントモデルDB113に記憶されている複数の音響イベントモデルとをそれぞれ比較し、ラベルなし音響信号列22の全ての要素について音響イベントを決定する。音響イベント判定部212は、決定した音響イベントを表す音響イベントラベルをラベルなし音響信号列22の各要素に付することで、音響イベントラベル付き音響信号列21を生成して出力する。   The acoustic event determination unit 212 is the same method as the acoustic event determination unit 112 of the first embodiment, and a plurality of acoustic events stored in the acoustic event model DB 113 and the acoustic feature amount sequence output from the feature amount calculation unit 211. Each model is compared, and acoustic events are determined for all elements of the unlabeled acoustic signal sequence 22. The acoustic event determination unit 212 generates and outputs an acoustic event label-attached acoustic signal sequence 21 by attaching an acoustic event label representing the determined acoustic event to each element of the unlabeled acoustic signal sequence 22.

音響イベントラベル付き音響信号列21は、生成モデル比較部201に入力される。以降の処理は第2実施形態と同じである。   The acoustic signal sequence with acoustic event label 21 is input to the generation model comparison unit 201. The subsequent processing is the same as in the second embodiment.

<第2実施形態の変形例2>
第2実施形態の変形例2では、第1実施形態で説明したように得られた行動−状況生成モデル12、状況−音響イベント生成モデル13、行動−音響イベント生成モデル14を用い、新たに入力された音響特徴量列から行動や状況を推定する。
<Modification 2 of the second embodiment>
In Modification 2 of the second embodiment, a new input is made using the action-situation generation model 12, the situation-acoustic event generation model 13, and the action-acoustic event generation model 14 obtained as described in the first embodiment. The behavior and situation are estimated from the obtained acoustic feature quantity sequence.

図7に例示するように、本形態の推定装置220は、音響イベント判定部212、音響イベントモデルDB113、記憶部103、生成モデル比較部201を有する。推定装置220は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。   As illustrated in FIG. 7, the estimation apparatus 220 according to the present embodiment includes an acoustic event determination unit 212, an acoustic event model DB 113, a storage unit 103, and a generation model comparison unit 201. The estimation device 220 is configured, for example, by reading a predetermined program into a known or dedicated computer.

まず音響イベント判定部212にラベルなし音響特徴量列23が入力される。ラベルなし音響特徴量列23は、短時間(数10msec〜数sec)ごとに区分された時系列の音響信号列、短時間ごとに区分された音響信号列の各要素に対応する要素番号、及び音響信号列の音響特徴量列を含む。音響特徴量列の具体例は、第1実施形態で説明した通りである。   First, the unlabeled acoustic feature string 23 is input to the acoustic event determination unit 212. The unlabeled acoustic feature column 23 includes time-series acoustic signal sequences divided every short time (several tens of milliseconds to several seconds), element numbers corresponding to the elements of the acoustic signal sequence divided every short time, and The acoustic feature amount sequence of the acoustic signal sequence is included. A specific example of the acoustic feature amount sequence is as described in the first embodiment.

音響イベント判定部212は、第1実施形態の音響イベント判定部112と同じ方法で、ラベルなし音響特徴量列23の音響特徴量列と、音響イベントモデルDB113に記憶されている複数の音響イベントモデルとをそれぞれ比較し、ラベルなし音響特徴量列23が含む音響信号列の全ての要素について音響イベントを決定する。音響イベント判定部212は、決定した各要素の音響イベントを表す音響イベントラベルを、ラベルなし音響特徴量列23が含む音響信号列に付することで、音響イベントラベル付き音響信号列21を生成して出力する。   The acoustic event determination unit 212 is the same method as the acoustic event determination unit 112 of the first embodiment, and a plurality of acoustic event models stored in the acoustic feature amount sequence 23 of the unlabeled acoustic feature amount sequence 23 and the acoustic event model DB 113. Are respectively determined, and an acoustic event is determined for all elements of the acoustic signal sequence included in the unlabeled acoustic feature amount sequence 23. The acoustic event determination unit 212 generates the acoustic signal sequence 21 with the acoustic event label by attaching the acoustic event label representing the acoustic event of each determined element to the acoustic signal sequence included in the unlabeled acoustic feature amount sequence 23. Output.

音響イベントラベル付き音響信号列21は、生成モデル比較部201に入力される。以降の処理は第2実施形態と同じである。   The acoustic signal sequence with acoustic event label 21 is input to the generation model comparison unit 201. The subsequent processing is the same as in the second embodiment.

<第3実施形態>
本形態は第1実施形態と第2実施形態の組み合わせである。
本形態では、音響イベントラベル付き音響信号列21を入力として行動や状況を推定することに加え、音響イベントラベル及び行動ラベル付き音響信号列11−1,・・・,11−Dを入力とし、行動−状況生成モデル12、状況−音響イベント生成モデル13、行動−音響イベント生成モデル14の算出も行う。さらに、推定された行動を表す行動ラベルを、音響イベントラベル付き音響信号列21が含む音響信号列の各要素に付与することで、音響イベントラベル及び行動ラベル付き音響信号列を得、それを生成モデルの更新に利用することもできる。
<Third Embodiment>
This embodiment is a combination of the first embodiment and the second embodiment.
In this embodiment, in addition to estimating the behavior and situation using the acoustic event label-attached acoustic signal sequence 21 as an input, the acoustic event label and the behavior-labeled acoustic signal sequence 11-1,. The behavior-situation generation model 12, the situation-acoustic event generation model 13, and the behavior-acoustic event generation model 14 are also calculated. Furthermore, by assigning a behavior label representing the estimated behavior to each element of the acoustic signal sequence included in the acoustic signal sequence with acoustic event label 21, an acoustic event label and an acoustic signal sequence with behavior label are obtained and generated. It can also be used to update the model.

図8に例示するように、本形態の推定装置300は、記憶部103,303、音響信号列合成部101、行動/状況モデル化部102、及び生成モデル比較部201を有する。推定装置300は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。   As illustrated in FIG. 8, the estimation apparatus 300 according to the present embodiment includes storage units 103 and 303, an acoustic signal sequence synthesis unit 101, a behavior / situation modeling unit 102, and a generation model comparison unit 201. The estimation device 300 is configured, for example, by reading a predetermined program into a known or dedicated computer.

記憶部303には、第1実施形態で説明した音響イベントラベル及び行動ラベル付き音響信号列11−1,・・・,11−D、及び第2実施形態で説明した音響イベントラベル付き音響信号列21が格納されている。   The storage unit 303 includes the acoustic event labels and action-labeled acoustic signal sequences 11-1, ..., 11-D described in the first embodiment, and the acoustic event-labeled acoustic signal sequence described in the second embodiment. 21 is stored.

音響イベントラベル及び行動ラベル付き音響信号列11−1,・・・,11−Dは音響信号列合成部101に入力される。音響信号列合成部101及び行動/状況モデル化部102は、第1実施形態で説明したように、音響イベントラベル及び行動ラベル付き音響信号列11−1,・・・,11−Dから、行動−状況生成モデル12、状況−音響イベント生成モデル13、及び行動−音響イベント生成モデル14を生成し、それらを記憶部103に格納する。   The acoustic signal labels 11-1,..., 11 -D with the acoustic event label and the action label are input to the acoustic signal string synthesis unit 101. As described in the first embodiment, the acoustic signal sequence synthesizing unit 101 and the behavior / situation modeling unit 102 perform the behavior from the acoustic signal sequence 11-1, ..., 11-D with acoustic event labels and behavior labels. A situation generation model 12, a situation-acoustic event generation model 13, and an action-acoustic event generation model 14 are generated and stored in the storage unit 103.

音響イベントラベル付き音響信号列21は生成モデル比較部201に入力される。音響イベントラベル付き音響信号列21は、第2実施形態で説明したように、入力された音響イベントラベル付き音響信号列21と、記憶部103に格納された行動−状況生成モデル12、状況−音響イベント生成モデル13、及び行動−音響イベント生成モデル14とを比較し、音響イベントラベル付き音響信号列21に対し、最も適切であると判断した行動や状況、又は最も適切なものから順番に複数個の行動や状況を選択し、それらを判定結果として出力する。   The acoustic signal sequence with acoustic event label 21 is input to the generation model comparison unit 201. As described in the second embodiment, the acoustic signal label-attached acoustic signal sequence 21 includes the input acoustic event-labeled acoustic signal sequence 21, the action-situation generation model 12 stored in the storage unit 103, and the situation-acoustics. The event generation model 13 and the behavior-acoustic event generation model 14 are compared, and the acoustic event sequence with the acoustic event label 21 is determined to be the most appropriate action or situation, or a plurality of items in order from the most appropriate one. Are selected and output as judgment results.

さらに生成モデル比較部201は、決定した行動を表す行動ラベルを、音響イベントラベル付き音響信号列21の対応する各要素に付与し、それによって新たな音響イベントラベル及び行動ラベル付き音響信号列21’を生成して出力してもよい。この場合、音響イベントラベル及び行動ラベル付き音響信号列21’が、音響イベントラベル及び行動ラベル付き音響信号列11−1,・・・,11−Dとともに音響信号列合成部101に入力されてもよい。この場合、音響信号列合成部101は、入力されたすべての音響イベントラベル及び行動ラベル付き音響信号列11−1,・・・,11−D,21’を時系列方向につなぎ合わせ、それによって一つの音響イベントラベル及び行動ラベル付き音響信号列11’を得て出力する。行動/状況モデル化部102は、入力された音響イベントラベル及び行動ラベル付き音響信号列11’から、第1実施形態で説明したように、再度、行動−状況生成モデル12、状況−音響イベント生成モデル13、及び行動−音響イベント生成モデル14を生成し、それらを記憶部103に格納してもよい。   Furthermore, the generation model comparison unit 201 assigns a behavior label representing the determined behavior to each corresponding element of the acoustic signal label-attached acoustic signal sequence 21, thereby creating a new acoustic event label and acoustic label with the behavior label 21 ′. May be generated and output. In this case, even if the acoustic signal label and action label-attached acoustic signal sequence 21 ′ is input to the acoustic signal sequence combining unit 101 together with the acoustic event labels and behavior label-attached acoustic signal sequences 11-1,. Good. In this case, the acoustic signal sequence synthesizing unit 101 connects all input acoustic event labels and acoustic signal sequences with action labels 11-1,..., 11-D, 21 ′ in a time-series direction, thereby One acoustic event label and action label-attached acoustic signal sequence 11 ′ is obtained and output. As described in the first embodiment, the behavior / situation modeling unit 102 again performs the behavior-situation generation model 12 and the situation-acoustic event generation from the input acoustic event label and the acoustic signal sequence with action label 11 ′. The model 13 and the behavior-acoustic event generation model 14 may be generated and stored in the storage unit 103.

また、生成モデル比較部201の処理及び行動/状況モデル化部102の処理のどちらを先に行っても良い。ただし、行動/状況モデル化部102の処理を行う前にモデル比較部201の処理を行う場合、記憶部103に予め得られた各生成モデルが格納されていることが必要である。   Further, either the processing of the generation model comparison unit 201 or the processing of the behavior / situation modeling unit 102 may be performed first. However, when the processing of the model comparison unit 201 is performed before the processing of the behavior / situation modeling unit 102 is performed, it is necessary that each generated model obtained in advance is stored in the storage unit 103.

また、音響イベントラベル及び行動ラベル付き音響信号列21’が、新たに入力された音響イベントラベル及び行動ラベル付き音響信号列とともに音響信号列合成部101に入力されてもよい。音響信号列合成部101は、これらを時系列方向につなぎ合わせ、行動/状況モデル化部102に送出してもよい。
その他の処理は第1実施形態及び第2実施形態と同様とする。
Further, the acoustic signal label 21 and the acoustic signal sequence with action label 21 ′ may be input to the acoustic signal sequence synthesis unit 101 together with the newly input acoustic event label and acoustic signal sequence with the action label. The acoustic signal sequence synthesizing unit 101 may connect these in the time series direction and send them to the behavior / situation modeling unit 102.
Other processes are the same as those in the first embodiment and the second embodiment.

<第3実施形態の変形例1>
本形態は第1実施形態の変形例1と第2実施形態の変形例1の組み合わせである。
本形態では、行動ラベル付き音響信号列15−1,・・・,15−Dを入力として、学習によって、行動−状況生成モデル12、状況−音響イベント生成モデル13、行動−音響イベント生成モデル14を算出する。さらに本形態では、行動−状況生成モデル12、状況−音響イベント生成モデル13、行動−音響イベント生成モデル14を用い、新たに入力されたラベルなし音響信号列22から行動や状況を推定する。
<Modification 1 of 3rd Embodiment>
This embodiment is a combination of the first modification of the first embodiment and the first modification of the second embodiment.
In this embodiment, the action-labeled acoustic signal sequences 15-1,..., 15-D are used as inputs, and the action-situation generation model 12, the situation-acoustic event generation model 13, and the action-acoustic event generation model 14 are learned by learning. Is calculated. Furthermore, in this embodiment, the behavior and situation are estimated from the newly input unlabeled acoustic signal sequence 22 using the behavior-situation generation model 12, the situation-acoustic event generation model 13, and the behavior-acoustic event generation model 14.

図9に例示するように、本形態の推定装置310は、特徴量算出部111−1,・・・,111−D,211、音響イベント判定部112−1,・・・,112−D,212、音響イベントモデルDB113、及び第3実施形態の推定装置300(図8参照)を有する。   As illustrated in FIG. 9, the estimation apparatus 310 according to the present embodiment includes a feature amount calculation unit 111-1,..., 111-D, 211, and an acoustic event determination unit 112-1,. 212, acoustic event model DB113, and the estimation apparatus 300 (refer FIG. 8) of 3rd Embodiment.

行動ラベル付き音響信号列15−1,・・・,15−Dは、それぞれ特徴量算出部111−1,・・・,111−Dに入力される。特徴量算出部111−1,・・・,111−Dは、第1実施形態の変形例1で説明したように、行動ラベル付き音響信号列15−1,・・・,15−Dから、それぞれ音響特徴量列を得て出力する。音響イベント判定部112−1,・・・,112−Dは、それぞれ、第1実施形態の変形例1の音響イベント判定部112と同様に、入力された音響特徴量列と音響イベントモデルDB113に記憶されている複数の音響イベントモデルとから、音響イベントラベル及び行動ラベル付き音響信号列11−1,・・・,11−D(「学習用情報」に相当)を生成して出力する。   The acoustic signal sequences 15-1,..., 15-D with action labels are input to the feature amount calculation units 111-1,. As described in the first modification of the first embodiment, the feature amount calculation units 111-1,..., 111-D are based on acoustic signal sequences 15-1,. Obtain and output a sequence of acoustic features. The acoustic event determination units 112-1,..., 112-D are respectively input to the input acoustic feature quantity sequence and the acoustic event model DB 113 in the same manner as the acoustic event determination unit 112 of the first modification of the first embodiment. From the plurality of stored acoustic event models, acoustic event labels and acoustic signal sequences with action labels 11-1,..., 11-D (corresponding to “learning information”) are generated and output.

ラベルなし音響信号列22は特徴量算出部211に入力される。特徴量算出部211は、第2実施形態の変形例1で説明したように、ラベルなし音響信号列22から音響特徴量列(ベクトル)を算出して出力する。音響イベント判定部212は、第2実施形態の変形例1で説明したように、入力された音響特徴量列と音響イベントモデルDB113に記憶されている複数の音響イベントモデルとから、音響イベントラベル付き音響信号列21(「入力情報」に相当)を生成して出力する。   The unlabeled acoustic signal sequence 22 is input to the feature amount calculation unit 211. As described in the first modification of the second embodiment, the feature amount calculation unit 211 calculates and outputs an acoustic feature amount sequence (vector) from the unlabeled acoustic signal sequence 22. As described in the first modification of the second embodiment, the acoustic event determination unit 212 includes an acoustic event label from the input acoustic feature quantity sequence and the plurality of acoustic event models stored in the acoustic event model DB 113. An acoustic signal sequence 21 (corresponding to “input information”) is generated and output.

音響イベントラベル及び行動ラベル付き音響信号列11−1,・・・,11−D、音響イベントラベル付き音響信号列21は、記憶部303(図8)に格納される。以降の処理は第3実施形態と同じである。   The acoustic signal labels 11-1,..., 11-D with acoustic event labels and action labels, and the acoustic signal string 21 with acoustic event labels are stored in the storage unit 303 (FIG. 8). The subsequent processing is the same as in the third embodiment.

<第3実施形態の変形例2>
本形態は第1実施形態の変形例2と第2実施形態の変形例2の組み合わせである。
本形態では、行動ラベル付き音響特徴量列16−1,・・・,16−Dを入力として、学習によって、行動−状況生成モデル12、状況−音響イベント生成モデル13、行動−音響イベント生成モデル14を算出する。さらに本形態では、行動−状況生成モデル12、状況−音響イベント生成モデル13、行動−音響イベント生成モデル14を用い、新たに入力されたラベルなし音響特徴量列23から行動や状況を推定する。
<Modification 2 of 3rd Embodiment>
This embodiment is a combination of the second modification of the first embodiment and the second modification of the second embodiment.
In this embodiment, the behavior-labeled acoustic feature sequence 16-1,..., 16-D is used as an input, and the behavior-situation generation model 12, the situation-acoustic event generation model 13, and the behavior-acoustic event generation model are learned by learning. 14 is calculated. Furthermore, in this embodiment, a behavior and a situation are estimated from a newly input unlabeled acoustic feature quantity sequence 23 using a behavior-situation generation model 12, a situation-acoustic event generation model 13, and a behavior-acoustic event generation model 14.

図10に例示するように、本形態の推定装置320は、音響イベント判定部112−1,・・・,112−D,212、音響イベントモデルDB113、及び第3実施形態の推定装置300(図8参照)を有する。   As illustrated in FIG. 10, the estimation apparatus 320 according to the present embodiment includes acoustic event determination units 112-1,..., 112-D, 212, an acoustic event model DB 113, and an estimation apparatus 300 according to the third embodiment (see FIG. 10). 8).

行動ラベル付き音響特徴量列16−1,・・・,16−Dは、それぞれ音響イベント判定部112−1,・・・,112−Dに入力される。音響イベント判定部112−1,・・・,112−Dは、それぞれ、第1実施形態の変形例2の音響イベント判定部112と同様に、入力された音響特徴量列と音響イベントモデルDB113に記憶されている複数の音響イベントモデルとから、音響イベントラベル及び行動ラベル付き音響信号列11−1,・・・,11−D(「学習用情報」に相当)を生成して出力する。   The acoustic feature quantity columns 16-1,..., 16-D with action labels are input to the acoustic event determination units 112-1,. The acoustic event determination units 112-1,..., 112-D are respectively input to the input acoustic feature quantity sequence and the acoustic event model DB 113 in the same manner as the acoustic event determination unit 112 of the second modification of the first embodiment. From the plurality of stored acoustic event models, acoustic event labels and acoustic signal sequences with action labels 11-1,..., 11-D (corresponding to “learning information”) are generated and output.

ラベルなし音響特徴量列23は音響イベント判定部212に入力される。音響イベント判定部212は、第2実施形態の変形例2と同様に、入力されたラベルなし音響特徴量列23の音響特徴量列と音響イベントモデルDB113に記憶されている複数の音響イベントモデルとから、音響イベントラベル付き音響信号列21(「入力情報」に相当)を生成して出力する。   The unlabeled acoustic feature string 23 is input to the acoustic event determination unit 212. Similarly to the second modification of the second embodiment, the acoustic event determination unit 212 includes the input acoustic feature amount sequence of the unlabeled acoustic feature amount sequence 23 and a plurality of acoustic event models stored in the acoustic event model DB 113. Then, an acoustic event label-attached acoustic signal sequence 21 (corresponding to “input information”) is generated and output.

音響イベントラベル及び行動ラベル付き音響信号列11−1,・・・,11−D、音響イベントラベル付き音響信号列21は、記憶部303(図8)に格納される。以降の処理は第3実施形態と同じである。   The acoustic signal labels 11-1,..., 11-D with acoustic event labels and action labels, and the acoustic signal string 21 with acoustic event labels are stored in the storage unit 303 (FIG. 8). The subsequent processing is the same as in the third embodiment.

<第4実施形態>
本形態は第3実施形態の変形である。
本形態では、音響イベントラベル及び行動ラベル付き音響信号列11−1,・・・,11−D(「第1学習用情報」に相当)、及び音響イベントラベル付き音響信号列21(「第2学習用情報」に相当)を入力とし、行動−状況生成モデル12、状況−音響イベント生成モデル13、行動−音響イベント生成モデル14を算出することに加え、音響イベントラベル付き音響信号列21に対応する行動や状況を推定する。さらに、推定された行動を表す行動ラベルを、音響イベントラベル付き音響信号列21が含む音響信号列の各要素に付与することで、音響イベントラベル及び行動ラベル付き音響信号列を得、それを生成モデルの更新に利用することもできる。
<Fourth embodiment>
This embodiment is a modification of the third embodiment.
In this embodiment, acoustic event labels and action-labeled acoustic signal sequences 11-1,..., 11-D (corresponding to “first learning information”) and acoustic event-labeled acoustic signal sequence 21 (“second” In addition to calculating the behavior-situation generation model 12, the situation-acoustic event generation model 13, and the behavior-acoustic event generation model 14, it corresponds to the acoustic signal sequence 21 with an acoustic event label. Estimate the behavior and situation to be performed. Furthermore, by assigning a behavior label representing the estimated behavior to each element of the acoustic signal sequence included in the acoustic signal sequence with acoustic event label 21, an acoustic event label and an acoustic signal sequence with behavior label are obtained and generated. It can also be used to update the model.

図11に例示するように、本形態の推定装置400は、記憶部103、303、音響信号列合成部401、行動/状況モデル化部402、及び生成モデル比較部403を有する。推定装置400は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。   As illustrated in FIG. 11, the estimation apparatus 400 according to the present embodiment includes storage units 103 and 303, an acoustic signal sequence synthesis unit 401, a behavior / situation modeling unit 402, and a generation model comparison unit 403. The estimation device 400 is configured, for example, by reading a predetermined program into a known or dedicated computer.

音響信号列合成部401に、音響イベントラベル及び行動ラベル付き音響信号列11−1,・・・,11−D(「行動の内容を表す行動情報と、行動に付随する音響イベントを表す音響イベント情報と、を含む第1学習用情報」に相当)及び音響イベントラベル付き音響信号列21(「未知の行動に付随する音響イベントを表す音響イベント情報を含む第2学習用情報」に相当)が入力される。音響信号列合成部401は、音響イベントラベル及び行動ラベル付き音響信号列11−1,・・・,11−D、音響イベントラベル付き音響信号列21を時系列方向につなぎ合わせ、それによって1つの音響イベントラベル及び行動ラベル付き音響信号列41(以下、単に「ラベル付き音響信号列41」という)を得て出力する。ラベル付き音響信号列41は、行動/状況モデル化部402に入力される。なお、予め、音響イベントラベル及び行動ラベル付き音響信号列11−1,・・・,11−D、音響イベントラベル付き音響信号列21からラベル付き音響信号列41が得られている場合には、音響信号列合成部401を経由することなく、ラベル付き音響信号列41がそのまま行動/状況モデル化部402に入力されてもよい。   The acoustic signal sequence synthesizing unit 401 includes acoustic signal labels and behavior-labeled acoustic signal sequences 11-1,..., 11-D (“acoustic events representing behavior information indicating behavior details and acoustic events associated with the behavior”). And an acoustic signal string 21 with an acoustic event label (corresponding to “second learning information including acoustic event information representing an acoustic event associated with an unknown action”). Entered. The acoustic signal sequence synthesizer 401 connects the acoustic event labels and acoustic signal sequences with action labels 11-1,..., 11-D, and the acoustic signal sequence with acoustic event labels 21 in the time series direction, thereby An acoustic event label and an action-labeled acoustic signal sequence 41 (hereinafter simply referred to as “labeled acoustic signal sequence 41”) are obtained and output. The labeled acoustic signal sequence 41 is input to the behavior / situation modeling unit 402. In addition, when the acoustic signal sequence 41 with the sound event label and the acoustic signal sequence 11 with the action label is obtained in advance from the acoustic signal sequence 21 with the acoustic event label, the labeled acoustic signal sequence 41 is obtained. The labeled acoustic signal sequence 41 may be directly input to the behavior / situation modeling unit 402 without going through the acoustic signal sequence synthesis unit 401.

行動/状況モデル化部402は、入力されたラベル付き音響信号列41を用い、第1実施形態の行動/状況モデル化部102と同じ方法で、行動−状況生成モデル12、状況−音響イベント生成モデル13、及び行動−音響イベント生成モデル14を算出する。ただし、行動/状況モデル化部402は、ラベル付き音響信号列41に含まれる音響イベントラベル付き音響信号列21の各要素に「行動が未知」であることを表す特別な行動ラベルが付与されているものとして算出処理を行う。すなわち行動/状況モデル化部402は、「行動が未知」であることを一つの独立した「行動」(「未知の行動」と呼ぶ)とみなす。この特別な行動ラベルは、一般的な何れの行動(料理、掃除など)を表すものでもない。   The behaviour / situation modeling unit 402 uses the input labeled acoustic signal sequence 41 in the same manner as the behaviour / situation modeling unit 102 of the first embodiment, and the behavior-situation generation model 12 and the situation-acoustic event generation. A model 13 and a behavior-acoustic event generation model 14 are calculated. However, the behavior / situation modeling unit 402 is given a special behavior label indicating that “behavior is unknown” to each element of the acoustic signal sequence with acoustic event label 21 included in the acoustic signal sequence with label 41. Calculation processing is performed assuming that That is, the behavior / situation modeling unit 402 regards that “behavior is unknown” as one independent “behavior” (referred to as “unknown behavior”). This special action label does not represent any general action (cooking, cleaning, etc.).

すなわち行動/状況モデル化部402は、状況が音響イベントを生成する確率P(音響イベント|状況)、行動が状況を生成する確率P(状況|行動)、及び未知の行動が状況を生成する確率P(状況|未知の行動)を得る。また行動/状況モデル化部402は、確率P(音響イベント|状況)と確率P(状況|行動)とから、行動が音響イベントを生成する確率P(音響イベント|行動)を得、確率P(音響イベント|状況)と確率P(状況|未知の行動)とから、未知の行動が音響イベントを生成する確率P(音響イベント|未知の行動)を得る。行動−状況生成モデル12は、確率P(状況|行動),P(状況|未知の行動)に対応し、状況−音響イベント生成モデル13は、確率P(音響イベント|状況)に対応し、行動−音響イベント生成モデル14は、確率P(音響イベント|行動),P(音響イベント|未知の行動)に対応する。行動/状況モデル化部402で算出された、行動−状況生成モデル12、状況−音響イベント生成モデル13、及び行動−音響イベント生成モデル14は、記憶部103に格納される。   That is, the behavior / situation modeling unit 402 has a probability P (acoustic event | situation) that a situation generates an acoustic event, a probability P (situation | action) that an action creates a situation, and a probability that an unknown action creates a situation. Get P (Situation | Unknown Behavior). Further, the behavior / situation modeling unit 402 obtains a probability P (acoustic event | action) that the behavior generates an acoustic event from the probability P (acoustic event | situation) and the probability P (situation | action), and the probability P ( The probability P (acoustic event | unknown action) that the unknown action generates an acoustic event is obtained from the acoustic event | situation and the probability P (situation | unknown action). The action-situation generation model 12 corresponds to the probabilities P (situation | action) and P (situation | unknown action), and the situation-acoustic event generation model 13 corresponds to the probability P (acoustic event | situation), and the action The acoustic event generation model 14 corresponds to the probability P (acoustic event | action), P (acoustic event | unknown behavior). The behavior / situation generation model 12, the situation / acoustic event generation model 13, and the behavior / acoustic event generation model 14 calculated by the behavior / situation modeling unit 402 are stored in the storage unit 103.

生成モデル比較部403には、行動−音響イベント生成モデル14が入力される。生成モデル比較部403は、入力された行動−音響イベント生成モデル14に対応する、確率P(音響イベント|行動)と確率P(音響イベント|未知の行動)とを比較し、未知の行動(音響イベントラベル付き音響信号列21に対応する行動)の内容を推定し、それらの推定結果を出力する。例えば、生成モデル比較部403は、音響イベントラベル付き音響信号列21に対し、最も適切であると判断した行動、又は最も適切なものから順番に複数個の行動を選択し、それらを判定結果として出力する。   The generation model comparison unit 403 receives the behavior-acoustic event generation model 14. The generation model comparison unit 403 compares the probability P (acoustic event | action) and the probability P (acoustic event | unknown action) corresponding to the input action-acoustic event generation model 14 to determine an unknown action (acoustic sound). The content of the action corresponding to the event-labeled acoustic signal sequence 21 is estimated, and the estimation results are output. For example, the generation model comparison unit 403 selects a plurality of actions in order from the action that is determined to be the most appropriate or the most appropriate action for the acoustic signal sequence 21 with the sound event label, and uses these as determination results. Output.

[比較方法の例示]
生成モデル比較部403による比較は、例えば、第2実施形態で説明した情報量基準に基づいて行うことができる。例えば、式(15)又は(16)の情報量基準を用いる場合、生成モデル比較部403は、P(ε)に式(6)のP(λεa|Θ,Φ,Ω)のうち未知の行動a’∈{1,・・・,A}に対応するP(λεa’|Θ,Φ,Ω)(ただし、ε∈{1,・・・,E)}を代入し、Q(ε)に他の行動a’’≠a’(ただし、a’’∈{1,・・・,A})に対応するP(λεa’’|Θ,Φ,Ω)(ただし、ε∈{1,・・・,E))を代入する。これにより、生成モデル比較部403は、他の行動a’’≠a’(ただし、a’’∈{1,・・・,A})に対応する情報量(合計A−1個の情報量)を得る。
[Example of comparison method]
The comparison by the generation model comparison unit 403 can be performed based on the information amount criterion described in the second embodiment, for example. For example, when using the information criterion of the equation (15) or (16), the generation model comparison unit 403 makes P (ε) unknown to P (λ εa | Θ, Φ, Ω) of the equation (6). Substitute P ( λεa ′ | Θ, Φ, Ω) (where εε {1,..., E)} corresponding to the action a′ε {1,..., A} and Q (ε ) To P (λ εa ″ | Θ, Φ, Ω) corresponding to another action a ″ ≠ a ′ (where a ″ ε {1,..., A}) (where εε { 1, ..., E)) is substituted. Thereby, the generation model comparison unit 403 has an information amount corresponding to another action a ″ ≠ a ′ (where a ″ ε {1,..., A}) (a total of A−1 information amounts). )

生成モデル比較部403は、各行動a’’について算出された情報量のうち、最も小さな情報量に対応する行動、又は、最も小さな情報量から順番に選択した複数個の情報量に対応する複数個の行動を、音響イベントラベル付き音響信号列21に対応する行動として決定して出力する。   The generation model comparison unit 403 includes an action corresponding to the smallest information amount among the information amounts calculated for each action a ″, or a plurality of information corresponding to a plurality of information amounts selected in order from the smallest information amount. Each action is determined and output as an action corresponding to the acoustic signal sequence 21 with the acoustic event label.

生成モデル比較部403は、以上のように決定した行動を表す行動ラベルを、音響イベントラベル付き音響信号列21の対応する各要素に付与し、それによって新たな音響イベントラベル及び行動ラベル付き音響信号列41’を生成して出力してもよい。この場合、音響イベントラベル及び行動ラベル付き音響信号列41’が、音響イベントラベル及び行動ラベル付き音響信号列11−1,・・・,11−Dとともに音響信号列合成部401に入力されてもよい。この場合、音響信号列合成部401は、入力されたすべての音響イベントラベル及び行動ラベル付き音響信号列11−1,・・・,11−D,41’を時系列方向につなぎ合わせ、それによって一つの音響イベントラベル及び行動ラベル付き音響信号列41’’を得て出力する。行動/状況モデル化部402は、入力された音響イベントラベル及び行動ラベル付き音響信号列41’’から、再度、行動−状況生成モデル12、状況−音響イベント生成モデル13、及び行動−音響イベント生成モデル14を生成し、それらを記憶部103に格納してもよい。   The generation model comparison unit 403 assigns an action label representing the action determined as described above to each corresponding element of the acoustic signal label-attached acoustic signal sequence 21, thereby creating a new acoustic event label and an action-labeled acoustic signal. The column 41 ′ may be generated and output. In this case, even if the acoustic signal sequence 41 ′ with the acoustic event label and the behavior label is input to the acoustic signal sequence synthesizing unit 401 together with the acoustic signal sequences 11-1,. Good. In this case, the acoustic signal sequence synthesizing unit 401 connects all input acoustic event labels and acoustic signal sequences with action labels 11-1,..., 11-D, 41 ′ in the time series direction, thereby One acoustic event label and acoustic signal sequence 41 ″ with action label is obtained and output. The behavior / situation modeling unit 402 again performs the behavior-situation generation model 12, the situation-acoustic event generation model 13, and the behavior-acoustic event generation from the input acoustic event label and the acoustic signal sequence 41 ″ with the behavior label. The model 14 may be generated and stored in the storage unit 103.

また、音響イベントラベル及び行動ラベル付き音響信号列21’が、新たに入力された音響イベントラベル及び行動ラベル付き音響信号列とともに音響信号列合成部401に入力されてもよい。音響信号列合成部401は、これらを時系列方向につなぎ合わせ、行動/状況モデル化部402に送出してもよい。   Moreover, the acoustic signal label and action label-attached acoustic signal string 21 ′ may be input to the acoustic signal string synthesizing unit 401 together with the newly input acoustic event label and action label-attached acoustic signal string. The acoustic signal sequence synthesizing unit 401 may connect these in the time-series direction and send them to the behavior / situation modeling unit 402.

また生成モデル比較部403が、入力された音響イベントラベル付き音響信号列21と、記憶部103に格納された状況−音響イベント生成モデル13を用い、第2実施形態で説明した方法で、音響イベントラベル付き音響信号列21が含む音響イベントラベル(「未知の行動に付随する音響イベントを表す音響イベント情報」に相当)が表す音響イベントに対応する各状況を推定して出力してもよい。
その他の処理は第1実施形態、第2実施形態及び第3実施形態と同様とする。
Further, the generation model comparison unit 403 uses the input acoustic signal label-attached acoustic signal sequence 21 and the situation-acoustic event generation model 13 stored in the storage unit 103 to perform the acoustic event by the method described in the second embodiment. Each situation corresponding to the acoustic event represented by the acoustic event label included in the labeled acoustic signal sequence 21 (corresponding to “acoustic event information representing an acoustic event associated with an unknown behavior”) may be estimated and output.
Other processes are the same as those in the first embodiment, the second embodiment, and the third embodiment.

<第4実施形態の変形例1>
本形態は第3実施形態の変形例1の変形である。
本形態では、行動ラベル付き音響信号列15−1,・・・,15−D及びラベルなし音響信号列22を入力として、学習によって、行動−状況生成モデル12、状況−音響イベント生成モデル13、行動−音響イベント生成モデル14を算出する。さらに本形態では、行動−状況生成モデル12、状況−音響イベント生成モデル13、行動−音響イベント生成モデル14を用い、ラベルなし音響信号列22に対応する行動や状況を推定する。
<Modification 1 of 4th Embodiment>
This embodiment is a modification of the first modification of the third embodiment.
In the present embodiment, the behavior-situation generation model 12, the situation-acoustic event generation model 13, and learning are performed with the action-labeled acoustic signal sequence 15-1,. The behavior-acoustic event generation model 14 is calculated. Furthermore, in this embodiment, the behavior and situation corresponding to the unlabeled acoustic signal sequence 22 are estimated using the behavior-situation generation model 12, the situation-acoustic event generation model 13, and the behavior-acoustic event generation model 14.

図9に例示するように、本形態の推定装置410は、特徴量算出部111−1,・・・,111−D,211、音響イベント判定部112−1,・・・,112−D,212、音響イベントモデルDB113、及び第4実施形態の推定装置400(図11参照)を有する。   As illustrated in FIG. 9, the estimation apparatus 410 according to the present embodiment includes a feature amount calculation unit 111-1,..., 111-D, 211, and an acoustic event determination unit 112-1,. 212, acoustic event model DB113, and the estimation apparatus 400 (refer FIG. 11) of 4th Embodiment.

行動ラベル付き音響信号列15−1,・・・,15−Dは、それぞれ特徴量算出部111−1,・・・,111−Dに入力される。特徴量算出部111−1,・・・,111−Dは、第1実施形態の変形例1で説明したように、行動ラベル付き音響信号列15−1,・・・,15−Dから、それぞれ音響特徴量列を得て出力する。音響イベント判定部112−1,・・・,112−Dは、それぞれ、第1実施形態の変形例1の音響イベント判定部112と同様に、入力された音響特徴量列と音響イベントモデルDB113に記憶されている複数の音響イベントモデルとから、音響イベントラベル及び行動ラベル付き音響信号列11−1,・・・,11−D(「第1学習用情報」に相当)を生成して出力する。   The acoustic signal sequences 15-1,..., 15-D with action labels are input to the feature amount calculation units 111-1,. As described in the first modification of the first embodiment, the feature amount calculation units 111-1,..., 111-D are based on acoustic signal sequences 15-1,. Obtain and output a sequence of acoustic features. The acoustic event determination units 112-1,..., 112-D are respectively input to the input acoustic feature quantity sequence and the acoustic event model DB 113 in the same manner as the acoustic event determination unit 112 of the first modification of the first embodiment. Generate and output acoustic signal strings 11-1,..., 11-D (corresponding to “first learning information”) with acoustic event labels and action labels from a plurality of stored acoustic event models. .

ラベルなし音響信号列22は特徴量算出部211に入力される。特徴量算出部211及び音響イベント判定部212は、第2実施形態の変形例1で説明したように、ラベルなし音響信号列22から音響特徴量列(ベクトル)を算出して出力する。音響イベント判定部212は、第2実施形態の変形例1で説明したように、入力された音響特徴量列と音響イベントモデルDB113に記憶されている複数の音響イベントモデルとから、音響イベントラベル付き音響信号列21(「第2学習用情報」に相当)を生成して出力する。   The unlabeled acoustic signal sequence 22 is input to the feature amount calculation unit 211. As described in the first modification of the second embodiment, the feature amount calculation unit 211 and the acoustic event determination unit 212 calculate and output an acoustic feature amount sequence (vector) from the unlabeled acoustic signal sequence 22. As described in the first modification of the second embodiment, the acoustic event determination unit 212 includes an acoustic event label from the input acoustic feature quantity sequence and the plurality of acoustic event models stored in the acoustic event model DB 113. An acoustic signal sequence 21 (corresponding to “second learning information”) is generated and output.

音響イベントラベル及び行動ラベル付き音響信号列11−1,・・・,11−D、音響イベントラベル付き音響信号列21は、記憶部303(図11)に格納される。以降の処理は第4実施形態と同じである。   The acoustic signal labels 11-1,..., 11-D with acoustic event labels and behavior labels, and the acoustic signal string 21 with acoustic event labels are stored in the storage unit 303 (FIG. 11). The subsequent processing is the same as in the fourth embodiment.

<第4実施形態の変形例2>
本形態は第3実施形態の変形例2の変形である。
本形態では、行動ラベル付き音響特徴量列16−1,・・・,16−D及びラベルなし音響特徴量列23を入力として、学習によって、行動−状況生成モデル12、状況−音響イベント生成モデル13、行動−音響イベント生成モデル14を算出する。さらに本形態では、行動−状況生成モデル12、状況−音響イベント生成モデル13、行動−音響イベント生成モデル14を用い、ラベルなし音響特徴量列23に対応する行動や状況を推定する。
<Modification 2 of 4th Embodiment>
This embodiment is a modification of the second modification of the third embodiment.
In the present embodiment, the behavior-situation generation model 12 and the situation-acoustic event generation model are obtained by learning with the action-labeled acoustic feature quantity sequence 16-1,..., 16-D and the unlabeled acoustic feature quantity sequence 23 as inputs. 13. The behavior-acoustic event generation model 14 is calculated. Furthermore, in this embodiment, the behavior and situation corresponding to the unlabeled acoustic feature quantity sequence 23 are estimated using the behavior-situation generation model 12, the situation-acoustic event generation model 13, and the behavior-acoustic event generation model 14.

図10に例示するように、本形態の推定装置420は、音響イベント判定部112−1,・・・,112−D,212、音響イベントモデルDB113、及び第4実施形態の推定装置400(図11参照)を有する。   As illustrated in FIG. 10, the estimation apparatus 420 of the present embodiment includes acoustic event determination units 112-1,..., 112 -D, 212, an acoustic event model DB 113, and an estimation apparatus 400 (FIG. 11).

行動ラベル付き音響特徴量列16−1,・・・,16−Dは、それぞれ音響イベント判定部112−1,・・・,112−Dに入力される。音響イベント判定部112−1,・・・,112−Dは、それぞれ、第1実施形態の変形例2の音響イベント判定部112と同様に、入力された音響特徴量列と音響イベントモデルDB113に記憶されている複数の音響イベントモデルとから、音響イベントラベル及び行動ラベル付き音響信号列11−1,・・・,11−D(「第1学習用情報」に相当)を生成して出力する。   The acoustic feature quantity columns 16-1,..., 16-D with action labels are input to the acoustic event determination units 112-1,. The acoustic event determination units 112-1,..., 112-D are respectively input to the input acoustic feature quantity sequence and the acoustic event model DB 113 in the same manner as the acoustic event determination unit 112 of the second modification of the first embodiment. Generate and output acoustic signal strings 11-1,..., 11-D (corresponding to “first learning information”) with acoustic event labels and action labels from a plurality of stored acoustic event models. .

ラベルなし音響特徴量列23は音響イベント判定部212に入力される。音響イベント判定部212は、第2実施形態の変形例2と同様に、入力されたラベルなし音響特徴量列23の音響特徴量列と音響イベントモデルDB113に記憶されている複数の音響イベントモデルとから、音響イベントラベル付き音響信号列21(「第2学習用情報」に相当)を生成して出力する。   The unlabeled acoustic feature string 23 is input to the acoustic event determination unit 212. Similarly to the second modification of the second embodiment, the acoustic event determination unit 212 includes the input acoustic feature amount sequence of the unlabeled acoustic feature amount sequence 23 and a plurality of acoustic event models stored in the acoustic event model DB 113. Then, an acoustic signal sequence 21 with acoustic event labels (corresponding to “second learning information”) is generated and output.

音響イベントラベル及び行動ラベル付き音響信号列11−1,・・・,11−D、音響イベントラベル付き音響信号列21は、記憶部303(図11)に格納される。以降の処理は第3実施形態と同じである。   The acoustic signal labels 11-1,..., 11-D with acoustic event labels and behavior labels, and the acoustic signal string 21 with acoustic event labels are stored in the storage unit 303 (FIG. 11). The subsequent processing is the same as in the third embodiment.

<変形例等>
本発明は上述の各実施形態に限定されるものではない。例えば、生成モデル作成装置や推定装置の処理が複数の装置で分散処理されてもよいし、上記の各実施形態で記憶部やDBに格納された各データが複数の記憶部やDBに分散して格納されてもよい。例えば、行動−状況生成モデル12、状況−音響イベント生成モデル13、及び行動−音響イベント生成モデル14が互いに異なる記憶部に格納されてもよい。
<Modifications>
The present invention is not limited to the above-described embodiments. For example, the processing of the generation model creation device or the estimation device may be distributed by a plurality of devices, or each data stored in the storage unit or DB in each of the above embodiments is distributed to a plurality of storage units or DBs. May be stored. For example, the action-situation generation model 12, the situation-acoustic event generation model 13, and the action-acoustic event generation model 14 may be stored in different storage units.

音響イベントラベル及び行動ラベル付き音響信号列に代えて、音響イベントラベル及び行動ラベル列が用いられてもよい。また、音響イベントラベル付き音響信号列に代えて、音響イベントラベル列が用いられてもよい。例えば、音響イベントラベル及び行動ラベル列のみが行動/状況モデル化部102に入力されてもよし、音響イベントラベル列のみが生成モデル比較部201に入力されてもよいし、音響イベントラベル及び行動ラベル列、並びに音響イベントラベル列のみが行動/状況モデル化部402に入力されてもよい。   An acoustic event label and an action label sequence may be used instead of the acoustic event label and the acoustic signal sequence with an action label. Further, an acoustic event label string may be used instead of the acoustic signal string with the acoustic event label. For example, only the acoustic event label and the action label sequence may be input to the behavior / situation modeling unit 102, or only the acoustic event label sequence may be input to the generation model comparison unit 201, or the acoustic event label and the behavior label Only the sequence and the acoustic event label sequence may be input to the behavior / situation modeling unit 402.

音響イベントラベル及び行動ラベル列の例は、音響イベントラベル及び行動ラベル付き音響信号列から音響信号列を除いた列である。また、音響イベントラベル列の例は、音響イベントラベル付き音響信号列から音響信号列を除いた列である。ただし、ラベル列が時系列の順に入力され順次処理されるのであれば、音響イベントラベル及び行動ラベル列や音響イベントラベル列の例が要素番号を含まなくてもよい。   An example of the acoustic event label and the action label sequence is a sequence obtained by removing the acoustic signal sequence from the acoustic event label and the acoustic signal sequence with the action label. Moreover, the example of an acoustic event label row | line | column is a row | line | column remove | excluding the acoustic signal row | line | column from the acoustic signal row | line | column with an acoustic event label. However, if the label sequence is input in the time series and sequentially processed, examples of the acoustic event label, the behavior label sequence, and the acoustic event label sequence may not include the element number.

また、音響信号列が時系列の順に入力され順次処理されるのであれば、短時間ごとに区分された音響信号列の各要素に対応する要素番号が、音響イベントラベル付き音響信号列や、音響イベントラベル及び行動ラベル付き音響信号列に、含まれなくてもよい。   Also, if the acoustic signal sequence is input and processed sequentially in time series, the element number corresponding to each element of the acoustic signal sequence divided every short time is the acoustic signal sequence with the acoustic event label and the acoustic signal sequence. The event label and the action label-attached acoustic signal sequence may not be included.

上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。   The various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. Needless to say, other modifications are possible without departing from the spirit of the present invention.

上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。各部での処理の結果得られたデータは逐一メモリに格納され、必要に応じて読み出されて利用される。   When the above configuration is realized by a computer, the processing contents of the functions that each device should have are described by a program. By executing this program on a computer, the above processing functions are realized on the computer. Data obtained as a result of processing in each unit is stored in the memory one by one, and is read and used as necessary.

処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。   The program describing the processing contents can be recorded on a computer-readable recording medium. An example of a computer-readable recording medium is a non-transitory recording medium. Examples of such a recording medium are a magnetic recording device, an optical disk, a magneto-optical recording medium, a semiconductor memory, and the like.

このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。   This program is distributed, for example, by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。   A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, this computer reads a program stored in its own recording device and executes a process according to the read program. As another execution form of the program, the computer may read the program directly from the portable recording medium and execute processing according to the program, and each time the program is transferred from the server computer to the computer. The processing according to the received program may be executed sequentially.

上記実施形態では、コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されたが、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。   In the above embodiment, the processing functions of the apparatus are realized by executing a predetermined program on a computer. However, at least a part of these processing functions may be realized by hardware.

100,110,120 生成モデル作成装置
200,210,220,300,310,320,400,410,420 推定装置
100, 110, 120 Generation model creation device 200, 210, 220, 300, 310, 320, 400, 410, 420 estimation device

Claims (12)

行動の内容を表す行動情報と、前記行動に付随する音響イベントを表す音響イベント情報と、を含む学習用情報を用い、前記行動と前記音響イベントとを間接的に関連付ける潜在的な場の状況が前記音響イベントを生成する確率P(音響イベント|状況)と、行動が前記状況を生成する確率P(状況|行動)とをる手段と、
前記確率P(音響イベント|状況)と前記確率P(状況|行動)とから前記行動が前記音響イベントを生成する確率P(音響イベント|行動)に対応する行動−音響イベント生成モデルを得る手段と、を含む行動/状況モデル化部、を有する生成モデル作成装置。
A situation of a potential field that indirectly associates the behavior with the acoustic event using learning information including behavior information representing the content of the behavior and acoustic event information representing an acoustic event accompanying the behavior. and | (status acoustic event), the probability behavior generates the status P probability P that generates the acoustic event | and the obtained Ru means (status action),
Means for obtaining an action-acoustic event generation model corresponding to the probability P (acoustic event | action) that the action generates the acoustic event from the probability P (acoustic event | situation) and the probability P (situation | action) ; A generation model creation device having a behavior / situation modeling unit including .
請求項1の生成モデル作成装置であって、
前記行動情報が表す行動に付随する音を表す時系列の音響信号列から、音響特徴量を算出する特徴量算出部と、
前記音響特徴量を用い、音響イベントを決定する音響イベント判定部と、を有し、
前記学習用情報が含む音響イベント情報は、前記音響イベント判定部で決定された前記音響イベントを表す、
ことを特徴とする生成モデル作成装置。
A generation model creation device according to claim 1,
A feature amount calculation unit that calculates an acoustic feature amount from a time-series acoustic signal sequence representing a sound accompanying the behavior represented by the behavior information;
An acoustic event determination unit that determines an acoustic event using the acoustic feature amount; and
The acoustic event information included in the learning information represents the acoustic event determined by the acoustic event determination unit.
A generation model creation device characterized by that.
請求項1の生成モデル作成装置であって、
前記行動情報が表す行動に付随する音を表す音響信号列に対応する音響特徴量を用い、音響イベントを決定する音響イベント判定部を有し、
前記学習用情報が含む音響イベント情報は、前記音響イベント判定部で決定された音響イベントを表す、
ことを特徴とする生成モデル作成装置。
A generation model creation device according to claim 1,
Using an acoustic feature amount corresponding to an acoustic signal sequence representing a sound accompanying the behavior represented by the behavior information, and having an acoustic event determination unit that determines an acoustic event;
The acoustic event information included in the learning information represents an acoustic event determined by the acoustic event determination unit.
A generation model creation device characterized by that.
行動と音響イベントとを間接的に関連付ける潜在的な場の状況が前記音響イベントを生成する確率P(音響イベント|状況)と、前記行動が前記状況を生成する確率P(状況|行動)とから得られる、前記行動が前記音響イベントを生成する確率P(音響イベント|行動)に対応する行動−音響イベント生成モデルを格納する記憶部と、
前記行動−音響イベント生成モデルを用い、音響イベントを表す音響イベント情報を含む入力情報に対応する行動を推定する、又は、前記確率P(音響イベント|状況)に対応する状況−音響イベント生成モデルを用い、前記入力情報に対応する状況を推定する、生成モデル比較部と、
を有する推定装置。
And | (Status acoustic event), the probability P that the action to generate the status probability P status of potential fields that indirectly associate the behavior and the acoustic event generates the acoustic event | from the (status behavior) a storage unit for storing the acoustic events generated model, - action corresponding to | (action acoustic events) obtained, the action probability P that generates the acoustic event
Using the behavior-acoustic event generation model, the behavior corresponding to the input information including the acoustic event information representing the acoustic event is estimated, or the situation-acoustic event generation model corresponding to the probability P (acoustic event | situation) A generation model comparison unit for estimating a situation corresponding to the input information ,
An estimation device.
請求項4の推定装置であって、
時系列の音響信号列から、音響特徴量を算出する特徴量算出部と、
前記音響特徴量を用い、音響イベントを決定する音響イベント判定部と、を有し、
前記入力情報が含む音響イベント情報は、前記音響イベント判定部で決定された前記音響イベントを表す、
ことを特徴とする推定装置。
An estimation apparatus according to claim 4, wherein
A feature amount calculation unit for calculating an acoustic feature amount from a time-series acoustic signal sequence;
An acoustic event determination unit that determines an acoustic event using the acoustic feature amount; and
The acoustic event information included in the input information represents the acoustic event determined by the acoustic event determination unit.
An estimation apparatus characterized by that.
請求項4の推定装置であって、
音響特徴量を用い、音響イベントを決定する音響イベント判定部を有し、
前記入力情報が含む音響イベント情報は、前記音響イベント判定部で決定された前記音響イベントを表す、
ことを特徴とする推定装置。
An estimation apparatus according to claim 4, wherein
An acoustic event determination unit that determines an acoustic event using an acoustic feature amount,
The acoustic event information included in the input information represents the acoustic event determined by the acoustic event determination unit.
An estimation apparatus characterized by that.
行動の内容を表す行動情報と、前記行動に付随する音響イベントを表す音響イベント情報と、を含む学習用情報を用い、前記行動と前記音響イベントとを間接的に関連付ける潜在的な場の状況が前記音響イベントを生成する確率P(音響イベント|状況)と、前記行動が前記状況を生成する確率P(状況|行動)とを得る、行動/状況モデル化部と、
前記確率P(音響イベント|状況)と前記確率P(状況|行動)とから得られる、行動が音響イベントを生成する確率P(音響イベント|行動)に対応する行動−音響イベント生成モデルを用い、音響イベントを表す音響イベント情報を含む入力情報に対応する行動を推定する、又は、前記確率P(音響イベント|状況)に対応する状況−音響イベント生成モデルを用い、前記入力情報に対応する状況を推定する、生成モデル比較部と、
を有する推定装置。
A situation of a potential field that indirectly associates the behavior with the acoustic event using learning information including behavior information representing the content of the behavior and acoustic event information representing an acoustic event accompanying the behavior. and | (status acoustic event), the action probability P that generates the status probability P that generates the acoustic event | obtain the (status behavior), a behavior / situation modeling unit,
Using an action-acoustic event generation model corresponding to the probability P (acoustic event | action) that the action generates an acoustic event, obtained from the probability P (acoustic event | situation) and the probability P (situation | action), A situation corresponding to the input information is estimated using a situation-acoustic event generation model corresponding to the probability P (acoustic event | situation), or an action corresponding to the input information including the acoustic event information representing the acoustic event is estimated. A generation model comparison unit to be estimated;
An estimation device.
請求項7の推定装置であって、
前記行動情報が表す行動に付随する音を表す時系列の第1音響信号列から、第1音響特徴量を算出する第1特徴量算出部と、
前記第1音響特徴量を用い、音響イベントを決定する第1音響イベント判定部と、
時系列の第2音響信号列から、第2音響特徴量を算出する第2特徴量算出部と、
前記第2音響特徴量を用い、音響イベントを決定する第2音響イベント判定部と、を有し、
前記学習用情報が含む音響イベント情報は、前記第1音響イベント判定部で決定された前記音響イベントを表し、
前記入力情報が含む音響イベント情報は、前記第2音響イベント判定部で決定された前記音響イベントを表す、
ことを特徴とする推定装置。
The estimation apparatus according to claim 7, comprising:
A first feature amount calculation unit that calculates a first acoustic feature amount from a first time-series acoustic signal sequence that represents a sound accompanying the behavior represented by the behavior information;
A first acoustic event determination unit that determines an acoustic event using the first acoustic feature amount;
A second feature amount calculation unit for calculating a second acoustic feature amount from a second time-series acoustic signal sequence;
A second acoustic event determination unit that determines an acoustic event using the second acoustic feature amount;
The acoustic event information included in the learning information represents the acoustic event determined by the first acoustic event determination unit,
The acoustic event information included in the input information represents the acoustic event determined by the second acoustic event determination unit.
An estimation apparatus characterized by that.
請求項7の推定装置であって、
前記行動情報が表す行動に付随する音を表す音響信号列に対応する第1音響特徴量を用い、音響イベントを決定する第1音響イベント判定部と、
第2音響特徴量を用い、音響イベントを決定する第2音響イベント判定部を有し、
前記学習用情報が含む音響イベント情報は、前記第1音響イベント判定部で決定された前記音響イベントを表し、
前記入力情報が含む音響イベント情報は、前記第2音響イベント判定部で決定された前記音響イベントを表す、
ことを特徴とする推定装置。
The estimation apparatus according to claim 7, comprising:
A first acoustic event determination unit that determines an acoustic event using a first acoustic feature amount corresponding to an acoustic signal sequence that represents a sound accompanying the behavior represented by the behavior information;
A second acoustic event determination unit that determines an acoustic event using the second acoustic feature amount;
The acoustic event information included in the learning information represents the acoustic event determined by the first acoustic event determination unit,
The acoustic event information included in the input information represents the acoustic event determined by the second acoustic event determination unit.
An estimation apparatus characterized by that.
行動の内容を表す行動情報と、前記行動に付随する音響イベントを表す音響イベント情報と、を含む第1学習用情報と、未知の行動に付随する音響イベントを表す音響イベント情報を含む第2学習用情報とを用い、前記行動と前記音響イベントとを間接的に関連付ける潜在的な場の状況が前記音響イベントを生成する確率P(音響イベント|状況)と、前記行動が前記状況を生成する確率P(状況|行動)と、前記未知の行動が前記状況を生成する確率P(状況|未知の行動)とを得る、行動/状況モデル化部と、
前記確率P(音響イベント|状況)と前記確率P(状況|行動)とから得られる、行動が音響イベントを生成する確率P(音響イベント|行動)と、前記確率P(音響イベント|状況)と前記確率P(状況|未知の行動)とから得られる、前記未知の行動が音響イベントを生成する確率P(音響イベント|未知の行動)とを比較し、前記未知の行動の内容を推定する、又は、前記確率P(音響イベント|状況)に対応する状況−音響イベント生成モデルを用い、前記未知の行動に付随する音響イベントを表す音響イベント情報に対応する状況を推定する、生成モデル比較部と、
を有する推定装置。
2nd learning including the 1st information for learning containing the action information showing the contents of action, the sound event information showing the sound event accompanying the action, and the sound event information showing the sound event accompanying the unknown action using the use information, the probability potential field situations and actions and the acoustic events indirectly relate to generating the acoustic event P | and (acoustic event status), the probability that the action produces the situation and | (behavioral state), the unknown action probability P that generates the status P | obtain the (status unknown behavior), a behavior / situation modeling unit,
The probability P (acoustic event | action) that the action generates an acoustic event, obtained from the probability P (acoustic event | situation) and the probability P (situation | action), and the probability P (acoustic event | situation) The probability P (acoustic event | unknown action) obtained from the probability P (situation | unknown action) is compared with the probability P (acoustic event | unknown action) that the unknown action generates an acoustic event, and the content of the unknown action is estimated. Or a generation model comparison unit that estimates a situation corresponding to acoustic event information representing an acoustic event associated with the unknown behavior using a situation-acoustic event generation model corresponding to the probability P (acoustic event | situation); ,
An estimation device.
請求項10の推定装置であって、
前記行動情報が表す行動に付随する音を表す時系列の第1音響信号列から、第1音響特徴量を算出する第1特徴量算出部と、
前記第1音響特徴量を用い、音響イベントを決定する第1音響イベント判定部と、
時系列の第2音響信号列から、第2音響特徴量を算出する第2特徴量算出部と、
前記第2音響特徴量を用い、音響イベントを決定する第2音響イベント判定部と、を有し、
前記第1学習用情報が含む音響イベント情報は、前記第1音響イベント判定部で決定された前記音響イベントを表し、
前記第2学習用情報が含む音響イベント情報は、前記第2音響イベント判定部で決定された前記音響イベントを表す、
ことを特徴とする推定装置。
The estimation apparatus according to claim 10, comprising:
A first feature amount calculation unit that calculates a first acoustic feature amount from a first time-series acoustic signal sequence that represents a sound accompanying the behavior represented by the behavior information;
A first acoustic event determination unit that determines an acoustic event using the first acoustic feature amount;
A second feature amount calculation unit for calculating a second acoustic feature amount from a second time-series acoustic signal sequence;
A second acoustic event determination unit that determines an acoustic event using the second acoustic feature amount;
The acoustic event information included in the first learning information represents the acoustic event determined by the first acoustic event determination unit,
The acoustic event information included in the second learning information represents the acoustic event determined by the second acoustic event determination unit.
An estimation apparatus characterized by that.
請求項10の推定装置であって、
前記行動情報が表す行動に付随する音を表す時系列の音響信号列に対応する第1音響特徴量を用い、音響イベントを決定する第1音響イベント判定部と、
第2音響特徴量を用い、音響イベントを決定する第2音響イベント判定部と、を有し、
前記第1学習用情報が含む音響イベント情報は、前記第1音響イベント判定部で決定された前記音響イベントを表し、
前記第2学習用情報が含む音響イベント情報は、前記第2音響イベント判定部で決定された前記音響イベントを表す、
ことを特徴とする推定装置。
The estimation apparatus according to claim 10, comprising:
A first acoustic event determination unit that determines an acoustic event using a first acoustic feature amount corresponding to a time-series acoustic signal sequence representing a sound accompanying the behavior represented by the behavior information;
A second acoustic event determination unit that uses the second acoustic feature amount to determine an acoustic event,
The acoustic event information included in the first learning information represents the acoustic event determined by the first acoustic event determination unit,
The acoustic event information included in the second learning information represents the acoustic event determined by the second acoustic event determination unit.
An estimation apparatus characterized by that.
JP2012192224A 2012-08-31 2012-08-31 Generation model creation device and estimation device Expired - Fee Related JP5783979B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012192224A JP5783979B2 (en) 2012-08-31 2012-08-31 Generation model creation device and estimation device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012192224A JP5783979B2 (en) 2012-08-31 2012-08-31 Generation model creation device and estimation device

Publications (2)

Publication Number Publication Date
JP2014048521A JP2014048521A (en) 2014-03-17
JP5783979B2 true JP5783979B2 (en) 2015-09-24

Family

ID=50608246

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012192224A Expired - Fee Related JP5783979B2 (en) 2012-08-31 2012-08-31 Generation model creation device and estimation device

Country Status (1)

Country Link
JP (1) JP5783979B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6078441B2 (en) * 2013-07-03 2017-02-08 日本電信電話株式会社 Model processing apparatus, analysis apparatus, method and program thereof
JP6799510B2 (en) * 2017-07-27 2020-12-16 日本電信電話株式会社 Scene recognition devices, methods, and programs

Also Published As

Publication number Publication date
JP2014048521A (en) 2014-03-17

Similar Documents

Publication Publication Date Title
JP6933264B2 (en) Label generators, model learning devices, emotion recognition devices, their methods, programs, and recording media
Boyen et al. Discovering the hidden structure of complex dynamic systems
Sigtia et al. A hybrid recurrent neural network for music transcription
KR20170053525A (en) Apparatus and method for training neural network, apparatus and method for speech recognition
KR20170030923A (en) Apparatus and method for generating an acoustic model, Apparatus and method for speech recognition
JP6967197B2 (en) Anomaly detection device, anomaly detection method and program
KR101217525B1 (en) Viterbi decoder and method for recognizing voice
JP6172317B2 (en) Method and apparatus for mixed model selection
JP6553015B2 (en) Speaker attribute estimation system, learning device, estimation device, speaker attribute estimation method, and program
JP5818759B2 (en) Situation generation model creation device, situation estimation device, and program
CN116383096A (en) Micro-service system anomaly detection method and device based on multi-index time sequence prediction
JP5781040B2 (en) Action estimation apparatus and program thereof
JP2017134321A (en) Signal processing method, signal processing device, and signal processing program
JP5783979B2 (en) Generation model creation device and estimation device
Xie et al. Few-shot class-incremental audio classification via discriminative prototype learning
JP6241790B2 (en) Generation model creation device, estimation device, method and program thereof
JP6910002B2 (en) Dialogue estimation method, dialogue activity estimation device and program
JP6078441B2 (en) Model processing apparatus, analysis apparatus, method and program thereof
JP4950600B2 (en) Acoustic model creation apparatus, speech recognition apparatus using the apparatus, these methods, these programs, and these recording media
US20230419195A1 (en) System and Method for Hierarchical Factor-based Forecasting
Li et al. Decision tree based state tying for speech recognition using DNN derived embeddings
JP2010054588A (en) Sound model preparing device, voice recognition device using the same, these method, these program and these recording medium
JP6093670B2 (en) Model processing apparatus, model processing method, and program
JP5771582B2 (en) Acoustic signal analyzing apparatus, method, and program
Kim et al. The use of discriminative belief tracking in pomdp-based dialogue systems

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140813

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150616

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150714

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150721

R150 Certificate of patent or registration of utility model

Ref document number: 5783979

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees