JP6093670B2 - Model processing apparatus, model processing method, and program - Google Patents

Model processing apparatus, model processing method, and program Download PDF

Info

Publication number
JP6093670B2
JP6093670B2 JP2013164025A JP2013164025A JP6093670B2 JP 6093670 B2 JP6093670 B2 JP 6093670B2 JP 2013164025 A JP2013164025 A JP 2013164025A JP 2013164025 A JP2013164025 A JP 2013164025A JP 6093670 B2 JP6093670 B2 JP 6093670B2
Authority
JP
Japan
Prior art keywords
acoustic
situation
event
sequence
acoustic event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013164025A
Other languages
Japanese (ja)
Other versions
JP2015031944A (en
Inventor
桂右 井本
桂右 井本
尚 植松
尚 植松
仲 大室
仲 大室
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013164025A priority Critical patent/JP6093670B2/en
Publication of JP2015031944A publication Critical patent/JP2015031944A/en
Application granted granted Critical
Publication of JP6093670B2 publication Critical patent/JP6093670B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

この発明は、音響信号列やそれに付随する音響特徴量列を利用して、状況と音響イベントとの関係を表すモデル、および音響イベントと音響特徴量との関係を表すモデルを作成する技術、ならびに生成されたモデルを利用して状況を分析、推定する技術に関する。   The present invention uses a sound signal sequence and an accompanying acoustic feature quantity sequence to create a model that expresses a relationship between a situation and an acoustic event, a model that expresses a relationship between an acoustic event and an acoustic feature quantity, and The present invention relates to a technique for analyzing and estimating a situation using a generated model.

非特許文献1に開示された従来技術では、各状況から生じた音響信号に対して、短時間区間ごとにその短時間区間の音響信号が何の音(足音,水が流れる音;以後、音響イベントとする)であるかを示すラベルが付与された、音響イベントラベル付き音響信号列を入力とし、連続する有限個のフレーム分の音響イベントラベルを用いて音響イベントラベルごとのヒストグラムを作成する。また、生成された音響イベントラベルごとのヒストグラムに対してGMM(Gaussian Mixture Model)、HMM(Hidden Markov Model)、SVM(Support Vector Machine)等のモデル化手法を用い、状況モデルを生成する。   In the prior art disclosed in Non-Patent Document 1, with respect to the acoustic signal generated from each situation, what sound (footstep, water-flowing sound; An acoustic signal sequence with an acoustic event label to which a label indicating whether it is an event is given as an input, and a histogram for each acoustic event label is created using acoustic event labels for a finite number of consecutive frames. In addition, a situation model is generated using a modeling technique such as GMM (Gaussian Mixture Model), HMM (Hidden Markov Model), or SVM (Support Vector Machine) for the generated histogram for each acoustic event label.

さらに、上記状況モデルと新たに入力された音響イベントラベル付き音響信号列から算出された音響イベントのヒストグラムをそれぞれ比較し(例えば、ユークリッド距離やコサイン距離などを用いて比較する)、複数の状況モデルのうち、最も判断基準に適合しているものをその音響信号列に対応する状況を表すと判定する。このように、従来技術では音響信号列から状況を推定することができる。   Furthermore, the above situation model is compared with the histogram of the acoustic event calculated from the newly input acoustic signal label with the acoustic event label (for example, comparison is performed using Euclidean distance, cosine distance, etc.), and a plurality of situation models are compared. Among them, it is determined that the one most suitable for the judgment criterion represents the situation corresponding to the acoustic signal sequence. Thus, according to the conventional technique, the situation can be estimated from the acoustic signal sequence.

井本他,“複数の生活音の出現頻度に基づくユーザ行動の識別手法とコミュニケーションへの応用”,画像電子学会第32回VMA研究会Imoto et al., “A user behavior identification method based on the frequency of appearance of multiple living sounds and its application to communication”, The 32nd VMA meeting of the Institute of Image Electronics Engineers of Japan

従来技術では、状況を分析、推定するための状況モデルと音響イベントラベルを作成するための音響イベントモデルとが別々に作成されていた。そのため、状況モデルと音響イベントモデルとの同時最適化ができず、音響信号列や音響特徴量列から状況をモデル化する際に誤差が生じるという問題点があった。   In the prior art, a situation model for analyzing and estimating the situation and an acoustic event model for creating an acoustic event label have been created separately. For this reason, the situation model and the acoustic event model cannot be simultaneously optimized, and there is a problem that an error occurs when the situation is modeled from the acoustic signal string or the acoustic feature quantity string.

本発明の課題は、状況と音響イベントとの関係、および音響イベントと音響特徴量との関係をそれぞれモデル化する際に、それらの同時最適化が可能な技術を提供することである。   An object of the present invention is to provide a technique capable of simultaneously optimizing a relationship between a situation and an acoustic event and a relationship between an acoustic event and an acoustic feature amount.

本発明では、少なくとも、音響特徴量列、音響イベントの種類の総数、および状況の種類の総数を用い、状況に対応する音響イベントの組み合わせと、音響信号列に対応する状況の組み合わせと、音響イベントに対応する音響特徴量と、に対応する同時分布の最大値を探索する学習処理を行い、少なくとも、状況が音響イベントを生成する確率P(音響イベント|状況)、および音響イベントが音響特徴量を生成する確率P(音響特徴量|音響イベント)を得る。   In the present invention, at least the acoustic feature string, the total number of types of acoustic events, and the total number of types of situations are used, a combination of acoustic events corresponding to the situation, a combination of situations corresponding to the acoustic signal string, and an acoustic event And a learning process for searching for the maximum value of the simultaneous distribution corresponding to, and at least the probability P (acoustic event | situation) that the situation generates an acoustic event, and the acoustic event A probability P to be generated (acoustic feature amount | acoustic event) is obtained.

本発明では、状況と音響イベントとの関係、および音響イベントと音響特徴量との関係をそれぞれモデル化する際に、それらの同時最適化が可能となる。   In the present invention, when modeling the relationship between the situation and the acoustic event and the relationship between the acoustic event and the acoustic feature amount, it is possible to simultaneously optimize them.

実施例1−1の装置構成を例示した図。The figure which illustrated the apparatus structure of Example 1-1. 実施例1−2の装置構成を例示した図。The figure which illustrated the apparatus structure of Example 1-2. 実施例2−1の装置構成を例示した図。The figure which illustrated the apparatus structure of Example 2-1. 実施例2−2の装置構成を例示した図。The figure which illustrated the apparatus structure of Example 2-2. 実施例3−1の装置構成を例示した図。The figure which illustrated the apparatus structure of Example 3-1. 実施例3−2の装置構成を例示した図。The figure which illustrated the apparatus configuration of Example 3-2.

以下、図面を参照して本発明の実施例を説明する。
<用語の定義>
実施例で用いる用語を定義する。
「音響イベント」とは、音の事象を意味する。「音響イベント」の具体例は、「包丁の音」「水が流れる音」「水音」「着火音」「火の音」「足音」「掃除機の排気音」などである。「音響イベントラベル」とは、音響イベントを表すラベルを意味する。「音響イベントラベル列」とは、1個以上の音響イベントラベルからなる列を意味する。
Embodiments of the present invention will be described below with reference to the drawings.
<Definition of terms>
Terms used in the examples are defined.
An “acoustic event” means a sound event. Specific examples of the “acoustic event” include “knife sound”, “water flowing sound”, “water sound”, “ignition sound”, “fire sound”, “foot sound”, and “vacuum exhaust sound”. The “acoustic event label” means a label representing an acoustic event. The “acoustic event label sequence” means a sequence composed of one or more acoustic event labels.

「状況」とは、音響イベントラベルの組み合わせによって規定される、潜在的な音響状態を意味する。言い換えると、「状況」とは、音響イベントによって規定される、潜在的な場の状況を意味する。「状況ラベル」とは、状況を表すラベルを意味する。「状況ラベル列」とは、1個以上の状況ラベルからなる列を意味する。   “Situation” means a potential acoustic state defined by a combination of acoustic event labels. In other words, “situation” means a potential field situation defined by an acoustic event. “Situation label” means a label indicating a situation. The “situation label column” means a column composed of one or more situation labels.

「XがYを生成する確率」とは、事象Xが起こるという条件のもとでの事象Yが起こる確率をいう。「XがYを生成する確率」は、「XのもとでのYの条件付き確率」や「XにおけるYの条件付き確率」とも表現できる。   “Probability that X generates Y” refers to the probability that event Y will occur under the condition that event X occurs. The “probability that X generates Y” can also be expressed as “the conditional probability of Y under X” or “the conditional probability of Y in X”.

[実施例1−1]
実施例1−1では、学習用情報として音響特徴量列を入力とした学習処理によって、状況が音響イベントを生成する確率P(音響イベント|状況)である状況−音響イベント生成モデル、および音響イベントが音響特徴量を生成する確率P(音響特徴量|音響イベント)である音響イベント−音響特徴量生成モデルを算出する。また、この学習処理によって、さらに音響信号が状況を生成する確率P(状況|音響信号)である音響信号−状況生成モデルを生成してもよい。例えば、確率P(音響イベント|状況)は、複数個の音響イベントと状況の組ごとに生成され、確率P(音響特徴量|音響イベント)は、複数個の音響特徴量と音響イベントの組ごとに生成され、確率P(状況|音響信号)は、複数個の状況と音響信号の組ごとに生成される。或いは、例えば、確率P(音響イベント|状況)は、音響イベントと状況の組に対して確率P(音響イベント|状況)を与える関数であり、確率P(音響特徴量|音響イベント)は、音響特徴量と音響イベントの組に対して確率P(音響特徴量|音響イベント)を与える関数であり、確率P(状況|音響信号)は、状況と音響信号の組に対して確率P(状況|音響信号)を与える関数である。さらに、この学習処理の過程でえられた情報から状況ラベル列を生成してもよいし、音響イベントラベル列を生成してもよい。
[Example 1-1]
In Example 1-1, a situation-acoustic event generation model in which a situation is a probability P (acoustic event | situation) of generating an acoustic event by learning processing using an acoustic feature string as input for learning, and an acoustic event Calculates an acoustic event-acoustic feature quantity generation model that is a probability P (acoustic feature quantity | acoustic event) of generating an acoustic feature quantity. Further, through this learning process, an acoustic signal-situation generation model having a probability P (situation | acoustic signal) that the acoustic signal further generates a situation may be generated. For example, the probability P (acoustic event | situation) is generated for each set of a plurality of acoustic events and situations, and the probability P (acoustic feature quantity | acoustic event) is set for each set of a plurality of acoustic feature quantities and acoustic events. The probability P (situation | acoustic signal) is generated for each set of a plurality of situations and acoustic signals. Alternatively, for example, the probability P (acoustic event | situation) is a function that gives a probability P (acoustic event | situation) to a pair of the acoustic event and the situation, and the probability P (acoustic feature quantity | acoustic event) This is a function that gives a probability P (acoustic feature quantity | acoustic event) to a set of feature quantity and acoustic event, and probability P (situation | acoustic signal) is a probability P (situation | (Sound signal). Furthermore, a situation label string may be generated from information obtained in the course of the learning process, or an acoustic event label string may be generated.

図1に例示するように、本実施例のモデル処理装置110は、音響特徴量列合成部101、状況/音響イベントモデル化部102(モデル化部)、及び記憶部103を有する。状況/音響イベントモデル化部102は、例えば、初期化部102a、第1〜4更新部102b〜102e、判定部102f、モデル算出部102g、および解析部102hを有する。モデル処理装置110は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。   As illustrated in FIG. 1, the model processing apparatus 110 according to the present exemplary embodiment includes an acoustic feature quantity sequence synthesizing unit 101, a situation / acoustic event modeling unit 102 (modeling unit), and a storage unit 103. The situation / acoustic event modeling unit 102 includes, for example, an initialization unit 102a, first to fourth update units 102b to 102e, a determination unit 102f, a model calculation unit 102g, and an analysis unit 102h. The model processing apparatus 110 is configured, for example, by reading a predetermined program into a known or dedicated computer.

まず音響特徴量列合成部101に、音響特徴量列11−1,・・・,11−S(ただし、Sは1以上の整数)が入力される。各音響特徴量列11−s(ただし、s=1,・・・,S)は、1個の音響特徴量または2個以上の音響特徴量を時系列方向(例えば、時系列順)につなぎ合わせた列である。各音響特徴量は、短時間区間ごと(数10msec〜数sec程度ごと)の音響信号から得られる。各音響特徴量は複数個の要素からなるベクトルであってもよいし、単数の要素からなるスカラーであってもよい。音響特徴量の要素の例は、音響信号の音圧レベル、音響パワー、MFCC(Mel-Frequency Cepstrum Coefficient)特徴量、LPC(Linear Predictive Coding)特徴量である。さらに音響信号の立ち上がり特性、調波性、時間周期性など(例えば、非特許文献1参照)が音響特徴量の要素であってもよい。また、各音響特徴量列11−sには音響特徴量列番号sが付与されている。   First, acoustic feature quantity sequences 11-1,..., 11-S (where S is an integer equal to or greater than 1) are input to the acoustic feature quantity sequence synthesis unit 101. Each acoustic feature amount column 11-s (where s = 1,..., S) connects one acoustic feature amount or two or more acoustic feature amounts in a time-series direction (for example, time-series order). It is a combined column. Each acoustic feature amount is obtained from an acoustic signal for each short time interval (every tens of milliseconds to several seconds). Each acoustic feature amount may be a vector composed of a plurality of elements, or a scalar composed of a single element. Examples of the elements of the acoustic feature amount are a sound pressure level, an acoustic power, an MFCC (Mel-Frequency Cepstrum Coefficient) feature amount, and an LPC (Linear Predictive Coding) feature amount. Furthermore, the rising characteristic, harmonicity, time periodicity, and the like of the acoustic signal (see, for example, Non-Patent Document 1) may be elements of the acoustic feature amount. Each acoustic feature quantity column 11-s is assigned an acoustic feature quantity column number s.

複数個の音響特徴量列11−1,・・・,11−Sが音響特徴量列合成部101に入力された場合、音響特徴量列合成部101は、それらを時系列方向(例えば、時系列順)につなぎ合わせ、それによって1つの音響特徴量列11を得て出力する(合成処理)。音響特徴量列合成部101に1つの音響特徴量列11−1のみが入力された場合、音響特徴量列合成部101はそれを音響特徴量列11として出力する。音響特徴量列合成部101から出力された音響特徴量列11は、状況/音響イベントモデル化部102に入力される。なお、音響特徴量列合成部101を経由することなく、1つ音響特徴量列11がそのまま状況/音響イベントモデル化部102に入力されてもよい。   When a plurality of acoustic feature value sequences 11-1,..., 11-S are input to the acoustic feature value sequence synthesizing unit 101, the acoustic feature value sequence synthesizing unit 101 converts them into a time-series direction (for example, time (Sequence order), thereby obtaining and outputting one acoustic feature quantity sequence 11 (synthesis process). When only one acoustic feature amount sequence 11-1 is input to the acoustic feature amount sequence combining unit 101, the acoustic feature amount sequence combining unit 101 outputs it as the acoustic feature amount sequence 11. The acoustic feature quantity sequence 11 output from the acoustic feature quantity sequence synthesis unit 101 is input to the situation / acoustic event modeling unit 102. Note that one acoustic feature quantity sequence 11 may be directly input to the situation / acoustic event modeling unit 102 without going through the acoustic feature quantity sequence synthesis unit 101.

状況/音響イベントモデル化部102は、以下の手順に従って、入力された音響特徴量列11から、音響信号が状況を生成する確率P(状況|音響信号)である音響信号−状況生成モデル12、状況が音響イベントを生成する確率P(音響イベント|状況)である状況−音響イベント生成モデル13、および音響イベントが音響特徴量を生成する確率P(音響特徴量|音響イベント)である音響イベント−音響特徴量生成モデル14を算出する(出力する)。さらに、状況/音響イベントモデル化部102は、状況ラベル列15を生成してもよいし、音響イベントラベル列16を生成してもよい。ただし、状況/音響イベントモデル化部102が、音響信号−状況生成モデル12や状況ラベル列15や音響イベントラベル列16を生成することは必須ではない。状況/音響イベントモデル化部102が生成したモデルや列は記憶部103に格納される。   The situation / acoustic event modeling unit 102 performs an acoustic signal-situation generation model 12 having a probability P (situation | acoustic signal) that an acoustic signal generates a situation from the inputted acoustic feature quantity sequence 11 according to the following procedure. Situation in which the situation is a probability P (acoustic event | situation) for generating an acoustic event-Acoustic event generation model 13 and an acoustic event in which the acoustic event has a probability P (acoustic feature quantity | acoustic event) for generating an acoustic feature- The acoustic feature quantity generation model 14 is calculated (output). Further, the situation / acoustic event modeling unit 102 may generate the situation label string 15 or the acoustic event label string 16. However, it is not essential for the situation / acoustic event modeling unit 102 to generate the acoustic signal-situation generation model 12, the situation label sequence 15, and the acoustic event label sequence 16. The model and sequence generated by the situation / acoustic event modeling unit 102 are stored in the storage unit 103.

<音響信号から音響特徴量が生成される過程の理論的説明>
音響信号が状況の生成確率を規定し、状況が音響イベントの生成確率を規定し、音響イベントが音響特徴量の生成確率を規定すると考え、これらの関係を生成モデルとして記述する。
<Theoretical explanation of the process of generating acoustic features from acoustic signals>
It is assumed that the acoustic signal defines the generation probability of the situation, the situation defines the generation probability of the acoustic event, and the acoustic event defines the generation probability of the acoustic feature quantity, and these relationships are described as a generation model.

状況/音響イベントモデル化部102に入力された音響特徴量列11を構成する各音響特徴量列11−s(ただし、s=1,・・・,S)に対応する音響信号が状況t(ただし、t=1,・・・,T)を生成する確率P(Θ)(例えばS×T行列で表現可能)、各状況t(ただし、t=1,・・・,T)が音響イベントm(ただし、m=1,・・・,M)を生成する確率P(Φ)(例えばT×M行列で表現可能)、および各音響イベントm(ただし、m=1,・・・,M)が音響特徴量を生成する確率P(μ,Λ)(例えば、M×Dの平均行列とM×D×Dの分散行列で表現可能)が与えられたときの、音響特徴量列11の生成確率P(f|Θ,Φ,μ,Λ)は以下の通りである。

Figure 0006093670

ただし、Sは1以上の整数であり、音響特徴量列11を構成する音響特徴量列11−sの個数を表す。Tは1以上の整数であり、潜在的な状況の種類の数(状況の種類の総数)を表す。Mは1以上の整数であり、音響イベントの種類の数(音響イベントの種類の総数)を表す。Dは1以上の整数定数であり、音響特徴量の次元数を表す。fは音響特徴量列11を構成する音響特徴量を要素とした列である。Θは音響特徴量列11−sと状況tとの組からなる集合を表し、P(Θ)は、例えば、音響特徴量列11−sが状況tを生成する確率をs行t列の要素とするS×T行列で表現できる。Φは状況tと音響イベントmとの組からなる集合を表し、P(Φ)は、例えば状況tが音響イベントmを生成する確率をt行m列の要素とするT×M行列で表現できる。μは音響イベントmによって発生した音響信号の音響特徴量の平均値μからなる列μ,・・・,μを表す。音響イベントmによって発生した各音響特徴量が複数の要素vcmd(ただし、d=1,・・・,D)からなるベクトル(vcm1,・・・,vcmD)である場合(D≧2の場合)、μは要素vcm1dからvcmEd(ただし、vcmd∈{vcm1d,・・・,vcmEd}であり、Eは音響イベントmに割り当てられる音響特徴量の数を表す)についてのvcmdの期待値mean(vcmd)を要素とするベクトル(mean(vcm1),・・・,mean(vcmD))である。Λは音響イベントmによって発生した音響信号の音響特徴量の分散の逆数(精度)Λからなる列Λ,・・・,Λを表す。音響イベントmによって発生した各音響特徴量が複数の要素vcmdからなるベクトル(vcm1,・・・,vcmD)である場合(D≧2の場合)、Λは要素vcm1dからvcmEd(ただし、Eは音響イベントmに割り当てられる音響特徴量の数を表す)の分散ver(vcmd)の逆数1/ver(vcmd)を要素とするベクトル(1/ver(vcm1),・・・,1/ver(vcmD))である。fは音響特徴量列11−sを表し、音響特徴量列11−sが含むN個の音響特徴量からなる列を表す。Nは音響特徴量列11−sが含む短時間区間ごとの音響特徴量の個数を表す。言い換えると、Nは音響特徴量列11−sに対応する時間区間が含む短時間区間の個数を表す。 The acoustic signal corresponding to each acoustic feature sequence 11-s (where s = 1,..., S) constituting the acoustic feature sequence 11 input to the situation / acoustic event modeling unit 102 is the situation t ( However, the probability P (Θ) for generating t = 1,..., T) (for example, can be expressed by an S × T matrix), and each situation t (where t = 1,..., T) is an acoustic event. probability P (Φ) that generates m (where m = 1,..., M) (representable by a T × M matrix, for example), and each acoustic event m (where m = 1,..., M ) Is given a probability P (μ, Λ) (for example, an M × D average matrix and an M × D × D variance matrix) for generating an acoustic feature amount, The generation probability P (f | Θ, Φ, μ, Λ) is as follows.
Figure 0006093670

However, S is an integer greater than or equal to 1, and represents the number of acoustic feature amount sequences 11-s constituting the acoustic feature amount sequence 11. T is an integer of 1 or more, and represents the number of potential situation types (total number of situation types). M is an integer of 1 or more and represents the number of types of acoustic events (total number of types of acoustic events). D is an integer constant of 1 or more, and represents the number of dimensions of the acoustic feature amount. f is a column having the acoustic feature quantity constituting the acoustic feature quantity sequence 11 as an element. Θ represents a set of a set of acoustic feature quantity column 11-s and situation t, and P (Θ) represents, for example, the probability that acoustic feature quantity column 11-s generates situation t is an element of s rows and t columns. Can be expressed as an S × T matrix. Φ represents a set of a set of the situation t and the acoustic event m, and P (Φ) can be expressed by a T × M matrix having, for example, the probability that the situation t generates the acoustic event m as an element of t rows and m columns. . μ represents a column μ 1 ,..., μ M composed of an average value μ m of acoustic feature amounts of acoustic signals generated by the acoustic event m. Each acoustic feature amount generated by the acoustic event m is a vector (vc m1 ,..., Vc mD ) composed of a plurality of elements vc md (d = 1,..., D) (D ≧ 2 ), Μ m is for elements vc m1d to vc mEd (where vc md ε {vc m1d ,..., Vc mEd }, and E represents the number of acoustic features assigned to the acoustic event m) vector of vc md expected value mean (vc md) and component (mean (vc m1), ··· , mean (vc mD)) is. [Lambda] represents a sequence [Lambda] 1 ,..., [Lambda] M composed of reciprocal (accuracy) [Lambda] m of the acoustic feature amount of the acoustic signal generated by the acoustic event m. When each acoustic feature amount generated by the acoustic event m is a vector (vc m1 ,..., Vc mD ) composed of a plurality of elements vc md (when D ≧ 2), Λ m is derived from the elements vc m1d to vc mEd. (Where E represents the number of acoustic feature values assigned to the acoustic event m), a vector (1 / ver (vc m1 ),... Of the inverse 1 / ver (vc md ) of the variance vers (vc md ) .. , 1 / ver (vc mD )). f s represents the acoustic features columns 11-s, representing the column consisting of N s number of acoustic features, including the acoustic feature sequence 11-s. N s represents the number of acoustic feature amounts for each short time section included in the acoustic feature amount sequence 11-s. In other words, N s represents the number of short time sections included in the time section corresponding to the acoustic feature quantity sequence 11-s.

また、音響特徴量列11−sの生成確率P(f)は、例えば、各音響信号が状況を生成する確率θの事前分布(Dirchlet分布に従うものとする)の超パラメータα、各状況が音響イベントを生成する確率φの事前分布(Dirchlet分布に従うものとする)の超パラメータγ、各音響イベントにおける音響特徴量の平均の超パラメータβ,μ、各音響イベントにおける音響特徴量の精度の超パラメータν,Bを用いて以下のように表すことができる。

Figure 0006093670

ただし、fs,i、zs,i、ms,iは、それぞれ、音響特徴量列11−sに含まれる先頭からi番目の短時間区間での音響特徴量、状況、音響イベントを表す。Dir(・),N(・),W(・)は、それぞれ、Dirichlet分布の確率密度関数、Normal分布の確率密度関数、Wishart分布の確率密度関数を表す。 Also, the acoustic feature quantity column 11-s of generation probability P (f s), for example, hyper-parameters of the prior distribution of probabilities θ of each acoustic signal to generate a status (to be subject to Dirchlet distribution) alpha, each situation Super parameter γ of prior distribution of probability φ to generate an acoustic event (according to the Dirchlet distribution), average super parameters β 0 , μ 0 of acoustic feature quantities in each acoustic event, accuracy of acoustic feature quantity in each acoustic event Can be expressed as follows using the hyperparameters ν 0 and B 0 of
Figure 0006093670

Here, f s, i , z s, i , m s, i represent the acoustic feature amount, the situation, and the acoustic event in the i-th short time section from the head included in the acoustic feature amount sequence 11-s, respectively. . Dir (•), N (•), and W (•) represent the probability density function of the Dirichlet distribution, the probability density function of the Normal distribution, and the probability density function of the Wishart distribution, respectively.

ここでK−1次(Kは2以上の整数)のDirichlet分布の確率密度関数Dir(ι|τ)、およびD次のGauss−Wishart分布の確率密度関数N(μ|β,μ,Λ)W(Λ|ν,B)は以下の通りである。

Figure 0006093670

ただし、τはτ(k=1,...,K)からなるパラメータ、ιは確率変数、Γはガンマ関数を表す。(・)は(・)の転置を表す。また、
Figure 0006093670

である。 Here, the probability density function Dir (ι | τ) of the K-1 order (K is an integer of 2 or more) Dirichlet distribution, and the probability density function N (μ | β 0 , μ 0 , D-order Gauss-Wishart distribution) Λ) W (Λ | ν 0 , B 0 ) is as follows.
Figure 0006093670

Here, τ represents a parameter composed of τ k (k = 1,..., K), ι represents a random variable, and Γ represents a gamma function. (•) T represents transposition of (•). Also,
Figure 0006093670

It is.

<生成モデルの算出過程の説明>
状況/音響イベントモデル化部102は、入力された音響特徴量列11から、学習処理によって、前述の生成モデルやラベル列等を生成する。この学習処理は、入力された音響特徴量列11に基づいて、音響信号が状況を生成する確率P(状況|音響信号)、状況が音響イベントを生成する確率P(音響イベント|状況)、および音響イベントが音響特徴量を生成する確率P(音響特徴量|音響イベント)に基づく、状況に対応する音響イベントの組み合わせと、音響信号列に対応する状況の組み合わせと、音響イベントに対応する音響特徴量と、に対応する同時分布の最大値を探索する処理によって行われる。言い換えると、状況/音響イベントモデル化部102は、音響信号が状況を生成する確率P(状況|音響信号)、状況が音響イベントを生成する確率P(音響イベント|状況)、および音響イベントが音響特徴量を生成する確率P(音響特徴量|音響イベント)おいて、入力された音響特徴量列11の尤もらしさ(尤度または対数尤度)を最大化する学習処理(最尤学習)を行う。言い換えると、状況/音響イベントモデル化部102は、音響信号−状況生成モデル12のモデルパラメータ、状況−音響イベント生成モデル13のモデルパラメータ、および音響イベント−音響特徴量生成モデル14のモデルパラメータにおいて、入力された音響特徴量列11の尤もらしさ(すなわち、尤度関数L(音響特徴量列|パラメータ)=P(音響特徴量列|パラメータ)または対数尤度関数log L(音響特徴量列|パラメータ))を最大化する学習処理を行い、その結果を用いて各生成モデルや各ラベル列を生成する。なお、「log」は自然対数を表す。
<Description of generation model calculation process>
The situation / acoustic event modeling unit 102 generates the above-described generation model, label sequence, and the like from the input acoustic feature amount sequence 11 through learning processing. This learning process is based on the input acoustic feature quantity sequence 11 and the probability P (situation | acoustic signal) that the acoustic signal generates a situation, the probability P that the situation generates an acoustic event (acoustic event | situation), and Based on a probability P (acoustic feature amount | acoustic event) that an acoustic event generates an acoustic feature amount, a combination of acoustic events corresponding to a situation, a combination of situations corresponding to an acoustic signal sequence, and an acoustic feature corresponding to the acoustic event And a process for searching for the maximum value of the simultaneous distribution corresponding to the quantity. In other words, the situation / acoustic event modeling unit 102 determines the probability P (situation | acoustic signal) that the acoustic signal generates a situation, the probability P (acoustic event | situation) that the situation generates an acoustic event, and the acoustic event is acoustic. A learning process (maximum likelihood learning) that maximizes the likelihood (likelihood or logarithmic likelihood) of the input acoustic feature quantity sequence 11 is performed at a probability P (acoustic feature quantity | acoustic event) of generating a feature quantity. . In other words, the situation / acoustic event modeling unit 102 uses the model parameters of the acoustic signal-situation generation model 12, the model parameters of the situation-acoustic event generation model 13, and the model parameters of the acoustic event-acoustic feature generation model 14. Likelihood of the input acoustic feature quantity sequence 11 (that is, likelihood function L (acoustic feature quantity sequence | parameter) = P (acoustic feature quantity sequence | parameter) or log likelihood function log L (acoustic feature quantity sequence | parameter) )) Is maximized, and each generation model and each label sequence is generated using the learning process. “Log” represents a natural logarithm.

このような学習には、上記の生成過程に基づいたマルコフ連鎖モンテカルロ法(MCMC法,Markov Chain Monte Carlo methods)や変分ベイズ法(VB法,Variational Bayes methods)などの手法を用いることができる。ここでは変分ベイズ法による生成モデルのパラメータ算出手法について説明を行う。   For such learning, a Markov chain Monte Carlo method (MCMC method, Markov Chain Monte Carlo methods) or a variational Bayes method (VB method, Variational Bayes methods) based on the above generation process can be used. Here, the parameter calculation method of the generation model by the variational Bayes method will be described.

<生成モデルの算出のための準備>
変分ベイズ法による生成モデルのパラメータ算出では、未知のモデルパラメータα,γ,μ,β,ν,Bを確率変数として扱い、音響特徴量列11であるfについての対数尤度関数を最大化するモデルパラメータα,γ,μ,β,ν,Bを求める。ここで、この対数尤度関数の未知であるすべてのモデルパラメータα,γ,μ,β,ν,Bを周辺化した対数周辺尤度L(f)=p(f|α,γ,μ,β,ν,B)を考える。ここで新たな分布q(m,z,μ,Λ,φ,θ)(以下、「変分事後分布」と呼ぶ)を導入すると、Jensenの不等式によって、以下のような対数周辺尤度の下限値(Lower Bound)F[q]を求めることができる。
<Preparation for generation model calculation>
In the generation model parameter calculation by the variational Bayes method, the unknown model parameters α, γ, μ 0 , β 0 , ν 0 , B 0 are treated as random variables, and the log likelihood for f which is the acoustic feature string 11 is used. The model parameters α, γ, μ 0 , β 0 , ν 0 , B 0 that maximize the function are obtained. Here, logarithmic marginal likelihood L (f) = p (f | α, which is a marginalization of all unknown model parameters α, γ, μ 0 , β 0 , ν 0 , B 0 of the log likelihood function. Consider γ, μ 0 , β 0 , ν 0 , B 0 ). Here, when a new distribution q (m, z, μ, Λ, φ, θ) (hereinafter referred to as “variant posterior distribution”) is introduced, the lower bound of the logarithmic marginal likelihood is as follows according to Jensen's inequality. A value (Lower Bound) F [q] can be obtained.

Figure 0006093670
ただし、<P(・)>q(・)はP(・)のq(・)に関する期待値を表す。また、zは音響特徴量列11に対応する状況からなる列であり、φは状況が音響イベントを生成する確率を表す変数であり、θは音響信号が状況を表す確率を表す変数である。なお、下限値F[q]は変分事後分布q(m,z,μ,Λ,φ,θ)を変関数とする汎関数である。
Figure 0006093670
However, <P (•)> q (•) represents an expected value for q (•) of P (•). Further, z is a column composed of situations corresponding to the acoustic feature amount column 11, φ is a variable representing the probability that the situation generates an acoustic event, and θ is a variable representing the probability that the acoustic signal represents the situation. The lower limit value F [q] is a functional having the variational posterior distribution q (m, z, μ, Λ, φ, θ) as a variable function.

また、上記の式から以下が成り立つ。

Figure 0006093670
Moreover, the following holds from the above formula.
Figure 0006093670

よって、以下の関係が成り立つ。
L(f)=F[q]+KL(q(m,z,μ,Λ,φ,θ),p(m,z,μ,Λ,φ,θ|f))
ただし、KL(・)は、KLはダイバージェンスを表すものとする。
Therefore, the following relationship is established.
L (f) = F [q] + KL (q (m, z, μ, Λ, φ, θ), p (m, z, μ, Λ, φ, θ | f))
However, KL (·) represents divergence.

ここで、L(f)がfのみに依存することに注意すると、下限値F[q]を最大化することは、q(m,z,μ,Λ,φ,θ)とp(m,z,μ,Λ,φ,θ|f)とのKLダイバージェンスを最小化することと等価であることがわかる。言い換えると、下限値F[q]を最大化する変分事後分布q(m,z,μ,Λ,φ,θ)は、真の事後分布p(m,z,μ,Λ,φ,θ|f)の最良近似となる。ここで,変分事後分布についてq(m,z,μ,Λ,φ,θ)=q(m,z)q(μ,Λ,φ,θ)を仮定する。m,zは変分ベイズ学習における隠れ変数(非観測変数)に相当し、μ,Λ,φ,θはパラメータに相当する。すると、下限値F[q]は以下のように変形できる。

Figure 0006093670
Note that L (f) depends only on f, and maximizing the lower limit value F [q] means that q (m, z, μ, Λ, φ, θ) and p (m, It can be seen that this is equivalent to minimizing the KL divergence with z, μ, Λ, φ, θ | f). In other words, the variational posterior distribution q (m, z, μ, Λ, φ, θ) that maximizes the lower limit F [q] is the true posterior distribution p (m, z, μ, Λ, φ, θ). | F) is the best approximation. Here, q (m, z, μ, Λ, φ, θ) = q (m, z) q (μ, Λ, φ, θ) is assumed for the variational posterior distribution. m and z correspond to hidden variables (unobserved variables) in variational Bayes learning, and μ, Λ, φ, and θ correspond to parameters. Then, the lower limit value F [q] can be modified as follows.
Figure 0006093670

まず、q(m,z)=q(m|z)q(z)とし、隠れ変数m,zの変分事後分布の導出を行う。F[q]において、zに依存しない項を定数項と見なし、ラグランジュの未定乗数法などを用いてzの変分事後分布q(z)を導出すると、q(z)は多項分布の積で表現可能であることがわかる。そこで、q(z)のパラメータrntを導入する。すると、q(z)は以下のように表現できる。

Figure 0006093670

ただし、音響特徴量列11に対応する時間区間が含む短時間区間の個数をNとし(N=Σs=1 )、n=1,・・・,Nとする。zntは音響特徴量列11に含まれる先頭からn番目の音響特徴量が状況tに対応する場合に1となり、そうでない場合に0となる。 First, q (m, z) = q (m | z) q (z) is set, and a variational posterior distribution of hidden variables m and z is derived. In F [q], if a term independent of z is regarded as a constant term and the variational posterior distribution q (z) of z is derived using Lagrange's undetermined multiplier method or the like, q (z) is a product of multinomial distributions. It can be seen that it can be expressed. Therefore, the parameter r nt of q (z) is introduced. Then, q (z) can be expressed as follows.
Figure 0006093670

However, let N be the number of short time sections included in the time section corresponding to the acoustic feature quantity sequence 11 (N = Σ s = 1 S N s ), and n = 1,. z nt is 1 when the nth acoustic feature amount from the head included in the acoustic feature amount sequence 11 corresponds to the situation t, and 0 otherwise.

同様に、mの変分事後分布q(m|z)を導出すると、q(m|z)は多項分布の積で表現可能であることが分かる。そこで、q(m|z)のパラメータunmを導入する。すると、q(m|z)は以下のように表現できる。

Figure 0006093670

ただし、ynmは音響特徴量列11に含まれる先頭からn番目の音響特徴量が音響イベントmに対応する場合に1となり、そうでない場合に0となる。 Similarly, if the variational posterior distribution q (m | z) of m is derived, it can be seen that q (m | z) can be expressed by a product of multinomial distributions. Therefore, the parameter u nm of q (m | z) is introduced. Then, q (m | z) can be expressed as follows.
Figure 0006093670

However, y nm is 1 when the nth acoustic feature amount from the head included in the acoustic feature amount sequence 11 corresponds to the acoustic event m, and 0 otherwise.

次に、q(μ,Λ,φ,θ)=q(φ)q(θ)q(μ|Λ)q(Λ)と仮定し、パラメータμ,Λ,φ,θの変分事後分布を導出する。まず、パラメータrntのうち、音響特徴量列11−sに対応する時間区間の先頭からn’番目(n’=1,・・・,N)の短時間区間に対応するパラメータをrsn’tとおく。すなわち、以下の関係を満たす。

Figure 0006093670

また、Nstを以下のようにおく。
Figure 0006093670

すると、パラメータθの変分事後分布q(θ)は、以下の形のディリクレ分布となる。
Figure 0006093670

ただし、θstは音響信号sが状況tを生成する確率を表し、Cθはq(θ)のθについての全空間積分値を1とするための規格化定数である。 Next, assuming that q (μ, Λ, φ, θ) = q (φ) q (θ) q (μ | Λ) q (Λ), the variational posterior distribution of the parameters μ, Λ, φ, θ is To derive. First, among the parameters r nt , the parameters corresponding to the n′-th (n ′ = 1,..., N s ) short time interval from the beginning of the time interval corresponding to the acoustic feature quantity sequence 11-s are set to r sn. 't . That is, the following relationship is satisfied.
Figure 0006093670

N st is set as follows.
Figure 0006093670

Then, the variational posterior distribution q (θ) of the parameter θ is a Dirichlet distribution having the following form.
Figure 0006093670

Here, θ st represents the probability that the acoustic signal s generates the situation t, and C θ is a normalization constant for setting the total spatial integration value for θ of q (θ) to 1.

また、Ntmを以下のようにおく。

Figure 0006093670

すると、パラメータφの変分事後分布q(φ)は、以下の形のディリクレ分布となる。
Figure 0006093670

ただし、Cφはq(φ)のφについての全空間積分値を1とするための規格化定数である。 Further, N tm is set as follows.
Figure 0006093670

Then, the variational posterior distribution q (φ) of the parameter φ is a Dirichlet distribution having the following form.
Figure 0006093670

However, C φ is a normalization constant for setting the total spatial integration value for φ of q (φ) to 1.

同様に、μの変分事後分布q(μ|Λ)は以下のように算出可能である。

Figure 0006093670

つまり、q(μ|Λ)は平均がμ、共分散がβΛのガウス分布であることが分かる。 Similarly, mu m variational posterior distribution q (μ m | Λ m) can be calculated as follows.
Figure 0006093670

That is, it can be seen that q (μ m | Λ m ) is a Gaussian distribution with an average of μ m and a covariance of β m Λ m .

さらに、Λの変分事後分布q(Λ)は以下の様に記述可能である。

Figure 0006093670

ただし、以下を満たす。
Figure 0006093670

つまり、q(Λ)はνおよびBをパラメータとするWishart分布であることが分かる。 Moreover, lambda m the variational posterior distribution q (Λ m) can be described as follows.
Figure 0006093670

However, the following is satisfied.
Figure 0006093670

That is, it can be seen that q (Λ m ) is a Wishart distribution with ν 0 and B m as parameters.

以上によってパラメータμ,Λ,φ,θの変分事後分布q(μ,Λ,φ,θ)が導出できたので、再び、隠れ変数m,zの変分事後分布の導出に戻り、パラメータrntおよびunmを導出する。 Thus, the variational posterior distribution q (μ, Λ, φ, θ) of the parameters μ, Λ, φ, θ can be derived. Therefore, the process returns to the derivation of the variational posterior distribution of the hidden variables m, z again, and the parameter r Deriving nt and u nm .

まず、変分事後分布q(z)のzについての全空間積分値が1であるとの制約条件のもとでF[q]を最大化するq(z)は、以下のようになる。

Figure 0006093670

ただし、Cはq(z)のzについての全空間積分値を1とするための規格化定数である。また、φtmは状況tが音響イベントmを生成する確率を表す。 First, q (z) that maximizes F [q] under the constraint that the total spatial integration value for z of the variational posterior distribution q (z) is 1 is as follows.
Figure 0006093670

Here, C z is a normalization constant for setting the total space integral value for z of q (z) to 1. Φ tm represents the probability that the situation t generates an acoustic event m.

ここで

Figure 0006093670

として、この部分を計算すると以下のようになる。
Figure 0006093670

ただし、Ψはディガンマ関数を表す。 here
Figure 0006093670

As a result, this part is calculated as follows.
Figure 0006093670

Here, Ψ represents a digamma function.

よって最終的に、式(1)(8)より、音響特徴量列11−sに対応するパラメータrsn’tは以下のように表現できる。

Figure 0006093670
Therefore, finally, from the equations (1) and (8), the parameter r sn't corresponding to the acoustic feature quantity sequence 11-s can be expressed as follows.
Figure 0006093670

ただし、パラメータunmのうち、音響特徴量列11−sに対応する時間区間の先頭からn’番目(n’=1,・・・,N)の短時間区間に対応するパラメータをusn’mとおく。すなわち、以下の関係を満たす。

Figure 0006093670

また、Usn’mはusn’mを用いて以下のように表現される。
Figure 0006093670
However, among the parameters u nm , the parameters corresponding to the n′-th (n ′ = 1,..., N s ) short time interval from the beginning of the time interval corresponding to the acoustic feature amount sequence 11-s are set to u sn. 'm . That is, the following relationship is satisfied.
Figure 0006093670

U sn′m is expressed as follows using u sn′m .
Figure 0006093670

また、変分事後分布q(m|z)のmについての全空間積分値が1であるとの制約条件のもとでF[q]を最大化するq(m|z)は、以下のようになる。

Figure 0006093670
ただし、Cm,zはq(m,z)の(m,z)についての全空間積分値を1とするための規格化定数である。
この各項をzの変分事後分布q(z)の場合と同様に算出していくと、以下のようになる。
Figure 0006093670

よって、以下を満たす。
Figure 0006093670
Further, q (m | z) that maximizes F [q] under the constraint that the total spatial integration value for m of the variational posterior distribution q (m | z) is 1 is It becomes like this.
Figure 0006093670
Here, C m, z is a normalization constant for setting the total space integral value for (m, z) of q (m, z) to 1.
If each of these terms is calculated in the same manner as in the case of the variational posterior distribution q (z) of z, the following is obtained.
Figure 0006093670

Therefore, the following is satisfied.
Figure 0006093670

よって最終的に、式(2)(12)より、パラメータunmは以下のように表現できる。

Figure 0006093670
Therefore, finally, from the equations (2) and (12), the parameter u nm can be expressed as follows.
Figure 0006093670

以上より、生成モデルを推定する際は、隠れ変数であるm,zの変分事後分布とパラメータであるμ,Λ,φ,θの変分事後分布とを上記の式(3)〜(7)(9)〜(11)(13)に当てはめて繰り返し更新すれば良いことが分かる。   From the above, when estimating the generation model, the variational posterior distributions of m and z which are hidden variables and the variational posterior distributions of parameters μ, Λ, φ and θ are expressed by the above equations (3) to (7). ) (9) to (11) It is understood that it is only necessary to repeatedly update by applying to (13).

<生成モデル算出の流れの例>
(i)まず、状況/音響イベントモデル化部102は、S,T,M,D,N,Nを入力とし、ハイパパラメータとしてα,γ,μ,β,ν,Bを設定し(例えば、α=0.3,γ=0.1,μ=0(全ての要素を0とするベクトル),β=2.0,ν=D+1,B=I(単位行列)等)、これらを用いて、以下のように各変分事後分布のハイパパラメータを初期化する。
<Example of generation model calculation flow>
(I) First, the situation / acoustic event modeling unit 102 receives S, T, M, D, N, and N s as inputs and sets α, γ, μ 0 , β 0 , ν 0 , and B 0 as hyperparameters. Set (for example, α = 0.3, γ = 0.1, μ 0 = 0 (vector in which all elements are 0), β 0 = 2.0, ν 0 = D + 1, B 0 = I (unit) Using these, the hyperparameters of each variational posterior distribution are initialized as follows.

(i−1)状況/音響イベントモデル化部102の初期化部102aは、s=1,・・・,S、t=1,・・・・,Tに対して、以下を設定する。
αst (0)=α
st (0)=N/T
なお、上付き添え字の(0)はstの真上に記載すべきであるが、記述の制約上stの右上に表記されている。すなわち、文字「G」「g1」「g2」についての「Gg1 g2」との表記は、「g2」が「g1」の真上にある表記と同義である。
(I-1) The initialization unit 102a of the situation / acoustic event modeling unit 102 sets the following for s = 1,..., S, t = 1,.
α st (0) = α
N st (0) = N s / T
The superscript (0) should be described immediately above st, but it is described at the upper right of st due to the restriction of description. That is, the notation “G g1 g2 ” for the letters “G”, “g1”, and “g2” is synonymous with the notation that “g2” is directly above “g1”.

(i−2)状況/音響イベントモデル化部102の初期化部102aは、t=1,2,・・・,T、m=1,2,・・・・,Mに対して、以下を設定し、さらにh=0とする。
γtm (0)=γ
tm (0)=N/(T×M)
(0)=N/M
μ (0)=μ
ν (0)=ν
(0)=B
sn’m (0)=0(零行列)

Figure 0006093670
(I-2) The initialization unit 102a of the situation / acoustic event modeling unit 102 performs the following for t = 1, 2,..., T, m = 1, 2,. Set h = 0.
γ tm (0) = γ
N tm (0) = N / (T × M)
N m (0) = N / M
μ m (0) = μ 0
ν m (0) = ν 0
B m (0) = B 0
U sn'm (0) = 0 (zero matrix)
Figure 0006093670

その後、状況/音響イベントモデル化部102は、入力された音響特徴量f,・・・,fの列を用いて、以下の(ii−1−1),(ii−1−2),(ii−2−1),および(ii−2−2)を、終了条件が満たされるまで繰り返す。終了条件の例は、(ii−1−1),(ii−1−2),(ii−2−1),および(ii−2−2)を規定の回数(正値、例えば1〜3000回程度)繰り返すこと、または、所望の結果が得られこと(例えば、割り当ての前後において、F(q)の変化が一定の閾値(例えば0.01%)以下にこと)である。 After that, the situation / acoustic event modeling unit 102 uses the input acoustic feature quantities f 1 ,..., F N and the following (ii-1-1), (ii-1-2) , (Ii-2-1), and (ii-2-2) are repeated until the end condition is satisfied. Examples of termination conditions include (ii-1-1), (ii-1-2), (ii-2-1), and (ii-2-2) a predetermined number of times (positive value, for example, 1 to 3000). It is to repeat, or to obtain a desired result (for example, the change of F (q) before and after the assignment is below a certain threshold (for example, 0.01%)).

(ii−1−1)状況/音響イベントモデル化部102の第1更新部102bは、s=1,2,・・・,S、n’=1,2,・・・,N、t=1,2,・・・・,Tに対して、以下のように隠れ変数zの変分事後分布q(z)のパラメータを更新して出力する。なお、rsn’t (h)はh回目の更新で得られたrsn’tであり、Rsn’t (h)はh回目の更新で得られたRsn’tであり、usn’m (h)はh回目の更新で得られたusn’mであり、Usn’m (h)はh回目の更新で得られたUsn’mである。

Figure 0006093670
その後(ii−1−2)に進む。 The first updating unit 102b of (ii-1-1) status / acoustic event modeling unit 102, s = 1,2, ···, S , n '= 1,2, ···, N s, t = 1, 2,..., T, update the parameter of the variational posterior distribution q (z) of the hidden variable z as follows. Note that r sn't (h) is r sn't obtained by the h-th update, R sn't (h) is R sn't obtained by the h-th update, and u sn 'm (h) is u sn'm obtained by the h-th update, and U sn'm (h) is U sn'm obtained by the h-th update.
Figure 0006093670
Thereafter, the process proceeds to (ii-1-2).

(ii−1−2)状況/音響イベントモデル化部102の第2更新部102cは、n=1,2,・・・,N、m=1,2,・・・・,Mに対して、以下のように隠れ変数mの変分事後分布q(m|z)のパラメータを更新して出力する。

Figure 0006093670
その後(ii−2−1)に進む。 (Ii-1-2) The second update unit 102c of the situation / acoustic event modeling unit 102 performs processing for n = 1, 2,..., N, m = 1, 2,. The parameter of the variational posterior distribution q (m | z) of the hidden variable m is updated and output as follows.
Figure 0006093670
Thereafter, the process proceeds to (ii-2-1).

(ii−2−1)状況/音響イベントモデル化部102の第3更新部102dは、s=1,2,・・・,S、n’=1,2,・・・,N、t=1,2,・・・・,Tに対して、以下のようにパラメータθの変分事後分布q(θ)のパラメータを更新して出力する。

Figure 0006093670

その後(ii−2−2)に進む。 Third updating unit 102d of (ii-2-1) status / acoustic event modeling unit 102, s = 1,2, ···, S , n '= 1,2, ···, N s, t = 1, 2,..., T, the parameter of the variational posterior distribution q (θ) of the parameter θ is updated and output as follows.
Figure 0006093670

Thereafter, the process proceeds to (ii-2-2).

(ii−2−2)状況/音響イベントモデル化部102の第4更新部102eは、n=1,2,・・・,N、t=1,2,・・・,T、m=1,2,・・・・,Mに対して、以下のようにパラメータφ,μ,Λの変分事後分布q(φ),q(μ|Λ),q(Λ)のパラメータを更新して出力する。

Figure 0006093670

Figure 0006093670
(Ii-2-2) The fourth update unit 102e of the situation / acoustic event modeling unit 102 includes n = 1, 2,..., N, t = 1, 2,. , 2,..., M, the variational posterior distributions q (φ), q (μ m | Λ m ), q (Λ m ) of parameters φ, μ, Λ are as follows. Update and output.
Figure 0006093670

Figure 0006093670

その後、状況/音響イベントモデル化部102の判定部102fは終了条件を満たしたかを判定する。終了条件を満たしていない場合、判定部102fはh+1を新たなhとして(ii−1−1)の処理に戻し、第1〜4更新部102b〜102eの処理を再び実行させた後、終了条件を満たしたかを判定する。終了条件を満たした場合には、状況/音響イベントモデル化部102のモデル算出部102gが、第1〜4更新部102b〜102eの何れかで得られた更新後のパラメータを用いて、音響信号−状況生成モデル12、状況−音響イベント生成モデル13、および音響イベント−音響特徴量生成モデル14を算出する。状況/音響イベントモデル化部102の解析部102hが、更新後のパラメータを用いて、状況ラベル列15を生成してもよいし、音響イベントラベル列16を生成してもよい。ただし音響信号−状況生成モデル12や状況ラベル列15や音響イベントラベル列16を生成することは必須ではない。状況/音響イベントモデル化部102が生成した生成モデルやラベル列は記憶部103に格納される。   Thereafter, the determination unit 102f of the situation / acoustic event modeling unit 102 determines whether the end condition is satisfied. When the termination condition is not satisfied, the determination unit 102f sets h + 1 as a new h, returns to the process (ii-1-1), causes the first to fourth update units 102b to 102e to execute again, and then terminates the condition. It is determined whether or not When the termination condition is satisfied, the model calculation unit 102g of the situation / acoustic event modeling unit 102 uses the updated parameters obtained by any of the first to fourth update units 102b to 102e, and the acoustic signal -A situation generation model 12, a situation-acoustic event generation model 13, and an acoustic event-acoustic feature quantity generation model 14 are calculated. The analysis unit 102h of the situation / acoustic event modeling unit 102 may generate the situation label sequence 15 or the acoustic event label sequence 16 using the updated parameters. However, it is not essential to generate the acoustic signal-situation generation model 12, the situation label string 15, and the acoustic event label string 16. The generated model and the label string generated by the situation / acoustic event modeling unit 102 are stored in the storage unit 103.

例えば、状況/音響イベントモデル化部102のモデル算出部102gは、以下のt=1,・・・,Tについての以下のNstを音響信号−状況生成モデル12として算出してもよいし、m=1,・・・,M、t=1,・・・,Tについての以下のNtmを状況−音響イベント生成モデル13として算出してもよいし、m=1,・・・,Mについての以下のν (h)を平均、Σμm (h)を分散、gμm (h)を自由度とするStudent−t分布に従う確率密度関数を音響イベント−音響特徴量生成モデル14としてもよい。ただし、下付き添え字の「μm」はμを表す。

Figure 0006093670
For example, the model calculation unit 102g of the situation / acoustic event modeling unit 102 may calculate the following N st for the following t = 1,..., T as the acoustic signal-situation generation model 12. The following N tm for m = 1,..., M, t = 1,..., T may be calculated as the situation-acoustic event generation model 13, or m = 1,. The probability density function according to the Student-t distribution with the following ν m (h) as mean, Σ μm (h) as variance, and g μm (h) as degrees of freedom is also used as the acoustic event-acoustic feature generation model 14 Good. However, "μm" in the subscript represents the μ m.
Figure 0006093670

また例えば、状況/音響イベントモデル化部102の解析部102hは、音響特徴量列11−sに対応する時間区間の先頭からn’番目の短時間区間の音響特徴量に対してargmaxsn’tを算出し、それらを並べた状況ラベル列15や、音響特徴量列11に対応する時間区間の先頭からn番目の短時間区間の音響特徴量に対してargmaxnmを算出し、それらを並べた音響イベントラベル列16を出力しても良い。 Further, for example, the analysis unit 102h of the situation / acoustic event modeling unit 102 sets argmax t R sn for the acoustic feature amount in the n′-th short-time interval from the beginning of the time interval corresponding to the acoustic feature amount sequence 11-s. 't is calculated, and argmax m U nm is calculated with respect to the acoustic feature quantity in the n-th short time section from the beginning of the time section corresponding to the situation label string 15 and the acoustic feature quantity string 11 arranged in order, You may output the acoustic event label row | line | column 16 which arranged them.

以上のように本実施例では、状況/音響イベントモデル化部102において、音響信号が状況を生成する確率や、状況が音響イベントを生成する確率のみではなく、音響イベントが音響特徴量を生成する確率の学習をも同時に行うことができる。その結果、音響イベント間の類似度を精度良く生成モデルに組み込むことができる。また、上記更新の結果で割り当てられた状況や音響イベントを分析することで、各音響特徴量がどの状況や音響イベントにより生成されたものかを知ることも可能である。   As described above, in the present embodiment, in the situation / acoustic event modeling unit 102, not only the probability that an acoustic signal generates a situation or the probability that a situation generates an acoustic event, but also an acoustic event generates an acoustic feature. Probability learning can be performed simultaneously. As a result, the similarity between acoustic events can be accurately incorporated into the generation model. Further, by analyzing the situation and acoustic event assigned as a result of the update, it is also possible to know which situation and acoustic event each acoustic feature amount is generated by.

[実施例1−2]
実施例1−2では、音響信号列を入力として、学習処理によって、音響信号−状況生成モデル12、状況−音響イベント生成モデル13、および音響イベント−音響特徴量生成モデル14を算出する。さらに、状況ラベル列15を生成してもよいし、音響イベントラベル列16を生成してもよい。ただし、状況/音響イベントモデル化部102が、音響信号−状況生成モデル12や状況ラベル列15や音響イベントラベル列16を生成することは必須ではない。以降、同一のものには同じ参照符号を付し、説明は繰り返さない。
[Example 1-2]
In Example 1-2, the acoustic signal sequence is input, and the acoustic signal-situation generation model 12, the situation-acoustic event generation model 13, and the acoustic event-acoustic feature generation model 14 are calculated by learning processing. Furthermore, the situation label sequence 15 may be generated, or the acoustic event label sequence 16 may be generated. However, it is not essential for the situation / acoustic event modeling unit 102 to generate the acoustic signal-situation generation model 12, the situation label sequence 15, and the acoustic event label sequence 16. Hereinafter, the same reference numerals are given to the same components, and description thereof will not be repeated.

図2に例示するように、本形態のモデル処理装置120は、特徴量算出部111、音響特徴量列合成部101、状況/音響イベントモデル化部102、及び記憶部103を有する。モデル処理装置120は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。   As illustrated in FIG. 2, the model processing apparatus 120 of this embodiment includes a feature amount calculation unit 111, an acoustic feature amount sequence synthesis unit 101, a situation / acoustic event modeling unit 102, and a storage unit 103. The model processing device 120 is configured, for example, by reading a predetermined program into a known or dedicated computer.

まず特徴量算出部111に音響信号列10−1,・・・,10−Sが入力される。各音響信号列10−s(ただし、s∈{1,・・・,S})は、短時間区間ごとに区分された要素からなり、各要素には要素番号が付されている。   First, acoustic signal sequences 10-1,..., 10-S are input to the feature amount calculation unit 111. Each acoustic signal sequence 10-s (where sε {1,..., S}) is composed of elements divided for each short time section, and each element is assigned an element number.

特徴量算出部111は、各音響信号列10−sから、音響特徴量列10−sを算出して出力する。各音響特徴量は複数個の要素からなるベクトルであってもよいし、単数の要素からなるスカラーであってもよい。例えば特徴量算出部111は、入力された音響信号列10−sに対し、前述の短時間区間からなるフレームごとに、音圧レベル、音響パワー、MFCC特徴量、LPC特徴量などを算出し、これらを音響特徴量列として出力する。さらに立ち上がり特性、調波性、時間周期性などの音響特徴量が音響特徴量列に加えられてもよい。各音響特徴量列11−sには音響特徴量列番号sが付与される。   The feature amount calculation unit 111 calculates and outputs an acoustic feature amount sequence 10-s from each acoustic signal sequence 10-s. Each acoustic feature amount may be a vector composed of a plurality of elements, or a scalar composed of a single element. For example, the feature amount calculation unit 111 calculates a sound pressure level, an acoustic power, an MFCC feature amount, an LPC feature amount, and the like for each frame including the above-described short time interval for the input acoustic signal sequence 10-s. These are output as an acoustic feature quantity sequence. Furthermore, acoustic feature quantities such as rising characteristics, harmonicity, and time periodicity may be added to the acoustic feature quantity sequence. Each acoustic feature quantity column 11-s is assigned an acoustic feature quantity column number s.

立ち上がり特性とは、数十から数百ミリ秒ごとにおける、音響信号の大きさを表す指標の増加の度合いを表す指標である。ここで、音響信号の大きさを表す指標とは、例えば、音響信号の振幅の絶対値、音響信号の振幅の絶対値の対数値、音響信号のパワー又は音響信号のパワーの対数値である。例えば、以下の式で得られる値が0以上であればその値が立ち上がり特性とされ、以下の式で得られる値が0未満であれば0が立ち上がり特性とされる。

Figure 0006093670

ただし、k’はフレームをK’個の微小な時間区間(例えば1msec程度)に区分した場合の各時間区間に対応し、p ̄k’はk’番目の時間区間でのサンプルの大きさを表す指標の代表値又は平均値を表す。なお、「サンプルの大きさを表す指標」の例は、サンプルの振幅、サンプルの振幅の絶対値、サンプルの振幅の対数値、サンプルのエネルギー、サンプルのパワー、又はサンプルのパワーの対数値などである。「サンプル」は音響信号列の各音響信号を表す。また、Δp ̄k’はp ̄k’の変化率を表す。例えば、Δp k’=p k’−p k’−1である。Δp k’=p k’+1−p k’としてもよい。また、最小二乗法等の近似手法を用いてk’番目の時間区間におけるp k’を近似した直線を求め、その時間区間におけるその直線の傾きをΔp k’としてもよい。また、k’番目の時間区間を含む複数の時間区間におけるp ̄k’−κ,・・・,p ̄k’−1,p k’,p ̄k’+1,...,p ̄k’−κ’の近時曲線を求め、そのk’番目の時間区間に対応する点での傾き(微分値)をΔp k’としてもよい。またχを任意の文字として、χの右肩の「−」は、χの上付きバーを意味する。また分子における(p ̄k’を(p ̄m’とし、m’を任意の値としても良い。 The rising characteristic is an index representing the degree of increase in the index representing the magnitude of the acoustic signal every several tens to several hundreds of milliseconds. Here, the index representing the magnitude of the acoustic signal is, for example, an absolute value of the amplitude of the acoustic signal, a logarithmic value of the absolute value of the amplitude of the acoustic signal, a power of the acoustic signal, or a logarithmic value of the power of the acoustic signal. For example, if the value obtained by the following expression is 0 or more, the value is the rising characteristic, and if the value obtained by the following expression is less than 0, 0 is the rising characteristic.
Figure 0006093670

However, k ′ corresponds to each time interval when the frame is divided into K ′ minute time intervals (for example, about 1 msec), and p ′ k ′ indicates the sample size in the k′-th time interval. The representative value or average value of the index to be represented is represented. Examples of “index indicating sample size” are sample amplitude, absolute value of sample amplitude, logarithm of sample amplitude, sample energy, sample power, logarithm of sample power, etc. is there. “Sample” represents each acoustic signal in the acoustic signal sequence. Δp ̄k represents the rate of change of p ̄k . For example, Δp - k '= p - k' -p - a k'-1. Δp - k '= p - k ' + 1 -p - k ' may be. Alternatively, an approximation method such as a least square method may be used to obtain a straight line that approximates p k ′ in the k′th time interval, and the slope of the straight line in the time interval may be Δp k ′ . In addition, p ̄k' , ..., p ̄k' -1 , p - k ' , p ̄k ' + 1 ,... In a plurality of time intervals including the k'th time interval. . . , P ̄ k′−κ ′ , and a slope (differential value) at a point corresponding to the k′- th time interval may be Δp k ′ . Further, with χ as an arbitrary character, “−” on the right shoulder of χ means a superscript bar of χ. Further, (p ̄k ) 2 in the molecule may be (p ̄ ) m ′, and m ′ may be an arbitrary value.

以下に調波性を例示する。

Figure 0006093670

また、N”はフレームに含まれるサンプル数を表す1以上の整数、n”はフレーム内の各サンプル点を表す1以上のN”以下の整数、x(n”)はサンプル点n”でのサンプルの大きさを表す指標である。Rff(τ”)はf(n”)のラグτ”での自己相関係数、max{・}は「・」の最大値を表す。ラグτは1以上N以下の整数である。Rff(τ”)は、例えば以下のように定義される。
Figure 0006093670
The harmonic characteristics are exemplified below.
Figure 0006093670

N ″ is an integer of 1 or more representing the number of samples included in the frame, n ″ is an integer of 1 or more of N ″ representing each sample point in the frame, and x (n ″) is a sample point n ″. R ff (τ ″) is an autocorrelation coefficient at the lag τ ″ of f (n ″), and max {•} represents the maximum value of “•”. The lag τ is an integer from 1 to N. R ff (τ ″) is defined as follows, for example.
Figure 0006093670

以下に時間周期性を例示する。

Figure 0006093670

ただし、L”は一周期とみなすサンプル数、M”は時間周期性の度合を計算するための周期数を表す1以上の整数、p”(・)はサンプルの大きさを表す指標を時間平滑化した値、p ̄はフレーム内でのサンプルの大きさを表す指標の平均値を表す。 The time periodicity is exemplified below.
Figure 0006093670

Where L ″ is the number of samples regarded as one period, M ″ is an integer of 1 or more representing the number of periods for calculating the degree of time periodicity, and p ″ (•) is a time smoothing index representing the sample size. The converted value, p ̄, represents an average value of an index representing the size of the sample in the frame.

次に、音響特徴量列合成部101に、音響特徴量列11−1,・・・,11−S(ただし、Sは1以上の整数)が入力される。複数個の音響特徴量列11−1,・・・,11−Sが音響特徴量列合成部101に入力された場合、音響特徴量列合成部101は、それらを時系列方向(例えば、時系列順)につなぎ合わせ、それによって1つの音響特徴量列11を得て出力する。音響特徴量列合成部101に1つの音響特徴量列11−1のみが入力された場合、音響特徴量列合成部101はそれを音響特徴量列11として出力する。音響特徴量列合成部101から出力された音響特徴量列11は、状況/音響イベントモデル化部102に入力される。なお、音響特徴量列合成部101を経由することなく、1つ音響特徴量列11がそのまま状況/音響イベントモデル化部102に入力されてもよい。或いは、音響特徴量列11−1,・・・,11−Sを生成した後に、それらを合成して音響特徴量列11を得ることに代えて、音響信号列10−1,・・・,10−Sを時系列方向(例えば、時系列順)に合成した音響信号列10を得た後に、音響信号列10から音響特徴量列11を生成してもよい。これ以降の処理は実施例1−1と同じであるため、説明を省略する。   Next, the acoustic feature quantity sequence 11-1,..., 11 -S (where S is an integer equal to or greater than 1) is input to the acoustic feature quantity sequence synthesis unit 101. When a plurality of acoustic feature value sequences 11-1,..., 11-S are input to the acoustic feature value sequence synthesizing unit 101, the acoustic feature value sequence synthesizing unit 101 converts them into a time-series direction (for example, time (Sequence order), thereby obtaining and outputting one acoustic feature string 11. When only one acoustic feature amount sequence 11-1 is input to the acoustic feature amount sequence combining unit 101, the acoustic feature amount sequence combining unit 101 outputs it as the acoustic feature amount sequence 11. The acoustic feature quantity sequence 11 output from the acoustic feature quantity sequence synthesis unit 101 is input to the situation / acoustic event modeling unit 102. Note that one acoustic feature quantity sequence 11 may be directly input to the situation / acoustic event modeling unit 102 without going through the acoustic feature quantity sequence synthesis unit 101. Alternatively, after generating the acoustic feature sequence 11-1,..., 11-S, the acoustic feature sequence 11 is obtained by synthesizing them to obtain the acoustic feature sequence 11. The acoustic feature quantity sequence 11 may be generated from the acoustic signal sequence 10 after obtaining the acoustic signal sequence 10 obtained by combining 10-S in the time series direction (for example, in time series order). Since the subsequent processing is the same as that of Example 1-1, description thereof is omitted.

[実施例2−1]
実施例2−1では、実施例1−1で説明したように得られた状況−音響イベント生成モデル13および音響イベント−音響特徴量生成モデル14を用い、新たに入力された音響信号列から状況を推定する。
[Example 2-1]
In Example 2-1, the situation-acoustic event generation model 13 and the acoustic event-acoustic feature amount generation model 14 obtained as described in Example 1-1 were used, and the situation was newly input from the acoustic signal sequence. Is estimated.

図3に例示するように、本形態のモデル処理装置210は、記憶部203及び生成モデル比較部201を有する。生成モデル比較部201は、例えば、音響イベント推定部201aおよび比較部201bを有する。モデル処理装置210は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。また記憶部203には、実施例1−1で説明したように得られた状況−音響イベント生成モデル13および音響イベント−音響特徴量生成モデル14が格納されている。   As illustrated in FIG. 3, the model processing apparatus 210 according to this embodiment includes a storage unit 203 and a generated model comparison unit 201. The generation model comparison unit 201 includes, for example, an acoustic event estimation unit 201a and a comparison unit 201b. The model processing device 210 is configured, for example, by reading a predetermined program into a known or dedicated computer. The storage unit 203 stores the situation-acoustic event generation model 13 and the acoustic event-acoustic feature generation model 14 obtained as described in the example 1-1.

音響イベントの種類の総数M、状況の種類の総数T、音響特徴量列21が生成モデル比較部201に入力される。音響特徴量列21は、1個の音響特徴量または2個以上の音響特徴量を時系列方向(例えば、時系列順)につなぎ合わせた列である。実施例1−1で説明したように、各音響特徴量は、短時間区間ごとの音響信号から得られたものである。各音響特徴量は複数個の要素からなるベクトルであってもよいし、単数の要素からなるスカラーであってもよい。生成モデル比較部201は、例えば、入力された情報を用い、音響特徴量列21と、状況−音響イベント生成モデル13とを比較し、最も近いと判断された状況、若しくは近いと判断された状況から複数個、またはある尤度よりも高いと判断された状況を判定結果として出力する。また、生成モデル比較部201が、音響特徴量列21と音響イベント−音響特徴量生成モデル14とを用い、音響特徴量列21に対応する音響イベント列を推定して出力してもよい。以下に、生成モデル比較部201の処理を例示する。   The total number M of acoustic event types, the total number T of situation types, and the acoustic feature amount column 21 are input to the generation model comparison unit 201. The acoustic feature amount column 21 is a column in which one acoustic feature amount or two or more acoustic feature amounts are connected in a time series direction (for example, in time series order). As described in Example 1-1, each acoustic feature amount is obtained from an acoustic signal for each short time section. Each acoustic feature amount may be a vector composed of a plurality of elements, or a scalar composed of a single element. The generation model comparison unit 201 compares, for example, the acoustic feature quantity sequence 21 and the situation-acoustic event generation model 13 using the input information, and the situation determined to be closest or the situation determined to be close. The situation determined to be plural or higher than a certain likelihood is output as a determination result. Further, the generation model comparison unit 201 may estimate and output an acoustic event sequence corresponding to the acoustic feature amount sequence 21 using the acoustic feature amount sequence 21 and the acoustic event-acoustic feature amount generation model 14. Below, the process of the production | generation model comparison part 201 is illustrated.

まず、生成モデル比較部201の音響イベント推定部201aは、記憶部203から読み込んだ音響イベント−音響特徴量生成モデル14を用い、音響特徴量列21を構成する各音響特徴量について確率P(音響特徴量|音響イベント)を最大にする音響イベント列(音響イベント判定結果)を得て出力する。例えば、音響特徴量列21の音響イベント推定部は、以下のように音響イベント列m,・・・,mN’を得る。

Figure 0006093670

ただし、fは音響特徴量列21に対応する時間区間の先頭からi番目(i=1,・・・,N’)の短時間区間に対応する音響特徴量を表し、音響特徴量列21は音響特徴量f,・・・,fN’の列である。mは音響特徴量列21に対応する時間区間の先頭からi番目の短時間区間に対応する音響イベントを表す。また、N’は正の整数であり、音響特徴量列21に対応する時間区間が含む短時間区間の数を表す。N’=Nであってもよいし、N’≠Nであってもよい。p(f|m,μ,Λ)は音響イベント−音響特徴量生成モデル14から得られる。例えばp(f|m,μ,Λ)はν (h)を平均、Σμm (h)を分散、gμm (h)を自由度とするStudent−t分布に従う確率密度関数によって算出可能である。p(m)は予め定められた事前確率である。また、音響イベント推定部201aは、音響特徴量列21を構成する各音響特徴量について確率P(音響特徴量|音響イベント)が大きい方から選択された複数個の音響イベントからなる音響イベント列を音響イベント判定結果としてもよいし、当該確率P(音響特徴量|音響イベント)が閾値以上(又は閾値を超える)1個または複数個の音響イベントからなる音響イベント列を音響イベント判定結果としてもよい。 First, the acoustic event estimation unit 201 a of the generation model comparison unit 201 uses the acoustic event-acoustic feature amount generation model 14 read from the storage unit 203 and uses the probability P (acoustic value) for each acoustic feature amount constituting the acoustic feature amount sequence 21. Obtain and output an acoustic event sequence (acoustic event determination result) that maximizes the feature value | acoustic event. For example, the acoustic event estimation unit of the acoustic feature quantity sequence 21 obtains acoustic event sequences m 1 ,..., M N ′ as follows.
Figure 0006093670

However, f i represents the acoustic feature quantity corresponding to the i-th (i = 1,..., N ′) short time section from the beginning of the time section corresponding to the acoustic feature quantity sequence 21, and the acoustic feature quantity sequence 21. Is a row of acoustic feature quantities f 1 ,..., F N ′ . m i represents an acoustic event corresponding to the i-th short time interval from the beginning of the time interval corresponding to the acoustic feature string 21. N ′ is a positive integer and represents the number of short time sections included in the time section corresponding to the acoustic feature quantity sequence 21. N ′ = N may be satisfied, or N ′ ≠ N may be satisfied. p (f i | m i , μ m , Λ m ) is obtained from the acoustic event-acoustic feature quantity generation model 14. For example, p (f i | m i , μ m , Λ m ) is a probability density function according to a Student-t distribution with ν m (h) as an average, Σ μm (h) as variance, and g μm (h) as degrees of freedom. Can be calculated. p (m i ) is a predetermined prior probability. In addition, the acoustic event estimation unit 201a generates an acoustic event sequence including a plurality of acoustic events selected from the one having the larger probability P (acoustic feature amount | acoustic event) for each acoustic feature amount constituting the acoustic feature amount sequence 21. It is good also as an acoustic event determination result, and the said probability P (acoustic feature-value | acoustic event) is good also as an acoustic event determination result as an acoustic event sequence which consists of one or several acoustic events more than a threshold value (or exceeds a threshold value). .

生成モデル比較部201の比較部201bは、音響イベント推定部201aで得られた音響イベント列m,・・・,mN’から得られる音響イベントの分布と、状況−音響イベント生成モデル13が表す音響イベントを確率変数としたP(音響イベント|状況)の各状況に対応する分布とを比較し、これらの分布の距離に基づいて音響特徴量列21に対応する状況または状況の列を推定し、その推定結果を状況判定結果として出力する。なお、音響イベントを確率変数としたP(音響イベント|状況)の各状況に対応する分布は、状況ごとに定まる音響イベントを確率変数としたP(音響イベント|状況)の分布である。例えば、これらの分布が最も近くなる状況を状況判定結果として出力してもよいし、これらの分布が近いほうから選択した複数個の状況を状況判定結果として出力してもよいし、これらの分布の距離が閾値以下(または未満)となる1個または複数個の状況を状況判定結果として出力してもよい。 The comparison unit 201b of the generation model comparison unit 201 includes the distribution of acoustic events obtained from the acoustic event sequence m 1 ,..., M N ′ obtained by the acoustic event estimation unit 201a and the situation-acoustic event generation model 13. The distribution corresponding to each situation of P (acoustic event | situation) with the acoustic event represented as a random variable is compared, and the situation or situation column corresponding to the acoustic feature quantity column 21 is estimated based on the distance of these distributions. Then, the estimation result is output as a situation determination result. In addition, the distribution corresponding to each situation of P (acoustic event | situation) using the acoustic event as a random variable is a distribution of P (acoustic event | situation) using the acoustic event determined for each situation as a random variable. For example, the situation in which these distributions are closest may be output as the situation determination result, or a plurality of situations selected from the closest to these distributions may be output as the situation determination results. One or a plurality of situations in which the distance is equal to or less than (or less than) the threshold may be output as the situation determination result.

<比較部201bの処理の具体例1>
まず比較部201bが、入力された音響イベント列から、以下のように音響イベントの分布p’(m)(ただし、m∈{1,・・・,M})を算出する。

Figure 0006093670

ただし、γ’は事前に設定された緩和パラメータ(例えば0.01などの非負値)を表し、Cは、入力された音響イベント列のうち音響イベントmを表す音響イベントの個数を表す。 <Specific Example 1 of Processing of Comparison Unit 201b>
First, the comparison unit 201b calculates an acoustic event distribution p ′ (m) (where m∈ {1,..., M}) from the input acoustic event sequence as follows.
Figure 0006093670

However, γ ′ represents a preset relaxation parameter (for example, a non-negative value such as 0.01), and C m represents the number of acoustic events representing the acoustic event m in the input acoustic event sequence.

次に比較部201bは、p’(m)と状況−音響イベント生成モデル13を、下記に記すカルバックライブラー情報量(Kullback-Leibler divergence: KL divergence)やイェンセンシャノン情報量(Jensen-Shannon divergence: JS divergence)などの情報量基準に基づいて比較することで、入力された音響イベント列m,・・・,mN’に対応する状況を推定する。

Figure 0006093670
Next, the comparison unit 201b converts p ′ (m) and the situation-acoustic event generation model 13 into a Cullback library information amount (Kullback-Leibler divergence: KL divergence) and a Jensen-Shannon information amount (Jensen-Shannon divergence: JS divergence) and the like are estimated based on information criteria, and the situation corresponding to the input acoustic event sequence m 1 ,..., M N ′ is estimated.
Figure 0006093670

式(15)又は(16)の例の場合、比較部201bは、P(m)にp’(m)(ただし、m=1,・・・,M)を代入し、Q(m)にNtm(ただし、m=1,・・・,M,t=1,・・・,T)(音響イベントm=1,・・・,Mを確率変数とした確率P(音響イベントm|状況t)の各状況tに対応する分布)を代入する。これにより、比較部201bは、各状況t={1,・・・,T}に対応する情報量(合計T個の情報量)を得る。比較部201bは、各状況t={1,・・・,T}について算出された情報量のうち、最も小さな情報量に対応する状況、または、最も小さな情報量から順番に選択した複数個の情報量に対応する複数個の状況、または、閾値以下(又は未満)の1個または複数個に対応する状況を、音響特徴量列21に対応する状況(状況判定結果)として出力する。 In the case of the example of Expression (15) or (16), the comparison unit 201b substitutes p ′ (m) (where m = 1,..., M) for P (m), and Q t (m) N tm (where m = 1,..., M, t = 1,..., T) (acoustic event m = 1,..., Probability P (acoustic event m | The distribution corresponding to each situation t) of situation t) is substituted. Thereby, the comparison unit 201b obtains the information amount (total T information amount) corresponding to each situation t = {1,..., T}. The comparison unit 201b includes a situation corresponding to the smallest information amount among the information amounts calculated for each situation t = {1,..., T}, or a plurality of items selected in order from the smallest information amount. A plurality of situations corresponding to the amount of information or a situation corresponding to one or more than (or less than) a threshold value is output as a situation (situation determination result) corresponding to the acoustic feature quantity column 21.

<比較部201bの処理の具体例2>
比較部201bは、状況−音響イベント生成モデル13と入力された音響イベント列との比較を以下のように行ってもよい。この手法では、比較部201bが、入力された音響イベント列に対し、状況−音響イベント生成モデル13のもとでの状況の尤度の和や積を求める。比較部201bは、尤度の和や積が最大となる状況を状況判定結果として出力してもよいし、尤度の和や積が大きい順に選択した複数個の状況を状況判定結果として出力してもよいし、尤度の和や積が閾値以上(又は閾値を超える)の1個または複数個の状況を、状況判定結果として出力してもよい。
<Specific Example 2 of Processing of Comparison Unit 201b>
The comparison unit 201b may perform a comparison between the situation-acoustic event generation model 13 and the input acoustic event sequence as follows. In this method, the comparison unit 201b calculates the sum or product of the likelihood of the situation under the situation-acoustic event generation model 13 for the input acoustic event sequence. The comparison unit 201b may output the situation where the sum or product of the likelihood is the maximum as the situation determination result, or output a plurality of situations selected in descending order of the likelihood sum or product as the situation determination result. Alternatively, one or a plurality of situations in which the sum or product of likelihoods is greater than or equal to the threshold (or exceeds the threshold) may be output as the situation determination result.

≪状況−音響イベント生成モデル13のもとでの状況tの尤度の和の例≫

Figure 0006093670

ただし、zは音響特徴量列21に対応する時間区間の先頭からi番目の短時間区間に対応する状況を表し、mは音響特徴量列21に対応する時間区間の先頭からi番目の短時間区間に対応する音響イベントを表す。 << Situation-Example of sum of likelihood of situation t under acoustic event generation model 13 >>
Figure 0006093670

However, the z i represents the situation corresponding to the i-th short interval from the beginning of the time interval corresponding to the acoustic feature sequence 21, m i is the i-th from the head of the time interval corresponding to the acoustic feature sequence 21 Represents an acoustic event corresponding to a short period.

≪状況−音響イベント生成モデル13のもとでの状況tの尤度の積の例≫

Figure 0006093670
<< Situation-Example of likelihood product of situation t under acoustic event generation model 13 >>
Figure 0006093670

[実施例2−2]
実施例2−2では、実施例1−1で説明したように得られた状況−音響イベント生成モデル13および音響イベント−音響特徴量生成モデル14を用い、新たに入力された音響信号列から状況を推定する。
[Example 2-2]
In Example 2-2, the situation-acoustic event generation model 13 and the acoustic event-acoustic feature quantity generation model 14 obtained as described in Example 1-1 are used, and the situation is obtained from a newly input acoustic signal sequence. Is estimated.

図4に例示するように、本形態のモデル処理装置220は、記憶部203、特徴量算出部211、及び生成モデル比較部201を有する。モデル処理装置220は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。   As illustrated in FIG. 4, the model processing device 220 according to the present embodiment includes a storage unit 203, a feature amount calculation unit 211, and a generated model comparison unit 201. The model processing device 220 is configured, for example, by reading a predetermined program into a known or dedicated computer.

まず特徴量算出部211に音響信号列20が入力される。音響信号列20は、短時間区間ごとに区分された要素からなり、各要素には要素番号が付されている。特徴量算出部211は、音響信号列20から前述のように音響信号列21を算出して出力する。音響信号列21は、生成モデル比較部201に入力される。これ以降の処理は実施例2−1と同じであるため説明を省略する。   First, the acoustic signal sequence 20 is input to the feature amount calculation unit 211. The acoustic signal sequence 20 is composed of elements divided for each short time section, and each element is assigned an element number. The feature amount calculation unit 211 calculates and outputs the acoustic signal sequence 21 from the acoustic signal sequence 20 as described above. The acoustic signal sequence 21 is input to the generation model comparison unit 201. Since the subsequent processing is the same as that of the embodiment 2-1, the description is omitted.

[実施例3−1]
実施例3−1は、実施例1−1と実施例2−1との組み合わせである。
本実施例では、音響特徴量列11−1,・・・,11−S,21を入力として、学習処理によって、状況−音響イベント生成モデル、および音響イベント−音響特徴量生成モデルを算出する。また、この学習処理によって、さらに音響信号−状況生成モデルを生成してもよい。さらに、生成した音響信号−状況生成モデル12、及び状況−音響イベント生成モデル13を用い、音響特徴量列21から状況を推定する。
[Example 3-1]
Example 3-1 is a combination of Example 1-1 and Example 2-1.
In the present embodiment, the situation-acoustic event generation model and the acoustic event-acoustic feature quantity generation model are calculated by learning processing with the acoustic feature quantity sequences 11-1,..., 11-S, 21 as inputs. Further, an acoustic signal-situation generation model may be further generated by this learning process. Furthermore, the situation is estimated from the acoustic feature quantity sequence 21 using the generated acoustic signal-situation generation model 12 and the situation-acoustic event generation model 13.

図5に例示するように、実施例のモデル処理装置310は、音響特徴量列合成部101、状況/音響イベントモデル化部102、生成モデル比較部201、及び記憶部103,303を有する。モデル処理装置310は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。   As illustrated in FIG. 5, the model processing apparatus 310 according to the embodiment includes an acoustic feature quantity sequence synthesizing unit 101, a situation / acoustic event modeling unit 102, a generated model comparison unit 201, and storage units 103 and 303. The model processing device 310 is configured, for example, by reading a predetermined program into a known or dedicated computer.

音響特徴量列11−1,・・・,11−S,21は、音響特徴量列合成部101に入力され、音響特徴量列合成部101は、実施例1−1と同様に、これらを合成した音響特徴量列11を得て出力する。音響特徴量列11は、状況/音響イベントモデル化部102に入力され、状況/音響イベントモデル化部102は、実施例1−1と同様に、音響信号−状況生成モデル12、状況−音響イベント生成モデル13、および音響イベント−音響特徴量生成モデル14を算出する。さらに、状況/音響イベントモデル化部102は、状況ラベル列15を生成してもよいし、音響イベントラベル列16を生成してもよい。ただし、状況/音響イベントモデル化部102が、音響信号−状況生成モデル12や状況ラベル列15や音響イベントラベル列16を生成することは必須ではない。状況/音響イベントモデル化部102が生成したモデルや列は記憶部103に格納される。   The acoustic feature quantity sequences 11-1,..., 11-S, 21 are input to the acoustic feature quantity sequence synthesizing unit 101, and the acoustic feature quantity sequence synthesizing unit 101 performs the same processing as in Example 1-1. The synthesized acoustic feature quantity sequence 11 is obtained and output. The acoustic feature quantity column 11 is input to the situation / acoustic event modeling unit 102, and the situation / acoustic event modeling unit 102 is similar to the example 1-1, and the acoustic signal-situation generation model 12, the situation-acoustic event. A generation model 13 and an acoustic event-acoustic feature amount generation model 14 are calculated. Further, the situation / acoustic event modeling unit 102 may generate the situation label string 15 or the acoustic event label string 16. However, it is not essential for the situation / acoustic event modeling unit 102 to generate the acoustic signal-situation generation model 12, the situation label sequence 15, and the acoustic event label sequence 16. The model and sequence generated by the situation / acoustic event modeling unit 102 are stored in the storage unit 103.

音響特徴量列21は、さらに生成モデル比較部201に入力される。生成モデル比較部201は、実施例2−1と同様に、音響特徴量列21と、状況−音響イベント生成モデル13とを比較し、最も近いと判断された状況、もしくは、近いと判断された状況から複数個、またはある尤度よりも高いと判断された状況を判定結果として出力する。また、生成モデル比較部201が、音響特徴量列21と音響イベント−音響特徴量生成モデル14とを用い、音響特徴量列21に対応する音響イベント列を推定して出力してもよい。   The acoustic feature quantity column 21 is further input to the generation model comparison unit 201. The generation model comparison unit 201 compares the acoustic feature quantity sequence 21 and the situation-acoustic event generation model 13 as in the case of Example 2-1, and determines that the situation is the closest or is determined to be close. A plurality of situations or situations judged to be higher than a certain likelihood are output as judgment results. Further, the generation model comparison unit 201 may estimate and output an acoustic event sequence corresponding to the acoustic feature amount sequence 21 using the acoustic feature amount sequence 21 and the acoustic event-acoustic feature amount generation model 14.

なお、生成モデル比較部201の処理及び状況/音響イベントモデル化部102の処理のどちらを先に行っても良い。ただし、状況/音響イベントモデル化部102の処理を行う前に生成モデル比較部201の処理を行う場合、記憶部103に予め得られた各生成モデルが格納されている必要がある。   Note that either the processing of the generation model comparison unit 201 or the processing of the situation / acoustic event modeling unit 102 may be performed first. However, when the process of the generation model comparison unit 201 is performed before the process of the situation / acoustic event modeling unit 102 is performed, each generation model obtained in advance needs to be stored in the storage unit 103.

また、音響特徴量列21が、新たに入力された音響特徴量列とともに音響特徴量列合成部101に入力されてもよい。この場合、音響特徴量列合成部101がこれらを時系列方向(例えば、時系列順)につなぎ合わせ、状況/音響イベントモデル化部102に送出してもよい。   In addition, the acoustic feature amount sequence 21 may be input to the acoustic feature amount sequence combining unit 101 together with the newly input acoustic feature amount sequence. In this case, the acoustic feature quantity sequence synthesizing unit 101 may connect them in the time series direction (for example, in time series order) and send them to the situation / acoustic event modeling unit 102.

[実施例3−2]
実施例3−2は、実施例1−2と実施例2−2との組み合わせである。
本実施例では、音響信号列10−1,・・・,10−S,20を入力として、学習処理によって、状況−音響イベント生成モデル、および音響イベント−音響特徴量生成モデルを算出する。また、この学習処理によって、さらに音響信号−状況生成モデルを生成してもよい。さらに、生成した音響信号−状況生成モデル12、及び状況−音響イベント生成モデル13を用い、音響信号列20から状況を推定する。
[Example 3-2]
Example 3-2 is a combination of Example 1-2 and Example 2-2.
In this embodiment, the acoustic signal trains 10-1,..., 10-S, 20 are input, and the situation-acoustic event generation model and the acoustic event-acoustic feature amount generation model are calculated by learning processing. Further, an acoustic signal-situation generation model may be further generated by this learning process. Further, the situation is estimated from the acoustic signal sequence 20 using the generated acoustic signal-situation generation model 12 and the situation-acoustic event generation model 13.

図6に例示するように、本実施例のモデル処理装置320は、特徴量算出部111−1,・・・,111−S,211、および実施例3−1で説明したモデル処理装置310(図5)を有する。   As illustrated in FIG. 6, the model processing device 320 of the present embodiment includes a feature amount calculation unit 111-1,..., 111 -S, 211, and the model processing device 310 ( FIG. 5).

音響信号列10−1,・・・,10−S,20は、それぞれ特徴量算出部111−1,・・・,111−S,211に入力される。特徴量算出部111−1,・・・,111−S,211は、実施例1−2で説明したように、音響信号列10−1,・・・,10−S,211から、それぞれ音響特徴量列10−1,・・・,10−S,21を得て出力する。音響特徴量列10−1,・・・,10−S,21は、記憶部303(図5)に格納される。以降の処理は実施例3−1と同じである。   The acoustic signal trains 10-1,..., 10-S, 20 are input to the feature amount calculation units 111-1,. As described in the embodiment 1-2, the feature amount calculation units 111-1,..., 111-S, 211 are acoustically connected from the acoustic signal trains 10-1,. The feature quantity columns 10-1,..., 10-S, 21 are obtained and output. The acoustic feature quantity columns 10-1,..., 10-S, 21 are stored in the storage unit 303 (FIG. 5). The subsequent processing is the same as in Example 3-1.

[各実施例の特徴]
上述した各実施例では、音響特徴量と状況や音響イベントとの関係のモデルを算出する際に、従来技術では困難であった、音響信号と状況、状況と音響イベント列、および音響イベント列と音響特徴量列の関係を同時に考慮した学習処理によって、音響信号−状況生成モデル12、状況−音響イベント生成モデル13、音響イベント−音響特徴量モデル等を生成できる。このように、音響信号と状況、状況と音響イベントの関係に加えて、音響イベントと音響特徴量の関係を同時に考慮することで、音響イベント間の類似度を生成モデルの学習に反映させることができ、音響イベント間の類似度を生成モデルに組み込みことができる。その結果、従来技術よりも精度良く、音響信号と状況との関係をモデル化できる。
[Features of each embodiment]
In each of the embodiments described above, when calculating the model of the relationship between the acoustic feature quantity and the situation or the acoustic event, the acoustic signal and situation, the situation and the acoustic event sequence, and the acoustic event sequence, which were difficult in the prior art, An acoustic signal-situation generation model 12, a situation-acoustic event generation model 13, an acoustic event-acoustic feature amount model, and the like can be generated by learning processing that simultaneously considers the relationship between the acoustic feature amount sequences. Thus, in addition to the relationship between the acoustic signal and the situation, the relationship between the situation and the acoustic event, the relationship between the acoustic event and the acoustic feature amount is considered at the same time, so that the similarity between the acoustic events can be reflected in the learning of the generation model. And the similarity between acoustic events can be incorporated into the generation model. As a result, the relationship between the acoustic signal and the situation can be modeled more accurately than in the prior art.

なお、本発明は上述の各実施例に限定されるものではない。例えば、例えば、生成モデルの作成処理や状況/音響イベント判定処理が複数の装置で分散処理されてもよいし、記憶部130,303に格納された生成モデルやデータが複数の記憶部に分散して格納されてもよい。また、音響特徴量列や音響信号列が時系列の順に入力され順次処理されるのであれば、短時間区間ごとに区分された各要素に対応する要素番号が、音響特徴量列や音響信号列に含まれなくてもよい。また上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。   In addition, this invention is not limited to each above-mentioned Example. For example, for example, the generation model creation process and the situation / acoustic event determination process may be distributed by a plurality of devices, or the generation models and data stored in the storage units 130 and 303 are distributed to a plurality of storage units. May be stored. In addition, if the acoustic feature amount sequence and the acoustic signal sequence are input and processed sequentially in time series, the element number corresponding to each element divided for each short time section is the acoustic feature amount sequence or acoustic signal sequence. May not be included. The various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capacity of the apparatus that executes the processes. Needless to say, other modifications are possible without departing from the spirit of the present invention.

上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。   When the above configuration is realized by a computer, the processing contents of the functions that each device should have are described by a program. By executing this program on a computer, the above processing functions are realized on the computer. The program describing the processing contents can be recorded on a computer-readable recording medium. An example of a computer-readable recording medium is a non-transitory recording medium. Examples of such a recording medium are a magnetic recording device, an optical disk, a magneto-optical recording medium, a semiconductor memory, and the like.

このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。   This program is distributed, for example, by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。   A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, this computer reads a program stored in its own recording device and executes a process according to the read program. As another execution form of the program, the computer may read the program directly from the portable recording medium and execute processing according to the program, and each time the program is transferred from the server computer to the computer. The processing according to the received program may be executed sequentially. The above-described processing may be executed by a so-called ASP (Application Service Provider) type service that realizes a processing function only by an execution instruction and result acquisition without transferring a program from the server computer to the computer. Good.

上記実施形態では、コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されたが、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。   In the above embodiment, the processing functions of the apparatus are realized by executing a predetermined program on a computer. However, at least a part of these processing functions may be realized by hardware.

モデル処理装置 110,120,210,220,310,320 Model processing apparatus 110, 120, 210, 220, 310, 320

Claims (14)

少なくとも、音響信号列から得られた時系列の音響特徴量の列である音響特徴量列、音響イベントの種類の総数、および状況の種類の総数を用い、
状況に対応する音響イベントの組み合わせと、音響信号列に対応する状況の組み合わせと、音響イベントに対応する音響特徴量と、に対応する同時分布の最大値を探索する学習処理を行い、
少なくとも、状況が音響イベントを生成する確率P(音響イベント|状況)、および音響イベントが音響特徴量を生成する確率P(音響特徴量|音響イベント)を得るモデル化部を有するモデル処理装置。
At least, using the acoustic feature sequence, which is a sequence of time-series acoustic features obtained from the acoustic signal sequence , the total number of types of acoustic events, and the total number of types of situations,
Perform a learning process to search for the maximum value of the simultaneous distribution corresponding to the combination of the acoustic event corresponding to the situation, the combination of the situation corresponding to the acoustic signal sequence, and the acoustic feature amount corresponding to the acoustic event,
A model processing apparatus having a modeling unit that obtains at least a probability P (acoustic event | situation) that a situation generates an acoustic event and a probability P (acoustic feature quantity | acoustic event) that the acoustic event generates an acoustic feature quantity.
請求項1のモデル処理装置であって、
前記音響特徴量列が音響特徴量f,・・・,fの列であり、前記音響イベントの種類の総数がMであり、前記状況の種類の総数がTであり、
前記モデル化部は、
ハイパパラメータα,γ,μ,β,ν,B、およびパラメータの初期値αst (0),Nst (0),γtm (0),Ntm (0),N (0),μ (0),ν (0),B (0),Usn’m (0),gμm (0),Σμm (0)を設定し、h=0とする初期化部と、
Ψをディガンマ関数とし、
Figure 0006093670

とした場合における、
Figure 0006093670

を得る第1更新部と、
Dを1以上の整数定数とした場合における、
Figure 0006093670

を得る第2更新部と、
Figure 0006093670

を得る第3更新部と、
(・)を(・)の転置とした場合における、
Figure 0006093670

Figure 0006093670

を得る第4更新部と、
終了条件を満たすかを判定し、前記終了条件を満たさないと判定した場合、h+1を新たなhとして前記第1〜4更新部の処理を再び実行させる判定部と、
前記終了条件を満たすと判定された場合、前記第1〜4更新部の何れかで得られた値から前記確率P(音響イベント|状況)および前記確率P(音響特徴量|音響イベント)を得て出力するモデル算出部と、
を有するモデル処理装置。
The model processing device according to claim 1,
The acoustic feature amount sequence is a sequence of acoustic feature amounts f 1 ,..., F N , the total number of types of acoustic events is M, and the total number of types of situations is T.
The modeling unit
Hyper parameters α, γ, μ 0 , β 0 , ν 0 , B 0 , and initial parameter values α st (0) , N st (0) , γ tm (0) , N tm (0) , N m ( 0) , μ m (0) , ν m (0) , B m (0) , U sn'm (0) , g μm (0) , Σ μm (0) are set and h = 0 And
Let Ψ be a digamma function,
Figure 0006093670

In the case of
Figure 0006093670

A first update unit for obtaining
When D is an integer constant of 1 or more,
Figure 0006093670

A second updating unit for obtaining
Figure 0006093670

A third update unit to obtain
(・) When T is a transpose of (・),
Figure 0006093670

Figure 0006093670

A fourth update unit to obtain
A determination unit that determines whether an end condition is satisfied and determines that the end condition is not satisfied; and a determination unit that re-executes the processing of the first to fourth update units with h + 1 as a new h,
When it is determined that the termination condition is satisfied, the probability P (acoustic event | situation) and the probability P (acoustic feature amount | acoustic event) are obtained from the values obtained by any of the first to fourth updating units. A model calculation unit for outputting
A model processing apparatus.
請求項1または2のモデル処理装置であって、
入力された音響信号列から前記音響特徴量列を得て出力する音響特徴量算出部をさらに有するモデル処理装置。
The model processing apparatus according to claim 1 or 2, wherein
A model processing apparatus further comprising an acoustic feature amount calculation unit that obtains and outputs the acoustic feature amount sequence from the input acoustic signal sequence.
少なくとも、音響イベントの種類の総数、状況の種類の総数、音響特徴量列、請求項1から3の何れかの確率P(音響特徴量|音響イベント)および確率P(音響イベント|状況)を用い、
前記音響特徴量列について、前記確率P(音響特徴量|音響イベント)を最大にする音響イベント列を得る音響イベント推定部と、
前記音響イベント列から得られる音響イベントの分布と、前記音響イベントを確率変数とした確率P(音響イベント|状況)の各状況に対応する分布との距離に基づいて、前記音響特徴量列に対応する状況または状況の列を得る比較部と、
を有するモデル処理装置。
Using at least the total number of types of acoustic events, the total number of types of situations, the acoustic feature quantity sequence, the probability P (acoustic feature quantity | acoustic event) and the probability P (acoustic event | situation) of any one of claims 1 to 3 ,
An acoustic event estimation unit that obtains an acoustic event sequence that maximizes the probability P (acoustic feature amount | acoustic event) for the acoustic feature amount sequence;
Corresponding to the acoustic feature value sequence based on the distance between the distribution of the acoustic event obtained from the acoustic event sequence and the distribution corresponding to each situation of the probability P (acoustic event | situation) using the acoustic event as a random variable A comparison unit that obtains a situation or a sequence of situations,
A model processing apparatus.
請求項4のモデル処理装置であって、
前記音響イベント推定部は、前記音響特徴量列を音響特徴量f,・・・,fN’の列とし、前記音響イベントの種類の総数をMとし、i=1,・・・,N’とし、N’を正整数とし、p(m)を予め定められた事前確率とし、μおよびΛをモデルパラメータとした場合における、
Figure 0006093670

からなるm,・・・,mN’を前記音響イベント列として得るモデル処理装置。
The model processing device according to claim 4,
The acoustic event estimation unit sets the acoustic feature quantity sequence as a sequence of acoustic feature quantities f 1 ,..., F N ′ , sets the total number of types of acoustic events as M, and i = 1,. Where N is a positive integer, p (m i ) is a predetermined prior probability, and μ m and Λ m are model parameters.
Figure 0006093670

M 1, ···, model processing apparatus for obtaining m N 'as the acoustic event sequence comprising a.
請求項4のモデル処理装置であって、
前記比較部は、前記音響イベントの種類の総数をMとし、前記状況の種類の総数をTとし、前記音響イベントm=1,・・・,Mの分布をP(m)とし、前記音響イベントm=1,・・・,Mを確率変数とした確率P(音響イベント|状況)=P(m|t)の各状況t=1,・・・,Tに対応する分布をQ(m)とした場合における、
Figure 0006093670

または
Figure 0006093670

に基づいて、前記音響特徴量列に対応する状況または状況の列を得るモデル処理装置。
The model processing device according to claim 4,
The comparison unit sets M as the total number of types of acoustic events, T as the total number of types of situations, and P (m) as the distribution of the acoustic events m = 1,. m = 1, ···, probability and random variable the M P (acoustic event | situation) = P | each situation of (m t) t = 1, ···, the corresponding distribution to T Q t (m )
Figure 0006093670

Or
Figure 0006093670

A model processing apparatus that obtains a situation or a series of situations corresponding to the acoustic feature quantity series.
少なくとも、音響イベントの種類の総数、状況の種類の総数、音響信号列から得られた時系列の音響特徴量の列である音響特徴量列に含まれた一部の時系列の音響特徴量の列である第2音響特徴量列、音響イベントが音響特徴量を生成する確率P(音響特徴量|音響イベント)、および状況が音響イベントを生成する確率P(音響イベント|状況)を用い、
前記第2音響特徴量列について、前記確率P(音響特徴量|音響イベント)を最大にする音響イベント列を得る音響イベント推定部と、
前記音響イベント列から得られる音響イベントの分布と、前記音響イベントを確率変数とした確率P(音響イベント|状況)の各状況に対応する分布との距離に基づいて、前記第2音響特徴量列に対応する状況または状況の列を得る比較部と、
少なくとも、前記音響特徴量列、前記音響イベントの種類の総数、および前記状況の種類の総数を用い、
状況に対応する音響イベントの組み合わせと、音響信号列に対応する状況の組み合わせと、音響イベントに対応する音響特徴量と、に対応する同時分布の最大値を探索する学習処理を行い、
少なくとも、状況が音響イベントを生成する第2確率P(音響イベント|状況)、および音響イベントが音響特徴量を生成する第2確率P(音響特徴量|音響イベント)を得るモデル化部と、を有するモデル処理装置。
At least the total number of types of acoustic events, the total number of types of situations, and some of the time-series acoustic features included in the acoustic feature sequence, which is a sequence of time-series acoustic features obtained from the acoustic signal sequence . A second acoustic feature quantity sequence that is a series , a probability P (acoustic feature quantity | acoustic event) that an acoustic event generates an acoustic feature quantity, and a probability P (acoustic event | situation) that a situation generates an acoustic event,
An acoustic event estimation unit that obtains an acoustic event sequence that maximizes the probability P (acoustic feature amount | acoustic event) for the second acoustic feature amount sequence;
Based on the distance between the distribution of acoustic events obtained from the acoustic event sequence and the distribution corresponding to each situation of probability P (acoustic event | situation) using the acoustic event as a random variable, the second acoustic feature quantity sequence A comparator that obtains a situation or situation column corresponding to
At least using the acoustic feature quantity sequence, the total number of types of the acoustic event, and the total number of types of the situation,
Perform a learning process to search for the maximum value of the simultaneous distribution corresponding to the combination of the acoustic event corresponding to the situation, the combination of the situation corresponding to the acoustic signal sequence, and the acoustic feature amount corresponding to the acoustic event,
A modeling unit that obtains at least a second probability P (acoustic event | situation) that the situation generates an acoustic event and a second probability P (acoustic feature quantity | acoustic event) that the acoustic event generates an acoustic feature quantity; Model processing device having.
少なくとも、音響信号列から得られた時系列の音響特徴量の列である音響特徴量列、音響イベントの種類の総数、および状況の種類の総数を用い、
状況に対応する音響イベントの組み合わせと、音響信号列に対応する状況の組み合わせと、音響イベントに対応する音響特徴量と、に対応する同時分布の最大値を探索する学習処理を行い、
少なくとも、状況が音響イベントを生成する確率P(音響イベント|状況)、および音響イベントが音響特徴量を生成する確率P(音響特徴量|音響イベント)を得るモデル化部と、
少なくとも、前記音響イベントの種類の総数、前記状況の種類の総数、前記音響特徴量列に含まれた一部の時系列の音響特徴量の列である第2音響特徴量列、前記確率P(音響特徴量|音響イベント)、および前記確率P(音響イベント|状況)を用い、
前記第2音響特徴量列について、前記確率P(音響特徴量|音響イベント)を最大にする音響イベント列を得る音響イベント推定部と、
前記音響イベント列から得られる音響イベントの分布と、前記音響イベントを確率変数とした確率P(音響イベント|状況)の各状況に対応する分布との距離に基づいて、前記第2音響特徴量列に対応する状況または状況の列を得る比較部と、
を有するモデル処理装置。
At least, the acoustic feature quantity column is a column of acoustic features of the time series obtained from the acoustic signal sequence, the total number of types of acoustic events, and the total number of types of conditions used,
Perform a learning process to search for the maximum value of the simultaneous distribution corresponding to the combination of the acoustic event corresponding to the situation, the combination of the situation corresponding to the acoustic signal sequence, and the acoustic feature amount corresponding to the acoustic event,
A modeling unit that obtains at least a probability P (acoustic event | situation) that the situation generates an acoustic event and a probability P (acoustic feature quantity | acoustic event) that the acoustic event generates an acoustic feature;
At least the total number of types of acoustic events, the total number of types of situations , a second acoustic feature quantity sequence that is a sequence of some time-series acoustic feature quantities included in the acoustic feature quantity sequence, and the probability P ( Acoustic feature amount | acoustic event) and said probability P (acoustic event | situation),
An acoustic event estimation unit that obtains an acoustic event sequence that maximizes the probability P (acoustic feature amount | acoustic event) for the second acoustic feature amount sequence;
Based on the distance between the distribution of acoustic events obtained from the acoustic event sequence and the distribution corresponding to each situation of probability P (acoustic event | situation) using the acoustic event as a random variable, the second acoustic feature quantity sequence A comparator that obtains a situation or situation column corresponding to
A model processing apparatus.
請求項7または8のモデル処理装置であって、
入力された音響信号列から前記音響特徴量列および前記第2音響特徴量列の少なくとも一方を得て出力する音響特徴量算出部をさらに有するモデル処理装置。
The model processing device according to claim 7 or 8 , comprising:
A model processing apparatus further comprising: an acoustic feature amount calculation unit that obtains and outputs at least one of the acoustic feature amount sequence and the second acoustic feature amount sequence from an input acoustic signal sequence.
モデル処理装置によって行われるモデル処理方法であって、
少なくとも、音響信号列から得られた時系列の音響特徴量の列である音響特徴量列、音響イベントの種類の総数、および状況の種類の総数を用い、
状況に対応する音響イベントの組み合わせと、音響信号列に対応する状況の組み合わせと、音響イベントに対応する音響特徴量と、に対応する同時分布の最大値を探索する学習処理を行い、
少なくとも、状況が音響イベントを生成する確率P(音響イベント|状況)、および音響イベントが音響特徴量を生成する確率P(音響特徴量|音響イベント)を得るモデル処理方法。
A model processing method performed by a model processing apparatus,
At least, using the acoustic feature sequence, which is a sequence of time-series acoustic features obtained from the acoustic signal sequence , the total number of types of acoustic events, and the total number of types of situations,
Perform a learning process to search for the maximum value of the simultaneous distribution corresponding to the combination of the acoustic event corresponding to the situation, the combination of the situation corresponding to the acoustic signal sequence, and the acoustic feature amount corresponding to the acoustic event,
A model processing method that obtains at least a probability P (acoustic event | situation) that a situation generates an acoustic event and a probability P (acoustic feature quantity | acoustic event) that the acoustic event generates an acoustic feature quantity.
モデル処理装置によって行われるモデル処理方法であって、
少なくとも、音響イベントの種類の総数、状況の種類の総数、音響特徴量列、請求項1から3の何れかの確率P(音響特徴量|音響イベント)および確率P(音響イベント|状況)を用い、
前記音響特徴量列について、前記確率P(音響特徴量|音響イベント)を最大にする音響イベント列を得る音響イベント推定ステップと、
前記音響イベント列から得られる音響イベントの分布と、前記音響イベントを確率変数とした確率P(音響イベント|状況)の各状況に対応する分布との距離に基づいて、前記音響特徴量列に対応する状況または状況の列を得る比較ステップと、
を有するモデル処理方法。
A model processing method performed by a model processing apparatus,
Using at least the total number of types of acoustic events, the total number of types of situations, the acoustic feature quantity sequence, the probability P (acoustic feature quantity | acoustic event) and the probability P (acoustic event | situation) of any one of claims 1 to 3 ,
An acoustic event estimation step for obtaining an acoustic event sequence that maximizes the probability P (acoustic feature amount | acoustic event) for the acoustic feature amount sequence;
Corresponding to the acoustic feature value sequence based on the distance between the distribution of the acoustic event obtained from the acoustic event sequence and the distribution corresponding to each situation of the probability P (acoustic event | situation) using the acoustic event as a random variable A comparison step to obtain a situation or situation column to be
A model processing method.
モデル処理装置によって行われるモデル処理方法であって、
少なくとも、音響イベントの種類の総数、状況の種類の総数、音響信号列から得られた時系列の音響特徴量の列である音響特徴量列に含まれた一部の時系列の音響特徴量の列である第2音響特徴量列、音響イベントが音響特徴量を生成する確率P(音響特徴量|音響イベント)、および状況が音響イベントを生成する確率P(音響イベント|状況)を用い、
前記第2音響特徴量列について、前記確率P(音響特徴量|音響イベント)を最大にする音響イベント列を得る音響イベント推定ステップと、
前記音響イベント列から得られる音響イベントの分布と、前記音響イベントを確率変数とした確率P(音響イベント|状況)の各状況に対応する分布との距離に基づいて、前記第2音響特徴量列に対応する状況または状況の列を得る比較ステップと、
少なくとも、前記音響特徴量、前記音響イベントの種類の総数、および前記状況の種類の総数を用い、
状況に対応する音響イベントの組み合わせと、音響信号列に対応する状況の組み合わせと、音響イベントに対応する音響特徴量、に対応する同時分布の最大値を探索する学習処理を行い、
少なくとも、状況が音響イベントを生成する第2確率P(音響イベント|状況)、および音響イベントが音響特徴量を生成する第2確率P(音響特徴量|音響イベント)を得るモデル化ステップと、
を有するモデル処理方法。
A model processing method performed by a model processing apparatus,
At least the total number of types of acoustic events, the total number of types of situations, and some of the time-series acoustic features included in the acoustic feature sequence, which is a sequence of time-series acoustic features obtained from the acoustic signal sequence . A second acoustic feature quantity sequence that is a series , a probability P (acoustic feature quantity | acoustic event) that an acoustic event generates an acoustic feature quantity, and a probability P (acoustic event | situation) that a situation generates an acoustic event,
An acoustic event estimation step for obtaining an acoustic event sequence that maximizes the probability P (acoustic feature amount | acoustic event) for the second acoustic feature amount sequence;
Based on the distance between the distribution of acoustic events obtained from the acoustic event sequence and the distribution corresponding to each situation of probability P (acoustic event | situation) using the acoustic event as a random variable, the second acoustic feature quantity sequence A comparison step to obtain a situation or situation column corresponding to
At least using the acoustic feature quantity sequence , the total number of types of the acoustic event, and the total number of types of the situation,
Perform a learning process to search the maximum value of the simultaneous distribution corresponding to the combination of the acoustic event corresponding to the situation, the combination of the situation corresponding to the acoustic signal sequence, and the acoustic feature amount corresponding to the acoustic event,
A modeling step to obtain at least a second probability P (acoustic event | situation) that the situation generates an acoustic event and a second probability P (acoustic feature quantity | acoustic event) that the acoustic event generates an acoustic feature;
A model processing method.
モデル処理装置によって行われるモデル処理方法であって、
少なくとも、音響信号列から得られた時系列の音響特徴量の列である音響特徴量列、音響イベントの種類の総数、および状況の種類の総数を用い、
状況に対応する音響イベントの組み合わせと、音響信号列に対応する状況の組み合わせと、音響イベントに対応する音響特徴量と、に対応する同時分布の最大値を探索する学習処理を行い、
少なくとも、状況が音響イベントを生成する確率P(音響イベント|状況)、および音響イベントが音響特徴量を生成する確率P(音響特徴量|音響イベント)を得るモデル化ステップと、
少なくとも、前記音響イベントの種類の総数、前記状況の種類の総数、前記音響特徴量列に含まれた一部の時系列の音響特徴量の列である第2音響特徴量列、前記確率P(音響特徴量|音響イベント)、および前記確率P(音響イベント|状況)を用い、
前記第2音響特徴量列について、前記確率P(音響特徴量|音響イベント)を最大にする音響イベント列を得る音響イベント推定ステップと、
前記音響イベント列から得られる音響イベントの分布と、前記音響イベントを確率変数とした確率P(音響イベント|状況)の各状況に対応する分布との距離に基づいて、前記第2音響特徴量列に対応する状況または状況の列を得る比較ステップと、
を有するモデル処理方法。
A model processing method performed by a model processing apparatus,
At least, the acoustic feature quantity column is a column of acoustic features of the time series obtained from the acoustic signal sequence, the total number of types of acoustic events, and the total number of types of conditions used,
Perform a learning process to search for the maximum value of the simultaneous distribution corresponding to the combination of the acoustic event corresponding to the situation, the combination of the situation corresponding to the acoustic signal sequence, and the acoustic feature amount corresponding to the acoustic event,
A modeling step of obtaining at least a probability P (acoustic event | situation) that the situation generates an acoustic event and a probability P (acoustic feature quantity | acoustic event) that the acoustic event generates an acoustic feature;
At least the total number of types of acoustic events, the total number of types of situations , a second acoustic feature quantity sequence that is a sequence of some time-series acoustic feature quantities included in the acoustic feature quantity sequence, and the probability P ( Acoustic feature amount | acoustic event) and said probability P (acoustic event | situation),
An acoustic event estimation step for obtaining an acoustic event sequence that maximizes the probability P (acoustic feature amount | acoustic event) for the second acoustic feature amount sequence;
Based on the distance between the distribution of acoustic events obtained from the acoustic event sequence and the distribution corresponding to each situation of probability P (acoustic event | situation) using the acoustic event as a random variable, the second acoustic feature quantity sequence A comparison step to obtain a situation or situation column corresponding to
A model processing method.
請求項1から9の何れかのモデル処理装置としてコンピュータを機能させるためのプログラム。   A program for causing a computer to function as the model processing device according to claim 1.
JP2013164025A 2013-08-07 2013-08-07 Model processing apparatus, model processing method, and program Active JP6093670B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013164025A JP6093670B2 (en) 2013-08-07 2013-08-07 Model processing apparatus, model processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013164025A JP6093670B2 (en) 2013-08-07 2013-08-07 Model processing apparatus, model processing method, and program

Publications (2)

Publication Number Publication Date
JP2015031944A JP2015031944A (en) 2015-02-16
JP6093670B2 true JP6093670B2 (en) 2017-03-08

Family

ID=52517268

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013164025A Active JP6093670B2 (en) 2013-08-07 2013-08-07 Model processing apparatus, model processing method, and program

Country Status (1)

Country Link
JP (1) JP6093670B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6799510B2 (en) * 2017-07-27 2020-12-16 日本電信電話株式会社 Scene recognition devices, methods, and programs

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4405418B2 (en) * 2005-03-30 2010-01-27 株式会社東芝 Information processing apparatus and method

Also Published As

Publication number Publication date
JP2015031944A (en) 2015-02-16

Similar Documents

Publication Publication Date Title
JP6933264B2 (en) Label generators, model learning devices, emotion recognition devices, their methods, programs, and recording media
CN105810193B (en) Method and apparatus for training language model and method and apparatus for recognizing language
US20120078621A1 (en) Sparse representation features for speech recognition
JP6967197B2 (en) Anomaly detection device, anomaly detection method and program
CN103578462A (en) Speech processing system
JP6553015B2 (en) Speaker attribute estimation system, learning device, estimation device, speaker attribute estimation method, and program
JP5818759B2 (en) Situation generation model creation device, situation estimation device, and program
JP2017134321A (en) Signal processing method, signal processing device, and signal processing program
JP5781040B2 (en) Action estimation apparatus and program thereof
JP6093670B2 (en) Model processing apparatus, model processing method, and program
JP3920749B2 (en) Acoustic model creation method for speech recognition, apparatus thereof, program thereof and recording medium thereof, speech recognition apparatus using acoustic model
JP4950600B2 (en) Acoustic model creation apparatus, speech recognition apparatus using the apparatus, these methods, these programs, and these recording media
JP2008129527A (en) Sound model generating device, method and program, and its recording medium
JP5783979B2 (en) Generation model creation device and estimation device
JP4716125B2 (en) Pronunciation rating device and program
JP6078441B2 (en) Model processing apparatus, analysis apparatus, method and program thereof
Cui et al. Multi-view and multi-objective semi-supervised learning for large vocabulary continuous speech recognition
JP5486565B2 (en) Speaker clustering method, speaker clustering apparatus, program
JP6114209B2 (en) Model processing apparatus, model processing method, and program
Cipli et al. Multi-class acoustic event classification of hydrophone data
JP2010054588A (en) Sound model preparing device, voice recognition device using the same, these method, these program and these recording medium
JP2016042123A (en) Generation model creation device, estimation device, method therefor, and program
Miguel et al. Bayesian networks for discrete observation distributions in speech recognition
Varshney et al. Variable sparsity regularization factor based SNMF for monaural speech separation
Chen et al. Hierarchical representation based on Bayesian nonparametric tree-structured mixture model for playing technique classification

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150811

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160923

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170213

R150 Certificate of patent or registration of utility model

Ref document number: 6093670

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150