JP6093670B2 - Model processing apparatus, model processing method, and program - Google Patents
Model processing apparatus, model processing method, and program Download PDFInfo
- Publication number
- JP6093670B2 JP6093670B2 JP2013164025A JP2013164025A JP6093670B2 JP 6093670 B2 JP6093670 B2 JP 6093670B2 JP 2013164025 A JP2013164025 A JP 2013164025A JP 2013164025 A JP2013164025 A JP 2013164025A JP 6093670 B2 JP6093670 B2 JP 6093670B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic
- situation
- event
- sequence
- acoustic event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
この発明は、音響信号列やそれに付随する音響特徴量列を利用して、状況と音響イベントとの関係を表すモデル、および音響イベントと音響特徴量との関係を表すモデルを作成する技術、ならびに生成されたモデルを利用して状況を分析、推定する技術に関する。 The present invention uses a sound signal sequence and an accompanying acoustic feature quantity sequence to create a model that expresses a relationship between a situation and an acoustic event, a model that expresses a relationship between an acoustic event and an acoustic feature quantity, and The present invention relates to a technique for analyzing and estimating a situation using a generated model.
非特許文献1に開示された従来技術では、各状況から生じた音響信号に対して、短時間区間ごとにその短時間区間の音響信号が何の音(足音,水が流れる音;以後、音響イベントとする)であるかを示すラベルが付与された、音響イベントラベル付き音響信号列を入力とし、連続する有限個のフレーム分の音響イベントラベルを用いて音響イベントラベルごとのヒストグラムを作成する。また、生成された音響イベントラベルごとのヒストグラムに対してGMM(Gaussian Mixture Model)、HMM(Hidden Markov Model)、SVM(Support Vector Machine)等のモデル化手法を用い、状況モデルを生成する。 In the prior art disclosed in Non-Patent Document 1, with respect to the acoustic signal generated from each situation, what sound (footstep, water-flowing sound; An acoustic signal sequence with an acoustic event label to which a label indicating whether it is an event is given as an input, and a histogram for each acoustic event label is created using acoustic event labels for a finite number of consecutive frames. In addition, a situation model is generated using a modeling technique such as GMM (Gaussian Mixture Model), HMM (Hidden Markov Model), or SVM (Support Vector Machine) for the generated histogram for each acoustic event label.
さらに、上記状況モデルと新たに入力された音響イベントラベル付き音響信号列から算出された音響イベントのヒストグラムをそれぞれ比較し(例えば、ユークリッド距離やコサイン距離などを用いて比較する)、複数の状況モデルのうち、最も判断基準に適合しているものをその音響信号列に対応する状況を表すと判定する。このように、従来技術では音響信号列から状況を推定することができる。 Furthermore, the above situation model is compared with the histogram of the acoustic event calculated from the newly input acoustic signal label with the acoustic event label (for example, comparison is performed using Euclidean distance, cosine distance, etc.), and a plurality of situation models are compared. Among them, it is determined that the one most suitable for the judgment criterion represents the situation corresponding to the acoustic signal sequence. Thus, according to the conventional technique, the situation can be estimated from the acoustic signal sequence.
従来技術では、状況を分析、推定するための状況モデルと音響イベントラベルを作成するための音響イベントモデルとが別々に作成されていた。そのため、状況モデルと音響イベントモデルとの同時最適化ができず、音響信号列や音響特徴量列から状況をモデル化する際に誤差が生じるという問題点があった。 In the prior art, a situation model for analyzing and estimating the situation and an acoustic event model for creating an acoustic event label have been created separately. For this reason, the situation model and the acoustic event model cannot be simultaneously optimized, and there is a problem that an error occurs when the situation is modeled from the acoustic signal string or the acoustic feature quantity string.
本発明の課題は、状況と音響イベントとの関係、および音響イベントと音響特徴量との関係をそれぞれモデル化する際に、それらの同時最適化が可能な技術を提供することである。 An object of the present invention is to provide a technique capable of simultaneously optimizing a relationship between a situation and an acoustic event and a relationship between an acoustic event and an acoustic feature amount.
本発明では、少なくとも、音響特徴量列、音響イベントの種類の総数、および状況の種類の総数を用い、状況に対応する音響イベントの組み合わせと、音響信号列に対応する状況の組み合わせと、音響イベントに対応する音響特徴量と、に対応する同時分布の最大値を探索する学習処理を行い、少なくとも、状況が音響イベントを生成する確率P(音響イベント|状況)、および音響イベントが音響特徴量を生成する確率P(音響特徴量|音響イベント)を得る。 In the present invention, at least the acoustic feature string, the total number of types of acoustic events, and the total number of types of situations are used, a combination of acoustic events corresponding to the situation, a combination of situations corresponding to the acoustic signal string, and an acoustic event And a learning process for searching for the maximum value of the simultaneous distribution corresponding to, and at least the probability P (acoustic event | situation) that the situation generates an acoustic event, and the acoustic event A probability P to be generated (acoustic feature amount | acoustic event) is obtained.
本発明では、状況と音響イベントとの関係、および音響イベントと音響特徴量との関係をそれぞれモデル化する際に、それらの同時最適化が可能となる。 In the present invention, when modeling the relationship between the situation and the acoustic event and the relationship between the acoustic event and the acoustic feature amount, it is possible to simultaneously optimize them.
以下、図面を参照して本発明の実施例を説明する。
<用語の定義>
実施例で用いる用語を定義する。
「音響イベント」とは、音の事象を意味する。「音響イベント」の具体例は、「包丁の音」「水が流れる音」「水音」「着火音」「火の音」「足音」「掃除機の排気音」などである。「音響イベントラベル」とは、音響イベントを表すラベルを意味する。「音響イベントラベル列」とは、1個以上の音響イベントラベルからなる列を意味する。
Embodiments of the present invention will be described below with reference to the drawings.
<Definition of terms>
Terms used in the examples are defined.
An “acoustic event” means a sound event. Specific examples of the “acoustic event” include “knife sound”, “water flowing sound”, “water sound”, “ignition sound”, “fire sound”, “foot sound”, and “vacuum exhaust sound”. The “acoustic event label” means a label representing an acoustic event. The “acoustic event label sequence” means a sequence composed of one or more acoustic event labels.
「状況」とは、音響イベントラベルの組み合わせによって規定される、潜在的な音響状態を意味する。言い換えると、「状況」とは、音響イベントによって規定される、潜在的な場の状況を意味する。「状況ラベル」とは、状況を表すラベルを意味する。「状況ラベル列」とは、1個以上の状況ラベルからなる列を意味する。 “Situation” means a potential acoustic state defined by a combination of acoustic event labels. In other words, “situation” means a potential field situation defined by an acoustic event. “Situation label” means a label indicating a situation. The “situation label column” means a column composed of one or more situation labels.
「XがYを生成する確率」とは、事象Xが起こるという条件のもとでの事象Yが起こる確率をいう。「XがYを生成する確率」は、「XのもとでのYの条件付き確率」や「XにおけるYの条件付き確率」とも表現できる。 “Probability that X generates Y” refers to the probability that event Y will occur under the condition that event X occurs. The “probability that X generates Y” can also be expressed as “the conditional probability of Y under X” or “the conditional probability of Y in X”.
[実施例1−1]
実施例1−1では、学習用情報として音響特徴量列を入力とした学習処理によって、状況が音響イベントを生成する確率P(音響イベント|状況)である状況−音響イベント生成モデル、および音響イベントが音響特徴量を生成する確率P(音響特徴量|音響イベント)である音響イベント−音響特徴量生成モデルを算出する。また、この学習処理によって、さらに音響信号が状況を生成する確率P(状況|音響信号)である音響信号−状況生成モデルを生成してもよい。例えば、確率P(音響イベント|状況)は、複数個の音響イベントと状況の組ごとに生成され、確率P(音響特徴量|音響イベント)は、複数個の音響特徴量と音響イベントの組ごとに生成され、確率P(状況|音響信号)は、複数個の状況と音響信号の組ごとに生成される。或いは、例えば、確率P(音響イベント|状況)は、音響イベントと状況の組に対して確率P(音響イベント|状況)を与える関数であり、確率P(音響特徴量|音響イベント)は、音響特徴量と音響イベントの組に対して確率P(音響特徴量|音響イベント)を与える関数であり、確率P(状況|音響信号)は、状況と音響信号の組に対して確率P(状況|音響信号)を与える関数である。さらに、この学習処理の過程でえられた情報から状況ラベル列を生成してもよいし、音響イベントラベル列を生成してもよい。
[Example 1-1]
In Example 1-1, a situation-acoustic event generation model in which a situation is a probability P (acoustic event | situation) of generating an acoustic event by learning processing using an acoustic feature string as input for learning, and an acoustic event Calculates an acoustic event-acoustic feature quantity generation model that is a probability P (acoustic feature quantity | acoustic event) of generating an acoustic feature quantity. Further, through this learning process, an acoustic signal-situation generation model having a probability P (situation | acoustic signal) that the acoustic signal further generates a situation may be generated. For example, the probability P (acoustic event | situation) is generated for each set of a plurality of acoustic events and situations, and the probability P (acoustic feature quantity | acoustic event) is set for each set of a plurality of acoustic feature quantities and acoustic events. The probability P (situation | acoustic signal) is generated for each set of a plurality of situations and acoustic signals. Alternatively, for example, the probability P (acoustic event | situation) is a function that gives a probability P (acoustic event | situation) to a pair of the acoustic event and the situation, and the probability P (acoustic feature quantity | acoustic event) This is a function that gives a probability P (acoustic feature quantity | acoustic event) to a set of feature quantity and acoustic event, and probability P (situation | acoustic signal) is a probability P (situation | (Sound signal). Furthermore, a situation label string may be generated from information obtained in the course of the learning process, or an acoustic event label string may be generated.
図1に例示するように、本実施例のモデル処理装置110は、音響特徴量列合成部101、状況/音響イベントモデル化部102(モデル化部)、及び記憶部103を有する。状況/音響イベントモデル化部102は、例えば、初期化部102a、第1〜4更新部102b〜102e、判定部102f、モデル算出部102g、および解析部102hを有する。モデル処理装置110は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。
As illustrated in FIG. 1, the
まず音響特徴量列合成部101に、音響特徴量列11−1,・・・,11−S(ただし、Sは1以上の整数)が入力される。各音響特徴量列11−s(ただし、s=1,・・・,S)は、1個の音響特徴量または2個以上の音響特徴量を時系列方向(例えば、時系列順)につなぎ合わせた列である。各音響特徴量は、短時間区間ごと(数10msec〜数sec程度ごと)の音響信号から得られる。各音響特徴量は複数個の要素からなるベクトルであってもよいし、単数の要素からなるスカラーであってもよい。音響特徴量の要素の例は、音響信号の音圧レベル、音響パワー、MFCC(Mel-Frequency Cepstrum Coefficient)特徴量、LPC(Linear Predictive Coding)特徴量である。さらに音響信号の立ち上がり特性、調波性、時間周期性など(例えば、非特許文献1参照)が音響特徴量の要素であってもよい。また、各音響特徴量列11−sには音響特徴量列番号sが付与されている。
First, acoustic feature quantity sequences 11-1,..., 11-S (where S is an integer equal to or greater than 1) are input to the acoustic feature quantity
複数個の音響特徴量列11−1,・・・,11−Sが音響特徴量列合成部101に入力された場合、音響特徴量列合成部101は、それらを時系列方向(例えば、時系列順)につなぎ合わせ、それによって1つの音響特徴量列11を得て出力する(合成処理)。音響特徴量列合成部101に1つの音響特徴量列11−1のみが入力された場合、音響特徴量列合成部101はそれを音響特徴量列11として出力する。音響特徴量列合成部101から出力された音響特徴量列11は、状況/音響イベントモデル化部102に入力される。なお、音響特徴量列合成部101を経由することなく、1つ音響特徴量列11がそのまま状況/音響イベントモデル化部102に入力されてもよい。
When a plurality of acoustic feature value sequences 11-1,..., 11-S are input to the acoustic feature value
状況/音響イベントモデル化部102は、以下の手順に従って、入力された音響特徴量列11から、音響信号が状況を生成する確率P(状況|音響信号)である音響信号−状況生成モデル12、状況が音響イベントを生成する確率P(音響イベント|状況)である状況−音響イベント生成モデル13、および音響イベントが音響特徴量を生成する確率P(音響特徴量|音響イベント)である音響イベント−音響特徴量生成モデル14を算出する(出力する)。さらに、状況/音響イベントモデル化部102は、状況ラベル列15を生成してもよいし、音響イベントラベル列16を生成してもよい。ただし、状況/音響イベントモデル化部102が、音響信号−状況生成モデル12や状況ラベル列15や音響イベントラベル列16を生成することは必須ではない。状況/音響イベントモデル化部102が生成したモデルや列は記憶部103に格納される。
The situation / acoustic
<音響信号から音響特徴量が生成される過程の理論的説明>
音響信号が状況の生成確率を規定し、状況が音響イベントの生成確率を規定し、音響イベントが音響特徴量の生成確率を規定すると考え、これらの関係を生成モデルとして記述する。
<Theoretical explanation of the process of generating acoustic features from acoustic signals>
It is assumed that the acoustic signal defines the generation probability of the situation, the situation defines the generation probability of the acoustic event, and the acoustic event defines the generation probability of the acoustic feature quantity, and these relationships are described as a generation model.
状況/音響イベントモデル化部102に入力された音響特徴量列11を構成する各音響特徴量列11−s(ただし、s=1,・・・,S)に対応する音響信号が状況t(ただし、t=1,・・・,T)を生成する確率P(Θ)(例えばS×T行列で表現可能)、各状況t(ただし、t=1,・・・,T)が音響イベントm(ただし、m=1,・・・,M)を生成する確率P(Φ)(例えばT×M行列で表現可能)、および各音響イベントm(ただし、m=1,・・・,M)が音響特徴量を生成する確率P(μ,Λ)(例えば、M×Dの平均行列とM×D×Dの分散行列で表現可能)が与えられたときの、音響特徴量列11の生成確率P(f|Θ,Φ,μ,Λ)は以下の通りである。
ただし、Sは1以上の整数であり、音響特徴量列11を構成する音響特徴量列11−sの個数を表す。Tは1以上の整数であり、潜在的な状況の種類の数(状況の種類の総数)を表す。Mは1以上の整数であり、音響イベントの種類の数(音響イベントの種類の総数)を表す。Dは1以上の整数定数であり、音響特徴量の次元数を表す。fは音響特徴量列11を構成する音響特徴量を要素とした列である。Θは音響特徴量列11−sと状況tとの組からなる集合を表し、P(Θ)は、例えば、音響特徴量列11−sが状況tを生成する確率をs行t列の要素とするS×T行列で表現できる。Φは状況tと音響イベントmとの組からなる集合を表し、P(Φ)は、例えば状況tが音響イベントmを生成する確率をt行m列の要素とするT×M行列で表現できる。μは音響イベントmによって発生した音響信号の音響特徴量の平均値μmからなる列μ1,・・・,μMを表す。音響イベントmによって発生した各音響特徴量が複数の要素vcmd(ただし、d=1,・・・,D)からなるベクトル(vcm1,・・・,vcmD)である場合(D≧2の場合)、μmは要素vcm1dからvcmEd(ただし、vcmd∈{vcm1d,・・・,vcmEd}であり、Eは音響イベントmに割り当てられる音響特徴量の数を表す)についてのvcmdの期待値mean(vcmd)を要素とするベクトル(mean(vcm1),・・・,mean(vcmD))である。Λは音響イベントmによって発生した音響信号の音響特徴量の分散の逆数(精度)Λmからなる列Λ1,・・・,ΛMを表す。音響イベントmによって発生した各音響特徴量が複数の要素vcmdからなるベクトル(vcm1,・・・,vcmD)である場合(D≧2の場合)、Λmは要素vcm1dからvcmEd(ただし、Eは音響イベントmに割り当てられる音響特徴量の数を表す)の分散ver(vcmd)の逆数1/ver(vcmd)を要素とするベクトル(1/ver(vcm1),・・・,1/ver(vcmD))である。fsは音響特徴量列11−sを表し、音響特徴量列11−sが含むNs個の音響特徴量からなる列を表す。Nsは音響特徴量列11−sが含む短時間区間ごとの音響特徴量の個数を表す。言い換えると、Nsは音響特徴量列11−sに対応する時間区間が含む短時間区間の個数を表す。
The acoustic signal corresponding to each acoustic feature sequence 11-s (where s = 1,..., S) constituting the acoustic feature sequence 11 input to the situation / acoustic
However, S is an integer greater than or equal to 1, and represents the number of acoustic feature amount sequences 11-s constituting the acoustic feature amount sequence 11. T is an integer of 1 or more, and represents the number of potential situation types (total number of situation types). M is an integer of 1 or more and represents the number of types of acoustic events (total number of types of acoustic events). D is an integer constant of 1 or more, and represents the number of dimensions of the acoustic feature amount. f is a column having the acoustic feature quantity constituting the acoustic feature quantity sequence 11 as an element. Θ represents a set of a set of acoustic feature quantity column 11-s and situation t, and P (Θ) represents, for example, the probability that acoustic feature quantity column 11-s generates situation t is an element of s rows and t columns. Can be expressed as an S × T matrix. Φ represents a set of a set of the situation t and the acoustic event m, and P (Φ) can be expressed by a T × M matrix having, for example, the probability that the situation t generates the acoustic event m as an element of t rows and m columns. . μ represents a column μ 1 ,..., μ M composed of an average value μ m of acoustic feature amounts of acoustic signals generated by the acoustic event m. Each acoustic feature amount generated by the acoustic event m is a vector (vc m1 ,..., Vc mD ) composed of a plurality of elements vc md (d = 1,..., D) (D ≧ 2 ), Μ m is for elements vc m1d to vc mEd (where vc md ε {vc m1d ,..., Vc mEd }, and E represents the number of acoustic features assigned to the acoustic event m) vector of vc md expected value mean (vc md) and component (mean (vc m1), ··· , mean (vc mD)) is. [Lambda] represents a sequence [Lambda] 1 ,..., [Lambda] M composed of reciprocal (accuracy) [Lambda] m of the acoustic feature amount of the acoustic signal generated by the acoustic event m. When each acoustic feature amount generated by the acoustic event m is a vector (vc m1 ,..., Vc mD ) composed of a plurality of elements vc md (when D ≧ 2), Λ m is derived from the elements vc m1d to vc mEd. (Where E represents the number of acoustic feature values assigned to the acoustic event m), a vector (1 / ver (vc m1 ),... Of the inverse 1 / ver (vc md ) of the variance vers (vc md ) .. , 1 / ver (vc mD )). f s represents the acoustic features columns 11-s, representing the column consisting of N s number of acoustic features, including the acoustic feature sequence 11-s. N s represents the number of acoustic feature amounts for each short time section included in the acoustic feature amount sequence 11-s. In other words, N s represents the number of short time sections included in the time section corresponding to the acoustic feature quantity sequence 11-s.
また、音響特徴量列11−sの生成確率P(fs)は、例えば、各音響信号が状況を生成する確率θの事前分布(Dirchlet分布に従うものとする)の超パラメータα、各状況が音響イベントを生成する確率φの事前分布(Dirchlet分布に従うものとする)の超パラメータγ、各音響イベントにおける音響特徴量の平均の超パラメータβ0,μ0、各音響イベントにおける音響特徴量の精度の超パラメータν0,B0を用いて以下のように表すことができる。
ただし、fs,i、zs,i、ms,iは、それぞれ、音響特徴量列11−sに含まれる先頭からi番目の短時間区間での音響特徴量、状況、音響イベントを表す。Dir(・),N(・),W(・)は、それぞれ、Dirichlet分布の確率密度関数、Normal分布の確率密度関数、Wishart分布の確率密度関数を表す。
Also, the acoustic feature quantity column 11-s of generation probability P (f s), for example, hyper-parameters of the prior distribution of probabilities θ of each acoustic signal to generate a status (to be subject to Dirchlet distribution) alpha, each situation Super parameter γ of prior distribution of probability φ to generate an acoustic event (according to the Dirchlet distribution), average super parameters β 0 , μ 0 of acoustic feature quantities in each acoustic event, accuracy of acoustic feature quantity in each acoustic event Can be expressed as follows using the hyperparameters ν 0 and B 0 of
Here, f s, i , z s, i , m s, i represent the acoustic feature amount, the situation, and the acoustic event in the i-th short time section from the head included in the acoustic feature amount sequence 11-s, respectively. . Dir (•), N (•), and W (•) represent the probability density function of the Dirichlet distribution, the probability density function of the Normal distribution, and the probability density function of the Wishart distribution, respectively.
ここでK−1次(Kは2以上の整数)のDirichlet分布の確率密度関数Dir(ι|τ)、およびD次のGauss−Wishart分布の確率密度関数N(μ|β0,μ0,Λ)W(Λ|ν0,B0)は以下の通りである。
ただし、τはτk(k=1,...,K)からなるパラメータ、ιは確率変数、Γはガンマ関数を表す。(・)Tは(・)の転置を表す。また、
である。
Here, the probability density function Dir (ι | τ) of the K-1 order (K is an integer of 2 or more) Dirichlet distribution, and the probability density function N (μ | β 0 , μ 0 , D-order Gauss-Wishart distribution) Λ) W (Λ | ν 0 , B 0 ) is as follows.
Here, τ represents a parameter composed of τ k (k = 1,..., K), ι represents a random variable, and Γ represents a gamma function. (•) T represents transposition of (•). Also,
It is.
<生成モデルの算出過程の説明>
状況/音響イベントモデル化部102は、入力された音響特徴量列11から、学習処理によって、前述の生成モデルやラベル列等を生成する。この学習処理は、入力された音響特徴量列11に基づいて、音響信号が状況を生成する確率P(状況|音響信号)、状況が音響イベントを生成する確率P(音響イベント|状況)、および音響イベントが音響特徴量を生成する確率P(音響特徴量|音響イベント)に基づく、状況に対応する音響イベントの組み合わせと、音響信号列に対応する状況の組み合わせと、音響イベントに対応する音響特徴量と、に対応する同時分布の最大値を探索する処理によって行われる。言い換えると、状況/音響イベントモデル化部102は、音響信号が状況を生成する確率P(状況|音響信号)、状況が音響イベントを生成する確率P(音響イベント|状況)、および音響イベントが音響特徴量を生成する確率P(音響特徴量|音響イベント)おいて、入力された音響特徴量列11の尤もらしさ(尤度または対数尤度)を最大化する学習処理(最尤学習)を行う。言い換えると、状況/音響イベントモデル化部102は、音響信号−状況生成モデル12のモデルパラメータ、状況−音響イベント生成モデル13のモデルパラメータ、および音響イベント−音響特徴量生成モデル14のモデルパラメータにおいて、入力された音響特徴量列11の尤もらしさ(すなわち、尤度関数L(音響特徴量列|パラメータ)=P(音響特徴量列|パラメータ)または対数尤度関数log L(音響特徴量列|パラメータ))を最大化する学習処理を行い、その結果を用いて各生成モデルや各ラベル列を生成する。なお、「log」は自然対数を表す。
<Description of generation model calculation process>
The situation / acoustic
このような学習には、上記の生成過程に基づいたマルコフ連鎖モンテカルロ法(MCMC法,Markov Chain Monte Carlo methods)や変分ベイズ法(VB法,Variational Bayes methods)などの手法を用いることができる。ここでは変分ベイズ法による生成モデルのパラメータ算出手法について説明を行う。 For such learning, a Markov chain Monte Carlo method (MCMC method, Markov Chain Monte Carlo methods) or a variational Bayes method (VB method, Variational Bayes methods) based on the above generation process can be used. Here, the parameter calculation method of the generation model by the variational Bayes method will be described.
<生成モデルの算出のための準備>
変分ベイズ法による生成モデルのパラメータ算出では、未知のモデルパラメータα,γ,μ0,β0,ν0,B0を確率変数として扱い、音響特徴量列11であるfについての対数尤度関数を最大化するモデルパラメータα,γ,μ0,β0,ν0,B0を求める。ここで、この対数尤度関数の未知であるすべてのモデルパラメータα,γ,μ0,β0,ν0,B0を周辺化した対数周辺尤度L(f)=p(f|α,γ,μ0,β0,ν0,B0)を考える。ここで新たな分布q(m,z,μ,Λ,φ,θ)(以下、「変分事後分布」と呼ぶ)を導入すると、Jensenの不等式によって、以下のような対数周辺尤度の下限値(Lower Bound)F[q]を求めることができる。
<Preparation for generation model calculation>
In the generation model parameter calculation by the variational Bayes method, the unknown model parameters α, γ, μ 0 , β 0 , ν 0 , B 0 are treated as random variables, and the log likelihood for f which is the acoustic feature string 11 is used. The model parameters α, γ, μ 0 , β 0 , ν 0 , B 0 that maximize the function are obtained. Here, logarithmic marginal likelihood L (f) = p (f | α, which is a marginalization of all unknown model parameters α, γ, μ 0 , β 0 , ν 0 , B 0 of the log likelihood function. Consider γ, μ 0 , β 0 , ν 0 , B 0 ). Here, when a new distribution q (m, z, μ, Λ, φ, θ) (hereinafter referred to as “variant posterior distribution”) is introduced, the lower bound of the logarithmic marginal likelihood is as follows according to Jensen's inequality. A value (Lower Bound) F [q] can be obtained.
また、上記の式から以下が成り立つ。
よって、以下の関係が成り立つ。
L(f)=F[q]+KL(q(m,z,μ,Λ,φ,θ),p(m,z,μ,Λ,φ,θ|f))
ただし、KL(・)は、KLはダイバージェンスを表すものとする。
Therefore, the following relationship is established.
L (f) = F [q] + KL (q (m, z, μ, Λ, φ, θ), p (m, z, μ, Λ, φ, θ | f))
However, KL (·) represents divergence.
ここで、L(f)がfのみに依存することに注意すると、下限値F[q]を最大化することは、q(m,z,μ,Λ,φ,θ)とp(m,z,μ,Λ,φ,θ|f)とのKLダイバージェンスを最小化することと等価であることがわかる。言い換えると、下限値F[q]を最大化する変分事後分布q(m,z,μ,Λ,φ,θ)は、真の事後分布p(m,z,μ,Λ,φ,θ|f)の最良近似となる。ここで,変分事後分布についてq(m,z,μ,Λ,φ,θ)=q(m,z)q(μ,Λ,φ,θ)を仮定する。m,zは変分ベイズ学習における隠れ変数(非観測変数)に相当し、μ,Λ,φ,θはパラメータに相当する。すると、下限値F[q]は以下のように変形できる。
まず、q(m,z)=q(m|z)q(z)とし、隠れ変数m,zの変分事後分布の導出を行う。F[q]において、zに依存しない項を定数項と見なし、ラグランジュの未定乗数法などを用いてzの変分事後分布q(z)を導出すると、q(z)は多項分布の積で表現可能であることがわかる。そこで、q(z)のパラメータrntを導入する。すると、q(z)は以下のように表現できる。
ただし、音響特徴量列11に対応する時間区間が含む短時間区間の個数をNとし(N=Σs=1 SNs)、n=1,・・・,Nとする。zntは音響特徴量列11に含まれる先頭からn番目の音響特徴量が状況tに対応する場合に1となり、そうでない場合に0となる。
First, q (m, z) = q (m | z) q (z) is set, and a variational posterior distribution of hidden variables m and z is derived. In F [q], if a term independent of z is regarded as a constant term and the variational posterior distribution q (z) of z is derived using Lagrange's undetermined multiplier method or the like, q (z) is a product of multinomial distributions. It can be seen that it can be expressed. Therefore, the parameter r nt of q (z) is introduced. Then, q (z) can be expressed as follows.
However, let N be the number of short time sections included in the time section corresponding to the acoustic feature quantity sequence 11 (N = Σ s = 1 S N s ), and n = 1,. z nt is 1 when the nth acoustic feature amount from the head included in the acoustic feature amount sequence 11 corresponds to the situation t, and 0 otherwise.
同様に、mの変分事後分布q(m|z)を導出すると、q(m|z)は多項分布の積で表現可能であることが分かる。そこで、q(m|z)のパラメータunmを導入する。すると、q(m|z)は以下のように表現できる。
ただし、ynmは音響特徴量列11に含まれる先頭からn番目の音響特徴量が音響イベントmに対応する場合に1となり、そうでない場合に0となる。
Similarly, if the variational posterior distribution q (m | z) of m is derived, it can be seen that q (m | z) can be expressed by a product of multinomial distributions. Therefore, the parameter u nm of q (m | z) is introduced. Then, q (m | z) can be expressed as follows.
However, y nm is 1 when the nth acoustic feature amount from the head included in the acoustic feature amount sequence 11 corresponds to the acoustic event m, and 0 otherwise.
次に、q(μ,Λ,φ,θ)=q(φ)q(θ)q(μ|Λ)q(Λ)と仮定し、パラメータμ,Λ,φ,θの変分事後分布を導出する。まず、パラメータrntのうち、音響特徴量列11−sに対応する時間区間の先頭からn’番目(n’=1,・・・,Ns)の短時間区間に対応するパラメータをrsn’tとおく。すなわち、以下の関係を満たす。
また、Nstを以下のようにおく。
すると、パラメータθの変分事後分布q(θ)は、以下の形のディリクレ分布となる。
ただし、θstは音響信号sが状況tを生成する確率を表し、Cθはq(θ)のθについての全空間積分値を1とするための規格化定数である。
Next, assuming that q (μ, Λ, φ, θ) = q (φ) q (θ) q (μ | Λ) q (Λ), the variational posterior distribution of the parameters μ, Λ, φ, θ is To derive. First, among the parameters r nt , the parameters corresponding to the n′-th (n ′ = 1,..., N s ) short time interval from the beginning of the time interval corresponding to the acoustic feature quantity sequence 11-s are set to r sn. 't . That is, the following relationship is satisfied.
N st is set as follows.
Then, the variational posterior distribution q (θ) of the parameter θ is a Dirichlet distribution having the following form.
Here, θ st represents the probability that the acoustic signal s generates the situation t, and C θ is a normalization constant for setting the total spatial integration value for θ of q (θ) to 1.
また、Ntmを以下のようにおく。
すると、パラメータφの変分事後分布q(φ)は、以下の形のディリクレ分布となる。
ただし、Cφはq(φ)のφについての全空間積分値を1とするための規格化定数である。
Further, N tm is set as follows.
Then, the variational posterior distribution q (φ) of the parameter φ is a Dirichlet distribution having the following form.
However, C φ is a normalization constant for setting the total spatial integration value for φ of q (φ) to 1.
同様に、μmの変分事後分布q(μm|Λm)は以下のように算出可能である。
つまり、q(μm|Λm)は平均がμm、共分散がβmΛmのガウス分布であることが分かる。
Similarly, mu m variational posterior distribution q (μ m | Λ m) can be calculated as follows.
That is, it can be seen that q (μ m | Λ m ) is a Gaussian distribution with an average of μ m and a covariance of β m Λ m .
さらに、Λmの変分事後分布q(Λm)は以下の様に記述可能である。
ただし、以下を満たす。
つまり、q(Λm)はν0およびBmをパラメータとするWishart分布であることが分かる。
Moreover, lambda m the variational posterior distribution q (Λ m) can be described as follows.
However, the following is satisfied.
That is, it can be seen that q (Λ m ) is a Wishart distribution with ν 0 and B m as parameters.
以上によってパラメータμ,Λ,φ,θの変分事後分布q(μ,Λ,φ,θ)が導出できたので、再び、隠れ変数m,zの変分事後分布の導出に戻り、パラメータrntおよびunmを導出する。 Thus, the variational posterior distribution q (μ, Λ, φ, θ) of the parameters μ, Λ, φ, θ can be derived. Therefore, the process returns to the derivation of the variational posterior distribution of the hidden variables m, z again, and the parameter r Deriving nt and u nm .
まず、変分事後分布q(z)のzについての全空間積分値が1であるとの制約条件のもとでF[q]を最大化するq(z)は、以下のようになる。
ただし、Czはq(z)のzについての全空間積分値を1とするための規格化定数である。また、φtmは状況tが音響イベントmを生成する確率を表す。
First, q (z) that maximizes F [q] under the constraint that the total spatial integration value for z of the variational posterior distribution q (z) is 1 is as follows.
Here, C z is a normalization constant for setting the total space integral value for z of q (z) to 1. Φ tm represents the probability that the situation t generates an acoustic event m.
ここで
として、この部分を計算すると以下のようになる。
ただし、Ψはディガンマ関数を表す。
here
As a result, this part is calculated as follows.
Here, Ψ represents a digamma function.
よって最終的に、式(1)(8)より、音響特徴量列11−sに対応するパラメータrsn’tは以下のように表現できる。
ただし、パラメータunmのうち、音響特徴量列11−sに対応する時間区間の先頭からn’番目(n’=1,・・・,Ns)の短時間区間に対応するパラメータをusn’mとおく。すなわち、以下の関係を満たす。
また、Usn’mはusn’mを用いて以下のように表現される。
U sn′m is expressed as follows using u sn′m .
また、変分事後分布q(m|z)のmについての全空間積分値が1であるとの制約条件のもとでF[q]を最大化するq(m|z)は、以下のようになる。
この各項をzの変分事後分布q(z)の場合と同様に算出していくと、以下のようになる。
よって、以下を満たす。
If each of these terms is calculated in the same manner as in the case of the variational posterior distribution q (z) of z, the following is obtained.
Therefore, the following is satisfied.
よって最終的に、式(2)(12)より、パラメータunmは以下のように表現できる。
以上より、生成モデルを推定する際は、隠れ変数であるm,zの変分事後分布とパラメータであるμ,Λ,φ,θの変分事後分布とを上記の式(3)〜(7)(9)〜(11)(13)に当てはめて繰り返し更新すれば良いことが分かる。 From the above, when estimating the generation model, the variational posterior distributions of m and z which are hidden variables and the variational posterior distributions of parameters μ, Λ, φ and θ are expressed by the above equations (3) to (7). ) (9) to (11) It is understood that it is only necessary to repeatedly update by applying to (13).
<生成モデル算出の流れの例>
(i)まず、状況/音響イベントモデル化部102は、S,T,M,D,N,Nsを入力とし、ハイパパラメータとしてα,γ,μ0,β0,ν0,B0を設定し(例えば、α=0.3,γ=0.1,μ0=0(全ての要素を0とするベクトル),β0=2.0,ν0=D+1,B0=I(単位行列)等)、これらを用いて、以下のように各変分事後分布のハイパパラメータを初期化する。
<Example of generation model calculation flow>
(I) First, the situation / acoustic
(i−1)状況/音響イベントモデル化部102の初期化部102aは、s=1,・・・,S、t=1,・・・・,Tに対して、以下を設定する。
αst (0)=α
Nst (0)=Ns/T
なお、上付き添え字の(0)はstの真上に記載すべきであるが、記述の制約上stの右上に表記されている。すなわち、文字「G」「g1」「g2」についての「Gg1 g2」との表記は、「g2」が「g1」の真上にある表記と同義である。
(I-1) The
α st (0) = α
N st (0) = N s / T
The superscript (0) should be described immediately above st, but it is described at the upper right of st due to the restriction of description. That is, the notation “G g1 g2 ” for the letters “G”, “g1”, and “g2” is synonymous with the notation that “g2” is directly above “g1”.
(i−2)状況/音響イベントモデル化部102の初期化部102aは、t=1,2,・・・,T、m=1,2,・・・・,Mに対して、以下を設定し、さらにh=0とする。
γtm (0)=γ
Ntm (0)=N/(T×M)
Nm (0)=N/M
μm (0)=μ0
νm (0)=ν0
Bm (0)=B0
Usn’m (0)=0(零行列)
γ tm (0) = γ
N tm (0) = N / (T × M)
N m (0) = N / M
μ m (0) = μ 0
ν m (0) = ν 0
B m (0) = B 0
U sn'm (0) = 0 (zero matrix)
その後、状況/音響イベントモデル化部102は、入力された音響特徴量f1,・・・,fNの列を用いて、以下の(ii−1−1),(ii−1−2),(ii−2−1),および(ii−2−2)を、終了条件が満たされるまで繰り返す。終了条件の例は、(ii−1−1),(ii−1−2),(ii−2−1),および(ii−2−2)を規定の回数(正値、例えば1〜3000回程度)繰り返すこと、または、所望の結果が得られこと(例えば、割り当ての前後において、F(q)の変化が一定の閾値(例えば0.01%)以下にこと)である。
After that, the situation / acoustic
(ii−1−1)状況/音響イベントモデル化部102の第1更新部102bは、s=1,2,・・・,S、n’=1,2,・・・,Ns、t=1,2,・・・・,Tに対して、以下のように隠れ変数zの変分事後分布q(z)のパラメータを更新して出力する。なお、rsn’t (h)はh回目の更新で得られたrsn’tであり、Rsn’t (h)はh回目の更新で得られたRsn’tであり、usn’m (h)はh回目の更新で得られたusn’mであり、Usn’m (h)はh回目の更新で得られたUsn’mである。
(ii−1−2)状況/音響イベントモデル化部102の第2更新部102cは、n=1,2,・・・,N、m=1,2,・・・・,Mに対して、以下のように隠れ変数mの変分事後分布q(m|z)のパラメータを更新して出力する。
(ii−2−1)状況/音響イベントモデル化部102の第3更新部102dは、s=1,2,・・・,S、n’=1,2,・・・,Ns、t=1,2,・・・・,Tに対して、以下のようにパラメータθの変分事後分布q(θ)のパラメータを更新して出力する。
その後(ii−2−2)に進む。
Thereafter, the process proceeds to (ii-2-2).
(ii−2−2)状況/音響イベントモデル化部102の第4更新部102eは、n=1,2,・・・,N、t=1,2,・・・,T、m=1,2,・・・・,Mに対して、以下のようにパラメータφ,μ,Λの変分事後分布q(φ),q(μm|Λm),q(Λm)のパラメータを更新して出力する。
その後、状況/音響イベントモデル化部102の判定部102fは終了条件を満たしたかを判定する。終了条件を満たしていない場合、判定部102fはh+1を新たなhとして(ii−1−1)の処理に戻し、第1〜4更新部102b〜102eの処理を再び実行させた後、終了条件を満たしたかを判定する。終了条件を満たした場合には、状況/音響イベントモデル化部102のモデル算出部102gが、第1〜4更新部102b〜102eの何れかで得られた更新後のパラメータを用いて、音響信号−状況生成モデル12、状況−音響イベント生成モデル13、および音響イベント−音響特徴量生成モデル14を算出する。状況/音響イベントモデル化部102の解析部102hが、更新後のパラメータを用いて、状況ラベル列15を生成してもよいし、音響イベントラベル列16を生成してもよい。ただし音響信号−状況生成モデル12や状況ラベル列15や音響イベントラベル列16を生成することは必須ではない。状況/音響イベントモデル化部102が生成した生成モデルやラベル列は記憶部103に格納される。
Thereafter, the
例えば、状況/音響イベントモデル化部102のモデル算出部102gは、以下のt=1,・・・,Tについての以下のNstを音響信号−状況生成モデル12として算出してもよいし、m=1,・・・,M、t=1,・・・,Tについての以下のNtmを状況−音響イベント生成モデル13として算出してもよいし、m=1,・・・,Mについての以下のνm (h)を平均、Σμm (h)を分散、gμm (h)を自由度とするStudent−t分布に従う確率密度関数を音響イベント−音響特徴量生成モデル14としてもよい。ただし、下付き添え字の「μm」はμmを表す。
また例えば、状況/音響イベントモデル化部102の解析部102hは、音響特徴量列11−sに対応する時間区間の先頭からn’番目の短時間区間の音響特徴量に対してargmaxtRsn’tを算出し、それらを並べた状況ラベル列15や、音響特徴量列11に対応する時間区間の先頭からn番目の短時間区間の音響特徴量に対してargmaxmUnmを算出し、それらを並べた音響イベントラベル列16を出力しても良い。
Further, for example, the analysis unit 102h of the situation / acoustic
以上のように本実施例では、状況/音響イベントモデル化部102において、音響信号が状況を生成する確率や、状況が音響イベントを生成する確率のみではなく、音響イベントが音響特徴量を生成する確率の学習をも同時に行うことができる。その結果、音響イベント間の類似度を精度良く生成モデルに組み込むことができる。また、上記更新の結果で割り当てられた状況や音響イベントを分析することで、各音響特徴量がどの状況や音響イベントにより生成されたものかを知ることも可能である。
As described above, in the present embodiment, in the situation / acoustic
[実施例1−2]
実施例1−2では、音響信号列を入力として、学習処理によって、音響信号−状況生成モデル12、状況−音響イベント生成モデル13、および音響イベント−音響特徴量生成モデル14を算出する。さらに、状況ラベル列15を生成してもよいし、音響イベントラベル列16を生成してもよい。ただし、状況/音響イベントモデル化部102が、音響信号−状況生成モデル12や状況ラベル列15や音響イベントラベル列16を生成することは必須ではない。以降、同一のものには同じ参照符号を付し、説明は繰り返さない。
[Example 1-2]
In Example 1-2, the acoustic signal sequence is input, and the acoustic signal-
図2に例示するように、本形態のモデル処理装置120は、特徴量算出部111、音響特徴量列合成部101、状況/音響イベントモデル化部102、及び記憶部103を有する。モデル処理装置120は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。
As illustrated in FIG. 2, the
まず特徴量算出部111に音響信号列10−1,・・・,10−Sが入力される。各音響信号列10−s(ただし、s∈{1,・・・,S})は、短時間区間ごとに区分された要素からなり、各要素には要素番号が付されている。
First, acoustic signal sequences 10-1,..., 10-S are input to the feature
特徴量算出部111は、各音響信号列10−sから、音響特徴量列10−sを算出して出力する。各音響特徴量は複数個の要素からなるベクトルであってもよいし、単数の要素からなるスカラーであってもよい。例えば特徴量算出部111は、入力された音響信号列10−sに対し、前述の短時間区間からなるフレームごとに、音圧レベル、音響パワー、MFCC特徴量、LPC特徴量などを算出し、これらを音響特徴量列として出力する。さらに立ち上がり特性、調波性、時間周期性などの音響特徴量が音響特徴量列に加えられてもよい。各音響特徴量列11−sには音響特徴量列番号sが付与される。
The feature
立ち上がり特性とは、数十から数百ミリ秒ごとにおける、音響信号の大きさを表す指標の増加の度合いを表す指標である。ここで、音響信号の大きさを表す指標とは、例えば、音響信号の振幅の絶対値、音響信号の振幅の絶対値の対数値、音響信号のパワー又は音響信号のパワーの対数値である。例えば、以下の式で得られる値が0以上であればその値が立ち上がり特性とされ、以下の式で得られる値が0未満であれば0が立ち上がり特性とされる。
ただし、k’はフレームをK’個の微小な時間区間(例えば1msec程度)に区分した場合の各時間区間に対応し、p ̄k’はk’番目の時間区間でのサンプルの大きさを表す指標の代表値又は平均値を表す。なお、「サンプルの大きさを表す指標」の例は、サンプルの振幅、サンプルの振幅の絶対値、サンプルの振幅の対数値、サンプルのエネルギー、サンプルのパワー、又はサンプルのパワーの対数値などである。「サンプル」は音響信号列の各音響信号を表す。また、Δp ̄k’はp ̄k’の変化率を表す。例えば、Δp− k’=p− k’−p− k’−1である。Δp− k’=p− k’+1−p− k’としてもよい。また、最小二乗法等の近似手法を用いてk’番目の時間区間におけるp− k’を近似した直線を求め、その時間区間におけるその直線の傾きをΔp− k’としてもよい。また、k’番目の時間区間を含む複数の時間区間におけるp ̄k’−κ,・・・,p ̄k’−1,p− k’,p ̄k’+1,...,p ̄k’−κ’の近時曲線を求め、そのk’番目の時間区間に対応する点での傾き(微分値)をΔp− k’としてもよい。またχを任意の文字として、χの右肩の「−」は、χの上付きバーを意味する。また分子における(p ̄k’)2を(p ̄’)m’とし、m’を任意の値としても良い。
The rising characteristic is an index representing the degree of increase in the index representing the magnitude of the acoustic signal every several tens to several hundreds of milliseconds. Here, the index representing the magnitude of the acoustic signal is, for example, an absolute value of the amplitude of the acoustic signal, a logarithmic value of the absolute value of the amplitude of the acoustic signal, a power of the acoustic signal, or a logarithmic value of the power of the acoustic signal. For example, if the value obtained by the following expression is 0 or more, the value is the rising characteristic, and if the value obtained by the following expression is less than 0, 0 is the rising characteristic.
However, k ′ corresponds to each time interval when the frame is divided into K ′ minute time intervals (for example, about 1 msec), and p ′ k ′ indicates the sample size in the k′-th time interval. The representative value or average value of the index to be represented is represented. Examples of “index indicating sample size” are sample amplitude, absolute value of sample amplitude, logarithm of sample amplitude, sample energy, sample power, logarithm of sample power, etc. is there. “Sample” represents each acoustic signal in the acoustic signal sequence. Δp ̄k ′ represents the rate of change of p ̄k ′ . For example, Δp - k '= p - k' -p - a k'-1. Δp - k '= p - k ' + 1 -p - k ' may be. Alternatively, an approximation method such as a least square method may be used to obtain a straight line that approximates p − k ′ in the k′th time interval, and the slope of the straight line in the time interval may be Δp − k ′ . In addition, p ̄k' -κ , ..., p ̄k' -1 , p - k ' , p ̄k ' + 1 ,... In a plurality of time intervals including the k'th time interval. . . , P ̄ k′−κ ′ , and a slope (differential value) at a point corresponding to the k′- th time interval may be Δp − k ′ . Further, with χ as an arbitrary character, “−” on the right shoulder of χ means a superscript bar of χ. Further, (p ̄k ′ ) 2 in the molecule may be (p ̄ ′ ) m ′, and m ′ may be an arbitrary value.
以下に調波性を例示する。
また、N”はフレームに含まれるサンプル数を表す1以上の整数、n”はフレーム内の各サンプル点を表す1以上のN”以下の整数、x(n”)はサンプル点n”でのサンプルの大きさを表す指標である。Rff(τ”)はf(n”)のラグτ”での自己相関係数、max{・}は「・」の最大値を表す。ラグτは1以上N以下の整数である。Rff(τ”)は、例えば以下のように定義される。
N ″ is an integer of 1 or more representing the number of samples included in the frame, n ″ is an integer of 1 or more of N ″ representing each sample point in the frame, and x (n ″) is a sample point n ″. R ff (τ ″) is an autocorrelation coefficient at the lag τ ″ of f (n ″), and max {•} represents the maximum value of “•”. The lag τ is an integer from 1 to N. R ff (τ ″) is defined as follows, for example.
以下に時間周期性を例示する。
ただし、L”は一周期とみなすサンプル数、M”は時間周期性の度合を計算するための周期数を表す1以上の整数、p”(・)はサンプルの大きさを表す指標を時間平滑化した値、p ̄はフレーム内でのサンプルの大きさを表す指標の平均値を表す。
The time periodicity is exemplified below.
Where L ″ is the number of samples regarded as one period, M ″ is an integer of 1 or more representing the number of periods for calculating the degree of time periodicity, and p ″ (•) is a time smoothing index representing the sample size. The converted value, p ̄, represents an average value of an index representing the size of the sample in the frame.
次に、音響特徴量列合成部101に、音響特徴量列11−1,・・・,11−S(ただし、Sは1以上の整数)が入力される。複数個の音響特徴量列11−1,・・・,11−Sが音響特徴量列合成部101に入力された場合、音響特徴量列合成部101は、それらを時系列方向(例えば、時系列順)につなぎ合わせ、それによって1つの音響特徴量列11を得て出力する。音響特徴量列合成部101に1つの音響特徴量列11−1のみが入力された場合、音響特徴量列合成部101はそれを音響特徴量列11として出力する。音響特徴量列合成部101から出力された音響特徴量列11は、状況/音響イベントモデル化部102に入力される。なお、音響特徴量列合成部101を経由することなく、1つ音響特徴量列11がそのまま状況/音響イベントモデル化部102に入力されてもよい。或いは、音響特徴量列11−1,・・・,11−Sを生成した後に、それらを合成して音響特徴量列11を得ることに代えて、音響信号列10−1,・・・,10−Sを時系列方向(例えば、時系列順)に合成した音響信号列10を得た後に、音響信号列10から音響特徴量列11を生成してもよい。これ以降の処理は実施例1−1と同じであるため、説明を省略する。
Next, the acoustic feature quantity sequence 11-1,..., 11 -S (where S is an integer equal to or greater than 1) is input to the acoustic feature quantity
[実施例2−1]
実施例2−1では、実施例1−1で説明したように得られた状況−音響イベント生成モデル13および音響イベント−音響特徴量生成モデル14を用い、新たに入力された音響信号列から状況を推定する。
[Example 2-1]
In Example 2-1, the situation-acoustic
図3に例示するように、本形態のモデル処理装置210は、記憶部203及び生成モデル比較部201を有する。生成モデル比較部201は、例えば、音響イベント推定部201aおよび比較部201bを有する。モデル処理装置210は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。また記憶部203には、実施例1−1で説明したように得られた状況−音響イベント生成モデル13および音響イベント−音響特徴量生成モデル14が格納されている。
As illustrated in FIG. 3, the
音響イベントの種類の総数M、状況の種類の総数T、音響特徴量列21が生成モデル比較部201に入力される。音響特徴量列21は、1個の音響特徴量または2個以上の音響特徴量を時系列方向(例えば、時系列順)につなぎ合わせた列である。実施例1−1で説明したように、各音響特徴量は、短時間区間ごとの音響信号から得られたものである。各音響特徴量は複数個の要素からなるベクトルであってもよいし、単数の要素からなるスカラーであってもよい。生成モデル比較部201は、例えば、入力された情報を用い、音響特徴量列21と、状況−音響イベント生成モデル13とを比較し、最も近いと判断された状況、若しくは近いと判断された状況から複数個、またはある尤度よりも高いと判断された状況を判定結果として出力する。また、生成モデル比較部201が、音響特徴量列21と音響イベント−音響特徴量生成モデル14とを用い、音響特徴量列21に対応する音響イベント列を推定して出力してもよい。以下に、生成モデル比較部201の処理を例示する。
The total number M of acoustic event types, the total number T of situation types, and the acoustic
まず、生成モデル比較部201の音響イベント推定部201aは、記憶部203から読み込んだ音響イベント−音響特徴量生成モデル14を用い、音響特徴量列21を構成する各音響特徴量について確率P(音響特徴量|音響イベント)を最大にする音響イベント列(音響イベント判定結果)を得て出力する。例えば、音響特徴量列21の音響イベント推定部は、以下のように音響イベント列m1,・・・,mN’を得る。
ただし、fiは音響特徴量列21に対応する時間区間の先頭からi番目(i=1,・・・,N’)の短時間区間に対応する音響特徴量を表し、音響特徴量列21は音響特徴量f1,・・・,fN’の列である。miは音響特徴量列21に対応する時間区間の先頭からi番目の短時間区間に対応する音響イベントを表す。また、N’は正の整数であり、音響特徴量列21に対応する時間区間が含む短時間区間の数を表す。N’=Nであってもよいし、N’≠Nであってもよい。p(fi|mi,μm,Λm)は音響イベント−音響特徴量生成モデル14から得られる。例えばp(fi|mi,μm,Λm)はνm (h)を平均、Σμm (h)を分散、gμm (h)を自由度とするStudent−t分布に従う確率密度関数によって算出可能である。p(mi)は予め定められた事前確率である。また、音響イベント推定部201aは、音響特徴量列21を構成する各音響特徴量について確率P(音響特徴量|音響イベント)が大きい方から選択された複数個の音響イベントからなる音響イベント列を音響イベント判定結果としてもよいし、当該確率P(音響特徴量|音響イベント)が閾値以上(又は閾値を超える)1個または複数個の音響イベントからなる音響イベント列を音響イベント判定結果としてもよい。
First, the acoustic
However, f i represents the acoustic feature quantity corresponding to the i-th (i = 1,..., N ′) short time section from the beginning of the time section corresponding to the acoustic
生成モデル比較部201の比較部201bは、音響イベント推定部201aで得られた音響イベント列m1,・・・,mN’から得られる音響イベントの分布と、状況−音響イベント生成モデル13が表す音響イベントを確率変数としたP(音響イベント|状況)の各状況に対応する分布とを比較し、これらの分布の距離に基づいて音響特徴量列21に対応する状況または状況の列を推定し、その推定結果を状況判定結果として出力する。なお、音響イベントを確率変数としたP(音響イベント|状況)の各状況に対応する分布は、状況ごとに定まる音響イベントを確率変数としたP(音響イベント|状況)の分布である。例えば、これらの分布が最も近くなる状況を状況判定結果として出力してもよいし、これらの分布が近いほうから選択した複数個の状況を状況判定結果として出力してもよいし、これらの分布の距離が閾値以下(または未満)となる1個または複数個の状況を状況判定結果として出力してもよい。
The
<比較部201bの処理の具体例1>
まず比較部201bが、入力された音響イベント列から、以下のように音響イベントの分布p’(m)(ただし、m∈{1,・・・,M})を算出する。
ただし、γ’は事前に設定された緩和パラメータ(例えば0.01などの非負値)を表し、Cmは、入力された音響イベント列のうち音響イベントmを表す音響イベントの個数を表す。
<Specific Example 1 of Processing of
First, the
However, γ ′ represents a preset relaxation parameter (for example, a non-negative value such as 0.01), and C m represents the number of acoustic events representing the acoustic event m in the input acoustic event sequence.
次に比較部201bは、p’(m)と状況−音響イベント生成モデル13を、下記に記すカルバックライブラー情報量(Kullback-Leibler divergence: KL divergence)やイェンセンシャノン情報量(Jensen-Shannon divergence: JS divergence)などの情報量基準に基づいて比較することで、入力された音響イベント列m1,・・・,mN’に対応する状況を推定する。
式(15)又は(16)の例の場合、比較部201bは、P(m)にp’(m)(ただし、m=1,・・・,M)を代入し、Qt(m)にNtm(ただし、m=1,・・・,M,t=1,・・・,T)(音響イベントm=1,・・・,Mを確率変数とした確率P(音響イベントm|状況t)の各状況tに対応する分布)を代入する。これにより、比較部201bは、各状況t={1,・・・,T}に対応する情報量(合計T個の情報量)を得る。比較部201bは、各状況t={1,・・・,T}について算出された情報量のうち、最も小さな情報量に対応する状況、または、最も小さな情報量から順番に選択した複数個の情報量に対応する複数個の状況、または、閾値以下(又は未満)の1個または複数個に対応する状況を、音響特徴量列21に対応する状況(状況判定結果)として出力する。
In the case of the example of Expression (15) or (16), the
<比較部201bの処理の具体例2>
比較部201bは、状況−音響イベント生成モデル13と入力された音響イベント列との比較を以下のように行ってもよい。この手法では、比較部201bが、入力された音響イベント列に対し、状況−音響イベント生成モデル13のもとでの状況の尤度の和や積を求める。比較部201bは、尤度の和や積が最大となる状況を状況判定結果として出力してもよいし、尤度の和や積が大きい順に選択した複数個の状況を状況判定結果として出力してもよいし、尤度の和や積が閾値以上(又は閾値を超える)の1個または複数個の状況を、状況判定結果として出力してもよい。
<Specific Example 2 of Processing of
The
≪状況−音響イベント生成モデル13のもとでの状況tの尤度の和の例≫
ただし、ziは音響特徴量列21に対応する時間区間の先頭からi番目の短時間区間に対応する状況を表し、miは音響特徴量列21に対応する時間区間の先頭からi番目の短時間区間に対応する音響イベントを表す。
<< Situation-Example of sum of likelihood of situation t under acoustic
However, the z i represents the situation corresponding to the i-th short interval from the beginning of the time interval corresponding to the
≪状況−音響イベント生成モデル13のもとでの状況tの尤度の積の例≫
[実施例2−2]
実施例2−2では、実施例1−1で説明したように得られた状況−音響イベント生成モデル13および音響イベント−音響特徴量生成モデル14を用い、新たに入力された音響信号列から状況を推定する。
[Example 2-2]
In Example 2-2, the situation-acoustic
図4に例示するように、本形態のモデル処理装置220は、記憶部203、特徴量算出部211、及び生成モデル比較部201を有する。モデル処理装置220は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。
As illustrated in FIG. 4, the
まず特徴量算出部211に音響信号列20が入力される。音響信号列20は、短時間区間ごとに区分された要素からなり、各要素には要素番号が付されている。特徴量算出部211は、音響信号列20から前述のように音響信号列21を算出して出力する。音響信号列21は、生成モデル比較部201に入力される。これ以降の処理は実施例2−1と同じであるため説明を省略する。
First, the
[実施例3−1]
実施例3−1は、実施例1−1と実施例2−1との組み合わせである。
本実施例では、音響特徴量列11−1,・・・,11−S,21を入力として、学習処理によって、状況−音響イベント生成モデル、および音響イベント−音響特徴量生成モデルを算出する。また、この学習処理によって、さらに音響信号−状況生成モデルを生成してもよい。さらに、生成した音響信号−状況生成モデル12、及び状況−音響イベント生成モデル13を用い、音響特徴量列21から状況を推定する。
[Example 3-1]
Example 3-1 is a combination of Example 1-1 and Example 2-1.
In the present embodiment, the situation-acoustic event generation model and the acoustic event-acoustic feature quantity generation model are calculated by learning processing with the acoustic feature quantity sequences 11-1,..., 11-S, 21 as inputs. Further, an acoustic signal-situation generation model may be further generated by this learning process. Furthermore, the situation is estimated from the acoustic
図5に例示するように、実施例のモデル処理装置310は、音響特徴量列合成部101、状況/音響イベントモデル化部102、生成モデル比較部201、及び記憶部103,303を有する。モデル処理装置310は、例えば、公知又は専用のコンピュータに所定のプログラムが読み込まれることで構成される。
As illustrated in FIG. 5, the
音響特徴量列11−1,・・・,11−S,21は、音響特徴量列合成部101に入力され、音響特徴量列合成部101は、実施例1−1と同様に、これらを合成した音響特徴量列11を得て出力する。音響特徴量列11は、状況/音響イベントモデル化部102に入力され、状況/音響イベントモデル化部102は、実施例1−1と同様に、音響信号−状況生成モデル12、状況−音響イベント生成モデル13、および音響イベント−音響特徴量生成モデル14を算出する。さらに、状況/音響イベントモデル化部102は、状況ラベル列15を生成してもよいし、音響イベントラベル列16を生成してもよい。ただし、状況/音響イベントモデル化部102が、音響信号−状況生成モデル12や状況ラベル列15や音響イベントラベル列16を生成することは必須ではない。状況/音響イベントモデル化部102が生成したモデルや列は記憶部103に格納される。
The acoustic feature quantity sequences 11-1,..., 11-S, 21 are input to the acoustic feature quantity
音響特徴量列21は、さらに生成モデル比較部201に入力される。生成モデル比較部201は、実施例2−1と同様に、音響特徴量列21と、状況−音響イベント生成モデル13とを比較し、最も近いと判断された状況、もしくは、近いと判断された状況から複数個、またはある尤度よりも高いと判断された状況を判定結果として出力する。また、生成モデル比較部201が、音響特徴量列21と音響イベント−音響特徴量生成モデル14とを用い、音響特徴量列21に対応する音響イベント列を推定して出力してもよい。
The acoustic
なお、生成モデル比較部201の処理及び状況/音響イベントモデル化部102の処理のどちらを先に行っても良い。ただし、状況/音響イベントモデル化部102の処理を行う前に生成モデル比較部201の処理を行う場合、記憶部103に予め得られた各生成モデルが格納されている必要がある。
Note that either the processing of the generation
また、音響特徴量列21が、新たに入力された音響特徴量列とともに音響特徴量列合成部101に入力されてもよい。この場合、音響特徴量列合成部101がこれらを時系列方向(例えば、時系列順)につなぎ合わせ、状況/音響イベントモデル化部102に送出してもよい。
In addition, the acoustic
[実施例3−2]
実施例3−2は、実施例1−2と実施例2−2との組み合わせである。
本実施例では、音響信号列10−1,・・・,10−S,20を入力として、学習処理によって、状況−音響イベント生成モデル、および音響イベント−音響特徴量生成モデルを算出する。また、この学習処理によって、さらに音響信号−状況生成モデルを生成してもよい。さらに、生成した音響信号−状況生成モデル12、及び状況−音響イベント生成モデル13を用い、音響信号列20から状況を推定する。
[Example 3-2]
Example 3-2 is a combination of Example 1-2 and Example 2-2.
In this embodiment, the acoustic signal trains 10-1,..., 10-S, 20 are input, and the situation-acoustic event generation model and the acoustic event-acoustic feature amount generation model are calculated by learning processing. Further, an acoustic signal-situation generation model may be further generated by this learning process. Further, the situation is estimated from the
図6に例示するように、本実施例のモデル処理装置320は、特徴量算出部111−1,・・・,111−S,211、および実施例3−1で説明したモデル処理装置310(図5)を有する。
As illustrated in FIG. 6, the
音響信号列10−1,・・・,10−S,20は、それぞれ特徴量算出部111−1,・・・,111−S,211に入力される。特徴量算出部111−1,・・・,111−S,211は、実施例1−2で説明したように、音響信号列10−1,・・・,10−S,211から、それぞれ音響特徴量列10−1,・・・,10−S,21を得て出力する。音響特徴量列10−1,・・・,10−S,21は、記憶部303(図5)に格納される。以降の処理は実施例3−1と同じである。 The acoustic signal trains 10-1,..., 10-S, 20 are input to the feature amount calculation units 111-1,. As described in the embodiment 1-2, the feature amount calculation units 111-1,..., 111-S, 211 are acoustically connected from the acoustic signal trains 10-1,. The feature quantity columns 10-1,..., 10-S, 21 are obtained and output. The acoustic feature quantity columns 10-1,..., 10-S, 21 are stored in the storage unit 303 (FIG. 5). The subsequent processing is the same as in Example 3-1.
[各実施例の特徴]
上述した各実施例では、音響特徴量と状況や音響イベントとの関係のモデルを算出する際に、従来技術では困難であった、音響信号と状況、状況と音響イベント列、および音響イベント列と音響特徴量列の関係を同時に考慮した学習処理によって、音響信号−状況生成モデル12、状況−音響イベント生成モデル13、音響イベント−音響特徴量モデル等を生成できる。このように、音響信号と状況、状況と音響イベントの関係に加えて、音響イベントと音響特徴量の関係を同時に考慮することで、音響イベント間の類似度を生成モデルの学習に反映させることができ、音響イベント間の類似度を生成モデルに組み込みことができる。その結果、従来技術よりも精度良く、音響信号と状況との関係をモデル化できる。
[Features of each embodiment]
In each of the embodiments described above, when calculating the model of the relationship between the acoustic feature quantity and the situation or the acoustic event, the acoustic signal and situation, the situation and the acoustic event sequence, and the acoustic event sequence, which were difficult in the prior art, An acoustic signal-
なお、本発明は上述の各実施例に限定されるものではない。例えば、例えば、生成モデルの作成処理や状況/音響イベント判定処理が複数の装置で分散処理されてもよいし、記憶部130,303に格納された生成モデルやデータが複数の記憶部に分散して格納されてもよい。また、音響特徴量列や音響信号列が時系列の順に入力され順次処理されるのであれば、短時間区間ごとに区分された各要素に対応する要素番号が、音響特徴量列や音響信号列に含まれなくてもよい。また上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
In addition, this invention is not limited to each above-mentioned Example. For example, for example, the generation model creation process and the situation / acoustic event determination process may be distributed by a plurality of devices, or the generation models and data stored in the
上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。 When the above configuration is realized by a computer, the processing contents of the functions that each device should have are described by a program. By executing this program on a computer, the above processing functions are realized on the computer. The program describing the processing contents can be recorded on a computer-readable recording medium. An example of a computer-readable recording medium is a non-transitory recording medium. Examples of such a recording medium are a magnetic recording device, an optical disk, a magneto-optical recording medium, a semiconductor memory, and the like.
このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 This program is distributed, for example, by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。 A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, this computer reads a program stored in its own recording device and executes a process according to the read program. As another execution form of the program, the computer may read the program directly from the portable recording medium and execute processing according to the program, and each time the program is transferred from the server computer to the computer. The processing according to the received program may be executed sequentially. The above-described processing may be executed by a so-called ASP (Application Service Provider) type service that realizes a processing function only by an execution instruction and result acquisition without transferring a program from the server computer to the computer. Good.
上記実施形態では、コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されたが、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。 In the above embodiment, the processing functions of the apparatus are realized by executing a predetermined program on a computer. However, at least a part of these processing functions may be realized by hardware.
モデル処理装置 110,120,210,220,310,320
Claims (14)
状況に対応する音響イベントの組み合わせと、音響信号列に対応する状況の組み合わせと、音響イベントに対応する音響特徴量と、に対応する同時分布の最大値を探索する学習処理を行い、
少なくとも、状況が音響イベントを生成する確率P(音響イベント|状況)、および音響イベントが音響特徴量を生成する確率P(音響特徴量|音響イベント)を得るモデル化部を有するモデル処理装置。 At least, using the acoustic feature sequence, which is a sequence of time-series acoustic features obtained from the acoustic signal sequence , the total number of types of acoustic events, and the total number of types of situations,
Perform a learning process to search for the maximum value of the simultaneous distribution corresponding to the combination of the acoustic event corresponding to the situation, the combination of the situation corresponding to the acoustic signal sequence, and the acoustic feature amount corresponding to the acoustic event,
A model processing apparatus having a modeling unit that obtains at least a probability P (acoustic event | situation) that a situation generates an acoustic event and a probability P (acoustic feature quantity | acoustic event) that the acoustic event generates an acoustic feature quantity.
前記音響特徴量列が音響特徴量f1,・・・,fNの列であり、前記音響イベントの種類の総数がMであり、前記状況の種類の総数がTであり、
前記モデル化部は、
ハイパパラメータα,γ,μ0,β0,ν0,B0、およびパラメータの初期値αst (0),Nst (0),γtm (0),Ntm (0),Nm (0),μm (0),νm (0),Bm (0),Usn’m (0),gμm (0),Σμm (0)を設定し、h=0とする初期化部と、
Ψをディガンマ関数とし、
とした場合における、
を得る第1更新部と、
Dを1以上の整数定数とした場合における、
を得る第2更新部と、
を得る第3更新部と、
(・)Tを(・)の転置とした場合における、
を得る第4更新部と、
終了条件を満たすかを判定し、前記終了条件を満たさないと判定した場合、h+1を新たなhとして前記第1〜4更新部の処理を再び実行させる判定部と、
前記終了条件を満たすと判定された場合、前記第1〜4更新部の何れかで得られた値から前記確率P(音響イベント|状況)および前記確率P(音響特徴量|音響イベント)を得て出力するモデル算出部と、
を有するモデル処理装置。 The model processing device according to claim 1,
The acoustic feature amount sequence is a sequence of acoustic feature amounts f 1 ,..., F N , the total number of types of acoustic events is M, and the total number of types of situations is T.
The modeling unit
Hyper parameters α, γ, μ 0 , β 0 , ν 0 , B 0 , and initial parameter values α st (0) , N st (0) , γ tm (0) , N tm (0) , N m ( 0) , μ m (0) , ν m (0) , B m (0) , U sn'm (0) , g μm (0) , Σ μm (0) are set and h = 0 And
Let Ψ be a digamma function,
In the case of
A first update unit for obtaining
When D is an integer constant of 1 or more,
A second updating unit for obtaining
A third update unit to obtain
(・) When T is a transpose of (・),
A fourth update unit to obtain
A determination unit that determines whether an end condition is satisfied and determines that the end condition is not satisfied; and a determination unit that re-executes the processing of the first to fourth update units with h + 1 as a new h,
When it is determined that the termination condition is satisfied, the probability P (acoustic event | situation) and the probability P (acoustic feature amount | acoustic event) are obtained from the values obtained by any of the first to fourth updating units. A model calculation unit for outputting
A model processing apparatus.
入力された音響信号列から前記音響特徴量列を得て出力する音響特徴量算出部をさらに有するモデル処理装置。 The model processing apparatus according to claim 1 or 2, wherein
A model processing apparatus further comprising an acoustic feature amount calculation unit that obtains and outputs the acoustic feature amount sequence from the input acoustic signal sequence.
前記音響特徴量列について、前記確率P(音響特徴量|音響イベント)を最大にする音響イベント列を得る音響イベント推定部と、
前記音響イベント列から得られる音響イベントの分布と、前記音響イベントを確率変数とした確率P(音響イベント|状況)の各状況に対応する分布との距離に基づいて、前記音響特徴量列に対応する状況または状況の列を得る比較部と、
を有するモデル処理装置。 Using at least the total number of types of acoustic events, the total number of types of situations, the acoustic feature quantity sequence, the probability P (acoustic feature quantity | acoustic event) and the probability P (acoustic event | situation) of any one of claims 1 to 3 ,
An acoustic event estimation unit that obtains an acoustic event sequence that maximizes the probability P (acoustic feature amount | acoustic event) for the acoustic feature amount sequence;
Corresponding to the acoustic feature value sequence based on the distance between the distribution of the acoustic event obtained from the acoustic event sequence and the distribution corresponding to each situation of the probability P (acoustic event | situation) using the acoustic event as a random variable A comparison unit that obtains a situation or a sequence of situations,
A model processing apparatus.
前記音響イベント推定部は、前記音響特徴量列を音響特徴量f1,・・・,fN’の列とし、前記音響イベントの種類の総数をMとし、i=1,・・・,N’とし、N’を正整数とし、p(mi)を予め定められた事前確率とし、μmおよびΛmをモデルパラメータとした場合における、
からなるm1,・・・,mN’を前記音響イベント列として得るモデル処理装置。 The model processing device according to claim 4,
The acoustic event estimation unit sets the acoustic feature quantity sequence as a sequence of acoustic feature quantities f 1 ,..., F N ′ , sets the total number of types of acoustic events as M, and i = 1,. Where N is a positive integer, p (m i ) is a predetermined prior probability, and μ m and Λ m are model parameters.
M 1, ···, model processing apparatus for obtaining m N 'as the acoustic event sequence comprising a.
前記比較部は、前記音響イベントの種類の総数をMとし、前記状況の種類の総数をTとし、前記音響イベントm=1,・・・,Mの分布をP(m)とし、前記音響イベントm=1,・・・,Mを確率変数とした確率P(音響イベント|状況)=P(m|t)の各状況t=1,・・・,Tに対応する分布をQt(m)とした場合における、
または
に基づいて、前記音響特徴量列に対応する状況または状況の列を得るモデル処理装置。 The model processing device according to claim 4,
The comparison unit sets M as the total number of types of acoustic events, T as the total number of types of situations, and P (m) as the distribution of the acoustic events m = 1,. m = 1, ···, probability and random variable the M P (acoustic event | situation) = P | each situation of (m t) t = 1, ···, the corresponding distribution to T Q t (m )
Or
A model processing apparatus that obtains a situation or a series of situations corresponding to the acoustic feature quantity series.
前記第2音響特徴量列について、前記確率P(音響特徴量|音響イベント)を最大にする音響イベント列を得る音響イベント推定部と、
前記音響イベント列から得られる音響イベントの分布と、前記音響イベントを確率変数とした確率P(音響イベント|状況)の各状況に対応する分布との距離に基づいて、前記第2音響特徴量列に対応する状況または状況の列を得る比較部と、
少なくとも、前記音響特徴量列、前記音響イベントの種類の総数、および前記状況の種類の総数を用い、
状況に対応する音響イベントの組み合わせと、音響信号列に対応する状況の組み合わせと、音響イベントに対応する音響特徴量と、に対応する同時分布の最大値を探索する学習処理を行い、
少なくとも、状況が音響イベントを生成する第2確率P(音響イベント|状況)、および音響イベントが音響特徴量を生成する第2確率P(音響特徴量|音響イベント)を得るモデル化部と、を有するモデル処理装置。 At least the total number of types of acoustic events, the total number of types of situations, and some of the time-series acoustic features included in the acoustic feature sequence, which is a sequence of time-series acoustic features obtained from the acoustic signal sequence . A second acoustic feature quantity sequence that is a series , a probability P (acoustic feature quantity | acoustic event) that an acoustic event generates an acoustic feature quantity, and a probability P (acoustic event | situation) that a situation generates an acoustic event,
An acoustic event estimation unit that obtains an acoustic event sequence that maximizes the probability P (acoustic feature amount | acoustic event) for the second acoustic feature amount sequence;
Based on the distance between the distribution of acoustic events obtained from the acoustic event sequence and the distribution corresponding to each situation of probability P (acoustic event | situation) using the acoustic event as a random variable, the second acoustic feature quantity sequence A comparator that obtains a situation or situation column corresponding to
At least using the acoustic feature quantity sequence, the total number of types of the acoustic event, and the total number of types of the situation,
Perform a learning process to search for the maximum value of the simultaneous distribution corresponding to the combination of the acoustic event corresponding to the situation, the combination of the situation corresponding to the acoustic signal sequence, and the acoustic feature amount corresponding to the acoustic event,
A modeling unit that obtains at least a second probability P (acoustic event | situation) that the situation generates an acoustic event and a second probability P (acoustic feature quantity | acoustic event) that the acoustic event generates an acoustic feature quantity; Model processing device having.
状況に対応する音響イベントの組み合わせと、音響信号列に対応する状況の組み合わせと、音響イベントに対応する音響特徴量と、に対応する同時分布の最大値を探索する学習処理を行い、
少なくとも、状況が音響イベントを生成する確率P(音響イベント|状況)、および音響イベントが音響特徴量を生成する確率P(音響特徴量|音響イベント)を得るモデル化部と、
少なくとも、前記音響イベントの種類の総数、前記状況の種類の総数、前記音響特徴量列に含まれた一部の時系列の音響特徴量の列である第2音響特徴量列、前記確率P(音響特徴量|音響イベント)、および前記確率P(音響イベント|状況)を用い、
前記第2音響特徴量列について、前記確率P(音響特徴量|音響イベント)を最大にする音響イベント列を得る音響イベント推定部と、
前記音響イベント列から得られる音響イベントの分布と、前記音響イベントを確率変数とした確率P(音響イベント|状況)の各状況に対応する分布との距離に基づいて、前記第2音響特徴量列に対応する状況または状況の列を得る比較部と、
を有するモデル処理装置。 At least, the acoustic feature quantity column is a column of acoustic features of the time series obtained from the acoustic signal sequence, the total number of types of acoustic events, and the total number of types of conditions used,
Perform a learning process to search for the maximum value of the simultaneous distribution corresponding to the combination of the acoustic event corresponding to the situation, the combination of the situation corresponding to the acoustic signal sequence, and the acoustic feature amount corresponding to the acoustic event,
A modeling unit that obtains at least a probability P (acoustic event | situation) that the situation generates an acoustic event and a probability P (acoustic feature quantity | acoustic event) that the acoustic event generates an acoustic feature;
At least the total number of types of acoustic events, the total number of types of situations , a second acoustic feature quantity sequence that is a sequence of some time-series acoustic feature quantities included in the acoustic feature quantity sequence, and the probability P ( Acoustic feature amount | acoustic event) and said probability P (acoustic event | situation),
An acoustic event estimation unit that obtains an acoustic event sequence that maximizes the probability P (acoustic feature amount | acoustic event) for the second acoustic feature amount sequence;
Based on the distance between the distribution of acoustic events obtained from the acoustic event sequence and the distribution corresponding to each situation of probability P (acoustic event | situation) using the acoustic event as a random variable, the second acoustic feature quantity sequence A comparator that obtains a situation or situation column corresponding to
A model processing apparatus.
入力された音響信号列から前記音響特徴量列および前記第2音響特徴量列の少なくとも一方を得て出力する音響特徴量算出部をさらに有するモデル処理装置。 The model processing device according to claim 7 or 8 , comprising:
A model processing apparatus further comprising: an acoustic feature amount calculation unit that obtains and outputs at least one of the acoustic feature amount sequence and the second acoustic feature amount sequence from an input acoustic signal sequence.
少なくとも、音響信号列から得られた時系列の音響特徴量の列である音響特徴量列、音響イベントの種類の総数、および状況の種類の総数を用い、
状況に対応する音響イベントの組み合わせと、音響信号列に対応する状況の組み合わせと、音響イベントに対応する音響特徴量と、に対応する同時分布の最大値を探索する学習処理を行い、
少なくとも、状況が音響イベントを生成する確率P(音響イベント|状況)、および音響イベントが音響特徴量を生成する確率P(音響特徴量|音響イベント)を得るモデル処理方法。 A model processing method performed by a model processing apparatus,
At least, using the acoustic feature sequence, which is a sequence of time-series acoustic features obtained from the acoustic signal sequence , the total number of types of acoustic events, and the total number of types of situations,
Perform a learning process to search for the maximum value of the simultaneous distribution corresponding to the combination of the acoustic event corresponding to the situation, the combination of the situation corresponding to the acoustic signal sequence, and the acoustic feature amount corresponding to the acoustic event,
A model processing method that obtains at least a probability P (acoustic event | situation) that a situation generates an acoustic event and a probability P (acoustic feature quantity | acoustic event) that the acoustic event generates an acoustic feature quantity.
少なくとも、音響イベントの種類の総数、状況の種類の総数、音響特徴量列、請求項1から3の何れかの確率P(音響特徴量|音響イベント)および確率P(音響イベント|状況)を用い、
前記音響特徴量列について、前記確率P(音響特徴量|音響イベント)を最大にする音響イベント列を得る音響イベント推定ステップと、
前記音響イベント列から得られる音響イベントの分布と、前記音響イベントを確率変数とした確率P(音響イベント|状況)の各状況に対応する分布との距離に基づいて、前記音響特徴量列に対応する状況または状況の列を得る比較ステップと、
を有するモデル処理方法。 A model processing method performed by a model processing apparatus,
Using at least the total number of types of acoustic events, the total number of types of situations, the acoustic feature quantity sequence, the probability P (acoustic feature quantity | acoustic event) and the probability P (acoustic event | situation) of any one of claims 1 to 3 ,
An acoustic event estimation step for obtaining an acoustic event sequence that maximizes the probability P (acoustic feature amount | acoustic event) for the acoustic feature amount sequence;
Corresponding to the acoustic feature value sequence based on the distance between the distribution of the acoustic event obtained from the acoustic event sequence and the distribution corresponding to each situation of the probability P (acoustic event | situation) using the acoustic event as a random variable A comparison step to obtain a situation or situation column to be
A model processing method.
少なくとも、音響イベントの種類の総数、状況の種類の総数、音響信号列から得られた時系列の音響特徴量の列である音響特徴量列に含まれた一部の時系列の音響特徴量の列である第2音響特徴量列、音響イベントが音響特徴量を生成する確率P(音響特徴量|音響イベント)、および状況が音響イベントを生成する確率P(音響イベント|状況)を用い、
前記第2音響特徴量列について、前記確率P(音響特徴量|音響イベント)を最大にする音響イベント列を得る音響イベント推定ステップと、
前記音響イベント列から得られる音響イベントの分布と、前記音響イベントを確率変数とした確率P(音響イベント|状況)の各状況に対応する分布との距離に基づいて、前記第2音響特徴量列に対応する状況または状況の列を得る比較ステップと、
少なくとも、前記音響特徴量列、前記音響イベントの種類の総数、および前記状況の種類の総数を用い、
状況に対応する音響イベントの組み合わせと、音響信号列に対応する状況の組み合わせと、音響イベントに対応する音響特徴量、に対応する同時分布の最大値を探索する学習処理を行い、
少なくとも、状況が音響イベントを生成する第2確率P(音響イベント|状況)、および音響イベントが音響特徴量を生成する第2確率P(音響特徴量|音響イベント)を得るモデル化ステップと、
を有するモデル処理方法。 A model processing method performed by a model processing apparatus,
At least the total number of types of acoustic events, the total number of types of situations, and some of the time-series acoustic features included in the acoustic feature sequence, which is a sequence of time-series acoustic features obtained from the acoustic signal sequence . A second acoustic feature quantity sequence that is a series , a probability P (acoustic feature quantity | acoustic event) that an acoustic event generates an acoustic feature quantity, and a probability P (acoustic event | situation) that a situation generates an acoustic event,
An acoustic event estimation step for obtaining an acoustic event sequence that maximizes the probability P (acoustic feature amount | acoustic event) for the second acoustic feature amount sequence;
Based on the distance between the distribution of acoustic events obtained from the acoustic event sequence and the distribution corresponding to each situation of probability P (acoustic event | situation) using the acoustic event as a random variable, the second acoustic feature quantity sequence A comparison step to obtain a situation or situation column corresponding to
At least using the acoustic feature quantity sequence , the total number of types of the acoustic event, and the total number of types of the situation,
Perform a learning process to search the maximum value of the simultaneous distribution corresponding to the combination of the acoustic event corresponding to the situation, the combination of the situation corresponding to the acoustic signal sequence, and the acoustic feature amount corresponding to the acoustic event,
A modeling step to obtain at least a second probability P (acoustic event | situation) that the situation generates an acoustic event and a second probability P (acoustic feature quantity | acoustic event) that the acoustic event generates an acoustic feature;
A model processing method.
少なくとも、音響信号列から得られた時系列の音響特徴量の列である音響特徴量列、音響イベントの種類の総数、および状況の種類の総数を用い、
状況に対応する音響イベントの組み合わせと、音響信号列に対応する状況の組み合わせと、音響イベントに対応する音響特徴量と、に対応する同時分布の最大値を探索する学習処理を行い、
少なくとも、状況が音響イベントを生成する確率P(音響イベント|状況)、および音響イベントが音響特徴量を生成する確率P(音響特徴量|音響イベント)を得るモデル化ステップと、
少なくとも、前記音響イベントの種類の総数、前記状況の種類の総数、前記音響特徴量列に含まれた一部の時系列の音響特徴量の列である第2音響特徴量列、前記確率P(音響特徴量|音響イベント)、および前記確率P(音響イベント|状況)を用い、
前記第2音響特徴量列について、前記確率P(音響特徴量|音響イベント)を最大にする音響イベント列を得る音響イベント推定ステップと、
前記音響イベント列から得られる音響イベントの分布と、前記音響イベントを確率変数とした確率P(音響イベント|状況)の各状況に対応する分布との距離に基づいて、前記第2音響特徴量列に対応する状況または状況の列を得る比較ステップと、
を有するモデル処理方法。 A model processing method performed by a model processing apparatus,
At least, the acoustic feature quantity column is a column of acoustic features of the time series obtained from the acoustic signal sequence, the total number of types of acoustic events, and the total number of types of conditions used,
Perform a learning process to search for the maximum value of the simultaneous distribution corresponding to the combination of the acoustic event corresponding to the situation, the combination of the situation corresponding to the acoustic signal sequence, and the acoustic feature amount corresponding to the acoustic event,
A modeling step of obtaining at least a probability P (acoustic event | situation) that the situation generates an acoustic event and a probability P (acoustic feature quantity | acoustic event) that the acoustic event generates an acoustic feature;
At least the total number of types of acoustic events, the total number of types of situations , a second acoustic feature quantity sequence that is a sequence of some time-series acoustic feature quantities included in the acoustic feature quantity sequence, and the probability P ( Acoustic feature amount | acoustic event) and said probability P (acoustic event | situation),
An acoustic event estimation step for obtaining an acoustic event sequence that maximizes the probability P (acoustic feature amount | acoustic event) for the second acoustic feature amount sequence;
Based on the distance between the distribution of acoustic events obtained from the acoustic event sequence and the distribution corresponding to each situation of probability P (acoustic event | situation) using the acoustic event as a random variable, the second acoustic feature quantity sequence A comparison step to obtain a situation or situation column corresponding to
A model processing method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013164025A JP6093670B2 (en) | 2013-08-07 | 2013-08-07 | Model processing apparatus, model processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013164025A JP6093670B2 (en) | 2013-08-07 | 2013-08-07 | Model processing apparatus, model processing method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015031944A JP2015031944A (en) | 2015-02-16 |
JP6093670B2 true JP6093670B2 (en) | 2017-03-08 |
Family
ID=52517268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013164025A Active JP6093670B2 (en) | 2013-08-07 | 2013-08-07 | Model processing apparatus, model processing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6093670B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6799510B2 (en) * | 2017-07-27 | 2020-12-16 | 日本電信電話株式会社 | Scene recognition devices, methods, and programs |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4405418B2 (en) * | 2005-03-30 | 2010-01-27 | 株式会社東芝 | Information processing apparatus and method |
-
2013
- 2013-08-07 JP JP2013164025A patent/JP6093670B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015031944A (en) | 2015-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6933264B2 (en) | Label generators, model learning devices, emotion recognition devices, their methods, programs, and recording media | |
CN105810193B (en) | Method and apparatus for training language model and method and apparatus for recognizing language | |
US20120078621A1 (en) | Sparse representation features for speech recognition | |
JP6967197B2 (en) | Anomaly detection device, anomaly detection method and program | |
CN103578462A (en) | Speech processing system | |
JP6553015B2 (en) | Speaker attribute estimation system, learning device, estimation device, speaker attribute estimation method, and program | |
JP5818759B2 (en) | Situation generation model creation device, situation estimation device, and program | |
JP2017134321A (en) | Signal processing method, signal processing device, and signal processing program | |
JP5781040B2 (en) | Action estimation apparatus and program thereof | |
JP6093670B2 (en) | Model processing apparatus, model processing method, and program | |
JP3920749B2 (en) | Acoustic model creation method for speech recognition, apparatus thereof, program thereof and recording medium thereof, speech recognition apparatus using acoustic model | |
JP4950600B2 (en) | Acoustic model creation apparatus, speech recognition apparatus using the apparatus, these methods, these programs, and these recording media | |
JP2008129527A (en) | Sound model generating device, method and program, and its recording medium | |
JP5783979B2 (en) | Generation model creation device and estimation device | |
JP4716125B2 (en) | Pronunciation rating device and program | |
JP6078441B2 (en) | Model processing apparatus, analysis apparatus, method and program thereof | |
Cui et al. | Multi-view and multi-objective semi-supervised learning for large vocabulary continuous speech recognition | |
JP5486565B2 (en) | Speaker clustering method, speaker clustering apparatus, program | |
JP6114209B2 (en) | Model processing apparatus, model processing method, and program | |
Cipli et al. | Multi-class acoustic event classification of hydrophone data | |
JP2010054588A (en) | Sound model preparing device, voice recognition device using the same, these method, these program and these recording medium | |
JP2016042123A (en) | Generation model creation device, estimation device, method therefor, and program | |
Miguel et al. | Bayesian networks for discrete observation distributions in speech recognition | |
Varshney et al. | Variable sparsity regularization factor based SNMF for monaural speech separation | |
Chen et al. | Hierarchical representation based on Bayesian nonparametric tree-structured mixture model for playing technique classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150811 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160923 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161004 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161122 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170207 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170213 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6093670 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |