JP2001202358A - Bayesian inference method for mixed model and recording medium with recorded bayesian inference program for mixed model - Google Patents

Bayesian inference method for mixed model and recording medium with recorded bayesian inference program for mixed model

Info

Publication number
JP2001202358A
JP2001202358A JP2000013545A JP2000013545A JP2001202358A JP 2001202358 A JP2001202358 A JP 2001202358A JP 2000013545 A JP2000013545 A JP 2000013545A JP 2000013545 A JP2000013545 A JP 2000013545A JP 2001202358 A JP2001202358 A JP 2001202358A
Authority
JP
Japan
Prior art keywords
result
posterior distribution
model
parameters
merged
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000013545A
Other languages
Japanese (ja)
Inventor
Shuko Ueda
修功 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2000013545A priority Critical patent/JP2001202358A/en
Publication of JP2001202358A publication Critical patent/JP2001202358A/en
Pending legal-status Critical Current

Links

Landscapes

  • Complex Calculations (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a Bayesian inference method for mixed model and a recording medium with recorded program therefor, with which the optimal number of mixtures can be searched from the viewpoint of post-distribution maximization to the number of mixtures concerning the Bayesian inference of the mixed model. SOLUTION: This method is provided with a step for inferring the post- distribution of parameters while using a general Bayesian inference method for an initial parameter value and the initial number of mixtures, step for providing the best merged result, step for providing the best merged/divided result, step for providing the beat divided result, step for selecting the result, with which the lower limit value of a logarithmic ensemble likelihood function becomes maximum, corresponding to each of results by comparing the best merged result, the best merged/divided result and the best divided result provided in the respective steps, and step for repeatedly executing series of steps until the lower limit value of the logarithmic ensemble likelihood function is not increased any more.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、混合正規分布のベ
イズ(Bayes)推定等、主にパラメトリック統計の
ベイズ推定の基本技術に関わり、特に混合モデルのパラ
メータの事後分布を推定する混合モデルのベイズ推定法
に関し、更に詳しくは、混合モデルの確率密度関数がパ
ラメトリックに与えられ、該確率密度関数と観測データ
を用いて算出される対数アンサンブル尤度の下限値を最
大化するパラメータを逐次反復法により求める混合モデ
ルのベイズ推定方法および混合モデルのベイズ推定プロ
グラムを記録した記録媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a basic technique for Bayes estimation of parametric statistics, such as Bayes estimation of a mixture normal distribution, and more particularly, to Bayes estimation of a mixture model for estimating a posterior distribution of parameters of a mixture model. Regarding the estimation method, in more detail, the probability density function of the mixture model is given parametrically, and the parameter maximizing the lower limit value of the log ensemble likelihood calculated using the probability density function and the observation data is determined by a sequential iterative method. The present invention relates to a Bayesian estimation method for a mixed model to be obtained and a recording medium on which a Bayesian estimation program for a mixed model is recorded.

【0002】[0002]

【従来の技術】今、モデルの複雑さを混合数とすると
き、混合数mとモデルパラメータθで規定される混合モ
デルのパラメトリックな確率分布(確率モデル)のクラ
スを
2. Description of the Related Art When the complexity of a model is represented by a mixture number, the class of a parametric probability distribution (probability model) of the mixture model defined by the mixture number m and the model parameter θ is defined as

【数1】 とし、これを仮説空間と呼ぶこととする(・;任意の変
数)。
(Equation 1) And this is called a hypothesis space (·; arbitrary variable).

【0003】統計的推定とは、観測データ D={d1 ,d2 ,…,dn } に基づいて仮説空間上で真のモデルを最良近似する仮説
p(D|θ,m)を“探索”することと言える。そして
その近似の良さの尺度として“尤度”が用いられる。
[0003] Statistical estimation refers to a hypothesis p (D | θ, m) that best approximates a true model in a hypothesis space based on observation data D = {d 1 , d 2 ,..., D n }. You can say "search". "Likelihood" is used as a measure of the goodness of the approximation.

【0004】観測データDが得られると、モデルパラメ
ータθに対する尤度が算出できる。
When the observation data D is obtained, the likelihood for the model parameter θ can be calculated.

【数2】 尤度推定では、この尤度を最大にするパラメータθ^ を有する確率モデルp(・|θ^,m)を最良モデルと
する。そしてその値を尤度推定値と呼ぶ。尤度はmの増
加とともに一般に単調増加するため、モデル指標を予め
固定した上で最良モデルを推定する。つまり、最尤(M
L:Maximum Likelihood)推定法で
はmを固定した仮説空間でのモデル探索と言える。
(Equation 2) In the likelihood estimation, a parameter θ ^ that maximizes the likelihood is Is set as the best model. The value is called a likelihood estimation value. Since the likelihood generally increases monotonically with the increase of m, the best model is estimated after fixing the model index in advance. That is, the maximum likelihood (M
The L (Maximum Likelihood) estimation method can be said to be a model search in a hypothetical space where m is fixed.

【0005】ベイズ(VB:Variational
Bayes)推定では、尤度に加えてパラメータθの事
前分布p(θ|m)をも考慮する。即ち、パラメータを
も確率変数として取り扱う。そしてベイズ推定では、最
尤推定の様に1つの仮説p(D|θ^,m)を求めるの
ではなく、未知データdn+1 に対し、観測データDが与
えられた下でのθの事後分布p(θ|D,m)で仮説p
(dn+1 |θ,m)を重み付き平均した“事後の予測分
布”p(dn+1 |D,m)を求めdn+1 についての確率
的な言明を行う。即ち、次式で計算する。
[0005] Bayes (VB: Variational)
Bayes) estimation considers the prior distribution p (θ | m) of the parameter θ in addition to the likelihood. That is, the parameters are also handled as random variables. In Bayesian estimation, instead of obtaining one hypothesis p (D | θ ^, m) as in the maximum likelihood estimation, unknown data d n + 1 are calculated based on θ of unknown data given observation data D. Hypothesis p with posterior distribution p (θ | D, m)
(D n + 1 | θ, m) is weighted and averaged to obtain a “post-prediction distribution” p (d n + 1 | D, m), and a probabilistic statement is made about d n + 1 . That is, it is calculated by the following equation.

【0006】[0006]

【数3】 ベイズ推定では、混合数mも確率変数として取り扱え
る。即ち、mの分布P(m)も考慮すると式(2)は次
式のように書き換えられる。
(Equation 3) In Bayesian estimation, the number of mixtures m can be treated as a random variable. That is, when the distribution P (m) of m is also considered, the expression (2) can be rewritten as the following expression.

【0007】[0007]

【数4】 例えば、 di =(xi ,yi ),i=1,…,n が平均0、分散1の正規ノイズεを用いて y=f(x;θ)+ε から生成されるとする回帰モデルの場合、未知入力x
n+1 に対する予測期待出力
(Equation 4) For example, a regression model in which d i = (x i , y i ), i = 1,..., N is generated from y = f (x; θ) + ε using a normal noise ε having an average of 0 and a variance of 1 , The unknown input x
Expected expected output for n + 1

【数5】 は式(3)の両辺の期待値をとった次式で算出される。(Equation 5) Is calculated by the following equation taking the expected values of both sides of equation (3).

【0008】[0008]

【数6】 上記の事後予測分布は特殊な場合を除き解析的に求める
ことが困難で何らかの近似法を援用する。その一近似法
としてラプラス近似法がある(D.MacKay,“A practical
Bayesian framework for backpropagation networks,”
Neural Computation,vol.4,pp.448-472,1992)。ラプラ
ス近似法では事後分布をガウス関数近似し、上記積分を
解析的に求める手法である。しかしながら、この近似は
サンプル数が無限個存在するという仮定の下での近似
で、有限データの場合近似の精度に問題がある。
(Equation 6) It is difficult to analytically obtain the posterior prediction distribution except for special cases, and some approximation method is used. One such approximation is the Laplace approximation (D. MacKay, “A practical
Bayesian framework for backpropagation networks, ”
Neural Computation, vol. 4, pp. 448-472, 1992). In the Laplace approximation method, a posterior distribution is approximated by a Gaussian function, and the integral is analytically obtained. However, this approximation is an approximation under the assumption that the number of samples is infinite, and there is a problem in the accuracy of approximation in the case of finite data.

【0009】より正確な近似法としてマルコフ連鎖モン
テカルロ(MCMC)法がある(D.Gamerman,“Markov c
hain Monte Carlo, ”Chapman & Hall,1997)。今、ベ
イズ推定における期待値計算を一般的に
A more accurate approximation is the Markov chain Monte Carlo (MCMC) method (D. Gamerman, “Markovc
hain Monte Carlo, "Chapman & Hall, 1997).

【数7】 と書くと、p(x)の分布に従うサンプル(Equation 7) And the sample that follows the distribution of p (x)

【数8】 が生成できればΦは次式で近似できる。(Equation 8) Can be approximated by the following equation.

【0010】[0010]

【数9】 これがMCMC法の基本的な考え方である。(Equation 9) This is the basic concept of the MCMC method.

【0011】単純なモンテカルロ法との相違点は、x空
間全てを評価するのではなく、p(x)を近似する有限
個の{xt }をサンプリングという形式で“生成”する
点にある。サンプリングの具体的手法としてメトロポリ
ス法、Gibbs サンプリング法が著名である。
A difference from the simple Monte Carlo method is that a finite number of {x t } approximating p (x) is "generated" in the form of sampling instead of evaluating the entire x space. Metropolis method and Gibbs sampling method are famous as specific sampling methods.

【0012】しかしながら、これらMCMC法はサンプ
リングに膨大な時間を要し、また、収束判定も一般には
容易ではないという問題がある。近年、ラプラス近似よ
りも近似精度が高く、MCMCに比べ遥かに効率的な、
ベイズ推定の第三のアプローチであるVariational ベイ
ズ推定法が提案された(S.R.Waterhouse,D.MacKay andA.
J.Robinson,“Bayesian methods for mixture of exper
ts,”Advances in Neural Information Processing Sys
tems (NIPS8),1995)。
[0012] However, these MCMC methods require a great deal of time for sampling, and the convergence determination is generally not easy. In recent years, approximation accuracy is higher than Laplace approximation and much more efficient than MCMC.
A third approach to Bayesian estimation, Variational Bayesian estimation, was proposed (SRWaterhouse, D. MacKay and A.
J. Robinson, “Bayesian methods for mixture of exper
ts, ”Advances in Neural Information Processing Sys
tems (NIPS8), 1995).

【0013】混合モデルの場合、観測データxn はどの
要素モデルから生成されたかは未知である。この場合、
潜在変数Zi n を導入し、xn が第i要素モデルから生
成されたとき、Zi n =1、さもなくばZi n =0とす
る。そして、この潜在変数の集合を Z={Zi n |i=1,・・・,C、n=1,・・・,
N} とする。ここでCは混合数、Nは観測データ数を表す。
In the case of the mixed model, it is not known from which element model the observation data xn was generated. in this case,
Introducing a latent variable Z i n, when x n is generated from the i element model, and Z i n = 1, else Z i n = 0. Then, a set of latent variables Z = {Z i n | i = 1, ···, C, n = 1, ···,
N}. Here, C represents the number of mixtures, and N represents the number of observation data.

【0014】ベイズ推定では、前述した様に、全ての未
知量Z,θ,mを確率変数として取り扱う。当初のベイ
ズ推定では、mは固定(定数扱い)していたが、Attias
はベイズ推定でモデル選択を行うべくmも確率変数とし
て、MacKayのベイズ推定の定式化を拡張した(H.Attias,
“Inferrring parameters and structure of Graphical
models by variational Bayes, ”to appear in Advan
ces in Neural Information Processing Systems (NIPS
12))。以下にこれについて詳述する。
In Bayesian estimation, as described above, all unknowns Z, θ, and m are handled as random variables. In the initial Bayesian estimation, m was fixed (constant), but Attias
Extended MacKay's formulation of Bayesian estimation, where m is also a random variable, for model selection in Bayesian estimation (H. Attias,
“Inferrring parameters and structure of Graphical
models by variational Bayes, ”to appear in Advan
ces in Neural Information Processing Systems (NIPS
12)). This will be described in detail below.

【0015】全ての未知量を周辺化した次式のアンサン
ブル尤度を考える。
Consider an ensemble likelihood of the following equation in which all unknowns are marginalized.

【0016】[0016]

【数10】 ここでは観測データDのみの関数であることに注意。(Equation 10) Note that L is a function of observation data D only.

【0017】尚、全ての確率変数の結合分布p(D,
Z,θ,m)は
It should be noted that the joint distribution p (D,
Z, θ, m)

【数11】 p(D,Z,θ,m) =p(D,Z|m)p(θ|ψ,m)p(m|M) …(7) と分解できる。式(7)の右辺第一項はモデル指標が与
えられた下での完全データ(D,Z)の尤度に、第二項
はモデル指標が与えられた時のパラメータθの事前分
布、そして、第三項はモデル指標の事前分布に各々対応
している。ψ,Mは事前分布を規定するハイパーパラメ
ータ(定数)である。
(11) p (D, Z, θ, m) = p (D, Z | m) p (θ | ψ, m) p (m | M) (7) The first term on the right side of equation (7) is the likelihood of complete data (D, Z) under the given model index, the second term is the prior distribution of parameter θ when the model index is given, and , The third term respectively correspond to the prior distribution of the model index. ψ and M are hyperparameters (constants) that define the prior distribution.

【0018】ここで、新たな分布Qを導入し、対数関数
に対するJensenの不等式を適用することにより次式を得
る。
Here, the following equation is obtained by introducing a new distribution Q and applying Jensen's inequality to the logarithmic function.

【0019】[0019]

【数12】 但し、表記〈f(x)〉p(x)はxの分布p(x)に関す
るf(x)の期待値:
(Equation 12) Where the notation <f (x)> p (x) is the expected value of f (x) for the distribution p (x) of x:

【数13】 を表すものとする。(Equation 13) Shall be expressed.

【0020】またはQを変関数とする汎関数で、対数
アンサンブル尤度の下限値となっている。そして
の間には次式に関係式が成り立つ。
F is a functional having Q as a variable function, which is the lower limit of the log ensemble likelihood L. And L
The following relational expression holds between F.

【0021】[0021]

【数14】 ここに、 KL(p(x)‖q(x)) は2つの分布p(x),q(x)間の距離でKullback L
ibler 情報量と呼ばれ(坂本,石黒,北川,“情報量統
計学,”共立出版,1991)、次式で定義される。
[Equation 14] Here, KL (p (x) ‖q (x)) is a Kullback L by the distance between two distributions p (x) and q (x).
It is called ibler information quantity (Sakamoto, Ishiguro, Kitagawa, "Information Information Statistics," Kyoritsu Shuppan, 1991) and is defined by the following equation.

【数15】 式(9)でがDのみに存在する定数であることに注意
すると、下限値を最大化すべく、[Q]をQに関して
最大化することは、Qと真の事後分布p(・|D)との
KL情報量を最小化することと等価である。換言すれ
ば、を最大化する分布Qは真の事後分布の最良の近似
となっている。真の事後分布をvariational 近似する事
後分布であることから、Qはvariational 事後分布と呼
ばれる(Qは事後分布故、本来はQ(・|m,D)と書
くべきであるが表記を簡単にする為、Dを省略してい
る)。
(Equation 15) Note that in equation (9), L is a constant that exists only in D, maximizing F [Q] with respect to Q in order to maximize the lower bound, requires that Q and the true posterior distribution p (· | D) is equivalent to minimizing the amount of KL information. In other words, the distribution Q that maximizes F is the best approximation of the true posterior distribution. Q is called a variational posterior distribution because it is a posterior distribution that approximates the true posterior distribution by variational (Q is a posterior distribution, so it should be written as Q (• m, D), but the notation is simplified. Therefore, D is omitted).

【0022】Qとして各未知変量毎に分解したDecomposed for each unknown variable as Q

【数16】 Q=Q(Z|m)Q(θ|m)Q(m) …(10) の形(factorization)を仮定するが、各分布のクラスは
任意で良いとする。式(10)の制約された形で真の事後
分布を推定するため一般には真の分布に一致しないが、
全パラメータの同時事後分布を単一の正規分布で近似す
るラプラス近似法に比べれば、遥かに近似精度が高いと
言える。
Q = Q (Z | m) Q (θ | m) Q (m) (10) It is assumed that each distribution has an arbitrary class. In order to estimate the true posterior distribution in the constrained form of equation (10), it generally does not match the true distribution,
It can be said that the approximation accuracy is much higher than the Laplace approximation method in which the simultaneous posterior distribution of all parameters is approximated by a single normal distribution.

【0023】モデル指標mが与えられた下でのθの最適
variational 事後分布Q(θ|m)は、制約条件 ∫Q(θ|m)dθ=1 の下で[Q]をQに関して最大化することにより得ら
れる。
Optimum θ for given model index m
The variational posterior distribution Q (θ | m) is obtained by maximizing F [Q] with respect to Q under the constraint ∫Q (θ | m) dθ = 1.

【0024】[0024]

【数17】 但し、Cθは ∫Q(θ|m)dθ=1 となるための規格化定数である。同様に、[Equation 17] Here, C θ is a normalized constant for satisfying ∫Q (θ | m) dθ = 1. Similarly,

【数18】 式(11),(12)より明らかな様に、Q(θ|m)とQ
(Z|m)は相互に依存関係にあり閉形式で解くことは
できず逐次解法により求める。即ち、第t反復での事後
分布の推定値を各々Q(Z|m)(t) のQ(θ|m)
(t) とすると、第t+1反復での推定値を各々以下で計
算する。
(Equation 18) As is clear from equations (11) and (12), Q (θ | m) and Q
(Z | m) is mutually dependent and cannot be solved in a closed form, and is determined by a sequential solution method. That is, the estimated values of the posterior distribution at the t-th iteration are respectively expressed as Q (θ | m) of Q (Z | m) (t ).
Assuming (t) , the estimated value at the (t + 1) th iteration is calculated as follows.

【0025】[0025]

【数19】 式(13),(14)を収束するまで実行することにより局
所最適事後分布Q(Z|m)* ,Q(θ|m)* が求ま
る。
[Equation 19] By executing equations (13) and (14) until convergence, local optimal posterior distributions Q (Z | m) * and Q (θ | m) * are obtained.

【0026】一方、Q(Z|m)* ,Q(θ|m)*
得られれば、モデル指標mの最適事後分布はのQ
(m)に関する最大化より解析的に
On the other hand, if Q (Z | m) * and Q (θ | m) * are obtained, the optimal posterior distribution of the model index m is the Q of F
More analytically than maximization of (m)

【数20】 と求まる。Cm は規格化定数、この時、明らかに、(Equation 20) Is obtained. C m is a normalized constant, at which time

【数21】 が事後分布最大の観点で最適な混合数となる。これが従
来の混合モデルのベイズ推定方法である。
(Equation 21) Is the optimal number of mixtures from the viewpoint of the maximum posterior distribution. This is the conventional Bayesian estimation method for the mixed model.

【0027】[0027]

【発明が解決しようとする課題】しかしながら、上述し
た様に、従来のベイズ推定法を用いれば混合モデルのベ
イズ推定が実行できるが、式(13)および式(14)に示
した従来のベイズ推定法は前記対数アンサンブル尤度関
数の下限値の局所最適解に収束するに過ぎず、必ずしも
対数アンサンブル尤度関数の下限値を最大化するわけで
はない。従って式(13)および(14)を用いて算出され
る式(15)の最適混合数の信頼性にも問題が残る。ま
た、従来の最適混合数決定法は、複数の候補の中から式
(15)を最大とする混合数を選択するという“モデル選
択的”手法であった。
However, as described above, the Bayesian estimation of the mixed model can be executed by using the conventional Bayesian estimation method. However, the conventional Bayesian estimation shown in the equations (13) and (14) can be performed. The method simply converges to a local optimal solution of the lower limit of the log ensemble likelihood function, and does not necessarily maximize the lower limit of the log ensemble likelihood function. Therefore, there still remains a problem in the reliability of the optimum number of mixtures in the equation (15) calculated using the equations (13) and (14). In addition, the conventional method for determining the optimal number of mixtures is a “model-selective” method of selecting the number of mixtures that maximizes Expression (15) from a plurality of candidates.

【0028】本発明は、上記課題に鑑みてなされたもの
で、混合モデルに対する上記ベイズ推定の局所最適性の
問題を解決し、さらにはベイズ推定においてモデルのパ
ラメータ推定と混合数の推定を同一の目的関数の最大化
問題として同時に求めることができることを示し得る混
合モデルのベイズ推定方法および混合モデルのベイズ推
定プログラムを記録した記録媒体を提供することを目的
とする。
The present invention has been made in view of the above problems, and solves the problem of the local optimality of the Bayesian estimation for a mixed model. Further, in the Bayesian estimation, the estimation of the model parameters and the estimation of the number of mixtures are the same. An object of the present invention is to provide a Bayesian estimation method for a mixed model and a recording medium on which a Bayesian estimation program for a mixed model is recorded, which can indicate that it can be obtained simultaneously as a problem of maximizing an objective function.

【0029】[0029]

【課題を解決するための手段】前述した目的を達成する
ために、本発明のうちで請求項1記載の発明は、混合モ
デルの確率密度関数がパラメトリックに与えられ、該確
率密度関数と観測データとを用いて算出される対数アン
サンブル尤度関数の下限値を最大化するパラメータの事
後分布と混合数の事後分布とを逐次反復法によって求め
るときの混合モデルのベイズ推定方法であって、初期パ
ラメータ値および初期混合数に対して、一般のベイズ推
定方法を用いてパラメータの事後分布を推定するステッ
プと、最良併合結果を得るために、2つの要素モデルを
選択し、これら2つの要素モデルを新たな1つの要素モ
デルとして併合し、この新たな要素モデルのパラメータ
の事後分布を推定した後、前記ベイズ推定方法で全ての
要素モデルのパラメータの事後分布を推定し直し、前記
併合により前記対数アンサンブル尤度関数の下限値が増
大する場合、その推定値を最良併合結果として採用し、
増大しない場合には、前記併合処理前に戻り、別の要素
モデルとの併合を行うという処理を予め定めた有限個の
候補がなくなるまで実行するステップと、最良併合分割
結果を得るために、3つの要素モデルを選択し、これら
2つの要素モデルを新たな1つの要素モデルとして併合
し、残りの1つを新たな2つの要素モデルとして分割
し、この新たな要素モデルのパラメータの事後分布を推
定した後、前記ベイズ推定方法で全ての要素モデルのパ
ラメータの事後分布を推定し直し、前記併合分割により
前記対数アンサンブル尤度関数の下限値が増大する場
合、その推定値を最良併合分割結果として採用し、増大
しない場合には、前記併合分割処理前に戻り、別の要素
モデルとの併合分割を行うという処理を予め定めた有限
個の候補がなくなるまで実行するステップと、最良分割
結果を得るために、1つの要素モデルを選択し、その要
素モデルを新たな2つのモデルとして分割し、この新た
な要素モデルのパラメータの事後分布を推定した後、前
記ベイズ推定方法で全ての要素モデルのパラメータの事
後分布を推定し直し、前記分割により前記対数アンサン
ブル尤度関数の下限値が増大する場合、その推定値を最
良分割結果として採用し、増大しない場合には、前記分
割処理前に戻り、別の要素モデルの分割を行うという処
理を予め定めた有限個の候補がなくなるまで実行するス
テップと、前記各ステップで得られた最良併合結果、最
良併合分割結果、最良分割結果のそれぞれを比較し、各
々に対応する前記対数アンサンブル尤度関数の下限値が
最大となる結果を選択するステップと、上記一連のステ
ップを前記対数アンサンブル尤度関数の下限値が増大し
なくなるまで繰り返し実行するステップとを有すること
を要旨とする。
In order to achieve the above-mentioned object, according to the first aspect of the present invention, a probability density function of a mixture model is given parametrically, and the probability density function and observation data are obtained. A Bayesian estimation method for a mixture model when the posterior distribution of parameters maximizing the lower limit of the log ensemble likelihood function and the posterior distribution of the number of mixtures calculated using Estimating the posterior distribution of the parameters using a general Bayesian estimation method for the values and the initial number of mixtures, and selecting two element models to obtain the best merging result; After merging as a single element model and estimating the posterior distribution of the parameters of the new element model, the parameters of all the element models are estimated using the Bayesian estimation method. Again estimated posterior distribution of over data, if the lower limit value of the log-ensemble likelihood function by the merging is increased, adopts the estimated value as the best merged result,
If the number does not increase, the process returns to before the merging process, and performs a process of merging with another element model until there is no more than a predetermined finite number of candidates. One element model is selected, these two element models are merged as one new element model, the remaining one is divided as two new element models, and the posterior distribution of the parameters of the new element model is estimated. After that, the Bayesian estimation method re-estimates the posterior distribution of the parameters of all the element models, and when the lower limit of the log ensemble likelihood function increases due to the merged division, the estimated value is adopted as the best merged division result. However, if the number does not increase, the process returns to the step before the merging and splitting process, and the process of performing the merging and splitting with another element model is performed until a predetermined finite number of candidates disappear. Performing, and selecting one element model, dividing the element model as two new models, and estimating the posterior distribution of the parameters of the new element model to obtain the best division result, In the Bayesian estimation method, the posterior distributions of the parameters of all the element models are re-estimated, and when the lower limit of the logarithmic ensemble likelihood function is increased by the division, the estimated value is adopted as the best division result, and when the increase is not increased, Returns to before the division process, performing a process of dividing another element model until there is no more than a predetermined finite number of candidates, the best merged result obtained in each step, the best merged divided result Comparing each of the best segmentation results and selecting a result having a maximum lower limit of the logarithmic ensemble likelihood function corresponding to each of the results, The serial sequence of steps is summarized in that and a step of repeatedly executed until the lower limit value no longer increases the logarithmic ensemble likelihood function.

【0030】請求項1記載の本発明では、局所最適解を
回避しながら、混合数の事後分布最大化の観点で最適な
混合数を探索することができる。
According to the first aspect of the present invention, it is possible to search for an optimum number of mixtures from the viewpoint of maximizing the posterior distribution of the number of mixtures while avoiding a local optimum solution.

【0031】また、請求項2記載の発明は、混合モデル
の確率密度関数がパラメトリックに与えられ、該確率密
度関数と観測データとを用いて算出される対数アンサン
ブル尤度関数の下限値を最大化するパラメータの事後分
布と混合数の事後分布とを逐次反復法によって求めると
きの混合モデルのベイズ推定プログラムを記録した記録
媒体であって、初期パラメータ値および初期混合数に対
して、一般のベイズ推定方法を用いてパラメータの事後
分布を推定するステップと、最良併合結果を得るため
に、2つの要素モデルを選択し、これら2つの要素モデ
ルを新たな1つの要素モデルとして併合し、この新たな
要素モデルのパラメータの事後分布を推定した後、前記
ベイズ推定方法で全ての要素モデルのパラメータの事後
分布を推定し直し、前記併合により前記対数アンサンブ
ル尤度関数の下限値が増大する場合、その推定値を最良
併合結果として採用し、増大しない場合には、前記併合
処理前に戻り、別の要素モデルとの併合を行うという処
理を予め定めた有限個の候補がなくなるまで実行するス
テップと、最良併合分割結果を得るために、3つの要素
モデルを選択し、これら2つの要素モデルを新たな1つ
の要素モデルとして併合し、残りの1つを新たな2つの
モデルとして分割し、この新たな要素モデルのパラメー
タの事後分布を推定した後、前記ベイズ推定方法で全て
の要素モデルのパラメータの事後分布を推定し直し、前
記併合分割により前記対数アンサンブル尤度関数の下限
値が増大する場合、その推定値を最良併合分割結果とし
て採用し、増大しない場合には、前記併合分割処理前に
戻り、別の要素モデルとの併合分割を行うという処理を
予め定めた有限個の候補がなくなるまで実行するステッ
プと、最良分割結果を得るために、1つの要素モデルを
選択し、その要素モデルを新たな2つの要素モデルとし
て分割し、この新たな要素モデルのパラメータの事後分
布を推定した後、前記ベイズ推定方法で全ての要素モデ
ルのパラメータの事後分布を推定し直し、前記分割によ
り前記対数アンサンブル尤度関数の下限値が増大する場
合、その推定値を最良分割結果として採用し、増大しな
い場合には、前記分割処理前に戻り、別の要素モデルの
分割を行うという処理を予め定めた有限個の候補がなく
なるまで実行するステップと、前記各ステップで得られ
た最良併合結果、最良併合分割結果、最良分割結果のそ
れぞれを比較し、各々に対応する前記対数アンサンブル
尤度関数の下限値が最大となる結果を選択するステップ
と、上記一連のステップを前記対数アンサンブル尤度関
数の下限値が増大しなくなるまで繰り返し実行するステ
ップとをコンピュータに実行させる混合モデルのベイズ
推定プログラムを記録媒体に記録したことを要旨とす
る。
According to a second aspect of the present invention, the probability density function of the mixture model is given parametrically, and the lower limit value of the log ensemble likelihood function calculated using the probability density function and the observation data is maximized. Recording medium on which a Bayesian estimation program of a mixture model for calculating a posterior distribution of parameters to be performed and a posterior distribution of the number of mixtures by an iterative method is used. Estimating the posterior distribution of the parameters using the method and selecting the two element models to obtain the best merge result, merging these two element models as a new one element model, After estimating the posterior distribution of the parameters of the model, re-estimate the posterior distribution of the parameters of all element models by the Bayesian estimation method, When the lower limit of the logarithmic ensemble likelihood function increases due to the merging, the estimated value is adopted as the best merging result. When the lower limit does not increase, the process returns to the merging process, and merging with another element model is performed. Is performed until there is no more than a predetermined finite number of candidates, and three element models are selected to obtain the best merged division result, and these two element models are merged as a new one. , The remaining one is divided as two new models, the posterior distribution of the parameters of the new element model is estimated, and then the posterior distribution of the parameters of all the element models is re-estimated by the Bayesian estimation method. When the lower limit of the logarithmic ensemble likelihood function increases due to the merged division, the estimated value is adopted as the best merged division result. Returning to before the merge division processing, performing a merge division with another element model until there are no more than a predetermined finite number of candidates, and selecting one element model to obtain the best division result After dividing the element model as two new element models, estimating the posterior distribution of the parameters of the new element model, re-estimating the posterior distribution of the parameters of all the element models by the Bayesian estimation method, When the lower limit of the logarithmic ensemble likelihood function increases due to the division, the estimated value is adopted as the best division result, and when the lower limit does not increase, the process returns to before the division processing to perform another element model division. Is performed until there is no more than a predetermined finite number of candidates, and the best merged result, the best merged divided result, and the best divided result obtained in each of the above steps are obtained. Comparing each of them and selecting a result in which the lower limit value of the logarithmic ensemble likelihood function corresponding to each is the largest, and repeating the above series of steps until the lower limit value of the logarithmic ensemble likelihood function does not increase. The gist of the present invention is that a Bayesian estimation program of a mixed model that causes a computer to execute the steps to be executed is recorded on a recording medium.

【0032】請求項2記載の本発明では、混合モデルの
ベイズ推定プログラムを記録媒体として記録しているた
め、該記録媒体を利用して、そのベイズ推定プログラム
の流通性を高めることができる。
According to the second aspect of the present invention, since the Bayesian estimation program of the mixed model is recorded as a recording medium, the distribution of the Bayesian estimation program can be enhanced by using the recording medium.

【0033】[0033]

【発明の実施の形態】まず、本発明の概要を本発明に係
る一実施形態を例に説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS First, the outline of the present invention will be described by taking an embodiment according to the present invention as an example.

【0034】[Q]を、Qを変関数とする汎関数とす
るとき、[Q]において、Q(m)を含まない項をま
とめて m と書くと次式を得る。
[0034] The F [Q], when the functional to varying function of Q, obtained in F [Q], Q contains not when together claim written as F m the following equation (m).

【0035】[0035]

【数22】 ここに、 m は次式で与えられる。(Equation 22) Here, F m is given by the following equation.

【0036】[0036]

【数23】 式(16)の右辺第一項は、Qのうち、Q(Z|m),Q
(θ|m)に依存し、第二項はQ(m)に依存する。従
って、前述した[Q]の最大化は、実際には以下の2
ステップの最大化と等価である。
(Equation 23) The first term on the right side of the equation (16) is Q (Z | m), Q
(Θ | m), and the second term depends on Q (m). Therefore, the above-mentioned maximization of F [Q] is actually the following 2
It is equivalent to step maximization.

【0037】Step1:各mについて、 m のQ(Z
|m)およびQ(θ|m)に関する最大化。
Step 1: For each m, Q of F m (Z
| M) and Q (θ | m).

【0038】Step2:各mについて、 m のQ
(m)に関する最大化。
Step 2: For each m , Q of F m
Maximization for (m).

【0039】 m * をStep1で得られた m の最適
値を表すものとすると、式(16)より次式を得る。
Assuming that F m * represents the optimum value of F m obtained in Step 1, the following equation is obtained from equation (16).

【0040】[0040]

【数24】 従って、Step2でのQ(m)の最適値は、 Σm Q(m)=1 の下でQ(m)に関する式(18)の最大化により(Equation 24) Therefore, the optimal value of Q (m) in Step 2 is obtained by maximizing Equation (18) for Q (m) under Σ m Q (m) = 1.

【数25】 と求まる。式(19)が式(15)と等価であることは容易
に確認できる。ここで式(19)を注意深く見ると、分母
はmに依存しないのでQ(m)のmに関する最大化は
(Equation 25) Is obtained. It can easily be confirmed that equation (19) is equivalent to equation (15). Looking carefully at equation (19), the denominator does not depend on m, so maximizing Q (m) with respect to m is

【数26】 の最大化に他ならない。簡単のためmの事前分布を一様
分布 P(m|M)=1/M とすると、Q(m)の最大化は単純に m の最大化とな
る。
(Equation 26) It is nothing but maximizing. Uniform distribution P a prior distribution of m for simplicity | When (m M) = 1 / M , maximizing Q (m) is the largest of simply F m.

【0041】これは、 m をQ(θ|m),Q(Z|
m)のみならずmに関しても同時に最大化することによ
り、式(15)を計算することなく最適なモデル指標mが
同時に求まることを意味する。
[0041] This is, the F m Q (θ | m) , Q (Z |
By maximizing not only m) but also m at the same time, it means that the optimal model index m can be obtained at the same time without calculating equation (15).

【0042】換言すれば、F[Q]ではなく m を目的
関数としてQおよびmに関して同時に最大化することに
より事後分布最大化(Maximum a posteriori Probabili
ty:MAP)の観点で最適なモデルパラメータおよび最
適なモデル指標が次式の様に得られる。
In other words, maximizing the posterior distribution (Maximum a posteriori Probabili) by simultaneously maximizing Q and m with F m as the objective function instead of F [Q]
(ty: MAP), an optimal model parameter and an optimal model index are obtained as in the following equation.

【0043】[0043]

【数27】 θMAP およびmMAP が得られれば、式(3),(4)に
示した未知データdn+1に対する予測分布あるいは期待
予測出力は各々
[Equation 27] If θ MAP and m MAP are obtained, the predicted distribution or the expected predicted output for the unknown data d n + 1 shown in equations (3) and (4) are respectively

【数28】 として近似的に求まる。[Equation 28] Approximately.

【0044】以上、同一の目的関数でθおよびmの最適
値が同時に推定できることを示した。次に、θの最適値
を求める際に局所最適性の問題も同時に取り扱える方法
について詳述する。
As described above, it has been shown that the optimum values of θ and m can be simultaneously estimated with the same objective function. Next, a method for simultaneously dealing with the problem of local optimality when finding the optimal value of θ will be described in detail.

【0045】混合モデルの場合、仮説空間 m がmに関
する直和として
In the case of a mixed model, the hypothesis space H m is a direct sum with respect to m.

【数29】 で与えられる。(Equation 29) Given by

【0046】この場合、局所解の大半はあるデータ領域
に過剰数の要素モデルが割り当てられ、かつ、あるデー
タ領域に過少数の要素モデルが割り当てられた状況に相
当する。実際、前述したStep1の m の最大化、即
ち、式(13),(14)の逐次増大化では、適切な初期値
を設定しない限り、上記のような不均衡な要素モデル配
置(poorな局所解)に収束してしまう。
In this case, most of the local solutions correspond to a situation where an excessive number of element models are assigned to a certain data area and an excessively small number of element models are assigned to a certain data area. In fact, maximization of F m of Step1 described above, i.e., formula (13), (14) in the successive increase in the, unless you set the appropriate initial value, unbalanced element model such arrangements of (a poor (Local solution).

【0047】この要素モデル配置の不均衡を解消し、よ
り良い要素モデル配置を実現するために、筆者が最尤推
定法の枠組みで先に提案したモデルの併合分割操作(特
願平10−340639号“混合モデルの最尤推定方法
および混合モデルの最尤推定プログラムを記録した記録
媒体”および、上田修功、中野良平「混合モデルのため
の併合分割操作付きEMアルゴリズム」(電子情報通信
学会論文誌,vol.J82-D-11, no.5,pp 930-940,1999)の
第3節および第4節)をベイズ推定に導入する。
In order to solve the imbalance of the element model arrangement and realize a better element model arrangement, the author has proposed a merging / dividing operation of the model proposed in the framework of the maximum likelihood estimation method (Japanese Patent Application No. 10-340639). No. “Recording medium that records the maximum likelihood estimation method for mixed models and the maximum likelihood estimation program for mixed models”, and Osamu Ueda and Ryohei Nakano, “EM Algorithm with Merge and Split Operation for Mixed Models” (Transactions of the Institute of Electronics, Information and Communication Engineers) , Vol.J82-D-11, no.5, pp 930-940,1999), Sections 3 and 4) are introduced into Bayesian estimation.

【0048】但し、ここではモデル指標mも同時に最適
化するという点で更に拡張している。これについて以下
に詳述する。
Here, however, the model index m is further extended in that it is optimized at the same time. This will be described in detail below.

【0049】式(21)が成立する場合、 m は、次式の
様に書ける。
When the equation (21) is satisfied, F m can be written as the following equation.

【0050】[0050]

【数30】 i (Q(Z,θ|m))はモデル指標(モデルの複雑
さ)がmのときの第iモデルに対応する目的関数を意味
する。今、あるmに対し、式(13)および式(14)によ
り得た事後分布(局所最適解)をQ* 、そのときの m
の値を m *と書くこととすると、式(22)は更に次式
の様に書ける。
[Equation 30] f i (Q (Z, θ | m)) means an objective function corresponding to the i-th model when the model index (model complexity) is m. Now, for a certain m, the posterior distribution (local optimal solution) obtained by Expressions (13) and (14) is Q * , and F m at that time
Is written as F m * , equation (22) can be further written as the following equation.

【0051】[0051]

【数31】 但し、(Equation 31) However,

【数32】 とする。この時、式(23)の右辺の(Equation 32) And At this time, the right side of equation (23)

【数33】 のみに着目し、要素モデルjと要素モデルkとを新たな
要素モデルj′として併合し、要素モデルlを2つの要
素モデルk′とl′とに分割することにより、 m 値の
更なる増大を試みる。
[Equation 33]Focusing on only element model j and element model k
The element model j 'is merged, and the element model l is
By dividing into the prime models k ′ and l ′,F mValue of
Attempt further increase.

【0052】要素モデルj,k,lの選択、更に、新た
な要素モデルj′,k′,l′の初期化、再推定等は前
記手法(上田修功、中野良平「混合モデルのための併合
分割操作付きEMアルゴリズム」(電子情報通信学会論
文誌,vol.J82-D-11, no.5,pp 930-940,1999))のとき
と同様に行えば良い。
The selection of the element models j, k, l, the initialization of the new element models j ', k', l ', re-estimation, etc. are carried out by the above-mentioned method (N. Ueda, R. Nakano, "Merging for Mixed Models"). EM algorithm with division operation ”(Transactions of the Institute of Electronics, Information and Communication Engineers, vol.J82-D-11, no.5, pp 930-940, 1999).

【0053】前述した様に、最尤推定ではmを増加(減
少)させると一般に尤度が増加(減少)するので、例え
ば、分割のみを行うと、分割と再推定により局所解から
脱出してより良い解に到達して尤度が増加したのか、単
にmが増加したことで尤度が増加したのかの識別が困難
となる。それ故、前記手法(特願平10−340639
号)ではmを固定すべく、併合と分割を同時に行うよう
にしていた。
As described above, in the maximum likelihood estimation, increasing (decreasing) m generally increases (decreases) the likelihood. For example, if only division is performed, the local solution is escaped by division and re-estimation. It becomes difficult to discriminate whether the likelihood has increased after reaching a better solution or simply because m has increased. Therefore, the aforementioned method (Japanese Patent Application No. 10-340639)
In order to fix m, merging and division were performed simultaneously.

【0054】一方、本実施形態における方法では目的関
m を用いてパラメータとモデルの複雑さの最適化が
実行できる。即ち、mの増加とともに m 値は増加せ
ず、最適なmの値に対し最大値をとる。
On the other hand, it can be performed to optimize the complexity parameter and model using the objective function F m in the method of the present embodiment. That, F m values with increasing m is not increased, the maximum value to the optimum value of m.

【0055】そこで、式(23)に基づく同時併合分割操
作だけでなく、“併合操作のみ”、あるいは、“分割操
作のみ”、も試みる。明らかに“併合(分割)操作の
み”はmを1だけ増加(減少)させることを意味する。
Therefore, not only the simultaneous merging / dividing operation based on the equation (23) but also a "merging operation only" or a "dividing operation only" is attempted. Obviously, "merge (split) operation only" means increasing (decreasing) m by one.

【0056】従って、これら3種類の操作を実行し、
m を増大させることにより局所最適性の問題と最適な混
合数の決定の問題が同時解決することが可能となる。
Therefore, these three types of operations are executed, and F
By increasing m , the problem of local optimality and the problem of determining the optimal number of mixtures can be solved simultaneously.

【0057】次に、図面を用いて本発明の実施の形態に
ついて説明する。図1は本発明の一実施形態に係る混合
モデルのベイズ推定方法を実施するための装置の機能構
成を示すブロック図である。
Next, an embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing a functional configuration of an apparatus for implementing a Bayesian estimation method for a mixed model according to an embodiment of the present invention.

【0058】図1に示す実施形態では、訓練用の観測デ
ータ、例えば気象データ等に任意のデータがコンピュー
タシステムを構成するデータベース等の記憶手段を含む
観測データ入手部1を介して外部から事後分布推定部3
に与えられ、該事後分布推定部3ではコンピュータ等を
により、この観測データから、パラメータの事後分布と
混合数の事後分布を推定する。そらに、この事後分布推
定部3では、次に示すステップS11からステップS3
7の手順を順次実行して事後分布を得た後に、事後分布
出力部5を介して出力する。
In the embodiment shown in FIG. 1, arbitrary data such as observation data for training, for example, weather data, is externally distributed via an observation data acquisition unit 1 including storage means such as a database constituting a computer system. Estimation unit 3
The posterior distribution estimating unit 3 estimates the posterior distribution of the parameters and the posterior distribution of the number of mixtures from the observation data using a computer or the like. In addition, the posterior distribution estimating unit 3 performs the following steps S11 to S3.
After the steps 7 are sequentially executed to obtain the posterior distribution, the posterior distribution is output via the posterior distribution output unit 5.

【0059】まず、ステップS11においてmを適当に
設定し、式(13)および式(14)を用いて最適事後分布
を求める。次に、ステップS13で収束したときの事後
分布の値をQ(θ|m)* ,Q(Z|m)* とし、
First, in step S11, m is appropriately set, and the optimal posterior distribution is obtained using equations (13) and (14). Next, let Q (θ | m) * and Q (Z | m) * be the values of the posterior distribution when converging in step S13,

【数34】 とする。(Equation 34) And

【0060】さらに、ステップS15に進み、最適事後
分布に基づき併合分割の対象となる要素モデルの候補を
ソートする。
Further, the process proceeds to step S15, in which candidate element models to be merged and divided are sorted based on the optimal posterior distribution.

【0061】次に、以下の手順、ステップS17、ステ
ップS19およびステップS21をそれぞれ独立して実
行する。図2では、順次、ステップS17、ステップS
19およびステップS21を実行しているが、これらス
テップS17、ステップS19およびステップS21を
同時に並行して実行するようにしても良い。
Next, the following procedures, steps S17, S19 and S21, are executed independently. In FIG. 2, step S17 and step S17 are sequentially performed.
Although step 19 and step S21 are executed, step S17, step S19 and step S21 may be executed simultaneously in parallel.

【0062】まず、ステップS17について説明する。
ステップS17では、C個の併合の対象となる要素モデ
ルの候補を順に、目的関数がF* を上回るまで併合操作
のみによる探索を行う。その時の目的関数の値を m-1
**とする。
First, step S17 will be described.
In step S <b > 17, a search is performed by using only the merging operation on the C candidate element models to be merged in order until the objective function exceeds F * . The value of the objective function at that time is F m-1
**

【0063】ステップS19では、C個の併合分割の対
象となる要素モデルの候補を順に、目的関数がF* を上
回るまで同時併合分割操作による探索を行う。その時の
目的関数の値を m **とする。
In step S 19, a search is performed for C element model candidates to be subjected to merging and division by a simultaneous merging and division operation until the objective function exceeds F * . The value of the objective function at that time is defined as F m ** .

【0064】ステップS21では、C個の分割の対象と
なる要素モデルの候補を順に、目的関数がF* を上回る
まで分割操作のみによる探索を行う。その時の目的関数
の値を m+1 **とする。
In step S21, a search is performed for only C element model candidates in order by division operation only until the objective function exceeds F * . The value of the objective function at that time is defined as F m + 1 ** .

【0065】次に、ステップS23では、上述したステ
ップS17、ステップS19およびステップS21にお
いてF* を上回る候補がなければ終了する。
Next, in step S23, if there is no candidate exceeding F * in steps S17, S19 and S21 described above, the process ends.

【0066】一方、上回る候補があるときには、ステッ
プS25に進み、
On the other hand, if there are more candidates, the process proceeds to step S25,

【数35】 とし、もしステップS27において、(Equation 35) In step S27,

【数36】 ならば(YES)、ステップS29に進み、ステップS
17で探索された探索結果を採用し、m←m−1として
ステップS15に戻る。
[Equation 36] If so (YES), the process proceeds to step S29,
The search result found in step 17 is adopted, and m ← m−1 is returned to step S15.

【0067】ここで、もしステップS31において、Here, if in step S31,

【数37】 ならば(YES)、ステップS33に進み、ステップS
19で探索された探索結果を採用し、ステップS15に
戻る。
(37) If yes (YES), the process proceeds to step S33,
The search result found in step 19 is adopted, and the process returns to step S15.

【0068】さらに、もしステップS35において、Further, if in step S35,

【数38】 ならば(YES)、ステップS37に進み、ステップS
21で探索された探索結果を採用し、m←m+1として
ステップS15に戻る。
(38) If so (YES), the process proceeds to step S37,
The search result found in step 21 is adopted, and m ← m + 1 is set, and the process returns to step S15.

【0069】上記アルゴリズムのステップS17、ステ
ップS19およびステップS21の各々はmを固定した
下で、Q(Z,θ|m)の局所解からの脱出とより良い
解への誘導を行う。そして、最適モデル選択の観点で、
この3通りのモデルの複雑さから最良のものをステップ
S23乃至ステップS37で選択する。これらを反復す
ることにより、局所解を回避しながら最適モデルを探索
することができる。上記ステップS17、ステップS1
9およびステップS21で示される手順はいわゆるgree
dy search であることから、上記アルゴリズムは m
より良い極大値の探索であり、大域的最大値が得られる
理論的保証はない。
Steps S17, S19, and S21 of the above algorithm perform escape from the local solution of Q (Z, θ | m) and guidance to a better solution while fixing m. And from the viewpoint of optimal model selection,
From the complexity of these three models, the best one is selected in steps S23 to S37. By repeating these, it is possible to search for the optimal model while avoiding local solutions. Steps S17 and S1 above
9 and step S21 are called gree.
Being a dy search, the above algorithm is a search for a better local maximum of F m and there is no theoretical guarantee that a global maximum will be obtained.

【0070】しかしながら、F* の単調増加性は保証さ
れ、より良い極大値の探索が効率良く実現できる。
However, the monotonic increase of F * is guaranteed, and a search for a better maximum value can be efficiently realized.

【0071】図3は本実施形態における混合モデルのベ
イズ推定の有効性を実験的に示すものである。実験で
は、推定結果が可視化可能な2次元の混合正規分布推定
問題を用いた。真の混合数は5とし、図3中の点線の楕
円群は真の5つの2次元正規分布を示し、点群はこれら
5つの正規分布から人工的に生成したデータである。
FIG. 3 shows experimentally the effectiveness of Bayesian estimation of the mixture model in this embodiment. In the experiment, a two-dimensional mixed normal distribution estimation problem in which the estimation result can be visualized was used. The true number of mixtures is 5, and the group of dashed ellipses in FIG. 3 indicates five true two-dimensional normal distributions, and the point group is data artificially generated from these five normal distributions.

【0072】図3(a)の実線の10個の楕円群は混合
数を10とし、また、各パラメータの事後分布を適当に
初期化したときの各分布の最大値(MAP推定値)に対
応するパラメータをもつ正規分布を示す。図3(b)は
従来のベイズ推定法のMAP推定結果である。図3
(c)は図3(b)から更に前記の手順で併合、分割を
繰り返して最終的に得られた最適混合数のパラメータの
事後分布のMAP推定値である。混合数を10と初期値
化したにもかかわらず、真の混合数を探索できており、
真の分布に近い良好な結果が得られていることがわか
る。
In FIG. 3A, the ten solid ellipse groups correspond to the maximum value (MAP estimation value) of each distribution when the number of mixtures is 10, and the posterior distribution of each parameter is appropriately initialized. 2 shows a normal distribution with parameters FIG. 3B shows a MAP estimation result of the conventional Bayes estimation method. FIG.
(C) is the MAP estimated value of the posterior distribution of the parameter of the optimal number of mixing finally obtained by repeating merging and division in the above procedure from FIG. 3 (b). Despite initializing the number of mixtures to 10, we were able to search for the true number of mixtures,
It can be seen that good results close to the true distribution were obtained.

【0073】また、前記目的関数の値は図3(a),
(b),(c)の順に−1.37×103 ,−1.01
×103 ,−0.89×103 であり、確かに目的関数
が増大するにつれてより良い推定値が得られていること
がわかる。
The value of the objective function is shown in FIG.
(B), (c) -1.37 × 10 3 , -1.01
× 10 3 , −0.89 × 10 3 , and it is clear that a better estimated value is obtained as the objective function increases.

【0074】上述してきたように、本発明にあっては、
混合モデルのベイズ推定プログラムを記録媒体として記
録しているため、該記録媒体を利用して、そのベイズ推
定プログラムの流通性を高めることができる。
As described above, in the present invention,
Since the Bayesian estimation program of the mixed model is recorded as a recording medium, the distribution of the Bayesian estimation program can be enhanced by using the recording medium.

【0075】[0075]

【発明の効果】以上説明した様に、本発明によれば、初
期パラメータ値および初期混合数に対して、一般のベイ
ズ推定方法を用いてパラメータの事後分布を推定するス
テップと、最良併合結果を得るために、2つの要素モデ
ルを選択し、これら2つの要素モデルを新たな1つの要
素モデルとして併合し、この新たな要素モデルのパラメ
ータの事後分布を推定した後、前記ベイズ推定方法で全
ての要素モデルのパラメータの事後分布を推定し直し、
前記併合により前記対数アンサンブル尤度関数の下限値
が増大する場合、その推定値を最良併合結果として採用
し、増大しない場合には、前記併合処理前に戻り、別の
要素モデルとの併合を行うという処理を予め定めた有限
個の候補がなくなるまで実行するステップと、最良併合
分割結果を得るために、3つの要素モデルを選択し、こ
れら2つの要素モデルを新たな1つの要素モデルとして
併合し、残りの1つを新たな2つの要素モデルとして分
割し、この新たな要素モデルのパラメータの事後分布を
推定した後、前記ベイズ推定方法で全ての要素モデルの
パラメータの事後分布を推定し直し、前記併合分割によ
り前記対数アンサンブル尤度関数の下限値が増大する場
合、その推定値を最良併合分割結果として採用し、増大
しない場合には、前記併合分割処理前に戻り、別の要素
モデルとの併合分割を行うという処理を予め定めた有限
個の候補がなくなるまで実行するステップと、最良分割
結果を得るために、1つの要素モデルを選択し、その要
素モデルを新たな2つの要素モデルとして分割し、この
新たな要素モデルのパラメータの事後分布を推定した
後、前記ベイズ推定方法で全ての要素モデルのパラメー
タの事後分布を推定し直し、前記分割により前記対数ア
ンサンブル尤度関数の下限値が増大する場合、その推定
値を最良分割結果として採用し、増大しない場合には、
前記分割処理前にバックトラックし(戻し)、別の要素
モデルの分割を行うという処理を予め定めた有限個の候
補がなくなるまで実行するステップと、前記各ステップ
で得られた最良併合結果、最良併合分割結果、最良分割
結果のそれぞれを比較し、各々に対応する前記対数アン
サンブル尤度関数の下限値が最大となる結果を選択する
ステップと、上記一連のステップを前記対数アンサンブ
ル尤度関数の下限値が増大しなくなるまで繰り返し実行
するステップとを有するので、混合モデルのベイズ推定
に対し、局所最適解を回避しながら、混合数の事後分布
最大化の観点で最適な混合数を探索することができる。
As described above, according to the present invention, the step of estimating the posterior distribution of parameters using a general Bayesian estimation method with respect to the initial parameter values and the initial number of mixtures, and In order to obtain, two element models are selected, these two element models are merged as one new element model, and the posterior distribution of the parameters of the new element model is estimated. Re-estimate the posterior distribution of the parameters of the element model,
When the lower limit of the logarithmic ensemble likelihood function increases due to the merging, the estimated value is adopted as the best merging result, and when the lower limit does not increase, the process returns to before the merging process and merges with another element model. Is performed until there is no more than a predetermined finite number of candidates, and three element models are selected to obtain the best merged division result, and these two element models are merged as a new one. , The remaining one is divided into two new element models, and the posterior distribution of the parameters of the new element model is estimated. Then, the posterior distribution of the parameters of all the element models is re-estimated by the Bayesian estimation method, If the lower limit of the logarithmic ensemble likelihood function is increased by the merged division, the estimated value is adopted as the best merged division result, and if not increased, Returning to before the merged division process, performing a process of performing merged division with another element model until there is no more than a predetermined finite number of candidates, and selecting one element model to obtain the best division result Then, the element model is divided as two new element models, the posterior distribution of the parameters of this new element model is estimated, and then the posterior distribution of the parameters of all the element models is re-estimated by the Bayesian estimation method, When the lower limit of the logarithmic ensemble likelihood function is increased by the division, the estimated value is adopted as the best division result, and when the lower limit is not increased,
Performing a process of backtracking (reverting) before the division process and dividing another element model until there is no more than a predetermined finite number of candidates; Merging division results, comparing each of the best division results, and selecting a result in which the lower limit value of the logarithmic ensemble likelihood function corresponding to each is maximum; and And the step of repeatedly executing until the value does not increase, so that it is possible to search for the optimal number of mixtures from the viewpoint of maximizing the posterior distribution of the number of mixtures while avoiding a local optimal solution for the Bayesian estimation of the mixture model. it can.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施形態に係る混合モデルのベイズ
推定方法を実施するための装置の機能構成を示すブロッ
ク図である。
FIG. 1 is a block diagram showing a functional configuration of an apparatus for implementing a Bayesian estimation method for a mixed model according to an embodiment of the present invention.

【図2】図1に示したベイズ推定方法による事後分布推
定処理手順を示すフローチャートである。
FIG. 2 is a flowchart showing a posterior distribution estimation processing procedure by the Bayes estimation method shown in FIG. 1;

【図3】本発明の有効性を実験的に示した図である。FIG. 3 is a diagram experimentally showing the effectiveness of the present invention.

【符号の説明】[Explanation of symbols]

1 観測データ入手部 3 事後分布推定部 5 事後分布出力部 1 Observation data acquisition section 3 Posterior distribution estimation section 5 Posterior distribution output section

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】 複数の確率密度関数の線形和として定義
される混合モデルの確率密度関数がパラメトリックに与
えられ、該確率密度関数と観測データとを用いて算出さ
れる対数アンサンブル尤度関数の下限値を最大化するパ
ラメータの事後分布と混合数の事後分布とを逐次反復法
によって求めるときの混合モデルのベイズ推定方法であ
って、 初期パラメータ値および初期混合数に対して、一般のベ
イズ推定方法を用いてパラメータの事後分布を推定する
ステップと、 最良併合結果を得るために、混合モデル中の2つの要素
モデルを選択し、これら2つの要素モデルを新たな1つ
の要素モデルとして併合し、この新たな要素モデルのパ
ラメータの事後分布を推定した後、前記ベイズ推定方法
で全ての要素モデルのパラメータの事後分布を推定し直
し、前記併合により前記対数アンサンブル尤度関数の下
限値が増大する場合、その推定値を最良併合結果として
採用し、増大しない場合には、前記併合処理前に戻り、
別の要素モデルとの併合を行うという処理を予め定めた
有限個の候補がなくなるまで実行するステップと、 最良併合分割結果を得るために、3つの要素モデルを選
択し、これら2つの要素モデルを新たな1つの要素モデ
ルとして併合し、残りの1つを新たな2つの要素モデル
として分割し、この新たな要素モデルのパラメータの事
後分布を推定した後、前記ベイズ推定方法で全ての要素
モデルのパラメータの事後分布を推定し直し、前記併合
分割により前記対数アンサンブル尤度関数の下限値が増
大する場合、その推定値を最良併合分割結果として採用
し、増大しない場合には、前記併合分割処理前に戻り、
別の要素モデルとの併合分割を行うという処理を予め定
めた有限個の候補がなくなるまで実行するステップと、 最良分割結果を得るために、1つの要素モデルを選択
し、その要素モデルを新たな2つの要素モデルとして分
割し、この新たな要素モデルのパラメータの事後分布を
推定した後、前記ベイズ推定方法で全ての要素モデルの
パラメータの事後分布を推定し直し、前記分割により前
記対数アンサンブル尤度関数の下限値が増大する場合、
その推定値を最良分割結果として採用し、増大しない場
合には、前記分割処理前に戻り、別の要素モデルの分割
を行うという処理を予め定めた有限個の候補がなくなる
まで実行するステップと、 前記各ステップで得られた最良併合結果、最良併合分割
結果、最良分割結果のそれぞれを比較し、各々に対応す
る前記対数アンサンブル尤度関数の下限値が最大となる
結果を選択するステップと、 上記一連のステップを前記対数アンサンブル尤度関数の
下限値が増大しなくなるまで繰り返し実行するステップ
とを有することを特徴とする混合モデルのベイズ推定方
法。
1. A probability density function of a mixture model defined as a linear sum of a plurality of probability density functions is given parametrically, and a lower limit of a logarithmic ensemble likelihood function calculated using the probability density function and observation data. A Bayesian estimation method for a mixture model when a posterior distribution of a parameter maximizing a value and a posterior distribution of a mixture number are obtained by an iterative method, wherein a general Bayes estimation method is used for an initial parameter value and an initial mixture number. Estimating the posterior distribution of the parameters using, selecting the two component models in the mixture model, and merging these two component models as a new one to obtain the best merged result, After estimating the posterior distribution of the parameters of the new element model, estimating the posterior distribution of the parameters of all the element models by the Bayesian estimation method. And, if the lower limit value of the log-ensemble likelihood function by the merging is increased, adopts the estimated value as the best merged result, if not increase, the process returns before the merging process,
Performing a process of merging with another element model until there is no more than a predetermined finite number of candidates; selecting three element models in order to obtain the best merged division result; After merging as one new element model, dividing the remaining one as two new element models, estimating the posterior distribution of the parameters of this new element model, and using the Bayesian estimation method, If the posterior distribution of the parameters is re-estimated and the lower limit of the logarithmic ensemble likelihood function increases due to the merged division, the estimated value is adopted as the best merged division result. Back to
Performing a process of performing a merged division with another element model until there is no more than a predetermined finite number of candidates; selecting one element model to obtain the best division result, and replacing the element model with a new one After dividing into two element models and estimating the posterior distribution of the parameters of the new element model, the Bayesian estimation method is used to re-estimate the posterior distribution of the parameters of all the element models, and the logarithmic ensemble likelihood is obtained by the division. If the lower bound of the function increases,
Adopting the estimated value as the best division result, and if it does not increase, returning to before the division processing and executing processing of dividing another element model until there is no more than a predetermined finite number of candidates; A step of comparing each of the best merged result, the best merged divided result, and the best divided result obtained in each of the steps, and selecting a result in which the lower limit value of the logarithmic ensemble likelihood function corresponding to each is maximized; Repeatedly executing a series of steps until the lower limit of the logarithmic ensemble likelihood function no longer increases.
【請求項2】 複数の確率密度関数の線形和として定義
される混合モデルの確率密度関数がパラメトリックに与
えられ、該確率密度関数と観測データとを用いて算出さ
れる対数アンサンブル尤度関数の下限値を最大化するパ
ラメータの事後分布と混合数の事後分布とを逐次反復法
によって求めるときの混合モデルのベイズ推定プログラ
ムを記録した記録媒体であって、 初期パラメータ値および初期混合数に対して、一般のベ
イズ推定方法を用いてパラメータの事後分布を推定する
ステップと、 最良併合結果を得るために、混合モデル中の2つの要素
モデルを選択し、これら2つの要素モデルを新たな1つ
の要素モデルとして併合し、この新たな要素モデルのパ
ラメータの事後分布を推定した後、前記ベイズ推定方法
で全ての要素モデルのパラメータの事後分布を推定し直
し、前記併合により前記対数アンサンブル尤度関数の下
限値が増大する場合、その推定値を最良併合結果として
採用し、増大しない場合には、前記併合処理前に戻り、
別の要素モデルとの併合を行うという処理を予め定めた
有限個の候補がなくなるまで実行するステップと、 最良併合分割結果を得るために、3つの要素モデルを選
択し、これら2つの要素モデルを新たな1つの要素モデ
ルとして併合し、残りの1つを新たな2つの要素モデル
として分割し、この新たな要素モデルのパラメータの事
後分布を推定した後、前記ベイズ推定方法で全ての要素
モデルのパラメータの事後分布を推定し直し、前記併合
分割により前記対数アンサンブル尤度関数の下限値が増
大する場合、その推定値を最良併合分割結果として採用
し、増大しない場合には、前記併合分割処理前に戻り、
別の要素モデルとの併合分割を行うという処理を予め定
めた有限個の候補がなくなるまで実行するステップと、 最良分割結果を得るために、1つの要素モデルを選択
し、その要素モデルを新たな2つの要素モデルとして分
割し、この新たな要素モデルのパラメータの事後分布を
推定した後、前記ベイズ推定方法で全ての要素モデルの
パラメータの事後分布を推定し直し、前記分割により前
記対数アンサンブル尤度関数の下限値が増大する場合、
その推定値を最良分割結果として採用し、増大しない場
合には、前記分割処理前に戻り、別の要素モデルの分割
を行うという処理を予め定めた有限個の候補がなくなる
まで実行するステップと、 前記各ステップで得られた最良併合結果、最良併合分割
結果、最良分割結果のそれぞれを比較し、各々に対応す
る前記対数アンサンブル尤度関数の下限値が最大となる
結果を選択するステップと、 上記一連のステップを前記対数アンサンブル尤度関数の
下限値が増大しなくなるまで繰り返し実行するステップ
とをコンピュータに実行させる混合モデルのベイズ推定
プログラムを記録した記録媒体。
2. A probability density function of a mixed model defined as a linear sum of a plurality of probability density functions is given parametrically, and a lower limit of a logarithmic ensemble likelihood function calculated using the probability density function and observation data. A recording medium recording a Bayesian estimation program of a mixture model when the posterior distribution of the parameter maximizing the value and the posterior distribution of the number of mixtures are obtained by an iterative method, and for an initial parameter value and an initial number of mixtures, Estimating the posterior distribution of the parameters using a general Bayesian estimation method, and selecting two element models in the mixture model to obtain the best merged result, and replacing these two element models with a new one element model After estimating the posterior distribution of the parameters of this new element model, the Bayesian estimation method If the lower limit of the log ensemble likelihood function increases due to the merging, the estimated value is adopted as the best merging result, and if it does not increase, the process returns to before the merging process. ,
Performing a process of merging with another element model until there is no more than a predetermined finite number of candidates; selecting three element models in order to obtain the best merged division result; After merging as one new element model, dividing the remaining one as two new element models, estimating the posterior distribution of the parameters of this new element model, and using the Bayesian estimation method, If the posterior distribution of the parameters is re-estimated and the lower limit of the logarithmic ensemble likelihood function increases due to the merged division, the estimated value is adopted as the best merged division result. Back to
Performing a process of performing a merged division with another element model until there is no more than a predetermined finite number of candidates; selecting one element model to obtain the best division result, and replacing the element model with a new one After dividing into two element models and estimating the posterior distribution of the parameters of the new element model, the Bayesian estimation method is used to re-estimate the posterior distribution of the parameters of all the element models, and the logarithmic ensemble likelihood is obtained by the division. If the lower bound of the function increases,
Adopting the estimated value as the best division result, and if it does not increase, returning to before the division processing and executing processing of dividing another element model until there is no more than a predetermined finite number of candidates; A step of comparing each of the best merged result, the best merged divided result, and the best divided result obtained in each of the steps, and selecting a result in which the lower limit value of the logarithmic ensemble likelihood function corresponding to each is maximized; A step of repeatedly executing a series of steps until the lower limit of the logarithmic ensemble likelihood function does not increase any more.
JP2000013545A 2000-01-21 2000-01-21 Bayesian inference method for mixed model and recording medium with recorded bayesian inference program for mixed model Pending JP2001202358A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000013545A JP2001202358A (en) 2000-01-21 2000-01-21 Bayesian inference method for mixed model and recording medium with recorded bayesian inference program for mixed model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000013545A JP2001202358A (en) 2000-01-21 2000-01-21 Bayesian inference method for mixed model and recording medium with recorded bayesian inference program for mixed model

Publications (1)

Publication Number Publication Date
JP2001202358A true JP2001202358A (en) 2001-07-27

Family

ID=18541125

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000013545A Pending JP2001202358A (en) 2000-01-21 2000-01-21 Bayesian inference method for mixed model and recording medium with recorded bayesian inference program for mixed model

Country Status (1)

Country Link
JP (1) JP2001202358A (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8731881B2 (en) 2011-03-18 2014-05-20 Nec Corporation Multivariate data mixture model estimation device, mixture model estimation method, and mixture model estimation program
JP2015036769A (en) * 2013-08-14 2015-02-23 日本電信電話株式会社 Noise suppressor, noise suppression method, and program
WO2016194379A1 (en) * 2015-06-02 2016-12-08 日本電気株式会社 Simulation device, simulation method, and recording medium for storing program
CN111612101A (en) * 2020-06-04 2020-09-01 华侨大学 Gene expression data clustering method, device and equipment of nonparametric Watton mixed model
CN112163373A (en) * 2020-09-23 2021-01-01 中国民航大学 Radar system performance index dynamic evaluation method based on Bayesian machine learning
CN113962520A (en) * 2021-09-16 2022-01-21 上海核工程研究设计院有限公司 Rapid calculation method for Bayesian update of lognormal distribution of nuclear power plant
CN116384624A (en) * 2023-03-13 2023-07-04 中国科学院生态环境研究中心 Method and system for determining optimal soil tillage depth of region for deep tillage measure
JP7518985B2 (en) 2024-03-28 2024-07-18 荏原環境プラント株式会社 Method, program, and device for predicting metal loss

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8731881B2 (en) 2011-03-18 2014-05-20 Nec Corporation Multivariate data mixture model estimation device, mixture model estimation method, and mixture model estimation program
JP2015036769A (en) * 2013-08-14 2015-02-23 日本電信電話株式会社 Noise suppressor, noise suppression method, and program
WO2016194379A1 (en) * 2015-06-02 2016-12-08 日本電気株式会社 Simulation device, simulation method, and recording medium for storing program
CN111612101A (en) * 2020-06-04 2020-09-01 华侨大学 Gene expression data clustering method, device and equipment of nonparametric Watton mixed model
CN111612101B (en) * 2020-06-04 2023-02-07 华侨大学 Gene expression data clustering method, device and equipment of nonparametric Watson mixed model
CN112163373A (en) * 2020-09-23 2021-01-01 中国民航大学 Radar system performance index dynamic evaluation method based on Bayesian machine learning
CN113962520A (en) * 2021-09-16 2022-01-21 上海核工程研究设计院有限公司 Rapid calculation method for Bayesian update of lognormal distribution of nuclear power plant
CN113962520B (en) * 2021-09-16 2024-05-17 上海核工程研究设计院股份有限公司 Rapid calculation method for updating logarithmic normal distribution Bayes of nuclear power plant
CN116384624A (en) * 2023-03-13 2023-07-04 中国科学院生态环境研究中心 Method and system for determining optimal soil tillage depth of region for deep tillage measure
CN116384624B (en) * 2023-03-13 2023-09-05 中国科学院生态环境研究中心 Method and system for determining optimal soil tillage depth of region for deep tillage measure
JP7518985B2 (en) 2024-03-28 2024-07-18 荏原環境プラント株式会社 Method, program, and device for predicting metal loss

Similar Documents

Publication Publication Date Title
Becker et al. Near-optimal approximate shortest paths and transshipment in distributed and streaming models
Jaakkola Variational methods for inference and estimation in graphical models
Raftery Bayesian model selection in structural equation models
Le Gland et al. Stability and uniform approximation of nonlinear filters using the Hilbert metric and application to particle filters
Lenkoski et al. Computational aspects related to inference in Gaussian graphical models with the G-Wishart prior
CN110766044A (en) Neural network training method based on Gaussian process prior guidance
Hawkins et al. Applications and algorithms for least trimmed sum of absolute deviations regression
Vihola et al. Importance sampling type estimators based on approximate marginal Markov chain Monte Carlo
US7251636B2 (en) Scalable methods for learning Bayesian networks
Park et al. Variational laplace autoencoders
US20050228778A1 (en) System and method for retrieving documents based on mixture models
Chamroukhi et al. Regularized maximum likelihood estimation and feature selection in mixtures-of-experts models
JP2001202358A (en) Bayesian inference method for mixed model and recording medium with recorded bayesian inference program for mixed model
Cornelissen et al. Span programs and quantum time complexity
Jensen Bayesian networks
CN110691000A (en) Web service combination method based on fusion of FAHP and planning graph
Ye et al. Initialization matters: Privacy-utility analysis of overparameterized neural networks
Dai et al. Monte Carlo approximation of Bayes factors via mixing with surrogate distributions
Yang et al. Bayesian structure scores for probabilistic circuits
Hsu et al. Using expectation maximization to find likely assignments for solving CSP's
Bhattacharya et al. Geometric ergodicity of Gibbs samplers for the Horseshoe and its regularized variants
Gong et al. Learning distributions over quantum measurement outcomes
Pernkopf et al. Floating search algorithm for structure learning of Bayesian network classifiers
CN116415063A (en) Cloud service recommendation method and device
Gupta et al. Sample-efficient training for diffusion