JP5970579B2

JP5970579B2 - 混合モデル決定用の装置、方法、およびプログラム

Info

Publication number: JP5970579B2
Application number: JP2015051731A
Authority: JP
Inventors: ロフン; シュンチェンリュウ; 遼平藤巻
Original assignee: NEC China Co Ltd
Current assignee: NEC China Co Ltd
Priority date: 2014-03-18
Filing date: 2015-03-16
Publication date: 2016-08-17
Anticipated expiration: 2035-03-16
Also published as: JP2015179513A; CN104933275A

Description

本開示は、統計の技術分野に関する。特に、混合モデルのモデル選択用の方法と装置に関する。

統計的手法の継続的な発展に伴い、混合モデルは産業分野で幅広く利用されている。混合モデルは、データ分布を見積もり、複合分布又はデータクラスタリングの構築を完璧に行う、混合型の確率密度関数を採用する。例えば、テキストカテゴライゼイション、手書き認識、不明瞭画像の分割、行動検出等を、混合モデルを使用して達成することができる。混合モデルは、ガウス混合モデル、ストキャスティックリレーショナルモデル等を包含する確率モデル族を含む。どのタイプの混合モデルでもあろうと、混合モデルは、潜在変数の変分分布とモデルパラメータに応じて決定され得る。潜在変数は、直接観測できないがサンプルデータに基づく推論により取得される変数である。潜在変数の変分分布はサンプルデータがその対応するカテゴリにクラスタ化される確率を表す。モデルパラメータは、混合モデルを含む各サブモデルパラメータを表す。混合モデルがより幅広く適用されるようになったことに伴い、そのモデル選択の課題は話題の研究テーマになっている。

現在、ストキャスティック変分推論（Stochastic Variational Inference）［マットホフマン（Matt Hoffman）他著、マシンラーニングリサーチジャーナル（Journal of Machine Learning Research）、２０１３年］の論文は、混合モデルのモデル選択の方法を提案している。この方法によれば、第一に、サンプルデータと潜在変数とモデルパラメータとに応じて決定された対数尤度（logarithm likelihood）と、潜在変数の変分分布（variational distribution）の対数と、が取得される。第二に、ストキャスティック平均場変分推論理論（stochastic mean-field variational inference theory）に基づいて、目的関数は、対数尤度と潜在変数の変分分布の対数とに応じて推論される。そして、第三に、いくつかの潜在変数とモデルパラメータとが選択され、サンプルセットから抽出されたサブサンプルのセットに応じて評価され、このようにすることは、目的関数の収束を保証するモデルパラメータと潜在変数の変分分布とを決定する助けとなる。そして、最後に、混合モデルが、目的関数の収束を可能にする潜在変数の変分分布とモデルパラメータとに応じて決定される。

本開示のプロセスにおいて、発明者は先行技術が以下のような課題を有することを見つける。

目的関数が対数尤度と潜在変数の変分分布の対数とに応じて決定されるため、目的関数に応じて決定される混合モデルは複雑である。

先行技術の技術的課題を解決するために、本開示の実施形態は、混合モデル決定用の方法及び装置を提供する。技術的解決方法は以下の通りである。

第１の観点によると、提供される混合モデル決定用の方法は、
サンプルデータと潜在変数とコンポーネントパラメータとに応じて決定される対数尤度と正規化項と前記潜在変数の変分分布の対数とを取得し、前記対数尤度と前記正規化項と潜在変数の前記変分分布の対数とに応じて目的関数を決定すること、
前記サンプルセットから抽出されたサブサンプルデータに応じて、前記目的関数の収束を可能にする潜在変数の変分分布と前記コンポーネントパラメータとを決定し、前記目的関数の収束を可能にする前記潜在変数の変分分布と前記コンポーネントパラメータとに応じて混合モデルを決定すること、
を含む。

第１の観点に関し、第１の観点の第１の可能な実施方法において、
前記サンプルデータと前記潜在変数と前記コンポーネントパラメータとに応じて決定される前記対数尤度は、

であって、ｌｏｇｐ（）は前記対数尤度を示し、ｐは同時確率密度関数を示し、ｘ^Ｎは前記サンプルデータを示し、Ｎはサンプルデータの数を示し、Ｚ^Ｎは前記潜在変数を示し、θはコンポーネントパラメータのセットを示し、前記コンポーネントパラメータは、α、φを含み、αは前記コンポーネントの混合比を示し、φはコンポーネント用のモデルパラメータを示し、各コンポーネントは自身を表現するモデルパラメータのサブセットを有する。

第１の観点に関し、第１の観点の第２の第１の可能な実施方法において、前記サンプルデータと前記潜在変数と前記コンポーネントパラメータとに応じて決定される前記正規化項は、

であって、Ｎはサンプルデータの数を示し、Ｃはコンポーネントの個数を示し、ｚ_ｎｃは前記潜在変数を示し、

は潜在変数の変分分布の近似値を示し、αはコンポーネントの混合比を示し、Ｄ_αはαの次元を示し、Ｄ_ｃはコンポーネントＣの前記サブモデルパラメータの次元を示し、Ｌ（ａ、ｂ）＝ｌｏｇｂ＋（ａ−ｂ）／ｂであって、ａは、

を示し、ｂは

を示す。

第１の観点に関し、第１の観点の第３の可能な実施方法において、前記サンプルデータと前記潜在変数と前記コンポーネントパラメータとに応じて決定される潜在変数の前記変分分布の対数はｌｏｇｑ（Ｚ^Ｎ）であり、ｑ（Ｚ^Ｎ）は潜在変数Ｚ^Ｎの変分分布を示し、Ｎはサンプルデータの数を示す。

第１の観点の、第１の観点から第３の可能な実施方法までのいずれの可能な実施方法に関し、第１の観点の第４の可能な実施方法において、前記対数尤度と前記正規化項と前記潜在変数の前記変分分布の対数とに応じて目的関数を決定することは、
前記対数尤度の期待値と前記正規化項の期待値と潜在変数の前記変分分布の対数の期待値とに応じて、前記目的関数を決定することを含む。

第１の観点の第４の可能な実施方法に関し、第１の観点の第５の可能な実施方法において、前記対数尤度の期待値と前記正規化項の期待値と前記潜在変数の前記変分分布の対数の期待値とに応じて決定された前記目的関数

は、

である。

第１の観点の第５の可能な実施方法に関し、第１の観点の第６の実施方法において、前記サンプルセットから抽出されたサブサンプルデータに応じて、前記目的関数の収束を可能にする前記潜在変数の変分分布と前記コンポーネントパラメータとを決定することは、
前記サンプルセットから抽出された各サブサンプルデータに応じて、前記潜在変数の変分分布とコンポーネントパラメータとを取得すること、
前記潜在変数の前記変分分布と前記コンポーネントパラメータとに応じて、前記目的関数が収束するかどうかを判別し、前記目的関数が収束しない場合、前記目的関数の収束を可能にする潜在変数の前記変分分布と前記コンポーネントパラメータとを取得するまで、前記サンプルセットから抽出された前記各サブサンプルデータに応じて、前記潜在変数の前記変分分布と前記コンポーネントパラメータを再取得すること、
を含む。

第１の観点の第６の可能な実施方法に関して、第１の観点の第７の可能な実施方法において、前記サンプルセットから抽出された各サブサンプルデータに応じて、前記潜在変数の変分分布とコンポーネントパラメータを取得することは、
各サブサンプル用の前記潜在変分分布を、前記サンプルセットから抽出された前記サブサンプルデータに応じて、取得し、各コンポーネントパラメータの中間値を、前記各サブサンプルデータに対応する前記潜在変数の前記変分分布に応じて、取得すること、
前記コンポーネントパラメータのひとつの平均値を、前記サブサンプルデータに対応する前記コンポーネントパラメータの前記中間値に応じて、決定し、前記コンポーネントパラメータの前記平均値に応じて前記コンポーネントパラメータを取得すること、
を含む。

第１の観点の第７の可能な実施方法に関して、第１の観点の第８の可能な実施方法において、各サブサンプル用の前記潜在変分分布は、次の数式

を使用することにより、前記サンプルセットから抽出された前記各サブサンプルデータに応じて取得され、
前記各サブサンプルデータに対応する前記コンポーネントパラメータの前記中間値

と

とは、次の数式

を使用することにより、各サブサンプル用の前記潜在変分分布に応じて取得され
前記コンポーネントパラメータの前記平均値

と

は、次の数式

を使用することにより、前記各サブサンプルデータに対応する前記コンポーネントパラメータの前記中間値に応じて決定され、
前記コンポーネントパラメータ

と

とは、次の数式

を使用することにより、前記コンポーネントパラメータの前記平均値に応じて取得され、
ｔは現在の取得を示し、ｔ−１は前回の取得又は初期設定を示し、ρは更新ステップを示し、

は、ｃ番目のコンポーネント内の第Ｉ_ｍのサブサンプルデータに対応する前記潜在変分分布を示し、Ｓはサブサンプルデータセットを示し、

は、前記サブサンプルデータセット内の第Ｉ_ｍのサブサンプルデータを示し、α_ｃはｃ番目のコンポーネントパラメータαを示し、φ_ｃはｃ番目のコンポーネントの前記コンポーネントパラメータφを示す。

第１の観点の第６の可能な実施方法から第８の可能な実施方法までのいずれかの可能な実施方法に関し、第１の観点の第９の可能な実施方法において、前記潜在変数の前記変分分布と前記コンポーネントパラメータとに応じて、前記目的関数が収束するかどうかを判別するステップは、
前記潜在変数の前記変分分布と前記コンポーネントパラメータとに応じて決定された前記目的関数の値と、前回取得された前記潜在変数の変分分布とコンポーネントパラメータとに応じて決定される前回取得された目的関数の値と、の差（距離）がしきい値より小さいかどうかを判別すること、
前記潜在変数の前記変分分布と前記コンポーネントパラメータとに応じて決定された前記目的関数の値と、前記前回取得された目的関数の値と、の差（距離）が前記しきい値より小さい場合、前記目的関数が収束していると判別すること、
を含む。

第２の観点によると、提供される混合モデル決定用の装置は、
サンプルデータと潜在変数とコンポーネントパラメータとに応じて決定される対数尤度と正規化項と前記潜在変数の変分分布の対数とを取得するように構成された取得モジュールと、
前記対数尤度と前記正規化項と潜在変数の前記変分分布の対数とに応じて目的関数を決定するように構成された第１決定モジュールと、
サンプルセットから抽出されたサブサンプルデータに応じて、前記目的関数の収束を可能にする潜在変数の変分分布と前記コンポーネントパラメータとを決定するように構成された第２決定モジュールと、
前記目的関数の収束を可能にする潜在変数の前記変分分布と前記コンポーネントパラメータとに応じて、混合モデルを決定するように構成された第３決定モジュールと、
を含む。

第２の観点に関し、第２の観点の第１の実施方法において、前記取得モジュールにより取得される前記対数尤度は、

であって、ｌｏｇｐ（）は前記対数尤度を示し、ｐは同時確率密度関数を示し、ｘ^Ｎは前記サンプルデータを示し、Ｎはサンプルデータの数を示し、Ｚ^Ｎは前記潜在変数を示し、θはコンポーネントパラメータのセットを示し、前記コンポーネントパラメータは、α、φを含み、αはコンポーネントの混合比を示し、φはコンポーネント用のモデルパラメータを示し、各コンポーネントは、自身を表現するモデルパラメータのサブセットを有する。

第２の観点に関し、第２の観点の第２の実施方法において、前記取得モジュールにより取得される前記正規化項は、

であって、Ｎは前記サンプルデータの数を示し、Ｃはコンポーネントの個数を示し、ｚ_ｎｃは前記潜在変数を示し、

は潜在変数の変分分布の近似値を示し、αはコンポーネントの混合比を示し、Ｄ_αはαの次元を示し、Ｄ_ｃは前記コンポーネントｃの前記サブモデルパラメータの次元を示し、Ｌ（ａ，ｂ）＝ｌоｇｂ＋（ａ−ｂ）／ｂであり、ａは

を示し、ｂは、

を示す。

第２の観点に関し、第２の観点の第３の実施方法において、前記取得モジュールによって取得される前記潜在変数の前記変分分布の対数は、ｌｏｇｑ（Ｚ^Ｎ）であり、
ｑ（Ｚ^Ｎ）は潜在変数Ｚ^Ｎの変分分布を示し、Ｎはサンプルデータの数を示す。

第２の観点の第２の観点から第３の可能な実施方法までのいずれかの可能な実施方法に関し、第２の観点の第４の可能な実施方法において、前記第１決定モジュールは、前記対数尤度の期待値と前記正規化項の期待値と前記潜在変数の前記変分分布の対数の期待値とに応じて、前記目的関数を決定するように構成されている。

第２の観点の第４の可能な実施方法に関し、第２の観点の第５の実施方法において、前記第１決定モジュールにより決定される前記目的関数

は、

である。

第２の観点の第５の可能な実施方法に関し、第２の観点の第６の実施方法において、前記第２決定モジュールは、
前記サンプルセットから抽出された各サブサンプルデータに応じて、前記潜在変数の変分分布とコンポーネントパラメータとを取得するように構成された取得ユニットと、
前記潜在変数の前記変分分布と前記コンポーネントパラメータとに応じて、前記目的関数が収束するかどうかを判別するように構成された判別ユニットと、
前記目的関数が収束しない場合、前記目的関数の収束を可能にする潜在変数の前記変分分布と前記コンポーネントパラメータを取得するまで、前記サンプルセットから抽出された前記各サンプルデータに応じて、前記潜在変数の前記変分分布と前記コンポーネントパラメータとを再取得するように構成された取得ユニットと、
を含む。

第２の観点の第６の可能な実施方法に関し、第２の観点の第７の実施方法において、前記取得ユニットは、
各サブサンプルデータ用の前記潜在変分分布を、前記サンプルセットから抽出された前記各サブサンプルデータに応じて、取得するように構成された第１取得サブユニットと、
各コンポーネントパラメータの中間値を、前記各サブサンプルデータに対応する前記潜在変数の前記変分分布に応じて、取得するように構成された第２取得サブユニットと、
前記コンポーネントパラメータのひとつの平均値を、前記各サブサンプルデータに対応する前記コンポーネントパラメータの前記中間値に応じて、決定するように構成された第１決定サブユニットと、
前記コンポーネントパラメータの前記平均値に応じて前記コンポーネントパラメータを取得するように構成された第３取得サブユニットと、
を含む。

第１の観点の第７の可能な実施方法に関し、第１の観点の第８の可能な実施方法において、前記第１取得サブユニットは、各サブサンプルデータ用の前記潜在変分分布を、次の数式

を使用することにより、前記サンプルセットから抽出された前記各サブサンプルデータに応じて取得するように構成されており、
前記第２取得サブユニットは、前記各サブサンプルデータに対応する前記コンポーネントパラメータの前記中間値

と

とを、次の数式

を使用することにより、各サブサンプルデータ用の前記潜在変分分布に応じて取得するように構成されており、
前記第１決定サブユニットは、前記コンポーネントパラメータの前記平均値

と

とを、次の数式

を使用することにより、前記各サブサンプルデータに対応する前記コンポーネントパラメータの前記中間値に応じて取得するように構成されており、
前記第３取得サブユニットは、前記コンポーネントパラメータ

と

とを、次の数式

を使用することにより、前記コンポーネントパラメータの前記中間値に応じて取得するように構成されており、
ｔは現在の取得を示し、ｔ−１は前回の取得又は初期設定を示し、ρは更新ステップを示し、

はｃ番目のコンポーネント内の第Ｉｍサブサンプルデータに対応する前記潜在変分分布を示し、Ｓはサブサンプルデータセットを示し、

は、前記サブサンプルデータセット中の第Ｉｍサブサンプルデータを示し、α_ｃはｃ番目のコンポーネントのコンポーネントパラメータαを示し、φ_ｃはｃ番目のコンポーネントのコンポーネントパラメータφを示す。

第２の観点の第６の可能な実施方法から第７の実施方法までのいずれかの可能な実施方法に関し、第２の観点の第９の可能な実施方法において、前記判別ユニットは、
前記潜在変数の前記変分分布と前記コンポーネントパラメータとに応じて決定された前記目的関数の値と、前回取得された前記潜在変数の変分分布とコンポーネントパラメータとに応じて決定される前回取得された目的関数の値との差（距離）がしきい値より小さいかどうかを判別するように構成された比較サブユニットと、
前記潜在変数の前記変分分布と前記コンポーネントパラメータとに応じて決定された前記目的関数の値と、前記前回取得された目的関数の値との差（距離）が前記しきい値より小さい場合、前記目的関数が収束していると決定する構成された、第２決定サブユニットと、
を含む。

本開示の実施形態において提供される技術的解決方法は、次のような有益な効果を得る。
目的関数は、サンプルデータと潜在変数とコンポーネントパラメータとに応じて決定される、対数尤度と正規化項と潜在変数の変分分布の対数とに応じて決定される。混合モデルは、目的関数の収束を可能にする、潜在変数の変分分布とコンポーネントパラメータとに応じて決定される。正規化項が目的関数に導入されるので、混合モデルの複雑性が自動的に制御され、大規模なデータ処理に適用される。

本開示の実施形態における技術的解決方法をより良く理解するために、実施形態を記述するための添付図面は以下のように簡単に説明される。明らかに、以下の説明における添付図面は、本開示のいくつかの実施形態だけを説明し、当業者は、いかなる創造的な努力をすることもなく、これたの添付図面に基づいて、他の添付図面を導きだしてもよい。

本開示の実施形態１に係る混合モデル決定用の方法のフローチャートである。本開示の実施形態２に係る混合モデル決定用の方法のフローチャートである。本開示の実施形態３に係る混合モデル決定用の装置の概略構成図である。本開示の実施形態３に係る第２決定モジュールの概略構成図である。本開示の実施形態３に係る取得ユニットの概略構成図である。本開示の実施形態３に係る判別ユニットの概略構成図である。

本開示の目的、技術的解決方法、及び利点をより明確するために、本開示の実施形態では、添付図面を参照して以下に詳細に説明する。

（実施形態１）
本開示の実施形態は、混合モデル決定用の方法を提供する。図１を参照し、方法は以下のステップを含む。

ステップ１０１：サンプルデータと潜在変数とコンポーネントパラメータとに応じて決定される、対数尤度と正規化項と潜在変数の変分分布の対数とを取得する。対数尤度と正規化項と潜在変数の変分分布の対数とに応じて目的関数を決定する。

任意の実施形態のように、
サンプルデータと潜在変数とコンポーネントパラメータとに応じて決定された対数尤度は、

であって、ｌｏｇｐ（）は対数尤度を示し、ｐは同時確率密度関数を示し、ｘ^Ｎはサンプルデータを示し、Ｎはサンプルデータの数を示し、Ｚ^Ｎは潜在変数を示し、θはコンポーネントパラメータのセットを示し、コンポーネントパラメータは、α、φを含み、αはコンポーネントの混合比を示し、φはコンポーネントのモデルパラメータを示し、各コンポーネントは自身を表現するモデルパラメータのサブセットを有する。

任意の実施形態のように、サンプルデータと潜在変数とコンポーネントパラメータとに応じて決定された正規化項は、

であって、Ｎはサンプルデータの数を示し、Ｃはコンポーネントの個数を示し、ｚ_ｎｃは潜在変数を示し、

は潜在変数の変分分布の近似値を示し、αはコンポーネントの混合比を示し、Ｄ_αはαの次元を示し、Ｄ_ｃは、コンポーネントｃのサブモデルパラメータの次元を示し、Ｌ（ａ、ｂ）＝ｌｏｇｂ＋（ａ−ｂ）／ｂであって、ａは、

を示し、ｂは

を示す。

任意の実施形態のように、サンプルデータと潜在変数とコンポーネントパラメータとに応じて決定された潜在変数の変分分布の対数はｌｏｇｑ（Ｚ^Ｎ）であり、ｑ（Ｚ^Ｎ）は潜在変数Ｚ^Ｎの変分分布を示し、Ｎはサンプルデータの数を示す。

任意の実施形態のように、対数尤度と正規化項と潜在変数の変分分布の対数とに応じて目的関数を決定することは、
対数尤度の期待値と正規化項の期待値と潜在変数の変分分布の対数の期待値とに応じて目的関数を決定することを含む。

任意の実施形態のように、目的関数

は、対数尤度の期待値と正規化項の期待値と潜在変数の変分分布の対数の期待値とに応じて決定され、

である。

ステップ１０２：サンプルセットから抽出されたサブサンプルデータに応じて、目的関数の収束を可能にする潜在変数の変分分布とコンポーネントパラメータとを決定する。目的関数の収束を可能にする潜在変数の変分分布とコンポーネントパラメータとに応じて混合モデルを決定する。

任意の実施形態のように、目的関数の収束を可能にする潜在変数の変分分布とコンポーネントパラメータを、サンプルセットから抽出されたサブサンプルデータに応じて決定することは、
サンプルセットから抽出された各サブサンプルデータに応じて、潜在変数の変分分布とコンポーネントパラメータとを取得すること、
潜在変数の変分分布とコンポーネントパラメータとに応じて、目的関数が収束するかどうかを判別し、目的関数が収束しない場合、サンプルセットから抽出された各サブサンプルデータに応じて、目的関数の収束を可能にする潜在変数の変分分布とコンポーネントパラメータを取得するまで、潜在変数の変分分布とコンポーネントパラメータを再取得すること、
を含む。

任意の実施形態のように、サンプルセットから抽出された各サブサンプルデータに応じて、潜在変数の変分分布とコンポーネントパラメータを取得することは、
サンプルセットから抽出された各サブサンプルデータに対応する潜在変数の変分分布を、各サブサンプルデータに応じて、取得し、各サブサンプルデータに対応するコンポーネントパラメータの中間値を、各サブサンプルデータに対応する潜在変数の変分分布に応じて、取得すること、
サブサンプルデータに対応するコンポーネントパラメータの中間値に応じて、コンポーネントパラメータのひとつの平均値を決定し、コンポーネントパラメータの平均値に応じてコンポーネントパラメータを取得すること、
を含む。

任意の実施形態のように、各サブサンプルに対応する潜在変数の変分分布は、次の数式を使用して、サンプルセットから抽出された各サブサンプルデータに応じて取得される。

各サブサンプルデータに対応するコンポーネントパラメータの中間値

と

とは、次の数式を使用して、各サブサンプルデータに対応する潜在変数の変分分布に応じて取得される。

コンポーネントパラメータの平均値

と

とは、次の数式を使用して、各サブサンプルデータに対応するコンポーネントパラメータの中間値に応じて、決定される。

コンポーネントパラメータ

と、

とは、次の数式を使用し、コンポーネントパラメータの平均値に応じて、取得される。

ここで、ｔは現在の取得を示し、ｔ−１は前回の取得又は初期設定を示し、ρは更新ステップを示し、

はｃ番目のコンポーネント内の第Ｉ_ｍのサブサンプルデータに対応する潜在変数の変分分布を示し、Ｓはサブサンプルデータセットを示し、

は、サブサンプルデータセット中の第Ｉ_ｍのサブサンプルデータを示し、α_ｃはｃ番目のコンポーネントのコンポーネントパラメータαを示し、φ_ｃはｃ番目のコンポーネントのコンポーネントパラメータφを示す。

任意の実施形態のように、潜在変数の変分分布とコンポーネントパラメータとに応じて、目的関数が収束するかどうかを判別することは、
潜在変数の変分分布とコンポーネントパラメータとに応じて決定された目的関数の値と、前回取得された潜在変数の変分分布とコンポーネントパラメータとに応じて決定される前回取得された目的関数の値と、の差（距離）がしきい値より小さいかどうかを判別すること、
潜在変数の変分分布とコンポーネントパラメータとに応じて決定された目的関数の値と、前回取得された目的関数の値との差（距離）がしきい値より小さい場合、目的関数が収束していると判別すること、
を含む。

本開示において提供される方法によれば、目的関数は、サンプルデータと潜在変数とコンポーネントパラメータとに応じて決定される、対数尤度と正規化項と潜在変数の変分分布の対数とに応じて決定される。混合モデルは、目的関数の収束を可能にする潜在変数の変分分布とコンポーネントパラメータとに応じて決定される。正規化項が導入されるので、混合モデルの複雑性は自動的に制御され、大規模なデータ処理に適用される。さらに、潜在変数とコンポーネントパラメータとは互いに依存関係にあるため、潜在変数の変分分布とコンポーネントパラメータとの決定はより正確であり、混合モデルの決定もより正確である。

（実施形態２）
本開示の実施形態は混合モデル決定用の方法を提供する。上述の実施形態の説明に関し、この実施形態において提供する方法を詳細に説明する。図２を参照し、方法は以下のステップを含む。

ステップ２０１：サンプルデータと潜在変数とコンポーネントパラメータとに応じて決定される、対数尤度と正規化項と潜在変数の変分分布の対数とを取得する。

この実施形態は、サンプルデータの内容に何の限定も設けない。特定の実施例中、各サンプルデータは、１又は複数の特徴ベクトルを含む。

理解を容易にするために、説明は、一例として下記のサンプルデータを使用してなされる。サンプルデータはベクトル形式で表される。ベクトルの要素は、商品１から５を示す。ベクトル中のいずれかの要素ｘ_ｊは商品ｊの特徴ベクトルを示し、ｘ_ｊ＝（ｘ_ｊ１，…，ｘ_ｊｎ）、１≦ｊ≦５であり、ｊとｎとはいずれも正の整数である。ｘ_ｊｎは、温度、日付、商品の注文数量のようなアトリビュートを示してもよい。

コンポーネントパラメータは、コンポーネント混合比、各コンポーネントのサブモデルパラメータ等を含むが、これらに限定されない。この実施形態は、コンポーネントパラメータの特定の内容に何の限定も設けない。一例として、ベクター形式のサンプルデータを使用する場合、コンポーネント混合比は、決定された混合モデルにおけるベクトルの要素の総数に対する、決定された混合モデルにおける各コンポーネント内の要素数の比である。各コンポーネントのサブモデルパラメータは、決定された混合モデルにおける各コンポーネントのデータ分布のパラメータである。

留意すべきは、潜在変数とコンポーネントパラメータとは互いに独立であってよい、又は、互いに依存関係にあってもよい。実際には、決定された混合モデルをより正確にするために、潜在変数とコンポーネントパラメータとは依存関係にあるので、この実施形態においては、潜在変数とコンポーネントパラメータとが依存関係にある場合を例に説明する。

さらに、サンプルデータと潜在変数とコンポーネントパラメータとに応じて決定される、対数尤度と正規化項と潜在変数の変分分布の対数を取得するため、まず、同時確率密度関数がこの実施形態で提供される方法に導入される。

ここで、ｐは同時確率密度関数を示し、ｘ^Ｎはサンプルデータを示し、Ｎはサンプルデータの数を示し、Ｚ^Ｎは潜在変数を示し、θはコンポーネントパラメータのセットを示す。コンポーネントパラメータはα、φを含み、αはコンポーネント混合比を示し、φはコンポーネントのモデルパラメータを示し、Ｃはコンポーネントの個数を示す。

混合モデルの確率密度分布は、上述の同時確率密度関数によって決定される。コンポーネントパラメータα、φと、同時確率密度関数中の潜在変数Ｚ^Ｎが一旦決定されると、混合モデルの確率密度分布が決定され、このようにして、混合モデルは決定される。同時確率密度関数を解けるようにするため、次のような対数尤度を取得するため、対数は関数の両端で分けられる。

任意の実施形態のように、サンプルデータと潜在変数とコンポーネントパラメータとに応じて決定される対数尤度は、

であって、ｌоｇｐ（）は対数尤度を示し、ｐは同時確率密度関数を示し、ｘ^Ｎはサンプルデータを示し、Ｎはサンプルデータの数を示し、Ｚ^Ｎは潜在変数を示し、θはコンポーネントパラメータのセットを示す。コンポーネントパラメータは、α、φを含み、αはコンポーネント混合比を示し、φはコンポーネントのためのモデルパラメータを示す。

具体的には、サンプルデータｘ^Ｎがベクトル形式で表される場合、Ｎはベクトルの要素数を示し、Ｃはコンポーネントの個数を示す。Ｚ^Ｎは、Ｎ×Ｃの潜在変数の行列を示す、Ｚ^Ｎの各要素を考慮すると、

であって、Ｚ_ｎｃ＝１の場合、要素は、サンプルデータｘ_ｎがｃ番目のコンポーネントに適切であることを示し、Ｚ_ｎｃ＝０の場合、要素は、サンプルデータｘ_ｎがｃ番目のコンポーネントに適切でないことを示す。コンポーネント混合比αは、サンプルデータ中のベクトルの要素の総数に対する、混合モデルの各コンポーネントの要素数の比である。ここで、各コンポーネントのサブモデルパラメータφは、混合モデル中の各コンポーネントのサンプルデータがコンポーネント内で従う分布のパラメータである。例えば、コンポーネントの各々のサンプルデータがガウス分布に従う場合、φはガウス分布の期待値μと分散δとを示す。例えば、コンポーネントの各々のサンプルデータがポアソン分布に従う場合、φはポアソン分布の期待値と分散λを示す。加えて、上述の分布、各コンポーネントのサンプルデータは他の分布に従ってもよいことに留意すべきであり、この実施形態ではこれらを限定しない。

任意の実施形態のように、サンプルデータと潜在変数とコンポーネントパラメータとに応じて決定される正規化項は、

は、潜在変数の変分分布の近似値を示し、αはコンポーネントの混合比を示し、Ｄ_αはαの次元を示し、Ｄ_ｃはコンポーネントＣのサブモデルパラメータの次元を示す。Ｌ（ａ，ｂ）＝ｌоｇｂ＋（ａ−ｂ）／ｂであり、ａは

を示し、ｂは、

を示す。

具体的には、Ｃが潜在変数の行列Ｚ^Ｎ中のコンポーネントの個数を示す場合、Ｄ_α＝Ｄ（α）＝Ｃ−１である。各コンポーネントのサンプルデータがガウス分布に従うとき、ガウス分布の期待値と分散はそれぞれμとδであるため、ガウス分布は２つのパラメータを含み、Ｄ_α＝Ｄ（α）＝２である。各コンポーネントのサンプルデータがポアソン分布に従うとき、ポアソン分布の期待値と分散はいずれもλであり、言い換えれば、ポアソン分布はパラメータλのみを含み、Ｄ_α＝Ｄ（α）＝１である。

加えて、この実施形態では、潜在変数の変分分布の近似値

には、何の限定も設けないものの、前回の取得又は初期設定において取得された更新された潜在変数の変分分布の値が含まれる。ただし、これに限られない。ここで、潜在変数の変分分布は目的関数の収束を可能にすることができない。理解を容易にするため、この実施形態は、前回の取得又は初期設定において取得された、更新された潜在変数の変分分布の値が、潜在変数の変分分布の近似値

を示す例により、説明される。正規化項が最初に決定されるとき、潜在変数の変分分布の近似値が、潜在変数の変分分布の初期値とされる。正規化項が最初に決定されないとき、潜在変数の変分分布の近似値は、前回の取得の際に、更新された潜在変数の変分分布の値とされる。

正規化項を使用することにより、決定された混合モデルの複雑性が自動的に制御され、混合モデルの決定の効率が向上されることに留意すべきである。

任意の実施形態のように、サンプルデータと潜在変数とコンポーネントパラメータとに応じて決定される潜在変数の変分分布の対数は、ｌоｇｑ（Ｚ^Ｎ）であって、ｑ（Ｚ^Ｎ）は潜在変数Ｚ^Ｎの変分分布を示し、Ｎはサンプルデータの数を示す。

具体的には、潜在変数Ｚ^Ｎの変分分布は、

と示されてよい。

ステップ２０２：対数尤度の期待値と正規化項の期待値と潜在変数の変分分布の対数の期待値とに応じて目的関数を決定する。

ステップ２０１では、対数尤度は因数分解の形式で表されていた。対数を解けるようにするにあたり、対数のコンパクト（compact,タイト）な下界、言い換えれば以下に示す因子化情報量基準（Factorized Information Criterion）（ＦＩＣ）、を取得するため各因数はラプラス近似に従う。

ここで、

は、ＦＩＣが最大値を取ったときのθの値を示す。

さらに、ＦＩＣがサンプルデータｘ^Ｎと潜在変数Ｚ^Ｎとを含むため、通常は期待値最大化（Expectation Maximization）（ＥＭ）アルゴリズムを使用して解かねばならない。しかしながら、混合モデルは非独立の潜在変数に応じて決定されているため、従来のＥＭアルゴリズムは、ＦＩＣの解の取得に適していない。ＦＩＣを解けるようにするにあたり、この実施形態は、ＦＩＣの漸近的一致性（asymtotically-consistent）下界ＦＩＣＬＢを取得するため、ＦＩＣの換算を採用し、ＦＩＣ漸近的一致性（asymtotically-consistent）下界ＦＩＣＬＢは決定された目的関数である。

したがって、任意の実施形態のように、対数の期待値と正規化項の期待値と潜在変数の変分分布の期待値とに応じて決定される目的関数

は、

である。

さらに、上述のステップを使用して、目的関数が決定される。目的関数を使用して混合モデルを決定するため、この実施形態が提供する方法はさらに次のステップを含む。

ステップ２０３：サンプルセットから抽出された各サブサンプルデータに応じて、潜在変数の変分分布とコンポーネントパラメータとを取得する。

任意の実施形態のように、サンプルセットから抽出された各サブサンプルデータに応じて、潜在変数の変分分布とコンポーネントパラメータとを取得することは、
サンプルセットから抽出された各サブサンプルデータに応じて、各サブサンプルデータ用の潜在変分分布を取得すること、各サブサンプルデータに対応するコンポーネントパラメータの中間値を、各サブサンプルデータに対応する潜在変分分布に応じて、取得すること、
コンポーネントパラメータのひとつの平均値を、各サブサンプルデータに対応するコンポーネントパラメータの中間値に応じて、決定すること、コンポーネントパラメータの平均値に応じてコンポーネントパラメータを取得すること、
を含む。ただし、これに限られない。

任意の実施形態のように、各サブサンプルデータに対応する潜在変分分布は、サンプルセットから抽出された各サブサンプルデータに応じて、次の数式を使用して、取得される。

各サンプルデータに対応するコンポーネントパラメータの中間値

と、

とは、各サブサンプルデータに対応する潜在変分分布に応じて、次式を使用して取得される。

コンポーネントパラメータの平均値

と

とは、各サブサンプルデータに対応するコンポーネントパラメータの中間値に応じて、次式を使用して決定される。

コンポーネントパラメータ

と

とは、コンポーネントパラメータの平均値に応じて、次式を使用して求められる。

ここで、ｔは現在の取得を示し、ｔ−１は、前回の取得又は初期設定を示し、ρは更新ステップを示し、

は、ｃ番目のコンポーネント内の第Ｉｍサブサンプルデータに対応する潜在変分分布を示し、Ｓはサブサンプルデータセットを示し、

は、サブサンプルデータセット中の第Ｉｍサブサンプルデータを示し、α_ｃはｃ番目のコンポーネントのコンポーネントパラメータαを示し、φ_ｃはｃ番目のコンポーネントのコンポーネントパラメータφを示す。

具体的には、更新ステップρ_ｔは、（ｔ＋τ）^−ｋ，τ≧０，ｋ∈（０．５，１］により計算される。

初めて、潜在変数の変分分布とコンポーネントパラメータとを取得するため、ステップ２０３の数式が最初に使用されるとき、ｔ−１は初期設定を示し、したがって、ｔ−１に対応するパラメータは初期設定の値となる。例えば、ステップ２０３で最初に、潜在変分分布とコンポーネントパラメータとが取得されるとき、数式の、

はα_ｃの初期値を示し、

はφ_ｃの初期値を示す。

潜在変数の変分分布とコンポーネントパラメータとを取得するため、最初にステップ２０３の数式が使用されないとき、ｔ−１は前回の取得を示し、したがって、ｔ−１に対応するパラメータは前回の取得された値となる。例えば、潜在変数の変分分布とコンポーネントパラメータとが３回目のステップ２０３で取得されたとき、数式の、

は、潜在変数の変分分布とコンポーネントパラメータとが２回目に取得されたときのα_ｃの値を示し、

は、潜在変数の変分分布とコンポーネントパラメータが２回目に取得されたときのφ_ｃを示す。

計算の負荷を低減し、混合モデルの決定の効率を向上させるため、この実施形態で提供される方法において、サブサンプルデータはサンプルセットから抽出される。具体的には、サブサンプルデータは、無作為抽出法（manner of random extraction）によるサンプルセットから抽出されてもよい。しかしながら、上述のサブサンプルデータの抽出方法に加えて、他の方法が採用されてもよい。この実施形態は、サブサンプルデータの抽出の方法を限定しない。

さらに、この実施形態は、各サブサンプルデータに対応する潜在変分分布を取得する方法を限定しない。特定の実施例中、潜在変分分布を算出するために使用されるコンポーネントパラメータα、φは初期化される。この実施形態は、初期化の方法を限定しない。特定の実施例中、無作為法（random manner）、つまり、コンポーネントパラメータαとφの値をランダムに初期化すること、により初期化が実行されてもよい。しかしながら、上述の方法に加えて、他の方法が採用されてもよい。

理解を容易にするため、以下の説明では、一例として、サブサンプルデータのセットＳに属するサンプルセットからランダムに抽出されたサブサンプルデータが使用される。この場合、各サンプルデータ

は、１又は複数の特徴ベクトルを含み、対応する潜在変数

はＳに含まれるサンプルデータ

の各々について計算される。すなわち、各サブサンプルデータに対応する潜在変分分布が取得される。したがって、各サブサンプルデータに対応するコンポーネントパラメータの中間値は、各サブサンプルデータに対応する潜在変分分布に応じて取得される。コンポーネントパラメータの平均値は、各サブサンプルデータに対応するコンポーネントパラメータの中間値に応じて決定される。コンポーネントパラメータは、コンポーネントパラメータの平均値に応じて取得される。

加えて、特定の実施例において、コンポーネントの個数Ｃが異なるように設定されてもよい。例えば、Ｃの最小値をＣ_ｍｉｎとし、Ｃの最大値をＣ_ｍａｘとし、Ｃの値の範囲内で、Ｃのそれぞれの値について、潜在変数の変分分布とコンポーネントパラメータが取得される。

ステップ２０４：潜在変数の変分分布とコンポーネントパラメータとに応じて、目的関数が収束するかどうかを判別する。目的関数が収束しない場合、目的関数の収束を可能にする、潜在変数の変分分布とコンポーネントパラメータとを取得するまで、サンプルセットから抽出された各サブサンプルデータに応じて、潜在変数の変分分布とコンポーネントパラメータとを再取得する。

目的関数が収束しないと判別したとき、サンプルセットから抽出された各サブサンプルデータに応じた潜在変数の変分分布とコンポーネントパラメータの他の取得のときに、サンプルセットから抽出された全てのサブサンプルデータは、サブサンプルデータセットを構成することに留意すべきである。サブサンプルデータセット中の全てのサブサンプルデータに対応する潜在変分分布は、潜在変数の変分分布のセットを構成する。毎回、サンプルセットから同じサブサンプルデータが抽出される場合、同じサブサンプルデータセットが取得され、取得された潜在変数の変分分布のセットとコンポーネントパラメータは同じである。よって、繰り返しの計算を避けるため、サンプルセットから抽出された各サブサンプルデータに応じた潜在変数の変分分布とコンポーネントパラメータの他の取得のときに、少なくとも１つの異なるサブサンプルデータが、今回抽出されたサブサンプルデータにより構成されるサブサンプルデータセットと、前回抽出されたサブサンプルデータにより構成されたサブサンプルデータセットと、の範囲に存在するようすべきである。例えば、サンプルデータがＡ、Ｂ、Ｃ、Ｄ、Ｅであり、サンプルセットから最初に抽出されたサブサンプルデータがＡ、Ｂ、Ｃである。サンプルセットから抽出された各サブサンプルデータに応じた潜在変数の変分分布とコンポーネントパラメータの他の取得のときに、抽出されたサブサンプルデータがサンプルデータＢ、Ｃ、Ｄであり、このように、取得された２つの潜在変数の変分分布のセットが異なる。

任意の実施形態のように、潜在変数の変分分布とコンポーネントパラメータとに応じて、目的関数が収束するかどうかを判別する前に、方法は、さらに、コンポーネントパラメータが収束するかどうかを判別することを含む。ただし、これに限られない。

コンポーネントパラメータが収束するかどうかを判別するため、サンプルセットから抽出されたサブサンプルデータと目的関数とに応じて決定された、コンポーネントパラメータに対応するストキャスティック関数が、はじめに求められてもよい。サブサンプルデータに対応するコンポーネントパラメータに応じて、各コンポーネントパラメータに対応するストキャスティック関数が収束するかどうかが判別される。コンポーネントパラメータに対応するストキャスティック関数が収束しない場合、コンポーネントパラメータは収束しないと判別される。コンポーネントに対応するストキャスティック関数が収束する場合、コンポーネントパラメータは収束すると判別される。

さらに、目的関数

は、ＦＬＣＬＢ（α）及びＦＬＣＬＢ（φ）に書き換えられてもよい。ここで、ＦＬＣＬＢ（α）とＦＣＬＢ（φ）とは、

である。

ＦＬＣＬＢ（α）とＦＬＣＬＢ（φ）は、極値法（extreme value method）を使用して、最大値が求められる。超大規模なサンプルデータに関し、全てのサンプルデータを使用してＦＬＣＬＢ（α）とＦＬＣＬＢ（φ）の最大値を求めることは効果が低い。したがって、この実施形態で提供される方法によれば、サブサンプルデータはサンプルセットから抽出され、つまり、不偏のノイズの推定は、サブサンプルデータに基づくＦＬＣＬＢ（α）とＦＬＣＬＢ（φ）の自然勾配とされる。ストキャスティック関数

と、

とは次のように求められる。

ストキャスティック関数

と、

の自然勾配は、ＦＬＣＬＢ（α）とＦＬＣＬＢ（φ）の自然勾配の不偏の推定である。ＦＬＣＬＢ（α）とＦＬＣＬＢ（φ）は、目的関数

に応じて書き換えられる。したがって、コンポーネントパラメータが収束するかどうかの判別に代わり、潜在変数の変分分布とコンポーネントパラメータとに応じて、目的関数が収束するかどうかが直接判別されてもよい。

任意の実施形態のように、潜在変数の変分分布とコンポーネントパラメータとに応じて、目的関数が収束するかどうかを判別することは、
潜在変数の変分分布に応じて決定された目的関数の値と、前回取得された潜在変数の変分分布とコンポーネントパラメータとに応じて決定される前回取得された目的関数の値と、の差（距離）がしきい値より小さいかどうかを判別すること、
潜在変数の変分分布とコンポーネントパラメータとに応じて決定された目的関数の値と、前回取得された目的関数の値との差（距離）がしきい値より小さい場合、目的関数が収束していると判別すること、
を含む。ただし、これに限られない。

具体的には、潜在変数の変分分布とコンポーネントパラメータとに応じた目的関数の決定のとき、目的関数における潜在変数の変分分布は、全てのサンプルデータに対応する潜在変数の変分分布を示す。したがって、目的関数は、全てのサンプルデータに対応する潜在変数の変分分布とコンポーネントパラメータとに応じて決定される必要がある。ステップ２０３では、潜在変数の変分分布の取得のときに、サンプルセットから抽出された各サブサンプルデータに対応する潜在変分分布が取得される。つまり、ステップ２０３において、取得された潜在変数の変分分布は、サンプルデータ中の一部のサンプルデータに対応する潜在変数の変分分布のみであり、全てのサンプルデータに対応する潜在変数の変分分布ではない。この実施形態で提供される方法では、全てのサンプルデータに対応する潜在変数の変分分布の取得のときに、サンプルセットから今回抽出されたサブサンプルデータに関し、サンプルセットから抽出された各サブサンプルデータに対応する潜在変分分布が上述のステップ２０３により取得される。サンプルセットから抽出されたことがないサブサンプルデータに関し、潜在変数に対応する変分分布に初期値が設定される。サンプルセットからすでに抽出されたサブサンプルデータであって、今回サンプルセットから抽出されたものではないものに関し、上述のステップ２０３によりごく最近取得された潜在変数の変分分布が、今回のこれらのサブサンプルデータに対応する潜在変数の変分分布として使用される。

理解を容易にするため、一例として、サンプルデータＡ、Ｂ、Ｃ、Ｄ、Ｅとする場合を説明する。全てのサンプルデータに対応する潜在変数の変分分布の最初の取得のとき、今回抽出されたサブサンプルデータが、サンプルデータＡ、Ｂである場合、抽出されなかったサブサンプルデータは、サンプルデータＣ、Ｄ、Ｅである。したがって、サンプルデータＡとＢに対応する潜在変数の変分分布は、上述のステップ２０３により取得される。サンプルデータＣ、Ｄ、Ｅのそれぞれには初期値が設定される。

全てのサンプルデータに対応する潜在変数の変分分布の２回目の取得のときに、サブサンプルデータはサンプルセットから再度抽出され、今回抽出されたサブサンプルデータが、サンプルデータＢ、Ｃであり、抽出されなかったサブサンプルデータはサンプルデータＡ、Ｄ、Ｅである。したがって、サンプルデータＢ、Ｃに対応する潜在変数の変分分布が、上述のステップ２０３により取得される。サンプルデータＡは抽出されないが、前回抽出されていた場合、サンプルデータＡの最初の抽出のときにステップ２０３で取得されたサンプルデータＡに対応する潜在変数の変分分布は、今回のサンプルデータＡに対応する潜在変数の変分分布として使用されてもよい。サンプルデータＤ、Ｅは一度も抽出されていないため、サンプルデータＤ、Ｅに対応する潜在変数の変分分布は、引き続き初期値である。

潜在変数の変分分布の３回目の取得のときに、サンプルセットＤ、Ｅからサブサンプルデータが再度抽出され、サンプルデータＡ、Ｂ、Ｃは抽出されなかったサブサンプルデータである。サンプルデータＤ、Ｅに関し、サンプルデータＤ、Ｅに対応する潜在変数の変分分布は上述のステップ２０３で取得される。サンプルデータＡに関し、サンプルデータＡの最初の抽出のときにステップ２０３で取得されたサンプルデータＡに対応する潜在変数の変分分布は、今回のサンプルデータＡに対応する潜在変数の変分分布として使用されてもよい。サンプルデータＢ、Ｃに関し、サンプルデータＢの２回目の抽出のときに続くステップ２０３により取得されたサンプルデータＢに対応する潜在変数の変分分布は、現在のサンプルデータＢに対応する潜在変数の変分分布として使用されてもよい。サンプルデータＣの２回目の抽出のときに、続くステップ２０３により取得されたサンプルデータＣに対応する潜在変数の変分分布は、現在のサンプルデータＣに対応する潜在変数の変分分布として使用されてもよい。目的関数の収束を可能にする潜在変数の変分分布まで、相似が推論される。

目的関数が収束しないと判別するとき、サンプルセットから抽出された各サブサンプルデータに応じた、潜在変数の変分分布とコンポーネントパラメータとの再取得のときに、処理がステップ２０３に戻り、ステップ２０３を通過し、サンプルセットから抽出された各サブサンプルデータに応じて、潜在変数の変分分布とコンポーネントパラメータとが再取得されることに留意すべきである。サンプルセットから抽出された各サブサンプルデータに応じた、潜在変数の変分分布とコンポーネントパラメータの最初の取得のときに、ステップ２０３の数式のｔ−１は初期値を示す。ステップ２０３に戻ることにより、サンプルセットから抽出された各サブサンプルデータに応じた、潜在変数の変分分布とコンポーネントパラメータとが再取得されるときに、ステップ２０３の数式のｔ−１は前回の取得を示し、サブサンプルデータは、サンプルセットから再度抽出される必要がある。例えば、ステップ２０３の数式を使用した、潜在変数の変分分布とコンポーネントパラメータの最初の取得のときに、数式のｔ−１に対応するパラメータに初期値を使用し、最初に取得された潜在変数の変分分布とコンポーネントパラメータとが取得される。最初に取得された潜在変数の変分分布とコンポーネントパラメータとが、目的関数を収束することができない場合、最初に取得された潜在変数の変分分布とコンポーネントパラメータには、ステップ２０３のｔ−１に対応するパラメータの値が使用される。潜在変数の変分分布とコンポーネントパラメータとが、サンプルセットから抽出された各サブサンプルデータに応じて再度取得され、取得された潜在変数の変分分布とコンポーネントパラメータとが、目的関数を収束することが可能であるかどうかが判別される。目的関数の収束を可能にする潜在変数の変分分布とコンポーネントパラメータまで、相似が推論される。

さらに、上記説明したステップ２０３から２０４によって、目的関数を収束することが可能な潜在変数の変分分布とコンポーネントパラメータとが、サンプルセットから抽出されたサブサンプルに応じて決定される。混合モデルの決定を達成するために、この実施形態で提供される方法は、続くステップを含む。

ステップ２０５：目的関数を収束することが可能な、潜在変数の変分分布とコンポーネントパラメータとに応じて、混合モデルを決定する。

このステップでは、収束が対数尤度に近づくときの目的関数の値と混合モデルとが、目的関数の収束を可能にする潜在変数の変分分布とコンポーネントパラメータとに応じて決定されてもよい。

さらに、コンポーネントの個数Ｃが異なるように設定されてもよい。例えば、Ｃの最小値をＣ_ｍｉｎとし、Ｃの最大値をＣ_ｍａｘとみなすと、Ｃの値の範囲内で、Ｃのそれぞれの値について、潜在変数の変分分布とコンポーネントパラメータとが、サンプルセットから抽出された各サブサンプルデータに応じて取得される。目的関数の収束を可能にすることのもとに、目的関数を最も高い値で収束させるＣが選択されてもよい。混合モデルは、Ｃに応じて計算された、潜在変数の変分分布とコンポーネントパラメータとに応じて決定される。

コンポーネントのセット数Ｃは、決定された混合モデルにおけるコンポーネントの個数と同じであってもよいし、異なっていてもよい。つまり、混合モデルの決定のとき、混合モデルの構造は自動的に適合させられる。

決定されたリレーショナルモデルは、データクラスタリングのために、あるいは、データ分類のために使用される。決定された混合モデルがデータクラスタリングに使用されるとき、混合モデル決定のプロセスは、データクラスタリングのプロセスである。決定された混合モデルがデータ分類のために使用されるとき、決定された混合モデルは、さらに処理される必要がある。データクラスタリングとデータ分類の結果は、顧客分析、生物学的解析、地理的解析等のため使用されてもよく、巨大な社会価値と経済価値を作り出す。

本開示のこの実施形態で提供された方法では、目的関数は、サンプルデータと潜在変数とコンポーネントパラメータとに応じて決定された対数尤度と正規化項と潜在変数の変分分布の対数とに応じて決定される。混合モデルは、目的関数を収束することが可能な潜在変数の変分分布とコンポーネントパラメータとに応じて決定される。正規化項は、混合モデルの複雑性を自動的に制御し、大規模なデータ処理に適用できるよう、目的関数に導入される。さらに、潜在変数とコンポーネントパラメータとは、依存関係にあるため、潜在変数の変分分布とコンポーネントパラメータの決定とはより正確であり、混合モデルの決定もより正確である。

（実施形態３）
図３を参照して、本開示の実施形態は混合モデル決定用の装置装置は、
サンプルデータと潜在変数とコンポーネントパラメータとに応じて決定される、対数尤度と正規化項と潜在変数の変分分布の対数とを取得するように構成された取得モジュール３０１と、
対数尤度と正規化項と潜在変数の変分分布の対数とに応じて目的関数を決定するように構成された第１決定モジュール３０２と、
サンプルセットから抽出されたサブサンプルデータに応じて、目的関数を収束することが可能な潜在変数の変分分布とコンポーネントパラメータとを決定するように構成された第２決定モジュール３０３と、
目的関数を収束することが可能な潜在変数の変分分布とコンポーネントパラメータとに応じて混合モデルを決定するように構成された第３決定モジュール３０４と、
を含む。

任意の実施形態のように、取得モジュール３０１により取得される対数尤度は、

であって、ｌｏｇｐ（）は対数尤度を示し、ｐは同時確率密度関数を示し、ｘ^Ｎはサンプルデータを示し、Ｎはサンプルデータの数を示し、Ｚ^Ｎは潜在変数を示し、θはコンポーネントパラメータのセットを示す。コンポーネントパラメータはαとφを含み、αはコンポーネント混合比を示し、φはコンポーネントのモデルパラメータを示し、各コンポーネントは自身を表現するためのモデルパラメータのサブセットを有する。

任意の実施形態のように、取得モジュール３０１により取得された正規化項は、

は、潜在変数の変分分布の近似値を示し、αはコンポーネント混合比を示し、Ｄ_αはαの次元を示し、Ｄ_ｃはコンポーネントＣのサブモデルパラメータの次元を示し、Ｌ（ａ，ｂ）＝ｌｏｇｂ＋（ａ−ｂ）／ｂであり、ａは、

を示し、ｂは

を示す。

任意の実施形態のように、取得モジュール３０１により取得される潜在変数の変分分布の対数は、ｌｏｇｑ（Ｚ^Ｎ）であり、ｑ（Ｚ^Ｎ）は潜在変数Ｚ^Ｎの変分分布であり、Ｎはサンプルデータの数を示す。

任意の実施形態のように、第１決定モジュール３０２は、対数尤度の期待値と正規化項の期待値と潜在変数の変分分布の対数の期待値とに応じて、目的関数を決定するように構成されている。

任意の実施形態のように、第１決定モジュール３０２により決定される目的関数

は、

である。

任意の実施形態のように、図４を参照し、第２決定モジュール３０３は、
サンプルセットから抽出された各サブサンプルデータに応じて、潜在変数の変分分布とコンポーネントパラメータとを取得するように構成された取得ユニット３０３１と、
潜在変数の変分分布とコンポーネントパラメータとに応じて、目的関数が収束するかどうかを判別するように構成された判別ユニット３０３２と、
目的関数が収束しない場合、目的関数を収束することを可能にする潜在変数の変分分布とコンポーネントパラメータとを取得するまで、サンプルセットから抽出された各サブサンプルデータに応じて、潜在変数の変分分布とコンポーネントパラメータとを、再取得するように構成された取得ユニット３０３１と、
を含む。

任意の実施形態のように、図５を参照し、取得モジュール３０３１は、
サンプルセットから抽出された各サブサンプルセットに応じて、各サブサンプルデータに対応する潜在変分分布を取得するように構成された第１取得サブユニット３０３１１と、
各サブサンプルデータに対応する潜在変分分布に応じて、各サブサンプルデータに対応するコンポーネントパラメータの中間値を取得するように構成された第２取得サブユニット３０３１２と、
各サブサンプルデータに対応するコンポーネントパラメータの中間値に応じて、コンポーネントパラメータのひとつの平均値を決定するように構成された第１決定サブユニット３０３１３と、
コンポーネントパラメータの平均値に応じてコンポーネントパラメータを取得するように構成された第３取得サブユニット３０３１４と、
を含む。

任意の実施形態のように、第１取得サブユニット３０３１１は、各サブサンプルデータに対応する潜在変分分布を、サンプルセットから抽出された各サブサンプルデータに応じて、次の数式を使用して、取得するように構成されている。

第２取得サブユニット３０３１２は、各サブサンプルデータに対応するコンポーネントパラメータの中間値

と

とを、各サブサンプルデータに対応する潜在変分分布に応じて、次式を使用して取得するように構成されている。

第１決定サブユニット３０３１３は、コンポーネントパラメータの平均値

と、

とを各サブサンプルデータに対応するコンポーネントパラメータの中間値に応じて、次式を使用して決定するように構成されている。

第３取得サブユニット３０３１４は、コンポーネントパラメータ

と

とを、コンポーネントパラメータの平均値に応じて、次の数式を使用して取得するように構成されている。

ここで、ｔは、現在の取得を示し、ｔ−１は前回の取得又は初期設定を示し、ρは更新ステップを示し、

は、ｃ番目のコンポーネント内の第Ｉ_ｍサブサンプルデータに対応する潜在変分分布を示し、Ｓはサブサンプルデータセットを示し、

はサブサンプルデータセット中の第Ｉ_ｍのサブサンプルデータを示し、α_ｃはｃ番目のコンポーネントのコンポーネントパラメータαを示し、φは_ｃ番目のコンポーネントのコンポーネントパラメータφを示す。

任意の実施形態によると、図６を参照し、判別ユニット３０３２は、
潜在変数の変分分布とコンポーネントパラメータとに応じて決定された目的関数の値と、前回取得された潜在変数とコンポーネントパラメータとに応じて決定される前回取得された目的関数と、の差（距離）がしきい値より小さいかどうかを決定するように構成された比較サブユニット３０３２１と、
潜在変数の変分分布とコンポーネントパラメータとに応じて決定された目的関数の値と、前回取得された目的関数の値との差（距離）しきい値より小さい場合、目的関数が収束していると決定するように構成された第２決定サブユニット３０３２２と、
を含む。

本開示の実施形態で提供される装置によれば、サンプルデータと潜在変数とコンポーネントパラメータとに応じて決定される、対数尤度と正規化項と潜在変数の変分分布の対数とに応じて、目的関数が決定される。混合モデルは、目的関数を収束することが可能な、潜在変数の変分分布とコンポーネントパラメータに応じて決定される。正規化項は、混合モデルの複雑性を自動的に制御し、大規模なデータ処理に適用できるよう、目的関数に導入される。さらに、潜在変数とコンポーネントパラメータとは依存関係にあるため、潜在変数の変分分布とコンポーネントパラメータの決定は、より正確であり、混合モデルの決定もより正確である。

留意すべきは、上述の実施形態において提供された混合モデルの決定用の装置により、混合モデルを決定するとき、装置は、一例として、上記機能のモジュールの分割を用いて記述されているに過ぎない。実際に、機能は、要求される実施のための別の機能モジュールに割り当てられてもよい。具体的には、装置の内部構造は、上記機能の全部又は一部を実施するための異なる機能モジュールに分割される。加えて、混合モデル決定用の装置と、混合モデル決定用の方法は、同位置の技術的思想に関連する。なお、特定の実施例は、方法の実施形態において説明されるが、ここではこれ以上詳述しない。

本開示の上記の実施形態の連番は、説明を容易にするためのものに過ぎず、実施形態の優先度を示すものではない。

当業者は、前述の方法の全部又は一部のステップが、ハードウェア又はプログラムの指示に従うハードウェアによって実施されてよいことを理解すべきである。プログラムは非一時的なコンピュータ読み取り可能な記録媒体に格納されてよいし、少なくとも１つのプロセッサによって実行されてよい。記録媒体は、読み出し専用メモリ、磁気ディスク、又はコンパクトディスク読み出し専用メモリであってよい。

上記は、単に本開示の好ましい実施形態であって、本開示を限定するものではない。本開示の精神及び原理から逸脱すること無く行われる種々の修正、同等の置換、又は改良は本開示の保護範囲に含まれるべきである。

（付記１）
サンプルデータと潜在変数とコンポーネントパラメータとに応じて決定される対数尤度と正規化項と前記潜在変数の変分分布の対数とを取得し、前記対数尤度と前記正規化項と前記潜在変数の前記変分分布の対数とに応じて目的関数を決定すること、
サンプルセットから抽出されたサブサンプルデータに応じて、前記目的関数の収束を可能にする前記潜在変数の変分分布と前記コンポーネントパラメータとを決定し、前記目的関数の収束を可能にする前記潜在変数の前記変分分布と前記コンポーネントパラメータとに応じて混合モデルを決定すること、
を含む、
混合モデル決定用の方法。

（付記２）
前記サンプルデータと前記潜在変数と前記コンポーネントパラメータとに応じて決定される前記対数尤度は、

であって、ｌｏｇｐ（）は前記対数尤度を示し、ｐは同時確率密度関数を示し、ｘ^Ｎは前記サンプルデータを示し、Ｎはサンプルデータの数を示し、Ｚ^Ｎは前記潜在変数を示し、θはコンポーネントパラメータのセットを示し、前記コンポーネントパラメータは、α、φを含み、αはコンポーネントの混合比を示し、φはコンポーネント用のモデルパラメータを示し、各コンポーネントは自身を表現するモデルパラメータのサブセットを有する、
付記１に記載の方法。

（付記３）
前記サンプルデータと前記潜在変数と前記コンポーネントパラメータとに応じて決定される前記正規化項は、

は潜在変数の変分分布の近似値を示し、αはコンポーネントの混合比を示し、Ｄ_αはαの次元を示し、Ｄ_ｃはコンポーネントＣのサブモデルパラメータの次元を示し、Ｌ（ａ、ｂ）＝ｌｏｇｂ＋（ａ−ｂ）／ｂであって、ａは、

を示し、ｂは

を示す、
付記１に記載の方法。

（付記４）
前記サンプルデータと前記潜在変数と前記コンポーネントパラメータとに応じて決定される前記潜在変数の前記変分分布の対数はｌｏｇｑ（Ｚ^Ｎ）であり、ｑ（Ｚ^Ｎ）は前記潜在変数Ｚ^Ｎの変分分布を示し、Ｎはサンプルデータの数を示す、
付記１に記載の方法。

（付記５）
前記対数尤度と前記正規化項と前記潜在変数の前記変分分布の対数とに応じて目的関数を決定するステップは、前記対数尤度の期待値と前記正規化項の期待値と前記潜在変数の前記変分分布の対数の期待値とに応じて、前記目的関数を決定することを含む、
付記１から４のいずれか１つに記載の方法。

（付記６）
前記対数尤度の期待値と前記正規化項の期待値と前記潜在変数の前記変分分布の対数の期待値とに応じて決定された前記目的関数

は、

である、
付記５に記載の方法。

（付記７）
前記サンプルセットから抽出されたサブサンプルデータに応じて、前記目的関数の収束を可能にする前記潜在変数の変分分布と前記コンポーネントパラメータとを決定するステップは、
前記サンプルセットから抽出された各サブサンプルデータに応じて、前記潜在変数の変分分布とコンポーネントパラメータとを取得すること、
前記潜在変数の前記変分分布と前記コンポーネントパラメータとに応じて、前記目的関数が収束するかどうかを判別し、前記目的関数が収束しない場合、前記目的関数の収束を可能にする前記潜在変数の前記変分分布と前記コンポーネントパラメータとを取得するまで、前記サンプルセットから抽出された前記各サブサンプルデータに応じて、前記潜在変数の前記変分分布と前記コンポーネントパラメータを再取得すること、
を含む、
付記６に記載の方法。

（付記８）
前記サンプルセットから抽出された各サブサンプルデータに応じて、前記潜在変数の変分分布とコンポーネントパラメータを取得するステップは、
前記各サブサンプルデータに対応する前記潜在変分分布を、前記サンプルセットから抽出された前記各サブサンプルデータに応じて、取得し、各サブサンプルデータに対応する各コンポーネントパラメータの中間値を、前記各サブサンプルデータに対応する前記潜在変分分布に応じて、取得すること、
前記コンポーネントパラメータのひとつの平均値を、前記各サブサンプルデータに対応する前記コンポーネントパラメータの前記中間値に応じて、決定し、前記コンポーネントパラメータの前記平均値に応じて前記コンポーネントパラメータを取得すること、
を含む、
付記７に記載の方法。

（付記９）
前記各サブサンプルデータに対応する前記潜在変分分布は、次の数式

と

とは、次の数式

を使用することにより、前記各サブサンプルデータに対応する前記潜在変分分布に応じて取得され、
前記コンポーネントパラメータの前記平均値

と

とは、次の数式

と

とは、次の数式

を使用することにより、前記コンポーネントパラメータの前記平均値に応じて、取得され、
ｔは現在の取得を示し、ｔ−１は前回の取得又は初期設定を示し、ρは更新ステップを示し、

は、前記サブサンプルデータセット内の第Ｉ_ｍのサブサンプルデータを示し、α_ｃはｃ番目のコンポーネントパラメータαを示し、φ_ｃはｃ番目のコンポーネントの前記コンポーネントパラメータφを示す、
付記８に記載の方法。

（付記１０）
前記潜在変数の前記変分分布と前記コンポーネントパラメータとに応じて、前記目的関数が収束するかどうかを判別するステップは、
前記潜在変数の前記変分分布と前記コンポーネントパラメータとに応じて決定された前記目的関数の値と、前回取得された前記潜在変数の変分分布とコンポーネントパラメータとに応じて決定される前回取得された目的関数の値と、の差（距離）がしきい値より小さいかどうかを判別すること、
前記潜在変数の前記変分分布と前記コンポーネントパラメータとに応じて決定された前記目的関数の値と、前記前回取得された目的関数の値と、の差（距離）が前記しきい値より小さい場合、前記目的関数が収束していると判別すること、
を含む、
付記７から９のいずれか１つに記載の方法。

（付記１１）
サンプルデータと潜在変数とコンポーネントパラメータとに応じて決定される対数尤度と正規化項と前記潜在変数の変分分布の対数とを取得するように構成された取得モジュールと、
前記対数尤度と前記正規化項と前記潜在変数の前記変分分布の対数とに応じて目的関数を決定するように構成された第１決定モジュールと、
サンプルセットから抽出されたサブサンプルデータに応じて、前記目的関数の収束を可能にする前記潜在変数の変分分布と前記コンポーネントパラメータとを決定するように構成された第２決定モジュールと、
前記目的関数の収束を可能にする前記潜在変数の前記変分分布と前記コンポーネントパラメータとに応じて、混合モデルを決定するように構成された第３決定モジュールと、
を含む、
混合モデル決定用の装置。

（付記１２）
前記取得モジュールにより取得される前記対数尤度は、

であって、ｌｏｇｐ（）は前記対数尤度を示し、ｐは同時確率密度関数を示し、ｘ^Ｎは前記サンプルデータを示し、Ｎはサンプルデータの数を示し、Ｚ^Ｎは前記潜在変数を示し、θはコンポーネントパラメータのセットを示し、前記コンポーネントパラメータは、α、φを含み、αはコンポーネントの混合比を示し、φはコンポーネント用のモデルパラメータを示し、各コンポーネントは、自身を表現するモデルパラメータのサブセットを有する、
付記１１に記載の装置。

（付記１３）
前記取得モジュールにより取得される前記正規化項は、

は潜在変数の変分分布の近似値を示し、αはコンポーネントの混合比を示し、Ｄ_αはαの次元を示し、Ｄ_ｃはコンポーネントｃのサブモデルパラメータの次元を示し、Ｌ（ａ，ｂ）＝ｌоｇｂ＋（ａ−ｂ）／ｂであり、ａは

を示し、ｂは、

を示す、
付記１１に記載の装置。

（付記１４）
前記取得モジュールによって取得される前記潜在変数の前記変分分布の対数は、ｌｏｇｑ（Ｚ^Ｎ）であり、
ｑ（Ｚ^Ｎ）は前記潜在変数Ｚ^Ｎの変分分布を示し、Ｎはサンプルデータの数を示す、
付記１１に記載の装置。

（付記１５）
前記第１決定モジュールは、前記対数尤度の期待値と前記正規化項の期待値と前記潜在変数の前記変分分布の対数の期待値とに応じて、前記目的関数を決定するように構成されている、
付記１１から１４のいずれか１つに記載の装置。

（付記１６）
前記第１決定モジュールにより決定される前記目的関数

は、

である、
付記１５に記載の装置。

（付記１７）
前記第２決定モジュールは、
前記サンプルセットから抽出された各サブサンプルデータに応じて、前記潜在変数の変分分布とコンポーネントパラメータとを取得するように構成された取得ユニットと、
前記潜在変数の前記変分分布と前記コンポーネントパラメータとに応じて、前記目的関数が収束するかどうかを判別するように構成された判別ユニットと、
前記目的関数が収束しない場合、前記目的関数の収束を可能にする前記潜在変数の前記変分分布と前記コンポーネントパラメータを取得するまで、前記サンプルセットから抽出された前記各サンプルデータに応じて、前記潜在変数の前記変分分布と前記コンポーネントパラメータとを再取得するように構成された取得ユニットと、
を含む、
付記１６に記載の装置。

（付記１８）
前記取得ユニットは、
前記各サブサンプルデータに対応する変分分布を、前記サンプルセットから抽出された前記各サブサンプルデータに応じて、取得するように構成された第１取得サブユニットと、
各サブサンプルデータに対応する各コンポーネントパラメータの中間値を、前記各サブサンプルデータに対応する前記潜在変分分布に応じて、取得するように構成された第２取得サブユニットと、
前記コンポーネントパラメータのひとつの平均値を、前記各サブサンプルデータに対応する前記コンポーネントパラメータの前記中間値に応じて、取得するように構成された第１決定サブユニットと、
前記コンポーネントパラメータの前記平均値に応じて前記コンポーネントパラメータを取得するように構成された第３取得サブユニットと、
を含む、
付記１７に記載の装置。

（付記１９）
前記第１取得サブユニットは、各サブサンプルデータに対応する前記潜在変分分布を、次の数式

と

とを、次の数式

を使用することにより、前記各サブサンプルデータに対応する前記潜在変分分布に応じて取得するように構成されており、
前記第１決定サブユニットは、前記コンポーネントパラメータの前記平均値

と

とを、次の数式

を使用することにより、前記各サブサンプルデータに対応する前記コンポーネントパラメータの前記中間値に応じて決定するように構成されており、
前記第３取得サブユニットは、前記コンポーネントパラメータ

と

とを、次の数式

を使用することにより、前記コンポーネントパラメータの前記平均値に応じて取得するように構成されており、
ｔは現在の取得を示し、ｔ−１は前回の取得又は初期設定を示し、ρは更新ステップを示し、

は、前記サブサンプルデータセット中の第Ｉｍサブサンプルデータを示し、α_ｃはｃ番目のコンポーネントのコンポーネントパラメータαを示し、φ_ｃはｃ番目のコンポーネントのコンポーネントパラメータφを示す、
付記１８に記載の装置。

（付記２０）
前記判別ユニットは、
前記潜在変数の前記変分分布と前記コンポーネントパラメータとに応じて決定された前記目的関数の値と、前回取得された前記潜在変数の変分分布とコンポーネントパラメータとに応じて決定される前回取得された目的関数の値との差（距離）がしきい値より小さいかどうかを判別するように構成された比較サブユニットと、
前記潜在変数の前記変分分布と前記コンポーネントパラメータとに応じて決定された前記目的関数の値と、前記前回取得された目的関数の値との差（距離）が前記しきい値より小さい場合、前記目的関数が収束していると決定するように構成された、第２決定サブユニットと、
を含む、
付記１７から１９のいずれか１つに記載の装置。

Claims

サンプルデータと潜在変数とコンポーネントパラメータとに応じて決定される対数尤度と正規化項と前記潜在変数の変分分布関数の対数とを取得するように構成された取得モジュールと、
前記取得された前記対数尤度と前記正規化項と前記潜在変数の前記変分分布関数の対数とに応じて目的関数を決定するように構成された第１決定モジュールと、
サンプルセットから抽出されたサブサンプルデータに応じて、前記目的関数の収束を可能にする前記潜在変数の変分分布関数と前記コンポーネントパラメータとを決定するように構成された第２決定モジュールと、
前記目的関数の収束を可能にする前記潜在変数の前記変分分布関数と前記コンポーネントパラメータとに応じて、混合モデルを決定するように構成された第３決定モジュールと、
を含み、
前記第１決定モジュールは、前記対数尤度の期待値と前記正規化項の期待値と前記潜在変数の前記変分分布関数の対数の期待値とに応じて、前記目的関数を決定するように構成されている、
混合モデル決定用の装置。
前記取得モジュールにより取得される前記対数尤度は、

であって、ｌｏｇｐ（）は前記対数尤度を示し、ｐは同時確率密度関数を示し、ｘ^Ｎは前記サンプルデータを示し、Ｎはサンプルデータの数を示し、Ｚ^Ｎは前記潜在変数を示し、θはコンポーネントパラメータのセットを示し、前記コンポーネントパラメータは、α、φを含み、αはコンポーネントの混合比を示し、φはコンポーネント用のモデルパラメータを示し、各コンポーネントは、自身を表現するモデルパラメータのサブセットを有する、
請求項１に記載の装置。
前記取得モジュールにより取得される前記正規化項は、

であって、Ｎは前記サンプルデータの数を示し、Ｃはコンポーネントの個数を示し、ｚ_ｎｃは前記潜在変数を示し、

は潜在変数の変分分布関数の値を所定の近似手法により近似した近似値を示し、αはコンポーネントの混合比を示し、Ｄ_αはαの次元を示し、Ｄ_ｃはコンポーネントｃのサブモデルパラメータの次元を示し、Ｌ（ａ，ｂ）＝ｌоｇｂ＋（ａ−ｂ）／ｂであり、ａは

を示し、ｂは、

を示す、
請求項１に記載の装置。
前記取得モジュールによって取得される前記潜在変数の前記変分分布関数の対数は、ｌｏｇｑ（Ｚ^Ｎ）であり、
ｑ（Ｚ^Ｎ）は前記潜在変数Ｚ^Ｎの変分分布関数を示し、Ｎはサンプルデータの数を示す、
請求項１に記載の装置。
前記第１決定モジュールにより決定される前記目的関数

は、

である、
請求項１に記載の装置。
前記第２決定モジュールは、
前記サンプルセットから抽出された各サブサンプルデータに応じて、前記潜在変数の変分分布関数とコンポーネントパラメータとを取得するように構成された取得ユニットと、
前記潜在変数の前記変分分布関数と前記コンポーネントパラメータとに応じて、前記目的関数が収束するかどうかを判別するように構成された判別ユニットと、
前記目的関数が収束しない場合、前記目的関数の収束を可能にする前記潜在変数の前記変分分布関数と前記コンポーネントパラメータを取得するまで、前記サンプルセットから抽出された前記各サンプルデータに応じて、前記潜在変数の前記変分分布関数と前記コンポーネントパラメータとを再取得するように構成された取得ユニットと、
を含む、
請求項５に記載の装置。
前記取得ユニットは、
前記各サブサンプルデータに対応する変分分布関数を、前記サンプルセットから抽出された前記各サブサンプルデータに応じて、取得するように構成された第１取得サブユニットと、
各サブサンプルデータに対応する各コンポーネントパラメータの中央値を、前記各サブサンプルデータに対応する前記潜在変数の変分分布関数に応じて、取得するように構成された第２取得サブユニットと、
前記コンポーネントパラメータのひとつの平均値を、前記各サブサンプルデータに対応する前記コンポーネントパラメータの前記中央値に応じて、取得するように構成された第１決定サブユニットと、
前記コンポーネントパラメータの前記平均値に応じて前記コンポーネントパラメータを取得するように構成された第３取得サブユニットと、
を含む、
請求項６に記載の装置。
前記第１取得サブユニットは、各サブサンプルデータに対応する前記潜在変数の変分分布関数を、次の数式

を使用することにより、前記サンプルセットから抽出された前記各サブサンプルデータに応じて取得するように構成されており、
前記第２取得サブユニットは、前記各サブサンプルデータに対応する前記コンポーネントパラメータの前記中央値

と

とを、次の数式

を使用することにより、前記各サブサンプルデータに対応する前記潜在変数の変分分布関数に応じて取得するように構成されており、
前記第１決定サブユニットは、前記コンポーネントパラメータの前記平均値

と

とを、次の数式

を使用することにより、前記各サブサンプルデータに対応する前記コンポーネントパラメータの前記中央値に応じて決定するように構成されており、
前記第３取得サブユニットは、前記コンポーネントパラメータ

と

とを、次の数式

を使用することにより、前記コンポーネントパラメータの前記平均値に応じて取得するように構成されており、
ｔは現在の取得を示し、ｔ−１は前回の取得又は初期設定を示し、ρは更新ステップを示し、

はｃ番目のコンポーネント内の第Ｉｍサブサンプルデータに対応する前記潜在変数の変分分布関数を示し、Ｓはサブサンプルデータセットを示し、

は、前記サブサンプルデータセット中の第Ｉｍサブサンプルデータを示し、α_ｃはｃ番目のコンポーネントのコンポーネントパラメータαを示し、φ_ｃはｃ番目のコンポーネントのコンポーネントパラメータφを示す、
請求項７に記載の装置。
混合モデル決定用の装置が、サンプルデータと潜在変数とコンポーネントパラメータとに応じて決定される対数尤度と正規化項と前記潜在変数の変分分布関数の対数とを取得する取得ステップ、
前記装置が、前記取得された前記対数尤度と前記正規化項と前記潜在変数の前記変分分布関数の対数とに応じて目的関数を決定する第１決定ステップ、
前記装置が、サンプルセットから抽出されたサブサンプルデータに応じて、前記目的関数の収束を可能にする前記潜在変数の変分分布関数と前記コンポーネントパラメータとを決定する第２決定ステップ、
前記装置が、前記目的関数の収束を可能にする前記潜在変数の前記変分分布関数と前記コンポーネントパラメータとに応じて混合モデルを決定する第３決定ステップ、
を含み、
前記第１決定ステップでは、前記対数尤度の期待値と前記正規化項の期待値と前記潜在変数の前記変分分布関数の対数の期待値とに応じて、前記目的関数を決定する、
混合モデル決定用の方法。
コンピュータに、
サンプルデータと潜在変数とコンポーネントパラメータとに応じて決定される対数尤度と正規化項と前記潜在変数の変分分布関数の対数とを取得する取得手順、
前記取得された前記対数尤度と前記正規化項と前記潜在変数の前記変分分布関数の対数とに応じて目的関数を決定する第１決定手順、
サンプルセットから抽出されたサブサンプルデータに応じて、前記目的関数の収束を可能にする前記潜在変数の変分分布関数と前記コンポーネントパラメータとを決定する第２決定手順、
前記目的関数の収束を可能にする前記潜在変数の前記変分分布関数と前記コンポーネントパラメータとに応じて混合モデルを決定する第３決定手順、を実行させ、
前記第１決定手順では、前記対数尤度の期待値と前記正規化項の期待値と前記潜在変数の前記変分分布関数の対数の期待値とに応じて、前記目的関数を決定する、
混合モデル決定用のプログラム。