JP6398991B2 - モデル推定装置、方法およびプログラム - Google Patents

モデル推定装置、方法およびプログラム Download PDF

Info

Publication number
JP6398991B2
JP6398991B2 JP2015549102A JP2015549102A JP6398991B2 JP 6398991 B2 JP6398991 B2 JP 6398991B2 JP 2015549102 A JP2015549102 A JP 2015549102A JP 2015549102 A JP2015549102 A JP 2015549102A JP 6398991 B2 JP6398991 B2 JP 6398991B2
Authority
JP
Japan
Prior art keywords
hidden
reference value
model estimation
determinant
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015549102A
Other languages
English (en)
Other versions
JP2016520220A (ja
JP2016520220A5 (ja
Inventor
遼平 藤巻
遼平 藤巻
浩平 林
浩平 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2016520220A publication Critical patent/JP2016520220A/ja
Publication of JP2016520220A5 publication Critical patent/JP2016520220A5/ja
Application granted granted Critical
Publication of JP6398991B2 publication Critical patent/JP6398991B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Operations Research (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Educational Administration (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Description

本発明は、多変量データの隠れ属性モデルを推定するデル推定装置、デル推定方法およびデル推定プログラムに関し、特に、モデル事後確率を近似し、その下界を最大化する事によって多変量データの隠れ属性モデルを推定するデル推定装置、デル推定方法およびデル推定プログラムに関する。
自動車から取得されるセンサデータ、健康診断の検査値、電力需要履歴などに代表されるデータには、背後に、観測されない状態(例えば、自動車の故障状態、生活習慣、次の日の気象条件など)が存在する。このようなデータを分析するためには、観測されない変数の存在を仮定した隠れ変数モデルが重要な役割を果たす。隠れ変数は、上記のような観測に重大な影響を与える因子を表現する。隠れ変数モデルを利用したデータ分析は、産業上重要な多くの分野に適用される。例えば、自動車から取得されるセンサデータの分析によって、自動車の故障原因を解析して素早い修理を実現することが考えられる。また、健康診断の検査値の分析によって、疾患のリスクの推定および疾患の予防を実現することが考えられる。また、電力需要履歴の分析によって、電力の需要を予測して過不足に備えられるようにすることが考えられる。
隠れ変数モデルの最も代表的な例として、混合分布モデルが挙げられる。混合分布モデルは、観測データが複数の性質をもったグループから独立に観測されていると仮定し、そのグループ構造を隠れ変数として表現するモデルである。混合分布モデルでは、各グループが独立であるという仮定に基づく。しかし、現実のデータは複数の要因が絡まりあって観測されることが多い。そこで、混合分布モデルを拡張した、隠れ属性モデルが提案されている(例えば、非特許文献1参照)。このモデルは、各観測データの背後に複数の因子(属性)の存在を仮定し、その組み合わせによって観測が得られるという仮定に基づく。
隠れ属性モデルを学習するためには、隠れ状態数、観測確率分布の種類、及び分布パラメータを決定する必要がある。特に、隠れ状態数や観測確率の種類を決定する問題は、一般的に「モデル選択問題」や「システム同定問題」と呼ばれ、信頼性のあるモデルを構築するために極めて重要な問題である。そのための技術が種々提案されている。
例えば、非特許文献1では、隠れ状態を決定する方法として、変分ベイズ法によって、変分自由エネルギーを最大化する方法が提案されている。以下、この方法を第1の公知技術と記す。
また、例えば、非特許文献1では、隠れ状態を決定する方法として、階層Dirichlet過程事前分布を用いたノンパラメトリックベイズ法が提案されている。以下、この方法を第2の公知技術と記す。
混合モデルでは、隠れ変数が独立であり、隠れ変数に対してパラメータが独立である。また、隠れマルコフモデルでは、隠れ変数が時間依存性を持ち、隠れ変数に対してパラメータが独立である。そして、非特許文献2、非特許文献3では、混合モデルおよび隠れマルコフモデルに適用される技術として、因子化漸近ベイズ推論(Factorized Asymptotic Bayesian Inference)という技術が提案されている。この技術は、変分ベイズ法やノンパラメトリックベイズ法に対して、速度・精度の面で優位性を持つ。
また、完全周辺尤度関数を近似し、その下界を最大化することが、非特許文献2、非特許文献3に記載されている。
Thomas L. Griffiths and Zoubin Ghahramani, "Infinite Latent Feature Models and the Indian Buffet Process", Technical Report 2005-001, Gatsby Computational Neuroscience Unit, 2005. Ryohei Fujimaki, Satoshi Morinaga: "Factorized Asymptotic Bayesian Inference for Mixture Modeling". Proceedings of the the fifteenth international conference on Artificial Intelligence and Statistics (AISTATS), 2012 Ryohei Fujimaki, Kohei Hayashi: "Factorized Asymptotic Bayesian Hidden Markov Model". Proceedings of the 25th international conference on machine learning (ICML), 2012
第1の公知技術は、周辺化尤度関数の下界を最大化する際に、変分分布上における隠れ状態と分布パラメータの独立性を仮定する。そのため、第1の公知技術では、周辺化尤度の近似精度が悪くなるという問題がある。
第2の公知技術は、モデルが複雑になるため計算量が非常に大きくなるという問題や、入力パラメータによって結果が大きく変わるという問題がある。
また、非特許文献2、非特許文献3等に記載された技術では、本質的に隠れ変数に関するパラメータの独立性が重要である。そのため、隠れ属性モデルのように隠れ変数に対してパラメータが依存関係をもつモデルに直接、因子化漸近ベイズ推論を適用することができなかった。
本発明は、因子化漸近ベイズ推論に基づいて、隠れ属性モデルに関するモデル選択問題を解決する隠れ属性モデル推定装置、隠れ属性モデル推定方法および隠れ属性モデル推定プログラムを提供することを目的とする。
本発明によるモデル推定装置は、行列として表される観測データに関するヘッセ行列の行列式の近似値を計算する計算部と、その行列式の近似値を利用して隠れ変数の変分確率を計算する変分確率計算部と、変分分布に基づいて隠れ状態を削除する隠れ状態削除部と、周辺化対数尤度関数を完全変数に対する推定量に関してラプラス近似した近似量の下界として定義される基準値に対してパラメータを最適化するとともに、基準値を計算するパラメータ最適化部と、基準値が収束したか否かを判定する収束判定部とを備えることを特徴とする。
また、本発明によるモデル推定方法は、コンピュータが、行列として表される観測データに関するヘッセ行列の行列式の近似値を計算し、その行列式の近似値を利用して隠れ変数の変分確率を計算し、変分分布に基づいて隠れ状態を削除し、周辺化対数尤度関数を完全変数に対する推定量に関してラプラス近似した近似量の下界として定義される基準値に対してパラメータを最適化し、ヘッセ行列の行列式の近似値を計算し、基準値を計算し、基準値が収束したか否かを判定することを特徴とする。
また、本発明によるモデル推定プログラムを記録したコンピュータ読み取り可能な記録媒体は、コンピュータに、行列として表される観測データに関するヘッセ行列の行列式の近似値を計算する計算処理、その行列式の近似値を利用して隠れ変数の変分確率を計算する変分確率計算処理、変分分布に基づいて隠れ状態を削除する隠れ状態削除処理、周辺化対数尤度関数を完全変数に対する推定量に関してラプラス近似した近似量の下界として定義される基準値に対してパラメータを最適化するパラメータ最適化処理、基準値を計算する基準値計算処理、および、基準値が収束したか否かを判定する収束判定処理を実行させるためのモデル推定プログラムを記憶する。
本発明によれば、因子化漸近ベイズ推論に基づいて、隠れ属性モデルに関するモデル選択問題を解決することができる。
図1は、本発明の隠れ属性モデル推定装置の構成例を示すブロック図である。 図2は、本発明の処理経過の例を示すフローチャートである。 図3は、本発明の概要を示すブロック図である。
本発明の貢献を明確化するために、まず隠れ属性モデルについての説明と、因子化漸近ベイズ推論がなぜ直接、隠れ属性モデルに適用できないかの問題点を、具体的に説明する。
以下の説明では、観測データをXとする。ここで、Xは、サンプル数をNとし、次元数をDとしたときに、N行D列の行列として表される。そして、行列の第n行第d列の要素を下付けの添え字ndで表す。例えば、Xの第n行第d列はXndである。
隠れ属性モデルでは、Xを2つの行列(AとZとする。)の積として表現されることを仮定する。すなわち、加法ノイズ項をEとすれば、X = ZA + Eである。ここで、A(サイズはKかけるD)は連続値をとる重みパラメータである。Zはバイナリ値をとる隠れ変数(サイズはNかけるK)である。Kは隠れ状態数を表す。なお、以下の説明では、Eの分布が正規分布に従うと仮定して説明をする。ただし、指数分布族などより広い分布クラスにおいても同様の議論が成立する。
XとZに関する同時確率分布を考えると、同時分布は、以下の式1に示すように分解される。
p(X, Z|j) = p(X | Z, jx) p(Z|jz) ・・・ (式1)
ただし、jは同時分布のパラメータであり、jxとjzは各分布のパラメータである。加法ノイズ項Eが独立な正規分布に従うと仮定した場合、jxはA及び共分散行列
Figure 0006398991

であり、p(X | Z, jx)は、平均がZAで共分散行列
Figure 0006398991

の正規分布となる。Iは単位行列である。ここで、Xndは、平均が
Figure 0006398991

で分散
Figure 0006398991

の正規分布にしたがう。ここで重要な点は、パラメータAが隠れ変数のインデックスkに対して相互に依存している点である。
対比のために、混合分布の例を説明する。混合分布は、Xnの分布を
Figure 0006398991

と表す。ただし、a_kは混合比である。pkはk番目の隠れ変数に対応する分布であり、jkはそのパラメータである。隠れ属性モデルとは異なり、混合分布では隠れ変数のインデックスkに対して、パラメータjkが相互に独立である事がわかる。
このパラメータの依存性の問題を、非特許文献2を例に説明する。非特許文献2では、観測変数と隠れ変数の同時分布をラプラス近似し、対数同時尤度関数を近似する。非特許文献2に記載されている(5)式がその近似式である。ここで重要な点は、隠れ変数が与えられたときに、対数尤度関数の二回微分行列(以下、単にヘッセ行列と呼ぶ。)が、ブロック対角性をもつ点である。換言すれば、重要な点は、各隠れ変数に対応するパラメータが、同一の隠れ変数に対しては依存性を持つが、異なる隠れ変数に対しては独立である場合には、ヘッセ行列の非対角ブロックが全て0になるという点である。この性質によって、pk(Xn|jk)をkに対して別々にラプラス近似し、各因子化情報量基準(非特許文献2に記載されている(10)式)が導出され、その下界を最大化するアルゴリズムである因子化漸近ベイズ推論アルゴリズムが導出される(非特許文献2のSection 4参照)。しかし、上述のように、隠れ属性モデルでは、隠れ変数に対するパラメータが依存しているため、ヘッセ行列がブロック対角性を持たない。そのため、因子化漸近ベイズ推論の手順を隠れ属性モデルに直接適用することができない点に問題がある。本発明は、公知技術とは異なるヘッセ行列(の行列式)を近似する処理手順を導入することによってこの問題を解決している点で、前述の先行技術と本質的に相違する。
以下、本発明の実施形態を図面を参照して説明する。
図1は、本発明の隠れ属性モデル推定装置の構成例を示すブロック図である。本発明の隠れ属性モデル推定装置100は、データ入力装置101と、隠れ状態数設定部102と、初期化処理部103と、隠れ変数変分確率計算処理部104と、情報量基準近似処理部105と、隠れ状態選択処理部106と、パラメータ最適化処理部107と、最適性判定処理部108と、モデル推定結果出力装置109とを備えている。隠れ属性モデル推定装置100には、入力データ111が入力される。隠れ属性モデル推定装置100は、入力データ111に対して隠れ属性モデル最適化し、モデル推定結果112として出力する。
データ入力装置101は、入力データ111を入力するための装置である。観測確率の種類や、隠れ状態数の候補値など、モデルの推定に必要なパラメータが入力データ111として同時にデータ入力装置101に入力される。
隠れ状態数設定部102は、モデルの隠れ状態数Kを、入力データ111として入力された最大値Kmaxに設定する。すなわち、隠れ状態数設定部102によって、K=Kmaxと設定される。
初期化処理部103は、推定のための初期化処理を実施する。なお、初期化は任意の方法によって実施することが可能である。例としては、各観測確率のパラメータjをランダムに設定する方法や、隠れ変数の変分確率をランダムに設定する方法が挙げられる。
隠れ変数変分確率計算処理部104は、隠れ変数の変分確率を計算する。ここで、パラメータjは初期化処理部103あるいはパラメータ最適化処理部107で算出されているため、隠れ変数変分確率計算処理部104は、その値を利用する。隠れ変数変分確率計算処理部104は、以下のように定義する最適化基準Aを最大化することによって変分確率を計算する。最適化基準Aとは、周辺化対数尤度関数を、完全変数に対する推定量(例えば最尤推定量や最大事後確率推定量)に関してラプラス近似した近似量の下界として定義される。
情報量基準近似処理部105では、隠れ変数変分確率計算処理部104やパラメータ最適か処理部107で必要な、ヘッセ行列の行列式の近似処理を行う。情報量基準近似処理部105の具体的な処理については以下に説明する。
隠れ変数変分確率計算処理部104と情報量基準近似処理部105の処理について、以下で具体的に説明する。
本発明では、ベイズ推論にしたがって、周辺化対数尤度を最大化することで、モデル及びパラメータを最適化する。ただし、周辺化対数尤度を直接最適化することは難しいため、まず周辺化対数尤度を、式2のように変形する。
Figure 0006398991
ただし、Mはモデルであり、q(Z)はZに関する変分分布である。また、max_qは、qに関する最大値であることを表す。ここで、同時周辺化尤度p(X, Z|M)は、パラメータに対する積分形式で、式3のように変形可能である。
Figure 0006398991
まず、混合分布モデルの同時分布
Figure 0006398991

を考える。ここで、
Figure 0006398991

である点に注意すべきである。log p(X, Z|j)に関するヘッセ行列は、jz、jk(k=1, ..., K)に関してブロック対角となる。そのため、log p(X, Z|j)をp(X, Z|j)の最尤推定量周りでテイラー展開して、3次以上の項を無視することによって、log p(X, Z|j)は、以下の式4に示すように近似される。
Figure 0006398991
この式は、非特許文献2に記載された(5)式に対応する。ここで、Fz及びFkは、p(Z|jz)及びpk(Xn|jk)のヘッセ行列をそれぞれN及び
Figure 0006398991

で割った行列であり、p(X, Z|j)のヘッセ行列のブロック対角項に対応する。式4の近似を(式3)に代入することで、log p(X, Z|M)の近似式として、以下に示す式5が得られる。
Figure 0006398991
この式は、非特許文献2に記載された(9)式に対応する。ただし、detは引数の行列式を表す。また、Dz及びDkは、jz及びjkの次元を表すものとする。ここで、Nの極限を考えると、
Figure 0006398991

log det(Fz)、log det(Fk)は相対的に小さくなるため、無視することが可能である。式5からこれらに関する項を無視して、式1へ代入すると、因子化情報量基準として、以下の式6が得られる。
Figure 0006398991
log p(X, Z|j’)はデータへのフィッティングを表し、
Figure 0006398991

はモデルの複雑性を表している。
非特許文献2で提案される因子化漸近ベイズ推論では、j’を任意のjに置き換え、
Figure 0006398991


Figure 0006398991

なる下界に置き換え、以下の式7のようにモデルを推定する。
Figure 0006398991
次に、上記の手順を隠れ属性モデルに適用した例を説明する。隠れ属性モデルに関する同時分布
Figure 0006398991

について、log p(X, Z|j)を最尤推定量周りでテイラー展開して3次以上の項を無視すると、以下の式8に示す近似式が得られる。
Figure 0006398991
ただし、
Figure 0006398991

であり、Fdは
Figure 0006398991

のjdに関するヘッセ行列である。
ここで、上記で説明した既存技術の処理手順に従うと、以下の式9が得られる。すなわち、式8を式3に代入し、
Figure 0006398991

log det(Fz)、log det(Fd)を相対的に小さいとして無視すると、p(X,Z|M)の近似として、以下の式9が得られる。
Figure 0006398991
なお、Dd=K+1は、jdの次元数である。また、情報量基準は、式10で表される。
Figure 0006398991
式6に対するモデル推定処理と式10のモデル推定処理とで本質的に異なるのは、式6の
Figure 0006398991

という項が、式10ではDd log Nになり、モデル複雑性が隠れ変数に依存しなくなっている点である。より具体的に説明する。非特許文献2で提案されている因子化漸近ベイズ推論では、モデルの複雑性が隠れ変数に依存していることによって、不要な隠れ状態の削除やモデルの同定性など、理論的に優れた性質を持つ。なお、不要な隠れ状態の削除については、非特許文献2の" Section 4.4 Shrinkage Mechanism"で説明されている。また、モデルの同定性については、非特許文献2の" Section 4.5 Identifiability"で説明されている。しかし、隠れ属性モデルに関して上述のように得られる式10では、そのような性質が失われてしまう。
そこで、本発明で提案する隠れ変数変分確率計算処理部104と情報量基準近似処理部105では、以下のような手順によって情報量基準を算出する。
非特許文献2による手順では、式9のlog det(Fd)を、漸近的に小さいとして、以下に示すように近似している。
Figure 0006398991
これに対し、情報量基準近似処理部105は、log det(Fd)を以下の式11のように近似する。
Figure 0006398991
式11を式9へ代入し、
Figure 0006398991

log det(Fz)を漸近的に小さいとして無視すると、情報量基準として式10に代えて、式12が得られる。
Figure 0006398991
式12は式6と同じ形式である。そして、式12によれば、モデルの複雑性が隠れ変数に依存していることによって、不要な隠れ状態の削除やモデルの同定性など、理論的に優れた性質を持つ基準となっている。重要な点は、隠れ属性モデルに対して、式12の基準を得るためには、情報量基準近似処理部105による処理(すなわち、式11の近似処理)が不可欠であり、これは公知技術にはない、本発明の特徴といえる。
隠れ状態選択処理部106は、隠れ状態のうち、小さな状態をモデルから除去する。具体的には、k番目の隠れ状態について、
Figure 0006398991

が、入力データ111として設定された閾値を下回った場合には、その状態をモデルから削除する。
パラメータ最適化処理部107は、隠れ変数の変分確率を固定した上で、最適化基準Aに対してjを最適化する。なお、最適化基準Aのjに関する項は、隠れ状態の変分分布によって重み付けされた対数同時尤度関数であり、任意の最適化アルゴリズムによって最適化することが可能である。例えば、上述の例における正規分布では、パラメータ最適化処理部107は、平均場近似法によって、パラメータを最適化することができる。また、パラメータ最適化処理部107は、最適化されたパラメータに対して最適化A基準を同時に計算する。この際に、パラメータ最適化処理部107は、上述の情報量基準近似処理部105の近似計算を利用する。すなわち、パラメータ最適化処理部107は、式11によるヘッセ行列の行列式の近似結果を利用する。
最適性判定処理部108は、最適化基準Aの収束を判定する。収束の判定は、最適化基準Aの絶対変化量や相対変化量などに閾値を設け、閾値を用いることで実現できる。
モデル推定結果出力装置109は、最適な隠れ状態数、観測確率のパラメータ、変分分布などをモデル推定結果出力結果112として出力する。
隠れ状態数設定部102、初期化処理部103、隠れ変数変分確率計算処理部104、情報量基準近似処理部105、隠れ状態選択処理部106、パラメータ最適化処理部107および最適性判定処理部108は、例えば、隠れ属性モデル推定プログラムに従って動作するコンピュータのCPUによって実現される。この場合、CPUが隠れ属性モデル推定プログラムを読み込み、そのプログラムに従って、隠れ状態数設定部102、初期化処理部103、隠れ変数変分確率計算処理部104、情報量基準近似処理部105、隠れ状態選択処理部106、パラメータ最適化処理部107および最適性判定処理部108として動作すればよい。隠れ属性モデル推定プログラムは、コンピュータが読み取り可能な記録媒体に記憶されていてもよい。また、上記の各要素102〜108がそれぞれ別々のハードウェアで実現されていてもよい。
図2は、本発明の処理経過の例を示すフローチャートである。データ入力装置101を介して入力データ111が入力される(ステップS100)。
次に、隠れ状態数設定部102は、隠れ状態数の初期値として、入力データ111として入力された隠れ状態数の最大値を設定する(ステップS101)。すなわち、隠れ状態数設定部102は、モデルの隠れ状態数Kを、入力された最大値Kmaxに設定する。
次に、初期化処理部103は、指定された隠れ状態数に対して、推定のためパラメータ(例えば、各観測確率のパラメータj)や隠れ変数変分確率の初期化処理を実施する(ステップS102)。
次に、情報量基準近似処理部105は、ヘッセ行列の行列式の近似処理を行う(ステップS103)。情報量基準近似処理部105は、式11の計算によりヘッセ行列の行列式の近似値を計算する。
次に、隠れ変数変分確率計算処理部104は、計算されたヘッセ行列の行列式の近似値を利用して、隠れ変数の変分確率を計算する(ステップS104)。
次に、隠れ状態選択処理部106は、前述の閾値判定により、不要な隠れ状態をモデルから除去する(ステップS105)。すなわち、隠れ状態選択処理部106は、k番目の隠れ状態について、
Figure 0006398991

が、入力データ111として設定された閾値を下回った場合には、その状態をモデルから削除する。
次に、パラメータ最適化処理部107は、最適化基準Aを最適とするパラメータを算出する(ステップS106)。なお、パラメータ最適化処理部107が最初にステップS106を実行する場合に用いる最適化基準Aは、例えば、初期化処理部103によってランダムに定められていてもよい。あるいは、初期化処理部103が隠れ変数の変分確率をランダムに設定し、1回目のステップS103〜S109aのループ処理(図2参照)では、ステップS106の処理を実行しなくてもよい。
次に、情報量基準近似処理部105は、ヘッセ行列の行列式の近似処理を行う(ステップS107)。情報量基準近似処理部105は、式11の計算によりヘッセ行列の行列式の近似値を計算する。
次に、パラメータ最適化処理部107は、ステップS106で最適化されたパラメータを利用し、最適化基準Aの値を算出する(ステップS108)。
次に、最適性判定処理部108は、最適化基準A が収束したか否かを判定する(ステップS109)。例えば、最適性判定処理部108は、直近のステップS103〜S109aのループ処理で得られた最適化基準Aと、その1つ前のステップS103〜S109aのループ処理で得られた最適化基準Aとの差を計算し、その差の絶対値が予め定められた閾値以下になっていれば、最適化基準Aが収束したと判定してよい。また、最適性判定処理部108は、その差の絶対値が閾値より大きければ、最適化基準Aが収束していないと判定してよい。
最適化基準Aが収束していないと判定した場合(ステップS109aのNo)、隠れ属性モデル推定装置100は、ステップS103以降の処理を繰り返す。最適化基準Aが収束したと判定した場合(ステップS109aのYes)、モデル推定結果出力装置109は、モデル推定結果を出力し、処理を完了する(ステップS110)。ステップS110では、モデル推定結果出力装置109は、最適化基準Aが収束したと判定された時点における隠れ状態数、およびその時点で得られているパラメータ、変分分布を出力する。
以下では、本発明で提案する隠れ属性モデル推定装置の応用例について、健康診断データの因子分析を例に説明する。本例では、Xとして、健康診断の被験者を行方向(サンプル)とし、血圧や血糖値、BMIなど、健康診断の検査項目の値を列方向(属性)とする行列を考える。各検査項目値の分布は、例えば年齢や性別のような観測が容易な因子だけではなく、生活習慣のような観測が難しい因子が複雑に絡まって構成される。また、因子の数を事前に決定することは難しい。そして、恣意的な分析を排除するために、因子の数をデータから自動的に決定できることが望ましい。
このようなデータに対して、本発明で提案する隠れ属性モデル推定装置を適用すると、各項目の多変量の依存性を考慮し、各サンプルに対する隠れ属性の変分分布を推定することが可能である。例えば、あるサンプルに対する因子を分析するために、そのサンプルの変分分布の期待値が0.5より大きい因子は「影響あり」とし、期待値が0.5より小さい因子は「影響なし」として、影響度の高い因子を分析することができる。さらに、本発明によれば、因子化漸近ベイズ推論の枠組みにしたがって、周辺化尤度最大化という意味で、隠れ属性の数を適切に決定することが可能である。例えば、主成分分析による因子の分析では、観測変数の最も特徴的な変数を因子として扱うが、本発明に従うと、観測されない因子をデータから自動的に見つけることができるという大きな効果がある。
次に、本発明の概要について説明する。図3は、本発明の概要を示すブロック図である。本発明の隠れ属性モデル推定装置100は、近似値計算部71と、変分確率計算部72と、隠れ状態削除部73と、パラメータ最適化部74と、収束判定部75とを備える。
近似値計算部71(例えば、情報量基準近似処理部105)は、行列として表される観測データに関するヘッセ行列の行列式の近似値を計算する(例えば、式11の近似計算を行う)。
変分確率計算部72(例えば、隠れ変数変分確率計算処理部104)は、その行列式の近似値を利用して隠れ変数の変分確率を計算する。
隠れ状態削除部73(例えば、隠れ状態選択処理部106)は、変分分布に基づいて隠れ状態を削除する。
パラメータ最適化部74(例えば、パラメータ最適化処理部107)は、周辺化対数尤度関数を完全変数に対する推定量に関してラプラス近似した近似量の下界として定義される基準値(例えば、最適化基準A)に対してパラメータを最適化するとともに、基準値を計算する。
収束判定部75(例えば、最適性判定処理部108)は、基準値が収束したか否かを判定する。
また、近似値計算部71がヘッセ行列の行列式の近似値を計算し、変分確率計算部72が隠れ変数の変分確率を計算し、隠れ状態削除部73が隠れ状態を削除し、パラメータ最適化部74がパラメータを最適化し、近似値計算部71がヘッセ行列の行列式の近似値を計算し、パラメータ最適化部74が基準値を計算し、収束判定部75が、基準値が収束したか否かを判定するループ処理を、収束判定部75が、基準値が収束したと判定するまで繰り返す構成であることが好ましい。
この出願は、2013年5月20日に出願された米国特許出願13/898118を基礎とする優先権を主張し、その開示の全てをここに取り込む。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
101 データ入力装置
102 隠れ状態数設定部
103 初期化処理部
104 隠れ変数変分確率計算処理部
105 情報量基準近似処理部
106 隠れ状態選択処理部
107 パラメータ最適化処理部
108 最適性判定処理部
109 モデル推定結果出力装置

Claims (9)

  1. 行列として表される観測データに関するヘッセ行列の行列式の近似値を計算する計算部と、
    前記行列式の近似値を利用して隠れ変数の変分確率を計算する変分確率計算部と、
    変分分布に基づいて隠れ状態を削除する隠れ状態削除部と、
    周辺化対数尤度関数を完全変数に対する推定量に関してラプラス近似した近似量の下界として定義される基準値に対してパラメータを最適化するとともに、基準値を計算するパラメータ最適化部と、
    前記基準値が収束したか否かを判定する収束判定部とを
    備えることを特徴とするモデル推定装置。
  2. 計算部がヘッセ行列の行列式の近似値を計算し、変分確率計算部が隠れ変数の変分確率を計算し、隠れ状態削除部が隠れ状態を削除し、パラメータ最適化部がパラメータを最適化し、計算部がヘッセ行列の行列式の近似値を計算し、パラメータ最適化部が基準値を計算し、収束判定部が、前記基準値が収束したか否かを判定するループ処理を、収束判定部が、前記基準値が収束したと判定するまで繰り返す
    請求項に記載のモデル推定装置。
  3. モデル推定装置は、隠れ属性モデル推定装置である請求項1または請求項2に記載のモデル推定装置。
  4. コンピュータが、
    行列として表される観測データに関するヘッセ行列の行列式の近似値を計算し、
    前記行列式の近似値を利用して隠れ変数の変分確率を計算し、
    変分分布に基づいて隠れ状態を削除し、
    周辺化対数尤度関数を完全変数に対する推定量に関してラプラス近似した近似量の下界として定義される基準値に対してパラメータを最適化し、
    ヘッセ行列の行列式の近似値を計算し、
    前記基準値を計算し、
    前記基準値が収束したか否かを判定する
    ことを特徴とするモデル推定方法。
  5. コンピュータが、
    ヘッセ行列の行列式の近似値を計算し、隠れ変数の変分確率を計算し、隠れ状態を削除し、パラメータを最適化し、ヘッセ行列の行列式の近似値を計算し、前記基準値を計算し、前記基準値が収束したか否かを判定するループ処理を、前記基準値が収束するまで繰り返す
    請求項に記載のモデル推定方法。
  6. モデル推定方法は、隠れ属性モデル推定方法である請求項4または請求項5に記載のモデル推定方法。
  7. コンピュータに、
    行列として表される観測データに関するヘッセ行列の行列式の近似値を計算する計算処理、
    前記行列式の近似値を利用して隠れ変数の変分確率を計算する変分確率計算処理、
    変分分布に基づいて隠れ状態を削除する隠れ状態削除処理、
    周辺化対数尤度関数を完全変数に対する推定量に関してラプラス近似した近似量の下界として定義される基準値に対してパラメータを最適化するパラメータ最適化処理、
    前記基準値を計算する基準値計算処理、および、
    前記基準値が収束したか否かを判定する収束判定処理
    を実行させるためのモデル推定プログラム。
  8. コンピュータに、
    計算処理、変分確率計算処理、隠れ状態削除処理、パラメータ最適化処理、計算処理、基準値計算処理、および収束判定処理のループ処理を、基準値が収束したと判定されるまで繰り返し実行させる
    請求項に記載のモデル推定プログラム。
  9. モデル推定プログラムは、隠れ属性モデル推定プログラムである請求項7または請求項8に記載のモデル推定プログラム。
JP2015549102A 2013-05-20 2014-04-21 モデル推定装置、方法およびプログラム Active JP6398991B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/898,118 US20140344183A1 (en) 2013-05-20 2013-05-20 Latent feature models estimation device, method, and program
US13/898,118 2013-05-20
PCT/JP2014/002219 WO2014188659A1 (en) 2013-05-20 2014-04-21 Latent feature models estimation device, method, and program

Publications (3)

Publication Number Publication Date
JP2016520220A JP2016520220A (ja) 2016-07-11
JP2016520220A5 JP2016520220A5 (ja) 2016-08-18
JP6398991B2 true JP6398991B2 (ja) 2018-10-03

Family

ID=51896584

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015549102A Active JP6398991B2 (ja) 2013-05-20 2014-04-21 モデル推定装置、方法およびプログラム

Country Status (4)

Country Link
US (1) US20140344183A1 (ja)
EP (1) EP3000058A4 (ja)
JP (1) JP6398991B2 (ja)
WO (1) WO2014188659A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9489632B2 (en) * 2013-10-29 2016-11-08 Nec Corporation Model estimation device, model estimation method, and information storage medium
US9355196B2 (en) * 2013-10-29 2016-05-31 Nec Corporation Model estimation device and model estimation method
US11281686B2 (en) 2018-06-04 2022-03-22 Nec Corporation Information processing apparatus, method, and program

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6671661B1 (en) * 1999-05-19 2003-12-30 Microsoft Corporation Bayesian principal component analysis
US7480640B1 (en) * 2003-12-16 2009-01-20 Quantum Leap Research, Inc. Automated method and system for generating models from data
US7499897B2 (en) * 2004-04-16 2009-03-03 Fortelligent, Inc. Predictive model variable management
WO2011108632A1 (ja) * 2010-03-03 2011-09-09 日本電気株式会社 モデル選択装置、モデル選択方法及びモデル選択プログラム
US9326698B2 (en) * 2011-02-18 2016-05-03 The Trustees Of The University Of Pennsylvania Method for automatic, unsupervised classification of high-frequency oscillations in physiological recordings

Also Published As

Publication number Publication date
JP2016520220A (ja) 2016-07-11
US20140344183A1 (en) 2014-11-20
WO2014188659A1 (en) 2014-11-27
EP3000058A4 (en) 2017-02-22
EP3000058A1 (en) 2016-03-30

Similar Documents

Publication Publication Date Title
US20220076150A1 (en) Method, apparatus and system for estimating causality among observed variables
Angelikopoulos et al. X-TMCMC: Adaptive kriging for Bayesian inverse modeling
Carley et al. Response surface methodology
US9043261B2 (en) Latent variable model estimation apparatus, and method
JP6398990B2 (ja) モデル推定装置、方法およびプログラム
US9852378B2 (en) Information processing apparatus and information processing method to estimate cause-effect relationship between variables
Del Castillo et al. Bayesian modeling and optimization of functional responses affected by noise factors
US9292801B2 (en) Sparse variable optimization device, sparse variable optimization method, and sparse variable optimization program
JP6398991B2 (ja) モデル推定装置、方法およびプログラム
US20070239415A2 (en) General graphical gaussian modeling method and apparatus therefore
CN112613617A (zh) 基于回归模型的不确定性估计方法和装置
Mesters et al. Generalized dynamic panel data models with random effects for cross-section and time
Koutsourelakis et al. Scalable Bayesian reduced-order models for simulating high-dimensional multiscale dynamical systems
Persing et al. Likelihood computation for hidden Markov models via generalized two-filter smoothing
WO2020218246A1 (ja) 最適化装置、最適化方法、及びプログラム
JP7331938B2 (ja) 学習装置、推定装置、学習方法及び学習プログラム
Zeileis et al. party with the mob: Model-Based Recursive Partitioning in R
Berk Data mining within a regression framework
Bogaerts et al. A fast inverse approach for the quantification of set-theoretical uncertainty
Li et al. A BYY scale-incremental EM algorithm for Gaussian mixture learning
Silva Generalized autoregressive neural network models
Lamine et al. The threshold EM algorithm for parameter learning in bayesian network with incomplete data
KR20110116563A (ko) 주성분 분석과 마르코프 연쇄 몬테카를로 기법을 결합한 퍼지 군집화 방법
Chen et al. Detecting change-points in epidemic models
Verschueren Regularized Buckley–James Method: A Comprehensive Review and Applications

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160617

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170303

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180529

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180724

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180807

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180820

R150 Certificate of patent or registration of utility model

Ref document number: 6398991

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150