JP6210928B2 - 確率モデル生成装置、方法、及びプログラム - Google Patents

確率モデル生成装置、方法、及びプログラム Download PDF

Info

Publication number
JP6210928B2
JP6210928B2 JP2014088159A JP2014088159A JP6210928B2 JP 6210928 B2 JP6210928 B2 JP 6210928B2 JP 2014088159 A JP2014088159 A JP 2014088159A JP 2014088159 A JP2014088159 A JP 2014088159A JP 6210928 B2 JP6210928 B2 JP 6210928B2
Authority
JP
Japan
Prior art keywords
model
node
value
probability
latent variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014088159A
Other languages
English (en)
Other versions
JP2015207197A (ja
Inventor
正和 石畠
正和 石畠
具治 岩田
具治 岩田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014088159A priority Critical patent/JP6210928B2/ja
Publication of JP2015207197A publication Critical patent/JP2015207197A/ja
Application granted granted Critical
Publication of JP6210928B2 publication Critical patent/JP6210928B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、確率モデル生成装置、方法、及びプログラムに係り、特に、階層構造を有する観測情報の潜在構造を抽出するための確率モデルを生成する確率モデル生成装置、方法、及びプログラムに関する。
大量のデータが与えられたとき、これらを分析する方法として、しばし潜在変数モデルが利用される。潜在変数モデルは観測データを表現する観測変数とは別に、データの持つ潜在的な構造を表現する潜在変数を含むモデルである。潜在変数モデルを用いてデータの潜在構造を抽出することはデータを分析するために非常に重要である。例えば文書データが大量に与えられたとき、これらをいくつかの類似した文書グループに分けることはデータの特徴を掴むために有用である。このタスクはクラスタリングと呼ばれ、潜在変数は各文書が所属するグループを表現する。また各文書を特徴付けるため、特徴的な文の構成パターンを潜在構造として取り出すことも可能である。
潜在変数モデルによる潜在構造の抽出は、モデルの持つパラメータを与えられたデータに合うようにフィッティング(学習)することで達成される。得られる潜在構造は用意したモデルに強く依存するが、与えられたデータを解析するために適したモデルを構築することは容易ではない。なぜならどのような潜在変数を用意し、それらの間にどのような依存関係を仮定するかは自明ではない。またモデルを設計しても、それを効率的に学習できなければ、データの分析は行えない。そのため、モデルの設計はデータに関するドメイン知識とモデル学習に関する専門知識の双方を必要とする困難な作業といえる。
このモデルの設計作業を自動化するため、データからのモデルの自動生成法が提案されている(例えば、非特許文献1)。
Roger Grosse and RR Salakhutdinov. "Exploiting compositionality to explore a large space of model structures." In UAI, 2012.
しかしながら、上記非特許文献1などの既存の方法は、データの持つ階層情報を利用できていない。例えば、文書データは、章、節、文、単語のように複数の異なる粒度のデータの集合である。また、購買データは、複数のユーザの購買履歴の集合であり、ユーザの購買履歴は複数の購買イベントの系列、購買イベントは商品の集合、各商品は値段や量などの特徴の集合で表現される。これ以外にも音声、動画、ライフログなどのデータも階層情報を持つ。階層情報はデータの重要な性質であり、これを利用することでよりデータを解析するのに適したモデルが生成できると期待される。
本発明は、上記の事情を鑑みてなされたもので、観測情報が有する階層構造を考慮して観測情報の潜在構造を抽出するための確率モデルを生成することができる確率モデル生成装置、方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明に係る確率モデル生成装置は、階層構造を有する観測情報と前記観測情報の階層構造を表現する順序木とを入力として、前記入力された順序木の各節点に対応する、観測変数及び潜在変数を決定するためのモデルパラメータと、各階層について、前記階層の節点に対応する前記潜在変数の、親節点及び兄節点のそれぞれに対応する潜在変数との依存関係を調整するための構造パラメータと、を含む確率モデルを、前記構造パラメータの初期値を用いて、予め定められた方法により複数生成して、初期モデル候補集合とする初期モデル生成部と、前記生成された初期モデル候補集合又は前回生成されたモデル候補集合に含まれる確率モデルの各々について、前記確率モデルが、前記入力された観測情報と合致する度合いを示すモデルスコアを算出して、スコア集合を生成するモデルスコア計算部と、前記生成されたスコア集合に基づいて、前記生成された初期モデル候補集合又は前回生成されたモデル候補集合から、前記モデルスコアが上位w個の確率モデルを抽出し、前記抽出された上位w個の確率モデルの各々に対して、前記確率モデルの前記構造パラメータの何れか1つの階層の依存関係を変化させた確率モデルを生成して、モデル候補集合を生成する確率モデル候補生成部と、前記モデルスコアに関して予め定められた反復終了条件を満たすまで、前記確率モデル候補生成部による前記モデル候補集合の生成、及び前記モデルスコア計算部による前記スコア集合の生成を繰り返し、繰り返しを終了したときに、前記モデルスコアが最も高い確率モデルを出力する反復判定部と、を含んで構成されている。
本発明に係る確率モデル生成方法は、初期モデル生成部が、階層構造を有する観測情報と前記観測情報の階層構造を表現する順序木とを入力として、前記入力された順序木の各節点に対応する、観測変数及び潜在変数を決定するためのモデルパラメータと、各階層について、前記階層の節点に対応する前記潜在変数の、親節点及び兄節点のそれぞれに対応する潜在変数との依存関係を調整するための構造パラメータと、を含む確率モデルを、前記構造パラメータの初期値を用いて、予め定められた方法により複数生成して、初期モデル候補集合とし、モデルスコア計算部が、前記生成された初期モデル候補集合又は前回生成されたモデル候補集合に含まれる確率モデルの各々について、前記確率モデルが、前記入力された観測情報と合致する度合いを示すモデルスコアを算出して、スコア集合を生成し、確率モデル候補生成部が、前記生成されたスコア集合に基づいて、前記生成された初期モデル候補集合又は前回生成されたモデル候補集合から、前記モデルスコアが上位w個の確率モデルを抽出し、前記抽出された上位w個の確率モデルの各々に対して、前記確率モデルの前記構造パラメータの何れか1つの階層の依存関係を変化させた確率モデルを生成して、モデル候補集合を生成し、反復判定部が、前記モデルスコアに関して予め定められた反復終了条件を満たすまで、前記確率モデル候補生成部による前記モデル候補集合の生成、及び前記モデルスコア計算部による前記スコア集合の生成を繰り返し、繰り返しを終了したときに、前記モデルスコアが最も高い確率モデルを出力する。
本発明に係るプログラムは、上記の確率モデル生成装置の各部としてコンピュータを機能させるためのプログラムである。
以上説明したように、本発明の確率モデル生成装置、方法、及びプログラムによれば、観測情報の階層構造を表現する順序木の各節点に対応する、観測変数及び潜在変数を決定するためのモデルパラメータと、各階層について、親節点及び兄節点のそれぞれに対応する潜在変数との依存関係を調整するための構造パラメータと、を含む確率モデルの各々について、モデルスコアを算出してスコア集合を生成し、スコア集合に基づいて、確率モデルのモデル候補集合を生成することを繰り返すことにより、観測情報が有する階層構造を考慮して観測情報の潜在構造を抽出するための確率モデルを生成することができる、という効果が得られる。
本発明の実施の形態に係る確率モデル生成装置の構成を示す概略図である。 構造パラメータを説明するための図である。 本発明の実施の形態に係る確率モデル生成装置のモデル候補生成部の構成を示す概略図である。 本発明の実施の形態に係る確率モデル生成装置のモデルスコア計算部の構成を示す概略図である。 モデルスコアを計算するアルゴリズムを示す図である。 本発明の実施の形態に係る確率モデル生成装置における確率モデル生成処理ルーチンの内容を示すフローチャートである。 本発明の実施の形態に係る確率モデル生成装置におけるモデルスコア計算処理ルーチンの内容を示すフローチャートである。 本発明の実施の形態に係る確率モデル生成装置におけるモデル候補生成処理ルーチンの内容を示すフローチャートである。 実験のデータセットを示す図である。 実験結果を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<概要>
まず、本発明の実施の形態の概要について説明する。
本発明の実施の形態では、階層情報を有する観測情報からのモデルの自動生成を実現する。これにより本来専門知識を必要とするモデルの設計を簡易化し、データの解析をより容易にする。本発明の実施の形態の特徴として階層情報を利用することが挙げられる。階層情報を利用することは以下の(1)〜(3)の利点を持つ。
(1)モデルの生成および潜在構造の抽出に利用できる情報が増加し、よりデータに適したモデルの生成、解析が可能になる。
(2)モデル中の潜在変数とデータの階層情報を結びつけることができるため、モデルやモデルより得られた潜在構造を解釈しやすい。
(3)階層情報として解析者が期待する構造を埋め込むことで、解析用途に適したモデルを生成できる。
しかし、階層情報を導入することで,生成されるモデルが複雑化し、それらを利用する際に効率的に学習ができなくなるという懸念がある。そこで本発明の実施の形態では、効率的な学習法を伴うモデルの自動生成を実現する。
<システム構成>
次に、階層構造を有する観測情報を解析して、観測情報の潜在構造を抽出するための確率モデルを生成する確率モデル生成装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。
図1に示すように、本発明の実施の形態に係る確率モデル生成装置は、CPUと、RAMと、後述する確率モデル生成処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
図1に示すように、確率モデル生成装置100は、入力部1、記憶部2、演算部3、及び出力部4を備えている。演算部3は、初期モデル生成部31、モデルスコア計算部32、反復判定部33、及びモデル候補生成部34を備えている。
入力部1は、階層構造を有する観測情報の入力を受け付ける。出力部4は、観測情報の潜在構造を抽出するための確率モデルを出力する。
演算部3は、まず、入力データとして観測情報と階層情報を読み込む。
次に、演算部3は、以下の手順を、反復終了条件を満たすまで繰り返す。まず、モデル候補生成部34において、入力情報と現在時点でのモデル候補集合およびスコア集合を元に新たな確率モデルの候補集合を生成する。次に、生成されたモデル候補集合を入力とし、モデルスコア計算部32において、各モデル候補がどれだけ入力された観測情報に合っているかを示すモデルスコアを計算する。反復判定部33は、反復終了条件として、モデルスコアが改善されたか否かを判定し、モデルスコアが改善されれば、モデル候補生成部34に戻り、新たなモデル候補を生成する。モデルスコアの改善がなくなれば、最もモデルスコアの高いモデル候補を最終モデルとして出力部4により出力する。このモデルスコアの計算はデータにモデルをフィットさせることで計算される。つまりモデルスコアを効率的に計算するためには、モデルの学習を効率的に行う必要がある。
既存の確率モデルの自動生成装置も同様の構造を持つ場合があるが、本発明の実施の形態では、入力として、観測情報の持つ階層構造を受け取り、これを活用し確率モデルを生成する点が異なる。以下に具体的に階層情報がどのように利用されるかを述べる。
入力部1で受け付ける入力は、観測列である観測情報x={x,...,x}と階層構造を表現した順序木Tとする。観測変数xは順序木T中の節点nに対応付けられているため、順序木Tの構造が観測情報xの持つ階層構造を表す。ここでは説明のため、順序木Tを3つ組(N;par;sib)で定義する。N={0,...,N}はT中の節点集合であり、写像par:N→Nとsib:N→NはそれぞれT中の親子関係および順序関係を表す。つまりpar(n)はnの親であり、sib(n)はnの兄である。DとDnをそれぞれTの深さ、節点nの深さとする。またNd(1≦d≦D)をd=dなる節点nの集合とする。以後説明のため、x(n∈d)は離散値1,...,Vを取るとする。
出力部4の出力は、確率モデルMである。確率モデルは確率変数間の依存関係を定めたものであり、本実施の形態で扱うモデルは観測変数xとは別に、潜在変数z=(z n=1を持つとする。つまり、ある具体的なモデルMはxとz間の依存関係を定めたものである。ここでは説明のため、モデルMは順序木T、構造パラメータA,モデルパラメータα=(αd=1 ,β(βd=1 によって定義されるとする。順序木T中の各節点n∈N(1≦d≦D)は離散潜在変数z∈{1,...K}を持ち、各観測変数xは対応する潜在変数zにのみ依存し、zはその親節点の潜在変数zpar(n)と兄節点の潜在変数zsib(n)に依存する。以後、簡単のためl=par(n)、m=sib(n)とする。ただし、この親節点及び兄節点の潜在変数との間の依存関係は構造パラメータA≡(A d=1により調整可能であるとする。Aの各要素Aを仮説変数と呼び、図2に仮説変数Aが表す依存関係を示す。I−detはzが値nを決定的にとることを意味し、P−detはzが親の値zを決定的に取ることを意味する。N−depはzが他の潜在変数と独立である事を意味する。P−dep,S−dep,B−depはそれぞれ、zが親z,兄zそしてその両方に依存することを意味する。なお節点nが親節点や兄節点を持たないとき、これをl=0、m=0と表す。また、z=0とする。この構造パラメータAを調整することで、様々な潜在変数モデルを表現できる。例えば、クラスタリングに利用される混合モデル、文書データの解析に広く利用されている潜在ディリクレ配分(LDA)モデル、系列データの解析に利用される隠れマルコフモデル、そしてそれらを組み合わせたモデルが表現できる。
モデルパラメータα≡(αd、kKd k=1とβ≡(βd,vVd v=1をDirichlet分布のパラメータとし、θd,i,jとφd,kはそれぞれカテゴリカル分布のパラメータとする。ここでθd,i,jはz=iかつz=jのときにz(n∈N)の値を決定するためのカテゴリカル分布のパラメータであり、φd,kはz=kのときにxの値を決定するためのカテゴリカル分布のパラメータである。そしてαとβはそれぞれθd,i,jとφd,kを生成するためのディリクレ分布のパラメータとする。このとき潜在変数z=(z n=1と観測変数x=(x n=1の生成過程は、以下の1〜2で表わされる。
1. For each depth d=1,...,D
(a) Draw topic distributions θd,i,j〜Dir(α
(b) Draw symbol distributions φd,k〜Dir(β
2. For each depth d=1,...,D, for each node n∈N
(a) Choose a topic z by
case A
when I−det : z:=n
when P−det : z:=z
when N−dep : z〜Cat(θd,0,0
when P−dep : z〜Cat(θd,zl,0
when S−dep : z〜Cat(θd,0,zm
when B−dep : z〜Cat(θd,zl,zm
(b) Draw a symbol x〜Cat(φd,zn
初期モデル生成部31は、入力部1により入力された、観測情報の階層構造を表現する順序木Tに基づいて、入力された順序木の各節点に対応する、観測変数及び潜在変数を決定するためのモデルパラメータα、βと、各階層について、階層の節点に対応する潜在変数の、親節点及び兄節点のそれぞれに対応する潜在変数との依存関係を調整するための構造パラメータAと、順序木Tとの4つ組(T,A,α,β)で表現される確率モデルMを、構造パラメータAの初期値を用いて、予め定められた方法により複数生成して、初期モデル候補集合とする。例えば、初期のモデル候補の各々における構造パラメータAの初期値をランダムに決定してもよいし、既存のよく知られたモデルを表現した構造パラメータAを初期値として与えてもよい。
モデル候補生成部34は、図3に示すように、モデル候補読込部341及び新モデル候補計算部342を備えている。モデル候補生成部34の入力は、記憶部2に記憶されている現在のモデル候補集合Cと、モデル候補集合Cに対するスコア集合Sとであり、出力は新たなモデル候補集合C’である。
モデル候補読込部341は、記憶部2に記憶されているモデル候補集合Cと、モデル候補集合Cに対するスコア集合Sとを読み込む。
新モデル候補計算部342は、モデル候補読込部341によって読み込んだモデル候補集合C及びスコア集合Cに基づいて、モデル候補集合Cより、スコア集合S内でモデルスコアが上位w個の確率モデルを抽出する。新モデル候補計算部342は、w個の各確率モデルに対して、隣接モデルを計算する。新モデル候補計算部342は、計算されたすべての隣接モデルの集合を新たなモデル候補集合C’として、記憶部2に格納する。ここで、確率モデルMの隣接モデルとは、確率モデルM内の構造パラメータAの何れか1つの階層の依存関係を表す要素を変化させたものである。本実施の形態では、確率モデルMが4つ組(T,A,α,β)で表現されるため、隣接モデルは構造パラメータAの要素を丁度1箇所変更させたものである。
モデルスコア計算部32は、図4に示すように、モデル候補読込部321、学習部322、及び計算部323を備えている。モデルスコア計算部32の入力は、初期モデル候補集合、又は記憶部2に記憶されているモデル候補集合Cであり、出力は、確率モデルMが、入力された観測情報と合致する度合いを示すモデルスコアのスコア集合Sである。
モデル候補読込部341は、初期モデル候補集合、又は記憶部2に記憶されているモデル候補集合Cを読み込む。
以下に、モデル候補集合C中の各モデルMに対してモデルスコアを計算する方法について説明する。
モデルスコアは、モデルMが、入力された観測情報xにどれだけ合っているかを表すものであり、代表例として対数周辺尤度L[M]≡p(x|M)などが挙げられる。モデルスコアはモデルを比較することができればどのようなものを選んでも良いが、本実施の形態では対数周辺尤度L[M]の下限値である変分自由エネルギーF[M]を利用する。なお、モデルパラメータαとβは、学習部322において観測情報xに合うように学習される。Jensen’s inequalityを利用することで、以下の対数尤度L[M]の下限値を得る。
ここでqはq(z,θ,φ)=q(z)q(φ)q(φ)を満たす近似分布であり、H[q]はそのエントロピーである。Euler−Lagrange equationより、以下のqに関する更新式を得る。
この更新式を繰り返し適用することでF[q,M]を極大化することができる。更にモデルパラメータαとβは不動点反復法により推定できる。極大化された値をF[M]と書き、変分自由エネルギーと呼ぶ。
次にF[M]を効率的に計算する方法を述べる。q(θ)とq(φ)に対して以下を仮定する。
ここでad,i,j=(ad,i,j,kKd k=1とbd,k=(bd,k,vVd v=1は近似分布qのパラメータであり、更新式は以下で与えられる。
ここでq(z)は以下である。
ここでΨ(x)はディガンマ関数である。q(z)=p(z|x,θ,φ)が成り立つため、(7)式、(8)式中の期待値は以下のように計算できる。
つまり近似分布qのパラメータa,bは、(14)式、(15)式の期待値計算と、(7)式、(8)式の更新式の計算とを繰り返すことで推定できる。実際に期待値を計算するにはpn,i,j,kを計算する必要がある。確率pn,i,j,kは、rn,i,j,k≡p(z=i,z=j,z=k,x|θ,φ)を計算することで、以下のように計算できる。
最後にrn,i,j,kの計算法を述べる。概略を述べると、rn,i,j,kを計算する際に、順序木T中の全節点Nを今注目しているnを中心にその上にある集合、下にある集合、前にある集合、後ろにある集合の4つに分け、各集合毎の確率を計算・統合することで、効率よくrn,i,j,kが計算できる。
以後簡単のため、θとφを省略し、具体的な計算法を述べる。順序木Tにおける節点nの子孫の節点の集合をDec(n)とし、Sib(n)をnの兄節点の集合、Sib(n)をnの弟節点の集合とする。このとき以下の4種の集合を導入する。
これらの集合を利用してN=O(p)∪F(s)∪B(n)と書ける。ある集合C⊆Nに対してx≡(xn∈Cかつz≡(zn∈Cと定める。すると計算したい値rn,i,j,kは以下のように分解できる。
上記を計算するため、以下の4種類の確率を導入する。
これらの確率は互いを用いて以下のような動的計画法で計算できる。
ここでcはnの長子であり、tはnの弟である。また、φd,k,xn、θd,i,j,kは、上記(12)、(13)式に従って計算される。上記の確率を用いれば、rn,i,j,kは以下のように計算できる。
まとめると、確率モデルMについてのモデルスコアF[M]は、図5に示すアルゴリズムにより計算される。
本実施の形態では、学習部322によって、モデル候補読込部341により読み込んだ、初期モデル候補集合、又は記憶部2に記憶されているモデル候補集合Cの確率モデルMの各々について、以下に説明するように、モデルパラメータα、β及び近似分布のパラメータa、bを学習する。
まず、学習部322は、確率モデルMの順序木Tの各節点nについて、順序木の頂点の節点から順番に、潜在変数の値k毎に、上記(28)式に従って、当該節点nの潜在変数znの値がkであるときの、当該節点nの子孫の節点の集合I(n)の観測変数xI(n)の確率In[k]を計算すると共に、潜在変数の値k、親節点の潜在変数の値i、及び兄節点の潜在変数の値jの組み合わせ毎に、上記(33)式に従って、当該節点nの潜在変数znの値、当該節点nの親節点lの潜在変数zlの値、及び兄節点mの潜在変数zmの値が、当該組み合わせであるときの節点nの弟の節点の集合に含まれる各節点の子孫の節点の和集合B(n)の観測変数xB(n)の確率Bn[i,j,k]を計算する。
また、学習部322は、確率モデルMの順序木Tの各節点nについて、順序木の葉の節点から順番に、潜在変数の値k、及び親節点の潜在変数の値iの組み合わせ毎に、上記(31)式に従って、当該節点nの確率In[k]に基づいて、節点nの潜在変数znの値、及び親節点lの潜在変数zlの値が当該組み合わせであるときの節点nの兄節点の集合に含まれる各節点の子孫の節点の和集合F(n)の観測変数xF(n)の確率Fn[i,k]を計算すると共に、潜在変数の値k、親節点の潜在変数の値i、及び兄節点の潜在変数の値jの組み合わせ毎に、上記(30)式に従って、節点nの弟節点tの確率Bt[i,j,k]に基づいて、節点nの潜在変数znの値、節点nの親節点lの潜在変数zlの値、及び兄節点mの潜在変数zmの値が、当該組み合わせであるときの、節点nの子孫の節点を除いた節点の集合O(n)の観測変数xO(n)の確率On[i,j,k]を計算する。
また、学習部322は、確率モデルMの順序木Tの各節点nについて、潜在変数の値k、親節点の潜在変数の値i、及び兄節点の潜在変数の値jの組み合わせ毎に、上記(34)式に従って、節点nの親節点pの確率On[i,j,k]、節点nの兄節点sの確率Fn[i,k]、及び節点nの確率Bn[i,j,k]に基づいて、当該組み合わせに対するrn,i,j,kを算出する。
また、学習部322は、確率モデルMの順序木Tの各節点nについて、潜在変数の値k、潜在変数の値k、親節点の潜在変数の値i、及び兄節点の潜在変数の値jの組み合わせ毎に、上記(17)式、(18)式に従って、算出された各rn,i,j,kに基づいて、節点nの潜在変数の値、親節点lの潜在変数zlの値、及び兄節点mの潜在変数zmの値が当該組み合わせとなる確率pn,i,j,kを算出する。
また、学習部322は、確率モデルMの順序木Tの各階層dについて、上記(14)式に従って、潜在変数の値k、親節点の潜在変数の値i、及び兄節点の潜在変数の値jの組み合わせ毎に、潜在変数zの集合の近似分布q(z)における、当該組み合わせの出現頻度の期待値Eq(z)[cd,i,j,k(z)]を算出する。学習部322は、確率モデルMの順序木Tの各階層dについて、潜在変数の値k、及び観測変数の値vの組み合わせ毎に、上記(15)式に従って、潜在変数zの集合の近似分布q(z)における、当該組み合わせの出現頻度の期待値Eq(z)[cd,k,v(z)]を算出する。
また、学習部322は、確率モデルMの順序木Tの各階層dについて、上記(7)式に従って、潜在変数の値k、親節点の潜在変数の値i、及び兄節点の潜在変数の値jの組み合わせ毎に、当該組み合わせに対する期待値Eq(z)[cd,i,j,k(z)]及びモデルパラメータαd,kに基づいて、当該組み合わせに対する近似分布のパラメータad,i,j,kを更新する。
また、学習部322は、確率モデルMの順序木Tの各階層dについて、上記(8)式に従って、潜在変数の値k、及び観測変数の値vの組み合わせ毎に、当該組み合わせに対する期待値Eq(z)[cd,k,v(z)]及びモデルパラメータβd,vに基づいて、当該組み合わせに対する近似分布のパラメータbd,k,vを更新する。
また、学習部322は、確率モデルMの順序木Tの各階層dについて、更新された近似分布の各パラメータad,i,j,k、bd,k,vに基づいて、潜在変数の値k、親節点の潜在変数の値i、及び兄節点の潜在変数の値jの組み合わせ毎のモデルパラメータαd,k、並びに潜在変数の値k、及び観測変数の値vの組み合わせ毎のβd,vを更新する。
学習部322は、確率モデルMについて、近似分布の各パラメータad,i,j,k、bd,k,vが収束するまで、上記の処理を繰り返す。
計算部323は、モデル候補読込部341により読み込んだ、初期モデル候補集合、又は記憶部2に記憶されているモデル候補集合Cの確率モデルMの各々について、上記(1)式に従って、学習部322によって最終的に更新された近似分布の各パラメータad,i,j,k、bd,k,v、及び各モデルパラメータαd,k、βd,vに基づいて、変分自由エネルギーであるモデルスコアを計算し、スコア集合を生成して、記憶部2に格納する。
反復判定部33は、モデルスコアに関して予め定められた反復終了条件を満たすまで、モデル候補生成部34によるモデル候補集合の生成、及びモデルスコア計算部32によるスコア集合の生成を繰り返し、繰り返しを終了したときに、モデルスコアが最も高い確率モデルを、出力部4により出力する。本実施の形態では、反復終了条件として、モデルスコアの改善がなくなったことを用いる。
<確率モデル生成装置の作用>
次に、本実施の形態に係る確率モデル生成装置100の作用について説明する。階層構造を有する観測情報と、観測情報の階層構造を表す順序木とが、確率モデル生成装置100に入力されると、図6に示す確率モデル生成処理ルーチンが実行される。
まず、ステップS100において、入力された観測情報及び順序木を読み込む。ステップS102において、上記ステップS100で読み込んだ順序木に基づいて、複数の確率モデルを生成し、初期モデル候補集合とする。
次のステップS104では、上記ステップS102で生成された初期モデル候補集合、又は後述するステップS108で前回生成されたモデル候補集合に対して、モデルスコアを計算して、スコア集合を生成する。
ステップS106では、上記ステップS104で生成されたスコア集合に基づいて、モデルスコアに関する反復終了条件を満たすか否かを判定する。反復終了条件を満たさない場合には、ステップS108へ移行する。
ステップS108では、上記ステップS102で生成された初期モデル候補集合、又はステップS108で前回生成されたモデル候補集合と、上記ステップ104で生成されたスコア集合に基づいて、新たなモデル候補集合を生成し、上記ステップS104へ戻る。
上記ステップS106において、反復終了条件を満たすと判定された場合には、ステップS110へ移行し、上記ステップS108で生成されたモデル候補集合のうち、モデルスコアが最も高い確率モデルを、出力部4により出力して、確率モデル生成処理ルーチンを終了する。
上記ステップS104は、図7に示すモデルスコア計算処理ルーチンにより実現される。
ステップS120において、上記ステップS102で生成された初期モデル候補集合、又はステップS108で前回生成されたモデル候補集合を読み込む。
次のステップS122では、上記ステップ120で読み込んだ初期モデル候補集合又はモデル候補集合に含まれる確率モデルの各々について、モデルパラメータα、β、及び近似分布のパラメータa、bを学習する。
そして、ステップS124において、上記ステップ120で読み込んだ初期モデル候補集合又はモデル候補集合に含まれる確率モデルの各々について、上記ステップS122で学習された当該確率モデルのモデルパラメータα、β、及び近似分布のパラメータa、bに基づいて、モデルスコアを計算し、計算されたモデルスコアの集合を、スコア集合として、記憶部2に格納して、モデルスコア計算処理ルーチンを終了する。
上記ステップS108は、図8に示すモデル候補生成処理ルーチンにより実現される。
ステップS130において、上記ステップS102で生成された初期モデル候補集合、又はステップS108で前回生成されたモデル候補集合と、上記ステップS104で生成されたスコア集合とを読み込む。
そして、ステップS132において、初期モデル候補集合又はモデル候補集合から、モデルスコアが上位w個の確率モデルを抽出する。
ステップS134では、上記ステップS132で抽出されたw個の確率モデルの各々について、隣接モデルを計算する。
そして、ステップS136において、上記ステップS134で計算された全ての隣接モデルを、新たなモデル候補集合として、記憶部2に格納して、モデル候補生成処理ルーチンを終了する。
<実験>
本発明の実施の形態で説明した手法を評価するために、12のデータセットを用いて実験を行った。各データセットは、図9に示される12個のモデルから生成されたものであり、各データセットはL文書、各文書はL文、各文はL単語から成る。つまりデータセットは3層の階層情報を持つLの単語からなる。上記図9においてMMはMultinomial mixture、LDAはLatent dirichlet allocation、HMMはhiden Markov modelの略であり、d、s、wはそれぞれ文書レベル、文レベル、単語レベルを意味する。各データセットは順序木で与えられる。順序木中で、各単語は自身が所属する文を親として持ち、各文は所属する文書を親として持つ。本発明の実施の形態ではこれを入力とし、確率モデルの自動生成を行う。本実験では、初期モデル候補MとしてA=(P−det,P−det,P−det)なるモデルを与えた。モデルスコア計算部32においてモデル候補集合の確率モデルMのモデルスコアを計算し、モデル候補生成部34において得られたモデルスコアを元に新たなモデル候補集合を生成した。これをモデルスコアが改善されなくなるまで反復した。図10に本実験により生成されたAを示す。なおデータサイズLとモデル候補生成部34の探索幅wをそれぞれL=10,30,50、w=1,3と変化させた。上記図10中の矩形で囲まれた部分は、正解モデルと異なる仮説が生成された事を意味する。上記図10よりLとwを増加させるとより正しい確率モデルを生成され、最終的には全データセットに対して正しい確率モデルを生成できたことが分かる。
以上説明したように、本発明の実施の形態に係る確率モデル生成装置によれば、観測情報の階層構造を表現する順序木の各節点に対応する、観測変数及び潜在変数を決定するためのモデルパラメータα、βと、各階層について、親節点及び兄節点のそれぞれに対応する潜在変数との依存関係を調整するための構造パラメータAと、を含む確率モデルMの各々について、モデルスコアを算出してスコア集合を生成し、スコア集合に基づいて、確率モデルのモデル候補集合を生成することを繰り返すことにより、観測情報が有する階層構造を考慮して観測情報の潜在構造を抽出するための確率モデルを生成することができる。
また、解析対象の観測情報が持つ階層情報を有効利用した潜在変数モデルの自動生成が可能となる。階層構造を利用することにより、確率モデルに含まれる潜在変数がどの階層に対応するかが分かるため、モデルや得られた潜在構造を解釈しやすい。また生成されたモデルを用いて潜在構造を抽出するにはモデルを学習する必要があるが、この学習を、モデルスコア計算部に内蔵される手法により効率的に行うことができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述の確率モデル生成装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
1 入力部
2 記憶部
3 演算部
4 出力部
31 初期モデル生成部
32 モデルスコア計算部
33 反復判定部
34 モデル候補生成部
100 確率モデル生成装置
321 モデル候補読込部
322 学習部
323 計算部
341 モデル候補読込部
342 新モデル候補計算部

Claims (4)

  1. 階層構造を有する観測情報と前記観測情報の階層構造を表現する順序木とを入力として、前記入力された順序木の各節点に対応する、観測変数及び潜在変数を決定するためのモデルパラメータと、各階層について、前記階層の節点に対応する前記潜在変数の、親節点及び兄節点のそれぞれに対応する潜在変数との依存関係を調整するための構造パラメータと、を含む確率モデルを、前記構造パラメータの初期値を用いて、予め定められた方法により複数生成して、初期モデル候補集合とする初期モデル生成部と、
    前記生成された初期モデル候補集合又は前回生成されたモデル候補集合に含まれる確率モデルの各々について、前記確率モデルが、前記入力された観測情報と合致する度合いを示すモデルスコアを算出して、スコア集合を生成するモデルスコア計算部と、
    前記生成されたスコア集合に基づいて、前記生成された初期モデル候補集合又は前回生成されたモデル候補集合から、前記モデルスコアが上位w個の確率モデルを抽出し、前記抽出された上位w個の確率モデルの各々に対して、前記確率モデルの前記構造パラメータの何れか1つの階層の依存関係を変化させた確率モデルを生成して、モデル候補集合を生成する確率モデル候補生成部と、
    前記モデルスコアに関して予め定められた反復終了条件を満たすまで、前記確率モデル候補生成部による前記モデル候補集合の生成、及び前記モデルスコア計算部による前記スコア集合の生成を繰り返し、繰り返しを終了したときに、前記モデルスコアが最も高い確率モデルを出力する反復判定部と、
    を含む確率モデル生成装置。
  2. 前記モデルスコアは、対数周辺尤度の下限値である変分自由エネルギーであって、
    前記モデルスコア計算部は、
    各節点nについて、前記順序木の頂点の節点から順番に、前記潜在変数の値k毎に、前記節点nの潜在変数znの値がkであるときの、前記節点nの子孫の節点の集合I(n)の観測変数xI(n)の確率In[k]を計算すると共に、前記潜在変数の値k、親節点の潜在変数の値i、及び兄節点の潜在変数の値jの組み合わせ毎に、前記節点nの潜在変数znの値、前記節点nの親節点lの潜在変数zlの値、及び兄節点mの潜在変数zmの値が、前記組み合わせであるときの、前記節点nの弟節点の集合に含まれる各節点の子孫の節点の和集合B(n)の観測変数xB(n)の確率Bn[i,j,k]を計算し、
    各節点nについて、前記順序木の葉の節点から順番に、前記潜在変数の値k、及び親節点の潜在変数の値iの組み合わせ毎に、前記節点nの確率In[k]に基づいて、節点nの潜在変数znの値、及び親節点lの潜在変数zlの値が前記組み合わせであるときの、前記節点nの兄節点の集合に含まれる各節点の子孫の節点の和集合F(n)の観測変数xF(n)の確率Fn[i,k]を計算すると共に、前記潜在変数の値k、親節点の潜在変数の値i、及び兄節点の潜在変数の値jの組み合わせ毎に、前記節点nの弟節点tの確率Bt[i,j,k]に基づいて、前記節点nの潜在変数znの値、前記節点nの親節点lの潜在変数zlの値、及び兄節点mの潜在変数zmの値が、前記組み合わせであるときの、前記節点nの子孫の節点を除いた節点の集合O(n)の観測変数xO(n)の確率On[i,j,k]を計算し、
    各節点nについて、前記潜在変数の値k、親節点の潜在変数の値i、及び兄節点の潜在変数の値jの組み合わせ毎に、前記節点nの親節点pの確率On[i,j,k]、前記節点nの兄節点sの確率Fn[i,k]、及び前記節点nの確率Bn[i,j,k]に基づいて、前記節点nの潜在変数の値、親節点lの潜在変数zlの値、及び兄節点mの潜在変数zmの値が前記組み合わせとなる確率pn,i,j,kを算出し、
    各階層dについて、前記潜在変数の値k、親節点の潜在変数の値i、及び兄節点の潜在変数の値jの組み合わせ毎に、潜在変数zの集合の近似分布q(z)における、前記組み合わせの出現頻度の期待値Eq(z)[cd,i,j,k(z)]を算出し、
    各階層dについて、潜在変数の値k、及び観測変数の値vの組み合わせ毎に、潜在変数zの集合の近似分布q(z)における、前記組み合わせの出現頻度の期待値Eq(z)[cd,k,v(z)]を算出し、
    各階層dについて、潜在変数の値k、親節点の潜在変数の値i、及び兄節点の潜在変数の値jの組み合わせ毎に、前記組み合わせに対する期待値Eq(z)[cd,i,j,k(z)]及びモデルパラメータαd,kに基づいて、前記組み合わせに対する近似分布のパラメータad,i,j,kを更新し、
    各階層dについて、潜在変数の値k、及び観測変数の値vの組み合わせ毎に、前記組み合わせに対する期待値Eq(z)[cd,k,v(z)]及びモデルパラメータβd,vに基づいて、前記組み合わせに対する近似分布のパラメータbd,k,vを更新し、
    前記更新された近似分布のパラメータad,i,j,k、bd,k,vに基づいて、前記モデルパラメータαd,k、βd,vを更新することを、前記近似分布のパラメータad,i,j,k、bd,k,vが収束するまで繰り返す学習部と、
    前記学習部によって最終的に更新された近似分布のパラメータad,i,j,k、bd,k,vに基づいて、前記モデルパラメータαd,k、βd,vに基づいて、変分自由エネルギーであるモデルスコアを計算する計算部と、
    を含む請求項1記載の確率モデル生成装置。
  3. 初期モデル生成部が、階層構造を有する観測情報と前記観測情報の階層構造を表現する順序木とを入力として、前記入力された順序木の各節点に対応する、観測変数及び潜在変数を決定するためのモデルパラメータと、各階層について、前記階層の節点に対応する前記潜在変数の、親節点及び兄節点のそれぞれに対応する潜在変数との依存関係を調整するための構造パラメータと、を含む確率モデルを、前記構造パラメータの初期値を用いて、予め定められた方法により複数生成して、初期モデル候補集合とし、
    モデルスコア計算部が、前記生成された初期モデル候補集合又は前回生成されたモデル候補集合に含まれる確率モデルの各々について、前記確率モデルが、前記入力された観測情報と合致する度合いを示すモデルスコアを算出して、スコア集合を生成し、
    確率モデル候補生成部が、前記生成されたスコア集合に基づいて、前記生成された初期モデル候補集合又は前回生成されたモデル候補集合から、前記モデルスコアが上位w個の確率モデルを抽出し、前記抽出された上位w個の確率モデルの各々に対して、前記確率モデルの前記構造パラメータの何れか1つの階層の依存関係を変化させた確率モデルを生成して、モデル候補集合を生成し、
    反復判定部が、前記モデルスコアに関して予め定められた反復終了条件を満たすまで、前記確率モデル候補生成部による前記モデル候補集合の生成、及び前記モデルスコア計算部による前記スコア集合の生成を繰り返し、繰り返しを終了したときに、前記モデルスコアが最も高い確率モデルを出力する
    確率モデル生成方法。
  4. 請求項1又は2に記載の確率モデル生成装置の各部としてコンピュータを機能させるためのプログラム。
JP2014088159A 2014-04-22 2014-04-22 確率モデル生成装置、方法、及びプログラム Active JP6210928B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014088159A JP6210928B2 (ja) 2014-04-22 2014-04-22 確率モデル生成装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014088159A JP6210928B2 (ja) 2014-04-22 2014-04-22 確率モデル生成装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2015207197A JP2015207197A (ja) 2015-11-19
JP6210928B2 true JP6210928B2 (ja) 2017-10-11

Family

ID=54603941

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014088159A Active JP6210928B2 (ja) 2014-04-22 2014-04-22 確率モデル生成装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6210928B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11954645B2 (en) * 2020-03-26 2024-04-09 International Business Machines Corporation Collaboration participant inclusion
JP7473389B2 (ja) 2020-05-14 2024-04-23 株式会社日立製作所 学習モデル生成システム、及び学習モデル生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5802597B2 (ja) * 2012-03-30 2015-10-28 エヌ・ティ・ティ・コムウェア株式会社 分類装置、分類システム、分類方法及び分類プログラム

Also Published As

Publication number Publication date
JP2015207197A (ja) 2015-11-19

Similar Documents

Publication Publication Date Title
CN111241294B (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN108681557B (zh) 基于自扩充表示和相似双向约束的短文本主题发现方法及系统
CN109635273A (zh) 文本关键词提取方法、装置、设备及存储介质
CN112380319B (zh) 一种模型训练的方法及相关装置
CN105512277B (zh) 一种面向图书市场书名的短文本聚类方法
Xu et al. Exploiting shared information for multi-intent natural language sentence classification.
JP6172317B2 (ja) 混合モデル選択の方法及び装置
Corander et al. Learning chordal Markov networks by constraint satisfaction
CN108664512B (zh) 文本对象分类方法及装置
Janz et al. Actively learning what makes a discrete sequence valid
CN112559734A (zh) 简报生成方法、装置、电子设备及计算机可读存储介质
CN117609421A (zh) 基于大语言模型的电力专业知识智能问答系统构建方法
Hargreaves et al. Incremental beam manipulation for natural language generation
JP6210928B2 (ja) 確率モデル生成装置、方法、及びプログラム
US10510013B2 (en) Mixed proposal based model training system
Shen et al. Dependency parse reranking with rich subtree features
CN114004233B (zh) 一种基于半训练和句子选择的远程监督命名实体识别方法
JP2016197289A (ja) パラメタ学習装置、類似度算出装置、方法、及びプログラム
JP6320966B2 (ja) 言語モデル生成装置、方法及びプログラム
Steinhardt et al. Filtering with abstract particles
CN107391674B (zh) 一种新类挖掘方法及装置
Yang et al. Multiple target machine learning prediction of capacity curves of reinforced concrete shear walls
JP6343582B2 (ja) 言語モデル生成装置、方法及びプログラム
JP6230501B2 (ja) 縮約素性生成装置、情報処理装置、方法、及びプログラム
Steinhardt et al. Reified context models

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160721

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170825

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170912

R150 Certificate of patent or registration of utility model

Ref document number: 6210928

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150