JP5210224B2 - アノテーションデータ解析装置、アノテーションデータ解析プログラムおよびそのプログラムを記録した記録媒体 - Google Patents
アノテーションデータ解析装置、アノテーションデータ解析プログラムおよびそのプログラムを記録した記録媒体 Download PDFInfo
- Publication number
- JP5210224B2 JP5210224B2 JP2009083524A JP2009083524A JP5210224B2 JP 5210224 B2 JP5210224 B2 JP 5210224B2 JP 2009083524 A JP2009083524 A JP 2009083524A JP 2009083524 A JP2009083524 A JP 2009083524A JP 5210224 B2 JP5210224 B2 JP 5210224B2
- Authority
- JP
- Japan
- Prior art keywords
- annotation
- data
- topic
- unit
- relevance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
図1に示すアノテーションデータ解析装置1は、構成要素が離散値のベクトルとして表現されたデータと、データに付与されるアノテーションとの組みを示すアノテーションデータを確率モデルに基づいて解析する装置である。ここで、構成要素が離散値のベクトルとして表現されたデータとは、例えば、文書データ、画像データ、購買データなどである。例えば、文書データの場合、構成要素とは単語を指す。以下では、簡単のためデータを文書データとして説明する。
(入力アノテーションデータ51)
入力アノテーションデータ51は、学習データ集合Dとして与えられるものである。ここでは、入力データとして、D個の文書データの集合が与えられたとする。各文書データは、内容を表すための複数の単語を含んでいる。なお、文書の言語は任意である。d(d=1〜D)番目の文書(以下、文書dと呼ぶ)は、式(1a)〜(1d)、式(2a),(2b)、式(3a),(3b)で示すように、単語集合とアノテーション集合のペアで表現される。以下の数式中において、アルファベットの書体がイタリックの場合には変数を示し、ボールドの場合には集合を示す。なお、アルファベットの大文字と小文字は指し示す内容が異なる。
各文書データは、文書データ集合の中で分類される。この分類により、文書間の関係が理解されるように可視化する場合もある。なお、可視化する空間は2次元または3次元空間である。本実施形態では、文書データを、例えば、トピック毎に分類するものとする。トピックは、文書の内容を示すデータに埋め込まれるクラスやベクトルで表すことが可能である。トピックは、例えばジャンルを表し、文書データ集合を可視化する場合に、そのデータ構造を直感的に理解させることができる。ここでは、データに埋め込まれるトピックと、データに付与されるアノテーション(ラベル)とを区別することとする。例えば、トピックの種類が、政治トピック、経済トピック、法律トピック、文学トピック、科学トピック、芸術トピックであれば、トピック数は6である。また、ある文書A中の「国会」という単語は、“政治トピック”に属する。
対象とする文書データに含まれる単語が帰属するトピックの集合を式(4a)の集合Zで表す。
対象とする文書データに付与されたアノテーションが帰属するトピックの集合を式(5a)の集合Cで表す。
対象とする文書データに付与されたアノテーションと、その文書データの内容との関連性を式(6)の集合Rで表す。
パラメータ集合55の一例を図2に示す。詳細は、後記するが、パラメータ集合55は、推定されるパラメータ群と、集計されるパラメータ群に大別できる。
推定されるパラメータ群は、繰り返し制御部22における確率分布の計算のスムージングのために導入したハイパーパラメータα、β、γ、ηである。これらは推定する必要がある未知パラメータであり、パラメータ推定部34で推定される。
集計されるパラメータ群は、繰り返し制御部22における演算処理の結果として、前記したデータ帰属トピック集合52、アノテーション帰属トピック集合53、関連性集合54の各要素を割り当てた回数の集合(以下、割当回数集合という)を示す。割当回数集合A1,A2,A3は、文書毎、かつ、トピック毎に集計されたものである。また、割当回数集合A4は、アノテーション毎、かつ、トピック毎に集計されたものである。
(処理の全体の流れ)
図3は、図1に示したアノテーションデータ解析装置による処理の流れを示すフローチャートである。まず、アノテーションデータ解析装置1は、入力アノテーションデータ51(学習データ)を読み込む(ステップS1)。次に、アノテーションデータ解析装置1は、式(4a)に示すデータトピック集合Z、式(5a)に示すアノテーショントピック集合C、式(6a)に示す関連性集合Rをランダムに初期化する(ステップS2)。つまり、データトピック集合Z、アノテーショントピック集合C、関連性集合Rのそれぞれの初期状態は、集合の各要素がランダムな値を有した集合として設定される。
ステップS7において値の収束が判別される目的関数は、「データ帰属トピック集合52、アノテーション帰属トピック集合53、関連性集合54が、どのくらい入力アノテーションデータ51を尤もらしく説明できているかを表す尤度」を示す関数である。つまり、「目的関数が収束するまで繰り返す」とは、「データ帰属トピック集合52、アノテーション帰属トピック集合53、関連性集合54の計算された時点における推定値が、どのくらい入力アノテーションデータ51を尤もらしく説明できているかを表す尤度が収束するまで繰り返す」ことを意味する。ここで、尤度が収束した状態、すなわち、尤度が高くなる状態とは、例えば、次の(1)〜(5)のような状態になることである。
(2)ある文書dに含まれる各単語wに割り当てられるトピックzの種類の数が少ない場合、尤度は高くなる。
(3)ある文書dに付与されたアノテーションtに割り当てられるトピックcの種類の数が少ない場合に、尤度は高くなる。
(4)あるトピックzが付与される単語wが特定の単語集合である場合、尤度は高くなる。つまり、数が少ない単語集合のみにトピックzが付与される場合には、尤度が高くなる。例えば、3つの単語(単語1、単語2、単語3)があったときに、あるトピックAが、単語1、単語2、単語3に付与される場合に、尤度は低いが、あるトピックAが、単語1にだけ付与される場合に、尤度は高くなる。
(5)同様に、あるトピックcが付与されるアノテーションtが特定のアノテーション集合である場合に、尤度は高くなる。
第1の確率分布P(Z|α)は、第1の条件の下では、式(8)で表すことができる。第1の条件は、文書毎のトピック生成分布として多項分布(Multinomial distribution)、その事前分布としてパラメータ(ハイパーパラメータ)αを持つディリクレ分布(Dirichlet distribution)を用いるという条件である。
第2の確率分布P(W|Z,β)は、第2の条件の下では、式(9a)で表すことができる。第2の条件は、トピック毎の単語生成分布として多項分布、その事前分布としてパラメータ(ハイパーパラメータ)βを持つディリクレ分布を用いるという条件である。
第3の確率分布P(T|C,R,γ)は、第3の条件の下では、式(10a)で表すことができる。第3の条件は、トピック毎のアノテーション生成分布として多項分布、その事前分布としてパラメータ(ハイパーパラメータ)γを持つディリクレ分布を用いるという条件である。
第4の確率分布P(R|η)は、第4の条件の下では、式(11)で表すことができる。第4の条件は、内容と関係がある確率をベルヌーイ分布、その事前分布としてパラメータηを持つベータ分布を用いるという条件である。
第5の確率分布P(C|Z)は、第5の条件の下では、式(12)で表すことができる。第5の条件は、アノテーションのトピックは、単語のトピックと同じ比率の多項分布から生成されるという仮定を用いるという条件である。
次に、演算部2の各部の構成の詳細を説明する。以下では、マルコフ連鎖モンテカルロ法に基づいて、データ帰属トピック推定、アノテーション帰属トピック推定、関連性推定、パラメータ推定を行う場合について記述する。
初期化部21は、推定対象の各集合52,53,54の要素を初期化するものである。初期化部21は、前記した式(4a)に示すデータトピック集合Z、式(5a)に示すアノテーショントピック集合C、式(6a)に示す関連性集合Rをランダムに初期化する。
繰り返し制御部22は、推定対象の各集合52,53,54およびハイパーパラメータα,β,γ,ηの推定処理および更新処理を、推定対象の各集合52,53,54が入力アノテーションデータ51を尤もらしく説明できている度合いを表す尤度を最大化する予め定められた目的関数が収束するまで繰り返すものである。
図4は、図1に示したデータ帰属トピック推定部の構成を示す機能ブロック図である。
データ帰属トピック推定部31は、各文書データに含まれる各単語が所定のトピックに帰属する帰属度を全トピックについて算出した結果に基づいて新たなトピックを割り当てることでデータ帰属トピック集合52を推定するものである。このために、データ帰属トピック推定部31は、図4に示すように、第1パラメータ読込部311と、第1帰属割当部312と、第1帰属書込部313とを備えている。
式(14)に示す割当回数集合A2は、単語wにトピックzが割り当てられた数nzwの集合である。
式(15)に示す割当回数集合A3は、文書dにおいてトピックzが割り当てられたアノテーション数
の集合である。
帰属度は、入力として、
1)文書のトピック比率、
2)トピック毎の単語生成確率、
3)アノテーションのトピック比率、
4)アノテーション帰属トピック数
をとり、これらの値を考慮したものである必要がある。
1)文書のトピック比率は、ある文書dに含まれる各単語wに割り当てられるトピックの種類の数の割合である。
2)トピック毎の単語生成確率は、トピック毎の単語生成分布のことであり、ここでは、多項分布を仮定している。
3)アノテーションのトピック比率は、ある文書dに付与された各アノテーションに割り当てられるトピックの種類の数の割合である。
4)アノテーション帰属トピック数は、文書dにおいてトピックzが割り当てられたアノテーション数を表す
のことである。
第1正規化部315は、トピック数Zの個数だけ求めた各帰属度の計算結果をすべて足して「1」になるように正規化する。つまり、各帰属度から帰属確率を求める。
第1乱数発生部316は、0〜1の乱数を1つ発生させる。
第1帰属トピック決定部317は、第1帰属度算出部314で計算された帰属度に基づいて、新たなトピックzjを割り当てる。この第1帰属トピック決定部317は、前記した式(13)に示す割当回数集合(トピック割当回数集合)A1と、前記した式(14)に示す割当回数集合A2とを集計し、記憶部6のパラメータ集合55に格納する。
図5は、図1に示したアノテーション帰属トピック推定部の構成を示す機能ブロック図である。アノテーション帰属トピック推定部32は、各文書データに付与された各アノテーションが所定のトピックに帰属する帰属度を全トピックについて算出した結果に基づいて新たなトピックを割り当てることでアノテーション帰属トピック集合53を推定するものである。このために、アノテーション帰属トピック推定部32は、第2パラメータ読込部321と、第2帰属割当部322と、第2帰属書込部323とを備えている。
第2帰属度算出部324は、各文書d=1,…,Dの各アノテーションm=1,…,Mdがどのトピックに帰属するかを表す帰属度を計算する。
帰属度は、入力として、前記した3)アノテーションのトピック比率に加え、
5)トピック毎のアノテーション生成確率、
6)関連性集合Rにおける関連性rdmをとり、これらの値を考慮したものである必要がある。
6)関連性rdmは、第2パラメータ読込部321で読み込む前記した式(17)に示す割当回数集合A4に基づくものである。
図6は、図1に示した関連性推定部の構成を示す機能ブロック図である。
関連性推定部33は、トピック毎にアノテーションが生成される確率に基づいて、関連性がある確率と関連性がない確率との両方をアノテーション毎に算出した結果に基づいて新たな関連性を割り当てることで関連性集合54を推定するものである。このために、関連性推定部33は、第3パラメータ読込部331と、関連性割当部332と、関連性書込部333とを備える。
関連度算出部334は、各文書d=1,…,Dの各アノテーションm=1,…,Mdについて内容との関連性があるか否かを表す関連度を計算する。
関連度は、入力として、
前記した5)トピック毎のアノテーション生成確率に加え、
7)関連性がある確率
をとり、これらの値を考慮したものである必要がある。
本実施形態では、関連度算出部334は、あるi=(d,m)について、まず、式(20a)と式(21a)の両方の関連度を計算する。
第3正規化部335は、関連度の2つの計算結果を足して「1」になるように正規化する。例えば、式(20a)の正規化の結果が“0.9”となり、式(21a)の正規化の結果が“0.1”となったとする。関連性決定部337は、第3乱数発生部336で発生した乱数が例えば“0.9”より小さければ、新たな関連性ri=0とし、乱数が“0.9”より大きければ、新たな関連性ri=1とする。これにより、関連性決定部337は、関連度算出部334で計算された関連度に基づいて、新たな関連性riを割り当てる。そして、関連性書込部333は、推定した関連性ri(0または1)を関連性集合54に格納する。なお、この関連性決定部337は、前記した式(17)に示す割当回数集合(関連性割当回数集合)A4を集計し、記憶部6のパラメータ集合55に格納する。
図7は、図1に示したパラメータ推定部の構成を示す機能ブロック図である。
パラメータ推定部34は、推定された各集合52,53,54およびハイパーパラメータα,β,γ,ηを入力として、推定対象の各集合52,53,54が入力アノテーションデータ51を尤もらしく説明できている度合いを表す尤度を算出する。また、パラメータ推定部34は、算出した尤度に基づいて目的関数の収束を判定し、目的関数が収束していない場合、入力に用いたハイパーパラメータα,β,γ,ηを所定の更新式により更新する。このために、パラメータ推定部34は、第4パラメータ読込部341と、パラメータ割当部342と、パラメータ書込部343とを備える。
尤度算出部344は、前記した目的関数、すなわち、式(7)の「集合が、入力として受け付けた各データをどのくらい尤もらしく説明できているか」を表す尤度を、最大にするように、例えば準ニュートン法などの最適化法を用いて求めることとした。
収束判定部345は、前記した式(7)の目的関数が収束したか否かを判別する。
パラメータ更新部346は、収束判定部345の判別の結果、収束していなければ、例えば、式(22)〜式(26)の更新式により、各パラメータを更新し、データ帰属トピック推定部31、アノテーション帰属トピック推定部32、関連性推定部33、パラメータ推定部34による一連の処理を繰り返す制御を行う。なお、ハイパーパラメータα,β,γ,ηの初期値は0以外の値に予め設定されている。
図8は、図1に示したアノテーション付与部の構成を示す機能ブロック図である。
アノテーション付与部23は、入力アノテーションデータ51に含まれるアノテーションデータのうちアノテーションが組み合わされていないデータに対してアノテーションを付与するものである。このために、アノテーション付与部23は、第5パラメータ読込部231と、関連アノテーション推定部232と、アノテーション書込部233とを備えている。
アノテーショントピック比率推定部234は、読み込んだパラメータ群を用いて、アノテーションに割り当てられるトピックの種類の数の割合を示すアノテーショントピック比率を推定するものである。ここでは、式(28)により推定することとした。
関連アノテーション生成確率推定部235は、読み込んだパラメータ群を用いて、アノテーションがデータの内容と関連性がある確率を表す関連ありアノテーション生成確率を推定するものである。ここでは、式(29)により推定することとした。
関連アノテーション付与確率算出部236は、トピック毎のアノテーショントピック比率と関連ありアノテーション生成確率との積の総和である関連ありアノテーション付与確率を、アノテーション別に算出するものである。ここでは、式(27)により推定することとした。
一例として20カテゴリに予め分類された文書データ集合を基に、大別して2種類の学習データ(以下、データ1、データ2と呼ぶ)を作成した。まず、基にした文書データ集合において、文書が分類された20個のカテゴリを、「内容と関連のあるアノテーション」と想定した。そして、「内容と関係のないアノテーション」をランダムに各文書に付与することで、学習データを作成した。
データ1では、全アノテーションの語彙数Tのうち、後から付与した「内容と関係のないアノテーション」の語彙数(関連なしアノテーション語彙数)を“10”に固定した。そして、各文書dに付与するアノテーション数Mdのうち、後から付与した「内容と関係のないアノテーション」の数(関連なしアノテーション数)を“1”から“10”まで変化させた。つまり、各文書における関連なしアノテーションの付与数を、“1”から“10”まで変化させた。なお、関連なしアノテーションを付与しない文書(付与数=0)も取り扱った。
データ2では、各文書dに付与するアノテーション数Mdのうち、後から付与した「内容と関係のないアノテーション」の数(関連なしアノテーション数)を“1”に固定した。そして、全アノテーションの語彙数Tのうち、後から付与した「内容と関係のないアノテーション」の語彙数(関連なしアノテーション語彙数)を“1”から“10”まで変化させた。つまり、関連なしアノテーション語彙数を、“1”から“10”まで変化させた。なお、関連なしアノテーション語彙数=0の場合も取り扱った。
実験1は、内容と関連のあるアノテーションを予測したものである。ここでは、内容と関連のあるアノテーションに対する予測精度を、アノテーションデータ解析における予測誤差(パープレキシティ)で評価した。
本発明において、内容との関連性があるアノテーションが付与される確率は、前記した式(27)で計算できる。本発明においてデータ1を用いたときの実験結果を実施例1とする。また、本発明においてデータ2を用いたときの実験結果を実施例2とする。
比較手法として、最大エントロピー法(MaxEnt)と、Correspondence-LDA(Corr-LDA)とをそれぞれ用いた。
MaxEntは識別的教師あり学習法である。
Corr-LDAは関連性を考慮しない手法である(非特許文献1参照)。
MaxEntにおいてデータ1を用いたときの実験結果を比較例1aとする。
MaxEntにおいてデータ2を用いたときの実験結果を比較例2aとする。
Corr-LDAにおいてデータ1を用いたときの実験結果を比較例1bとする。
Corr-LDAにおいてデータ2を用いたときの実験結果を比較例2bとする。
実施例1と、比較例1a,1bとの比較結果を図9(a)に示す。図9(a)は、学習データとしてデータ1を用いた場合の結果を示すグラフであり、横軸は、各文書における関連なしアノテーションの付与数を表し、縦軸は、予測誤差(パープレキシティ)を表している。なお、パープレキシティの値が小さいほど、予測精度が高い良い結果を示す。図9(a)に示すように、実施例1(Proposed:実線)は、比較例1a(MaxEnt:破線)、比較例1b(Corr-LDA:一点鎖線)よりも、パープレキシティが小さくなった。
実験2は、内容との関連性を正確に予測できるかを測定した。ここでは、内容と関連があるアノテーションに対する予測精度(F値)で評価した。
本発明は、文書データの単語のトピックと、アノテーションのトピックとが一致すれば、アノテーションと文書データの内容との関連性があるとしている。
本発明においてデータ1を用いたときの実験結果を実施例3とする。また、本発明においてデータ2を用いたときの実験結果を実施例4とする。
比較対象の方法として、アノテーション中に含まれる単語が文書中に含まれる場合、関連性があるとする手法(以下、Baselineという)を用いた。
Baselineにおいてデータ1を用いたときの実験結果を比較例3とする。
Baselineにおいてデータ2を用いたときの実験結果を比較例4とする。
実施例3と、比較例3との比較結果を図10(a)に示す。図10(a)は、学習データとしてデータ1を用いた場合の結果を示すグラフであり、横軸は、各文書における関連なしアノテーションの付与数を表し、縦軸は、予測精度(F値)を表している。なお、F値が大きいほど、予測精度が高い良い結果を示す。図10(a)に示すように、実施例3(Proposed:実線)は、比較例3(Baseline:破線)よりも、F値が格段に大きくなった。
実験3は、関連性を正確に予測できるかを測定した。ここでは、アノテーションと内容との関連性があるものと推定された比率を真の比率で評価した。
本実施形態では、関連性がある確率を前記した式(21b)で表した。同様に、実施例では、本発明により推定された関連性ありの比率を式(30)のλ^(以下、単にラムダという)で表す。なお、本明細書において、「^」は、直前の文字を修飾するためにその文字の真上に表示される記号を意味する。
また、本発明においてデータ2を用いたときの実験結果を実施例6とする。
比較対象は、真の値(以下、Trueという)である。
Trueにおいてデータ1を用いたときの実験結果を比較例5とする。
Trueにおいてデータ2を用いたときの実験結果を比較例6とする。
実施例5と、比較例5との比較結果を図11(a)に示す。図11(a)は、学習データとしてデータ1を用いた場合の結果を示すグラフであり、横軸は、各文書における関連なしアノテーションの付与数を表し、縦軸は、関連性ありの比率(ラムダ)を表している。なお、ラムダの最大値は1である。図11(a)に示すように、実施例5(Estimated:実線)は、比較例5(True:破線)と同様な傾向となった。また、実施例5と比較例5との差分は僅かであった。
<実験内容>
実験4では、データ1およびデータ2の代わりに、実際のソーシャルアノテーションサービス(ソーシャルブックマークサービス)のデータを、学習データとして用いた。ここで、文書データはウェブページである。本実施形態に係るアノテーションデータ解析装置1によって、入力アノテーションデータ51として、ユーザが自由にアノテーションを付与したウェブページ(文書データ)を用いた。
目的関数が収束したときに、内容と関連のない場合に付与されやすいアノテーションを抽出した。すなわち、記憶部6の関連性集合54に、「関連性なし(rdm=0)」が割り当てられているrdmから、dとmの情報を抽出した。抽出結果のアノテーションは、「あとでよむ」、「?」、「気になる」、「記事」、「メモ」、「未読」などであった。これら実験4で抽出されたアノテーションは、実際に内容と関連のないアノテーションであった。すなわち、本発明は、実際のソーシャルアノテーションサービス(ソーシャルブックマークサービス)のデータを用いた場合においても、内容と関連のないアノテーションを高い予測精度で推定できることがわかった。
2 演算部
4 入力部
6 記憶部
8 出力部
11 バスライン
21 初期化部
22 繰り返し制御部
23 アノテーション付与部
231 第5パラメータ読込部
232 関連アノテーション推定部
233 アノテーション書込部
234 アノテーショントピック比率推定部
235 関連アノテーション生成確率推定部
236 関連アノテーション付与確率算出部
237 アノテーション決定部
24 メモリ
31 データ帰属トピック推定部
311 第1パラメータ読込部
312 第1帰属割当部
313 第1帰属書込部
314 第1帰属度算出部
315 第1正規化部
316 第1乱数発生部
317 第1帰属トピック決定部
32 アノテーション帰属トピック推定部
321 第2パラメータ読込部
322 第2帰属割当部
323 第2帰属書込部
324 第2帰属度算出部
325 第2正規化部
326 第2乱数発生部
327 第2帰属トピック決定部
33 関連性推定部
331 第3パラメータ読込部
332 関連性割当部
333 関連性書込部
334 関連度算出部
335 第3正規化部
336 第3乱数発生部
337 関連性決定部
34 パラメータ推定部
341 第4パラメータ読込部
342 パラメータ割当部
343 パラメータ書込部
344 尤度算出部
345 収束判定部
346 パラメータ更新部
40 プログラム格納部
41 初期化プログラム
42 データ帰属トピック推定プログラム
43 アノテーション帰属トピック推定プログラム
44 関連性推定プログラム
45 パラメータ推定プログラム
46 アノテーション付与プログラム
50 データ格納部
51 入力アノテーションデータ
52 データ帰属トピック集合
53 アノテーション帰属トピック集合
54 関連性集合
55 パラメータ集合
Claims (5)
- 構成要素が離散値のベクトルとして表現されたデータと、前記データに付与されるアノテーションとの組みを示すアノテーションデータを確率モデルに基づいて解析するアノテーションデータ解析装置であって、
解析対象として与えられる前記アノテーションデータの集合を示すアノテーションデータ集合を入力する入力部と、
前記入力されたアノテーションデータ集合と、推定対象のパラメータ群とを含む情報を記憶する記憶部と、
前記記憶された情報に基づいて所定の演算を行う演算部と、
前記演算結果として、前記アノテーションのうち、データの内容との関連がないアノテーションの情報を出力する出力部とを備え、
前記記憶部は、
前記推定対象のパラメータ群として、
前記アノテーションデータ集合に含まれる前記構成要素が帰属するトピックの集合を示すデータ帰属トピック集合と、
前記アノテーションデータ集合に含まれる前記アノテーションが帰属するトピックの集合を示すアノテーション帰属トピック集合と、
前記アノテーションデータ集合に含まれる前記アノテーションと、当該アノテーションが付与されたデータの内容との関連の有無を表す関連性の集合を示す関連性集合と、
前記確率モデルにおける複数のハイパーパラメータと、を記憶し、
前記演算部は、
前記推定対象の各集合の要素を初期化する初期化部と、
前記推定対象の各集合および複数のハイパーパラメータの推定処理および更新処理を、前記推定対象の各集合が前記アノテーションデータ集合を尤もらしく説明できている度合いを表す尤度を最大化する予め定められた目的関数が収束するまで繰り返す繰り返し制御部とを備え、
前記繰り返し制御部は、
各データに含まれる各構成要素が所定のトピックに帰属する帰属度を予め定められた全トピックについて算出した結果に基づいて新たなトピックを割り当てることで前記データ帰属トピック集合を推定するデータ帰属トピック推定部と、
各データに付与された各アノテーションが所定のトピックに帰属する帰属度を予め定められた全トピックについて算出した結果に基づいて新たなトピックを割り当てることで前記アノテーション帰属トピック集合を推定するアノテーション帰属トピック推定部と、
前記トピック毎に前記アノテーションが生成される確率に基づいて、関連性がある確率と関連性がない確率との両方をアノテーション毎に算出した結果に基づいて新たな関連性を割り当てることで前記関連性集合を推定する関連性推定部と、
前記推定された各集合および複数のハイパーパラメータを入力として前記尤度を算出し、算出した尤度に基づいて前記目的関数の収束を判定し、前記目的関数が収束していない場合、前記入力に用いたハイパーパラメータを所定の更新式により更新するパラメータ推定部と、
を備えることを特徴とするアノテーションデータ解析装置。 - 前記繰り返し制御部は、前記推定対象の各集合の要素を割り当てた回数を予め定められた基準で逐次集計し、前記基準で集計された集合を、割当回数集合として前記記憶部に格納し、
前記割当回数集合は、
前記アノテーションデータ集合に含まれるアノテーションが、付与されたデータの内容との関連がないとされた回数の集合と、
前記アノテーションデータ集合に含まれるアノテーションが、付与されたデータの内容との関連があるとされ、かつ、当該アノテーションがトピックに割り当てられたトピック毎の回数の集合との和を示す関連性割当回数集合を含み、
前記関連性推定部は、
前記関連性割当回数集合と、前記トピック毎に前記アノテーションが生成される確率の事前分布を示すハイパーパラメータと、内容と関係がある確率の事前分布を示すハイパーパラメータとを含むパラメータ群を読み込むパラメータ読込部と、
前記読み込んだパラメータ群を用いて、割り当て対象とするデータに付与されたアノテーションについて当該データの内容と関連性がないことを表す第1関連度と、関連性があることを表す第2関連度とをそれぞれ算出する関連度算出部と、
前記第1関連度および第2関連度のいずれを採用するかを確率モデルに基づいて決定し、前記割り当て対象とするデータに対して、前記決定された関連度に対応した新たな関連性を割り当てる関連性決定部とを備えることを特徴とする請求項1に記載のアノテーションデータ解析装置。 - 前記演算部は、
前記アノテーションデータ集合に含まれるアノテーションデータのうちアノテーションが組み合わされていないデータに対してアノテーションを付与するアノテーション付与部をさらに備え、
前記割当回数集合は、前記アノテーションデータ集合に含まれるデータでトピックを割り当てられた前記データの構成要素の数の集合であるトピック割当回数集合をさらに含み、
前記アノテーション付与部は、
前記関連性割当回数集合と、前記トピック割当回数集合と、前記トピック毎に前記アノテーションが生成される確率の事前分布を示すハイパーパラメータとを含むパラメータ群を読み込むパラメータ読込部と、
前記読み込んだパラメータ群を用いて、アノテーションに割り当てられるトピックの種類の数の割合を示すアノテーショントピック比率を推定するアノテーショントピック比率推定部と、
前記読み込んだパラメータ群を用いて、アノテーションがデータの内容と関連性がある確率を表す関連ありアノテーション生成確率を推定する関連アノテーション生成確率推定部と、
トピック毎の前記アノテーショントピック比率と前記関連ありアノテーション生成確率との積の総和である関連ありアノテーション付与確率を、アノテーション別に算出する関連アノテーション付与確率算出部と、
前記アノテーション別に算出された関連ありアノテーション付与確率の上位から予め定められた数だけのアノテーションを決定するアノテーション決定部とを備えることを特徴とする請求項2に記載のアノテーションデータ解析装置。 - 請求項1乃至請求項3のいずれか一項に記載のアノテーションデータ解析装置を構成する各部としてコンピュータを機能させるためのアノテーションデータ解析プログラム。
- 請求項4に記載のアノテーションデータ解析プログラムが記録されたことを特徴とするコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009083524A JP5210224B2 (ja) | 2009-03-30 | 2009-03-30 | アノテーションデータ解析装置、アノテーションデータ解析プログラムおよびそのプログラムを記録した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009083524A JP5210224B2 (ja) | 2009-03-30 | 2009-03-30 | アノテーションデータ解析装置、アノテーションデータ解析プログラムおよびそのプログラムを記録した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010237864A JP2010237864A (ja) | 2010-10-21 |
JP5210224B2 true JP5210224B2 (ja) | 2013-06-12 |
Family
ID=43092128
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009083524A Expired - Fee Related JP5210224B2 (ja) | 2009-03-30 | 2009-03-30 | アノテーションデータ解析装置、アノテーションデータ解析プログラムおよびそのプログラムを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5210224B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5625792B2 (ja) * | 2010-11-17 | 2014-11-19 | ソニー株式会社 | 情報処理装置、潜在特徴量算出方法、及びプログラム |
JP5613699B2 (ja) * | 2012-02-13 | 2014-10-29 | 日本電信電話株式会社 | 商品推薦装置及び方法及びプログラム |
JP5968283B2 (ja) * | 2013-08-27 | 2016-08-10 | 日本電信電話株式会社 | トピックモデル学習装置とその方法、そのプログラムと記録媒体 |
JP5975470B2 (ja) | 2014-03-27 | 2016-08-23 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報処理装置、情報処理方法、及び、プログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005346376A (ja) * | 2004-06-02 | 2005-12-15 | Fuji Xerox Co Ltd | 文書処理装置、文書処理方法及び文書処理プログラム |
-
2009
- 2009-03-30 JP JP2009083524A patent/JP5210224B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010237864A (ja) | 2010-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Airoldi et al. | Improving and evaluating topic models and other models of text | |
US10769381B2 (en) | Topic-influenced document relationship graphs | |
Qian et al. | Multi-modal event topic model for social event analysis | |
US20190354810A1 (en) | Active learning to reduce noise in labels | |
AU2018269941A1 (en) | Systems and methods for rapidly building, managing, and sharing machine learning models | |
CN111356997A (zh) | 具有颗粒化注意力的层次神经网络 | |
JP4934058B2 (ja) | 共クラスタリング装置、共クラスタリング方法、共クラスタリングプログラム、および、そのプログラムを記録した記録媒体 | |
RU2583716C2 (ru) | Метод построения и обнаружения тематической структуры корпуса | |
GB2544857A (en) | Multimedia document summarization | |
JP6642878B1 (ja) | コンピュータ、構成方法、及びプログラム | |
KR101806452B1 (ko) | 텍스트 마이닝을 기반으로 한 상품 자동 매핑 방법 및 장치 | |
JP2010003106A (ja) | 分類モデル生成装置、分類装置、分類モデル生成方法、分類方法、分類モデル生成プログラム、分類プログラムおよび記録媒体 | |
Varghese et al. | Supervised clustering for automated document classification and prioritization: A case study using toxicological abstracts | |
WO2014073206A1 (ja) | 情報処理装置、及び、情報処理方法 | |
Rijcken et al. | Topic modeling for interpretable text classification from EHRs | |
JP5210224B2 (ja) | アノテーションデータ解析装置、アノテーションデータ解析プログラムおよびそのプログラムを記録した記録媒体 | |
Nural et al. | Using semantics in predictive big data analytics | |
Zhang et al. | Supervised hierarchical Dirichlet processes with variational inference | |
JP5110950B2 (ja) | 多重トピック分類装置、多重トピック分類方法、および多重トピック分類プログラム | |
JP5175585B2 (ja) | 文書処理装置、電子カルテ装置および文書処理プログラム | |
Withanawasam | Apache Mahout Essentials | |
McKnight | Semi-supervised classification of patient safety event reports | |
JP2010267017A (ja) | 文書分類装置、文書分類方法および文書分類プログラム | |
JP7292235B2 (ja) | 分析支援装置及び分析支援方法 | |
KR101613397B1 (ko) | 시계열 텍스트 데이터 및 시계열 수치 데이터의 연관 방법 및 그 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101215 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110819 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130222 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160301 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5210224 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20130201 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |