JP2013246586A - データ群のトピック分析装置 - Google Patents

データ群のトピック分析装置 Download PDF

Info

Publication number
JP2013246586A
JP2013246586A JP2012119004A JP2012119004A JP2013246586A JP 2013246586 A JP2013246586 A JP 2013246586A JP 2012119004 A JP2012119004 A JP 2012119004A JP 2012119004 A JP2012119004 A JP 2012119004A JP 2013246586 A JP2013246586 A JP 2013246586A
Authority
JP
Japan
Prior art keywords
data
topic
distribution
user
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012119004A
Other languages
English (en)
Inventor
Yasuhiro Ikeda
泰弘 池田
Ryoichi Kawahara
亮一 川原
Hiroshi Saito
洋 斎藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012119004A priority Critical patent/JP2013246586A/ja
Publication of JP2013246586A publication Critical patent/JP2013246586A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 データ群のトピックを分析する際に、予めトピックが分かっている教師データを部分的に与えることで、計算量を削減し、かつ、狙ったトピックについての抽出も可能にする。
【解決手段】 本発明は、構成要素が離散値のベクトルとして表現された解析対象データの集合、ユーザのWeb閲覧履歴、ユーザにレコメンデーションしたい対象データ、のいずれかを入力する入力手段と、解析対象データに教師データとして与えられるトピック内容に対応するラベルを付与するラベル付与手段と、予めトピックが既知であり、ラベルが付与されている教師データが与えられると、前記解析対象データと該教師データに対して、所定の確率モデルを適用してパラメータを求める演算手段と、を有する。
【選択図】 図1

Description

本発明は、データ群のトピック分析装置に係り、特に、文書データなど、データの構成要素が離散値のベクトルとして表現することが可能である場合に、各データに含まれる潜在的なトピックを、教師データを利用することで少ない計算量で分析し、かつ狙ったトピックについても抽出するためのデータ群のトピック分析装置に関する。
文書データ(ドキュメント)を分類する際の手法を大きく分けると、教師あり学習と教師なし学習の2つに大別される。教師あり学習では、事前に分類ラベルが与えられたドキュメント(教師データ)を用いて、機械学習によりモデルの学習を行い、学習されたモデルによってドキュメントの分類を行う手法である。
教師あり学習によるドキュメント分類としては、ナイーブベイズ(例えば、非特許文献1参照)やサポートベクターマシン(例えば、非特許文献2参照)を用いた方法が挙げられる。
一方で、教師なし学習として、ドキュメントに含まれる複数の潜在的な主題(トピック)を分析するトピックモデルが、テキストマイニングの分野に留まらず画像認識、Web上でのユーザ行動分析といった様々な場面で活用されている(例えば、非特許文献3,4,5参照)。トピックモデルにおいては、ドキュメント内の単語が生成される過程を確率モデルとして表現し、その確率分布を推定することで、教師データを必要とする事無く、複数の潜在的なトピックの分布を分析することが可能である。トピックモデルでは推定アルゴリズムとしてギブスサンプリング(例えば、非特許文献6参照)、変分ベイズ法(例えば、非特許文献7参照)、期待値伝播法(例えば、非特許文献8参照)などといった手法が提案されている。
A. McCallum et al. "A Comparison of Event Models for Naive Bayes Text Classification," In Proc. AAAI Workshop on Learning for Text Categorization, 1998. T. Joachims "Text Categorization with Support Vector Machines: Learning with Many Relevant Features," In Proc. ECML, 1998. D. Ramage et al. "Partially Labeled Topic Models for. Interpretable Text Mining," In Proc. KDD, 2011. T. Hospedales et al. "A Markov Clustering Topic Model for Mining Behaviour in Video," In Proc. ICCV, 2009. A. Ahmed et al. "Scalable Distributed Inference of Dynamic User Interests for Behavioral Targeting," In Proc. KDD, 2011. D. M. Blei et al. "Latent Dirichlet Allocation," Journal of Machine Learning Research, 2003. T. L. Griffiths et al. "Finding Scientific Topics," In Proc. NAS, 2004. T. Minka et al. "Expectation-Propagation for the Generative Aspect Model," In Proc. UAI, 2002.
しかしながら、教師あり学習によるドキュメント分類のナイーブベイズやサポートベクターマシンを用いた方法は、教師データを準備するコストがかかってしまうことや、分類ラベルとして用意した内容でしかドキュメントを分類できないといった問題がある。
また、上記従来の教師なし学習における、トピックモデルの推定アルゴリズムのいずれの手法でも分析対象となる総単語数が大きくなるほど、その計算量も大きくなる。そのため、対象ドキュメント数やそのサイズが大きくなると、実用的な時間では分析をおこなえない恐れがある(文献「Y. Wang et al. "PLDA : Parallel Latent Dirichlet Allocation for Large-scale Applications," In Proc. AAIM, 2009.」参照)。特に、レコメンデーションを目的とした、Web上でのユーザ行動分析においては、対象データが大規模であるため、従来のアルゴリズムではリアルタイムなレコメンデーションが行えないといった課題がある。
本発明は、上記の点に鑑みなされたもので、データ群のトピックを分析する際に、予めトピックが分かっている教師データを部分的に与えることで、計算量を削減し、かつ、狙ったトピックについての抽出も可能とするデータ群のトピック分析装置を提供することを目的とする。
上記の課題を解決するため、本発明(請求項1)は、データの構成要素が離散値のベクトルとして表現されたデータに含まれる潜在的な主題(以下、「トピック」と記す)を抽出するデータ群のトピック分析装置であって、
構成要素が離散値のベクトルとして表現された解析対象データの集合、ユーザのWeb閲覧履歴、ユーザにレコメンデーションしたい対象データ、のいずれかを入力する入力手段と、
前記解析対象データに教師データとして与えられるトピック内容に対応するラベルを付与するラベル付与手段と、
予めトピックが既知であり、ラベルが付与されている教師データが与えられると、前記解析対象データと該教師データに対して、所定の確率モデルを適用してパラメータを求める演算手段と、を有する。
また、本発明(請求項2)は、前記演算手段において、各データのトピック分布が確率的に生成されており、データ内の構成要素はそのデータのトピック分布及び各トピックに内在する構成要素分布に基づいて確率的に生成されるという構成要素の生成の第1の確率モデルに基づいて、前記解析対象データ及び前記教師データを観測データとした尤度関数が最大となるようなパラメータを計算する手段を含む。
また、本発明(請求項3)は、前記演算手段において、前記解析対象データ及び前記教師データの集合内でトピック分布に関連性が認められる場合に、各データのトピック分布はラベルの有無やその情報だけではなく、そのデータとトピック分布に関連性が認められる全データのトピック分布に影響を受けて生成されるとする第2の確率モデルに基づいて、該確率モデルの尤度関数を大きくするパラメータを求める手段を含む。
また、本発明(請求項4)は、前記解析対象データに対し、データをキーとし、該データのトピックの正解を値とする辞書を用い、該辞書に存在するデータに対しては該データのトピックの正解をラベルとして与えることで前記教師データを生成し、記憶手段に格納する第1の教師データ生成手段を更に有し、
前記演算手段は、
前記記憶手段から前記教師データを取得する。
また、本発明(請求項5)は、前記教師データとして、ラベルのトピックに対応した構成要素を含むデータ群とし、記憶手段に格納する第2の教師データ生成手段を更に有し、
前記演算手段は、
前記記憶手段から前記教師データを取得する手段を含む。
また、本発明(請求項6)は、前記演算手段において、
前記データに対し、データをキーとし、該データのトピックの正解を値とする辞書を用い、該辞書に存在するデータに対しては該データのトピックの正解をラベルとして与えることで前記教師データを生成し、記憶手段に格納する、または、ラベルのトピックに対応した構成要素を含むデータ群を教師データとし、該記憶手段に格納する教師データ生成手段と、
前記Web履歴データの構成要素をWebサイトの特徴を表す離散値ベクトルとし、該Web履歴データのトピック分布を、Webサイトを閲覧したユーザの意図についての分布とみなし、前記記憶手段から前記教師データを取得し、前記第1の確率モデルを用いて前記Web閲覧履歴からユーザの意図についての分布を求め、該分布と前記ユーザにレコメンデーションしたい対象データのトピック分布との距離を求め、所定の閾値以下の距離のユーザを抽出する手段を含む。
また、本発明(請求項7)は、前記演算手段において、
前記データに対し、データをキーとし、該データのトピックの正解を値とする辞書を用い、該辞書に存在するデータに対しては該データのトピックの正解をラベルとして与えることで前記教師データを生成し、記憶手段に格納する、または、ラベルのトピックに対応した構成要素を含むデータ群を教師データとし、該記憶手段に格納する教師データ生成手段と、
前記Web履歴データの構成要素をWebサイトの特徴を表す離散値ベクトルとし、該Web履歴データのトピック分布を、Webサイトを閲覧したユーザの意図についての分布とみなし、前記記憶手段から前記教師データを取得し、前記第2の確率モデルを用いて前記Web閲覧履歴からユーザの意図についての分布を求め、該分布と前記ユーザにレコメンデーションしたい対象データのトピック分布との距離を求め、所定の閾値以下の距離のユーザを抽出する手段を含む。
また、本発明(請求項8)は、前記演算手段において、
前記教師データを利用せずに、前記Web履歴データについて、各ユーザのトピックの語彙分布を求め記憶手段に格納するする手段と、
前記記憶手段の語彙分布が所定の閾値以上の語彙の集合をドキュメントと見做して、トピック番号を与えたデータを教師データとする手段と、
前記ユーザにレコメンデーションしたい対象データと前記教師データを用いて、前記第1の確率モデルを用いて該対象データのトピック分布を求め、前記各ユーザのトピックの語彙分布と該トピック分布の距離を用いて、該ユーザにレコメンデーションしたい対象データの対象ユーザを決定する手段と、を有する。
上記のように、本発明によれば、文書データ等、データの構成要素が離散値のベクトルとして表現することが可能である場合に、各データに含まれる潜在的なトピックを、教師データを利用することで、少ない計算量で分析し、かつ狙ったトピックについても抽出することが可能となる。
本発明の第1の実施の形態における分析装置の構成図である。 本発明の第1の実施の形態における分析装置の動作のフローチャートである。 本発明の第3の実施の形態における分析装置のフローチャートである。 本発明の第5の実施の形態における分析装置のフローチャートである。 本発明の第7の実施の形態における分析装置のトピック分布算出のフローチャートである。 本発明の第7の実施の形態における分析装置のリコメンデーションしたいデータのトピック分布算出のフローチャートである。 本発明についてシミュレーションを行った際のギブスサンプリングの各イテレーションにおけるパープレキシティの比較結果である。 本発明についてシミュレーションを行った際のトピックにおける語彙分布の比較結果である。 本発明についてシミュレーションを行った際のトピックにおける第5の実施の形態と第6の実施の形態の語彙分布の比較結果である。
まず、最初に、本明細書で用いる記号表記を表1に示す。
Figure 2013246586
以下に、第1〜第7の実施の形態について図面と共に説明する。
[第1の実施の形態]
本実施の形態では、構成要素が離散値のベクトルとして表現されたデータについて、そのデータのトピック分布を分析する。ここでは、データをドキュメント、構成要素をドキュメント内の単語、ドキュメントの主題をトピックと見做し、確率モデルとして潜在的ディリクレ配分法(LDA: Latent Dirichlet Allocation)を応用したモデルを用いた例について説明する。
図1は、本発明の第1の実施の形態における分析装置の構成を示す。
同図に示す分析装置は、入力部10、データ整形部20、ラベル付与部30、演算部40、記憶部50、出力部60を有する。
図2は、本発明の第1の実施の形態における分析装置の動作のフローチャートである。
ステップ100) 入力部10は、解析対象データ、教師データおよび分析したいトピックの数Kを入力する。
ステップ110) 次に、データ整形部20は、各単語に、例えば「犬=1」「猫=2」のように、語彙毎にユニークな番号を割り与え、ベクトルとして表現する。当該例の場合、例えば「犬 猫 猫 犬」というドキュメントは、(1, 2, 2, 1)のように表現され、記憶部50に語彙と番号の対応関係をリストとして保存する。また、各ドキュメントには、ドキュメント番号を割り与える。
ステップ120) ラベル付与部30は、ドキュメントに対してラベルΛdを与え、記憶部50に格納する。ここで、d番目のドキュメントに対するラベルΛdは、下記のようにして与えられる。
・教師データとして与える全てのトピック内容を、それぞれトピック番号に割り与える。例えば、「政治」「経済」「IT」の3つの正解を用意した場合、トピック1は「政治」、トピック2は「経済」、トピック3は「IT」のように定める。ここで、教師データとして与えるトピック数Lは、分析したいトピックの数Kより少なくてもよい(L≦K)。すなわちトピックの正解が割り与えられないトピック番号が存在してもよい。
・トピックの正解が与えられているデータ(教師データ)については、正解として与えられているトピック内容に対応したトピック番号の要素が1であり、それ以外の要素は0となったラベルを与える。例えば上記の例で、トピックの正解として「政治」「IT」の二つが与えられていた場合、その教師データのラベルはΛd=(1,0,1)となる。
・トピックの正解が与えられていないデータ(解析対象データ)については、ラベルの要素はすべて0、すなわちΛd=(0,…,0)である。
ステップ130) 演算部40は、パラメータを初期化する。
ステップ140) 演算部40は、記憶部50に保存されたデータを元に、下記の尤度関数を高くする計算を収束するまで繰り返す。
Figure 2013246586
式(1)において、P(ψk|β)、P(θdd)はそれぞれハイパーパラメータをβ,γd とするディリクレ分布で表される。また、P(zdid)、
Figure 2013246586
はそれぞれ
Figure 2013246586
をパラメータとする多項分布で表される。ここで、d番目のドキュメントにおけるハイパーパラメータγdは下記のようにして定められる。
・ラベルΛdにおいて、その要素が1である番号の集合λdを定義する。例えば前記のように、Λd=(1,0,1)である場合、λd=(1,3)となる。Λdの要素がすべて0の場合(解析対象データ)、
Figure 2013246586
である。
・d番目のドキュメントにおけるハイパーパラメータは、λdに基づき下記のアルゴリズムで定められる。
Figure 2013246586
ここで、rは0≦r<1で与えられる定数であり、ラベルで与えられていないトピックkについてのトピック分布θd,kの期待値を、ラベルで与えられているトピックについてのトピック分布の期待値に比べてどの程度低くするかを定める。ωdは、
Figure 2013246586
を定数に保つための係数であり、ラベルとして与えられているトピックの数によって異なる。また、
Figure 2013246586
の場合、すなわち解析対象データにおいては、ハイパーパラメータをαとしたディリクレ分布によりθdが生成されると仮定したモデルとなっている。
式(1)の尤度関数を高くする計算として、ギブスサンプリングを例に挙げる。演算部40は、下記のアルゴリズムに従ってzd,iの更新を繰り返す。
Figure 2013246586
ここでP(zd,i=k|rest)は、zd,i以外のパラメータを全て固定した上で、zd,iに割り与えられるトピックがkである条件付き確率を表している。また、
Figure 2013246586
はドキュメントdにおけるトピックkに割り与えられた単語の数(wd,iを除く)であり、
Figure 2013246586
はドキュメント全体で語彙vがトピックkに割り与えられている数(wd,iを除く)である。ここで語彙vとは、単語wd,iに対応する語彙である。尤度関数が収束したと判定された場合は計算を終了する。収束判定については、各イテレーションにおいて式(1)の尤度関数の値を求め、前回のイテレーション時との値の差が、予め定めた定数ε以下になることが一定回数続いたら、尤度関数が収束したと判断して計算を終了する方法や、予め決められたイテレーション数の計算を行ったら計算を終了するといった方法が考えられる。
計算が終了したら、各ドキュメントの各単語に割り与えられたトピックzd,iから、トピック分布および語彙分布を下記のように求めることができる。
Figure 2013246586
上式は、θd,k、ψk,v、それぞれを表すディリクレ分布の期待値である。ここで、
Figure 2013246586
はドキュメントdにおけるトピックkに割り与えられた単語の数であり、
Figure 2013246586
はドキュメント全体で語彙vがトピックkに割り与えられている数である。
ステップ150) 出力部60は、上記パラメータを出力する。ただし、語彙分布については、記憶部50に保存された語彙と番号のリストを元に、「1=犬」「2=猫」のように、元の語彙に戻した状態で出力する。
出力例)トピック数3で、トピック1に「動物」、トピック2に「政治」というラベルを与えた場合
●各トピックの語彙分布(V個の語彙中上位3単語)
トピック1 「犬」…0.2,「猫」…0.1,「鳥」…0.05
トピック2 「内閣」…0.3,「国会」…0.1,「税」…0.03
トピック3 「株価」…0.2,「輸入」…0.15,「税」…0.1
●各ドキュメントのトピック分布(降順)
ドキュメント1 トピック1…0.7,トピック2…0.2,トピック3…0.1
ドキュメント2 トピック3…0.6,トピック2…0.3,トピック1…0.1
ドキュメント3 ・・・
・・・
各トピックの語彙分布については、上記のように、トピック1およびトピック2では、それぞれラベルとして与えた「動物」「政治」に関係する語彙が、語彙分布の上位に表れる。また、トピック3についてはラベルを与えていないが、上記のような語彙分布になった場合、トピックの内容は「経済」であると判断できる。一方で、各ドキュメントのトピック分布から、それぞれのドキュメントがどういった内容のトピックをどれだけの割合で含んでいるかが分かる。上記の例では、ドキュメント1は「動物」に関するトピックを多く含んでおり、ドキュメント2は「経済」に関するトピックを多く含んでいることが分かる。
[第2の実施の形態]
本実施の形態は、前述の第1の実施の形態において、ドキュメントのトピック間に関連性が存在する場合に適用される方法である。本実施の形態では、第1の実施の形態におけるドキュメントのトピックについて、一次のマルコフ性が成立している場合を想定する。
装置構成は、図1と同様であるが、データ整形部20と演算部40の処理が異なる。
データ整形部20は、「d+1番目のドキュメントのトピックはd番目のドキュメントのトピックに影響を受けている」が、全てのd(1≦d≦D−1)が成立するようにドキュメント番号を与える。その上で、演算部40は、d番目のドキュメントのハイパーパラメータλdを下記のように定める。
Figure 2013246586
ωdやω'dは第1の実施の形態の方法と同様に、
Figure 2013246586
を定数に保つための係数である。ここでは、ハイパーパラメータがラベルの有無だけではなく、d-1番目のトピック分布にも影響を受けていると仮定したアルゴリズムとなっている。
上記以外の処理は、第1の実施の形態と同様であるので、その説明は省略する。
[第3の実施の形態]
本実施の形態では、教師データを生成する方法について説明する。
本実施の形態における装置構成は、前述の図1と同様である。
本実施の形態では、ラベル付与部30が、データをキーとし、そのデータのトピックの正解を値とする辞書を予め保有しているものとする。図3は、本発明の第3の実施の形態におけるフローチャートである。
ステップ300) 入力部10は、解析対象データのみを入力する。
ステップ310) データ整形部20は、前述の第1の実施の形態と同様の方法で、解析対象データの単語にドキュメント番号を割り与える。
ステップ320) ラベル付与部30は、保有する辞書を参照し、解析対象データのなかでそのドキュメントが辞書内にキーとして存在するドキュメントについては、そのドキュメントのトピックの正解をドキュメントに対してラベルとして与える。辞書内に存在しないドキュメントについては、第1の実施の形態と同様にΛd=(0,…,0)とする。
以下に、ラベル付与部30が保有する辞書の作成方法について説明する。
Webサイトをドキュメント、そのドキュメントに含まれる名詞を単語としたような分析を行う際に、Yahoo!カテゴリ(登録商標)のようなディレクトリ型検索サービスを外部情報として利用する方法が考えられる。例えば、「政治」のカテゴリ内、およびそのカテゴリの配下に存在するサブカテゴリ内に含まれるURLが、ユーザの閲覧したWebサイトのURLと前方一致した場合、そのWebサイトに対して「政治」のラベルを与える。前方一致するURLがYahoo!カテゴリ(登録商標)内に複数存在する場合には、そのURLの長さが最も長い物を、ラベルを付与するためのURLとして採用する。
ステップ340) 演算部40の動作は第1の実施の形態と同様である。
ステップ350) 出力部60の動作は第1の実施の形態と同様である。
[第4の実施の形態]
本実施の形態では、教師データ生成する際に、ラベルのトピックに対応した構成要素を含むデータ群を用意する方法について説明する。
本実施の形態では、ラベル付与部30において、入力部10から入力された教師データもしくは記憶部50に予め保存された教師データに対して、第1の実施の形態と同様にラベルを与える。解析対象データについては、全てΛd=(0,…,0)とする。
教師データの作成方法として、通常のトピックモデルを用いて生成された各トピックの語彙分布を教師データとして利用する方法が考えられる。第1の実施の形態に示すように、データをドキュメント、構成要素を単語とする場合、予め準備した、様々なトピックを含むドキュメント群に対して、通常のトピックモデルを実行する。その結果得られた各トピックの語彙分布について見た時、例えばあるトピックの語彙分布の上位に「内閣」「国会」「大臣」のような単語が出現していた場合、そのトピックは「政治」に関係していると考えられる。その場合、そのトピックの語彙分布において、出現割合(ψk,v)がある閾値以上である単語の集合を一つのドキュメントとしてみなし、そのドキュメントに対して「政治」のラベルを与えたものを教師データとして利用する。
[第5の実施の形態]
本実施の形態では、第1の実施の形態をWebユーザ行動分析に適用する手法について説明する。
本実施の形態では、ユーザが閲覧した各Webサイトを、第1の実施の形態におけるそれぞれドキュメントとみなし、WebサイトのHTML内に含まれる名詞を単語とし、あるユーザが閲覧したドキュメントのトピック分布を集約した分布を、そのユーザの意図に関する分布であるとみなす。以下、ユーザの意図に関する分布についても「トピック分布」と表現する。また、レコメンデーションしたい対象(ニュース記事,広告など)をレコメンデーションデータとしてドキュメントで表現し、前記ドキュメントと一緒に分析を行う。
本実施の形態の説明で用いる記号を以下に示す。
Figure 2013246586
図4は、本発明の第5の実施の形態における分析装置のフローチャートである。
ステップ500) 入力部10は、ユーザが閲覧したドキュメント集合(Web閲覧履歴)、レコメンデーションデータ(及び教師データ)を入力する。なお、教師データは、第3の実施の形態を適用する場合、ラベル付与部30にて解析対象データに対してラベルを与えることで生成され、第4の実施の形態を適用する場合は、予め準備した教師データが記憶部50に保存されているか、もしくは入力部10から入力されるものとする。
ステップ510) データ整形部20は、Web閲覧履歴のデータにドキュメント番号を割り与えた上で、各ユーザが閲覧したドキュメント番号の集合Duをリスト化する。なお、同じWebサイトであっても、閲覧したユーザが異なる場合、ここでは違うドキュメント番号が割り与えられる。また、データ整形部20では、全ドキュメントの中で、出現頻度が高すぎる、もしくは低すぎる単語をドキュメントから取り除く。この作業は、利用する単語の辞書を予め準備し、その辞書に含まれない単語を取り除く方法や、解析対象データ(Web閲覧履歴のデータ)における出現頻度を元に、予め定められた最大値rmax以上であるか、または予め定められた最小値rmin以下である単語を取り除くといった方法が考えられる。
ステップ520) 上記の作業が終わり次第、ラベル付与部30によりラベルが与えられたドキュメントおよびDuのリストを記憶部50に格納する。
ステップ530) 演算部40は、パラメータを初期化する。
ステップ540) 演算部40は、第1の実施の形態と同様に解析を行う。
ステップ550) 演算部40は、計算が終了した後に、各ユーザuのトピック分布
Figure 2013246586
について、ユーザuが閲覧したドキュメント集合
Figure 2013246586
のトピック分布θdを集約することで求める。集約の仕方は、単純に足し合わせて正規化する方法や、閲覧時間を考慮して重みをつける方法などが考えられる。その後演算部40は、レコメンデーションデータのトピック分布と、各ユーザのトピック分布の距離を計算する。
ステップ560) 出力部60は、レコメンデーションデータと、そのレコメンデーションデータのトピック分布の距離が、予め定めた閾値以下のユーザのリストを作成し、全パラメータと一緒に出力する。分布の距離の算出については、コサイン類似度やピアソン相関係数などを用いる。
[第6の実施の形態]
本実施の形態は、第2の実施の形態の手法を、Webユーザ行動分析に適用するものである。
本実施の形態では、第5の実施の形態において、あるユーザが連続して閲覧したドキュメントのトピックは関連性があるとみなし、データ整形部20において、ドキュメント番号をユーザがドキュメントを閲覧した順番に与え、演算部40において、各ユーザが閲覧したドキュメントの集合
Figure 2013246586
に対して一次のマルコフ性を仮定し、第2の実施の形態と同様に、推論アルゴリズムを用いてドキュメントのトピック分布を求める。
その他の処理は、第2の実施の形態と同様である。
[第7の実施の形態]
本実施の形態では、レコメンデーションを行う度に、膨大な量のWebサイト閲覧履歴を分析することなく、ユーザに対してレコメンデーションを行うものである。
本実施の形態は、ユーザトピック分布を求める段階(図5のフローチャート)と、レコメンデーションしたいデータのトピック分布を求める段階(図6のフローチャート)の二段階によって実施される。
図5に沿って、ユーザトピック分布を求める処理を説明する。
ステップ700) 入力部10は、解析対象データを入力する。
ステップ710) データ整形部20は、第1の実施の形態と同様の方法で各ドキュメントにドキュメント番号を割り与える。
ステップ720) 演算部40は、パラメータを初期化する。
ステップ730) 演算部40は、第1の実施の形態と同様の推論アルゴリズムを用いてパラメータを推定する。
ステップ740) 演算部40は、各ユーザのトピック分布を計算し、記憶部50に格納する。
ステップ750) 演算部40は、各トピックの語彙分布を教師データ化し、記憶部50に格納する。
次に、図6に沿って、レコメンデーションしたいデータのトピック分布を求める処理を説明する。
ステップ800) 入力部10は、リコメンデーションデータを入力する。
ステップ810) 記憶部50より図5のステップ750の処理により予め求められた教師データを取得する。
ステップ820) データ整形部20は、第1の実施の形態と同様に、各ドキュメントにドキュメント番号を割り与える。
ステップ830) ラベル付与部30は、第1の実施の形態と同様に、ドキュメントにラベルを付与する。
ステップ840) 演算部40は、パラメータを初期化する。
ステップ850) 演算部40は、第1の実施の形態と同様に、推論アルゴリズムを用いてパラメータを推定する処理を収束するまで繰り返す。
ステップ860) 演算部40は、レコメンデーションデータのトピック分布と、図5の処理により予め記憶部50に格納されているユーザトピック分布(教師データ)の距離を計算する。
ステップ870) 出力部60は、全パラメータ及びレコメンデーションデータとトピック分布の距離が近い上位N件のユーザのリストを出力する。
上記のように、本実施の形態では、第5の実施の形態において、教師データを利用せずに通常のトピックモデルでユーザが閲覧したドキュメントの集合のみを分析し、各ユーザのトピック分布を予め求めて、記憶部50に保持しておく。また、第4の実施の形態の方法を用いて、各トピックにおいて、そのトピックの語彙分布が予め定めた閾値以上である語彙の集合をドキュメントとみなし、ラベルとしてそのトピック番号を与えたデータを教師データとして全トピック分準備する。レコメンデーションを行う際には、ドキュメント化したレコメンデーションデータと、先述の教師データとを入力し、第5の実施の形態と同様に分析を行うことで、初めに求めておいたユーザのトピック分布と同じトピック空間におけるレコメンデーションデータのトピック分布を求めることができる。求めた分布の距離を用いて、第5の実施の形態と同様にレコメンデーション対象ユーザを決定する。
この方法により、レコメンデーションを行う度に膨大な量のユーザのWeb閲覧履歴を分析する必要がなくなる。
以下に、本発明を適用したシミュレーション結果を示す。
本発明により、文書のようなドキュメントデータが与えられた時に、従来手法と比べて少ない計算量でドキュメントデータのトピック分布を求めることが可能となる。実際に第5の実施の形態及び第6の実施の形態について、モニタを募集して収集したユーザのWebアクセス履歴を対象に分析をおこなった際の結果を示す。対象データは
・ユーザ数531人
・2011/8/1〜2011/8/31の一ヶ月分
・全アクセスURL情報
である。各Webページをドキュメントとみなし、WebページのHTMLに含まれる各名詞を単語とみなした。また、教師データについては、第3の実施の形態のようにYahoo!カテゴリ(登録商標)を用いて教師データを生成させた。
図7に、ギブスサンプリングによる計算の各イテレーションにおけるパープレキシティの変化を示す。パープレキシティとは言語モデルの性能を示す指標であり、その値が低いほどモデルは良く単語の生成過程をモデリングできているとされる。ここでは、通常のLDAと、第5の実施の形態と、第6の実施の形態の、3つのモデルを比較している。図より、第5の実施の形態および第6の実施の形態のどちらも、通常のLDAと比べてイテレーションの早い段階でパープレキシティが低下しており、特に、トピックのマルコフ性を仮定した実施例6は、通常のLDAの1/10程度の計算量で同等のパープレキシティまで低下している。
ラベル付の効果を定性的に確認するために、図8に、イテレーション数20の時点における、第5の実施の形態と通常のLDAにおけるトピックの語彙分布を示す。なお、語彙分布において登録商標となっている単語については「**」を挿入している。ここでは、第5の実施の形態においてはラベルとして「美容」「グルメ」の内容を与えた二つのトピックを示しており、通常のLDAについては、前記の内容の単語が最も多く出現した二つのトピックを示している。また、「美容」に関する単語には下線を引き、「グルメ」に関する単語は斜体で表している。図8より、第5の実施の形態では、20イテレーションという少ない計算量で、ラベルの内容に沿ったトピックを生成できていることが確認できる。
マルコフ性の効果を定性的に確認するために、図9に、第5の実施の形態と第6の実施の形態のトピックの語彙分布の比較を示す。図9では、様々なファッションブランドを扱うブランドグループ「BAYCREW'S」をトピック1のラベルとして与え、ギブスサンプリングを50イテレーション実行した際の、トピック1の語彙分布の上位20単語を示している。なお、図8と同様に登録商標となっている単語については「**」を挿入している。ここでは、BAYCREW'Sが扱うブランド名 (journal standard luxe、 DEUXIEME CLASSE等) に含まれる単語を下線で示している。図9より、同じイテレーション数でも、マルコフ性の仮定を行った第6の実施の形態の方がBAYCREW'Sに関連した単語が多く上位の単語に現れていることが確認できる。
なお、通常のLDAを実行した際には、BAYCREW'Sに関する単語の出現するトピックはほぼ見られなかった。このことから、第5の実施の形態や第6の実施の形態では通常のLDAでは現れにくい、より狭いトピックも生成できることが確認できる。
なお、第1〜第7の実施の形態に示した上記の図1に示す分析装置の構成要素の動作をプログラムとして構築し、データ群のトピック分析装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
本発明は、上記の第1〜第7の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
10 入力部
20 データ整形部
30 ラベル付与部
40 演算部
50 記憶部
60 出力部

Claims (8)

  1. データの構成要素が離散値のベクトルとして表現されたデータに含まれる潜在的な主題(以下、「トピック」と記す)を抽出するデータ群のトピック分析装置であって、
    構成要素が離散値のベクトルとして表現された解析対象データの集合、ユーザのWeb閲覧履歴、ユーザにレコメンデーションしたい対象データ、のいずれかを入力する入力手段と、
    前記解析対象データに教師データとして与えられるトピック内容に対応するラベルを付与するラベル付与手段と、
    予めトピックが既知であり、ラベルが付与されている教師データが与えられると、前記解析対象データと該教師データに対して、所定の確率モデルを適用してパラメータを求める演算手段と、
    を有することを特徴とするデータ群のトピック分析装置。
  2. 前記演算手段は、
    各データにおいてトピック分布が確率的に生成されており、データ内の構成要素はそのデータのトピック分布及び各トピックに内在する構成要素分布に基づいて確率的に生成されるという構成要素の生成の第1の確率モデルに基づいて、前記解析対象データ及び前記教師データを観測データとした尤度関数が最大となるようなパラメータを計算する手段を含む
    請求項1記載のデータ群のトピック分析装置。
  3. 前記演算手段は、
    前記解析対象データ及び前記教師データの集合内でトピック分布に関連性が認められる場合に、各データのトピック分布はラベルの有無やその情報だけではなく、そのデータとトピック分布に関連性が認められる全データのトピック分布に影響を受けて生成されるとする第2の確率モデルに基づいて、該確率モデルの尤度関数を大きくするパラメータを求める手段を含む
    請求項1記載のデータ群のトピック分析装置。
  4. 前記解析対象データに対し、データをキーとし、該データのトピックの正解を値とする辞書を用い、該辞書に存在するデータに対しては該データのトピックの正解をラベルとして与えることで前記教師データを生成し、記憶手段に格納する第1の教師データ生成手段を更に有し、
    前記演算手段は、
    前記記憶手段から前記教師データを取得する
    請求項1乃至3のいずれか1項に記載のデータ群のトピック分析装置。
  5. 前記教師データとして、ラベルのトピックに対応した構成要素を含むデータ群とし、記憶手段に格納する第2の教師データ生成手段を更に有し、
    前記演算手段は、
    前記記憶手段から前記教師データを取得する手段を含む
    請求項1乃至3のいずれか1項に記載のデータ群のトピック分析装置。
  6. 前記演算手段は、
    前記データに対し、データをキーとし、該データのトピックの正解を値とする辞書を用い、該辞書に存在するデータに対しては該データのトピックの正解をラベルとして与えることで前記教師データを生成し、記憶手段に格納する、または、ラベルのトピックに対応した構成要素を含むデータ群を教師データとし、該記憶手段に格納する教師データ生成手段と、
    前記Web履歴データの構成要素をWebサイトの特徴を表す離散値ベクトルとし、該Web履歴データのトピック分布を、Webサイトを閲覧したユーザの意図についての分布とみなし、前記記憶手段から前記教師データを取得し、前記第1の確率モデルを用いて前記Web閲覧履歴からユーザの意図についての分布を求め、該分布と前記ユーザにレコメンデーションしたい対象データのトピック分布との距離を求め、所定の閾値以下の距離のユーザを抽出する手段を含む
    請求項2記載のデータ群のトピック分析装置。
  7. 前記演算手段は、
    前記データに対し、データをキーとし、該データのトピックの正解を値とする辞書を用い、該辞書に存在するデータに対しては該データのトピックの正解をラベルとして与えることで前記教師データを生成し、記憶手段に格納する、または、ラベルのトピックに対応した構成要素を含むデータ群を教師データとし、該記憶手段に格納する教師データ生成手段と、
    前記Web履歴データの構成要素をWebサイトの特徴を表す離散値ベクトルとし、該Web履歴データのトピック分布を、Webサイトを閲覧したユーザの意図についての分布とみなし、前記記憶手段から前記教師データを取得し、前記第2の確率モデルを用いて前記Web閲覧履歴からユーザの意図についての分布を求め、該分布と前記ユーザにレコメンデーションしたい対象データのトピック分布との距離を求め、所定の閾値以下の距離のユーザを抽出する手段を含む
    請求項3記載のデータ群のトピック分析装置。
  8. 前記演算手段は、
    前記教師データを利用せずに、前記Web履歴データについて、各ユーザのトピックの語彙分布を求め記憶手段に格納するする手段と、
    前記記憶手段の語彙分布が所定の閾値以上の語彙の集合をドキュメントと見做して、トピック番号を与えたデータを教師データとする手段と、
    前記ユーザにレコメンデーションしたい対象データと前記教師データを用いて、前記第1の確率モデルを用いて該対象データのトピック分布を求め、前記各ユーザのトピックの語彙分布と該トピック分布の距離を用いて、該ユーザにレコメンデーションしたい対象データの対象ユーザを決定する手段と、
    を有する請求項2記載のデータ群のトピック分析装置。
JP2012119004A 2012-05-24 2012-05-24 データ群のトピック分析装置 Pending JP2013246586A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012119004A JP2013246586A (ja) 2012-05-24 2012-05-24 データ群のトピック分析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012119004A JP2013246586A (ja) 2012-05-24 2012-05-24 データ群のトピック分析装置

Publications (1)

Publication Number Publication Date
JP2013246586A true JP2013246586A (ja) 2013-12-09

Family

ID=49846313

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012119004A Pending JP2013246586A (ja) 2012-05-24 2012-05-24 データ群のトピック分析装置

Country Status (1)

Country Link
JP (1) JP2013246586A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016162163A (ja) * 2015-03-02 2016-09-05 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
US10896183B2 (en) 2016-11-10 2021-01-19 Yahoo Japan Corporation Information processing apparatus, information processing method, and non-transitory computer readable recording medium

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016162163A (ja) * 2015-03-02 2016-09-05 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
US10896183B2 (en) 2016-11-10 2021-01-19 Yahoo Japan Corporation Information processing apparatus, information processing method, and non-transitory computer readable recording medium

Similar Documents

Publication Publication Date Title
Zamani et al. Neural query performance prediction using weak supervision from multiple signals
Yuan et al. Expert finding in community question answering: a review
Bucur Using opinion mining techniques in tourism
Gu et al. Learning global term weights for content-based recommender systems
Selvalakshmi et al. Intelligent ontology based semantic information retrieval using feature selection and classification
Shankar et al. An overview and empirical comparison of natural language processing (NLP) models and an introduction to and empirical application of autoencoder models in marketing
US20140122405A1 (en) Information processing apparatus, information processing method, and program
CN107066589B (zh) 一种基于综合知识的实体语义和词频的排序方法及装置
Wang et al. An approach to rank reviews by fusing and mining opinions based on review pertinence
Bouras et al. Improving news articles recommendations via user clustering
Olatunji et al. Context-aware helpfulness prediction for online product reviews
Shanmuga Sundari et al. Integrating sentiment analysis on hybrid collaborative filtering method in a big data environment
Balaguer et al. CatSent: a Catalan sentiment analysis website
Mahadevan et al. Review rating prediction using combined latent topics and associated sentiments: an empirical review
Suresh Kumar et al. Sentiment Analysis of Short Texts Using SVMs and VSMs-Based Multiclass Semantic Classification
Sahu et al. Sentiment analysis for Odia language using supervised classifier: an information retrieval in Indian language initiative
Zhang et al. A knowledge graph based approach for mobile application recommendation
Win et al. Sentiment attribution analysis with hierarchical classification and automatic aspect categorization on online user reviews
JP2013246586A (ja) データ群のトピック分析装置
Chaitanya et al. Research articles suggestion using topic modelling
Hwang et al. Personalized internet advertisement recommendation service based on keyword similarity
Suresh An innovative and efficient method for Twitter sentiment analysis
Saraswathi et al. Ant colony optimization based feature selection for opinion mining classification
Vishwakarma et al. Web user prediction by: integrating Markov model with different features
Sadoughi et al. An efficient hybrid query recommendation using shingling and hashing techniques