JP5276581B2 - トレンド分析装置、トレンド分析方法およびトレンド分析プログラム - Google Patents
トレンド分析装置、トレンド分析方法およびトレンド分析プログラム Download PDFInfo
- Publication number
- JP5276581B2 JP5276581B2 JP2009294925A JP2009294925A JP5276581B2 JP 5276581 B2 JP5276581 B2 JP 5276581B2 JP 2009294925 A JP2009294925 A JP 2009294925A JP 2009294925 A JP2009294925 A JP 2009294925A JP 5276581 B2 JP5276581 B2 JP 5276581B2
- Authority
- JP
- Japan
- Prior art keywords
- trend
- document
- class
- word
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004458 analytical method Methods 0.000 title claims description 46
- 238000009826 distribution Methods 0.000 claims description 72
- 238000004364 calculation method Methods 0.000 claims description 42
- 238000000034 method Methods 0.000 description 41
- 238000011156 evaluation Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 230000000875 corresponding effect Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000005070 sampling Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000011158 quantitative evaluation Methods 0.000 description 4
- 238000007418 data mining Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000000699 topical effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
入力部1は、情報を入力する手段であり、例えば、キーボード、マウス、ディスクドライブ装置などから構成される。トレンド分析装置1000は、入力部1を介して、トレンドクラス(以下、単に「トレンド」ともいう。)の総数Cとトピッククラス(以下、単に「トピック」ともいう。)の総数Zを受け付ける。トレンドの数やトピックの数は、分類したいクラスの数に合わせて自由に設定することができる。
記憶部2は、情報を記憶する手段であり、例えば、一般的なハードディスク装置などから構成される。記憶部2は、トレンド分析の対象となる文書データ(文書の生成時刻や著者などのメタデータも含む。)を記憶する。文書データは、例えば、学術論文や特許明細書、ブログ記事やWebページなどの電子データである。また、文書データの代わりに、購入商品の情報を文書データとし、その商品を購入したユーザと購入した日時などをメタデータとして扱っても良い。
初期設定部3では、各文書が属するトレンドクラス(トレンド変数)と、トレンドクラスの持つ1つ以上のトピッククラス(トピック変数)の初期値をランダムに選択する。初期値は任意に選択することができるが、1つの文書に対してトレンドクラスは1つとする。
トレンドクラス推定部4は、ギブスサンプリング(Gibbs Sampling)の手法を応用して、文書dの属するトレンドクラスcdを推定する。ギブスサンプリングでは、サンプリング対象となる文書を1つ選択し、cd=j(j=1,2,・・・,C)について、後記する式(3)の条件付確率を計算した後、ランダムに生成した値(乱数)と条件付確率の値との大小を比較することにより、文書の属するトレンドクラスを変更する。この処理を全ての文書について行い、確率の値が収束するまで、あるいは事前に設定した回数を終えるまで処理を繰り返す。なお、このように条件付確率を計算して文書の属するトレンドクラスを決定する場合について、文書がトレンドクラスに属することを、特許請求の範囲では、文書がトレンドクラスに「確率的に属する」という表現をしている。
P(cd=j|c\d,z,t,α,β,λ)を推定する(詳細は後記)。ここで、表1に示すように、λは時刻tを変数とするβ分布のパラメータであり、このパラメータにより時刻の確率分布が考慮されていることになる。以下、図5に示すフロー図を参照しなから、各部の処理を説明する。
まず、サンプル文書選択部41は、記憶部2に記憶された文書の中から、まだサンプル対象として選択していない文書dをサンプル対象の文書として選択する(ステップS41)。
次に、初期設定部42は、文書のトレンドクラスの推定に使用する隠れパラメータαとβの初期値を決定する(ステップS42)。ここで、αはC次元(Cは入力部1で入力したトレンドクラスの総数)のベクトル、βはZ次元(Zは入力部1で入力したトピッククラスの総数)のベクトルである。
0<αj≦nj\d j=1,2,3,…,C ・・・式(1)
0<βz≦njz\d z=1,2,3,…,Z ・・・式(2)
次に、トレンドクラス更新部43は、トレンドクラス更新処理を行う(ステップS43)。図6に示すように、まず、C個のトレンドクラスからまだサンプリングしていないトレンドクラスjを1つ選択し(ステップS431)、以下の処理を行う。
P(cd=j|c\d,z,t,α,β,λ)の値がRより大きければ(ステップS434でYes)文書dの属するトレンドクラスをjに更新する(ステップS435)。ステップS432で計算した確率
P(cd=j|c\d,z,t,α,β,λ)の値がR以下の場合には(ステップS434でNo)、トレンドクラスの更新は行わない(ステップS435をスキップする)。
スイッチ変数推定部5(図1参照)は、文書d内の各トークンが、背景知識の単語生成分布(スイッチ変数が「0」の場合)、トレンドの単語生成分布(スイッチ変数が「1」の場合)、トピックの単語生成分布(スイッチ変数が「2」の場合)、のいずれの単語生成分布から単語を生成するかを(つまり、スイッチ変数の値を)決定する。
図7に示すように、ステップS5(図4参照)の処理として、まず、サンプル文書選択部51は、記憶部2に記憶された文書の中から、まだサンプル対象として選択していない文書dをサンプル対象の文書として1つ選択する(ステップS51)。
次に、初期設定部52は、文書のトレンドクラスの推定に使用する隠れパラメータβ、γ、εの初期値を決定する(ステップS52)。ここで、βはZ次元(Zは入力部1で入力したトピッククラスの総数)のベクトル、γはNd次元(Ndは文書d内の単語数)のベクトル、εはスカラである。
0<βj≦njk\di j=1,2,3,…,C ・・・式(4)
0<γz≦njwdi\di z=1,2,3,…,Z ・・・式(5)
0<εr≦ndr\di r=0,1,2 ・・・式(6)
スイッチ変数更新部53は、スイッチ変更更新処理を行う、つまり、文書d内の各トークンについて、そのスイッチ変数を決定するための条件付確率を算出する(ステップS53)。
ここで、nd2\diは、文書dのトークンdiを除き、r=2となるトークンの数である。また、njv\diは、トレンドjのうち、文書dのトークンdiを除き、単語vを選択する数である。
収束判定部6は、式(3)の確率と、式(7)〜(9)のうち値が最大となる確率とが収束したか否かを判定する(ステップS6)。収束していない場合(ステップS6でNo)、トレンドクラス推定部4とスイッチ変数推定部5の処理(ステップS4,S5)を繰り返す。
出力部7は、情報を出力するための手段であり、例えば、グラフィックボード(出力インタフェース)およびそれに接続されたモニタである。前記した各確率が収束した場合(ステップS6でYes)、出力部7は、式(3)の確率と、式(7)〜(9)のうち値が最大となる確率とにしたがって得られたトレンドクラスと単語を出力する(ステップS7)。
本実施形態のトレンド分析装置1000を利用して、コンテンツのトレンドを判定する場合の実施例を以下に示す。このトレンド判定の目的は、作成時間が不明なコンテンツを入力として、そのコンテンツの作成時間を推定することである。
ここで、ndrは文書dに関連付けされているスイッチ変数rの数を表す。
このように、トレンド分析装置1000を用いて推定した確率分布は、時間毎に生成しやすいコンテンツの予測にも利用することができる。
本実施形態のトレンド分析装置1000を利用して、最新トレンドに合ったコンテンツおよびアイテムの推薦を行う場合の実施例を以下に示す。この場合の目的は、各ユーザの最新のトレンドに合ったアイテムを推薦することである。
トレンド分析装置1000は、各ユーザを各文書、アイテムを単語と置き換えることで各処理を実行し、ユーザのトレンド選択の確率分布(ψ)と、ユーザのスイッチ変数選択の確率分布(μ)と、トレンドcのトピック選択の確率分布(θ)と、トピックz(またはトレンドcまたは背景知識b)のアイテム選択の確率分布(φ)とを推定する。
そして、推薦対象のユーザの所属するトレンド変数に対し、最新の時間において生成確率が高いアイテムの上位n個(nは予め定めた数)からなる集合を作成し、推薦アイテムとして出力する。
次に、本実施形態のトレンド分析装置1000を用いた実験結果の例について説明する。実験に用いたデータには、著者の興味などのパラメータが既知であるという条件が与えられている。データ1)は、ACM(Association for Computing Machinery)の国際会議SIGIR(Special Interest Group of Information Retrieval)で1985年から2005年にかけて発表された論文である。データ2)は、同じくACMの国際会議CIKM(Conference on Information and Knowledge Management)、SIGIR、KDD(Knowledge Discovery and Data Mining)およびWWW(World Wide Web)で2001年から2008年にかけて発表された論文である。
本実施形態で用いたモデルの定量的評価を行うために、各モデルにより推定されたパラメータを用い、test set perplexityを計算し、非特許文献2と比較する。
評価はテストセットを五回替えた。そのtest set perplexityの平均を表4に示す。
2 記憶部
3 初期設定部
4 トレンドクラス推定部
5 スイッチ変数推定部
6 収束判定部
7 出力部
100 演算部
1000 トレンド分析装置
Claims (5)
- 所定の確率分布モデルに基づいて、電子データである複数の文書それぞれを、予め定められた複数のトレンドクラスのいずれかに確率的に属させる計算を行うトレンド分析装置であって、
前記複数の文書、
前記確率分布モデルで使用され、前記文書毎に、確率的にその文書の属する前記トレンドクラスを推定するための第1の計算式、
前記確率分布モデルで使用され、前記文書を構成する単語に対応する概念であるトークン毎に割り当てられる単語を推定するためのスイッチ変数として、(1)前記複数の文書すべてについての単語生成分布に対応する値、(2)前記トレンドクラスについての単語生成分布に対応する値、(3)前記トレンドクラスに確率的に属する1以上のトピッククラスについての単語生成分布に対応する値、の3つの値のうちいずれかの値をとるか決定するための第2の計算式、および、
所定の計算終了条件、を記憶する記憶部と、
前記文書それぞれが属する前記トレンドクラス、および、前記トレンドクラスに属する1以上のトピッククラス、の初期値を設定する初期設定部と、
前記第1の計算式および前記スイッチ変数に基づいて、前記文書毎に、前記トレンドクラスそれぞれについて、その文書の属する確率を計算し、その確率が、0以上1未満の乱数値よりも高い場合に、その文書がその前記トピッククラスに属するものと推定するトレンドクラス推定部と、
前記第2の計算式に基づいて、前記文書毎の前記トークン毎に、前記文書すべてについての単語生成分布を用いて計算した場合の正解の単語を選択する条件付確率と、前記トレンドクラスについての単語生成分布を用いて計算した場合の正解の単語を選択する条件付確率と、前記トピッククラスについての単語生成分布を用いて計算した場合の正解の単語を選択する条件付確率と、を計算して、そのうちの最大の数値が、0以上1未満の乱数値よりも高い場合に、その最大の数値を計算するのに使用した単語生成分布に対応するスイッチ変数を決定するスイッチ変数推定部と、
前記所定の計算終了条件を満たすまで、前記トレンドクラス推定部と前記スイッチ変数推定部とに、計算を繰り返させる収束判定部と、
前記収束判定部によって前記所定の計算終了条件が満たされたと判定されたとき、前記複数の文書それぞれが属する前記トレンドクラスを含む計算結果を出力する出力部と、
を備えることを特徴とするトレンド分析装置。 - 前記収束判定部は、
前記所定の計算終了条件として、前記トレンドクラス推定部と前記スイッチ変数推定部との少なくとも一方によって計算された前回と最新の確率の誤差が所定の閾値以下であること、または、繰り返された計算回数が所定回数に達したこと、を用いる
ことを特徴とする請求項1に記載のトレンド分析装置。 - 所定の確率分布モデルに基づいて、電子データである複数の文書それぞれを、予め定められた複数のトレンドクラスのいずれかに確率的に属させる計算を行うトレンド分析装置によるトレンド分析方法であって、
前記トレンド分析装置は、
前記複数の文書、
前記確率分布モデルで使用され、前記文書毎に、確率的にその文書の属する前記トレンドクラスを推定するための第1の計算式、
前記確率分布モデルで使用され、前記文書を構成する単語に対応する概念であるトークン毎に割り当てられる単語を推定するためのスイッチ変数として、(1)前記複数の文書すべてについての単語生成分布に対応する値、(2)前記トレンドクラスについての単語生成分布に対応する値、(3)前記トレンドクラスに確率的に属する1以上のトピッククラスについての単語生成分布に対応する値、の3つの値のうちいずれかの値をとるか決定するための第2の計算式、および、
所定の計算終了条件、を記憶する記憶部と、
初期設定部と、トレンドクラス推定部と、スイッチ変数推定部と、収束判定部と、出力部と、を備えており、
前記初期設定部は、前記文書それぞれが属する前記トレンドクラス、および、前記トレンドクラスに属する1以上のトピッククラス、の初期値を設定し、
前記トレンドクラス推定部は、前記第1の計算式および前記スイッチ変数に基づいて、前記文書毎に、前記トレンドクラスそれぞれについて、その文書の属する確率を計算し、その確率が、0以上1未満の乱数値よりも高い場合に、その文書がその前記トピッククラスに属するものと推定し、
前記スイッチ変数推定部は、前記第2の計算式に基づいて、前記文書毎の前記トークン毎に、前記文書すべてについての単語生成分布を用いて計算した場合の正解の単語を選択する条件付確率と、前記トレンドクラスについての単語生成分布を用いて計算した場合の正解の単語を選択する条件付確率と、前記トピッククラスについての単語生成分布を用いて計算した場合の正解の単語を選択する条件付確率と、を計算して、そのうちの最大の数値が、0以上1未満の乱数値よりも高い場合に、その最大の数値を計算するのに使用した単語生成分布に対応するスイッチ変数を決定し、
前記収束判定部は、前記所定の計算終了条件を満たすまで、前記トレンドクラス推定部と前記スイッチ変数推定部とに、計算を繰り返させ、
前記出力部は、前記収束判定部によって前記所定の計算終了条件が満たされたと判定されたとき、前記複数の文書それぞれが属する前記トレンドクラスを含む計算結果を出力する
ことを特徴とするトレンド分析方法。 - 前記収束判定部は、
前記所定の計算終了条件として、前記トレンドクラス推定部と前記スイッチ変数推定部との少なくとも一方によって計算された前回と最新の確率の誤差が所定の閾値以下であること、または、繰り返された計算回数が所定回数に達したこと、を用いる
ことを特徴とする請求項3に記載のトレンド分析方法。 - 請求項1または請求項2に記載のトレンド分析装置としてコンピュータを機能させるためのトレンド分析プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009294925A JP5276581B2 (ja) | 2009-12-25 | 2009-12-25 | トレンド分析装置、トレンド分析方法およびトレンド分析プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009294925A JP5276581B2 (ja) | 2009-12-25 | 2009-12-25 | トレンド分析装置、トレンド分析方法およびトレンド分析プログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2011134230A JP2011134230A (ja) | 2011-07-07 |
JP2011134230A5 JP2011134230A5 (ja) | 2012-03-08 |
JP5276581B2 true JP5276581B2 (ja) | 2013-08-28 |
Family
ID=44346861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009294925A Expired - Fee Related JP5276581B2 (ja) | 2009-12-25 | 2009-12-25 | トレンド分析装置、トレンド分析方法およびトレンド分析プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5276581B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2789701C (en) * | 2011-10-11 | 2020-04-07 | Tata Consultancy Services Limited | Content quality and user engagement in social platforms |
JP5677999B2 (ja) * | 2012-03-30 | 2015-02-25 | エヌ・ティ・ティ・コムウェア株式会社 | 分類装置、分類システム、分類方法及び分類プログラム |
JP5887246B2 (ja) * | 2012-10-10 | 2016-03-16 | エヌ・ティ・ティ・コムウェア株式会社 | 分類装置、分類方法、および分類プログラム |
JP6132232B2 (ja) * | 2013-02-01 | 2017-05-24 | パナソニックIpマネジメント株式会社 | メイクアップ支援装置、メイクアップ支援システム、およびメイクアップ支援方法 |
JP6170023B2 (ja) * | 2014-08-12 | 2017-07-26 | 日本電信電話株式会社 | コンテンツ推薦装置、コンテンツ推薦方法及びコンテンツ推薦プログラム |
KR101575683B1 (ko) | 2014-12-23 | 2015-12-09 | 고려대학교 산학협력단 | 시간 흐름에 따른 문맥 기반 트렌드 분석 방법 |
JP6296305B2 (ja) * | 2016-01-25 | 2018-03-20 | パナソニックIpマネジメント株式会社 | メイクアップ支援装置、メイクアップ支援方法およびメイクアップ支援プログラム |
JP6132249B2 (ja) * | 2016-01-25 | 2017-05-24 | パナソニックIpマネジメント株式会社 | メイクアップ支援装置、メイクアップ支援方法およびメイクアップ支援プログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10154150A (ja) * | 1996-11-25 | 1998-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 情報潮流提示方法及びその装置 |
JP2007011571A (ja) * | 2005-06-29 | 2007-01-18 | Advanced Telecommunication Research Institute International | 情報処理装置、およびプログラム |
US8250005B2 (en) * | 2007-01-17 | 2012-08-21 | Nec Corporation | Change-point detecting method and apparatus |
-
2009
- 2009-12-25 JP JP2009294925A patent/JP5276581B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011134230A (ja) | 2011-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5276581B2 (ja) | トレンド分析装置、トレンド分析方法およびトレンド分析プログラム | |
Chang et al. | Structured learning with constrained conditional models | |
Ahmadian et al. | A deep learning based trust-and tag-aware recommender system | |
Kumar et al. | Social popularity based SVD++ recommender system | |
Goossen et al. | News personalization using the CF-IDF semantic recommender | |
Sánchez et al. | Building user profiles based on sequences for content and collaborative filtering | |
TW201822098A (zh) | 用於預測商品的市場需求的計算機裝置與方法 | |
Gu et al. | Learning global term weights for content-based recommender systems | |
Rossetti et al. | Towards explaining latent factors with topic models in collaborative recommender systems | |
CN107688870B (zh) | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 | |
Hu et al. | Large-margin feature selection for monotonic classification | |
Zhang et al. | Application and research of improved probability matrix factorization techniques in collaborative filtering | |
Kawai et al. | Topic model-based recommender systems and their applications to cold-start problems | |
Berti-Équille | Reinforcement learning for data preparation with active reward learning | |
CN113763031A (zh) | 一种商品推荐方法、装置、电子设备及存储介质 | |
Liu et al. | Integrating user short-term intentions and long-term preferences in heterogeneous hypergraph networks for sequential recommendation | |
Uetsuji et al. | User intent estimation from access logs with topic model | |
JP2010267017A (ja) | 文書分類装置、文書分類方法および文書分類プログラム | |
Churchill et al. | Using topic-noise models to generate domain-specific topics across data sources | |
Bahrkazemi et al. | A strategy to estimate the optimal low-rank in incremental SVD-based algorithms for recommender systems | |
Ng et al. | Personalized book recommendation based on a deep learning model and metadata | |
CN113792147A (zh) | 基于用户需求预测产品设计参数的方法、装置及设备 | |
Delianidi et al. | A graph-based method for session-based recommendations | |
Xu et al. | Query recommendation based on improved query flow graph | |
Mirylenka et al. | Linking IT product records |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110822 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120124 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120124 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20130201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130514 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130517 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5276581 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |