JP2007264718A - ユーザ興味分析装置、方法、プログラム - Google Patents

ユーザ興味分析装置、方法、プログラム Download PDF

Info

Publication number
JP2007264718A
JP2007264718A JP2006085174A JP2006085174A JP2007264718A JP 2007264718 A JP2007264718 A JP 2007264718A JP 2006085174 A JP2006085174 A JP 2006085174A JP 2006085174 A JP2006085174 A JP 2006085174A JP 2007264718 A JP2007264718 A JP 2007264718A
Authority
JP
Japan
Prior art keywords
user
word
file
words
influence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006085174A
Other languages
English (en)
Inventor
Masahiro Matsumura
真宏 松村
Julian Brody
ブローディ ジュリアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2006085174A priority Critical patent/JP2007264718A/ja
Publication of JP2007264718A publication Critical patent/JP2007264718A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ユーザの閲覧したファイル間を伝播している語から、ユーザの変わりゆく興味をリアルタイムに推定するアルゴリズムやそれを実装した装置などを提供すること。
【解決手段】ユーザが閲覧した履歴から複数のファイルに含まれる語をファイル毎にテキストとして入力する手段と、そのテキストから言語単位に分割する手段と、ユーザが閲覧した複数のファイル間でユーザが参照した「伝播する語」を抽出する手段と、一または複数の前記「伝播する語」を記憶する手段と、前記「伝播する語」の全てのファイルに対する出現頻度から所定の「影響度」と、「伝播する語」の特定のファイル内に出現する程度を表す所定のiDF値を求める手段と、「影響度」と前記iDF値との関数である「影響度iDF値」に応じてユーザの興味ある語の集合をユーザプロファイル情報として抽出する手段と、を備える。
【選択図】図1

Description

本発明は、ユーザ興味分析装置、その制御方法、および当該方法を実現するコンピュータ・プログラムに関する。
近年、インターネットを始めとしてユーザが参加できる、いわゆる双方向メディアは、様々なニーズに応じて、その種類も量も益々拡大している。その中でも、匿名で情報を発信することによって別人格でも意見交換ができる掲示板メディア、記入した所見を時系列で表示し、所見に応じて相互にハイパーリンクをすることで情報発信や意見交換をすることができるブログ(WEB Log)メディア、加入することにより友人関係や趣味・思考を共有・シェアできるコミュニティであるソーシャルメディアなどの発展が特に著しい。
このようなメディア上において、ユーザをプロファイリング、カテゴライズする試みや、ユーザに強い影響を与えるキーワードを見出す試みがなされている。なぜならば、ユーザの興味、嗜好、ニーズ、年代、性別、地域、職業、価値観など、いわゆる「属性」を評価することができれば、ユーザに対して的確なコンテンツ配信や広告配信を行うこと(これをターゲット配信と称する)ができ、また、ユーザ同士の意見交換が購買意思決定に影響を与えることも指摘されていることから、ユーザに強い影響を与えるキーワードを見出すことができれば、企業の商品の開発やマーケティング戦略に役立てたりすることが可能となると考えられている。
そのため、例えばマーケティングの現場では、分析者が掲示板やブログに目を通したり、コミュニティに参加して影響力のあるキーワードをピックアップすることがなされているが、これはいわば手動で行っており、判断基準は分析者の経験や感性に基づいているので、統一的な指標で評価することができないし、膨大なメディアの中での分析作業は多くのリソースを必要とする。
ユーザをプロファイリング、カテゴライズする試みとしては、アンケートによるものがあるが、充分な量のサンプルの回収には大きな労力が発生する上に、アンケート回収後の的確なターゲティング配信のためにはユーザのブラウザの固有情報に紐付けることによって、またはユーザがログインしている状態でしかトレースできないため、特定のメディア内部でしか適用できず、汎用的に用いることはできない。また、様々な要因で、内容が不正確であることが指摘されている。
また、ユーザを自動的にプロファイリング、カテゴライズする試みとしては、ユーザの情報閲覧履歴や検索条件入力を解析し、ユーザの嗜好や興味に関する情報をユーザプロファイルとして保持する技術が知られている(例えば、特許文献1)。
しかし、上記のような手法は、属性の評価やキーワードの決定の過程において語彙の頻度を重要なファクターにしているため、例えば掲示板のような匿名性が高いメディアにおいては意見の極化や誹謗中傷的な内容によって、頻度の高い語彙が必ずしも影響力を持つものではないことが指摘されている。また、ブログメディアやソーシャルメディアも含めて、頻度が高くなるのは、必ずしも中心的な話題に出てくる影響力のある語彙ではなく、周辺的な話題で多く登場する語彙や一般的な語彙であることが多いので、真に影響力のあるキーワードを抽出して正確にユーザをプロファイリング、カテゴライズすることは困難であった。
そこで、双方向性メディアの主要な構成要素であるテキスト情報によるコミュニケーションにおいて、文字すなわち語彙への興味が伝播していく過程に着目することにより、影響力のあるキーワードを定量的に見出すモデルが提案されている(非特許文献1)。この、コンテクスチャルな支配の強さすなわち影響の普及を表すモデルでは、テキストコンテンツおよび語彙に対してその媒介影響量を定義し、これを尺度することによって頻度が低くても影響力の大きいキーワードを抽出できるとしている。
また、このようなメディア上で、ユーザごとに、上述のようにして抽出した影響力の大きいキーワードの集合から導かれる特徴をそのユーザのプロファイルと定義することによってユーザをプロファイリング、カテゴライズするアルゴリズムが提案されている(非特許文献2)。
特開2003−67410号公報 松村真宏ほか;テキストによるコミュニケーションにおける影響の普及モデル,人工知能学会論文誌17巻3号SP−B,P259−267,2002 松村真宏ほか;影響の普及モデルに基づくオンラインコミュニティ参加者のプロファイリング,人工知能学会論文誌18巻4号A,P165−172,2003
しかし、これらの提案のいずれにおいても伝播の向きや履歴を有効に生かすことができないため、ユーザの変わりゆく興味をリアルタイムに推定することができなかった。すなわち、このような双方向メディアに共通する特徴として、レスポンス、コメント、リンク、及びトラックバックを可能ならしめる技術によって、ユーザ同士が意見や情報の記述、交換、参照をすることが可能になっていることが挙げられるのであるが、このような技術によって可能になっている意見や情報の記述、交換、参照の時系列の情報に対してノードや閲覧順序を定義することによって、伝播の向きや履歴を有効に生かす有向リンクを定義することができる。また、ユーザは自身の興味に従ってファイル(例えばWEBページ)を閲覧するので、ユーザの閲覧したファイル集合に一貫して含まれる特徴的な語は、その時々のユーザの興味をリアルタイムに反映している。
そこで、本発明では、ユーザの閲覧したファイルをノード、閲覧順序を有向リンクとする有向グラフにおいて、ノード間を伝播している語の出現頻度を再帰的に計量し、その値の上位の語の集合を抽出することにより、ユーザの変わりゆく興味をリアルタイムに推定するアルゴリズムやそれを実装した装置、方法およびプログラムを提案する。
(1)ファイルを閲覧するユーザの興味のある語を抽出するユーザ興味分析装置であって、ユーザが閲覧した履歴情報を利用してユーザが閲覧したファイルに含まれる複数の語をファイル毎にテキストとして入力する手段と、前記テキストから意味を有する最小の言語単位に形態素分割する手段と、ユーザが閲覧した複数のファイル間でユーザが参照した「伝播する語」を抽出する手段と、一または複数のその伝播する語を記憶する手段と、伝播する語の対象とするファイルに対する出現頻度から所定の「影響度」および伝播する語の特定のファイル内に出現する程度を表す所定のiDF値を求める手段と、前記影響度と前記iDF値との関数である「影響度iDF値」の値に応じてユーザの興味ある語をユーザプロファイル情報として抽出する手段と、そのユーザプロファイル情報を出力する手段と、を備えるユーザ興味分析装置を提供する。
(1)の発明によれば、まず、ユーザがインターネット上で閲覧したファイルの履歴からユーザがリンクなどによってさらに参照した語をファイル上で伝播する語として抽出する。次に、その伝播する語の後に参照されたファイルに対する影響度を数値化する。さらに、その伝播する語が全ファイル内に出現する程度であるiDF(Inverse Document Frequency)値を求め、影響度とiDF値との関数である影響度iDF値の値に応じてそのユーザにとって興味のある語を検出する。さらに、検出された語の特定の集合を影響度iDF値と共にユーザのプロファイル情報として出力する。以上の機能を備えることにより、変わり行くユーザの興味のある語をリアルタイムに分析可能とするユーザ興味分析装置が提供できる。
また、このユーザ興味分析装置が出力したプロファイル情報を参照して、そのユーザの興味がある語に関連する商品の販売戦略に利用したり、コンテンツや広告を配信したり、ダイレクトメールなどを効率的にそのユーザに送信することができる。
(2)前記プロファイル情報を他のユーザに公開する手段をさらに備える、(1)に記載のユーザ興味分析装置。
(2)の発明によれば、インターネット上のコミュニティにおいて、他のユーザの興味ある語を知ることにより、自分と共通する興味をもつユーザを見つけること(友達探し)やその分野に詳しそうなユーザを見つけて、質問すること(達人探し)などが可能になる。
(3)前記伝播する語に関連する語を検出するための類似語辞書を更に備え、前記影響度iDF値を前記伝播する語に関連する語に対しても算出する手段を備える、(1)または(2)に記載のユーザ興味分析装置。
(4)上記(1)〜(3)において、前記影響度iDF値が、所定の数式(後述)で求められる、ユーザ興味分析装置。
また、上記(1)〜(4)の発明を備えた装置は、同等な制御方法、およびその制御方法をコンピュータに実行させるコンピュータ・プログラムによっても実現可能である。
本発明によれば、ユーザの閲覧したファイルをノード、閲覧順序を有向リンクとする有向グラフにおいて、ノード間を伝播している語の影響力と出現頻度を加味した値を再帰的に計量し、その値の上位の語の集合を抽出することにより、ユーザの変わりゆく興味をリアルタイムに推定することができる。
以下、本発明の実施形態について図を参照しながら説明する。
図1は、本発明に係るユーザ興味分析装置の機能ブロック図の一例を示したものである。ユーザ興味分析装置10は、図に示すように、ファイルテキスト入力手段2、形態素分割手段3(必須ではない)、伝播語抽出手段4、影響度算出手段5、iDF値算出手段6、データの一時保管に用いる記憶手段7、ユーザ興味語抽出手段8、プロファイル情報出力手段9、類義語辞書11で構成される。但し、本構成は一例を示したものであり、同等な機能を持つ他の構成をとってもよい。
まず、ユーザ興味分析装置10は、ユーザのファイル閲覧履歴1を入力とし、ファイルテキスト入力手段2によって、ページ毎にテキストを抽出する。ファイル閲覧履歴は、一般にはインターネット・ブラウザの一時記憶ファイルに存在するが、掲示板やブログの閲覧履歴情報であってもよい。
次に、抽出したテキストが文章で構成されている場合には、形態素分割手段3によって文章を必要な単位に分割する。ページ内のメタデータを用いる場合や抽出したページが単語のみで構成されている場合など、形態素分割手段3の処理がスキップされる場合もある。次の、伝播語抽出手段4によって、ユーザがある一定期間に参照したファイル群またはその中の必要部分を解析し、そのページ内で共通する語、または伝播する語を抽出する。共通する語とは、各ファイルに共通に出現するキーワードを指す。但し、後の例で述べるように、共通する語は、各ファイルで必ずしも完全一致した語である必要はなく、一部が一致する語や類義語を含むものとする。
また、伝播する語とは、ユーザが、あるファイルから次のファイルを参照するきっかけ(トリガー)や影響を与えた語を言う。伝播する語についても、各ページで完全一致する必要はなく、一部が一致する語や類義語を含むものとする。類義語は、周知のシソーラス(類義語辞書)などを用いて定義される。なお、伝播する語については後述の例でさらに詳しく説明する。
次に、影響度算出手段5、およびiDF値算出手段6によって、抽出された一または複数の伝播する語それぞれについて、その伝播の影響力を表す影響度と、伝播する語の出現頻度(ファイル数)の関数であるiDF(Inverse Document Frequency)値を算出する。伝播の影響度とは、伝播する語の、後に参照されたファイルに対する影響力(重み)を表す量である。例えば、TF値(Term Frequency)の定義を適用することができる。TF値は、一般的には、対象とする文書に対象とする単語が出現する頻度を表すが、本発明においては、文書はユーザが閲覧したファイル群またはその中の必要部分を対象とする。以下、伝播の影響度EDT(Effect of Diffusible Term)と称する。
また、iDF値とは、対象とする語句が対象とする文書に出現する頻度の関数であり、一般にはこの頻度の増加に伴って減少する関数として定義される。以下、先に述べた影響度と、このiDF値との積を「影響度iDF値」と呼ぶことにする。影響度iDF値は、G.Saltonの提唱したTFiDFの一般式(G. Salton, M. McGill, Introduction to Modern Information Retrieval, New York, McGraw−Hill, 1983)、またはそれを変形した数式を用いることが便利であるが、語句の伝播に注目してその影響度を定義している特長を備えていればよい。例えば、本発明の実施形態の一例として、次の数式を用いて計算している。
Figure 2007264718
ここで、
tは伝播する語、
EDTは、伝播する語がユーザが所定の時間中に閲覧したファイル群の中に出現する頻度、
Nは、ユーザが所定の時間中に閲覧した全ファイル数、
DF(t)は、伝播する語tを含むファイル数、
を表す。
所定の時間とは、ユーザ分析装置が分析する対象期間を指し、分析対象やニーズに従って個別に定めることができる。例えば、数時間であっても、数ヶ月であってもよい。
上記の例では、影響度として一般的なTF値に対する定義を用いたが、影響度を他の方法で定義してもよい。また、上記iDF(t)式において、対数を用いなくても良いが、対数を用いる場合は、logの底として、10を用いる他、自然対数eや、2などを用いることも可能である。従って、影響度算出手段5、iDF値算出手段6は、それぞれ複数の数式から選択することができるため、対応する複数の手段を備える。図1ではこれらを5a、5b、6a、6bで表している。
さらに、算出された影響度とiDF値を用いて、ユーザ興味語抽出手段8によって、この影響度iDF値を先に抽出された伝播する語それぞれについて求め、この値に応じてユーザが興味を持った語を抽出する。例えば、影響度iDF値が大きい語をユーザが興味を持った語として抽出することができる。
最後に、プロファイル情報出力手段9によって、影響度iDF値が予め定められた閾値を比較して、そのユーザのプロファイルを出力する。
図2は、ユーザ興味分析装置を他の実施形態で示したものである。図2のユーザ興味分析装置20は、一般的なコンピュータ・システムで実現される。すなわち、CPU21、入力部22、出力部23、通信部24、プログラムメモリ25、作業用メモリ26、ユーザプロファイル27で構成される。また、前述の類義語辞書11をオプションとして追加してもよい。
入力部22は、ユーザからの操作入力を受付ける一般的なマウスやキーボードなどの入力機器でよく、出力部23は、液晶やCRTなどの表示ディスプレイでよい。また、通信部24は、LANやインターネット通信網とのデータの送受信を行う。
プログラムメモリ25には、CPU21が実行する本装置の各機能を備えるプログラムが格納されている。すなわち、装置全体の制御部、入力したファイルからキーワードを抽出するキーワード抽出部、影響度iDF値を所定のアルゴリズムで求める影響度iDF値算出部、およびプロファイル作成部などのプログラムが格納されている。プログラムは機能別に分割されている必要はなく、単一のプログラムで構成されてもよい。
プログラムメモリ25は、ROMやフラッシュメモリであってもよいし、ハードディスク(HDD)からロードされるRAMであってもよい。作業用メモリ26は、CPU21が処理する中間データを一時的に格納するもので、一般的にはRAMまたはHDDで構成される。
ユーザプロファイル27は、プログラムメモリ25に格納されたプログラムを実行した結果を格納する記憶部である。また、類義語辞書11は、既に述べたように、テキストから抽出した単語群に対する類義語を定義するための辞書であり、キーワード抽出部から必要に応じて参照される。
図3は、前述の伝播する語の概念を示す図である。この図においては、例として、あるユーザが閲覧したページの履歴が示されている。まず、ユーザはページ1の中に興味ある語を発見した。ユーザはそれをより詳しく調べるために、その語を検索ページに入力してファイルを検索するか、あるいは直接その語からハイパーリンクが張られている場合はこれをクリックしてページ2を閲覧する。もちろん検索やハイパーリンク以外の遷移手段であってもよい。同様に、ページ2からページ3へと移りページ3を閲覧したが、そこでは興味ある語の記述がなかったためにページ2ヘ戻り、ページ2から更に別のページ4を閲覧し、ページ4から更に別のページ5へと閲覧を繰り返している。
このようなページの閲覧履歴は、閲覧したページをノードとし、ページからページへの閲覧順序を有向リンク(エッジ)とする有向グラフで表現することができる。有向グラフとは、ノード間のエッジに方向性があるグラフをいう。
図示するように、このユーザが閲覧したページ1〜5にはすべて「共通する語」36が含まれているが、ユーザが興味のある語は必ずしもこの共通する語36でなく、検索バーを用いて検索した語やハイパーリンク上に記載された語であることも多い。このように、ページ間を遷移(ジャンプ)するトリガーとなった語または影響力を持った語を、「伝播する語」と呼んでいる(図では、伝播する語37として示している)。すなわち、伝播する語は、たまたまページ間で共通して出現する語(共通する語)よりもそのユーザの興味をリアルタイムに表していると考えられる。一方、共通する語だけを単に頻度順に抽出しても、上位頻出語として抽出されるのは、例えば、「商品」、「インターネット」などのような一般名詞や、「する」、「である」などの動詞であることが多く、ユーザが真に興味のある語(影響力のある語)を見出すことは容易ではない。そこで、本発明では、このファイル間を伝播する語がユーザの興味を最も端的に示し、しかも、参照するファイル数の上限の調整または分析の対象期間の調整により、興味が変わり行く過程をリアルタイムに示すようにコントロールできる点に注目する。
図4は、ファイル閲覧におけるユーザの興味ある語が変わって行く例を示したものである。まず、ユーザは、新製品ニュース41(ページ1)で、X社が新製品として液晶TVの最新モデルである製品Aを発売したことを知る。かねてから液晶TVに興味があったユーザは、早速X社の製品情報サイト42(ページ2)へ行き製品Aの情報を見る。ここでユーザは、製品Aの情報の詳細を見ていくうちに、他社の類似製品と比較したいとの衝動にかられ、価格比較サイト43(ページ3)で液晶TVの複数のメーカの製品リストを表示した。ここでユーザはX社の新製品Aよりも同等な機能で製品Aより価格が安いY社の製品Bに興味を持った。そこでY社の製品情報サイト44(ページ4)へ飛び、製品Bの情報を見る。そこでたまたま製品Bが製品Cの後継機ではあるが、製品Cよりかなり価格が高いことを知ったユーザは、今度は製品Cに興味を持ち同じY社の製品情報サイト45(ページ5)で製品Cの情報を閲覧した。製品Cにさらに興味を持ったユーザは、更に最も安く手に入る店を探すために、再び価格比較サイト46(ページ6)にもどり、そこから最安値で販売しているショップZを知る。ショップZサイト47(ページ7)へ移ったユーザは、最終的に購入を決意し、そのまま購入ページ48(ページ8)から製品Cを発注した。
以上のような想定で、このユーザがたどったページ1からページ8に含まれるテキストすべてをユーザ興味分析装置を用いて分析すると、キーワードとして、「液晶TV」、「X社」、「製品A」、「Y社」、「製品B」、「製品C」が抽出される。ここで、「液晶TV」という語は、すべてのページに共通して出現しているが、「製品A」、「製品B」、「製品C」という語はその製品のメーカサイトで仕様の説明などのページ内に多く出現しているものとする。例えば、図に示すように、「液晶TV」は各ページに1回、「製品B」、「製品C」は、Y社の製品仕様のページに各5回ずつ出現している。また、この例では、製品Aの仕様はユーザは参照していないので、「製品A」が出現した回数は、ページ1、ページ2、ページ3において各1回である。一方、ユーザの興味は当初は製品Aにあったが、しだいに製品B、製品Cへと移り、最終的に製品Cを注文しているので、「製品C」が出現した回数は、ページ3に1回、ページ4に1回、ページ5に5回、ページ6〜8に各1回となる。
図5は、図4の例において各キーワードの影響度iDF値を実際に計算した例を示す。ここで影響度iDF値は、前述の<数1>の数式を用いて算出した。今回ユーザが参照した総ページ数Nは8であり、例えば、「製品C」が出現したのは、ページ3〜8の6回であるのでDF値は6となる。また、「製品C」はページ5において5回、ページ3、4、6、7、8にそれぞれ出現しているので、影響度は、5+1+1+1+1+1=10となる。従って、影響度iDF値は、10*8/(log(6+1))=94.7となる。同様に他のキーワードについて影響度iDF値を求め、それらを大きい順に並べると図5に示す表となる。
この表でわかるように、「液晶TV」は、すべてのページに出現する共通語であるが、影響度iDF値は低く、「製品C」や「製品B」のほうがはるかにユーザの興味を示している語であることがわかる。このようにして影響度iDF値の上位の語の集合を集めることによりそのユーザのプロファイルを作成することができる。ここで影響度iDF値の上位の語の選別には、予め与えられた閾値などを用いてもよい。
図6は、インターネットの掲示板におけるユーザの興味ある語が変わり行く具体例を示したものである。この図では、Aさん、Bさん、Cさん、Dさんの間で交わされた以下のような掲示板でのやりとりを示している。
Aさんは、近く旅行に行くことを決め旅先での宿を探すために、“今度、3泊4日で函館あたりに旅行に行くのですがお勧めのホテルなどの情報教えてください”(61)とのコメントを掲示板に書き込んだ。それに対して、Bさんから、“函館ならXホテルがお勧めです。綺麗だし価格もリーゾナブルです”(62)とのレスがあった。また、Cさんからは“Aさんは、温泉は好きですか。函館へ行くのならよい温泉旅館がありますよ”(63)とのコメントが返ってきた。Aさんは、早速、Bさん、Cさんにお礼をいうと共に、Cさんに、“Cさん、ありがとうございます。温泉も大好きです”(64)との返事を入れた。そこで、Cさんは、Y旅館とZ旅館を紹介した(65)。一方、そのやりとりを見ていたDさんは、“Aさん、函館へ行くのなら、定山渓まで足を伸ばしてはいかがでしょう。お勧めはこちら”(66)と、Aさんが行く予定の函館ではなく、定山渓のQホテルとR旅館をホームページのリンク付で紹介した。これを見たAさんは、函館から定山渓まで足を伸ばすのも悪くないと考えて、“早速、定山渓の温泉旅館も調べてみます”(67)との返答を行った。その後、Aさんは、Dさんが紹介してくれたURLのQホテルとR旅館のホームページ(68、69)を調べて、最終的にR旅館に予約を入れた。以下、各コメント61〜69(QホテルとR旅館のホームページを含む)を、ページ1〜ページ9と呼ぶことにする。
このやりとりの中で出現する主なキーワードは、ページ1では、「函館」、「旅行」、「お勧め」、「ホテル」である。また、ページ2では、「函館」、「ホテル」、「お勧め」「綺麗」、「価格」、「リーゾナブル」などがキーワードとなる。同様に、ページ3からページ8までのキーワードを抽出し、接続詞や助詞などキーワードとなりにくい語を除いて、影響度iDF値の大きい順に並べる。これを図7の表に示す。
Aさんは、当初、函館のお勧めのホテルを探すつもりで掲示板にコメントを書き込んだのであるが、Cさんのコメントを見て、温泉に興味を持ち、その後、Dさんが書き込んだ温泉旅館のホームページへのリンクが決め手となって、当初の行き先である函館とはかなり離れた定山渓の温泉旅館を予約することになったのである。
この例からわかるように、Aさんの行動(興味)に重要な影響を与えた語は、「温泉」であることは明らかである。図7の表からも、「温泉」の影響度iDF値が最上位に位置しており、このことが読み取れる。また、Aさんが、当初興味を持っていた「函館」や「旅行」は下位に位置し、興味がしだいに薄れていったことがわかる。
このように、本発明のユーザ興味分析装置を用いて、ユーザが所定の期間閲覧したページを時系列に分析していくことで、ユーザの興味の移り代わりをリアルタイムに調べることができる。そして、このユーザの興味に対して大きな影響力を持つ語(上記の例では、「温泉」)を見出すことができれば、そのような情報を多数集め、商品企画やマーケティングツールとして大いに役立てることができる。
図8は、図6の掲示板の例において、類義語を考慮した影響度iDF値の計算の例を示す図である。すなわち、「ホテル」と「旅館」は類義語として定義し、両者をまとめて一つの語と考えて、「ホテル・旅館」を図7の他の上位3つまでの語と比較したものである。ここで、「ホテル」と「旅館」を合わせて一つの語と扱ったためその合計の出現頻度は高くなり、影響度iDF値も上昇する。従って、ユーザの興味は、旅館であろうとホテルであろうと「宿」にあることは間違いない。ただし、それでも「ホテル・旅館」の影響度iDF値は、「温泉」の値には及んでいない。ユーザ興味分析装置の目的は、このような影響力の強い語を見つけ出すことである。従って、最適な影響度iDF値を求める数式も複数のものから選択できるようになっている。
図9は、ユーザ興味分析装置の他の応用例を示す図である。ユーザA、ユーザB、ユーザCの各端末(91〜93)には、ユーザ興味分析装置がそれぞれ備えられ、各ユーザは、ユーザ興味分析装置の出力である自己のプロファイルをインターネット94を介して公開することに同意しているとする。もちろん、プロファイルの中に非公開としたい情報があれば、それを除いた形で公開できるようにしてもよいし、不特定多数に公開するのではなく、会員のユーザにのみ公開するようにしてもよい。この公開されたユーザプロファイル情報は、プロファイルサーバ95の公開プロファイルDB96に集積される。公開プロファイルDB96の中には、各ユーザ毎にそのユーザのプロファイルテーブルA、B、C(97〜99)が作成される。プロファイルテーブルには、各ユーザの興味ある語がその順位と共に並べられているので、これを公開することによって、さまざまなコミュニティ形成のツールとなり得る。
例えば、ユーザAが、「釣り」に興味がある場合、同じ趣味を持つユーザをこの公開プロファイルDB96から探すことができる。すなわちこの場合、ユーザ興味分析装置は、“友達探し”のツールである。この例では、ユーザCのプロファイルテーブルC99には「釣り」に関連する語が上位にあるので、ユーザAはユーザCが同じ趣味を持つ人物であることがわかり直接コンタクトをとるかもしれない。ユーザCの興味ある語は、ユーザAも分かっているので大いに話が弾むことも期待できる。
また、公開プロファイルDB96には、興味ある語の影響度iDF値の順位だけでなく、興味ある語が出現したページ総数や、EDT値、ページの履歴の期間などの数値も同時に参照できるようにしておけば、その興味ある語がどのくらいの規模(ボリューム)でそのユーザのプロファイルを形成しているかを判断することができる。例えば、「釣り」またはその類義語が出現する総ページ数(ユーザCが所定の期間に閲覧したページ)が、人並み外れて膨大であれば、ユーザCは相当釣り好きの人か、あるいは達人であるとの推定もできる。すなわち、ユーザ興味分析装置は、“達人探し”のツールともなり得るのである。
このように、本発明のユーザ興味分析装置によって得られたユーザプロファイル情報は、それを公開するユーザが多くなればなるほど、商品企画やマーケティングツールとして大いに役立つばかりか、個人的な趣味の友人探しや、達人探しのツールとしても用いることができる。また、プロファイルを一般には公開したくないユーザにとっても、家族内や気心の知れた友人どうしでのみ公開することにしておけば、お互いにプレゼントを考えるとき、旅行に誘うとき、食事に誘うときなどの基本情報として、さまざまな用途に使用できる可能性がある。
以上、本発明を実施形態や実施例を用いて説明したが、本発明の技術的範囲は、上記の実施形態などに限られるものではない。上記実施形態に多様なバリエーションまたは改良を加えることが可能である。
なお、本発明の図1または図2の実施形態であるユーザ興味分析装置は、コンピュータ上のプログラムによっても実現可能である。上記プログラムを格納する記憶媒体は、電子的、磁気的、光学的、電磁的、赤外線または半導体システム(または、装置または機器)であることができる。この記憶媒体の例には、半導体またはソリッド・ステート記憶装置、磁気テープ、取り外し可能なコンピュータ可読の媒体の例には、半導体またはソリッド・ステート記憶装置、磁気テープ、取り外し可能なフロッピー(登録商標)・ディスク、ランダム・アクセス・メモリ(RAM)、リードオンリー・メモリ(ROM)、リジッド磁気ディスクおよび光ディスクが含まれる。現時点における光ディスクの例には、コンパクト・ディスク−リードオンリー・メモリ(CD−ROM)、コンパクト・ディスク−リード/ライト(CD−R/W)およびDVDが含まれる。
本発明に係るユーザ興味分析装置の一つの実施形態における機能ブロックを示す図である。 本発明に係るユーザ興味分析装置の他の実施形態における機能ブロックを示す図である。 本発明に係る伝播する語の概念およびページ間の有向グラフを示す図である。 本発明の実施例1として、ファイル閲覧の具体例を示す図である。 図3の実施例における影響度iDF値の計算の具体例を示す図である。 本発明の実施例2として、掲示板におけるユーザの興味ある語が変わり行く具体例を示す図である。 図6の実施例において、影響度iDF値の計算の具体例を示す図である。 図6の実施例において、類義語を考慮した影響度iDF値の計算の具体例を示す図である。 本発明の実施例3として、ユーザプロファイルを他のユーザに公開可能とするプロファイルサーバおよびプロファイルテーブルを示す図である。
符号の説明
1 ファイル閲覧履歴
2 ファイルテキスト入力手段
3 形態素分割手段
4 伝播語抽出手段
5 影響度算出手段
5a、5b 影響度算出手段
6 iDF値算出手段
6a、6b iDF値算出手段
7 記憶手段
8 ユーザ興味語抽出手段
9 プロファイル情報出力手段
10 ユーザ興味分析装置(第一の実施形態)
11 類義語辞書
20 ユーザ興味分析装置(第二の実施形態)
21 CPU
22 入力部
24 出力部
24 通信部
25 プログラムメモリ
26 作業用メモリ
27 ユーザプロファイル
36 共通する語
37 伝播する語
41 新製品ニュース
42 製品情報サイト
43 価格比較サイト
44 Y社製品情報サイト(製品B仕様ページ)
45 Y社製品情報サイト(製品C仕様ページ)
46 価格比較サイト
47 ショプZサイト
48 購入ページ
61〜69 ページ1〜9
91〜93 ユーザ端末
94 インターネット
96 プロファイルサーバ
97〜99 プロファイルテーブル

Claims (9)

  1. ファイルを閲覧するユーザの興味のある語を抽出するユーザ興味分析装置であって、
    前記ユーザが閲覧した前記ファイルの履歴から前記ファイルに含まれる複数の語を前記ファイル毎にテキストとして入力する手段と、
    前記テキストから所定の単位に分割する手段と、
    前記ユーザが閲覧した複数の前記ファイル間でユーザが参照した伝播する語を抽出する手段と、
    一または複数の前記伝播する語を記憶する手段と、
    前記伝播する語の複数の前記ファイルに対する出現頻度から、所定の影響度と前記伝播する語の特定の前記ファイル内に出現する程度を表す所定のiDF値を求める手段と、
    前記影響度と前記iDF値との関数である影響度iDF値に応じて前記ユーザの興味ある語の集合をユーザプロファイル情報として抽出する手段と、
    前記ユーザプロファイル情報を出力する手段と、
    を備える、ユーザ興味分析装置。
  2. 前記ユーザプロファイル情報を他のユーザに公開する手段をさらに備える、請求項1に記載のユーザ興味分析装置。
  3. 前記伝播する語に関連する語を検出するための類似語辞書を更に備え、
    前記影響度iDF値を前記伝播する語に関連する語に対しても算出する手段を備える、請求項1または2に記載のユーザ興味分析装置。
  4. 前記影響度iDF値が、次の数式で求められる、請求項1乃至3に記載のユーザ興味分析装置。
    Figure 2007264718
    ここで、
    tは伝播する語、
    EDTは、伝播する語tがユーザが閲覧したファイル群の中に出現する頻度、
    Nは、ユーザが所定の時間中に閲覧した複数のファイル数、
    DF(t)は、伝播する語tを含むファイル数。
  5. ファイルを閲覧するユーザの興味のある語を抽出するユーザ興味分析方法であって、
    前記ユーザが閲覧した前記ファイルの履歴から前記ファイルに含まれる複数の語を前記ファイル毎にテキストとして入力するステップと、
    前記テキストから所定の単位に形態素分割するステップと、
    前記ユーザが閲覧した複数の前記ファイル間でユーザが参照した伝播する語を抽出するステップと、
    一または複数の前記伝播する語を記憶するステップと、
    前記伝播する語の複数の前記ファイルに対する出現頻度から、所定の影響度と前記伝播する語の特定の前記ファイル内に出現する程度を表す所定のiDF値を求めるステップと、
    前記影響度と前記iDF値との積である影響度iDF値が高い順に前記ユーザの興味ある語の集合をユーザプロファイル情報として抽出するステップと、
    前記ユーザプロファイル情報を出力するステップと、
    を含む、ユーザ興味分析方法。
  6. ファイルを閲覧するユーザの興味のある語を抽出するユーザ興味分析コンピュータ・プログラムあって、
    前記ユーザが閲覧した前記ファイルの履歴から前記ファイルに含まれる複数の語を前記ファイル毎にテキストとして入力するステップと、
    前記テキストから意味を有する最小の言語単位に形態素分割するステップと、
    前記ユーザが閲覧した複数の前記ファイル間でユーザが参照した伝播する語を抽出するステップと、
    一または複数の前記伝播する語を記憶するステップと、
    前記伝播する語の全ての前記ファイルに対する出現頻度から、所定の影響度と前記伝播する語の特定の前記ファイル内に出現する程度を表す所定のiDF値を求めるステップと、
    前記影響度と前記iDF値との関数である影響度iDF値に応じて前記ユーザの興味ある語の集合をユーザプロファイル情報として抽出するステップと、
    前記ユーザプロファイル情報を出力するステップと、
    をコンピュータに実行させる、コンピュータ・プログラム。
  7. 前記ファイルが、WEBページである請求項1乃至4に記載のユーザ興味分析装置。
  8. 前記ファイルが、WEBページである請求項5に記載のユーザ興味分析方法。
  9. 前記ファイルが、WEBページである請求項6に記載のコンピュータ・プログラム。
JP2006085174A 2006-03-27 2006-03-27 ユーザ興味分析装置、方法、プログラム Pending JP2007264718A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006085174A JP2007264718A (ja) 2006-03-27 2006-03-27 ユーザ興味分析装置、方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006085174A JP2007264718A (ja) 2006-03-27 2006-03-27 ユーザ興味分析装置、方法、プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2011144495A Division JP2011198393A (ja) 2011-06-29 2011-06-29 ユーザ興味分析装置、方法、プログラム

Publications (1)

Publication Number Publication Date
JP2007264718A true JP2007264718A (ja) 2007-10-11

Family

ID=38637697

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006085174A Pending JP2007264718A (ja) 2006-03-27 2006-03-27 ユーザ興味分析装置、方法、プログラム

Country Status (1)

Country Link
JP (1) JP2007264718A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010128981A (ja) * 2008-11-28 2010-06-10 Nippon Telegr & Teleph Corp <Ntt> 操作シーケンス抽出方法及び装置及びプログラム
JP2011146004A (ja) * 2010-01-18 2011-07-28 Zigsow Kk Webコミュニティサイトを利用したユーザプロファイリングシステム
US8095652B2 (en) 2008-02-29 2012-01-10 International Business Machines Corporation Analysis system, information processing apparatus, activity analysis method and program product
WO2012176317A1 (ja) * 2011-06-23 2012-12-27 サイバーアイ・エンタテインメント株式会社 画像認識システムを組込んだ関連性検索によるインタレスト・グラフ収集システム
JP2013105364A (ja) * 2011-11-15 2013-05-30 Nippon Telegr & Teleph Corp <Ntt> 文書特徴抽出装置、文書特徴抽出方法、文書特徴抽出プログラム
WO2015190474A1 (ja) * 2014-06-12 2015-12-17 Emotion Intelligence株式会社 特典管理システム及び特典管理方法
CN106506234A (zh) * 2016-12-05 2017-03-15 深圳市彬讯科技有限公司 一种soa服务实时监控上报与服务性能度量方法
US10198426B2 (en) 2014-07-28 2019-02-05 International Business Machines Corporation Method, system, and computer program product for dividing a term with appropriate granularity
JP2020184151A (ja) * 2019-05-07 2020-11-12 株式会社ビービット ユーザ注目ワード分析装置、方法及びプログラム

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CSNG200600523002, 臼井 大介, "確率的手法を用いたWebページ推薦システム", 情報処理学会研究報告 Vol.2006 No.27, 20060317, 第2006巻 第27号, 25〜32, JP, 社団法人情報処理学会 *
CSNJ200610068089, 吉田 博哉, "ユーザの嗜好に基づいたRSSニュースリーダに関する基礎研究", 第68回(平成18年)全国大会講演論文集(3) データベースとメディア ネットワーク, 20060307, 3−185〜3−186, JP, 社団法人情報処理学会 *
CSNJ200910008075, 松井 一樹, "電子人格:サイバースペースにおけるコミュニティ形成支援", 第55回(平成9年後期)全国大会講演論文集(4) インタフェース コンピュータと人間社会, 19970924, 4−147〜4−148, JP, 社団法人情報処理学会 *
JPN6010073577, 臼井 大介, "確率的手法を用いたWebページ推薦システム", 情報処理学会研究報告 Vol.2006 No.27, 20060317, 第2006巻 第27号, 25〜32, JP, 社団法人情報処理学会 *
JPN6010073578, 松井 一樹, "電子人格:サイバースペースにおけるコミュニティ形成支援", 第55回(平成9年後期)全国大会講演論文集(4) インタフェース コンピュータと人間社会, 19970924, 4−147〜4−148, JP, 社団法人情報処理学会 *
JPN6010073579, 吉田 博哉, "ユーザの嗜好に基づいたRSSニュースリーダに関する基礎研究", 第68回(平成18年)全国大会講演論文集(3) データベースとメディア ネットワーク, 20060307, 3−185〜3−186, JP, 社団法人情報処理学会 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8095652B2 (en) 2008-02-29 2012-01-10 International Business Machines Corporation Analysis system, information processing apparatus, activity analysis method and program product
JP2010128981A (ja) * 2008-11-28 2010-06-10 Nippon Telegr & Teleph Corp <Ntt> 操作シーケンス抽出方法及び装置及びプログラム
JP2011146004A (ja) * 2010-01-18 2011-07-28 Zigsow Kk Webコミュニティサイトを利用したユーザプロファイリングシステム
US9600499B2 (en) 2011-06-23 2017-03-21 Cyber Ai Entertainment Inc. System for collecting interest graph by relevance search incorporating image recognition system
JPWO2012176317A1 (ja) * 2011-06-23 2015-02-23 サイバーアイ・エンタテインメント株式会社 画像認識システムを組込んだ関連性検索によるインタレスト・グラフ収集システム
WO2012176317A1 (ja) * 2011-06-23 2012-12-27 サイバーアイ・エンタテインメント株式会社 画像認識システムを組込んだ関連性検索によるインタレスト・グラフ収集システム
JP2013105364A (ja) * 2011-11-15 2013-05-30 Nippon Telegr & Teleph Corp <Ntt> 文書特徴抽出装置、文書特徴抽出方法、文書特徴抽出プログラム
WO2015190474A1 (ja) * 2014-06-12 2015-12-17 Emotion Intelligence株式会社 特典管理システム及び特典管理方法
JP2016001422A (ja) * 2014-06-12 2016-01-07 Emotion Intelligence株式会社 特典管理システム及び特典管理方法
US10198426B2 (en) 2014-07-28 2019-02-05 International Business Machines Corporation Method, system, and computer program product for dividing a term with appropriate granularity
CN106506234A (zh) * 2016-12-05 2017-03-15 深圳市彬讯科技有限公司 一种soa服务实时监控上报与服务性能度量方法
CN106506234B (zh) * 2016-12-05 2019-09-10 深圳市彬讯科技有限公司 一种soa服务实时监控上报与服务性能度量方法
JP2020184151A (ja) * 2019-05-07 2020-11-12 株式会社ビービット ユーザ注目ワード分析装置、方法及びプログラム
JP7403735B2 (ja) 2019-05-07 2023-12-25 株式会社ビービット ユーザ注目ワード分析装置、方法及びプログラム

Similar Documents

Publication Publication Date Title
US10748164B2 (en) Analyzing sentiment in product reviews
Kim et al. A scientometric review of emerging trends and new developments in recommendation systems
Eickhoff et al. Lessons from the journey: a query log analysis of within-session learning
TW201944266A (zh) 對話機器人檢索系統、對話機器人檢索方法、及程式
Zhang et al. Mining users trust from e-commerce reviews based on sentiment similarity analysis
US8713028B2 (en) Related news articles
Lewandowski Understanding search engines
KR101566616B1 (ko) 빅데이터 처리를 통한 광고의사결정시스템 및 방법
CN105488697A (zh) 一种基于客户行为特征的潜在客户挖掘方法
Akritidis et al. Identifying the productive and influential bloggers in a community
EP2188712A2 (en) Recommendation systems and methods
Vosecky et al. Searching for quality microblog posts: Filtering and ranking based on content analysis and implicit links
JPWO2009096523A1 (ja) 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム
Huang et al. A novel recommendation model with Google similarity
Wang et al. An approach to rank reviews by fusing and mining opinions based on review pertinence
US20180089193A1 (en) Category-based data analysis system for processing stored data-units and calculating their relevance to a subject domain with exemplary precision, and a computer-implemented method for identifying from a broad range of data sources, social entities that perform the function of Social Influencers
Jansen et al. Real time search on the web: Queries, topics, and economic value
JP2007264718A (ja) ユーザ興味分析装置、方法、プログラム
Lin et al. Blog popularity mining using social interconnection analysis
Alghamdi et al. The use and impact of Goodreads rating and reviews, for readers of Arabic books
Guo et al. An opinion feature extraction approach based on a multidimensional sentence analysis model
JP2011198393A (ja) ユーザ興味分析装置、方法、プログラム
Chen et al. A method of potential customer searching from opinions of network villagers in virtual communities
Zhang et al. Predicting temporary deal success with social media timing signals
Tuma et al. Online reviews as a source of marketing research data: a literature analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081224

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101221

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110221

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110329

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312