JP2007264718A

JP2007264718A - ユーザ興味分析装置、方法、プログラム

Info

Publication number: JP2007264718A
Application number: JP2006085174A
Authority: JP
Inventors: Masahiro Matsumura; 真宏松村; Julian Brody; ブローディジュリアン
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2006-03-27
Filing date: 2006-03-27
Publication date: 2007-10-11

Abstract

【課題】ユーザの閲覧したファイル間を伝播している語から、ユーザの変わりゆく興味をリアルタイムに推定するアルゴリズムやそれを実装した装置などを提供すること。
【解決手段】ユーザが閲覧した履歴から複数のファイルに含まれる語をファイル毎にテキストとして入力する手段と、そのテキストから言語単位に分割する手段と、ユーザが閲覧した複数のファイル間でユーザが参照した「伝播する語」を抽出する手段と、一または複数の前記「伝播する語」を記憶する手段と、前記「伝播する語」の全てのファイルに対する出現頻度から所定の「影響度」と、「伝播する語」の特定のファイル内に出現する程度を表す所定のｉＤＦ値を求める手段と、「影響度」と前記ｉＤＦ値との関数である「影響度ｉＤＦ値」に応じてユーザの興味ある語の集合をユーザプロファイル情報として抽出する手段と、を備える。
【選択図】図１

Description

本発明は、ユーザ興味分析装置、その制御方法、および当該方法を実現するコンピュータ・プログラムに関する。

近年、インターネットを始めとしてユーザが参加できる、いわゆる双方向メディアは、様々なニーズに応じて、その種類も量も益々拡大している。その中でも、匿名で情報を発信することによって別人格でも意見交換ができる掲示板メディア、記入した所見を時系列で表示し、所見に応じて相互にハイパーリンクをすることで情報発信や意見交換をすることができるブログ（ＷＥＢＬｏｇ）メディア、加入することにより友人関係や趣味・思考を共有・シェアできるコミュニティであるソーシャルメディアなどの発展が特に著しい。

このようなメディア上において、ユーザをプロファイリング、カテゴライズする試みや、ユーザに強い影響を与えるキーワードを見出す試みがなされている。なぜならば、ユーザの興味、嗜好、ニーズ、年代、性別、地域、職業、価値観など、いわゆる「属性」を評価することができれば、ユーザに対して的確なコンテンツ配信や広告配信を行うこと（これをターゲット配信と称する）ができ、また、ユーザ同士の意見交換が購買意思決定に影響を与えることも指摘されていることから、ユーザに強い影響を与えるキーワードを見出すことができれば、企業の商品の開発やマーケティング戦略に役立てたりすることが可能となると考えられている。

そのため、例えばマーケティングの現場では、分析者が掲示板やブログに目を通したり、コミュニティに参加して影響力のあるキーワードをピックアップすることがなされているが、これはいわば手動で行っており、判断基準は分析者の経験や感性に基づいているので、統一的な指標で評価することができないし、膨大なメディアの中での分析作業は多くのリソースを必要とする。

ユーザをプロファイリング、カテゴライズする試みとしては、アンケートによるものがあるが、充分な量のサンプルの回収には大きな労力が発生する上に、アンケート回収後の的確なターゲティング配信のためにはユーザのブラウザの固有情報に紐付けることによって、またはユーザがログインしている状態でしかトレースできないため、特定のメディア内部でしか適用できず、汎用的に用いることはできない。また、様々な要因で、内容が不正確であることが指摘されている。

また、ユーザを自動的にプロファイリング、カテゴライズする試みとしては、ユーザの情報閲覧履歴や検索条件入力を解析し、ユーザの嗜好や興味に関する情報をユーザプロファイルとして保持する技術が知られている（例えば、特許文献１）。

しかし、上記のような手法は、属性の評価やキーワードの決定の過程において語彙の頻度を重要なファクターにしているため、例えば掲示板のような匿名性が高いメディアにおいては意見の極化や誹謗中傷的な内容によって、頻度の高い語彙が必ずしも影響力を持つものではないことが指摘されている。また、ブログメディアやソーシャルメディアも含めて、頻度が高くなるのは、必ずしも中心的な話題に出てくる影響力のある語彙ではなく、周辺的な話題で多く登場する語彙や一般的な語彙であることが多いので、真に影響力のあるキーワードを抽出して正確にユーザをプロファイリング、カテゴライズすることは困難であった。

そこで、双方向性メディアの主要な構成要素であるテキスト情報によるコミュニケーションにおいて、文字すなわち語彙への興味が伝播していく過程に着目することにより、影響力のあるキーワードを定量的に見出すモデルが提案されている（非特許文献１）。この、コンテクスチャルな支配の強さすなわち影響の普及を表すモデルでは、テキストコンテンツおよび語彙に対してその媒介影響量を定義し、これを尺度することによって頻度が低くても影響力の大きいキーワードを抽出できるとしている。

また、このようなメディア上で、ユーザごとに、上述のようにして抽出した影響力の大きいキーワードの集合から導かれる特徴をそのユーザのプロファイルと定義することによってユーザをプロファイリング、カテゴライズするアルゴリズムが提案されている（非特許文献２）。

特開２００３−６７４１０号公報松村真宏ほか；テキストによるコミュニケーションにおける影響の普及モデル，人工知能学会論文誌１７巻３号ＳＰ−Ｂ，Ｐ２５９−２６７，２００２松村真宏ほか；影響の普及モデルに基づくオンラインコミュニティ参加者のプロファイリング，人工知能学会論文誌１８巻４号Ａ，Ｐ１６５−１７２，２００３

しかし、これらの提案のいずれにおいても伝播の向きや履歴を有効に生かすことができないため、ユーザの変わりゆく興味をリアルタイムに推定することができなかった。すなわち、このような双方向メディアに共通する特徴として、レスポンス、コメント、リンク、及びトラックバックを可能ならしめる技術によって、ユーザ同士が意見や情報の記述、交換、参照をすることが可能になっていることが挙げられるのであるが、このような技術によって可能になっている意見や情報の記述、交換、参照の時系列の情報に対してノードや閲覧順序を定義することによって、伝播の向きや履歴を有効に生かす有向リンクを定義することができる。また、ユーザは自身の興味に従ってファイル（例えばＷＥＢページ）を閲覧するので、ユーザの閲覧したファイル集合に一貫して含まれる特徴的な語は、その時々のユーザの興味をリアルタイムに反映している。

そこで、本発明では、ユーザの閲覧したファイルをノード、閲覧順序を有向リンクとする有向グラフにおいて、ノード間を伝播している語の出現頻度を再帰的に計量し、その値の上位の語の集合を抽出することにより、ユーザの変わりゆく興味をリアルタイムに推定するアルゴリズムやそれを実装した装置、方法およびプログラムを提案する。

（１）ファイルを閲覧するユーザの興味のある語を抽出するユーザ興味分析装置であって、ユーザが閲覧した履歴情報を利用してユーザが閲覧したファイルに含まれる複数の語をファイル毎にテキストとして入力する手段と、前記テキストから意味を有する最小の言語単位に形態素分割する手段と、ユーザが閲覧した複数のファイル間でユーザが参照した「伝播する語」を抽出する手段と、一または複数のその伝播する語を記憶する手段と、伝播する語の対象とするファイルに対する出現頻度から所定の「影響度」および伝播する語の特定のファイル内に出現する程度を表す所定のｉＤＦ値を求める手段と、前記影響度と前記ｉＤＦ値との関数である「影響度ｉＤＦ値」の値に応じてユーザの興味ある語をユーザプロファイル情報として抽出する手段と、そのユーザプロファイル情報を出力する手段と、を備えるユーザ興味分析装置を提供する。

（１）の発明によれば、まず、ユーザがインターネット上で閲覧したファイルの履歴からユーザがリンクなどによってさらに参照した語をファイル上で伝播する語として抽出する。次に、その伝播する語の後に参照されたファイルに対する影響度を数値化する。さらに、その伝播する語が全ファイル内に出現する程度であるｉＤＦ（ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）値を求め、影響度とｉＤＦ値との関数である影響度ｉＤＦ値の値に応じてそのユーザにとって興味のある語を検出する。さらに、検出された語の特定の集合を影響度ｉＤＦ値と共にユーザのプロファイル情報として出力する。以上の機能を備えることにより、変わり行くユーザの興味のある語をリアルタイムに分析可能とするユーザ興味分析装置が提供できる。

また、このユーザ興味分析装置が出力したプロファイル情報を参照して、そのユーザの興味がある語に関連する商品の販売戦略に利用したり、コンテンツや広告を配信したり、ダイレクトメールなどを効率的にそのユーザに送信することができる。

（２）前記プロファイル情報を他のユーザに公開する手段をさらに備える、（１）に記載のユーザ興味分析装置。

（２）の発明によれば、インターネット上のコミュニティにおいて、他のユーザの興味ある語を知ることにより、自分と共通する興味をもつユーザを見つけること（友達探し）やその分野に詳しそうなユーザを見つけて、質問すること（達人探し）などが可能になる。

（３）前記伝播する語に関連する語を検出するための類似語辞書を更に備え、前記影響度ｉＤＦ値を前記伝播する語に関連する語に対しても算出する手段を備える、（１）または（２）に記載のユーザ興味分析装置。

（４）上記（１）〜（３）において、前記影響度ｉＤＦ値が、所定の数式（後述）で求められる、ユーザ興味分析装置。

また、上記（１）〜（４）の発明を備えた装置は、同等な制御方法、およびその制御方法をコンピュータに実行させるコンピュータ・プログラムによっても実現可能である。

本発明によれば、ユーザの閲覧したファイルをノード、閲覧順序を有向リンクとする有向グラフにおいて、ノード間を伝播している語の影響力と出現頻度を加味した値を再帰的に計量し、その値の上位の語の集合を抽出することにより、ユーザの変わりゆく興味をリアルタイムに推定することができる。

以下、本発明の実施形態について図を参照しながら説明する。

図１は、本発明に係るユーザ興味分析装置の機能ブロック図の一例を示したものである。ユーザ興味分析装置１０は、図に示すように、ファイルテキスト入力手段２、形態素分割手段３（必須ではない）、伝播語抽出手段４、影響度算出手段５、ｉＤＦ値算出手段６、データの一時保管に用いる記憶手段７、ユーザ興味語抽出手段８、プロファイル情報出力手段９、類義語辞書１１で構成される。但し、本構成は一例を示したものであり、同等な機能を持つ他の構成をとってもよい。

まず、ユーザ興味分析装置１０は、ユーザのファイル閲覧履歴１を入力とし、ファイルテキスト入力手段２によって、ページ毎にテキストを抽出する。ファイル閲覧履歴は、一般にはインターネット・ブラウザの一時記憶ファイルに存在するが、掲示板やブログの閲覧履歴情報であってもよい。

次に、抽出したテキストが文章で構成されている場合には、形態素分割手段３によって文章を必要な単位に分割する。ページ内のメタデータを用いる場合や抽出したページが単語のみで構成されている場合など、形態素分割手段３の処理がスキップされる場合もある。次の、伝播語抽出手段４によって、ユーザがある一定期間に参照したファイル群またはその中の必要部分を解析し、そのページ内で共通する語、または伝播する語を抽出する。共通する語とは、各ファイルに共通に出現するキーワードを指す。但し、後の例で述べるように、共通する語は、各ファイルで必ずしも完全一致した語である必要はなく、一部が一致する語や類義語を含むものとする。

また、伝播する語とは、ユーザが、あるファイルから次のファイルを参照するきっかけ（トリガー）や影響を与えた語を言う。伝播する語についても、各ページで完全一致する必要はなく、一部が一致する語や類義語を含むものとする。類義語は、周知のシソーラス（類義語辞書）などを用いて定義される。なお、伝播する語については後述の例でさらに詳しく説明する。

次に、影響度算出手段５、およびｉＤＦ値算出手段６によって、抽出された一または複数の伝播する語それぞれについて、その伝播の影響力を表す影響度と、伝播する語の出現頻度（ファイル数）の関数であるｉＤＦ（ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）値を算出する。伝播の影響度とは、伝播する語の、後に参照されたファイルに対する影響力（重み）を表す量である。例えば、ＴＦ値（ＴｅｒｍＦｒｅｑｕｅｎｃｙ）の定義を適用することができる。ＴＦ値は、一般的には、対象とする文書に対象とする単語が出現する頻度を表すが、本発明においては、文書はユーザが閲覧したファイル群またはその中の必要部分を対象とする。以下、伝播の影響度ＥＤＴ（ＥｆｆｅｃｔｏｆＤｉｆｆｕｓｉｂｌｅＴｅｒｍ）と称する。

また、ｉＤＦ値とは、対象とする語句が対象とする文書に出現する頻度の関数であり、一般にはこの頻度の増加に伴って減少する関数として定義される。以下、先に述べた影響度と、このｉＤＦ値との積を「影響度ｉＤＦ値」と呼ぶことにする。影響度ｉＤＦ値は、Ｇ．Ｓａｌｔｏｎの提唱したＴＦｉＤＦの一般式（Ｇ．Ｓａｌｔｏｎ，Ｍ．ＭｃＧｉｌｌ，ＩｎｔｒｏｄｕｃｔｉｏｎｔｏＭｏｄｅｒｎＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ，ＮｅｗＹｏｒｋ，ＭｃＧｒａｗ−Ｈｉｌｌ，１９８３）、またはそれを変形した数式を用いることが便利であるが、語句の伝播に注目してその影響度を定義している特長を備えていればよい。例えば、本発明の実施形態の一例として、次の数式を用いて計算している。

ここで、
ｔは伝播する語、
ＥＤＴは、伝播する語がユーザが所定の時間中に閲覧したファイル群の中に出現する頻度、
Ｎは、ユーザが所定の時間中に閲覧した全ファイル数、
ＤＦ（ｔ）は、伝播する語ｔを含むファイル数、
を表す。
所定の時間とは、ユーザ分析装置が分析する対象期間を指し、分析対象やニーズに従って個別に定めることができる。例えば、数時間であっても、数ヶ月であってもよい。

上記の例では、影響度として一般的なＴＦ値に対する定義を用いたが、影響度を他の方法で定義してもよい。また、上記ｉＤＦ（ｔ）式において、対数を用いなくても良いが、対数を用いる場合は、ｌｏｇの底として、１０を用いる他、自然対数ｅや、２などを用いることも可能である。従って、影響度算出手段５、ｉＤＦ値算出手段６は、それぞれ複数の数式から選択することができるため、対応する複数の手段を備える。図１ではこれらを５ａ、５ｂ、６ａ、６ｂで表している。

さらに、算出された影響度とｉＤＦ値を用いて、ユーザ興味語抽出手段８によって、この影響度ｉＤＦ値を先に抽出された伝播する語それぞれについて求め、この値に応じてユーザが興味を持った語を抽出する。例えば、影響度ｉＤＦ値が大きい語をユーザが興味を持った語として抽出することができる。

最後に、プロファイル情報出力手段９によって、影響度ｉＤＦ値が予め定められた閾値を比較して、そのユーザのプロファイルを出力する。

図２は、ユーザ興味分析装置を他の実施形態で示したものである。図２のユーザ興味分析装置２０は、一般的なコンピュータ・システムで実現される。すなわち、ＣＰＵ２１、入力部２２、出力部２３、通信部２４、プログラムメモリ２５、作業用メモリ２６、ユーザプロファイル２７で構成される。また、前述の類義語辞書１１をオプションとして追加してもよい。

入力部２２は、ユーザからの操作入力を受付ける一般的なマウスやキーボードなどの入力機器でよく、出力部２３は、液晶やＣＲＴなどの表示ディスプレイでよい。また、通信部２４は、ＬＡＮやインターネット通信網とのデータの送受信を行う。
プログラムメモリ２５には、ＣＰＵ２１が実行する本装置の各機能を備えるプログラムが格納されている。すなわち、装置全体の制御部、入力したファイルからキーワードを抽出するキーワード抽出部、影響度ｉＤＦ値を所定のアルゴリズムで求める影響度ｉＤＦ値算出部、およびプロファイル作成部などのプログラムが格納されている。プログラムは機能別に分割されている必要はなく、単一のプログラムで構成されてもよい。

プログラムメモリ２５は、ＲＯＭやフラッシュメモリであってもよいし、ハードディスク（ＨＤＤ）からロードされるＲＡＭであってもよい。作業用メモリ２６は、ＣＰＵ２１が処理する中間データを一時的に格納するもので、一般的にはＲＡＭまたはＨＤＤで構成される。

ユーザプロファイル２７は、プログラムメモリ２５に格納されたプログラムを実行した結果を格納する記憶部である。また、類義語辞書１１は、既に述べたように、テキストから抽出した単語群に対する類義語を定義するための辞書であり、キーワード抽出部から必要に応じて参照される。

図３は、前述の伝播する語の概念を示す図である。この図においては、例として、あるユーザが閲覧したページの履歴が示されている。まず、ユーザはページ１の中に興味ある語を発見した。ユーザはそれをより詳しく調べるために、その語を検索ページに入力してファイルを検索するか、あるいは直接その語からハイパーリンクが張られている場合はこれをクリックしてページ２を閲覧する。もちろん検索やハイパーリンク以外の遷移手段であってもよい。同様に、ページ２からページ３へと移りページ３を閲覧したが、そこでは興味ある語の記述がなかったためにページ２ヘ戻り、ページ２から更に別のページ４を閲覧し、ページ４から更に別のページ５へと閲覧を繰り返している。

このようなページの閲覧履歴は、閲覧したページをノードとし、ページからページへの閲覧順序を有向リンク（エッジ）とする有向グラフで表現することができる。有向グラフとは、ノード間のエッジに方向性があるグラフをいう。

図示するように、このユーザが閲覧したページ１〜５にはすべて「共通する語」３６が含まれているが、ユーザが興味のある語は必ずしもこの共通する語３６でなく、検索バーを用いて検索した語やハイパーリンク上に記載された語であることも多い。このように、ページ間を遷移（ジャンプ）するトリガーとなった語または影響力を持った語を、「伝播する語」と呼んでいる（図では、伝播する語３７として示している）。すなわち、伝播する語は、たまたまページ間で共通して出現する語（共通する語）よりもそのユーザの興味をリアルタイムに表していると考えられる。一方、共通する語だけを単に頻度順に抽出しても、上位頻出語として抽出されるのは、例えば、「商品」、「インターネット」などのような一般名詞や、「する」、「である」などの動詞であることが多く、ユーザが真に興味のある語（影響力のある語）を見出すことは容易ではない。そこで、本発明では、このファイル間を伝播する語がユーザの興味を最も端的に示し、しかも、参照するファイル数の上限の調整または分析の対象期間の調整により、興味が変わり行く過程をリアルタイムに示すようにコントロールできる点に注目する。

図４は、ファイル閲覧におけるユーザの興味ある語が変わって行く例を示したものである。まず、ユーザは、新製品ニュース４１（ページ１）で、Ｘ社が新製品として液晶ＴＶの最新モデルである製品Ａを発売したことを知る。かねてから液晶ＴＶに興味があったユーザは、早速Ｘ社の製品情報サイト４２（ページ２）へ行き製品Ａの情報を見る。ここでユーザは、製品Ａの情報の詳細を見ていくうちに、他社の類似製品と比較したいとの衝動にかられ、価格比較サイト４３（ページ３）で液晶ＴＶの複数のメーカの製品リストを表示した。ここでユーザはＸ社の新製品Ａよりも同等な機能で製品Ａより価格が安いＹ社の製品Ｂに興味を持った。そこでＹ社の製品情報サイト４４（ページ４）へ飛び、製品Ｂの情報を見る。そこでたまたま製品Ｂが製品Ｃの後継機ではあるが、製品Ｃよりかなり価格が高いことを知ったユーザは、今度は製品Ｃに興味を持ち同じＹ社の製品情報サイト４５（ページ５）で製品Ｃの情報を閲覧した。製品Ｃにさらに興味を持ったユーザは、更に最も安く手に入る店を探すために、再び価格比較サイト４６（ページ６）にもどり、そこから最安値で販売しているショップＺを知る。ショップＺサイト４７（ページ７）へ移ったユーザは、最終的に購入を決意し、そのまま購入ページ４８（ページ８）から製品Ｃを発注した。

以上のような想定で、このユーザがたどったページ１からページ８に含まれるテキストすべてをユーザ興味分析装置を用いて分析すると、キーワードとして、「液晶ＴＶ」、「Ｘ社」、「製品Ａ」、「Ｙ社」、「製品Ｂ」、「製品Ｃ」が抽出される。ここで、「液晶ＴＶ」という語は、すべてのページに共通して出現しているが、「製品Ａ」、「製品Ｂ」、「製品Ｃ」という語はその製品のメーカサイトで仕様の説明などのページ内に多く出現しているものとする。例えば、図に示すように、「液晶ＴＶ」は各ページに１回、「製品Ｂ」、「製品Ｃ」は、Ｙ社の製品仕様のページに各５回ずつ出現している。また、この例では、製品Ａの仕様はユーザは参照していないので、「製品Ａ」が出現した回数は、ページ１、ページ２、ページ３において各１回である。一方、ユーザの興味は当初は製品Ａにあったが、しだいに製品Ｂ、製品Ｃへと移り、最終的に製品Ｃを注文しているので、「製品Ｃ」が出現した回数は、ページ３に１回、ページ４に１回、ページ５に５回、ページ６〜８に各１回となる。

図５は、図４の例において各キーワードの影響度ｉＤＦ値を実際に計算した例を示す。ここで影響度ｉＤＦ値は、前述の＜数１＞の数式を用いて算出した。今回ユーザが参照した総ページ数Ｎは８であり、例えば、「製品Ｃ」が出現したのは、ページ３〜８の６回であるのでＤＦ値は６となる。また、「製品Ｃ」はページ５において５回、ページ３、４、６、７、８にそれぞれ出現しているので、影響度は、５＋１＋１＋１＋１＋１＝１０となる。従って、影響度ｉＤＦ値は、１０＊８／（ｌｏｇ（６＋１））＝９４．７となる。同様に他のキーワードについて影響度ｉＤＦ値を求め、それらを大きい順に並べると図５に示す表となる。

この表でわかるように、「液晶ＴＶ」は、すべてのページに出現する共通語であるが、影響度ｉＤＦ値は低く、「製品Ｃ」や「製品Ｂ」のほうがはるかにユーザの興味を示している語であることがわかる。このようにして影響度ｉＤＦ値の上位の語の集合を集めることによりそのユーザのプロファイルを作成することができる。ここで影響度ｉＤＦ値の上位の語の選別には、予め与えられた閾値などを用いてもよい。

図６は、インターネットの掲示板におけるユーザの興味ある語が変わり行く具体例を示したものである。この図では、Ａさん、Ｂさん、Ｃさん、Ｄさんの間で交わされた以下のような掲示板でのやりとりを示している。

Ａさんは、近く旅行に行くことを決め旅先での宿を探すために、“今度、３泊４日で函館あたりに旅行に行くのですがお勧めのホテルなどの情報教えてください”（６１）とのコメントを掲示板に書き込んだ。それに対して、Ｂさんから、“函館ならＸホテルがお勧めです。綺麗だし価格もリーゾナブルです”（６２）とのレスがあった。また、Ｃさんからは“Ａさんは、温泉は好きですか。函館へ行くのならよい温泉旅館がありますよ”（６３）とのコメントが返ってきた。Ａさんは、早速、Ｂさん、Ｃさんにお礼をいうと共に、Ｃさんに、“Ｃさん、ありがとうございます。温泉も大好きです”（６４）との返事を入れた。そこで、Ｃさんは、Ｙ旅館とＺ旅館を紹介した（６５）。一方、そのやりとりを見ていたＤさんは、“Ａさん、函館へ行くのなら、定山渓まで足を伸ばしてはいかがでしょう。お勧めはこちら”（６６）と、Ａさんが行く予定の函館ではなく、定山渓のＱホテルとＲ旅館をホームページのリンク付で紹介した。これを見たＡさんは、函館から定山渓まで足を伸ばすのも悪くないと考えて、“早速、定山渓の温泉旅館も調べてみます”（６７）との返答を行った。その後、Ａさんは、Ｄさんが紹介してくれたＵＲＬのＱホテルとＲ旅館のホームページ（６８、６９）を調べて、最終的にＲ旅館に予約を入れた。以下、各コメント６１〜６９（ＱホテルとＲ旅館のホームページを含む）を、ページ１〜ページ９と呼ぶことにする。

このやりとりの中で出現する主なキーワードは、ページ１では、「函館」、「旅行」、「お勧め」、「ホテル」である。また、ページ２では、「函館」、「ホテル」、「お勧め」「綺麗」、「価格」、「リーゾナブル」などがキーワードとなる。同様に、ページ３からページ８までのキーワードを抽出し、接続詞や助詞などキーワードとなりにくい語を除いて、影響度ｉＤＦ値の大きい順に並べる。これを図７の表に示す。

Ａさんは、当初、函館のお勧めのホテルを探すつもりで掲示板にコメントを書き込んだのであるが、Ｃさんのコメントを見て、温泉に興味を持ち、その後、Ｄさんが書き込んだ温泉旅館のホームページへのリンクが決め手となって、当初の行き先である函館とはかなり離れた定山渓の温泉旅館を予約することになったのである。

この例からわかるように、Ａさんの行動（興味）に重要な影響を与えた語は、「温泉」であることは明らかである。図７の表からも、「温泉」の影響度ｉＤＦ値が最上位に位置しており、このことが読み取れる。また、Ａさんが、当初興味を持っていた「函館」や「旅行」は下位に位置し、興味がしだいに薄れていったことがわかる。

このように、本発明のユーザ興味分析装置を用いて、ユーザが所定の期間閲覧したページを時系列に分析していくことで、ユーザの興味の移り代わりをリアルタイムに調べることができる。そして、このユーザの興味に対して大きな影響力を持つ語（上記の例では、「温泉」）を見出すことができれば、そのような情報を多数集め、商品企画やマーケティングツールとして大いに役立てることができる。

図８は、図６の掲示板の例において、類義語を考慮した影響度ｉＤＦ値の計算の例を示す図である。すなわち、「ホテル」と「旅館」は類義語として定義し、両者をまとめて一つの語と考えて、「ホテル・旅館」を図７の他の上位３つまでの語と比較したものである。ここで、「ホテル」と「旅館」を合わせて一つの語と扱ったためその合計の出現頻度は高くなり、影響度ｉＤＦ値も上昇する。従って、ユーザの興味は、旅館であろうとホテルであろうと「宿」にあることは間違いない。ただし、それでも「ホテル・旅館」の影響度ｉＤＦ値は、「温泉」の値には及んでいない。ユーザ興味分析装置の目的は、このような影響力の強い語を見つけ出すことである。従って、最適な影響度ｉＤＦ値を求める数式も複数のものから選択できるようになっている。

図９は、ユーザ興味分析装置の他の応用例を示す図である。ユーザＡ、ユーザＢ、ユーザＣの各端末（９１〜９３）には、ユーザ興味分析装置がそれぞれ備えられ、各ユーザは、ユーザ興味分析装置の出力である自己のプロファイルをインターネット９４を介して公開することに同意しているとする。もちろん、プロファイルの中に非公開としたい情報があれば、それを除いた形で公開できるようにしてもよいし、不特定多数に公開するのではなく、会員のユーザにのみ公開するようにしてもよい。この公開されたユーザプロファイル情報は、プロファイルサーバ９５の公開プロファイルＤＢ９６に集積される。公開プロファイルＤＢ９６の中には、各ユーザ毎にそのユーザのプロファイルテーブルＡ、Ｂ、Ｃ（９７〜９９）が作成される。プロファイルテーブルには、各ユーザの興味ある語がその順位と共に並べられているので、これを公開することによって、さまざまなコミュニティ形成のツールとなり得る。

例えば、ユーザＡが、「釣り」に興味がある場合、同じ趣味を持つユーザをこの公開プロファイルＤＢ９６から探すことができる。すなわちこの場合、ユーザ興味分析装置は、“友達探し”のツールである。この例では、ユーザＣのプロファイルテーブルＣ９９には「釣り」に関連する語が上位にあるので、ユーザＡはユーザＣが同じ趣味を持つ人物であることがわかり直接コンタクトをとるかもしれない。ユーザＣの興味ある語は、ユーザＡも分かっているので大いに話が弾むことも期待できる。

また、公開プロファイルＤＢ９６には、興味ある語の影響度ｉＤＦ値の順位だけでなく、興味ある語が出現したページ総数や、ＥＤＴ値、ページの履歴の期間などの数値も同時に参照できるようにしておけば、その興味ある語がどのくらいの規模（ボリューム）でそのユーザのプロファイルを形成しているかを判断することができる。例えば、「釣り」またはその類義語が出現する総ページ数（ユーザＣが所定の期間に閲覧したページ）が、人並み外れて膨大であれば、ユーザＣは相当釣り好きの人か、あるいは達人であるとの推定もできる。すなわち、ユーザ興味分析装置は、“達人探し”のツールともなり得るのである。

このように、本発明のユーザ興味分析装置によって得られたユーザプロファイル情報は、それを公開するユーザが多くなればなるほど、商品企画やマーケティングツールとして大いに役立つばかりか、個人的な趣味の友人探しや、達人探しのツールとしても用いることができる。また、プロファイルを一般には公開したくないユーザにとっても、家族内や気心の知れた友人どうしでのみ公開することにしておけば、お互いにプレゼントを考えるとき、旅行に誘うとき、食事に誘うときなどの基本情報として、さまざまな用途に使用できる可能性がある。

以上、本発明を実施形態や実施例を用いて説明したが、本発明の技術的範囲は、上記の実施形態などに限られるものではない。上記実施形態に多様なバリエーションまたは改良を加えることが可能である。

なお、本発明の図１または図２の実施形態であるユーザ興味分析装置は、コンピュータ上のプログラムによっても実現可能である。上記プログラムを格納する記憶媒体は、電子的、磁気的、光学的、電磁的、赤外線または半導体システム（または、装置または機器）であることができる。この記憶媒体の例には、半導体またはソリッド・ステート記憶装置、磁気テープ、取り外し可能なコンピュータ可読の媒体の例には、半導体またはソリッド・ステート記憶装置、磁気テープ、取り外し可能なフロッピー（登録商標）・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、リードオンリー・メモリ（ＲＯＭ）、リジッド磁気ディスクおよび光ディスクが含まれる。現時点における光ディスクの例には、コンパクト・ディスク−リードオンリー・メモリ（ＣＤ−ＲＯＭ）、コンパクト・ディスク−リード／ライト（ＣＤ−Ｒ／Ｗ）およびＤＶＤが含まれる。

本発明に係るユーザ興味分析装置の一つの実施形態における機能ブロックを示す図である。本発明に係るユーザ興味分析装置の他の実施形態における機能ブロックを示す図である。本発明に係る伝播する語の概念およびページ間の有向グラフを示す図である。本発明の実施例１として、ファイル閲覧の具体例を示す図である。図３の実施例における影響度ｉＤＦ値の計算の具体例を示す図である。本発明の実施例２として、掲示板におけるユーザの興味ある語が変わり行く具体例を示す図である。図６の実施例において、影響度ｉＤＦ値の計算の具体例を示す図である。図６の実施例において、類義語を考慮した影響度ｉＤＦ値の計算の具体例を示す図である。本発明の実施例３として、ユーザプロファイルを他のユーザに公開可能とするプロファイルサーバおよびプロファイルテーブルを示す図である。

符号の説明

１ファイル閲覧履歴
２ファイルテキスト入力手段
３形態素分割手段
４伝播語抽出手段
５影響度算出手段
５ａ、５ｂ影響度算出手段
６ｉＤＦ値算出手段
６ａ、６ｂｉＤＦ値算出手段
７記憶手段
８ユーザ興味語抽出手段
９プロファイル情報出力手段
１０ユーザ興味分析装置（第一の実施形態）
１１類義語辞書
２０ユーザ興味分析装置（第二の実施形態）
２１ＣＰＵ
２２入力部
２４出力部
２４通信部
２５プログラムメモリ
２６作業用メモリ
２７ユーザプロファイル
３６共通する語
３７伝播する語
４１新製品ニュース
４２製品情報サイト
４３価格比較サイト
４４Ｙ社製品情報サイト（製品Ｂ仕様ページ）
４５Ｙ社製品情報サイト（製品Ｃ仕様ページ）
４６価格比較サイト
４７ショプＺサイト
４８購入ページ
６１〜６９ページ１〜９
９１〜９３ユーザ端末
９４インターネット
９６プロファイルサーバ
９７〜９９プロファイルテーブル

Claims

ファイルを閲覧するユーザの興味のある語を抽出するユーザ興味分析装置であって、
前記ユーザが閲覧した前記ファイルの履歴から前記ファイルに含まれる複数の語を前記ファイル毎にテキストとして入力する手段と、
前記テキストから所定の単位に分割する手段と、
前記ユーザが閲覧した複数の前記ファイル間でユーザが参照した伝播する語を抽出する手段と、
一または複数の前記伝播する語を記憶する手段と、
前記伝播する語の複数の前記ファイルに対する出現頻度から、所定の影響度と前記伝播する語の特定の前記ファイル内に出現する程度を表す所定のｉＤＦ値を求める手段と、
前記影響度と前記ｉＤＦ値との関数である影響度ｉＤＦ値に応じて前記ユーザの興味ある語の集合をユーザプロファイル情報として抽出する手段と、
前記ユーザプロファイル情報を出力する手段と、
を備える、ユーザ興味分析装置。
前記ユーザプロファイル情報を他のユーザに公開する手段をさらに備える、請求項１に記載のユーザ興味分析装置。
前記伝播する語に関連する語を検出するための類似語辞書を更に備え、
前記影響度ｉＤＦ値を前記伝播する語に関連する語に対しても算出する手段を備える、請求項１または２に記載のユーザ興味分析装置。
前記影響度ｉＤＦ値が、次の数式で求められる、請求項１乃至３に記載のユーザ興味分析装置。

ここで、
ｔは伝播する語、
ＥＤＴは、伝播する語ｔがユーザが閲覧したファイル群の中に出現する頻度、
Ｎは、ユーザが所定の時間中に閲覧した複数のファイル数、
ＤＦ（ｔ）は、伝播する語ｔを含むファイル数。
ファイルを閲覧するユーザの興味のある語を抽出するユーザ興味分析方法であって、
前記ユーザが閲覧した前記ファイルの履歴から前記ファイルに含まれる複数の語を前記ファイル毎にテキストとして入力するステップと、
前記テキストから所定の単位に形態素分割するステップと、
前記ユーザが閲覧した複数の前記ファイル間でユーザが参照した伝播する語を抽出するステップと、
一または複数の前記伝播する語を記憶するステップと、
前記伝播する語の複数の前記ファイルに対する出現頻度から、所定の影響度と前記伝播する語の特定の前記ファイル内に出現する程度を表す所定のｉＤＦ値を求めるステップと、
前記影響度と前記ｉＤＦ値との積である影響度ｉＤＦ値が高い順に前記ユーザの興味ある語の集合をユーザプロファイル情報として抽出するステップと、
前記ユーザプロファイル情報を出力するステップと、
を含む、ユーザ興味分析方法。
ファイルを閲覧するユーザの興味のある語を抽出するユーザ興味分析コンピュータ・プログラムあって、
前記ユーザが閲覧した前記ファイルの履歴から前記ファイルに含まれる複数の語を前記ファイル毎にテキストとして入力するステップと、
前記テキストから意味を有する最小の言語単位に形態素分割するステップと、
前記ユーザが閲覧した複数の前記ファイル間でユーザが参照した伝播する語を抽出するステップと、
一または複数の前記伝播する語を記憶するステップと、
前記伝播する語の全ての前記ファイルに対する出現頻度から、所定の影響度と前記伝播する語の特定の前記ファイル内に出現する程度を表す所定のｉＤＦ値を求めるステップと、
前記影響度と前記ｉＤＦ値との関数である影響度ｉＤＦ値に応じて前記ユーザの興味ある語の集合をユーザプロファイル情報として抽出するステップと、
前記ユーザプロファイル情報を出力するステップと、
をコンピュータに実行させる、コンピュータ・プログラム。
前記ファイルが、ＷＥＢページである請求項１乃至４に記載のユーザ興味分析装置。
前記ファイルが、ＷＥＢページである請求項５に記載のユーザ興味分析方法。
前記ファイルが、ＷＥＢページである請求項６に記載のコンピュータ・プログラム。