JP5227146B2 - クラスタリング結果表示装置、その方法及びプログラム - Google Patents

クラスタリング結果表示装置、その方法及びプログラム Download PDF

Info

Publication number
JP5227146B2
JP5227146B2 JP2008302507A JP2008302507A JP5227146B2 JP 5227146 B2 JP5227146 B2 JP 5227146B2 JP 2008302507 A JP2008302507 A JP 2008302507A JP 2008302507 A JP2008302507 A JP 2008302507A JP 5227146 B2 JP5227146 B2 JP 5227146B2
Authority
JP
Japan
Prior art keywords
cluster
result display
representative
score
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008302507A
Other languages
English (en)
Other versions
JP2010128771A (ja
Inventor
克則 川口
聡 得能
一男 茂木
彰 中山
貞大 石崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Communications Corp
Original Assignee
NTT Communications Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Communications Corp filed Critical NTT Communications Corp
Priority to JP2008302507A priority Critical patent/JP5227146B2/ja
Publication of JP2010128771A publication Critical patent/JP2010128771A/ja
Application granted granted Critical
Publication of JP5227146B2 publication Critical patent/JP5227146B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、任意の検索語に基づき通信ネットワーク上を検索して得られた多数の文書情報をクラスタリングした結果を表示する、クラスタリング結果表示装置、その方法及びプログラムに関する。
ネット情報検索におけるクラスタリングとは、任意の検索語による検索によりヒットした文書集合から、文書の何らかの類似性によって分類された複数の部分集合(クラスタ)を構成する手法をいう。代表的なクラスタリング手法は、例えば非特許文献1等で明らかにされている。また、特許文献1にはクラスタリング処理の結果として得られた各クラスタの表示順序を、検索されたそれぞれの文書に付されたスコアに基づき再構成する発明が開示されている。
近年、Web検索エンジンの検索結果である文書集合に対してクラスタリングを行った結果を、各クラスタに属する文書を代表する代表語によって提示するサービスがいくつか生まれている(例えば、非特許文献2、3)。これらのサービスにおいては、代表語を選択することによって、検索文書全体から自分が求める部分集合を効率的に取得できる。
国際公開第00/075809号パンフレット 岸田和明、"文書クラスタリングの技法:文献レビュー"、[online]、Library and Information science、No.49、2003、[平成20年9月29日検索]、インターネット<URL: http://koara.lib.keio.ac.jp/xoonips/modules/xoonips/download.php?file_id=20480> グループネット株式会社、"クラスタリングとは?"、[online]、2008年、グループネット株式会社、[平成20年9月29日検索]、インターネット<URL: http://www.groupnet.co.jp/products/velocity/clustering.html> Cuil、"Drilldowns"、[online]、2008年、Cuil,Inc.、[平成20年9月29日検索]、インターネット<URL: http://www.cuil.com/info/features/>
特許文献1で開示された発明や、非特許文献2、3に係る従来のサービスにおいては、個々のユーザの興味や嗜好等について加味されることなく利用者一律に結果が表示される。
図20(a)に、検索語「ジャガー」についての検索及びクラスタリング結果の例を示す
。この例は、100の文書からなる文書集合が、5つのクラスタに分類された場合である。従来のサービスによると、図20(a)に示すようなクラスタリング結果が表示される際
には、図20(b)に示すように、単にクラスタを構成する文書数の順番で並べ替えて、各
クラスタ毎に適宜抽出された代表語をそのまま当該クラスタのインデックスとして表示される。そのため、以下のような問題が生じうる。
(1)ユーザの求めるクラスタが上位に表示されない
通常、クラスタの表示順は、そのクラスタに含まれる文書数などユーザ個々の興味や嗜好等とは無関係な尺度により定められ、誰にでも同じように表示される。そのため、ユーザがマイナーな話題や専門的な話題を求めている場合、ユーザが求める話題が多く含まれるクラスタがその文書数の少なさから表示が下位になってしまい、探索に手間がかかる。また、不適当な(自らが求めるクラスタと異なる)クラスタを選択してしまうことも多くなると考えられ、そのような場合、手戻りや再入力といった余分な検索コストが発生してしまう。以上のような問題は、クラスタリングを行った結果生まれたクラスタの数が多い場合に特に顕著である。
(2)クラスタの代表語がユーザにとって未知語
各クラスタは、各クラスタに属する文書を代表する代表語をインデックスとして表示される。この代表語がユーザにとって未知語である場合、ユーザはクラスタの内容を推定できず、自らが求めるクラスタを選択することが困難となる。
本発明の目的は、クラスタリング結果の表示に際し、個々のユーザの興味や嗜好等に合ったクラスタを上位に表示し、また、クラスタのインデックスをユーザの既知の語句等で表示することが可能な、クラスタリング結果表示装置及び方法の実現にある。
本発明のクラスタリング結果表示装置は、検索部とクラスタリング部と興味情報蓄積部と演算部と可視化出力部とから構成される。
検索部は、ユーザにより入力された検索語について、任意の検索エンジンを用いて通信ネットワーク上を検索し、該当する文書集合を収集する。
クラスタリング部は、収集した文書集合について、所定の方法によりクラスタリングを行って複数のクラスタに分類するとともに、各クラスタ毎に、1以上の代表要素を抽出しクラスタ代表要素スコアを付して出力する。
興味情報蓄積部は、ユーザ又はプロファイル毎に、1以上の興味要素をその興味要素スコアとともに蓄積する。
演算部は、上記興味情報蓄積部に蓄積された上記ユーザ又は上記ユーザに対応するプロファイルの各興味要素とその興味要素スコアを参照し、当該各興味要素と上記クラスタの各代表要素とが合致した各要素の、興味要素スコアとクラスタ代表要素スコアとの積の合計を当該クラスタのクラスタスコアとして、それを各クラスタ毎に求め、そのスコアに従い各クラスタに順位を付与する。
可視化出力部は、それぞれのクラスタについて、上記代表要素スコアの最も大きい代表要素を当該クラスタのインデックスとして各クラスタの順位を可視化して出力する。
本発明のクラスタリング結果表示装置及び方法によれば、クラスタリング結果の表示に際し、個々のユーザの興味や嗜好に合ったクラスタを上位に表示し、また、クラスタのインデックスをユーザの既知の語句等で表示することができる。
〔第1実施形態〕
図1は、本発明のクラスタリング結果表示装置10の機能構成例を示す図であり、図2はその処理フロー例である。クラスタリング結果表示装置10は、検索部11とクラスタリング部12と興味情報蓄積部13と演算部14と可視化出力部15とを備える。
検索部11は、ユーザ端末1から通信ネットワーク2を介してユーザu(uはユーザ番号)により入力された検索語wについて、任意の検索エンジン3を用いて通信ネットワーク2を検索し、該当する文書集合Sを収集する(S1)。
クラスタリング部12は、収集した文書集合Sについて、まず、クラスタリングを行って複数のクラスタC(nはクラスタ番号)に分類する。そして、分類したそれぞれのクラスタCごとに、1以上のクラスタ代表要素Rn,i(iは代表要素番号)を抽出し、
とRn,iを出力する(S2)。クラスタ代表要素としては、例えば代表語や代表U
RLなどが考えられるが、そのクラスタの内容や特徴を表現するインデックスとなりうる要素であればいかなる要素を用いても構わない。抽出するクラスタ代表要素の個数は、代表要素という性質上、数個程度とすることが望ましい。また例えば、後述するクラスタ代表要素スコアが、任意に設定したしきい値の以上であるものを抽出することとしてもよい。
クラスタリングの手法及びクラスタ代表要素を抽出する手法は、いかなる手法を用いてもよく、例えば非特許文献1に記載されているSTC(Suffix Tree Clustering)などを用いることができる。
図3に、検索語wとして「ジャガー」について検索及びクラスタリングを行い、クラスタリング代表要素を抽出した例を示す。この例では、100の文書からなる文書集合Sが、それぞれ文書数がBの5つのクラスタに分類され、例えばクラスタCについては、文書数Bが26であり、2つのクラスタ代表要素(代表語)R2,iが抽出されている
(R2,1=ネコ科、R2,2=ヒョウ)。
興味情報蓄積部13には、ユーザ又はプロファイル毎に、1以上の興味要素Au,j
uはユーザ番号又はユーザuに対応するプロファイル番号、jは興味要素番号)を、その興味要素スコアSAu,jとともに、予め蓄積しておく。ここで、興味要素の種別は、ク
ラスタ代表要素の種別と同じにする。例えば、代表要素を代表語とした場合には興味語とし、代表URLとした場合は興味URLとする。
なお、ユーザの興味要素とは、個々のユーザの趣味・嗜好等を示すキーワード等である。一方、プロファイルの興味要素とは、個々のユーザに係るものではなく、年齢層や性別や住所などの特定のプロファイルに属するユーザ群の趣味・嗜好等を示すキーワード等である。
また、興味要素スコアとは、個々のユーザ又は個々のプロファイルにおける、各興味要素の興味の度合を示すスコアであり、例えば、興味の大小をスコアの大小として表現する。
興味要素及び興味要素スコアを求める手法は、いかなる手法を用いてもよく、例えばユーザのWeb閲覧履歴に基づき、TF−IDF法(例えば、参考文献1参照)を適用することにより求めることができる。
〔参考文献1〕徳永健伸著、「情報検索と言語処理」、言語と計算5、東京大学出版会、1999年11月、p.27−33
図4に、2ユーザ分の興味情報の例を示す。この例は興味の大小をスコアの大小として表現したものであり、スコア=1が興味が最大、スコア=0が興味が最小とした場合を示している。例えば、ユーザ1については、6つの興味要素(興味語)が抽出されており、4つ目の興味要素A1,4「プロレス」の興味要素スコアSA1,4は0.6、6つ目の興味要素A1,6「車」の興味要素スコアSA1,6は0.1であるため、「車」より「プロレス」に対する興味の度合が大きいことということになる。
演算部14は、まず、興味情報蓄積部13に蓄積されたユーザu又はユーザuに対応するプロファイルの各興味要素Au,jとその興味要素スコアSAu,jを参照し、検索部11で抽出したクラスタCの各クラスタ代表要素Rn,iと各興味要素Au,jとが合致している要素を抽出する。次にクラスタC毎に、合致している各要素の興味要素スコアSAu,jの合計を求め、これをユーザuについてのクラスタCのクラスタスコアSCu,nとする。そして、このように求めたクラスタスコアに従い付与した各クラスタの順位Pを出力する(S4)。なお、合致する要素が全く無い場合には、例えば、クラスタ番号順やクラスタを構成する文書数順で順位を付与すればよい。
図3に示したクラスタリング結果例及び図4に示した興味情報例に基づいてユーザ1についてのクラスタ順位Pを求める方法を、図5を用いて説明する。まず、検索部11で抽出したクラスタCの各クラスタ代表要素Rn,iと各興味要素A1,jとが合致している要素は、クラスタCについては「車」、Cについては「MacOS(登録商標)
X」と「ジョブズ」、Cについては「プロレス」であることから、これらの要素を抽出する。次にクラスタC毎の当該合致している各要素の興味要素スコアSA1,jの合計
は、クラスタCについては0.1(車)、Cについては0.7(=0.5(MacOS X)+0.2(ジョブズ))、Cについては0.6(プロレス)であることから、
これらをそれぞれクラスタスコアSC1,1、SC1、3、SC1,4とする。なお、クラスタCとCについては合致している要素が無いため、SC1、2とSC1、5は0とする。そして、図4の例は、興味の大小をスコアの大小として表現したものであることから、SCu,nを数値の大きいものから順位付けをすれば、各クラスタCに対し、興味
の度合が大きい順に順位Pが付与されたことになる。図5の例では、SC1、3>SC1,4>SC1,1>SC1、2=SC1、5であることから、この順番に各クラスタCに順位Pを付与すればよい。なお、CとCのように同順位となるものについては、例えばクラスタを構成する文書数の大小関係によるなど、適宜ルールを定めて順位付けをすればよい。
最後に、可視化出力部15は、それぞれのクラスタCにおけるいずれかのクラスタ代表要素Rn,iを、当該それぞれのクラスタCのインデックスとして、当該クラスタC
について順位Pを可視化して出力する(S4)。上記の例では、クラスタ順位PはC、C、C、C、Cの順となることから、例えば図6に示すように、各クラスタの代表要素番号iが1の代表要素をインデックスとして、それらを単純にクラスタ順位に従い、「MacOS X→プロレス→車→ネコ科→Atari(登録商標)」と並べる
ことでクラスタの順位Pを可視化することができる。また、並べ方によらずタグクラウド的に、表示フォントをクラスタの順位Pに応じて相違させることで可視化してもよい。図7は、従来のようにクラスタに含まれる文書数が多い順に各クラスタのインデックスを並べつつ、本発明の方法により求めたクラスタの順位Pをフォントの大小によって可視化した例である。
クラスタリング結果の表示に際し、従来のようにクラスタに含まれる文書数が多い順に順位付けした場合には、クラスタの順位PはC、C、C、C、Cの順となるのに対し、本発明のクラスタリング結果表示装置及び方法によれば、ユーザの趣味・嗜好が加味され、クラスタの順位PはC、C、C、C、Cの順となる。そのため、ユーザがマイナーな話題や専門的な話題を求めている場合にも、個々のユーザの興味や嗜好に合ったクラスタが上位に表示されやすくなり、探索がしやすくなる。また、自らが求めるクラスタと異なるクラスタを選択することによる手戻りや再入力等の不要行為の抑制効果も期待できる。
また、派生的な効果として、興味情報蓄積部13にプロファイル興味要素を蓄積した場合には、ユーザに対してプロファイル横断的な情報を加工して提供することができる。例えば、ある興味語について男女別に興味語スコアが得られていた場合、男女のスコアを正規化してそれぞれの割合を求めることで、図8(a)に示すようにその興味語に対する男女
の興味の度合の相違を提示することができる。また、年齢層別に興味語スコアが得られていた場合には、年齢層ごとにスコアを正規化してそれぞれの割合を求めることで、図8(b)に示すようにその興味語に対する各年齢層の興味の度合の相違を提示することができる
。このような参考情報をユーザに提供することで、ユーザが検索を行う際の利便性を向上することができる。
〔第2実施形態〕
第1実施形態では、各クラスタに該当する興味要素スコアのみにより各クラスタのクラスタスコアを求めて各クラスタに順位を付与した。これに対し、第2実施形態では、更にクラスタ代表要素スコアを加味してクラスタスコアを求め、そのスコアに従い各クラスタに順位を付与する。
第1実施形態の方法により決定したクラスタの順位には、各クラスタに該当する興味要素スコアの大小がそのまま反映されるが、たとえ興味要素スコアが大きくても、そのクラスタを構成する文書集合において、その興味要素スコアに対応するクラスタ代表要素が含有されている度合が小さい場合には、ユーザが求める話題がそのクラスタに存在する可能性は低くなる。そのため、上位に表示されたクラスタであってもユーザが求める話題の絶対量が少なくなってしまい、探索の効率化等の効果が十分に得られない場合がある。そこで、クラスタスコアの決定に、クラスタを構成する文書集合におけるクラスタ代表要素の含有度合を示すクラスタ代表要素スコアを加味することで、ユーザが求める話題の絶対量が多いクラスタが上位に表示されやすくする。
図9に第2実施形態のクラスタリング結果表示装置20の機能構成例を示す。また、図10はその処理フロー例である。クラスタリング結果表示装置20は、検索部11とクラスタリング部22と興味情報蓄積部13と演算部24と可視化出力部15とから構成される。つまり、第1実施形態のクラスタリング結果表示装置10のクラスタリング部12がクラスタリング部22に、演算部14が演算部24に置き換わった構成であるため、ここではその差分に重点を置いて説明する。
クラスタリング部22は、クラスタリング部12と同様な処理により分類した各クラスタCごとに、1以上のクラスタ代表要素Rn,iを抽出するとともに、各クラスタ代表
要素ごとにクラスタ代表要素スコアSRn,iを付与し、CとRn,iとSRn,iとを
出力する(S5)。
クラスタ代表要素スコアSRn,iは上記のとおり、クラスタCを構成する文書集合
におけるクラスタ代表要素Rn,iの含有度合を示す値であるが、このような性質を満た
すものであれば、いかなる手法を用いて求めても構わない。例えば、クラスタリング手法と同様、STCを用いて求めてもよいし、単純に、あるクラスタ代表要素がそのクラスタを構成する複数の文書のうち、どの程度の数の文書に含まれるかという比率によって求めてもよい。
図11に、図3で示したクラスタリング結果例における各クラスタ代表要素Rn,i
、「要素の含まれる文書数÷クラスタ全文書数」により求めたクラスタ代表要素スコアSRn,iをそれぞれ付与した例を示す。例えば、クラスタ2については、クラスタ代表要
素(代表語)R2,1「ネコ科」のクラスタ代表要素スコアSR2,1は1.0であることから、この場合、「ネコ科」という語句はクラスタ2の全文書に含まれていることになる。また、R2,2「ヒョウ」のクラスタ代表要素スコアSR2,2は0.6であることから、「ヒョウ」という語句はクラスタ2の全文書の6割に含まれていることになる。
演算部24は、まず演算部14での処理と同様に、クラスタCの各クラスタ代表要素Rn,iとユーザuの各興味要素Au,jとが合致している要素を抽出する。次に合致している各要素のクラスタ代表要素スコアSRn,iと興味要素スコアAu,jを乗算して各要素の代表要素スコアSARu,j,n,iを求める。そして、その合計をユーザuについ
てのクラスタCのクラスタスコアSCu,nとし、このように求めたクラスタスコアに
従い各クラスタに順位Pを付与し、順位Pを出力する(S6)。
図11に示したクラスタリング結果例及び図4に示した興味情報例に基づいてユーザ1についてのクラスタ順位Pを求める方法を、図12を用いて説明する。まず、検索部11で抽出したクラスタCの各クラスタ代表要素Rn,iと各興味要素A1,jとが合致している要素は、クラスタCについては車、CについてはMacOS Xとジョブズ、
についてはプロレスであることから、これらを抽出する。次に合致している各要素のクラスタ代表要素スコアSRn,iと興味要素スコアSAu,jを乗算し、代表要素スコアSARu,j,n,iを求める。具体的には、「車」については0.1(=1.0×0.
1)、「MacOS X」については0.5(=1.0×0.5)、「ジョブズ」につい
ては0.08(=0.4×0.2)、「プロレス」については0.6(=1.0×0.6)となる。そして、クラスタC毎に代表要素スコアの合計を求める。具体的には、クラスタCについては0.1(車)、Cについては0.58(=0.5(MacOS X
)+0.08(ジョブズ))、Cについては0.6(プロレス)であることから、これらをそれぞれクラスタスコアSC1,1、SC1、3、SC1,4とする。なお、クラスタCとCについては合致している要素が無く、代表要素スコアは共に0であるため、SC1、2とSC1、5も共に0となる。その結果、SC1、4>SC1,3>SC1,1>SC1、2=SC1、5であることから、この順番に各クラスタCに順位Pを付与すればよい。
以上のように、クラスタ代表要素スコアを加味して求めたクラスタスコアによりクラスタの順位を付与することで、そのクラスタを構成する文書集合における当該要素の含有度合がクラスタへの順位の付与に際して考慮されるため、ユーザが求める話題の絶対量が多いクラスタが上位に表示されやすくすることができる。
〔第3実施形態〕
第2実施形態は、クラスタスコアを求めるのにあたり、各クラスタに該当する興味要素スコアに加え、各クラスタ代表要素のスコアを加味することにより、ユーザが求める話題の絶対量が多いクラスタが上位に表示されやすくするものである。第3実施形態は、各クラスタスコアに対して、更に各クラスタに含まれる文書数に応じて重み付けをして、その重み付け後のスコアによりクラスタの順位を決定するものである。
第2実施形態の方法に求めたクラスタスコアは、ユーザが求める話題の絶対量の大小が反映されやすくなるよう、各クラスタ内で値の調整を図ったものである。しかし、各クラスタを構成する文書数はそれぞれ異なっているため、より適切にユーザが求める話題の絶対量の大小がより反映された形でクラスタの順位付けをするには、各クラスタの文書数についても加味することが望ましい。そこで、第3実施形態では、上記各実施形態の方法により求めたクラスタスコアに対して、更にそのクラスタに含まれる文書数に応じて重み付けをして、重み付けしたスコアにより順位付けする。このように順位付けすることで、ユーザが求める話題の絶対量が多いクラスタを上位に、より表示されやすくすることができる。
図13に第3実施形態のクラスタリング結果表示装置30の機能構成例を示す。また、図14はその処理フロー例である。クラスタリング結果表示装置30は、検索部11とクラスタリング部32と興味情報蓄積部13と演算部34と可視化出力部15とから構成される。つまり、上記各実施形態のクラスタリング結果表示装置との相違部分は、クラスタリング部32と演算部34であることから、ここではその差分に重点を置いて説明する。なお、ここでは第2実施形態を基礎として説明する。
クラスタリング部32は、クラスタリング部22と同様な処理により得られた、クラスタC、クラスタ代表要素Rn,i、クラスタ代表要素スコアSRn,iとともに、各クラスタの文書数Bを出力する(S7)。
演算部34は、演算部24と同様な処理により得られた、ユーザuの各クラスタCのクラスタスコアSCu,nに、各クラスタの文書数Bをそれぞれ乗算し、その結果得ら
れた各スコアSBCu,nに従い各クラスタに順位Pを付与し、順位Pを出力する(
S8)。
図11に示したクラスタリング結果例及び図4に示した興味情報例に基づき、ユーザ1についてのクラスタ順位Pを求める方法を、図15を用いて説明する。演算部24と同様な処理の結果、ユーザ1の各クラスタスコアSC1,nは、SC1,1=0.1、SC1,2=0、SC1,3=0.58、SC1,4=0.6、SC1,5=0となる。これらにそれぞれ、各クラスタCの文書数Bをそれぞれ乗算してSBC1,nを求めると、SB
1,1=4(=0.1×40)、SBC1,2=0、SBC1,3=12.18(=0.
58×21)、SBC1,4=6(=0.6×10)、SBC1,5=0となる。その結果、SBC1、3>SBC1,4>SBC1,1>SBC1、2=SBC1、5となることから、この順番に各クラスタCに順位Pを付与すればよい。
以上のように、各クラスタスコアについて、更に各クラスタに含まれる文書数に応じて重み付けをして、重み付けしたスコアにより順位付けすることにより、ユーザが求める話題の絶対量が多いクラスタを上位に、より表示されやすくすることができる。
〔第4実施形態〕
各クラスタは、それぞれのクラスタにおける、クラスタ代表要素のいずれかをインデックスとして表示される。しかし、クラスタ代表要素がユーザにとって未知の語句等であった場合、ユーザはクラスタの内容を推定できず、求めるクラスタを選択することが困難となる。そこで第4実施形態は、第2実施形態における処理の際にそれぞれのクラスタごとに得られた各クラスタ代表要素の中で、代表要素スコアが最も大きいクラスタ代表要素を当該クラスタのインデックスとする構成である。
代表要素スコアSARu,j,n,iは、ユーザuの興味要素スコアAu,jとクラスタCのクラスタ代表要素スコアSRn,iを乗算することで得られる値であり、ユーザの
趣味・嗜好が反映された値であるとともに、クラスタを構成する文書集合におけるクラスタ代表要素Rn,iの含有度合が反映された値であると言える。そのため、代表要素スコ
アが最も大きいクラスタ代表要素をインデックスとすることで、インデックスがユーザにとって既知の語句等で表示されるとともに、そのクラスタの内容がインデックスに適切に反映され、探索の効率化を図ることができる。
図16に第4実施形態のクラスタリング結果表示装置40の機能構成例を示す。また、図17はその処理フロー例である。クラスタリング結果表示装置40は、第2実施形態のクラスタリング結果表示装置20を基礎とした構成例であり、検索部11とクラスタリング部22と興味情報蓄積部13と演算部44と可視化出力部45とから構成される。つまり、第2実施形態の構成とは演算部44と可視化出力部45とが異なる。なお、クラスタリング結果表示装置40に、第3実施形態の構成を組み込むことも可能である。
演算部44は、演算部24と同様な処理により得られた各クラスタの順位Pを出力するとともに、代表要素スコアSARu,j,n,iを出力する(S9)。
可視化出力部45は、それぞれのクラスタCごとに得られた各クラスタ代表要素Rn,iの中で、代表要素スコアSARu,j,n,iが最大のクラスタ代表要素Rn,iを当該
クラスタのインデックスとして、各クラスタの順位Pを可視化して出力する(S10)。
図11に示したクラスタリング結果例及び図4に示した興味情報例に基づいて、第2実施形態と同様な方法により、ユーザ2についてのクラスタ毎の、合致要素、代表要素スコア、クラスタスコア、クラスタ順位を求めた結果を図18に示す。ここで、クラスタスコアが0のクラスタは文書数の多いものを上位にして順位付けしている。これに基づき、単純に各クラスタの代表要素番号iが1のクラスタ代表要素をインデックスとして結果を表示すると、図19(a)に示すように「Atari→車→ネコ科→MacOS X→プロレス」という表示順となる。これに対し、代表要素スコアが最大のクラスタ代表要素をインデックスとして結果を表示すると、図19(b)に示すように「ゲーム機→ジャガーXJ→ネ
コ科→MacOS X→プロレス」というように表示される。このように、第4実施形態
の方法によれば、ユーザ2の興味語に無い「Atari」の代わりに興味語にある「ゲーム機」が表示され、興味語にあるが興味要素スコアが相対的に低い「車」の代わりに興味要素スコアが相対的に高い「ジャガーXJ」が表示される。
以上のように、代表要素スコアが最も大きいクラスタ代表要素をインデックスとすることで、インデックスがユーザにとって既知の語句等で表示されるとともに、そのクラスタの内容がインデックスに適切に表現され、探索の効率化を図ることができる。
本発明のクラスタリング結果表示装置及び方法は、上記の実施形態に限定されるものではなく、本発明を逸脱しない範囲で適宜変更が可能である。また、上記説明した各処理は記載の順に従った時系列において実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、本発明のクラスタリング結果表示装置及び方法の処理機能をコンピュータによって実現する場合、当該クラスタリング結果表示装置及び方法が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより当該クラスタリング結果表示装置及び方法における処理機能がコンピュータ上で実現される。なお、処理内容の一部をハードウェア的に実現しても構わない。
第1実施形態のクラスタリング結果表示装置の構成例を示す図。 第1実施形態のクラスタリング結果表示装置の処理フロー例を示す図。 第1実施形態のクラスタリング結果表示装置におけるクラスタリング結果の例を示す図(MacOS、アップル、Atariは登録商標)。 ユーザ興味情報の一例を示す図(MacBookは登録商標)。 第1実施形態のクラスタリング結果表示装置によりユーザ1のクラスタ順位を求める演算イメージを示す図。 第1実施形態のクラスタリング結果表示装置によるクラスタリング結果表示イメージを示す図。 第1実施形態のクラスタリング結果表示装置による別のクラスタリング結果表示イメージを示す図。 興味情報蓄積部に蓄積されたユーザプロファイルに基づき加工した情報の提供イメージを示す図。 第2実施形態のクラスタリング結果表示装置の構成例を示す図。 第2実施形態のクラスタリング結果表示装置の処理フロー例を示す図。 第2実施形態のクラスタリング結果表示装置におけるクラスタリング結果の例を示す図。 第2実施形態のクラスタリング結果表示装置によりユーザ1のクラスタ順位を求める演算イメージを示す図。 第3実施形態のクラスタリング結果表示装置の構成例を示す図。 第3実施形態のクラスタリング結果表示装置の処理フロー例を示す図。 第3実施形態のクラスタリング結果表示装置によりユーザ1のクラスタ順位を求める演算イメージを示す図。 第4実施形態のクラスタリング結果表示装置の構成例を示す図。 第4実施形態のクラスタリング結果表示装置の処理フロー例を示す図。 第4実施形態のクラスタリング結果表示装置によりユーザ2のクラスタ順位及び表示インデックスを求める演算イメージを示す図。 第2実施形態のクラスタリング結果表示装置によるクラスタリング結果表示と第4実施形態のクラスタリング結果表示装置によるクラスタリング結果表示の相違を示す図。 従来技術によるクラスタリング結果表示イメージを示す図。
1 ユーザ端末 2 通信ネットワーク 3 検索エンジン
10、20、30、40 クラスタリング結果表示装置
11 検索部 12、22、32 クラスタリング部
13 興味情報蓄積部 14、24、34、44 演算部
15、45 可視化出力部

Claims (13)

  1. ユーザにより入力された検索語について、任意の検索エンジンを用いて通信ネットワーク上を検索し、該当する文書集合を収集する検索部と、
    上記文書集合について、所定の方法によりクラスタリングを行って複数のクラスタに分類するとともに、各クラスタ毎に1以上のクラスタ代表要素を抽出し、上記各クラスタ代表要素にそれぞれ上記各クラスタ代表要素の文書集合における含有度合を示す値であるクラスタ代表要素スコアを付して出力するクラスタリング部と、
    ユーザ又はプロファイル毎に、1以上の興味要素がその興味要素スコアとともに蓄積された興味情報蓄積部と、
    上記興味情報蓄積部に蓄積された上記ユーザ又は上記ユーザに対応するプロファイルの各興味要素とその興味要素スコアを参照し、当該各興味要素と上記クラスタの各クラスタ代表要素とが合致した各要素の興味要素スコアに、上記各要素のクラスタ代表要素スコアをそれぞれ乗算して当該各要素の代表要素スコアを求め、その合計を当該クラスタのクラスタスコアとして、それを各クラスタ毎に求め、そのスコアに従い付与した各クラスタの順位と、上記代表要素スコアとを出力する演算部と、
    それぞれのクラスタについて、上記代表要素スコアの最も大きいクラスタ代表要素を当該それぞれのクラスタのインデックスとして、各クラスタについて上記順位を可視化して出力する可視化出力部と、
    を備えるクラスタリング結果表示装置。
  2. 請求項1に記載のクラスタリング結果表示装置において、
    上記クラスタリング部は、更に各クラスタを構成する文書数を出力し、
    上記演算部は、各クラスタ毎に求めた上記クラスタスコアに、更に各クラスタを構成する文書数をそれぞれ乗算して得られたスコアに従い、各クラスタに順位を付与することを特徴とするクラスタリング結果表示装置。
  3. 請求項1または2に記載のクラスタリング結果表示装置において、
    上記可視化出力部は、上記順位に従って各クラスタを整列することにより上記順位を可視化することを特徴とするクラスタリング結果表示装置。
  4. 請求項1または2に記載のクラスタリング結果表示装置において、
    上記可視化出力部は、各クラスタのインデックスを表示するフォントを上記順位に応じて相違させることにより上記順位を可視化することを特徴とするクラスタリング結果表示装置。
  5. 請求項1乃至4のいずれかに記載のクラスタリング結果表示装置において、
    上記クラスタ代表要素は代表語であり、上記興味要素は興味語であることを特徴とする
    クラスタリング結果表示装置。
  6. 請求項1乃至4のいずれかに記載のクラスタリング結果表示装置において、
    上記クラスタ代表要素は代表URLであり、上記興味要素は興味URLであることを特徴とするクラスタリング結果表示装置。
  7. ユーザにより入力された検索語について、任意の検索エンジンを用いて通信ネットワーク上を検索し、該当する文書集合を収集する検索ステップと、
    上記文書集合について、所定の方法によりクラスタリングを行って複数のクラスタに分類するとともに、各クラスタ毎に1以上のクラスタ代表要素を抽出し、上記各クラスタ代表要素にそれぞれ上記各クラスタ代表要素の文書集合における含有度合を示す値であるクラスタ代表要素スコアを付して出力するクラスタリングステップと、
    上記クラスタの各クラスタ代表要素と上記ユーザ又は上記ユーザに対応するプロファイルの各興味要素とが合致した各要素の興味要素スコアに、上記各要素のクラスタ代表要素スコアをそれぞれ乗算して当該各要素の代表要素スコアを求め、その合計を当該クラスタのクラスタスコアとして、それを各クラスタ毎に求め、そのスコアに従い付与した各クラスタの順位と、上記代表要素スコアとを出力する演算ステップと、
    それぞれのクラスタについて、上記代表要素スコアの最も大きいクラスタ代表要素を当該それぞれのクラスタのインデックスとして、各クラスタについて上記順位を可視化して出力する可視化出力ステップと、
    を実行するクラスタリング結果表示方法。
  8. 請求項7に記載のクラスタリング結果表示方法において、
    上記クラスタリングステップは、更に各クラスタを構成する文書数を出力し、
    上記演算ステップは、各クラスタ毎に求めた上記クラスタスコアに、更に各クラスタを構成する文書数をそれぞれ乗算して得られたスコアに従い、各クラスタに順位を付与することを特徴とするクラスタリング結果表示方法。
  9. 請求項7または8に記載のクラスタリング結果表示方法において、
    上記可視化出力ステップは、上記順位に従って各クラスタを整列することにより上記順位を可視化することを特徴とするクラスタリング結果表示方法。
  10. 請求項7または8に記載のクラスタリング結果表示方法において、
    上記可視化出力ステップは、各クラスタのインデックスを表示するフォントを上記順位に応じて相違させることにより上記順位を可視化することを特徴とするクラスタリング結果表示方法。
  11. 請求項7乃10のいずれかに記載のクラスタリング結果表示方法において、
    上記クラスタ代表要素は代表語であり、上記興味要素は興味語であることを特徴とするクラスタリング結果表示方法。
  12. 請求項7乃10のいずれかに記載のクラスタリング結果表示方法において、
    上記クラスタ代表要素は代表URLであり、上記興味要素は興味URLであることを特徴とするクラスタリング結果表示方法。
  13. 請求項1〜6のいずれかに記載した装置としてコンピュータを機能させるためのプログラム。
JP2008302507A 2008-11-27 2008-11-27 クラスタリング結果表示装置、その方法及びプログラム Expired - Fee Related JP5227146B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008302507A JP5227146B2 (ja) 2008-11-27 2008-11-27 クラスタリング結果表示装置、その方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008302507A JP5227146B2 (ja) 2008-11-27 2008-11-27 クラスタリング結果表示装置、その方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2010128771A JP2010128771A (ja) 2010-06-10
JP5227146B2 true JP5227146B2 (ja) 2013-07-03

Family

ID=42329123

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008302507A Expired - Fee Related JP5227146B2 (ja) 2008-11-27 2008-11-27 クラスタリング結果表示装置、その方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5227146B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101172487B1 (ko) * 2010-11-29 2012-08-14 엔에이치엔(주) 검색 결과 내에 첨부된 정보 데이터베이스에 기초한 검색 리스트 및 검색어 순위 제공 방법 및 시스템
JP5640833B2 (ja) * 2011-03-10 2014-12-17 富士通株式会社 検索方法、検索プログラム及び検索装置
US20130212089A1 (en) * 2012-02-10 2013-08-15 Google Inc. Search Result Categorization
JP6065001B2 (ja) * 2012-04-12 2017-01-25 日本電気株式会社 データ検索装置、データ検索方法およびデータ検索用プログラム
JP6135327B2 (ja) * 2013-06-20 2017-05-31 コニカミノルタ株式会社 情報処理装置、文書データ整理装置、文書提示方法、およびコンピュータプログラム
KR101761226B1 (ko) * 2013-06-23 2017-07-25 인텔 코포레이션 수취인에게 관심 있는 선물의 크라우드-소싱을 위한 상황적 관련성 정보에 기초한 사용자 정보의 선택적 공유
US10559223B2 (en) * 2014-09-08 2020-02-11 Under Armour, Inc. Food description processing methods and apparatuses
JP6412540B2 (ja) * 2016-11-10 2018-10-24 Necパーソナルコンピュータ株式会社 情報処理装置、情報処理方法、およびプログラム
CN110580510B (zh) * 2019-09-12 2023-07-25 深圳力维智联技术有限公司 一种聚类结果评价方法和系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002230035A (ja) * 2001-01-05 2002-08-16 Internatl Business Mach Corp <Ibm> 情報整理方法、情報処理装置、情報処理システム、記憶媒体、およびプログラム伝送装置
US20060074864A1 (en) * 2004-09-24 2006-04-06 Microsoft Corporation System and method for controlling ranking of pages returned by a search engine
JP4592629B2 (ja) * 2006-03-28 2010-12-01 日本電信電話株式会社 文書検索支援方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP4547500B2 (ja) * 2006-07-21 2010-09-22 国立大学法人群馬大学 検索装置及びプログラム

Also Published As

Publication number Publication date
JP2010128771A (ja) 2010-06-10

Similar Documents

Publication Publication Date Title
JP5227146B2 (ja) クラスタリング結果表示装置、その方法及びプログラム
US11507551B2 (en) Analytics based on scalable hierarchical categorization of web content
CN106980692B (zh) 一种基于微博特定事件的影响力计算方法
JP5913736B2 (ja) キーワードの推薦
JP5662961B2 (ja) レビュー処理方法およびシステム
CN105912669B (zh) 用于补全搜索词及建立个体兴趣模型的方法及装置
US7711735B2 (en) User segment suggestion for online advertising
US8793253B2 (en) Unified semantic ranking of compositions of ontological subjects
US20140310255A1 (en) Search suggestion and display environment
US8452795B1 (en) Generating query suggestions using class-instance relationships
US20100185623A1 (en) Topical ranking in information retrieval
US9613138B2 (en) Unified semantic scoring of compositions of ontological subjects
WO2015160415A2 (en) Systems and methods for visual sentiment analysis
CN102004772A (zh) 一种用于根据检索词进行搜索结果排序的方法及设备
US9940408B2 (en) Trigger query obtaining apparatus, trigger query obtaining method, and non-transitory computer readable recording medium
Bouras et al. Clustering user preferences using W-kmeans
JP6196200B2 (ja) ラベル抽出装置、ラベル抽出方法およびプログラム
US20150169562A1 (en) Associating resources with entities
WO2020057237A1 (zh) 适用于关注对象的影响力检测方法、电子终端及存储介质
JP7001380B2 (ja) 情報処理システム、情報処理方法、およびプログラム
JP6746472B2 (ja) 生成装置、生成方法および生成プログラム
JP2012104051A (ja) 文書インデックス作成装置
JP5411802B2 (ja) 代表語抽出装置、代表語抽出方法および代表語抽出プログラム
Pisal et al. AskUs: An opinion search engine
JP5265610B2 (ja) 関連語抽出装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110316

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121211

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130315

R150 Certificate of patent or registration of utility model

Ref document number: 5227146

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160322

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees