JP3632359B2 - 情報検索装置 - Google Patents

情報検索装置 Download PDF

Info

Publication number
JP3632359B2
JP3632359B2 JP06749697A JP6749697A JP3632359B2 JP 3632359 B2 JP3632359 B2 JP 3632359B2 JP 06749697 A JP06749697 A JP 06749697A JP 6749697 A JP6749697 A JP 6749697A JP 3632359 B2 JP3632359 B2 JP 3632359B2
Authority
JP
Japan
Prior art keywords
information
leaf node
cluster
tree structure
leaf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP06749697A
Other languages
English (en)
Other versions
JPH10254905A (ja
Inventor
圭子 青木
一則 松本
和夫 橋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP06749697A priority Critical patent/JP3632359B2/ja
Priority to EP04022290A priority patent/EP1486891A3/en
Priority to US09/022,280 priority patent/US6078913A/en
Priority to EP98301003A priority patent/EP0859330A1/en
Publication of JPH10254905A publication Critical patent/JPH10254905A/ja
Application granted granted Critical
Publication of JP3632359B2 publication Critical patent/JP3632359B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、大量の情報をより高速に検索するための情報検索装置に関する。
【0002】
【従来の技術】
大量の情報を検索するための情報検索装置の代表例としては、インターネットにおけるサーチエンジンがある。該サーチエンジンの検索対象は、WWW(World Wide Web)における文書情報となるページである。以下では、具体的な利用としてインターネット上でのサーチエンジンを例にとり説明していく。
【0003】
従来のサーチエンジンは、ユーザが指定したキーワード等をキーとして、予め事前に収集しておいたページ情報からバッチ処理的に検索を行うものである。これは、サーチエンジンのデータベースがキーワード別にページのURL(Uniform Resource Locator)を分類して記憶することで実現している。しかし、このような方法では、最近のWWWの広がりによる膨大な数のページを検索しなければならない状況にあっては、1つのキーワードにかなりの数のURLが対応してしまうことになる。つまり、ユーザが指定したキーワードに対してかなりの数のURLが提供されることになり、本来のユーザ所望のページのURLはその中に埋没してしまうことになる。更に、検索結果として提供された複数のURLのページには、予め登録されたキーワードについては同一性があるものの、内容的には全く類似性又は関連性がない場合が多い。そのような状況で、比較的漠然とした限定条件しか持っていないユーザは、キーワードだけに依存した探索的な情報検索を繰り返している。
【0004】
これらの不都合を解決するために、サーチエンジンのデータベースが、検索対象となるページのURLを、該ページ内容の類似性及び関連性によって階層的な木構造にクラスタリングして記憶する方法がある。これにより、ユーザに対して、それぞれが類似性及び関連性のある複数のページの検索結果を提供することができ、かつより高速な検索が可能となる。
【0005】
この階層的な木構造のクラスタを生成するために、全ての情報間の類似度を算出し、類似度の高い情報同士を近くに配置する方法がある。この方法は、各情報を1つのクラスタとしておき、クラスタc 及びc をマージしたクラスタcを仮定したときの、cの語分布のもとでc 及びc の語分布の類似度P(c|c ,c )を全クラスタの組み合わせについて求めて、類似度が最大となる組み合わせをマージして1クラスタにする。この処理を、全ての情報が1つのクラスタになるまで繰り返すことによって行う。
【0006】
前述の方法は、全ての情報と総当たり的に類似度を算出するものである。該方法の比較回数は、(n−1)(n−2) +....+1となり、情報数をnとすると類似度の総計算量がO(n )となる。これにより、図1に示すように、類似度によって正確にクラスタリングされかつ最小符号長となる理想的なクラスタを生成することが可能になる。図1の例ような、情報が27個の場合の計算量は、2726+...+1となり、1730回の比較が必要となる。
【0007】
【発明が解決しようとする課題】
しかし、前述した方法ではクラスタを生成するために要する総計算量がO(n )であるために、情報の数が増えるに従って計算量もかなり増大することになる。特に、膨大なページ情報を扱わなければならないサーチエンジンにおいては、クラスタの生成に多大な時間がかかることになる。更に、前述した方法においてはクラスタの一括生成を対象としているために、新たに1つのページが追加されただけで、再度総当たり的な類似度の計算をやり直さなければならない。
【0008】
されど、ページのような文書情報を対象とするサーチエンジンにおいて、該文書情報の類似度に対してクラスタの高い精度を必要とするとは考えられない。比較的漠然とした限定条件しか持っていないユーザにとって、比較的類似した複数の文書情報のURLが提供されれば良いはずである。逆に、情報の検索及び更新に即時性が要求されるために、多少クラスタの類似精度は劣っても、より高速にクラスタリングできる方法が必要である。
【0009】
従って、本発明の目的は、膨大な数の文書情報をより少ない計算量でクラスタを生成し、かつ該クラスタの形を残したままページを更新する情報検索装置を提供することにある。
【0010】
【課題を解決するための手段】
本発明の情報検索装置によれば、複数の情報を記憶するデータベースと、該データベースを用いて該情報を階層的な木構造に構成し、検索及び更新する制御部とを有する情報検索装置であって、制御部は、
複数の情報の中から、木構造の葉ノードとなる所定の個数の情報をランダムに選択する第1の手段と、該選択された情報から木構造を生成する第2の手段と、選択されなかった残りの情報を、選択された情報に類似する葉ノードに割り当てる第3の手段と、木構造全体のクラスタの符号長を計算する第4の手段とを有し、第1から第4の手段が所定の回数繰り返され、最小符号長となる所定の個数の情報を選択するように構成された葉ノード情報選択手段と、
選択されなかった残りの情報を、類似する葉ノードに割り当てる部分クラスタ生成手段と、
葉ノード情報選択手段及び部分クラスタ生成手段が、生成された木構造の葉ノードの方向に向かって繰り返されるように指示する再帰クラスタリング手段と
を有することを特徴とする。
葉ノード情報選択手段で選択される情報によってクラスタの類似精度が決まるけれども、より高速にクラスタを生成することが可能となる。また、最小符号長となる所定の個数の情報を選択することで、クラスタの木構造をたどって検索する際に、より少ない比較回数で対象情報に到達することが可能となる。この方法は、従来の総当たり的な類似度の比較に比べて、クラスタの類似度は劣るけれども、より高速にクラスタを生成することができる。
【0011】
本発明の情報検索方法によれば、複数の情報を階層的木構造のクラスタに構成し、情報を更新及び検索する情報検索方法であって、
複数の情報の中から、木構造の葉ノードとなる所定の個数の情報をランダムに選択する第1の段階と、該選択された情報から木構造を生成する第2の段階と、選択されなかった残りの情報を、選択された情報に類似する葉ノードに割り当てる第3の段階と、木構造全体のクラスタの符号長を計算する第4の段階とを含んでおり、第1から第4の段階が所定の回数繰り返され、最小符号長となる所定の個数の情報を選択するように構成された葉ノード情報選択段階と、
選択されなかった残りの情報を、類似する葉ノードに割り当てる部分クラスタ生成段階と、
葉ノード情報選択段階及び部分クラスタ生成段階が、生成された木構造の葉ノードの方向に向かって繰り返されるように指示する再帰クラスタリング段階と
を有することを特徴とする。
【0013】
情報検索装置の他の実施形態によれば、葉ノード情報選択手段の第4の手段は、
kを選択された所定の個数とした場合、木の記述自体に必要なノードの情報量L1=2k−1と、
葉ノードiに割り当てられた情報の数をni 及び全情報から葉ノードiの情報が選択される確率をpi =ni /Σj nj とした場合、各葉ノードに割り当てられた情報の数から分類に必要な符号長L2=Σni log pi との和として求められるように構成されていることも好ましい。
また、情報検索方法の他の実施形態によれば、葉ノード情報選択段階の第4の段階は、
kを選択された所定の個数とした場合、木の記述自体に必要なノードの情報量L1=2k−1と、
葉ノードiに割り当てられた情報の数をni 及び全ての情報から葉ノードiの情報が選択される確率をpi =ni /Σj nj とした場合、各葉ノードに割り当てられた情報の数から分類に必要な符号長L2=Σni log pi
の和として求められることも好ましい。
【0014】
葉ノード情報選択手段で選択される情報の個数を大きくするほど、クラスタの生成速度は劣るが、1回分の分類単位を大きくでき、かつより高い類似精度のクラスタを生成することができる。
【0015】
情報検索装置の他の実施形態によれば、再帰クラスタリング手段は、木構造の葉ノードに割り当てられた情報の個数が所定の個数よりも大きい場合にのみ、葉ノード情報選択手段及び部分クラスタ生成手段が、生成された木構造の葉ノードの方向に向かって繰り返されるように指示するように構成されていることも好ましい。
また、情報検索方法の他の実施形態によれば、再帰クラスタリング段階は、木構造の葉ノードに割り当てられた情報の個数が所定の個数よりも大きい場合にのみ、葉ノード情報選択段階及び部分クラスタ生成段階が、生成された木構造の葉ノードの方向に向かって繰り返されるように指示することも好ましい。
【0017】
【発明の実施の形態】
以下、図面を用いて本発明の実施形態を詳細に説明する。
【0018】
図2は、本発明の一実施形態における情報検索装置の構成図である。インターネット11に接続された情報検索装置は、通常、情報検索サーバ12と位置づけられる。インターネット11には、更に、ページを有する膨大な数のコンピュータ13と、検索を所望するクライアント14とが接続されている。情報検索サーバ12は、該コンピュータ13の有するページのURLであるページ情報を管理し、かつクライアント14が指定する条件に合うページのURLを検索結果として提供するためのものである。
【0019】
情報検索サーバ12は、コンテンツデータベース121、クラスタデータベース122及び制御部123を有している。コンテンツデータベース121は、複数のページ情報が記憶されおり、従来の情報検索サーバにも当然に備えられていたものである。従来の一般的なサーチエンジンは、コンテンツデータベース121と、該コンテンツデータベース121からページ情報を検索する制御部とを有している。本実施形態では、更にクラスタデータベース122を設けている。該クラスタデータベース122には、ページ情報をクラスタリングするためのノード情報が記憶されている。
【0020】
本実施形態の制御部123は、葉ノード情報選択手段123a、部分クラスタ生成手段123b、再帰クラスタリング手段123c及びページ更新/検索手段123dを有している。葉ノード情報選択手段123aは、複数のページ情報の中から所定の個数の最適なページ情報を選択するためのものである。部分クラスタ生成手段123bは、選択されなかった残りのページ情報を該クラスタの類似する葉ノードに割り当ててクラスタを生成するためのものである。再帰クラスタリング手段123cは、生成されたクラスタの葉ノード方向に向かって、葉ノード情報選択手段123a及び部分クラスタ生成手段123bを再度繰り返されるように指示するためのものである。ページ更新/検索手段123dは、生成されたクラスタにページ情報を追加及び更新したり、該クラスタからページ情報を検索するためのものである。
【0021】
他の実施形態においては、前述した構成を、葉ノード選択段階、部分クラスタ生成段階、再帰クラスタリング段階及びページ更新/検索段階として実現している。以下では、これらの処理段階を説明する。
【0022】
図3は、クラスタを生成するための再帰クラスタリング段階をフローチャートで表したものである。これは、2分木の情報構造を探索するために一般に用いられる再帰関数に類似したものであり、入力(31)はページ集合を示すノードのポインタである。クラスタを構築する場合、全てのぺージを割り当てたルートノードを入力するものとする。
【0023】
最初に、入力されたノードに割り当てられたページの数を判断する(32)。このページの数が所定のmax個以上であれば、本発明の方法において該ノードの下層に位置するクラスタを生成する。一方、ページの数が所定のmax個以下であれば、類似精度を高めて総当たり的にクラスタリング(38)する。これは、公知のクラスタリングで一般に用いられているものである。
【0024】
ノードに割り当てられたページの数がmax個を越える場合、クラスタ生成関数が呼び出される(33)。該クラスタ生成関数は、入力となるノードのポインタの下層に位置するページをクラスタリングするものである。該関数の出力は、生成された部分クラスタのルートノードのポインタである。
【0025】
次に、生成されたクラスタの各葉ノードに対して(34)再帰的に呼び出してクラスタリングを進めていく。まず、ある葉ノードに対して、該葉ノードに割り当てられたぺ−ジがあるかどうかを判定する(35)。割り当てられたページがあれば、再帰的に自関数(36)を呼び出して、クラスタの下層に向かってクラスタリングを進めていく。その後、再帰クラスタリング関数で得られたクラスタのルートノードを葉ノードとしてマージする(37)。
【0026】
図4は、前述したクラスタ生成関数をフローチャートで表したものである。該クラスタ生成関数は、大きく葉ノード選択段階と部分クラスタ生成段階との2つの処理段階に分けられる。葉ノード選択段階は、複数のページの中から、クラスタリングした際に最小符号長となるような所定の個数の最適なページを選択するものである。部分クラスタ生成段階は、前記選択されたページを葉ノードとして、選択されなかった残りのページを類似する葉ノードに割り当ててクラスタを完成させるものである。
【0027】
最初に、入力(41)されたノードのポインタに割り当てられた複数のページから、max個のページ集合P[t]を選択する(43)。該max個を大きくするほど、1回分の分類単位を大きくできる。tは、一連の処理を繰り返す度に1増分されるものである。本クラスタ生成関数が呼び出される際のノードには、再帰クラスタリング段階の流れから、少なくともmax個以上のページが割り当てられているはずである。
【0028】
次に、選択されたページ集合P[t]を公知のアルゴリズムでクラスタリングを行う(44)。これは、max個の中で総当たり的に類似度を判定してクラスタリングを行うために、計算量が著しく増加することはない。
【0029】
次に、生成されたページ集合P[t]のクラスタについて、選択されなかった残りのページを、該クラスタの類似する葉ノードに対して割り当てる(45)。
【0030】
次に、生成されたクラスタ符号長L[t]を求める(46)。情報の集合の最適化では、MDL(Minimum Description Length criterion)基準に基づき、分類結果の符号長が最小になるように選択される。ここでの符号長Lは、該クラスタに必要なノードの情報量L1と、各葉ノードに割り当てられたページ数から分類に必要な符号長L2との和として求められる。
【0031】
2分木自体の符号化は、木を先行順に訪れて内部ノードを訪れたときに1を出力し、葉ノードを訪れたときに0を出力することによって行う。ノードの情報量L1は、葉ノードの数(=max)をkとすると、木の記述自体に必要な内部ノード数はL1=2k−1となる。
【0032】
葉ノードiに割り当てられたページの数をn及び全ページから葉ノードiの情報が選択される確率をp=n/Σとした場合、各葉ノードに割り当てられたページの数から分類に必要な符号長L2=Σn log pとなる。これにより、L1+L2がクラスタの符号長Lとして求められる。
【0033】
ここで求められたクラスタの符号長Lを、以前の繰り返しによって記憶されている最小符号長Lmin と比較する。求められた符号長L[t]が記憶されている最小符号長Lmin よりも小さければ、L[t]がLmin として記憶される(47)。
【0034】
これら一連の処理を所定の回数c回、繰り返す(42)ことによって最小符号長となるなページ集合P[t]が選択される。ページ集合の選択はランダムに行われるために、この回数cが大きいほど最適なページ集合を選択することができる。
【0035】
クラスタ生成段階は、葉ノード選択段階によって選択されたページ集合P[t]を類似度に応じてクラスタリングを行い(48)、次いで、選択されなかった残りのページを、生成されたクラスタの類似する葉ノードに割り当てる(49)。このようにして、最小符号長Lmin となるクラスタが生成される。
【0036】
前述した一実施形態のクラスタリング方法では、所定のmax個数以上では多少類似精度を落として高速にクラスタリングし、所定のmax個数以下では類似精度を高めて総当たり的にクラスタリングする。そのために、生成時間及び類似精度にバランスをとってクラスタを生成することができる.
【0037】
図5から図9までは、本実施形態で生成されていくクラスタ生成の過程の一例を説明している。ここでの例は、対象となるページ数が27個であり、max個が4個であるとする。また、ページには1から27までの番号が付与されており互いの類似度の差には大小あるものとする。
【0038】
図5は、一度、クラスタ生成関数が実行された場合を表している。葉ノード選択段階によって、ランダムな4個のページの選択が繰り返され、最小符号長となるページ1、9、12、15が選択されている。そして、クラスタ生成段階によってこれら4個のページがクラスタリングされ、選択されなかった残りのページが、類似する葉ノードに割り当てられている。例えば、ページ15の位置する葉ノードには、15から27までのページが割り当てられている。
【0039】
図6は、15から27までのページが割り当てられている葉ノードのポインタを入力として、再度クラスタ生成関数が呼び出された場合を表している。葉ノード選択段階によって、最小符号長となる15、16、21、24の4つのページが選択されている。そして、クラスタ生成段階によってこれら4個のページがクラスタリングされ、選択されなかった残りのページが、類似する葉ノードに割り当てられている。例えば、ページ16の位置する葉ノードには、16から20までのページが割り当てられている。
【0040】
図7は、図3の再帰クラスタリング段階において、最終的に生成されたクラスタ一例が表されている。これにより葉ノードに近いほど、高い類似度のページであるようにクラスタリングされる。図1の理想的なクラスタに対して、隣り合うページ間の類似精度が多少劣るために、不規則なクラスタが生成されている。しかし、文書情報のように正確な類似精度を必要としない対象に対しては、その分、高速にクラスタリングできる利点は大きい。
【0041】
図8は、生成されたクラスタに対して、ページの更新を行うクラスタ更新段階のフローチャートを表している。クラスタが更新される場合、クラスタ全体を再構築するのではなく、元のクラスタの形を残したまま最も類似するページの近くに該ページを配置する方が、より高速にクラスタを更新することができる。
【0042】
新しいページxが追加される場合、最初に、ページxの全体から頻度表t を作成し(81)、該頻度表t をクラスタデータベース122に記憶しておく。次に、ルートノードから順に、左右の子ノード情報の頻度表とページxの頻度表t とを比較して検索していく。
【0043】
まず、現在の検索位置にあるノードN (最初はルートノード)が子ノードを持つがどうか(82)を判断する。ノードN が子ノードを持っていなければ、ページxはノードN に割り当てられる。このとき、ノードN の位置に新たにノードN を作成し、ノードN の子ノードをして、ノードN とぺ−ジxに対応するノードN を追加する(87)。
【0044】
ページxの頻度表t と、ノードN の左右の子ノードの頻度表t_ 及びt_ とを比較して、どちらの子ノードに類似しているかを判断する(83、84)。ノードN は、類似している子ノードのリンクをたどっていく(85、86)。これらの操作は、現在の検索位置にあるノード情報N が子ノードを持たなくなるまで繰り返される。そして、ノードN の位置に新たにノードN を作成し、ノードN の子ノードをして、ノードN とぺ−ジxに対応するノードN を追加する(87)。
【0045】
このような方法を用いた場合、クラスタ更新の計算量は、O(log n)で実現できる。但し、この方法では、当初生成されたクラスタに対してページが追加されていく形になるので、本来あるべきクラスタの形と異なってくるために、定期的にクラスタの再構築を行う必要がある。
【0046】
以上詳細に説明した実施形態ではインターネットにおけるサーチエンジンを例にとり説明したが、大量の情報を検索するために分類するような装置又は方法に対する適用において、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。従って、前述した実施形態は、あくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものだけに制約される。
【0047】
【発明の効果】
以上詳細に説明したように本発明によれば、所定の個数の情報を選択する葉ノード情報選択手段と、選択されなかった残りの情報を類似する該葉ノードに割り当てる部分クラスタ生成手段と、前記葉ノード情報選択手段及び前記クラスタ生成手段が、該生成されたクラスタの葉ノードの方向に向かって繰り返されるように指示する再帰クラスタリング手段とを用いて総当りの比較回数を減らすことにより、より高速にクラスタを生成することが可能となる。また、クラスタの更新を行う場合、クラスタ全体を再構築するのではなく、元のクラスタの形を残したまま最も類似するページの近くに該ページを配置することにより、より高速にクラスタを更新するこが可能となる。
【図面の簡単な説明】
【図1】従来のアルゴリズムにより生成された理想的な木構造図である。
【図2】本発明の一実施形態における情報検索装置の構成図である。
【図3】本発明の一実施形態における再帰クラスタリング関数のフローチャートである。
【図4】図3の再帰クラスタリング関数内で呼び出されるクラスタ生成関数のフローチャートである。
【図5】図3の再帰クラスタリング関数により第1段階で生成された木構造図の一例である。
【図6】図5の第2段階で生成された木構造図である。
【図7】図5の最終段階で生成された木構造図である。
【図8】本発明の一実施形態におけるクラスタ更新関数のフローチャートである。
【符号の説明】
11 インターネット
12 情報検索サーバ
121 コンテンツデータベース
122 クラスタデータベース
123 制御部
123a 葉ノード情報選択手段
123b 部分クラスタ生成手段
123c 再帰クラスタリング手段
123d ページ更新/検索手段
13 コンピュータ
14 クライアント

Claims (6)

  1. 複数の情報を記憶するデータベースと、該データベースを用いて該情報を階層的な木構造に構成し、検索及び更新する制御部とを有する情報検索装置であって、前記制御部は、
    前記複数の情報の中から、木構造の葉ノードとなる所定の個数の情報をランダムに選択する第1の手段と、該選択された情報から木構造を生成する第2の手段と、選択されなかった残りの情報を、前記選択された情報に類似する前記葉ノードに割り当てる第3の手段と、木構造全体のクラスタの符号長を計算する第4の手段とを有し、前記第1から第4の手段が所定の回数繰り返され、最小符号長となる所定の個数の情報を選択するように構成された葉ノード情報選択手段と、
    択されなかった残りの情報を類似する前記葉ノードに割り当てる部分クラスタ生成手段と、
    記葉ノード情報選択手段及び前記部分クラスタ生成手段が、成された前記木構造の葉ノードの方向に向かって繰り返されるように指示する再帰クラスタリング手段
    を有することを特徴とする情報検索装置。
  2. 前記葉ノード情報選択手段の第4の手段は、
    kを前記選択された所定の個数とした場合、木の記述自体に必要なノードの情報量L1=2k−1と、
    葉ノードiに割り当てられた情報の数をni 及び全情報から葉ノードiの情報が選択される確率をpi =ni /Σj nj とした場合、各葉ノードに割り当てられた情報の数から分類に必要な符号長L2=Σni log pi と
    の和として求められるように構成されていることを特徴とする請求項に記載の情報検索装置。
  3. 前記再帰クラスタリング手段は、前記木構造の葉ノードに割り当てられた情報の個数が所定の個数よりも大きい場合にのみ、前記葉ノード情報選択手段及び前記部分クラスタ生成手段が、成された木構造の葉ノードの方向に向かって繰り返されるように指示するように構成されていることを特徴とする請求項1又は2に記載の情報検索装置。
  4. 複数の情報を階層的木構造のクラスタに構成し、前記情報を更新及び検索する情報検索方法であって、
    前記複数の情報の中から、木構造の葉ノードとなる所定の個数の情報をランダムに選択する第1の段階と、該選択された情報から木構造を生成する第2の段階と、選択されなかった残りの情報を、前記選択された情報に類似する前記葉ノードに割り当てる第3の段階と、木構造全体のクラスタの符号長を計算する第4の段階とを含んでおり、前記第1から第4の段階が所定の回数繰り返され、最小符号長となる所定の個数の情報を選択するように構成された前記葉ノード情報選択段階と、
    択されなかった残りの情報を類似する前記葉ノードに割り当てる部分クラスタ生成段階と、
    記葉ノード情報選択段階及び前記部分クラスタ生成段階が、成された前記木構造葉ノードの方向に向かって繰り返されるように指示する再帰クラスタリング段階と
    を有することを特徴とする情報検索方法。
  5. 前記葉ノード情報選択段階の前記第4の段階は、
    kを前記選択された所定の個数とした場合、木の記述自体に必要なノードの情報量L1=2k−1と、
    葉ノードiに割り当てられた情報の数をni 及び全ての情報から葉ノードiの情報が選択される確率をpi =ni /Σj nj とした場合、各葉ノードに割り当てられた情報の数から分類に必要な符号長L2=Σni log pi と
    の和として求められることを特徴とした請求項に記載の情報検索方法。
  6. 前記再帰クラスタリング段階は、前記木構造の葉ノードに割り当てられた情報の個数が所定の個数よりも大きい場合にのみ、前記葉ノード情報選択段階及び前記部分クラスタ生成段階が、成された木構造の葉ノードの方向に向かって繰り返されるように指示することを特徴とする請求項4又は5に記載の情報検索方法。
JP06749697A 1997-02-12 1997-03-06 情報検索装置 Expired - Fee Related JP3632359B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP06749697A JP3632359B2 (ja) 1997-03-06 1997-03-06 情報検索装置
EP04022290A EP1486891A3 (en) 1997-02-12 1998-02-11 Document retrieval apparatus
US09/022,280 US6078913A (en) 1997-02-12 1998-02-11 Document retrieval apparatus
EP98301003A EP0859330A1 (en) 1997-02-12 1998-02-11 Document retrieval apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP06749697A JP3632359B2 (ja) 1997-03-06 1997-03-06 情報検索装置

Publications (2)

Publication Number Publication Date
JPH10254905A JPH10254905A (ja) 1998-09-25
JP3632359B2 true JP3632359B2 (ja) 2005-03-23

Family

ID=13346666

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06749697A Expired - Fee Related JP3632359B2 (ja) 1997-02-12 1997-03-06 情報検索装置

Country Status (1)

Country Link
JP (1) JP3632359B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001202283A (ja) * 1999-11-09 2001-07-27 Fujitsu Ltd コンテンツ更新状況監視システム
JP2003316819A (ja) * 2002-04-22 2003-11-07 Shinkichi Himeno オブジェクト分類検索装置及びそれを実行するためのプログラム
JP4507991B2 (ja) * 2005-06-09 2010-07-21 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP5035596B2 (ja) * 2006-09-19 2012-09-26 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP5153601B2 (ja) * 2008-12-10 2013-02-27 ヤフー株式会社 検索結果分類装置、方法及びプログラム

Also Published As

Publication number Publication date
JPH10254905A (ja) 1998-09-25

Similar Documents

Publication Publication Date Title
US6078913A (en) Document retrieval apparatus
AU2006279520B2 (en) Ranking functions using a biased click distance of a document on a network
US7809758B2 (en) Database and method of generating same
US7912818B2 (en) Web graph compression through scalable pattern mining
US20040193698A1 (en) Method for finding convergence of ranking of web page
CN111868710B (zh) 搜索大规模非结构化数据的随机提取森林索引结构
US20050027685A1 (en) Adaptive computation of ranking
JP2006107432A (ja) クリックディスタンスを用いて検索結果をランク付けするシステムおよび方法
EP1625471A2 (en) Improved methods for ranking nodes in large directed graphs
Puppin et al. Tuning the capacity of search engines: Load-driven routing and incremental caching to reduce and balance the load
US6735600B1 (en) Editing protocol for flexible search engines
RU2556425C1 (ru) Способ автоматической итеративной кластеризации электронных документов по семантической близости, способ поиска в совокупности кластеризованных по семантической близости документов и машиночитаемые носители
CN111801665A (zh) 用于大数据应用的分层局部敏感哈希(lsh)分区索引
Kumar Quadratic Search: A New and Fast searching Algorithm (An extension of classical Binary search strategy)
US7275052B2 (en) Combined classification based on examples, queries, and keywords
JP3632359B2 (ja) 情報検索装置
WO2022156086A1 (zh) 人机交互方法、装置、设备及存储介质
Langville et al. The use of linear algebra by web search engines
KR20010102687A (ko) 카테고리 학습 기법을 이용한 주제별 웹 문서 자동 분류방법 및 시스템
JPH11250102A (ja) 情報検索方法及び装置
Lu et al. Dynamic Partition Forest: An Efficient and Distributed Indexing Scheme for Similarity Search based on Hashing
KR100434718B1 (ko) 문서 색인 시스템 및 그 방법
JP3603395B2 (ja) マッチング装置およびマッチング方法
Mishra et al. Review of Web Page Clustering
JP2002215674A (ja) Webページ閲覧支援システム、方法及びプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040615

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040831

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041029

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041213

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees