JP3632359B2

JP3632359B2 - 情報検索装置

Info

Publication number: JP3632359B2
Application number: JP06749697A
Authority: JP
Inventors: 圭子青木; 一則松本; 和夫橋本
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 1997-03-06
Filing date: 1997-03-06
Publication date: 2005-03-23
Anticipated expiration: 2017-03-06
Also published as: JPH10254905A

Description

【０００１】
【発明の属する技術分野】
本発明は、大量の情報をより高速に検索するための情報検索装置に関する。
【０００２】
【従来の技術】
大量の情報を検索するための情報検索装置の代表例としては、インターネットにおけるサーチエンジンがある。該サーチエンジンの検索対象は、ＷＷＷ（ＷｏｒｌｄＷｉｄｅＷｅｂ）における文書情報となるページである。以下では、具体的な利用としてインターネット上でのサーチエンジンを例にとり説明していく。
【０００３】
従来のサーチエンジンは、ユーザが指定したキーワード等をキーとして、予め事前に収集しておいたページ情報からバッチ処理的に検索を行うものである。これは、サーチエンジンのデータベースがキーワード別にページのＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を分類して記憶することで実現している。しかし、このような方法では、最近のＷＷＷの広がりによる膨大な数のページを検索しなければならない状況にあっては、１つのキーワードにかなりの数のＵＲＬが対応してしまうことになる。つまり、ユーザが指定したキーワードに対してかなりの数のＵＲＬが提供されることになり、本来のユーザ所望のページのＵＲＬはその中に埋没してしまうことになる。更に、検索結果として提供された複数のＵＲＬのページには、予め登録されたキーワードについては同一性があるものの、内容的には全く類似性又は関連性がない場合が多い。そのような状況で、比較的漠然とした限定条件しか持っていないユーザは、キーワードだけに依存した探索的な情報検索を繰り返している。
【０００４】
これらの不都合を解決するために、サーチエンジンのデータベースが、検索対象となるページのＵＲＬを、該ページ内容の類似性及び関連性によって階層的な木構造にクラスタリングして記憶する方法がある。これにより、ユーザに対して、それぞれが類似性及び関連性のある複数のページの検索結果を提供することができ、かつより高速な検索が可能となる。
【０００５】
この階層的な木構造のクラスタを生成するために、全ての情報間の類似度を算出し、類似度の高い情報同士を近くに配置する方法がある。この方法は、各情報を１つのクラスタとしておき、クラスタｃ_ｉ及びｃ_ｊをマージしたクラスタｃを仮定したときの、ｃの語分布のもとでｃ_ｉ及びｃ_ｊの語分布の類似度Ｐ（ｃ｜ｃ_ｉ，ｃ_ｊ）を全クラスタの組み合わせについて求めて、類似度が最大となる組み合わせをマージして１クラスタにする。この処理を、全ての情報が１つのクラスタになるまで繰り返すことによって行う。
【０００６】
前述の方法は、全ての情報と総当たり的に類似度を算出するものである。該方法の比較回数は、_ｎＣ_２＋_{（ｎ−１）}Ｃ_２＋_{（ｎ−２）}Ｃ_２＋．．．．＋１となり、情報数をｎとすると類似度の総計算量がＯ（ｎ^３）となる。これにより、図１に示すように、類似度によって正確にクラスタリングされかつ最小符号長となる理想的なクラスタを生成することが可能になる。図１の例ような、情報が２７個の場合の計算量は、_２７Ｃ_２＋_２６Ｃ_２＋．．．＋１となり、１７３０回の比較が必要となる。
【０００７】
【発明が解決しようとする課題】
しかし、前述した方法ではクラスタを生成するために要する総計算量がＯ（ｎ^３）であるために、情報の数が増えるに従って計算量もかなり増大することになる。特に、膨大なページ情報を扱わなければならないサーチエンジンにおいては、クラスタの生成に多大な時間がかかることになる。更に、前述した方法においてはクラスタの一括生成を対象としているために、新たに１つのページが追加されただけで、再度総当たり的な類似度の計算をやり直さなければならない。
【０００８】
されど、ページのような文書情報を対象とするサーチエンジンにおいて、該文書情報の類似度に対してクラスタの高い精度を必要とするとは考えられない。比較的漠然とした限定条件しか持っていないユーザにとって、比較的類似した複数の文書情報のＵＲＬが提供されれば良いはずである。逆に、情報の検索及び更新に即時性が要求されるために、多少クラスタの類似精度は劣っても、より高速にクラスタリングできる方法が必要である。
【０００９】
従って、本発明の目的は、膨大な数の文書情報をより少ない計算量でクラスタを生成し、かつ該クラスタの形を残したままページを更新する情報検索装置を提供することにある。
【００１０】
【課題を解決するための手段】
本発明の情報検索装置によれば、複数の情報を記憶するデータベースと、該データベースを用いて該情報を階層的な木構造に構成し、検索及び更新する制御部とを有する情報検索装置であって、制御部は、
複数の情報の中から、木構造の葉ノードとなる所定の個数の情報をランダムに選択する第１の手段と、該選択された情報から木構造を生成する第２の手段と、選択されなかった残りの情報を、選択された情報に類似する葉ノードに割り当てる第３の手段と、木構造全体のクラスタの符号長を計算する第４の手段とを有し、第１から第４の手段が所定の回数繰り返され、最小符号長となる所定の個数の情報を選択するように構成された葉ノード情報選択手段と、
選択されなかった残りの情報を、類似する葉ノードに割り当てる部分クラスタ生成手段と、
葉ノード情報選択手段及び部分クラスタ生成手段が、生成された木構造の葉ノードの方向に向かって繰り返されるように指示する再帰クラスタリング手段と
を有することを特徴とする。
葉ノード情報選択手段で選択される情報によってクラスタの類似精度が決まるけれども、より高速にクラスタを生成することが可能となる。また、最小符号長となる所定の個数の情報を選択することで、クラスタの木構造をたどって検索する際に、より少ない比較回数で対象情報に到達することが可能となる。この方法は、従来の総当たり的な類似度の比較に比べて、クラスタの類似度は劣るけれども、より高速にクラスタを生成することができる。
【００１１】
本発明の情報検索方法によれば、複数の情報を階層的木構造のクラスタに構成し、情報を更新及び検索する情報検索方法であって、
複数の情報の中から、木構造の葉ノードとなる所定の個数の情報をランダムに選択する第１の段階と、該選択された情報から木構造を生成する第２の段階と、選択されなかった残りの情報を、選択された情報に類似する葉ノードに割り当てる第３の段階と、木構造全体のクラスタの符号長を計算する第４の段階とを含んでおり、第１から第４の段階が所定の回数繰り返され、最小符号長となる所定の個数の情報を選択するように構成された葉ノード情報選択段階と、
選択されなかった残りの情報を、類似する葉ノードに割り当てる部分クラスタ生成段階と、
葉ノード情報選択段階及び部分クラスタ生成段階が、生成された木構造の葉ノードの方向に向かって繰り返されるように指示する再帰クラスタリング段階と
を有することを特徴とする。
【００１３】
情報検索装置の他の実施形態によれば、葉ノード情報選択手段の第４の手段は、
ｋを選択された所定の個数とした場合、木の記述自体に必要なノードの情報量Ｌ１＝２ｋ−１と、
葉ノードｉに割り当てられた情報の数をｎｉ及び全情報から葉ノードｉの情報が選択される確率をｐｉ＝ｎｉ／Σｊｎｊとした場合、各葉ノードに割り当てられた情報の数から分類に必要な符号長Ｌ２＝Σｎｉ log ｐｉとの和として求められるように構成されていることも好ましい。
また、情報検索方法の他の実施形態によれば、葉ノード情報選択段階の第４の段階は、
ｋを選択された所定の個数とした場合、木の記述自体に必要なノードの情報量Ｌ１＝２ｋ−１と、
葉ノードｉに割り当てられた情報の数をｎｉ及び全ての情報から葉ノードｉの情報が選択される確率をｐｉ＝ｎｉ／Σｊｎｊとした場合、各葉ノードに割り当てられた情報の数から分類に必要な符号長Ｌ２＝Σｎｉ log ｐｉと
の和として求められることも好ましい。
【００１４】
葉ノード情報選択手段で選択される情報の個数を大きくするほど、クラスタの生成速度は劣るが、１回分の分類単位を大きくでき、かつより高い類似精度のクラスタを生成することができる。
【００１５】
情報検索装置の他の実施形態によれば、再帰クラスタリング手段は、木構造の葉ノードに割り当てられた情報の個数が所定の個数よりも大きい場合にのみ、葉ノード情報選択手段及び部分クラスタ生成手段が、生成された木構造の葉ノードの方向に向かって繰り返されるように指示するように構成されていることも好ましい。
また、情報検索方法の他の実施形態によれば、再帰クラスタリング段階は、木構造の葉ノードに割り当てられた情報の個数が所定の個数よりも大きい場合にのみ、葉ノード情報選択段階及び部分クラスタ生成段階が、生成された木構造の葉ノードの方向に向かって繰り返されるように指示することも好ましい。
【００１７】
【発明の実施の形態】
以下、図面を用いて本発明の実施形態を詳細に説明する。
【００１８】
図２は、本発明の一実施形態における情報検索装置の構成図である。インターネット１１に接続された情報検索装置は、通常、情報検索サーバ１２と位置づけられる。インターネット１１には、更に、ページを有する膨大な数のコンピュータ１３と、検索を所望するクライアント１４とが接続されている。情報検索サーバ１２は、該コンピュータ１３の有するページのＵＲＬであるページ情報を管理し、かつクライアント１４が指定する条件に合うページのＵＲＬを検索結果として提供するためのものである。
【００１９】
情報検索サーバ１２は、コンテンツデータベース１２１、クラスタデータベース１２２及び制御部１２３を有している。コンテンツデータベース１２１は、複数のページ情報が記憶されおり、従来の情報検索サーバにも当然に備えられていたものである。従来の一般的なサーチエンジンは、コンテンツデータベース１２１と、該コンテンツデータベース１２１からページ情報を検索する制御部とを有している。本実施形態では、更にクラスタデータベース１２２を設けている。該クラスタデータベース１２２には、ページ情報をクラスタリングするためのノード情報が記憶されている。
【００２０】
本実施形態の制御部１２３は、葉ノード情報選択手段１２３ａ、部分クラスタ生成手段１２３ｂ、再帰クラスタリング手段１２３ｃ及びページ更新／検索手段１２３ｄを有している。葉ノード情報選択手段１２３ａは、複数のページ情報の中から所定の個数の最適なページ情報を選択するためのものである。部分クラスタ生成手段１２３ｂは、選択されなかった残りのページ情報を該クラスタの類似する葉ノードに割り当ててクラスタを生成するためのものである。再帰クラスタリング手段１２３ｃは、生成されたクラスタの葉ノード方向に向かって、葉ノード情報選択手段１２３ａ及び部分クラスタ生成手段１２３ｂを再度繰り返されるように指示するためのものである。ページ更新／検索手段１２３ｄは、生成されたクラスタにページ情報を追加及び更新したり、該クラスタからページ情報を検索するためのものである。
【００２１】
他の実施形態においては、前述した構成を、葉ノード選択段階、部分クラスタ生成段階、再帰クラスタリング段階及びページ更新／検索段階として実現している。以下では、これらの処理段階を説明する。
【００２２】
図３は、クラスタを生成するための再帰クラスタリング段階をフローチャートで表したものである。これは、２分木の情報構造を探索するために一般に用いられる再帰関数に類似したものであり、入力（３１）はページ集合を示すノードのポインタである。クラスタを構築する場合、全てのぺージを割り当てたルートノードを入力するものとする。
【００２３】
最初に、入力されたノードに割り当てられたページの数を判断する（３２）。このページの数が所定のｍａｘ個以上であれば、本発明の方法において該ノードの下層に位置するクラスタを生成する。一方、ページの数が所定のｍａｘ個以下であれば、類似精度を高めて総当たり的にクラスタリング（３８）する。これは、公知のクラスタリングで一般に用いられているものである。
【００２４】
ノードに割り当てられたページの数がｍａｘ個を越える場合、クラスタ生成関数が呼び出される（３３）。該クラスタ生成関数は、入力となるノードのポインタの下層に位置するページをクラスタリングするものである。該関数の出力は、生成された部分クラスタのルートノードのポインタである。
【００２５】
次に、生成されたクラスタの各葉ノードに対して（３４）再帰的に呼び出してクラスタリングを進めていく。まず、ある葉ノードに対して、該葉ノードに割り当てられたぺ−ジがあるかどうかを判定する（３５）。割り当てられたページがあれば、再帰的に自関数（３６）を呼び出して、クラスタの下層に向かってクラスタリングを進めていく。その後、再帰クラスタリング関数で得られたクラスタのルートノードを葉ノードとしてマージする（３７）。
【００２６】
図４は、前述したクラスタ生成関数をフローチャートで表したものである。該クラスタ生成関数は、大きく葉ノード選択段階と部分クラスタ生成段階との２つの処理段階に分けられる。葉ノード選択段階は、複数のページの中から、クラスタリングした際に最小符号長となるような所定の個数の最適なページを選択するものである。部分クラスタ生成段階は、前記選択されたページを葉ノードとして、選択されなかった残りのページを類似する葉ノードに割り当ててクラスタを完成させるものである。
【００２７】
最初に、入力（４１）されたノードのポインタに割り当てられた複数のページから、ｍａｘ個のページ集合Ｐ［ｔ］を選択する（４３）。該ｍａｘ個を大きくするほど、１回分の分類単位を大きくできる。ｔは、一連の処理を繰り返す度に１増分されるものである。本クラスタ生成関数が呼び出される際のノードには、再帰クラスタリング段階の流れから、少なくともｍａｘ個以上のページが割り当てられているはずである。
【００２８】
次に、選択されたページ集合Ｐ［ｔ］を公知のアルゴリズムでクラスタリングを行う（４４）。これは、ｍａｘ個の中で総当たり的に類似度を判定してクラスタリングを行うために、計算量が著しく増加することはない。
【００２９】
次に、生成されたページ集合Ｐ［ｔ］のクラスタについて、選択されなかった残りのページを、該クラスタの類似する葉ノードに対して割り当てる（４５）。
【００３０】
次に、生成されたクラスタの符号長Ｌ［ｔ］を求める（４６）。情報の集合の最適化では、ＭＤＬ(Minimum Description Length criterion)基準に基づき、分類結果の符号長が最小になるように選択される。ここでの符号長Ｌは、該クラスタに必要なノードの情報量Ｌ１と、各葉ノードに割り当てられたページ数から分類に必要な符号長Ｌ２との和として求められる。
【００３１】
２分木自体の符号化は、木を先行順に訪れて内部ノードを訪れたときに１を出力し、葉ノードを訪れたときに０を出力することによって行う。ノードの情報量Ｌ１は、葉ノードの数（＝ｍａｘ）をｋとすると、木の記述自体に必要な内部ノード数はＬ１＝２ｋ−１となる。
【００３２】
葉ノードｉに割り当てられたページの数をｎ_ｉ及び全ページから葉ノードｉの情報が選択される確率をｐ_ｉ＝ｎ_ｉ／Σ_ｊｎ_ｊとした場合、各葉ノードに割り当てられたページの数から分類に必要な符号長Ｌ２＝−Σｎ_ｉ log ｐ_ｉとなる。これにより、Ｌ１＋Ｌ２がクラスタの符号長Ｌとして求められる。
【００３３】
ここで求められたクラスタの符号長Ｌを、以前の繰り返しによって記憶されている最小符号長Ｌ_ｍｉｎと比較する。求められた符号長Ｌ［ｔ］が記憶されている最小符号長Ｌ_ｍｉｎよりも小さければ、Ｌ［ｔ］がＬ_ｍｉｎとして記憶される（４７）。
【００３４】
これら一連の処理を所定の回数ｃ回、繰り返す（４２）ことによって最小符号長となるなページ集合Ｐ［ｔ］が選択される。ページ集合の選択はランダムに行われるために、この回数ｃが大きいほど最適なページ集合を選択することができる。
【００３５】
クラスタ生成段階は、葉ノード選択段階によって選択されたページ集合Ｐ［ｔ］を類似度に応じてクラスタリングを行い（４８）、次いで、選択されなかった残りのページを、生成されたクラスタの類似する葉ノードに割り当てる（４９）。このようにして、最小符号長Ｌ_ｍｉｎとなるクラスタが生成される。
【００３６】
前述した一実施形態のクラスタリング方法では、所定のｍａｘ個数以上では多少類似精度を落として高速にクラスタリングし、所定のｍａｘ個数以下では類似精度を高めて総当たり的にクラスタリングする。そのために、生成時間及び類似精度にバランスをとってクラスタを生成することができる．
【００３７】
図５から図９までは、本実施形態で生成されていくクラスタ生成の過程の一例を説明している。ここでの例は、対象となるページ数が２７個であり、ｍａｘ個が４個であるとする。また、ページには１から２７までの番号が付与されており、互いの類似度の差には大小あるものとする。
【００３８】
図５は、一度、クラスタ生成関数が実行された場合を表している。葉ノード選択段階によって、ランダムな４個のページの選択が繰り返され、最小符号長となるページ１、９、１２、１５が選択されている。そして、クラスタ生成段階によってこれら４個のページがクラスタリングされ、選択されなかった残りのページが、類似する葉ノードに割り当てられている。例えば、ページ１５の位置する葉ノードには、１５から２７までのページが割り当てられている。
【００３９】
図６は、１５から２７までのページが割り当てられている葉ノードのポインタを入力として、再度クラスタ生成関数が呼び出された場合を表している。葉ノード選択段階によって、最小符号長となる１５、１６、２１、２４の４つのページが選択されている。そして、クラスタ生成段階によってこれら４個のページがクラスタリングされ、選択されなかった残りのページが、類似する葉ノードに割り当てられている。例えば、ページ１６の位置する葉ノードには、１６から２０までのページが割り当てられている。
【００４０】
図７は、図３の再帰クラスタリング段階において、最終的に生成されたクラスタ一例が表されている。これにより葉ノードに近いほど、高い類似度のページであるようにクラスタリングされる。図１の理想的なクラスタに対して、隣り合うページ間の類似精度が多少劣るために、不規則なクラスタが生成されている。しかし、文書情報のように正確な類似精度を必要としない対象に対しては、その分、高速にクラスタリングできる利点は大きい。
【００４１】
図８は、生成されたクラスタに対して、ページの更新を行うクラスタ更新段階のフローチャートを表している。クラスタが更新される場合、クラスタ全体を再構築するのではなく、元のクラスタの形を残したまま最も類似するページの近くに該ページを配置する方が、より高速にクラスタを更新することができる。
【００４２】
新しいページｘが追加される場合、最初に、ページｘの全体から頻度表ｔ_ｘを作成し（８１）、該頻度表ｔ_ｘをクラスタデータベース１２２に記憶しておく。次に、ルートノードから順に、左右の子ノード情報の頻度表とページｘの頻度表ｔ_ｘとを比較して検索していく。
【００４３】
まず、現在の検索位置にあるノードＮ_ｙ（最初はルートノード）が子ノードを持つがどうか（８２）を判断する。ノードＮ_ｙが子ノードを持っていなければ、ページｘはノードＮ_ｙに割り当てられる。このとき、ノードＮ_ｙの位置に新たにノードＮ_ｚを作成し、ノードＮ_ｚの子ノードをして、ノードＮ_ｙとぺ−ジｘに対応するノードＮ_ｘを追加する（８７）。
【００４４】
ページｘの頻度表ｔ_Ｘと、ノードＮ_ｙの左右の子ノードの頻度表ｔ_ｙ＿_ｌ及びｔ_ｙ＿_ｒとを比較して、どちらの子ノードに類似しているかを判断する（８３、８４）。ノードＮ_ｙは、類似している子ノードのリンクをたどっていく（８５、８６）。これらの操作は、現在の検索位置にあるノード情報Ｎ_ｙが子ノードを持たなくなるまで繰り返される。そして、ノードＮ_ｙの位置に新たにノードＮ_ｚを作成し、ノードＮ_ｚの子ノードをして、ノードＮ_ｙとぺ−ジｘに対応するノードＮ_ｘを追加する（８７）。
【００４５】
このような方法を用いた場合、クラスタ更新の計算量は、Ｏ（ｌｏｇｎ）で実現できる。但し、この方法では、当初生成されたクラスタに対してページが追加されていく形になるので、本来あるべきクラスタの形と異なってくるために、定期的にクラスタの再構築を行う必要がある。
【００４６】
以上詳細に説明した実施形態ではインターネットにおけるサーチエンジンを例にとり説明したが、大量の情報を検索するために分類するような装置又は方法に対する適用において、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。従って、前述した実施形態は、あくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものだけに制約される。
【００４７】
【発明の効果】
以上詳細に説明したように本発明によれば、所定の個数の情報を選択する葉ノード情報選択手段と、選択されなかった残りの情報を類似する該葉ノードに割り当てる部分クラスタ生成手段と、前記葉ノード情報選択手段及び前記クラスタ生成手段が、該生成されたクラスタの葉ノードの方向に向かって繰り返されるように指示する再帰クラスタリング手段とを用いて総当りの比較回数を減らすことにより、より高速にクラスタを生成することが可能となる。また、クラスタの更新を行う場合、クラスタ全体を再構築するのではなく、元のクラスタの形を残したまま最も類似するページの近くに該ページを配置することにより、より高速にクラスタを更新するこが可能となる。
【図面の簡単な説明】
【図１】従来のアルゴリズムにより生成された理想的な木構造図である。
【図２】本発明の一実施形態における情報検索装置の構成図である。
【図３】本発明の一実施形態における再帰クラスタリング関数のフローチャートである。
【図４】図３の再帰クラスタリング関数内で呼び出されるクラスタ生成関数のフローチャートである。
【図５】図３の再帰クラスタリング関数により第１段階で生成された木構造図の一例である。
【図６】図５の第２段階で生成された木構造図である。
【図７】図５の最終段階で生成された木構造図である。
【図８】本発明の一実施形態におけるクラスタ更新関数のフローチャートである。
【符号の説明】
１１インターネット
１２情報検索サーバ
１２１コンテンツデータベース
１２２クラスタデータベース
１２３制御部
１２３ａ葉ノード情報選択手段
１２３ｂ部分クラスタ生成手段
１２３ｃ再帰クラスタリング手段
１２３ｄページ更新／検索手段
１３コンピュータ
１４クライアント

Claims

複数の情報を記憶するデータベースと、該データベースを用いて該情報を階層的な木構造に構成し、検索及び更新する制御部とを有する情報検索装置であって、前記制御部は、
前記複数の情報の中から、木構造の葉ノードとなる所定の個数の情報をランダムに選択する第１の手段と、該選択された情報から木構造を生成する第２の手段と、選択されなかった残りの情報を、前記選択された情報に類似する前記葉ノードに割り当てる第３の手段と、木構造全体のクラスタの符号長を計算する第４の手段とを有し、前記第１から第４の手段が所定の回数繰り返され、最小符号長となる所定の個数の情報を選択するように構成された葉ノード情報選択手段と、
選択されなかった残りの情報を、類似する前記葉ノードに割り当てる部分クラスタ生成手段と、
前記葉ノード情報選択手段及び前記部分クラスタ生成手段が、生成された前記木構造の葉ノードの方向に向かって繰り返されるように指示する再帰クラスタリング手段と
を有することを特徴とする情報検索装置。
前記葉ノード情報選択手段の第４の手段は、
ｋを前記選択された所定の個数とした場合、木の記述自体に必要なノードの情報量Ｌ１＝２ｋ−１と、
葉ノードｉに割り当てられた情報の数をｎｉ及び全情報から葉ノードｉの情報が選択される確率をｐｉ＝ｎｉ／Σｊｎｊとした場合、各葉ノードに割り当てられた情報の数から分類に必要な符号長Ｌ２＝Σｎｉ log ｐｉと
の和として求められるように構成されていることを特徴とする請求項１に記載の情報検索装置。
前記再帰クラスタリング手段は、前記木構造の葉ノードに割り当てられた情報の個数が所定の個数よりも大きい場合にのみ、前記葉ノード情報選択手段及び前記部分クラスタ生成手段が、生成された木構造の葉ノードの方向に向かって繰り返されるように指示するように構成されていることを特徴とする請求項１又は２に記載の情報検索装置。
複数の情報を階層的木構造のクラスタに構成し、前記情報を更新及び検索する情報検索方法であって、
前記複数の情報の中から、木構造の葉ノードとなる所定の個数の情報をランダムに選択する第１の段階と、該選択された情報から木構造を生成する第２の段階と、選択されなかった残りの情報を、前記選択された情報に類似する前記葉ノードに割り当てる第３の段階と、木構造全体のクラスタの符号長を計算する第４の段階とを含んでおり、前記第１から第４の段階が所定の回数繰り返され、最小符号長となる所定の個数の情報を選択するように構成された前記葉ノード情報選択段階と、
選択されなかった残りの情報を、類似する前記葉ノードに割り当てる部分クラスタ生成段階と、
前記葉ノード情報選択段階及び前記部分クラスタ生成段階が、生成された前記木構造の葉ノードの方向に向かって繰り返されるように指示する再帰クラスタリング段階と
を有することを特徴とする情報検索方法。
前記葉ノード情報選択段階の前記第４の段階は、
ｋを前記選択された所定の個数とした場合、木の記述自体に必要なノードの情報量Ｌ１＝２ｋ−１と、
葉ノードｉに割り当てられた情報の数をｎｉ及び全ての情報から葉ノードｉの情報が選択される確率をｐｉ＝ｎｉ／Σｊｎｊとした場合、各葉ノードに割り当てられた情報の数から分類に必要な符号長Ｌ２＝Σｎｉ log ｐｉと
の和として求められることを特徴とした請求項４に記載の情報検索方法。
前記再帰クラスタリング段階は、前記木構造の葉ノードに割り当てられた情報の個数が所定の個数よりも大きい場合にのみ、前記葉ノード情報選択段階及び前記部分クラスタ生成段階が、生成された木構造の葉ノードの方向に向かって繰り返されるように指示することを特徴とする請求項４又は５に記載の情報検索方法。