JP3632354B2

JP3632354B2 - 情報検索装置

Info

Publication number: JP3632354B2
Application number: JP04142997A
Authority: JP
Inventors: 圭子青木; 一則松本; 和夫橋本
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 1997-02-12
Filing date: 1997-02-12
Publication date: 2005-03-23
Anticipated expiration: 2017-02-12
Also published as: JPH10222534A

Description

【０００１】
【発明の属する技術分野】
本発明は、ネットワークに接続された複数のコンピュータが有する文書情報を検索するための情報検索装置に関する。
【０００２】
【従来の技術】
複数のコンピュータが有する文書情報を検索するための情報検索装置は、該文書情報のアドレス等のページインデックス情報を記憶するコンテンツデータベースと、該コンテンツデータベースを用いて該文書情報をキーワードによって検索する制御手段とを有している。従来の情報検索装置の代表例としては、インターネットにおけるＷＷＷ（ＷｏｒｌｄＷｉｄｅＷｅｂ）の文書情報であるホームページを検索するサーチエンジンがある。以下では、主にインターネット上での利用を例にとり説明していく。
【０００３】
従来のサーチエンジンは、検索条件としてクライアントがキーワード等を指定し、対応するホームページのアドレスを検索結果として応答するものである。現在のところ検索される側のホームページの内容を表すキーワードは、該ページの所有者によって予め登録されたものであり、完全にページ内容を意味するものではない。また、クライアントからの要求に対して応答を返すだけの完全なクライアント／サーバ関係であるために、所望のページが追加又は更新が行われても、再度、該ページにアクセスしない限り、追加又は更新されたことをユーザが知ることはできない。
【０００４】
【発明が解決しようとする課題】
最近のＷＷＷの広がりによる膨大な数のホームページの中で、ユーザの所望するホームページを検索することは難しくなってきている。その理由の１つは、従来のサーチエンジンが、キーワード別にホームページのＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｃｅＬｏｃａｔｏｒ）を分類して記憶しているために、キーワード又はその組み合わせによってしか検索できないことである。現在のところ、ユーザは、比較的漠然とした限定条件しか持っていない場合が多く、膨大な情報資源の中でキーワードだけに依存した探索的な情報検索を繰り返している。なぜなら、同じキーワードを用いて検索された複数のホームページには、内容的に全く類似性又は関連性がないからである。しかし、漠然とした限定条件であっても、検索された複数のホームページが類似性や関連性を持っているとすれば、比較的ユーザの所望するホームページが検索しやすくなるはずである。
【０００５】
更に、ユーザは、ＷＷＷという絶えず変化を繰り返している膨大な情報資源中から、１つの漠然とした限定条件の中だけの変化をリアルタイムに知りたい場合もある。具体的には、類似性や関連性を有する複数のホームページの中の追加及び更新をユーザにリアルタイムで通知することによって、該ユーザは所望のホームページの変化を常に監視することができる。
【０００６】
従って本発明は、ユーザの文書情報に対する漠然とした限定条件であっても、適切な複数の文書情報を提供でき、かつ該文書情報の中で追加及び更新があったことをリアルタイムにユーザが知ることができる情報検索装置を提供するものである。
【０００７】
【課題を解決するための手段】
本発明によれば、文書情報を有する複数のコンピュータがネットワークに接続されており、
複数の文書情報のインデックス情報を記憶するコンテンツデータベースと、
コンテンツデータベースを用いて文書情報をキーワードによって検索する制御手段と、
複数の文書情報のインデックス情報が節点となるノード情報を、文書情報全体の類似度に基づいて階層的な木構造にクラスタリングして記憶しているクラスタデータベースとを有し、
クラスタデータベースにおけるノード情報は、当該ノード情報の下層に位置する１つ以上の文書情報におけるキーワードの発生頻度に基づく頻度表を有し、
制御手段は、親ノードにおける複数の子ノードのノード情報の頻度表と、対象となる文書情報の頻度表とを比較して、類似度の高い一方の子ノードのリンクをたどるように制御する情報検索装置において、
クラスタデータベースにおけるノード情報は、下層に位置する文書情報が更新された際に通知すべき通知先情報を有しており、
制御手段は、文書情報が更新される際に、クラスタデータベースを用いて連鎖的にリンクをたどる途中で遭遇するノード情報の通知先情報の通知先へ、該文書情報が更新される旨を通知することを特徴とする。
【００１１】
データベースのノード情報の通知先情報は、ネットワーク内での固有アドレスのリストであってもよい。直接、ユーザの固有アドレスへ、更新通知をすることが可能となる。
【００１３】
情報検索装置は、更に、前記ネットワークを介して自動的に前記文書情報を収集することができるリソース発見エンジンを備えているのが好ましい。該情報検索装置が自動的かつ不定期にネットワーク上の更新された文書情報を検出して、ユーザに通知することが可能となる。
【００１４】
【発明の実施の形態】
以下、図面を用いて本発明の実施形態を詳細に説明する。
【００１５】
図１は、本発明の一実施形態における情報検索装置の構成図である。インターネット１１に接続された情報検索装置は、通常、情報検索サーバ１２と位置づけられる。インターネット１１にはホームページを有する膨大な数のコンピュータ３が接続されており、情報検索サーバ１２は該コンピュータ１３の有する文書情報の所在情報を収集している。該情報検索サーバ１２は、クライアント１４に対して所望の文書情報のＵＲＬを検索結果として提供するためのものである。
【００１６】
情報検索サーバ１２は、クラスタデータベース１２１、ユーザ情報データベース１２２、コンテンツデータベース１２３、制御手段１２４及びリソース発見エンジン１２５を有している。コンテンツデータベース１２３と、該コンテンツデータベース１２３を用いてキーワードによって検索する制御手段１２４とは、従来のサーチエンジンにも備えられていたものである。コンテンツデータベース１２３には、ページのＵＲＬ毎にページインデックス情報が記憶されている。該ページインデックス情報には、当該ホームページのタイトル、キーワードで表されたページ内容、及びページ内でリンクされているＵＲＬリストが記憶されている。制御手段１２４は、クライアント４とのインタフェース制御、及びコンテンツデータベース１２３内のぺ−ジインデックス情報の検索を行う。従来のサーチエンジンは、クライアント１４から指定された検索キーワードによって、コンテンツデータベース１２３の有するページインデックス情報のタイトル及びページ内容とを比較して検索するものである。
【００１７】
コンテンツデータベース１２３は、更に、リソース発見エンジン１２５に接続されている。通常、ロボットと称されるリソース発見エンジン１２５は、インターネット１を介して自動的にページインデックス情報を収集し、該ページインデックス情報をコンテンツデータベース２３に記憶させるものである。これにより、ページの追加及び更新を自動的かつ不定期に検出することが可能となる。
【００１８】
制御手段１２４は、更に、クラスタデータベース１２１にも接続されている。クラスタデータベース１２１には、複数のページインデックス情報を、該文書情報全体の類似度に基づく階層的な木構造にクラスタリングするために、節点となる複数のノード情報Ｎが記憶されている。該ノード情報Ｎには、ノード毎に、頻度表、ユーザ識別子リスト、並びに親ノード及び子ノードを指示するポインタとが記憶されている。ぺ−ジインデックス情報Ｉ_ｎに関係するノード情報Ｎ_ｎｎの階層的な木構造を表した樹系図が図２に示されている。
【００１９】
頻度表は、キーワードの発生頻度から重み付けにより算出され、該キーワードを該文書情報の特徴を表す優先度順にリストしたものである。該頻度表の作成手順は、最初に、例えば形態素解析を用いて、ページの全テキストリソースから名詞及び未定義語のキーワードに限定した切り出しを行う。次に、ここで切り出されたキーワードに対して重み付けを行い、優先度順にリストする。この時、キーワードの発生頻度を考慮して重み付けすることで、より文書情報の特徴を表した頻度表を作成することができる。常に上位のノード情報の頻度表は下位の複数の文書情報のキーワードを反映したものとなる。このようにして作られた頻度表は、該頻度表と検索キーワード及び検索対象の頻度表とを比較しながら子ノードを選択していくことで、類似度の高いクラスタを生成することができる。
【００２０】
ユーザ識別子リストには、当該ノード情報の下層に位置するページインデックス情報のページが更新された際に、通知すべきユーザ識別子のリストが記憶されている。該ユーザ識別子は、後述するユーザ情報データベースのキーとなるものである。ユーザ情報データベースの有利な機能を利用する必要がなければ、ユーザ識別子の代わりに、直接ユーザの通知先アドレス即ちメールアドレスを記憶してもよい。
【００２１】
親ノード及び子ノードを指示するポインタは、階層的な木構造のクラスタリングを実現する上では必要なものである。子ノードは、左右２つのノードに分けられており、両ノードの頻度表と類似度を比較しながらリンクをたどることができるようになる。
【００２２】
制御手段２４は、更に、ユーザ情報データベース２２にも接続されている。該ユーザ情報データベース２２は、ノード情報Ｎのユーザ識別子リストに対応する情報を記憶しているものである。ノード情報Ｎのユーザ識別子が直接ユーザのメールアドレスであってもよいことは、既に述べた。しかし、種々のユーザ情報を別に記憶していることで様々な有利なサービスを提供できるようになる。該ユーザ情報データベースは、個々のユーザ毎に、該ユーザに関心のある複数のＵＲＬ及びＢｏｏｋｍａｒｋと、検索対象範囲を示すドメインリストと、検索結果として表示するＵＲＬの個数と、該ユーザのメールアドレスとを含んでいる。特定のＵＲＬ及びＢｏｏｋｍａｒｋを予め指定することができることで、それに含まれるページに更新があった場合には、即時に更新があった旨をユーザに通知することができる。また、ドメインリストによって検索対象範囲を限定することができる。更に、検索結果として表示するＵＲＬの個数もまた、検索における無駄な負荷を省略するための利点である。
【００２３】
図３は、新しい文書情報が収集された場合の、クラスタリングのフローチャートである。
【００２４】
リソース発見エンジン１２５によって、インターネット１を介して自動的にページインデックス情報が収集され、該ページインデックス情報をコンテンツデータベース２３に記憶していく（３１）。その際、更新されたページがなければ（３２）、何も処理を行う必要はない。一方、更新されたページが存在すれば、クラスタデータベース１２１を用いて、該ぺージｘについてクラスタの更新（３３）を行わなければならない。
【００２５】
更新されたページｘが新たに収集された場合（３３）を考える。予め該ページｘ全体から頻度表ｔ_ｘを作成（３４）し、クラスタデータベース１２１にノード情報Ｎ_ｘを確保して該頻度表ｔ_ｘを記憶する。次に、ルートノード情報Ｎ_０から順に、左右の子ノード情報の頻度表と追加されるページの頻度表ｔ_ｘとを比較して検索していく。
【００２６】
まず、現在の検索位置にあるノード情報Ｎ_ｙ（最初はＮ_０）が子ノードを持つかどうか（３５）を判断する。子ノードを持っていなければ、ノード情報Ｎ_ｘは、ユーザ識別子リスト及びノードポインタを格納（４１）して、ノード情報Ｎ_ｙの子ノードとして追加（４２）される。このユーザ識別子リストのユーザは、ノード情報Ｎ_ｙの下層に位置するページに関心を持つ者である。
【００２７】
一方、現在の検索位置にあるノード情報Ｎ_ｙが子ノードを持っていれば、ノード情報Ｎ_ｙに登録されているユーザ識別子リストをノード情報Ｎ_ｘのユーザ識別子リストに追加する（３６）。そして、ノード情報Ｎ_ｘの頻度表ｔ_ｘと、ノード情報Ｎ_ｙの左右の子ノードの頻度表ｔ_ｙ＿ｌ及びｔ_ｙ＿ｒとを比較して、どちらの子ノードに類似しているかを判断する（３７、３８）。ノード情報Ｎ_ｙは、類似している子ノードのリンクをたどっていく（３９、４０）。これらの操作は、現在の検索位置にあるノード情報Ｎ_ｙが子ノードを持たなくなるまで繰り返される。そして、ノード情報Ｎ_ｘは、ユーザ識別子リスト及びノードポインタを格納（４１）して、ノード情報Ｎ_ｙの子ノードとして追加（４２）される。
【００２８】
最終的に、ノード情報Ｎ_ｘのユーザ識別子リストに追加されてきたユーザ識別子に該当するユーザに当該ページが更新されたことを通知する。このようにして、当該ノードが更新される通知を必要とする全てのユーザに対して通知することができる。
【００２９】
次に、クラスタを用いてページインデックス情報を検索する場合を説明する。予めクライアント４のユーザが指定してくる漠然とした限定条件の少なくとも１つのキーワードを基にして、ルートノードから順に子ノードの頻度表と比較しながら探索を進めていく。ノード情報には下層に位置する子ノードのポインタが記憶されているので、順に下層に向かって探索することが可能とある。下層のページ数がユーザ所望の検索結果の数になったところで、以下のページインデックス情報を検索結果として通知することもできる。
【００３０】
以上詳細に説明した実施形態ではインターネットを例にとり説明したが、複数のコンピュータが接続されたネットワーク上での文書情報の検索装置に対する適用において、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。従って、前述した実施形態は、あくまで例であって、何等制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものだけに制約される。
【００３１】
【発明の効果】
本発明によれば、複数の文書情報のインデックス情報を、該文書情報全体の類似度に基づいた階層的な木構造にクラスタリングするためのクラスタデータベースを備えており、文書情報が更新される際に、連鎖的にリンクをたどる途中で遭遇するノード情報の通知先情報の通知先へ該文書情報が更新される旨を通知できるために、ユーザの文書情報に対する漠然とした限定条件であっても、適切な複数の文書情報を提供でき、かつ該文書情報の中で追加及び更新があった際にリアルタイムでユーザが知ることができる。更に、本発明により、今後増々膨大していくインターネット上のホームページに対して、最適な情報検索装置を提供することができる。
【図面の簡単な説明】
【図１】本発明の一実施形態における情報検索装置の構成図である。
【図２】図１のクラスタデータベース内のクラスタリングを表す樹系図である。
【図３】図２のクラスタリングを生成するためのフローチャートである。
【符号の説明】
１１インターネット
１２情報検索装置、情報検索サーバ
１２１クラスタデータベース
１２２ユーザ情報データベース
１２３コンテンツデータベース
１２４制御手段
１２５リソース発見エンジン
１３コンピュータ
１４クライアント

Claims

文書情報を有する複数のコンピュータがネットワークに接続されており、
複数の前記文書情報のインデックス情報を記憶するコンテンツデータベースと、
前記コンテンツデータベースを用いて前記文書情報をキーワードによって検索する制御手段と、
複数の前記文書情報のインデックス情報が節点となるノード情報を、前記文書情報全体の類似度に基づいて階層的な木構造にクラスタリングして記憶しているクラスタデータベースとを有し、
前記クラスタデータベースにおける前記ノード情報は、当該ノード情報の下層に位置する１つ以上の文書情報におけるキーワードの発生頻度に基づく頻度表を有し、
前記制御手段は、親ノードにおける複数の子ノードのノード情報の頻度表と、対象となる文書情報の頻度表とを比較して、類似度の高い一方の子ノードのリンクをたどるように制御する情報検索装置において、
前記クラスタデータベースにおける前記ノード情報は、下層に位置する文書情報が更新された際に通知すべき通知先情報を有しており、
前記制御手段は、前記文書情報が更新される際に、前記クラスタデータベースを用いて連鎖的にリンクをたどる途中で遭遇する前記ノード情報の前記通知先情報の通知先へ、該文書情報が更新される旨を通知することを特徴とする情報検索装置。
前記データベースの前記ノード情報の前記通知先情報は、前記ネットワーク内での固有のアドレスであることを特徴とする請求項１に記載の情報検索装置。
前記ネットワークを介して自動的に前記文書情報を収集することができるリソース発見エンジンを更に備えていることを特徴とする請求項１又は２に記載の情報検索装置。