JP3632354B2 - 情報検索装置 - Google Patents
情報検索装置 Download PDFInfo
- Publication number
- JP3632354B2 JP3632354B2 JP04142997A JP4142997A JP3632354B2 JP 3632354 B2 JP3632354 B2 JP 3632354B2 JP 04142997 A JP04142997 A JP 04142997A JP 4142997 A JP4142997 A JP 4142997A JP 3632354 B2 JP3632354 B2 JP 3632354B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- node
- document information
- document
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、ネットワークに接続された複数のコンピュータが有する文書情報を検索するための情報検索装置に関する。
【0002】
【従来の技術】
複数のコンピュータが有する文書情報を検索するための情報検索装置は、該文書情報のアドレス等のページインデックス情報を記憶するコンテンツデータベースと、該コンテンツデータベースを用いて該文書情報をキーワードによって検索する制御手段とを有している。従来の情報検索装置の代表例としては、インターネットにおけるWWW(World Wide Web)の文書情報であるホームページを検索するサーチエンジンがある。以下では、主にインターネット上での利用を例にとり説明していく。
【0003】
従来のサーチエンジンは、検索条件としてクライアントがキーワード等を指定し、対応するホームページのアドレスを検索結果として応答するものである。現在のところ検索される側のホームページの内容を表すキーワードは、該ページの所有者によって予め登録されたものであり、完全にページ内容を意味するものではない。また、クライアントからの要求に対して応答を返すだけの完全なクライアント/サーバ関係であるために、所望のページが追加又は更新が行われても、再度、該ページにアクセスしない限り、追加又は更新されたことをユーザが知ることはできない。
【0004】
【発明が解決しようとする課題】
最近のWWWの広がりによる膨大な数のホームページの中で、ユーザの所望するホームページを検索することは難しくなってきている。その理由の1つは、従来のサーチエンジンが、キーワード別にホームページのURL(Uniform Resouce Locator) を分類して記憶しているために、キーワード又はその組み合わせによってしか検索できないことである。現在のところ、ユーザは、比較的漠然とした限定条件しか持っていない場合が多く、膨大な情報資源の中でキーワードだけに依存した探索的な情報検索を繰り返している。なぜなら、同じキーワードを用いて検索された複数のホームページには、内容的に全く類似性又は関連性がないからである。しかし、漠然とした限定条件であっても、検索された複数のホームページが類似性や関連性を持っているとすれば、比較的ユーザの所望するホームページが検索しやすくなるはずである。
【0005】
更に、ユーザは、WWWという絶えず変化を繰り返している膨大な情報資源中から、1つの漠然とした限定条件の中だけの変化をリアルタイムに知りたい場合もある。具体的には、類似性や関連性を有する複数のホームページの中の追加及び更新をユーザにリアルタイムで通知することによって、該ユーザは所望のホームページの変化を常に監視することができる。
【0006】
従って本発明は、ユーザの文書情報に対する漠然とした限定条件であっても、適切な複数の文書情報を提供でき、かつ該文書情報の中で追加及び更新があったことをリアルタイムにユーザが知ることができる情報検索装置を提供するものである。
【0007】
【課題を解決するための手段】
本発明によれば、文書情報を有する複数のコンピュータがネットワークに接続されており、
複数の文書情報のインデックス情報を記憶するコンテンツデータベースと、
コンテンツデータベースを用いて文書情報をキーワードによって検索する制御手段と、
複数の文書情報のインデックス情報が節点となるノード情報を、文書情報全体の類似度に基づいて階層的な木構造にクラスタリングして記憶しているクラスタデータベースとを有し、
クラスタデータベースにおけるノード情報は、当該ノード情報の下層に位置する1つ以上の文書情報におけるキーワードの発生頻度に基づく頻度表を有し、
制御手段は、親ノードにおける複数の子ノードのノード情報の頻度表と、対象となる文書情報の頻度表とを比較して、類似度の高い一方の子ノードのリンクをたどるように制御する情報検索装置において、
クラスタデータベースにおけるノード情報は、下層に位置する文書情報が更新された際に通知すべき通知先情報を有しており、
制御手段は、文書情報が更新される際に、クラスタデータベースを用いて連鎖的にリンクをたどる途中で遭遇するノード情報の通知先情報の通知先へ、該文書情報が更新される旨を通知することを特徴とする。
【0011】
データベースのノード情報の通知先情報は、ネットワーク内での固有アドレスのリストであってもよい。直接、ユーザの固有アドレスへ、更新通知をすることが可能となる。
【0013】
情報検索装置は、更に、前記ネットワークを介して自動的に前記文書情報を収集することができるリソース発見エンジンを備えているのが好ましい。該情報検索装置が自動的かつ不定期にネットワーク上の更新された文書情報を検出して、ユーザに通知することが可能となる。
【0014】
【発明の実施の形態】
以下、図面を用いて本発明の実施形態を詳細に説明する。
【0015】
図1は、本発明の一実施形態における情報検索装置の構成図である。インターネット11に接続された情報検索装置は、通常、情報検索サーバ12と位置づけられる。インターネット11にはホームページを有する膨大な数のコンピュータ3が接続されており、情報検索サーバ12は該コンピュータ13の有する文書情報の所在情報を収集している。該情報検索サーバ12は、クライアント14に対して所望の文書情報のURLを検索結果として提供するためのものである。
【0016】
情報検索サーバ12は、クラスタデータベース121、ユーザ情報データベース122、コンテンツデータベース123、制御手段124及びリソース発見エンジン125を有している。コンテンツデータベース123と、該コンテンツデータベース123を用いてキーワードによって検索する制御手段124とは、従来のサーチエンジンにも備えられていたものである。コンテンツデータベース123には、ページのURL毎にページインデックス情報が記憶されている。該ページインデックス情報には、当該ホームページのタイトル、キーワードで表されたページ内容、及びページ内でリンクされているURLリストが記憶されている。制御手段124は、クライアント4とのインタフェース制御、及びコンテンツデータベース123内のぺ−ジインデックス情報の検索を行う。従来のサーチエンジンは、クライアント14から指定された検索キーワードによって、コンテンツデータベース123の有するページインデックス情報のタイトル及びページ内容とを比較して検索するものである。
【0017】
コンテンツデータベース123は、更に、リソース発見エンジン125に接続されている。通常、ロボットと称されるリソース発見エンジン125は、インターネット1を介して自動的にページインデックス情報を収集し、該ページインデックス情報をコンテンツデータベース23に記憶させるものである。これにより、ページの追加及び更新を自動的かつ不定期に検出することが可能となる。
【0018】
制御手段124は、更に、クラスタデータベース121にも接続されている。クラスタデータベース121には、複数のページインデックス情報を、該文書情報全体の類似度に基づく階層的な木構造にクラスタリングするために、節点となる複数のノード情報Nが記憶されている。該ノード情報Nには、ノード毎に、頻度表、ユーザ識別子リスト、並びに親ノード及び子ノードを指示するポインタとが記憶されている。ぺ−ジインデックス情報In に関係するノード情報Nnnの階層的な木構造を表した樹系図が図2に示されている。
【0019】
頻度表は、キーワードの発生頻度から重み付けにより算出され、該キーワードを該文書情報の特徴を表す優先度順にリストしたものである。該頻度表の作成手順は、最初に、例えば形態素解析を用いて、ページの全テキストリソースから名詞及び未定義語のキーワードに限定した切り出しを行う。次に、ここで切り出されたキーワードに対して重み付けを行い、優先度順にリストする。この時、キーワードの発生頻度を考慮して重み付けすることで、より文書情報の特徴を表した頻度表を作成することができる。常に上位のノード情報の頻度表は下位の複数の文書情報のキーワードを反映したものとなる。このようにして作られた頻度表は、該頻度表と検索キーワード及び検索対象の頻度表とを比較しながら子ノードを選択していくことで、類似度の高いクラスタを生成することができる。
【0020】
ユーザ識別子リストには、当該ノード情報の下層に位置するページインデックス情報のページが更新された際に、通知すべきユーザ識別子のリストが記憶されている。該ユーザ識別子は、後述するユーザ情報データベースのキーとなるものである。ユーザ情報データベースの有利な機能を利用する必要がなければ、ユーザ識別子の代わりに、直接ユーザの通知先アドレス即ちメールアドレスを記憶してもよい。
【0021】
親ノード及び子ノードを指示するポインタは、階層的な木構造のクラスタリングを実現する上では必要なものである。子ノードは、左右2つのノードに分けられており、両ノードの頻度表と類似度を比較しながらリンクをたどることができるようになる。
【0022】
制御手段24は、更に、ユーザ情報データベース22にも接続されている。該ユーザ情報データベース22は、ノード情報Nのユーザ識別子リストに対応する情報を記憶しているものである。ノード情報Nのユーザ識別子が直接ユーザのメールアドレスであってもよいことは、既に述べた。しかし、種々のユーザ情報を別に記憶していることで様々な有利なサービスを提供できるようになる。該ユーザ情報データベースは、個々のユーザ毎に、該ユーザに関心のある複数のURL及びBookmarkと、検索対象範囲を示すドメインリストと、検索結果として表示するURLの個数と、該ユーザのメールアドレスとを含んでいる。特定のURL及びBookmarkを予め指定することができることで、それに含まれるページに更新があった場合には、即時に更新があった旨をユーザに通知することができる。また、ドメインリストによって検索対象範囲を限定することができる。更に、検索結果として表示するURLの個数もまた、検索における無駄な負荷を省略するための利点である。
【0023】
図3は、新しい文書情報が収集された場合の、クラスタリングのフローチャートである。
【0024】
リソース発見エンジン125によって、インターネット1を介して自動的にページインデックス情報が収集され、該ページインデックス情報をコンテンツデータベース23に記憶していく(31)。その際、更新されたページがなければ(32)、何も処理を行う必要はない。一方、更新されたページが存在すれば、クラスタデータベース121を用いて、該ぺージxについてクラスタの更新(33)を行わなければならない。
【0025】
更新されたページxが新たに収集された場合(33)を考える。予め該ページx全体から頻度表tx を作成(34)し、クラスタデータベース121にノード情報Nx を確保して該頻度表tx を記憶する。次に、ルートノード情報N0 から順に、左右の子ノード情報の頻度表と追加されるページの頻度表tx とを比較して検索していく。
【0026】
まず、現在の検索位置にあるノード情報Ny (最初はN0 )が子ノードを持つかどうか(35)を判断する。子ノードを持っていなければ、ノード情報Nx は、ユーザ識別子リスト及びノードポインタを格納(41)して、ノード情報Ny の子ノードとして追加(42)される。このユーザ識別子リストのユーザは、ノード情報Ny の下層に位置するページに関心を持つ者である。
【0027】
一方、現在の検索位置にあるノード情報Ny が子ノードを持っていれば、ノード情報Ny に登録されているユーザ識別子リストをノード情報Nx のユーザ識別子リストに追加する(36)。そして、ノード情報Nx の頻度表tx と、ノード情報Ny の左右の子ノードの頻度表ty_l 及びty_r とを比較して、どちらの子ノードに類似しているかを判断する(37、38)。ノード情報Ny は、類似している子ノードのリンクをたどっていく(39、40)。これらの操作は、現在の検索位置にあるノード情報Ny が子ノードを持たなくなるまで繰り返される。そして、ノード情報Nx は、ユーザ識別子リスト及びノードポインタを格納(41)して、ノード情報Ny の子ノードとして追加(42)される。
【0028】
最終的に、ノード情報Nx のユーザ識別子リストに追加されてきたユーザ識別子に該当するユーザに当該ページが更新されたことを通知する。このようにして、当該ノードが更新される通知を必要とする全てのユーザに対して通知することができる。
【0029】
次に、クラスタを用いてページインデックス情報を検索する場合を説明する。予めクライアント4のユーザが指定してくる漠然とした限定条件の少なくとも1つのキーワードを基にして、ルートノードから順に子ノードの頻度表と比較しながら探索を進めていく。ノード情報には下層に位置する子ノードのポインタが記憶されているので、順に下層に向かって探索することが可能とある。下層のページ数がユーザ所望の検索結果の数になったところで、以下のページインデックス情報を検索結果として通知することもできる。
【0030】
以上詳細に説明した実施形態ではインターネットを例にとり説明したが、複数のコンピュータが接続されたネットワーク上での文書情報の検索装置に対する適用において、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。従って、前述した実施形態は、あくまで例であって、何等制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものだけに制約される。
【0031】
【発明の効果】
本発明によれば、複数の文書情報のインデックス情報を、該文書情報全体の類似度に基づいた階層的な木構造にクラスタリングするためのクラスタデータベースを備えており、文書情報が更新される際に、連鎖的にリンクをたどる途中で遭遇するノード情報の通知先情報の通知先へ該文書情報が更新される旨を通知できるために、ユーザの文書情報に対する漠然とした限定条件であっても、適切な複数の文書情報を提供でき、かつ該文書情報の中で追加及び更新があった際にリアルタイムでユーザが知ることができる。更に、本発明により、今後増々膨大していくインターネット上のホームページに対して、最適な情報検索装置を提供することができる。
【図面の簡単な説明】
【図1】本発明の一実施形態における情報検索装置の構成図である。
【図2】図1のクラスタデータベース内のクラスタリングを表す樹系図である。
【図3】図2のクラスタリングを生成するためのフローチャートである。
【符号の説明】
11 インターネット
12 情報検索装置、情報検索サーバ
121 クラスタデータベース
122 ユーザ情報データベース
123 コンテンツデータベース
124 制御手段
125 リソース発見エンジン
13 コンピュータ
14 クライアント
Claims (3)
- 文書情報を有する複数のコンピュータがネットワークに接続されており、
複数の前記文書情報のインデックス情報を記憶するコンテンツデータベースと、
前記コンテンツデータベースを用いて前記文書情報をキーワードによって検索する制御手段と、
複数の前記文書情報のインデックス情報が節点となるノード情報を、前記文書情報全体の類似度に基づいて階層的な木構造にクラスタリングして記憶しているクラスタデータベースとを有し、
前記クラスタデータベースにおける前記ノード情報は、当該ノード情報の下層に位置する1つ以上の文書情報におけるキーワードの発生頻度に基づく頻度表を有し、
前記制御手段は、親ノードにおける複数の子ノードのノード情報の頻度表と、対象となる文書情報の頻度表とを比較して、類似度の高い一方の子ノードのリンクをたどるように制御する情報検索装置において、
前記クラスタデータベースにおける前記ノード情報は、下層に位置する文書情報が更新された際に通知すべき通知先情報を有しており、
前記制御手段は、前記文書情報が更新される際に、前記クラスタデータベースを用いて連鎖的にリンクをたどる途中で遭遇する前記ノード情報の前記通知先情報の通知先へ、該文書情報が更新される旨を通知することを特徴とする情報検索装置。 - 前記データベースの前記ノード情報の前記通知先情報は、前記ネットワーク内での固有のアドレスであることを特徴とする請求項1に記載の情報検索装置。
- 前記ネットワークを介して自動的に前記文書情報を収集することができるリソース発見エンジンを更に備えていることを特徴とする請求項1又は2に記載の情報検索装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP04142997A JP3632354B2 (ja) | 1997-02-12 | 1997-02-12 | 情報検索装置 |
EP04022290A EP1486891A3 (en) | 1997-02-12 | 1998-02-11 | Document retrieval apparatus |
US09/022,280 US6078913A (en) | 1997-02-12 | 1998-02-11 | Document retrieval apparatus |
EP98301003A EP0859330A1 (en) | 1997-02-12 | 1998-02-11 | Document retrieval apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP04142997A JP3632354B2 (ja) | 1997-02-12 | 1997-02-12 | 情報検索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10222534A JPH10222534A (ja) | 1998-08-21 |
JP3632354B2 true JP3632354B2 (ja) | 2005-03-23 |
Family
ID=12608133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP04142997A Expired - Fee Related JP3632354B2 (ja) | 1997-02-12 | 1997-02-12 | 情報検索装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3632354B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3978927B2 (ja) * | 1999-03-25 | 2007-09-19 | セイコーエプソン株式会社 | 電子表示制御装置およびその方法並びに記録媒体 |
KR20010016773A (ko) * | 1999-08-03 | 2001-03-05 | 허행양 | 인터넷에서의 정보 획득 방법과 이를 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체 |
JP2001054090A (ja) * | 1999-08-09 | 2001-02-23 | Fujitsu Ltd | 情報受信装置および情報受信プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP4399127B2 (ja) | 2001-05-14 | 2010-01-13 | 株式会社日立製作所 | 文書管理方法及び装置並びにその処理プログラム及びそれを格納した記憶媒体 |
JP6070936B2 (ja) * | 2013-01-31 | 2017-02-01 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報処理装置、情報処理方法及びプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04127370A (ja) * | 1990-09-19 | 1992-04-28 | Toshiba Corp | 情報収集システム |
JPH0749875A (ja) * | 1993-08-06 | 1995-02-21 | Hitachi Ltd | 文書情報分類方法およびそれを用いた文書情報収集方法、文書情報収集システム |
-
1997
- 1997-02-12 JP JP04142997A patent/JP3632354B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH10222534A (ja) | 1998-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7552109B2 (en) | System, method, and service for collaborative focused crawling of documents on a network | |
US6321228B1 (en) | Internet search system for retrieving selected results from a previous search | |
Yuwono et al. | Search and ranking algorithms for locating resources on the World Wide Web | |
US7231405B2 (en) | Method and apparatus of indexing web pages of a web site for geographical searchine based on user location | |
US6112202A (en) | Method and system for identifying authoritative information resources in an environment with content-based links between information resources | |
Yuwono et al. | WISE: a world wide web resource database system | |
US7383299B1 (en) | System and method for providing service for searching web site addresses | |
EP1486891A2 (en) | Document retrieval apparatus | |
US20040111412A1 (en) | Method and apparatus for ranking web page search results | |
US20210303529A1 (en) | Hierarchical structured data organization system | |
KR19980701598A (ko) | 정보 액세스 방법 및 시스템(methods and/or systems for acessing informatiom) | |
WO2006062765A1 (en) | Automatic generation of taxonomies | |
WO2001016807A1 (en) | An internet search system for tracking and ranking selected records from a previous search | |
US9275145B2 (en) | Electronic document retrieval system with links to external documents | |
WO2007132342A1 (en) | Documentary search procedure in a distributed information system | |
US7836108B1 (en) | Clustering by previous representative | |
JP2000508450A (ja) | インターネットから検索される情報を知識ベース表現を使用して編成する方法 | |
Duhan et al. | A novel approach for organizing web search results using ranking and clustering | |
Monge et al. | The webfind tool for finding scientific papers over the Worldwide Web | |
JP3632354B2 (ja) | 情報検索装置 | |
WO1997049048A1 (en) | Hypertext document retrieval system and method | |
KR100445943B1 (ko) | 근접 검색식을 이용한 정보 검색 시스템 및 방법 | |
KR100426994B1 (ko) | 컨셉 랭킹 기법을 이용한 문서 색인 시스템 및 방법 | |
KR100496384B1 (ko) | 검색엔진과, 검색시스템, 검색시스템에서의 데이터베이스 작성방법 및, 기억매체 | |
JP2003186901A (ja) | Webサイト検索方法とシステム、並びに、この方法の実行プログラムとこの方法の実行プログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040608 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040714 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040817 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040929 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20041130 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20041213 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |