JP3632354B2 - 情報検索装置 - Google Patents

情報検索装置 Download PDF

Info

Publication number
JP3632354B2
JP3632354B2 JP04142997A JP4142997A JP3632354B2 JP 3632354 B2 JP3632354 B2 JP 3632354B2 JP 04142997 A JP04142997 A JP 04142997A JP 4142997 A JP4142997 A JP 4142997A JP 3632354 B2 JP3632354 B2 JP 3632354B2
Authority
JP
Japan
Prior art keywords
information
node
document information
document
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP04142997A
Other languages
English (en)
Other versions
JPH10222534A (ja
Inventor
圭子 青木
一則 松本
和夫 橋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP04142997A priority Critical patent/JP3632354B2/ja
Priority to EP04022290A priority patent/EP1486891A3/en
Priority to US09/022,280 priority patent/US6078913A/en
Priority to EP98301003A priority patent/EP0859330A1/en
Publication of JPH10222534A publication Critical patent/JPH10222534A/ja
Application granted granted Critical
Publication of JP3632354B2 publication Critical patent/JP3632354B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、ネットワークに接続された複数のコンピュータが有する文書情報を検索するための情報検索装置に関する。
【0002】
【従来の技術】
複数のコンピュータが有する文書情報を検索するための情報検索装置は、該文書情報のアドレス等のページインデックス情報を記憶するコンテンツデータベースと、該コンテンツデータベースを用いて該文書情報をキーワードによって検索する制御手段とを有している。従来の情報検索装置の代表例としては、インターネットにおけるWWW(World Wide Web)の文書情報であるホームページを検索するサーチエンジンがある。以下では、主にインターネット上での利用を例にとり説明していく。
【0003】
従来のサーチエンジンは、検索条件としてクライアントがキーワード等を指定し、対応するホームページのアドレスを検索結果として応答するものである。現在のところ検索される側のホームページの内容を表すキーワードは、該ページの所有者によって予め登録されたものであり、完全にページ内容を意味するものではない。また、クライアントからの要求に対して応答を返すだけの完全なクライアント/サーバ関係であるために、所望のページが追加又は更新が行われても、再度、該ページにアクセスしない限り、追加又は更新されたことをユーザが知ることはできない。
【0004】
【発明が解決しようとする課題】
最近のWWWの広がりによる膨大な数のホームページの中で、ユーザの所望するホームページを検索することは難しくなってきている。その理由の1つは、従来のサーチエンジンが、キーワード別にホームページのURL(Uniform Resouce Locator) を分類して記憶しているために、キーワード又はその組み合わせによってしか検索できないことである。現在のところ、ユーザは、比較的漠然とした限定条件しか持っていない場合が多く、膨大な情報資源の中でキーワードだけに依存した探索的な情報検索を繰り返している。なぜなら、同じキーワードを用いて検索された複数のホームページには、内容的に全く類似性又は関連性がないからである。しかし、漠然とした限定条件であっても、検索された複数のホームページが類似性や関連性を持っているとすれば、比較的ユーザの所望するホームページが検索しやすくなるはずである。
【0005】
更に、ユーザは、WWWという絶えず変化を繰り返している膨大な情報資源中から、1つの漠然とした限定条件の中だけの変化をリアルタイムに知りたい場合もある。具体的には、類似性や関連性を有する複数のホームページの中の追加及び更新をユーザにリアルタイムで通知することによって、該ユーザは所望のホームページの変化を常に監視することができる。
【0006】
従って本発明は、ユーザの文書情報に対する漠然とした限定条件であっても、適切な複数の文書情報を提供でき、かつ該文書情報の中で追加及び更新があったことをリアルタイムにユーザが知ることができる情報検索装置を提供するものである。
【0007】
【課題を解決するための手段】
本発明によれば、文書情報を有する複数のコンピュータがネットワークに接続されており
複数の文書情報のインデックス情報を記憶するコンテンツデータベースと
コンテンツデータベースを用いて文書情報をキーワードによって検索する制御手段と、
複数の文書情報のインデックス情報が節点となるノード情報を、文書情報全体の類似度に基づいて階層的な木構造にクラスタリングして記憶しているクラスタデータベースとを有し、
クラスタデータベースにおけるノード情報は、当該ノード情報の下層に位置する1つ以上の文書情報におけるキーワードの発生頻度に基づく頻度表を有し、
制御手段は、親ノードにおける複数の子ノードのノード情報の頻度表と、対象となる文書情報の頻度表とを比較して、類似度の高い一方の子ノードのリンクをたどるように制御する情報検索装置において、
クラスタデータベースにおけるノード情報は、下層に位置する文書情報が更新された際に通知すべき通知先情報を有しており、
制御手段は、文書情報が更新される際に、クラスタデータベースを用いて連鎖的にリンクをたどる途中で遭遇するノード情報の通知先情報の通知先へ、該文書情報が更新される旨を通知することを特徴とする。
【0011】
データベースのノード情報の通知先情報は、ネットワーク内での固有アドレスのリストであってもよい。直接、ユーザの固有アドレスへ、更新通知をすることが可能となる。
【0013】
情報検索装置は、更に、前記ネットワークを介して自動的に前記文書情報を収集することができるリソース発見エンジンを備えているのが好ましい。該情報検索装置が自動的かつ不定期にネットワーク上の更新された文書情報を検出して、ユーザに通知することが可能となる。
【0014】
【発明の実施の形態】
以下、図面を用いて本発明の実施形態を詳細に説明する。
【0015】
図1は、本発明の一実施形態における情報検索装置の構成図である。インターネット11に接続された情報検索装置は、通常、情報検索サーバ12と位置づけられる。インターネット11にはホームページを有する膨大な数のコンピュータ3が接続されており、情報検索サーバ12は該コンピュータ13の有する文書情報の所在情報を収集している。該情報検索サーバ12は、クライアント14に対して所望の文書情報のURLを検索結果として提供するためのものである。
【0016】
情報検索サーバ12は、クラスタデータベース121、ユーザ情報データベース122、コンテンツデータベース123、制御手段124及びリソース発見エンジン125を有している。コンテンツデータベース123と、該コンテンツデータベース123を用いてキーワードによって検索する制御手段124とは、従来のサーチエンジンにも備えられていたものである。コンテンツデータベース123には、ページのURL毎にページインデックス情報が記憶されている。該ページインデックス情報には、当該ホームページのタイトル、キーワードで表されたページ内容、及びページ内でリンクされているURLリストが記憶されている。制御手段124は、クライアント4とのインタフェース制御、及びコンテンツデータベース123内のぺ−ジインデックス情報の検索を行う。従来のサーチエンジンは、クライアント14から指定された検索キーワードによって、コンテンツデータベース123の有するページインデックス情報のタイトル及びページ内容とを比較して検索するものである。
【0017】
コンテンツデータベース123は、更に、リソース発見エンジン125に接続されている。通常、ロボットと称されるリソース発見エンジン125は、インターネット1を介して自動的にページインデックス情報を収集し、該ページインデックス情報をコンテンツデータベース23に記憶させるものである。これにより、ページの追加及び更新を自動的かつ不定期に検出することが可能となる。
【0018】
制御手段124は、更に、クラスタデータベース121にも接続されている。クラスタデータベース121には、複数のページインデックス情報を、該文書情報全体の類似度に基づく階層的な木構造にクラスタリングするために、節点となる複数のノード情報Nが記憶されている。該ノード情報Nには、ノード毎に、頻度表、ユーザ識別子リスト、並びに親ノード及び子ノードを指示するポインタとが記憶されている。ぺ−ジインデックス情報I に関係するノード情報Nnnの階層的な木構造を表した樹系図が図2に示されている。
【0019】
頻度表は、ーワードの発生頻度ら重み付けにより算出され、該キーワードを該文書情報の特徴を表す優先度順にリストしたものである。該頻度表の作成手順は、最初に、例えば形態素解析を用いて、ページの全テキストリソースから名詞及び未定義語のキーワードに限定した切り出しを行う。次に、ここで切り出されたキーワードに対して重み付けを行い、優先度順にリストする。この時、キーワードの発生頻度考慮して重み付けすることで、より文書情報の特徴を表した頻度表を作成することができる。常に上位のノード情報の頻度表は下位の複数の文書情報のキーワードを反映したものとなる。このようにして作られた頻度表は、該頻度表と検索キーワード及び検索対象の頻度表とを比較しながら子ノードを選択していくことで、類似度の高いクラスタを生成することができる
【0020】
ユーザ識別子リストには、当該ノード情報の下層に位置するページインデックス情報のページが更新された際に、通知すべきユーザ識別子のリストが記憶されている。該ユーザ識別子は、後述するユーザ情報データベースのキーとなるものである。ユーザ情報データベースの有利な機能を利用する必要がなければ、ユーザ識別子の代わりに、直接ユーザの通知先アドレス即ちメールアドレスを記憶してもよい。
【0021】
親ノード及び子ノードを指示するポインタは、階層的な木構造のクラスタリングを実現する上では必要なものである。子ノードは、左右2つのノードに分けられており、両ノードの頻度表と類似度を比較しながらリンクをたどることができるようになる。
【0022】
制御手段24は、更に、ユーザ情報データベース22にも接続されている。該ユーザ情報データベース22は、ノード情報Nのユーザ識別子リストに対応する情報を記憶しているものである。ノード情報Nのユーザ識別子が直接ユーザのメールアドレスであってもよいことは、既に述べた。しかし、種々のユーザ情報を別に記憶していることで様々な有利なサービスを提供できるようになる。該ユーザ情報データベースは、個々のユーザ毎に、該ユーザに関心のある複数のURL及びBookmarkと、検索対象範囲を示すドメインリストと、検索結果として表示するURLの個数と、該ユーザのメールアドレスとを含んでいる。特定のURL及びBookmarkを予め指定することができることで、それに含まれるページに更新があった場合には、即時に更新があった旨をユーザに通知することができる。また、ドメインリストによって検索対象範囲を限定することができる。更に、検索結果として表示するURLの個数もまた、検索における無駄な負荷を省略するための利点である。
【0023】
図3は、新しい文書情報が収集された場合の、クラスタリングのフローチャートである。
【0024】
リソース発見エンジン125によって、インターネット1を介して自動的にページインデックス情報が収集され、該ページインデックス情報をコンテンツデータベース23に記憶していく(31)。その際、更新されたページがなければ(32)、何も処理を行う必要はない。一方、更新されたページが存在すれば、クラスタデータベース121を用いて、該ぺージxについてクラスタの更新(33)を行わなければならない。
【0025】
更新されたページxが新たに収集された場合(33)を考える。予め該ページx全体から頻度表t を作成(34)し、クラスタデータベース121にノード情報N を確保して該頻度表t を記憶する。次に、ルートノード情報N から順に、左右の子ノード情報の頻度表と追加されるページの頻度表t とを比較して検索していく。
【0026】
まず、現在の検索位置にあるノード情報N (最初はN )が子ノードを持つかどうか(35)を判断する。子ノードを持っていなければ、ノード情報N は、ユーザ識別子リスト及びノードポインタを格納(41)して、ノード情報N の子ノードとして追加(42)される。このユーザ識別子リストのユーザは、ノード情報N の下層に位置するページに関心を持つ者である。
【0027】
一方、現在の検索位置にあるノード情報N が子ノードを持っていれば、ノード情報N に登録されているユーザ識別子リストをノード情報N のユーザ識別子リストに追加する(36)。そして、ノード情報N の頻度表t と、ノード情報N の左右の子ノードの頻度表ty_l 及びty_r とを比較して、どちらの子ノードに類似しているかを判断する(37、38)。ノード情報N は、類似している子ノードのリンクをたどっていく(39、40)。これらの操作は、現在の検索位置にあるノード情報N が子ノードを持たなくなるまで繰り返される。そして、ノード情報N は、ユーザ識別子リスト及びノードポインタを格納(41)して、ノード情報N の子ノードとして追加(42)される。
【0028】
最終的に、ノード情報N のユーザ識別子リストに追加されてきたユーザ識別子に該当するユーザに当該ページが更新されたことを通知する。このようにして、当該ノードが更新される通知を必要とする全てのユーザに対して通知することができる。
【0029】
次に、クラスタを用いてページインデックス情報を検索する場合を説明する。予めクライアント4のユーザが指定してくる漠然とした限定条件の少なくとも1つのキーワードを基にして、ルートノードから順に子ノードの頻度表と比較しながら探索を進めていく。ノード情報には下層に位置する子ノードのポインタが記憶されているので、順に下層に向かって探索することが可能とある。下層のページ数がユーザ所望の検索結果の数になったところで、以下のページインデックス情報を検索結果として通知することもできる。
【0030】
以上詳細に説明した実施形態ではインターネットを例にとり説明したが、複数のコンピュータが接続されたネットワーク上での文書情報の検索装置に対する適用において、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。従って、前述した実施形態は、あくまで例であって、何等制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものだけに制約される。
【0031】
【発明の効果】
本発明によれば、複数の文書情報のインデックス情報を、該文書情報全体の類似度に基づいた階層的な木構造にクラスタリングするためのクラスタデータベースを備えており、文書情報が更新される際に、連鎖的にリンクをたどる途中で遭遇するノード情報の通知先情報の通知先へ該文書情報が更新される旨を通知できるために、ユーザの文書情報に対する漠然とした限定条件であっても、適切な複数の文書情報を提供でき、かつ該文書情報の中で追加及び更新があった際にリアルタイムでユーザが知ることができる。更に、本発明により、今後増々膨大していくインターネット上のホームページに対して、最適な情報検索装置を提供することができる。
【図面の簡単な説明】
【図1】本発明の一実施形態における情報検索装置の構成図である。
【図2】図1のクラスタデータベース内のクラスタリングを表す樹系図である。
【図3】図2のクラスタリングを生成するためのフローチャートである。
【符号の説明】
11 インターネット
12 情報検索装置、情報検索サーバ
121 クラスタデータベース
122 ユーザ情報データベース
123 コンテンツデータベース
124 制御手段
125 リソース発見エンジン
13 コンピュータ
14 クライアント

Claims (3)

  1. 文書情報を有する複数のコンピュータがネットワークに接続されており
    複数の前記文書情報のインデックス情報を記憶するコンテンツデータベースと
    前記コンテンツデータベースを用いて前記文書情報をキーワードによって検索する制御手段と、
    複数の前記文書情報のインデックス情報が節点となるノード情報を、前記文書情報全体の類似度に基づいて階層的な木構造にクラスタリングして記憶しているクラスタデータベースとを有し、
    前記クラスタデータベースにおける前記ノード情報は、当該ノード情報の下層に位置する1つ以上の文書情報におけるキーワードの発生頻度に基づく頻度表を有し、
    前記制御手段は、親ノードにおける複数の子ノードのノード情報の頻度表と、対象となる文書情報の頻度表とを比較して、類似度の高い一方の子ノードのリンクをたどるように制御する情報検索装置において、
    前記クラスタデータベースにおける前記ノード情報は、下層に位置する文書情報が更新された際に通知すべき通知先情報を有しており、
    前記制御手段は、前記文書情報が更新される際に、前記クラスタデータベースを用いて連鎖的にリンクをたどる途中で遭遇する前記ノード情報の前記通知先情報の通知先へ、該文書情報が更新される旨を通知することを特徴とする情報検索装置。
  2. 前記データベースの前記ノード情報の前記通知先情報は、前記ネットワーク内での固有のアドレスであることを特徴とする請求項1に記載の情報検索装置。
  3. 記ネットワークを介して自動的に前記文書情報を収集することができるリソース発見エンジンを更に備えていることを特徴とする請求項1又は2に記載の情報検索装置。
JP04142997A 1997-02-12 1997-02-12 情報検索装置 Expired - Fee Related JP3632354B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP04142997A JP3632354B2 (ja) 1997-02-12 1997-02-12 情報検索装置
EP04022290A EP1486891A3 (en) 1997-02-12 1998-02-11 Document retrieval apparatus
US09/022,280 US6078913A (en) 1997-02-12 1998-02-11 Document retrieval apparatus
EP98301003A EP0859330A1 (en) 1997-02-12 1998-02-11 Document retrieval apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP04142997A JP3632354B2 (ja) 1997-02-12 1997-02-12 情報検索装置

Publications (2)

Publication Number Publication Date
JPH10222534A JPH10222534A (ja) 1998-08-21
JP3632354B2 true JP3632354B2 (ja) 2005-03-23

Family

ID=12608133

Family Applications (1)

Application Number Title Priority Date Filing Date
JP04142997A Expired - Fee Related JP3632354B2 (ja) 1997-02-12 1997-02-12 情報検索装置

Country Status (1)

Country Link
JP (1) JP3632354B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3978927B2 (ja) * 1999-03-25 2007-09-19 セイコーエプソン株式会社 電子表示制御装置およびその方法並びに記録媒体
KR20010016773A (ko) * 1999-08-03 2001-03-05 허행양 인터넷에서의 정보 획득 방법과 이를 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체
JP2001054090A (ja) * 1999-08-09 2001-02-23 Fujitsu Ltd 情報受信装置および情報受信プログラムを記録したコンピュータ読み取り可能な記録媒体
JP4399127B2 (ja) 2001-05-14 2010-01-13 株式会社日立製作所 文書管理方法及び装置並びにその処理プログラム及びそれを格納した記憶媒体
JP6070936B2 (ja) * 2013-01-31 2017-02-01 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、情報処理方法及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04127370A (ja) * 1990-09-19 1992-04-28 Toshiba Corp 情報収集システム
JPH0749875A (ja) * 1993-08-06 1995-02-21 Hitachi Ltd 文書情報分類方法およびそれを用いた文書情報収集方法、文書情報収集システム

Also Published As

Publication number Publication date
JPH10222534A (ja) 1998-08-21

Similar Documents

Publication Publication Date Title
US7552109B2 (en) System, method, and service for collaborative focused crawling of documents on a network
US6321228B1 (en) Internet search system for retrieving selected results from a previous search
Yuwono et al. Search and ranking algorithms for locating resources on the World Wide Web
US7231405B2 (en) Method and apparatus of indexing web pages of a web site for geographical searchine based on user location
US6112202A (en) Method and system for identifying authoritative information resources in an environment with content-based links between information resources
Yuwono et al. WISE: a world wide web resource database system
US7383299B1 (en) System and method for providing service for searching web site addresses
EP1486891A2 (en) Document retrieval apparatus
US20040111412A1 (en) Method and apparatus for ranking web page search results
US20210303529A1 (en) Hierarchical structured data organization system
KR19980701598A (ko) 정보 액세스 방법 및 시스템(methods and/or systems for acessing informatiom)
WO2006062765A1 (en) Automatic generation of taxonomies
WO2001016807A1 (en) An internet search system for tracking and ranking selected records from a previous search
US9275145B2 (en) Electronic document retrieval system with links to external documents
WO2007132342A1 (en) Documentary search procedure in a distributed information system
US7836108B1 (en) Clustering by previous representative
JP2000508450A (ja) インターネットから検索される情報を知識ベース表現を使用して編成する方法
Duhan et al. A novel approach for organizing web search results using ranking and clustering
Monge et al. The webfind tool for finding scientific papers over the Worldwide Web
JP3632354B2 (ja) 情報検索装置
WO1997049048A1 (en) Hypertext document retrieval system and method
KR100445943B1 (ko) 근접 검색식을 이용한 정보 검색 시스템 및 방법
KR100426994B1 (ko) 컨셉 랭킹 기법을 이용한 문서 색인 시스템 및 방법
KR100496384B1 (ko) 검색엔진과, 검색시스템, 검색시스템에서의 데이터베이스 작성방법 및, 기억매체
JP2003186901A (ja) Webサイト検索方法とシステム、並びに、この方法の実行プログラムとこの方法の実行プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040608

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040714

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040817

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040929

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041213

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees