JPH09218880A - ドキュメントデータ検索システム - Google Patents

ドキュメントデータ検索システム

Info

Publication number
JPH09218880A
JPH09218880A JP8048356A JP4835696A JPH09218880A JP H09218880 A JPH09218880 A JP H09218880A JP 8048356 A JP8048356 A JP 8048356A JP 4835696 A JP4835696 A JP 4835696A JP H09218880 A JPH09218880 A JP H09218880A
Authority
JP
Japan
Prior art keywords
document
data
document data
server
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8048356A
Other languages
English (en)
Inventor
Hisaaki Kadoma
央章 角間
Daiki Kurihara
大樹 栗原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dainippon Screen Manufacturing Co Ltd
Original Assignee
Dainippon Screen Manufacturing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dainippon Screen Manufacturing Co Ltd filed Critical Dainippon Screen Manufacturing Co Ltd
Priority to JP8048356A priority Critical patent/JPH09218880A/ja
Publication of JPH09218880A publication Critical patent/JPH09218880A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 WWWサーバ以外に格納されているドキュメ
ントデータについても検索対象とすることができるよう
にする。 【解決手段】 WWWサーバ100、データベースサー
バ200及びファイルサーバ300では、それぞれ、検
索エージェントプログラム115,215,315が起
動すると、CPU130,230,330はそれらプロ
グラムに従って、処理を行なう。CPU130,23
0,330は格納しているドキュメントデータから書誌
情報やキーワードやデータ格納場所などを含むサマリー
情報を抽出する。このとき、CPUは格納しているドキ
ュメントデータに対する管理形態やドキュメントデータ
の種別などに応じて抽出する。CPUは抽出したサマリ
ー情報をネットワークインタフェース140,240,
340より通信回線610,620,630を介して検
索サーバ500に転送する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、多数のドキュメン
トデータを2つ以上のドキュメントサーバに分散して格
納している場合に、各ドキュメントサーバに通信回線を
介して接続される検索サーバによって、所望のドキュメ
ントデータの格納場所をドキュメント索引情報に基づい
て検索するドキュメントデータ検索システムに関するも
のである。
【0002】
【従来の技術】ドキュメントデータを効率よく検索する
ためには、すべてのドキュメントデータを1つのドキュ
メントサーバに格納し、集中的に管理するのがよい。し
かし、ドキュメントデータを扱う組織の規模が大きくな
ると、大量のドキュメントデータを扱わなければならな
くなるため、1つのドキュメントサーバだけでは管理し
きれず、それゆえ、大量のドキュメントデータを複数の
ドキュメントサーバなどに分散して格納する必要があ
る。
【0003】このとき、或るドキュメントデータを必要
とするユーザ(検索者)が、そのドキュメントデータが
どのドキュメントサーバに格納されているかを知らない
場合、検索者はクライアントを使って、書誌情報やキー
ワードなどに基づき、ドキュメントサーバ毎に、目的の
ドキュメントデータが格納されているか否かを検索しな
ければならない。これは検索者にとって大変負担が大き
い。
【0004】そこで、この問題を解決するために、ドキ
ュメント索引情報を格納した検索サーバを用いた検索シ
ステムが提案されている。このような検索システムとし
ては、例えば、WWW(World Wide Web)により提供さ
れるドキュメントデータを対象とした検索システムがあ
る。WWWは、ハイパーテキスト形式のドキュメントデ
ータを提供する仕組みである。WWWでは、このような
ハイパーテキスト形式のドキュメントデータをWWWサ
ーバに格納しており、一つのドキュメントデータから他
のドキュメントデータへはリンクを張ることができる。
検索者は、そのリンクをたどることによって、目的とす
るドキュメントデータを得る。しかし、WWWでは、こ
のようなリンクをたどること以外には、ドキュメントデ
ータを検索する手段が提供されていない。そこで、これ
を補うために、前述した検索サーバを用いた検索システ
ムが種々提案されている。例えば、「情報処理学会、第
2回、テクニカルコミュニケーションシンポジウム予稿
集」(’95.7)の第24頁〜第31頁に掲載されて
いる「SGML文書管理システム実現における課題」
(井上直樹:NTTデータ通信株式会社)や、或いは
「情報処理学会、第51回、全国大会」(’95.9)
の論文集の1−169〜170に掲載されている「WW
Wにおける広域検索システム」(田村健人,村岡洋一:
早稲田大学理工学部)においては、WWWを対象とした
実際の検索サーバの例が開示されている。
【0005】この検索サーバは、ネットワーク上の全て
のWWWサーバに対して、自ら定期的にアクセスして、
各WWWサーバに格納されている全ドキュメントデータ
(全ページの全テキスト)をそれぞれ取得して、その取
得したデータを基にドキュメント索引情報を生成し、そ
のドキュメント索引情報を格納している。そして、検索
者がクライアントを使って、その検索サーバにアクセス
すると、検索サーバは格納しているドキュメント索引情
報を用いて、目的とするドキュメントデータの格納場所
を検索し、その検索結果を検索者に知らせる。
【0006】
【発明が解決しようとする課題】このような従来におけ
る検索サーバを用いた検索システムにおいては、次のよ
うな問題があった。
【0007】検索サーバは、ネットワーク上のWWW
サーバのみにアクセスして、それらWWWサーバに格納
されているドキュメントデータを取得し、それらデータ
を基にドキュメント索引情報を生成している。このた
め、この検索システムにおいては、WWWサーバに格納
されているドキュメントデータだけしか検索対象になら
ない。従って、WWWサーバ以外の一般的なデータベー
スサーバなどに格納されているドキュメントデータを、
検索者が検索しようとしても検索することはできない。
【0008】WWWにおいては、ユーザがクライアン
トを使って或るWWWサーバにアクセスした上で、その
WWWサーバのゲートウェイの機能を使って、そのWW
Wサーバを介してさらに他のデータベースサーバにアク
セスすることも可能である。しかし、検索サーバは、こ
のようなゲートウェイにより提供されるデータベースサ
ーバに対してはアクセスすることができないので、その
ようなデータベースサーバに格納されているドキュメン
トデータも検索対象にはならない。
【0009】従って、本発明の目的は、上記した従来技
術の問題点を解決し、WWWサーバ以外に格納されてい
るドキュメントデータについても検索対象とすることが
できるドキュメントデータ検索システムを提供すること
にある。
【0010】
【課題を解決するための手段およびその作用・効果】上
記した目的の少なくとも一部を達成するために、第1の
発明は、クライアントと、複数のドキュメントデータを
それぞれ格納し、前記クライアントからの要求に応じて
所望のドキュメントデータをそれぞれ提供すると共に、
格納する前記ドキュメントデータに対するデータ管理形
態が互いに異なる2つ以上のドキュメントサーバと、各
ドキュメントデータのサマリー情報によって構成される
ドキュメント索引情報を格納し、前記クライアントから
の要求に応じて、前記ドキュメント索引情報を参照し
て、所望のドキュメントデータの格納場所を検索し、検
索結果を提供する検索サーバと、を少なくとも備え、相
互に通信回線を介して接続して成るドキュメントデータ
検索システムであって、各ドキュメントサーバは、それ
ぞれ、当該ドキュメントサーバにおける前記データ管理
形態に応じた抽出手法を用いて、格納する前記ドキュメ
ントデータから該ドキュメントデータのサマリー情報を
抽出する抽出手段と、抽出した前記サマリー情報を前記
通信回線を介して前記検索サーバに転送する転送手段
と、を備え、前記検索サーバは、転送された前記サマリ
ー情報に基づいて前記ドキュメント索引情報を生成また
は更新する手段を備えることを要旨とする。
【0011】ここで、ドキュメントデータとしては、テ
キストデータ(HTMLデータなども含む)や、画像デ
ータや音声データなどのバイナリデータなどが挙げられ
る。また、ドキュメントデータのサマリー情報として
は、タイトルや作成者や作成年月日などの書誌情報や、
キーワードや、データ種別や、ドキュメントデータの格
納場所などが挙げられる。
【0012】このように、第1の発明では、格納するド
キュメントデータに対するデータ管理形態が互いに異な
る2つ以上のドキュメントサーバを備えている。しか
も、各ドキュメントサーバは、それぞれ、抽出手段によ
って、そのドキュメントサーバにおけるデータ管理形態
に応じた抽出手法を用いて、ドキュメントデータからサ
マリー情報を抽出し、転送手段によって、そのサマリー
情報を通信回線を介して検索サーバに転送する。一方、
検索サーバでは、転送されたサマリー情報に基づいてド
キュメント索引情報を生成したり、更新したりする。
【0013】従って、WWWサーバとはデータ管理形態
の異なるドキュメントサーバに格納されたドキュメント
データであっても、そのドキュメントサーバにおけるデ
ータ管理形態に応じた抽出手法によってサマリー情報が
抽出されて、検索サーバに転送され、検索サーバにおい
て、そのサマリー情報に基づきドキュメント索引情報が
生成または更新される。よって、WWWサーバ以外に格
納されているドキュメントデータについても検索対象と
することができることになる。
【0014】第1の発明のドキュメントデータ検索シス
テムにおいて、前記2つ以上のドキュメントサーバのう
ちの少なくとも一つのドキュメントサーバは、格納する
前記ドキュメントデータに対し、ファイル単位でアクセ
スする第1のデータ管理形態にて管理を行ない、他の少
なくとも一つのドキュメントサーバは、格納する前記ド
キュメントデータに対し、ファイルの細部についてアク
セスすることができる第2のデータ管理形態にて管理を
行なうことが好ましい。
【0015】またさらに、前記第2のデータ管理形態
は、データベース管理システムによるデータ管理形態で
あることが好ましい。
【0016】このように、2つ以上のドキュメントサー
バのうち、一つはWWWサーバのような、格納するドキ
ュメントデータに対しファイル単位でアクセスするデー
タ管理形態にて管理を行なっているドキュメントサーバ
であっても、他の一つは例えばデータベースサーバのよ
うな、格納するドキュメントデータに対しファイルの細
部についてアクセスすることができるデータ管理形態に
て管理を行なっているドキュメントサーバとすることが
できる。データベースサーバの場合は、データベース管
理システムよってドキュメントデータの管理が行なわれ
る。
【0017】第2の発明は、クライアントと、複数のド
キュメントデータをそれぞれ格納し、前記クライアント
からの要求に応じて所望のドキュメントデータをそれぞ
れ提供すると共に、格納する前記ドキュメントデータの
データ種別が互いに異なる2つ以上のドキュメントサー
バと、各ドキュメントデータのサマリー情報によって構
成されるドキュメント索引情報を格納し、前記クライア
ントからの要求に応じて、前記ドキュメント索引情報を
参照して、所望のドキュメントデータの格納場所を検索
し、検索結果を提供する検索サーバと、を少なくとも備
え、相互に通信回線を介して接続して成るドキュメント
データ検索システムであって、各ドキュメントサーバ
は、それぞれ、格納する前記ドキュメントデータの前記
データ種別に応じた抽出手法を用いて、前記ドキュメン
トデータから該ドキュメントデータのサマリー情報を抽
出する抽出手段と、抽出した前記サマリー情報を前記通
信回線を介して前記検索サーバに転送する転送手段と、
を備え、前記検索サーバは、転送された前記サマリー情
報に基づいて前記ドキュメント索引情報を生成または更
新する手段を備えることを要旨とする。
【0018】このように、第2の発明では、格納するド
キュメントデータのデータ種別が互いに異なる2つ以上
のドキュメントサーバを備えている。各ドキュメントサ
ーバでは、それぞれ、抽出手段によって、そのドキュメ
ントデータのデータ種別に応じた抽出手法を用いて、ド
キュメントデータからサマリー情報を抽出し、転送手段
によって、そのサマリー情報を通信回線を介して検索サ
ーバに転送する。そして、検索サーバでは、転送された
サマリー情報に基づいてドキュメント索引情報を生成し
たり、更新したりする。
【0019】従って、WWWサーバとは格納するドキュ
メントデータのデータ種別の異なるドキュメントサーバ
であっても、そのドキュメントサーバに格納されたドキ
ュメントデータのデータ種別に応じた抽出手法によって
サマリー情報を抽出し、検索サーバに転送する。検索サ
ーバでは、そのサマリー情報に基づいてドキュメント索
引情報を生成または更新する。よって、WWWサーバ以
外に格納されているドキュメントデータについても検索
対象とすることができることになる。
【0020】第2の発明のドキュメントデータ検索シス
テムにおいて、前記2つ以上のドキュメントサーバのう
ちの少なくとも一つのドキュメントサーバは、格納する
前記ドキュメントデータが構造化文書のドキュメントデ
ータであり、他の少なくとも一つのドキュメントサーバ
は、格納する前記ドキュメントデータが前記構造化文書
以外のドキュメントデータであることが好ましい。
【0021】このように、2つ以上のドキュメントサー
バのうち、一つはWWWサーバのような、構造化文書の
ドキュメントデータを格納するドキュメントサーバであ
っても、他の一つは例えば通常のファイルサーバのよう
な、構造化文書以外のドキュメントデータをも格納する
ドキュメントサーバとすることができる。
【0022】
【発明の実施の形態】以下、本発明の実施の形態を実施
例に基づいて説明する。図1は本発明の一実施例として
ドキュメントデータ検索システムの概要を示す説明図で
あり、図2は図1のドキュメントデータ検索システムの
詳細な構成を示すブロック図である。
【0023】図1または図2に示すように、このドキュ
メントデータ検索システムは、WWWサーバワークステ
ーション100と、データベースサーバワークステーシ
ョン200と、ファイルサーバワークステーション30
0と、クライアントワークステーション400と、検索
サーバワークステーション500と、を備えており、そ
れらは互いにネットワーク上の通信回線610〜670
によって接続されている。
【0024】WWWサーバワークステーション(以下、
WWWサーバと略す。)100は、図2に示すように、
各種プログラムを記憶するプログラムメモリ110と、
複数のHTMLデータによって構成されるHTMLデー
タファイル群120と、プログラムメモリ110内のプ
ログラムに従って種々の処理動作を行なうCPU130
と、ネットワークを介して他のワークステーションと通
信を行なうためのネットワークインタフェース140を
備えている。ここで、HTMLデータとは、HTML
(Hyper Text Mark-up Language)という記述言語で書
かれたドキュメントデータを言う。各HTMLデータは
ハードディスクなどの記憶媒体にそれぞれファイルとし
て格納されていて、HTMLデータファイル群120を
構成している。なお、各HTMLデータは、オペレーテ
ィングシステムにおけるファイル管理システムによって
管理されている。従って、各HTMLデータはファイル
単位でのみアクセスすることができる。
【0025】プログラムメモリ110には、プログラム
として、格納するHTMLデータを参照するためのWW
Wサーバプログラム111と、格納するHTMLデータ
からサマリー情報を抽出し、検索サーバワークステーシ
ョン500に転送するための検索エージェントプログラ
ム115が記憶されている。
【0026】データベースサーバワークステーション
(以下、データベースサーバと略す。)200は、図2
に示すように、プログラムメモリ210と、複数のドキ
ュメントデータによって構成されるドキュメントデータ
ベース220と、CPU230と、ネットワークインタ
フェース240を備えている。ここで、ドキュメントデ
ータベース220は、例えば、複数のドキュメントデー
タファイルによって構成され、さらに、各ドキュメント
データファイルは複数のドキュメントデータによって構
成されている。また、各ドキュメントデータは、それぞ
れ、本文の他、タイトルや、作成者名などによって構成
されている。なお、ドキュメントデータベース220を
構成する各ドキュメントデータは、データベース管理シ
ステム(Data Base Management System)によって管理
されている。従って、ファイルの細部についてドキュメ
ントデータにアクセスすることができる。
【0027】プログラムメモリ210には、プログラム
として、格納するドキュメントデータを参照したり、更
新したりするためのデータベースサーバプログラム21
1や、格納するドキュメントデータからサマリー情報を
抽出し、検索サーバワークステーション500に転送す
るための検索エージェントプログラム215が記憶され
ている。
【0028】ファイルサーバワークステーション(以
下、ファイルサーバと略す。)300は、図2に示すよ
うに、プログラムメモリ310と、複数のドキュメント
データによって構成されるドキュメントデータファイル
群320と、CPU330と、ネットワークインタフェ
ース340を備えている。ここで、各ドキュメントデー
タはハードディスクなどの記憶媒体にそれぞれファイル
として格納されていて、ドキュメントデータファイル群
320を構成している。なお、各ドキュメントデータ
は、オペレーティングシステムにおけるファイル管理シ
ステムによって管理されているため、各ドキュメントデ
ータはファイル単位でのみアクセスすることができる。
【0029】プログラムメモリ310には、プログラム
として、格納するドキュメントデータを参照するための
OSのファイル管理プログラム311と、格納するドキ
ュメントデータからサマリー情報を抽出し、検索サーバ
ワークステーション500に転送するための検索エージ
ェントプログラム315が記憶されている。
【0030】クライアントワークステーション(以下、
クライアントと略す。)400は、図2に示すように、
プログラムメモリ410と、CPU430と、ネットワ
ークインタフェース440を備えている。プログラムメ
モリ410には、プログラムとして、WWWサーバ10
0やデータベースサーバ200やファイルサーバ300
或いは検索サーバワークステーション500にアクセス
するためのクライアントプログラム411が記憶されて
いる。
【0031】また、検索サーバワークステーション(以
下、検索サーバと略す。)500は、図2に示すよう
に、プログラムメモリ510と、ドキュメント索引情報
520と、CPU530と、ネットワークインタフェー
ス540を備えている。
【0032】プログラムメモリ510には、プログラム
として、転送されたサマリー情報に基づいてドキュメン
ト索引情報520を生成したり、更新したりすると共
に、そのドキュメント索引情報520を検索したりする
ための検索サーバプログラム511が記憶されている。
【0033】さて、検索サーバ500を初めて運用する
場合、ドキュメント索引情報520は無の状態であるの
で、WWWサーバ100、データベースサーバ200及
びファイルサーバ300では、それぞれ、検索エージェ
ントプログラム115,215,315が起動し、CP
U130,230,330はそれらプログラムに従っ
て、次のような処理を行なう。即ち、格納している全ド
キュメントデータから、それぞれ、ドキュメントデータ
の書誌情報やキーワードやデータ格納場所などを含むサ
マリー情報を抽出し、その抽出したサマリー情報をネッ
トワークインタフェース140,240,340より通
信回線610,620,630を介して検索サーバ50
0に転送する。
【0034】ところで、WWWサーバ100、データベ
ースサーバ200及びファイルサーバ300では、前述
したように、格納しているドキュメントデータに対する
管理形態が異なると共に、格納しているドキュメントデ
ータの種別も異なっている。従って、各サーバのCPU
が各検索エージェントプログラム115,215,31
5に従ってサマリー情報を抽出する場合、それぞれ、格
納しているドキュメントデータに対する管理形態やドキ
ュメントデータの種別などに応じて抽出する必要があ
る。以下、各サーバ毎にサマリー情報の抽出の手法につ
いて説明する。
【0035】まず、WWWサーバ100について説明す
る。WWWサーバ100では、各HTMLデータのファ
イルはディレクトリで階層に分類されて収容されてお
り、或るディレクトリ以下に集められている。
【0036】図3は図1のWWWサーバ100において
抽出されるサマリー情報の一例を示す説明図であり、図
4は図3のサマリー情報の基になったHTMLデータの
一例を示す説明図である。
【0037】図4に示すように、HTMLデータは、タ
グと呼ばれる、前後を<>で囲まれたマークで文書構造が
規定されており、例えば、タイトル(「BB報告書」)
は<TITLE>BB報告書</TITLE>という具合に記述される
ので、特定のタグでマークアップされている文字列を抜
き出すような簡単なプログラムを用いることよって、図
3に示すサマリー情報のうち、「タイトル」については
容易に得ることができる。
【0038】また、図3に示すサマリー情報のうち、
「作成年月日」については、オペレーティングシステム
(OS)におけるファイル管理システムが管理している
ファイルのタイムスタンプから得ることができ、「作成
者」についても同じくファイルの所有者名から得ること
ができる。
【0039】さらに、図3に示すサマリー情報のうち、
「データ種別」に関しては、ファイルの拡張子から得る
方法や、ファイルの内容を読み出して自動判定する方法
などがある。また、「キーワード」については、本文中
よりキーワードとなり得る文字列を抽出することによっ
て得ることができるが、このようなキーワードの抽出
は、例えば、JUMAN(京都大学工学部長尾研究室、
奈良先端科学技術大学院大学松本研究室による解析シス
テム)のような日本語形態素解析システムを利用するこ
とによって実現できる。
【0040】次に、データベースサーバ200について
説明する。ドキュメントデータベース220ではドキュ
メントデータを格納する構造が定義されており、ドキュ
メントデータベース220を構成する各ドキュメントデ
ータはデータベース管理システムによって管理されてい
るので、SQL(構造化照会言語;Structured QueryLa
nguage)等を利用して簡単なプログラムにより、サマリ
ー情報を抽出することができる。
【0041】図5は図1のデータベースサーバ200に
おいて抽出されるサマリー情報の一例を示す説明図であ
り、図6は図5のサマリー情報を抽出する際に用いるS
QLプログラムの一例を示す説明図である。
【0042】例えば、図5に示すようなサマリー情報を
抽出する場合、「タイトル」,「作成年月日」,「作成
者」,「キーワード」をドキュメントデータから抽出す
るために必要なSQLプログラムは図6に示す如くにな
る。従って、このようなSQLプログラムを検索エージ
ェントプログラム215に備えさせて、CPU230に
よって、このプログラムを、ドキュメントデータベース
220に格納されている各ドキュメントデータに対して
実行させることにより、各ドキュメントデータについて
それぞれサマリー情報を抽出することができる。
【0043】次に、ファイルサーバ300について説明
する。ファイルサーバ300に格納されているドキュメ
ントデータのように、単にファイルシステム上に作成さ
れたファイルとして格納されているだけであって、特に
データベースとして運用されていなくても、それら格納
されている各ドキュメントデータからサマリー情報を抽
出し、それらサマリー情報を基に各ファイルにアクセス
することができれば、データベースとして十分機能する
ようになる。
【0044】このようなファイルサーバ300に格納さ
れているドキュメントデータとしては、定型のフォーマ
ットを持ったテキストデータの他、定型のフォーマット
を持たないテキストデータやバイナリデータなどがあ
る。そこで、まず、定型のフォーマットからサマリー情
報を抽出する手法について説明する。
【0045】図7は定型のフォーマットを持ったテキス
トデータの一例を示す説明図であり、図8は図7のテキ
ストデータから抽出されたサマリー情報の一例を示す説
明図である。
【0046】図7に示すような定型のフォーマットを持
ったテキストデータに対しては、例えば、キーワードと
なる単語や文書中の行数などを利用して必要な情報を抽
出するプログラムを用いることによって、容易に、図8
に示すようなサマリー情報を抽出することができる。
【0047】次に、定型のフォーマットを持たないテキ
ストデータやバイナリデータなどからサマリー情報を抽
出する手法について説明する。このようなデータからサ
マリー情報を抽出する場合、例えば、オペレーティング
システムにおけるファイル管理システムによって管理さ
れているファイル名を「タイトル」、日付を「作成年月
日」、所有者を「作成者」としてそれぞれ得るように
し、さらに、ファイルの拡張子から「データ種別」を得
るようにする。また、テキストデータに限るならば、W
WWサーバ100の説明において記述した方法によって
キーワードの抽出を行なうことも可能である。
【0048】図9はバイナリデータから抽出されたサマ
リー情報の一例を示す説明図である。図9では、バイナ
リデータのため、キーワードの抽出ができなかったの
で、「キーワード」の項目は空白となっている。
【0049】さて、以上のようにしてWWWサーバ10
0、データベースサーバ200及びファイルサーバ30
0において抽出されたサマリー情報が、前述したよう
に、通信回線610,620,630を介して検索サー
バ500に転送されると、検索サーバ500では、検索
サーバプログラム511が起動し、CPU530がその
プログラムに従って、次のような処理を行なう。即ち、
転送された複数のサマリー情報をネットワークインタフ
ェース540より受け取って、ドキュメント索引情報5
20として順次格納する。具体的には、ドキュメント索
引情報520は、リレーショナルデータベース等の一般
的なデータべースで構築され、検索サーバプログラム5
11とのやり取りはSQL等で行なうことができる。
【0050】図10は図1の検索サーバ500に格納さ
れているドキュメント索引情報520の一例を示す説明
図である。ドキュメント索引情報520は、図10に示
すように、WWWサーバ100、データベースサーバ2
00及びファイルサーバ300よりそれぞれ転送されて
きたサマリー情報(図3、図5、図8、図9)を順次蓄
積することによって生成される。
【0051】次に、検索者が目的とするドキュメントデ
ータを検索する場合は、クライアント400において、
クライアントプログラム411が起動して、CPU43
0が次のような処理を行なう。即ち、検索者が、検索し
たいドキュメントデータのタイトル、作成者、作成年月
日などの書誌情報の一部やキーワードなどを、検索条件
としてクライアント400に入力すると、CPU430
は、検索要求と検索条件をネットワークインタフェース
440より通信回線640を介して検索サーバ500に
転送する。
【0052】検索サーバ500では、CPU530が、
検索要求をネットワークインタフェース540より受け
取ると、格納しているドキュメント索引情報520の中
から検索条件を満たすサマリー情報を抽出する。そし
て、その抽出結果をクライアント400に送信する。検
索条件を満たすサマリー情報が複数存在する場合には、
一般のデータベースにおいて見られるような絞り込みや
ランキング付けなどを行なっても良い。
【0053】クライアント400では、CPU430が
その検索結果を受信すると、それを検索者に対して提示
し、それにより、検索者は目的とするドキュメントデー
タの格納場所や、その他必要な情報を知ることができ
る。
【0054】次に、検索者が検索したドキュメントデー
タの取得を希望すると、CPU430はそのドキュメン
トデータの格納されているサーバにアクセスを開始す
る。例えば、そのサーバがデータベースサーバ200で
あるとすると、データベースサーバ200では、クライ
アント400からアクセスがあると、データベースサー
バプログラム211が起動し、CPU230はそのプロ
グラムに従って、ドキュメントデータベース220の中
から該当するドキュメントデータを読み出して、クライ
アント400に転送する。このようにして転送されたド
キュメントデータを、クライアント400のCPU43
0が受信することによって、検索者は目的とするドキュ
メントデータを得ることができる。
【0055】なお、クライアント400において、検索
結果を検索者に対して提示する際に、WWWサーバとそ
のブラウザの組合せで行なわれているようなハイパーリ
ンクを使用するようにすれば、検索者はドキュメントデ
ータの格納されているサーバがどこにあるかを意識する
ことなく、目的とするドキュメントデータを得ることが
できる。また、目的とするドキュメントデータの格納場
所がWWWサーバでない場合には、テキストデータをH
TMLデータに変換してWWWのブラウザに表示させた
り、画像データ等の場合は表示のための専用のプログラ
ムを起動させたりすることにより、容易に表示を行なう
ことができる。
【0056】以上説明したように、本実施例では、各ド
キュメントサーバに、それぞれ、格納しているドキュメ
ントデータに対する管理形態やドキュメントデータの種
別などに応じた検索エージェントプログラムを備えさ
せ、各ドキュメントサーバにおいて、各々のCPUが各
々の検索エージェントプログラムに従って処理をするこ
とにより、データ管理形態やデータ種別に応じた抽出手
法を用いて、格納するドキュメントデータからサマリー
情報を抽出することができる。そして、抽出された各サ
マリー情報は通信回線を介して検索サーバ500に転送
され、検索サーバ500において、それらサマリー情報
に基づいてドキュメント索引情報520を生成したり、
更新したりする。従って、このドキュメント索引情報5
20には、WWWサーバ100以外のデータベースサー
バ200やファイルサーバ300にに格納されているド
キュメントデータのサマリー情報も含まれるため、WW
Wサーバ以外に格納されているドキュメントデータにつ
いても検索対象とすることができることになり、従来に
比較して検索対象を広げることができる。
【0057】また、検索エージェントプログラムは、W
WW、一般データベース、ファイルシステムのみなら
ず、どのようなシステムに対しても、ドキュメントデー
タからサマリー情報を抽出することができる仕組みが作
成できれば適用することができる。例えば、或るデータ
ベースサーバに、新しいタイプのデータベースが構築さ
れたとしても、そのデータベースサーバのデータベース
サーバプログラムとのプロトコルが同じ検索エージェン
トプログラムを作成することにより、拡張が可能であ
る。
【0058】なお、本発明は上記した実施例や実施形態
に限られるものではなく、その要旨を逸脱しない範囲に
おいて種々の態様にて実施することが可能である。
【0059】上記した実施例においては、ネットワーク
に接続されているドキュメントサーバは、WWWサーバ
100、データベースサーバ200及びファイルサーバ
300の3つであったが、2つであっても良いし、4つ
以上であっても良い。同じく、クライアントもネットワ
ーク上にクライアント400が1つあるだけであり、検
索サーバも検索サーバ500が1つだけであったが、こ
れらについても、2つ以上あって差し支えない。
【0060】また、上記した実施例では、検索サーバ5
00はドキュメントサーバと独立した構成となっている
が、一つのドキュメントサーバの中に、検索サーバの機
能を持たせて、そのドキュメントサーバに検索サーバを
兼ねさせるようにしても良い。
【図面の簡単な説明】
【図1】本発明の一実施例としてドキュメントデータ検
索システムの概要を示す説明図である。
【図2】図1のドキュメントデータ検索システムの詳細
な構成を示すブロック図である。
【図3】図1のWWWサーバ100において抽出される
サマリー情報の一例を示す説明図である。
【図4】図3のサマリー情報の基になったHTMLデー
タの一例を示す説明図である。
【図5】図1のデータベースサーバ200において抽出
されるサマリー情報の一例を示す説明図である。
【図6】図5のサマリー情報を抽出する際に用いるSQ
Lプログラムの一例を示す説明図である。
【図7】定型のフォーマットを持ったテキストデータの
一例を示す説明図である。
【図8】図7のテキストデータから抽出されたサマリー
情報の一例を示す説明図である。
【図9】バイナリデータから抽出されたサマリー情報の
一例を示す説明図である。
【図10】図1の検索サーバ500に格納されているド
キュメント索引情報520の一例を示す説明図である。
【符号の説明】
100…WWWサーバ 110…プログラムメモリ 111…WWWサーバプログラム 115…検索エージェントプログラム 120…HTMLデータファイル群 130…CPU 140…ネットワークインタフェース 200…データベースサーバ 210…プログラムメモリ 211…データベースサーバプログラム 215…検索エージェントプログラム 220…ドキュメントデータベース 230…CPU 240…ネットワークインタフェース 300…ファイルサーバ 310…プログラムメモリ 311…ファイル管理プログラム 315…検索エージェントプログラム 320…ドキュメントデータファイル群 330…CPU 340…ネットワークインタフェース 400…クライアント 410…プログラムメモリ 411…クライアントプログラム 430…CPU 440…ネットワークインタフェース 500…検索サーバ 510…プログラムメモリ 511…検索サーバプログラム 520…ドキュメント索引情報 530…CPU 540…ネットワークインタフェース 610〜670…通信回線

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 クライアントと、 複数のドキュメントデータをそれぞれ格納し、前記クラ
    イアントからの要求に応じて所望のドキュメントデータ
    をそれぞれ提供すると共に、格納する前記ドキュメント
    データに対するデータ管理形態が互いに異なる2つ以上
    のドキュメントサーバと、 各ドキュメントデータのサマリー情報によって構成され
    るドキュメント索引情報を格納し、前記クライアントか
    らの要求に応じて、前記ドキュメント索引情報を参照し
    て、所望のドキュメントデータの格納場所を検索し、検
    索結果を提供する検索サーバと、 を少なくとも備え、相互に通信回線を介して接続して成
    るドキュメントデータ検索システムであって、 各ドキュメントサーバは、それぞれ、 当該ドキュメントサーバにおける前記データ管理形態に
    応じた抽出手法を用いて、格納する前記ドキュメントデ
    ータから該ドキュメントデータのサマリー情報を抽出す
    る抽出手段と、 抽出した前記サマリー情報を前記通信回線を介して前記
    検索サーバに転送する転送手段と、 を備え、 前記検索サーバは、 転送された前記サマリー情報に基づいて前記ドキュメン
    ト索引情報を生成または更新する手段を備えるドキュメ
    ントデータ検索システム。
  2. 【請求項2】 請求項1に記載のドキュメントデータ検
    索システムにおいて、 前記2つ以上のドキュメントサーバのうちの少なくとも
    一つのドキュメントサーバは、格納する前記ドキュメン
    トデータに対し、ファイル単位でアクセスする第1のデ
    ータ管理形態にて管理を行ない、 他の少なくとも一つのドキュメントサーバは、格納する
    前記ドキュメントデータに対し、ファイルの細部につい
    てアクセスすることができる第2のデータ管理形態にて
    管理を行なうことを特徴とするドキュメントデータ検索
    システム。
  3. 【請求項3】 請求項2に記載のドキュメントデータ検
    索システムにおいて、 前記第2のデータ管理形態は、データベース管理システ
    ムによるデータ管理形態であることを特徴とするドキュ
    メントデータ検索システム。
  4. 【請求項4】 クライアントと、 複数のドキュメントデータをそれぞれ格納し、前記クラ
    イアントからの要求に応じて所望のドキュメントデータ
    をそれぞれ提供すると共に、格納する前記ドキュメント
    データのデータ種別が互いに異なる2つ以上のドキュメ
    ントサーバと、 各ドキュメントデータのサマリー情報によって構成され
    るドキュメント索引情報を格納し、前記クライアントか
    らの要求に応じて、前記ドキュメント索引情報を参照し
    て、所望のドキュメントデータの格納場所を検索し、検
    索結果を提供する検索サーバと、 を少なくとも備え、相互に通信回線を介して接続して成
    るドキュメントデータ検索システムであって、 各ドキュメントサーバは、それぞれ、 格納する前記ドキュメントデータの前記データ種別に応
    じた抽出手法を用いて、前記ドキュメントデータから該
    ドキュメントデータのサマリー情報を抽出する抽出手段
    と、 抽出した前記サマリー情報を前記通信回線を介して前記
    検索サーバに転送する転送手段と、 を備え、 前記検索サーバは、 転送された前記サマリー情報に基づいて前記ドキュメン
    ト索引情報を生成または更新する手段を備えるドキュメ
    ントデータ検索システム。
  5. 【請求項5】 請求項4に記載のドキュメントデータ検
    索システムにおいて、 前記2つ以上のドキュメントサーバのうちの少なくとも
    一つのドキュメントサーバは、格納する前記ドキュメン
    トデータが構造化文書のドキュメントデータであり、 他の少なくとも一つのドキュメントサーバは、格納する
    前記ドキュメントデータが前記構造化文書以外のドキュ
    メントデータであることを特徴とするドキュメントデー
    タ検索システム。
JP8048356A 1996-02-09 1996-02-09 ドキュメントデータ検索システム Pending JPH09218880A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8048356A JPH09218880A (ja) 1996-02-09 1996-02-09 ドキュメントデータ検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8048356A JPH09218880A (ja) 1996-02-09 1996-02-09 ドキュメントデータ検索システム

Publications (1)

Publication Number Publication Date
JPH09218880A true JPH09218880A (ja) 1997-08-19

Family

ID=12801087

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8048356A Pending JPH09218880A (ja) 1996-02-09 1996-02-09 ドキュメントデータ検索システム

Country Status (1)

Country Link
JP (1) JPH09218880A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10171723A (ja) * 1996-10-09 1998-06-26 Fujitsu Ltd パソコン通信連携システムおよび記録媒体
JPH11136394A (ja) * 1997-08-26 1999-05-21 Casio Comput Co Ltd データ出力システムおよびデータ出力方法
JP2000276387A (ja) * 1999-03-23 2000-10-06 Toshiba Corp メタデータ登録方法および装置、データサーバ装置、並びにメタデータ登録用プログラムを記憶した記憶媒体
JP2001501003A (ja) * 1996-09-20 2001-01-23 ネトボト インコーポレイテッド ネットワーク情報にアクセスするための方法とシステム
JP2003518293A (ja) * 1999-12-20 2003-06-03 ユアアミーゴ・プロプライエタリー・リミテッド インデクシングシステムおよび方法
JP2006318244A (ja) * 2005-05-13 2006-11-24 Hitachi Electronics Service Co Ltd 注意事項チェックリスト作成システム、管理サーバ及び注意事項チェックリスト作成方法
JP2007329933A (ja) * 2000-12-08 2007-12-20 Fujitsu Ltd 装置、方法、記録媒体およびプログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001501003A (ja) * 1996-09-20 2001-01-23 ネトボト インコーポレイテッド ネットワーク情報にアクセスするための方法とシステム
JPH10171723A (ja) * 1996-10-09 1998-06-26 Fujitsu Ltd パソコン通信連携システムおよび記録媒体
JPH11136394A (ja) * 1997-08-26 1999-05-21 Casio Comput Co Ltd データ出力システムおよびデータ出力方法
JP2000276387A (ja) * 1999-03-23 2000-10-06 Toshiba Corp メタデータ登録方法および装置、データサーバ装置、並びにメタデータ登録用プログラムを記憶した記憶媒体
JP2003518293A (ja) * 1999-12-20 2003-06-03 ユアアミーゴ・プロプライエタリー・リミテッド インデクシングシステムおよび方法
US7987165B2 (en) 1999-12-20 2011-07-26 Youramigo Limited Indexing system and method
JP4873813B2 (ja) * 1999-12-20 2012-02-08 ユアアミーゴ・リミテッド インデクシングシステムおよび方法
JP2007329933A (ja) * 2000-12-08 2007-12-20 Fujitsu Ltd 装置、方法、記録媒体およびプログラム
JP2006318244A (ja) * 2005-05-13 2006-11-24 Hitachi Electronics Service Co Ltd 注意事項チェックリスト作成システム、管理サーバ及び注意事項チェックリスト作成方法

Similar Documents

Publication Publication Date Title
US6094649A (en) Keyword searches of structured databases
JP4318741B2 (ja) データベースシステム、データベース検索方法及び記録媒体
JP4739455B2 (ja) 文書管理方法
US8200704B2 (en) Searching structured data
KR100745483B1 (ko) 데이터 마이닝 시스템 및 데이터 저장 방법
Burkowski Retrieval activities in a database consisting of heterogeneous collections of structured text
US7305613B2 (en) Indexing structured documents
US7499965B1 (en) Software agent for locating and analyzing virtual communities on the world wide web
US20020099685A1 (en) Document retrieval system; method of document retrieval; and search server
US20040215600A1 (en) File system with access and retrieval of XML documents
US20030065663A1 (en) Computer-implemented knowledge repository interface system and method
JPH11102376A (ja) 検索照会に関係のあるデータベースから抽出されたテキストを自動表示する方法および装置
JP2002351873A (ja) メタデータ管理システムおよび検索方法
KR100359233B1 (ko) 웹 정보 추출 방법 및 시스템
JPH11213014A (ja) データベースシステム、データベース検索方法及び記録媒体
Badawi et al. Maintaining the search engine freshness using mobile agent
JPH09204442A (ja) ドキュメントデータ検索システム
JPH09218880A (ja) ドキュメントデータ検索システム
US8065605B2 (en) Indexing structured documents
KR100303153B1 (ko) 에이치티엠엘(html)문서저장및검색시스템
US20030046276A1 (en) System and method for modular data search with database text extenders
JP3786233B2 (ja) 情報検索方法および情報検索システム
JP2000163307A (ja) データベース処理方法及びその実施装置並びにその処理プログラムを記録した媒体
JPH11232300A (ja) ブラウジングクライアントサーバーシステム
JP3999093B2 (ja) 構造化文書検索方法及び構造化文書検索システム