JPH09218880A

JPH09218880A - ドキュメントデータ検索システム

Info

Publication number: JPH09218880A
Application number: JP8048356A
Authority: JP
Inventors: Hisaaki Kadoma; 央章角間; Daiki Kurihara; 大樹栗原
Original assignee: Dainippon Screen Manufacturing Co Ltd
Current assignee: Dainippon Screen Manufacturing Co Ltd
Priority date: 1996-02-09
Filing date: 1996-02-09
Publication date: 1997-08-19

Abstract

(57)【要約】【課題】ＷＷＷサーバ以外に格納されているドキュメ
ントデータについても検索対象とすることができるよう
にする。【解決手段】ＷＷＷサーバ１００、データベースサー
バ２００及びファイルサーバ３００では、それぞれ、検
索エージェントプログラム１１５，２１５，３１５が起
動すると、ＣＰＵ１３０，２３０，３３０はそれらプロ
グラムに従って、処理を行なう。ＣＰＵ１３０，２３
０，３３０は格納しているドキュメントデータから書誌
情報やキーワードやデータ格納場所などを含むサマリー
情報を抽出する。このとき、ＣＰＵは格納しているドキ
ュメントデータに対する管理形態やドキュメントデータ
の種別などに応じて抽出する。ＣＰＵは抽出したサマリ
ー情報をネットワークインタフェース１４０，２４０，
３４０より通信回線６１０，６２０，６３０を介して検
索サーバ５００に転送する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、多数のドキュメン
トデータを２つ以上のドキュメントサーバに分散して格
納している場合に、各ドキュメントサーバに通信回線を
介して接続される検索サーバによって、所望のドキュメ
ントデータの格納場所をドキュメント索引情報に基づい
て検索するドキュメントデータ検索システムに関するも
のである。

【０００２】

【従来の技術】ドキュメントデータを効率よく検索する
ためには、すべてのドキュメントデータを１つのドキュ
メントサーバに格納し、集中的に管理するのがよい。し
かし、ドキュメントデータを扱う組織の規模が大きくな
ると、大量のドキュメントデータを扱わなければならな
くなるため、１つのドキュメントサーバだけでは管理し
きれず、それゆえ、大量のドキュメントデータを複数の
ドキュメントサーバなどに分散して格納する必要があ
る。

【０００３】このとき、或るドキュメントデータを必要
とするユーザ（検索者）が、そのドキュメントデータが
どのドキュメントサーバに格納されているかを知らない
場合、検索者はクライアントを使って、書誌情報やキー
ワードなどに基づき、ドキュメントサーバ毎に、目的の
ドキュメントデータが格納されているか否かを検索しな
ければならない。これは検索者にとって大変負担が大き
い。

【０００４】そこで、この問題を解決するために、ドキ
ュメント索引情報を格納した検索サーバを用いた検索シ
ステムが提案されている。このような検索システムとし
ては、例えば、ＷＷＷ（World Wide Web）により提供さ
れるドキュメントデータを対象とした検索システムがあ
る。ＷＷＷは、ハイパーテキスト形式のドキュメントデ
ータを提供する仕組みである。ＷＷＷでは、このような
ハイパーテキスト形式のドキュメントデータをＷＷＷサ
ーバに格納しており、一つのドキュメントデータから他
のドキュメントデータへはリンクを張ることができる。
検索者は、そのリンクをたどることによって、目的とす
るドキュメントデータを得る。しかし、ＷＷＷでは、こ
のようなリンクをたどること以外には、ドキュメントデ
ータを検索する手段が提供されていない。そこで、これ
を補うために、前述した検索サーバを用いた検索システ
ムが種々提案されている。例えば、「情報処理学会、第
２回、テクニカルコミュニケーションシンポジウム予稿
集」（’９５．７）の第２４頁〜第３１頁に掲載されて
いる「ＳＧＭＬ文書管理システム実現における課題」
（井上直樹：ＮＴＴデータ通信株式会社）や、或いは
「情報処理学会、第５１回、全国大会」（’９５．９）
の論文集の１−１６９〜１７０に掲載されている「ＷＷ
Ｗにおける広域検索システム」（田村健人，村岡洋一：
早稲田大学理工学部）においては、ＷＷＷを対象とした
実際の検索サーバの例が開示されている。

【０００５】この検索サーバは、ネットワーク上の全て
のＷＷＷサーバに対して、自ら定期的にアクセスして、
各ＷＷＷサーバに格納されている全ドキュメントデータ
（全ページの全テキスト）をそれぞれ取得して、その取
得したデータを基にドキュメント索引情報を生成し、そ
のドキュメント索引情報を格納している。そして、検索
者がクライアントを使って、その検索サーバにアクセス
すると、検索サーバは格納しているドキュメント索引情
報を用いて、目的とするドキュメントデータの格納場所
を検索し、その検索結果を検索者に知らせる。

【０００６】

【発明が解決しようとする課題】このような従来におけ
る検索サーバを用いた検索システムにおいては、次のよ
うな問題があった。

【０００７】検索サーバは、ネットワーク上のＷＷＷ
サーバのみにアクセスして、それらＷＷＷサーバに格納
されているドキュメントデータを取得し、それらデータ
を基にドキュメント索引情報を生成している。このた
め、この検索システムにおいては、ＷＷＷサーバに格納
されているドキュメントデータだけしか検索対象になら
ない。従って、ＷＷＷサーバ以外の一般的なデータベー
スサーバなどに格納されているドキュメントデータを、
検索者が検索しようとしても検索することはできない。

【０００８】ＷＷＷにおいては、ユーザがクライアン
トを使って或るＷＷＷサーバにアクセスした上で、その
ＷＷＷサーバのゲートウェイの機能を使って、そのＷＷ
Ｗサーバを介してさらに他のデータベースサーバにアク
セスすることも可能である。しかし、検索サーバは、こ
のようなゲートウェイにより提供されるデータベースサ
ーバに対してはアクセスすることができないので、その
ようなデータベースサーバに格納されているドキュメン
トデータも検索対象にはならない。

【０００９】従って、本発明の目的は、上記した従来技
術の問題点を解決し、ＷＷＷサーバ以外に格納されてい
るドキュメントデータについても検索対象とすることが
できるドキュメントデータ検索システムを提供すること
にある。

【００１０】

【課題を解決するための手段およびその作用・効果】上
記した目的の少なくとも一部を達成するために、第１の
発明は、クライアントと、複数のドキュメントデータを
それぞれ格納し、前記クライアントからの要求に応じて
所望のドキュメントデータをそれぞれ提供すると共に、
格納する前記ドキュメントデータに対するデータ管理形
態が互いに異なる２つ以上のドキュメントサーバと、各
ドキュメントデータのサマリー情報によって構成される
ドキュメント索引情報を格納し、前記クライアントから
の要求に応じて、前記ドキュメント索引情報を参照し
て、所望のドキュメントデータの格納場所を検索し、検
索結果を提供する検索サーバと、を少なくとも備え、相
互に通信回線を介して接続して成るドキュメントデータ
検索システムであって、各ドキュメントサーバは、それ
ぞれ、当該ドキュメントサーバにおける前記データ管理
形態に応じた抽出手法を用いて、格納する前記ドキュメ
ントデータから該ドキュメントデータのサマリー情報を
抽出する抽出手段と、抽出した前記サマリー情報を前記
通信回線を介して前記検索サーバに転送する転送手段
と、を備え、前記検索サーバは、転送された前記サマリ
ー情報に基づいて前記ドキュメント索引情報を生成また
は更新する手段を備えることを要旨とする。

【００１１】ここで、ドキュメントデータとしては、テ
キストデータ（ＨＴＭＬデータなども含む）や、画像デ
ータや音声データなどのバイナリデータなどが挙げられ
る。また、ドキュメントデータのサマリー情報として
は、タイトルや作成者や作成年月日などの書誌情報や、
キーワードや、データ種別や、ドキュメントデータの格
納場所などが挙げられる。

【００１２】このように、第１の発明では、格納するド
キュメントデータに対するデータ管理形態が互いに異な
る２つ以上のドキュメントサーバを備えている。しか
も、各ドキュメントサーバは、それぞれ、抽出手段によ
って、そのドキュメントサーバにおけるデータ管理形態
に応じた抽出手法を用いて、ドキュメントデータからサ
マリー情報を抽出し、転送手段によって、そのサマリー
情報を通信回線を介して検索サーバに転送する。一方、
検索サーバでは、転送されたサマリー情報に基づいてド
キュメント索引情報を生成したり、更新したりする。

【００１３】従って、ＷＷＷサーバとはデータ管理形態
の異なるドキュメントサーバに格納されたドキュメント
データであっても、そのドキュメントサーバにおけるデ
ータ管理形態に応じた抽出手法によってサマリー情報が
抽出されて、検索サーバに転送され、検索サーバにおい
て、そのサマリー情報に基づきドキュメント索引情報が
生成または更新される。よって、ＷＷＷサーバ以外に格
納されているドキュメントデータについても検索対象と
することができることになる。

【００１４】第１の発明のドキュメントデータ検索シス
テムにおいて、前記２つ以上のドキュメントサーバのう
ちの少なくとも一つのドキュメントサーバは、格納する
前記ドキュメントデータに対し、ファイル単位でアクセ
スする第１のデータ管理形態にて管理を行ない、他の少
なくとも一つのドキュメントサーバは、格納する前記ド
キュメントデータに対し、ファイルの細部についてアク
セスすることができる第２のデータ管理形態にて管理を
行なうことが好ましい。

【００１５】またさらに、前記第２のデータ管理形態
は、データベース管理システムによるデータ管理形態で
あることが好ましい。

【００１６】このように、２つ以上のドキュメントサー
バのうち、一つはＷＷＷサーバのような、格納するドキ
ュメントデータに対しファイル単位でアクセスするデー
タ管理形態にて管理を行なっているドキュメントサーバ
であっても、他の一つは例えばデータベースサーバのよ
うな、格納するドキュメントデータに対しファイルの細
部についてアクセスすることができるデータ管理形態に
て管理を行なっているドキュメントサーバとすることが
できる。データベースサーバの場合は、データベース管
理システムよってドキュメントデータの管理が行なわれ
る。

【００１７】第２の発明は、クライアントと、複数のド
キュメントデータをそれぞれ格納し、前記クライアント
からの要求に応じて所望のドキュメントデータをそれぞ
れ提供すると共に、格納する前記ドキュメントデータの
データ種別が互いに異なる２つ以上のドキュメントサー
バと、各ドキュメントデータのサマリー情報によって構
成されるドキュメント索引情報を格納し、前記クライア
ントからの要求に応じて、前記ドキュメント索引情報を
参照して、所望のドキュメントデータの格納場所を検索
し、検索結果を提供する検索サーバと、を少なくとも備
え、相互に通信回線を介して接続して成るドキュメント
データ検索システムであって、各ドキュメントサーバ
は、それぞれ、格納する前記ドキュメントデータの前記
データ種別に応じた抽出手法を用いて、前記ドキュメン
トデータから該ドキュメントデータのサマリー情報を抽
出する抽出手段と、抽出した前記サマリー情報を前記通
信回線を介して前記検索サーバに転送する転送手段と、
を備え、前記検索サーバは、転送された前記サマリー情
報に基づいて前記ドキュメント索引情報を生成または更
新する手段を備えることを要旨とする。

【００１８】このように、第２の発明では、格納するド
キュメントデータのデータ種別が互いに異なる２つ以上
のドキュメントサーバを備えている。各ドキュメントサ
ーバでは、それぞれ、抽出手段によって、そのドキュメ
ントデータのデータ種別に応じた抽出手法を用いて、ド
キュメントデータからサマリー情報を抽出し、転送手段
によって、そのサマリー情報を通信回線を介して検索サ
ーバに転送する。そして、検索サーバでは、転送された
サマリー情報に基づいてドキュメント索引情報を生成し
たり、更新したりする。

【００１９】従って、ＷＷＷサーバとは格納するドキュ
メントデータのデータ種別の異なるドキュメントサーバ
であっても、そのドキュメントサーバに格納されたドキ
ュメントデータのデータ種別に応じた抽出手法によって
サマリー情報を抽出し、検索サーバに転送する。検索サ
ーバでは、そのサマリー情報に基づいてドキュメント索
引情報を生成または更新する。よって、ＷＷＷサーバ以
外に格納されているドキュメントデータについても検索
対象とすることができることになる。

【００２０】第２の発明のドキュメントデータ検索シス
テムにおいて、前記２つ以上のドキュメントサーバのう
ちの少なくとも一つのドキュメントサーバは、格納する
前記ドキュメントデータが構造化文書のドキュメントデ
ータであり、他の少なくとも一つのドキュメントサーバ
は、格納する前記ドキュメントデータが前記構造化文書
以外のドキュメントデータであることが好ましい。

【００２１】このように、２つ以上のドキュメントサー
バのうち、一つはＷＷＷサーバのような、構造化文書の
ドキュメントデータを格納するドキュメントサーバであ
っても、他の一つは例えば通常のファイルサーバのよう
な、構造化文書以外のドキュメントデータをも格納する
ドキュメントサーバとすることができる。

【００２２】

【発明の実施の形態】以下、本発明の実施の形態を実施
例に基づいて説明する。図１は本発明の一実施例として
ドキュメントデータ検索システムの概要を示す説明図で
あり、図２は図１のドキュメントデータ検索システムの
詳細な構成を示すブロック図である。

【００２３】図１または図２に示すように、このドキュ
メントデータ検索システムは、ＷＷＷサーバワークステ
ーション１００と、データベースサーバワークステーシ
ョン２００と、ファイルサーバワークステーション３０
０と、クライアントワークステーション４００と、検索
サーバワークステーション５００と、を備えており、そ
れらは互いにネットワーク上の通信回線６１０〜６７０
によって接続されている。

【００２４】ＷＷＷサーバワークステーション（以下、
ＷＷＷサーバと略す。）１００は、図２に示すように、
各種プログラムを記憶するプログラムメモリ１１０と、
複数のＨＴＭＬデータによって構成されるＨＴＭＬデー
タファイル群１２０と、プログラムメモリ１１０内のプ
ログラムに従って種々の処理動作を行なうＣＰＵ１３０
と、ネットワークを介して他のワークステーションと通
信を行なうためのネットワークインタフェース１４０を
備えている。ここで、ＨＴＭＬデータとは、ＨＴＭＬ
（Hyper Text Mark-up Language）という記述言語で書
かれたドキュメントデータを言う。各ＨＴＭＬデータは
ハードディスクなどの記憶媒体にそれぞれファイルとし
て格納されていて、ＨＴＭＬデータファイル群１２０を
構成している。なお、各ＨＴＭＬデータは、オペレーテ
ィングシステムにおけるファイル管理システムによって
管理されている。従って、各ＨＴＭＬデータはファイル
単位でのみアクセスすることができる。

【００２５】プログラムメモリ１１０には、プログラム
として、格納するＨＴＭＬデータを参照するためのＷＷ
Ｗサーバプログラム１１１と、格納するＨＴＭＬデータ
からサマリー情報を抽出し、検索サーバワークステーシ
ョン５００に転送するための検索エージェントプログラ
ム１１５が記憶されている。

【００２６】データベースサーバワークステーション
（以下、データベースサーバと略す。）２００は、図２
に示すように、プログラムメモリ２１０と、複数のドキ
ュメントデータによって構成されるドキュメントデータ
ベース２２０と、ＣＰＵ２３０と、ネットワークインタ
フェース２４０を備えている。ここで、ドキュメントデ
ータベース２２０は、例えば、複数のドキュメントデー
タファイルによって構成され、さらに、各ドキュメント
データファイルは複数のドキュメントデータによって構
成されている。また、各ドキュメントデータは、それぞ
れ、本文の他、タイトルや、作成者名などによって構成
されている。なお、ドキュメントデータベース２２０を
構成する各ドキュメントデータは、データベース管理シ
ステム（Data Base Management System）によって管理
されている。従って、ファイルの細部についてドキュメ
ントデータにアクセスすることができる。

【００２７】プログラムメモリ２１０には、プログラム
として、格納するドキュメントデータを参照したり、更
新したりするためのデータベースサーバプログラム２１
１や、格納するドキュメントデータからサマリー情報を
抽出し、検索サーバワークステーション５００に転送す
るための検索エージェントプログラム２１５が記憶され
ている。

【００２８】ファイルサーバワークステーション（以
下、ファイルサーバと略す。）３００は、図２に示すよ
うに、プログラムメモリ３１０と、複数のドキュメント
データによって構成されるドキュメントデータファイル
群３２０と、ＣＰＵ３３０と、ネットワークインタフェ
ース３４０を備えている。ここで、各ドキュメントデー
タはハードディスクなどの記憶媒体にそれぞれファイル
として格納されていて、ドキュメントデータファイル群
３２０を構成している。なお、各ドキュメントデータ
は、オペレーティングシステムにおけるファイル管理シ
ステムによって管理されているため、各ドキュメントデ
ータはファイル単位でのみアクセスすることができる。

【００２９】プログラムメモリ３１０には、プログラム
として、格納するドキュメントデータを参照するための
ＯＳのファイル管理プログラム３１１と、格納するドキ
ュメントデータからサマリー情報を抽出し、検索サーバ
ワークステーション５００に転送するための検索エージ
ェントプログラム３１５が記憶されている。

【００３０】クライアントワークステーション（以下、
クライアントと略す。）４００は、図２に示すように、
プログラムメモリ４１０と、ＣＰＵ４３０と、ネットワ
ークインタフェース４４０を備えている。プログラムメ
モリ４１０には、プログラムとして、ＷＷＷサーバ１０
０やデータベースサーバ２００やファイルサーバ３００
或いは検索サーバワークステーション５００にアクセス
するためのクライアントプログラム４１１が記憶されて
いる。

【００３１】また、検索サーバワークステーション（以
下、検索サーバと略す。）５００は、図２に示すよう
に、プログラムメモリ５１０と、ドキュメント索引情報
５２０と、ＣＰＵ５３０と、ネットワークインタフェー
ス５４０を備えている。

【００３２】プログラムメモリ５１０には、プログラム
として、転送されたサマリー情報に基づいてドキュメン
ト索引情報５２０を生成したり、更新したりすると共
に、そのドキュメント索引情報５２０を検索したりする
ための検索サーバプログラム５１１が記憶されている。

【００３３】さて、検索サーバ５００を初めて運用する
場合、ドキュメント索引情報５２０は無の状態であるの
で、ＷＷＷサーバ１００、データベースサーバ２００及
びファイルサーバ３００では、それぞれ、検索エージェ
ントプログラム１１５，２１５，３１５が起動し、ＣＰ
Ｕ１３０，２３０，３３０はそれらプログラムに従っ
て、次のような処理を行なう。即ち、格納している全ド
キュメントデータから、それぞれ、ドキュメントデータ
の書誌情報やキーワードやデータ格納場所などを含むサ
マリー情報を抽出し、その抽出したサマリー情報をネッ
トワークインタフェース１４０，２４０，３４０より通
信回線６１０，６２０，６３０を介して検索サーバ５０
０に転送する。

【００３４】ところで、ＷＷＷサーバ１００、データベ
ースサーバ２００及びファイルサーバ３００では、前述
したように、格納しているドキュメントデータに対する
管理形態が異なると共に、格納しているドキュメントデ
ータの種別も異なっている。従って、各サーバのＣＰＵ
が各検索エージェントプログラム１１５，２１５，３１
５に従ってサマリー情報を抽出する場合、それぞれ、格
納しているドキュメントデータに対する管理形態やドキ
ュメントデータの種別などに応じて抽出する必要があ
る。以下、各サーバ毎にサマリー情報の抽出の手法につ
いて説明する。

【００３５】まず、ＷＷＷサーバ１００について説明す
る。ＷＷＷサーバ１００では、各ＨＴＭＬデータのファ
イルはディレクトリで階層に分類されて収容されてお
り、或るディレクトリ以下に集められている。

【００３６】図３は図１のＷＷＷサーバ１００において
抽出されるサマリー情報の一例を示す説明図であり、図
４は図３のサマリー情報の基になったＨＴＭＬデータの
一例を示す説明図である。

【００３７】図４に示すように、ＨＴＭＬデータは、タ
グと呼ばれる、前後を<>で囲まれたマークで文書構造が
規定されており、例えば、タイトル（「ＢＢ報告書」）
は<TITLE>ＢＢ報告書</TITLE>という具合に記述される
ので、特定のタグでマークアップされている文字列を抜
き出すような簡単なプログラムを用いることよって、図
３に示すサマリー情報のうち、「タイトル」については
容易に得ることができる。

【００３８】また、図３に示すサマリー情報のうち、
「作成年月日」については、オペレーティングシステム
（ＯＳ）におけるファイル管理システムが管理している
ファイルのタイムスタンプから得ることができ、「作成
者」についても同じくファイルの所有者名から得ること
ができる。

【００３９】さらに、図３に示すサマリー情報のうち、
「データ種別」に関しては、ファイルの拡張子から得る
方法や、ファイルの内容を読み出して自動判定する方法
などがある。また、「キーワード」については、本文中
よりキーワードとなり得る文字列を抽出することによっ
て得ることができるが、このようなキーワードの抽出
は、例えば、ＪＵＭＡＮ（京都大学工学部長尾研究室、
奈良先端科学技術大学院大学松本研究室による解析シス
テム）のような日本語形態素解析システムを利用するこ
とによって実現できる。

【００４０】次に、データベースサーバ２００について
説明する。ドキュメントデータベース２２０ではドキュ
メントデータを格納する構造が定義されており、ドキュ
メントデータベース２２０を構成する各ドキュメントデ
ータはデータベース管理システムによって管理されてい
るので、ＳＱＬ（構造化照会言語；Structured QueryLa
nguage）等を利用して簡単なプログラムにより、サマリ
ー情報を抽出することができる。

【００４１】図５は図１のデータベースサーバ２００に
おいて抽出されるサマリー情報の一例を示す説明図であ
り、図６は図５のサマリー情報を抽出する際に用いるＳ
ＱＬプログラムの一例を示す説明図である。

【００４２】例えば、図５に示すようなサマリー情報を
抽出する場合、「タイトル」，「作成年月日」，「作成
者」，「キーワード」をドキュメントデータから抽出す
るために必要なＳＱＬプログラムは図６に示す如くにな
る。従って、このようなＳＱＬプログラムを検索エージ
ェントプログラム２１５に備えさせて、ＣＰＵ２３０に
よって、このプログラムを、ドキュメントデータベース
２２０に格納されている各ドキュメントデータに対して
実行させることにより、各ドキュメントデータについて
それぞれサマリー情報を抽出することができる。

【００４３】次に、ファイルサーバ３００について説明
する。ファイルサーバ３００に格納されているドキュメ
ントデータのように、単にファイルシステム上に作成さ
れたファイルとして格納されているだけであって、特に
データベースとして運用されていなくても、それら格納
されている各ドキュメントデータからサマリー情報を抽
出し、それらサマリー情報を基に各ファイルにアクセス
することができれば、データベースとして十分機能する
ようになる。

【００４４】このようなファイルサーバ３００に格納さ
れているドキュメントデータとしては、定型のフォーマ
ットを持ったテキストデータの他、定型のフォーマット
を持たないテキストデータやバイナリデータなどがあ
る。そこで、まず、定型のフォーマットからサマリー情
報を抽出する手法について説明する。

【００４５】図７は定型のフォーマットを持ったテキス
トデータの一例を示す説明図であり、図８は図７のテキ
ストデータから抽出されたサマリー情報の一例を示す説
明図である。

【００４６】図７に示すような定型のフォーマットを持
ったテキストデータに対しては、例えば、キーワードと
なる単語や文書中の行数などを利用して必要な情報を抽
出するプログラムを用いることによって、容易に、図８
に示すようなサマリー情報を抽出することができる。

【００４７】次に、定型のフォーマットを持たないテキ
ストデータやバイナリデータなどからサマリー情報を抽
出する手法について説明する。このようなデータからサ
マリー情報を抽出する場合、例えば、オペレーティング
システムにおけるファイル管理システムによって管理さ
れているファイル名を「タイトル」、日付を「作成年月
日」、所有者を「作成者」としてそれぞれ得るように
し、さらに、ファイルの拡張子から「データ種別」を得
るようにする。また、テキストデータに限るならば、Ｗ
ＷＷサーバ１００の説明において記述した方法によって
キーワードの抽出を行なうことも可能である。

【００４８】図９はバイナリデータから抽出されたサマ
リー情報の一例を示す説明図である。図９では、バイナ
リデータのため、キーワードの抽出ができなかったの
で、「キーワード」の項目は空白となっている。

【００４９】さて、以上のようにしてＷＷＷサーバ１０
０、データベースサーバ２００及びファイルサーバ３０
０において抽出されたサマリー情報が、前述したよう
に、通信回線６１０，６２０，６３０を介して検索サー
バ５００に転送されると、検索サーバ５００では、検索
サーバプログラム５１１が起動し、ＣＰＵ５３０がその
プログラムに従って、次のような処理を行なう。即ち、
転送された複数のサマリー情報をネットワークインタフ
ェース５４０より受け取って、ドキュメント索引情報５
２０として順次格納する。具体的には、ドキュメント索
引情報５２０は、リレーショナルデータベース等の一般
的なデータべースで構築され、検索サーバプログラム５
１１とのやり取りはＳＱＬ等で行なうことができる。

【００５０】図１０は図１の検索サーバ５００に格納さ
れているドキュメント索引情報５２０の一例を示す説明
図である。ドキュメント索引情報５２０は、図１０に示
すように、ＷＷＷサーバ１００、データベースサーバ２
００及びファイルサーバ３００よりそれぞれ転送されて
きたサマリー情報（図３、図５、図８、図９）を順次蓄
積することによって生成される。

【００５１】次に、検索者が目的とするドキュメントデ
ータを検索する場合は、クライアント４００において、
クライアントプログラム４１１が起動して、ＣＰＵ４３
０が次のような処理を行なう。即ち、検索者が、検索し
たいドキュメントデータのタイトル、作成者、作成年月
日などの書誌情報の一部やキーワードなどを、検索条件
としてクライアント４００に入力すると、ＣＰＵ４３０
は、検索要求と検索条件をネットワークインタフェース
４４０より通信回線６４０を介して検索サーバ５００に
転送する。

【００５２】検索サーバ５００では、ＣＰＵ５３０が、
検索要求をネットワークインタフェース５４０より受け
取ると、格納しているドキュメント索引情報５２０の中
から検索条件を満たすサマリー情報を抽出する。そし
て、その抽出結果をクライアント４００に送信する。検
索条件を満たすサマリー情報が複数存在する場合には、
一般のデータベースにおいて見られるような絞り込みや
ランキング付けなどを行なっても良い。

【００５３】クライアント４００では、ＣＰＵ４３０が
その検索結果を受信すると、それを検索者に対して提示
し、それにより、検索者は目的とするドキュメントデー
タの格納場所や、その他必要な情報を知ることができ
る。

【００５４】次に、検索者が検索したドキュメントデー
タの取得を希望すると、ＣＰＵ４３０はそのドキュメン
トデータの格納されているサーバにアクセスを開始す
る。例えば、そのサーバがデータベースサーバ２００で
あるとすると、データベースサーバ２００では、クライ
アント４００からアクセスがあると、データベースサー
バプログラム２１１が起動し、ＣＰＵ２３０はそのプロ
グラムに従って、ドキュメントデータベース２２０の中
から該当するドキュメントデータを読み出して、クライ
アント４００に転送する。このようにして転送されたド
キュメントデータを、クライアント４００のＣＰＵ４３
０が受信することによって、検索者は目的とするドキュ
メントデータを得ることができる。

【００５５】なお、クライアント４００において、検索
結果を検索者に対して提示する際に、ＷＷＷサーバとそ
のブラウザの組合せで行なわれているようなハイパーリ
ンクを使用するようにすれば、検索者はドキュメントデ
ータの格納されているサーバがどこにあるかを意識する
ことなく、目的とするドキュメントデータを得ることが
できる。また、目的とするドキュメントデータの格納場
所がＷＷＷサーバでない場合には、テキストデータをＨ
ＴＭＬデータに変換してＷＷＷのブラウザに表示させた
り、画像データ等の場合は表示のための専用のプログラ
ムを起動させたりすることにより、容易に表示を行なう
ことができる。

【００５６】以上説明したように、本実施例では、各ド
キュメントサーバに、それぞれ、格納しているドキュメ
ントデータに対する管理形態やドキュメントデータの種
別などに応じた検索エージェントプログラムを備えさ
せ、各ドキュメントサーバにおいて、各々のＣＰＵが各
々の検索エージェントプログラムに従って処理をするこ
とにより、データ管理形態やデータ種別に応じた抽出手
法を用いて、格納するドキュメントデータからサマリー
情報を抽出することができる。そして、抽出された各サ
マリー情報は通信回線を介して検索サーバ５００に転送
され、検索サーバ５００において、それらサマリー情報
に基づいてドキュメント索引情報５２０を生成したり、
更新したりする。従って、このドキュメント索引情報５
２０には、ＷＷＷサーバ１００以外のデータベースサー
バ２００やファイルサーバ３００にに格納されているド
キュメントデータのサマリー情報も含まれるため、ＷＷ
Ｗサーバ以外に格納されているドキュメントデータにつ
いても検索対象とすることができることになり、従来に
比較して検索対象を広げることができる。

【００５７】また、検索エージェントプログラムは、Ｗ
ＷＷ、一般データベース、ファイルシステムのみなら
ず、どのようなシステムに対しても、ドキュメントデー
タからサマリー情報を抽出することができる仕組みが作
成できれば適用することができる。例えば、或るデータ
ベースサーバに、新しいタイプのデータベースが構築さ
れたとしても、そのデータベースサーバのデータベース
サーバプログラムとのプロトコルが同じ検索エージェン
トプログラムを作成することにより、拡張が可能であ
る。

【００５８】なお、本発明は上記した実施例や実施形態
に限られるものではなく、その要旨を逸脱しない範囲に
おいて種々の態様にて実施することが可能である。

【００５９】上記した実施例においては、ネットワーク
に接続されているドキュメントサーバは、ＷＷＷサーバ
１００、データベースサーバ２００及びファイルサーバ
３００の３つであったが、２つであっても良いし、４つ
以上であっても良い。同じく、クライアントもネットワ
ーク上にクライアント４００が１つあるだけであり、検
索サーバも検索サーバ５００が１つだけであったが、こ
れらについても、２つ以上あって差し支えない。

【００６０】また、上記した実施例では、検索サーバ５
００はドキュメントサーバと独立した構成となっている
が、一つのドキュメントサーバの中に、検索サーバの機
能を持たせて、そのドキュメントサーバに検索サーバを
兼ねさせるようにしても良い。

【図面の簡単な説明】

【図１】本発明の一実施例としてドキュメントデータ検
索システムの概要を示す説明図である。

【図２】図１のドキュメントデータ検索システムの詳細
な構成を示すブロック図である。

【図３】図１のＷＷＷサーバ１００において抽出される
サマリー情報の一例を示す説明図である。

【図４】図３のサマリー情報の基になったＨＴＭＬデー
タの一例を示す説明図である。

【図５】図１のデータベースサーバ２００において抽出
されるサマリー情報の一例を示す説明図である。

【図６】図５のサマリー情報を抽出する際に用いるＳＱ
Ｌプログラムの一例を示す説明図である。

【図７】定型のフォーマットを持ったテキストデータの
一例を示す説明図である。

【図８】図７のテキストデータから抽出されたサマリー
情報の一例を示す説明図である。

【図９】バイナリデータから抽出されたサマリー情報の
一例を示す説明図である。

【図１０】図１の検索サーバ５００に格納されているド
キュメント索引情報５２０の一例を示す説明図である。

【符号の説明】

１００…ＷＷＷサーバ１１０…プログラムメモリ１１１…ＷＷＷサーバプログラム１１５…検索エージェントプログラム１２０…ＨＴＭＬデータファイル群１３０…ＣＰＵ１４０…ネットワークインタフェース２００…データベースサーバ２１０…プログラムメモリ２１１…データベースサーバプログラム２１５…検索エージェントプログラム２２０…ドキュメントデータベース２３０…ＣＰＵ２４０…ネットワークインタフェース３００…ファイルサーバ３１０…プログラムメモリ３１１…ファイル管理プログラム３１５…検索エージェントプログラム３２０…ドキュメントデータファイル群３３０…ＣＰＵ３４０…ネットワークインタフェース４００…クライアント４１０…プログラムメモリ４１１…クライアントプログラム４３０…ＣＰＵ４４０…ネットワークインタフェース５００…検索サーバ５１０…プログラムメモリ５１１…検索サーバプログラム５２０…ドキュメント索引情報５３０…ＣＰＵ５４０…ネットワークインタフェース６１０〜６７０…通信回線

Claims

【特許請求の範囲】

【請求項１】クライアントと、複数のドキュメントデータをそれぞれ格納し、前記クラ
イアントからの要求に応じて所望のドキュメントデータ
をそれぞれ提供すると共に、格納する前記ドキュメント
データに対するデータ管理形態が互いに異なる２つ以上
のドキュメントサーバと、各ドキュメントデータのサマリー情報によって構成され
るドキュメント索引情報を格納し、前記クライアントか
らの要求に応じて、前記ドキュメント索引情報を参照し
て、所望のドキュメントデータの格納場所を検索し、検
索結果を提供する検索サーバと、を少なくとも備え、相互に通信回線を介して接続して成
るドキュメントデータ検索システムであって、各ドキュメントサーバは、それぞれ、当該ドキュメントサーバにおける前記データ管理形態に
応じた抽出手法を用いて、格納する前記ドキュメントデ
ータから該ドキュメントデータのサマリー情報を抽出す
る抽出手段と、抽出した前記サマリー情報を前記通信回線を介して前記
検索サーバに転送する転送手段と、を備え、前記検索サーバは、転送された前記サマリー情報に基づいて前記ドキュメン
ト索引情報を生成または更新する手段を備えるドキュメ
ントデータ検索システム。
【請求項２】請求項１に記載のドキュメントデータ検
索システムにおいて、前記２つ以上のドキュメントサーバのうちの少なくとも
一つのドキュメントサーバは、格納する前記ドキュメン
トデータに対し、ファイル単位でアクセスする第１のデ
ータ管理形態にて管理を行ない、他の少なくとも一つのドキュメントサーバは、格納する
前記ドキュメントデータに対し、ファイルの細部につい
てアクセスすることができる第２のデータ管理形態にて
管理を行なうことを特徴とするドキュメントデータ検索
システム。
【請求項３】請求項２に記載のドキュメントデータ検
索システムにおいて、前記第２のデータ管理形態は、データベース管理システ
ムによるデータ管理形態であることを特徴とするドキュ
メントデータ検索システム。
【請求項４】クライアントと、複数のドキュメントデータをそれぞれ格納し、前記クラ
イアントからの要求に応じて所望のドキュメントデータ
をそれぞれ提供すると共に、格納する前記ドキュメント
データのデータ種別が互いに異なる２つ以上のドキュメ
ントサーバと、各ドキュメントデータのサマリー情報によって構成され
るドキュメント索引情報を格納し、前記クライアントか
らの要求に応じて、前記ドキュメント索引情報を参照し
て、所望のドキュメントデータの格納場所を検索し、検
索結果を提供する検索サーバと、を少なくとも備え、相互に通信回線を介して接続して成
るドキュメントデータ検索システムであって、各ドキュメントサーバは、それぞれ、格納する前記ドキュメントデータの前記データ種別に応
じた抽出手法を用いて、前記ドキュメントデータから該
ドキュメントデータのサマリー情報を抽出する抽出手段
と、抽出した前記サマリー情報を前記通信回線を介して前記
検索サーバに転送する転送手段と、を備え、前記検索サーバは、転送された前記サマリー情報に基づいて前記ドキュメン
ト索引情報を生成または更新する手段を備えるドキュメ
ントデータ検索システム。
【請求項５】請求項４に記載のドキュメントデータ検
索システムにおいて、前記２つ以上のドキュメントサーバのうちの少なくとも
一つのドキュメントサーバは、格納する前記ドキュメン
トデータが構造化文書のドキュメントデータであり、他の少なくとも一つのドキュメントサーバは、格納する
前記ドキュメントデータが前記構造化文書以外のドキュ
メントデータであることを特徴とするドキュメントデー
タ検索システム。