JP2006293656A

JP2006293656A - 文書検索処理方法とその記録媒体

Info

Publication number: JP2006293656A
Application number: JP2005112977A
Authority: JP
Inventors: Shuhei Ueda; 周平上田
Original assignee: Hitachi Advanced Digital Inc
Current assignee: Hitachi Advanced Digital Inc
Priority date: 2005-04-11
Filing date: 2005-04-11
Publication date: 2006-10-26

Abstract

【課題】文書が保存されているデータベースやインターネットなどの情報源から目的の文書を得るために、利用者は当該情報源の文書の管理方法を把握し、その管理方法にしたがって文書を探さなくてはならない。利用者が当該情報源の管理方法をうまく把握できない場合は目的の文書を得られない。
【解決手段】本発明は目的の文書に類似する文書を読み込むことによりキーワードと関連するキーワードを自動生成し、キーワードを格納するデータベースを作成する。作成したデータベースに格納しているキーワードを用いて指定された検索範囲からキーワードおよび関連のあるキーワードを含む文書抽出する。利用者が検索結果を評価することにより、利用者の嗜好を学習し利用者が希望する検索結果を提供できるようにする。
【選択図】図１

Description

本発明は、文書の内容に関連する、あるいは特定の単語を含む文書をコンピュータ内およびインターネットから抽出する処理方法、また抽出した文書を閲覧、管理する処理方法に関するものである。

関連する文書の検索やハイパーリンクや引用を含む文書やコンテンツの抽出や管理においては、従来は、単一のコンピュータにて管理する場合は文書名や保存場所を局所化することによる関連付けを行って管理する方法やあるいは、特開平10-105562号公報に記載されているように文書を検索するためのキーワードを格納したデータベースをあらかじめ作成し、データベースにより関連を作成するという方法で文書を管理していた。目的の文書あるいは情報の検索にはインターネットのウェブサイトgoogleなどの検索エンジンを使用して、関連文書のキーワードを入力して検索を行わせることにより目的の文書を抽出するという手段が一般的である。
特開平１０―１０５５６２号公報

文書の名称や保存場所の局所性を利用した管理においては、文書作成規則の周知徹底や文書の変更に伴い人手による更新作業が必要であり、特に文書の変更や追加が頻繁に発生する場合においてはタイムリーに文書を管理することは非常に困難である。そのため、正しく文書管理がなされず目的の文書を探すことが困難になる。また、前述したインターネットの検索エンジンを利用したキーワードによる検索では検索サイトの検索エンジンのルールにより提供されるページが決まってしまうため利用者の希望する情報が得られないことがあり、目的の情報が得られるように利用者がキーワードを工夫して入力する必要がある。検索結果が一定件数ごとに検索した文書のタイトルと要約のみが一覧表示されるため、検索結果から目的の文書を探すことも困難であった。

そこで、本発明は文書の検索に利用するためのキーワードを格納するデータベースを自動的に作成、更新する機能とデータベースを利用者に合わせて最適化する機能を持つことにより利用者がデータベースをメンテナンスする作業を軽減しかつ目的の情報を得られるようにする。抽出した文書とその文書に関連する文書を図示し、検索結果を利用者に視覚的にわかりやすく伝え、図中の文書を選択することで閲覧可能とすることにより、目的の文書が容易に閲覧可能とすることを目的とする。

前記目的達成のために、本発明は目的の文書を検索するためのキーワードとそのキーワードに関連があるキーワードを定義し、キーワードを格納するデータベースを作成する。データベースは目的の文書に類似する文書を読み込むことによりキーワードと関連するキーワードを自動生成する。指定された検索範囲からキーワードおよび関連のあるキーワードを含む文書を抽出し、文書間の相互関係を認識した上で、対象とする全ての文書の相互関係図を自動的に作成する方法を用いることで、目的の文書の検索を容易にする。

以上のように、本発明によれば、特定のキーワードに関連する文書を検索する際、検索に使用するキーワードとキーワードの関連を利用者に合わせて作成し、利用者にあった検索結果を提供できるため、効率よく目的の文書を抽出することができる。また、関連図で文書間の関連を示すことにより、複数の文書の中から利用者の目的にあった文書を抽出することが容易となる。

以下、本発明の実施例について図面を用いて説明する。最初に本発明の文書検索処理方法とその記録媒体の概要につき図1を用いて説明する。同図において1はキーワードを含む文書を検索するキーワード検索部、2はキーワードを格納する検索キーワードデータベース、3は検索キーワードデータベースを更新するデータベース更新部、4は検索条件を設定する検索条件設定テーブル、5は検索した結果を格納する検索結果テーブル、6は検索結果を表示する検索結果表示部を示している。

キーワード検索部1は文書抽出処理を行うためのプログラムであり、前記2が保持するキーワードに関するデータを用いて目的の文書を抽出する処理を行う。データベース更新部3は検索キーワードデータベースへのキーワードの登録や与えられた文書を元にキーワードを自動生成する処理を行うためのプログラムである。検索条件設定テーブル4はキーワード検索部1が文書抽出処理を行う際に検索する範囲や検索対象とする文書の種類などを保持するテーブルである。キーワード検索部1は文書抽出処理の前に必ず検索条件設定テーブル4を参照する。検索結果テーブル5はキーワード検索部1が文書抽出処理を行った結果を保持するテーブルである。抽出した文書の名前、文書間の関連、文書が存在する場所、を保持している。次に説明する検索結果表示部6が検索結果の表示に使用する他、利用者が検索結果を評価する際に用いる。検索結果表示部6は検索結果テーブル5を読み込むことにより文書を抽出した結果を図示する処理を行うためのプログラムである。検索結果表示部6は抽出した文書の一覧を表示するとともに、文書間の関連を関連度と関連キーワードを合わせて図示し、図中に示される文書を示す図形を選択することにより、選択した文書を閲覧する手段を提供する。検索結果データベース7は検索した結果を蓄積し、次回以降の検索に使用する。

文書を抽出するにためにキーワードが必要となる、キーワードは利用者が作成する方法と指定した文書から抽出する方法がある。キーワードの作成はデータベース更新部3が行う。利用者はデータベース更新部に目的の文書に類似する文書を読み込ませることにより、データベース更新部3はキーワードの抽出処理を開始する。データベース更新部3は与えられた文書に含まれる単語を抽出し、それぞれの語の出現回数をカウントし、出現単語の一覧を作成する。さらに単語が出現した場所に応じて重み付けを行う。この重みは単語に対する重要度と呼ぶ。重要度は本文中、見出し(編、部、章、項、節など)、文書タイトルの順に高くなる。キーワードごとに重要度×出現回数の合計を評価点とし、評価点が最も高い単語をキーワードと判定する。キーワード抽出処理の結果、評価点が高い順に2番目から6番目までの5つの単語をキーワードに付属するサブキーワードとし、サブキーワードの1位〜5位と判定する。

利用者がキーワードを作成する場合は、データベース更新部を介してキーワードとサブキーワードの1位〜5位を検索キーワードデータベースに登録する。図2にキーワードのデータ構造を示す。これらのデータは検索キーワードデータベース2に格納されている。キーワードデータはキーワードとなる単語に関連するサブキーワードを最大5つ格納する。他のキーワードとの関連を示す関連キーワードテーブルを持つ。あるキーワードAが他のキーワードBのサブキーワードとして存在する場合は、キーワードAとキーワードBは関連があると判定し、キーワードAをキーワードBに対する関連キーワードとする(図3)。キーワードAがキーワードBのサブキーワードの何位であるかによって関連キーワードに順位を設定する。例えばキーワードAがキーワードBのサブキーワードの2位にあった場合は、キーワードBはキーワードAに対し関連キーワードの順位を2位と判断する。

キーワードAがサブキーワードにキーワードBを持ち、キーワードBがサブキーワードにキーワードAを持つ場合、キーワードAとキーワードBは相互関連があると判定する。関連キーワードテーブルの順位を付ける際は、一方のみに関連がある場合よりも相互関連がある場合を関連が高いと判断し、相互関連のあるキーワードの順位を高く設定する。相互関連で1位のキーワードが最も関連キーワードの順位が高く、一方の関連のみで5位のキーワードが最も関連キーワードの順位が低いと判断する。抽出した関連キーワードを上記の方法に従って順位を付け、1位から5位を関連キーワードテーブルに登録し、そのキーワードの関連キーワードとする。図4に検索条件設定テーブル4のデータ構造を示す。検索条件設定テーブル4には検索範囲データ、検索対象データを保持する。検索設定データは利用者が変更することができる。

検索範囲データにはコンピュータ名、ドライブ名、ディレクトリ名URL、ドメイン名、IPアドレス等の文書が格納されている記憶媒体あるいはコンピュータ名、インターネット、ローカルエリアネットワーク上のアドレスを指定する。検索対象データには抽出する文書の種類(テキスト、リッチテキスト、HTMLなど)を指定する。文書の検索処理は検索キーワードデータベース2に存在するキーワードの中から指定するか、任意の単語を１つあるいは複数指定し、指定された単語に最も近いと思われるキーワードを検索キーワードデータベース2から抽出して検索処理を行う。検索結果データベースを参照し、以前に同じキーワードで検索されているかどうかを調べる。同じキーワードで検索されていた場合は、抽出した文書が存在する場所を優先して検索する。検索結果の中で利用者の評価(詳細は後述)が4以上の検索結果のデータのみを使用する。

検索キーワードデータベース2からキーワードを抽出する方法は指定された単語と検索キーワードデータベース2に登録されているキーワードまたはキーワードに指定されているサブキーワードを比較して一致するものがあるかを調べる。指定した全ての単語について検索キーワードデータベースに登録されているキーワードおよびサブキーワードと完全一致するかまたは含まれる場合、そのキーワードを抽出すべきキーワードの候補とする。キーワードの候補に指定した単語に完全一致するキーワードがあった場合は、そのキーワードを検索に用いるキーワードとして抽出する。検索キーワードデータベース2の中に完全一致するキーワードが存在しなかった場合はキーワードに含まれる場合を適合度が高いと判断し、サブキーワード1位が最も適合度が高く、サブキーワード5位が最も適合度が低いと判断する。候補の中で最も適合度が高いと判断したキーワードを検索に用いるキーワードとする。適合度が同じキーワードが複数ある場合は、複数のキーワードを検索に用いるキーワードとして抽出する。

利用者が上記の方法で設定したキーワードを用いて、キーワード検索部は文書の検索処理を行う。キーワードは単一または複数のキーワードを設定することができる。複数のキーワードを設定した場合は全てのキーワードを含む、いずれかのキーワードを含む、キーワードを含まないなどの条件を設定できる。ただし、全ての語を含まないという検索条件の設定はできない。キーワードの検索方式として完全一致、前方一致、後方一致のいずれかに該当する場合に一致するものとする。ただし、利用者設定により完全一致のみ、前方一致のみなどのキーワードが一致する条件を設定できる。特に利用者が指定しない限り、キーワードが完全一致、前方一致、後方一致する文書を抽出する。以降は利用者が特に指定を行わなかった場合を示す。

キーワード検索部1は検索を行う前に検索条件設定テーブル4を読み込んでどの範囲で検索をすべきかを判定する。指定された検索範囲にある文書の中から検索設定データにある検索対象に適合する文書を全て抽出する。抽出した文書の中に検索条件で指定したキーワードおよびキーワードに付属するサブキーワードが含まれているかどうかを調べる(ただし、キーワードが含まれずサブキーワードのみが含まれる文書は抽出しない)。キーワードが含まれている文書を抽出したら、指定したキーワードを含まない、あるいは指定したキーワードを含んでいるかなどさらに検索条件が設定されている場合は、抽出した文書が検索条件に適合するかどうかを調べ、抽出した文書の絞込みを行う。

抽出した文書ごとにどれだけ指定したキーワードに近い文書が抽出できたかを決定するため、評価点の計算を行う。指定したキーワードの出現回数と出現した場所を調べる。出現した場所により重要度を算出する。重要度は文書タイトルにキーワードが存在した場合が最も高く、見出し(編、部、章、項、節など)、本文中と続く。キーワードの適合度を求めるため、抽出したキーワードが完全一致か前方一致か後方一致であったのかを調べる。これを適合優先度とする。適合優先度は完全一致が最も高く、前方一致、後方一致の順に低くなる。また、キーワードかサブキーワードかに一致したかにより適合キーワード順位を設定する。キーワードと一致する場合が最も高く、サブキーワードの5位と一致した場合が最も低い。抽出した全ての文書でこれらの値を計算して評価点を求めることにより、どの文書が指定したキーワードに最も近いかを判定することができる。評価点は文書に含まれているキーワードおよびサブキーワードの重要度×適合度×適合優先度×キーワード順位を計算して、それらの合計値を評価点とする。計算した評価点を元に抽出した文書の中で順位をつける。

抽出した文書ごとに当該文書に含まれる単語を抽出し、それぞれの語の出現回数をカウントする。キーワード抽出処理と同じように出現単語の一覧を作成し、抽出した単語ごとに重要度を設定する(重要度の判定はキーワード抽出処理と同じである)。重要度の最も高い単語をキーワードとし重要度が2番目から6番目までの単語をサブキーワード1位から5位として、抽出した文書のキーワードのテーブル作成する(テーブルを抽出文書キーワードテーブルとする)。キーワード検索部は抽出文書キーワードテーブルを用いて抽出した文書間の関連度を計算する。文書間の関連度は文書が持つ抽出文書キーワードテーブルを比較してどれだけキーワードの適合度を調べる。キーワードの適合度はどのキーワードが適合するかを合計した点数で判定する。キーワードが適合している場合が最も高く、サブキーワードの5位が適合している場合が最も低い適合度となる複数のキーワードが適合する場合は、適合する全てのキーワードについて適合度を計算して合計する。また、抽出文書キーワードテーブルのキーワードに単語が含まれていれば適合すると判定する。

抽出した文書の名称、抽出した文書間の関連度、評価点の計算結果ともに検索結果テーブル(図5)に保存する。指定したキーワードを含む文書の検索結果を表示する。検索結果表示部6は検索結果テーブルを読み込んで、抽出した文書名の一覧と関係図を並べて表示(図6)あるいは画面上部にタブを設け、タブを選択することにより一覧表の表示、関係図の表示を変更する表示(図7)する方式とする。画面の表示の方式は利用者がどちらかの表示方法を選択する。文書名の一覧の表示において初期状態では評価点の高い順に表示する。一覧表には文書名、評価点、当該文書に最も適合しているキーワード、最も関連の高い文書名、文書が存在する場所を表示する。一覧表上部の項目を選択することにより文書名によるソート、評価点によるソート、適合キーワード、最も関連の高い文書名、文書が存在する場所によるソートができる。文書名を選択すると選択した文書が閲覧できる(図８)。適合キーワードを選択することにより、当該文書に関連するキーワードを表示する(図９)。

関係図の表示では抽出した文書を示す図形 (以降文書アイコン)を表示する(図１０)。文書アイコンは評価点の高い文書ほど大きく、低い文書ほど小さく表示される。文書間の関連は文書アイコン同士を線で結ぶことにより関連を示す。線の上に適合度が最も高い関連キーワードを表示し、どのキーワードによって文書間の関連づけられているかを示す。文書アイコンを結ぶ線が太いほど文書間の関連が高く、細いほど文書間の関連は低いことを表す。文書は存在する場所ごとに文書アイコンをまとめて表示する。コンピュータ、ディレクトリなど文書が保存されている単位ごとに枠で囲み、枠の上部にはコンピュータ名またはディレクトリ名を記述することにより文書の所在を図示する(図１１)。文書アイコンを選択することにより、選択した文書を閲覧することができる。関連を示す線を選択すると、文書間の関連キーワードが表示される。

利用者は検索結果を参照し、結果が妥当であるかの評価を行う。抽出された文書、文書に含まれるキーワード、文書間の関連度を評価する。評価は5段階で点数を付ける。最高の評価が5で以降4、3、2、1の順に低くなる。評価の方法は検索結果全体に対し行う方法と抽出した文書ごとの両方を行うことができる。検索結果全体に対して行う場合は評価を5段階で指定することにより、検索結果全体に評価を適用し全ての検索結果を指定された評価に基づいて検索キーワードデータベースに反映する。文書ごとに行う場合はそれぞれの文書に対応するキーワードと関連キーワード、関連文書について文書ごとの評価を適用する。検索結果全体でキーワードが重複する場合は最も評価の高いキーワードを検索結果データベースに登録する。

利用者が設定した検索結果の評価をもとに、検索キーワードデータベースを更新する。最高評価の5であった場合は、作成したキーワードを全て登録する。同じキーワードが存在する場合は検索結果を優先し、上書き登録する。評価が4であった場合は、作成したキーワードを全て登録し、同じキーワードが存在する場合はサブキーワードの1位と2位について検索結果を優先し、上書き登録する。3位から5位については変更しない。評価が3であった場合は、作成したキーワードの中で検索キーワードデータベースに存在しないものは登録し、同じキーワードが存在する場合はサブキーワードの3位から5位のみ検索結果を優先し、上書き登録する。1位と2位については変更しない。評価が2であった場合は、作成したキーワードの中で検索キーワードデータベース2に存在しないもののみを登録し、サブキーワードの順位を変更前と同じ順位にならないようにランダムに変更する。評価が1であった場合は検索結果を検索キーワードデータベース2に登録せず、サブキーワードの順位を変更前と同じ順位にならないようにランダムに変更する。キーワードの変更や順位の変更を行った場合、キーワード間の関連度が変化するため関連度の再計算を行う。

検索結果を次回の検索に使用する情報として保存し、検索結果データベース7に蓄積する。利用者の評価が5から1のいずれの場合であっても全ての検索結果を検索結果データベース7に蓄積し、蓄積する情報は検索を行ったキーワードごとに管理する。検索した日付、この検索に使用したキーワードとそれに付随するサブキーワード、抽出した文書、文書間の関連度、文書の格納場所、評価点、利用者の評価を検索結果データベース7に蓄積する。この検索結果は利用者が検索結果表示部を用いて閲覧することが可能である。検索結果表示部6は利用者が選択した検索した日付とキーワードの検索結果を検索結果データベース7から取得して検索結果を表示する。

さらにコンピュータをネットワークで接続し、接続したコンピュータ間で検索キーワードデータベース2、検索結果データベース4の共有やデータベースに蓄積されている情報を交換することにより自コンピュータが持つ検索キーワードデータベース2、検索結果データベース4の拡張や検索効率の向上を行うことができる。検索結果表示部を操作して他コンピュータの情報を参照する画面を表示させる。自コンピュータからネットワークを介して参照できる場所に存在する他コンピュータを表示し、他コンピュータが持つ検索キーワードデータベース2、検索結果データベース4の内容を参照することができる。ネットワーク上に発見したコンピュータ名の一覧とネットワーク図を並べて表示(図１２)あるいは画面上部にタブを設け、タブを選択することにより一覧表の表示、関係図の表示を変更する表示(図１３)する方式とする。画面の表示の方式は利用者がどちらかの表示方法を選択する。

コンピュータ名の一覧表ではコンピュータ名、検索キーワードデータベース2の更新年月日、検索結果データベース4の更新年月日を表示する(図１４)。一覧表上部の項目を選択することによりコンピュータ名、検索キーワードデータベース2の更新年月日、検索結果データベースの更新年月日によるソートができる。一覧表の各項目を選択すると、コンピュータの情報、検索キーワードデータベース2の情報、検索結果データベース4の情報を表示する。(図１５)。ネットワーク図表示ではネットワーク上で発見したコンピュータとそのコンピュータが持つ検索キーワードデータベース2、検索結果データベース4を表示する。ネットワーク図上ではコンピュータ、検索キーワードデータベース2、検索結果データベース4はそれぞれを示す図形 (以降コンピュータアイコン、検索キーワードデータベースアイコン、検索結果データベースアイコンとする)で表示する。ネットワーク図上でコンピュータアイコン、検索キーワードデータベースアイコン、検索結果データベースアイコンを選択することにより、選択したコンピュータ、検索キーワードデータベース、検索結果データベースの情報を表示する(表示形式は図１４と同様)。

コンピュータの情報はコンピュータの所有者が任意に設定することができ、当該コンピュータの所有者が設定した情報のみを表示する。検索キーワードデータベース2、検索結果データベース4の情報は所有者がデータを公開するかどうかの設定を行うことができる(指定した利用者にのみ公開することも可能とする)。キーワード単位、１つの検索結果単位に情報を公開するかどうかの設定を行うことを可能とする。他のコンピュータにある検索キーワードデータベース2、検索結果データベース4の情報を当該コンピュータからダウンロードすることにより、自コンピュータに取り込むことができる。取り込むことが可能な情報は検索キーワードデータベース2および検索結果データベース4の所有者が公開している情報のみである。一覧表またはネットワーク図で情報を取り込みたい検索キーワードデータベース2または検索結果データベース4を選択する。メニューから「取り込み」を選択することにより、指定した検索キーワードデータベース2、検索結果データベース4の情報を指定したコンピュータからダウンロードする。検索キーワードデータベース2、検索結果データベース4の情報において、あるキーワードについてのみ、ある検索結果のみというように個別に選択することができる。

検索キーワードデータベース2の取り込んだ情報の中に、自コンピュータに同じキーワードが検索結果データベース4にあった場合は、取り込んだデータで上書きするかどうかの確認を行い、利用者にどちらの情報を使用するかを選択することを可能とする。また、その場合、サブキーワードを更新する場合も上書きするかどうかの確認も行う。取り込んだ検索結果データベース4の情報は、そのまま自コンピュータの検索結果データベース4に蓄積する。検索キーワードデータベース2、検索結果データベース4の内容の表示において、他コンピュータから取り込んだ情報は自コンピュータで作成した情報と区別するためにキーワードおよび検索結果を表示する部分の色を変えるなどの処理を行う。

コンピュータの接続形態は1つのコンピュータ(以降サーバという)が他コンピュータの接続の管理を行い、コンピュータはサーバに接続し、サーバを介して他のコンピュータと接続する形(センタサーバ型と呼ぶ)、接続するすべてのコンピュータが同等の関係で接続する形(ピアツーピア型と呼ぶ)の2つの形態をとる。センタサーバ型は１つのコンピュータが全てのコンピュータおよびコンピュータがもつ検索キーワードデータベース2、検索結果データベース4の情報を管理する。ピアツーピア型ではサーバを設置する必要がなく検索キーワードデータベース2、検索結果データベース4の情報はそれぞれのコンピュータで管理し、情報が必要になった時点でコンピュータから取得するという特徴があるため、接続形態は利用者が利用状況やコンピュータの接続環境を考慮して選択することができる。

センタサーバ型ではコンピュータはサーバに対して接続要求を出す。サーバは接続要求を受け付けるとコンピュータをサーバに接続させ、現在接続中のコンピュータと検索キーワードデータベース2および検索結果データベース4の情報を提供する。サーバから検索キーワードデータベース2および検索結果データベース4の情報を受け取ったコンピュータは図１２または図１３に示す画面を表示する。センタサーバ型ではサーバに接続されているコンピュータは自身の持つ検索キーワードデータベース2または検索結果データベース4の情報を更新するたびにサーバにデータの変更を通知する。通知を受けたサーバは検索キーワードデータベース2または検索結果データベース4の取得対象と判定する。検索キーワードデータベース2または検索結果データベース4の取得対象と判定したコンピュータから定期的に情報取得し、サーバ内部に蓄積する。サーバ内部では取得した検索キーワードデータベースおよび検索結果データベースの情報を取得したコンピュータの情報とともに管理する。これは接続先のコンピュータが破損した場合も情報を使用できるようにするためである。検索キーワードデータベース2、検索結果データベース4を蓄積しているコンピュータがサーバに接続されていない場合は他のコンピュータでは表示機能の画面に図１６のように表示される。この場合他のコンピュータはサーバに蓄積された情報を使用して文書の検索処理を行う。

ピアツーピア型では接続しているコンピュータがあるかどうかを他のコンピュータに確認し、接続しているコンピュータは接続確認を受け取ると自身の持つ検索キーワードデータベース2および検索結果データベース4の情報を提供する。他コンピュータから検索キーワードデータベース2と検索結果データベース4の情報を受け取ると図１２または図１３に示す画面を表示する。定期的に他のコンピュータに接続し、ネットワークに接続されているかどうかを確認する。ネットワークに接続しているコンピュータは自コンピュータの検索キーワードデータベース2または検索結果データベース4を更新したとき全てのコンピュータに検索キーワードデータベース2または検索結果データベース4の情報を更新したことを通知する。更新の通知を受け取ったコンピュータはネットワーク図に表示している通知を送信したコンピュータの表示を変更し、画面上で検索キーワードデータベース2または検索結果データベース4の情報を更新したことがわかるように表示する。ただし、このとき画面上の表示を変更するのみで更新の通知したコンピュータに対して検索キーワードデータベース2または検索結果データベース4の情報を取得しない。

本発明の構成を表すブロック図。文書の検索に使用するキーワードのデータ構造を示す図。キーワード間の関連付けを示す図。検索設定テーブルのデータ構造を示す図。検索結果テーブルのデータ構造を示す図。検索結果表示画面の表示の一例を示す図。検索結果表示画面の表示の一例を示す図。検索結果から文書名欄を選択することにより、選択した文書を表示する画面を示す図。キーワード欄を選択することにより、関連するキーワードを表示する画面を示す図。検索結果の関連図表示において抽出した文書を示す図形(アイコン)を示す図。文書間の関連を表示する図。他のコンピュータからキーワードや検索結果を取得する機能の画面表示の一例を示す図。他のコンピュータからキーワードや検索結果を取得する機能の画面表示の一例を示す図。他のコンピュータの情報を参照する機能の画面表示の一例を示す図。検索キーワードデータベースの内容を参照する機能の画面表示の一例を示す図。他のコンピュータの情報や検索キーワードデータベースの内容を参照する機能において、自分のコンピュータから接続不能となったコンピュータを示す図。

符号の説明

１…キーワード検索部
２…検索キーワードデータベース
３…データベース更新部
４…検索条件設定テーブル
５…検索結果テーブル
６…検索結果表示部
７…検索結果データベース

Claims

指定したキーワードにより目的の文書を抽出する文書検索方法であって、文書を読み込むことにより、読み込んだ文書に存在する単語の出現する数及びタイトル、見出し語など単語が文書中に存在する場所による重み付けを加味してキーワードを判定するステップを備え、当該文書のキーワードとそれに関連するサブキーワードを抽出し、抽出したキーワードとサブキーワードを登録する検索キーワードデータベースに自動的に登録するステップと、検索範囲を規定する検索設定テーブルを参照するステップと、前記検索キーワードデータベースに登録されているキーワードを選択するステップと、選択したキーワードを含む文書を検索設定テーブルに記述されている検索範囲から抽出するステップと、抽出した検索結果を一覧表示または関連図による表示を行うステップと、検索結果を格納する検索結果データベースに蓄積するステップを備えることを特徴とする文書検索処理方法。
請求項１記載の検索キーワードデータベースは少なくとも、キーワード及びキーワードに関連する複数のサブキーワードを有し、あるキーワードが他のキーワードのサブキーワードに含まれているかを判定するステップを備え、また判定した結果によってキーワード間の関連度を管理するステップを備える文書検索処理方法。
請求項１記載の検索結果データベースは少なくとも、抽出した文書名、関連するキーワード、関連する文書名、文書が存在する場所の情報を有し、検索結果の情報を蓄積するステップと、蓄積している検索結果の情報を参照することにより検索結果を閲覧するステップを備える文書検索処理方法。
請求項１から３記載の文書検索処理方法であって、提示した検索結果を利用者に評価させるステップと、評価により検索結果の妥当性を判定するステップと、また判定した結果によって検索キーワードデータベースに検索結果を反映するステップを備える文書検索処理方法。
請求項１から４記載の文書検索処理方法の結果を表示する、検索結果表示処理方法であって、検索した結果または検索結果データベースに蓄積した情報を用いて、一覧表及び関連図により検索結果表示するステップと、一覧表の文書名を選択することにより選択した文書を表示するステップと、関連図中に表示している文書を示す図形を選択することにより選択した文書を表示するステップと、同関連図中の文書を示す図形間に矢印により関連度を表示するステップを備える文書検索処理方法。
検索キーワードデータベース及び検索結果データベースの情報を拡張及び共有する方法であって、インターネットまたはLAN(Local Area Network)などにより接続されたコンピュータ間で検索キーワードデータベース、検索結果データベースの情報を取得、交換、参照することによりネットワークで接続された他のコンピュータに存在する検索キーワードデータベースの情報、検索結果データベースの情報を使用して文書を抽出するステップ備える文書検索処理方法。
請求項１から請求項６記載の文書検索処理方法を電子計算機に実行させるためのプログラムを読み取り可能に記録した記録媒体。