JPH09265482A - データベース検索装置及びデータベース検索方法 - Google Patents

データベース検索装置及びデータベース検索方法

Info

Publication number
JPH09265482A
JPH09265482A JP9002240A JP224097A JPH09265482A JP H09265482 A JPH09265482 A JP H09265482A JP 9002240 A JP9002240 A JP 9002240A JP 224097 A JP224097 A JP 224097A JP H09265482 A JPH09265482 A JP H09265482A
Authority
JP
Japan
Prior art keywords
search
information
database
collection
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9002240A
Other languages
English (en)
Inventor
Nozomi Tanida
望 谷田
Hiromichi Ishikawa
浩通 石川
Hiromi Sugata
裕臣 須賀田
Hideaki Kanechika
秀明 金近
Akira Maeda
▲あきら▼ 前田
Satoshi Tanaka
聡 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP9002240A priority Critical patent/JPH09265482A/ja
Publication of JPH09265482A publication Critical patent/JPH09265482A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 情報検索の専門家でなくても必要な情報を容
易に検索・収集できるようにする。 【解決手段】 データベースの利用者がインデックスの
カテゴリを定義するインデックス定義手段と、定義され
たインデックス定義情報を記憶するインデックス定義情
報記憶手段と、インデックス定義情報と、データベース
内容情報とのマッチングを行い、特定の用途・目的に対
応したカテゴリ別の検索インデックスを作成するインデ
ックス作成手段と、作成された検索インデックスを記憶
する検索インデックス記憶手段と、を設ける。またはデ
ータベース内容収集手段として収集対象限定手段を設け
て外部データベースから限定収集するようにした。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明はネットワーク上に
分散して配置されており、個別に作成、運営されている
ため常にその内容が変化する大量の外部情報の中から、
利用者の目的・用途に合った情報を容易に検索できるよ
うにするためのインデックス作成のための情報収集装置
に関するものである。利用者が目的に関連する収集先の
アドレスを何か指定すれば、その場所及びそこからリン
クされた情報のうち必要な情報を収集する。また、利用
者がその収集範囲を随時変えながら情報を更新収集する
ことができるようにするものである。
【0002】
【従来の技術】従来この種の技術としては「電気通信学
会信学技法AI95―31」に記載されている情報検索
手段:TITANのような方式がある。なおこの従来方
式では、収集したデータをローカルに保存しておくため
の手段は明示されていないが、収集したデータに名称
(ファイル名)を付与し、ディスク等の記憶手段に蓄積
する一般的な電子ファイリング装置が接続されているも
のとして説明する。
【0003】図74はTITANに見られるような従来
の検索装置の構成を示す図である。図において、1はネ
ットワーク上に分散して配置され、各々個別に作成・管
理されている外部データベース、2は上記情報収集装置
が外部データベース1と通信を行うための通信制御装
置、3は前述の情報収集装置の従来の構成のもの、4は
収集したデータベース内容情報を記憶するデータベース
内容情報記憶手段、105はデータベース内容情報を基
に検索インデックスを作成するインデックス作成手段、
106は作成された検索インデックスを記憶する検索イ
ンデックス記憶手段、107は検索インデックスを用い
て、検索すべきデータが格納されているデータベースま
たはデータを検索するデータ検索手段、8は検索された
データベースまたはデータにアクセスし、データの実体
を検索する実体データ検索手段、109は収集したデー
タをローカルに保存・管理する収集データ管理手段であ
る。11は検索条件を入力したり、検索結果を表示した
りするための検索インターフェースである。なお、上
記、データベース内容情報収集手段3、インデックス作
成手段105、データ検索手段107、実体データ検索
手段8はコンピュータシステム上で動作するソフトウェ
アで実現されるのが一般的であり、データベース内容情
報記憶手段4、検索インデックス記憶手段106は磁気
ディスク等の記憶装置上に実現される。また、検索イン
ターフェース装置11はマウスやキーボード及びディス
プレイ装置などで実現される。
【0004】次に図を参照しながら動作について説明す
る。具体的には、外部データベース1として、インター
ネットのWorld−Wide Web(WWW)を例
にとって説明する。WWWは、全世界を覆うハイパーテ
キストのネットワーク空間と考えることができる。WW
W空間においては、各データ間のハイパーテキスト関係
はURLと呼ばれるユニークなIDにより管理されてお
り、このURLを指定することにより目的のデータを検
索・参照することができる。
【0005】最初に、検索インデックスを作成するとき
の動作について説明する。まず、データベース内容情報
収集手段3は、予め指定されたURLを基に、通信制御
装置2を介し、該当するデータにアクセスする。具体例
としては“http://car.jp/”というUR
Lが指定され、図75に示す「日本の自動車」というデ
ータにアクセスしたものとする。ここで、WWWのオリ
ジナルデータは実際は、図75(a)に示すような、タ
グ付き形式のテキストで表現されており、このデータを
表示する際、図75(b)に示すように表示ソフトウェ
アが表示レイアウト等を決定し表示するようになってい
る。また、データの中に、“http://a.co.
jp/”など他のデータへのURLを埋め込むことがで
き、この仕組みによってハイパーテキストを実現してい
る。さらに、このデータの中には、イメージ、動画など
のファイルも組み込むことができるが、ここではその詳
細については省略する。
【0006】データベース内容情報収集手段3は、図7
5(a)のデータから、タグ情報をキーとして、検索イ
ンデックスを作成するために必要な情報を抽出する。例
えば、図76に示すような規則によって、「タイト
ル」、「URL(自データ)」、「日付」、「見出」、
「本文」、「URL(他データ)」の情報を抽出する。
図77は図76に示す規則に従って、図75(a)のデ
ータから、情報を抽出した例である。なお、「本文」に
ついては、すべての情報を抽出する方法もあるが、ここ
では、先頭から数10文字分を抽出するように規則化し
ている。抽出された情報は、データベース内容情報とし
て、データベース内容情報記憶手段4に記憶される。次
に、収集したデータベース内容情報の中に他のデータへ
のURLが含まれている場合は、データベース内容情報
収集手段3は、そのURLをキーとして、該当するデー
タにアクセスし、上記と同様の処理を行うことを繰り返
すことにより、次々に関連するデータについての内容情
報を収集していく。なお、何回(階層)まで繰り返すに
ついては、予め指定できるようになっている。最後に、
インデックス作成手段105は、データベース内容情報
収集手段3により収集され、データベース内容情報記憶
手段4に記憶されているデータベース内容情報を基に、
図78に示すような検索インデックスを作成する。作成
された情報は検索インデックス記憶手段106に記憶さ
れる。なお、データベース内容情報のうち、「見出
し」、「本文」の情報については、日本語処理の形態素
解析処理によって、単語の切り出しを行い、抽出された
単語のみを検索インデックス記憶手段106に登録する
ようにしている。
【0007】次にデータ検索時の動作について説明す
る。例えば、利用者が「トラック」に関する情報を検索
したいというような場合、利用者は、検索インターフェ
ース装置11を介し、「トラック」というキーワードを
検索条件として入力する。データ検索手段107は、入
力された検索条件を基に、検索インデックス記憶手段1
06に記憶されている検索インデックスをサーチし、検
索条件に該当するデータのリストを利用者に提示する。
図78の例では、タイトル「日本の自動車」と「A社の
紹介」のキーワードがマッチングするので、そのタイト
ルが提示される。利用者は、提示された検索結果の中に
欲しい情報があれば、その実体データを検索する指示を
検索インターフェース装置11を介し、実体データ検索
手段8に対して行う。例えば、利用者が「日本の自動
車」を指定した場合、実体データ検索手段8には「日本
の自動車」のID(URL)、“http://ca
r.jp/”が検索条件として渡され、実体データ検索
手段8は受け取ったURLを基に、通信制御装置2を介
し、該当するデータにアクセスし、そのデータを検索し
て、結果を検索インターフェース手段11に表示する。
【0008】また、検索されたデータを利用者がローカ
ルに保存しておきたいと考えた場合には、データに名称
(ファイル名など)を付与し、収集データ管理手段9に
保管しておくことができる。収集データ管理手段9は、
入力されたデータを付与された名称と合わせ、収集デー
タ記憶手段10に記憶しておき、後で、名称をキーとし
て表示要求があった場合に、検索インターフェース装置
11を介し、利用者に表示する。
【0009】図74の中で3として表現されているデー
タベース内容情報収集手段の詳細について図79を用い
て説明する。図79において、100は収集を開始する
際の収集開始アドレス等の条件を入力する収集開始条件
入力手段、120は収集対象のアドレス及びそれに関連
した情報を格納する収集対象アドレス関連情報格納手
段、130はその格納されたアドレスから実際に収集す
るアドレスを一つずつ選び出す収集先決定手段、140
は収集先決定手段が収集すると決定したアドレスの情報
を収集する収集手段、170は収集した情報にリンクさ
れた情報を抽出するリンク先アドレス抽出手段、180
はリンク抽出を行うのを制限する条件を入力するリンク
抽出制限条件入力手段、190はリンク先アドレスを抽
出するリンク先アドレス抽出手段であり、これらがデー
タベース内容情報収集手段3を構成する。なお、上記収
集先決定手段130、収集手段140、リンク先アドレ
ス抽出手段170、リンク抽出手段190はコンピュー
タシステム上で動作するソフトウェアで実現されるのが
一般的であり、収集対象アドレス関連情報格納手段12
0は、磁気ディスク等の記憶装置上に実現される。ま
た、収集開始条件入力手段100、リンク抽出制限条件
入力手段180はマウスやキーボード及びディスプレイ
装置などで実現される。
【0010】次に図79を参照しながらこのデータベー
ス内容情報収集手段3の動作について説明する。具体的
には外部データベース1としてインターネットのWor
ld―WideWeb(WWW)を例にとって説明す
る。WWWでは、ある情報に別の情報をリンクさせるこ
とができる。すなわち、ある情報を調べると別の情報の
アドレスが分かる仕組みになっている。WWW空間にお
いては、各データ間のハイパーテキスト関係はURLに
よって管理されており、このURLを指定することによ
り目的のデータを収集することができる。以下、単にア
ドレスといった場合には、URLアドレスのことを指す
ものとする。
【0011】図79においては、まず最初に情報収集を
行う起点となるURLを収集開始条件入力手段100に
よって入力する。このURLは任意のものを任意の数だ
け入力してよい。具体例としては、“http://w
ww.umin.u―tokyo.ac.jp/”とい
うようなURLを指定することが考えられる。
【0012】次に、収集対象アドレス関連情報格納手段
120にこの収集開始アドレスを格納する。ここで収集
対象アドレス関連情報格納手段120は図80に示すよ
うなリスト構造になっており、収集するべきURLアド
レスを全て格納する。但し同じURLを重複して登録す
ることのないようチェックをしている。またリスト中の
アドレスに対して通し番号や、収集済であるかどうかな
どの情報を格納する。また図80に示す階層数は収集開
始URLからリンクされた情報の世代を表す。ここで、
階層数の概念について図81に示す。図81において収
集開始URLは階層数1であり、収集開始URLから直
接リンクされた情報のURLは階層数2、また、階層数
2の情報から直接リンクされた情報は、それまで階層数
1や階層数2に指定されているURLを除いて、階層数
3となる。以下、この繰り返しで階層数が定義される。
【0013】次に、収集先決定手段130は収集対象ア
ドレス関連情報格納手段120に格納されたURLか
ら、収集するURLをリストの通し番号で上位に並べら
れているものから順に選び、それを収集手段140に送
る。最初は“http://www.umin.u―t
okyo.ac.jp/”のアドレスがリストの先頭に
存在するので、これが選択される。
【0014】次に収集手段140は、収集先決定手段1
30によって決定された収集先のURLを通信制御装置
2に渡すことにより通信を行い、目的の情報を収集す
る。また収集した情報をデータベース内容情報記憶手段
4に格納する。この収集の方法及び通信制御装置2の機
能は当業者にとっては既知のHTTPという通信方式等
を用いて行われるので詳述しない。この収集を行うとき
に実際にアクセスするデータは、図82に示すようなフ
ァイルに収められたデータとなっている。この図82の
文書はHTMLと呼ばれる言語で書かれており、<>と
いうタグ記号によって各種情報の意味を明示している。
例えば<TITLE>はタイトル、<BODY>は本
文、<A HREF=>は他の情報へのリンクという具
合である。ここで収集する情報とは、このようにあるU
RLにアクセスすることにより得られる本文やタイトル
やリンクアドレスなど、このファイルに含まれる情報全
体のことを指すものとする。なお、<A HREF=>
というタグはリンクタグと呼ばれ、これによってgop
her://gan1.ncc.go.jp/など他の
情報のあるURLアドレスをリンクさせることができ、
ハイパーテキスト構造を実現している。
【0015】次にリンク抽出制限手段190によって、
収集手段140が収集した情報からリンクタグを解析し
てその情報にリンクされたアドレスを収集対象にするこ
とを一定の範囲に制限する。制限の条件は、リンク抽出
制限条件入力手段180から入力されるが、これは収集
開始アドレスからの階層数で指定される。ここで一例と
して図81に示すような階層構成になっていた場合、収
集開始アドレスから2階層までを収集対象とするように
収集範囲を指定すると、図81中で3階層目とされた部
分からは収集対象とはしないことになり、http:/
/www.ncc.go.jp/のようなアドレスの情
報は収集されない。このようにしてリンクタグを解析す
べき情報が全くなくなると収集するべきアドレスの総数
が決定することになり、これを全て収集すれば収集は終
了する。
【0016】次に、リンク先アドレス抽出手段9の動作
について説明する。WWWの情報の多くは、図81に示
すようなHTML言語と呼ばれるハイパーテキストで記
述されており、リンクタグと呼ばれる<a href=
>記号で囲まれた部分にリンクしたい情報のURLア
ドレスを書き込むことによって、ある情報に別の情報を
リンクさせることができる。そこで、リンク先アドレス
抽出手段170は収集した情報のリンクタグを解析する
ことにより、収集した情報にリンクされた情報のURL
アドレスを得ることができる。この時リンク情報のアド
レスは、図83に示す例のようにそれ単体では意味をな
さない、現在のURLアドレスを起点とした相対アドレ
スで書かれていることがあるので、その場合には図83
に示すように、ある情報格納場所に対して全WWW内で
唯一のURLとなるような絶対URLアドレスに変換す
る。この変換は当業者にとっては既知のものであるの
で、詳述しない。
【0017】最後に、リンク先アドレス抽出手段によっ
て抽出された収集情報にリンクされているURLは収集
対象アドレス関連情報格納手段120に送られ、新しく
抽出されたURLアドレスはリスト内に既存のURLと
重複を防いだ形で登録される。一度収集開始条件を指定
すると、後はこれまで述べたような操作の繰り返しによ
り情報収集が実行される。このようにして収集されてデ
ータベース内容情報記憶手段4に記憶された情報につい
て、先の図74に述べたインデックス作成手段105に
より、索引インデックスが作成され、登録記憶されるこ
とになる。またこれを用いてデータ検索がなされる。
【0018】
【発明が解決しようとする課題】以上のように、従来の
データベース検索装置においては、外部データベースか
ら収集された情報を、そのまま検索インデックスに変換
し、利用者に提供することしかできないため、収集され
た情報の中から特定の目的・用途に応じた検索インデッ
クスを構築したり、検索インデックスの内容を利用者の
目的・用途に限定して提供することはできないという問
題があった。このため、従来のデータベース検索装置を
特定の目的・用途で利用する場合、インデックスのデー
タ量が大きく検索に時間がかかったり、不必要な情報が
多量に検索されてしまうなど、目的の情報が容易に検索
できないという問題があった。
【0019】また、一度構築した検索インデックスに対
して、情報の追加・更新を行うためには、検索インデッ
クスの初期構築時の処理を再度行う以外に方法はなく、
新たに発生したデータや更新されたデータの情報を素早
く検索インデックスに反映することができないという問
題があった。
【0020】また、収集したデータをローカルに保管し
ておくことはできても、そのデータをどのように検索し
たかという検索履歴を蓄積しておくことはできないた
め、関連するデータを検索したいというような場合に
は、再び最初から検索を行わなければならないという問
題があった。
【0021】また、情報収集に際してある情報にリンク
された他の情報へのリンクを抽出する階層数を制限する
ことはできたが、URL抽出手段で見つけられたリンク
URLのうち、特定の目的に合致するものだけを選択し
て収集できるものではなかった。このため、収集する情
報の内容を特定目的のもののみに限定することが困難で
あるという問題があった。
【0022】また、収集することを決定したURLは全
て収集していたため、収集時に通信異常など異常に対処
したり、必要なもののみを更新したり不要なものを削除
したりというきめ細かな情報の絞り込みができないとい
う問題があった。
【0023】
【課題を解決するための手段】この発明に係わるデータ
ベース検索装置は、データベースを検索して所望のデー
タを取り出すデータベース検索装置において、下記の要
素を備えるようにしたものである。 (a)データベースを検索する検索インデックスのカテ
ゴリ情報をインデックス定義情報として定義するインデ
ックス定義手段、(b)前記インデックス定義手段によ
り定義されたインデックス定義情報を記憶するインデッ
クス定義情報記憶手段、(c)前記インデックス定義情
報記憶手段に記憶されているインデックス定義情報とデ
ータベースの内容情報との比較処理を行い、特定の用途
・目的に対応したカテゴリ別の検索インデックスを作成
するインデックス作成手段、(d)前記インデックス作
成手段により作成された検索インデックスを記憶する検
索インデックス記憶手段、(e)前記検索インデックス
記憶手段に記憶されている検索インデックスを用いて、
データベースを検索するデータ検索手段。
【0024】また、前記データ検索手段で検索したデー
タベースの実体データを検索したときの検索履歴を記憶
する検索履歴記憶手段と、この検索履歴記憶手段を管理
する検索履歴管理手段と、を設け、検索履歴を基にデー
タベース検索を行うようにしたものである。
【0025】また、前記インデックス定義手段で定義す
るカテゴリ情報にはカテゴリと共にその類似語を定義す
るようにしたものである。
【0026】また、前記インデックス作成手段は、作成
した検索インデックスと共に、前記カテゴリ情報を前記
検索インデックス記憶手段に記憶させ、このカテゴリ情
報を用いて前記データ検索手段が検索を行うようにした
ものである。
【0027】また、カテゴリ別の検索インデックス間の
和または積または差分等を演算した結果を検索インデッ
クスとして追加・編集するインデックス編集手段を設け
るようにしたものである。
【0028】また、検索したデータベースの実体データ
を抽出するデータベース内容情報抽出手段と、抽出した
実体データを収集するデータベース内容情報収集手段
と、このデータベース内容情報収集手段の収集したデー
タと前記インデックス定義情報記憶手段に記憶されてい
る検索インデックスと、を基に検索インデックスの追加
・更新を行うインデックス追加・更新手段を設けるよう
にしたものである。
【0029】また、前記検索インデックスを利用者の目
的・用途に合った範囲、内容に限定して提示する用途別
ビューア手段と、その用途別ビューアを定義する用途別
ビューア定義手段と、定義された用途別ビューアを記憶
する用途別ビューア記憶手段と、を設けるようにしたも
のである。
【0030】また、複数の目的・用途にまたがった情報
の検索において、前記用途別ビューア記憶手段に記憶さ
れている関連する用途別ビューアを検索して提示する関
連ビューア検索手段を設けるようにしたものである。
【0031】また、前記関連ビューア検索手段で検索し
た用途別ビューア間の関連情報を記憶するビューア間関
連情報記憶手段と、このビューア間関連情報記憶手段を
管理するビューア間関連情報管理手段と、を設け、前記
関連ビューア検索手段は前記ビューア間関連情報管理手
段の管理する用途別ビューア間の関連情報を用いて検索
を行うようにしたものである。
【0032】また、前記用途別ビューア定義手段は用途
別ビューアを利用形態に合わせて階層化して定義する手
段を有し、この用途別ビューア定義手段で定義した階層
化された用途別ビューアを記憶するビューア間階層情報
記憶手段と、このビューア間階層情報記憶手段を管理す
る用途別ビューア階層管理手段と、を設けた設けるよう
にしたものである。
【0033】また、この発明に係わるデータベース検索
方法は、下記の工程を有するものである。 (a)データベースを検索する検索インデックスのカテ
ゴリ情報をインデックス定義情報として定義する工程、
(b)定義したインデックス定義情報をインデックス定
義情報記憶手段に記憶する工程、(c)既に自装置内に
取込済みのデータベースの内容情報からキーワードとな
る単語を抽出する工程、(d)抽出した単語とインデッ
クス定義情報記憶手段に記憶されているインデックス定
義情報との比較処理を行う工程、(d)比較処理を行っ
た結果を基にカテゴリ別の検索インデックスを作成する
工程、(e)作成した検索インデックスを検索インデッ
クス記憶手段に記憶する工程、(f)検索インデックス
記憶手段に記憶されている検索インデックスを用いて、
データベースを検索する工程。
【0034】また、さらに下記の工程を有するようにし
たものである。 (a)検索条件に指定されたカテゴリ別の検索インデッ
クス間の和または積または差分等の演算を行う工程、
(b)演算結果に基づいて前記検索インデックスの追加
・編集処理を行う工程、(c)追加・編集処理結果を前
記検索インデックス記憶手段に記憶する工程。
【0035】また、さらに下記の工程を有するようにし
たものである。 (a)検索したデータベースの内容情報のヘッダ情報を
抽出する工程、(b)抽出したヘッダ情報を前記検索イ
ンデックス記憶手段に記憶されている検索インデックス
のヘッダ情報との比較処理を行う工程、(c)比較処理
を行った結果に基づいて前記検索インデックス記憶手段
の内容を追加・更新する工程。
【0036】また、さらに下記の工程を有するようにし
たものである。 (a)利用者の目的・用途に合った範囲、内容に限定す
る用途別ビューアを定義する工程、(b)定義した用途
別ビューアを用途別ビューア記憶手段に記憶する工程、
(c)データベース検索の条件設定をするときに、前記
用途別ビューアを表示する工程。
【0037】また、さらに下記の工程を有するようにし
たものである。 (a)データベースを検索したときの検索履歴を記憶す
る工程、(b)記憶した検索履歴を検索履歴記憶手段に
記憶する工程、(c)前記データベースを検索する工程
は前記検索履歴を参照して検索を行う工程。
【0038】この発明に係るデータベース検索装置は、
外部データベースからデータを収集し、検索インデック
スを作成するために必要な情報を抽出するデータベース
内容情報収集手段と、この抽出されて記憶された必要な
情報を基に、単語を切り出して検索インデックスとする
インデックス作成手段と、上記切り出されて記憶された
検索インデックスを用いて情報を検索するデータ検索手
段を備えたデータベース検索のための構成において、上
記データベース内容情報収集手段は、データの収集に際
して、収集範囲を限定する収集対象限定条件入力に適合
するデータのみを選択する収集対象限定手段を設け、指
定された収集条件で外部データベースからデータを収集
し、リンク先を抽出して、上記収集対象限定手段で限定
される情報のみを記憶して、以降の外部データベースか
らの収集対象を限定するようにした。
【0039】また更に、収集対象限定手段は、収集開始
アドレスと同じドメイン名、パス名を持つアドレスを限
定し、かつ指定された非収集パスを除いた範囲にデータ
収集の範囲を限定した。
【0040】また更に、収集対象限定手段は、指定され
たマッチング文字列をアドレス内に持つアドレスにデー
タ収集の範囲を限定した。
【0041】また更に、収集対象限定手段は、指定され
た語彙を用いてある範囲のアドレスにある情報内容が類
似と判定される範囲のアドレスにデータ収集の範囲を限
定した。
【0042】また更に、データベース内容情報収集手段
は、収集情報が異常と判定された収集情報を削除する異
常情報削除手段を付加し、この異常情報とみなされた情
報をデータベース内容情報から削除し、異常とされた情
報があるアドレスをリンク抽出及び収集対象から除外す
るようにした。
【0043】また更に、データベース内容情報収集手段
は、収集対象限定手段で限定される情報の記憶に際して
条件に適合するか否かを示す削除フラグを付加して記憶
し、更新収集においては上記削除フラグをみてデータベ
ース内容情報から削除し、適合する情報を更新収集する
ようにした。
【0044】また更に、データベース内容情報収集手段
は、収集対象アドレスでないと判定されるリンク先アド
レスを外部ユニットリンクとして格納する外部ユニット
リンク格納手段を付加し、上記格納された外部ユニット
リンクの数から統計処理して基準に合うアドレスを収集
対象アドレスに組み込むようにした。
【0045】また更に、データベース内容情報収集手段
は、外部検索機構で検索を行う検索式に適合した検索条
件を取得する検索条件適合アドレス取得手段と、この取
得したアドレスのリンク数から統計処理して基準に合う
アドレスを収集対象アドレスに組み込むようにした。
【0046】この発明に係るデータベース検索方法は、
外部データベースからデータを収集し、検索インデック
スを作成するために必要な情報を抽出するデータベース
内容情報収集工程と、このデータベース内容情報収集工
程で抽出された情報を記憶するデータベース内容情報記
憶工程と、このデータベース内容情報記憶工程で記憶さ
れた情報を基に単語を切り出して検索インデックスとす
るインデックス作成工程と、この切り出されて記憶され
た検索インデックスを用いて情報を検索する工程から構
成される方法において、上記データベース内容情報収集
工程に、データの収集範囲を限定する収集対象限定条件
入力工程と、この収集対象限定条件入力工程で得られ条
件に適合するデータのみを選択する収集対象限定工程
と、を設けて、この収集対象限定工程で限定された収集
条件で外部データベースからデータを収集し、リンク先
を抽出して、上記収集対象限定工程で限定される情報の
みを記憶して、以降の外部データベースからの収集対象
を限定するようにした。
【0047】また更に、データベース内容情報収集工程
に、必要に応じて指定された期日または期間で更新収集
をする収集工程と、収集記憶されたデータに付加された
削除フラグに基づき、更新時にデータベース内容情報記
憶工程で記憶された情報を削除する工程と、を付加し
た。
【0048】
【発明の実施の形態】
実施の形態1.図1乃至図9は、この発明によるデータ
ベース検索装置の一実施の形態を説明する図である。図
1はこの実施の形態1の構成を示す図で、図において、
1はネットワーク上に分散して配置されていて、個別に
作成・運営されている外部データベース、2は外部デー
タベース1と通信を行うための通信制御装置、3は外部
データベース1から、キーワード情報や、データ間の関
連情報など、データベースの実体データである内容情報
を収集するデータベース内容情報収集手段、4は収集し
たデータベース内容情報を記憶するデータベース内容情
報記憶手段、5は後述のインデックス定義情報記憶手段
13に記憶されているインデックス定義情報と、データ
ベース内容情報記憶手段4に記憶されているデータベー
ス内容情報とのマッチング(比較処理)を行い、利用者
が定義したカテゴリに関する検索インデックスを作成す
るインデックス作成手段、6は作成された種類の異なる
複数の検索インデックスを記憶する検索インデックス記
憶手段、7は種類の異なる複数の検索インデックスの中
から利用したい検索インデックスを用いて、検索すべき
データが格納されているデータベースまたはデータを検
索するデータ検索手段、8は検索されたデータベースま
たはデータにアクセスし、データの実体を検索する実体
データ検索手段、9は収集したデータをローカルに保存
・管理する収集データ管理手段、10は収集したデータ
を記憶する収集データ記憶手段、11は検索条件を入力
したり、検索結果を表示するための検索インターフェー
ス装置、12は利用者が必要とするインデックスのカテ
ゴリ情報を定義するインデックス定義手段、13はイン
デックス定義手段12により定義されたインデックス定
義情報を記憶するインデックス定義情報記憶手段であ
る。
【0049】なお、データベース内容情報収集手段3,
インデックス作成手段5,データ検索手段7,実体デー
タ検索手段8,収集データ管理手段9、インデックス定
義手段12はコンピュータシステム上で動作するソフト
ウェアで構成され、データベース内容情報記憶手4,検
索インデックス記憶手段6,収集データ記憶手段10、
インデックス定義情報記憶手段13は磁気ディスク等の
記憶装置上に実現される。また、検索インターフェース
装置11はマウスやキーボード及びディスプレイ装置な
どで実現される。
【0050】図2は検索インデックスを作成するときの
動作を説明する図、図3は検索インデックスを作成する
処理の流れを示すフローチャート図、図4はカテゴリ情
報の具体例を示す図、図5はインデックス定義情報の具
体例を示す図、図6はデータベース内容情報の具体例を
示す図、図7は検索インデックス情報の具体例を示す
図、図8は検索条件入力画面の具体例を示す図、図9は
検索結果画面の具体例を示す図である。以下、図を参照
しながら、この実施の形態1における動作について説明
する。
【0051】先ず、検索インデックスを作成するときの
動作について図2を参照しながら説明する。利用者はイ
ンデックス定義手段12により作成したい検索インデッ
クスのカテゴリに関する情報を入力する。入力された情
報は、インデックス定義情報としてインデックス定義情
報記憶手段13に記憶される。なお、ここで定義された
インデックス定義情報は、インデックス定義手段12を
用いて後から編集・追加することができる。次にデータ
ベース内容情報収集手段3を用いて、外部データベース
1から、キーワード情報や、データ間の関連情報などデ
ータベースの内容情報を収集し、収集したデータベース
内容情報はデータベース内容情報記憶手段4に記憶され
る。データベース内容情報収集手段3を動作させるため
には、(1)検索探査開始データのアドレスと、(2)
関連データ探索の深さ(階層)を入力する必要がある
が、この入力は、利用者が行っても、また別の装置から
の出力を入力するようにしても構わない。なお、データ
ベース内容情報収集手段3の具体的な動作は、従来例と
同じのため、ここではその説明は省略する。インデック
ス作成手段5は、データベース内容情報収集手段3が動
作して、新たなデータベース内容情報を収集する毎に動
作し、インデックス定義情報と、収集されたデータベー
ス内容情報とのマッチング処理を行い、検索インデック
ス情報を作成して、検索インデックス記憶手段6に登録
する。なお、検索インデックス作成時、どのインデック
ス定義情報とマッチングさせるかについては利用者が指
定することができ、複数のインデックス定義情報を指定
することも可能である。また、収集されたデータベース
内容情報が既に検索インデックス記憶手段6に登録され
ている場合は、検索インデックス記憶手段6の情報を更
新する。
【0052】次に、インデックス作成手段5の具体的な
動作について、その処理の流れを示す図3のフローチャ
ート図を用いて説明する。なお、ここでの処理の具体例
として、インデックス定義手段12により、図4に示す
カテゴリ情報が定義され、インデックス定義情報として
図5に示す構造でインデックス定義情報記憶手段13に
記憶されているものとする。まず、ステップS31にお
いて、新たに収集されたデータベースの内容情報をデー
タベース内容情報記憶手段4から読み込む。次にステッ
プS32において、読み込まれたデータベース内容情報
の中から、項目として「タイトル」、「URL(自デー
タ)」、「日付」に対応する文字列情報を抽出し、ヘッ
ダ情報として記憶しておく。図6(a)に示す例で説明
すると、「日本の自動車」、「http://car.
jp/」、「1995−4−25」がそれぞれ抽出され
る。次にステップS33において、同様に、キーワード
抽出対象項目として、「タイトル」、「見出し」、「本
文」に対応する文字列情報が順次抽出される。なお、見
出し、本文は複数あっても構わない。次にステップS3
4において、抽出された文字列情報の中から単語を抽出
する。なお、この単語抽出処理については、形態素解析
処理を用いた単語抽出方式など、当業者には周知の単語
抽出手段を用いて実現する。抽出された単語は、キーワ
ード情報として記憶しておく。次に、ステップS35に
おいて、ステップS34における処理で抽出された単語
が、指定されたインデックス定義情報で定義されている
かどうかのマッチング処理を行う。例えば、図6(a)
の例を用いて説明すると、ステップS34の処理によ
り、タイトルの「日本の自動車」から「日本」と「自動
車」という単語が抽出され、図5に示すカテゴリ情報の
1列目(カテゴリ)と3列目(類似語)とのマッチング
処理を行う。この場合、「自動車」はマッチングする
が、「日本」はマッチングしないという結果が得られ
る。なお、図5に示すインデックス定義情報では、カテ
ゴリに対して、類似語を定義できるようになっているの
で、「オートバイ」と「2輪自動車」というような表現
の違いに対しても対応できるようになっている。次にス
テップS36において、マッチング処理の結果により処
理の流れを制御する。マッチングしなかった場合には、
次の単語に対してマッチング処理を行う。マッチングし
た場合は、マッチングした単語を、カテゴリキーワード
として記憶しておく。なお、この処理において、複数の
インデックス定義情報が指定されている場合、ステップ
S35のマッチング処理は、ひとつの単語に対して、指
定されたインデックス定義情報の数分繰り返され、カテ
ゴリキーワード情報も、指定されたインデックス定義情
報の数分作成される。ステップS38において、上記処
理により記憶されたヘッダ情報、キーワード情報、カテ
ゴリキーワード情報をまとめて、検索インデックス記憶
手段6に登録(記憶)する。
【0053】なお、図7は、図6に示す3つのデータベ
ース内容情報から検索インデックスを作成した場合の例
を検索インデックス記憶手段6のデータ構造と合わせて
示している。図7において、カテゴリキーワード情報の
うち、自動車カテゴリに関するものが、図5に示すイン
デックス定義情報を利用して作成された部分である。ま
た、検索インデックス記憶手段6では、図7に示すよう
に、複数のカテゴリに対応することができるようになっ
ている。
【0054】次にデータ検索時の動作について説明す
る。例えば、利用者がネットワーク上に分散している大
量の外部データベース1の中から「自動車」に関する情
報を検索する場合、検索インターフェース装置11の検
索条件入力画面を用いてデータ検索手段7に対して、図
8に示すような検索条件を入力する。なお、このとき、
この実施の形態1においては、どのカテゴリの検索イン
デックスを使用するかを利用者が指定できるようになっ
ている。ここでは、「自動車カテゴリ」を指定して検索
を実行する。図9は図7に示す検索インデックスを用い
て検索を実行した結果を示している。なお、ここでは、
「自動車カテゴリ」1つのみを指定しているが、「自動
車カテゴリ」と「経済カテゴリ」のように複数指定して
検索を実行することも可能である。この場合は、検索イ
ンデックスのうち、2つのカテゴリに対応したインデッ
クスが利用される。この実施の形態1においては、カテ
ゴリに対応した検索インデックスを指定して、データの
検索が行えるので、従来の方式に比べ、検索インデック
スのマッチングが高速に行え、利用者の欲しい情報をよ
り早く検索することが可能となる。
【0055】また、図9に示しているように、検索結果
の中から、データの実体を検索して参照したい場合、デ
ータを指定して、「検索実行」を指定することにより、
実体データ検索手段8が外部データベース1よりデータ
の実体を検索・表示することにより、利用者はデータの
実体を参照することができる。さらに、検索されたデー
タを利用者がローカルに保存しておきたいと考えた場合
には、データに名称(ファイル名など)を付与し、収集
データ管理手段9に保管しておくことができる。収集デ
ータ管理手段9は、入力されたデータを付与された名称
と合わせ、収集データ記憶手段10に記憶しておき、後
で、名称をキーとして表示要求があった場合に、検索イ
ンターフェース装置11を介し、利用者に表示する。
【0056】なお、この実施の形態1においては、図7
に示した検索インデックスには、複数のカテゴリに対応
したキーワード情報の他に、カテゴリを指定しないキー
ワード情報も格納する場合について説明したが、カテゴ
リを指定しないキーワード情報は必ずしも入力する必要
はなく、また、特定のカテゴリに対応した検索インデッ
クスのみを定義することも可能である。これによって、
本当に利用者の必要とする検索インデックスのみを構築
することができ、検索の高速化の他に、検索インデック
スを記憶する磁気ディスクなどの記憶装置の容量を大幅
に節約できるという効果も得られる。
【0057】また、この実施の形態1においては、検索
キーワードが1つの場合について説明したが、利用者が
指定できるキーワードの数は複数でもよく、そのキーワ
ード間の関係もAND(論理積),OR(論理和)の指
定ができるものであってもよい。
【0058】実施の形態2.図10乃至図12は、この
発明によるデータベース検索装置の他の実施の形態を説
明する図で、図10は検索インデックスのデータ構造
(カテゴリ情報を付加したインデックス定義情報)の具
体例を示す図、図11はカテゴリ検索条件入力画面の例
を示す図、図12はカテゴリ検索画面及び検索結果の画
面の具体例を示す図である。
【0059】実施の形態1においては、キーワード検索
について説明したが、この実施の形態2は、実施の形態
1にカテゴリ検索を付加するものである。即ち、図7に
示す検索インデックスにカテゴリ情報も合わせてインデ
ックス定義情報として管理するようにしたものである。
カテゴリ検索を実現するための検索インデックスの例を
図10(図10(a)にカテゴリ情報を、図10(b)
に検索インデックスを)示している。なお、検索インデ
ックスを作成するときの動作については、検索インデッ
クスにカテゴリ情報を新たにインデックス定義情報とし
て追加する以外は、実施の形態1と同様である。
【0060】以下、図10に示す例を用いて、カテゴリ
検索を実現するためのデータ検索手段7の動作について
説明する。まず、検索を実行するためには、図11に示
すようなカテゴリ選択画面において、目的とするカテゴ
リを選択する。この選択結果を受けて、データ検索手段
7では、図11(1)に示すように選択されたカテゴリ
に関するルートの単語(この場合「自動車」)を表示す
る。さらに、図11(2),(3)に示しているように
利用者が表示された単語を指定することにより、関連す
る単語が順次検索され表示される。検索を実行するため
には、利用者は、表示された単語の中から検索条件とし
て指定したい単語を選択し、検索実行を指定する。図1
2に示す例では、検索条件として、「自動車」が選ばれ
た場合と、「自動車 AND 分類」が選ばれた場合の
検索実行結果を例として示している。なお、以降の動作
については、実施の形態1と同様である。
【0061】以上のように、この実施の形態2によれ
ば、実施の形態1におけるキーワード情報による検索の
他、カテゴリによる検索もできるようにしたので、利用
者は、必要なカテゴリを選択し、検索を実行することに
より、目的とするデータを容易に、また高速に検索する
ことが可能となる。
【0062】実施の形態3.図13乃至図17は、この
発明によるデータベース検索装置のさらに他の実施の形
態を説明する図である。図13はこの実施の形態3にお
ける構成を示す図、図14は検索インデックス編集画面
の具体例を示す図、図15はインデックス編集手段の動
作を説明するための図、図16は検索インデックス編集
画面の具体例を示す図、図17は検索インデックスの編
集例を示す図である。この実施の形態3の構成は、図1
に示す実施の形態1の構成に加えて、図13に示すよう
に、カテゴリ別の検索インデックス間の和・積・差分な
どの情報を利用者に提示する機能を備え、利用者が後か
ら必要に応じて検索インデックスの追加・編集を容易に
行うインデックス編集手段14を設けたものである。こ
のインデックス編集手段14もコンピュータシステム上
で動作するソフトウェアで実現される。
【0063】以下、図を参照しながら、動作について説
明するが、この実施の形態3と実施の形態1または実施
の形態2との動作の違いは、インデックス編集手段14
の動作のみであるので、ここでは、実施の形態2で説明
した図10に示すカテゴリ情報を用いる検索インデック
スを編集する場合を例として、インデックス編集手段1
4の動作を説明する。
【0064】カテゴリ情報を用いる検索インデックスを
編集する場合には、図14に示すインデックス編集画面
が表示される。この画面上のカテゴリ一覧で選択したカ
テゴリ(図の例では自動車カテゴリ)の内容が画面の右
側に表示される。また、インデックス編集手段14で
は、複数のカテゴリ間の和・積・差分等の情報を検索し
て提示できる。例えば、利用者が、この自動車カテゴリ
に自動マッチングでマッチングしなかった「経済」に関
する情報を追加したいと考える場合には、経済カテゴリ
情報の中から、自動車カテゴリと共通するもの以外を指
定して検索することができる。図14では、この検索を
実行するために、カテゴリ情報検索条件として「U
(2)*(3)」という条件を指定している。これは、
図15に示すように、2つの集合A,Bの「NA∩B」
を求める処理に相当する。インデックス編集手段14
は、この検索条件に対して、図10(b)に示す検索イ
ンデックスのカテゴリキーワード情報の自動車カテゴリ
とキーワード情報との差分を検出して、この差分と経済
カテゴリとのマッチングを行い、マッチングした単語を
検索結果として、図16に示すように利用者に提示す
る。利用者は提示された情報の中から新たに自動車カテ
ゴリに追加したいものがあれば、図16のように自動車
カテゴリに単語を追加して、編集実行を指定する。これ
により、検索インデックスの内容は、図17の斜線の部
分が追加されて編集される。
【0065】以上のように、この実施の形態3によれ
ば、自動マッチングでマッチングしなかった情報の中か
ら必要な情報を、特定の目的・用途に対応して作成され
たカテゴリ別の検索インデックス間の和・積・差分等の
情報を活用することにより容易に探索でき、後から検索
インデックスに追加することができる。
【0066】なお、上記の例では、カテゴリ情報を2つ
指定して検索を実行する場合について説明したが、指定
できるカテゴリ情報は3つ以上であっても構わない。
【0067】実施の形態4.図18乃至図22は、この
発明によるデータベース検索装置のさらに他の実施の形
態を説明する図である。図18は、この実施の形態4の
構成を示す図、図19は検索インデックス追加・更新時
の処理の流れを示すフローチャート図、図20はデータ
ベース内容情報の具体例を示す図、図21はインデック
ス追加・更新手段の処理の流れを示すフローチャート
図、図22は検索インデックスの追加・更新の具体例を
示す図である。この実施の形態4の構成は、図1に示し
た実施の形態1の構成に加えて、図18に示すように、
実体データ検索手段8に、外部データベース1のデータ
ベースまたはデータの実体の検索を実行したときに、そ
のデータベース内容情報を抽出して出力するデータベー
ス内容情報抽出手段15を設けると共に、このデータベ
ース内容情報抽出手段15において抽出されたデータベ
ース内容情報を基に、検索インデックス記憶手段6の追
加・更新を行うインデックス追加・更新手段16を設
け、データベース内容情報抽出手段15とインデックス
追加・更新手段16の間に、データベース内容情報記憶
手段3を別途設けるようにしたものである。なお、デー
タベース内容情報抽出手段15、インデックス追加・更
新手段16はコンピュータシステム上で動作するソフト
ウェアである。
【0068】以下、図を参照しながら、動作について説
明するが、この実施の形態4と実施の形態1または実施
の形態2との動作の違いは、データベース内容情報抽出
手段15とインデックス追加・更新手段16の動作のみ
であるので、ここでは、データベース内容情報抽出手段
15とインデックス追加・更新手段16の動作を中心に
説明する。
【0069】実体データ検索手段8は、データベースの
実体データのアドレス(インターネットの場合URL)
を受け取ると、ステップS191において、受け取った
アドレスを基に、外部データベース1にアクセスし、該
当するデータの実体を検索する。次にステップS192
において、検索されたデータベースまたはデータからそ
のデータベース内容情報を抽出し出力する。このステッ
プS192での処理を行うのが、データベース内容情報
抽出手段15である。なお、ステップS192での具体
的な処理内容(データベース内容情報を抽出する処理)
については、データベース内容情報収集手段3と同一で
ある。次に、ステップS193において、検索されたデ
ータベースまたはデータを検索インターフェース装置1
1に出力し、表示する。
【0070】次に、インデックス追加・更新手段16の
動作を、図19(a)、(b)のデータが検索され、デ
ータベース内容情報抽出手段15により、図20に示す
ようなデータベース内容情報が抽出された場合を例に説
明する。また、検索インデックスは、現在図10に示す
ような状態にあるものとする。インデックス追加・更新
手段16はステップS211において、データベース内
容情報抽出手段15により抽出され、データベース内容
情報記憶手段4に記憶されているデータベース内容情報
を読み込む。次に、ステップS212において、読み込
んだデータベース内容情報の中から、ヘッダ情報(タイ
トル、URL(自データ)、日付)を抽出する。次に、
ステップS213において、ヘッダ情報のうち、URL
(自データ)に関して、図10に示す検索インデックス
とのマッチング処理を行う。次に、ステップS214に
おいて、マッチング処理結果を判定する。判定の結果、
マッチングしたものがなければ、ステップS218の処
理を行い、マッチングしたものがあれば、ステップS2
15の処理を行う。ステップS215の処理では、マッ
チングしたデータに対して、日付のチェックを行う。次
に、ステップS216において、そのチェック結果を判
定する。判定の結果、日付が更新されていれば、ステッ
プS処理218の処理を行い、更新されていなければ、
ステップS217の処理を行う。このステップS217
の処理においては、以上の処理においては、データベー
スまたはデータの実体が更新されていないので、検索イ
ンデックスの更新は行わず、抽出したデータベース内容
情報を消去する。次に、ステップS218において、抽
出したデータベース内容情報を検索インデックスに追
加、または検索インデックスの情報を更新する処理を行
う。なお、この追加・更新処理の具体的な処理内容はイ
ンデックス作成手段5と同一である。図20のデータベ
ース内容情報を基に、図10の検索インデックスの追加
・更新を行った結果を図22に示す。
【0071】実施の形態5.図23乃至図27は、この
発明によるデータベース検索装置のさらに他の実施の形
態を説明する図である。図23はこの実施の形態5の構
成を示す図、図24は検索インデックスのカテゴリ情報
の具体例を示す図、図25は用途別ビューアの具体例を
示す図、図26は用途別ビューア情報のデータ構造の具
体例を示す図、図27は用途別ビューアを用いたデータ
検索の具体例を示す図である。この実施の形態5の構成
は、図1に示した実施の形態1の構成に加えて、図23
に示すように、検索インデックスの情報を利用者の目的
・用途に合った範囲、内容に限定して提示する用途別ビ
ューア手段17、用途別ビューアを定義する用途別ビュ
ーア定義手段18、用途別ビューア定義手段18により
定義された用途別ビューア情報を記憶する用途別ビュー
ア情報記憶手段19を設けるようにしたものである。な
お、用途別ビューア手段17,用途別ビューア定義手段
18はコンピュータシステム上で動作するソフトウェア
で実現されている。用途別ビューア情報記憶手段19は
磁気ディスク等の記憶装置により実現される。
【0072】以下、図を参照しながら、動作について説
明するが、この実施の形態5と実施の形態1または実施
の形態2との動作の違いは、用途別ビューア手段17と
用途別ビューア定義手段18と用途別ビューア情報記憶
手段19の動作のみであるので、ここでは、用途別ビュ
ーア手段17、用途別ビューア定義手段18、用途別ビ
ューア情報記憶手段19の動作を中心に説明する。
【0073】図24に示すようなインデックス定義情報
がインデックス定義手段12により定義され、これに対
応する検索インデックスがインデックス作成手段5によ
り作成されている場合を例にして説明する。例えば、図
24(a)、(b)、(c)に示す3つの検索インデッ
クスのカテゴリの中の一部ずつを集めた検索インデック
スを作成したい場合には、用途別ビューア定義手段18
により、図25に示すような用途別ビューアを定義す
る。この用途別ビューアは、新たな検索インデックスを
作成するのではなく、既存の複数の検索インデックスに
またがったビューアを定義できるものであり、図25の
例では、図24の(a)(b)(c)のそれぞれA、
B、Cの部分を集めたビューアが定義されている。図2
6は、図25に示す用途別ビューアのデータ構造を示し
ている。図26において、カテゴリに関する情報の他
に、検索時に、どのカテゴリ別検索インデックスをアク
セスしたらよいかという情報が記憶されている。なお、
この情報は、用途別ビューア定義手段18に記憶され
る。
【0074】次に、用途別ビューア情報記憶手段19の
動作について説明する。利用者はデータを検索したい場
合、データ検索手段7の他に、この用途別ビューアを用
いて検索を行うことができる。データ検索時、利用者は
利用したい用途別ビューアを指定すると、図27に示す
ように指定された用途別ビューアが検索されて表示され
る。ここで、例えば、「トラック」と「A社」と「自動
車輸出」のANDでデータを検索すると指定した場合、
用途別ビューア情報記憶手段19は、図26の用途別ビ
ューア情報のうち、それぞれの単語のマッチング対象の
カテゴリ別検索インデックスを判定し、検索インデック
スとのマッチング処理を行う。図27の検索インデック
スの例で、四角で囲まれた単語がマッチングしたもので
ある。ここで、検索条件は3つの単語のANDなので、
“A社の紹介”というデータが検索結果として利用者に
提示される。
【0075】実施の形態6.図28乃至図31は、この
発明によるデータベース検索装置のさらに他の実施の形
態を説明する図である。図28はこの実施の形態6の構
成を示す図、図29は関連ビューア検索手段の処理の流
れを示すフローチャート図、図30は関連ビューア検索
の具体例を示す図、図31は拡張関連ビューア検索の具
体例を示す図である。この実施の形態6の構成は、図2
3に示した実施の形態4の構成に加えて、図28に示す
ように、利用者が複数の目的・用途にまたがった情報を
検索する場合に、関連する用途別ビューアを検索し、利
用者に提示する関連ビューア検索手段20を設けるよう
にしたものである。なお、関連ビューア検索手段20は
コンピュータシステム上で動作するソフトウェアで実現
される。
【0076】以下、図を参照しながら、動作について説
明するが、この実施の形態6と実施の形態5との動作の
違いは、関連ビューア検索手段20の動作のみであるの
で、ここでは、関連ビューア検索手段20の動作を中心
に説明する。なお、関連ビューア検索手段20では、図
29に示す(a)関連ビューア検索と(b)拡張関連ビ
ューア検索の2つの検索機能を備えている。それぞれの
検索機能の処理の流れを図29、図30、図31を用い
て説明する。まず、関連ビューア検索では、例えば、利
用者が「自動車産業」の用途別ビューアを参照している
時に、「A社」の他の事業についての情報を検索したい
という要求があった場合、利用者は、「自動車産業」の
用途別ビューアの中の単語「A社」を指定して、関連ビ
ューア検索を実行する。この要求を受けて、関連ビュー
ア検索手段20では、図29に示すステップS291の
処理を実行し、用途別ビューア情報記憶手段19に記憶
されている用途別ビューア情報の中から、「A社」とい
う単語を含む用途別ビューアを検索し、図30に示す
(a)検索結果1,(b)検索結果2のように利用者に
提示する。これによって、利用者は、検索された用途別
ビューアを用いることにより、A社の他の事業に関する
情報を容易に検索することができる。
【0077】次に、拡張関連ビューア検索では、利用者
が、「自動車産業」の用途別ビューアの中の単語「A
社」を指定して、拡張関連ビューア検索を実行した場
合、ステップS292の処理により、検索インデックス
記憶手段6に記憶されているカテゴリ別検索インデック
スの中から、「A社」という単語を含むものを検索す
る。次に、ステップS293の処理では、ステップS2
92の処理で検索された検索インデックスの中から、
「A社」という単語の上位階層及び下位階層の単語を抽
出し、利用者にその結果を提示する。具体的には、図3
1に示すように、カテゴリ関連表示・選択画面を表示す
る。なお、この例では、図24(b)の企業カテゴリの
うち、「A社」の上位階層及び下位階層の単語が抽出さ
れ提示された場合を示している。この画面において、利
用者が、例えば、「A2社」のように単語を指定する
と、ステップS294の処理により、指定された単語
(A2社)が含まれる用途別ビューアを検索し、利用者
に提示する。
【0078】以上のように、この実施の形態6によれ
ば、拡張関連ビューア検索機能により、用途別ビューア
間に、直接データの関連がなくても、検索インデックス
の情報を介して、間接的に関連を持つ用途別ビューアを
検索し、利用者に提示することができる。
【0079】実施の形態7.図32及び図33は、この
発明によるデータベース検索装置のさらに他の実施の形
態を説明する図である。図32はこの実施の形態7の構
成を示す図、図33はビューア間関連情報の具体例を示
す図である。この実施の形態7の構成は、図28に示し
た実施の形態6の構成に加えて、図32に示すように、
関連ビューア検索手段20が関連ビューアの検索を行っ
た際に、検索された用途別ビューア間の関連情報を蓄積
・管理し、次回以降同様の検索要求があった場合に、こ
の関連情報を用いて関連ビューアの検索を高速に行える
ビューア間関連情報管理手段21とビューア間関連情報
を記憶するビューア間関連情報記憶手段22とを設ける
ようにしたものである。なお、ビューア間関連情報管理
手段21はコンピュータシステム上で動作するソフトウ
ェアであり、ビューア間関連情報記憶手段22は磁気デ
ィスク等の記憶手段を用いて実現される。
【0080】以下、図を参照しながら、動作について説
明するが、この実施の形態7と実施の形態6との動作の
違いは、ビューア間関連情報管理手段21とビューア間
関連情報記憶手段22とにあるので、ここでは、ビュー
ア間関連情報管理手段21とビューア間関連情報記憶手
段22の動作を中心に説明する。ビューア間関連情報管
理手段21は、実施の形態6で説明した図30、図31
に示す関連ビューアの検索を実行すると、ビューア間関
連情報記憶手段22に図33のようなビューア間関連情
報を作成して格納しておく。この結果、図33における
1列目の「ビューア名」に対して、2列目の「単語」が
指定された場合に、関連するビューアとして、3列目の
「関連ビューア」を検索することができる。なお、図3
3における3行目の「不動産産業,A社,レジャー産
業」や5行目の「音楽産業,A2社,自動車産業」のよ
うに、関連ビューア検索手段20の検索結果である用途
別ビューア間の関連や、関連ビューア検索手段20の検
索結果である用途別ビューアから、検索条件指定元であ
る用途別ビューアへの逆の関連もビューア間関連情報記
憶手段22に蓄積して記憶され、次回以降活用すること
ができる。
【0081】実施の形態8.図34乃至図37はこの発
明によるデータベース検索装置のさらに他の実施の形態
を説明する図である。図34はこの実施の形態8構成を
示す図、図35は用途別ビューアの階層化の具体例を示
す図、図36はビューア階層化情報の具体例を示す図、
図37は階層管理された用途別ビューアの利用例を示す
図である。図34において、18aは用途別ビューアを
定義する際に、定義した用途別ビューアの階層情報も定
義できる用途別ビューア定義手段、23は用途別ビュー
ア定義手段18aで定義されたビューア間階層情報を記
憶するビューア間階層情報記憶手段、24はビューア間
階層情報記憶手段23に記憶されているビューア間階層
情報を用いて、利用者から指定のあった階層に属する用
途別ビューアを検索し、利用者に提示する用途別ビュー
ア階層管理手段である。なお、用途別ビューア階層管理
手段24はコンピュータシステム上で動作するソフトウ
ェアであり、ビューア間階層情報記憶手段23は磁気デ
ィスク等の記憶手段を用いて実現される。
【0082】以上のように、この実施の形態8の構成
は、図23に示した実施の形態5の構成に対して、図3
4に示すように、用途別ビューア定義手段18を改良し
た用途別ビューア定義手段18aと用途別ビューア階層
管理手段24とビューア間階層情報記憶手段23とを設
けるようにしたものである。
【0083】以下、図を参照しながら、動作について説
明するが、この実施の形態8と実施の形態5との動作の
違いは、ビューア間階層情報記憶手段23と用途別ビュ
ーア階層管理手段24にあるので、ここでは、ビューア
間階層情報記憶手段23と用途別ビューア階層管理手段
24の動作を中心に説明する。この実施の形態8におい
ては、図35に示すように定義した用途別ビューアを階
層化して管理する。図35において、階層化レベル2,
3の用途別ビューアは、それぞれ階層化レベル1,2の
用途別ビューアの一部を定義したものである。また、図
36は、図35の用途別ビューアの階層情報を記憶する
ためのデータ構造を示す図である。図36において、定
義された用途別ビューアに対し、「階層レベル」及び
「階層名」が記憶される。図37は、用途別ビューア手
段17において、上記のビューア間関連情報を利用する
場合の例を示している。図において、「X1課」を指定
して用途別ビューアを選択した場合は、用途別ビューア
「自家用車」及び「A社」が検索され、利用者に提示さ
れる。また、「石川」を指定して用途別ビューアを選択
した場合は、用途別ビューア「A社」が検索され、利用
者に提示される。なお、この場合検索された用途別ビュ
ーア「A社」は、「X1課」を指定して検索された「A
社」とは異なるもの(A1社、A2社、A3社に限定さ
れたもの)である。
【0084】以上のように、この実施の形態8によれ
ば、用途別ビューアを階層化するようにしたので、例え
ば、部・課・個人などの利用形態に合わせた用途別ビュ
ーアの構築を行うことができる。また、この階層化情報
を利用することにより、検索インデックスのセキュリテ
ィ機能を実現することも可能である。例えば、特定の個
人が参照できる検索インデックスの範囲を、用途別ビュ
ーアの特定階層以下とするなどの実現方法が考えられ
る。なお、この実施の形態8では用途別ビューアが3階
層の場合を例に説明したが、用途別ビューアの階層は3
階層に限らず、n階層を定義することも可能である。
【0085】実施の形態9.図38乃至図42はこの発
明によるデータベース検索装置のさらに他の実施の形態
を説明する図である。図38はこの実施の形態9構成を
示す図、図39は実体データ検索手段による実体データ
の検索例を示す図、図40は検索履歴情報の表示画面の
例を示す図、図41は検索履歴情報のデータ構造の具体
例を示す図、図42は検索履歴管理手段の動作を示す図
である。図38において、25は収集したデータの実体
だけでなく、そのデータを検索した検索履歴の情報も合
わせて管理する検索履歴管理手段、26はその検索履歴
情報を記憶する検索履歴記憶手段である。なお、検索履
歴管理手段25はコンピュータシステム上で動作するソ
フトウェアであり、検索履歴記憶手段26は磁気ディス
ク等の記憶手段を用いて実現される。
【0086】以上のように、この実施の形態9の構成
は、図1に示した実施の形態1または実施の形態2の構
成に加えて、図38に示すように、検索履歴管理手段2
5と検索履歴記憶手段26とを設けるようにしたもので
ある。
【0087】以下、図を参照しながら、動作について説
明するが、この実施の形態9と実施の形態1または実施
の形態2との動作の違いは、検索履歴管理手段25と検
索履歴記憶手段26にあるので、ここでは、検索履歴管
理手段25と検索履歴記憶手段26の動作を中心に説明
する。例えば、図39はデータ検索手段7によりデータ
の検索を行った後に、実体データ検索手段8により実体
データの検索を行い、検索されたデータ「タイトル:日
本の自動車」から、さらに関連するデータを検索した結
果を図39に示す。検索履歴管理手段25は、実体デー
タ検索手段8で以上のような検索を実行した場合、その
検索実行手順を記憶しておいて、図40に示すような形
式で利用者に提示する。図40においては、「日本のメ
ーカー」というデータが実体データ検索手段8により検
索され、検索履歴として追加された場合を示している。
ここで、検索したデータの中から、データの実体をロー
カルに記憶しておきたいという場合、データに名称(フ
ァイル名)を付加し、収集データ管理手段9に記憶して
おくことができるが、収集データ管理手段9にデータの
保管要求があった場合、検索履歴管理手段25は、記憶
している検索履歴情報を、保管要求のあったデータのフ
ァイル名を管理情報として、検索履歴記憶手段26に記
憶する。図41は図40に示す検索履歴の中から「トラ
ック」のデータが「truck.txt」というファイ
ル名で収集データ管理手段9に保管された場合の検索履
歴情報のデータ構造を示している。なお、図41におい
て「登録データ」という列は、検索履歴情報の中でどの
データが保管されたものかを示す情報である。
【0088】次に、検索履歴情報の利用について説明す
る。図42は収集データ記憶10に記憶されているデー
タを表示する場合の処理の流れを示す図である。図にお
いて、(1)表示したいデータのファイル名が指定され
ると、(2)収集データ管理手段9は収集データ記憶手
段10より指定されたデータの実体を検索し、(3)表
示する。また、同時に、(4)検索履歴管理手段25に
対してファイル名が流され、検索履歴管理手段25で
は、(5)受け取ったファイル名をキーとして検索履歴
記憶手段26から該当する検索履歴情報を検索し、
(6)表示する。
【0089】以上のように、この実施の形態9によれ
ば、収集したデータの実体の他に、そのデータを検索し
た検索手順(履歴)を合わせて管理するようにしたの
で、既に収集したデータに関連のあるデータを検索した
いというような場合に、容易に関連データを検索するこ
とができる。なお、図42に示す検索履歴表示画面にお
いて、他のデータを指定した場合、そのデータのアドレ
ス情報(URL)が実体データ検索手段8に渡され、デ
ータの実体を検索され、表示される。
【0090】実施の形態10.図43は、この発明にお
けるデータベース検索装置の一実施の形態を説明する図
である。図43のうち、図74に示すような従来の技術
によるものと違う点は、データベース内容情報収集手段
30のみである。そこで、以後はこのデータベース内容
情報収集手段30の動作について説明する。
【0091】図44及び図45は、図43においてデー
タベース内容情報収集手段として示されている装置の、
本実施の形態における構成と動作を説明する図である。
図44はこの実施の形態の構成を示す図で、図におい
て、41は収集を開始する条件を入力する収集開始条件
入力手段、42は収集対象となるアドレスとその関連情
報を格納する、収集対象アドレス関連情報格納手段、4
3は格納したアドレスの中から収集先アドレスを決定す
る収集先決定手段、44は収集先決定手段によって決定
されたアドレスの情報を収集する収集手段、47は収集
した情報からリンク先のアドレスを抽出するリンク先ア
ドレス抽出手段、48は収集対象を限定するための条件
を入力する収集対象限定条件入力手段、49は抽出され
たリンク先アドレスから収集対象限定条件入力手段8に
よって指定された範囲に収集対象のアドレスを限定する
収集対象限定手段である。なお、上記収集先決定手段4
3、収集手段44、リンク先抽出制限手段47、収集対
象制限手段49はコンピュータシステム上で動作するソ
フトウェアで実現され、収集対象アドレス関連情報格納
手段42は、磁気ディスク等の記憶装置上に実現される
のが一般的である。収集開始アドレス入力手段41、リ
ンク抽出範囲入力手段48は、マウスやキーボード及び
ディスプレイ装置などで実現される。
【0092】また、図45は収集対象アドレス関連情報
格納手段42に格納されるデータの一例を示す図であ
る。以下、図44及び図45を参照しながらこの実施の
形態における動作について説明する。先ず、収集する情
報のアドレスの格納動作について図44を参照しながら
説明する。最初に収集開始条件入力手段41により収集
開始アドレスをURLアドレスで入力する。収集開始ア
ドレスはいくつ入力してもよい。なおこの収集開始条件
入力手段41から、必要に応じてその他の条件を収集開
始条件として指定することができる。入力されたURL
アドレスは、収集対象アドレス関連情報格納手段42に
格納される。ここでのデータは図45に示すようにリス
ト形式で格納されている。このリストは、収集開始アド
レスごとに収集の単位として収集ユニットというものを
設け、このユニットの番号とそのユニットの中のURL
の番号を管理番号として持つ。このユニットごとに整理
された表は、ユニットごとに分割された複数のファイル
から構成されていても構わない。なお、各ユニット内で
はURLは重複を防いだ形で登録されるが、全てのユニ
ットにわたって登録するURLの重複を防ぐようにして
も構わない。以下、収集ユニットないしは単にユニット
といえば、この収集開始アドレスごとに収集の範囲を区
切った時の単位のことを意味するものとする。収集対象
アドレス関連情報格納手段42には、図45に示すよう
にこの管理番号と収集対象アドレス、及び収集先決定手
段43がそのアドレスを処理したかどうかを表す収集チ
ェックフラグがある。
【0093】次に、収集先決定手段43の動作を説明す
る。収集先決定手段3は、図45の表にあるURLアド
レスを収集ユニットごとに処理してゆく。ユニット番号
の若い順に、そして同一収集ユニット内ではユニット内
番号が上位のものから選択する。そして選択したURL
は収集手段44に送られる。また、この処理をした際
に、収集対象アドレス関連情報格納手段42の収集チェ
ックフラグを未から済に変える。このフラグは収集の開
始時に未にリセットされるが、収集ユニット内のアドレ
スの収集が全て終了したかなどの判断に用いる。
【0094】次に、収集先決定手段43によって選択さ
れたURLの情報は、収集手段44によって通信制御装
置2を介して収集され、収集した情報はデータベース内
容情報記憶手段4に記憶される。さらに、収集情報はリ
ンク先アドレス抽出手段47に送られ、ここで収集した
情報のリンクタグを解析して収集URLからリンクされ
たURLアドレスを獲得する。この収集手段44、通信
制御装置2、データベース内容情報記憶手段4、リンク
先アドレス抽出手段47の動作は従来例のものと同様で
あるので、詳述しない。
【0095】次に、収集対象限定手段49は、収集対象
限定条件入力手段48による入力に従い、リンク先アド
レス抽出手段47で抽出されたURLアドレスを収集対
象アドレス関連情報格納手段42に格納するのを制限す
る。例えば、収集アドレスは収集開始アドレスと同じコ
ンピュータのアドレス名をもつものに限定するようにし
て、収集対象アドレス関連情報格納手段42に送るアド
レスを制限する方法などである。なお、ここで収集対象
アドレス関連情報格納手段42に、収集開始アドレスか
らの階層数を格納する項目を設ければ、収集制限方式と
して従来技術のようにリンク階層数を用いることも可能
である。また、この収集対象限定を行うにあたっては、
様々な限定法を組み合わせてこれを実現してもよい。収
集範囲を限定する具体的な方法は、以下の実施の形態で
詳しく説明する。このような限定条件を満たしたものだ
けが収集対象アドレス関連情報格納手段42に格納され
る。こうして、収集対象アドレス関連情報格納手段2に
格納すべきアドレスが全くなくなると、収集すべきアド
レスの総数が決定する。そしてこれを全て収集すれば、
収集は終了する。
【0096】以上のように、この実施の形態によれば、
収集対象アドレス関連情報格納手段42に登録されるU
RLを収集対象限定条件入力手段48に示された条件で
限定することができるため、特定の目的に合致する情報
を集めることができるようになる。
【0097】実施の形態11.図46乃至図48は、こ
の発明におけるデータベース内容情報収集手段の他の実
施の形態を説明する図である。図46は、この実施の形
態における装置の構成を示す図、図47は、図46にお
ける収集対象限定手段49aの動作を示すフローチャー
ト図、また図48は、収集アドレスの限定を行う際のデ
ータ例を示す図である。
【0098】この実施の形態では、実施の形態10で図
44に示すような収集対象限定手段49のうちの一つと
して、収集対象限定の処理を図46に示す収集対象限定
手段49aが、収集対象のURLアドレスをURLのネ
ットワークドメイン名やパス名で制限するという形で実
現したものである。この際に、収集対象限定条件入力手
段48aからの制限条件の入力にも従う。従って実施の
形態10との相違は、この収集対象限定条件入力手段4
8a、及び収集対象限定手段49aの部分のみであるた
め、それらの動作を中心に説明する。ここでネットワー
クドメイン名とは、インターネットに接続されたコンピ
ュータの一つ一つにそれぞれ唯一に割り当てられたアド
レスであるIPアドレス、ないしはインターネット内で
のそのIPアドレスの正式の別名であるコンピュータ名
のことを指している。またパス名とは、あるコンピュー
タの中でWWW用のデータを格納する際に作るディレク
トリの名前を指す。以下、ネットワークドメインないし
は単にドメインといえばこのインターネットでのネット
ワークドメインのことを指し、単にパスといえばこのコ
ンピュータのディレクトリのことを指すものとする。
【0099】この収集対象限定手段49aの具体的な動
作について、その処理の流れを示す図47のフローチャ
ート図を用いて説明する。なお、ここでの処理の具体例
として、図48に示すように収集開始条件入力手段41
より収集開始アドレスが入力され、またリンク先アドレ
ス抽出手段47によりリンクアドレスが抽出され、そし
て収集対象限定条件入力手段48aより、収集を行わな
いURLのパスである非収集パスが定義されたものとす
る。ここでまずステップS51により、リンク先アドレ
ス抽出手段47で抽出されたリンクURLアドレスを読
み込む。次にステップS52により、収集開始条件入力
手段41で入力された収集開始アドレスと、収集対象限
定条件入力手段48aより入力された非収集パスを読み
込む。次にステップS53により、収集開始アドレスの
ドメイン名とリンクが抽出されたURLのドメイン名と
を比較する。ここで図48の場合には、(e)に示され
たようなグループは収集開始アドレスとドメイン名、パ
ス名のいずれか、あるいはどちらもが違っているため、
ステップS54に進んで収集対象から除外される。また
(c)、(d)に示されたようなグループは、ドメイン
名・パス名ともに等しいので、ステップS55に進む。
次にステップS55においては、(d)に示されたよう
なグループは収集開始アドレスと同じドメイン名とパス
名を持つものの、非収集パスとして指定されているアド
レスに該当するのでステップS56に進み、収集対象か
ら除外される。そして(c)に示されたようなグループ
は、非収集パスに該当しないのでステップS57に進ん
で収集の対象となり、結局収集されるのは(c)のグル
ープだけに限定される。
【0100】以上のようにこの実施の形態によれば、実
施の形態10における収集対象アドレス限定を収集開始
アドレスと同じドメイン名とパス名にすることで、利用
者に制限範囲がわかりやすく、しかも確実な収集範囲制
限を行うことができる。
【0101】実施の形態12.図49乃至図51は、こ
の発明におけるデータベース内容情報収集手段のさらに
他の実施の形態を説明する図である。図49はこの実施
の形態における装置の構成を示す図、図50は図49に
おける収集対象限定手段49bの動作を示すフローチャ
ート図、図51は収集アドレスを文字列により限定する
場合のデータ例を示している。
【0102】この実施の形態では、実施の形態10で図
44に示すような収集対象限定手段49のうちの一つと
して、図49に示す収集対象限定手段49bがリンク先
アドレス抽出手段47により抽出されたURLアドレス
の文字列の中に、収集対象限定条件入力手段48bから
指定したマッチング文字列とマッチするものを見つけれ
ば、そのアドレスを収集対象とするという形で実現した
ものである。従って実施の形態10との相違は、この収
集対象限定条件入力手段48b及び収集対象限定手段4
9bの部分のみであるため、その動作を中心に説明す
る。
【0103】図49の収集対象限定手段49bの動作に
ついて、その処理の流れを示す図50のフローチャート
図を用いて説明する。なおここでの処理の具体例とし
て、図51に示すように、マッチング文字列として
(a)の(med ∪ medical)∩ac.jp
∩httpが収集対象限定条件入力手段48bより指定
され、リンクURLアドレスとして図51の(b)と
(c)に示すようなものがリンク先アドレス抽出手段7
より抽出されたものとする。ここでまず、ステップS7
1により、抽出されたリンクURLアドレスを読み込
む。次にステップS72により、マッチング文字列を読
み込む。次にステップS73により、抽出されたリンク
の文字列と、予め指定されたマッチング文字列を比較す
る。ここで図51の場合には、(c)に示されるような
グループのURLは、指定されたマッチング文字列条件
を満たしていないため、ステップS74に進み、収集対
象とはならない。一方、(b)に示されるようなグルー
プのURLはマッチング文字列の条件に適合するため、
ステップS75に進んで収集対象となる。結局収集され
るのは(b)のグループだけに限定される。
【0104】以上のようにこの実施の形態によれば、U
RLアドレス中の文字列がマッチング文字列として指定
された条件に適合したもののみ収集対象とすることがで
きる。URLアドレスによるこのような収集範囲の限定
は利用者に制限範囲がわかりやすく、確実に収集範囲を
限定できる。
【0105】実施の形態13.図52乃至図54は、こ
の発明におけるデータベース内容情報収集手段のさらに
他の実施の形態を説明する図である。図52は、この実
施の形態の装置の構成を示す図、図53は図52におけ
る収集対象限定手段49cの動作を示すフローチャート
図、図54は語彙統計による情報内容判定の一つのデー
タ例を示す図である。
【0106】この実施の形態では、図44に示す実施の
形態10における収集対象限定手段49のうちの一つと
して、図52に示すように、情報内容を語彙の統計によ
り判定し、必要な情報を選択するようにして収集対象を
制限する収集対象限定手段49cを用いたものである。
以下図を用いて動作について説明するが、この実施の形
態と実施の形態10との違いは、収集対象限定条件入力
手段48cと、収集対象限定手段49cのみであるの
で、この動作を中心に説明してゆく。
【0107】図53に収集対象限定手段49cの動作の
フローチャート図を示す。ここで、まずステップS10
1で、収集対象限定条件入力手段48cより入力された
目的の情報内容を規定する語彙群とその重みを読み込
む。次にステップS102である収集ユニットでの収集
情報のキーワードの出現回数を数える。次に、ステップ
S103でキーワードの出現回数にそのキーワードの重
みを乗算したものを語彙のマッチしたことによる得点と
して算出し、その得点を当該収集ユニット内で集計し、
収集ユニット内総得点を算出する。次に、ステップS1
04で当該収集ユニット内総URLの数を収集対象アド
レス関連情報格納手段42から読み込む。次に、ステッ
プS105で、当該収集ユニット内の総URL数でユニ
ット内総得点を割り、収集ユニット内得点密度を算出す
る。次に、ステップS106で、収集対象限定条件入力
手段48cより入力された、基準得点と基準得点密度を
読み込む。
【0108】次に、ステップS107で収集ユニット内
総得点や収集ユニット内得点密度が基準得点や基準得点
密度以上であるか比較する。収集対象としない基準の一
例として、ここで収集ユニット内総得点と収集ユニット
内得点密度の両方が基準値未満であれば、ステップS1
08に進んで収集対象とはされないようにする。また、
ここで収集ユニット内総得点と収集ユニット内得点密度
のうちのどちらかが基準値以上の場合には、ステップS
109に進み、収集対象として組み入れられることな
る。この基準は、収集ユニット内総得点と収集ユニット
内得点密度のどちらかが基準値未満であれば、ステップ
S108に進んで収集対象とはされないようにしてもよ
い。なお、この処理は収集ユニット毎に行われ、当該ユ
ニットのアドレスを収集対象とせずに収集対象アドレス
関連情報格納手段42のリストから削除するかどうか
は、そのユニットの収集が全て終了した時に判断され
る。従ってユニット内の収集が一通り終了するまでは、
リンク先アドレス抽出手段47から渡されたアドレスを
そのまま収集対象アドレス関連情報格納手段42に送る
ことになる。
【0109】図54に、ある収集ユニットにおけるキー
ワード語彙による得点計算の一例を示す。図において、
キーワードに与えられた重みは、医療が1、外科が5、
治療が2、手術が10となっている。そしてこの収集ユ
ニットでは、医療という語が3回、外科という語が4
回、治療という語が1回、手術という語が2回でてきて
いるため、収集ユニット内総得点は45点となる。ま
た、この収集ユニットには30のURLがあるため、収
集ユニット得点密度は1.5点/URLと計算される。
ここで図54に示すように、基準得点が40点、基準得
点密度が1.2点/URLであるとすれば、この収集ユ
ニットはこの基準得点と基準得点密度の条件をどちらも
満たすので、図53に示す収集対象限定手段49cのス
テップS107で、収集対象のユニットであると判定さ
れることになる。
【0110】以上のようにこの実施の形態によれば、あ
る収集範囲の中に目的の情報に関連する語彙の含まれる
数によってその情報の目的との関連性を判断することに
より、意味内容が収集目的に近い情報だけを収集するこ
とが可能になる。
【0111】実施の形態14.図55乃至図59は、こ
の発明におけるデータベース内容情報収集手段のさらに
他の実施の形態を説明する図である。図55は、この実
施の形態の装置の構成を示す図、図56は図55におけ
る収集異常判定手段11の動作の流れを示すフローチャ
ート図、図57はHTTPリクエストに対するレスポン
スヘッダの具体データ例を示す図、図58は異常情報削
除手段12の動作の流れを示すフローチャート図、図5
9は収集異常と判定された回数を記録するようにした図
55における収集対象アドレス関連情報格納手段42d
に格納されるデータ例を示す図である。この実施の形態
の構成は、図44に示す実施の形態10の構成に加え
て、図55に示すように収集異常を判定する収集異常判
定手段61と、異常と判定された情報を収集情報や収集
対象アドレス関連情報から削除する異常情報削除手段6
2と、異常情報を削除するための条件を入力する異常情
報削除条件入力手段63を設け、さらに収集対象アドレ
ス関連情報格納手段42dに付加的な情報も格納するよ
うにしたものである。この収集異常判定手段61と異常
情報削除手段62は、コンピュータシステム上で動作す
るソフトウェアで実現されるのが一般的であり、異常情
報削除条件入力手段13はマウスやキーボード、ディス
プレイなどの装置で実現される。
【0112】以下、図を参照しながら動作について説明
するが、この実施の形態と実施の形態10との動作の違
いは、収集対象アドレス関連情報格納手段42dと、収
集異常判定手段61と、異常情報削除手段62と、異常
情報削除条件入力手段63のみである。そこで、ここで
はこの動作を中心に説明する。これらは収集した情報の
うちネットワークの不調などでしばしば発生する通信エ
ラーの時に収集される無意味な情報を判別し、それを一
時的に収集しないことにより不要な情報を検索対象とし
てデータベースに蓄積することを阻止するとともに、通
信エラーが連続した場合にはこのURLを収集の対象か
らもはずし、以後収集にいかないようにすることを目的
としている。
【0113】HTTPの通信においては、情報を収集す
る際に通信状態に関する情報をレスポンスヘッダという
短いデータで得ることができる。このレスポンスヘッダ
の例として3つを、図57の(a)から(c)までに示
す。ここで、各レスポンスヘッダの最初の行に書かれて
いる番号はレスポンスヘッダのコード番号で、この番号
が通信の成否を知らせる。ここで、200番台は通信の
成功を、300番台は通信を要求したアドレスが移動し
ていてその移動先を示していることを、400番台は通
信要求のやり方が間違っていることを、500番台はサ
ーバが通信要求を処理できなかったことをそれぞれ表し
ている。従って(a)の例のように、このコード番号が
200番台の場合は収集結果は正常、(b)や(c)の
例のように、400番台と500番台の時には、収集内
容は異常とみなすことができる。なお例には示さなかっ
たが、300番台についても正常とみなしてよい。
【0114】前述のレスポンスヘッダの意味を考慮し
て、収集情報が正常か異常かを判定するようにしたもの
の一例が、図56に示す収集異常判定手段61の処理フ
ローチャート図である。ここでは、まずステップS13
1により、収集手段44によって得られた収集情報のう
ちのHTTPレスポンスヘッダからコード番号を読み込
む。次にステップS132によりそのコードが200番
台か300番台であるかどうかを調べる。例えば図57
のような例では、もし(b)や(c)の場合はコードが
200番台でも300番台でもないので、ステップS1
33に進み、収集結果は異常であると判定される。また
図57(a)の場合にはコードが200番台であるの
で、ステップS134に進み、収集結果は正常であると
判定される。なお図56のやり方は異常判定方法の一例
であり、これ以外の、例えば400番台と500番台の
処理を分けて扱う方法なども考えられる。
【0115】次に、異常情報削除手段62の動作につい
て図58のフローチャート図に従ってその一例を説明す
るが、この異常情報削除手段62は主に収集を繰り返し
た時に機能する。まずステップS151で収集異常判定
手段61が収集情報を異常と判定したアドレスを読み込
む。次にステップS152で収集対象アドレス関連情報
格納手段42dにある、そのURLに関する収集異常発
生回数の数値を増やす。ここで収集対象アドレス関連情
報格納手段42dの格納するデータの例を図59に示
す。次にステップS153でその異常情報をデータベー
ス内容情報記憶手段4から削除する。次にステップS1
54で、異常情報削除条件入力手段63より入力された
異常情報削除基準回数を読み込む。この基準回数は、あ
る一定の回数だけ異常判定が続いた場合、その異常の理
由が単なる回線の一時的な輻輳やサーバの一時的なダウ
ンによるものではなく、情報を要求しているアドレス自
体の存在がないか、もしくは恒常的にそのサーバへの通
信が不安定であると判断するために設けるものである。
次にステップS155において、異常と判定されたアド
レスのデータが基準回数を超えて異常判定を連続して受
けたかどうか、そのアドレスについて収集対象アドレス
関連情報格納手段42dに格納されている異常回数と異
常情報削除基準回数を比較する。ここで異常判定回数が
基準値を超えていればステップS156に送られ、その
アドレスは収集対象から外される。即ちこのアドレスが
収集対象アドレス関連情報格納手段42dに存在する場
合にはそれを削除し、存在しない場合には登録をしない
ようにする。また、異常連続が基準値を超えていない場
合にはステップS157に送られ、このアドレスを収集
対象アドレス関連情報格納手段42dに残すようにす
る。
【0116】以上のようにこの実施の形態によれば、収
集された情報のうちの異常な情報を判定することがで
き、不要な情報は適切に排除することができる。また、
収集異常が連続するような場合には自動的にそのアドレ
スを収集対象から外すことができる。これにより必要な
情報だけを効率的に収集することが可能となる。
【0117】実施の形態15.図60乃至図63は、こ
の発明におけるデータベース内容情報収集手段のさらに
他の実施の形態を説明する図である。図60はこの実施
の形態の装置の構成を示す図、図61は収集対象アドレ
ス関連情報格納手段42eに格納された更新収集時の格
納データ例を示す図、図62は収集先決定手段43eの
動作を示すフローチャート図、図63は収集手段44e
の動作を示すフローチャート図である。
【0118】この実施の形態の構成は、図44に示す実
施の形態10の構成に対して、収集開始条件入力手段4
1の部分に、更新収集の際の条件を含んだ収集条件を入
力する収集開始条件入力手段41eを、収集対象アドレ
ス関連情報格納手段42の部分に、更新のための情報を
格納するようにした収集対象アドレス関連情報格納手段
42eを、収集先決定手段43の部分に、更新の際に過
去に収集した情報を削除するなどの動作が加わった収集
先決定手段43eを、収集手段44の部分に、過去に収
集した日時で収集是非を判断するなどの機能をもつ収集
手段44eを、収集対象限定手段49の部分に、更新収
集の際に収集対象限定条件入力手段48より新たに入力
された既存の収集限定条件に対する変更分を判断して、
それまで収集した情報のうち削除すべき情報のアドレス
を収集対象アドレス関連情報格納手段42eに渡すよう
にした収集対象限定手段49eを、それぞれ設けたもの
である。
【0119】以下図を参照しながら動作について説明す
るが、この実施の形態と実施の形態10との動作の違い
は、収集開始条件入力手段41eと、収集対象アドレス
関連情報格納手段42eと、収集先決定手段43eと、
収集手段44eのみであるので、この動作を中心に説明
する。
【0120】まず、収集開始条件入力手段41eでは、
一度収集を行って次回収集を開始しない最低の期間であ
る更新収集間隔を入力する。この更新収集間隔は収集範
囲全体で同じ長さにしてもよいし、ある範囲ごとに分け
て設定しても構わない。また、収集開始アドレスを追加
及び削除できる。この情報は収集対象アドレス関連情報
格納手段42eに渡され格納される。そこで収集対象ア
ドレス関連情報格納手段42eのデータ例は図61に示
すようなものとなる。図61においては、収集する情報
を保有しているサーバ側で情報をいつ最新のものに更新
したかを表す更新日時と、それをいつ収集したかを表す
収集日時、及び収集開始条件入力手段41eから入力さ
れた更新収集間隔が実施の形態10の図45に示すもの
に比べて新たに加わっている。なお収集開始条件入力手
段41eから、この他にも必要に応じて収集開始時の収
集条件を入力することができる。
【0121】また、更新収集においては、収集対象限定
条件入力手段48は過去の限定条件を変更することが可
能である。これにより、実施の形態11に示した非収集
パスの追加や削除などの変更、実施の形態12に示した
マッチング文字列の変更、実施の形態13に示した判定
語彙の変更等が可能である。これにより以前収集したア
ドレスで次の更新収集時には削除されるべきものが出
る。そこで図61に示すように削除フラグを収集対象ア
ドレス関連情報格納手段42eに設け、収集対象限定手
段49eが更新収集時に、過去に収集したあるアドレス
の情報を削除すべきか否かを毎回判断し、削除されるべ
きものは削除フラグ1とし、そうでないものを削除フラ
グ0とするようにする。
【0122】次に、収集先決定手段43eの動作を図6
2のフローチャート図に従って説明する。まずステップ
S161で、収集対象アドレス関連情報格納手段42e
に格納されたアドレスから、次に収集するべきURLを
読み込む。次にステップS162で、そのURLの削除
フラグを収集対象アドレス関連情報格納手段42eでチ
ェックする。そしてステップS163で当該URLの削
除フラグを判断する。ここで削除フラグが1なら当該ア
ドレスはステップS164に進み、このアドレスの情報
はデータベース内容情報記憶手段4から削除される。ま
た、削除フラグが0ならアドレスはステップS165に
送られ、このURLは更新収集の対象となる。
【0123】次に、収集手段44eの動作を図63のフ
ローチャート図に従って説明する。まずステップS20
1で現在の日時を取得する。次にステップS202で前
回収集時の情報収集日時と、更新収集用に設定された収
集間隔を収集対象アドレス関連情報格納手段42eより
読み込む。次にステップS203で現在の日時と、前回
収集日時に収集間隔を足しあわせた日時を比較する。こ
こで、現在の日時が前回収集日時から収集間隔の時間だ
け経過していなければステップS204に送られ収集は
行わない。また、現在の日時が前回収集日時から収集間
隔の時間だけ経過していればステップS205に送られ
る。ステップS205では、当該アドレスの情報のレス
ポンスヘッダを読み、その時点での当該アドレスにある
情報の更新日時を取得する。次にステップS206で、
当該アドレスのデータを前回最後に収集した時の情報更
新日時を読み込む。次にステップS207でこの2つの
情報更新日時を比較する。ここで、今回収集した情報の
方が更新日時が古ければステップS208に送られ、こ
のデータは収集しない。また、今回収集した情報の方が
更新日時が新しければステップS209に送られ、収集
対象として更新収集されることになる。
【0124】以上のように、この実施の形態によれば、
収集範囲を更新収集の際に適切に変更することができ
る。また、既存の情報のうち再収集不要のものは収集せ
ず、収集が必要な情報だけを再度収集することができ
る。また削除すべき情報は削除することができる。これ
により、適切な情報収集の範囲を常に保つことができ、
また効率的に情報を収集することが可能となる。
【0125】実施の形態16.図64乃至図66は、こ
の発明におけるデータベース内容情報収集手段のさらに
他の実施の形態を説明する図である。図64はこの実施
の形態の構成の装置を示す図、図65は更新収集間隔決
定手段14の処理の流れを示すフローチャート図、図6
6は更新収集の際の収集ユニットごとのデータ例であ
る。この実施の形態の構成は、図60に示す実施の形態
15の構成に加えて、図64に示すように、更新収集の
間隔を決定する更新収集間隔決定手段64を設けるよう
にしたものである。この更新収集間隔決定手段64はコ
ンピュータシステム上で動作するソフトウェアで実現さ
れるのが一般的である。なお、実施の形態16と実施の
形態15との違いは更新収集間隔決定手段64のみであ
るので、この動作を中心に動作を説明してゆく。
【0126】更新収集間隔決定手段64の動作は、図6
5のフローチャート図に示される。まずステップS22
1で、更新収集の単位となるある一定の範囲のURLの
数をすべて数える。この範囲の一例として、ここでは実
施の形態10で説明した収集開始アドレスごとの収集単
位である収集ユニットを範囲とすることを考えるが、あ
るドメインの中のパスごとなどのように任意にとっても
構わない。次にステップS222で、全ての収集ユニッ
ト別に更新されたURLの数を数える。次にステップS
223で、各収集ユニット内で更新されたURL数を、
ユニット内の総URL数で割って情報更新率を算出す
る。次にステップS224で、収集ユニット内で前回収
集した日時と今回収集した日時の差を個々のURLに対
して求め、その平均を算出し、これを平均情報更新時間
とする。次にある収集ユニットの一定期間における情報
更新率を基準更新率とし、この基準更新率を算出するた
めに、ステップS225で、基準更新率を計算するため
の期間を収集開始条件入力手段41eより読み込む。次
にステップS226において、ステップS223で求め
た情報更新率を、ステップS224で求めた平均情報更
新時間とステップS225で読み込んだ一定期間より、
基準更新率に換算する。換算方法としては、情報更新率
は平均情報更新時間に比例するものとして計算する方法
などが一例として考えられる。次にステップS227に
おいて、基準更新率と更新収集間隔の関係を定めた条件
を収集開始条件入力手段41eから読み込む。最後にス
テップS228において、ステップ226で求めたある
収集ユニットの基準更新率と、ステップS227で読み
込まれた基準更新率と更新収集間隔の関係より、その収
集ユニットの更新収集間隔を算出する。算出方法として
は、基準更新率は収集間隔に反比例するものとして計算
する方法などが一例として考えられる。
【0127】図66は、図65において示した更新収集
間隔の計算の例を示した図である。図66において、基
準更新率を算出する更新収集間隔は30日であり、また
この間隔と基準更新率の関係は、30日間の収集間隔を
おいた時の基準更新率が20%であるというように更新
基準として規定されている。これに対し、ユニットAは
28.3日間の情報更新率が11.3%、ユニットBは
31.1日間の情報更新率が16.9%、ユニットCは
34.7日間の情報更新率が11.6%となっているの
で、それぞれ更新収集間隔はユニットAが50.1日、
ユニットBが36.9日、ユニットCが59.8日のよ
うに計算される。
【0128】以上のようにこの実施の形態によれば、更
新収集間隔を情報の更新頻度にあわせて、更新基準を基
に適切に装置内の処理動作で決定することができる。こ
れにより効率的な情報収集が可能となる。
【0129】実施の形態17.図67乃至図69は、こ
の発明におけるデータベース内容情報収集手段のさらに
他の実施の形態を説明する図である。図67はこの実施
の形態の構成の装置を示す図、図68は図67に示すリ
ンク統計情報選択手段66の動作を示すフローチャート
図、図69は外部ユニットへのリンク数の集計をする際
のデータ例を示す図である。この実施の形態の構成は、
図44に示す実施の形態10の構成に加えて図67に示
すように、外部ユニットリンクを格納する外部ユニット
リンク格納手段65、リンクされた情報内容をリンク数
の統計により判定し、収集の対象とするかどうか選択す
るリンク統計情報選択手段66を設けたものになってい
る。なお、リンク統計情報選択手段66はコンピュータ
システム上で動作するソフトウエアで実現され、外部ユ
ニットリンク格納手段65はハードディスクなどの記憶
装置によって実現されるのが一般的である。この実施の
形態と実施の形態10との違いは、外部ユニットリンク
格納手段65、リンク統計情報選択手段66のみである
ので、この2つの動作を中心に説明してゆく。
【0130】外部ユニットリンク格納手段66は、図6
7に示すようにリンク先アドレス抽出手段47で抽出さ
れたリンクのうち、収集対象限定手段49によって収集
範囲に選択されなかったものをある範囲でまとめ、格納
する。ここで収集対象とされなかったリンクを外部リン
ク、また外部リンクをまとめる範囲を外部ユニットと呼
ぶことにする。ここでは外部ユニットの範囲の具体例と
して、実施の形態11で説明したネットワークドメイン
名ごとに一範囲と考えることとするが、これは任意の範
囲であっても構わない。収集対象限定手段49で限定さ
れる収集範囲と外部ユニットリンク格納手段65に格納
された外部リンクの例を図69に示す。図69におい
て、収集範囲は(a)に示すhttp://A/、ht
tp://B/、http://C/の3ドメインとな
っており、外部ユニットとして(b)に示すhttp:
//D/、http://E/、http://F/、
http://G/の4ドメインが外部ユニットリンク
格納手段65に格納されている。またこの4つのドメイ
ンには図69に示すように、収集範囲の3つのドメイン
からの外部リンクがそれぞれあり、ドメインごとに集計
されている。
【0131】次にリンク統計情報選択手段66の動作に
ついて、図68に示すフローチャート図に従って説明す
る。図68において、まずステップS251で外部ユニ
ットへの外部リンクの集計を外部ユニットリンク格納手
段65から読み込む。次にステップS252で外部ユニ
ットを収集対象とするかどうかのリンク数の基準値を収
集開始条件入力手段41から読み込む。次にステップS
253で、ステップS251で集計した外部へのリンク
の数が、基準より多いか少ないかを判定する。そして、
基準より少ない場合にはステップS254に進み、収集
対象にはされない。また、基準より多い場合にはステッ
プS255に進み、収集対象となる。ステップS255
では、収集対象とされた外部ユニットのアドレスをドメ
イン名までで区切り、その区切ったアドレスを1つだけ
収集対象アドレス格納手段42に送る。ここで図69の
ケースを例に考えると、この時収集対象とするリンク数
の基準値を5とすれば、外部リンクをサイトごとに累積
した結果は、図69に示すように、ユニットDが12、
ユニットEが1、ユニットFが10、ユニットGが1で
あるから、ユニットDとユニットFが基準値を超えてい
ることになる。そこでこの2つの外部ユニットが目的の
内容を含んでいるものとして、そのドメイン名までで区
切ったアドレスであるhttp://D/とhttp:
//F/が収集開始アドレスに組み入れられる。
【0132】以上のようにこの実施の形態によれば、収
集の対象からはずれた外部リンクを蓄積、格納し、それ
をユニットごとにまとめてリンク数で統計処理すること
により、収集対象となりうる外部ユニットを選び出すこ
とができる。これにより、最初は収集範囲になかったが
目的に合致するという情報を、自動的に収集範囲に追加
することが可能となる。
【0133】実施の形態18.図70乃至図73は、こ
の発明におけるデータベース内容情報収集手段のさらに
他の実施の形態を説明する図である。図70はこの実施
の形態の構成の装置を示す図、図71は検索条件適合ア
ドレス取得手段68の動作を示すフローチャート図、図
72は外部検索装置70への収集条件の具体例を示す
図、図73は外部検索装置70で検索した結果を検索条
件適合アドレス格納手段69に整理した際の例を示す図
である。以下図に従って説明するが、この実施の形態と
実施の形態10との違いは、外部検索条件入力手段6
7、検索条件適合アドレス取得手段68、検索条件適合
アドレス格納手段69、リンク統計情報選択手段66の
みである。そこでここでは、外部検索条件入力手段6
7、検索条件適合アドレス取得手段68、検索条件適合
アドレス格納手段69、リンク統計情報選択手段66の
動作を中心に説明する。なお、このリンク統計情報選択
手段66、検索条件適合アドレス取得手段68はコンピ
ュータ上で動作するソフトウエアによって実現され、外
部検索条件入力手段67はマウスやキーボード、ディス
プレイなどの装置によって実現される。また検索条件適
合アドレス格納手段69は、ハードディスクなどの記憶
装置などで実現されるのが一般的である。また、70は
WWW上に存在し、個別に運営管理されている外部の検
索装置である。
【0134】この実施の形態は、まず収集目的に関連す
るキーワードを用いてWWW上に存在する外部検索装置
70で検索し、この検索により取得したURLアドレス
を情報収集開始アドレスとして用いることにより情報収
集を行うものである。まず、外部検索条件入力手段67
において、検索を特定の目的に沿うようなキーワード
と、そのキーワードを使って検索する装置に関する情報
を入力する。図72に入力する項目の具体例を示す。図
72においては、入力する項目は(a)に示すような検
索装置のURLアドレスと検索装置の検索論理式への対
応の有無と、(b)に示すようなキーワードと、(c)
に示すような検索論理式である。これらの条件を検索条
件適合アドレス取得手段68に渡す。
【0135】次に、検索条件適合アドレス取得手段68
は、図71のフローチャートに示されたような手順で動
作する。まずステップS281で、外部検索条件入力手
段67で指定された条件を読み込む。次にステップS2
82で、ステップS281で入力された検索装置の論理
式への対応の有無により、以降の処理を分岐させる。ま
ず論理式に対応していた場合ステップS283に送ら
れ、外部検索装置70にキーワードと論理式を組み込ん
だ形で検索を行う。この操作は具体的にはURLアドレ
スに外部検索装置70の理解できる形式で検索式を組み
込むことにより行われる。図72の(c)に示す論理式
を、LycosとAltavistaという外部検索装
置に受け渡す時のURLの具体例を図72の(d)に示
す。この検索結果は図82に示すようなものと同様の、
リンクアドレスが書かれたHTMLファイルで得られ
る。そこでこの検索結果アドレスを抽出する。ここで外
部検索装置70が定めた一定数以上の検索結果アドレス
は、検索装置に固有の別のURLアドレスに示されるこ
とが通常であるので、必要に応じてそのURLアドレス
に示された情報も得るようにすることにより、キーワー
ドに関連するURLを得ることができる。ここで適当な
数だけを集めたら外部検索装置70の検索を終了するよ
うにしても構わない。また、外部検索装置70が論理式
に対応していなかった場合ステップS284に送られ、
入力した全てのキーワードに関して個別に外部検索装置
70で検索を行う。例えば、図72のキーワードの場合
には、iryouと、gekaと、shujutsuと
いう3つのキーワードに関してそれぞれ検索を行うこと
になる。この時の検索の方法も図72の(d)に示した
のと同様の、前述のURLアドレスに検索条件を組み込
む方法である。次にステップS285で、個別のキーワ
ードで検索した結果に検索論理式をあてはめ、条件に適
合するURLだけを選択する。この選択方法は当業者に
とっては既知のアルゴリズムを用いて行われるので、詳
述しない。最後にステップS286で、得られた検索結
果URLを検索条件適合アドレス格納手段19へと送
る。
【0136】次に検索条件適合アドレス格納手段69
は、検索条件適合アドレス取得手段68によって抽出さ
れたURLアドレスを格納するが、この格納の具体例と
して図73に示すように実施の形態11で述べたネット
ワークドメイン名ごとに一範囲と考え、これをアドレス
格納の単位として1ユニットとすることを考える。従っ
て、外部検索装置70での検索結果のURLアドレスは
図73に示すように最終的にドメインごとに集計され、
検索条件適合アドレス格納手段69に格納される。但
し、これは任意の範囲で集計しても構わない。
【0137】次にリンク統計情報選択手段66によっ
て、検索条件適合アドレス格納手段69に格納されたア
ドレスの中から目的の情報を選び出すが、ここで図73
に示すように検索条件適合アドレス取得手段68によっ
て抽出されたアドレスをネットワークドメインごとに合
計して1ユニットとすれば、その後の動作は実施の形態
17に示すリンク統計情報選択手段66と同様なので詳
述しない。これにより目的に合致するアドレスを得るこ
とができる。
【0138】以上のようにこの実施の形態によれば、目
的に関連するキーワードを用いて外部検索装置70で検
索をし、得られた検索結果のURLアドレスをある範囲
でまとめてリンク数で統計処理することにより、収集対
象となりうるアドレスを選び出すことができる。これに
より、目的にあった情報を自動的に収集範囲とすること
が可能となる。
【0139】
【発明の効果】以上のように、この発明によるベータベ
ース検索装置によれば、データベースを検索する検索イ
ンデックスとして定義したのカテゴリ情報とデータベー
スの内容情報との比較処理を行い、特定の用途・目的に
対応したカテゴリ別の検索インデックスを作成するよう
にしたので、特定の目的・用途にあった情報を容易に検
索することができるという効果がある。
【0140】また、データベースを検索したときの検索
履歴を記憶しておき、次回の検索において検索操作が容
易になる。
【0141】また、カテゴリ情報として類似語を定義で
きるようにしたので、同じものを表現が異なって、記述
されていても一度の検索で対応することができる。
【0142】また、カテゴリによる検索ができるように
したので、目的とするデータを容易に、且つ高速に検索
することができる。
【0143】また、カテゴリ別の検索インデックス間の
和・積・差分などの情報を活用し、利用者が後から必要
に応じて検索インデックスの追加・編集を容易に行うこ
とができるのようにしたので、利用者が必要とする情報
を漏れなく検索インデックスとして設定できる。
【0144】また、データベース実体の検索を実行する
ときに、検索したデータに関するデータベース内容情報
が抽出して、この情報を基に、検索インデックスを追加
・更新するようにしたので、新たに発生したデータや更
新されたデータの情報を素早く検索インデックスに反映
することができる。
【0145】また、検索インデックスの情報を、利用者
の目的・用途に合った範囲、内容に限定し提示すること
ができるようにしたので、特定の目的・用途にあった情
報を容易に検索することができる。
【0146】また、複数の目的・用途にまたがった情報
を検索する場合に、どの用途別ビューアをどんな順番で
参照すればよいかを、システムが提示するするようにし
たので、複数の目的・用途にまたがった情報を検索する
場合でも、必要な情報を容易に検索することができる。
【0147】また、一度提示した用途別ビューア間の関
連情報を関連ビューアとして管理できるようにしたの
で、次回以降同様の探索要求があった場合に、この関連
情報を参照することにより、高速に関連ビューアの検索
を行い、適切な提示をすることができる。
【0148】また、用途別ビューアの階層化を行えるよ
うにしたので、利用形態に合わせた用途別ビューアの構
築ができる。
【0149】また、この発明によるデータベース検索方
法によれば、データベースを検索する検索インデックス
のカテゴリ情報をインデックス定義情報として定義し
て、定義したインデックス定義情報を既に自装置内に取
込済みのデータベースの内容情報から抽出したキーワー
ドとなる単語とを比較処理して、カテゴリ別の検索イン
デックスを作成して、検索インデックスを用いて、デー
タベースを検索するようにしたので、特定の目的・用途
にあった情報を容易に、且つ高速に検索することができ
る。
【0150】また、カテゴリ別の検索インデックス間の
和または積または差分等の演算を行い、演算結果に基づ
いて検索インデックスの追加・編集処理を行うようにし
て、必要とする情報を漏れなく検索インデックスとして
設定できるようにしたので、適切な検索を容易に行うこ
とができる。
【0151】また、データベースを検索するときに検索
インデックスを追加・更新するようにしたので、(a)
検索したデータベースの内容情報のヘッダ情報を抽出す
る工程、新たに発生したデータや更新されたデータの情
報を素早く検索インデックスに反映することができる。
【0152】また、目的・用途に合った範囲、内容に限
定する用途別ビューアを定義しておいて、データベース
検索の条件設定をするときに、前記用途別ビューアを表
示するようにしたので、利用者の検索操作が容易にな
る。
【0153】また、データベースを検索したときの検索
履歴を記憶しておいて、記憶した検索履歴を参照してデ
ータベース検索を行うようにしたので、以降の検索動作
が容易になる。
【0154】また、データベース検索情報収集手段は、
データベース検索システムの検索インデックスを作るた
めの情報収集において、情報にリンクされた別の情報の
収集範囲を限定するようにしたので、必要な情報のみを
収集することができるという効果がある。
【0155】また、収集において、情報にリンクされた
別の情報を収集する範囲を、ネットワークドメイン名や
パス名で限定したり、URLアドレスの文字列で限定し
たり、情報に含まれる語彙で限定するようにしたので、
必要な情報のみを収集することができるという効果があ
る。
【0156】また、収集時に通信異常などが起きた場合
には、これを蓄積しないようにし、または、収集した情
報を更新する際に一度収集した情報を利用し、または不
要な情報とされたものは削除するようにしたので、不要
な情報を排除し、有効利用して必要な情報のみを収集提
示できる効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1の構成を示す図であ
る。
【図2】 実施の形態1における検索インデックス作成
時の動作を説明する図である。
【図3】 実施の形態1におけるインデックス作成手
段の処理処理の流れを示すフローチャート図である。
【図4】 実施の形態1におけるカテゴリ情報の具体例
を示す図である。
【図5】 実施の形態1におけるインデックス定義情報
の具体例を示す図である。
【図6】 実施の形態1におけるデータベース内容情報
の具体例を示す図である。
【図7】 実施の形態1における検索インデックス情報
の具体例を示す図である。
【図8】 実施の形態1におけるデータ検索手段におけ
る検索条件入力画面の例を示す図である。
【図9】 実施の形態1におけるデータ検索手段におけ
る検索結果画面の例を示す図である。
【図10】 実施の形態2におけるインデックス定義情
報の具体例を示す図である。
【図11】 実施の形態2におけるデータ検索手段にお
ける検索条件入力画面の例を示す図である。
【図12】 データ検索手段における検索の具体例を示
す図である。
【図13】 実施の形態3の構成を示す図である。
【図14】 実施の形態3における検索インデックス編
集画面の具体例を示す図である。
【図15】 実施の形態3におけるインデックス編集手
段の動作を示す図である。
【図16】 実施の形態3における検索インデックス編
集画面の具体例を示す図である。
【図17】 実施の形態3における検索インデックスの
編集例を示す図である。
【図18】 実施の形態4の構成を示す図である。
【図19】 実施の形態4における検索インデックス追
加・更新時の処理の流れを示すフローチャート図であ
る。
【図20】 実施の形態4におけるデータベース内容情
報の具体例を示す図である。
【図21】 実施の形態4におけるインデックス追加・
更新手段の処理の流れを示すフローチャート図である。
【図22】 実施の形態4における検索インデックスの
追加・更新の具体例を示す図である。
【図23】 実施の形態5の構成を示す図である。
【図24】 実施の形態5における検索インデックスの
カテゴリ情報の具体例を示す図である。
【図25】 実施の形態5における用途別ビューアの具
体例を示す図である。
【図26】 実施の形態5における用途別ビューア情報
の具体例を示す図である。
【図27】 実施の形態5における用途別ビューアを用
いたデータ検索の具体例を示す図である。
【図28】 実施の形態6の構成を示す図である。
【図29】 実施の形態6における関連ビューア検索手
段の処理の流れを示すフローチャート図である。
【図30】 実施の形態6における関連ビューア検索の
具体例を示す図である。
【図31】 実施の形態6における拡張関連ビューア検
索の具体例を示す図である。
【図32】 実施の形態7の構成を示す図である。
【図33】 実施の形態7におけるビューア間関連情報
の具体例を示す図である。
【図34】 実施の形態8の構成を示す図である。
【図35】 実施の形態8における用途別ビューアの階
層化の具体例を示す図である。
【図36】 実施の形態8におけるビューア間階層情報
の具体例を示す図である。
【図37】 実施の形態8における階層管理された用途
別ビューアの利用例を示す図である。
【図38】 実施の形態9の構成を示す図である。
【図39】 実施の形態9における実体データ検索手段
による実体データの検索例を示す図である。
【図40】 実施の形態9における検索履歴情報の表示
画面例を示す図である。
【図41】 実施の形態9における検索履歴情報の具体
例を示す図である。
【図42】 実施の形態9における検索履歴管理手段の
動作を示す図である。
【図43】 実施の形態10におけるデータベース検索
装置の構成を示す図である。
【図44】 実施の形態10におけるデータベース内容
情報収集手段の構成と関連する要素との接続関係を示す
図である。
【図45】 実施の形態10における収集対象アドレス
関連情報格納手段に格納されるデータの例を示す図であ
る。
【図46】 実施の形態11の構成を示す図である。
【図47】 実施の形態11における収集対象限定手段
の動作を示すフローチャート図である。
【図48】 実施の形態11における収集対象URLと
収集対象でないURLの具体例を示す図である。
【図49】 実施の形態12の構成を示す図である。
【図50】 実施の形態12における収集対象限定手段
の動作を示すフローチャート図である。
【図51】 実施の形態12におけるマッチング文字列
条件の具体例と収集対象URL及び収集対象でないUR
Lの具体例を示す図である。
【図52】 実施の形態13の構成を示す図である。
【図53】 実施の形態13における収集対象限定手段
の動作を示すフローチャート図である。
【図54】 実施の形態13における目的と合致する情
報内容の語彙とその重みと語彙による収集ユニットの得
点の具体例を示す図である。
【図55】 実施の形態14の構成を示す図である。
【図56】 実施の形態14における収集異常判定手段
の動作を示すフローチャート図である。
【図57】 実施の形態14におけるHTTPレスポン
スヘッダの具体例を示す図である。
【図58】 実施の形態14における異常情報削除手段
の動作を示すフローチャート図である。
【図59】 実施の形態14における収集対象アドレス
関連情報格納手段に格納されるデータの具体例を示す図
である。
【図60】 実施の形態15の構成を示す図である。
【図61】 実施の形態15における収集対象アドレス
関連情報格納手段に格納されるデータの例を示す図であ
る。
【図62】 実施の形態15における収集先決定手段の
動作を示すフローチャート図である。
【図63】 実施の形態15における収集手段の動作を
示すフローチャート図である。
【図64】 実施の形態16の構成を示す図である。
【図65】 実施の形態16における更新収集間隔決定
手段の動作を示すフローチャート図である。
【図66】 実施の形態16における情報更新率と更新
収集間隔の基準例と、具体データの例を示す図である。
【図67】 実施の形態17の構成を示す図である。
【図68】 実施の形態17におけるリンク統計情報選
択手段の動作を示すフローチャート図である。
【図69】 実施の形態17における外部ユニットへの
リンクの集計の具体例を示す図である。
【図70】 実施の形態18の構成を示す図である。
【図71】 実施の形態18における検索条件適合アド
レス取得手段18の動作を示すフローチャート図であ
る。
【図72】 実施の形態18における外部検索条件の具
体例を示す図である。
【図73】 実施の形態18における外部検索装置から
の検索結果集計の具体例を示す図である。
【図74】 従来のデータベース検索装置の構成を示す
図である。
【図75】 従来のデータベース検索装置における、検
索インデックス作成時の動作を示す図である。
【図76】 従来のデータベース検索装置における、デ
ータベース内容情報抽出規則の具体例を示す図である。
【図77】 従来のデータベース検索装置における、デ
ータベース内容情報の具体例を示す図である。
【図78】 従来のデータベース検索装置における、検
索インデックスの具体例を示す図である。
【図79】 従来のデータベース検索装置のためのデー
タベース内容情報収集手段の構成を示す図である。
【図80】 従来のデータベース内容情報収集手段にお
ける収集対象アドレス格納の具体例を示す図である。
【図81】 従来のデータベース内容情報収集手段にお
けるURLの階層構造と、収集対象リンク制限の具体例
を示す図である。
【図82】 収集対象となるデータの具体例を示す図で
ある。
【図83】 従来のデータベース内容情報収集手段にお
けるURLアドレスの相対アドレスから絶対アドレスへ
の変換方法の具体例を示す図である。
【符号の説明】
1 外部データベース、2 通信制御手段、3,30
データベース内容情報収集手段、4 データベース内容
情報記憶手段、5 インデックス作成手段、6検索イン
デックス記憶手段、7 データ検索手段、8 実体デー
タ検索手段、9 収集データ管理手段、10 収集デー
タ記憶手段、11 検索インターフェース手段、12
インデックス定義手段、13 インデックス定義情報記
憶手段、14 インデックス編集手段、15 データベ
ース内容情報抽出手段、16インデックス追加・更新手
段、17 用途別ビューア手段、18 用途別ビューア
定義手段、19 用途別ビューア情報記憶手段、20
関連ビューア検索手段、21 ビューア間関連情報管理
手段、22 ビューア間関連情報記憶手段、23 ビュ
ーア間階層情報記憶手段、24 用途別ビューア階層管
理手段、25検索履歴管理手段、26 検索履歴記憶手
段、41,41e 収集開始条件入力手段、42,42
d,42e 収集対象アドレス関連情報格納手段、4
3,43e 収集先決定手段、44,44e 収集手
段、47 リンク先アドレス抽出手段、48,48a,
48b,48c 収集対象限定条件入力手段、49,4
9a,49b,49c,49e 収集対象限定手段、6
1 収集異常判定手段、62異常情報削除手段、63
異常情報削除条件入力手段、64 更新収集間隔決定手
段、65 外部ユニットリンク格納手段、66 リンク
統計情報選択手段、67 外部検索条件入力手段、68
検索条件適合アドレス取得手段、69 検索条件適合
アドレス格納手段、70 外部検索装置。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 金近 秀明 東京都千代田区丸の内二丁目2番3号 三 菱電機株式会社内 (72)発明者 前田 ▲あきら▼ 東京都千代田区丸の内二丁目2番3号 三 菱電機株式会社内 (72)発明者 田中 聡 東京都千代田区丸の内二丁目2番3号 三 菱電機株式会社内

Claims (25)

    【特許請求の範囲】
  1. 【請求項1】 データベースを検索して所望のデータを
    取り出すデータベース検索装置において、下記の要素を
    有することを特徴とするデータベース検索装置、(a)
    データベースを検索する検索インデックスのカテゴリ情
    報をインデックス定義情報として定義するインデックス
    定義手段、(b)前記インデックス定義手段により定義
    されたインデックス定義情報を記憶するインデックス定
    義情報記憶手段、(c)前記インデックス定義情報記憶
    手段に記憶されているインデックス定義情報とデータベ
    ースの内容情報との比較処理を行い、特定の用途・目的
    に対応したカテゴリ別の検索インデックスを作成するイ
    ンデックス作成手段、(d)前記インデックス作成手段
    により作成された検索インデックスを記憶する検索イン
    デックス記憶手段、(e)前記検索インデックス記憶手
    段に記憶されている検索インデックスを用いて、データ
    ベースを検索するデータ検索手段。
  2. 【請求項2】 前記データ検索手段で検索したデータベ
    ースの実体データを検索したときの検索履歴を記憶する
    検索履歴記憶手段と、この検索履歴記憶手段を管理する
    検索履歴管理手段と、を設け、検索履歴を基にデータベ
    ース検索を行うことを特徴とする請求項1に記載のデー
    タベース検索装置。
  3. 【請求項3】 前記インデックス定義手段で定義するカ
    テゴリ情報にはカテゴリと共にその類似語を定義するこ
    とを特徴とする請求項1または請求項2に記載のデータ
    ベース検索装置。
  4. 【請求項4】 前記インデックス作成手段は、作成した
    検索インデックスと共に、前記カテゴリ情報を前記検索
    インデックス記憶手段に記憶させ、このカテゴリ情報を
    用いて前記データ検索手段が検索を行うことを特徴とす
    る請求項1乃至請求項3のいずれかに記載のデータベー
    ス検索装置。
  5. 【請求項5】 カテゴリ別の検索インデックス間の和ま
    たは積または差分等を演算した結果を検索インデックス
    として追加・編集するインデックス編集手段を設けたこ
    とを特徴とする請求項1乃至請求項4のいずれかに記載
    のデータベース検索装置。
  6. 【請求項6】 検索したデータベースの実体データを抽
    出するデータベース内容情報抽出手段と、抽出した実体
    データを収集するデータベース内容情報収集手段と、こ
    のデータベース内容情報収集手段の収集したデータと前
    記インデックス定義情報記憶手段に記憶されている検索
    インデックスと、を基に検索インデックスの追加・更新
    を行うインデックス追加・更新手段を設けたことを特徴
    とする請求項1乃至請求項5のいずれかに記載のデータ
    ベース検索装置。
  7. 【請求項7】 前記検索インデックスを利用者の目的・
    用途に合った範囲、内容に限定して提示する用途別ビュ
    ーア手段と、その用途別ビューアを定義する用途別ビュ
    ーア定義手段と、定義された用途別ビューアを記憶する
    用途別ビューア記憶手段と、を設けたことを特徴とする
    請求項1乃至請求項6のいずれかに記載のデータベース
    検索装置。
  8. 【請求項8】 複数の目的・用途にまたがった情報の検
    索において、前記用途別ビューア記憶手段に記憶されて
    いる関連する用途別ビューアを検索して提示する関連ビ
    ューア検索手段を設けたことを特徴とする請求項7に記
    載のデータベース検索装置。
  9. 【請求項9】 前記関連ビューア検索手段で検索した用
    途別ビューア間の関連情報を記憶するビューア間関連情
    報記憶手段と、このビューア間関連情報記憶手段を管理
    するビューア間関連情報管理手段と、を設け、前記関連
    ビューア検索手段は前記ビューア間関連情報管理手段の
    管理する用途別ビューア間の関連情報を用いて検索を行
    うことを特徴とする請求項8に記載のデータベース検索
    装置。
  10. 【請求項10】 前記用途別ビューア定義手段は用途別
    ビューアを利用形態に合わせて階層化して定義する手段
    を有し、この用途別ビューア定義手段で定義した階層化
    された用途別ビューアを記憶するビューア間階層情報記
    憶手段と、このビューア間階層情報記憶手段を管理する
    用途別ビューア階層管理手段と、を設けたことを特徴と
    する請求項7に記載のデータベース検索装置。
  11. 【請求項11】 下記の工程を有することを特徴とする
    データベース検索方法、(a)データベースを検索する
    検索インデックスのカテゴリ情報をインデックス定義情
    報として定義する工程、(b)定義したインデックス定
    義情報をインデックス定義情報記憶手段に記憶する工
    程、(c)既に自装置内に取込済みのデータベースの内
    容情報からキーワードとなる単語を抽出する工程、
    (d)抽出した単語とインデックス定義情報記憶手段に
    記憶されているインデックス定義情報との比較処理を行
    う工程、(d)比較処理を行った結果を基にカテゴリ別
    の検索インデックスを作成する工程、(e)作成した検
    索インデックスを検索インデックス記憶手段に記憶する
    工程、(f)検索インデックス記憶手段に記憶されてい
    る検索インデックスを用いて、データベースを検索する
    工程。
  12. 【請求項12】 以下の工程を有する請求項11に記載
    のデータベース検索方法 (a)検索条件に指定されたカテゴリ別の検索インデッ
    クス間の和または積または差分等の演算を行う工程、
    (b)演算結果に基づいて前記検索インデックスの追加
    ・編集処理を行う工程、(c)追加・編集処理結果を前
    記検索インデックス記憶手段に記憶する工程。
  13. 【請求項13】 以下の工程を有する請求項11または
    請求項12に記載のデータベース検索方法、(a)検索
    したデータベースの内容情報のヘッダ情報を抽出する工
    程、(b)抽出したヘッダ情報を前記検索インデックス
    記憶手段に記憶されている検索インデックスのヘッダ情
    報との比較処理を行う工程、(c)比較処理を行った結
    果に基づいて前記検索インデックス記憶手段の内容を追
    加・更新する工程。
  14. 【請求項14】 以下の工程を有する請求項11または
    請求項13のいづれかに記載のデータベース検索方法、
    (a)利用者の目的・用途に合った範囲、内容に限定す
    る用途別ビューアを定義する工程、(b)定義した用途
    別ビューアを用途別ビューア記憶手段に記憶する工程、
    (c)データベース検索の条件設定をするときに、前記
    用途別ビューアを表示する工程。
  15. 【請求項15】 以下の工程を有する請求項11または
    請求項14のいづれかに記載のデータベース検索方法、
    (a)データベースを検索したときの検索履歴を記憶す
    る工程、(b)記憶した検索履歴を検索履歴記憶手段に
    記憶する工程、(c)前記データベースを検索する工程
    は前記検索履歴を参照して検索を行う工程。
  16. 【請求項16】 外部データベースからデータを収集
    し、検索インデックスを作成するために必要な情報を抽
    出するデータベース内容情報収集手段と、上記抽出され
    て記憶された必要な情報を基に、単語を切り出して検索
    インデックスとするインデックス作成手段と、上記切り
    出されて記憶された検索インデックスを用いて情報を検
    索するデータ検索手段を備えたデータベース検索のため
    の構成において、 上記データベース内容情報収集手段は、データの収集に
    際して、収集範囲を限定する収集対象限定条件入力に適
    合するデータのみを選択する収集対象限定手段を設け、
    指定された収集条件で外部データベースからデータを収
    集し、リンク先を抽出して、上記収集対象限定手段で限
    定される情報のみを記憶して、以降の外部データベース
    からの収集対象を限定するようにしたことを特徴とする
    データベース検索装置。
  17. 【請求項17】 収集対象限定手段は、収集開始アドレ
    スと同じドメイン名、パス名を持つアドレスを限定し、
    かつ指定された非収集パスを除いた範囲にデータ収集の
    範囲を限定したことを特徴とする請求項16記載のデー
    タベース検索装置。
  18. 【請求項18】 収集対象限定手段は、指定されたマッ
    チング文字列をアドレス内に持つアドレスにデータ収集
    の範囲を限定したことを特徴とする請求項16記載のデ
    ータベース検索装置。
  19. 【請求項19】 収集対象限定手段は、指定された語彙
    を用いてある範囲のアドレスにある情報内容が類似と判
    定される範囲のアドレスにデータ収集の範囲を限定した
    ことを特徴とする請求項16記載のデータベース検索装
    置。
  20. 【請求項20】 データベース内容情報収集手段は、収
    集情報が異常と判定された収集情報を削除する異常情報
    削除手段を付加し、上記異常情報とみなされた情報をデ
    ータベース内容情報から削除し、該情報があるアドレス
    をリンク抽出及び収集対象から除外するようにしたこと
    を特徴とする請求項16記載のデータベース検索装置。
  21. 【請求項21】 データベース内容情報収集手段は、収
    集対象限定手段で限定される情報の記憶に際して条件に
    適合するか否かを示す削除フラグを付加して記憶し、更
    新収集においては上記削除フラグをみてデータベース内
    容情報から削除し、適合する情報を更新収集するように
    したことを特徴とする請求項16記載のデータベース検
    索装置。
  22. 【請求項22】 データベース内容情報収集手段は、収
    集対象アドレスでないと判定されるリンク先アドレスを
    外部ユニットリンクとして格納する外部ユニットリンク
    格納手段を付加し、上記格納された外部ユニットリンク
    の数から統計処理して基準に合うアドレスを収集対象ア
    ドレスに組み込むようにしたことを特徴とする請求項1
    6記載のデータベース検索装置。
  23. 【請求項23】 データベース内容情報収集手段は、外
    部検索機構で検索を行う検索式に適合した検索条件を取
    得する検索条件適合アドレス取得手段を付加し、上記取
    得したアドレスのリンク数から統計処理して基準に合う
    アドレスを収集対象アドレスに組み込むようにしたこと
    を特徴とする請求項16記載のデータベース検索装置。
  24. 【請求項24】 外部データベースからデータを収集
    し、検索インデックスを作成するために必要な情報を抽
    出するデータベース内容情報収集工程と、上記データベ
    ース内容情報収集工程で抽出された情報を記憶するデー
    タベース内容情報記憶工程と、上記データベース内容情
    報記憶工程で記憶された情報を基に、単語を切り出して
    検索インデックスとするインデックス作成工程と、上記
    切り出されて記憶された検索インデックスを用いて情報
    を検索する工程からなる検索データ検索方法において、
    上記データベース内容情報収集工程に、 データの収集範囲を限定する収集対象限定条件入力工程
    と、 上記収集対象限定条件入力工程で得られ条件に適合する
    データのみを選択する収集対象限定工程と、を設け、 上記収集対象限定工程で限定された収集条件で外部デー
    タベースからデータを収集し、リンク先を抽出して、上
    記収集対象限定工程で限定される情報のみを記憶して、
    以降の外部データベースからの収集対象を限定するよう
    にしたデータベース検索方法。
  25. 【請求項25】 データベース内容情報収集工程に、必
    要に応じて指定された期日または期間で更新収集をする
    収集工程と、 収集記憶されたデータに付加された削除フラグに基づ
    き、更新時にデータベース内容情報記憶工程で記憶され
    た情報を削除する工程と、を付加したことを特徴とする
    請求項24記載のデータベース検索方法。
JP9002240A 1996-01-26 1997-01-09 データベース検索装置及びデータベース検索方法 Pending JPH09265482A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9002240A JPH09265482A (ja) 1996-01-26 1997-01-09 データベース検索装置及びデータベース検索方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP8-12061 1996-01-26
JP1206196 1996-01-26
JP9002240A JPH09265482A (ja) 1996-01-26 1997-01-09 データベース検索装置及びデータベース検索方法

Publications (1)

Publication Number Publication Date
JPH09265482A true JPH09265482A (ja) 1997-10-07

Family

ID=26335592

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9002240A Pending JPH09265482A (ja) 1996-01-26 1997-01-09 データベース検索装置及びデータベース検索方法

Country Status (1)

Country Link
JP (1) JPH09265482A (ja)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11138954A (ja) * 1997-11-14 1999-05-25 Canon Inc 印刷装置、印刷方法、及び記憶媒体
JPH11161686A (ja) * 1997-10-08 1999-06-18 Hewlett Packard Co <Hp> 連続インデックス機構
JPH11167580A (ja) * 1997-12-04 1999-06-22 Nec Corp WebクライアントにおけるURLの自動分類装置及び その方法
JPH11175558A (ja) * 1997-12-17 1999-07-02 Fuji Xerox Co Ltd 情報検索装置、情報検索方法および記録媒体
JPH11238070A (ja) * 1998-02-20 1999-08-31 Nec Corp ホームページタイトル付与システム、ホームページタイトル付与方法、および記録媒体
JPH11312172A (ja) * 1998-04-28 1999-11-09 Sharp Corp 情報処理装置及び方法並びにその制御プログラムを記憶した媒体
JP2000132565A (ja) * 1998-10-26 2000-05-12 Fujitsu Ltd 検索支援装置及び方法並びにその装置での処理をコンピュータにて行なわせるためのプログラムを格納した記録媒体
JP2000231569A (ja) * 1999-02-09 2000-08-22 Just Syst Corp インターネット情報検索装置、インターネット情報検索方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001014317A (ja) * 1999-05-20 2001-01-19 Tornado Technol Co Ltd ユーザーにより提供されたキーワード及び分類データによりウェブページを検索するテキスト検索システム
JP2001167111A (ja) * 1999-12-09 2001-06-22 Sharp Corp 情報収集装置および方法、ならびに関連情報データベース構築方法
JP2001522171A (ja) * 1997-10-27 2001-11-13 マイクロソフト コーポレイション 放送媒体でウェブ・コンテンツを配信するシステムおよび方法
WO2002044908A1 (fr) * 2000-11-28 2002-06-06 Ntt Docomo, Inc. Dispositif recepteur et dispositif repetiteur
JP2006523894A (ja) * 2003-04-04 2006-10-19 ヤフー! インコーポレイテッド サブドメインヒントによる検索及びサブドメイン単位のスポンサー付き結果提供を組み込んだ検索結果生成のシステム
JP2007128365A (ja) * 2005-11-04 2007-05-24 Canon Inc 文書管理システム、その文書管理クライアントの制御方法及びコンピュータプログラム
US7274474B2 (en) 1997-10-27 2007-09-25 Canon Kabushiki Kaisha Printing data held on a WWW server
WO2009019950A1 (ja) * 2007-08-08 2009-02-12 Konica Minolta Medical & Graphic, Inc. 医用情報書込装置、プログラム及び記憶媒体
JP2009544088A (ja) * 2006-07-19 2009-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション パーソナライズされた検索インデックス付けのための方法
WO2013146086A1 (ja) * 2012-03-28 2013-10-03 日本電気株式会社 変換移行装置、変換移行方法、及びプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63204434A (ja) * 1987-02-20 1988-08-24 Nec Corp 電子化文書検索装置
JPH04106663A (ja) * 1990-08-28 1992-04-08 Matsushita Electric Ind Co Ltd 文書分類装置
JPH04299771A (ja) * 1991-03-28 1992-10-22 Dainippon Printing Co Ltd データの検索装置
JPH04299772A (ja) * 1991-03-28 1992-10-22 Dainippon Printing Co Ltd データの検索装置
JPH0728687A (ja) * 1993-07-15 1995-01-31 Fujitsu Ltd マルチメディア知識ベ−ス装置,及び、情報提供装置
JPH07121552A (ja) * 1993-10-27 1995-05-12 Fuji Xerox Co Ltd 文書群分析装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63204434A (ja) * 1987-02-20 1988-08-24 Nec Corp 電子化文書検索装置
JPH04106663A (ja) * 1990-08-28 1992-04-08 Matsushita Electric Ind Co Ltd 文書分類装置
JPH04299771A (ja) * 1991-03-28 1992-10-22 Dainippon Printing Co Ltd データの検索装置
JPH04299772A (ja) * 1991-03-28 1992-10-22 Dainippon Printing Co Ltd データの検索装置
JPH0728687A (ja) * 1993-07-15 1995-01-31 Fujitsu Ltd マルチメディア知識ベ−ス装置,及び、情報提供装置
JPH07121552A (ja) * 1993-10-27 1995-05-12 Fuji Xerox Co Ltd 文書群分析装置

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11161686A (ja) * 1997-10-08 1999-06-18 Hewlett Packard Co <Hp> 連続インデックス機構
US7616335B2 (en) 1997-10-27 2009-11-10 Canon Kabushiki Kaisha Printing data held on a WWW server
US9141313B2 (en) 1997-10-27 2015-09-22 Canon Kabushiki Kaisha Image forming apparatus, image forming method, and storing medium
US7274474B2 (en) 1997-10-27 2007-09-25 Canon Kabushiki Kaisha Printing data held on a WWW server
JP2001522171A (ja) * 1997-10-27 2001-11-13 マイクロソフト コーポレイション 放送媒体でウェブ・コンテンツを配信するシステムおよび方法
US8330976B2 (en) 1997-10-27 2012-12-11 Canon Kabushiki Kaisha Printing data held on a WWW server
JPH11138954A (ja) * 1997-11-14 1999-05-25 Canon Inc 印刷装置、印刷方法、及び記憶媒体
JPH11167580A (ja) * 1997-12-04 1999-06-22 Nec Corp WebクライアントにおけるURLの自動分類装置及び その方法
JPH11175558A (ja) * 1997-12-17 1999-07-02 Fuji Xerox Co Ltd 情報検索装置、情報検索方法および記録媒体
JPH11238070A (ja) * 1998-02-20 1999-08-31 Nec Corp ホームページタイトル付与システム、ホームページタイトル付与方法、および記録媒体
JPH11312172A (ja) * 1998-04-28 1999-11-09 Sharp Corp 情報処理装置及び方法並びにその制御プログラムを記憶した媒体
JP2000132565A (ja) * 1998-10-26 2000-05-12 Fujitsu Ltd 検索支援装置及び方法並びにその装置での処理をコンピュータにて行なわせるためのプログラムを格納した記録媒体
JP2000231569A (ja) * 1999-02-09 2000-08-22 Just Syst Corp インターネット情報検索装置、インターネット情報検索方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001014317A (ja) * 1999-05-20 2001-01-19 Tornado Technol Co Ltd ユーザーにより提供されたキーワード及び分類データによりウェブページを検索するテキスト検索システム
JP2001167111A (ja) * 1999-12-09 2001-06-22 Sharp Corp 情報収集装置および方法、ならびに関連情報データベース構築方法
US7072642B2 (en) 2000-11-28 2006-07-04 Ntt Docomo, Inc. Receiving device and repeating device
AU774897B2 (en) * 2000-11-28 2004-07-15 Ntt Docomo, Inc. Communication terminal
WO2002044908A1 (fr) * 2000-11-28 2002-06-06 Ntt Docomo, Inc. Dispositif recepteur et dispositif repetiteur
JP2006523894A (ja) * 2003-04-04 2006-10-19 ヤフー! インコーポレイテッド サブドメインヒントによる検索及びサブドメイン単位のスポンサー付き結果提供を組み込んだ検索結果生成のシステム
US8271480B2 (en) 2003-04-04 2012-09-18 Yahoo! Inc. Search system using search subdomain and hints to subdomains in search query statements and sponsored results on a subdomain-by-subdomain basis
JP2012230693A (ja) * 2003-04-04 2012-11-22 Yahoo Inc サブドメインヒントによる検索及びサブドメイン単位のスポンサー付き結果提供を組み込んだ検索結果生成のシステム
US8849796B2 (en) 2003-04-04 2014-09-30 Yahoo! Inc. Search system using search subdomain and hints to subdomains in search query statements and sponsored results on a subdomain-by-subdomain basis
JP4717592B2 (ja) * 2005-11-04 2011-07-06 キヤノン株式会社 文書管理システム、その文書管理クライアントの制御方法及びプログラム
JP2007128365A (ja) * 2005-11-04 2007-05-24 Canon Inc 文書管理システム、その文書管理クライアントの制御方法及びコンピュータプログラム
JP2009544088A (ja) * 2006-07-19 2009-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション パーソナライズされた検索インデックス付けのための方法
WO2009019950A1 (ja) * 2007-08-08 2009-02-12 Konica Minolta Medical & Graphic, Inc. 医用情報書込装置、プログラム及び記憶媒体
WO2013146086A1 (ja) * 2012-03-28 2013-10-03 日本電気株式会社 変換移行装置、変換移行方法、及びプログラム
JPWO2013146086A1 (ja) * 2012-03-28 2015-12-10 日本電気株式会社 変換移行装置、変換移行方法、及びプログラム

Similar Documents

Publication Publication Date Title
US7707201B2 (en) Systems and methods for managing and using multiple concept networks for assisted search processing
US7870139B2 (en) Correlating genealogy records systems and methods
US6289337B1 (en) Method and system for accessing information using keyword clustering and meta-information
US6073170A (en) Information filtering device and information filtering method
US7366718B1 (en) Detecting duplicate and near-duplicate files
US8768970B2 (en) Providing alternatives within a family tree systems and methods
JP4274689B2 (ja) データ組を選ぶための方法とシステム
JP4241934B2 (ja) テキスト処理及び検索システム及び方法
USRE44794E1 (en) Method and apparatus for representing and navigating search results
JPH09265482A (ja) データベース検索装置及びデータベース検索方法
US7958115B2 (en) Search systems and methods using in-line contextual queries
US6353817B1 (en) Multi-user system for creating and maintaining a medical-decision-making knowledge base
JP3717808B2 (ja) 情報検索システム
US20030038836A1 (en) Web map tool
US20130268564A1 (en) Genealogy investigation and documentation systems and methods
US7340460B1 (en) Vector analysis of histograms for units of a concept network in search query processing
US20090150832A1 (en) System and method for user-controlled, multi-dimensional navigation and/or subject-based aggregation and/or monitoring of multimedia data
WO2005089217A2 (en) System and methods for analytic research and literate reporting of authoritative document collections
CN110633264B (zh) 应用专利数据库的研发辅助系统及其方法
JP5615593B2 (ja) 電子文書管理装置、表示方法、表示プログラムおよび記録媒体
JP3367174B2 (ja) 文書群分析装置および方法
JPH10143418A (ja) 文書情報更新監視装置および文書情報の更新監視方法
JP3578045B2 (ja) 全文検索方法及び装置及び全文検索プログラムを格納した記憶媒体
Abdulmunim et al. Links Evaluation and Ranking Based on Semantic Metadata Analysis
JP3498926B2 (ja) 文書データベース管理システム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041214

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050209

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050426