JPH11282870A - インターネットドキュメント検索エンジン装置及びインターネットドキュメント検索エンジン装置の制御方法 - Google Patents
インターネットドキュメント検索エンジン装置及びインターネットドキュメント検索エンジン装置の制御方法Info
- Publication number
- JPH11282870A JPH11282870A JP10087035A JP8703598A JPH11282870A JP H11282870 A JPH11282870 A JP H11282870A JP 10087035 A JP10087035 A JP 10087035A JP 8703598 A JP8703598 A JP 8703598A JP H11282870 A JPH11282870 A JP H11282870A
- Authority
- JP
- Japan
- Prior art keywords
- vocabulary
- internet
- document
- database management
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 実装の方法によってはキーワードデータベー
スへのアクセス頻度が集中する場合がある。また、SQ
Lのレベルで並列処理化を行うと、データベースがリレ
ーショナルなものに限定されるが、各社のデータベース
には構造上の差異が大きいため、異機種間のデータベー
ス間の連携による運用を阻害してしまう。 【解決手段】 検索ロボット10aにより収集されたイ
ンターネットドキュメントに含まれる語彙に基づいて複
数機種のDBMS10hにデータ登録を行うとともに、
質問文字列に応じて登録データを対応機種であるDBM
S10hから抽出してURL情報を取得するため、アク
セス頻度の集中を低減させつつ、異機種データベース間
の連携による運用を実現することができる。
スへのアクセス頻度が集中する場合がある。また、SQ
Lのレベルで並列処理化を行うと、データベースがリレ
ーショナルなものに限定されるが、各社のデータベース
には構造上の差異が大きいため、異機種間のデータベー
ス間の連携による運用を阻害してしまう。 【解決手段】 検索ロボット10aにより収集されたイ
ンターネットドキュメントに含まれる語彙に基づいて複
数機種のDBMS10hにデータ登録を行うとともに、
質問文字列に応じて登録データを対応機種であるDBM
S10hから抽出してURL情報を取得するため、アク
セス頻度の集中を低減させつつ、異機種データベース間
の連携による運用を実現することができる。
Description
【0001】
【発明の属する技術分野】本発明は、インターネットド
キュメント検索エンジン装置及びインターネットドキュ
メント検索エンジン装置の制御方法に関し、特に、イン
ターネットドキュメントに含まれる語彙を登録するとと
もに、この登録された語彙に基づいて対応するインター
ネットドキュメントのURLを検索するインターネット
ドキュメント検索エンジン装置及びインターネットドキ
ュメント検索エンジン装置の制御方法に関する。
キュメント検索エンジン装置及びインターネットドキュ
メント検索エンジン装置の制御方法に関し、特に、イン
ターネットドキュメントに含まれる語彙を登録するとと
もに、この登録された語彙に基づいて対応するインター
ネットドキュメントのURLを検索するインターネット
ドキュメント検索エンジン装置及びインターネットドキ
ュメント検索エンジン装置の制御方法に関する。
【0002】
【従来の技術】従来のインターネットドキュメント検索
装置100は、図7に示すように、インターネット文書
の本文と対応するキーワードを登録するとともに、同文
書本文と対応する書誌情報(文書名や著者名等)とを検
索するサーバ計算機200と、ネットワークを介してサ
ーバ計算機に接続された複数のクライアント計算機30
0とを備え、サーバ計算機200は、クライアント計算
機300からの登録要求に応じてインターネット文書の
本文と対応するキーワードを登録し、クライアント計算
機300からの検索要求に応じて同文書本文と対応する
書誌情報とを検索する。
装置100は、図7に示すように、インターネット文書
の本文と対応するキーワードを登録するとともに、同文
書本文と対応する書誌情報(文書名や著者名等)とを検
索するサーバ計算機200と、ネットワークを介してサ
ーバ計算機に接続された複数のクライアント計算機30
0とを備え、サーバ計算機200は、クライアント計算
機300からの登録要求に応じてインターネット文書の
本文と対応するキーワードを登録し、クライアント計算
機300からの検索要求に応じて同文書本文と対応する
書誌情報とを検索する。
【0003】サーバ計算機200は、登録要求に応じて
文書本文と対応するキーワード情報とを登録する登録部
210と、検索要求に応じて文書本文と対応する書誌情
報(文書名や著者名等)とを検索する検索部220と、
キーワード情報を格納するキーワードデータベース23
0と、文書本文のデータを格納する文書データベース2
40と、キーワードに関連する類義語を格納する類義語
辞書250とを備えている。
文書本文と対応するキーワード情報とを登録する登録部
210と、検索要求に応じて文書本文と対応する書誌情
報(文書名や著者名等)とを検索する検索部220と、
キーワード情報を格納するキーワードデータベース23
0と、文書本文のデータを格納する文書データベース2
40と、キーワードに関連する類義語を格納する類義語
辞書250とを備えている。
【0004】このような構成により、登録要求に応じて
文書本文を文書データベース240に格納し、この文書
本文に対応するキーワード情報をキーワードデータベー
ス230に格納する。また、検索要求に応じて上記文書
本文と対応する書誌情報(文書名や著者名等)とを検索
する。このとき、必要に応じて上記キーワードに関連す
る類義語を用いて検索を行う。
文書本文を文書データベース240に格納し、この文書
本文に対応するキーワード情報をキーワードデータベー
ス230に格納する。また、検索要求に応じて上記文書
本文と対応する書誌情報(文書名や著者名等)とを検索
する。このとき、必要に応じて上記キーワードに関連す
る類義語を用いて検索を行う。
【0005】なお、キーワードデータベース230と文
書データベース240は、リレーショナルデータベース
として構築されている。
書データベース240は、リレーショナルデータベース
として構築されている。
【0006】登録部210は、登録要求発行部310と
文書データベース240及びキーワードデータベース2
30との間に接続され、登録要求発行部310から発行
された登録要求に応じて文書データベース240に文書
の本文を登録するとともに、登録した文書の本文から適
切なキーワードを自動抽出して同キーワードを含むキー
ワード情報をキーワードデータベース230に登録す
る。
文書データベース240及びキーワードデータベース2
30との間に接続され、登録要求発行部310から発行
された登録要求に応じて文書データベース240に文書
の本文を登録するとともに、登録した文書の本文から適
切なキーワードを自動抽出して同キーワードを含むキー
ワード情報をキーワードデータベース230に登録す
る。
【0007】検索部220は、検索要求発行部320と
文書データベース240、キーワードデータベース23
0及び類義語辞書250との間に接続され、検索要求発
行部320から発行された検索要求に基づいて文書の本
文と文書に関わる書誌情報とを文書データベース240
とキーワードデータベース230を用いて検索する。な
お、検索部220は、検索要求によっては類義語辞書2
50を利用して同検索を行う。
文書データベース240、キーワードデータベース23
0及び類義語辞書250との間に接続され、検索要求発
行部320から発行された検索要求に基づいて文書の本
文と文書に関わる書誌情報とを文書データベース240
とキーワードデータベース230を用いて検索する。な
お、検索部220は、検索要求によっては類義語辞書2
50を利用して同検索を行う。
【0008】キーワードデータベース230は、登録部
210と検索部220に接続され、文書データベース2
40に格納された書誌情報と文書の本文中に含まれたキ
ーワードとから構成されるキーワード情報が登録部21
0によって格納される。
210と検索部220に接続され、文書データベース2
40に格納された書誌情報と文書の本文中に含まれたキ
ーワードとから構成されるキーワード情報が登録部21
0によって格納される。
【0009】文書データベース240は、登録部210
と検索部220に接続され、文書本文のデータが格納さ
れる。この文書本文は、登録部210によって登録さ
れ、検索部220によって読み出される。
と検索部220に接続され、文書本文のデータが格納さ
れる。この文書本文は、登録部210によって登録さ
れ、検索部220によって読み出される。
【0010】類義語辞書250は、検索部220に接続
され、キーワードとなり得る語彙に対して関連のある類
義語を対応づけて格納する。
され、キーワードとなり得る語彙に対して関連のある類
義語を対応づけて格納する。
【0011】各クライアント計算機300は、登録要求
発行部310と検索要求発行部320から構成される。
発行部310と検索要求発行部320から構成される。
【0012】登録要求発行部310は、サーバ計算機2
00の登録部210に接続され、文書データベース24
0への文書の登録要求を発行する。
00の登録部210に接続され、文書データベース24
0への文書の登録要求を発行する。
【0013】検索要求発行部320は、サーバ計算機2
00の検索部220に接続され、キーワード及びキーワ
ードの類義語による条件検索を含む検索要求を発行す
る。
00の検索部220に接続され、キーワード及びキーワ
ードの類義語による条件検索を含む検索要求を発行す
る。
【0014】ここで、キーワードデータベース230と
文書データベース240について具体的に説明する。
文書データベース240について具体的に説明する。
【0015】キーワードデータベース230に格納され
るキーワード情報には、文書の数だけ行が格納される。
るキーワード情報には、文書の数だけ行が格納される。
【0016】各行は、文書を一意的に識別するための文
書識別子、文書名、著者及び文書中の複数のキーワード
が含まれるキーワードリストの各列から構成される。例
えば、文書識別子「D1」、文書名「A」、著者「V」
及びキーワードリスト「K1,K2,K3,K4」から
構成される。
書識別子、文書名、著者及び文書中の複数のキーワード
が含まれるキーワードリストの各列から構成される。例
えば、文書識別子「D1」、文書名「A」、著者「V」
及びキーワードリスト「K1,K2,K3,K4」から
構成される。
【0017】この各列には、任意の数のキーワードが含
まれるが、一つの値として扱われず(マルチバリュー
列)、検索部220によって一つ一つのキーワードにつ
いて検索が行われる。
まれるが、一つの値として扱われず(マルチバリュー
列)、検索部220によって一つ一つのキーワードにつ
いて検索が行われる。
【0018】一方、文書データベース240に格納され
る文書本文は、行が文書の数だけ格納される。
る文書本文は、行が文書の数だけ格納される。
【0019】各行は、文書識別子、本文の各行から構成
される。例えば、文書識別子「D1」、キーワード「K
1,K2,K3,K4」を含む本文「・・・K1・・・
K2・・・K3・・・K4・・・」から構成される。
される。例えば、文書識別子「D1」、キーワード「K
1,K2,K3,K4」を含む本文「・・・K1・・・
K2・・・K3・・・K4・・・」から構成される。
【0020】なお、キーワードデータベース230と文
書データベース240に格納される各情報は、上記文書
識別子により関連づけられている。例えば、キーワード
情報のある行の文書識別子の値の「D1」が文書本文の
関連行の文書識別子の値と同じであれば、同一文書(文
書名「A」)の書誌情報と本文である。
書データベース240に格納される各情報は、上記文書
識別子により関連づけられている。例えば、キーワード
情報のある行の文書識別子の値の「D1」が文書本文の
関連行の文書識別子の値と同じであれば、同一文書(文
書名「A」)の書誌情報と本文である。
【0021】次に、文書の検索について説明する。文書
の検索を行うとき、検索要求発行部320が検索部22
0に対して検索要求を発行する。
の検索を行うとき、検索要求発行部320が検索部22
0に対して検索要求を発行する。
【0022】検索部220は、キーワードデータベース
230を用いて検索要求に応じた文書を特定し、この文
書の本文を文書データベース240から検索して求めて
から、検索結果を検索要求発行部320に返却する。
230を用いて検索要求に応じた文書を特定し、この文
書の本文を文書データベース240から検索して求めて
から、検索結果を検索要求発行部320に返却する。
【0023】上記検索要求の内容は、標準データベース
言語(以下、SQLと呼ぶ。)によって定義される。S
QLでは、キーワードを用いた論理検索条件をWHER
E句のCONTAINS述語によって指定することがで
きる。また、CONTAINS述語内においてキーワー
ドの類義語による検索条件をSYNONYM述語によっ
て指定することができる。
言語(以下、SQLと呼ぶ。)によって定義される。S
QLでは、キーワードを用いた論理検索条件をWHER
E句のCONTAINS述語によって指定することがで
きる。また、CONTAINS述語内においてキーワー
ドの類義語による検索条件をSYNONYM述語によっ
て指定することができる。
【0024】上述した文書の検索についてより詳しく説
明する。例えば、検索要求発行部320は、検索要求と
してSQLを検索部に発行する。
明する。例えば、検索要求発行部320は、検索要求と
してSQLを検索部に発行する。
【0025】なお、SQLは、FROM句で指定された
文書データベースからWHERE句で指定されたCON
TAINS述語を満たすような文書の文書名、著者及び
本文を検索する(SELECT句で指定される)ことを
意味する。
文書データベースからWHERE句で指定されたCON
TAINS述語を満たすような文書の文書名、著者及び
本文を検索する(SELECT句で指定される)ことを
意味する。
【0026】このCONTAINS述語に含まれる論理
式は、「K1,K2,K3,K4,K5,K6」及び三
つの論理演算子「AND,OR,NOT」から構成さ
れ、キーワードデータベースに格納されたキーワードリ
ストを参照し、論理式を満たす文書を特定するための検
索条件である。
式は、「K1,K2,K3,K4,K5,K6」及び三
つの論理演算子「AND,OR,NOT」から構成さ
れ、キーワードデータベースに格納されたキーワードリ
ストを参照し、論理式を満たす文書を特定するための検
索条件である。
【0027】検索部220は、SQLに含まれる検索条
件、すなわち、WHERE句のCONTAINS述語に
指定された論理式をキーワード情報のすべての行のキー
ワードリストに適用して評価し、合致した行を特定す
る。
件、すなわち、WHERE句のCONTAINS述語に
指定された論理式をキーワード情報のすべての行のキー
ワードリストに適用して評価し、合致した行を特定す
る。
【0028】キーワードリストに格納されるキーワード
数は、各行によって任意となっているが、検索部220
は、一つ一つのキーワードを識別して論理式を満たす行
を特定する。
数は、各行によって任意となっているが、検索部220
は、一つ一つのキーワードを識別して論理式を満たす行
を特定する。
【0029】SQLのCONTAINS述語によって検
索条件が指定された結果、検索部220は、キーワード
データベース230に格納されたキーワード情報から文
書識別子「D4」と同じ識別子を持つ行を探し出し、対
象とする文書の本文データを取得する。
索条件が指定された結果、検索部220は、キーワード
データベース230に格納されたキーワード情報から文
書識別子「D4」と同じ識別子を持つ行を探し出し、対
象とする文書の本文データを取得する。
【0030】このとき、検索部220は、SQLによっ
て指定された文書検索要求に対する検索結果として、文
書名「D」、著者名「Y」及び本文「・・・K1・・・
K6・・・K4・・・K2・・・」からなる該当行を取
得する。
て指定された文書検索要求に対する検索結果として、文
書名「D」、著者名「Y」及び本文「・・・K1・・・
K6・・・K4・・・K2・・・」からなる該当行を取
得する。
【0031】そして、検索部220は、該当する行をク
ライアント計算機300の検索要求発行部320に返却
する。
ライアント計算機300の検索要求発行部320に返却
する。
【0032】
【発明が解決しようとする課題】上述した従来のインタ
ーネットドキュメント検索装置においては、次のような
課題があった。検索部220は、キーワードデータベー
ス230を利用して該当するドキュメントを検索し、キ
ーワードデータベース230の部分をSQLで処理する
が、実装の方法によってはキーワードデータベース23
0へのアクセス頻度が集中する。特に、インターネット
環境下では、相当数のユーザが同時にアクセスする可能
性が高く、初めから高い性能を確保できる方式が必要で
ある。
ーネットドキュメント検索装置においては、次のような
課題があった。検索部220は、キーワードデータベー
ス230を利用して該当するドキュメントを検索し、キ
ーワードデータベース230の部分をSQLで処理する
が、実装の方法によってはキーワードデータベース23
0へのアクセス頻度が集中する。特に、インターネット
環境下では、相当数のユーザが同時にアクセスする可能
性が高く、初めから高い性能を確保できる方式が必要で
ある。
【0033】また、SQLのレベルで並列処理化を行う
と、データベースがリレーショナルなものに限定され
る。しかし、各社のデータベースには構造上の差異が大
きいため、異機種間のデータベース間の連携による運用
を阻害してしまう。
と、データベースがリレーショナルなものに限定され
る。しかし、各社のデータベースには構造上の差異が大
きいため、異機種間のデータベース間の連携による運用
を阻害してしまう。
【0034】本発明は、上記課題にかんがみてなされた
もので、アクセス頻度の集中を低減させるとともに、異
機種データベース間の連携による運用を実現可能なイン
ターネットドキュメント検索装置及びインターネットド
キュメント検索エンジン装置の制御方法の提供を目的と
する。
もので、アクセス頻度の集中を低減させるとともに、異
機種データベース間の連携による運用を実現可能なイン
ターネットドキュメント検索装置及びインターネットド
キュメント検索エンジン装置の制御方法の提供を目的と
する。
【0035】
【課題を解決するための手段】上記目的を達成するた
め、請求項1にかかる発明は、インターネット上のドキ
ュメントを収集するドキュメント検索手段と、複数の異
機種データベース管理手段と、上記ドキュメント検索手
段にて収集されたインターネットドキュメントに含まれ
る語彙を順序化した語彙リストの一部と同語彙を含むイ
ンターネット上のドキュメントのURL情報とを互いに
重複しないように上記異機種データベース管理手段に配
置する複数のデータベース管理制御手段とを具備する構
成としてある。
め、請求項1にかかる発明は、インターネット上のドキ
ュメントを収集するドキュメント検索手段と、複数の異
機種データベース管理手段と、上記ドキュメント検索手
段にて収集されたインターネットドキュメントに含まれ
る語彙を順序化した語彙リストの一部と同語彙を含むイ
ンターネット上のドキュメントのURL情報とを互いに
重複しないように上記異機種データベース管理手段に配
置する複数のデータベース管理制御手段とを具備する構
成としてある。
【0036】すなわち、ドキュメント検索手段は、イン
ターネット上のドキュメントを収集し、各データベース
管理制御手段は、同インターネットドキュメントに含ま
れる語彙を順序化した語彙リストの一部と同語彙を含む
インターネット上のドキュメントのURL情報とを互い
に重複しないように異機種データベース管理手段に配置
する。
ターネット上のドキュメントを収集し、各データベース
管理制御手段は、同インターネットドキュメントに含ま
れる語彙を順序化した語彙リストの一部と同語彙を含む
インターネット上のドキュメントのURL情報とを互い
に重複しないように異機種データベース管理手段に配置
する。
【0037】上記ドキュメント検索手段は、インターネ
ット上のドキュメントを収集することができれば良く、
インターネット回線に接続されつつサーバ計算機内に配
置されたもの等であっても良い。
ット上のドキュメントを収集することができれば良く、
インターネット回線に接続されつつサーバ計算機内に配
置されたもの等であっても良い。
【0038】各異機種データベース管理手段は、それぞ
れの構造に応じて上記語彙リストやURL情報等を管理
できるものであれば良く、それぞれに製造元の異なるデ
ータベースで構成されるものであっても良い。
れの構造に応じて上記語彙リストやURL情報等を管理
できるものであれば良く、それぞれに製造元の異なるデ
ータベースで構成されるものであっても良い。
【0039】各データベース管理制御手段は、上記ドキ
ュメント検索手段にて収集されたインターネットドキュ
メントに含まれる語彙を順序化した語彙リストの一部
と、同語彙を含むインターネット上のドキュメントのU
RL情報とを互いに重複しないように上記異機種データ
ベース管理手段に配置することができれば良い。
ュメント検索手段にて収集されたインターネットドキュ
メントに含まれる語彙を順序化した語彙リストの一部
と、同語彙を含むインターネット上のドキュメントのU
RL情報とを互いに重複しないように上記異機種データ
ベース管理手段に配置することができれば良い。
【0040】上記語彙リストの一部とURL情報との配
置を自動的に維持管理する場合におけるデータベース管
理制御手段の構成の一例として、請求項2にかかる発明
は、上記請求項1に記載のインターネットドキュメント
検索エンジン装置において、上記データベース管理制御
手段は、各異機種データベース管理手段が管理する語彙
のうちで最後の語彙と同異機種データベース管理手段の
物理的配置情報とを関係付けた情報を管理するノードカ
タログ手段と、上記順序化された語彙のリストの一部と
同語彙を含むインターネット上のドキュメントのURL
情報との配置を自動的に維持管理する分岐化手段とを具
備する構成としてある。
置を自動的に維持管理する場合におけるデータベース管
理制御手段の構成の一例として、請求項2にかかる発明
は、上記請求項1に記載のインターネットドキュメント
検索エンジン装置において、上記データベース管理制御
手段は、各異機種データベース管理手段が管理する語彙
のうちで最後の語彙と同異機種データベース管理手段の
物理的配置情報とを関係付けた情報を管理するノードカ
タログ手段と、上記順序化された語彙のリストの一部と
同語彙を含むインターネット上のドキュメントのURL
情報との配置を自動的に維持管理する分岐化手段とを具
備する構成としてある。
【0041】すなわち、上記ノードカタログ手段は、各
異機種データベース管理手段が管理する語彙のうちで最
後の語彙と同異機種データベース管理手段の物理的配置
情報とを関係付けた情報を管理し、分岐化手段は、上記
順序化された語彙のリストの一部と同語彙を含むインタ
ーネット上のドキュメントのURL情報との配置を自動
的に維持管理する。
異機種データベース管理手段が管理する語彙のうちで最
後の語彙と同異機種データベース管理手段の物理的配置
情報とを関係付けた情報を管理し、分岐化手段は、上記
順序化された語彙のリストの一部と同語彙を含むインタ
ーネット上のドキュメントのURL情報との配置を自動
的に維持管理する。
【0042】上記データベース管理制御手段は、上記語
彙リストに含まれる語彙の重要度や出現頻度等に基づい
て管理するものであっても良い。
彙リストに含まれる語彙の重要度や出現頻度等に基づい
て管理するものであっても良い。
【0043】この場合におけるデータベース管理制御手
段の構成の一例として、請求項3にかかる発明は、上記
請求項1または請求項2のいずれかに記載のインターネ
ットドキュメント検索エンジン装置において、上記デー
タベース管理制御手段は、上記ドキュメント検索手段が
メモリ上に収集したインターネット上のドキュメントに
含まれる各語彙の出現回数に関するヒストグラムを作成
するヒストグラム作成手段と、同インターネット上のド
キュメントに最重要語彙が含まれているか否かを判定す
る最重要語彙判定手段と、同インターネット上のドキュ
メントに含まれる各語彙が上記複数の異機種データベー
ス管理手段上に規定の登録件数以上存在しているか否か
を判定し、同語彙の重要性を判定する重要性判定手段と
を具備する構成としてある。
段の構成の一例として、請求項3にかかる発明は、上記
請求項1または請求項2のいずれかに記載のインターネ
ットドキュメント検索エンジン装置において、上記デー
タベース管理制御手段は、上記ドキュメント検索手段が
メモリ上に収集したインターネット上のドキュメントに
含まれる各語彙の出現回数に関するヒストグラムを作成
するヒストグラム作成手段と、同インターネット上のド
キュメントに最重要語彙が含まれているか否かを判定す
る最重要語彙判定手段と、同インターネット上のドキュ
メントに含まれる各語彙が上記複数の異機種データベー
ス管理手段上に規定の登録件数以上存在しているか否か
を判定し、同語彙の重要性を判定する重要性判定手段と
を具備する構成としてある。
【0044】すなわち、ヒストグラム作成手段は、上記
ドキュメント検索手段がメモリ上に収集したインターネ
ット上のドキュメントに含まれる各語彙の出現回数に関
するヒストグラムを作成し、最重要語彙判定手段は、同
インターネット上のドキュメントに最重要語彙が含まれ
ているか否かを判定する。また、重要性判定手段は、同
インターネット上のドキュメントに含まれる各語彙が上
記複数の異機種データベース管理手段上に規定の登録件
数以上存在しているか否かを判定し、同語彙の重要性を
判定する。
ドキュメント検索手段がメモリ上に収集したインターネ
ット上のドキュメントに含まれる各語彙の出現回数に関
するヒストグラムを作成し、最重要語彙判定手段は、同
インターネット上のドキュメントに最重要語彙が含まれ
ているか否かを判定する。また、重要性判定手段は、同
インターネット上のドキュメントに含まれる各語彙が上
記複数の異機種データベース管理手段上に規定の登録件
数以上存在しているか否かを判定し、同語彙の重要性を
判定する。
【0045】上記データベース管理制御手段は、利用者
からの指定に応じて生成された質問文字列に基づいて上
記異機種データベース管理手段を管理するものであって
も良い。
からの指定に応じて生成された質問文字列に基づいて上
記異機種データベース管理手段を管理するものであって
も良い。
【0046】この場合におけるデータベース管理制御手
段の構成の一例として、請求項4にかかる発明は、上記
請求項1〜請求項3のいずれかに記載のインターネット
ドキュメント検索エンジン装置において、上記データベ
ース管理制御手段は、利用者からの指定に応じて生成さ
れた質問文字列を分解し、それぞれを上記異機種データ
ベース管理手段に並列に割り付ける分解割付手段を具備
する構成としてある。
段の構成の一例として、請求項4にかかる発明は、上記
請求項1〜請求項3のいずれかに記載のインターネット
ドキュメント検索エンジン装置において、上記データベ
ース管理制御手段は、利用者からの指定に応じて生成さ
れた質問文字列を分解し、それぞれを上記異機種データ
ベース管理手段に並列に割り付ける分解割付手段を具備
する構成としてある。
【0047】すなわち、分解割付手段は、利用者からの
指定に応じて生成された質問文字列を分解し、それぞれ
を上記異機種データベース管理手段に並列に割り付け
る。
指定に応じて生成された質問文字列を分解し、それぞれ
を上記異機種データベース管理手段に並列に割り付け
る。
【0048】上記データベース管理制御手段は、内容行
に応じてURLを抽出するものであっても良い。
に応じてURLを抽出するものであっても良い。
【0049】この場合におけるデータベース管理制御手
段の構成の一例として、請求項5にかかる発明は、上記
請求項1〜請求項4のいずれかに記載のインターネット
ドキュメント検索エンジン装置において、上記データベ
ース管理制御手段は、起動した上記データベース管理制
御手段の戻すURL一覧をすべて接続して一つの仮結果
表を作成し、同データベース管理制御手段の数相当の同
一内容行を持つURLのみを取り出すURL抽出手段を
具備する構成としてある。
段の構成の一例として、請求項5にかかる発明は、上記
請求項1〜請求項4のいずれかに記載のインターネット
ドキュメント検索エンジン装置において、上記データベ
ース管理制御手段は、起動した上記データベース管理制
御手段の戻すURL一覧をすべて接続して一つの仮結果
表を作成し、同データベース管理制御手段の数相当の同
一内容行を持つURLのみを取り出すURL抽出手段を
具備する構成としてある。
【0050】すなわち、URL抽出手段は、起動した上
記データベース管理制御手段の戻すURL一覧をすべて
接続して一つの仮結果表を作成し、同データベース管理
制御手段の数相当の同一内容行を持つURLのみを取り
出す。
記データベース管理制御手段の戻すURL一覧をすべて
接続して一つの仮結果表を作成し、同データベース管理
制御手段の数相当の同一内容行を持つURLのみを取り
出す。
【0051】このように、インターネットドキュメント
に含まれる語彙を登録するとともに、この登録された語
彙に基づいて対応するインターネットドキュメントのU
RL情報を検索する手法は、必ずしも上述したような装
置に限られる必要もなく、その一例として、請求項6に
かかる発明は、インターネット上のドキュメントを収集
し、同ドキュメントに含まれる語彙を順序化した語彙リ
ストの一部と同語彙を含むインターネット上のドキュメ
ントのURL情報とを互いに重複しないように異機種デ
ータベース管理手段に配置する構成としてある。
に含まれる語彙を登録するとともに、この登録された語
彙に基づいて対応するインターネットドキュメントのU
RL情報を検索する手法は、必ずしも上述したような装
置に限られる必要もなく、その一例として、請求項6に
かかる発明は、インターネット上のドキュメントを収集
し、同ドキュメントに含まれる語彙を順序化した語彙リ
ストの一部と同語彙を含むインターネット上のドキュメ
ントのURL情報とを互いに重複しないように異機種デ
ータベース管理手段に配置する構成としてある。
【0052】すなわち、必ずしも装置という形態に限ら
ず、その方法としても有効である。
ず、その方法としても有効である。
【0053】
【発明の実施の形態】以下、図面にもとづいて本発明の
実施形態を説明する。図1及び図2は、本発明の一実施
形態にかかる並列処理方式インターネットドキュメント
検索エンジン装置の構成を概略図により示している。
実施形態を説明する。図1及び図2は、本発明の一実施
形態にかかる並列処理方式インターネットドキュメント
検索エンジン装置の構成を概略図により示している。
【0054】インターネットドキュメント検索エンジン
装置10は、主にサーバサイトを成す計算機上に配置さ
れ、検索ロボット10a、語彙解析部10b、更新マネ
ージャ10c、ノードカタログ10d、分岐化マネージ
ャ10e、ディスクカタログ10f、任意台数のデータ
ベース管理システムエージェント(DBMSエージェン
ト)10g、任意台数のデータベース管理システム(D
BMS)10h、検索アプレット部10i、サーバ基幹
部10j、コンバータ部10k、ディスパーチャ部10
l、任意台数の検索エージェント10m、結果収集部1
0n、内部メモリ部10o、不要語彙辞書部10p及び
最重要語彙辞書部10qを備えている。
装置10は、主にサーバサイトを成す計算機上に配置さ
れ、検索ロボット10a、語彙解析部10b、更新マネ
ージャ10c、ノードカタログ10d、分岐化マネージ
ャ10e、ディスクカタログ10f、任意台数のデータ
ベース管理システムエージェント(DBMSエージェン
ト)10g、任意台数のデータベース管理システム(D
BMS)10h、検索アプレット部10i、サーバ基幹
部10j、コンバータ部10k、ディスパーチャ部10
l、任意台数の検索エージェント10m、結果収集部1
0n、内部メモリ部10o、不要語彙辞書部10p及び
最重要語彙辞書部10qを備えている。
【0055】また、検索アプレット部10iをダウンロ
ードすることで、クライアントサイトを成す計算機内に
検索アプレット部20が生成される。
ードすることで、クライアントサイトを成す計算機内に
検索アプレット部20が生成される。
【0056】データ登録時の処理手順では、図1に示す
ように、検索ロボット10a、語彙解析部10b、更新
マネージャ10c、ノードカタログ10d、分岐化マネ
ージャ10e、ディスクカタログ10f、任意台数のD
BMSエージェント10g、任意台数のDBMS10
h、内部メモリ部10o、不要語彙辞書部10p及び最
重要語彙辞書部10qが利用される。
ように、検索ロボット10a、語彙解析部10b、更新
マネージャ10c、ノードカタログ10d、分岐化マネ
ージャ10e、ディスクカタログ10f、任意台数のD
BMSエージェント10g、任意台数のDBMS10
h、内部メモリ部10o、不要語彙辞書部10p及び最
重要語彙辞書部10qが利用される。
【0057】検索ロボット10aは、すでに入手済みの
インターネットドキュメントのリンク情報を利用して該
当するインターネットドキュメントを収集すると、この
収集されたインターネットドキュメントがリンクしてい
る他のインターネットドキュメントのリンク情報をすべ
て取り出して保持する。そして、語彙解析部10bにイ
ンターネットドキュメントの内容を引き渡し、語彙解析
部10bからの起動要求があるまで待機する。
インターネットドキュメントのリンク情報を利用して該
当するインターネットドキュメントを収集すると、この
収集されたインターネットドキュメントがリンクしてい
る他のインターネットドキュメントのリンク情報をすべ
て取り出して保持する。そして、語彙解析部10bにイ
ンターネットドキュメントの内容を引き渡し、語彙解析
部10bからの起動要求があるまで待機する。
【0058】語彙解析部10bは、内部メモリ部10
o、不要語彙辞書部10p、最重要語彙辞書部10q、
任意のDBMSエージェント10g及びこのDBMSエ
ージェント10gに対応するDBMS10hを利用し、
検索ロボット10aから引き渡されたインターネットド
キュメントに登場するすべての語彙に対して図3に示す
ような「データ登録時の分岐化を実施する際の決定アル
ゴリズム」を実施することにより、データの登録位置を
決定する。
o、不要語彙辞書部10p、最重要語彙辞書部10q、
任意のDBMSエージェント10g及びこのDBMSエ
ージェント10gに対応するDBMS10hを利用し、
検索ロボット10aから引き渡されたインターネットド
キュメントに登場するすべての語彙に対して図3に示す
ような「データ登録時の分岐化を実施する際の決定アル
ゴリズム」を実施することにより、データの登録位置を
決定する。
【0059】また、語彙解析部10bは、内部メモリ部
10oにヒストグラム情報を作成する基礎情報を書き込
んで計集処理結果であるヒストグラム情報を取り出し、
不要語彙辞書部10pから不要語彙の登録状況情報を取
り出す。さらに、最重要語彙辞書部10qから最重要語
彙の登録状況を取り出す。
10oにヒストグラム情報を作成する基礎情報を書き込
んで計集処理結果であるヒストグラム情報を取り出し、
不要語彙辞書部10pから不要語彙の登録状況情報を取
り出す。さらに、最重要語彙辞書部10qから最重要語
彙の登録状況を取り出す。
【0060】DBMSエージェント10gは、語彙解析
部10bから処理要求があると、対応するDBMS10
hから登録状況情報を取り出し、語彙解析部10bに登
録状況情報として引き渡す。
部10bから処理要求があると、対応するDBMS10
hから登録状況情報を取り出し、語彙解析部10bに登
録状況情報として引き渡す。
【0061】「データ登録時の分岐化を実施する際の決
定アルゴリズム」は、主に語彙解析部10bにて実施さ
れ、12段階のステップから構成される。
定アルゴリズム」は、主に語彙解析部10bにて実施さ
れ、12段階のステップから構成される。
【0062】語彙解析部10bは、「ヒストグラム作成
ステップ」を実行する。インターネットドキュメントの
内容を入手すると、ステップS100にて順番に語彙を
取り出す。ここで、一つの語彙を取り出せた場合、ステ
ップS105に進む。
ステップ」を実行する。インターネットドキュメントの
内容を入手すると、ステップS100にて順番に語彙を
取り出す。ここで、一つの語彙を取り出せた場合、ステ
ップS105に進む。
【0063】ステップS105は、不要語彙辞書部10
pから不要語彙の登録状況情報を取り出す。取り出され
た語彙が不要語彙として登録されている場合は、ステッ
プS100に戻って次の語彙を取り出すが、不要語彙と
して登録されていない場合は、ステップS110に進
む。
pから不要語彙の登録状況情報を取り出す。取り出され
た語彙が不要語彙として登録されている場合は、ステッ
プS100に戻って次の語彙を取り出すが、不要語彙と
して登録されていない場合は、ステップS110に進
む。
【0064】ステップS110では、内部メモリ部10
oにヒストグラムを作成する基礎情報の一つとして、出
現回数を語彙解析部10bに追加し、ステップS100
に戻る。ステップS100で語彙が取り出せなくなるま
でこれらの手順を繰り返す。
oにヒストグラムを作成する基礎情報の一つとして、出
現回数を語彙解析部10bに追加し、ステップS100
に戻る。ステップS100で語彙が取り出せなくなるま
でこれらの手順を繰り返す。
【0065】そして、ステップ1にて語彙が取り出せな
くなったところでステップS115に進む。
くなったところでステップS115に進む。
【0066】ステップS115以後の処理は、該当ドキ
ュメントの内容を分岐化させる語彙を決定する処理であ
る。
ュメントの内容を分岐化させる語彙を決定する処理であ
る。
【0067】ステップS115では、語彙解析部10b
が内部メモリ部10oからヒストグラム情報として最大
出現回数を持つ語彙を取り出し、ステップS120に進
む。
が内部メモリ部10oからヒストグラム情報として最大
出現回数を持つ語彙を取り出し、ステップS120に進
む。
【0068】ステップS120は、「最重要語彙判定ス
テップ」を構成する。語彙解析部10bは、最重要語彙
辞書部10qから最大出現回数を有する語彙が最重要語
彙として登録されているか否かの登録状況情報を取り出
して判定する。
テップ」を構成する。語彙解析部10bは、最重要語彙
辞書部10qから最大出現回数を有する語彙が最重要語
彙として登録されているか否かの登録状況情報を取り出
して判定する。
【0069】登録されている場合は、ステップS125
へ進み、語彙で分岐化を行うことを決定する。一方、登
録状況情報が未登録の場合は、ステップS130に進
む。
へ進み、語彙で分岐化を行うことを決定する。一方、登
録状況情報が未登録の場合は、ステップS130に進
む。
【0070】ステップS130では、取り出された語彙
がすでにDBMS10hに登録されているか否かの判定
を任意のDBMSエージェント10gと対応するDBM
S10hとを利用して行う。
がすでにDBMS10hに登録されているか否かの判定
を任意のDBMSエージェント10gと対応するDBM
S10hとを利用して行う。
【0071】DBMSエージェント10gは、語彙解析
部10bから処理要求がある場合、対応するDBMS1
0hから登録状況情報を取り出し、登録状況情報として
語彙解析部10bへ引き渡す。ここで、まだ登録されて
いない場合は、ステップS145へ進み、すでに登録さ
れている場合は、ステップS135に進む。
部10bから処理要求がある場合、対応するDBMS1
0hから登録状況情報を取り出し、登録状況情報として
語彙解析部10bへ引き渡す。ここで、まだ登録されて
いない場合は、ステップS145へ進み、すでに登録さ
れている場合は、ステップS135に進む。
【0072】ステップS135は、「重要性判定ステッ
プ」を構成する。該当する語彙の出現頻度を判定し、規
定の出現頻度よりも高い頻度と認められた場合、語彙解
析部10bはステップS140にてこの語彙による分岐
化を決定する。一方、規定の出現頻度よりも低い頻度と
認められた場合、重要語彙と認めることなくステップS
145に進む。
プ」を構成する。該当する語彙の出現頻度を判定し、規
定の出現頻度よりも高い頻度と認められた場合、語彙解
析部10bはステップS140にてこの語彙による分岐
化を決定する。一方、規定の出現頻度よりも低い頻度と
認められた場合、重要語彙と認めることなくステップS
145に進む。
【0073】ステップS145では、語彙解析部10b
がステップS160にて内部メモリ部10oからヒスト
グラム情報として次に大きい出現回数を持つ語彙を取り
出す前に、ヒストグラム順位が妥当か否かの判定を行う
ステップである。
がステップS160にて内部メモリ部10oからヒスト
グラム情報として次に大きい出現回数を持つ語彙を取り
出す前に、ヒストグラム順位が妥当か否かの判定を行う
ステップである。
【0074】この制限を加えることにより、重要でない
語彙によって分岐化されることを防止することができ
る。
語彙によって分岐化されることを防止することができ
る。
【0075】ここで、ヒストグラム上の順位が低く、重
要でない語彙と判断された場合は、ステップS115に
て取り出された最大出現回数を持つ語彙で分岐化を行う
(ステップS150)。
要でない語彙と判断された場合は、ステップS115に
て取り出された最大出現回数を持つ語彙で分岐化を行う
(ステップS150)。
【0076】一方、まだ規定のヒストグラム上の制限順
位よりも高いと判断された場合、語彙解析部10bは、
内部メモリ部10oからヒストグラム情報として次に大
きい出現回数を持つ語彙を取り出し、ステップS120
以後の処理を繰り返す(ステップS160)。
位よりも高いと判断された場合、語彙解析部10bは、
内部メモリ部10oからヒストグラム情報として次に大
きい出現回数を持つ語彙を取り出し、ステップS120
以後の処理を繰り返す(ステップS160)。
【0077】「データ登録時の分岐化を実施する際の決
定アルゴリズム」にて、分岐化すべき語彙が決まると、
語彙解析部10bは、分岐化すべき語彙と、インターネ
ットドキュメントのURL及び規定ヒストグラム順位以
下の語彙リストとを組み合わせて更新情報とし、この更
新情報を更新マネージャ10cに送付する。そして、こ
の更新マネージャ10cを起動させ、語彙解析部10b
は更新マネージャ10cから処理終了通知があるまで待
機する。
定アルゴリズム」にて、分岐化すべき語彙が決まると、
語彙解析部10bは、分岐化すべき語彙と、インターネ
ットドキュメントのURL及び規定ヒストグラム順位以
下の語彙リストとを組み合わせて更新情報とし、この更
新情報を更新マネージャ10cに送付する。そして、こ
の更新マネージャ10cを起動させ、語彙解析部10b
は更新マネージャ10cから処理終了通知があるまで待
機する。
【0078】更新マネージャ10cが起動すると、更新
情報にある分岐化すべき語彙に基づいてノードカタログ
10dにアクセスし、格納すべきDBMS10hの位置
情報を取得する。
情報にある分岐化すべき語彙に基づいてノードカタログ
10dにアクセスし、格納すべきDBMS10hの位置
情報を取得する。
【0079】本実施例では、複数のDBMS10h及び
DBMSエージェント10gを一つの計算機内に配置し
ているが、必ずしもこのような構成である必要はなく、
各DBMS10h及びDBMSエージェント10gをそ
れぞれに独立した計算機内に配置することも可能であ
る。
DBMSエージェント10gを一つの計算機内に配置し
ているが、必ずしもこのような構成である必要はなく、
各DBMS10h及びDBMSエージェント10gをそ
れぞれに独立した計算機内に配置することも可能であ
る。
【0080】ノードカタログ10dは、「ノードカタロ
グ::={<分岐化語彙><配置DBMSの識別情報
>}+ ;」で表現されるBNF構造を有する共有メモ
リ上の表である。
グ::={<分岐化語彙><配置DBMSの識別情報
>}+ ;」で表現されるBNF構造を有する共有メモ
リ上の表である。
【0081】1行は、<分岐化語彙>と<配置DBMS
の識別情報>から構成され、これが1回以上出現する。
各行は、語彙の昇順に配置されており、各DBMS10
hに登録されている最後の語彙が記載されている。
の識別情報>から構成され、これが1回以上出現する。
各行は、語彙の昇順に配置されており、各DBMS10
hに登録されている最後の語彙が記載されている。
【0082】このため、任意の語彙によって検索を行う
場合、ノードカタログ10dをアクセスしてこの語彙を
挟む箇所を見出し、同語彙が分岐化管理されるDBMS
10hの位置を把握することができる。
場合、ノードカタログ10dをアクセスしてこの語彙を
挟む箇所を見出し、同語彙が分岐化管理されるDBMS
10hの位置を把握することができる。
【0083】更新マネージャ10cは、ノードカタログ
10dから格納すべきDBMS10hの位置情報を取得
すると、対応するDBMSエージェント10gを選択し
て起動し、語彙解析部10bから受けた分岐化すべき語
彙、インターネットドキュメントのURL及びヒストグ
ラム情報としての規定ヒストグラム順位以内の語彙リス
トとを組み合わせた更新情報のコピーを転送する。
10dから格納すべきDBMS10hの位置情報を取得
すると、対応するDBMSエージェント10gを選択し
て起動し、語彙解析部10bから受けた分岐化すべき語
彙、インターネットドキュメントのURL及びヒストグ
ラム情報としての規定ヒストグラム順位以内の語彙リス
トとを組み合わせた更新情報のコピーを転送する。
【0084】すると、上記選択されたDBMSエージェ
ント10gは、この更新情報のコピーを配下のDBMS
10hに転送して更新させるとともに、更新マネージャ
10cに対して処理終了マネージャに対して処理終了通
知を発行する。
ント10gは、この更新情報のコピーを配下のDBMS
10hに転送して更新させるとともに、更新マネージャ
10cに対して処理終了マネージャに対して処理終了通
知を発行する。
【0085】更新マネージャ10cは、この処理終了通
知を受けると、語彙解析部10bに処理終了通知を発行
する。
知を受けると、語彙解析部10bに処理終了通知を発行
する。
【0086】語彙解析部10bは、この処理終了通知を
受けると、検索ロボット10aに起動要求を行う。検索
ロボット10aは、保持する他のインターネットドキュ
メントのリンク情報から適当なものを選択してアクセス
を再開する。
受けると、検索ロボット10aに起動要求を行う。検索
ロボット10aは、保持する他のインターネットドキュ
メントのリンク情報から適当なものを選択してアクセス
を再開する。
【0087】DBMSエージェント10gは、DBMS
10h上に領域の確保ができない場合、更新マネージャ
10cに対して分岐拡張要求を発行し、一部の処理を除
いて処理を中断する。
10h上に領域の確保ができない場合、更新マネージャ
10cに対して分岐拡張要求を発行し、一部の処理を除
いて処理を中断する。
【0088】この分岐拡張要求には引数として、分岐化
すべき語彙、ドキュメントのURL及びヒストグラム情
報として規定ヒストグラム順位以内の語彙リストとを組
み合わせた更新情報と同等な情報と、問題が発生したD
BMS10hの識別情報とが記載される。
すべき語彙、ドキュメントのURL及びヒストグラム情
報として規定ヒストグラム順位以内の語彙リストとを組
み合わせた更新情報と同等な情報と、問題が発生したD
BMS10hの識別情報とが記載される。
【0089】更新マネージャ10cは、分岐拡張要求を
受信すると、分岐化マネージャ10eに起動要求を発行
する。この起動要求の引数としては、分岐拡張要求の引
数と同等な情報が記載される。
受信すると、分岐化マネージャ10eに起動要求を発行
する。この起動要求の引数としては、分岐拡張要求の引
数と同等な情報が記載される。
【0090】分岐化マネージャ10eは、ディスクカタ
ログ10fにアクセスし、十分な領域を確保可能な物理
領域を有する識別情報を入手する。
ログ10fにアクセスし、十分な領域を確保可能な物理
領域を有する識別情報を入手する。
【0091】なお、この物理領域を配置する位置は、制
限されるものではなく、同じ計算機内に配置されても良
いし、他の独立計算機内の配置されても良い。ただし、
他の独立した計算機上に配置された場合、識別情報には
アカウント情報等のアクセス時に必要となる情報も含ま
れる。
限されるものではなく、同じ計算機内に配置されても良
いし、他の独立計算機内の配置されても良い。ただし、
他の独立した計算機上に配置された場合、識別情報には
アカウント情報等のアクセス時に必要となる情報も含ま
れる。
【0092】ここで、十分な領域を確保可能な物理領域
を有する識別情報を入手できない場合、分岐化マネージ
ャ10eはシステム運用管理者にアラームを出力し、対
応待ちの状態となる。
を有する識別情報を入手できない場合、分岐化マネージ
ャ10eはシステム運用管理者にアラームを出力し、対
応待ちの状態となる。
【0093】DBMSエージェント10gは、分岐拡張
要求を発行したとき、配下にあるDBMS10hの全情
報を入手し、DBMSエージェント10gが使用できる
一次格納領域に保持する。
要求を発行したとき、配下にあるDBMS10hの全情
報を入手し、DBMSエージェント10gが使用できる
一次格納領域に保持する。
【0094】新たな識別情報が入手できた場合、分岐拡
張要求を発行したDBMSエージェント10gは、管理
する全情報と等価な情報を分岐化マネージャ10eに発
行し、削除要求の発行を受けるまで処理待ちとなる。
張要求を発行したDBMSエージェント10gは、管理
する全情報と等価な情報を分岐化マネージャ10eに発
行し、削除要求の発行を受けるまで処理待ちとなる。
【0095】分岐化マネージャ10eは、起動要求に含
まれた分岐化すべき語彙から後に位置付けられる部分を
先に確保した識別情報に相当する物理領域上のDBMS
10hに移すため、ノードカタログ10dに記録されて
いる行のうちで分岐拡張要求を発行したDBMS10h
に該当する行の<分岐化語彙>を起動要求に含まれる分
岐化すべき語彙へ書き換えることと、ノードカタログ1
0dに記録されている行のうちで分岐拡張要求を発行し
たDBMS10hに該当する行の<分岐化語彙>及び識
別情報をノードカタログ10d上の<配置DBMSの識
別情報>に表現し直した2項目で構成される行を新たに
ノードカタログ10dに追加することとを要求する処理
要求をノードカタログ10dに発行する。
まれた分岐化すべき語彙から後に位置付けられる部分を
先に確保した識別情報に相当する物理領域上のDBMS
10hに移すため、ノードカタログ10dに記録されて
いる行のうちで分岐拡張要求を発行したDBMS10h
に該当する行の<分岐化語彙>を起動要求に含まれる分
岐化すべき語彙へ書き換えることと、ノードカタログ1
0dに記録されている行のうちで分岐拡張要求を発行し
たDBMS10hに該当する行の<分岐化語彙>及び識
別情報をノードカタログ10d上の<配置DBMSの識
別情報>に表現し直した2項目で構成される行を新たに
ノードカタログ10dに追加することとを要求する処理
要求をノードカタログ10dに発行する。
【0096】分岐化マネージャ10eは、分岐拡張要求
を発行したDBMSエージェント10gが管理する全情
報と等価な情報のうちで起動要求に含まれる分岐化すべ
き語彙から後に位置付けられる部分のみを切り出し、転
送情報として新規に確保したDBMS10hを管理する
DBMSエージェント10gに転送する。
を発行したDBMSエージェント10gが管理する全情
報と等価な情報のうちで起動要求に含まれる分岐化すべ
き語彙から後に位置付けられる部分のみを切り出し、転
送情報として新規に確保したDBMS10hを管理する
DBMSエージェント10gに転送する。
【0097】DBMSエージェント10gは、転送情報
に相当する更新情報でこの新規に確保したDBMS10
hの更新を行う。
に相当する更新情報でこの新規に確保したDBMS10
hの更新を行う。
【0098】分岐化マネージャ10eは、起動要求に含
まれる分岐化すべき語彙から後に位置付けられる部分す
べてを削除する削除要求を受信すると、自身の管理して
いるDBMS10hに削除要求を分岐拡張要求を発行し
て待ち状態となっているDBMSエージェント10gに
発行する。
まれる分岐化すべき語彙から後に位置付けられる部分す
べてを削除する削除要求を受信すると、自身の管理して
いるDBMS10hに削除要求を分岐拡張要求を発行し
て待ち状態となっているDBMSエージェント10gに
発行する。
【0099】また、分岐化マネージャ10eは、分岐拡
張要求の発行前に更新マネージャ10cから発行された
更新情報と同等の情報を起動要求の引数から取り出し、
DBMSエージェント10gを介して選択されたDBM
S10hの更新を行う。
張要求の発行前に更新マネージャ10cから発行された
更新情報と同等の情報を起動要求の引数から取り出し、
DBMSエージェント10gを介して選択されたDBM
S10hの更新を行う。
【0100】さらに、分岐化マネージャ10eは、分岐
拡張要求に伴う一連の処理が終了したことを通知するた
め、更新マネージャ10cに処理終了通知を発行する。
拡張要求に伴う一連の処理が終了したことを通知するた
め、更新マネージャ10cに処理終了通知を発行する。
【0101】更新マネージャ10cがこの処理終了通知
を受けると、語彙解析部10bに処理終了通知を発行す
る。
を受けると、語彙解析部10bに処理終了通知を発行す
る。
【0102】語彙解析部10bは、処理終了通知を受け
ると、検索ロボット10aに起動要求を発行する。
ると、検索ロボット10aに起動要求を発行する。
【0103】検索ロボット10aは、保持する他のイン
ターネットドキュメントのリンク情報から適当なものを
選択してアクセスを再開する。
ターネットドキュメントのリンク情報から適当なものを
選択してアクセスを再開する。
【0104】並列処理方式インターネットドキュメント
検索エンジン装置10を使用して、データ検索を行う場
合の処理手順では、図2に示すように、ノードカタログ
10d、任意のDBMSエージェント10g、対応する
DBMS10h、検索アプレット部10i、サーバ基幹
部10j、コンバータ部10k、ディスパーチャ部10
l、任意の検索エージェント10m及び結果収集部10
nが利用される。
検索エンジン装置10を使用して、データ検索を行う場
合の処理手順では、図2に示すように、ノードカタログ
10d、任意のDBMSエージェント10g、対応する
DBMS10h、検索アプレット部10i、サーバ基幹
部10j、コンバータ部10k、ディスパーチャ部10
l、任意の検索エージェント10m及び結果収集部10
nが利用される。
【0105】検索アプレット部10iは、通常、サーバ
サイトである計算機内に配置され、任意のユーザからイ
ンターネット経由でダウンロード要求を受けると、ダウ
ンロードされてクライアントサイトを成す計算機内の検
索アプレット部20となる。
サイトである計算機内に配置され、任意のユーザからイ
ンターネット経由でダウンロード要求を受けると、ダウ
ンロードされてクライアントサイトを成す計算機内の検
索アプレット部20となる。
【0106】クライアントサイトを成す計算機内の検索
アプレット部20では、入力用GUI(グラフィックユ
ーザインターネット)により、検索すべき語彙の文字列
を意味する指定リテラルの情報が複数入力される。
アプレット部20では、入力用GUI(グラフィックユ
ーザインターネット)により、検索すべき語彙の文字列
を意味する指定リテラルの情報が複数入力される。
【0107】指定リテラル情報は、クライアントサイト
を成す計算機内の検索アプレット部10iにおいて、B
NF様式の命題論理式で質問文字列として組み立てら
れ、サーバ基幹部10jに転送される。具体的には、 <指定リテラル>::=任意文字列; <論理記号>::=“‖”|“&&”; <基本質問 要素>::=<指定リテラル>|<指定リ
テラル>{<論理記号><指定リテラル>}+; <組み合わせ質問要素>::=<基本質問要素>|
“(“<基本質問 要素>”)”{<論理記号>
“(“<基本質問 要素>”)”}+; <質問 文字列>::=<組み合わせ質問要素>|
“(“<組み合わせ質問要素>”)”{<論理記号>
“(“<組み合わせ質問要素>”)”}+; と表現される。
を成す計算機内の検索アプレット部10iにおいて、B
NF様式の命題論理式で質問文字列として組み立てら
れ、サーバ基幹部10jに転送される。具体的には、 <指定リテラル>::=任意文字列; <論理記号>::=“‖”|“&&”; <基本質問 要素>::=<指定リテラル>|<指定リ
テラル>{<論理記号><指定リテラル>}+; <組み合わせ質問要素>::=<基本質問要素>|
“(“<基本質問 要素>”)”{<論理記号>
“(“<基本質問 要素>”)”}+; <質問 文字列>::=<組み合わせ質問要素>|
“(“<組み合わせ質問要素>”)”{<論理記号>
“(“<組み合わせ質問要素>”)”}+; と表現される。
【0108】なお、「::=」は定義を意味し、「|」
は記号の右側もしくは左側のいずれかを選択することを
意味する。また、括弧{}で囲まれたものは一つの文字
列ブロックを意味し、括弧<>で囲まれたものは変数を
意味する。このため、別のもので置き換えることが可能
となる。さらに、2つの記号「“」で囲まれたものは囲
まれた文字列がそのまま出現することを意味し、上付き
+は、付与された文字列の1つ以上の出現を意味する。
は記号の右側もしくは左側のいずれかを選択することを
意味する。また、括弧{}で囲まれたものは一つの文字
列ブロックを意味し、括弧<>で囲まれたものは変数を
意味する。このため、別のもので置き換えることが可能
となる。さらに、2つの記号「“」で囲まれたものは囲
まれた文字列がそのまま出現することを意味し、上付き
+は、付与された文字列の1つ以上の出現を意味する。
【0109】質問文字列を受けたサーバ基幹部10j
は、同等な質問文字列を入力引数としてコンバータ部1
0kを起動する。
は、同等な質問文字列を入力引数としてコンバータ部1
0kを起動する。
【0110】コンバータ部10kは、図4に示すような
展開処理を繰り返し、二層からなる命題論理式に変形し
た戻り値を返還する。この展開処理を繰り返すと、例え
ば、質問文字列が次のように定義された場合、この戻り
値は、このように定義される。
展開処理を繰り返し、二層からなる命題論理式に変形し
た戻り値を返還する。この展開処理を繰り返すと、例え
ば、質問文字列が次のように定義された場合、この戻り
値は、このように定義される。
【0111】質問 文字列::=((<リテラル1>&
&<リテラル2>&&<リテラル3>)‖(<リテラル
4>&&<リテラル5>))&&<リテラル6>‖(<
リテラル7>);
&<リテラル2>&&<リテラル3>)‖(<リテラル
4>&&<リテラル5>))&&<リテラル6>‖(<
リテラル7>);
【0112】戻り値::=(<リテラル1>‖<リテラ
ル4>)&&(<リテラル2>‖<リテラル4>)&&
(<リテラル3>‖(<リテラル4>)&&(<リテラ
ル1>‖<リテラル5>)&&(<リテラル2>‖(<
リテラル5>)&&(<リテラル3>‖<リテラル5
>)&&(<リテラル6>‖(<リテラル7>);
ル4>)&&(<リテラル2>‖<リテラル4>)&&
(<リテラル3>‖(<リテラル4>)&&(<リテラ
ル1>‖<リテラル5>)&&(<リテラル2>‖(<
リテラル5>)&&(<リテラル3>‖<リテラル5
>)&&(<リテラル6>‖(<リテラル7>);
【0113】サーバ基幹部10jは、戻り値をコンバー
タ部10kから受けると、この値を入力文字列としてデ
ィスパーチャ部10lを起動し、ディスパーチャ部10
lの処理終了イベント待ちとなる。
タ部10kから受けると、この値を入力文字列としてデ
ィスパーチャ部10lを起動し、ディスパーチャ部10
lの処理終了イベント待ちとなる。
【0114】ディスパーチャ部10lが起動されると、
図5に示される「データ検索時の質問処理の並列化アル
ゴリズム」に従い、入力文字列を分解する。
図5に示される「データ検索時の質問処理の並列化アル
ゴリズム」に従い、入力文字列を分解する。
【0115】この「データ検索時の質問処理の並列化ア
ルゴリズム」は、検索エージェント10mの割付単位と
なる最大出現頻度を持つリテラルを含んだORを意味す
論理記号”‖”の基本質問要素をすべて取り出し、これ
らをANDを意味する論理記号”&”で直列に接続する
ことで新たなサブ質問文字列を生成する。
ルゴリズム」は、検索エージェント10mの割付単位と
なる最大出現頻度を持つリテラルを含んだORを意味す
論理記号”‖”の基本質問要素をすべて取り出し、これ
らをANDを意味する論理記号”&”で直列に接続する
ことで新たなサブ質問文字列を生成する。
【0116】ステップS200では、入力文字列に登場
する全リテラルを取り出し、リテラルごとに入力文字列
内の出現回数を計測してヒストグラムを作成する。
する全リテラルを取り出し、リテラルごとに入力文字列
内の出現回数を計測してヒストグラムを作成する。
【0117】このとき、計測単位は、ORを意味する論
理記号”‖”の基本質問要素であり、次式で表現される
場合、<リテラル6>及び<リテラル7>の出現回数
は、それぞれ1と計測される。 入力 文字列::=(<リテラル6>‖<リテラル7
>);
理記号”‖”の基本質問要素であり、次式で表現される
場合、<リテラル6>及び<リテラル7>の出現回数
は、それぞれ1と計測される。 入力 文字列::=(<リテラル6>‖<リテラル7
>);
【0118】ステップS210では、ヒストグラム上で
最大出現頻度が付与されたすべてのリテラルを特定し、
このうちの1つを選択する。
最大出現頻度が付与されたすべてのリテラルを特定し、
このうちの1つを選択する。
【0119】下記の例では、<リテラル4>と<リテラ
ル5>の出現頻度がどちらも3で最大となる。
ル5>の出現頻度がどちらも3で最大となる。
【0120】入力 文字列::=(<リテラル1>‖<
リテラル4>)&&(<リテラル2>‖<リテラル4
>)&&(<リテラル3>‖(<リテラル4>)&&
(<リテラル1>‖<リテラル5>)&&(<リテラル
2>‖(<リテラル5>)&&(<リテラル3>‖<リ
テラル5>)&&(<リテラル6>‖(<リテラル7
>);
リテラル4>)&&(<リテラル2>‖<リテラル4
>)&&(<リテラル3>‖(<リテラル4>)&&
(<リテラル1>‖<リテラル5>)&&(<リテラル
2>‖(<リテラル5>)&&(<リテラル3>‖<リ
テラル5>)&&(<リテラル6>‖(<リテラル7
>);
【0121】ステップS220では、特定したリテラル
を含むORを意味する論理記号”‖”の基本質問要素を
すべて取り出し、ANDを意味する論理記号”&”でこ
れらを直列に接続し、新たにサブ質問文字列を作成す
る。
を含むORを意味する論理記号”‖”の基本質問要素を
すべて取り出し、ANDを意味する論理記号”&”でこ
れらを直列に接続し、新たにサブ質問文字列を作成す
る。
【0122】上記の例では、<リテラル4>が最初に対
象となり、以下のサブ質問文字列が作成される。
象となり、以下のサブ質問文字列が作成される。
【0123】サブ 質問文字列::=(<リテラル1>
‖<リテラル4>)&&(<リテラル2>‖<リテラル
4>)&&(<リテラル3>‖<リテラル4>; 1つのサブ質問文字列は、1つの検索エージェント10
mに割付けられる。
‖<リテラル4>)&&(<リテラル2>‖<リテラル
4>)&&(<リテラル3>‖<リテラル4>; 1つのサブ質問文字列は、1つの検索エージェント10
mに割付けられる。
【0124】利用者からの質問に応じて生成された前述
質問文字列を並列検索化させるためにサブ質問文字列に
分解して割付を行う本処理を「分解・割付ステップ」と
呼ぶ。
質問文字列を並列検索化させるためにサブ質問文字列に
分解して割付を行う本処理を「分解・割付ステップ」と
呼ぶ。
【0125】次のステップS230では、ヒストグラム
上で同位の最大出現頻度を持つ他のリテラルを検索す
る。
上で同位の最大出現頻度を持つ他のリテラルを検索す
る。
【0126】上記例の場合は、<リテラル5>が対象と
なる。そして<リテラル5>に対してステップS220
内の手順と同様の処理を行う。ステップS230で同位
のものが見出せない場合は、ステップS240に進む。
なる。そして<リテラル5>に対してステップS220
内の手順と同様の処理を行う。ステップS230で同位
のものが見出せない場合は、ステップS240に進む。
【0127】ステップS240では、入力文字列上です
でに読み込んだ基本質問要素以外の基本質問要素が存在
するか否かについてと、現在処理しているリテラル群の
最大出現頻度が1か否かについて判定を行う。
でに読み込んだ基本質問要素以外の基本質問要素が存在
するか否かについてと、現在処理しているリテラル群の
最大出現頻度が1か否かについて判定を行う。
【0128】処理しているリテラル群の最大出現頻度が
2以上で、他に未処理の基本質問要素が存在している場
合、未処理の基本質問要素だけを取り出し、サブ入力文
字列を作成する。
2以上で、他に未処理の基本質問要素が存在している場
合、未処理の基本質問要素だけを取り出し、サブ入力文
字列を作成する。
【0129】そして、このサブ入力文字列を入力文字列
と書き換え、ステップS200の処理に戻る。上記の例
では、置き換えるべきサブ入力文字列は、次のようにな
る。 サブ 入力文字列::=(<リテラル6>‖<リテラル
7>);
と書き換え、ステップS200の処理に戻る。上記の例
では、置き換えるべきサブ入力文字列は、次のようにな
る。 サブ 入力文字列::=(<リテラル6>‖<リテラル
7>);
【0130】ステップS240にて上記条件を満足しな
い場合、「データ検索時の質問処理の並列化アルゴリズ
ム」を終了する。
い場合、「データ検索時の質問処理の並列化アルゴリズ
ム」を終了する。
【0131】「データ検索時の質問処理の並列化アルゴ
リズム」で、複数のサブ質問文字列が生成されると、最
大出現頻度を持つリテラル情報を持つ語彙を引数とし
て、ノードカタログ10dにアクセスするとともに、該
当する分岐化語彙と比較して指定されたリテラル情報を
持つ語彙を含むDBMS10hに関する<配置DBMS
の識別情報>を取得する。
リズム」で、複数のサブ質問文字列が生成されると、最
大出現頻度を持つリテラル情報を持つ語彙を引数とし
て、ノードカタログ10dにアクセスするとともに、該
当する分岐化語彙と比較して指定されたリテラル情報を
持つ語彙を含むDBMS10hに関する<配置DBMS
の識別情報>を取得する。
【0132】そして、この<配置DBMSの識別情報>
に基づいて、該当するDBMSエージェント10gをア
クセスする検索エージェント10mをサブ質問文字列と
<配置DBMSの識別情報>を引数として起動する。
に基づいて、該当するDBMSエージェント10gをア
クセスする検索エージェント10mをサブ質問文字列と
<配置DBMSの識別情報>を引数として起動する。
【0133】なお、検索エージェント10mは、「デー
タ検索時の質問処理の並列化アルゴリズム」で求められ
た割付単位分数だけ起動されることとなる。
タ検索時の質問処理の並列化アルゴリズム」で求められ
た割付単位分数だけ起動されることとなる。
【0134】検索エージェント10mは、引数で与えら
れた<配置DBMSの識別情報>に基づいて該当するD
BMSエージェント10gを割り出すとともに、サブ質
問文字列を引数として起動要求を発行し、応答があるま
で待機する。
れた<配置DBMSの識別情報>に基づいて該当するD
BMSエージェント10gを割り出すとともに、サブ質
問文字列を引数として起動要求を発行し、応答があるま
で待機する。
【0135】DBMSエージェント10gは、サブ質問
文字列で与えられた質問内容に基づいて、自身が管理す
るDBMS10hにアクセスし、該当するドキュメント
のURL一覧を取得する。
文字列で与えられた質問内容に基づいて、自身が管理す
るDBMS10hにアクセスし、該当するドキュメント
のURL一覧を取得する。
【0136】この検索を行うとき、最大出現頻度を持つ
指定リテラルは分岐化すべき語彙と、最大出現頻度をリ
テラルとORとを意味する論理記号”‖”上で対をなす
別のリテラルの集合は、規定ヒストグラム順次以内の語
彙リストとして、それぞれ対応するように質問がDBM
S10hに発行される。
指定リテラルは分岐化すべき語彙と、最大出現頻度をリ
テラルとORとを意味する論理記号”‖”上で対をなす
別のリテラルの集合は、規定ヒストグラム順次以内の語
彙リストとして、それぞれ対応するように質問がDBM
S10hに発行される。
【0137】DBMSエージェント10gは、該当する
ドキュメントのURL一覧を取得すると、この内容は検
索エージェント10mへの応答として返送される。する
と、応答待ちであった検索エージェント10mは、再度
起動してこの応答から該当するドキュメントのURL一
覧に相当する部分を取り出し、結果収集部10nに書き
込み要求として発行する。
ドキュメントのURL一覧を取得すると、この内容は検
索エージェント10mへの応答として返送される。する
と、応答待ちであった検索エージェント10mは、再度
起動してこの応答から該当するドキュメントのURL一
覧に相当する部分を取り出し、結果収集部10nに書き
込み要求として発行する。
【0138】書き込み要求は、起動した全検索エージェ
ント10mの数だけ結果収集部10nにためされる。各
検索エージェント10mは、結果収集部10nに書き込
み要求を発行すると、ディスパーチャ部10lへ終了イ
ベントをそれぞれに発行する。ディスパーチャ部10l
はすべての終了イベントを受け取ると、処理終了イベン
トをサーバ基幹部10jに発行する。
ント10mの数だけ結果収集部10nにためされる。各
検索エージェント10mは、結果収集部10nに書き込
み要求を発行すると、ディスパーチャ部10lへ終了イ
ベントをそれぞれに発行する。ディスパーチャ部10l
はすべての終了イベントを受け取ると、処理終了イベン
トをサーバ基幹部10jに発行する。
【0139】サーバ基幹部10jは、再起動されると、
書き込み要求に含まれ、該当するドキュメントのURL
一覧に相当し、結果収集部10nに管理される、該当す
るドキュメントと全URL一覧を結果収集部10nから
取り出して記録する。
書き込み要求に含まれ、該当するドキュメントのURL
一覧に相当し、結果収集部10nに管理される、該当す
るドキュメントと全URL一覧を結果収集部10nから
取り出して記録する。
【0140】このとき、図6に示すような「URL一覧
の合成アルゴリズム」で処理される。ステップS300
では、起動した検索エージェント10mの数を確認す
る。これは並列化した割付数を意味する。
の合成アルゴリズム」で処理される。ステップS300
では、起動した検索エージェント10mの数を確認す
る。これは並列化した割付数を意味する。
【0141】ステップS310では、それぞれの検索エ
ージェント10mが、結果収集部10nに発行する書き
込み要求に記述された該当する全ドキュメントのURL
一覧を接続した全URL一覧に基づいて一つの仮結果表
を作成する。
ージェント10mが、結果収集部10nに発行する書き
込み要求に記述された該当する全ドキュメントのURL
一覧を接続した全URL一覧に基づいて一つの仮結果表
を作成する。
【0142】ステップS320では、先のステップ1で
確認した検索エージェント10mの数を変数Nにセット
する。
確認した検索エージェント10mの数を変数Nにセット
する。
【0143】ステップS330は、「件数による抽出ス
テップ」で構成され、この変数Nの値に相当する件数が
存在する同じ内容を持つ行を抽出する。これは、先にO
Rを意味する論理記号”‖”の基本質問要素に分解した
前述入力文字列をANDを意味する論理記号”&&”で
再度合成することを意味する。
テップ」で構成され、この変数Nの値に相当する件数が
存在する同じ内容を持つ行を抽出する。これは、先にO
Rを意味する論理記号”‖”の基本質問要素に分解した
前述入力文字列をANDを意味する論理記号”&&”で
再度合成することを意味する。
【0144】ステップS340では、利用者の与えた質
問文字列に該当するドキュメントのURL一覧が得ら
れ、「URL一覧の合成アルゴリズム」が終了する。得
られたURL一覧は、クライアントである計算機内の検
索アプレットへ応答として転送され、一連の検索動作が
完了する。
問文字列に該当するドキュメントのURL一覧が得ら
れ、「URL一覧の合成アルゴリズム」が終了する。得
られたURL一覧は、クライアントである計算機内の検
索アプレットへ応答として転送され、一連の検索動作が
完了する。
【0145】このように、検索ロボット10aにより収
集されたインターネットドキュメントに含まれる語彙に
基づいて複数機種のDBMS10hにデータ登録を行う
とともに、質問文字列に応じて登録データを対応機種で
あるDBMS10hから抽出してURL情報を取得する
ため、アクセス頻度の集中を低減させつつ、異機種デー
タベース間の連携による運用を実現することができる。
集されたインターネットドキュメントに含まれる語彙に
基づいて複数機種のDBMS10hにデータ登録を行う
とともに、質問文字列に応じて登録データを対応機種で
あるDBMS10hから抽出してURL情報を取得する
ため、アクセス頻度の集中を低減させつつ、異機種デー
タベース間の連携による運用を実現することができる。
【0146】
【発明の効果】以上説明したように本発明は、アクセス
頻度の集中を低減させるとともに、異機種データベース
間の連携による運用を実現可能なインターネットドキュ
メント検索エンジン装置を提供することができる。
頻度の集中を低減させるとともに、異機種データベース
間の連携による運用を実現可能なインターネットドキュ
メント検索エンジン装置を提供することができる。
【0147】また、請求項2にかかる発明によれば、順
序化された語彙のリストの一部と同語彙を含むインター
ネット上のドキュメントのURL情報との配置を自動的
に維持管理することができる。
序化された語彙のリストの一部と同語彙を含むインター
ネット上のドキュメントのURL情報との配置を自動的
に維持管理することができる。
【0148】さらに、請求項3にかかる発明によれば、
各語彙を出現頻度や重要性に応じて管理することができ
る。
各語彙を出現頻度や重要性に応じて管理することができ
る。
【0149】さらに、請求項4にかかる発明によれば、
利用者からの指定に応じて生成された質問文字列を並列
検索化させることができる。
利用者からの指定に応じて生成された質問文字列を並列
検索化させることができる。
【0150】さらに、請求項5にかかる発明によれば、
内容行に応じてURLを取り出すことができる。
内容行に応じてURLを取り出すことができる。
【0151】さらに、請求項6にかかる発明によれば、
アクセス頻度の集中を低減させるとともに、異機種デー
タベース間の連携による運用を実現可能なインターネッ
トドキュメント検索エンジン装置の制御方法を提供する
ことができる。
アクセス頻度の集中を低減させるとともに、異機種デー
タベース間の連携による運用を実現可能なインターネッ
トドキュメント検索エンジン装置の制御方法を提供する
ことができる。
【図1】本実施形態にかかる並列処理方式インターネッ
トドキュメント検索エンジン装置のデータ登録時におけ
る構成を示す概略図である。
トドキュメント検索エンジン装置のデータ登録時におけ
る構成を示す概略図である。
【図2】同並列処理方式インターネットドキュメント検
索エンジン装置のデータ検索時における構成を示す概略
図である。
索エンジン装置のデータ検索時における構成を示す概略
図である。
【図3】データ登録時の分岐化を実施する際の決定アル
ゴリズムを示すフロー図である。
ゴリズムを示すフロー図である。
【図4】質問の表現形式としての命題論理の展開公式で
ある。
ある。
【図5】データ検索時の質問処理の並列化アルゴリズム
を示すフロー図である。
を示すフロー図である。
【図6】URL一覧の合成アルゴリズムを示すフロー図
である。
である。
【図7】従来例にかかるインターネットドキュメント検
索エンジン装置の構成を示す概略図である。
索エンジン装置の構成を示す概略図である。
10 インターネットドキュメント検索エンジン装置 10a 検索ロボット 10b 語彙解析部 10c 更新マネージャ 10d ノードカタログ 10e 分岐化マネージャ 10f ディスクカタログ 10g データベース管理システムエージェント(DB
MSエージェント) 10h データベース管理システム(DBMS) 10i 検索アプレット部 10j サーバ基幹部 10k コンバータ部 10l ディスパーチャ部 10m 検索エージェント 10n 結果収集部 10o 内部メモリ部 10p 不要語彙辞書部 10q 最重要語彙辞書部 20 検索アプレット部
MSエージェント) 10h データベース管理システム(DBMS) 10i 検索アプレット部 10j サーバ基幹部 10k コンバータ部 10l ディスパーチャ部 10m 検索エージェント 10n 結果収集部 10o 内部メモリ部 10p 不要語彙辞書部 10q 最重要語彙辞書部 20 検索アプレット部
Claims (6)
- 【請求項1】 インターネット上のドキュメントを収集
するドキュメント検索手段と、 複数の異機種データベース管理手段と、 上記ドキュメント検索手段にて収集されたインターネッ
トドキュメントに含まれる語彙を順序化した語彙リスト
の一部と同語彙を含むインターネット上のドキュメント
のURL情報とを互いに重複しないように上記異機種デ
ータベース管理手段に配置する複数のデータベース管理
制御手段とを具備することを特徴とするインターネット
ドキュメント検索エンジン装置。 - 【請求項2】 上記請求項1に記載のインターネットド
キュメント検索エンジン装置において、 上記データベース管理制御手段は、各異機種データベー
ス管理手段が管理する語彙のうちで最後の語彙と同異機
種データベース管理手段の物理的配置情報とを関係付け
た情報を管理するノードカタログ手段と、上記順序化さ
れた語彙のリストの一部と同語彙を含むインターネット
上のドキュメントのURL情報との配置を自動的に維持
管理する分岐化手段とを具備することを特徴とするイン
ターネットドキュメント検索エンジン装置。 - 【請求項3】 上記請求項1または請求項2のいずれか
に記載のインターネットドキュメント検索エンジン装置
において、 上記データベース管理制御手段は、上記ドキュメント検
索手段がメモリ上に収集したインターネット上のドキュ
メントに含まれる各語彙の出現回数に関するヒストグラ
ムを作成するヒストグラム作成手段と、同インターネッ
ト上のドキュメントに最重要語彙が含まれているか否か
を判定する最重要語彙判定手段と、同インターネット上
のドキュメントに含まれる各語彙が上記複数の異機種デ
ータベース管理手段上に規定の登録件数以上存在してい
るか否かを判定し、同語彙の重要性を判定する重要性判
定手段とを具備することを特徴とするインターネットド
キュメント検索エンジン装置。 - 【請求項4】 上記請求項1〜請求項3のいずれかに記
載のインターネットドキュメント検索エンジン装置にお
いて、 上記データベース管理制御手段は、利用者からの指定に
応じて生成された質問文字列を分解し、それぞれを上記
異機種データベース管理手段に並列に割り付ける分解割
付手段を具備することを特徴とするインターネットドキ
ュメント検索エンジン装置。 - 【請求項5】 上記請求項1〜請求項4のいずれかに記
載のインターネットドキュメント検索エンジン装置にお
いて、 上記データベース管理制御手段は、起動した上記データ
ベース管理制御手段の戻すURL一覧をすべて接続して
一つの仮結果表を作成し、同データベース管理制御手段
の数相当の同一内容行を持つURLのみを取り出すUR
L抽出手段を具備することを特徴とするインターネット
ドキュメント検索エンジン装置。 - 【請求項6】 インターネット上のドキュメントを収集
し、同ドキュメントに含まれる語彙を順序化した語彙リ
ストの一部と同語彙を含むインターネット上のドキュメ
ントのURL情報とを互いに重複しないように異機種デ
ータベース管理手段に配置することを特徴とするインタ
ーネットドキュメント検索エンジン装置の制御方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10087035A JPH11282870A (ja) | 1998-03-31 | 1998-03-31 | インターネットドキュメント検索エンジン装置及びインターネットドキュメント検索エンジン装置の制御方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10087035A JPH11282870A (ja) | 1998-03-31 | 1998-03-31 | インターネットドキュメント検索エンジン装置及びインターネットドキュメント検索エンジン装置の制御方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH11282870A true JPH11282870A (ja) | 1999-10-15 |
Family
ID=13903704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10087035A Pending JPH11282870A (ja) | 1998-03-31 | 1998-03-31 | インターネットドキュメント検索エンジン装置及びインターネットドキュメント検索エンジン装置の制御方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH11282870A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001018686A1 (en) * | 1999-08-03 | 2001-03-15 | Huh Haeng Yang | Information acquisition method in internet and computer readable medium for storing program for carrying out the method |
WO2001096978A2 (en) * | 2000-06-10 | 2001-12-20 | Ccr Inc. | System and method for facilitating internet search by providing web document layout image |
US7818688B2 (en) | 2005-10-28 | 2010-10-19 | Kabushiki Kaisha Square Enix | Information browsing apparatus and method, program and recording medium |
-
1998
- 1998-03-31 JP JP10087035A patent/JPH11282870A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001018686A1 (en) * | 1999-08-03 | 2001-03-15 | Huh Haeng Yang | Information acquisition method in internet and computer readable medium for storing program for carrying out the method |
WO2001096978A2 (en) * | 2000-06-10 | 2001-12-20 | Ccr Inc. | System and method for facilitating internet search by providing web document layout image |
US7099861B2 (en) | 2000-06-10 | 2006-08-29 | Ccr Inc. | System and method for facilitating internet search by providing web document layout image |
WO2001096978A3 (en) * | 2000-06-10 | 2007-11-01 | Ccr Inc | System and method for facilitating internet search by providing web document layout image |
US7818688B2 (en) | 2005-10-28 | 2010-10-19 | Kabushiki Kaisha Square Enix | Information browsing apparatus and method, program and recording medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1349081A1 (en) | Method and apparatus for querying relational databases | |
JP3747525B2 (ja) | 並列データベースシステム検索方法 | |
US7574423B2 (en) | Partial data model exposure through client side caching | |
EP0877327B1 (en) | Method and apparatus for performing a join query in a database system | |
US20030046292A1 (en) | Restructuring view maintenance system and method | |
JP3742177B2 (ja) | 並列データベースシステムルーチン実行方法 | |
JP2009020901A (ja) | データベースシステム、データベース検索方法及び記録媒体 | |
US20060161528A1 (en) | Method for regenerating selected rows for an otherwise static result set | |
JPH1125096A (ja) | データベースをサーチする方法およびコンピュータシステム | |
JPH08255177A (ja) | 論理積照会を実行する方法 | |
US11281668B1 (en) | Optimizing complex database queries using query fusion | |
CN110889023A (zh) | 一种elasticsearch的分布式多功能搜索引擎 | |
JPH11213014A (ja) | データベースシステム、データベース検索方法及び記録媒体 | |
EP1349082A1 (en) | Method and apparatus for querying relational databases | |
US6374257B1 (en) | Method and system for removing ambiguities in a shared database command | |
JP3808941B2 (ja) | 並列データベースシステム通信回数削減方法 | |
de Oliveira et al. | Efficient match-based candidate network generation for keyword queries over relational databases | |
JPH11282870A (ja) | インターネットドキュメント検索エンジン装置及びインターネットドキュメント検索エンジン装置の制御方法 | |
Malhotra et al. | An ingenious pattern matching approach to ameliorate web page rank | |
JP2004206629A (ja) | 異種データソース統合検索サーバシステム | |
US8738600B2 (en) | String searches in a computer database | |
Zhu et al. | Developing a dynamic materialized view index for efficiently discovering usable views for progressive queries | |
Schkolnick et al. | Considerations in developing a design tool for a relational DBMS | |
JP3565117B2 (ja) | 複数異種情報源アクセス方法及びクライアント装置及び複数異種情報源アクセスプログラムを格納した記憶媒体 | |
Al-Harbi et al. | PHD-Store: an adaptive SPARQL engine with dynamic partitioning for distributed RDF repositories |