JP2000112981A - ワールドワイドウェブサーバーのウェブページにわたるフルテキストサーチを提供する検索システム及び方法 - Google Patents
ワールドワイドウェブサーバーのウェブページにわたるフルテキストサーチを提供する検索システム及び方法Info
- Publication number
- JP2000112981A JP2000112981A JP10284586A JP28458698A JP2000112981A JP 2000112981 A JP2000112981 A JP 2000112981A JP 10284586 A JP10284586 A JP 10284586A JP 28458698 A JP28458698 A JP 28458698A JP 2000112981 A JP2000112981 A JP 2000112981A
- Authority
- JP
- Japan
- Prior art keywords
- data
- text
- world wide
- file
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Computer And Data Communications (AREA)
Abstract
(57)【要約】
【課題】 ウェブページのみのテキスト、パス、ハイパ
ーリンクデータを記憶し、余分なデータを全て排除して
データベースを形成する検索システムを提供する。 【解決手段】 サーバーのウェブページからのデータを
含む複数のデータ群と;サーバーの動作を管理しフルテ
キスト検索サービスを提供する管理プログラムとからな
り、サーバー内のデータ群は:対応するサーバー内のウ
ェブページの記録パスデータに対するパスファイルと;
ウェブページをフルテキスト検索するために設けられた
インデックスファイルとを含み、ユーザーに特定された
検索パラメータにより特定された検索パラメータに適合
するウェブサーバーのウェブページを見いだすよう各デ
ータ群のインデックスファイルを用い、ウェブページの
パスデータを見いだすように各データ群のパスファイル
を用いる。
ーリンクデータを記憶し、余分なデータを全て排除して
データベースを形成する検索システムを提供する。 【解決手段】 サーバーのウェブページからのデータを
含む複数のデータ群と;サーバーの動作を管理しフルテ
キスト検索サービスを提供する管理プログラムとからな
り、サーバー内のデータ群は:対応するサーバー内のウ
ェブページの記録パスデータに対するパスファイルと;
ウェブページをフルテキスト検索するために設けられた
インデックスファイルとを含み、ユーザーに特定された
検索パラメータにより特定された検索パラメータに適合
するウェブサーバーのウェブページを見いだすよう各デ
ータ群のインデックスファイルを用い、ウェブページの
パスデータを見いだすように各データ群のパスファイル
を用いる。
Description
【0001】
【発明の属する技術分野】本発明は検索システムに関
し、より詳細にはワールドワイドウェブサーバーのウェ
ブページにわたるフルテキストサーチを提供するサーチ
システムに関する。
し、より詳細にはワールドワイドウェブサーバーのウェ
ブページにわたるフルテキストサーチを提供するサーチ
システムに関する。
【0002】
【従来の技術】インターネットはそれに関連するウェブ
サービスに関して極めて高い人気を有するようになって
きた。これはユーザーが情報の富を探すためにインター
ネットと接続することを可能にする。しかしながらイン
ターネットに現在接続されている膨大な数のサーバーと
各サーバーに記憶されているウェブページの数は管理不
可能な大きさになっており、ユーザーを混乱させてい
る。この問題を克服するために多くのウェブページ検索
システムが考案されてきている。ユーザーはサーバーと
ウェブページを検索するために所望の情報を検索システ
ムにキーインする。
サービスに関して極めて高い人気を有するようになって
きた。これはユーザーが情報の富を探すためにインター
ネットと接続することを可能にする。しかしながらイン
ターネットに現在接続されている膨大な数のサーバーと
各サーバーに記憶されているウェブページの数は管理不
可能な大きさになっており、ユーザーを混乱させてい
る。この問題を克服するために多くのウェブページ検索
システムが考案されてきている。ユーザーはサーバーと
ウェブページを検索するために所望の情報を検索システ
ムにキーインする。
【0003】ワールドワイドウェブサーバーに記憶され
たウェブページに対するデータベースを形成するため
に、検索システムは検索で用いられるウェブサーバーか
ら集められたウェブページを含むデータを解析し、処理
する。単一のウェブページはグラフ、テキスト、音声、
モーションファイル、等々を含むファイルの多くの型を
含む。付加的に各ウェブサーバーは数百、数千、あるい
は数万にものぼるウェブページを含む。単一のウェブサ
ーバー用のデータベースを形成することですら圧倒的な
量の仕事であり、問題は検索システムが同時に何百もの
ウェブサーバーを取り扱わなければならないという事実
を考えたときに一層ひどくなる。明らかにこの必要とさ
れるばく大なコンピュータメモリの量及び増加する処理
時間は受容不可能である。
たウェブページに対するデータベースを形成するため
に、検索システムは検索で用いられるウェブサーバーか
ら集められたウェブページを含むデータを解析し、処理
する。単一のウェブページはグラフ、テキスト、音声、
モーションファイル、等々を含むファイルの多くの型を
含む。付加的に各ウェブサーバーは数百、数千、あるい
は数万にものぼるウェブページを含む。単一のウェブサ
ーバー用のデータベースを形成することですら圧倒的な
量の仕事であり、問題は検索システムが同時に何百もの
ウェブサーバーを取り扱わなければならないという事実
を考えたときに一層ひどくなる。明らかにこの必要とさ
れるばく大なコンピュータメモリの量及び増加する処理
時間は受容不可能である。
【0004】
【発明が解決しようとする課題】本発明の目的はウェブ
ページのみのテキスト、パス、ハイパーリンクデータを
記憶し、上記の問題を解決するために余分なデータを全
て排除することによりそのデータベースを形成する検索
システムを提供することにある。
ページのみのテキスト、パス、ハイパーリンクデータを
記憶し、上記の問題を解決するために余分なデータを全
て排除することによりそのデータベースを形成する検索
システムを提供することにある。
【0005】
【課題を解決するための手段】上記目的はインターネッ
トに接続されたインターネットサーバーと;インターネ
ットに接続されたワールドワイドウェブサーバーのウェ
ブページからのデータをそれぞれ含むサーバーに記憶さ
れた複数のデータ群と;サーバーの動作を管理し、デー
タ群にわたるフルテキスト検索サービスをユーザーに提
供するサーバーに記憶された管理プログラムとからな
り、サーバー内のデータ群のそれぞれは:データ群に対
応するワールドワイドウェブサーバー内のウェブページ
のそれぞれの記録パスデータに対するパスファイルと;
データ群に対応するワールドワイドウェブサーバー内の
ウェブページに含まれるテキストデータをフルテキスト
検索するために設けられたインデックスファイルとを含
み、少なくとも一人のユーザーに特定された検索パラメ
ータにより管理プログラムは特定された検索パラメータ
に適合する対応するワールドワイドウェブサーバーのウ
ェブページを見いだすよう各データ群のインデックスフ
ァイルを用い、対応するワールドワイドウェブサーバー
のウェブページのそれぞれのパスデータを見いだすよう
に各データ群のパスファイルを用い、それから所定のフ
ォーマットに結果を出力するインターネットに接続され
たワールドワイドウェブサーバーのウェブページのフル
テキスト検索を提供する検索システムにより達成され
る。
トに接続されたインターネットサーバーと;インターネ
ットに接続されたワールドワイドウェブサーバーのウェ
ブページからのデータをそれぞれ含むサーバーに記憶さ
れた複数のデータ群と;サーバーの動作を管理し、デー
タ群にわたるフルテキスト検索サービスをユーザーに提
供するサーバーに記憶された管理プログラムとからな
り、サーバー内のデータ群のそれぞれは:データ群に対
応するワールドワイドウェブサーバー内のウェブページ
のそれぞれの記録パスデータに対するパスファイルと;
データ群に対応するワールドワイドウェブサーバー内の
ウェブページに含まれるテキストデータをフルテキスト
検索するために設けられたインデックスファイルとを含
み、少なくとも一人のユーザーに特定された検索パラメ
ータにより管理プログラムは特定された検索パラメータ
に適合する対応するワールドワイドウェブサーバーのウ
ェブページを見いだすよう各データ群のインデックスフ
ァイルを用い、対応するワールドワイドウェブサーバー
のウェブページのそれぞれのパスデータを見いだすよう
に各データ群のパスファイルを用い、それから所定のフ
ォーマットに結果を出力するインターネットに接続され
たワールドワイドウェブサーバーのウェブページのフル
テキスト検索を提供する検索システムにより達成され
る。
【0006】
【発明の実施の形態】図1を参照するにこれは本発明に
よるワールドワイドウェブサーバー上のウェブページの
フルテキスト検索(search)用の検索システム1
0の概略図である。インターネット14を通して、検索
システム10はワールドワイドウェブサーバー12とユ
ーザー16を接続する。ウェブサーバー12は通常ホー
ムページと、ユーザーが検索する複数のウェブページと
からなる。データベースを形成するために検索システム
10はウェブサーバー12のウェブページデータを再生
(retrieve)し、テキストとパスデータのみを
記憶する。この方法は時間とメモリを節約する。
よるワールドワイドウェブサーバー上のウェブページの
フルテキスト検索(search)用の検索システム1
0の概略図である。インターネット14を通して、検索
システム10はワールドワイドウェブサーバー12とユ
ーザー16を接続する。ウェブサーバー12は通常ホー
ムページと、ユーザーが検索する複数のウェブページと
からなる。データベースを形成するために検索システム
10はウェブサーバー12のウェブページデータを再生
(retrieve)し、テキストとパスデータのみを
記憶する。この方法は時間とメモリを節約する。
【0007】図2を参照するに、図2は図1に示される
検索システム10の機能ブロック図である。検索システ
ム10はインターネット14に接続されたサーバー20
と、複数のデータ群22と、サーバー20に記憶された
管理プログラム24とからなる。サーバー20はプログ
ラム及びデータを記憶するメモリと、メモリ21に記憶
されたプログラムを実行するCPU23とを含む。管理
プログラム24はサーバー2の動作を管理し、ワールド
ワイドウェブサーバー12のデータ群22を形成するデ
ータ群形成モジュール25とフルテキスト検索をなすた
めにデータ群22により用いられるフルテキスト検索モ
ジュール27とからなる。データ群22のそれぞれは単
一のワールドワイドウェブサーバーのウェブページのデ
ータを含み、ウェブサーバー12に記憶されたウェブペ
ージのテキストデータを記録するテキストファイル26
と、ウェブページのパスを記録するパスファイル28と
ウェブページのテキストデータのフルテキスト検索用の
インデックスファイル29とからなる。
検索システム10の機能ブロック図である。検索システ
ム10はインターネット14に接続されたサーバー20
と、複数のデータ群22と、サーバー20に記憶された
管理プログラム24とからなる。サーバー20はプログ
ラム及びデータを記憶するメモリと、メモリ21に記憶
されたプログラムを実行するCPU23とを含む。管理
プログラム24はサーバー2の動作を管理し、ワールド
ワイドウェブサーバー12のデータ群22を形成するデ
ータ群形成モジュール25とフルテキスト検索をなすた
めにデータ群22により用いられるフルテキスト検索モ
ジュール27とからなる。データ群22のそれぞれは単
一のワールドワイドウェブサーバーのウェブページのデ
ータを含み、ウェブサーバー12に記憶されたウェブペ
ージのテキストデータを記録するテキストファイル26
と、ウェブページのパスを記録するパスファイル28と
ウェブページのテキストデータのフルテキスト検索用の
インデックスファイル29とからなる。
【0008】データ群形成モジュール25はインターネ
ットに接続された各ウェブサーバー12のデータ群22
を形成する。データ群22はユーザー16にフルテキス
ト検索能力を提供する。データ群22はテキストファイ
ル26、パスファイル28、インデックスファイル29
を形成するために最初にインターネット14を通してウ
ェブサーバー12を接続し、次に各ウェブページ内のテ
キストデータとパスデータを用いる群形成モジュール2
5により形成される。
ットに接続された各ウェブサーバー12のデータ群22
を形成する。データ群22はユーザー16にフルテキス
ト検索能力を提供する。データ群22はテキストファイ
ル26、パスファイル28、インデックスファイル29
を形成するために最初にインターネット14を通してウ
ェブサーバー12を接続し、次に各ウェブページ内のテ
キストデータとパスデータを用いる群形成モジュール2
5により形成される。
【0009】フルテキスト検索モジュール27はデータ
群22のフルテキスト検索に用いられる。ウェブサーバ
ー1のウェブページを検索するためにユーザーはキーワ
ード又はキーワードの組合せを入力する。この情報に基
づき、フルテキスト検索モジュール27は適切なウェブ
ページに対するデータ群22のそれぞれでテキストファ
イル26を検索するためにインデックスファイル29を
用いる。最終的にフルテキスト検索モジュール27は標
準httpウェブページフォーマットでテキストファイ
ル26とパスファイル28とから適切なウェブページの
テキストデータとパスデータを出力する。パスファイル
28はウェブサーバー12のアドレスと、テキストデー
タが対応するテキストファイル26にあるウェブページ
のパスとを含む。
群22のフルテキスト検索に用いられる。ウェブサーバ
ー1のウェブページを検索するためにユーザーはキーワ
ード又はキーワードの組合せを入力する。この情報に基
づき、フルテキスト検索モジュール27は適切なウェブ
ページに対するデータ群22のそれぞれでテキストファ
イル26を検索するためにインデックスファイル29を
用いる。最終的にフルテキスト検索モジュール27は標
準httpウェブページフォーマットでテキストファイ
ル26とパスファイル28とから適切なウェブページの
テキストデータとパスデータを出力する。パスファイル
28はウェブサーバー12のアドレスと、テキストデー
タが対応するテキストファイル26にあるウェブページ
のパスとを含む。
【0010】図3を参照するに、図1に示される検索シ
ステム10のデータ群形成モジュール25によりウェブ
サーバー12に対するデータベースを形成するためのフ
ローチャートを示す。このフローチャートは以下の段階
からなる: 段階30:インターネット14を通してワールドワイド
ウェブサーバー12に接続する; 段階31:テキストファイル26と、ウェブサーバー1
2に対するパスファイル28と、ハイパーリンクデータ
ファイルとを形成し、それからウェブサーバー12のア
ドレスをパスファイル28に記憶する; 段階32:ウェブサーバー12のホームページをリクエ
ストする; 段階33:ホームページのテキストデータをテキストフ
ァイル26に記憶し、パスデータをパスファイル28に
記憶し、テキストファイル26に記憶されたテキストデ
ータに基づくインデックスファイル29を形成し、ホー
ムページ内の全ての無関係なデータを廃棄する; 段階34:ウェブサーバー12のウェブページからデー
タをリクエストするために以前にアクセスされないハイ
パーリンクファイルからウェブページハイパーリンクを
用いる; 段階35:ウェブページのテキストデータをテキストフ
ァイル26に記憶し、パスファイル28にパスデータを
記憶し、ウェブページにまだ記憶されていないハイパー
リンクの存在を照合し、それらをハイパーリンクファイ
ルに記憶し、テキストファイル26に記憶されたテキス
トデータに基づくインデックスファイル29を形成し、
それからウェブページ内の無関係なデータを廃棄する; 段階36:ハイパーリンクファイルに記憶されている全
てのウェブページがアクセスされる場合;そうでない場
合には段階34に戻る; 段階37:終わり 上記の手順を用いて、データ群形成モジュール25はウ
ェブサーバー12内の全て、又は所定のツリー(tre
e)構造内の全て又は一定の数のウェブページを順次ア
クセスし、各ウェブページのテキストとパスをテキスト
及びパスファイル26、28にそれぞれ記憶し、他の全
ての無関係のデータを無視する。この方法はメモリ空間
を節約する一方で検索システム10がデータ群22を効
率的に形成することを許容する。
ステム10のデータ群形成モジュール25によりウェブ
サーバー12に対するデータベースを形成するためのフ
ローチャートを示す。このフローチャートは以下の段階
からなる: 段階30:インターネット14を通してワールドワイド
ウェブサーバー12に接続する; 段階31:テキストファイル26と、ウェブサーバー1
2に対するパスファイル28と、ハイパーリンクデータ
ファイルとを形成し、それからウェブサーバー12のア
ドレスをパスファイル28に記憶する; 段階32:ウェブサーバー12のホームページをリクエ
ストする; 段階33:ホームページのテキストデータをテキストフ
ァイル26に記憶し、パスデータをパスファイル28に
記憶し、テキストファイル26に記憶されたテキストデ
ータに基づくインデックスファイル29を形成し、ホー
ムページ内の全ての無関係なデータを廃棄する; 段階34:ウェブサーバー12のウェブページからデー
タをリクエストするために以前にアクセスされないハイ
パーリンクファイルからウェブページハイパーリンクを
用いる; 段階35:ウェブページのテキストデータをテキストフ
ァイル26に記憶し、パスファイル28にパスデータを
記憶し、ウェブページにまだ記憶されていないハイパー
リンクの存在を照合し、それらをハイパーリンクファイ
ルに記憶し、テキストファイル26に記憶されたテキス
トデータに基づくインデックスファイル29を形成し、
それからウェブページ内の無関係なデータを廃棄する; 段階36:ハイパーリンクファイルに記憶されている全
てのウェブページがアクセスされる場合;そうでない場
合には段階34に戻る; 段階37:終わり 上記の手順を用いて、データ群形成モジュール25はウ
ェブサーバー12内の全て、又は所定のツリー(tre
e)構造内の全て又は一定の数のウェブページを順次ア
クセスし、各ウェブページのテキストとパスをテキスト
及びパスファイル26、28にそれぞれ記憶し、他の全
ての無関係のデータを無視する。この方法はメモリ空間
を節約する一方で検索システム10がデータ群22を効
率的に形成することを許容する。
【0011】図4を参照するに、検索システム10でフ
ルテキスト検索モジュール27によりフルテキスト検索
処理を示すフローチャートである。この手順は次の段階
からなる: 段階40:インターネット14を通して検索システム1
0に接続する; 段階41:キーワードをサーチシステム10に入力す
る; 段階42:キーワードに基づく対応するインデックスデ
ータに対して各データ群22のインデックスファイル2
9を検索する; 段階43:キーワードに対応するインデックスデータに
基づく対応するテキスト及びパスデータに対して各デー
タ群22のテキストファイル26とパスファイル28を
検索し。 段階44:テキストとパスデータを結合し、それからデ
ータを出力する。
ルテキスト検索モジュール27によりフルテキスト検索
処理を示すフローチャートである。この手順は次の段階
からなる: 段階40:インターネット14を通して検索システム1
0に接続する; 段階41:キーワードをサーチシステム10に入力す
る; 段階42:キーワードに基づく対応するインデックスデ
ータに対して各データ群22のインデックスファイル2
9を検索する; 段階43:キーワードに対応するインデックスデータに
基づく対応するテキスト及びパスデータに対して各デー
タ群22のテキストファイル26とパスファイル28を
検索し。 段階44:テキストとパスデータを結合し、それからデ
ータを出力する。
【0012】段階44でフルテキスト検索モジュール2
7はフルテキストデータを出力せず、ユーザーからの入
力コマンドにより各ウェブページのタイトル又はテキス
トデータの一部分を出力する。この出力データはシーケ
ンスに配置され、http基準によるフォーマットに配
置される。検索されたウェブページのパスデータがハイ
パーリンクの形で各出力されたウェブページに記憶され
る故にユーザー16は元のウェブサーバーが所望のウェ
ブページを含むように配置されるようハイパーリンクを
用いる。
7はフルテキストデータを出力せず、ユーザーからの入
力コマンドにより各ウェブページのタイトル又はテキス
トデータの一部分を出力する。この出力データはシーケ
ンスに配置され、http基準によるフォーマットに配
置される。検索されたウェブページのパスデータがハイ
パーリンクの形で各出力されたウェブページに記憶され
る故にユーザー16は元のウェブサーバーが所望のウェ
ブページを含むように配置されるようハイパーリンクを
用いる。
【0013】従来技術の検索システムがワールドワイド
ウェブサーバー用のデータベースを形成するときにウェ
ブページ全体がウェブページ内のデータを解析し、組織
化し、インデックスデータを形成する前にしばしばロー
ドされている。この処理は多くのコンピュータメモリと
処理時間を必要とする。逆に本発明のフルテキスト検索
システム10はウェブサーバー12のウェブページのテ
キストとパスデータを記憶し、無関係なデータを廃棄す
ることによりメモリーと処理時間を節約する。
ウェブサーバー用のデータベースを形成するときにウェ
ブページ全体がウェブページ内のデータを解析し、組織
化し、インデックスデータを形成する前にしばしばロー
ドされている。この処理は多くのコンピュータメモリと
処理時間を必要とする。逆に本発明のフルテキスト検索
システム10はウェブサーバー12のウェブページのテ
キストとパスデータを記憶し、無関係なデータを廃棄す
ることによりメモリーと処理時間を節約する。
【図1】本発明によるワールドワイドウェブサーバーの
ウェブページをフルテキスト検索するための検索システ
ムの概略図である。
ウェブページをフルテキスト検索するための検索システ
ムの概略図である。
【図2】図1に示された検索システムの機能ブロック図
である。
である。
【図3】図1に示された検索システムによりウェブサー
バーに対してデータベースを形成するフローチャートを
示す。
バーに対してデータベースを形成するフローチャートを
示す。
【図4】図1に示された検索システムによりなされたフ
ルテキストサーチに対するフローチャートを示す。
ルテキストサーチに対するフローチャートを示す。
10 検索システム 12 ワールドワイドウェブサーバー 14 インターネット 16 ユーザー 20 サーバー 21 メモリ 22 複数のデータ群 23 CPU 24 管理プログラム 25 データ群形成モジュール 26 テキストファイル 27 フルテキスト検索モジュール 28 パスファイル 29 インデックスファイル
───────────────────────────────────────────────────── フロントページの続き (72)発明者 チャオ クオ−ジェン 台湾 タイナン・シエン ユン−カン・シ ティー フ−クオ・セカンド・ロード レ ーン205 ナンバー18 Fターム(参考) 5B075 KK02 KK07 ND03 NK02 PP12 PP22 QS01 5B089 GA11 GB03 HA10 HB05 JA24 KA05 KA11 KC44
Claims (12)
- 【請求項1】インターネットに接続されたインターネッ
トサーバーと;インターネットに接続されたワールドワ
イドウェブサーバーのウェブページからのデータをそれ
ぞれ含むサーバーに記憶された複数のデータ群と;サー
バーの動作を管理し、データ群にわたるフルテキスト検
索サービスをユーザーに提供するサーバーに記憶された
管理プログラムとからなり、サーバー内のデータ群のそ
れぞれは:データ群に対応するワールドワイドウェブサ
ーバー内のウェブページのそれぞれの記録パスデータに
対するパスファイルと;データ群に対応するワールドワ
イドウェブサーバー内のウェブページに含まれるテキス
トデータをフルテキスト検索するために設けられたイン
デックスファイルとを含み、少なくとも一人のユーザー
に特定された検索パラメータにより管理プログラムは特
定された検索パラメータに適合する対応するワールドワ
イドウェブサーバーのウェブページを見いだすよう各デ
ータ群のインデックスファイルを用い、対応するワール
ドワイドウェブサーバーのウェブページのそれぞれのパ
スデータを見いだすように各データ群のパスファイルを
用い、それから所定のフォーマットに結果を出力するイ
ンターネットに接続されたワールドワイドウェブサーバ
ーのウェブページのフルテキスト検索を提供する検索シ
ステム。 - 【請求項2】 サーバ内に記憶されたデータ群のそれぞ
れは更に対応するワールドワイドウェブサーバーのウェ
ブページのそれぞれに含まれるテキストデータを記録す
るテキストファイルを含み、各データ群のパスファイル
は同じデータ群のテキストファイルに含まれるウェブペ
ージのそれぞれのパスデータを記録するために用いら
れ、各データ群のインデックスファイルは同じデータ群
のテキストファイルに含まれるテキストデータに対する
フルテキスト検索を提供するよう用いられ、特定された
検索パラメータが提供された後に管理プログラムが検索
パラメータに適合するウェブページに対する同じデータ
群のテキストファイルを検索するために各データ群のイ
ンデックスファイルを用い、検索パラメータに適合する
各ウェブページのテキストデータを再生するために同じ
データ群のテキストファイルを用い、特定の検索パラメ
ータに適合するウェブページのそれぞれのパスデータを
見いだすために同じデータ群のパスファイルを用い、そ
れから所定のフォーマットで結果を出力する請求項1記
載の検索システム。 - 【請求項3】 管理プログラムはhttp規格ウェブペ
ージフォーマットにより特定された検索パラメータに適
合するウェブページのテキストデータ及びパスデータを
出力する請求項2記載の検索システム。 - 【請求項4】 管理プログラムは特定された検索パラメ
ータに適合するウェブページに含まれるタイトル部分又
はテキストデータの一部分を出力する請求項2記載の検
索システム。 - 【請求項5】 検索パラメータはキーワード又はキーワ
ードの組合せである請求項2記載の検索システム。 - 【請求項6】 各データ群のパスファイルは対応するワ
ールドワイドウェブサーバーの全てのウェブページの内
部のパスと、インターネット上のワールドワイドウェブ
サーバーのインターネットアドレスとからなり、内部パ
スとインターネットアドレスは管理プログラムにより出
力されたパスデータに含まれる請求項2記載の検索シス
テム。 - 【請求項7】 管理プログラムは更にフルテキスト検索
用のワールドワイドウェブサーバーのそれぞれのデータ
群を形成するデータ群形成モジュールを含み、ワールド
ワイドウェブサーバーに対して一のデータ群を形成する
ときにデータ群形成モジュールはまずインターネットを
通してワールドワイドウェブサーバーと接続し、ワール
ドワイドウェブサーバーのウェブページに記憶されてい
るテキスト及びパスデータを再生し、再生されたデータ
を用いて一のテキストファイル及び一のパスファイルを
形成し、次にテキストファイルに含まれるテキストデー
タのフルテキスト検索に対してテキストファイルを用い
る一のインデックスファイルを形成する請求項2記載の
検索システム。 - 【請求項8】 各ウェブページに含まれるテキストデー
タ及びパスデータを再生した後に、管理プログラムはメ
モリ空間を節約するために他の全てのデータを廃棄する
請求項7記載の検索システム。 - 【請求項9】ワールドワイドウェブサーバーのデータ群
を記憶するインターネットに接続されたインターネット
サーバーと;サーバーの動作を管理し、ワールドワイド
ウェブサーバーのデータ群を形成するサーバーに記憶さ
れた管理プログラムとからなり、ワールドワイドウェブ
サーバー内のデータ群は:ワールドワイドウェブサーバ
ー内のウェブページのそれぞれの記録パスデータに対す
るパスファイルと;ワールドワイドウェブサーバー内の
ウェブページに含まれるテキストデータをフルテキスト
検索するために設けられたインデックスファイルとを含
み、インターネットを通してサーバーをワールドワイド
ウェブサーバーと接続し;パスファイルを形成するため
にワールドワイドウェブサーバーのウェブページのそれ
ぞれからパスデータを再生し;ワールドワイドウェブサ
ーバー内のウェブページのテキストデータにわたりフル
テキスト検索を提供するインデックスファイルを形成す
るためにワールドワイドウェブサーバーのウェブページ
のそれぞれに含まれるテキストデータを用いるフルテキ
スト検索検索システム内でインターネットに接続された
ワールドワイドウェブサーバー用のデータ群を形成する
方法。 - 【請求項10】 ワールドワイドウェブサーバーのデー
タ群は更にワールドワイドウェブサーバーのウェブペー
ジのそれぞれに含まれるテキストデータを記憶するテキ
ストファイルを含み、データ群のパスファイルはデータ
群のテキストファイルに含まれるウェブページのそれぞ
れのパスデータを記録するために用いられ、データ群の
インデックスファイルはデータ群のテキストファイルに
含まれるテキストデータに対するフルテキスト検索を提
供するよう用いられ、テキストファイルを形成するため
にワールドワイドウェブサーバーのウェブページのそれ
ぞれからテキストデータを再生する段階を更に含む請求
項9記載の方法。 - 【請求項11】 各ウェブページに含まれるテキストデ
ータ及びパスデータを再生した後に、管理プログラムは
メモリ空間を節約するために他の全てのデータを廃棄す
る請求項10記載の方法。 - 【請求項12】 各ウェブページに含まれるテキストデ
ータ及びパスデータを再生した後に、管理プログラムは
全てのウェブページ、所定の数のウェブページ、又はワ
ールドワイドウェブサーバーからの所定のツリー構造内
の全てのウェブページからデータを再生する請求項10
記載の方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/133,674 US6304872B1 (en) | 1998-08-13 | 1998-08-13 | Search system for providing fulltext search over web pages of world wide web servers |
CA002245089A CA2245089A1 (en) | 1998-08-13 | 1998-08-17 | Search system for providing fulltext search over web pages of world wide web servers |
EP98115416A EP0981097A1 (en) | 1998-08-13 | 1998-08-17 | Search system and method for providing a fulltext search over web pages of world wide web servers |
JP10284586A JP2000112981A (ja) | 1998-08-13 | 1998-10-06 | ワールドワイドウェブサーバーのウェブページにわたるフルテキストサーチを提供する検索システム及び方法 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/133,674 US6304872B1 (en) | 1998-08-13 | 1998-08-13 | Search system for providing fulltext search over web pages of world wide web servers |
CA002245089A CA2245089A1 (en) | 1998-08-13 | 1998-08-17 | Search system for providing fulltext search over web pages of world wide web servers |
EP98115416A EP0981097A1 (en) | 1998-08-13 | 1998-08-17 | Search system and method for providing a fulltext search over web pages of world wide web servers |
JP10284586A JP2000112981A (ja) | 1998-08-13 | 1998-10-06 | ワールドワイドウェブサーバーのウェブページにわたるフルテキストサーチを提供する検索システム及び方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000112981A true JP2000112981A (ja) | 2000-04-21 |
Family
ID=31982407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10284586A Pending JP2000112981A (ja) | 1998-08-13 | 1998-10-06 | ワールドワイドウェブサーバーのウェブページにわたるフルテキストサーチを提供する検索システム及び方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US6304872B1 (ja) |
EP (1) | EP0981097A1 (ja) |
JP (1) | JP2000112981A (ja) |
CA (1) | CA2245089A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7124127B2 (en) | 2002-03-20 | 2006-10-17 | Fujitsu Limited | Search server and method for providing search results |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6961897B1 (en) * | 1999-06-14 | 2005-11-01 | Lockheed Martin Corporation | System and method for interactive electronic media extraction for web page generation |
GB2357596A (en) * | 1999-12-20 | 2001-06-27 | Univ London | A navigation engine for assessing the quality of a trail between linked pages |
US20020049705A1 (en) * | 2000-04-19 | 2002-04-25 | E-Base Ltd. | Method for creating content oriented databases and content files |
US8478732B1 (en) | 2000-05-02 | 2013-07-02 | International Business Machines Corporation | Database aliasing in information access system |
US6704728B1 (en) | 2000-05-02 | 2004-03-09 | Iphase.Com, Inc. | Accessing information from a collection of data |
US6711561B1 (en) * | 2000-05-02 | 2004-03-23 | Iphrase.Com, Inc. | Prose feedback in information access system |
US7127450B1 (en) * | 2000-05-02 | 2006-10-24 | International Business Machines Corporation | Intelligent discard in information access system |
US6745181B1 (en) * | 2000-05-02 | 2004-06-01 | Iphrase.Com, Inc. | Information access method |
EP1407381B1 (en) * | 2000-05-29 | 2008-02-13 | Saora Kabushiki Kaisha | System and method for saving browsed data |
US8290768B1 (en) | 2000-06-21 | 2012-10-16 | International Business Machines Corporation | System and method for determining a set of attributes based on content of communications |
US9699129B1 (en) | 2000-06-21 | 2017-07-04 | International Business Machines Corporation | System and method for increasing email productivity |
US6408277B1 (en) | 2000-06-21 | 2002-06-18 | Banter Limited | System and method for automatic task prioritization |
US6938083B1 (en) * | 2000-07-21 | 2005-08-30 | Unisys Corporation | Method of providing duplicate original file copies of a searched topic from multiple file types derived from the web |
US20020120651A1 (en) * | 2000-09-12 | 2002-08-29 | Lingomotors, Inc. | Natural language search method and system for electronic books |
GB2367917A (en) | 2000-10-12 | 2002-04-17 | Qas Systems Ltd | Retrieving data representing a postal address from a database of postal addresses using a trie structure |
US7644057B2 (en) | 2001-01-03 | 2010-01-05 | International Business Machines Corporation | System and method for electronic communication management |
US7039681B2 (en) * | 2001-02-15 | 2006-05-02 | Lucent Technologies Inc. | Method of initiating a telecommunication session between a resource provider and a patron |
US7685569B2 (en) * | 2001-03-01 | 2010-03-23 | International Business Machines Corporation | Navigation in computer software applications developed in a procedural language |
US6836779B2 (en) * | 2001-03-13 | 2004-12-28 | Christian D. Poulin | Network transaction method |
US20020147775A1 (en) * | 2001-04-06 | 2002-10-10 | Suda Aruna Rohra | System and method for displaying information provided by a provider |
US7136846B2 (en) | 2001-04-06 | 2006-11-14 | 2005 Keel Company, Inc. | Wireless information retrieval |
US7343372B2 (en) | 2002-02-22 | 2008-03-11 | International Business Machines Corporation | Direct navigation for information retrieval |
JP2003337699A (ja) * | 2002-03-13 | 2003-11-28 | Saora Inc | 情報処理装置及びその方法、及びそのプログラムを記憶した記憶媒体 |
US7120641B2 (en) | 2002-04-05 | 2006-10-10 | Saora Kabushiki Kaisha | Apparatus and method for extracting data |
US20030195896A1 (en) * | 2002-04-15 | 2003-10-16 | Suda Aruna Rohra | Method and apparatus for managing imported or exported data |
US8495002B2 (en) | 2003-05-06 | 2013-07-23 | International Business Machines Corporation | Software tool for training and testing a knowledge base |
US20050187913A1 (en) | 2003-05-06 | 2005-08-25 | Yoram Nelken | Web-based customer service interface |
KR100667917B1 (ko) * | 2003-05-16 | 2007-01-11 | 엔에이치엔(주) | 웹사이트 검색 서비스 제공 방법 및 그 시스템 |
EP1630692A4 (en) * | 2003-05-19 | 2007-04-11 | Saora Kabushiki Kaisha | ASSOCIATED INFORMATION PROCESSING METHOD, APPARATUS AND PROGRAM |
US20040254935A1 (en) * | 2003-06-12 | 2004-12-16 | International Business Machines Corporation | Method and apparatus for automatic consolidation of personalized dynamic data |
US20060080292A1 (en) * | 2004-10-08 | 2006-04-13 | Alanzi Faisal Saud M | Enhanced interface utility for web-based searching |
WO2006107141A1 (en) * | 2005-03-04 | 2006-10-12 | Chutnoon Inc. | Server, method and system for providing information search service by using sheaf of pages |
WO2006133462A1 (en) * | 2005-06-06 | 2006-12-14 | Edward Henry Mathews | System for conducting structured network searches and generating search reports |
JP2011065546A (ja) * | 2009-09-18 | 2011-03-31 | Hitachi Solutions Ltd | ファイル検索システム及びプログラム |
US8484186B1 (en) | 2010-11-12 | 2013-07-09 | Consumerinfo.Com, Inc. | Personalized people finder |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5873076A (en) * | 1995-09-15 | 1999-02-16 | Infonautics Corporation | Architecture for processing search queries, retrieving documents identified thereby, and method for using same |
US5742816A (en) * | 1995-09-15 | 1998-04-21 | Infonautics Corporation | Method and apparatus for identifying textual documents and multi-mediafiles corresponding to a search topic |
JP3160201B2 (ja) * | 1996-03-25 | 2001-04-25 | インターナショナル・ビジネス・マシーンズ・コーポレ−ション | 情報検索方法、情報検索装置 |
US5845273A (en) * | 1996-06-27 | 1998-12-01 | Microsoft Corporation | Method and apparatus for integrating multiple indexed files |
US5913208A (en) * | 1996-07-09 | 1999-06-15 | International Business Machines Corporation | Identifying duplicate documents from search results without comparing document content |
US5905862A (en) * | 1996-09-04 | 1999-05-18 | Intel Corporation | Automatic web site registration with multiple search engines |
US5913209A (en) * | 1996-09-20 | 1999-06-15 | Novell, Inc. | Full text index reference compression |
US5978833A (en) * | 1996-12-31 | 1999-11-02 | Intel Corporation | Method and apparatus for accessing and downloading information from the internet |
US5899995A (en) * | 1997-06-30 | 1999-05-04 | Intel Corporation | Method and apparatus for automatically organizing information |
US5848410A (en) * | 1997-10-08 | 1998-12-08 | Hewlett Packard Company | System and method for selective and continuous index generation |
US5991756A (en) * | 1997-11-03 | 1999-11-23 | Yahoo, Inc. | Information retrieval from hierarchical compound documents |
US6055538A (en) * | 1997-12-22 | 2000-04-25 | Hewlett Packard Company | Methods and system for using web browser to search large collections of documents |
-
1998
- 1998-08-13 US US09/133,674 patent/US6304872B1/en not_active Expired - Fee Related
- 1998-08-17 CA CA002245089A patent/CA2245089A1/en not_active Abandoned
- 1998-08-17 EP EP98115416A patent/EP0981097A1/en not_active Withdrawn
- 1998-10-06 JP JP10284586A patent/JP2000112981A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7124127B2 (en) | 2002-03-20 | 2006-10-17 | Fujitsu Limited | Search server and method for providing search results |
Also Published As
Publication number | Publication date |
---|---|
CA2245089A1 (en) | 2000-02-17 |
US6304872B1 (en) | 2001-10-16 |
EP0981097A1 (en) | 2000-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2000112981A (ja) | ワールドワイドウェブサーバーのウェブページにわたるフルテキストサーチを提供する検索システム及び方法 | |
US7409401B2 (en) | Method and system for supporting multivalue attributes in a database system | |
KR101183312B1 (ko) | 페이지 카테고리 정보를 이용하여 검색 엔진 결과를분배하는 방법 | |
US20110314027A1 (en) | Index building, querying method, device, and system for distributed columnar database | |
US8972458B2 (en) | Systems and methods for comments aggregation and carryover in word pages | |
EP1054330A2 (en) | Information management apparatus providing efficient management of multimedia titles in a client-server network | |
KR19990064246A (ko) | 월드 와이드 웹상에 페이지를 위치 설정하고 네트워크 컴퓨터로부터 문서를 위치 설정하는 시스템 및 그 방법 | |
US7849070B2 (en) | System and method for dynamically ranking items of audio content | |
US20070033229A1 (en) | System and method for indexing structured and unstructured audio content | |
JP2004310621A (ja) | 記憶装置システムにおけるファイルアクセス方法及びファイルアクセスのためのプログラム | |
JP2012516510A (ja) | 階層型信頼度に基づく構成でのデータの構造化および検索 | |
US20140229429A1 (en) | Database management delete efficiency | |
JP4233564B2 (ja) | データ処理装置、データ処理用のプログラムおよび記録媒体 | |
US20030093412A1 (en) | Global recuresive and scalable database management system | |
US8005827B2 (en) | System and method for accessing preferred provider of audio content | |
US20050171978A1 (en) | Methods for recording data to optical media | |
US20080082516A1 (en) | System for and method of searching distributed data base, and information management device | |
CN1221906C (zh) | 下载数字音乐的方法与系统 | |
JPH1166099A (ja) | 検索機能付代理情報提供装置および情報検索システム | |
KR100831550B1 (ko) | 엑스엠엘 계층구조를 이용한 비디오 검색 시스템 및 그 방법 | |
JP2006092409A (ja) | 複合データベース検索システムおよび複合データベース検索方法ならびにそのためのプログラム | |
US20190370259A1 (en) | Devices and methods for implementing dynamic collaborative workflow systems | |
JPH117449A (ja) | ハイパーテキスト情報収集方法 | |
JPH1091644A (ja) | データベース問い合わせ処理方法及び装置 | |
JPH1173353A (ja) | 時刻指定によるトランザクション検索処理装置 |