JPH1091638A - 検索システム - Google Patents

検索システム

Info

Publication number
JPH1091638A
JPH1091638A JP8245049A JP24504996A JPH1091638A JP H1091638 A JPH1091638 A JP H1091638A JP 8245049 A JP8245049 A JP 8245049A JP 24504996 A JP24504996 A JP 24504996A JP H1091638 A JPH1091638 A JP H1091638A
Authority
JP
Japan
Prior art keywords
data
search
database
update frequency
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8245049A
Other languages
English (en)
Other versions
JP4025379B2 (ja
Inventor
Setsu Suzuoka
節 鈴岡
Shinichi Sugano
伸一 菅野
Shinsuke Sawajima
信介 澤島
Tetsuya Yamane
徹也 山根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP24504996A priority Critical patent/JP4025379B2/ja
Priority to US08/927,031 priority patent/US5933832A/en
Publication of JPH1091638A publication Critical patent/JPH1091638A/ja
Application granted granted Critical
Publication of JP4025379B2 publication Critical patent/JP4025379B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 ネットワーク上に散在する膨大な検索対象デ
ータを効率良く取得しデータベース化する検索システム
を提供すること。 【解決手段】 ネットワーク上でロボットを用いて収集
したデータをもとにデータベースを作成し、検索要求に
応じてデータベース検索を行なう検索システムにおい
て、データベース化の対象とすべきデータの更新頻度の
範囲がデータベース固有に割り当てられ、データの更新
頻度が該割り当てられた更新頻度の範囲内にあることま
たはデータの属するデータ群における平均的な更新頻度
が該割り当てられた更新頻度の範囲内にあることを少な
くとも条件として、該当するデータを収集し所定の構造
のデータベースを作成するデータベース作成手段を備え
たことを特徴とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ネットワーク上に
分散したデータの検索システムに関する。
【0002】
【従来の技術】Altavista(http://w
ww.altavista.com/)、Lycos
(http://www.lycos.com/)、Y
ahoo!(http://www.yahoo.co
m/)などロボットを用いたネットワーク上の検索シス
テムは多数存在する。これらはロボットと呼ばれる機械
的にネットワーク上で情報を収集するソフトウェアを用
いている。そして、収集したデータをデータベース化
し、利用者が検索できるようにしている。
【0003】上記ロボットは、ネットワーク上でHTM
L(Hyper Text Markup Langu
age)で記述された文章を探し、そこに記載されてい
るリンク先を辿って、ネットワーク上に存在するデータ
を収集する。データベース化については、フルテキスト
サーチをするものもあれば、タイトルやURLといった
部分のみを検索対象とするようなものもある。
【0004】上記データベースは、量が多いので分散化
されている場合もある。しかし、あくまでも量が多いた
めの単なる分割であり、何らかの意味を持って分割して
はいない。
【0005】上記検索には、キーワード検索が行なわれ
る。すなわち、探したい文章に含まれているであろう語
を入力して、検索を行なう。一方、人気のあるサイトへ
のアクセス集中を分散させ、トラフィックを軽減するた
めに、ミラーサイトが設けられることがある。例えば、
Point Cast Network(PCN)社の
I−Server(http://www.point
cast.com/products/iserve
r.html)ではPCN本社へ定期的に情報をプリフ
ェッチして、ミラーサイトを管理している。
【0006】
【発明が解決しようとする課題】従来、ネットワーク上
に分散したデータの検索システムにおいては、以下のよ
うな問題点があった。 (1)増大するデータを扱うのが困難になりつつある。
例えばWWW上のページデータが1996年で世界で4
000万以上あると言われ、今後も指数関数的に増加す
ると予想される。現在、ページ数も、1ページあたりの
データ量も急激に増大する傾向にある。このように急増
するデータを単に量により分割するだけでは、データベ
ース管理が極めて困難である。
【0007】(2)更新頻度が高い情報を扱うのが困難
である。一日に何度も更新されるデータについては、現
在の検索システムではロボット探索対象から外してい
る。この理由は、頻繁に更新されるデータをロボットで
情報収集してデータベース化しても、そのデータが検索
される前に更新されることが少なくないからである。こ
のような場合には、検索結果に現れたページを見ても、
既になくなっていたり、内容が全く別のものに変更され
たために利用者の意図したものとは別ものもが表示され
たりする不都合が生じる。
【0008】本発明は、上記事情を考慮してなされたも
ので、ネットワーク上に散在する膨大な検索対象データ
を効率良く取得しデータベース化する検索システムを提
供することを目的とする。また、本発明は、極めて更新
頻度の高いデータをも効果的にデータベース化する検索
システムを提供することを目的とする。
【0009】
【課題を解決するための手段】本発明(請求項1)は、
ネットワーク(例えば、インターネットのWWW)上で
ロボットを用いて収集したデータ(例えばページのよう
なハイパーメディアデータ)をもとにデータベースを作
成し、検索要求に応じてデータベース検索を行なう検索
システムにおいて、データベース化の対象とすべきデー
タの更新頻度(例えば、統計的な更新頻度、あるいは最
終更新時刻)の範囲がデータベース固有に割り当てら
れ、データの更新頻度が該割り当てられた更新頻度の範
囲内にあることまたはデータの属するデータ群(例え
ば、サイト)における平均的な更新頻度が該割り当てら
れた更新頻度の範囲内にあることを少なくとも条件とし
て、該当するデータを収集し所定の構造のデータベース
を作成するデータベース作成手段を備えたことを特徴と
する。
【0010】データベースは、例えば、データのアドレ
スとキーワードの組からなる構造を持つ。具体的には、
例えば、ページのURLにキーワードを付加したもので
ある。
【0011】本発明(請求項2)は、請求項1に記載の
検索システムにおいて、既にデータベース化したデータ
の更新頻度または該データの属するデータ群における平
均的な更新頻度が、そのデータベースに割り当てられた
前記更新頻度の範囲外のものとなった場合には、該デー
タを対象とし得る他のデータベースにて該データをデー
タベース化の対象とさせるための処理を行う処理手段を
さらに備えたことを特徴とする。
【0012】本発明(請求項3)は、請求項1に記載の
検索システムにおいて、利用者から与えられた検索要求
に応答して、互いに同一でない前記更新頻度の範囲が割
り当てられて作成された複数の前記データベースを連携
させて検索を行い、得られた検索結果を返す検索手段を
さらに備えたことを特徴とする。
【0013】本発明(請求項4)は、請求項1に記載の
検索システムにおいて、前記検索要求で更新頻度範囲お
よび更新時刻範囲の少なくとも一方が指定されている場
合には、前記検索手段は、指定された更新頻度範囲およ
び更新時刻範囲の少なくとも一方に該当するデータにつ
いてのみ検索を行い、前記検索要求で検索範囲の指定が
ない場合には、前記検索手段は、全データを対象とし
て、または更新頻度範囲および更新時刻範囲の少なくと
も一方のデフォルト値で制限された範囲を対象として検
索を行うことを特徴とする。
【0014】本発明(請求項5)は、請求項1ないし4
のいずれか1項に記載の検索システムにおいて、前記検
索システムを構成するハードウェアのうち更新頻度の高
い(例えば、統計的な更新頻度の高い、あるいは最終更
新時刻の新しい)データに対応する部分ほど、高い処理
能力を持たせることを特徴とする。
【0015】本発明(請求項6)は、請求項5に記載の
検索システムにおいて、前記高い処理能力は、より高速
な計算機を用いることおよびより多数の計算機を用いる
ことの少なくとも一方によって実現することを特徴とす
る。
【0016】本発明によれば、データの更新頻度の高さ
(あるいは最終更新時刻の新しさなど)を人気の度合い
と見做せば、人気の度合い応じて異なったデータベース
にてデータを管理することができる。また、人気の高い
すなわちアクセス頻度の高いデータベースを処理する計
算機を強力にし、アクセス頻度の低い膨大な量のデータ
については処理能力の低い計算機を割り当てることによ
り、ハードウェア資源を効率的に使用したシステムを構
築できる。これによって、膨大なデータを対象とした効
果的な検索システムを提供することができる。
【0017】本発明(請求項7)は、ネットワーク上で
ロボットを用いて収集したデータをもとにデータベース
を作成し、データベース検索を行なう検索システムにお
いて、外部からの参照要求に応答して取得されたデータ
およびロボットを用いて収集されたデータを保持するキ
ャッシュ手段と、外部から参照要求が与えられた場合
に、前記キャッシュ手段に該当するデータが保持されて
いるならば、前記キャッシュ手段からデータを提供し、
前記キャッシュ手段に該当するデータが保持されていな
いならば、該データを保持する本来のサーバーから該デ
ータを取得して提供するデータ提供手段とを備えたこと
を特徴とする。
【0018】本検索システムは、プロキシーも兼ねるも
のであり、これによって、利用者が要求したデータがシ
ステム内にあるならば、それが利用者からの要求によっ
て取得したものであっても、それがロボットによって収
集されたものであっても、それを利用者に提示すること
ができる。
【0019】これによって、極めて更新頻度が高いデー
タに対しても、検索を適用することができる。本発明
(請求項8)は、請求項7に記載の検索システムにおい
て、外部から参照要求されたデータについての統計処理
を行って、今後参照要求されるデータを予測する予測手
段と、予測されたデータおよび予め明示的に指定された
データを、ロボットを用いて取得し前記キャッシュ手段
にプリフェッチするプリフェッチ手段とをさらに備えた
ことを特徴とする。
【0020】本発明では、取得可能なすべてのデータを
ロボットを用いてあらかじめ収集せずに、あらかじめ指
定したデータおよび利用者からの統計的観点から参照要
求があると思われるデータについてロボットによりデー
タをプリフェッチしておくので、適切なデータに対して
効果的にミラー化される。
【0021】本発明(請求項9)は、請求項7に記載の
検索システムにおいて、前記プリフェッチ手段は、取得
対象となるデータの更新頻度に応じた頻度で該データを
取り直すことを特徴とする。
【0022】本発明(請求項10)は、請求項7に記載
の検索システムにおいて、前記検索要求に応答して行う
検索で対象とするデータの範囲の制約条件として、ロボ
ットで収集されたデータに限る条件、外部からの参照要
求に応答して取得されたデータに限る条件、同じ名前ま
たはアドレスを持つデータについては最新のものだけに
限る条件、動的または対話的に生成されたデータ以外の
ものに限る条件、および指定されたサイト群またはデー
タ群に限る条件のうち少なくとも1つを課すことを特徴
とする。
【0023】本発明(請求項11)は、請求項7に記載
の検索システムにおいて、前記キャッシュ手段は、取得
されたデータにその更新時刻情報および収集時刻情報の
少なくとも一方を付加して保持することを特徴とする。
【0024】これによって、取得元のデータの名前が同
じでも時刻によって異なるデータに対しても管理でき
る。なお、以上の各装置に係る発明は、方法に係る説明
としても成立する。また、上記の発明は、相当する手順
あるいは手段をコンピュータに実行させるためのプログ
ラムを記録した機械読取り可能な媒体としても成立す
る。
【0025】
【発明の実施の形態】以下、図面を参照しながら発明の
実施の形態を説明する。まず、語句の定義を行う。プロ
キシー(Proxy)とは、クライアント(例えば利用
者端末)からサーバー(例えばWWWサイト)への資源
アクセスの際にアプリケーションレベルにおいて、クラ
イアントとサーバーの間に入り、クライアントからの資
源アクセス要求をサーバーに対して中継し、サーバーか
らの応答をクライアントに対して中継する機能を有する
サーバーのことを言う。
【0026】ページ(page)とは、ハイパーテキス
トのページを意味するものとする。WWWの世界では、
1つのページはユニークなURLを持つ。URL(Un
iform Resouce Location)と
は、ページデータをアクセスするのに必要な情報であ
る。URLは、プロトコル、ドメイン名、ポート番号、
パス名の情報を含む。
【0027】CGI(Common Gateway
Interface)とは、対話的なページや動的なペ
ージを作るためにサーバーからプログラムを起こすため
のインターフェースである。
【0028】ロボット(Robot)とは、Hyper
Text Markup Language(HTM
L)やStandard Generalized M
arkup Language(SGML)のようなハ
イパーテキストで記述された文書を読み、そこに書かれ
ているリンクを機械的に辿りながら文書をネットワーク
上で収集するものであり、ソフトウェアにより実現され
る。ロボットの代わりにスパイダー(spider)あ
るいはワンダラー(Wanderer)などと呼ばれる
こともある。
【0029】ロボットの基本的な動作は次のようにな
る。 (手順1)指定されたURLの根を探訪リストに登録す
る。 (手順2)ロボットは、探訪リストに従いページを取得
する。 (手順3)取得されたページを解析してURLを抽出す
る。 (手順4)抽出されたURLを探訪リストに追加する
(ただし、URLの重複登録はしない)。 以降、手順2〜4を繰り返す。なお、ページの取得頻度
は、該ページの更新頻度に応じて決めるようにしても良
い。
【0030】次に、本実施形態を概略的に説明する。本
実施形態では、ネットワーク中に分散されたデータの一
例としてページを扱うものとする。
【0031】前述したように、例えば、World W
ide Web(WWW)上のページ数(ページの種
類)は4000万を越えると言われる。この数は、今後
も指数関数的に増え続けると予測されている。このよう
な膨大な量のページを単一のデータベースで管理するこ
とは極めて困難である。
【0032】データベースを分割する最も単純な方法
は、サイト(ドメイン)単位でデータベースを分割する
ことであるが、こうすると、どのデータベースも等しく
高速でなければならない。データベースを分割すること
ができても、すべてが高速でなければならないとする
と、データベース構築の負担は依然高い。
【0033】そこで、第1の実施形態では、データベー
スの内容を人気の度合いに応じて分割するようにしてい
る。そして、人気の高いデータベースは高速なシステム
(例えば大容量メモリを持つマシン)の上に載せ、人気
があまりないデータベースは低速なシステムの上に載せ
るようにする。このようにすると、人気の高いデータベ
ースを載せるマシンだけ高速なマシンを使えば良くな
り、データベース構築の負担を効果的に軽減することが
できる。
【0034】ここで、ページの人気の高さを知るために
は厳密に言うとネットワークの視聴率調査などをしなけ
ればならないが、そのような作業は大きな困難を伴い現
実的ではない。そこで、本実施形態では、次のような良
く成り立つ近似を使う。まず「ページが飽きられずに高
い人気を保ためには、絶えずコンテンツをアップデート
していく必要がある」と考える。そして、その逆をとっ
て「データの更新頻度が高いページは、人気の高いペー
ジである」と近似する。つまり、本実施形態では、人気
のバロメーターとしてデータの更新頻度を使い、データ
ベースの内容をデータの更新頻度に応じて分割する。な
お、ページの更新頻度はロボットを走行させることによ
り取得できる情報である。
【0035】ところで、更新頻度が高いページには1日
に何度も更新されるものもある。このようなページに対
して時々しかアクセスしない方法を採る場合、実際のペ
ージデータと検索システム内のデータベースとが不一致
となる状態が発生する。特に、データベース検索の結果
をもとにページを参照しにいくと、既に該当ページがな
くなっていたり、ページ自体はあっても内容が別のもの
に変更されてたりすることがあり、このような場合に不
具合が発生する。
【0036】一方、データベースの陳腐化による矛盾を
軽減するためには、ロボットが非常に高頻度にページを
アクセスする必要がある。しかし、不定期に頻繁に変更
されるページの最新情報に追い付くために頻繁にアクセ
スすることは、無用なトラフィックを増大させ、情報を
保持するサイトにも検索システム側にも不利益を被らせ
る。
【0037】そこで、第2の実施形態では、データベー
ス化した元データを保存しておき、それを利用者に提示
するようにしている。このようにすると、実際のページ
の変化には多少遅れるが、無駄にトラフィックを増やす
こともなく、しかも検索結果に対応した元ページを常に
見ることができる。
【0038】なお、第1の実施形態と第2の実施形態を
組み合わせることも可能である。この場合には、両者の
効果を得ることができる。以下、本発明の実施形態につ
いて詳しく説明する。
【0039】(第1の実施形態)まず、第1の実施形態
について説明する。本実施形態のシステム構成例を、図
1、図4、図6に示す。
【0040】本実施形態では、複数のデータベースを容
易し、データの更新頻度に応じてデータベースを使い分
ける。すなわち、各データベースに、対象とするページ
データの更新頻度の範囲を割り当てる。そして、ユーザ
が要求するキーワードについて検索を行なう際には、複
数のデータベースを連携させて検索し、結果をまとめて
利用者に提示する。
【0041】各データベースへのページ分担方法には、
例えば次のようなものが考えられる。 (a)統計的更新頻度情報によって分担 (b)最終更新時刻によって分担 (c)統計的更新頻度情報と最終更新時刻との総合的情
報によって分担ここで、(b)の最終更新時刻によって
分担する方法について説明する。
【0042】あるページは、更新された直後は頻繁にア
クセスされ(つまり人気があり)、最後に更新されてか
ら時間が経過している程、アクセスされる頻度が少ない
(つまり人気がない)と考えられる。そこで、例えば図
3のように、最終更新時刻の範囲に応じて、格納すべき
データベースを分担する。
【0043】あるページに関する情報を格納するデータ
ベースを決定する方法には、例えば次のようなものが考
えられる。 (1)サイト単位に格納すべきデータベースを決定す
る。この場合には、サイト内のデータの更新頻度の平均
値を評価値に用いる。 (2)サイト内のディレクトリ単位に格納すべきデータ
ベースを決定する。この場合には、ディレクトリ内のデ
ータの更新頻度の平均値を評価値に用いる。 (3)データ単位に格納すべきデータベースを決定す
る。この場合には、そのデータの更新頻度を評価値に用
いる。
【0044】ここで、更新頻度は、上記の統計的更新頻
度情報や最終更新時刻などである。なお、上記の(1)
〜(3)の方法は、併用可能である。例えば、サイトA
についてはサイト単位にデータベースに入れ、サイトB
については、データ単位にデータベースに入れるように
しても良い。また、サイトC内で、ディレクトリaにつ
いてはディレクトリ単位にデータベースに入れ、ディレ
クトリbについてはデータ単位にデータベースに入れる
ようにすることも可能である。
【0045】また、更新頻度が高いデータほど、内部ネ
ットワークにつながれたサーバにおくことも考えられ
る。例えば、更新頻度が高い方のデータを組織内のイン
トラネットにおき、更新頻度が低い方のデータをインタ
ーネットに直接接続された場所で管理する。
【0046】なお、本実施形態では、データベースには
ページ自体ではなくキーワードとURLとを格納するも
のとする。また、ページを全文検索などして抽出したキ
ーワードをURLに付加して格納し、キーワードでUR
Lを検索するものとする。
【0047】また、本実施形態では、語単位もしくはキ
ーワード単位のデータベースについて述べているが、文
字単位のデータベースであっても良い。次に、図1、図
4、図6に示す各システム構成例について説明する。
【0048】図1の構成例では、ネットワーク100
に、複数のロボットとデータベースとの組(101と1
02,111と112,121と122)からなる検索
装置100,110,120、複数のWWWサイト(1
31,132)、利用者端末(133)が接続されてい
る。
【0049】各データベースには、前述したようなペー
ジ分担方法で、対象とする更新頻度を割り当てる。第1
のロボット102は、高頻度に変化するサイト群もしく
はデータ群を集め(例えばWWWサイト131,132
から集め)、それをデータベース化して第1のデータベ
ース101に格納する。
【0050】第3のロボット122は、低頻度に変化す
るサイト群もしくはデータ群を集め、それをデータベー
ス化して第3のデータベース121に格納する。第2の
ロボット112は、それ以外の中頻度に変化するサイト
群もしくはデータ群を集め、それをデータベース化して
第2のデータベース111に格納する。
【0051】高頻度、低頻度、それ以外の中頻度に夫々
対応する実際の統計的更新頻度情報(あるいは、最終更
新時刻など)の範囲は、適宜設定する。次に、動的なデ
ータベースの分担変更について述べている。
【0052】本実施形態では、統計から得られる更新頻
度情報に応じて分割された各データベースに該当するペ
ージのURLを入れるが、時間とともにページの更新頻
度(あるいはページの属するサイトの平均的な更新頻度
等)は変化することがあるので、あるページの更新頻度
(あるいはページの属するサイトの平均的な更新頻度
等)がそのページを分担した初期のデータベースの持つ
更新頻度の範囲を逸脱する場合が発生する。従って、あ
るページを分担中のデータベースから適切な更新頻度範
囲を持つデータベースにそのページデータもしくはサイ
トを受け持つように依頼するようにするのが望ましい。
この依頼は、データベース間の交渉により実現されるも
のとする。
【0053】例えば、図1において、第1のロボット1
02は、統計的に高頻度のデータ群を取り寄せ第1のデ
ータベース101に格納する。しかし、当初高頻度で更
新されていたデータの更新頻度が自分が受け持つ範囲よ
りも低下したならば、そのデータを第2のロボット11
2とデータベース111に引き受けてもらう。また、更
新頻度が大きく落ちた場合には、第3のロボット122
とデータベース121に担当を替えるよう依頼する。
【0054】図2に、図1のように更新頻度に応じてロ
ボットが複数台あり、それぞれにデータベースがある場
合の各検索装置の処理手順の一例を示す。ステップS2
1で、他の検索装置からページの分担を依頼されている
かどうか調べ、あればステップS27を行い、なければ
ステップS22を行う。
【0055】ステップS22で、それぞれのロボット
は、指定されたページを1つ選び、そのページを取得す
る。このときのページの統計的更新頻度に比例した頻度
でページを取得するようにスケジュールする。なお、そ
のページについて統計的更新頻度の情報がない場合に
は、そのページを含むサイトのページのうち得られてい
る統計的更新頻度の平均的な値あるいはデフォルト値な
どで代用すれば良い。
【0056】ステップS23で、取得したページが前回
と変わっているか否かにより、そのページの統計的更新
情報を更新する。もし、ネットワークや相手サーバのト
ラブルにより、そのページの取得に失敗した場合には、
そのページの取得に失敗したという記録を残して、ステ
ップS22に戻る。
【0057】ステップS24で、新しい更新頻度が自ら
が担当している範囲内かどうかを調べる。ステップS2
5で、もし自らの担当範囲外になったならば、それを範
囲内に含む検索装置に以降の処理を依頼する。このと
き、そのページのデータは消去する。
【0058】ステップS26で、もし自らの担当範囲内
ならば、取得したページをデータベース化し、格納す
る。例えば、ページデータを形態素解析し、単語レベル
に分解し、単語を含むページという形にデータベース化
する。このとき、そのページの前のデータは消去する。
【0059】ステップS27で、他の検索装置から依頼
があった場合には、そのページを自ロボットで扱うこと
ができるように、そのページを登録し、そのページの統
計的更新頻度情報を設定する。
【0060】本実施形態において、検索利用者がデータ
ベース検索を行う場合、利用者端末133から複数のデ
ータベース101,111,121のすべてに検索要求
を出す方法と、いずれか1つのデータベース1に検索要
求を出す方法が考えられる。後者のいずれか1つのデー
タベースに検索要求を出す場合には、その検索要求を受
け取ったデータベースのみが結果を返すようなモード
と、そのデータベースが他のデータベースにも問い合わ
せに行き結果をマージして返すようなモードが考えられ
る。
【0061】次に、図4の構成例について説明する。図
4は、基本的には図1と同様であり、データの更新頻度
に応じた複数のデータベース201〜203が用意され
ているが、ロボット204を一台で兼用する点に関して
図1の構成例と相違する。
【0062】図5に、図4のように、ロボットが1台で
データベースが複数ある場合の検索装置の処理手順の一
例を示す。ステップS11で、指定されたページを1つ
選び、ロボット204を用いてそのページを取得する。
このときのページの統計的更新頻度に比例した頻度でペ
ージを取得するようにスケジュールする。なお、そのペ
ージについて統計的更新頻度の情報がない場合には、そ
のページを含むサイトのページのうち得られている統計
的更新頻度の平均的な値あるいはデフォルト値などで代
用すれば良い。
【0063】ステップS12で、取得したページが前回
と変わっているか否かにより、そのページの統計的更新
情報を更新する。もし、ネットワークや相手サーバのト
ラブルにより、そのページの取得に失敗した場合には、
そのページの取得に失敗したという記録を残して、ステ
ップS11に戻る。
【0064】ステップS13で、ステップS11で取得
したページの新しい統計的更新確率により、そのページ
をどのデータベースに担当させるかを決定する。ステッ
プS14で、ページ情報をデータベース化する。例え
ば、ページデータを形態素解析し、単語レベルに分解
し、単語を含むページという形にデータベース化する。
このデータをステップS13で決めたデータベースに格
納する。このとき、そのページの前のデータは消去す
る。もし、ここで、これまで格納されていたデータベー
スと異なるデータベースに格納されていたならば、それ
をも消去する。もし、取得したページが前回から変更が
ない場合には、データベース化は行わないが、格納すべ
きデータベースがそれにより変更された場合には、デー
タの移動のみを行う。
【0065】以上のように、ロボットの数はデータベー
スの数と一致している必要はない。例えば、図4の場
合、ロボットの数は2台でも4台以上でも良い。各ロボ
ットとデータベースとの対応関係は適宜設定すれば良
い。
【0066】なお、検索利用者によるデータベース検索
については前述した図1と同様である。次に、図6の構
成例について説明する。図6の検索装置300は、デー
タベース全体を取りまとめるデータベース・フロントエ
ンド(DBF)301が設けられている点が図4の検索
装置200と相違する。
【0067】本構成例では、このDBF301が利用者
端末133からの検索要求を受付け、適切なデータベー
スに問い合わせて、結果を利用者に提示する。次に、デ
ータベース検索における検索対象範囲の指定について説
明する。
【0068】本第1の実施形態では、検索要求にて、キ
ーワードを用いた検索条件の他に、対象とする更新頻度
の範囲および/または更新時刻の範囲を指定できるよう
にすると好ましい。また、検索要求において明示的に更
新頻度が指定されていない場合に、データベースあるい
はDBFの方でデフォルト値(例えば最も更新頻度の高
いデータベースのみといった更新頻度範囲)をもって検
索を行なうようにしても良い。
【0069】ここで、図7に、図6の検索装置における
検索手順の一例を示す。利用者が利用者端末133から
データベース・フロントエンド301に向けて検索要求
を送り出すと、ステップS31で、データベースフロン
トエンド301は利用者端末308からの検索要求を受
け取る。
【0070】ステップS32で、その検索要求が更新頻
度範囲指定を持つかどうかを判定する。もし持つなら
ば、ステップS33で、利用者の検索要求の対象範囲に
応じて適切な範囲のデータベースでのみ検索を行う。
【0071】もし持たないならば、ステップS34で、
すべてのデータベースで検索を行う。ステップS35
で、結果をマージして利用者端末308に返す。
【0072】次に、システムのハードウェア構成に関し
て説明する。本第1の実施形態では、更新頻度の高い方
(例えば、統計的更新頻度情報の高い方、あるいは最終
更新時刻の新しい方など)を受け持つデータベース(ま
たはデータベースおよびロボット)などを構成する計算
機には、更新頻度の低い方(例えば、統計的更新頻度情
報の低い方、あるいは最終更新時刻の古い方など)を受
け持つデータベース(またはデータベースおよびロボッ
ト)などを構成する計算機よりも、高速性について同等
以上のものを用い、あるいは台数について同数以上を用
いるなどして、更新頻度が高いデータを検索するデータ
ベースを担当する計算機の方がそうでないデータベース
を担当する計算機よりも処理能力が同じかより高いよう
にシステムを構成すると好ましい。
【0073】すなわち、更新頻度が高い方のデータを担
当するデータベースの方が更新頻度が低い方のデータを
担当するデータベースよりも頻繁に利用されるので、更
新頻度が高い方のデータを担当するデータベースの方の
みについて処理能力を上げるだけで、全体の処理能力を
効果的に向上させることができる。
【0074】従って、本実施形態のように更新頻度に応
じてデータベースを分割することにより、更新頻度の高
いデータベースを載せる計算機だけ高速なものを使えば
良くなり、データベース構築の負担を効果的に軽減する
ことができる。
【0075】例えば、図8のように、第1の検索装置4
10を構成する計算機群が更新頻度が高いデータ群を担
当し、第2の検索装置401を構成する計算機群が更新
頻度が低いデータ群を担当している場合には、第1の計
算機群410においてはデータベースをハードウェア的
に二重化して高速化している。高速化の手段としては、
ハードウェアを多重化する他にも、速い素子を使った計
算機を使うとか、メモリの容量を大きくするなどの方法
がある。
【0076】以上では、本実施形態についてネットワー
クを1つとして説明したが、図9のように複数のネット
ワーク500〜504が結合された環境であっても良
い。さらに、ネットワーク500〜504が組織や国の
ように物理的にまったく離れた場所を結合しているもの
であっても良い。
【0077】(第2の実施形態)次に、第2の実施形態
について説明する。本実施形態では、検索システムにプ
ロキシー機能も装備し、検索結果として参照されるべき
ページデータを既に持っているならば、そのデータをネ
ットワークを介して新たに取りに行くことはせずに、既
に持っているデータを返す。
【0078】これにより、前述した頻繁に変化するペー
ジの問題にも対処することができる。すなわち、頻繁に
変化するページでは、検索結果として示されるリンクを
辿ったときには、既にそのページがなくなっていたり、
更新されていて役にたたないことがある。これに対し
て、検索用データベースで用いたデータを提示するので
あれば、このような問題は生じない。
【0079】すなわち、頻繁に変化するページは、図1
3に示すようにサンプリング的に取得し、次の取得まで
内容を保持しておく。これにより、例えば図13中のt
1でページが消失しあるいは内容が別のものに移行され
るなどしても、最後にサンプリングしたt0のときの内
容を提示することができる。
【0080】図10に、本実施形態のシステム構成例を
示す。図10に示すように、本実施形態の検索装置60
1は、ネットワーク600に接続されており、ロボット
602、キャッシュ603、データベース化部604、
データベース605、データベース・フロントエンド
(DBF)607、WWWフロントエンド606を有す
る。また、図10には示していないが、ネットワーク6
00を介して各WWWサイトや利用者端末が接続されて
いるものとする。また、図10中では、データベースを
1つとして表わしているが、複数に分割されていても良
い。また、複数のデータベースに第1の実施形態にて説
明した発明を適用し、データの更新頻度に応じてデータ
ベースに情報の格納を分担させても良い。
【0081】本実施形態では、データベースにはページ
のURLを格納するものとする。また、ページを全文検
索などして抽出したキーワードをURLに付加して格納
し、キーワードでURLを検索するのもとする。
【0082】最初にデータベース化までを説明し、次に
利用方法について説明する。データベース化まで手順の
一例を以下に示す。まず、ロボット602を用いて、探
訪リストに従って、ネットワーク600を介して他のW
WWサイトからデータを収集する。もし自身も独自コン
テンツを持つWWWサイトであるならば、自身からもデ
ータを収集する。その収集したものをキャッシュ603
に格納する。キャッシュ603に格納されているものの
中からデータベース化部604により検索用データベー
ス605を作成する。例えば、語単位でのキーワード検
索を行なう場合には、データベース化部604では、キ
ャッシュ603内のデータを形態素解析し、語単位でデ
ータベース化する。これにより、利用者から特定の語を
含む情報を要求された場合に、即座にデータベース検索
が可能となる。ここで、本検索装置では、データベース
化するときのデータの在処として、そのデータを取得し
たネットワーク上のアドレス(URL)ではなく、キャ
ッシュ603に格納されているデータのアドレスを用い
る。
【0083】一方、ユーザからの参照要求によりWWW
フロントエンド606がアクセスして取得したページ
も、キャッシュ603に格納するとともに、上記と同様
にデータベース化しておく。
【0084】次に利用する際の手順の一例を以下に示す
。利用者は、ネットワーク600を介して、検索装置
601のWWWフロントエンド606にアクセスし、検
索要求を出す。その要求は、データベース・フロントエ
ンド(DBF)607に伝えられ、複数のデータベース
がある場合には、適切なデータベースが選択され、それ
に検索要求を出す。データベース・フロントエンド(D
BF)607では、複数のデータベースに検索要求を出
した場合には、それらの結果を取りまとめて、WWWフ
ロントエンド606を介して利用者に検索結果を提示す
る。利用者は、検索結果の中で、さらにその中身を見て
みたいと思うものがあれば、検索装置601のWWWフ
ロントエンド606に参照要求を出す。WWWフロント
エンド606では、参照を要求されたページが自キャッ
シュ603に格納されているものであるならば、該ペー
ジをキャッシュ603から取り出して参照要求者に返
す。もし自キャッシュ603になければ、その旨を参照
要求者に返す。
【0085】ここで、検索装置では、取得可能なすべて
のデータをロボットを用いて収集せずに、予め指定され
たデータに加えて、統計的観点から参照要求があると思
われるデータについてロボットによりデータをプリフェ
ッチしておくようにしても良い。これは、WWW上のす
べてのデータを検索対象としない場合や、実際のページ
の更新頻度ではなく、利用者の要求に基づいてデータを
更新する場合に有効である。
【0086】すなわち、WWW上のすべてのデータを検
索対象としない場合には、どの範囲をロボットで収集す
るかが問題となる。そこで、この検索サーバ兼プロキシ
ーへの要求に現れるページやサイトを統計処理し、その
頻度が高いデータやサイトのデータを優先的にロボット
を用いてあらかじめプリフェッチしておく。このときに
は、実際のページの更新情報が高いもの程よくそのペー
ジをロボットが訪問するのみならず、そのページに対す
る参照要求の発生確率が高いページほど良くそのページ
をロボットが訪問するようにする。これにより、システ
ム管理者が特別に指定しなくても、適切なデータに対し
てミラー化される。
【0087】上記のような検索装置に構成例を図11に
示す。図11の検索装置701は、図10の検索装置6
01にユーザ要求記録部708を追加したものである。
従って、相当する部分の説明は省略し、相違する部分を
中心に説明を行う。
【0088】図12に、本検索装置701による情報収
集の処理手順を示す。ステップS41で、利用者のアク
セスログを解析し、そのサイトで良く参照されるページ
やサイトの情報を得る。
【0089】ステップS42で、上記とは別にシステム
管理者などにより明示的に指示されたページやサイトの
情報をステップS41で得たものとマージする。ステッ
プS43で、上記で得たデータを、その統計的更新確率
にしたがってロボットを用いて取得する。もし、ページ
について統計的更新確率情報が得られていなかったとき
には、そのページを含むサイトのページのわかっている
統計的更新確率情報の平均値で代用する。さらに、その
サイトの統計的更新確率情報もわからない場合には、知
っているすべてのサイトの統計的更新確率情報もしくは
デフォルト値で代用する。この統計的更新確率情報に比
例した頻度でデータを繰り返し取得する。また、あるサ
イトがある時刻に更新される可能性が高いことがわかっ
たならば、その時刻よりも少し後に情報を取に行くよう
にする。
【0090】さて、本検索装置701は、プロキシーも
兼ねているので、利用者は検索要求でなく、単にネット
ワーク上の情報が欲しいときには、参照要求を検索装置
701に出す。その参照要求は、WWWフロントエンド
706を介して、ユーザ要求記録部708に出され、こ
こで要求データの記録が残される。ここで要求されたデ
ータがキャッシュ703にあれば、それをそのまま返
し、なければネットワーク700を介してデータを取り
に行き、そのデータをキャッシュ703に一旦格納した
後、WWWフロントエンド707を介して利用者に返
す。
【0091】このように、図11の検索装置では、利用
者がどのデータに関心が高いかといった情報がユーザ要
求記録部708に格納されている。従って、ロボットで
データを予め収集するときに、ロボットで取得できるす
べてのデータを取ろうとするのではなく、ユーザ要求記
録部708に格納されているデータと明示的に指示され
た取得すべきデータとを取得する。
【0092】なお、取得すべきでないデータ群を指定し
て、それらはユーザ要求記録部708にあるものであっ
ても取得しないようにしても良い。ところで、頻繁に更
新されるデータについては、ユーザ要求記録部708の
記録を見ても有効でないと考えられる。なぜならば、再
び訪れたときにはそのデータが消滅している可能性が高
い。従って、そのようなデータについては、サイトもし
くはデータへのパスのみを有効な情報とし、同じデータ
でなくても同じサイトのデータならばロボットによって
取得するようにする。
【0093】例えば、以下のような番号を名前とするよ
うなURLは一時的にのみ存在している可能性が高い。 http://www.tsb.co.jp/foo/
1246389.html このような場合には、このファイルを再び取得するので
はなく、このファイルへのリンクを張っているファイル
を取得し、そのファイルからリンクを辿った先のファイ
ルを取得する。
【0094】図11の検索装置では、プリフェッチした
ものが将来使われると仮定している。ここでプリフェッ
チする対象は、文字情報、画像、音声、動画などのメデ
ィアを任意に選択できるものとする。例えば、記憶容量
の制約から文字情報のみをプリフェッチするように指定
したが、そのページに動画が入っていた場合には、その
動画は利用者が参照したときにネットワークを介して取
りに行くか、表示されないかのいずれかになる。
【0095】次に、図10や図11の検索装置における
ページの取得頻度に関して説明する。ロボットは、同じ
URLのページを定期的に取得しに行くが、その際、対
象ページの更新頻度に応じた頻度で該ページを取り直す
のが好ましい。すなわち、対象ページが統計的に一日に
変更される回数に比例した回数だけ、該ページを取得し
に行く。ただし、指定したデータが消滅したならば、二
度とそのデータを取りに行かないようにする。また、取
得したデータがハイパーリンクとなっている場合には、
リンク先の情報も取りに行くことも可能である。
【0096】また、指定したサイト群やURL群のデー
タについては、利用者がリロード要求を出しても、それ
に応じないようにする。これにより、検索サーバから同
じURLに対する一定回数以上の要求がでないことが保
証される。
【0097】次に、図10や図11の検索装置における
検索対象に関して説明する。本実施形態では、ロボット
で収集したデータもプロキシーのキャッシュの中に入れ
ておき、利用者が直接要求したデータと同じ場所で管理
する。
【0098】ここで、参照したコンテンツが暗号化され
ていない有料データのこともあるし、利用者のプライバ
シーの問題もあるので、検索システムが検索対象とする
データに制限が加えられるようにしても良い。
【0099】制限の与え方としては、以下の条件を1つ
以上組み合わせたものとする。 (1)ロボットで収集したものに限る、(2)プロキシ
ーとしてデータを保持しているものに限る、(3)同じ
名前もしくはアドレスを持つ情報については最新のもの
だけに限る、(4)CGIなどにより動的もしくは対話
的に生成された情報は除く、(5)指定したサイト群や
URL群に限る。
【0100】例えば、図10において、データをキャッ
シュ604に入れるときに、そのデータの取得状況も記
録しておく。すなわち、そのデータが、ロボットで収集
したものか、利用者が直接要求したものか、CGIなど
により動的もしくは対話的に生成されたものか(これは
URLのパス名にCGIやBINという文字を含むかど
うかで判定する)、指定されたサイト群かURL群かな
どの情報も、データと一緒に記録しておく。そして、管
理者がどの種類のデータはキャッシュ内のデータについ
て検索が可能かどうかを指定できるようにしておく。検
索システムでは、この指定に従って、条件の合うものだ
けをデータベース化する。
【0101】次に、図10や図11の検索装置における
収集データのアドレスの付け替えについて説明する。本
実施形態では、収集したデータを検索装置のキャッシュ
に格納する際に、該収集データのアドレスもしくはUR
Lを付け変えて格納しておいても良い。すなわち、デー
タの位置がネットワークのある場所から検索装置内のキ
ャッシュに移動したのであるから、ドメイン名を検索装
置のドメイン名に変えるようにする。次に、パス名の先
頭に元のドメイン名を付加する。例えば、以下のように
する。
【0102】元のURL http://www.fo
o.co.jp/bar/index.html 検索装置のドメイン名 www.search.co.
jp 新たなURL http://www.search.
co.jp/www.foo.co.jp/bar/i
ndex.html このようにすることにより、データのミラー化が実現で
きる。
【0103】次に、図10や図11の検索装置における
収集データの時刻管理について説明する。本実施形態で
は、収集データに更新時刻データも付与して管理するよ
うにしても良い。通常のプロキシーのように同じアドレ
ス(URL)に対しては、最新のデータのみを保持する
だけでなく、過去のデータも管理して保持する。ここで
の時刻は、そのデータが有効になった時刻、あるいはそ
れに加えて無効になった時刻とを持つ。
【0104】有効になった時刻は、同一URLで内容が
更新されたような場合には、サーバーから通知される更
新時刻が変化するので、その時刻が無効になった時刻に
なり、データそのものが消滅した場合には、アクセスに
行ったことにより消滅したことが判った時刻とする。
【0105】アドレス(URL名)は、時刻管理をする
ために付け替えて管理する。まず、データの位置がネッ
トワークのある場所から検索装置内のキャッシュに移動
したのであるから、ドメイン名を検索装置のドメイン名
に変える。次に、パス名の先頭に元のドメイン名を付加
する。例えば、以下のようにする。
【0106】元のURL http://www.fo
o.co.jp/bar/index.html 検索装置のドメイン名 www.search.co.
jp 新たなURL http://www.search.
co.jp/www.foo.co.jp/bar/i
ndex.html さらに、これに時刻の情報も付与する。例えば、199
6年3月23日16:39から1996年4月30日1
0:23まで有効であったデータならば、以下のように
する。
【0107】http://www.search.c
o.jp/www.foo.co.jp/bar/in
dex.html/199603231639−199
604301023 また、以下のような変形も考えられる。
【0108】http://www.search.c
o.jp/www.foo.co.jp/bar/in
dex.html/1996.3.23.16.39−
1996.4.30.10.23 なお、以上説明したきた本発明の実施の形態における各
構成は、相当する手順あるいは手段をコンピュータに実
行させるためのプログラムを作成し、これをコンピュー
タに実行させることにより実現可能である。
【0109】また、上記プログラムを機械読取り可能な
媒体に記録し、コンピュータがこの媒体からプログラム
を読取って実行するように構成することも可能である。
本発明は、上述した実施の形態に限定されるものではな
く、その技術的範囲において種々変形して実施すること
ができる。
【0110】
【発明の効果】本発明によれば、データの更新頻度に応
じて異なったデータベースにてデータを管理することが
できる。この結果、例えば、そのデータベースが管理す
るデータの更新頻度の高さに応じて計算機等の持つ処理
能力を設定することができ、ネットワーク上に分散され
た膨大なデータを効果的に管理することができる。
【0111】また、本発明によれば、検索システムにプ
ロキシー機能をも内蔵させたので、プロキシーに格納さ
れているデータを検索し提示することができる。この結
果、例えば、極めて更新頻度が高いデータに対しても、
検索サービス・参照サービスを提供することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る検索装置の構成
例を示す図
【図2】同検索装置の処理手順の一例を示すフローチャ
ート
【図3】最終更新時刻によってデータベースを分担する
方法を説明するための図
【図4】同実施形態に係る検索装置の他の構成例を示す
【図5】同検索装置の処理手順の一例を示すフローチャ
ート
【図6】同実施形態に係る検索装置のさらに他の構成例
を示す図
【図7】同検索装置の処理手順の一例を示すフローチャ
ート
【図8】同実施形態に係る検索装置のさらに他の構成例
を示す図
【図9】複数のネットワークが接続された場合のシステ
ム構成の一例を示す図
【図10】本発明の第2の実施形態に係る検索装置の構
成例を示す図
【図11】本発明の第2の実施形態に係る他の検索装置
の構成例を示す図
【図12】同検索装置の処理手順の一例を示すフローチ
ャート
【図13】頻繁に変化するページのサンプリングを説明
するため図
【符号の説明】
100,500〜504,600…ネットワーク 100,110,120,200,300,401,4
10,601…検索装置 102,112,122,204,602…ロボット 101,101−1,101−2,111,121,6
05…データベース 131,132…WWWサイト 133…利用者端末 301,301−1,301−2,607…データベー
ス・フロントエンド(DBF) 603…キャッシュ 604…データベース化部 606…WWWフロントエンド 708…ユーザ要求記録部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 山根 徹也 神奈川県川崎市幸区小向東芝町1番地 株 式会社東芝研究開発センター内

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】ネットワーク上でロボットを用いて収集し
    たデータをもとにデータベースを作成し、検索要求に応
    じてデータベース検索を行なう検索システムにおいて、 データベース化の対象とすべきデータの更新頻度の範囲
    がデータベース固有に割り当てられ、データの更新頻度
    が該割り当てられた更新頻度の範囲内にあることまたは
    データの属するデータ群における平均的な更新頻度が該
    割り当てられた更新頻度の範囲内にあることを少なくと
    も条件として、該当するデータを収集し所定の構造のデ
    ータベースを作成するデータベース作成手段を備えたこ
    とを特徴とする検索システム。
  2. 【請求項2】既にデータベース化したデータの更新頻度
    または該データの属するデータ群における平均的な更新
    頻度が、そのデータベースに割り当てられた前記更新頻
    度の範囲外のものとなった場合には、該データを対象と
    し得る他のデータベースにて該データをデータベース化
    の対象とさせるための処理を行う処理手段をさらに備え
    たことを特徴とする請求項1に記載の検索システム。
  3. 【請求項3】利用者から与えられた検索要求に応答し
    て、互いに同一でない前記更新頻度の範囲が割り当てら
    れて作成された複数の前記データベースを連携させて検
    索を行い、得られた検索結果を返す検索手段をさらに備
    えたことを特徴とする請求項1に記載の検索システム。
  4. 【請求項4】前記検索要求で更新頻度範囲および更新時
    刻範囲の少なくとも一方が指定されている場合には、前
    記検索手段は、指定された更新頻度範囲および更新時刻
    範囲の少なくとも一方に該当するデータについてのみ検
    索を行い、 前記検索要求で検索範囲の指定がない場合には、前記検
    索手段は、全データを対象として、または更新頻度範囲
    および更新時刻範囲の少なくとも一方のデフォルト値で
    制限された範囲を対象として検索を行うことを特徴とす
    る請求項1に記載の検索システム。
  5. 【請求項5】前記検索システムを構成するハードウェア
    のうち更新頻度の高いデータに対応する部分ほど、高い
    処理能力を持たせることを特徴とする請求項1ないし4
    のいずれか1項に記載の検索システム。
  6. 【請求項6】前記高い処理能力は、より高速な計算機を
    用いることおよびより多数の計算機を用いることの少な
    くとも一方によって実現することを特徴とする請求項5
    に記載の検索システム。
  7. 【請求項7】ネットワーク上でロボットを用いて収集し
    たデータをもとにデータベースを作成し、データベース
    検索を行なう検索システムにおいて、 外部からの参照要求に応答して取得されたデータおよび
    ロボットを用いて収集されたデータを保持するキャッシ
    ュ手段と、 外部から参照要求が与えられた場合に、前記キャッシュ
    手段に該当するデータが保持されているならば、前記キ
    ャッシュ手段からデータを提供し、前記キャッシュ手段
    に該当するデータが保持されていないならば、該データ
    を保持する本来のサーバーから該データを取得して提供
    するデータ提供手段とを備えたことを特徴とする検索シ
    ステム。
  8. 【請求項8】外部から参照要求されたデータについての
    統計処理を行って、今後参照要求されるデータを予測す
    る予測手段と、 予測されたデータおよび予め明示的に指定されたデータ
    を、ロボットを用いて取得し前記キャッシュ手段にプリ
    フェッチするプリフェッチ手段とをさらに備えたことを
    特徴とする請求項7に記載の検索システム。
  9. 【請求項9】前記プリフェッチ手段は、取得対象となる
    データの更新頻度に応じた頻度で該データを取り直すこ
    とを特徴とする請求項7に記載の検索システム。
  10. 【請求項10】前記検索要求に応答して行う検索で対象
    とするデータの範囲の制約条件として、ロボットで収集
    されたデータに限る条件、外部からの参照要求に応答し
    て取得されたデータに限る条件、同じ名前またはアドレ
    スを持つデータについては最新のものだけに限る条件、
    動的または対話的に生成されたデータ以外のものに限る
    条件、および指定されたサイト群またはデータ群に限る
    条件のうち少なくとも1つを課すことを特徴とする請求
    項7に記載の検索システム。
  11. 【請求項11】前記キャッシュ手段は、取得されたデー
    タにその更新時刻情報および収集時刻情報の少なくとも
    一方を付加して保持することを特徴とする請求項7に記
    載の検索システム。
JP24504996A 1996-09-17 1996-09-17 検索システム Expired - Fee Related JP4025379B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP24504996A JP4025379B2 (ja) 1996-09-17 1996-09-17 検索システム
US08/927,031 US5933832A (en) 1996-09-17 1997-09-10 Retrieval system for frequently updated data distributed on network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24504996A JP4025379B2 (ja) 1996-09-17 1996-09-17 検索システム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2003285107A Division JP2004070957A (ja) 2003-08-01 2003-08-01 検索システム

Publications (2)

Publication Number Publication Date
JPH1091638A true JPH1091638A (ja) 1998-04-10
JP4025379B2 JP4025379B2 (ja) 2007-12-19

Family

ID=17127827

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24504996A Expired - Fee Related JP4025379B2 (ja) 1996-09-17 1996-09-17 検索システム

Country Status (2)

Country Link
US (1) US5933832A (ja)
JP (1) JP4025379B2 (ja)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11312172A (ja) * 1998-04-28 1999-11-09 Sharp Corp 情報処理装置及び方法並びにその制御プログラムを記憶した媒体
JPH11328191A (ja) * 1998-05-13 1999-11-30 Nec Corp Wwwロボット検索システム
JPH11338835A (ja) * 1998-05-29 1999-12-10 Nippon Telegr & Teleph Corp <Ntt> 負荷分散型情報回答装置
WO1999064966A1 (en) * 1998-06-05 1999-12-16 British Telecommunications Public Limited Company Distributed database system
JP2000285135A (ja) * 1999-03-31 2000-10-13 Toshiba Corp 情報共有システムの情報保守管理装置および方法
JP2000293527A (ja) * 1999-04-01 2000-10-20 Nec Software Chugoku Ltd Html文書検索システムへのデータ登録システム、方法および記録媒体
JP2000322434A (ja) * 1999-05-13 2000-11-24 Nec Corp 情報検索サービスにおける動的更新処理方式
JP2001268548A (ja) * 2000-03-21 2001-09-28 Sony Corp 情報処理装置および方法、情報処理システム、並びに記録媒体
JP2001337708A (ja) * 2000-05-30 2001-12-07 Nec Corp 生産設備制御システム及び方法
EP1120717A3 (en) * 2000-01-28 2002-09-11 Microsoft Corporation Adaptive web crawling using a statistical model
JP2005190488A (ja) * 2005-01-11 2005-07-14 Toshiba Corp 情報共有システムの情報保守管理装置およびその方法
JP2005228343A (ja) * 2004-02-12 2005-08-25 Microsoft Corp 決定理論的ウェブクローリングおよびウェブページ変更予測
WO2006027973A1 (ja) * 2004-09-07 2006-03-16 Interman Corporation 情報検索提供装置および情報検索提供システム
JP2008140060A (ja) * 2006-11-30 2008-06-19 Brother Ind Ltd コンテンツ取得管理装置及び、コンテンツ取得管理プログラム
JP2009110196A (ja) * 2007-10-29 2009-05-21 Mitsubishi Electric Corp Webサーバアクセススケジューリングシステム
JP2009232398A (ja) * 2008-03-25 2009-10-08 Canon Inc 放送受信装置及びその制御方法
JP2010079641A (ja) * 2008-09-26 2010-04-08 Toshiba Corp メタデータ収集装置、ならびにその方法およびプログラム
JP2010092222A (ja) * 2008-10-07 2010-04-22 Internatl Business Mach Corp <Ibm> 更新頻度に基づくキャッシュ機構
JP2011053868A (ja) * 2009-09-01 2011-03-17 Fujitsu Ltd 索引管理装置の処理方法および索引管理装置
JP2011108268A (ja) * 2005-09-21 2011-06-02 Microsoft Corp ドキュメント利用統計を用いたランキング関数
JP2011523134A (ja) * 2008-06-05 2011-08-04 インターナショナル・ビジネス・マシーンズ・コーポレーション アグリゲーションを用いる多数のコンテンツ・プロバイダの増分巡回
US8095565B2 (en) 2005-12-05 2012-01-10 Microsoft Corporation Metadata driven user interface
JP2013508873A (ja) * 2009-10-27 2013-03-07 エグザリード 情報ストリームの情報を処理する方法およびシステム
US8843486B2 (en) 2004-09-27 2014-09-23 Microsoft Corporation System and method for scoping searches using index keys
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
JP2017526041A (ja) * 2014-06-26 2017-09-07 グーグル インコーポレイテッド バッチ最適化レンダリング及びフェッチアーキテクチャ

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3139408B2 (ja) * 1997-03-17 2001-02-26 カシオ計算機株式会社 ホームページ更新通知装置
US6304904B1 (en) * 1997-03-27 2001-10-16 Intel Corporation Method and apparatus for collecting page-level performance statistics from a network device
JP3521176B2 (ja) * 1997-09-26 2004-04-19 株式会社東芝 検索方法および検索装置
US6272492B1 (en) * 1997-11-21 2001-08-07 Ibm Corporation Front-end proxy for transparently increasing web server functionality
US6282575B1 (en) * 1997-12-11 2001-08-28 Intel Corporation Routing mechanism for networks with separate upstream and downstream traffic
JPH11203321A (ja) * 1998-01-20 1999-07-30 Fujitsu Ltd メタ情報管理機能を備えた情報提供装置
US7054935B2 (en) * 1998-02-10 2006-05-30 Savvis Communications Corporation Internet content delivery network
US6185598B1 (en) 1998-02-10 2001-02-06 Digital Island, Inc. Optimized network resource location
US7949779B2 (en) 1998-02-10 2011-05-24 Level 3 Communications, Llc Controlling subscriber information rates in a content delivery network
US7171463B1 (en) * 1998-05-20 2007-01-30 Lucent Technologies Inc. System and method for denoting and communicating with computer network mobile sites
US6330561B1 (en) * 1998-06-26 2001-12-11 At&T Corp. Method and apparatus for improving end to end performance of a data network
JP3715444B2 (ja) * 1998-06-30 2005-11-09 株式会社東芝 構造化文書保存方法及び構造化文書保存装置
US6108703A (en) 1998-07-14 2000-08-22 Massachusetts Institute Of Technology Global hosting system
US6275470B1 (en) 1999-06-18 2001-08-14 Digital Island, Inc. On-demand overlay routing for computer-based communication networks
US6633874B1 (en) * 1999-09-24 2003-10-14 International Business Machines Corporation Method for improving the performance of a web service by caching the most popular (real-time) information
US6516337B1 (en) * 1999-10-14 2003-02-04 Arcessa, Inc. Sending to a central indexing site meta data or signatures from objects on a computer network
US6569206B1 (en) * 1999-10-29 2003-05-27 Verizon Laboratories Inc. Facilitation of hypervideo by automatic IR techniques in response to user requests
US6757866B1 (en) 1999-10-29 2004-06-29 Verizon Laboratories Inc. Hyper video: information retrieval using text from multimedia
US6493707B1 (en) 1999-10-29 2002-12-10 Verizon Laboratories Inc. Hypervideo: information retrieval using realtime buffers
US6490580B1 (en) 1999-10-29 2002-12-03 Verizon Laboratories Inc. Hypervideo information retrieval usingmultimedia
US6996775B1 (en) * 1999-10-29 2006-02-07 Verizon Laboratories Inc. Hypervideo: information retrieval using time-related multimedia:
US8543901B1 (en) 1999-11-01 2013-09-24 Level 3 Communications, Llc Verification of content stored in a network
US6622168B1 (en) * 2000-04-10 2003-09-16 Chutney Technologies, Inc. Dynamic page generation acceleration using component-level caching
US7240100B1 (en) * 2000-04-14 2007-07-03 Akamai Technologies, Inc. Content delivery network (CDN) content server request handling mechanism with metadata framework support
US8086697B2 (en) 2005-06-28 2011-12-27 Claria Innovations, Llc Techniques for displaying impressions in documents delivered over a computer network
US7475404B2 (en) 2000-05-18 2009-01-06 Maquis Techtrix Llc System and method for implementing click-through for browser executed software including ad proxy and proxy cookie caching
DE10108564A1 (de) * 2001-02-22 2002-09-12 Markus Blume Verfahren zur Suche nach in einem verteilten System aktuell oder früher gespeicherten Daten oder Daten enthaltenden Ressourcen unter Berücksichtigung des Zeitpunkts ihrer Verfügbarkeit
US7398271B1 (en) * 2001-04-16 2008-07-08 Yahoo! Inc. Using network traffic logs for search enhancement
US20030004998A1 (en) * 2001-06-29 2003-01-02 Chutney Technologies, Inc. Proxy-based acceleration of dynamically generated content
EP1436736B1 (en) 2001-09-28 2017-06-28 Level 3 CDN International, Inc. Configurable adaptive global traffic control and management
US7860964B2 (en) 2001-09-28 2010-12-28 Level 3 Communications, Llc Policy-based content delivery network selection
US7373644B2 (en) 2001-10-02 2008-05-13 Level 3 Communications, Llc Automated server replication
US20030079027A1 (en) 2001-10-18 2003-04-24 Michael Slocombe Content request routing and load balancing for content distribution networks
US9167036B2 (en) 2002-02-14 2015-10-20 Level 3 Communications, Llc Managed object replication and delivery
US7120648B2 (en) * 2002-02-26 2006-10-10 International Business Machines Corporation System and method for predicting execution time of a database utility command
US7603341B2 (en) 2002-11-05 2009-10-13 Claria Corporation Updating the content of a presentation vehicle in a computer network
JP4579501B2 (ja) * 2003-03-27 2010-11-10 富士通株式会社 アプリケーションサーバおよびアプリケーションプログラム
WO2005081112A1 (ja) * 2004-02-10 2005-09-01 Kyouji Iwasaki 情報処理装置、並びにファイル管理方法及びファイル管理プログラム
US8255413B2 (en) 2004-08-19 2012-08-28 Carhamm Ltd., Llc Method and apparatus for responding to request for information-personalization
US8078602B2 (en) 2004-12-17 2011-12-13 Claria Innovations, Llc Search engine for a computer network
US7693863B2 (en) 2004-12-20 2010-04-06 Claria Corporation Method and device for publishing cross-network user behavioral data
US8073866B2 (en) 2005-03-17 2011-12-06 Claria Innovations, Llc Method for providing content to an internet user based on the user's demonstrated content preferences
US8150943B2 (en) * 2006-03-10 2012-04-03 Staples The Office Superstore, Llc Methods and apparatus for dynamically generating web pages
US7689666B2 (en) * 2006-08-31 2010-03-30 Richard Commons System and method for restricting internet access of a computer
US8290986B2 (en) * 2007-06-27 2012-10-16 Yahoo! Inc. Determining quality measures for web objects based on searcher behavior
US9762692B2 (en) 2008-04-04 2017-09-12 Level 3 Communications, Llc Handling long-tail content in a content delivery network (CDN)
CN102047244B (zh) 2008-04-04 2013-02-27 第三雷沃通讯有限责任公司 在内容分发网络(cdn)中处理长尾内容
US10924573B2 (en) 2008-04-04 2021-02-16 Level 3 Communications, Llc Handling long-tail content in a content delivery network (CDN)
US8244608B2 (en) * 2008-07-28 2012-08-14 Autodesk, Inc. Takeoff list palette for guiding semi-automatic quantity takeoff from computer aided design drawings
EP3161610B1 (en) 2014-06-26 2020-08-05 Google LLC Optimized browser rendering process
EP3161662B1 (en) 2014-06-26 2024-01-31 Google LLC Optimized browser render process
US11088911B2 (en) 2019-07-08 2021-08-10 Trane International Inc. Probability-based network data updates

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59223884A (ja) * 1983-06-01 1984-12-15 Mitsubishi Electric Corp 大容量情報蓄積検索装置
JPH04237344A (ja) * 1991-01-22 1992-08-25 Nec Corp データベース管理システムにおけるページ管理方式
JPH06214856A (ja) * 1993-01-20 1994-08-05 Hitachi Ltd データバックアップ方式

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5758257A (en) * 1994-11-29 1998-05-26 Herz; Frederick System and method for scheduling broadcast of and access to video programs and other data using customer profiles
US5855020A (en) * 1996-02-21 1998-12-29 Infoseek Corporation Web scan process
US5727156A (en) * 1996-04-10 1998-03-10 Hotoffice Technologies, Inc. Internet-based automatic publishing system
US5812930A (en) * 1996-07-10 1998-09-22 International Business Machines Corp. Information handling systems with broadband and narrowband communication channels between repository and display systems
US5765150A (en) * 1996-08-09 1998-06-09 Digital Equipment Corporation Method for statistically projecting the ranking of information
US5797008A (en) * 1996-08-09 1998-08-18 Digital Equipment Corporation Memory storing an integrated index of database records

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59223884A (ja) * 1983-06-01 1984-12-15 Mitsubishi Electric Corp 大容量情報蓄積検索装置
JPH04237344A (ja) * 1991-01-22 1992-08-25 Nec Corp データベース管理システムにおけるページ管理方式
JPH06214856A (ja) * 1993-01-20 1994-08-05 Hitachi Ltd データバックアップ方式

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11312172A (ja) * 1998-04-28 1999-11-09 Sharp Corp 情報処理装置及び方法並びにその制御プログラムを記憶した媒体
JPH11328191A (ja) * 1998-05-13 1999-11-30 Nec Corp Wwwロボット検索システム
JPH11338835A (ja) * 1998-05-29 1999-12-10 Nippon Telegr & Teleph Corp <Ntt> 負荷分散型情報回答装置
WO1999064966A1 (en) * 1998-06-05 1999-12-16 British Telecommunications Public Limited Company Distributed database system
JP2000285135A (ja) * 1999-03-31 2000-10-13 Toshiba Corp 情報共有システムの情報保守管理装置および方法
JP2000293527A (ja) * 1999-04-01 2000-10-20 Nec Software Chugoku Ltd Html文書検索システムへのデータ登録システム、方法および記録媒体
JP2000322434A (ja) * 1999-05-13 2000-11-24 Nec Corp 情報検索サービスにおける動的更新処理方式
EP1120717A3 (en) * 2000-01-28 2002-09-11 Microsoft Corporation Adaptive web crawling using a statistical model
US7328401B2 (en) 2000-01-28 2008-02-05 Microsoft Corporation Adaptive web crawling using a statistical model
JP2001268548A (ja) * 2000-03-21 2001-09-28 Sony Corp 情報処理装置および方法、情報処理システム、並びに記録媒体
US7984167B2 (en) 2000-03-21 2011-07-19 Sony Corporation Apparatus, system and method for secure information dissemination
US8321574B2 (en) 2000-03-21 2012-11-27 Sony Corporation Apparatus, system and method for secure information dissemination
JP4529056B2 (ja) * 2000-03-21 2010-08-25 ソニー株式会社 情報処理装置および方法、記録媒体、並びに情報処理システム
JP2001337708A (ja) * 2000-05-30 2001-12-07 Nec Corp 生産設備制御システム及び方法
JP2005228343A (ja) * 2004-02-12 2005-08-25 Microsoft Corp 決定理論的ウェブクローリングおよびウェブページ変更予測
WO2006027973A1 (ja) * 2004-09-07 2006-03-16 Interman Corporation 情報検索提供装置および情報検索提供システム
US8341135B2 (en) 2004-09-07 2012-12-25 Interman Corporation Information search provision apparatus and information search provision system
US8843486B2 (en) 2004-09-27 2014-09-23 Microsoft Corporation System and method for scoping searches using index keys
JP2005190488A (ja) * 2005-01-11 2005-07-14 Toshiba Corp 情報共有システムの情報保守管理装置およびその方法
JP2011108268A (ja) * 2005-09-21 2011-06-02 Microsoft Corp ドキュメント利用統計を用いたランキング関数
US8095565B2 (en) 2005-12-05 2012-01-10 Microsoft Corporation Metadata driven user interface
JP2008140060A (ja) * 2006-11-30 2008-06-19 Brother Ind Ltd コンテンツ取得管理装置及び、コンテンツ取得管理プログラム
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
JP2009110196A (ja) * 2007-10-29 2009-05-21 Mitsubishi Electric Corp Webサーバアクセススケジューリングシステム
JP2009232398A (ja) * 2008-03-25 2009-10-08 Canon Inc 放送受信装置及びその制御方法
JP4590464B2 (ja) * 2008-03-25 2010-12-01 キヤノン株式会社 放送受信装置及びその制御方法
JP2011523134A (ja) * 2008-06-05 2011-08-04 インターナショナル・ビジネス・マシーンズ・コーポレーション アグリゲーションを用いる多数のコンテンツ・プロバイダの増分巡回
US9582578B2 (en) 2008-06-05 2017-02-28 International Business Machines Corporation Incremental crawling of multiple content providers using aggregation
JP2010079641A (ja) * 2008-09-26 2010-04-08 Toshiba Corp メタデータ収集装置、ならびにその方法およびプログラム
JP2010092222A (ja) * 2008-10-07 2010-04-22 Internatl Business Mach Corp <Ibm> 更新頻度に基づくキャッシュ機構
JP2011053868A (ja) * 2009-09-01 2011-03-17 Fujitsu Ltd 索引管理装置の処理方法および索引管理装置
JP2013508873A (ja) * 2009-10-27 2013-03-07 エグザリード 情報ストリームの情報を処理する方法およびシステム
US9122769B2 (en) 2009-10-27 2015-09-01 Dassault Systemes Method and system for processing information of a stream of information
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
JP2017526041A (ja) * 2014-06-26 2017-09-07 グーグル インコーポレイテッド バッチ最適化レンダリング及びフェッチアーキテクチャ

Also Published As

Publication number Publication date
JP4025379B2 (ja) 2007-12-19
US5933832A (en) 1999-08-03

Similar Documents

Publication Publication Date Title
JP4025379B2 (ja) 検索システム
US6718365B1 (en) Method, system, and program for ordering search results using an importance weighting
AU2001290363B2 (en) A method for searching and analysing information in data networks
US8509266B2 (en) Using network traffic logs for search engine index updates
US7627568B2 (en) Method and system for updating a search engine database based on popularity of links
US5802292A (en) Method for predictive prefetching of information over a communications network
US5933827A (en) System for identifying new web pages of interest to a user
KR100377715B1 (ko) 처리 시스템
JP5186542B2 (ja) 個人化検索方法および個人化検索システム
US9160709B2 (en) System and method for managing page variations in a page delivery cache
US20050086206A1 (en) System, Method, and service for collaborative focused crawling of documents on a network
US20040064650A1 (en) Method, system, and program for maintaining data in distributed caches
JP2007526537A (ja) 持続的にイベントデータを記憶および提供するためのサーバアーキテクチャおよび方法
JPH10512699A (ja) コンピュータのネットワークからワールドワイドウェッブ上のページを捜し出したり、ドキュメントを捜し出したりするためのシステム及び方法
KR20060116042A (ko) 개인화 검색 방법 및 검색 서버
JP2001101061A (ja) キャッシュサーバ
JP2000508450A (ja) インターネットから検索される情報を知識ベース表現を使用して編成する方法
WO2001075668A2 (en) Search systems
JP2004070957A (ja) 検索システム
JP3506892B2 (ja) グループ適応型情報検索装置
Brunie et al. Semantic collaborative web caching
Rajaram et al. Web caching in Semantic Web based multiple search engines
CA2537269C (en) Method, device and software for querying and presenting search results
JPH11265402A (ja) データ処理システム及びデータ処理システムを制御するプログラムを記録した記録媒体
JP2004348550A (ja) ブラウジング履歴管理方法および装置およびプログラム

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040315

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20040405

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20040423

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20041203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070827

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071005

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101012

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111012

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees