JPH1091638A - 検索システム - Google Patents
検索システムInfo
- Publication number
- JPH1091638A JPH1091638A JP8245049A JP24504996A JPH1091638A JP H1091638 A JPH1091638 A JP H1091638A JP 8245049 A JP8245049 A JP 8245049A JP 24504996 A JP24504996 A JP 24504996A JP H1091638 A JPH1091638 A JP H1091638A
- Authority
- JP
- Japan
- Prior art keywords
- data
- search
- database
- update frequency
- page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99942—Manipulating data structure, e.g. compression, compaction, compilation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
ータを効率良く取得しデータベース化する検索システム
を提供すること。 【解決手段】 ネットワーク上でロボットを用いて収集
したデータをもとにデータベースを作成し、検索要求に
応じてデータベース検索を行なう検索システムにおい
て、データベース化の対象とすべきデータの更新頻度の
範囲がデータベース固有に割り当てられ、データの更新
頻度が該割り当てられた更新頻度の範囲内にあることま
たはデータの属するデータ群における平均的な更新頻度
が該割り当てられた更新頻度の範囲内にあることを少な
くとも条件として、該当するデータを収集し所定の構造
のデータベースを作成するデータベース作成手段を備え
たことを特徴とする。
Description
分散したデータの検索システムに関する。
ww.altavista.com/)、Lycos
(http://www.lycos.com/)、Y
ahoo!(http://www.yahoo.co
m/)などロボットを用いたネットワーク上の検索シス
テムは多数存在する。これらはロボットと呼ばれる機械
的にネットワーク上で情報を収集するソフトウェアを用
いている。そして、収集したデータをデータベース化
し、利用者が検索できるようにしている。
L(Hyper Text Markup Langu
age)で記述された文章を探し、そこに記載されてい
るリンク先を辿って、ネットワーク上に存在するデータ
を収集する。データベース化については、フルテキスト
サーチをするものもあれば、タイトルやURLといった
部分のみを検索対象とするようなものもある。
されている場合もある。しかし、あくまでも量が多いた
めの単なる分割であり、何らかの意味を持って分割して
はいない。
る。すなわち、探したい文章に含まれているであろう語
を入力して、検索を行なう。一方、人気のあるサイトへ
のアクセス集中を分散させ、トラフィックを軽減するた
めに、ミラーサイトが設けられることがある。例えば、
Point Cast Network(PCN)社の
I−Server(http://www.point
cast.com/products/iserve
r.html)ではPCN本社へ定期的に情報をプリフ
ェッチして、ミラーサイトを管理している。
に分散したデータの検索システムにおいては、以下のよ
うな問題点があった。 (1)増大するデータを扱うのが困難になりつつある。
例えばWWW上のページデータが1996年で世界で4
000万以上あると言われ、今後も指数関数的に増加す
ると予想される。現在、ページ数も、1ページあたりの
データ量も急激に増大する傾向にある。このように急増
するデータを単に量により分割するだけでは、データベ
ース管理が極めて困難である。
である。一日に何度も更新されるデータについては、現
在の検索システムではロボット探索対象から外してい
る。この理由は、頻繁に更新されるデータをロボットで
情報収集してデータベース化しても、そのデータが検索
される前に更新されることが少なくないからである。こ
のような場合には、検索結果に現れたページを見ても、
既になくなっていたり、内容が全く別のものに変更され
たために利用者の意図したものとは別ものもが表示され
たりする不都合が生じる。
ので、ネットワーク上に散在する膨大な検索対象データ
を効率良く取得しデータベース化する検索システムを提
供することを目的とする。また、本発明は、極めて更新
頻度の高いデータをも効果的にデータベース化する検索
システムを提供することを目的とする。
ネットワーク(例えば、インターネットのWWW)上で
ロボットを用いて収集したデータ(例えばページのよう
なハイパーメディアデータ)をもとにデータベースを作
成し、検索要求に応じてデータベース検索を行なう検索
システムにおいて、データベース化の対象とすべきデー
タの更新頻度(例えば、統計的な更新頻度、あるいは最
終更新時刻)の範囲がデータベース固有に割り当てら
れ、データの更新頻度が該割り当てられた更新頻度の範
囲内にあることまたはデータの属するデータ群(例え
ば、サイト)における平均的な更新頻度が該割り当てら
れた更新頻度の範囲内にあることを少なくとも条件とし
て、該当するデータを収集し所定の構造のデータベース
を作成するデータベース作成手段を備えたことを特徴と
する。
スとキーワードの組からなる構造を持つ。具体的には、
例えば、ページのURLにキーワードを付加したもので
ある。
検索システムにおいて、既にデータベース化したデータ
の更新頻度または該データの属するデータ群における平
均的な更新頻度が、そのデータベースに割り当てられた
前記更新頻度の範囲外のものとなった場合には、該デー
タを対象とし得る他のデータベースにて該データをデー
タベース化の対象とさせるための処理を行う処理手段を
さらに備えたことを特徴とする。
検索システムにおいて、利用者から与えられた検索要求
に応答して、互いに同一でない前記更新頻度の範囲が割
り当てられて作成された複数の前記データベースを連携
させて検索を行い、得られた検索結果を返す検索手段を
さらに備えたことを特徴とする。
検索システムにおいて、前記検索要求で更新頻度範囲お
よび更新時刻範囲の少なくとも一方が指定されている場
合には、前記検索手段は、指定された更新頻度範囲およ
び更新時刻範囲の少なくとも一方に該当するデータにつ
いてのみ検索を行い、前記検索要求で検索範囲の指定が
ない場合には、前記検索手段は、全データを対象とし
て、または更新頻度範囲および更新時刻範囲の少なくと
も一方のデフォルト値で制限された範囲を対象として検
索を行うことを特徴とする。
のいずれか1項に記載の検索システムにおいて、前記検
索システムを構成するハードウェアのうち更新頻度の高
い(例えば、統計的な更新頻度の高い、あるいは最終更
新時刻の新しい)データに対応する部分ほど、高い処理
能力を持たせることを特徴とする。
検索システムにおいて、前記高い処理能力は、より高速
な計算機を用いることおよびより多数の計算機を用いる
ことの少なくとも一方によって実現することを特徴とす
る。
(あるいは最終更新時刻の新しさなど)を人気の度合い
と見做せば、人気の度合い応じて異なったデータベース
にてデータを管理することができる。また、人気の高い
すなわちアクセス頻度の高いデータベースを処理する計
算機を強力にし、アクセス頻度の低い膨大な量のデータ
については処理能力の低い計算機を割り当てることによ
り、ハードウェア資源を効率的に使用したシステムを構
築できる。これによって、膨大なデータを対象とした効
果的な検索システムを提供することができる。
ロボットを用いて収集したデータをもとにデータベース
を作成し、データベース検索を行なう検索システムにお
いて、外部からの参照要求に応答して取得されたデータ
およびロボットを用いて収集されたデータを保持するキ
ャッシュ手段と、外部から参照要求が与えられた場合
に、前記キャッシュ手段に該当するデータが保持されて
いるならば、前記キャッシュ手段からデータを提供し、
前記キャッシュ手段に該当するデータが保持されていな
いならば、該データを保持する本来のサーバーから該デ
ータを取得して提供するデータ提供手段とを備えたこと
を特徴とする。
のであり、これによって、利用者が要求したデータがシ
ステム内にあるならば、それが利用者からの要求によっ
て取得したものであっても、それがロボットによって収
集されたものであっても、それを利用者に提示すること
ができる。
タに対しても、検索を適用することができる。本発明
(請求項8)は、請求項7に記載の検索システムにおい
て、外部から参照要求されたデータについての統計処理
を行って、今後参照要求されるデータを予測する予測手
段と、予測されたデータおよび予め明示的に指定された
データを、ロボットを用いて取得し前記キャッシュ手段
にプリフェッチするプリフェッチ手段とをさらに備えた
ことを特徴とする。
ロボットを用いてあらかじめ収集せずに、あらかじめ指
定したデータおよび利用者からの統計的観点から参照要
求があると思われるデータについてロボットによりデー
タをプリフェッチしておくので、適切なデータに対して
効果的にミラー化される。
検索システムにおいて、前記プリフェッチ手段は、取得
対象となるデータの更新頻度に応じた頻度で該データを
取り直すことを特徴とする。
の検索システムにおいて、前記検索要求に応答して行う
検索で対象とするデータの範囲の制約条件として、ロボ
ットで収集されたデータに限る条件、外部からの参照要
求に応答して取得されたデータに限る条件、同じ名前ま
たはアドレスを持つデータについては最新のものだけに
限る条件、動的または対話的に生成されたデータ以外の
ものに限る条件、および指定されたサイト群またはデー
タ群に限る条件のうち少なくとも1つを課すことを特徴
とする。
の検索システムにおいて、前記キャッシュ手段は、取得
されたデータにその更新時刻情報および収集時刻情報の
少なくとも一方を付加して保持することを特徴とする。
じでも時刻によって異なるデータに対しても管理でき
る。なお、以上の各装置に係る発明は、方法に係る説明
としても成立する。また、上記の発明は、相当する手順
あるいは手段をコンピュータに実行させるためのプログ
ラムを記録した機械読取り可能な媒体としても成立す
る。
実施の形態を説明する。まず、語句の定義を行う。プロ
キシー(Proxy)とは、クライアント(例えば利用
者端末)からサーバー(例えばWWWサイト)への資源
アクセスの際にアプリケーションレベルにおいて、クラ
イアントとサーバーの間に入り、クライアントからの資
源アクセス要求をサーバーに対して中継し、サーバーか
らの応答をクライアントに対して中継する機能を有する
サーバーのことを言う。
トのページを意味するものとする。WWWの世界では、
1つのページはユニークなURLを持つ。URL(Un
iform Resouce Location)と
は、ページデータをアクセスするのに必要な情報であ
る。URLは、プロトコル、ドメイン名、ポート番号、
パス名の情報を含む。
Interface)とは、対話的なページや動的なペ
ージを作るためにサーバーからプログラムを起こすため
のインターフェースである。
Text Markup Language(HTM
L)やStandard Generalized M
arkup Language(SGML)のようなハ
イパーテキストで記述された文書を読み、そこに書かれ
ているリンクを機械的に辿りながら文書をネットワーク
上で収集するものであり、ソフトウェアにより実現され
る。ロボットの代わりにスパイダー(spider)あ
るいはワンダラー(Wanderer)などと呼ばれる
こともある。
る。 (手順1)指定されたURLの根を探訪リストに登録す
る。 (手順2)ロボットは、探訪リストに従いページを取得
する。 (手順3)取得されたページを解析してURLを抽出す
る。 (手順4)抽出されたURLを探訪リストに追加する
(ただし、URLの重複登録はしない)。 以降、手順2〜4を繰り返す。なお、ページの取得頻度
は、該ページの更新頻度に応じて決めるようにしても良
い。
実施形態では、ネットワーク中に分散されたデータの一
例としてページを扱うものとする。
ide Web(WWW)上のページ数(ページの種
類)は4000万を越えると言われる。この数は、今後
も指数関数的に増え続けると予測されている。このよう
な膨大な量のページを単一のデータベースで管理するこ
とは極めて困難である。
は、サイト(ドメイン)単位でデータベースを分割する
ことであるが、こうすると、どのデータベースも等しく
高速でなければならない。データベースを分割すること
ができても、すべてが高速でなければならないとする
と、データベース構築の負担は依然高い。
スの内容を人気の度合いに応じて分割するようにしてい
る。そして、人気の高いデータベースは高速なシステム
(例えば大容量メモリを持つマシン)の上に載せ、人気
があまりないデータベースは低速なシステムの上に載せ
るようにする。このようにすると、人気の高いデータベ
ースを載せるマシンだけ高速なマシンを使えば良くな
り、データベース構築の負担を効果的に軽減することが
できる。
は厳密に言うとネットワークの視聴率調査などをしなけ
ればならないが、そのような作業は大きな困難を伴い現
実的ではない。そこで、本実施形態では、次のような良
く成り立つ近似を使う。まず「ページが飽きられずに高
い人気を保ためには、絶えずコンテンツをアップデート
していく必要がある」と考える。そして、その逆をとっ
て「データの更新頻度が高いページは、人気の高いペー
ジである」と近似する。つまり、本実施形態では、人気
のバロメーターとしてデータの更新頻度を使い、データ
ベースの内容をデータの更新頻度に応じて分割する。な
お、ページの更新頻度はロボットを走行させることによ
り取得できる情報である。
に何度も更新されるものもある。このようなページに対
して時々しかアクセスしない方法を採る場合、実際のペ
ージデータと検索システム内のデータベースとが不一致
となる状態が発生する。特に、データベース検索の結果
をもとにページを参照しにいくと、既に該当ページがな
くなっていたり、ページ自体はあっても内容が別のもの
に変更されてたりすることがあり、このような場合に不
具合が発生する。
軽減するためには、ロボットが非常に高頻度にページを
アクセスする必要がある。しかし、不定期に頻繁に変更
されるページの最新情報に追い付くために頻繁にアクセ
スすることは、無用なトラフィックを増大させ、情報を
保持するサイトにも検索システム側にも不利益を被らせ
る。
ス化した元データを保存しておき、それを利用者に提示
するようにしている。このようにすると、実際のページ
の変化には多少遅れるが、無駄にトラフィックを増やす
こともなく、しかも検索結果に対応した元ページを常に
見ることができる。
組み合わせることも可能である。この場合には、両者の
効果を得ることができる。以下、本発明の実施形態につ
いて詳しく説明する。
について説明する。本実施形態のシステム構成例を、図
1、図4、図6に示す。
易し、データの更新頻度に応じてデータベースを使い分
ける。すなわち、各データベースに、対象とするページ
データの更新頻度の範囲を割り当てる。そして、ユーザ
が要求するキーワードについて検索を行なう際には、複
数のデータベースを連携させて検索し、結果をまとめて
利用者に提示する。
例えば次のようなものが考えられる。 (a)統計的更新頻度情報によって分担 (b)最終更新時刻によって分担 (c)統計的更新頻度情報と最終更新時刻との総合的情
報によって分担ここで、(b)の最終更新時刻によって
分担する方法について説明する。
クセスされ(つまり人気があり)、最後に更新されてか
ら時間が経過している程、アクセスされる頻度が少ない
(つまり人気がない)と考えられる。そこで、例えば図
3のように、最終更新時刻の範囲に応じて、格納すべき
データベースを分担する。
ベースを決定する方法には、例えば次のようなものが考
えられる。 (1)サイト単位に格納すべきデータベースを決定す
る。この場合には、サイト内のデータの更新頻度の平均
値を評価値に用いる。 (2)サイト内のディレクトリ単位に格納すべきデータ
ベースを決定する。この場合には、ディレクトリ内のデ
ータの更新頻度の平均値を評価値に用いる。 (3)データ単位に格納すべきデータベースを決定す
る。この場合には、そのデータの更新頻度を評価値に用
いる。
度情報や最終更新時刻などである。なお、上記の(1)
〜(3)の方法は、併用可能である。例えば、サイトA
についてはサイト単位にデータベースに入れ、サイトB
については、データ単位にデータベースに入れるように
しても良い。また、サイトC内で、ディレクトリaにつ
いてはディレクトリ単位にデータベースに入れ、ディレ
クトリbについてはデータ単位にデータベースに入れる
ようにすることも可能である。
ットワークにつながれたサーバにおくことも考えられ
る。例えば、更新頻度が高い方のデータを組織内のイン
トラネットにおき、更新頻度が低い方のデータをインタ
ーネットに直接接続された場所で管理する。
ページ自体ではなくキーワードとURLとを格納するも
のとする。また、ページを全文検索などして抽出したキ
ーワードをURLに付加して格納し、キーワードでUR
Lを検索するものとする。
ーワード単位のデータベースについて述べているが、文
字単位のデータベースであっても良い。次に、図1、図
4、図6に示す各システム構成例について説明する。
に、複数のロボットとデータベースとの組(101と1
02,111と112,121と122)からなる検索
装置100,110,120、複数のWWWサイト(1
31,132)、利用者端末(133)が接続されてい
る。
ジ分担方法で、対象とする更新頻度を割り当てる。第1
のロボット102は、高頻度に変化するサイト群もしく
はデータ群を集め(例えばWWWサイト131,132
から集め)、それをデータベース化して第1のデータベ
ース101に格納する。
るサイト群もしくはデータ群を集め、それをデータベー
ス化して第3のデータベース121に格納する。第2の
ロボット112は、それ以外の中頻度に変化するサイト
群もしくはデータ群を集め、それをデータベース化して
第2のデータベース111に格納する。
対応する実際の統計的更新頻度情報(あるいは、最終更
新時刻など)の範囲は、適宜設定する。次に、動的なデ
ータベースの分担変更について述べている。
度情報に応じて分割された各データベースに該当するペ
ージのURLを入れるが、時間とともにページの更新頻
度(あるいはページの属するサイトの平均的な更新頻度
等)は変化することがあるので、あるページの更新頻度
(あるいはページの属するサイトの平均的な更新頻度
等)がそのページを分担した初期のデータベースの持つ
更新頻度の範囲を逸脱する場合が発生する。従って、あ
るページを分担中のデータベースから適切な更新頻度範
囲を持つデータベースにそのページデータもしくはサイ
トを受け持つように依頼するようにするのが望ましい。
この依頼は、データベース間の交渉により実現されるも
のとする。
02は、統計的に高頻度のデータ群を取り寄せ第1のデ
ータベース101に格納する。しかし、当初高頻度で更
新されていたデータの更新頻度が自分が受け持つ範囲よ
りも低下したならば、そのデータを第2のロボット11
2とデータベース111に引き受けてもらう。また、更
新頻度が大きく落ちた場合には、第3のロボット122
とデータベース121に担当を替えるよう依頼する。
ボットが複数台あり、それぞれにデータベースがある場
合の各検索装置の処理手順の一例を示す。ステップS2
1で、他の検索装置からページの分担を依頼されている
かどうか調べ、あればステップS27を行い、なければ
ステップS22を行う。
は、指定されたページを1つ選び、そのページを取得す
る。このときのページの統計的更新頻度に比例した頻度
でページを取得するようにスケジュールする。なお、そ
のページについて統計的更新頻度の情報がない場合に
は、そのページを含むサイトのページのうち得られてい
る統計的更新頻度の平均的な値あるいはデフォルト値な
どで代用すれば良い。
と変わっているか否かにより、そのページの統計的更新
情報を更新する。もし、ネットワークや相手サーバのト
ラブルにより、そのページの取得に失敗した場合には、
そのページの取得に失敗したという記録を残して、ステ
ップS22に戻る。
が担当している範囲内かどうかを調べる。ステップS2
5で、もし自らの担当範囲外になったならば、それを範
囲内に含む検索装置に以降の処理を依頼する。このと
き、そのページのデータは消去する。
ならば、取得したページをデータベース化し、格納す
る。例えば、ページデータを形態素解析し、単語レベル
に分解し、単語を含むページという形にデータベース化
する。このとき、そのページの前のデータは消去する。
があった場合には、そのページを自ロボットで扱うこと
ができるように、そのページを登録し、そのページの統
計的更新頻度情報を設定する。
ベース検索を行う場合、利用者端末133から複数のデ
ータベース101,111,121のすべてに検索要求
を出す方法と、いずれか1つのデータベース1に検索要
求を出す方法が考えられる。後者のいずれか1つのデー
タベースに検索要求を出す場合には、その検索要求を受
け取ったデータベースのみが結果を返すようなモード
と、そのデータベースが他のデータベースにも問い合わ
せに行き結果をマージして返すようなモードが考えられ
る。
4は、基本的には図1と同様であり、データの更新頻度
に応じた複数のデータベース201〜203が用意され
ているが、ロボット204を一台で兼用する点に関して
図1の構成例と相違する。
データベースが複数ある場合の検索装置の処理手順の一
例を示す。ステップS11で、指定されたページを1つ
選び、ロボット204を用いてそのページを取得する。
このときのページの統計的更新頻度に比例した頻度でペ
ージを取得するようにスケジュールする。なお、そのペ
ージについて統計的更新頻度の情報がない場合には、そ
のページを含むサイトのページのうち得られている統計
的更新頻度の平均的な値あるいはデフォルト値などで代
用すれば良い。
と変わっているか否かにより、そのページの統計的更新
情報を更新する。もし、ネットワークや相手サーバのト
ラブルにより、そのページの取得に失敗した場合には、
そのページの取得に失敗したという記録を残して、ステ
ップS11に戻る。
したページの新しい統計的更新確率により、そのページ
をどのデータベースに担当させるかを決定する。ステッ
プS14で、ページ情報をデータベース化する。例え
ば、ページデータを形態素解析し、単語レベルに分解
し、単語を含むページという形にデータベース化する。
このデータをステップS13で決めたデータベースに格
納する。このとき、そのページの前のデータは消去す
る。もし、ここで、これまで格納されていたデータベー
スと異なるデータベースに格納されていたならば、それ
をも消去する。もし、取得したページが前回から変更が
ない場合には、データベース化は行わないが、格納すべ
きデータベースがそれにより変更された場合には、デー
タの移動のみを行う。
スの数と一致している必要はない。例えば、図4の場
合、ロボットの数は2台でも4台以上でも良い。各ロボ
ットとデータベースとの対応関係は適宜設定すれば良
い。
については前述した図1と同様である。次に、図6の構
成例について説明する。図6の検索装置300は、デー
タベース全体を取りまとめるデータベース・フロントエ
ンド(DBF)301が設けられている点が図4の検索
装置200と相違する。
端末133からの検索要求を受付け、適切なデータベー
スに問い合わせて、結果を利用者に提示する。次に、デ
ータベース検索における検索対象範囲の指定について説
明する。
ーワードを用いた検索条件の他に、対象とする更新頻度
の範囲および/または更新時刻の範囲を指定できるよう
にすると好ましい。また、検索要求において明示的に更
新頻度が指定されていない場合に、データベースあるい
はDBFの方でデフォルト値(例えば最も更新頻度の高
いデータベースのみといった更新頻度範囲)をもって検
索を行なうようにしても良い。
検索手順の一例を示す。利用者が利用者端末133から
データベース・フロントエンド301に向けて検索要求
を送り出すと、ステップS31で、データベースフロン
トエンド301は利用者端末308からの検索要求を受
け取る。
度範囲指定を持つかどうかを判定する。もし持つなら
ば、ステップS33で、利用者の検索要求の対象範囲に
応じて適切な範囲のデータベースでのみ検索を行う。
すべてのデータベースで検索を行う。ステップS35
で、結果をマージして利用者端末308に返す。
て説明する。本第1の実施形態では、更新頻度の高い方
(例えば、統計的更新頻度情報の高い方、あるいは最終
更新時刻の新しい方など)を受け持つデータベース(ま
たはデータベースおよびロボット)などを構成する計算
機には、更新頻度の低い方(例えば、統計的更新頻度情
報の低い方、あるいは最終更新時刻の古い方など)を受
け持つデータベース(またはデータベースおよびロボッ
ト)などを構成する計算機よりも、高速性について同等
以上のものを用い、あるいは台数について同数以上を用
いるなどして、更新頻度が高いデータを検索するデータ
ベースを担当する計算機の方がそうでないデータベース
を担当する計算機よりも処理能力が同じかより高いよう
にシステムを構成すると好ましい。
当するデータベースの方が更新頻度が低い方のデータを
担当するデータベースよりも頻繁に利用されるので、更
新頻度が高い方のデータを担当するデータベースの方の
みについて処理能力を上げるだけで、全体の処理能力を
効果的に向上させることができる。
じてデータベースを分割することにより、更新頻度の高
いデータベースを載せる計算機だけ高速なものを使えば
良くなり、データベース構築の負担を効果的に軽減する
ことができる。
10を構成する計算機群が更新頻度が高いデータ群を担
当し、第2の検索装置401を構成する計算機群が更新
頻度が低いデータ群を担当している場合には、第1の計
算機群410においてはデータベースをハードウェア的
に二重化して高速化している。高速化の手段としては、
ハードウェアを多重化する他にも、速い素子を使った計
算機を使うとか、メモリの容量を大きくするなどの方法
がある。
クを1つとして説明したが、図9のように複数のネット
ワーク500〜504が結合された環境であっても良
い。さらに、ネットワーク500〜504が組織や国の
ように物理的にまったく離れた場所を結合しているもの
であっても良い。
について説明する。本実施形態では、検索システムにプ
ロキシー機能も装備し、検索結果として参照されるべき
ページデータを既に持っているならば、そのデータをネ
ットワークを介して新たに取りに行くことはせずに、既
に持っているデータを返す。
ジの問題にも対処することができる。すなわち、頻繁に
変化するページでは、検索結果として示されるリンクを
辿ったときには、既にそのページがなくなっていたり、
更新されていて役にたたないことがある。これに対し
て、検索用データベースで用いたデータを提示するので
あれば、このような問題は生じない。
3に示すようにサンプリング的に取得し、次の取得まで
内容を保持しておく。これにより、例えば図13中のt
1でページが消失しあるいは内容が別のものに移行され
るなどしても、最後にサンプリングしたt0のときの内
容を提示することができる。
示す。図10に示すように、本実施形態の検索装置60
1は、ネットワーク600に接続されており、ロボット
602、キャッシュ603、データベース化部604、
データベース605、データベース・フロントエンド
(DBF)607、WWWフロントエンド606を有す
る。また、図10には示していないが、ネットワーク6
00を介して各WWWサイトや利用者端末が接続されて
いるものとする。また、図10中では、データベースを
1つとして表わしているが、複数に分割されていても良
い。また、複数のデータベースに第1の実施形態にて説
明した発明を適用し、データの更新頻度に応じてデータ
ベースに情報の格納を分担させても良い。
のURLを格納するものとする。また、ページを全文検
索などして抽出したキーワードをURLに付加して格納
し、キーワードでURLを検索するのもとする。
利用方法について説明する。データベース化まで手順の
一例を以下に示す。まず、ロボット602を用いて、探
訪リストに従って、ネットワーク600を介して他のW
WWサイトからデータを収集する。もし自身も独自コン
テンツを持つWWWサイトであるならば、自身からもデ
ータを収集する。その収集したものをキャッシュ603
に格納する。キャッシュ603に格納されているものの
中からデータベース化部604により検索用データベー
ス605を作成する。例えば、語単位でのキーワード検
索を行なう場合には、データベース化部604では、キ
ャッシュ603内のデータを形態素解析し、語単位でデ
ータベース化する。これにより、利用者から特定の語を
含む情報を要求された場合に、即座にデータベース検索
が可能となる。ここで、本検索装置では、データベース
化するときのデータの在処として、そのデータを取得し
たネットワーク上のアドレス(URL)ではなく、キャ
ッシュ603に格納されているデータのアドレスを用い
る。
フロントエンド606がアクセスして取得したページ
も、キャッシュ603に格納するとともに、上記と同様
にデータベース化しておく。
。利用者は、ネットワーク600を介して、検索装置
601のWWWフロントエンド606にアクセスし、検
索要求を出す。その要求は、データベース・フロントエ
ンド(DBF)607に伝えられ、複数のデータベース
がある場合には、適切なデータベースが選択され、それ
に検索要求を出す。データベース・フロントエンド(D
BF)607では、複数のデータベースに検索要求を出
した場合には、それらの結果を取りまとめて、WWWフ
ロントエンド606を介して利用者に検索結果を提示す
る。利用者は、検索結果の中で、さらにその中身を見て
みたいと思うものがあれば、検索装置601のWWWフ
ロントエンド606に参照要求を出す。WWWフロント
エンド606では、参照を要求されたページが自キャッ
シュ603に格納されているものであるならば、該ペー
ジをキャッシュ603から取り出して参照要求者に返
す。もし自キャッシュ603になければ、その旨を参照
要求者に返す。
のデータをロボットを用いて収集せずに、予め指定され
たデータに加えて、統計的観点から参照要求があると思
われるデータについてロボットによりデータをプリフェ
ッチしておくようにしても良い。これは、WWW上のす
べてのデータを検索対象としない場合や、実際のページ
の更新頻度ではなく、利用者の要求に基づいてデータを
更新する場合に有効である。
索対象としない場合には、どの範囲をロボットで収集す
るかが問題となる。そこで、この検索サーバ兼プロキシ
ーへの要求に現れるページやサイトを統計処理し、その
頻度が高いデータやサイトのデータを優先的にロボット
を用いてあらかじめプリフェッチしておく。このときに
は、実際のページの更新情報が高いもの程よくそのペー
ジをロボットが訪問するのみならず、そのページに対す
る参照要求の発生確率が高いページほど良くそのページ
をロボットが訪問するようにする。これにより、システ
ム管理者が特別に指定しなくても、適切なデータに対し
てミラー化される。
示す。図11の検索装置701は、図10の検索装置6
01にユーザ要求記録部708を追加したものである。
従って、相当する部分の説明は省略し、相違する部分を
中心に説明を行う。
集の処理手順を示す。ステップS41で、利用者のアク
セスログを解析し、そのサイトで良く参照されるページ
やサイトの情報を得る。
管理者などにより明示的に指示されたページやサイトの
情報をステップS41で得たものとマージする。ステッ
プS43で、上記で得たデータを、その統計的更新確率
にしたがってロボットを用いて取得する。もし、ページ
について統計的更新確率情報が得られていなかったとき
には、そのページを含むサイトのページのわかっている
統計的更新確率情報の平均値で代用する。さらに、その
サイトの統計的更新確率情報もわからない場合には、知
っているすべてのサイトの統計的更新確率情報もしくは
デフォルト値で代用する。この統計的更新確率情報に比
例した頻度でデータを繰り返し取得する。また、あるサ
イトがある時刻に更新される可能性が高いことがわかっ
たならば、その時刻よりも少し後に情報を取に行くよう
にする。
兼ねているので、利用者は検索要求でなく、単にネット
ワーク上の情報が欲しいときには、参照要求を検索装置
701に出す。その参照要求は、WWWフロントエンド
706を介して、ユーザ要求記録部708に出され、こ
こで要求データの記録が残される。ここで要求されたデ
ータがキャッシュ703にあれば、それをそのまま返
し、なければネットワーク700を介してデータを取り
に行き、そのデータをキャッシュ703に一旦格納した
後、WWWフロントエンド707を介して利用者に返
す。
者がどのデータに関心が高いかといった情報がユーザ要
求記録部708に格納されている。従って、ロボットで
データを予め収集するときに、ロボットで取得できるす
べてのデータを取ろうとするのではなく、ユーザ要求記
録部708に格納されているデータと明示的に指示され
た取得すべきデータとを取得する。
て、それらはユーザ要求記録部708にあるものであっ
ても取得しないようにしても良い。ところで、頻繁に更
新されるデータについては、ユーザ要求記録部708の
記録を見ても有効でないと考えられる。なぜならば、再
び訪れたときにはそのデータが消滅している可能性が高
い。従って、そのようなデータについては、サイトもし
くはデータへのパスのみを有効な情報とし、同じデータ
でなくても同じサイトのデータならばロボットによって
取得するようにする。
うなURLは一時的にのみ存在している可能性が高い。 http://www.tsb.co.jp/foo/
1246389.html このような場合には、このファイルを再び取得するので
はなく、このファイルへのリンクを張っているファイル
を取得し、そのファイルからリンクを辿った先のファイ
ルを取得する。
ものが将来使われると仮定している。ここでプリフェッ
チする対象は、文字情報、画像、音声、動画などのメデ
ィアを任意に選択できるものとする。例えば、記憶容量
の制約から文字情報のみをプリフェッチするように指定
したが、そのページに動画が入っていた場合には、その
動画は利用者が参照したときにネットワークを介して取
りに行くか、表示されないかのいずれかになる。
ページの取得頻度に関して説明する。ロボットは、同じ
URLのページを定期的に取得しに行くが、その際、対
象ページの更新頻度に応じた頻度で該ページを取り直す
のが好ましい。すなわち、対象ページが統計的に一日に
変更される回数に比例した回数だけ、該ページを取得し
に行く。ただし、指定したデータが消滅したならば、二
度とそのデータを取りに行かないようにする。また、取
得したデータがハイパーリンクとなっている場合には、
リンク先の情報も取りに行くことも可能である。
タについては、利用者がリロード要求を出しても、それ
に応じないようにする。これにより、検索サーバから同
じURLに対する一定回数以上の要求がでないことが保
証される。
検索対象に関して説明する。本実施形態では、ロボット
で収集したデータもプロキシーのキャッシュの中に入れ
ておき、利用者が直接要求したデータと同じ場所で管理
する。
ていない有料データのこともあるし、利用者のプライバ
シーの問題もあるので、検索システムが検索対象とする
データに制限が加えられるようにしても良い。
以上組み合わせたものとする。 (1)ロボットで収集したものに限る、(2)プロキシ
ーとしてデータを保持しているものに限る、(3)同じ
名前もしくはアドレスを持つ情報については最新のもの
だけに限る、(4)CGIなどにより動的もしくは対話
的に生成された情報は除く、(5)指定したサイト群や
URL群に限る。
シュ604に入れるときに、そのデータの取得状況も記
録しておく。すなわち、そのデータが、ロボットで収集
したものか、利用者が直接要求したものか、CGIなど
により動的もしくは対話的に生成されたものか(これは
URLのパス名にCGIやBINという文字を含むかど
うかで判定する)、指定されたサイト群かURL群かな
どの情報も、データと一緒に記録しておく。そして、管
理者がどの種類のデータはキャッシュ内のデータについ
て検索が可能かどうかを指定できるようにしておく。検
索システムでは、この指定に従って、条件の合うものだ
けをデータベース化する。
収集データのアドレスの付け替えについて説明する。本
実施形態では、収集したデータを検索装置のキャッシュ
に格納する際に、該収集データのアドレスもしくはUR
Lを付け変えて格納しておいても良い。すなわち、デー
タの位置がネットワークのある場所から検索装置内のキ
ャッシュに移動したのであるから、ドメイン名を検索装
置のドメイン名に変えるようにする。次に、パス名の先
頭に元のドメイン名を付加する。例えば、以下のように
する。
o.co.jp/bar/index.html 検索装置のドメイン名 www.search.co.
jp 新たなURL http://www.search.
co.jp/www.foo.co.jp/bar/i
ndex.html このようにすることにより、データのミラー化が実現で
きる。
収集データの時刻管理について説明する。本実施形態で
は、収集データに更新時刻データも付与して管理するよ
うにしても良い。通常のプロキシーのように同じアドレ
ス(URL)に対しては、最新のデータのみを保持する
だけでなく、過去のデータも管理して保持する。ここで
の時刻は、そのデータが有効になった時刻、あるいはそ
れに加えて無効になった時刻とを持つ。
更新されたような場合には、サーバーから通知される更
新時刻が変化するので、その時刻が無効になった時刻に
なり、データそのものが消滅した場合には、アクセスに
行ったことにより消滅したことが判った時刻とする。
ために付け替えて管理する。まず、データの位置がネッ
トワークのある場所から検索装置内のキャッシュに移動
したのであるから、ドメイン名を検索装置のドメイン名
に変える。次に、パス名の先頭に元のドメイン名を付加
する。例えば、以下のようにする。
o.co.jp/bar/index.html 検索装置のドメイン名 www.search.co.
jp 新たなURL http://www.search.
co.jp/www.foo.co.jp/bar/i
ndex.html さらに、これに時刻の情報も付与する。例えば、199
6年3月23日16:39から1996年4月30日1
0:23まで有効であったデータならば、以下のように
する。
o.jp/www.foo.co.jp/bar/in
dex.html/199603231639−199
604301023 また、以下のような変形も考えられる。
o.jp/www.foo.co.jp/bar/in
dex.html/1996.3.23.16.39−
1996.4.30.10.23 なお、以上説明したきた本発明の実施の形態における各
構成は、相当する手順あるいは手段をコンピュータに実
行させるためのプログラムを作成し、これをコンピュー
タに実行させることにより実現可能である。
媒体に記録し、コンピュータがこの媒体からプログラム
を読取って実行するように構成することも可能である。
本発明は、上述した実施の形態に限定されるものではな
く、その技術的範囲において種々変形して実施すること
ができる。
じて異なったデータベースにてデータを管理することが
できる。この結果、例えば、そのデータベースが管理す
るデータの更新頻度の高さに応じて計算機等の持つ処理
能力を設定することができ、ネットワーク上に分散され
た膨大なデータを効果的に管理することができる。
ロキシー機能をも内蔵させたので、プロキシーに格納さ
れているデータを検索し提示することができる。この結
果、例えば、極めて更新頻度が高いデータに対しても、
検索サービス・参照サービスを提供することができる。
例を示す図
ート
方法を説明するための図
図
ート
を示す図
ート
を示す図
ム構成の一例を示す図
成例を示す図
の構成例を示す図
ャート
するため図
10,601…検索装置 102,112,122,204,602…ロボット 101,101−1,101−2,111,121,6
05…データベース 131,132…WWWサイト 133…利用者端末 301,301−1,301−2,607…データベー
ス・フロントエンド(DBF) 603…キャッシュ 604…データベース化部 606…WWWフロントエンド 708…ユーザ要求記録部
Claims (11)
- 【請求項1】ネットワーク上でロボットを用いて収集し
たデータをもとにデータベースを作成し、検索要求に応
じてデータベース検索を行なう検索システムにおいて、 データベース化の対象とすべきデータの更新頻度の範囲
がデータベース固有に割り当てられ、データの更新頻度
が該割り当てられた更新頻度の範囲内にあることまたは
データの属するデータ群における平均的な更新頻度が該
割り当てられた更新頻度の範囲内にあることを少なくと
も条件として、該当するデータを収集し所定の構造のデ
ータベースを作成するデータベース作成手段を備えたこ
とを特徴とする検索システム。 - 【請求項2】既にデータベース化したデータの更新頻度
または該データの属するデータ群における平均的な更新
頻度が、そのデータベースに割り当てられた前記更新頻
度の範囲外のものとなった場合には、該データを対象と
し得る他のデータベースにて該データをデータベース化
の対象とさせるための処理を行う処理手段をさらに備え
たことを特徴とする請求項1に記載の検索システム。 - 【請求項3】利用者から与えられた検索要求に応答し
て、互いに同一でない前記更新頻度の範囲が割り当てら
れて作成された複数の前記データベースを連携させて検
索を行い、得られた検索結果を返す検索手段をさらに備
えたことを特徴とする請求項1に記載の検索システム。 - 【請求項4】前記検索要求で更新頻度範囲および更新時
刻範囲の少なくとも一方が指定されている場合には、前
記検索手段は、指定された更新頻度範囲および更新時刻
範囲の少なくとも一方に該当するデータについてのみ検
索を行い、 前記検索要求で検索範囲の指定がない場合には、前記検
索手段は、全データを対象として、または更新頻度範囲
および更新時刻範囲の少なくとも一方のデフォルト値で
制限された範囲を対象として検索を行うことを特徴とす
る請求項1に記載の検索システム。 - 【請求項5】前記検索システムを構成するハードウェア
のうち更新頻度の高いデータに対応する部分ほど、高い
処理能力を持たせることを特徴とする請求項1ないし4
のいずれか1項に記載の検索システム。 - 【請求項6】前記高い処理能力は、より高速な計算機を
用いることおよびより多数の計算機を用いることの少な
くとも一方によって実現することを特徴とする請求項5
に記載の検索システム。 - 【請求項7】ネットワーク上でロボットを用いて収集し
たデータをもとにデータベースを作成し、データベース
検索を行なう検索システムにおいて、 外部からの参照要求に応答して取得されたデータおよび
ロボットを用いて収集されたデータを保持するキャッシ
ュ手段と、 外部から参照要求が与えられた場合に、前記キャッシュ
手段に該当するデータが保持されているならば、前記キ
ャッシュ手段からデータを提供し、前記キャッシュ手段
に該当するデータが保持されていないならば、該データ
を保持する本来のサーバーから該データを取得して提供
するデータ提供手段とを備えたことを特徴とする検索シ
ステム。 - 【請求項8】外部から参照要求されたデータについての
統計処理を行って、今後参照要求されるデータを予測す
る予測手段と、 予測されたデータおよび予め明示的に指定されたデータ
を、ロボットを用いて取得し前記キャッシュ手段にプリ
フェッチするプリフェッチ手段とをさらに備えたことを
特徴とする請求項7に記載の検索システム。 - 【請求項9】前記プリフェッチ手段は、取得対象となる
データの更新頻度に応じた頻度で該データを取り直すこ
とを特徴とする請求項7に記載の検索システム。 - 【請求項10】前記検索要求に応答して行う検索で対象
とするデータの範囲の制約条件として、ロボットで収集
されたデータに限る条件、外部からの参照要求に応答し
て取得されたデータに限る条件、同じ名前またはアドレ
スを持つデータについては最新のものだけに限る条件、
動的または対話的に生成されたデータ以外のものに限る
条件、および指定されたサイト群またはデータ群に限る
条件のうち少なくとも1つを課すことを特徴とする請求
項7に記載の検索システム。 - 【請求項11】前記キャッシュ手段は、取得されたデー
タにその更新時刻情報および収集時刻情報の少なくとも
一方を付加して保持することを特徴とする請求項7に記
載の検索システム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP24504996A JP4025379B2 (ja) | 1996-09-17 | 1996-09-17 | 検索システム |
US08/927,031 US5933832A (en) | 1996-09-17 | 1997-09-10 | Retrieval system for frequently updated data distributed on network |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP24504996A JP4025379B2 (ja) | 1996-09-17 | 1996-09-17 | 検索システム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003285107A Division JP2004070957A (ja) | 2003-08-01 | 2003-08-01 | 検索システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1091638A true JPH1091638A (ja) | 1998-04-10 |
JP4025379B2 JP4025379B2 (ja) | 2007-12-19 |
Family
ID=17127827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP24504996A Expired - Fee Related JP4025379B2 (ja) | 1996-09-17 | 1996-09-17 | 検索システム |
Country Status (2)
Country | Link |
---|---|
US (1) | US5933832A (ja) |
JP (1) | JP4025379B2 (ja) |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11312172A (ja) * | 1998-04-28 | 1999-11-09 | Sharp Corp | 情報処理装置及び方法並びにその制御プログラムを記憶した媒体 |
JPH11328191A (ja) * | 1998-05-13 | 1999-11-30 | Nec Corp | Wwwロボット検索システム |
JPH11338835A (ja) * | 1998-05-29 | 1999-12-10 | Nippon Telegr & Teleph Corp <Ntt> | 負荷分散型情報回答装置 |
WO1999064966A1 (en) * | 1998-06-05 | 1999-12-16 | British Telecommunications Public Limited Company | Distributed database system |
JP2000285135A (ja) * | 1999-03-31 | 2000-10-13 | Toshiba Corp | 情報共有システムの情報保守管理装置および方法 |
JP2000293527A (ja) * | 1999-04-01 | 2000-10-20 | Nec Software Chugoku Ltd | Html文書検索システムへのデータ登録システム、方法および記録媒体 |
JP2000322434A (ja) * | 1999-05-13 | 2000-11-24 | Nec Corp | 情報検索サービスにおける動的更新処理方式 |
JP2001268548A (ja) * | 2000-03-21 | 2001-09-28 | Sony Corp | 情報処理装置および方法、情報処理システム、並びに記録媒体 |
JP2001337708A (ja) * | 2000-05-30 | 2001-12-07 | Nec Corp | 生産設備制御システム及び方法 |
EP1120717A3 (en) * | 2000-01-28 | 2002-09-11 | Microsoft Corporation | Adaptive web crawling using a statistical model |
JP2005190488A (ja) * | 2005-01-11 | 2005-07-14 | Toshiba Corp | 情報共有システムの情報保守管理装置およびその方法 |
JP2005228343A (ja) * | 2004-02-12 | 2005-08-25 | Microsoft Corp | 決定理論的ウェブクローリングおよびウェブページ変更予測 |
WO2006027973A1 (ja) * | 2004-09-07 | 2006-03-16 | Interman Corporation | 情報検索提供装置および情報検索提供システム |
JP2008140060A (ja) * | 2006-11-30 | 2008-06-19 | Brother Ind Ltd | コンテンツ取得管理装置及び、コンテンツ取得管理プログラム |
JP2009110196A (ja) * | 2007-10-29 | 2009-05-21 | Mitsubishi Electric Corp | Webサーバアクセススケジューリングシステム |
JP2009232398A (ja) * | 2008-03-25 | 2009-10-08 | Canon Inc | 放送受信装置及びその制御方法 |
JP2010079641A (ja) * | 2008-09-26 | 2010-04-08 | Toshiba Corp | メタデータ収集装置、ならびにその方法およびプログラム |
JP2010092222A (ja) * | 2008-10-07 | 2010-04-22 | Internatl Business Mach Corp <Ibm> | 更新頻度に基づくキャッシュ機構 |
JP2011053868A (ja) * | 2009-09-01 | 2011-03-17 | Fujitsu Ltd | 索引管理装置の処理方法および索引管理装置 |
JP2011108268A (ja) * | 2005-09-21 | 2011-06-02 | Microsoft Corp | ドキュメント利用統計を用いたランキング関数 |
JP2011523134A (ja) * | 2008-06-05 | 2011-08-04 | インターナショナル・ビジネス・マシーンズ・コーポレーション | アグリゲーションを用いる多数のコンテンツ・プロバイダの増分巡回 |
US8095565B2 (en) | 2005-12-05 | 2012-01-10 | Microsoft Corporation | Metadata driven user interface |
JP2013508873A (ja) * | 2009-10-27 | 2013-03-07 | エグザリード | 情報ストリームの情報を処理する方法およびシステム |
US8843486B2 (en) | 2004-09-27 | 2014-09-23 | Microsoft Corporation | System and method for scoping searches using index keys |
US9348912B2 (en) | 2007-10-18 | 2016-05-24 | Microsoft Technology Licensing, Llc | Document length as a static relevance feature for ranking search results |
US9495462B2 (en) | 2012-01-27 | 2016-11-15 | Microsoft Technology Licensing, Llc | Re-ranking search results |
JP2017526041A (ja) * | 2014-06-26 | 2017-09-07 | グーグル インコーポレイテッド | バッチ最適化レンダリング及びフェッチアーキテクチャ |
Families Citing this family (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3139408B2 (ja) * | 1997-03-17 | 2001-02-26 | カシオ計算機株式会社 | ホームページ更新通知装置 |
US6304904B1 (en) * | 1997-03-27 | 2001-10-16 | Intel Corporation | Method and apparatus for collecting page-level performance statistics from a network device |
JP3521176B2 (ja) * | 1997-09-26 | 2004-04-19 | 株式会社東芝 | 検索方法および検索装置 |
US6272492B1 (en) * | 1997-11-21 | 2001-08-07 | Ibm Corporation | Front-end proxy for transparently increasing web server functionality |
US6282575B1 (en) * | 1997-12-11 | 2001-08-28 | Intel Corporation | Routing mechanism for networks with separate upstream and downstream traffic |
JPH11203321A (ja) * | 1998-01-20 | 1999-07-30 | Fujitsu Ltd | メタ情報管理機能を備えた情報提供装置 |
US7054935B2 (en) * | 1998-02-10 | 2006-05-30 | Savvis Communications Corporation | Internet content delivery network |
US6185598B1 (en) | 1998-02-10 | 2001-02-06 | Digital Island, Inc. | Optimized network resource location |
US7949779B2 (en) | 1998-02-10 | 2011-05-24 | Level 3 Communications, Llc | Controlling subscriber information rates in a content delivery network |
US7171463B1 (en) * | 1998-05-20 | 2007-01-30 | Lucent Technologies Inc. | System and method for denoting and communicating with computer network mobile sites |
US6330561B1 (en) * | 1998-06-26 | 2001-12-11 | At&T Corp. | Method and apparatus for improving end to end performance of a data network |
JP3715444B2 (ja) * | 1998-06-30 | 2005-11-09 | 株式会社東芝 | 構造化文書保存方法及び構造化文書保存装置 |
US6108703A (en) | 1998-07-14 | 2000-08-22 | Massachusetts Institute Of Technology | Global hosting system |
US6275470B1 (en) | 1999-06-18 | 2001-08-14 | Digital Island, Inc. | On-demand overlay routing for computer-based communication networks |
US6633874B1 (en) * | 1999-09-24 | 2003-10-14 | International Business Machines Corporation | Method for improving the performance of a web service by caching the most popular (real-time) information |
US6516337B1 (en) * | 1999-10-14 | 2003-02-04 | Arcessa, Inc. | Sending to a central indexing site meta data or signatures from objects on a computer network |
US6569206B1 (en) * | 1999-10-29 | 2003-05-27 | Verizon Laboratories Inc. | Facilitation of hypervideo by automatic IR techniques in response to user requests |
US6757866B1 (en) | 1999-10-29 | 2004-06-29 | Verizon Laboratories Inc. | Hyper video: information retrieval using text from multimedia |
US6493707B1 (en) | 1999-10-29 | 2002-12-10 | Verizon Laboratories Inc. | Hypervideo: information retrieval using realtime buffers |
US6490580B1 (en) | 1999-10-29 | 2002-12-03 | Verizon Laboratories Inc. | Hypervideo information retrieval usingmultimedia |
US6996775B1 (en) * | 1999-10-29 | 2006-02-07 | Verizon Laboratories Inc. | Hypervideo: information retrieval using time-related multimedia: |
US8543901B1 (en) | 1999-11-01 | 2013-09-24 | Level 3 Communications, Llc | Verification of content stored in a network |
US6622168B1 (en) * | 2000-04-10 | 2003-09-16 | Chutney Technologies, Inc. | Dynamic page generation acceleration using component-level caching |
US7240100B1 (en) * | 2000-04-14 | 2007-07-03 | Akamai Technologies, Inc. | Content delivery network (CDN) content server request handling mechanism with metadata framework support |
US8086697B2 (en) | 2005-06-28 | 2011-12-27 | Claria Innovations, Llc | Techniques for displaying impressions in documents delivered over a computer network |
US7475404B2 (en) | 2000-05-18 | 2009-01-06 | Maquis Techtrix Llc | System and method for implementing click-through for browser executed software including ad proxy and proxy cookie caching |
DE10108564A1 (de) * | 2001-02-22 | 2002-09-12 | Markus Blume | Verfahren zur Suche nach in einem verteilten System aktuell oder früher gespeicherten Daten oder Daten enthaltenden Ressourcen unter Berücksichtigung des Zeitpunkts ihrer Verfügbarkeit |
US7398271B1 (en) * | 2001-04-16 | 2008-07-08 | Yahoo! Inc. | Using network traffic logs for search enhancement |
US20030004998A1 (en) * | 2001-06-29 | 2003-01-02 | Chutney Technologies, Inc. | Proxy-based acceleration of dynamically generated content |
EP1436736B1 (en) | 2001-09-28 | 2017-06-28 | Level 3 CDN International, Inc. | Configurable adaptive global traffic control and management |
US7860964B2 (en) | 2001-09-28 | 2010-12-28 | Level 3 Communications, Llc | Policy-based content delivery network selection |
US7373644B2 (en) | 2001-10-02 | 2008-05-13 | Level 3 Communications, Llc | Automated server replication |
US20030079027A1 (en) | 2001-10-18 | 2003-04-24 | Michael Slocombe | Content request routing and load balancing for content distribution networks |
US9167036B2 (en) | 2002-02-14 | 2015-10-20 | Level 3 Communications, Llc | Managed object replication and delivery |
US7120648B2 (en) * | 2002-02-26 | 2006-10-10 | International Business Machines Corporation | System and method for predicting execution time of a database utility command |
US7603341B2 (en) | 2002-11-05 | 2009-10-13 | Claria Corporation | Updating the content of a presentation vehicle in a computer network |
JP4579501B2 (ja) * | 2003-03-27 | 2010-11-10 | 富士通株式会社 | アプリケーションサーバおよびアプリケーションプログラム |
WO2005081112A1 (ja) * | 2004-02-10 | 2005-09-01 | Kyouji Iwasaki | 情報処理装置、並びにファイル管理方法及びファイル管理プログラム |
US8255413B2 (en) | 2004-08-19 | 2012-08-28 | Carhamm Ltd., Llc | Method and apparatus for responding to request for information-personalization |
US8078602B2 (en) | 2004-12-17 | 2011-12-13 | Claria Innovations, Llc | Search engine for a computer network |
US7693863B2 (en) | 2004-12-20 | 2010-04-06 | Claria Corporation | Method and device for publishing cross-network user behavioral data |
US8073866B2 (en) | 2005-03-17 | 2011-12-06 | Claria Innovations, Llc | Method for providing content to an internet user based on the user's demonstrated content preferences |
US8150943B2 (en) * | 2006-03-10 | 2012-04-03 | Staples The Office Superstore, Llc | Methods and apparatus for dynamically generating web pages |
US7689666B2 (en) * | 2006-08-31 | 2010-03-30 | Richard Commons | System and method for restricting internet access of a computer |
US8290986B2 (en) * | 2007-06-27 | 2012-10-16 | Yahoo! Inc. | Determining quality measures for web objects based on searcher behavior |
US9762692B2 (en) | 2008-04-04 | 2017-09-12 | Level 3 Communications, Llc | Handling long-tail content in a content delivery network (CDN) |
CN102047244B (zh) | 2008-04-04 | 2013-02-27 | 第三雷沃通讯有限责任公司 | 在内容分发网络(cdn)中处理长尾内容 |
US10924573B2 (en) | 2008-04-04 | 2021-02-16 | Level 3 Communications, Llc | Handling long-tail content in a content delivery network (CDN) |
US8244608B2 (en) * | 2008-07-28 | 2012-08-14 | Autodesk, Inc. | Takeoff list palette for guiding semi-automatic quantity takeoff from computer aided design drawings |
EP3161610B1 (en) | 2014-06-26 | 2020-08-05 | Google LLC | Optimized browser rendering process |
EP3161662B1 (en) | 2014-06-26 | 2024-01-31 | Google LLC | Optimized browser render process |
US11088911B2 (en) | 2019-07-08 | 2021-08-10 | Trane International Inc. | Probability-based network data updates |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59223884A (ja) * | 1983-06-01 | 1984-12-15 | Mitsubishi Electric Corp | 大容量情報蓄積検索装置 |
JPH04237344A (ja) * | 1991-01-22 | 1992-08-25 | Nec Corp | データベース管理システムにおけるページ管理方式 |
JPH06214856A (ja) * | 1993-01-20 | 1994-08-05 | Hitachi Ltd | データバックアップ方式 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5758257A (en) * | 1994-11-29 | 1998-05-26 | Herz; Frederick | System and method for scheduling broadcast of and access to video programs and other data using customer profiles |
US5855020A (en) * | 1996-02-21 | 1998-12-29 | Infoseek Corporation | Web scan process |
US5727156A (en) * | 1996-04-10 | 1998-03-10 | Hotoffice Technologies, Inc. | Internet-based automatic publishing system |
US5812930A (en) * | 1996-07-10 | 1998-09-22 | International Business Machines Corp. | Information handling systems with broadband and narrowband communication channels between repository and display systems |
US5765150A (en) * | 1996-08-09 | 1998-06-09 | Digital Equipment Corporation | Method for statistically projecting the ranking of information |
US5797008A (en) * | 1996-08-09 | 1998-08-18 | Digital Equipment Corporation | Memory storing an integrated index of database records |
-
1996
- 1996-09-17 JP JP24504996A patent/JP4025379B2/ja not_active Expired - Fee Related
-
1997
- 1997-09-10 US US08/927,031 patent/US5933832A/en not_active Expired - Lifetime
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59223884A (ja) * | 1983-06-01 | 1984-12-15 | Mitsubishi Electric Corp | 大容量情報蓄積検索装置 |
JPH04237344A (ja) * | 1991-01-22 | 1992-08-25 | Nec Corp | データベース管理システムにおけるページ管理方式 |
JPH06214856A (ja) * | 1993-01-20 | 1994-08-05 | Hitachi Ltd | データバックアップ方式 |
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11312172A (ja) * | 1998-04-28 | 1999-11-09 | Sharp Corp | 情報処理装置及び方法並びにその制御プログラムを記憶した媒体 |
JPH11328191A (ja) * | 1998-05-13 | 1999-11-30 | Nec Corp | Wwwロボット検索システム |
JPH11338835A (ja) * | 1998-05-29 | 1999-12-10 | Nippon Telegr & Teleph Corp <Ntt> | 負荷分散型情報回答装置 |
WO1999064966A1 (en) * | 1998-06-05 | 1999-12-16 | British Telecommunications Public Limited Company | Distributed database system |
JP2000285135A (ja) * | 1999-03-31 | 2000-10-13 | Toshiba Corp | 情報共有システムの情報保守管理装置および方法 |
JP2000293527A (ja) * | 1999-04-01 | 2000-10-20 | Nec Software Chugoku Ltd | Html文書検索システムへのデータ登録システム、方法および記録媒体 |
JP2000322434A (ja) * | 1999-05-13 | 2000-11-24 | Nec Corp | 情報検索サービスにおける動的更新処理方式 |
EP1120717A3 (en) * | 2000-01-28 | 2002-09-11 | Microsoft Corporation | Adaptive web crawling using a statistical model |
US7328401B2 (en) | 2000-01-28 | 2008-02-05 | Microsoft Corporation | Adaptive web crawling using a statistical model |
JP2001268548A (ja) * | 2000-03-21 | 2001-09-28 | Sony Corp | 情報処理装置および方法、情報処理システム、並びに記録媒体 |
US7984167B2 (en) | 2000-03-21 | 2011-07-19 | Sony Corporation | Apparatus, system and method for secure information dissemination |
US8321574B2 (en) | 2000-03-21 | 2012-11-27 | Sony Corporation | Apparatus, system and method for secure information dissemination |
JP4529056B2 (ja) * | 2000-03-21 | 2010-08-25 | ソニー株式会社 | 情報処理装置および方法、記録媒体、並びに情報処理システム |
JP2001337708A (ja) * | 2000-05-30 | 2001-12-07 | Nec Corp | 生産設備制御システム及び方法 |
JP2005228343A (ja) * | 2004-02-12 | 2005-08-25 | Microsoft Corp | 決定理論的ウェブクローリングおよびウェブページ変更予測 |
WO2006027973A1 (ja) * | 2004-09-07 | 2006-03-16 | Interman Corporation | 情報検索提供装置および情報検索提供システム |
US8341135B2 (en) | 2004-09-07 | 2012-12-25 | Interman Corporation | Information search provision apparatus and information search provision system |
US8843486B2 (en) | 2004-09-27 | 2014-09-23 | Microsoft Corporation | System and method for scoping searches using index keys |
JP2005190488A (ja) * | 2005-01-11 | 2005-07-14 | Toshiba Corp | 情報共有システムの情報保守管理装置およびその方法 |
JP2011108268A (ja) * | 2005-09-21 | 2011-06-02 | Microsoft Corp | ドキュメント利用統計を用いたランキング関数 |
US8095565B2 (en) | 2005-12-05 | 2012-01-10 | Microsoft Corporation | Metadata driven user interface |
JP2008140060A (ja) * | 2006-11-30 | 2008-06-19 | Brother Ind Ltd | コンテンツ取得管理装置及び、コンテンツ取得管理プログラム |
US9348912B2 (en) | 2007-10-18 | 2016-05-24 | Microsoft Technology Licensing, Llc | Document length as a static relevance feature for ranking search results |
JP2009110196A (ja) * | 2007-10-29 | 2009-05-21 | Mitsubishi Electric Corp | Webサーバアクセススケジューリングシステム |
JP2009232398A (ja) * | 2008-03-25 | 2009-10-08 | Canon Inc | 放送受信装置及びその制御方法 |
JP4590464B2 (ja) * | 2008-03-25 | 2010-12-01 | キヤノン株式会社 | 放送受信装置及びその制御方法 |
JP2011523134A (ja) * | 2008-06-05 | 2011-08-04 | インターナショナル・ビジネス・マシーンズ・コーポレーション | アグリゲーションを用いる多数のコンテンツ・プロバイダの増分巡回 |
US9582578B2 (en) | 2008-06-05 | 2017-02-28 | International Business Machines Corporation | Incremental crawling of multiple content providers using aggregation |
JP2010079641A (ja) * | 2008-09-26 | 2010-04-08 | Toshiba Corp | メタデータ収集装置、ならびにその方法およびプログラム |
JP2010092222A (ja) * | 2008-10-07 | 2010-04-22 | Internatl Business Mach Corp <Ibm> | 更新頻度に基づくキャッシュ機構 |
JP2011053868A (ja) * | 2009-09-01 | 2011-03-17 | Fujitsu Ltd | 索引管理装置の処理方法および索引管理装置 |
JP2013508873A (ja) * | 2009-10-27 | 2013-03-07 | エグザリード | 情報ストリームの情報を処理する方法およびシステム |
US9122769B2 (en) | 2009-10-27 | 2015-09-01 | Dassault Systemes | Method and system for processing information of a stream of information |
US9495462B2 (en) | 2012-01-27 | 2016-11-15 | Microsoft Technology Licensing, Llc | Re-ranking search results |
JP2017526041A (ja) * | 2014-06-26 | 2017-09-07 | グーグル インコーポレイテッド | バッチ最適化レンダリング及びフェッチアーキテクチャ |
Also Published As
Publication number | Publication date |
---|---|
JP4025379B2 (ja) | 2007-12-19 |
US5933832A (en) | 1999-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4025379B2 (ja) | 検索システム | |
US6718365B1 (en) | Method, system, and program for ordering search results using an importance weighting | |
AU2001290363B2 (en) | A method for searching and analysing information in data networks | |
US8509266B2 (en) | Using network traffic logs for search engine index updates | |
US7627568B2 (en) | Method and system for updating a search engine database based on popularity of links | |
US5802292A (en) | Method for predictive prefetching of information over a communications network | |
US5933827A (en) | System for identifying new web pages of interest to a user | |
KR100377715B1 (ko) | 처리 시스템 | |
JP5186542B2 (ja) | 個人化検索方法および個人化検索システム | |
US9160709B2 (en) | System and method for managing page variations in a page delivery cache | |
US20050086206A1 (en) | System, Method, and service for collaborative focused crawling of documents on a network | |
US20040064650A1 (en) | Method, system, and program for maintaining data in distributed caches | |
JP2007526537A (ja) | 持続的にイベントデータを記憶および提供するためのサーバアーキテクチャおよび方法 | |
JPH10512699A (ja) | コンピュータのネットワークからワールドワイドウェッブ上のページを捜し出したり、ドキュメントを捜し出したりするためのシステム及び方法 | |
KR20060116042A (ko) | 개인화 검색 방법 및 검색 서버 | |
JP2001101061A (ja) | キャッシュサーバ | |
JP2000508450A (ja) | インターネットから検索される情報を知識ベース表現を使用して編成する方法 | |
WO2001075668A2 (en) | Search systems | |
JP2004070957A (ja) | 検索システム | |
JP3506892B2 (ja) | グループ適応型情報検索装置 | |
Brunie et al. | Semantic collaborative web caching | |
Rajaram et al. | Web caching in Semantic Web based multiple search engines | |
CA2537269C (en) | Method, device and software for querying and presenting search results | |
JPH11265402A (ja) | データ処理システム及びデータ処理システムを制御するプログラムを記録した記録媒体 | |
JP2004348550A (ja) | ブラウジング履歴管理方法および装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20040113 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040315 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20040405 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20040423 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20041203 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070827 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071005 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101012 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111012 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |