JP2001101061A - キャッシュサーバ - Google Patents

キャッシュサーバ

Info

Publication number
JP2001101061A
JP2001101061A JP27329199A JP27329199A JP2001101061A JP 2001101061 A JP2001101061 A JP 2001101061A JP 27329199 A JP27329199 A JP 27329199A JP 27329199 A JP27329199 A JP 27329199A JP 2001101061 A JP2001101061 A JP 2001101061A
Authority
JP
Japan
Prior art keywords
document
cache server
sub
information
client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP27329199A
Other languages
English (en)
Inventor
Shigeki Muramatsu
茂樹 村松
Kazunori Matsumoto
一則 松本
Kazuo Hashimoto
和夫 橋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
DDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DDI Corp filed Critical DDI Corp
Priority to JP27329199A priority Critical patent/JP2001101061A/ja
Publication of JP2001101061A publication Critical patent/JP2001101061A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 クライアントが今後要求するであろうと予想
される情報をプリフェッチして蓄積することによりネッ
トワーク転送の無駄を省き、応答特性を向上し得るキャ
ッシュサーバを提供する。 【解決手段】 ユーザプロファイル情報からクライアン
トが次に要求するであろう文書および該文書に近い文書
を文書の類似性を利用して予測し、この予測した文書を
WWW上からプリフェッチして蓄積し、クライアントの
要求文書が蓄積文書内にある場合には、この文書を読み
出してクライアントに迅速に提示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、WWW上において
クライアントから要求された情報のURLを受け取り、
該URLで指定される情報を該当するHTTPサーバか
ら取得し、この取得した情報をクライアントに返信する
とともに、次回の要求に高速に対処するために蓄積して
おくキャッシュサーバに関する。
【0002】
【従来の技術】WWW上の情報は、URLによって指定
されたページ文書がHTTPサーバから取り寄せられ、
例えばクライアントのブラウザで表示されるが、この場
合のクライアントとサーバとの間の詳細な動作は、図4
に示すように、クライアント1が要求したい情報のUR
Lのホスト部に対応するIPアドレスをDNSサーバ3
に渡して問い合わせし、DNSサーバ3がこの問い合わ
せに応答して、IPアドレスをクライアント1に返信す
る。クライアント1は、このIPアドレスを受け取る
と、IPアドレスのHTTPサーバ5に接続し、URL
で指定されたページを要求して取り寄せるという手順で
行われる。
【0003】近年、WWW上のデータ転送量は従来のサ
ービスに比較すると、かなり多くなり、ネットワークが
混雑する原因になっている。特に、多くのユーザが頻繁
に参照するページでは1つの回線上に同じデータが何度
も流れるわけであるため、ネットワーク資源を浪費して
いるとも言える。
【0004】キャッシュサーバは、上述したように頻繁
に参照されるデータのコピーを予め蓄積しておき、次に
クライアントが同じデータを要求した場合にWWW上か
ら取り寄せることなく、予めコピーしておいたデータを
迅速にクライアントに返送するものであり、これにより
1つの回線上を同じデータが何度も流れることを防止
し、ネットワーク転送の無駄を省き、クライアントに対
してもレスポンスの改善をもたらすことができる。
【0005】
【発明が解決しようとする課題】上述したように、従来
のキャッシュサーバは、クライアントから一度要求があ
り、この要求に従ってWWW上から取り寄せたページの
みを予め蓄積しておくため、前に要求のあったページに
は有効であるが、前に要求のないページには効果がない
という問題がある。
【0006】そこで、キャッシュサーバとして、頻繁に
要求されるページのコピーを予め蓄積しておくだけでな
く、今後クライアントによってアクセスされると予想さ
れるページを予め蓄積し得るようなキャッシュサーバが
要望されている。
【0007】本発明は、上記に鑑みてなされたもので、
その目的とするところは、クライアントが今後要求する
であろうと予想される情報をプリフェッチして蓄積する
ことによりネットワーク転送の無駄を省き、応答特性を
向上し得るキャッシュサーバを提供することにある。
【0008】
【課題を解決するための手段】上記目的を達成するた
め、請求項1記載の本発明は、WWW上においてクライ
アントから要求された情報のURLを受け取り、該UR
Lで指定される情報をWWW上から取得し、この取得し
た情報をクライアントに返信するとともに、次回の要求
に高速に対処するために蓄積しておくキャッシュサーバ
であって、クライアント側におけるユーザの好み、興
味、技術分野を含む情報に関する情報をプロファイル情
報として作成するプロファイル情報作成手段と、該プロ
ファイル情報からクライアントが次に要求するであろう
文書および該文書に近い文書を文書の類似性を利用して
予測する予測手段と、この予測した文書をWWW上から
プリフェッチして蓄積するプリフェッチ手段と、クライ
アントから要求された文書が前記蓄積された文書の中に
存在する場合には、この文書を読み出してクライアント
に提示する提示手段とを有することを要旨とする。
【0009】請求項1記載の本発明にあっては、ユーザ
プロファイル情報からクライアントが次に要求するであ
ろう文書および該文書に近い文書を文書の類似性を利用
して予測し、この予測した文書をWWW上からプリフェ
ッチして蓄積し、クライアントから要求された文書が前
記蓄積された文書の中に存在する場合には、この文書を
読み出してクライアントに提示するため、ユーザが前に
要求したことがない情報でもユーザプロファイル情報か
ら予測してプリフェッチすることにより、ユーザからの
要求に対して待ち時間なく、すなわちネットワークを介
することなく、迅速に応答することができるとともに、
ネットワーク転送の無駄を排除することができ、更にプ
リフェッチ情報の予測に文書の類似性による分類手法を
利用することによりプリフェッチ精度を向上することが
できる。
【0010】また、請求項2記載の本発明は、請求項1
記載の発明において、前記プロファイル情報作成手段
が、クライアントがアクセスした文書に出現する単語の
頻度情報をプロファイル情報として作成する頻度情報作
成手段を有することを要旨とする。
【0011】更に、請求項3記載の本発明は、WWW上
においてクライアントから要求された情報のURLを受
け取り、該URLで指定される情報をWWW上から取得
し、この取得した情報をクライアントに返信するととも
に、次回の要求に高速に対処するために蓄積しておくキ
ャッシュサーバであって、各クライアントがアクセスし
た文書に出現する単語の頻度情報を各クライアントのプ
ロファイル情報として作成するプロファイル情報作成手
段と、各クライアントのプロファイル情報をクラスタと
し、このクラスタのうち、プロファイル情報の近いクラ
スタ同士をまとめて、新たなクラスタを生成し、この生
成された新たなクラスタのうち、更にプロファイル情報
の近いクラスタ同士をまとめて、更に新たなクラスタを
生成するという処理を繰り返して生成される複数のクラ
スタにおいてまとめられる前のクラスタからまとめられ
た後のクラスタ間を枝で連結してプロファイル情報のク
ラスタツリーを生成するクラスタツリー生成手段と、前
記クラスタツリーに対応して複数のサブキャッシュサー
バを配置して、サブキャッシュサーバツリーを生成する
サブキャッシュサーバツリー生成手段と、前記サブキャ
ッシュサーバツリーを構成する各サブキャッシュサーバ
に対して、対応するクラスタツリーの各クラスタのプロ
ファイル情報である単語の頻度情報を各サブキャッシュ
サーバの特性とし、該特性を示す単語の頻度情報から各
クラスタに該当する各クライアントが次に要求するであ
ろう文書および該文書に近い文書を文書の類似性を利用
して予測し、この予測した文書をWWW上からプリフェ
ッチし、前記該当する各サブキャッシュサーバに対応し
て蓄積するために、サブキャッシュサーバツリーの最下
位のキャッシュサーバにあっては、クライアントからの
文書の要求に対して該クライアントのプロファイル情報
のクラスタに対応する最下位のサブキャッシュサーバが
応答し、該サブキャッシュサーバは前記要求文書におけ
る単語の頻度情報を作成するとともに、該文書のそれぞ
れのリンク先の文書における単語の頻度情報を取得し、
この取得した頻度情報と前記サブキャッシュサーバの特
性を示す単語の頻度情報を比較し、リンク先の文書と前
記サブキャッシュサーバがプリフェッチを行う文書との
距離を測り、この距離が近く、文書が類似していて、か
つ既に蓄積していない場合には該文書をプリフェッチ
し、前記距離が遠く、文書が類似していない場合には、
隣接するサブキャッシュサーバに伝達するように制御す
る最下位処理制御手段と、サブキャッシュサーバツリー
の最下位でないキャッシュサーバにあっては、隣接する
キャッシュサーバから伝達される文書における単語の頻
度情報とキャッシュサーバの特性を示す単語の頻度情報
とを比較し、各リンク先の文書とサブキャッシュサーバ
がプリフェッチを行う文書との距離を測り、この距離が
近く、文書が類似していて、かつ既に蓄積していない場
合には該文書をプリフェッチし、前記距離が遠く、文書
が類似していない場合には、隣接する別のサブキャッシ
ュサーバに伝達する非最下位処理制御手段とを有するこ
とを要旨とする。
【0012】請求項3記載の本発明にあっては、各クラ
イアントのプロファイル情報をクラスタとし、このクラ
スタに対してクラスタリングを繰り返して、プロファイ
ル情報のクラスタツリーを生成し、このクラスタツリー
に対応して複数のサブキャッシュサーバを配置して、サ
ブキャッシュサーバツリーを生成し、サブキャッシュサ
ーバツリーを構成する各サブキャッシュサーバに対し
て、対応するクラスタツリーの各クラスタのプロファイ
ル情報である単語の頻度情報を各サブキャッシュサーバ
の特性とし、該特性を示す単語の頻度情報から各クラス
タに該当する各クライアントが次に要求するであろう文
書および該文書に近い文書を文書の類似性を利用して予
測し、この予測した文書をWWW上からプリフェッチ
し、該当する各サブキャッシュサーバに対応して蓄積す
るために、最下位のキャッシュサーバにあっては、クラ
イアントからの文書の要求に対して該クライアントのプ
ロファイル情報のクラスタに対応する最下位のサブキャ
ッシュサーバが応答し、該サブキャッシュサーバは要求
文書における単語の頻度情報を作成するとともに、該文
書のそれぞれのリンク先の文書における単語の頻度情報
を取得し、この頻度情報とサブキャッシュサーバの特性
を示す単語の頻度情報を比較し、リンク先の文書とサブ
キャッシュサーバがプリフェッチを行う文書との距離を
測り、この距離が近く、文書が類似していて、かつ既に
蓄積していない場合には該文書をプリフェッチし、前記
距離が遠く、文書が類似していない場合には、隣接する
サブキャッシュサーバに伝達し、最下位でないキャッシ
ュサーバにあっては、隣接するキャッシュサーバから伝
達される文書における単語の頻度情報とキャッシュサー
バの特性を示す単語の頻度情報とを比較し、各リンク先
の文書とサブキャッシュサーバがプリフェッチを行う文
書との距離を測り、この距離が近く、文書が類似してい
て、かつ既に蓄積していない場合には該文書をプリフェ
ッチし、前記距離が遠く、文書が類似していない場合に
は、隣接する別のサブキャッシュサーバに伝達するた
め、複数のサブキャッシュサーバがサブキャッシュサー
バツリーとして階層化されることによりプリフェッチの
精度の向上と効率的な応答を図ることができる。
【0013】
【発明の実施の形態】以下、図面を用いて本発明の実施
の形態を説明する。図1は、本発明の一実施形態に係る
キャッシュサーバを備えているプロキシサーバを含むシ
ステム構成を示す図である。図1に示すプロキシサーバ
7は、クライアント1とDNSサーバ3およびHTTP
サーバ5との間の情報の授受を代理しキャッシュする機
能を有すべく設けられたサーバであり、クライアント1
はプロキシサーバ7にURLをそのまま渡して情報を要
求し、プロキシサーバ7はこのURLのホスト部に対応
するIPアドレスをDNSサーバ3に問い合わせし、得
られたIPアドレスのHTTPサーバ5に接続し、UR
Lで指定された情報をHTTPサーバ5に要求して取得
し、この取得した情報をプロキシサーバ7自身の中にも
コピーして蓄積しておくとともに、クライアント1に渡
す。クライアント1はこのページを受け取って表示す
る。
【0014】次に、まず最初として、本実施形態のキャ
ッシュサーバの基本的考え方について説明する。図1に
示すプロキシサーバ7に設けられた本実施形態のキャッ
シュサーバは、プロキシサーバ7における上述したキャ
ッシュ機能に加えて、クライアントが今後要求するであ
ろう情報を正確に予測してプリフェッチし、予め蓄積し
ておくことにより、クライアントの要求に対して迅速に
応答してクライアントの待ち時間を短縮するとともに、
トラヒックの増加を抑制しようとする機能を有するもの
であるが、クライアントが要求する情報を予測するのに
文書分類の手法を利用し、アクセスする情報が似通った
もの同士をグループ化し、これによりプリフェッチの効
果を高め、より効率のよいアクセスを可能とするもので
ある。また、本実施形態では、キャッシュサーバは1台
のみでなく、ツリー状に階層化した複数のキャッシュサ
ーバを用い、これによりキャッシュ内容の検索を効率化
し、応答速度の向上、効率化を図っているものである。
【0015】また、本実施形態のキャッシュサーバで
は、クライアントが要求するであろう情報を正確に予測
するために、ユーザの好み、興味、技術分野などの情
報、すなわちプロファイル情報を利用している。そし
て、情報のアクセスを考えた場合、クライアントが過去
に要求したアクセス履歴からユーザプロファイル情報を
生成し、このユーザプロファイル情報として、クライア
ントが過去に要求したアクセス情報である文書に出現す
る単語の頻度情報を表にした単語の頻度表を利用してい
る。すなわち、単語の頻度表は、例えば単語Aはxx
回、単語Bはyy回、…、単語Hはzz回出現したとい
う単語の頻度情報を表にしたものである。そして、プリ
フェッチを行う情報を決定するのに、ユーザの過去の履
歴から生成したプロファイル情報である単語の頻度表を
利用している。
【0016】ユーザプロファイル情報の生成では、初期
状態においてはユーザプロファイル情報は空であり、こ
こでユーザがアクセスした文書を取得し、この取得した
文書に出現する単語の頻度を抽出して単語の頻度表を作
成する。この頻度表を用いて、単語頻度表の形式のユー
ザプロファイル情報を更新し、新しいユーザプロファイ
ル情報を作成するという処理を繰り返し行うことによ
り、ユーザの好みなどに正確に適合したユーザプロファ
イル情報を生成することができる。
【0017】更に、キャッシュサーバは、一人のユーザ
によって利用されるのでなく、複数のユーザによって利
用されることになるが、このような場合に複数のユーザ
のプロファイル情報を各ユーザ毎に、すなわち各クライ
アント毎に別々に管理してプリフェッチすることはサー
バへの負担、容量割り当ての問題などで好ましくないの
で、複数のユーザを各個人のプロファイル情報に基づい
てまとめて、ユーザグループを作成する。そして、複数
のユーザをまとめた各ユーザグループでプロファイル情
報を管理し、このグループ単位のプロファイル情報に基
づきプリフェッチする情報を決定する。また、ユーザグ
ループのプロファイル情報は、ユーザグループの過去の
履歴から生成した単語の頻度表の形式で蓄積するが、こ
れによりユーザグループ化を文書の類似性判定と同一の
枠組みで取り扱うことが可能になる。
【0018】また、ユーザグループの過去の履歴情報か
らユーザグループのプロファイル情報を生成し、このプ
ロファイル情報に基づきユーザグループが今後要求する
であろう情報を予測した場合に、この予測した情報を膨
大なWWW上の情報から効率的に見付け出してプリフェ
ッチするために、文書の分類、すなわち文書の類似性に
よる分類手法を利用する。また、類似文書の分類を予め
行い、その分類を利用して動作するように構成すること
により、新しい文書が加わったり、文書が削除されるこ
とによる文書集合の変更にも容易に対応し得るようにし
ている。
【0019】更に、本実施形態のプリフェッチを行うキ
ャッシュサーバは、単体で動作するだけでなく、複数の
サブキャッシュサーバを用い、これらの複数のサブキャ
ッシュサーバを協調動作させ、これにより応答速度の向
上を図っている。
【0020】この複数のサブキャッシュサーバは、ツリ
ー状に、すなわちサブキャッシュサーバツリーとして階
層化され、最下位の各サブキャッシュサーバはユーザの
プロファイル情報と文書分類の手法に基づきどのような
文書をプリフェッチするのかを決定している。
【0021】具体的には、サブキャッシュサーバツリー
の構成、すなわちサブキャッシュサーバツリーにおける
サブキャッシュサーバの配置は、まずユーザのプロファ
イル情報のクラスタリングを行って、ユーザのプロファ
イル情報をクラスタ化したプロファイル情報のクラスタ
ツリーを作成し、このクラスタツリーに対応してサブキ
ャッシュサーバツリーを作成する。
【0022】ユーザプロファイル情報のクラスタツリー
の作成においては、初期状態では、個々のユーザプロフ
ァイル情報がクラスタとなる。そして、この個々のプロ
ファイル情報からなる個々のクラスタの集合のうち、最
も類似して近いペアのクラスタを含む最も類似して近い
クラスタ同士をまとめて、新たな1つのクラスタを生成
するという処理をクラスタ数が1つになるまで繰り返し
行う。
【0023】具体的には、例えば、8人のユーザのそれ
ぞれのプロファイル情報としてA,B,C,D,E,
F,G,Hの8つのプロファイル情報が図2(a)に示
すように初期状態0においてあるとすると、この8つの
プロファイル情報は、最も類似して近いもの同士をまと
め、まず状態1に示すようにAとBをクラスタリングし
て、1つのクラスタABを生成する。また、状態2に示
すようにCとDをクラスタリングして、別の1つのクラ
スタCDを生成する。同様に、状態3と4でEとFから
EFを生成し、GとHからGHを生成すると、8つのク
ラスタA,B,C,D,E,F,G,Hは4つのクラス
タAB,CD,EF,GHにクラスタリングされる。こ
の4つのクラスタから更に状態5のようにクラスタAB
とCDをクラスタリングして1つのクラスタABCDを
生成し、また状態6のようにクラスタEFとGHをクラ
スタリングして別の1つのクラスタEFGHを生成し、
最後に状態7のように両クラスタABCDとEFGHを
クラスタリングして、1つのクラスタABCDEFGH
が生成される。
【0024】上述したように、最終的にクラスタ数が1
つになるまでクラスタリングを行った後、ユーザプロフ
ァイル情報のクラスタツリーを作成するには、まず上述
したクラスタリングの履歴のうち最も新しい履歴を適用
することによりまとめられたクラスタ、すなわちクラス
タABCDEFGHから枝を伸ばし、このまとめられる
前のクラスタABCDおよびEFGHをその先の葉とす
る新たなツリーを作成するとともに、クラスタリング履
歴のうち最も新しいもの、すなわち図2(a)の状態7
の履歴を削除する。また、このように最も新しい履歴が
削除されたクラスタリング履歴において同様に最も新し
い履歴の適用でまとめられたクラスタ、すなわちクラス
タABCDとEFGHから更に枝をそれぞれ伸ばし、こ
のクラスタがまとめられる前のクラスタAB,CD,E
F,GHをその先の葉とする新たなツリーを作成すると
いう処理をクラスタツリーのノードの数がサブキャッシ
ュサーバツリーを構成するサブキャッシュサーバの数に
なるまで同様に繰り返し行うことにより、図2(b)に
示したようなユーザプロファイル情報のクラスタツリー
が作成される。
【0025】図2(b)に示すように、ユーザプロファ
イル情報のクラスタツリーが作成されると、このクラス
タツリーに対応してサブキャッシュサーバのツリーを図
3(a)または図3(b)に示すように作成する。図3
(a)に示すサブキャッシュサーバツリーは、図2
(b)のクラスタツリーに1対1に対応してサブキャッ
シュサーバC1〜C15を設けた例であるが、サブキャ
ッシュサーバツリーとクラスタツリーの対応では、サブ
キャッシュサーバとクラスタと必ずしも1対1で対応す
る必要はなく、図3(b)に示すように、1対nで対応
してもよいものである。図3(b)に示すサブキャッシ
ュサーバツリーにおけるサブキャッシュサーバは、クラ
スタツリーのクラスタABCDEFGH,ABCD,E
FGHにそれぞれ対応してサブキャッシュサーバC1,
C2,C3を設けている。そして、クラスタABCDに
対して設けられたサブキャッシュサーバC2は、このク
ラスタABCDの配下に位置するユーザプロファイル情
報A,B,C,Dを有する4人のユーザに対して設けら
れていることになり、例えばプロファイル情報Aのユー
ザは、クラスタABCDの位置のサブキャッシュサーバ
C2を利用してアクセスすることになる。また、同様
に、クラスタEFGHに対して設けられたサブキャッシ
ュサーバC3は、プロファイル情報E,F,G,Hの4
人のユーザに対して設けられ、これらのユーザはサブキ
ャッシュサーバC3を利用してアクセスすることにな
る。
【0026】なお、上記説明では、サブキャッシュサー
バツリーとして図3に示すような2つのサブキャッシュ
サーバツリーを例としてあげて説明しているが、サブキ
ャッシュサーバツリーは、このような構成のものに限る
ものでなく、例えば1段目の1つのサブキャッシュサー
バに対してその下位の2段目のサブキャッシュサーバが
4つあるようなクラスタツリーと対応していないような
サブキャッシュサーバツリー、すなわち上位の段の1つ
のサブキャッシュサーバに対してその下位の段に3つ以
上のサブキャッシュサーバが連結するようなサブキャッ
シュサーバツリーであって、上位の段の1つのサブキャ
ッシュサーバに対応するクラスタに対して、その下位の
段のクラスタの位置ではなく、さらに下位の任意のクラ
スタの位置にサブキャッシュサーバを設けた構成のサブ
キャッシュサーバツリーでもよいし、または左右非対称
な構成のサブキャッシュサーバツリーでもよいものであ
る。
【0027】上述したように、サブキャッシュサーバツ
リーが作成されると、このサブキャッシュサーバツリー
の各サブキャッシュサーバは、クラスタツリーの対応す
るクラスタをそのサブキャッシュサーバの特性とし、こ
の特性を示す単語の頻度表に近い文書を蓄積する文書と
する。
【0028】この頻度表を蓄積管理するために本実施形
態のキャッシュサーバでは、サブキャッシュサーバ群、
すなわち複数のサブキャッシュサーバの全体に対して1
つの頻度データベースを備えており、この頻度データベ
ースには各サブキャッシュサーバ毎に各サブキャッシュ
サーバの特性を示す頻度表(ユーザプロファイル情報の
クラスタリングによって生成)が設けられている。
【0029】この頻度表の生成は、ロボットを用いてW
WW上の文書を収集し、この収集したそれぞれの文書に
対して頻度表を作成し、頻度データベースに蓄積する。
なお、このロボットによる文書の収集は、スタートポイ
ントのURLから開始し、該URLからリンクを辿って
巡ることができるすべての文書を収集し、スタートポイ
ントのURLから所定のリンク回数巡ったときに収集を
終了するかまたは巡れなくなった場合に収集を終了する
ようにしている。
【0030】上述したように作成されたサブキャッシュ
サーバツリーにおいて、サブキャッシュサーバのインタ
ーネットへのアクセスは、サブキャッシュサーバツリー
の最上位のサブキャッシュサーバが直接相手のHTTP
サーバにアクセスし、最上位でないサブキャッシュサー
バは、上位のサブキャッシュサーバに依頼し、この上位
のサブキャッシュサーバを経由してHTTPサーバにア
クセスする。
【0031】また、各サブキャッシュサーバは、ユーザ
からの要求に迅速に対応し得るように多数の文書を蓄積
しているが、この各サブキャッシュサーバによる文書の
蓄積においては、各サブキャッシュサーバは、クライア
ントまたは下位のサブキャッシュサーバから文書を獲得
する依頼を受けるが、この依頼された文書が既に蓄積さ
れている場合には該文書の蓄積を終了する。しかしなが
ら、蓄積されていない場合には、この依頼のあった文書
を獲得することになるが、この文書を獲得した場合に、
この文書の頻度表を取得し、この頻度表と当該サブキャ
ッシュサーバの特性を示す頻度表とを比較し、獲得した
文書と当該サブキャッシュサーバが蓄積する文書との距
離を計算し、この距離が所定の閾値よりも近く、従って
獲得した文書が当該サブキャッシュサーバが蓄積すべき
文書に近く似ている場合であって、かつ当該するサブキ
ャッシュサーバ内に既に蓄積されていない場合に、当該
獲得した文書を蓄積する。また、距離が所定の閾値より
も遠く似ていない場合には、蓄積しない。
【0032】以上のように構成される本実施形態のキャ
ッシュサーバにおいて、クライアントから要求がある
と、このクライアントからの要求は、サブキャッシュサ
ーバツリーの最下位のサブキャッシュサーバが受け付け
る。例えば、図2(b)に示すクラスタツリーのクラス
タAに入るクライアントから要求があったとすると、図
3(a)のサブキャッシュサーバツリーではクラスタA
に対応するサブキャッシュサーバC8が要求を受け付
け、また図3(b)のサブキャッシュサーバツリーでは
クラスタAを配下に含むサブキャッシュサーバC2が要
求を受け付ける。
【0033】この要求を受け付けたサブキャッシュサー
バは、最上位のサブキャッシュサーバでない場合には、
上位のサブキャッシュサーバに依頼してクライアントか
らの要求のあった文書を獲得する。なお、サブキャッシ
ュサーバが最上位のサブキャッシュサーバの場合には、
該サブキャッシュサーバは直接相手のHTTPサーバか
ら要求の文書を獲得する。そして、サブキャッシュサー
バは、文書を獲得すると、クライアントから要求された
文書の頻度表を作成するとともに、クライアントから要
求された文書中で示されたリンク先を調べる。
【0034】それから、このリンク先のそれぞれについ
てリンク先の文書の頻度表を獲得し、この獲得した頻度
表と当該サブキャッシュサーバの特性を示す頻度表とを
比較し、リンク先の文書と当該サブキャッシュサーバが
プリフェッチを行う文書との距離を測る。この得られた
距離が所定の閾値よりも近く、文書が似ている場合であ
って、キャッシュ内に既に蓄積していない場合には、該
文書をプリフェッチする。また、前記得られた距離が所
定の閾値よりも遠く、似ていない場合であって、上位の
サブキャッシュサーバがある場合には、この上位のサブ
キャッシュサーバに伝達する。
【0035】また、最下位でないサブキャッシュサーバ
は、下位のサブキャッシュサーバがプリフェッチしなか
った文書に関する情報が下位のサブキャッシュサーバか
ら伝達されると、下位のサブキャッシュサーバがプリフ
ェッチしなかった文書について該文書の頻度表と当該サ
ブキャッシュサーバの特性を示す頻度表とを比較し、リ
ンク先の文書と当該サブキャッシュサーバがプリフェッ
チを行う文書との距離を測る。この結果、得られた距離
が所定の閾値よりも近く、文書が似ている場合であっ
て、当該サブキャッシュサーバ内に既に蓄積されていな
い場合には、当該文書をプリフェッチする。また、得ら
れた距離が所定の閾値よりも遠く、似ていない場合にお
いて、上位のサブキャッシュサーバがある場合には、こ
の上位のサブキャッシュサーバに伝達する。
【0036】上述した頻度表を蓄積している頻度データ
ベースは、定期的に更新する必要がある。この頻度デー
タベースの更新の際には、ロボットを用いて、文書を収
集するが、この際には各サブキャッシュサーバで運用が
行われる。各ロボットは、ロボットの属するサブキャッ
シュサーバのキャッシュの内容を探索の開始点として文
書の収集を行う。そして、各サブキャッシュサーバは、
ロボットによって収集されたそれぞれの文書に対して頻
度表を生成し、上位のサブキャッシュサーバに伝える。
最上位のサブキャッシュサーバは、全体の頻度データベ
ースを更新する。
【0037】また、各ユーザのプロファイル情報は逐次
変化するので、ユーザのプロファイル情報は逐次更新さ
れ、この更新に伴いユーザのプロファイル情報の再クラ
スタリングを行い、このクラスタリングによって更新さ
れたクラスタに基づいてサブキャッシュサーバの再構成
を行い、各サブキャッシュサーバに蓄積する文書の種類
の決定を行うようになっている。
【0038】なお、上記実施形態では、サブキャッシュ
サーバツリーにおいて、各サブキャッシュサーバ間の伝
達は、下位のサブキャッシュサーバから上位のサブキャ
ッシュサーバに行われるように説明しているが、本発明
はこれに限定されるものでなく、図3(a)に示すよう
なサブキャッシュサーバツリーにおいて例えばサブキャ
ッシュサーバC4からC2に伝達されるだけでなく、ま
たはその代わりにC4からC9に伝達されるというよう
に下位の別のサブキャッシュサーバを含む隣接する別の
サブキャッシュサーバに対して伝達されてもよいもので
ある。
【0039】また、サブキャッシュサーバツリーのよう
に階層化された複数のサブキャッシュサーバにおいて、
近い距離にあるサブキャッシュサーバ間で情報を交換
し、同じ文書のコピーが必要以上に蓄積されないように
各サブキャッシュサーバを協調動作させることも可能で
ある。また、プリフェッチを行う文書に関する情報のや
り取りをサブキャッシュサーバ間で行うが、これをより
上位のサブキャッシュサーバがWWW上のコンテンツを
把握するように行うことにより、新着の情報のプリフェ
ッチに有効であるし、また要求のあった文書が別のサブ
キャッシュサーバがプリフェッチを行うような文書であ
ったときには当該別のサブキャッシュサーバに通知する
ように行うこともできる。
【0040】
【発明の効果】以上説明したように、本発明によれば、
ユーザプロファイル情報からクライアントが次に要求す
るであろう文書および該文書に近い文書を文書の類似性
を利用して予測し、この予測した文書をWWW上からプ
リフェッチして蓄積し、クライアントからの要求文書が
蓄積文書内にある場合には、この文書を読み出してクラ
イアントに提示するので、ユーザが前に要求したことが
ない情報でもユーザプロファイル情報から予測してプリ
フェッチでき、ユーザからの要求に対して待ち時間な
く、またネットワークを介することなく、迅速に応答す
ることができ、ネットワーク転送の無駄を排除し得ると
ともに、プリフェッチ精度を向上することができる。
【0041】また、本発明によれば、複数のサブキャッ
シュサーバがサブキャッシュサーバツリーとして階層化
されているので、各キャッシュサーバのもつキャッシュ
の内容を効率良く検索できるので、ユーザからの要求に
対して迅速かつ効率的に応答することができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係るキャッシュサーバを
備えているプロキシサーバを含むシステムの構成を示す
図である。
【図2】本発明の実施形態で生成されるユーザプロファ
イル情報のクラスタリングおよび該クラスタリングで作
成されたクラスタツリーの例を示す図である。
【図3】図2に示すクラスタツリーに対応するサブキャ
ッシュサーバツリーの例を示す図である。
【図4】クライアントによって要求される情報をDNS
サーバを介してHTTPサーバから取得する従来のシス
テムを示す図である。
【符号の説明】
1 クライアント 3 DNSサーバ 5 HTTPサーバ 7 プロキシサーバ
フロントページの続き (72)発明者 橋本 和夫 埼玉県上福岡市大原2−1−15 株式会社 ケイディディ研究所内 Fターム(参考) 5B075 PQ05 PR04 5B082 FA11 FA12

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 WWW上においてクライアントから要求
    された情報のURLを受け取り、該URLで指定される
    情報をWWW上から取得し、この取得した情報をクライ
    アントに返信するとともに、次回の要求に高速に対処す
    るために蓄積しておくキャッシュサーバであって、 クライアント側におけるユーザの好み、興味、技術分野
    を含む情報に関する情報をプロファイル情報として作成
    するプロファイル情報作成手段と、 該プロファイル情報からクライアントが次に要求するで
    あろう文書および該文書に近い文書を文書の類似性を利
    用して予測する予測手段と、 この予測した文書をWWW上からプリフェッチして蓄積
    するプリフェッチ手段と、 クライアントから要求された文書が前記蓄積された文書
    の中に存在する場合には、この文書を読み出してクライ
    アントに提示する提示手段とを有することを特徴とする
    キャッシュサーバ。
  2. 【請求項2】 前記プロファイル情報作成手段は、クラ
    イアントがアクセスした文書に出現する単語の頻度情報
    をプロファイル情報として作成する頻度情報作成手段を
    有することを特徴とする請求項1記載のキャッシュサー
    バ。
  3. 【請求項3】 WWW上においてクライアントから要求
    された情報のURLを受け取り、該URLで指定される
    情報をWWW上から取得し、この取得した情報をクライ
    アントに返信するとともに、次回の要求に高速に対処す
    るために蓄積しておくキャッシュサーバであって、 各クライアントがアクセスした文書に出現する単語の頻
    度情報を各クライアントのプロファイル情報として作成
    するプロファイル情報作成手段と、 各クライアントのプロファイル情報をクラスタとし、こ
    のクラスタのうち、プロファイル情報の近いクラスタ同
    士をまとめて、新たなクラスタを生成し、この生成され
    た新たなクラスタのうち、更にプロファイル情報の近い
    クラスタ同士をまとめて、更に新たなクラスタを生成す
    るという処理を繰り返して生成される複数のクラスタに
    おいてまとめられる前のクラスタからまとめられた後の
    クラスタ間を枝で連結してプロファイル情報のクラスタ
    ツリーを生成するクラスタツリー生成手段と、 前記クラスタツリーに対応して複数のサブキャッシュサ
    ーバを配置して、サブキャッシュサーバツリーを生成す
    るサブキャッシュサーバツリー生成手段と、 前記サブキャッシュサーバツリーを構成する各サブキャ
    ッシュサーバに対して、対応するクラスタツリーの各ク
    ラスタのプロファイル情報である単語の頻度情報を各サ
    ブキャッシュサーバの特性とし、該特性を示す単語の頻
    度情報から各クラスタに該当する各クライアントが次に
    要求するであろう文書および該文書に近い文書を文書の
    類似性を利用して予測し、この予測した文書をWWW上
    からプリフェッチし、前記該当する各サブキャッシュサ
    ーバに対応して蓄積するために、サブキャッシュサーバ
    ツリーの最下位のキャッシュサーバにあっては、クライ
    アントからの文書の要求に対して該クライアントのプロ
    ファイル情報のクラスタに対応する最下位のサブキャッ
    シュサーバが応答し、該サブキャッシュサーバは前記要
    求文書における単語の頻度情報を作成するとともに、該
    文書のそれぞれのリンク先の文書における単語の頻度情
    報を取得し、この取得した頻度情報と前記サブキャッシ
    ュサーバの特性を示す単語の頻度情報を比較し、リンク
    先の文書と前記サブキャッシュサーバがプリフェッチを
    行う文書との距離を測り、この距離が近く、文書が類似
    していて、かつ既に蓄積していない場合には該文書をプ
    リフェッチし、前記距離が遠く、文書が類似していない
    場合には、隣接するサブキャッシュサーバに伝達するよ
    うに制御する最下位処理制御手段と、 サブキャッシュサーバツリーの最下位でないキャッシュ
    サーバにあっては、隣接するキャッシュサーバから伝達
    される文書における単語の頻度情報とキャッシュサーバ
    の特性を示す単語の頻度情報とを比較し、各リンク先の
    文書とサブキャッシュサーバがプリフェッチを行う文書
    との距離を測り、この距離が近く、文書が類似してい
    て、かつ既に蓄積していない場合には該文書をプリフェ
    ッチし、前記距離が遠く、文書が類似していない場合に
    は、隣接する別のサブキャッシュサーバに伝達する非最
    下位処理制御手段とを有することを特徴とするキャッシ
    ュサーバ。
JP27329199A 1999-09-27 1999-09-27 キャッシュサーバ Pending JP2001101061A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP27329199A JP2001101061A (ja) 1999-09-27 1999-09-27 キャッシュサーバ

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP27329199A JP2001101061A (ja) 1999-09-27 1999-09-27 キャッシュサーバ

Publications (1)

Publication Number Publication Date
JP2001101061A true JP2001101061A (ja) 2001-04-13

Family

ID=17525815

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27329199A Pending JP2001101061A (ja) 1999-09-27 1999-09-27 キャッシュサーバ

Country Status (1)

Country Link
JP (1) JP2001101061A (ja)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003067238A (ja) * 2001-08-28 2003-03-07 Hitachi Ltd コンテンツ提供/利用ツールおよびシステム
JP2004280813A (ja) * 2003-03-03 2004-10-07 Fisher Rosemount Syst Inc 分散データのアクセス方法及びプロセス制御システムのための装置
JP2005520377A (ja) * 2002-03-11 2005-07-07 リサーチ イン モーション リミテッド データを移動装置へ押し進めるためのシステム及び方法
JP2008217370A (ja) * 2007-03-02 2008-09-18 Nec Corp プロファイル登録システム、プロファイル登録方法およびプロファイル登録プログラム
JP2008543249A (ja) * 2005-06-07 2008-11-27 ヤフー! インコーポレイテッド 移動ユーザプロフィールに基づくコンテンツのプレフェッチ
JP2010033112A (ja) * 2008-07-25 2010-02-12 Fujitsu Ltd コンテンツ再生装置、コンテンツ再生方法およびコンテンツ再生プログラム
JP2010103844A (ja) * 2008-10-24 2010-05-06 Kddi Corp コンテンツサーバシステム、コンテンツサーバおよびクライアントコンピュータ
JP2011091522A (ja) * 2009-10-21 2011-05-06 Fujifilm Corp ドキュメント画像生成サーバ及びプログラム、並びにドキュメント閲覧システム
JPWO2009084363A1 (ja) * 2007-12-30 2011-05-19 ユーウィングス株式会社 アクセス対象情報検索装置
US7984237B2 (en) 2004-03-24 2011-07-19 Intel Corporation Integrated circuit capable of pre-fetching data
US8463869B2 (en) 2005-06-07 2013-06-11 Yahoo! Inc. Providing relevant non-requested content to a mobile device
JP2014130605A (ja) * 2009-02-13 2014-07-10 Nec Europe Ltd 通信ネットワークおよび通信ネットワークの動作方法
US8924657B2 (en) 2009-06-04 2014-12-30 Canon Kabushiki Kaisha Information processing apparatus, data access system, and control method for the same
JP2015072694A (ja) * 2008-03-31 2015-04-16 アマゾン テクノロジーズ インコーポレーテッド コンテンツ管理するための方法とシステム
WO2018110047A1 (ja) * 2016-12-13 2018-06-21 オリンパス株式会社 中継装置
JP2018196123A (ja) * 2013-07-03 2018-12-06 コニンクリーケ・ケイピーエヌ・ナムローゼ・フェンノートシャップ セグメント化コンテンツのストリーミング
US10523723B2 (en) 2014-06-06 2019-12-31 Koninklijke Kpn N.V. Method, system and various components of such a system for selecting a chunk identifier
US11212250B2 (en) 2017-03-31 2021-12-28 Nec Corporation Relay device, network system, and network control method
US11477262B2 (en) 2014-02-13 2022-10-18 Koninklijke Kpn N.V. Requesting multiple chunks from a network node on the basis of a single request message

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003067238A (ja) * 2001-08-28 2003-03-07 Hitachi Ltd コンテンツ提供/利用ツールおよびシステム
JP2005520377A (ja) * 2002-03-11 2005-07-07 リサーチ イン モーション リミテッド データを移動装置へ押し進めるためのシステム及び方法
JP2004280813A (ja) * 2003-03-03 2004-10-07 Fisher Rosemount Syst Inc 分散データのアクセス方法及びプロセス制御システムのための装置
US7984237B2 (en) 2004-03-24 2011-07-19 Intel Corporation Integrated circuit capable of pre-fetching data
US8732234B2 (en) 2005-06-07 2014-05-20 Yahoo! Inc. Providing relevant non-requested content to a mobile device
JP2008543249A (ja) * 2005-06-07 2008-11-27 ヤフー! インコーポレイテッド 移動ユーザプロフィールに基づくコンテンツのプレフェッチ
US8463869B2 (en) 2005-06-07 2013-06-11 Yahoo! Inc. Providing relevant non-requested content to a mobile device
JP2008217370A (ja) * 2007-03-02 2008-09-18 Nec Corp プロファイル登録システム、プロファイル登録方法およびプロファイル登録プログラム
JPWO2009084363A1 (ja) * 2007-12-30 2011-05-19 ユーウィングス株式会社 アクセス対象情報検索装置
JP2015072694A (ja) * 2008-03-31 2015-04-16 アマゾン テクノロジーズ インコーポレーテッド コンテンツ管理するための方法とシステム
JP2010033112A (ja) * 2008-07-25 2010-02-12 Fujitsu Ltd コンテンツ再生装置、コンテンツ再生方法およびコンテンツ再生プログラム
US8706853B2 (en) 2008-07-25 2014-04-22 Fujitsu Limited Content processing apparatus, content processing method, and recording medium
JP2010103844A (ja) * 2008-10-24 2010-05-06 Kddi Corp コンテンツサーバシステム、コンテンツサーバおよびクライアントコンピュータ
JP2014130605A (ja) * 2009-02-13 2014-07-10 Nec Europe Ltd 通信ネットワークおよび通信ネットワークの動作方法
JP2017097899A (ja) * 2009-02-13 2017-06-01 エヌイーシー ヨーロッパ リミテッドNec Europe Ltd. 通信ネットワークおよび通信ネットワークの動作方法
US8924657B2 (en) 2009-06-04 2014-12-30 Canon Kabushiki Kaisha Information processing apparatus, data access system, and control method for the same
JP2011091522A (ja) * 2009-10-21 2011-05-06 Fujifilm Corp ドキュメント画像生成サーバ及びプログラム、並びにドキュメント閲覧システム
JP2018196123A (ja) * 2013-07-03 2018-12-06 コニンクリーケ・ケイピーエヌ・ナムローゼ・フェンノートシャップ セグメント化コンテンツのストリーミング
US10609101B2 (en) 2013-07-03 2020-03-31 Koninklijke Kpn N.V. Streaming of segmented content
US11477262B2 (en) 2014-02-13 2022-10-18 Koninklijke Kpn N.V. Requesting multiple chunks from a network node on the basis of a single request message
US10523723B2 (en) 2014-06-06 2019-12-31 Koninklijke Kpn N.V. Method, system and various components of such a system for selecting a chunk identifier
WO2018110047A1 (ja) * 2016-12-13 2018-06-21 オリンパス株式会社 中継装置
JPWO2018110047A1 (ja) * 2016-12-13 2019-06-24 オリンパス株式会社 中継装置
US10931603B2 (en) 2016-12-13 2021-02-23 Olympus Corporation Relay apparatus for transmitting data written in memory upon receiving data acquisition request command from client before predetermined time elapses after reception of data from server, and for determining property of transmitting data acquisition request command
US11212250B2 (en) 2017-03-31 2021-12-28 Nec Corporation Relay device, network system, and network control method

Similar Documents

Publication Publication Date Title
JP2001101061A (ja) キャッシュサーバ
JP4025379B2 (ja) 検索システム
Ali et al. A survey of web caching and prefetching
US6763362B2 (en) Method and system for updating a search engine
Bonchi et al. Web log data warehousing and mining for intelligent web caching
JP4042359B2 (ja) キャッシュ制御方法及びキャッシュ装置
KR100672277B1 (ko) 개인화 검색 방법 및 검색 서버
Ozcan et al. A five-level static cache architecture for web search engines
KR101672901B1 (ko) 분산 파일 시스템에서 소형 파일에 대한 접근성 향상을 위한 캐시 관리 시스템
US20180285470A1 (en) A Mobile Web Cache Optimization Method Based on HTML5 Application Caching
US9015414B2 (en) Load balancing based upon data usage
CN1234086C (zh) 用于高速缓存文件信息的系统和方法
Kucukyilmaz et al. A machine learning approach for result caching in web search engines
JPH1031683A (ja) Url情報データベース構築方法及びそれを利用したインターネット検索サーバ
Negrão et al. An adaptive semantics-aware replacement algorithm for web caching
Azari et al. A data replication algorithm for groups of files in data grids
US20080301541A1 (en) Online internet navigation system and method
Lee et al. A proactive request distribution (prord) using web log mining in a cluster-based web server
JP2004070957A (ja) 検索システム
Sathiyamoorthi Web Usage Mining: Improving the Performance of Web-Based Application through Web Mining
Pons Web-application centric object prefetching
Ghosh et al. Performance of dynamic web page generation for database-driven web sites
Sathiyamoorthi Web Caching System: Improving the Performance of Web-based Information Retrieval System
Katsaros et al. Cache management for Web-powered databases
Lee et al. Efficient content search in ishare, a p2p based internet-sharing system

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050525

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050621

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060222