JP2000057172A

JP2000057172A - 問合せに対する応答を得る方法

Info

Publication number: JP2000057172A
Application number: JP11141079A
Authority: JP
Inventors: Boris Chidlovskii; キドロヴスキーボリス
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1998-05-29
Filing date: 1999-05-21
Publication date: 2000-02-25
Anticipated expiration: 2019-05-21
Also published as: EP0961210A1; US6347314B1; JP4418555B2

Abstract

(57)【要約】【課題】問合せの意味論的キャッシングを効率的に実
施する方法を提供する。【解決手段】いわゆるシグネチャ・ファイルに基づい
てウェブ問合せをキャッシュするための新しいメカニズ
ムは２つの実施選択肢を有する。第1のアルゴリズムは
問合せと対応するキャッシュ項との意味論的包含関係を
うまく処理する。第2のアルゴリズムはこの処理を意味
論的論理積のより複雑なケースへ拡張する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、オンライン情報検索シ
ステム（たとえば、インターネット／ＷＷＷ、イントラ
ネット）、より詳細にはシグネチャ・ファイルをベース
とする、問合せの意味論的キャッシング(semantic cach
ing)に関するものである。

【０００２】

【従来の技術】Tavakoli, N.およびRay, A. の論文“A
New Signature Approach for Retrieval of Documents
from Free-Text Databases”, Information Processing
& Management, Vol. 28, No.2, 1992, pp. 153-163
は、情報検索のシグネチャー手法を述べている。その手
法では、シグネチャ・ファイルのサイズはアルファベッ
トの固有記号の数によって決まる。

【０００３】クライアント・サーバー情報システムで
は、データーをキャッシュし、そしてサーバーとの将来
の対話を最小限度にするため、主としてローカルクライ
アント・メモリが使用されている。このデーター・キャ
ッシングは、応答を引き渡す際にネットワーク通信量と
低速サーバーが長い遅延を引き起こすことがあるウェブ
に対し特別な重要性を有する。標準ページをベースとす
るキャッシングはウェブに対して技術的に実施不可能で
あり、また組（tuple）をベースとするキャッシングは
一定の制限を有するので、考えられる将来の再使用のた
めユーザー問合せと応答をキャッシュすることに大きな
努力が払われてきた。そのような技法は、たとえばGodf
rey, P., およびGryz, J., の論文“Semantic Query
Caching for Heterogeneous Databases”, in Proceedi
ngs of the 4th KRDB Workshop, Athens, Greece, 30-A
ugust-1997, pp. 6-1 to 6-6 に記載されている。

【０００４】問合せキャッシングは、たとえばキーワー
ドを加えたり、または除去することによって、ユーザー
がかなり頻繁に問合せを改良する場合に特別な利点を有
する。このケースでは、応答の組の多くはそれまでにキ
ャッシュすることができるので、直ちにユーザーへ引き
渡すことができる。

【０００５】ウェブをベースとする問合せシステムは、
異種分配型(heterogeneous distributed)データ・リポ
ジトリに接触し、いわゆるラッパー(wrappers) を呼び
出してユーザー問合せを目標の問合せ言語へ変換し、サ
ーバーからのデータ・フローを管理する。データーは通
例ＨＴＭＬフォーマットでネットワークを通じて転送さ
れるので、最終応答がユーザーに報告される（そしてキ
ャッシュに記憶される）前に、ラッパーも検索したＨＭ
ＴＬファイルから応答の組を抽出する。

【０００６】典型的なウェブ問合せは、項(term)の論理
積(conjunction)である。問合せ内の各項はおそらく演
算子 NOTで否定されたキーワードであり、１つまたはそ
れ以上の属性（題名、著者、等）に付けられる。ほとん
どのウェブ・サーバーでは、演算子 NOTはＡＮＤＮ
ＯＴと同じであり、問合せは少なくとも１個の非否定項
を含むことが強制される。

【０００７】意味論的キャッシングはクライアントキャ
ッシュを意味論的領域(semantic region)の集まりとし
て管理することができる。すなわち、意味論的領域の単
位でアクセス情報が管理され、キャッシュ置換が実行さ
れる。そのような技法は、Dar, S., Franklin, M. J.,
Jonsson, B.T., およびTan, M.の論文 “Semantic Data
Caching and Replacement”, in Proceedings of the
22th VLDB Conference, Mumbai (Bombay), India, 199
6, pp. 330-341 に記載されている。意味論的領域は、
たとえばユーザー問合せによって扱われる意味的に関係
があるドキュメントをグループに分ける。

【０００８】意味論的キャッシングの解決法では、各意
味論的領域は、そのコンテンツを記述する制約論理式、
コンテンツ内の組(tuple)のカウンタ、キャッシュ内の
実際の組の集合のためのポインタ、および置換戦略によ
って領域をランク付けするため使用される追加情報を有
することができる。問合せと同様、すべての領域論理式
は項の論理積である。

【０００９】クライアントで問合せが出されると、問合
せは２つの別個の部分、（１）ローカルキャッシュ内で
入手できる応答の部分と（２）サーバーからの応答に欠
けているすべての組を検索する残りの問合せに分けられ
る。もし残りの問合せがヌルでなければ（すなわち、問
合せはキャッシュされない情報空間の部分を取り扱
う）、残りの問合せはサーバーへ送られ、そこで処理さ
れる。

【００１０】

【発明が解決しようとする課題】問合せキャッシングの
多くの重要な原理について説明したが、どれもキャッシ
ュ項に対する問合せ評価のための効率的な方法を提供し
ていない。さらに、一部の技法においては、問合せ評価
はコンピュータの使用が難しいデータログ問合せ評価に
なっている。

【００１１】

【課題を解決しようとする手段】本発明は、プロセッサ
とメモリを備え、前記メモリ内の複数の所定ロケーショ
ンがキャッシュを形成し、前記キャッシュが１つまたは
それ以上の意味論的領域から成る情報処理システムにお
いて実施する方法であって、（ａ）対応する問合せシグ
ネチャＳ_Qをもつ問合せＱを受け取ること、（ｂ）前記
問合せシグネチャＳ_Qに頼って、前記問合せＱに対応す
る応答として前記１つまたはそれ以上の前記領域のコン
テンツを戻すこと、の諸ステップから成る方法を提供す
る。

【００１２】本発明は、さらに、プロセッサとメモリを
備え、前記プロセッサはメモリに結合され、そして前記
メモリと協力して前記方法の諸ステップに対応する命令
を実行するように動作することができるプログラム可能
な情報処理システムであって、上記の方法を実施するた
め適切にプログラムされた場合の情報処理システムを提
供する。

【００１３】本発明は、ウェブ問合せをキャッシュする
新しいメカニズムを提供する。そのメカニズムは、いわ
ゆるシグネチャ・ファイルに基づいており、キャッシュ
項の数に比例する効率的な問合せ評価を考慮に入れてい
る。本発明の実施例に従って、キャッシュ内の各意味論
的領域はシグネチャに関連付けられている。ユーザー問
合せの場合、シグネチャは同様な仕方で作られ、キャッ
シュに保存されている領域シグネチャに対し確かめられ
る。提案したキャッシング・メカニズムは問合せに適格
とされたすべてのキャッシュ項を識別する手続きを含
む。すなわち、手続きはどのキャッシュ項を直ちに再使
用できるか、そしてサーバーから欠けているどの情報を
要求しなければならないかを検出する。

【００１４】このメカニズムは３つの長所を有する。第
１に、このメカニズムは、１）問合せがキャッシュに含
まれているとき、または２）問合せが幾つかの領域を共
有するとき、２つの重要なケースを同じ洗練されたやり
方で処理する。その結果、提案したメカニズムは組複製
物(tuple duplications)のほとんどのケースを回避し、
適度な記憶装置要求を有する。第２に、このメカニズム
は部分応答の効率的な報告と、問合せの残りの効率的な
生成をサポートする。最後に、このメカニズムは領域合
体および置換方針のための簡単な解決法を提供する。

【００１５】

【発明の実施の形態】本発明が通常のコンピュータ・ネ
ットワーク技術を使用してイントラネットによって、ま
たはより適切にインターネットによって実施できること
は理解されるであろう。本発明はインターネットを通じ
てクロスプラットフォーム通信とドキュメント転送を行
う通常のＷＷＷウェブ・ブラウザ・ソフトウェア（たと
えば、Netscape）を使用して実施することができる。図
１は、このやり方を示す。ネットワーク２１の一部を構
成する各マシン２２，２４，２６は、この分野で周知の
Windows で動作するＰＣ、MacOSで動作するMac 、また
はUNIXで動作するマイクロコンピュータでもよいことは
理解されるであろう。しかし、異なるシステム構成（た
とえばヨーロッパ特許出願公開ＥＰ−Ａ−７７２，８５
７号、米国特許第５，６９２，０７３号）を使用して本
発明を実施できることは理解されるであろう。

【００１６】マシン２２におけるユーザーの要求に応じ
て、マシン２６に保存されたドキュメントまたは他の情
報（たとえば問合せに対する応答）を検索し、インター
ネットを通じてマシン２６から幾つかの中間マシン２４
を経由してマシン２２へ送ることができる。周知のよう
に、ドキュメントは、固有の識別子として、たとえば検
索エンジンへの適当な問合せ入力を用いて得たWorld Wi
de Web URLを使用して検索することができる。

【００１７】シグネチャ・ファイルはそもそも問合せワ
ードを含むフルテキスト断片を検索するため計画された
ものである。最も広く知られているスーパーインポーズ
・コーディングによって、各意味論的領域(semantic re
gion)は論理積形式で論理式と関連付けられる。領域論
理式内の各項は１と０の２進シーケンスである項シグネ
チャが割り当てられる。領域シグネチャは、領域論理式
から生成されたすべての項シグネチャをスーパーインポ
ーズ（ビット状ＯＲ演算）することによって生成され
る。

【００１８】図２は領域シグネチャの構造を示し、図３
は問合せのサンプルとそれらのシグネチャを示す。

【００１９】図２は意味論的領域“問合せ∧キャッシン
グ”に関するシグネチャの生成を示す。同様に論理積で
あるユーザー問合せの場合は、すべての項がシグネチャ
と関連付けられ、キャッシュ領域と同様なやり方でスー
パーインポーズされ、問合せシグネチャが生成される。
その後、問合せシグネチャはイグネチャ・ファイル内の
各領域シグネチャと突き合わされ、部分応答を得て、問
合せの残り(query remainder)が作られる。

【００２０】ここで述べる２つの異なるキャッシング技
法は意味論的領域と問合せ間の異なる意味論的関係を取
り扱う。第１のキャッシング技法は一方が他方を含んで
いる場合に、問合せと意味論的領域との意味論的包含関
係(semantic containment)をうまく処理する。第２のキ
ャッシング技法は、領域が問合せを含んでいない場合ま
たは問合せが領域を含んでいない場合に、処理を意味論
的ＡＮＤ演算(semantic intersection)のより頻度の高
い、複雑なケースへ拡張する。

【００２１】３つのケースから成る意味論的包含関係か
ら始める。もし論理式が同等であれば、問合せＱは領域
Ｒと同等である。もし１つまたはそれ以上の項を落とす
ことによって問合せ論理式から領域論理式を得ることが
できれば、領域Ｒは問合せＱを含んでいる。このケース
の場合、問合せに対する応答は領域コンテンツの適当な
サブセットである。逆に、もし１つまたはそれ以上の項
を落とすことによって領域論理式から問合せ論理式を得
ることができれば、意味論的領域Ｒは問合せＱに含まれ
る。さらに、領域包含は応答が領域コンテンツのサブセ
ットであることを意味する。上に述べた３つのケースの
いずれにおいても、領域Ｒは問合せＱに適格とされる。

【００２２】Ｓ_QとＳ_Rはそれぞれ問合せシグネチャと領
域シグネチャを表す。意味論的包含関係は、シグネチャ
のビット状比較によって以下のように検出される。領域
包含（Ｓ_Q⊂Ｓ_R）：１に設定された問合せシグネチャ
内の各ビットについて、領域シグネチャ内の対応するビ
ットも同様に１に設定される（図３の問合せ２）。同等（Ｓ_Q＝Ｓ_R）：領域シグネチャと問合せシグネチ
ャは１に設定された同じビットを有する（図３の問合せ
３）。問合せ包含（Ｓ_Q⊃Ｓ_R）：１に設定された領域シグネ
チャ内の各ビットについて、問合せシグネチャ内の対応
するビットも同様に１に設定される（図３の問合せ
４）。

【００２３】シグネチャ・ファイルは問合せに適格とさ
れないほとんどの領域（全部ではない）を除去する。図
３の最後の問合せは誤り選択（false drop）である。誤
り選択は、そのシグネチャは問合せに適格とされるが、
領域には適格とされない意味論的領域である。実際に
は、もし用語“スキー”と“リゾート”にそれぞれシグ
ネチャ“０１１０００００１０００”と“００００
０１１００００１”を割り当てれば、問合せ“スキ
ー∧リゾート”のシグネチャは“０１１００１１０
１００１”であり、従って、領域“問合せ∧キャッシン
グ”のシグネチャと同等である。

【００２４】誤り選択は問合せと領域を詳しく比較する
ことによって除去されるが、もし誤り選択が多ければ、
性能は低下する。誤り選択の確率を最小限にするため
に、シグネチャ内の０と１の予想数を同じにしなければ
ならない。そうすれば、領域または問合せ論理式内の同
数の別個のキーワードの場合、シグネチャの長さが増加
すると、シグネチャ内の１の密度が減少し、それに応じ
て、誤り選択をする機会が減少するであろう。しかし、
それにより、記憶装置オーバーヘッドは増加するであろ
う。もしシグネチャの長さがＦビットで、問合せ内の項
の最大限の数がｔであれば、項シグネチャ内の１に設定
されたビットの最適の数k_opt （一様な確率分布に従っ
て）は、 k_opt=(F・ln2)/t (1) である。

【００２５】キャッシュ編成問合せをより迅速に処理
するため、本発明の実施例によるキャッシュ・アーキテ
クチャは領域コンテンツとは別個に領域シグネチャを保
有する（図４参照）。シグネチャ部内の各エントリ(領
域)は、シグネチャのほかに、領域論理式、組(tuple)の
カウンタ、対応する領域コンテンツへのリンク、および
置換関数の値を含んでいる。適格とされた領域はシグネ
チャ部内で検出される。意味論的領域が完全または部分
応答に適格とされたら、領域コンテンツに保存された問
合せとマッチする（ぴったり合う）組がユーザーに報告
される。

【００２６】否定すべての領域論理式は、キーワード
のほかに、それらの否定を含んでいる。否定をもつ問合
せを円滑に処理するために、キーワードのシグネチャと
その否定のシグネチャを関連付けることができる。否定
項に基本的な項シグネチャのビット状否定であるシグネ
チャを割り当てることができるが、項シグネチャ内の１
に設定されたビットの数kはシグネチャの長さFよりかな
り小さいので、これにより、否定項シグネチャの中に１
に設定されたF−kビットが生じるであろう。従って、こ
の解決法は、論理式が否定項を含むどの領域においても
誤り選択の確率を著しく増加させるであろう。この問題
が起きるのを避けるため、キーワードとその否定（およ
び割り当てられたそれらのシグネチャ）はどのシグネチ
ャにおいても１に設定されたkビットをもつ２つの独立
項として扱われる。

【００２７】第１の技法は、意味論的包含関係の３つの
ケース、すなわち(1) 同等、(2) 問合せ包含、および
(3) 領域包含を処理する。もし問合せがキャッシュ内の
領域と同等であれば、問合せ応答は領域コンテンツと一
致する。もし領域が問合せを含んでいれば、フィルタと
して使用した問合せ論理式を用いて、領域コンテンツか
ら完全応答を生成することができる。さらに、もし２つ
またはそれ以上の領域が問合せを含んでいれば、それら
の領域はどれも応答を生成することができる。フィルタ
リング・オーバーヘッドを減らすために、アルゴリズム
は領域のコンテンツが最小限の数の組をもつ領域を選択
し、フィルタする。領域包含のケースでは、アルゴリズ
ムは領域コンテンツから部分応答を抽出し、サーバーヘ
送る問合せの残りを生成する。もし問合せに数個の領域
が含まれていれば、それらのどれかまたはすべてが部分
応答を生成することができる。そのような領域の数が大
きいことがあるので、アルゴリズムは最大限の数の組を
もつ上位m個の領域を選択する。

【００２８】もし意味論的包含が検出されなければ、そ
のキャッシュは使用されず、問合せはサーバーへ送られ
る。応答を受け取ると、問合せに対応する新しいキャッ
シュ領域が生成される。もしキャッシュがその領域のた
めの自由空間を持っていなければ、アルゴリズムは将来
ほとんど使用する価値のない１つまたは数個の領域をキ
ャッシュから廃棄しなければならない。基本的な置換戦
略として、LRU（leastrecently used ）法を使用する。
この戦略は、探索がナビゲーションおよび発見に結びつ
いており、また新しい問合せが前の問合せの改良である
ことが多いウェブに適している。

【００２９】上に述べたアルゴリズムのフレームワーク
に関して、３つの重要な問題は、より詳しい分析、すな
わち領域の残り(query remainder)の作成、領域合体(re
sioncoalescing)、およびキャッシュ領域置換(cache re
gion replacement)を必要とする。

【００３０】問合せにm個の意味論的領域R₁，
．．．，Ｒ_mが含まれていると仮定する。問合せの残
りは、Ｑ_r＝Ｑ−Ｒ₁−．．．−Ｒ_m＝Ｑ∧¬Ｒ₁∧．．．
∧¬Ｒ_mとして作ることができるが、そのような制約論
理式は、単純化すると、論理和（disjunction）を含む
ことがあり、論理積の問合せだけを受け取るサーバーを
考慮に入れることができない。たとえば、問合せaと領
域ａ∧ｂ∧ｃの場合（キーワードを示すため、アルファ
ベットの始めから文字が使用される）、制約論理式ａ−
ａ∧ｂ∧ｃは以下の論理和論理式になる。ａ−ａ∧ｂ∧ｃ＝ａ∧¬（ａ∧ｂ∧ｃ）＝ａ∧¬ｂ∨ａ
∧¬ｃ

【００３１】問合せの残りを論理和形にする領域とそう
しない領域とを区別するために、問合せ論理式と領域論
理式との差の尺度を導入する必要がある。差は問合せに
存在しない領域論理式内の項の数として定義される。こ
の定義により、Ｒ₁，．．．，Ｒ_mの集合はグループ（グ
ループ内のすべての領域は問合せとＩ項差（I＝１，
２，．．．．）をもつ）に分けられる。上記例の場合、
領域論理式ａ∧ｂ∧ｃは問合せａと２項差を有する。Ｉ
＝０のケースも可能であり、問合せと領域が同等である
とき、あるいは領域が問合せを含んでいるとき、従って
問合せの残りがヌルであるとき、Ｉ＝０のケースが現れ
ることに注目されたい。

【００３２】差の尺度の助けを借りて、１項差をもつ領
域は問合せの残りの論理積形を保つことができ、以下の
ことが当てはまる。結果１（残りの構造）キャッシュはｍ個の領域（論理
式は問合せＱの論理式と１項差たとえばａ₁，
ａ₂，．．．，ａ_mを有する）を含んでいると仮定する。
問合せの残りＱ_rはＱ∧¬ａ₁∧¬ａ₂∧．．．∧¬ａ_mで
ある。

【００３３】図５は、意味論的包含のケース、すなわち
（ａ）単一領域包含、（ｂ）複数領域包含、（ｃ）単一
問合せ包含、および（ｄ）複数数問合せ包含を示す。

【００３４】問合せ包含と同等のケースでは、問合せの
残りはヌルである。従って、問合せは局部的に処理さ
れ、キャッシュのコンテンツは不変である。問合せ応答
を与える領域は対応する置換値を更新する（以下参
照）。

【００３５】領域包含のケースでは、問合せの残りはヌ
ルでなく、さらに、意味論的領域Ｒに対する補数(compl
ement)である（図５（ａ）参照）。問合せの残りＱ_rに
対する応答を受け取ったとき、その応答をキャッシュに
加える２つの方式がある。非合体戦略では、問合せの残
りのため新しいキャッシュ領域が生成される。合体戦略
では、新しい領域は追加されない。代わりに、残りに対
する応答を用いて領域Ｒのコンテンツが拡張され、領域
論理式ＲはＱで置き換えられる。上記２つの方式は組を
保存するため同じキャッシュ空間を占有するが、非合体
戦略が２つの領域を使用するのに対し、合体戦略は１つ
の領域のみを使用するので、合体戦略のほうが好まし
い。

【００３６】もしｍ個の意味論的領域Ｒ₁，．．．，Ｒ_m
が領域包含を生じさせれば（図５（b）参照）、合体戦
略の利点はいっそう大きい。問合せの残りＱ_r＝Q−R
₁−．．．−Ｒ_mは領域の合体(union)に対する補数（com
plement）であり、合体戦略は、領域Ｒ₁，．．．，Ｒ_m
と問合せの残りの代わりに、１つの領域（論理式Ｑと共
に）のみを保有するであろう。領域Ｒ₁，．．．，Ｒ_mは
組の複製物(tuple duplications)を含むことがあるの
で、合体戦略はキャッシュのシグネチャ部とコンテンツ
部の両方で記憶域をより上手に利用する。

【００３７】キャッシュのサイズは制限されているの
で、空間を新しい領域に解放するためキャッシュはＬＲ
Ｕ領域を廃棄することができる。キャッシュ内の組のペ
ージを置き換えるために計画された標準ＬＲＵ法は同じ
サイズのことを指しており、１ページまたは１組が置換
単位であり、それは問合せとマッチすることもあり、な
いこともある。

【００３８】問合せキャッシングの場合は、状況が違っ
ている。もし領域Ｒが問合せに適格とされれば、応答内
の領域の掛かり合い(involvement)は異なることがあ
る。もし問合せが領域を含んでいれば（図５（ａ）参
照）、領域コンテンツからのすべての組が応答に現れる
ので、領域コンテンツは完全に応答と関係がある。対照
的に、もし領域が問合せを含んでいれば（図５（ｃ）参
照）、領域の組の一部のみが問合せとマッチするので、
領域の掛かり合いは部分的である。

【００３９】従って、置換関数は問合せ応答内の領域の
掛かり合いを考慮に入れなければならない。もし領域の
掛かり合いが完全であれば、問合せ応答がサーバーから
送られるときのケースのように、領域の新しい置換値は
“最新値”である。もし領域の掛かり合いが部分的であ
り、かつ領域コンテンツ内に問合せとぴったり合わない
組が存在すれば、“最新値”への置換値の変更はぴった
り合った組の部分がどのくらいの大きさかによって決ま
る。「領域の掛かり合い」はｐ＝Ｔ_R／Ｔとして測定す
ることができる。ここで、Ｔ_Rは問合せ応答に現れた組
の数であり、Ｔ_Rは領域コンテンツ内の組の総数であ
る。

【００４０】一般性を失わずに、「最新値」Ｖ_topは新
しい問合せが出されるたびに１だけ増加されると仮定す
る。もし領域Ｒの現在の置換値がＶ_R（Ｖ_R<Ｖ_top）で、
領域の掛かり合いがｐであれば、新しい置換関数は、Ｖ
_R＝Ｖ_R＋（Ｖ_top−Ｖ_R）ｐとして計算される。もしｐ＝
１であれば、Ｖ_R＝Ｖ_topである。もしｐ＝１／２であれ
ば、Ｖ_R＝（Ｖ_top＋Ｖ_R）／２である。この置換関数
は、問合せに適格とされた、そして適格とされないキャ
ッシュ内のどの領域にも実施できることに留意された
い。もし領域が問合せに適格とされなければ、従って、
掛かり合いｐ＝０であれば、領域置換値は変わらない。

【００４１】例１図6は、領域合体の例、すなわち（ａ）問合せＱ＝ｄが
出される、（ｂ）問合せ後、合体した領域、（ｃ）問合
せｂ∧ｄ∧ｆが出される、および（ｄ）問合せ後、更新
された領域を示す。

【００４２】キャッシュはａ∧ｂ∧ｃとｂ∧ｄとｄ∧¬
ａをもつ３つの領域を含んでいる。図６（ａ）は、置換
値をもつ領域を示す（Ｖ_top＝６と仮定して）。新しい
問合せはｄであると仮定する。第２および第３の領域は
領域包含関係を生じさせる。２つの領域論理式は１ワー
ドだけ（第２領域ではｂ、第３領域では¬ａ）問合せ論
理式と違っているので、生成された問合せの残りはｄ∧
ａ∧¬ｂになるであろう。完全応答が生成された後、第
２および第３領域と問合せの残りは論理式ｄをもつ１つ
の領域で置き換えられる（図５（ｂ））。その置換値は
Ｖ_top＝７である。

【００４３】ここで、問合せはｂ∧ｄ∧ｆであると仮定
する（図６（ｃ）参照）。２つの領域ｂ∧ｄとｄ∧¬ａ
は問合せを含んでいる。前者はコンテンツ内により少な
い組を有するので、問合せに対し応答するため前者が選
ばれる。その置換値は、領域コンテンツ内の問合せとぴ
ってり合う組の部分に従って更新される（３から４
へ）。

【００４４】キャッシング・アルゴリズム（１）図７〜９は第１の技法に従ってキャッシングを実施する
処理ステップを示す。入力．意味論的領域をもつキャッシュと問合せＱ出力．Ｑに対する応答と更新したキャッシュ１．キャッシュ内のすべての領域シグネチャと対比し
て問合せシグネチャを確かめる（ステップｓ１，ｓ
２）。２．Ｓ_Q＝Ｓ_R：もし論理式が問合せと同等である領
域が存在すれば、領域コンテンツを問合せ応答として戻
す。領域の置換関数値を更新し、終了する（ステップｓ
３，ｓ４）。３．Ｓ_Q⊃Ｓ_R：もし１つまたはそれ以上の領域が問
合せを含んでいれば、最小限の基数をもつ領域を選択す
る。領域コンテンツ内の組を走査し、問合せとマッチす
る組を戻す。領域の置換関数値を更新し、終了する（ス
テップｓ１２〜ｓ１５）。４．Ｓ_Q⊂Ｓ_R：もし幾つかの領域が問合せを含んで
いれば、最大限の基数をもつ上位ｍ個の領域
Ｒ₁，．．．，Ｒ_mを選択する。領域Ｒ₁，．．．，Ｒ_mの
領域コンテンツからすべての組を戻し、複製物を廃棄す
る（ステップｓ５〜ｓ１１）。以下に述べるように問合
せの残りを作る（ステップｓ７１〜ｓ７７；図８）：・問合せの残りを問合せＱに設定する（ステップｓ７
１）。・各領域Ｒ_iについて、領域包含を規定し、領域論理式
と問合せとの差を計算する（ステップｓ７３）。もし差
が１項ａ_iだけであれば、¬ａ_iをもつ問合せの残りを拘
束する。その問合せの残りをサーバーへ送る。応答を受
け取った後、領域Ｒ₁，．．．，Ｒ_mを１つの領域Ｑで置
き換える。Ｑの置換値としてＶ_topを置き、終了する。５．もしそうでなければ（ステップｓ１６〜ｓ２０；
図９）、問合せＱをサーバーへ送る。応答を受け取った
ら、Ｑのためキャッシュ内に新しい領域を生成する。そ
の領域に空間を解放するため、問合せＱがキャッシュに
適合するまで、最小の置換値をもつ領域を除去する。

【００４５】前節で述べたキャッシング技法は意味論的
包含関係(semantic containment)のケースを効率的に処
理する。しかし、意味論的領域が応答の一部を生成でき
るが問合せを含んでいないし、また問合せに含まれてい
ない場合には、前記技法は意味論的ＡＮＤ演算(semanti
c intersection)のより頻度の高い、より複雑なケース
をうまく処理しない。

【００４６】図１０は、意味論的ＡＮＤ演算の例を示
す。例２．キャッシュは論理式“∧問合せ”をもつ領域Ｒ１
を含んでおり、問合せＱは“最適な∧問合せ”であると
仮定する（図１０（ａ）参照）。論理式“最適な∧問合
せ∧キャッシング”とマッチする領域コンテンツ内の組
は問合せとマッチするけれども、包含関係が存在しない
ので、アルゴリズム１はＲ₁を部分応答に利用しない。
さらに，アルゴリズム１はサーバーから問合せＱに対す
る応答を受け取ると、同じ論理式“最適な∧問合せ”を
もつ新しい意味論的領域Ｒ₂を生成する（図１０（ｂ）
参照）。２つの意味論的領域Ｒ₁，Ｒ₂はそれらのＡＮＤ
演算論理式“最適な∧問合せ∧キャッシング”とマッチ
する組複製物を含んでいる。言い替えると、意味論的Ａ
ＮＤ演算のケースでは、アルゴリズム１は低いキャッシ
ュ使用と高い組複製物レベルを維持する。

【００４７】この節では、包含のケースの外に、キャッ
シュの利用を改善し、組複製物を減らすように意味論的
ＡＮＤ演算を処理する拡張キャッシング技法について説
明する。

【００４８】意味論的領域Ｒと問合せＱのＡＮＤ演算
は、それらの論理式ＡＮＤ演算(formula intersection)
Ｒ∩Ｑの論理積によって与えられる。領域シグネチャＳ
_Rと問合せシグネチャＳ_Qが与えられたとして、ここで
は、Ｓ_QとＳ_Rのビット状ＡＮＤ演算によって得られたそ
れらのシグネチャＡＮＤ演算Ｓ_Q∩Ｓ_Rを使用する。従っ
て、シグネチャＳの場合、シグネチャ基数(signature c
ardinality)｜Ｓ｜はシグネチャ内の１に設定されたビ
ットの数を示す。

【００４９】意味論的領域Ｒと問合せＱの意味論的ＡＮ
Ｄ演算の場合には、ここでは、２つの主要なケースを区
別する。すなわち、補数(complement) ：Ｑ∩Ｒ＝φ；論理式ＡＮＤ演算は
ヌルである。たとえば、問合せａ∧ｂは領域ａ∧¬ｂに
対する補数である。従って、領域は問合せに対する応答
の組を含んでいない。しかし、補数のケースでは、領域
合体は可能である。上記の問合せと領域の場合、合体は
論理式ａをもつ１つの領域をもたらすであろう。ＡＮＤ演算(intersection)：Ｑ∩Ｒ≠φ；論理式ＡＮ
Ｄ演算はヌルでない。以下の２つのサブケースが存在す
る。すなわち、・問合せおよび領域の論理式はＡＮＤ演算に現れる幾つ
かの共通項を有する（たとえば領域“キャッシング∧問
合せ”と問合せ“最適な∧問合せ”は共通項“問合せ”
を有する）。・問合せおよび領域の論理式は共通語を持たない。たと
えば、領域ａと問合せｂは共通項を持たないが、それら
のＡＮＤ演算ａ∧ｂは空でなく、従って領域は部分応答
に貢献できる。

【００５０】シグネチャ・ファイル内の意味論的ＡＮＤ
演算．もし問合せＱと領域Ｒが幾つかの共通項を持っ
ていれば、それらのシグネチャは共通項のシグネチャに
対応する１に設定されたビットを有する。論理式ＱとＲ
が持つ共通項がを多ければ多いほど、一緒に１に設定さ
れるビットの数は大きいので、２つのシグネチャ内の１
に設定された対応するビットの数｜Ｓ_Q∩Ｓ_R｜によっ
て、ＲとＱの意味論的ＡＮＤ演算を測定することができ
る。しかし、これは常に真ではない。たとえば、論理式
ａをもつ領域と問合せｂの場合、それらのシグネチャＡ
ＮＤ演算は１に設定されたビットを持つことはない。し
かし、領域は論理式ａｂ∧ｂとマッチする組をユーザー
に報告することができる。

【００５１】本節の残りの部分では、問合せによって一
部が共有されたどの領域が部分応答に貢献し、そして問
合せの残りを拘束できるかを、シグネチャ・ファイル法
がどのように迅速に検出できるかを示す。意味論的ＡＮ
Ｄ演算に関する以下の検討は、同等または問合せ包含は
キャッシュ内で検出されないこと、従って、問合せの残
りはヌルでないと仮定していることに留意されたい。

【００５２】意味論的包含と同様に、論理積問合せは許
されるだけであるので、問合せと共有部分をもつ領域の
すべてが問合せの残りに貢献できるのではない。どの領
域が貢献できるかを検出するために、前に導入した項差
を再び使用する。さらに、意味論的包含のために導出し
たが、意味論的ＡＮＤ演算に完全に適用できる残りの構
造を使用する。すなわち、もしキャッシュがｍ個の領域
を含んでおり、その論理式は問合せＱに含まれていない
が、１項差たとえばａ₁，ａ₂，．．．，ａ_mを有してい
れば、問合せの残りＱ_rは、Ｑ∧¬ａ₁∧¬ａ₂∧．．．
∧¬ａ_mとして作ることができる。

【００５３】例２（続き）領域“キャッシング∧問合
せ”は問合せ“最適∧問合せ”と１項差を有するので、
領域は部分“最適∧問合せ∧キャッシング”をユーザー
に報告し、問合せの残り“最適∧問合せ∧¬キャッシン
グ”を作ることができる。同様に、領域ａは問合せｂと
１項差を有する。部分ａ∧ｂは報告され，問合せの残り
はｂ∧¬ａである。

【００５４】問合せの残りを拘束する場合に問合せと１
項差をもつ意味論的領域のこの著名な特徴は、キャッシ
ュのコンテンツに対する問合せの二重走査評価をもたら
す。領域シグネチャにわたる最初の高速走査は、問合せ
の残りを迅速に作って、最初の部分応答を生成するため
１項差をもつすべての領域を識別する。第２の低速走査
は、他のＡＮＤ演算が部分応答を質的に向上させること
ができるかを調べる。領域シクネチャにわたる２つの走
査は領域シグネチャに適用されるフィルタリング関数に
違いがある。

【００５５】最初の走査のときにフィルタされる各領域
Ｒは問合せとせいぜい１項差をもつべきである。従っ
て、もし領域シグネチャが１に設定された｜ＳＲ｜ビッ
トをもち、問合せシグネチャとそのＡＮＤ演算が｜Ｓ_R
∩Ｓ_Q｜ビットをもっていれば、２つの数の差はせいぜ
いｋビットにすべきである。ここで、ｋは項シグネチャ
内の１に設定されたビットの数である。以下の結果はこ
の事実を明白に述べている。結果２もし領域Ｒが問合せＱと１項差を有していれ
ば、｜Ｓ_R∩Ｓ_Q｜≧｜Ｓ_R｜−ｋ（２）である。

【００５６】最初の走査は領域シグネチャについて条件
（２）を確かめる。もし条件が領域シグネチャに当ては
まれば、領域論理式が１項差に関して調べられる。意味
論的包含と同様に、もし条件（２）は当てはまるが、領
域論理式が１項差を与えなければ、誤り選択が生じる。
多くの実験を行った結果、論理式（１）で計算したシグ
ネチャ・ファイルのパラメータを適切に選択することに
よって、条件（２）を確かめる時の誤り選択の数を少な
く保つことができることが判った。

【００５７】第２の走査は、論理式が２項以上の差を有
し、問合せの残りを拘束することができない領域を検出
する。１項差との類推により論理式が問合せとＩ（Ｉ≧
２）項差をもつ領域は条件（３）を満たす。｜Ｓ_R∩Ｓ_Q｜≧｜Ｓ_R｜−ｋ・Ｉ（３）しかし、この条件は、第２の走査に全面的に用いること
ができない。第１に、条件（３）は、増加するｋの値に
対してはその重要性を失う。実際には、典型的なウェブ
問合せまたは領域論理式は３または４項の平均を有して
おり、条件（３）は｜Ｓ_R∩Ｓ_Q｜≧０に簡単化されるこ
とが多い。この簡単化された条件はすべての領域シグネ
チャを掃引し、多くの誤り選択と高いフィルタリング・
オーバーヘッドを引き起こすであろう。第２に、問合せ
と２またはそれ以上の項差をもつ領域は，通例、１項差
をもつ領域と比べて応答にほとんど貢献しない。第３
に、貢献する組は、それらの論理式が問合せの残りから
除外されなかったので、とにかく問合せの残りに対する
応答の中に複製されないであろう。

【００５８】それらの引数を考慮に入れて、第２の走査
に対する以下の２つの条件だけを検討する。・｜Ｓ_R∩Ｓ_Q｜≧｜Ｓ_R｜−２ｋ：この条件は主として
問合せと２項差をもつ領域をフェッチする。従って，よ
り多くの項差をもつ幾つかの領域はフェッチされない。・｜Ｓ_R∩Ｓ_Q｜≧０：すべての領域論理式はこの条件を
満たす。従って、この条件は多くの誤り選択を引き起こ
す。しかし、この条件は問合せとマッチするキャッシュ
内のすべての組を検索する。

【００５９】ほとんどのケースでは、誤り選択の数と検
索した組の数との間で良好のトレードオフが得られるの
で、最初のオプションのほうが好ましい。第2のオプシ
ョンは、キャッシュが小さい場合や、アプリケーション
が問合せとマッチするキャッシュからすべての組を検索
しようとしているときに使用できる。

【００６０】領域合体と領域置換意味論的ＡＮＤ演算
は合体戦略に対し新しい拡張部分を与える。一体化した
論理式が論理積でありさえすれば、合体戦略は問合せと
領域を合体することができる。例えば、合体戦略は問合
せａ∧ｂと領域ａ∧¬ｂを１つの領域に合体することが
できる。次の３つの条件：１）領域が問合せと１項差、
たとえばａ₁を有すること、２）対称的に、問合せが領
域と１項差、たとえばａ₂を有すること、３）ａ₁はａ₂
の否定であること、が守られてさえいれば、上記操作を
行うことができる。明らかに、そのような状況は同じ条
件２）で検出して、あとで処理することができる。

【００６１】置換戦略は、意味論的包含(semantic cont
ainment)のために計画されたので、意味論的ＡＮＤ演算
(semantic intersection)に対しても変わらない。新し
い問合せが出されたとき、キャッシュ内のどの意味論的
領域も応答内の領域掛かり合い(region involvement)に
比例してＶ_topの方に向かって更新された置換値を有し
ている。

【００６２】第２キャッシング技法ここに開示する第
２キャッシング技法は、問合せと意味論的領域間の２つ
の関係、すなわち前に述べた意味論的包含と本節で述べ
る意味論的ＡＮＤ演算を扱う。さらに、この技法は、問
合せ包含を与える領域と意味論的ＡＮＤ演算を与える領
域とを区別しないで、それらを一様に処理して１項差を
もつ領域を識別する。

【００６３】キャッシング・アルゴリズム（２）図１１〜１４は、第２の技法に従ってキャッシングを実
施する処理ステップを示す。入力．意味論的領域をもつキャッシュと問合せＱ出力．Ｑに対する応答と更新したキャッシュ１．（最初の走査）キャッシュ内の領域シグネチャと
対比して問合せシグネチャを調べる（ステップｓ２
１）。２．Ｓ_Q＝Ｓ_R：もし論理式が問合せと同等である領域が
存在すれば、領域コンテンツを応答として戻す。領域の
置換値を更新し（ｓ２４，ｓ２４）、終了する。３．Ｓ_Q∩Ｓ_R＝Ｓ_Q：もし１つまたはそれ以上の領域が
問合せを含んでいれば、最小限の基数(minimal cardina
lity)をもつ領域を選択する。領域コンテンツを走査
し，問合せとマッチする組を戻す。領域の置換値を更新
し（ｓ２５〜ｓ２８）、終了する。４．｜Ｓ_Q∩Ｓ_R｜≧｜Ｓ_R｜≧ｋ．問合せと１項差をも
つすべての領域、たとえばＲ₀，．．．，Ｒ_m（ｍ≧０）
を識別する。Ｒ₀，．．．，Ｒ_mの意味論的領域内の問合
せとマッチする組を戻し、複製物を廃棄する（ステップ
ｓ２９〜ｓ３６）。問合せの残りＱ_r＝Ｑ∧¬Ｒ₀．．．
∧¬Ｒ_kを以下のように作る（ステップｓ３１１〜ｓ３
１５；図１２）：・問合せの残りをＱに設定する（ステップｓ３１２）。・各領域Ｒ_i（ｉ＝０，．．．，ｍ）について、問合せ
との差ａ_iを計算し（ステップｓ３１４）、¬ａ_iをもつ
問合せの残りを拘束する。問合せの残りをサーバーへ送
る。５．（第２の走査）条件Ｔをもつ領域シグネチャを走査
する（ステップｓ３３１〜ｓ３３６、図１３）。Ｔは｜
Ｓ_R｜−２ｋ≧｜Ｓ_R∩Ｓ_Q｜＜｜Ｓ_R−ｋと、０≦｜Ｓ_R
∩Ｓ_Q｜＜｜Ｓ_R｜−ｋとの選択である。フェッチした各
領域Ｒについて、Ｑ∩Ｒ論理式ＡＮＤ演算を調べる（ス
テップｓ３３２）。もし論理式がヌルでなければ、問合
せとマッチする領域コンテンツからの組を報告する（ス
テップｓ３３５）。６．問合せの残りＱ_rに対する応答を受け取ったら、以
下のようにキャッシュを更新する（ステップｓ３５１〜
ｓ３５５、図１４）。・もし領域Ｒ_i1．．．，Ｒ_ipが問合せを含んでいれば、
それらを論理式Ｑをもつ新しい領域で置き換える。・もし領域Ｒが問合せＱに対する補数であり、論理式Ｒ
∪Ｑが論理積(conjunction)であれば、ＲとＱを新しい
領域で置き換える。・さもなければ、論理式Ｑ_rをもつキャッシュに新しい
領域を加える。・部分応答に貢献するすべての領域について置換値を更
新する。

【００６４】例３図１５は、意味論的ＡＮＤ演算のための領域合体：
（ａ）問合せｃ∧ｄが出される、及び（ｂ）問合せの
後、を示す。

【００６５】キャッシュは論理式ａ∧ｂ，ｃ∧ｄ∧¬ｅ
をもつ領域を含んでおり、ユーザー問合せはｂ∧ｃであ
ると仮定する。図１５（ａ）は、置換値（Ｖ_top＝７と
仮定する）をもつ２つの領域と問合せを示す。最初の走
査は、領域ａ∧ｂが問合せと１項差を有し、そして問合
せの残りＱ_r（ｂ∧ｃ∧¬ａ）を拘束できることを検出
する。問合せとマッチする領域コンテンツからのすべて
の組は部分応答を与える。第２の走査は、領域ｃ∧ｄ∧
¬ｅについて意味論的ＡＮＤ演算を検出する。領域コン
テンツが走査される。問合せとマッチする組は部分応答
を完成させる。

【００６６】問合せの残りＱ_rに対する応答が受け取ら
れると、論理式ｃ∧ｄ∧¬ｅをもつ新しい領域が生成さ
れる。置換値はＶ_top＝８に等しい。同様に、ａ∧ｂと
ｃ∧ｄ∧¬ｅは共に、応答への貢献に比例する更新され
た置換値を有する｛図１５（ｂ）参照｝。

【００６７】以上、ウェブ論理積問合せをキャッシュす
るための新しいメカニズムを提示した。このメカニズム
はシグネチャ・ファイルに基づいており、過去の問合せ
を効率的に再利用することを考慮に入れている。２つの
キャッシング・アルゴリズムは、ユーザー問合せと意味
論的領域との意味論的包含関係とＡＮＤ演算関係をうま
く処理する。

【図面の簡単な説明】

【図１】マシンのネットワークを示す略図である。

【図２】領域シグネチャの構造を示す図である。

【図３】サンプルの問合せとそれらのシグネチャを示す
図である。

【図４】適当なキャッシュ・アーキテクチャを示す図で
ある。

【図５】意味論的包含のケース −（ａ）単一領域包
含；（ｂ）複数領域包含；（ｃ）単一問合せ包含；およ
び（ｄ）複数問合せ包含を示す図である。

【図６】領域合体の例 −（ａ）問合せＱ＝ｄが出され
る；（ｂ）問合せの後、合体された領域：（ｃ）問合せ
ｂ∧ｄ∧ｆが出される；および（ｄ）問合せの後、更新
された領域を示す図である。

【図７】第１の技法に従ってキャッシングを実施する処
理ステップを示すフローチャートの前部分である。

【図８】同フローチャートの中間部分である。

【図９】同フローチャートの後部分である。

【図１０】（ａ），（ｂ）は意味論的ＡＮＤ演算の例を
示す図である。

【図１１】第２の技法に従ってキャッシングを実施する
処理ステップを示すフローチャートの第１部分である。

【図１２】同フローチャートの第２部分である。

【図１３】同フローチャートの第３部分である。

【図１４】同フローチャートの第４部分である。

【図１５】意味論的ＡＮＤ演算のための領域合体 −
（ａ）問合せｃ∧ｄが出される、（ｂ）問合せの後、を
示す図である。

【符号の説明】

２１ネットワーク２２受信マシン２４中間マシン２６送信マシン

Claims

【特許請求の範囲】

【請求項１】メモリを備え、該メモリ内の１セットの
ロケーションがキャッシュを形成し、該キャッシュは、
１つまたはそれ以上の意味論的領域から成る１セットの
各々について、コンテンツを含んでおり、該コンテンツ
は１つまたはそれ以上のデータアイテムを含んでいるシ
ステムを用いて、問い合わせに対する応答を得る方法で
あって、（ａ）問合せＱを得ること、（ｂ）前記問合せ
Ｑを用いて問合せシグネチャＳ_Qを得ること、（ｃ）前
記問合せシグネチャＳ_Qと少なくとも１つの前記意味論
的領域についての領域シグネチャＳ_Rとを用いて、前記
問合せＱに対し、１つの前記意味論的領域のコンテンツ
から少なくとも１つのデータアイテムを含む応答を得る
こと、から成ることを特徴とする方法。
【請求項２】請求項１に記載の方法において、更に、各意味論的領域について、前記領域シグネチャＳ
_Rを含んでおり、前記ステップ（ｃ）は、（ｃ１）任意の意味論的領域についてＳ_Q＝Ｓ_Rかどうか
を決定し、そうでない場合には、任意の意味論的領域に
ついてＳ_Q⊃Ｓ_Rかどうかを決定し、そうでない場合に
は、任意の意味論的領域についてＳ_Q⊂Ｓ_Riかどうかを
決定すること、および、（ｃ２）もし前記（ｃ１）が１領域についてＳ_Q＝Ｓ_Rと
決定したならば、その領域のコンテンツを前記問合せに
対する応答として得ること、もし前記（ｃ１）が１つま
たはそれ以上の領域についてＳ_Q⊃Ｓ_Rと決定したなら
ば、１つの領域のコンテンツにおいて前記問合せにマッ
チするデータアイテムを含む応答を得ること、もし前記
（ｃ１）が１つまたはそれ以上の領域についてＳ_Q⊂Ｓ
_Riと決定したならば、少なくとも１つの領域のサブセッ
トのコンテンツからデータアイテムを含む応答を得るこ
と、から成ることを特徴とする方法。
【請求項３】請求項１に記載の方法において、各項（ターム）は、セットされるほぼｋビットを有し、
前記キャッシュは各意味論的領域について更に前記領域
シグネチャＳ_Rを包含し、前記ステップ（ｃ）が、（ｃ３）任意の意味論的領域についてＳ_Q＝Ｓ_Rかどうか
を決定し、そうでない場合には、任意の意味論的領域に
ついてＳ_Q∩Ｓ_R＝Ｓ_Rかどうかを決定し、そうでない場
合には、任意の意味論的領域について｜Ｓ_Q∩Ｓ_R｜≧｜
Ｓ_R｜−ｋかどうかを決定すること、および、（ｃ４）もし前記（ｃ３）が１領域についてＳ_Q＝Ｓ_Rと
決定したならば、その領域のコンテンツを問合せＱに対
する応答として得ること、もし前記（ｃ３）が１つまた
はそれ以上の領域についてＳ_Q∩Ｓ_R＝Ｓ_Rと決定したな
らば、１つの領域のコンテンツにおいて前記問合せＱに
マッチするデータアイテムを含む応答を得ること、もし
前記（ｃ３）が１つまたはそれ以上の領域について｜Ｓ
_Q∩Ｓ_R｜≧｜Ｓ_R｜−ｋと決定したならば、少なくとも
１つの領域のサブセットのコンテンツからデータアイテ
ムを含む応答を得ること、から成ることを特徴とする方法。