JPH09171478A

JPH09171478A - 改良された索引によるアクセスを使用するデータベース管理システム

Info

Publication number: JPH09171478A
Application number: JP8182656A
Authority: JP
Inventors: Harry A Leslie; ハリー・エイ・レスリー; David W Birdsall; デビッド・ダブリュ・バーズオール; Rohit N Jain; ロヒト・エヌ・ジェイン; Hedieh Yaghmai; ヘディー・ヤグマイ
Original assignee: Tandem Computers Inc
Current assignee: Tandem Computers Inc
Priority date: 1995-06-07
Filing date: 1996-06-07
Publication date: 1997-06-30
Also published as: JPH1125096A; US5778354A; CA2178264A1; EP0747839A1

Abstract

(57)【要約】【課題】簡単且つ効率的にデータベースをサーチでき
るようにする。【解決手段】各サーチキーは、データベース管理シス
テムのコンパイラでサーチ質問に基づいて作成される一
般表現文から構築される。各キーコラムは他の次元を示
し、レンジおよびＩＮリストは、サーチ質問により明示
することができ、マルチコラム述語値として使用可能で
ある。前記質問で指定されない述語は、関連キーコラム
の最小値および最大値の明示として解釈される。コンパ
イラは、サーチキーを作成するために前記システムのエ
クスキュータによって使用される一般表現を生成する。
コンパイラは、述語を、前記質問表現における各論理和
項に割当てられたクラスタと論理和項番号に関連づける
ことによって、サーチ質問を評価する。エクスキュータ
は、コンパイラからの一般表現を使用し、同じコラム述
語間の矛盾を除去し、述語値および論理和項の冗長性を
除去し、アクセスすべきレコード数を必要最少限に減じ
る。サーチキーは、サーチが属する索引と同順序で生成
される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、リレーショナル
データベース管理システムに関し、改良された索引付き
アクセスによるリレーショナルデータベース管理システ
ムに関する。

【０００２】

【従来の技術】ほとんどの従来のリレーショナルデータ
ベース管理システム（ＤＢＭＳ）においては、ユーザが
ＳＱＬ（structured query language：構造化質問言
語）コマンドのような適当なコマンドを使用して大きな
データベースまたはテーブルに関する質問を行えるよう
にするＢ−木（B―tree）を使用している。Ｂ−木は、
データベースメモリに格納され、１つまたは複数のコラ
ムを有する索引であり、各前記コラムは、該索引におけ
る他の次元を示すものである。前記Ｂ−木は、適当な質
問コマンドを介してユーザによって指定される１つまた
は複数のキーを使用して、データベース内のレコードを
サーチすることを可能にする。前記キーは全レコードテ
ーブルの部分集合を定義するので、索引付きサーチは、
ユーザの質問に関するレコードのより小さい部分集合を
読み出すために前記全レコードテーブルをサーチする必
要を無くする。

【０００３】理想的には、索引付きアクセスは、ほとん
どの質問に関して、関係するレコードが最小のトランザ
クションコスト（該コストは、前記質問を完了するため
に必要な補助記憶アクセスの等価数のような適当なパラ
メータによって測定される）でアクセスされることを可
能にする。

【０００４】

【発明が解決しようとする課題】しかし、ユーザがＢ−
木の索引構造を使用してＤＢＭＳに対して行う多くの質
問は、索引付きアクセス技術を使用して処理できない。
このような場合、全レコードテーブルをサーチしなけれ
ばならないので、時間がかかり、比較的効率が悪い。さ
らに、あるレンジまたは特定の値リスト（ＩＮリストと
言う）内の値を指定する場合、１つの索引におけるただ
１つのキーコラムのみが使用可能であるという制約によ
って、サーチすべき合計レコード数を減少できる程度が
相当制限される。

【０００５】例えば、コラムａ，ｂ，ｃ，ｄ，ｅ，ｆ，
ｇを有するテーブルＴ、および、コラムａ，ｂ，ｃ，ｄ
を有する対応する索引Ｉを仮定する。 where a = 10 and b = between 20 and 30 and c = 40 and d = 50 という述語に関するすべてのレコードを選択するよう要
求するユーザの質問は、 begin key : a = 10, b ≧ 20 end key : a = 10, b ≦ 30 という形態のビギン−エンドキーとになる。前記述語は
c = 40，d = 50と指定しているが、キーコラムｃおよび
ｄに関するこれら２つの等号述語は、ｂについてのレン
ジにより、サーチキーには含まれない。その結果、前記
索引における前記述語に一致するレコードのサーチは、
最も近い（ａ，ｂ）対を捜すことができることになる
が、精確に所望の（ａ，ｂ，ｃ，ｄ）値に達することが
できない。言い換えると、前記索引におけるすべてのｃ
およびｄの値が調べられ、所望のｃおよびｄの値と比較
されなければならない。前記ｃコラムおよびｄコラムに
おけるレコード数によるが、前記索引サーチを行うため
に必要な時間の長さ（従ってコスト）は、よくても、最
適値より長い。

【０００６】既存のＢ−木索引構造のその他の問題点
は、キーコラム述語が不明（未指定）の場合に課される
制約である。例えば、 where a = 10 and c = 40 and d = 50 という述語を仮定する。従来のキー構築方法によって構
成されるビギン−エンドキーは、 begin key : a = 10 end key : a = 10 のようになる。この場合、コラムｂに関する述語が無い
ことによって、コラムｃおよびｄに関する述語の使用が
阻止される。その結果、索引テーブルがすべての値
（ｂ，ｃ，ｄ）についてサーチされなければならない。
キー述語が指定されていないコラムが分割キーの１番目
のコラムがである場合、特別な情況が発生する。

【０００７】例えば、 where a = 30 and c = 40 and d = 50 という述語を仮定する。分割キーの１番目のコラムａに
関する述語が指定されていないので、従来のキー構築方
法は、これらの述語からサーチキーを構築することがで
きない。その結果、前記ＤＢＭＳによって構成される質
問実行案は、全面的なテーブルスキャンを行わなければ
ならない。

【０００８】前記サーチ質問にＩＮ述語が介在している
場合、前記Ｂ−木索引構造にその他の問題点が発生す
る。例えば、 where a = 10 and b in （20,30） and c = 40 and d = 50 という述語を仮定する。コラムｂに関する前記ＩＮ述語
は、１組の値との同等比較を指定する。

【０００９】従来のキー構築方法は、１組の複数の値で
はなくまさに１つの値に関する同等比較を行うことがで
きる。従って、前記ＩＮ述語はキーに使用できない。そ
の結果、サーチキーはコラムａのみを含み、 begin key : a = 10 end key : a = 10 となる。コラムｂに関する使用可能なキー述語が無いこ
とによって、コラムｃおよびｄに関する述語の使用が阻
止される。その結果、コラムｂ，ｃ，ｄの完全なサーチ
を行わなければならない。

【００１０】質問コマンドの述語に関して論理和標準形
(disjunctive normal form)を強制的に使用することに
よって、Ｂ−木索引に基づくＤＢＭＳにその他の問題点
が発生する。より詳しくは、例えば、

【数１】 SELECT * FROM T WHERE （a = 5 and （（b=1 and c IN （2,4,9）） OR （b=8 and c=7）） OR （a between 4 and 6 and （（b between 8 and 10 and c between 6 and 9） OR （b=9 and c=11）という質問コマンドを仮定する。

【００１１】この表現における論理和は次の通りであ
る。

【数２】（a=5 and b=1 and c IN （2,4,9） OR （a=5 and b=8 and c=7） OR （a≧4 and a≦6 and b≧8 and b≦10 and c≧6 and c≦9） OR （a≧4 and a≦6 and b=9 and c=11）典型的な従来のＤＢＭＳにおいて、質問コマンドに関係
するすべてのレコードのサーチは、１番目の論理和項
（disjunct) から始まる。すべてのこのようなレコード
が見つけられると、２番目の論理和項（disjunct) に関
係するすべてのレコードのサーチが行われ、その後、３
番目の論理和項（disjunct) に関係するすべてのレコー
ドのサーチが行われ、４番目の論理和項（disjunct) に
関係するすべてのレコードのサーチで終わる。３番目の
論理和項に関係するレコードのサーチ時に２番目の論理
和項に関係する１つのレコードが再度アクセスされると
いう事実により、この技術は効率的ではない。上記の例
はただ１回だけ同一レコードの反復読出しを必要とする
が、実際には、比較的大きなデータベースのレコードに
アクセスする場合、比較的多数の反復読出しが日常的に
発生する。

【００１２】この反復レコードの問題をさらに大きくす
るのは、当該システムによって課される意味的な制約の
ために、アクセス中に１つのレコードがユーザに対して
２度戻され得ないという事実である。従って、ほとんど
のＤＢＭＳは、アクセス中に読み出されたレコードのテ
ーブルを作成しなければならず、これは、サーチ質問に
よって指定されたレコード数に応じて、相当量のメモリ
スペースを必要とする可能性がある。反復レコードアク
セスの問題は、質問コマンドにおける相反する述語の出
現によって大きくなることがある。ユーザが相反する述
語を有する質問コマンドを提起することはほとんどない
が、隠された述語を有するビューが使用される場合、ま
たは、ホスト変数が固定値と組合わせて使用される場
合、または、ソフトウエアによって質問が発生される場
合、上記問題点は頻繁に発生する可能性がある。

【００１３】例えば、 Create view VT as SELECT * from where b IN （3,9,1
6,25,36）というビューVTが存在すると仮定する。また、ユーザ質
問が、であると仮定する。

【００１４】この例において、２０〜３０のレンジのビ
ューには１つのｂ値しか存在していない場合でも、ユー
ザは、意識することなく、２０〜３０のレンジにあるビ
ューにおけるｂのすべての値をサーチするよう前記ＤＢ
ＭＳに対して要求している。その結果、２０〜３０のレ
ンジのすべてのｂ値がアクセスされ、３０個のレコード
が不必要になる（１０個の不必要なｂ値×３個のｃ
値）。この発明は、上述の点に鑑みてなされたもので、
効率的且つ簡単に、データベースをサーチする方法およ
びシステムを提供しようとするものである。

【００１５】

【課題を解決するための手段】この発明は、リレーショ
ナルデータベース管理システムにおいて、ある特定のサ
ーチにおいてアクセスされるレコードの合計数を実質的
に減らすことができ、サーチキーの多数のコラムに関す
る複数のレンジおよびＩＮリストを可能にし、１つまた
は複数のコラム値が無い場合でも使用可能なサーチキー
を構築でき、且つ、前記サーチキーの個々のコラムを該
キーが属するテーブルと同様に配列することが可能な、
改良された索引付きコードアクセスを実現する方法およ
びシステムを提供する。

【００１６】この発明は、オプティマイザおよびＤＢＭ
Ｓエクスキュータと称するＤＢＭＳコンパイラの一部分
によって実行される。前記オプティマイザは、先ずサー
チ質問を評価し、前記ＤＢＭＳエクスキュータのための
キー表現を生成する。該キー表現は、個々のコラムのレ
ンジおよびＩＮリスト述語を含むマルチコラムキーを記
述するものである。前記オプティマイザは、一般的なＯ
Ｒ最適化を実行し、質問文の述語を、クラスタおよび論
理和項番号(disjunct numbers)に関連づける。このオプ
ティマイザにおける論理和項番号の使用によって、この
発明によれば、述語および論理和項(disjunct)のための
メモリスペース使用量を最少化することができる。とい
うのは、述語が繰り返される代りに、各述語が現れる論
理和項番号のリストが作成されるからである。述語は、
共通する１組の論理和項番号を共有してよい。ＩＮリス
トは、論理和項の数を最少化できるよう、単一の論理和
として処理される。なお、クラスタは、同じコラムにお
ける同等の述語の集まりである。

【００１７】前記ＤＢＭＳエクスキュータは、データベ
ーステーブル、ビューまたはカタログに対してコンパイ
ルされた質問文を実行するＤＢＭＳシステムライブラリ
における１組の手続きから構成される。前記ＤＢＭＳエ
クスキュータは、ＧＥＭ−木と称されるデータ構造を作
成するために、前記ＤＢＭＳコンパイラのオプティマイ
ザ部分によって供給されるキー表現を評価する。各ＧＥ
Ｍ−木は、レンジおよび真値を記述するキーコラムに関
する情報、各コラムについて定義された述語、比較演算
子およびその他の情報を含んでいる。前記ＤＢＭＳエク
スキュータで実行されるＧＥＭ−木構築処理は、各コラ
ムにおける順序（すなわち、昇順または降大順）を維持
しながら、レンジを組合わせ、キーコラムにおける重複
を除去することを含むものである。前記ＤＢＭＳエクス
キュータによってＧＥＭ−木が構築されると、必要なテ
ーブルからデータを読み出すための実際のキーを構築す
るために、前記木から値が取り出される。

【００１８】前記ＧＥＭ−木を構築する処理において、
前記ＤＢＭＳエクスキュータは、個々のレコードがただ
一度読み出されるよう、異なる論理和項からの値を分類
し、１つのコラムに畳込む。これにより、すべての重複
した値が除去されるので、サーチ案を実行するためのコ
ストをかなり節約できる。さらに、多数の論理和項が存
在している場合でも、各索引からのデータが索引順に読
み出されるよう複数のキーが構築される。これは、個々
のレコードのアクセスを容易にする。

【００１９】前記ＤＢＭＳエクスキュータにおいて各コ
ラムごとに論理和項番号を使用することによって、同じ
レコードが決して二度読みされることのないような、多
数のコラム論理和項の組み立てが実現される。これは、
前記ＤＢＭＳエクスキュータによる値の分類および畳込
みを容易にする。

【００２０】また、前記ＤＢＭＳエクスキュータは、１
つの論理和項におけるそのコラムに関するすべての述語
から、１つの論理和項に関するすべての述語の極小組を
捜し出す。これは、単一のコラムに相反する述語が多数
存在する場合に行われる。前記すべての述語の極小組
は、述語の組合わせに必要な値の極小組を求めることに
よって決定される。この技術が前記異なる論理和項から
の値を分類し１つのコラムに畳込む処理と共に行われる
ことによって、最少量のデータのみを読み出せばよいこ
とになる。

【００２１】前記ＧＥＭ−木を構築する処理において、
前記ＤＢＭＳエクスキュータは、指定されていないキ
ー、および、前記ＤＢＭＳコンパイラのオプティマイザ
部分によって供給される一般化されたキー表現における
レンジおよびＩＮリストの指定を認識する。これは、索
引の多次元のビューを可能にし、効率的なアクセスを可
能にする。

【００２２】

【発明の実施の形態】本発明の本質と利点をよく理解す
るために、以下、添付図面を参照してこの発明の一実施
の形態を詳細に説明する。図１には、格納されたデータ
ベースにデータを格納し、該データにユーザがアクセス
できるようにするコンピュータシステム１００が示され
ている。該システム１００は、ローカルエリアネットワ
ーク媒体および広域ネットワーク媒体１０８によって相
互接続された多数のコンピュータ１０２、１０４、１０
６を有する分散型コンピュータシステムである。前記シ
ステム１００は、少なくとも１つのデータベースサーバ
１０２と、多数のユーザワークステーションコンピュー
タまたは端末装置１０４、１０６を備えている。

【００２３】システムに極めて大きなデータベースが格
納される場合、該データベースのテーブルは分割され、
該データベースの異なる分割部分は、しばしば、異なる
ＣＰＵによって制御される異なる物理的なディスクに格
納されることになる。しかし、ユーザワークステーショ
ンコンピュータ１０４、１０６から見ると、前記データ
ベースサーバ１０２は単一の構成要素のように見える。
データベースの分割は当業者に周知の技術である。

【００２４】図１に示すように、データベースサーバ１
０２は、ＣＰＵ１１０と、主メモリ１１２と、前記ユー
ザワークステーションコンピュータ１０４、１０６およ
びこの発明とは関係のない他のシステム資源との通信を
行うための通信インターフェース１１４とを備えてい
る。該データベースサーバ１０２における補助メモリ
（典型的には、磁気ディスク記憶装置）１１６は、デー
タベーステーブル１２０、データベース索引１２２、ユ
ーザおよびオペレータが前記データベーステーブルにア
クセスできるようにするデータベース管理システム（Ｄ
ＢＭＳ）１２３と、前記データベーステーブル１２０に
関するスキーマ情報、および、前記データベーステーブ
ル１２０にアクセスするために使用されるプログラムの
ためのディレクトリ情報を格納する１つまたは複数のカ
タログ１２６を格納している。前記ＤＢＭＳ１２３は、
ＳＱＬ（structured query language）エクスキュータ
１２４と、ＳＱＬカタログマネージャー１２５およびＳ
ＱＬコマンドインタプリタのようなその他のデータベー
ス管理サブシステムとを含んでいる。さらに、前記ＤＢ
ＭＳ１２３は、ソースコードデータベース質問プログラ
ム１３０をコンパイル済み実行案１３２にコンパイルす
るＳＱＬコンパイラ１２８を含んでいる。該ＳＱＬコン
パイラ１２８は、指定されたＳＱＬ文をコンパイルして
実行案を生成するためにも使用可能である。

【００２５】エンドユーザワークステーションコンピュ
ータ１０４、１０６は、典型的には、ＣＰＵ１４０と、
主メモリ１４２と、前記データベースインターフェース
１０２およびその他のシステム資源との通信を行うため
の通信インターフェース１４４と、補助メモリ１４６
と、ユーザインターフェース１４８とを備えている。該
ユーザインターフェース１４８は、典型的にはキーボー
ドと表示装置とを備え、多くのものは、位置決め装置や
プリンタのような付加的な資源を備えている。前記補助
メモリ１４６は、データベースサーバ１０２にアクセス
するために使用される通信ソフトウエアなどのコンピュ
ータプログラムを格納するために使用される。いくつか
のエンドユーザワークステーションコンピュータ１０６
は、補助メモリ１４６を備えていない“無言”端末装置
であってよく、データベースサーバ１０２またはファイ
ルサーバ（図示せず）などのサーバコンピュータから主
メモリ１４２にダウンロードされたソフトウエアのみを
実行する。

【００２６】〔用語解説〕この明細書で使用される用語
を説明すると次のようである。ＳＱＬ：“構造化質問言語”を意味する。ほとんどの商
用的なデータベースは、ＳＱＬを使用している。ここ
で、ＳＱＬを使用するデータベースのデータにアクセス
するプログラムを、“ＳＱＬプログラム”と言う。ま
た、データベースのデータにアクセスするＳＱＬプログ
ラムにおける各文を、“ＳＱＬ文”と言う。１つのＳＱ
Ｌプログラムは、１つまたは複数のＳＱＬ文を含むもの
である。

【００２７】実行案：データベースのデータに効率的に
アクセスする手法を指定する中間形態にコンパイルされ
たＳＱＬ文。実行特徴：その意味（すなわち、操作性）に影響を与え
ない実行案の特徴。一例として、案の性能およびその資
源消費がある。

【００２８】オブジェクト：オブジェクトとは、単一の
構造としてプログラムによってアクセスされるファイ
ル、データベーステーブルまたはその他のカプセル化さ
れたコンピュータ資源のことである。好ましい実施の形
態において、オブジェクトはデータベーステーブルであ
る。この発明の他の実施の形態において、オブジェクト
は、有効性が確認された指定された方法（すなわち、プ
ログラム）を介してエンドユーザがアクセスするその他
のカプセル化されたコンピュータ資源であってもよい。

【００２９】ＤＤＬ文：data definition language sta
tementすなわちデータ定義言語文。該ＤＤＬ文は、デー
タベースオブジェクト（例えば、テーブルおよび索引）
を作成するため、および、データベースオブジェクトを
変形するために使用される。定義名：実行案によってア
クセスされるべきオブジェクトを示すオブジェクトハン
ドルまたはリンク。ＳＱＬ文は、直接的にオブジェクト
を参照する代りに、定義名によってオブジェクトを参照
することができる。こうして、前記プログラムを変更す
る必要なしに、オペレータは、単に、プログラムを実行
する前に新たなオブジェクトを指示するよう定義名を変
更するだけで、前記プログラムがコンパイル時オブジェ
クトとは異なるオブジェクト組にアクセスさせることが
できる。

【００３０】ソースコードプログラム／文：各実行案ご
とに、これに対応するソースコードＳＱＬ文が存在す
る。ソースコードプログラムは、ここではまとめて“コ
ンパイル済みプログラム”と言う１組の実行案に対応す
る１組のＳＱＬ文である。ＳＱＬコンパイル：ＳＱＬ文プログラムすなわちＳＱＬ
プログラムをコンパイルする動作。そのコンパイルは、
当該プログラムのＳＱＬ文に関する新たな実行案を生成
するために、例えばTandemの“SQLCOMP（登録商標）”
のようなＳＱＬコンパイラを実行することによって行わ
れる“静的”コンパイルであってよい。ＳＱＬコンパイ
ルは、また、プログラムが無効であると記すことによっ
て、または、ＳＱＬ文と該文によって参照されるオブジ
ェクトとの時刻印（タイムスタンプ）不一致によって開
始される、自動的な再コンパイルのような動的コンパイ
ルであってもよい。

【００３１】エンドユーザ：ワークステーションを使用
して、データベースサーバにおけるデータベースにアク
セスする人。典型的には、エンドユーザは、データベー
ステーブルの構造を変形する権限を有さない。オペレータ：データベーステーブルの構造を変形し、Ｓ
ＱＬソースコードプログラムのコンパイルを手操作で開
始する権限およびアクセス権を有する人。ビュー：物理的な存在を伴わない関係に関する論理的な
定義、すなわち、仮想リレーション。ビューによって示
されるデータは、ベーステーブルから得られる。

【００３２】ＧＥＭ：genral expression method（一般
的表現法）の頭文字語であって、この発明のいくつかの
特徴を示すために使用される。ＭＤＡＭ：multiーdimensional access method（多次元
アクセス法）の頭文字語であって、この発明を示す代替
語。

【００３３】〔データベースサーバの説明〕図２は、前
記データベースサーバ１０２に格納されたデータ構造と
プログラムとの間の相互関係のいくつかを示すものであ
る。ソースコードプログラム１３０―１は、ＳＱＬソー
スコード文１６０のシーケンス、および、その他の非Ｓ
ＱＬソースコード文（例えば、割当て、および、プログ
ラムフロー文）を含んでいる。ＳＱＬコンパイラ１２８
は、ＳＱＬソースコード文を、ここでは実行案と言うコ
ンパイルされた文１６２のシーケンスを有するコンパイ
ル済みプログラム１３２―１にコンパイルする。各前記
ソースコード文１６０は、対応する実行案１６２を有す
る。前記コンパイル済みプログラム１３２は、後述する
ように、ＳＱＬエクスキュータ１２４によって使用され
る１組の実行時（ランタイム）特性を格納する“ファイ
ルラベル”１６４（すなわち、プログラムにおけるデー
タ構造）を含んでいる。さらに、各実行案１６２は、コ
ンパイルされた質問に加えて、該実行案によってアクセ
スされるべき各データベースオブジェクトごとに時刻印
１６６および１組のスキーマ情報１７０を含んでいる。

【００３４】各データベーステーブルまたはデータベー
スオブジェクト１２０は、ここでは“オブジェクトヘッ
ダ”と言うディスクラベル１８０と、オブジェクト本体
１８２を含んでいる。前記オブジェクトヘッダ１８０
は、データベースオブジェクト１２０の構造、識別およ
びその他の特徴についての情報を格納しており、一方、
オブジェクト本体１８２は、該データベースオブジェク
トのデータ内容を格納している。前記オブジェクトヘッ
ダ１８０は、オブジェクト名フィールド１８４と、該デ
ータベースオブジェクト１２０におけるデータの構造お
よびその他の特徴を定義するオブジェクトスキーマ１８
６とを含んでいる。前記データベースオブジェクトの
“ディスクラベル”１８０に格納されたオブジェクトス
キーマ１８６は、該データベーステーブルに関してＳＱ
Ｌカタログ１２６に格納されたカタログ情報の圧縮され
た表現であり、従って、データ属性定義１８８、時刻印
１９０およびその他のオブジェクトパラメータ１９２を
含んでいる。

【００３５】前記カタログ１２６自体は、前記データベ
ースサーバに格納されたデータベースオブジェクト（例
えば、テーブルおよび索引）についての情報、および、
前記データベースサーバに格納されたプログラムについ
ての情報を格納する１組のテーブルを有するデータベー
スである。このカタログ１２６の構造については、図３
〜図１１を参照して後で詳述する。

【００３６】上述したように、前記コンパイラ１２８
は、ＳＱＬプログラム１３０を、１組の実行案１６２を
有するコンパイル済みＳＱＬプログラム１３２にコンパ
イルするものである。該コンパイラ１２８の動作は、手
操作によって入力されるコンパイラコマンド１９４、ま
たは、無効または動作不能な実行案を実行する場合に前
記ＳＱＬエクスキュータ１２４によって生成される再コ
ンパイルコマンド１９６によって開始される。手操作に
よって開始されるコンパイルは、ユーザまたはオペレー
タによって入力されるコマンド１９４、または、より普
通には、データ定義およびコンパイラコマンドのシーケ
ンスを含むユーザまたはオペレータによって開始される
スクリプトによって制御される。

【００３７】前記ＳＱＬエクスキュータ１２４は、エン
ドユーザおよびオペレータの実行時コマンド１９８に応
答する。このような実行時コマンド１９８は、例えばデ
ータベーステーブルからデータを読出し、データベース
テーブルにデータを付加するために、エンドユーザによ
って開始される標準的なコマンドを含む。また、前記実
行時コマンド１９８は、データベーステーブルを作成
し、既存のデータベーステーブルの構造を変形するため
のＤＤＬ（data definition language）文を含んでい
る。しかし、これらの実行時コマンド１９８を使用する
権限は、通常、ここではオペレータと呼ばれる人に制限
されている。図１のシステム動作をより詳しく理解する
ために、１９８８年７月発行の“TANDEM SYSTEMS REVIE
W”第４巻、No.2を参照されたし。

【００３８】〔カタログおよびディスクラベルのデータ
構造〕図３において、好ましい実施の形態におけるカタ
ログ１２６は、１つデータベースサーバまたは１組のデ
ータベースサーバにおけるデータベーステーブルおよび
プログラムを示す１組のテーブル２００〜２２０で構成
されている。図４において、“TABLES”テーブル２００
は、前記データベースサーバにおける各データベーステ
ーブルごとに、１つのレコード２２２を含んでいる。各
レコード２２２は、次のようなフィールドを有する：前
記データベーステーブルの名前を示すTableNameフィー
ルド２２４；参照されたデータベーステーブルが真のデ
ータベーステーブルか、または、ＳＱＬ文によってデー
タベーステーブルと同様に参照される１つまたは複数の
データベーステーブルの部分集合である“ビュー”であ
るかをTableTypeフィールド２２５；

【００３９】当該テーブル（またはビュー）における異
なるコラムの数を示すColumCountフィールド２２６；当
該テーブル（またはビュー）が最初に作成された時を示
す時刻印値であるCreateTimeフィールド２２７；前記テ
ーブル（またはビュー）が最後に変更された時を示す時
刻印値であるRedeTimeフィールド２２８；当該テーブル
についての類似チェックが許可される場合に“イネーブ
ル”を示し、そうでない場合に“ディスエーブル”を示
すフラグであるSimilarityCheckフィールド２２９；そ
の他のパラメータ２３０はここでは関係ない。図５にお
いて、“BASETABLES”テーブル２０２は、前記データベ
ースサーバにおける各データベーステーブルごとに１つ
のレコード２３２を含んでいる。各前記レコード２３２
は、次のようなフィールドを有する：

【００４０】前記データベーステーブルの名前を示すTa
bleNameフィールド２３４；参照されたデータベーステ
ーブルが格納されているディスクファイルの名前を示す
FileNameフィールド２３５；当該テーブルにおけるロー
の数を示すRowCountフィールド２３６；各ローの最大サ
イズ（バイトまたはワード単位）を示すRowSizeフィー
ルド２３７；前記ファイルが有効な定義、正しいファイ
ルラベルおよびカタログエントリを有するか否かを示す
フラグ値（イエスまたはノー）であるValidDefフィール
ド２３８；当該テーブルにおけるデータがこのテーブル
の索引に一致し、該テーブルに関する制限を満たすか否
かを示すフラグ値（イエスまたはノー）であるValidDat
aフィールド２３９；

【００４１】当該テーブルが定義された制限を有するか
否かを示すフラグ値（イエスまたはノー）であるConstr
aintsフィールド２４０；その他のパラメータ２４１は
ここでは関係ない。図６において、“COLUMNS”テーブ
ル２０４は、前記データベースサーバにおける各データ
ベーステーブルごとに１つのレコード２５２を含んでい
る。各前記レコード２５２は、１つのデータベーステー
ブルコラムの特徴を示すもので、次のようなフィールド
を有する：このレコード２５２に対応するコラムが含ま
れているデータベーステーブルの名前を示すTableName
フィールド２５４；当該テーブルの各ローにおけるコラ
ムの位置を示す数であって、１番目のコラムはコラムナ
ンバ０を有するColumnNumberフィールド２５５；

【００４２】当該コラムのＳＱＬ識別子とも言うコラム
名を示すColumnNameフィールド２５６；当該コラムにお
けるデータのサイズ（バイトまたはワード単位）を示す
ColumnSizeフィールド２５７；当該テーブルまたはテー
ブル部分に関する前記コラムの特有のデータエントリの
数を示すUniqueEntryCountフィールド２５８；当該デー
タベーステーブルのコラムから抽出されたデータを印刷
する場合に、デフォルトコラムヘッディングとして使用
されるテキスト列であるHeadingTextフィールド２５
９；その他のパラメータ２６０はここでは関係ない。

【００４３】図７において、“INDEXES”テーブル２１
０は、前記データベースサーバにおける各データベース
索引ごとに１つのレコード２６２を含んでいる。各前記
レコード２６２は、次のようなフィールドを有する：デ
ータベーステーブルの名前を示すTableNameフィールド
２６３；当該索引の名前を示すIndexNameフィールド２
６４；当該索引に使用される主要キーコラムを含むコラ
ムの数を示すColCountフィールド２６５；当該データベ
ーステーブルに関する主要キー索引である場合、キータ
ッグを指定するKeytagフィールド２６６；当該索引の定
義が有効であるか否かを示すフラグ値（イエスまたはノ
ー）であるValidDefフィールド２６７；当該索引が有効
データを有するか否かを示すフラグ値（イエスまたはノ
ー）であるValidDataフィールド２６８；前記索引にお
けるすべてのエントリがユニークなものか否かを示すフ
ラグ値（イエスまたはノー）であるUniqueValueフィー
ルド２６９；当該索引における索引レベルの数を示すIn
dexLevelsフィールド２７０；各索引レコードのサイズ
を示すRowSize２７１；当該索引を含んだファイルを示
すFileName２７２；ここでは、その他のパラメータ２７
３は関係ない。

【００４４】図８において、“KEYS”テーブル２１２
は、主要キーの各コラムごとに１つのレコード２８２を
有すると共に、前記データベースサーバにおける各デー
タベーステーブルごとに１つの索引を有する。各前記レ
コード２８２は、１つのキーまたは索引に関するテーブ
ルコラムを示し、次のようなフィールドを有する：当該
索引の名前を示すIndexNameフィールド２８３；当該索
引ローにおけるコラムの位置を示すKeySequenceNumber
フィールド２８４；各テーブルローにおけるコラムの位
置を示すTableColumnNumberフィールド２８５；当該コ
ラムが昇順または降順のコラムかを示すOrderingフィー
ルド２８６。

【００４５】図９において、“FILES”テーブル２０６
は、前記データベースサーバにおける各データベーステ
ーブルおよび索引ごとに１つのレコード２９２を有す
る。各前記レコード２９２は、１つのデータベースファ
イルの特徴を示し、次のようなフィールドを有する：デ
ータベースファイルの名前を示し、ベーステーブルレコ
ード２３２のFileNameエントリ２３５または索引レコー
ド２６２のエントリ２７２に対応するFileNameフィール
ド２９４；当該ファイル内におけるデータがどのように
して連続しているか（例えば、エントリ連続、キー連続
など）を示すFileTypeフィールド２９５；当該ファイル
が格納されている補助メモリブロックのサイズ（例え
ば、５１２，１０２４，２０４８または４０９６バイ
ト）を示すBlockSizeフィールド２９６；

【００４６】当該ファイルが分割されているか否かを示
すフラグ値（イエスまたはノー）であるPartitionedフ
ィールド２９７；当該ファイルにおけるレコードの最大
長さを示すRecordSizeフィールド２９８；当該ファイル
のデータページおよび索引ページのデータが圧縮されて
いるか否かを示すフラグ値（イエスまたはノー）である
CompressionInfoフィールド２９９；当該ファイルにお
ける主要レンジおよび補助レンジのサイズ、ならびに、
該ファイルにおけるレンジの最大数を示すExtensionInf
oフィールド２９９；ここでは、その他のパラメータ３
０１は関係ない。ファイルが分割される場合、分割テー
ブル２１４は、該ファイルの各分割部分ごとに、分割部
分名およびカタログエントリを示す１つのレコード、お
よび、該ファイルの主要キーにおける各コラムのスター
ト値を含むことになる。

【００４７】図１０において、“PROGRAMS”テーブル２
０８は、前記データベースサーバにおける各登録された
プログラムごとに１つのレコード３１２を有する。各前
記レコード３１２は、１つのプログラムの特徴を示し、
次のようなフィールドを含んでいる。該プログラムの名
前を示すProgramNameフィールド３１４；該プログラム
の所有者を示すOwnerIDフィールド３１５；該プログラ
ムが最初にＳＱＬコンパイルされた時を示す時刻印値で
あるCreateTimeフィールド３１６；該プログラムが最後
にコンパイルされた時を示す時刻印値であるRecompileT
imeフィールド３１７；

【００４８】該プログラムが有効か否かを示すフラグ値
（イエスまたはノー）であるValidフィールド３１８；
必要な場合、当該プログラムの自動的な再コンパイルが
実行時に可能か否かを示すフラグ値（イエスまたはノ
ー）であるAutoCompileフィールド３１９；後で詳述す
るように、“All”または“OnDemand”に設定され、（A
utoCompileパラメータおよびCheckModeパラメータと共
に）該プログラム内のプログラムおよび文が再コンパイ
ルされる時を制御するモード値であるRecompileModeフ
ィールド３２０；“InvalidProgram”，“InvalidPlan
s”または“InoperableProgram”に設定され、（AutoCo
mpileパラメータおよびRecompileModeパラメータと共
に）該プログラム内のプログラムおよび文が再コンパイ
ルされる時を制御するモード値であるCheckModeフィー
ルド３２１；

【００４９】コンパイル済みプログラムが該プログラム
のコンパイルされた文ごとに類似情報を有するか否かを
示すフラグ値（イエスまたはノー）であるSimilarityIn
fo３２２；ここでは、各文ごとの類似情報は、その文に
よってアクセスされるデータベーステーブルに関するス
キーマの部分集合からなる。その他のパラメータ３２３
はここでは関係ない。

【００５０】さらに、図１１において、“USAGES”テー
ブル２２０は、１つのオブジェクトの他のオブジェクト
による使用ごとに１つのレコード３３０を含んでいる。
各前記レコード３３０は、データベーステーブルを使用
する各プログラムごとにその関係を示し、次のようなフ
ィールドを有する：“使用される方の”オブジェクトの
名前を示し、この明細書では、データベーステーブルの
テーブル名であるUsedObjectNameフィールド３３２；前
記使用される方のオブジェクトの種類を示し、この場合
“テーブル”であるUsedObjectTypeフィールド３３４；
使用される方のオブジェクトに関する他の定義された種
類は“ビュー”および“索引”である。使用する方のオ
ブジェクトが前記使用される方のオブジェクトに依存し
ている場合にイネーブル状態にされるフラグであるRela
tionshipTypeフィールド３３６；

【００５１】前記使用する方のオブジェクトの名前を示
し、この明細書では、プログラムの名前であるUsingObj
ectNameフィールド３３７；前記使用する方のオブジェ
クトの種類を示し、この明細書では、プログラムである
UsingObjectTypeフィールド３３８；前記使用する方の
オブジェクトに関する他の定義された種類は“ビュー”
および“索引”である。その他のパラメータ３３９はこ
こでは関係ない。

【００５２】この発明を実施するために使用される図１
のシステムの主要な構成要素は、オプティマイザおよび
ＳＱＬエクスキュータ１２４と称するＳＱＬコンパイラ
１２８の一部分である。前記オプティマイザは、前記Ｓ
ＱＬコンパイラ１２８において、最初にサーチ質問を評
価し、ＳＱＬエクスキュータ１２４のためのキー表現を
生成する処理要素である。前記キー表現は、個々のコラ
ムに関するレンジおよびＩＮリスト述語を含む、マルチ
コラムキーを記述する。前記オプティマイザは、後述の
付録Ａで説明されたやり方で、一般的な論理和（ＯＲ）
最適化を実行し、述語をクラスタおよび論理和項番号
（disjunct numbers）に関連づける。

【００５３】前記オプティマイザにおける論理和項番号
の使用によって、この発明は、前記述語および論理和項
（disjunct）のためのメモリスペース使用量を最少化す
る。より詳しくは、従来のコンパイラにおいては、サー
チ質問を論理和標準形に変換する処理では、述語が、該
述語が現れるすべての論理和項について繰り返されるこ
とを必要とする。しかし、この発明においては、述語が
繰り返される代りに、各述語が現れる論理和項のリスト
が、付録Ａに記載された方法で作成される。

【００５４】さらに、多くの述語は、共通の１組の論理
和項番号を共用する。この発明の他の利点は、論理和項
の数を最少化するために、ＩＮリストを単一の論理和と
して処理することに在る。ＩＮリストは、まとめて論理
和処理（ＯＲed）される同一のコラムの単一の述語のリ
ストを明示する(specify)簡潔な方法である。このまと
めて論理和処理される同一のコラムの述語のリストは、
単一の論理和項として処理される。

【００５５】前記ＳＱＬエクスキュータ１２４は、デー
タベーステーブル、ビューまたはデータベースカタログ
に対して、コンパイル済みのＳＱＬ文を実行する、シス
テムライブラリにおける１組の処理からなる。前記ＳＱ
Ｌエクスキュータ１２４は、ＧＥＭ−木と称するデータ
構造を作成するために、前記ＳＱＬコンパイラ１２８の
オプティマイザデータベースによって供給されるキー表
現を評価する。各ＧＥＭ−木は、レンジおよび真値を記
述するキーコラムに関する情報、各コラムについて定義
された述語、比較演算子およびその他の情報を含んでい
る。前記ＳＱＬエクスキュータ１２４において実行され
るＧＥＭ−木の構築処理は、各コラムの順序（すなわ
ち、昇順または降順）を保持しながら、レンジを組合わ
せ、キーコラムにおける重複を除去することを含む。前
記ＳＱＬエクスキュータ１２４によってＧＥＭ−木が構
築された後、必要なテーブルからデータを読み出すため
の実際のキーを構築するために、前記木から値が読み出
される。このように、ＧＥＭ−木を構築し、テーブルか
らデータを読み出すための実際のキーを構築する前記Ｓ
ＱＬエクスキュータ１２４によるＧＥＭ木構築方法は、
後述の付録Ｂにおいて説明されている。

【００５６】前記ＧＥＭ木を構築する方法において、前
記ＳＱＬエクスキュータ１２４は、個々のレコードが１
度だけ読み出されるよう、異なる論理和項からの値を分
類し、１つのコラムに畳込む。すべての重複した値が除
去されるので、これは、サーチ案を実行する上でかなり
のコスト節約になる。さらに、多数の論理和項が存在し
ている場合でも、各索引のデータが索引順に読み出され
るよう前記キーが構築され、これは、個々のレコードの
アクセスを容易にする。

【００５７】前記ＳＱＬエクスキュータ１２４において
各コラムごとに論理和項番号を使用することによって、
同一のレコードが二度読み出しされる必要のないよう、
多数のコラム論理和項の畳み込みが可能になる。これ
は、前記ＳＱＬエクスキュータ１２４による値の分類お
よび畳込みを容易にする。また、前記ＳＱＬエクスキュ
ータ１２４は、１つの論理和項に関するすべての述語の
極小組を、１つの論理和項におけるそのコラムに関する
すべての述語の中から見つけ出す。これは、単一のコラ
ムについて相反する多数の述語が存在している場合に生
じる。前記ＳＱＬエクスキュータ１２４は、述語の組合
わせに必要な値の極小組を見つけることによって、すべ
ての述語の極小組を求める。これは、データの不必要な
読み出しを防止する。異なる論理和項からの値を分類し
畳込むことによって、必要最少量のデータが読み出され
ることを可能にする。

【００５８】ＧＥＭ木を構築する処理において、前記Ｓ
ＱＬエクスキュータ１２４は、前記ＳＱＬコンパイラ１
２８のオプティマイザ部によって供給される一般化され
たキー表現における、指定されていないキーと、レンジ
およびＩＮリストの明示を認識する。これは、索引の多
次元のビューを可能にし、且つ、ユーザが純粋に分割目
的で索引の始めのコラムを定義した場合でも効率的なア
クセスを可能にする。上記特徴の一例は次のようであ
る。

【００５９】〔介在するレンジ〕 WHERE a=10 AND b between 20 and 30 AND c=40 AND d=50 という述語を含むユーザサーチ質問を仮定する。従来の
システムにおいて、コラムｃおよびｄにおける述語は、
ｂに関する介在するレンジ述語により、キーとして使用
できない。この発明は、次のようにして、４つのキーコ
ラムのすべての使用を可能にする。

【００６０】レンジ述語は、該レンジのコラムのすべて
の値を実行することによって、前記ＳＱＬエクスキュー
タ１２４において処理される。２０〜３０のｂの値が
（２０、２３、２５、３０）であると仮定する。前記Ｓ
ＱＬエクスキュータ１２４は、先ず、 a=10、b=20、c=40、d=50 についてキーによるアクセスを実行する。前記ＳＱＬエ
クスキュータ１２４がこれらのキーコラムに関するすべ
てのレコードを受け取ると、該エクスキュータ１２４
は、ファイルシステムに対して、２３であるｂの次の値
をリクエストする。次に、a=10、b=23; c=40、d=50のよ
うに、この値２３はｂのキー値として代入される。これ
らのレコードが読み出されると、ｂの次の値（すなわ
ち、２５）が選択される。

【００６１】〔指定されていないキー述語〕 WHERE b between 20 and 30 AND c=40 AND d=50 という述語を含むユーザサーチ質問を仮定する。この場
合、キーコラムａは指定されていないので、従来のシス
テムは、この索引をキーによるアクセスに使用できな
い。しかし、この発明によると、コラムａの指定されて
いない述語は、MIN_VALUEからMAX_VALUEまでの暗黙のレ
ンジ（ゼロを含む）として処理される。前記ＳＱＬエク
スキュータ１２４は、先ず、前記ファイルシステムに対
してコラムａの１番目の値を要求し、該値をビギン・キ
ー値に代入する。

【００６２】ここで、コラムａの値が１から１００まで
のすべての値を含むものと仮定する。前記ＳＱＬエクス
キュータ１２４は、先ず、 a=1、b=20、c=40、d=50 の値を使用してキーによるアクセスを行う。この１組の
値に関するレコードを読み出した後、前記ＳＱＬエクス
キュータ１２４は、次のようにコラムｂを残りの３つの
値に変える。 a=1、b=23、c=40、d=50 a=1、b=25、c=40、d=50 a=1、b=30、c=40、d=50 その後、前記ＳＱＬエクスキュータ１２４は、前記ファ
イルシステムからコラムａの次の値を得て、コラムｂの
上記値を繰り返す。 a=2、b=20、c=40、d=50 a=2、b=23、c=40、d=50 等々である。その結果、合計４００回のアクセスとな
る。

【００６３】〔ＩＮリスト〕 WHERE b between 20 and 30 AND c IN（40、100、150） AND d=50 という述語を含むユーザサーチ質問を仮定する。この場
合、コラムａおよびコラムｂは、上述した指定されてい
ないキー述語と同様に処理される。さらに、コラムｃの
値が含まれている。前記ＳＱＬエクスキュータ１２４
は、コラムａ、ｂ、ｃについて与えられたすべての値を
実行する。しかし、コラムｃの３つの値が前記ＩＮリス
トによって明示されているので、前記ＳＱＬエクスキュ
ータ１２４は、これらの値を直接に使用できる（そし
て、前記ファイルシステムに対してこれらの値を要求す
る必要がない）。

【００６４】〔相反する述語の除去〕 SELECT * from T WHERE b IN（3,9,16,25,36）のよう
に、ビューVTを作成する。 SELECT * from VT WHERE b between 20 and 30 AND c IN（40、100、150） AND d=50 というユーザ質問を仮定する。この質問におけるコラム
ｂに関する唯一の有効な値は２５である。前記ＳＱＬエ
クスキュータ１２４は、コラムｂに関するすべての述語
の和を求め、２５という値のみが両組に存在することを
認識し、その結果、コラムｂに関する該値のみがレコー
ド読み出しのために使用されることになる。

【００６５】〔一般的論理和最適化〕上記のように、述
語を論理和標準形における異なる述語に関連づけること
によって（１ユニットとして処理されるＩＮリストを除
いて）、一般的論理和最適化が実現される。外部レベル
に論理和（ＯＲｓ）のみが存在する場合、述語は論理和
標準形である。例えば、

【数３】 SELECT* FROM T WHERE （a = 5 and （（b=1 and c IN （2,4,9）） OR （b=8 and c=7）） OR （a between 4 and 6 and （（b between 8 and 10 and c between 6 and 9） OR （b=9 and c=11）という質問コマンドを仮定する。この表現の論理和項
（disjuncts)は下記の通りである。

【数４】（a=5 and b=1 and c IN （2,4,9） OR （a=5 and b=8 and c=7） OR （a≧4 and a≦6 and b≧8 and b≦10 and c≧6 and c≦9） OR （a≧4 and a≦6 and b=9 and c=11）

【００６６】前記ＳＱＬエクスキュータ１２４は、各論
理和項内のすべての相反する述語を除去し、しかる後、
極小組のレコードのみが索引順に読み出されるよう、前
記論理和項間の重複を結合する。この例に関して、次の
ような検索がなされる。 a=4、 b=8 and c≧6 and c≦9 a=4、 b=9 and c≧6 and c≦9 a=4、 b=9、 c=11 a=4、 b=10 and c≧6 and c≦9 a=5、 b=1、 c=2 a=5、 b=1、 c=4 a=5、 b=9、 c=11 a=5、 b=8 and c≧6 and c≦9 a=5、 b=9 and c≧6 and c≦9 a=5、 b=9、 c=11 a=5、 b=10 and c≧6 and c≦9 a=6、 b=8 and c≧6 and c≦9 a=6、 b=9 and c≧6 and c≦9 a=6、 b=9、 c=11 a=6、 b=10 and c≧6 and c≦9

【００６７】上記から明らかなように、この発明は、従
来のＢ−木索引によるアクセス技術に対していくつかの
利点をもたらす。第１に、述語をクラスタに間連づけ、
クラスタを論理和項番号に関連づけることによって、こ
の発明は、大変複雑なユーザサーチ質問の使用を可能に
し、従って、述語が既に論理和標準形で表されている質
問に制限されない。さらに、これらの関連づけ技術の使
用は、同一の述語の数個のコピーを格納する必要を無く
することによって、メモリスペースの実質的な節約を可
能にする。また、ユーザは、多くのキーコラムのレンジ
およびＩＮリストを指定できる、これらのレンジおよび
ＩＮリストは、キーを構築する際に観察されることにな
る。同様に、指定されなかったキー述語は、故意にまた
は不注意から省かれたのかに関わらず、使用可能なキー
索引の構築を阻止しない。さらに、異なる論理和項から
の値を分類して畳込み、１つの論理和項のすべての述語
の極小組を求めることによって、サーチキーから同一の
レコードが反復的に読み出されることが防止され（これ
は、既に読み出されたレコードのテーブルを構築する必
要を除去する）、最少量のデータのみが適当な順序で読
み出されることになる。

【００６８】以上の説明は、本発明の好ましい実施の形
態の十分かつ完全な開示を提供するものであるが、更に
様々な変形や選択的構成や等価物が有りうることは、当
業者であれば明らかであろう。例えば、上記では本発明
をＳＱＬを使用したＤＢＭＳに関して説明してきたが、
その他の質問言語が必要に応じて使用されてもよい。従
って、上述の記述及び説明は本発明を限定するように解
されるべきではなく、本発明は特許請求の範囲によって
定義される。

【００６９】〔付録Ａ〕〔一般的表現法（ＧＥＭ）の内
部設計仕様・バージョン１．１〕目的：ここでは、ＧＥＭにとって必要な構造を生成する
ための質問用の構文解析木を、オプティマイザが如何に
して処理するかにつき記述することを試みる。これらの
構造は、見積りのために使用され、ＧＥＭを実行するエ
クスキュータによって必要とされる適当な構造を生成す
るために使用される。これは、一例を用いて行うのがベ
ストである。そこで、下記のWHEREクローズについて考
えてみる。

【数５】 ((C=10 and B between 5 and 10) or A in (2, 4, 5)) and ((A=4 and C=5) or (C in (5, 10) and (B=5 or A=2))) エクスキュータがＧＥＭのための上記の述語の組を使用
することができるようにするためには、それらは論理和
標準形(disjunctive normal form)でなければならな
い。これらの述語は、次のフォームで得られる。

【数６】 (A in (2, 4, 5) and A=2 and C in (5, 10)) or (A=2 and B between 5 and 10 and C=10 and C in (5, 10)) or (A in (2, 4, 5) and B=5 and C in (5, 10)) or (B between 5 and 10 and B=5 and C=10 and C in (5, 10)) or (A in (2, 4, 5) and A=4 and C=5) or (A=4 and B between 5 and 10 and C=10 and C=5)

【００７０】上記から判るように、これは、ＩＮリスト
のフォームで記述される同じコラムについての論理和群
（ＯＲｓ）の組を持つので、全くの論理和標準形である
わけではない。エクスキュータはそれを処理することが
できる。一緒に論理和化(ＯＲed)されている上記の６組
の述語の各々を、論理和項(disjunct)と称する。いくつ
かの述語、例えば最初の論理和項(disjunct)の中の (A
in (2, 4, 5) and A=2) は、Ａ＝２に、変形できること
に気付くであろう。同様に、(B between5 and 10 and B
=5) は、Ｂ＝５に変形できる。また、Ｃは同時に＝１０
と＝５になり得ないので、上記の６番目の論理和項をそ
っくり廃棄することができる。その他の多くのそのよう
な変形が可能である。オプティマイザにおいてそれらを
行うことを試みずに、エクスキュータにそれらを任せ
る。エクスキュータは、それに利用可能なパラム(param
s)とホスト変数の値群を持つ。明らかなように、上記の
４番目の論理和項はコラムＡについての述語を持ってい
ない。インデックスコラムがＡ，Ｂ，Ｃであるとする
と、エクスキュータはすべてのコラムについての述語が
ＧＥＭを使用する必要がある。これを容易にするため
に、（Ａ≧Low and Ａ≦high）というフォームの指定さ
れていない述語が追加される。オプティマイザはこれを
行わない。オプティマイザは、エクスキュータのための
個々のＧＥＭキー述語を生成しているので、単純なＮＯ
Ｔ変換を同様に実行できる。「コラムＮＯＴ＝バリュ
ー」（ここで、このバリューは、或る定数、リテラル、
パラム、又はホスト変数である）のフォームの述語を、
「コラム＜バリュー or コラム＞バリュー」に変換でき
る。コラムの選択力が低いとき、これは非常に有益であ
る。

【００７１】〔付録Ｂ〕〔3.3.1 ＧＥＭ−木の構築〕概念的には、ＧＥＭ−木
の構築は、２つのステップからなる。最初に、単一の論
理和項(disjunct)のためのＧＥＭ−木を構築する。それ
から、それらの論理和項を一緒に統合する。これは、各
キーコラム毎に独立に行われる。そのためのプログラム
は、例えば下記のようである。

【００７２】

【数７】 In pseudo-code, For each disjunct For each column, from rightmost key to leftmost (*) Build a GEM-tree for that column and that disjunct (Stage 1) If it is empty Exit inner for loop, advancing to next disjunct (**) Else Merge it into the result GEM-tree (Stage 2) End if End for End for

【００７３】上記プログラムの意味は、大略、次の通り
である。「仮のコードにおいて、各論理和項毎に、各コラム毎に、最右のキーから最左のキーまで（＊）、そのコラムとその論理和項についてのＧＥＭ−木を構築し（ステージ１）、もし、それが空ならば、ループのために内側に出て、次の論理和項に進む（＊＊）。空でなければ、それを、それまでの結果であるＧＥＭ−木に組み入れる（ステージ２）。」

【００７４】上記（＊）と（＊＊）での論理は、いくら
かの説明に値する。もし、或る与えられた論理和項につ
いての或るコラムのＧＥＭ−木が空であれば、それはそ
のコラムについての述語がお互いに正しくないというこ
とを意味する。すなわち、その論理和項についてのコラ
ム述語を満足させる値がない、ということである。そこ
で、その論理和項を全部廃棄することができる。上記
（＊＊）では、その論理和項について調査漏れがないよ
うに、最右キーから最左キーまで、作業する。もし最左
から最右へと作業するならば、その論理和項についての
第１のコラムについてのＧＥＭ−木の登録が有るかもし
れない。Ｉ／Ｏに、そのコラムのための値を見つけ出す
ようにさせてよい。それから、次のコラムにトラバース
し、その論理和項についての何の値もないことを見つけ
出す。不必要なＩ／Ｏを実行してしまう。一方、右から
左へと作業するならば、コラムにおけるＧＥＭ−木の登
録を、トラバースすることのない、右の方に得るであろ
う。これは、不都合がない（多分トラバーサル中に幾分
多くのＣＰＵ以外は）ものであり、Ｉ／Ｏのコストが不
要である。以下のようにＧＥＭ−木のトラバーサルアル
ゴリズムが説明されれば、これは一層明らかになる。も
し、或る論理和項において、或るキーコラムについての
述語がないならば、それは単に、それらのコラムにおけ
る全ての可能な値が選択されているということを意味す
る。

【００７５】〔3.3.2 ＧＥＭ−木のトラバーサル〕Ｇ
ＥＭ−木のトラバーサル中において、オリジナルの述語
を満足させるキー値を生成する。全ての可能な値を列挙
する（“密”アルゴリズム）か、または、ベーステーブ
ルにおいて存在していることが知られていない値をスキ
ップする（“粗”アルゴリズム）ようにしてよい。ま
ず、ＧＥＭ−木のトラバーサル・アルゴリズムについて
一般的に説明し、それから、その“密”と“粗”の変形
について説明する。

【００７６】〔3.3.2.1 ＧＥＭ−木のトラバーサル・
アルゴリズム〕このアルゴリズムの２つの説明をする。
第１の説明は、概念的なものであり、それは、キー値の
組にわたって如何に繰り返すかを示す。一般的にフェッ
チ処理でこの繰り返しをインターリーブするので、この
アルゴリズムを直接的に実行することはしない。第２の
説明は、このインターリーブを認めるやり方で、アルゴ
リズムを再フォーミュレートする。この第２の説明が実
際に実行される。概念的には、ＧＥＭ−木のトラバーサ
ルは繰り返し処理である。下記において、Ｇはｎコラム
についてのＧＥＭ−木であり（各繰り返し呼出しの都
度、ｎは実効的に減少される）、Ｒは参照組（どの論理
和項が部分的なキー値を満足させるかを告げる文脈の集
積）、ＰＫは部分的なキーであって、手続の高レベルの
インボケーション（invokations)からのキー値を選択す
るものである。そのためのプログラムは、例えば下記の
ようである。

【００７７】

【数８】 Traverse (G, R, PK): For each GEM-interval {Ii, Ri} of the first column of G Rx=R intersect Ri (1) If Rx is non-empty If there are more columns in G For each value V in the interval Ii (2) Traverse (G minus its first column, Rx, PK || V) (3) End for Else Denote Ii as [a, b] (4) Emit the begin key value PK || a Emit the end key value PK || b End if End if End for

【００７８】上記Traverse（トラバース）処理の変数
は、ＧＥＭ−木のＧと、参照組のＲと、部分的キーのＰ
Ｋである。メインラインのコードにおいて、このトラバ
ース処理を、変数（Ｇ，空の組，空のキー）で呼び出
す。ここで、ＧはオリジナルのＧＥＭ−木である。上記
の（１）では、共通集合(intersection)をとることによ
り、前のコラムの値であるかもしれない現キーコラムの
値を見つけ出す。もし、この文脈を感服させならば、オ
リジナルの述語を満足させないキー値を生成するかもし
れない。上記の（２）において、この繰り返しは、
“密”又は“粗”のアルゴリズムであってよい。“密”
アルゴリズムは、そのインターバルにおける全ての可能
な値を列挙するが、“粗”アルゴリズムは、ベーステー
ブルにおいて実際に存在していない値をスキップする。
夫々独立に、いくつかのコラムについては“密”を使用
し、その他については“粗”を使用してよい。上記の
（３）において、この繰り返し部の呼出しは、ＧＥＭ−
木の次のコラムへと実際にトラバースする。上記の
（４）において、このアルゴリズムは１つの閉鎖された
インターバルについての処理を示す。もしそれが開かれ
ていれば、開始キー（ビギンキー）についての後フラグ
（アフターフラグ）と終了キー（エンドキー）について
の前フラグ（ビフォアフラグ）とをセットする。セミ・
オープンなインターバルに対する一般化は、まっすぐ前
である。

【００７９】次に、フェッチ実行でそれがインターリー
ブすることを許すやり方で、このアルゴリズムを再キャ
ストする。文脈を各コラムに関係づけることにより、繰
り返しを解く。この文脈における情報は、下記を含む。・Ｃ＿Ｉｎｔｖで示す「現在のＧＥＭ−インターバ
ル」（もしあれば）。・Ｃ＿Ｖａｌで示す「そのインターバル内の現在
値」、すなわち、最後の呼出し時にこのコラムについて
繰り返し部に戻される値。・Ｃ＿Ｒｅｆで示す「現ＧＥＭ−インターバルに与え
られた左のコラムの参照組の共通集合」。また、全体としてのＧＥＭ−木について、現ＧＥＭ−イ
ンターバルを持たない第１のコラムのトラックを維持す
る。これは、下記で、Ｃ＿Ｃｏｌで示されるものであ
り、かつ、それを数字で表わす。すなわち、「１」は、
第１のコラムが現ＧＥＭ−木インターバルを持たないこ
とを意味し、「２」は、第１のコラムは現ＧＥＭ−木イ
ンターバルを持つが、第２のコラムはそれを持たないこ
とを意味し、以下同様である。ＧＥＭ−木はｎ個のコラ
ムを持つものとする。Ｃ＿Ｃｏｌ＝ｎ＋１は、全てのコ
ラムが現ＧＥＭ−インターバルを持つことを意味し、Ｃ
＿Ｃｏｌ＝０は、ＧＥＭ−木のトラバースを終了した
（すなわち、Ｅｎｄ−ｏｆ−Ｆｉｌｅをヒットした）こ
とを意味する、との約束を使用する。（余談：この実
行にあたっては、アレイ・インデックス又はポインタ又
はその他のＣ＿Ｃｏｌの物理的表現を使用してよい。Ｇ
ＥＭ−木がアレイで表現されねばならないことを暗示し
ているわけではない。）以下、「Ｔｒａｖｅｒｓｅ＿ｉｎｉｔ」と、「Ｔｒａｖ
ｅｒｓｅ＿ｎｅｘｔ」と、「Ｔｒａｖｅｒｓｅ＿ｅｎ
ｄ」の３つの方法を定義する。

【００８０】

【数９】 Traverse_init: C_Col = 1 Column[1].C_Intv = none Column[1].C_Ref = the set of all possible disjuncts

【数１０】 Traverse_next: While C_Col > 0 and we don't have a key value to return If Column[C_Col].C_Intv = none Find the first GEM-interval in this column, { I, R }, such that R intersect Column[C_Col].C_Ref is non-empty (1) Column[C_Col].C_Intv = { I, R } If C_Col < n Column[C_Col].C_Val = first value in I (2) End if C_Col = C_Col + 1 If C_Col = n+1 Set begin key (3) Set end key (4) Else Column[C_Col].C_Intv = none End if Else If C_Col = n Find the next GEM-interval { I, R } such that R intersect Column[C_Col].C_Ref is non-empty If one exists Column[C_Col].C_Intv = that interval Set begin key (3) Set end key (4) Else C_Col = C_Col - 1 End if Else Find the next value in Column[C_Col].C_Intv (5) after Column[C_Col].C_Val If one exists Column[C_Col].C_Val = that value C_Col = C_Col + 1 Column[C_Col].C_Intv = none Else Find the next GEM-interval { I, R } such that R intersect Column[n].C_Ref is non-empty If one exists Column[C_Col].C_Intv = { I, R } Column[C_Col].C_Val = first value in I C_Col =C_Col + 1 Else C_Col =C_Col - 1 (6) End if End if End if End if End while Return begin/end key or EOF indication

【数１１】

【００８１】上記の（１）において、常に少なくとも１
つあることに注意されたい。これは最後のコラムで始ま
り最初のコラムで終わる論理和項においてマージしたか
らである。もし与えられた論理和項についての或るコラ
ムでのＧＥＭ−木が空ならば、マージを中止し、最初の
コラムについての参照組において論理和項がはっきり見
えないようにする。上記の（２）において、もし、Ｉ＝
［ａ，ｂ］または［ａ，ｂ）ならば、“first value in
Ｉ"（Ｉの中の最初の値）はａである。もし、Ｉ＝
（ａ，ｂ］または（ａ，ｂ）ならば、“first value in
Ｉ"はａの後の次の値である。該次の値は密又は粗のア
ルゴリズムのいずれかを介して決定されてよい。最右コ
ラムのためにＣ＿Ｖａｌを計算する必要がない。何故な
らば、キー構築において現インターバル終了点を直接的
に使用するであろうからである（適当な後フラグ及び前
フラグのセッティングで）。上記の（３）において、開
始キー(begin key)は最右コラム以外の全ての現在の値
と最右コラムの現インターバルＩの開始点との連鎖から
なっている。もし、Ｉ＝（ａ，ｂ］または（ａ，ｂ）な
らば、後フラグがセットされる。そうでなければ、セッ
トされない。上記の（４）において、終了キー(end ke
y)は最右コラム以外の全ての現在の値と最右コラムの現
インターバルＩの終了点との連鎖からなっている。も
し、Ｉ＝［ａ，ｂ）または（ａ，ｂ）ならば、前フラグ
がセットされる。そうでなければ、セットされない。上
記の（５）において、該次の値（the next value)は密
又は粗のアルゴリズムのいずれかを介して決定されてよ
い。上記の（６）において、Ｃ＿Ｃｏｌが０に行くなら
ば、そのＧＥＭ−木のＥｎｄ−ｏｆ−Ｆｉｌｅに到達し
たことに注意されたい。Ｔｒａｖｅｒｓｅ−ｎｅｘｔに
よって戻された開始及び終了キーは、ＤＭ＾ＳＴＡＲＴ
（又はＤＭ＾ＫＥＹＰＯＳＩＴＩＯＮ）を介してサブセ
ットを定義するために使用されることができる。フェッ
チ処理は、それから、このサブセットにわたって繰り返
すことができる。サブセットが使い尽くされると、フェ
ッチ処理はＴｒａｖｅｒｓｅ−ｎｅｘｔを呼出し、次の
サブセットを見つける。

【００８２】

【発明の効果】以上のように、この発明は、効率的に複
雑なユーザサーチ質問の使用を可能にし、メモリスペー
スの実質的な節約を可能にし、且つ、データ読出し必要
量を最少化できるので、効率的且つ簡単にデータベース
をサーチできる、という優れた効果を奏する。

【図面の簡単な説明】

【図１】データベースにデータを格納し、該データにユ
ーザがアクセスできるようにするコンピュータシステム
のブロック図。

【図２】データベース管理システムに格納されたデータ
構造のブロック図。

【図３】データベーステーブルおよびプログラムを示す
図２のカタログデータ構造のブロック図。

【図４】図３のカタログデータ構造に含まれるテーブル
の一部分を示すブロック図。

【図５】図３のカタログデータ構造に含まれるテーブル
のその他の部分を示すブロック図。

【図６】図３のカタログデータ構造に含まれるテーブル
のさらにその他の部分を示すブロック図。

【図７】図３のカタログデータ構造に含まれるテーブル
のさらにその他の部分を示すブロック図。

【図８】図３のカタログデータ構造に含まれるテーブル
のさらにその他の部分を示すブロック図。

【図９】図３のカタログデータ構造に含まれるテーブル
のさらにその他の部分を示すブロック図。

【図１０】図３のカタログデータ構造に含まれるテーブ
ルのさらにその他の部分を示すブロック図。

【図１１】図３のカタログデータ構造に含まれるテーブ
ルのさらにその他の部分を示すブロック図。

【符号の説明】

１０２コンピュータ１０４ユーザワークステーションコンピュータ１１０ＣＰＵ１１２ＲＡＭ１１４通信インターフェース１２０データベーステーブル１２２データベース索引１２３ＤＢＭＳ

───────────────────────────────────────────────────── フロントページの続き (72)発明者デビッド・ダブリュ・バーズオールアメリカ合衆国カリフォルニア 95051, サンタ・クララ，ベントン・ストリート 3708 (72)発明者ロヒト・エヌ・ジェインアメリカ合衆国ミシガン 48309，ロチェスター・ヒルズ，ワージントン・コート 3658 (72)発明者ヘディー・ヤグマイアメリカ合衆国カリフォルニア 95129, サンノゼ，クラレンドン・ストリート 7202

Claims

【特許請求の範囲】

【請求項１】サーチキーコラムの値に対応する述語の
値を明示するサーチ質問に従って構築された個々のマル
チコラムサーチキーを使用して、データベースをサーチ
する方法であって、（ａ）前記サーチ質問によって明示された述語の値を評
価するステップと、（ｂ）１つのレンジの値として明示された各述語の値ご
とに、これに対応するキーコラムに同等レンジの値を割
当てるステップと、（ｃ）ＩＮリストの値として明示された各述語の値ごと
に、これに対応するキーコラムに同等レンジの値を割当
てるステップと、（ｄ）指定されていない各述語の値ごとに、これに対応
するキーコラムに或るレンジの値を割当てるステップ
と、（ｅ）前記割当てるステップ（ｂ）〜（ｄ）の前記値を
使用して、個々のサーチキーを構築するステップとを具
備する方法。
【請求項２】サーチ質問が複数の論理和項を含み、前
記評価するステップ（ａ）が、前記複数の論理和項の各
々に対して特有の論理和項番号を割当てるステップを含
む請求項１に記載の方法。
【請求項３】前記論理和項番号を割当てるステップ
が、ＩＮリスト述語に対して特有の論理和項番号を割当
てるステップを含む請求項２に記載の方法。
【請求項４】前記ステップ（ｂ）で割当てられた前記
同等レンジの値が、対応するキーコラムの最小値および
最大値として明示される請求項１に記載の方法。
【請求項５】前記評価するステップ（ａ）が、述語を
クラスタに関連付け、クラスタを論理和項番号に関連づ
けるステップを含む請求項１又は２に記載の方法。
【請求項６】前記使用するステップ（ｅ）が、同一の
コラムからの相反する述語の値を除去することによっ
て、該コラムに関する潜在的なサーチキーの値の数を減
じるステップを含む請求項１に記載の方法。
【請求項７】前記使用するステップ（ｅ）が、前記論
理和項によって明示される冗長な値を除去することによ
って、前記サーチ質問を実行するために必要なサーチキ
ーの数を最少化するステップを含む請求項１に記載の方
法。
【請求項８】データベースオブジェクトを格納し、ユ
ーザが格納された該データベースオブジェクトにおける
データにアクセスできるようにするコンピュータシステ
ムであって、前記データベースオブジェクトを格納するメモリと、ユーザによるデータベース質問がユーザワークステーシ
ョンから前記コンピュータシステムに中継されるように
し、前記コンピュータシステムからの質問結果が前記ユ
ーザワークステーションによって利用されるようにする
ための通信インターフェイスと、ユーザワークステーションから受信したサーチ質問に応
じて、前記メモリと前記通信インターフェイスとの間の
インタラクションを制御し、サーチキーコラム値に対応
する述語値を指定するプロセッサと、前記プロセッサがサーチキーコラム値に対応する述語値
を明示するサーチキーに従って個々のマルチコラムサー
チキーを構築するようにするコンピュータプログラムで
あって、前記サーチ質問によって明示された前記述語値
を評価する第１の手続きを含むものと、前記サーチ質問によって明示される各述語値ごとに、同
等レンジの値を、あるレンジの値として、対応するキー
コラムに割り当てる第２の手続きと、前記サーチ質問によって明示された各述語値ごとに、同
等の値を、ＩＮリストの値として、対応するキーコラム
に割り当てる第３の手続きと、各明示されていない述語値ごとに、或るレンジの値を対
応するキーコラムに割り当てる第４の手続きと、前記第１の手続き〜第４の手続きによって割り当てられ
た値から、個々のサーチキーを構築する第５の手続きと
を具備したコンピュータシステム。
【請求項９】サーチ質問が複数の論理和項を含み、前
記第１の手続きが、前記サーチ質問における前記複数の
論理和項の各々に対して特有の論理和項番号を割り当て
るよう前記プロセッサを動作させる請求項８に記載のコ
ンピュータシステム。
【請求項１０】前記第１の手続きが、ＩＮリスト述語
に対して特有の論理和項番号を割り当てるよう前記プロ
セッサを動作させる請求項８又は９に記載のコンピュー
タシステム。
【請求項１１】前記第２の手続きに応じて前記プロセ
ッサによって割り当てられる同等レンジの値が、対応す
るキーコラムの最小値および最大値として明示される請
求項８に記載のコンピュータシステム。
【請求項１２】前記第１の手続きが、述語をクラスタ
に関連づけ、クラスタを論理和項番号に関連づけるよう
前記プロセッサを動作させる請求項８又は９に記載のコ
ンピュータシステム。
【請求項１３】前記第５の手続きが、同一のコラムか
らの相反する述語値を削除し、該コラムに関する潜在的
なサーチキー値の数を減じるよう前記プロセッサを動作
させる請求項８に記載のコンピュータシステム。
【請求項１４】前記第５の手続きが、前記論理和項に
よって明示される冗長な値を除去することによって、前
記サーチ質問を実行するために必要なサーチキーの数を
最少化するよう前記プロセッサを動作させる請求項８に
記載のコンピュータシステム。
【請求項１５】データベースをサーチするために使用
する個々のマルチコラムサーチキーを構築するための、
コンピュータによって読取り可能なコードを格納したコ
ンピュータが使用可能な媒体を備え、前記サーチキーが
サーチキーコラム値に対応する述語値を明示するサーチ
質問に従って構築されているコンピュータプログラム製
品であって、前記サーチ質問によって明示される前記述語値を評価す
るようコンピュータを動作させる、第１のコンピュータ
によって読み取り可能なプログラムコード装置と、或るレンジの値として明示される各述語値ごとに前記対
応する述語値に対して同等レンジの値を割当てるようコ
ンピュータを動作させる、第２のコンピュータによって
読み取り可能なプログラムコード装置と、ＩＮリストの値として明示される各述語値ごとに前記対
応する述語値に対して同等の値を割当てるようコンピュ
ータを動作させる、第３のコンピュータによって読み取
り可能なプログラムコード装置と、各明示されていない述語値ごとに前記対応する述語値に
対して或るレンジの値を割当てるようコンピュータを動
作させる、第４のコンピュータによって読み取り可能な
プログラムコード装置と、前記同等の値を使用して個々のサーチキーを構築するよ
うコンピュータを動作させる、第５のコンピュータによ
って読み取り可能なプログラムコード装置とを具備した
コンピュータプログラム製品。
【請求項１６】サーチ質問が複数の論理和項を含み、
前記第１のコンピュータによって読み取り可能なプログ
ラムコード装置が、前記複数の論理和項の各々に対して
特有の論理和項番号を割当てるようコンピュータを動作
させるものである請求項１５に記載のコンピュータプロ
グラム製品。
【請求項１７】前記コンピュータが、ＩＮリスト述語
に対して特有の論理和項番号を割当てるよう動作される
請求項１６に記載のコンピュータプログラム製品。
【請求項１８】前記第２のコンピュータによって読み
取り可能なプログラムコード装置に応答して前記コンピ
ュータによって割当てられた前記値が、対応するキーコ
ラムの最小値および最大値として明示される請求項１５
に記載のコンピュータプログラム製品。
【請求項１９】前記第１のコンピュータによって読み
取り可能なプログラムコード装置が、述語をクラスタに
関連づけ、クラスタを論理和項番号に関連づけるよう前
記コンピュータを動作させる請求項１６に記載のコンピ
ュータプログラム製品。
【請求項２０】前記第５のコンピュータによって読み
取り可能なプログラムコード装置が、さらに、同一のコ
ラムからの相反する述語の値を除去することによって、
該コラムに関する潜在的なサーチキーの値の数を減じる
よう前記コンピュータを動作させる請求項１５に記載の
コンピュータプログラム製品。
【請求項２１】前記第５のコンピュータによって読み
取り可能なプログラムコード装置が、さらに、前記論理
和項によって明示される冗長な値を除去することによっ
て、前記サーチ質問を実行するために必要なサーチキー
の数を最少化するよう前記コンピュータを動作させる請
求項１５に記載のコンピュータプログラム製品。