JPH0855138A

JPH0855138A - 関係データベースの質問を最適化する方法

Info

Publication number: JPH0855138A
Application number: JP7160778A
Authority: JP
Inventors: Surajit Chaudhuri; スラジット・チャウデュリ
Original assignee: Hewlett Packard Co
Current assignee: HP Inc
Priority date: 1994-07-01
Filing date: 1995-06-27
Publication date: 1996-02-27
Also published as: US5598559A; DE19515020A1; GB9511911D0; GB2290893A

Abstract

(57)【要約】【目的】グループ・バイ演算子を持つ関係データベー
スの質問を最適化する方法および装置を提供する。【構成】グループ・バイ演算子をルートに持つ質問を
受け取り、上記質問に対し、内部の各結合節に先行して
グループ・バイ演算子を置くことを考慮した複数の実行
計画を生成し、上記複数の実行計画に対して費用を見積
もり、見積もられた費用が最も低い実行計画を選択する
ことからなる。この結果、効率良く動作することができ
る、内部の節にグループ・バイ演算子を持つ最適の実行
計画を選択することができる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、データベース質問を最
適化する手法、具体的には、グループ・バイ演算子すな
わちグループ化演算子を持つ質問を最適化する方法およ
び装置に関する。

【０００２】

【従来の技術】データベースの性能は、主に、データベ
ース・システムの質問実行を最適化する能力に依存す
る。データベース質問の実行は、その質問を、データベ
ース・システムがより能率的に実行できる形に置き換え
る前処理を行うことによって、最適化できる。最適化処
理は、最も効率の良い実行計画を選択する。

【０００３】従来の手法による１つの問題は、それらの
手法が、グループ・バイ（group-by）演算子を持つ質問
を十分に最適化できなかったことである。従来の手法
は、結合演算を全て評価した後でグループ・バイ演算を
実行する。例えば、「ＡＢＥ統計的質問機能におけるア
クセス経路」（A. Klug, Access Paths in the ABE Sta
tistical Query Facility, Proceedings of 1982 ACM-S
IGMOD Conference on the Management of Data）、「ネ
ストおよびツリーに関して：部分質問、集約、限定記号
を含む質問を処理するための統一的手法」（U.Dayal, O
f Nests and Trees: A Unified Approach to Processin
g Queries that contain subqueries, aggregates and
quantifiers, Proceedings of the 13th VLDB, 198
7）、および、「関係データベース管理におけるアクセ
ス経路の選択」（Selinger P.G. et al., Access Path
Selection in a Relational Database Management, Pro
ceedingsof ACM-SIGMOD Conference on the Management
of Data, June 1979, pp. 23-34）を参照されたい。し
たがって、従来の手法の多くは、関係の大きさおよび結
合の費用を減らすためにグループ化が結合に先行する場
合の変換による利益を考慮していないか実現していな
い。

【０００４】最近、結合演算の先にグループ・バイ演算
子を実行することを可能にする変換が見い出された。例
えば、「結合前のグループ・バイの実行」（W. Yan and
P.Larson, Performing Group-By before Join,Interna
tional Conference on DataEngineering, 1993）を参照
されたい。この手法は、与えられた質問の関係を２つの
質問を形成するように２つのグループに分解（partitio
n）することに基づいている。与えられた質問の結果
は、上記の２つの質問の結果を結合することによって最
終的に得られる。しかし、結合演算の先にグループ・バ
イ演算を実行することの対価として、関係の順序づけが
分解の範囲内でだけ考慮されるので、結合を順序づける
ための選択の空間が減る。さらに、質問が与えられる
と、グループ・バイ演算子を特異な位置に配置する。し
たがって、上記文献「結合前のグループ・バイの実行」
による変換は、より効率の良い実行ができる別の実行計
画を捕らえることができない。

【０００５】

【発明が解決しようとする課題】本発明の目的は、グル
ープ・バイ演算子を持つ質問を最適化する方法を提供す
ることである。

【０００６】

【課題を解決するための手段】本発明は、グループ・バ
イ演算子を実行計画の内部の節（internal node）にす
ることによって、データベースのための質問を最適化す
る。本発明では、節で結合された関係を持つ質問が、関
係データベースのために最適化される。最適化の手続き
（プロシージャ）は、最適化すべきグループ・バイを持
つ質問を受け取り、グループ・バイを内部の各結合節に
先行して置くことを考慮した複数の質問実行計画を生成
し、実行計画の費用を見積もり、最も費用の低い実行計
画を選択することからなる。また、本発明は、装置とし
て具体化することもできる。

【０００７】本発明は、グループ・バイ演算子を最適化
する強力な手法を提供する点に利点がある。この結果、
最適化手段すなわちオプティマイザは、質問のためのよ
りよい実行計画を選択することができるので、いっそう
効率良く動作することができる。

【０００８】

【実施例】図１ないし図１０を参照して、本発明の実施
例を以下に述べる。当業者には明らかなように、本発明
は、以下の限られた実施例を超えて拡張できるので、以
下の説明は例として記述したものであることを理解され
たい。

【０００９】本発明は、グループ・バイ演算子を持つ質
問を最適化するための方法と装置を含む関係データベー
ス・システムに関わる。図１は、本発明による関係デー
タベース管理システム２を示すブロック図である。関係
データベース管理システム２は、最適化すべき質問１０
を受け取る。質問１０は最適化手段１２に供給され、最
適化手段１２は費用情報１４に従って質問１０を最適化
する。概略を述べれば、最適化手段１２は処理すべき質
問を受け取り、複数の代替実行計画を生成し、最適の計
画を選択する。また、関係データベース管理システム２
は、選択された最適の計画にしたがって質問１０を処理
するときに関係テーブル１８をアクセスする、関係実行
エンジン１６を含む。

【００１０】代表的な質問は、次のような単一ブロック
のＳＱＬ質問である。 SELECT ALL <columnlist> AGG1(b1) ... AGGn(bn) FROM <tablelist> WHERE cond1 AND cond2 ... AND condn GROUP BY col1 ... colj 各質問のWHERE文節は単純述語の論理積である。ＳＱＬ
意味論は、<columnlist>が、col1,......, coljにある
ことを必要とする。AGG1,..., AGGnは、組込型ＳＱＬ集
約関数を表す。列b1, ..., bnの組は、質問の集約化列
である。列coll,...,coljの組は、質問のグループ化列
と呼ばれる。ここで、集約は、Sum(colname)、Max(coln
ame)、または、Min(colname)のどれか１つの形式を持つ
ものと仮定する。

【００１１】本発明の動作を、ある会社とそのビジネス
に関する情報を含むデータベースへの代表的な２つの質
問を使って説明する。会社はいくつかの事業部を持ち、
各事業部は部門に属し、各製品は事業部に属している。
注文がディーラーから出される。各注文に対して、数量
と販売日が登録される。各ディーラーに対して、州名と
ストリート・アドレスが記録される。このデータベース
は、次の４つの関係を使用して表される。各関係におい
て、最初の属性がキーを表す。関係、事業部：２つの属性divid、sectoridを持つ。関係、製品：２つの属性prodid、dividを持つ。関係、注文：５つの属性orderid、prodid、dealerid、a
mount、dateを持つ。関係、ディーラー：３つの属性dealerid、state、addre
ssを持つ。

【００１２】第１の代表的な質問Ｑ１は次のようなもの
である。 SELECT ALL Sum（amount） FROM Order, Dealer, Product WHERE Order.dealerid=Dealer.dealerid AND Order.pro
did=Product.prodid GROUP BY Order.dealerid, Order.prodid 第２の代表的な質問Ｑ２は次のようなものである。 SELECT ALL Sum (amount) FROM Order, Product, Division WHERE Product.divid=Division.divid AND Order.prodi
d=Product.prodid GROUP BY Division.sectorid 本発明は、グループ・バイ演算子の特性に関わるので、
次のグループ・バイ演算子の注釈（annotations）、す
なわち、 (i)グループ化列、(ii)集約化列、および、(i
ii)集約関数が使用される。これらの注釈の意味はデー
タベース分野でよく知られている。さらに多くの注釈が
あるが、ここでの議論に密接な関係はない。

【００１３】従来の質問の実行計画は、構文上、根（ル
ート）がグループ・バイ演算であり、各葉（リーフ）節
が走査演算である、注釈された結合木として表すことが
できる。従来、注釈された結合木の内部の節は常に結合
演算であった。結合節の注釈は、選択条件および射影属
性とともに、結合方法の選択を含む。選択条件および射
影はできる限り早い時点でつけられる。図２は、第１の
代表的な質問Ｑ１のための、従来の、左側に深い（left
-deep：左深と略す）結合木２０の概略図を示す。典型
的には、従来の左深結合木２０の内部の節２２は結合演
算である。

【００１４】従来の手法に対比して、本発明は、グルー
プ・バイ演算子が内部の節になることを可能にする。し
たがって、グループ・バイ演算子が内部の節としても起
こることができる注釈された結合木をさすのに、拡張注
釈結合木という用語を用いる。同様に、拡張された左深
結合木は、グループ・バイ演算子が内部の節としても起
こる左深結合木である。図３（Ａ）および図３（Ｂ）は
拡張左深結合木２４、２８の概略図を示すもので、グル
ープ・バイ演算子が結合木２４、２８の中で内部の節２
６、３０として起こっている。簡潔にするために、図
２、図３（Ａ）、および図３（Ｂ）に示した走査節は、
関係を表す名前をつけてある。

【００１５】節ｎの結合列は、ある先祖節ｎで評価され
る結合述語に参加する列である。節ｎに必要とされる列
は、節ｎの結合列であるか、または、質問のグループ化
列である。節ｎの候補となる集約化列は、質問の集約化
列である節の列であるが必要とされる列でないものであ
る。

【００１６】グループ・バイ節が左深木の節ｎのすぐ上
に導入される場合は、(i)グループ化列の組は、必要と
される列ｎの組であり、(ii)集約化列の組は、候補とな
る集約化列ｎの組である、という注釈を持たなければな
らない。たとえば、図３（Ａ）で示した木２４で、走査
節Orderに必要な列は｛dealerid, prodid｝であり、走
査節Orderの候補となる集約化列は{amount｝である。

【００１７】注釈をつけられた２つの結合木は、どのデ
ータベースからでも同じ答えが得られる場合、ある与え
られたスキーマ（たとえば、記憶されたデータベースの
表および列）に対して等価である。本発明は、与えられ
た左深木から等価の左深木の導出を可能にする変換を識
別する。そのような変換について以下に述べる。

【００１８】第１の変換（invariant grouping propert
y：不変グループ化特性）では、拡張左深木は、グルー
プ・バイ演算子の位置を動かすことによって得られる。
第２の変換（simple coalescing grouping property：
単純合同グループ化特性）では、左深木の１つのグルー
プ・バイは、拡張左深木の複数のグループ・バイ演算子
で置き換えられる。

【００１９】図４は、本発明の実施例による変換選択ル
ーチン７０のフローチャートである。このルーチンの目
的は、与えられた左深木の中で、ある節が、不変グルー
プ化特性を満たすか、あるいは、単純合同特性を満たす
かを識別するものである。変換選択ルーチン７０は、先
ずブロック７２で、候補となる集約化列の組が、質問の
集約化列の組のサブセットであるかを判断する。候補と
なる集約化列が質問の集約化列にない場合は、グループ
・バイ演算子が使用できる変換がないので（ブロック７
４）、ルーチン７０は終了する。他方、候補となる集約
化列が質問の集約化列のサブセットである場合、ルーチ
ン７０は、ブロック７６で、残りの結合演算子（すなわ
ち、質問木のより高いレベルで起こる結合演算）が外来
キー上にあるかを判断する。言い換えれば、残りの結合
は、他の関係のキー列上の等結合である。残りの結合演
算子が外来キー上で動作する場合、ルーチン７０は、必
要とされる列が、質問のグループ化列の組のサブセット
であるかを判断する（ブロック７７）。そうである場
合、不変グループ化特性が存在し（ブロック７８）、ル
ーチン７０は終了する。そうでない場合、グループ・バ
イ演算子が使用できる変換がないままルーチン７０は終
了する。他方、残りの結合演算子が外来キー上だけで動
作しない場合は、ルーチン７０は、集約関数が合併特性
（union property）を満たすかを判断する（ブロック８
０）。合併特性については以下に述べる。質問の集約関
数が合併特性を満たす場合、単純合同グループ化特性が
存在し（ブロック８２）、ルーチン７０は終了する。そ
うでない場合、すなわち、集約関数が合併特性を満たさ
ない場合、グループ・バイ演算子が使用できる変換がな
いままルーチン７０は終了する。

【００２０】第１の変換は、与えられた左深木の１つあ
るいは複数の内部の節ｎ（すなわち、不変グループ化特
性を保つ節）を識別して、等価の拡張左深木が、グルー
プ・バイ演算子をそのような節ｎの上に動かすことによ
って、与えられた左深木から得られるようにする。この
変換は、グループ・バイ演算子（与えられた左深木の中
の）の仕様を修正することなく保持するので、不変と呼
ばれる（図３（Ａ）および図３（Ｂ）を参照された
い）。

【００２１】与えられた左深木の節ｎは、次の条件、す
なわち、(i)必要とされる列ｎが質問のグループ化列で
あり、(ii)質問のすべての集約化列が候補となる集約化
列ｎであり、(iii)ｎの先祖である各結合節に対して、
結合が、結合の内部関係の外来キー上で等価結合述部で
あることが真実である場合、不変グループ化特性を持
つ。

【００２２】さらに、左深木の節ｎが不変グループ化特
性を持つ場合、その先祖も不変グループ化特性を持つこ
とになる。不変グループ化特性を持つ一組の節がチェイ
ンを形成し、等価の注釈をつけられた拡張結合木は、グ
ループ・バイ演算子をチェインの中のどれか１つの節の
上に置くことによって得ることができる。不変グループ
化特性を持つ複数の節にグループ・バイを置くことは冗
長であることに留意されたい。

【００２３】第２の変換も早期のグループ化を実行する
機会を利用するが、しかし、その後、先に形成された複
数のグループの合同を行う付加的なグループ化が必要に
なる場合がある。したがって、単純合同に基づいた変換
の結果として、左深木の１つのグループ・バイ演算子
は、結果として生じる拡張左深結合木の複数のグループ
・バイ演算子で置き換えることができる。それでもな
お、そのような変換は、従来の最適化手段によって得ら
れる実行計画にくらべて何倍も優れた実行計画を得るの
に役立つことが多い。

【００２４】第２の変換（すなわち、単純合同グループ
化特性）の場合、不変グループ化の条件(ii)および(ii
i)はもはや満たす必要はない。条件(ii)または(iii)が
満たされない場合、合同されたグループに対応するタプ
ル（tuple）は、質問のグループ化列で一致する出力関
係の中に２つ以上のタプルを生じることがある。

【００２５】したがって、不変グループ化に対する条件
(ii)および／または(iii)が真実でない場合にグループ
・バイを押し下げるためには、グループ化列で一致する
２つのグループを合同することが可能でなければならな
い。幸い、組込型ＳＱＬ集約関数Agg (たとえば、Sum)
のためには、１袋のタプルの集約は、その袋の分解から
計算された集約から計算することができる。すなわち、 Agg(Agg(S),Agg(S')) = Agg(S ∪ S') [合併特性] ...(１) として表すことができる。上記式において、Ｓおよび
Ｓ'は任意の袋で、∪は袋の合併を表す。したがって、
グループ・バイをもう１つ適用することにより、２つの
グループを合同することができる。

【００２６】したがって、質問のすべての集約化列が節
ｎの候補となる集約化列で、集約が合併特性（式１）を
満たすならば、与えられた左深木の節ｎは単純合同グル
ープ化特性を持つ。ある節が単純合同グループ化特性を
持つならば、左深結合木のそのすべての先祖も単純合同
グループ化特性を持つ。単純合同グループ化特性を持つ
節のチェインに沿った１つまたは複数の節にグループ・
バイ演算子を置くことは、新しい拡張左深木を与えられ
た左深木に等価のままにする。

【００２７】不変グループ化に対比して、節のチェイン
に沿ってグループ・バイ演算子を複数適用することは冗
長ではなく、グループ化を段階的に実行する結果にな
る。例として、図５に、代表的な第２の質問Ｑ２のため
の左深木の概略図を示す。したがって、木３２は、質問
Ｑ２の従来の実行計画である。木３２の節Orderは不変
グループ化特性を持たないが、質問の集約化列（amoun
t）がOrderの候補となる集約化列でもあり、且つ集約関
数Sumが合併特性を満たすので、単純合同グループ化特
性を満たす。したがって、図６（Ａ）および図６（Ｂ）
に示された木３４および３６は、図５の木３２に等し
い。グループ化を複数適用することは冗長でなく、注文
の和を連続計算するために使われる。

【００２８】変換には、最適化の機会を提供する重要な
関係がある。たとえば、不変グループ化特性を持つ節
は、単純合同グループ化特性を持つ節の特別なケースで
ある。したがって、単純合同変換によって導入されたグ
ループ・バイ演算子が不変グループ化節に置かれる場
合、不変グループ化の特性は、冗長なグループ・バイ演
算子がある場合これらを除くために使うことができる。

【００２９】最後に、単純合同は、ある節がこの特性を
満たすか否かが、残りの結合に関係なく、"局部で"テス
トできるという顕著な特性を持つことに留意されたい。
この特性は、上述の変換を使用する本発明の最適化プロ
シージャで使用される。

【００３０】図７（Ａ）ないし図７（Ｃ）は、左深結合
木に変換を適用する可能性を示す。図７（Ａ）に示した
結合木８４の概略図は、従来の最適化手段によって作ら
れたものである。結合木８４は従来の最適化手段によっ
て得られた左深木を表す。Ｇと印を付けられた節は、グ
ループ・バイ演算子が適用されることを表す。従来と同
じように、図７（Ａ）に示したグループ・バイ演算子は
最後に実行される。図７（Ｂ）は、第１の変換の適用を
示す結合木８６の概略図を示す。Ａとつけられた円で囲
まれた部分木は、質問のすべての集約列がその節の下で
起こることを表している。結合木８６は、不変グループ
化特性を保つ節のチェイン（点線の円）がある木を表
す。点線の円は、グループ・バイ演算子が点線のついた
節のどれか１つにだけ置くことができることを示す。図
７（Ｃ）は、第２の変換の適用を示す結合木８８の概略
図である。結合木８８は、節が単純合同グループ化特性
を持ち、したがって、複数のグループ・バイ演算子がチ
ェインに沿って出現できる場合の木を表す。

【００３１】変換について左深木の場合の文脈で述べた
が、これらの変換は、より一般化したもの、および、注
釈がつけられた枝葉の多い結合木にも適用できることに
留意されたい。さらに上記で考慮したＳＱＬの組込み集
約関数Max、Min、および、Sumは、すべての変換に適用
できる。

【００３２】質問の中で、列の集約がAll（たとえば、S
um(All amount))によって修飾される、前述の仮定につ
いても考慮してみよう。修飾語AllはＳＱＬでデフォル
ト仕様である。この制限は簡単にゆるめることができ
る。先ず、不変グループ化変換は、Distinctによって修
飾された集約にも適用できることに留意されたい。次
に、単純合同については、質問にDistinct修飾句を持つ
集約がある場合は、Distinct列は、変換の観点からは、
質問のグループ・バイ列の一部と考えることができる。
したがって、これらの列の集約が早い時点でのグループ
化の間に計算されなくても、修飾句Allを持った集約
は、本発明の変換を用いて計算することができる。

【００３３】また、必要とされる列の組が残りの列を関
数的に決める場合には、グループ・バイ演算子を呼び出
すことは冗長であることに留意されたい。そのような場
合、各グループは単集合である。最適化手段は、計画の
費用を見積もる際に、このことを認識できるように設計
されている。上には述べなかったが、変換は、Order-by
演算子、あるいは、Having演算子を持っている質問にも
適用できる。

【００３４】図８は、本発明による最適化手段１２の基
本動作を示すフローチャートである。先ず、最適化手段
１２は処理すべき質問１０を受け取る（ブロック３
８）。次に、ブロック４０で、最適化手段１２は、受け
取った質問１０がグループ・バイ演算子を含んでいるか
どうかを判断する。受け取った質問１０がグループ・バ
イ演算子を含んでいない場合、従来の最適化プロシージ
ャ４２が実行される。他方、受け取った質問１０がグル
ープ・バイ演算子を含んでいると判断された場合には、
本発明による拡張最適化プロシージャ４４が実行され
る。従来の最適化プロシージャ４２は公知であり本発明
の事項ではないので、これ以上述べない。拡張最適化プ
ロシージャ４４については、図７ないし図９を参照しな
がら以下に詳しく述べる。

【００３５】概略的に、最適化手段１２はグループ・バ
イ演算子を持つ質問を受け取り、変換を用いて一連の代
替実行計画（実行空間）を作成し、次に、費用に基づく
手法を用いて、代替実行計画から最適の計画を選択す
る。最適化手段１２の動作について概略説明したので、
次に拡張最適化プロシージャ４４について述べる。

【００３６】最適化効率のために、実行空間は、左深結
合木の種類になるように制限されている。左深結合木
は、内部の各節の右の子が葉であるように注釈された結
合木のことである。

【００３７】図９に、少なくとも１つの結合を持った質
問について記述された、拡張最適化プロシージャ４４に
関連した基本的な最適化ルーチン４６を示すフローチャ
ートを示す。先ず、最適化ルーチン４６は、ブロック４
８で、部分質問（サブクエリ：subquery）の大きさに対
応するインデックス（ｉ）を２に設定する。部分質問の
大きさがｉに設定されると、最適化手段１２は、与えら
れた質問の中で述べられている関係ｉからなる部分質問
を最適化する。したがって、部分質問の最大の大きさ
は、与えられた質問の中の関係の数（Ｎ）になり得る。
次に、部分質問の大きさのレベルに基づいて判断５０が
行われる。部分質問の大きさがＮを超える場合、最適化
ルーチン４６は終了する。他方、部分質問の大きさがＮ
を超えない場合、最適化ルーチン４６は部分質問の大き
さを増分する。

【００３８】その後、部分質問の大きさの各値に対し、
ブロック５２で最初に１に設定された関係インデックス
(ｊ)の値について反復計算が行われる。一般に、Ｎを質
問の中の関係の数とするとき、関係インデックスは１か
らＮ＋１までの値をとる。その後、関係インデックスの
大きさに基づいて判断５４がなされる。関係インデック
スがＮを超えると、判断５４により、特定の部分質問の
大きさ（ｉ）に対する最適化が完了したと判断する。こ
の場合、ブロック５６で、部分質問の大きさは増分され
（ｉ＋１）、その後、処理の流れはブロック５０に戻
り、大きさ（ｉ＋１）の部分質問の処理が行われる。他
方、関係インデックスがＮを超えていない場合、ブロッ
ク５８で、結合Ｒ_jに対する最適計画が、全ての部分質
問Ｓ_jの大きさ（ｉ−１の）について考慮されたかどう
かに基づいて判断が行われる。そうである場合、関係イ
ンデックスは増分され（ブロック６０）、処理の流れは
ブロック５４に戻り、次の関係（Ｒ_j＋１）が処理され
る。他方、ブロック５８で、関係Ｒ_jに対して部分質問
Ｓ_jの全てがまだ最適化されていないと判断された場
合、次の式、すなわち、

【００３９】

【数１】で表される部分質問に対する最適計画が、拡張最適化ル
ーチンを使って決められる（ブロック６２）。拡張最適
化ルーチンについては、図１０を参照して以下に詳しく
述べる。ブロック６２の後、処理の流れは判断ブロック
５８に戻る。その結果、判断ブロック５８によってすべ
ての部分質問Ｓ_jが関係Ｒ_jに関して最適化されたと判断
されるまで、ブロック５８から６０が繰り返される。

【００４０】図１０は、本発明の実施例による拡張最適
化ルーチン６４のフローチャートである。拡張最適化ル
ーチン６４は、Ｑ_s、すなわち、Ｓ_jとＲ_jとの結合のた
めの最適計画を生成するものである。拡張最適化ルーチ
ン６４は、質問１０に対するグループ化列および集約化
列を識別することから始まる（ブロック６６）。

【００４１】上述したように、グループ・バイ演算子が
注釈された結合木のどこに置くことができるかという制
限があるので、この最適化の間に、等価結合木が作られ
る。次に、ブロック８４で、グループ・バイ演算子が関
係Ｓ_jおよび／あるいはＲ_jのすぐ上に置くことができる
かどうか（すなわち、Ｒ_jあるいはＳ_jが単純合同特性を
満足するか）に基づいて判断が行われる。グループ・バ
イ演算子が関係Ｓ_jおよび／あるいはＲ_jのすぐ上に置け
る場合は、ブロック８６により、結合計画が作成され、
計画の費用が見積もられる。結合計画は次のものであ
る。

【００４２】

【数２】このような結合計画は、グループ・バイ演算子が結合演
算に先行するので、グループ・バイ結合計画と呼ばれ
る。グループ・バイ結合計画は、グループ・バイ演算子
を関係Ｓ_jおよび／あるいはＲ_jのすぐ上の質問木に挿入
することによって作成される。実際には、グループ・バ
イを木の内部の節に挿入することにより、結合演算がグ
ループ・バイ結合演算によって置き換えられる。グルー
プ・バイ演算子を関係Ｓ_jおよび／あるいはＲ_jのすぐ上
に置くことができない場合は、ブロック８６はバイパス
される。次に、ブロック８６がバイパスされるか否かに
かかわらず、ブロック８８により、Ｓ_jとＲ_jとの結合演
算のための従来の結合計画が作られ、その費用が見積も
られる。従来の手法による結合計画は、上記「関係デー
タベース管理におけるアクセス経路の選択」に記述され
ているような手法によって作成される。

【００４３】例として図２を参照すると、木２０は質問
の左深結合木である。木２０は、必要とされる列｛deal
erid, prodid｝、および、候補となる集約列｛amount｝
が質問のグループ化列および集約化列に一致するので、
単純合同グループ化特性を持つ節Orderを含む。したが
って、最適化中に、図１０の判断ブロック８４におい
て、図２の木２０の場合に、グループ・バイ演算子は節
Orderの上に置くことができると決められる。

【００４４】グループ・バイ結合計画の費用見積りにつ
いて以下に述べる。従来の結合計画の費用については、
たとえば上記の「関係データベース管理におけるアクセ
ス経路の選択」に記述されている従来手法にしたが
う。グループ・バイ結合計画（これがある場合）の費用
は、従来の費用モデルへの下記の拡張によって見積もる
ことができる。

【００４５】費用モデルへの拡張は、グループ化後の関
係のタプルの数を見積もる。単一列のグループ化におい
ては、グループの数は、その列の異なる値の数に等し
い。しかし、複数列のグループ化では、グループの数の
見積もりを計算する必要がある。

【００４６】一つの費用モデル（複数列の費用モデル）
は、次の式を使用する。複数列の費用モデル：グループ
化列は独立していると仮定する。異なる値の数は、(a)
関係の中のタプルの数、および、(b)グループ化列の特
異な値の数の積、の２つの数量のうちの最小であると推
定する。しかし、実際問題としては、グループの数がよ
り小さいものが、上述の費用モデルによって予測された
ものよりも、現実的である。したがって、複数列の費用
モデルは、グループ化列が独立しているという仮定に基
づいて比較的大きな数のグループを予測するので、この
モデルはグループ化を行わないようにする効果を持つ。
上述の費用モデルは慎重さを見込むように選択されてい
るので、この費用モデルの下で早期のグループ・バイが
行われる場合は、"圧倒的な"数になる可能性がある。

【００４７】もう一つの費用モデル（最大値費用モデ
ル）は、"楽天的"、すなわち、より少ないグループを予
測するもので、次の式を使用する。最大値費用モデル：異なる値の数が、すべてのグループ
化列の濃度（cardinality）の最大値に等しいと仮定す
る。言い換えれば、列は"階層的"構造を持つ。そのよう
なモデルでは、グループ化が奨励される。

【００４８】再び、図１０に戻ると、拡張最適化ルーチ
ン６４の最後のプロシージャは、ブロック９０で、見積
もられた費用が最も低い計画を代替計画から選択する。
ブロック９０で選択された計画は、関心をひく順序（in
teresting order: 関心順序）のそれぞれの、

【００４９】

【数３】すなわち、関係Ｓ_j、Ｒ_jのすぐ上の節に対して、最良の
計画である。これについて次に簡単に述べる。

【００５０】関心順序とは、(a)順序づけが質問のグル
ープ・バイ文節で指定されたものと同じ場合か、あるい
は、(b)順序づけが将来のソート・マージ結合に有用な
場合に、後で役立つ中間関係のタプルの順序付けのこと
である。(b)の組は、将来の結合列のすべてからなる。
従来の最適化プロシージャと同じように、最適化手段１
２は、２つの関係の間（あるいは、中間関係と基礎的関
係との間）の結合を考慮するときにアクセス経路および
結合方法のすべてを考慮した結果生じる関心順序を生成
する。

【００５１】いままでの最適化手段と同様に、関心順序
の従来の組が利用される。しかし、本発明の新規性の一
部として、本発明にしたがいグループ・バイ節が内部に
起こり、複数のグループ化列を持つことができることは
重要な注目点であり、グループ・バイがソートを使って
実施される場合に、グループ化列の大項目から小項目へ
の順序づけを適切に選択することは有益である。

【００５２】上記の関心順序の組を減らすために、次の
条件、すなわち、(1) 最上位の列は、グループ・バイ節
のすぐ上の節でのソート・マージ結合列のための列であ
る、あるいは、(2) 最上位の列は、質問のグループ化列
である（そのようなグループ化列が節の列の中にある場
合）、のどちらか１つが満たされるように、大項目から
小項目への（すなわち、最上位から最下位への）列の順
序づけを制限することが望ましい。従来の最適化プロシ
ージャと同様に、第１の関心順序(1)は、その順序がグ
ループ・バイに続く結合で役立つことを確実にする。し
たがって、グループ・バイがあることによって作られる
唯一の付加的な順序は、第２の関心順序(2)である。第
２の関心順序(2)が有利である理由は、上記の順序づけ
がある場合、外側の関係が将来の結合で入れ子構造のル
ープに常に参加するならば、ソートが、将来のグループ
・バイ演算で、多分必要なくなるということである。従
来の最適化プロシージャで、第２の関心順序(2)の列が
第１の関心順序(1)に一致しない場合、ソートのための
そのような関心順序は魅力がない。というのは、後続す
る結合で利用されないソートのオーバーヘッドのため
に、結合を直ちに行うことの費用がはるかに高くつくか
らである。しかし、グループ・バイを早期に処理する場
合は、結合される関係の大きさを小さくする可能性があ
るので、第２の関心順序(2)の順序づけを探求すること
は利益あることである。

【００５３】例として、質問の結合順序（左から右に
（(R join S) join T)）を考えてみる。等価結合が、Ｒ
とＳとの間の列ａ、および、ＳとＴとの間の列ｃにあ
る。結果は、Ｒの列ｂにグループ化される。集約化列の
詳細は重要ではない。第１の結合を考慮するとき、従来
のシステムでは、ソートするための主たる列は列ａ（第
１の関心順序(1））であろう。しかし、グループ・バイ
がＳとの結合に先行するＲに押し下げられる場合は、列
ｂがグループ化列（第２の関心順序(2)）であるので、
列ｂもまたソートのための主たる列として考慮される。

【００５４】最後に、最適計画は、不変グループ・バイ
節に変換できる単純合同グループ・バイ節があるか調べ
られる。そのような後処理は、冗長なグループ・バイ演
算子を見つけるのに役立つ（不変グループ・バイ演算子
を複数適用するのは冗長である）。

【００５５】上述した本発明の実施例はグループ・バイ
演算子に関わるものであったが、データベース質問を最
適化する本発明の手法は、Select Distinct質問にも有
用である。というのは、Select Distinct質問は、グル
ープ・バイの特殊なケースと見ることができるからであ
る。そのような質問は次の形式を持つ。 Select Distinct <columnlist> From <tablelist> Where condl....condn Select Distinct文節があることにより、返答、あるい
は、質問処理中に作られた中間関係の中の重複したタプ
ルを除くことができる。結合演算の先に重複除去を選択
的に押し下げることは、グループ・バイ演算子を持たな
い select-project-join の式でのSelect Distinct質問
を処理する費用を減らすことができる。しかし、結合の
先にグループ・バイ演算子を押し下げる場合と同じよう
に、重複除去を押し下げる判断は結合順序と相互作用す
る。

【００５６】重複の除去は、集約が計算されず、グルー
プ・バイが射影リストのすべての列にある場合のグルー
プ化の特殊ケースと見ることができる。具体的には、重
複除去演算は、注釈をつけられた結合木のどの節にも押
し下げることができる。さらに、複数の節にそのような
グループ化を適用することは冗長でない。したがって、
重複除去は、単純合同グループ化特性（第２の変換）と
してモデル化される。単純合同グループ化特性は、集約
列がないので、あらゆる左深木のすべての節に対するSe
lect Distinct質問においては、僅かにしか活かされな
いことに留意されたい。

【００５７】本発明には、例として次のような実施態様
が含まれる。（１）節で結合された関係を持つ関係データベースの質
問を最適化する方法であって、（ａ）処理を行うため
に、グループ化演算子を持つ最適化すべき質問を受け取
るステップと、（ｂ）前記質問に対し、内部の各結合節
に先行してグループ化演算子を置くことを考慮して複数
の実行計画を生成するステップと、（ｃ）前記複数の実
行計画に対して費用を見積もるステップと、（ｄ）見積
もられた費用が最も低い実行計画を選択するステップ
と、を含む方法。（２）前記ステップ（ｂ）が、（ｂ１）前記質問に対し
てグループ化列および集約列を識別するステップと、
（ｂ２）前記質問に対するグループ化列および集約列に
基づいて、前記実行計画のどの結合節がグループ・バイ
結合節に変換できるかを判断するステップと、を有す
る、上記（１）に記載の方法。

【００５８】（３）前記ステップ（ｂ）が、（ｂ３）前
記結合節がグループ・バイ結合節に変換できる場合、部
分質問Ｒ_jとＳ_jとの結合演算のそれぞれに対して、グル
ープ・バイ（Ｒ_j）とＳ_jとの結合演算、および、グルー
プ・バイ（Ｓ_j）とＲ_jとの結合演算をするための実行計
画を生成するステップをさらに有する、上記（２）に記
載の方法。（４）前記ステップ（ｂ２）が、前記質問の集約関数が
合併特性を満たすかを判断するステップと、前記結合節
の候補となる集約化列が前記質問の集約化列であるかを
判断するステップと、を有する、上記（２）に記載の方
法。（５）前記ステップ（ｂ２）が、前記結合節に対する候
補となる集約化列を識別するステップと、残りの結合演
算が外来キーを持っているかを判断するステップと、前
記候補となる集約化列が前記質問の集約化列であるかを
判断するステップと、をさらに有する、上記（２）に記
載の方法。（６）前記ステップ（ｄ）が、（ｃ１）前記質問に対す
る実行計画を作成するステップと、（ｃ２）前記結合節
に対して、見積もられた費用が最も低い実行計画を選択
するステップと、（ｃ３）前記実行計画の結合節のいく
つかを選択的にグループ・バイ結合節に変換することに
よって等価質問を作成するステップと、を有する、上記
（２）に記載の方法。

【００５９】（７）データベース管理システムのための
質問最適化手段であって、関係データベースと、質問の
少なくとも１つの節に関連するグループ化演算子を持つ
最適化すべき質問を受け取る手段と、前記質問に対し、
内部の各結合節に先行してグループ化演算子を置くこと
を考慮して複数の実行計画を生成する手段と、前記複数
の実行計画に対して費用を見積もる手段と、見積もられ
た費用が最も低い実行計画を選択する手段と、を含むシ
ステム。（８）前記実行計画を選択する手段が、前記質問に対す
るグループ化列および集約列を識別する手段と、前記質
問に対するグループ化列および集約列に基づいて、前記
実行計画のどの結合節がグループ・バイ結合節に変換で
きるかを判断する手段と、を有する、上記（７）に記載
のシステム。（９）質問の実行を最適化する質問最適化手段を持つ関
係データベース・システムにおいて、改善点が、グルー
プ化演算子を含む質問に関し、実行計画の複数の内部の
節にグループ化演算子を置くことを考慮することによっ
て前記質問を最適化することを有するシステム。

【００６０】

【発明の効果】本発明は、グループ・バイ演算子を持っ
た関係データベースの質問において、グループ・バイ演
算子を実行計画の内部の節にすることにより、データベ
ース質問を最適化する効果を奏する。

【図面の簡単な説明】

【図１】本発明による関係データベース管理システムの
ブロック図。

【図２】代表的な従来の左深結合木の概略図。

【図３】図２に示した結合木の代表的な拡張左深結合木
の概略図で、図３（Ａ）はグループ・バイ演算子が１つ
の内部の節にあることを示し、図３（Ｂ）はグループ・
バイ演算子が別の内部の節にあることを示す。

【図４】本発明の実施例による変換選択ルーチンのフロ
ーチャート。

【図５】もう一つの、代表的な従来の左深結合木の概略
図。

【図６】図５に示した結合木に等しい拡張された左深結
合木の概略図であり、図６（Ａ）はグループ・バイが複
数適用された結合木を示し、図６（Ｂ）はグループ・バ
イが１つ適用された結合木を示す。

【図７】変換の適用可能性を示すための左深結合木の概
略図で、図７（Ａ）は従来の最適化手段によって作られ
た結合木、図７（Ｂ）は第１の変換を適用した結合木、
図７（Ｃ）は第２の変換を適用した結合木を示す。

【図８】本発明による最適化手段の基本動作を示すフロ
ーチャート。

【図９】本発明の実施例による最適化ルーチンと関連す
る基本動作を示すフローチャート。

【図１０】本発明による、代表的な拡張最適化ルーチン
のフローチャート。

【符号の説明】

２関係データベース管理システム１０質問１２最適化手段１４費用情報１６関係実行エンジン１８関係テーブル２０、３２従来の左深結合木 24、28、34、36 拡張左深結合木８４従来の最適化手段によって作られた結
合木８６第１の変換を適用した結合木８８第２の変換を適用した結合木

Claims

【特許請求の範囲】

【請求項１】節で結合された関係を持つ関係データベ
ースの質問を最適化する方法であって、（ａ）処理を行うために、グループ化演算子を持つ最適
化すべき質問を受け取るステップと、（ｂ）前記質問に対し、内部の各結合節に先行してグル
ープ化演算子を置くことを考慮して複数の実行計画を生
成するステップと、（ｃ）前記複数の実行計画に対して費用を見積もるステ
ップと、（ｄ）見積もられた費用が最も低い実行計画を選択する
ステップと、を含む方法。