JPH0652022A

JPH0652022A - データベースへのアクセス時の応答時間を最少化する方法

Info

Publication number: JPH0652022A
Application number: JP5130886A
Authority: JP
Inventors: Ravi Krishnamurthy; ラヴィ・クリシュナマシー; Waqar Hasan; ワガー・ハサン; Sumit Ganguly; サミット・ガングリー
Original assignee: Hewlett Packard Co
Current assignee: HP Inc
Priority date: 1992-06-01
Filing date: 1993-06-01
Publication date: 1994-02-25
Also published as: EP0573252A3; EP0573252A2

Abstract

(57)【要約】【目的】並列動作可能な複数リソースを有するテ゛ータヘ゛ースシス
テムにおける問題解決に必要とされる応答時間を最少化す
ること【構成】テ゛ータヘ゛ースシステムは並列動作可能な複数のリソースを
有する。問題は複数の副問題に分割されて複数レベルの
階層状に配列される。第１レヘ゛ルの各副問題は記憶リソースか
らのテ゛ータの取り出しを必要とし、上位レヘ゛ルの各副問題は
下位レヘ゛ルの副問題の結果の計算リソース中での操作を必要と
する。各副問題を解決可能な副フ゜ランを全て識別する。同
一問題を解決するのに各リソースに要する時間が他より長い
副フ゜ランを全て削除する。問題を解決する残りの副フ゜ランの
考えられる各組み合わせ毎に応答時間を計算し、応答時
間が最短の組み合わせを最適フ゜ランとして選択する。好適
には本方法は応答時間の最少化にて過度の特別作業を実
行することを必要とする副フ゜ランを削除する。本方法はセレ
クト・フ゜ロシ゛ェクト・シ゛ョイン照会として知られる類の問題の解決
に利用可能である。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、一般的に、コンピュー
タ化されたデータベースシステムに関し、特に、並列動
作可能な複数のリソースを有するデータベースシステム
からデータを取り出す際に必要とされる時間を最少化す
る方法に関する。

【０００２】

【従来の技術】コンピュータ化データベースシステムに
おけるリソースは、当該システムにおいて機能ユニット
として定義される。典型的なデータベースシステムは、
少なくとも２つのリソースを有する。即ち、中央処理装
置（CPU）と、磁気ディスクのような記憶媒体がそれで
ある。前記データベースシステムの応答時間とは、問題
の解決を当該システムに対して求めてから、当該システ
ムから当該問題に関する結果が得られるまでの時間のこ
とである。図１は、問題を解決する際に、データベース
システムによって実行される論理ステップのシーケンス
の概略を示すものである。問題は、実行されるべき照会
Ｑという形で提示される。当該照会Ｑは、コンパイラ／
オプティマイザＣに与えられる。幾つかの基準に基づい
て、当該コンパイラ／オプティマイザは、実行空間ESか
ら、１つのプランを選択する。当該実行空間ESには、前
記照会を実行するための、考えられる全てのプランが含
まれる。このようにして選択されたプランが（処理ステ
ップＥで）実行されて応答Ｒが提供される。

【０００３】データベースシステム中で解決されるべき
問題は、図２に示す類の三つのテーブルを組み合わせる
ことである。即ち、当該テーブルは、被雇用者テーブル
Ｅ（被雇用者の氏名を、当該被雇用者が働いている部門
の部門番号と当該被雇用者の有するスキルを表示するス
キル番号とにマッピングするもの）と、スキルテーブル
Ｓ（前記スキル番号を当該スキルの記述にマッピングす
るもの）と、部門テーブルＤ（前記部門番号を当該部門
の名称にマッピングするもの）とである。

【０００４】図３は、問題を解決するための２つの異な
るプランを示す。当該２つの異なるプランは、同一の問
題を異なる順序で解決する。「Ｊ」は、前記テーブルを互
いに結合させることを意味する。図３(a)に示すよう
に、最初のプランは、前記被雇用者テーブルＥを前記部
門テーブルＤに結合させ、次いでその結果を前記スキル
テーブルＳに結合させる。その順序に基づき、当該プラ
ンは（ＥＤＳ）と表すことができる。図３(b)に示す２
番目のプランは、前記被雇用者テーブルＥを前記スキル
テーブルＳに結合させ、次いでその結果を前記部門テー
ブルＤに結合させる。当該プランは（ＥＳＤ）と表すこ
とができる。幾つかの基準に基づき、前記問題を解決す
るのに最適なプランとして前記の最初のプランまたは前
記２番目のプランのいずれか一方が選択される。

【０００５】問題を解決する上で必要なテーブル数が増
加するに従い、当該テーブルを結合させるための考えら
れるプラン数が増加する。これは、ひいては、最適なプ
ランを発見するために必要とされる時間を極めて増大さ
せることになる。「動的計画法(dynamic programmin
g)」として知られる技法は、最適プランを発見するため
に必要とされる時間を大幅に削減するものである。動的
計画法では、問題は複数の副問題に分割される。あらゆ
る副問題の複数の発生が識別され、当該副問題の最初の
発生時にのみ解が計算される。次いで、当該解は、同一
の副問題が再発生する毎に再使用される。当該解の再使
用によって、比較する必要のあるプランの数が大幅に削
減され、これにより、最適プランを発見するために必要
とされる時間が大幅に削減されることになる。動的計画
法に関する全般的な論議は、Bellman氏の「Dynamic Pro
gramming」(1957年、Princeton University )に見い出
される。

【０００６】データベースの照会を解決するための最適
プランの選択は、作業負荷を最小にする基準に基づいて
行われるのが普通である。当該作業負荷は、照会により
コンピュータの種々のリソース（ＣＰＵやディスク記憶
装置等）に課せられるものであり、その大きさは一般
に、前記リソースの各々が当該照会を解決するのにビジ
ー状態となっていた時間の長さの総和として表されてき
た。従って、所与のプランが、１０秒間のディスク時間
と５秒間のＣＰＵ時間とを必要とする場合には、当該プ
ランに従って当該照会を解決するのに必要な総「作
業」、即ち総計算時間は、１５秒間と規定される。異な
るプランを比較する場合、各プランが必要とする総作業
が計算される。続いて、当該コンピュータシステムに最
少量の作業を必要とするプランが、最適プランとして選
択される。

【０００７】当該最少量の作業を必要とするプランを発
見するための方法は、「greedyアルゴリズム」として知
られている。当該greedyアルゴリズムについての全般的
な論議は、Cormen氏等による「Introduction to Algori
thms」（1990年、マグローヒル社）に見られる。問題を
解決するために必要とされる総作業を最少にするための
当該greedyアルゴリズムの使用に関する論議は、Apers
氏等による「Optimization Algorithms for Distribute
d Queries」（IEEE Transactions on SoftwareEngineer
ing, 9(1), 1983）に見られる。

【０００８】総作業を最少にするための基準に従ってプ
ランを選択するための他の方法は、Hong氏等による「Op
timization of Parallel Query Execution Plans in xp
rs」（Proceedings of the First International Confe
rence on Parallel and Distributed Information Syst
ems, 1991年12月）、及び、Selinger氏等による「Acces
s Path Selection in a Relational Database Manageme
nt System」（Proceedings of ACM−SIGMOD Internatio
nal Conference on Management of Data, 1979）に記載
されている。

【０００９】作業の最少化によりプランを選択する方法
の１つの変形として、所定の応答時間内のスループット
の最大化によりプランを選択するという方法がある。当
該方法は、幾つかの自動預金支払機(ATM)ネットワーク
で用いられている。当該ネットワークは、所定時間中に
当該機械によって実行されるトランザクションの数の最
大化を試みる。これを実現させる１つの方法として、所
定の時間に処理されるトランザクション数を、予め設定
された応答時間内に各トランザクションを確実に完了さ
せることができる数に制限する、という方法がある。も
う１つの方法としては、トランザクション数が所定量に
達するまで個々のトランザクションを遅延させ、次いで
それらを一括して処理するという方法がある。この方法
は、当該システムを最も効率的に使用する方法ではある
が、最初の幾つかのトランザクションに関する応答時間
が増大するという代償を要するものである。

【００１０】如何なる時にもコンピュータの１つのリソ
ースしか動作できない場合には、総作業を最少にするプ
ランを選択することにより、応答時間を最少にするプラ
ンが得られる、ということが一般に予測できる。しかし
ながら、並列動作可能な複数のリソースを備えたコンピ
ュータシステムの場合には、全てのリソースの総作業時
間量を最少にすることと応答時間を最少にすることと
は、一般には同じではない。例えば、２つのディスク記
憶装置D1,D2と２つのCPU C1,C2とを有するコンピュータ
システムについて考察する。図４は、考えられる１つの
プランを実行して１つの問題を解決するために前記リソ
ースの各々に課せられる作業負荷を示している。斜線領
域は、当該問題に関して個々のリソースが作動している
時間間隔を示す。即ち、D1,D2,C1は、各々40秒間を必要
とし、C2は90秒間を必要とする。これらの全ソースによ
り必要とされる総時間は210秒間であるが、当該リソー
スのうちの幾つかが並行してそれぞれの作業を実行する
ので、応答時間は、100秒しかかからない。

【００１１】プロセッサC2によって実行される作業を40
秒間から10秒間に減少させるプランは、総作業を30秒間
だけ減少させるが、前記応答時間には何ら影響を与えな
い；ということが理解されよう。逆に、プロセッサC1に
よって実行される作業を90秒間から70秒間に減少させる
プランは、当該システムの応答時間を20秒間だけ減少さ
せることになる。従って、応答時間を短縮化する必要が
ある場合には、前者のプランがシステムの総作業を大幅
に減少させるものであったとしても、後者のプランの方
が好ましいことになる。

【００１２】

【発明が解決しようとする課題】以上の説明から、並列
動作する複数のリソースを有するコンピュータ化データ
ベースシステムにおいて問題を解決するのに必要とされ
る応答時間を最少化するための方法が必要とされてい
る、ということが理解されよう。

【００１３】

【課題を解決するための手段】本発明は、問題を解決す
る際のコンピュータ化データベースシステムの応答時間
を最少にする方法を提供するものである。当該データベ
ースシステムは、記憶リソースや計算リソース等の並列
動作可能な複数のリソースを有する。

【００１４】即ち、手短に且つ一般的に言えば、本発明
により提供される当該方法は下記ステップを含み、その
全てはソフトウェアの制御下でコンピュータにより自動
的に実行される。問題は、複数の副問題に分割される。
当該副問題は、複数レベルの階層状に配列される。第１
レベルにある各々の当該副問題は、コンピュータの記憶
リソースからデータを取り出すことを必要とし、残りの
レベルにある各副問題は、下位レベルの副問題の結果を
当該コンピュータの計算リソースにおいて操作すること
を必要とする。

【００１５】当該副問題の各々を解決するのに使用する
全ての副プランを識別する。最初の階層にある任意の副
問題が２つ以上の関連する副プランを有する場合であっ
て、その関連する副プランのうちの或る副プランを解決
するのに各リソースに対して必要とする時間がその他の
関連する副プランを解決するのに各リソースに対して必
要とする時間より長い場合、前者の副プランは全て削除
される。

【００１６】一実施例では、第１レベルより上位レベル
にある各副問題は、そのすぐ下位レベルの副問題の結果
と第１レベルの副問題の結果との双方を必要とする。ま
た、第１レベル以外のレベルの副問題に関連する各々の
副プランも、そのすぐ下位レベルの副問題の結果と第１
レベルの副問題の結果との双方を必要とし、当該結果は
計算リソースにおいて操作される。

【００１７】他の実施例では、第１レベルより上位の任
意のレベルにおける各副問題は、２つの下位レベルの副
問題の結果を必要とする。第１レベル以外のレベルにお
ける副問題に関連する各副プランもまた、２つの下位レ
ベルの副問題の結果を必要とし、当該結果は計算リソー
スにおいて操作される。

【００１８】或る実施例では、１番目より上位レベルに
おける副問題に対して、副プランを削除する処理ステッ
プが繰り返される。

【００１９】次いで、残りの副プランの考えられる組み
合わせの各々に従って問題を解決するのにコンピュータ
が必要とする時間量が計算され、最良の応答時間を与え
るものであればどのような組み合わせであっても、それ
が最適プランとして選択される。

【００２０】或る代替実施例では、本発明の方法は、当
該システムに性能低下の許容される範囲内で最大スルー
プットの制限を行うか、または応答時間を減少させるた
めに必要とされる特別な作業の制限を行う。当該制限を
越える副プランは全て削除される。

【００２１】本発明のその他の特徴及び利点は、本発明
の原理を例示した添付図面を参照して以下の詳細な説明
を読むことによって明かとなろう。

【００２２】

【実施例】本発明は、問題を解決する際におけるコンピ
ュータ化データベースシステムの応答時間を最少化する
方法を提供する。当該データベースシステムは、並列動
作可能な２つ以上のリソースを有する。問題を解決する
ための当該リソースの総計算時間を最少にする代わり
に、本発明の方法は問題を解決する際の応答時間を最少
にする。

【００２３】図５は、３つのテーブルＥ，Ｄ，Ｓを互い
に結合させることにより問題を解決する場合における本
発明の利用例を示すものである。下付き数字１は当該テ
ーブルが第１リソース中にあることを示し、下付き数字
２は当該テーブルが第２リソース中にあることを示す。
第１リソースは３つのテーブルを全て保持しており、第
２リソースはテーブルＥ，Ｄのみを保持している。

【００２４】図５(a)は、テーブルＥ，Ｄを互いに結合
させるのに第１リソースが１０単位時間を必要とし、そ
の結合されたテーブルをテーブルＳに結合させるのに更
に５単位時間を必要とする、ということを示している。
当該作業を１つのリソースで行えば、結果を得るまで１
５単位時間が必要となる。換言すれば、当該問題を解決
する際の応答時間は１５単位時間である。

【００２５】図５(b)は、テーブルＥ，Ｄを互いに結合
させるのに第２リソースが１１単位時間を必要とし、そ
の結合されたテーブルにテーブルＳを結合させるのに第
１リソースが５単位時間を必要とする、ということを示
している。従ってそれら２つのリソースは当該問題を解
決するのに１６単位時間を用いるが、当該リソースの全
てが並列動作可能であるため、当該結果を得るのに１１
単位時間しか必要とされない。換言すれば、当該問題を
解決する際の応答時間は１１単位時間である。

【００２６】従来のシステムでは、テーブルＥ，Ｄを結
合させた後、図５(b)のプランが削除される。これは、
図５(b)の操作が、図５(a)の操作より１単位時間だけ余
分な１１単位時間を必要とするからである。本発明は、
２つのプランが２つの異なるリソースで処理される際
に、その一方のプランが他方のプランより物理的に時間
がかかる場合であっても、その２つのプランを双方とも
保持する。図示のように、１つの問題について２つ以上
のリソースが動作する場合、１つのリソースが他のリソ
ースより短時間で１つの副プランを完了するということ
は、プラン全体が完了する応答時間が短縮することに必
ずしも通ずるものではない。

【００２７】図６は、１つの問題を解決する際の応答時
間を最適化するようにプランを選択する本発明の方法の
他の一例を示すものである。図６(a)は、当該問題を解
決するための２つの副プランを示す。当該副プランは、
それぞれ１つずつリソースを使用する。即ち、副プラン
203はリソース201を使用し、副プラン204はリソース202
を使用する。リソース201は副プラン203を解決するのに
５単位時間を必要とし、リソース202は副プラン206を解
決するのに６単位時間を必要とする。当該２つのリソー
スは並列動作して、当該問題の結果を６単位時間で演算
子に与える。従って、総計算時間は１１単位時間である
が、当該システムの応答時間は６単位時間となる。

【００２８】図６(b)は、２つの当該副プラン203,204を
示す。当該副プランは共にリソース201を使用して当該
問題を解決する。リソース201は、副プラン203の解決に
はやはり５単位時間を必要とするが、副プラン204の解
決には４単位時間だけ必要とする。従って、当該問題を
解決する際の当該システムの応答時間と総計算時間とは
共に９単位時間となる。

【００２９】従来のシステムでは、図６(b)の副プラン
が選択される。これは、当該副プランが必要とする単位
時間が９単位時間であり、これは図６(a)の副プランの
場合よりも２単位時間だけ短いからである。しかしなが
ら、本発明は、図６(a)の副プランを選択する。これ
は、当該副プランが、図６(b)の副プランの場合より３
単位時間だけ短い６単位時間で結果を与えるからであ
る。応答時間を最適化する場合には、総計算時間を最適
化するプランとは異なるプランが問題解決のために選択
されることが多い。

【００３０】図７に示すコンピュータ化データベースシ
ステム100は、本発明の方法により使用されるものであ
る。当該データベースシステム100は２つ以上のリソー
スを有し、即ち、計算リソース102,104とディスク記憶
リソース106,108とを有する。当該リソースは全て並列
動作可能なものである。

【００３１】図８は、本発明の方法の第１の好適実施例
を概略的に示すものである。本発明の方法は、最初に、
問題10を複数の副問題10,11,12,13,15,17,19に分割し、
当該問題10自体も１つの副問題として取り扱う。次い
で、それらの副問題がレベル1,2,3等の複数レベルに階
層状に配列される。第１レベルにおける各副問題は、情
報テーブル等のデータを記憶リソースから取り出すこと
を必要とする。例えば、副問題11は、図７のリソース10
6等の記憶リソースからデータ51を取り出すことを必要
とする。一層上位のレベルにおける各副問題は、一層下
位のレベルにおける副問題の結果を計算リソースにおい
て操作することを必要とする。例えば、副問題15は、副
問題11の結果を計算リソース104において操作すること
を必要とする。

【００３２】各副問題を解決するために使用される全て
の副プランが識別される。例えば、副問題11について副
プラン20,22が識別される。ここで留意すべきことは、
副プラン20が２つの副々プラン20A,20Bに更に分割さ
れ、副プラン22もまた２つの副々プラン22A,22Bに分割
される、ということである。

【００３３】第１レベルにおける２つ以上の副プランを
備えた全ての副問題について、同じ副問題を解決する際
にコンピュータの複数のリソースの各々に対して必要と
する時間が他の副プランよりも多い副プランは全て削除
される。例えば、記憶リソース106が、副々プラン20Bを
実行する場合より多くの時間をかけて副々プラン22Bを
実行し、及び、計算リソース102が、副々プラン20Aを実
行する場合より多くの時間をかけて副々プラン22Aを実
行する場合には、副プラン22が削除される。好適には、
当該手続きを他の全レベルの副問題に対して階層的に繰
り返す。例えば、計算リソース104が、副プラン52を実
行する場合より多くの時間をかけて副プラン50を実行す
る場合に副プラン50が削除されることになる。

【００３４】応答時間は、当該問題を解決するプラン6
0,63等の残りの副プランの考えられる組み合わせの各々
について計算される。即ち、当該組み合わせのうち最少
の応答時間を有する組み合わせが、最適プランとして選
択される。図示の例では、プラン60が選択される。

【００３５】前記の第１の好適実施例では、第１レベル
以外のレベルにあって関連する副プランを有する副問題
の各々は、すぐ下位レベルにおける副問題の結果と第１
レベルにおける副問題の結果との双方を計算リソースに
おいて操作する、ということを必要とする。例えば、関
連する副プラン30を有する副問題10は、すぐ下位レベル
における副問題15の結果と第１レベルにおける副問題13
の結果との双方を計算リソース102において操作する、
ということを必要とする。

【００３６】最適プランを選択する本発明の方法は、セ
レクト・プロジェクト・ジョイン(select−project−jo
in)照会として知られる或る種の問題の解決に応用する
ことができる。

【００３７】図９は、テーブル中の或る行を選択する
「セレクト」操作を示すものである。例えば、５０未満
の番号を有する部門の全てを部門テーブルから選択して
新たな部門テーブルを形成することができる。

【００３８】また、図１０は、テーブル中の或る列の投
影(projection)を形成する「プロジェクト」操作を示す
ものである。例えば、部門テーブルから部門番号の全て
を投影して、部門番号のみを備えた新たなテーブルを形
成することができる。

【００３９】図１１は、２つのテーブルを結合して新た
なテーブルを形成する「ジョイン」操作を示すものであ
る。例えば、スキルテーブルを被雇用者テーブルに結合
させて新たなテーブルを形成することができる。

【００４０】第１階層の副問題を解決する副プランの各
々は、「スキャン」、「セレクト」、「プロジェクト」
等のタスクを実行する。ここで、「スキャン」とは、デ
ータテーブルを取り出すことを意味する。第１階層以外
の階層における副問題を解決する副プランの各々は、
「セレクト」、「プロジェクト」、「ジョイン」等のタ
スクを実行する。

【００４１】第２の好適実施例は、下記の相違点を除け
ば、前記の第１の好適実施例と同じである。即ち、当該
相違点とは、当該第２実施例では、第１レベル以外のレ
ベルにあり且つ関連する副プランを有する副問題の各々
が、下位の２つのレベルにおける２つの副問題の結果を
計算リソースにおいて操作することを必要とする、とい
う点である。ここで図１２を参照する。関連する副プラ
ン80を有する副問題70は、下位レベルにある副問題72,7
1の結果を図７の計算リソースにおいて操作することを
必要とする。

【００４２】代替実施例では、本発明の方法は、システ
ムに性能低下の許容される範囲内で最大スループットの
制限を行うか、または応答時間を短縮するために必要と
される特別な作業の制限を行う。当該制限を越える副プ
ランは全て削除される。

【００４３】当該実施例では、当該システムが必要最小
限の総作業で問題を解決するために必要とされる総計算
時間W_oが計算される。当該システムの性能低下が許容さ
れる最大スループットを示す係数Ｆが設定され、問題の
解決にW_o×Ｆを越える時間を必要とする副プランが全て
削除される。

【００４４】当該システムによって必要とされる特別作
業量を制限するもう１つの方法は、下記ステップに従っ
て実現される。即ち、第１に、当該システムが最少量の
総作業を実行して問題を解決する際に当該システムが必
要とする応答時間T_oと総計算時間W_oとが計算され、第２
に、当該応答時間を短縮化するために必要とされる特別
な作業の最大量を示す係数Ｆが設定され、第３に、全て
の副プランに対し、当該システムが前記問題を解決する
ために必要とする応答時間T_pと総計算時間W_pとが計算さ
れ、第４に、次式を満たす副プランの全てが削除され
る。

【００４５】(T_o−T_p)／(W_p−W_o)＜Ｆ本発明の更に詳細な説明を以下で行うこととする。

【００４６】計算コストが低下すれば、並列実行を利用
して安価なリソースを開発することにより意志決定支援
照会の応答時間を短縮することが経済的に実行可能にな
る。この目的は、スループットに関して制約を受ける応
答時間を最短にするという照会最適化問題を生じること
になるが、これについて、我々は、従来のＤＢＭＳの問
題の二元性であると主張する。この新規の問題について
は、市販のＤＢＭＳに広く利用されている実行空間、コ
ストモデル、及び、探索アルゴリズムを拡張することに
より、セレクト・プロジェクト・ジョイン照会に関連し
て取り扱うこととする。従来の実行空間に並列処理の誘
因と抑止因とを組み込む。コストモデルは応答時間が予
測可能であることを示し、また並列処理による新しい局
面についても説明する。我々の観測したところでは、応
答時間最適化の方法(metric)により、殆どの市販のＤＢ
ＭＳにおけるオプティマイザの要である動的計画法のア
ルゴリズムの基本的前提が崩れることになる。我々は、
動的計画法を拡張して、正確に応答時間を予測する最適
化方法を設計することができる方法を示す。

【００４７】１序文ヒューレット・パッカード社の研究所のPapyrusプロジ
ェクト［CHK⁺91］では、高度に調整されたカスタマイズ
されたデータマネージャを統合すると共にその性能に関
する要件を保持する方法を調査している。高性能の要因
の１つとして照会の並列実行が挙げられる。一般に、該
プロジェクトは、任意のデータ操作演算子を含む照会の
並列実行を求めるものであるが、本明細書中では、並列
実行のためのセレクト・プロジェクト・ジョイン（ＳＰ
Ｊ）照会の最適化に関する問題を中心に論じることにす
る。

【００４８】人間が複雑な照会を行い、対話応答を要求
する、意志決定支援アプリケーションにおいては、応答
時間の短縮が必要になるのは明らかである。例えば、有
価証券明細(stock portfolio)マネージャは、ボタンを
クリックすることにより重要な照会を実行することがで
き、証券の多様な範疇に従って結果をグラフ化すること
ができる。これは、特殊な例ではなく、意志決定プロセ
スにおけるタスクの典型的な例である。妥当な応答時間
の獲得は、これらのアプリケーションにおいて大きな障
害となってきた。

【００４９】計算コストが低下すれば、安価なリソース
を投入して照会の並列実行を開発することにより応答時
間の短縮を達成することが経済的に実施可能になる。例
えば、バニラ(vanilla)ソート／マージと比較して行わ
れる特別な作業を犠牲にすることにより、ハッシュ(has
h)区分化ソート／マージ［SD89］を利用して応答時間を
短縮することが可能である。特別な作業は応答時間の短
縮と引き換えになるが、どんな犠牲を払っても応答時間
を短縮するというのは容認できない。

【００５０】今日の市販のデータベースはスループット
の最大化を目的としているが、応答時間にある程度の制
限を課している。例えば、TPC-Aベンチマーク[Gra91]
は、照会の90％が多くとも２秒の応答時間ですむことを
必要とする。しかし、この要件は一般には、オプティマ
イザにその要件を組み込むことによってではなく、最大
多重プログラミング度及びグループの実施頻度といった
システムパラメータを設定することによって保証され
る。他の種類の照会に関する応答時間を保証するために
はオプティマイザ自体の修正が必要になる。

【００５１】従来のデータベースに関する問題は、応答
時間に関して制約を受けるスループットを最大にするこ
とである。意志決定支援アプリケーションは、スループ
ットに関して制約を受ける応答時間を最短にするという
二元性の最適化問題を課すことになるという点を主張し
ておく。

【００５２】並列実行に関する照会の最適化は、開放問
題[DG90]とみなされる。[AHY83]及びXPRS[HS91]におけ
る応答時間の最短化に関する先行研究では、提案された
解決策の適用可能性を制限する並列マシンアーキテクチ
ャに関する前提条件の制限がなされている。Gammaプロ
ジェクト[DGS⁺90,SD89,Sch90]では、多くの実行戦略が
研究されたが、照会の最適化に関する問題は取り扱われ
なかった。

【００５３】この最適化の問題に対する解決策は、市販
のオプティマイザを用いた１０年間にわたる経験に基づ
いて講じるべきである。[SAC⁺79]の例にならって、３つ
の大きさに沿って、即ち、実際の実行に関する全ての関
連アスペクトの構文的表現を定義する実行空間と、実行
プランのコストを予測するコストモデルと、最小のコス
トプランを得るために用いられる探索アルゴリズムとに
沿って、並列照会の最適化問題に対する解決策の説明を
行うことにする。

【００５４】本明細書で解説の解決策は、並列マシンア
ーキテクチャの全範囲にわたって適用可能である。アー
キテクチャ間における相違は、コストモデルの厳密な細
部の変化及び探索方法の設計において重要とみなされる
要素の変化として現れる。

【００５５】従来の実行空間を拡張して、並列実行の誘
因（異なる結合の並列に実行や１つの結合の並列化等）
及び並列実行の抑止因（データ依存性及びリソース競合
等）をモデル化した。こうして、オプティマイザにより
検査すべきトレードオフが明らかになった。

【００５６】応答時間の予測における上述のトレードオ
フを推定することのできるコストモデルの設計が可能で
あることが明らかになった。例えば、パイプライン式実
行の応答時間推定値は、データフロー依存性及びリソー
ス競合に応じて、独立した並列実行の推定値から、逐次
実行時より悪い推定値までの範囲にわたる。この悪化時
のパイプライン式実行は、並列処理が利用可能でない場
合におけるパイプライン式演算の実行に対する不利益を
反映するものである。このため、思慮に富んだコストモ
デルの実現可能性を立証した。

【００５７】応答時間は、基本特性に、即ち市場で認め
られた探索アルゴリズム[SAC⁺79]が必要とする最適性の
原理に背くものである、ということが明らかになった。
従来の動的計画法によるアプローチでは、作業に関する
配列全てを用いているが、本拡張案では、応答時間を予
測する方法に関して部分的配列を用いている。更に、本
アプローチの実践性を実証する分析が提供される。

【００５８】要するに、特別な作業に関して制約を受け
る応答時間を最短化するための一般的ではあるが実践的
な最適化アルゴリズムの実現可能性を立証するため、実
行空間とコストモデルと探索アルゴリズムとの設計にお
ける問題を扱った。

【００５９】以下、セクション２で最適化方法の厳密な
説明を行い、セクション３で従来のオプティマイザの概
要を示す。セクション４では並列処理の誘因及び抑止因
を実行空間がモデル化する方法を論じ、セクション５で
コストモデルを示し、セクション６で探索アルゴリズム
を扱い、セクション７で結論を示す。

【００６０】２並列照会最適化：最適化方法照会ｑと、実行プランの空間Ｅと、実行プランｐ∈Ｅに
数値コストを割り当てるコスト関数cost(ｐ)とを与えた
場合、照会最適化の一般的な問題は、ｑを計算する最低
コスト実行プランを求めること、と表すことができる。

【００６１】照会のコストをその応答時間として公式化
したが、応答時間の短縮と引き換えにすることが可能な
「特別な」作業に制限を設けている。特別な作業に関す
る制限は、作業及び応答時間のトレードオフに対するシ
ステム管理制御を可能にするパラメータによって決定さ
れる。照会の最適化問題に関する本公式化は、全く新規
のものであり、また必要なものであると確信している。

【００６２】照会ｑに関する最適作業プランの作業及び
応答時間コストをそれぞれＷ_o及びＴ_oとし、任意の実行
プランｐに関する最適作業プランの作業及び応答時間コ
ストをそれぞれＷ_p及びＴ_pとし、特別な作業を制限する
ための２つの方法について考察する。

【００６３】●スループットの低下に関する制限：シス
テムアドミニストレータは、システムの最大スループッ
トを低下させることができる係数ｋを指定することがで
きる。Ｗ_p≦ｋ×Ｗ_oの場合、ｐのコストはＴ_pであり、
その他の場合は無限となる。

【００６４】●コスト／利益比：システムアドミニスト
レータは、必要とされる追加作業に対する応答時間の短
縮の比に対して限界値ｋを指定することができる。（Ｔ
_o−Ｔ_p）／（Ｗ_p−Ｗ_o）≧ｋである場合には、ｐのコス
トはＴ_pであり、他の場合には無限となる。

【００６５】この特別な作業に対する制限は、分岐及び
制限技法の組み込みと同様に、探索アルゴリズム中に組
み込まれる。

【００６６】３従来のオプティマイザの再検討市販のDBMSはスループットの最適化のために構築された
ものであり、従って、その最適化方法は作業である（全
リソースを消費）。これらのシステムにおけるオプティ
マイザは、System R オプティマイザ[SAC⁺79]の構想を
採用している。こうしたオプティマイザの設計は、３つ
の構成要素、即ち実行空間とコストモデルと探索アルゴ
リズムとに分解することができる。

【００６７】実行空間：照会実行は構文的には注釈付き
結合ツリー（プランとも呼ばれる）として表現される。
これは、各内部ノードが結合演算であり、各葉ノードが
基底関係である、２進ツリーである。ノードにおける
「ラベル＝値」という形式の注釈は、モデル化すべき実
行の重要な要素である。結合ノードに関する注釈の例
は、「結合方法＝ネスト型ループ」である。他のラベル
例には、経路アクセス、索引生成、及び重複排除があ
る。

【００６８】こうしたツリーの意味論は、左深層(left-
deep)ツリーの場合直感的である。結合ツリーの副ツリ
ーから成る各組が正確に１度ずつ計算されるという意味
論的制約が課されている。その結果、左深層ツリーと
「同一」の実行を表すブッシー(bushy)ツリーが排除さ
れる。

【００６９】照会が行われると、（データベースの状態
に関わらず）その照会の計算を行う全てのツリーは、そ
の照会に関する「正当なプラン」であるとみなされる。
オプティマイザは、正当なプランの無限空間の有限部分
集合だけを探索するように設計される。「探索空間」と
呼ばれるその部分集合は構文的に特徴付け可能なもので
ある。例えば、System R の探索空間は、[SAC⁺79]に記
載の注釈付きの左深層結合ツリーである。

【００７０】コストモデル：コストモデルは、データの
統計的分配及びプランを実行する抽象機械に関する前提
からなる幾つかの集合に基づいてプランに整数コストを
割り当てる。コスト関数「cost(plan)→descriptor」
は、プランの左右の副ツリーの記述子によって再帰的に
定義される。この記述子には、関係サイズ、対象となる
配列、索引の利用可能性といった情報が含まれる。コス
ト関数は、簡略化のためだけに再帰的であるのではな
く、動的計画法に基づく探索アルゴリズムで利用できる
ようにしたものである。

【００７１】探索アルゴリズム：これは、最低のコスト
でプランの探索空間を探索するために用いられるアルゴ
リズムである。System R 式の動的計画法のアルゴリズ
ムについては、セクション6.1.1で再検討する。

【００７２】４並列実行のモデルこのセクションでは、並列実行の重要な局面について概
説し、次に、その新しい局面がモデル化される演算子ツ
リーと呼ばれる新しいツリーを得るため、従来の注釈付
き結合ツリーのマクロ拡張を示す。

【００７３】４．１並列実行の局面逐次実行の重要な局面のモデル化に加え、並列処理の誘
因及び抑止因を説明するためには並列実行のモデルが必
要になる。

【００７４】並列処理には基本的に２つの誘因がある。
それは、（１）１対の演算子（一般には副ツリー）のデ
ータ独立性並列実行と、１対の演算子のデータ依存性
（即ちパイプライン式）並列実行との両方を含む演算子
間並列処理と、（２）クローニングと称する単一演算
（例えばソート）の並列処理を表す演算子内並列処理と
である。

【００７５】こうした並列処理の２つの主たる抑止因
は、１）演算子間の論理的関係により生じる演算子間に
おける「データ依存性」（例えば、ハッシュ結合のプロ
ーブは、構築が完了するまで開始できない）と、２）幾
つかの演算子が並列に実行して同一のリソースを競合す
ることにより生じる「リソース競合」とである。

【００７６】４．２演算子ツリー並列実行の局面を正確にモデル化するために、結合ツリ
ーの実行モデルをより精妙に改善する。各注釈付き結合
ツリーは、後述のような態様で、各結合ノードを演算子
副ツリーにマクロ拡張することにより、「独特な」演算
子ツリーに拡張される。直感的に、演算子ツリーは、ク
ローニングのための入力の区分化を除き、実行時間スケ
ジューラがその演算をそれ以上細分することができない
という意味において最小なノードを備えている。ここで
の意図は、コストモデルについて論じることの可能な基
礎となる演算子ツリーモデルの典型的な局面のいくつか
を提供することだけである点に留意されたい。従って、
それは、完全なものではない。

【００７７】ノードsort-merge(R₁,R₂)^*1は、明示的ソ
ート及びマージによりマクロ拡張される（^*1 厳密に言
えば、演算はjoinであり、結合法の注釈はsort-mergeで
ある。簡略化のため、曖昧にならない限りにおいてその
表記法を用いることにする）。例えば、merge(sort(Sca
n(R₁)),(Scan(R₂)))が演算子ツリーである場合、そのソ
ート演算及びマージ演算のデータ依存性並びに２つのソ
ート演算の独立した並列実行がここで明示的に表され
る。Ｒ₂が既にソートされている場合、演算子ツリーに
は１つのソート演算しか記述する必要がないことに留意
されたい。同様に、ノードhash-join(R₁,R₂)は、ハッシ
ュテーブル（例えば、probe(Scan(R₁),build(Scan
(R₂)))）の構築及びそれに次ぐプローブに明示的に関連
して拡張させることが可能である。nested-loops結合
は、索引生成、重複排除（例えば、pure-nested-loops
(Scan(R₁),create-index(Scan(R₂)))）のようなその結
合法の変化に明示的に関連して拡張される。演算子pure
-nested-loopsが全く変化を有さずにネスト型ループの
実行を示す点に留意されたい。

【００７８】上述のように、実行の更なる詳細は注釈と
して示される。その幾つかを以下に示す。

【００７９】１．対（子，親）に関する注釈「構成方
法」は、２つの可能性、即ち、「パイプライン化」と
「具体化」とがある。子が部分的出力を生成可能な場合
にはパイプライン型に設定することができ、この場合、
親は部分的出力を消費することができる。その他の場合
には、「具体化」として注釈が付けられる。対（子，
親）に関する方法を示すこの注釈は、演算子ツリー中で
一意的に定義される子ノードに関連するという点に留意
されたい。

【００８０】２．注釈「クローニング」は、演算子内並
列処理のモデル化を意図したものである。この値は、リ
ソースに関して属性区分化データを用いた並列実行を表
す対（リソース集合、区分化属性）である。ソート／マ
ージノードは、結合属性Ａでプロセス1,2,5,7において
クローニングされているものとして注釈付けされている
と仮定する。これは、[SD89]に記載のハッシュ区分化ソ
ート／マージを表している。

【００８１】子ノードにおいて注釈が付けられる対
（子、親）間におけるデータの再分配には、２つの可能
性、即ち、真または偽がある^*2（^*2実際の用途では更に
明確な表現の注釈が必要となり得るという点に留意され
たい。本書においてはこれで十分であるため、最も単純
な事例を示した）。後続のクローニングされる演算に基
づいて子ノードの出力を再分配する必要があると判明し
た場合、それは真に設定され、その他の場合には、偽に
セットされる。

【００８２】例１並列実行用の演算子ツリー:nested-
loops(merge(sort1(scan(R₁)),sort2(scan(R₂))),scan
(R₃))に関し、結合ツリー:nested-loops(sort-merge(R₁，R₂),R₃))に
ついて考察する。

【００８３】この演算子ツリーに関する注釈は、下記の
表１に示すとおりである。

【００８４】

【表１】

【００８５】５．コストモデル主にトレードオフが表現可能であることを示すためにコ
ストモデルを提示する（トレードオフは応答時間に影響
を与えるものであり、このため並列実行の局面のうちで
も特にそれを示すこととした）。逐次実行（ＳＥ）につ
いてだけでなく、独立並列実行（ＩＰＥ）、依存性並列
実行（ＤＰＥ）、クローニングされた演算の並列実行
（ＣＰＥ）についても応答時間の推定を行い、抑止因が
応答時間に影響を与えるようにした。とりわけ、以下に
示すコストモデルに関する必要事項については以降で説
明することとする。

【００８６】１．ＩＰＥの応答時間は、リソースの競合
レベルに従ってＳＥの応答時間まで劣化する。

【００８７】２．ＤＰＥの応答時間は、ＩＰＥの応答時
間から、データフローの依存性及びリソースの競合によ
りＳＥの応答時間より悪化した応答時間までの範囲に及
ぶ。

【００８８】３．ＣＰＥの応答時間は、クローンのＩＰ
Ｅと同様である。

【００８９】並列処理が利用可能でない場合、特にリソ
ース競合により禁止されている場合には、パイプライン
方式での演算の実行に不利益が生じるので、ＤＰＥは、
ＳＥより更に悪い実行にまで性能が低下する可能性があ
るという点に留意されたい。これは、該システムが、必
然的にパイプラインを設定してＤＰＥの実行時間につい
て妥協を行うのに、ＳＥにはそのような不利益が生じな
いからである。

【００９０】以下に示すコストモデルは、この必要事項
毎に誘因及び抑止因のトレードオフを行うことが可能な
単なる一例である。従って、これは、並列実行について
規定されたコストモデルを意図したものではなく、従っ
て、前記例示の目的を損なうことにならない限り、前提
条件の簡略化を計ることとした。

【００９１】まず、クローニングまたは再分配がないも
のと仮定したコストモデルを提示する。次にそのコスト
モデルをそれらの注釈に適応するように拡張する。それ
ら注釈がなければ、問題となる注釈は構成方法及びその
並列処理への影響のみとなる。要するに、実行は、ディ
スクに並列アクセスを行う従来の実行とみなすことがで
きる。

【００９２】応答時間（RT）はコストモデルに関する方
法である。応答時間を表す記述子におけるコスト推定に
関するコスト記述子中の通常の情報を仮定する。演算子
ツリーPにおけるデータ依存性とりわけパイプライン式
演算を説明するため、コスト記述子は２つの部分を備え
ていなければならない。

【００９３】１．第１組のPが後続の演算に対して出力
される前に終了しなければならないPの副ツリーに関す
る記述子である第１組の記述子。より精確に言えば、S1
がPにおける副ツリー集合であるとすれば、第１組のS1
が出力される前に終了しなければならないS1の最小部分
集合S2。これは、副ツリーのルートに、具体化した注釈
を有するS1の全ての副ツリーの集合である。S2は、S1の
具体化されたフロントと呼ばれる。例１の場合、S2は、
sort1及びsort2でルートされた副ツリーの集合である。
第１組の計算後に行われるS1の残余照会をS1ΘS2と表す
こととする。

【００９４】２．Ｐの完全な実行に関する記述子である
最終組の記述子。

【００９５】第１（最終）組の記述子のコスト部分は、
当初は、第１（最終）組のプランが出力される推定時間
を示す整数tf（tl）で表される。これは、時間記述子と
称し、一般にt=(tf,tl)で示される。これは、後者のサ
ブセクションにリソースの利用が含まれるように一般化
され、このため、リソース記述子と呼ばれ、これは、一
般にヘ゛クトルrで表される。これら以外に、形式主義的には
明示しなかったが、これら以外にもコスト推定に必要な
通常の統計的情報が想定される。

【００９６】コストモデルは２ステップで提示される。
まず、リソース競合を前提としない応答時間の推定につ
いて解説される。従って、任意の照会に関する時間記述
子の推定について論じられる。次に、リソース競合がリ
ソース記述子の推定に組み込まれ、これによって、更
に、応答時間が影響を受ける。

【００９７】５．１リソース競合が存在しないRTの推定リソース競合が存在しないものと仮定してデータ依存性
と演算子内及び演算子間並列処理とについて説明して、
従来のＤＢＭＳのコストモデルに対する拡張を提示す
る。時間に関する３つの２進演算子を導入し、各演算子
がそのコストのモデル化を期待されているシナリオにつ
いて解説する。t1,t2は、演算子の２つの集合、例えばS
1,S2の完了時間を表すものと仮定する。

【００９８】１．t1‖t2は、S1,S2のＩＰＥの応答時間
を推定する。リソース競合がなければ、これはmax(t1,t
2)となる。

【００９９】２．t1;t2は、S2が後に続くS1のＳＥの応
答時間を推定する。この場合、これはt1+t2である。

【０１００】３．t1Θt2は、残余照会S1ΘS2に関する応
答時間を推定し、ここで、S2は、(S1ΘS2)にパイプ化さ
れたS2のＤＰＥを利用したS1の具体化されたフロントと
仮定される。

【０１０１】このΘ演算の値は、t1とt2の間の差、及
び、応答時間を決定するクリティカルパスに対するS1及
びS2のそれぞれの影響によって決まる。現時点では、こ
の概算は、t1−t2になるが、次のセクションでは、より
正確な推定値を得るため、リソースの利用が考慮され
る。

【０１０２】これらの演算子を用いることにより、２つ
の構成法法、即ち、パイプライン式実行及び具体化実行
に関する公式が、下記のように導き出される。

【０１０３】● 生産者と消費者の時間記述子に関する
パイプラインをそれぞれp=(pf,pl)及びc=(cf,cl)とする
と、演算子p｜cは、下記によって得られるパイプライン
に関する記述子(tf,tl)である： tf=(pf;cf) tl=(pf;cf;((plΘpf)‖(clΘcf))) tfは、第１組が最初の可能性のある時間において計算さ
れるという仮定の下に計算される。生産者演算子の残り
は、tlに関する公式に反映されるように、消費者演算子
の残りと並列に実行される。

【０１０４】● tfをtlと設定した演算子sync(t)、即
ちsync(tf,tl)=(tl,tl)を利用して時間記述子t=(tf,tl)
が計算される副ツリーの具体化実行。

【０１０５】演算子ツリーのコストは、上述の公式を利
用して、再帰的に計算される。基本的事例では、従来の
方法によって、ツリーの葉の記述子並びに結合法が導き
出されるが、この場合、応答時間は、その演算に必要な
全作業である。次に、それぞれ、左／右演算子及びルー
トノードに関する記述子をL,R及びrootとすると、ツリ
ーに関する記述子は、次のように再帰的に計算すること
ができる。Lの具体化フロンティア(frontier)とRの具体
化フロンティアを並列に実行することによって、時間記
述子t1=(L_f‖R_f,L_f‖R_f)を得ることができ、次に、Ｌの
残余照会とＲの残余照会をパイプライン式に並列に実行
することによって、記述子t2=t1;(0,L_lΘL_f)｜(0,R_lΘR
_f)を得ることができ、このパイプラインの結果をルート
ノードにパイプ化することにより、t=t₂｜rootが得られ
る。この演算子は、ツリー(L,R,root)として表される。
ルートノードが、１つの副ツリーだけであれば、公式
は、単にL｜rootとなる。上述の公式は、具体化される
副ツリーにも適用可能である。

【０１０６】例２例１に引き続き応答時間の推定を行
う。ツリーの各演算子に関する時間記述子(tf,tl)が、
従来のアプローチで推定される。例えば、索引の生成
は、走査を利用する前に実施しなければならないtf成分
を招来することになる可能性がある。下記の表２に、こ
れら演算の仮想時間記述子に関する推定値の計算を示
す。

【０１０７】

【表２】

【０１０８】ここで、クローニング及び再分配を許さな
い前提条件を緩和することにする。結合または選択のク
ローニングを行う能力は、量k、即ち、クローニング度
によって時間記述子(tf,tl)を変更することによって得
られる。例えば、単純なアプローチの１つは、時間記述
子を(tf/k,tl/k)とすることである。もちろん、より大
がかりな公式であれば、クローニングに関連したオーバ
ヘッドを考慮することになる。データの再分配には、ネ
ットワーク及びＣＰＵのオーバヘッドを伴うことになる
が、この場合、ネットワークは、受け取り側のＣＰＵに
対してパイプライン処理が施される。現在、生産者から
消費者への（即ち、任意の２つの演算間における）デー
タ転送は、ゼロコストであると仮定されている。一般
に、これは、再分配コストが示唆するように、真実では
ない。この転送コストは、この転送において利用可能な
潜在的並列処理だけでなく、プロセス間オーバヘッド、
通信オーバヘッドも数量化することを必要とする。これ
は、上述の公式を利用して応答時間を推定するだけでな
く、転送に関する時間記述子を利用して、上述の公式に
組み込むこともできる。要するに、上述のコストモデル
は、拡張することによって、他の注釈の取扱いも可能に
なる。

【０１０９】要するに、照会プランの応答時間の推定に
おいて、並列処理の誘因と抑止因のトレードオフを行う
コストモデルの提示が行われたことになる。この場合、
各種演算によって生じた／招来した、オーバラップした
／余分な作業は、モデル化され、応答時間のおおよその
推定が行われる。これは、全て、リソース競合がないも
のと仮定して行われた。これは、次のセクションにおい
て緩和される。

【０１１０】５．２リソース競合のモデル化まずリソース利用モデルについて提示され、次に、これ
を利用してコスト計算法が提示される。

【０１１１】５．２１リソース利用モデルタスクによるリソース利用は、２つのパラメータ、即
ち、t及びwによってモデル化されるが、ここで、tはリ
ソースが開放されるまでの時間、wはリソースが利用さ
れる有効時間として測定される作業である。例えば、Ｃ
ＰＵが１０秒間にわたって利用され、有効作業が５秒で
あったと仮定する。これは、ＣＰＵがその時間の５０％
しか働かなかったということである。しかし、この抽象
において、使用中期間がいつであったかを正確に予測す
ることはできない。

【０１１２】実際のところ、リソース利用に関するこの
(t,w)抽象については、均等性の仮定が行われる。リソ
ースの利用は、時間期間ｔ^*3に対し均等である（^*3 こ
の結果、ホットスポットをモデル化する能力が損なわれ
る）。更に、リソースは、時間を共用することができる
という意味において優先使用可能である。ＣＰＵ、ディ
スク、ネットワークのようなリソースは、優先使用可能
であるが、メモリは、可能ではない^*4（^*4 仮想メモリ
を利用する２つ以上のプロセスによってメモリを共用す
る時間は、ひどく高くつくことになるものと仮定し
て）。下記の特性はこれらの仮定に基づくものである。

【０１１３】ストレッチ特性：プランのリソース利用が
(t,w)の場合、任意の正の数m>1に関してリソース利用を
(mt,w)とする（即ち、適当なスケジューリング戦略を利
用してそれを行う）ことが可能である。

【０１１４】リソースr₁,..,r_nは、所定の演算集合（プ
ラン）によって用いられるものと仮定する。ストレッチ
特性が利用されるものと仮定されているので、t,sが全
て同じでtに等しくなると仮定することができるものと
仮定される。従って、tは、プランの応答時間を表し、
プランによって実施される全作業は次式で与えられる。

【０１１５】

【数１】

【０１１６】ベクトル成分がそのリソースについて実施
される作業を表す対(t,ヘ゛クトルw)は、リソースベクトルと
呼ばれる。それは、通常、ヘ゛クトルrによって示される。時
間記述子と同様、リソース記述子は、１対のリソースベ
クトル(ヘ゛クトルrf,ヘ゛クトルrl)と定義されるが、ここで、ヘ゛ク
トルrfは第１組が出力されるまでの資源ベクトルを表し、
ヘ゛クトルrlは最終組が出力されるまでのリソースベクトル
を表している。

【０１１７】このリソース記述子を利用して、応答時間
に対するリソース競合の効果が推定される。

【０１１８】５．２．２コスト計算法ここで、時間を示す整数に関する‖，；，Θの計算法を
リソースベクトルへと拡張する。下記においては、ヘ゛クトル r₁=(t₁,ヘ゛クトルw₁)ヘ゛クトル r₂=(t₂,ヘ゛クトルw₂) が演算集合S1,S2に関する２つの任意のベクトルである
とする。オペレーションのそれぞれの適用可能性につい
て示されるシナリオは、前述の場合と同様である。ベク
トルに対する演算+及び-は、通常の座標式加算及び減算
を表している。

【０１１９】演算ヘ゛クトルr₁；ヘ゛クトルr₂をヘ゛クトルr₁＋ヘ゛クトルr₂と定義し、ヘ゛クトル r₁Θヘ゛クトルr₂をヘ゛クトルr₁−ヘ゛クトルr₂と定義する。

【０１２０】これによって、具体化フロントの減算が正
確に推定される点に留意されたい。従って、公式ではΘ
演算の代わりに通常のベクトル・マイナス・オペレーシ
ョンが用いられる。ヘ゛クトルr₁‖ヘ゛クトルr₂は、各リソースi
毎に、(t，ヘ゛クトルw)と定義されるが、ここで、各リソー
スi毎に、

【０１２１】

【数２】

【０１２２】となり、ヘ゛クトルw=ヘ゛クトルw₁+ヘ゛クトルw₂である。

【０１２３】次に、これらの演算を利用して、以前のよ
うに、ツリー及びパイプライン演算子｜が定義される
が、この場合、これらは、時間記述子ではなく、リソー
ス記述子を引数とする。｜の演算子は、インターリーブ
した演算のリソース競合を考慮して、わずかに変更され
るので、結果得られる推定値は、ＳＥよりも悪くなる。

【０１２４】p=(ヘ゛クトルpf,ヘ゛クトルpl)、c=(ヘ゛クトルcf,ヘ゛クトルc
l)が、それぞれ、パイプラインの生産者と消費者に関す
るリソース記述子を表すものとする。次いで、前述の公
式によれば、記述子は p｜c=(ヘ゛クトルrf,ヘ゛クトルrl)となり、ここで、ヘ゛クトル rf=ヘ゛クトルpf;ヘ゛クトルcfであり、ヘ゛クトル rl=ヘ゛クトルpj,ヘ゛クトルcf;((ヘ゛クトルpl-ヘ゛クトルpf)‖(ヘ゛クトル
cl-ヘ゛クトルcf))である。

【０１２５】ヘ゛クトルrlの並列成分は、パイプライン処理
の同期オーバヘッドに対処するため、（スカラー）係数
δ(k)によってペナルティが科せられる。従って、ヘ゛クトル rl=ヘ゛クトルpf;ヘ゛クトルcf;δ(k)×((ヘ゛クトルpl-ヘ゛クトルpf)‖(ヘ゛クトルcl-ヘ゛クトルcf)) となる。

【０１２６】係数δ(k)は以下のように得られる。(t´,
ヘ゛クトルw)が、S1‖S2のリソースベクトルを表すものとす
る。t´がt1+t2に近ければ、並列パイプライン処理がリ
ソース競合を招来することを意味する。一方、このt´
がmax(t1,t2)に近ければ、リソース競合はほとんどな
い。δ(k)は、max(t1,t2)とt1+t2の間におけるt´のパ
ラメータ化された線形補間、即ち、 δ(k)=1+k×(t´-max(t1,t2))/(t1+t2-max(t1,t2)) として定義される。前記公式において、kは、調整可能
なパラメータである。線形補間の代わりにより正確な他
の非線形推定を用いることも可能である。

【０１２７】要するに、並列処理の誘因及び抑止因を考
慮した、ＩＰＥ、ＤＰＥ、及び、ＣＰＥの実行に関する
応答時間の推定が行われたことになる。

【０１２８】６探索このセクションでは、照会があった場合、探索空間を有
効に探索することにより、最適な応答時間の照会プラン
を得ることができる方法について考察される。

【０１２９】System Rタイプの動的計画法（ＤＰ）アル
ゴリズムで開始して、最適化方法としての応答時間の利
用の影響力が調べられる。ＤＰを利用するには、課題が
最適性の原理を満たすことが必要になる「Bel57」。

【０１３０】応答時間によってこの原理が侵害されるこ
とが明らかにされる。更に、応答時間を正確に予測し、
同時に、ＤＰが必要とする特性を満たすコスト方法が存
在しない。ＤＰを拡張することによって、この問題が解
決され、余分なものを除去して、応答時間を正確に予測
する方法を設計することが可能な方法について解説され
る。この拡張アルゴリズムは、実用的な複雑性を有して
いることが明らかにされる。

【０１３１】「余分な」作業に対する制限を取り入れ、
実際に活用して、探索効率を高めることが可能な方法に
ついて明らかにされる。

【０１３２】定理の証明については資料Ａを、アルゴリ
ズムを使用中のツリーの探索空間に拡張することについ
ては資料Ｂを参照されたい。

【０１３３】６．１ＤＰの失敗６．１．１ＤＰの再検討図１には、レフトディープ結合ツリーの空間内において
最適な作業プランを探索するSystem RスタイルのＤＰ
アルゴリズムが示されている。

【０１３４】このアルゴリズムの細部のいくつかが、抽
象化される。ルーチンaccessPlan(R)によって、関係Rに
関する最良のプランが得られる。joinPlan(p´,R)によ
って、結合プランｐは別のプランｐに拡張され、p´の
結果と関係Rとの結合が、考えられる最良の方法で行わ
れる。p´から得られる束縛を活用して、Rとの結合が可
能である。述語≦_workは、コストモデルによって供給さ
れる^*5（^*5 ２つのプランp₁及びp₂を所与のものとすれ
ば、p₁≦αp₂及びα(p₁)≦α(p₂)は、等価表記であると
定義される。α()関数の例には、work()及び応答時間関
数RT()がある）。

【０１３５】このアルゴリズムは、全ての関係集合の部
分集合が次第に大きくなることを考慮して、進められ
る。濃度iの集合に関するプランは、濃度i-1の集合に関
する最良のプランの拡張として作成される。これは、最
適化問題の性質によって、関係集合に関する最適のプラ
ンが、集合の部分集合に関する最適なプランの拡張にな
るので、可能である。最適性の原理と呼ばれることの多
いこの特性は、アルゴリズムによって活用される。部分
集合に関する最適なプランは、optPlan()に記憶され、
再計算ではなく再利用が行われる。

【０１３６】

【外１】

【０１３７】６．１．２ＤＰにおける基本的前提条件図１のＤＰアルゴリズムに関する正確さの証明には、コ
スト方法に関する下記の前提条件が必要になる。

【０１３８】● 最適性の原理。２つのプランが、副プ
ランにおいてのみ異なる場合、より優れた副プランを有
するプランが、やはり、より優れたプランである。即
ち、左深層ツリーの場合、下記が必要になる：p₁及びp₂
が、同じ副照会に関する２つのプランである場合、 p₁≦_costp₂⇒(∀i)joinPlan(p₁,R_i)≦_costjoinPlan(p₂,R_i) ● 全体配列。プランは、コスト方法に基づいて全体と
しての配列を施すとができる。

【０１３９】 (∀p₁p₂)not(p₁≦_costp₂)⇒(p₂≦_costp₁) コスト方法workは、整数であり、従って、全体配列が可
能である。最適性の原理が満たされるか否かは、コスト
モデルの選択によって決まる（これは、更に、選択され
る実行空間によって決まる）。

【０１４０】例えば、結合法としてネスト式ループ及び
ハッシュ結合を可能にし、アクセス法として索引走査及
び関係走査を可能にする実行空間について考察すること
にする。この実行空間^*6に関する妥当なコストモデルに
おいて、副照会と追加関係との結合を行う最良の方法
は、副照会によってのみ決まり、副照会に関するプラン
の選択によって決まることはない（^*6 コストモデルは
人間によって作成されたものであるということが想起さ
れる。人間の性質の癖が所与ものであるとすると、コス
トモデルの特性が実行空間の選択の結果生じるものと仮
定する場合、「妥当性」を訴えることしかできない）。
結合コストは、利用可能な束縛のような副照会の論理的
局面によってのみ左右され、物理的プランからは独立し
ている。即ち、p₁が副照会q₁に関するプランであり、jo
inwork(q₁,R)が、関係Rと副照会q₁の結果を結合する最
良の方法の作業コストであると仮定する。

【０１４１】定義（物理的透過性）：コストモデル
は、次の式があてはまる場合、物理的透過性を示すとい
われる：work(joinPlan(p₁,R))=work(p₁)+joinwork(q₁,
R) 定理１作業に関するコスト方法≦_workは、（１）全体
配列であり、（２）物理的透過性の前提条件の下で最適
性の原理を満たす。

【０１４２】実行空間にソート／マージ結合が含まれる
場合、物理的透過性を示すコストモデルは、妥当ではな
い。今や、プランによって生じる物理的な組配列によっ
て、後続のソート／マージ結合に備えて作業を保管する
ことが可能である。副照会qに関するプランp₁及びp₂に
よって、p₁≦_workp₂になるが、p₂によって、関係Rとの
ソート／マージ結合に必要な配列をなす組が得られるも
のと仮定する。p₂によって生じる関心のある配列によっ
て、ソートパスがソート／マージ結合アルゴリズムに保
管される場合、joinPlan(p₂,R)≦joinPlan(p₁,R)となる
可能性がある。従って、最適性の原理が、侵害される。

【０１４３】System Rにおけるようなオプティマイザ
は、後続ステージで結合のコストを節減することによっ
て有効であることが証明されるものと期待して、「関心
のある配列」が異なる副照会に関するプランを保持して
いる。最適性の原理の侵害に対するこの発見的解決策
は、実際において十分なものであると一般に認められて
いる。

【０１４４】６．１．３ＤＰ及び応答時間重要な問題の１つは、応答時間方法RT(p)をＤＰにおけ
るコスト方法に利用することが可能か否かということで
ある。

【０１４５】応答時間が最適性の原理を満たすであろう
か。さして驚くほどのこともない答であるが、それは、
コストモデルの選択しだいである。しかし、応答時間に
関する妥当なコストモデルによって、最適性の原理が極
めて甚だしく侵害されるものと確信している。直感的理
由は、データ依存性と、プランの部分間におけるリソー
ス競合が、応答時間にとって重大な要素であり、これら
を考慮に入れたコストモデルは、最適性の原理を侵害す
ることになるというものである。下記の例では、リソー
ス競合によって、最適性の原理がいかにして侵害される
に至るかが示される。

【０１４６】例３テーブルCTR（コース、時間、ル
ーム）とCI（コース、インストラクタ）から成るデータ
ベースについて考察することにする。CTRが、２つの索
引、即ち、クラスタ化索引I_CT（コース、時間）（ディ
スク１に記憶）及び非クラスタ化索引I_CR（コース、ル
ーム）（ディスク２に記憶）を備えており、CIは、１つ
の索引I_C（コース）（ディスク１に記憶）を備えている
ものと仮定する。

【０１４７】

【外２】

【０１４８】書式^*7NL(p,indexScan(I_C))の２つのネス
ト式ループ結合プランについて考察することにする。こ
こで、pはp₁=indexScan(I_CT)またはp₂=indexScan(I_CR)
である（^*7 簡略化のため、これらの式では、ＮＬを利
用して、ネスト式ループが表される）。リソースベクト
ル（ディスク１及びディスク２が唯一の重要なリソース
であるとみなすと）が、p₁に関して((20,20),(0,0))で
あり、p₂に関して((0,0),(25,25))であり、NL(*,indexS
can(I_C))（ｐを計算しない結合）に関して((40,40),(0,
0))であると仮定する。ネスト式ループは、パイプライ
ン処理されるので、リソースベクトルに関する計算法を
適用すると、NL(p₁,indexScan(I_C))のリソース利用は
((60,60),(0,0))になり、NL(p₂,indexScan(I_C))のリソ
ース利用は((40,40),(25,25))になる。

【０１４９】応答時間の定義を適用すると、RT(p₁)=20
及びRT(p₂)=25となる。しかし、 RT(NL(p₁,indexScan(I_C))=60 RT(NL(p₂,indexScan(I_C))=40 であり、これは、応答時間によって最適の原理が侵害さ
れることを示している。

【０１５０】関心のある配列による最適性の原理の侵害
によって、作業の最適化に問題が生じることになる。同
じ原理が、応答時間を最適化する場合には、リソース競
合のために侵害される。因果要素の数が急増するため、
応答時間の場合、問題はいっそう困難になるものと予測
される。リソース競合は、プランの任意の２つの部分間
において生じることになると思われる。プランのリソー
ス利用は、アクセス法、結合法、及び、結合配列といっ
た変数に加えて、中間結果のソートまたは区分化に、ど
のリソースが利用されるかによって、異なることにな
る。

【０１５１】次に行うべき当然の質問は、応答時間を正
確に予測し、必要とされる２つの特性を満たす新しい方
法を設計することが可能か否かということである。こう
した方法は、ＤＰにおいて余計なものを除去するために
用いることが可能である。こうした方法は剪定方法と呼
ばれる。

【０１５２】定義（正確な予測）：剪定方法αは、 p₁≦αp₂⇒p₁≦_RTp₂ の場合、応答時間を正確に予測するということになる。

【０１５３】定理２応答時間を正確に予測し、全体
配列を可能にし、最適性の原理を満たす剪定方法は存在
しない。

【０１５４】この定理の意味するところは、該要件を緩
和せずに、ＤＰを利用して、応答時間を最適化するのは
不可能ということである。既述の２つの前提条件のうち
一方に見切りをつけることを基本において、ＤＰの変形
を開発することが必要である。最適性の原理に見切りを
つけることは、本質的に、いやしくも探索空間の剪定能
力に見切りをつけるということになるので、全数探索の
アルゴリズムを無理矢理強制することになる。従って、
それほどひどくない代替案は、全体配列の要求の緩和で
ある。

【０１５５】下記を示すことによって、これが実際的な
方向であることが明らかになる。

【０１５６】● 部分的配列を利用することができ、共
用可能な性能を示すＤＰの一般化（セクション６．
２）、 ● 応答時間を正確に予測し、部分的配列を可能にし、
最適性の原理を満たす剪定方法設計することができる方
法（セクション６．３）。

【０１５７】６．２部分的配列に関するＤＰの一般化下記のように、ｌ次元における部分的配列を可能にする
less-than関係を定義することができる：定義(ｌ次元LESS-THAN):ｌ次元空間における２つのポイ
ント

【０１５８】

【外３】

【０１５９】

【外４】

【０１６０】次のセクションで示すように、α(プラン)
がｌ次元ベクトル^*8になるように、剪定方法αを設計す
ることが可能である（^*8 ２つのプランp₁及びp₂が所与
のものとすると、p₁≦α_lp₂及びα(p₁)≦_lα(p₂)は等価
の表記であると定義される）。こうした剪定方法は、設
計によって、応答時間を正確に予測し、かつ、最適性の
原理も満たすことになる。

【０１６１】図２には、部分配列を利用するためのＤＰ
の一般化が示されている。図１との重要な相違が、強調
されている。最も内側のループにおけるアクション（図
１のライン7,8,9）が、新しいアクションに置換されて
いる(図２のラインL1〜L8）。

【０１６２】一般的な概念は、各関係部分集合毎に１つ
の最適プランではなく、比較にならないが、最適なプラ
ン集合を保持するということである。これら比較になら
ないプランが、全ての可能性のあるプランに関する一意
性のカバー集合を形成する。

【０１６３】濃度iの集合Sに関するプランは、濃度i-1
のSの部分集合に関するカバー集合におけるプランの拡
張として、構成される。これらのプランのカバー集合
は、Sに関する最適なプランの集合として計算され、保
持される。最適性の原理に従って、こうして計算された
カバー集合は、実際、Sに関して可能性のある全てのプ
ランのカバー集合ということになる。

【０１６４】アルゴリズムの最終結果が、{R₁,...,R_n}
に関するプラン集合から選択することによって最良のコ
ストで得られる。

【０１６５】最適なプランの探索に関する時間及び空間
の複雑性は、各関係集合に関する最良のプラン集合のサ
イズによって決まる。このサイズをkと仮定する。従っ
て、アルゴリズムの時間及び空間の複雑性は、それぞ
れ、kn2^n-1、及び、

【０１６６】

【外５】

【０１６７】として表すことができる。これが、許容可
能な複雑性であるか否かは、kの値によって決まる。

【０１６８】定義（カバー集合）：関係≦_pに対するポ
イント集合Pに関するカバー集合Cは、Pの部分集合であ
るため、Cにおける全てのポイントが、比較できず、Pに
おける全てのポイントp´が、Cにおけるいくつかのポイ
ントc´「によってカバーされる」（即ち、c´≦_pp
´）。

【０１６９】定理３ｌ次元空間においてランダムに
選択されたｍ個のポイントのカバー集合の予測サイズ
（≦_lに対する）は、確率分布が各次元に沿って独立し
ている場合、せいぜい、2^l(1-(1-1/2^l)^m)である。

【０１７０】この定理は、本質的に、2^lがkの上限であ
ることを示している。次元の独立という前提条件は、ほ
とんどの剪定方法にとって最適であると思われる。従っ
て、2^lは、最適性の前提条件下において、上限をなす。

【０１７１】要するに、次元数lが小さい値に保たれる
と、部分的配列のＤＰによって、許容可能な性能が得ら
れる。

【０１７２】６．３剪定方法及び近似技法例３に示す状況を固定する方法の１つは、リソースベク
トル自体を剪定方法として利用することである。プラン
pのリソースベクトルrv(p)は、ｌ次元ベクトルである。
従って、リソースベクトルは、≦_lの関係を利用して、
部分的に配列することが可能である。明らかに、リソー
スベクトルは、応答時間を正確に予測する。

【０１７３】剪定方法の設計における一般概念は、結果
が誤りの場合に関して、最適性の誤りの原理についての
定義に先例を作ることにある。

【０１７４】例えば、剪定方法の追加次元として、組配
列を組み込むことが可能である。これには、配列に対し
て、≦_orderingの関係が必要になる。配列が列数のシー
ケンスとして表される場合、≦_orderingの関係
は、「...の副シーケンス」とみなすことができる。配
列と同様に、データ依存及びデータ区分化を組み込むこ
とも可能である。

【０１７５】しかし、探索コストを許容可能に保つため
には、剪定方法に含める次元が多くなりすぎないように
注意する必要がある。２つのリソースが互いにぴったり
とトラッキングする場合、単一のリソースとしてまと
め、モデル化すべきである。例えば、XPRS[HS91]におけ
るRAIDシステムの場合、各ディスクの使用を均等に保つ
ことを意図して、データは全てのディスクにハッシュ区
分化されているので、単一のリソースとみなすことが望
ましい。あるリソースのボトルネックが稀であると予測
される場合にはそれは無視すべきである。例えばディス
クコントローラにおけるリソース競合は、うまく設計さ
れたシステムでは滅多に問題にならない。

【０１７６】

【表３】

【０１７７】６．４論議ブッシーツリーは、２つの副ツリーを並列に実行するこ
とができるので、独立した並列処理の範囲が広くなる。
ブッシーツリーの空間に拡張されるＤＰアルゴリズムに
ついては、資料Ｂを参照されたい。

【０１７８】ブッシーツリーの探索は、左深層ツリーに
比べてかなり高くつく。ＤＰの複雑性は、２つの理由で
増すことになる。第１に、より重要な理由として、プラ
ンの空間が、はるかに広い。第２に、それほど明瞭では
ないが、副照会の可能性のある全ての束縛についてプラ
ンを保持せざるを得ない。これによって、複雑性は２^b
倍になるが(最悪の場合)、ここで、ｂは、副照会の出力
における列数である。

【０１７９】表３は、いくつかのアルゴリズムの時間及
び空間の複雑性が要約されている。左深層ツリーの代わ
りにブッシーツリーの探索空間を利用すると、探索の時
間複雑性はO(2ⁿ)〜O(3ⁿ)になる。全体配列の代わりに、
ｌ次元に部分的配列を利用すると、時間複雑性は、2^l倍
になる。

【０１８０】作業束縛は、探索アルゴリズムに簡単に組
み込むことが可能であり、実際、探索空間を節減するこ
とができる。

【０１８１】例えば、まず、作業オプティマイザ（図１
のような）を実行して、照会の最適な作業コストW_oを求
めることによって、スループットの低下を制限すること
が可能である。応答時間アルゴリズムについて選択され
た剪定方法は、部分的配列をより厳格なものにする作業
制限によって拡張されるだけである。コスト・便益比を
組み込むために、同様のアプローチをとることも可能で
ある。

【０１８２】７結論本書では、従来のＤＢＭＳ問題の二元性として動機づけ
られた、照会最適化の問題、即ち、スループットに制約
を受ける応答時間の最短化について新規の公式化が提案
された。Select-Project-Join照会に関連したこの新規
の問題については、市販のＤＢＭＳにおいて広く用いら
れている実行空間、コストモデル、及び、探索アルゴリ
ズムを拡張することによって、取り扱われた。従来の実
行空間には、並列処理の誘因と抑止因が組み込まれた。
コストモデルは、応答時間を予測し、同時に、並列処理
による新しい局面に対処することができるということが
分かった。応答時間の最適化方法は、ほとんどの市販Ｄ
ＢＭＳのオプティマイザの要をなしている、動的計画法
アルゴリズムにおける基本的前提条件を侵害するもので
あることが明らかになった。動的計画法が拡張され、応
答時間を正確に予測する最適化方法の設計を可能にする
方法が提示された。

【０１８３】総合的な並列照会オプティマイザは、今日
では利用できないという確信が広く行き渡っている。こ
の問題のクリティカルな局面のいくつかについて取り扱
ってきたが、多くの未解決の問題点がある。以下では、
そのいくつかについて論じることにする。

【０１８４】実行空間における並列処理の誘因及び抑止
因をモデル化するが、スケジューリングのように、包含
される候補となる実行時間の局面がいくつか存在する。
一般に、コンパイル時に、実行時間の実行に関してどの
局面に決定すべきかを調査することは、興味のある問題
である。

【０１８５】優先使用可能な（即ち、タイムスライス可
能な）リソースの利用について取り扱われた。メモリの
ような優先使用不可能なリソースの組み込みは、未解決
の問題点である。更に、本コストモデルでは、パイプラ
イン処理及びクローニングによるオーバヘッドを数量化
しなかった。

【０１８６】従来の動的計画法アプローチに関する欠点
について述べ、適合する剪定方法を設計するための方法
が提示された。剪定方法の代替例に関する評価が必要で
ある。探索アルゴリズムについては、左深層ツリーに関
連して説明が行われた。広く信じられているところで
は、ブッシーツリーを用いた方が、より高度な並列処理
が可能になる。１０の関係についてさえ、これによっ
て、探索空間のサイズが３桁も増すことが明らかになっ
た。従って、非全数探索アルゴリズムの利用は、避けら
れなくなる可能性がある。

【０１８７】謝辞：この研究の初期の段階から忠告し、
励まし、支援して下さったことに関して、Mrie-Anne Ne
imat氏に感謝するものである。Donovan Schneider氏に
は、Gammaの経験の共有について感謝している。また、T
im Connors、Curtis Kolobson、Kevin Wilkinson、及び、D
atabase Technlogy Departmentの他の全てのメンバーに
対して謝意を表するものである。また、有効なフィード
バックをいただいたことに関して、Don Batory、Stefano
Ceri、Avi Silberschatz、及び、Gio Wiederholdの各氏
にも感謝するものである。

【０１８８】８参考文献

【０１８９】

【表４】

【０１９０】資料Ａ証明定理：作業に関するコスト方法≦_work （１）は、全体配列であり、（２）は、物理的透過性の
前提条件下において、最適性の原理を満たす。

【０１９１】証明：（１）は、作業が数値方法（整数ま
たは実数のような）であるため、単純に真である。
（２）を証明するためには、ｐ₁及びｐ₂が同じ副照会に
関する２つのプランであると仮定して、下記のようにな
ることを明らかにしなければならない： p₁≦_workp₂⇒[(∀i)joinPlan(p₁,R_i)≦_workjoinPlan(p₂,R_i)] p₁≦_workp₂と仮定し、任意の値をiとすると、joinPlan
(p₁,R_i)≦_workjoinPlan(p₂,R_i)になる。

【０１９２】work(joinPlan(p₁,R_i)) =work(p₁)+joinwork(q₁,R_i) （物理的透過性によ
る） ≦work(p₂)+joinwork(q₁,R_i) （p₁≦_workp₂との仮
定による） =work(joinPlan(p₂,R_i)) （物理的透過性によ
る）定理：応答時間を正確に予測し、全体配列を可能にし、
最適性の原理を満たす剪定方法は存在しない。

【０１９３】証明：この定理の証明は、応答時間を正確
に予測し、全体配列を可能にするコスト方法は、応答時
間方法によって得られるのと同じ全体配列をもたらすと
いう点を明らかにすることに基づくものである。応答時
間が最適性の原理を侵害することを示すために用いられ
る反例が、提示の剪定方法にもあてはまるので、これ
で、この定理の証明には十分である。

【０１９４】ここで、(1)応答時間を正確に予測する、
即ちp₁≦αp₂⇒p₁≦_rtp₂になり、また(2)プランの全体
配列を可能にする、即ち任意のプランp₁及びp₂について
p₁≦αp₂,p₂≦αp₁のうちの厳密に一方が真になる、コ
スト方法が存在するものと仮定する。

【０１９５】ここで、p₁≦_rtp₂の場合、及び、この場合
に限って、p₁≦αp₂になることを明らかにしなければな
らない。仮定(1)は、場合の部分を表している。場合に
限っての部分を示すため、p₁≦_rtp₂と仮定する。≦
_rtは、全体配列であるため、これは、p₂≦_rtp₁が偽でな
ければならないということを表している。仮定(1)によ
り、これは、p₂≦αp₁が偽でなければならないというこ
とになる。従って、(2)によって、p₁≦αp₂になる。

【０１９６】補助定理１：≦_pに関する任意の集合Pのカ
バー集合Cは、推移的である。

【０１９７】証明：省略。

【０１９８】定理：確率分布が、各次元に沿って独立し
ている場合、ｌ次元空間においてランダムに選択された
m個のポイントのカバー集合（≦_lに関する）の期待サイ
ズは、せいぜい2^l(1-(1/2^l)^m)である。

【０１９９】下記のより単純な定理の証明を示すだけに
する。

【０２００】均一に分布した２次元においてランダムに
選択されたm個のポイントのカバー集合（≦_lに関する）
の期待サイズは、せいぜい4(1-(3/4)^m)である。

【０２０１】証明：検討されるポイントの集合が、P_m=
{x₁,...,x_m}であると仮定する。更に、２Ｄ空間におい
てランダムに選択されたポイントがx及びyの時、確率(x
≦₂y)=βであると仮定する。

【０２０２】≦₂は、推移的であるため、補助定理１に
よれば、ポイント集合P_mのカバー集合wrt≦₂は、一意性
である。このカバー集合は、帰納的に生成されたものと
みなすことができる。即ち、C_iは、P_iに関するカバー集
合とみなすことが可能であり;C₀=P₀={};及び、ポイント
x_i+1を考慮して、下記を行うことにより、C_iからC_i+ ₁を
生成することができる： (1)x_i+1がx₁,...,x_iのどれによってもカバーされない場
合、C_i+1=C_i {x_i+1} (2)x_i+1がx∈C_iをカバーする場合、x_iをx_i+1に置き換え
る。

【０２０３】ステップ(1)によって、カバー集合が成長
する。ステップ(2)によって、カバー集合のサイズが縮
小される。ステップ(1)だけを考慮した場合、カバー集
合の期待サイズに対する下限が得られる。ステップ(1)
の確率は、(１−β)ⁱであり、従って、Ｃ_mの期待サイズ
に関する上限は、

【０２０４】

【数３】

【０２０５】となる。

【０２０６】ポイントが２Ｄ空間において均等に分布し
ているものと仮定した場合の、β=1/4の検証は、当業者
に委ねるものとする。期待サイズの上限は、従って、4
(1-(3/4)^m)になることが分かる。

【０２０７】定理：任意の副照会q₁及びq₁を計算する任
意のプランp₁、及び、任意の関係Rに関して、コストモ
デルが、rv(joinPlan(p₁,R))=rv(p₁)‖joinrv(q₁,R)の
場合、方法≦rv_lによって、最適性の原理が満たされ
る。

【０２０８】証明：p及びpが同じ副照会に関する２つの
プランである時、次のようになることが明らかにされ
る。

【０２０９】 p₁ ≦_rvlp₂⇒[(∀i)joinPlan(p₁,R_i)≦_rvljoinPlan(p₂,Ri)] p₁≦_rvlp₂と仮定し、任意の値をiとすると、 joinPlan(p₁,R_i)≦_rvljoinPlan(p₂,R_i) となる。この証明は、r₁≦_lr₂の場合、(r₁‖r₃)≦_l(r₂
‖r₃)になるという特性から直接得られることになる。

【０２１０】Ｂブッシーツリーに関するＤＰ

【０２１１】

【外６】

【０２１２】

【外７】

【０２１３】以上、本発明の特定の実施例について説明
及び図解してきたが、本発明は、前記において説明され
図解された部分の特定の形態や構成のみに限定されるべ
きものではなく、本発明の思想及び範囲から逸脱するこ
となく、多くの修正や変形を行うことができる。従っ
て、特定的に説明され図解されたもの以外についても、
特許請求の範囲に記載の本発明の範囲内で実施すること
ができる。

【０２１４】

【発明の効果】本発明は上述のように構成したので、並
列操作可能な複数のリソースを有するコンピュータ化デ
ータベースシステムにおいて問題を解決するのに必要と
される応答時間を最少化することが可能となる。

【図面の簡単な説明】

【図１】データベースシステムに関する一連の問題解決
のためのステップを示すフローチャートである。

【図２】データベースシステムで用いられる３つのテー
ブルを示す説明図である。

【図３】図２の３つのテーブルを結合させるための２つ
の方法を示す説明図である。

【図４】問題を解決するために並列操作する異なるリソ
ースが必要とする時間を示すグラフである。の

【図５】問題を解決するための２つのプランを示す説明
図である。

【図６】本発明の方法が如何にして問題解決において応
答時間を最適化するかを示す説明図である。

【図７】本発明の方法により問題解決に使用可能なデー
タベースシステム中の複数のリソースを示すブロック図
である。

【図８】問題解決における本発明の第１の好適実施例を
示す説明図である。

【図９】セレクト・プロジェクト・ジョイン照会の「セ
レクト」操作を示す説明図である。

【図１０】セレクト・プロジェクト・ジョイン照会の
「プロジェクト」操作を示す説明図である。

【図１１】セレクト・プロジェクト・ジョイン照会の
「ジョイン」操作を示す説明図である。

【図１２】問題解決における本発明の第２の好適実施例
を示す説明図である。

【符号の説明】

1,2,3 レベル 10 問題 10,11,12,13,15,17,19 副問題 20,22,50,52 副プラン 20A,20B,22A,22B 副々プラン 30 関連する副プラン 51 データ 60,63 プラン 102,104 計算リソース 106,108 ディスク記憶リソース

───────────────────────────────────────────────────── フロントページの続き (72)発明者サミット・ガングリーアメリカ合衆国テキサス州78751オウスティン，アヴェニュー・エイ・ナンバー・ 214・4605

Claims

【特許請求の範囲】

【請求項１】並列動作可能な複数のコンピュータリソー
スを有するコンピュータ化データベースシステムにおい
て問題解決用の最適プランを選択するための方法であっ
て、この方法が、問題を複数の副問題に分割し、前記副問題を複数レベルの階層状に配列し、第１レベル
における前記副問題の各々が、記憶リソースからデータ
を取り出すことを必要とし、一層高レベルにおける前記
副問題の各々が、一層下位レベルにおける前記副問題の
結果を計算リソースにおいて操作することを必要とし、前記副問題の各々を解決するために使用可能な副プラン
を全て識別し、２つ以上の副プランを有する第１レベルにおける任意の
副問題に関連する副プランのうち、前記副問題を解決す
るために複数のコンピュータリソースの各々に対して必
要とする時間が、それと同一の副問題を解決するために
他の副プランにより必要とされる前記時間より長い副プ
ランを全て削除し、問題を解決することになる残りの副プランの考えられる
各組み合わせ毎に応答時間を計算し、最短の応答時間を有する組み合わせを最適プランとして
選択する、というステップより成ることを特徴とする、
コンピュータ化データベースシステムにおいて問題解決
用の最適プランを選択するための方法。